股票信息數(shù)據(jù)挖掘?qū)嶒?yàn)報(bào)告_第1頁(yè)
股票信息數(shù)據(jù)挖掘?qū)嶒?yàn)報(bào)告_第2頁(yè)
股票信息數(shù)據(jù)挖掘?qū)嶒?yàn)報(bào)告_第3頁(yè)
股票信息數(shù)據(jù)挖掘?qū)嶒?yàn)報(bào)告_第4頁(yè)
股票信息數(shù)據(jù)挖掘?qū)嶒?yàn)報(bào)告_第5頁(yè)
已閱讀5頁(yè),還剩3頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

廣東外語(yǔ)外貿(mào)大學(xué)信息科學(xué)技術(shù)學(xué)院股票信息數(shù)據(jù)挖掘?qū)嶒?yàn)報(bào)告日期:2011-1-一、摘要數(shù)據(jù)挖掘是數(shù)據(jù)庫(kù)應(yīng)用和研究的一個(gè)新領(lǐng)域,其目標(biāo)是通過(guò)對(duì)歷史數(shù)據(jù)的分析統(tǒng)計(jì)得出用戶感興趣的結(jié)果。在股票交易事務(wù)處理中,每天有以交易信息為主的大量數(shù)據(jù)匯入數(shù)據(jù)倉(cāng)庫(kù),這些數(shù)據(jù)無(wú)疑對(duì)股民了解股市的走勢(shì),做出正確的投資決策;經(jīng)濟(jì)學(xué)家分析不同層次用戶的投資行為和各種股票之間的關(guān)系,以及及時(shí)發(fā)現(xiàn)股市中的非正常行為;各上市公司和政府部門出臺(tái)新的方案等諸多方面具有重要的參考價(jià)值。作為市場(chǎng)經(jīng)濟(jì)重要特征的股票市場(chǎng),從誕生的那天起就牽掛著數(shù)以千萬(wàn)投資者的心。高風(fēng)險(xiǎn)高回報(bào)是股票市場(chǎng)的特征,因此投資者們時(shí)刻在關(guān)心股市、分析股市、試圖預(yù)測(cè)股市的發(fā)展趨勢(shì)。一百多年來(lái),一些分析方法隨著股市的產(chǎn)生和發(fā)展逐步完善起來(lái),如:道氏分析法、K線圖分析法、柱狀圖分析法、點(diǎn)數(shù)圖分析法、移動(dòng)平均法,還有形態(tài)分析法、趨勢(shì)分析法、角度分析法、神秘級(jí)數(shù)與黃金分割比螺旋歷法、四度空間法等,隨著計(jì)算機(jī)技術(shù)在證券分析領(lǐng)域的普及與應(yīng)用,不斷推出新的指標(biāo)分析法。然而,嚴(yán)格講這些方法僅僅是分析手段,還不能直接預(yù)測(cè)股市的動(dòng)態(tài)。此外,人們也試圖用回歸分析等統(tǒng)計(jì)手段建立模型來(lái)預(yù)測(cè)股市。然而,利用傳統(tǒng)的預(yù)測(cè)技術(shù)進(jìn)行股市預(yù)測(cè)有一個(gè)最根本的困難,那就是待處理的數(shù)據(jù)量非常巨大。由于股市的行情受到政治、經(jīng)濟(jì)等多方面因素的影響,其內(nèi)部規(guī)律非常復(fù)雜,某些變化規(guī)律的周期可能是一年甚至是幾年,因此需要通過(guò)對(duì)大量數(shù)據(jù)的分析才能得到,而傳統(tǒng)的預(yù)測(cè)技術(shù)預(yù)測(cè)效果并不理想。近十年間,數(shù)據(jù)挖掘技術(shù)的研究工作取得了很大的進(jìn)展,各種數(shù)據(jù)挖掘技術(shù)的應(yīng)用極大地推動(dòng)了人們分析、處理大量數(shù)據(jù)信息的能力,并為人們帶來(lái)了很好的經(jīng)濟(jì)效益,因此可以預(yù)見(jiàn)數(shù)據(jù)挖掘技術(shù)在股市預(yù)測(cè)中將會(huì)有很大的潛力。二、研究?jī)?nèi)容本實(shí)驗(yàn)以數(shù)據(jù)挖掘技術(shù)為基礎(chǔ),對(duì)股票的走勢(shì)進(jìn)行分析預(yù)測(cè)。目標(biāo)為使用數(shù)據(jù)挖掘中的幾種常用方法建立預(yù)測(cè)模型,通過(guò)對(duì)預(yù)測(cè)過(guò)程及預(yù)測(cè)結(jié)果的分析,來(lái)尋求數(shù)據(jù)挖掘算法與股票預(yù)測(cè)的結(jié)合點(diǎn)。通過(guò)對(duì)近四年的股票全景與個(gè)股的分析,經(jīng)過(guò)預(yù)處理后用weka對(duì)數(shù)據(jù)進(jìn)行分類與關(guān)聯(lián)的進(jìn)一步挖掘,實(shí)地體驗(yàn)數(shù)據(jù)挖掘在股票預(yù)測(cè)領(lǐng)域起的作用。三、數(shù)據(jù)挖掘過(guò)程數(shù)據(jù)挖掘是一個(gè)反復(fù)的過(guò)程,包含多個(gè)相互聯(lián)系的步驟,如定義和分析主題、數(shù)據(jù)預(yù)處理、選取算法、提取規(guī)則、評(píng)價(jià)和解釋結(jié)果、將模式構(gòu)成知識(shí),最后是應(yīng)用。1.問(wèn)題定義進(jìn)行數(shù)據(jù)挖掘前,首先要分析股票領(lǐng)域,了解股票領(lǐng)域的有關(guān)情況,熟悉背景知識(shí)。在確定需求后,對(duì)現(xiàn)有資源如已有的歷史數(shù)據(jù)進(jìn)行評(píng)估,確定是否能夠通過(guò)數(shù)據(jù)挖掘技術(shù)來(lái)滿足需求,然后將進(jìn)一步確定數(shù)據(jù)挖掘的目標(biāo)和制定數(shù)據(jù)挖掘計(jì)劃。2.?dāng)?shù)據(jù)準(zhǔn)備數(shù)據(jù)挖掘所處理的數(shù)據(jù)集通常不僅具有海量數(shù)據(jù),而且可能存在大量的噪聲數(shù)據(jù)、冗余數(shù)據(jù)、稀疏數(shù)據(jù)或不完全數(shù)據(jù)等。數(shù)據(jù)準(zhǔn)備包括數(shù)據(jù)抽取、清洗、轉(zhuǎn)換、和加載,具體包括數(shù)據(jù)的清洗、集成、選擇、變換、規(guī)約,以及數(shù)據(jù)的質(zhì)量分析等步驟。3.建立模型數(shù)據(jù)挖掘中的建模實(shí)際上就是利用己知的數(shù)據(jù)和知識(shí)建立一種模型,這種模型可以有效地描述已知的數(shù)據(jù)和知識(shí),希望該模型能有效地應(yīng)用到未知的數(shù)據(jù)或相似情況中。在數(shù)據(jù)挖掘中,可以使用許多不同的模型:關(guān)聯(lián)規(guī)則模型、決策樹模型、神經(jīng)網(wǎng)絡(luò)模型、粗糙集模型、數(shù)理統(tǒng)計(jì)模型、時(shí)間序列分析模型。4.評(píng)價(jià)模型數(shù)據(jù)挖掘得到的模式有可能是沒(méi)有實(shí)際意義或沒(méi)有實(shí)用價(jià)值的,也有可能不能準(zhǔn)確反映數(shù)據(jù)真實(shí)意義,甚至在某些情況下是與事實(shí)相反的,因此對(duì)于數(shù)據(jù)挖掘的結(jié)果需要進(jìn)行評(píng)估。確定數(shù)據(jù)挖掘是否存在偏差,挖掘結(jié)果是否正確,確定哪些是有效的、有用的模式,是否能滿足需求。5.評(píng)估評(píng)估的方法一種是直接使用原先建立的挖掘數(shù)據(jù)庫(kù)中的數(shù)據(jù)來(lái)進(jìn)行檢驗(yàn),也可以另找新的測(cè)試數(shù)據(jù)并對(duì)其進(jìn)行檢驗(yàn),另一種辦法是使用實(shí)際運(yùn)行環(huán)境中的當(dāng)前數(shù)據(jù)進(jìn)行檢驗(yàn)。四、挖掘成果1.用分類C4.5算法挖掘股票全景數(shù)據(jù)集(2010.12.28-2011.01.04)(1)原始數(shù)據(jù)集日期 代碼 名稱 漲幅%% 現(xiàn)價(jià) 日漲跌 買入價(jià) 賣出價(jià)……20101227 000001 深發(fā)展A -2.25 16.07 -0.37 16.07 16.0820101227 000002 萬(wàn)科A -2.89 8.75 -0.26 8.74 8.7520101227 000004 ST國(guó)農(nóng) -2.99 11.7 -0.36 11.7 11.7220101227 000005 世紀(jì)星源 -3.58 3.77 -0.14 3.77 3.7820101227 000006 深振業(yè)A -4.71 7.28 -0.36 7.27 7.2820101227 000007 ST零七 -1.83 8.58 -0.16 8.58 8.5920101227 000008 ST寶利來(lái) -2 11.78 -0.24 11.77 11.7920101227 000009 中國(guó)寶安 -4.44 16.15 -0.75 16.14 16.15……共12047條記錄,20維屬性。經(jīng)過(guò)多次數(shù)據(jù)預(yù)處理,得到數(shù)據(jù)集如下:日期換手%%今開/昨收最高價(jià)比收盤最低價(jià)比收盤市盈(動(dòng))振幅%%漲跌2010123185.681.2270higherlower166.8420.71201101042.550.9954samelower54.5612.791201012296.920.9928higherlower235.8312.861201101045.911.0061samelower33.4112.441201012296.890.9963samelower71.3112.212010123017.790.9859higherlower48.0912.4812010122755.621.0322higherlower65.0113.341201012302.470.9977higherlower892.3612.151……共11632條記錄,8維屬性。挖掘結(jié)果如下:置信因數(shù)取0.1NumberofLeaves: 26Sizeofthetree: 47準(zhǔn)確率85%取置信因數(shù)1.0E-4NumberofLeaves: 13Sizeofthetree: 21準(zhǔn)確率約85%,并且當(dāng)置信因數(shù)繼續(xù)往小取時(shí),分支數(shù)不再改變。2.用聚類Apriori算法挖掘個(gè)股000005世紀(jì)星源(2006.01.12-2010.12.24)(1)原始數(shù)據(jù)集日期 開盤 最高 最低收盤成交量成交額2006-1-11 1.03 1.04 1.02 1.03 3372554 5725193.52006-1-12 1.02 1.04 1.01 1.04 4091492 69195042006-1-13 1.04 1.05 1.02 1.03 3262149 5545958.52006-1-16 1.04 1.04 1.01 1.02 3196712 54002172006-1-17 1.01 1.05 1 1.04 4720177 80446882006-1-18 1.04 1.05 1.03 1.04 5126617 8774786……共1106條記錄,7維屬性。經(jīng)過(guò)多次數(shù)據(jù)預(yù)處理,得到數(shù)據(jù)集如下:年份是否高開昨最高=昨收盤昨最低=昨收盤成交量增長(zhǎng)成交額增長(zhǎng)開盤比前五天均價(jià)收盤比前五天均價(jià)漲跌2006-10011-1112006010001-1-12006100001-1-12006-10011-1112006000111102006000001102006000111-1-1……共1105條記錄,9維屬性。挖掘結(jié)果如下:最小支持度取0.48,最小置信度取0.8。.五、結(jié)論用分類C4.5算法挖掘股票全景數(shù)據(jù)集,經(jīng)過(guò)多次數(shù)據(jù)預(yù)處理后,20維屬性縮小到8維,但是對(duì)于一萬(wàn)多條數(shù)據(jù)的龐大且混亂的數(shù)據(jù)集來(lái)說(shuō),依然沒(méi)什么特別的結(jié)果。這與我們的知識(shí)相吻合,股票的漲跌并不能用簡(jiǎn)單的規(guī)律挖掘就能得出結(jié)果。用聚類Apriori算法挖掘個(gè)股000005世紀(jì)星源,個(gè)股對(duì)全領(lǐng)域的代表性有限,但是我們依然有一些小小的發(fā)現(xiàn)。成交額與成交量基本上是共同升降(98%、98%)的;大部分股票的收盤價(jià)都不是當(dāng)天的最高價(jià)或最低價(jià)(92%、87%);成交量下降的股票,前一天不會(huì)在最低價(jià)收盤(92%),對(duì)成交額亦然(91%);開盤價(jià)創(chuàng)近五天均價(jià)新高,則前一天不會(huì)在最低價(jià)收盤(96%),對(duì)收盤價(jià)亦然(95%)。這些數(shù)據(jù)對(duì)股票預(yù)測(cè)也許沒(méi)有決定性的影響,但也算是我們實(shí)驗(yàn)的一個(gè)小發(fā)現(xiàn)。六、課程體會(huì)數(shù)據(jù)挖掘是一門很有前景的學(xué)科,其預(yù)測(cè)、分類等功能廣泛應(yīng)用在各個(gè)領(lǐng)域。通過(guò)這一學(xué)期的學(xué)習(xí),我們基本掌握了數(shù)據(jù)挖掘的基礎(chǔ)技術(shù),了解了數(shù)據(jù)挖掘的基本原理,并學(xué)會(huì)用weka進(jìn)行簡(jiǎn)單的數(shù)據(jù)挖掘?qū)嶒?yàn)。但是實(shí)際操作并不如想象中那么簡(jiǎn)單,一個(gè)原始數(shù)據(jù)集,要從數(shù)據(jù)預(yù)處理開始一點(diǎn)一點(diǎn)地添加刪減,

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論