大數(shù)據(jù)在選股分析中的應用_第1頁
大數(shù)據(jù)在選股分析中的應用_第2頁
大數(shù)據(jù)在選股分析中的應用_第3頁
已閱讀5頁,還剩45頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、文摘要在科技不斷發(fā)展、網(wǎng)絡覆蓋率持續(xù)擴張的今天,大數(shù)據(jù)時代早已悄然而至,每個行 業(yè)都會形成海量、 繁雜的數(shù)據(jù)。 對于如何有效地采集信息、 如何挖掘出數(shù)據(jù)內(nèi)部的規(guī)律, 學者們一直在不遺余力地研究并不斷提供各種新型的技術(shù)。對于國內(nèi)的私募基金而言,大數(shù)據(jù)的價值及其所蘊含的新商機并未充分體現(xiàn)出來, 不過可以肯定的是,大數(shù)據(jù)在私募基金決策的過程中起著越來越重要的作用?;鹦袠I(yè) 是一個大數(shù)據(jù)市場,股市每天交易頻繁,由此形成了大量的數(shù)據(jù),大數(shù)據(jù)分析技術(shù)在這 一行業(yè)不斷走向成熟的過程中,也在不斷地更新。筆者在本課題中,以金融市場中存在的主要問題為切入點,以上市企業(yè)為對象,探 討如何對基本面數(shù)據(jù)以及股票交易展開

2、挖掘分析,并且詳細闡述了 K-means算法的基本 原理、神經(jīng)網(wǎng)絡在選股的作用原理;在現(xiàn)有股票預測原理的基礎上,提出的多聚類分析 股票數(shù)據(jù)的方法,結(jié)合分類算法對股票數(shù)據(jù)進行訓練,形成基于聚類分析的智能選股算 法。然后對算法進行驗證,對整體方案框架進行設計,通過MATLABft行聚類實現(xiàn),最后得出最優(yōu)參數(shù)下的聚類結(jié)果。最后結(jié)合聚類分析出來的選股算法,利用HADOO技術(shù)設計一個簡單,穩(wěn)定高性能的智能選股系統(tǒng)。實驗結(jié)果顯示,開發(fā)出的模型分析選股系 統(tǒng)可以對股票數(shù)據(jù)進行多維的分析預測,作為投資者的投資決策的輔助工具,是利用數(shù) 據(jù)挖掘技術(shù)結(jié)合多聚類分析股票數(shù)據(jù)的方法,分析大量與股票相關(guān)數(shù)據(jù),并做出未來走

3、 勢預測,具有一定的實用意義。關(guān)鍵詞 : 私募基金;數(shù)據(jù)挖掘;證券分析;互聯(lián)網(wǎng)大數(shù)據(jù);交易數(shù)據(jù)AbstractWith the continuous development of technology and the continuous expansion of network coverage, the era of big data has long been quietly emerging and there is massive and complicated data in every industry. Researchershave been sparing no effor

4、t in researching and constantly providing various new technologies for how to effectively collect information and how to find out the internal laws of data.For domestic private equity funds, the value of big data and the new business opportunities big data contains are not fully demonstrated, but it

5、 is certain that big data plays an increasingly important role in the decision-making process of private equity funds. The fund industry is a big data market. Daily trades in the stock market result in a large amount of data. Analysis technology of big data is constantly updated with the industry be

6、ing mature.In this subject, takeing the main problems existing in the financial market as the starting point and the listed companies as the object, the author explores how to excavate and analyze the fundamental data and stock transactions, and elaborates the basic principle of K-means algorithm. B

7、ased on the existing stock forecasting theory, this paper proposes a multi-clustering method to analyze stock data and a combination of classification algorithms to train stock data to form an intelligent stock selection algorithm based on clustering analysis.Then the algorithm is verified, the over

8、all program framework is designed, and the clustering is realized by MATLAB. Finally, the clustering results under the optimal parameters are obtained. At last combining with the stock selection algorithm based on clustering analysis, a simple stable and high-performance intelligent stock selection

9、system is designed by using HADOOP technology. The experimental results show that the model stock picking system can make multi-dimensional analysis and forecasting of stock data. As a supporting tool for investors' investment decision-making, it has certain practical significance, which uses th

10、e method of data mining combined with multi-cluster analysis of stock data, Stock-related data, and make the future trend forecast.Key Words: private fund; data mining; securities analysis; Internet big data目錄中文摘要 IABSTRACT II目 錄 III圖表目錄 V1 緒論 11.1 論文選題研究的背景及意義 11.2 國內(nèi)外現(xiàn)狀分析 21.2.1 國外大數(shù)據(jù)在金融領(lǐng)域發(fā)展現(xiàn)狀21.2

11、.2 國內(nèi)大數(shù)據(jù)在金融領(lǐng)域發(fā)展現(xiàn)狀41.3 論文的組織結(jié)構(gòu) 52 相關(guān)理論技術(shù)基礎及可行性分析 62.1 股票二級市場的狀況 62.2 數(shù)據(jù)挖掘工作原理 92.2.1 聚類算法概述 9222 K-mea ns 算法原理102.2.3 分類算法142.2.4 分類算法的類型152.3 神經(jīng)網(wǎng)絡在選股中的作用 182.3.1 神經(jīng)網(wǎng)絡進行股票預測的原理182.4 本章小結(jié) 193 智能數(shù)據(jù)挖掘 選股算法 203.1 現(xiàn)狀分析 203.2 基本概念 213.2.1 算法研究 213.2.2 多聚類分析股票數(shù)據(jù) 233.2.3 多聚類方法描述 243.3 本章小結(jié) 254 算法模型 驗證 264.1

12、實驗方案 264.2 數(shù)據(jù)準備 264.3MATLAB 中聚類的實現(xiàn) 264.4 聚類結(jié)果 284.4.1 采樣/持有周期 對聚類結(jié)果的影響 284.4.2 分類數(shù)/滯后期對聚類結(jié)果的影響 304.4.3 最優(yōu)參數(shù)下的聚 類結(jié)果 304.5 本章小結(jié) 315 選股系統(tǒng)的設計 325.1 系統(tǒng)的詳細架構(gòu) 325.2 并行數(shù)據(jù)挖掘算法 實現(xiàn) 335.3 數(shù)據(jù)庫設計 345.3.1 數(shù)據(jù)表索引 345.3.2 數(shù)據(jù)表詳細設計 355.4 詳細設計 375.4.1 數(shù)據(jù)結(jié)構(gòu)設計 375.4.2 離線交易數(shù)據(jù)入 庫 385.4.3 主要指標數(shù)據(jù)計算385.5 系統(tǒng)實施 435.5.1 日線數(shù)據(jù)入庫 43

13、5.5.2 指標計算 435.5.3 智能選股 435.6 應用 455.7 系統(tǒng)測試 455.8 本章小結(jié) 466 總結(jié)與不足 47參考文獻 49致 謝 50圖表目錄圖 2-1K 均值聚類算法的流程圖 11圖 2-2數(shù)據(jù)挖掘的流程圖 15圖 2-3數(shù)據(jù)文本分類的流程圖 15圖 3-1行業(yè)收益率序列聚類分析方法 21圖 3-2分類數(shù)據(jù)產(chǎn)生過程22圖 3-3分類模型的建立 22圖 3-4多重分 類模型建立 23圖 5-1系統(tǒng)架構(gòu)圖32圖 5-2并決策樹算法流程圖 33圖 5-3離線交易數(shù)據(jù)入庫流程圖 38圖 5-4日線數(shù)據(jù)入庫界面 43圖 5-5指標計算界面 43圖 5-6股票預測數(shù)據(jù) 45表

14、2-1行業(yè)分類表 8表 3-1股票資產(chǎn)定價的技術(shù)發(fā)展表 20表 4-1不同采樣 / 持有周期對聚類結(jié)果的影響 29表 4-2 不同采樣 / 持有周期對聚類結(jié)果的影響(反轉(zhuǎn)效應) 29表 4-3分類個數(shù) / 滯后期對聚類結(jié)果的影響 30表 4-4聚類模型下的收益 對比30表 5-1數(shù)據(jù)庫索引 35表 5-2日常交易數(shù)據(jù)表 35表 5-3股票指標數(shù)據(jù) 36表 5-4指標基本信息表 361 緒論1.1 論文選題研究的背景及意義在過去短短幾十年間, IT 行業(yè)經(jīng)歷了多次歷史性的革命,比如云計算、物聯(lián)網(wǎng)等, 而這一行業(yè)最新的突破性成果即為大數(shù)據(jù)。隨著計算機和網(wǎng)絡的普及,大數(shù)據(jù)時代已經(jīng) 降臨,在這樣的背景

15、下,私募基金行業(yè)也迎來了新的機遇和挑戰(zhàn)。無論是從投資者還是 創(chuàng)業(yè)者的角度來看,大數(shù)據(jù)都是非常受關(guān)注的融資標簽。大數(shù)據(jù)的首要特點是數(shù)據(jù)體量非常大, 通常至少應該達到10TB然而在現(xiàn)實中,很 多企業(yè)將自身的數(shù)據(jù)集全部集中起來,最終匯聚成達到PB級的數(shù)據(jù)量。另外,其所包含的數(shù)據(jù)從類型上來看是多種多樣的,數(shù)據(jù)來源豐富多樣,數(shù)據(jù)格式明顯不統(tǒng)一,完全 超出了以往人們所說的結(jié)構(gòu)化數(shù)據(jù)范疇,還包含了半結(jié)構(gòu)化數(shù)據(jù)以及非結(jié)構(gòu)化數(shù)據(jù)。大 數(shù)據(jù)的數(shù)據(jù)處理速率非???,即便它涉及到龐大的體量,但依舊能夠滿足數(shù)據(jù)處理的實 時性要求。最后,其數(shù)據(jù)具有很強的真實性,近些年間,社交數(shù)據(jù)、企業(yè)內(nèi)容、交易等 方面的信息不斷涌現(xiàn),這些

16、數(shù)據(jù)都來自新的數(shù)據(jù)源,在這樣的背景下,企業(yè)需要更加有 效的信息,才能確保其真實性和安全性,為企業(yè)的決策提供準確、及時的依據(jù)。作為一種信息資產(chǎn),大數(shù)據(jù)表現(xiàn)出大量、快速增長、多樣化的特點,其在決策、洞 察、流程優(yōu)化方面有著明顯的優(yōu)勢,但這些優(yōu)勢能夠在多大程度上體現(xiàn)出來,主要由處 理模式所決定。從數(shù)據(jù)類型角度而言,“大數(shù)據(jù)”是指超出以往的流程和方法的處理范 圍的信息。它對所有突破正常處理范圍、必須使用非傳統(tǒng)方法進行處理的數(shù)據(jù)集進行了 定義。亞馬遜網(wǎng)絡服務(AWS、大數(shù)據(jù)領(lǐng)域的學者John Rauser曾經(jīng)對其概念進行高 度歸納的闡述,即通過一臺計算機無法處理的龐大數(shù)據(jù)量。研發(fā)小組提到:大數(shù)據(jù)指的 是

17、一種最大、最時髦的宣傳技術(shù),一旦發(fā)生了這一現(xiàn)象,定義就會雜亂無章。而 Kelly 則認為,大數(shù)據(jù)或許并不等同于所有的數(shù)據(jù),但其所包含的大多數(shù)數(shù)據(jù)都是正確的。時 至今日,大數(shù)據(jù)的概念都存在廣泛的分歧,但有一點是取得了共識的,即由于它有著龐 大的體量,因此在對其進行分析的過程中,要用到多個工作負載。數(shù)據(jù)的極限,是由技 術(shù)的極限所決定的。當然,概念上的分歧并未對大數(shù)據(jù)的應用造成過大的影響,關(guān)鍵在 于如何應用,如何在更大程度上發(fā)揮出其作用和價值,因此要在技術(shù)方面不斷地推陳出 新,使大數(shù)據(jù)的作用充分的釋放出來。同時還要探討和以往的數(shù)據(jù)庫不同的是,具有開 源性特點的大數(shù)據(jù)分析工具比如 Hadoop的廣泛應

18、用,以其為代表的非結(jié)構(gòu)化數(shù)據(jù)服務 的價值體現(xiàn)在哪些方面等。大數(shù)據(jù)挖掘技術(shù)在金融領(lǐng)域的應用,可以追溯到十多年之前。金融行業(yè)是競爭十分 激烈的行業(yè),私募基金經(jīng)理每天都需要面對大量的數(shù)據(jù),能否高效地從中找到有價值的 信息,并據(jù)此對行情進行判斷,在很大程度上決定了產(chǎn)品收益率的高低。事實證明,大 部分投資決策失誤的根源在于信息不對稱,所以,越來越多的學術(shù)界和實踐界人士開始 投入到行業(yè)熱點信息的研究中來。與此同時,在網(wǎng)絡高速發(fā)展的背景下,網(wǎng)絡所形成的 金融大數(shù)據(jù)對金融分析師而言,充滿了機遇,同時也處處面臨危機和挑戰(zhàn)。筆者在本課題的研究中,從基金 經(jīng)理的角度出發(fā),探討大數(shù)據(jù)挖掘技 術(shù)對行情分析 的作用和價

19、值,從金融數(shù)據(jù)信息里面挖掘有效的因素,并據(jù)此 對股市未來的走向 進行預 測,對基于聚類分析的智能 選股算法進行分析和測試。本課題研究旨在充分利用大數(shù)據(jù) 挖掘技術(shù),為私募基金經(jīng)理在業(yè)務操作過程中提供更有力的依據(jù),使其能夠更加準確地 定位股票和分析、預測市場行情,改變以往實地調(diào)研等傳統(tǒng)方法過于耗時耗力的現(xiàn)狀。1.2 國內(nèi)外現(xiàn)狀分析1.2.1 國外大數(shù)據(jù)在金融領(lǐng)域發(fā)展現(xiàn)狀縱覽全球,大數(shù)據(jù)技術(shù)的主要潮流和趨勢是易用化、簡單化,大多數(shù)大數(shù)據(jù)分析企 業(yè),都將數(shù)據(jù)采集、分析、處理等功能全部集成在一起,通過分析平臺的方式提供這些 方面的服務。比如 Fractal Analytics 不但實現(xiàn)了數(shù)據(jù)分析的功能,

20、并且能夠在無需人 工操作的情況下完成數(shù)據(jù)的清理和驗證等操作,從而提供標準化、規(guī)范化的數(shù)據(jù)。 Voyager Labs 則在全球范圍內(nèi)鋪設了十億個數(shù)據(jù)點,有著廣泛的數(shù)據(jù)來源,從而為用戶 提供更加全面的數(shù)據(jù)服務。如今,很多企業(yè)的產(chǎn)品策略中明確提到,要進一步降低大數(shù)據(jù)技術(shù)的技術(shù)難度和成 本,從而提高其易用性,比如 Domino 公司推出的產(chǎn)品能夠讓研究人員將更多的精力和 時間放在數(shù)據(jù)分析上, 也就是節(jié)省在軟硬件環(huán)境維護方面的時間。 Datameer 推出的產(chǎn)品 直接將復雜的底層技術(shù)遮蓋起來,通過表格的形式將數(shù)據(jù)呈現(xiàn)在用戶的眼前,充分地考 慮到了用戶的操作習慣和便利性。 Rapid Miner Stu

21、dio 無需任何代碼就能夠在客戶端進 行操作,擁有機器學習、數(shù)據(jù)挖掘、文本挖掘等一系列的功能,能夠更好地滿足用戶的 需求。在大數(shù)據(jù)分析應用范圍不斷擴張的過程中,此項技術(shù)在性能方面的表現(xiàn)也持續(xù)優(yōu) 化,數(shù)據(jù)分析結(jié)果的準確性大幅提高。比如 SigOpt 公司通過貝葉斯優(yōu)化 (Bayesian Optimization) 算法對模型參數(shù)進行調(diào)整,從而對網(wǎng)格搜索方法予以改進,新的方法能 夠在更短的時間內(nèi)提供更為準確、 易用性更高的結(jié)果。 更重要的是, SigOpt 的產(chǎn)品不但 能夠?qū)Χ喾N變量進行測試,同時能夠為后續(xù)的測試工作提供可行的建議,從而為用戶提 供更加準確的數(shù)據(jù)分析結(jié)果。值得一提的是,很多大數(shù)據(jù)

22、分析企業(yè)通過不斷的研究,突破以往數(shù)據(jù)分析理論的約 束,通過新穎的方法實現(xiàn)數(shù)據(jù)分析, 為傳統(tǒng)的分析方法無法解決的問題提供了解決之道, 在很多領(lǐng)域中都得到了廣泛的應用。三位數(shù)學領(lǐng)域的權(quán)威專家共同成立的 Ayasdi 公司即為其中之一,這一公司基于拓 撲數(shù)據(jù)分析技術(shù)以及大量的機器學習算法開發(fā)出性能十分突出的數(shù)據(jù)處理功產(chǎn)品, 從而 對各種復雜的數(shù)據(jù)集進行處理,不但能夠采集到更多的高維數(shù)據(jù)空間里面的拓撲信息, 并且能夠提供很多以往的方法無法提供的小分類, 該產(chǎn)品如今已經(jīng)被應用到基因和癌癥 研究方面,在醫(yī)療保健領(lǐng)域起著重要的作用,一位醫(yī)生就是利用該產(chǎn)品發(fā)現(xiàn) 14 種乳腺 癌變種的,另外該產(chǎn)品在金融服務行業(yè)

23、中也積累了一定的用戶。如今,很多國家已經(jīng)從戰(zhàn)略層面來思考大數(shù)據(jù)的作用和價值, 并進行了全面的部署, 從而緊跟大數(shù)據(jù)技術(shù)革命的潮流。尤其是一些 IT 強國,比如美國等,為了促進大數(shù)據(jù) 技術(shù)的應用和發(fā)展,不但制定了全面的戰(zhàn)略和法律,并且擬定了科學的行動計劃。而在 澳大利亞,一些有著較強綜合實力的銀行,針對小微企業(yè)這一客戶,打造了無償?shù)拇髷?shù) 據(jù)分析服務,期望通過這種附加的服務,提高客戶忠誠度的同時,吸引更多的客戶,通 過此項服務,銀行幫助小企業(yè)進行客戶和競爭對手的分析,使其對其自身的財富結(jié)構(gòu)、 消費者購買傾向、競爭對手客戶結(jié)構(gòu)等情況有更加全面的了解。當然,大數(shù)據(jù)分析是需 要大量的原始數(shù)據(jù)的,而這些數(shù)

24、據(jù)都是銀行通過零售業(yè)務積累的,不但數(shù)量較大,而且 準確性更高, 因此銀行提供的分析結(jié)果比大多數(shù)市場分析機構(gòu)提供的結(jié)果更為全面和準 確。很多小企業(yè)就是看中了這方面的服務,才成為銀行的客戶的。大數(shù)據(jù)也為風險控制方面的創(chuàng)新創(chuàng)業(yè)注入了有力的活力, 比如來自美國的一家創(chuàng)業(yè) 型企業(yè),為了讓銀行更及時地了解貸款風險,將電梯運行的數(shù)據(jù)和黃頁數(shù)據(jù)結(jié)合在一起 進行分析。我們知道,如今有很多企業(yè)都是租借辦公樓的某一層或某一區(qū)域的,辦公樓 往往都是高層建筑,電梯是此類建筑的標準配置之一。電梯在運行的過程中,會產(chǎn)生各 種數(shù)據(jù),比如在其中一層停留了多少次等。黃頁信息具有公開性的特點,一般的個人也 能方便地查到,比如辦公樓

25、的某一層被哪一個企業(yè)所租賃等,將這兩方面的數(shù)據(jù)匹配起 來,就能夠確定每天電梯在特定的企業(yè)停留多少次。若這一數(shù)據(jù)在短時間內(nèi)出現(xiàn)大幅降 低的情況,或許可以證明公司的員工數(shù)量或到公司拜訪的客戶數(shù)量降低,該公司經(jīng)營狀 況有所下滑,這對銀行來說是非常重要且有價值的信息。如果銀行能夠在貸款后管理的 過程中及時地了解這一信息,將能夠?qū)崿F(xiàn)對貸款風險的跟蹤管理,相比以往每季度進行 的全面檢查,能夠更加及時地反映出風險狀況。當然,這一案例僅僅是大數(shù)據(jù)技術(shù)對金融機構(gòu)作用的“冰山一角”,其應用前景還 需我們?nèi)ヌ剿?、去開發(fā)。但現(xiàn)實卻是,盡管大數(shù)據(jù)處理技術(shù)的發(fā)展十分迅速,但金融機 構(gòu)在應用大數(shù)據(jù)方面的表現(xiàn)并不理想, 導致

26、這一現(xiàn)狀的原因是什么?為了尋求這一問題 的答案,波士頓咨詢公司從全球范圍內(nèi)選擇幾十家金融機構(gòu)展開調(diào)查研究,以期發(fā)現(xiàn)數(shù) 據(jù)發(fā)揮其價值的整個過程,并因此尋找到限制其價值發(fā)揮的節(jié)點之所在。該公司通過研究發(fā)現(xiàn),數(shù)據(jù)發(fā)揮價值的過程由七個環(huán)節(jié)構(gòu)成,即數(shù)據(jù)收集、獲得數(shù)據(jù)擁有者的許可和 信任、儲存和處理技術(shù)、數(shù)據(jù)科學 / 算法、協(xié)調(diào)、洞察、嵌入式變革。同時他們還指出, 限制數(shù)據(jù)價值發(fā)揮的節(jié)點是數(shù)據(jù)擁有者的許可和信任以及協(xié)調(diào)這兩個環(huán)節(jié), 這反映出數(shù) 據(jù)整合不力、金融機構(gòu)內(nèi)部不同部門協(xié)調(diào)不暢的問題。比如,很多銀行的問題在于各個 部門比如零售、對公等方面的數(shù)據(jù)并未充分地共享,同時技術(shù)和業(yè)務部門之間的溝通不 夠有效,

27、數(shù)據(jù)很難轉(zhuǎn)變成生產(chǎn)力。1.2.2 國內(nèi)大數(shù)據(jù)在金融領(lǐng)域發(fā)展現(xiàn)狀截止到 2017 年,國內(nèi)很多企業(yè)開始全面部署大數(shù)據(jù)處理技術(shù),這種技術(shù)也因此成 為生產(chǎn)環(huán)境中最重要的核心企業(yè)級系統(tǒng)。大數(shù)據(jù)的受關(guān)注程度有所降低,但這并未影響 到其發(fā)展速度,這方面各種產(chǎn)品不斷走向成熟,更多的財富百強企業(yè)開始將其應用到生 產(chǎn)經(jīng)營活動中去,一些初創(chuàng)企業(yè)也通過此項技術(shù)的應用找到了新的盈利增長點。毫不夸 張地說,大數(shù)據(jù)技術(shù)已經(jīng)成為國民生活中重要的基礎設施之一。大數(shù)據(jù)處理技術(shù)對金融企業(yè)內(nèi)部各個部門都有著一定的用途,比如從銷售部門來 看,該部門工作人員可以對客戶性格、資產(chǎn)、所屬行業(yè)等方面的數(shù)據(jù)進行分析和挖掘, 以客戶購買傾向為依

28、據(jù),對客戶進行排序,從而讓銷售員將更多的時間和精力放在購買 傾向更強的客戶身上,提高銷售成功率。對于企業(yè)宣傳部門而言,在完成市場情緒分析 的基礎上,能夠編輯出更容易使客戶共鳴的文案,幫助企業(yè)塑造更好的形象,提升投資 者對企業(yè)的信心。對于企業(yè)法務部門而言,大數(shù)據(jù)處理技術(shù)能夠“閱讀”大量的合同, 并根據(jù)具體的案件對法院的判決進行模擬,給出各種判決結(jié)果的概率,為法務部門選擇 辯護思路提供依據(jù),在不久后的未來,企業(yè)的初級法務工作或許可以完全交由大數(shù)據(jù)處 理技術(shù)完成。除此之外,從研發(fā)、策劃部門的角度來看,大數(shù)據(jù)技術(shù)能夠揭示出企業(yè)數(shù) 據(jù)內(nèi)部的關(guān)系,從而為基金經(jīng)理進行行情判斷、投放廣告、向客戶推薦金融產(chǎn)品等

29、提供 更有力的依據(jù)。大數(shù)據(jù)的應用價值和作用早已得到了實踐的驗證,其在人們生活的不同 領(lǐng)域發(fā)揮著日益重要的作用。整體來看,大數(shù)據(jù)金融具有普惠性的特點,它讓人們能夠享受到高效、平等的金融 服務。如果某一家金融機構(gòu)能夠了解大數(shù)據(jù)的規(guī)律,這就意味著掌握了更大的核心競爭 力,企業(yè)銷售業(yè)務量因此會大幅增長,企業(yè)市場份額因此而提高。當前,大數(shù)據(jù)分析的 理念和方法在國內(nèi)發(fā)展迅猛, 但現(xiàn)有的這方面的研究成果基本上都來自計算機科學領(lǐng)域 的研究人員,這些學者在進行這方面的研究時,基本上都是從信息科學角度出發(fā)的,將 主要的關(guān)注點放在大數(shù)據(jù)采集、保存、處理、挖掘等上,針對具體企業(yè)進行研究,探討 大數(shù)據(jù)對企業(yè)管理、決策作

30、用的研究成果相對比較少,在學科的融合這一點上做得不太 到位,知曉商業(yè)語言同時能夠獨自清理和組織大數(shù)據(jù)的專家人數(shù)略顯不足。1.3 論文的組織結(jié)構(gòu)本課題研究主要由以下六部分組成:第一章是緒論,闡述本課題研究背景和意義,從分析金融領(lǐng)域大數(shù)據(jù)使用史,進而 引導出本課題的創(chuàng)新性,并指明本課題研究思路。第二章論述股票二級市場的狀況,詳細闡述了 K-mea ns算法的基本原理、神經(jīng)網(wǎng)絡 在選股的作用原理。第三章結(jié)合現(xiàn)有股票預測原理的基礎上,提出的多聚類分析股票數(shù)據(jù)的方法,結(jié)合 分類算法對股票數(shù)據(jù)進行訓練,形成基于聚類分析的智能選股算法。第四章對智能選股算法進行驗證,對驗證方案進行闡述準備,并通過MATLAB

31、ft行聚類實現(xiàn),最后得出最優(yōu)參數(shù)下的聚類結(jié)果。第五章設計整體選股系統(tǒng),結(jié)合第三章給出的基于聚類分析的選股算法,利用 HADOC技術(shù)設計一個簡單。穩(wěn)定高性能的智能選股系統(tǒng)。第六章對本課題研究內(nèi)容進行歸納,提出針對性和可行性建議,指明未來該領(lǐng)域的 研究方向,并客觀地指出本課題研究的不足之處。2 相關(guān)理論技術(shù)基礎及可行性分析2.1 股票二級市場的狀況股票市場是股票發(fā)行和交易的平臺,參與這一市場的主要主體包括了:交易所、中 介機構(gòu)、自律性組織、監(jiān)管機構(gòu)、投資者等。1990 年底,為了推進改革開放, 滿足國內(nèi)經(jīng)濟增長的需求, 政府經(jīng)過多年的準備后, 在上海、深圳兩地成立了證券交易所,我國也因此成為全球第

32、一個擁有資本市場的社會 主義國家。當前,在國內(nèi)A股市場上市的企業(yè)超過了 2500家,股票總市值排名世界第三。在 過去將近三十年的歷程里,國內(nèi)股票市場在幫助企業(yè)籌集資金、提高企業(yè)融資結(jié)構(gòu)合理 性方面作出了無與倫比的貢獻,為我國經(jīng)濟的發(fā)展創(chuàng)造了更好的環(huán)境。如今,該市場中 能夠交易的證券包括了 A股、B股、企業(yè)債券、可轉(zhuǎn)換債券、國債等。越來越多的個人 和機構(gòu)邁入投資者隊伍中來。 中介機構(gòu)是證券市場的重要參與者, 國內(nèi)這一機構(gòu)的出現(xiàn), 可以追溯到上世紀八十年代中期,在此后的十年間迅猛發(fā)展。統(tǒng)計數(shù)據(jù)顯示,我國一共 擁有超過 90 家的證券公司,開展證券業(yè)務的會計師事務所超過 100 家,律師事務所超 過

33、 300 家,資產(chǎn)評估機構(gòu)超過 100 家,證券評級機構(gòu)一共 2 家。同時,更多的國民將投 資目光轉(zhuǎn)向證券市場, 2016年6月,國內(nèi)在證券公司開戶的個人達到 2億人之多。 然而 就目前的現(xiàn)狀來看,國內(nèi)的股票市場和國外市場的關(guān)聯(lián)性并不強。國內(nèi)資本市場存在一 系列的問題,比如市場結(jié)構(gòu)合理性程度低、在資源配置方面的作用并未完全體現(xiàn)出來、 市場約束機制不夠有力、市場運行機制不夠完善等,要解決這些問題,有賴于資本市場 自身的調(diào)整和優(yōu)化。A股市場長時間保持低迷,這是市場調(diào)整所必須經(jīng)歷的階段。整體來看,國內(nèi)股票市場的特征主要體現(xiàn)在這些方面:1、在企業(yè)性質(zhì)上,包括了國有企業(yè)以及民營企業(yè)。國有企業(yè):此類企業(yè)的

34、管理目標和股東利益存在一定的出入, 國企追求的終極目標, 并非紅利的最大化,而是對國家建設和人民生活貢獻的最大化。在過去的一段時間內(nèi), 銀行股的股價不太理想,而在香港的保險公司則長期保持這種低迷的表現(xiàn),尤其是信托 行業(yè),其情況更加令人堪憂。境外的經(jīng)驗告訴我們,從短期的角度來看,信托的利潤是 非??捎^的,但從中長期的角度來看,股東要承受較大的風險,這是歐美地區(qū)上市企業(yè) 對信托行業(yè)不太感興趣的主要原因之所在。民營/私營企業(yè):過度競爭。我國擁有的汽車、水泥、鋼鐵企業(yè)數(shù)量居全球首位, 一個行業(yè)中存在過多的競爭者,很有可能會出現(xiàn)惡性競爭行為,啤酒行業(yè)利潤低于其他 國家就是最好的證明。當然,這種現(xiàn)狀并不是

35、有弊無利的,它能夠提高行業(yè)的競爭性, 降低生產(chǎn)和經(jīng)營成本,提高在全球市場中的競爭地位,但會對股東利益造成影響,導致 企業(yè)盈利能力降低。私營企業(yè),特別是家族企業(yè)在未來的發(fā)展充滿更多的不確定性。3. 企業(yè)作假,存在嚴重的內(nèi)幕交易情況,雖然這種情況在各個國家都有,但相比來看, 在國內(nèi)更為嚴重。2、股票政策目標的不合理,現(xiàn)行的很多針對股市進行監(jiān)管的政策,其目標不是以 保護股東為主。 2009 年到現(xiàn)在,美國證監(jiān)會總共開出 249 張罰單,遠遠多于我國。從管 理層面而言,美國證監(jiān)會的首要保護對象為股東, 企業(yè)甚至是經(jīng)濟都沒有股東那么重要。3、投資者基礎不理想:投資者投資理念不夠成熟,沒有足夠的資金用于長

36、期投資, 大部分都追求的是短期利益。首先,在投資目的上的差異,以巴西為例,該國股市上最大的投資者是以長線投資 為主的機構(gòu),并非個人。一旦股市出現(xiàn)大幅的波動,機構(gòu)投資者也會繼續(xù)投資和交易行 為,而在國內(nèi) 90%都為散戶,在這種情況下容易撤離。其次,上市企業(yè)忽視了長期投資者的利益。不管是國企還是民營企業(yè),都身處競爭 過度的困境,大部分的企業(yè)并未對未來 5-10 年的發(fā)展進行科學的規(guī)劃。所以從個人層 面而言,難以進行長期投資。在國內(nèi),企業(yè)在五年后跨行的事件屢見不鮮,很多投資者 選擇短期投資也是無奈之舉。在過去的幾年間,越來越多的個人將投資的目光轉(zhuǎn)向二級 市場,然而上市企業(yè)對分紅的積極性并不高,大部分

37、投資者都是通過差價抓取收益的, 因此將近八成的投資者每天所跟蹤的, 就是股票價格的波動并對大盤的波動情況進行預 測,國內(nèi)股票市場的驅(qū)動力來源在于散戶, 因此學者們在進行股票市場方面的研究時的, 都將關(guān)注點放在股價的波動和如何進行更準確的預測上。眾所周知,證券市場中的上市企業(yè)身處宏觀經(jīng)濟這一大環(huán)境,因此難免受到影響。 所以,在股票市場中投資時,通常都會結(jié)合當下的經(jīng)濟形勢進行考慮,選擇可能會帶來 收益的上市企業(yè)股票。要準確的判斷經(jīng)濟形勢,通常都需要結(jié)合政府相關(guān)部門制定的財政和貨幣政策,以 及披露的行業(yè)數(shù)據(jù)進行全面的考慮。 財政政策是政府根據(jù)當前社會各個方面的發(fā)展目標 而提出的財政工作總體方針,政府

38、制定和推行此項政策的主要目的,是對國民總需求進 行調(diào)整。從財政政策的角度能夠了解發(fā)展空間,通過經(jīng)濟數(shù)據(jù)對發(fā)展取得的成績進行檢 驗。各種經(jīng)濟數(shù)據(jù)和貨幣政策存在緊密的關(guān)聯(lián),貨幣政策指的是政府或央行為引導經(jīng)濟 活動朝著預期的方向前行而制定的貨幣方面的政策, 主要目的是對貨幣供應和利率進行 控制,通俗來說就是調(diào)節(jié)貨幣的流通量, 這一參數(shù)在很大程度上決定了國民的消費能力。 比如,當政府推行收縮性貨幣政策時,利率就會因此而提高,消費者難以從銀行手中獲 取貸款資金支持,或者不愿意承擔高額的利息而放棄消費,所以此項政策對房地產(chǎn)行業(yè) 的發(fā)展具有打壓性的作用,在這種情況下理性的投資者就會遠離房產(chǎn)股。通過分析對經(jīng)濟

39、形勢有全面的了解后, 后續(xù)工作主要是找到發(fā)展前景比較好的行業(yè) 了。以行業(yè)中競爭者數(shù)量、產(chǎn)品性質(zhì)、企業(yè)價格控制能力等為依據(jù)來看,市場包括了四 種類型,即完全競爭、壟斷競爭、寡頭壟斷、完全壟斷。接著對確定的行業(yè)的周期性展 開判斷,行業(yè)發(fā)展狀況和宏觀經(jīng)濟狀況之間存在一定的關(guān)聯(lián),不過各個行業(yè)這一關(guān)聯(lián)性 的強弱程度存在或大或小的差異,根據(jù)這一差異可以把各個行業(yè)分成三種,具體如下表2-1 :表2-1行業(yè)分類表增長性行業(yè)該行業(yè)的變動趨勢和宏觀經(jīng)濟并非未完全同步,表現(xiàn)出較強的增長性,無 論經(jīng)濟處于增長或衰退階段,行業(yè)都有可能表現(xiàn)出增長的趨勢。周期性 行業(yè)該行業(yè)的變動趨勢和宏觀經(jīng)濟是完全同步的,比如鋼鐵、有色金

40、屬、煤炭 等行業(yè),都屬于這一類。防御型行業(yè)無論經(jīng)濟處于周期中的哪一階段,行業(yè)的發(fā)展都比較穩(wěn)定,比如視頻業(yè)、 公用事業(yè)等,都屬于這一類。無論是哪一種行業(yè),都不可避免地會經(jīng)歷成長、衰退等階段,此即為行業(yè)生命周期 理論的核心之所在。投資者能夠按照專業(yè)的偏好對特定的行業(yè)展開分析。從幼稚期、成 長期、成熟期、衰退期來看,每個階段行業(yè)中應該選擇的企業(yè)是不同的。針對幼稚期行 業(yè),通常都會投資管理人員整體素質(zhì)較高的企業(yè);針對成長期行業(yè),通常都會投資技術(shù) 成熟、市場容量大、產(chǎn)業(yè)關(guān)聯(lián)性更強的企業(yè);針對成熟期行業(yè),企業(yè)在產(chǎn)品、工藝和技 術(shù)方面都達到了成熟水平,企業(yè)競爭力最強;針對衰退期行業(yè),落后的產(chǎn)能應該去尋找 新

41、的替代品,也就是說企業(yè)發(fā)展的重點在于業(yè)務的轉(zhuǎn)變。目前應用比較廣泛的調(diào)研方法包括了: 問卷調(diào)查、電話訪問、實地調(diào)研、深度訪談。 在正式調(diào)研之前,需要完成的準備工作包括了:采集基礎性的行業(yè)數(shù)據(jù);了解企業(yè) 在過去兩年或以上時間的相關(guān)數(shù)據(jù);瀏覽市場中權(quán)威媒體公布的的文章,從而了解市 場以及對手的觀點和最新情況;創(chuàng)建模型,把采集到的關(guān)于行業(yè)和企業(yè)的數(shù)據(jù)提交給 模型,確定模型預測還需要哪些未知的數(shù)據(jù),編制調(diào)研提綱;對于未知的數(shù)據(jù),根據(jù) 市場觀點以及自身的經(jīng)驗,對其進行估量,然后將其提交給模型,基于模型輸出的結(jié)果 對企業(yè)進行較為全面的判斷。這一過程涉及到大量的數(shù)據(jù)挖掘工作,需要投入大量的時 間和精力,當前行

42、業(yè)研究的框架和邏輯是完全公開的,因此決定基本面判斷結(jié)果的主要 因素,是數(shù)據(jù)的及時性和準確性,了解各個行業(yè)的核心數(shù)據(jù)之所在,并及時地進行更新, 創(chuàng)建數(shù)據(jù)挖掘系統(tǒng),跟蹤這些數(shù)據(jù),是準確判斷行業(yè)周期的重要前提。整體而言,趨勢的形成、演變的規(guī)律,在很大程度上由因果循環(huán)所決定,市場分析 的重點在于趨勢的判斷、跟蹤和迎合。因此,為了提高行情分析的準確性,必須明確和 市場發(fā)展有關(guān)的各項因子。2.2 數(shù)據(jù)挖掘工作原理2.2.1 聚類算法概述聚類,指的是將大量的數(shù)據(jù)分割成多個簇,確保不同簇彼此間有著明顯的區(qū)別,而 同一個簇里面的數(shù)據(jù)的差異非常小。這里的簇指的是樣本的集合,聚類分析讓同一個簇 里面的元素的關(guān)聯(lián)性比

43、其和別的簇里面的元素的關(guān)聯(lián)性更強, 也就是說同一個簇包含的 兩個元素表現(xiàn)出很高的相似度,不同簇里面的元素則表現(xiàn)出很高的相異度。通過對樣本 的屬性值進行計算, 就能夠確定相異度的大小, 通常情況下都會選擇不同樣本的 “距離” 予以衡量。聚類分析(Cluster Analysis)別名群分析,它是遵循“物以類聚”的思想,將樣本或指標分為不同類型的多元統(tǒng)計分析方法,其在數(shù)據(jù)挖掘領(lǐng)域有著廣泛的應用、發(fā)揮著重 要的價值。有了這種方法后,即便在不存在先驗經(jīng)驗,和能夠借鑒的模式的情況下,也 能夠以樣本的特性為依據(jù),將大量的樣本分為不同的類型。在聚類之前,用戶往往不確定需要將數(shù)據(jù)分成幾個簇,并且沒有確定劃分的

44、依據(jù), 在聚類分析的過程中, 數(shù)據(jù)集的特征是不知道的, 應用聚類算法的目的就是了解其特征, 并因此為依據(jù)將其分為若干個簇。從這個角度來看,聚類和分類存在一定的共同點,也 就是把數(shù)據(jù)分成不同的組,不過二者是完全不同的兩個概念。在分類之前,組已經(jīng)定義 好,然而在聚類時,組(通常被叫做簇)并未提前定義,是在了解數(shù)據(jù)的特征后,根據(jù) 數(shù)據(jù)的相似性進行定義的。數(shù)據(jù)挖掘?qū)垲惙治龅囊笾饕w現(xiàn)在:可伸縮性,如果聚類對象達到幾百萬個, 最終的聚類結(jié)果應該在準確度方面保持一致;能夠?qū)?shù)據(jù)的各種屬性進行處理;部分聚 類算法,只能夠用于數(shù)值類型數(shù)據(jù)的處理, 然而在實踐中, 數(shù)據(jù)的類型并不局限于數(shù)值, 還有很多不同的

45、數(shù)據(jù),比如二元數(shù)據(jù)、分類數(shù)據(jù)等。不過,這些數(shù)據(jù)都能夠被轉(zhuǎn)化成數(shù) 值型數(shù)據(jù),不過這樣一來,聚類所需的時間會變長,最終聚類結(jié)果的準確性也會有所降 低;能夠找到各種形狀的類簇:考慮到相當一部分的聚類算法都是以距離( eg:歐幾里 得距離或曼哈頓距離)反映出不同對象彼此間的相似度的,在這種情況下,只能夠找到 尺寸、密度相差較小的球狀類簇或凸形類簇。然而,在實踐中,類簇的形狀有很多種; 對聚類算法初始化參數(shù)的知識需求是最小的:相當一部分算法的應用,需要用戶提供初 始參數(shù)信息,比如所希望得到的類簇的數(shù)量,初始質(zhì)點等。如果參數(shù)出現(xiàn)小幅的變化, 最終的聚類結(jié)果會出現(xiàn)明顯的變化,準確性大打折扣,同時給用戶造成更

46、重的負擔。整體而言,數(shù)據(jù)分類是對現(xiàn)有的數(shù)據(jù)展開分析,確定其在屬性上的一致之處,同時 利用分類模型將數(shù)據(jù)分成多個類別, 并為每個類標記標號。 類別往往都是已經(jīng)定義好的,類別數(shù)量是確定的。而數(shù)據(jù)聚類,則是把不存在類別參考的數(shù)據(jù)分為多個組,也就是從 數(shù)據(jù)導出類標號。聚類分析是對數(shù)據(jù)進行挖掘,從而得到數(shù)據(jù)對象和它們之間的關(guān)系, 然后把數(shù)據(jù)分為不同的組。每組包含的對象具有較高的相似性,不同組里面的對象是不 相似的。所以說,判斷分類效果的依據(jù),是組內(nèi)、組間樣本的相似性的高地程度。222 K-means算法原理K -means屬于硬聚類方法,它是在原型的目標行數(shù)聚類方法基礎上提出的,能夠 用于優(yōu)化數(shù)據(jù)點和原

47、型的某種距離,通過函數(shù)求極值的方法,從而確定迭代運算的調(diào)整 規(guī)則。這種方法通過歐式距離來衡量相似度,通過計算得到對應某一初始聚類中心向量 V最優(yōu)分類,從而將評價指標J控制在更低范圍內(nèi)。該方法選擇的聚類準則函數(shù)為誤差 平方和準則函數(shù)。對于數(shù)據(jù)挖掘而言,K - means屬于cluster analysis算法范疇,它能夠通過計算提供 數(shù)據(jù)聚集,持續(xù)地取離種子點最近均值。我們用c代表聚類分析后樣本集的數(shù)量,該算法的原理為:(1)恰當?shù)剡x擇c個類的初始中心;(2) 在進行第k次迭代時,針對任何的樣本,通過計算確定其和c個中心之間的 距離,把樣本歸入到最小距離值對應的類中;(3)通過均值等方法調(diào)整這一

48、類的中心值;(4)完成上述兩個步驟后,針對 c個聚類中心,若其值并未發(fā)生任何變化,停止 迭代,否則就應該繼續(xù)進行迭代。這種算法最顯著的優(yōu)勢和特征在于計算工作量小、耗時短,初始中心的選擇以及距 離公式直接影響到算法結(jié)果的準確性。在采用該算法時,具體的操作步驟是:通過隨機的方法,在n個數(shù)據(jù)里面抽選k個對象,并將其當做初始聚類中心,對于其他的(n-k)個對象,計算其和聚類中心的相 似度,也就是距離,并以此為依據(jù),將其歸入到和其相似度最高的聚類中;接著再進行 計算,確定新聚類的中心,也就是聚類包含的全部對象的均值;持續(xù)重復上述過程,直 至標準測度函數(shù)開始收斂。通常情況下在標準測度函數(shù)方面都會選擇均方差

49、,k個聚類的特點是:同一聚類實現(xiàn)了最大化的緊湊性,不同聚類實現(xiàn)了最大化的分隔性。Kmea ns算法實現(xiàn)的詳細流程是:(1)通過隨機的方法,在n個數(shù)據(jù)里面抽選k個對象,并將其當做初始聚類中心。(2)對于其他的(n-k)個對象,計算其和聚類中心的相似度,也就是距離,并以 此為依據(jù),將其歸入到和其相似度最高的聚類中。(3)結(jié)束全部對象的歸類后,再次計算并更新 k個聚類的中心。和之前計算確定的k個聚類中心進行對比,若二者是不同的,回到步驟 ,否 則繼續(xù)。(5) 輸出聚類結(jié)果。通過流程圖2-1方式可以描述為:圖2-1 K均值聚類算法的流程圖首先,按照隨機的方法,抽取k個對象,將這些對象當做一個簇的初始均

50、值或中心, 然后計算出未被抽取的所有對象和所有簇中心的距離,以此為依據(jù)將其歸入到某一簇 中,計算確定所有簇的均值,并將其當做本簇的新中心;持續(xù)重復上述步驟,直至準則 函數(shù)收斂。一般情況下都會選擇平方誤差準則,也就是是針對簇包含的各個對象,計算 出其和中心距離的平方和,基于該準則得到的簇具有良好的緊湊性和獨立性。K均值聚類算法的優(yōu)勢和劣勢分析:K -means算法的主要優(yōu)勢在于操作復雜性低,耗時短,尤其適用于中小型數(shù)據(jù)集當然,它也有一定的劣勢,主要體現(xiàn)在如下三個方面:(1) 聚類結(jié)果不確定K -means算法是按照隨機的方法確定初始中心的,而基于不同的初始中心得到的 聚類結(jié)構(gòu)是不同的。因此這種方

51、法的重復性和穩(wěn)定性并不好。另外,該算法往往選擇的 目標函數(shù)都是準則函數(shù),而這種函數(shù)包含的全局最小值和極小值的數(shù)量分別是1和N,所以,經(jīng)過一系列的運算后,有較高的概率陷入局部極小值,進而導致最后無法實現(xiàn)全 局最優(yōu)解。(2) 聚類個數(shù)不確定K -means算法里面的K代表的是聚簇的數(shù)量,其值的大小直接影響到聚類結(jié)果的 準確性。在確定K值時,通常都要結(jié)合具體需求考慮,但在大多數(shù)情況下,這一需求本 身是不明確的,所以這也導致了該算法的聚類結(jié)果具有較強的不確定性。(3) 數(shù)據(jù)量大、算法時間復雜度較高在使用K -means算法時,需要持續(xù)進行迭代,為了確定最準確的聚類中心,在計 算的過程中,還需要持續(xù)進行

52、調(diào)整,只有這樣才可以得到準確的聚類結(jié)果,計算的主要 目的是得到不同對象彼此間的距離,因此,這種方法需要投入很多的時間,算法在效率 方面的表現(xiàn)并不太突出。適用于分類問題的方法多種多樣,其中單一的方法有:決策樹、貝葉斯、人工神經(jīng) 網(wǎng)絡、K-近鄰、支持向量機和基于關(guān)聯(lián)規(guī)則的分類等,當然也可以將這些方法組合起來 使用,以更好地解決分類問題。(1) 決策樹決策樹在分類和預測方面有著廣泛的應用,決策樹學習是基于實例的方法,從本質(zhì) 上來看,它屬于歸納學習算法范疇,它根據(jù)大量的沒有次序和規(guī)則的實例進行推理,然 后通過決策樹的形式揭示出分類規(guī)則。采用這種方法,旨在確定屬性和類型彼此間的關(guān) 聯(lián),從而對不確定類別的

53、樣本的類別進行判斷和分析,這種方法按照從上到下的順序進 行遞歸,在決策樹的節(jié)點上展開屬性的對比,按照各種屬性值判斷這一節(jié)點下方的分支, 最終通過葉節(jié)點獲取結(jié)論。目前應用比較廣泛的決策樹算法包括了ID3、C4.(C5.0、CART、PUBLIC、SLIQ和SPRINT算法等。它們在選擇測試屬性采用的技術(shù)、生成的決策樹的結(jié)構(gòu)、剪枝的方法以及時刻,能否處理大數(shù)據(jù)集等方面表現(xiàn) 出不同點。(2) 貝葉斯這種算法的理論基礎在于概率統(tǒng)計知識,通過Bayes定理,對不確定類別的樣本來自各個類別的概率進行判斷,然后以概率為依據(jù)排序,將樣本歸入到概率最高的那一個 樣本類別中去。這一方法是建立在一個假設性前提條件下

54、的,然而這一前提通常在現(xiàn)實 中是不成立的,所以這種方法的分類效果并不好,準確性并不高。針對這一點,學者們 不斷對其進行改進和完善,由此提出了不同的改進型貝葉斯分類算法,比如TAN算法等, 這種算法充分考慮了屬性彼此間的關(guān)聯(lián),因此相比傳統(tǒng)貝葉斯算法,其在分類準確性方 面的表現(xiàn)大幅提高。(3)人工神經(jīng)網(wǎng)絡人工神經(jīng)網(wǎng)絡(ArtificialNeural NetworksAN是具有信息處理功能的數(shù)學模型,它是對大腦神經(jīng)系統(tǒng)進行模擬后創(chuàng)建的,它由一系列的節(jié)點所構(gòu)成,這些節(jié)點彼此 間存在一定的關(guān)聯(lián),由此共同形成一張網(wǎng)絡,此即為“神經(jīng)網(wǎng)絡”,從而對信息進行有 效的處理。這種方法的第一個環(huán)節(jié)是訓練,通過訓練讓

55、網(wǎng)絡進行“學習”,完成學習后, 節(jié)點的連接權(quán)值會因此而改變,因此能夠起到分類的作用,通過訓練的網(wǎng)絡能夠有效地 識別對象。經(jīng)過多年的發(fā)展,研究人員提出了大量的人工網(wǎng)絡模型,其中應用最廣泛的包括了BP網(wǎng)絡、徑向基RBF網(wǎng)絡、Hopfield網(wǎng)絡、隨機神經(jīng)網(wǎng)絡(Boltzmann機)、競爭神經(jīng)網(wǎng)絡(Hamming網(wǎng)絡,自組織映射網(wǎng)絡)等。神經(jīng)網(wǎng)絡的缺陷和不足主要體現(xiàn)在收斂耗時長、計算工作量大、無法解釋等,因此還需要在未來的研究中進一步改進和完善。(4)k-近鄰k-近鄰(kNN, k-Nearest Neighbors)算法是一種基于實例的分類方法。該方法就是 找出與未知樣本x距離最近的k個訓練樣本,

56、看這k個樣本中多數(shù)屬于哪一種類別,就 將x歸入到這一類中。這種方法的本質(zhì)是懶惰學習方法,它把樣本保存起來,如果不需 要的話不會分類,針對非常復雜的樣本集,如果采用這種方法進行分類,需要完成很大 的計算工作量,所以這種方法并不適用于對實時性具有很高要求的場景。(5)支持向量機支持向量機(SVM,Support Vector Machine),這種方法是在統(tǒng)計學習理論的基礎上提出的,它的主要特征在于基于結(jié)構(gòu)風險最小化員原則,通過盡量大的分類間隔創(chuàng)造 最優(yōu)分類超平面,使學習機具備更強的泛化能力,因此在面對非線性、高維數(shù)、局部極 小點等問題時具有不錯的分類效果。 針對分類問題,SVMS于區(qū)域里面的樣本

57、進行計算, 進而得到這一區(qū)域的決策曲面,最終確定區(qū)域里面所有樣本應該屬于哪一類。(6)基于關(guān)聯(lián)規(guī)則的分類關(guān)聯(lián)規(guī)則挖掘受到了更多數(shù)據(jù)挖掘?qū)W者的關(guān)注。在過去的幾年間,學者們在這方面 的研究中投入了大量的精力和時間。這種方法的挖掘過程類似于condset > C的規(guī)則,這里面condset是項(或?qū)傩?值對)的集合,而C是類標號,這種形式的規(guī)則稱為類關(guān)聯(lián) 規(guī)則(class association rules,CARS )。關(guān)聯(lián)分類方法的操作過程包括兩個環(huán)節(jié):其一, 通過算法在樣本集里面進行挖掘,從而確定全部滿足指定支持度和置信度的類關(guān)聯(lián)規(guī) 則;其二,通過啟發(fā)式方法,在上一環(huán)節(jié)中得到的關(guān)聯(lián)規(guī)則里面選擇質(zhì)量最高的規(guī)則, 并以此為依據(jù)完成分類。(7) 集成學習(Ensemble Learning)在實踐中,需要分類的數(shù)據(jù)往往都表現(xiàn)出復雜性和多樣性的特點,如果采用一種分 類方法進行分類,效果通常都不夠理想, 為此,學者們開始研究如何針對同一問題采 用多種分類方法,也就是集成學習,這也是全球機器學習界最熱門的議題之一,集成學 習屬于機器學習范式,它會持續(xù)地使用不同的學習算法,得到多個基學習器,接著按照 既定的規(guī)則,將其組合在一起,以得到問題最終的解,這種思路能夠

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論