基于遺傳算法的股票市場選擇模型_第1頁
基于遺傳算法的股票市場選擇模型_第2頁
基于遺傳算法的股票市場選擇模型_第3頁
基于遺傳算法的股票市場選擇模型_第4頁
基于遺傳算法的股票市場選擇模型_第5頁
已閱讀5頁,還剩10頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、基于遺傳算法的股票市場選擇模型摘要:為提高投資者在股票市場的收益,解決在證券投資中股票選擇這一重要問題,提出一種基于遺傳算法的股票選擇模型。算法以上市公司的財務(wù)指標(biāo)為樣本特征,為克服K-means算法的不穩(wěn)定性,采用基于遺傳算法的K-means算法對同一板塊股票進行聚類分析,剔除財務(wù)指標(biāo)較差的一類中的股票。對篩選條件編碼,為解決傳統(tǒng)遺傳算法處理復(fù)雜問題時存在的過早收斂現(xiàn)象,提出改進的遺傳算子,利用改進的遺傳算法尋找使股票市場投資收益最大化的選股模型參數(shù)。實驗結(jié)果表明,該算法在股票選擇上具有較好的效果,可供市場投資者借鑒。關(guān)鍵詞:股票選擇;遺傳算法;聚類分析;投資決策;組合優(yōu)化1引言當(dāng)今社會人們

2、的理財投資意識日益增強,且越來越多的投資者將眼光投向了股票市場。雖然股票可以給投資者帶來可觀的收益,但投資者要想獲得很好的投資回報,就得利用合理科學(xué)的投資策略來選擇股票進行投資。股票選擇從基本面而言,就是對上市公司的內(nèi)在價值進行評估2。股票市場具有的長期記憶性使得可以通過數(shù)據(jù)分析找出股票價格或收益率的長期相關(guān)性,同時股票市場具有非線性3,應(yīng)用智能算法可以提高分析的精確度和魯棒性。現(xiàn)有的很多關(guān)于股市的研究主要是應(yīng)用優(yōu)化算法對股價和股市態(tài)勢做出預(yù)測。如文獻4提出一種基于遺傳算法的粗糙集屬性約簡方法和神經(jīng)網(wǎng)絡(luò)相結(jié)合的模型來預(yù)測股價。文獻提出基于離群特征模式的支持向量機模型來預(yù)測股價波動。這些研究限于

3、對單個股票或大盤價格的預(yù)測,對投資者的投資決策缺乏全面指導(dǎo)性。對于股票選擇,最傳統(tǒng)的基于基本面分析的股票選擇方法有歐奈爾基本面CANSLIM法則、朱雀丁遠指數(shù)中性策略等經(jīng)典模型。這些模型大多是研究者通過對歷史數(shù)據(jù)的分析和個人經(jīng)驗提出的,雖然具有一定的效果,但是股票篩選精度一般,靈活性較差。文獻7定義了股票穩(wěn)定性值,結(jié)合遺傳算法和貪婪算法提出股票選擇規(guī)劃方法。此方法很好地規(guī)1682016,52(18)ComputerEngineeringandApplications計算機工程與應(yīng)用指標(biāo)類別指標(biāo)名稱指標(biāo)性質(zhì)每股指標(biāo)每股收益/元正指標(biāo)盈利能力總資產(chǎn)凈利潤率/%正指標(biāo)盈利能力銷售凈利率/%正指標(biāo)盈利

4、能力凈資產(chǎn)收益率/%正指標(biāo)成長能力凈利潤增長率/%正指標(biāo)成長能力總資產(chǎn)增長率/%正指標(biāo)營運能力應(yīng)收賬款周轉(zhuǎn)率/次正指標(biāo)營運能力存貨周轉(zhuǎn)率/次正指標(biāo)償債及資本結(jié)構(gòu)資產(chǎn)負債率/%逆指標(biāo)現(xiàn)金流量經(jīng)營現(xiàn)金凈流量對負債比率/%正指標(biāo)表1財務(wù)指標(biāo)表避了股票選擇風(fēng)險,但是沒有實現(xiàn)收益最大化。文獻8通過合理地選取貝葉斯分類器的參數(shù)對股票進行分類得出高回報股票組合,但是實驗數(shù)據(jù)受大盤形勢影響缺乏貝葉斯分類需要的獨立性,算法預(yù)測精度一般。本文提出一種改進的選股策略,利用基于遺傳算法改進的K均值聚類算法和改進的遺傳算法分析上市公司的財務(wù)指標(biāo),得出合理的股票選擇模型。首先在大量股票樣本的初步處理中,采用基于遺傳算法的

5、K均值算法,對財務(wù)指標(biāo)進行聚類分析,從而過濾股票樣本。然后利用改進的遺傳算法,使用自適應(yīng)的交叉算子與變異算子,來尋找最佳選股模型參數(shù),從而找出真正具有投資價值的股2股票選擇模型的建立2.1指標(biāo)及樣本的選擇基本面選股所涉及的因素主要是上市公司的財務(wù)指標(biāo),包括每股指標(biāo)、盈利能力、成長能力、營運能力、現(xiàn)金流量、償債能力和資本結(jié)構(gòu)等指標(biāo)。所以本文選取了較能反映這些能力的十項重要指標(biāo),如表1所示。板塊是由具有共同特征的股票組成的群體。股票板塊可以根據(jù)上市公司所屬的行業(yè)、地域、特色題材等多種角度來劃分9。本文選取了發(fā)電設(shè)備板塊的50家上市公司的股票作為樣本。2.2模型求解策略聚類是將對象集合分組為多個類,

6、同一類中的對象有很大的相似性。目前國內(nèi)股票市場根據(jù)上市公司的財務(wù)狀況,公司股票一般分為:績優(yōu)股、一般股和垃圾股。所以本文采用基于遺傳算法改進的K均值聚類算法將樣本數(shù)據(jù)根據(jù)財務(wù)指標(biāo)屬性聚類為三類,即k=3。剔除垃圾股類中的股票樣本,保留績優(yōu)股和一般股類中的樣本。這樣先從大量數(shù)據(jù)中過濾掉不利于投資的股票,減少了之后股票選擇的數(shù)據(jù)量,提高了選擇的準(zhǔn)確率和效率。求得最佳的股票選擇模型可以看作是一個復(fù)雜的組合優(yōu)化問題,目標(biāo)就是求得目標(biāo)函數(shù)的最優(yōu)解,遺傳算法具有很強的全局搜索能力,利用改進的遺傳算法可以很好地求解這一問題。一F2.3模型的建立231模型參數(shù)xj代表股票所屬上市公司的第j(0j11)個財務(wù)指

7、標(biāo)(對應(yīng)如表1所示)。x11代表該只股票的回報率。S:代表第i只股票樣本(0i1(2)i=1取得最大平均回報率時的P即為最佳的股票選擇模型參數(shù)。3基于浮點數(shù)編碼的遺傳算法及改進31染色體編碼染色體的編碼方式有很多種,例如二進制編碼、格戎容,吳萍:基于遺傳算法的股票市場選擇模型2016,52(18)169戎容,吳萍:基于遺傳算法的股票市場選擇模型2016,52(18)169maxc1Ipm1(6)(7)maxp=!FavgPm1是基準(zhǔn)變異概率,紡、雷碼、浮點數(shù)編碼、符號編碼11。傳統(tǒng)的遺傳算法采取二進制編碼以便于算法的交叉、變異操作。但是本文涉及的是多維數(shù)據(jù)操作,二進制編碼會增加染色體編碼長度、

8、人為離散化參數(shù)取值,并且上市公司各項財務(wù)指標(biāo)都是小數(shù),所以在本文中米用浮點數(shù)編碼,可以提高遺傳算法的精度,減少計算量。同時針對采用浮點數(shù)編碼在處理一些復(fù)雜問題時會發(fā)生的停滯現(xiàn)象,本文也提出了改進策略。3.2遺傳算子選擇運算選擇運算把較好的個體按一定規(guī)則直接遺傳到下一代群體中,適應(yīng)度高的個體更容易遺傳到下一代群體中。本文使用輪盤賭選擇法12,各個體被選中的概率Pri與其適應(yīng)度值Fi成正比。設(shè)種群規(guī)模為N,則:FPr=12N(3),tFii=1交叉運算交叉運算是指把2個父代染色體的部分基因按某種方式交換重組,從而生成新個體,使得遺傳算法的搜索能力大大提升。采用浮點數(shù)編碼時,交叉運算使用適合浮點數(shù)編

9、碼的算術(shù)交叉算子13:R+1=axt+(1-a丹t+1ttIB=(1-a)xA+axB其中,a是0,1范圍內(nèi)的隨機數(shù)。3.2.3變異運算變異運算是對群體中的個體串的某些基因座上的基因值作變動。變異操作使遺傳算法具有局部的隨機搜索能力并且可維持群體多樣性,以防止出現(xiàn)未成熟收斂現(xiàn)象。均勻變異算子對于每個變異點從對應(yīng)基因位的取值范圍內(nèi)產(chǎn)生一個隨機數(shù)代替原有基因值14。即x=xmin+r(xmaxxmin)(5)其中,r是0,1范圍內(nèi)的隨機數(shù);xmax,xmin分別是該基因位的數(shù)值上下限。3.3基于浮點數(shù)編碼的遺傳算法的改進3.3.1存在的問題分析股票樣本特征屬性較多,數(shù)據(jù)維數(shù)高。在進行股票篩選的初始

10、種群中,每一個個體P都是隨機產(chǎn)生的,由于各樣本股票所屬上市公司的發(fā)展水平各異,各股票樣本財務(wù)指標(biāo)千差萬別,個體P作為篩選條件對股票樣本Si進行篩選時,目標(biāo)函數(shù)約束條件很難滿足,即能同時滿足篩選條件SijPj+1(0j7)&Si8P9&Si9P10的股票非常少。若有股票滿足個體,此個體很有可能為n非優(yōu)解或局部最優(yōu)解;若無股票滿足個體,此時Zci=0,的非優(yōu)個體或者無效個體。應(yīng)用通常的基于浮點數(shù)編碼的遺傳算法進行股票篩選的過程中,大量非優(yōu)個體或者無效個體不易被淘汰,算法就存在容易過早收斂于局部最優(yōu)解和向全局最優(yōu)解收斂速度慢的問題,對遺傳進化過程產(chǎn)生不利影響。3.3.2改進的自適應(yīng)交叉變異算子針對應(yīng)

11、用遺傳算法進行股票篩選存在的問題,需要加強遺傳算法的全局搜索能力,在遺傳進化過程中淘汰群體中過多的非優(yōu)個體,加快算法的搜索和收斂速度。在遺傳算法中,交叉運算實現(xiàn)了全局搜索能力,變異運算實現(xiàn)了局部隨機搜索能力,因此本文提出改進的自適應(yīng)交叉變異概率來提高遺傳算法在股票篩選中的全局搜索能力,改進基于以下原則:定義原則3在遺傳初期群體中,適應(yīng)度較小的個體應(yīng)該采取較大的交叉概率Pc和變異概率Pm,而適應(yīng)度值最大的個體未必是全局最優(yōu)的個體,為了避免群體陷入局部最優(yōu),適應(yīng)度較大的個體也應(yīng)該采取適當(dāng)大的Pc和Pm。定義原則4在遺傳后期加快收斂于群體最優(yōu)解的過程中,適應(yīng)度較小的個體同樣應(yīng)該采取較大的Pc和Pm,

12、而優(yōu)秀的個體應(yīng)該被保留,個體的適應(yīng)度越大,Pc和Pm應(yīng)該越小。改進的自適應(yīng)概率公式定義如下:P+kFavgFFFc1F-FavgavgF-FavgFF-ke“涿觀ff2-Tavg1+e.iterFavg-F+kFFI3FavgavgF-FavgFF-kemaxavgfm14三廠1+e.iter其中,Pc1是基準(zhǔn)交叉概率,k2、k3、k4是調(diào)整系數(shù),F(xiàn)是個體適應(yīng)度,F(xiàn)avg是群體平均適應(yīng)度,F(xiàn)max是群體最大適應(yīng)度,iter是總迭代代數(shù),i是當(dāng)前代數(shù)。4基于遺傳算法改進的K均值聚類K均值算法是一種基于梯度下降的貪心算法15,傳統(tǒng)的K均值算法存在一些弱點:受到隨機選取的初始聚類中心的影響,算法很容

13、易收斂于局部最優(yōu)解16,產(chǎn)生不準(zhǔn)確甚至錯誤的聚類結(jié)果。利用遺傳算法的全局優(yōu)化能力來改進K均值聚類算法,種群中的聚類中心通過選擇、交叉和變異操作不斷迭代進化,直至收斂到目標(biāo)函數(shù)分母為零,顯然是無效解。所以初始群體中存全局最優(yōu)個體,從而克服傳統(tǒng)K均值算法存在的局限1702016,52(18)ComputerEngineeringandApplications計算機工程與應(yīng)用二xix2x10。這種編碼縮短了染色體的長度,能夠快速性并且提高聚類質(zhì)量。高效地求解這類復(fù)雜的聚類問題。4.1K均值聚類算法步驟2初始化種群。Jn結(jié)束圖1K均值算法流程圖K均值算法是典型的基于距離的聚類算法,即認為兩個對象的距離

14、越近,其相似度就越大17。算法最終將所有對象分為k個簇,使簇內(nèi)對象具有較高的相似度,而各簇之間相似度較低。聚類問題可以描述為:n個點x1x2xn,按照相似性將其劃分為k個集合G1G2Gk,滿足:(1)Gt豐(pi=12k(2)GiGj=p;ij=12k;i工jkTOC o 1-5 h z(3)Gi=x1x2xni=1同時使得總的類內(nèi)離散度和:rc2cIji=1達到最小。其中cj為第i個樣本對應(yīng)的聚類中心,-勺為第i個樣本到對應(yīng)聚類中心的歐氏距離。聚類的劃分采用最近鄰法則,若xPcj滿足:Xi-勺=minx:-cmm=12k(9)則Xj屬于第j類。K均值算法的流程如圖1所示。4.2基于遺傳算法改

15、進的K均值聚類算法設(shè)計輸入股票樣本數(shù)據(jù)集,設(shè)置遺傳算法參數(shù):聚類個數(shù)k=3,種群規(guī)模N=30,交叉概率Pc=0.6,變異概率Pm=0.05,迭代代數(shù)iter=100。從所有樣本中隨機抽取k個點作為k個聚類的中心,重復(fù)進行N次,共生成N個初始個體,由此產(chǎn)生規(guī)模為N的第一代種群。步驟3按照圖1的K均值算法流程對每個個體進行K均值聚類。步驟4計算群體各個體的適應(yīng)度。最準(zhǔn)確的聚類結(jié)果要求類內(nèi)相似度高并且類之間相異度高。現(xiàn)有大多數(shù)研究都只以較高的類內(nèi)相似度作為衡量指標(biāo),雖有不錯的效果,但在一些情形下效果不是很理想。本文采用類內(nèi)相似和類間相異結(jié)合的方式,定義適應(yīng)度函數(shù)為:BJ=T(10)=Jcc,B其中B

16、c工.為各聚類中心之間的距離Ijc1j0),h1越大不同回報率對應(yīng)的適應(yīng)度差異越大。h2也為常數(shù),h2大于各樣本中回報率的最大值以保證h2-R0,從而適應(yīng)度F0。步驟4按照公式(3)對種群進行選擇操作。步驟5根據(jù)公式(6)定義的改進自適應(yīng)交叉概率,采用公式(4)定義的算術(shù)交叉方式對種群進行交叉操作,產(chǎn)生新一代群體。步驟6根據(jù)公式(7)定義的改進自適應(yīng)變異概率,采用公式(5)定義的均勻變異方式對種群進行變異操作,產(chǎn)生新一代群體。步驟7重復(fù)步驟3步驟6,直到最優(yōu)個體的適應(yīng)度和群體平均適應(yīng)度趨于穩(wěn)定或者迭代次數(shù)達到預(yù)設(shè)代數(shù)聚類算法最優(yōu)解(類內(nèi)離散度和J)平均值(類內(nèi)離散度和Jc)最優(yōu)解次數(shù)K均值16

17、2361.38168180.096遺傳算法改進的K均值162361.38162361.3810訓(xùn)練樣本通過基于遺傳算法的K均值聚類算法聚類為3類,聚類結(jié)果如下:第一類:湘電股份,四方股份,泰豪科技,南洋股份,國軒高科,深圳惠程,太陽電纜,思源電氣,永大集團,中元華電,九洲電氣,南風(fēng)股份,雅百特,茂碩電源,經(jīng)緯電材。第二類:通達股份,東方電子,寶勝股份,上海電氣東方電氣,特變電工,臥龍電氣,恒順眾昇,中超控股,萬馬股份,三變科技,上風(fēng)高科,正泰電器,天順風(fēng)能,金風(fēng)科技,漢纜股份,泰勝風(fēng)能,摩恩電氣,沃爾核材,奧特迅,金杯電工,金利華電,和順電氣,許繼電氣,麥迪電氣,特銳德,中能電氣,風(fēng)范股份,平

18、高電氣,森源電氣,北京科銳,易世達,科泰電源,置信電氣。第三類:華儀電氣。運用PCA(PrincipalComponentAnalysis)算法將樣本數(shù)據(jù)降維,在二維坐標(biāo)系中,樣本數(shù)據(jù)點分布及聚類結(jié)果如圖2所示。iter。6實驗與結(jié)果分析根據(jù)財務(wù)報表統(tǒng)計50家上市公司2014年一季度的十項財務(wù)指標(biāo),統(tǒng)計2014年一季度第一個交易日的股票開盤價和2014年一季度最后一個交易日的股票收盤價格,計算其回報率,組成訓(xùn)練樣本數(shù)據(jù),數(shù)據(jù)如表2所示(限于文章的篇幅,僅給出了部分股票的數(shù)據(jù))。資料來源于新浪財經(jīng)。4022X-204020006020400080004000020001160訓(xùn)練樣本分別使用未改

19、進的和基于遺傳算法改進的K均值算法進行聚類分析,共進行10次實驗,運行情X1圖2訓(xùn)練樣本聚類結(jié)果況如表3所示。分別計算三類股票的各項財務(wù)指標(biāo)平均值,結(jié)果如表4所示。從聚類結(jié)果可以看出,第一類股票的凈利潤增長率指標(biāo)平均值為負值,其他各項正指標(biāo)也較二、三兩類有較大的差距。很明顯這類股票在市場投資中為垃圾股,具有較大的投資風(fēng)險,所以從樣本中剔除第一類中的所有股票。分類每股收益/元總資產(chǎn)凈利潤率/%銷售凈利率/%凈資產(chǎn)收益率/%凈利潤增長率/%總資產(chǎn)增長率/%應(yīng)收賬款周轉(zhuǎn)率/次存貨周轉(zhuǎn)率/次資產(chǎn)負債率/%經(jīng)營現(xiàn)金凈流量對負債比率/%第一類0.020.294.880.4563.967.320.400.6

20、432.220.08第二類0.070.897.691.4439.6516.250.560.8338.820.08第三類0050617611451034.3024860210855558005表4各類股票財務(wù)指標(biāo)平均值為了進一步驗證該模型的可靠性和準(zhǔn)確性,訓(xùn)練樣本外還統(tǒng)計了50家上市公司2014年二、三、四季度的相關(guān)財務(wù)指標(biāo)和回報率,統(tǒng)計方法同上,組成驗證樣本數(shù)據(jù)。數(shù)據(jù)來源于新浪財經(jīng)。圖4顯示了驗證樣本的股票經(jīng)過第一步聚類篩選后剩余的訓(xùn)練樣本分別使用未改進的遺傳算法和改進的遺傳算法進行基本面選股,共進行10次實驗,運行情況如表5所示。浮點數(shù)編碼最優(yōu)解最差解最優(yōu)解收斂到最優(yōu)解的的遺傳算法(適應(yīng)度)

21、(適應(yīng)度)次數(shù)平均迭代次數(shù)未改進算法408.163289.855356.8改進的算法408.163327.8607384表5改進和未改進的遺傳算法結(jié)果比較從表5可以看出,使用改進的算法效果明顯,最優(yōu)解次數(shù)增多而收斂到最優(yōu)解的迭代次數(shù)減少,說明改進算法更容易跳出局部最優(yōu)解,收斂速度更快。利用改進的遺傳算法進行基本面選股,得出選股模型的最優(yōu)參數(shù)為:(0.0057,0.0746,1.8474,0.5999,0,8.3824,0.007,0.0085,60.4007,0.0016)。評價該股票選擇模型是否有用,關(guān)鍵是選出的股票的回報率如何,通常的做法是以基準(zhǔn)回報率、同期上證綜指回報率和同期深證成指回報率為參照物,將選擇出的股票的平均回報率與其對比18基準(zhǔn)回報率是指樣本中全部股票

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論