版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
請仔細閱讀本報告末頁聲明證券研究報告|金融工程研究在報告《基于深度學習的指數(shù)增強策略》中,我們提出了增強AI選股模型績效的3個思路:1.對同一模型構建差異化數(shù)據(jù)集輸入,堆疊多數(shù)據(jù)集的輸出;2.通過調整超參數(shù)選取、標簽構建、數(shù)據(jù)預處理方式等精進單一模型;3.對同一數(shù)據(jù)集根據(jù)不同模型訓練,堆疊多模型的輸出;我們在之前研究中重點討論了前兩者,本文圍繞第三個思路展開,探討如何基于同一數(shù)據(jù)集,在不同模型下訓練并堆疊因子輸出,以提升模型效能。多維度提升AI選股模型績效首先,我們在時序神經網絡中引入圖結構網絡,以此刻畫股票之間的關聯(lián),該空間信息的引入增強了單一數(shù)據(jù)集的預測能力;其次,我們在原有基礎數(shù)據(jù)集之外引入手工構建的量價和基本面特征集合,手工特征集顯著捕獲了端對端模型之外的增量Alpha信息;最后,在特征集成階段,我們考慮數(shù)據(jù)輸入、算法使用與標簽設計等維度的多樣性,綜合構建集成模型,這進一步提高了模型的選股能力。深度學習選股因子基于多維度特征集合、集成算法與標簽設計,我們得到深度學習選股因子,在回溯期2019年至2023年間,因子多頭超額收益45.4%,5日IC均值為12.9%,10日IC均值達到14.7指數(shù)增強組合基于AI選股因子,我們構建周頻調倉的中證500和中證1000指增組合:1.2019至2023年,中證500指數(shù)增強組合相對中證500指數(shù)年化超額收益18.6%,跟蹤誤差5.5%,信息比率2.98;2.2019至2023年,中證1000指數(shù)增強組合相對中證1000指數(shù)年化超額收益28.1%,跟蹤誤差6.4%,信息比率3.67。風險提示:結論基于歷史數(shù)據(jù)以及模型推算,存在失效風險。作者分析師繆鈴凱相關研究可轉債量化月報》2024-06-11線級別下跌》2024-06-10P.2請仔細閱讀本報告末頁聲明一、AI選股模型 二、數(shù)據(jù)與網絡 42.1數(shù)據(jù)輸入 42.2網絡結構 三、因子信號 3.1基礎數(shù)據(jù)集 3.2手工特征數(shù)據(jù)集 四、特征集成 五、指增策略 5.1中證500指數(shù)增強 135.2中證1000指數(shù)增強 五、總結 風險提示 圖表1:中證500指增(80%成分權重下限) 圖表2:中證1000指增(80%成分權重下限) 圖表3:AI選股模型結構 圖表4:圖注意力機制 圖表5:基礎數(shù)據(jù)集因子相關性 圖表6:基礎數(shù)據(jù)集因子績效 圖表7:alpha158因子分類 圖表8:手工特征集因子相關性 圖表9:apha158因子績效 圖表10:fundamental因子績效 圖表11:特征合并示意圖 10圖表12:LSTM因子集合集成績效 圖表13:LSTM-GAT因子集合集成績效 圖表14:加入手工數(shù)據(jù)后因子績效 圖表15:多次集成因子績效 圖表16:中證500指數(shù)增強組合凈值 13圖表17:中證500指數(shù)增強組合收益 13圖表18:中證1000指數(shù)增強組合凈值 圖表19:中證1000指數(shù)增強組合收益 P.3請仔細閱讀本報告末頁聲明圖表1:中證500指增(80%成分權重下限)—組合—中證500—相對強弱資料來源:wind,國盛證券研究所圖表2:中證1000指增(80%成分權重下限)0.6—組合—中證1000—相對強弱資料來源:wind,國盛證券研究所探討如何將同一數(shù)據(jù)集在不同模型下的訓練輸出有效堆疊,以提升模型邊際效能。圖表3:AI選股模型結構featureensembleengineeringmodeldatafeaturefactormodeloptimizeportfolio資料來源:國盛證券研究所繪制基于此,本文將具體探索以下三個維度:3.多維度特征集成:對于多網絡結構輸出的多維度特征集合P.4請仔細閱讀本報告末頁聲明2.價格數(shù)據(jù)先除以最新收盤價標準化,成交量/額數(shù)據(jù)除以序列2.價格數(shù)據(jù)先除以最新收盤價標準化,成交量/額數(shù)據(jù)除以序列數(shù)據(jù)特征:開盤收益率、早盤/尾盤收益率、日內最高/最低收益率、日內平均收益率數(shù)據(jù)預處理數(shù)據(jù)預處理數(shù)據(jù)預處理數(shù)據(jù)預處理P.5請仔細閱讀本報告末頁聲明它在處理股票時間序列信息方面表現(xiàn)出色,然而,在實際的投資決策中,除了單只股票的時間序列信息外,股票之間的截樣蘊含著至關重要的信息。為了捕捉這種股票間的相互關系,我們引入了圖注意力網絡股票之間的復雜截面關系,從而為我們提供了一理解股票市場的行為,為投資決策提供更為深入和精確我們具體的網絡結構如下:?idden=LSTM(input)att=selfattention(?idden)gat_output=GAT([att,?idden?1],adj)output=MLP(gat_output)在神經網絡的訓練過程中,我們遵循以下步驟:作為訓練基礎,確保模型能夠適應時間序列的變化;P.6請仔細閱讀本報告末頁聲明{1,2,3,…,N},i∈RF,通過線性變化w∈RF′×F得到N個節(jié)點的F′維特征表示?′。的影響:eij=a(wi,w)。將目標節(jié)點與所有鄰居節(jié)點算出權值之后做softmax歸一化:aij=softmaxj(eij),最終每個節(jié)點的輸出=σ(∑j∈Niaijw),其中Ni是與節(jié)點i連通的節(jié)點集合。圖表4:圖注意力機制資料來源:VelikoviP,CucurullG,CasanovaA,etal.GraphAttentionNetworks,國盛證券研究所整理因此,對于圖網絡模型而言,鄰接矩陣的定義至為gat_output=GAT(input,Aind)其中Aij=1當且僅當industyi=industyj,否則Aij=0。gat_output=[GAT(input,Aind),GAT(input,Astyle)]對于Astyle,股票間的連通取決于風格暴露,我們參考文獻2將節(jié)點風格特征信息嵌入:M2=tanh(aE2θ2)Astyle=ReLU(tanh(a(M1M?M2M)))idx=aTgtopk(A[i,:])Astyle[i,?idx]=02020.DOI:10.1145/339P.7請仔細閱讀本報告末頁聲明對于因子績效具體檢驗規(guī)則,如下:基礎數(shù)據(jù)集包含數(shù)據(jù)集1-5,它們的具體構建細則在前序報告中已經介紹,下面我們基圖表5:基礎數(shù)據(jù)集因子相關性baselinebaselineGAT-indGAT-ind-stylekbarmoney_flowkbar_m4intra_retpv_factorkbarmoney_flowkbar_m4intra_retpv_factorkbarmoney_flowkbar_m4intra_retpv_factorkbar-34%79%79%65%66%-36%36%82%82%70%70%68%-39%39%82%82%68%68%67%money_flow34% 37%37%40%54%36%36% 36%36%38%38%50%39%39%-39%39%40%40%49%kbar_m479%37%-67%66%82%82%36%36% 69%69%65%82%82%39%39% 70%70%66%intra_ret65%40%67% 69%70%70%38%38%69%69%-68%68%68%40%40%70%70% 65%pv_factor66%54%66%69%69%-68%68%50%50%65%65%68%68%-67%67%49%49%66%66%65%65%-資料來源:wind,國盛證券研究所提升。因此,圖網絡模型可能增加數(shù)據(jù)集輸出特征之間的信息重疊度。圖表6:基礎數(shù)據(jù)集因子績效baselinebaselineGAT-indGAT-istylebaselineGAT-indGAT-style資料來源:wind,國盛證券研究所對于單一數(shù)據(jù)集而言能提高數(shù)據(jù)集的預測能力。P.8請仔細閱讀本報告末頁聲明圖表7:alpha158因子分類KLEN,KUP,KLOW,HIGH0,LOW0,STD5,STD10,MIN5,VSUMP5,VSUMP10,VSUMVSUMD5,VSUMD10,VSUMD20,VSUMD30,VSIMAX5,IMAX10,IMAX20,IMAX30,IMAX60,IMIN5,IMIN10,IMIN20,IMIN30,IMICNTN20,CNTN30,CNTN60,SUMN5,WVMA5,WVMA10,WVMA20,WROC5,ROC10,ROC20,ROC30,ROC60,MA5,MA10,MA20,MA30,MA60,QTLU5,QTLU60,QTLD5,QTLD10,QTLD20,QTLD30,QTLD60,SUMN10,SUMN20,VMA5,VMA10,VMA20,VMA30,VMA60,VSTD10,VSTD20,VSTD30,VSTD60,VSUMN5,VSUMN10,VSUMBETA5,BETA10,BETA20,BETA30,BETA60,RESI20,RESI30,RESI60,MRANK5,RANK10,RANK20,RANK30,RANK60,RSV5,RSV10,RSV20,RSV30,RSV60,CCNTP30,CNTP60,CNTD5,CNTD10,CNTD20,CNTD30,CNTD60,SUMP5,SUMP10,SUMP20SUMD5,SUMD10,SUMD20,SUMD3alpha6KMID,KMID2,KSFT,KSFT2,RESI5,RESI10alpha7CORR5,CORR10,CORR20,CORR30,CORD5,CORD10,CORD20,CORD30,CORD60KUP2,KLOW2,STD20,STD30,STD60,RSQR5,RSQR10,RSQR20,RSQR30,RSQR6MAX30,MAX60,IMXD5,IMXD10,IMXD20,IMX資料來源:wind,國盛證券研究所gat_output=[GAT(input,Aind),GAT(input,Astyle)]output=MLP(gat_output)其中Aind和Astyle分別為基于行業(yè)和風格信息得到的鄰接矩陣。P.9請仔細閱讀本報告末頁聲明圖表8:手工特征集因子相關性--資料來源:wind,國盛證券研究所圖表9:apha158因子績效16.8%10.6%19.4%10.8%22.6%10.8%20.3%9.9%25.5%10.0%24.0%9.9%15.5%8.3%18.4%8.3%17.2%7.7%20.1%10.6%21.4%10.6%25.3%10.8%17.3%10.1%12.6%9.4%14.1%9.8%19.1%9.9%20.5%9.9%21.9%9.8%資料來源:wind,國盛證券研究所因此,對于網絡模型而言,模型復雜度可能提高圖表10:fundamental因子績效65.6%21.0%44.5%8.2%87.5%67.8%35.6%32.2%6.8%79.8%40.5%15.6%25.0%6.1%78.2%55.6%24.9%30.6%8.9%85.1%51.2%18.4%32.8%9.9%81.8%59.2%24.5%34.7%8.1%82.5%資料來源:wind,國盛證券研究所P.10請仔細閱讀本報告末頁聲明以提高預測的準確性和穩(wěn)健性。業(yè)界普遍采用的方法之一就是使用集成學習技術,尤其是梯度提升決策樹(GBDT)算法,來對這些因子輸出進行集成。GBDT算法對于參數(shù)而言并不敏感,這意味著通過細致的參數(shù)調優(yōu)來實現(xiàn)圖表11:特征合并示意圖concat資料來源:國盛證券研究所繪制 子特征隨機相加;最后拼接不同數(shù)據(jù)集的因子特征,得到綜合特征集合。據(jù)的復雜性和多樣性,從而提高整體模型的泛化能力和預測準確性。P.11請仔細閱讀本報告末頁聲明在集成后的綜合因子績效。圖表12:LSTM因子集合集成績效資料來源:wind,國盛證券研究所圖表13:LSTM-GAT因子集合集成績效資料來源:wind,國盛證券研究所P.12請仔細閱讀本報告末頁聲明圖表14:加入手工數(shù)據(jù)后因子績效資料來源:wind,國盛證券研究所可能蘊含神經網絡難以直接從原始數(shù)據(jù)中提取的特征最后,我們對比多次集成相對于單次集成對于模型績效的提升。以單一因子集、單一集圖表15:多次集成因子績效資料來源:wind,國盛證券研究所因此,在輸入特征、集成算法和標簽設定等多維度提高選股模型的績效。我們以此作為本文最終的深度學習綜合因子,構建選股策略。P.13請仔細閱讀本報告末頁聲明圖表16:中證500指數(shù)增強組合凈值資料來源:wind,國盛證券研究所圖表17:中證500指數(shù)增強組合收益超額收益基準收益信息比率超額回撤12.9%38.0%25.1%-6.0%4.4%55.2%63.6%20.0%40.9%20.9%-4.0%5.9%58.0%75.0%25.0%40.6%15.6%-6.4%6.0%63.8%75.0%17.2%-3.1%-2.1%5.4%57.9%91.7%13.8%6.3%-7.4%-9.9%-2.4%4.8%60.7%83.3%18.6%24.0%5.4%-6.4%5.5%59.1%78.0%資料來源:wind,國盛證券研究所P.14請仔細閱讀本報告末頁聲明圖表18:中證1000指數(shù)增強組合凈值資料來源:wind,國盛證券研究所圖表19:中證1000指數(shù)增強組合收益超額收益基準收益信息比率超額回撤資料來源:wind,國盛證券研究所P.15請仔細閱讀本報告末頁聲明3.對同一數(shù)據(jù)集根據(jù)不同模型訓練,堆疊多之前研究中我們重點討論了前兩者,本文圍繞第三個思路展開,探討如何基于同一數(shù)據(jù)其次,我們在原有基礎數(shù)據(jù)集之外引入了手工量價和基本面特征集合,手工特征集顯著合構建集成模型,這進一步提高了模型的選股能力。P.16請仔細閱讀本報告末頁聲明P.17請仔細閱讀本報告末頁聲明免責聲明國盛證券有限責任公司(以下簡稱“本公司”)具有中國證監(jiān)會許可的證券投資咨詢業(yè)務資格。本報告僅供本公司的客戶使用。本公司不會因接收人收到本報告而視其為客戶。在任何情況下,本公司不對任何人因使用本報告中的任何內容所引致的任何損失負任何責任。本報告的信息均來源于本公司認為可信的公開資料,但本公司及其研究人員對該等信息的準確性及完整性不作任何保證。本報告中的資料、意見及預測僅反映本公司于發(fā)布本報告當日的判斷,可能會隨時調整。在不同時期,本公司可發(fā)出與本報告所載資料、意見及推測不一致的報告。本公司不保證本報告所含信息及資料保持在最新狀態(tài),對本報告所含信息可在不發(fā)出通知的情形下做出修改,投資者應當自行關注相應的更新或修改。本公司力求報告內容客觀、公正,但本報告所載的資料、工具、意見、信息及推測只提供給客戶作參考之用,不構成任何投資、法律、會計或稅務的最終操作建議,本公司不就報告中的內容對最終操作建議做出任何擔保。本報告中所指的投資及服務可能不適合個別客戶,不構成客戶私人咨詢建議。投資者應當充分考慮自身特定狀況,并完整理解和使用本報告內容,不應視本報告為做出投資決策的唯一因素。投資者應注意,在法律許可的情況下,本公司及其本公司的關聯(lián)機構可能會持有本報告中涉及的公司所發(fā)行的證券并進行交易,也可能為這些公司正在提供或爭取提供投資銀行、財務顧問和金融產品等
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 八年級語文下冊第4單元《孔乙己》說課稿
- 網簽版購房合同范本
- 婚姻義務合同范本
- 2024年染發(fā)劑行業(yè)發(fā)展現(xiàn)狀分析:染發(fā)劑中國市場規(guī)模約為200億元
- 寒假學習計劃
- 關于工地的買賣合同范本
- 員工顧問合同范本
- 2024年消防設施運維三方協(xié)議協(xié)議書
- 外資入股合同范本
- 小麥種銷售合同范本
- 顏真卿介紹課件
- 《兄弟》作品簡介名著導讀PPT模板
- 三年級上冊美術第14課美麗的花掛毯滬教版課件6
- 土木工程施工安全風險與管理措施探究
- 辦公大樓供配電系統(tǒng)設計
- 帝光公司OEC目標“日事日畢、日清日高”實施方案
- 醫(yī)院投訴登記表1
- 基坑支護工程質量評估報告
- 2023年4月三級煙草專賣管理師崗位技能-試卷正文
- 個人借條范本版(最新)word版
- 小學語文人教三年級上冊第六組-2《奇妙的中心句》群文閱讀教學設計
評論
0/150
提交評論