提升AI模型邊際效能:圖注意力網(wǎng)絡(luò)與特征集成_第1頁
提升AI模型邊際效能:圖注意力網(wǎng)絡(luò)與特征集成_第2頁
提升AI模型邊際效能:圖注意力網(wǎng)絡(luò)與特征集成_第3頁
提升AI模型邊際效能:圖注意力網(wǎng)絡(luò)與特征集成_第4頁
提升AI模型邊際效能:圖注意力網(wǎng)絡(luò)與特征集成_第5頁
已閱讀5頁,還剩26頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

請仔細(xì)閱讀本報(bào)告末頁聲明證券研究報(bào)告|金融工程研究在報(bào)告《基于深度學(xué)習(xí)的指數(shù)增強(qiáng)策略》中,我們提出了增強(qiáng)AI選股模型績效的3個思路:1.對同一模型構(gòu)建差異化數(shù)據(jù)集輸入,堆疊多數(shù)據(jù)集的輸出;2.通過調(diào)整超參數(shù)選取、標(biāo)簽構(gòu)建、數(shù)據(jù)預(yù)處理方式等精進(jìn)單一模型;3.對同一數(shù)據(jù)集根據(jù)不同模型訓(xùn)練,堆疊多模型的輸出;我們在之前研究中重點(diǎn)討論了前兩者,本文圍繞第三個思路展開,探討如何基于同一數(shù)據(jù)集,在不同模型下訓(xùn)練并堆疊因子輸出,以提升模型效能。多維度提升AI選股模型績效首先,我們在時(shí)序神經(jīng)網(wǎng)絡(luò)中引入圖結(jié)構(gòu)網(wǎng)絡(luò),以此刻畫股票之間的關(guān)聯(lián),該空間信息的引入增強(qiáng)了單一數(shù)據(jù)集的預(yù)測能力;其次,我們在原有基礎(chǔ)數(shù)據(jù)集之外引入手工構(gòu)建的量價(jià)和基本面特征集合,手工特征集顯著捕獲了端對端模型之外的增量Alpha信息;最后,在特征集成階段,我們考慮數(shù)據(jù)輸入、算法使用與標(biāo)簽設(shè)計(jì)等維度的多樣性,綜合構(gòu)建集成模型,這進(jìn)一步提高了模型的選股能力。深度學(xué)習(xí)選股因子基于多維度特征集合、集成算法與標(biāo)簽設(shè)計(jì),我們得到深度學(xué)習(xí)選股因子,在回溯期2019年至2023年間,因子多頭超額收益45.4%,5日IC均值為12.9%,10日IC均值達(dá)到14.7指數(shù)增強(qiáng)組合基于AI選股因子,我們構(gòu)建周頻調(diào)倉的中證500和中證1000指增組合:1.2019至2023年,中證500指數(shù)增強(qiáng)組合相對中證500指數(shù)年化超額收益18.6%,跟蹤誤差5.5%,信息比率2.98;2.2019至2023年,中證1000指數(shù)增強(qiáng)組合相對中證1000指數(shù)年化超額收益28.1%,跟蹤誤差6.4%,信息比率3.67。風(fēng)險(xiǎn)提示:結(jié)論基于歷史數(shù)據(jù)以及模型推算,存在失效風(fēng)險(xiǎn)。作者分析師繆鈴凱相關(guān)研究可轉(zhuǎn)債量化月報(bào)》2024-06-11線級別下跌》2024-06-10P.2請仔細(xì)閱讀本報(bào)告末頁聲明一、AI選股模型 二、數(shù)據(jù)與網(wǎng)絡(luò) 42.1數(shù)據(jù)輸入 42.2網(wǎng)絡(luò)結(jié)構(gòu) 三、因子信號 3.1基礎(chǔ)數(shù)據(jù)集 3.2手工特征數(shù)據(jù)集 四、特征集成 五、指增策略 5.1中證500指數(shù)增強(qiáng) 135.2中證1000指數(shù)增強(qiáng) 五、總結(jié) 風(fēng)險(xiǎn)提示 圖表1:中證500指增(80%成分權(quán)重下限) 圖表2:中證1000指增(80%成分權(quán)重下限) 圖表3:AI選股模型結(jié)構(gòu) 圖表4:圖注意力機(jī)制 圖表5:基礎(chǔ)數(shù)據(jù)集因子相關(guān)性 圖表6:基礎(chǔ)數(shù)據(jù)集因子績效 圖表7:alpha158因子分類 圖表8:手工特征集因子相關(guān)性 圖表9:apha158因子績效 圖表10:fundamental因子績效 圖表11:特征合并示意圖 10圖表12:LSTM因子集合集成績效 圖表13:LSTM-GAT因子集合集成績效 圖表14:加入手工數(shù)據(jù)后因子績效 圖表15:多次集成因子績效 圖表16:中證500指數(shù)增強(qiáng)組合凈值 13圖表17:中證500指數(shù)增強(qiáng)組合收益 13圖表18:中證1000指數(shù)增強(qiáng)組合凈值 圖表19:中證1000指數(shù)增強(qiáng)組合收益 P.3請仔細(xì)閱讀本報(bào)告末頁聲明圖表1:中證500指增(80%成分權(quán)重下限)—組合—中證500—相對強(qiáng)弱資料來源:wind,國盛證券研究所圖表2:中證1000指增(80%成分權(quán)重下限)0.6—組合—中證1000—相對強(qiáng)弱資料來源:wind,國盛證券研究所探討如何將同一數(shù)據(jù)集在不同模型下的訓(xùn)練輸出有效堆疊,以提升模型邊際效能。圖表3:AI選股模型結(jié)構(gòu)featureensembleengineeringmodeldatafeaturefactormodeloptimizeportfolio資料來源:國盛證券研究所繪制基于此,本文將具體探索以下三個維度:3.多維度特征集成:對于多網(wǎng)絡(luò)結(jié)構(gòu)輸出的多維度特征集合P.4請仔細(xì)閱讀本報(bào)告末頁聲明2.價(jià)格數(shù)據(jù)先除以最新收盤價(jià)標(biāo)準(zhǔn)化,成交量/額數(shù)據(jù)除以序列2.價(jià)格數(shù)據(jù)先除以最新收盤價(jià)標(biāo)準(zhǔn)化,成交量/額數(shù)據(jù)除以序列數(shù)據(jù)特征:開盤收益率、早盤/尾盤收益率、日內(nèi)最高/最低收益率、日內(nèi)平均收益率數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理P.5請仔細(xì)閱讀本報(bào)告末頁聲明它在處理股票時(shí)間序列信息方面表現(xiàn)出色,然而,在實(shí)際的投資決策中,除了單只股票的時(shí)間序列信息外,股票之間的截樣蘊(yùn)含著至關(guān)重要的信息。為了捕捉這種股票間的相互關(guān)系,我們引入了圖注意力網(wǎng)絡(luò)股票之間的復(fù)雜截面關(guān)系,從而為我們提供了一理解股票市場的行為,為投資決策提供更為深入和精確我們具體的網(wǎng)絡(luò)結(jié)構(gòu)如下:?idden=LSTM(input)att=selfattention(?idden)gat_output=GAT([att,?idden?1],adj)output=MLP(gat_output)在神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程中,我們遵循以下步驟:作為訓(xùn)練基礎(chǔ),確保模型能夠適應(yīng)時(shí)間序列的變化;P.6請仔細(xì)閱讀本報(bào)告末頁聲明{1,2,3,…,N},i∈RF,通過線性變化w∈RF′×F得到N個節(jié)點(diǎn)的F′維特征表示?′。的影響:eij=a(wi,w)。將目標(biāo)節(jié)點(diǎn)與所有鄰居節(jié)點(diǎn)算出權(quán)值之后做softmax歸一化:aij=softmaxj(eij),最終每個節(jié)點(diǎn)的輸出=σ(∑j∈Niaijw),其中Ni是與節(jié)點(diǎn)i連通的節(jié)點(diǎn)集合。圖表4:圖注意力機(jī)制資料來源:VelikoviP,CucurullG,CasanovaA,etal.GraphAttentionNetworks,國盛證券研究所整理因此,對于圖網(wǎng)絡(luò)模型而言,鄰接矩陣的定義至為gat_output=GAT(input,Aind)其中Aij=1當(dāng)且僅當(dāng)industyi=industyj,否則Aij=0。gat_output=[GAT(input,Aind),GAT(input,Astyle)]對于Astyle,股票間的連通取決于風(fēng)格暴露,我們參考文獻(xiàn)2將節(jié)點(diǎn)風(fēng)格特征信息嵌入:M2=tanh(aE2θ2)Astyle=ReLU(tanh(a(M1M?M2M)))idx=aTgtopk(A[i,:])Astyle[i,?idx]=02020.DOI:10.1145/339P.7請仔細(xì)閱讀本報(bào)告末頁聲明對于因子績效具體檢驗(yàn)規(guī)則,如下:基礎(chǔ)數(shù)據(jù)集包含數(shù)據(jù)集1-5,它們的具體構(gòu)建細(xì)則在前序報(bào)告中已經(jīng)介紹,下面我們基圖表5:基礎(chǔ)數(shù)據(jù)集因子相關(guān)性baselinebaselineGAT-indGAT-ind-stylekbarmoney_flowkbar_m4intra_retpv_factorkbarmoney_flowkbar_m4intra_retpv_factorkbarmoney_flowkbar_m4intra_retpv_factorkbar-34%79%79%65%66%-36%36%82%82%70%70%68%-39%39%82%82%68%68%67%money_flow34% 37%37%40%54%36%36% 36%36%38%38%50%39%39%-39%39%40%40%49%kbar_m479%37%-67%66%82%82%36%36% 69%69%65%82%82%39%39% 70%70%66%intra_ret65%40%67% 69%70%70%38%38%69%69%-68%68%68%40%40%70%70% 65%pv_factor66%54%66%69%69%-68%68%50%50%65%65%68%68%-67%67%49%49%66%66%65%65%-資料來源:wind,國盛證券研究所提升。因此,圖網(wǎng)絡(luò)模型可能增加數(shù)據(jù)集輸出特征之間的信息重疊度。圖表6:基礎(chǔ)數(shù)據(jù)集因子績效baselinebaselineGAT-indGAT-istylebaselineGAT-indGAT-style資料來源:wind,國盛證券研究所對于單一數(shù)據(jù)集而言能提高數(shù)據(jù)集的預(yù)測能力。P.8請仔細(xì)閱讀本報(bào)告末頁聲明圖表7:alpha158因子分類KLEN,KUP,KLOW,HIGH0,LOW0,STD5,STD10,MIN5,VSUMP5,VSUMP10,VSUMVSUMD5,VSUMD10,VSUMD20,VSUMD30,VSIMAX5,IMAX10,IMAX20,IMAX30,IMAX60,IMIN5,IMIN10,IMIN20,IMIN30,IMICNTN20,CNTN30,CNTN60,SUMN5,WVMA5,WVMA10,WVMA20,WROC5,ROC10,ROC20,ROC30,ROC60,MA5,MA10,MA20,MA30,MA60,QTLU5,QTLU60,QTLD5,QTLD10,QTLD20,QTLD30,QTLD60,SUMN10,SUMN20,VMA5,VMA10,VMA20,VMA30,VMA60,VSTD10,VSTD20,VSTD30,VSTD60,VSUMN5,VSUMN10,VSUMBETA5,BETA10,BETA20,BETA30,BETA60,RESI20,RESI30,RESI60,MRANK5,RANK10,RANK20,RANK30,RANK60,RSV5,RSV10,RSV20,RSV30,RSV60,CCNTP30,CNTP60,CNTD5,CNTD10,CNTD20,CNTD30,CNTD60,SUMP5,SUMP10,SUMP20SUMD5,SUMD10,SUMD20,SUMD3alpha6KMID,KMID2,KSFT,KSFT2,RESI5,RESI10alpha7CORR5,CORR10,CORR20,CORR30,CORD5,CORD10,CORD20,CORD30,CORD60KUP2,KLOW2,STD20,STD30,STD60,RSQR5,RSQR10,RSQR20,RSQR30,RSQR6MAX30,MAX60,IMXD5,IMXD10,IMXD20,IMX資料來源:wind,國盛證券研究所gat_output=[GAT(input,Aind),GAT(input,Astyle)]output=MLP(gat_output)其中Aind和Astyle分別為基于行業(yè)和風(fēng)格信息得到的鄰接矩陣。P.9請仔細(xì)閱讀本報(bào)告末頁聲明圖表8:手工特征集因子相關(guān)性--資料來源:wind,國盛證券研究所圖表9:apha158因子績效16.8%10.6%19.4%10.8%22.6%10.8%20.3%9.9%25.5%10.0%24.0%9.9%15.5%8.3%18.4%8.3%17.2%7.7%20.1%10.6%21.4%10.6%25.3%10.8%17.3%10.1%12.6%9.4%14.1%9.8%19.1%9.9%20.5%9.9%21.9%9.8%資料來源:wind,國盛證券研究所因此,對于網(wǎng)絡(luò)模型而言,模型復(fù)雜度可能提高圖表10:fundamental因子績效65.6%21.0%44.5%8.2%87.5%67.8%35.6%32.2%6.8%79.8%40.5%15.6%25.0%6.1%78.2%55.6%24.9%30.6%8.9%85.1%51.2%18.4%32.8%9.9%81.8%59.2%24.5%34.7%8.1%82.5%資料來源:wind,國盛證券研究所P.10請仔細(xì)閱讀本報(bào)告末頁聲明以提高預(yù)測的準(zhǔn)確性和穩(wěn)健性。業(yè)界普遍采用的方法之一就是使用集成學(xué)習(xí)技術(shù),尤其是梯度提升決策樹(GBDT)算法,來對這些因子輸出進(jìn)行集成。GBDT算法對于參數(shù)而言并不敏感,這意味著通過細(xì)致的參數(shù)調(diào)優(yōu)來實(shí)現(xiàn)圖表11:特征合并示意圖concat資料來源:國盛證券研究所繪制 子特征隨機(jī)相加;最后拼接不同數(shù)據(jù)集的因子特征,得到綜合特征集合。據(jù)的復(fù)雜性和多樣性,從而提高整體模型的泛化能力和預(yù)測準(zhǔn)確性。P.11請仔細(xì)閱讀本報(bào)告末頁聲明在集成后的綜合因子績效。圖表12:LSTM因子集合集成績效資料來源:wind,國盛證券研究所圖表13:LSTM-GAT因子集合集成績效資料來源:wind,國盛證券研究所P.12請仔細(xì)閱讀本報(bào)告末頁聲明圖表14:加入手工數(shù)據(jù)后因子績效資料來源:wind,國盛證券研究所可能蘊(yùn)含神經(jīng)網(wǎng)絡(luò)難以直接從原始數(shù)據(jù)中提取的特征最后,我們對比多次集成相對于單次集成對于模型績效的提升。以單一因子集、單一集圖表15:多次集成因子績效資料來源:wind,國盛證券研究所因此,在輸入特征、集成算法和標(biāo)簽設(shè)定等多維度提高選股模型的績效。我們以此作為本文最終的深度學(xué)習(xí)綜合因子,構(gòu)建選股策略。P.13請仔細(xì)閱讀本報(bào)告末頁聲明圖表16:中證500指數(shù)增強(qiáng)組合凈值資料來源:wind,國盛證券研究所圖表17:中證500指數(shù)增強(qiáng)組合收益超額收益基準(zhǔn)收益信息比率超額回撤12.9%38.0%25.1%-6.0%4.4%55.2%63.6%20.0%40.9%20.9%-4.0%5.9%58.0%75.0%25.0%40.6%15.6%-6.4%6.0%63.8%75.0%17.2%-3.1%-2.1%5.4%57.9%91.7%13.8%6.3%-7.4%-9.9%-2.4%4.8%60.7%83.3%18.6%24.0%5.4%-6.4%5.5%59.1%78.0%資料來源:wind,國盛證券研究所P.14請仔細(xì)閱讀本報(bào)告末頁聲明圖表18:中證1000指數(shù)增強(qiáng)組合凈值資料來源:wind,國盛證券研究所圖表19:中證1000指數(shù)增強(qiáng)組合收益超額收益基準(zhǔn)收益信息比率超額回撤資料來源:wind,國盛證券研究所P.15請仔細(xì)閱讀本報(bào)告末頁聲明3.對同一數(shù)據(jù)集根據(jù)不同模型訓(xùn)練,堆疊多之前研究中我們重點(diǎn)討論了前兩者,本文圍繞第三個思路展開,探討如何基于同一數(shù)據(jù)其次,我們在原有基礎(chǔ)數(shù)據(jù)集之外引入了手工量價(jià)和基本面特征集合,手工特征集顯著合構(gòu)建集成模型,這進(jìn)一步提高了模型的選股能力。P.16請仔細(xì)閱讀本報(bào)告末頁聲明P.17請仔細(xì)閱讀本報(bào)告末頁聲明免責(zé)聲明國盛證券有限責(zé)任公司(以下簡稱“本公司”)具有中國證監(jiān)會許可的證券投資咨詢業(yè)務(wù)資格。本報(bào)告僅供本公司的客戶使用。本公司不會因接收人收到本報(bào)告而視其為客戶。在任何情況下,本公司不對任何人因使用本報(bào)告中的任何內(nèi)容所引致的任何損失負(fù)任何責(zé)任。本報(bào)告的信息均來源于本公司認(rèn)為可信的公開資料,但本公司及其研究人員對該等信息的準(zhǔn)確性及完整性不作任何保證。本報(bào)告中的資料、意見及預(yù)測僅反映本公司于發(fā)布本報(bào)告當(dāng)日的判斷,可能會隨時(shí)調(diào)整。在不同時(shí)期,本公司可發(fā)出與本報(bào)告所載資料、意見及推測不一致的報(bào)告。本公司不保證本報(bào)告所含信息及資料保持在最新狀態(tài),對本報(bào)告所含信息可在不發(fā)出通知的情形下做出修改,投資者應(yīng)當(dāng)自行關(guān)注相應(yīng)的更新或修改。本公司力求報(bào)告內(nèi)容客觀、公正,但本報(bào)告所載的資料、工具、意見、信息及推測只提供給客戶作參考之用,不構(gòu)成任何投資、法律、會計(jì)或稅務(wù)的最終操作建議,本公司不就報(bào)告中的內(nèi)容對最終操作建議做出任何擔(dān)保。本報(bào)告中所指的投資及服務(wù)可能不適合個別客戶,不構(gòu)成客戶私人咨詢建議。投資者應(yīng)當(dāng)充分考慮自身特定狀況,并完整理解和使用本報(bào)告內(nèi)容,不應(yīng)視本報(bào)告為做出投資決策的唯一因素。投資者應(yīng)注意,在法律許可的情況下,本公司及其本公司的關(guān)聯(lián)機(jī)構(gòu)可能會持有本報(bào)告中涉及的公司所發(fā)行的證券并進(jìn)行交易,也可能為這些公司正在提供或爭取提供投資銀行、財(cái)務(wù)顧問和金融產(chǎn)品等

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論