![金融產(chǎn)品深度:資金流向相似性圖譜與圖神經(jīng)網(wǎng)絡(luò)_第1頁](http://file4.renrendoc.com/view/6b448d8d31e83cefb658a4cea7ef2990/6b448d8d31e83cefb658a4cea7ef29901.gif)
![金融產(chǎn)品深度:資金流向相似性圖譜與圖神經(jīng)網(wǎng)絡(luò)_第2頁](http://file4.renrendoc.com/view/6b448d8d31e83cefb658a4cea7ef2990/6b448d8d31e83cefb658a4cea7ef29902.gif)
![金融產(chǎn)品深度:資金流向相似性圖譜與圖神經(jīng)網(wǎng)絡(luò)_第3頁](http://file4.renrendoc.com/view/6b448d8d31e83cefb658a4cea7ef2990/6b448d8d31e83cefb658a4cea7ef29903.gif)
![金融產(chǎn)品深度:資金流向相似性圖譜與圖神經(jīng)網(wǎng)絡(luò)_第4頁](http://file4.renrendoc.com/view/6b448d8d31e83cefb658a4cea7ef2990/6b448d8d31e83cefb658a4cea7ef29904.gif)
![金融產(chǎn)品深度:資金流向相似性圖譜與圖神經(jīng)網(wǎng)絡(luò)_第5頁](http://file4.renrendoc.com/view/6b448d8d31e83cefb658a4cea7ef2990/6b448d8d31e83cefb658a4cea7ef29905.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
本報(bào)告由中信建投證券股份有限公司在中華人民共和國(僅為本報(bào)告目的,不包括香港、澳門、臺(tái)灣)提供。在遵守適用的法律法規(guī)情況下,本報(bào)告亦可能由中信建投(國際)證券有限公司在香港提供。同時(shí)請(qǐng)參閱最后一頁的重要聲明。2021/7/52021/8/52021/9/52021/10/52021/11/52021/12/52022/1/52022021/7/52021/8/52021/9/52021/10/52021/11/52021/12/52022/1/52022/2/52022/3/52022/4/52022/5/52022/6/5資金流向相似性圖譜與圖神經(jīng)網(wǎng)絡(luò)本報(bào)告構(gòu)建6種資金流向相似性圖譜,并用于XGB訓(xùn)練的特征工程環(huán)節(jié)、圖神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,為存量因子、模型和策略帶來模型IC、TOP組超額、多空收益、指數(shù)增強(qiáng)組合的收益增量。將XGB和GAT疊加多圖譜后進(jìn)行集成,進(jìn)一步帶來額外增量。資金流向相似性關(guān)系圖譜股票之間在同一時(shí)段內(nèi)共同出現(xiàn)資金凈流入或流出的頻率,反應(yīng)了驅(qū)動(dòng)股價(jià)變化的相似資金行為的影響因素,本報(bào)告以此思路構(gòu)建了6種資金流向相似性圖譜。特征工程衍生因子:傳統(tǒng)機(jī)器學(xué)習(xí)模型增強(qiáng)在傳統(tǒng)XGBOOST訓(xùn)練過程中,在特征工程的環(huán)節(jié),基于資金流向相似性圖譜的鄰接矩陣對(duì)存量因子進(jìn)行因子衍生,將衍生因子和存量因子共同用于模型訓(xùn)練,從而利用股票自身信息及在資金流向相似性圖譜上和股票有關(guān)聯(lián)的其他個(gè)股信息共同預(yù)測個(gè)股收益率,從而在模型訓(xùn)練過程中疊加圖譜信息,最終通過多圖譜集成的方式為模型IC和rankIC帶來增量,各指成分股TOP組超額比原始模型提升2%~3%、多空年化收益增量2%~5%。注意力機(jī)制圖神經(jīng)網(wǎng)絡(luò)GraphAttentionNetwork(GAT)是一種基于注意力機(jī)制的圖神經(jīng)網(wǎng)絡(luò)模型,用于學(xué)習(xí)節(jié)點(diǎn)之間的依賴關(guān)系。其核心思想是在顯示圖確定的節(jié)點(diǎn)之間的關(guān)聯(lián)關(guān)系的基礎(chǔ)上,利用注意力機(jī)制自適應(yīng)地學(xué)習(xí)節(jié)點(diǎn)之間的關(guān)聯(lián)度權(quán)重。利用GAT模型將資金流向相似性圖譜和存量因子一起用于模型訓(xùn)練,相比于不加GAT的相同結(jié)構(gòu)部分的MLP而言,多圖集成的GAT方案在各個(gè)指數(shù)成分股上帶來IC增量2%左右,TOP組超額增量2%~5%,多空年化收益增量3%~10%。傳統(tǒng)模型與GAT再集成從模型效果來看,基于同樣存量因子疊加多圖譜訓(xùn)練的神經(jīng)AT模型輸出有較低相關(guān)性,進(jìn)一步將兩類模型集成能夠帶來相對(duì)XGBOOST模型的增量。最終全市場IC由原始不疊加圖譜XGB的9.35%提升至10.53%、多空年化收益由44.8%提升至61.35%。在各個(gè)指數(shù)成分股上,集成模型相對(duì)多圖譜XGBOOST帶來IC增量0.2%~0.6%,相對(duì)不疊加圖譜信息的XGBOOST最高帶來IC增量1%以上;TOP組超額、多空收益等指標(biāo)均能進(jìn)一步帶來不同程度的增量。集成模型最終在全市場IC9.83%,扣費(fèi)后多空年化60%,00、500、1000成分股TOP組年化超額9.22%、12.60%、17.89%。經(jīng)過組合優(yōu)化后超額夏普進(jìn)一步穩(wěn)定。風(fēng)險(xiǎn)提示:因子測試、機(jī)器學(xué)習(xí)建模是對(duì)歷史經(jīng)驗(yàn)的總結(jié),模型學(xué)習(xí)到的市場規(guī)律在未來存在失效的可能。陳陳升銳chenshengruiAC執(zhí)證編號(hào):S1440519040002魯植宸luzhichenAC執(zhí)證編號(hào):S1440522080005市場表現(xiàn)4%-6%-16%-26% 滬深300關(guān)系型數(shù)據(jù)增強(qiáng)模型訓(xùn)練:新聞共同報(bào)道增強(qiáng)機(jī)器學(xué)習(xí)模型訓(xùn)練鏈關(guān)系矩陣的因子增強(qiáng)0891 上證50金融產(chǎn)品研究頁的重要聲明 金融產(chǎn)品研究 1金融產(chǎn)品研究型頁的重要聲明一、引言隨著存儲(chǔ)、算力、模型方法的迭代更新為量化投資研究大規(guī)模積累有效因子提供了基礎(chǔ),投研中所涉及的存量因子從幾百到幾千不等,資產(chǎn)定價(jià)、因子選股步入高緯度時(shí)代。在多因子量化選股場景中,因子的角色逐步從信號(hào)轉(zhuǎn)變?yōu)楸姸嗟奶卣鳎瑢?duì)因子的評(píng)估逐步從單因子有效性轉(zhuǎn)變?yōu)橄鄬?duì)于存量因子的邊際增量。尤其在機(jī)器學(xué)習(xí)、人工智能這類非線性模型廣泛應(yīng)用于因子合成環(huán)節(jié)之后,即便單因子與存量因子在線性維度上能保證低相關(guān)性、克服多重共線性,但是在非線性建模場景下能帶來的邊際貢獻(xiàn)也未必可觀。新數(shù)據(jù)、新因子、新信息的有效性不單單取決于其單因子的效果強(qiáng)弱,在當(dāng)下的研究與實(shí)務(wù)中,新因子相對(duì)于已有因子帶來的邊際增量顯得更加重要。關(guān)系型圖譜數(shù)據(jù)在因子挖掘場景的應(yīng)用的研究逐漸受到關(guān)注,已有學(xué)術(shù)文獻(xiàn)論證了供應(yīng)鏈、分析師共同覆蓋、新聞共同報(bào)道、行業(yè)等關(guān)系維度下,收益之間存在顯著的領(lǐng)先-滯后關(guān)系,并基于此類信息構(gòu)建動(dòng)量傳導(dǎo)因子。在高緯度存量因子的背景下,因子以樣本特征的形式被用于資產(chǎn)定價(jià),關(guān)系型數(shù)據(jù)可以在建模環(huán)節(jié)通過因子衍生、聯(lián)合訓(xùn)練、進(jìn)而利用深度學(xué)習(xí)中的圖神經(jīng)網(wǎng)絡(luò)的方式為資產(chǎn)定價(jià)提供信息增量,從而為量化策略帶來超額收益的增量。資料來源:中信建投在早期報(bào)告中,本系列先后探究了供應(yīng)鏈關(guān)系、分析師共同覆蓋、新聞共同報(bào)道在因子建模場景的應(yīng)用,通過構(gòu)建形成表征公司間相關(guān)關(guān)聯(lián)特征的關(guān)系矩陣,以此對(duì)原因子庫進(jìn)行特征工程衍生,在模型訓(xùn)練和分組測試上,加入各類關(guān)系圖譜衍生因子后帶來模型輸出的IC值和組合構(gòu)建上的增量。本報(bào)告構(gòu)建了6種表征股票之間的資金流向相似性的矩陣,在存量因子庫的基礎(chǔ)上,通過批量衍生訓(xùn)練傳統(tǒng)機(jī)器學(xué)習(xí)模型、圖神經(jīng)網(wǎng)絡(luò)兩種方式將資金流向相似性矩陣用于模型訓(xùn)練環(huán)節(jié)的增強(qiáng),結(jié)果表明加入資金流向相似性對(duì)收益預(yù)測帶來增強(qiáng)效果。2金融產(chǎn)品研究型頁的重要聲明二、資金流向相似性資料來源:中信建投2.1資金流向相似性圖譜定義股票和股票之間的資金流向相似性刻畫了資金層面推動(dòng)股價(jià)走勢的交易行為的相似性,也反應(yīng)的交易行為背后資金方對(duì)股票價(jià)格的預(yù)期的共性。資金流入、流出的一致性更強(qiáng)的兩個(gè)股票潛在具有更強(qiáng)的關(guān)聯(lián)性。與早期報(bào)告中對(duì)供應(yīng)鏈、分析師共同覆蓋、新聞共同報(bào)道關(guān)系的建模方式類似,本報(bào)告通過鄰接矩陣來描述股票兩兩之間基于資金共同流向的關(guān)聯(lián)關(guān)系,進(jìn)而構(gòu)建六種資金流向相似性圖譜。資金流向數(shù)據(jù)基于level2高頻行情數(shù)據(jù)進(jìn)行衍生,根據(jù)委托、成交的資金量、成交類型等信息區(qū)分資金類型、成交類型和資金流向。圖表3為構(gòu)建資金流向相似性圖譜的具體細(xì)節(jié)據(jù)來源:中信建投,Wind,<4萬元)、中單(中戶,4萬-20萬)、大單(大戶,20-100萬)、特大單(機(jī)構(gòu),>100萬)金融產(chǎn)品研究型頁的重要聲明成交類型:根據(jù)成交訂單對(duì)應(yīng)買賣雙方的委托時(shí)間先后,將先來的委托訂作為被動(dòng)方、后來的為多訂單作為主動(dòng)方,從而將成交價(jià)>=賣價(jià)的成交稱為主動(dòng)買入、成交價(jià)<=買入訂單價(jià)格的成交稱為主動(dòng)賣出。當(dāng)日的資金凈流入=當(dāng)日主動(dòng)買入成交額-當(dāng)日主動(dòng)賣出成交額。凈流入大于0為資金凈流入,反之為資金凈流出。根據(jù)某天資金凈流入、流出的情況,可以計(jì)算股票兩兩之間資金聯(lián)動(dòng)的一致性情況。以資金共同流入圖譜為例,具體構(gòu)建步驟細(xì)節(jié)為:1)統(tǒng)計(jì)近22個(gè)交易日內(nèi),兩個(gè)股票共同出現(xiàn)資金凈流入的交易日數(shù)量2)構(gòu)建全市場所有股票的鄰接矩陣,本報(bào)告認(rèn)為股票兩兩之間的資金共同流向存在相關(guān)關(guān)聯(lián),從而在鄰接矩陣中兩兩股票的對(duì)應(yīng)位置里填入資金共同凈流入的交易日數(shù)量3)對(duì)所有股票重復(fù)上述步驟,最終的鄰接矩陣的數(shù)值表示兩只股票共同出現(xiàn)資金凈流入的交易日數(shù)量4)并在每行保留每只股票關(guān)聯(lián)度最強(qiáng)的前百分之1的股票作為圖譜上的鄰居基于資金流向相似性圖譜,最終可以構(gòu)建新的關(guān)系矩陣Mc,用以表征股票之間的資金共同流向關(guān)聯(lián),即Mc11Mcn1Mc11Mcn1Mc12…Mc22…Mcn2…Mc1nMcnnMc1nMcnn其中,Mcij表示第i個(gè)股票與第j個(gè)股票的資金共同流向關(guān)聯(lián)度,即兩個(gè)股票原始資金共同流向交易日天數(shù)類似地,根據(jù)不同資金類型、流入流出情況依次構(gòu)建6種圖譜及其對(duì)應(yīng)鄰接矩陣矩陣。2.2存在資金流向相似關(guān)系個(gè)股的收益率相關(guān)性分析為衡量存在資金流向相似性關(guān)系的個(gè)股在價(jià)格波動(dòng)性上的一致性,本報(bào)告在2018年-2021年,以每半年的頻率統(tǒng)計(jì):在A股市場全樣本和過去6個(gè)月中有資金流向相似關(guān)系的樣本中,股票之間的收益率相關(guān)系數(shù)的分布情況,統(tǒng)計(jì)結(jié)果見圖表4,相關(guān)系數(shù)的數(shù)據(jù)分布有關(guān)資金共同流出的見圖表5、6。注:數(shù)據(jù)截至2021/12/314金融產(chǎn)品研究型六個(gè)關(guān)系圖中,資金共同流出、大單資金共同流出、中小單資金共同流出三種流出類圖譜上存在的關(guān)聯(lián)個(gè)股之間的相關(guān)系數(shù)分布相比于全市場有明顯的增量。三種資金流出類樣本的收益率相關(guān)系數(shù)的均值和各個(gè)分位數(shù)高出全樣本1%-5%。從相關(guān)系數(shù)分布圖上看,存在資金共同流向相似性關(guān)系的個(gè)股相關(guān)系數(shù)分布在各個(gè)區(qū)間上相對(duì)于全市場有不同程度的右移動(dòng)。注:數(shù)據(jù)截至2021/12/31注:數(shù)據(jù)截至2022/06/30金融產(chǎn)品研究型注:數(shù)據(jù)截至2022/06/306金融產(chǎn)品研究型頁的重要聲明三、資金流向相似性在模型訓(xùn)練中的應(yīng)用3.1基于資金流向相似性的衍生因子構(gòu)建本報(bào)告進(jìn)一步對(duì)利用前文所述的資金流向相似性關(guān)系矩陣Mc,對(duì)因子進(jìn)行處理,首先對(duì)各個(gè)元素除以其所在行之和,得到權(quán)重矩陣Mw。特定因子F為各個(gè)股票對(duì)應(yīng)的特定因子值,是一個(gè)n×1的向量(下稱原有因子),即?Fn其中,F(xiàn)i表示第i個(gè)股票的因子值。對(duì)于上述因子向量F進(jìn)行如下運(yùn)算,可以得到對(duì)應(yīng)的衍生因子Fc:Fc=Mw?F其中,F(xiàn)c為集成了資金流向相關(guān)股票的衍生因子值,也是一個(gè)n×1的向量(下稱衍生因子)。對(duì)于某只特定股票i,其原有因子值為Fi,則衍生因子值為Fci=∑1MwijFi。衍生因子的因子值代表了對(duì)于每個(gè)股票而言,其在資金流向相似性關(guān)系網(wǎng)上有關(guān)系的個(gè)股的因子值根據(jù)他們之間的關(guān)聯(lián)度進(jìn)行加權(quán)求和的結(jié)果。3.2衍生因子聯(lián)合訓(xùn)練在模型訓(xùn)練中,在模型訓(xùn)練環(huán)節(jié),對(duì)于給定的原始樣本特征X=[F,F,...,F],根據(jù)因子圖譜衍生方法得到衍生特征維度Xw=Mw?X=[Mw?F,Mw?F,...,Mw?F]。然而進(jìn)一步將原始樣本特征和衍生的特征維度拼接后作為新的樣本特征X?=[X,Xw]=[F,F,...,F,Mw?F,Mw?F,...,Mw?F]對(duì)于某個(gè)交易日上股票i,其對(duì)應(yīng)的樣本Xi代表了該股票自身信息在樣本空間的特征,Xi~代表了在資金流向相似性圖譜所對(duì)應(yīng)的關(guān)系網(wǎng)上,與該股票有關(guān)聯(lián)的股票的信息和該股票自身信息的集成。因此,用[X,Xc]作為樣本特征進(jìn)行模型訓(xùn)練和預(yù)測,意味著利用股票自身信息以及與其有資金流向相似性關(guān)聯(lián)的個(gè)股的信息來聯(lián)合預(yù)測個(gè)股i的收益率。在模型訓(xùn)練中,圖譜集成方案分為單圖譜方案和多圖譜方案:單圖譜將利用原始特征X訓(xùn)練得到的模型y=g(X)作為基準(zhǔn),考察聯(lián)合訓(xùn)練模型與原始模型的集成y=g(X)+f(X??)的增量。多圖譜:將多個(gè)圖譜聯(lián)合訓(xùn)練的結(jié)果進(jìn)行集成,多圖譜的訓(xùn)練方案見圖表8。金融產(chǎn)品研究型頁的重要聲明資料來源:中信建投3.3模型訓(xùn)練實(shí)驗(yàn)設(shè)置及結(jié)果分析本小節(jié)基于給定存量因子庫的因子,平行對(duì)比存量因子庫的單獨(dú)應(yīng)用、疊加資金流向相似性圖譜聯(lián)合訓(xùn)練的多種方案,評(píng)估資金流向相似性圖譜的衍生因子在傳統(tǒng)機(jī)器學(xué)習(xí)建模過程種為存量因子帶來的增量。3.3.1模型訓(xùn)練實(shí)驗(yàn)設(shè)置模型訓(xùn)練環(huán)節(jié),本文采用了XGBOOST模型,通過滾動(dòng)訓(xùn)練的方式,每10個(gè)交易日訓(xùn)練一次模型,用于未來10個(gè)交易日的選股和組合構(gòu)建,每次使用最近22個(gè)交易日計(jì)算得到的資金流向相似性圖譜進(jìn)行因子衍生和特征構(gòu)造,模型訓(xùn)練參數(shù)細(xì)節(jié)見圖表9:模型類型XGBOOSTbooster:gbtreecolsample_bytree:0.7learningrate1超參數(shù)max_depth:7min_child_weight:10n_estimators:100subsample標(biāo)簽vwap計(jì)算未來10日收益率預(yù)處理:截面winsorize左右5%縮尾、標(biāo)準(zhǔn)化標(biāo)簽:取rank分位數(shù)樣本集:剔除缺失值比例大于20%的樣本訓(xùn)練設(shè)置每10個(gè)交易日重新訓(xùn)練一次模型每次使用300個(gè)交易日的樣本作為訓(xùn)練集每次使用最近22個(gè)交易日計(jì)算得到的資金流向相似性圖譜進(jìn)行因子衍生及特征構(gòu)造資料來源:中信建投8金融產(chǎn)品研究型為了評(píng)估資金流向相似性關(guān)系信息對(duì)因子庫、模型和策略帶來的增量,本文采取以下平行對(duì)照實(shí)驗(yàn):1)RawModel:每次訓(xùn)練將根據(jù)上述流程使用原始因子作為個(gè)股的樣本特征。2)疊加圖譜信息進(jìn)行訓(xùn)練:每次訓(xùn)練在原始因子基礎(chǔ)上,逐一利用每種資金流向相似性關(guān)系提取的矩陣進(jìn)行矩陣乘法,對(duì)每個(gè)因子衍生出一個(gè)新因子,從而每個(gè)樣本為原始因子+衍生因子的2倍特征。通過該方法進(jìn)行模型訓(xùn)練,將個(gè)股自身的特征維度、以及在資金流向相似性關(guān)系網(wǎng)上和其有關(guān)聯(lián)的個(gè)股的特征維度一起用于個(gè)股的收益率預(yù)測。3.3.2疊加衍生因子模型輸出的有效性分析圖表10展示了各個(gè)圖譜的訓(xùn)練方案在中證全指成分股上與未來10日收益率的IC、rankIC情況:1)疊加單圖譜所形成的資金流向相似關(guān)系矩陣的因子的模型輸出IC均值為9.38%~9.52%,相對(duì)原始因子模型輸出提升0.1~0.2%2)除中小單共同流出圖譜外,資金流向相似性提取因子結(jié)果的IC,rankIC均有不同程度的增量3)疊加多圖譜的資金流向關(guān)系矩陣的因子的模型輸出IC均值為9.60%~9.68%,相對(duì)原始因子模型輸出提升0.3%左右。圖表11展示了各個(gè)方案相對(duì)原始模型的IC增量累計(jì)曲線:1)單圖譜方案在2020年前有較為穩(wěn)定的IC增量,2020年后IC累計(jì)增量出現(xiàn)集體失效且不同方案出現(xiàn)分化。2)資金共同流出、大單資金共同流出圖譜的增強(qiáng)效果在整個(gè)測試周期內(nèi)較為穩(wěn)健。大單資金共同流入圖譜在2022年7月之前累計(jì)增強(qiáng)效果最強(qiáng),但之后其增量出現(xiàn)失效,在周期內(nèi)增強(qiáng)效果不穩(wěn)定。3)LRI、TRU多圖譜方案IC增量有明顯的持續(xù)提升。多圖譜方案相比于單圖譜方案而言,增量的持續(xù)穩(wěn)定性更強(qiáng)注:數(shù)據(jù)截至2022/12/309金融產(chǎn)品研究型注:數(shù)據(jù)截至2023/05/303.3.2疊加圖譜模型輸出對(duì)各成分股的有效性分析疊加資金流向相似性圖譜所訓(xùn)練模型在各指數(shù)成分股內(nèi)均能帶來不同程度的IC、rankIC提升,IC、rankIC波動(dòng)性也隨之提升。從絕對(duì)增量上來看,滬深300成分股內(nèi)IC增量較大,中證800、中證500、中證1000增量漸弱。不同類型的圖譜在各個(gè)指數(shù)成分股上增強(qiáng)效果的相對(duì)強(qiáng)弱的差異可能來源于:市值較大的股票的資金共同流向來源于確定性的驅(qū)動(dòng)因素,因此股價(jià)走勢的聯(lián)動(dòng)性和資金流向相似性的關(guān)系更緊密。市值較小的股票的資金共同流向有更多的隨機(jī)性。注:數(shù)據(jù)截至2023/05/30金融產(chǎn)品研究型3.3.3模型輸出分組測試本報(bào)告進(jìn)一步通過分組、多空測試,評(píng)估比較10種方案下模型輸出的效果。股票池為中證全指成分股(剔除其中被ST和停牌的股票),回測區(qū)間為2017/06/01-2023/05/30。將根據(jù)因子值排序分為10組、市值加權(quán)、10日調(diào)倉進(jìn)行測試,交易費(fèi)用單邊0.15%。為了避免不同回測起始交易日下的日歷效應(yīng)、路徑依賴帶來的影響,每個(gè)分組的回測將資金分為10份,在T+0日-T+9日每日作為回測的起點(diǎn)進(jìn)行一次回測,并將10個(gè)子組合的收益求平均后作為最終該分組的收益。分層測試結(jié)果見錯(cuò)誤!未找到引用源。注:數(shù)據(jù)截至2023/05/301)原始因子分別疊加三個(gè)資金共同流入圖譜的關(guān)系后,頭部組合在年化超額收益、夏普比率均有不同程度改善。三個(gè)資金共同流入圖譜在TOP組年化超額、超額夏普上均有提升,資金共同流入圖譜為模型訓(xùn)練帶來2.26%的超額提升、夏普增量0.1。2)原始因子分別疊加三個(gè)資金共同流入圖譜的關(guān)系后,多空組合在年化收益、夏普比率等指標(biāo)均有不同程度改善。特別是資金共同流入圖譜為模型訓(xùn)練帶來5.31%的年化收益增量。3)三個(gè)資金共同流出圖譜在全市場范圍選股的多空組年化收益、夏普幾乎沒有增量。4)三個(gè)多圖譜集成方案的頭部組超額增量分別為2.74%、2.9%、3.12%,TRU的TOP組超額、夏普、多空收益等指標(biāo)均有進(jìn)一步增量。進(jìn)一步在滬深300、中證500、中證800、中證1000成分股上評(píng)估比較3種多圖譜模型輸出的效果,結(jié)果金融產(chǎn)品研究型頁的重要聲明注:數(shù)據(jù)截至2023/05/30注:數(shù)據(jù)截至2023/05/301)三種圖譜集成方案在各大寬基指數(shù)內(nèi)的分層測試表現(xiàn)均有提升,中證800成分股TOP組超額提升幅度金融產(chǎn)品研究型頁的重要聲明較其他指數(shù)明顯,其中TRI集成方案上年化超額提升3.5%。滬深300成分股上增量3%,中證500、中證1000上增量均在2%左右。3)各個(gè)成分股上rankIC、IC的增量相對(duì)強(qiáng)弱和TOP組超額收益增量情況較為一致,和多空收益一致性較低。4)疊加圖譜后的集成方案上,中證1000TOP組超額在2017年9月后一直呈現(xiàn)穩(wěn)定持續(xù)的增量;滬深300TOP組超額在2019年11月之前幾乎沒有增量,11月之后呈現(xiàn)穩(wěn)定增量;中證500TOP組超額在2020年9月到2021年7月之間出現(xiàn)失效,2021年7月之后呈現(xiàn)穩(wěn)定增量。中證800TOP組超額在2019年11月之后有穩(wěn)定的增量,但在2021年1月-7月出現(xiàn)不同程度的分化。金融產(chǎn)品研究型頁的重要聲明四、資金流向相似性圖譜在圖神經(jīng)網(wǎng)絡(luò)上的應(yīng)用4.1模型介紹(一)基于注意力機(jī)制的圖神經(jīng)網(wǎng)絡(luò)圖神經(jīng)網(wǎng)絡(luò)可以看作神經(jīng)網(wǎng)絡(luò)的拓展,能夠處理圖結(jié)構(gòu)的輸入數(shù)據(jù)。圖結(jié)構(gòu)數(shù)據(jù)可以定義為G={V,E},其中,V是圖中所有節(jié)點(diǎn)的集合,在本研究中表示企業(yè),E是邊的集合,在本文中表示企業(yè)間的關(guān)系。本文主要采用GraphAttentionNetwork模型來學(xué)習(xí)圖結(jié)構(gòu),使得節(jié)點(diǎn)可以在聚合過程中考慮到不同關(guān)聯(lián)企業(yè)的重要性差GraphAttentionNetwork(GAT)是一種基于注意力機(jī)制的圖神經(jīng)網(wǎng)絡(luò)模型,用于學(xué)習(xí)節(jié)點(diǎn)之間的依賴關(guān)系。其核心思想是為每個(gè)節(jié)點(diǎn)自適應(yīng)地學(xué)習(xí)不同節(jié)點(diǎn)對(duì)當(dāng)前節(jié)點(diǎn)的重要性權(quán)重,從而對(duì)節(jié)點(diǎn)進(jìn)行聚合。其原理包括以下幾個(gè)關(guān)鍵步驟:1、輸入表示:將每個(gè)節(jié)點(diǎn)的特征表示作為輸入,h={1,2,...,N},i∈RF,N為節(jié)點(diǎn)數(shù),F(xiàn)為特征維度。2、注意力αij計(jì)算:通過計(jì)算節(jié)點(diǎn)對(duì)之間的注意力權(quán)重,確定節(jié)點(diǎn)對(duì)當(dāng)前節(jié)點(diǎn)的重要性?!苉∈Niexp(LeakyRelu(T[Wi||Wk∑k∈Niexp(LeakyRelu(T[Wi||Wk]))αij=softmax(eij)=其中,eij是節(jié)點(diǎn)i和j之間的注意力系數(shù),為了使不同節(jié)點(diǎn)之間的注意力系數(shù)具有可比性,使用了softmax函數(shù)進(jìn)行標(biāo)準(zhǔn)化處理。注意力機(jī)制是一個(gè)單層前饋神經(jīng)網(wǎng)絡(luò),由權(quán)重向量∈R2F′和共享權(quán)重矩陣W∈RF′×F進(jìn)行參數(shù)化。Ni表示i的鄰接節(jié)點(diǎn),通過掩碼注意力機(jī)制,引入圖的結(jié)構(gòu)信息,也就是只對(duì)i的鄰接節(jié)點(diǎn)計(jì)算注意力系數(shù)。3、特征聚合:使用注意力權(quán)重對(duì)相鄰節(jié)點(diǎn)的特征進(jìn)行加權(quán)聚合,得到當(dāng)前節(jié)點(diǎn)的表示。i的高階特征,維度為F’。4、輸出預(yù)測:通過進(jìn)一步的層級(jí)結(jié)構(gòu)和激活函數(shù),對(duì)聚合后的節(jié)點(diǎn)表示進(jìn)行預(yù)測或分類。(二)隱式圖學(xué)習(xí)已有學(xué)術(shù)文獻(xiàn)論證了供應(yīng)鏈、分析師共同覆蓋、行業(yè)等企業(yè)間關(guān)系型數(shù)據(jù)在股票市場中的有效性,但是實(shí)際場景中,企業(yè)間關(guān)系類型并非單一,根據(jù)先驗(yàn)知識(shí),將預(yù)定義好的關(guān)系圖數(shù)據(jù)作為模型的輸入很難捕獲所有金融產(chǎn)品研究型頁的重要聲明的關(guān)系。因此本文使用BarraCNE5風(fēng)格因子+資金流向指標(biāo)因子,去自適應(yīng)的學(xué)習(xí)企業(yè)的潛在關(guān)聯(lián)。具體來看,可以通過一個(gè)單層的前饋神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)潛在的企業(yè)關(guān)系,其中激活函數(shù)是LeakyRelu。t時(shí)刻,企業(yè)i與企業(yè)j之間的潛在關(guān)系表示為:Rj=LeakyReLU(sWr[v||v])其中,v和v分別是企業(yè)i和企業(yè)j的因子特征,維度為D,將兩者連接起來,使用一個(gè)維度為(D’,2D)的矩陣Wr將其映射為一個(gè)D’維的特征空間,然后使用一個(gè)D’維的向量sr將其進(jìn)一步轉(zhuǎn)換為一個(gè)標(biāo)量。矩陣Wr和向量sr進(jìn)行參數(shù)化,由此,可以得到隱式圖的鄰接矩陣,即為一個(gè)元素為Ri,j的N×N矩陣。4.2模型結(jié)構(gòu)及實(shí)驗(yàn)設(shè)計(jì)為了融入企業(yè)間關(guān)系信息,本章在MLP模型的基礎(chǔ)上加入了關(guān)系圖信息,構(gòu)建自適應(yīng)的圖模型。模型結(jié)構(gòu)如下圖所示,輸入分別為因子數(shù)據(jù)和資金流向相似性圖譜鄰接矩陣。資料來源:中信建投為了評(píng)估關(guān)系圖譜對(duì)因子庫、模型和策略帶來的增量,本文采取以下平行對(duì)照實(shí)驗(yàn):1)MLP:由三層全連接層組成,樣本特征為原始存量因子,隱藏層維度分別為128和維度64,輸出維度2)引入圖譜信息進(jìn)行訓(xùn)練:利用每種資金流向相似性關(guān)系提取的矩陣作為模型的顯式圖作為神經(jīng)網(wǎng)絡(luò)模型的輸入,根據(jù)上述模型架構(gòu),進(jìn)行模型訓(xùn)練,將個(gè)股自身的特征以及在資金流向相似性關(guān)系圖一起用于個(gè)股的收益率預(yù)測。其中,結(jié)構(gòu)中MLP1部分輸入因子為存量因子庫中的因子,該部分MLP1的結(jié)構(gòu)與1)中MLP結(jié)金融產(chǎn)品研究型頁的重要聲明構(gòu)完全相同。3)多圖譜方案Ens_GAT:CashOut、MedSmallCoInAct、ExNLargeCoInAct三個(gè)圖譜訓(xùn)練結(jié)果進(jìn)行集成。4.3模型結(jié)果評(píng)估為了衡量經(jīng)過資金流向相關(guān)性矩陣相對(duì)于基準(zhǔn)模型的提升,研究評(píng)估了引入圖神經(jīng)網(wǎng)絡(luò)所訓(xùn)練模型在測試集上的輸出和僅多層感知機(jī)(MLP)所訓(xùn)練模型在測試集上的輸出,計(jì)算輸出和未來10日收益率的IC和rankIC。1)引入單圖譜所形成的資金流向相似關(guān)系矩陣的模型輸出IC均值為6.93%~7.95%,相對(duì)MLP模型輸出提升0.16~1.18%。引入多圖譜資金流向關(guān)系圖的模型輸出IC均值為8.01%,相對(duì)MLP模型輸出提升1.24%2)除資金共同流入圖譜外,引入資金流向相似性關(guān)系圖的模型IC,RankIC均有不同程度的增量。3)單圖譜方案在2018年和2022年有較為穩(wěn)定的IC增量,2019年后IC累計(jì)增量出現(xiàn)集體下降、疊加圖譜方案出現(xiàn)失效,且不同方案之間出現(xiàn)較大分化。數(shù)據(jù)來源:中信建投,Wind注:數(shù)據(jù)截至2023/5/30金融產(chǎn)品研究型頁的重要聲明引入資金流向相似性圖譜所訓(xùn)練模型,在各指數(shù)成分股內(nèi)均能帶來不同程度的IC、rankIC提升,并且IC、rankIC波動(dòng)性降低:1)從絕對(duì)增量上來看,滬深300成分股內(nèi)IC增量較大,提升0.76~2.09%,和疊加資金流向相似性的衍生因子結(jié)論相似;中證1000成份股內(nèi),除資金共同流入外,其他疊加其他圖譜的GAT方案相對(duì)MLP模型輸出IC提升0.98%~1.36%,中證500提升0.39%~1.61%,中證800提升0.51%~1.79%2)從單個(gè)圖譜來看,在不同指數(shù)成份股中,資金共同流出和大單共同流入關(guān)系圖的提升效果最優(yōu);多圖譜集成方案(Ens_GAT)對(duì)在此基礎(chǔ)上能有進(jìn)一步增量注:數(shù)據(jù)截至2022/12/30金融產(chǎn)品研究型頁的重要聲明4分組測試4.4.1全市場除了中小單資金共同流出(MedSmallCoOutAct)外,引入其他幾種資金流向相似性圖譜后訓(xùn)練的GAT模型相對(duì)于MLP而言,頭部組合在年化超額收益、夏普比率均有不同程度增量。特別是資金共同流出圖譜為模型訓(xùn)練帶來3.79%的超額提升、超額夏普比率增量0.177。多圖譜集成方案的頭部組超額年化和夏普增量相比單圖譜有進(jìn)一步提升,分別為4.39%和0.202,最大回撤除了中小單資金共同流出關(guān)系圖,引入各個(gè)圖譜后的TOP組收益相對(duì)MLP的累計(jì)增量整體呈現(xiàn)穩(wěn)定增長的趨勢,2023年達(dá)到頂峰后出現(xiàn)一定程度分化。投,Wind注:數(shù)據(jù)截至2023/05/30投,Wind注:數(shù)據(jù)截至2023/05/30除了資金共同流入和中小單資金共同流出關(guān)系圖,引入資金共同流出、中小單共同流入、大單共同流入和金融產(chǎn)品研究型頁的重要聲明流出圖譜關(guān)系后,多空組合在年化收益、夏普比率等指標(biāo)均有不同程度改善。特別是中小單共同流入關(guān)系圖為模型帶來了6.57%的年化收益增量。資金共同流入和中小單資金共同流出關(guān)系圖在全市場范圍選股的多空組年化收益、夏普幾乎沒有增量,IC、rankIC的增量沒有體現(xiàn)在頭部、尾部組合的區(qū)分度上。相較于單圖,多圖譜集成的方案對(duì)于多空組年化收益和夏普比率的提升更大,分別為8.35%和0.313。4.4.2各指數(shù)成分股多圖譜集成的方案在不同指數(shù)成分股上的分層測試,相較于基準(zhǔn)模型MLP,表現(xiàn)均有提升。在Top組中,中證1000成分股年化超額提升4.36%,幅度較其他指數(shù)成分股更明顯。對(duì)于中證800和滬深300,提升最大的是單圖方案,在中證800上對(duì)于年化超額收益的提升最明顯的是大單共同流入關(guān)系圖,相對(duì)MLP提升3.91%,在滬深300上的提升最明顯的是共同流入關(guān)系圖,提升4.21%。注:數(shù)據(jù)截至2023/05/3008%。對(duì)于中證800和滬深300,金融產(chǎn)品研究型頁的重要聲明提升最大的是大單共同流入關(guān)系圖,提升幅度分別為5.26%和4.84%。d金融產(chǎn)品研究型4.5模型相關(guān)性分析及二次集成進(jìn)一步將通過XGBOOST疊加圖譜訓(xùn)練的模型和利用GAT疊加圖譜訓(xùn)練的模型輸出進(jìn)行加和集成,得到以注:數(shù)據(jù)截至2023/05/301)即便GAT訓(xùn)練模型效果普遍不如XGBOOST,但是在二次集成之后,全市場上的IC、rankIC相比于疊加圖譜的XGBOOST和GAT均有提升,相比XGBOOST提升0.2%~0.3%,在各個(gè)成分股上也均有IC和rankIC的增量,其中在滬深300成分股rankIC增量0.78%上下、中證800成分股rankIC增量0.5%上下、中證500成分股rankIC增量0.6%上下、中證1000成分股rankIC增量0.5%~0.6%2)各個(gè)指數(shù)成分股上的頭部超額、超額夏普、多空收益、多空夏普上均有提升,其中除了滬深300增量金融產(chǎn)品研究型較小,其他指數(shù)成分股頭部超額相比于XGBOOST集成方案增量均在1%以上,相比于原始XGBOOST模型增量最高5.84%(中證全指),超額夏普增量0.263)多空收益方面,LRI_Ens_GAT方案在中證全指成分股上多空年化60.82%,夏普3.407,相比于原始XGBOOST模型年化提升16%、夏普提升0.32,相比于XGBOOST多圖譜集成(LRI)提升8%,夏普提4)滬深300成分股內(nèi)雖然IC、rankIC均有增量,但是在頭部超額上增量甚微,多空收益上沒有提升分別考察各個(gè)單圖譜訓(xùn)練、多圖譜模型集成方案的相關(guān)性,得到以下結(jié)論:1)通過矩陣衍生因子的方式將圖譜利用到XGBOOST訓(xùn)練中后,各個(gè)圖譜訓(xùn)練出的模型之間的相關(guān)性較高,均在90%以上;相比之下通過GAT將圖譜數(shù)據(jù)應(yīng)用到模型訓(xùn)練過程中,各圖譜訓(xùn)練的模型之間相關(guān)性在75%-85%之間2)疊加圖譜的XGBOOST和GAT之間相關(guān)性較低,均在65%以下,從而為兩類模型集成帶來增量空間3)各個(gè)集成方案之間相關(guān)性普遍較高數(shù)據(jù)來源:中信建投,Wind注:數(shù)據(jù)截至2023/05/30金融產(chǎn)品研究型注:數(shù)據(jù)截至2023/05/30注:數(shù)據(jù)截至2023/05/30注:數(shù)據(jù)截至2023/05/30金融產(chǎn)品研究型頁的重要聲明五、組合優(yōu)化及指數(shù)增強(qiáng)本報(bào)告進(jìn)一步基于各個(gè)集成方案模型結(jié)果,在四個(gè)指數(shù)成分股內(nèi)進(jìn)行組合優(yōu)化及指數(shù)增強(qiáng)策略構(gòu)建。指數(shù)增強(qiáng)組合優(yōu)化參數(shù)設(shè)置及回測結(jié)果見圖表29。1)經(jīng)過組合優(yōu)化后,各個(gè)集成方案的增強(qiáng)情況、相對(duì)強(qiáng)弱和各個(gè)指數(shù)成分股上TOP組超額情況類似2)超額收益水平上,滬深300、中證500增強(qiáng)組合相比于其成分股TOP10%組合而言年化超額有1%的提升,00、中證1000則沒有提升。3)在超額收益波動(dòng)率上,經(jīng)過組合優(yōu)化之后的增強(qiáng)組合相比于各個(gè)成分股的頭部組合而言,年化波動(dòng)率從20%左右的水平降低到4%~5%注:數(shù)據(jù)截至2023/05/30圖表30展示了多圖譜集成方案輸出在各個(gè)指數(shù)成分股上構(gòu)建增強(qiáng)策略相比于基準(zhǔn)XGBOOST的超額增量累計(jì)曲線。各個(gè)模型集成方案在不同成分股內(nèi)的增量穩(wěn)定性各有差異:1)在滬深300增強(qiáng)組合上,各個(gè)集成方案均在2022年3月之后出現(xiàn)一段實(shí)際失效,后續(xù)效果呈現(xiàn)波動(dòng)。在此之前除了TRU_Ens_GAT之外其他集成方案增量相對(duì)穩(wěn)定,各個(gè)集成方案的波動(dòng)性和增量大小有所差異,其中Ens_TRI最穩(wěn)健2)中證500增強(qiáng)組合在各個(gè)集成方案在2020年6月之前增量均較為穩(wěn)定,2020下半年集體失效;2021年之后各個(gè)集成方案累計(jì)增量曲線分化較大,LRI_Ens_GAT、TRU_Ens_GAT在此區(qū)間內(nèi)有較大增量。中證1000金融產(chǎn)品研究型頁的重要聲明增強(qiáng)組合情況與中證500較為類似3)中證800增強(qiáng)組合在各個(gè)機(jī)場方案上累計(jì)增量曲線分化較大,各個(gè)方案有效、失效區(qū)間差異較大注:數(shù)據(jù)截至2023/05/30金融產(chǎn)品研究型頁的重要聲明六、總結(jié)與展望量化選股存量因子維度日漸增長,實(shí)際應(yīng)用中對(duì)因子的訴求已不僅是單因子評(píng)估維度的強(qiáng)弱,而更側(cè)重于對(duì)原有因子的邊際增量。機(jī)器學(xué)習(xí)這類非線性工具在因子合成環(huán)節(jié)的應(yīng)用,使得因子底層信息源的挖掘更加充分,新的底層信息和數(shù)據(jù)源是因子增量效果的潛在途徑。本報(bào)告構(gòu)建了6種資金流向相似性圖譜,并將其用于傳統(tǒng)機(jī)器學(xué)習(xí)模型訓(xùn)練的特征工程環(huán)節(jié)、圖神經(jīng)網(wǎng)絡(luò)(GAT)的訓(xùn)練,從而帶來模型預(yù)測值I
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 個(gè)人土地承包合同示范文本
- 產(chǎn)品分銷區(qū)域合同范本
- SPA會(huì)所年度承包經(jīng)營合同
- 個(gè)人財(cái)產(chǎn)保險(xiǎn)合同模板(經(jīng)典)
- 乘客拼車合同協(xié)議樣本
- 產(chǎn)業(yè)園區(qū)土地出讓合同(成片開發(fā))
- IT外包服務(wù)標(biāo)準(zhǔn)合同范本
- 個(gè)人借款合同范本詳解
- 產(chǎn)品分銷合同(Product Distribution Contract)
- 個(gè)人債務(wù)轉(zhuǎn)讓正式合同范本
- (一模)蕪湖市2024-2025學(xué)年度第一學(xué)期中學(xué)教學(xué)質(zhì)量監(jiān)控 英語試卷(含答案)
- 完整版秸稈炭化成型綜合利用項(xiàng)目可行性研究報(bào)告
- 詩經(jīng)楚辭文學(xué)常識(shí)單選題100道及答案
- AI輔助的慢性病監(jiān)測與管理系統(tǒng)
- 2025中國海油春季校園招聘1900人高頻重點(diǎn)提升(共500題)附帶答案詳解
- 膽汁淤積性肝硬化護(hù)理
- Unit 6 Is he your grandpa 第一課時(shí) (教學(xué)實(shí)錄) -2024-2025學(xué)年譯林版(三起)(2024)英語三年級(jí)上冊(cè)
- 《數(shù)據(jù)采集技術(shù)》課件-Scrapy 框架的基本操作
- (2024)河南省公務(wù)員考試《行測》真題及答案解析
- 湖北省十一校2024-2025學(xué)年高三上學(xué)期第一次聯(lián)考化學(xué)試題 含解析
- 醫(yī)療保險(xiǎn)結(jié)算與審核制度
評(píng)論
0/150
提交評(píng)論