2020年人工智能行業(yè)分析報告_第1頁
2020年人工智能行業(yè)分析報告_第2頁
2020年人工智能行業(yè)分析報告_第3頁
2020年人工智能行業(yè)分析報告_第4頁
2020年人工智能行業(yè)分析報告_第5頁
已閱讀5頁,還剩23頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

42020年人工智能行業(yè)分析報告2020年3月資管行業(yè)的倫理需要“白箱”模型就顯得尤為關(guān)鍵。資管行業(yè)的倫理需要可解釋的“白箱”模型。Cabitza等人在年的論文UnintendedConsequencesofMachineLearningMedicine中列舉如下案例:某項機器學(xué)習(xí)研究以位肺炎患者為樣本,探索肺炎死“哮喘是肺炎患者的保護因子”的反常結(jié)論。機器學(xué)習(xí)模型的“思考”過程,直接使用機器學(xué)習(xí)的診斷結(jié)果,可能帶來較大的風(fēng)險。無本質(zhì)上的不同,仍是對樣本特征X和標簽Y進行擬合,區(qū)別無非是機器學(xué)習(xí)模型的非也是如此。習(xí)模型“黑箱”的方法。本文第一部分將介紹特征重要性(FeatureImportanceICE(IndividualConditionalExpectationPDP(PartialDependencePlot(SurrogateDecisionTreesLIME(LocalInterpretableModel-agnosticExplanationsSHAP(Shapley)六種解釋機器學(xué)習(xí)模型的常用方法。本文第二部分將以華泰金工XGBoostXGBoost5解釋機器學(xué)習(xí)模型的常用方法本節(jié)我們將以模擬的因子選股數(shù)據(jù)集為例,介紹特征重要性、ICE、PDP、、LIME、SHAP六種解釋機器學(xué)習(xí)模型的常用方法。圖表:模型解釋方法總結(jié)模型解釋方法特征重要性核心思想優(yōu)點缺點依據(jù)某特征進行決策樹分裂時,分裂前后的信息增益高度簡潔,模型間可比不能體現(xiàn)方向,只適用于樹模型ICE對于每條樣本,考察某特征的計算簡便,直觀,能解釋單樣本不同取值對模型輸出的影響忽略特征間相關(guān)性PDP對于全體樣本,考察某特征的計算簡便,直觀不同取值對模型輸出的影響忽略特征間相關(guān)性全局代理:SDT局部代理:LIMESHAP對于全體樣本,用單棵決策樹高度直觀解釋原模型模型高度復(fù)雜時,單棵決策樹不足以刻畫計算繁瑣,對個別樣本解釋可能欠合理對于每條樣本,用更簡單的模能夠解釋單樣本型解釋原模型計算某特征對模型輸出的邊際貢獻計算繁瑣資料來源:Goldstein等(2015Lundberg2018,Molnar2018Ribeiro等(2016模擬數(shù)據(jù)和機器學(xué)習(xí)模型模擬的因子選股數(shù)據(jù)集包含條樣本,4項特征和1項三分類標簽。標簽分為“上漲”(===﹣)三種類別,每種類別各含條樣本。4項因子、無效因子。因子值詳細構(gòu)建方式如下表所示。圖表:模擬因子值構(gòu)建方式(N,σ代表均值為、標準差為σ的正態(tài)分布)因子“上漲”類別()N(1,1)“震蕩”類別()“下跌”類別()X1(效果一般的正向線性因子)X2(效果較好的反向線性因子)X3(效果較好的非線性因子)X4(無效因子)N(0,1)N(-1,1)N(-1,0.5)N(0,0.5)N(1,0.5)N(0,0.25)N(0.5,0.25)或N(-0.5,0.25)N(1,0.25)或N(-1,0.25)N(0,1)N(0,1)N(0,1)資料來源:XXXX市場研究部X1和X2的兩處區(qū)別在于:X1各分類下因子值的均值和所屬類別一致,屬于正向因子;各分類下因子值的均值和所屬類別相反,屬于反向因子。X1的標準差為,X2的標準差為,X2比X1的信噪比更高,效果更好。X3為非線性因子,當因子值較大或較小時,樣本傾向于屬于“下跌”類別;當因子值居中時,樣本傾向于屬于“上漲”類別。4項因子中的2我們采用XGBoost模型對特征和標簽進行擬合。6圖表:模擬因子值及所屬類別(紅、白、藍分別對應(yīng)上漲、震蕩和下跌分類)資料來源:XXXX市場研究部所有特征進入模型前首先進行標準化處理,轉(zhuǎn)換為標準正態(tài)分布。我們不對XGBoost分使默認參數(shù)也能達到的訓(xùn)練集正確率。我們也不再額外切分測試集。我們僅關(guān)心下面的問題:對于訓(xùn)練集數(shù)據(jù),XGBoost模型是根據(jù)什么規(guī)則進行決策的?特征重要性概念特征重要性(FeatureImportance)的核心思想是計算依據(jù)某個特征進行決策樹分裂時分裂前后的信息增益,信息增益越大,該特征越重要。特征重要性源于決策樹模型,XGBoost的機器學(xué)習(xí)模型解釋方法之一。特征重要性的計算始于信息論中的概念——GiniGiniIndexGini指數(shù)用來定義決KD中的點屬于第k類的概率為?,則分裂前的指數(shù)為:???????(?)=∑?(1??)=1?∑?2????=1?=1Gini(D)反映了從數(shù)據(jù)集DGini(D)越小,數(shù)據(jù)集D的純度越高。理解Gini指數(shù)時可以類比經(jīng)濟學(xué)中的基尼系數(shù),一個國家隨機抽取兩個人,財富差距的期望越小,基尼系數(shù)越小,這個國家的貧富差距就越小。對于給定的樣本集合(A分裂為D和D兩棵12不相交的子樹,則分裂后的Gini指數(shù)為每棵子樹Gini指數(shù)的加權(quán)和:||?||?||?|12????(?,?)=????(?)+????(?)21A的重要性定義為該步分裂前后?(?)=????(?)?????(?,?)???GiniGiniGiniGini指數(shù)增益就越大。對于單棵決策樹,特征A的重要性定義為所有按特征A進行分裂的節(jié)點,分裂前后Gini指數(shù)增益的和:?(?)=∑?(?)??7對于XGBoost,特征A的重要性定義為特征A在每棵決策樹的重要性之和。最后將所有特征的原始特征重要性歸一化,即可得到各個特征的重要性。信息增益更為常用。結(jié)果模擬因子選股數(shù)據(jù)集的模型特征重要性如下圖所示。X2(效果較好的反向因子)重要性相對最高,其次是X1(效果一般的正向因X4(無效因子)重要性相對最低。圖表:模擬因子選股數(shù)據(jù)集的XGBoost模型特征重要性0.80.60.120.05資料來源:XXXX市場研究部因子對模型輸出影響的具體情況。ICE和PDP概念(IndividualConditionalExpectation)和(PartialDependencePlot)的核心思想是考察某項特征的不同取值對模型輸出值的影響。ICE和PDP的概念接近,常繪制在同一圖表中,前者側(cè)重于單條樣本,后者側(cè)重于全體樣本,是全體樣本的均值。圖表:ICE和示意圖資料來源:XXXX市場研究部8假設(shè)需要解釋的原模型為f,特征為,標簽為,X包含N條樣本和p項特征,那么X的第i條樣本可表示為:?(?)=1,?(?),…,?(?)(?)]2Xj項特征可表示為:?=[?(1),?(2),…,?(?)]????如果將某項特征X全部設(shè)為常數(shù)cXj時模型的輸出:?′=?(?′)對取均值即可得Xc條件下的值。對于不同的常數(shù),可得不同的值,繪j制隨c變化的曲線,可以刻畫特征j的不同取值對模型輸出的影響。ICE衡量單條樣本某項特征的不同取值對模型輸出的影響。對于第ix的第j項特征為常數(shù)c,記作新的樣本x(i)。此時模型的輸出:′(?)=?(?′(?))該輸出值即第iX=c條件下的ICEcICE值,j繪制ICE隨cij是全體樣本ICE的均值。結(jié)果對于模擬因子選股數(shù)據(jù)集的XGBoost模型,其特征X3對應(yīng)“上漲”類別輸出的ICE和如下圖所示。其中“:”代表某條屬于“上漲”類別樣本的,橫軸為不同的X3取值,縱軸為模型輸出屬于“上漲”類別的概率。圖表:模擬因子選股數(shù)據(jù)集的XGBoost模型對應(yīng)“上漲”類別的和1.0ICE:y=1ICE:y=10.8ICE:y=1ICE:y=00.6ICE:y=0ICE:y=0ICE:y=-1ICE:y=-1ICE:y=-1PDP-6-4-20246資料來源:XXXX市場研究部X3取值對模型輸出幾UX3取值接近0X3的形態(tài)同樣為倒U模型習(xí)得了X3的非線性特點。對于模擬因子選股數(shù)據(jù)集的XGBoost模型,其特征X2對應(yīng)“上漲”類別輸出的ICE和PDP如下圖所示。X2的和PDP形態(tài)均為左高右低,表明XGBoost模型習(xí)得了X2反向因子的特點。9圖表:模擬因子選股數(shù)據(jù)集的XGBoost模型對應(yīng)“上漲”類別的和1.00.20.0ICE:y=1ICE:y=1ICE:y=1ICE:y=0ICE:y=0ICE:y=0ICE:y=-1ICE:y=-1ICE:y=-1PDP-6-4-20246資料來源:XXXX市場研究部ICE和的優(yōu)點在于,分別從單條樣本和全體樣本層面展示特征對模型輸出的影響,從而忽略特征間的相關(guān)性。全局代理:SDT概念(Decision)的核心思想是用單棵決策樹解釋其它更復(fù)雜的機器學(xué)個新的決策樹模型來解釋原黑箱模型的輸出。圖表:全局代理示意圖資料來源:XXXX市場研究部延續(xù)上節(jié)原模型f、標簽Y的定義,利用算法?得到原模型f的訓(xùn)練過程可記作:??:?,?→?該原模型預(yù)測的結(jié)果記為f(X),可以利用這個預(yù)測結(jié)果重新訓(xùn)練一個決策樹模型,來解釋原模型的輸出:??:?,?(?)→?由此得到的決策樹模型g即為最終的。結(jié)果模擬因子選股數(shù)據(jù)集的模型策樹的前三層。圖表:模擬因子選股數(shù)據(jù)集的XGBoost模型可視化展示資料來源:XXXX市場研究部X2X2≤-0.33X2X2的信噪比總體高于其余特征,第一步依據(jù)X2分裂較為合理。X3X3非線性因子的邏輯相符,X3這一步可以將X3較大的部分樣本篩出歸入“震蕩”類別。X2分裂,X2≤屬于“震蕩”類別;否則歸入右枝,傾向于認為屬于“下跌”類別。同樣與X2反向因子的邏輯相符。其余分裂過程不再作詳細解讀。的優(yōu)點在于高度直觀。的缺點在于當模型高度新的誤差。局部代理:LIME概念LIME(LocalInterpretableModel-agnosticExplanations)的核心思想是對于每條樣和代理模型時,使用全體樣本,的代理模型為單棵決策樹,的代理模型更為豐富,可以是決策樹、線性回歸、回歸等模型。和也分別屬于全局代理和局部代理。圖表:局部代理示意圖1資料來源:"WhyShouldITrustYou?":ExplainingPredictionsAnyClassifier,XXXX市場研究部的概念相對復(fù)雜,首先我們以圖示說明。下圖引自的原始論文"WhyIExplainingthePredictionsofAnyClassifier,展示了一個二分類問題下的非線性分類器fx希望得到原模型f的一個代理模型g比fx=[x1,x2,x3,x4],g只使用其中的部分特征xx2,x4]。在該樣本的鄰域隨機生成一部分新樣本,通過原模型計算其預(yù)測值f(z),以紅色十字和藍色圓形表示。我們希望尋找一個簡單的分類器,使用包含更少特征的樣本,就能將兩類樣本分開,即原模型f的預(yù)測值f(z)和代理模型g的預(yù)測值盡可能接近。用公式x-2可以給單條樣本x加上均值為、標準差為定值的高斯噪音,生成一系列新樣本。同時,隨機生成的樣本z并非等權(quán),而是根據(jù)其與x的距離加權(quán),距離越近權(quán)重π越xx鄰域內(nèi)隨機生成的一系列樣本,希望下列式子盡可能小:?(?,?,?)=∑?(?)(?(?)??(?′))2???,?′其中L(f,π)代表在π的范圍內(nèi)用gf的不可置信度,即在x的某個鄰域內(nèi)g與fxx間的差距;Zx鄰域內(nèi)隨機生成的全部樣本構(gòu)成的集合。更進一步,我們希望得到的代理模型g盡可能簡單。定義(g)作為代理模型g的復(fù)雜度,決策樹的可以是葉子節(jié)點個數(shù),線性回歸的(g)可以是或正則化項,我們希望(g)盡可能小。假設(shè)G是一個包含許多具有潛在可解釋性模型的集合,我們在G找滿足L(f,π)和(g)同時盡可能小的代理模型:x?(?)=??????[?(?,?,?)+?(?)]??∈?當G為線性回歸模型構(gòu)成的集合,(g)為g等價于Lasso???????,?(?)→?此時Lasso回歸模型記作)=w·Zw為Lasso回歸系數(shù)??捎傻?marcotcr/lime庫輸出每項特征及其對應(yīng)回歸系數(shù)的乘積,即該特征對于模型輸出的貢獻。圖表:局部代理示意圖2資料來源:XXXX市場研究部結(jié)果模擬因子選股數(shù)據(jù)集的模型第1如下圖所示。該樣本各特征的由高到低排序為效程度的排序相符。其中反向因子X2值較小,X2的值相應(yīng)較高。圖表:模擬因子選股數(shù)據(jù)集的XGBoost模型第1條樣本的(0.20)(0.10)0.0000.400.500.60LIME0.0710.5000.2540.020特征值1.497-1.125-0.207-0.063資料來源:XXXX市場研究部圖表:模擬因子選股數(shù)據(jù)集的XGBoost模型第條樣本的(0.10)(0.05)0.000.000.250.30LIME-0.0420.0920.241-0.048特征值-0.568-0.399-0.093-1.324資料來源:XXXX市場研究部模擬因子選股數(shù)據(jù)集的模型第1取值,第條樣本X2一區(qū)別在于正向因子X1取值,第條樣本X1值相對更小,同樣不似于“上漲”類別,因此對應(yīng)值較低。的優(yōu)點在于能夠解釋單條樣本,例如回答機器學(xué)習(xí)模型為什么預(yù)測茅臺會漲。的缺點在于計算相對繁瑣,并且對于個別樣本的解釋可能有欠合理。概念Shapley值(Shapley,簡記為)的概念源于博弈論,核心思想是計算特征對模型輸出的邊際貢獻。值的概念較為復(fù)雜,我們先以一個簡單案例說明。假設(shè)CV({A,B,C})=獻?首先將工作單獨分配給、B或C,計算每個人的獨立產(chǎn)出:V({A})=,V({B})=,V({C})=20其次將工作分配給任意兩人,計算任意兩個人的聯(lián)合產(chǎn)出:V({A,B})=40,V({A,C})=30,V({B,C})=假設(shè)三人合作時按C的順序,我們可以計算三個各自的邊際貢獻。第一個人A的邊際貢獻為=B的邊際貢獻為-V({A})=-=個人C的邊際貢獻為V({A,B,C})-V({A,B})=-=C所在的行。C是三人合作的可能順序之一,可以計算所有可能順序下,三人各自的邊際貢獻。SHAPB的邊際貢獻最高,值為,A的邊際貢獻最低,值為。圖表:值簡單案例順序A10B30C60ABCABBACBACBCA合計107020301060401050207010405010150252404021035SHAP資料來源:XXXX市場研究部下面介紹Ni的重要性。定義集合S為N的一個不包含i的子集,即:???且???。特征Xf、模型輸出f(X)沿用之前的定義。定義特征i的邊際貢獻:?(?)=?(??{?})??(?)???其中f代表以特征集合S為輸入時,原模型f輸出的期望:X?(?)=?[?(?)|?]??此時,特征i的值為:?=1|?|!∑?(?(?))(???????其中?為N的全排列集合;對于某個具體排列的R,在特征i之前的其它特征的排列記為S(R);對每一種排列S(R)i的邊際貢獻,全排列共有|N|!種,對全部|N|!個邊際貢獻ii求均值,最終得到特征i的SHAP值。下表展示了當特征為X1X3和X4X3X1~X4的全排列共有4!=24種,每行代表可能的排列方式,最右側(cè)一列代表該排列方式下X3的邊際貢獻。X3的值為最右側(cè)一列的加權(quán)平均,權(quán)重為第2列排列個數(shù):1?3=(6??(?)+2??({?1})+2??({?2})+2??({?4})+2??({?1,+2??({?1,?4})+2??({?2,?4})+6??({?1,?4}))圖表:值計算實例(四項特征,計算的值)X1~X4排列排列個數(shù):i之前的特征{i}:計算重要性的特征N\S\{i}:i之后的特征?i(S):特征i的邊際貢獻3124,3142,3214,3241,3412,34211324,13426?f({X1})-f(?)XX2222226f–f({X1})XX2314,2341f–f({X2})XX4312,4321f–f({X4})XX1234,2134f–fXX1432,4132f–fXX2431,4231f–fXX1243,1423,2143,2413,4123,4213?f–fXX資料來源:XXXX市場研究部SHAP值還可以按下面的簡化方式定義:|?|!?|?|?1)!?=?∑[?(??{?})??(?)]???!???\{?}N項特征的某種排列,總是可以劃分為三部分:i之前的特征集合,特征,i的其余特征。模型輸出值f(S)與f(S∪{i})不受排列順序影響,因此可將i之前的項特XX征全排列得到種結(jié)果,i之后的(N-|S|-1)!項特征全排列得到(N-|S|-1)!種結(jié)果。將|S|!(N-|S|-1)!可由的shap庫實現(xiàn)(/slundberg/shap結(jié)果對于模擬因子選股數(shù)據(jù)集的XGBoost模型,各因子對應(yīng)“上漲”類別的絕對值的均值如下圖所示。|SHAP|反映了該因子的重要性,從高到低分別為:X2(效果較好的反X1圖表:模擬因子選股數(shù)據(jù)集的XGBoost模型“上漲”類別的均值資料來源:XXXX市場研究部SHAPSHAPSHAP子對于將該樣本識別為“上漲”具有負向影響。圖表:模擬因子選股數(shù)據(jù)集的XGBoost模型“上漲”類別的各樣本值資料來源:XXXX市場研究部X2X2X1X1因子值越大,更可能識別為“上漲”類別。XGBoost模型習(xí)得了X1的正向特點和X2的反向特點。X3X3因子值較高或較低X3XGBoost模型習(xí)得了X3的非線性特點。X4對應(yīng)橫軸位置集中在0附近,表明X4因子值對模型輸出影響較弱,XGBoost模型識別出了無效因子。我們還可以繪制每個因子的SHAP值相關(guān)性最低的另一個因子值。、X2、X3的值分別呈現(xiàn)遞增、遞減、倒U型的形態(tài),均與它們各自的邏輯相符。另外,X2X2的X3居中的樣本)在縱軸的分布相對于紅色和藍色點更寬。這表明當X3X2對模型判斷樣本是否屬于“上漲”類別的邊際貢獻更大;當X3較大或較小時,X2的邊際貢獻相對較小,由此展示X2和X3的交互作用。圖表:模擬數(shù)據(jù)集的XGBoost模型“上漲”類別的值圖表:模擬數(shù)據(jù)集的XGBoost模型“上漲”類別的值資料來源:XXXX市場研究部資料來源:XXXX市場研究部圖表:模擬數(shù)據(jù)集的XGBoost模型“上漲”類別的值圖表:模擬數(shù)據(jù)集的XGBoost模型“上漲”類別的值資料來源:XXXX市場研究部資料來源:XXXX市場研究部SHAP值可能是更好的機器學(xué)習(xí)模型解釋工具。法,還有其它適用的解釋工具。例如在華泰金工《人工智能:市場弱有效性檢驗與擇時戰(zhàn)場選擇()中,我們介紹了解釋神經(jīng)網(wǎng)絡(luò)模型的兩種方法:中間層激活的可視化,類激活熱力圖的可視化(如Grad-CAM六種方法中,除特征重要性外,、、SDT、和SHAP適用于絕大多數(shù)監(jiān)督學(xué)習(xí)模型。揭開XGBoost選股模型的“黑箱”本章以華泰XGBoostXGBoost選股模型XGBoost選股模型(月調(diào)倉,全A選股,中證行業(yè)市值中性)為指數(shù)增強策略,基準為中證該模型年化超額收益12.53%,年化跟蹤誤差,信息比率。年該模型超額收益3.59%,跟蹤誤差5.34%,信息比率0.67(由于模型為月初調(diào)倉,收益區(qū)間取20190102~20200102月頻調(diào)倉模型在XGBoost華泰金工研究報告《機器學(xué)習(xí)選股模型的調(diào)倉頻率實證(20200105考察月頻調(diào)倉模型。圖表:XGBoost選股模型凈值(月調(diào)倉,全A選股500中性)圖表:XGBoost選股累計超額收益(月調(diào)倉,全A選股500中性)5432103.5XGBoost中證500單位:倍單位:倍XGBoost累計超額收益3.02.52.01.51.00.5Wind,XXXX市場研究部;回測期:20110201~20200203資料來源:XXXX市場研究部;回測期:20110201~20200203XGBoost選股模型的構(gòu)建包含如下步驟:圖表:人工智能選股模型測試流程示意圖滾動訓(xùn)練集和驗證集合成數(shù)據(jù)獲取模型評價特征和標簽提取特征預(yù)處理交叉驗證調(diào)參樣本外測試樣本內(nèi)訓(xùn)練資料來源:XXXX市場研究部.數(shù)據(jù)獲?。篈上市3個月內(nèi)的股票,每只股票視作一個樣本?;販y區(qū)間:年2月1日至年2月3.特征和標簽提?。好總€自然月的最后一個交易日,計算個因子暴露度,作為樣本的原始特征。因子池如下表所示,因子按下表進行方向調(diào)整。計算下一整個自然月的個股超額收益(以滬深的股票作為正例(y=1的股票作為負例(y=圖表:選股模型中涉及的全部因子及其描述大類因子具體因子因子描述因子方向估值估值估值估值估值估值估值估值成長成長成長成長EP凈利潤()總市值11EPcutBP扣除非經(jīng)常性損益后凈利潤()總市值凈資產(chǎn)總市值1SP營業(yè)收入()總市值1NCFPOCFPDP凈現(xiàn)金流()總市值1經(jīng)營性現(xiàn)金流()總市值近12個月現(xiàn)金紅利(按除息日計)總市值凈利潤()同比增長率/PE_TTM營業(yè)收入(最新財報,)同比增長率凈利潤(最新財報,)同比增長率經(jīng)營性現(xiàn)金流(最新財報,)同比增長率ROE(最新財報,)同比增長率ROE(最新財報,)11G/PE1Sales_G_qProfit_G_qOCF_G_qROE_G_q1111財務(wù)質(zhì)量ROE_q1財務(wù)質(zhì)量ROE_ttmROE(最新財報,)1財務(wù)質(zhì)量ROA_qROA(最新財報,)1財務(wù)質(zhì)量ROA_ttmROA(最新財報,)1財務(wù)質(zhì)量grossprofitmargin_q財務(wù)質(zhì)量grossprofitmargin_ttm財務(wù)質(zhì)量profitmargin_q財務(wù)質(zhì)量profitmargin_ttm財務(wù)質(zhì)量assetturnover_q財務(wù)質(zhì)量assetturnover_ttm財務(wù)質(zhì)量operationcashflowratio_q毛利率(最新財報,)1毛利率(最新財報,)1扣除非經(jīng)常性損益后凈利潤率(最新財報,)扣除非經(jīng)常性損益后凈利潤率(最新財報,)資產(chǎn)周轉(zhuǎn)率(最新財報,YTD)資產(chǎn)周轉(zhuǎn)率(最新財報,)經(jīng)營性現(xiàn)金流凈利潤(最新財報,YTD)11111財務(wù)質(zhì)量operationcashflowratio_ttm經(jīng)營性現(xiàn)金流凈利潤(最新財報,TTM)1杠桿杠桿杠桿杠桿市值financial_leveragedebtequityratiocashratio總資產(chǎn)凈資產(chǎn)-1-11非流動負債凈資產(chǎn)現(xiàn)金比率currentratio流動比率1ln_capital總市值取對數(shù)-1-1-1-1動量反轉(zhuǎn)HAlpha個股60個月收益與上證綜指回歸的截距項個股最近N個月收益率,,,,12個股最近N個月內(nèi)用每日換手率乘以每日收益率求算術(shù)平均值,,,,12動量反轉(zhuǎn)return_Nm動量反轉(zhuǎn)wgt_return_Nm動量反轉(zhuǎn)exp_wgt_return_Nm個股最近N個月內(nèi)用每日換手率乘以函數(shù)exp(-x_i/N/4)再乘以每日收益率求算術(shù)平均值,為該日距離截面日的交易日的個數(shù),,,,12-1-1波動率std_FF3factor_Nm特質(zhì)波動率——個股最近N個月內(nèi)用日頻收益率對FamaFrench三因子回歸的殘差的標準差,,,,12個股最近N個月的日收益率序列標準差,,,,12股價取對數(shù)波動率股價std_Nmln_pricebeta-1-1-1beta個股60個月收益與上證綜指回歸的beta換手率turn_Nm個股最近NN=1,,,12-1換手率bias_turn_Nm個股最近N個月內(nèi)日均換手率除以最近2除停牌、漲跌停的交易日)再減去1,,,,12評級的平均值-1情緒情緒情緒股東技術(shù)技術(shù)技術(shù)技術(shù)技術(shù)技術(shù)rating_average11rating_change評級(上調(diào)家數(shù)下調(diào)家數(shù))總數(shù)一致目標價現(xiàn)價-1rating_targetprice1holder_avgpctchange戶均持股比例的同比增長率1MACDDEADIF-1-1-1-1-1-1經(jīng)典技術(shù)指標(釋義可參考百度百科),長周期取30周期取10日,計算均線的周期(中周期)取15日RSI經(jīng)典技術(shù)指標,周期取20日經(jīng)典技術(shù)指標,周期取20日經(jīng)典技術(shù)指標,周期取20日PSYBIASWind,XXXX市場研究部.特征預(yù)處理:中位數(shù)去極值:設(shè)第T期某因子在所有個股上的暴露度序列為?,?為該序列??中位數(shù),?1為序列??|的中位數(shù),則將序列?中所有大于?+?1的數(shù)????重設(shè)為?+?1,將序列?中所有小于???1的數(shù)重設(shè)為???1;??級行業(yè)相同個股的平均值;c)值中性;標準化:將中性化處理后的因子暴露度序列減去其現(xiàn)在的均值、除以其標準差,得到一個新的近似服從N(0,1)分布的序列。.滾動訓(xùn)練集和驗證集的合成:采用年度滾動訓(xùn)練方式,全體樣本內(nèi)外數(shù)據(jù)共分為9個階段,如下表所示。例如預(yù)測年時,將2005~2010年共個月數(shù)據(jù)合并作為樣本內(nèi)數(shù)據(jù)集;預(yù)測T年時,將至年的個月合并作為樣本內(nèi)數(shù)據(jù)。根據(jù)分組時序交叉驗證劃分訓(xùn)練集和測試集,每次訓(xùn)練集長度均為6個月的整數(shù)倍,驗證集長度均等于6個月。圖表:年度滾動訓(xùn)練示意圖資料來源:XXXX市場研究部.樣本內(nèi)訓(xùn)練:使用XGBoost模型對訓(xùn)練集進行訓(xùn)練。.交叉驗證調(diào)參:對全部超參數(shù)組合進行網(wǎng)格搜索,選擇驗證集平均最高的一組超參數(shù)作為模型最終的超參數(shù)。超參數(shù)設(shè)置和最優(yōu)參數(shù)如下表所示。圖表:XGBoost選股模型和超參數(shù)基學(xué)習(xí)器超參數(shù)20110.05520120.025520130.075320140.025520150.05320160.075320170.025520180.05320190.053XGBoost學(xué)習(xí)速率(learning_rate)最大樹深度(max_depth)行采樣比例(subsample)0.90.850.8Wind,XXXX市場研究部.T月末截面期所有樣本預(yù)處理后的特征作為模型IC法和分層回測法進行單因子測試。.等衡量模型性能的指標;單因子測試得到的統(tǒng)計指標和回測績效。ln_capital動量反轉(zhuǎn)、波動率、股價、、換手率、技術(shù)因子均為反向因子。下面我們將針對以年為訓(xùn)練和驗證集、年為測試集的模型(以下簡稱年的預(yù)測(年1月末月末截面期)進行分析。特征重要性下表展示XGBoost年模型個因子的特征重要性。前個因子特征重要性之和為量因子為主導(dǎo)。前3名均為反轉(zhuǎn)因子,第、8名為換手率因子,第、名為波動率因子,第6名為市值因子,第7名屬估值因子,第9名為分析師情緒因子。排名靠后的因子主要包括:rsi技術(shù)因子、financial_leverage杠桿因子、財務(wù)質(zhì)量類因子以及std_FF3factor_6m殘差波動率因子??偟膩砜矗瑑r量類因子的特征重要性高于基本面類因子。圖表:XGBoost選股2019年模型特征重要性排名因子特征重要性0.1330.0830.0770.0410.0380.0230.0220.0200.0190.0180.0180.0170.0170.0160.0160.0160.0150.0150.0140.0140.0130.0130.0130.013排名因子bias_turn_12m特征重要性0.0130.0120.0120.0120.0120.0120.0110.0110.0110.0110.0100.0100.0100.0100.0090.0090.0090.0090.0080.0080.0080.0080.0080.008排名49505152535455565758596061626364656667686970因子特征重要性0.0080.0080.0070.0070.0060.0060.0060.0060.0060.0050.0040.0030.00201exp_wgt_return_6m252627282930313233343536373839404142434445464748return_12mreturn_3m2exp_wgt_return_3mwgt_return_1mturn_1mOCFP3turn_12mBPOCF_G_q4return_6m5std_FF3factor_3mln_capitalrating_averageDPprofitmargin_qSP67EPstd_6mcashratio8bias_turn_1mrating_changestd_FF3factor_12mstd_12mturn_3mcurrentratio9HAlphastd_1m101112131415161718192021222324biaspsySales_G_qbias_turn_3mbetaROE_ttmexp_wgt_return_12mProfit_G_qwgt_return_3mexp_wgt_return_1mstd_FF3factor_1mturn_6mln_pricestd_FF3factor_6mROA_ttmG/PENCFPgrossprofitmargin_qgrossprofitmargin_ttmassetturnover_qassetturnover_ttmoperationcashflowratio_qoperationcashflowratio_ttmfinancial_leveragersi0dea0wgt_return_12mholder_avgpctchangereturn_1mwgt_return_6mprofitmargin_ttmrating_targetpricebias_turn_6mdebtequityratio0EPcut0macd0ROA_q0ROE_q0ROE_G_q0std_3mdifWind,XXXX市場研究部PDP下表展示XGBoost年模型5個因子的。選取這5個因子的原因是前4個因子的值排名所有因子前4部分將介紹5個macd因子的非線性特征最為顯著。由下表知,、exp_wgt_return_6m、wgt_return_1m、的均ln_capital市值因子的0時,上漲概率為。換言之,模型高度偏好小市值個股。同時,觀察到macd因子的呈現(xiàn)倒Umacd因子較小或較大時,個股上漲概率約為macd因子在±型捕捉了macd因子的非線性邏輯,XGBoost模型偏好macd值中等的個股。本章后續(xù)SHAP部分將對此展開討論。圖表:XGBoost選股2019年模型5個因子5個因子PDPln_capitalwgt_return_1mmacdexp_wgt_return_6mbias_turn_1m0.600.580.560.540.520.500.480.460.44(2)(1)(0)12因子值Wind,XXXX市場研究部ICE是全部樣本ICE年14只個股在上一節(jié)5個因子上的。選股這4只個股的理由為,它們分別是股票池內(nèi)預(yù)測上漲概率最高(002366.SZ益最高(000859.SZ603238.SH,諾邦股份)的個股。總的來看,個股ICE和其均值的形態(tài)接近。ln_capital、exp_wgt_return_6m、wgt_return_1mbias_turn_1m這4個因子的ICE單調(diào)遞增,macdICE呈倒Uln_capital市值因子對較為0市值因子為1時,預(yù)測上漲概率提升至;當市值因子為2時,預(yù)測上漲概率提升至70%ln_capital市值因子對2提升至236%提升至個因子可能就足以判定該個股的上漲概率較低。圖表:XGBoost模型2019年1月末截面期ln_capital因子圖表:XGBoost模型2019年1月末exp_wgt_return_6m因子ICE(603031.SH,預(yù)測最高)ICE(000859.SZ,實際最高)ICE(603238.SH,實際最低)ICE(002366.SZ,預(yù)測最低)PDPICE(603031.SH,預(yù)測最高)ICE(000859.SZ,實際最高)ICE(603238.SH,實際最低)ICE(002366.SZ,預(yù)測最低)PDP0.30.2(2)(1)(0)12(2)(1)(0)12ln_capital因子值exp_wgt_return_6m因子值Wind,XXXX市場研究部Wind,XXXX市場研究部圖表:XGBoost模型2019年1月末截面期wgt_return_1m因子圖表:XGBoost模型2019年1月末截面期bias_turn_1m因子ICE(603031.SH,預(yù)測最高)ICE(000859.SZ,實際最高)ICE(603238.SH,實際最低)ICE(603031.SH,預(yù)測最高)ICE(000859.SZ,實際最高)ICE(603238.SH,實際最低)0.2ICE(002366.SZ,預(yù)測最低)PDP0.2ICE(002366.SZ,預(yù)測最低)PDP(2)(1)(0)12(2)(1)(0)12wgt_return_1m因子值bias_turn_1m因子值Wind,XXXX市場研究部Wind,XXXX市場研究部下圖展示macd因子的個股603031.SH000859.SZ的ICE形態(tài)和接近,整體呈現(xiàn)倒U603238.SH002366.SZ的ICEXGBoost模型對這兩只個股進行判斷時,可能較少參考macd因子。圖表:XGBoost模型2019年1月末截面期macd因子ICE(603031.SH,預(yù)測最高)ICE(603238.SH,實際最低)PDPICE(000859.SZ,實際最高)ICE(002366.SZ,預(yù)測最低)0.2(2)(1)(0)12macd因子值Wind,XXXX市場研究部全局代理:SDTXGBoost年模型可視化展示如下圖,簡單起見我們僅展示決策樹的前4層。在根節(jié)點位置,模型首先根據(jù)exp_wgt_return_6m反轉(zhuǎn)因子(前述特征重要性最高2高的層右側(cè)葉子節(jié)點,模型根據(jù)std_6m圖表:XGBoost選股2019年模型可視化展示資料來源:XXXX市場研究部展示的重要因子還包括:EPcut、ln_capital、std_FF3factor_3m、bias_turn_1m、turn_1mstd_1m難以讀出因子的非線性邏輯。局部代理:LIME我們以年1月末截面期為例,展示4只個股最大的前個因子其因子值和LIME。值為XGBoost該個股下月更可能上漲。價量因子整體為正向貢獻,表明模型根據(jù)“歷史跌幅模型根據(jù)基本面信息判斷該個股下月更可能下跌。綜合全部個因子的貢獻,預(yù)測該個股下月上漲概率為。圖表:XGBoost選股模型年1月末截面期預(yù)測上漲概率最高個股最大的前個因子603031.SH安德利2019年1月末截面期預(yù)測上漲概率70.3%實際下月超額收益(基準為中證500)-3.9%macdProfit_G_qexp_wgt_return_3mbias_turn_1mwgt_return_1mG/PErating_changestd_FF3factor_3mexp_wgt_return_6mln_capital(0.02)0.000.020.040.06exp_wgt_return_3m0.08exp_wgstd_FFt_return3factor_6mln_capitalrating_changewgt_retbias_tururn_1mn_1mProfit_G_qG/PEmacd_3mLIME0.0600.0150.0130.011-0.0100.0090.0080.007-0.0070.007因子值1.5751.5071.296-0.056-1.1690.4330.9620.550-0.956-0.488Wind,XXXX市場研究部圖表:XGBoost選股模型年1月末截面期預(yù)測上漲概率最低個股最大的前個因子002366.SZ臺海核電2019年1月末截面期預(yù)測上漲概率24.6%實際下月超額收益(基準為中證500)0.2%bias_turn_12mSales_G_qexp_wgt_return_3mstd_12mexp_wgt_return_1mturn_1mbias_turn_1mexp_wgt_return_6mln_capitalwgt_return_1m(0.04)(0.03)(0.02)(0.01)0.000.010.02exp_wgt_return_6mexp_wgt_return_1mexp_wgt_return_3mwgt_retln_capiturn_1malbias_turturn_1std_12mSales_bias_turG_qn_12mn_1mmLIME-0.030-0.027-0.024-0.021-0.017-0.013-0.013-0.013-0.012-0.011因子值-1.705-1.302-1.928-1.045-1.617-2.307-1.339-2.036-2.214-2.222Wind,XXXX市場研究部002366.SZ|LIME|最大的前XGBoost圖表:XGBoost選股模型年2月實際超額收益最高個股在1月末截面期最大的前10個因子000859.SZ國風(fēng)塑業(yè)2019年1月末截面期預(yù)測上漲概率53.7%實際下月超額收益(基準為中證500)129.2%bias_turn_12mProfit_G_qbias_turn_1mmacdstd_12mln_capitalROE_qturn_1mstd_FF3factor_3mexp_wgt_return_1m(0.020)(0.015)(0.010)(0.005)0.0000.0050.0100.0150.020exp_wgstd_FFt_return3factor_1m_3mturn_1mln_capitstd_12bias_turProfit_bias_turROE_qmacdalmn_1mG_qn_12mLIME-0.0160.0140.010-0.009-0.0090.0090.0090.0080.0080.007因子值-0.7041.2051.047-1.3690.6191.439-0.1250.3342.2941.187Wind,XXXX市場研究部國風(fēng)塑業(yè)(000859.SZ)是股票池內(nèi)實際下月超額收益最高的個股。然而XGBoost模型預(yù)測其上漲概率不高,僅為exp_wgt_return_1mln_captial三個ROE年2可能更多源于概念炒作,難以用因子模型解釋。XGBoost模型的判斷及依據(jù)似乎無不妥。圖表:XGBoost選股模型年2月實際超額收益最低個股在1月末截面期最大的前10個因子603238.SH諾邦股份2019年1月末截面期預(yù)測上漲概率35.8%實際下月超額收益(基準為中證500)-31.4%wgt_return_3mmacdProfit_G_qln_capitalexp_wgt_return_3mexp_wgt_return_1mturn_1mbias_turn_1mexp_wgt_return_6mwgt_return_1m(0.04)(0.03)(0.02)(0.01)0.000.010.02exp_wgt_return_6mexp_wgexp_wgt_returnt_returnwgt_return_1mbias_turturn_1ln_capitProfit_wgt_return_3mmacdn_1mmalG_q_1m_3mLIME-0.031-0.024-0.020-0.018-0.015-0.013-0.0090.0080.007-0.007因子值-2.169-2.142-0.525-2.317-2.615-2.3400.4040.739-0.526-1.958Wind,XXXX市場研究部XGBoost模型預(yù)測的上漲概率XGBoost年月及年1年2月的下跌可以解讀為強勢股補跌。這里XGBoost模型的判斷及依據(jù)較為合理。下面兩張表分別展示XGBoost年模型的均值和值。從左下圖的|SHAP|均值排名來看,XGBoost模型輸出2至第78為macd技術(shù)因子,第9為std_12m波動率因子,第為rating_change分析師情緒因子。排名靠后的因子包括:ln_price股價因子、市銷率因子、std_FF3factor_6m殘差波動率因子、財務(wù)質(zhì)量類因子、currentratio杠桿因子以及psy技術(shù)因子。總的來看,價量類因子的值高于基本面類因子。樹分裂過程中的信息增益,SHAP值側(cè)重于特征對輸出的邊際貢獻。SHAP表該樣本的因子值。對于第一行市值因子,基本遵循左藍右紅的規(guī)律,即因子該個股上漲的概率越高??偟膩砜?,絕大部分因子的SHAP均為左藍右紅,但仍存在部分因子為左紅右藍,表明XGBoost表明XGBoost模型以明顯的非線性邏輯使用該因子。下面我們將選取部分典型因子進行詳細討論。圖表:XGBoost選股2019年模型均值圖表:XGBoost選股2019年模型值Wind,XXXX市場研究部Wind,XXXX市場研究部圖表:XGBoost選股2019年模型ln_capital因子值圖表:XGBoost選股2019年exp_wgt_return_6m因子值Wind,XXXX市場研究部Wind,XXXX市場研究部|SHAP|均值排名前2位的是ln_captial市值因子和exp_wgt_return_6m換手率指數(shù)加權(quán)6因子值,縱軸代表值。顏色代表與該因子值交互作用最強(即相關(guān)系數(shù)絕讀者可以參考論文Consistentindividualizedfeatureattributiontreeensembles。左上圖ln_capital市值因子整體呈現(xiàn)左低右高的正相關(guān)關(guān)系,因子值越大值越大。這表明XGBoost模型的判斷準則之一是個股市值越小預(yù)測下月上漲概率越高。然而市值和上漲概率之間并非線性正相關(guān)。當因子值大于時,實際能觀察到微弱的負相關(guān),換言之,當個股市值非常小時,XGBoost模型將調(diào)低對于上漲概率的預(yù)測。同樣地,觀察到當ln_capital因子值在-3左右時,值為正,圖像上表現(xiàn)為一處“凸

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論