版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
金工研究/深度研究金工研究/深度研究林曉明林曉明執(zhí)業(yè)證書編號(hào):S0570516010001相關(guān)研究1《金工:養(yǎng)老目標(biāo)驅(qū)動(dòng)的多期博弈均衡模2《金工:因子收益率的周期性研究初探》特征選擇是機(jī)器學(xué)習(xí)數(shù)據(jù)預(yù)處理環(huán)節(jié)的重要步驟,核心思想是從全體特征中選擇一組優(yōu)質(zhì)的子集作為輸入訓(xùn)練集,從而提升模型的學(xué)習(xí)和預(yù)測效果。我們將特征選擇方法應(yīng)用于多因子選股,發(fā)現(xiàn)特征選擇對(duì)邏輯回歸_6m、XGBoost_6m基學(xué)習(xí)器的預(yù)測效果有一定提升。我們以全A股為股票池,相關(guān)研究1《金工:養(yǎng)老目標(biāo)驅(qū)動(dòng)的多期博弈均衡模2《金工:因子收益率的周期性研究初探》隨著入選特征數(shù)的增加,模型預(yù)測效果先上升后下降特征個(gè)數(shù)并非越多越好。以邏輯回歸_6m和XGBoost_6m為基學(xué)習(xí)器時(shí),隨著入選特征數(shù)的增加,模型的AUC先上升后下降;對(duì)于我們的70個(gè)特征而言,入選特征數(shù)在50左右效果最好。以XGBoost_72m為基學(xué)習(xí)器時(shí),隨著入選特征數(shù)的增加,模型的AUC先上升后持平。以基于F值+FPR方法對(duì)邏輯回歸_6m進(jìn)行特征選擇為例,統(tǒng)計(jì)入選特征的頻次,發(fā)現(xiàn)入選頻次高的特征以價(jià)量類因子為主。特征選擇是預(yù)處理的重要步驟,意義在于減少時(shí)間開銷,并避免過擬合特征選擇是特征預(yù)處理的重要環(huán)節(jié)之一,其意義在于:1)減少時(shí)間開銷;2)避免過擬合;3)使模型容易被解釋。特征選擇方法主要包括過濾式、包裹式、嵌入式三類,最常用的方法為過濾式?!斑^濾”的標(biāo)準(zhǔn)可以來自于無監(jiān)督學(xué)習(xí),如特征本身的方差、熵等;可以是圍繞特征和標(biāo)簽構(gòu)建的統(tǒng)計(jì)指標(biāo),如F值、互信息、卡方等;也可以由其它模型提供,如L1正則化線性模型的回歸系數(shù)、樹模型的特征重要性等。面對(duì)海量因子時(shí)特征選擇方法能夠大幅提升模型的開發(fā)效率特征選擇本質(zhì)上是一種降維手段,沒有引入新的信息,因此難以給基學(xué)習(xí)器的效果帶來質(zhì)的改變。特征選擇的優(yōu)勢在于,當(dāng)我們面對(duì)海量的原始特征,僅靠人力無法逐一篩選時(shí),該方法將大幅提升機(jī)器學(xué)習(xí)模型的開發(fā)效率。實(shí)際上,由于本文使用的70個(gè)原始特征均為經(jīng)單因子測試確證有效的因子,所以特征選擇方法更多地是起到錦上添花的作用,如果原始特征包含部分無效的因子,那么特征選擇方法可能會(huì)對(duì)選股策略效果帶來更明顯的改善。風(fēng)險(xiǎn)提示:特征選擇方法高度依賴基學(xué)習(xí)器的表現(xiàn)。該方法是對(duì)歷史投資規(guī)律的挖掘,若未來市場投資環(huán)境發(fā)生變化導(dǎo)致基學(xué)習(xí)器失效,則該方法存在失效的可能。特征選擇方法加大了模型復(fù)雜度,也存在一些過擬合風(fēng)謹(jǐn)請(qǐng)參閱尾頁重要聲明及華泰證券股票和行業(yè)評(píng)級(jí)標(biāo)準(zhǔn)1金工研究/深度研究|2018年07月25日本文研究導(dǎo)讀 4特征選擇方法簡介 5非監(jiān)督式特征選擇 5單變量特征選擇的統(tǒng)計(jì)指標(biāo) 6分類模型的F值 6回歸模型的F值 7分類和回歸模型的互信息 8分類模型的卡方 9單變量特征選擇的篩選標(biāo)準(zhǔn) 9選擇固定數(shù)量或比例的特征 9根據(jù)FPR/FDR/FWE選擇 9基于模型的特征選擇 基于L1正則化的方法 基于樹模型的方法 12特征選擇方法測試流程 13測試流程 13特征預(yù)處理 15特征選擇方法測試結(jié)果 16選擇特征個(gè)數(shù)和入選頻次分析 16對(duì)比測試 18模型AUC對(duì)比分析 18構(gòu)建策略組合及回測對(duì)比分析 19選股策略表現(xiàn)對(duì)比分析 21總結(jié)與展望 23風(fēng)險(xiǎn)提示 24謹(jǐn)請(qǐng)參閱尾頁重要聲明及華泰證券股票和行業(yè)評(píng)級(jí)標(biāo)準(zhǔn)2圖表1:特征選擇主要方法 5圖表2:非監(jiān)督式特征選擇方法應(yīng)用于模擬數(shù)據(jù)集 6圖表3:根據(jù)分類模型的F值對(duì)模擬數(shù)據(jù)集進(jìn)行特征選擇 7圖表4:根據(jù)回歸模型的F值對(duì)模擬數(shù)據(jù)集進(jìn)行特征選擇 7圖表5:根據(jù)分類問題的互信息對(duì)模擬數(shù)據(jù)集進(jìn)行特征選擇 8圖表6:根據(jù)回歸問題的互信息對(duì)模擬數(shù)據(jù)集進(jìn)行特征選擇 9圖表7:單個(gè)假設(shè)檢驗(yàn)的輸出結(jié)果 9圖表8:多重假設(shè)檢驗(yàn)的輸出結(jié)果 10圖表9:根據(jù)FPR/FDR/FWE進(jìn)行特征選擇的依據(jù)及嚴(yán)格程度 10圖表10:根據(jù)FPR/FDR/FEW對(duì)模擬數(shù)據(jù)進(jìn)行特征選擇 圖表11:基于L1正則化的SVM對(duì)模擬數(shù)據(jù)集進(jìn)行特征選擇 圖表12:基于隨機(jī)森林模型對(duì)模擬數(shù)據(jù)集進(jìn)行特征選擇 12圖表13:特征選擇方法測試流程示意圖 13圖表14:選股模型中涉及的全部因子及其描述 14圖表15:特征選擇方法的參數(shù) 15圖表16:測試集AUC隨特征個(gè)數(shù)的變化情況 16圖表17:特征入選月份頻次排名(前40名) 17圖表18:特征入選月份頻次排名(后30名) 18圖表19:模型AUC和特征個(gè)數(shù)比較 18圖表20:回測指標(biāo)對(duì)比(邏輯回歸_6m為基學(xué)習(xí)器) 19圖表21:回測指標(biāo)對(duì)比(XGBoost_6m為基學(xué)習(xí)器) 20圖表22:回測指標(biāo)對(duì)比(XGBoost_72m為基學(xué)習(xí)器) 21圖表23:XGBoost_72m及其改進(jìn)模型全A選股策略表現(xiàn)(個(gè)股權(quán)重偏離上限2%,基準(zhǔn)為滬深300) 22圖表24:XGBoost_72m及其改進(jìn)模型全A選股策略表現(xiàn)(個(gè)股權(quán)重偏離上限2%,基準(zhǔn)為中證500) 22謹(jǐn)請(qǐng)參閱尾頁重要聲明及華泰證券股票和行業(yè)評(píng)級(jí)標(biāo)準(zhǔn)3構(gòu)建機(jī)器學(xué)習(xí)模型的最終目的是希望通過機(jī)器從輸入的訓(xùn)練集中“學(xué)習(xí)”出某種客觀存在的規(guī)律,學(xué)習(xí)的效果主要取決于兩個(gè)因素:1)機(jī)器學(xué)習(xí)模型的優(yōu)劣,2)輸入訓(xùn)練集的質(zhì)量。在華泰人工智能選股系列的過往報(bào)告中,我們主要圍繞第一個(gè)因素,探討不同的機(jī)器學(xué)習(xí)模型及其選股效果。而后者,即如何從全體特征中選擇一組優(yōu)質(zhì)的子集作為輸入訓(xùn)練集,則是本文探究的出發(fā)點(diǎn)。通常來說,對(duì)于給定數(shù)量的訓(xùn)練樣本,分類或回歸模型的預(yù)測能力隨著特征數(shù)量的增加呈現(xiàn)先增強(qiáng)后減弱的趨勢,這主要是由于:隨著特征數(shù)量(維度)的增加,樣本將變得更加稀疏,因而更容易找到一種理想的分類或回歸方式;但當(dāng)特征數(shù)量超過一定量后,過多的特征將導(dǎo)致模型在訓(xùn)練集上表現(xiàn)良好,而對(duì)新數(shù)據(jù)的泛化能力較差,導(dǎo)致過擬合的發(fā)生;同時(shí)過多的特征將大幅增加模型的時(shí)間開銷,造成維數(shù)災(zāi)難。降維方法主要分為兩類:特征提取和特征選擇。前者經(jīng)過某種映射從原始特征中提取出新特征,改變了原始的特征空間;而后者通過某種評(píng)價(jià)準(zhǔn)則從原始特征中選出部分特征,沒有改變?cè)嫉奶卣骺臻g。本篇報(bào)告中,我們將著重探討基于特征選擇的降維方法,并分別應(yīng)用于不同基學(xué)習(xí)器,對(duì)模型的預(yù)測能力和構(gòu)建的選股策略進(jìn)行測試和對(duì)比。簡單來說,特征選擇是從已有的原始特征集合中選取一個(gè)用于構(gòu)建后續(xù)模型的特征子集的過程,它是一個(gè)重要的數(shù)據(jù)預(yù)處理過程。有效的特征選擇將會(huì)減輕過擬合問題,提高模型的泛化能力和預(yù)測準(zhǔn)確性;同時(shí),降維后的模型具有更低的時(shí)間成本,也更容易被理解和解釋。我們的報(bào)告主要關(guān)注如下幾個(gè)方面的問題:1)常用的特征選擇方法有哪些,原理是什么?2)在多因子選股問題的背景下,模型的預(yù)測能力隨著因子數(shù)量的增加會(huì)發(fā)生怎樣的變化?3)特征選擇方法選出的是哪些因子?4)如何根據(jù)模型的預(yù)測結(jié)果構(gòu)建策略組合進(jìn)行回測?全部A股票池內(nèi)選股效果如何,相比單一的基學(xué)習(xí)器有哪些方面的提升?謹(jǐn)請(qǐng)參閱尾頁重要聲明及華泰證券股票和行業(yè)評(píng)級(jí)標(biāo)準(zhǔn)4特征選擇(FeatureSelection)作為一種數(shù)據(jù)降維方式,是機(jī)器學(xué)習(xí)算法的重要步驟之一,在工程領(lǐng)域有著廣泛的應(yīng)用,但在量化領(lǐng)域受到的關(guān)注有限。本質(zhì)上,特征選擇從原始的特征集合中選擇部分特征作為子集,其目的是為了節(jié)省算法的時(shí)間開銷,同時(shí)提升學(xué)習(xí)算法性能。作為特征選擇的奠基性論文之一,Guyon和Elisseeff在2003年提出,依據(jù)特征和嵌入式(Embedding)三大類。過濾式方法先使用特征選擇對(duì)原始特征集合進(jìn)行“過濾”,再基于過濾后的特征訓(xùn)練基學(xué)習(xí)器,這一特征選擇過程與后續(xù)基學(xué)習(xí)器的訓(xùn)練無關(guān)。與過濾式特征選擇不同,包裹式方法考慮后續(xù)基學(xué)習(xí)器的性能并以之作為特征子集優(yōu)劣的評(píng)價(jià)準(zhǔn)則,該方法為給定的基學(xué)習(xí)器“量身定做”了最優(yōu)的特征子集,由于包裹式特征選擇需要多次訓(xùn)練基學(xué)習(xí)器,該方法的時(shí)間成本遠(yuǎn)大于過濾式方法。與前兩種方法中特征選擇過程與基學(xué)習(xí)器訓(xùn)練過程有明顯的分界不同,嵌入式方法將兩者融為一體,即在基學(xué)習(xí)器訓(xùn)練過程中自動(dòng)完成了特征選擇,例如Lasso回歸本質(zhì)上即為一種嵌入式特征選擇方法。綜合比較三大類特征選擇方法,包裹式選擇的時(shí)間開銷較大并且效率較低,嵌入式選擇本質(zhì)上屬于獨(dú)立的機(jī)器學(xué)習(xí)算法,過濾式選擇效率較高因而被廣為采用。本篇報(bào)告將著重關(guān)注過濾式方法,介紹不同過濾式特征選擇的原理,分析其優(yōu)劣并系統(tǒng)測試其對(duì)不同基學(xué)習(xí)器的提升效果。下面我們將過濾式特征選擇細(xì)分為非監(jiān)督式特征選擇、單變量特征選擇和基于模型的特征選擇三類予以探討。特征選擇主要方法如下圖所示。資料來源:華泰證券研究所非監(jiān)督式特征選擇不借助標(biāo)簽Y而僅依賴特征X本身,根據(jù)特征的方差、熵、平滑度等指標(biāo)遴選特征。下面我們以移除低方差特征為例,介紹典型的非監(jiān)督式特征選擇方法。通常來說,如果一個(gè)特征能夠較好地區(qū)分訓(xùn)練樣本,它在所有樣本上的分布應(yīng)當(dāng)具備一定的變異性。如果樣本在某個(gè)特征上的變異性很小,那么這個(gè)特征對(duì)樣本的區(qū)分能力可能也較小。因此在進(jìn)行特征選擇時(shí),可以考慮移除所有方差小于某一閾值的特征。圖表2展示了一組包含10個(gè)樣本的模擬數(shù)據(jù)集,X1、X2、X3、X4為4組特征,Y為標(biāo)簽。對(duì)于原始特征集合X=[X1,X2,X3,X4],我們希望移除所有方差低于閾值1的特征。如下表所示,我們計(jì)算每個(gè)特征的方差,得到X1的方差為0.73<1,因此該特征將被移除,其余特征被保留最終得到新的特征子集X’=[X2,X3,X4]。謹(jǐn)請(qǐng)參閱尾頁重要聲明及華泰證券股票和行業(yè)評(píng)級(jí)標(biāo)準(zhǔn)5X1X2X3X4Y00000×資料來源:華泰證券研究所由于該特征選擇方法僅考慮輸入特征X而沒有考慮標(biāo)簽Y,該方法同時(shí)適用于基學(xué)習(xí)器為監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)的場景。然而,在我們的人工智能選股實(shí)踐中,由于原始因子均為已確證有效的因子,并且經(jīng)預(yù)處理轉(zhuǎn)換為N(0,1)的分布,移除低方差特征的意義不大,后續(xù)我們將不單獨(dú)進(jìn)行測試。單變量特征選擇是常用的監(jiān)督式特征選擇方法之一,該方法針對(duì)每個(gè)特征單獨(dú)計(jì)算某個(gè)統(tǒng)計(jì)指標(biāo),并基于該統(tǒng)計(jì)指標(biāo)根據(jù)某一篩選標(biāo)準(zhǔn)進(jìn)行特征選擇。從通俗的角度看,大學(xué)通過高考成績選拔考生就是一種特征選擇的過程,全體考生相當(dāng)于全部原始特征,高考分?jǐn)?shù)相當(dāng)于單個(gè)統(tǒng)計(jì)指標(biāo),選擇排名靠前的一定數(shù)量考生相當(dāng)于篩選標(biāo)準(zhǔn)。單變量特征選擇可依賴的統(tǒng)計(jì)指標(biāo)包括F值、互信息、卡方等;篩選標(biāo)準(zhǔn)包括選擇固定數(shù)量特征、選擇固定比例特征、根據(jù)FPR/FDR/FWE選擇特征等。分類模型的F值當(dāng)基學(xué)習(xí)器為分類模型時(shí),可借助方差分析(ANOVA)的F值衡量每個(gè)特征和標(biāo)簽的關(guān)聯(lián)度,最終選擇關(guān)聯(lián)度較高的特征。方差分析常用來研究控制變量的不同水平是否對(duì)觀測變量產(chǎn)生顯著影響,該方法認(rèn)為:觀測變量值的變動(dòng)會(huì)受到控制變量和隨機(jī)擾動(dòng)兩個(gè)方面的影響,可將觀測變量總的離差平方和分解為組間離差平方和與組內(nèi)離差平方和兩部分:其中,SST為總離差平方和,SSA為組間離差平方和,SSE為組內(nèi)離差平方和。通過構(gòu)造F統(tǒng)計(jì)量可以比較總離差平方和中各部分所占的比例:其中,k為控制變量的組數(shù),n為樣本總數(shù),k-1和n-k分別為SSA和SSE的自由度?;谔摕o假設(shè)H0:控制變量對(duì)觀測變量沒有影響,構(gòu)造F值并根據(jù)樣本值進(jìn)行計(jì)算。對(duì)于給定的顯著性水平α,如果計(jì)算得到的F值大于Fα,則拒絕虛無假設(shè)H0,此時(shí)組間離差平方和在總離差平方和中所占的比例更大,我們認(rèn)為控制變量對(duì)觀測變量有顯著影響;否則,我們無法拒絕虛無假設(shè),即認(rèn)為控制變量對(duì)觀測變量的影響不顯著。使用F值對(duì)分類模型進(jìn)行特征選擇時(shí),我們假設(shè)不同特征對(duì)分類結(jié)果貢獻(xiàn)程度的差異,主要源于各個(gè)特征在不同標(biāo)簽下的組間離散程度與組內(nèi)離散程度之比存在差異。對(duì)每個(gè)特征,計(jì)算F值并得到對(duì)應(yīng)的p值。F值越大,該特征的組間離散程度越大而組內(nèi)離散程度越小,特征與標(biāo)簽的關(guān)聯(lián)度越高。如下表所示,對(duì)于模擬的原始特征集合,我們選擇關(guān)聯(lián)度排名前三的特征,最終得到新的特征子集X’=[X1,X3,X4]。謹(jǐn)請(qǐng)參閱尾頁重要聲明及華泰證券股票和行業(yè)評(píng)級(jí)標(biāo)準(zhǔn)6X1X2X3X4Y00000Fp×資料來源:華泰證券研究所回歸模型的F值當(dāng)基學(xué)習(xí)器為回歸模型時(shí),可借助單變量線性回歸及其對(duì)應(yīng)方差分析的F值衡量每個(gè)特征X和標(biāo)簽Y的關(guān)聯(lián)度,最終選擇關(guān)聯(lián)度較高的特征。線性回歸是確定兩個(gè)或兩個(gè)以上變量間線性相關(guān)關(guān)系的統(tǒng)計(jì)方法,F(xiàn)值通過回歸后的方差分析表輸出,并與給定的顯著性水平進(jìn)行比較,以檢驗(yàn)回歸方程的線性關(guān)系是否顯著。當(dāng)F檢驗(yàn)結(jié)果顯著時(shí),可推斷回歸方程中至少有一個(gè)回歸系數(shù)是顯著的,但并不一定所有的回歸系數(shù)都是顯著的。對(duì)單變量線性回歸而言,自變量只有一個(gè),F(xiàn)檢驗(yàn)結(jié)果顯著即可判斷回歸系數(shù)顯著,即因變量與自變量具有顯著的線性相關(guān)關(guān)系。具體地,對(duì)單個(gè)特征X和標(biāo)簽Y進(jìn)行線性回歸時(shí),計(jì)算回歸方程的F值及其對(duì)應(yīng)的p值。線性回歸的虛無假設(shè)H0:回歸系數(shù)為0。對(duì)于給定的顯著性水平α,如果計(jì)算得到的F值大于Fα,則拒絕虛無假設(shè)H0,即認(rèn)為回歸系數(shù)顯著異于0,進(jìn)而推斷兩個(gè)變量間存在一定的線性關(guān)系。使用F值對(duì)回歸模型進(jìn)行特征選擇時(shí),對(duì)每個(gè)特征,計(jì)算F統(tǒng)計(jì)量的值,F(xiàn)值越大,我們?cè)接欣碛删芙^原假設(shè),特征與標(biāo)簽的關(guān)聯(lián)度越高。如下表所示,對(duì)于模擬的原始特征集合,我們選擇關(guān)聯(lián)度排名前三的特征,最終得到新的特征子集X’=[X1,X2,X3]。X1X2X3X4Y1.090.940.850.26Fp資料來源:華泰證券研究所謹(jǐn)請(qǐng)參閱尾頁重要聲明及華泰證券股票和行業(yè)評(píng)級(jí)標(biāo)準(zhǔn)7分類和回歸模型的互信息在概率論和信息論中,互信息常用于度量兩個(gè)隨機(jī)變量之間的關(guān)聯(lián)程度。不同于相關(guān)系數(shù)僅能夠捕捉兩個(gè)隨機(jī)變量之間的線性相關(guān)性,互信息方法可以捕捉兩個(gè)變量之間的任何統(tǒng)計(jì)依賴性;但由于互信息依賴非參方法,它通常需要更多的樣本來進(jìn)行精確估計(jì)。兩個(gè)離散隨機(jī)變量X和Y的互信息定義為:其中,p(x,y)是X和Y的聯(lián)合概率分布函數(shù),p(x)和p(y)分別是X和Y的邊緣概率分布函數(shù)。上述計(jì)算方法適用于基學(xué)習(xí)器為分類模型的情形。在連續(xù)隨機(jī)變量的情形下,求和替換為二重定積分:其中,p(x,y)是X和Y的聯(lián)合概率密度函數(shù),p(x)和p(y)分別是X和Y的邊緣概率密度函數(shù)。上述計(jì)算方法適用于基學(xué)習(xí)器為回歸模型的情形。直觀上,互信息反映了聯(lián)合分布p(x,y)與邊際分布乘積p(x)p(y)的相似程度,它能夠度量X和Y共享的信息,量化了已知兩個(gè)變量其中一個(gè)時(shí),另一個(gè)變量不確定性的減少程度。例如,如果X和Y相互獨(dú)立,則已知X不會(huì)對(duì)Y提供任何信息,反之亦然,則p(x,y)=p(x)p(y),兩者的互信息為零。在使用互信息進(jìn)行特征選擇時(shí),特征與標(biāo)簽之間的互信息越大,兩者之間共享的信息越多,那么兩者的關(guān)聯(lián)度越高。如下表所示,對(duì)于模擬的原始特征集合,我們選擇互信息最高的特征,最終得到分類問題下新的特征子集為X’=[X1],回歸問題下新的特征子集為X’=[X2]。X1X2X3X4Y00000×××資料來源:華泰證券研究所謹(jǐn)請(qǐng)參閱尾頁重要聲明及華泰證券股票和行業(yè)評(píng)級(jí)標(biāo)準(zhǔn)8X1X2X3X4Y1.090.940.850.26××資料來源:華泰證券研究所分類模型的卡方卡方檢驗(yàn)是數(shù)理統(tǒng)計(jì)中一種常用的檢驗(yàn)兩個(gè)變量之間相關(guān)性的方法,其核心思想是計(jì)算實(shí)際值與理論值的偏差來判斷兩者是否相關(guān)。其中,理論值為根據(jù)虛無假設(shè)H0(兩個(gè)變量相互獨(dú)立)計(jì)算得到的結(jié)果;實(shí)際值為根據(jù)樣本直接觀測的結(jié)果。如果兩者偏差足夠小,該誤差可能由測量手段不精或偶然事件等所致,我們無法拒絕虛無假設(shè),即認(rèn)為:兩個(gè)變量之間相互獨(dú)立。如果兩者偏差足夠大,我們認(rèn)為這樣的誤差不是來自隨機(jī)因素,那么有理由拒絕虛無假設(shè),即認(rèn)為兩個(gè)變量具有一定的相關(guān)性。計(jì)算偏差程度的公式為:其中,E為理論值,xi為實(shí)際值序列。分子的平方表達(dá)可以解決偏差正負(fù)抵消的問題,分母除以理論值有利于減少理論值量綱對(duì)偏差度量的影響。但由于卡方統(tǒng)計(jì)量通常適用于非負(fù)的頻率數(shù)據(jù),不適用于多因子選股問題,本文不對(duì)基于卡方的單變量特征選擇進(jìn)行測試。在計(jì)算出每個(gè)特征的某項(xiàng)統(tǒng)計(jì)指標(biāo)后,我們還需要根據(jù)一定的篩選標(biāo)準(zhǔn)進(jìn)行特征選擇。篩選標(biāo)準(zhǔn)包括選擇固定數(shù)量特征、選擇固定比例特征、根據(jù)FPR/FDR/FWE選擇特征等。選擇固定數(shù)量或比例的特征該篩選標(biāo)準(zhǔn)根據(jù)每個(gè)特征的統(tǒng)計(jì)指標(biāo),保留固定前K個(gè)最優(yōu)的特征(簡稱K最優(yōu)或者固定比例最優(yōu)的特征。該方法的優(yōu)點(diǎn)是邏輯清晰,計(jì)算簡便。缺點(diǎn)是K值的選取缺乏明確的數(shù)學(xué)意義。在我們的人工智能選股實(shí)踐中,由于采用滾動(dòng)訓(xùn)練的方式,每個(gè)截面期都進(jìn)行模型訓(xùn)練。當(dāng)使用K最優(yōu)方法進(jìn)行特征選擇時(shí),每個(gè)截面期選出的特征數(shù)完全相同。根據(jù)FPR/FDR/FWE選擇該篩選標(biāo)準(zhǔn)使用常見的假設(shè)檢驗(yàn),根據(jù)某種錯(cuò)誤測度進(jìn)行特征篩選。在數(shù)理統(tǒng)計(jì)的單個(gè)假設(shè)檢驗(yàn)問題中,可能出現(xiàn)的推斷輸出結(jié)果如下表所示。預(yù)測結(jié)果=不拒絕Ho預(yù)測結(jié)果=拒絕Ho資料來源:華泰證券研究所謹(jǐn)請(qǐng)參閱尾頁重要聲明及華泰證券股票和行業(yè)評(píng)級(jí)標(biāo)準(zhǔn)9金工研究/深度研究|2018年07月25日當(dāng)虛無假設(shè)H0為真,而預(yù)測結(jié)果為拒絕H0時(shí),這種情況稱為假陽性,此時(shí)我們虛報(bào)了原本不存在的統(tǒng)計(jì)差異。這種錯(cuò)誤也稱為第一類錯(cuò)誤,發(fā)生的概率稱為假陽性率(FalsePositiveRate,F(xiàn)PR)。類似地,當(dāng)虛無假設(shè)H0為假,而預(yù)測結(jié)果為接受H0時(shí),這種情況稱為假陰性,此時(shí)我們漏報(bào)了原本存在的統(tǒng)計(jì)差異。這種錯(cuò)誤也稱為第二類錯(cuò)誤,發(fā)生的概率稱為假陰性率(FalseNegativeRate,F(xiàn)NR)。假設(shè)檢驗(yàn)的顯著性水平α為發(fā)生第一類錯(cuò)誤的最大概率?;诿總€(gè)特征計(jì)算得到的統(tǒng)計(jì)指標(biāo)及對(duì)應(yīng)p值,該篩選標(biāo)準(zhǔn)選擇p值小于顯著性水平α的特征作為特征子集。當(dāng)同時(shí)對(duì)多個(gè)假設(shè)進(jìn)行檢驗(yàn)時(shí),情況將變得更為復(fù)雜,此時(shí)每個(gè)檢驗(yàn)均存在第一類錯(cuò)誤。例如同時(shí)檢驗(yàn)m個(gè)假設(shè)時(shí),對(duì)于給定的檢驗(yàn)法則,得到的可能輸出結(jié)果如下表所示。預(yù)測結(jié)果=不拒絕Ho預(yù)測結(jié)果=拒絕HoUVTSWRm資料來源:華泰證券研究所其中,m0和m1分別為H0為真和H0為假的個(gè)數(shù),R是m個(gè)檢驗(yàn)中的拒絕總數(shù),V是m個(gè)檢驗(yàn)中發(fā)生第一類錯(cuò)誤(假陽性)的總數(shù),T是發(fā)生第二類錯(cuò)誤(假陰性)的總數(shù)。與單個(gè)假設(shè)檢驗(yàn)類似,多重假設(shè)檢驗(yàn)問題首先需要考慮的問題是如何提出一種合理的錯(cuò)誤測度來衡量總體檢驗(yàn)所發(fā)生的第一類錯(cuò)誤。FDR(FalseDiscoveryRate)即錯(cuò)誤發(fā)現(xiàn)率,是多重假設(shè)檢驗(yàn)的一種錯(cuò)誤測度方式,它是錯(cuò)誤的拒絕次數(shù)與拒絕總數(shù)比值的期望,公式表達(dá)為:其中,I{R>0}為示性函數(shù),當(dāng)R>0時(shí)示性函數(shù)值為1,當(dāng)R=0示性函數(shù)值為0。在多重假設(shè)檢驗(yàn)中,可以通過給定的顯著性水平α控制錯(cuò)誤發(fā)現(xiàn)率,進(jìn)而推導(dǎo)出單個(gè)假設(shè)檢驗(yàn)即每個(gè)特征對(duì)應(yīng)的最大p值。特征的p值低于顯著性水平則予以保留。FWE(Family-WiseErrorRate)即總體錯(cuò)誤率,是多重假設(shè)檢驗(yàn)的另一種錯(cuò)誤測度方式,它是指在多重假設(shè)檢驗(yàn)中至少有一個(gè)檢驗(yàn)發(fā)生第一類錯(cuò)誤的概率,公式表達(dá)為:由定義可知,F(xiàn)WE對(duì)錯(cuò)誤的控制較為嚴(yán)格,是一種保守的錯(cuò)誤測度。與FDR類似,在對(duì)多個(gè)特征同時(shí)進(jìn)行篩選時(shí),可以通過給定的顯著性水平α控制總體錯(cuò)誤率,進(jìn)而推導(dǎo)出單個(gè)假設(shè)檢驗(yàn)即每個(gè)特征對(duì)應(yīng)的最大p值。特征的p值低于顯著性水平則予以保留。假設(shè)共進(jìn)行m次顯著性檢驗(yàn),得到m個(gè)p值;在顯著性水平α=0.05下,各評(píng)價(jià)準(zhǔn)則的特征選擇依據(jù)及嚴(yán)格程度如下表所示。低中高資料來源:華泰證券研究所下面我們借助一組模擬數(shù)據(jù)說明如何根據(jù)FPR/FDR/FWE進(jìn)行特征選擇。假設(shè)對(duì)于某10個(gè)特征組成的原始特征集合,計(jì)算得到10個(gè)F值和相應(yīng)的p值。我們定義顯著性水平α=0.05。各種篩選標(biāo)準(zhǔn)的選擇特征結(jié)果如下表所示。謹(jǐn)請(qǐng)參閱尾頁重要聲明及華泰證券股票和行業(yè)評(píng)級(jí)標(biāo)準(zhǔn)謹(jǐn)請(qǐng)參閱尾頁重要聲明及華泰證券股票和行業(yè)評(píng)級(jí)標(biāo)準(zhǔn)10X1X2X3X4X5X6X7X8X9X10×××××資料來源:華泰證券研究所與選擇固定數(shù)量或比例特征的篩選標(biāo)準(zhǔn)相比,根據(jù)FPR/FDR/FWE的篩選標(biāo)準(zhǔn)選擇得到的特征數(shù)量不固定,取決于訓(xùn)練樣本。因而在我們的人工智能選股實(shí)踐中,每個(gè)截面期選出的特征數(shù)可能不同。另外值得注意的是,F(xiàn)PR和FWE兩種篩選標(biāo)準(zhǔn)實(shí)質(zhì)上“等價(jià)”,即假設(shè)共m個(gè)特征,前者的顯著性水平α取0.05等價(jià)于后者的α取0.05*m。本文對(duì)單變量特征選擇方法進(jìn)行測試時(shí),將使用F值和互信息作為評(píng)價(jià)特征的統(tǒng)計(jì)指標(biāo)。在篩選標(biāo)準(zhǔn)方面,選擇固定數(shù)量特征和選擇固定比例特征兩者等價(jià),我們僅測試前者;根據(jù)FPR和FWE篩選兩者等價(jià),因此我們僅測試FPR和FDR兩種方法?;谀P偷奶卣鬟x擇是另一種常用的監(jiān)督式特征選擇方法,這里的“模型”指任何在擬合后具有回歸系數(shù)或特征重要性屬性的學(xué)習(xí)器。如果特征的回歸系數(shù)或特征重要性小于閾值,我們就認(rèn)為該特征和標(biāo)簽的關(guān)聯(lián)度不高,將予以剔除。按照學(xué)習(xí)器的類型,該方法可大致分為基于L1正則化的方法和基于樹模型的方法?;贚1正則化的方法使用L1正則化進(jìn)行懲罰的線性模型有稀疏解,即部分特征的系數(shù)為0,因而可以用于基學(xué)習(xí)器的特征選擇。具體而言,我們保留系數(shù)非0的特征,剔除系數(shù)為0的特征。L1正則化方法懲罰系數(shù)的大小影響特征選擇的嚴(yán)格程度。懲罰系數(shù)越大,保留的特征越少;反之懲罰系數(shù)越小,保留的特征越多。對(duì)于回歸模型,L1正則化方法通常采用Lasso回歸;對(duì)于分類模型,通常采用L1正則化的線性SVM或邏輯回歸。關(guān)于L1正則化、Lasso回歸、SVM的具體方法詳見華泰人工智能選股系列報(bào)告的第二篇廣義線性模型和第三篇支持向量機(jī)模型。下表展示了采用L1正則化的SVM對(duì)分類問題進(jìn)行特征選擇的過程。取懲罰系數(shù)C=0.1,對(duì)于模擬的原始特征集合,以各個(gè)特征的SVM系數(shù)作為選擇標(biāo)準(zhǔn),最終得到新的特征子集X’=[X3]。X1X2X3X4Y00000資料來源:華泰證券研究所謹(jǐn)請(qǐng)參閱尾頁重要聲明及華泰證券股票和行業(yè)評(píng)級(jí)標(biāo)準(zhǔn)11金工研究/深度研究|2018年07月25日基于樹模型的方法樹模型能夠計(jì)算特征重要性,可以用于基學(xué)習(xí)器的特征選擇。具體而言,我們剔除重要性低于一定閾值的特征,保留重要性高于一定閾值的特征。所選的閾值越大,保留的特征越少;反之所選的閾值越小,保留的特征越多。這里的樹模型包括但不限于隨機(jī)森林模型和AdaBoost模型。關(guān)于隨機(jī)森林、AdaBoost模型、計(jì)算特征重要性的具體方法詳見華泰人工智能系列報(bào)告的第五篇隨機(jī)森林模型和第六篇Boosting模型。下表展示了使用隨機(jī)森林模型對(duì)分類問題進(jìn)行特征選擇的過程。取閾值為所有特征重要性的均值,對(duì)于模擬的原始特征集合,以各個(gè)特征重要性作為特征選擇的標(biāo)準(zhǔn),最終得到新的特征子集X’=[X3,X4]。X1X2X3X4Y00000×資料來源:華泰證券研究所謹(jǐn)請(qǐng)參閱尾頁重要聲明及華泰證券股票和行業(yè)評(píng)級(jí)標(biāo)準(zhǔn)12數(shù)據(jù)獲取數(shù)據(jù)獲取特征和標(biāo)簽提取特征和標(biāo)簽提取特征預(yù)處理特征預(yù)處理訓(xùn)練集和交叉訓(xùn)練集和交叉驗(yàn)證集合成模型評(píng)價(jià)模型評(píng)價(jià)樣本外測試樣本外測試交叉驗(yàn)證交叉驗(yàn)證調(diào)整參數(shù)樣本內(nèi)訓(xùn)練樣本內(nèi)訓(xùn)練資料來源:華泰證券研究所本文測試的基學(xué)習(xí)器為華泰人工智能系列研究報(bào)告總結(jié)得出的3種選股效果較好的方法:邏輯回歸_6m、XGBoost_6m和XGBoost_72m。特征選擇的測試方法包含如下步驟:1.?dāng)?shù)據(jù)獲?。篴)股票池:全A股。剔除ST股票,剔除每個(gè)截面期下一交易日停牌的股票,剔除上市3個(gè)月內(nèi)的股票,每只股票視作一個(gè)樣本。b)回測區(qū)間:2011年1月31日至2018年7月2日。月度滾動(dòng)回測。2.特征和標(biāo)簽提?。好總€(gè)自然月的最后一個(gè)交易日,計(jì)算之前報(bào)告里的70個(gè)因子暴露度,作為樣本的原始特征;計(jì)算下一整個(gè)自然月的個(gè)股超額收益(以滬深300指數(shù)為基準(zhǔn)作為樣本的標(biāo)簽。因子池如圖表14所示。3.特征預(yù)處理:該步驟較為復(fù)雜,我們將在下一小節(jié)進(jìn)行詳細(xì)說明。4.訓(xùn)練集和交叉驗(yàn)證集的合成:在每個(gè)月末截面期,選取下月收益排名前30%的股票作為正例(y=1后30%的股票作為負(fù)例(y=-1)。將訓(xùn)練樣本合并,隨機(jī)選取90%的樣本作為訓(xùn)練集,余下10%的樣本作為交叉驗(yàn)證集。5.樣本內(nèi)訓(xùn)練:對(duì)每個(gè)基學(xué)習(xí)器,使用6個(gè)月或72個(gè)月訓(xùn)練數(shù)據(jù)對(duì)基于原始特征集合和選擇后特征子集的訓(xùn)練集進(jìn)行逐一訓(xùn)練。6.交叉驗(yàn)證調(diào)參:由于本篇報(bào)告?zhèn)戎赜谔骄刻卣鬟x擇對(duì)模型的影響,此處直接選取之前報(bào)告中基學(xué)習(xí)器的最優(yōu)參數(shù)作為模型的最優(yōu)參數(shù)。7.樣本外測試:確定最優(yōu)參數(shù)后,以T月月末截面期所有樣本預(yù)處理后的特征作為模型的輸入,得到每個(gè)樣本的預(yù)測值f(x)。將預(yù)測值視作合成后的因子,進(jìn)行單因子分層回測,回測方法和之前的單因子測試報(bào)告相同。8.模型評(píng)價(jià):我們以分層回測的結(jié)果作為模型篩選標(biāo)準(zhǔn)。我們還將給出測試集的正確率、AUC等衡量模型性能的指標(biāo)。謹(jǐn)請(qǐng)參閱尾頁重要聲明及華泰證券股票和行業(yè)評(píng)級(jí)標(biāo)準(zhǔn)13operationcashflowra杠桿financial_leverage杠桿杠桿杠桿個(gè)股60個(gè)月收益與上證綜指回歸的截距項(xiàng)值,N=1,3,6,12French三因子回歸的殘差的標(biāo)準(zhǔn)差,N=1,3個(gè)股最近N個(gè)月的日收益率序列標(biāo)準(zhǔn)差,),資料來源:Wind,華泰證券研究所謹(jǐn)請(qǐng)參閱尾頁重要聲明及華泰證券股票和行業(yè)評(píng)級(jí)標(biāo)準(zhǔn)14本節(jié)我們將具體介紹本篇報(bào)告中所使用的特征預(yù)處理方法。對(duì)每個(gè)特征,首先進(jìn)行如下的預(yù)處理:a)中位數(shù)去極值:設(shè)第T期某因子在所有個(gè)股上的暴露度序列為Di,DM為該序列中位數(shù),DM1為序列|Di?DM|的中位數(shù),則將序列Di中所有大于DM+5DM1的數(shù)重設(shè)為DM+5DM1,將序列Di中所有小于DM?5DM1的數(shù)重設(shè)為DM?5DM1;b)缺失值處理:得到新的因子暴露度序列后,將因子暴露度缺失的地方設(shè)為中信一級(jí)行業(yè)相同個(gè)股的平均值;c)行業(yè)市值中性化:將填充缺失值后的因子暴露度對(duì)行業(yè)啞變量和取對(duì)數(shù)后的市值做線性回歸,取殘差作為新的因子暴露度;d)標(biāo)準(zhǔn)化:將中性化處理后的因子暴露度序列減去其現(xiàn)在的均值、除以其標(biāo)準(zhǔn)差,得到一個(gè)新的近似服從N(0,1)分布的序列?;诔醪筋A(yù)處理后的原始特征集合,對(duì)每種特征選擇方法中的參數(shù)進(jìn)行遍歷,選擇交叉驗(yàn)證集AUC(以2010年為測試集的對(duì)應(yīng)的驗(yàn)證集的AUC)最大的參數(shù)作為該方法下的最優(yōu)參數(shù),如下表所示。XGBoost_6mXGBoost_72m基于隨機(jī)森林資料來源:Wind,華泰證券研究所謹(jǐn)請(qǐng)參閱尾頁重要聲明及華泰證券股票和行業(yè)評(píng)級(jí)標(biāo)準(zhǔn)15在使用特征選擇對(duì)基學(xué)習(xí)器進(jìn)行改進(jìn)時(shí),入選的特征個(gè)數(shù)越多是否模型改進(jìn)效果越好?經(jīng)選擇保留的特征分屬哪些大類風(fēng)格因子?我們首先以基于F值+FDR方法對(duì)邏輯回歸_6m模型進(jìn)行特征選擇為例,展示模型改進(jìn)效果與特征個(gè)數(shù)的關(guān)系,如下圖所示。資料來源:Wind,華泰證券研究所隨著入選特征個(gè)數(shù)的增加,特征選擇方法對(duì)模型的改進(jìn)效果先增加后下降,在特征個(gè)數(shù)為50左右達(dá)到峰值。由此可見,特征并非越多越好。對(duì)其它以邏輯回歸_6m和XGBoost_6m為基學(xué)習(xí)器的特征選擇方法,模型的改進(jìn)效果與特征個(gè)數(shù)的關(guān)系類似。對(duì)以XGBoost_72m為基學(xué)習(xí)器的特征選擇方法,隨著特征個(gè)數(shù)的增加,特征選擇方法對(duì)模型的改進(jìn)效果先增加后持平。進(jìn)一步,我們以基于F值+FDR(α=0.01)對(duì)邏輯回歸_6m進(jìn)行特征選擇為例,分析該特征選擇方法下各個(gè)特征的入選頻次。在滾動(dòng)回測的89個(gè)月中,每個(gè)特征被選擇的總月數(shù)如下表所示。入選頻次排名前列的因子主要是動(dòng)量反轉(zhuǎn)、換手率和波動(dòng)率因子,排名靠后的因子為財(cái)務(wù)質(zhì)量、杠桿因子。謹(jǐn)請(qǐng)參閱尾頁重要聲明及華泰證券股票和行業(yè)評(píng)級(jí)標(biāo)準(zhǔn)16金工研究/深度研究|2018年07月25日55535353535358599585857585875998598857657984584689487837694957497559781955958869559539595769467680396585dif7769356769636664954955653448857777393499248543660資料來源:Wind,華泰證券研究所謹(jǐn)請(qǐng)參閱尾頁重要聲明及華泰證券股票和行業(yè)評(píng)級(jí)標(biāo)準(zhǔn)謹(jǐn)請(qǐng)參閱尾頁重要聲明及華泰證券股票和行業(yè)評(píng)級(jí)標(biāo)準(zhǔn)17863850946677066854984358847587135746484496586133837486473569513973754137575233759302683杠桿financial_leverage729633733119382杠桿9287327184830355杠桿484018115149915杠桿284118031194200755470195110223543032220200753402210000000046352220000301002309000004127operationcashflowra000001102資料來源:Wind,華泰證券研究所在特征預(yù)處理一節(jié)中,我們給出了每種特征選擇方法下的最優(yōu)參數(shù)。對(duì)于每個(gè)基學(xué)習(xí)器,我們使用原始特征集合和經(jīng)上述參數(shù)選擇的特征子集,分別進(jìn)行模型的訓(xùn)練和測試,觀察不同特征選擇方法下的模型改進(jìn)效果。模型AUC對(duì)比分析三個(gè)基學(xué)習(xí)器在不同特征選擇方法下的測試集AUC如下表所示。XGBoost_6mXGBoost_72m基于隨機(jī)森林資料來源:Wind,華泰證券研究所謹(jǐn)請(qǐng)參閱尾頁重要聲明及華泰證券股票和行業(yè)評(píng)級(jí)標(biāo)準(zhǔn)謹(jǐn)請(qǐng)參閱尾頁重要聲明及華泰證券股票和行業(yè)評(píng)級(jí)標(biāo)準(zhǔn)18我們發(fā)現(xiàn),對(duì)于邏輯回歸_6m和XGBoost_6m基學(xué)習(xí)器,各種特征選擇方法對(duì)基學(xué)習(xí)器均有一定提升,可見選擇部分特征進(jìn)行模型訓(xùn)練能夠更好地學(xué)習(xí)特征與標(biāo)簽之間的規(guī)律。不同方法的提升效果各異,其中基于F值+FDR方法對(duì)AUC的提升效果最好。對(duì)于XGBoost_72m基學(xué)習(xí)器,各種特征選擇方法的AUC相差不大,對(duì)基學(xué)習(xí)器的AUC沒有明顯改進(jìn)效果,可能是由于XGBoost_72m基學(xué)習(xí)器本身已具備較高的AUC,提升空間有限。構(gòu)建策略組合及回測對(duì)比分析對(duì)于三個(gè)基學(xué)習(xí)器及特征選擇后的改進(jìn)模型,我們構(gòu)建了全A選股策略并進(jìn)行回測,各項(xiàng)指標(biāo)詳見下表。 資料來源:Wind,華泰證券研究所以邏輯回歸_6m為基學(xué)習(xí)器時(shí),收益端提升明顯的模型為基于F值+K最優(yōu)、基于互信息+K最優(yōu)、基于SVM的特征選擇方法?;爻范颂嵘黠@的模型為基于F值+FPR方法。從信息比率和Calmar比率來看,基于F值+K最優(yōu)、基于互信息+K最優(yōu)方法優(yōu)于基學(xué)習(xí)器,其余特征選擇方法對(duì)基學(xué)習(xí)器的提升不明顯。謹(jǐn)請(qǐng)參閱尾頁重要聲明及華泰證券股票和行業(yè)評(píng)級(jí)標(biāo)準(zhǔn)謹(jǐn)請(qǐng)參閱尾頁重要聲明及華泰證券股票和行業(yè)評(píng)級(jí)標(biāo)準(zhǔn)19XGBoost_6mXGBoost_6mXGBoost_6mXGBoost_6m 資料來源:Wind,華泰證券研究所以XGBoost_6m為基學(xué)習(xí)器并以滬深300作為基準(zhǔn)時(shí),回測表現(xiàn)較好的是基于F值+FDR方法,其余特征選擇方法對(duì)基學(xué)習(xí)器沒有提升作用。以XGBoost_6m為基學(xué)習(xí)器并以中證500作為基準(zhǔn)時(shí),回測表現(xiàn)較好的是基于互信息+K最優(yōu)、基于隨機(jī)森林的方法,其余特征選擇方法對(duì)基學(xué)習(xí)器沒有提升作用。謹(jǐn)請(qǐng)參閱尾頁重要聲明及華泰證券股票和行業(yè)評(píng)級(jí)標(biāo)準(zhǔn)謹(jǐn)請(qǐng)參閱尾頁重要聲明及華泰證券股票和行業(yè)評(píng)級(jí)標(biāo)準(zhǔn)XGBoost_72mXGBoost_72mXGBoost_72mXGBoost_72m 資料來源:Wind,華泰證券研究所以XGBoost_72m為基學(xué)習(xí)器時(shí),回測表現(xiàn)較好的是基于F值+K最優(yōu)、基于互信息+K最優(yōu)、基于F值+FPR、基于F值+FDR四種方法,在年化超額收益、超額收益最大回撤、信息比率、Calmar比率四項(xiàng)指標(biāo)上相對(duì)于基學(xué)習(xí)器均有明顯提升。對(duì)于基于SVM和基于隨機(jī)森林這兩類基于模型的方法,其回測表現(xiàn)反而弱于基學(xué)習(xí)器。選股策略表現(xiàn)對(duì)比分析我們有選擇性地展示XGBoost_72m基學(xué)習(xí)器及其改進(jìn)模型在不同基準(zhǔn)下的月度超額收益圖,如下圖所示。謹(jǐn)請(qǐng)參閱尾頁重要聲明及華泰證券股票和行業(yè)評(píng)級(jí)標(biāo)準(zhǔn)謹(jǐn)請(qǐng)參閱尾頁重要聲明及華泰證券股票和行業(yè)評(píng)級(jí)標(biāo)準(zhǔn)金工研究/深度研究|2018年07月25日70%60%50%40%30%20%10% XGBoost_72m年化超額收益率:6.08%超額收益最大回撤:5.25%基于F值+K最優(yōu)年化超額收益率:7.01%超額收益最大回撤:4.06% 基于互信息+K最優(yōu)年化超額收益率:6.51%超額收益最大回撤:4.96%基于F值+FPR年化超額收益率:6.65%超額收益最大回撤:3.75%資料來源:Wind,華泰證券研究所na基于互信息+K最優(yōu)超額收益回撤(右軸)信息比率:2.38信息比率:信息比率:2.38信息比率:2.76信息比率:2.60信息比率:2.78XGBoost_72m基于F值+K最優(yōu)基于互信息+K最優(yōu)基于F值+FPR年化超額收益率:15.36%超額收益最大回撤:7.36%年化超額收益率:17.48%超額收益最大回撤:5.16%年化超額收益率:16.82%超額收益最大回撤:6.98%年化超額收益率:17.78%超額收益最大回撤:5.69%資料來源:Wind,華泰證券研究所謹(jǐn)請(qǐng)參閱尾頁重要聲明及華泰證券股票和行業(yè)評(píng)級(jí)標(biāo)準(zhǔn)以上我們對(duì)邏輯回歸_6m、XGBoost_6m、XGBoost_72m三種基學(xué)習(xí)器及其特征選擇后的改進(jìn)模型進(jìn)行了系統(tǒng)的測試,并且構(gòu)建了以滬深300和中證500為基準(zhǔn)的全A選股策略,初步得到以下幾個(gè)結(jié)論:一、特征選擇作為特征預(yù)處理的重要步驟之一,其核心思想是從全體特征中選擇一組優(yōu)質(zhì)的子集作為輸入訓(xùn)練集,從而提升模型對(duì)客觀規(guī)律的學(xué)習(xí)效果。特征選擇的重要作用在于:1)減少時(shí)間開銷;2)避免過擬合;3)使模型容易被解釋。特征選擇方法包括過濾式、包裹式、嵌入式三類,最常用的方法為過濾式?!斑^濾”的標(biāo)準(zhǔn)可以來自于無監(jiān)督學(xué)習(xí),如特征本身的方差、熵等;可以是圍繞特征和標(biāo)簽構(gòu)建的統(tǒng)計(jì)指標(biāo),如F值、互信息、卡方等;也可以由其它模型提供,如L1正則化線性模型的回歸系數(shù)、樹模型的特征重要性等。二、入選特征個(gè)數(shù)并非越多越好。以邏輯回歸_6m和XGBoost_6m為基學(xué)習(xí)器時(shí),隨著入選特征數(shù)的增加,模型的AUC先上升后下降;對(duì)于我們的70個(gè)特征而言,入選特征數(shù)在50左右效果最好。以XGBoost_72m為基學(xué)習(xí)器時(shí),隨著入選特征數(shù)的增加,模型的AUC先上升后持平。以基于F值+FPR方法對(duì)邏輯回歸_6m進(jìn)行特征選擇為例,統(tǒng)計(jì)入選特征的頻次,發(fā)現(xiàn)入選頻次高的特征以價(jià)量類因子為主。三、總體來看,特征選擇方法對(duì)基學(xué)習(xí)器的AUC和選股策略回測表現(xiàn)有一定提升,不同方法的提升效果不盡相同,和基學(xué)習(xí)器密切相關(guān)。在AUC方面,基于F值+FPR、基于F值+FDR方法對(duì)邏輯回歸_6m和XGBoost_6m基學(xué)習(xí)器的改進(jìn)明顯,各種特征選擇方法對(duì)XGBoost_72m基學(xué)習(xí)器的AUC沒有明顯的提升。我們以全A股為股票池、分別以滬深300和中證500為基準(zhǔn),利用三個(gè)基學(xué)習(xí)器及其改進(jìn)模型構(gòu)建行業(yè)中性和市值中性的選股策略。對(duì)邏輯回歸_6m基學(xué)習(xí)器,基于F值+K最優(yōu)、基于互信息+K最優(yōu)方法具有明顯的提升效果。對(duì)XGBoost_6m基學(xué)習(xí)器,基于F值+FDR、基于互信息+K最優(yōu)方法分別對(duì)以滬深300、中證500為基準(zhǔn)的選股策略具有明顯的提升效果。對(duì)XGBoost_72m基學(xué)習(xí)器,基于F值+K最優(yōu)、基于互信息+K最優(yōu)、基于F值+FPR、基于F值+FDR四種方法具有明顯的提升效果。四、基于特征選擇構(gòu)建的選股策略對(duì)年化超額收益的提升在3%以內(nèi)。特征選擇本質(zhì)上是一種降維,沒有改變?cè)嫉奶卣骺臻g,也沒有引入新的信息,難以對(duì)基學(xué)習(xí)器的學(xué)習(xí)效果有質(zhì)的提升,更多的是一種“錦上添花”。本文使
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 中國OTTTV行業(yè)市場深度分析及投資戰(zhàn)略研究報(bào)告
- 2025農(nóng)村荒地租賃合同協(xié)議書
- 2025銀行借款的合同范本
- 2025企業(yè)內(nèi)部承包合同范本
- qc小組活動(dòng)總結(jié)中進(jìn)行自我評(píng)價(jià)的內(nèi)容
- 2024年粵教新版九年級(jí)物理上冊(cè)階段測試試卷含答案
- 2到8的乘法口訣
- 造紙廠電力安裝合同模板
- 廣州二手房贈(zèng)送家電合同范本
- 水庫大壩伸縮縫施工合同
- 電氣二次危險(xiǎn)點(diǎn)分析及控制措施
- 初中必背古詩文138首
- 藍(lán)色國家科學(xué)基金4.3杰青優(yōu)青人才科學(xué)基金答辯模板
- DLT 5434-2021 電力建設(shè)工程監(jiān)理規(guī)范表格
- 2024年房屋交接確認(rèn)書
- 拓展低空經(jīng)濟(jì)應(yīng)用場景實(shí)施方案
- 北京市東城區(qū)2023-2024學(xué)年八年級(jí)上學(xué)期期末生物試題【含答案解析】
- 天皰瘡臨床分期與治療方案研究
- 開放系統(tǒng)10861《理工英語(4)》期末機(jī)考真題及答案(第102套)
- 綜合技能訓(xùn)練實(shí)訓(xùn)報(bào)告學(xué)前教育
- 2024年國家能源集團(tuán)招聘筆試參考題庫含答案解析
評(píng)論
0/150
提交評(píng)論