兼談人工智能量化多因子基金的特點_第1頁
兼談人工智能量化多因子基金的特點_第2頁
兼談人工智能量化多因子基金的特點_第3頁
兼談人工智能量化多因子基金的特點_第4頁
兼談人工智能量化多因子基金的特點_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、 HYPERLINK / 解決。 HYPERLINK / 謹(jǐn)請參閱尾頁重要聲明及華泰證券股票和行業(yè)評級標(biāo)準(zhǔn)人工智能與多因子選股模型的結(jié)合人工智能(Artificial Intelligence)本質(zhì)是以數(shù)理模型為核心工具,結(jié)合控制論、認(rèn)知心理學(xué)等其它學(xué)科的研究成果,最終由計算機(jī)系統(tǒng)模擬人類的感知、推理、學(xué)習(xí)、決策等功能。近年來,伴隨著計算機(jī)算力的大幅提升和海量可用數(shù)據(jù)的積累,人工智能技術(shù)經(jīng)歷了突飛 猛進(jìn)的發(fā)展。從圍棋到電子競技再到多人德州撲克,人工智能展現(xiàn)了其在復(fù)雜博弈環(huán)境中的強(qiáng)大自我學(xué)習(xí)能力。人工智能和它借助的機(jī)器學(xué)習(xí)方法也逐漸滲透到人類生活的方方面面。從手寫數(shù)字的自動識別,到電腦手機(jī)上的指

2、紋解鎖功能、語音識別系統(tǒng),再到無人駕駛、智能醫(yī)療、智能投顧等熱門領(lǐng)域,處處都有人工智能的身影。在投資領(lǐng)域,為了論證人工智能的有效性和可行性,自 2017 年 6 月開始華泰金工連續(xù)發(fā)布了 23 篇深度研究報告,并以周報跟蹤的方式,向投資者展示人工智能和機(jī)器學(xué)習(xí)運用于量化投資中各個步驟的細(xì)節(jié)。圖表1: 機(jī)器學(xué)習(xí)與多因子模型的結(jié)合思路資料來源: 如圖表 1 所示,從模型構(gòu)建的角度上來看,機(jī)器學(xué)習(xí)與多因子選股有諸多共通之處,借助機(jī)器學(xué)習(xí)模型,多因子模型可以在以下方面相比于傳統(tǒng)方法論有所突破:機(jī)器學(xué)習(xí)模型相比傳統(tǒng)線性模型在海量數(shù)據(jù)下有更好的性能?;跈C(jī)器學(xué)習(xí)的多因子選股模型能充分使用海量、高維的因子數(shù)

3、據(jù)。大多數(shù)機(jī)器學(xué)習(xí)模型都具有非線性擬合能力。基于機(jī)器學(xué)習(xí)的多因子選股模型能利用非線性因子。接下來,我們將介紹常用的機(jī)器學(xué)習(xí)模型。常用的機(jī)器學(xué)習(xí)模型簡介XGBoost 簡介XGBoost 是梯度提升算法的一種高效實現(xiàn),原理類似 GBDT。傳統(tǒng)的 GBDT 通過串行集成多個 CART 決策樹來形成強(qiáng)學(xué)習(xí)器,XGBoost 則在GBDT 的基礎(chǔ)上進(jìn)行了多方面優(yōu)化。相比傳統(tǒng)的線性模型,XGBoost 由于使用決策樹為基學(xué)習(xí)器,具有非線性擬合能力。決策樹是一種非線性的分類器,如圖表 2 的異或問題(橫縱坐標(biāo) X1、X2 相同則分類為 1,不同則分類為 0),該問題在邏輯回歸、線性核的支持向量機(jī)下無解,但

4、是使用決策樹可以輕松圖表2: 決策樹解決非線性分類中的異或問題資料來源: HYPERLINK / 謹(jǐn)請參閱尾頁重要聲明及華泰證券股票和行業(yè)評級標(biāo)準(zhǔn)相較于傳統(tǒng)的 GBDT 算法,XGBoost 主要在損失函數(shù)、正則化、切分點查找和并行化設(shè)計這些方面進(jìn)行了改進(jìn),使得其計算上比常見工具包快 5 倍以上。圖表 3 顯示了 XGBoost 算法的流程,它與 GBDT 在數(shù)學(xué)上的主要不同之處在于訓(xùn)練每個弱學(xué)習(xí)器時的目標(biāo)函數(shù)。圖表3: XGBoost 算法流程示意資料來源:XGBoost, 由圖表 3 可知 XGBoost 算法的基本步驟與 GBDT 類似,下面主要闡述 XGBoost 的獨特之處。在損失函

5、數(shù)的設(shè)計上,XGBoost 加入了正則項,用以控制模型復(fù)雜度,并且對損失函數(shù)做了二階泰勒展開來近似。而傳統(tǒng)的 GBDT 模型沒有正則項,并且在優(yōu)化時只用到了一階導(dǎo)數(shù)的信息。正則項的加入使得 XGBoost 模型有著較低的方差,不容易發(fā)生過擬合。在計算信息增益選取最佳切分點時,XGBoost 不是使用傳統(tǒng)的 Gini 增益,而是利用圖表 4 的公式來做評價指標(biāo)。值得注意的是引入分割不一定會使目標(biāo)函數(shù)減小,因為目標(biāo)函數(shù)中還有對引入新葉子的懲罰項,而優(yōu)化這個目標(biāo)對應(yīng)了樹的剪枝,當(dāng)引入分割帶來的增益小于一個閾值時,可以剪掉這個分割。圖表4: 信息增益的計算公式資料來源:XGBoost, HYPERLI

6、NK / 謹(jǐn)請參閱尾頁重要聲明及華泰證券股票和行業(yè)評級標(biāo)準(zhǔn)XGBoost 另外一個獨特之處在于其處理缺失值的方法。模型將缺失值當(dāng)作稀疏矩陣來處理,在尋找切分點的過程中,模型只對該列特征值當(dāng)中非缺失的值進(jìn)行遍歷,通過這個技巧來減少為稀疏特征尋找切分點的時間開銷。在實現(xiàn)上,模型會分別處理將缺失的特征值樣本分配到左葉子結(jié)點和右葉子結(jié)點的兩種情形,計算增益后選擇增益大的方向進(jìn)行分裂。XGBoost 還借鑒了隨機(jī)森林的做法,支持列采樣,即在選取切分點時只在部分特征中進(jìn)行篩選,這樣不僅能降低過擬合,還能減少計算時間。XGBoost 還支持并行,但是 XGBoost 的并行不是指能夠并行地訓(xùn)練決策樹,而是在

7、處理特征的層面上實現(xiàn)并行。我們知道,訓(xùn)練決策樹最耗時的一步就是對各個特征的值進(jìn)行排序(為了確定最佳切分點)并計算信息增益,XGBoost 對于各個特征的信息增益計算就可以在多線程中進(jìn)行。Stacking 簡介Stacking 是一種常見的集成學(xué)習(xí)框架。一般來說,Stacking 將訓(xùn)練一個多層(一般是兩層,本文中默認(rèn)兩層)的模型結(jié)構(gòu),第一層(也叫學(xué)習(xí)層)包含 n 個不同的模型,將得到的預(yù)測結(jié)果合并為新的特征集,并作為下一層模型的輸入,由下一層模型再次根據(jù)對應(yīng)的數(shù)據(jù)標(biāo)簽進(jìn)行訓(xùn)練,得到一個完整的框架。簡單的示意圖如下:圖表5: Stacking 集成學(xué)習(xí)流程示意圖資料來源: 通常情況下,Stack

8、ing 中第一層的模型會使用擬合度高的模型,以追求對訓(xùn)練數(shù)據(jù)的充分學(xué)習(xí)(如 XGBoost、神經(jīng)網(wǎng)絡(luò)、SVM 等)。由于不同的模型在原理上和訓(xùn)練集上有所差別, 第一層模型可以認(rèn)為是從原始數(shù)據(jù)中自動提取有效特征的過程。第一層模型中,由于使用了復(fù)雜的非線性變化提取特征,更易產(chǎn)生過擬合的情況。為了降低過擬合的風(fēng)險,第二層模型傾向于使用簡單的模型,例如邏輯回歸、Lasso 回歸等廣義線性模型。從以上分析可以看出,Stacking 能夠成功的關(guān)鍵在于第一層模型能針對原始訓(xùn)練數(shù)據(jù)得出有差異性(相關(guān)性低)且預(yù)測能力好的輸出值,這樣通過第二層模型進(jìn)一步學(xué)習(xí)后,能夠在多個第一層模型中取長補(bǔ)短,提升預(yù)測的準(zhǔn)確度和

9、穩(wěn)定性。 HYPERLINK / 謹(jǐn)請參閱尾頁重要聲明及華泰證券股票和行業(yè)評級標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)選股模型測試流程和測試結(jié)果測試流程圖表6: 機(jī)器學(xué)習(xí)選股模型構(gòu)建示意圖數(shù)據(jù)獲取特征和標(biāo)簽提取特征預(yù)處理訓(xùn)練集和交叉驗證集合成模型評價樣本外測試,組交叉驗證樣本內(nèi)訓(xùn)練合優(yōu)化構(gòu)建組合調(diào)整參數(shù)資料來源: 機(jī)器學(xué)習(xí)選股模型的構(gòu)建方法包含下列步驟:數(shù)據(jù)獲?。汗善背兀喝?A 股。剔除 ST 股票,剔除每個截面期下一交易日停牌的股票,剔除上市 3 個月內(nèi)的股票,每只股票視作一個樣本。回測區(qū)間:2011 年 1 月 31 日至 2019 年 9 月 30 日,月度滾動回測。特征和標(biāo)簽提?。好總€自然月的最后一個交易日,計算

10、圖表 7 中 231 個因子暴露度, 作為樣本的原始特征;計算下個自然月的個股超額收益和信息比率(以中證 500 指數(shù)為基準(zhǔn)),作為樣本的標(biāo)簽。特征預(yù)處理:中位數(shù)去極值:設(shè)第 T 期某因子在所有個股上的暴露度序列為,為該序列中位數(shù),1為序列| |的中位數(shù),則將序列中所有大于 + 51的數(shù)重設(shè)為 + 51,將序列中所有小于 51的數(shù)重設(shè)為 51;行業(yè)市值中性化:將填充缺失值后的因子暴露度對行業(yè)啞變量和取對數(shù)后的市值做線性回歸,取殘差作為新的因子暴露度。標(biāo)準(zhǔn)化:將中性化處理后的因子暴露度序列減去其現(xiàn)在的均值、除以其標(biāo)準(zhǔn)差, 得到一個新的近似服從N(0,1)分布的序列。訓(xùn)練集和交叉驗證集數(shù)據(jù)處理:直

11、接將樣本合并成為樣本內(nèi)數(shù)據(jù),按 90%和 10%的比例劃分訓(xùn)練集和交叉驗證集。樣本內(nèi)訓(xùn)練:訓(xùn)練兩個模型:XGBoost,模型輸入為 231 個因子,訓(xùn)練目標(biāo)為下個自然月的個股超額收益(以中證 500 指數(shù)為基準(zhǔn))。Stacking:包含兩個 XGBoost 基模型,兩個模型輸入都為 231 個因子,訓(xùn)練目標(biāo)分別為下個自然月的個股超額收益和信息比率(以中證 500 指數(shù)為基準(zhǔn)),再將兩個基模型集成。交叉驗證調(diào)整參數(shù):模型訓(xùn)練完成后,使用模型對交叉驗證集進(jìn)行預(yù)測。選取交叉驗證集 MSE 最小的一組參數(shù)作為模型的最優(yōu)參數(shù)。樣本外測試,組合優(yōu)化構(gòu)建組合:確定最優(yōu)參數(shù)后,以 T 月月末截面期所有樣本預(yù)處

12、理后的特征作為模型的輸入,得到每個樣本的預(yù)測值(),將預(yù)測值視作合成后的因子。然后使用組合優(yōu)化模型得到 T 月月末截面期的股票權(quán)重。進(jìn)行組合優(yōu)化時,優(yōu)化目標(biāo)為最大化預(yù)期收益,約束條件為相對于中證 500 控制行業(yè)市值中性,個股主動權(quán)重偏離上限為 1%。模型評價:構(gòu)建選股組合評價模型。 HYPERLINK / 資料來源:Wind,朝陽 HYPERLINK / 謹(jǐn)請參閱尾頁重要聲明及華泰證券股票和行業(yè)評級標(biāo)準(zhǔn)圖表7: 選股模型中涉及的部分因子及其描述大類因子示例因子因子數(shù)目估值EP、BP、SP、DP 等8成長營業(yè)收入同比增長率、凈利潤同比增長率、經(jīng)營性現(xiàn)金流同比增長率、ROE 同比增長率4財務(wù)質(zhì)量

13、ROE、ROA、毛利率等92杠桿資產(chǎn)負(fù)債率、現(xiàn)金比率、流動比率等6市值對數(shù)總市值1動量反轉(zhuǎn)HAlpha(個股 60 個月收益與上證綜指回歸的截距項) return_Nd(個股最近 N 日收益率)wgt_return_Nd(個股最近 N 日內(nèi)用每日換手率乘以每日收益率求算術(shù)平均值) exp_wgt_return_Nd(個股最近 N 日內(nèi)用每日換手率乘以函數(shù) exp(-x_i/N/4)再乘以每日收益率求算術(shù)平均值,x_i 為該日距離截面日的交易日的個數(shù)) N=5,10,20,60,120,24019波動率std_FF3factor_Nd( 特 質(zhì) 波 動 率 ) std_Nd(個股最近 N 日的日

14、收益率序列標(biāo)準(zhǔn)差) N=5,10,20,60,120,24012換手率turn_Nd(個股最近 N 日內(nèi)日均換手率)bias_turn_Nd(個股最近 N 日內(nèi)日均換手率除以最近 2 年內(nèi)日均換手率)N=5,10,20,60,120,24012股價股價取對數(shù)1betaBeta(個股 60 個月收益與上證綜指回歸的 beta)1一致預(yù)期Wind 一致預(yù)期評級、目標(biāo)價。朝陽永續(xù)一致預(yù)期 EP、一致預(yù)期BP、一致預(yù)期 ROE、一致預(yù)期 EPS 等18股東戶均持股比例的同比增長率1傳統(tǒng)技術(shù)因子MACD、RSI、PSY、BIAS 等6101 技術(shù)因子部分因子直接來自于 worldquant101 因子;

15、部分因子通過遺傳規(guī)劃挖掘而得,其中包含適合用于機(jī)器學(xué)習(xí)的非線性因子47資料來源:Wind,朝陽永續(xù), 測試結(jié)果: XGBoost 和 Stacking 均有優(yōu)秀的選股能力圖表 8圖表 10 展示了機(jī)器學(xué)習(xí)選股模型的測試結(jié)果,回測區(qū)間為 2011 年 1 月 31 日至2019 年 9 月 30 日,月頻調(diào)倉,交易成本為雙邊千分之四。可以看出,機(jī)器學(xué)習(xí)構(gòu)建的選股模型長期來看相對中證 500 具有穩(wěn)定的超額收益,Stacking 由于進(jìn)行了模型集成,相比XGBoost 表現(xiàn)更好。圖表8: 機(jī)器學(xué)習(xí)選股模型回測凈值(全 A 選股,中證 500 行業(yè)市值中性)6 XGBoost凈值Stacking凈值

16、5432102011-022012-022013-022014-022015-022016-022017-022018-022019-02永續(xù), 圖表9: 機(jī)器學(xué)習(xí)選股模型回測超額收益(全 A 選股,中證 500 行業(yè)市值中性)XGBoost超額收益回撤(右軸)Stacking超額收益回撤(右軸) XGBoost累積超額收益(左軸) Stacking累積超額收(左軸)350%5%250%3%150%1%50%2011-01-50%2016-012017-012018-012019-01-1% HYPERLINK / 謹(jǐn)請參閱尾頁重要聲明及華泰證券股票和行業(yè)評級標(biāo)準(zhǔn)2012-012013-012

17、014-012015-01-150%-3%-250%-350%-5%資料來源:Wind,朝陽永續(xù), 圖表10: 機(jī)器學(xué)習(xí)選股模型回測績效(全 A 選股,中證 500 行業(yè)市值中性)模型名稱年化收益率年化波動率夏普比率最大回撤年化超額收益率年化跟蹤誤差超額收益最大回撤信息比率Calmar比率相對基準(zhǔn)月勝率月均雙邊換手率XGBoost19.05%25.47%0.7541.42%17.17%4.80%3.88%3.574.4278.85%115.82%Stacking20.27%25.48%0.8042.26%18.36%4.96%4.74%3.703.8783.65%116.17%中證 5001.

18、14%26.76%0.0465.20%資料來源:Wind,朝陽永續(xù), HYPERLINK / 謹(jǐn)請參閱尾頁重要聲明及華泰證券股票和行業(yè)評級標(biāo)準(zhǔn)信達(dá)澳銀量化多因子混合基金的特點:AI+量化投資基金簡介基本信息信達(dá)澳銀量化多因子混合基金(LOF)是一種上市型開放式基金,產(chǎn)品主要成分為股票, 占基金資產(chǎn)的 60%-95%,選股主要利用的是量化多因子模型。圖表 11 介紹了信達(dá)澳銀量化多因子混合型證券投資基金(LOF)的產(chǎn)品要素:圖表11: 信達(dá)澳銀量化多因子混合型證券投資基金(LOF)產(chǎn)品要素產(chǎn)品信達(dá)澳銀量化多因子混合型證券投資基金(LOF)產(chǎn)品代碼166107.OF投資比例本基金的投資組合比例為股

19、票資產(chǎn)占基金資產(chǎn)的比例為 60%-95%;每個交易日日終在扣除股指期貨合約需繳納的交易保證金后,現(xiàn)金和到期日在一年以內(nèi)的政府債券的投資比例不低于基金資產(chǎn)凈值的 5%;其中現(xiàn)金不包括結(jié)算備付金 存出保證金、應(yīng)收申購款等。產(chǎn)品特點量化多因子模型利用長期積累并最新擴(kuò)展的大數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)庫,利用 AI(人工智能)技術(shù)科學(xué)地考慮了大量的各類信息,包括來自市場各類投資者、公司各類報表、分析師預(yù)測等等多方的信息, 使用決策樹、隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)為主的深度學(xué)習(xí)等非線性機(jī)器學(xué)習(xí)方法來選擇非線性因子,構(gòu)建具有線性因子和非線性因子的綜合量化多因子模型。比較基準(zhǔn)中證 500 指數(shù)收益率*95%+銀行活期存款利率(

20、稅后)*5%托管行中國銀行股份有限公司基金經(jīng)理王詠輝資料來源:信達(dá)澳銀基金, 產(chǎn)品費用信息圖表 12 介紹了信達(dá)澳銀量化多因子混合型證券投資基金(LOF)的費用信息:圖表12: 產(chǎn)品費用信息費率結(jié)構(gòu)認(rèn)購費認(rèn)購金額(M)A 類認(rèn)購費率C 類認(rèn)購費率M50 萬元1.2%050 萬元M200 萬元0.8%0200 萬元M500 萬元0.6%0M500 萬元每筆 1000 元0申購費申購金額(M)A 類申購費率C 類申購費率M50 萬元1.5%050 萬元M200 萬元1.0%0200 萬元M500 萬元0.8%0M500 萬元每筆 1000 元0贖回費份額持有時間(T)A 類贖回費率C 類贖回費率T

21、7 日1.5%1.5%7 日T1 年0.5%01 年M基金份額凈值(申購日)+申購費用+賣出傭金時,投資者可通過選擇“場內(nèi)申購”基金份額后(T+2 個工作日)再“場內(nèi)賣出”份額實現(xiàn)套利。當(dāng)市場價格基金份額凈值(贖回當(dāng)日)-贖回費用-買入出傭金時,投資者可通過“場 內(nèi)買入” HYPERLINK / 謹(jǐn)請參閱尾頁重要聲明及華泰證券股票和行業(yè)評級標(biāo)準(zhǔn)基金份額后(T+1 個工作日)再“場內(nèi)贖回”份額實現(xiàn)套利。交易方便:LOF 基金可以讓投資者像買賣股票或封閉式基金一樣在二級市場進(jìn)行交易,方便投資者更快的把握行業(yè)輪動與市場擇時。參與科創(chuàng)板投資:相比較普通投資者嚴(yán)格的科創(chuàng)板股票投資準(zhǔn)入標(biāo)準(zhǔn),LOF 基金可

22、以方便投資者更加積極的參與到科創(chuàng)板投資機(jī)會。信達(dá)澳銀基金管理團(tuán)隊介紹信達(dá)澳銀基金于 2006 年 6 月 5 日成立,是國內(nèi)首家由國有資產(chǎn)管理公司控股,也是澳洲唯一在中國合資設(shè)立的基金管理有限公司。截止 2018 年 12 月 31 日,公司共管理 21 只公募產(chǎn)品,產(chǎn)品覆蓋股票、指數(shù)、量化、債券、貨幣。資產(chǎn)管理總規(guī)模 274.88 億元,其中公募基金總規(guī)模 142.69 億元,專戶總規(guī)模 132.19 億元。信達(dá)澳銀的公募投資研究團(tuán)隊共有 34 人,共擁有基金經(jīng)理 10 人。截至 2019 年 9 月 30 日,信達(dá)澳銀基金旗下權(quán)益類基金以今年前三季度 42.23%的絕對收益率,位列同類排名

23、6/126;以最近三年 28.11%的絕對收益率,位列同類排名 11/99。另外,信達(dá)澳銀的智能量化團(tuán)隊發(fā)展迅速,團(tuán)隊首創(chuàng)了量化 LOF+科創(chuàng)網(wǎng)下申購的投資策略,采用主動量化模型在滬深 A 股以及科創(chuàng)板股票中擇優(yōu)投資,并在不斷推廣量化多因子 LOF、量化先鋒 LOF、量化科技龍頭 LOF 和量化新經(jīng)濟(jì) LOF 等產(chǎn)品。信達(dá)澳銀量化多因子混合基金(LOF)擬任基金經(jīng)理為王詠輝先生。王詠輝先生是英國牛 津大學(xué)工程科學(xué)本科,牛津大學(xué)計算機(jī)科學(xué)碩士,現(xiàn)擔(dān)任信達(dá)澳銀基金副總經(jīng)理兼權(quán)益投資總部總監(jiān)、智能量化與資產(chǎn)配置總部總監(jiān),21 年證券基金從業(yè)經(jīng)驗。自 1998 起曾任職于倫敦摩根大通投資基金管理公司、HSBC、BarclaysGlobalInvestor、BarclaysCap

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論