版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、研究導(dǎo)讀Mark Minervini 在股票魔法師中提出過一個(gè)觀點(diǎn):明星股票的背后大多數(shù)都存在著某種 “催化劑”事件,這些催化劑事件可能是連續(xù)靚眼的業(yè)績、某款熱銷產(chǎn)品的出現(xiàn),可能是新合同的簽訂,甚至可能是新CEO 的任職。這些“催化劑”事件使得那些默默無聞、不為人知的股票開始得到機(jī)構(gòu)投資者的關(guān)注,從而有機(jī)會(huì)向明星股票邁進(jìn)。本文受上述觀點(diǎn)啟發(fā),希望能找到對(duì)股價(jià)正向影響較大的“催化劑”,那么從量化的視角來看,有沒有某種方法能對(duì)類似的“催化劑”事件進(jìn)行監(jiān)測?分析師盈利預(yù)測及評(píng)級(jí)調(diào)整或是一條可能的路徑。本文是華泰金工人工智能系列文本挖掘主題的第五篇報(bào)告,我們繼續(xù)將視野聚焦于分析師研報(bào)文本,探究分析師盈
2、利預(yù)測及評(píng)級(jí)調(diào)整這一場景下研報(bào)文本中的情感識(shí)別。本文的研究動(dòng)機(jī)如上所述,我們希望找到對(duì)股價(jià)具有正向影響的“催化劑”事件,并將其數(shù)量化。由于“催化劑”沒有某種特定的模式,不同的行業(yè)“催化劑”事件可能千差萬別,如果從遍歷的思路出發(fā)很難對(duì)所有事件進(jìn)行系統(tǒng)監(jiān)測?,F(xiàn)在我們嘗試從另一個(gè)角度出發(fā)進(jìn)行研究。由于行業(yè)研究員對(duì)個(gè)股進(jìn)行覆蓋,對(duì)個(gè)股的跟蹤及時(shí)性更強(qiáng),當(dāng)個(gè)股出現(xiàn)了影響較大的“催化劑”事件以后,分析師大多會(huì)及時(shí)撰寫點(diǎn)評(píng)報(bào)告,并可能對(duì)盈利預(yù)測及評(píng)級(jí)進(jìn)行調(diào)整。這為我們提供了監(jiān)測“催化劑”事件的間接思路,因此我們可以將目標(biāo)轉(zhuǎn)換為對(duì)分析師盈利預(yù)測及評(píng)級(jí)調(diào)整的研報(bào)文本進(jìn)行情感識(shí)別,進(jìn)而找出正向催化較強(qiáng)的個(gè)股。參考
3、前期報(bào)告人工智能 51:文本PEAD 選股策略(20220107)中對(duì)分析師業(yè)績點(diǎn)評(píng)研報(bào)文本的研究思路,我們對(duì)盈利預(yù)測及評(píng)級(jí)調(diào)整的研報(bào)文本使用類似的方法論進(jìn)行挖掘。令研報(bào)文本用詞的詞頻矩陣作為輸入特征,分析師研報(bào)發(fā)布前后兩天的個(gè)股超額收益作為預(yù)測標(biāo)簽,使用機(jī)器學(xué)習(xí)模型進(jìn)行交叉驗(yàn)證訓(xùn)練,在樣本外根據(jù)模型預(yù)測得分構(gòu)建 forecast_adj_txt 因子,該因子十層嚴(yán)格單調(diào),多頭端收益顯著,且與傳統(tǒng)的 forecast_adj因子相關(guān)性較低。在正文中我們花了比較多的篇幅來討論整個(gè)模型構(gòu)建過程中的參數(shù)敏感性問題,核心結(jié)論是:文本因子的構(gòu)建基本不存在人為過度調(diào)參導(dǎo)致的過擬合問題,模型參數(shù)穩(wěn)健性較高,
4、分析師盈利預(yù)測調(diào)整研報(bào)文本的情感識(shí)別是信噪比較低且規(guī)律不易隨時(shí)間改變的場景。在測試過程中,我們主要討論了以下參數(shù):訓(xùn)練使用的非線性模型、研報(bào)標(biāo)題和摘要采用的詞數(shù)、樣本內(nèi)窗口長度、樣本標(biāo)簽的時(shí)間區(qū)間、標(biāo)簽分類數(shù)量等。圖表1: FADT 選股組合回測凈值圖表2: FADT 選股組合相對(duì)中證 500 超額凈值140120100806040200最大回撤(右軸)增強(qiáng)組合回測凈值0%5045-20%4035-40%3025-60%2015-80%105202020212022-100%0超額最大回撤(右軸)相對(duì)中證500凈值0%-10%-20%-30%-40%2009201020112012201320
5、14201520162017201820192022-50%2009201020112012201320142015201620172018201920202021資料來源:,朝陽永續(xù),華泰研究,回測期:20090123-20220630資料來源:,朝陽永續(xù),華泰研究,回測期:20090123 -20220630我們從主動(dòng)量化選股的角度出發(fā)對(duì)forecast_adj_txt 多頭第一層的股票池進(jìn)行精選。首先考慮股票的 ROE、凈利潤、營業(yè)收入、經(jīng)營活動(dòng)現(xiàn)金流等考察一只股票首先會(huì)關(guān)注的基本面指標(biāo);其次我們考慮股票的反轉(zhuǎn)、換手、尾盤成交占比等技術(shù)因素;最后我們還將市值風(fēng)格納入考慮。上述要素以因子的
6、形式呈現(xiàn),每月末將上述因子進(jìn)行方向調(diào)整后等權(quán)合成,根據(jù)合成得分選擇排名靠前的 25 只股票等權(quán)持有,組合回測期 20090123-20220630 內(nèi)年化收益 44.13%,夏普比率 1.48,年化雙邊換手約 16 倍。我們將該組合命名為FADT 組合(Forecast-Adjust-Text Portfolio)。最后我們對(duì)策略容量以及模型改進(jìn)進(jìn)行更多思考。策略容量層面,我們提出三點(diǎn)可能提升策略容量的思路:1)降低調(diào)倉頻率,增加調(diào)倉時(shí)間,數(shù)據(jù)實(shí)證表明月頻調(diào)倉降低為雙月頻調(diào)倉,F(xiàn)ADT 組合仍然表現(xiàn)優(yōu)秀;2)增加 FADT 組合的持股數(shù)量;3)修改回測框架,提高“資金使用效率”,嚴(yán)格預(yù)設(shè)固定頻
7、率調(diào)倉的方案未必是最優(yōu)解。模型層面,詞語組合的邏輯解釋尚存瑕疵,或許可以嘗試 NLP 中更高階的模型來使得文本的識(shí)別邏輯更為自洽。分析師研報(bào)文本挖掘框架研究回顧在前期報(bào)告人工智能 51:文本PEAD 選股策略(20220107)中,我們提出使用賣方分析師研報(bào)文本對(duì) PEAD 效應(yīng)進(jìn)行刻畫,挖掘業(yè)績被分析師看好的股票。在該模型中,我們使用業(yè)績點(diǎn)評(píng)研報(bào)的標(biāo)題和摘要文本作為特征,使用個(gè)股發(fā)布業(yè)績前后的超額收益作為標(biāo)簽,判斷分析師對(duì)上市公司業(yè)績的情感傾向;構(gòu)建出的 SUE.txt 因子分層效果較為優(yōu)秀,且多頭端收益明顯。模型構(gòu)建示意圖如下所示。圖表3: SUE.txt 因子構(gòu)建示意圖資料來源:華泰研究
8、現(xiàn)在我們面臨如下幾個(gè)問題,這些問題將會(huì)是本文討論的重點(diǎn):前文構(gòu)建的模型邏輯上或存瑕疵,為什么用個(gè)股公告發(fā)布的 T-1T+1 日作為標(biāo)簽?為什么不是研報(bào)發(fā)布日T-1T+1 作為標(biāo)簽?標(biāo)簽時(shí)間區(qū)間的長短有沒有區(qū)別?前文中我們構(gòu)建的SUE.txt 因子僅考慮業(yè)績預(yù)告這一種公告類型,受限于發(fā)布業(yè)績預(yù)告的股票數(shù)量太少,因子覆蓋度較低,一方面難以融入多因子選股體系,另一方面主動(dòng)增強(qiáng)可操作的空間有限;雖然我們可以很自然地將 SUE.txt 的計(jì)算方法推廣到三種公告類型上(推廣的因子回測結(jié)果如下圖表所示),但模型邏輯或多或少仍受質(zhì)疑。分析師研報(bào)的應(yīng)用有沒有某種更自然的方法?能否不止局限于 PEAD 這一種場景
9、?圖表4: 三類公告合并的 SUE.txt 因子分 10 層回測凈值(回測期:20090123-20220630) 分層1分層2分層3分層4分層5分層6分層7分層8分層9分層10181614121086422009-01-232009-11-202010-09-132011-07-142012-05-152013-03-112014-01-072014-11-042015-08-252016-06-232017-04-202018-02-072018-12-062019-10-082020-07-312021-05-312022-03-250資料來源:,朝陽永續(xù),華泰研究圖表5: 三類公告合并
10、的 SUE.txt 因子分 10 層回測超額凈值(基準(zhǔn)中證 500,回測期:20090123-20220630) 分層1分層2分層3分層4分層5分層6分層7分層8分層9分層106543212009-01-232009-11-232010-09-232011-07-232012-05-232013-03-232014-01-232014-11-232015-09-232016-07-232017-05-232018-03-232019-01-232019-11-232020-09-232021-07-232022-05-230資料來源:,朝陽永續(xù),華泰研究圖表6: SUE.txt 因子覆蓋度圖表
11、7: 分層 1 相對(duì)于分層 10 多空對(duì)沖凈值2,5002,0001,5001,0005000因子覆蓋度876543212009-04-302010-02-262010-12-312011-10-312012-08-312013-06-282014-04-302015-02-272015-12-312016-10-312017-08-312018-06-292019-04-302020-02-282020-12-312021-10-292009-01-232009-11-202010-09-132011-07-142012-05-152013-03-112014-01-072014-11-04
12、2015-08-252016-06-232017-04-202018-02-072018-12-062019-10-082020-07-312021-05-312022-03-250分層1相對(duì)分層10凈值資料來源:,朝陽永續(xù),華泰研究資料來源:,朝陽永續(xù),華泰研究100.03%31.16%-23.89%18.81%38.30%39.84%95.60%2.16%0.28%-27.39%圖表8: SUE.txt 因子分層 1 分年度業(yè)績(基準(zhǔn)中證 500,回測期:20090123-20220630)時(shí)間區(qū)間收益率區(qū)間超額收益年化波動(dòng)率最大回撤夏普比率卡瑪比率2009-4.45%29.37%17.4
13、4%3.415.74201018.75%27.16%21.31%1.151.46201118.11%22.64%26.88%-1.05-0.89201216.45%23.76%18.65%0.791.01201315.98%23.45%15.62%1.632.452014-0.26%19.45%12.65%2.053.15201534.81%44.70%45.81%2.142.09201614.64%30.26%23.08%0.070.0920171.18%15.61%13.02%0.020.02201812.28%25.39%28.00%-1.08-0.98201955.79%21.94%2
14、3.84%16.15%2.343.45202053.29%29.82%29.27%15.51%1.823.44202130.00%14.29%20.53%11.61%1.462.5920220630-5.75%9.69%成立以來23.94%14.47%26.92%45.81%0.890.52,朝陽永續(xù),華泰研究其中第三個(gè)問題或許包含前兩個(gè)問題的答案,我們順著上述問題進(jìn)行思考,在本文中進(jìn)行另一種探索:即仍以分析師研報(bào)為數(shù)據(jù)源,但是脫離 PEAD 的場景,我們考慮分析師盈利預(yù)測及評(píng)級(jí)調(diào)整這兩種場景下的文本挖掘。分析師盈利預(yù)測及評(píng)級(jí)調(diào)整本小節(jié)我們對(duì)研究動(dòng)機(jī)進(jìn)行一些補(bǔ)充,討論分析師盈利預(yù)測及評(píng)級(jí)調(diào)整的
15、兩種場景。我們統(tǒng)計(jì)了歷史上分析師盈利預(yù)測及評(píng)級(jí)調(diào)整每月的平均數(shù)量,如下圖表所示。剔除首次覆蓋的樣本以后,可以看到每年的 4/8/10 月份整體分析師盈利預(yù)測及評(píng)級(jí)調(diào)整數(shù)量有明顯上升,主要是因?yàn)閷?duì)應(yīng)月份為財(cái)報(bào)期,上市公司發(fā)布業(yè)績公告比較密集,分析師會(huì)根據(jù)最新公告調(diào)整盈利預(yù)期及評(píng)級(jí)。其余月份的盈利預(yù)測調(diào)整及評(píng)級(jí)數(shù)量保持在較為均衡的水平,這些盈利預(yù)測大部分與財(cái)報(bào)業(yè)績發(fā)布無關(guān)。我們?yōu)槭裁匆獜臉I(yè)績點(diǎn)評(píng)的文本挖掘遷移到分析師盈利預(yù)測調(diào)整&評(píng)級(jí)的文本挖掘上來?本質(zhì)上我們是想找到“點(diǎn)燃”股價(jià)的催化劑事件。這種事件可能是上市公司交出了一份業(yè)績亮眼的財(cái)報(bào),凈利潤大超市場預(yù)期,進(jìn)而得到機(jī)構(gòu)投資者的關(guān)注(PEAD 效
16、應(yīng)也即在這種場景下發(fā)生);也可能是其他催化劑事件,例如公司主營業(yè)務(wù)發(fā)生改變、與政府簽訂補(bǔ)貼協(xié)議、高頻披露的銷售額數(shù)據(jù)亮眼等。挖掘催化劑事件難以用量化的手段遍歷,但是行業(yè)分析師對(duì)各類事件卻有緊密的跟蹤,因此我們采用間接的手段,從分析師盈利預(yù)測調(diào)整及評(píng)級(jí)變化來窺探這些催化劑事件。下面我們展示一些盈利預(yù)測調(diào)整的例子。圖表9: 盈利預(yù)測調(diào)整及評(píng)級(jí)調(diào)整分月份平均數(shù)量統(tǒng)計(jì)8,0006,0004,0002,0000123盈利預(yù)測調(diào)整數(shù)量均值(剔除首蓋及盈利預(yù)測不變的樣本)評(píng)級(jí)數(shù)量均值(剔除首蓋樣本)456789101112 月份資料來源:,朝陽永續(xù),華泰研究業(yè)績公告披露場景當(dāng)上市公司發(fā)布業(yè)績超過市場預(yù)期時(shí),
17、分析師基于最新公布的業(yè)績,容易上調(diào)對(duì)該公司的未來盈利預(yù)測。例如下圖我們截取了 2022Q1 財(cái)報(bào)季杭州銀行這只股票發(fā)布業(yè)績后的華泰分析師點(diǎn)評(píng),由于該公司 1Q22 披露業(yè)績超過分析師預(yù)期,因此分析師在摘要給出了盈利預(yù)測的調(diào)整。圖表10: 業(yè)績公告披露場景下的盈利預(yù)測調(diào)整股票代碼股票名稱預(yù)測年度本次預(yù)測時(shí)間上次預(yù)測時(shí)間本次預(yù)測凈利潤 上次預(yù)測凈利潤本次預(yù)測 EPS上次預(yù)測 EPS600926.SH杭州銀行20222022-04-252022-04-161158100(萬元) 1121800(萬元)1.95(元)1.89(元)標(biāo)題杭州銀行:利潤增長超預(yù)期,資產(chǎn)質(zhì)量改善摘要盈利預(yù)測:1-3 月歸母凈
18、利潤、營收、PPOP 同比+31.4%、+15.7%、13.9%,較 2021 年+1.6pct、-2.6pct、-3.1pct,利潤增速超過我們此前預(yù)期的 25%。主要亮點(diǎn)為規(guī)模保持高增、非息收入亮眼、資產(chǎn)質(zhì)量優(yōu)化。我們預(yù)測 2022-24 年 EPS1.95/2.29/2.68 元(前次 1.89/2.22/2.59 元),22 年 BVPS 預(yù)測值 13.68 元,對(duì)應(yīng) PB1.08 倍。可比公司 22 年 一致預(yù)測 PB 均值 0.87 倍,公司高成長性特征顯著,資產(chǎn)質(zhì)量優(yōu)異,應(yīng)享受一定估值溢價(jià),我們給予 22 年目標(biāo) PB1.35 倍,目標(biāo)價(jià)由 18.39 元上調(diào)至 18.47 元,
19、維持“增持”評(píng)級(jí)。規(guī)模維持高增,息差表現(xiàn)承壓:3 月末總資產(chǎn)、貸款、存款同比增速分別為+18.6%、+21.4%、+18.3%,較 21 年末-0.3pct、-0.3pct、+2.2pct。Q1 新增對(duì)公貸款(含票據(jù))占 86.1%,公司持續(xù)加大對(duì)實(shí)體經(jīng)濟(jì)、重點(diǎn)領(lǐng)域的信貸投放力度,Q1 制造業(yè)貸款同比+20.7%;涉農(nóng)貸款同比+27.61%。我們測算Q1 凈息差較 2021 年下降 12bp 至 1.75%,主要由生息資產(chǎn)端定價(jià)下行拖累,LPR 下行引導(dǎo)貸款利率下降,定價(jià)較低的對(duì)公貸款開門紅集中投放也拉低了平均資產(chǎn)定價(jià)水平。資產(chǎn)質(zhì)量明顯改善,信用成本下行:3 月末不良貸款率、撥備覆蓋率分別為
20、0.82%、580%,較 12 月末-4bp、+12pct,不良率持續(xù)改善,撥備覆蓋率居上市銀行第一(以各家銀行最新一期披露的撥備覆蓋率比較)。22Q1 年化信用成本為 1.98%,同比-0.30pct,22Q1 不良生成率為 1.15%,同比、環(huán)比分別+0.89pct、-0.04pct,新生成不良保持在較低水平,信用成本下行為利潤釋放提供充足空間資料來源:朝陽永續(xù),華泰研究非業(yè)績公告披露場景在非業(yè)績期,分析師也可能因?yàn)槠渌呋录险{(diào)盈利預(yù)期,例如公司主營業(yè)務(wù)發(fā)生改變、與政府簽訂補(bǔ)貼協(xié)議、高頻披露的銷售額數(shù)據(jù)亮眼等;這些事件同樣有可能吸引機(jī)構(gòu)投資者的關(guān)注。下面我們展示了幾組非業(yè)績公布場景下的
21、分析師盈利預(yù)測調(diào)整的例子。圖表11: 經(jīng)營事件披露帶來的盈利預(yù)測調(diào)整股票代碼股票名稱預(yù)測年度本次預(yù)測時(shí)間上次預(yù)測時(shí)間本次預(yù)測凈利潤上次預(yù)測凈利潤本次預(yù)測 EPS上次預(yù)測 EPS300450.SZ先導(dǎo)智能20222021-06-022021-04-25230200(萬元)223100(萬元)2.54(元)2.46(元)標(biāo)題先導(dǎo)智能:訂單創(chuàng)新高,高端產(chǎn)能稀缺性凸顯摘要盈利預(yù)測:公司 5 月 31 日晚發(fā)布訂單公告,21 年以來合計(jì)中標(biāo)寧德時(shí)代(CATL)訂單共計(jì) 45.47 億元(不含稅),占公司 20 年?duì)I收的 77.62%。在各國新能源車扶持政策刺激下,電池廠擴(kuò)產(chǎn)規(guī)模加大、節(jié)奏加快,我們認(rèn)為,
22、公司有望通過 1)攜手核心客戶共同降本;2)強(qiáng)化鋰電設(shè)備產(chǎn)品優(yōu)勢;3)各業(yè)務(wù)線相互借鑒協(xié)同發(fā)展加強(qiáng)其非標(biāo)設(shè)備龍頭優(yōu)勢。預(yù)計(jì) 21-23 年 EPS1.78/2.54/3.06(前值 1.78/2.46/2.91)元;快馬加鞭的 TWh 時(shí)代,擁有快速技術(shù)迭代與穩(wěn)定供應(yīng)能力的高端設(shè)備產(chǎn)能稀缺性不斷提升,上調(diào)至買入評(píng)級(jí)。產(chǎn)能端:規(guī)?;瘮U(kuò)產(chǎn)助力公司降本增效,泰坦新動(dòng)力經(jīng)營情況或持續(xù)好轉(zhuǎn):本次披露的 45.47 億元訂單占公司 20 年?duì)I收的 77.62%,我們認(rèn)為電池廠擴(kuò)產(chǎn)規(guī)?;ㄍ吞?hào)產(chǎn)品增多)有利于提升標(biāo)準(zhǔn)化構(gòu)件占比,公司設(shè)備毛利率有望回升。據(jù)定增募資說明書(2 月 26 日),由于 17-19
23、 年的業(yè)績承諾期中對(duì)后段設(shè)備新技術(shù)與固定資產(chǎn)投資較低,以及租賃場地生產(chǎn)、外協(xié)加工等方式造成的成本與費(fèi)用提高, 泰坦凈利率下滑, 19 年凈利率 22.7%/yoy-8.26pct;疊加內(nèi)部調(diào)整、行業(yè)競爭和疫情影響,導(dǎo)致 20 年泰坦虧損。動(dòng)車?yán)顺敝杏唵蝿?chuàng)新高,快馬加鞭的 TWh 時(shí)代,上調(diào)買入評(píng)級(jí):各國電動(dòng)車支持政策頻出,產(chǎn)業(yè)鏈擴(kuò)產(chǎn)加快邁向 TWh 時(shí)代,公司訂單屢創(chuàng)新高;公司 21Q1 合同負(fù)債 26.57 億元/QoQ+39.5%,我們預(yù)計(jì)公司訂單有望保持快速增長,21-23 年歸母凈利 16.1/23.0/27.8(前值 16.1/22.3/26.5)億元,對(duì)應(yīng) PE53/37/31x。
24、公司 21-23 凈利 CAGR 為 53.5%,可比公司 21 年 PEG 均值 1.26x( 一致預(yù)期),公司龍頭優(yōu)勢強(qiáng)化,給予 21 年 1.26xPEG,目標(biāo)價(jià) 119.78 元(前值 109.04 元),高端產(chǎn)能稀缺性提升,買入。資料來源:朝陽永續(xù),華泰研究圖表12: 股權(quán)激勵(lì)帶來的盈利預(yù)測調(diào)整股票代碼股票名稱預(yù)測年度本次預(yù)測時(shí)間上次預(yù)測時(shí)間本次預(yù)測凈利潤上次預(yù)測凈利潤本次預(yù)測 EPS上次預(yù)測 EPS300866.SZ安克創(chuàng)新20232022-06-232022-05-09159300(萬元)159000(萬元)3.92(元)3.92(元)標(biāo)題 安克創(chuàng)新:擬推股權(quán)激勵(lì)計(jì)劃,綁定核心人
25、才摘要 盈利預(yù)測:6 月 21 日,公司發(fā)布 22 年限制性股票激勵(lì)計(jì)劃草案,擬面向公司董事、高管、核心技術(shù)及業(yè)務(wù)人員授予股票數(shù)量 519 萬股,首次授予價(jià)格為 40 元/股。本次股權(quán)激勵(lì)對(duì)象合計(jì) 426 人,其中核心技術(shù)及業(yè)務(wù)人員為 423 人,授予股票占比達(dá) 78.8%。首次授予業(yè)績考核目標(biāo):以 2021 年?duì)I業(yè)收入為基數(shù),22-24 年收入增速分別不低于 15%/15%/15%。我們認(rèn)為激勵(lì)計(jì)劃考核目標(biāo)設(shè)定溫和,股權(quán)激勵(lì)計(jì)劃推出目的是穩(wěn)定人才隊(duì)伍、激發(fā)骨干活力。我們維持公司 22-24 年歸母凈利預(yù)測 12.7、15.9、19.5 億元,參考可比公司 22 年 1.17xPEG,考慮短期
26、海外市場的不確定性,保守給予公司 22 年 1.0PEG,維持目標(biāo)價(jià) 81.28 元,維持買入評(píng)級(jí)。美國市場需求承壓,但安克布局全球、受影響有限:據(jù)美國商務(wù)部,高房價(jià)、高通脹壓力下,美國零售繼續(xù)承壓,5 月零售總額經(jīng)調(diào)整后環(huán)比下降 0.3%,創(chuàng) 21 年 12 月以來新低;3-5 月,美國電子與家電店銷售額分別同降 3.2%、3.6%、4.4%,降幅持續(xù)擴(kuò)大。但我們認(rèn)為安克布局全球、對(duì)美國市場的單一依賴逐年降低,2021 年北美銷售占比同降 3.2pct 至 50.4%,受北美市場影響有限。資料來源:朝陽永續(xù),華泰研究上述兩個(gè)例子展示了非業(yè)績公布場景下的分析師盈利預(yù)測調(diào)整的例子。第一個(gè)例子是上
27、市公司公告披露訂單數(shù)量創(chuàng)新高,這類數(shù)據(jù)是定期財(cái)報(bào)之外的對(duì)業(yè)績具有較大影響的信息,分析師在該公告披露后上調(diào)了盈利預(yù)測。第二個(gè)例子是安克創(chuàng)新披露股權(quán)激勵(lì)草案,雖然股權(quán)激勵(lì)可能不會(huì)直接對(duì)公司業(yè)績造成影響,但是分析師認(rèn)為股權(quán)激勵(lì)有利于穩(wěn)定人才隊(duì)伍、激發(fā)骨干活力,也會(huì)間接對(duì)該公司經(jīng)營帶來正向影響,因此上調(diào)了盈利預(yù)測。除此以外,類似于白酒批發(fā)價(jià)上行、新藥通過審批等非業(yè)績公告的“催化劑”事件也均會(huì)造成分析師對(duì)盈利預(yù)測進(jìn)行調(diào)整。盈利預(yù)測及評(píng)級(jí)調(diào)整文本建模本小節(jié)我們展示文本建模的方法。由于我們研究的分析師盈利預(yù)測調(diào)整及評(píng)級(jí)通常是跟隨著點(diǎn)評(píng)報(bào)告一起發(fā)出的,因此相比于 SUE.txt 的構(gòu)建,我們可以簡化分析師盈利
28、預(yù)測調(diào)整及評(píng)級(jí)文本因子的構(gòu)建流程,使得整個(gè)流程更為自然。后文我們將基于盈利預(yù)測調(diào)整樣本構(gòu)建出的因子稱為 forecast_adj_txt 因子, 將基于評(píng)級(jí)調(diào)整樣本構(gòu)建出的因子稱為 forecast_score_adj_txt 因子。分詞處理我們將單條分析師盈利預(yù)測及評(píng)級(jí)調(diào)整的研報(bào)視為一條樣本,同樣的我們第一個(gè)步驟是對(duì)研報(bào)文本進(jìn)行分詞處理;在分詞的過程中我們僅保留普通名詞、專有名詞、動(dòng)詞、副動(dòng)詞、形容詞、副詞對(duì)應(yīng)詞性的詞語。圖表13: 分詞示意圖資料來源:華泰研究轉(zhuǎn)化為詞頻矩陣第二步是計(jì)算詞頻矩陣。將每一輪訓(xùn)練的樣本內(nèi)全部樣本進(jìn)行分詞處理以后,我們會(huì)統(tǒng)計(jì)研報(bào)標(biāo)題和摘要出現(xiàn)頻率最高的 200 和
29、 1000 個(gè)詞語(200,1000這組參數(shù)是人為設(shè)定的參數(shù),后文會(huì)對(duì)此進(jìn)行參數(shù)討論),將這 1200 個(gè)詞語作為本輪訓(xùn)練的詞域。圖表14: 詞域生成示意圖資料來源:華泰研究詞域確定好以后,我們將每條樣本映射到詞域中詞語的出現(xiàn)頻率上,生成詞頻向量,計(jì)算出詞頻向量以后,我們使用以下公式計(jì)算log 詞頻,作為我們訓(xùn)練模型的輸入特征。1 = log(0 + 1)其中0為原詞頻向量,1 為處理后的訓(xùn)練特征。預(yù)測目標(biāo)取為研報(bào)發(fā)布前后兩天(關(guān)于前后兩天這個(gè)參數(shù),我們在后文也會(huì)進(jìn)行詳細(xì)討論)個(gè)股相對(duì)于中證 500 的超額收益(不進(jìn)行中性化處理),我們按以下方式將其分為三類后作為樣本的訓(xùn)練標(biāo)簽 Y:上漲(y
30、= 1):較大的正向超額收益,即樣本的超額收益位于整體的前 30;震蕩(y = 0):較低的正向或負(fù)向超額收益,即樣本的超額收益位于整體的前 30-70;下跌(y = -1):較大的負(fù)向超額收益,即樣本的超額收益位于整體的后 30。更為詳細(xì)的分詞處理流程,讀者可以參考華泰金工前期研究人工智能 51:文本 PEAD 選股策略(20220107),處理方法論類似。圖表15: 訓(xùn)練特征和訓(xùn)練標(biāo)簽的生成示意圖資料來源:華泰研究樣本內(nèi)交叉驗(yàn)證,樣本外生成因子值每次滾動(dòng)樣本內(nèi)為過去 12 個(gè)月,樣本外為未來 12 個(gè)月。例如對(duì)于某輪樣本外的首月T 月來說,我們將 T-12 至T-1 月的數(shù)據(jù)作為樣本內(nèi),T
31、 月至 T+11 月的數(shù)據(jù)作為樣本外;下一迭代期則以 T-1 月至 T+11 月的數(shù)據(jù)作為樣本內(nèi),T+12 至T+23 月的數(shù)據(jù)作為樣本外;以此類推。圖表16: 滾動(dòng)訓(xùn)練示意圖資料來源:華泰研究模型在樣本內(nèi)訓(xùn)練完成后,我們在樣本外進(jìn)行測試。forecast_adj_txt 因子生成的頻率為每個(gè)月末,在月末截面期追溯過去一個(gè)季度的全市場分析師盈利預(yù)測調(diào)整樣本,使用訓(xùn)練好的模型進(jìn)行預(yù)測,得到每條樣本在每個(gè)類別上的概率估計(jì)值 (),以此我們計(jì)算其 log-odds值():(),() = 1 ()_ = () ()其中 , , 為三個(gè)類別標(biāo)簽,分別表示上漲、震蕩、下跌。我們計(jì)算其上漲和下跌類別的log
32、-odds 值之差作為文本因子值。數(shù)據(jù)實(shí)證及參數(shù)討論在前期報(bào)告人工智能 51:文本PEAD 選股策略(20220107)中,我們使用前文所述類似的方法論對(duì)上市公司業(yè)績點(diǎn)評(píng)相關(guān)的分析師研報(bào)文本進(jìn)行過挖掘。彼時(shí),讀者對(duì)于模型中的參數(shù)提出了一些討論,因子穩(wěn)健性與否頗受質(zhì)疑;同時(shí)受困于業(yè)績預(yù)告的數(shù)量過少,實(shí)際上增強(qiáng)組合可進(jìn)行操作的空間有限。接下來的數(shù)據(jù)實(shí)證,我們將圍繞上述兩個(gè)問題展開討論:模型參數(shù)是否敏感?是否有人為過度調(diào)參導(dǎo)致的過擬合嫌疑?因子穩(wěn)健性好不好?如何提高因子覆蓋度?如何在因子覆蓋度和多頭收益率之間進(jìn)行平衡?后文提到的所有組合回測及分層回測均為費(fèi)后表現(xiàn),手續(xù)費(fèi)設(shè)置為雙邊千三,每月第一個(gè)交易
33、日按當(dāng)日均價(jià)調(diào)倉,對(duì)停牌股票進(jìn)行權(quán)重調(diào)整,后文不再贅述。對(duì)盈利預(yù)測調(diào)整的樣本,我們會(huì)剔除首蓋樣本及盈利預(yù)測不變的樣本;評(píng)級(jí)僅剔除首蓋樣本。基礎(chǔ)模型實(shí)證作為后續(xù)參數(shù)討論的基礎(chǔ),我們首先給定基準(zhǔn)模型?;鶞?zhǔn)模型的各項(xiàng)參數(shù)選擇如下表所示,對(duì)其中的一些參數(shù)進(jìn)行解釋:樣本內(nèi)窗口長度指的是每輪訓(xùn)練選用多長的時(shí)間區(qū)間作為樣本內(nèi),取值為 12 個(gè)月表示我們選用過去一年的全部盈利預(yù)測調(diào)整樣本作為樣本內(nèi);樣本標(biāo)簽的時(shí)間區(qū)間表示每條樣本中Y 的計(jì)算區(qū)間,T-1T+1 即表示研報(bào)發(fā)布前 1 天至后 1 天。圖表17: 基準(zhǔn)模型參數(shù)選擇參數(shù)項(xiàng)目參數(shù)取值訓(xùn)練使用的非線性模型XGBoost研報(bào)標(biāo)題采用的詞數(shù) 200研報(bào)摘要采
34、用的詞數(shù) 1000樣本內(nèi)窗口長度12 個(gè)月(過去一年)樣本標(biāo)簽的時(shí)間區(qū)間T-1T+1標(biāo)簽分類方式三分類樣本外計(jì)算因子值的回溯區(qū)間3 個(gè)月資料來源:華泰研究樣本外計(jì)算因子值的回溯區(qū)間表示在樣本外每個(gè)月月末構(gòu)建因子值時(shí),選用過去多長時(shí)間區(qū)間內(nèi)的樣本。例如取值為 3 個(gè)月時(shí),月末我們會(huì)追溯過去 3 個(gè)月的全部分析師盈利預(yù)測調(diào)整的樣本,分別計(jì)算出文本得分,最后求均值得到個(gè)股的forecast_adj_txt 因子。圖表18: 基準(zhǔn)模型 forecast_adj_txt 因子分 10 層回測(回測期:20090123-20220630) 分層1分層2分層3分層4分層5分層6分層7分層8分層9分層1018
35、1614121086422009-01-232009-11-202010-09-132011-07-142012-05-152013-03-112014-01-072014-11-042015-08-252016-06-232017-04-202018-02-072018-12-062019-10-082020-07-312021-05-312022-03-250資料來源:,朝陽永續(xù),華泰研究圖表19: 基準(zhǔn)模型 forecast_adj_txt 因子分 10 層回測超額凈值(基準(zhǔn)中證 500,回測期:20090123-20220630) 分層1分層2分層3分層4分層5分層6分層7分層8分層9
36、分層106543212009-01-232009-11-202010-09-132011-07-142012-05-152013-03-112014-01-072014-11-042015-08-252016-06-232017-04-202018-02-072018-12-062019-10-082020-07-312021-05-312022-03-250資料來源:,朝陽永續(xù),華泰研究圖表20: 基礎(chǔ)模型因子覆蓋度圖表21: 分層 1 相對(duì)于分層 10 多空對(duì)沖凈值2,0001,6001,2008004000因子覆蓋度 因子覆蓋度平均值14121086422009-01-232010-01
37、-232011-01-232012-01-232013-01-232014-01-232015-01-232016-01-232017-01-232018-01-232019-01-232020-01-232021-01-232022-01-232009-01-232009-11-202010-09-132011-07-142012-05-152013-03-112014-01-072014-11-042015-08-252016-06-232017-04-202018-02-072018-12-062019-10-082020-07-312021-05-312022-03-250分層1相對(duì)分
38、層10凈值資料來源:,朝陽永續(xù),華泰研究資料來源:,朝陽永續(xù),華泰研究99.85%30.01%-29.77%11.15%49.81%56.64%88.26%-6.70%0.15%-29.72%61.38%67.62%36.79%-3.95%圖表22: 基礎(chǔ)模型 forecast_adj_txt 因子分層 1 分年度業(yè)績(基準(zhǔn)中證 500,回測期:20090123-20220630)時(shí)間區(qū)間收益率區(qū)間超額收益年化波動(dòng)率最大回撤夏普比率卡瑪比率2009-4.92%32.48%21.99%3.074.54201018.10%27.90%22.11%1.081.3620119.31%24.20%32.
39、32%-1.23-0.9220129.89%25.04%22.42%0.450.50201326.63%25.94%13.85%1.923.60201411.98%22.41%14.06%2.534.03201530.05%44.56%50.83%1.981.7420164.79%29.69%25.43%-0.23-0.2620171.34%15.43%14.49%0.010.0120188.78%25.74%31.05%-1.15-0.96201927.01%25.12%18.10%2.443.39202042.19%30.62%18.59%2.213.64202120.71%21.85%1
40、5.02%1.682.452022063011.72%成立以來24.33%14.97%27.95%54.50%0.870.45,朝陽永續(xù),華泰研究圖表23: 基礎(chǔ)模型 forecast_adj_txt 因子分 10 層回測各層業(yè)績(基準(zhǔn)中證 500,回測期:20090123-20220630)分層 1分層 2分層 3分層 4分層 5分層 6分層 7分層 8分層 9分層 10絕對(duì)收益24.33%16.04%15.32%13.07%10.14%7.73%7.77%5.22%1.12%0.79%超額收益13.80%7.45%6.78%4.69%1.98%-0.25%-0.21%-2.57%-6.38
41、%-6.68%Wind,朝陽永續(xù),華泰研究從結(jié)果來看,forecast_adj_txt 因子分層效果十層嚴(yán)格單調(diào),多頭第一層自 2009 年以來全回測期的絕對(duì)收益為年化 23.51%,相對(duì)于中證 500 的超額收益為年化 14.66%;因子覆蓋度平均每期為 1107 只,且近年來覆蓋度呈現(xiàn)上升趨勢。從多頭端分年度業(yè)績來看,forecast_adj_txt 因子各年度相對(duì)于中證 500 超額收益幾乎均為正(除 2009 年外),分年度表現(xiàn)較為穩(wěn)健。(注:20151130-20160930 期間由于數(shù)底庫數(shù)據(jù)缺失,導(dǎo)致因子覆蓋度極端低,故統(tǒng)一延續(xù) 20151030 的因子值)參數(shù)討論接下來,我們對(duì)
42、模型中的各個(gè)參數(shù)進(jìn)行穩(wěn)健性討論,過擬合帶來的超樂觀預(yù)期是我們不愿看到的結(jié)果,現(xiàn)在我們對(duì)“是否有人為過度調(diào)參導(dǎo)致的過擬合嫌疑”這個(gè)問題給出答案。樣本標(biāo)簽的時(shí)間區(qū)間選擇在前期報(bào)告中,樣本標(biāo)簽的時(shí)間選擇是備受質(zhì)疑的點(diǎn),為什么是 T-1T+1 天?其他參數(shù)區(qū)間是否可行?T-1T+1 天從邏輯上來說的優(yōu)勢在何處?本小節(jié)我們從數(shù)據(jù)實(shí)證和邏輯解釋兩個(gè)角度出發(fā),嘗試再次討論這個(gè)問題。數(shù)據(jù)實(shí)證角度,首先我們對(duì)多組時(shí)間區(qū)間進(jìn)行測試:討論 T-1T+7、T-1T+20、T-7T+1、 T-20T+1 這四組參數(shù)。其中 T-1T+7 及T-1T+20 的假設(shè)為,對(duì)分析師盈利預(yù)測調(diào)整的情感判別更多信息來源于預(yù)測調(diào)整之后
43、的股價(jià)變化;而T-7T+1 與T-20T+1 則相反。圖表24: 標(biāo)簽參數(shù) 1:T-1T+7 分層回測凈值圖表25: 標(biāo)簽參數(shù) 1:T-1T+7 分層年化收益與年化超額 分層1分層2分層3分層4分層5分層6分層7分層8分層9分層1022.17%絕對(duì)收益超額收益17.41%14.16%13.22%10.72%11.51%8.62%4.37%3.14%1.34%1825%20%1215%10%65%0%2009-01-232009-11-202010-09-132011-07-142012-05-152013-03-112014-01-072014-11-042015-08-252016-06-2
44、32017-04-202018-02-072018-12-062019-10-082020-07-312021-05-312022-03-250-5%分層1分層2分層3分層4分層5分層6分層7分層8分層9分層10-10%資料來源:,朝陽永續(xù),華泰研究資料來源:,朝陽永續(xù),華泰研究圖表26: 標(biāo)簽參數(shù) 2:T-1T+20 分層回測凈值圖表27: 標(biāo)簽參數(shù) 2:T-1T+20 分層年化收益與年化超額 分層1分層2 分層3分層4分層5分層6分層7分層8分層9分層1020.93%絕對(duì)收益超額收益15.63%13.60%11.78%10.70% 10.92%6.39% 6.72% 6.08%3.04%1
45、825%20%1215%10%65%0%2009-01-232009-11-202010-09-132011-07-142012-05-152013-03-112014-01-072014-11-042015-08-252016-06-232017-04-202018-02-072018-12-062019-10-082020-07-312021-05-312022-03-250-5%分層1分層2分層3分層4分層5分層6分層7分層8分層9分層10-10%資料來源:,朝陽永續(xù),華泰研究資料來源:,朝陽永續(xù),華泰研究圖表28: 標(biāo)簽參數(shù) 3:T-7T+1 分層回測凈值圖表29: 標(biāo)簽參數(shù) 3:T-
46、7T+1 分層年化收益與年化超額 分層1分層2分層3分層4分層5分層6分層7分層8分層9分層1023.07%絕對(duì)收益超額收益15.09% 15.20%12.05%10.47%8.65% 8.12% 6.94%4.25%2.98%1825%20%1215%10%65%0%2009-01-232009-11-202010-09-132011-07-142012-05-152013-03-112014-01-072014-11-042015-08-252016-06-232017-04-202018-02-072018-12-062019-10-082020-07-312021-05-312022-
47、03-250-5%分層1分層2分層3分層4分層5分層6分層7分層8分層9分層10-10%資料來源:,朝陽永續(xù),華泰研究資料來源:,朝陽永續(xù),華泰研究圖表30: 標(biāo)簽參數(shù) 4:T-20T+1 分層回測凈值圖表31: 標(biāo)簽參數(shù) 4:T-20T+1 分層年化收益與年化超額分層1分層2分層3分層4分層5分層6分層7分層8分層9分層1018絕對(duì)收益超額收益21.44%14.88% 14.20%11.62%9.02% 8.74%7.36%3.97% 4.89%2.56%25%20%1215%10%65%0%2009-01-232009-11-202010-09-132011-07-142012-05-15
48、2013-03-112014-01-072014-11-042015-08-252016-06-232017-04-202018-02-072018-12-062019-10-082020-07-312021-05-312022-03-250-5%分層1分層2分層3分層4分層5分層6分層7分層8分層9分層10-10%資料來源:,朝陽永續(xù),華泰研究資料來源:,朝陽永續(xù),華泰研究從整體結(jié)果來看,無論使用哪組標(biāo)簽,構(gòu)建出的forecast_adj_txt 因子都具有良好的分層效果,說明對(duì)于標(biāo)簽而言模型是穩(wěn)健的,標(biāo)簽的變化不會(huì)對(duì)結(jié)果造成關(guān)鍵影響。但我們也發(fā)現(xiàn),當(dāng)標(biāo)簽的時(shí)間區(qū)間取太長時(shí),多頭端的收益會(huì)有
49、所削弱,例如 T-1T+20 多頭收益弱于 T-1T+7,且T-1T+7 多頭收益弱于T-1T+1。我們認(rèn)為上述結(jié)果合乎邏輯,在這里,對(duì)于標(biāo)簽的理解可能脫離時(shí)序關(guān)系來理解比較合適。實(shí)際上我們的目的并不是用分析師研報(bào)直接去預(yù)測股票未來一段時(shí)間的收益,如果基于這個(gè)邏輯那么嚴(yán)格來說應(yīng)該是 T-1T+20 表現(xiàn)更優(yōu)。筆者認(rèn)為,這里我們只是用 T-1T+1 的股票收益來錨定分析師研報(bào)的情感表達(dá),由于一般來說分析師點(diǎn)評(píng)時(shí)效性非常強(qiáng),因此 T-1T+1 僅包含點(diǎn)評(píng)事件本身,噪音較低;如果用 T-1T+20 那么期間會(huì)包含更多非分析師點(diǎn)評(píng)事件的其他股票相關(guān)信息,噪音較高。故我們認(rèn)為,使用T-1T+1 為標(biāo)簽完
50、全合理。訓(xùn)練時(shí)使用的非線性模型對(duì)比基準(zhǔn)模型中我們使用的是XGBoost 模型,這里我們繼續(xù)對(duì)使用的非線性模型進(jìn)行討論,備選的非線性模型有:Elastic Net、隨機(jī)森林、GBDT、LightGBM 及Stacking。關(guān)于這些模型的原理這里我們不再贅述,感興趣的讀者可以參考華泰金工人工智能系列往期報(bào)告。在樣本內(nèi)訓(xùn)練時(shí)我們都是采用的交叉驗(yàn)證訓(xùn)練,各模型選擇的參數(shù)如下表所示。圖表32: 各模型超參數(shù)選擇非線性模型超參數(shù)選擇范圍XGBoost學(xué)習(xí)速率(learning_rate)0.025, 0.05, 0.075最大樹深(max_depth)3, 5行采樣比例(subsample)0.8, 0.
51、85, 0.9, 0.95Elastic Net(即帶 L1 和 L2 懲罰項(xiàng)的邏輯回歸)正則化強(qiáng)度倒數(shù)1e-5, 3e-5, 6e-5, 8e-5, 0.0001, 0.0003, 0.0006,0.0008, 0.001, 0.003, 0.006, 0.008隨機(jī)森林子樹棵數(shù)(n_estimators)100, 200, 300最大數(shù)深(max_depth)5, 7, 9GBDT學(xué)習(xí)速率(learning_rate)0.001, 0.01, 0.1最大數(shù)深(max_depth)3, 5行采樣比例(subsample)0.8, 0.85, 0.9LightGBM學(xué)習(xí)速率(learning_
52、rate)0.025, 0.05, 0.075最大樹深(max_depth)3, 5, 7特征采樣比例(feature_fraction)0.8, 0.9, 0.1Stacking基學(xué)習(xí)器二級(jí)學(xué)習(xí)器Elastic Net 和 LightGBM Elastic Net資料來源:華泰研究圖表33: 模型參數(shù):ElasticNet 回測凈值圖表34: 模型參數(shù):ElasticNet 分層年化收益與年化超額分層1相對(duì)于分層10凈值(右軸)分層1絕對(duì)凈值182016121286425%22.56%絕對(duì)收益超額收益16.02%14.25%13.97%9.93%9.21% 8.86%5.96%2.83% 1
53、.93%20%15%10%5%0%2009-01-232009-11-202010-09-132011-07-142012-05-152013-03-112014-01-072014-11-042015-08-252016-06-232017-04-202018-02-072018-12-062019-10-082020-07-312021-05-312022-03-2500-5%分層1分層2分層3分層4分層5分層6分層7分層8分層9分層10-10%資料來源:,朝陽永續(xù),華泰研究資料來源:,朝陽永續(xù),華泰研究圖表35: 模型參數(shù):隨機(jī)森林回測凈值圖表36: 模型參數(shù):隨機(jī)森林分層年化收益與年化
54、超額21.15%絕對(duì)收益 超額收益15.60%13.78% 14.03%11.29%9.60%7.81%4.54% 4.03%2.15%25%分層1相對(duì)分層10凈值(右軸)分層1絕對(duì)凈值1820 1612 128642009-01-232009-11-202010-09-132011-07-142012-05-152013-03-112014-01-072014-11-042015-08-252016-06-232017-04-202018-02-072018-12-062019-10-082020-07-312021-05-312022-03-250020%15%10%5%0%-5%分層1分
55、層2分層3分層4分層5分層6分層7分層8分層9分層10-10%資料來源:,朝陽永續(xù),華泰研究資料來源:,朝陽永續(xù),華泰研究圖表37: 模型參數(shù):GBDT 回測凈值圖表38: 模型參數(shù):GBDT 分層年化收益與年化超額分層1相對(duì)分層10凈值(右軸)分層1絕對(duì)凈值18201612128642009-01-232009-11-202010-09-132011-07-142012-05-152013-03-112014-01-072014-11-042015-08-252016-06-232017-04-202018-02-072018-12-062019-10-082020-07-312021-05
56、-312022-03-250025%21.15%絕對(duì)收益超額收益15.60%13.78% 14.03%11.29%9.60% 7.81%4.54%4.03% 2.15%20%15%10%5%0%-5%分層1分層2分層3分層4分層5分層6分層7分層8分層9分層10-10%資料來源:,朝陽永續(xù),華泰研究資料來源:,朝陽永續(xù),華泰研究圖表39: 模型參數(shù):LightGBM 回測凈值圖表40: 模型參數(shù):LightGBM 分層年化收益與年化超額分層1相對(duì)分層10凈值(右軸)分層1絕對(duì)凈值18201612 12 8 6425%21.64%17.48%13.59%絕對(duì)收益超額收益11.61%11.05%1
57、0.59%7.23% 6.76%3.65%1.96%20%15%10%5%0%2009-01-232009-11-202010-09-132011-07-142012-05-152013-03-112014-01-072014-11-042015-08-252016-06-232017-04-202018-02-072018-12-062019-10-082020-07-312021-05-312022-03-2500-5%分層1分層2分層3分層4分層5分層6分層7分層8分層9分層10-10%資料來源:,朝陽永續(xù),華泰研究資料來源:,朝陽永續(xù),華泰研究圖表41: 模型參數(shù):Stacking 回
58、測凈值圖表42: 模型參數(shù):Stacking 分層年化收益與年化超額分層1相對(duì)分層10凈值(右軸)分層1絕對(duì)凈值18201612 1286425%21.29%絕對(duì)收益超額收益13.77% 12.85%12.36%11.30%8.39% 9.66%6.21%5.72%3.36%20%15%10%5%0%2009-01-232009-11-202010-09-132011-07-142012-05-152013-03-112014-01-072014-11-042015-08-252016-06-232017-04-202018-02-072018-12-062019-10-082020-07-3
59、12021-05-312022-03-2500-5%分層1分層2分層3分層4分層5分層6分層7分層8分層9分層10-10%資料來源:,朝陽永續(xù),華泰研究資料來源:,朝陽永續(xù),華泰研究從各模型的對(duì)比結(jié)果來看,我們可以總結(jié)出以下結(jié)論:模型層面,在分析師盈利預(yù)測調(diào)整的情感識(shí)別場景下,不同的模型并未表現(xiàn)出非常明顯的差距。以多頭端第 1 層的絕對(duì)收益為例,XGBoost 年化收益 24.33%,是最好的模型; GBDT 年化收益 21.15%,是最差的模型;其余模型年化收益分布于 21%23%之間,并未表現(xiàn)出明顯差別,極差小于 4%;集成模型 Stacking 沒有進(jìn)一步提升模型表現(xiàn)。我們對(duì) Elast
60、icNet 和 XGBoost 模型進(jìn)行 Stacking 集成,發(fā)現(xiàn)并未明顯提升模型表現(xiàn),反而不如單一 XGBoost 的回測結(jié)果,相反還造成空頭端單調(diào)性的衰減,可能是由于用于集成的兩組底層模型相關(guān)性太高所導(dǎo)致,因此實(shí)際操作中我們還是推薦XGBoost 模型。我們不妨更深入的思考模型對(duì)比帶給我們的啟示??梢钥吹诫m然不同的模型有差別,但不可否認(rèn)這種差別很小,換言之模型本身性能的好壞對(duì)回測結(jié)果的影響沒有想象中的大(提升沒有想象中的大)。這種現(xiàn)象可能是由于,分析師盈利預(yù)測調(diào)整的情感識(shí)別是噪音較小的應(yīng)用場景,在較長的時(shí)間區(qū)間內(nèi)這種規(guī)律不容易改變(實(shí)際上接下來對(duì)于樣本內(nèi)窗口長度的討論也支持這一結(jié)論):
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 福建師范大學(xué)《環(huán)境規(guī)劃與管理》2022-2023學(xué)年第一學(xué)期期末試卷
- 第二章 馬克思主義文學(xué)理論與中國當(dāng)代文學(xué)理論建設(shè)課件
- 職工基本情況及培訓(xùn)檔案登記表 樣表
- 《物業(yè)管理委員會(huì)組建運(yùn)行辦法》政策解讀
- 2024屆云南省曲靖市宣威市第九中學(xué)高三下學(xué)期第一次階段考試數(shù)學(xué)試題試卷
- 電源系統(tǒng)國內(nèi)發(fā)展現(xiàn)狀及未來趨勢分析
- 2024年塔城道路運(yùn)輸從業(yè)資格證考試
- 2024年清遠(yuǎn)客運(yùn)從業(yè)資格證2024年考試題
- 2024年重慶客運(yùn)資格證緊急救護(hù)試題和答案
- 2024年保定客運(yùn)從業(yè)資格證考試題
- 智慧消防系統(tǒng)詳細(xì)建設(shè)方案
- 西南交通大學(xué)鐵路車站及樞紐樞紐區(qū)段站課程設(shè)計(jì)說明書
- 上海市中小學(xué)生職業(yè)體驗(yàn)活動(dòng)項(xiàng)目申報(bào)表
- 1.天津市裝飾裝修定額說明、計(jì)算規(guī)則
- 對(duì)公客戶管理方案(修改版)
- 腎移植術(shù)的解剖(1)
- 《政務(wù)禮儀》PPT課件.ppt
- 文身的危害PPT精選課件
- IFRS17保險(xiǎn)合同準(zhǔn)則評(píng)析及影響分析
- PLC課程設(shè)計(jì)(停車場車位控制 )
- 軟件項(xiàng)目運(yùn)維工作記錄表
評(píng)論
0/150
提交評(píng)論