高頻數(shù)據(jù)下基于文本挖掘和深度學習的股票波動性預測

上傳人：b*** IP屬地：北京上傳時間：2022-07-21 格式：DOCX 頁數(shù)：17 大?。?62.77KB 積分：15 舉報 版權申訴

已閱讀5頁，還剩12頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權，請進行舉報或認領

文檔簡介

1、研究背景在開發(fā)量化投資策略時，海外優(yōu)秀論文往往能夠提供新的思路和方法，為了能夠讓各位投資者更有效率地吸收海外的經(jīng)驗，東興金工團隊推出海外文獻速覽系列報告。我們將定期從海外文獻中篩選思路較為新穎且有潛力應用于國內(nèi)市場投資的文章，以速覽的形式呈現(xiàn)給各位投資者，內(nèi)容涵蓋資產(chǎn)配置、量化選股、基金評價以及衍生品投資等多個方面。本篇報告作為該系列報告的第十六篇，我們選取了 Bolin Lei, Zhengdi Liu, Yuping Song 的文獻On stock volatility forecasting based on text mining and deep learning under hi

2、gh-frequency data。投資者在進行資產(chǎn)配置時，不僅需要考慮金融產(chǎn)品、金融衍生品的收益，還需要考慮其風險，在金融研究中，我們通常使用波動率來描述風險，所以關于波動率的研究百花齊放，在此文中，作者結合了深度學習和高頻數(shù)據(jù)構建了一個波動率預測模型，并取得了不錯的效果。金融資產(chǎn)價格的波動在衡量資產(chǎn)風險水平和衍生品定價方面發(fā)揮著極其重要的作用。因此，分析波動性的特征和基于波動性特征發(fā)現(xiàn)更多預測指標和模型對于分析金融資產(chǎn)風險具有非常重要的理論意義和實用價值。波動率預測的研究過程可以概括為：從低頻數(shù)據(jù)到高頻數(shù)據(jù)，從不考慮高頻波動的長記憶到長記憶計量經(jīng)濟學模型。Bollerslev（1986）

3、提出了廣義自回歸條件異方差（GARCH）模型，該模型基于低頻數(shù)據(jù)，通過表征金融資產(chǎn)收益殘差的異方差性（即波動率聚合現(xiàn)象）來估計和預測波動率。然而，GARCH 模型只使用低頻數(shù)據(jù)，沒有考慮日內(nèi)價格信息的非線性特征。此外，基于高頻數(shù)據(jù)，Corsi（2009）提出了基于異構市場假說的異構自回歸模型（HAR-RV）來預測波動性，以及 Andersen 等人(2003)提出了一種長記憶自回歸分數(shù)積分移動平均(ARFIMA)模型來刻畫波動率。ARFIMA 模型和 HAR-RV 模型比 GARCH 模型擁有更好的樣本外預測能力。上述模型有以下缺點，一是他們無法描述數(shù)據(jù)的非線性，二是預測時只考慮歷史波動率，忽

4、略交易信息、輿論等未來波動率變化的真實驅(qū)動因素，預測依據(jù)不足。雖然上述模型實現(xiàn)了預測在數(shù)據(jù)源中從低頻到高頻的進展，他們?nèi)匀皇莻鹘y(tǒng)的計量經(jīng)濟模型。為了提高波動率預測的準確性，通常是需要從預測模型和預測指標等兩個方面進行創(chuàng)新。深度學習模型的非線性關系擬合能力和強大的數(shù)據(jù)特征學習能力，為提高波動率預測的準確性提供了新思路。首先，在預測模型方面，深度學習在金融領域的應用主要集中在預測股票價格和回報率，長短期記憶（LSTM）是金融時間序列最常見的預測模型。在股價預測方面，Karaoglu 等人(2017)在 Graves(2012)中使用 LSTM 模型來預測股票價格。Bao 等人(2017)引入技術

5、指標作為預測指標，并使用 LSTM 預測股票價格。Lee 和 Yoo(2020)比較了包括 LSTM 模型在內(nèi)的三個RNN 模型在預測股票價格時的準確率。在股票收益預測中，Batres-Estrada(2015)使用LSTM預測股票每日和每月的對數(shù)回報利率，以及 Zhou(2019)使用 LSTM 預測下月股票收益率來構建投資組合。在深度學習模型中，LSTM 對長時記憶的特征可以更好適應波動率的波動特性，但它很少用于波動率預測。W.Chen(2018)以交易價格數(shù)據(jù)作為輸入指標通過 LSTM 模型對股票波動率進行預測。此外，在預測指標方面，網(wǎng)絡輿情往往反映了投資者對未來的預期。Bollen 等

6、（2011）通過公眾輿論構建情感因素對道瓊斯指數(shù)走勢進行預測。Oliveira 等(2017) 發(fā)現(xiàn)社交平臺評論的文字信息對股價存在影響并用它來預測標準普爾指數(shù)500 的趨勢。Yu 等人(2013)證明了收益和股票投資風險與社交平臺的信息文本的相關性。根據(jù)已有的研究結果，發(fā)現(xiàn)公共輿論更多地是用來預測趨勢的股價而輿論的文字信息較少用作波動率預測的輸入指標。為了提高波動率的預測精度，本文將 LSTM 與公共輿論文本信息相結合，基于 5 分鐘高頻金融交易數(shù)據(jù)構建新的波動率的指標體系來預測實際的波動率，并與不考慮公眾意見傳統(tǒng)計量經(jīng)濟學模型和 LSTM 模型的預測能力進行對比。本文第 2 章節(jié)作者介紹了

7、傳統(tǒng)計量經(jīng)濟模型的原理和深度學習模型LSTM，全面總結預測指標和評價標準，并介紹了本文的研究過程，第 3 章節(jié)作者構建文本情感因子并展示輿論文本信息與波動性之間的相關性，選擇 LSTM 模型最理想的參數(shù)，最后比較樣本外波動率預測準確性并基于 6 個損失函數(shù)對 12 個波動率預測模型進行排序。模型與研究方法傳統(tǒng)的經(jīng)濟模型GARCH 模型Bollerslev（1986）提出了 GARCH 模型來刻畫金融資產(chǎn)收益時間序列殘差項的異方差性以衡量低頻數(shù)據(jù)的波動。以 ARCH 模型為基礎，GARCH 使用 ARCH 模型去表達方差，且對時間序列的長期自相關性有較好的影響。GARCH 的模型定義如下： =

8、 + 2 = + 2+ 20 =1 =1其中等式 1 是均值價值等式，含有殘差項的外生變量函數(shù)。和分別是因變量和解釋變量；是隨機波動項。q是 ARCH 模型的階數(shù)，p是自回歸 GARCH 模型的階數(shù)。0，和是待評估的大于 0 的參數(shù)。HAR-RV 模型HAR-RV 模型是由 Corsi（2009），它可以解釋長記憶性的特征和股票市場中時間序列的異質(zhì)性。每日波動率與上一時期的每日、每周和每月波動率有關。HAR-RV 模型的定義如下：1/ = 2=1= + + + + +0+其中和是t階段實際的每日波動率，N意味著將交易日分成N個時間段，是每個時間的收益，是t階+段實際的每周波動率和+是

9、隨機波動項。是未來H天實際的波動率，H = 1，5，22。則每周和每月的波動率可以如下計算： = ( + + + )/5 14 = ( + + + )/22121ARFIMA 模型自回歸模型 AR 是用來描述現(xiàn)值與歷史值的自相關性，而移動平均模型 MA 是用來描述 AR 模型里的誤差累計項。結合 AR 與 MA 模型，作者得到自回歸移動平均模型 ARMA 模型，其定義如下： = + + + =1=1it其中yt表示t時刻的價值，是常數(shù)項，q是模型中預測誤差的滯后數(shù)，是自相關系數(shù)，是誤差項。Granger 和 Joyeux（1980）提出了分形移動平均模型（ARFIMA），它結合了分形噪聲

10、模型（FDN）和 ARMA模型。Hosking 在 1981 年改進了 ARFIMA 模型，形式如下：t(L)(1 L)d(xt ) = (L)其中L是滯后算子，(L)和(L)分別是 p 階和q 階多項式滯后算子，它們描述了序列的短記憶性。(1 L)d是分形差分算子，其中d是分形差分參數(shù)（|d| 13表示評論是積極， = 1 3表示評論是中性， 1 3表示評論是消極。根據(jù)以上的方法，可以量化情緒并將其加入波動率預測指標。實際波動率估計數(shù)據(jù)描述性統(tǒng)計分析圖 5 顯示了日收益率序列和實際波動率及其衍生序列的相關描述性統(tǒng)計結果。從所研究的三個序列的偏度和峰度值可以看出存在偏差和尖峰。此外，每個序列的

11、 JB 統(tǒng)計量在 5%的置信水平上呈現(xiàn)顯著性，表明每個序列不滿足正態(tài)分布特征。如果是滯后 5、10 和 20 個周期，每個系列的 Q 統(tǒng)計量在 5%的置信水平呈現(xiàn)顯著性，表明每個系列之間都有相關性。計算出來的 Hurst 指標在 0.5 和 1 之間，表明存在每個序列之間都有顯著的長記憶特征，越接近 1 長記憶特性越明顯。因此，實際波動率為在 5%的置信水平上顯著，表明具有長記憶的特點。ADF 單位根檢驗表明每個序列在 5%置信區(qū)間下都顯著拒絕了單位根的假設，并且每個序列穩(wěn)定。圖5：每日收益及波動率的描述性統(tǒng)計分析On stock volatility forecasting based on

12、 text mining and deep learning under high-frequency data， 2021 年 5 月預測指標的重要性作者參考 T. Chen 和 Guestrin(2016)來計算預測指標的重要性。XGBoost 是基于結構得分來選擇特征作為分裂點，一個特征的重要性體現(xiàn)于它出現(xiàn)在所有決策樹中的時間之和。這意味著一個特征越多次被用于構建決策樹，它就越重要。圖 6 顯示了由 XGBoost 計算得出的特征重要性。結果表明，公眾觀點指標對波動性的貢獻很大，所以它可以作為波動率的預測指標。圖6：基于 XGBoost 的特征重要性On stock volatility

13、 forecasting based on text mining and deep learning under high-frequency data， 2021 年 5 月波動率預測模型的效果比較LSTM 模型的參數(shù)選擇將數(shù)據(jù)劃分為訓練集和測試集，對數(shù)據(jù)進行標準化以消除維度的影響后，按照 Wei（2010）的方法，使用滑動時間窗進行滾動預測。保持訓練集區(qū)間不變，不斷滾動預測第二天的波動率。如圖 7，如果時間窗口天，使用天到 + 天數(shù)據(jù)預測 + + 1天，和使用 + 1天到 + + 1天數(shù)據(jù)預測 + + 2天，以此類推。轉(zhuǎn)換二維輸入索引的格式轉(zhuǎn)化為三維數(shù)據(jù)（行數(shù)、時間步長和列數(shù)）用于滾動

14、預測。圖7：滾動預報示意圖On stock volatility forecasting based on text mining and deep learning under high-frequency data， 2021 年 5 月為了分析訓練步驟對 LSTM 模型的預測效果，作者選擇訓練步長為 10、20、30 和 40 天構建訓練數(shù)據(jù)。相應的 MAE 和 MSE 如圖 8 所示。通過選擇不同的時間窗口可以發(fā)現(xiàn)，當時間窗值為 20 天時，可以獲得相對較小的驗證損失值。這個結果的原因可能是如果時間窗口太大，相對無關的數(shù)據(jù)會影響模型的訓練，大大降低訓練的效率。如果時間窗口為 10，則值

15、可能為太小，以至于與預測值相關的數(shù)據(jù)被忽略，模型無法獲得足夠的數(shù)據(jù)，所以結果不是很理想。在實驗過程中發(fā)現(xiàn)，當時間窗口值為 20 時可以獲得更好的結果。因此，在隨后的參數(shù)調(diào)整過程中，時間窗值選擇為 20；也就是股票通過前 20 天的數(shù)據(jù)來預測第 21 天的價格波動。圖8：LSTM 訓練時間的窗口參數(shù)選擇On stock volatility forecasting based on text mining and deep learning under high-frequency data， 2021 年 5 月由于大量的預測指標和更復雜的函數(shù)關系，為了使網(wǎng)絡更好地捕捉數(shù)據(jù)特征防止欠擬合，作者

16、將使用兩層LSTM 和全連接層結構并適度增加節(jié)點數(shù)以增加模型的深度。另外，為了防止過擬合，在神經(jīng)網(wǎng)絡中添加了一個退出層以減少神經(jīng)元之間復雜的共適應關系，然后多個不同的神經(jīng)網(wǎng)絡平均消除反向擬合現(xiàn)象以減少整個模型的過度擬合。具體 LSTM 的預測模型的其他參數(shù)設置如圖 9 所示。圖 10 顯示了模型計算過程中訓練集和驗證集之間的誤差減少的過程。圖9：LSTM 的參數(shù)設定On stock volatility forecasting based on text mining and deep learning under high-frequency data， 2021 年 5 月圖10：模型訓練

17、的損失曲線On stock volatility forecasting based on text mining and deep learning under high-frequency data， 2021 年 5 月比較不同模型的預測結果作者檢驗了 12 個預測模型的波動率RVt，包括在正態(tài)分布和t 分布誤差項下的傳統(tǒng)的計量經(jīng)濟學模型，例如ARCH，GARCH、EGARCH 和 FIGARCH，在有或沒有文本情感因子作為預測指標下的 ARFIMA 和 HAR-RV模型和深度學習模型 LSTM。表 4 顯示了基于 6 個損失函數(shù)下的 12 個模型所對應的預測準確性及樣本外的波動率RVt

18、排名，作者根據(jù)較高的綜合準確率從上到下比較了誤差程度和排名。根據(jù)圖 11，作者得出以下結論：與傳統(tǒng)的計量經(jīng)濟學模型相比，深度學習 LSTM 模型在六種評價標準下對高頻波動的預測準確率更高。具體從統(tǒng)計學的角度來說，與排名相對較高的傳統(tǒng)經(jīng)濟學模型 ARFIMA 模型相比，深度學習模型 LSTM 基于六個標準 MSE，RMSE，MAE， MSLE，2和 RMSPE 在預測精度上分別提高了 2.5%，1.3%，14.6%，34.1%，4.9%和 24.9%。傳統(tǒng)計量經(jīng)濟學的預測模型僅使用波動率的歷史信息作為收益率序列和信息的顯式線性關系，而深度學習模型不僅使用了波動率的歷史信息，還使用了市場上的其他交

19、易指標、股東的文本情緒因素等。LSTM 模型更好地考慮了波動率的影響因素和變量之間的非線性關系，因此對未來波動率趨勢的預測相對較好。相對于沒有文本情感因素的 LSTM 模型，在 MSE、RMSE、MAE、MSLE、2和 RMSPE 評價標準下，有文本情感因素的 LSTM 模型的預測準確率分別提高了 9.3%、4.7%、6.2%、9.2%、7.9%和 16.9%,表明股東情緒對市場股票股價波動率有正向影響，將其納入 LSTM 模型的預測指標體系，可以提高預測精度。這與現(xiàn)實也是非常一致的。股票交易員的操作具有羊群效應。在傳統(tǒng)的計量經(jīng)濟學模型中，ARFIMA 模型的預測精度和排名最好，說明波動率序列

20、之間存在一定的相關性和長記憶性，這也符合 LSTM 模型的應用前提。具有正態(tài)分布誤差項的GARCH 系列模型表現(xiàn)排名其次，具有t分布誤差項的 GARCH 族模型表現(xiàn)最差。圖11：不同模型的預測誤差及表現(xiàn)排名On stock volatility forecasting based on text mining and deep learning under high-frequency data， 2021 年 5 月基于這個結果，作者導出了 LSTM 模型的預測結果，并進一步進行了兩步法和五步法預測。同樣，作者也對傳統(tǒng)模型進行多步預測。具體結果見圖 12 和圖 13。通過比較不同步驟下預測的

21、結果，作者發(fā)現(xiàn) LSTM 模型的預測比較穩(wěn)健。以 ARFIMA 模型為例，在一步預測的情況下 ARFIMA 模型表現(xiàn)僅略差于 LSTM 模型，但是兩步法和五步法預測結果的準確性顯著降低，尤其是兩步法預測。圖 12 和圖 13 中的預測模型排列與圖 11 相同，可以直觀的看出，準確率的變化是根據(jù)預測步長的變化影響很大。大多數(shù)模型準確度的變化與 ARFIMA 模型相似。但是，LSTM 模型保持了很強的穩(wěn)定性，其準確度呈現(xiàn)穩(wěn)步下降趨勢，描述長記憶波動性的能力更好。進一步發(fā)現(xiàn)，無論采用何種步長，加入情感指標的 LSTM 模型的預測準確率都是最好的，說明文本情感因子對提高預測波動率精準度有一定的正向性影

22、響。圖 14 為真實波動率和前 5 個基于 MSE 的預測模型的對比圖。預測方法均為過去 20 天數(shù)據(jù)預測 1 天，橫坐標為日期，縱坐標是當天的波動率，散點是當天的真實值?？梢钥闯?，LSTM 對極值預測的效果要比傳統(tǒng)模型好很多。在精度方面，帶情緒指標的 LSTM 模型更切合真實值，并且能更好地描述峰谷和預測極端波動變化。圖12：不同模型的預測誤差及表現(xiàn)排名（預測第二步）On stock volatility forecasting based on text mining and deep learning under high-frequency data， 2021 年 5 月圖13：不同

23、模型的預測誤差及表現(xiàn)排名（預測第五步）On stock volatility forecasting based on text mining and deep learning under high-frequency data， 2021 年 5 月圖14：基于 MSE 的樣本外預測最準確的前五個模型的表現(xiàn)On stock volatility forecasting based on text mining and deep learning under high-frequency data， 2021 年 5 月總結作者利用股民的文字評論信息，構建整合評論影響力的情感因子，然后基于高頻金融數(shù)據(jù)與深度學習模型LSTM 并結合其他交易信息進行波動率預測?；诟哳l數(shù)據(jù)，帶文本輿論指標的 LSTM 模型的波動率預測能力在六項評價標準下優(yōu)于傳統(tǒng)計量經(jīng)濟學模型，準確性和穩(wěn)健性好于 ARCH、GARCH、EGARCH 和具有正態(tài)分布和 t 分布誤差項的 FIGARCH，ARFIMA 和 HAR-

人人文庫> 全部分類> 行業(yè)資料 > 金融保險

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

高頻數(shù)據(jù)下基于文本挖掘和深度學習的股票波動性預測

文檔簡介

溫馨提示

最新文檔

評論

相關文檔