版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
一、Seq2Seq模型及Attention機制(一)模型組成承接上篇報告,Sequence2Sequence模型是一類特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)架構(gòu),現(xiàn)實生活中該模型通常被用(但不限于此解決復(fù)雜語言問題如機器翻譯、問題回答、創(chuàng)建聊天機器人、文本總結(jié)等。以經(jīng)典的器翻譯過程為代表的場景中,輸入是一系列的詞,而輸出是翻譯后的一系列詞而在訂單簿擇時模型的相關(guān)預(yù)測中,輸入為(Batchsize*Timeinterval*imension)維度的高維向量,經(jīng)神經(jīng)網(wǎng)絡(luò)編譯后并解碼后按順序預(yù)測未來時間價格貨價格變動該模型的頂層架構(gòu)為Encoder-Decoder模型,該模型由兩個LSTM網(wǎng)絡(luò)疊加而成,第一個LSTM網(wǎng)絡(luò)為Encoder(編碼器)輸入數(shù)據(jù)經(jīng)過編碼器輸入為負(fù)責(zé)將輸入的序列信息轉(zhuǎn)化為預(yù)先設(shè)置好維度的一組編碼,第二個LSTM網(wǎng)絡(luò)為Decoder(解碼負(fù)責(zé)將已經(jīng)編譯好的這組編碼轉(zhuǎn)化為對未來序列信息的預(yù)測。Seq2Seq模型相較于上篇報告所提到的所有模型有明顯優(yōu)勢在于,該模型僅可以預(yù)測未來時刻價格點的預(yù)測結(jié)果(漲跌或價格)同時可以在預(yù)測時生成他模型所無法比擬的價格序列即多點價格預(yù)測(該原理來自于解碼器在生成來價格序列時也會用到前一時刻點所預(yù)測的價格數(shù)據(jù).????=?????? ,? ).?? ???1 ???1圖表1:Seq2Seq模型邏輯框架李沐深度學(xué)習(xí)(二)Encoder-Decoder模型Encoder-decoder模型也可以稱為seq2seq它是為了應(yīng)對RNN中無法滿足不等長序列的輸入輸出而產(chǎn)生的一個RNN變種Encoder-decoder是深度學(xué)習(xí)中非常常見的一個模型框架比如無監(jiān)督算法的aut-encoder就是用編碼的結(jié)構(gòu)設(shè)計并訓(xùn)練的再比如神經(jīng)網(wǎng)絡(luò)機器翻譯NMT模型往往就是LSTM-LSTM的編-解碼框架。準(zhǔn)確的說Encoder-decoder并不是一個具體的模型而是一類框架Encoder和Decoder部分可以是任意的文字語音圖視數(shù)據(jù)模型可以采用CNN,RNNBiRNNLSTMGRU等等其中encodr對數(shù)據(jù)進(jìn)編碼decoder對生成的編碼進(jìn)行解碼。(資料來源于:知乎)(三)Attention機制注意力顧名思義是關(guān)注點所匯聚的部分注意力機(attention是人工神經(jīng)網(wǎng)絡(luò)中一種模仿認(rèn)知注意力的技術(shù)這種機制可以增強神經(jīng)網(wǎng)絡(luò)輸入數(shù)據(jù)中某些部分的權(quán)重同時減弱其他部分的權(quán)重以此將網(wǎng)絡(luò)的關(guān)注點聚焦于數(shù)據(jù)中最重要的一小部分。深度學(xué)習(xí)中的注意力機制則是通過Q(Query查詢),K(key:鍵),V(Value:值)三個矩陣來實現(xiàn),舉一個很簡單的例子:類比推薦系統(tǒng)來說,在零食推薦時,Q代表某個人對口味的喜好信息(比如籍貫、年齡、性別等,K代表零食的類別(比如口味質(zhì)感等V代待推薦的零食品牌.通過求解K和Q在某個線性空間的相似度得出V中各個類別的數(shù)值(關(guān)注度)的大小,在報告所列舉的訂單簿的例子中,query,key和alue的每個屬性雖然在不同的空間,其實他們是有一定的潛在關(guān)系的,也就說通過某種變換,可以使得三者的屬性在一個相近的空間中(具體模型構(gòu)建細(xì)節(jié)將在后面章節(jié)詳細(xì)展開)Attention機制在Seq2Seq模型中同樣可以發(fā)揮作用體過程如下圖所示。當(dāng)編碼器(Encoder下同),獲得輸入數(shù)據(jù)時,同時產(chǎn)生hidden-state以及context向量在hidden-state向量進(jìn)入解碼器(Decder)之前先對各個時期產(chǎn)生的隱狀態(tài)進(jìn)行注意力機制的計算具體入下圖右側(cè)當(dāng)解碼器同時獲得之前所有時刻包含的信息之外還獲得了額外的信息讓模型自行學(xué)習(xí)應(yīng)該關(guān)注過去多長時間的信息。圖表2:Attention機制在Seq2Seq模型中嵌入方式李沐深度學(xué)習(xí)(四)Seq2Seq模型下訂單簿擇時模型表現(xiàn)匯總總體來說在Seq2Seq模型下訓(xùn)練集以及驗證集損失的收斂速度都有了一定加快,相較于消耗大量計算資源且不穩(wěn)定的MLP和CNN模型來說模型在50-150epochs下均有較明顯收斂同時對價漲跌預(yù)測的準(zhǔn)確率也有幅提升。經(jīng)過對比可以發(fā)現(xiàn)模型在訓(xùn)練到50epochs左右呈現(xiàn)佳收斂結(jié)果且模在價格漲跌的準(zhǔn)確率上基本穩(wěn)定在80左右的準(zhǔn)確率因此可以在短期內(nèi)保證高的勝率,(高頻客戶需額外注意頻繁調(diào)倉導(dǎo)致的成本損失)。圖表3:SeqSeq模型表現(xiàn)匯總滯后一期 滯后二期 滯后三期 滯后四期 滯后五期 ConfusionMatrix準(zhǔn)確率匯總滯后階/漲跌
總體 上漲 振蕩 下跌滯后一期0.795950.71260.83400.6064滯后二期0.703600.63940.76890.4991滯后三期0.716750.70650.78070.5562滯后四期0.730640.75920.79690.6021滯后五期0.737880.77390.83870.6323中信期貨研究所(五)Seq2Seq-Attention模型下表現(xiàn)匯總在Seq2Seq模型中加入注意力機制后模型在準(zhǔn)確率上有小幅提升相反收斂速度上卻存在小幅下降的情況,模型訓(xùn)練集-驗證集收斂情況上看:模型在120epochs左右呈現(xiàn)最佳收斂狀態(tài)且相應(yīng)的los相于單一的Seq2Seq模型未有明顯提升.模型準(zhǔn)確率有小幅下降。圖表4:SeqSeq_Attention模型表現(xiàn)匯總滯后一期 滯后二期 滯后三期滯后四期 滯后五期 滯后階數(shù)/漲跌
總體 上漲 振蕩 下跌滯后一期0.80310.74200.82400.6830滯后二期0.71960.64020.74860.6184滯后三期0.72240.78090.74120.6824滯后四期0.71360.71020.71270.7205滯后五期0.68580.72960.63020.7421中信期貨研究所二、Transformer模型拆解及構(gòu)建要點2017年《Attentionisallyouneed》介紹了一個有廣泛和不斷增長的應(yīng)用的分水嶺神經(jīng)網(wǎng)絡(luò)架構(gòu),但對之前的序列轉(zhuǎn)導(dǎo)研究進(jìn)行考察是非常有啟發(fā)的這樣做既可以獲得背后的動機也可以獲得使轉(zhuǎn)化器發(fā)展的機器和技術(shù),這就是著名的Transformer模型。這篇論文的動機是機器翻譯的問題,這個問題可以表達(dá)如下:我們從一源序列??=0,1…??…??}開始,其中每個??代表從源詞匯中抽取的一個單獨的詞例如英語我們試圖預(yù)??翻譯成另一種語言的情況也就是由目標(biāo)詞匯??組成的目標(biāo)序列組成的目標(biāo)序列,如法語詞匯。從概率公式的角度可以理解為最大化目標(biāo)函數(shù)以這種方式思考這個問題有利于用遞歸神經(jīng)網(wǎng)絡(luò)來解決這個問題這導(dǎo)致最近機器翻譯的大部分進(jìn)展,直到引入基于變形器的模型。同理,基于金融數(shù)據(jù)的時空特性以及我們的訴求(基于歷史信息對未來價格的預(yù)測),基于以上原理原理構(gòu)建的以循環(huán)神經(jīng)網(wǎng)絡(luò)為架構(gòu)的transformer模剛好適合解決此類問題。下面的章節(jié)將更詳細(xì)地描述Transformer的各個組成分現(xiàn)在我們將模型的的概述開始。論文中的架構(gòu)圖如下所示。圖表5Transformer模型架構(gòu)圖Attentionisallyouneed(一)Transformer模型組件解讀如上圖所示,Transformer是一個Encoder-Decoder型。Encoder由N組成而Decoder同樣則由N塊組成深入模型內(nèi)部部分組件的功能明顯區(qū)別以往所構(gòu)建的神經(jīng)網(wǎng)絡(luò),本部分將對不同組件進(jìn)行解釋。模型中的Attention根據(jù)論文所示:????????????(,,??)=??????(??????)??這里的??Q,K,V代表Query,Key,Value矩陣,其中Q,K維度統(tǒng)一,K,V則序列長度相同。Softmax計算后得如下矩陣:??∑??,??=1??=0最后Attention矩陣表示為:模型構(gòu)建的Multi-headAttention模塊,即通過不同的線性變換到不同的Q,K,V三個矩陣。??????????(,,??)=??????(??,…….????)????.????(,,??)=??????????????????,????,??????)?? ?? ??模型中的QKV選取研究員可根據(jù)自身經(jīng)驗選取不同矩陣作為試.此模塊的目的在于求解不同線性空間中QK相似程每一行中除本因子/價格數(shù)據(jù)之外相對較大的Attention值即為模型重點關(guān)注因/價格數(shù)據(jù)。Add&NormFeedforward模塊在模型每個模塊輸出進(jìn)入其他模塊之前都要做Normaization.模型這里接見了殘差連接網(wǎng)絡(luò)以及LayerNormalization,目的在于首先它們有助于保持梯度平滑這對反向傳播有很大幫助注意力一個過濾器這意味著當(dāng)它正常工作時它將阻止大部分試圖通過它東西這樣做的結(jié)果是很多輸入的小變化可能不會在輸出中產(chǎn)生太的變化如果它們碰巧落入被阻擋的通道第二個目的就是可以保持始的輸入序列。Feedforward簡而言之是一個全連接網(wǎng)絡(luò)一方面可以過濾和提更多的序列信息,一方面可以控制輸出維度。DecoderMasked-Attention模型預(yù)測時,為確保模型準(zhǔn)確性訓(xùn)練以及測試時模型時組預(yù)測本時刻時須確保模型不能接觸到當(dāng)前時刻之后的信息的數(shù)據(jù),這一點可以在計算Multi-headAttention矩陣式引入mask機制。(資料來源牛津大學(xué))在矩陣之后加入mask矩陣,在Softmax計算后序列息之后的值將全部變?yōu)榱?因此可以有效來自序列當(dāng)天時點之后的信息.PositionalEmbedding所有數(shù)據(jù)在進(jìn)入Encoder和Decoder之前需要進(jìn)行置信息編碼不同于單純的WordEmbedding這里采用的是positioalembedding,這種編碼信息不僅可以保證序列當(dāng)前信息可以被提取同時可以提取當(dāng)先序列(價格)信息和之前若干序列的相對信息目的在于計算相對位置信息的Attention值即一旦嵌入向量被投射到Q/KV向量中在生成期間,將這些值添加到嵌入中,就能提供嵌入向量之間有意義的距離。圖表6:PositionalEmbedding可視化例子中信期貨研究所(二)訂單簿Transformer模型下表現(xiàn)匯總通過解讀Seq2Seq,加入Attention機的SeqSeq型在訂單簿數(shù)據(jù)上的表現(xiàn)結(jié)果,該結(jié)果相對于普通的RNNCNN模型具有較好表現(xiàn)提升。引入Transformer模型后結(jié)果如下圖所示.模型收斂速度較慢鑒于模型引入2N個代碼模塊相應(yīng)的模型收斂速度較慢150epochs后仍然未能明顯收斂但是相應(yīng)的loss在逐步下降,準(zhǔn)確率也在逐步提升。根據(jù)AttentionisAllYouNeed一文列述Transformer與其他模型比,雖然每一層的計算復(fù)雜度大致相同Transformer:????2×??),??????:????×??2,??????:??(??×??×??2,但是由于Transformer每層之內(nèi)的并行機制,時間復(fù)雜度大大降低為??),RNN為????)。其中你為序列長度,d為模型維度,k為核大小.由此可見相同空間復(fù)雜度的情況下Transformer的并行機制相對于RNN,LSTM來講具有極大優(yōu)勢。圖表7:Transformer模型表現(xiàn)匯總中信期貨研究所
滯后階數(shù)漲跌 總體 上漲 振蕩 下跌滯后一期0.84770.84200.8019.7830滯后二期0.80960.83440.7928.8184滯后三期0.77300.78090.7292.8024滯后四期0.77290.71020.7797.7540滯后五期0.70810.72960.73290.591三、Transformer模型行情預(yù)測表現(xiàn)鑒于訂完整單簿數(shù)據(jù)的可得性較低以及數(shù)據(jù)體量較大的問題,商品量化團隊將分析模型對僅有行情數(shù)據(jù)(開盤價,收盤價最價,最低價)的期貨品種進(jìn)行分析匯總,本部分將著重關(guān)注模型預(yù)測與實際價格的擬合程度品種選擇上國內(nèi)品種和國際品種兩大類,國內(nèi)品種包括:螺紋鋼(RB),黃金(A),原油(SC),甲醇(MA),PTA(TA)以及國際品種:Brent原油(BZ=F,以及銅(HG=F)報告選取具有代表性的期貨品種進(jìn)行分析預(yù)測具體結(jié)果展示如下。(重要提示,鑒于每份標(biāo)的訓(xùn)練輪數(shù)隨機,RB,Brent原油擬合表現(xiàn)較好原因部分來源于訓(xùn)練輪數(shù)超過250輪)。圖表8:Transformer行情預(yù)測結(jié)果匯總中信期貨研究所(一)模型價格結(jié)果擬合解讀我們判斷預(yù)測的標(biāo)準(zhǔn)在預(yù)測值和真實值之間的相關(guān)性意義預(yù)測值和實際值之間的Rmse兩個指標(biāo).從可視化結(jié)果看,PTA,Brent,以及螺紋鋼三者具有較好的相關(guān)性.經(jīng)計算得知相關(guān)性依次:AU(0.7322),SC(0.5940)MA(0.6477RB(0.9451)Brent(0.92),Copper(0.7236),PTA(0.8477)。經(jīng)過圖像已經(jīng)相關(guān)性分析可以看出即使某些品種在極端行情出現(xiàn)日間的大幅跳漲以及大跌,Transformer模型仍然可以比較好擬合實際的價格曲線。例如在20202022年能源市場極端行情Transformer仍然可以有較好的趨勢性預(yù)測。(二)模型后續(xù)應(yīng)用Transformer模型再擇時模型上表現(xiàn)優(yōu)異,同時鑒于模型可以習(xí)注意力,進(jìn)而專注在應(yīng)該專注的部分.因此后期Transformer模在期貨行業(yè)亦可進(jìn)行資產(chǎn)配置的優(yōu)化以及相關(guān)風(fēng)險預(yù)警。四、部分期貨品種回測結(jié)果展示經(jīng)過對部分合約品種的預(yù)測我們得到了預(yù)測的價格數(shù)據(jù),本分應(yīng)用部分品種數(shù)據(jù),進(jìn)行簡單匯測?;販y邏輯:icin_ic??+1>icin_ic??則產(chǎn)生做多信號,并以第二日開盤價做多,若icin_ic??+1<icin_ic??則產(chǎn)生做空信號以第二日開盤價做空,多空手?jǐn)?shù)在-3隨機擇。本次回測尚未設(shè)置滑點成本。圖表9:部分產(chǎn)品回測邏輯圖中信期貨研究所經(jīng)回測發(fā)現(xiàn)大部分回測品種(生豬除外)能夠在簡單的交易邏輯上產(chǎn)生正正向收益同時跑贏基準(zhǔn)收益,年化收益率經(jīng)測算:黃(9.94)生豬(11.73,甲醇(14.6)銅(20.09),而螺紋鋼和PTA的年化收益率均超過30.雖然部分行情因素導(dǎo)致趨勢性結(jié)果)由此可以體現(xiàn)Transformer模型預(yù)測的準(zhǔn)確程度微交易提供支持。中信期貨研究所圖表10:部分產(chǎn)品回測結(jié)果匯總中信期貨研究所品種AnnualizedReturnMaximumDrawdownCalmarRatioSharpRatioRB35172.071.33PTA33191.731.12AU9.9414.50.690.81CU20171.171.02MA15220.680.72五、總結(jié)展望(一)模型優(yōu)化總結(jié)在第一篇報告結(jié)果展示經(jīng)過對基礎(chǔ)多層感知
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 醫(yī)療美容招投標(biāo)服務(wù)質(zhì)量表
- 2024年羊毛收購合同3篇
- 高鐵項目招投標(biāo)文件模板
- 工業(yè)自動化系統(tǒng)工程委托施工合同
- 傳媒團副總經(jīng)理招聘合同范例
- 旅游景區(qū)宣傳舞蹈演員聘請合同
- 辦公大樓建設(shè)項目合同樣本
- 2025年度鋁合金門窗產(chǎn)品研發(fā)、生產(chǎn)與安裝一體化合同3篇
- 員工心理健康輔導(dǎo)
- 醫(yī)療急救通道建設(shè)打路施工合同
- 售后服務(wù)方案及運維方案
- 直通法國-閱讀與文化智慧樹知到期末考試答案章節(jié)答案2024年青島大學(xué)
- 2024年巴西手游市場市場前景及投資研究報告
- 2024年云南昆明市公安局直屬部門缺勤務(wù)輔警招聘筆試參考題庫附帶答案詳解
- 碼頭建設(shè)報批程序
- (正式版)JBT 11517-2024 刮板取料機
- 商務(wù)數(shù)據(jù)分析智慧樹知到期末考試答案2024年
- 2019年10月廣東省自考00850廣告設(shè)計基礎(chǔ)試題及答案含解析
- DG-TJ08-2425-2023 道路隧道養(yǎng)護(hù)運行評價技術(shù)標(biāo)準(zhǔn)
- 膠囊內(nèi)鏡知識課件
- 體育教師生涯發(fā)展展示
評論
0/150
提交評論