《金融與財(cái)務(wù)機(jī)器學(xué)習(xí)》-姜富偉 習(xí)題解答_第1頁
《金融與財(cái)務(wù)機(jī)器學(xué)習(xí)》-姜富偉 習(xí)題解答_第2頁
《金融與財(cái)務(wù)機(jī)器學(xué)習(xí)》-姜富偉 習(xí)題解答_第3頁
《金融與財(cái)務(wù)機(jī)器學(xué)習(xí)》-姜富偉 習(xí)題解答_第4頁
《金融與財(cái)務(wù)機(jī)器學(xué)習(xí)》-姜富偉 習(xí)題解答_第5頁
已閱讀5頁,還剩32頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

《金融與財(cái)務(wù)機(jī)器學(xué)習(xí)》復(fù)習(xí)思考題答案第一章金融領(lǐng)域的機(jī)器學(xué)習(xí)1.闡述機(jī)器學(xué)習(xí)的主要思想和步驟。機(jī)器學(xué)習(xí)的主要思想是用先驗(yàn)知識設(shè)計(jì)一個合理的結(jié)構(gòu),再用實(shí)際經(jīng)驗(yàn)對這一結(jié)構(gòu)的細(xì)節(jié)進(jìn)行修正和優(yōu)化;其主要步驟包括數(shù)據(jù)預(yù)處理、特征提取、特征轉(zhuǎn)換和預(yù)測。2.闡述機(jī)器學(xué)習(xí)在金融領(lǐng)域適用的主要原因。機(jī)器學(xué)習(xí)在金融領(lǐng)域適用的主要原因是金融對機(jī)器學(xué)習(xí)具有需求性,即在解決金融問題中,會遇到預(yù)測問題的高維的特性、傳統(tǒng)金融模型的稀疏性假設(shè)等問題。而機(jī)器學(xué)習(xí)具有解決上述問題的優(yōu)勢:在數(shù)據(jù)高維特性的處理方面,機(jī)器學(xué)習(xí)方法強(qiáng)調(diào)變量選擇和降維技術(shù)減少自由度并壓縮預(yù)測變量之間的冗余變化,非常適合解決高維情境下的預(yù)測問題;機(jī)器學(xué)習(xí)工具箱給我們提供了無需在預(yù)測問題上施加特殊稀疏性分析資產(chǎn)價(jià)格的機(jī)會,稀疏性假設(shè)問題得到很好地解決。此外,機(jī)器學(xué)習(xí)能夠提供更加豐富的函數(shù)形式,適合更多金融領(lǐng)域的運(yùn)用場景。3.闡述機(jī)器學(xué)習(xí)在金融領(lǐng)域不適用的主要原因。機(jī)器學(xué)習(xí)在金融領(lǐng)域不適用的主要原因是金融數(shù)據(jù)存在著“小數(shù)據(jù)性”、信噪比較低、模型穩(wěn)定性較差等特點(diǎn),這些特點(diǎn)使人們在金融領(lǐng)域運(yùn)用機(jī)器學(xué)習(xí)到時(shí)必須經(jīng)過謹(jǐn)慎的考慮。

第二章Python軟件使用簡介1. Python通常如何調(diào)用第三方程序包?Python中可使用import語句導(dǎo)入第三方程序包,也可使用“from…import…as”語句導(dǎo)入第三方程序包中的部分函數(shù)。2. Python序列包含哪些類型?Python中序列類型包括字符、元組、列表、字典和集合。字符串用于記錄文本信息以及任意字節(jié)集合,字符串使用引號來界定;元組是固定長度,不可變的Python對象序列;列表是長度可變,內(nèi)容也可變的Python對象序列;字典是一系列鍵值對集合,鍵值對是兩個相關(guān)聯(lián)的值,可以使用鍵來訪問相關(guān)的值;集合是無序、對象可變的Python對象序列。3. Python常用的第三方庫有哪些?常用第三方庫包括多維數(shù)組Numpy、面板處理Pandas、科學(xué)計(jì)算Sympy、統(tǒng)計(jì)分析Statsmodels、金融計(jì)量Linearmodes和機(jī)器學(xué)習(xí)Scikit-learn(sklearn)。4. Python怎么處理缺失值?面對缺失值一般處理方法可以分為:過濾缺失值、填充缺失值、不處理三種方法。Pandas中提供了dropna()和fillna()兩個指令來進(jìn)行數(shù)據(jù)清理,其中dropna()用于過濾缺失值,fillna()可對缺失數(shù)據(jù)進(jìn)行填充。5. Python常用內(nèi)置機(jī)器學(xué)習(xí)包有哪些?Scikit-learn(sklearn)是機(jī)器學(xué)習(xí)中常用的第三方模塊,包括回歸(Regression)、降維(DimensionalityReduction)、分類(Classfication)、聚類(Clustering)等機(jī)器方法。Python中深度學(xué)習(xí)的程序包主要包括Pytorch和Tensorflow。

第三章金融大數(shù)據(jù)的處理與分析1.國內(nèi)常用的金融數(shù)據(jù)庫有哪些?金融領(lǐng)域?qū)嵶C研究和業(yè)界處理中常用的金融數(shù)據(jù)庫有國內(nèi)的國泰安數(shù)據(jù)庫、萬得資訊、中國研究數(shù)據(jù)服務(wù)平臺以及獲取國外數(shù)據(jù)的CRSP數(shù)據(jù)庫。不同的數(shù)據(jù)庫側(cè)重和覆蓋不同金融研究層面,且有各自的優(yōu)缺點(diǎn)。2.請列舉幾個常用描述性統(tǒng)計(jì)常用工具。描述性統(tǒng)計(jì)常用工具包括:均值、方差、中位數(shù)、偏峰度、各類相關(guān)系數(shù)。3.請簡要闡述數(shù)據(jù)預(yù)處理的基本流程。數(shù)據(jù)預(yù)處理的基本流程為檢查缺失值并處理、異常值識別與處理、數(shù)據(jù)標(biāo)準(zhǔn)化。4.什么是標(biāo)準(zhǔn)差法?該方法的主要用途是什么?標(biāo)準(zhǔn)差方法也被稱為“3σ”方法,在給定的樣本xtt=1T中,那些落在樣本均值的3倍標(biāo)準(zhǔn)差范圍內(nèi)的數(shù)據(jù)點(diǎn)即可被認(rèn)為是異常點(diǎn),我們可以定義上(下)閾值為:t?ret?o該方法的主要用途是設(shè)立臨界值后識別樣本異常值。5.簡要闡述截尾法和縮尾法的區(qū)別。截尾方法將任何大于上閾值或任何小于下閾值的數(shù)據(jù)點(diǎn)從樣本中刪除??s尾方法將樣本中大于上閾值的數(shù)據(jù)點(diǎn)直接設(shè)置為上閾值,將任何小于下閾值的數(shù)據(jù)點(diǎn)設(shè)置為下閾值。6.什么是Z值標(biāo)準(zhǔn)化(Z-Score)法?Z-Score處理方法為將觀測值減去總體均值后除以總體方差,將數(shù)據(jù)轉(zhuǎn)化為均值為0方差為1的分布。其計(jì)算公式為:Z=Z值標(biāo)準(zhǔn)化計(jì)算簡單,使得不同量級的數(shù)據(jù)便于比較,是最常用的標(biāo)準(zhǔn)化方法。第四章因子與因子模型1.解釋因子、資產(chǎn)價(jià)格異象和因子定價(jià)模型?!耙蜃印笔窍到y(tǒng)性風(fēng)險(xiǎn)的一種定量表現(xiàn)形式,描述了眾多資產(chǎn)共同暴露的某種系統(tǒng)性風(fēng)險(xiǎn)。資產(chǎn)價(jià)格異象是指傳統(tǒng)因子定價(jià)模型中無法解釋的收益率序列中持續(xù)存在的規(guī)律性模式。因子模型模型是一種定量的建模方法,它將資產(chǎn)的預(yù)期收益率分解為系統(tǒng)性風(fēng)險(xiǎn)影響部分和定價(jià)誤差部分。2.闡述Fama-French三因子模型的基本結(jié)構(gòu)、所反映的異象、異象的代理變量以及代理變量的構(gòu)造。Fama-French三因子模型的基本結(jié)構(gòu)是:所反映的異象是規(guī)模異象和價(jià)值異象。規(guī)模異象選取的代理變量是市值,價(jià)值異象選取的代理變量是賬面市值比。代理變量的構(gòu)造方法:(一)取紐交所上市公司市值的中位數(shù),將三個市場中市值高于中位數(shù)的股票分入V-B(大市值)組,其他分入V-S(小市值)組。(二)取上市公司賬面市值比的上30分位數(shù)和下30分位數(shù),將三個市場中賬面市值比高于上30分位數(shù)的股票分入BM-H組,賬面市值比低于下30分位數(shù)的股票分入BM-L組,其他股票分入BM-M組。(三)根據(jù)以上的雙因子排序,得到一共六個組別,即S/H、S/M、S/L、B/H、B/M和B/L組。(四)根據(jù)以上分組,規(guī)模因子的超額收益等于三個小市值組合(S/H、S/M和S/L)的等權(quán)平均收益率減去三個大市值組合(B/H、B/M和B/L)的等權(quán)平均收益率;而價(jià)值因子的超額收益等于兩個高賬面市值比組合(S/H和B/H)的等權(quán)平均收益減去兩個低賬面市值比組合(S/L和B/L)的等權(quán)平均收益。3.闡述Fama-French五因子模型的基本結(jié)構(gòu)、所反映的異象、異象的代理變量以及代理變量的構(gòu)造。Fama-French三因子模型的基本結(jié)構(gòu)是:所反映的異象是規(guī)模異象、價(jià)值異象、盈利異象和投資異象。規(guī)模異象選取的代理變量是市值,價(jià)值異象選取的代理變量是賬面市值比,盈利異象選取的代理變量是股權(quán)收益率,投資異象選取的代理變量是總投資變化率。代理變量的構(gòu)造方法:(一)取紐交所上市公司市值的中位數(shù),將三個市場中市值高于中位數(shù)的股票分入V-B(大市值)組,其他分入V-S(小市值)組。(二)取上市公司權(quán)益收益率的上30分位數(shù)和下30分位數(shù),將三個市場中權(quán)益收益率高于上30分位數(shù)的股票分入ROE-R組,權(quán)益收益率低于下30分位數(shù)的股票分入ROE-W組,其他股票分入ROE-N組。(三)根據(jù)以上的雙因子排序,一共得到六個組別,即S/R、S/N、S/W、B/R、B/N和B/W組,(四)計(jì)算盈利因子的超額收益,其公式為:RRMV(五)取上市公司總投資變化率的上30分位數(shù)和下30分位數(shù),將三個市場中總投資變化率高于上30分位數(shù)的股票分入總資產(chǎn)變化率-A組,總投資變化率低于下30分位數(shù)的股票分入總資產(chǎn)變化率-C組,其他股票分入總資產(chǎn)變化率-N組。(六)根據(jù)以上的雙因子排序,得到一共六個組別,即S/A、S/N*、S/C、B/A、B/N*和B/C組(*是為了和盈利因子的分組相區(qū)別),根據(jù)以上分組計(jì)算投資因子的超額收益。其公式為:RRMV值得注意的是,規(guī)模因子的構(gòu)建是基于其他三個因子的分組排序結(jié)果的。在價(jià)值因子、盈利因子和投資因子的提取過程中,我們分別用賬面市值比、權(quán)益收益率和總資產(chǎn)變化率對市值進(jìn)行了雙因子排序,一共得到了18(3*6)個投資組合;根據(jù)以上分組計(jì)算規(guī)模因子的超額收益。其公式為:R1/9(R4.闡述CH-3模型的基本結(jié)構(gòu)、所反映的異象、異象的代理變量以及代理變量的構(gòu)造。CH-3模型的基本結(jié)構(gòu)是:所反映的異象是規(guī)模異象和價(jià)值異象。規(guī)模異象選取的代理變量是市值,價(jià)值異象選取的代理變量是賬面市值比。代理變量的構(gòu)造方法:(一)按照市值對上市公司進(jìn)行排序,剔除市值最小的30%的股票,形成新的數(shù)據(jù)集;(二)取新的數(shù)據(jù)集中上市公司市值的中位數(shù),將市場中市值高于中位數(shù)的股票分入V-B(大市值)組,其他分入V-S(小市值)組。(三)取上市公司市盈率的上30分位數(shù)和下30分位數(shù),將三個市場中市盈率高于上30分位數(shù)的股票分入EP-V組,市盈率低于下30分位數(shù)的股票分入EP-L組,其他股票分入EP-G組。(四)根據(jù)以上的雙因子排序,得到一共六個組別,即S/V、S/M、S/G、B/V、B/M和B/G組,根據(jù)以上分組,計(jì)算規(guī)模因子的超額收益,其公式為:RSMB=1/3((五)計(jì)算價(jià)值因子的超額收益,其公式為:RSMB5.總結(jié)Fama-French五因子模型和CH-3模型在Fama-French三因子模型上所做的改進(jìn)及改進(jìn)的動機(jī)。Fama和French從股利貼現(xiàn)模型出發(fā),推導(dǎo)出公司價(jià)值是各期凈利潤和公司賬面變動之差的貼現(xiàn)值之和,且發(fā)現(xiàn)預(yù)期收益率和預(yù)期盈利呈正相關(guān),與預(yù)期投資呈負(fù)相關(guān)。于是,他們在Fama-French三因子模型的基礎(chǔ)上加入了盈利因子和投資因子,提出了新的Fama-French五因子模型。Liu等根據(jù)中國市場上存在的殼效應(yīng),在構(gòu)建因子時(shí)剔除了市值最小的30%的公司的數(shù)據(jù);通過應(yīng)用Fama-macbeth回歸,發(fā)現(xiàn)在中國市場上相較于賬面市值比,市盈率能更好地反映價(jià)值效應(yīng);綜合以上兩點(diǎn),提出了CH-3模型。6.解釋時(shí)變性問題及其背后的原因。因子的時(shí)變性是指某些因子在某些時(shí)間區(qū)間表現(xiàn)良好的預(yù)測能力,但卻在其他期間失效。其主要原因有:P-hacking、多重檢驗(yàn)問題、出版后的復(fù)制問題以及經(jīng)濟(jì)數(shù)據(jù)的修正問題。

第五章因子模型的估計(jì)、檢驗(yàn)與解釋1、簡單闡述單變量組合分析的具體步驟。單變量組合分析的步驟主要包括股票分組、投資組合調(diào)整、投資組合收益率計(jì)算以及統(tǒng)計(jì)檢驗(yàn)四個部分。第一,在股票分組部分,須要按照排序變量分位數(shù)確定好各組斷點(diǎn),并根據(jù)斷點(diǎn)將股票依序定組。第二,在投資組合調(diào)整部分,須要對股票的分組情況按照月、季度或年的固定頻率進(jìn)行定期調(diào)整,對股票進(jìn)行重新分組。第三,在投資組合收益率計(jì)算部分,須要對分組后的股票計(jì)算組內(nèi)的等值加權(quán)或者市值加權(quán)的股票收益率。第四,在統(tǒng)計(jì)檢驗(yàn)部分,須要檢驗(yàn)排序變量對收益率是否存在顯著影響,并判斷這種影響的單調(diào)性,具體實(shí)踐方法可以分別通過檢驗(yàn)計(jì)算得出的組合收益率是否顯著為0以及計(jì)算出每個組平均截面收益率的Spearman等級相關(guān)系數(shù)來實(shí)現(xiàn)。2、因子模擬組合法包含幾種方法?具體闡述它們的流程。因子模擬組合法包含排序分組法、Fama-MacBeth兩階段回歸方法、最大相關(guān)性投資組合方法、方差最小化法和三步回歸法這三種方法。第一種,排序分組法下,首先須要先將宏觀變量等特征變量映射資產(chǎn)的回報(bào)率中,通過時(shí)間序列回歸的方法估計(jì)出每個資產(chǎn)對該特征變量的風(fēng)險(xiǎn)暴露。接著,將該回歸系數(shù)作為資產(chǎn)的排序變量,對資產(chǎn)進(jìn)行單變量排序,把資產(chǎn)劃分為固定數(shù)量的組合,并構(gòu)建多空組合,最后計(jì)算出因子收益率。第二種,F(xiàn)ama-MacBeth兩階段回歸方法下,第一步與組合排序分組法在開始單變量分組之前實(shí)施的步驟相同,將基礎(chǔ)資產(chǎn)收益率與特征變量進(jìn)行時(shí)間序列回歸,估計(jì)出每個資產(chǎn)對該特征變量的因子載荷;第二步先對每個資產(chǎn)的收益率取時(shí)間序列上的均值,再將每個資產(chǎn)的收益率均值和第一步估計(jì)出來的因子載荷進(jìn)行一次OLS橫截面回歸,估計(jì)出因子風(fēng)險(xiǎn)溢價(jià)。第三種,最大相關(guān)性投資組合方法下,先基于單變量回歸估計(jì)出不可交易因子的資產(chǎn)載荷,接著以最大化每個因子模擬組合與所要構(gòu)建的不可交易因子之間的相關(guān)性為目標(biāo),求解最優(yōu)化問題,最后得到相應(yīng)不可交易因子的風(fēng)險(xiǎn)溢價(jià)。第四種,方差最小化法下,建立一個通用的最小方差因子模擬投資組合構(gòu)建框架,計(jì)算投資組合權(quán)重和因子投資組合的目標(biāo)暴露,通過最優(yōu)化問題求解不可交易因子的風(fēng)險(xiǎn)溢價(jià)。第五種,三步回歸法下,共分為三個步驟。第一步是PCA步驟,通過主成分分析(PrincipalComponentsAnalysis,PCA)從基礎(chǔ)資產(chǎn)回報(bào)中提取收益率的前L個(L≤N)主成分,并將不可交易因子投射到這L個主成分上,得到經(jīng)過基礎(chǔ)資產(chǎn)映射之后的因子和相應(yīng)的因子載荷。第二步是橫截面回歸步驟,對資產(chǎn)的平均收益和第一步計(jì)算得到的因子載荷進(jìn)行OLS橫截面回歸,估計(jì)出因子模擬投資組合的風(fēng)險(xiǎn)溢價(jià)。第三步是時(shí)間序列回歸步驟,將第二步得到的風(fēng)險(xiǎn)溢價(jià)與第一步經(jīng)過映射得到的因子進(jìn)行時(shí)間序列回歸,得到因子模擬投資組合的權(quán)重,并將該權(quán)重與第二步估計(jì)出來的投資組合風(fēng)險(xiǎn)溢價(jià)相乘,最終得到三步回歸法的風(fēng)險(xiǎn)溢價(jià)估計(jì)值。3、時(shí)序回歸法的Alpha檢驗(yàn)和GRS檢驗(yàn)的差別是什么?Alpha檢驗(yàn)主要是針對單個指標(biāo)或者單個股票進(jìn)行的,它檢驗(yàn)在一定的假設(shè)條件下,單個Alpha為0的原假設(shè)是否成立。而GRS檢驗(yàn)是針對多個指標(biāo)或者多個股票進(jìn)行的,它可以對一系列股票的Alpha進(jìn)行聯(lián)合檢驗(yàn),即檢驗(yàn)在一定的假設(shè)條件下,所有候選股票的Alpha聯(lián)合為0的原假設(shè)是否成立。4、比較Fama-MacBeth兩階段回歸和三階段回歸的異同。Fama-MacBeth兩階段回歸和三階段回歸均是估計(jì)因子收益率的回歸方法。Fama-MacBeth回歸根據(jù)因子暴露是否具有時(shí)變性,可以分為兩階段回歸和三階段回歸。簡單來說,兩種回歸的第一階段是相同的,均是通過上一節(jié)所介紹的時(shí)間序列回歸求得資產(chǎn)的因子暴露的估計(jì)值βi',但兩階段回歸是“先求均值,再求回歸”,而Fama-MacBeth三階段回歸的核心思想是“先求回歸,再求均值”,有效防止了截面上αit的相關(guān)性影響因子收益率的估計(jì)值。不過,兩種回歸的目標(biāo)卻“不謀而合”,學(xué)術(shù)界中大部分時(shí)候都是為了檢驗(yàn)因子預(yù)期收益率λ

,并且在因子暴露βi'不具備時(shí)變性(即常數(shù))的情況下,兩階段回歸和三階段回歸的估計(jì)結(jié)果是一致的;當(dāng)因子暴露β5、可以從哪些角度解釋因子模型?可以從風(fēng)險(xiǎn)補(bǔ)償、錯誤定價(jià)和數(shù)據(jù)窺探這三個角度來解釋因子模型。如果因子確實(shí)可以獲得超額收益,則其可以歸因于風(fēng)險(xiǎn)補(bǔ)償、錯誤定價(jià)角度;而如果構(gòu)建的新因子并不是真實(shí)存在,而是由于過擬合所帶來的巧合,這種時(shí)候就歸因于數(shù)據(jù)挖掘(或數(shù)據(jù)窺探)。其中,風(fēng)險(xiǎn)補(bǔ)償?shù)呐袛喾椒òǔWR判斷、宏觀經(jīng)濟(jì)判斷和定價(jià)模型檢驗(yàn)這三種方法,錯誤定價(jià)的判斷方法包括業(yè)績公告期、預(yù)測未來基本面、有限注意力和套利成本這四種方法,數(shù)據(jù)挖掘的判斷方法則包括交易成本、機(jī)智的套利者和因子擁擠這三種方法。

第六章金融資產(chǎn)收益預(yù)測1.闡述資產(chǎn)收益率短期不可預(yù)測性的原因來源。當(dāng)間隔的兩個時(shí)間點(diǎn)非常接近時(shí),安全利率接近零,經(jīng)濟(jì)狀況變化不大,因此隨機(jī)折扣因子也變化不大,可以假設(shè)其為1。此時(shí)根據(jù)無摩擦市場條件下的均衡定價(jià)公式Pt=EtMt+1Vt+1可知,短期內(nèi)股價(jià)運(yùn)動是一個鞅過程,即股價(jià)符合隨機(jī)游走的形式。闡述樣本內(nèi)預(yù)測模型和樣本外預(yù)測模型的聯(lián)系與區(qū)別。樣本內(nèi)預(yù)測和樣本外預(yù)測都是進(jìn)行金融資產(chǎn)收益預(yù)測的重要步驟。樣本內(nèi)預(yù)測是指用全部觀測值來估計(jì)模型,然后用估計(jì)得到的模型對其中的一部分觀測值進(jìn)行預(yù)測;而樣本外預(yù)測是指將全部觀測值分為兩部分,部分用來估計(jì)模型(這也算是樣本內(nèi)預(yù)測,只不過并沒有使用了全樣本的數(shù)據(jù)),然后用估計(jì)得到的模型對另一部分?jǐn)?shù)據(jù)進(jìn)行預(yù)測。在股票收益的時(shí)間序列的分析中,樣本內(nèi)預(yù)測是時(shí)間序列資產(chǎn)定價(jià)的開始,但目前無論學(xué)者還是現(xiàn)實(shí)世界的投資者,大家更關(guān)心的是樣本外預(yù)測。闡述主要的模型評價(jià)方法。模型的主要評價(jià)方法包括樣本外預(yù)測評價(jià)和投資價(jià)值評估評價(jià)。其中,樣本外預(yù)測評價(jià)主要通過統(tǒng)計(jì)量進(jìn)行比較,包括ROS2統(tǒng)計(jì)量、經(jīng)調(diào)整的t統(tǒng)計(jì)量,以及經(jīng)調(diào)整的MSFE統(tǒng)計(jì)量;投資價(jià)值評估評價(jià)是看收益預(yù)測模型是否會產(chǎn)生顯著的經(jīng)濟(jì)價(jià)值4.闡述Campbell-Shiller分解的基本思想。Campbell-Shiller分解基于現(xiàn)值模型,通過泰勒展開將股票的現(xiàn)價(jià)、未來的分紅及收益的關(guān)系式進(jìn)行線性化,將股息價(jià)格比(D/P)的對數(shù)分解為未來期望收益對數(shù)折現(xiàn)率和對數(shù)股息變化的加權(quán)和。Campbell-Shiller的現(xiàn)金流折現(xiàn)率分解告訴我們:當(dāng)股息價(jià)格比(D/P)較高時(shí),必然是由于以下3個原因(其一或全部):(1)未來股息會上升;(2)未來的股票收益率會變低;(3)存在著“泡沫”,即價(jià)格的過度波動現(xiàn)象。

第七章包含懲罰項(xiàng)的線性回歸模型1.闡述在時(shí)序和橫截面使用普通最小二乘法時(shí)的差異。自變量和因變量的時(shí)間截點(diǎn)不同。OLS在時(shí)序回歸中的自變量與因變量并不完全在同一時(shí)間截點(diǎn),存在跨期的情況;而OLS在橫截面下的自變量與因變量均為一個時(shí)間截點(diǎn)上的,不存在跨期的情況。2.OLS模型在高維數(shù)據(jù)下存在什么問題?OLS模型在高維數(shù)據(jù)下會存在“維數(shù)災(zāi)難”的問題,高維數(shù)據(jù)會帶來較多的預(yù)測變量,而過多的預(yù)測變量可能會降低模型的預(yù)測準(zhǔn)確率。若觀測個數(shù)m遠(yuǎn)大于預(yù)測變量個數(shù)n時(shí),OLS的方差較低。然而,不滿足m遠(yuǎn)遠(yuǎn)大于n的情況下,OLS回歸得到的結(jié)果可能會出現(xiàn)過擬合的情況,此時(shí)模型在測試集上的表現(xiàn)較差。倘若n>m,使用OLS模型將會得到多個系數(shù)估計(jì)結(jié)果,方差也變得無窮大,此時(shí)不再適用OLS的方法。3.為什么要對線性回歸模型加入懲罰項(xiàng)?OLS模型通常無法解決自變量個數(shù)較多帶來的模型解釋力和預(yù)測精度下降的問題,一般需要采用其他方法來對線性回歸模型進(jìn)行修正。歸根結(jié)底,自變量數(shù)量較多的問題最終影響到的是自變量前面的模型參數(shù),使得參數(shù)估計(jì)值不準(zhǔn)確。可以通過對系數(shù)進(jìn)行約束或者加以懲罰的方式來對自變量個數(shù)較多的模型進(jìn)行擬合,從而降低參數(shù)估計(jì)的方差,提高參數(shù)估計(jì)的準(zhǔn)確率,增強(qiáng)模型的擬合效果。4.對比LASSO、嶺回歸和彈性網(wǎng)絡(luò)在幾何模型上的差別并闡述其在大數(shù)據(jù)變量挑選時(shí)的不同。類似地,這幾個模型都是在基本線性回歸模型上對參數(shù)施加約束或者懲罰的模型,因此,他們的幾何模型都是在基本線性回歸的目標(biāo)函數(shù)上引入懲罰項(xiàng)的;不同的是,這幾個方法施加的懲罰項(xiàng)不同。具體而言,嶺回歸只是在幾何模型上施加了L2范數(shù)的懲罰項(xiàng),LASSO只是在幾何模型上施加了L1范數(shù)的懲罰項(xiàng),而彈性網(wǎng)絡(luò)則是在幾何模型上同時(shí)施加了L1和L2范數(shù)的懲罰項(xiàng)。在變量挑選上,嶺回歸可以壓縮變量,LASSO可以篩選變量,而彈性網(wǎng)路則是同時(shí)具有變量壓縮和變量篩選的功能。5.哪些施加懲罰項(xiàng)的線性回歸模型能夠壓縮變量?哪些能夠選擇變量?嶺回歸和彈性網(wǎng)絡(luò)可以壓縮變量,LASSO和彈性網(wǎng)絡(luò)可以選擇變量。6.調(diào)節(jié)參數(shù)或懲罰參數(shù)的選擇標(biāo)準(zhǔn)有哪些?如何判斷哪些模型是較優(yōu)的?調(diào)節(jié)參數(shù)或懲罰參數(shù)的選擇標(biāo)準(zhǔn)包括信息準(zhǔn)則判斷和交叉驗(yàn)證兩種方法。其中,信息準(zhǔn)則的模型選擇方法包括赤池信息準(zhǔn)則(AkaikeInformationCriterion,AIC)和貝葉斯信息準(zhǔn)則(BayesianInformationCriterion,BIC),交叉驗(yàn)證的模型選擇方法則包括交叉驗(yàn)證法和廣義交叉驗(yàn)證法。通常情況下,AIC準(zhǔn)則低、BIC準(zhǔn)則低、交叉驗(yàn)證法下的均方誤差低的模型是較優(yōu)模型。

第八章數(shù)據(jù)降維模型1.闡述“降維”這一概念背后的現(xiàn)實(shí)邏輯。降維即通過數(shù)學(xué)變換將高維空間數(shù)據(jù)投射到低維空間中,并在這一過程中最大程度的保留重要信息,使得縮放后各個特征之間的距離與原始空間中的距離盡可能接近。2.對比主成分分析與其他幾類線性降維模型之間的差異。首先,主成分回歸只利用了自變量的信息,根據(jù)協(xié)方差矩陣求得主成分,而偏最小二乘法利用了因變量和自變量的信息。其次,主成分回歸是對數(shù)據(jù)做了一個正交變換,因此主成分之間都是正交的,而偏最小二乘法則不一定。最后,在確定主成分個數(shù)的時(shí)候,兩者都可以通過交叉檢驗(yàn)確定,但是主成分回歸一般使用信息占比值來確定,一般來說大于0.8就行了。3.對比線性降維模型與非線性降維模型之間的差異。由于高維空間與低維空間的關(guān)系不同,故降維模型可以分為線性將為模型與非線性降維模型。線性降維方法假設(shè)從高維空間到低維空間的函數(shù)映射是線性的,但是在世紀(jì)生活中,線性的映射不一定能找到一個合適的低維嵌入,故需要選擇非線性映射,即非線性降維模型。

第九章樹模型與分類模型1.闡述邏輯回歸的步驟。完整的邏輯分類,一般需要4個步驟:線性求和、函數(shù)映射、計(jì)算誤差以及修正參數(shù)。首先,進(jìn)行線性求和。假設(shè)有一個n維的輸入列向量

x,也有一個n維的參數(shù)列向量h,還有一個偏置量b(類似于二維的直線方程

y=ax+b中的b),那么通過線性求和可得:z=?式中,z的值域?yàn)閇?∞,+∞],現(xiàn)狀我們還無法根據(jù)z來判斷x到底是屬于0類還是1類的。其次,我們利用激活函數(shù)進(jìn)行函數(shù)映射。以Sigmoid函數(shù)為例,讓z的值映射到[0,1]之間,即:y=σ(z)=σ(式中,y的值域?yàn)閇0,1]。最后,計(jì)算誤差,并進(jìn)行參數(shù)的修正。假設(shè)我們期望輸入的判定值是u,而實(shí)際得到的判定值是y,為了使u盡可能接近y,我們會先計(jì)算;隨后,我們通過迭代計(jì)算修正h和b的值。如果我們將損失函數(shù)C(u,y)定義為用來描述u和y之間差距的損失函數(shù),那么我們的目的使C(u,y)最小化。通過不斷迭代,我們能夠計(jì)算得出h和b的最優(yōu)解,進(jìn)而確定最優(yōu)模型,得到最好的分類結(jié)果。2.闡述樹形模型非線性特征的來源。樹形結(jié)構(gòu)通過分支引入了“非線性”的概念,基于樹的模型本身就是非線性的。分叉作為是樹形模型最重要的結(jié)構(gòu),可以將具有不同特征的樣本進(jìn)行分類,類比人類在面對問題時(shí)自然的決策機(jī)制,定義為“決策樹”模型。一顆典型的決策樹包含一個初始根節(jié)點(diǎn),若干個延展出的內(nèi)部節(jié)點(diǎn)和包含最終決策結(jié)果的葉節(jié)點(diǎn),而具體節(jié)點(diǎn)數(shù)取決于模型初始設(shè)定的參數(shù)。使用決策樹決策的過程即從根節(jié)點(diǎn)開始,選擇一個特征作為當(dāng)前節(jié)點(diǎn)的分裂標(biāo)準(zhǔn),自上而下生成子節(jié)點(diǎn),直到到達(dá)葉子節(jié)點(diǎn)得出分類決策的結(jié)果。3.闡述樹形模型的度量指標(biāo),并試析信息增益作為劃分標(biāo)準(zhǔn)的缺陷。樹形模型常見的度量指標(biāo)有三種,信息熵與信息增益,信息增益率和基尼系數(shù)。決策樹的生成便是使用某特征對數(shù)據(jù)集進(jìn)行劃分,從而使得劃分后各數(shù)據(jù)子集的純度比劃分前的數(shù)據(jù)集純度高,這種劃分前后純度的差值稱為信息增益。信息增益率就是在信息增益指標(biāo)的基礎(chǔ)上增加一個懲罰參數(shù),該懲罰參數(shù)即為所選特征信息熵的倒數(shù)?;嵯禂?shù)表示在訓(xùn)練集中隨機(jī)選中一個樣本,此樣本被分類錯誤的概率。信息增益準(zhǔn)則的缺點(diǎn)是對取值較多的屬性有所偏好。一旦有一個指標(biāo)對每一個樣本都有不同取值,再以該指標(biāo)為劃分依據(jù),那每個結(jié)點(diǎn)的熵就為0,則所有分支結(jié)點(diǎn)的總熵也為0,那么這個特征的信息增益就一定是最大的。因此如果此時(shí)用信息增益準(zhǔn)則作為屬性劃分的依據(jù),最后根節(jié)點(diǎn)必然都是該指標(biāo)劃分的結(jié)果,但是顯然這是不對的。4.闡述對樹形模型進(jìn)行剪枝的原因并比較不同剪枝方法的差異。在分支過程中面臨的問題在于當(dāng)使用的屬性過多,模型訓(xùn)練的“過好”則會出現(xiàn)過擬合的情況。此時(shí),需要主動刪除決策樹模型的一些分支,來降低“過擬合”的風(fēng)險(xiǎn)。預(yù)剪枝的原理是設(shè)定一些規(guī)則極早地停止樹的擴(kuò)散,這些規(guī)則包括但不限于:對樹的深度設(shè)置一個閾值、設(shè)置每個葉片節(jié)點(diǎn)中所包含樣本的最小值、不純度指標(biāo)單次下降幅度的下限等。而后剪枝的操作與預(yù)剪枝相反,在決策樹模型構(gòu)建完成后進(jìn)行剪枝處理,通過刪除節(jié)點(diǎn)的分支來剪去中間節(jié)點(diǎn)或者葉節(jié)點(diǎn)達(dá)到后剪枝的目的。預(yù)剪枝提前使很多分支都沒有展開,降低了過擬合的風(fēng)險(xiǎn),但是這個分支下的后續(xù)劃分可能是非常有用的。從這點(diǎn)考慮,預(yù)剪枝是基于”貪心“的本質(zhì)來禁止分支以及后續(xù)的展開,在降低過擬合的同時(shí)也有欠擬合的風(fēng)險(xiǎn)。相比預(yù)剪枝,后剪枝的優(yōu)點(diǎn)是后剪枝決策樹通常比預(yù)剪枝決策樹保留了更多的分支,而且后剪枝決策樹的欠擬合風(fēng)險(xiǎn)很小,泛化性能往往優(yōu)于預(yù)剪枝決策樹。但后剪枝的缺點(diǎn)是決策樹訓(xùn)練時(shí)間開銷比未剪枝決策樹和預(yù)剪枝決策樹都要大的多。在后剪枝中最常用的主要有最小誤差剪枝法、悲觀剪枝法和代價(jià)復(fù)雜性剪枝法。最小誤差剪枝方法和代價(jià)復(fù)雜度法等方法從生成決策樹自下而上進(jìn)行剪枝處理,而悲觀剪枝法是一種完全使用訓(xùn)練數(shù)據(jù)來進(jìn)行剪枝的方法,而且采用自上而下的剪枝的策略。5.說明Boosting和Bagging兩類集成算法的差異。Boosting算法是基于“串聯(lián)”模型的思想來提高弱學(xué)習(xí)器準(zhǔn)確度的集成方法。Bagging通過并行的方式同步生成多個基學(xué)習(xí)器,最終通過集合所有學(xué)習(xí)器的結(jié)果來得到訓(xùn)練結(jié)果。不同于Boosting,Bagging生成的基學(xué)習(xí)器之間并沒有“依附”關(guān)系,每個模型通過隨機(jī)設(shè)定樣本集和特征數(shù)來得到。6.試析AdaBoost模型和GBDT模型的異同。梯度下降樹模型和Adaboost模型有很大的不同。首先二者使用的基學(xué)習(xí)器不同,AdaBoost算法利用單層決策樹的誤差來更新樣本權(quán)重值,然后進(jìn)行迭代;而GBDT要求弱學(xué)習(xí)器必須是分類與回歸樹模型。其次由于使用了CART模型,因此相比AdaBoost通過提升錯分?jǐn)?shù)據(jù)點(diǎn)的權(quán)重來定位模型的不足,GBDT模型可以使用更多種類的目標(biāo)函數(shù),通過計(jì)算目標(biāo)函數(shù)的梯度,使用梯度下降的方式來減少訓(xùn)練誤差。因此GBDT常用在處理連續(xù)數(shù)據(jù)的回歸問題中,此時(shí)目標(biāo)函數(shù)可以為均方誤差等。7.闡述XGBoost模型在GBDT算法基礎(chǔ)上做了哪些方面的優(yōu)化。具體優(yōu)化方面如下:(1)GBDT的基分類器只支持CART樹,而XGBoost支持線性分類器;(2)GBDT在優(yōu)化時(shí)只使用了一階倒數(shù),而XGBoost對目標(biāo)函數(shù)進(jìn)行二階泰勒展開;(3)XGBoost在訓(xùn)練之前,對數(shù)據(jù)預(yù)先進(jìn)行排序并保存為block,后續(xù)迭代中重復(fù)使用,并最終實(shí)現(xiàn)對基回歸樹的并行構(gòu)建;(4)與GBDT不同的是,在構(gòu)建目標(biāo)函數(shù)時(shí),XGBoost不僅使用了損失函數(shù),還加入代表了所有決策樹復(fù)雜程度的正則化項(xiàng)來防止過擬合,盡可能保證模型的泛化能力。8.闡述隨機(jī)森林模型為何能成為機(jī)器學(xué)習(xí)方法最受歡迎的模型之一。隨機(jī)森林中的“隨機(jī)”就是指的上述過程中的樣本隨機(jī)性和屬性隨機(jī)性。兩個隨機(jī)性的引入對隨機(jī)森林的分類性能至關(guān)重要。由于它們的引入,使得隨機(jī)森林不容易陷入過擬合,并且具有很好得抗噪能力。與傳統(tǒng)Bagging中基學(xué)習(xí)器的“多樣性”通過樣本擾動來實(shí)現(xiàn)不同,隨機(jī)森林模型的多樣性不僅來自于樣本,同時(shí)也來自屬性擾動。更多的隨機(jī)特性使得隨機(jī)森林的泛化能力大大提高,模型在很多現(xiàn)實(shí)任務(wù)中表現(xiàn)出強(qiáng)大的性能。隨機(jī)森林對噪聲和異常值有較好的容忍性,能夠在不需要降維的條件下處理具有高維特征的輸入樣本,具有良好的可擴(kuò)展性和并行性,而且能夠評估各個特征在分類問題上的重要性,這使得隨機(jī)森林模型成為樹形模型中最受歡迎的模型之一。

第十章神經(jīng)網(wǎng)絡(luò)模型1.闡述神經(jīng)網(wǎng)絡(luò)模型非線性特征的來源.構(gòu)成神經(jīng)網(wǎng)絡(luò)的基本單元是神經(jīng)元,而神經(jīng)元與神經(jīng)元之間經(jīng)過激活函數(shù)的作用。通常使用的激活函數(shù)很多都是非線性的,這可以拓展神經(jīng)網(wǎng)絡(luò)的運(yùn)用范圍。2.闡述梯度下降法和BP算法的聯(lián)系與區(qū)別。梯度下降法和BP算法都是神經(jīng)網(wǎng)絡(luò)的模型訓(xùn)練方法。但梯度下降法在訓(xùn)練過程中首先找到一個連續(xù)可微的函數(shù)作為待優(yōu)化的函數(shù);然后利用梯度下降法進(jìn)行參數(shù)迭代估計(jì),使可微函數(shù)在估計(jì)的參數(shù)處最優(yōu)值達(dá)到最小,其效率較為低下;而BP算法則首先計(jì)算輸出層的誤差,再按照公式逆向反推各隱藏層和輸入層的參數(shù)值,在達(dá)到規(guī)定的訓(xùn)練次數(shù)或模型誤差減少到一定范圍時(shí)停止訓(xùn)練,其效率較高。闡述LSTM的特點(diǎn)。LSTM模型是循環(huán)神經(jīng)網(wǎng)絡(luò)的一類分支,具有判定有效信息的記憶模塊,改善循環(huán)神經(jīng)網(wǎng)絡(luò)的長程依賴問題,目前已廣泛應(yīng)用于神經(jīng)語言程序等具有時(shí)序特征的數(shù)據(jù)挖掘及分析中。闡述生成式對抗網(wǎng)絡(luò)的“博弈性”特征。生成式對抗網(wǎng)絡(luò)是無監(jiān)督學(xué)習(xí)方法的一種,一個典型的GAN主要包含兩個獨(dú)立的神經(jīng)網(wǎng)絡(luò):生成器和判別器。其由生成器得到預(yù)測數(shù)據(jù)分布后,判別模塊對真實(shí)數(shù)據(jù)和預(yù)測數(shù)據(jù)進(jìn)行分類并返回判別信息給生成器,而最終的優(yōu)化結(jié)果即使得生成器生成的預(yù)測收益同真實(shí)收益無法被判別器識別,以達(dá)到以假亂真的效果。這就是生成式對抗網(wǎng)絡(luò)的“對抗性”,也即“博弈性”的特征。5.闡述強(qiáng)化學(xué)習(xí)的基本框架強(qiáng)化學(xué)習(xí)中的基本框架由兩個可以進(jìn)行交互的對象組成:智能體和環(huán)境。智能體可以感知外界環(huán)境的狀態(tài)和反饋的獎勵,做出不同的動作進(jìn)行決策,或是指根據(jù)外界環(huán)境的獎勵來調(diào)整策略進(jìn)行學(xué)習(xí)。環(huán)境是指智能體外部的所有事物,其受智能體動作的影響而改變其狀態(tài),并反饋給智能體相應(yīng)的獎勵。

第十一章模型評估、訓(xùn)練與可解釋性1.舉例說明“偏差”和“方差”在金融學(xué)中的含義。機(jī)器學(xué)習(xí)中的偏差概念(Bias)主要指模型期望輸出與真實(shí)值之間的差別,刻畫了模型本身的擬合能力。方差(Variance)則度量了訓(xùn)練集的變動所導(dǎo)致的學(xué)習(xí)性能的變化,體現(xiàn)了在不同訓(xùn)練集上模型輸出值的變異性,刻畫了模型輸出結(jié)果由于訓(xùn)練集的不同造成的波動。在金融學(xué)中可以延伸到選股模型的實(shí)踐,比如一些選股模型本身對訓(xùn)練集擬合能力很好(即偏差小),一旦更換新的訓(xùn)練集可能導(dǎo)致股票收益預(yù)測能力波動較大(即方差大)。在金融機(jī)器學(xué)習(xí)中,要合理適當(dāng)權(quán)衡模型的偏差與方差。2.“訓(xùn)練誤差”和“泛化誤差”的區(qū)別是什么。模型在訓(xùn)練集上的誤差稱為訓(xùn)練誤差,而泛化誤差即是模型在全新樣本上的誤差。3.訓(xùn)練集、驗(yàn)證集和測試集的區(qū)別與聯(lián)系?模型在訓(xùn)練集中開展訓(xùn)練或完成參數(shù)選擇;而驗(yàn)證集則是用來做模型選擇,考察其過擬合情況或調(diào)參,即做模型的最終優(yōu)化及確定的;而最終的測試集表現(xiàn)代表了模型的樣本外的預(yù)測能力,純粹是測試已經(jīng)訓(xùn)練好的模型準(zhǔn)確度。而在實(shí)際應(yīng)用中,通常只會將數(shù)據(jù)分為兩類,即訓(xùn)練集和測試。4.回歸模型中常見評價(jià)指標(biāo)有哪些?預(yù)測模型的常見評價(jià)指標(biāo)主要基于預(yù)測誤差的測度,常見的有平均絕對值誤差(MAE)和均方誤差(MSE)。樣本外的預(yù)測分析中可以使用均方預(yù)測誤差(MSFE)、R2指標(biāo)以及Diebold-Mariano方法5.闡述分類模型中的評價(jià)指標(biāo)。二元分類指標(biāo)中包含準(zhǔn)確率(預(yù)測正確的樣本在所有樣本中占的比例)、錯誤率(被預(yù)測錯誤的樣本在所有樣本中所占比例)、精確率(所有被預(yù)測為正收益的樣本中,多少比例是真的正收益)與召回率(所有真的正收益中,多少比例被模型成功預(yù)測)。ROC曲線是反映靈敏性和特效性連續(xù)變量的綜合指標(biāo),是用構(gòu)圖法揭示敏感性和特異性的相互關(guān)系,它通過將連續(xù)變量設(shè)定出多個不同的臨界值,從而計(jì)算出一系列敏感性和特異性。AUC值就是ROC曲線下的面積大小,通常取值在0與1之間。6.闡述K折交叉驗(yàn)證法的實(shí)施步驟。(1)把數(shù)據(jù)集隨機(jī)分為互斥的K個子集,為確保隨機(jī)性,進(jìn)行P次隨機(jī)劃分取平均;(2)將K個子集隨機(jī)分為K-1個子集,與余下1個子集,總共有K種分法;(3)在每一種分組結(jié)果中,訓(xùn)練K-1個子集數(shù)據(jù),另外1個當(dāng)作測試集,這樣就產(chǎn)生了K次結(jié)果,對結(jié)果取平均;(4)稱為P次K折交叉驗(yàn)證,通常令K=5或K=10(當(dāng)K=N時(shí)情況會在下一節(jié)進(jìn)行分析)。7.比較留出法、留一法、K折交叉驗(yàn)證法的優(yōu)勢和劣勢。留出法:優(yōu)勢在于簡單方便,易于理解。劣勢在于不夠穩(wěn)定;泛化誤差估計(jì)的準(zhǔn)確度降低。留一法:優(yōu)點(diǎn)在于訓(xùn)練集比初始數(shù)據(jù)集相比僅少一個數(shù)據(jù)集,偏差較小;留一法在分割訓(xùn)練集和測試集時(shí)沒有隨機(jī)性,重復(fù)使用結(jié)果相同。不足之處是模型擬合N次,在數(shù)據(jù)集比較大時(shí)訓(xùn)練計(jì)算精度過高,計(jì)算資源消耗大;每次訓(xùn)練只有1條測試數(shù)據(jù),無法有效幫助參數(shù)調(diào)優(yōu)。K折交叉驗(yàn)證法:K折交叉驗(yàn)證法的優(yōu)點(diǎn)是每個樣本都會被用作訓(xùn)練和測試,因此產(chǎn)生的參數(shù)估計(jì)的方差會很小,但考慮到金融數(shù)據(jù)的時(shí)序和周期特性,交叉驗(yàn)證中過多“舊”數(shù)據(jù)的使用反而可能弱化預(yù)測結(jié)果。綜上所述,當(dāng)數(shù)據(jù)量足夠時(shí),選擇簡單省時(shí)的留出法,在犧牲很小的準(zhǔn)確度的情況下,換取計(jì)算的簡便;當(dāng)數(shù)據(jù)量較小時(shí),應(yīng)該選擇交叉驗(yàn)證法,因?yàn)榇藭r(shí)按留出法的思路劃分樣本集將會使訓(xùn)練數(shù)據(jù)過少,偏差過大;當(dāng)數(shù)據(jù)量特別少的時(shí)候,計(jì)算資源的消耗可以接受,此時(shí)應(yīng)考慮留一法。8.什么是超參數(shù)設(shè)定?請闡述超參數(shù)設(shè)定的具體方法。超參數(shù)設(shè)定即為調(diào)節(jié)超參數(shù)(Hyperparameter),簡稱超參,調(diào)參的過程即為超參優(yōu)化過程。超參數(shù)調(diào)優(yōu)主要包括手動搜索、網(wǎng)格搜索、隨機(jī)搜索以及貝葉斯優(yōu)化四種方法。9.闡述黑箱模型與白箱模型。通常在做模型選擇(黑箱模型或白箱模型)時(shí),要權(quán)衡模型預(yù)測客觀精確性和可解釋性。黑箱模型(包括:神經(jīng)網(wǎng)絡(luò)模型、集成模型等):模型預(yù)測具有高度的精準(zhǔn)性,但其內(nèi)部運(yùn)算機(jī)制難以被理解,也無法衡量每個特征變量對于模型預(yù)測結(jié)果的重要性,更不能體現(xiàn)特征變量之間的相互作用。白箱模型(包括線性回歸模型、決策樹模型等):模型具有出色的可解釋性,且內(nèi)部的運(yùn)算機(jī)制也容易理解,但模型預(yù)測能力受限,且無法對數(shù)據(jù)集內(nèi)在的復(fù)雜性進(jìn)行建模。10.增強(qiáng)模型可解釋性的方法有哪些?(1)特征重要度(2)特征交互(3)ShapleyValues(常用SHAP方法)(4)部分依賴圖(PDP)(5)個體條件期望圖(ICE)(6)累積局部效應(yīng)圖(ALE)(7)全局(GSM)或局部(LIME)代理模型。

第十二章金融領(lǐng)域的機(jī)器學(xué)習(xí)1.文本數(shù)據(jù)有哪些特點(diǎn)?文本數(shù)據(jù)與諸如行情交易等傳統(tǒng)金融數(shù)據(jù)不同,具有兩個獨(dú)特特征。首先,文本數(shù)據(jù)一般無固定結(jié)構(gòu),無法用傳統(tǒng)二維表進(jìn)行邏輯表達(dá)。其次,文本數(shù)據(jù)具有與生俱來的高維特性。2.文本數(shù)據(jù)可以通過哪些途徑獲得?文本大數(shù)據(jù)主要通過三種方式獲取:1.手工收集法;2.數(shù)據(jù)庫獲取法;3.網(wǎng)絡(luò)抓取法。3.將文本數(shù)據(jù)轉(zhuǎn)化為數(shù)據(jù)矩陣的方法有哪些?可以利用詞袋模型(BagsofWords)、Word2Vec(WordtoVector)、N元模型(N-gram)、主題模型(TopicModel)、BERT模型(BidirectionalEncoderRepresentationfromTransformers)等方法將文本數(shù)據(jù)轉(zhuǎn)化為數(shù)據(jù)矩陣。4.文本特征識別方法有哪些?文本特征識別方法有可讀性衡量(Readability)、文本敘述方法(Narrative)、文本相似性(Similarity)等。5.對文本數(shù)據(jù)進(jìn)行信息提取的方法有哪些?可以利用詞典法、樸素貝葉斯、支持向量機(jī)以及深度學(xué)習(xí)等方法對文本數(shù)據(jù)進(jìn)行信息提取。6.文本分析技術(shù)在金融市場有哪些應(yīng)用?目前,文本分析技術(shù)在金融市場的應(yīng)用大致可分為兩類,一是對文本顯示的投資者情緒正負(fù)、新聞或者文件語調(diào)正負(fù)進(jìn)行分類的問題,二是對關(guān)注度、不確定性、恐慌程度、意見分歧程度的度量以及相應(yīng)的回歸問題。7.根據(jù)研究主體不同,關(guān)注度可以分成哪三類?根據(jù)研究主體不同,關(guān)注度可分為投資者關(guān)注度(散戶投資者和機(jī)構(gòu)投資者)、媒體關(guān)注度和分析師關(guān)注度三類。

第十三章基于機(jī)器學(xué)習(xí)的金融時(shí)間序列預(yù)測1.常見的宏觀經(jīng)濟(jì)指標(biāo)有哪些?常見的宏觀經(jīng)濟(jì)指標(biāo)有通貨膨脹、國民生產(chǎn)總值、就業(yè)率和國際收支平衡。2.PCA與sPCA的區(qū)別在哪里?兩者的預(yù)測能力如何?傳統(tǒng)PCA模型在處理預(yù)測因子集時(shí)只考慮數(shù)據(jù)內(nèi)部的信噪比,并沒有考慮數(shù)據(jù)集與被預(yù)測項(xiàng)的關(guān)系。而sPCA強(qiáng)調(diào)單一數(shù)據(jù)中包含兩類信息,一為模型預(yù)測所需要的,而另一類為其他無關(guān)的噪聲信息,因此在降維前給予信息多的數(shù)據(jù)更高權(quán)重而降低信息少、噪音多的數(shù)據(jù)權(quán)重,新構(gòu)建的數(shù)據(jù)集將具有更高的預(yù)測能力。3.公司特征指標(biāo)一般分為哪幾類?公司特征指標(biāo)一般分為估值類指標(biāo)、投資類指標(biāo)、趨勢類指標(biāo)、市場類指標(biāo)和無形資產(chǎn)類指標(biāo)。

第十四章基于機(jī)器學(xué)習(xí)的因子投資1.闡述第一節(jié)案例深度學(xué)習(xí)中國股票市場因子投資組合中的訓(xùn)練集、驗(yàn)證集以及預(yù)測集的設(shè)定。樣本初始訓(xùn)練集為2003年1月至2006年12月,初始驗(yàn)證集為2007年1月至2008年12月,利用得到的預(yù)測模型估計(jì)樣本期為2009年1月至2009年12月的股票收益;之后每年初保持驗(yàn)證集和測試集長度不變,訓(xùn)練集長度增加一年,最終得到的樣本外預(yù)測集為2009年1月至2017年12月共108個月收益預(yù)測數(shù)據(jù)。2.第二節(jié)案例各類機(jī)器學(xué)習(xí)方法構(gòu)建中國股票市場因子投資組合中如何對數(shù)據(jù)進(jìn)行篩選和修正?首先,將財(cái)務(wù)數(shù)據(jù)的樣本時(shí)間區(qū)間起始點(diǎn)選在2000年后。這是由于中國股票市場從90年代初期建立的頭十年里,市場機(jī)制不健全、上市公司數(shù)量較少、公司的財(cái)務(wù)造假和內(nèi)幕交易現(xiàn)象較嚴(yán)重,因此難以得到令人信服的實(shí)證資產(chǎn)定價(jià)研究結(jié)論。其次,我國在2000年左右加入了世界貿(mào)易組織(WTO),以此為契機(jī),我國的市場經(jīng)濟(jì)的發(fā)展程度更加完善,股票市場機(jī)制更加成熟,上市公司的財(cái)務(wù)披露質(zhì)量和監(jiān)管力度顯著提高。因此,根據(jù)目前研究中國股票市場的研究經(jīng)驗(yàn),將分析的起始點(diǎn)選在2000年后。3.第三節(jié)案例因子動物園中所構(gòu)造的因子模型包括哪些?包括五因子模型與七因子模型,如下所示RR4.對投資組合的評估指標(biāo)有哪些?有夏普比率(Sharperatio),確定等價(jià)收益(CER,certaintyequivalentreturn)和換手率(Turnover)。夏普比率是一種普遍使用的評估投資組合表現(xiàn)的指標(biāo),其含義是投資組合每單位風(fēng)險(xiǎn)所帶來的收益。確定等價(jià)收益的等價(jià)意味著一個投資者認(rèn)為下列兩個選擇是等價(jià)的:①某個投資組合策略所產(chǎn)生的收益②恒等于CER的無風(fēng)險(xiǎn)利率。換手率是評價(jià)投資組合表現(xiàn)的關(guān)鍵指標(biāo),其定義為N個資產(chǎn)在各期之間變化值的絕對值之和。5.闡述二次組合方法。與主要致力于通過單次精確估計(jì)來減少估計(jì)過程中的誤差不同,Kan&Zhou(2007)和Zhou(2011)提出了將互補(bǔ)方法的結(jié)果進(jìn)行二次組合,從而得到一個表現(xiàn)更好的方法,即為二次組合方法。

第十五章基于機(jī)器學(xué)習(xí)的風(fēng)險(xiǎn)管理1.金融風(fēng)險(xiǎn)是什么?你所知道的風(fēng)險(xiǎn)度量指標(biāo)有哪些?金融風(fēng)險(xiǎn)包括了金融市場風(fēng)險(xiǎn)、金融產(chǎn)品風(fēng)險(xiǎn)、金融機(jī)構(gòu)風(fēng)險(xiǎn)等。一家金融機(jī)構(gòu)發(fā)生的風(fēng)險(xiǎn)所帶來的后果,往往超過對其自身的影響。金融機(jī)構(gòu)在具體的金融交易活動中出現(xiàn)的風(fēng)險(xiǎn),有可能對該金融機(jī)構(gòu)的生存構(gòu)成威脅;具體的一家金融機(jī)構(gòu)因經(jīng)營不善而出現(xiàn)危機(jī),有可能對整個金融體系的穩(wěn)健運(yùn)行構(gòu)成威脅;一旦發(fā)生系統(tǒng)風(fēng)險(xiǎn),金融體系運(yùn)轉(zhuǎn)失靈,必然會導(dǎo)致全社會經(jīng)濟(jì)秩序的混亂,甚至引發(fā)嚴(yán)重的政治危機(jī)。常用的風(fēng)險(xiǎn)指標(biāo)有逾期天數(shù)、逾期期數(shù)、遞延指標(biāo)、不良率、欺詐損失率等等。(1)逾期天數(shù)(dayspastdure,DPD)代表已逾契約書預(yù)定繳款日的延滯天數(shù),貸款型產(chǎn)品自繳款截止日后第一天開始計(jì)算;而信用卡較為特別,雖然繳款截止日為關(guān)賬日后20天,但逾期天數(shù)也是由次一關(guān)賬日后起算。(2)遞延指標(biāo)(lagged)為計(jì)算延滯率時(shí)常用的一種方法。銀行的風(fēng)險(xiǎn)管理單位較常使用lagged指針,優(yōu)點(diǎn)是可以回溯逾期起源,不受業(yè)務(wù)起伏影響,較能合理的反應(yīng)逾期狀態(tài),缺點(diǎn)是需要回推歷史數(shù)據(jù),計(jì)算較為麻煩。2.GARCH模型是用來解決波動率的什么問題?是通過什么辦法解決的?GARCH模型假設(shè)波動率是一個有著自回歸結(jié)構(gòu)的隱含變量,因此能以極其簡單的結(jié)構(gòu)來刻畫波動率聚類效應(yīng),使波動率度量值的設(shè)定更加合理。3.我國股市的崩盤風(fēng)險(xiǎn)來源有哪些?你可以解釋其背后的經(jīng)濟(jì)原因嗎?在金融市場理論下,我國股市的崩盤風(fēng)險(xiǎn)來源主要有兩點(diǎn):(1)首先是投資者結(jié)構(gòu)。我國不管是在股市、債市、基市這些傳統(tǒng)的資本市場,個人投資者都占主體和主導(dǎo)地位。個人投資者的主要特征是過度交易,其行為很大程度上扭曲了整個市場的資產(chǎn)定價(jià)和市場流動性。(2)其次引起系統(tǒng)性風(fēng)險(xiǎn)的原因就是交易制度。我國用的是指令驅(qū)動的交易制度,沒有做市商,市場的流動性主要由投資者主導(dǎo)。一旦市場出現(xiàn)大幅度波動,知情交易者不愿意提供流動性,這樣就出現(xiàn)流動性風(fēng)險(xiǎn),流動性風(fēng)險(xiǎn)的蔓延和傳染形成系統(tǒng)性風(fēng)險(xiǎn)。4.在第一節(jié)的案例一中,你對2015年前后的樣本預(yù)測結(jié)果有什么看法?你認(rèn)為是什么因素影響了模型的預(yù)測能力?在2015年股災(zāi)發(fā)生之后各模型的預(yù)測能力都有明顯的下降,但其預(yù)測能力依舊表現(xiàn)優(yōu)秀。這說明使用機(jī)器學(xué)習(xí)模型來預(yù)測波動率是切實(shí)可行的,但是風(fēng)險(xiǎn)事件的發(fā)生也會對模型預(yù)測精度產(chǎn)生影響。有可能股災(zāi)等事件的發(fā)生使得投資者更加害怕此類事件,市場更容易受到風(fēng)險(xiǎn)的影響,反映程度更難以預(yù)測,因此機(jī)器學(xué)習(xí)方法的預(yù)測精度有所下滑(合理即可)5.在第二節(jié)的案例二中,你認(rèn)為那種機(jī)器學(xué)習(xí)模型表現(xiàn)最好,為什么?在測試集樣本下,Bagging和隨機(jī)森林方法在訓(xùn)練階段展示出了較高的準(zhǔn)確性。然而,這并不意味著他們是好模型,有可能這兩種機(jī)器學(xué)習(xí)方法在訓(xùn)練集中產(chǎn)生了過擬合效應(yīng)。因此為了增加說服力,在來看使用原始數(shù)據(jù)集檢驗(yàn)的結(jié)果——所有的預(yù)測模型性能都有所下降,但是綜合來看,機(jī)器學(xué)習(xí)模型中的boosting、bagging和隨機(jī)森林模型的預(yù)測效果最為優(yōu)秀。6.在第三節(jié)的案例二中,為什么要用對精準(zhǔn)度與召回率進(jìn)行等權(quán)調(diào)整的F1度量值來衡量整體預(yù)測能力呢?F-score作為機(jī)器學(xué)習(xí)模型中最常用的測量方法,是根據(jù)測試的精確度和召回率計(jì)算出來的。F-score關(guān)注的是權(quán)衡精確度和召回率,精確度可以看作是質(zhì)量的衡量標(biāo)準(zhǔn),而召回率則是數(shù)量的衡量標(biāo)準(zhǔn)。較高的精度意味著模型返回的相關(guān)結(jié)果比不相關(guān)的結(jié)果更多,高召回率意味著模型返回了大部分相關(guān)結(jié)果。而在案例中為了比較不同模型的預(yù)測精度,因此需要使用對測試的精準(zhǔn)度與召回率進(jìn)行等權(quán)調(diào)整的F-score值。

第十六章基于文本分析的投資者情緒研究1.闡述金融市場不同類型文本的特征在學(xué)術(shù)研究以及業(yè)界實(shí)踐中主要應(yīng)用的文本包括企業(yè)會計(jì)報(bào)告文本、媒體新聞報(bào)道文本、網(wǎng)絡(luò)論壇文本和政府公告文本。企業(yè)會計(jì)報(bào)告是按照監(jiān)管要求定期對外提供關(guān)于企業(yè)經(jīng)營狀況的整體報(bào)告,包含了反

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論