![第2講 金融大數(shù)據(jù)的降維_第1頁(yè)](http://file4.renrendoc.com/view/2d5176429b9602e9ed6c5a90a8e41989/2d5176429b9602e9ed6c5a90a8e419891.gif)
![第2講 金融大數(shù)據(jù)的降維_第2頁(yè)](http://file4.renrendoc.com/view/2d5176429b9602e9ed6c5a90a8e41989/2d5176429b9602e9ed6c5a90a8e419892.gif)
![第2講 金融大數(shù)據(jù)的降維_第3頁(yè)](http://file4.renrendoc.com/view/2d5176429b9602e9ed6c5a90a8e41989/2d5176429b9602e9ed6c5a90a8e419893.gif)
![第2講 金融大數(shù)據(jù)的降維_第4頁(yè)](http://file4.renrendoc.com/view/2d5176429b9602e9ed6c5a90a8e41989/2d5176429b9602e9ed6c5a90a8e419894.gif)
![第2講 金融大數(shù)據(jù)的降維_第5頁(yè)](http://file4.renrendoc.com/view/2d5176429b9602e9ed6c5a90a8e41989/2d5176429b9602e9ed6c5a90a8e419895.gif)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第二講金融大數(shù)據(jù)的降維在大數(shù)據(jù)時(shí)代,如何處理高維數(shù)據(jù)是機(jī)器學(xué)習(xí)中的重要組成部分。1高維空間常存在數(shù)據(jù)稀疏問(wèn)題,高維的樣本空間還會(huì)對(duì)距離計(jì)算帶來(lái)很大的麻煩。2面對(duì)高維數(shù)據(jù),如何降低數(shù)據(jù)維度同時(shí)保持其特征信息?各類降維方法有哪些優(yōu)點(diǎn)與局限?面對(duì)不同的應(yīng)用場(chǎng)景,又該如何選擇降維方法?3章前導(dǎo)讀了解作用和應(yīng)用場(chǎng)景了解數(shù)據(jù)降維的動(dòng)機(jī)、常用方法了解數(shù)據(jù)降維在金融領(lǐng)域的運(yùn)用掌握數(shù)據(jù)降維的準(zhǔn)備工作、主要方法及其代碼實(shí)現(xiàn)學(xué)習(xí)目標(biāo)本講內(nèi)容數(shù)據(jù)降維的準(zhǔn)備工作數(shù)據(jù)降維概述及其運(yùn)用場(chǎng)景主成分分析數(shù)據(jù)降維在金融領(lǐng)域的運(yùn)用因子分析一、數(shù)據(jù)降維概述及其運(yùn)用場(chǎng)景數(shù)據(jù)降維的動(dòng)機(jī)維數(shù)災(zāi)難在涉及到向量計(jì)算的問(wèn)題中,隨著維數(shù)的增加,計(jì)算量呈指數(shù)倍增長(zhǎng)。樣本點(diǎn)所包含的信息密度隨維度增加而降低,相同的測(cè)度時(shí)在高維空間需要更多的樣本點(diǎn)作為支撐。維數(shù)災(zāi)難的后果分類模型過(guò)擬合,進(jìn)而導(dǎo)致預(yù)測(cè)能力下降。數(shù)據(jù)降維的常用方法學(xué)習(xí)映射函數(shù)??(??)=??,其中??是原始高維向量,??是映射后的低維向量。數(shù)據(jù)降維的本質(zhì)數(shù)據(jù)降維的方法特征選擇——挑選特征的子集。保留的特征全部來(lái)源于原特征集特征提取——獲得原來(lái)特征的線性(或者非線性)組合。經(jīng)過(guò)特征提取后的變量不能在原來(lái)的特征集中找到。數(shù)據(jù)降維的作用去除冗余信息,提高數(shù)據(jù)信噪比降維可以減少由原始高維空間中的冗余信息所造成的誤差。降維后的保留的重要相關(guān)特征,能夠減輕機(jī)器學(xué)習(xí)模型訓(xùn)練壓力、提升模型預(yù)測(cè)性能。提煉關(guān)鍵信息,歸并同類型指標(biāo)降維能夠提煉同類型指標(biāo)中的關(guān)鍵信息,簡(jiǎn)化指標(biāo)體系,聚焦總體影響。降維也可以幫助提升高維數(shù)據(jù)的可視化程度。數(shù)據(jù)降維在金融領(lǐng)域的應(yīng)用場(chǎng)景定價(jià)因子的構(gòu)建在資產(chǎn)定價(jià)方面,降維分析方法常被用于提取代表系統(tǒng)風(fēng)險(xiǎn)的潛在因子、捕獲高頻數(shù)據(jù)的因子結(jié)構(gòu)。進(jìn)而量化地、系統(tǒng)地、精細(xì)地控制投資組合的預(yù)期收益和承受風(fēng)險(xiǎn),以構(gòu)建更加有效的投資組合。用戶畫(huà)像金融機(jī)構(gòu)常需要通過(guò)海量數(shù)據(jù)刻畫(huà)客戶特點(diǎn)以及對(duì)產(chǎn)品的偏好,以此實(shí)現(xiàn)對(duì)不同客戶群的精準(zhǔn)營(yíng)銷。在正式對(duì)用戶進(jìn)行分類前,降維分析方法常用于對(duì)指標(biāo)的簡(jiǎn)化和預(yù)處理,有助于提高后續(xù)大數(shù)據(jù)分析模型的效率。二、數(shù)據(jù)降維的準(zhǔn)備工作數(shù)據(jù)降維在金融領(lǐng)域的應(yīng)用場(chǎng)景動(dòng)機(jī)待分析的原始數(shù)據(jù)存在量綱上的不一致,導(dǎo)致計(jì)算誤差。歸一化或標(biāo)準(zhǔn)化處理可以使它們相同的范圍內(nèi)。
缺失值補(bǔ)充當(dāng)某一變量的數(shù)據(jù)缺漏比例較高時(shí),變量所含的有用信息較多。適用情況使用變量的均值、眾數(shù)、中位數(shù)、滯后項(xiàng)進(jìn)行填充。根據(jù)實(shí)際情況采用0、正無(wú)窮、負(fù)無(wú)窮進(jìn)行統(tǒng)一填充。一般填充方法牛頓插值法、拉格朗日插值法、埃爾米特(Hermite)插值法等其他插值方法?!澳M產(chǎn)生”真實(shí)值的填充方法(針對(duì)時(shí)間序列)缺失值補(bǔ)充牛頓插值法
三、主成分分析基本原理主成分分析是根據(jù)每個(gè)維度的離散程度,來(lái)尋找少數(shù)代表關(guān)鍵信息的“成分”。主成分分析是一種數(shù)學(xué)變換的方法。它把給定的一組相關(guān)變量通過(guò)總方差不變的線性變換轉(zhuǎn)成另一組不相關(guān)的變量,這些新的變量按照方差依次遞減的順序排列。第一變量具有最大的方差,稱為第一主成分,第二變量的方差次大,并且和第一變量不相關(guān),稱為第二主成分。依次類推,??個(gè)變量就有??個(gè)主成分。主成分分析算法
主成分分析步驟與代碼實(shí)現(xiàn)主成分分析的相關(guān)Python代碼如下,設(shè)原始數(shù)據(jù)為x:##導(dǎo)入PCA模塊fromsklearn.decompositionimportPCA##創(chuàng)建主成分分析對(duì)象pca=PCA(n_components=k)x_pca=pca.fit_transform(x)#將原數(shù)據(jù)集降維,并存儲(chǔ)至x_pcapca.explained_variance_#降維后的各主成分的方差值pca.explained_variance_ratio_#各主成分的方差貢獻(xiàn)率步驟操作第一步對(duì)原始變量進(jìn)行預(yù)處理:補(bǔ)充缺失值并進(jìn)行標(biāo)準(zhǔn)化處理第二步對(duì)標(biāo)準(zhǔn)化處理后的數(shù)據(jù)計(jì)算載荷矩陣和各主成分的方差貢獻(xiàn)率第三步對(duì)各成分的方差貢獻(xiàn)率進(jìn)行排序,并據(jù)此確定保留的主成分個(gè)數(shù)第四步輸出主成分,為下一步的數(shù)據(jù)分析做準(zhǔn)備主成分分析的評(píng)價(jià)第一、豐富了可用的數(shù)據(jù)集。第二、沒(méi)有參數(shù)限制。第三、克服了人為確定權(quán)數(shù)的缺陷,使得綜合評(píng)價(jià)結(jié)果客觀唯一。第一、得出的主成分不一定有相應(yīng)的經(jīng)濟(jì)含義或解釋。第二、主成分分析法假設(shè)指標(biāo)之間的關(guān)系都為線性關(guān)系。第三、主成分分析在處理預(yù)測(cè)問(wèn)題時(shí),不能區(qū)分目標(biāo)相關(guān)和不相關(guān)的潛在因素,也不能保證第一個(gè)主成分能最好地預(yù)測(cè)目標(biāo),因而導(dǎo)致模型的預(yù)測(cè)效果不理想。四、因子分析基本原理因子分析是通過(guò)研究眾多變量之間的內(nèi)部依賴關(guān)系,使用少數(shù)幾個(gè)“抽象”的變量來(lái)表示其基本的數(shù)據(jù)結(jié)構(gòu)。這幾個(gè)抽象的變量被稱作“因子”,能反映原來(lái)眾多變量的主要信息。原始的變量是可觀測(cè)的顯在變量,而因子一般是不可觀測(cè)的潛在變量。例如:股票的成長(zhǎng)性和股票的流動(dòng)性,均不可直接觀測(cè),我們需要利用一些指標(biāo)來(lái)間接反映。因子分析就是一種通過(guò)顯在變量測(cè)評(píng)潛在變量,通過(guò)具體指標(biāo)測(cè)評(píng)抽象因子的統(tǒng)計(jì)分析方法。因子分析模型
因子分析模型因子個(gè)數(shù)不超過(guò)顯性特征變量個(gè)數(shù),即??≤??;1因子分析的假設(shè)
3??與??不相關(guān),??????(??,??)=??;2各個(gè)特殊因子之間不相關(guān),但方差不要求相等。4因子分析模型因子旋轉(zhuǎn)因子載荷矩陣??并不唯一。當(dāng)公共因子的含義模糊不清時(shí),我們可以對(duì)因子載荷矩陣實(shí)行旋轉(zhuǎn)變換,使得公共因子具備更強(qiáng)的解釋力。正交旋轉(zhuǎn)和斜交旋轉(zhuǎn)是因子旋轉(zhuǎn)的兩類方法,其中最常用的是最大方差正交旋轉(zhuǎn)法。正交旋轉(zhuǎn)變換的目的是使各因子上的載荷向兩極轉(zhuǎn)化,使大的載荷更大,的載荷更小,以達(dá)到簡(jiǎn)化結(jié)構(gòu)的目的。因子分析模型
在實(shí)際應(yīng)用中常有??<??,因此并不能精確計(jì)算出因子的得分情況,只能對(duì)因子得分進(jìn)行估計(jì),常見(jiàn)的方法有湯姆孫回歸法。因子得分“”因子分析模型因子分析的相關(guān)Python代碼如下:##導(dǎo)入因子分析程序包fromfactor_analyzerimportFactorAnalyzer##創(chuàng)建因子分析對(duì)象,設(shè)定公共因子數(shù)為4,并以最大方差正交旋轉(zhuǎn)法進(jìn)行因子旋轉(zhuǎn)fa=FactorAnalyzer(n_factors=4,method='ml',rotation='varimax')fa.fit(X)#對(duì)標(biāo)準(zhǔn)化后的數(shù)據(jù)X進(jìn)行因子分析ev,v=fa.get_eigenvalues()#輸出因子相關(guān)矩陣和特征值pd.DataFrame(np.round(fa.loadings_,2))#輸出因子載荷pd.DataFrame(np.round(fa.transform(X),2))#計(jì)算因子得分主成分分析與因子分析的比較相同點(diǎn)相同點(diǎn)都應(yīng)用于數(shù)據(jù)降維和信息濃縮。生成的新變量均包括了原始變量的大部分信息。兩者的線性表示方向不同。信息損失不同。應(yīng)用場(chǎng)景存在差異。五、數(shù)據(jù)降維在金融領(lǐng)域的運(yùn)用案例一:主成分分析在構(gòu)建普惠金融指數(shù)中的應(yīng)用普惠金融也稱作包容性金融、金融包容。根據(jù)世界銀行的定義,普惠金融是能夠使社會(huì)所有階層和群體廣泛、無(wú)障礙地享受金融服務(wù)的一種金融體系。普惠金融指標(biāo)體系可以概括為以下三個(gè)維度:廣泛的包容性、特定化配比程度和商業(yè)可持續(xù)性。從這三個(gè)維度出發(fā),可以構(gòu)建出如下指標(biāo)體系。案例背景案例一:主成分分析在構(gòu)建普惠金融指數(shù)中的應(yīng)用在此案例中,僅選取表2-3中的13個(gè)指標(biāo)(數(shù)據(jù)涵蓋2009至2016年31個(gè)中國(guó)大陸省、市、自治區(qū))進(jìn)行一次主成分分析。接著,這三個(gè)維度的主成分再進(jìn)行一次主成分分析,以各自的載荷作為權(quán)重,加權(quán)平均得到普惠金融發(fā)展指數(shù)的單一指標(biāo),以用于后續(xù)的量化分析。首先,對(duì)每個(gè)維度內(nèi)的各分項(xiàng)指標(biāo)利用主成分分析方法進(jìn)行降維,以累積方差貢獻(xiàn)率達(dá)到80%作為標(biāo)準(zhǔn),分別提取三個(gè)維度的主成分。具體步驟案例一:主成分分析在構(gòu)建普惠金融指數(shù)中的應(yīng)用表2-4前五大主成分的方差及方差貢獻(xiàn)率圖2.5主成分分析的碎石圖主成分方差方差貢獻(xiàn)率%累積方差貢獻(xiàn)率%7.1080.5430.5432.1920.1680.7111.2790.0980.8090.7980.0610.8700.6460.0490.919三個(gè)主成分的累計(jì)方差貢獻(xiàn)率為80.9%(>80%),碎石圖也表明在主成分個(gè)數(shù)為3時(shí)出現(xiàn)拐點(diǎn),因而我們提取前三個(gè)主成分進(jìn)行后續(xù)的數(shù)據(jù)分析。案例一:主成分分析在構(gòu)建普惠金融指數(shù)中的應(yīng)用牛頓插值法維度指標(biāo)(X)廣泛的包容性數(shù)字金融覆蓋廣度0.344-0.2330.038數(shù)字金融使用深度0.321-0.1860.066地區(qū)ATM密度0.2710.3910.130……………特定化配比程度中小企業(yè)貸款占比/中小企業(yè)資產(chǎn)占比0.0090.117-0.719農(nóng)戶經(jīng)營(yíng)貸款占比/農(nóng)業(yè)增加值占比0.2300.261-0.338……………商業(yè)可持續(xù)性涉農(nóng)企業(yè)、中小企業(yè)不良貸款率-0.1100.3050.511保費(fèi)支出/保費(fèi)收入-0.1580.352-0.191……………從上表可以看出,第一大主成分與“廣泛的包容性”維度的指標(biāo)相關(guān)性較大,但第二和第三大主成分關(guān)于“廣泛的包容性”、“特定配比程度”以及“商業(yè)可持續(xù)性”三個(gè)維度的載荷系數(shù)差距不大,難以區(qū)分該主成分所指代的現(xiàn)實(shí)含義。案例二:因子分析在股票量化投資策略構(gòu)建中的應(yīng)用案例二利用因子分析模型,設(shè)計(jì)了一個(gè)簡(jiǎn)單的股票量化投資策略。從A股市場(chǎng)抽取了100只股票作為研究對(duì)象,選取18個(gè)財(cái)務(wù)指標(biāo),樣本區(qū)間為2016年第一季度至2020年第4季度。在股票市場(chǎng)中,如何從不同維度、數(shù)量龐大的各種因子中提煉信息,進(jìn)而選擇潛在的優(yōu)質(zhì)股票呢?隨著中國(guó)金融市場(chǎng)的發(fā)展,股票已成為一條重要的投資工具,幫助人們選股投資的股票基金經(jīng)理,也作為一項(xiàng)職業(yè)也越來(lái)越受到歡迎。案例背景案例二:因子分析在股票量化投資策略構(gòu)建中的應(yīng)用全樣本區(qū)間因子分析由表2-6可知,五個(gè)因子的累計(jì)方差貢獻(xiàn)率已超過(guò)80%,綜合考慮18個(gè)指標(biāo)分別衡量了盈利能力、經(jīng)營(yíng)成本、發(fā)展能力、運(yùn)營(yíng)能力以及償債能力五個(gè)維度,因而我們選擇模型中的因子個(gè)數(shù)為5。因子方差貢獻(xiàn)方差貢獻(xiàn)率%累積方差貢獻(xiàn)率%3.95522.0%22.0%3.30918.4%40.4%3.22117.9%58.2%2.38713.3%71.5%1.7719.8%81.3%0.9765.4%86.8%0.8914.9%91.7%0.5393.0%94.7%案例二:因子分析在股票量化投資策略構(gòu)建中的應(yīng)用旋轉(zhuǎn)前旋轉(zhuǎn)后因子載荷矩陣(最大方差法旋轉(zhuǎn)前后對(duì)比)案例二:因子分析在股票量化投資策略構(gòu)建中的應(yīng)用旋轉(zhuǎn)后因子的經(jīng)濟(jì)含義因子經(jīng)濟(jì)含義盈利能力(與資產(chǎn)報(bào)酬率、息稅前利潤(rùn)等最為相關(guān))營(yíng)運(yùn)能力(與營(yíng)業(yè)周期、資產(chǎn)周轉(zhuǎn)率等最為相關(guān))增長(zhǎng)能力(與固定資產(chǎn)增長(zhǎng)率、營(yíng)業(yè)收入增長(zhǎng)率等最為相關(guān))償債能力(與流動(dòng)比率、速動(dòng)比率、長(zhǎng)期借款比率等最為相關(guān))經(jīng)營(yíng)成本(與銷售費(fèi)用率,財(cái)務(wù)費(fèi)用率等最為相關(guān))案例二:因子分析在股票量化投資策略構(gòu)建中的應(yīng)用分析結(jié)果計(jì)算各只股票在五個(gè)因子上的得分,并以方差貢獻(xiàn)率為權(quán)重計(jì)算總得分進(jìn)行排序,下表為總得分排名前五的股票情況。股票代碼因子得分總得分40-0.2980.0881.8250.1890.0491.85396-0.211-0.0060.0251.6840.1351.627626-0.0911.6500.0200.095-0.1021.5725900.0440.0450.8770.168-0.1001.03470-0.0510.1610.937-0.1140.0360.970案例二:因子分析在股票量化投資策略構(gòu)建中的應(yīng)用投資策略設(shè)計(jì)本案例在2017年第一季度至2020年第四季度使用上述策略的股票投資,將案例中的100只股票作為市場(chǎng)基準(zhǔn),得到因子投資策略收益率為3.78%,相同時(shí)段內(nèi)市場(chǎng)收益率為-9.23%。步驟操作第一步設(shè)定初始窗口期為四個(gè)季度,計(jì)算窗口期內(nèi)各只股票在18個(gè)指標(biāo)上的樣本均值第二步基于窗口期的均值數(shù)據(jù)進(jìn)行因子分析,并進(jìn)行因子旋轉(zhuǎn)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025至2031年中國(guó)電子病歷掌上系統(tǒng)行業(yè)投資前景及策略咨詢研究報(bào)告
- 第二章有理數(shù)的運(yùn)算 2.3.1乘方(第一課時(shí))教學(xué)設(shè)計(jì)人教版(2024版) 數(shù)學(xué)七年級(jí)上冊(cè)
- 涉江采芙蓉(教學(xué)設(shè)計(jì))-2024-2025學(xué)年高一語(yǔ)文必修上冊(cè)同步備課系列(統(tǒng)編版2019)
- 2025至2031年中國(guó)前端加擾器行業(yè)投資前景及策略咨詢研究報(bào)告
- 2025至2031年中國(guó)低鉻合金微球行業(yè)投資前景及策略咨詢研究報(bào)告
- 2025至2031年中國(guó)VRU電話銀行系統(tǒng)行業(yè)投資前景及策略咨詢研究報(bào)告
- 2025至2030年中國(guó)霓虹燈粉管數(shù)據(jù)監(jiān)測(cè)研究報(bào)告
- 2025至2030年中國(guó)轉(zhuǎn)門式門禁系統(tǒng)數(shù)據(jù)監(jiān)測(cè)研究報(bào)告
- 2025至2030年中國(guó)膠吊絲數(shù)據(jù)監(jiān)測(cè)研究報(bào)告
- 2025至2030年中國(guó)罐底閥數(shù)據(jù)監(jiān)測(cè)研究報(bào)告
- QC課題提高檢查井周邊壓實(shí)
- 應(yīng)征公民體格檢查表(征兵)
- ACL磁致伸縮液位計(jì)說(shuō)明書(shū)
- 優(yōu)秀教研組評(píng)比制度及實(shí)施細(xì)則
- 慈善祖師—太乙救苦天尊經(jīng)文選集拼音版
- 3建筑工程規(guī)劃放線、驗(yàn)線多測(cè)合一成果報(bào)告書(shū)
- JJF 1752-2019全自動(dòng)封閉型發(fā)光免疫分析儀校準(zhǔn)規(guī)范(高清版)
- GB 1886.300-2018 食品安全國(guó)家標(biāo)準(zhǔn) 食品添加劑 離子交換樹(shù)脂(高清版)
- 尾礦庫(kù)安全技術(shù)規(guī)程釋義
- 如何寫數(shù)學(xué)新授課教學(xué)設(shè)計(jì)
- 五年級(jí)上冊(cè)期末考試數(shù)學(xué)試卷含答案(最新人教版)
評(píng)論
0/150
提交評(píng)論