財(cái)經(jīng)大數(shù)據(jù)分析-以Python為工具 課件第8、9章 分析一般公司債的票面利率影響因素-應(yīng)用統(tǒng)計(jì)分析、使用ARIMA模型預(yù)測股票價(jià)格-時(shí)間序列_第1頁
財(cái)經(jīng)大數(shù)據(jù)分析-以Python為工具 課件第8、9章 分析一般公司債的票面利率影響因素-應(yīng)用統(tǒng)計(jì)分析、使用ARIMA模型預(yù)測股票價(jià)格-時(shí)間序列_第2頁
財(cái)經(jīng)大數(shù)據(jù)分析-以Python為工具 課件第8、9章 分析一般公司債的票面利率影響因素-應(yīng)用統(tǒng)計(jì)分析、使用ARIMA模型預(yù)測股票價(jià)格-時(shí)間序列_第3頁
財(cái)經(jīng)大數(shù)據(jù)分析-以Python為工具 課件第8、9章 分析一般公司債的票面利率影響因素-應(yīng)用統(tǒng)計(jì)分析、使用ARIMA模型預(yù)測股票價(jià)格-時(shí)間序列_第4頁
財(cái)經(jīng)大數(shù)據(jù)分析-以Python為工具 課件第8、9章 分析一般公司債的票面利率影響因素-應(yīng)用統(tǒng)計(jì)分析、使用ARIMA模型預(yù)測股票價(jià)格-時(shí)間序列_第5頁
已閱讀5頁,還剩44頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

Python與財(cái)經(jīng)大數(shù)據(jù)分析基礎(chǔ)第8章分析一般公司債的票面利率影響因素——應(yīng)用統(tǒng)計(jì)分析CONTENTS目錄04回歸分析05應(yīng)用實(shí)踐01描述性統(tǒng)計(jì)02隨機(jī)變量及其概率分布03推斷統(tǒng)計(jì)01描述性統(tǒng)計(jì)描述性統(tǒng)計(jì)是指綜合運(yùn)用計(jì)算指標(biāo)、分類等方式來描述一組數(shù)據(jù)的特征,幫助讀者了解數(shù)據(jù)。描述性統(tǒng)計(jì)的基本指標(biāo)主要包括數(shù)據(jù)的位置以及數(shù)據(jù)的離散程度。8.1描述性統(tǒng)計(jì)(一)概述在獲取數(shù)據(jù)之后,我們通常需要了解數(shù)據(jù)的位置分布特征,例如最小值、最大值、平均數(shù)、中位數(shù)、眾數(shù)、分位數(shù)等指標(biāo)。Python中可以使用Pandas模塊完成數(shù)據(jù)位置指標(biāo)的獲取。8.1描述性統(tǒng)計(jì)(二)數(shù)據(jù)的位置分布函數(shù)函數(shù)說明DataFrame.min()/DataFrame.max()最小值/最大值DataFrame.mean()平均數(shù)DataFrame.median()中位數(shù)DataFrame.mode()眾數(shù)DataFrame.quantile()分位數(shù)數(shù)據(jù)位置指標(biāo)能幫助讀者分析一組數(shù)據(jù)的平均水平或中間位置,但是要了解數(shù)據(jù)集中和分散程度,則需要用到極差、偏差、方差以及標(biāo)準(zhǔn)差,在Python中主要通過Pandas模塊完成數(shù)據(jù)離散度指標(biāo)的獲取。8.1描述性統(tǒng)計(jì)(三)數(shù)據(jù)的離散程度函數(shù)函數(shù)說明DataFrame.max()-DataFrame.min()極差DataFrame.mad()平均絕對偏差DataFrame.var()方差DataFrame.std()標(biāo)準(zhǔn)差

Pandas庫提供descibe()函數(shù),可以直接得到描述性統(tǒng)計(jì)的主要指標(biāo),例如樣本量、均值、方差、最值、分位數(shù)等統(tǒng)計(jì)特征。8.1描述性統(tǒng)計(jì)(三)describe函數(shù)02隨機(jī)變量及其概率分布隨機(jī)變量是隨機(jī)試驗(yàn)各種結(jié)果的實(shí)值單值函數(shù),隨機(jī)事件的數(shù)量表現(xiàn)。隨機(jī)變量分為離散型隨機(jī)變量和連續(xù)型隨機(jī)變量。一般而言,隨機(jī)數(shù)并不是真正的“隨機(jī)”,而是服從于某種概率分布,根據(jù)隨機(jī)變量的分類,有離散型概率分布和連續(xù)型概率分布。財(cái)會金融領(lǐng)域經(jīng)常使用的概率分布如下所示。8.2隨機(jī)變量及其概率分布(一)概述

8.2隨機(jī)變量及其概率分布(二)正態(tài)分布在Numpy庫中使用normal()函數(shù)生成正態(tài)分布。8.2隨機(jī)變量及其概率分布(二)正態(tài)分布假設(shè)X服從標(biāo)準(zhǔn)正態(tài)分布N(0,,1),Y服從自由度為n的卡方分布,那么變量Z服從自由度為n的t分布,記作Z~t(n)。隨著自由度n逐漸增大,t分布將逐漸接近標(biāo)準(zhǔn)正態(tài)分布。8.2隨機(jī)變量及其概率分布(三)t分布假設(shè)兩個(gè)隨機(jī)變量x1和x2相互獨(dú)立,且分別服從自由度是n1和n2的卡方分布,則稱統(tǒng)計(jì)量F服從自由度n1和n2的F分布,記作F~F(n1,n2)。8.2隨機(jī)變量及其概率分布(四)F分布03推斷統(tǒng)計(jì)推斷統(tǒng)計(jì)是研究如何利用樣本數(shù)據(jù)來推斷總體特征的統(tǒng)計(jì)方法。推斷統(tǒng)計(jì)包括兩方面的內(nèi)容:參數(shù)估計(jì)和假設(shè)檢驗(yàn)。8.3推斷統(tǒng)計(jì)(一)概述

8.3推斷統(tǒng)計(jì)(二)參數(shù)估計(jì)假設(shè)檢驗(yàn)是用來判斷樣本與樣本、樣本與總體的差異是由抽樣誤差引起還是本質(zhì)差別造成的推斷統(tǒng)計(jì)方法。

進(jìn)行假設(shè)檢驗(yàn)主要經(jīng)歷四個(gè)步驟。第一,提出原假設(shè)H0和備擇假設(shè)H1。第二,構(gòu)造檢驗(yàn)的統(tǒng)計(jì)量及其分布。第三,確定顯著性水平α,以及確定檢驗(yàn)規(guī)則。第四,根據(jù)檢驗(yàn)規(guī)則作出決策。8.3推斷統(tǒng)計(jì)(三)假設(shè)檢驗(yàn)

不拒絕H0拒絕H0H0為真1-α(正確)α(拒真錯(cuò)誤)H1為假

(取偽錯(cuò)誤)1-

(正確)t檢驗(yàn)主要用于樣本含量較?。ɡ鐦颖玖啃∮?0),總體標(biāo)準(zhǔn)差σ未知的正態(tài)分布。常見的t檢驗(yàn)主要有單樣本t檢驗(yàn)、配對樣本t檢驗(yàn)和獨(dú)立樣本t檢驗(yàn)。8.3推斷統(tǒng)計(jì)(二)假設(shè)檢驗(yàn)04回歸分析協(xié)方差表示的是兩個(gè)變量總體誤差的期望。如果兩個(gè)變量的變化趨勢一致,那么兩個(gè)變量之間的協(xié)方差就是正值;如果兩個(gè)變量的變化趨勢相反,那么兩個(gè)變量之間的協(xié)方差就是負(fù)值;如果兩個(gè)變量是統(tǒng)計(jì)獨(dú)立的,那么二者之間的協(xié)方差就是0。8.4

回歸分析(一)協(xié)方差cov()函數(shù)相關(guān)系數(shù)是用以反映變量之間相關(guān)關(guān)系密切程度的統(tǒng)計(jì)指標(biāo)。與協(xié)方差不同,相關(guān)系數(shù)排除了變量之間量綱的差異。常見的相關(guān)系數(shù)計(jì)算方法包括pearson相關(guān)系數(shù)、spearman相關(guān)系數(shù)等。8.4

回歸分析(二)相關(guān)系數(shù)corr()函數(shù)8.4

回歸分析(三)線性回歸線性回歸是找到多維空間中的一條直線(線性回歸方程),使得其盡可能地去擬合變量之間的“隱式關(guān)系”。普通最小二乘法(OrdinaryLeastSquare,OLS),是線性回歸模型中最基本的估計(jì)方法,原理就是使殘差的平方和達(dá)到最小。statsmodel庫是Python一個(gè)強(qiáng)大的統(tǒng)計(jì)分析庫。我們使用statsmodels.api庫的OLS()進(jìn)行線性回歸。需要特別注意的是,進(jìn)行線性回歸的變量不能有缺失值,否則會報(bào)錯(cuò)。8.4

回歸分析(三)線性回歸05應(yīng)用實(shí)踐“指數(shù)信息.xlsx”為2008年至2021年發(fā)行的一般公司債數(shù)據(jù),票面利率為發(fā)行時(shí)票面利率,總資產(chǎn)報(bào)酬率、資產(chǎn)負(fù)債率、流動比率為債券2020年的財(cái)務(wù)比率,對其做描述性統(tǒng)計(jì)。分析一般公司債的票面利率在2021年與2022年是否存在顯著差異。分析一般公司債的票面利率影響因素,因變量為票面利率,自變量分別為發(fā)行時(shí)信用評級、總資產(chǎn)報(bào)酬率、資產(chǎn)負(fù)債率、流動比率。8.5應(yīng)用實(shí)踐Python與財(cái)經(jīng)大數(shù)據(jù)分析基礎(chǔ)第9章使用ARIMA模型預(yù)測股票價(jià)格——時(shí)間序列CONTENTS目錄04應(yīng)用實(shí)踐01時(shí)間序列簡介02時(shí)間序列處理03時(shí)間序列基本性質(zhì)01時(shí)間序列簡介時(shí)間序列是指將同一統(tǒng)計(jì)指標(biāo)的數(shù)值按其發(fā)生的時(shí)間先后順序排列而成的數(shù)列,其實(shí)質(zhì)是反映某個(gè)或者某些隨機(jī)變量隨時(shí)間不斷變化的趨勢。常見的時(shí)間序列如按秒或分鐘更新的股價(jià)數(shù)據(jù)、按天更新的利率數(shù)據(jù)、按月更新的征信數(shù)據(jù)以及按年更新的宏觀經(jīng)濟(jì)數(shù)據(jù)等。9.1時(shí)間序列簡介(一)時(shí)間序列基本概念datetime模塊是Python處理日期和時(shí)間的標(biāo)準(zhǔn)庫,提供多種處理日期、時(shí)間相關(guān)的類。不僅支持日期和時(shí)間的算法,也能實(shí)現(xiàn)有效的屬性提取和格式輸出,本部分將介紹使用datetime創(chuàng)建時(shí)間對象、查看時(shí)間對象屬性和轉(zhuǎn)換時(shí)間格式等方法。9.1時(shí)間序列簡介(二)datetime模塊類名功能說明date日期對象,常用屬性有year,month,daytime時(shí)間對象,常用屬性有hour,minute,seconddatetime日期時(shí)間對象,是date和time的結(jié)合timedelta時(shí)間間隔,即兩個(gè)時(shí)間點(diǎn)之間的長度tzinfo時(shí)區(qū)信息對象在日常數(shù)據(jù)分析中,最為常用的是datetime模塊的datetime類,因此我們主要介紹datetime類。9.1時(shí)間序列簡介(三)datetime類02時(shí)間序列處理時(shí)間序列的缺失值處理一般采用插值方法,使用缺失值周圍的兩個(gè)已知數(shù)據(jù)點(diǎn)估計(jì)丟失的數(shù)據(jù)點(diǎn)。較為常見的插值方法有基于時(shí)間的插值、樣條插值和線性插值,一般通過pandas模塊的interpolate()函數(shù)來實(shí)現(xiàn)。9.2時(shí)間序列處理(一)時(shí)間序列缺失值處理移動是指沿著時(shí)間軸將數(shù)據(jù)前移或后移,在財(cái)經(jīng)金融數(shù)據(jù)處理中,時(shí)常會用到時(shí)間滯后。時(shí)間滯后是將t期的數(shù)據(jù)轉(zhuǎn)換為(t-n)期的數(shù)據(jù),可以通過shift()函數(shù)實(shí)現(xiàn)。9.2時(shí)間序列處理(二)時(shí)間序列數(shù)據(jù)移動和滯后計(jì)算第九章數(shù)據(jù)分組介紹了groupby()函數(shù),其主要作用是進(jìn)行數(shù)據(jù)的分組以及分組后的組內(nèi)運(yùn)算,常與agg()和apply()函數(shù)搭配使用。這一函數(shù)在時(shí)間序列數(shù)據(jù)中也十分常用,同樣對時(shí)間序列進(jìn)行分組,之后再進(jìn)行組內(nèi)運(yùn)算,從而獲取所需的數(shù)據(jù)或觀察不同組別間的差異。9.2時(shí)間序列處理(三)時(shí)間序列數(shù)據(jù)分組時(shí)間序列通常由趨勢、周期性、季節(jié)性、誤差構(gòu)成,其中最經(jīng)常被分析的是趨勢和季節(jié)性。時(shí)間序列可以被看作是趨勢、季節(jié)性和誤差項(xiàng)的整合,其各個(gè)觀測值可以是以上成分相加或相乘得到的。9.2時(shí)間序列處理(四)時(shí)間序列的分解時(shí)間序列的分解可以通過statsmodels模塊的seasonal_decompose來實(shí)現(xiàn)。9.2時(shí)間序列處理(四)時(shí)間序列的分解

9.2時(shí)間序列處理(五)時(shí)間序列的平滑在了解時(shí)間序列數(shù)據(jù)之后,我們可以對其進(jìn)行簡單的分析,比如進(jìn)行描述性統(tǒng)計(jì)。這里我們沿用上節(jié)數(shù)據(jù),基于前序章節(jié)內(nèi)容,可以直接使用describe()函數(shù)查看數(shù)據(jù)的均值方差等。9.2時(shí)間序列處理(六)時(shí)間序列數(shù)據(jù)描述性統(tǒng)計(jì)03時(shí)間序列基本性質(zhì)研究不同變量之間的相關(guān)性,是為了揭示變量之間的因果關(guān)系,以更好地預(yù)測目標(biāo)變量,而時(shí)間序列的自相關(guān)性同樣也是研究和利用時(shí)間序列的重要性質(zhì)。所謂“歷史可以重演”,即希望找到時(shí)間序列所具有的可延續(xù)性特征,以幫助我們更好地預(yù)測未來。時(shí)間序列的自相關(guān)性可以通過自協(xié)方差、自相關(guān)系數(shù)等統(tǒng)計(jì)量來體現(xiàn)。9.3時(shí)間序列基本性質(zhì)(一)自相關(guān)性

Python中statsmodels模塊包含的acf()函數(shù)可以便捷計(jì)算自相關(guān)系數(shù)。9.3時(shí)間序列基本性質(zhì)(一)自相關(guān)性時(shí)間序列的平穩(wěn)性是時(shí)間序列研究的基本前提,通過前一節(jié)的介紹,我們希望通過自相關(guān)性找到時(shí)間序列的可延續(xù)性特征,并在預(yù)測未來時(shí)利用該特征,而時(shí)間序列的平穩(wěn)性則是決定該特征能否延續(xù)到未來的重要性質(zhì)。9.3時(shí)間序列基本性質(zhì)(二)平穩(wěn)性增廣迪基·富勒檢驗(yàn)(ADF檢驗(yàn))是最常用的單位根檢驗(yàn)方法,Python中的arch模塊提供了ADF()函數(shù)幫助我們便捷地進(jìn)行ADF檢驗(yàn)。9.3時(shí)間序列基本性質(zhì)(二)平穩(wěn)性KPSS檢驗(yàn)可以用于趨勢平穩(wěn)性檢驗(yàn),Python中的statsmodels模塊提供了kpss()函數(shù)幫助我們便捷地進(jìn)行KPSS檢驗(yàn)。9.3時(shí)間序列基本性質(zhì)(二)平穩(wěn)性白噪聲序列是指序列中任意兩個(gè)時(shí)間點(diǎn)的變量均不相關(guān),序列均值為0、方差為常數(shù),這使得白噪聲序列符合平穩(wěn)時(shí)間序列的條件。白噪聲序列中沒有任何規(guī)律,不能用于預(yù)測和推斷,所以發(fā)現(xiàn)一個(gè)時(shí)間序列為白噪聲序列時(shí),說明該時(shí)間序列已經(jīng)失去了繼續(xù)研究的意義。9.3時(shí)間序列基本性質(zhì)(三)白噪聲序列可以通過Ljung-Box檢驗(yàn)該序列是否為白噪聲序列,Python中statsmodels模塊提供了q_stat()完成該檢驗(yàn)。9.3時(shí)間序列基本性質(zhì)(三)白噪聲序列

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論