版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
《Python金融數(shù)據(jù)挖掘》高等教育出版第十四章相關(guān)、回歸與時(shí)間序列分析【知識(shí)框架圖】相關(guān)回歸分析與時(shí)間序列相關(guān)分析回歸分析時(shí)間序列分析移動(dòng)平均指數(shù)平滑周期變動(dòng)自回歸移動(dòng)邏輯回歸目錄Contents第一節(jié)相關(guān)分析第二節(jié)回歸分析第三節(jié)邏輯回歸第四節(jié)案例本章學(xué)習(xí)目標(biāo)相關(guān)分析的概念、基本方法與實(shí)現(xiàn)。回歸分析的概念、基本方法與實(shí)現(xiàn)。邏輯回歸的概念、基本方法與實(shí)現(xiàn)。時(shí)間序列分析的概念、兩個(gè)常見方法與實(shí)現(xiàn)。需求背景研究各個(gè)因素之間是否存在相互影響以及找出這種影響的數(shù)學(xué)描述方法,是數(shù)據(jù)挖掘的重要工作之一。判定或量化各因素之間聯(lián)系的強(qiáng)弱,屬于相關(guān)分析的范疇?;诖罅康?cái)?shù)據(jù)觀察,利用數(shù)理統(tǒng)計(jì)方法建立因變量與自變量之間的回歸關(guān)系函數(shù)式(稱回歸方程),屬于回歸分析的范疇。邏輯回歸則是一種廣義的線性回歸分析方法,回歸方程的輸出不是連續(xù)值,而是離散的分類結(jié)果,本質(zhì)上是一種分類的方法。在回歸分析中,專門有一類研究將時(shí)間、周期作為自變量,其他數(shù)據(jù)作為因變量的問題,稱為時(shí)間序列分析。01相關(guān)分析不管是在自然界中,還是在社會(huì)經(jīng)濟(jì)生活中,現(xiàn)象之間存在著大量的相互聯(lián)系、相互依賴、相互制約的數(shù)量關(guān)系。這種規(guī)律性的關(guān)系可分為兩種類型,即相關(guān)關(guān)系和函數(shù)關(guān)系。相關(guān)關(guān)系:在這種關(guān)系中,變量之間存在著不確定、不嚴(yán)格的依存關(guān)系,對(duì)于變量的某個(gè)數(shù)值,可以有另一變量的若干數(shù)值與之相對(duì)應(yīng),這若干個(gè)數(shù)值圍繞著它們的平均數(shù)呈現(xiàn)出有規(guī)律的波動(dòng)。例如,批量生產(chǎn)的某產(chǎn)品產(chǎn)量與相對(duì)應(yīng)的單位產(chǎn)品成本之間,某些商品價(jià)格的升降與消費(fèi)者需求的變化之間,就存在著這樣的相關(guān)關(guān)系。函數(shù)關(guān)系:反映著現(xiàn)象之間嚴(yán)格的依存關(guān)系,也稱確定性的依存關(guān)系。在這種關(guān)系中,對(duì)于變量的每一個(gè)數(shù)值,都有一個(gè)或幾個(gè)確定的值與之對(duì)應(yīng)。例如,一元線性方程y=kx+b,x和y是線性相關(guān)的關(guān)系。顯然,任意給出一個(gè)x,可以得到一個(gè)與之對(duì)應(yīng)的y,可以寫成(x,y)數(shù)據(jù)對(duì)的形式。數(shù)據(jù)挖掘工作的任務(wù)是,根據(jù)(x,y)數(shù)據(jù)對(duì)的觀測(cè)值判定它的相關(guān)性,進(jìn)而找出這些數(shù)據(jù)對(duì)中隱藏的線性方程。
【例14-1】以波士頓房?jī)r(jià)數(shù)據(jù)集為例,使用Python進(jìn)行數(shù)據(jù)相關(guān)性分析。數(shù)據(jù)集采集了美國波士頓地區(qū)房?jī)r(jià)與周邊環(huán)境因素的量化值。一共有506行記錄,14個(gè)字段(均為浮點(diǎn)數(shù)據(jù)),字段含義如下表:序號(hào)字段名含義序號(hào)字段名含義1CRIM地區(qū)人均犯罪率8DIS到波士頓中心區(qū)距離2ZN住宅用地>25000英尺比例9RAD到主要公路的接近指數(shù)3INDUS非零售商業(yè)用地比例10TAX財(cái)產(chǎn)稅率4CHAS查爾斯河空變量(地區(qū)邊界是河,值取1,否則為0)11B1000*(Bk-0.63)2,Bk為黑人比例5NOX一氧化氮濃度12PTRATIO師生比6RM每套住宅平均房間數(shù)13LSTAT人口中地位低下者比例7AGE1940年后建成自用房比例14MEDV自住房平均房?jī)r(jià),以千美元計(jì)程序:sklearn.datasets包提供了部分?jǐn)?shù)據(jù)資源,用于分析示例。本例引入load_boston函數(shù),直接通過網(wǎng)絡(luò)讀取表14-1所描述的波士頓房?jī)r(jià)數(shù)據(jù)集。輸出14個(gè)字段的協(xié)方差的程序:輸出14個(gè)字段的相關(guān)系數(shù)的程序:14個(gè)字段的相關(guān)系數(shù)結(jié)果如下:從bostonDF.corr()的輸出結(jié)果可以看到,RM字段與MEDV的相關(guān)系數(shù)為0.695360,正的線性相關(guān)性比較明顯;而LSTAT字段與MEDV的相關(guān)系數(shù)為-0.737663,負(fù)的線性相關(guān)性比較明顯。根據(jù)字段的含義,可以做出比較直觀的結(jié)論:每套房屋的房間數(shù)越多,房屋均價(jià)越高;該地區(qū)的“低地位人口”比例越大,房屋均價(jià)越低。相關(guān)分析的目的,就是以數(shù)據(jù)的統(tǒng)計(jì)指標(biāo)為依據(jù),發(fā)掘出各個(gè)因素之間相關(guān)性的強(qiáng)弱,找出那些和研究對(duì)象關(guān)系更密切的因素,以便進(jìn)行更有針對(duì)性的研究、分析或者預(yù)測(cè)。02回歸分析回歸分析相關(guān)分析和回歸分析之間既有聯(lián)系又有區(qū)別。二者具有共同的研究對(duì)象,且在具體研究現(xiàn)象之間相關(guān)關(guān)系時(shí)起到互相補(bǔ)充的作用。相關(guān)分析需要借助回歸分析來說明變量間數(shù)量相關(guān)的具體形式;而回歸分析需要借助相關(guān)分析來說明變量間數(shù)量變化的相關(guān)程度,只有當(dāng)變量之間顯著相關(guān)時(shí),進(jìn)行回歸分析尋求其相關(guān)的具體形式才有實(shí)際意義。雖然相關(guān)分析與回歸分析有著密切的聯(lián)系,但在研究目的和應(yīng)用上又各有側(cè)重。相關(guān)分析研究變量間的相關(guān)程度和相關(guān)方向;而回歸分析不僅可以反映變量間影響的大小,還可進(jìn)一步利用回歸方程進(jìn)行預(yù)測(cè)和控制。相關(guān)分析不必確定哪個(gè)變量為因變量,哪個(gè)變量為自變量,各變量的地位是平等的;而回歸分析則必須事先研究確定變量中哪個(gè)變量為因變量,處于被解釋的特殊地位。盡管相關(guān)分析和回歸分析都可以研究隨機(jī)變量與隨機(jī)變量、隨機(jī)變量與非隨機(jī)變量之間的關(guān)系,但在回歸分析中,總是假定自變量為非隨機(jī)的變量。
【例14-2】繼續(xù)使用上一節(jié)相關(guān)分析中的數(shù)據(jù),進(jìn)行一元和多元回歸分析。各個(gè)屬性和價(jià)格中位數(shù)MEDV的相關(guān)系數(shù)中最大值是和RM的相關(guān)系數(shù):0.695360,正的線性相關(guān)性最強(qiáng),最小值是和LSTAT的相關(guān)系數(shù):-0.737663,負(fù)的線性相關(guān)性最強(qiáng),進(jìn)一步通過圖形觀察RM與LSTAT屬性分別與MEDV的相關(guān)性。繼續(xù):波士頓房?jī)r(jià)一元線性回歸分析圖形:圖14-2從最簡(jiǎn)單的一元線性回歸方程開始分析,利用Python的Seaborn包的圖形功能,分別繪制房?jī)r(jià)中位數(shù)與房間數(shù)、房?jī)r(jià)中位數(shù)與“低地位人口”比例兩個(gè)2維數(shù)據(jù)圖如圖14-2所示。數(shù)據(jù)點(diǎn)相對(duì)比較密集地聚集在兩條直線周圍,說明RM和LSTAT兩個(gè)屬性和房?jī)r(jià)中位數(shù)MDEV可以近似地用一元線性方程來描述相互關(guān)系。引入線性回歸分析的包做回歸分析:繼續(xù):通過sklearn.linear_model中的LinearRegression來確定前述兩個(gè)變量與房間之間的線性回歸方程。第8行和第19行分別調(diào)用LinearRegression函數(shù),得到用于RM和LSTAT線性回歸分析的modelRM和modelLSTAT。再針對(duì)這兩個(gè)模型,分別調(diào)用fit函數(shù)對(duì)原始數(shù)據(jù)進(jìn)行一元線性回歸,最終得到兩個(gè)一元線性回歸方程:MEDV=9.1021*RM-34.6706和MEDV=-0.9500*LSTAT+34.5538。結(jié)果:進(jìn)一步地,可以進(jìn)行多元線性回歸。多元線性回歸的結(jié)果表明,房?jī)r(jià)中位數(shù)與RM、LSTAT的關(guān)系可以表示為方程:MEDV=-0.6424*LSTAT+5.0948*RM-1.3583。通過對(duì)統(tǒng)計(jì)數(shù)據(jù)進(jìn)行回歸分析,得出了房?jī)r(jià)中位數(shù)MEDV和兩個(gè)重要影響因素:房?jī)r(jià)數(shù)量RM和“低地位人口”比例之間的數(shù)量關(guān)系。這個(gè)關(guān)系可以用來預(yù)測(cè)相鄰區(qū)域的房?jī)r(jià);也可以用來分析當(dāng)“低地位人口”比例變動(dòng)時(shí),房?jī)r(jià)會(huì)如何變動(dòng)。很多時(shí)候,上述多元線性回歸方程中的y是研究目標(biāo),例如上述例子中的房?jī)r(jià);而一元或者多元的x是搜集的參考數(shù)據(jù),例如上述例子中的13個(gè)對(duì)房?jī)r(jià)產(chǎn)生影響的環(huán)境因素。通常,在解決一個(gè)回歸分析問題時(shí),往往是將本章前兩節(jié)的內(nèi)容結(jié)合起來使用,其主要步驟如下:根據(jù)理論分析、實(shí)際觀察和歷史經(jīng)驗(yàn),搜集與研究目標(biāo)相關(guān)的參考數(shù)據(jù);對(duì)數(shù)據(jù)進(jìn)行初步的觀察和清洗,將明顯異常的數(shù)據(jù)清除出去;對(duì)這些參考數(shù)據(jù)與研究目標(biāo)的相關(guān)性進(jìn)行分析和計(jì)算,找出相關(guān)性強(qiáng)的因素,排除相關(guān)性弱的因素;對(duì)剩下的參考因素和研究目標(biāo)進(jìn)行回歸。03邏輯回歸
如圖14-3(b)所示,在Sigmoid函數(shù)的圖像中,不論x取值如何擴(kuò)展,其y的值都不會(huì)超過Y軸的坐標(biāo)范圍。同時(shí),這個(gè)函數(shù)的圖像和正態(tài)分布概率密度的積分形式(也就是正態(tài)分布函數(shù))非常相似,比較好地反映了正態(tài)分布的內(nèi)在規(guī)律。而圖14-3(a)所示的線性方程圖像,隨著x的取值擴(kuò)展到圖像X坐標(biāo)軸以外,y的取值也會(huì)擴(kuò)展到圖像Y坐標(biāo)軸以外?!纠?43】以上節(jié)中的數(shù)據(jù)為例,使用Python實(shí)現(xiàn)邏輯回歸。繼續(xù):輸出結(jié)果:進(jìn)一步地觀察模型的擬合效果。波士頓房?jī)r(jià)邏輯回歸分類結(jié)果R值(準(zhǔn)確率):0.593946000693704104案例時(shí)間序列分析的基本思想基礎(chǔ)包括:1.事物發(fā)展存在延續(xù)性。認(rèn)為真實(shí)世界里的事物不會(huì)發(fā)生突變,質(zhì)變都是由量變積累的。從歷史數(shù)據(jù)出發(fā),可以發(fā)現(xiàn)變化趨勢(shì)。自然界的天氣變化,社會(huì)經(jīng)濟(jì)生活里的數(shù)據(jù)波動(dòng),都是隨著時(shí)間演變的。2.隨機(jī)性無處不在。在真實(shí)世界或復(fù)雜系統(tǒng)中,總是存在著各種擾動(dòng)。這些偶然擾動(dòng)因素的出現(xiàn),使得要借助統(tǒng)計(jì)手段,才能較好地處理歷史數(shù)據(jù)。系統(tǒng)和對(duì)象越是復(fù)雜,需要的統(tǒng)計(jì)數(shù)學(xué)手段也越復(fù)雜。常見的時(shí)間序列分析方法包括:移動(dòng)平均法、指數(shù)平滑法、周期變動(dòng)法和自回歸移動(dòng)模型等。
【例14-4】利用Python實(shí)現(xiàn)移動(dòng)平均和指數(shù)平滑時(shí)間序列分析。5日移動(dòng)平均5日指數(shù)平滑:5日指數(shù)平滑周期變動(dòng)與自回歸實(shí)際生活中,有些數(shù)據(jù)呈現(xiàn)周期性波動(dòng)和趨勢(shì)性變化疊加情況。以圖14-7為例,這個(gè)數(shù)據(jù)搜集了某航空公司從1949年到1961年間以千人次計(jì)的乘客人數(shù)??梢园l(fā)現(xiàn),這個(gè)數(shù)既有周期波動(dòng)(波動(dòng)一般來自于暑假和圣誕假期的出行高峰),又有明顯的增長(zhǎng)趨勢(shì)。圖14-7呈周期+趨勢(shì)變動(dòng)的航空乘客人數(shù)圖14-7的原始數(shù)據(jù)的既包含周期波動(dòng),又包含變化趨勢(shì),所以處理思路就是將整個(gè)數(shù)據(jù)分解成長(zhǎng)期趨勢(shì)、周期變動(dòng)和隨機(jī)擾動(dòng),然后分別加以處理。使用到的數(shù)學(xué)方法包括平穩(wěn)性校驗(yàn)、差分處理、模型識(shí)別等等。ARIMA(AutoregressiveIntegratedMovingAveragemodel,差分整合移動(dòng)平均自回歸模型,又稱整合移動(dòng)平均自回歸模型),是時(shí)間序列分析方法之一。模型一般可以描述成ARIMA(p,d,q),其中,參數(shù)p為自回歸項(xiàng)數(shù),q為滑動(dòng)平均項(xiàng)數(shù),d為使之成為平穩(wěn)序列所做的差分次數(shù)(階數(shù))。ARIMA是研究時(shí)間序列的標(biāo)準(zhǔn)方法,由自回歸模型(AR模型)與滑動(dòng)平均模型(MA模型)為基礎(chǔ)“混合”而成,具有適用范圍廣、預(yù)測(cè)誤差小的特點(diǎn)?!纠?4-5】在Python程序中調(diào)用庫Statsmodel,使用ARIMA算法對(duì)如圖14-7所示的數(shù)據(jù)進(jìn)行周期變動(dòng)分析。繼續(xù):繼續(xù):繼續(xù):結(jié)果圖:模型預(yù)測(cè)的點(diǎn)狀線與真實(shí)數(shù)據(jù)的實(shí)線吻合地比較理想,具有比較好的預(yù)測(cè)效果。周期變動(dòng)時(shí)間序列預(yù)測(cè)本章小結(jié)介紹了利用Python從事相關(guān)分析和回歸分析的基本方法。通常情況下,相關(guān)分析屬于數(shù)據(jù)挖掘的前期準(zhǔn)備工作:通過它可以初步發(fā)現(xiàn)和研究對(duì)象關(guān)系比較密切的影響因素。在此基礎(chǔ)上,選擇合適的模型進(jìn)行回歸分析。邏輯回歸是一種基于回歸的分類問題,時(shí)間序列分析可以使用移動(dòng)平均、指數(shù)平滑和自回歸移動(dòng)等方法處理和時(shí)間相關(guān)的回歸問題。重要概念1.相關(guān)性的定義,協(xié)方差、相關(guān)系數(shù)的指標(biāo)、計(jì)算方法及數(shù)學(xué)特性
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 生物(內(nèi)蒙古)-【八省聯(lián)考】河南、山西、陜西、內(nèi)蒙古、四川、云南、寧夏、青海八省2025年高考綜合改革適應(yīng)性演練聯(lián)考試題和答案
- 《法國園林》課件
- 小學(xué)生一年級(jí)30以內(nèi)加減法100題
- 高考新課標(biāo)語文模擬試卷系列之63
- 《梅花嶺記》課件
- 行政后勤治安防范措施
- 裝飾行業(yè)采購經(jīng)驗(yàn)分享
- 飲品店服務(wù)員工作心得
- 《溫州地區(qū)特產(chǎn)》課件
- 裝修行業(yè)監(jiān)督裝修工程衛(wèi)生施工
- ISO 56001-2024《創(chuàng)新管理體系-要求》專業(yè)解讀與應(yīng)用實(shí)踐指導(dǎo)材料之15:“6策劃-6.4創(chuàng)新組合”(雷澤佳編制-2025B0)
- 廣東省廣州市天河區(qū)2022-2023學(xué)年七年級(jí)上學(xué)期期末語文試題(含答案)
- 2025混凝土外加劑買賣合同
- 標(biāo)準(zhǔn)廠房施工方案
- DBJT45T 037-2022 高速公路出行信息服務(wù)管理指南
- 港口碼頭租賃協(xié)議三篇
- 浙江省紹興市柯橋區(qū)2023-2024學(xué)年高一上學(xué)期期末教學(xué)質(zhì)量調(diào)測(cè)數(shù)學(xué)試題(解析版)
- 項(xiàng)目部實(shí)名制管理實(shí)施措施
- 顳下頜關(guān)節(jié)疾病試題
- DB32/T 4700-2024 蓄熱式焚燒爐系統(tǒng)安全技術(shù)要求
- 國有企業(yè)普法培訓(xùn)課件
評(píng)論
0/150
提交評(píng)論