R語言大數(shù)據(jù)分析與挖掘 課件 第七章 線性回歸算法_第1頁
R語言大數(shù)據(jù)分析與挖掘 課件 第七章 線性回歸算法_第2頁
R語言大數(shù)據(jù)分析與挖掘 課件 第七章 線性回歸算法_第3頁
R語言大數(shù)據(jù)分析與挖掘 課件 第七章 線性回歸算法_第4頁
R語言大數(shù)據(jù)分析與挖掘 課件 第七章 線性回歸算法_第5頁
已閱讀5頁,還剩10頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第7章

線性回歸算法內(nèi)容要點(diǎn)1、了解線性回歸的相關(guān)理論。2、掌握R語言中線性回歸模型建模的方法。目錄CONTENTS一元線性回歸模型多項(xiàng)式回歸模型多元線性回歸模型123一元線性回歸模型線性回歸是利用數(shù)理統(tǒng)計(jì)中回歸分析,來確定兩種或兩種以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計(jì)分析方法,運(yùn)用十分廣泛,其表達(dá)形式為y=wx+e,e為誤差服從均值為0的正態(tài)分布?;貧w分析中,只包括一個(gè)自變量和一個(gè)因變量,且二者的關(guān)系可用一條直線近似表示,這種回歸分析稱為一元線性回歸分析。若回歸分析中包括兩個(gè)或兩個(gè)以上的自變量,且因變量和自變量之間是線性關(guān)系,則稱為多元線性回歸分析。線性回歸使用最佳的擬合直線(也就是回歸線)在因變量(Y)和一個(gè)或多個(gè)自變量(X)之間建立一種關(guān)系。用一個(gè)方程式來表示它,即:其中,a表示截距,b表示直線的斜率,e是誤差項(xiàng)。這個(gè)方程可以根據(jù)給定的預(yù)測變量來預(yù)測目標(biāo)變量的值。一元線性回歸模型在R語言中,用來擬合線性模型的最基本的函數(shù)是lm(),其在R語言中的運(yùn)用形式為:myfit<-lm(formula,data),其中formula指要擬合模型的形式,形式為:Y~X1+X2+…+Xk,左邊為因變量(要預(yù)測的變量),右邊為自變量(用來預(yù)測的變量),自變量之間用符號(hào)+分隔;data為數(shù)據(jù)框,包含了用于擬合模型的數(shù)據(jù)。用R語言自帶的women數(shù)據(jù)集進(jìn)行l(wèi)m()函數(shù)的運(yùn)用,用height變量來預(yù)測weight變量,代碼如下:輸出的結(jié)果中,變量的“*”越多(最多3個(gè))表示該變量與因變量之間的相關(guān)性越顯著,通過輸出結(jié)果可以得到預(yù)測等式:weight=-87.52+3.45height。一元線性回歸模型提取出數(shù)據(jù)集中的weight,代碼如下:獲得模型的擬合值,代碼如下:列出擬合模型的殘差值,代碼如下:一元線性回歸模型將預(yù)測值與實(shí)際值對(duì)比,代碼如下:輸出結(jié)果如圖7-1所示。多項(xiàng)式回歸模型研究一個(gè)因變量與一個(gè)或多個(gè)自變量間的多項(xiàng)式回歸分析方法,稱為多項(xiàng)式回歸(PolynomialRegression)。如果自變量只有一個(gè)時(shí),稱為一元多項(xiàng)式回歸;如果自變量有多個(gè)時(shí),稱為多元多項(xiàng)式回歸。在一元回歸分析中,若因變量y與自變量x的關(guān)系是非線性的,但是又找不到適當(dāng)?shù)暮瘮?shù)曲線來擬合,則可以采用一元多項(xiàng)式回歸分析方法。一元m次多項(xiàng)式回歸方程為:多項(xiàng)式回歸的最大優(yōu)點(diǎn)就是可以通過增加x的高次項(xiàng)對(duì)實(shí)測點(diǎn)進(jìn)行逼近,直至滿意為止。事實(shí)上,多項(xiàng)式回歸可以處理非線性問題,它在回歸分析中占有重要的地位,因?yàn)槿我缓瘮?shù)都可以分段用多項(xiàng)式來逼近。因此,在通常的實(shí)際問題中,不論因變量與其他自變量的關(guān)系如何,總可以用多項(xiàng)式回歸來進(jìn)行分析。多項(xiàng)式回歸模型7.1節(jié)中計(jì)算案例為簡單線性回歸,從結(jié)果中可看出預(yù)測值與實(shí)際值并沒有完全擬合,可以通過添加一個(gè)二次項(xiàng)(即x2)來提高回歸的預(yù)測精度,這就是所謂的多項(xiàng)式回歸。其基本表達(dá)式為:擬合含二次項(xiàng)等式的結(jié)果,代碼如下:多項(xiàng)式回歸模型從上述結(jié)果可以得到回歸模型:weight=261.88-7.35height+0.08height^2,繪制擬合圖,代碼如下:輸出結(jié)果如圖7-2所示。從上述結(jié)果可看出多項(xiàng)式回歸擬合度更高,模型的方差解釋率從99.1%上升到99.9%。多元線性回歸模型多元回歸是指一個(gè)因變量,多個(gè)自變量的回歸模型?;痉椒ㄊ歉鶕?jù)各變量值算出交叉乘積和Si。這種包括兩個(gè)或兩個(gè)以上自變量的回歸稱為多元回歸,可以加深對(duì)定性分析結(jié)論的認(rèn)識(shí),并得出各種要素間的數(shù)量依存關(guān)系,從而進(jìn)一步揭示出各要素間內(nèi)在的規(guī)律。一般來說,多元回歸過程能同時(shí)提供多個(gè)備選的函數(shù)關(guān)系式,并提供每個(gè)關(guān)系式對(duì)實(shí)驗(yàn)數(shù)據(jù)的理解能力,研究者可以結(jié)合自己的理論預(yù)期做出選擇。p元線性回歸的數(shù)學(xué)模型多元線性回歸模型當(dāng)預(yù)測元素大于1時(shí),一元線性回歸就變成了多元線性回歸,多項(xiàng)式回歸是多元線性回歸的特例,接下來以基礎(chǔ)包中的state.x77數(shù)據(jù)集為例,通過探究一個(gè)州的犯罪率和其他因素的關(guān)系來闡述多元線性回歸的簡單應(yīng)用,并計(jì)算兩個(gè)變量之間的相關(guān)系數(shù),代碼如下:結(jié)果顯示,Murder變量與Illiteracy變量高度正相關(guān),與Frost中度負(fù)相關(guān)。多元線性回歸模型scatterplotMatrix()函數(shù)默認(rèn)在非對(duì)角區(qū)域繪制變量間的散點(diǎn)圖,并添加平滑和線性擬合曲線。繪制散點(diǎn)圖矩陣,代碼如下:輸出結(jié)果如圖7-3所示。圖7-3中對(duì)角線的折線圖展現(xiàn)的是各變量自身的趨勢,其他的散點(diǎn)圖展示的是對(duì)應(yīng)的兩個(gè)變量之間的散點(diǎn)圖,并增加了平滑的擬合曲線及線性的擬合直線。從圖7-3可以看到,犯罪率(Murder)是雙峰的曲線,每個(gè)自變量都一定程度上出現(xiàn)了偏斜。犯罪率隨著人口(Population)和文盲率(Illiteracy)的增加而增加。同時(shí),越冷的州府文盲率越低,收入水平越高。多元線性回歸模型使用states數(shù)據(jù)集建立多元線性回歸模型,代碼如下:Estimate回歸系數(shù)的含義為:當(dāng)一個(gè)自變量增加一個(gè)單位,其他自變量保持不變時(shí),因變量將要增加的數(shù)量。從結(jié)果可看出,文盲率的回歸系數(shù)為4.14,表示控制人口、收入和溫度不變時(shí),文盲率上升1%,犯罪率將會(huì)上升4.14%,它的系數(shù)在p<0.001的水平下顯著不為0

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論