![R軟件與統(tǒng)計(jì)分析_第1頁](http://file4.renrendoc.com/view14/M07/10/1E/wKhkGWZXyAiAQwgDAADGKZy_Xv4173.jpg)
![R軟件與統(tǒng)計(jì)分析_第2頁](http://file4.renrendoc.com/view14/M07/10/1E/wKhkGWZXyAiAQwgDAADGKZy_Xv41732.jpg)
![R軟件與統(tǒng)計(jì)分析_第3頁](http://file4.renrendoc.com/view14/M07/10/1E/wKhkGWZXyAiAQwgDAADGKZy_Xv41733.jpg)
![R軟件與統(tǒng)計(jì)分析_第4頁](http://file4.renrendoc.com/view14/M07/10/1E/wKhkGWZXyAiAQwgDAADGKZy_Xv41734.jpg)
![R軟件與統(tǒng)計(jì)分析_第5頁](http://file4.renrendoc.com/view14/M07/10/1E/wKhkGWZXyAiAQwgDAADGKZy_Xv41735.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
實(shí)驗(yàn)?zāi)康膶?shí)驗(yàn)內(nèi)容學(xué)習(xí)如何應(yīng)用R軟件解決統(tǒng)計(jì)問題1、統(tǒng)計(jì)模型、方法簡介
2、應(yīng)用實(shí)例3、實(shí)驗(yàn)作業(yè)S統(tǒng)計(jì)分析統(tǒng)計(jì)模型簡介這一節(jié)我們簡單介紹S的統(tǒng)計(jì)模型。S中實(shí)現(xiàn)了幾乎所有常見的統(tǒng)計(jì)模型,而且多種模型可以用一種統(tǒng)一的觀點(diǎn)表示和處理。這方面S-PLUS較全面,它實(shí)現(xiàn)了許多最新的統(tǒng)計(jì)研究成果,R因?yàn)槭亲栽笩o償工作所以統(tǒng)計(jì)模型局部還相對(duì)較欠缺。事實(shí)上,許多統(tǒng)計(jì)學(xué)家的研究出的統(tǒng)計(jì)算法都以S-PLUS程序發(fā)表,因?yàn)镾語言是一種特別有利于統(tǒng)計(jì)計(jì)算編程的語言。學(xué)習(xí)這一節(jié)需要我們具備線型模型、線型回歸、方差分析的根本知識(shí)。第9章一元線性回歸§9.1變量間關(guān)系的度量§9.2一元線性回歸§9.3利用回歸方程進(jìn)行估計(jì)和預(yù)測§9.4殘差分析函數(shù)關(guān)系是一一對(duì)應(yīng)確實(shí)定關(guān)系設(shè)有兩個(gè)變量x和y,變量y隨變量x一起變化,并完全依賴于x,當(dāng)變量x取某個(gè)數(shù)值時(shí),y依確定的關(guān)系取相應(yīng)的值,那么稱y是x的函數(shù),記為y=f(x),其中x稱為自變量,y稱為因變量各觀測點(diǎn)落在一條線上
xy§9.1變量間的關(guān)系函數(shù)關(guān)系
(幾個(gè)例子)
函數(shù)關(guān)系的例子某種商品的銷售額(y)與銷售量(x)之間的關(guān)系可表示為y=px
(p為單價(jià))圓的面積(S)與半徑之間的關(guān)系可表示為S=
R2
企業(yè)的原材料消耗額(y)與產(chǎn)量(x1)
、單位產(chǎn)量消耗(x2)
、原材料價(jià)格(x3)之間的關(guān)系可表示為y=x1x2x3
相關(guān)關(guān)系
(correlation)變量間關(guān)系不能用函數(shù)關(guān)系精確表達(dá)一個(gè)變量的取值不能由另一個(gè)變量唯一確定當(dāng)變量
x取某個(gè)值時(shí),變量y的取值可能有幾個(gè)各觀測點(diǎn)分布在直線周圍
xy相關(guān)關(guān)系
(幾個(gè)例子)
相關(guān)關(guān)系的例子父親身高(y)與子女身高(x)之間的關(guān)系收入水平(y)與受教育程度(x)之間的關(guān)系糧食畝產(chǎn)量(y)與施肥量(x1)、降雨量(x2)、溫度(x3)之間的關(guān)系商品的消費(fèi)量(y)與居民收入(x)之間的關(guān)系商品銷售額(y)與廣告費(fèi)支出(x)之間的關(guān)系相關(guān)關(guān)系
(類型)散點(diǎn)圖(scatterdiagram)
不相關(guān)
負(fù)線性相關(guān)
正線性相關(guān)
非線性相關(guān)
完全負(fù)線性相關(guān)完全正線性相關(guān)
相關(guān)關(guān)系的描述與測度散點(diǎn)圖(例題分析)【例】一家大型商業(yè)銀行在多個(gè)地區(qū)設(shè)有分行,其業(yè)務(wù)主要是進(jìn)行根底設(shè)施建設(shè)、國家重點(diǎn)工程建設(shè)、固定資產(chǎn)投資等工程的貸款。近年來,該銀行的貸款額平穩(wěn)增長,但不良貸款額也有較大比例的提高,這給銀行業(yè)務(wù)的開展帶來較大壓力。為弄清楚不良貸款形成的原因,希望利用銀行業(yè)務(wù)的有關(guān)數(shù)據(jù)做些定量分析,以便找出控制不良貸款的方法。下面是該銀行所屬的25家分行2002年的有關(guān)業(yè)務(wù)數(shù)據(jù)散點(diǎn)圖(例題分析)散點(diǎn)圖(例題分析)例1讀取某公司雇員數(shù)據(jù)〔R數(shù)據(jù)文件〕,畫出起始收入和現(xiàn)在收入的散點(diǎn)圖。load('E:/R/Employeedata.Rdata');ls();[1]"Edata"attributes(Edata);$names[1]"ID""GENDER""BDATE""EDUC""JOBCAT""SALARY"[7]"SALBEGIN""JOBTIME""PREVEXP""MINORITY"plot(Edata$SALARY,Edata$SALBEGIN);相關(guān)系數(shù)(correlationcoefficient)對(duì)變量之間關(guān)系密切程度的度量對(duì)兩個(gè)變量之間線性相關(guān)程度的度量稱為簡單相關(guān)系數(shù)假設(shè)相關(guān)系數(shù)是根據(jù)總體全部數(shù)據(jù)計(jì)算的,稱為總體相關(guān)系數(shù),記為假設(shè)是根據(jù)樣本數(shù)據(jù)計(jì)算的,那么稱為樣本相關(guān)系數(shù),記為r相關(guān)關(guān)系的描述與測度相關(guān)系數(shù)
(計(jì)算公式)
樣本相關(guān)系數(shù)的計(jì)算公式或化簡為相關(guān)系數(shù)(取值及其意義)
r
的取值范圍是[-1,1]
|r|=1,為完全相關(guān)r=1,為完全正相關(guān)r=-1,為完全負(fù)正相關(guān)
r=0,不存在線性相關(guān)關(guān)系相關(guān)
-1
r<0,為負(fù)相關(guān)
0<r
1,為正相關(guān)
|r|越趨于1表示關(guān)系越密切;|r|越趨于0表示關(guān)系越不密切相關(guān)系數(shù)(取值及其意義)-1.0+1.00-0.5+0.5完全負(fù)相關(guān)無線性相關(guān)完全正相關(guān)負(fù)相關(guān)程度增加r正相關(guān)程度增加相關(guān)系數(shù)(例題分析)相關(guān)系數(shù)的顯著性檢驗(yàn)
(r的抽樣分布)1. r的抽樣分布隨總體相關(guān)系數(shù)和樣本容量的大小而變化當(dāng)樣本數(shù)據(jù)來自正態(tài)總體時(shí),隨著n的增大,r的抽樣分布趨于正態(tài)分布,尤其是在總體相關(guān)系數(shù)很小或接近0時(shí),趨于正態(tài)分布的趨勢非常明顯。而當(dāng)遠(yuǎn)離0時(shí),除非n非常大,否那么r的抽樣分布呈現(xiàn)一定的偏態(tài)。當(dāng)為較大的正值時(shí),r呈現(xiàn)左偏分布;當(dāng)為較大的負(fù)值時(shí),r呈現(xiàn)右偏分布。只有當(dāng)接近于0,而樣本容量n很大時(shí),才能認(rèn)為r是接近于正態(tài)分布的隨機(jī)變量相關(guān)系數(shù)的顯著性檢驗(yàn)
(檢驗(yàn)的步驟)1. 檢驗(yàn)兩個(gè)變量之間是否存在線性相關(guān)關(guān)系等價(jià)于對(duì)回歸系數(shù)b1的檢驗(yàn)采用提出的t檢驗(yàn)檢驗(yàn)的步驟為提出假設(shè):H0:
;H1:
0
計(jì)算檢驗(yàn)的統(tǒng)計(jì)量:確定顯著性水平,并作出決策假設(shè)t>t,拒絕H0假設(shè)t<t,不拒絕H0相關(guān)系數(shù)的顯著性檢驗(yàn)
(例題分析)
對(duì)不良貸款與貸款余額之間的相關(guān)系數(shù)進(jìn)行顯著性檢(0.05)提出假設(shè):H0:
;H1:
0計(jì)算檢驗(yàn)的統(tǒng)計(jì)量3.
根據(jù)顯著性水平=0.05,查t分布表得t
(n-2)=2.0687由于t=7.5344>t
(25-2)=2.0687,拒絕H0,不良貸款與貸款余額之間存在著顯著的正線性相關(guān)關(guān)系相關(guān)系數(shù)的顯著性檢驗(yàn)
(例題分析)各相關(guān)系數(shù)檢驗(yàn)的統(tǒng)計(jì)量§9.2一元線性回歸一元線性回歸模型參數(shù)的最小二乘估計(jì)回歸直線的擬合優(yōu)度顯著性檢驗(yàn)什么是回歸分析?(Regression)從一組樣本數(shù)據(jù)出發(fā),確定變量之間的數(shù)學(xué)關(guān)系式對(duì)這些關(guān)系式的可信程度進(jìn)行各種統(tǒng)計(jì)檢驗(yàn),并從影響某一特定變量的諸多變量中找出哪些變量的影響顯著,哪些不顯著利用所求的關(guān)系式,根據(jù)一個(gè)或幾個(gè)變量的取值來預(yù)測或控制另一個(gè)特定變量的取值,并給出這種預(yù)測或控制的精確程度回歸一詞是怎么來的??趨向中間高度的回歸回歸這個(gè)術(shù)語是由英國著名統(tǒng)計(jì)學(xué)家FrancisGalton在19世紀(jì)末期研究孩子及他們的父母的身高時(shí)提出來的。Galton發(fā)現(xiàn)身材高的父母,他們的孩子也高。但這些孩子平均起來并不像他們的父母那樣高。對(duì)于比較矮的父母情形也類似:他們的孩子比較矮,但這些孩子的平均身高要比他們的父母的平均身高高。Galton把這種孩子的身高向中間值靠近的趨勢稱之為一種回歸效應(yīng),而他開展的研究兩個(gè)數(shù)值變量的方法稱為回歸分析?;貧w分析與相關(guān)分析的區(qū)別相關(guān)分析中,變量x變量y處于平等的地位;回歸分析中,變量y稱為因變量,處在被解釋的地位,x稱為自變量,用于預(yù)測因變量的變化相關(guān)分析中所涉及的變量x和y都是隨機(jī)變量;回歸分析中,因變量y是隨機(jī)變量,自變量x可以是隨機(jī)變量,也可以是非隨機(jī)確實(shí)定變量相關(guān)分析主要是描述兩個(gè)變量之間線性關(guān)系的密切程度;回歸分析不僅可以揭示變量x對(duì)變量y的影響大小,還可以由回歸方程進(jìn)行預(yù)測和控制回歸模型的類型一元線性回歸涉及一個(gè)自變量的回歸因變量y與自變量x之間為線性關(guān)系被預(yù)測或被解釋的變量稱為因變量(dependentvariable),用y表示用來預(yù)測或用來解釋因變量的一個(gè)或多個(gè)變量稱為自變量(independentvariable),用x表示因變量與自變量之間的關(guān)系用一條線性方程來表示回歸模型
(regressionmodel)答復(fù)“變量之間是什么樣的關(guān)系?”方程中運(yùn)用1個(gè)數(shù)字的因變量(響應(yīng)變量)被預(yù)測的變量1個(gè)或多個(gè)數(shù)字的或分類的自變量(解釋變量)用于預(yù)測的變量3. 主要用于預(yù)測和估計(jì)一元線性回歸模型描述因變量y如何依賴于自變量x和誤差項(xiàng)的方程稱為回歸模型一元線性回歸模型可表示為y=b0+b1x+ey是x的線性函數(shù)(局部)加上誤差項(xiàng)線性局部反映了由于x的變化而引起的y的變化誤差項(xiàng)是隨機(jī)變量反映了除x和y之間的線性關(guān)系之外的隨機(jī)因素對(duì)y的影響是不能由x和y之間的線性關(guān)系所解釋的變異性0和1稱為模型的參數(shù)一元線性回歸模型(根本假定)誤差項(xiàng)ε是一個(gè)期望值為0的隨機(jī)變量,即E(ε)=0。對(duì)于一個(gè)給定的x值,y的期望值為E(y)=
0+
1x對(duì)于所有的x值,ε的方差σ2都相同誤差項(xiàng)ε是一個(gè)服從正態(tài)分布的隨機(jī)變量,且相互獨(dú)立。即ε~N(0,σ2)獨(dú)立性意味著對(duì)于一個(gè)特定的x值,它所對(duì)應(yīng)的ε與其他x值所對(duì)應(yīng)的ε不相關(guān)對(duì)于一個(gè)特定的x值,它所對(duì)應(yīng)的y值與其他x所對(duì)應(yīng)的y值也不相關(guān)回歸方程
(regressionequation)描述y的平均值或期望值如何依賴于x的方程稱為回歸方程一元線性回歸方程的形式如下
E(y)=
0+
1x方程的圖示是一條直線,也稱為直線回歸方程
0是回歸直線在y軸上的截距,是當(dāng)x=0時(shí)y的期望值
1是直線的斜率,稱為回歸系數(shù),表示當(dāng)x每變動(dòng)一個(gè)單位時(shí),y的平均變動(dòng)值估計(jì)的回歸方程
(estimatedregressionequation)一元線性回歸中估計(jì)的回歸方程為用樣本統(tǒng)計(jì)量和代替回歸方程中的未知參數(shù)和,就得到了估計(jì)的回歸方程總體回歸參數(shù)和
是未知的,必需利用樣本數(shù)據(jù)去估計(jì)其中:是估計(jì)的回歸直線在y軸上的截距,是直線的斜率,它表示對(duì)于一個(gè)給定的x的值,是y的估計(jì)值,也表示x每變動(dòng)一個(gè)單位時(shí),y的平均變動(dòng)值
最小二乘估計(jì)使因變量的觀察值與估計(jì)值之間的離差平方和到達(dá)最小來求得和的方法。即用最小二乘法擬合的直線來代表x與y之間的關(guān)系與實(shí)際數(shù)據(jù)的誤差比其他任何直線都小最小二乘估計(jì)(圖示)xy(xn,yn)(x1,y1)
(x2,y2)(xi,yi)}ei=yi-yi^最小二乘法
(
和的計(jì)算公式)
根據(jù)最小二乘法的要求,可得求解和的公式如下估計(jì)方程的求法
(例題分析)【例】求不良貸款對(duì)貸款余額的回歸方程回歸方程為:y=-0.8295+0.037895x回歸系數(shù)=0.037895表示,貸款余額每增加1億元,不良貸款平均增加0.037895億元
估計(jì)方程的求法
(例題分析)不良貸款對(duì)貸款余額回歸方程的圖示用R進(jìn)行回歸分析變差因變量
y的取值是不同的,y取值的這種波動(dòng)稱為變差。變差來源于兩個(gè)方面由于自變量x的取值不同造成的除x以外的其他因素(如x對(duì)y的非線性影響、測量誤差等)的影響對(duì)一個(gè)具體的觀測值來說,變差的大小可以通過該實(shí)際觀測值與其均值之差來表示回歸直線的擬合優(yōu)度變差的分解(圖示)xyy{}}
離差平方和的分解
(三個(gè)平方和的關(guān)系)SST=SSR+SSE總平方和(SST){回歸平方和(SSR)殘差平方和(SSE){{離差平方和的分解
(三個(gè)平方和的意義)總平方和(SST)反映因變量的n個(gè)觀察值與其均值的總離差回歸平方和(SSR)反映自變量x的變化對(duì)因變量y取值變化的影響,或者說,是由于x與y之間的線性關(guān)系引起的y的取值變化,也稱為可解釋的平方和殘差平方和(SSE)反映除x以外的其他因素對(duì)y取值的影響,也稱為不可解釋的平方和或剩余平方和判定系數(shù)r2
(coefficientofdetermination)回歸平方和占總離差平方和的比例反映回歸直線的擬合程度取值范圍在[0,1]之間
R2
1,說明回歸方程擬合的越好;R2
0,說明回歸方程擬合的越差判定系數(shù)等于相關(guān)系數(shù)的平方,即R2=(r)2判定系數(shù)r2
(例題分析)【例】計(jì)算不良貸款對(duì)貸款余額回歸的判定系數(shù),并解釋其意義
判定系數(shù)的實(shí)際意義是:在不良貸款取值的變差中,有71.16%可以由不良貸款與貸款余額之間的線性關(guān)系來解釋,或者說,在不良貸款取值的變動(dòng)中,有71.16%是由貸款余額所決定的。也就是說,不良貸款取值的差異有2/3以上是由貸款余額決定的??梢姴涣假J款與貸款余額之間有較強(qiáng)的線性關(guān)系估計(jì)標(biāo)準(zhǔn)誤差
(standarderrorofestimate)實(shí)際觀察值與回歸估計(jì)值離差平方和的均方根反映實(shí)際觀察值在回歸直線周圍的分散狀況對(duì)誤差項(xiàng)
的標(biāo)準(zhǔn)差
的估計(jì),是在排除了x對(duì)y的線性影響后,y隨機(jī)波動(dòng)大小的一個(gè)估計(jì)量反映用估計(jì)的回歸方程預(yù)測y時(shí)預(yù)測誤差的大小
計(jì)算公式為注:例題的計(jì)算結(jié)果為1.9799線性關(guān)系的檢驗(yàn)檢驗(yàn)自變量與因變量之間的線性關(guān)系是否顯著將回歸均方(MSR)同殘差均方(MSE)加以比較,應(yīng)用F檢驗(yàn)來分析二者之間的差異是否顯著回歸均方:回歸平方和SSR除以相應(yīng)的自由度(自變量的個(gè)數(shù)p)殘差均方:殘差平方和SSE除以相應(yīng)的自由度(n-p-1)顯著性檢驗(yàn)線性關(guān)系的檢驗(yàn)
(檢驗(yàn)的步驟)提出假設(shè)H0:
1=0線性關(guān)系不顯著2.計(jì)算檢驗(yàn)統(tǒng)計(jì)量F確定顯著性水平,并根據(jù)分子自由度1和分母自由度n-2找出臨界值F作出決策:假設(shè)F>F,拒絕H0;假設(shè)F<F,不拒絕H0線性關(guān)系的檢驗(yàn)
(例題分析)提出假設(shè)H0:
1=0不良貸款與貸款余額之間的線性關(guān)系不顯著計(jì)算檢驗(yàn)統(tǒng)計(jì)量F確定顯著性水平=0.05,并根據(jù)分子自由度1和分母自由度25-2找出臨界值F=4.28作出決策:假設(shè)F>F,拒絕H0,線性關(guān)系顯著線性關(guān)系的檢驗(yàn)
(方差分析表)R輸出的方差分析表回歸系數(shù)的檢驗(yàn)在一元線性回歸中,等價(jià)于線性關(guān)系的顯著性檢驗(yàn)檢驗(yàn)x與y之間是否具有線性關(guān)系,或者說,檢驗(yàn)自變量x對(duì)因變量y的影響是否顯著理論基礎(chǔ)是回歸系數(shù)
的抽樣分布回歸系數(shù)的檢驗(yàn)
(樣本統(tǒng)計(jì)量的分布)
是根據(jù)最小二乘法求出的樣本統(tǒng)計(jì)量,它有自己的分布的分布具有如下性質(zhì)分布形式:正態(tài)分布數(shù)學(xué)期望:標(biāo)準(zhǔn)差:由于未知,需用其估計(jì)量sy來代替得到的估計(jì)的標(biāo)準(zhǔn)差回歸系數(shù)的檢驗(yàn)
(檢驗(yàn)步驟)提出假設(shè)H0:b1=0(沒有線性關(guān)系)H1:b1
0(有線性關(guān)系)計(jì)算檢驗(yàn)的統(tǒng)計(jì)量確定顯著性水平,并進(jìn)行決策
t>t
,拒絕H0;t<t
,不拒絕H0回歸系數(shù)的檢驗(yàn)
(例題分析)
對(duì)例題的回歸系數(shù)進(jìn)行顯著性檢驗(yàn)(=0.05)提出假設(shè)H0:b1=0H1:b1
0計(jì)算檢驗(yàn)的統(tǒng)計(jì)量t=7.533515>t=2.201,拒絕H0,說明不良貸款與貸款余額之間有線性關(guān)系回歸系數(shù)的檢驗(yàn)
(例題分析)
P值的應(yīng)用P=0.000000<=0.05,拒絕原假設(shè),不良貸款與貸款余額之間有線性關(guān)系R輸出的局部回歸結(jié)果§9.3利用回歸方程進(jìn)行估計(jì)和預(yù)測點(diǎn)估計(jì)區(qū)間估計(jì)利用回歸方程進(jìn)行估計(jì)和預(yù)測根據(jù)自變量x
的取值估計(jì)或預(yù)測因變量y的取值估計(jì)或預(yù)測的類型點(diǎn)估計(jì)y的平均值的點(diǎn)估計(jì)y的個(gè)別值的點(diǎn)估計(jì)區(qū)間估計(jì)y的平均值的置信區(qū)間估計(jì)y的個(gè)別值的預(yù)測區(qū)間估計(jì)點(diǎn)估計(jì)2.點(diǎn)估計(jì)值有y的平均值的點(diǎn)估計(jì)y的個(gè)別值的點(diǎn)估計(jì)在點(diǎn)估計(jì)條件下,平均值的點(diǎn)估計(jì)和個(gè)別值的的點(diǎn)估計(jì)是一樣的,但在區(qū)間估計(jì)中那么不同對(duì)于自變量x的一個(gè)給定值x0
,根據(jù)回歸方程得到因變量y的一個(gè)估計(jì)值
y的平均值的點(diǎn)估計(jì)利用估計(jì)的回歸方程,對(duì)于自變量x的一個(gè)給定值x0,求出因變量y的平均值的一個(gè)估計(jì)值E(y0),就是平均值的點(diǎn)估計(jì)在前面的例子中,假設(shè)我們要估計(jì)貸款余額為100億元時(shí),所有分行不良貸款的平均值,就是平均值的點(diǎn)估計(jì)。根據(jù)估計(jì)的回歸方程得y的個(gè)別值的點(diǎn)估計(jì)利用估計(jì)的回歸方程,對(duì)于自變量x的一個(gè)給定值x0,求出因變量y的一個(gè)個(gè)別值的估計(jì)值,就是個(gè)別值的點(diǎn)估計(jì)比方,如果我們只是想知道貸款余額為72.8億元的那個(gè)分行(這里是編號(hào)為10的那個(gè)分行)的不良貸款是多少,那么屬于個(gè)別值的點(diǎn)估計(jì)。根據(jù)估計(jì)的回歸方程得區(qū)間估計(jì)點(diǎn)估計(jì)不能給出估計(jì)的精度,點(diǎn)估計(jì)值與實(shí)際值之間是有誤差的,因此需要進(jìn)行區(qū)間估計(jì)對(duì)于自變量
x的一個(gè)給定值x0,根據(jù)回歸方程得到因變量y的一個(gè)估計(jì)區(qū)間區(qū)間估計(jì)有兩種類型置信區(qū)間估計(jì)(confidenceintervalestimate)預(yù)測區(qū)間估計(jì)(predictionintervalestimate)置信區(qū)間估計(jì)利用估計(jì)的回歸方程,對(duì)于自變量x的一個(gè)給定值x0
,求出因變量y
的平均值的估計(jì)區(qū)間
,這一估計(jì)區(qū)間稱為置信區(qū)間(confidenceinterval)
E(y0)
在1-
置信水平下的置信區(qū)間為式中:sy為估計(jì)標(biāo)準(zhǔn)誤差置信區(qū)間估計(jì)
(例題分析)【例】求出貸款余額為100億元時(shí),不良貸款95%的置信區(qū)間解:根據(jù)前面的計(jì)算結(jié)果,n=25,sy=1.9799,t(25-2)=2.068置信區(qū)間為當(dāng)貸款余額為100億元時(shí),不良貸款的平均值在2.1141億元到3.8059億元之間預(yù)測區(qū)間估計(jì)利用估計(jì)的回歸方程,對(duì)于自變量x的一個(gè)給定值x0
,求出因變量y
的一個(gè)個(gè)別值的估計(jì)區(qū)間,這一區(qū)間稱為預(yù)測區(qū)間(predictioninterval)
y0在1-
置信水平下的預(yù)測區(qū)間為注意!預(yù)測區(qū)間估計(jì)
(例題分析)【例】求出貸款余額為72.8億元時(shí),不良貸款95%的置信區(qū)間解:根據(jù)前面的計(jì)算結(jié)果,n=25,sy=1.9799,t(25-2)=2.0687置信區(qū)間為貸款余額為72.8億元的那個(gè)分行,其不良貸款的預(yù)測區(qū)間在-2.2766億元到6.1366億元之間影響區(qū)間寬度的因素置信水平(1-
)區(qū)間寬度隨置信水平的增大而增大數(shù)據(jù)的離散程度(s)區(qū)間寬度隨離散程度的增大而增大3. 樣本容量區(qū)間寬度隨樣本容量的增大而減小4. 用于預(yù)測的xp與
x的差異程度區(qū)間寬度隨xp與
x的差異程度的增大而增大置信區(qū)間、預(yù)測區(qū)間、回歸方程xpyx
x預(yù)測上限置信上限預(yù)測下限置信下限§9.4殘差分析用殘差證實(shí)模型的假定用殘差檢測異常值和有影響的觀測值殘差(residual)因變量的觀測值與根據(jù)估計(jì)的回歸方程求出的預(yù)測值之差,用e表示反映了用估計(jì)的回歸方程去預(yù)測而引起的誤差確定有關(guān)誤差項(xiàng)
的假定是否成立檢測有影響的觀測值用殘差證實(shí)模型的假定殘差圖(residualplot)表示殘差的圖形關(guān)于x的殘差圖關(guān)于y的殘差圖標(biāo)準(zhǔn)化殘差圖用于判斷誤差
的假定是否成立檢測有影響的觀測值殘差圖
(形態(tài)及判別)殘差圖
(例題分析)標(biāo)準(zhǔn)化殘差
(standardizedresidual)
殘差除以它的標(biāo)準(zhǔn)差后得到的數(shù)值。計(jì)算公式為
ei是第i個(gè)殘差的標(biāo)準(zhǔn)差,其計(jì)算公式為
標(biāo)準(zhǔn)化殘差圖用以直觀地判斷誤差項(xiàng)服從正態(tài)分布這一假定是否成立假設(shè)假定成立,標(biāo)準(zhǔn)化殘差的分布也應(yīng)服從正態(tài)分布在標(biāo)準(zhǔn)化殘差圖中,大約有95%的標(biāo)準(zhǔn)化殘差在-2到+2之間標(biāo)準(zhǔn)化殘差圖
(例題分析)用殘差檢測異常值和
有影響的觀測值異常值(outlier)如果某一個(gè)點(diǎn)與其他點(diǎn)所呈現(xiàn)的趨勢不相吻合,這個(gè)點(diǎn)就有可能是異常點(diǎn),或稱為野點(diǎn)如果異常值是一個(gè)錯(cuò)誤的數(shù)據(jù),比方記錄錯(cuò)誤造成的,應(yīng)該修正該數(shù)據(jù),以便改善回歸的效果如果是由于模型的假定不合理,使得標(biāo)準(zhǔn)化殘差偏大,應(yīng)該考慮采用其他形式的模型,比方非線性模型如果完全是由于隨機(jī)因素而造成的異常值,那么應(yīng)該保存該數(shù)據(jù)在處理異常值時(shí),假設(shè)一個(gè)異常值是一個(gè)有效的觀測值,不應(yīng)輕易地將其從數(shù)據(jù)集中予以剔出異常值(識(shí)別)異常值也可以通過標(biāo)準(zhǔn)化殘差來識(shí)別如果某一個(gè)觀測值所對(duì)應(yīng)的標(biāo)準(zhǔn)化殘差較大,就可以識(shí)別為異常值一般情況下,當(dāng)一個(gè)觀測值所對(duì)應(yīng)的標(biāo)準(zhǔn)化殘差小于-2或大于+2時(shí),就可以將其視為異常值有影響的觀測值如果某一個(gè)或某一些觀測值對(duì)回歸的結(jié)果有強(qiáng)烈的影響,那么該觀測值或這些觀測值就是有影響的觀測值一個(gè)有影響的觀測值可能是一個(gè)異常值,即有一個(gè)的值遠(yuǎn)遠(yuǎn)偏離了散點(diǎn)圖中的趨勢線對(duì)應(yīng)一個(gè)遠(yuǎn)離自變量平均值的觀測值或者是這二者組合而形成的觀測值,有影響的觀測值(圖示)不存在影響值的趨勢不存在影響值的趨勢存在影響值的趨勢杠桿率點(diǎn)
(ieveragepoint)如果自變量存在一個(gè)極端值,該觀測值那么稱為高杠桿率點(diǎn)(highieveragepoint)在一元回歸中,第i個(gè)觀測值的杠桿率用hi表示,其計(jì)算公式為如果一個(gè)觀測值的杠桿率就可以將該觀測值識(shí)別為有高杠桿率的點(diǎn)一個(gè)有高杠桿率的觀測值未必是一個(gè)有影響的觀測值,它可能對(duì)回歸直線的斜率沒有什么影響高杠桿率點(diǎn)(圖示)高杠桿率點(diǎn)本章小結(jié)變量間關(guān)系的度量回歸模型、回歸方程與估計(jì)的回歸方程回歸直線的擬合優(yōu)度回歸分析中的顯著性檢驗(yàn)估計(jì)和預(yù)測用R進(jìn)行回歸分析第10章多元線性回歸§10.1多元線性回歸模型§10.2回歸方程的擬合優(yōu)度§10.3顯著性檢驗(yàn)§10.4多重共線性§10.5利用回歸方程進(jìn)行估計(jì)和預(yù)測§10.6虛擬自變量的回歸學(xué)習(xí)目標(biāo)1. 回歸模型、回歸方程、估計(jì)的回歸方程2. 回歸方程的擬合優(yōu)度回歸方程的顯著性檢驗(yàn)多重共線性問題及其處理利用回歸方程進(jìn)行估計(jì)和預(yù)測虛擬自變量的回歸問題用R進(jìn)行回歸分析§10.1多元線性回歸模型多元回歸模型與回歸方程估計(jì)的多元回歸方程參數(shù)的最小二乘估計(jì)多元回歸模型
(multipleregressionmodel)一個(gè)因變量與兩個(gè)及兩個(gè)以上自變量的回歸描述因變量y如何依賴于自變量x1
,x2
,…,
xp
和誤差項(xiàng)
的方程,稱為多元回歸模型涉及p個(gè)自變量的多元回歸模型可表示為
b0
,b1,b2
,,bp是參數(shù)
是被稱為誤差項(xiàng)的隨機(jī)變量
y是x1,,x2
,
,xp
的線性函數(shù)加上誤差項(xiàng)
包含在y里面但不能被p個(gè)自變量的線性關(guān)系所解釋的變異性多元回歸模型
(根本假定)誤差項(xiàng)ε是一個(gè)期望值為0的隨機(jī)變量,即E(
)=0對(duì)于自變量x1,x2,…,xp的所有值,
的方差
2都相同誤差項(xiàng)ε是一個(gè)服從正態(tài)分布的隨機(jī)變量,即ε~N(0,
2),且相互獨(dú)立多元回歸方程
(multipleregressionequation)描述因變量y的平均值或期望值如何依賴于自變量x1,x2
,…,xp的方程多元線性回歸方程的形式為
E(y)=
0+
1x1
+
2x2
+…+
pxp
b1,b2,,bp稱為偏回歸系數(shù)
bi
表示假定其他變量不變,當(dāng)xi
每變動(dòng)一個(gè)單位時(shí),y的平均變動(dòng)值二元回歸方程的直觀解釋二元線性回歸模型(觀察到的y)回歸面
0
ix1yx2(x1,x2)}估計(jì)的多元回歸的方程
(estimatedmultipleregressionequation)是估計(jì)值是y
的估計(jì)值用樣本統(tǒng)計(jì)量估計(jì)回歸方程中的參數(shù)
時(shí)得到的方程由最小二乘法求得一般形式為參數(shù)的最小二乘法求解各回歸參數(shù)的標(biāo)準(zhǔn)方程如下使因變量的觀察值與估計(jì)值之間的離差平方和到達(dá)最小來求得。即參數(shù)的最小二乘法
(例題分析)【例】一家大型商業(yè)銀行在多個(gè)地區(qū)設(shè)有分行,為弄清楚不良貸款形成的原因,抽取了該銀行所屬的25家分行2002年的有關(guān)業(yè)務(wù)數(shù)據(jù)。試建立不良貸款(y)與貸款余額(x1)、累計(jì)應(yīng)收貸款(x2)、貸款工程個(gè)數(shù)(x3)和固定資產(chǎn)投資額(x4)的線性回歸方程,并解釋各回歸系數(shù)的含義用R進(jìn)行回歸§10.2回歸方程的擬合優(yōu)度多重判定系數(shù)估計(jì)標(biāo)準(zhǔn)誤差多重判定系數(shù)
(multiplecoefficientofdetermination)
回歸平方和占總平方和的比例計(jì)算公式為因變量取值的變差中,能被估計(jì)的多元回歸方程所解釋的比例修正多重判定系數(shù)
(adjustedmultiplecoefficientofdetermination)
用樣本容量n和自變量的個(gè)數(shù)p去修正R2得到計(jì)算公式為防止增加自變量而高估R2意義與R2類似數(shù)值小于R2R輸出結(jié)果的分析估計(jì)標(biāo)準(zhǔn)誤差Sy對(duì)誤差項(xiàng)
的標(biāo)準(zhǔn)差
的一個(gè)估計(jì)值衡量多元回歸方的程擬合優(yōu)度計(jì)算公式為R輸出結(jié)果的分析§10.3顯著性檢驗(yàn)線性關(guān)系檢驗(yàn)回歸系數(shù)檢驗(yàn)和推斷線性關(guān)系檢驗(yàn)檢驗(yàn)因變量與所有自變量之間的是否顯著也被稱為總體的顯著性檢驗(yàn)檢驗(yàn)方法是將回歸離差平方和(SSR)同剩余離差平方和(SSE)加以比較,應(yīng)用F檢驗(yàn)來分析二者之間的差異是否顯著如果是顯著的,因變量與自變量之間存在線性關(guān)系如果不顯著,因變量與自變量之間不存在線性關(guān)系線性關(guān)系檢驗(yàn)提出假設(shè)H0:
1
2
p=0線性關(guān)系不顯著H1:
1,
2,,
p至少有一個(gè)不等于02.
計(jì)算檢驗(yàn)統(tǒng)計(jì)量F3.確定顯著性水平和分子自由度p、分母自由度n-p-1找出臨界值F4.作出決策:假設(shè)F>F,拒絕H0R輸出結(jié)果的分析回歸系數(shù)的檢驗(yàn)線性關(guān)系檢驗(yàn)通過后,對(duì)各個(gè)回歸系數(shù)有選擇地進(jìn)行一次或?qū)掖螜z驗(yàn)究竟要對(duì)哪幾個(gè)回歸系數(shù)進(jìn)行檢驗(yàn),通常需要在建立模型之前作出決定對(duì)回歸系數(shù)檢驗(yàn)的個(gè)數(shù)進(jìn)行限制,以防止犯過多的第一類錯(cuò)誤(棄真錯(cuò)誤)對(duì)每一個(gè)自變量都要單獨(dú)進(jìn)行檢驗(yàn)應(yīng)用t檢驗(yàn)統(tǒng)計(jì)量回歸系數(shù)的檢驗(yàn)
(步驟)提出假設(shè)H0:bi=0(自變量xi與
因變量y沒有線性關(guān)系)H1:bi
0(自變量xi與
因變量y有線性關(guān)系)計(jì)算檢驗(yàn)的統(tǒng)計(jì)量t3.
確定顯著性水平,并進(jìn)行決策
t>t
,拒絕H0;t<t
,不拒絕H0R輸出結(jié)果的分析回歸系數(shù)的推斷
(置信區(qū)間)
回歸系數(shù)在(1-)%置信水平下的置信區(qū)間為
回歸系數(shù)的抽樣標(biāo)準(zhǔn)差R輸出結(jié)果的分析§10.4多重共線性多重共線性及其所產(chǎn)生的問題多重共線性的判別多重共線性問題的處理多重共線性
(multicollinearity)回歸模型中兩個(gè)或兩個(gè)以上的自變量彼此相關(guān)多重共線性帶來的問題有可能會(huì)使回歸的結(jié)果造成混亂,甚至?xí)逊治鲆肫缤究赡軐?duì)參數(shù)估計(jì)值的正負(fù)號(hào)產(chǎn)生影響,特別是各回歸系數(shù)的正負(fù)號(hào)有可能同我們與其的正負(fù)號(hào)相反R輸出結(jié)果的分析多重共線性的識(shí)別檢測多重共線性的最簡單的一種方法是計(jì)算模型中各對(duì)自變量之間的相關(guān)系數(shù),并對(duì)各相關(guān)系數(shù)進(jìn)行顯著性檢驗(yàn)假設(shè)有一個(gè)或多個(gè)相關(guān)系數(shù)顯著,就表示模型中所用的自變量之間相關(guān),存在著多重共線性如果出現(xiàn)以下情況,暗示存在多重共線性模型中各對(duì)自變量之間顯著相關(guān)。當(dāng)模型的線性關(guān)系檢驗(yàn)(F檢驗(yàn))顯著時(shí),幾乎所有回歸系數(shù)的t檢驗(yàn)卻不顯著回歸系數(shù)的正負(fù)號(hào)與其的相反。R輸出結(jié)果的分析多重共線性
(例題分析)【例】判別各自變量之間是否存在多重共線性貸款余額、應(yīng)收貸款、貸款工程、固定資產(chǎn)投資額之間的相關(guān)矩陣多重共線性
(例題分析)【例】判別各自變量之間是否存在多重共線性相關(guān)矩陣系數(shù)的檢驗(yàn)統(tǒng)計(jì)量多重共線性
(例題分析)
t
(25-2)=2.0687,所有統(tǒng)計(jì)量t>t
(25-2)=2.0687,所以均拒絕原假設(shè),說明這4個(gè)自變量兩兩之間都有顯著的相關(guān)關(guān)系由表Excel輸出的結(jié)果可知,回歸模型的線性關(guān)系顯著(Significance-F=1.03539E-06<=0.05)。而回歸系數(shù)檢驗(yàn)時(shí)卻有3個(gè)沒有通過t檢驗(yàn)(P-Value=0.074935、0.862853、0.067030>=0.05)。這也暗示了模型中存在多重共線性固定資產(chǎn)投資額的回歸系數(shù)為負(fù)號(hào)(-0.029193),與預(yù)期的不一致多重共線性
(問題的處理)將一個(gè)或多個(gè)相關(guān)的自變量從模型中剔除,使保存的自變量盡可能不相關(guān)如果要在模型中保存所有的自變量,那么應(yīng)防止根據(jù)t統(tǒng)計(jì)量對(duì)單個(gè)參數(shù)進(jìn)行檢驗(yàn)對(duì)因變量值的推斷(估計(jì)或預(yù)測)的限定在自變量樣本值的范圍內(nèi)R輸出結(jié)果的分析§10.5利用回歸方程進(jìn)行估計(jì)和預(yù)測軟件應(yīng)用置信區(qū)間估計(jì)
(例題分析)STATISTICA輸出的不良貸款的置信區(qū)間預(yù)測區(qū)間估計(jì)
(例題分析)STATISTICA輸出的不良貸款的預(yù)測區(qū)間§10.6虛擬自變量的回歸含有一個(gè)虛擬自變量的回歸用虛擬自變量回歸解決方差分析問題虛擬自變量
(dummyvariable)用數(shù)字代碼表示的定性自變量虛擬自變量可有不同的水平只有兩個(gè)水平的虛擬自變量比方,性別(男,女)有兩個(gè)以上水平的虛擬自變量貸款企業(yè)的類型(家電,醫(yī)藥,其他)虛擬變量的取值為0,1虛擬自變量的回歸回歸模型中使用虛擬自變量時(shí),稱為虛擬自變量的回歸當(dāng)虛擬自變量只有兩個(gè)水平時(shí),可在回歸中引入一個(gè)虛擬變量比方,性別(男,女)一般而言,如果定性自變量有k個(gè)水平,需要在回歸中模型中引進(jìn)k-1個(gè)虛擬變量虛擬自變量的回歸
(例題分析)【例】為研究考試成績與性別之間的關(guān)系,從某大學(xué)商學(xué)院隨機(jī)抽取男女學(xué)生各8名,得到他們的市場營銷學(xué)課程的考試成績?nèi)缦卤硖摂M自變量的回歸
(例題分析)散點(diǎn)圖y與x的回歸男女虛擬自變量的回歸
(例題分析)引進(jìn)虛擬變量時(shí),回歸方程可寫:E(y)=
0+
1x男(x=0):E(y)=
0—男學(xué)生考試成績的期望值女(x=0):E(y)=
0+
1—
1女學(xué)生考試成績的期望值注意:當(dāng)指定虛擬變量0—1時(shí)
0總是代表與虛擬變量值0所對(duì)應(yīng)的那個(gè)分類變量水平的平均值
1總是代表與虛擬變量值1所對(duì)應(yīng)的那個(gè)分類變量水平的平均響應(yīng)與虛擬變量值0所對(duì)應(yīng)的那個(gè)分類變量水平的平均值的差值,即平均值的差值=(
0+
1)-
0=
1虛擬自變量的回歸
(例題分析)【例】為研究工資水平與工作年限和性別之間的關(guān)系,在某行業(yè)中隨機(jī)抽取10名職工,所得數(shù)據(jù)如下表y與x1的回歸及分析y與x1、x2的回歸及分析虛擬自變量的回歸
(例題分析)引進(jìn)虛擬變量時(shí),回歸方程可寫:
E(y)=
0+
1x1+
2x2女(
x2=0):E(y|女性)=
0+
1x1男(x2=1):E(y|男性)=(
0+
2)+
1x1
0的含義表示:女性職工的期望月工資收入(
0+
2)的含義表示:男性職工的期望月工資收入
1含義表示:工作年限每增加1年,男性或女性工資的平均增加值
2含義表示:男性職工的期望月工資收入與女性職工的期望月工資收入之間的差值(
0+
2)-
0=
2用虛擬自變量回歸
解決方差分析問題方差分析的回歸方法
(例題分析)引進(jìn)虛擬變量建立回歸方程:E(Y)=
0+
1x1+
2x2+
3x3用R進(jìn)行回歸
0—家電制造業(yè)投訴次數(shù)的平均值
(
0+
1)—零售業(yè)投訴次數(shù)的平均值
(
0+
2)—旅游業(yè)投訴次數(shù)的平均值
(
0+
3)—航空公司投訴次數(shù)的平均值
本章小結(jié)多元回歸模型、回歸方程、估計(jì)方程回歸方程的擬合優(yōu)度顯著性檢驗(yàn)多重共線性利用回歸方程進(jìn)行估計(jì)和預(yù)測虛擬自變量的回歸方差分析的回歸方法第11章實(shí)例分析§11.1統(tǒng)計(jì)模型的表示§11.2統(tǒng)計(jì)分析實(shí)例§11.1統(tǒng)計(jì)模型的表示很多統(tǒng)計(jì)模型可以用一個(gè)線型模型來表示:在S中模型是一種對(duì)象,其表達(dá)形式叫做一個(gè)公式,我們先舉幾個(gè)例子來看一看。假定y,x,x0,x1,x2,…是數(shù)值型變量,X是矩陣,A,B,C,…是因子。y~xy~1+x兩個(gè)式子都表示y對(duì)x的簡單一元線型回歸。第一個(gè)式子帶有隱含的截距項(xiàng),而第二個(gè)式子把截距項(xiàng)顯式地寫了出來。y~-1+xy~x-1都表示y對(duì)x的通過原點(diǎn)的回歸,即不帶截距項(xiàng)的回歸。log(y)~x1+x2表示log(y)對(duì)x1和x2的二元回歸,帶有隱含的截距項(xiàng)。y~poly(x,2)y~1+x+I(x^2)表示y對(duì)x的一元二次多項(xiàng)式回歸。第一種形式使用正交多項(xiàng)式,第二種形式直接使用x的各冪次。y~X+poly(x,2)因變量為y的多元回歸,模型矩陣包括矩陣X,以及x的二次多項(xiàng)式的各項(xiàng)。y~A一種方式分組的方差分析,指標(biāo)為y,分組因素為A。y~A+x一種方式分組的協(xié)方差分析,指標(biāo)為y,分組因素為A,帶有協(xié)變量x。y~A*By~A+B+A:By~B%in%A
y~A/B非可加兩因素方差分析模型,指標(biāo)為y,A,B是兩個(gè)因素。前兩個(gè)公式表示相同的交叉分類設(shè)計(jì),后兩個(gè)公式表示相同的嵌套分類設(shè)計(jì)。y~(A+B+C)^2y~A*B*C-A:B:C表示三因素試驗(yàn),只考慮兩兩交互作用而不考慮三個(gè)因素間的交互作用。兩個(gè)公式是等價(jià)的。y~A*xy~A/x
y~A/(1+x)-1都表示對(duì)因子A的每一水平擬合y對(duì)x的線型回歸,但三個(gè)公式的編碼方式不同。最后一種形式對(duì)A的每一水平都分別估計(jì)截距項(xiàng)和斜率項(xiàng)。y~A*B+Error(C)表示有兩個(gè)處理因素A和B,誤差分層由因素C確定的設(shè)計(jì)在S中~運(yùn)算符用來定義模型公式。一般的線型模型的公式形式為因變量~+-第一項(xiàng)+-第二項(xiàng)+-第三項(xiàng)…其中因變量可以是向量或矩陣,或者結(jié)果為向量或矩陣的表達(dá)式。是加號(hào)+或者減號(hào)-,表示在模型中參加一項(xiàng)或去掉一項(xiàng),第一項(xiàng)前面如果是加號(hào)可以省略。公式中的各項(xiàng)可以取為:一個(gè)值為向量或矩陣的表達(dá)式,或1。一個(gè)因子一個(gè)“公式表達(dá)式”,由“公式運(yùn)算符”把因子、向量、矩陣連接而成。公式中的各項(xiàng)可以取為:一個(gè)值為向量或矩陣的表達(dá)式,或1。一個(gè)因子一個(gè)“公式表達(dá)式”,由“公式運(yùn)算符”把因子、向量、矩陣連接而成。每一項(xiàng)定義了要參加模型矩陣或從模型矩陣中刪除的假設(shè)干列。一個(gè)1表示一個(gè)截距項(xiàng)列,除非顯式地刪除總是隱含地包括在模型公式中。“公式運(yùn)算符”的定義和Glim、Genstat軟件中的定義類似,不過那里的“.”運(yùn)算符這里改成了“:”,因?yàn)樵赟中句點(diǎn)是名字的合法字符。資料中列出了各運(yùn)算符的簡要說明。每一項(xiàng)定義了要參加模型矩陣或從模型矩陣中刪除的假設(shè)干列。一個(gè)1表示一個(gè)截距項(xiàng)列,除非顯式地刪除總是隱含地包括在模型公式中。“公式運(yùn)算符”的定義和Glim、Genstat軟件中的定義類似,不過那里的“.”運(yùn)算符這里改成了“:”,因?yàn)樵赟中句點(diǎn)是名字的合法字符。下表列出了各運(yùn)算符的簡要說明。注意在函數(shù)調(diào)用的括號(hào)內(nèi)的表達(dá)式按普通四那么運(yùn)算解釋。函數(shù)I()可以把一個(gè)計(jì)算表達(dá)式封裝起來作為模型的一項(xiàng)使用。注意S的模型表示只給出了因變量和自變量及自變量間的關(guān)系,這樣只確定了線型模型的模型矩陣,而模型參數(shù)向量是隱含的,并沒有的模型公式中表達(dá)出來。這種做法適用于線性模型,但不具有普遍性,例如非線性模型就不能這樣表示。線性回歸模型擬合普通的線性模型的函數(shù)為lm(),其簡單的用法為:>fitted.model=lm(formula,data=data.frame)其中data.frame為各變量所在的數(shù)據(jù)框,formula為模型公式,fitted.model是線性模型擬合結(jié)果對(duì)象〔其class屬性為lm〕。例如:>mod1=lm(y~x1+x2,data=production)可以擬合一個(gè)y對(duì)x1和x2的二元回歸〔帶有隱含的截距項(xiàng)〕,數(shù)據(jù)來自數(shù)據(jù)框production。擬合的結(jié)果存入了對(duì)象mod1中。注意不管數(shù)據(jù)框production是否以用attach()連接入當(dāng)前運(yùn)行環(huán)境都可被lm()使用。lm()的根本顯示十分簡練:>mod1Call:lm(formula=y~x1+x2,data=production)Coefficients:(Intercept)x1x20.01220332.0094758-0.0005314只顯示了調(diào)用的公式和參數(shù)估計(jì)結(jié)果。提取信息的通用函數(shù)lm()函數(shù)的返回值叫做模型擬合結(jié)果對(duì)象,本質(zhì)上是一個(gè)具有類屬性值lm的列表,有model、coefficients、residuals等成員。lm()的結(jié)果顯示十分簡單,為了獲得更多的擬合信息,可以使用對(duì)lm類對(duì)象有特殊操作的通用函數(shù),這些函數(shù)包括: add1 coef effects kappa predict residuals alias deviance family labels print summary anova drop1 formula plot proj下表給出了lm類〔擬合模型類〕常用的通用函數(shù)的簡單說明。通用函數(shù)返回值或效果anova(對(duì)象1,對(duì)象2)把一個(gè)子模型與原模型比較,生成方差分析表。coefficients(對(duì)象)返回回歸系數(shù)(矩陣)??珊唽憺閏oef(對(duì)象)。deviance(對(duì)象)返回殘差平方和,如有權(quán)重則加權(quán)。formula(對(duì)象)返回模型公式。plot(對(duì)象)生成兩張圖,一張是因變量對(duì)擬合值的圖形,一張是殘差絕對(duì)值對(duì)擬合值的圖形。predict(對(duì)象,newdata=數(shù)據(jù)框)predict.gam(對(duì)象,newdata=數(shù)據(jù)框)有了模型擬合結(jié)果后對(duì)新數(shù)據(jù)進(jìn)行預(yù)報(bào)。指定的新數(shù)據(jù)必須與建模時(shí)用的數(shù)據(jù)具有相同的變量結(jié)構(gòu)。函數(shù)結(jié)構(gòu)為對(duì)數(shù)據(jù)框中每一觀測的因變量預(yù)報(bào)結(jié)果(為向量或矩陣)。predict.gam()與predict()作用相同但適用性更廣,可應(yīng)用于lm、glm和gam的擬合結(jié)果。比如,當(dāng)多項(xiàng)式基函數(shù)用了正交多項(xiàng)式時(shí),加入了新數(shù)據(jù)導(dǎo)致正交多項(xiàng)式基函數(shù)改變,用predict.gam()函數(shù)可以避免由此引起的偏差print(對(duì)象)簡單顯示模型擬合結(jié)果。一般不用print()而直接鍵入對(duì)象名來顯示。residuals(對(duì)象)返回模型殘差(矩陣),若有權(quán)重則適當(dāng)加權(quán)??珊唽憺閞esid(對(duì)象)。summary(對(duì)象)可顯示較詳細(xì)的模型擬合結(jié)果。方差分析方差方差分析是研究取離散值的因素對(duì)一個(gè)數(shù)值型指標(biāo)的影響的經(jīng)典工具。S進(jìn)行方差分析的函數(shù)是aov(),格式為aov(公式,data=數(shù)據(jù)框),用法與lm()類似,提取信息的各通用函數(shù)仍有效。我們以前面用過的不同牌子木板磨損比較的數(shù)據(jù)為例。假設(shè)veneer數(shù)據(jù)框保存了該數(shù)據(jù):>veneer首先我們把每個(gè)牌子的木板的磨損情況畫盒形圖并且放在同一頁面中,作圖如下:plot(Wear~Brand,data=veneer)這種圖可以直觀地比較一個(gè)變量在多個(gè)組的分布,或者比較幾個(gè)類似的變量。從圖中可以看出,AJAX牌子較好,TUFFY較差,其它三個(gè)牌子差異不明顯。為了檢驗(yàn)牌子這個(gè)因素對(duì)指標(biāo)磨損量有無顯著影響,只要用aov()函數(shù):>aov.veneer=aov(Wear~Brand,data=veneer)>summary(aov.veneer)DfSumSqMeanSqFvaluePr(>F)Brand40.617000.154257.4040.001683**Residuals150.312500.02083---Signif.codes:0'***'0.001'**'0.01'*'0.05'.'0.1''1可見因素是顯著的?!?1.2統(tǒng)計(jì)分析實(shí)例下面我們以那個(gè)學(xué)生班的情況為例進(jìn)行一些分析。我們希望了解體重、身高、年齡、性別等變量的根本情況及互相之間的關(guān)系。一、數(shù)據(jù)輸入我們先把數(shù)據(jù)讀入一個(gè)S數(shù)據(jù)框?qū)ο笾校?gt;load('E:/R/cl.Rdata');ls();cl二、探索性數(shù)據(jù)分析〔EDA〕首先我們先研究各變量的分布情況,看分布是否接近正態(tài),有無明顯的異常值,有沒有明顯的序列相關(guān),等等。研究連續(xù)型變量的分布,可以使用直方圖、盒形圖、分布密度估計(jì)圖和正態(tài)概率圖。研究離散型變量分布只要畫其分布頻數(shù)條形圖即可,分布頻數(shù)用table函數(shù)計(jì)算。研究序列相關(guān)性可以作時(shí)間序列圖和自相關(guān)函數(shù)圖。因?yàn)檫@些圖經(jīng)常重復(fù)使用,我們把它們定義為函數(shù),在同一頁面畫出:function(x){oldpar=par(mfrow=c(2,2),mar=c(2,2,0.2,0.2),mgp=c(1.2,0.2,0));hist(x,main="",xlab="",ylab="");boxplot(x);iqd=summary(x)[5]-summary(x)[2];plot(density(x,width=2*iqd),xlab="x",ylab="",type="l",main="");qqnorm(x,main="",xlab="",ylab="");qqline(x);par(oldpar);invisible()}function(x){oldpar<-par(mfrow=c(2,1),mar=c(2,2,1,0.2),mgp=c(1.2,0.2,0));plot.ts(x,main="",xlab="");acf(x,main="",xlab="");par(oldpar);invisible()}函數(shù)中最后的invisible()表示在命令行調(diào)用此函數(shù)時(shí)不要顯示任何返回值。變量iqd計(jì)算的是函數(shù)的四分位間距。函數(shù)density用來作核密度曲線估計(jì),其width參數(shù)為核估計(jì)的參數(shù)?,F(xiàn)在調(diào)用這些函數(shù)來研究各數(shù)值型變量的分布情況。在調(diào)用前先把數(shù)據(jù)框cl連接入當(dāng)前的搜索路徑中以直接使用cl中的變量名:>attach(cl)>clfun1(Age)>clfun1(Height)>clfun1(Weight)>tab.sex<-table(Sex)>barplot(tab.sex)>clfun1(Age)>clfun1(Height)>clfun1(Weight)>tab.sex<-table(Sex)>barplot(tab.sex)因?yàn)閿?shù)據(jù)是不同個(gè)體的觀測所以不可能有序列相關(guān),未畫時(shí)間序列圖。這里給出了身高的分布圖及性別的頻數(shù)直方圖。可以看出,身高和體重都相當(dāng)接近正態(tài)且無明顯的異常點(diǎn),體重因?yàn)槿‰x散值所以直方圖不接近正態(tài),但從核密度估計(jì)曲線看仍可作為正態(tài)處理。要計(jì)算一些簡單統(tǒng)計(jì)量,可以用summary()函數(shù)。為了研究數(shù)值型變量Weight、Height、Age間的關(guān)系,我們畫它們的散點(diǎn)圖矩陣:>pairs(cbind(Height,Weight,Age))從散點(diǎn)圖矩陣〔圖14〕可以看出三個(gè)變量之間都可能有線性相關(guān)關(guān)系。為了研究因子Sex對(duì)其它變量的影響,可以畫Sex不同水平上各變量的盒形圖,如:>par(mfrow=c(1,3))>boxplot(Weight~Sex,ylab="Weight")>boxplot(Height~Sex,ylab="Height")>boxplot(Age~Sex,ylab="Age")從圖可以看出,男女的體重、身高有明顯的差異,而年齡那么差異不明顯。我們也可以分不同性別對(duì)某一變量分別作圖或計(jì)算,這里只要使用向Weight[Sex=="F"],Weight[Sex=="M"]這樣的取子集的方法就可以把觀測分組。更進(jìn)一步還可以用函數(shù)tapply直接按一個(gè)因子對(duì)觀測分組然后作用某個(gè)函數(shù):>tapply(Weight,Sex,hist)為了研究因子Sex的不同水平對(duì)其它變量間的相關(guān)關(guān)系的影響,可以作協(xié)同圖:>coplot(Weight~Height|Sex)結(jié)果圖沒有反映明顯的差異。$F$breaks[1]5060708090100110120$counts[1]1013112$intensities[1]0.011111110.000000000.011111110.033333330.011111110.011111110.02222222$density[1]0.011111110.000000000.011111110.033333330.011111110.011111110.02222222$mids[1]5565758595105115$xname[1]"X[[1]]"$equidist[1]TRUEattr(,"class")[1]"histogram"$M$breaks[1]8090100110120130140150$counts[1]3112111$intensities[1]0.029999990.010000000.010000000.020000000.010000000.010000000.01000000$density[1]0.029999990.010000000.010000000.020000000.010000000.010000000.01000000$mids[1]8595105115125135145$xname[1]"X[[2]]"$equidist[1]TRUEattr(,"class")[1]"histogram"三、組間比較我們來分析男女的身高有無顯著差異,這是兩組比較的問題。上面EDA局部的并排盒形圖已經(jīng)提示男女身高有明顯差異,這里我們用統(tǒng)計(jì)假設(shè)檢驗(yàn)給出統(tǒng)計(jì)結(jié)論。男女兩組可以認(rèn)為是獨(dú)立的,而且每組內(nèi)的觀測也可以認(rèn)為是相互獨(dú)立的。根據(jù)EDA結(jié)果可以認(rèn)為兩組都來自正態(tài)總體。這樣,我們可以使用兩樣本t檢驗(yàn)。因?yàn)榉讲钍欠裣嗟任粗?,我們干脆用不要求方差相等的近似兩樣本t檢驗(yàn):>t.test(Height[Sex=="F"],Height[Sex=="M"])t.test(Height[Sex=="F"],Height[Sex=="M"])WelchTwoSamplet-testdata:Height[Sex=="F"]andHeight[Sex=="M"]t=-1.4513,df=16.727,p-value=0.1652alternativehypothesis:truedifferenceinmeansisnotequalto095percentconfidenceinterval:-8.1550981.512875sampleestimates:meanofxmeanofy60.5888963.91000結(jié)果p值為0.1652,按我們一般采用的0.05水平是不顯著的。所以從這組樣本看男女的身高沒有發(fā)現(xiàn)顯著差異。t.test也可以進(jìn)行方差相等的兩組比較,以及成比照較,單總體的均值檢驗(yàn),詳見隨機(jī)文檔。類似可以進(jìn)行男女體重的比較,p值為0.06799,不顯著。四、回歸分析
下面我們研究對(duì)體重的預(yù)報(bào)。從散點(diǎn)圖矩陣看,體重與身高之間有明顯的線性相關(guān),所以我們先擬合一個(gè)體重對(duì)身高的一元線性回歸模型:>lm.fit1=lm(Weight~Height,data=cl)>lm.fit1Call:lm(formula=Weight~Height,data=cl)Coefficients:(Intercept)Height-143.0273.899plot(Weight,Height)>summary(lm.fit1)Call:lm(formula=Weight~Height,data=cl)Residuals:Min1QMedian3QMax-17.6807-6.06420.51159.284618.3698Coefficients:EstimateStd.ErrortvaluePr(>|t|)(Intercept)-143.026932.2746-4.4320.000366***Height3.89900.51617.5557.89e-07***---Signif.codes:0'***'0.001'**'0.01'*'0.05'.'0.1''1Residualstandarderror:11.23on17degreesoffreedomMultipleR-Squared:0.7705,AdjustedR-squared:0.757F-statistic:57.08on1and17DF,p-value:7.887e-07擬合的模型方程為Weight=-143.0269+3.8990×Height,復(fù)相關(guān)系數(shù)平方為0.7705,檢驗(yàn)?zāi)P偷男甭蕿?的p值為7.887e-007,可見模型是顯著的。對(duì)于一元回歸,我們可以在因變量對(duì)自變量的散點(diǎn)圖上疊加回歸直線來看回歸擬合的效果〔圖17〕:>plot(Weight~Height)>abline(lm.fit1)一般地,lm擬合結(jié)果對(duì)象的plot()函數(shù)可以作出假設(shè)干張檢查擬合效果的圖形,R可以作四個(gè)圖:殘差對(duì)擬合值圖、殘差的正態(tài)概率圖、標(biāo)準(zhǔn)化殘差對(duì)擬合值圖、Cook距離圖。>oldpar=par(mfrow=c(2,2),mar=c(2,2,1.5,0.2),mgp=c(1.2,0.2,0))>plot(lm.fit1)>par(oldpar)如果想每個(gè)圖都用全窗口來看那么不要設(shè)置圖形參數(shù)。四個(gè)圖中,殘差對(duì)擬合值圖可以反映殘差中殘留的結(jié)構(gòu),如果模型充分的話殘差應(yīng)該是隨機(jī)變換沒有任何模式的。殘差的正態(tài)概率圖可以檢驗(yàn)線性回歸假設(shè)檢驗(yàn)的重要假定――誤差項(xiàng)服從正態(tài)分布是否合理,可以看出殘差的分布重尾、輕尾、左偏、右偏等情況。標(biāo)準(zhǔn)化殘差平方根對(duì)擬合值圖可以發(fā)現(xiàn)殘差的異常值點(diǎn),即擬合最差的點(diǎn)。Cook距離衡量每一觀測對(duì)擬合結(jié)果的影響大小,數(shù)值大的為強(qiáng)影響點(diǎn)。圖中自動(dòng)標(biāo)出了最突出的點(diǎn)。從lm.fit1的回歸診斷圖看殘差沒有明顯的模式,但殘差分布有輕尾傾向。沒有明顯的異常值點(diǎn)。>add1(lm.fit1,~.+Age+Sex)SingletermadditionsModel:Weight~HeightDfSumofSqRSSAIC<none>2142.4993.78Age122.392120.1095.58Sex1184.711957.7794.07>add1的結(jié)果顯示一個(gè)方差分析表,列出各行中<none>一行為不加變量的情況,Age一行為參加一個(gè)變量Age后的情況,Sex一行為參加一個(gè)變量Sex的情況。各列中DF為此變量的自由度,SumofSq為該變量對(duì)應(yīng)的平方和,RSS為參加該變量后的殘差平方和,AIC為參加該變量后的AIC統(tǒng)計(jì)量值。AIC較小的模型為較好的,所以如果參加某個(gè)變量后的AIC減小就可以參加此變量。這里參加Age和參加Sex都使AIC變大,所以不應(yīng)參加這兩個(gè)變量。如果一開始就參加了所有變量,可以用drop1()函數(shù)考察去掉一個(gè)變量后AIC是否可以變?。?gt;lm.fit2=lm(Weight~Height+Age+Sex,data=cl)>summary(lm.fit2)Call:lm(formula=Weight~Height+Age+Sex,data=cl)Residuals:Min1QMedian3QMax-19.6540-6.57370.46027.670820.8515Coefficients:Esti
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 人教部編版道德與法治八年級(jí)下冊(cè):8.1 《公平正義的價(jià)值》聽課評(píng)課記錄1
- 特許經(jīng)營備案合同(2篇)
- 生產(chǎn)線承包合同(2篇)
- 環(huán)保材料采購合同(2篇)
- 2022年新課標(biāo)八年級(jí)上冊(cè)歷史第18課從九一八事變到西安事變聽課評(píng)課記錄
- 一年級(jí)古詩畫聽評(píng)課記錄
- 八年級(jí)下冊(cè)聽評(píng)課記錄
- 一年級(jí)下冊(cè)數(shù)學(xué)聽評(píng)課記錄《數(shù)花生》3 北師大版
- 冀教版數(shù)學(xué)九年級(jí)上冊(cè)28.3《圓心角和圓周角》聽評(píng)課記錄
- 人教版地理七年級(jí)下冊(cè)第七章《我們鄰近的國家和地區(qū)》復(fù)習(xí)聽課評(píng)課記錄
- 2025版茅臺(tái)酒出口業(yè)務(wù)代理及銷售合同模板4篇
- 2025年N1叉車司機(jī)考試試題(附答案)
- 2025年人教版數(shù)學(xué)五年級(jí)下冊(cè)教學(xué)計(jì)劃(含進(jìn)度表)
- 《醫(yī)院財(cái)務(wù)分析報(bào)告》課件
- 2025年初級(jí)社會(huì)工作者綜合能力全國考試題庫(含答案)
- 復(fù)工復(fù)產(chǎn)安全培訓(xùn)考試題
- 產(chǎn)品報(bào)價(jià)單(5篇)
- 市級(jí)臨床重點(diǎn)??粕陥?bào)書
- 中交與機(jī)械竣工區(qū)別
- 《醫(yī)院重點(diǎn)??平ㄔO(shè)專項(xiàng)資金管理辦法》
- 第三章:王實(shí)甫與《西廂記》PPT課件(完整版)
評(píng)論
0/150
提交評(píng)論