版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
多元線性回歸分析
Multivariatelinearregression
變量之間的關(guān)系:
從變量間相互關(guān)系的復(fù)雜程度來看,可以分為以下幾種:1.
一個變量的變化僅僅直接與另一個變量的變化有關(guān):XY
一個因變量與一個自變量之間的直接依存關(guān)系,其對應(yīng)的模型是一元回歸模型。2.
一個變量的變化直接與另一組變量的變化有關(guān):一個因變量與三個自變量之間的直接依存關(guān)系,其對應(yīng)的模型是多元(三元)回歸模型。X2Y
X3X1
變量之間的關(guān)系:3.
一個變量的變化不僅直接與另一組變量的變化有關(guān),而且間接地與其它一個或幾個變量的變化有關(guān):二個因變量與三個自變量之間的依存關(guān)系,其對應(yīng)的模型是多變量(兩變量)回歸模型。X2Y2
1X3X1Y1
2
變量之間的關(guān)系:4.
變量之間存在著相互依存的因果關(guān)系:三個因變量與四個自變量之間的依存關(guān)系,其對應(yīng)的模型是路徑分析模型。X2Y2
1X3X1Y1
2X4Y3
3
變量之間的關(guān)系:5.
變量(組)和由變量(組)產(chǎn)生的潛在因子之間復(fù)雜因果關(guān)系:獨(dú)立觀察變量X、非獨(dú)立觀察變量Y,及其由它們產(chǎn)生的獨(dú)立和非獨(dú)立潛在因子之間的復(fù)雜因果關(guān)系,其對應(yīng)的模型是結(jié)構(gòu)方程模型。
變量之間的關(guān)系:
人的體重與身高、胸圍血壓值與年齡、性別、勞動強(qiáng)度、飲食習(xí)慣、吸煙狀況、家族史糖尿病人的血糖與胰島素、糖化血紅蛋白、血清總膽固醇、甘油三脂射頻治療儀定向治療腦腫瘤過程中,腦皮質(zhì)的毀損半徑與輻射的溫度、照射的時間一個變量的變化直接與另一組變量的變化有關(guān):如:Multivariatelinearregression概念:多元線性回歸分析也稱復(fù)線性回歸分析(multiplelinearregressionanalysis),它研究一組自變量如何直接影響一個因變量。自變量(independentvariable)是指獨(dú)立自由的變量,用向量X表示;因變量(dependentvariable)是指非獨(dú)立的、受其它變量影響的變量,用向量Y表示;由于模型僅涉及一個因變量,所以多元線性回歸分析也稱單變量線性回歸分析(univariatelinearregressionanalysis)多元回歸分析數(shù)據(jù)格式假定因變量Y與自變量間存在如下關(guān)系:式中,是常數(shù)項(xiàng),稱為偏回歸系數(shù)(partialregressioncoefficient)。的含義為在其它自變量保持不變的條件下,自變量改變一個單位時因變量Y的平均改變量。為隨機(jī)誤差,又稱殘差(residual),它表示的變化中不能由自變量解釋的部分。一、多元線性回歸方程模型只有一個自變量時,回歸的結(jié)果為二維平面上的一條直線;而有兩個自變量時,回歸的結(jié)果為三維空間的一個平面;有更多自變量時,回歸的結(jié)果則是在三維以上空間的“超平面”,無法用直觀圖形表達(dá)。
應(yīng)用條件:二、多元線性回歸分析的步驟(一)估計(jì)各項(xiàng)參數(shù),建立多元線性回歸方程模型(二)對整個模型進(jìn)行假設(shè)檢驗(yàn),模型有意義的前提下,再分別對各偏回歸系數(shù)進(jìn)行假設(shè)檢驗(yàn)。(三)計(jì)算相應(yīng)指標(biāo),對模型的擬合效果進(jìn)行評價。(一)模型的參數(shù)估計(jì)27名糖尿病患者的血清總膽固醇(x1)、甘油三酯(x2)、空腹胰島素(x3)、糖化血紅蛋白(x4)、空腹血糖(y)的測量值列于表中,試建立血糖與其它幾項(xiàng)指標(biāo)關(guān)系的多元線性回歸方程。例14.1各變量的離均差矩陣線性回歸方程模型為:1、對模型的假設(shè)檢驗(yàn)—F檢驗(yàn)2、對偏回歸系數(shù)的假設(shè)檢驗(yàn)—F檢驗(yàn)和t檢驗(yàn)3、標(biāo)準(zhǔn)偏化回歸系數(shù)(二)對模型及偏回歸系數(shù)的假設(shè)檢驗(yàn)1、對模型的假設(shè)檢驗(yàn)—F檢驗(yàn)SS回歸=b1l1y+b2l2y
+b3l3y+b4l4y=0.1424×67.6962+0.3515×89.8025+0.2706×142.4347+0.6382×84.5570=133.7107;ν回歸=m=4各變量的離均差矩陣SS總=lyy=222.5519;ν總=n-1=26SS剩余=SS總-SS回歸=222.5519-133.7107=88.8412ν剩余=n-m-1=22
MS回歸=
SS回歸/ν回歸;
MS剩余=
SS剩余/ν剩余;F=
MS回歸/MS剩余1、對模型的假設(shè)檢驗(yàn)—F檢驗(yàn)1、對模型的假設(shè)檢驗(yàn)—F檢驗(yàn)2、對偏回歸系數(shù)的假設(shè)檢驗(yàn)—F檢驗(yàn)和t檢驗(yàn)回歸方程成立只能認(rèn)為總的來說自變量與因變量間存在線性關(guān)系,但是否每一個自變量都與因變量間存在線性關(guān)系,須對其偏回歸系數(shù)進(jìn)行假設(shè)檢驗(yàn)。①方差分析法②t
檢驗(yàn)法①偏回歸系數(shù)的假設(shè)檢驗(yàn)--方差分析法①偏回歸系數(shù)的假設(shè)檢驗(yàn)--方差分析法②偏回歸系數(shù)的假設(shè)檢驗(yàn)—t檢驗(yàn)系數(shù)矩陣A系數(shù)矩陣A的逆矩陣常數(shù)項(xiàng)矩陣參數(shù)估計(jì)值系數(shù)矩陣A的逆矩陣指定REG過程進(jìn)行多元線性回歸分析,擬合y與四個自變量間的多元線性回歸方程整個方程有統(tǒng)計(jì)學(xué)意義各自變量的參數(shù)估計(jì)對偏回歸系數(shù)的假設(shè)檢驗(yàn)注意
變量回歸系數(shù)bj標(biāo)準(zhǔn)化偏回歸系數(shù)bj’X10.142450.07758X20.351470.30931X3-0.27059-0.33948X40.63820.397743、標(biāo)準(zhǔn)化偏回歸系數(shù)偏回歸系數(shù)偏回歸系數(shù)標(biāo)準(zhǔn)誤標(biāo)準(zhǔn)偏回歸系數(shù)(三)計(jì)算相應(yīng)指標(biāo),對模型的擬合效果進(jìn)行評價評價回歸方程回歸效果的優(yōu)劣是回歸分析的重要內(nèi)容之一。常用評價指標(biāo)有:復(fù)相關(guān)系數(shù)、決定系數(shù)、校正決定系數(shù)、剩余標(biāo)準(zhǔn)差等。
1.復(fù)相關(guān)系數(shù)
復(fù)相關(guān)系數(shù)(R),因變量的觀測值與估計(jì)值間的簡單相關(guān)系數(shù),衡量因變量Y與回歸方程內(nèi)所有自變量線性組合間相關(guān)關(guān)系的密切程度。
0<=R<=1,沒有負(fù)值。
R的值越接近1,說明相關(guān)關(guān)系越密切;越接近0說明相關(guān)關(guān)系越弱。2.決定系數(shù)3、剩余標(biāo)準(zhǔn)差4、校正決定系數(shù)剩余標(biāo)準(zhǔn)差決定系數(shù)R2校正決定系數(shù)R2adj變異系數(shù)CV=(ROOTMSE/DEPMEAN)×100因變量的y均值三、逐步回歸分析(一)最優(yōu)子集回歸法求出所有自變量可能組合子集的回歸方程的模型(共有2m-1個),按一定準(zhǔn)則選擇最優(yōu)模型,常用的準(zhǔn)則有:①校正決定系數(shù)(考慮了自變量的個數(shù))②CP準(zhǔn)則(CP值接近m+1的模型為最優(yōu);
m為所選模型中變量的個數(shù)
)③AIC(Akaike`sInformationCriterion)準(zhǔn)則;AIC越小越好(一)最優(yōu)子集回歸法求出所有自變量可能組合子集的回歸方程的模型(共有2m-1個),按一定準(zhǔn)則選擇最優(yōu)模型,常用的準(zhǔn)則有:①校正決定系數(shù)(考慮了自變量的個數(shù))②CP準(zhǔn)則(CP值接近m+1的模型為最優(yōu);
m為所選模型中變量的個數(shù)
)③AIC(Akaike`sInformationCriterion)準(zhǔn)則;AIC越小越好最優(yōu)子集法的局限性
如果自變量個數(shù)為4,則所有的回歸有24-1=15個;當(dāng)自變量數(shù)個數(shù)為10時,所有可能的回歸為210-1=1023個;……..;當(dāng)自變量數(shù)個數(shù)為50時,所有可能的回歸為250-1≈1015個。(二)逐步選擇法
1.前進(jìn)法(forwardselection)2.后退法(backwardelimination)3.逐步回歸法(stepwiseregression)。它們的共同特點(diǎn)是每一步只引入或剔除一個自變量。決定其取舍則基于對偏回歸平方和的F檢驗(yàn)(1)前進(jìn)法
自變量從無到有、從少到多
Y對每一個自變量作直線回歸,對回歸平方和最大的自變量作F檢驗(yàn),有意義(P?。﹦t引入。在此基礎(chǔ)上,計(jì)算其它自變量的偏回歸平方和,選取偏回歸平方和最大者作F檢驗(yàn),…。局限性:后續(xù)變量的引入可能會使先進(jìn)入方程的自變量變得不重要。(2)后退法
先將全部自變量放入方程,然后逐步剔除
偏回歸平方和最小的變量,作F檢驗(yàn)及相應(yīng)的P值,決定它是否剔除(P大)。建立新的回歸方程。重復(fù)上述過程。
局限性:自變量高度相關(guān)時,可能得不出正確的結(jié)果;開始時剔除的變量即使后來變得有顯著性也不能再進(jìn)入方程。(3)逐步回歸法
雙向篩選:引入有意義的變量(前進(jìn)法),剔除無意義變量(后退法)
小樣本檢驗(yàn)水準(zhǔn)
a一般定為0.10或0.15,大樣本把a(bǔ)值定為0.05。a值越小表示選取自變量的標(biāo)準(zhǔn)越嚴(yán)。
用逐步回歸法篩選自變量進(jìn)入方程的自變量剔出方程的自變量每一步時模型的決定系數(shù)R2C(p)統(tǒng)計(jì)量逐步篩選變量過程y=a+b1x1+ey=a+b2x2+ey=a+b3x3+ey=a+b4x4+e逐步篩選變量過程y=a+bx4+ey=a+b2x2+b4x4+ey=a+b1x1+b4x4+ey=a+b3x3+b4x4+e逐步篩選變量過程y=a+b1x1+b2x2
+b4x4+ey=a+b1x1+b4x4+ey=a+b1x1+b3x3
+b4x4+e標(biāo)準(zhǔn)化偏回歸系數(shù)y=0.35409x2-0.36013x3+0.41334x4第三節(jié)多元線性回歸的應(yīng)用及其注意事項(xiàng)
二、多元線性回歸應(yīng)用時的注意事項(xiàng)
1.樣本含量2.方程“最優(yōu)”問題3.關(guān)于逐步回歸4.多元共線性5.異常值識別與強(qiáng)影響分析
4.殘差分析modely=x1-x4/selection=stepwiser;outputout=bbResidual=z;run;proc
cc;setbb;proc
univariatenormal;varz;run;
正態(tài)性檢驗(yàn)檢驗(yàn)方法----統(tǒng)計(jì)量-----------P值-------Shapiro-WilkW0.968787Pr<W0.5701Kolmogorov-SmirnovD0.148154Pr>D0.1300Cramer-vonMisesW-Sq0.070919Pr>W-Sq>0.2500Anderson-DarlingA-Sq0.372642Pr>A-Sq>0.2500從散點(diǎn)圖可以看出,各點(diǎn)子分布無明顯規(guī)律性,可認(rèn)為近似隨機(jī)分布,所以擬合的方程可認(rèn)為是合適的。多元共線性是指在進(jìn)行多元回歸分析時,自變量間存在較強(qiáng)的線性相關(guān)關(guān)系。共線關(guān)系的存在,可使得估計(jì)系數(shù)方差加大,系數(shù)估計(jì)不穩(wěn),結(jié)果分析困難。因此在多元回歸分析時,特別是當(dāng)回歸結(jié)果難以用專業(yè)知識解釋時,要進(jìn)行共線性診斷,找出存在共線性且不重要的那些自變量,剔出方程,另行回歸分析。對于存在共線性的資料,可以利用共線性診斷有選擇的保留自變量以消除共線性;或者采用嶺回歸、主成分回歸等回歸分析方法以避免共線性指標(biāo)對結(jié)果的影響。5.多元共線性“多元共線”一詞最早由R.佛里希于1934年提出,其最初的含義是指回歸模型中的某些自變量是線性相關(guān)的,即對于出現(xiàn)在模型中的自變量有一定關(guān)系成立.現(xiàn)在所說的“多元共線”有更廣泛的含義,除包括完全共線性的情況,也包括變量間有某種關(guān)系但又不是十分完全的線性關(guān)系.如下式所示的情況其中為隨機(jī)誤差項(xiàng).此時可稱為近似多元共線。多元共線性問題產(chǎn)生的根源:1、由變量性質(zhì)引起多元統(tǒng)計(jì)分析時,作為自變量的某些變量高度相關(guān),比如身高、體重和胸圍,變量之間的相關(guān)性是由變量自身的性質(zhì)決定的,此時不論數(shù)據(jù)以什么形式取得,樣本含量是大是小,都會出現(xiàn)自變量的共線性問題。因此,變量間自身的性質(zhì)是導(dǎo)致多元共線性的重要原因。多元共線性問題產(chǎn)生的根源:2、由數(shù)據(jù)問題引起:樣本含量過小、強(qiáng)影響觀測值、時序變量樣本含量過?。杭僭O(shè)只有兩個自變量X1與X2,當(dāng)n=2時,兩點(diǎn)總能連成一條直線,即使性質(zhì)上原本并不存在線性關(guān)系的變量X1與X2,由于樣本含量問題產(chǎn)生了共線性。樣本含量較小時,自變量容易呈現(xiàn)線性關(guān)系。如果研究的自變量個數(shù)大于2,設(shè)為X1,X2,...,XP,雖然各自變量之間沒有線性關(guān)系,但如果樣本含量n小于模型中自變量的個數(shù),就可能導(dǎo)致多元共線性問題。
多元共線性的表現(xiàn)在實(shí)際應(yīng)用中主要表現(xiàn)為:(1)模型擬合效果很好,但偏回歸系數(shù)幾乎都無統(tǒng)計(jì)學(xué)意義;(2)偏回歸系數(shù)估計(jì)值的方差很大;(3)偏回歸系數(shù)估計(jì)值不穩(wěn)定,隨著樣本含量的增減各偏回歸系數(shù)發(fā)生較大變化或當(dāng)一個自變量被引入或剔除時其余變量偏回歸系數(shù)有很大變化;(4)偏回歸系數(shù)估計(jì)值的大小與符號可能與事先期望的不一致或與經(jīng)驗(yàn)相悖,結(jié)果難以解釋出現(xiàn)以上表現(xiàn),提示存在多元共線性問題,應(yīng)進(jìn)行多元共線性診斷。modelx2=x3x4;R-Square=0.0492;VIF1=1/(1-0.0492)=1.0517modelx3=x2x4;R-Square=0.1099;VIF1=1/(1-0.1099)=1.1235modelx4=x2x3;R-Square=0.1514;VIF1=1/(1-0.1514)=1.1783方差膨脹因子VIF特征根條件指數(shù)方差分量如果某一自變量只是和截距項(xiàng)存在共線性的話,可以認(rèn)為不存在共線性。殘差學(xué)生化殘差cook’s距離某研究所調(diào)查了13名兒童的性別(x1:男=1,女=2)、年齡(x2:月)、身高(x3:厘米)、體重(x4:公斤)、胸圍(x5:厘米)和心象面積(y:平方厘米),數(shù)據(jù)見表。試5個影響因素與心象面積間的關(guān)系。相關(guān)分析結(jié)果例1回歸分析結(jié)果各偏回歸系數(shù)假設(shè)檢驗(yàn)結(jié)果自變量間的相關(guān)性example2:為了分析和預(yù)測人體吸入氧氣的效率,收集了31名中年男性的健康狀況資料。共7個指標(biāo):吸氧效率(y)、年齡(x1)、體重(x2)、跑1.5km所用時間(x3)、休息時心跳次數(shù)(x4)、跑步是心跳次數(shù)(X5)、和最高心率(x6)。該問題中y是因變量,試用多元回歸分析建立預(yù)測人體吸氧效率的模型。example2:對上述資料進(jìn)行逐步回歸分析,輸出結(jié)果為:這個結(jié)論易造成誤導(dǎo),因?yàn)樵谀挲g、跑1.5km時間和跑步時心率相同的條件下,最高心率越大,吸氧效率越高,這與實(shí)際相矛盾。example2:對上述資料進(jìn)行逐步回歸分析,輸出結(jié)果為:
X5和x6同時進(jìn)入模型,模型擬合良好。但x6的回歸系數(shù)為正,與x6和y的相關(guān)系數(shù)符號相反。(1)檢驗(yàn)自變量的內(nèi)相關(guān)性proc
corrdata=a;varx1-x6;run;OUTPUTexample2:(1)檢驗(yàn)自變量的內(nèi)相關(guān)性O(shè)UTPUTproc
regdata=a;modely=x1-x6/tolvifcollin;run;
條件數(shù)=197.95,遠(yuǎn)遠(yuǎn)大于10,數(shù)據(jù)存在嚴(yán)重共線性。
變量X5和x6的方差比例(vp)很大,接近于1,二者具有很強(qiáng)的共線性。
vp(x6)>vp(x5),因此,決定擬合模型時將變量x6排除在外。example2:(2)用逐步法擬合y在x1~x5上的線性回歸模型。proc
regdata=a;modely=x1-x5/selection=stepwise;title'stepwiseregressionanalysis:excludingx6';run;
第一步將x3加入到模型中。example2:(2)用逐步法擬合y在x1~x5上的線性回歸模型。
第二步將x1加入到模型中。example2:(2)用逐步法擬合y在x1~x5上的線性回歸模型。
第三步將x5加入到模型中。
逐步回歸得到的最后模型擬合數(shù)據(jù)很好(p<0.05,R2=0.8200),偏回歸系數(shù)均有統(tǒng)計(jì)學(xué)意義。example2:(2)用逐步法擬合y在x1~x5上的線性回歸模型。
注意!
逐步回歸得到的最后模型擬合數(shù)據(jù)很好(p<0.05,R2=0.8200),偏回歸系數(shù)均有統(tǒng)計(jì)學(xué)意義。總結(jié):example2:(3)通過誤差診斷判斷上述模型是否可靠
所有學(xué)生化殘差的絕對值小于2.5(基本滿足要求),而所有Cook’sD小于0.5,所以可認(rèn)為數(shù)據(jù)中沒有異常值。procregdata=a;modely=x1x3x5/pr;outputout=bp=pr=r;plotr.*p.;run;p
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 國外石英礦山承包合同協(xié)議書范本
- 合同板本類型
- 2024年濟(jì)寧煙臺客運(yùn)上崗證考試題
- 2024應(yīng)屆生簽合同的合同陷阱
- 2024上海市旅游包車合同
- 三年級語文上冊第二單元測試卷-基礎(chǔ)知識與綜合能力篇 含答案 部編版
- 2024建筑勞務(wù)人工合同范本
- 2024汽車配件供應(yīng)合同
- 員工人事檔案
- 報廢車輛收購合同(2篇)
- 優(yōu)質(zhì)護(hù)理服務(wù)PPT
- (完整版)銀行賬戶共管協(xié)議最新(精華版)
- 第三章 閘板防噴器
- 實(shí)驗(yàn)五魚體測量及描述
- 市值管理十大經(jīng)典案例
- 馬克思主義基本原理概論課程論文
- Thebestjobintheworld
- 最終版加氣機(jī)使用說明書
- 水庫移民工作存在的問題及對策水庫建設(shè)移民問題
- 班級文化建設(shè)的實(shí)踐與研究課題方案doc
- 有色金屬選礦廠工藝設(shè)計(jì)規(guī)范
評論
0/150
提交評論