版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
多元線性回歸多元線性回歸1內(nèi)容基礎概念一元線性回歸一元回歸方程、線性回歸條件步驟強影響點判斷多元線性回歸1、回歸方程、線性回歸條件2、線性回歸步驟3、評價方程的優(yōu)度4、強影響點判斷5、多重共線性的判斷內(nèi)容基礎概念2基礎概念基礎概念3回歸什么是回歸?變量間存在相關關系時,也就具備了建立預測關系的基礎。在相關變量見建立預測方程式的統(tǒng)計學方法叫做回歸分析。在問卷調(diào)查中用得多包括線性和非線性、一元和多元回歸分析回歸什么是回歸?4一元和多元線性回歸一元線性回歸:在兩個變量具有線性關系的基礎上,建立預測方程式。用一個變量預測另一個變量。如兒童的身高和體重存在線性相關,當?shù)弥砀邥r,預測被試的體重范圍。多元線性回歸:多個變量都與一個變量存在相關關系,建立用預測方程式。用多個變量預測某一個變量。例如:兒童的體重和年齡,都與身高存在線性關系,當已知體重和年齡時,對身高進行預測。一元和多元線性回歸的差別在于自變量的個數(shù)一元和多元線性回歸一元線性回歸:在兩個變量具有線性關系的基礎5一元線性回歸一元線性回歸6一元線性回歸方程(使用原始數(shù)據(jù)計算的回歸方程)Y是因變量,X是自變量,alpha和beta是待求的參數(shù)。β=
(δy/δx)*r,稱為非標準化回歸系數(shù)α=μy-βμx標準化回歸方程(使用標準化的數(shù)據(jù)計算的回歸方程)ZY=BZxB
=
(δZy/δZx)*r=1*r=r,稱為標準化回歸系數(shù)兩種方程表現(xiàn)形式一元線性回歸方程(使用原始數(shù)據(jù)計算的回歸方程)Y是因變量,X7回歸分析的一般過程1、提出假設的回歸模型,確定自變量和因變量。自變量是現(xiàn)實中容易測量的,而因變量是難測量的,如幸福感、自我效能感等2、估計回歸是線性還是非線性,用散點圖判斷。如果是線性則用線性回歸。(必須做)3、建立回歸方程4、回歸方程的有效性檢驗,測定系數(shù)和回歸系數(shù)回歸分析的一般過程1、提出假設的回歸模型,確定自變量和因變量8一元線性回歸的條件1、線性趨勢(用散點圖檢測)2、獨立性:因變量y的取值相互獨立,殘差獨立。用durbin-watson計算,值在0-4。如果殘差間相互獨立,則取值在2附近。D小于2說明相鄰誤差存在負相關。大于2,說明存在正相關3、正態(tài)性:自變量的任何一個線性組合,因變量y都服從正態(tài)分布,殘差正態(tài)(直方圖和PP圖)。4、方差齊性:自變量的任何一個線性組合,因變量y的方差均相同(把ZPRED放入Y軸,把ZRESID放入X軸做圖)一元線性回歸的條件1、線性趨勢(用散點圖檢測)9注意的問題強影響點判斷(極端值的判斷)Cook’sdistance:當值>1,表明是特別大的極端值。leverage值(杠桿值):當值>3倍均數(shù),均數(shù)為(自變量個數(shù)+1)/N畫散點圖:最后把cook距離值和leverage杠桿值分別作為X和Y軸畫散點圖,方便判斷。強影響點處理判斷原因,考慮是否刪除注意的問題強影響點判斷(極端值的判斷)10一元線性回歸例子建立體重和肺活量的回歸方程(用練習1的數(shù)據(jù))一元線性回歸例子建立體重和肺活量的回歸方程(用練習1的數(shù)據(jù))11一元線性回歸步驟先探索數(shù)據(jù),判斷是否整態(tài)、極端值畫散點圖(畫出散點圖后,雙擊圖,右鍵選addfitlineattotaltool)Analyze-regression-把肺活量放入因變量dependent-體重放入自變量independentStatistics-默認的-residuals-durinwastonsave——distance–勾上Cook’s和leverage值Plots-histogram和normalprobabilityplot勾上-把ZPRED放入Y,把ZRESID放入X軸——OK一元線性回歸步驟先探索數(shù)據(jù),判斷是否整態(tài)、極端值12β=
(δy/δx)*r=(0.41989/7.426)*0.881=0.04981α=μy-βμx=3.1027-0.04981*53.43=0.441原始回歸方程Y=0.0498X+0.441標準化回歸方程Zy=0.881Zxβ=(δy/δx)*r=(0.41989/7.42613測定系數(shù)判斷因變量Y是獨立的回歸方程的顯著性檢驗回歸方程的系數(shù)、標準化回歸系數(shù)、回歸系數(shù)的顯著性檢驗測定系數(shù)判斷因變量Y是獨立的回歸方程的顯著性檢驗回歸方程的系14決定系數(shù)決定系數(shù)R2值域在[0,1],越接近于1,表明方程的自變量對y的解釋能力越強。當變量的關系是線性關系時,R2越大,說明回歸方程擬合數(shù)據(jù)越好,共變越多。校正的決定系數(shù):隨著自變量的增加,R2自然就會隨之增加。所以R2是一個受自變量個數(shù)與樣本規(guī)模影響的系數(shù),一般的常規(guī)是1:10為好。當這個比例小于1:5時,R2傾向于高估實際的擬合優(yōu)度。為了避免這種情形,常用校正的R2代替。決定系數(shù)決定系數(shù)R2校正的決定系數(shù):15回歸方程顯著:說明X與Y有顯著的線性關系。用該方程表示X與Y之間的關系是可靠的。如果不顯著,則不能用回歸方程表示X與Y之間的關系?;貧w方程顯著:說明X與Y有顯著的線性關系。用該方程表示X與16殘差的正態(tài)性對比直方圖和正態(tài)曲線的相似性,是否是中間高,兩頭低。P-P圖的點是不是接近對角線。殘差的正態(tài)性對比直方圖和正態(tài)曲線的相似性,是否是中間高,兩頭17殘差齊性殘差齊性18多元回歸多元回歸19偏回歸系數(shù):當其他變量不變時,xi每改變一個單位,所預測的y的平均變化量。受到自變量的單位影響。因此可以用標準化回歸系數(shù)。標準化偏回歸系數(shù):可以用來比較哪個自變量是影響y的主要因素,哪個是次要因素(即哪個自變量對y的影響更多)。多元回歸方程偏回歸系數(shù):當其他變量不變時,xi每改變一個單位,所預測的y20回歸系數(shù)計算標準化偏回歸系數(shù)(假如有兩個自變量)B1=(r1y-r2y*r12)/(1-r212)
B2=(r2y-r1y*r12)/(1-r212)非標準化偏回歸系數(shù)b1=B1*(sy/sx1)回歸系數(shù)計算標準化偏回歸系數(shù)(假如有兩個自變量)21多元回歸的樣本量要求多元回歸模型的樣本量要求根據(jù)經(jīng)驗,希望樣本量在自變量數(shù)的20倍以上。比如:有5個自變量,則樣本量應該在100以上,少于此數(shù)可能會出現(xiàn)檢驗效能不足的問題多元回歸的樣本量要求多元回歸模型的樣本量要求比如:有5個自變22多元線性回歸的條件同一元線性回歸的條件多元線性回歸的條件同一元線性回歸的條件23回歸分析的5個步驟回歸分析的5個步驟24回歸分析的步驟1、做出散點圖,觀察變量間的趨勢(是否線性)。這些圖是用來觀察是否是線性趨勢。如果不是線性,可能考慮其他對變量進行預處理,或用曲線回歸注意:是否是曲線關系,或者強影響點造成的線性,或者極端值)回歸分析的步驟1、做出散點圖,觀察變量間的趨勢(是否線性)。252、考察數(shù)據(jù)的分布,進行必要的預處理。3、進行直線回歸,選入變量進入計算。回歸方程是否顯著偏回歸系數(shù)顯著根據(jù)決定系數(shù),校正決定系數(shù)判斷擬合得好不好。決定最優(yōu)方程回歸分析的步驟2、考察數(shù)據(jù)的分布,進行必要的預處理?;貧w分析的步驟264、殘差分析,分析兩方面:殘差是否獨立:用durbin-watson進行分析(取值0<d<4)。如果獨立,則d約等于2。如果相鄰兩點的殘差為正相關,d<2。當相鄰兩點的殘差為負相關時,d>2。殘差是否正態(tài):采用殘差圖顯示(勾選Histogram和Normalprobabilityplot就行)。殘差的方差齊性:以標準化預測值(ZPRED)為橫軸,標準化殘差(ZRESID)為縱軸做散點圖。若散點隨機分布,且絕大部分在2倍標準差以內(nèi),則最好,表明沒有相關。如最左圖最好。中間圖隨著x值,殘差越來越大。最右圖,殘差非正態(tài)?;貧w分析的步驟4、殘差分析,分析兩方面:回歸分析的步驟27殘差是否正態(tài):畫圖來評價1、殘差直方圖:標準化殘差為x軸,標準化殘差頻數(shù)為Y軸。與正態(tài)曲線比較,是否擬合。2、殘差p-p圖:累積殘差觀測分布為x軸,期望分布為Y軸。如果符合的話數(shù)據(jù)會和理論的直線(對角線)重合?;貧w分析的步驟殘差是否正態(tài):畫圖來評價回歸分析的步驟285、根據(jù)散點圖,對強影響點進行判斷和對多重共線性進行判斷(自變量之間不能有強相關。)最后兩幅圖是有強影響點。需要判斷是否數(shù)據(jù)出錯,出錯則刪掉?;貧w分析的步驟5、根據(jù)散點圖,對強影響點進行判斷和對多重共線性進行判斷(自29步驟同一元回歸補充步驟在statistic勾上Rsquarechange,partandpartialcorrelation(半偏相關和偏相關),conlineraritydiagnostics(共線性判斷)步驟同一元回歸補充步驟30分層回歸方法Enter:強制進入Forward:前向選擇法Backward:反向刪除法Stepwise:逐步回歸,最常用把需要控制的變量用這種方法強制enter法放入方程自由進入變量用forward、backward和stepwise方法放入方程分層回歸方法Enter:強制進入31Enter法Enter法32逐步回歸法(可以得出更優(yōu)的方程)逐步回歸法(可以得出更優(yōu)的方程)33決定系數(shù)的變化量決定系數(shù)的變化量34回歸方程的顯著性檢驗保留的變量,因為回歸系數(shù)和偏回歸系數(shù)顯著刪除的變量,因為標準化回歸系數(shù)不顯著回歸方程的顯著性檢驗保留的變量,因為回歸系數(shù)和偏回歸系數(shù)顯著35多重共線性判斷多重共線性判斷36回歸方程的顯著性檢驗偏回歸系數(shù)的顯著性檢驗決定系數(shù)R2,校正決定系數(shù)R2復相關系數(shù)R回歸方程的解釋能力回歸方程的顯著性檢驗回歸方程的解釋能力37回歸方程的解釋能力回歸方程的顯著性檢驗當顯著時,便可以認為回歸方程中至少有一個回歸系數(shù)是顯著的,但是并不一定多有的回歸系數(shù)都是顯著的。偏回歸系數(shù)的顯著性檢驗判斷指定的某個自變量的回歸系數(shù)是否顯著。顯著的話,代表與殘差相比,該x變量對y的貢獻是顯著的。根據(jù)回歸系數(shù)顯著、偏回歸系數(shù)顯著、校正的決定系數(shù)判斷最優(yōu)方程?;貧w方程的解釋能力回歸方程的顯著性檢驗38復相關系數(shù)R值域在[0,1],是因變量y與所有自變量之間的多元線性相關程度的度量。R值越接近于1,表明y與所有x之間的線性關系越密切。復相關系數(shù)R39對強影響點的診斷和處理同一元線性回歸對強影響點的診斷和處理同一元線性回歸40多重共線性(conlineraritydiagnostics)判斷方法相關系數(shù)矩陣:當相關系數(shù)>0.8,代表共線性越大。容忍度(tolerance):最大值為1。當值越小,代表共線性越大。特征值(eigenvalue):表示該因子所解釋變量的方差。如果很多變量的特征值<1,表示共線性。處理辦法增加樣本量主成分分析多重共線性(conlineraritydiagnostic41謝謝!謝謝!42多元線性回歸多元線性回歸43內(nèi)容基礎概念一元線性回歸一元回歸方程、線性回歸條件步驟強影響點判斷多元線性回歸1、回歸方程、線性回歸條件2、線性回歸步驟3、評價方程的優(yōu)度4、強影響點判斷5、多重共線性的判斷內(nèi)容基礎概念44基礎概念基礎概念45回歸什么是回歸?變量間存在相關關系時,也就具備了建立預測關系的基礎。在相關變量見建立預測方程式的統(tǒng)計學方法叫做回歸分析。在問卷調(diào)查中用得多包括線性和非線性、一元和多元回歸分析回歸什么是回歸?46一元和多元線性回歸一元線性回歸:在兩個變量具有線性關系的基礎上,建立預測方程式。用一個變量預測另一個變量。如兒童的身高和體重存在線性相關,當?shù)弥砀邥r,預測被試的體重范圍。多元線性回歸:多個變量都與一個變量存在相關關系,建立用預測方程式。用多個變量預測某一個變量。例如:兒童的體重和年齡,都與身高存在線性關系,當已知體重和年齡時,對身高進行預測。一元和多元線性回歸的差別在于自變量的個數(shù)一元和多元線性回歸一元線性回歸:在兩個變量具有線性關系的基礎47一元線性回歸一元線性回歸48一元線性回歸方程(使用原始數(shù)據(jù)計算的回歸方程)Y是因變量,X是自變量,alpha和beta是待求的參數(shù)。β=
(δy/δx)*r,稱為非標準化回歸系數(shù)α=μy-βμx標準化回歸方程(使用標準化的數(shù)據(jù)計算的回歸方程)ZY=BZxB
=
(δZy/δZx)*r=1*r=r,稱為標準化回歸系數(shù)兩種方程表現(xiàn)形式一元線性回歸方程(使用原始數(shù)據(jù)計算的回歸方程)Y是因變量,X49回歸分析的一般過程1、提出假設的回歸模型,確定自變量和因變量。自變量是現(xiàn)實中容易測量的,而因變量是難測量的,如幸福感、自我效能感等2、估計回歸是線性還是非線性,用散點圖判斷。如果是線性則用線性回歸。(必須做)3、建立回歸方程4、回歸方程的有效性檢驗,測定系數(shù)和回歸系數(shù)回歸分析的一般過程1、提出假設的回歸模型,確定自變量和因變量50一元線性回歸的條件1、線性趨勢(用散點圖檢測)2、獨立性:因變量y的取值相互獨立,殘差獨立。用durbin-watson計算,值在0-4。如果殘差間相互獨立,則取值在2附近。D小于2說明相鄰誤差存在負相關。大于2,說明存在正相關3、正態(tài)性:自變量的任何一個線性組合,因變量y都服從正態(tài)分布,殘差正態(tài)(直方圖和PP圖)。4、方差齊性:自變量的任何一個線性組合,因變量y的方差均相同(把ZPRED放入Y軸,把ZRESID放入X軸做圖)一元線性回歸的條件1、線性趨勢(用散點圖檢測)51注意的問題強影響點判斷(極端值的判斷)Cook’sdistance:當值>1,表明是特別大的極端值。leverage值(杠桿值):當值>3倍均數(shù),均數(shù)為(自變量個數(shù)+1)/N畫散點圖:最后把cook距離值和leverage杠桿值分別作為X和Y軸畫散點圖,方便判斷。強影響點處理判斷原因,考慮是否刪除注意的問題強影響點判斷(極端值的判斷)52一元線性回歸例子建立體重和肺活量的回歸方程(用練習1的數(shù)據(jù))一元線性回歸例子建立體重和肺活量的回歸方程(用練習1的數(shù)據(jù))53一元線性回歸步驟先探索數(shù)據(jù),判斷是否整態(tài)、極端值畫散點圖(畫出散點圖后,雙擊圖,右鍵選addfitlineattotaltool)Analyze-regression-把肺活量放入因變量dependent-體重放入自變量independentStatistics-默認的-residuals-durinwastonsave——distance–勾上Cook’s和leverage值Plots-histogram和normalprobabilityplot勾上-把ZPRED放入Y,把ZRESID放入X軸——OK一元線性回歸步驟先探索數(shù)據(jù),判斷是否整態(tài)、極端值54β=
(δy/δx)*r=(0.41989/7.426)*0.881=0.04981α=μy-βμx=3.1027-0.04981*53.43=0.441原始回歸方程Y=0.0498X+0.441標準化回歸方程Zy=0.881Zxβ=(δy/δx)*r=(0.41989/7.42655測定系數(shù)判斷因變量Y是獨立的回歸方程的顯著性檢驗回歸方程的系數(shù)、標準化回歸系數(shù)、回歸系數(shù)的顯著性檢驗測定系數(shù)判斷因變量Y是獨立的回歸方程的顯著性檢驗回歸方程的系56決定系數(shù)決定系數(shù)R2值域在[0,1],越接近于1,表明方程的自變量對y的解釋能力越強。當變量的關系是線性關系時,R2越大,說明回歸方程擬合數(shù)據(jù)越好,共變越多。校正的決定系數(shù):隨著自變量的增加,R2自然就會隨之增加。所以R2是一個受自變量個數(shù)與樣本規(guī)模影響的系數(shù),一般的常規(guī)是1:10為好。當這個比例小于1:5時,R2傾向于高估實際的擬合優(yōu)度。為了避免這種情形,常用校正的R2代替。決定系數(shù)決定系數(shù)R2校正的決定系數(shù):57回歸方程顯著:說明X與Y有顯著的線性關系。用該方程表示X與Y之間的關系是可靠的。如果不顯著,則不能用回歸方程表示X與Y之間的關系?;貧w方程顯著:說明X與Y有顯著的線性關系。用該方程表示X與58殘差的正態(tài)性對比直方圖和正態(tài)曲線的相似性,是否是中間高,兩頭低。P-P圖的點是不是接近對角線。殘差的正態(tài)性對比直方圖和正態(tài)曲線的相似性,是否是中間高,兩頭59殘差齊性殘差齊性60多元回歸多元回歸61偏回歸系數(shù):當其他變量不變時,xi每改變一個單位,所預測的y的平均變化量。受到自變量的單位影響。因此可以用標準化回歸系數(shù)。標準化偏回歸系數(shù):可以用來比較哪個自變量是影響y的主要因素,哪個是次要因素(即哪個自變量對y的影響更多)。多元回歸方程偏回歸系數(shù):當其他變量不變時,xi每改變一個單位,所預測的y62回歸系數(shù)計算標準化偏回歸系數(shù)(假如有兩個自變量)B1=(r1y-r2y*r12)/(1-r212)
B2=(r2y-r1y*r12)/(1-r212)非標準化偏回歸系數(shù)b1=B1*(sy/sx1)回歸系數(shù)計算標準化偏回歸系數(shù)(假如有兩個自變量)63多元回歸的樣本量要求多元回歸模型的樣本量要求根據(jù)經(jīng)驗,希望樣本量在自變量數(shù)的20倍以上。比如:有5個自變量,則樣本量應該在100以上,少于此數(shù)可能會出現(xiàn)檢驗效能不足的問題多元回歸的樣本量要求多元回歸模型的樣本量要求比如:有5個自變64多元線性回歸的條件同一元線性回歸的條件多元線性回歸的條件同一元線性回歸的條件65回歸分析的5個步驟回歸分析的5個步驟66回歸分析的步驟1、做出散點圖,觀察變量間的趨勢(是否線性)。這些圖是用來觀察是否是線性趨勢。如果不是線性,可能考慮其他對變量進行預處理,或用曲線回歸注意:是否是曲線關系,或者強影響點造成的線性,或者極端值)回歸分析的步驟1、做出散點圖,觀察變量間的趨勢(是否線性)。672、考察數(shù)據(jù)的分布,進行必要的預處理。3、進行直線回歸,選入變量進入計算?;貧w方程是否顯著偏回歸系數(shù)顯著根據(jù)決定系數(shù),校正決定系數(shù)判斷擬合得好不好。決定最優(yōu)方程回歸分析的步驟2、考察數(shù)據(jù)的分布,進行必要的預處理。回歸分析的步驟684、殘差分析,分析兩方面:殘差是否獨立:用durbin-watson進行分析(取值0<d<4)。如果獨立,則d約等于2。如果相鄰兩點的殘差為正相關,d<2。當相鄰兩點的殘差為負相關時,d>2。殘差是否正態(tài):采用殘差圖顯示(勾選Histogram和Normalprobabilityplot就行)。殘差的方差齊性:以標準化預測值(ZPRED)為橫軸,標準化殘差(ZRESID)為縱軸做散點圖。若散點隨機分布,且絕大部分在2倍標準差以內(nèi),則最好,表明沒有相關。如最左圖最好。中間圖隨著x值,殘差越來越大。最右圖,殘差非正態(tài)?;貧w分析的步驟4、殘差分析,分析兩方面:回歸分析的步驟69殘差是否正態(tài):畫圖來評價1、殘差直方圖:標準化殘差為x軸,標準化殘差頻數(shù)為Y軸。與正態(tài)曲線比較,是否擬合。2、殘差p-p圖:累積殘差觀測分布為x軸,期望分布為Y軸。如果符合的話數(shù)據(jù)會和理論的直線(對角線)重合?;貧w分析的步驟殘差是否正態(tài):畫圖來評價回歸分析的步驟705、根據(jù)散點圖,對強影響點進行判斷和對多重共線性進行判斷(自變量之間不能有強相關。)最后兩幅圖是有強影響點。需要判斷是否數(shù)據(jù)出錯,出錯則刪掉?;貧w分析的步驟5、根據(jù)散點圖,對強影響點進行判斷和對多重共線性進行判斷(自71步驟同一元回歸補充步驟在statistic勾上Rsquarechange,partandpartialcorrelation(半偏相關和偏相關),conlineraritydiagnos
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 撥叉頭加工課程設計
- 環(huán)保行業(yè)工程師工作總結(jié)
- IT行業(yè)客戶服務心得
- 門診部醫(yī)生的工作總結(jié)
- 2024年蘇教版九年級語文上冊教學工作總結(jié)(共16篇)
- 2024年稅務師題庫(原創(chuàng)題)
- 《期貨市場投資分析》課件
- 2024年規(guī)章制度會議記錄(16篇)
- 【人教版九上歷史】知識清單
- 2025關于房地產(chǎn)銷售代理合同模板
- 功率因數(shù)調(diào)整電費辦法
- 美發(fā)基礎(課堂PPT)
- WordA4信紙(A4橫條直接打印版)
- 藥品庫存清單(2015年)
- (完整版)會計準則(全文)
- 百家姓全文拼音版A4打印
- 專家論證挖孔樁專項施工方案
- IPC標準解析學習課程
- 麻花鉆鉆孔中常見問題的原因和解決辦法
- 部分常用巖土經(jīng)驗值
- 外墻真石漆購銷合同
評論
0/150
提交評論