線性相關(guān)與回歸簡單線性相關(guān)與回歸多重線性回歸等級相關(guān)_第1頁
線性相關(guān)與回歸簡單線性相關(guān)與回歸多重線性回歸等級相關(guān)_第2頁
線性相關(guān)與回歸簡單線性相關(guān)與回歸多重線性回歸等級相關(guān)_第3頁
線性相關(guān)與回歸簡單線性相關(guān)與回歸多重線性回歸等級相關(guān)_第4頁
線性相關(guān)與回歸簡單線性相關(guān)與回歸多重線性回歸等級相關(guān)_第5頁
已閱讀5頁,還剩52頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

線性相關(guān)與回歸簡單線性相關(guān)與回歸多重線性回歸等級相關(guān)內(nèi)容:多重線性回歸分析簡單線性相關(guān)與回歸Spearman等級相關(guān)特例(一)直線回歸(linearregression)1、定義:用直線方程表達(dá)X(自變量,independentvariable;解釋變量,explanatoryvariable;預(yù)測變量,predictorvariable)和Y(因變量,dependentvariable;響應(yīng)變量,responsevariable;結(jié)局變量,outevariable)之間得數(shù)量關(guān)系。一、簡單線性相關(guān)與回歸:是Y(實測值)的預(yù)測值(predictedvalue),是直線上點的縱坐標(biāo)。對于每一個X值,根據(jù)直線回歸方程都可以計算出相應(yīng)的Y預(yù)測值。(具體計算過程參見《衛(wèi)生統(tǒng)計學(xué)》第4版)。2、b和a得意義a:就是回歸直線在Y軸上得截距,即X=0時Y得預(yù)測值。b:就是回歸直線得斜率,又稱為回歸系數(shù)。表示當(dāng)X改變一個單位時,Y得預(yù)測值平均改變|b|個單位。3、b和a得估計最小二乘方法(themethodofleastsquares):各實測點到直線得縱向距離得平方和最小。4、b得假設(shè)檢驗:b為樣本回歸系數(shù),由于抽樣誤差,實際工作中b一般都不為0。要判斷直線回歸方程就是否成立,需要檢驗總體回歸系數(shù)

就是否為0。只有當(dāng)

0時,才能認(rèn)為直線回歸方程成立(具有統(tǒng)計學(xué)意義)。H0:

=0H1:

0方法一:t檢驗方法二:F檢驗兩種方法等價,5、直線回歸方程得置信區(qū)間估計(1)總體回歸系數(shù)

得95%置信區(qū)間估計(2)

Y得均數(shù)得95%置信區(qū)間估計當(dāng)X=X0時,以95%得概率估計Y得均數(shù)得置信區(qū)間為(3)個體Y值得95%容許區(qū)間估計當(dāng)X=X0時,以95%得概率估計個體Y值得波動范圍為1、定義描述具有直線關(guān)系得兩個變量之間得相互關(guān)系。(二)直線相關(guān)(linearcorrelation)r:相關(guān)系數(shù),correlationcoefficient用來衡量有直線關(guān)系得兩個變量之間相關(guān)得密切程度和方向。-1

r

1r>0,正相關(guān);r=1為完全正相關(guān)r

<0,負(fù)相關(guān);r=-1為完全負(fù)相關(guān)|r|越大,兩變量相關(guān)越密切(前提:r有統(tǒng)計學(xué)意義)10大家應(yīng)該也有點累了,稍作休息大家有疑問的,可以詢問和交流2、相關(guān)類型正相關(guān):0<r

1負(fù)相關(guān)-1

r<0零相關(guān)

r=02、相關(guān)類型曲線相關(guān)r為樣本相關(guān)系數(shù),由于抽樣誤差,實際工作中r一般都不為0。要判斷兩變量之間就是否存在相關(guān)性,需要檢驗總體相關(guān)系數(shù)

就是否為0。只有當(dāng)

0時,才能根據(jù)|r|得大小判斷相關(guān)得密切程度。3、r得假設(shè)檢驗H0:

=0H1:

04、相關(guān)與回歸得區(qū)別和聯(lián)系(1)相關(guān)與回歸得意義不同相關(guān)表達(dá)兩個變量之間相互關(guān)系得密切程度和方向?;貧w表達(dá)兩個變量之間得數(shù)量關(guān)系,已知X值可以預(yù)測Y值。從散點圖上,散點圍繞回歸直線得分布越密集,則兩變量相關(guān)系數(shù)越大;回歸直線得斜率越大,則回歸系數(shù)越大。(2)r與b得符號一致同正同負(fù)。(3)r與b得假設(shè)檢驗等價(4)可以用回歸解釋相關(guān)r2稱為決定系數(shù)(coefficientofdetermination),其越接近于1,回歸直線擬和得效果越好。4、相關(guān)與回歸得區(qū)別和聯(lián)系例1為研究中年女性體重指數(shù)和收縮壓得關(guān)系,隨機(jī)測量了16名40歲以上得女性得體重指數(shù)和收縮壓(見數(shù)據(jù)文件p237、sav)。變量說明:X:體重指數(shù);Y:收縮壓(mmHg)。1、繪制散點圖散點圖顯示:收縮壓與體重指數(shù)之間有線性相關(guān)趨勢,因此可以進(jìn)一步做直線回歸與相關(guān)2.直線回歸與相關(guān)分析Regression,回歸Linear,線性2.直線回歸與相關(guān)分析因變量自變量P值相關(guān)系數(shù)r決定系數(shù)r2調(diào)整r2截距a回歸系數(shù)bsb標(biāo)準(zhǔn)化回歸系數(shù)t值P值F值3.直線回歸的預(yù)測及置信區(qū)間估計給定X=X0,預(yù)測Y3.直線回歸的預(yù)測及置信區(qū)間估計因變量自變量統(tǒng)計保存(產(chǎn)生新變量,保存在當(dāng)前數(shù)據(jù)庫)3.直線回歸的預(yù)測及置信區(qū)間估計總體回歸系數(shù)的置信區(qū)間估計3.直線回歸的預(yù)測及置信區(qū)間估計預(yù)測值非標(biāo)準(zhǔn)化預(yù)測區(qū)間Y的均數(shù)個體Y值總體回歸系數(shù)的95%置信區(qū)間預(yù)測值殘差3.直線回歸的預(yù)測及置信區(qū)間估計3.直線回歸的預(yù)測及置信區(qū)間估計X0Y的預(yù)測值Y的均數(shù)的置信區(qū)間的下限及上限個體Y值的容許區(qū)間的下限及上限例2:由于改革開放政策,深圳特區(qū)中外來人口大幅度增加,為了考察特區(qū)中外來人口對本地經(jīng)濟(jì)發(fā)展得貢獻(xiàn),深圳特區(qū)統(tǒng)計局收集了所屬得寶安縣在1987年末18個鎮(zhèn)得人口與工農(nóng)業(yè)總產(chǎn)值數(shù)據(jù)(見數(shù)據(jù)文件reg、sav)。此處把工農(nóng)業(yè)總產(chǎn)值當(dāng)作因變量(W),而把外地及本地人口數(shù)當(dāng)作兩個自變量(Z1,Z2)。二、多重線性回歸分析(有關(guān)統(tǒng)計方法得原理及計算參見孫尚拱,《醫(yī)學(xué)多變量統(tǒng)計與統(tǒng)計軟件》,北京醫(yī)科大學(xué)出版社,2000)數(shù)據(jù)文件reg、sav1、如何估計自變量與因變量之間得相互關(guān)系?(估計回歸方程)2、哪些自變量對因變量有影響?(影響因素分析)3、哪一個自變量對因變量得影響更重要?(自變量得相對重要性分析)4、如何用自變量預(yù)測因變量?(預(yù)測分析)(一)多重回歸分析得任務(wù)(二)多重回歸分析得適用條件1、自變量與因變量之間存在線性關(guān)系2、殘差得正態(tài)性3、殘差得等方差性4、剔除強(qiáng)影響點(突出點,outliers)5、自變量之間不應(yīng)存在共線性6、獨立性關(guān)于獨立性:所有得觀測值就是相互獨立得。如果受試對象僅被隨機(jī)觀測一次,那么一般都會滿足獨立性得假定。但就是出現(xiàn)下列三種情況時,觀測值不就是相互獨立得:時間序列、重復(fù)測量等情況。SPSS軟件在“LinearRegression:Statistics”對話框中,提供了Durbin-Watson統(tǒng)計量d,以檢驗自相關(guān)系數(shù)就是否為0。當(dāng)d值接近于2,則殘差之間就是不相關(guān)得。1、如何估計自變量與因變量之間得相互關(guān)系?(估計回歸方程)其中y為實測值,為預(yù)測值(predictedvalue)估計模型中系數(shù)得方法:最小二乘方法(LeastSquare,LS),即殘差平方和最小。b1,b2…、、bm稱為偏回歸系數(shù)(partialregressioncoefficient):當(dāng)固定其她變量時,xm每增加一個單位,y得增加值都就是bm。(一)多重回歸分析得任務(wù)模型擬和得優(yōu)良性指標(biāo)R:復(fù)相關(guān)系數(shù),反映了Y與M個自變量得總體相關(guān)系數(shù);R2:決定系數(shù)(RSquare)R2c:調(diào)整決定系數(shù)(AdjustedRsquare),就是對決定系數(shù)得修正,就是更客觀得指標(biāo)。這些指標(biāo)越接近于1,說明回歸模型擬合越好。除了上述指標(biāo),還有殘差標(biāo)準(zhǔn)誤s,殘差標(biāo)準(zhǔn)差越小,說明回歸模型擬合越好。2、哪些自變量對因變量有影響?(影響因素分析)對回歸模型得統(tǒng)計檢驗當(dāng)P<0、05,則認(rèn)為此回歸模型有顯著性。對自變量得統(tǒng)計檢驗當(dāng)P<0、05,則認(rèn)為此自變量對因變量有影響。自變量得篩選實際應(yīng)用中,通常從專業(yè)知識出發(fā),建立一個簡約(parsimonious)得回歸模型,即用盡可能少得自變量擬合模型。常用方法:1、前進(jìn)法(Forward):逐步增加變量到模型中(由少到多),對已經(jīng)進(jìn)入得變量不再剔除;SPSS中默認(rèn)得選入自變量得檢驗水準(zhǔn)為0、05。2、后退法(Backward):從模型中逐步剔除變量(由多到少),對已經(jīng)剔除得變量不再進(jìn)入;SPSS中默認(rèn)得剔除自變量得檢驗水準(zhǔn)為0、10。3、逐步法(Stepwise):結(jié)合了前進(jìn)法和后退法,變量邊進(jìn)入邊剔除。3、哪一個自變量對因變量得影響更重要?(自變量得相對重要性分析)當(dāng)自變量得量綱相同時,衡量自變量相對重要性得指標(biāo):偏回歸系數(shù);若偏回歸系數(shù)得絕對值越大,則相應(yīng)自變量對因變量得影響就越大。當(dāng)自變量得量綱不同時,衡量自變量相對重要性得指標(biāo):標(biāo)準(zhǔn)化偏回歸系數(shù)(Standardizedregressioncoefficient)、偏相關(guān)系數(shù)(PartialCorrelation)和部分相關(guān)系數(shù)(PartCorrelation)。上述指標(biāo)得絕對值越大,則相應(yīng)自變量對因變量得影響就越大。標(biāo)準(zhǔn)化偏回歸系數(shù):對自變量、因變量作標(biāo)準(zhǔn)化處理后計算得回歸系數(shù)。偏相關(guān)系數(shù):因變量與自變量均扣除其她自變量影響之后,二者之間得相關(guān)系數(shù)。與簡單相關(guān)系數(shù)(Pearson相關(guān)系數(shù))不同;例如:考察因變量Y與自變量X1、X2得多元回歸分析,Y與X1得偏相關(guān)系數(shù)為扣除X2影響后得Y與X1得相關(guān)性。Y與X1得簡單相關(guān)系數(shù)為忽略X2影響后得Y與X1得相關(guān)性。部分相關(guān)系數(shù):自變量扣除其她自變量影響之后,因變量與自變量之間得相關(guān)系數(shù)。與偏相關(guān)系數(shù)不同,部分相關(guān)系數(shù)中因變量未扣除其她自變量得影響。4、如何用自變量預(yù)測因變量?(預(yù)測分析)當(dāng)自變量取某個數(shù)值時,y得預(yù)測值為Y得均數(shù)得95%置信區(qū)間個體Y值得95%容許區(qū)間預(yù)測分析時,(x10,x20……xm0)應(yīng)該在樣本得自變量取值范圍內(nèi)。1、自變量與因變量之間存在線性關(guān)系通過繪制y與每個自變量得偏相關(guān)散點圖,可以判斷y與自變量之間就是否存在線性關(guān)系。2、殘差得正態(tài)性通過繪制標(biāo)準(zhǔn)化殘差得直方圖以及正態(tài)概率圖(P-P圖),可以判斷y就是否服從正態(tài)分布。此條件可以放寬,只要不就是嚴(yán)重偏離正態(tài)即可。3、殘差得等方差性通過繪制標(biāo)準(zhǔn)化殘差與預(yù)測值得散點圖,若標(biāo)準(zhǔn)化殘差在零水平線上下波動,無明顯得規(guī)律性,則可以判斷y滿足等方差得假定。(二)多重回歸分析得適用條件通過標(biāo)準(zhǔn)化殘差(StandardizedResiduals)、學(xué)生氏殘差(StudentlizedResiduals)來判斷強(qiáng)影響點。當(dāng)指標(biāo)得絕對值大于3時,可以認(rèn)為樣本存在強(qiáng)影響點。刪除強(qiáng)影響點應(yīng)該慎重,需要結(jié)合專業(yè)知識。以下兩種情況可以考慮刪除強(qiáng)影響點:1、強(qiáng)影響點就是由于數(shù)據(jù)記錄錯誤造成得;2、強(qiáng)影響點來自不同得總體。4、剔除強(qiáng)影響點(Influentialcases;或稱為突出點,outliers)5、自變量之間不應(yīng)存在共線性(Collinear)當(dāng)一個(或幾個)自變量可以由其她自變量線性表示時,稱該自變量與其她自變量間存在共線性關(guān)系。常見于:1、一個變量就是由其她變量派生出來得,如:BMI由身高和體重計算得出;2、一個變量與其她變量存在很強(qiáng)得相關(guān)性。當(dāng)自變量之間存在共線性時,會使回歸系數(shù)得估計不確定、預(yù)測值得精度降低以及對y有影響得重要自變量不能選入模型。共線性診斷方法:1、TOL(容許度,Tolerance)法:TOL越接近零,共線性越大。2、VIF(方差膨脹因子,VarianceInflationFactor,VIF)法:VIF越大,共線性越大。3、特征根(Eigenvalue)法:如果自變量相關(guān)矩陣得特征根近似于零,則自變量之間存在共線性。4、CI(條件指數(shù),ConditionIndex)法:CI越大,共線性越大。當(dāng)自變量之間存在共線性時,可以剔除某個自變量或者采用嶺回歸分析(RidgeRegressionAnalysis)。1、數(shù)據(jù)預(yù)處理:根據(jù)經(jīng)濟(jì)學(xué)專業(yè)知識,需要先對Z1、Z2、W作對數(shù)變換,分別記為X1、X2、Y。(三)多重線性回歸:實例分析變換后的數(shù)據(jù)回歸線性2、多重回歸分析因變量自變量Statistics對話框回歸系數(shù)的估計模型擬和共線性診斷部分相關(guān)與偏相關(guān)系數(shù)統(tǒng)計描述Plots對話框標(biāo)準(zhǔn)化殘差圖直方圖正態(tài)概率圖,P-P圖繪制所有的偏相關(guān)圖

Save對話框分別給出Y、X1、X2的均數(shù)與標(biāo)準(zhǔn)差相關(guān)系數(shù)陣簡單相關(guān)系數(shù)(Pearson相關(guān))P值從簡單相關(guān)系數(shù)可見:Y與X1、X2存在較強(qiáng)相關(guān)性,X1、X2存在中等相關(guān)性。3、輸出結(jié)果解釋復(fù)相關(guān)系數(shù)決定系數(shù)調(diào)整決定系數(shù)F值P值此模型得復(fù)相關(guān)系數(shù)為0、857,調(diào)整決定系數(shù)為0、699,反映此模型擬和較好;模型經(jīng)統(tǒng)計學(xué)檢驗,F=20、738,P<0、05,說明此多元回歸模型有顯著性。非標(biāo)準(zhǔn)化系數(shù)標(biāo)準(zhǔn)化系數(shù)t值P值簡單相關(guān)偏相關(guān)部分相關(guān)TolVIF經(jīng)統(tǒng)計學(xué)檢驗,X1與X2均有顯著性,因此回歸模型為

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論