第十一章多元線形回歸分析報告報告材料_第1頁
第十一章多元線形回歸分析報告報告材料_第2頁
第十一章多元線形回歸分析報告報告材料_第3頁
第十一章多元線形回歸分析報告報告材料_第4頁
第十一章多元線形回歸分析報告報告材料_第5頁
已閱讀5頁,還剩7頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、實用標(biāo)準(zhǔn)文案第一章多元相關(guān)與回歸分析第一節(jié)多元線性回歸模型多元線性回歸即多個自變量對一個因變量的線性回歸。一、多元線性回歸模型概念以兩個自變量的二元回歸為例,如 Xi、X2和丫的關(guān)系存在關(guān)系式:E(Y) =a+ B1X1 + B2X2,則丫與Xi和X2之間存在多元線性相關(guān)關(guān)系,這一方程即多元 線性回歸模型。多元線性回歸是多維空間中的超平面,如二元回歸是三維空間中的一個平面。對于任意的(Xi, X2), Y的期望值就是該平面上正對(Xi, X2)的那個點(diǎn)的丫軸 值,其與實際觀測點(diǎn)之間存在隨機(jī)誤差,實際觀測點(diǎn)Yi= a+ BiXi+ p2 X2+ io二、模型的建立總體未知情況下,以樣本構(gòu)造出一個

2、平面來估計總體真實平面,即以平面 ?= a+b ixi + b 2x2去擬合原始觀測數(shù)據(jù)。擬合的準(zhǔn)則是最小二乘法原理,使各觀測值距離擬合值的偏差平方和最小,即Hyi-?)2最小。由此計算出的a,bi, b2是對a,訊 礎(chǔ)的最佳估計。例如對施肥量Xi、降雨量X2和產(chǎn)量丫的數(shù)據(jù),SPSS輸出結(jié)果(表1 ):VariableBSE.BBetaTXi3.8i0.5830.596.532X23.330.6i70.495.4Con sta nt266.732.0778.3i3即得到?= 266.7+3.8ix i+3.33x 2三、回歸系數(shù)的意義對于模型?= a+b 1x1+ b 2x2, bi可以解釋為

3、:當(dāng)X2不變的情況下,Xi每變 化一個單位,Y將平均發(fā)生bi個單位的變化。如果所有自變量都同時變化,那么丫二biAXi+ b2AX2+.biAXi。例題:如果對產(chǎn)量、施肥量、降雨量做出了簡單回歸和多元回歸模型:A模型:產(chǎn)量=287+5.9 施肥量;B模型:產(chǎn)量=400+6.0 降雨量;C模型:產(chǎn)量=267+3.81 施肥量+3.33降雨量;請計算:(1 )如果在每畝土地上多施10斤肥料,可以期望產(chǎn)量增加多少?(2) 如果在每畝土地上多灌溉 5厘米的水,可以期望產(chǎn)量增加多少?(3) 如果同時在每畝土地上多施 10斤肥料,并且多灌溉5厘米的水,可以期 望產(chǎn)量增加多少?(4) 由原始數(shù)據(jù)發(fā)現(xiàn)較高的施

4、肥量和較高的降雨量是有聯(lián)系的,如果照這樣的趨勢下去,那么在每畝土地上多灌溉5厘米的水,可以期望產(chǎn)量增加多少?解:(1)AY=3.81(10)=38.1 斤。(2) AY=3.33(5)=16.65 斤。(3) AY=3.81(10)+ 3.33(5)= 38. 1+16.65=54.75 斤(4) AY=6.0(5)=30 斤。采用B模型中的簡單回歸系數(shù)6.0,它表示當(dāng)施肥量 也變化時,產(chǎn)量怎樣隨著降雨量的變化而變化。比較題2和題4, 30斤的增產(chǎn)不只歸功于降雨量,也包含施肥量的影響; 而16.65斤的增產(chǎn)則是在施肥量不變的情況下,伴隨著降雨量的增加而產(chǎn)生的。四、自變量為定類變量時回歸系數(shù)的解

5、釋線形回歸要求自變量和因變量都是定距變量,但當(dāng)自變量為二項變量或定類變量時,可以將其轉(zhuǎn)化為0-1變量/虛擬變量后再進(jìn)行回歸。1、 自變量為二項變量時:如研究存款額 丫(百元)和年齡Xi、性別X2之 間的關(guān)系,令男性=1,女性=0 (對照組)。如果得到如下多元回歸方程:?= 33+12x i-9.1x 2,則X2的回歸系數(shù)-9.1表示,對于同年齡的人來說,男性的存 款額比女性平均減少910元。2、自變量為定類變量時:如研究收入丫(百元)和文化程度X之間的關(guān)系, 假設(shè)文化程度包學(xué)小學(xué)、中學(xué)大學(xué)學(xué),可將文化程度轉(zhuǎn)化為兩個虛擬變量,0,其他 J 0,其他 JD1=D2=,D1=D 2=0代表小學(xué)程度(

6、對照組),D1=1,D2=0表示中學(xué)文化程度;D1=0,D2=1表示大學(xué)文化程度。假如得到回 歸方程?= 33+12D 1+30D 2,D1的回歸系數(shù)表示中學(xué)文化程度的人比小學(xué)文化 程度的人收入平均多1200元;D2的回歸系數(shù)表示大學(xué)文化程度的人比小學(xué)文 化程度的人收入平均多3000元。3、如果自變量為連續(xù)變量,但其與因變量的關(guān)系并不是線形關(guān)系,例如年 齡X和身高丫的關(guān)系,可以把年齡劃分成年齡段做為定類變量。對于有個水平 的定類變量,需要設(shè)計n-1個虛擬變量來描述。第二節(jié)多元線性回歸模型檢驗一、回歸系數(shù)的估計和檢驗在多元回歸中,各個回歸系數(shù)的估計值 b1,b2都圍繞總體回歸系數(shù) 向,血 近似正

7、態(tài)波動,所以可以用樣本回歸系數(shù)的標(biāo)準(zhǔn)誤差來構(gòu)造總體回歸系數(shù)的置信 區(qū)間。標(biāo)準(zhǔn)誤差為表1中的第二列輸出結(jié)果SE.B。總體回歸系數(shù)置信區(qū)間公式:B i= b it o/2SEi,其中,i=1,2,.k;查t分布表時的自由度為n-k-1。例題:以表1為例,計算每個回歸系數(shù)的95%的置信區(qū)間(k=1,2 ),已知n=7 :解:df=7-2-1=4;查表得 to.025 =2.776 ;沏=3.81 2.776(0.583)=3.811.618 ;血=3.33 2.776(0.617)=3.331.713對回歸系數(shù)進(jìn)行檢驗即檢驗 Ho:Bi=O ; H1:Bi卻,即檢驗自變量和因變量 之間是否存在線形相

8、關(guān)關(guān)系。檢驗方法:計算檢驗統(tǒng)計量為t= b i-0/ SE i,計算出相應(yīng)概值。SPSS可以輸出t值和概值P。二、回歸模型的檢驗即檢驗H0:仇=礎(chǔ)=3= 0。對多元回歸做方差分析及顯著性檢驗:將總偏差平方和(yi y)2分解為(yi ?i)2 (不能由回歸解釋的偏差)和 (?i-y)2 (可以由對X1,X2-Xk的回 歸解釋的偏差)。計算F值=可以由回歸解釋的方差/不能解釋的方差,然后對F 值與臨界值進(jìn)行比較,也可計算 F值的概值。表2 :對改革時間Y與公司規(guī)模X1和公司類型X2的二元回歸作出方差分析表, 包括求出概值和進(jìn)行95%置信水平下的檢驗。SSdfMSF概值回歸誤差1504.41275

9、2.2072.47v 0.001殘差176.391710.38總誤差1680.8019在95%的置信水平下可以拒絕原假設(shè),說明回歸效果是顯著的,即回歸模 型有意義。第三節(jié)相關(guān)系數(shù)和決定系數(shù)一、復(fù)相關(guān)系數(shù)和決定系數(shù)決定系數(shù)r22=可以由回歸解釋的偏差/總偏差=&?i-y)2/s(yi y)2; R2的 平方根R為復(fù)相關(guān)系數(shù),取值范圍0-1。R2=1時,說明丫的全部偏差都可以用 回歸方程解釋,以二元回歸為例,表明全部觀測點(diǎn)正好落在擬合的回歸平面上。R2越大,能用回歸來解釋的部分就越大,表示丫和Xi,X2,Xi的線形關(guān)系越強(qiáng), 回歸效果越好,R2也具有消減誤差比例的意義。例如根據(jù)表 2 計算出:R2

10、=1504.41/1680.80=0.8950559; R=0.9460739解釋:應(yīng)用二元回歸可以解釋總偏差中的89.5%,以改革時間對公司規(guī)模和公司類型作二元回歸,效果是很好的。二、偏相關(guān)系數(shù)和偏決定系數(shù)決定系數(shù)反映了一組自變量對回歸模型的貢獻(xiàn)。如果想知道某一個自變量的貢獻(xiàn),需計算引進(jìn)這個變量后,所減少的殘差的相對比例。以二元回歸為例,設(shè)? =a+b ixi+b2X2,用RSS(Xi,X2)表示殘差;如果只對 自變量X2做簡單回歸模型? =a+b 2x2,用RSS(X2)表示殘差。則RSS(X2)肯定大 于RSS(X1,X2),在已有X2的模型中再引入X1變量后,所減少的殘差為RSS(X2

11、)- RSS(X1,X2)。減少的相對殘差 R2Y1.2= (RSS(X2)- RSS(X1 ,X2) ) / RSS(X2)就是偏決定系 數(shù),表示X2已在模型當(dāng)中時,再引入變量 X1后,能夠減少百分之多少的殘差。偏決定系數(shù)的平方根為偏相關(guān)系數(shù),其符號與擬合回歸函數(shù)中相應(yīng)的回歸系 數(shù)符號一致。偏相關(guān)系數(shù)可以看作是消除了 X2的影響效應(yīng)后,對丫和X1之間的 關(guān)聯(lián)程度的度量,也稱凈相關(guān)。三、標(biāo)準(zhǔn)化回歸系數(shù)將所有變量Y,Xi,X2-Xi標(biāo)準(zhǔn)化,然后對標(biāo)準(zhǔn)化后的Y*, Xi*進(jìn)行回歸擬合得:Y*= a*+b 1* Xi*+.+ b i* Xi*bi*, b2*bi *就是標(biāo)準(zhǔn)回歸系數(shù),其大小說明了各自

12、對應(yīng)的自變量對丫的影響大小,標(biāo)準(zhǔn)回歸系數(shù)絕對值越大,該自變量的影響就越大。例如表1第四列 的標(biāo)準(zhǔn)回歸系數(shù)Beta,施肥量(0.59 )對產(chǎn)量的影響比降雨量(0.49)更大。 但注意:這種方法只有當(dāng)自變量之間的相關(guān)性較小時才正確。第四節(jié)非線性相關(guān)與回歸分析對于變量之間會的非線性的關(guān)系,可將其變換為線性關(guān)系再處理。、幕函數(shù)比,出=Y/YX /X幕函數(shù)基本形式為:丫- B1Xi 32eui,ui為隨機(jī)誤差項,和 帥為?2參數(shù)。參數(shù)礎(chǔ)度量了變量丫對變量X的彈性,即X的單位百分比變動引起丫變動的百分由于丫和X之間是非線性關(guān)系,為了將其變?yōu)榫€形形式,可以對方程兩邊取對數(shù),轉(zhuǎn)換為雙對數(shù)函數(shù)形式,即InYi

13、=In Pi+血InXi+ui,把InYi和InXi視為新的變量,則新變量之間成為線形關(guān)系,可以按照線形回歸的方式估計參數(shù)。也可拓展到多元的情況,如InYi =In 3i+血InXii+ B3InX2+Ui。例如:根據(jù)天津市1980-1996年的經(jīng)濟(jì)統(tǒng)計資料,想研究天津市國內(nèi)生產(chǎn)總值GDP和資金投入量及從業(yè)人員數(shù)量之間的關(guān)系,可運(yùn)用柯柏一道格拉斯生產(chǎn)函數(shù)建立理論回歸方程:Yi=AKi”Li卩eui,丫是GDP,K是資金投入量,L是從業(yè)人數(shù),Ui是隨機(jī)誤差項。為了便于估計參數(shù),將該方程轉(zhuǎn)換為線性方程:InYi=lnA+alnKi+pinLi+ui,設(shè)Yi*=InY i,Ki*=InK i,Li*

14、=InL i,pi=InA ,遠(yuǎn)a, p= B,則上式變?yōu)閅i*= pi+ p Ki*+他Li*+u i,用線形回歸分析得出結(jié)果:?i*=-10.4639+1.021124 Ki+1.471943 L i*因為B=lnA=-10.4639 ,所以A=0.0000285,這樣所估計的生產(chǎn)函數(shù)為:?i*=0.0000285K i1-021124 Li1-471943二、對數(shù)函數(shù)對數(shù)函數(shù)關(guān)系包括自變量為對數(shù)和因變量為對數(shù)兩種情況。自變量為對數(shù) 時,方程為Yi= a+ pinXi+ui,參數(shù)p表示自變量X每變動一個百分點(diǎn)時,會引 起因變量丫絕對值的變動量。若把InXi視為新變量,可以作為線形回歸去處理

15、。 當(dāng)因變量為對數(shù)時,方程為InYi= a+ BXi+u i,參數(shù)p表示自變量X每變動一個 單位時,會引起因變量 丫發(fā)生幾個百分比的變動。如把InYi視為新變量,可以 作為線形回歸去處理。例如:美國聯(lián)邦儲備管理委員會要研究 GDP和貨幣供應(yīng)量X的關(guān)系,建立對數(shù) 方程Yi= p+ pinXi+ui,可先將貨幣供應(yīng)量數(shù)據(jù) Xi轉(zhuǎn)變?yōu)镮nXi,再按照線性回歸 方法作GDP對InXi的回歸,得到? i=-16329+2584.79 InXi,表明貨幣供應(yīng)量 每增加一個百分點(diǎn),GDP的絕對量將增加2584.79億美元。三、指數(shù)函數(shù)指數(shù)函數(shù)的形式為Yi=abXieui。指數(shù)函數(shù)通常用于描述產(chǎn)量、成本等現(xiàn)象

16、的變動趨勢。對方程兩邊取對數(shù)可轉(zhuǎn)化為線性函數(shù): InYi=Ina+X iInb+u i,這時的 變量為InYi和Xi,參數(shù)為Ina和Inb。可以設(shè) Yi*= InY i,p=Ina ,阻=1 nb,得 到 Yi*= p+ pXi+u io對于非線性關(guān)系,用相關(guān)指數(shù)度量其相關(guān)程度,相關(guān)指數(shù)就是非線性回歸的決定系數(shù)R2或者決定系數(shù)的平方根R。R2和R越大,表明變量間的非線性相關(guān) 程度越高,反之越低。R取值范圍0-1四、logistic回歸(因變量為二項變量時的回歸)當(dāng)因變量為二項變量時,為二項變量來研究??蓪⑵滢D(zhuǎn)化為定距變量。h,0,其他定類變量也可以轉(zhuǎn)化 成功I.失敗用虛擬變量的形式來表示因變量

17、 Y,即Y=,并設(shè)成功的概率P(Y=1)= n,失敗的概率P(Y=0)=1- n,根據(jù)二項分布特征,可知丫的期望值E(Y) =n, Y的方差D(Y)=冗(1-冗)。設(shè)丫(二項變量)對自變量的回歸模型為:E(Y) = a+ B1X1+ BiXi如果擬合的方程為:? = a+b 1x1+ b ixi那么,擬合值?就表示成功概率n即E(Y)的估計值。所以自變量對丫的影響 就轉(zhuǎn)化為了自變量對成功概率的影響。然而,對于二項變量來說,其E(Y)的取值范圍只能是0-1,這樣就不能很好 適應(yīng)線形回歸模型(線形回歸要求因變量連續(xù)取值),所以考慮對E(Y)進(jìn)行數(shù)值P變換,可以將其轉(zhuǎn)化為P*=ln( ),P即n1

18、PPln( )=Logit(P)= a+ BX1+ BXi 就是 logistic 回歸模型。當(dāng) P 趨于 0 1 P時,Logit(P)趨于-%,當(dāng)P趨于1時,Logit(P)趨于+ 。通過這樣的變換,使 得因變量原本在(0,1)的取值范圍變成了 (-巴+ X)。logistic回歸最常用于流行病學(xué)研究,用來探討某種疾病的危險因素,或者 根據(jù)危險因素來預(yù)測患病概率。根據(jù)模型得P=e( a +1X1+卩Xi)/1+e (a +1X1 +旳,可預(yù)測發(fā)生概率。對于logistic回歸,用Odds Ratio 發(fā)生比來解釋回歸系數(shù),OR :發(fā)生概率 與不發(fā)生概率的比值。OR=e卩;InOR= $ B

19、表示自變量每增加一個單位,其相對 危險度為e卩。例如:研究吸煙年數(shù)X與是否患肺癌丫的關(guān)系,若根據(jù)$ = 1計算出OR=2.72,則表明吸煙年數(shù)每增加一年,患肺癌的危險性是之前的2.72倍。如果研究是否吸煙與肺癌的關(guān)系,令X=1吸煙,X=0不吸煙;丫=1患肺癌, 丫=0不患肺癌,若求得OR=2.72,則表明吸煙的人患肺癌癥的危險性是不吸煙 的2.72倍。如果令X=1不吸煙,X=0吸煙;丫=1患肺癌丫=0,不患肺癌,若 求得OR=0.3637,則表明不吸煙的人患肺癌癥的危險性是吸煙的36.37%,或不吸煙的人患肺癌的危險性比吸煙者降低了63.63%。注意區(qū)分X變量的賦值。第五節(jié)自變量的選擇SPSS提供的5種選擇變量的方法:1、向前加入變量法(FORWARD )。將自變量逐個引入方程,每次增加一個。第一步是從所有K個自變量中引入一個,使它與 丫組成的一元方程比其他更好(即可用回歸解釋的偏差比例更大);第二步是從未引入的K-1個自變量中再選 一個,使它和已進(jìn)入的自變量與 丫組成的二元回歸方

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論