版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、第一章多元相關(guān)與回歸分析第一節(jié)多元線性回歸模型多元線性回歸即多個自變量對一個因變量的線性回歸。一、多元線性回歸模型概念以兩個自變量的二元回歸為例,女口 X、X2和丫的關(guān)系存在關(guān)系式:E(Y)= a +B 1X1+B 2X2,如此丫與Xi和之間存在多元線性相關(guān)關(guān)系,這一方程即多元 線性回歸模型。多元線性回歸是多維空間中的超平面,如二元回歸是三維空間中的一個平 面。對于任意的(Xi, X 2) , 丫的期望值就是該平面上正對(Xi, X 2)的那個點的丫 軸值,其與實際觀測點之間存在隨機誤差,實際觀測點Y=a + B iXi+ B 2 X2+ £ i O二、模型的建立總體未知情況下,以樣
2、本構(gòu)造出一個平面來估計總體真實平面,即以平面 ? = a+bixi+ b2X2去擬合原始觀測數(shù)據(jù)。擬合的準如此是最小二乘法原理,使各觀測值距離擬合值的偏差平方和最 2小,即刀(yi- ?)最小。由此計算出的a,bi, b 2是對a , B i, B 2的最優(yōu)估計。例 如對施肥量X、降雨量茨和產(chǎn)量丫的數(shù)據(jù),SPSS俞出結(jié)果表1:VariableBBetaTXiX2Con sta nt即得到? 12三、回歸系數(shù)的意義對于模型? = a+biXi+ b2X2,bi可以解釋為:當 X不變的情況下,Xi每變化一 個單位,丫將平均發(fā)生bi個單位的變化。如果所有自變量都同時變化,那么 丫= biAXi+ b
3、2A夫+.b i X o 例題:如果對產(chǎn)量、施肥量、降雨量做出了簡單回歸和多元回歸模型:A模型:產(chǎn)量=287+5.9施肥量;B模型:產(chǎn)量=400+6.0降雨量; C模型:產(chǎn)量=267+3.81施肥量+3.33降雨量;請計算:1如果在每畝土地上多施10斤肥料,可以期望產(chǎn)量增加多少?2如果在每畝土地上多灌溉5厘米的水,可以期望產(chǎn)量增加多少?3如果同時在每畝土地上多施10斤肥料,并且多灌溉5厘米的水,可以期望 產(chǎn)量增加多少?4由原始數(shù)據(jù)發(fā)現(xiàn)較高的施肥量和較高的降雨量是有聯(lián)系的,如果照這樣的 趨勢下去,那么在每畝土地上多灌溉 5厘米的水,可以期望產(chǎn)量增加多少? 解:1A Y=3.81(10)=38.1
4、 斤。2A Y=3.33(5)=16.65 斤。3A4A Y=6.0(5)=30斤。采用B模型中的簡單回歸系數(shù)6.0,它表示當施肥量也 變化時,產(chǎn)量怎樣隨著降雨量的變化而變化。比擬題2和題4, 30斤的增產(chǎn)不只歸功于降雨量,也包含施肥量的影響;而 16.65斤的增產(chǎn)如此是在施肥量不變的情況下,伴隨著降雨量的增加而產(chǎn)生的。四、自變量為定類變量時回歸系數(shù)的解釋線形回歸要求自變量和因變量都是定距變量,但當自變量為二項變量或定類變量時,可以將其轉(zhuǎn)化為0-1變量/虛擬變量后再進展回歸。1、自變量為二項變量時:如研究存款額丫百元和年齡X、性別X2之間 的關(guān)系,令男性=1,女性=0對照組。如果得到如下多元回
5、歸方程:? = 33+12x12, 如此X2的回歸系數(shù)-9.1表示,對于同年齡的人來說,男性的存款額比女性平均 減少910元。2、自變量為定類變量時:如研究收入 丫百元和文化程度X之間的關(guān)系,假設(shè)文化程度包括小學、中學、大學,可將文化程度轉(zhuǎn)化為兩個虛擬變量,D=1,中學 表示中學文化程度;2= ” 0,其他卜D=D=0代表小學程度對照組,Df D=°D=0, D2=1表示大學文化程度。假設(shè)得到回歸方程?=2=33+12D+30D, D的回歸系數(shù)表示中學文化程度的人比小學文化程度的人收入平均多1200元;D2的回歸系數(shù)表示大學文化程度的人比小學文化程度的人收入平 均多3000元。3、如
6、果自變量為連續(xù)變量,但其與因變量的關(guān)系并不是線形關(guān)系,例如年 齡X和身高丫的關(guān)系,可以把年齡劃分成年齡段做為定類變量。 對于有個水平的 定類變量,需要設(shè)計n-1個虛擬變量來描述第二節(jié)多元線性回歸模型檢驗一、回歸系數(shù)的估計和檢驗在多元回歸中,各個回歸系數(shù)的估計值b1,b2都圍繞總體回歸系數(shù)B 1, B2近似正態(tài)波動,所以可以用樣本回歸系數(shù)的標準誤差來構(gòu)造總體回歸系數(shù)的 置信區(qū)間。標準誤差為表1中的第二列輸出結(jié)果SE.B??傮w回歸系數(shù)置信區(qū)間公式:B i= bi ± t a /2SE ,其中,i=1,2,.k ;查t分布表時的自由度為n-k-1。例題:以表1為例,計算每個回歸系數(shù)的95%
7、勺置信區(qū)間k=1,2,n=7:解:df=7-2-1=4 ;查表得 t=2.776 ;B 1±± 1.618 ;B 2±±對回歸系數(shù)進展檢驗即檢驗 H0:B i=0;卅:“工0,即檢驗自變量和因變量 之間是否存在線形相關(guān)關(guān)系。檢驗方法:計算檢驗統(tǒng)計量為t= bi-0/ SEi,計算出相應(yīng)概值。SPS列以輸出t值和概值P。二、回歸模型的檢驗即檢驗H):B 1= B 2=B i= 0。對多元回歸做方差分析與顯著性檢驗:將總偏差平方和(yi y)2分解為(yi ? i)2不能由回歸解釋的偏差和 (? i- y)2可以由對Xi,X2兀的回 歸解釋的偏差。計算F值二
8、可以由回歸解釋的方差/不能解釋的方差,然后對 F 值與臨界值進展比擬,也可計算 F值的概值。表2:對改革時間Y與公司規(guī)模X1和公司類型X2的二元回歸作出方差分析表,包 括求出概值和進展95泄信水平下的檢驗。SSdfMSF概值回歸誤差2殘差17總誤差19在95%勺置信水平下可以拒絕原假設(shè),說明回歸效果是顯著的,即回歸模型 有意義。第三節(jié)相關(guān)系數(shù)和決定系數(shù)、復(fù)相關(guān)系數(shù)和決定系數(shù)決定系數(shù) 氏2=可以由回歸解釋的偏差/總偏差=2 (? i- y)2/工(yi y)2 ; R2的 平方根R為復(fù)相關(guān)系數(shù),取值X圍0-1。氏=1時,說明丫的全部偏差都可以用回 歸方程解釋,以二元回歸為例,明確全部觀測點正好落
9、在擬合的回歸平面上。氏越大,能用回歸來解釋的局部就越大,表示 丫和Xi,X2,Xi的線形關(guān)系越強, 回歸效果越好,氏也具有消減誤差比例的意義。例如根據(jù)表2計算出:氏解釋:應(yīng)用二元回歸可以解釋總偏差中的 89.5%,以改革時間對公司規(guī)模和 公司類型作二元回歸,效果是很好的。二、偏相關(guān)系數(shù)和偏決定系數(shù)決定系數(shù)反映了一組自變量對回歸模型的貢獻。 如果想知道某一個自變量的 貢獻,需計算引進這個變量后,所減少的殘差的相比照例。以二元回歸為例,設(shè)? =a+bxi+bx2,用RSS(X,X2)表示殘差;如果只對自變 量X2做簡單回歸模型? =a+b2X2,用RSS(X)表示殘差。如此 RSS(X)肯定大于R
10、SS(X,X2),在已有X2的模型中再引入 X1變量后,所減少的殘差為RSS(X)-RSS(X,X2)。減少的相對殘差 氏=RSS(X)- RSS(X,X2)/ RSS(X)就是偏決定系數(shù),表 示X2已在模型當中時,再引入變量 Xi后,能夠減少百分之多少的殘差。偏決定系數(shù)的平方根為偏相關(guān)系數(shù),其符號與擬合回歸函數(shù)中相應(yīng)的回歸系 數(shù)符號一致。偏相關(guān)系數(shù)可以看作是消除了茨的影響效應(yīng)后,對丫和Xi之間的關(guān)聯(lián)程度的度量,也稱凈相關(guān)。三、標準化回歸系數(shù)將所有變量Y,Xi,X2X標準化,然后對標準化后的Y*,X*進展回歸擬合得:Y*= a*+b i* Xi*+.+ b i* Xi*bi*,b2*bi *就
11、是標準回歸系數(shù),其大小說明了各自對應(yīng)的自變量對丫的影響大小,標準回歸系數(shù)絕對值越大,該自變量的影響就越大。例如表i第四列 的標準回歸系數(shù) Beta,施肥量0.59丨對產(chǎn)量的影響比降雨量0.49更大。 但注意:這種方法只有當自變量之間的相關(guān)性較小時才正確。第四節(jié)非線性相關(guān)與回歸分析對于變量之間會的非線性的關(guān)系,可將其變換為線性關(guān)系再處理。一、幕函數(shù)幕函數(shù)根本形式為:Y=B iXp2eui,ui為隨機誤差項,和B 1為B 2參數(shù)。參數(shù) B 2度量了變量丫對變量X的彈性,即X的單位百分比變動引起丫變動的百分比,B 2= Y/Y = X /XY X- 。X Y由于丫和X之間是非線性關(guān)系,為了將其變?yōu)榫€
12、形形式,可以對方程兩邊取對數(shù),轉(zhuǎn)換為雙對數(shù)函數(shù)形式,即InYi =In B i+B 2lnXi+ui,把InY和InXi視為新的變量,如此新變量之間成為線形關(guān)系,可以按照線形回歸的方式估計參數(shù)。也可拓展到多元的情況,如 InYi =ln B i+ B 2lnXii+ B 3lnX2i+u。例如:根據(jù)某某市i980-i996年的經(jīng)濟統(tǒng)計資料,想研究某某市國內(nèi)生產(chǎn)總值GDF和資金投入量與從業(yè)人員數(shù)量之間的關(guān)系, 可運用柯柏一道格拉斯生產(chǎn)函數(shù) 建立理論回歸方程:YmAKk LiB eui,丫是GDP K是資金投入量,L是從業(yè)人數(shù), Ui是隨機誤差項。為了便于估計參數(shù),將該方程轉(zhuǎn)換為線性方程:InYi
13、=lnA+a InKi+ B InLi+ui,設(shè) 丫*= InY i, K*= InK i, L*= InL i, B i=lnA,B 2= a,B 3= B,如此上式變?yōu)檠?= B i+ B 2 Ki*+ B 3Li*+Ui,用線形回歸分析得出結(jié)果:? i*=-i0.4639+i.02ii24 K i+i.47i943 Li*因為B i=InA=-i0.4639,所以A=0.0000285,這樣所估計的生產(chǎn)函數(shù)為:? ii Li二、對數(shù)函數(shù)對數(shù)函數(shù)關(guān)系包括自變量為對數(shù)和因變量為對數(shù)兩種情況。自變量為對數(shù) 時,方程為Y=a +B InXi+u ,參數(shù)B表示自變量X每變動一個百分點時,會引起 因
14、變量Y絕對值的變動量。假設(shè)把InXi視為新變量,可以作為線形回歸去處理。 當因變量為對數(shù)時,方程為InYi = a + B X+u,參數(shù)B表示自變量X每變動一個單 位時,會引起因變量 丫發(fā)生幾個百分比的變動。如把InYi視為新變量,可以作 為線形回歸去處理。例如:美國聯(lián)邦儲藏管理委員會要研究 GDF和貨幣供給量X的關(guān)系,建立對數(shù)方 程Y=B計B 2lnXi+u,可先將貨幣供給量數(shù)據(jù)X轉(zhuǎn)變?yōu)镮nXi,再按照線性回歸方 法作GDP對InXi的回歸,得到? i =-16329+2584.79 InX i ,明確貨幣供給量每增 加一個百分點,GDP勺絕對量將增加2584.79億美元。三、指數(shù)函數(shù)指數(shù)函
15、數(shù)的形式為Y=abXieui。指數(shù)函數(shù)通常用于描述產(chǎn)量、本錢等現(xiàn)象的變 動趨勢。對方程兩邊取對數(shù)可轉(zhuǎn)化為線性函數(shù):InYi=Ina+XiInb+山,這時的變量 為 InYi 和 X,參數(shù)為 Ina 和 Inb。可以設(shè) Y*= InYi, B 1=Ina, B 2=Inb,得到 Y*= B 1+ B 2X+U。對于非線性關(guān)系,用相關(guān)指數(shù)度量其相關(guān)程度,相關(guān)指數(shù)就是非線性回歸的 決定系數(shù)R2或者決定系數(shù)的平方根R。R2和R越大,明確變量間的非線性相關(guān)程 度越高,反之越低。R取值X圍0-1。四、logistic 回歸因變量為二項變量時的回歸當因變量為二項變量時,可將其轉(zhuǎn)化為定距變量。其他定類變量也可
16、以轉(zhuǎn)化 為二項變量來研究。1J 1,成功I用虛擬變量的形式來表示因變量 丫,即丫= o,失敗 ,并設(shè)成功的概率 P(Y=1)= n,失敗的概率P(Y=0)=1- n,根據(jù)二項分布特征,可知丫的期望值E(Y) =n,Y 的方差 D(Y)= n (1- n )。設(shè)丫二項變量對自變量的回歸模型為:E(Y) = a +B 1X1+BiX如果擬合的方程為:?= a+btX1+ b iXi那么,擬合值?就表示成功概率n即E(Y)的估計值。所以自變量對 Y的影 響就轉(zhuǎn)化為了自變量對成功概率的影響。然而,對于二項變量來說,其E(Y)的取值X圍只能是0-1,這樣就不能很好 適應(yīng)線形回歸模型線形回歸要求因變量連續(xù)
17、取值,所以考慮對E(Y)進展數(shù)值 變換,可以將其轉(zhuǎn)化為P*=ln( P ),P即n1 PPln( 匚)=Logit(P)= a + B 1X1+ BX就是logistic回歸模型。當P趨于1 P0時,Logit(P)趨于-%,當P趨于1時,Logit(P)趨于+。通過這樣的變換, 使得因變量原本在(0,1)的取值X圍變成了(- S,+ S)。logistic回歸最常用于流行病學研究,用來探討某種疾病的危險因素,或者根據(jù)危險因素來預(yù)測患病概率。根據(jù)模型得p=e十1X1/1+e (a +卩1XZ+卩刈, 可預(yù)測發(fā)生概率。對于logistic 回歸,用Odds Ratio發(fā)生比來解釋回歸系數(shù),OR發(fā)
18、生概率 與不發(fā)生概率的比值。OR=d; InOR=B。B表示自變量每增加一個單位,其相對危 險度為e J例如:研究吸煙年數(shù)X與是否患肺癌丫的關(guān)系,假設(shè)根據(jù)B = 1計算出 OR=2.72如此明確吸煙年數(shù)每增加一年,患肺癌的危險性是之前的2.72倍。如果研究是否吸煙與肺癌的關(guān)系,令 X=1吸煙,X=0不吸煙;丫=1患肺癌, 丫=0不患肺癌,假設(shè)求得 OR=2.72如此明確吸煙的人患肺癌癥的危險性是不吸 煙的2.72倍。如果令X=1不吸煙,X=0吸煙;丫=1患肺癌丫=0,不患肺癌,假設(shè) 求得OR=0.3637,如此明確不吸煙的人患肺癌癥的危險性是吸煙的36.37%,或不吸煙的人患肺癌的危險性比吸煙者降低了63.63%。注意區(qū)分X變量的賦值。第五節(jié)自變量的選擇SPSS提供的5種選擇變量的方法:1、向前參加變量法FORWARD將自變量逐個引入方程,每次增加一個。第一 步是從所有K個自變量中引入一個,使它與丫組成的一元方程比其他更好即可 用回歸解釋的偏差比例更大;第二步是從未引入的K-1個自變量中再選一個, 使它和已進入的自變量與丫組成的二元回歸方程比其
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度博物館安防監(jiān)控系統(tǒng)安裝與維護服務(wù)協(xié)議3篇
- 2024年公務(wù)員考試都蘭縣《行政職業(yè)能力測驗》最后沖刺試題含解析
- 2024年建筑工程承包簡易合同(35篇)
- 2024版勞動協(xié)議安全管理操作手冊版
- 《生成可執(zhí)行的ja》課件
- 部編版五年級語文上冊第13課《少年中國說(節(jié)選)》精美課件
- 鋼結(jié)構(gòu)餐廳鋼架焊接施工合同
- 電力設(shè)施升級承攬合同
- 實習協(xié)議樣本
- 餐飲業(yè)地面施工合同
- A類《職業(yè)能力傾向測驗》上海市青浦區(qū)2024年事業(yè)單位考試統(tǒng)考試題含解析
- 消防控制室值班服務(wù)各項管理制度
- 角的概念推廣(說課課件)
- 2023-2024學年北京市西城區(qū)高二(上)期末物理試卷(含解析)
- (高清版)DZT 0211-2020 礦產(chǎn)地質(zhì)勘查規(guī)范 重晶石、毒重石、螢石、硼
- 2024年東方航天港海陽產(chǎn)業(yè)園開發(fā)有限公司招聘筆試參考題庫含答案解析
- 福建省泉州市2022-2023學年高一年級上冊期末教學質(zhì)量監(jiān)測英語試卷(含答案)
- 繼承傳統(tǒng)文化弘揚中國精神
- 高考體育特長生培訓
- 廣東省肇慶市2024屆高三第二次教學質(zhì)量檢測數(shù)學試題(解析版)
- 部門預(yù)算編制培訓課件
評論
0/150
提交評論