版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、1第八章第八章 回歸分析回歸分析第一節(jié)第一節(jié) 一元線性回歸分析一元線性回歸分析第二節(jié)第二節(jié) 可線性化的一元非線性回歸問題可線性化的一元非線性回歸問題第三節(jié)第三節(jié) 多元線性回歸分析多元線性回歸分析第四節(jié)第四節(jié) 逐步回歸分析逐步回歸分析第五節(jié)第五節(jié) 處理多元線性回歸中自變量共線性的幾種方法處理多元線性回歸中自變量共線性的幾種方法第七節(jié)第七節(jié) 含有定性變量的回歸分析含有定性變量的回歸分析第八節(jié)第八節(jié) 通徑分析通徑分析第六節(jié)第六節(jié) 多元非線性回歸分析多元非線性回歸分析2 回歸分析(regression analysis)是指由自變量的變異來估計因變量的變異問題,具體可通過建立回歸方程來實現(xiàn). 在熱帶作
2、物栽培和加工試驗以及作物病蟲害預(yù)測預(yù)報的研究中, 回歸分析有著極其廣泛的應(yīng)用.如在橡膠樹產(chǎn)量研究中, 應(yīng)用回歸分析可由蓬距、幼苗期刺檢干膠量、葉脈角度等估測產(chǎn)膠量;在橡膠樹白粉病研究中,用越冬菌量、溫度、濕度及橡膠物候等因子可預(yù)測白粉病的流行強(qiáng)度等等. 按自變量個數(shù)的多少可將回歸分析分為一元回歸分析和多元回歸分析.只考慮一個自變量的回歸問題稱為一元回歸分析,含有兩個或兩個以上自變量的回歸問題稱為多元回歸分析.以自變量和因變量之間內(nèi)在聯(lián)系特征的不同,又可將回歸問題分為線性回歸和非線性回歸分析. 本章著重介紹應(yīng)用國際通用統(tǒng)計軟件SAS進(jìn)行線性和非線性回歸分析的方法3一一. . 回歸模型回歸模型 第
3、一節(jié)第一節(jié) 一元線性回歸分析一元線性回歸分析回歸模型建立的直觀思想回歸模型建立的直觀思想 如果對于自變量 x 的一個觀測值 xi ,因變量y有一個相應(yīng)的觀察值yi與之對應(yīng),則稱 (xi , yi)組成一對觀察值. 現(xiàn)假定x與y有n對觀察值(x1, y1), (x2 , y2) , (xn , yn),把這n個點(xi , yi) 畫在平面直角坐標(biāo)系上,得到如圖81所示的散點圖. y=a+bxyx 圖81 觀測值 (xi ,yi)散點圖 4 從散點圖可以看出從散點圖可以看出,隨著自變量隨著自變量x的增加的增加,因變量因變量y也呈現(xiàn)上也呈現(xiàn)上升的趨勢升的趨勢,圖中的點大致分布在一條向右方傾斜的直線
4、附近圖中的點大致分布在一條向右方傾斜的直線附近,因因而可以用一條直線方程來近似的逼近而可以用一條直線方程來近似的逼近 即即 yi=b b0+b b1xi+e ei i=1 , 2, , n 其中其中e ei N(0 ,s s 2), e ei 是相互獨立的隨機(jī)變量序列且它們的方差是相互獨立的隨機(jī)變量序列且它們的方差相同相同(方差齊性方差齊性),稱為回歸直線稱為回歸直線(方程方程).對于一元線性回歸模型,我們要解決以下問題:對于一元線性回歸模型,我們要解決以下問題:(1)參數(shù)估計參數(shù)估計:給出參數(shù)給出參數(shù)b b0 , b b1 , s s 2 的估計值的估計值.(2)顯著性檢驗顯著性檢驗:檢驗線
5、性函數(shù)檢驗線性函數(shù) yi=b b0+b b1xi 用來描述因變量用來描述因變量 y 與自變量與自變量 x 的關(guān)系是否合適的關(guān)系是否合適,包括回歸模型的顯著性檢驗和包括回歸模型的顯著性檢驗和 參數(shù)的顯著性檢驗參數(shù)的顯著性檢驗.(3)模型檢查模型檢查:檢查對模型所做的假設(shè)是否成立檢查對模型所做的假設(shè)是否成立,包括包括 e ei 是相互獨是相互獨 立的隨機(jī)變量序列的檢查和方差齊性的檢查立的隨機(jī)變量序列的檢查和方差齊性的檢查.(4)預(yù)測或控制預(yù)測或控制.5對對b b0 , b b1的估計實際上就是在平面直角坐標(biāo)系中估計一條直線的估計實際上就是在平面直角坐標(biāo)系中估計一條直線 xy10bbxy10bbni
6、niiiixyeQ11210210)(),(bbbb二二 回歸模型建立的方法回歸模型建立的方法最小二乘估計最小二乘估計 使它盡可能地接近回歸直線使它盡可能地接近回歸直線 直觀的說來就是使理論值和觀測值的所有偏差和最小直觀的說來就是使理論值和觀測值的所有偏差和最小.為了為了避免正負(fù)偏差項互相抵消避免正負(fù)偏差項互相抵消,因而要求所有偏差平方和最小因而要求所有偏差平方和最小,即求即求參數(shù)參數(shù) b b0 , b b1 , 使函數(shù)使函數(shù)達(dá)到最小達(dá)到最小. .6根據(jù)二元函數(shù)的極值理論,分別求關(guān)于兩個變量10,bbniniiiixyeQ11210210)(),(bbbb011001100,1,0bbbbbb
7、bbbbQQ解方程組得的一階偏導(dǎo)數(shù),并令它們等于零解聯(lián)立方程組即可.將以上兩式展開,得方程組:niiiiniiixxyxy1101100)(0)(bbbbxxyxLLxy110bbb7稱觀測值與理論值的差稱觀測值與理論值的差 為殘差為殘差. .以上用數(shù)學(xué)方法對參以上用數(shù)學(xué)方法對參數(shù)數(shù) 進(jìn)行估計的方法進(jìn)行估計的方法, ,稱為最小二乘估計法稱為最小二乘估計法. . SAS SAS程序直接調(diào)用程序直接調(diào)用regreg過程過程. .一般格式如下:一般格式如下: poc regpoc reg data= data=數(shù)據(jù)集名稱;數(shù)據(jù)集名稱; model model 因變量集因變量集= =自變量集自變量集;
8、 (; (如如model y=x;)model y=x;)三三 一元線性回歸模型的檢驗一元線性回歸模型的檢驗1 1方差分析與方差分析與F F檢驗檢驗1 1)統(tǒng)計假設(shè))統(tǒng)計假設(shè) 原假設(shè)原假設(shè) 備擇假設(shè)備擇假設(shè)2 2)平方和與自由度分解)平方和與自由度分解 即總平方和分解為誤差平方和與回歸平方和即總平方和分解為誤差平方和與回歸平方和, ,同時總自由度也同時總自由度也分解為誤差自由度加上回歸自由度分解為誤差自由度加上回歸自由度, ,即即 niiniixxxnxxxL12212)(niiiiniiyxyxnyxyyxxL11)( )(iiiyy10,bb0:11bH; 0:10bHSSRSSEyyyy
9、yySSTniiniiinii121212)()()(RETfdfdfd83 3)F統(tǒng)計量統(tǒng)計量若若 , ,則拒絕則拒絕 接受接受 說明用函數(shù)說明用函數(shù) 來描述因變量來描述因變量 y與自變量與自變量 x 的關(guān)系是的關(guān)系是合適的合適的, ,即回歸模型是顯著性的。即回歸模型是顯著性的。4 4)方差分析表)方差分析表21nSSESSRdfSSEdfSSRFER)2, 1 (nFF0:11bH;0:10bHiixy10bb方差來源方差來源平方和平方和自由度自由度均方均方 F值值回歸回歸殘差殘差總計總計SSRSSESST 1n- -2n- -1MSR= SSR/ 1MSE= SSE/n- -2F=MSR
10、/MSESSTSSESSTSSRR122 2可決定系數(shù)可決定系數(shù)R2( (判定系數(shù))判定系數(shù)) 作為一個相對指標(biāo)作為一個相對指標(biāo), ,測度了擬合的回歸直線所導(dǎo)致離差平方測度了擬合的回歸直線所導(dǎo)致離差平方和占樣本的總離差平方和的百分比和占樣本的總離差平方和的百分比, ,因此它也是對回歸方程擬因此它也是對回歸方程擬合優(yōu)度的一種測度合優(yōu)度的一種測度. .R2越接近于越接近于1,1,則說明回歸方程對樣本點的則說明回歸方程對樣本點的擬合得越好擬合得越好. .93t 檢驗檢驗 0:10bH)2(111nttbsb) 1(2/1ntt0:00bH)2(000nttbsb) 1(2/0ntt0:10bHt 檢
11、驗是對回歸參數(shù)顯著性的檢驗檢驗是對回歸參數(shù)顯著性的檢驗,可以證明以下兩個結(jié)論可以證明以下兩個結(jié)論:結(jié)論結(jié)論1:在零假設(shè):在零假設(shè) 對于一元線性回歸來說對于一元線性回歸來說成立的條件下有成立的條件下有: 拒絕域為拒絕域為:結(jié)論結(jié)論2:在零假設(shè):在零假設(shè)成立的條件下有成立的條件下有:拒絕域為拒絕域為: 的的F檢驗值和檢驗值和t檢驗中的檢驗中的t值的概率值值的概率值 p 相等相等.實際上實際上,對于一元線性回歸模型來說對于一元線性回歸模型來說,上述上述兩個檢驗是等價的兩個檢驗是等價的,即都有相同的拒絕域即都有相同的拒絕域. 101.1.殘差圖殘差圖四四 一元線性回歸模型的殘差分析一元線性回歸模型的殘
12、差分析( (回歸診斷回歸診斷) ) 稱觀測值與理論值的差稱觀測值與理論值的差為殘差為殘差. .而稱而稱iiiyy)(iiiDe為標(biāo)準(zhǔn)化殘差為標(biāo)準(zhǔn)化殘差. .殘差圖以殘差圖以x為坐標(biāo)橫軸為坐標(biāo)橫軸, ,殘差殘差e為坐標(biāo)縱軸為坐標(biāo)縱軸, ,由所有點由所有點( (xi , ei) )構(gòu)成構(gòu)成. . 殘差圖可用于檢驗隨機(jī)變量序列殘差圖可用于檢驗隨機(jī)變量序列 的獨立性的獨立性, ,正態(tài)性和方差整正態(tài)性和方差整齊性齊性. .從理論上可以證明從理論上可以證明e1,e2, en相互獨立且近似的服從相互獨立且近似的服從N N(0,1).(0,1).故關(guān)于預(yù)測值殘差圖中的點應(yīng)隨機(jī)分布在故關(guān)于預(yù)測值殘差圖中的點應(yīng)隨
13、機(jī)分布在-2-2到到+2+2之間的帶子形之間的帶子形里里, ,這樣的殘差圖稱為正常的殘差圖這樣的殘差圖稱為正常的殘差圖. .ie另一種殘差圖是用橫軸表示因變量的預(yù)測值而用縱軸表示殘差另一種殘差圖是用橫軸表示因變量的預(yù)測值而用縱軸表示殘差值值ei, ,即點的坐標(biāo)為即點的坐標(biāo)為( (yi,ei).).111正常的殘差圖2直線回歸模型不合適3.方差齊性不成立4.誤差項不獨立圖82為幾種常見的殘差圖 122. .方差齊性的診斷及修正方法方差齊性的診斷及修正方法 對于一元線性回歸來說對于一元線性回歸來說, ,關(guān)于關(guān)于 x 的殘差圖和關(guān)于預(yù)測值的殘的殘差圖和關(guān)于預(yù)測值的殘差圖提供了同樣的信息差圖提供了同樣
14、的信息. . 對于多元線性回歸分析對于多元線性回歸分析, ,由于有一個以上的自變量由于有一個以上的自變量, ,所以所以一般采用關(guān)于預(yù)測值的殘差圖一般采用關(guān)于預(yù)測值的殘差圖. . 誤差方差非齊性時誤差方差非齊性時, ,殘差圖不正常殘差圖不正常. .可通過對因變量作適當(dāng)?shù)目赏ㄟ^對因變量作適當(dāng)?shù)淖儞Q變換, ,令令z=f ( y ) 使得關(guān)于因變量的回歸分析中誤差的方差接近使得關(guān)于因變量的回歸分析中誤差的方差接近于齊性于齊性. .實用上常選用一些變換實用上常選用一些變換, ,變換后重新做回歸及殘差圖變換后重新做回歸及殘差圖, ,如如殘殘差圖有改善或已屬正常殘殘差圖有改善或已屬正常, ,則該變換是合適的
15、則該變換是合適的. .否則改變變換否則改變變換函數(shù)計算直到找到合適的變換為止函數(shù)計算直到找到合適的變換為止, ,常用的方差穩(wěn)定性變換有常用的方差穩(wěn)定性變換有: :)ln(YZ )0(YYZ)0(1YYZ13 在許多回歸分析中在許多回歸分析中, ,所利用的數(shù)據(jù)是按時間順序采集的所利用的數(shù)據(jù)是按時間順序采集的, ,即即時間序列數(shù)據(jù)時間序列數(shù)據(jù), ,用用yt表示表示y在時刻在時刻t的值的值, ,而而y的值又常常依賴于的值又常常依賴于y在以前時刻的值在以前時刻的值. .此時此時, ,稱數(shù)據(jù)存在自相關(guān)稱數(shù)據(jù)存在自相關(guān)( (序列相關(guān)序列相關(guān)),),從而違從而違背了回歸模型的假設(shè)背了回歸模型的假設(shè), ,誤差
16、項誤差項 已不再是獨立的已不再是獨立的. . neee,21nttnttteeeD12221)(檢驗方法為檢驗方法為DurbinWatson統(tǒng)計量:統(tǒng)計量:3 3DurbinWatson 檢驗檢驗 DurbinWatson DurbinWatson統(tǒng)計量的取值統(tǒng)計量的取值介于介于0 0和和4 4之間之間, ,一個粗略的判斷是一個粗略的判斷是: : 若若D值在值在2附近附近( (1.6D2.4),),則沒有充分的證據(jù)證明存在序列相則沒有充分的證據(jù)證明存在序列相關(guān);若關(guān);若D2.4, ,則存在負(fù)的自相關(guān)則存在負(fù)的自相關(guān). .具體可通過具體可通過SAS程序來完成程序來完成, ,只需在只需在reg過程
17、后增加選項過程后增加選項DW即可,即可,如如:proc reg DW; 14五、一元線性回歸模型的五、一元線性回歸模型的SAS實施實施 一元線性回歸模型的建立可通過國際通用軟件SAS實施.具體可直接調(diào)用reg過程,一般格式如下: poc reg data=數(shù)據(jù)集名稱;(data=數(shù)據(jù)集名稱可以省略,此時所用的數(shù)據(jù)集為最近的數(shù)據(jù)集) model 因變量集=自變量集;(如model y=x;)六、應(yīng)用實例六、應(yīng)用實例 例8.1 海南省國營大嶺農(nóng)場橡膠樹大型系比二組無性系,1960年刺檢干膠量(x:毫克)與1965年正式割膠產(chǎn)量(y:克)如下表82,求正式割膠量關(guān)于剌檢干膠量的回歸方程.15表82
18、正式割膠產(chǎn)量與刺檢干膠量編號 1 2 3 4 5 6 7 8 9 10 11 12 13 14xy77 64 62 72 71 83 79 94 104 96 61 90 81 1228.8 7.9 8.9 7.7 8.6 8.1 9.1 5.6 8.5 7.6 4.9 8.1 12.0 15.7編號15 16 17 18 19 20 21 22 23 24 25 26xy65 130 111 160 188 81 92 80 63 105 89 7311.9 11.1 6.5 15.3 17.7 5.9 10.6 8.3 6.0 8.5 10.1 3.51建立回歸方程 由所給的數(shù)據(jù)得 239
19、6ix15.92x9 .236iy11.9y2439902ix23.24352iy9 .23618iiyx于是得 0771. 026/)2396(24399026/9 .23623969 .23618/)(/ )(222nxxnyxyxbiiiiii1601. 215.920771. 011. 9xbya于是得回歸方程為 xy0771.001.22. 回歸方程顯著性檢驗 71.27626/)9 .236(23.2435/)()(2222nyyyySSiiiT總平方和/)()()(222222nxxbxxbyySSiiiiR回歸平方和81.13726/)2396(243990)0771. 0(2
20、290.13852.13971.276RTESSSSSS剩余平方和方差分析結(jié)果列于表83. 17表83 回歸方程的方差分析變異來源平方和(SS)自由度( df )均方(MS )F值回 歸剩 余 1 24137.81138.90137.81 5.7923.81*總變異 25276.71SAS程序與輸出結(jié)果程序與輸出結(jié)果 data han81; input x y;cards; 77 8.8 64 7.9 62 8.9 72 7.7 71 8.6 83 8.1 79 9.1 97 5.6 104 8.5 96 7.6 61 4.9 90 8.1 81 12.0 122 15.7 65 11.9 1
21、30 11.1 111 6.5 160 15.3 188 17.7 81 5.9 92 10.6 80 8.3 63 6.0 105 8.5 89 10.1 73 3.5; 18proc gplot; plot y*x=*; proc reg; model y=x/p clm cli; plot residual.*x=*;run; 主要的輸出結(jié)果主要的輸出結(jié)果:(1)因變量y關(guān)于變量x的散點圖 19 由散點圖可以看出,圖中的點大致呈現(xiàn)直線上升的趨勢,因而可以用線性模型來刻畫因變量y與自變量x的關(guān)系. (2)模型擬合與檢驗 Dependent Variable: y Analysis of V
22、ariance Sum of MeanSource DF Squares Square F Value Pr FModel 1 137.80902 137.80902 23.81 |t| Intercept 1 2.00746 1.53037 1.31 0.2020 x 1 0.07709 0.01580 4.88 .0001輸出結(jié)果的給出了F=23.81, Pr0 , x0) 4. S形曲線函數(shù)形曲線函數(shù) y=1/(a+be- -x) 5. 負(fù)指數(shù)函數(shù)負(fù)指數(shù)函數(shù) y=ae- -b/x 先取對數(shù)先取對數(shù),得得 lny=lna+blnx ,作變換作變換,令令 lny=z , lnx=t , ln
23、a=k 則有則有 z=k+bt ,顯然顯然 z是是t 的線性函數(shù)的線性函數(shù).作變換作變換,令令 1/y = z , t=1/ex則有則有 z=a+bt ,顯然顯然z是是t的線性函數(shù)的線性函數(shù).先取對數(shù)得先取對數(shù)得 lny=lna- -b/x令令 lny=z , lna=k , -1/x=t 則有則有 z=k+bt ,顯然顯然 z是是t的線性函數(shù)的線性函數(shù). 23 對回歸方程選擇一種合適的函數(shù)形式對回歸方程選擇一種合適的函數(shù)形式, ,必須對散點圖進(jìn)行認(rèn)必須對散點圖進(jìn)行認(rèn)真的分析真的分析. .有時有時, ,對同一種散點圖所呈現(xiàn)的因變量與自變量的關(guān)對同一種散點圖所呈現(xiàn)的因變量與自變量的關(guān)系系, ,可
24、以選擇不同的函數(shù)形式來描述回歸方程可以選擇不同的函數(shù)形式來描述回歸方程, ,那么如何判斷并那么如何判斷并比較不同回歸方程的擬合優(yōu)度呢比較不同回歸方程的擬合優(yōu)度呢? ?通常使用的比較準(zhǔn)則通常使用的比較準(zhǔn)則. . 有下面兩個有下面兩個: :SSTSSESSTSSRR12二二. . 曲線回歸的選擇準(zhǔn)則曲線回歸的選擇準(zhǔn)則 1. 1. 相關(guān)指數(shù)相關(guān)指數(shù) R 作為一個相對指標(biāo)作為一個相對指標(biāo), ,測度了擬合的回歸直線所導(dǎo)致離差平方測度了擬合的回歸直線所導(dǎo)致離差平方和占樣本的總離差平方和的百分比和占樣本的總離差平方和的百分比, ,因此它也是對回歸方程擬合因此它也是對回歸方程擬合優(yōu)度的一種測度優(yōu)度的一種測度.
25、 .R2越接近于越接近于1,1,則回歸方程對樣本點的擬合得越則回歸方程對樣本點的擬合得越好好. .因此因此, ,對于用不同的曲線擬合的回歸方程對于用不同的曲線擬合的回歸方程, ,通常選擇通常選擇R2較大的較大的一個為好一個為好. .24 2. 2.剩余標(biāo)準(zhǔn)差剩余標(biāo)準(zhǔn)差S 它反映了樣本偏離回歸曲線的平均大小它反映了樣本偏離回歸曲線的平均大小, ,當(dāng)然當(dāng)然S越小越好越小越好. .事實上事實上, ,上述兩個準(zhǔn)則是一致的上述兩個準(zhǔn)則是一致的. .R越大越大, ,則則S越小越小, ,反之也然反之也然. .例例1 1 以下為一組觀測值以下為一組觀測值 1) 1) 繪制繪制y對對x的散點圖的散點圖 2) 2
26、) 假定假定y與與x的關(guān)系為的關(guān)系為(1)(1)雙曲線雙曲線1/y=a+b/x(2)(2)對數(shù)曲線函數(shù)對數(shù)曲線函數(shù)y=a+blnx (3)負(fù)指數(shù)函數(shù)負(fù)指數(shù)函數(shù)y=ae- -b/x(4)(4)冪函數(shù)冪函數(shù) 試作變量變換化非線性回歸為線性回歸試作變量變換化非線性回歸為線性回歸, ,并建立回歸方程并建立回歸方程. . )2/()(12nyySniiix2345781011y106.42 108.20 109.58 109.50 110.00109.93 110.49 110.59x1415161819y110.60110.90 110.76110.00 111.20 xbay25data han2;
27、 input x y; z1=1/y; t1=1/x; t2=log(x); z2=log(y); t3=- -1/x; t4=sqrt(x); cards; 2 106.42 3 108.20 4 109.58 5 109.50 7 110.00 8 109.93 10 110.49 11 110.59 14 110.60 15 110.90 16 110.76 18 110.00 19 111.20 ; proc gplot data=han2; plot y*x=*; proc reg data=han2; model z1=t1; proc reg data=han2; model y
28、=t2; proc reg data=han2; model z2=t3; proc reg data=han2; model y=t4; run;26因變量因變量y y關(guān)于自變量關(guān)于自變量x x的散點圖的散點圖: :27主要的輸出結(jié)果主要的輸出結(jié)果: : 模型模型1 1 雙曲線函數(shù)雙曲線函數(shù) 作變換作變換 z1=1/y t1=1/xModel: MODEL1 Dependent Variable: Z1 Analysis of Variance Sum of Mean Source DF Squares Square F Value ProbF Model 1 1.3335153E-7 1.
29、3335153E-7 158.655 0.0001 Error 11 9.2456216E-9 8.405111E-10C Total 12 1.4259715E-7 Root MSE 0.00003 R-square 0.9352 Dep Mean 0.00910 Adj R-sq 0.9293 C.V. 0.31846 Parameter Estimates Parameter Standard T for H0: Variable DF Estimate Error Parameter=0 Prob |T| INTERCEP 1 0.008979 0.00001275 704.256 0
30、.0001 T1 1 0.000790 0.00006272 12.596 0.0001xbay/128 模型模型2 2 對數(shù)曲線函數(shù)對數(shù)曲線函數(shù) 說明說明: : 已作變換已作變換 t2=lnx Model: MODEL1Dependent Variable: Y Analysis of Variance Sum of Mean Source DF Squares Square F Value ProbF Model 1 16.03862 16.03862 44.470 0.0001 Error 11 3.96727 0.36066 C Total 12 20.00589 Root MSE 0
31、.60055 R-square 0.8017 Dep Mean 109.85923 Adj R-sq 0.7837 C.V. 0.54665 Parameter Estimates Parameter Standard T for H0: Variable DF Estimate Error Parameter=0 Prob |T| INTERCEP 1 106.497087 0.53097742 200.568 0.0001 T2 1 1.591238 0.23861707 6.669 0.0001xbayln29 模型模型3 3 負(fù)指數(shù)函數(shù)負(fù)指數(shù)函數(shù) 已作變換已作變換 z2=lny t3=
32、-1/x Model: MODEL1 Dependent Variable: Z2 Analysis of Variance Sum of Mean Source DF Squares Square F Value ProbF Model 1 0.00158 0.00158 158.189 0.0001 Error 11 0.000109794 9.9812743E-6 C Total 12 0.00169 Root MSE 0.00316 R-square 0.9350 Dep Mean 4.69914 Adj R-sq 0.9291 C.V. 0.06723 Parameter Estim
33、ates Parameter Standard T for H0: Variable DF Estimate Error Parameter=0 Prob |T| INTERCEP 1 4.712697 0.00138939 3391.917 0.0001 T3 1 0.085962 0.00683472 12.577 0.0001 xbeay/30 模型模型4 4 冪函數(shù)冪函數(shù)Model: MODEL1Dependent Variable: Y Analysis of Variance Sum of MeanSource DF Squares Square F Value ProbFMode
34、l 1 13.90887 13.90887 25.094 0.0004Error 11 6.09702 0.55427C Total 12 20.00589 Root MSE 0.74450 R-square 0.6952 Dep Mean 109.85923 Adj R-sq 0.6675 C.V. 0.67768 Parameter Estimates Parameter Standard T for H0: Variable DF Estimate Error Parameter=0 Prob |T| INTERCEP 1 106.537333 0.69454059 153.393 0.
35、0001 T4 1 1.091857 0.21796278 5.009 0.0004 xbay31 從以上的輸出結(jié)果可得模型從以上的輸出結(jié)果可得模型1和模型和模型3的的R2較大較大, ,分別為分別為0.9352和和0.9350 , ,因此選擇模型因此選擇模型1和模型和模型3較為合適較為合適. . xeey1172697. 4模型 1: z1=0.008979+0.00079t1 ,即 1/y=0.008979+0.00079/x模型 3: z2=4.712697+0.085962t3 , 即 lny = 4.712697-1/x于是 【返回】32第三節(jié)第三節(jié) 多元線性回歸分析多元線性回歸分析
36、1 1回歸模型回歸模型 設(shè)影響因變量設(shè)影響因變量y的自變量有的自變量有p個個, ,并分別記為并分別記為x1, x2, ,xp , ,所謂所謂多元線性回歸模型是指這些自變量對因變量的影響是線性的,多元線性回歸模型是指這些自變量對因變量的影響是線性的,即即 其中其中 稱為稱為p個自變量個自變量 x1, x2, ,xp , , 的線性回歸函數(shù)的線性回歸函數(shù). . 記記n n組樣本分別是組樣本分別是 那么那么, ,由上式可得到由上式可得到 其中其中 這樣一來這樣一來, ,多元線性回歸分析的主要問題就是基于模型對未知多元線性回歸分析的主要問題就是基于模型對未知參數(shù)參數(shù)b b0 ,b b1, , b bp
37、 和和s s2進(jìn)行估計、檢驗并利用得到的回歸模型進(jìn)行估計、檢驗并利用得到的回歸模型進(jìn)行預(yù)測進(jìn)行預(yù)測. . ebbbbppxxxy22110pppxxxxxxfbbbb2211021),(), 2 , 1( );,(21niyxxxiipiinixxxyiippiii, 2 , 1,22110ebbbbjiNjii , 0),cov(, ), 0(2eese一一. . 多元線性回歸模型多元線性回歸模型331112211101ebbbbppxxxy2222221102ebbbbppxxxynnppnnnxxxyebbbb22110121nnyyy)1(212222111211111pnnpnnpp
38、xxxxxxxxx1) 1(210ppbbbbneee2134 上述回歸模型的矩陣表示上述回歸模型的矩陣表示Y=Xb b +e e, ,其中其中Y = (y1 , y2 , ,yn )T , , 是是n階單位矩陣階單位矩陣. . 稱矩陣稱矩陣 為資料矩陣或設(shè)計矩陣為資料矩陣或設(shè)計矩陣. . 利用最小二乘法可估計回歸系數(shù)利用最小二乘法可估計回歸系數(shù), ,即求解一組參數(shù)即求解一組參數(shù)使得如下定義的平方和使得如下定義的平方和Q達(dá)到最?。哼_(dá)到最小:由多元函數(shù)的極值理論由多元函數(shù)的極值理論, ,分別求分別求Q關(guān)于各個參數(shù)的偏導(dǎo)數(shù)關(guān)于各個參數(shù)的偏導(dǎo)數(shù), ,并令它并令它們等于零們等于零, ,于是得到如下的方
39、程組于是得到如下的方程組, ,解方程組便得到所求的參數(shù)解方程組便得到所求的參數(shù). .), 0(2nINse,),(210TpbbbbbnI,),(21TneeeenpnppxxxxxxX1221111111pbbb,10niippiipxxyQ1211010)(),(bbbbbb2.2.回歸模型的矩陣表示回歸模型的矩陣表示二二. . 回歸系數(shù)的最小二乘估計回歸系數(shù)的最小二乘估計35如果如果 可逆可逆, ,則方程組的則方程組的( (參數(shù)的參數(shù)的) )解為解為niipippiiniiippiiniippiixxxyxxxyxxy11101111011100)(20)(20)(2bbbbbbbbbY
40、XXXTTb)(用矩陣表示為XXTYXXXTT1)(b0:;0:1210ipHHbbbb三三. . 回歸方程的顯著性檢驗回歸方程的顯著性檢驗 1 1統(tǒng)計假設(shè)統(tǒng)計假設(shè) 由最小二乘準(zhǔn)則求回歸系數(shù)的計算過程中由最小二乘準(zhǔn)則求回歸系數(shù)的計算過程中, ,并不一定知道因變量并不一定知道因變量與自變量是否存在線性關(guān)系與自變量是否存在線性關(guān)系. .如果不存在線性關(guān)系如果不存在線性關(guān)系, ,那么得到的回那么得到的回歸方程是毫無意義的歸方程是毫無意義的. .在一元回歸分析中在一元回歸分析中, ,若若 b b1=0 則平均地說因則平均地說因變量變量y y并沒有隨自變量并沒有隨自變量x x的變化而線性地變化的變化而線
41、性地變化. .因此對回歸方程的因此對回歸方程的顯著性檢驗就是檢驗以下的假設(shè)是否成立:顯著性檢驗就是檢驗以下的假設(shè)是否成立: 362平方和與自由度分解 對統(tǒng)計假設(shè)所作的檢驗方法仍采用方差分析法.從分析引起 yi (i=1 ,2 , , n )變化的總方差的原因入手. 自由度為 dfT=dfE+dfR, 其中dfT=n-1, dfR=p ,dfE=(n-1)-p 3.F統(tǒng)計量 拒絕域為SSRSSEyyyyyySSTniniiiiinii112212)()()() 1,() 1/(/pnpFpnSSEpSSRF) 1,(pnpFF變異來源平方和自由度均方F值回歸SSRpMSR= SSR / pF=
42、MSR/ MSE殘差SSEn-p-1MSE= SSE / n-p-1總變異SSTn-14.方差分析表371統(tǒng)計假設(shè)統(tǒng)計假設(shè) 對回歸方程的顯著性檢驗對回歸方程的顯著性檢驗,若否定若否定H0 ,僅表示僅表示 不全為不全為0但并不排除有某個但并不排除有某個 為為0,若若 ,說明自變量說明自變量 xi 對因?qū)σ蜃兞孔兞縴的影響不明顯的影響不明顯,應(yīng)從回歸模型中刪除應(yīng)從回歸模型中刪除.因此對回歸系數(shù)是否因此對回歸系數(shù)是否為為0進(jìn)行逐個檢驗是很必要的進(jìn)行逐個檢驗是很必要的.pbbb,21ib0ib四.回歸系數(shù)的顯著性檢驗即檢驗即檢驗; ),2, 1(0:;0:)(1)(0piHHiiiibb2t 統(tǒng)計量統(tǒng)
43、計量) 1() 1/(/pntpnSSEltiiiib拒絕域為拒絕域為)1(pntt38六、應(yīng)用實例六、應(yīng)用實例 例8.3 肖陳保等同志應(yīng)用三元線性回歸,由橡膠樹白粉病的始病期(x1) 、嫩葉期(x2) 、發(fā)病期雨天數(shù)(x3)預(yù)測最終病情指數(shù)y ,18個觀測值如下表86. 五五. 多元回歸分析的多元回歸分析的SAS書寫格式書寫格式:proc reg; model 因變量串=自變量串/ 選項串;data 數(shù)據(jù)集名稱; input x1 x2xp y;cards; ; proc reg; model y=x1 x2xp/選項;run; 例如39表86 橡膠樹白粉病最終病情指數(shù)級值表觀測值始病期(x
44、1)嫩葉期(x2)發(fā)病期雨天數(shù)(x3)最終病情指數(shù)(y)12122222223223341111511116322373333811119111140101111113333121211132232142111151322163233172332181233SAS編程如下編程如下:41data han83; input x1 x2 x3 y;cards; 2 1 2 2 2 2 2 2 2 2 3 3 1 1 1 1 1 1 1 1 3 2 2 3 3 3 3 3 1 1 1 1 1 1 1 1 1 1 1 1 3 3 3 3 1 2 1 1 2 2 3 2 2 1 1 1 1 3 2 2 3
45、 2 3 3 2 3 3 2 1 2 3 3 ;proc reg; model y=x1 x2 x3/p cli clm; plot residual.*y=*; (畫寫殘差分析圖畫寫殘差分析圖)run;421回歸方程顯著性檢驗 Dependent Variable: y Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr F Model 3 10.85063 3.61688 24.18 F |t|Intercept 1 0.03660 0.26297 0.14 0.8913 x1 1 0.29330 0.1
46、5132 1.94 0.0730 x2 1 0.01340 0.17822 0.08 0.9411 x3 1 0.68093 0.17494 3.89 0.0016 回歸方程為 32168093. 00134. 02933. 00366. 0 xxxy 從輸出結(jié)果可見,變量x1, x2 對響應(yīng)變量 y 的影響不顯著,而x3對y的影響是顯著的. 44殘差圖殘差圖【返回】45第四節(jié)第四節(jié) 逐步回歸分析逐步回歸分析 在多元線性回歸分析中,影響因變量的自變量有很多,例如甘蔗的糖份與降雨量、相對濕度以及最低溫度有關(guān);某作物的產(chǎn)量與單位面積穗數(shù)、每穗粒數(shù)、千粒重、播種期、密度、施肥量、溫度、雨量和光照等因
47、素有關(guān).人們希望從諸多自變量中挑選出有顯著影響的自變量來建立回歸方程,這就涉及到自變量的選擇問題.在回歸方程建立的過程中,若漏掉對因變量影響顯著的自變量,那么建立的回歸方程用于實際預(yù)測時會產(chǎn)生較大的偏差.同樣,若建立的回歸方程中包括了對因變量影響不顯著的自變量,那么這樣的回歸方程也會影響到預(yù)測的精度.由此可見,選擇適當(dāng)?shù)淖宰兞坑糜诮⒆顑?yōu)的回歸方程是十分重要的.46 一一. . 自變量的選擇問題自變量的選擇問題 在實際問題中在實際問題中, ,影響因變量的因素影響因變量的因素( (自變量自變量) )可能很多可能很多, ,人人們希望從中挑選出影響顯著的自變量來建立回歸關(guān)系式們希望從中挑選出影響顯著
48、的自變量來建立回歸關(guān)系式, ,這就這就涉及到自變量的選擇問題涉及到自變量的選擇問題. . 在回歸方程中若漏掉對因變量影響顯著的自變量在回歸方程中若漏掉對因變量影響顯著的自變量, ,那么建立那么建立的回歸式用于預(yù)測時會產(chǎn)生大的偏差的回歸式用于預(yù)測時會產(chǎn)生大的偏差, ,但回歸式中若包括的變但回歸式中若包括的變量太多量太多, ,且其中有些對因變量的影響不大且其中有些對因變量的影響不大, ,顯然這樣的回歸式不顯然這樣的回歸式不僅使用不方便僅使用不方便. .而且反而影響預(yù)測的精度而且反而影響預(yù)測的精度. .因此適當(dāng)選擇變量用因此適當(dāng)選擇變量用于建立一個于建立一個“最優(yōu)最優(yōu)”的回歸方程是一個十分重要的問題
49、的回歸方程是一個十分重要的問題. . 什么是什么是“最優(yōu)最優(yōu)”回歸方程回歸方程? ?直觀考慮應(yīng)該是方程中包括的所有直觀考慮應(yīng)該是方程中包括的所有變變量對因變量的影響都是顯著的量對因變量的影響都是顯著的; ;而不包括在方程中的變量對因變而不包括在方程中的變量對因變量的影響是不顯著的量的影響是不顯著的( (可忽略可忽略).).也就是從自變量集也就是從自變量集中選出適當(dāng)?shù)淖蛹羞x出適當(dāng)?shù)淖蛹?使得建立因變量使得建立因變量 y 與與子集的回歸方程就是子集的回歸方程就是“最優(yōu)最優(yōu)”的回歸方程的回歸方程. .這就是回歸變量的選這就是回歸變量的選擇擇問題問題. .,21pxxx)( ,21plxxxliii
50、47 回歸變量的選擇問題在實用上和理論上都是十分重要的回歸變量的選擇問題在實用上和理論上都是十分重要的. .這這個問題最大的困難就是如何比較不同選擇個問題最大的困難就是如何比較不同選擇( (即不同子集即不同子集) )的優(yōu)劣的優(yōu)劣, ,即最優(yōu)選擇的標(biāo)準(zhǔn)即最優(yōu)選擇的標(biāo)準(zhǔn). .從不同的角度出發(fā)從不同的角度出發(fā), ,可以有不同的比較準(zhǔn)則可以有不同的比較準(zhǔn)則, , 在不同的準(zhǔn)則下在不同的準(zhǔn)則下,“,“最優(yōu)最優(yōu)”回歸方程也可能不同?;貧w方程也可能不同。 比較不同子集優(yōu)劣的標(biāo)準(zhǔn)常見的有以下幾種比較不同子集優(yōu)劣的標(biāo)準(zhǔn)常見的有以下幾種( (記記 為觀測個數(shù)為觀測個數(shù), , 為子集模型中自變量的個數(shù)為子集模型中自
51、變量的個數(shù)) ):(1)(1)均方誤差均方誤差S2最小最小 選擇子集選擇子集 , ,使均方差使均方差 達(dá)最小達(dá)最小, ,其中其中SSE(A)是是y與回歸模型的誤差平方和與回歸模型的誤差平方和, ,l是子集中自是子集中自變量的個數(shù)變量的個數(shù). .(2)(2)預(yù)測均方誤差最小預(yù)測均方誤差最小 選擇子集選擇子集 使得使得 達(dá)最小達(dá)最小. .nl,21liiixxxA) 1/()()(2lnASSEASA)(11)(ASSElnlnAJ二二、最優(yōu)選擇的標(biāo)準(zhǔn)最優(yōu)選擇的標(biāo)準(zhǔn)48(3)(3)Cp 統(tǒng)計量最小準(zhǔn)則統(tǒng)計量最小準(zhǔn)則 選擇子集選擇子集A, ,使得使得 達(dá)最小達(dá)最小, ,其其中中SSE是包括所有是包括
52、所有p個自變量的回歸模型中誤差平方和。個自變量的回歸模型中誤差平方和。(4) AIC或或BIC準(zhǔn)則準(zhǔn)則 選擇子集選擇子集A, ,使得使得AIC(A)=lnSSE(A)+2l lnn/n 或或 BIC(A)=lnSSE(A)+l lnn/n 達(dá)最小達(dá)最小. .(5) (5) 修正的修正的R2準(zhǔn)則準(zhǔn)則 選擇子集選擇子集A, ,使得修正使得修正 ,(,(當(dāng)模型含有截矩當(dāng)模型含有截矩 項時項時 i=1, ,否則否則 i=0) )達(dá)最大達(dá)最大. .2. 選擇選擇“最優(yōu)最優(yōu)”子集回歸的方法子集回歸的方法SAS軟件的軟件的REG過程中過程中, ,選擇變量子集的方法有選擇變量子集的方法有8種種, ,可分為三類
53、可分為三類: :(1)(1)選擇選擇“最優(yōu)最優(yōu)”子集的簡便方法子集的簡便方法: :包括逐步篩選包括逐步篩選( (STEPWISE),), 向前引入法向前引入法( (FORWARD) )和向后剔除法和向后剔除法( (BACKWARD) )(2)(2)計算量最大的全子集法計算量最大的全子集法: :通過計算所有可能回歸子集后通過計算所有可能回歸子集后, ,按最按最 優(yōu)選擇的標(biāo)準(zhǔn)選擇最優(yōu)回歸方程優(yōu)選擇的標(biāo)準(zhǔn)選擇最優(yōu)回歸方程. .包括選擇法包括選擇法R2 (RSQUARE),nlpnSSEASSECp2) 1/()()1 (122RlninR49 選擇法選擇法Cp(CP)和修正選擇法和修正選擇法R2 (
54、ADJRSQ).(ADJRSQ).(3)(3)計算量適中的選擇法:沒有計算所有可能回歸子集計算量適中的選擇法:沒有計算所有可能回歸子集, ,但比較但比較 的子集個數(shù)多于的子集個數(shù)多于(1)(1)中提到的逐步篩選等一些選擇法中提到的逐步篩選等一些選擇法, ,如最小如最小 R2增量法增量法(MINR)(MINR)和最大和最大R2增量法增量法(MAXR). (MAXR). 逐步回歸分析的逐步回歸分析的SASSAS書寫格式書寫格式: : proc reg proc reg; ; model model 因變量串因變量串= =自變量串自變量串/ selection=/ selection=最優(yōu)子集選項串
55、最優(yōu)子集選項串; ; 如如:proc reg:proc reg; ; model y=x1-x8/selection=stepwise(forwardmodel y=x1-x8/selection=stepwise(forward backward) backward); ; 又如又如: proc reg proc reg; ; model y=x1 x2 x3 x4/selection=rsquare model y=x1 x2 x3 x4/selection=rsquare best=2 cp aic rmse adjrsq best=2 cp aic rmse adjrsq; ;50 例
56、例8.4 由于環(huán)境作用對光合速率的影響很大由于環(huán)境作用對光合速率的影響很大,要得到能反映環(huán)境對光合作要得到能反映環(huán)境對光合作用影響的數(shù)據(jù)用影響的數(shù)據(jù),必須在不同的天氣下測定光合作用各種指標(biāo)必須在不同的天氣下測定光合作用各種指標(biāo).下表下表87中的數(shù)中的數(shù)據(jù)使用據(jù)使用Li6400光合測量儀測定光合測量儀測定,其中因變量其中因變量y 光合速率光合速率; x1氣孔導(dǎo)度氣孔導(dǎo)度; x2胞間二氧化碳濃度胞間二氧化碳濃度; x3蒸騰速率蒸騰速率; x4葉片水汽壓虧損葉片水汽壓虧損; x5葉片的溫葉片的溫度度; x6相對濕度相對濕度;試對數(shù)據(jù)作回歸分析試對數(shù)據(jù)作回歸分析. 表表87 環(huán)境對光合作用影響數(shù)據(jù)表環(huán)
57、境對光合作用影響數(shù)據(jù)表觀測號觀測號yx1x2x3x4x5x6123456789108.378.198.038.328.388.167.447.286.507.850.09960.09870.10300.10400.09900.10100.09790.09650.08930.09882042022081991922002082082052032.802.793.113.443.483.783.883.903.853.452.782.792.993.273.453.653.883.954.203.4434.8135.0635.8136.7637.4637.8738.3938.7239.6146.6
58、8106310691114116212191231128813001295119351SAS程序及主要輸出結(jié)果 data han84; input y x1 x2 x3 x4 x5 x6;cards; 8.37 0.0996 204 2.80 2.78 34.81 1063 8.19 0.0987 202 2.79 2.79 35.06 1069 8.03 0.1030 208 3.11 2.99 35.81 1114 8.32 0.1040 199 3.44 3.27 36.76 1162 8.38 0.0990 192 3.48 3.45 37.46 1219 8.16 0.1010 20
59、0 3.78 3.65 37.87 1231 7.44 0.0979 208 3.88 3.88 38.39 1288 7.28 0.0965 208 3.9 3.95 38.72 1300 6.50 0.0893 205 3.85 4.20 39.61 1295 7.85 0.0988 203 3.45 3.44 46.68 1193 ;proc reg; model y=x1 x2 x3 x4 x5 x6/selection=stepwise; model y=x1 x2 x3 x4 x5 x6/selection=rsquare best=2 cp aic rmse adjrsq;run
60、; 52(1) 逐步回歸分析結(jié)果Model: MODEL1Dependent Variable: y Stepwise Selection: Step 1Variable x1 Entered: R-Square = 0.7297 and C(p) = 73.2633 Analysis of Variance Sum of MeanSource DF Squares Square F Value Pr FModel 1 2.43102 2.43102 21.59 0.0017Error 8 0.90074 0.11259Corrected total 9 3.33176 Parameter S
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《噪聲污染防治法》課件
- 網(wǎng)店美工模擬題+答案
- 吉林省長春市公主嶺市2023-2024學(xué)年七年級上學(xué)期期末模擬考試數(shù)學(xué)試卷(含答案)
- 養(yǎng)老院老人心理咨詢師福利待遇制度
- 養(yǎng)老院老人精神文化生活指導(dǎo)制度
- 《關(guān)于液氨的講課》課件
- 2024年環(huán)境檢測外包服務(wù)合同
- 房屋無償協(xié)議書(2篇)
- 《增值的戰(zhàn)略評估》課件
- 2025年上饒貨運從業(yè)資格證模擬考
- 農(nóng)貿(mào)市場通風(fēng)與空調(diào)設(shè)計方案
- Unit 6 Food Lesson 1(說課稿)-2024-2025學(xué)年人教精通版(2024)英語三年級上冊
- 第25課《周亞夫軍細(xì)柳》復(fù)習(xí)課教學(xué)設(shè)計+2024-2025學(xué)年統(tǒng)編版語文八年級上冊
- 2024年廣東省深圳市中考英語試題含解析
- 金蛇納瑞2025年公司年會通知模板
- 有限空間應(yīng)急預(yù)案演練方案及過程
- GB/T 16288-2024塑料制品的標(biāo)志
- 四年級英語上冊 【月考卷】第三次月考卷(Unit 5-Unit 6) (含答案)(人教PEP)
- 某某市“鄉(xiāng)村振興”行動項目-可行性研究報告
- 中國航空協(xié)會:2024低空經(jīng)濟(jì)場景白皮書
- 第七單元 條形統(tǒng)計圖 條形統(tǒng)計圖(一) (同步練習(xí))-2024-2025學(xué)年人教版數(shù)學(xué)四年級上冊
評論
0/150
提交評論