概統(tǒng)(茆詩(shī)松)第二版 第八章 回歸分析_第1頁(yè)
概統(tǒng)(茆詩(shī)松)第二版 第八章 回歸分析_第2頁(yè)
概統(tǒng)(茆詩(shī)松)第二版 第八章 回歸分析_第3頁(yè)
概統(tǒng)(茆詩(shī)松)第二版 第八章 回歸分析_第4頁(yè)
概統(tǒng)(茆詩(shī)松)第二版 第八章 回歸分析_第5頁(yè)
已閱讀5頁(yè),還剩122頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第八章回歸分析第一節(jié)一元線性回歸分析第二節(jié)可線性化的一元非線性回歸問(wèn)題第三節(jié)多元線性回歸分析第四節(jié)

逐步回歸分析第五節(jié)處理多元線性回歸中自變量共線性的幾種方法第七節(jié)含有定性變量的回歸分析第八節(jié)通徑分析第六節(jié)多元非線性回歸分析回歸分析(regressionanalysis)是指由自變量的變異來(lái)估計(jì)因變量的變異問(wèn)題,具體可通過(guò)建立回歸方程來(lái)實(shí)現(xiàn).在熱帶作物栽培和加工試驗(yàn)以及作物病蟲(chóng)害預(yù)測(cè)預(yù)報(bào)的研究中,回歸分析有著極其廣泛的應(yīng)用.如在橡膠樹(shù)產(chǎn)量研究中,應(yīng)用回歸分析可由蓬距、幼苗期刺檢干膠量、葉脈角度等估測(cè)產(chǎn)膠量;在橡膠樹(shù)白粉病研究中,用越冬菌量、溫度、濕度及橡膠物候等因子可預(yù)測(cè)白粉病的流行強(qiáng)度等等.按自變量個(gè)數(shù)的多少可將回歸分析分為一元回歸分析和多元回歸分析.只考慮一個(gè)自變量的回歸問(wèn)題稱為一元回歸分析,含有兩個(gè)或兩個(gè)以上自變量的回歸問(wèn)題稱為多元回歸分析.以自變量和因變量之間內(nèi)在聯(lián)系特征的不同,又可將回歸問(wèn)題分為線性回歸和非線性回歸分析.本章著重介紹應(yīng)用國(guó)際通用統(tǒng)計(jì)軟件SAS進(jìn)行線性和非線性回歸分析的方法一.回歸模型

第一節(jié)一元線性回歸分析回歸模型建立的直觀思想如果對(duì)于自變量x的一個(gè)觀測(cè)值xi,因變量y有一個(gè)相應(yīng)的觀察值yi與之對(duì)應(yīng),則稱

(xi,

yi)組成一對(duì)觀察值.現(xiàn)假定x與y有n對(duì)觀察值(x1,y1),(x2,y2),…,(xn,

yn),把這n個(gè)點(diǎn)(xi,

yi)畫(huà)在平面直角坐標(biāo)系上,得到如圖8—1所示的散點(diǎn)圖.

y=a+bxy圖8—1觀測(cè)值(xi,yi)散點(diǎn)圖從散點(diǎn)圖可以看出,隨著自變量x的增加,因變量y也呈現(xiàn)上升的趨勢(shì),圖中的點(diǎn)大致分布在一條向右方傾斜的直線附近,因而可以用一條直線方程來(lái)近似的逼近即yi=b0+b1xi+ei

i=1,2,…,n

其中ei~N(0,s

2),ei

是相互獨(dú)立的隨機(jī)變量序列且它們的方差相同(方差齊性),稱為回歸直線(方程).對(duì)于一元線性回歸模型,我們要解決以下問(wèn)題:(1)參數(shù)估計(jì):給出參數(shù)b0,b1,s

2

的估計(jì)值.(2)顯著性檢驗(yàn):檢驗(yàn)線性函數(shù)yi=b0+b1xi

用來(lái)描述因變量y

與自變量x的關(guān)系是否合適,包括回歸模型的顯著性檢驗(yàn)和參數(shù)的顯著性檢驗(yàn).(3)模型檢查:檢查對(duì)模型所做的假設(shè)是否成立,包括ei

是相互獨(dú)立的隨機(jī)變量序列的檢查和方差齊性的檢查.(4)預(yù)測(cè)或控制.對(duì)b0,b1的估計(jì)實(shí)際上就是在平面直角坐標(biāo)系中估計(jì)一條直線二回歸模型建立的方法——最小二乘估計(jì)

使它盡可能地接近回歸直線直觀的說(shuō)來(lái)就是使理論值和觀測(cè)值的所有偏差和最小.為了避免正負(fù)偏差項(xiàng)互相抵消,因而要求所有偏差平方和最小,即求參數(shù)b0,b1,

使函數(shù)達(dá)到最小.根據(jù)二元函數(shù)的極值理論,分別求關(guān)于兩個(gè)變量解方程組得的一階偏導(dǎo)數(shù),并令它們等于零解聯(lián)立方程組即可.將以上兩式展開(kāi),得方程組:稱觀測(cè)值與理論值的差為殘差.以上用數(shù)學(xué)方法對(duì)參數(shù)進(jìn)行估計(jì)的方法,稱為最小二乘估計(jì)法.SAS程序直接調(diào)用reg過(guò)程.一般格式如下:

poc

regdata=數(shù)據(jù)集名稱;

model因變量集=自變量集;(如modely=x;)三一元線性回歸模型的檢驗(yàn)1.方差分析與F檢驗(yàn)1)統(tǒng)計(jì)假設(shè)原假設(shè)備擇假設(shè)2)平方和與自由度分解即總平方和分解為誤差平方和與回歸平方和,同時(shí)總自由度也分解為誤差自由度加上回歸自由度,即3)F—統(tǒng)計(jì)量若,則拒絕接受說(shuō)明用函數(shù)來(lái)描述因變量y與自變量x的關(guān)系是合適的,即回歸模型是顯著性的。4)方差分析表方差來(lái)源平方和自由度均方

F值回歸殘差總計(jì)SSRSSESST

1n-2n-1MSR=SSR/1MSE=SSE/n-2F=MSR/MSE2.可決定系數(shù)R2(判定系數(shù))作為一個(gè)相對(duì)指標(biāo),測(cè)度了擬合的回歸直線所導(dǎo)致離差平方和占樣本的總離差平方和的百分比,因此它也是對(duì)回歸方程擬合優(yōu)度的一種測(cè)度.R2越接近于1,則說(shuō)明回歸方程對(duì)樣本點(diǎn)的擬合得越好.3.t—檢驗(yàn)

t

—檢驗(yàn)是對(duì)回歸參數(shù)顯著性的檢驗(yàn),可以證明以下兩個(gè)結(jié)論:結(jié)論1:在零假設(shè)對(duì)于一元線性回歸來(lái)說(shuō)成立的條件下有:拒絕域?yàn)?結(jié)論2:在零假設(shè)成立的條件下有:拒絕域?yàn)?的F檢驗(yàn)值和t—檢驗(yàn)中的t值的概率值p相等.實(shí)際上,對(duì)于一元線性回歸模型來(lái)說(shuō),上述兩個(gè)檢驗(yàn)是等價(jià)的,即都有相同的拒絕域.1.殘差圖四一元線性回歸模型的殘差分析(回歸診斷)稱觀測(cè)值與理論值的差為殘差.而稱為標(biāo)準(zhǔn)化殘差.殘差圖以x為坐標(biāo)橫軸,殘差e為坐標(biāo)縱軸,由所有點(diǎn)(xi

,ei)構(gòu)成.殘差圖可用于檢驗(yàn)隨機(jī)變量序列的獨(dú)立性,正態(tài)性和方差整齊性.從理論上可以證明e1,e2,…en相互獨(dú)立且近似的服從N(0,1).故關(guān)于預(yù)測(cè)值殘差圖中的點(diǎn)應(yīng)隨機(jī)分布在-2到+2之間的帶子形里,這樣的殘差圖稱為正常的殘差圖.另一種殘差圖是用橫軸表示因變量的預(yù)測(cè)值而用縱軸表示殘差值ei,即點(diǎn)的坐標(biāo)為(yi,ei).1.正常的殘差圖2.直線回歸模型不合適3.方差齊性不成立4.誤差項(xiàng)不獨(dú)立圖8—2為幾種常見(jiàn)的殘差圖2.方差齊性的診斷及修正方法對(duì)于一元線性回歸來(lái)說(shuō),關(guān)于

x的殘差圖和關(guān)于預(yù)測(cè)值的殘差圖提供了同樣的信息.對(duì)于多元線性回歸分析,由于有一個(gè)以上的自變量,所以一般采用關(guān)于預(yù)測(cè)值的殘差圖.誤差方差非齊性時(shí),殘差圖不正常.可通過(guò)對(duì)因變量作適當(dāng)?shù)淖儞Q,令z=f(y)

使得關(guān)于因變量的回歸分析中誤差的方差接近于齊性.實(shí)用上常選用一些變換,變換后重新做回歸及殘差圖,如殘殘差圖有改善或已屬正常,則該變換是合適的.否則改變變換函數(shù)計(jì)算直到找到合適的變換為止,常用的方差穩(wěn)定性變換有:在許多回歸分析中,所利用的數(shù)據(jù)是按時(shí)間順序采集的,即時(shí)間序列數(shù)據(jù),用yt表示y在時(shí)刻t的值,而y的值又常常依賴于y在以前時(shí)刻的值.此時(shí),稱數(shù)據(jù)存在自相關(guān)(序列相關(guān)),從而違背了回歸模型的假設(shè),誤差項(xiàng)已不再是獨(dú)立的.檢驗(yàn)方法為Durbin—Watson統(tǒng)計(jì)量:3.Durbin—Watson檢驗(yàn)

Durbin—Watson統(tǒng)計(jì)量的取值介于0和4之間,一個(gè)粗略的判斷是:若D值在2附近(1.6<D<2.4),則沒(méi)有充分的證據(jù)證明存在序列相關(guān);若D<1.6,則存在正的自相關(guān);若D>2.4,則存在負(fù)的自相關(guān).具體可通過(guò)SAS程序來(lái)完成,只需在reg過(guò)程后增加選項(xiàng)DW即可,如:procregDW;

五、一元線性回歸模型的SAS實(shí)施

一元線性回歸模型的建立可通過(guò)國(guó)際通用軟件SAS實(shí)施.具體可直接調(diào)用reg過(guò)程,一般格式如下:

poc

regdata=數(shù)據(jù)集名稱;(data=數(shù)據(jù)集名稱可以省略,此時(shí)所用的數(shù)據(jù)集為最近的數(shù)據(jù)集)

model

因變量集=自變量集;(如modely=x;)六、應(yīng)用實(shí)例

例8.1海南省國(guó)營(yíng)大嶺農(nóng)場(chǎng)橡膠樹(shù)大型系比二組無(wú)性系,1960年刺檢干膠量(x:毫克)與1965年正式割膠產(chǎn)量(y:克)如下表8—2,求正式割膠量關(guān)于剌檢干膠量的回歸方程.表8—2正式割膠產(chǎn)量與刺檢干膠量編號(hào)1234567891011121314xy7764627271837994104966190811228.87.98.97.78.68.19.15.68.57.64.98.112.015.7編號(hào)151617181920212223242526xy6513011116018881928063105897311.911.16.515.317.75.910.68.36.08.510.13.51.建立回歸方程由所給的數(shù)據(jù)得于是得于是得回歸方程為2.回歸方程顯著性檢驗(yàn)總平方和回歸平方和剩余平方和方差分析結(jié)果列于表8—3.表8—3回歸方程的方差分析變異來(lái)源平方和(SS)自由度(df

)均方(MS)F值回

歸剩

124137.81138.90137.815.7923.81**總變異

25276.71SAS程序與輸出結(jié)果

datahan81;

inputxy@@;cards;

778.8647.9628.9727.7718.6838.1799.1975.61048.5967.6614.9908.18112.012215.7

6511.913011.11116.516015.318817.7815.99210.6808.3636.01058.58910.1733.5;procgplot;

ploty*x=’*’;procreg;

modely=x/p

clm

cli;plotresidual.*x=’*’;run;主要的輸出結(jié)果:(1)因變量y關(guān)于變量x的散點(diǎn)圖

由散點(diǎn)圖可以看出,圖中的點(diǎn)大致呈現(xiàn)直線上升的趨勢(shì),因而可以用線性模型來(lái)刻畫(huà)因變量y與自變量x的關(guān)系.(2)模型擬合與檢驗(yàn)

DependentVariable:yAnalysisofVarianceSumofMeanSourceDFSquaresSquareFValuePr>FModel1137.80902137.8090223.81<.0001Error24138.897525.78740Correctedtotal25276.70654

RootMSE2.40570R-Square0.4980DependentMean9.11154AdjR-Sq0.4771

Coeff

Var26.40280ParameterEstimatesParameterStandardVariableDFEstimateErrortValuePr>|t|Intercept12.007461.530371.310.2020x10.077090.015804.88<.0001輸出結(jié)果的給出了F=23.81,Pr<0.0001.表明回歸方程是顯著的.輸出結(jié)果給出了參數(shù)的估計(jì)值和顯著性檢驗(yàn).結(jié)果顯示回歸系數(shù)是顯著的,于是得因變量y關(guān)于自變量x的回歸方程為y=2.007+0.07761x必須注意,對(duì)于一元線性回歸問(wèn)題,回歸方程的顯著性與回歸系數(shù)的顯著性檢驗(yàn)是相同的.輸出結(jié)果的中部給出了決定系數(shù)R2=0.4980.

R2過(guò)小可能是由于樣本容量過(guò)小引起,也可能是還有其它重要的因素沒(méi)有被考慮到.

在許多實(shí)際問(wèn)題中,因變量與自變量的關(guān)系不一定都是線性的,它們之間可能存在某種復(fù)雜的非線性關(guān)系,表現(xiàn)為散點(diǎn)圖上的點(diǎn)圍繞某條曲線波動(dòng),常見(jiàn)的非線性函數(shù)有:第二節(jié)可線性化的一元非線性回歸問(wèn)題一.可線性化的非線性回歸問(wèn)題1.雙曲函數(shù)1/y=a+b/x

作變換:令1/y=z,1/x=t

則有z=a+bt,顯然z是t的線性函數(shù).2.對(duì)數(shù)曲線函數(shù)y=a+blnx

作變換:令t=lnx,則有y=a+bt.顯然y是t的線性函數(shù).

3.冪函數(shù)y=axb(a>0,x>0)

4.S形曲線函數(shù)

y=1/(a+be-x)5.負(fù)指數(shù)函數(shù)y=ae-b/x

先取對(duì)數(shù),得lny=lna+blnx,作變換,令lny=z,lnx=t,lna=k

則有

z=k+bt,顯然

z是t的線性函數(shù).作變換,令1/y=

z,t=1/ex則有z=a+bt,顯然z是t的線性函數(shù).先取對(duì)數(shù)得lny=lna-b/x令lny=z,lna=k,-1/x=t則有z=k+bt,顯然z是t的線性函數(shù).

對(duì)回歸方程選擇一種合適的函數(shù)形式,必須對(duì)散點(diǎn)圖進(jìn)行認(rèn)真的分析.有時(shí),對(duì)同一種散點(diǎn)圖所呈現(xiàn)的因變量與自變量的關(guān)系,可以選擇不同的函數(shù)形式來(lái)描述回歸方程,那么如何判斷并比較不同回歸方程的擬合優(yōu)度呢?通常使用的比較準(zhǔn)則.

有下面兩個(gè):二.曲線回歸的選擇準(zhǔn)則

1.相關(guān)指數(shù)R

作為一個(gè)相對(duì)指標(biāo),測(cè)度了擬合的回歸直線所導(dǎo)致離差平方和占樣本的總離差平方和的百分比,因此它也是對(duì)回歸方程擬合優(yōu)度的一種測(cè)度.R2越接近于1,則回歸方程對(duì)樣本點(diǎn)的擬合得越好.因此,對(duì)于用不同的曲線擬合的回歸方程,通常選擇R2較大的一個(gè)為好.

2.剩余標(biāo)準(zhǔn)差S

它反映了樣本偏離回歸曲線的平均大小,當(dāng)然S越小越好.事實(shí)上,上述兩個(gè)準(zhǔn)則是一致的.R越大,則S越小,反之也然.例1以下為一組觀測(cè)值

1)繪制y對(duì)x的散點(diǎn)圖

2)假定y與x的關(guān)系為(1)雙曲線1/y=a+b/x(2)對(duì)數(shù)曲線函數(shù)y=a+blnx(3)負(fù)指數(shù)函數(shù)y=ae-b/x(4)冪函數(shù)

試作變量變換化非線性回歸為線性回歸,并建立回歸方程.x2345781011y106.42108.20109.58109.50110.00109.93110.49110.59x1415161819y110.60110.90110.76110.00111.20datahan2;inputxy@@;z1=1/y;t1=1/x;t2=log(x);z2=log(y);t3=-1/x;t4=sqrt(x);cards;2106.423108.204109.585109.507110.008109.9310110.4911110.5914110.6015110.9016110.7618110.0019111.20;procgplotdata=han2;

ploty*x=’*’;procregdata=han2;modelz1=t1;procregdata=han2;modely=t2;procregdata=han2;modelz2=t3;procregdata=han2;modely=t4;run;因變量y關(guān)于自變量x的散點(diǎn)圖:主要的輸出結(jié)果:模型1雙曲線函數(shù)作變換

z1=1/yt1=1/xModel:MODEL1DependentVariable:Z1AnalysisofVarianceSumofMeanSourceDFSquaresSquareFValueProb>FModel11.3335153E-71.3335153E-7

158.655

0.0001Error119.2456216E-98.405111E-10CTotal121.4259715E-7RootMSE0.00003R-square0.9352

DepMean0.00910AdjR-sq0.9293C.V.0.31846ParameterEstimatesParameterStandardTforH0:VariableDFEstimateErrorParameter=0Prob>|T|INTERCEP10.0089790.00001275704.2560.0001T110.0007900.0000627212.5960.0001

模型2對(duì)數(shù)曲線函數(shù)說(shuō)明:已作變換

t2=lnx

Model:MODEL1DependentVariable:YAnalysisofVarianceSumofMeanSourceDFSquaresSquareFValueProb>FModel116.0386216.03862

44.470

0.0001Error113.967270.36066CTotal1220.00589RootMSE0.60055R-square0.8017

DepMean109.85923AdjR-sq0.7837C.V.0.54665ParameterEstimatesParameterStandardTforH0:VariableDFEstimateErrorParameter=0Prob>|T|INTERCEP1106.4970870.53097742200.5680.0001T211.5912380.238617076.6690.0001模型3負(fù)指數(shù)函數(shù)已作變換

z2=lnyt3=-1/xModel:MODEL1DependentVariable:Z2AnalysisofVarianceSumofMeanSourceDFSquaresSquareFValueProb>FModel10.001580.00158

158.189

0.0001Error110.0001097949.9812743E-6CTotal120.00169RootMSE0.00316R-square0.9350

DepMean4.69914AdjR-sq0.9291C.V.0.06723ParameterEstimatesParameterStandardTforH0:VariableDFEstimateErrorParameter=0Prob>|T|INTERCEP14.7126970.001389393391.9170.0001T310.0859620.0068347212.5770.0001

模型4冪函數(shù)Model:MODEL1DependentVariable:YAnalysisofVarianceSumofMeanSourceDFSquaresSquareFValueProb>FModel113.9088713.90887

25.094

0.0004Error116.097020.55427CTotal1220.00589RootMSE0.74450R-square0.6952

DepMean109.85923AdjR-sq0.6675C.V.0.67768ParameterEstimatesParameterStandardTforH0:VariableDFEstimateErrorParameter=0Prob>|T|INTERCEP1106.5373330.69454059153.3930.0001T411.0918570.217962785.0090.0004

從以上的輸出結(jié)果可得模型1和模型3的R2較大,分別為0.9352和0.9350,因此選擇模型1和模型3較為合適.模型1:z1=0.008979+0.00079t1

,即1/y=0.008979+0.00079/x模型3:z2=4.712697+0.085962t3,即

lny

=4.712697-1/x于是【返回】第三節(jié)多元線性回歸分析

1.回歸模型設(shè)影響因變量y的自變量有p個(gè),并分別記為x1,x2,…,xp

,所謂多元線性回歸模型是指這些自變量對(duì)因變量的影響是線性的,即其中

稱為p個(gè)自變量x1,x2,…,xp

,的線性回歸函數(shù).

記n組樣本分別是那么,由上式可得到

其中這樣一來(lái),多元線性回歸分析的主要問(wèn)題就是基于模型對(duì)未知參數(shù)b0,b1,…,bp

和s2進(jìn)行估計(jì)、檢驗(yàn)并利用得到的回歸模型進(jìn)行預(yù)測(cè).

一.多元線性回歸模型

上述回歸模型的矩陣表示Y=Xb

+e,其中Y=(y1,y2,…,yn)T,

是n階單位矩陣.

稱矩陣為資料矩陣或設(shè)計(jì)矩陣.

利用最小二乘法可估計(jì)回歸系數(shù),即求解一組參數(shù)使得如下定義的平方和Q達(dá)到最?。河啥嘣瘮?shù)的極值理論,分別求Q關(guān)于各個(gè)參數(shù)的偏導(dǎo)數(shù),并令它們等于零,于是得到如下的方程組,解方程組便得到所求的參數(shù).2.回歸模型的矩陣表示二.回歸系數(shù)的最小二乘估計(jì)如果可逆,則方程組的(參數(shù)的)解為三.回歸方程的顯著性檢驗(yàn)

1.統(tǒng)計(jì)假設(shè)由最小二乘準(zhǔn)則求回歸系數(shù)的計(jì)算過(guò)程中,并不一定知道因變量與自變量是否存在線性關(guān)系.如果不存在線性關(guān)系,那么得到的回歸方程是毫無(wú)意義的.在一元回歸分析中,若b1=0則平均地說(shuō)因變量y并沒(méi)有隨自變量x的變化而線性地變化.因此對(duì)回歸方程的顯著性檢驗(yàn)就是檢驗(yàn)以下的假設(shè)是否成立:2.平方和與自由度分解對(duì)統(tǒng)計(jì)假設(shè)所作的檢驗(yàn)方法仍采用方差分析法.從分析引起

yi(i=1,2,…,n)變化的總方差的原因入手.

自由度為dfT=dfE+dfR,其中dfT=n-1,dfR=p,dfE=(n-1)-p

3.F——統(tǒng)計(jì)量拒絕域?yàn)樽儺悂?lái)源平方和自由度均方F值回歸SSRpMSR=SSR/pF=MSR/MSE殘差SSEn-p-1MSE=SSE/n-p-1總變異SSTn-14.方差分析表1.統(tǒng)計(jì)假設(shè)對(duì)回歸方程的顯著性檢驗(yàn),若否定H0,僅表示不全為0但并不排除有某個(gè)為0,若,說(shuō)明自變量xi對(duì)因變量y的影響不明顯,應(yīng)從回歸模型中刪除.因此對(duì)回歸系數(shù)是否為0進(jìn)行逐個(gè)檢驗(yàn)是很必要的.四.回歸系數(shù)的顯著性檢驗(yàn)即檢驗(yàn)2.t——統(tǒng)計(jì)量拒絕域?yàn)榱?yīng)用實(shí)例例8.3

肖陳保等同志應(yīng)用三元線性回歸,由橡膠樹(shù)白粉病的始病期(x1)、嫩葉期(x2)、發(fā)病期雨天數(shù)(x3)預(yù)測(cè)最終病情指數(shù)y,18個(gè)觀測(cè)值如下表8—6.五.多元回歸分析的SAS書(shū)寫(xiě)格式:procreg;model

因變量串=自變量串/選項(xiàng)串;data數(shù)據(jù)集名稱;

inputx1x2—xpy@@;cards;

;

procreg;modely=x1x2—xp/選項(xiàng);run;例如表8—6橡膠樹(shù)白粉病最終病情指數(shù)級(jí)值表觀測(cè)值始病期(x1)嫩葉期(x2)發(fā)病期雨天數(shù)(x3)最終病情指數(shù)(y)121222222232233411115111163223733338111191111101111113333121211132232142111151322163233172332181233SAS編程如下:datahan83;

inputx1x2x3y@@;cards;

212222222233111111113223333311111111111133331211223221111322323323321233

;procreg;

modely=x1x2x3/pcli

clm;

plotresidual.*y='*';(畫(huà)寫(xiě)殘差分析圖)run;1.回歸方程顯著性檢驗(yàn)

DependentVariable:yAnalysisofVarianceSumofMeanSourceDFSquaresSquareFValuePr>FModel310.850633.6168824.18

<.0001Error142.093810.14956Correctedtotal1712.94444RootMSE0.38673R-Square0.8382DependentMean1.94444AdjR-Sq0.8036

Coeff

Var19.88884

由以上方差分析之FValue=24.18,Pr>F<0.001可知,三元回歸方程達(dá)到極顯著。2.回歸參數(shù)估計(jì)及檢驗(yàn)

ParameterEstimatesParameterStandardVariableDFEstimateErrortValuePr>|t|Intercept10.036600.262970.140.8913x110.293300.151321.940.0730x210.013400.178220.080.9411x310.680930.174943.890.0016

回歸方程為從輸出結(jié)果可見(jiàn),變量x1,x2對(duì)響應(yīng)變量

y的影響不顯著,而x3對(duì)y的影響是顯著的.殘差圖【返回】第四節(jié)

逐步回歸分析在多元線性回歸分析中,影響因變量的自變量有很多,例如甘蔗的糖份與降雨量、相對(duì)濕度以及最低溫度有關(guān);某作物的產(chǎn)量與單位面積穗數(shù)、每穗粒數(shù)、千粒重、播種期、密度、施肥量、溫度、雨量和光照等因素有關(guān).人們希望從諸多自變量中挑選出有顯著影響的自變量來(lái)建立回歸方程,這就涉及到自變量的選擇問(wèn)題.在回歸方程建立的過(guò)程中,若漏掉對(duì)因變量影響顯著的自變量,那么建立的回歸方程用于實(shí)際預(yù)測(cè)時(shí)會(huì)產(chǎn)生較大的偏差.同樣,若建立的回歸方程中包括了對(duì)因變量影響不顯著的自變量,那么這樣的回歸方程也會(huì)影響到預(yù)測(cè)的精度.由此可見(jiàn),選擇適當(dāng)?shù)淖宰兞坑糜诮⒆顑?yōu)的回歸方程是十分重要的.

一.自變量的選擇問(wèn)題在實(shí)際問(wèn)題中,影響因變量的因素(自變量)可能很多,人們希望從中挑選出影響顯著的自變量來(lái)建立回歸關(guān)系式,這就涉及到自變量的選擇問(wèn)題.

在回歸方程中若漏掉對(duì)因變量影響顯著的自變量,那么建立的回歸式用于預(yù)測(cè)時(shí)會(huì)產(chǎn)生大的偏差,但回歸式中若包括的變量太多,且其中有些對(duì)因變量的影響不大,顯然這樣的回歸式不僅使用不方便.而且反而影響預(yù)測(cè)的精度.因此適當(dāng)選擇變量用于建立一個(gè)“最優(yōu)”的回歸方程是一個(gè)十分重要的問(wèn)題.

什么是“最優(yōu)”回歸方程?直觀考慮應(yīng)該是方程中包括的所有變量對(duì)因變量的影響都是顯著的;而不包括在方程中的變量對(duì)因變量的影響是不顯著的(可忽略).也就是從自變量集中選出適當(dāng)?shù)淖蛹沟媒⒁蜃兞縴與子集的回歸方程就是“最優(yōu)”的回歸方程.這就是回歸變量的選擇問(wèn)題.

回歸變量的選擇問(wèn)題在實(shí)用上和理論上都是十分重要的.這個(gè)問(wèn)題最大的困難就是如何比較不同選擇(即不同子集)的優(yōu)劣,即最優(yōu)選擇的標(biāo)準(zhǔn).從不同的角度出發(fā),可以有不同的比較準(zhǔn)則,在不同的準(zhǔn)則下,“最優(yōu)”回歸方程也可能不同。

比較不同子集優(yōu)劣的標(biāo)準(zhǔn)常見(jiàn)的有以下幾種(記為觀測(cè)個(gè)數(shù),

為子集模型中自變量的個(gè)數(shù)):(1)均方誤差S2最小選擇子集,使均方差達(dá)最小,其中SSE(A)是y與回歸模型的誤差平方和,l是子集中自變量的個(gè)數(shù).(2)預(yù)測(cè)均方誤差最小選擇子集使得達(dá)最小.二、最優(yōu)選擇的標(biāo)準(zhǔn)(3)Cp統(tǒng)計(jì)量最小準(zhǔn)則選擇子集A,使得達(dá)最小,其中SSE是包括所有p個(gè)自變量的回歸模型中誤差平方和。(4)AIC或BIC準(zhǔn)則選擇子集A,使得AIC(A)=ln[SSE(A)]+2llnn/n

或BIC(A)=ln[SSE(A)]+l

lnn/n

達(dá)最小.(5)修正的R2準(zhǔn)則選擇子集A,使得修正,(當(dāng)模型含有截矩項(xiàng)時(shí)i=1,否則i=0)達(dá)最大.2.

選擇“最優(yōu)”子集回歸的方法SAS軟件的REG過(guò)程中,選擇變量子集的方法有8種,可分為三類:(1)選擇“最優(yōu)”子集的簡(jiǎn)便方法:包括逐步篩選(STEPWISE),

向前引入法(FORWARD)和向后剔除法(BACKWARD)(2)計(jì)算量最大的全子集法:通過(guò)計(jì)算所有可能回歸子集后,按最優(yōu)選擇的標(biāo)準(zhǔn)選擇最優(yōu)回歸方程.包括選擇法R2

(RSQUARE),選擇法Cp(CP)和修正選擇法R2

(ADJRSQ).(3)計(jì)算量適中的選擇法:沒(méi)有計(jì)算所有可能回歸子集,但比較的子集個(gè)數(shù)多于(1)中提到的逐步篩選等一些選擇法,如最小

R2增量法(MINR)和最大R2增量法(MAXR).

逐步回歸分析的SAS書(shū)寫(xiě)格式:procreg;model因變量串=自變量串/selection=最優(yōu)子集選項(xiàng)串;

如:procreg;

modely=x1-x8/selection=stepwise(forwardbackward);

又如:procreg;

modely=x1x2x3x4/selection=rsquare

best=2cpaic

rmse

adjrsq;例8.4

由于環(huán)境作用對(duì)光合速率的影響很大,要得到能反映環(huán)境對(duì)光合作用影響的數(shù)據(jù),必須在不同的天氣下測(cè)定光合作用各種指標(biāo).下表8—7中的數(shù)據(jù)使用Li—6400光合測(cè)量?jī)x測(cè)定,其中因變量y—光合速率;x1—?dú)饪讓?dǎo)度;x2—胞間二氧化碳濃度;x3—蒸騰速率;x4—葉片水汽壓虧損;x5—葉片的溫度;x6—相對(duì)濕度;試對(duì)數(shù)據(jù)作回歸分析.表8—7環(huán)境對(duì)光合作用影響數(shù)據(jù)表觀測(cè)號(hào)yx1x2x3x4x5x6123456789108.378.198.038.328.388.167.447.286.507.850.09960.09870.10300.10400.09900.10100.09790.09650.08930.09882042022081991922002082082052032.802.793.113.443.483.783.883.903.853.452.782.792.993.273.453.653.883.954.203.4434.8135.0635.8136.7637.4637.8738.3938.7239.6146.681063106911141162121912311288130012951193SAS程序及主要輸出結(jié)果datahan84;

inputyx1x2x3x4x5x6@@;cards;

8.370.09962042.802.7834.8110638.190.09872022.792.7935.0610698.030.10302083.112.9935.8111148.320.10401993.443.2736.7611628.380.09901923.483.4537.4612198.160.10102003.783.6537.8712317.440.09792083.883.8838.3912887.280.09652083.93.9538.7213006.500.08932053.854.2039.6112957.850.09882033.453.4446.681193

;procreg;

modely=x1x2x3x4x5x6/selection=stepwise;modely=x1x2x3x4x5x6/selection=rsquarebest=2cpaic

rmse

adjrsq;run;(1)逐步回歸分析結(jié)果Model:MODEL1DependentVariable:yStepwiseSelection:Step1Variablex1Entered:R-Square=0.7297andC(p)=73.2633AnalysisofVarianceSumofMeanSourceDFSquaresSquareFValuePr>FModel12.431022.4310221.590.0017Error80.900740.11259Correctedtotal93.33176ParameterStandardVariableEstimateErrorTypeIISSFValuePr>FIntercept-4.870182.739980.355723.160.1134x1128.7930927.717412.4310221.590.0017

StepwiseSelection:Step4Variablex3Entered:R-Square=0.9894andC(p)=3.1073AnalysisofVariance

SumofMeanSourceDFSquaresSquareFValuePr>FModel43.296450.82411116.69<.0001Error50.035310.00706Correctedtotal93.33176ParameterStandardVariableEstimateErrorTypeIISSFValuePr>FIntercept29.711255.111870.2385733.780.0021x1-119.9335151.211090.038735.480.0662x2-0.037690.005940.2839240.200.0014x35.206921.339040.1067915.120.0115x4-5.906741.390210.1274918.050.0081

SummaryofStepwiseSelectionVariableVariableNumberPartialModelStepEnteredRemovedVarsInR-SquareR-Square

C(p)FValuePr>F1x110.72970.729773.263321.590.00172x220.13050.860137.00356.530.03783x430.09720.957410.504213.680.01014x340.03210.98943.107315.120.0115(2)最優(yōu)子集準(zhǔn)則用全子集法計(jì)算所有可能回歸,從中選出最優(yōu)的回歸方程.在以上的SAS程序中,model語(yǔ)句斜杠后的選項(xiàng)指出用R2選擇法,要求對(duì)每種變量個(gè)數(shù)輸出二個(gè)最佳的回歸子集,并輸出均方根誤差、CP、AIC和修正R2統(tǒng)計(jì)量,產(chǎn)生的結(jié)果如下:由以下輸出結(jié)果可得,最佳的回歸自變量子集為x1,x2,x3,x4.即用這四個(gè)自變量建立的關(guān)于y的回歸方程為最優(yōu)的回歸方程.

R-SquareSelectionMethodNumberinAdjustedRootModelR-SquareR-Square

C(p)AICMSEVariablesinModel10.72970.695973.2633-20.07120.33555x110.64190.597198.9888-17.26050.38618x4---------------------------------------------------------------------------------20.87230.835833.4332-25.57340.24651x3x420.86010.820237.0035-24.66240.25800x1x2---------------------------------------------------------------------------------------30.97780.96674.5158-41.05670.11109x2x3x430.95740.936010.5042-34.53840.15389x1x2x4--------------------------------------------------------------------------------------------40.98940.98093.1073-46.46150.08404x1x2x3x440.98110.96595.5548-40.65240.11236x2x3x4x6----------------------------------------------------------------------------------------------50.98970.97695.0075-44.78800.09243x1x2x3x4x650.98940.97625.0987-44.48920.09383x1x2x3x4x5-------------------------------------------------------------------------------------------------60.98980.96937.0000-42.81290.10660x1x2x3x4x5x6【返回】

共線性問(wèn)題是指擬合多元線性回歸時(shí),自變量之間存在線性關(guān)系或近似線性關(guān)系.自變量之間的線性關(guān)系將會(huì)隱藏變量的顯著性,增加參數(shù)估計(jì)的方差,還會(huì)產(chǎn)生一個(gè)很不穩(wěn)定的模型.第五節(jié)處理多元線性回歸中自變量共線性的幾種方法一.共線性診斷

在試驗(yàn)設(shè)計(jì)過(guò)程中,我們一般都會(huì)選擇許多對(duì)試驗(yàn)指標(biāo)有影響的因子。在通常情況下,很難找到一組互不相關(guān)而又對(duì)試驗(yàn)指標(biāo)有影響的因子。當(dāng)它們之間的相關(guān)性較弱時(shí),可以認(rèn)為符合回歸模型中對(duì)設(shè)計(jì)矩陣的要求,當(dāng)這些因子之間有較強(qiáng)的相關(guān)性時(shí),我們認(rèn)為它違背了回歸模型的基本假設(shè)。

共線性診斷的方法是基于對(duì)自變量間相關(guān)性的觀測(cè)數(shù)據(jù)構(gòu)成的矩陣XTX進(jìn)行分析.當(dāng)因子之間存在較強(qiáng)的相關(guān)性,即存在多重共線性時(shí),設(shè)計(jì)矩陣的秩r(X)<p+1即|XTX|=0故矩陣XTX的逆陣(XTX)-1不存在,這樣最小二乘估計(jì)的參數(shù)方差膨脹因子(VarianceInflationFactor,簡(jiǎn)記VIF)是指回歸系數(shù)的估計(jì)量由于自變量共線性使得方差增加的一個(gè)相對(duì)度量.也不存在.診斷自變量存在共線性的統(tǒng)計(jì)量有方差膨脹因子和條件指數(shù).1.方差膨脹因子VIF對(duì)于第j個(gè)回歸系數(shù)(j=1,2,…,p),它的方差膨脹因子VIF定義為

其中Rj2是自變量xj對(duì)模型中其余p-1個(gè)自變量線性回歸模型的復(fù)相關(guān)系數(shù),即SAS輸出結(jié)果中的R平方項(xiàng).第j個(gè)回歸系數(shù)的方差與自變量不相關(guān)時(shí)j個(gè)回歸系數(shù)的方差之比VIFj的倒數(shù)稱為容限(Tolerance),記為

TOLj.

一般建議:若VIF>10,則表明模型中自變量有很強(qiáng)的共線性存在.2.條件指數(shù)若自變量的交叉乘積矩陣XTX的特征值為為條件指數(shù).則稱一般認(rèn)為,若條件指數(shù)值在10與30之間為弱相關(guān);在30與100之間為中等相關(guān);大于100表明強(qiáng)相關(guān).對(duì)于大的條件指數(shù),還需要找出哪些變量間存在強(qiáng)的線性關(guān)系.因?yàn)槊總€(gè)條件指數(shù)對(duì)應(yīng)一個(gè)特征值,而大的條件指數(shù)相應(yīng)的特征值較小,故構(gòu)成這一特征向量的變量間有近似的線性關(guān)系.在統(tǒng)計(jì)中用方差比例來(lái)說(shuō)明各個(gè)自變量在構(gòu)成這個(gè)特征向量中的貢獻(xiàn).二.篩選變量的方法在逐步回歸分析中介紹了自變量篩選的方法.這些方法除了把對(duì)因變量影響不顯著的自變量刪除之外,還可以從有共線性關(guān)系的變量組中篩選出對(duì)因變量影響顯著的少數(shù)幾個(gè)變量.一般建議:在大的條件指數(shù)中由方差比例超過(guò)0.5的自變量構(gòu)成的變量子集就認(rèn)為是相關(guān)變量集.例3

對(duì)下表中數(shù)據(jù),先用REG過(guò)程對(duì)自變量的共線性進(jìn)行診斷,

再建立回歸方程.序號(hào)x1

x2

x3

x4

y

172666078.52129155274.331156820104.34113184787.6575263395.961155922109.27371176102.78131224472.59254182293.1102147426115.911140233483.8121166912113.3131068812109.4datahan3;inputx1x2x3x4y@@;cards;72666078.5129155274.31156820104.3113184787.675263395.91155922109.2371176102.71312244

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論