多元線性回歸與相關(guān)_第1頁
多元線性回歸與相關(guān)_第2頁
多元線性回歸與相關(guān)_第3頁
多元線性回歸與相關(guān)_第4頁
多元線性回歸與相關(guān)_第5頁
已閱讀5頁,還剩62頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

多元線性回歸與相關(guān)浙江大學(xué)公共衛(wèi)生學(xué)院流行病與衛(wèi)生統(tǒng)計教研室沈毅2005.6多元線性回歸與相關(guān)直線回歸與相關(guān)是分析一個應(yīng)變量Y與一個自變量X之間的關(guān)系。但通常是一個應(yīng)變量受到許多因素的影響,例如一個人的收縮壓受到年齡、飲食、鍛煉及遺傳等許多因素的影響。因此,必須把直線回歸與相關(guān)的分析方法推廣為多個自變量的分析方法,從而起到更有效的預(yù)報、控制及識別影響因素的作用。第一節(jié)多元線性回歸模型一、多元線性回歸方程的建立多元線性回歸模型為:

式中βj是Xj(j=1,2,…,p)對Y的偏回歸系數(shù)(Partialregressioncoefficient),它表示在其它自變量固定不變的情況下,Xj每改變一個測量單位時所引起的應(yīng)變量Y的平均改變量,p為自變量的個數(shù),ε為殘差,獨立服從N(0,σ2)分布。擬尋求參數(shù)β0,β1,…βp的適宜估計值b0,b1,bp,使觀察值Yi和回歸預(yù)測值

之間殘差平方和最小,即

根據(jù)微積分知識,b0,b1,bp必須滿足聯(lián)立方程組:

該方程組也稱為正規(guī)方程組??蓪⒃撜?guī)方程化為其解即為β0,β1,…βp的最小二乘估計值。上述正規(guī)方程組可以用矩陣形式簡潔地表示,令:

矩陣X含n行(p+1)列,除第1列外其余恰好是關(guān)于X的原始數(shù)據(jù),每一行屬于一個個體,行向董Y的每一個元素屬于一個個體,列向量B即為欲求的參數(shù)估計值,式(15-2)左端的系數(shù)構(gòu)成的矩陣為:其中X’是X的轉(zhuǎn)置矩陣,為X的行列互換所得,右端的參數(shù)項可以寫成:

故正規(guī)方程組的矩陣形式為

其解可以表示為:

其中

表示系數(shù)矩陣

的逆矩陣??梢?,回歸參數(shù)的最小二乘估計實為系數(shù)矩陣之逆矩陣與常數(shù)項矩陣(列向量)之乘積。其計算較為復(fù)雜,可以用統(tǒng)計軟件求得。用最小二乘法解出偏回歸系數(shù)βj的估計值bj后,得到相應(yīng)的多元線性回歸方程為:

下面舉例說明建立多元線性回歸方程的過程。二、例子例15-1為研究男性高血壓患者血壓與年齡體重等變量的關(guān)系,隨機測量了32名40歲以上男性的血壓(mmHg)、年齡(歲)、身高、體重、以及吸煙史。其中體重指數(shù)Quteletindex=100(體重/身高2);吸煙:0為不吸,1為過去或現(xiàn)在吸煙。(見表15-1)由表15-2可知有關(guān)參數(shù)估計值為:b0=44.293,b1=1.778,b2=9.623。b1=1.778表示40歲以上男性吸煙狀態(tài)不變的條件下,年齡每增加五歲,收縮壓平均提高1.778mmHg;b2=9.623表示年齡不變的條件下,吸煙者與不吸煙者相比,收縮壓平均提高9.623mmHg。于是得到回歸方程:第二節(jié)回歸系數(shù)的假設(shè)檢驗選用多元線性回歸描述一組觀察資料時,不可避免地帶有一定的主觀性和抽樣誤差。因此,必須對所建立的回歸方程進行擬合適度檢驗,以分析應(yīng)變量Y與各自變量Xj之間是否存在線性關(guān)系。多元線性回歸方程擬合適度檢驗可分為兩種:一種是對整個方程的檢驗,另一種是對各偏回歸系數(shù)的假設(shè)檢驗。下面分別介紹。一、多元線性回歸方程的假設(shè)檢驗可用方差分析方法來檢驗應(yīng)變量Y與p個自變量之間是否存在線性回歸關(guān)系。檢驗假設(shè)為:

H0:βj均為0;H1:βj不全為0;j=1,2,…,p.α=0.05。

在多變量情形下,應(yīng)變量總離均差平方和SS總可以分解為回歸平方和SS回與殘差平方和SS=兩部分,它們的簡便計算公式以及相應(yīng)的自由度為:統(tǒng)計量F的計算公式為:式中MS回及MS殘分別稱為回歸均方與殘差均方。在無效假設(shè)H0:Bj均為零的條件下統(tǒng)計量F服從F(p,n-p-1)分布。如果F≥Fα(p,n-p-1),則在α水準(zhǔn)上拒絕H0,認為p個自變量X中至少有一個與應(yīng)變量Y之間存在線性回歸關(guān)系。否則不拒絕H0,即認為所有X與應(yīng)變量Y之間無線性回歸關(guān)系。

由表15-3得到對方程的檢驗結(jié)果為:F=52.40,P=0.0001,故在α=0.05水平上拒絕H0,可認為年齡和吸煙對血壓的影響總的來說具有統(tǒng)計學(xué)意義。在多元線性回歸模型中,線性回歸方程有統(tǒng)計學(xué)意義,并不說明所有βj均不等于零。為了檢驗每個自變量是否與Y都有線性回歸關(guān)系,需分別對每個自變量Xj或相應(yīng)的偏回歸系數(shù)bj進行假設(shè)檢驗,以免把無統(tǒng)計學(xué)意義的自變量引入回歸方程。所用檢驗方法有F檢驗法與t檢驗法,這兩者的檢驗結(jié)果是一致的。二、偏回歸系數(shù)的假設(shè)檢驗

1.F檢驗是在其它自變量存在于回歸方程中的條件下考察某一自變量Xj對應(yīng)變量Y的回歸效應(yīng)。檢驗假設(shè)為:H0:βj=0;H1:βj≠0;J=1,2,…,p。

α=0.05。

計算檢驗統(tǒng)計量的步驟為:第一步:將所有p個自變量X1,X2,…,Xp全部引入回歸方程中,得到回歸平方和SS回及殘差平方和SS殘。第二步:將擬檢驗的某個自變量Xj(j=l,2,…,p)從回歸方程中取出后,重新建立含p-1個自變量X1,…Xj-1,Xj+1,…Xp的回歸方程,并得到相應(yīng)的回歸平方和SS回(-j)。差值SS回(-j)-SS回。就是其它自變量存在于回歸方程中的條件下,Xj單獨引起的回歸平方和改變量,稱為Xj的偏回歸平方和。第三步:計算F統(tǒng)計量:在H0為真條件下,F(xiàn)j服從自由度為1及(n-p-1)的F分布。如果Fj≥Fα(1,n-p-1),則在α水平上拒絕H0,否則不拒絕H0。

2.t檢驗法上面介紹的F檢驗法須計算一個含p個自變量的回歸方程和p個含p-1個自變量的回歸方程,工作量很大。但計算機統(tǒng)計軟件中都有計算多元線性回歸的偏回歸系數(shù)標(biāo)準(zhǔn)誤Sbj(j=l,2,…,p)的程序,然后可用t檢驗法對各偏回歸系數(shù)進行假設(shè)檢驗。只需計算一個包含p個自變量的多元線性回歸方程,得到各偏回歸系數(shù)的標(biāo)準(zhǔn)誤,t檢驗的計算公式為

tj=bj/Sbj(j=1,2,…,p)v=n-p-1(15-7)

在無效假設(shè)H0:βj=0條件下,tj服從自由度v=n-p-1的t分布。對例15-1資料,由表15-3可知Y與X1和X2的回歸方程有統(tǒng)計學(xué)意義。同時從表15-2各變量的回歸系數(shù)的假設(shè)檢驗可知,X1的P=0.0001,X2的P=0.0005,每個變量的作用均有統(tǒng)計學(xué)意義。應(yīng)該指出,從回歸方程中剔除一個自變量,如Xj,這絕不是簡單地把bjXj項從方程中剔除就完事了,而是再建立一個含有p-1個自變量的新方程,新方程中Xk的偏回歸系數(shù)bk與原方程中Xk的bk是不同的,這是因為變量之間存在著相關(guān)性。當(dāng)從原方程中剔除一個變量時,其它變量,特別是那些與它相關(guān)密切的一些變量的偏回歸系數(shù)就會受到影響,有時影響是很大的,甚至?xí)鸱柕淖兓?。所以,在進行t檢驗或F檢驗時,必須特別慎重。一般對偏回歸系數(shù)進行一次檢驗后,只能剔除其中的一個變量,這個變量是所有無統(tǒng)計學(xué)意義的自變量中F值或t值為最小的。重新建立新方程后,再對新的偏回歸系數(shù)逐個進行檢驗,直到余下的偏回歸系數(shù)都具有統(tǒng)計學(xué)意義為止。在許多情況下需要比較各自變量對應(yīng)變量的相對貢獻大小。但由于各自變量的測量單位不同,單從各偏回歸系數(shù)的絕對值大小來評價是不妥的,必須對各偏回歸系數(shù)進行標(biāo)準(zhǔn)化處理,即消除測量單位的影響后,才能進行比較。這種消除測量單位影響后的偏回歸系數(shù)稱為標(biāo)準(zhǔn)化偏回歸系數(shù)

其計算公式為:

式中Sj及SY分別為自變量Xj及Y的標(biāo)準(zhǔn)差。bj為Xj的偏回歸系數(shù)。將各變量先經(jīng)標(biāo)準(zhǔn)化處理后再配合回歸模型,所得的偏回歸系數(shù)即為標(biāo)準(zhǔn)化偏回歸系數(shù)。由表15-2的結(jié)果計算得例15-1資料中各變量Xj的標(biāo)準(zhǔn)化偏回歸系數(shù)為:

。從兩個標(biāo)準(zhǔn)化偏回歸系數(shù)的比較可知,年齡對收縮壓的影響強度約為吸煙的2.5倍。為了評價回歸方程的擬會效果,應(yīng)分析回歸方程的殘差分布,利用殘差提供的信息可以檢驗資料的正態(tài)性與方差齊性,并可分析所建立的回歸方程是否合適以及對哪些觀察點的預(yù)報效果較差。殘差系指觀察值Yi與估計值

之差,即

。在正常情況下的殘差服從均值為0,方差為σ2的正態(tài)分布,它的標(biāo)準(zhǔn)誤為

。按式(15-9)去除εi的單位后的量稱為學(xué)生氏殘差(Studentizedresidual)記為

。其計算公式為:

第三節(jié)回歸方程的評價其中hi為第i個樣本點的杠桿值,是矩陣H=X(X’X)X’中的第i對角線元素。杠桿值反映各點對回歸方程的影響強度。殘差分析中最簡單的方法是用與作成殘差圖進行直觀分析(見圖15-1)。在圖15-1中a圖表示殘差

與估計值之間無特殊的分布趨勢,為理想的殘差分布。b圖表示

之間呈曲線趨勢,這提示所建立的回歸方程對資料的信息概括得尚不充分,需要增加新的非線性回歸項如某自變量的平方項等。c圖表示

之間呈扇形分布,反映方差有隨估計值的增大而增大的趨勢。此外,可以根據(jù)殘差的P-P圖檢查資料的正態(tài)性。如果檢查出資料缺乏正態(tài)或(和)方差齊性,可考慮擬合高階線性回歸、作變量變換、增加自變量的交互作用項、用加權(quán)最小二乘法回歸等來改進擬合回歸方程的效果。如果用一組資料建立起回歸方程后再計算每一觀察點的殘差,則該遠離點的殘差較其它點殘差的絕對值大。把預(yù)報效果較差的點稱為特異點(outlier)。特異點往往對回歸系數(shù)的估計有較大的影響,分析時應(yīng)加以注意。用全部觀察對象的資料建立起回歸方程后得到的殘差稱為普通殘差。普通殘差的敏感性較差,其原因是回歸方程中包含了殘差所對應(yīng)的觀察點的信息。另一種殘差稱為預(yù)報殘差(predictionresidual),它是用不含該觀察點信息的回歸方程來計算該觀察點的平均預(yù)報值所得到的殘差,因此能更好地反映出該觀察點遠離回歸線的情況。如果該例的普通殘差較小而預(yù)報殘差很大,則表示該觀察點是對回歸方程影響較大的特異點,應(yīng)對該資料的來源作深人的分析。

圖15-2為例15-1資料的二元線性方程的殘差分布圖,殘差的分布未見明顯的異常趨勢。

第四節(jié)選擇回歸變量的方法應(yīng)用回歸分析研究實際問題時,碰到的一個重要問題就是選擇回歸自變量,一般說來,根據(jù)問題本身的專業(yè)理論及有關(guān)經(jīng)驗,研究者羅列出可能與應(yīng)變量(Y)有關(guān)的自變量(X)往往很多,其中有一些自變量對應(yīng)變量可能根本沒有影響或影響很小。如果回歸模型把這樣一些自變量都包含進來,不但計算量大,而且估計和預(yù)測的精度也會下降。有時,某些指標(biāo)的觀測數(shù)據(jù)獲得代價較大,如果把這些與Y關(guān)系很小或根本就沒有關(guān)系的指標(biāo)選進模型,會使模型應(yīng)用的費用不必要地升高。本節(jié)對自變量的選擇提出一些準(zhǔn)則(criterion),以幫助讀者在使用統(tǒng)計軟件包時,靈活、熟練地應(yīng)用這些準(zhǔn)則,選取所需要的研究變量,建立較優(yōu)回歸模型。一、選擇變量的統(tǒng)計學(xué)標(biāo)準(zhǔn)

1.調(diào)整復(fù)相關(guān)系數(shù)設(shè)

為調(diào)整后的復(fù)相關(guān)系數(shù)(adjustedR2),則

的計算公式為

R2為決定系數(shù),n為樣本容量,p為自變量的個數(shù)。由上式可以看出

,而

的值隨著自變量個數(shù)的增加并不一定增大。例15-1的回歸方程為:

。它的調(diào)整后的復(fù)相關(guān)系數(shù)為

。再建立Y與X1、X2、X3作三元回歸方程,經(jīng)過計算得

,由此可見增加一個變量X3對Y的影響并不顯著,可以考慮剔除。在實際問題中通??梢赃x擇較大的

來確定該變量是否選入或不選入回歸方程。

2.Cp準(zhǔn)則近年來愈來愈得到廣泛重視的一種變量選擇是基于C.L.Mallows的Cp統(tǒng)計量(Cp-statistics),它是從預(yù)測觀點出發(fā),基于殘差平方和的一個準(zhǔn)則,Cp統(tǒng)計量定義如下:

式中MS殘,p為p個自變量殘差平方和,MS殘,全部為從全部自變量作回歸的殘差均方,p為包括常數(shù)項在內(nèi)的自變量個數(shù),第二項為增加解釋變量的折扣,在實際問題的應(yīng)用研究中,可以選擇Cp值最小的模型為最合適的回歸模型。

3.AIC準(zhǔn)則眾所周知,極大似然原理是統(tǒng)計學(xué)中估計參數(shù)的一個重要方法,Aakaike把這一方法加以修正,提出了一種較為一般的模型選擇準(zhǔn)則,文獻中稱該準(zhǔn)則為Aakaike信息量準(zhǔn)則(Aakaikeinformationcriterion,簡記為AIC),AIC準(zhǔn)則應(yīng)用比較廣泛。例如,它可以用于時間序列分析中自回歸階數(shù)的確定等,本節(jié)討論如何把它應(yīng)用于回歸自變量的選擇。AIC的定義為:當(dāng)模型是用最小二乘法估計時:

AIC=nln(Q)+2p(15-12)

式中p為模型變量中的參數(shù)個數(shù),Q是模型的殘差平方和。式(15-12)中等式右邊第一項為衡量模型擬合優(yōu)度的一個量,第二項為增加參數(shù)個數(shù)的折扣。在實際應(yīng)用問題中,可以選擇最小的AIC值來確定變量的選擇,所以AIC準(zhǔn)則也是判斷回歸模型擬合優(yōu)劣的一種方法。(表15-5)二、變量的篩選方法在實際工作中涉及的因素很多,更需要進行篩選。篩選的方法有

1.向前篩選法(forwardselection)事先給定一個入選標(biāo)準(zhǔn)即Ⅰ類錯誤的概率α1,然后對自變量進行篩選,把偏回歸平方和最大、其偏F檢驗的概率水準(zhǔn)小于α1者逐個引入回歸方程,至無顯著貢獻的自變量可以選入時為止。因素一旦入選便始終保留在方程中而不被剔出。

2.向后剔除法(backwardelimination)也是事先給定剔除標(biāo)準(zhǔn)α2即變量保留方程中的概率水準(zhǔn)。首先建立一個包括全部自變量的全回歸方程,然后逐個審查,把偏回歸貢獻最小而無統(tǒng)計學(xué)意義(即Ⅰ類錯誤的概率>α2)的自變量從方程中逐個剔除,至方程內(nèi)的所有自變量都有顯著貢獻為止。

3.逐步法(stepwise)給出選入方程的檢驗水準(zhǔn)α1和保留在方程中的檢驗水準(zhǔn)α2,每次選入一個在方程外而最具統(tǒng)計學(xué)意義的自變量后,對方程中的自變量作剔除檢驗,把偏F值最小且其P值大于α2。水平的自變量從方程中剔除。這個過程是一步一步進行的,直到?jīng)]有具統(tǒng)計學(xué)意義的自變量可以引入,也沒有無統(tǒng)計學(xué)意義的自變量保留在方程中為止。從理論上講,以向后剔除法效果最好,不會選錯因子,但有時難于實現(xiàn),故實際工作中多采用逐步法。多元線性回歸分析多用于因素篩選,因此不必對α1及α2規(guī)定得很嚴(yán)格,可以選擇幾個水平如0.05、0.10甚至0.15,以分析在不同檢驗水準(zhǔn)下的自變量與應(yīng)變量之間的依存關(guān)系。

第五節(jié)回歸診斷

(Regressiondiagnostics)在醫(yī)學(xué)研究中,通常遇到諸自變量間存在著線性關(guān)系或者接近線性關(guān)系,如果自變量之間共線性程度很高(相關(guān)系數(shù)接近于1),將使最小二乘法原理失效,使得回歸方程中參數(shù)變?yōu)椴淮_定,而無法取得參數(shù)的估計值,因此當(dāng)一個或幾個回歸變量可以由另外的回歸變量線性表示時,稱為回歸變量與另外的回歸變量間存在有共線性(collinearity)。由于在實際研究中往往對自變量之間的關(guān)系缺乏深人的分析和認識,很可能把一些有共線性的自變量引人回歸方程。因此有時在有些回歸分析中用最小二乘法計算出來的回歸系數(shù)符號與由專業(yè)知識預(yù)測的完全相反,有些變量從專業(yè)知識的角度看似乎是重要的,但是在回歸方程中卻認為是不重要的變量,一個重要的原因就是自變量之間的共線性。一、共線性的識別關(guān)于共線性的判定以及程度的度量問題,是近年來引人注目的研究課題。已經(jīng)提出了一些行之有效的方法,在SAS等軟件包中專門配有collinearity診斷命令,常用的一些判定方法有:

1.條件數(shù)方陣X’X的條件數(shù)(conditionnumber)定義為

其中λ1,λp分別為最大和最小特征根。直觀上,條件數(shù)度量了X’X的特征根散布程度,可以用來判斷共線性是否存在以及共線性的嚴(yán)重程度,根據(jù)應(yīng)用經(jīng)驗,若0<k<10,則認為沒有共線性;若10<k<30,則認為存在中等程度或較強的共線性;若k>30,則認為存在嚴(yán)重共線性。

2.方差擴大因子共線性嚴(yán)重程度的另一種度量是方差擴大因子(varianceinflationfactor,VIF),

Cij=(1-Rj)-1,j=1,2,…,p(15-14)

Tol=(1-Rj)稱為容許限因子(閱值tolerance)

Rj度量了自變量Xj與其余p-1個自變量的線性相依程度。這種相依程度愈高(1-Rj)就愈接近零,Cij也就愈接近于1(注意Cij≥1)即自變量之間共線性愈嚴(yán)重。可見Cij的大小也可以反映出自變量之間是否存在共線性。應(yīng)用經(jīng)驗表明,當(dāng)Cij大于5或10時,就存在著嚴(yán)重的共線性。解決共線性的主要方法有:用主成分回歸替代最小二乘估計。篩選自變量及嶺回歸等。

例15-1資料的分析中,如首先建立3個自變量的三元線性方程,并對該方程進行共線性診斷,表15-4是SAS的輸出結(jié)果。

條件數(shù)為3.209<10,可以認為該三元線性回歸方程不存在共線性。二、例子第六節(jié)多元線性相關(guān)當(dāng)應(yīng)變量Y及p個自變量X1,X2,…Xp都服從正態(tài)分布的情況下,可以對p個自變量與應(yīng)變量之間進行相關(guān)分析,所用的指標(biāo)為復(fù)相關(guān)系數(shù)(multiplecorrelationcoefficient)與偏相關(guān)系數(shù)(partialcorrelationcoefficient)。下面分別加以介紹。一、復(fù)相關(guān)系數(shù)又稱多元相關(guān)系數(shù),用R表示。它表示p個自變量共同對應(yīng)變量的相關(guān)密切程度。其計算公式為:

R的分布范圍為0~1.0之間??傮w復(fù)相關(guān)系數(shù)月的假設(shè)檢驗為無效假設(shè)H0:ρ=0;備擇假設(shè)計:H1:ρ>0。α=0.05。所用統(tǒng)計量為:

如果F≥Fα(p,n-p-1),則在α水平上拒絕H0,而認為總體復(fù)相關(guān)系數(shù)不為0,或偏回歸系數(shù)不全為0。否則不拒絕H0,認為總體復(fù)相關(guān)系數(shù)ρ=0。對于例15-1資料,應(yīng)變量Y的總離均差平方和SS總=6341.875,建立二元線性回歸方程后得到回歸平方和SS回=4967.219,用式(15-15)求得復(fù)相關(guān)系數(shù)為:

用式(15-16)計算F統(tǒng)計量為:

這與用式(15-5)計算的結(jié)果完全一致。查附表5,F(xiàn)界值表得F0.01(2,29)=5.42,故在α=0.05水平上拒絕無效假設(shè)H0,表明總體復(fù)相關(guān)系數(shù)ρ≠0??梢哉J為年齡和吸煙與高血壓水平有較強的相關(guān)關(guān)系。二、偏相關(guān)系數(shù)與簡單相關(guān)系數(shù)不同,偏相關(guān)系數(shù)是在其它自變量固定的條件下,某自變量與應(yīng)變量之間的相關(guān)系數(shù),從而排除了其它自變量的干擾作用。但其計算比較復(fù)雜。設(shè)有p個自變量與1個應(yīng)變量,先計算出各變量兩兩之間的簡單相關(guān)系數(shù)rjk(j,k=1,2,…,p,Y)并排列成矩陣形式,然后對這一矩陣求逆,記這矩陣中的元素為rjk,則偏相關(guān)系數(shù)rjY·的計算公式可寫為:

式中rjY·表示固定其它自變量條件下某自變量Xj與應(yīng)變量Y之間的偏相關(guān)系數(shù)。其假設(shè)檢驗為

所用檢驗統(tǒng)計量為t統(tǒng)計量,tjy.的計算公式為:

tjy.服從自由度v=n-p-l的t分布。由SAS結(jié)果可知在控制吸煙狀態(tài)的條件下,血壓與年齡的偏相關(guān)系數(shù)為0.877,P=0.000,表明這兩者也有一定的正相關(guān)關(guān)系。第七節(jié)應(yīng)用線性回歸分析時需注意的問題

1.利用實際資料所建立的經(jīng)驗回歸方程對應(yīng)變量Y作預(yù)報時,只能在X的現(xiàn)有取值范圍內(nèi)進行。這是因為對于所建立的回歸方程,只概括了在自變量X的觀察值范圍內(nèi)應(yīng)變量的取值情況,不知道當(dāng)X在觀察范圍外時Y的變化規(guī)律。例如某些疾病的發(fā)病率有隨年齡增長而增加的趨勢,當(dāng)超過了發(fā)病年齡高峰之后,其發(fā)病率反而隨年齡增長而下降,故不能用某一年齡段的發(fā)病率資料建立的回歸方程來推斷終生年齡跨度內(nèi)的發(fā)病率。

2.對線性回歸,統(tǒng)計學(xué)假定應(yīng)變量Y的誤差e是獨立服從N(0,σ2)。等于說Y獨立服從正態(tài)分布,而且方差一致。當(dāng)實際資料明顯不滿足這一假定時,需要對Y作變量變換,使變換后的應(yīng)變量能近似地滿足這一假定。詳細情況請參閱本書的有關(guān)數(shù)據(jù)轉(zhuǎn)換的內(nèi)容。

3.在自變量為連續(xù)變量的情況下,當(dāng)X與Y不呈線性關(guān)系時,需對X作某種數(shù)據(jù)變換以期改善線性關(guān)系。某種數(shù)據(jù)變換是否為優(yōu),可用確定系數(shù)R2作為判斷的尺度。一個好的數(shù)據(jù)變換可使R2明顯增大。

4.注意資料的特異點。如果實際資料比較規(guī)則,回歸方程也選擇得當(dāng),則標(biāo)準(zhǔn)化殘差εi*也近似服從N(0,1)分布。按標(biāo)準(zhǔn)正態(tài)分布的95%范圍估計,每100個觀察點中只有大約5個點的|εi*|≥1.96。如果有過多的點的|εi*|≥1.96,或有個別點的|ui|大大超過1.96時,除了應(yīng)考慮所選用的回歸模型是否恰當(dāng)外,還應(yīng)考慮資料的可靠性。這些大于等于|1.96|的ui可能是對回歸方程有較大影響的點。如果這些點的數(shù)據(jù)從專業(yè)上考慮不合理時,可考慮刪除這些特異點后重新建立回歸方程,以便得到較穩(wěn)定的回歸系數(shù)估計值。

5.盡管用數(shù)學(xué)方法對模型的準(zhǔn)確選擇可以有一些幫助,但在處理一個具體問題時,模型的準(zhǔn)確選擇在根本上要依賴于所研究問題本身的專業(yè)知識和實踐經(jīng)驗,這一點很重要,當(dāng)應(yīng)用某種準(zhǔn)則和方法選出的一個“最優(yōu)”回歸模型明顯與實際問題本身的專業(yè)理論不一致時,首先需要重新考慮統(tǒng)平崧,仔細從數(shù)據(jù)中尋找是否含有特異點、共線性、計算錯誤等。把變量選擇方法看成僵死的“教條”機械地搬用是不可取的,只有把它作為一種輔助工具,與實際問題的專業(yè)知識和實踐經(jīng)驗相結(jié)合,才能取得好的研究結(jié)果。next表15-132例40歲以上男性的Quetelet指數(shù)、年齡、吸煙與收縮壓實測值編號(ID)收縮壓(Y)年齡(X1)吸煙(X2)體重指數(shù)(X3)11354502.87621224103.25131304903.10041585203.76851465412.97961294712.79071626013.66881575413.61291444412.368101806414.637111665913.877點擊此處查看續(xù)表一續(xù)表一編號(ID)收縮壓(Y)年齡(X1)吸煙(X2)體重指數(shù)(X3)121385114.032131526404.116141385603.673151405413.562161345012.998171454913.360181424613.024191355703.171201425603.401211505613.628221445803.751點擊此處返回上一頁點擊此處查看續(xù)表二續(xù)表二編號(ID)收縮壓(Y)年齡(X1)吸煙(X2)體重指數(shù)(X3)231375303.296241325003.210251495413.301261324813.017271204302.789281264312.956291616303.80301706314.132311526203.962321646504.010點擊此處返回上一頁表15-2用SAS得到的Y與X1和X2的回歸方程的回歸系數(shù)與標(biāo)準(zhǔn)誤自變量回歸系數(shù)標(biāo)準(zhǔn)誤tP標(biāo)準(zhǔn)化回歸系數(shù)常數(shù)項44.29319.96334.4460.00010.0000年齡X11.77840.18079.8440.00010.8567吸煙X29.62272.45523.9190.00050.3411體重指數(shù)X35.69854.28681.3320.19450.19894表15-3用SAS得到的Y與X1和X2的回歸方程的假設(shè)檢驗誤差來源SSvMSFP回歸4967.21922483.61052.3950.0001殘差1374.6562947.402總6341.87531表15-4用SAS得到的Y與X1和X2的回歸方程的共線性診斷特征根條件數(shù)方差比例X1X2X311.840681.000000.08650.01280.086220.980531.370120.00230.97930.006230.178793.208590.91120.00790.9076表15-5選擇變量的統(tǒng)計學(xué)標(biāo)準(zhǔn)自變量個數(shù)R2CpAICX10.66840.65742.0000137.9293X20.05890.02752.0000171.3113X30.55190.53702.0000147.5650X1,X20.78320.76833.0000126.3271X1,X30.68410.66233.0000138.3783X2,X30.64120.61653.0000142.4523X1,X2,X30.79610.77434.000

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論