版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
多元共線性問(wèn)題的
產(chǎn)生、診斷與處理
多元共線性問(wèn)題的
產(chǎn)生、診斷與處理1主要內(nèi)容多元共線性的產(chǎn)生多元共線性的影響與表現(xiàn)多元共線性的診斷多元共線性的處理Logistic回歸與Cox回歸模型中的多元共線性問(wèn)題主要內(nèi)容多元共線性的產(chǎn)生2多元共線性“多元共線”一詞最早由R.佛里希于1934年提出,其最初的含義是指回歸模型中的某些自變量是線性相關(guān)的,即對(duì)于出現(xiàn)在模型中的自變量有關(guān)系
成立.其中常數(shù)km(m=1,2,…,n)不全為0.稱為完全多元共線;多元共線性“多元共線”一詞最早由R.佛里希于1934年提出,3現(xiàn)在所說(shuō)的“多元共線”有更廣泛的含義,除包括完全共線性的情況,也包括變量間有某種關(guān)系但又不是十分完全的線性關(guān)系.如下式所示的情況其中為隨機(jī)誤差項(xiàng).此時(shí)可稱為近似多元共線?,F(xiàn)在所說(shuō)的“多元共線”有更廣泛的含義,除包括完全共線性的情況4一、多元共線性的產(chǎn)生對(duì)于多元共線性問(wèn)題產(chǎn)生的根源,可以從兩個(gè)方面考慮:1、由變量性質(zhì)引起2、由數(shù)據(jù)問(wèn)題引起情況一:樣本含量過(guò)小情況二:出現(xiàn)強(qiáng)影響觀測(cè)值情況三:時(shí)序變量
一、多元共線性的產(chǎn)生對(duì)于多元共線性問(wèn)題產(chǎn)生的根源,可以從兩個(gè)51、由變量性質(zhì)引起在進(jìn)行多元統(tǒng)計(jì)分析時(shí),作為自變量的某些變量高度相關(guān),比如身高、體重和胸圍,變量之間的相關(guān)性是由變量自身的性質(zhì)決定的,此時(shí)不論數(shù)據(jù)以什么形式取得,樣本含量是大是小,都會(huì)出現(xiàn)自變量的共線性問(wèn)題。因此,變量間自身的性質(zhì)是導(dǎo)致多元共線性的重要原因。1、由變量性質(zhì)引起在進(jìn)行多元統(tǒng)計(jì)分析時(shí),作為自變量的某些變量6情況一:樣本含量過(guò)小
假設(shè)只有兩個(gè)自變量X1與X2,當(dāng)n=2時(shí),兩點(diǎn)總能連成一條直線,即使性質(zhì)上原本并不存在線性關(guān)系的變量X1與X2,由于樣本含量問(wèn)題產(chǎn)生了共線性。樣本含量較小時(shí),自變量容易呈現(xiàn)線性關(guān)系。
情況一:樣本含量過(guò)小7
如果研究的自變量個(gè)數(shù)大于2,設(shè)為X1,X2,...,XP,雖然各自變量之間沒(méi)有線性關(guān)系,但如果樣本含量n小于模型中自變量的個(gè)數(shù),就可能導(dǎo)致多元共線性問(wèn)題。
8情況二:出現(xiàn)強(qiáng)影響觀測(cè)值進(jìn)入20世紀(jì)80年代后期,人們開(kāi)始關(guān)注單個(gè)或幾個(gè)樣本點(diǎn)對(duì)多重共線性的影響。研究表明,存在兩類這樣的數(shù)據(jù)點(diǎn)或點(diǎn)群:(1)導(dǎo)致或加劇多重共線性(2)掩蓋存在著的多重共線性。情況二:出現(xiàn)強(qiáng)影響觀測(cè)值9(a)中因異常觀測(cè)值的出現(xiàn)而掩蓋了共線性,(b)中因異常觀測(cè)值的出現(xiàn)而產(chǎn)生了共線性。這樣的異常觀測(cè)值稱為多元共線性強(qiáng)影響觀測(cè)值。顯然這種觀測(cè)值會(huì)對(duì)設(shè)計(jì)矩陣的性態(tài)產(chǎn)生很大影響,從而影響參數(shù)估計(jì)。(a)中因異常觀測(cè)值的出現(xiàn)而掩蓋了共線性,(b)中因異常10情況三:時(shí)序變量若建模所用的自變量是時(shí)序變量,并且是高階單整時(shí)序變量,這種時(shí)序變量之間高度相關(guān),必然導(dǎo)致多重共線性。情況三:時(shí)序變量11二、多元共線性的影響以多元線性回歸分析為例,討論多元共線性問(wèn)題對(duì)參數(shù)估計(jì)的影響。二、多元共線性的影響以多元線性回歸分析為例,討論多元共線性問(wèn)12采用最小二乘法(theLeastSquaresMethod)對(duì)多元線性回歸模型的偏回歸系數(shù)進(jìn)行估計(jì)。經(jīng)整理得一個(gè)關(guān)于β0,β1、…、βm的線性方程組,稱為正規(guī)方程組。若記方程組的系數(shù)矩陣為A,則A恰為。β的最小二乘估計(jì)可表示為:采用最小二乘法(theLeastSquaresMeth13如果自變量存在完全多元共線性,設(shè)計(jì)矩陣不是列滿秩的,,,即的逆陣不存在,該矩陣為奇異矩陣。因此無(wú)法利用最小二乘法估計(jì)偏回歸系數(shù)。如果自變量之間存在近似共線性,,接近奇異,此時(shí)如果仍然采用最小二乘法,會(huì)使偏回歸系數(shù)的估計(jì)值不穩(wěn)定、不合理,嚴(yán)重影響回歸模型擬合的效果。
如果自變量存在完全多元共線性,設(shè)計(jì)矩陣不是列滿秩的,14多元共線性的表現(xiàn)上述效應(yīng)在實(shí)際應(yīng)用中主要表現(xiàn)為:(1)模型擬合效果很好,但偏回歸系數(shù)幾乎都無(wú)統(tǒng)計(jì)學(xué)意義;(2)偏回歸系數(shù)估計(jì)值的方差很大;(3)偏回歸系數(shù)估計(jì)值不穩(wěn)定,隨著樣本含量的增減各偏回歸系數(shù)發(fā)生較大變化或當(dāng)一個(gè)自變量被引入或剔除時(shí)其余變量偏回歸系數(shù)有很大變化;多元共線性的表現(xiàn)上述效應(yīng)在實(shí)際應(yīng)用中主要表現(xiàn)為:15(4)偏回歸系數(shù)估計(jì)值的大小與符號(hào)可能與事先期望的不一致或與經(jīng)驗(yàn)相悖,結(jié)果難以解釋。
出現(xiàn)以上表現(xiàn),提示存在多元共線性問(wèn)題,應(yīng)進(jìn)行多元共線性診斷。[工程科技]多重共線性課件16三、多元共線性的診斷常用的共線性診斷指標(biāo)有以下幾個(gè):(1)方差膨脹因子(varianceinflationfactors,)
其中為與其余(m-1)個(gè)自變量線性回歸的決定系數(shù)。值越大,多元共線程度越嚴(yán)重。三、多元共線性的診斷常用的共線性診斷指標(biāo)有以下幾個(gè):17(2)特征根系統(tǒng)(systemofeigenvalues)主要包括條件指數(shù)和方差比。條件指數(shù)是最大特征根與每個(gè)特征根之比的平方根。當(dāng)且對(duì)應(yīng)的方差比大于0.5時(shí),可認(rèn)為多元共線性嚴(yán)重存在。(2)特征根系統(tǒng)(systemofeigenvalues18此外,還有幾種方法可以進(jìn)行共線性診斷:1、自變量的相關(guān)系數(shù)診斷法2、多元決定系數(shù)值診斷法3、行列式判別法4、回歸系數(shù)方差分解法(RCVD法)此外,還有幾種方法可以進(jìn)行共線性診斷:191、自變量的相關(guān)系數(shù)診斷法自變量的兩兩相關(guān)分析,如果自變量間的二元相關(guān)系數(shù)值很大(如大于0.9),則可認(rèn)為存在多元共線性。但無(wú)確定的標(biāo)準(zhǔn)判斷相關(guān)系數(shù)的大小與共線性的關(guān)系。有時(shí),相關(guān)系數(shù)值不大,也不能排除多重共線性的可能。1、自變量的相關(guān)系數(shù)診斷法自變量的兩兩相關(guān)分析,如果自變量間202、多元決定系數(shù)值診斷法假定多元回歸模型p個(gè)自變量,其多元決定系數(shù)為。分別構(gòu)成不含其中某個(gè)自變量(Xi,i=1,2,…,p)的p個(gè)回歸模型,并應(yīng)用最小二乘法準(zhǔn)則分別擬合回歸方程,求出它們各自的決定系數(shù)(i=1,2,…,p)。
2、多元決定系數(shù)值診斷法假定多元回歸模型p個(gè)自變量,其多元決21如果其中最大的一個(gè)與很接近,假設(shè)不含的回歸模型,其決定系數(shù)與很接近,說(shuō)明將從模型中去掉,對(duì)回歸模型的決定系數(shù)影響不大。因此,可認(rèn)為該變量對(duì)Y總變異的解釋能力可由其他自變量代替。它很有可能是其他自變量的線性組合。該自變量進(jìn)入模型后就有可能引起多重共線性問(wèn)題。該方法也存在臨界值和主觀判斷問(wèn)題。
如果其中最大的一個(gè)與很接近,假設(shè)不含的回歸223、行列式判別法令,為的特征根,,于是令D=||=det(),為H的行列式。當(dāng)為奇異矩陣時(shí),其最小特征根很小,接近于0。而D=det()=∏λj,這樣D就接近于0。3、行列式判別法23判斷標(biāo)準(zhǔn):當(dāng)0<D≤0.01時(shí),認(rèn)為有嚴(yán)重共線性;當(dāng)0.01<D≤0.05時(shí),認(rèn)為有中等或較強(qiáng)共線性;當(dāng)0.05<D≤0.1時(shí),認(rèn)為有較弱的共線性;當(dāng)D>0.1時(shí),認(rèn)為沒(méi)有共線性。判斷標(biāo)準(zhǔn):24小結(jié)模擬實(shí)驗(yàn)和實(shí)際數(shù)據(jù)都表明,這些方法和標(biāo)準(zhǔn)對(duì)診斷多元共線性有一定的效果。當(dāng)?shù)奶卣鞲急容^小時(shí),條件數(shù)法很難診斷多元共線性,這時(shí)可考慮用行列式法進(jìn)行診斷;當(dāng)特征根相差懸殊時(shí),條件指數(shù)法容易發(fā)現(xiàn)嚴(yán)重復(fù)共線性,方差膨脹因子法容易發(fā)現(xiàn)一個(gè)自變量和其他自變量之間的線性關(guān)系。小結(jié)模擬實(shí)驗(yàn)和實(shí)際數(shù)據(jù)都表明,這些方法和標(biāo)準(zhǔn)對(duì)診斷多元共線性25強(qiáng)影響點(diǎn)的診斷樣本數(shù)據(jù)的質(zhì)量也是影響多元共線性存在與否的重要外因。目前診斷多重共線性影響點(diǎn)的基本方法有(1)學(xué)生化殘差(studentizedresidual)(2)距離。此外還可以采用馬氏距離(Mahalanobis.distance),刪除殘差(deletedresidual)等方法。強(qiáng)影響點(diǎn)的診斷樣本數(shù)據(jù)的質(zhì)量也是影響多元共線性存在與否的重要26Walker在1989年發(fā)展了一種多元共線影響點(diǎn)的奇異值分解(SVD)的診斷技術(shù)。該法在實(shí)踐中很有效,但它依據(jù)奇異值分解計(jì)算較為繁瑣,更為嚴(yán)重的是對(duì)多重共線性影響點(diǎn)診斷的遺漏。另外,我國(guó)學(xué)者趙進(jìn)文曾提出多重共線性影響點(diǎn)的主成分診斷法。[工程科技]多重共線性課件27四、多元共線性的處理為了避免共線性的影響,目前多采用回歸系數(shù)有偏估計(jì)的方法,即為了減小偏回歸系數(shù)估計(jì)的方差而放棄對(duì)估計(jì)的無(wú)偏性要求。換言之,允許估計(jì)有不大的偏度,以換取估計(jì)方差可顯著減小的結(jié)果,并在使其總均方差為最小的原則下估計(jì)回歸系數(shù)。四、多元共線性的處理為了避免共線性的影響,目前多采用回歸系數(shù)28解決多元共線性問(wèn)題的方法1、嶺回歸2、主成分回歸3、偏最小二乘回歸4、其它:神經(jīng)網(wǎng)絡(luò)、通徑分析解決多元共線性問(wèn)題的方法1、嶺回歸291、嶺回歸:1962年,A.E.Hoerl針對(duì)多元共線性的問(wèn)題,提出了一種叫嶺回歸的回歸估計(jì)方法。對(duì)線性模型定義偏回歸系數(shù)β的嶺估計(jì)為其中k稱為嶺參數(shù)。1、嶺回歸:1962年,A.E.Hoerl針對(duì)多元共線性的問(wèn)30嶺回歸的核心思想是當(dāng)出現(xiàn)多重共線性時(shí),,的特征根至少有一個(gè)非常接近于0,從而使參數(shù)β的最小二乘估計(jì)很不穩(wěn)定。給加上一個(gè)正常數(shù)矩陣kI(k>0),則等于零的可能性就比的可能性要小得多,的特征根接近于0的程度就會(huì)得到改善。嶺回歸的核心思想是當(dāng)出現(xiàn)多重共線性時(shí),31且從理論上可以證明,存在k>0,使得的均方誤差比的均方誤差小。因此,用嶺回歸來(lái)估計(jì)偏回歸系數(shù)比用普通最小二乘法估計(jì)要穩(wěn)定得多。這樣就消除了多重共線性對(duì)參數(shù)估計(jì)的危害。且從理論上可以證明,存在k>0,使得的均方誤差比32在實(shí)際應(yīng)用中,通常確定k值的方法有以下幾種:①嶺跡圖法②方差膨脹因子法③控制殘差平方和法在實(shí)際應(yīng)用中,通常確定k值的方法有以下幾種:332、主成分回歸1965年,W.F.Massy提出了主成分回歸(PrincipalComponentRegression,簡(jiǎn)稱PCR)方法,首先提取自變量的主成分,由于各主成分之間相互正交,相關(guān)系數(shù)為0,此時(shí)即可用最小二乘法估計(jì)偏回歸系數(shù),建立因變量與相互獨(dú)立的前幾個(gè)主成分的回歸模型,然后再還原為原自變量的回歸方程式。2、主成分回歸1965年,W.F.Massy提出了主成分回歸34可見(jiàn),主成分回歸分析解決多重共線性問(wèn)題是通過(guò)降維的處理而克服多元共線性的影響,正確表征變量間的關(guān)系。然而,由于PCR提取X的主成分是獨(dú)立于因變量Y而進(jìn)行的,沒(méi)有考慮到X對(duì)Y的解釋作用,這就增加了所建模型的不可靠性。可見(jiàn),主成分回歸分析解決多重共線性問(wèn)題是通過(guò)降維的處理而克服353、偏最小二乘回歸針對(duì)多元共線性干擾問(wèn)題,S.Wold和C.Alban在1983年提出了偏最小二乘回歸(PartiaLeastSquaresRegression,簡(jiǎn)稱PLSR)方法。PLSR方法吸取了主成分回歸分析從自變量中提取信息的思想,同時(shí)還考慮了自變量對(duì)因變量的解釋問(wèn)題。
3、偏最小二乘回歸針對(duì)多元共線性干擾問(wèn)題,S.Wold和C.36基本思路首先在自變量集中提取第一潛因子t1(t1是x1,x2,…,xm的線性組合,且盡可能多地提取原自變量集中的變異信息);同時(shí)在因變量集中也提取第一潛因子u1,并要求t1與u1相關(guān)程度達(dá)最大。然后建立因變量Y與t1的回歸,如果回歸方程已達(dá)到滿意的精度,則算法終止。否則繼續(xù)第二輪潛在因子的提取,直到能達(dá)到滿意的精度為止。若最終對(duì)自變量集提取m個(gè)潛因子t1,t2,…,tm,偏最小二乘回歸將建立Y與t1,t2,…,tm的回歸式,然后再表示為Y與原自變量的回歸方程式?;舅悸肥紫仍谧宰兞考刑崛〉谝粷撘蜃觮1(t1是x1,x237小結(jié)以上介紹了三種解決多重共線性問(wèn)題的方法,它們各自都有其特點(diǎn)及適用范圍:偏最小二乘法在解決多因變量與自變量方面及預(yù)測(cè)方面有著比其它兩種方法更優(yōu)越的地方,但在t的實(shí)際意義解釋方面與主成分一樣比較欠缺。小結(jié)以上介紹了三種解決多重共線性問(wèn)題的方法,它們各自都有其特38嶺回歸由于在其K值的確定上有很大的人為因素,使之缺乏一定的科學(xué)性,但也正因?yàn)槿绱?,使它能夠很好地把定性分析與定量分析兩者有機(jī)地結(jié)合起來(lái)。由于這三種方法估計(jì)出的參數(shù)值都是有偏的,所以在未出現(xiàn)多重線性相關(guān)問(wèn)題時(shí)最好還是用普通最小二乘法來(lái)估計(jì)參數(shù)。從實(shí)際運(yùn)用來(lái)看最小二乘法與嶺回歸的模擬效果相對(duì)來(lái)說(shuō)好一些。
嶺回歸由于在其K值的確定上有很大的人為因素,使之缺乏一定的科39五、logistic回歸的多元共線性問(wèn)題診斷:多元線性回歸中的三個(gè)診斷工具:條件指數(shù)、方差比、方差膨脹因子可以推廣到logistic回歸。五、logistic回歸的多元共線性問(wèn)題診斷:40處理逐步logistic回歸通過(guò)篩選變量來(lái)建立最佳回歸方程,是近年來(lái)用以處理共線性問(wèn)題的常用辦法。雖然這種方法盡量減少了多重共線性,但是它可能會(huì)把某些實(shí)際上對(duì)結(jié)果有顯著影響的變量排除在模型之外。將主成分分析與logistic回歸結(jié)合起來(lái),先提取自變量的主成分,再進(jìn)行l(wèi)ogistic回歸,也是一個(gè)可行的方法。通過(guò)主成分變換消除了自變量觀察矩陣之間的共線關(guān)系,從而使回歸得到較為可靠的結(jié)論。處理逐步logistic回歸通過(guò)篩選變量來(lái)建立最佳回歸方程,41六、Cox回歸模型的多元共線性問(wèn)題
多因子Cox模型是比較靈活的生存分析模型,但是當(dāng)多因子存在共線性時(shí),可以利用逐步回歸分析或最優(yōu)回歸分析等方法對(duì)多因子變量進(jìn)行篩選,將存在共線性的因子從模型中剔除,但是直接采用逐步回歸的方法篩選變量,所得模型并不總是很理想。六、Cox回歸模型的多元共線性問(wèn)題多因子Cox模型是比較靈42目前,常用的處理共線性的方法是先進(jìn)行主成分分析,得到幾個(gè)主成分,然后再對(duì)主成分進(jìn)行Cox模型擬合。但這樣得到的模型有時(shí)很難解釋清楚,一方面主要是主成分的代表性及其與原變量的關(guān)系有時(shí)難以解釋清楚,另一方面可能會(huì)造成多變量之間“非共線性”信息的損失,使每個(gè)變量的特殊作用被忽略。目前,常用的處理共線性的方法是先進(jìn)行主成分分析,得到幾個(gè)主成43廣東藥學(xué)院的張丕德曾撰文提出進(jìn)一步的方法,即將因子分析法與Cox模型結(jié)合的方法,首先將變量的信息進(jìn)行分解,分解為公因子與特殊因子兩部分,然后對(duì)公因子和特殊因子分別進(jìn)行Cox模型擬合,兩個(gè)模型互為補(bǔ)充。廣東藥學(xué)院的張丕德曾撰文提出進(jìn)一步的方法,即將因子分析法與C44謝謝謝謝45
多元共線性問(wèn)題的
產(chǎn)生、診斷與處理
多元共線性問(wèn)題的
產(chǎn)生、診斷與處理46主要內(nèi)容多元共線性的產(chǎn)生多元共線性的影響與表現(xiàn)多元共線性的診斷多元共線性的處理Logistic回歸與Cox回歸模型中的多元共線性問(wèn)題主要內(nèi)容多元共線性的產(chǎn)生47多元共線性“多元共線”一詞最早由R.佛里希于1934年提出,其最初的含義是指回歸模型中的某些自變量是線性相關(guān)的,即對(duì)于出現(xiàn)在模型中的自變量有關(guān)系
成立.其中常數(shù)km(m=1,2,…,n)不全為0.稱為完全多元共線;多元共線性“多元共線”一詞最早由R.佛里希于1934年提出,48現(xiàn)在所說(shuō)的“多元共線”有更廣泛的含義,除包括完全共線性的情況,也包括變量間有某種關(guān)系但又不是十分完全的線性關(guān)系.如下式所示的情況其中為隨機(jī)誤差項(xiàng).此時(shí)可稱為近似多元共線?,F(xiàn)在所說(shuō)的“多元共線”有更廣泛的含義,除包括完全共線性的情況49一、多元共線性的產(chǎn)生對(duì)于多元共線性問(wèn)題產(chǎn)生的根源,可以從兩個(gè)方面考慮:1、由變量性質(zhì)引起2、由數(shù)據(jù)問(wèn)題引起情況一:樣本含量過(guò)小情況二:出現(xiàn)強(qiáng)影響觀測(cè)值情況三:時(shí)序變量
一、多元共線性的產(chǎn)生對(duì)于多元共線性問(wèn)題產(chǎn)生的根源,可以從兩個(gè)501、由變量性質(zhì)引起在進(jìn)行多元統(tǒng)計(jì)分析時(shí),作為自變量的某些變量高度相關(guān),比如身高、體重和胸圍,變量之間的相關(guān)性是由變量自身的性質(zhì)決定的,此時(shí)不論數(shù)據(jù)以什么形式取得,樣本含量是大是小,都會(huì)出現(xiàn)自變量的共線性問(wèn)題。因此,變量間自身的性質(zhì)是導(dǎo)致多元共線性的重要原因。1、由變量性質(zhì)引起在進(jìn)行多元統(tǒng)計(jì)分析時(shí),作為自變量的某些變量51情況一:樣本含量過(guò)小
假設(shè)只有兩個(gè)自變量X1與X2,當(dāng)n=2時(shí),兩點(diǎn)總能連成一條直線,即使性質(zhì)上原本并不存在線性關(guān)系的變量X1與X2,由于樣本含量問(wèn)題產(chǎn)生了共線性。樣本含量較小時(shí),自變量容易呈現(xiàn)線性關(guān)系。
情況一:樣本含量過(guò)小52
如果研究的自變量個(gè)數(shù)大于2,設(shè)為X1,X2,...,XP,雖然各自變量之間沒(méi)有線性關(guān)系,但如果樣本含量n小于模型中自變量的個(gè)數(shù),就可能導(dǎo)致多元共線性問(wèn)題。
53情況二:出現(xiàn)強(qiáng)影響觀測(cè)值進(jìn)入20世紀(jì)80年代后期,人們開(kāi)始關(guān)注單個(gè)或幾個(gè)樣本點(diǎn)對(duì)多重共線性的影響。研究表明,存在兩類這樣的數(shù)據(jù)點(diǎn)或點(diǎn)群:(1)導(dǎo)致或加劇多重共線性(2)掩蓋存在著的多重共線性。情況二:出現(xiàn)強(qiáng)影響觀測(cè)值54(a)中因異常觀測(cè)值的出現(xiàn)而掩蓋了共線性,(b)中因異常觀測(cè)值的出現(xiàn)而產(chǎn)生了共線性。這樣的異常觀測(cè)值稱為多元共線性強(qiáng)影響觀測(cè)值。顯然這種觀測(cè)值會(huì)對(duì)設(shè)計(jì)矩陣的性態(tài)產(chǎn)生很大影響,從而影響參數(shù)估計(jì)。(a)中因異常觀測(cè)值的出現(xiàn)而掩蓋了共線性,(b)中因異常55情況三:時(shí)序變量若建模所用的自變量是時(shí)序變量,并且是高階單整時(shí)序變量,這種時(shí)序變量之間高度相關(guān),必然導(dǎo)致多重共線性。情況三:時(shí)序變量56二、多元共線性的影響以多元線性回歸分析為例,討論多元共線性問(wèn)題對(duì)參數(shù)估計(jì)的影響。二、多元共線性的影響以多元線性回歸分析為例,討論多元共線性問(wèn)57采用最小二乘法(theLeastSquaresMethod)對(duì)多元線性回歸模型的偏回歸系數(shù)進(jìn)行估計(jì)。經(jīng)整理得一個(gè)關(guān)于β0,β1、…、βm的線性方程組,稱為正規(guī)方程組。若記方程組的系數(shù)矩陣為A,則A恰為。β的最小二乘估計(jì)可表示為:采用最小二乘法(theLeastSquaresMeth58如果自變量存在完全多元共線性,設(shè)計(jì)矩陣不是列滿秩的,,,即的逆陣不存在,該矩陣為奇異矩陣。因此無(wú)法利用最小二乘法估計(jì)偏回歸系數(shù)。如果自變量之間存在近似共線性,,接近奇異,此時(shí)如果仍然采用最小二乘法,會(huì)使偏回歸系數(shù)的估計(jì)值不穩(wěn)定、不合理,嚴(yán)重影響回歸模型擬合的效果。
如果自變量存在完全多元共線性,設(shè)計(jì)矩陣不是列滿秩的,59多元共線性的表現(xiàn)上述效應(yīng)在實(shí)際應(yīng)用中主要表現(xiàn)為:(1)模型擬合效果很好,但偏回歸系數(shù)幾乎都無(wú)統(tǒng)計(jì)學(xué)意義;(2)偏回歸系數(shù)估計(jì)值的方差很大;(3)偏回歸系數(shù)估計(jì)值不穩(wěn)定,隨著樣本含量的增減各偏回歸系數(shù)發(fā)生較大變化或當(dāng)一個(gè)自變量被引入或剔除時(shí)其余變量偏回歸系數(shù)有很大變化;多元共線性的表現(xiàn)上述效應(yīng)在實(shí)際應(yīng)用中主要表現(xiàn)為:60(4)偏回歸系數(shù)估計(jì)值的大小與符號(hào)可能與事先期望的不一致或與經(jīng)驗(yàn)相悖,結(jié)果難以解釋。
出現(xiàn)以上表現(xiàn),提示存在多元共線性問(wèn)題,應(yīng)進(jìn)行多元共線性診斷。[工程科技]多重共線性課件61三、多元共線性的診斷常用的共線性診斷指標(biāo)有以下幾個(gè):(1)方差膨脹因子(varianceinflationfactors,)
其中為與其余(m-1)個(gè)自變量線性回歸的決定系數(shù)。值越大,多元共線程度越嚴(yán)重。三、多元共線性的診斷常用的共線性診斷指標(biāo)有以下幾個(gè):62(2)特征根系統(tǒng)(systemofeigenvalues)主要包括條件指數(shù)和方差比。條件指數(shù)是最大特征根與每個(gè)特征根之比的平方根。當(dāng)且對(duì)應(yīng)的方差比大于0.5時(shí),可認(rèn)為多元共線性嚴(yán)重存在。(2)特征根系統(tǒng)(systemofeigenvalues63此外,還有幾種方法可以進(jìn)行共線性診斷:1、自變量的相關(guān)系數(shù)診斷法2、多元決定系數(shù)值診斷法3、行列式判別法4、回歸系數(shù)方差分解法(RCVD法)此外,還有幾種方法可以進(jìn)行共線性診斷:641、自變量的相關(guān)系數(shù)診斷法自變量的兩兩相關(guān)分析,如果自變量間的二元相關(guān)系數(shù)值很大(如大于0.9),則可認(rèn)為存在多元共線性。但無(wú)確定的標(biāo)準(zhǔn)判斷相關(guān)系數(shù)的大小與共線性的關(guān)系。有時(shí),相關(guān)系數(shù)值不大,也不能排除多重共線性的可能。1、自變量的相關(guān)系數(shù)診斷法自變量的兩兩相關(guān)分析,如果自變量間652、多元決定系數(shù)值診斷法假定多元回歸模型p個(gè)自變量,其多元決定系數(shù)為。分別構(gòu)成不含其中某個(gè)自變量(Xi,i=1,2,…,p)的p個(gè)回歸模型,并應(yīng)用最小二乘法準(zhǔn)則分別擬合回歸方程,求出它們各自的決定系數(shù)(i=1,2,…,p)。
2、多元決定系數(shù)值診斷法假定多元回歸模型p個(gè)自變量,其多元決66如果其中最大的一個(gè)與很接近,假設(shè)不含的回歸模型,其決定系數(shù)與很接近,說(shuō)明將從模型中去掉,對(duì)回歸模型的決定系數(shù)影響不大。因此,可認(rèn)為該變量對(duì)Y總變異的解釋能力可由其他自變量代替。它很有可能是其他自變量的線性組合。該自變量進(jìn)入模型后就有可能引起多重共線性問(wèn)題。該方法也存在臨界值和主觀判斷問(wèn)題。
如果其中最大的一個(gè)與很接近,假設(shè)不含的回歸673、行列式判別法令,為的特征根,,于是令D=||=det(),為H的行列式。當(dāng)為奇異矩陣時(shí),其最小特征根很小,接近于0。而D=det()=∏λj,這樣D就接近于0。3、行列式判別法68判斷標(biāo)準(zhǔn):當(dāng)0<D≤0.01時(shí),認(rèn)為有嚴(yán)重共線性;當(dāng)0.01<D≤0.05時(shí),認(rèn)為有中等或較強(qiáng)共線性;當(dāng)0.05<D≤0.1時(shí),認(rèn)為有較弱的共線性;當(dāng)D>0.1時(shí),認(rèn)為沒(méi)有共線性。判斷標(biāo)準(zhǔn):69小結(jié)模擬實(shí)驗(yàn)和實(shí)際數(shù)據(jù)都表明,這些方法和標(biāo)準(zhǔn)對(duì)診斷多元共線性有一定的效果。當(dāng)?shù)奶卣鞲急容^小時(shí),條件數(shù)法很難診斷多元共線性,這時(shí)可考慮用行列式法進(jìn)行診斷;當(dāng)特征根相差懸殊時(shí),條件指數(shù)法容易發(fā)現(xiàn)嚴(yán)重復(fù)共線性,方差膨脹因子法容易發(fā)現(xiàn)一個(gè)自變量和其他自變量之間的線性關(guān)系。小結(jié)模擬實(shí)驗(yàn)和實(shí)際數(shù)據(jù)都表明,這些方法和標(biāo)準(zhǔn)對(duì)診斷多元共線性70強(qiáng)影響點(diǎn)的診斷樣本數(shù)據(jù)的質(zhì)量也是影響多元共線性存在與否的重要外因。目前診斷多重共線性影響點(diǎn)的基本方法有(1)學(xué)生化殘差(studentizedresidual)(2)距離。此外還可以采用馬氏距離(Mahalanobis.distance),刪除殘差(deletedresidual)等方法。強(qiáng)影響點(diǎn)的診斷樣本數(shù)據(jù)的質(zhì)量也是影響多元共線性存在與否的重要71Walker在1989年發(fā)展了一種多元共線影響點(diǎn)的奇異值分解(SVD)的診斷技術(shù)。該法在實(shí)踐中很有效,但它依據(jù)奇異值分解計(jì)算較為繁瑣,更為嚴(yán)重的是對(duì)多重共線性影響點(diǎn)診斷的遺漏。另外,我國(guó)學(xué)者趙進(jìn)文曾提出多重共線性影響點(diǎn)的主成分診斷法。[工程科技]多重共線性課件72四、多元共線性的處理為了避免共線性的影響,目前多采用回歸系數(shù)有偏估計(jì)的方法,即為了減小偏回歸系數(shù)估計(jì)的方差而放棄對(duì)估計(jì)的無(wú)偏性要求。換言之,允許估計(jì)有不大的偏度,以換取估計(jì)方差可顯著減小的結(jié)果,并在使其總均方差為最小的原則下估計(jì)回歸系數(shù)。四、多元共線性的處理為了避免共線性的影響,目前多采用回歸系數(shù)73解決多元共線性問(wèn)題的方法1、嶺回歸2、主成分回歸3、偏最小二乘回歸4、其它:神經(jīng)網(wǎng)絡(luò)、通徑分析解決多元共線性問(wèn)題的方法1、嶺回歸741、嶺回歸:1962年,A.E.Hoerl針對(duì)多元共線性的問(wèn)題,提出了一種叫嶺回歸的回歸估計(jì)方法。對(duì)線性模型定義偏回歸系數(shù)β的嶺估計(jì)為其中k稱為嶺參數(shù)。1、嶺回歸:1962年,A.E.Hoerl針對(duì)多元共線性的問(wèn)75嶺回歸的核心思想是當(dāng)出現(xiàn)多重共線性時(shí),,的特征根至少有一個(gè)非常接近于0,從而使參數(shù)β的最小二乘估計(jì)很不穩(wěn)定。給加上一個(gè)正常數(shù)矩陣kI(k>0),則等于零的可能性就比的可能性要小得多,的特征根接近于0的程度就會(huì)得到改善。嶺回歸的核心思想是當(dāng)出現(xiàn)多重共線性時(shí),76且從理論上可以證明,存在k>0,使得的均方誤差比的均方誤差小。因此,用嶺回歸來(lái)估計(jì)偏回歸系數(shù)比用普通最小二乘法估計(jì)要穩(wěn)定得多。這樣就消除了多重共線性對(duì)參數(shù)估計(jì)的危害。且從理論上可以證明,存在k>0,使得的均方誤差比77在實(shí)際應(yīng)用中,通常確定k值的方法有以下幾種:①嶺跡圖法②方差膨脹因子法③控制殘差平方和法在實(shí)際應(yīng)用中,通常確定k值的方法有以下幾種:782、主成分回歸1965年,W.F.Massy提出了主成分回歸(PrincipalComponentRegression,簡(jiǎn)稱PCR)方法,首先提取自變量的主成分,由于各主成分之間相互正交,相關(guān)系數(shù)為0,此時(shí)即可用最小二乘法估計(jì)偏回歸系數(shù),建立因變量與相互獨(dú)立的前幾個(gè)主成分的回歸模型,然后再還原為原自變量的回歸方程式。2、主成分回歸1965年,W.F.Massy提出了主成分回歸79可見(jiàn),主成分回歸分析解決多重共線性問(wèn)題是通過(guò)降維的處理而克服多元共線性的影響,正確表征變量間的關(guān)系。然而,由于PCR提取X的主成分是獨(dú)立于因變量Y而進(jìn)行的,沒(méi)有考慮到X對(duì)Y的解釋作用,這就增加了所建模型的不可靠性??梢?jiàn),主成分回歸分析解決多重共線性問(wèn)題是通過(guò)降維的處理而克服803、偏最小二乘回歸針對(duì)多元共線性干擾問(wèn)題,S.Wold和C.Alban在1983年提出了偏最小二乘回歸(PartiaLeastSquaresRegression,簡(jiǎn)稱PLSR)方法。PLSR方法吸取了主成分回歸分析從自變量中提取信息的思想,同時(shí)還考慮了自變量對(duì)因變量的解釋問(wèn)題。
3、偏最小二乘回歸針對(duì)多元共線性干擾問(wèn)題,S.Wold和C.81基本思路首先在自變量集中提取第一潛因子t1(t1是x1,x2,…,xm的線性組合,且盡可能多地提取原自變量集中的變異信息);同時(shí)在因變量集中也提取第一潛因子u1,并要求t1與u1相關(guān)程度達(dá)最大。然后建立因變量Y與t1的回歸,如果回歸方程已達(dá)到滿意的精度,則算法終止。否則繼續(xù)第二輪潛
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 廣東石油化工學(xué)院《Andoid基礎(chǔ)編程》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東汕頭幼兒師范高等??茖W(xué)?!兜谝煌鈬?guó)語(yǔ)英》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東農(nóng)工商職業(yè)技術(shù)學(xué)院《生物制藥學(xué)科前沿進(jìn)展》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東茂名幼兒師范專科學(xué)?!洞黉N策略》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東茂名健康職業(yè)學(xué)院《英國(guó)文學(xué)下》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東理工職業(yè)學(xué)院《美國(guó)社會(huì)與文化》2023-2024學(xué)年第一學(xué)期期末試卷
- 一年級(jí)數(shù)學(xué)計(jì)算題專項(xiàng)練習(xí)集錦
- 大腦的奧秘:神經(jīng)科學(xué)導(dǎo)論(復(fù)旦大學(xué))學(xué)習(xí)通測(cè)試及答案
- 【2022屆走向高考】高三數(shù)學(xué)一輪(北師大版)基礎(chǔ)鞏固:第8章-第1節(jié)-簡(jiǎn)單幾何體及其三視圖和直觀圖
- 2022韶山市高考英語(yǔ)閱讀理解及書(shū)面表達(dá)精煉(8)及答案
- 抗精神疾病藥物與麻醉課件
- 2022工業(yè)網(wǎng)關(guān)技術(shù)標(biāo)準(zhǔn) 第1部分:通用技術(shù)要求
- 經(jīng)典紅歌歌譜100首-
- 單位紅頭文件模板(各類通知、任命通知公函紅頭文件)
- Linux操作系統(tǒng)應(yīng)用(麒麟系統(tǒng))PPT完整全套教學(xué)課件
- 精神壓力分析系統(tǒng)心率變異分析系統(tǒng)-健康管理師團(tuán)隊(duì)課件
- 正說(shuō)藏傳佛教課件
- 醫(yī)美整形BOTOX除皺抗衰專場(chǎng)活動(dòng)規(guī)劃方案
- 基于單片機(jī)的飛機(jī)發(fā)動(dòng)機(jī)轉(zhuǎn)速在線檢測(cè)系統(tǒng)
- 蒸汽壓力流速流量管徑關(guān)系
- 水墨中式中國(guó)風(fēng)書(shū)香校園PPT模板
評(píng)論
0/150
提交評(píng)論