![應(yīng)用回歸分析(R語(yǔ)言版)(何曉群 第2版)課件 第6-10章 多重共線(xiàn)性的情形及其處理- 含定性變量的回歸模型_第1頁(yè)](http://file4.renrendoc.com/view14/M02/34/0A/wKhkGWYnuBGAPIUNAAC0gyRgsYU607.jpg)
![應(yīng)用回歸分析(R語(yǔ)言版)(何曉群 第2版)課件 第6-10章 多重共線(xiàn)性的情形及其處理- 含定性變量的回歸模型_第2頁(yè)](http://file4.renrendoc.com/view14/M02/34/0A/wKhkGWYnuBGAPIUNAAC0gyRgsYU6072.jpg)
![應(yīng)用回歸分析(R語(yǔ)言版)(何曉群 第2版)課件 第6-10章 多重共線(xiàn)性的情形及其處理- 含定性變量的回歸模型_第3頁(yè)](http://file4.renrendoc.com/view14/M02/34/0A/wKhkGWYnuBGAPIUNAAC0gyRgsYU6073.jpg)
![應(yīng)用回歸分析(R語(yǔ)言版)(何曉群 第2版)課件 第6-10章 多重共線(xiàn)性的情形及其處理- 含定性變量的回歸模型_第4頁(yè)](http://file4.renrendoc.com/view14/M02/34/0A/wKhkGWYnuBGAPIUNAAC0gyRgsYU6074.jpg)
![應(yīng)用回歸分析(R語(yǔ)言版)(何曉群 第2版)課件 第6-10章 多重共線(xiàn)性的情形及其處理- 含定性變量的回歸模型_第5頁(yè)](http://file4.renrendoc.com/view14/M02/34/0A/wKhkGWYnuBGAPIUNAAC0gyRgsYU6075.jpg)
版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
2024/4/231應(yīng)用回歸分析(R語(yǔ)言版)AppliedRegressionAnalysis(ARA)第6章多重共線(xiàn)性的情形及其處理6.1多重共線(xiàn)性產(chǎn)生的背景和原因6.2多重共線(xiàn)性對(duì)回歸建模的影響6.3多重共線(xiàn)性的診斷6.4消除多重共線(xiàn)性的方法6.5本章小結(jié)與評(píng)注2024/4/2322024/4/233
如果存在不全為0的p+1個(gè)數(shù),使得則稱(chēng)自變量之間存在著完全多重共線(xiàn)性。在實(shí)際經(jīng)濟(jì)問(wèn)題中完全的多重共線(xiàn)性并不多見(jiàn),常見(jiàn)的是(6.1)式近似成立的情況,即存在不全為0的p+1個(gè)數(shù),使得稱(chēng)自變量之間存在著多重共線(xiàn)性(Multi-collinearity),也稱(chēng)為復(fù)共線(xiàn)性。第6章多重共線(xiàn)性的情形及其處理6.1多重共線(xiàn)性產(chǎn)生的背景和原因
2024/4/234
當(dāng)我們所研究的經(jīng)濟(jì)問(wèn)題涉及到時(shí)間序列資料時(shí),由于經(jīng)濟(jì)變量隨時(shí)間往往存在共同的變化趨勢(shì),它們之間就容易出現(xiàn)共線(xiàn)性。例如,我們要研究我國(guó)居民消費(fèi)狀況,影響居民消費(fèi)的因素很多,一般有職工平均工資、農(nóng)民平均收入、銀行利率、全國(guó)零售物價(jià)指數(shù)、國(guó)債利率、貨幣發(fā)行量、儲(chǔ)蓄額、前期消費(fèi)額等,這些因素顯然既對(duì)居民消費(fèi)產(chǎn)生重要影響,它們之間又有著很強(qiáng)的相關(guān)性。
2024/4/235
許多利用截面數(shù)據(jù)建立回歸方程的問(wèn)題常常也存在自變量高度相關(guān)的情形。例如,我們以企業(yè)的截面數(shù)據(jù)為樣本估計(jì)生產(chǎn)函數(shù),由于投入要素資本K,勞動(dòng)力投入L,科技投入S,能源供應(yīng)E等都與企業(yè)的生產(chǎn)規(guī)模有關(guān),所以它們之間存在較強(qiáng)的相關(guān)性。6.1多重共線(xiàn)性產(chǎn)生的背景和原因
6.2多重共線(xiàn)性對(duì)回歸建模的影響
2024/4/236
設(shè)回歸模型存在完全的多重共線(xiàn)性,即對(duì)設(shè)計(jì)矩陣X的列向量存在不全為零的一組數(shù),使得
設(shè)計(jì)矩陣X的秩此時(shí),正規(guī)方程組的解不唯一,不存在,回歸參數(shù)的最小二乘估計(jì)表達(dá)式不成立。2024/4/2376.2多重共線(xiàn)性對(duì)回歸建模的影響
對(duì)非完全共線(xiàn)性,存在不全為零的一組數(shù),使得此時(shí)設(shè)計(jì)矩陣X的秩雖然成立,但是
的對(duì)角線(xiàn)元素很大,的方差陣
的對(duì)角線(xiàn)元素很大,而的對(duì)角線(xiàn)元素即
,因而
的估計(jì)精度很低。這樣,雖然用普通最小二乘估計(jì)能得到的無(wú)偏估計(jì),但估計(jì)量的方差很大,不能正確判斷解釋變量對(duì)被解釋變量的影響程度,甚至導(dǎo)致估計(jì)量的經(jīng)濟(jì)意義無(wú)法解釋。2024/4/2386.2多重共線(xiàn)性對(duì)回歸建模的影響
做y對(duì)兩個(gè)自變量
的線(xiàn)性回歸,假定y與都已經(jīng)中心化,此時(shí)回歸常數(shù)項(xiàng)為零,回歸方程為記則之間的相關(guān)系數(shù)為2024/4/2396.2多重共線(xiàn)性對(duì)回歸建模的影響
的協(xié)方差陣為2024/4/23106.2多重共線(xiàn)性對(duì)回歸建模的影響
由此可得可知,隨著自變量
的相關(guān)性增強(qiáng),的方差將逐漸增大。當(dāng)
完全相關(guān)時(shí),r=1,方差將變?yōu)闊o(wú)窮大。2024/4/2311
6.2多重共線(xiàn)性對(duì)回歸建模的影響
當(dāng)給不同的r12值時(shí),由表6-1可看出方差增大的速度。為了方便,我們假設(shè),相關(guān)系數(shù)從0.5變?yōu)?.9時(shí),回歸系數(shù)的方差增加了295%,相關(guān)系數(shù)從0.5變?yōu)?.95時(shí),回歸系數(shù)的方差增加了671%。2024/4/2312
在例3-3中,我們建立的中國(guó)民航客運(yùn)量回歸方程為:
=-8805+0.706x1-1.773x2+0.157x3+0.139x4+25.82x5其中:y—民航客運(yùn)量(萬(wàn)人),
x1—人均GDP(元),x2—人均居民消費(fèi)水平(元),
x3—普通鐵路客運(yùn)量(萬(wàn)人),x4—高速鐵路客運(yùn)量(萬(wàn)人),
x5—民航航線(xiàn)里程(萬(wàn)公里)。
x2是消費(fèi)水平,從經(jīng)濟(jì)學(xué)的定性分析看,消費(fèi)水平與民航客運(yùn)量應(yīng)該是正相關(guān),而回歸方程中x2的回歸系數(shù)的符號(hào)與定性分析的結(jié)果明顯不符。問(wèn)題出在哪里?這正是自變量之間的復(fù)共線(xiàn)性造成的。6.2多重共線(xiàn)性對(duì)回歸建模的影響
6.3多重共線(xiàn)性的診斷
2024/4/23136.3.1方差擴(kuò)大因子法
對(duì)自變量做中心標(biāo)準(zhǔn)化,則為自變量的相關(guān)陣。記 (6.5)稱(chēng)其主對(duì)角線(xiàn)元素為自變量的方差擴(kuò)大因子(VarianceInflationFactor,簡(jiǎn)記為VIF)。由(3.31)式可知,其中是的離差平方和,由(6.6)式可知用作為衡量自變量的方差擴(kuò)大程度的因子是恰如其分的。(6.6)2024/4/23146.3多重共線(xiàn)性的診斷
記為以
作因變量對(duì)其余p-1個(gè)自變量進(jìn)行回歸得到的復(fù)決定系數(shù),可以證明(6.7)式(6.7)也可以作為方差擴(kuò)大因子
的定義,由此式可知。2024/4/23156.3多重共線(xiàn)性的診斷
經(jīng)驗(yàn)表明,當(dāng)時(shí),就說(shuō)明自變量與其余自變量之間有嚴(yán)重的多重共線(xiàn)性,且這種多重共線(xiàn)性可能會(huì)過(guò)度地影響最小二乘估計(jì)值。還可用p個(gè)自變量所對(duì)應(yīng)的方差擴(kuò)大因子的平均數(shù)來(lái)度量多重共線(xiàn)性。當(dāng)遠(yuǎn)遠(yuǎn)大于1時(shí)就表示存在嚴(yán)重的多重共線(xiàn)性問(wèn)題。
2024/4/2316
以下用R軟件診斷例3-3中國(guó)民航客運(yùn)量一例中的多重共線(xiàn)性問(wèn)題。由于計(jì)算方差擴(kuò)大因子VIF的函數(shù)vif()在car包中,而該包不是基本包,所以首先要安裝并加載car包,以下是計(jì)算代碼及其運(yùn)行結(jié)果。6.3多重共線(xiàn)性的診斷
2024/4/23176.3多重共線(xiàn)性的診斷
6.3.2特征根判定法1、特征根分析
根據(jù)矩陣行列式的性質(zhì),矩陣的行列式等于其特征根的連乘積。因而,當(dāng)行列式時(shí),矩陣
至少有一個(gè)特征根近似為零。反之可以證明,當(dāng)矩陣至少有一個(gè)特征根近似為零時(shí),X的列向量間必存在復(fù)共線(xiàn)性,證明見(jiàn)160頁(yè)。證明如下:記,其中為X
的列向量,
是元素全為1的n維列向量。是矩陣
的一個(gè)近似為零的特征根,是對(duì)應(yīng)于特征根的單位特征向量,則上式兩邊左乘
,得。從而有,即。寫(xiě)成分量形式即為這正是(6.2)式定義的多重共線(xiàn)性關(guān)系。2024/4/23186.3多重共線(xiàn)性的診斷
如果矩陣
有多個(gè)特征根近似為零,在上面的證明中,取每個(gè)特征根的特征向量為標(biāo)準(zhǔn)化正交向量,即可證明:有多少個(gè)特征根接近于零,設(shè)計(jì)矩陣X就有多少個(gè)多重共線(xiàn)性關(guān)系,并且這些多重共線(xiàn)性關(guān)系的系數(shù)向量就等于接近于零的那些特征根對(duì)應(yīng)的特征向量。2024/4/23196.3多重共線(xiàn)性的診斷
2024/4/23206.3多重共線(xiàn)性的診斷
2、條件數(shù)
特征根分析表明,當(dāng)矩陣
有一個(gè)特征根近似為零時(shí),設(shè)計(jì)矩陣X的列向量間必存在復(fù)共線(xiàn)性。那么特征根近似為零的標(biāo)準(zhǔn)如何確定呢?可以用下面介紹的條件數(shù)確定。記的最大和最小特征根分別為,稱(chēng)為矩陣的條件數(shù)(ConditionIndex)。2024/4/23216.3多重共線(xiàn)性的診斷
k<100時(shí),設(shè)計(jì)矩陣X多重共線(xiàn)性程度較小;100≤k≤
1000時(shí),認(rèn)為X存在較強(qiáng)的多重共線(xiàn)性;當(dāng)k>1000時(shí),認(rèn)為存在嚴(yán)重的多重共線(xiàn)性。
用條件數(shù)判斷多重共線(xiàn)性的準(zhǔn)則:在R軟件中,通常用kappa()函數(shù)計(jì)算矩陣的條件數(shù),其使用方法為:kappa(z,exact=FALSE,…),其中,z為矩陣,exact是邏輯變量,當(dāng)exact=TRUE時(shí),精確計(jì)算條件數(shù),否則近似計(jì)算條件數(shù)。2024/4/2322
對(duì)例3-3中國(guó)民航客運(yùn)量的例子,用R軟件計(jì)算矩陣的條件數(shù),計(jì)算代碼及結(jié)果如下:
6.3多重共線(xiàn)性的診斷
2024/4/23236.3多重共線(xiàn)性的診斷
根據(jù)條件數(shù)k=10119.1>1000,說(shuō)明自變量之間存在嚴(yán)重的多重共線(xiàn)性。進(jìn)一步,為找出哪些變量是多重共線(xiàn)的,需要計(jì)算矩陣的特征值和相應(yīng)的特征向量,在R命令窗口輸入代碼eigen(XX),得到其最小的特征值和相應(yīng)的特征向量為即由于的系數(shù)近似為0,故
之間存在著多重共線(xiàn)性。2024/4/2324
6.3.3直觀判定法1.當(dāng)增加或剔除一個(gè)自變量,或者改變一個(gè)觀測(cè)值時(shí),回歸系數(shù)的估計(jì)值發(fā)生較大變化。2.從定性分析角度看來(lái),一些重要的自變量在回歸方程中沒(méi)有通過(guò)顯著性檢驗(yàn)。3.有些自變量的回歸系數(shù)所帶正負(fù)號(hào)與定性分析結(jié)果違背。4.自變量的相關(guān)矩陣中,自變量間的相關(guān)系數(shù)較大。5.一些重要的自變量的回歸系數(shù)的標(biāo)準(zhǔn)誤差較大。6.3多重共線(xiàn)性的診斷
6.4消除多重共線(xiàn)性的方法
2024/4/2325
6.4.1剔除不重要的解釋變量
在剔除自變量時(shí),可以將回歸系數(shù)的顯著性檢驗(yàn)、方差擴(kuò)大因子VIF以及自變量的經(jīng)濟(jì)含義結(jié)合起來(lái)考慮,以引進(jìn)或剔除變量。民航客運(yùn)量一例中,5個(gè)自變量都通過(guò)了回歸系數(shù)的顯著性檢驗(yàn),但仍存在著嚴(yán)重的多重共線(xiàn)性,的方差擴(kuò)大因子為1458.277最大,因此剔除,建立y對(duì)其余四個(gè)自變量的回歸方程,相關(guān)計(jì)算結(jié)果如下所示:2024/4/2326
6.4消除多重共線(xiàn)性的方法
2024/4/23276.4消除多重共線(xiàn)性的方法
從輸出結(jié)果看到,的方差擴(kuò)大因子為120.241最大,遠(yuǎn)大于10,說(shuō)明此時(shí)回歸模型仍然存在多重共線(xiàn)性,因此剔除,建立y對(duì)其余三個(gè)自變量的回歸方程,相關(guān)計(jì)算結(jié)果如下所示:消除了共線(xiàn)性2024/4/23286.4消除多重共線(xiàn)性的方法
6.4.2增大樣本容量例如,由(6.3)式和(6.4)式
可以看到,在固定不變,當(dāng)樣本容量n增大時(shí),都會(huì)增大,兩個(gè)回歸系數(shù)的估計(jì)方差均可減小,從而減弱多重共線(xiàn)性對(duì)回歸方程的影響。2024/4/2329
6.4.3回歸系數(shù)的有偏估計(jì)
消除多重共線(xiàn)性對(duì)回歸模型的影響是近40年來(lái)統(tǒng)計(jì)學(xué)家們關(guān)注的熱點(diǎn)課題之一,除以上方法被人們應(yīng)用外,統(tǒng)計(jì)學(xué)家還致力于改進(jìn)古典的最小二乘法,提出以采用有偏估計(jì)為代價(jià)來(lái)提高估計(jì)量穩(wěn)定性的方法,如:嶺回歸法主成分回歸法偏最小二乘法等6.4消除多重共線(xiàn)性的方法
6.5本章小結(jié)與評(píng)注2024/4/2330
當(dāng)解釋變量之間的簡(jiǎn)單相關(guān)系數(shù)很大時(shí),可以斷定自變量間存在著嚴(yán)重的多重共線(xiàn)性;但是一個(gè)回歸方程存在嚴(yán)重的多重共線(xiàn)性時(shí),解釋變量之間的簡(jiǎn)單相關(guān)系數(shù)不一定很大。例如假定3個(gè)自變量之間有完全確定的關(guān)系
再假定x2與x3的簡(jiǎn)單相關(guān)系數(shù)r23=-0.5,x2與x3的離差平方和L22=L33=1,此時(shí)
2024/4/2331同理r13=0.5由此看到,當(dāng)回歸方程中的自變量數(shù)目超過(guò)2時(shí),并不能由自變量間的簡(jiǎn)單相關(guān)系數(shù)不高,就斷定它們不存在多重共線(xiàn)性。6.5本章小結(jié)與評(píng)注第7章嶺回歸
2024/4/2332
7.1嶺回歸估計(jì)的定義7.2嶺回歸估計(jì)的性質(zhì)7.3嶺跡分析7.4嶺參數(shù)k的選擇7.5用嶺回歸選擇變量7.1嶺回歸估計(jì)的定義2024/4/23337.1.1
普通最小二乘估計(jì)帶來(lái)的問(wèn)題
當(dāng)自變量間存在復(fù)共線(xiàn)性時(shí),回歸系數(shù)估計(jì)的方差就很大,估計(jì)值就很不穩(wěn)定,下面進(jìn)一步用一個(gè)模擬的例子來(lái)說(shuō)明這一點(diǎn)。例7-1假設(shè)已知x1,x2與y的關(guān)系服從線(xiàn)性回歸模型2024/4/2334然后用模擬的方法產(chǎn)生10個(gè)正態(tài)隨機(jī)數(shù),作為誤差項(xiàng),見(jiàn)表7-1的第(3)行。然后再由回歸模型計(jì)算出10個(gè)值,列在了表7-1的第(4)行。7.1嶺回歸估計(jì)的定義給定的10個(gè)值,見(jiàn)表7-1的第(1)、(2)兩行。2024/4/2335現(xiàn)在我們假設(shè)回歸系數(shù)與誤差項(xiàng)是未知的,用普通最小二乘法求回歸系數(shù)的估計(jì)值得:而原模型的參數(shù)為
看來(lái)兩者相差很大。計(jì)算的樣本相關(guān)系數(shù)得,表明之間高度相關(guān)。7.1嶺回歸估計(jì)的定義2024/4/23367.1嶺回歸估計(jì)的定義7.1.2嶺回歸的定義
嶺回歸(RidgeRegression,簡(jiǎn)記為RR)提出的想法是很自然的。當(dāng)自變量間存在復(fù)共線(xiàn)性時(shí),,我們?cè)O(shè)想給加上一個(gè)正常數(shù)矩陣,那么接近奇異的程度就會(huì)比接近奇異的程度小得多??紤]到變量的量綱問(wèn)題,我們先對(duì)數(shù)據(jù)做標(biāo)準(zhǔn)化,為了計(jì)算方便,標(biāo)準(zhǔn)化后的設(shè)計(jì)陣仍然用X表示。2024/4/23377.1嶺回歸估計(jì)的定義我們稱(chēng)
為
的嶺回歸估計(jì),其中k稱(chēng)為嶺參數(shù)。
(7.2)式中因變量觀測(cè)向量y可以經(jīng)過(guò)標(biāo)準(zhǔn)化也可以未經(jīng)標(biāo)準(zhǔn)化。由于假設(shè)X已經(jīng)標(biāo)準(zhǔn)化,如果y也經(jīng)過(guò)標(biāo)準(zhǔn)化,那么(7.2)式計(jì)算的實(shí)際是標(biāo)準(zhǔn)化嶺回歸估計(jì)。顯然,嶺回歸作為的估計(jì)應(yīng)比最小二乘估計(jì)穩(wěn)定,當(dāng)k=0時(shí)的嶺回歸估計(jì)就是普通最小二乘估計(jì)。(7.2)2024/4/23387.1嶺回歸估計(jì)的定義因?yàn)閹X參數(shù)k不是唯一確定的,所以我們得到的嶺回歸估計(jì)實(shí)際是回歸參數(shù)
的一個(gè)估計(jì)族。例如對(duì)例7-1可以算得不同k值時(shí)的,見(jiàn)表7-2。2024/4/23397.1嶺回歸估計(jì)的定義圖7-1嶺跡圖7.2嶺回歸估計(jì)的性質(zhì)
2024/4/2340
在本節(jié)嶺回歸估計(jì)的性質(zhì)的討論中,假定(7.2)式中因變量觀測(cè)向量y未經(jīng)標(biāo)準(zhǔn)化。性質(zhì)1
是回歸參數(shù)
的有偏估計(jì)。
證明:顯然只有當(dāng)k=0時(shí),;當(dāng)k≠0時(shí),是
的有偏估計(jì)。要特別強(qiáng)調(diào)的是不再是
的無(wú)偏估計(jì)了,有偏性是嶺回歸估計(jì)的一個(gè)重要特性。2024/4/23417.2嶺回歸估計(jì)的性質(zhì)
性質(zhì)2
在認(rèn)為嶺參數(shù)k是與y
無(wú)關(guān)的常數(shù)時(shí),是最小二乘估計(jì)的一個(gè)線(xiàn)性變換,也是y
的線(xiàn)性函數(shù)。因?yàn)橐虼?,嶺估計(jì)是最小二乘估計(jì)的一個(gè)線(xiàn)性變換,根據(jù)定義式知也是y
的線(xiàn)性函數(shù)。需要注意的是,在實(shí)際應(yīng)用中,由于嶺參數(shù)k總是要通過(guò)數(shù)據(jù)來(lái)確定,因而k也依賴(lài)于y,因此從本質(zhì)上說(shuō)并非y
的線(xiàn)性函數(shù)。2024/4/23427.2嶺回歸估計(jì)的性質(zhì)
性質(zhì)3對(duì)任意,總有
這里是向量的模,等于向量各分量的平方和的平方根。這個(gè)性質(zhì)表明可看成由進(jìn)行某種向原點(diǎn)的壓縮,從的表達(dá)式可以看到,當(dāng)時(shí),,即化為零向量。2024/4/23437.2嶺回歸估計(jì)的性質(zhì)
性質(zhì)4以MSE表示估計(jì)向量的均方誤差,則存在k>0,使得即7.3嶺跡分析
2024/4/2344當(dāng)嶺參數(shù)k在(0,∞)內(nèi)變化時(shí),的函數(shù),在平面坐標(biāo)系上把函數(shù)描畫(huà)出來(lái)。畫(huà)出的曲線(xiàn)稱(chēng)為嶺跡。在實(shí)際應(yīng)用中,可以根據(jù)嶺跡曲線(xiàn)的變化形狀來(lái)確定適當(dāng)?shù)膋值和進(jìn)行自變量的選擇。在嶺回歸中,嶺跡分析可用來(lái)了解各自變量的作用及自變量間的相互關(guān)系。下面由圖7-2所反映的幾種有代表性的情況來(lái)說(shuō)明嶺跡分析的作用。嶺跡分析
2024/4/2345(1)在圖7-2(a)中,,且比較大。從古典回歸分析的觀點(diǎn)看,應(yīng)將看作是對(duì)y有重要影響的因素。但的圖形顯示出相當(dāng)?shù)牟环€(wěn)定,當(dāng)k從零開(kāi)始略增加時(shí),顯著地下降,而且迅速趨于零,因而失去預(yù)報(bào)能力。從嶺回歸的觀點(diǎn)看,對(duì)y不起重要作用,甚至可以去掉這個(gè)變量。(2)圖7-2(b)的情況與圖7-2(a)相反,,但很接近0。從古典回歸分析看,對(duì)y的作用不大。但隨著k略增加,驟然變?yōu)樨?fù)值,從嶺回歸觀點(diǎn)看,對(duì)y有顯著影響。2024/4/23467.3嶺跡分析
(3)如圖7-2(c),,說(shuō)明還比較顯著,但當(dāng)k增加時(shí),迅速下降,且穩(wěn)定為負(fù)值,從古典回歸分析看,是對(duì)y有“正”影響的顯著因素,而從嶺回歸分析角度看,要被看作是對(duì)y有“負(fù)”影響的因素。(4)在圖7-2(d)中,和都很不穩(wěn)定,但其和卻大體上穩(wěn)定。這種情況往往發(fā)生在自變量的相關(guān)性很大的場(chǎng)合,即在之間存在多重共線(xiàn)性的情形。因此,從變量選擇的觀點(diǎn)看,兩者只要保存一個(gè)就夠了。這種情況可用來(lái)解釋某些回歸系數(shù)估計(jì)的符號(hào)不合理的情形,從實(shí)際觀點(diǎn)看,不應(yīng)有相反符號(hào)。嶺回歸分析的結(jié)果對(duì)這一點(diǎn)提供了一種解釋。2024/4/23477.3嶺跡分析
(5)從全局看,嶺跡分析可用來(lái)估計(jì)在某一具體實(shí)例中最小二乘估計(jì)是否適用,把所有回歸系數(shù)的嶺跡都描在一張圖上,如果這些嶺跡線(xiàn)的“不穩(wěn)定度”很大,整個(gè)系統(tǒng)呈現(xiàn)比較“亂”的局面,往往就使人懷疑最小二乘估計(jì)是否很好地反映了真實(shí)情況,圖7-2(e)反映了這種情況。如果情況如圖7-2(f)那樣,則我們對(duì)最小二乘估計(jì)可以有更大的信心。當(dāng)情況介于(e)和(f)之間時(shí),我們必須適當(dāng)?shù)剡x擇k值。2024/4/23487.3嶺跡分析
7.4嶺參數(shù)k的選擇
2024/4/23497.4.1嶺跡法
嶺跡法選擇k值的一般原則是:
(1)各回歸系數(shù)的嶺估計(jì)基本穩(wěn)定;(2)用最小二乘估計(jì)時(shí)符號(hào)不合理的回歸系數(shù),其嶺估計(jì)的符號(hào)變得合理;(3)回歸系數(shù)沒(méi)有不合乎經(jīng)濟(jì)意義的絕對(duì)值;(4)殘差平方和增大不太多。
2024/4/23507.4嶺參數(shù)k的選擇
2024/4/23517.4嶺參數(shù)k的選擇
嶺跡法確定k值缺少?lài)?yán)格的令人信服的理論依據(jù),存在著一定的主觀人為性,這似乎是嶺跡法的一個(gè)明顯缺點(diǎn)。從另一方面說(shuō),嶺跡法確定k值的這種人為性正好是定性分析與定量分析有機(jī)結(jié)合的地方。例如在圖7-3中,當(dāng)k取時(shí),各回歸系數(shù)的估計(jì)值基本上都能達(dá)到相對(duì)穩(wěn)定。當(dāng)然,上述種種要求并不總是能達(dá)到的。如在例7-1中由圖7-1看到,取k=0.5,嶺跡已算平穩(wěn)。從而已經(jīng)相當(dāng)接近于真值還相差很大。2024/4/23527.4嶺參數(shù)k的選擇
7.4.2
方差擴(kuò)大因子法
方差擴(kuò)大因子可以度量多重共線(xiàn)性的嚴(yán)重程度,一般當(dāng)時(shí),模型就有嚴(yán)重的多重共線(xiàn)性。計(jì)算嶺估計(jì)
的協(xié)方差陣,得7.4嶺參數(shù)k的選擇
的對(duì)角元素為嶺估計(jì)的方差擴(kuò)大因子。不難看出,隨著k
的增大而減少。用方差擴(kuò)大因子選擇k
的經(jīng)驗(yàn)做法是:選擇k
使所有方差擴(kuò)因子。當(dāng)時(shí),所對(duì)應(yīng)的k
值的嶺估計(jì)就會(huì)相對(duì)穩(wěn)定。2024/4/23532024/4/23547.4.3由殘差平方和來(lái)確定k值
嶺估計(jì)在減小均方誤差的同時(shí)增大了殘差平方和,我們希望嶺回歸的殘差平方和SSE(k)的增加幅度控制在一定的限度以?xún)?nèi),可以給定一個(gè)大于1的c值,要求:
SSE(k)<cSSE (7.3)尋找使(7.3)式成立的最大的k值。7.4嶺參數(shù)k的選擇
7.5用嶺回歸選擇變量2024/4/2355嶺回歸選擇變量的原則:(1)在嶺回歸中設(shè)計(jì)矩陣X已經(jīng)中心化和標(biāo)準(zhǔn)化了,這樣可以直接比較標(biāo)準(zhǔn)化嶺回歸系數(shù)的大小。可以剔除掉標(biāo)準(zhǔn)化嶺回歸系數(shù)比較穩(wěn)定且絕對(duì)值很小的自變量。(2)隨著k的增加,回歸系數(shù)不穩(wěn)定,振動(dòng)趨于零的自變量也可以剔除。(3)剔除標(biāo)準(zhǔn)化嶺回歸系數(shù)很不穩(wěn)定的自變量。如果依照上述去掉變量的原則,有若干個(gè)回歸系數(shù)不穩(wěn)定,究竟去掉幾個(gè),去掉哪幾個(gè),這并無(wú)一般原則可循,這需根據(jù)去掉某個(gè)變量后重新進(jìn)行嶺回歸分析的效果來(lái)確定。2024/4/2356例7-2空氣污染問(wèn)題。Mcdonald和Schwing在參考文獻(xiàn)[19]中曾研究死亡率與空氣污染、氣候以及社會(huì)經(jīng)濟(jì)狀況等因素的關(guān)系??紤]了15個(gè)解釋變量,收集了60組樣本數(shù)據(jù)。x1—Averageannualprecipitationininches平均年降雨量x2—AverageJanuarytemperatureindegreesF1月份平均氣溫x3—AverageJulytemperatureindegreesF
7月份平均氣溫x4—Percentof1960SMSApopulationaged65orolder年齡65歲及以上的人口占總?cè)丝诘陌俜直葂5—Averagehouseholdsize每家人口數(shù)x6—Medianschoolyearscompletedbythoseover22年齡在22歲以上的人受教育年限的中位數(shù)7.5用嶺回歸選擇變量2024/4/2357x7—Percentofhousingunitswhicharesound&withallfacilities
住房符合標(biāo)準(zhǔn)的家庭比例數(shù)x8—Populationpersq.mileinurbanizedareas每平方公里人口數(shù)x9—Percentnon-whitepopulationinurbanizedareas非白種人占總?cè)丝诘谋壤齲10—Percentemployedinwhitecollaroccupations白領(lǐng)階層受雇百分?jǐn)?shù)x11—Percentoffamilieswithincome<$3000
收入在3000美元以下的家庭比例x12—Relativehydrocarbonpollutionpotential碳?xì)浠衔锏南鄬?duì)污染勢(shì)7.5用嶺回歸選擇變量2024/4/2358計(jì)算
的15個(gè)特征根為:4.5272,2.7547,2.0545,1.3487,1.2227,0.9605,0.6124,0.4729,0.3708,0.2163,0.1665,0.1275,0.1142,0.0460,0.0049條件數(shù)
x13—Samefornitricoxides氮氧化合物的相對(duì)污染勢(shì)x14—Sameforsulphurdioxide二氧化硫的相對(duì)污染勢(shì)x15—Annualaverage%relativehumidityat1pm年平均相對(duì)濕度y—Totalage-adjustedmortalityrateper100,000每十萬(wàn)人中的死亡人數(shù)7.5用嶺回歸選擇變量2024/4/2359進(jìn)行嶺跡分析把15個(gè)回歸系數(shù)的嶺跡畫(huà)到圖7-4中,我們可看到,當(dāng)k=0.20時(shí)嶺跡大體上達(dá)到穩(wěn)定。按照嶺跡法,應(yīng)取k=0.2。若用方差擴(kuò)大因子法,當(dāng)k在0.02~0.08時(shí),方差擴(kuò)大因子小于10,故應(yīng)建議在此范圍選取k。由此也看到不同的方法選取的k值是不同的。7.5用嶺回歸選擇變量2024/4/23607.5用嶺回歸選擇變量2024/4/23617.5用嶺回歸選擇變量
在用嶺回歸進(jìn)行變量選擇時(shí),因?yàn)閺膸X跡看到自變量有較穩(wěn)定且絕對(duì)值比較小的嶺回歸系數(shù),根據(jù)變量選擇的第一條原則,這些自變量可以去掉。又因?yàn)樽宰兞康膸X回歸系數(shù)很不穩(wěn)定,且隨著k的增加很快趨于零,根據(jù)上面的第二條原則這些自變量也應(yīng)該去掉。再根據(jù)第三條原則去掉變量。這個(gè)問(wèn)題最后剩的變量是。2024/4/23627.5用嶺回歸選擇變量例7-3
Gorman-Torman例子(見(jiàn)參考文獻(xiàn)[2])。本例共有10個(gè)自變量,X已經(jīng)中心化和標(biāo)準(zhǔn)化了,的特征根為:
3.692,1.542,1.293,1.046,0.972,
0.659,0.357,0.220,0.152,0.068
最后一個(gè)特征根,較接近于零。
2024/4/23637.5用嶺回歸選擇變量
條件數(shù)k=54.294<100。從條件數(shù)的角度看,似乎設(shè)計(jì)矩陣X沒(méi)有復(fù)共線(xiàn)性。但下面的研究表明,做嶺回歸還是必要的。關(guān)于條件數(shù),這里附帶說(shuō)明它的一個(gè)缺陷,就是當(dāng)所有特征根都比較小時(shí),雖然條件數(shù)不大,但多重共線(xiàn)性卻存在。本例就是一個(gè)證明。2024/4/2364
下面做嶺回歸分析。對(duì)15個(gè)k值算出,畫(huà)出嶺跡,如圖7-5(a)所示??煽吹阶钚《斯烙?jì)的穩(wěn)定性很差。這反映在當(dāng)k與0略有偏離時(shí),就有較大的差距,特別是變化最明顯。當(dāng)k從0上升到0.1時(shí),的59%,而在正交設(shè)計(jì)的情形下只下降17%。這些現(xiàn)象在直觀上就使人懷疑最小二乘估計(jì)是否反映了回歸系數(shù)的真實(shí)情況。7.5用嶺回歸選擇變量2024/4/23657.5用嶺回歸選擇變量2024/4/23667.5用嶺回歸選擇變量另外,因素的回歸系數(shù)的最小二乘估計(jì)為負(fù)回歸系數(shù)中絕對(duì)值最大的,但當(dāng)k增加時(shí),迅速上升且變?yōu)檎?。與此相反,對(duì)因素,為正的,且絕對(duì)值最大,但當(dāng)k
增加時(shí),迅速下降。再考慮到,的樣本相關(guān)系數(shù)達(dá)到0.84,因此這兩個(gè)因素可近似地合并為一個(gè)因素。2024/4/23677.5用嶺回歸選擇變量再來(lái)看,它的回歸系數(shù)估計(jì)的絕對(duì)值偏高,當(dāng)k
增加時(shí),很快接近零,這意味著
實(shí)際上對(duì)y
無(wú)多大影響。至于,其回歸系數(shù)的最小二乘估計(jì)的絕對(duì)值看來(lái)有點(diǎn)偏低,當(dāng)k
增加時(shí),首先迅速上升,成為對(duì)因變量有負(fù)影響的最重要的自變量。當(dāng)k
較大時(shí),穩(wěn)定地緩慢趨于零。這意味著,通常的最小二乘估計(jì)對(duì)
的重要性估計(jì)過(guò)低。2024/4/23687.5用嶺回歸選擇變量從整體上看,當(dāng)k達(dá)到0.2~0.3的范圍時(shí),各個(gè)大體上趨于穩(wěn)定,因此,在這一區(qū)間取一個(gè)k值做嶺回歸可能得到較好的結(jié)果。本例中當(dāng)k從0略微增加時(shí),很快趨于零,于是它們很自然應(yīng)該被剔除。剔除它們之后,重做嶺回歸分析,嶺跡基本穩(wěn)定,如圖7-5(b)所示,因此剔除
是合理的。2024/4/23697.5用嶺回歸選擇變量2024/4/2370例7-4用嶺回歸方法處理民航客運(yùn)數(shù)據(jù)的多重共線(xiàn)性問(wèn)題。用R軟件對(duì)例3-3做嶺回歸分析,其中嶺參數(shù)k及其相應(yīng)的回歸系數(shù)的計(jì)算結(jié)果見(jiàn)表7-3,輸出的嶺跡圖見(jiàn)圖7-6(a),相應(yīng)的計(jì)算代碼如下:
7.5用嶺回歸選擇變量2024/4/23717.5用嶺回歸選擇變量2024/4/23727.5用嶺回歸選擇變量2024/4/23737.5用嶺回歸選擇變量2024/4/23747.5用嶺回歸選擇變量從圖7-6(a)中可以看到,變量的嶺回歸系數(shù)從負(fù)值迅速變?yōu)檎担佳杆贉p少,兩者之和比較穩(wěn)定,從嶺回歸的角度看,只要保留一個(gè)就可以了,的嶺回歸系數(shù)相對(duì)穩(wěn)定。通過(guò)上面的分析,我們決定剔除,用y與其余四個(gè)自變量做嶺回歸。把嶺參數(shù)的取值范圍縮小為0到2,步長(zhǎng)取0.2,用下面的R程序進(jìn)行計(jì)算并得到相應(yīng)的輸出結(jié)果:2024/4/23757.5用嶺回歸選擇變量2024/4/23767.5用嶺回歸選擇變量2024/4/23777.5用嶺回歸選擇變量圖7-6(b)2024/4/23787.5用嶺回歸選擇變量由表7-4看到,剔除后嶺回歸系數(shù)的變化幅度減小。從嶺跡圖7-6(b)看出,嶺參數(shù)k大于1.6時(shí),嶺參數(shù)的取值基本穩(wěn)定,不妨定k=1.6,此時(shí)由表7-4得到樣本數(shù)據(jù)標(biāo)準(zhǔn)化后的嶺回歸方程為:此時(shí)對(duì)應(yīng)未標(biāo)準(zhǔn)化的嶺回歸方程為:
與第6章剔除變量法相比,嶺回歸方法保留了自變量,如果希望回歸方程中多保留一些自變量,那么嶺回歸方法是很有用的方法。2024/4/23797.5用嶺回歸選擇變量現(xiàn)在進(jìn)一步計(jì)算出含有全部5個(gè)自變量的嶺回歸結(jié)果,與普通最小二乘的結(jié)果做一個(gè)比較。取嶺參數(shù)k=2.0,得嶺回歸方程為普通最小二乘回歸方程為顯然嶺回歸方程比普通最小二乘回歸方程的實(shí)際意義更為容易解釋。
=-8805+0.706x1-1.773x2+0.157x3+0.139x4+25.82x5第8章主成分回歸與偏最小二乘8.1主成分回歸8.2偏最小二乘8.3本章小結(jié)與評(píng)注2024/4/23808.1主成分回歸2024/4/23818.1.1主成分的基本思想主成分分析(PrincipalComponentsAnalysis,PCA)也稱(chēng)為主量分析,利用一種降維的思想,在損失信息很少的前提下把多個(gè)指標(biāo)利用正交旋轉(zhuǎn)變換轉(zhuǎn)化為幾個(gè)綜合指標(biāo)。通常把轉(zhuǎn)化成的綜合指標(biāo)稱(chēng)為主成分,其中每個(gè)主成分都是原始變量的線(xiàn)性組合,且各個(gè)主成分之間互不相關(guān)。8.1主成分回歸設(shè)對(duì)某一事物的研究涉及p個(gè)指標(biāo),分別用表示。這p個(gè)指標(biāo)構(gòu)成的p維隨機(jī)向量為設(shè)隨機(jī)向量X的均值為,協(xié)方差矩陣為。對(duì)X進(jìn)行線(xiàn)性變換,可以形成新的綜合變量,用Y表示,即滿(mǎn)足下式:2024/4/23822024/4/23838.1主成分回歸由于可以任意地對(duì)原始變量進(jìn)行上述線(xiàn)性變換,得到的綜合變量Y的統(tǒng)計(jì)特性也不盡相同。因此為了取得較好的效果,我們總是希望的方差盡可能大且各之間互相獨(dú)立,由于而對(duì)于任意常數(shù)c,有因此,對(duì)不加限制時(shí),可使任意增大,問(wèn)題將變得沒(méi)有意義。我們將線(xiàn)性變換約束在下面的原則之下:2024/4/23848.1主成分回歸不相關(guān)的一切滿(mǎn)足原則(1)的線(xiàn)性組合中方差最大者;不相關(guān)的所有線(xiàn)性組合中方差最大者;…;不相關(guān)的的所有線(xiàn)性組合中方差最大者?;谝陨先龡l原則決定的綜合變量分別被稱(chēng)為原始變量的第一、第二、…、第p個(gè)主成分。其中,各綜合變量在總方差中占的比重依次遞減。在實(shí)際研究工作中,通常只挑前幾個(gè)方差最大的主成分,從而達(dá)到簡(jiǎn)化系統(tǒng)結(jié)構(gòu),抓住問(wèn)題實(shí)質(zhì)的目的。2024/4/2385結(jié)論:設(shè)隨機(jī)向量的協(xié)方差矩陣為為相應(yīng)特征值,為對(duì)應(yīng)的特征向量,則第i個(gè)主成分為:8.1.2主成分的基本性質(zhì)引論:設(shè)矩陣,將A的特征值依大小順序排列,不妨設(shè)為矩陣A各特征值對(duì)應(yīng)的標(biāo)準(zhǔn)正交向量,則對(duì)任意向量x,有:8.1主成分回歸2024/4/2386由以上結(jié)論,我們把的協(xié)方差陣的非零特征值對(duì)應(yīng)的標(biāo)準(zhǔn)化特征向量分別作為系數(shù)向量,分別稱(chēng)為隨機(jī)向量X的第一主成分、第二主成分、…、第p個(gè)主成分。性質(zhì)1Y的協(xié)方差陣為對(duì)角陣,其中對(duì)角線(xiàn)上的值為
。此時(shí):8.1主成分回歸2024/4/23878.1主成分回歸性質(zhì)2記稱(chēng)為第k個(gè)主成分的方差貢獻(xiàn)率,稱(chēng)為前m個(gè)主成分的累積貢獻(xiàn)率。性質(zhì)3
式中,第k個(gè)主成分與原始變量的相關(guān)系數(shù)稱(chēng)為因子負(fù)荷量,其絕對(duì)值大小刻畫(huà)了該主成分的主要意義及其成因。
性質(zhì)4
2024/4/23888.1主成分回歸性質(zhì)5
與前m個(gè)主成分的全相關(guān)系數(shù)平方和稱(chēng)為
對(duì)
的方差貢獻(xiàn)率
,(i=1,2,…,p)。這一定義說(shuō)明前m個(gè)主成分提取了原始變量中的信息,由此可以判斷提取的主成分解釋原始變量的能力。為了避免變量的量綱不同所產(chǎn)生的影響,先將數(shù)據(jù)中心標(biāo)準(zhǔn)化,中心標(biāo)準(zhǔn)化后的自變量樣本觀測(cè)數(shù)據(jù)矩陣是n行p列的矩陣,就是相關(guān)陣。2024/4/2389例8-1下面以例3-3民航客運(yùn)量的數(shù)據(jù)為例介紹主成分回歸方法。首先對(duì)5個(gè)自變量計(jì)算主成分,用R軟件進(jìn)行計(jì)算并輸出相應(yīng)的計(jì)算結(jié)果,見(jiàn)輸出結(jié)果8.1和輸出結(jié)果8.2。8.1主成分回歸2024/4/23908.1主成分回歸輸出結(jié)果8.1中Importanceofcomponents部分第一行是5個(gè)主成分的標(biāo)準(zhǔn)差,即主成分所對(duì)應(yīng)的特征值的算術(shù)平方根
(k=1,2,…,p);第二行是各主成分方差所占的比例,反映了主成分所能解釋數(shù)據(jù)變異的比例,也就是包含原數(shù)據(jù)的信息比例;第三行是累積比例。第一個(gè)主成分Comp.1的方差百分比為78.865%,含有原始5個(gè)變量近80%的信息量;前兩個(gè)主成分累積百分比為98.462%,幾乎包含了5個(gè)變量的全部信息,因此取兩個(gè)主成分已經(jīng)足夠。8.1主成分回歸2024/4/2391另外,Loadings部分輸出的矩陣為各主成分表達(dá)式中的系數(shù),其中空白部分為默認(rèn)的未輸出的<0.1的值,這個(gè)系數(shù)矩陣即是由(k,
i=1,2,…,p)構(gòu)成的矩陣,不妨記為U,其中U的第i列即第i個(gè)特征值對(duì)應(yīng)的特征向量。由于分析是由標(biāo)準(zhǔn)化的數(shù)據(jù)出發(fā)而使用的相關(guān)陣,故
(i=1,2,…,p),U為自變量相關(guān)陣的特征向量所構(gòu)成的矩陣,所以第k個(gè)主成分對(duì)變量的因子負(fù)荷量為(k,i=1,2,…,p)。因此,由矩陣U很容易計(jì)算得到因子載荷陣。8.1主成分回歸2024/4/23922024/4/2393為了做主成分回歸,我們需要計(jì)算主成分的得分
(i=1,2,…,n),其中
為標(biāo)準(zhǔn)化后的第i個(gè)樣本值。由于前兩個(gè)主成分的方差累積貢獻(xiàn)率已經(jīng)達(dá)到98.462%,只需保留前兩個(gè)主成分,此處只輸出前兩個(gè)主成分的得分,見(jiàn)右圖。8.1主成分回歸2024/4/2394現(xiàn)在用y對(duì)前兩個(gè)主成分做普通最小二乘回歸,R代碼如下:在R中運(yùn)行該代碼,得到如下結(jié)果:8.1主成分回歸2024/4/23958.1主成分回歸2024/4/2396由以上輸出結(jié)果可知,標(biāo)準(zhǔn)化后的y(記為
)對(duì)兩個(gè)主成分做普通最小二乘估計(jì),得到主成分的回歸方程為:由于主成分是標(biāo)準(zhǔn)化后自變量的線(xiàn)性組合,如果想要得到關(guān)于標(biāo)準(zhǔn)化后的五個(gè)自變量的回歸方程,只需分別將下面兩個(gè)式子代入上式即可得到此時(shí)回歸方程中每個(gè)回歸系數(shù)的符號(hào)也都能夠合理地解釋。8.1主成分回歸8.2偏最小二乘法當(dāng)時(shí),最小二乘法就可以求出,然而當(dāng)k>n,通常的最小二乘法無(wú)法進(jìn)行。2024/4/2397在經(jīng)濟(jì)問(wèn)題的研究中遇到的回歸問(wèn)題往往有兩個(gè)特點(diǎn):一是自變量的數(shù)目比較多,常會(huì)碰到有幾十個(gè)自變量,而觀察的時(shí)點(diǎn)并不多的情況。二是回歸方程建立后主要的應(yīng)用是預(yù)測(cè)。用符號(hào)來(lái)表示,即對(duì)因變量y和自變量觀測(cè)n組數(shù)據(jù):(8.1)假定它們之間有關(guān)系式(8.2)式中,為誤差項(xiàng)。用觀測(cè)值去估計(jì)式(8.2),得到回歸方程:(8.3)2024/4/23988.2偏最小二乘法從式(8.2)來(lái)看,我們并不需要很多自變量,實(shí)際上只要的一個(gè)線(xiàn)性函數(shù)就行了。通常的最小二乘法,就是尋求
的線(xiàn)性函數(shù)中與y的相關(guān)系數(shù)絕對(duì)值達(dá)到最大的一個(gè)。這時(shí)需求
的逆矩陣,其中X是由所有自變量的觀測(cè)值組成的矩陣。當(dāng)k>n時(shí),
是一個(gè)奇異矩陣,無(wú)法求逆。主成分回歸(PCR)就不求的逆,而直接求的特征根。因此將y
對(duì)前幾個(gè)主成分做回歸就可以了,這就是PCR的主要想法。PCR雖然解決了k>n這一矛盾,但它選主成分的方法與因變量y無(wú)關(guān),只跟自變量有關(guān)。2024/4/23998.2偏最小二乘法偏最小二乘(PartialLeastSquares,PLS)在這一點(diǎn)上與PCR不同,它尋找的線(xiàn)性函數(shù)時(shí),考慮與y的相關(guān)性,選擇與y相關(guān)性較強(qiáng)又能方便算出的的線(xiàn)性函數(shù)。它的算法是最小二乘,但是它只考慮偏向與y有關(guān)的一部分,所以稱(chēng)為偏最小二乘。具體的選法與最小二乘法有關(guān),所以先回憶一下最小二乘法的公式對(duì)理解PLS很有好處。2024/4/23100考慮一元線(xiàn)性回歸情況。共觀測(cè)了
組數(shù)據(jù),
,當(dāng)這些數(shù)據(jù)的均值為0時(shí),有:式中,為觀測(cè)值向量。PLS就是反復(fù)利用式(8.5)。8.2偏最小二乘法2024/4/23101首先將數(shù)據(jù)中心化,中心化之后得到的相應(yīng)的各自的均值都是0。將對(duì)每個(gè)自變量單獨(dú)做回歸,用式(8.5)可得其中表示資料向量,表示自變量(不是數(shù)據(jù))。8.2偏最小二乘法2024/4/23102令將作為自變量,y作因變量建立回歸方程,由式(8.5)得將式(8.7)右端的量加權(quán)后,用記相應(yīng)的權(quán),就得到它相應(yīng)的n個(gè)數(shù)據(jù)資料是8.2偏最小二乘法2024/4/23103于是得殘差。考慮到殘差中不再含
的信息,因此各個(gè)自變量的作用對(duì)y而言,含的部分已不具新的信息,都應(yīng)刪去。也就是將每個(gè)自變量對(duì)
求回歸,得回歸方程和預(yù)測(cè)值利用上式預(yù)測(cè)y,得預(yù)測(cè)值向量:8.2偏最小二乘法2024/4/23104相應(yīng)的殘差。于是將作為新的原始資料,重復(fù)上述步驟,逐步求得的秩。最后利用y對(duì)用普通最小二乘方法進(jìn)行回歸分析,經(jīng)過(guò)變量間的轉(zhuǎn)換,最終可得到y(tǒng)對(duì)的回歸方程,這種求回歸方程的方法就稱(chēng)為PLS法,即偏最小二乘法。8.2偏最小二乘法2024/4/23105偏最小二乘的算法從上面構(gòu)造
的過(guò)程可得如下的算法(X,y資料已中心化,rank(X)=r):8.2偏最小二乘法2024/4/23106上述算法完全體現(xiàn)了PLS的想法。1988年赫蘭(Helland)導(dǎo)出了一個(gè)更為簡(jiǎn)單的算法。引入記號(hào)赫蘭證明了對(duì)a=1,2,…,r
都成立。于是PLS算法可改為:8.2偏最小二乘法2024/4/23107上述算法中都存在一個(gè)問(wèn)題,就是這個(gè)算法何時(shí)結(jié)束,什么是合適的a,是否一定要算到某個(gè)中的一列全是0為止?一般來(lái)說(shuō),可以自己規(guī)定一個(gè)你認(rèn)為最切合所研究問(wèn)題的標(biāo)準(zhǔn)。已有的運(yùn)用PLS的情況中,大都使用交叉驗(yàn)證(cross-validation)法。這個(gè)方法是這樣的:從資料X,y中刪去第l組資料,刪去后的X,y用表示。把作為原始資料,用PLS算出預(yù)測(cè)方程中的表達(dá)式,然后用表示這個(gè)預(yù)測(cè)方程的預(yù)測(cè)值,將代入得到預(yù)測(cè)值
,殘差
就反映了第a步預(yù)測(cè)方程的好壞在第l組資料上的體現(xiàn),于是8.2偏最小二乘法2024/4/23108就在整體上反映了第a步預(yù)測(cè)方程的好壞。把這個(gè)值記為損失L(a),自然應(yīng)該選a使L(a)達(dá)到最小,即應(yīng)該選使正因?yàn)槭褂昧诉@個(gè)交叉驗(yàn)證方法,選出的預(yù)測(cè)方程效果往往比較好。R軟件中建立偏最小二乘回歸方程的函數(shù)plsr()中包含了四種PLS算法,使用時(shí)可以根據(jù)實(shí)際情況選擇不同的算法,其默認(rèn)的算法為Kernel。由于Kernel算法的計(jì)算效率較高,建立偏最小二乘回歸通常會(huì)選擇使用該算法。8.2偏最小二乘法2024/4/23109偏最小二乘的應(yīng)用例8-2對(duì)發(fā)電量需求和工業(yè)產(chǎn)量的關(guān)系進(jìn)行建模,因變量y為發(fā)電量產(chǎn)量(億千瓦時(shí)),自變量
為原煤產(chǎn)量(億噸),
為原油產(chǎn)量(萬(wàn)噸),
為天然氣產(chǎn)量(億立方米),
為生鐵產(chǎn)量(萬(wàn)噸),
為紗產(chǎn)量(萬(wàn)噸),
為硫酸產(chǎn)量(萬(wàn)噸),
為燒堿(折100%)產(chǎn)量(萬(wàn)噸),
為純堿產(chǎn)量(萬(wàn)噸),
為農(nóng)用化肥產(chǎn)量(萬(wàn)噸),
為水泥產(chǎn)量(萬(wàn)噸),
為平板玻璃產(chǎn)量(萬(wàn)重量箱),
為鋼產(chǎn)量(萬(wàn)噸),
為成品鋼材產(chǎn)量(萬(wàn)噸)。數(shù)據(jù)見(jiàn)書(shū)上表8-1。13x8.2偏最小二乘法2024/4/23110在k≥n的情況下,無(wú)法使用普通最小二乘估計(jì)方法建立回歸模型,此時(shí)可以運(yùn)用偏最小二乘方法。R中在使用函數(shù)plsr()建立偏最小二乘回歸方程前,首先需要加載pls包,具體的計(jì)算代碼及運(yùn)行結(jié)果如下。8.2偏最小二乘法2024/4/231118.2偏最小二乘法2024/4/23112上述為使用了所有主成分進(jìn)行回歸所得到的結(jié)果,從回歸結(jié)果中可以看出,主成分個(gè)數(shù)為3個(gè)時(shí),模型在經(jīng)過(guò)留一交叉驗(yàn)證法后求得的RMSEP總和較小,且隨著成分個(gè)數(shù)的增加,RMSEP值未出現(xiàn)明顯減少,同時(shí)3個(gè)主成分對(duì)各個(gè)因變量的累積貢獻(xiàn)率均高于99%,因此將回歸的主成分個(gè)數(shù)定為m=3。下面給出主成分為3時(shí)的回歸方程計(jì)算代碼及輸出結(jié)果8.4。8.2偏最小二乘法2024/4/231138.2偏最小二乘法2024/4/23114由以上結(jié)果可知,對(duì)于標(biāo)準(zhǔn)化后的數(shù)據(jù)
對(duì)所有自變量的回歸方程為:將回歸方程中的變量還原為原始變量:8.2偏最小二乘法8.3本章小結(jié)與評(píng)注一、主成分回歸可以用于n小于p的情形可以用于多重共線(xiàn)性情形建模效果有一定改進(jìn)2024/4/23115關(guān)于主成分回歸的質(zhì)疑1、主成分是自變量的線(xiàn)性組合,能保證它與Y有相關(guān)性嗎?萬(wàn)一主成分與Y
無(wú)關(guān)呢?2、1998年AliS.Hadi和RobertF.Ling在TheAmericanStatistician上發(fā)文章(SomeCautionaryNotesontheUseofPrincipalComponentsRegression)給了個(gè)例子,前k-1個(gè)主成分與因變量一點(diǎn)關(guān)系都沒(méi)有,而最后一個(gè)主成分解釋了因變量所有的變異。3、甚至有人認(rèn)為沒(méi)有必要給人們推薦主成分回歸了,過(guò)時(shí)了,但是即使在今天的美國(guó)的統(tǒng)計(jì)課上,講到多重共線(xiàn)性問(wèn)題的時(shí)候教授們還在推薦PCR。2024/4/231161975年H.wold在經(jīng)濟(jì)學(xué)研究中引入了PLS進(jìn)行路徑分析,創(chuàng)建了非線(xiàn)性迭代PLS算法(NonlinearIterativePartialLeastSquaresalgorithm),1983年H.wold的兒子Swold和Albano提出PLSR的概念,用來(lái)解決計(jì)量化學(xué)中n小于p的情況??梢杂糜趎小于p的情形可以用于多重共線(xiàn)性情形建模效果有一定改進(jìn)2024/4/23117二、PLSR8.3本章小結(jié)與評(píng)注解決了與因變量沒(méi)關(guān)系的問(wèn)題。(特征根回歸把因變量Y也考慮進(jìn)來(lái)了!)甚至有人總結(jié)出PLSR=MLR+CCR+PCRPLSR的基礎(chǔ)是LS,在盡可能提取包含自變量更多信息的成分的基礎(chǔ)上,保證了提取主成分與因變量最大相關(guān)性。即偏愛(ài)與因變量有關(guān)的部分,所以稱(chēng)為偏最小二乘回歸。8.3本章小結(jié)與評(píng)注2024/4/23118多對(duì)多的回歸建模2024/4/23119考慮p個(gè)因變量與m個(gè)自變量的建模問(wèn)題。偏最小二乘回歸的基本做法是,首先在自變量集中提出第一成分的線(xiàn)性組合,且盡可能多地提取原自變量中的變異信息);同時(shí)在因變量集中也提取第一成分,并要求相關(guān)程度達(dá)到最大。然后建立因變量的回歸,如果回歸方程已達(dá)到滿(mǎn)意的精度,則算法中止。否則繼續(xù)第二對(duì)成分的提取,直到能達(dá)到滿(mǎn)意的精度為止。若最終對(duì)自變量提取r個(gè)成分,偏最小二乘回歸將通過(guò)建立與的回歸式,然后再表示為與原自變量的回歸方程式,即偏最小二乘回歸方程式。各種回歸方法的假設(shè)條件有人認(rèn)為PLSR是回歸建模的“神器”,認(rèn)為“PLSR感覺(jué)已經(jīng)把主成分分析和回歸發(fā)揮到極致了”。MichiganUniversity的Fornell稱(chēng)PLSR為第二代回歸分析方法。任何科學(xué)研究大概都是無(wú)窮盡的,統(tǒng)計(jì)學(xué)方法也一定不會(huì)例外,當(dāng)我們肯定和大加贊賞某種東西時(shí)也要留有余地。2024/4/23120第9章非線(xiàn)性回歸2024/4/231219.1可化為線(xiàn)性回歸的曲線(xiàn)回歸9.2多項(xiàng)式回歸9.3非線(xiàn)性模型9.1可化為線(xiàn)性回歸的曲線(xiàn)回歸2024/4/23122(b已知)(9.1)
曲線(xiàn)回歸模型只須令
即可化為y對(duì)
是線(xiàn)性的形式
需要指出的是,新引進(jìn)的自變量只能依賴(lài)于原始變量,而不能與未知參數(shù)有關(guān)。2024/4/231239.1可化為線(xiàn)性回歸的曲線(xiàn)回歸令,于是得到y(tǒng)關(guān)于的線(xiàn)性表達(dá)式
(9.2)式本來(lái)只有一個(gè)自變量x,是一元p次多項(xiàng)式回歸,在線(xiàn)性化后,變?yōu)閜元線(xiàn)性回歸。線(xiàn)性回歸的“線(xiàn)性”是針對(duì)未知參數(shù)而言的。對(duì)于回歸解釋變量的線(xiàn)性是非本質(zhì)的,因?yàn)榻忉屪兞渴欠蔷€(xiàn)性時(shí),總可以通過(guò)變量的替換把它轉(zhuǎn)化成線(xiàn)性的。2024/4/231249.1可化為線(xiàn)性回歸的曲線(xiàn)回歸對(duì)等式兩邊同時(shí)取自然對(duì)數(shù),得:令于是得到關(guān)于x的一元線(xiàn)性回歸模型2024/4/23125不可線(xiàn)性化的曲線(xiàn)回歸模型,如不能通過(guò)對(duì)等式兩邊同時(shí)取自然對(duì)數(shù)的方法將回歸模型線(xiàn)性化,只能用非線(xiàn)性最小二乘方法求解。(9.3)式的誤差項(xiàng)稱(chēng)為乘性誤差項(xiàng)。
(9.4)式的誤差項(xiàng)稱(chēng)為加性誤差項(xiàng)。一個(gè)非線(xiàn)性回歸模型是否可以線(xiàn)性化,不僅與回歸函數(shù)的形式有關(guān),而且與誤差項(xiàng)的形式有關(guān)。
9.1可化為線(xiàn)性回歸的曲線(xiàn)回歸2024/4/231269.1可化為線(xiàn)性回歸的曲線(xiàn)回歸
在對(duì)非線(xiàn)性回歸模型線(xiàn)性化時(shí),總是假定誤差項(xiàng)的形式就是能夠使回歸模型線(xiàn)性化的形式,為了方便,常常省去誤差項(xiàng),僅寫(xiě)出回歸函數(shù)的形式。例如把回歸模型(9.3)式簡(jiǎn)寫(xiě)為。(9.3)式與(9.4)式的回歸參數(shù)的估計(jì)值是有差異的。對(duì)誤差項(xiàng)的形式,首先應(yīng)該由數(shù)據(jù)的經(jīng)濟(jì)意義來(lái)確定,然后由回歸擬合效果做檢驗(yàn)。過(guò)去,由于沒(méi)有非線(xiàn)性回歸軟件,人們總是希望非線(xiàn)性回歸模型可以線(xiàn)性化,因而誤差項(xiàng)的形式就假定為可以把模型線(xiàn)性化的形式。現(xiàn)在利用計(jì)算機(jī)軟件可以容易的解決非線(xiàn)性回歸問(wèn)題,因而對(duì)誤差項(xiàng)形式應(yīng)該做正確的選擇。2024/4/2312710種常見(jiàn)的可線(xiàn)性化的曲線(xiàn)回歸方程9.1可化為線(xiàn)性回歸的曲線(xiàn)回歸2024/4/23128除了上述10種常用的曲線(xiàn)外,還有幾種常用的曲線(xiàn)如下。1.雙曲函數(shù)
或等價(jià)地表示為
9.1可化為線(xiàn)性回歸的曲線(xiàn)回歸2024/4/23129(a>0,b>0)9.1可化為線(xiàn)性回歸的曲線(xiàn)回歸2024/4/231302.S型曲線(xiàn)II
此S型曲線(xiàn)II當(dāng)a>0,b>0時(shí),是x的增函數(shù)。當(dāng)x→+∞時(shí),y→1/a
;x→-∞時(shí),y→0。
y=0與y=1/a是這條曲線(xiàn)的兩條漸進(jìn)線(xiàn)。
S型曲線(xiàn)有多種,其共同特點(diǎn)是曲線(xiàn)首先是緩慢增長(zhǎng),在達(dá)到某點(diǎn)后迅速增長(zhǎng),在超過(guò)某點(diǎn)后又變?yōu)榫徛鲩L(zhǎng),并且趨于一個(gè)穩(wěn)定值。
S型曲線(xiàn)在社會(huì)經(jīng)濟(jì)等很多領(lǐng)域都有應(yīng)用,例如某種產(chǎn)品的銷(xiāo)售量與時(shí)間的關(guān)系,樹(shù)木、農(nóng)作物的生長(zhǎng)與時(shí)間的關(guān)系等。9.1可化為線(xiàn)性回歸的曲線(xiàn)回歸2024/4/231319.1可化為線(xiàn)性回歸的曲線(xiàn)回歸例9-1
對(duì)國(guó)內(nèi)生產(chǎn)總值(GDP)的擬合。我們選取GDP指標(biāo)為因變量,單位為億元,擬合GDP關(guān)于時(shí)間t的趨勢(shì)曲線(xiàn)。以1990年為基準(zhǔn)年,取值為t=1,2022年t=33,1990—2022年的數(shù)據(jù)如表9-2所示:2024/4/231329.1可化為線(xiàn)性回歸的曲線(xiàn)回歸9.1可化為線(xiàn)性回歸的曲線(xiàn)回歸2024/4/231332024/4/231349.1可化為線(xiàn)性回歸的曲線(xiàn)回歸從散點(diǎn)圖中看到,GDP隨時(shí)間t
的變化趨勢(shì)大致為指數(shù)函數(shù)形式,從經(jīng)濟(jì)學(xué)角度看,當(dāng)GDP的年增長(zhǎng)速度大致相同時(shí),其趨勢(shì)線(xiàn)就是指數(shù)函數(shù)形式。易看出復(fù)合函數(shù),增長(zhǎng)曲線(xiàn)指數(shù)函數(shù)這三個(gè)曲線(xiàn)方程實(shí)際上是等價(jià)的。在本例中,復(fù)合函數(shù)的形式與經(jīng)濟(jì)意義更吻合。2024/4/231359.1可化為線(xiàn)性回歸的曲線(xiàn)回歸以時(shí)間t為自變量,對(duì)數(shù)據(jù)進(jìn)行擬合,我們考慮建立簡(jiǎn)單線(xiàn)性回歸模型和復(fù)合函數(shù)回歸模型,其中復(fù)合函數(shù)是可線(xiàn)性化的,只需要對(duì)式子兩邊同時(shí)取對(duì)數(shù)即可將其化為
關(guān)于t的線(xiàn)性函數(shù)。因此,在建立復(fù)合函數(shù)回歸模型前需要計(jì)算的值,見(jiàn)表9-2。建立簡(jiǎn)單線(xiàn)性回歸模型和復(fù)合函數(shù)回歸模型的計(jì)算代碼如下,其運(yùn)行結(jié)果如輸出結(jié)果9.1和圖9-3所示。2024/4/231369.1可化為線(xiàn)性回歸的曲線(xiàn)回歸9.1可化為線(xiàn)性回歸的曲線(xiàn)回歸2024/4/231379.1可化為線(xiàn)性回歸的曲線(xiàn)回歸2024/4/231389.1可化為線(xiàn)性回歸的曲線(xiàn)回歸2024/4/231392024/4/231409.1可化為線(xiàn)性回歸的曲線(xiàn)回歸由輸出結(jié)果9.1可知,線(xiàn)性回歸的決定系數(shù)
,殘差平方和SSE=4.9902e+11,復(fù)合函數(shù)回歸的決定系數(shù),殘差平方和SSE=0.845是按線(xiàn)性化后的回歸模型計(jì)算的
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度城鎮(zhèn)土地使用權(quán)轉(zhuǎn)讓及配套設(shè)施建設(shè)合同協(xié)議3篇
- 二零二五年度小額貸款個(gè)人信用借款合同范本2篇
- 二零二五年度電子商務(wù)銷(xiāo)售結(jié)算合同3篇
- 二零二五年度建筑施工安全環(huán)保事故處理協(xié)議3篇
- 二零二五年度個(gè)人住宅買(mǎi)賣(mài)合同示范范本
- 酒店管理工作中的風(fēng)險(xiǎn)管控
- 醫(yī)院行業(yè)美工的醫(yī)療廣告
- 培訓(xùn)行業(yè)課程安全操作指南
- 電子工程師的領(lǐng)域探索
- 二零二五年度農(nóng)產(chǎn)品直銷(xiāo)銷(xiāo)售合同范本
- 《帶一本書(shū)去讀研:研究生關(guān)鍵學(xué)術(shù)技能快速入門(mén)》筆記
- 知識(shí)圖譜智慧樹(shù)知到答案2024年浙江大學(xué)
- 2024年度-美團(tuán)新騎手入門(mén)培訓(xùn)
- 高一數(shù)學(xué)寒假講義(新人教A專(zhuān)用)【復(fù)習(xí)】第05講 三角函數(shù)(學(xué)生卷)
- 農(nóng)村高中思想政治課時(shí)政教育研究的中期報(bào)告
- 醫(yī)院定崗定編方案文檔
- 4-熔化焊與熱切割作業(yè)基礎(chǔ)知識(shí)(一)
- 2023年200MW儲(chǔ)能電站儲(chǔ)能系統(tǒng)設(shè)計(jì)方案
- 個(gè)人安全與社會(huì)責(zé)任的基本知識(shí)概述
- 簡(jiǎn)易勞務(wù)合同電子版
- 明代文學(xué)緒論
評(píng)論
0/150
提交評(píng)論