版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第8章主成分回歸與偏最小二乘8.1主成分回歸8.2偏最小二乘8.3本章小結(jié)與評注2024/4/2318.1主成分回歸2024/4/2328.1.1主成分的基本思想主成分分析(PrincipalComponentsAnalysis,PCA)也稱為主量分析,利用一種降維的思想,在損失信息很少的前提下把多個指標利用正交旋轉(zhuǎn)變換轉(zhuǎn)化為幾個綜合指標。通常把轉(zhuǎn)化成的綜合指標稱為主成分,其中每個主成分都是原始變量的線性組合,且各個主成分之間互不相關(guān)。8.1主成分回歸設(shè)對某一事物的研究涉及p個指標,分別用表示。這p個指標構(gòu)成的p維隨機向量為設(shè)隨機向量X的均值為,協(xié)方差矩陣為。對X進行線性變換,可以形成新的綜合變量,用Y表示,即滿足下式:2024/4/2332024/4/2348.1主成分回歸由于可以任意地對原始變量進行上述線性變換,得到的綜合變量Y的統(tǒng)計特性也不盡相同。因此為了取得較好的效果,我們總是希望的方差盡可能大且各之間互相獨立,由于而對于任意常數(shù)c,有因此,對不加限制時,可使任意增大,問題將變得沒有意義。我們將線性變換約束在下面的原則之下:2024/4/2358.1主成分回歸不相關(guān)的一切滿足原則(1)的線性組合中方差最大者;不相關(guān)的所有線性組合中方差最大者;…;不相關(guān)的的所有線性組合中方差最大者?;谝陨先龡l原則決定的綜合變量分別被稱為原始變量的第一、第二、…、第p個主成分。其中,各綜合變量在總方差中占的比重依次遞減。在實際研究工作中,通常只挑前幾個方差最大的主成分,從而達到簡化系統(tǒng)結(jié)構(gòu),抓住問題實質(zhì)的目的。2024/4/236結(jié)論:設(shè)隨機向量的協(xié)方差矩陣為為相應(yīng)特征值,為對應(yīng)的特征向量,則第i個主成分為:8.1.2主成分的基本性質(zhì)引論:設(shè)矩陣,將A的特征值依大小順序排列,不妨設(shè)為矩陣A各特征值對應(yīng)的標準正交向量,則對任意向量x,有:8.1主成分回歸2024/4/237由以上結(jié)論,我們把的協(xié)方差陣的非零特征值對應(yīng)的標準化特征向量分別作為系數(shù)向量,分別稱為隨機向量X的第一主成分、第二主成分、…、第p個主成分。性質(zhì)1Y的協(xié)方差陣為對角陣,其中對角線上的值為
。此時:8.1主成分回歸2024/4/2388.1主成分回歸性質(zhì)2記稱為第k個主成分的方差貢獻率,稱為前m個主成分的累積貢獻率。性質(zhì)3
式中,第k個主成分與原始變量的相關(guān)系數(shù)稱為因子負荷量,其絕對值大小刻畫了該主成分的主要意義及其成因。
性質(zhì)4
2024/4/2398.1主成分回歸性質(zhì)5
與前m個主成分的全相關(guān)系數(shù)平方和稱為
對
的方差貢獻率
,(i=1,2,…,p)。這一定義說明前m個主成分提取了原始變量中的信息,由此可以判斷提取的主成分解釋原始變量的能力。為了避免變量的量綱不同所產(chǎn)生的影響,先將數(shù)據(jù)中心標準化,中心標準化后的自變量樣本觀測數(shù)據(jù)矩陣是n行p列的矩陣,就是相關(guān)陣。2024/4/2310例8-1下面以例3-3民航客運量的數(shù)據(jù)為例介紹主成分回歸方法。首先對5個自變量計算主成分,用R軟件進行計算并輸出相應(yīng)的計算結(jié)果,見輸出結(jié)果8.1和輸出結(jié)果8.2。8.1主成分回歸2024/4/23118.1主成分回歸輸出結(jié)果8.1中Importanceofcomponents部分第一行是5個主成分的標準差,即主成分所對應(yīng)的特征值的算術(shù)平方根
(k=1,2,…,p);第二行是各主成分方差所占的比例,反映了主成分所能解釋數(shù)據(jù)變異的比例,也就是包含原數(shù)據(jù)的信息比例;第三行是累積比例。第一個主成分Comp.1的方差百分比為78.865%,含有原始5個變量近80%的信息量;前兩個主成分累積百分比為98.462%,幾乎包含了5個變量的全部信息,因此取兩個主成分已經(jīng)足夠。8.1主成分回歸2024/4/2312另外,Loadings部分輸出的矩陣為各主成分表達式中的系數(shù),其中空白部分為默認的未輸出的<0.1的值,這個系數(shù)矩陣即是由(k,
i=1,2,…,p)構(gòu)成的矩陣,不妨記為U,其中U的第i列即第i個特征值對應(yīng)的特征向量。由于分析是由標準化的數(shù)據(jù)出發(fā)而使用的相關(guān)陣,故
(i=1,2,…,p),U為自變量相關(guān)陣的特征向量所構(gòu)成的矩陣,所以第k個主成分對變量的因子負荷量為(k,i=1,2,…,p)。因此,由矩陣U很容易計算得到因子載荷陣。8.1主成分回歸2024/4/23132024/4/2314為了做主成分回歸,我們需要計算主成分的得分
(i=1,2,…,n),其中
為標準化后的第i個樣本值。由于前兩個主成分的方差累積貢獻率已經(jīng)達到98.462%,只需保留前兩個主成分,此處只輸出前兩個主成分的得分,見右圖。8.1主成分回歸2024/4/2315現(xiàn)在用y對前兩個主成分做普通最小二乘回歸,R代碼如下:在R中運行該代碼,得到如下結(jié)果:8.1主成分回歸2024/4/23168.1主成分回歸2024/4/2317由以上輸出結(jié)果可知,標準化后的y(記為
)對兩個主成分做普通最小二乘估計,得到主成分的回歸方程為:由于主成分是標準化后自變量的線性組合,如果想要得到關(guān)于標準化后的五個自變量的回歸方程,只需分別將下面兩個式子代入上式即可得到此時回歸方程中每個回歸系數(shù)的符號也都能夠合理地解釋。8.1主成分回歸8.2偏最小二乘法當時,最小二乘法就可以求出,然而當k>n,通常的最小二乘法無法進行。2024/4/2318在經(jīng)濟問題的研究中遇到的回歸問題往往有兩個特點:一是自變量的數(shù)目比較多,常會碰到有幾十個自變量,而觀察的時點并不多的情況。二是回歸方程建立后主要的應(yīng)用是預(yù)測。用符號來表示,即對因變量y和自變量觀測n組數(shù)據(jù):(8.1)假定它們之間有關(guān)系式(8.2)式中,為誤差項。用觀測值去估計式(8.2),得到回歸方程:(8.3)2024/4/23198.2偏最小二乘法從式(8.2)來看,我們并不需要很多自變量,實際上只要的一個線性函數(shù)就行了。通常的最小二乘法,就是尋求
的線性函數(shù)中與y的相關(guān)系數(shù)絕對值達到最大的一個。這時需求
的逆矩陣,其中X是由所有自變量的觀測值組成的矩陣。當k>n時,
是一個奇異矩陣,無法求逆。主成分回歸(PCR)就不求的逆,而直接求的特征根。因此將y
對前幾個主成分做回歸就可以了,這就是PCR的主要想法。PCR雖然解決了k>n這一矛盾,但它選主成分的方法與因變量y無關(guān),只跟自變量有關(guān)。2024/4/23208.2偏最小二乘法偏最小二乘(PartialLeastSquares,PLS)在這一點上與PCR不同,它尋找的線性函數(shù)時,考慮與y的相關(guān)性,選擇與y相關(guān)性較強又能方便算出的的線性函數(shù)。它的算法是最小二乘,但是它只考慮偏向與y有關(guān)的一部分,所以稱為偏最小二乘。具體的選法與最小二乘法有關(guān),所以先回憶一下最小二乘法的公式對理解PLS很有好處。2024/4/2321考慮一元線性回歸情況。共觀測了
組數(shù)據(jù),
,當這些數(shù)據(jù)的均值為0時,有:式中,為觀測值向量。PLS就是反復(fù)利用式(8.5)。8.2偏最小二乘法2024/4/2322首先將數(shù)據(jù)中心化,中心化之后得到的相應(yīng)的各自的均值都是0。將對每個自變量單獨做回歸,用式(8.5)可得其中表示資料向量,表示自變量(不是數(shù)據(jù))。8.2偏最小二乘法2024/4/2323令將作為自變量,y作因變量建立回歸方程,由式(8.5)得將式(8.7)右端的量加權(quán)后,用記相應(yīng)的權(quán),就得到它相應(yīng)的n個數(shù)據(jù)資料是8.2偏最小二乘法2024/4/2324于是得殘差??紤]到殘差中不再含
的信息,因此各個自變量的作用對y而言,含的部分已不具新的信息,都應(yīng)刪去。也就是將每個自變量對
求回歸,得回歸方程和預(yù)測值利用上式預(yù)測y,得預(yù)測值向量:8.2偏最小二乘法2024/4/2325相應(yīng)的殘差。于是將作為新的原始資料,重復(fù)上述步驟,逐步求得的秩。最后利用y對用普通最小二乘方法進行回歸分析,經(jīng)過變量間的轉(zhuǎn)換,最終可得到y(tǒng)對的回歸方程,這種求回歸方程的方法就稱為PLS法,即偏最小二乘法。8.2偏最小二乘法2024/4/2326偏最小二乘的算法從上面構(gòu)造
的過程可得如下的算法(X,y資料已中心化,rank(X)=r):8.2偏最小二乘法2024/4/2327上述算法完全體現(xiàn)了PLS的想法。1988年赫蘭(Helland)導(dǎo)出了一個更為簡單的算法。引入記號赫蘭證明了對a=1,2,…,r
都成立。于是PLS算法可改為:8.2偏最小二乘法2024/4/2328上述算法中都存在一個問題,就是這個算法何時結(jié)束,什么是合適的a,是否一定要算到某個中的一列全是0為止?一般來說,可以自己規(guī)定一個你認為最切合所研究問題的標準。已有的運用PLS的情況中,大都使用交叉驗證(cross-validation)法。這個方法是這樣的:從資料X,y中刪去第l組資料,刪去后的X,y用表示。把作為原始資料,用PLS算出預(yù)測方程中的表達式,然后用表示這個預(yù)測方程的預(yù)測值,將代入得到預(yù)測值
,殘差
就反映了第a步預(yù)測方程的好壞在第l組資料上的體現(xiàn),于是8.2偏最小二乘法2024/4/2329就在整體上反映了第a步預(yù)測方程的好壞。把這個值記為損失L(a),自然應(yīng)該選a使L(a)達到最小,即應(yīng)該選使正因為使用了這個交叉驗證方法,選出的預(yù)測方程效果往往比較好。R軟件中建立偏最小二乘回歸方程的函數(shù)plsr()中包含了四種PLS算法,使用時可以根據(jù)實際情況選擇不同的算法,其默認的算法為Kernel。由于Kernel算法的計算效率較高,建立偏最小二乘回歸通常會選擇使用該算法。8.2偏最小二乘法2024/4/2330偏最小二乘的應(yīng)用例8-2對發(fā)電量需求和工業(yè)產(chǎn)量的關(guān)系進行建模,因變量y為發(fā)電量產(chǎn)量(億千瓦時),自變量
為原煤產(chǎn)量(億噸),
為原油產(chǎn)量(萬噸),
為天然氣產(chǎn)量(億立方米),
為生鐵產(chǎn)量(萬噸),
為紗產(chǎn)量(萬噸),
為硫酸產(chǎn)量(萬噸),
為燒堿(折100%)產(chǎn)量(萬噸),
為純堿產(chǎn)量(萬噸),
為農(nóng)用化肥產(chǎn)量(萬噸),
為水泥產(chǎn)量(萬噸),
為平板玻璃產(chǎn)量(萬重量箱),
為鋼產(chǎn)量(萬噸),
為成品鋼材產(chǎn)量(萬噸)。數(shù)據(jù)見書上表8-1。13x8.2偏最小二乘法2024/4/2331在k≥n的情況下,無法使用普通最小二乘估計方法建立回歸模型,此時可以運用偏最小二乘方法。R中在使用函數(shù)plsr()建立偏最小二乘回歸方程前,首先需要加載pls包,具體的計算代碼及運行結(jié)果如下。8.2偏最小二乘法2024/4/23328.2偏最小二乘法2024/4/2333上述為使用了所有主成分進行回歸所得到的結(jié)果,從回歸結(jié)果中可以看出,主成分個數(shù)為3個時,模型在經(jīng)過留一交叉驗證法后求得的RMSEP總和較小,且隨著成分個數(shù)的增加,RMSEP值未出現(xiàn)明顯減少,同時3個主成分對各個因變量的累積貢獻率均高于99%,因此將回歸的主成分個數(shù)定為m=3。下面給出主成分為3時的回歸方程計算代碼及輸出結(jié)果8.4。8.2偏最小二乘法2024/4/23348.2偏最小二乘法2024/4/2335由以上結(jié)果可知,對于標準化后的數(shù)據(jù)
對所有自變量的回歸方程為:將回歸方程中的變量還原為原始變量:8.2偏最小二乘法8.3本章小結(jié)與評注一、主成分回歸可以用于n小于p的情形可以用于多重共線性情形建模效果有一定改進2024/4/2336關(guān)于主成分回歸的質(zhì)疑1、主成分是自變量的線性組合,能保證它與Y有相關(guān)性嗎?萬一主成分與Y
無關(guān)呢?2、1998年AliS.Hadi和RobertF.Ling在TheAmericanStatistician上發(fā)文章(SomeCautionaryNotesontheUseofPrincipalComponentsRegression)給了個例子,前k-1個主成分與因變量一點關(guān)系都沒有,而最后一個主成分解釋了因變量所有的變異。3、甚至有人認為沒有必要給人們推薦主成分回歸了,過時了,但是即使在今天的美國的統(tǒng)計課上,講到多重共線性問題的時候教授們還在推薦PCR。2024/4/23371975年H.wold在經(jīng)濟學研究中引入了PLS進行路徑分析,創(chuàng)建了非線性迭代PLS算法(NonlinearIterativePartialLeastSquaresalgorithm),1983年H.wold的兒子Swold和Albano提出PLSR的概念,用來解決計量化學中n小于p的情況。可以用于n小于p的情形可以用于多重共線性情形建模效果有一定改進2024/4/2338二、PLSR8.3本章小結(jié)與評注解決了與因變量沒關(guān)系的問題。(特征根回歸把因變量Y也考慮進來了!)甚至有人總結(jié)出PLSR=MLR+CCR+PCRPLSR的基礎(chǔ)是LS,在盡可能提取包含自變量更多信息的成分的基礎(chǔ)上,保證了提取主成分與因變量最大相關(guān)性。即偏愛與因變量有關(guān)的部分,所以稱為偏最小二乘回歸。8.3本章小結(jié)與評注2024/4/2339多對多的回歸建模2024/4/2340考慮p個因變量與m個自變量的建模問題。偏最小二乘回歸的基本做法是,首先在自變量集中提出第一成分的線性組合,且盡可能多地提取原自變量中的變異信息);同時在因變量集中也提取第一成分,并要求相關(guān)程度達到最大。然后建立因變量的回歸,如果回歸方程已達到滿意的精度,則算法中止。否則繼續(xù)第二對成分的提取,直到能達到滿意的精度為止。若最終對自變量提取r個成分,偏最小二乘回歸將通過建立與的回歸式,然后再表示為與原自變量的回歸方程式,即偏最小二乘回歸方程式。各種回歸方法的假設(shè)條件有人認為PLSR是回歸建模的“神器”,認為“PLSR感覺已經(jīng)把主成分分析和回歸發(fā)揮到極致了”。MichiganUniversity的Fornell稱PLSR為第二代回歸分析方法。任何科學研究大概都是無窮盡的,統(tǒng)計學方法也一定不會例外,當我們肯定和大加贊賞某種東西時也要留有余地。2024/4/2341第9章非線性回歸2024/4/23429.1可化為線性回歸的曲線回歸9.2多項式回歸9.3非線性模型9.1可化為線性回歸的曲線回歸2024/4/2343(b已知)(9.1)
曲線回歸模型只須令
即可化為y對
是線性的形式
需要指出的是,新引進的自變量只能依賴于原始變量,而不能與未知參數(shù)有關(guān)。2024/4/23449.1可化為線性回歸的曲線回歸令,于是得到y(tǒng)關(guān)于的線性表達式
(9.2)式本來只有一個自變量x,是一元p次多項式回歸,在線性化后,變?yōu)閜元線性回歸。線性回歸的“線性”是針對未知參數(shù)而言的。對于回歸解釋變量的線性是非本質(zhì)的,因為解釋變量是非線性時,總可以通過變量的替換把它轉(zhuǎn)化成線性的。2024/4/23459.1可化為線性回歸的曲線回歸對等式兩邊同時取自然對數(shù),得:令于是得到關(guān)于x的一元線性回歸模型2024/4/2346不可線性化的曲線回歸模型,如不能通過對等式兩邊同時取自然對數(shù)的方法將回歸模型線性化,只能用非線性最小二乘方法求解。(9.3)式的誤差項稱為乘性誤差項。
(9.4)式的誤差項稱為加性誤差項。一個非線性回歸模型是否可以線性化,不僅與回歸函數(shù)的形式有關(guān),而且與誤差項的形式有關(guān)。
9.1可化為線性回歸的曲線回歸2024/4/23479.1可化為線性回歸的曲線回歸
在對非線性回歸模型線性化時,總是假定誤差項的形式就是能夠使回歸模型線性化的形式,為了方便,常常省去誤差項,僅寫出回歸函數(shù)的形式。例如把回歸模型(9.3)式簡寫為。(9.3)式與(9.4)式的回歸參數(shù)的估計值是有差異的。對誤差項的形式,首先應(yīng)該由數(shù)據(jù)的經(jīng)濟意義來確定,然后由回歸擬合效果做檢驗。過去,由于沒有非線性回歸軟件,人們總是希望非線性回歸模型可以線性化,因而誤差項的形式就假定為可以把模型線性化的形式。現(xiàn)在利用計算機軟件可以容易的解決非線性回歸問題,因而對誤差項形式應(yīng)該做正確的選擇。2024/4/234810種常見的可線性化的曲線回歸方程9.1可化為線性回歸的曲線回歸2024/4/2349除了上述10種常用的曲線外,還有幾種常用的曲線如下。1.雙曲函數(shù)
或等價地表示為
9.1可化為線性回歸的曲線回歸2024/4/2350(a>0,b>0)9.1可化為線性回歸的曲線回歸2024/4/23512.S型曲線II
此S型曲線II當a>0,b>0時,是x的增函數(shù)。當x→+∞時,y→1/a
;x→-∞時,y→0。
y=0與y=1/a是這條曲線的兩條漸進線。
S型曲線有多種,其共同特點是曲線首先是緩慢增長,在達到某點后迅速增長,在超過某點后又變?yōu)榫徛鲩L,并且趨于一個穩(wěn)定值。
S型曲線在社會經(jīng)濟等很多領(lǐng)域都有應(yīng)用,例如某種產(chǎn)品的銷售量與時間的關(guān)系,樹木、農(nóng)作物的生長與時間的關(guān)系等。9.1可化為線性回歸的曲線回歸2024/4/23529.1可化為線性回歸的曲線回歸例9-1
對國內(nèi)生產(chǎn)總值(GDP)的擬合。我們選取GDP指標為因變量,單位為億元,擬合GDP關(guān)于時間t的趨勢曲線。以1990年為基準年,取值為t=1,2022年t=33,1990—2022年的數(shù)據(jù)如表9-2所示:2024/4/23539.1可化為線性回歸的曲線回歸9.1可化為線性回歸的曲線回歸2024/4/23542024/4/23559.1可化為線性回歸的曲線回歸從散點圖中看到,GDP隨時間t
的變化趨勢大致為指數(shù)函數(shù)形式,從經(jīng)濟學角度看,當GDP的年增長速度大致相同時,其趨勢線就是指數(shù)函數(shù)形式。易看出復(fù)合函數(shù),增長曲線指數(shù)函數(shù)這三個曲線方程實際上是等價的。在本例中,復(fù)合函數(shù)的形式與經(jīng)濟意義更吻合。2024/4/23569.1可化為線性回歸的曲線回歸以時間t為自變量,對數(shù)據(jù)進行擬合,我們考慮建立簡單線性回歸模型和復(fù)合函數(shù)回歸模型,其中復(fù)合函數(shù)是可線性化的,只需要對式子兩邊同時取對數(shù)即可將其化為
關(guān)于t的線性函數(shù)。因此,在建立復(fù)合函數(shù)回歸模型前需要計算的值,見表9-2。建立簡單線性回歸模型和復(fù)合函數(shù)回歸模型的計算代碼如下,其運行結(jié)果如輸出結(jié)果9.1和圖9-3所示。2024/4/23579.1可化為線性回歸的曲線回歸9.1可化為線性回歸的曲線回歸2024/4/23589.1可化為線性回歸的曲線回歸2024/4/23599.1可化為線性回歸的曲線回歸2024/4/23602024/4/23619.1可化為線性回歸的曲線回歸由輸出結(jié)果9.1可知,線性回歸的決定系數(shù)
,殘差平方和SSE=4.9902e+11,復(fù)合函數(shù)回歸的決定系數(shù),殘差平方和SSE=0.845是按線性化后的回歸模型計算的,兩者的殘差不能直接相比。為了與線性回歸的擬合效果直接相比,可以先存儲復(fù)合函數(shù)y的預(yù)測值
,計算殘差序列e(見表9-2),然后計算出復(fù)合函數(shù)回歸的SSE=3.7065e+11,可知復(fù)合函數(shù)擬合效果優(yōu)于線性回歸。另外,從模型擬合圖中,也可直觀得到這一結(jié)論,故在解決此類問題時應(yīng)采用復(fù)合函數(shù)回歸。9.1可化為線性回歸的曲線回歸根據(jù)輸出結(jié)果9.1中線性化后復(fù)合函數(shù)的回歸系數(shù),可以計算得到復(fù)合函數(shù)回歸系數(shù)分別為,等比系數(shù),因此回歸方程為式中,表示GDP的平均發(fā)展速度,平均增長速度為13.7%。這里GDP用的是當年現(xiàn)價,包含物價上漲因素在內(nèi)。本例只是作為計算非線性回歸的示例。在實際工作中,如果需要對GDP做趨勢擬合或預(yù)測,應(yīng)對此模型做一些改進,例如用不變價格代替現(xiàn)價,對誤差項的自相關(guān)做相應(yīng)的處理;考慮到GDP的年增長速度會有減緩趨勢,可以給回歸函數(shù)增加適當?shù)淖枘嵋蜃樱虿捎肧形曲線擬合等改進方法。2024/4/23629.2多項式回歸
2024/4/23639.2.1
幾種常見的多項式回歸模型
一元二次多項式模型
的回歸函數(shù)
是一條拋物線方程,通常稱為二項式回歸函數(shù)?;貧w系數(shù)為線性效應(yīng)系數(shù),為二次效應(yīng)系數(shù)。相應(yīng)地,回歸模型稱為一元三次多項式模型。2024/4/23649.2多項式回歸
稱回歸模型為二元二階多項式回歸模型。它的回歸系數(shù)中分別含有兩個自變量的線性項系數(shù),二次項系數(shù)
,并含有交叉乘積項系數(shù)
。交叉乘積項表示的交互作用,系數(shù)
通常稱為交互影響系數(shù)。2024/4/23659.2.2
應(yīng)用實例
例9-2表9-3列出的數(shù)據(jù)是關(guān)于18個35歲~44歲經(jīng)理的:
前兩年平均年收入x1(千美元)風險反感(意識)度x2
人壽保險額y(千美元)風險反感度是根據(jù)發(fā)給每個經(jīng)理的標準調(diào)查表估算得到的,它的數(shù)值越大,風險反感就越厲害。9.2多項式回歸
2024/4/23669.2多項式回歸
研究人員想研究給定年齡組內(nèi)的經(jīng)理年平均收入,風險反感度和人壽保險額的關(guān)系。研究者預(yù)計,在經(jīng)理的收入和人壽保險額之間成立著二次關(guān)系,并有把握認為風險反感度對人壽保險額只有線性效應(yīng),而沒有二次效應(yīng)。但是,研究者對兩個自變量是否對人壽保險額有交互效應(yīng),心中沒底。因此,研究者擬合了一個二階多項式回歸模型并打算先檢驗是否有交互效應(yīng),然后檢驗風險反感的二次效應(yīng)。2024/4/23679.2多項式回歸
2024/4/23689.2多項式回歸
回歸采用逐個引入自變量的方式,這樣可以清楚地看到各項對回歸的貢獻,使顯著性檢驗更加明確。依次引入自變量以查看各變量對回歸的貢獻,計算代碼如下:2024/4/23699.2多項式回歸
上述計算程序,首先是建立依次引入各變量后的回歸模型,然后依次輸出各模型的方差分析表,根據(jù)方差分析表中的結(jié)果,我們將運行結(jié)果所得的依次引入各變量后的偏平方和以及殘差平方和進行整理并計算偏F值,得到方差分析表見表9-4,其中取顯著性水平為0.05。2024/4/23709.2多項式回歸
全模型的SST=108041,SSE=36,SSE的自由度
。采用式(3.42)的偏F檢驗,對交互影響系數(shù)
的顯著性檢驗的偏F值=2.00,臨界值
,交互影響系數(shù)不能通過顯著性檢驗,認為,回歸模型中不應(yīng)該包含交互作用項。這個結(jié)果與人們的經(jīng)驗相符,有了此結(jié)果,兩個自變量的效應(yīng)也就容易解釋了。此時,研究者暫時決定使用無交互效應(yīng)的模型2024/4/23719.2多項式回歸
但仍想檢驗風險反感度的二次效應(yīng)是否存在。這相當于檢驗二次效應(yīng)系數(shù)
的顯著性,這個檢驗的偏F值等于0.93,臨界值,二次效應(yīng)系數(shù)
不能通過顯著性檢驗,認為
,回歸模型中不應(yīng)該包含二次效應(yīng)項
。此時,研究者決定使用簡化的回歸模型2024/4/23729.2多項式回歸
進一步檢驗?zāi)昶骄杖氲亩涡?yīng)是否存在,這相當于檢驗二次效應(yīng)系數(shù)
的顯著性,這個檢驗的偏F值等于385,臨界值,二次效應(yīng)系數(shù)
通過了顯著性檢驗,認為
,回歸模型中應(yīng)該包含二次效應(yīng)項。得最終的回歸方程為其中,括號中的數(shù)值是標準化回歸系數(shù)。這樣,研究者可用這個回歸方程來進一步研究經(jīng)理的年平均收入和風險反感度對人壽保險額的效應(yīng)。從標準化回歸系數(shù)看到,年平均收入的二次效應(yīng)對人壽保險額的影響程度最大。9.3非線性模型
2024/4/23739.3.1
非線性最小二乘非線性回歸模型一般可記為:其中,
是因變量,
非隨機向量是自變量,是未知參數(shù)向量,是隨機誤差項并且滿足獨立同分布假定,即2024/4/23749.3非線性模型
如果,那么式(9.8)就是前面討論的線性模型,而且必然有k=p;對于一般情況的非線性模型,參數(shù)的數(shù)目與自變量的數(shù)目并沒有一定的對應(yīng)關(guān)系,不要求k=p。對非線性回歸模型式(9.8),仍使用最小二乘法估計參數(shù)
,即求使達到最小的
,稱
為非線性最小二乘估計。2024/4/23759.3非線性模型
稱為非線性最小二乘估計的正規(guī)方程組,也可以直接極小化殘差平方和
,求出未知參數(shù)的非線性最小二乘估計值。
在假定f函數(shù)對參數(shù)
連續(xù)可微時,可以利用微分法建立正規(guī)方程組,求使
達到最小的
。將Q函數(shù)對參數(shù)
求偏導(dǎo),并令其為0,得p+1個方程2024/4/23769.3非線性模型
在非線性回歸中,平方和分解式SST=SSR+SSE不再成立。類似于線性回歸中的復(fù)判定系數(shù),定義非線性回歸的相關(guān)比(也稱為相關(guān)指數(shù))為:
對于非線性最小二乘估計,我們?nèi)匀恍枰鰠?shù)的區(qū)間估計、顯著性檢驗、回歸方程的顯著性檢驗等回歸診斷,這需要知道有關(guān)統(tǒng)計量的分布。在非線性最小二乘中,一些精確分布是很難得到的,在大樣本時,可以得到近似的分布。計算機軟件在求出參數(shù)的非線性最小二乘估計值的同時,還給出近似的回歸診斷結(jié)果。2024/4/23779.3.2
非線性回歸模型的應(yīng)用
例9-3一位藥物學家使用下面的非線性模型對藥物反應(yīng)擬合回歸模型:
自變量x是藥劑量,用級別表示;因變量y是藥物反應(yīng)程度,用百分數(shù)表示。
3個參數(shù)c0、c1、c2都是非負的,根據(jù)專業(yè)知識,c0的上限是100%,3個參數(shù)的初始值取為c0=100,c1=5,c2=4.8。測得9個反應(yīng)數(shù)據(jù)如表9-5:9.3非線性模型
2024/4/23789.3非線性模型
2024/4/23799.3非線性模型
通過圖9-4可以看出,y與x之間確實呈非線性關(guān)系,因此需要對數(shù)據(jù)進行非線性回歸分析。R軟件中做非線性回歸的函數(shù)為nls(formula,data,start,…),formula部分為非線性模型的函數(shù)表達式,start為模型中未知參數(shù)的初始值,對例9.3中的數(shù)據(jù)進行非線性回歸分析的計算代碼如下,運行結(jié)果見輸出結(jié)果9.2。2024/4/23809.3非線性模型
2024/4/23819.3非線性模型
2024/4/23829.3非線性模型
由以上輸出結(jié)果可知,對參數(shù)的估計經(jīng)過6步迭代后收斂,而且相關(guān)指數(shù),說明非線性回歸擬合效果很好。同時,上述輸出結(jié)果中對參數(shù)的顯著性檢驗顯示參數(shù)均通過顯著性檢驗。但是,在樣本量較小的情況下,不可線性化的非線性回歸的殘差通常不滿足正態(tài)性,進而使用t分布進行檢驗也是無效的,因此顯著性檢驗的結(jié)果并不具有重要意義。另外,由上述代碼可以計算出y的預(yù)測值、殘差、殘差平方和、回歸平方和、總離差平方和等,將這些計算結(jié)果列于表中,具體可見表9-6。2024/4/23839.3非線性模型
2024/4/2384
本例回歸離差平方和SSR=15156.55,而總離差平方和SST=14917.89<SSR,可見對非線性回歸不再滿足平方和分解式,即SST≠SSR+SSE另外,非線性回歸的殘差和不等于零,本例殘差均值為0.285556≠0。當然,如果回歸擬合的效果好,殘差的均值會接近于零的。通過以上分析可以認為藥物反應(yīng)程度y與藥劑量x符合以下非線性回歸方程:9.3非線性模型
2024/4/2385例9-4
龔珀茲(Gompertz)模型是計量經(jīng)濟中的一個常用模型,用來擬合社會經(jīng)濟現(xiàn)象發(fā)展趨勢,龔珀茲曲線形式為:其中k為變量的增長上限,和是未知參數(shù)。當k未知時,龔珀茲模型不能線性化,可以用非線性最小二乘法求解。表9-7的數(shù)據(jù)是我國民航國內(nèi)航線里程數(shù)據(jù),以下用龔珀茲模型擬合這個數(shù)據(jù)。9.3非線性模型
2024/4/23869.3非線性模型
2024/4/23879.3非線性模型
使用R軟件對表9-7中的數(shù)據(jù)進行擬合,建立非線性模型,其中需要確定未知參數(shù)的初始值。由于初始值要求不是很準確,所以很多時候可以憑經(jīng)驗給定,對于本例題,龔珀茲中的參數(shù)k
是變量的發(fā)展上限,應(yīng)該取其初始值略大于最大觀測值。本題最大觀測值是115.52,不妨取k
的初始值為120。a和b都是0~1之間的數(shù),可以取其初始值為0.5,非線性回歸的計算代碼如下。2024/4/23889.3非線性模型
按上述代碼進行運算會出現(xiàn)產(chǎn)生無限值不收斂的情況,這是由于回歸迭代過程中的參數(shù)取值超出了范圍,可以通過對參數(shù)的取值增加一些限制來解決。因此,將參數(shù)k的初始值調(diào)整為130,另外對其上下限也做出限制,最小值取為116即大于樣本的最大觀測值115.52,此時nls函數(shù)中的算法algorithm不能使用默認的高斯-牛頓迭代算法,需改為port,重新運行以下代碼,得到輸出結(jié)果9.3,并畫出國內(nèi)航線里程趨勢預(yù)測圖,如圖9-5所示。2024/4/23899.3非線性模型
2024/4/23909.3非線性模型
2024/4/2391
用非線性最小二乘法求得的三個參數(shù)估計值為k=150.0,a=0.012,b=0.893其中k=150.0為回歸模型估計的國內(nèi)航線里程增長上限。如圖9-5中,圓圈代表觀測值,光滑曲線為擬合曲線,從圖中可以直觀地看到,龔珀茲曲線能夠較好刻畫數(shù)據(jù)的變化趨勢。9.3非線性模型
2024/4/2392例9-5
下表9-8是我國從1950—2013年歷年大陸總?cè)丝跀?shù),試用威布爾(Weibull)曲線擬合數(shù)據(jù)并做預(yù)測。威布爾曲線如下:其中參數(shù)k是變量發(fā)展的上限,參數(shù)a>0,0<b<1,c>0。9.3非線性模型
2024/4/23939.3非線性模型
2024/4/23949.3非線性模型
根據(jù)人口學的專業(yè)預(yù)測,我國人口上限為16億人,因此取k的初值=16,取b的初值=0.5,取c的初值=1。對以上初值把t=1時(即1950年)代入,得。用21作為a的初值,做非線性最小二乘,相應(yīng)的計算代碼如下,其運行結(jié)果見輸出結(jié)果9.4。2024/4/23959.3非線性模型
2024/4/23969.3非線性模型
從輸出結(jié)果中看到,人口上限k=14.91億人,這與人口學預(yù)測的人口上限有一些差異,這是因為人口數(shù)會受到
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《骨腫瘤x線表現(xiàn)》課件
- 《城市工程改造倫理》課件
- 合伙開臺球廳合同協(xié)議書
- 《顯像管電路-習題》課件
- 2025年淮安貨運資格證考題
- 2025年寧德貨運從業(yè)資格證模擬考試題
- 2025年成都貨運從業(yè)資格證考題500道題
- 2025年南京貨運從業(yè)資格試題答案解析
- 第七單元 語文園地七-人教部編版(含答案)
- 醫(yī)院建設(shè)變更協(xié)議
- PICC和CVC規(guī)范化維護及注意事項
- 人教部編版三年級上冊語文【選擇題】專項復(fù)習訓(xùn)練練習100題
- 停車場車牌識別道閘系統(tǒng)施工安裝
- 巴以沖突課件
- 法定代表人身份證明書-模板
- 酒店監(jiān)控室管理制度
- 工程部研發(fā)部KPI績效考核指標匯總(定性)
- 光伏斜屋頂計算書屋頂光伏電站項目荷載計算書
- 新蘇教版四年級上冊科學第三單元《常見的力》全部課件(含4課時)
- 建筑垃圾再生利用方案PPT模板
- 醫(yī)用氧氣使用檢查記錄表
評論
0/150
提交評論