版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、1,第6章 逐步回歸分析,多元逐步回歸方法的基本思路:自動(dòng)地從大量的可供選擇的變量中選取最重要的變量,據(jù)以建立回歸分析的預(yù)測(cè)或者解釋模型。 變量選取的根據(jù)是自變量對(duì)因變量作用程度的大?。罕A糇饔贸潭却蟮淖兞浚蕹饔眯〉淖兞?。是否選取一個(gè)變量,定量判據(jù)之一就是相關(guān)系數(shù)。假定有m 個(gè)自變量,1 個(gè)因變量(用y 表示),則全部變量(包括自變量和因變量)之間的相關(guān)系數(shù)矩陣可以表作,6.1 基本原理,根據(jù)相關(guān)系數(shù)定義一個(gè)自變量的“貢獻(xiàn)”系數(shù),按照貢獻(xiàn)系數(shù)的大小決定一個(gè)自變量的去留。式中Pj表示第j 個(gè)自變量對(duì)因變量的貢獻(xiàn)系數(shù),Rjy 表示第j 個(gè)自變量與因變量的相關(guān)系數(shù),Rjj 表示相關(guān)系數(shù)矩陣對(duì)角線
2、上第j 行第j 列元素 (j=1,2,m)。,第l 步計(jì)算的貢獻(xiàn)系數(shù)表示為,在逐步回歸分析過程中,我們不僅要引入貢獻(xiàn)最大的自變量,同時(shí)要考慮剔除貢獻(xiàn)最小的因變量。因此,變量的存留與否又涉及到另一個(gè)統(tǒng)計(jì)判據(jù)F 檢驗(yàn)。設(shè)定一個(gè)顯著性水平,查F 檢驗(yàn)表,找到F 檢驗(yàn)的臨界值F。 在第l步計(jì)算中,假如第v個(gè)自變量的貢獻(xiàn)系數(shù)最大,數(shù)值為,根據(jù)F 檢驗(yàn)來判斷該自變量是否應(yīng)該被引入模型。式中h 為尚且沒有被引入模型的變量序號(hào),v 為選出的變量對(duì)應(yīng)的原始變量序號(hào)(v=1,2,m)。計(jì)算變量引入的F 值判斷公式如下,式中n 為樣品個(gè)數(shù),l 為計(jì)算步驟數(shù), 為第v 個(gè)變量第l 步的貢獻(xiàn)系數(shù),Ryy 為因變量的自相
3、關(guān)系數(shù)。,如果FinF,則在這個(gè)顯著性水平下,該變量可以被引入模型,否則不要引入。,在第l 步計(jì)算中,如果第v 個(gè)自變量的貢獻(xiàn) 系數(shù)為,則可以根據(jù)F 檢驗(yàn)來判斷該自變量包括已經(jīng)引入的變量是否應(yīng)該被剔除。計(jì)算變量剔除的F 值判斷公式如下,如果Fout F,則在這個(gè)顯著性水平下,該變量應(yīng)該被剔除,否則就要保留。 在整個(gè)逐步回歸計(jì)算過程中,變量的引入和剔除在兩端同時(shí)進(jìn)行。像這樣循環(huán)往復(fù)地計(jì) 算,直到所有該引入的變量都被引入,該剔除的變量均被剔除為止。,6.2.1 數(shù)據(jù)準(zhǔn)備,6.2 計(jì)算方法,借助一個(gè)簡(jiǎn)單的實(shí)例說明逐步回歸分析的方法。問題是山東省淄博市旅游業(yè)的發(fā)展分析,我們想搞清楚哪些因素影響淄博市的
4、旅游總收入(表6-2-1)。所能考慮的因素包括:國(guó)內(nèi)游客數(shù)量、海外游客數(shù)量、第三產(chǎn)業(yè)的發(fā)展和人均GDP 數(shù)量(m=4)。從1995 年到2004年一共10 個(gè)年份的數(shù)據(jù)(n=10)。,這些因素都與旅游業(yè)總收入具有明確的關(guān)系。而且,作為自變量,它們彼此之間也有很強(qiáng)的關(guān)系。如果將這四個(gè)變量全部引入模型,就會(huì)導(dǎo)致多重共線性的問題。為了得到簡(jiǎn)約、可靠的模型,需要借助逐步回歸分析技術(shù)。,為了更為有效地說明問題,我們對(duì)表6-2-1 的變量排列順序稍作調(diào)整(表6-2-2),利用表6-2-2 的數(shù)據(jù),容易計(jì)算相關(guān)系數(shù),得到矩陣如下(表6-2-3)。逐步回歸計(jì)算就是從這種相關(guān)系數(shù)矩陣出發(fā)的。將這個(gè)矩陣記為,首先
5、設(shè)定F 統(tǒng)計(jì)量的臨界值。取顯著性水平=0.05,我們有m=4個(gè)自變量,n=10個(gè)觀測(cè)值。不妨取回歸自由度為4、剩余自由度為n-m-1=10-4-1=5的臨界值為我們引入變量的F 值下限,即取Fc(in)=5.192。另一方面,假定一個(gè)變量被淘汰,則有m=3。我們?nèi)★@著性水平=0.05、回歸自由度為3、剩余自由度為n-m-1=10-3-1=6的F 臨界值為剔除一個(gè)變量的上限,即取Fc(out)=4.757。,這一步的計(jì)算可以分解為如下幾個(gè)步驟。,6.2.2 第一輪計(jì)算,(1)計(jì)算自變量的貢獻(xiàn)系數(shù),(2)找出最大和最小貢獻(xiàn)系數(shù)及其對(duì)應(yīng)的變量序號(hào),顯然, 等于0.98246最大,對(duì)應(yīng)的變量序號(hào)v=1
6、。因此,首先考慮引入的變量是國(guó)內(nèi)游客數(shù)量x1; 等于0.92574最小,對(duì)應(yīng)的變量序號(hào)v=4。故這一步可以考慮將人均GDP即變量x4剔除。,國(guó)內(nèi)游客數(shù)量這個(gè)變量是否能被引入模型,還要進(jìn)行一次F 檢驗(yàn)。對(duì)于我們的問題,n=10,現(xiàn)在計(jì)算第l=1步。,(3)計(jì)算變量引入和剔除的F 統(tǒng)計(jì)量,根據(jù),這個(gè)數(shù)值遠(yuǎn)遠(yuǎn)大于我們?cè)O(shè)定的臨界值Fc(in)=5.192,因此變量x1可以被引入模型。,接下來考慮排除貢獻(xiàn)系數(shù)最小的變量。但是否排除,要視Fout值而定。根據(jù)上述計(jì)算結(jié)果,0.92574最小,由式下面公式,這個(gè)數(shù)值高于剔除變量的F臨界值4.757, 因此第一步不能剔除。,作為對(duì)比,可以計(jì)算出所有變量的F 變
7、化值。例如,對(duì)于第二個(gè)變量“第三產(chǎn)業(yè)產(chǎn)值”,變量引入和剔除的F 值分別為,(4)相關(guān)系數(shù)矩陣變換,將 化為,假定第v個(gè)變量在第l步被引入,則相關(guān)系數(shù)矩陣的第v個(gè)元素稱為主元。矩陣變換是圍繞主元進(jìn)行的。相關(guān)系數(shù)矩陣的變換公式如下,式中j、k分別為相關(guān)系數(shù)矩陣的行列編號(hào)。根據(jù)這個(gè)公式,第一步應(yīng)該改變非主元所在的行、 列的元素( j v, k v),第二步改變主元所在的行的元素( j = v, k v),第三步改變主元 所在的列的元素( j v, k = v),第四步改變主元本身( j = v, k = v)。,首先變換非主元所在的行和列的元素。我們的主元在第j=1行、第k=1列,故非主元所在的元素
8、為1行、1列以外的元素。例如,其余計(jì)算依此類推。,其次改變主元所在行的元素。我們的主元在第j=1行,故改變第1行的元素。例如,再次改變主元所在列的元素。我們的主元在第k=1列,故改變第1列的元素。例如,最后改變主元所在的元素。對(duì)于本輪計(jì) 算,主元實(shí)際不變:,這樣,我們得到矩陣,在這個(gè)矩陣中,第1行最后一列的元素可以用于建立一元線性回歸模型。如果我們只打算引入一個(gè)關(guān)系最密切的變量,則在數(shù)據(jù)標(biāo)準(zhǔn)化的情況下,可以建立如下模型,6.2.3 第二輪計(jì)算,(1)計(jì)算自變量的貢獻(xiàn)系數(shù),(2)找出最大和最小貢獻(xiàn)系數(shù)及其對(duì)應(yīng)的變量序號(hào),從上面的計(jì)算結(jié)果可以看出,不考慮已經(jīng)被引入模型的第一個(gè)變量,在剩余變量中0.
9、01305為最大,對(duì)應(yīng)的變量序號(hào)v=3。因此,第二次可能引入的變量是海外游客數(shù)量x3。同時(shí),0.00043為最小,對(duì)應(yīng)的變量序號(hào)v=4,可以考慮將其剔除。,(3)計(jì)算變量引入和剔除的F統(tǒng)計(jì)量,海外游客數(shù)量能否被引入模型,依然需要借助F 檢驗(yàn)判決。現(xiàn)在計(jì)算第l=2步,因此應(yīng)有,這個(gè)數(shù)值大于我們?cè)O(shè)定的臨界值Fc(in)=5.192,因此變量x3可以被引入模型。當(dāng)我們引入x1的時(shí)候,F(xiàn) 值為448.035;現(xiàn)在引入x3,F(xiàn) 值在原來的基礎(chǔ)上增加了20.359。,在沒有被引入也沒有被排除的變量中,找到最小貢獻(xiàn)系數(shù),考慮剔除相應(yīng)的變量。但是 是否剔除,依然要視F out值而定。根據(jù)上面的計(jì)算結(jié)果,第四個(gè)
10、變量“人均GDP”的貢獻(xiàn)系 數(shù)0.00043最小,其F out值為,因此,這個(gè)變量可以被剔除,不再考慮它的引入。,作為對(duì)比,不妨計(jì)算所有變量的F值,例如對(duì)于 第二個(gè)變量“第三產(chǎn)業(yè)產(chǎn)值”,我們有,為方便比較,給出全部的F 變化值,以供判斷之用。全部計(jì)算結(jié)果列表如下(表6-2-6)??梢钥闯?,已經(jīng)引入的x1的F out值很高,當(dāng)然不能剔除。,(4)相關(guān)系數(shù)矩陣變換,將 化為,首先變換非主元所在的行和列的元素。我們的主元在第j=3行、第k=3列,故非主元所在的元 素為3行、3列以外的元素。例如,其次改變主元所在行的元素。我們的主元 現(xiàn)在在第j=3行,故改變第3行的元素。例如,再次改變主元所在列的元素
11、。我們的主元在 第k=3列,故改變第1列的元素。例如,最后改變主元所在的元素,這樣,我們得到相關(guān)矩陣,6.2.4 第三輪計(jì)算,基于第二個(gè)相關(guān)系數(shù)矩陣的變換結(jié)果 計(jì)算各個(gè)自變量對(duì)因變量的貢獻(xiàn)系數(shù),方法與前面兩輪完全一樣。不同的是,每一步計(jì)算都是針對(duì)新的相關(guān)系數(shù)矩陣變換結(jié)果進(jìn)行的。計(jì)算的貢獻(xiàn)系數(shù)如表6-2-8所示,這一次第二個(gè)變量“第三產(chǎn)業(yè)產(chǎn)值”的貢獻(xiàn)系數(shù)0.00126為最大。,但是,F(xiàn)in值2.33927沒有達(dá)到被引入的標(biāo)準(zhǔn),而Fout值1.94939則達(dá)到被剔除的標(biāo)準(zhǔn)。如果我們繼續(xù)引入新的變量,F(xiàn)值的變化將會(huì)很小,或者說F值的增加量很不顯著。因此,可以考慮中止引入變量的計(jì)算,不再在模型中添加其
12、他變量。至于已經(jīng)引入的變量x1和x3,其Fout值都高于臨界值,無需剔除。至此,整個(gè)變量引入剔除的過程可以結(jié)束。,到此為止,根據(jù)我們的選擇標(biāo)準(zhǔn),變量的引入和剔除計(jì)算過程可以結(jié)束。整個(gè)變量引入和剔除的過程可以用框圖表示如下,6.2.5 參數(shù)估計(jì)和模型建立,計(jì)算模型的回歸系數(shù),建立回歸分析模型。前面的第一個(gè)相關(guān)系數(shù)變換矩陣最后一列給出了引入一個(gè)變量時(shí)的標(biāo)準(zhǔn)化回歸系數(shù):0.99119,這個(gè)數(shù)值就是第一個(gè)自變量與因變量的相關(guān)系數(shù)。第二個(gè)相關(guān)系數(shù)變換矩陣給出了引入兩個(gè)變量時(shí)的標(biāo)準(zhǔn)化回歸系數(shù):0.63341 和0.37558,二者之和接近于1。 如果我們需要的僅僅是解釋模型而非預(yù)測(cè)模型,則我們的建模工作可
13、以到此為止,得到模型,如果我們需要預(yù)測(cè)模型,則需要開展計(jì)算工作,將標(biāo)準(zhǔn)化回歸參數(shù)轉(zhuǎn)換為非標(biāo)準(zhǔn)化的回歸系數(shù)。計(jì)算過程如下。,第一步,計(jì)算原始數(shù)據(jù)的協(xié)方差。,第二步,計(jì)算非標(biāo)準(zhǔn)化回歸系數(shù)。,有了協(xié)方差矩陣,結(jié)合前面的相關(guān)系數(shù)矩陣第二步變換結(jié)果 ,就可以計(jì)算非標(biāo)準(zhǔn)化回歸系數(shù)。注意我們的計(jì)算是從 開始的,引入一個(gè)變量時(shí),相關(guān)系數(shù)矩陣變換為 ;引入兩個(gè)變量時(shí),相關(guān)系數(shù)矩陣變換為 。此后不再引入變量。因此,計(jì)算回歸系數(shù)需要用到l=2時(shí)的相關(guān)系數(shù)矩陣變換結(jié)果 (表6-2-7)。,非標(biāo)準(zhǔn)化回歸系數(shù)計(jì)算公式為,這里b0為截距,bj為第j個(gè)回歸系數(shù),l為計(jì)算步驟的編號(hào)數(shù)我們引入兩個(gè)變量,l=2, 為相關(guān)系數(shù)矩陣第l=2步變換結(jié)果的最后一列的第j個(gè)元素對(duì)應(yīng)于第j個(gè)被引入的變量,cyy為協(xié)方差矩陣對(duì)角線上的最后一個(gè)元素(右下角),cjj為協(xié)方差矩陣對(duì)角線上對(duì)應(yīng)于第j個(gè)被引入變量的元素,。至于未被引入的變量,回歸系數(shù)以0計(jì)算。,對(duì)于上述問題,我們引進(jìn)了兩個(gè)變量x1=國(guó)內(nèi)游客數(shù),x3=海外游客數(shù)??梢姡琷=1對(duì)應(yīng)于國(guó)內(nèi)游客數(shù),j=3對(duì)應(yīng)于海外游客數(shù)。于是可得,6.3 利用消元法進(jìn)行相關(guān)矩陣變換,利用Gauss消元法對(duì)增廣矩陣進(jìn)行消元變換。,在相關(guān)系數(shù)矩陣 旁邊增加一個(gè)并排的 (m+1)(m+1)=55單位矩陣主元在第1行第1列,且主元為1,用第1行的元素對(duì)其他行進(jìn)行消元。,6.4
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 企業(yè)資產(chǎn)風(fēng)險(xiǎn)管理計(jì)劃
- 產(chǎn)品研發(fā)與加工合作協(xié)議
- D打印服務(wù)開發(fā)票協(xié)議書
- 傳統(tǒng)行業(yè)股份購(gòu)買協(xié)議模板
- 個(gè)人租賃簡(jiǎn)明合同樣本
- 代收款委托協(xié)議范本
- 企業(yè)入駐戰(zhàn)略融資租賃協(xié)議
- 企業(yè)班車租賃協(xié)議
- 產(chǎn)品全流程合作協(xié)議
- 代銷商協(xié)議書模板
- 發(fā)熱伴寒顫的護(hù)理課件
- 地貌與公路工程-河谷地貌(工程地質(zhì)課件)
- 江西省南昌三中高新校區(qū)2023-2024學(xué)年八年級(jí)上學(xué)期期中地理試卷
- 消防安全管理程序
- 煤礦井下攝像、拍照安全技術(shù)措施
- 2023-2024學(xué)年八年級(jí)上冊(cè)地理期中質(zhì)量檢測(cè)試卷(含答案)
- (6.1)-第二章追求遠(yuǎn)大理想 堅(jiān)定崇高信念
- 中國(guó)古代文化常識(shí):全新補(bǔ)訂版
- CMOS模擬集成電路設(shè)計(jì)與仿真示例(基于Cadence ADE)
- 出國(guó)留學(xué)高中成績(jī)單最強(qiáng)模板
- 西師大版四年級(jí)數(shù)學(xué)下冊(cè) (認(rèn)識(shí)三角形)三角形 教學(xué)課件(第1課時(shí))
評(píng)論
0/150
提交評(píng)論