




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、1,第6章 逐步回歸分析,多元逐步回歸方法的基本思路:自動地從大量的可供選擇的變量中選取最重要的變量,據(jù)以建立回歸分析的預測或者解釋模型。 變量選取的根據(jù)是自變量對因變量作用程度的大小:保留作用程度大的變量,剔除作用小的變量。是否選取一個變量,定量判據(jù)之一就是相關系數(shù)。假定有m 個自變量,1 個因變量(用y 表示),則全部變量(包括自變量和因變量)之間的相關系數(shù)矩陣可以表作,6.1 基本原理,根據(jù)相關系數(shù)定義一個自變量的“貢獻”系數(shù),按照貢獻系數(shù)的大小決定一個自變量的去留。式中Pj表示第j 個自變量對因變量的貢獻系數(shù),Rjy 表示第j 個自變量與因變量的相關系數(shù),Rjj 表示相關系數(shù)矩陣對角線
2、上第j 行第j 列元素 (j=1,2,m)。,第l 步計算的貢獻系數(shù)表示為,在逐步回歸分析過程中,我們不僅要引入貢獻最大的自變量,同時要考慮剔除貢獻最小的因變量。因此,變量的存留與否又涉及到另一個統(tǒng)計判據(jù)F 檢驗。設定一個顯著性水平,查F 檢驗表,找到F 檢驗的臨界值F。 在第l步計算中,假如第v個自變量的貢獻系數(shù)最大,數(shù)值為,根據(jù)F 檢驗來判斷該自變量是否應該被引入模型。式中h 為尚且沒有被引入模型的變量序號,v 為選出的變量對應的原始變量序號(v=1,2,m)。計算變量引入的F 值判斷公式如下,式中n 為樣品個數(shù),l 為計算步驟數(shù), 為第v 個變量第l 步的貢獻系數(shù),Ryy 為因變量的自相
3、關系數(shù)。,如果FinF,則在這個顯著性水平下,該變量可以被引入模型,否則不要引入。,在第l 步計算中,如果第v 個自變量的貢獻 系數(shù)為,則可以根據(jù)F 檢驗來判斷該自變量包括已經(jīng)引入的變量是否應該被剔除。計算變量剔除的F 值判斷公式如下,如果Fout F,則在這個顯著性水平下,該變量應該被剔除,否則就要保留。 在整個逐步回歸計算過程中,變量的引入和剔除在兩端同時進行。像這樣循環(huán)往復地計 算,直到所有該引入的變量都被引入,該剔除的變量均被剔除為止。,6.2.1 數(shù)據(jù)準備,6.2 計算方法,借助一個簡單的實例說明逐步回歸分析的方法。問題是山東省淄博市旅游業(yè)的發(fā)展分析,我們想搞清楚哪些因素影響淄博市的
4、旅游總收入(表6-2-1)。所能考慮的因素包括:國內(nèi)游客數(shù)量、海外游客數(shù)量、第三產(chǎn)業(yè)的發(fā)展和人均GDP 數(shù)量(m=4)。從1995 年到2004年一共10 個年份的數(shù)據(jù)(n=10)。,這些因素都與旅游業(yè)總收入具有明確的關系。而且,作為自變量,它們彼此之間也有很強的關系。如果將這四個變量全部引入模型,就會導致多重共線性的問題。為了得到簡約、可靠的模型,需要借助逐步回歸分析技術。,為了更為有效地說明問題,我們對表6-2-1 的變量排列順序稍作調整(表6-2-2),利用表6-2-2 的數(shù)據(jù),容易計算相關系數(shù),得到矩陣如下(表6-2-3)。逐步回歸計算就是從這種相關系數(shù)矩陣出發(fā)的。將這個矩陣記為,首先
5、設定F 統(tǒng)計量的臨界值。取顯著性水平=0.05,我們有m=4個自變量,n=10個觀測值。不妨取回歸自由度為4、剩余自由度為n-m-1=10-4-1=5的臨界值為我們引入變量的F 值下限,即取Fc(in)=5.192。另一方面,假定一個變量被淘汰,則有m=3。我們?nèi)★@著性水平=0.05、回歸自由度為3、剩余自由度為n-m-1=10-3-1=6的F 臨界值為剔除一個變量的上限,即取Fc(out)=4.757。,這一步的計算可以分解為如下幾個步驟。,6.2.2 第一輪計算,(1)計算自變量的貢獻系數(shù),(2)找出最大和最小貢獻系數(shù)及其對應的變量序號,顯然, 等于0.98246最大,對應的變量序號v=1
6、。因此,首先考慮引入的變量是國內(nèi)游客數(shù)量x1; 等于0.92574最小,對應的變量序號v=4。故這一步可以考慮將人均GDP即變量x4剔除。,國內(nèi)游客數(shù)量這個變量是否能被引入模型,還要進行一次F 檢驗。對于我們的問題,n=10,現(xiàn)在計算第l=1步。,(3)計算變量引入和剔除的F 統(tǒng)計量,根據(jù),這個數(shù)值遠遠大于我們設定的臨界值Fc(in)=5.192,因此變量x1可以被引入模型。,接下來考慮排除貢獻系數(shù)最小的變量。但是否排除,要視Fout值而定。根據(jù)上述計算結果,0.92574最小,由式下面公式,這個數(shù)值高于剔除變量的F臨界值4.757, 因此第一步不能剔除。,作為對比,可以計算出所有變量的F 變
7、化值。例如,對于第二個變量“第三產(chǎn)業(yè)產(chǎn)值”,變量引入和剔除的F 值分別為,(4)相關系數(shù)矩陣變換,將 化為,假定第v個變量在第l步被引入,則相關系數(shù)矩陣的第v個元素稱為主元。矩陣變換是圍繞主元進行的。相關系數(shù)矩陣的變換公式如下,式中j、k分別為相關系數(shù)矩陣的行列編號。根據(jù)這個公式,第一步應該改變非主元所在的行、 列的元素( j v, k v),第二步改變主元所在的行的元素( j = v, k v),第三步改變主元 所在的列的元素( j v, k = v),第四步改變主元本身( j = v, k = v)。,首先變換非主元所在的行和列的元素。我們的主元在第j=1行、第k=1列,故非主元所在的元素
8、為1行、1列以外的元素。例如,其余計算依此類推。,其次改變主元所在行的元素。我們的主元在第j=1行,故改變第1行的元素。例如,再次改變主元所在列的元素。我們的主元在第k=1列,故改變第1列的元素。例如,最后改變主元所在的元素。對于本輪計 算,主元實際不變:,這樣,我們得到矩陣,在這個矩陣中,第1行最后一列的元素可以用于建立一元線性回歸模型。如果我們只打算引入一個關系最密切的變量,則在數(shù)據(jù)標準化的情況下,可以建立如下模型,6.2.3 第二輪計算,(1)計算自變量的貢獻系數(shù),(2)找出最大和最小貢獻系數(shù)及其對應的變量序號,從上面的計算結果可以看出,不考慮已經(jīng)被引入模型的第一個變量,在剩余變量中0.
9、01305為最大,對應的變量序號v=3。因此,第二次可能引入的變量是海外游客數(shù)量x3。同時,0.00043為最小,對應的變量序號v=4,可以考慮將其剔除。,(3)計算變量引入和剔除的F統(tǒng)計量,海外游客數(shù)量能否被引入模型,依然需要借助F 檢驗判決?,F(xiàn)在計算第l=2步,因此應有,這個數(shù)值大于我們設定的臨界值Fc(in)=5.192,因此變量x3可以被引入模型。當我們引入x1的時候,F(xiàn) 值為448.035;現(xiàn)在引入x3,F(xiàn) 值在原來的基礎上增加了20.359。,在沒有被引入也沒有被排除的變量中,找到最小貢獻系數(shù),考慮剔除相應的變量。但是 是否剔除,依然要視F out值而定。根據(jù)上面的計算結果,第四個
10、變量“人均GDP”的貢獻系 數(shù)0.00043最小,其F out值為,因此,這個變量可以被剔除,不再考慮它的引入。,作為對比,不妨計算所有變量的F值,例如對于 第二個變量“第三產(chǎn)業(yè)產(chǎn)值”,我們有,為方便比較,給出全部的F 變化值,以供判斷之用。全部計算結果列表如下(表6-2-6)??梢钥闯?,已經(jīng)引入的x1的F out值很高,當然不能剔除。,(4)相關系數(shù)矩陣變換,將 化為,首先變換非主元所在的行和列的元素。我們的主元在第j=3行、第k=3列,故非主元所在的元 素為3行、3列以外的元素。例如,其次改變主元所在行的元素。我們的主元 現(xiàn)在在第j=3行,故改變第3行的元素。例如,再次改變主元所在列的元素
11、。我們的主元在 第k=3列,故改變第1列的元素。例如,最后改變主元所在的元素,這樣,我們得到相關矩陣,6.2.4 第三輪計算,基于第二個相關系數(shù)矩陣的變換結果 計算各個自變量對因變量的貢獻系數(shù),方法與前面兩輪完全一樣。不同的是,每一步計算都是針對新的相關系數(shù)矩陣變換結果進行的。計算的貢獻系數(shù)如表6-2-8所示,這一次第二個變量“第三產(chǎn)業(yè)產(chǎn)值”的貢獻系數(shù)0.00126為最大。,但是,F(xiàn)in值2.33927沒有達到被引入的標準,而Fout值1.94939則達到被剔除的標準。如果我們繼續(xù)引入新的變量,F(xiàn)值的變化將會很小,或者說F值的增加量很不顯著。因此,可以考慮中止引入變量的計算,不再在模型中添加其
12、他變量。至于已經(jīng)引入的變量x1和x3,其Fout值都高于臨界值,無需剔除。至此,整個變量引入剔除的過程可以結束。,到此為止,根據(jù)我們的選擇標準,變量的引入和剔除計算過程可以結束。整個變量引入和剔除的過程可以用框圖表示如下,6.2.5 參數(shù)估計和模型建立,計算模型的回歸系數(shù),建立回歸分析模型。前面的第一個相關系數(shù)變換矩陣最后一列給出了引入一個變量時的標準化回歸系數(shù):0.99119,這個數(shù)值就是第一個自變量與因變量的相關系數(shù)。第二個相關系數(shù)變換矩陣給出了引入兩個變量時的標準化回歸系數(shù):0.63341 和0.37558,二者之和接近于1。 如果我們需要的僅僅是解釋模型而非預測模型,則我們的建模工作可
13、以到此為止,得到模型,如果我們需要預測模型,則需要開展計算工作,將標準化回歸參數(shù)轉換為非標準化的回歸系數(shù)。計算過程如下。,第一步,計算原始數(shù)據(jù)的協(xié)方差。,第二步,計算非標準化回歸系數(shù)。,有了協(xié)方差矩陣,結合前面的相關系數(shù)矩陣第二步變換結果 ,就可以計算非標準化回歸系數(shù)。注意我們的計算是從 開始的,引入一個變量時,相關系數(shù)矩陣變換為 ;引入兩個變量時,相關系數(shù)矩陣變換為 。此后不再引入變量。因此,計算回歸系數(shù)需要用到l=2時的相關系數(shù)矩陣變換結果 (表6-2-7)。,非標準化回歸系數(shù)計算公式為,這里b0為截距,bj為第j個回歸系數(shù),l為計算步驟的編號數(shù)我們引入兩個變量,l=2, 為相關系數(shù)矩陣第l=2步變換結果的最后一列的第j個元素對應于第j個被引入的變量,cyy為協(xié)方差矩陣對角線上的最后一個元素(右下角),cjj為協(xié)方差矩陣對角線上對應于第j個被引入變量的元素,。至于未被引入的變量,回歸系數(shù)以0計算。,對于上述問題,我們引進了兩個變量x1=國內(nèi)游客數(shù),x3=海外游客數(shù)??梢?,j=1對應于國內(nèi)游客數(shù),j=3對應于海外游客數(shù)。于是可得,6.3 利用消元法進行相關矩陣變換,利用Gauss消元法對增廣矩陣進行消元變換。,在相關系數(shù)矩陣 旁邊增加一個并排的 (m+1)(m+1)=55單位矩陣主元在第1行第1列,且主元為1,用第1行的元素對其他行進行消元。,6.4
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 黑土坡治理施工方案
- aq2006尾礦庫安全技術規(guī)程
- 玻璃橋維護施工方案
- 2025年蘭考三農(nóng)職業(yè)學院單招職業(yè)傾向性測試題庫審定版
- 2025年黃河交通學院單招職業(yè)適應性測試題庫及參考答案
- 2025年重慶市樂山市單招職業(yè)適應性測試題庫帶答案
- 2025年大慶醫(yī)學高等專科學校單招職業(yè)適應性測試題庫參考答案
- 2025年哈爾濱傳媒職業(yè)學院單招職業(yè)技能測試題庫新版
- 5 g k h 教學設計-2024-2025學年語文一年級上冊統(tǒng)編版
- 環(huán)境科學與工程環(huán)境保護法規(guī)及案例分析試卷解析
- 2023年北京語言大學新編長聘人員招聘筆試真題
- 15J403-1-樓梯欄桿欄板(一)
- 4.2 歌曲 《小小少年》課件(8張)
- 武漢版生命安全教育一年級-第19課《做好“四勤”防疾病》課件
- 小學教案、作業(yè)常規(guī)檢查方案
- 2024教培合作簡單協(xié)議書
- 公司集團保安服務 投標方案(技術方案)
- 2024年中級纖維檢驗員職業(yè)鑒定考試題庫(含答案)
- 水利水電工程單元工程施工質量驗收評定表及填表說明
- YYT 0661-2017 外科植入物 半結晶型聚丙交酯聚合物和共聚物樹脂
- 人教版版五年級數(shù)學下冊 第二單元綜合測試卷
評論
0/150
提交評論