北航數理統(tǒng)計回歸分析大作業(yè)_第1頁
北航數理統(tǒng)計回歸分析大作業(yè)_第2頁
北航數理統(tǒng)計回歸分析大作業(yè)_第3頁
北航數理統(tǒng)計回歸分析大作業(yè)_第4頁
北航數理統(tǒng)計回歸分析大作業(yè)_第5頁
已閱讀5頁,還剩11頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、藪北京航堂就太大拳/BEIHANGUNIVERSITY數理統(tǒng)計(課程大作業(yè)1)逐步回歸分析學院:機械工程學院專業(yè):材料加工工程日期:2014年12月7日摘要:本文介紹多元線性回歸分析方法以及逐步回歸法,然后結合實際,以我國1995-2012年的財政收入為因變量,選取了8個可能的影響因素,選用逐步回歸法對各影響因素進行了篩選分析,最終確定了其“最優(yōu)”回歸方程。關鍵字:多元線性回歸逐步回歸法財政收入SPSS1引言自然界中任何事物都是普遍聯(lián)系的,客觀事物之間往往都存在著某種程度的關聯(lián)關系。為了研究變量之間的相關關系,人們常用回歸分析的方法,而回歸分析是數理統(tǒng)計中一種常用方法。數理統(tǒng)計作為一種實用有效

2、的工具,廣泛應用于國民經濟的各個方面,在解決實際問題中發(fā)揮了巨大的作用,是一種理論聯(lián)系實踐、指導實踐的科學方法。財政收入,是指政府為履行其職能、實施公共政策和提供公共物品與服務需要而籌集的一切資金的總和。財政收入表現為政府部門在一定時期內(一般為一個財政年度)所取得的貨幣收入。財政收入是衡量一國政府財力的重要指標,政府在社會經濟活動中提供公共物品和服務的范圍和數量,在很大程度上決定于財政收入的充裕狀況。本文將以回歸分析為方法,運用數理統(tǒng)計工具探求財政收入與各種統(tǒng)計指標之間的關系,總結主要影響因素,并對其作用、前景進行分析和展望。2多元線性回歸2.1多元線性回歸簡介在實際問題中,某一因素的變化往

3、往受到許多因素的影響,多元回歸分析的任務就是要找出這些因素之間的某種聯(lián)系。由于許多非線性的情形都可以通過變換轉化為線性回歸來處理,因此,一般的實際問題都是基于多元線性回歸問題進行處理的。對多元線性回歸模型簡要介紹如下:如果隨機變量y與m(m22)個普通變量”?2Xm有關,且滿足關系式:y=:0,桂:mXm.;E名=0,D名=仃2(2.1)其中,432Pm產2是與X1,X2Xm無關的未知參數,齒是不可觀測的隨機變量,N(0產In)。式(2.1)為m元理論線性回歸模型,其中P。,再,比Pm為回歸系數,Xi,X2Xm為回歸因子或設計因子。Pi(i=1,2,m)實際上反映了因子Xi(i=1,2,,m)

4、對觀測值y的作用,因此也稱由(i=1,2,m)為因子X(i=1,2,,m)的效應通過對回歸系數由(i=1,2,m)進行最小二乘估計后,可以得到m元經驗回歸方程為:?=?0ZX?2乂2?mXm(2.(2)也稱式(2.2)為m元線性回歸方程。咒為回歸常數,也稱回歸系數,凡因2著稱為回歸系數。2.2逐步回歸法在多元線性回歸分析中,由于有多個自變量,回歸自變量的選擇成為建立回歸模型的重要問題。通常,一方面,為獲取全面信息總希望模型中包括的自變量盡可能多;另一方面,考慮到獲取很多自變量的觀測值的費用和實際困難,則希望模型中包含盡可能少而且重要的變量。因此,人們常根據某種規(guī)則對自變量進行篩選。本次選用的方

5、法是逐步回歸法。1)回歸效果的顯著性檢驗y與變量X1,X2Xm線性相關的密切程度可以用回歸平方和U在總平方和Lyy中所占的比例來衡量。稱r2=土為樣本決定系數。在多元線性回歸的實際應用中,用復相關系數來表示Lyy回歸方程對原有數據擬合程度的好壞。顯然0MR21,其越接近1,回歸方程擬合程度越高。2)偏F檢驗檢驗某個自變量對y的影響是否顯著的正規(guī)方法是偏F檢驗。設原回歸方程(全模型)為:尸?0?X1號X2彳Xy彳XN1X1%Xm去掉變量Xi后的新回歸方程(減模型)為:?二3ZxiZx2?iXi彳Xi1,?mXm全模型的復相關系數的平方為R2,減模型的復相關系數的平方為R2,定義R:=R2-R2o

6、若AR;幾乎為零,則說明x對y沒有顯著影響,反之則表示x對y有其它變量不可替代的顯著影響。檢驗假設:H0:r2=0;H1:.R::0當H。為真時,檢驗統(tǒng)計量為lRi2?:八Fi=2=-F(1,n-m-1)(1-R2)/(n-m-1)S2對于給定顯著性水平a,由樣本計算出Fi的值,若Fi之Fi也(1,n-m-1),則拒絕H。,說明x對y有顯著影響,應在減模型中引入自變量x;反之則應剔除x,使之成為減模型。偏F檢驗通常被用作變量篩選的依據。逐步回歸法中就是對各變量采用偏F法進行檢驗的。3)逐步回歸法的步驟逐步回歸法的基本思想是:將變量逐個引入,引入條件是該變量的偏F檢驗是顯著的。同時,每引入一個新

7、變量后又對老變量逐個檢驗,將變得不顯著的變量從回歸模型中剔除。具體步驟如下:1、對m個自變量分別與y建立回歸模型夕=f?,十片0)為,對它們分別計算E,得Fi中最大的那個值,比如口(I)如果F1F進,則計算結束,即y與所有自變量均線性無關;(H)如果FL1之F進,則引入XL1,建立回歸方程夕川1)+甲Xi(22、建立y與自變量子集xL1,Xi(i#Li)的二元回歸模型(2.4)以式(2.4)為全模型,式(2.3)為減模型求Fi值,并取得Fi中最大的那個值,比如說FL2。(1如果FllrwMitn-I3TOJW-iWOXulrEOMCiB-WOWOT-2)&陽斕林面板(4)%收入IJIMW-ic

8、enoixrBUliiXrwMiijrlgMOXiTrKixciaxoj跡總翻rojjnivr-SfiHHsuxa7HKU00iKHCOUiI包時弧望就業(yè)總產越(8)(1)財政收入與國內生產總值散點圖;(2)財政收入與人口數散點圖;(3)財政收入與能源生產總量;(4)財政收入與農作物總播種面積散點圖;(5)財政收入與貨運量散點圖;(6)財政收入與出口總額散點圖;(7)財政收入與進口總額散點圖;(8)財政收入與建筑業(yè)總產值散點圖圖1財政收入與各種因素散點圖由于多元逐步回歸分析方法是一種多元線性回歸方法,指標變量若呈非線性關系則會影響模型精度。所以首先判斷因變量和自變量是否存在非線性關系。從圖1可

9、以看出,人口數X2與財政收入Y之間大致呈指數關系,而農作物總播種面積X4與財政收入Y之間的線性關系很不顯著,都是可以首先剔除的變量。其余變量錯誤!未找到引用源。都與財政收入Y具有線性作用且正相關,需要通過逐步分析方法進行進一步的顯著性判斷。3.4 線性回歸的結果及分析利用統(tǒng)計數據建立回歸模型,用SPSS軟件的線性回歸分析功能,得到以下數據。由表3可以看出貨運量、國內生產總值和能源生產總量這三個自變量經過逐步回歸過程被選擇進入了回歸方程。被選擇的判據是變量進入回歸方程的F的概率不大于0.05,被剔除的判據是變量進入回歸方程的F的概率不小于0.10。表3輸入/移去的變量模型輸入的變量移去的變量方法

10、1貨運量(萬噸步進(準則:F-to-enter的概率=.100)。2國內生產總值(億元)步進(準則:F-to-enter的概率=.100)。3能源生產總量(萬噸)步進(準則:F-to-enter的概率=.100)。a.因變量:財政收入表4顯示三個模型的擬合情況,模型3的復相關系數R=1.000,可決系數R2=0.999,調整可決系數為0.999,估計值的標準差為916.74710,可見模型3的擬合度較高。表4模型匯總模型RR2調整R2標準估計的誤差1.999a.998.9981615.3792921.000b.999.9991163.5199131.000c.999.999916.74710a

11、.預測變量:(常量),貨運量(萬噸)b.預測變量:(常量),貨運量(萬噸),國內生產總值(億元)c.預測變量:(常量),貨運量(萬噸),國內生產總值(億元),能源生產總量(萬噸)d.因變量:財政收入(億元)從表5中看出方差分析結果可以看出,三個模型的F值檢驗Sig值遠小于0.01,可見,最終模型的整體線性關系是成立的。表5ANOVAd模型平方和df均方FSig.1回歸2.044E1012.044E107832.197.000a殘差41751204.003162609450.250總計2.048E10172回歸2.046E1021.023E107556.322.000b殘差20306678.79

12、1151353778.586總計2.048E10173回歸2.047E1036.823E98117.999.000c殘差11765953.53114840425.252總計2.048E10.17a.預測變量:(常量),貨運量(萬噸)b.預測變量:(常量),貨運量(萬噸),國內生產總值(億元)c.預測變量:(常量),貨運量(萬噸),國內生產總值(億元),能源生產總量(萬噸)d.因變量:財政收入(億元)如表6所示,包含的是進入模型的變量,主要描述模型的參數估計值,以及每個變量的系數估計值的顯著性檢驗和共線性檢驗。結果模型中所有變量系數的t檢驗Sig值都接近或小于0.01,說明這些系數都顯著的不為0

13、,因此,最終的回歸方程應當包含貨運量、國內生產總值和能源生產總量這三個自變量,且方程擬和效果很好。表6系數模型非標準化系數標準系數tSig.B標準誤差試用版1(常量)-39148.932958.303-40.852.000貨運量(萬噸).038.000.99988.500.0002(常量)-26904.7673152.897-8.533.000貨運量(萬噸).022.004.5685.233.000國內生產總值(億元).103.026.4323.980.0013(常量)-15515.4184351.514-3.566.003貨運量(萬噸).015.004.3853.731.002.國內生產總值

14、(億元).176.031.7375.744.000能源生產總量(萬噸)-.060.019-.124-3.188.00710表6系數模型非標準化系數標準系數tSig.B標準誤差試用版1(常量)-39148.932958.303-40.852.000貨運量(萬噸).038.000.99988.500.0002(常量)-26904.7673152.897-8.533.000貨運量(萬噸).022.004.5685.233.000國內生產總值(億元).103.026.4323.980.0013(常量)-15515.4184351.514-3.566.003貨運量(萬噸).015.004.3853.73

15、1.002國內生產總值(億元).176.031.7375.744.000能源生產總量(萬噸)-.060.019-.124-3.188.007a.因變量:財政收入(億元)如表7所示,給出的是所有未進入最終模型的變量檢驗信息,由t檢驗的Sig值都大于0.1,這些變量對模型的貢獻都不明顯,所以它們都不包含在最終方程中。表7排除的變量ModelBetaIntSig.偏相關共線性統(tǒng)計量容差1國內生產總值(億元).432a3.980.001.717.006能源生產總量(萬噸).043a.926.369.233.061出口總額(億元).066a1.929.073.446.092進口總額(億元).076a1.

16、828.088.427.064建筑業(yè)總產值(億元)-.051a-.195.848-.050.0022能源生產總量(萬噸)-.124b-3.188.007-.649.027出口總額(億元)-.049b-1.117.283-.286.03411進口總額(億元)-.037b-.779.449-.204.030建筑業(yè)總產值(億元).319b1.660.119.406.0023出口總額(億元).073c1.478.163.379.016進口總額(億元).101c2.111.055.505.014建筑業(yè)總產值(億元).188c1.142.274.302.001a模型中的預測變量:(常量),貨運量(萬噸)b

17、.模型中的預測變量:(常量),貨運量(萬噸),國內生產總值(億元)c模型中的預測變量:(常量),貨運量(萬噸),國內生產總值(億元),能源生產總量(萬噸)d.因變量:財政收入圖2標準化殘差直方圖43NAu3bu_12表8殘差統(tǒng)計量極小值極大值均值標準偏差N預測值5652.1587116279.000038679.298334698.4605618殘差-1919.031131378.36218.00000831.9344418標準預測值-.9522.236.0001.00018標準殘差-2.0931.504.000.90718a.因變量:財政收入(億元)Histogram標準化殘差的P-P圖通過

18、比較樣本殘差分布與假設的正態(tài)分布是否相同來檢驗殘差是否符合正態(tài)分布,所有殘差點都分布在對角的直線附近,說明殘差的正態(tài)性假設基本成立。NormalP-PPlotofRegressionStandardizedResidual1.0DependentVariable:財政收入心070Z2012/O2011qod30p0K*dx山1920i2002oo2Q0S011995o.o60000.00120000OOH1口00口口_口口10DOOO.OOaCDO.DO-20CQ0QO-.口一-3oaoca-2oaoao_iqo口口口QOQQO1oaooo3口口口口Q200019971006/20090rIT

19、-r0.00.2Q,40.60.B1,0ObservedCumProb圖3標準P-P圖年份O1自由SL19061997Oigsa1999O200020012002口2003O2004.?2QD5200502007200602009:2010O20112012StandardizedResidual圖4散點圖13從圖4的的財政收入與其標準化殘差散點圖中可以看到,所有觀測量隨機地落在垂直圍繞i2的范圍內,預測值與標準化殘差值之間沒有明顯的關系,所以回歸方程應該滿足線性關系與方差齊性的假設且擬和效果較好。3.5 最優(yōu)回歸方程由以上多元回歸分析可得各個分量的影響關系,從而得出最優(yōu)”方程為:Y=-15515.418+0.176X1-0.060X3+0.015X5其中R2=0.999,F=8117.999X1代表國內生產總值,X3代表能源生產總量,X5代表貨運量代入2011年數據,可得Y2011=-15515.418+0.176473104.0-0.060317987+0.0153696961

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論