多元回歸分析的應用研究_第1頁
多元回歸分析的應用研究_第2頁
多元回歸分析的應用研究_第3頁
多元回歸分析的應用研究_第4頁
多元回歸分析的應用研究_第5頁
已閱讀5頁,還剩14頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

..目錄TOC\o"1-4"\h\z\u32128摘要: 120242關鍵詞: 128815Abstract: 113136Keywords: 14687引言 2145951一元線性回歸的思想及其應用舉例 334591.1一元線性回歸模型 4251341.2一元線性回歸模型的檢驗 525061.3一元線性回歸模型舉例 6305232多元線性回歸模型的思想及其應用舉例 946222.1多元線性回歸的數學模型 9103222.2多元線性回歸模型的檢驗 10165742.3多元線性回歸模型應用舉例 11305922.3.1研究問題的提出 11240882.3.2數據采集與多元回歸分析 11104712.3.3EXCEL作回歸分析確定待定系數的值 12120722.3.4總結 132663前進法、后退法、逐步回歸法思想及其舉例 14213513.1前進法 14252103.1.1前進法回歸分析的應用 15184793.1.1.1回歸方程 15117603.1.1.2回歸方程及系數檢驗 1523033.2后退法 1582063.2.1后退法回歸分析的應用 16150063.2.1.1回歸方程 166113.2.1.2回歸方程及系數的檢驗 161633.3逐步回歸法 16290363.3.1逐步回歸分析的應用 17225043.3.2研究結果比較 1818332致謝 1826101參考文獻 1932186附錄 20多元回歸分析的應用研究摘要:回歸分析方法是多元統(tǒng)計分析的各方法中應用最廣泛的一種,也是數理統(tǒng)計中最成熟最常用的方法,主要是研究變量間的相互依賴關系。首先,本文通過建立一元線性回歸模型,闡述了一元線性回歸模型的基本統(tǒng)計思想以及它在實際問題研究中的應用原理。然后,推廣建立了多元線性回歸,運用SPSS等統(tǒng)計軟件建立了由熟料化學成分分析結果預測抗壓強度的模型,來指導水泥生產配比的調整,其更好的論證了多元線性回歸,最優(yōu)回歸模型的檢驗、評價及預測。最后,通過前進法、后退法、逐步回歸法,闡述了各個方法的思想以及步驟,論證了在多元回歸方法中,并不是所有的自變量都對因變量有顯著影響這一思想,舉例說明了各方法的優(yōu)缺點,保證所有子集為最優(yōu)回歸子集。同時我們也看出線性回歸模型在解決這類經濟增長、預測問題上有很好的效果,其作用具有很好的參考價值。關鍵詞:一元線性回歸;多元線性回歸;前進法;后退法;逐步回歸MultipleRegressionAnalysisofAppliedResearchAbstract:Regressionanalysismethodisthemostwidelyusedinvariousmethodsofmultivariatestatisticalanalysisofa,isalsothemostmatureandmostcommonlyusedmethodinmathematicalstatistics,mainlyisthestudyofmutuallydependentrelationshipbetweenvariables.Firstofall,throughtheestablishmentofayuanlinearregressionmodel,thispaperexpoundsthebasicstatisticalideaofayuanlinearregressionmodelanditsapplicationintheactualproblemresearchprinciple.Then,establishedthemultivariatelinearregression,usingthestatisticalsoftwareofSPSSwasestablishedbytheclinkerchemicalcompositionanalysisresultpredictionmodelofcompressivestrength,toguidetheadjustmentoftheratioofcementproduction,itsbetterdemonstratesthemultiplelinearregression,theoptimalregressionmodelofinspection,evaluationandprediction.Finally,throughtheformerentered,regressivemethod,stepwiseregressionmethod,thispaperexpoundsthedifferentmethodsofthoughtandsteps,demonstratedinmultivariateregressionmethod,andnotalltheindependentvariablesonthedependentvariablehasasignificantimpactontheideas,theadvantagesanddisadvantagesofeachmethodisillustratedbyanexample,ensuringthatallsubsetsoftheoptimalsubsetregression.Atthesametimewealsoseethatthelinearregressionmodeltodealwiththeproblemofthiskindofeconomicgrowth,forecasthasverygoodeffect,itsactionhastheverygoodreferencevalue.Keywords:Ayuanlinearregression;Multiplelinearregression;Beforethelaw;Backmethod;Stepwiseregressionmethod引言回歸分析是對客觀事物數量依存關系的分析,是一種重要的統(tǒng)計分析方法,廣泛地應用于各類社會現(xiàn)象變量之間的影響因素和關聯(lián)的研究。由于客觀事物的聯(lián)系錯綜復雜,很多現(xiàn)象的變化往往受到兩個或多個因素的影響。為了全面揭示這種復雜的依存關系,準確的測定現(xiàn)象之間的數量變動,提高預測和控制的準確度,就要建立多元回歸模型進入深入、系統(tǒng)的分析。多元回歸分析是研究多個自變量與某個應變量之間相關關系的一種常用統(tǒng)計方法。一般地,我們有定義1.1稱為多元線性回歸模型,其中是未知參數。是個未知參數,稱為回歸參數,稱為回歸系數,稱為被解釋變量,是個可以精確測量并控制的一般變量,稱為解釋變量〔自變量,為了區(qū)別,稱<1.1>為理論回歸模型。在回歸模型中,因變量和自變量都是一維的,稱它為一元回歸模型;若是多維,也是多維,則稱它為多重回歸模型。多元回歸分析,是經濟預測中常用的一種方法,通過建立經濟變量與解釋變量之間的數學模型,對建立的數學模型進行檢驗,在符合判定條件的情況下把給定的解釋變量的數值代入回歸模型,從而計算出經濟變量的未來值即預測值。對于回歸模型中的解釋變量,有兩種處理方法:一種當作確定性變量處理,另一種當作隨機變量處理,所得計算公式式相同。其一般步驟是:首先取得解釋變量和響應變量的多次觀測值,這些觀測值可能是實驗得到的,也可能是調查出的;然后根據這些數據確定經驗公式的類型,建立數學模型,列出待估參數;再用這些數據進行擬合;最后作統(tǒng)計分析。數據擬合是計算方法的內容,它也能解決回歸分析中的數據擬合,但回歸分析與計算方法的數據擬合不同,計算方法的數據擬合只估計未知參數,而回歸分析不僅僅估計參數,而且要對擬合的結果作統(tǒng)計分析。就回歸分析的發(fā)展而言,它自身的完善和發(fā)展至今是統(tǒng)計學家研究的熱點課題。例如自變量的選擇、穩(wěn)健回歸、回歸診斷、投影尋蹤、分位回歸、非參數回歸等模型仍有大量研究文獻出現(xiàn)。在回歸模型中,當自變量代表時間、因變量不獨立并且構成平穩(wěn)序列時,這種回歸模型的研究就是統(tǒng)計學中的另一個重要分支—時間序列分析。它提供了一系列動態(tài)數據的處理方法,幫助人們科學的研究分析所獲得的動態(tài)數據,從而建立描述動態(tài)數據的統(tǒng)計模型,以達到預測、控制的目的。對于滿足基本假設的回歸模型,它的理論已經成熟,但對于違背基本假設的回歸模型的參數估計問題近些年仍有較多研究。在實際問題的研究應用中,人們發(fā)現(xiàn)經典的最小二乘估計的結果并不總是令人滿意,統(tǒng)計學家從多方面進行努力試圖克服經典方法的不足。例如,為了克服設計矩陣的病態(tài)性,提出了以嶺估計為代表的多種有偏估計。斯泰因〔Stein于1955年證明了當維數P大于2時,正態(tài)均值向量最小二乘估計的不可容性,既能夠找到另一個估計在某種意義上一直優(yōu)于最小二乘估計,從此之后人們提出許多新的估計,其中主要有嶺估計、壓縮估計、主成分估計、Stein估計,以及特征根估計。為了解決自變量個數較多的大型回歸模型的自變量的選擇問題,人們提出了許多關于回歸自變量選擇的準則和算法;為了克服最小二乘估計對異常值的敏感性,人們提出了各種穩(wěn)健回歸;為了研究模型假設條件的合理性及樣本數據對統(tǒng)計推斷影響的大小,產生了回歸診斷;為了研究回歸模型中未知參數非線性的問題,人們提出了許多非線性回歸方法,這其中有利用數學規(guī)劃理論提出的非線性參數估計方法、樣條回歸方法、微分幾何方法等;為了分析和處理高維數據,特別是高維非正態(tài)數據,產生了投影尋蹤回歸、切片回歸等。近年來,新的研究方法不斷出現(xiàn),如非參數統(tǒng)計、自助法、刀切法、經驗貝葉斯估計等方法都對回歸分析起著滲透和促進作用。就回歸分析的應用而言,多元回歸方法因其實用性及有效性,在現(xiàn)今社會越來越多的領域得到廣泛應用。早些時候,苑玉風應用多元回歸分析和逐步回歸分析,研究某種汽車發(fā)動機用球墨鑄鐵活塞環(huán)球化率的影響因素,并建立了相關關系。李金海在多元回歸數學模型基礎上,提出了多元回歸方法的應用步驟。另外這一方法也被廣泛的應用于預報各種氣象參數,牛桂萍,黃祖英用多元回歸分析做暴雨的長期預報,雖然誤差較大,但他們同時指出有待于因子本身作進一步的改進。此外,多元回歸分析方法也被越來越多的應用于預報各種自然災害,王震宇等將這一方法用于滑坡預報,并用實例證明了能在一定程度上解決滑坡的預報問題。袁宇運用多元回歸分析法,建立了化學污染面積,縱身與諸條件的關系,快速估算預測出突出性化學污染危害,并提前做出防范措施。索南仁欠也提出了水質污染的多元回歸分析方法,這一方法的建立有助于我們更好地直觀了解水質的最顯著污染因素及在具體治污過程中,更有針對性地實施合理治污方案。對于太湖大面積的藍藻事件,如果我們也應用這一方法,提前預測并做好防范工作,那污染所帶來的危害及經濟損失一定會有所減少。由此看來,回歸模型技術隨著它自身的不斷完善和發(fā)展以及應用領域的不斷擴大,必將在統(tǒng)計學中占有更重要的位置,也必將為人類社會的發(fā)展起著它獨到的作用。1一元線性回歸的思想及其應用舉例一元線性回歸是描述兩個變量之間統(tǒng)計關系的最簡單的回歸模型。一元線性回歸雖然簡單,但通過一元線性回歸模型的建立過程,我們可以了解回歸分析方法的基本統(tǒng)計思想以及它在實際問題研究中的應用原理。在實際問題的研究中,經常需要研究某一現(xiàn)象與影響它的某一最主要因素的關系。如影響糧食產量的因素非常多,但在眾多的因素中,施肥量是一個最主要的因素,我們往往需要研究施肥量這一因素與糧食產量之間的關系;在消費問題的研究中,影響消費的因素很多,但我們可以之研究國民收入與消費額之間的關系,因為國民收入是影響消費的最主要因素;保險公司在研究火災損失的規(guī)律時,把火災發(fā)生地與最近的消防站距離作為一個最主要的因素,研究火災損失與火災發(fā)生地和最近的消防站距離之間的關系。上述幾個例子都是研究兩個變量之間的關系,它們的一個共同點是:兩個變量之間有著密切的關系,但它們之間密切的程度并不能有一個變量唯一確定另一個變量,即它們之間的關系是一種非確定性的關系。那么它們之間到底有什么樣的關系呢?下面將舉例說明。用下表1-1數據做出銷售額數據與廣告額數據之間的散點圖,并對其做一元回歸分析。表1-1產品銷售額與廣告額數據廣告額〔萬元產品銷售額〔萬元廣告額〔萬元產品銷售額〔萬元489468095511778447036465610787244748656950526992584482664985682251927257557679495086706466479650運用EXCEL。得出銷售額與廣告額之間的散點圖如下圖1-1所示:圖1-1銷售額與廣告額的散點圖由圖1所示的趨勢線和回歸方程和擬合的R平方值得到銷售額與廣告額之間的一元回歸直線方程為:擬合度為,其擬合度非常高,擬合效果好,因此,該方程可以用于解釋銷售額的變化和銷售額的預測。如每增加1萬元的廣告額,銷售額將會增加1.6324萬元。1.1一元線性回歸模型通過以上例子我們看出它只考慮兩個變量間的關系,即與間的線性關系可以看做是回歸模型的特例,那么我們就可以定義一元線性回歸模型的數學形式如下:稱為變量對的一元線性理論回歸模型。其中,是未知參數,稱為回歸常數,稱為回歸系數,稱為被解釋變量〔因變量,是個可以精確測量并控制的一般變量,稱為解釋變量〔自變量,是隨機誤差,且為了由樣本數據得到回歸參數和的理想估計值,使用普通最小二乘估計。定義離差平方和為為尋找參數的估計值,定義的離差平方和達到最小,則滿足對其分別求偏導數,并令其為零,則有經整理其方程組得到的最小二乘估計為其中得到其回歸直線1.2一元線性回歸模型的檢驗檢驗,其檢驗回歸系數的顯著性。原假設為對立假設是構造統(tǒng)計量為其中,是的無偏估計,當原假設成立時,其統(tǒng)計量服從自由度為的分布,給定顯著性水平,當時接受,認為對的一元線性回歸不成立。檢驗。,根據平方和分解式簡寫為構造統(tǒng)計量其中服從自由度為的分布,給定顯著性水平,當說明回歸方程顯著,對有顯著的線性關系。1.3一元線性回歸模型舉例某快餐店已經在全國建立了多家分店。其成功的重要經驗之一就是:店要建在學校附近。在新建立一家分店之前,管理層需要對這個新店的年銷售額做出估計,這一估計用于確定新建餐館的規(guī)模。管理人員認為,設在某校園附近餐館的年銷售額與該學校的人數有關。初步的看法是,設在規(guī)模大、學生人數多的學校附近的餐館的年銷售額高于設在規(guī)模小、學生人數少的學校附件的餐館的年銷售額。為研究新餐館的年銷售額隨當地學生人數的變化規(guī)律,該快餐店收集了它的10個坐落在校園附近的銷售分店的年銷售額與其所在地學生人數的數據,這些數據如表1-2表1-210個分店的年銷售額及分店駐地學生人數餐館序號學生人數〔1000人年銷售額〔1000人1258261053888481185121176161377201578201699221491026202圖1-2學生人數與餐館年銷售額關系散點圖譬如,對第一個分店,,表示該店坐落在有2000名學生的一所學校附近,年銷售額為5800元;第二分店附近的一所學校有6000名學生,它的銷售額達105000元;余類推。以學生人數為橫軸,年銷售額為縱軸,將觀察結果組成的數據對在直角坐標系中描出相應的散點圖。如圖1-2,從圖1-2可見,數據點大致落在一條直線附近,這顯示這兩個變量近似地就有線性關系。設隨機變量與變量之間存在某種線性相關關系,這里,是可以控制的〔或可以觀察的變量,設其中,稱為隨機誤差。未知參數都不依賴于,式〔1-1稱為一元線性回歸模型。它描述了相依變量〔銷售額與一個獨立變量〔學生人數之間的線性關系。按前述假設,〔1-7式等價于方程,該式表示當已知時,可以精確地算出數學期望,由于表示不可控制的隨機因素,通常就用作為的估計值,由樣本得到〔1-7式的估計則方程為關于的估計回歸方程或回歸方程,其圖形稱為回歸直線,式中表示的估計。系數采用最小二乘法計算,這里我們用的多項式擬合命令實現(xiàn),其程序見附錄1所示,得因此,用最小二乘法求得的估計回歸方程是:回歸直線如圖1-2所示,可以看到它與所有的數據點都很接近。如果有充足的理由相信這個方程真實地反映了與之間的關系。對于給定的的值,我們就能夠預測出可以信賴的的值,譬如,若一個新建的分店坐落在一所16000名學生的學校附近,那么有:即,這家分店的年銷售額會達到140000元。變量與之間線性關系是統(tǒng)計意義上的,因此必須要對這種線性關系作統(tǒng)計檢驗。假定與的回歸具有的形式。如果變量與之間確有這樣的關系,即變量的值對的值施加了影響,則不會為零。因此,應該檢驗假設〔1檢驗經推導可知,的估計服從正態(tài)分布,即′其中而得無偏估計為殘差平方和,可以得出,故,于是中的估計量就是,故可使用檢驗法對進行檢驗,檢驗統(tǒng)計量當為真時,此時其的拒絕域是:其中,為顯著性水平。當假設被拒絕時,認為回歸效果是顯著的,反之,就認為回歸效果不顯著。將表1-2中的數據帶入,可以計算出,且而對和自由度為的條件下,可以計算出臨界值現(xiàn)在,故在顯著水平下拒絕,即認為,認為回歸效果是顯著的?!?檢驗在回歸模型中只有一個獨立變量的情況下檢驗和檢驗產生同樣的結論。也就是說,若用檢驗法拒絕了,改用檢驗法同樣會得到拒絕的結論。當為真時,統(tǒng)計量簡寫為其中服從自由度為的分布,將表2的數據帶人,可以計算得又知且,所以通過計算可得對于,得出由于成立,故拒絕所獲結論與檢驗相同。由次,我們有充分的理由相信方程真實地反映了與之間的關系。由以上可以看到,通過一元回歸模型很好的解決的該快餐店的銷售額估計,從而使其擴大經營有依可循,能有效的避免決策失誤,減少經濟損失,增大經濟效益.可以說線性回歸模型在解決這類經濟增長、預測問題上有很好的效果。2多元線性回歸模型的思想及其應用舉例2.1多元線性回歸的數學模型設隨機變量與一般變量的線性回歸模型為其中,是個未知參數,稱為回歸參數,稱為回歸系數,稱為被解釋變量〔因變量,是個可以精確測量并控制的一般變量,稱為解釋變量〔自變量,是隨機誤差,且稱為理論回歸方程。對一個實際問題,獲得組觀測數據則線性回歸模型式可以表示為寫成矩陣形式為其中對于多元線性回歸方程未知參數的估計與一元線性回歸方程的參數估計原理一樣,采用最小二乘估計,即尋找的估計值即離差平方和最小。使其滿足對其分別求偏導數,并令其為0,以上方程組經整理后,用矩陣形式表示的正規(guī)方程組移向得當存在時,即得回歸參數的最小二乘估計為得出多元線性回歸預測模型為2.2多元線性回歸模型的檢驗對于多元線性回歸方程的顯著性檢驗與一元線性回歸方程的顯著檢驗既有相同之處,也有不同之處。下面將介紹兩種統(tǒng)計檢驗方法即檢驗和檢驗。檢驗,檢驗是對整個回歸方程的顯著性檢驗,為此提出原假設為建立對進行檢驗的統(tǒng)計量,利用總離差平方和的分解簡寫為則統(tǒng)計量如下在正態(tài)假設下,當原假設成立時服從自由度為的分布,于是,可以利用統(tǒng)計量對回歸方程的總體顯著性進行檢驗。當時,拒絕原假設,認為在顯著性水平下,與有顯著的線性關系即回歸方程是顯著的,反之,當時,認為回歸方程不顯著。檢驗,檢驗是用來對每個回歸系數是否有意義進行的檢驗。構造統(tǒng)計量其中是矩陣主對角線的第個元素,服從自由度為的分布。當給定顯著性水平,如果則認為對有顯著影響,否則認為其線性效果不顯著。檢驗,檢驗是用于檢驗回歸方程對樣本觀測值的擬合程度,其計算公式為復相關系數說明這一組影響因素與的相關程度,值越接近1,說明利用多元線性回歸的效果越好。2.3多元線性回歸模型應用舉例2.3.1研究問題的提出水泥熟料的強度在水泥生產中是一個關鍵性的指標,甚至可以說是水泥熟料質量好壞的結論性指標。由于其測量周期長,數據不能及時反饋給用戶,同時企業(yè)又不能因為此項指標的缺失而拒絕發(fā)貨,因此多數水泥企業(yè)出廠管理采用強度累計增長率即二元回歸的方法預測水泥熟料強度。經過長期實踐證明,累計增長率的方法確實可以作為預測水泥熟料強度的依據,但要做到水泥企業(yè)的精細化管理,其預測的準確程度還有待商榷。影響水泥熟料強度的因素很多,如:礦物組成數量、化學成分、熟料的燒結狀況、熟料礦物晶體的晶型等。累計增長率的方法完全忽略了這些關系,本文提及的多元回歸分析強調化學成分與水泥熟料強度的關系,運用多元回歸的方法預測水泥熟料的強度。眾所周知水泥熟料的水化產物主要有4種,分別為:。其中對水泥熟料強度起主要作用的是和對水泥熟料的影響較大。水泥熟料的強度是其礦物組成物理特性的表現(xiàn),直接獲取水泥熟料水化產物的含量比較困難,但其化學成分通過化學分析的方法卻能得到較精確的結果,水泥熟料的化學成分能間接反映其水化產物。是水泥熟料水化的有害成分,含量過高會影響水泥的安定性。因此本文選取水泥熟料中的化學成分的含量與水泥熟料強度進行多元回歸分析。2.3.2數據采集與多元回歸分析選取生產工藝狀況比較穩(wěn)定、熟料全分析及物檢數據準確度符合分析、檢驗要求、并具有代表性的若干組檢驗數據作為回歸分析基礎數據,原始數據應不少于20組。在此采集千業(yè)水泥公司6、7月份熟料檢驗結果列于附錄表2-1根據常規(guī)熟料化學分析項目,建立多元線性回歸分析的數學模型如下:式中:為預測的熟料抗壓強度;分別表示熟料化學分析中的百分含量;為待定系數。2.3.3EXCEL作回歸分析確定待定系數的值創(chuàng)建一個EXCEL工作表,并將所采集的數據組熟料化學分析及物檢數據輸入表中。然后將光標移到列、回歸系數行的單元格,單擊"粘貼函數"打開粘貼函數中的"函數分類〔C"選擇其中"查找與引用",在"函數名<N>"中選擇"INDEX"然后按"確定",此時在編輯欄中出現(xiàn)"=INDEX<>"。再在"=INDEX<>"的括號內輸入表格定位:<LINEST<I5:I30,B5:H30>,8>,此時編輯欄中顯示=INDEX<LINEST<I5:I30,B5:H30>,8>,單擊編輯欄的"√"即可得出的值。將光標移到x1下回歸系數行的單元格,采用同樣方法輸入=INDEX<LINEST<I5:I30,B5:H30>,7>,,即可得出x1的數值,移動光標到相應系數下單元格,同樣方法,只需將公式中最后一個數字依次改為"6、5、4、3、2、1",即可依次得出的值。在EXCCEL中可以方便地用所求公式對強度結果進行驗算,將光標移到上面EXCCEL工作表的單元格J5,單擊后單擊"粘貼函數"打開粘貼函數中的"函數分類〔C"選擇其中"全部",在"函數名<N>"中選擇"SUMPRODUCT"然后按"確定",此時在編輯欄中出現(xiàn)"=SUMPRODUCT<>"。再在"=SUMPRODUCT<>"的括號內輸入:"B5:H5,C2:I2",然后再加上即"+B2",此時編輯欄中顯示=SUMPRODUCT<B5:H5,C2:I2>+B2。單擊編輯欄的"√",即可得出6.17的抗壓強度預測值見表2-1。將光標移到單元格J5的右下角,當其變?yōu)楹谑謺r,按下鼠標左鍵,向下拖至單元格J30,即可得出所有相應的抗壓強度預測值。將光標移到工作表的單元格K5,單擊后在上方編輯欄內輸入公式"J5-I5"即可得出6.17的物理檢測值和預測值的差,采用同樣方法向下拖至單元格K30,即可得出所有相應的誤差值。其統(tǒng)計分析結果見表2-1其預測公式在SPSS中選擇工具一數據分析一回歸,其輸出結果見下表2-2,以及附錄表2-3表2-2系數表模型非標準化系數標準系數tSig.B標準誤差試用版1<常量>2.0171.0002.017.059x1.687.011.95361.450.000x2.537.012.66145.534.000x3.878.026.39934.349.000x4-1.088.030-.364-36.399.000x5-1.497.021-.780-71.426.000x6.126.008.17014.897.000x7.477.011.50944.921.000將所有結果保留2位有效數字,則水泥熟料強度預測公式<1>為:式中:每個回歸系數下面括號中的數值是與其互相對應的值.其中為水泥熟料強度預測值,分別代表水泥熟料中:元素的含量。由以上回歸方程可以看出,它與EXCEL所得到的回歸系數值極匹配,所選取的回歸方程準確性較好,在實際測量中結果也令人滿意。下面對模型進行檢驗。〔1檢驗根據顯著性水平,查分布表,得通過統(tǒng)計軟件計算處理得到從以上可得三個回歸系數的檢驗均通過,同理檢驗通過,所選擇的自變量是影響強度的的主要因素。檢驗通過計算機得到根據顯著性水平,查分布表得,因為,所以,檢驗通過,表明回歸方程的回歸效果顯著。整體上對有高度顯著的線性關系。〔3復相關系數,決定系數,由決定系數看回歸方程高度顯著。本文所得的回歸經驗公式是建立在生產工藝較穩(wěn)定,化學分析結果和熟料強度有較好的線性相關關系的基礎上。采用此方法,對XX千業(yè)水泥XX公司20XX6月17日至2007年7月16日期間生產較為正常的熟料抗壓強度進行了預測〔見附錄表2-1,與物檢實際抗壓強度相比,其絕對強度誤差最大值為,絕對平均強度誤差為,相關性很好,并且以水泥熟料水化機理、礦物組成與其強度的關系為依據,強調水泥熟料中化學成分對其強度的影響,選用多元回歸的分析方法,打破傳統(tǒng)累計增長率的預測形式、預測模型更加科學,具有指導水泥生產配比調整的意義。2.3.4總結在多元線性回歸分析中,我們知道回歸方程中所包含的自變量越多,那么回歸平方和就越大,則剩余平方和就越小,一般情況下剩余標準差也隨之減少,回歸方程效果越好,而精度也越高。在"最優(yōu)"回歸方程中總希望包括盡可能多的自變量,特別是對因變量有顯著影響的自變量不能遺漏。但回歸方程所包括的自變量太多,也帶來不利的一面,首先,若要求自變量多,則在預測時必須測定許多量,并且計算也不方便;其次,如果在回歸方程中包括有對因變量y不起作用或作用極小的自變量,那么剩余平方和也不會由于自變量的增加而減少,相反由于的自由度的減少,反而使剩余標準差增大,這就影響回歸方程的精度;第三,由于存在著對因變量影響不顯著的自變量,以致影響回歸方程的穩(wěn)定性,使預測效果下降。因而,在"最優(yōu)"回歸方程中,又希望不包括對因變量影響不顯著的自變量。綜上所述,所謂最優(yōu)回歸方程,就是在回歸方程中包括所有對因變量有顯著影響的自變量,而不包括對因變量影響不顯著的自變量的回歸方程。最優(yōu)回歸方程的建立,是采取將自變量逐個引入的方法。引入自變量的條件是:該自變量的偏回歸平方和經檢驗是所有自變量中最顯著的。同時,每引入一個新變量后,要求對已引入的自變量逐個進行檢驗,將偏回歸平方和變得不顯著的自變量及時剔除。由于每步都作檢驗,因而保證了最后所建立的回歸方程中所有自變量都是顯著的。上述這種建立最優(yōu)回歸方程的理論和方法,稱為逐步回歸分析。3前進法、后退法、逐步回歸法思想及其舉例3.1前進法前進法的思想是變量有少變多,每次增加一個,直至沒有可引入的變量為止,具體做法是首先將全部個自變量分別對因變量建立個一元線性回歸方程,并分別計算這個一元回歸方程的個回歸系數的檢驗值,記為,選其最大值記為給定顯著性水平,若,則首先將引入回歸方程,為了方便,設就是。接下來因變量分別與建立個二元線性回歸方程,對這個回歸方程中的回歸系數進行檢驗,計算值,記為,選其最大者記為若,則接著將引入回歸方程。以上述方法接著做下去,直至所有的未被引入方程的自變量的值均小于時為止。這時,得到的回歸方程就是最終確定的方程。每步檢驗中的臨界值與自變量數目有關,在用軟件計算時,我們實際使用的是顯著性值做檢驗。3.1.1前進法回歸分析的應用例4現(xiàn)實生活中,影響一個地區(qū)居民消費的因素很多,例如,一個地區(qū)的人均生產總值、收入水平、消費價格指數、生活必需品的花費等。本例選取9個解釋變量研究城鎮(zhèn)居民家庭平均每人全年的消費性支出,解釋變量為:居民的食品花費,居民的服裝花費,居民的居住花費,居民的醫(yī)療花費,居民的教育花費,地區(qū)的職工平均工資,地區(qū)的人均,地區(qū)的消費價格指數,地區(qū)的失業(yè)率。本例選取20XX《中國統(tǒng)計年鑒》我國的30個省、市、自治區(qū)〔XX地區(qū)失業(yè)率數據缺失,因此從樣本中剔除XX20XX的數據,以居民的消費性支出〔元為因變量,以如下9個變量為自變量作多元線性回歸。數據見附錄,其中,自變量單位為元,的單位為。對例題4城鎮(zhèn)居民消費性支出關于9個自變量做回歸數據,用前進法做變量選擇,取顯著性水平。3.1.1.1回歸方程從中可以看到,前進法依次引入,則城鎮(zhèn)居民消費性支出關于9個自變量的回歸方程為3.1.1.2回歸方程及系數檢驗回歸模型的假設檢驗:從表中可以看出,其值小于0.05,則說明居民消費性支出的回歸系數不為0,其回歸模型有統(tǒng)計意義。偏回歸系數的假設檢驗:表中,則在0.05的顯著性水平下,該各回歸系數不為0.說明對各個自變量有顯著影響。衡量線性回歸模型優(yōu)劣的標準,其復決定系數,表明:用樣本量和模型中自變量的個數進行調整后,模型中自變量有的解釋力比前四次回歸都顯著,這也說明了與之間高度的線性相關關系。3.2后退法后退法。是將全部自變量回歸,然后對每個自變量做顯著性檢驗,剔除最不重要的變量.后退法其具體做法是對個回歸系數進行檢驗,記求得的值為,選其最小者記為給定顯著性水平,若,則首先將從回歸方程中剔除,為了方便,設就是。接著對剩下的個自變量重新建立回歸方程,進行回歸系數的顯著性檢驗,像上面那樣計算出,如果又有,則剔除,重新建立關于個自變量的回歸方程,依此類推,直至回歸方程中所剩余的個自變量的檢驗值均大于臨界值,沒有可剔除的自變量為止,這時,得到的回歸方程就是最終確定的方程。3.2.1后退法回歸分析的應用對例4城鎮(zhèn)居民消費性支出關于9個自變量做回歸數據,用前進法做變量選擇,取顯著性水平。3.2.1.1回歸方程后退法依次引入了其最優(yōu)回歸模型如下:居住,醫(yī)療保健,教育,平均工資,人均,消費價格指數3.2.1.2回歸方程及系數的檢驗回歸模型的假設檢驗:從表中可以看出拒絕原假設,說明回歸方程顯著,其回歸模型有統(tǒng)計意義。偏回歸系數的假設檢驗:表中檢驗的結果,值分別等于3.602,3.121,3.014,2.683,8.397,1.738,3.502各自值為0.002,0.005,0.006,0.013,0.000,0.096,0.002在顯著性水平,則拒絕原假設,該各偏回歸系數均不為0,且對居民消費性支出有顯著影響。〔3衡量線性回歸模型優(yōu)劣的標準:復決定系數為調整的復決定系數表明:用樣本量和模型中自變量的個數進行調整后,模型中自變量有的解釋力比前兩次回歸都顯著,這也說明與之間高度的線性相關關系。3.3逐步回歸法逐步回歸的基本思想是有進有出。具體做法是將變量一個一個引入,每引入一個自變量后,對已選入的變量進行逐個檢驗,當原引入的變量由于后面變量的引入而變得不再顯著時,要將其剔除。引入一個變量或從回歸方程剔除一個變量,為逐步回歸的一步,每一步都要進行檢驗,以確保每次引入新的變量之前回歸方程中只包含顯著的變量,這個過程反復進行,直到既無顯著的自變量選入回歸方程,也無不顯著自變量從回歸方程中剔除為止。這樣就避免了前進法和后退法各自的缺陷,保證了最后所得的回歸子集是最優(yōu)回歸子集。在逐步回歸法中要注意的一個問題是引入自變量和剔除自變量的顯著性水平值是不同的,要求引入自變量的顯著性水平小于剔除自變量的顯著性水平,否則可能產生"死循環(huán)"。3.3.1逐步回歸分析的應用表3-1的數據是1968—1983年間美國與線制造有關的數據,各變量的含義如下:年份;國民生產總值〔10億美元;新房東工數〔單位:1000;失業(yè)率〔;滯后6個月的最惠利率;用戶用線增量〔%;年線銷量〔百萬尺雙線。表3-11968-1983美國與線制造數據x1x2x3x4x5x6y19861051.81503.63.65.85.9587319691078.81486.73.56.74.5785219701075.31434.85.08.44.2818919711107.52035.06.06.24.2749419721171.12360.05.65.44.9853419731235.02043.04.95.95868819741217.81331.05.69.44.1727019751202.31160.08.59.43.4502019761271.01535.07.77.24.2603519771332.71961.87.06.64.5742519781399.22009.36.07.63.9940019791431.61721.96.010.64.4935019801480.71290.07.214.93.9654019811510.31100.07.616.63.1767519821492.21039.09.217.50.6741919831535.41200.08.816.01.57923用spss做回歸,其輸出結果如附錄表3-2所示:〔1從輸出結果表3-2可以看出,逐步回歸的最優(yōu)子集模型為模型3,回歸方程為從回歸方程可以看出,對1968—1983年間美國與線制造年線銷量〔百萬尺雙線有顯著影響的是新房東工數〔單位:1000、失業(yè)率〔、滯后6個月的最惠利率,回歸方程中失業(yè)率〔的回歸系數為負,即,失業(yè)率越高年銷量越低,這也符合實際情況。方差分析表,表明回歸方程顯著,說明整體上在顯著性水平的情況下對有顯著影響。回歸系數的顯著檢驗。自變量對均有顯著影響。其中失業(yè)率〔的最大,但仍在的顯著性水平下對高度顯著,這充分說明在多元回歸中不能僅憑簡單相關系數的大小而決定變量的取舍。在輸出結果可以看到逐步回歸的選元過程。本例逐步回歸法的選元過程依次將引入回歸模型,沒有剔除變量,保留作為最終模型。相比之下,后退法首先做全模型的回歸,每個自變量都有機會展示自己的作用,所得結果更值得信服,說明兩種方法對自變量重要性的認可是不同的,這與自變量之間的相關性有關聯(lián)。3.3.2研究結果比較從上面的例子可以得出前進法和后退法顯然都有明顯的不足。前進法可能存在這樣的問題,既不能反映引進新的自變量后的變化情況。因為某個自變量開始可能是顯著的,但當引入其他自變量后它就變得不顯著了,但是也沒有機會將其剔除,即一旦引入,就是"終身制"的。這種只考慮引入而沒有考慮剔除的做法顯然是不全面的。我們在許多例子中會發(fā)現(xiàn)可能最先引入的某個自變量—當其他自變量相繼引入后—會變得對因變量很不顯著。后退法明顯不足是,一開始把全部自變量引入回歸方程,這樣計算量很大。如果有些自變量不太重要,一開始就不引入,就可減少一些計算量;再就是一旦某個自變量被剔除,它就再也沒有機會重新進入回歸方程。逐步回歸的思想是有進有出,即吸收了前進法和后退法的優(yōu)點,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論