第七章 回歸分析_第1頁
第七章 回歸分析_第2頁
第七章 回歸分析_第3頁
第七章 回歸分析_第4頁
第七章 回歸分析_第5頁
已閱讀5頁,還剩41頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

授課人:張星第七章回歸分析

在數(shù)量分析中,經(jīng)常會看到變量與變量之間存在著一定的聯(lián)系。要了解變量之間如何發(fā)生相互影響的,就需要利用相關(guān)分析和回歸分析。在上一章講述了相關(guān)分析有關(guān)內(nèi)容。本章介紹回歸分析基本概念,回歸分析的主要類型:一元線性回歸分析、多元線性回歸分析、非線性回歸分析、曲線估計、時間序列的曲線估計、含虛擬自變量的回歸分析以及邏輯回歸分析等。

相關(guān)分析和回歸分析都是研究變量間關(guān)系的統(tǒng)計學(xué)課題。在應(yīng)用中,兩種分析方法經(jīng)常相互結(jié)合和滲透,但它們研究的側(cè)重點和應(yīng)用面不同。在回歸分析中,變量y稱為因變量,處于被解釋的特殊地位;而在相關(guān)分析中,變量y與變量x處于平等的地位,研究變量y與變量x的密切程度和研究變量x與變量y的密切程度是一樣的。

在回歸分析中,因變量y是隨機(jī)變量,自變量x可以是隨機(jī)變量,也可以是非隨機(jī)的確定變量;而在相關(guān)分析中,變量x和變量y都是隨機(jī)變量。相關(guān)分析是測定變量之間的關(guān)系密切程度,所使用的工具是相關(guān)系數(shù);而回歸分析則是側(cè)重于考察變量之間的數(shù)量變化規(guī)律,并通過一定的數(shù)學(xué)表達(dá)式來描述變量之間的關(guān)系,進(jìn)而確定一個或者幾個變量的變化對另一個特定變量的影響程度。

作為處理變量之間關(guān)系的一種統(tǒng)計方法和技術(shù),回歸分析的基本思想和方法以及“回歸(Regression)”名稱的由來都要歸功于英國統(tǒng)計學(xué)家F·Galton(1822~1911)。7.1線性回歸分析7.1.1線性回歸分析概述線性回歸分析的內(nèi)容能否找到一個線性組合來說明一組自變量和因變量的關(guān)系如果能的話,這種關(guān)系的強(qiáng)度有多大,也就是利用自變量的線性組合來預(yù)測因變量的能力有多強(qiáng)整體解釋能力是否具有統(tǒng)計上的顯著性意義在整體解釋能力顯著的情況下,哪些自變量有顯著意義回歸分析的一般步驟確定回歸方程中的解釋變量(自變量)和被解釋變量(因變量)確定回歸方程對回歸方程進(jìn)行各種檢驗利用回歸方程進(jìn)行預(yù)測7.1.2線性回歸模型一元線性回歸模型的數(shù)學(xué)模型:其中x為自變量;y為因變量;為截距,即常量;為回歸系數(shù),表明自變量對因變量的影響程度。

用最小二乘法求解方程中的兩個參數(shù),得到:多元線性回歸模型多元線性回歸方程:y=β0+β1x1+β2x2+...+βkxkβ1、β2、βk為偏回歸系數(shù)。β1表示在其他自變量保持不變的情況下,自變量x1變動一個單位所引起的因變量y的平均變動。

7.1.3線性回歸方程的統(tǒng)計檢驗7.1.3.1回歸方程的擬合優(yōu)度回歸直線與各觀測點的接近程度稱為回歸方程的擬合優(yōu)度,也就是樣本觀測值聚集在回歸線周圍的緊密程度,從而判斷回歸方程對樣本數(shù)據(jù)的代表程度。1、離差平方和的分解:建立直線回歸方程可知:y的觀測值的總變動可由來反映,稱為總變差。引起總變差的原因有兩個:由于x的取值不同,使得與x有線性關(guān)系的y值不同;隨機(jī)因素的影響??傠x差平方和可分解為即:總離差平方和(SST)=剩余離差平方和(SSE)+回歸離差平方和(SSR)其中:SSR是由x和y的直線回歸關(guān)系引起的,可以由回歸直線做出解釋;SSE是除了x對y的線性影響之外的隨機(jī)因素所引起的Y的變動,是回歸直線所不能解釋的。2、可決系數(shù)(判定系數(shù)、決定系數(shù))

回歸平方和在總離差平方和中所占的比例可以作為一個統(tǒng)計指標(biāo),用來衡量X與Y的關(guān)系密切程度以及回歸直線的代表性好壞,稱為可決系數(shù)。對于一元線性回歸方程:

在多元線性回歸分析中,引起判定系數(shù)增加的原因有兩個:一個是方程中的解釋變量個數(shù)增多,另一個是方程中引入了對被解釋變量有重要影響的解釋變量。如果某個自變量引入方程后對因變量的線性解釋有重要貢獻(xiàn),那么必然會使誤差平方和顯著減小,并使平均的誤差平方和也顯著減小,從而使調(diào)整的判定系數(shù)提高。所以在多元線性回歸分析中,調(diào)整的判定系數(shù)比判定系數(shù)更能準(zhǔn)確的反映回歸方程的擬合優(yōu)度。對于多元線性回歸方程:7.1.3.2回歸方程的顯著性檢驗(方差分析F檢驗)回歸方程的顯著性檢驗是要檢驗被解釋變量與所有的解釋變量之間的線性關(guān)系是否顯著。回歸方程的顯著性檢驗一般采用F檢驗,利用方差分析的方法進(jìn)行。對于一元線性回歸方程,檢驗統(tǒng)計量為:對于多元線性回歸方程,檢驗統(tǒng)計量為:7.1.3.3回歸系數(shù)的顯著性檢驗(t檢驗)回歸系數(shù)的顯著性檢驗是要檢驗回歸方程中被解釋變量與每一個解釋變量之間的線性關(guān)系是否顯著。之所以對回歸系數(shù)進(jìn)行顯著性檢驗,是因為回歸方程的顯著性檢驗只能檢驗所有回歸系數(shù)是否同時與零有顯著性差異,它不能保證回歸方程中不包含不能較好解釋說明因變量變化的自變量。因此,可以通過回歸系數(shù)顯著性檢驗對每個回歸系數(shù)進(jìn)行考察。

7.1.3.3回歸系數(shù)的顯著性檢驗(t檢驗)對于一元線性回歸方程,檢驗統(tǒng)計量為:

對于多元線性回歸方程,檢驗統(tǒng)計量為:7.1.3.4殘差分析

殘差是指由回歸方程計算得到的預(yù)測值與實際樣本值之間的差距,定義為:

對于線性回歸分析來講,如果方程能夠較好的反映被解釋變量的特征和規(guī)律性,那么殘差序列中應(yīng)不包含明顯的規(guī)律性。殘差分析包括以下內(nèi)容:殘差服從正態(tài)分布,其平均值等于0;殘差取值與X的取值無關(guān);殘差不存在自相關(guān);殘差方差相等。

1、對于殘差均值和方差齊性檢驗可以利用殘差圖進(jìn)行分析。如果殘差均值為零,殘差圖的點應(yīng)該在縱坐標(biāo)為0的中心的帶狀區(qū)域中隨機(jī)散落。如果殘差的方差隨著解釋變量值(或被解釋變量值)的增加呈有規(guī)律的變化趨勢,則出現(xiàn)了異方差現(xiàn)象。2、DW檢驗。DW檢驗用來檢驗殘差的自相關(guān)。檢驗統(tǒng)計量為:

DW=2表示無自相關(guān),在0-2之間說明存在正自相關(guān),在2-4之間說明存在負(fù)的自相關(guān)。一般情況下,DW值在1.5-2.5之間即可說明無自相關(guān)現(xiàn)象。7.1.3.5多重共線性分析

多重共線性是指解釋變量之間存在線性相關(guān)關(guān)系的現(xiàn)象。測度多重共線性一般有以下方式:1、容忍度:其中,是第i個解釋變量與方程中其他解釋變量間的復(fù)相關(guān)系數(shù)的平方,表示解釋變量之間的線性相關(guān)程度。容忍度的取值范圍在0-1之間,越接近0表示多重共線性越強(qiáng),越接近1表示多重共線性越弱。2、方差膨脹因子VIF。方差膨脹因子是容忍度的倒數(shù)。VIF越大多重共線性越強(qiáng),當(dāng)VIF大于等于10時,說明存在嚴(yán)重的多重共線性。

3、特征根和方差比。根據(jù)解釋變量的相關(guān)系數(shù)矩陣求得的特征根中,如果最大的特征根遠(yuǎn)遠(yuǎn)大于其他特征根,則說明這些解釋變量間具有相當(dāng)多的重復(fù)信息。如果某個特征根既能夠刻畫某解釋變量方差的較大部分比例(0.7以上),又能刻畫另一解釋變量方差的較大部分比例,則表明這兩個解釋變量間存在較強(qiáng)的線性相關(guān)關(guān)系。4、條件指數(shù)。指最大特征根與第i個特征根比的平方根。通常,當(dāng)條件指數(shù)在0-10之間時說明多重共線性較弱;當(dāng)條件指數(shù)在10-100之間說明多重共線性較強(qiáng);當(dāng)條件指數(shù)大于100時說明存在嚴(yán)重的多重共線性。

7.1.3線性回歸分析的基本操作(1)選擇菜單Analyze-Regression-Linear,出現(xiàn)窗口:(2)選擇被解釋變量進(jìn)入Dependent框。(3)選擇一個或多個解釋變量進(jìn)入Independent(s)框。(4)在Method框中選擇回歸分析中解釋變量的篩選策略。其中Enter表示所選變量強(qiáng)行進(jìn)入回歸方程,是SPSS默認(rèn)的策略,通常用在一元線性回歸分析中;Remove表示從回歸方程中剔除所選變量;Stepwise表示逐步篩選策略;Backward表示向后篩選策略;Forward表示向前篩選策略。注:多元回歸分析中,變量的篩選一般有向前篩選、向后篩選、逐步篩選三種基本策略。向前篩選(Forward

)策略:解釋變量不斷進(jìn)入回歸方程的過程。首先,選擇與被解釋變量具有最高線性相關(guān)系數(shù)的變量進(jìn)入方程,并進(jìn)行回歸方程的各種檢驗;然后,在剩余的變量中尋找與被解釋變量偏相關(guān)系數(shù)最高且通過檢驗的變量進(jìn)入回歸方程,并對新建立的回歸方程進(jìn)行各種檢驗;這個過程一直重復(fù),直到再也沒有可進(jìn)入方程的變量為止。向后篩選(Backward

)策略:變量不斷剔除出回歸方程的過程。首先,所有變量全部引入回歸方程,并對回歸方程進(jìn)行各種檢驗;然后,在回歸系數(shù)顯著性檢驗不顯著的一個或多個變量中,剔除t檢驗值最小的變量,并重新建立回歸方程和進(jìn)行各種檢驗;如果新建回歸方程中所有變量的回歸系數(shù)檢驗都顯著,則回歸方程建立結(jié)束。否則按上述方法再一次剔除最不顯著的變量,直到再也沒有可剔除的變量為止。逐步篩選(Stepwise

)策略:在向前篩選策略的基礎(chǔ)上結(jié)合向后篩選策略,在每個變量進(jìn)入方程后再次判斷是否存在應(yīng)該剔除出方程的變量。因此,逐步篩選策略在引入變量的每一個階段都提供了再剔除不顯著變量的機(jī)會。(5)第三和第四步中確定的解釋變量及變量篩選策略可放置在不同的塊(Block)中。通常在回歸分析中不止一組待進(jìn)入方程的解釋變量和相應(yīng)的篩選策略,可以單擊Next和Previous按鈕設(shè)置多組解釋變量和變量篩選策略并放置在不同的塊中。(6)選擇一個變量作為條件變量放到Selection

Variable框中,并單擊Rule按鈕給定一個判斷條件。只有變量值滿足判定條件的樣本才參與線性回歸分析。(7)在CaseLabels框中指定哪個變量作為樣本數(shù)據(jù)點的標(biāo)志變量,該變量的值將標(biāo)在回歸分析的輸出圖形中。7.1.5線性回歸分析的其他操作1、Statistics按鈕,出現(xiàn)的窗口可供用戶選擇更多的輸出統(tǒng)計量。(1)Estimates:SPSS默認(rèn)輸出項,輸出與回歸系數(shù)相關(guān)的統(tǒng)計量。包括回歸系數(shù)(偏回歸系數(shù))、回歸系數(shù)標(biāo)準(zhǔn)誤差、標(biāo)準(zhǔn)化回歸系數(shù)、回歸系數(shù)顯著性檢驗的t統(tǒng)計量和概率p值,各解釋變量的容忍度。(2)ConfidenceIntervals:輸出每個非標(biāo)準(zhǔn)化回歸系數(shù)95%的置信區(qū)間。(3)Descriptive:輸出各解釋變量和被解釋變量的均值、標(biāo)準(zhǔn)差、相關(guān)系數(shù)矩陣及單側(cè)檢驗概率p值。(4)Modelfit:SPSS默認(rèn)輸出項,輸出判定系數(shù)、調(diào)整的判定系數(shù)、回歸方程的標(biāo)準(zhǔn)誤差、回歸方程顯著F檢驗的方程分析表。(5)Rsquaredchange:輸出每個解釋變量進(jìn)入方程后引起的判定系數(shù)的變化量和F值的變化量。(6)Partandpartialcorrelation:輸出方程中各解釋變量與被解釋變量之間的簡單相關(guān)、偏相關(guān)系數(shù)。(7)Covariancematrix:輸出方程中各解釋變量間的相關(guān)系數(shù)、協(xié)方差以及各回歸系數(shù)的方差。(8)CollinearityDiagnostics:多重共線性分析,輸出各個解釋變量的容忍度、方差膨脹因子、特征值、條件指標(biāo)、方差比例等。(9)在Residual框中:Durbin-waston表示輸出DW檢驗值;CasewiseDiagnostic表示輸出標(biāo)準(zhǔn)化殘差絕對值大于等于3(SPSS默認(rèn)值)的樣本數(shù)據(jù)的相關(guān)信息,包括預(yù)測值、殘差、杠桿值等。2、Options選項,出現(xiàn)的窗口可供用戶設(shè)置多元線性回歸分析中解釋變量篩選的標(biāo)準(zhǔn)以及缺失值的處理方式。3、Plot選項,出現(xiàn)的窗口用于對殘差序列的分析。(1)窗口左邊框中各變量名的含義是:DEPENDNT表示被解釋變量,*ZPRED表示標(biāo)準(zhǔn)化預(yù)測值,*ZRESID表示標(biāo)準(zhǔn)化殘差,*DRESID表示剔除殘差,*ADJPRED表示調(diào)整的預(yù)測值,*SRESID表示學(xué)生化殘差,*SDRESID表示剔除學(xué)生化殘差。(2)繪制多對變量的散點圖,可根據(jù)需要在scatter框中定義散點圖的縱坐標(biāo)和橫坐標(biāo)變量。(3)在StandardizedResidualPlots框中選擇Histogram選項繪制標(biāo)準(zhǔn)化殘差序列的直方圖;選擇Normalprobabilityplot繪制標(biāo)準(zhǔn)化殘差序列的正態(tài)分布累計概率圖。選擇Produceallpartial

plots選項表示依次繪制被解釋變量和各個解釋變量的散點圖。4、Save選項,該窗口將回歸分析的某些結(jié)果以SPSS變量的形式保存到數(shù)據(jù)編輯窗口中,并可同時生成XML格式的文件,便于分析結(jié)果的網(wǎng)絡(luò)發(fā)布。(1)PredictedValues框中:保存非標(biāo)準(zhǔn)化預(yù)測值、標(biāo)準(zhǔn)化預(yù)測值、調(diào)整的預(yù)測值和預(yù)測值的均值標(biāo)準(zhǔn)誤差。(2)Distance框中:保存均值或個體預(yù)測值95%(默認(rèn))置信區(qū)間的下限值和上限值。(3)Residual框中:保存非標(biāo)準(zhǔn)化殘差、標(biāo)準(zhǔn)化殘差等。(4)InfluenceStatistics框中:保存剔除第i個樣本后統(tǒng)計量的變化量。5、WSL選項,采用加權(quán)最小二乘法替代普通最小二乘法估計回歸參數(shù),并指定一個變量作為權(quán)重變量。以“高??蒲醒芯俊睌?shù)據(jù)為例,建立回歸方程研究

1、課題總數(shù)受論文數(shù)的影響2、以課題總數(shù)為被解釋變量,解釋變量為投入人年數(shù)(X2)、受投入高級職稱的人年數(shù)(X3)、投入科研事業(yè)費(X4)、專著數(shù)(X6)、論文數(shù)(X7)、獲獎數(shù)(X8)。(1)解釋變量采用強(qiáng)制進(jìn)入策略(Enter),并做多重共線性檢測。(2)解釋變量采用向后篩選策略讓SPSS自動完成解釋變量的選擇。(3)解釋變量采用逐步篩選策略讓SPSS自動完成解釋變量的選擇。

7.1.5應(yīng)用舉例7.2曲線估計7.2.1曲線估計概述變量間的相關(guān)關(guān)系中,并不總是表現(xiàn)出線性關(guān)系,非線性關(guān)系也是極為常見的。變量之間的非線性關(guān)系可以劃分為本質(zhì)線性關(guān)系和本質(zhì)非線性關(guān)系。

本質(zhì)線性關(guān)系是指變量關(guān)系形式上雖然呈非線性關(guān)系,但可通過變量變換為線性關(guān)系,并最終可通過線性回歸分析建立線性模型。本質(zhì)非線性關(guān)系是指變量關(guān)系不僅形式上呈非線性關(guān)系,而且也無法變換為線性關(guān)系。本節(jié)的曲線估計是解決本質(zhì)線性關(guān)系問題的。常見的本質(zhì)線性模型有:1、二次曲線(Quadratic),方程為,變量變換后的方程為2、復(fù)合曲線(Compound),方程為,變量變換后的方程為3、增長曲線(Growth),方程為,變量變換后的方程為4、對數(shù)曲線(Logarithmic),方程為,變量變換后的線性方程為5、三次曲線(Cubic),方程為,變量變換后的方程為6、S曲線(S),方程為,變量變換后的方程為7、指數(shù)曲線(Exponential),方程為,變量變換后的線性方程為8、逆函數(shù)(Inverse),方程為變量變換后的方程為9、冪函數(shù)(Power),方程為變量變換后的方程為10、邏輯函數(shù)(Logistic),方程為變量變換后的線性方程為

SPSS曲線估計中,首先,在不能明確究竟哪種模型更接近樣本數(shù)據(jù)時,可在多種可選擇的模型中選擇幾種模型;然后SPSS自動完成模型的參數(shù)估計,并輸出回歸方程顯著性檢驗的F值和概率p值、判定系數(shù)R2等統(tǒng)計量;最后,以判定系數(shù)為主要依據(jù)選擇其中的最優(yōu)模型,并進(jìn)行預(yù)測分析等。另外,SPSS曲線估計還可以以時間為解釋變量實現(xiàn)時間序列的簡單回歸分析和趨勢外推分析。7.2.2曲線估計的基本操作可通過繪制并觀察樣本數(shù)據(jù)的散點圖粗略確定被解釋變量和解釋變量之間的相關(guān)關(guān)系,為曲線擬合中的模型選擇提供依據(jù)。SPSS曲線估計的基本操作步驟是:(1)選擇菜單Analyze-Regression-CurveEstimation,出現(xiàn)窗口如下頁所示。(2)把被解釋變量選到Dependent框中。(3)曲線估計中的解釋變量可以是相關(guān)因素變量也可是時間變量。如果解釋變量為相關(guān)因素變量,則選擇Variable選項,并把一個解釋變量指定到Independent框;如果選擇Time參數(shù)則表示解釋變量為時間變量。(4)在Models中選擇幾種模型。(5)選擇PlotModels選項繪制回歸線;選擇DisplayANOVAtable輸出各個模型的方差分析表和各回歸系數(shù)顯著性檢驗結(jié)果。至此,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論