SPSS統(tǒng)計分析_第六章_回歸分析課件1_第1頁
SPSS統(tǒng)計分析_第六章_回歸分析課件1_第2頁
SPSS統(tǒng)計分析_第六章_回歸分析課件1_第3頁
SPSS統(tǒng)計分析_第六章_回歸分析課件1_第4頁
SPSS統(tǒng)計分析_第六章_回歸分析課件1_第5頁
已閱讀5頁,還剩42頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、第六章 回歸分析變量之間的聯(lián)系確定型的關(guān)系:指某一個或某幾個現(xiàn)象的變動必然會引起另一個現(xiàn)象確定的變動,他們之間的關(guān)系可以使用數(shù)學函數(shù)式確切地表達出來,即y=f(x)。當知道x的數(shù)值時,就可以計算出確切的y值來。如圓的周長與半徑的關(guān)系:周長=2r。非確定關(guān)系:例如,在發(fā)育階段,隨年齡的增長,人的身高會增加。但不能根據(jù)年齡找到確定的身高,即不能得出11歲兒童身高一定就是1.40米公分。年齡與身高的關(guān)系不能用一般的函數(shù)關(guān)系來表達。研究變量之間既存在又不確定的相互關(guān)系及其密切程度的分析稱為相關(guān)分析?;貧w分析如果把其中的一些因素作為自變量,而另一些隨自變量的變化而變化的變量作為因變量,研究他們之間的非確

2、定因果關(guān)系,這種分析就稱為回歸分析?;貧w分析是研究一個自變量或多個自變量與一個因變量之間是否存在某種線性關(guān)系或非線性關(guān)系的一種統(tǒng)計學方法。線性回歸分析;曲線回歸分析;二維Logistic回歸分析;多維Logistic回歸分析;概率單位回歸分析;非線性回歸分析;權(quán)重估計分析;二階段最小二乘分析;最優(yōu)編碼回歸。一、線性回歸(一)一元線性回歸方程直線回歸分析的任務就是根據(jù)若干個觀測(xi,yi)i=1n找出描述兩個變量x、y之間關(guān)系的直線回歸方程y=a+bx。y是變量y的估計值。求直線回歸方程y=a+bx,實際上是用回歸直線擬合散點圖中的各觀測點。常用的方法是最小二乘法。也就是使該直線與各點的縱向垂

3、直距離最小。即使實測值y與回歸直線y之差的平方和(y-y)2達到最小。(y-y)2也稱為剩余(殘差)平方和。因此求回歸方程y=a+bx的問題,歸根到底就是求(y-y)2取得最小值時a和b的問題。a稱為截距,b為回歸直線的斜率,也稱回歸系數(shù)。 1、一元線性回歸方程的適用條件線形趨勢:自變量與因變量的關(guān)系是線形的,如果不是,則不能采用線性回歸來分析。獨立性:可表述為因變量y的取值相互獨立,它們之間沒有聯(lián)系。反映到模型中,實際上就是要求殘差間相互獨立,不存在自相關(guān)。正態(tài)性:自變量x的任何一個線形組合,因變量y均服從正態(tài)分布,反映到模型中,實際上就是要求隨機誤差項i服從正態(tài)分布。方差齊性:自變量的任何

4、一個線形組合,因變量y的方差均齊性,實質(zhì)就是要求殘差的方差齊。2、一元線性回歸方程的檢驗檢驗的假設(shè)是總體回歸系數(shù)為0。另外要檢驗回歸方程對因變量的預測效果如何。(1)回歸系數(shù)的顯著性檢驗對斜率的檢驗,假設(shè)是:總體回歸系數(shù)為0。檢驗該假設(shè)的t值計算公式是;t=b/SEb,其中SEb是回歸系數(shù)的標準誤。對截距的檢驗,假設(shè)是:總體回歸方程截距a=0。檢驗該假設(shè)的t值計算公式是: t=a/SEa,其中SEa是截距的標準誤。 (2) R2判定系數(shù)在判定一個線性回歸直線的擬合度的好壞時,R2系數(shù)是一個重要的判定指標。 R2判定系數(shù)等于回歸平方和在總平方和中所占的比率,即R2體現(xiàn)了回歸模型所能解釋的因變量變

5、異性的百分比。如果R2=0.775,則說明變量y的變異中有77.5是由變量X引起的。當R21時,表示所有的觀測點全部落在回歸直線上。當R2=0時,表示自變量與因變量無線性關(guān)系。為了盡可能準確的反應模型的擬合度,SPSS輸出中的Adjusted R Square是消除了自變量個數(shù)影響的R2的修正值。 (3)方差分析體現(xiàn)因變量觀測值與均值之間的差異的偏差平方和SSt是由兩個部分組成:SSt=SSrSSeSSr:回歸平方和,反應了自變量X的重要程度; SSe :殘差平方和,它反應了實驗誤差以及其他意外因素對實驗結(jié)果的影響。這兩部分除以各自的自由度,得到它們的均方。統(tǒng)計量F=回歸均方殘差均方。當 F值

6、很大時,拒絕接受b=0的假設(shè)。 (4)DurbinWatson檢驗在對回歸模型的診斷中,有一個非常重要的回歸模型假設(shè)需要診斷,那就是回歸模型中的誤差項的獨立性。如果誤差項不獨立,那么對回歸模型的任何估計與假設(shè)所作出的結(jié)論都是不可靠的。其參數(shù)稱為DW或D。D的取值范圍是0D4,統(tǒng)計學意義如下:當殘差與自變量互為獨立時D2;當相鄰兩點的殘差為正相關(guān)時,D2 (5)殘差圖示法在直角坐標系中,以預測值y為橫軸,以y與y之間的誤差et為縱軸(或?qū)W生化殘差與擬和值或一個自變量),繪制殘差的散點圖。如果散點呈現(xiàn)出明顯的規(guī)律性則,認為存在自相關(guān)性或者非線性或者非常數(shù)方差的問題。(二)多元線性回歸多元線性回歸:

7、根據(jù)多個自變量的最優(yōu)組合建立回歸方程來預測因變量的回歸分析稱為多元回歸分析。多元回歸分析的模型為:y=b0+b1x1+b2x2+ +bnxn 其中y為根據(jù)所有自變量x計算出的估計值, b0為常數(shù)項, b1、b2 bn稱為y對應于x1、x2 xn的偏回歸系數(shù)。偏回歸系數(shù)表示假設(shè)在其他所有自變量不變的情況下,某一個自變量變化引起因變量變化的比率。多元線性回歸模型也必須滿足一元線性回歸方程中所述的假設(shè)理論。 2.多元線性回歸分析中的參數(shù)(l)復相關(guān)系數(shù) R復相關(guān)系數(shù)表示因變量 xi 與他的自變量y之間線性相關(guān)密切程度的指標,復相關(guān)系數(shù)使用字母R表示。復相關(guān)系數(shù)的取值范圍在01之間。其值越接近1表示其

8、線性關(guān)系越強,越接近0表示線性關(guān)系越差。(2)R2判定系數(shù)與經(jīng)調(diào)整的判定系數(shù)與一元回歸方程相同,在多元回歸中也使用判定系數(shù)R2來解釋回歸模型中自變量的變異在因變量變異中所占比率。 但是,判定系數(shù)的值隨著進入回歸方程的自變量的個數(shù)(或樣本容量的大小n)的增加而增大。因此,為了消除自變量的個數(shù)以及樣本量的大小對判定系數(shù)的影響,引進了經(jīng)調(diào)整的判定系數(shù)(Adjusted R Square)。K為自變量的個數(shù),n為觀測量數(shù)目。自變量的個數(shù)大于1時,其值小于判定系數(shù)。自變量個數(shù)越多,與判定系數(shù)的差值越大。(3)零階相關(guān)系數(shù)、部分相關(guān)與偏相關(guān)系數(shù)零階相關(guān)系數(shù)(ZeroOrder)計算所有自變量與因變量之間的

9、簡單相關(guān)系數(shù)。部分相關(guān)(Part Correlation)表示:在排除了其他自變量對 xi的影響后,當一個自變量進入回歸方程模型后,復相關(guān)系數(shù)的平均增加量。偏相關(guān)系數(shù)(Partial Correlation )表示:在排除了其他變量的影響后;自變量 Xi與因變量y之間的相關(guān)程度。部分相關(guān)系數(shù)小于偏相關(guān)系數(shù)。偏相關(guān)系數(shù)也可以用來作為篩選自變量的指標,即通過比較偏相關(guān)系數(shù)的大小判別哪些變量對因變量具有較大的影響力。3、多元線性回歸分析的檢驗 建立了多元回歸方程后,需要進行顯著性檢驗,以確認建立的數(shù)學模型是否很好的擬和了原始數(shù)據(jù),即該回歸方程是否有效。利用殘差分析,確定回歸方程是否違反了假設(shè)理論。對

10、各自變量進行檢驗。其假設(shè)是總體的回歸方程自變量系數(shù)或常數(shù)項為0。以便在回歸方程中保留對因變量y值預測更有效的自變量。以便確定數(shù)學模型是否有效。(l)方差分析多元回歸方程也采用方差分析方法對回歸方程進行檢驗,檢驗的H0假設(shè)是總體的回歸系數(shù)均為0(無效假設(shè)),H1假設(shè)是總體的回歸系數(shù)不全為0(備選假設(shè))。它是對整個回歸方程的顯著性檢驗。使用統(tǒng)計量F進行檢驗。原理與一元回歸的方程分析原理相同。(2)偏回歸系數(shù)與常數(shù)項的檢驗在多元回歸分析中,可能有的自變量對因變量的影響很強,而有的影響很弱,甚至完全沒有作用,這樣就有必要對自變量進行選擇,使回歸方程中只包含對因變量有統(tǒng)計學意義的自變量;檢驗的假設(shè)是:各

11、自變量回歸系數(shù)為0,常數(shù)項為0。它使用的統(tǒng)計量是t;t=偏回歸系數(shù)/偏回歸系數(shù)的標準誤 (3)方差齊性檢驗方差齊性是指殘差的分布是常數(shù),與預測變量或因變量無關(guān)。即殘差應隨機的分布在一條穿過0點的水平直線的兩側(cè)。在實際應用中,一般是繪制因變量預測值與學生殘差的散點圖。在線性回歸Plots對話框中的源變量表中,選擇SRESID(學生氏殘差)做Y軸;選擇ZPRED(標準化預測值)做X軸就可以在執(zhí)行后的輸出信息中顯示檢驗方差齊性的散點圖。共線性診斷在回歸方程中,雖然各自變量對因變量都是有意義的,但某些自變量彼此相關(guān),即存在共線性的問題。給評價自變量的貢獻率帶來困難。因此,需要對回歸方程中的變量進行共線

12、性診斷;并且確定它們對參數(shù)估計的影響。 當一組自變量精確共線性時,必須刪除引起共線性的一個和多個自變量,否則不存在系數(shù)唯一的最小二乘估計。因為刪除的自變量并不包含任何多余的信息,所以得出的回歸方程并沒有失去什么。當共線性為近似時,一般是將引起共線性的自變量刪除,但需要掌握的原則是:務必使丟失的信息最少。 進行共線性論斷常用的參數(shù)有(l)容許度(Tolerance) 在只有兩個自變量的情況下,自變量X1與X2之間共線性體現(xiàn)在兩變量間相關(guān)系數(shù)r12上。精確共線性時對應r1221,當它們之間不存在共線性時r1220。 r122越接近于1,共線性越強。多于兩個自變量的情況, Xi與其他自變量X之間的復

13、相關(guān)系數(shù)的平方體現(xiàn)其共線性,稱它為Ri2。它的值越接近1,說明自變量之間的共線性程度越大。 容許度定義為Tolil一Ri2當容許度的值較小時,自變量Xi 與其他自變量X之間存在共線性。 使用容許度作為共線性量度指標的條件是,觀測量應大致近似于正態(tài)分布,但在大多數(shù)情況下觀測量的正態(tài)分布的假設(shè)是不被接受的。而且,由于容許度中相關(guān)系數(shù)對極端值極為敏感, 所以用它來作為共線性的量度指標是不適合的。(2)方差膨脹因子(VIF) 方差膨脹因于(VIF)定義為 VIF1/(l一Ri2 ),即它是容許度的倒數(shù)。它的值越大,自變量之間存在共線性的可能性越大。 (3)條件參數(shù)(Condition Index)條件

14、參數(shù)是在計算特征值時產(chǎn)生的一個統(tǒng)計量,其具體含義尚不大清楚,但己經(jīng)提出一些原則:其數(shù)值越大,說明自變量之間的共線性的可能性越大;有些學者提議,條件參數(shù)30時認為有共線性存在的可能性,但理論上并沒有得到證明。特征值(Eigenvalue)如果很小,就應該懷疑共線性的存在。 例 題Data09-03美國某銀行雇員情況調(diào)查,建立一個使用初始工資(salbegin)、工作經(jīng)驗(prevexp)、工作時間(jobtime)、工作類型(jobcat)、受教育年限(educ)預測當前工資(salary)的回歸方程。1變量間線性關(guān)系的初步探索在獲得數(shù)據(jù)后,應將所得到的數(shù)據(jù)繪圖,探索因變量隨自變量變化的趨勢。以

15、便確定數(shù)據(jù)是否適合線性模型。如果數(shù)據(jù)之間大致呈線性關(guān)系,可以建立線性回歸方程。如果圖中數(shù)據(jù)不呈線性分布,那么還可以根據(jù)其他回歸方程模型的觀測量分布圖形特點以及建立各方程后所得的判定系數(shù)R2進行比較后確定一種最佳模型。見曲線擬合及非線性回歸。通過散點圖還可以發(fā)現(xiàn)奇異值,如圖中畫圈的觀測值要認真檢查數(shù)據(jù)的合理性。 2、選擇自變量和因變量3、選擇回歸分析方法 Enter選項,強行進入法,即所選擇的自變量全部進人回歸模型,該選項是默認方式。 Remove選項,消去法,建立的回歸方程時,根據(jù)設(shè)定的條件剔除部分自變量。 Forward選項,向前選擇法,根據(jù)在option對話框中所設(shè)定的判據(jù),從無自變量開始

16、。在擬合過程中,對被選擇的自變量進行方差分析,每次加入一個F值最大的變量,直至所有符合判據(jù)的變量都進入模型為止。第一個引入歸模型的變量應該與因變量間相關(guān)系數(shù)絕對值最大。 Backward選項,向后剔除法,根據(jù)在option對話框中所設(shè)定的判據(jù),先建立全模型,然后根據(jù)設(shè)置的判據(jù),每次剔除一個使方差分析中的F值最小的自變量,直到回歸方程中不再含有不符合判據(jù)的自變量為止。 Stepwise選項,逐步進入法,它是向前選擇變量法與向后剔除變量方法的結(jié)合。根據(jù)在 option對話框中所設(shè)定的判據(jù),首先根據(jù)方差分析結(jié)果選擇符合判據(jù)的自變量且對因變量貢獻最大的進入回歸方程。根據(jù)向前選擇變量法則選入變量。然后根

17、據(jù)向后剔除法,將模型中F值最小的且符合剔除判據(jù)的變量剔除出模型,重復進行直到回歸方程中的自變量均符合進入模型的判據(jù),模型外的自變量都不符合進入模型的判據(jù)為止。 4、選擇參與回歸的觀測量根據(jù)變量值選擇參與回歸分析的觀測量,將作為參照的變量進入 Selection Variable框中,單擊 Rule按鈕。打開 Set Rule對話框。 5、Statistics按鈕Estimates:輸出回歸系數(shù)B、B的標準誤、標準回歸系數(shù)beta、B的t值及t值的雙側(cè)檢驗的顯著性水平;Confidence interval:輸出每一個非標準化回歸系數(shù)95的可信區(qū)間;Covariance maxtrix:輸出非標

18、準化回歸系數(shù)的協(xié)方差矩陣、各變量的相關(guān)系數(shù)矩陣;Model fit(模型擬合):輸出引入模型與從模型中剔除的變量,提供復相關(guān)系數(shù)R,R2及其修正值,估計值的標準誤,方差分析表;R squared change:表示回歸方差中引入或剔除一個自變量后的R2變化量;Descriptives:輸出合法觀測量的數(shù)目、變量的平均值、標準差、相關(guān)系數(shù)矩陣和單側(cè)檢驗顯著性水平Part and partial correlations:輸出部分相關(guān)系數(shù)、偏相關(guān)系數(shù)、零階相關(guān)系數(shù);Collinearity diagnostics:輸出方差膨脹因子及特征值;DurbinWatson:輸出DurbinWatson統(tǒng)計

19、量及可能的奇異值;Casewise diagnostics:輸出觀測量檢測表;6、plot按鈕Dependent:因變量;ZPRED:標準化預測值ZRESID:標準化殘差DRESID:剔除殘差ADJPRED:修正后預測值SRESID:學生化殘差SDRESID:學生化剔除殘差Histogrom:輸出帶有正態(tài)曲線的標準化殘差的直方圖;Normal probability plot:殘差的正態(tài)概率圖,檢查殘差的正態(tài)性;Produce all partial plots:輸出一個自變量殘差相對于因變量殘差的散布圖。Option按鈕Stepping method criteria(設(shè)置變量引入模型或從模

20、型中剔除的判據(jù))Use probability of F:采用F概率作為變量引入模型或從模型中剔除的判據(jù)。Entry:0.05當一個變量的sigT值0.05時該變量被引入方程;Removal:0.10當一個變量的sigT值0.10時該變量從回歸方程剔除。Use F values(采用F值作為變量引入模型或從模型中剔除的判據(jù))Entry:0.05當一個變量的sigF值3.84時該變量被引入方程;Removal:0.10當一個變量的sigF值2.71時該變量從回歸方程剔除。練習題為研究男性高血壓患者血壓與年齡、身高、體重等變量間的關(guān)系,隨機測量了32名40歲以上的男性患者的血壓、年齡、體重以及吸煙

21、史(過去吸煙或現(xiàn)在吸煙設(shè)置為1,不吸煙為0)。試建立回歸方程。Mreg2.sav二、曲線回歸分析線性回歸可以滿足許多數(shù)據(jù)分析,然而線性回歸不會對所有的問題都適用,有時因變量與自變量是通過一個已知或未知的非線性函數(shù)關(guān)系相聯(lián)系。盡管有可能通過一些函數(shù)的轉(zhuǎn)換方法,在一定范圍內(nèi)將它們轉(zhuǎn)變?yōu)榫€性關(guān)系,但這種轉(zhuǎn)換有可能導致更為復雜的計算或數(shù)據(jù)失真。在很多情況下有兩個相關(guān)的變量,用戶希望利用其中的一個變量對另一個變量進行預測,此時可采用的方法也很多;從簡單的直線模型到復雜的時間序列模型。如果不能馬上根據(jù)觀測量數(shù)據(jù)確定一種最佳模型,可以利用曲線估計在眾多的回歸模型中來建立一個簡單而又比較適合的模型。例 題汽車每加侖汽油行駛的里程數(shù)(mpg)與汽車重量(weight)建立回歸方程。Data1301線形回歸方程Y=b0+b1X二次回歸方程Y=b0+b1X+b2X2復合曲線回歸方程Y=b0(b1X)等比級數(shù)曲線回歸方程對數(shù)回歸方程三次回歸方程Y=b0+b1X+b2X2+b3X3三、 Logistic回歸分析 多元線性回歸要求Y是呈正態(tài)分布的連續(xù)型隨機變量。難以處理因變量為二值變量的情況。在醫(yī)學中,存在很多二值化的狀態(tài),比如生

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論