SPSS軟件的操作與應用第6講 回歸概念、回歸系數(shù)_第1頁
SPSS軟件的操作與應用第6講 回歸概念、回歸系數(shù)_第2頁
SPSS軟件的操作與應用第6講 回歸概念、回歸系數(shù)_第3頁
SPSS軟件的操作與應用第6講 回歸概念、回歸系數(shù)_第4頁
SPSS軟件的操作與應用第6講 回歸概念、回歸系數(shù)_第5頁
已閱讀5頁,還剩52頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

相關(guān)分析

描述變量之間的關(guān)系二元變量分析偏相關(guān)分析距離相關(guān)分析上節(jié)回顧2相關(guān)概念

相關(guān)分析就是描述兩個或兩個以上變量間關(guān)系密切程度的統(tǒng)計方法,有效地揭示事物之間相關(guān)關(guān)系的強弱程度。二元變量相關(guān)分析(散點圖——直觀;相關(guān)系數(shù)——精準)偏相關(guān)分析(固定某些變量,研究其它變量之間的關(guān)系)距離相關(guān)分析上節(jié)回顧相關(guān)3第6講

回歸分析4基本概念5一、“回歸”起源

“回歸”一詞是英國生物學家、統(tǒng)計學家高爾頓(F.Galton)在研究父親身高和其成年兒子身高關(guān)系時提出的。

從大量父親身高和其成年兒子身高數(shù)據(jù)的散點圖中,Galton發(fā)現(xiàn)了一條貫穿其中的直線,它能描述父親身高和其成年兒子身高的關(guān)系,并可以用于根據(jù)父親身高預測其成年兒子身高。

6一、“回歸”起源

Galton通過上述研究發(fā)現(xiàn)兒子的平均身高一般總是介于其父親與其種族的平均高度之間,即兒子的身高在總體上有一種“回歸”到其所屬種族高度的趨勢,這種現(xiàn)象稱為回歸現(xiàn)象,貫穿數(shù)據(jù)的直線稱為回歸線?;貧w概念產(chǎn)生以后,被廣泛應用于各個領(lǐng)域之中,并成為研究隨機變量與一個或多個自變量之間變動關(guān)系的一種統(tǒng)計分析技術(shù)。7二、回歸的基本概念回歸分析的概念

回歸分析就是研究一個或多個變量的變動對另一個變量的變動的影響程度的方法。相關(guān)分析與回歸分析的關(guān)系相關(guān)分析是根據(jù)統(tǒng)計數(shù)據(jù),通過計算分析變量之間關(guān)系的方向和緊密程度,而不能說明變量之間相互關(guān)系的具體形式,無法從一個變量的變化來推測另一個變量的變化情況?;貧w分析能夠確切說明變量之間相互關(guān)系的具體形式,可以通過一個相關(guān)的數(shù)學表達式,從一個變量的變化來推測另一個變量的變化情況,使估計和預測成為可能。

相關(guān)分析是回歸分析的基礎和前提,回歸分析是相關(guān)分析的深入和繼續(xù)。相關(guān)與回歸8二、回歸的基本概念回歸分析的目的

根據(jù)已知的資料或數(shù)據(jù),找出變量之間的關(guān)系表達式(找到回歸線或回歸方程),用自變量的已知值去推測因變量的值或范圍(進行預測),實際上是研究因果關(guān)系。(例如:)回歸分析的基本過程確定自變量、因變量確定回歸模型估計模型中的參數(shù)(建立回歸方程)對回歸模型進行各種檢驗模型應用(利用回歸方程預測)9二、回歸的基本概念回歸分析可以解決的問題確定因變量與若干個自變量之間聯(lián)系的定量表達式,即回歸方程或數(shù)學模型通過控制可控變量的數(shù)值,借助數(shù)學模型來預測或控制因變量的取值和精度進行因素分析,從影響因變量變化的自變量中區(qū)分出重要因素和次要因素分類根據(jù)變量之間相關(guān)關(guān)系的表現(xiàn)形式分為

線性回歸分析:變量之間的相關(guān)關(guān)系是線性關(guān)系非線性回歸分析:變量之間的相關(guān)關(guān)系是非線性關(guān)系

根據(jù)影響因變量的自變量的多少分為一元回歸分析多元回歸分析10二、回歸的基本概念回歸分析的功能

實現(xiàn)回歸分析的功能主要在“Analyze→Regression”命令菜單中,主要分為:線性回歸分析曲線估計分析二維邏輯分析多維邏輯分析順序分析概率分析非線性回歸分析加權(quán)估計分析兩階最小二乘分析

11線性回歸12三、線性回歸線性回歸的概念

線性函數(shù)是變量之間存在的各種關(guān)系中最簡單的形式,具有這種關(guān)系的回歸叫做線性回歸。線性回歸根據(jù)自變量多少分為一元線性回歸和多元線性回歸13三、線性回歸線性回歸的模型下面以一元線性回歸為例,解析線性回歸模型。一元線性回歸的數(shù)學模型為:在數(shù)學模型中分別稱為回歸常數(shù)和回歸系數(shù),稱為隨機誤差。

從數(shù)學模型可以看出因變量y的變化由兩部分組成自變量x的變化所引起的y的線性變化,即其他隨機因素引起的y的變化,即如果隨機誤差的期望為0,那么數(shù)學模型可以轉(zhuǎn)化為:稱為一元線性回歸方程從幾何意義上講,一元線性回歸方程是一條直線,即回歸線。

從一元線性回歸方程可以看出,一元線性回歸分析是在不考慮隨機因素條件下進行分析的,所以是在比較理想狀態(tài)下的分析三、線性回歸的適用條件線性趨勢:即自變量與因變量的關(guān)系是線性的。獨立性:因變量Y的取值相互獨立。反映在方程中即殘差獨立。正態(tài)性:即自變量的任何一個線性組合,Y應該服從正態(tài)分布。反映在方程中即殘差Ei服從正態(tài)分布。方差齊性:自變量的任何一個線性組合,Y的方差相同。15三、線性回歸線性回歸方程的統(tǒng)計檢驗

通過樣本數(shù)據(jù)建立的回歸方程,不能立即用于對實際問題的分析和預測,還需要進行各項統(tǒng)計檢驗?;貧w方程的擬合優(yōu)度檢驗檢驗樣本數(shù)據(jù)點聚集在回歸線周圍的密集程度,從而評價回歸方程對樣本數(shù)據(jù)的代表程度。擬合優(yōu)度檢驗采用判定(決定)系數(shù)(一元)和調(diào)整判定(決定)系數(shù)(多元),來檢驗。其中R是自變量x和因變量y之間的相關(guān)系數(shù)。和取值范圍是0~1,越接近1表示擬合優(yōu)度越高,反之就越低。

16三、線性回歸線性回歸方程的統(tǒng)計檢驗

回歸方程的顯著性檢驗

檢驗因變量與所有的自變量之間的線性關(guān)系是否顯著

1.顯著性檢驗H0假設是:回歸系數(shù)與0無顯著性差異。

2.檢驗采用F統(tǒng)計量,SPSS自動計算統(tǒng)計量的觀測值和對應的伴隨概率。3.如果伴隨概率大于顯著性水平ɑ=0.05,接受H0假設,回歸系數(shù)與0無顯著性差異。表明自變量x和因變量y之間線性關(guān)系不顯著,回歸方程無實際意義。如果伴隨概率小于等于顯著性水平ɑ=0.05,拒絕H0假設,回歸系數(shù)與0有顯著性差異。表明自變量x和因變量y之間有線性關(guān)系,回歸方程有實際意義。17三、線性回歸線性回歸方程的統(tǒng)計檢驗

回歸系數(shù)的顯著性檢驗檢驗每個自變量與因變量之間的線性關(guān)系是否顯著,能否保留在方程中

1.顯著性檢驗H0假設是:回歸系數(shù)與0無顯著性差異。

2.檢驗t統(tǒng)計量,SPSS自動計算統(tǒng)計量的觀測值和對應的伴隨概率。3.如果伴隨概率大于顯著性水平ɑ=0.05,接受H0假設,回歸系數(shù)與0無顯著性差異。表明自變量x和因變量y之間線性關(guān)系不顯著,回歸方程無實際意義。如果伴隨概率小于顯著性水平ɑ=0.05,拒絕H0假設,回歸系數(shù)與0有顯著性差異。表明自變量x和因變量y之間有線性關(guān)系,回歸方程有實際意義。18三、線性回歸線性回歸方程的統(tǒng)計檢驗

殘差分析

殘差是指由回歸方程計算所得的預測值與實際樣本值之間的差距。殘差分析是回歸方程檢驗的重要組成部分,如果回歸方程能夠較好地反映變量之間的變化規(guī)律,那么殘差中不包含明顯的規(guī)律性和趨勢性。

殘差分析的主要內(nèi)容(1)殘差均值為0的正態(tài)性分析對應的殘差有正負,但總體上應服從以0為均值的正態(tài)分布??梢酝ㄟ^繪制標準化(或?qū)W生化)殘差的累計概率圖來分析。

(2)殘差的獨立性分析回歸方程要求前期和后期的殘差數(shù)值之間不存在相關(guān)關(guān)系,即不存在自相關(guān)??梢酝ㄟ^繪制殘差的序列圖、計算殘差的自相關(guān)系數(shù)和DW(Durbin-Watson)檢驗來分析19三、線性回歸線性回歸方程的統(tǒng)計檢驗

(3)異方差分析無論變量的取值如何變化,對應的殘差分析的方差都應相等(齊性),否則認為出現(xiàn)了異方差現(xiàn)象,異方差會導致回歸系數(shù)的顯著性檢驗出現(xiàn)較大偏差??梢酝ㄟ^:繪制殘差圖和等級相關(guān)分析來分析。

(4)探測樣本中的異常值異常值對回歸方程影響較大,可以利用殘差分析探測樣本中的異常值,加以排除。對于探測因變量y中的異常值方法:標準化殘差、學生化殘差和剔除殘差。對于探測自變量x中的異常值方法:杠桿值、庫克距離、標準化回歸系數(shù)和標準化預測值的變化。三、線性回歸的步驟1.做出散點圖,觀察變量間的趨勢;2.構(gòu)建回歸模型進行回歸分析3.回歸方程檢驗;4.殘差分析;5.多重共線性問題的判斷處理。1.求相關(guān)系數(shù)矩陣,系數(shù)在0.9以上的將會存在共線性問題,0.8以上可能會有問題;2.容忍度(Tolerance):指標越小,共線性可能越嚴重。如果小于0.1,可認為共線性嚴重。21三、線性回歸SPSS操作及案例分析例一:一元線性回歸分析一家地產(chǎn)公司調(diào)查了某城市的房地產(chǎn)銷售價格與房產(chǎn)的評估價值的數(shù)據(jù),請用一元線性回歸分析,能否用房產(chǎn)的評估價值來預測房地產(chǎn)銷售的價格。分析:1.自變量:房產(chǎn)的評估價值;因變量:房地產(chǎn)銷售價格2.散點圖分析3.一元線性回歸結(jié)果分析22三、線性回歸SPSS操作及案例分析

結(jié)果分析:從建立的散點圖來看,自變量x和因變量y之間存在一定的線性關(guān)系,而且相關(guān)程度較高。

23三、線性回歸SPSS操作及案例分析結(jié)果分析:(1)變量進入/移出表(表1)

Enter表示選定變量全部進入模型(2)模型綜述表(表2)相關(guān)系數(shù)R=0.916、判定系數(shù)R2=0.839、調(diào)整判定系數(shù)R2=0.830,說明變量之間相關(guān)程度高,回歸方程的擬合優(yōu)度高。表1表224三、線性回歸SPSS操作及案例分析

結(jié)果分析:(3)方差分析表(表3)

F檢驗統(tǒng)計量的觀測值=93.567,伴隨概率=0.000<0.05,拒絕零假設,說明自變量x和因變量y之間線性關(guān)系顯著,可以建立線性模型。(4)模型系數(shù)表(表4)常數(shù)項Constant=895.020,回歸系數(shù)=1.351

;回歸系數(shù)的伴隨概率=0.000,拒絕零假設,說明自變量x和因變量y之間線性關(guān)系顯著,可以建立線性模型。表3表425三、線性回歸SPSS操作及案例分析

結(jié)果分析:結(jié)論:根據(jù)上述分析結(jié)果,可以得到回歸方程,用該方程來進行分析和預測實際問題,結(jié)果較為準確。

舉例:x278039507283y4648.026227.5210727.07實際銷售值4850620011650y-實際銷售值-201.9827.52-922.9326三、線性回歸SPSS操作及案例分析

操作步驟:

(1)根據(jù)數(shù)據(jù)建立散點圖,進行初步分析

Graphs→LegacyDialogs

→Scatter/dot...數(shù)據(jù)文件:9-linear_one.sav

27三、線性回歸SPSS操作及案例分析

操作步驟:

(2)一元線性回歸

Analyze→Regression→Linear…數(shù)據(jù)文件:9-linear_one.sav保存文件:9-linear_one2.spo12自變量因變量28三、線性回歸SPSS操作及案例分析

例二:一元線性回歸分析NambeMills公司生產(chǎn)5種金屬餐具產(chǎn)品,分別是Bowl(碗)、Casserole(焙盤)、Dish(碟)、Tray(托盤)、Plate(盤子)。在生產(chǎn)過程中都有一個拋光的過程。為了有助于安排生產(chǎn),記錄了59個產(chǎn)品的拋光時間(time)、產(chǎn)品類型(type)和產(chǎn)品直徑(diam)。用一元線性回歸分析能否用產(chǎn)品的直徑來預測產(chǎn)品的拋光時間。29三、線性回歸SPSS操作及案例分析

結(jié)果分析(1)散點圖從建立的散點圖來看,自變量x和因變量y之間存在一定的線性關(guān)系,但數(shù)據(jù)分布較為分散,所以相關(guān)程度不是很高。30三、線性回歸SPSS操作及案例分析

結(jié)果分析(2)一元線性回歸變量進入/移出方式表表示選定變量全部進入模型模型綜述表反映了因變量和自變量之間的線性相關(guān)系數(shù)R=0.700,判定系數(shù)R2=0.490,說明自變量diam可以解釋因變量time49%的變異性。說明自變量與因變量之間的相關(guān)程度一般,回歸方程的擬合優(yōu)度不高。31三、線性回歸SPSS操作及案例分析結(jié)果分析方差分析表F檢驗統(tǒng)計量的觀測值為54.865,F(xiàn)分布的伴隨概率為0.000,從而拒絕零假設,即因變量和自變量的線性關(guān)系是顯著的,可以建立線性模型。模型系數(shù)表回歸模型的常數(shù)項為-1.955,自變量回歸系數(shù)為3.457

回歸方程為:time=3.457*diam-1.955回歸系數(shù)的伴隨概率=0.000,應拒絕t檢驗的零假設,說明因變量和自變量的線性關(guān)系是顯著的,可以建立線性模型四、線性回歸分析SPSS操作及案例分析殘差分布直方圖分析:在回歸分析中,總是假定殘差服從正態(tài)分布從殘差分布直方圖與附于其上的正態(tài)分布曲線的比較,可以觀察殘差分布的正態(tài)性四、線性回歸分析SPSS操作及案例分析觀測值累計概率P-P圖觀測值累計概率P-P圖也是用來比較殘差分布與正態(tài)分布差異的圖形縱坐標:期望累計概率分布橫坐標:觀測值累計概率分布圖中的斜線對應著一個均值為0的正態(tài)分布分析:圖中的散點密切分布分布在斜線附近,說明隨機殘差服從正態(tài)分布,從而證明樣本確實是來自正態(tài)總體四、線性回歸分析SPSS操作及案例分析學生化剔除殘差-標準化預測值散點圖縱坐標:學生化剔除殘差橫坐標:標準化預測值分析:圖中各點在縱軸零點對應的直線上下基本均勻分布,可以認為方差齊性的假設成立四、線性回歸分析SPSS操作及案例分析殘差統(tǒng)計表分析:表中顯示預測值、標準預測值、預測值標準誤差、調(diào)整的預測值非標準化殘差、標準化殘差、學生化殘差、剔除殘差、標準化剔除殘差馬氏距離、庫克距離中心杠桿值的最小值、最大值、平均值、標準差和觀測量數(shù)目N根據(jù)概率原則,標準化殘差或?qū)W生化剔除殘差的絕對值大于3對應的觀測值為異常值,從表中可以看出,該樣本數(shù)據(jù)存在異常值36三、線性回歸SPSS操作及案例分析

操作步驟:

(1)繪制拋光時間和產(chǎn)品直徑的散點圖(2)Analyze→Regression→Linear…

數(shù)據(jù)文件:9-polishing.sav

三、線性回歸多重共線性分析38三、線性回歸SPSS操作及案例分析

例三:多元線性回歸分析

為了研究某公司職工當前工資水平,收集了影響職工當前工資水平的6個因素的數(shù)據(jù)。這些影響因素是:1-職工的開始工資salbegin($)、2-工種jobcat、3-來本公司前的工作經(jīng)驗prevexp(月)、4-來公司工作時間jobtime(月)、5-受教育時間educ(年)、6-是否為少數(shù)民族minority。

試用多元線性回歸過程對該公司職工當前工資水平尋求一個恰當?shù)幕貧w模型。39三、線性回歸SPSS操作及案例分析結(jié)果分析:(1)變量進入/移出方式表從表中可以看出依次引入的變量:salbegin、jobcat、prevexp、jobtime、educ輸入順序可以不同40三、線性回歸SPSS操作及案例分析結(jié)果分析:(2)模型綜述表從表中可以看出引進變量后,R2分別由0.774增加到0.805、0.826、0.835、0.839同時估計標準誤差由$8,115.356減少到$6,856.79541三、線性回歸SPSS操作及案例分析結(jié)果分析:(3)方差分析表:從表中可以看出,F(xiàn)分布的顯著性概率為0.000,說明因變量和自變量的線性關(guān)系是顯著的,可建立線性模型42三、線性回歸SPSS操作及案例分析結(jié)果分析:(4)模型系數(shù)表表中顯示回歸模型中的常數(shù)項(Constant)非標準化的回歸系數(shù)(UnstandardizedCoefficients)B值及其標準誤差(Std.Error)標準化的回歸系數(shù)(standardizedCoefficients)Beta值、t值以及顯著性水平(Sig.)第5個模型43三、線性回歸SPSS操作及案例分析結(jié)論:

從表中可以得到5個回歸模型的方程其中,第5個回歸方程為回歸系數(shù)的伴隨概率為0.000,調(diào)整的判定系數(shù)為0.839,說明回歸方程解釋了整個因變量變異程度的83.9%,說明變量之間相關(guān)程度高,回歸方程的擬合優(yōu)度高。對當前工資影響較大的依次為:開始工資、工種、來本公司前的工作經(jīng)驗、來公司工作時間和受教育時間,主要考慮的是Beta值的大小。44三、線性回歸SPSS操作及案例分析操作步驟Analyze→Regression→Linear…數(shù)據(jù)文件:9-Employee.sav保存文件:9-Employee.spo變量篩選Enter:所選變量全部進入方程(一元回歸)Fordward:按照所選變量對因變量影響大小順序依次引入,每引入一個變量,建立一個方程Backward:先將所選變量一次引入,然后逐步剔除對因變量影響小的變量,每剔除一個變量,建立一個方程Stepwise:結(jié)合上述兩種方法,先引入對因變量影響大的變量,然后馬上剔除對因變量影響小的變量,每一步建立一個方程(多元回歸)依次輸入自變量Educ(受教育時間)Jobcat(工種)Salbegin(開始工資)Jobtime(工作時間)Prevexp(工作經(jīng)驗)Minority(少數(shù)民族)45曲線估計46四、曲線估計曲線估計的概念

現(xiàn)實生活中,變量之間的關(guān)系并非都是線性相關(guān),實際上非相關(guān)關(guān)系更為常見,除了可以通過繪制散點圖的方式粗略地考察這種非線性關(guān)系,還可以用曲線估計來進行擬合。曲線估計(曲線擬合、曲線回歸)是指選定一種用方程表達的曲線,使得實際數(shù)據(jù)與理論數(shù)據(jù)之間的差異盡可能地小。曲線選擇得好的話,那么可以揭示因變量與自變量的內(nèi)在關(guān)系,并對因變量的預測有一定意義。曲線估計中需要解決的問題 一是選用哪種理論模型,即用哪種方程來擬合觀測值二是當模型確定后,如何選擇合適參數(shù),使得理論數(shù)據(jù)和實際數(shù)據(jù)的差異最小47四、曲線估計曲線估計的基本研究方法

(1)做散點圖來觀察曲線形狀

變量之間關(guān)系分線性相關(guān)和非線性相關(guān)非線性相關(guān)分為本質(zhì)線性關(guān)系和本質(zhì)非相關(guān)關(guān)系SPSS對本質(zhì)線性關(guān)系采用曲線估計子模型;對本質(zhì)非相關(guān)關(guān)系采用非線性子模型48四、曲線估計曲線估計的基本研究方法

(2)結(jié)合專業(yè)知識,或從長期積累的數(shù)據(jù)中找出變量之間的函數(shù)類型

在SPSS中提供了11中本質(zhì)線性模型

應用SPSS進行曲線估計時,可以先選擇幾種模型,然后自動完成模型的參數(shù)估計輸出回歸方程顯著性檢驗的F值和概率p值、判定系數(shù)R2等統(tǒng)計量以判定系數(shù)為主要依據(jù)選擇其中的最優(yōu)模型,進行預測分析49四、曲線估計SPSS操作及案例

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論