版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第10章 回歸分析,介紹: 1、回歸分析的概念和模型 2、回歸分析的過(guò)程,回歸分析的概念,尋求有關(guān)聯(lián)(相關(guān))的變量之間的關(guān)系 主要內(nèi)容: 從一組樣本數(shù)據(jù)出發(fā),確定這些變量間的定量關(guān)系式 對(duì)這些關(guān)系式的可信度進(jìn)行各種統(tǒng)計(jì)檢驗(yàn) 從影響某一變量的諸多變量中,判斷哪些變量的影響顯著,哪些不顯著 利用求得的關(guān)系式進(jìn)行預(yù)測(cè)和控制,回歸分析的模型,按是否線性分:線性回歸模型和非線性回歸模型 按自變量個(gè)數(shù)分:簡(jiǎn)單的一元回歸,多元回歸 基本的步驟:利用SPSS得到模型關(guān)系式,是否是我們所要的,要看回歸方程的顯著性檢驗(yàn)(F檢驗(yàn))和回歸系數(shù)b的顯著性檢驗(yàn)(T檢驗(yàn)),還要看擬合程度R2 (相關(guān)系數(shù)的平方,一元回歸用R
2、 Square,多元回歸用Adjusted R Square),回歸分析的過(guò)程,在回歸過(guò)程中包括: Liner:線性回歸 Curve Estimation:曲線估計(jì) Binary Logistic: 二分變量邏輯回歸 Multinomial Logistic:多分變量邏輯回歸 Ordinal 序回歸 Probit:概率單位回歸 Nonlinear:非線性回歸 Weight Estimation:加權(quán)估計(jì) 2-Stage Least squares:二段最小平方法 Optimal Scaling 最優(yōu)編碼回歸 我們只講前面3個(gè)簡(jiǎn)單的(一般教科書的講法),10.1 線性回歸(Liner),一元線性
3、回歸方程: y=a+bx a稱為截距 b為回歸直線的斜率 用R2判定系數(shù)判定一個(gè)線性回歸直線的擬合程度:用來(lái)說(shuō)明用自變量解釋因變量變異的程度(所占比例) 多元線性回歸方程: y=b0+b1x1+b2x2+bnxn b0為常數(shù)項(xiàng) b1、b2、bn稱為y對(duì)應(yīng)于x1、x2、xn的偏回歸系數(shù) 用Adjusted R2調(diào)整判定系數(shù)判定一個(gè)多元線性回歸方程的擬合程度:用來(lái)說(shuō)明用自變量解釋因變量變異的程度(所占比例) 一元線性回歸模型的確定:一般先做散點(diǎn)圖(Graphs -Scatter-Simple),以便進(jìn)行簡(jiǎn)單地觀測(cè)(如:Salary與Salbegin的關(guān)系) 若散點(diǎn)圖的趨勢(shì)大概呈線性關(guān)系,可以建立線
4、性方程,若不呈線性分布,可建立其它方程模型,并比較R2 (-1)來(lái)確定一種最佳方程式(曲線估計(jì)) 多元線性回歸一般采用逐步回歸方法-Stepwise,逐步回歸方法的基本思想,對(duì)全部的自變量x1,x2,.,xp,按它們對(duì)Y貢獻(xiàn)的大小進(jìn)行比較,并通過(guò)F檢驗(yàn)法,選擇偏回歸平方和顯著的變量進(jìn)入回歸方程,每一步只引入一個(gè)變量,同時(shí)建立一個(gè)偏回歸方程。當(dāng)一個(gè)變量被引入后,對(duì)原已引入回歸方程的變量,逐個(gè)檢驗(yàn)他們的偏回歸平方和。如果由于引入新的變量而使得已進(jìn)入方程的變量變?yōu)椴伙@著時(shí),則及時(shí)從偏回歸方程中剔除。在引入了兩個(gè)自變量以后,便開(kāi)始考慮是否有需要剔除的變量。只有當(dāng)回歸方程中的所有自變量對(duì)Y都有顯著影響而
5、不需要剔除時(shí),在考慮從未選入方程的自變量中,挑選對(duì)Y有顯著影響的新的變量進(jìn)入方程。不論引入還是剔除一個(gè)變量都稱為一步。不斷重復(fù)這一過(guò)程,直至無(wú)法剔除已引入的變量,也無(wú)法再引入新的自變量時(shí),逐步回歸過(guò)程結(jié)束。,10.1.6 線性回歸分析實(shí)例p240,實(shí)例:P240Data07-03 建立一個(gè)以初始工資Salbegin 、工作經(jīng)驗(yàn)prevexp 、工作時(shí)間jobtime 、工作種類jobcat 、受教育年限edcu等為自變量,當(dāng)前工資Salary為因變量的回歸模型。 先做數(shù)據(jù)散點(diǎn)圖,觀測(cè)因變量Salary與自變量Salbegin之間關(guān)系是否有線性特點(diǎn) Graphs -Scatter-Simple
6、X Axis: Salbegin Y Axis: Salary 若散點(diǎn)圖的趨勢(shì)大概呈線性關(guān)系,可以建立線性回歸模型 Analyze-Regression-Linear Dependent: Salary Independents: Salbegin,prevexp,jobtime,jobcat,edcu等變量 Method: Stepwise 比較有用的結(jié)果: 擬合程度Adjusted R2: 越接近1擬合程度越好 回歸方程的顯著性檢驗(yàn)Sig 回歸系數(shù)表Coefficients的Model最后一個(gè)中的回歸系數(shù)B和顯著性檢驗(yàn)Sig 得模型: Salary=-15038.6+1.37Salbegi
7、n+5859.59jobcat- 19.55prevexp+154.698jobtime+539.64edcu,10.2 曲線估計(jì)(Curve Estimation),對(duì)于一元回歸,若散點(diǎn)圖的趨勢(shì)不呈線性分布,可以利用曲線估計(jì)方便地進(jìn)行線性擬合(liner)、二次擬合(Quadratic)、三次擬合(Cubic)等。采用哪種擬合方式主要取決于各種擬合模型對(duì)數(shù)據(jù)的充分描述(看修正Adjusted R2 -1),10.2.3 曲線估計(jì)(Curve Estimation)分析實(shí)例,實(shí)例P247 Data11-01 :有關(guān)汽車數(shù)據(jù),看mpg(每加侖汽油行駛里程)與weight(車重)的關(guān)系 先做散點(diǎn)圖
8、(Graphs -Scatter-Simple):weight(X)、mpg(Y),看每加侖汽油行駛里程數(shù)mpg(Y)隨著汽車自重weight(X)的增加而減少的關(guān)系,也發(fā)現(xiàn)是曲線關(guān)系 建立若干曲線模型(可試著選用所有模型Models) Analyze-Regression- Curve Estimation Dependent: mpg Independent: weight Models: 全選(除了最后一個(gè)邏輯回歸) 選Plot models:輸出模型圖形 比較有用的結(jié)果:各種模型的Adjusted R2,并比較哪個(gè)大,結(jié)果是指數(shù)模型Compound的Adjusted R2=0.7067
9、8最好(擬合情況可見(jiàn)圖形窗口), 結(jié)果方程為:mpg=60.15*0.999664weight 說(shuō)明:Growth和Exponential的結(jié)果也相同,也一樣。,10.3二項(xiàng)邏輯回歸(Binary Logistic),在現(xiàn)實(shí)中,經(jīng)常需要判斷一些事情是否將要發(fā)生,候選人是否會(huì)當(dāng)選?為什么一些人易患冠心病?為什么一些人的生意會(huì)獲得成功?此問(wèn)題的特點(diǎn)是因變量只有兩個(gè)值,不發(fā)生(0)和發(fā)生(1)。這就要求建立的模型必須因變量的取值范圍在01之間。 Logistic回歸模型 Logistic模型:在邏輯回歸中,可以直接預(yù)測(cè)觀測(cè)量相對(duì)于某一事件的發(fā)生概率。包含一個(gè)自變量的回歸模型和多個(gè)自變量的回歸模型公式
10、: 其中: z=B0+B1X1+BpXp(P為自變量個(gè)數(shù))。某一事件不發(fā)生的概率為Prob(no event)1-Prob(event) 。因此最主要的是求B0,B1,Bp(常數(shù)和系數(shù)) 數(shù)據(jù)要求:因變量應(yīng)具有二分特點(diǎn)。自變量可以是分類變量和定距變量。如果自變量是分類變量應(yīng)為二分變量或被重新編碼為指示變量。指示變量有兩種編碼方式。 回歸系數(shù):幾率和概率的區(qū)別。幾率=發(fā)生的概率/不發(fā)生的概率。如從52張橋牌中抽出一張A的幾率為(4/52)/(48/52)=1/12,而其概率值為4/52=1/13 根據(jù)回歸系數(shù)表,可以寫出回歸模型公式中的z。然后根據(jù)回歸模型公式Prob(event) 進(jìn)行預(yù)測(cè)。,
11、10.3.3二項(xiàng)邏輯回歸(Binary Logistic)實(shí)例,實(shí)例P255 Data11-02 :乳腺癌患者的數(shù)據(jù)進(jìn)行分析,變量為:年齡age,患病時(shí)間time,腫瘤擴(kuò)散等級(jí)pathscat(3種), 腫瘤大小pathsize, 腫瘤史histgrad(3種)和癌變部位的淋巴結(jié)是否含有癌細(xì)胞ln_yesno,建立一個(gè)模型,對(duì)癌變部位的淋巴結(jié)是否含有癌細(xì)胞ln_yesno的情況進(jìn)行預(yù)測(cè)。 Analyze-Regression- Binary Logistic Dependent: ln_yesno Covariates: age, time,pathscat,pathsize, histgra
12、d 比較有用的結(jié)果:在Variables in Equation表中的各變量的系數(shù)(B),可以寫出z=-0.86-0.331pathscat+0.415pathsize 0.023age+0.311histgrad。 根據(jù)回歸模型公式Prob(event)=1/(1+e-z),就可以計(jì)算一名年齡為60歲、pathsize為1、histgrad為1、pathscat為1的患者,其淋巴結(jié)中發(fā)現(xiàn)癌細(xì)胞的概率為1/(1+e-(-1.845)=0.136 (Prob(event) 0.5 預(yù)測(cè)事件將會(huì)發(fā)生),補(bǔ)充:回歸分析,以下的講義是吳喜之教授有關(guān)回歸分析的講義,很簡(jiǎn)單,但很實(shí)用,定量變量的線性回歸分
13、析,對(duì)例1(highschoo.sav)的兩個(gè)變量的數(shù)據(jù)進(jìn)行線性回歸,就是要找到一條直線來(lái)最好地代表散點(diǎn)圖中的那些點(diǎn)。,檢驗(yàn)問(wèn)題等,對(duì)于系數(shù)b1=0的檢驗(yàn) 對(duì)于擬合的F檢驗(yàn) R2(決定系數(shù))及修正的R2.,多個(gè)自變量的回歸,如何解釋擬合直線?,什么是逐步回歸方法?,自變量中有定性變量的回歸,例1(highschoo.sav)的數(shù)據(jù)中,還有一個(gè)自變量是定性變量“收入”,以虛擬變量或啞元(dummy variable)的方式出現(xiàn);這里收入的“低”,“中”,“高”,用1,2,3來(lái)代表.所以,如果要用這種啞元進(jìn)行前面回歸就沒(méi)有道理了. 以例1數(shù)據(jù)為例,可以用下面的模型來(lái)描述:,自變量中有定性變量的回歸
14、,現(xiàn)在只要估計(jì)b0, b1,和a1, a2, a3即可。 啞元的各個(gè)參數(shù)a1, a2, a3本身只有相對(duì)意義,無(wú)法三個(gè)都估計(jì),只能夠在有約束條件下才能夠得到估計(jì)。 約束條件可以有很多選擇,一種默認(rèn)的條件是把一個(gè)參數(shù)設(shè)為0,比如a3=0,這樣和它有相對(duì)意義的a1和a2就可以估計(jì)出來(lái)了。 對(duì)于例1,對(duì)b0, b1, a1, a2, a3的估計(jì)分別為28.708, 0.688, -11.066, -4.679, 0。這時(shí)的擬合直線有三條,對(duì)三種家庭收入各有一條:,SPSS實(shí)現(xiàn)(hischool.sav),AnalizeGeneral linear modelUnivariate, 在Options中
15、選擇Parameter Estimates, 再在主對(duì)話框中把因變量(s1)選入Dependent Variable,把定量自變量(j3)選入Covariate,把定量因變量(income)選入Factor中。 然后再點(diǎn)擊Model,在Specify Model中選Custom, 再把兩個(gè)有關(guān)的自變量選入右邊,再在下面Building Term中選Main effect。 Continue-OK,就得到結(jié)果了。輸出的結(jié)果有回歸系數(shù)和一些檢驗(yàn)結(jié)果。,注意,這里進(jìn)行的線性回歸,僅僅是回歸的一種,也是歷史最悠久的一種。 但是,任何模型都是某種近似; 線性回歸當(dāng)然也不另外。 它被長(zhǎng)期廣泛深入地研究主要是因?yàn)閿?shù)學(xué)上相對(duì)簡(jiǎn)單。 它已經(jīng)成為其他回歸的一個(gè)基礎(chǔ)。 總應(yīng)該用批判的眼光看這些模型。,SPSS的回歸分析,自變量和因變量都是定量變量時(shí)的線性回歸分析: 菜單:AnalizeRegressionLinear 把有關(guān)的自變量選入Independent,把因變量選入Dependent,然后OK即可。如果自變量有多個(gè)(多元回歸模型,選Method: Stepwise ),只要都選入就行。,SPSS的回歸分析,自變量中有定性變量(啞元)和定量變量而因變量為定量變量時(shí)的線性回歸分析 (hischool.sav)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 石材供應(yīng)購(gòu)銷合同
- 食品材料采購(gòu)合同書
- 酒駕者自律書
- 智能化濕地監(jiān)控系統(tǒng)招標(biāo)
- 花卉育苗合作方案
- 巖棉板采購(gòu)合同示例
- 青春守護(hù)堅(jiān)守底線抵制早戀
- 代理合同補(bǔ)充協(xié)議要點(diǎn)
- 簡(jiǎn)易分包合同勞務(wù)部分
- 催辦房屋買賣合同辦理事宜
- 2024年避孕藥具計(jì)劃總結(jié)
- 新聞攝影課件
- 電力企業(yè)信息化-第2章-電力調(diào)度中心信息化
- 德能勤績(jī)考核表
- 收納箱注塑模具設(shè)計(jì)說(shuō)明書
- Python數(shù)據(jù)科學(xué)方法與實(shí)踐(山東聯(lián)盟)智慧樹(shù)知到課后章節(jié)答案2023年下山東師范大學(xué)
- 河南省鄭州市管城區(qū)卷2023-2024學(xué)年數(shù)學(xué)四年級(jí)第一學(xué)期期末聯(lián)考試題含答案
- 班主任考核細(xì)則評(píng)分表
- 2023教科版二年級(jí)上冊(cè)科學(xué)課堂作業(yè)本參考答案
- 乘坐飛機(jī)申請(qǐng)單
- 譯林牛津版九年級(jí)英語(yǔ)上冊(cè)期末復(fù)習(xí)課件全套一
評(píng)論
0/150
提交評(píng)論