版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第二單元統(tǒng)計(jì)學(xué)高級(jí)篇第一頁(yè),共七十三頁(yè),編輯于2023年,星期四第一節(jié)多重線性回歸分析的概念
一、多重線性回歸的概念
多重線性回歸是研究多個(gè)自變量(x1\x2..)與一個(gè)因變量(y)之間線性依存關(guān)系的方法。其中自變量可以是隨機(jī)變量,也可以是給定變量,而因變量是隨機(jī)變量。多元線性回歸是研究多個(gè)自變量與多個(gè)因變量線性依存關(guān)系的方法。若所有變量都是隨機(jī)的,還可以做多重相關(guān)分析,描述因變量與一組自變量之間的線性關(guān)系;用偏相關(guān)描述因變量與一個(gè)自變量之間,在扣除其他自變量影響之后的線性關(guān)系。第二頁(yè),共七十三頁(yè),編輯于2023年,星期四二、多重線性回歸模型與方程多重線性回歸模型用于研究一個(gè)被解釋變量(因變量)與多個(gè)解釋變量(自變量)的線性關(guān)系分析。多重線性回歸模型與一元線性回歸模型基本類(lèi)似,只不過(guò)解釋變量由一個(gè)增加到兩個(gè)以上,被解釋變量y與多個(gè)解釋變量x1,x2···xk之間存在線性關(guān)系。假定被解釋變量y與多個(gè)解釋變量x1,x2···xm之間具有線性關(guān)系,建立多重線性回歸模型為:其中y為被解釋變量,xi為k個(gè)解釋變量,βi為偏回歸系數(shù),表示在其他自變量固定的條件下,自變量Xi改變一個(gè)單位時(shí),因變量Y的平均改變量。ε為隨機(jī)誤差項(xiàng)。第三頁(yè),共七十三頁(yè),編輯于2023年,星期四三、回歸模型的前提條件多重線性回歸方程:描述被解釋變量y的期望值或平均值如何依賴于解釋變量x的方程為:回歸模型的前提條件:1)線性:是指反應(yīng)變量Y的總體平均值與自變量X呈線性關(guān)系;2)獨(dú)立性:自變量間相互獨(dú)立,自變量之間沒(méi)有精確的線性關(guān)系(不相關(guān));3)正態(tài)性:是指對(duì)于給定的X值,其對(duì)應(yīng)的Y值的總體和線性模型的誤差項(xiàng)ε均服從正態(tài)分布;(ε服從均數(shù)為0的正態(tài)分布)4)等方差性:無(wú)論X如何取值,Y都有相同的方差;誤差項(xiàng)的方差相等。第四頁(yè),共七十三頁(yè),編輯于2023年,星期四第二節(jié)多重線性回歸分析步驟一、參數(shù)估計(jì):根據(jù)樣本數(shù)據(jù),求得模型參數(shù)的估計(jì)值,即求出模型β的估計(jì)值b0、bm后,建立回歸方程。多重回歸采用最小二乘法估計(jì)其參數(shù),即求出與實(shí)際觀察值Y之差的平方和(殘差平方和)為最小的b0、b1、b2、bm值。多重回歸的參數(shù)估計(jì)和假設(shè)檢驗(yàn),常采用統(tǒng)計(jì)軟件完成。求出參數(shù)的估計(jì)值后,可建立方程。
例8-1下表是27名糖尿病人的血清總膽固醇、甘油三酯、空腹胰島素、糖化血紅蛋白、空腹血糖的測(cè)量值,試建立血糖與其它幾項(xiàng)指標(biāo)關(guān)系的多重線性回歸方程。
第五頁(yè),共七十三頁(yè),編輯于2023年,星期四27名糖尿病人血糖與其它變量的測(cè)量值第六頁(yè),共七十三頁(yè),編輯于2023年,星期四27名糖尿病人血糖與其它變量的測(cè)量值第七頁(yè),共七十三頁(yè),編輯于2023年,星期四二、建立方程經(jīng)統(tǒng)計(jì)軟件處理后,得各參數(shù)如下:得回歸方程為:第八頁(yè),共七十三頁(yè),編輯于2023年,星期四三、多重回歸分析的假設(shè)檢驗(yàn)及評(píng)價(jià)
(一)回歸方程(模型)的假設(shè)檢驗(yàn):檢驗(yàn)?zāi)P褪欠癯闪?,或方程是否有意義。
第九頁(yè),共七十三頁(yè),編輯于2023年,星期四方差分析法多重線性回歸方差分析表以上結(jié)果顯示:接受H1,回歸方程成立。(相關(guān)公式)第十頁(yè),共七十三頁(yè),編輯于2023年,星期四(二)有關(guān)評(píng)價(jià)指標(biāo)1.殘差標(biāo)準(zhǔn)差(剩余標(biāo)準(zhǔn)差)SY,1,2,…M:為扣除m個(gè)自變量影響外,因變量仍存在的變異,不能用自變量的變化解釋Y的變異。反映回歸方程精度,值越小說(shuō)明回歸效果越好。第十一頁(yè),共七十三頁(yè),編輯于2023年,星期四2.決定系數(shù)R2:R2:說(shuō)明所有自變量能解釋Y變化的百分比。取值范圍(0,1),越接近1,模型擬合效果越好。R2反映在Y的總變異中,自變量組合解釋部分,占總變異的比重,即線性回歸模型能在多大程度上解釋?xiě)?yīng)變量Y的變異性。自變量對(duì)應(yīng)變量貢獻(xiàn)越大,回歸效果越好。第十二頁(yè),共七十三頁(yè),編輯于2023年,星期四SY,1,2,…M與R2第十三頁(yè),共七十三頁(yè),編輯于2023年,星期四3.校正決定系數(shù)RC2(Radj2)=0.5282第十四頁(yè),共七十三頁(yè),編輯于2023年,星期四R2與RC2關(guān)系:R2表示總變差中已由多元回歸方程“解釋”的比例,R2可解釋模型的擬合優(yōu)度,殘差平方和越小,決定系數(shù)越接近1,回歸方程的擬合程度越好。RC2當(dāng)給模型增加自變量時(shí),決定系數(shù)也隨之逐步增大,然而決定系數(shù)的增大代價(jià)是自由度的減少。自由度小意味著估計(jì)和預(yù)測(cè)的可靠性低。為了克服樣本決定系數(shù)的這一缺點(diǎn),我們?cè)O(shè)法把R2給予適當(dāng)?shù)男拚?,這就是校正決定系數(shù)。R2或RC2只能說(shuō)明在給定的樣本條件下回歸方程與樣本觀測(cè)值擬合優(yōu)度,并不能做出對(duì)總體模型的推測(cè),因此不能單憑它們來(lái)選擇模型。第十五頁(yè),共七十三頁(yè),編輯于2023年,星期四4.復(fù)相關(guān)系數(shù)R
R說(shuō)明所有自變量與Y間的線性相關(guān)程度,而不反應(yīng)相關(guān)的方向。取值范圍(0,1),R越接近1,說(shuō)明所有自變量與應(yīng)變量Y間的關(guān)系越密切。如果只有一個(gè)自變量,此時(shí)的R=∣r∣。(r為pearson相關(guān)系數(shù))第十六頁(yè),共七十三頁(yè),編輯于2023年,星期四(三)偏回歸系數(shù)的假設(shè)檢驗(yàn)及評(píng)價(jià)
偏回歸系數(shù)的假設(shè)檢驗(yàn)(即各自變量貢獻(xiàn)大小的檢驗(yàn)),有三種方法。1.t檢驗(yàn)法:第十七頁(yè),共七十三頁(yè),編輯于2023年,星期四t檢驗(yàn)顯示:
胰島素x3、糖化血紅蛋白x4與血糖y有線性回歸關(guān)系。第十八頁(yè),共七十三頁(yè),編輯于2023年,星期四t檢驗(yàn)顯示:
胰島素x3、糖化血紅蛋白x4與血糖y有線性回歸關(guān)系。機(jī)讀顯示相同結(jié)果。第十九頁(yè),共七十三頁(yè),編輯于2023年,星期四2.方差分析法(求x的偏回歸平方和)第二十頁(yè),共七十三頁(yè),編輯于2023年,星期四機(jī)讀顯示相同結(jié)果F檢驗(yàn)顯示:胰島素x3、糖化血紅蛋白x4與血糖y有線性回歸關(guān)系。第二十一頁(yè),共七十三頁(yè),編輯于2023年,星期四3.標(biāo)準(zhǔn)化偏回歸系數(shù)法標(biāo)準(zhǔn)化偏回歸系數(shù)概念:第二十二頁(yè),共七十三頁(yè),編輯于2023年,星期四偏回歸系數(shù)與標(biāo)準(zhǔn)化偏回歸系數(shù)關(guān)系第二十三頁(yè),共七十三頁(yè),編輯于2023年,星期四第二十四頁(yè),共七十三頁(yè),編輯于2023年,星期四由這些新的觀察值進(jìn)行回歸分析得到的偏回歸系數(shù)稱(chēng)為標(biāo)準(zhǔn)偏回歸系數(shù),各自變量標(biāo)準(zhǔn)偏回歸系數(shù)可以進(jìn)行排隊(duì),如本例4個(gè)自變量的標(biāo)準(zhǔn)偏回歸系數(shù)依次為0.0776,0.3093,-0.3395,0.3977可以說(shuō)對(duì)血糖影響大小的順序依次為糖化血紅蛋白(X4)、胰島素(X3)、甘油三酯(X2)、和總膽固醇(X1)。第二十五頁(yè),共七十三頁(yè),編輯于2023年,星期四機(jī)得數(shù)據(jù)變量回歸系數(shù)bj標(biāo)準(zhǔn)化回歸系數(shù)b’jljj標(biāo)準(zhǔn)差SX10.142450.0775866.01031.5934X20.351470.30931172.36482.5748X3-0.27059-0.33948350.31063.6706X40.63820.3977486.44071.8234Y222.55192.9257第二十六頁(yè),共七十三頁(yè),編輯于2023年,星期四第三節(jié)自變量的選擇(篩選)多重線性回歸分析中,常常通過(guò)專(zhuān)業(yè)知識(shí)或?qū)嵺`經(jīng)驗(yàn),去挑選那些對(duì)因變量影響較大的自變量與因變量Y建立回歸方程。如從為數(shù)眾多因素中,選擇的自變量對(duì)反應(yīng)變量無(wú)影響或影響甚微,把它們引入方程后,不但計(jì)算量大,信息成本高,而且會(huì)使回歸系數(shù)的估計(jì)和預(yù)測(cè)的精度降低。選擇對(duì)因變量影響較大的自變量引入方程,將對(duì)反應(yīng)變量無(wú)影響或影響甚微的自變量排除方程,這種統(tǒng)計(jì)方法稱(chēng)為自變量選擇(篩選),統(tǒng)計(jì)中常用方法之一是逐步選擇法。第二十七頁(yè),共七十三頁(yè),編輯于2023年,星期四一、最優(yōu)回歸方程及選擇方法第二十八頁(yè),共七十三頁(yè),編輯于2023年,星期四二、全局擇優(yōu)法(最優(yōu)子集回歸法)第二十九頁(yè),共七十三頁(yè),編輯于2023年,星期四1.校正決定系數(shù)RC2(Radj2)選擇法所謂最優(yōu)回歸方程是指RC2
最大的方程。第三十頁(yè),共七十三頁(yè),編輯于2023年,星期四2.CP選擇法第三十一頁(yè),共七十三頁(yè),編輯于2023年,星期四第三十二頁(yè),共七十三頁(yè),編輯于2023年,星期四3.AIC準(zhǔn)則的計(jì)算公式
求出所有可能的回歸模型(共有2m-1個(gè))對(duì)應(yīng)的準(zhǔn)則值;按上述準(zhǔn)則選擇最優(yōu)模型。第三十三頁(yè),共七十三頁(yè),編輯于2023年,星期四SAS獲得的幾個(gè)準(zhǔn)則值結(jié)果
ADJRSQCPAIC
ADJRSQCPAICx2x3x40.54563440.343x2x30.40748346.66x1x2x3x40.52823542.157x1x30.37522348.091x1x3x40.48797443.568x40.34653248.405x1x2x40.44683445.655x10.28443250.857x1x40.44137345.07x1x20.27478352.116x2x40.4395345.16x30.23063252.814x3x40.43542345.356x20.17864254.579x1x2x30.40756447.507
第三十四頁(yè),共七十三頁(yè),編輯于2023年,星期四4.全局擇優(yōu)法(最優(yōu)子集回歸法)局限性第三十五頁(yè),共七十三頁(yè),編輯于2023年,星期四三、逐步選擇法第三十六頁(yè),共七十三頁(yè),編輯于2023年,星期四(一)前進(jìn)法第三十七頁(yè),共七十三頁(yè),編輯于2023年,星期四方法第三十八頁(yè),共七十三頁(yè),編輯于2023年,星期四(二)后退法第三十九頁(yè),共七十三頁(yè),編輯于2023年,星期四方法第四十頁(yè),共七十三頁(yè),編輯于2023年,星期四(三)逐步回歸法
雙向篩選:引入有意義的變量(前進(jìn)法),剔除無(wú)意義的變量(后退法)。注意,引入變量的檢驗(yàn)水準(zhǔn)要小于或等于剔除變量的檢驗(yàn)水準(zhǔn)。第四十一頁(yè),共七十三頁(yè),編輯于2023年,星期四方法第四十二頁(yè),共七十三頁(yè),編輯于2023年,星期四第四節(jié)逐步回歸分析一、逐步回歸分析基本思想第四十三頁(yè),共七十三頁(yè),編輯于2023年,星期四二、逐步回歸實(shí)例分析(令α入=α出=0.01)第四十四頁(yè),共七十三頁(yè),編輯于2023年,星期四逐步回歸法實(shí)例(第一步)模型SS回SS殘SS總Y與X482.7144139.8375222.5519Y與X169.4251153.1267222.5519Y與X246.7873175.7645222.5519Y與X357.9133164.6386222.5519第四十五頁(yè),共七十三頁(yè),編輯于2023年,星期四逐步回歸法實(shí)例(第二步)模型SS回SS偏回SS殘F(tuán)值P值Y與X482.7144Y與X4X1107.790325.0759
114.76155.24410.0311Y與X4X2107.407424.6931115.14445.14690.0326Y與X4X3106.568323.8539115.98364.93600.0360第四十六頁(yè),共七十三頁(yè),編輯于2023年,星期四逐步回歸法實(shí)例(X1剔除否)模型SS回SS偏回SS殘F(tuán)值P值Y與X169.425138.3652
Y與X482.714425.0759Y與X4X1107.7903
114.76155.24410.0311第四十七頁(yè),共七十三頁(yè),編輯于2023年,星期四逐步回歸法實(shí)例(第三步)模型SS回SS偏回SS殘F(tuán)值P值Y與X4X1107.7903
Y與X4X1X2113.64725.8569Y與X4X1X3121.748013.9577
100.80383.18470.0875第四十八頁(yè),共七十三頁(yè),編輯于2023年,星期四逐步回歸法實(shí)例(X4/X1/X3剔除否)變量模型SS回SS偏回SS殘F(tuán)值P值Y與X4X1X3121.7480100.804X1Y與X4X3106.568315.1797X3Y與X4X1107.790313.9577
3.18470.0870X4Y與X1X394.202627.5454
第四十九頁(yè),共七十三頁(yè),編輯于2023年,星期四逐步回歸法實(shí)例(第四步)模型SS回SS偏回SS殘F(tuán)值P值Y與X4X1X3X2133.710711.962788.84122.96240.099Y與X4X1X3121.7480
第五十頁(yè),共七十三頁(yè),編輯于2023年,星期四逐步回歸法實(shí)例(是否剔除)變量模型SS回SS偏回SS殘F(tuán)值P值Y與X4X1X3X2133.710788.8412X2Y與X4X1X3121.748011.9627X1Y與X4X3X2133.09780.6129
0.15180.7006X3Y與X4X1X2113.647220.0635X4Y與X1X3X2105.916727.7940
第五十一頁(yè),共七十三頁(yè),編輯于2023年,星期四逐步回歸法實(shí)例(是否剔除)變量模型SS回SS偏回SS殘F(tuán)值P值Y與X4X3X2133.097889.4540X4Y與X3X2100.829232.2686X3Y與X4X2107.407425.69046.60540.0171X2Y與X4X3106.568326.5295
第五十二頁(yè),共七十三頁(yè),編輯于2023年,星期四方差分析結(jié)果變異來(lái)源自由度SSMSFP總變異26222.5519回歸3133.09844.36611.410.0001殘差2389.4543.889第五十三頁(yè),共七十三頁(yè),編輯于2023年,星期四回歸系數(shù)及其檢驗(yàn)第五十四頁(yè),共七十三頁(yè),編輯于2023年,星期四機(jī)得數(shù)據(jù)比較分析第五十五頁(yè),共七十三頁(yè),編輯于2023年,星期四第五節(jié)多重線性回歸應(yīng)用與注意事項(xiàng)
一、多重線性回歸應(yīng)用:影響因素分析,控制混雜因素。第五十六頁(yè),共七十三頁(yè),編輯于2023年,星期四預(yù)測(cè):由自變量值推出應(yīng)變量Y的值第五十七頁(yè),共七十三頁(yè),編輯于2023年,星期四控制:指定應(yīng)變量Y的值查看自變量的改變量第五十八頁(yè),共七十三頁(yè),編輯于2023年,星期四二、應(yīng)用的注意事項(xiàng)1.變量的數(shù)量化(1)自變量為連續(xù)型變量:必要時(shí)作變換。(2)自變量為有序變量:依次賦值,如療效好中差,可分別賦值3、2、1。(3)自變量為二分類(lèi):如令男=1,女=0。(4)自變量為名義分類(lèi):需要采用啞變量進(jìn)行編碼。第五十九頁(yè),共七十三頁(yè),編輯于2023年,星期四2.樣本含量觀察個(gè)體數(shù)n與變量個(gè)數(shù)m的比例一般至少應(yīng)為:n:m=1:5~10。3.統(tǒng)計(jì)“最優(yōu)”與專(zhuān)業(yè)的“最優(yōu)”。不同準(zhǔn)則、方法得出的“最優(yōu)”方程不同;不同的引入、剔除標(biāo)準(zhǔn)獲得的“最優(yōu)”方程不同;方程還受數(shù)據(jù)的正確性、共線性影響。第六十頁(yè),共七十三頁(yè),編輯于2023年,星期四4.多重共線性共線性:自變量間存在著線性關(guān)系,使一個(gè)或幾個(gè)自變量可以由另外的自變量線性表示時(shí),稱(chēng)為該變量與另外的自變量間存在有共線性。問(wèn)題:出現(xiàn)回歸系數(shù)的符號(hào)與由專(zhuān)業(yè)知識(shí)不符;變量的重要性與專(zhuān)業(yè)不符等現(xiàn)象
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 小學(xué)交通安全整治的工作總結(jié)范文(5篇)
- 醫(yī)生個(gè)人主要事跡500字(5篇)
- 《客戶群體和消費(fèi)心》課件
- 《臨床麻醉學(xué)英》課件
- 物聯(lián)網(wǎng)(IoT)安全策略-洞察分析
- 藝術(shù)電商平臺(tái)物流配送優(yōu)化研究-洞察分析
- 細(xì)胞凋亡分子機(jī)制-洞察分析
- 疑病癥跨文化研究-洞察分析
- 醫(yī)院醫(yī)保人員工作總結(jié)(7篇)
- 藥物干預(yù)與運(yùn)動(dòng)功能恢復(fù)-洞察分析
- 12SG121-1 施工圖結(jié)構(gòu)設(shè)計(jì)總說(shuō)明
- DL∕T 2447-2021 水電站防水淹廠房安全檢查技術(shù)規(guī)程
- AQ 1097-2014 井工煤礦安全設(shè)施設(shè)計(jì)編制導(dǎo)則(正式版)
- 2024裝修補(bǔ)貼協(xié)議書(shū)
- 四川省對(duì)外文化交流中心2024年公開(kāi)招聘工作人員歷年【重點(diǎn)基礎(chǔ)提升】模擬試題(共500題)附帶答案詳解
- 許昌市2022-2023學(xué)年七年級(jí)上學(xué)期期末語(yǔ)文試題
- 小學(xué)語(yǔ)文學(xué)習(xí)任務(wù)群的設(shè)計(jì)與實(shí)施研究
- 2024年中考物理微專(zhuān)題練習(xí)熱學(xué)計(jì)算1含答案
- 祠堂管理規(guī)章制度
- 2024風(fēng)電光伏組合箱變技術(shù)規(guī)范
- 2023工業(yè)熱泵發(fā)展白皮書(shū)
評(píng)論
0/150
提交評(píng)論