第六章回歸分析_第1頁
第六章回歸分析_第2頁
第六章回歸分析_第3頁
第六章回歸分析_第4頁
第六章回歸分析_第5頁
已閱讀5頁,還剩115頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、Analysis of Regression第一節(jié)第一節(jié) 回歸分析概念回歸分析概念:不確定。例如:不確定。例如年齡年齡身高、肺活量身高、肺活量體體重、藥物劑量與動物死亡率、重、藥物劑量與動物死亡率、等等。: 確定。例如確定。例如 園周長與半徑:園周長與半徑:y=2r 回歸分析法:回歸分析法:研究相關(guān)關(guān)系的一類統(tǒng)計(jì)分研究相關(guān)關(guān)系的一類統(tǒng)計(jì)分析法。析法。(自變量自變量independent variable):如上面提到的年齡、肺):如上面提到的年齡、肺活量、藥物劑量、身高與腰圍活量、藥物劑量、身高與腰圍dependent variable):):如上面提到的身高、如上面提到的身高、體重、動物死亡

2、率、體重體重、動物死亡率、體重“回歸回歸”名稱的由來名稱的由來33.730.516YX7570656075706560height of fatherheight of son其他類型的散點(diǎn)圖其他類型的散點(diǎn)圖XYXYX00000YXYXYXY回歸分析回歸分析一元回歸一元回歸分析分析多元回歸多元回歸分析分析回歸分析回歸分析線性回歸線性回歸分析分析非線性回歸非線性回歸分析分析例例 某地方病研究所調(diào)查了某地方病研究所調(diào)查了 8 名正常兒童的尿肌酐含名正常兒童的尿肌酐含量(量(mmol/24h)如表)如表8-1。估計(jì)尿肌酐含量(。估計(jì)尿肌酐含量(Y)對其年齡(對其年齡(X)的回歸方程。)的回歸方程。

3、表表 8名正常兒童的年齡名正常兒童的年齡 X (歲歲)與尿肌酐含量與尿肌酐含量 Y (mmol/24h) 編號編號12345678年齡年齡X131196810127尿肌酐含量尿肌酐含量 Y3.543.013.092.482.563.363.182.65回歸直線一元線性回歸一元線性回歸 1、一元線性回歸方程:一元線性回歸方程: a:截距:截距(intercept):直線與:直線與Y軸交點(diǎn)的縱坐標(biāo)軸交點(diǎn)的縱坐標(biāo)(X0)。b:斜率:斜率(slope):回歸系數(shù):回歸系數(shù)(regression coefficient)。 意義:意義:X每改變一個單位,每改變一個單位,Y平均改變平均改變b個單位個單位。

4、 b0,Y隨隨X的的增大增大而而增大(減少增大(減少而而減少)減少) 斜上;斜上; b0,Y隨隨X的的增大增大而而減?。p少減?。p少而而增加)增加) 斜下;斜下; b=0,Y與與X無直線關(guān)系無直線關(guān)系 水平水平。 b越大,表示越大,表示Y隨隨X變化越快,直線越陡峭。變化越快,直線越陡峭。bXaY|Y XXY的總體均數(shù)的總體均數(shù)自變量自變量Intercept總體截距Slope總體斜率Simple Linear Regression ModelLINE 假定xys標(biāo)準(zhǔn)差相等標(biāo)準(zhǔn)差相等 EQUAL STANDARD DEVIATION 對于任何X值,隨機(jī)變量Y的標(biāo)準(zhǔn)差 Y|X相等s獨(dú)立獨(dú)立 IND

5、EPENDENCE 每一觀察值之間彼此獨(dú)立y|X = + xs線性線性 LINEARITY 反應(yīng)變量均數(shù) 與X間呈直線關(guān)系 Y|X= + X直線回歸模型的四個假定直線回歸模型的四個假定s正態(tài)正態(tài) NORMALITY 對于任何給定的 X, Y 服從正態(tài)分布,均數(shù)為 Y|X,標(biāo)準(zhǔn)差為 Y|X 2 2、回歸方程參數(shù)的計(jì)算、回歸方程參數(shù)的計(jì)算 最小二乘法原則最小二乘法原則 (least square method):使各實(shí)際:使各實(shí)際散點(diǎn)(散點(diǎn)(Y )到直線()到直線( )的縱向距離的平方和最小。)的縱向距離的平方和最小。即使即使 最小。最小。2YYXXXYllnXXnYXXYXXYYXXb/)()(

6、222XbYaniiiniiibXaYYYYYQ12122)()(Y最小二乘 (Least squares)法圖解Yi (Y的估計(jì)值) = a + bXi Yi估計(jì)值i殘差i = Yi 估計(jì)值i尋找使殘差i)2 最小的直線 iYiY編號編號年齡年齡X X肌酐肌酐Y YX X2 2Y Y2 2XYXY1 1133.5416912.53 46.022 2113.011219.06 33.113 393.09819.55 27.814 462.48366.15 14.885 582.56646.55 20.486 6103.3610011.29 33.607 7123.1814410.11 38.1

7、68 872.65497.02 18.55合計(jì)合計(jì)767623.8723.8776476472.27 72.27 232.61232.61 X X Y Y X X2 2 Y Y2 2 XYXY222/232.61 76 23.87/876476 /85.84500.139242XYXXXYXYnlblXXn /23.87/82.9838YY n 回歸參數(shù)估計(jì)值回歸參數(shù)估計(jì)值 a、b計(jì)算的實(shí)例計(jì)算的實(shí)例 2.98380.1392 9.51.6617aYbX/76/89.5XX nxy1392. 06617. 1Y Y 對對X X 的回歸方程為的回歸方程為s1. 斜率 (b) 當(dāng)X每增加1個單位時

8、, Y改變 b個單位u本例b = 0.1392,表明在所研究的年齡范圍內(nèi),年齡每增加1歲,尿肌酐含量增加0.1392 mmol/24hs2. Y的截距 (a) X = 0時Y的平均值u本例a1.6617,表示年齡為0時,尿肌酐含量的期望值為1.6617mmol/24h(注意有時這種解釋無實(shí)際意義,如本例)xy1392. 06617. 1例例1 1中中Y Y 對對X X 的回歸方程為的回歸方程為 3 3、回歸參數(shù)的假設(shè)檢驗(yàn)、回歸參數(shù)的假設(shè)檢驗(yàn)b0原因:原因: 由于抽樣誤差引起由于抽樣誤差引起 存在回歸關(guān)系存在回歸關(guān)系公式公式 ,n20bbbbbbtSSSSb 為回歸系數(shù)的為回歸系數(shù)的標(biāo)準(zhǔn)誤差標(biāo)準(zhǔn)

9、誤差 (Standard Error) 2|Y XY XbXXXXSSSlH0: b = 0;H1: b 022|222Y XY XYYSSSMSnnn剩剩殘差度量了實(shí)際散點(diǎn)遠(yuǎn)離回歸直線的離散程度,反映了模型的可靠性。越小模型越好。tb檢驗(yàn)、區(qū)間的計(jì)算均需要使用這一值。 SY|X 為為Y 的的剩余剩余 (殘差殘差) 標(biāo)準(zhǔn)差標(biāo)準(zhǔn)差 (Root MSE) 扣除扣除 X 的影響后的影響后Y 的變異程度。的變異程度。 編號編號年齡年齡X X肌酐肌酐Y YX X2 2Y Y2 2XYXY1 1133.5416912.53 46.022 2113.011219.06 33.113 393.09819.55

10、 27.814 462.48366.15 14.885 582.56646.55 20.486 6103.3610011.29 33.607 7123.1814410.11 38.168 872.65497.02 18.55合計(jì)合計(jì)767623.8723.8776476472.27 72.27 232.61232.61 X X Y Y X X2 2 Y Y2 2 XYXY222()() /YYYYYYnlSS 總1.046222222()0.2328XYYYXXXXYYlSSYYYYllXX剩22220.1392 5.84500.8134XYXXXYXXXXYYllXXblb lSS回|0.2

11、328 60.1790Y XSSS剩(n-2)0.197斜率b的假設(shè)檢驗(yàn)sH0: b = 0sH1: b 0s .05s自由度自由度 = 8 - 2 = 6s臨界值臨界值:t0 3.1824-3.1824.025RejectReject.025579. 4421970. 001392. 0bbSbt-2.4469+2.4469(2) (2) 方差分析方差分析1. 1. 建立假設(shè)并確定檢驗(yàn)水準(zhǔn):建立假設(shè)并確定檢驗(yàn)水準(zhǔn):H Ho:o:b b0 0;H H1 1: :b b00; 2. 2. 建方差分析表,求檢驗(yàn)統(tǒng)計(jì)量建方差分析表,求檢驗(yàn)統(tǒng)計(jì)量F F值:值:變異來源變異來源SSSSDFDFMSMSF

12、 Fp p 值值回歸回歸SS回1 SS回MS回/ MS剩剩余剩余SS剩n-2SS剩/n-2總變異總變異SS總n-1 4 4、直線回歸方程的區(qū)間估計(jì)、直線回歸方程的區(qū)間估計(jì)nXSnXlSSbXXXYa22|Y X)2(,)2(2/2/YYSntYSntYYSntY2/)2(2200|2()()11()Y XY XYXXxXxXSSSnXXnlY(3)的可信區(qū)間的可信區(qū)間縮寫為縮寫為(4) 個體個體值的預(yù)測區(qū)間值的預(yù)測區(qū)間)2(,)2(2/2/YYSntYSntYYSntY)2(2/2200.2()()1111()YY XY XXXxXxXSSSnXXnl 縮寫為縮寫為 YYXXXYlllYYXX

13、YYXXr22r 無單位,無單位,-1 r 1。 r 值為正值為正 正相關(guān)正相關(guān), 為負(fù)為負(fù) 負(fù)相關(guān);負(fù)相關(guān); (與回歸系數(shù)(與回歸系數(shù) b b 的符號相同)的符號相同)|r | = 1 - - 完全相關(guān),完全相關(guān),|r | = 0 - - 不相關(guān)。不相關(guān)。說明相關(guān)的說明相關(guān)的密切程度密切程度和和方向方向的指標(biāo)。的指標(biāo)。 5 5、相關(guān)系數(shù)、相關(guān)系數(shù)圖圖8-3 相關(guān)系數(shù)示意圖相關(guān)系數(shù)示意圖 散點(diǎn)呈橢圓形分布,散點(diǎn)呈橢圓形分布,X X、Y Y 同時增減同時增減-正相關(guān)正相關(guān)(positive correlation)positive correlation); X X、Y Y 此增彼減此增彼減-負(fù)

14、相關(guān)負(fù)相關(guān)(negative correlation)(negative correlation) 。 散點(diǎn)在一條直線上,散點(diǎn)在一條直線上, X X、Y Y 變化趨勢相同變化趨勢相同-完全正相關(guān)完全正相關(guān); ;反向變化反向變化-完全負(fù)相關(guān)。完全負(fù)相關(guān)。圖圖8-4 相關(guān)系數(shù)示意圖相關(guān)系數(shù)示意圖 X X、Y Y 變化互不影響或無直變化互不影響或無直線相關(guān)關(guān)系線相關(guān)關(guān)系-零相關(guān)零相關(guān)(zero correlation)(zero correlation)YXr2=0SSESSTYXr2=0.90SSESSTSSRYXr2=0.50SSESSTSSRTRSSSSrR22:決定系數(shù)6 6、決定系數(shù)、決定

15、系數(shù)(coefficient of determination) TEMSMSR1:2校正決定系數(shù)x or y 0ResidualsHomoscedasticity: Residuals appear completely random. No indication of model inadequacy.0ResidualsCurved pattern in residuals resulting from underlying nonlinear relationship.0ResidualsResiduals exhibit a linear trend with time.Time0R

16、esidualsHeteroscedasticity: Variance of residuals changes when x changes.x or y x or y 7 7、殘差圖(、殘差圖(residual plotresidual plot)例例 6.2.1 一個試驗(yàn)容器靠蒸汽供應(yīng)熱量,使其保持恒溫,自變量x表示容器周圍空氣單位時間的平均溫度(),y表示單位時間內(nèi)消耗的蒸汽量(L),共觀測了25個單位時間,數(shù)據(jù)見教材表6.2.1,作一元回歸分析.一元線性回歸分析一元線性回歸分析SAS操作操作一、一、SAS/INSIGHT1、制作散點(diǎn)圖、制作散點(diǎn)圖步驟:步驟:SolutionsAna

17、lysisInteractive data analysis (在SAS/INSIGHT:OPEN窗口中) work 選中數(shù)據(jù)名 (本例為Data E621見V8 文件)(OPEN)AnalyzeScatter Plot在Scatter Plot窗口中將自變量(本例為x)送入X, 將因變量(本例為y)送入Y (OK)EditWindows Tools選顏色給選中點(diǎn)著色(OK)說明:利用中括號中的步驟可以設(shè)定顏色和符說明:利用中括號中的步驟可以設(shè)定顏色和符 號號, ,放大和還原圖形放大和還原圖形 輸出結(jié)果:說明:單位時間內(nèi)容器周圍空氣平均溫度越高, 消耗的蒸汽量越少, 呈負(fù)相關(guān).2、計(jì)算相關(guān)系數(shù)

18、、計(jì)算相關(guān)系數(shù)步驟:略 Analyze Multivariate在Multivariate窗口中將自變量和因變量(本例為x, y)先后送入Y OUTPUT 取消univariate, 選中CORR及CORR P-Value (OK) (OK) 輸出結(jié)果: 說明:x 與 y 的相關(guān)系數(shù)為-0.8452, 而檢驗(yàn)相關(guān)系數(shù)是否為零的原假設(shè)的p-值 .0001 0.05(顯著性水平), 所以拒絕原假設(shè), 認(rèn)為樣本相關(guān)系數(shù)是顯著的, 總體兩變量存在線性負(fù)相關(guān).3、一元線性回歸分析步驟:略 Analyze Fit在Fit窗口中將自變量(本例為x)送入X, 將因變量(本例為y)送入Y OUTPUT 取消un

19、ivariate, 選中CORR及CORR P-Value (OK) (OK) 輸出結(jié)果:說明:說明:s結(jié)果第一部分提供了關(guān)于一元線性回歸模型擬合的一般信息 和模型方程, 方程表明截距估計(jì)值為13.6230, 斜率估計(jì)值為 -0.0798.s結(jié)果第二部分是帶有回歸線的散點(diǎn)圖, 它可以形象地表明模型 擬合數(shù)據(jù)是否比只用均值預(yù)測的基線更好.s結(jié)果第三部分是參數(shù)回歸擬合表, 其中的滾動條可以改變模型 多項(xiàng)式的參數(shù), 帶有回歸線的散點(diǎn)圖中可以看到曲線, 通過此 改變能尋找較好的擬合數(shù)據(jù).s結(jié)果第四部分是模型擬合的匯總度量表, 其中的相應(yīng)均值 (Mean of Response)是因變量 y 的平均值,

20、 模型R2為0.7144, 表明變量 y 變異的約71.44%可由變量 x 來說明. 結(jié)果第五部分是方差分析表, 是對模型作用是否顯著的假設(shè)檢 驗(yàn). 由于p-值.0001 |r| under H0: Rho=0 x y x 1.00000 -0.84524 .0001 y -0.84524 1.00000 F Model 1 45.59240 45.59240 57.54 |t| Intercept 1 13.62299 0.58146 23.43 .0001 x 1 -0.07983 0.01052 -7.59 |t| Estimate 變量變量 自由度自由度 回歸系數(shù)回歸系數(shù) 標(biāo)準(zhǔn)誤差標(biāo)準(zhǔn)

21、誤差 t t值值 P P值值 標(biāo)準(zhǔn)化回歸系數(shù)標(biāo)準(zhǔn)化回歸系數(shù) Intercept X1 X2 Xm其中mmmmYjjYYjjjYYjjjjSSbnlnlbllbb) 1/() 1/( 說明:回歸系數(shù)說明:回歸系數(shù)bj表示因素表示因素Xj在其它因素不變的情況在其它因素不變的情況下下, Xj變化一個單位引起變化一個單位引起Y值變化的大小值變化的大小, 它的絕對值它的絕對值越大越大, 表明該因素對表明該因素對Y值的影響越大值的影響越大, 在回歸方程中在回歸方程中的重要性越大的重要性越大. 但回歸系數(shù)的絕對值大小但回歸系數(shù)的絕對值大小, 與因素所與因素所用單位有關(guān)用單位有關(guān), 因此不同單位的各回歸系數(shù)的

22、絕對值不因此不同單位的各回歸系數(shù)的絕對值不能直接進(jìn)行比較能直接進(jìn)行比較, 必須將各回歸系數(shù)標(biāo)準(zhǔn)化必須將各回歸系數(shù)標(biāo)準(zhǔn)化, 然后才然后才能通過比較能通過比較bj的絕對值來判斷各因素影響的相對大的絕對值來判斷各因素影響的相對大小小. 其絕對值越大其絕對值越大, 表示該因素對表示該因素對Y值的影響越大值的影響越大.Root MSE (剩余標(biāo)準(zhǔn)差) R-Square (決定系數(shù)) Adj R-Sq (校正決定系數(shù)) Dependent Mean (因變量Y 的均值)Root MSE 反映了回歸方程的精度,其值越小說明回歸效果越好 2|12.() /(1)146.044886.78564YpSYYnpS

23、SnpMS殘殘()mmmdetermination coefficient說明所有自變量能解釋Y 變異的百分比.取值(0,1),越接近1模型擬合越好. 21 5052.618281289.2567210.79676341.875006341.87500SSSSRSSSS 回殘總總 說明所有自變量與Y間的線性相關(guān)程度。 即 與Y 間的相關(guān)程度。如果只有一個自變量,此時 20.79670.8926RRYY|r|R 22/(1)11 (1)1(1)/(1)1289.25672/28110.77496341.87500/31cSSnpnRRnpSSnMSMS 殘總殘總Y響考慮了自變量個數(shù)的影,22RR

24、cmm例例 6.4.1 研究某一地區(qū)土壤中含植物可給態(tài)磷的情況. 設(shè)y是35時土壤中可給態(tài)磷含量; x1是土壤中所含無機(jī)鹽濃度; x2是土壤中溶于K2CO3溶液并受溴化物水解的有機(jī)磷; x3是土壤中溶于K2CO3溶液但不溶于溴化物的有機(jī)磷, 經(jīng)18次測量得表6.4.1, 求x1, x2, x3對y的線性回歸方程.Y2201 12233()()QYYYbb xb xb x使最小11 112 213 31Y21 122 223 32Y31 132 233 33Y01 12233121221112212()()()32l bl bl bll bl bl bll bl bl blbYb xb xb x

25、xxllxxxxx x 18一、一、SAS/INSIGHT步驟:步驟:SolutionsAnalysisInteractive data analysis (在SAS/INSIGHT:OPEN窗口中) work 選中數(shù)據(jù)名 (本例為Data pcontent 見V8 文件)(OPEN)AnalyzeFit在Fit窗口中將自變量(本例為x1, x2, x3)送入X, 將因變量(本例為y)送入Y (OK)多元線性回歸分析多元線性回歸分析SAS操作操作說明:說明: 結(jié)果第一部分提供了關(guān)于多元線性回歸模型擬合的一般信息和模型方程, 方程表明截距估計(jì)值為43.6501, 1.7853表明在固定x2, x

26、3 時, x1每增加1個單位時, y 增加1.7853; 同理可知-0.083, 0.1610的意義. 結(jié)果第二部分是模型擬合的匯總度量表, 其中的相應(yīng)均值(Mean of Response)是因變量 y 的平均值, 模型決定系數(shù)R2為0.5493, 表明變量 y 變異有54.93%可由x1, x2, x3三個因素變動來解釋. 校正-R2為0.4527, 考慮了加入模型的變量數(shù), 所以比較不同模型時用校正-R2更適合. 結(jié)果第三部分是方差分析表, 是對模型作用是否顯著的假設(shè)檢驗(yàn). 由于p-值0.00920.05, 所以拒絕原假設(shè), 即認(rèn)為有足夠的理由斷定該模型比所有自變量斜率為0的基線模型要好

27、.s結(jié)果第四部分是三型檢驗(yàn)表(Type III Tests), 是F統(tǒng)計(jì)量和相聯(lián)系的p值檢驗(yàn)各自變量的回歸系數(shù)為零的假設(shè). 0.0052(0.05)表明x1的回歸系數(shù)在統(tǒng)計(jì)上作用顯著, 不能舍去. 但0.8458很大, 表明x2也許應(yīng)當(dāng)略去, 但是否應(yīng)當(dāng)略去, 還應(yīng)當(dāng)按模型選擇的步驟實(shí)行(見本章第五節(jié)).s結(jié)果第五部分是參數(shù)估計(jì)表, 給出了排除其它因素的各回歸系數(shù)的顯著性, 包括對截距和變量x1, x2, x3 的顯著性檢驗(yàn). 其中0.0298 ( F Model 3 6805.87146 2268.62382 5.69 0.0092 Error 14 5583.73965 398.83855

28、 Corrected Total 17 12390 Root MSE 19.97094 R-Square 0.5493 Dependent Mean 81.27778 Adj R-Sq 0.4527 Coeff Var 24.57122 Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr |t| Intercept 1 43.65007 18.05442 2.42 0.0298 x1 1 1.78534 0.53977 3.31 0.0052 x2 1 -0.08329 0.42037 -0.

29、20 0.8458 x3 1 0.16102 0.11158 1.44 0.1710分別為參數(shù)估計(jì)值b0、b1、b2、b3三、三、SAS編程編程程序如下:程序如下:data pcontent;input x1-x3 y;cards;0.4 52 158 640.4 23 163 6029.9 51 124 99;proc reg data=pcontent;model y=x1-x3;run; 輸出結(jié)果同輸出結(jié)果同SAS/SAS/分析員應(yīng)用分析員應(yīng)用“最優(yōu)”回歸方程: 是指包括對因變量有明顯影響的自變量,不包括那些影響不顯著或根本無影響的自變量,而且是殘余方差較小的回歸方程.s全局擇優(yōu)法全局擇

30、優(yōu)法:求出:求出所有可能所有可能的回歸模型的回歸模型 (共有共有2m1個)對應(yīng)的準(zhǔn)則值;按一些準(zhǔn)則個)對應(yīng)的準(zhǔn)則值;按一些準(zhǔn)則 (如校正決定如校正決定系數(shù)系數(shù), C(p)準(zhǔn)則準(zhǔn)則, AIC準(zhǔn)則等準(zhǔn)則等)選擇最優(yōu)模型選擇最優(yōu)模型. (如如m=10, 所有可能的回歸為所有可能的回歸為 2101 1023個個)s逐步回歸法逐步回歸法1.1.Y對每一個自變量作直線回歸對每一個自變量作直線回歸, ,對對回歸平方和回歸平方和最大的自變量作最大的自變量作F F檢驗(yàn)檢驗(yàn), ,有意義有意義( (p-value小小) )則則引入引入. .2.2.在此基礎(chǔ)上在此基礎(chǔ)上, ,計(jì)算其它自變量的計(jì)算其它自變量的偏回歸平方

31、和偏回歸平方和, ,選取偏回歸平方和選取偏回歸平方和最大者最大者作作F F檢驗(yàn)及相應(yīng)的檢驗(yàn)及相應(yīng)的P P值值, ,決定它是否添入決定它是否添入(p-value(p-value小小).).偏回歸平方和偏回歸平方和: :其中其中檢驗(yàn)統(tǒng)計(jì)量檢驗(yàn)統(tǒng)計(jì)量 逐步回歸法(stepwise regression):1; 1;) 1(21)(mnmnSSSSSSFjj殘回回)(jjSSSSQ回回自變量的回歸平方和缺個表示回)1)(jjX(mSS3.3.每添入一個新變量后每添入一個新變量后, ,計(jì)算所有自變量的偏回計(jì)算所有自變量的偏回歸平方和歸平方和, ,選取偏回歸平方和選取偏回歸平方和最小者最小者作作F F 檢

32、驗(yàn)及檢驗(yàn)及相應(yīng)的相應(yīng)的P P值值, ,決定它是否剔除(決定它是否剔除(p-valuep-value大大),),建立建立新的回歸方程新的回歸方程. .4.4.重復(fù)重復(fù)2 2、3 3步過程步過程, ,直到?jīng)]有自變量可以引入或直到?jīng)]有自變量可以引入或剔除為止剔除為止. .注注: 1) 每一步只引入或剔除一個自變量每一步只引入或剔除一個自變量. 2)2)小樣本檢驗(yàn)水準(zhǔn)小樣本檢驗(yàn)水準(zhǔn)a一般一般定為定為0.100.10或或0.15,0.15,大大樣本定為樣本定為0.05.0.05.值越小表示選取自變量的標(biāo)準(zhǔn)值越小表示選取自變量的標(biāo)準(zhǔn)越嚴(yán)越嚴(yán). . 3) 3)引入變量的檢驗(yàn)水準(zhǔn)要小于或等于剔引入變量的檢驗(yàn)水

33、準(zhǔn)要小于或等于剔 除變量的檢驗(yàn)水準(zhǔn)除變量的檢驗(yàn)水準(zhǔn).(.(寬出嚴(yán)進(jìn)寬出嚴(yán)進(jìn)) ) 4) 4)一般允許考慮的自變量數(shù)一般允許考慮的自變量數(shù)m m應(yīng)小于應(yīng)小于n-1.n-1.例例 6.5.1 為了預(yù)報入霉期 y (6月1日為1), 考慮6個氣象因子x1, x2, x3 , x4, x5, x6. 從過去23年的氣象資料查得表6.5.1, 試找出主要的預(yù)報因子(自變量)和回歸方程.一、一、SAS/分析員應(yīng)用分析員應(yīng)用步驟:步驟: Solutions Analysis Analyst (出現(xiàn)空白數(shù)據(jù)表) FileOpen By Sas Name(在在Select A Member窗口中窗口中) wor

34、k 選中數(shù)據(jù)名(本例為Data rumay見V8文件)(OK) Statistics Regression Linear(在Linear 窗口中將變量x1, x2, x3 , x4, x5, x6送入Explanatory, 將變量y送入Dependent中) Model 選中stepwise selection (OK) (OK) 輸出結(jié)果同輸出結(jié)果同SASSAS編程編程data rumay;input x1-x6 y;cards;31 7 16 5 4 265 2330 5 4 7 4 262 2334 7 6 0 3 257 16;Proc reg data=rumay;Model y=

35、x1-x6/selection=stepwise; /*可加sle=引進(jìn)變量的顯著水平, sls=剔除變量的顯著水平*/Run;二、二、SAS編程編程 The REG Procedure Model: MODEL1 Dependent Variable: y Stepwise Selection: Step 1 Variable x5 Entered: R-Square = 0.3751 and C(p) = 10.5463 Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr F Model 1 455.21

36、540 455.21540 12.60 0.0019 Error 21 758.52373 36.12018 Corrected Total 22 1213.73913 Parameter Standard Variable Estimate Error Type II SS F Value Pr F Intercept 11.74763 2.51246 789.68074 21.86 0.0001 x5 1.70966 0.48159 455.21540 12.60 0.0019 Bounds on condition number: 1, 1 Stepwise Selection: Ste

37、p 2 Variable x2 Entered: R-Square = 0.4960 and C(p) = 6.8267 Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr F Model 2 602.04987 301.02494 9.84 0.0011 Error 20 611.68926 30.58446 Corrected Total 22 1213.73913 Parameter Standard Variable Estimate Error Type II SS F Value Pr F Int

38、ercept 17.27837 3.42294 779.30748 25.48 Fs Model 3 787.53155 262.51052 11.70 0.0001s Error 19 426.20758 22.43198s Corrected Total 22 1213.73913s Parameter Standards Variable Estimate Error Type II SS F Value Pr Fs Intercept -188.08464 71.47778 155.32171 6.92 0.0164s x2 -0.77291 0.25585 204.71220 9.1

39、3 0.0070s x5 1.44328 0.38621 313.26953 13.97 0.0014s x6 0.79289 0.27574 185.48167 8.27 0.0097s Bounds on condition number: 1.0548, 9.3879 All variables left in the model are significant at the 0.1500 level. No other variable met the 0.1500 significant level for entry into the model. Summary of Stepw

40、ise Selection Variable Variable Number Partial ModelStep Entered Removed Vars In R-Square R-Square C(p) F Value PrF 1 x5 1 0.3751 0.3751 10.5463 12.60 0.0019 2 x2 2 0.1210 0.4960 6.8267 4.80 0.0405 3 x6 3 0.1528 0.6488 1.6018 8.27 0.0097檢驗(yàn)檢驗(yàn)水準(zhǔn)水準(zhǔn) 1. C(p)-1964年年CL Mallows提出提出C(p)準(zhǔn)則準(zhǔn)則 )1(2()(pn)MS)SSpC

41、mp殘殘C(p)接近接近(p+1)的模型最佳的模型最佳注:注:C C即即criterion, p p為所選模型中自變量的個數(shù)為所選模型中自變量的個數(shù), ,m m為所有自變量的個數(shù)為所有自變量的個數(shù), ,(SS殘殘)p為所選模型的殘差平為所選模型的殘差平方和方和, ,(MS殘殘)m為包括全部自變量的模型的殘差均方為包括全部自變量的模型的殘差均方.s本例本例 C(p) Step 1: n=23, m=6, p=1, (SS殘殘)p=758.52373 C(p) = 10.5463 Step 2: n=23, m=6, p=2, (SS殘殘)p=611.68926 C(p) = 6.8267 Ste

42、p 3: n=23, m=6, p=3, (SS殘殘)p=426.20758 C(p) = 1.6018Partial R-SquarePartial R-Squares本例本例 (Partial R-Square, Model R-Square)sX5對y的偏決定系數(shù): ryx5,x1-x4x62= 0.3751 step 1模型的(復(fù))決定系數(shù): R2= 0.3751 sX2對y的偏決定系數(shù): ryx2,x1x3-x62= 0.1210 step 2模型的復(fù)決定系數(shù): R2= 0.4960 sX6對y的偏決定系數(shù): ryx6,x1-x52 = 0.1528 step 3模型的復(fù)決定系數(shù):

43、R2= 0.6488 說明:說明:sStep 1: 在只有一個自變量的回歸模型中, x5 的回歸平方和最大, 經(jīng)F檢驗(yàn), 它符合選入標(biāo)準(zhǔn), 于是得到一個自變量的回歸方程 y=11.74763+1.70966 x5sStep 2: 對其余5個自變量計(jì)算偏回歸平方和, 發(fā)現(xiàn)其中x2 的偏 回歸平方和最大, 經(jīng)F檢驗(yàn), 符合引入上式的回歸模型標(biāo)準(zhǔn); 在引 入x2的回歸方程中計(jì)算x2, x5 的偏回歸平方和, 發(fā)現(xiàn)它們都足夠 大, 不能剔除, 于是得兩個自變量的回歸方程 y=17.27837-0.64456 x2+1.62689 x5 sStep 3: 再對其余4個自變量計(jì)算偏回歸平方和, 發(fā)現(xiàn)其中x

44、6 的 偏回歸平方和最大, 經(jīng)F檢驗(yàn), 符合引入第二式的回歸模型標(biāo)準(zhǔn); 在引入的回歸方程中計(jì)算x2, x5, x6 的偏回歸平方和, 發(fā)現(xiàn)它們都 足夠大, 不能剔除, 于是得三個自變量的回歸方程 y=-188.08464 - 0.77291 x2+1.44328x5+0.79289 x6 sStep 4: 再對其余3個自變量計(jì)算偏回歸平 方和, 經(jīng)F檢驗(yàn), 發(fā)現(xiàn)它們的作用都不顯著, 不符合引入第三式的回歸模型標(biāo)準(zhǔn), 于是第 三式便是預(yù)報入霉期的最優(yōu)回歸方程. 而且從36.12018 30.58446 22.43198 三個MS殘的逐次減少, 可見表示回歸方程精 度的剩余標(biāo)準(zhǔn)差SQRT(MS殘)

45、也越來越小. 例例6.6.1 經(jīng)鉆探某地區(qū)煤礦上表面高度數(shù)據(jù)如表6.6.1, 其中x 為橫坐標(biāo), y 為縱坐標(biāo), 為了作趨勢面分析, 建立上表面高度h 的回歸方程. 解解 我們用二次多項(xiàng)式擬合這組數(shù)據(jù),從而建 立回歸模型 h = b0+ b1 x+ b2 y+ b3 x2+ b4 x y+ b5 y2+ (其中是零均值隨機(jī)變量) 只要令x2= x 2, xy=x*y, y2= y 2,則上述模型就 變成5個自變量的線性回歸模型: y=b0+b1x+b2y+b3x2+b4xy+b5y2+ 從而可以用線性回歸的計(jì)算公式和檢驗(yàn)方法.一、一、SAS/INSIGHT 步驟:步驟:SolutionsAnalysisInteractive data analysis (在SAS/INSIGHT:OPEN窗口中) work 選

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論