




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、第十五章第十五章 多元線性回歸分析多元線性回歸分析(Multiple Linear Regression) Multiple linear regression Choice of independent variable Application 講述內容講述內容第一節(jié)第一節(jié) 多元線性回歸多元線性回歸第二節(jié)第二節(jié) 自變量選擇方法自變量選擇方法第三節(jié)第三節(jié) 多元線性回歸的應用多元線性回歸的應用 及其注意事項及其注意事項目的:作出以多個自變量估計應變量的多元線性回歸方程。資料:應變量為定量指標;自變量全部或大部分為定量指標,若有少量定性或等級指標需作轉換。用途:解釋和預報。意義:由于事物間的聯(lián)系常
2、常是多方面的,一個應變量的變化可能受到其它多個自變量的影響,如糖尿病人的血糖變化可能受胰島素、糖化血紅蛋白、血清總膽固醇、甘油三脂等多種生化指標的影響。第一節(jié)第一節(jié) 多元線性回歸多元線性回歸 變量:變量:應變量應變量 1 個,自變量個,自變量m 個,共個,共 m+1 個。個。 樣本含量:樣本含量:n 數(shù)據格式見表數(shù)據格式見表15-1 回歸模型一般形式:回歸模型一般形式:eXXXYmm22110一、多元線性回歸模型一、多元線性回歸模型例 號 X1 X2 Xm Y 1 X11 X12 X1m Y1 2 X21 X22 X2m Y2 n Xn1 Xn2 Xnm Yn 表15-1 多元回歸分析數(shù)據格式
3、 條件條件(1)Y與mXXX,21之間具有線性關系。 (2)各例觀測值), 2 , 1(niYi相互獨立。 (3)殘差 e 服從均數(shù)為 0、 方差為2的正態(tài)分布, 它等價于對任意一組自變量mXXX,21值,應變量 Y 具有相同方差,并且服從正態(tài)分布。 一般步驟一般步驟(1)求偏回歸系數(shù)mbbbb,210 mmXbXbXbbY22110建立回歸方程(2)檢驗并評價回歸方程檢驗并評價回歸方程及各自變量的作用大小及各自變量的作用大小 二、多元線性回歸方程的建立 例15-1 27名糖尿病人的血清總膽固醇、甘油三脂、空腹胰島素、糖化血紅蛋白、空腹血糖的測量值列于表15-2中,試建立血糖與其它幾項指標關系
4、的多元線性回歸方程??偰懝檀?甘油三脂 胰島素 糖化血 血糖 (mmol/L) (mmol/L) (U/ml) 紅蛋白(%) (mmol/L) 序號 i X1 X2 X3 X4 Y 1 5.68 1.90 4.53 8.2 11.2 2 3.79 1.64 7.32 6.9 8.8 3 6.02 3.56 6.95 10.8 12.3 4 4.85 1.07 5.88 8.3 11.6 5 4.60 2.32 4.05 7.5 13.4 6 6.05 0.64 1.42 13.6 18.3 7 4.90 8.50 12.60 8.5 11.1 8 7.08 3.00 6.75 11.5 12.
5、1 9 3.85 2.11 16.28 7.9 9.6 10 4.65 0.63 6.59 7.1 8.4 11 4.59 1.97 3.61 8.7 9.3 12 4.29 1.97 6.61 7.8 10.6 13 7.97 1.93 7.57 9.9 8.4 14 6.19 1.18 1.42 6.9 9.6 15 6.13 2.06 10.35 10.5 10.9 16 5.71 1.78 8.53 8.0 10.1 17 6.40 2.40 4.53 10.3 14.8 18 6.06 3.67 12.79 7.1 9.1 19 5.09 1.03 2.53 8.9 10.8 20
6、6.13 1.71 5.28 9.9 10.2 21 5.78 3.36 2.96 8.0 13.6 22 5.43 1.13 4.31 11.3 14.9 23 6.50 6.21 3.47 12.3 16.0 24 7.98 7.92 3.37 9.8 13.2 25 11.54 10.89 1.20 10.5 20.0 26 5.84 0.92 8.61 6.4 13.3 27 3.84 1.20 6.45 9.6 10.4 表15-2 27名糖尿病人的血糖及有關變量的測量結果 2221102)()(mmXbXbXbbYYYQmYmmmmmYmmYmmlblblbllblblbllblb
7、lbl22112222212111212111)(22110mmXbXbXbYb求偏導數(shù)()() , , j=1,2,m()(), 1,2,ijijiijjijjjYjjjXXlXXXXX XinXYlXXYYX Yjmn43216382027060351501424094335X.X.X.X.Y原 理最小二乘法三、假設檢驗及其評價 012:0mH , 1:jH各 (j=1,2, ,m)不全為 0, 0.05 1. 方差分析法方差分析法:殘回總SSSSSS殘回殘回(MSMSmnSSmSSF) 1/(一)對回歸方程) 1(mn ,mFF變異來源 自由度 SS MS F P 總變異 n-1 SS總
8、 回 歸 m SS回 SS回 /m MS回/MS殘 殘 差 n-m-1 SS殘 SS殘 /(n-m-1) 表15-4 例15-1的方差分析表 變異來源 自由度 SS MS F P 總變異 26 222.5519 回 歸 4 133.7107 33.4277 8.28 0.01 殘 差 22 88.8412 4.0382 表15-3 多元線性回歸方差分析表查 F 界值表得31. 4)22,4(01. 0F,31. 4F,01. 0P, 在05. 0水平上拒絕 H0,接受 H1認為所建回歸方程具有統(tǒng)計學意義。 (0.05)(0.05)102 R,說明自變量mXXX,21能夠解釋Y變化的百分比,其值
9、愈接近于 1,說明模型對數(shù)據的擬合程度愈好。本例 6008. 05519.2227107.1332R 表明血糖含量變異的 60%可由總膽固醇、 甘油三脂、胰島素和糖化血紅蛋白的變化來解釋。 21SSSSRSSSS回殘總總2. 決定系數(shù)決定系數(shù)R 2:3.復相關系數(shù)復相關系數(shù) 可用來度量應變量 Y 與多個自變量間的線性相關程度,亦即觀察值Y與估計值Y之間的相關程度。 計算公式:2RR,本例7751060080.R 若m=1自變量,則有| r |R,r為簡單相關系數(shù)。 (二)對各自變量 指明方程中的每一個自變量對Y的影響(即方差分析和決定系數(shù)檢驗整體)。含義 回歸方程中某一自變量jX的偏回歸平方和
10、表示模型中含有其它 m-1 個自變量的條件下該自變量對 Y的回歸貢獻, 相當于從回歸方程中剔除jX后所引起的回歸平方和的減少量, 或在 m-1個自變量的基礎上新增加jX引起的回歸平方和的增加量。 1. 偏回歸平方和 )(jXSS回表示偏回歸平方和,其值愈大說明相應的自變量愈重要。 ()/1/(1)jjSSXFSSnm回殘一般情況下,m-1 個自變量對 Y 的回歸平方和由重新建立的新方程得到,而不是簡單地把jjXb從有 m 個自變量的方程中剔出后算得。 12 1, 1nm平方和(變異) 回歸方程中 包含的自變量 SS回 SS殘 4321X,X,X,X 133.7107 88.8412 432X,
11、X,X 133.0978 89.4540 431XX,X 121.7480 100.8038 421XX,X 113.6472 108.9047 321XX,X 105.9168 116.6351 表表15-5 對例對例15-1數(shù)據作回歸分析的部分中間結果數(shù)據作回歸分析的部分中間結果 各自變量的偏回歸平方和可以通過擬合包含不同各自變量的偏回歸平方和可以通過擬合包含不同自變量的回歸方程計算得到,表自變量的回歸方程計算得到,表15-515-5給出了例給出了例15-115-1數(shù)數(shù)據分析的部分中間結果。據分析的部分中間結果。 11234234()(,)(,) 133.7107-133.0978=0.6
12、129SSXSSXXXXSSX XX回回回 21234134()(,)(,) 133.7107-121.748011.9627SSXSSXXXXSSX XX回回回 31234124()(,)(,) 133.7107-113.647220.0635SSXSSXXXXSSX XX回回回 41234123()(,)(,) 133.7107-105.916827.7939SSXSSXXXXSSX XX回回回 152. 0) 1427( /8412.881 /6129. 01F, 962. 2) 1427/(8412.881 /9627.112F 968. 4) 1427/(8412.881 /0635
13、.203F , 883. 6) 1427/(8412.881 /7939.274F 結結果果2. t 檢驗法 是一種與偏回歸平方和檢驗完全等價的一種方法。計算公式為jbjjSbt檢驗假設: H0:0j,jt服從自由度為1mn的 t 分布。如果12mn ,/jt|t |,則在(0.05)水平上拒絕 H0,接受 H1,說明jX與Y有線性回歸關系。 jb為偏回歸系數(shù)的估計值,jbS是jb的標準誤。 390036560142401.t 721120420351502.t 229212140270603.t 623224330638204.t 結結 果果結結 論論0742222050.t,/.,074.
14、2|34 tt, P值 均 小 于0.05, 說 明3b和4b有 統(tǒng) 計 學 意義 , 而1b和2b則 沒 有 統(tǒng) 計 學 意 義 。 3標準化回歸系數(shù) 變量標準化是將原始數(shù)據減去相應變量的均數(shù),然后再除以該變量的標準差。()jjjjXXXS 計算得到的回歸方程稱作標準化回歸方程,相應的回歸系數(shù)即為標準化回歸系數(shù)。 YjjYYjjjjSSbllbb注意:注意: 一般回歸系數(shù)一般回歸系數(shù)有單位,用來解釋各自有單位,用來解釋各自變量對應變量的影響,表示在其它自變量保變量對應變量的影響,表示在其它自變量保持不變時,持不變時, 增加或減少一個單位時增加或減少一個單位時Y Y的平的平均變化量均變化量 。
15、不能用各。不能用各 來比較各來比較各 對對 的影響大小。的影響大小。 標準化回歸系數(shù)標準化回歸系數(shù)無單位,用來比較各無單位,用來比較各自變量對應變量的影響大小,自變量對應變量的影響大小, 越大,越大, 對對 的影響越大。的影響越大。jXjbjXYjbjXY11.5934S ,22.5748S ,33.6706S ,41.8234S ,2.9257YS 0776. 09257. 25934. 11424. 01b 309309257257482351502.b 339509257267063270603.b 397709257282341638204.b 結結論論結果顯示, 對血糖影響大小的順序
16、依次為糖化血紅蛋白)(4X、 胰島素)(3X、 甘油三脂)(2X和總膽固醇)(1X。 第二節(jié) 自變量選擇方法 目的目的:使得預報和(或)解釋效果好一、全局擇優(yōu)法目的:預報效果好意義:對自變量各種不同的組合所建立 的回歸方程進行比較 擇優(yōu)。選擇方法:1校正決定系數(shù)2cR選擇法,其計算公式為 總殘MSMSpnnRRc111)1 (122 n 為樣本含量,2R為包含)(mpp個自變量的回歸方程的決定系數(shù)。2cR的變化規(guī)律是:當2R相同時,自變量個數(shù)越多2cR越小。所謂“最優(yōu)”回歸方程是指2cR最大者。 2. pC選擇法 )1(2)()(pnMSSSCmpp殘殘 pSS)(殘是由)(mpp個自變量作回
17、歸 的誤差平方和,mMS)(殘是從全部 m 個自 變量的回歸模型中得到的殘差均方。 當由 p 個自變量擬合的方程理論上為最優(yōu)時,pC的期望值是 p+1,因此應選擇pC最接近 p+1 的回歸方程為最優(yōu)方程。 如果全部自變量中沒有包含對 Y有主要作用的變量,則不宜用pC方法選擇自變量。 例15-2 用全局擇優(yōu)法對例15-1數(shù)據的自變量進行選擇。 方 程 中 的 自 變 量 2cR pC 方 程 中 的 自 變 量 2cR pC X2,X3,X4 0.546 3.15 X2,X3 0.408 9.14 X1,X2,X3,X4 0.528 5.00 X1,X3 0.375 10.78 X1,X3,X4
18、 0.488 5.96 X4 0.347 11.63 X1,X2,X4 0.447 7.97 X1 0.284 14.92 X1,X4 0.441 7.42 X1,X2 0.275 15.89 X2,X4 0.440 7.51 X3 0.231 17.77 X3,X4 0.435 7.72 X2 0.179 20.53 X1,X2,X3 0.408 9.88 m=4, 故回歸方程擬合數(shù)為4212115m 。 最優(yōu)組合均為X2,X3,X4,即由甘油三脂、胰島素和糖化血紅蛋白與血糖建立的回歸方程最優(yōu)。 二、逐步選擇法1. 1.前進法,回歸方程中的自變量從無到有、從少到多逐個引入回歸方程。此法已基本
19、淘汰。 2. 后退法,先將全部自變量選入方程,然后逐步剔除無統(tǒng)計學意義的自變量。 剔除自變量的方法是在方程中選一個偏回歸平方和最小的變量,作F檢驗決定它是否剔除,若無統(tǒng)計學意義則將其剔除,然后對剩余的自變量建立新的回歸方程。重復這一過程,直至方程中所有的自變量都不能剔除為止。理論上最好,建議使用采用此法。 3.逐步回歸法,逐步回歸法是在前述兩種方法的基礎上,進行雙向篩選的一種方法。該方法本質上是前進法。 檢驗水準檢驗水準的設置:小樣本定為的設置:小樣本定為 0.10 或或 0.15,大樣本定大樣本定為為 0.05。 值定得越小表示選取自變量的標準越嚴,被選入的自值定得越小表示選取自變量的標準越
20、嚴,被選入的自變量個數(shù)相對也較少;反之,變量個數(shù)相對也較少;反之,值定得越大表示選取自變量值定得越大表示選取自變量的標準越寬,被選入的自變量個數(shù)也就相對較多。的標準越寬,被選入的自變量個數(shù)也就相對較多。 注意: 選入自變量的檢驗水準注意: 選入自變量的檢驗水準入要小于或等于剔除自變要小于或等于剔除自變量的檢驗水準量的檢驗水準出。 例 15-3 試用逐步回歸方法分析例 15-1 數(shù)據(100.入,15. 0出) 。 步 驟 (l) 引 入 變 量 剔 除 變 量 變 量 個 數(shù)p 2R ( )()lSSXj回 ( ) lSS殘 F值 P值 1 X4 1 0.372 82.714 139.837
21、14.788 0.0007 2 X1 2 0.484 25.076 114.762 5.244 0.0311 3 X3 3 0.547 13.958 100.804 3.185 0.0875 4 X2 4 0.601 11.963 88.841 2.962 0.0993 5 X1 3 0.598 0.613 88.841 0.152 0.7006 表15-7 逐步回歸過程 變異來源 自由度 SS MS F P 總變異 26 222.5519 回 歸 3 133.098 44.366 11.41 0.0001 殘 差 23 89.454 3.889 表15-8 例15-3方差分析表 “最優(yōu)”回歸
22、方程為4326632. 02871. 04023. 04996. 6XXXY 結果表明:血糖的變化與甘油三脂、胰島素和糖化血紅蛋白有線性回歸關系,其中與胰島素負相關。由標準化回歸系數(shù)看出,糖化血紅蛋白對空腹血糖的影響最大。 表15-9 例15-3的回歸系數(shù)的估計及檢驗結果 變 量 回歸 系數(shù)b 標準誤 bS 標準回 歸系數(shù)b t 值 P值 常數(shù)項 6.4996 2.3962 0 2.713 0.0124 X2 0.4023 0.1540 0.3541 2.612 0.0156 X3 0.2870 0.1117 0.3601 2.570 0.0171 X4 0.6632 0.2303 0.413
23、3 2.880 0.0084 第三節(jié) 多元線性回歸的應用及注意事項 一、多元線性回歸的應用1. 影響因素分析 例如影響例如影響高血壓的因素高血壓的因素可能有可能有年齡年齡、飲飲食習慣食習慣、吸煙狀況、吸煙狀況、工作緊張度工作緊張度和和家族史家族史等,在影響高血壓的眾多可疑因素中,需等,在影響高血壓的眾多可疑因素中,需要研究哪些因素有影響,哪些因素影響較要研究哪些因素有影響,哪些因素影響較大。大。 在臨床試驗中,則可能由于種種原因難以在臨床試驗中,則可能由于種種原因難以保證各組的指標基線相同,如在保證各組的指標基線相同,如在年齡年齡、病病情情等指標不一致出現(xiàn)混雜的情況下,如何等指標不一致出現(xiàn)混雜
24、的情況下,如何對不同的治療方法進行比較等。對不同的治療方法進行比較等。 這些問題都可以利用這些問題都可以利用回歸分析回歸分析來處理。來處理??刂苹祀s因素控制混雜因素( (confounding factor) )的一個的一個簡單辦法就是將其引入回歸方程中,簡單辦法就是將其引入回歸方程中,與其與其他主要變量一起進行分析他主要變量一起進行分析 2. 估計與預測 如由兒童的如由兒童的心臟橫徑心臟橫徑、心臟縱徑心臟縱徑和和心臟寬心臟寬徑徑估計估計心臟的表面積心臟的表面積;由胎兒的;由胎兒的孕齡孕齡、頭頭頸頸、胸徑胸徑和和腹徑腹徑預測預測出生兒出生兒體重體重等。等。 3. 統(tǒng)計控制 逆估計。 例如采用射
25、頻治療儀治療腦腫瘤,腦例如采用射頻治療儀治療腦腫瘤,腦皮質的皮質的毀損半徑毀損半徑與與射頻溫度射頻溫度及及照射時間照射時間有有線性回歸關系,建立回歸方程后可以按預線性回歸關系,建立回歸方程后可以按預先給定的腦皮質毀損半徑,確定最佳控制先給定的腦皮質毀損半徑,確定最佳控制射頻溫度和照射時間。射頻溫度和照射時間。 二、多元線性回歸應用的注意事項二、多元線性回歸應用的注意事項(1)定量,非線性 線性 (2)定性,轉為定量: (0,1)變量,啞變量,偽變量,指示變量。 1指標的數(shù)量化指標的數(shù)量化 分2類,可用一個(0,1)變量。如性別0 1 X男女 分k類,k-1個(0,1)變量,如血型。 血型 X1
26、 X2 X3 O 0 0 0 A 1 0 0 B 0 1 0 AB 0 0 1 編號 X1 X2 X3 Y 1 1 0 0 2 0 0 0 3 0 1 0 n 0 0 1 數(shù)據格式回歸方程 建立回歸方程建立回歸方程 0112233Ybb Xb Xb Xb1 :相當相當A 型相對于型相對于O 型的差別型的差別b2 :相當:相當B 型相對于型相對于O 型的差別型的差別b3 :相當:相當AB 型相對于型相對于O 型的差別型的差別 (3)等級 定量。 一般是將等級從弱到強轉換為 (或 )如文化程度分為小學、中學、大學、大學以上四個等級。Y為經濟收入。1 1 2 3 X小學中學大學 4 大學以上 011Ybb X解釋:b(b1)反映X(X1) 增加1個單位, 增加b個單位(如:50
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025海南省安全員B證考試題庫附答案
- 武漢設計工程學院《火電廠煙氣凈化Ⅰ》2023-2024學年第二學期期末試卷
- 湖北科技學院《生物技術制藥B》2023-2024學年第二學期期末試卷
- 四川科技職業(yè)學院《房屋建筑與實務》2023-2024學年第二學期期末試卷
- 荊門職業(yè)學院《雷達信號分析》2023-2024學年第二學期期末試卷
- 黑龍江三江美術職業(yè)學院《BIM技術與軟件應用》2023-2024學年第二學期期末試卷
- 長春早期教育職業(yè)學院《紡織品實驗與設計》2023-2024學年第二學期期末試卷
- 2024-2025學年河北省部分重點中學高三上學期12月聯(lián)考歷史試卷
- 廣西民族師范學院《連鎖經營管理》2023-2024學年第二學期期末試卷
- 青島求實職業(yè)技術學院《商務禮儀E》2023-2024學年第二學期期末試卷
- 重慶市渝北區(qū)龍山小學-25版四年級寒假特色作業(yè)【課件】
- 主動脈夾層的護理-ppt課件
- 高新技術企業(yè)認定申請書樣例與說明
- 數(shù)據結構英文教學課件:chapter6 Tree
- 高壓氧科工作總結高壓氧科個人年終總結.doc
- 《政治學概論》教學大綱
- 橋梁缺陷與預防
- 食品生物化學習題謝達平(動態(tài))
- 保安員工入職登記表
- 睿達RDCAM激光雕刻切割軟件V5.0操作說明書
- 機械設計基礎平面連桿機構課件
評論
0/150
提交評論