![數(shù)學實驗-12:回歸分析_第1頁](http://file4.renrendoc.com/view11/M03/19/23/wKhkGWWePeiASVoJAAHpFefNkCY503.jpg)
![數(shù)學實驗-12:回歸分析_第2頁](http://file4.renrendoc.com/view11/M03/19/23/wKhkGWWePeiASVoJAAHpFefNkCY5032.jpg)
![數(shù)學實驗-12:回歸分析_第3頁](http://file4.renrendoc.com/view11/M03/19/23/wKhkGWWePeiASVoJAAHpFefNkCY5033.jpg)
![數(shù)學實驗-12:回歸分析_第4頁](http://file4.renrendoc.com/view11/M03/19/23/wKhkGWWePeiASVoJAAHpFefNkCY5034.jpg)
![數(shù)學實驗-12:回歸分析_第5頁](http://file4.renrendoc.com/view11/M03/19/23/wKhkGWWePeiASVoJAAHpFefNkCY5035.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
實驗12:回歸分析習題7: 在有氧鍛煉中人的耗氧能力y(ml/(min·kg))是衡量身體狀況的重要指標,它可能與以下因素有關(guān):年齡x1,體重x2(kg),1500m跑的時間x3(min),靜止時心跳速度x4(次/min),跑步后心速x5(次/min).對24名40至57歲的志愿者進行了測試,結(jié)果如下表(節(jié)選),試建立耗氧能力y與諸因素的之間的回歸模型。序號1234…21222324Y…X144404442…57545250X2…X3…X462624540…58624848X5178185156166…174156164146 (1)若x1~x5中只許選擇1個變量,最好的模型是什么 (2)若x1~x5中只許選擇2個變量,最好的模型是什么 (3)若不限制變量的個數(shù),最好的模型是什么 (4)對最終模型觀察殘查,有無異常點,若有,剔除后如何模型建立 本題不同小問需要建立不同模型,由于專業(yè)知識所限,并且提供的數(shù)據(jù)較少,難以做出精確符合現(xiàn)實情況的模型,因此這里采用最簡單的線性回歸法進行擬和,模型基本形式如下:事實上,中的項(高次項和交互項)對于本題目來講意義不大,因為所給定的5個自變量和因變量之間關(guān)系比較模糊,幾個變量彼此之間的聯(lián)系也很難說清,因此用自變量的一次線性擬和就足以適應(yīng)本題的要求。但作為練習,還是將每種回歸方法都使用到了,可以用于參考。 具體采用的各個模型將在下面單獨說明,這里不再重復。程序設(shè)計 由于本題需要建立多組模型,并且要在不斷的調(diào)試中發(fā)現(xiàn)最合理的,很多命令都要在這個過程中不斷使用,這里僅僅給出使用的最基本的命令。數(shù)據(jù) clear A=[…]; %數(shù)據(jù)矩陣,略 n=24; y=A(2,:); %提取各個數(shù)據(jù) x1=A(3,:);x2=A(4,:);x3=A(5,:);x4=A(6,:);x5=A(7,:);繪制散點圖(大致判斷影響情況) fori=1:5 subplot(2,3,i),plot(A(i+2,:),y,'+'),gridpause end pause單參數(shù)回歸(第一問)X=[ones(n,1),x4']; %這里檢驗的是自變量x4,實際操作時要分別檢驗x1~x5[b,bint,r,rint,s]=regress(y',X); %回歸分析程序(=)b,bint,s, %輸出回歸系數(shù)估計值、置信區(qū)間、以及統(tǒng)計量rcoplot(r,rint) %殘差圖Polytool(x3',y',2) %檢驗一元多項式回歸的結(jié)果,輸出交互式畫面雙參數(shù)回歸(第二問):用逐步回歸法找出最合理的兩個變量X5=[x1',x2',x3',x4',x5'];stepwise(X5,y'); %利用輸出的交互式畫面,可以選出最佳的兩個變量XX=[x3',x1']; %當?shù)玫搅俗罴训膬蓚€變量后(這里假設(shè)是x3\x1)rstool(XX,y','linear') %檢驗二元情況下的交互項和高次項全部參數(shù)回歸(第三問):X5=[x1',x2',x3',x4',x5']; %仍然用逐步回歸法找出最合理的組合方式stepwise(X5,y') 第五問要求對殘差進行分析,并且剔除異常點,可以在該問得到最終模型后,采用regress得到的殘差值和置信區(qū)間并根據(jù)其繪制殘差圖,然后再進行剔除操作重新檢驗。運行結(jié)果及分析散點圖散點圖 從左上到右下的順序為x1~x5.可以由點的分布大致看出,除了x3自變量呈現(xiàn)比較明顯的負相關(guān)趨勢以外,對于其他的各個自變量都難以直接觀測出其對于因變量的影響。根據(jù)這種結(jié)果,可以假設(shè)自變量x3(1500m跑后心速)最直接的與鍛煉耗氧能力相關(guān),下面通過對各個自變量的單參數(shù)回歸進行檢驗。單參數(shù)回歸被檢對象β0β1β1置信區(qū)間R^2Fps^2X1X2X30X4X5 由單參數(shù)回歸的結(jié)果可以證明X3(1500m跑后心速)可以最好的反映出y(鍛煉耗氧能力)的情況。由β1置信區(qū)間可以看出,x1、x2包含0在內(nèi),即y可能與該參數(shù)無關(guān),所以不選擇,并且兩者的p值已經(jīng)明顯的大于=,則不考慮x1、x2。比較x3~x5后發(fā)現(xiàn),x3的-決定系數(shù)明顯的大于x4、x5的,決定系數(shù)反映的是在因變量的總變化中自變量引起的那部分的比例,大說明x3自變量對因變量起的決定作用最大。并且x3的p和s^2值也都比較小,所以最終確定x3可以最好的反映出y的情況。 用Polytool檢驗含x3高次(2次)項的情況,參量Export如下表:β0β1β2回歸系數(shù)估計值置信區(qū)間下限 置信區(qū)間上限 可以同之前的僅含一次項的結(jié)果進行比較,發(fā)現(xiàn)各個參量的置信區(qū)間都很寬,且β2的置信區(qū)間過0。可以認為二次項的引入是不重要的。 因此采用如下單參數(shù)模型描述y是最準確地: 其中:雙參數(shù)回歸: 用stepwise作逐步回歸,部分過程和最終結(jié)果如下圖:只取x3自變量的回歸結(jié)果 取x3和x5自變量的回歸結(jié)果取x3和x1自變量的回歸結(jié)果根據(jù)題目要求,最終得到取雙參量時的最佳結(jié)果(RMSE參量最?。┦侨3(1500m跑后心速)和x1(年齡)自變量。但事實上,實際的逐步回歸過程在此時并沒有結(jié)束,最終的最優(yōu)結(jié)果是只取x3參量。這說明取x3、x1參量同只取x3相比優(yōu)勢并不明顯。 通過rstool命令檢驗二元情況下的交互項和高次項情況,下圖是linear情況下固定單參數(shù)進行預(yù)測的結(jié)果:項對應(yīng)的系數(shù)常數(shù)項X3X1X3^2X1^2X3*X1RMSELinearPurequadraticInteractionQuadratic可以看到高次項和相關(guān)項的系數(shù)都非常小,說明其對于y的影響不大。根據(jù)rmse的結(jié)果進行比較,仍然選擇linear回歸方式,即只用二元自變量的一次項。 其中:全參數(shù)回歸 根據(jù)以上的分析可以驗證模型建立時的猜想,本題中5個字變量和y的關(guān)系都不是很直接的,除x3外其他變量的影響很小,所以在最終完整模型中,不再考慮高次項和交互項的影響,一方面簡化模型,一方面大大節(jié)省的篩選的時間。 所以采用stepwise命令,僅對五元變量x1~x5的一次項進行回歸分析,結(jié)果如下:Export參數(shù)結(jié)果:β置信區(qū)間Coeff.set-statp-valX1 X2000X3 0X4000X5 R^2= F= RMSE= P=*e-7 最終取以下三個參數(shù)得到最佳回歸結(jié)果:x3(1500m跑后心速)、x1(年齡)以及x5(跑步后心速)。但仍需要進行一般回歸分析(regress)確定常數(shù)項并觀察殘差,結(jié)果如下:殘差圖(全部點)可以看到10和15號數(shù)據(jù)異常,剔除,再次觀察殘差,結(jié)果如下殘差圖(剔除10,15號點)可以看到4號數(shù)據(jù)變?yōu)楫惓?,再次剔除,結(jié)果仍然有異常點。過程從略,最終經(jīng)過4次剔除,去掉5個點(4,10,15,17,23)以后,得到?jīng)]有異常點的模型:去掉所有異常點之后的結(jié)果最終得到的結(jié)果整體上優(yōu)越于剔除異常點之前的結(jié)果(不再粘貼結(jié)果)。但是事實上,由于數(shù)據(jù)點經(jīng)過剔除不斷的結(jié)果,模型最終的形式和實際統(tǒng)計到的24組數(shù)據(jù)的整體情況偏離越來越大,也就是說:剔除異常點雖然能夠一應(yīng)程度上降低其對于整體情況的干擾作用,而剔除的過程也放大了其他原本正常數(shù)據(jù)點的異常性,所以異常點可能會不斷產(chǎn)生,但是剔除的數(shù)量增加即采樣數(shù)據(jù)的減少也會削弱模型反省整體性能的能力。是一對矛盾,在數(shù)據(jù)點較少的時候尤其明顯。比較科學的做法是:只進行1次或少次剔除,保證整體性,又去掉了最主要的異常點。 這里的最終結(jié)果采用剔除最初兩個異常點(10,15號)后的結(jié)果,在此也附上完整數(shù)據(jù)(剔除之前)的結(jié)果,作為第3問的答案:完整數(shù)據(jù)(第三題結(jié)果):回歸參數(shù)取值置信區(qū)間ββ1β3β5R^2Fps^2其中:一次剔除(最終結(jié)果):回歸參數(shù)取值置信區(qū)間ββ1β3β5R^2Fps^2其中:1500m跑后心速、年齡以及跑步后心速三個參數(shù)最能夠反映鍛煉耗氧量這個重要的身體狀態(tài)指標。三種心跳速度越快,說明耗氧量越大;速度越慢,即時間越長,說明耗氧量越小。習題11: 一個醫(yī)藥公司的新藥研究部門為了掌握一種新型止痛劑的療效,設(shè)計了一個藥物試驗,給24名患有同種痛病的病人使用這種新止痛劑的以下4個劑量中的某一:2、5、7、10,(g),并記錄每個病人病痛明顯減輕的時間(min).為了了解新藥的療效與病人性別和血壓有什么關(guān)系,試驗過程中研究人員把柄熱男性別集血壓的低中高3檔平均分配來進行測試。通過比較每個病人血壓的歷史數(shù)據(jù),從低到高分成3組,分別記作,,。實驗結(jié)束后,公司的記錄結(jié)果見表格(略). 請為公司建立一個模型,根據(jù)病人用藥的計量、性別和血壓組別,預(yù)測出服藥后病痛明顯減輕的時間。病人序號病痛減輕時間用藥劑量性別血壓組別13520243203552044721……………213100222710123261012451011.模型建立 本題共提供了三種不同的自變量,設(shè)為性別-x1,血壓-x2和用藥計量-x3。建立回歸模型時,應(yīng)該充分考慮各個自變量對于因變量的多種影響方式,這里可能涉及到高次項和交互項。因此應(yīng)該在實驗過程中將所有可能的因素列于其中,分別檢驗,最終得到最佳的回歸模型?;竟饺缦?2.程序設(shè)計數(shù)據(jù) clc,clearx1=[000111000111000111000111];x2=[];x3=[222222555555777777101010101010];y=[354355474357262728292229191114232022138327265];用逐步回歸法檢驗所有的一次、二次和交互項XX=[x1',x2',x3',x2'.^2,x3'.^2,(x1.*x2)',(x2.*x3)',(x3.*x1)']%注意,由于性別x1是0-1變量,所以齊高次項沒有任何意義,才此舍去stepwise(XX,y');根據(jù)逐步回歸得到的最優(yōu)模型,進行regress回歸檢驗,并繪制殘差圖XF=[ones(24,1),x2',x3',x2'.^2,x3'.^2,(x2.*x3)',(x3.*x1)'];[b1,bint1,r1,rint1,s1]=regress(y',XF);b1,bint1,s1,rcoplot(r1,rint1);3.運行結(jié)果及分析上圖是逐步回歸得到的最優(yōu)結(jié)果,其參數(shù)輸出結(jié)果如下betabetaciCoeff.t-statp-valx1000x2000x3x2^2x3^2x1*x2000x2*x30x3*x1interceptrmsersqadjrsqfstatpval得到模型:其中:由多項指標可以確定以上模型的合理性:rmse最小,R^2統(tǒng)計量接近于1,beta(回歸系數(shù))置信區(qū)間全部部包含0點,pval<<=,這些都可以說明上模型在數(shù)學上是合理的。 從實際意義上來講,以上模型也是比較有根據(jù)的。首先,在考慮單一變量影響時,x3(用藥劑量)的影響是決定性的,同性別和血壓相比其顯著性是可以將另外二者忽略的;但是血壓因素的2次項(x2^2)卻沒有被忽略,且其系數(shù)很大(40左右),說明在其他因素不變的前提下,x2-y的函數(shù)關(guān)系為對稱軸為y軸的拋物線,也就是說所疼痛明顯的減輕時間,其增大(時間延長)程度同血壓的平方成正比,即血壓的增加會明顯的降低藥效,雖然沒有確切的專業(yè)知識的證明,但這也是符合常識的;x3的二次項同樣存在,且拋物線的對稱軸在正半軸,如下圖:這符合一般情況下藥物的作用機制,適當用量效果最好,過多過少都會降低藥效;但是注意,由于交互項的存在
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030全球5C超快充電池行業(yè)調(diào)研及趨勢分析報告
- 2025年全球及中國火藥量器行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報告
- 2025融資買賣合同范文
- 酒水購銷合同模板
- 分期付款買賣合同參考范文
- 2025太原市購房合同范本范文
- 水果長期供應(yīng)購銷合同范本
- 2025廚房設(shè)備購買合同樣本
- 燈具購銷合同書范本
- 探索未知世界主題班會
- 2024年中考語文 (湖北專用)專題一 字音、字形課件
- T-ACEF 095-2023 揮發(fā)性有機物泄漏檢測紅外成像儀(OGI)技術(shù)要求及監(jiān)測規(guī)范
- 2023年全國高考乙卷歷史真題試卷及答案
- 骨科手術(shù)的術(shù)后飲食和營養(yǎng)指導
- 旅游定制師入行培訓方案
- 2024年中國南方航空股份有限公司招聘筆試參考題庫含答案解析
- 六年級上冊數(shù)學應(yīng)用題100題
- 個人代賣協(xié)議
- 賞析小說語言(二)
- 【立高食品公司的償債能力現(xiàn)狀及問題分析(論文9000字)】
- 10.《運動技能學習與控制》李強
評論
0/150
提交評論