版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
高級生物統(tǒng)計
AdvancedBiometrics陳茂學辦公地點:文理大樓0710辦公電話:8242504
E-mail:mxchen@山東農業(yè)大學信息科學與工程學院數學系1主要內容:1.回歸分析
包括:線性、逐步、非線性回歸,相關、通徑分析。2.判別分析
包括:距離判別、Bayes判別、Fisher判別等。3.聚類分析
包括:系統(tǒng)聚類、動態(tài)聚類等。4.主成分分析與典型相關分析5.近代回歸分析
包括:嶺回歸、主成分回歸等。6.回歸設計
包括:回歸正交設計、旋轉設計、最優(yōu)設計等。2第一章一元回歸與相關分析
一、變量間的關系
1.確定性關系已知一個或幾個變量的值,能嚴格計算出另一個變量的值。如S=πR2,S=vt等。
2.相關關系變量間雖有一定的依賴關系,但由一個或幾個變量的值,不能準確求出另一變量的值。例如,作物產量與施肥量之間的關系;體重與身高之間的關系;孩子的身高與其父母的平均身高等?!?.1概述細分;單向依存關系和相互依存關系,分析方法分別為回歸(regression)分析和相關(correlation)分析。3二、相關與回歸分類
1.基于變量的多少簡單相關與回歸;多元相關與回歸;偏相關與偏回歸。2.基于變量間關系形式線性相關與回歸;非線性相關與回歸。三、相關與回歸分析的作用1.尋求描述變量間數量關系的數學模型—回歸方程;2.利用數學模型(回歸方程)對變量進行預報或控制;3.在影響某一變量的諸多變量中,分析其主次順序。4四、認識相關關系的方法(相關關系的表現(xiàn)形式)1.列表法如某作物的株高y(cm)與苗齡x(d)之間的關系。苗齡x(d)5101520253035株高y(cm)259141925332.圖象法如散點圖、折線圖、曲線圖等。3.解析法如數學方程(數學模型)。5§1.2一元線性回歸一、一元線性回歸方程的建立設對兩變量x,y進行n次試驗后得n對觀測值(xi,yi),i=1,2,…,n。其散點圖呈線性,用近似線性方程表示,稱為y依x的直線回歸方程。???????(xi,yi)xixyyib0為截距,b為回歸系數(斜率)。它們應使達到最小。6達到最小,由多元要使函數的極值定理,將Q分別對b0,b求一階偏導數并令其等于零得方程組整理得由(1)式得并代入(2)式得7整理得由(1)式得并代入(2)式得這種求b0、b的方法稱為最小二乘法,b0、b稱為最小二乘估計(LSE——leastsquareestimate)。8例1.1某作物的株高y(cm)與苗齡x(d)的試驗結果如下表:苗齡x(d)5101520253035株高y(cm)25914192533解
xi=5+10+15+20+25+30+35=140試求株高y依苗齡x的回歸方程。
yi=2+5+9+14+19+25+33=107
xi2=52+…+352=3500
yi2=22+…+332=2381
xiyi=52+…+3533=2855
lxy=xiyi–(xi)(yi)/n=2855-140107/7=715
lxx=xi2–(xi)2/n=3500-1402/7=700
lyy=yi2–(yi)2/n=2381-1072/7=745.439從而得回歸系數b=lxy/lxx=715/700=1.02因此得苗齡與株高的回歸方程為解
xi=5+10+15+20+25+30+35=140
yi=2+5+9+14+19+25+33=107
lxy=xiyi–(xi)(yi)/n=2855-140107/7=715
lxx=xi2–(xi)2/n=3500-1402/7=700
lyy=yi2–(yi)2/n=2381-1072/7=745.4310二、一元線性回歸的數學模型設因變量y與自變量x的內在聯(lián)系是線性的,當做了n次試驗后,得n組數據(xi,yi),i=1,2,…,n.滿足
yi=0+xi+ei,i=1,2,…,n其中0、是未知參數,稱為回歸系數,x是一般變量,e1,…,en是相互獨立的隨機誤差,方差均為2,數學期望為0的正態(tài)分布,即ei~N(0,2)。這就是一元線性回歸的數學模型。簡記為11簡記為顯然yi~N(0+xi,2)可以證明:E(b0)=0,E(b)=,E(Q/(n-2))=2,b0,b為0,的最小二乘估計。12檢驗x與y之間是否存在顯著的線性關系,即檢驗假設
H0:=0,Ha:0三、回歸關系的顯著性檢驗1.回歸方程的檢驗(方差分析)總平方和???????(xi,yi)xixyyi(交叉項的和等于0)=Q+u13其中=Q+u分別稱為剩余平方和與回歸平方和。Q=lyy-u=lyy-blxy.自由度fT=n-1,fu=1,fQ=n-2.它們的計算公式為14Q=lyy-u=lyy-blxy.自由度fT=n-1,fu=1,fQ=n-2.均方:在H0成立的條件下當F≥F(1,n-2)時,否定H0,即x與y存在顯著的線性關系;否則線性關系不顯著。15在上例中因為lxy=715,lyy=745.43,b
=1.02自由度fT=n-1=7-1=6,fu=1,fQ=n-2=7-2=5.均方:所以回歸方程極顯著,即苗齡與株高有極顯著的線性關系。可列方差分析表(略)。所以u=blxy=1.02715=729.3,
Q=lyy-u=745.43-729.3=16.1316對上例2.回歸系數的t檢驗H0:=0,Ha:0在H0成立的條件下
當|t|≥t/2(n-2)時,否定H0,即x與y存在顯著的線性關系;否則線性關系不顯著。故回歸系數極顯著,即苗齡與株高線性關系極顯著。173.一元線性回歸的SAS程序對例1.1的SAS程序如下:DATAex1_1;INPUTxy@@;CARDS;521051592014251930253533;PROCREG;MODELy=x;RUN;苗齡x(d)5101520253035株高y(cm)2591419253318方差分析與參數估計輸出結果:19PROCGPLOT;PLOTy*x;SYMBOLV=starI=RLCV=orangeCI=blue;RUN;其中:CV、CL—分別表示點的符號和回歸線的顏色上例作y關于x的回歸和散點圖。增加如下程序:2021當所求回歸方程此值即為點預測(估計)。另外還有區(qū)間預測(估計),其1-的置信區(qū)間為
四、預測問題
x=x0的值預測y的值,其預測值為顯著時,可對給定的其中(1)單個y(2)y的平均值22顯然,l越大,預測精度越低。預測區(qū)間長度為2l。當x0
越遠離,預測精度越低。原則上x0的取值要在試驗范圍之內,即:x0[min{x1,…,xn},max{x1,…,xn}]如上例中,當x=28時,y的1-0.05=95%的預測區(qū)間23如上例中,當x=28時,y的1-0.05=95%的預測區(qū)間即當苗齡為28天時,株高的95%預測區(qū)間為[18.56,28.28]厘米。SAS程序如下:24DATAex1_1;INPUTxy@@;CARDS;52105…353328.;PROCREG;MODELy=x/CLM;RUN;25§1.3相關分析(correlationanalysis)
一、相關系數兩個隨機變量X、Y之間的總體相關系數樣本相關系數26二、相關系數的性質-1r1因為r2稱為確定系數或決定系數。且ulyy,所以當|r|=1時,稱x與y完全相關;當r=0時,稱x與y不相關;當r>0時,稱x與y正相關;當r<0時,稱x與y負相關。注:r的符號與b的符號一致。上例27三、相關系數的檢驗H0:=0,Ha:01.查表法由附表10,查相關系數臨界值表r(fQ)。當|r|≥r(fQ)
時,拒絕H0,即x與y相關系數顯著。上例中,|r|=0.9898>r0.01(5)=0.874,所以x與y相關關系極顯著。2.t檢驗法在H0
成立的條件下當|t|≥t/2(n-2)
時,拒絕H0,即x與y相關系數顯著。28注:1.對一元線性回歸與相關而言,F(xiàn)檢驗、t檢驗、相關系數r的檢驗,其檢驗結果一致。2.
當檢驗結果為不顯著時,可能存在的原因:(1)x與y之間根本沒有關系,此時需要尋找影響y的其它變量;(2)x與y之間有關系,但不是線性關系,這時需要非線性回歸。29相關分析的SAS程序DATAex1_1;INPUTxy@@;CARDS;521051592014251930253533;PROCCORR;VARxy;RUN;30§1.4曲線回歸一、求曲線回歸方程的步驟1.
確定變量之間的函數類型(1)根據專業(yè)知識或理論推導或實踐經驗確定;(2)根據散點圖的分布趨勢確定函數類型;(3)用多項式逼近。2.
確定方程(函數)中的未知參數一般采用最小二乘法。若非線性函數能轉換成線性函數,則可以用線性回歸求解;若不能化成線性函數,則采用最優(yōu)化方法求解。31二、可化為線性模型的情況1.
指數函數例1.2棲霞果樹站測定了覆膜條件下,國光蘋果長枝的葉面積生長量,其前期數據如下表。試進行回歸分析。解:由散點圖其函數類型為
y=kebx=ea+bx兩邊取自然對數lny=a+bx令y’=lny,則
y’=a+bx天數x(d)051015202530葉面積y(cm2)5.743.776.7102.3183.4225.1344.2x102030401002003004000???????y32x051015202530y’=lny1.7403.7774.3404.6285.2125.4175.841將原始數據(xi,yi)轉換為(xi,lnyi)=(xi,yi’),由(xi,yi’)求參數a、b,本例建立x與y’的線性回歸方程。
lxx=xi2–(xi)2/n=2275-1052/7=700
lxy’=xiyi’
–(xi)(yi’
)/n=546.5845-10531.0088/7=81.4525
ly’y’=yi’2–(yi’)2/n=148.1672-31.00882/7=10.8035解:由散點圖其函數類型為y=kebx=ea+bx兩邊取自然對數lny=a+bx令y’=lny,則
y’=a+bx33
lxx=xi2–(xi)2/n=2275-1052/7=700
lxy’=xiyi’
–(xi)(yi’
)/n=546.5845-10531.0088/7=81.4525
ly’y’=yi’2–(yi’)2/n=148.1672-31.00882/7=10.8035從而得回歸系數b=lxy’/lxx=81.4525/700=0.1163因此得回歸方程對此回歸方程檢驗(F檢驗、t檢驗、r檢驗任選其一即可)用相關系數r檢驗:34因此得回歸方程對此回歸方程檢驗(F檢驗、t檢驗、r檢驗任選其一即可)用相關系數r檢驗:查相關系數臨界值表r0.01(5)=0.8745|r|=0.9366>r0.01(5)=0.8745,所以x與y’相關關系極顯著。故x與y的回歸方程為35其SAS程序如下:dataex1_2;inputxy@@;yp=log(y);cards;05.7543.71076.715102.320183.425225.130344.2;procreg;modelyp=x;run;3637本例如果用二次多項式模型,則程序如下:datafive;inputxy@@;x2=x*x;cards;05.7543.71076.715102.320183.425225.130344.2;procreg;modely=xx2;run;R2=0.9872(指數模型R2=0.8569),二次多項式模型為382.
冪函數例1.3測定甘薯薯塊在生長過程中的鮮重x(g)和呼吸強度y(Co2mg/g/h)的關系,得如下數據。試進行回歸分析。解:由散點圖其函數類型為
y=axb兩邊取以e為底的對數lny=lna+blnx令y’=lny,a’=lna,x’=lnx則
y’=a’+bx’x103880125200310445480y9232211210776x100200300400204060800??????y500100??39dataex1_3;inputxy@@;xp=log(x);yp=log(y);cards;1092383280211251220010310744574806;procreg;modelyp=xp;run;SAS程序如下:40輸出結果:因此得回歸方程413.S型曲線也稱為生長曲線、logistic曲線等。一般形式其中k,a,b為待估參數。xykk的確定方法:
(1)經驗法(k為終極量);
(2)若y是累積頻率,則k=1;
(3)取三對觀測值(x1,y1),(x2,y2),(x3,y3),其中
x2=(x1+x3)/2,則42線性化方法:則y’=a’+bx
將(xi,yi)變換為(xi,yi’)=(xi,ln(k-yi)/yi),利用(xi,yi’)建立x與y’的直線回歸方程,所以由得,兩邊取自然對數43例1.4國光蘋果長枝的葉面積生長量(n=15),其數據如下表。試進行回歸分析。確定k值:天數x(d)0510……6575葉面積y(cm2)5.743.776.7……454.0454.3x0510……6575y’=ln[(473.6-y)/y]4.4082.2861.644……-3.143-3.159數據轉換:取三對觀測值(x1,y1),(x2,y2),(x3,y3)為(5,43.7),(30,281.6),(55,452.3),得k=473.644
回歸系數b=lxy’/lxx=-712.547/7000=-0.1018因此得回歸方程對此回歸方程檢驗,用相關系數r檢驗:
lxx=7000,
lxy’=-712.547,
ly’y’=77.9644x0510……6575y’=ln[(473.6-y)/y]4.4082.2861.644……-3.143-3.15945查相關系數臨界值表r0.01(13)=0.641|r|=0.9645>r0.01(13)=0.641,x與y’相關關系極顯著。因為a’=2.861,所以a=e2.861=17.4789故x與y的logistic方程為當k不能事先確定時,用非線性(最優(yōu)化)方法求解。見P29的求解方法。46例在進行米氏方程和米氏常數推算時,測得酶比活力y與底物濃度x(mmol/L)之間的關系,得9對數據如下:x1.251.431.662.002.503.305.008.0010.00y17.652226.3235455255.735960由此圖可認為底物濃度與酶比活力的關系為:1/y=a+b/x47DATAthree;INPUTxy@@;xp=1/x;yp=1/y;CARDS;1.2517.651.4322.001.6626.322.0035.002.5045.003.3052.005.0055.738.0059.0010.0060.00;PROCREG;MODELyp=xp;RUN;SAS程序如下:48其指數方程:1/y=0.00655+0.05437(1/x)即:49r=0.950550r=0.994651r=0.995352r=0.998453注意:(1)當曲線方程不能線性化時,可用最優(yōu)化方法來解決;(2)“線性”是對未知參數而言,如y=a+bx2,對x而言是曲線(非線性),但對a,b而言是“線性”;(3)常見曲線的線性化方法見P25。54三、不能化為線性模型的情況建立酒精含量y與時間x的數學模型。(2004年競賽題)時間(小時)511.522.533.544.55酒精含量306875828277686858515041時間(小時)678910111213141516酒精含量3835282518151210774例1.5某人在短時間內喝下2瓶啤酒后,隔一定時間測量他的血液中酒精含量(毫克/百毫升),得到數據如下:解確定數學模型的形式。55
x與y的散點圖56根據藥物動力學,可選擇模型dataex1_5;inputxy
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 液壓實驗課程設計
- 洗衣店課課程設計
- 扣籃體能訓練課程設計
- 演講自動報時器課程設計
- 機械包裝課程設計
- 施工組織設計書課程設計
- 2025至2030年中國硅膠數碼相機套行業(yè)投資前景及策略咨詢研究報告
- 2024年草編籃子項目可行性研究報告
- 2025至2030年中國尼龍鋼絲綜行業(yè)投資前景及策略咨詢研究報告
- 2025至2030年中國多用途電動液壓工具行業(yè)投資前景及策略咨詢研究報告
- 2021離婚協(xié)議書電子版免費
- 《班主任工作常規(guī)》課件
- 初中英語期末考試方法與技巧課件
- 四年級上冊綜合實踐試題-第一學期實踐考查卷 粵教版 含答案
- 油煙管道清洗服務承諾書
- 卷積神經網絡講義課件
- 山東師范大學《英語語言學》期末復習題
- 考研快題系列一(城市濱水廣場綠地設計)
- HTML5CSS3 教案及教學設計合并
- 青島版六三二年級上冊數學乘加乘減解決問題1課件
- 汽車機械基礎課件第五單元機械傳動任務二 鏈傳動
評論
0/150
提交評論