版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
生物統(tǒng)計學
Biostatistics1Part4
統(tǒng)計分析方法2內容顯著性檢驗的基本原理兩個樣本的差異顯著性檢驗方差分析相關與回歸分析34.4回歸與相關分析
(Regressionandcorrelation)
4變量間的關系完全確定性關系不完全確定關系5變量間的關系變量間存在著完全確定性的關系,可以用精確的數(shù)學表達式來表示。如長方形的面積(S)與長(a)和寬(b)的關系可以表達為:S=ab。它們之間的關系是確定性的,只要知道了其中兩個變量的值就可以精確地計算出另一個變量的值,這類變量間的關系稱為函數(shù)關系。6變量間的關系變量間不存在完全的確定性關系,不能用精確的數(shù)學公式來表示。如動物的體長與體重的關系;植物生長期與生物量的關系等等,這些變量間都存在著十分密切的關系,但不能由一個或幾個變量的值精確地求出另一個變量的值。統(tǒng)計學中把這些變量間的關系稱為相關關系,把存在相關關系的變量稱為相關變量。7相關變量間的關系因果關系,即一個變量的變化受另一個或幾個變量的影響。如植株的生長速度受遺傳特性、營養(yǎng)水平、管理條件等因素的影響;平行關系,它們互為因果或共同受到另外因素的影響。如人的身高和胸圍之間的關系等都屬于平行關系。8統(tǒng)計學上采用回歸分析(regressionanalysis)研究呈因果關系的相關變量間的關系。表示原因的變量稱為自變量,表示結果的變量稱為因變量。包括一元回歸分析、多元回歸分析。相關變量間關系的研究9回歸模型的類型10
回歸分析的任務是揭示出呈因果關系的相關變量間的聯(lián)系形式,建立它們之間的回歸方程,利用所建立的回歸方程,由自變量(原因)來預測、控制因變量(結果)。
11統(tǒng)計學上采用相關分析(correlationanalysis)研究呈平行關系的相關變量之間的關系。相關變量間關系的研究12相關分析13內容一元線性回歸與相關分析一元非線性回歸多元回歸回歸與相關分析的正確應用14一元線性回歸及相關分析15一元線性回歸分析涉及一個自變量的回歸因變量與自變量之間為線性關系,可用一條線性方程來表示被預測或被解釋的變量稱為因變量(dependentvariable)或響應變量(responsevariable),用y表示用來預測或用來解釋因變量的一個或多個變量稱為自變量(independentvariable)或解釋變量(explanatoryvariable),用x表示16一元線性回歸方程的擬合一元線性回歸方程的檢驗相關分析171、一元線性回歸方程的擬合
對于兩個相關變量,一個變量用X表示,另一個變量用Y表示,如果通過試驗或調查獲得兩個變量的n對觀測值:(x1,y1),(x2,y2),……,(xn,yn)。
為了直觀地看出x和y間的變化趨勢,可將每一對觀測值在平面直角坐標系描點,作出散點圖。18(x、y)的散點圖19
從散點圖可以看出:①兩個變量間有關或無關;若有關,兩個變量間關系類型,是直線型還是曲線型;②兩個變量間直線關系的性質(是正相關還是負相關)和程度(是相關密切還是不密切)。
20
例1:土壤內NaCl含量對植物的生長有很大影響,NaCl含量過高,將增加組織內無機鹽的累積,抑制植物的生長。下表是每1000g土壤中所含NaCl的不同克數(shù)(X),對植物單位葉面積干物重的影響(Y)。NaCl含量X(g/kg土壤)00.81.62.43.24.04.8干重Y(mg/dm2)80909511513011513521散點圖22每一NaCl
含量下干物重10次重復值
NaCl含量(克/1000克土壤)00.81.62.43.24.04.8干重(mg/dm2)
重復值123456789108010075899179101858379908510793103927810593859589115921151209595105981159410311011310812111010811113010610311012813111712111411611512512814313212112911212013013513712812715513214811713413223散點圖XY24
在實際應用時,不可能無限重復實驗,在散點圖上,只能作出少數(shù)有限個點。在點子比較少的情況下,表示兩變量間的關系的直線可以畫出許多條,其中哪一條是最好的呢?25若X是可控制的變量,在實驗無限重復之后,則可以得到在xi的Y的條件平均數(shù)μY·X
,這些平均數(shù)構成一條直線。
在X的每一個水平上,都有一個Y的分布。由于實驗無限重復的假設是無法實現(xiàn)的,因此直線的兩個參數(shù)α和β
是兩個未知的常數(shù)。一元線性回歸模型26對于Y的每一個觀察值,可以用以下模型描述:其中ei
在散點圖上,表示在ci
處Y的觀察值yi與mY·ci
=a+bci之差,該差值為一隨機誤差。對于各ci
,ei是相互獨立且服從同一正態(tài)分布N(0,s2)的隨機變量。a為直線的截距(intercept),b為斜率(slope)。27
一般情況下,只能通過實驗或調查獲得有限對數(shù)據(jù)。因此,得不到真正的a和b。只能求出它們的估計值a和b,從而得到一條估計的直線,上式稱為Y對X的線性回歸方程(regression
equation);b是直線的斜率,稱為回歸系數(shù)(regressioncoefficient);a稱為回歸常數(shù)(regressionconstant)。參數(shù)a和b的估計28
怎樣通過實際數(shù)據(jù),得到總體回歸a和b的最好點估計值a和b?29
平均數(shù)有一個特性,即在各種離差平方和中,以距平均數(shù)的離差平方和最小。在回歸問題中,則在ci
處Y的實際觀察值yi
對它們的條件平均數(shù)mYci
=a+bci
離差平方和最小。因此,觀察值與回歸估計值之間的離差平方和L=∑(yi-yi)2達到最小時的回歸線作為最好的回歸線。換句話說,選擇的a和b,應該使L最小。這種方法稱為最小二乘法。最小二乘法(methodleastsquare)30eia+bxiyia、b應使回歸估計值與實際觀測值y的偏差平方和最小(最小二乘法)。31
為殘差32誤差平方和、剩余平方和(residualsumofsquares).綜合表示點距直線的距離。在所有的直線中,回歸直線的殘差平方和是最小的。(最小二乘)33即:34整理得關于a、b的正規(guī)方程組:
解正規(guī)方程組,得:35SXY:X和Y的校正交叉乘積和(correctedsumofcrossproducts)SXX:X的校正平方和(correctedsumofsquaresforX)SYY:關于Y的總校正平方和(totalcorrectedsumofsquaresforY)3637
例1:土壤內NaCl含量對植物的生長有很大影響,NaCl含量過高,將增加組織內無機鹽的累積,抑制植物的生長。下表是每1000g土壤中所含NaCl的不同克數(shù)(X),對植物單位葉面積干物重的影響(Y)。NaCl含量X(g/kg土壤)00.81.62.43.24.04.8干重Y(mg/dm2)80909511513011513538散點圖39例1:將原始數(shù)據(jù)整理后列出下表:XX’=X-2.4X’2YY’=Y-110Y’2X’Y’0-2.45.760.8-1.62.561.6-0.80.642.4003.20.80.644.01.62.564.82.45.76∑017.9280-309007290-204003295-15225121155250130204001611552581352562560-102600200404142用Excel進行回歸分析選擇“工具-數(shù)據(jù)分析”選項在分析工具中選擇“回歸”,然后選擇“確定”當對話框出現(xiàn)時在“Y值輸入區(qū)域”方框內鍵入Y的數(shù)據(jù)區(qū)域在“X值輸入區(qū)域”方框內鍵入X的數(shù)據(jù)區(qū)域在“置信度”選項中給出所需的數(shù)值在“輸出選項”中選擇輸出區(qū)域在“殘差”分析選項中選擇所需的選項用Excel進行回歸分析(例題7.1)432、一元線性回歸方程的檢驗回歸系數(shù)的檢驗(t檢驗)方差分析相關系數(shù)的檢驗44相關分析
(correlationanalysis)
45相關關系46簡單相關分析
進行線性相關分析的基本任務在于根據(jù)X、Y的實際觀測值,計算表示兩個相關變量X、Y間線性相關程度和性質的統(tǒng)計量——相關系數(shù)r并進行顯著性檢驗。47相關關系示意圖48相關系數(shù)的分析相關系數(shù)指由于回歸因素引起的變差與總變差之比的平方根。由回歸因素所引起的變差,在總變差中的比例越大,回歸的成份就越大,這兩個變量間的相關越密切。49相關系數(shù)
(取值及其意義)-1.0+1.00-0.5+0.5完全負相關無線性相關完全正相關負相關程度增加r正相關程度增加50相關系數(shù)取值的意義
相關系數(shù)r的絕對值大于或等于0.8,高度相關0.5—0.8,中度相關0.3—0.5,低度相關0.3以下,可視為不相關但這種解釋必須建立在對相關系數(shù)進行顯著性檢驗的基礎之上。51相關系數(shù)的檢驗相關系數(shù)的檢驗t檢驗z變換查表法(附表12):若r>r
,則兩變量相關顯著。5253例1中:r=0.929,查表得r0.01=0.874,r>r0.01,故相關極顯著,回歸方程有效。用Excel計算相關系數(shù)54相關系數(shù)與回歸系數(shù)的關系從相關系數(shù)計算公式的導出可以看到:相關變量X與Y的相關系數(shù)r是Y對X的回歸系數(shù)與X對Y的相關系數(shù)bxy的幾何平均數(shù):55直線回歸分析將二個相關變量區(qū)分為自變量和因變量,側重于尋求它們之間的聯(lián)系形式——直線回歸方程;直線相關分析不區(qū)分自變量和因變量,側重于揭示它們之間的聯(lián)系程度和性質——計算出相關系數(shù)。兩種分析所進行的顯著性檢驗都是解決Y與X間是否存在直線關系。因而二者的檢驗是等價的。即相關系數(shù)顯著,回歸系數(shù)亦顯著;相關系數(shù)不顯著,回歸系數(shù)也必然不顯著。56
在實際進行直線回歸分析時,可用相關系數(shù)顯著性檢驗代替直線回歸關系顯著性檢驗。57回歸分析與相關分析的區(qū)別相關分析:確定現(xiàn)象間或變量間有無關系以及相關關系呈現(xiàn)的形態(tài)或類型;確定相關關系的密切程度(r)。變量x變量y處于平等的地位;變量x和y都是隨機變量?;貧w分析:確定變量間的數(shù)量依存關系(回歸方程);根據(jù)回歸方程進行預測和控制。變量y稱為因變量,處在被解釋的地位,x稱為自變量,用于預測因變量的變化;因變量y是隨機變量,自變量x可以是隨機變量,也可以是非隨機的確定變量。58一元非線性回歸
(curvilinearregression)59一元非線性回歸的擬合原則通過適當變換(transformation),將曲線轉化為直線,求出直線回歸方程;變量反轉換,得到曲線回歸方程。60一元非線性回歸的擬合方法(對數(shù)變換、倒數(shù)變換、概率對數(shù)變換等)專業(yè)知識判斷散點圖曲線擬合61一元非線性回歸的檢驗剩余平方和(誤差平方和)相關指數(shù)62一元非線性回歸的檢驗剩余平方和(誤差平方和)剩余平方和越小,回歸效果越好需用原始數(shù)據(jù)計算63一元非線性回歸的檢驗相關指數(shù)R2越接近1,兩變量相關性越好需用原始數(shù)據(jù)計算64
繪制散點圖,根據(jù)圖形和專業(yè)知識選取曲線類型(可同時選取幾類)按曲線類型,作曲線直線化變換建立變換數(shù)據(jù)間的直線回歸方程(假設檢驗,計算相關指數(shù))比較相關指數(shù)選取“最佳”方程寫出曲線方程曲線擬合的步驟65
66常見的曲線回歸方程②對數(shù):①冪函數(shù):
或
③指數(shù)函數(shù):④多項式:
或
⑤logistic:
或
67例2:某地大氣中氰化物測定結果如下表,試擬合回歸曲線。污染距離x50100150200250300400500氰化物濃度y0.6870.3980.200.1210.090.050.020.01Excel分析68多元回歸
(multipleregression)69
在回歸問題中,一個量只受一種因素影響的情況是較少的,往往是很多因素共同影響一個量。
特別是當幾個自變量之間還存在相關時,只考慮一個自變量與因變量的關系,往往得不到正確的結果。必須同時考慮幾個因素的共同作用,才能得到比較正確的結論。這就是我們要討論的多元回歸問題。多元線性回歸(multiplelinearregression)70多元線性回歸模型71多元線性回歸擬合逐步回歸分析(stepwiseregressionanalysis)選擇最優(yōu)回歸方程:方程中包含全部對Y顯著的變量,而不包含對Y不顯著的變量。72在所考慮的全部因素中,按對Y作用顯著程度的大小,由大到小逐個引入到回歸方程中。在已引入回歸方程的變量中,找出偏回歸平方和的最小的一個,在給定F水平下做顯著性檢驗,以決定是否需從方程中剔除,在剔除了所有不顯著變量之后,從那些不在回歸方程的變量中,選擇在引入回歸方程后,使回歸平方和增加最多的那個變量,并在給定的F
水平下做檢驗,若是顯著的,則引入回歸方程中。引入之后,再對回歸方程做檢驗。并剔除方程中不顯著因素。如此進行,直到回歸方程中全部變量均不能剔除,又沒有新變量可以引入時為止。
逐步回歸的基本做法73回歸與相關分析的正確應用74
1、變量間是否存在相關直線回歸分析和相關分析畢竟是處理變量間關系的數(shù)學方法,在將這些方法應用于生物科學研究時要考慮到生物本身的客觀實際情況,譬如變量間是否存在直線相關以及在什么條件下會發(fā)生直線相關,求出的直線回歸方程是否有意義,某性狀作為自變量或因變量的確定等等,都必須由生物科學相應的專業(yè)知識來決定,并且還要用到生物科學實踐中去檢驗。75
2、其余變量盡量保持
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 花店經理勞動合同注意事項
- 體育項目投資協(xié)議書
- 真空發(fā)生器市場洞察報告
- 剃須摩絲市場洞察報告
- 娛樂用高空滑索裝置產業(yè)規(guī)劃專項研究報告
- 旅游合作開發(fā)合同格式規(guī)范
- 2024深圳地區(qū)離婚協(xié)議書樣本
- 2024年多人合伙經營協(xié)議書模板
- 技術轉讓合同的樣本參考
- 讓與擔保合同協(xié)議文本2024年
- 《萬維網服務大揭秘》課件 2024-2025學年人教版新教材初中信息技術七年級全一冊
- 2024年新華社招聘應屆畢業(yè)生及留學回國人員129人歷年高頻難、易錯點500題模擬試題附帶答案詳解
- 人教版(2024新版)七年級上冊英語Unit 5單元測試卷(含答案)
- (完整版)新概念英語第一冊單詞表(打印版)
- 美食行業(yè)外賣平臺配送效率提升方案
- 中國民用航空局信息中心招聘筆試題庫2024
- 【核心素養(yǎng)目標】第4課 日本明治維新教案(含反思)
- 2024-2025學年人教版七年級地理上冊知識清單
- 芯片設計基礎知識題庫100道及答案(完整版)
- 2025屆高考語文一輪復習:文言文概括和分析 課件
- 年產10萬套新能源車電池托盤項目可行性研究報告寫作模板-申批備案
評論
0/150
提交評論