版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第十章一元回歸及簡單相關分析上課提綱:一、回歸和相關的基本概念二、一元線性回歸三、一元非線性回歸四、相關重點:回歸方程的擬合及其顯著性檢驗難點:回歸的方差分析
前面,我們所討論的統(tǒng)計方法,只涉及一個變量。例如,在不同品種的產量比較試驗中,每一品種平均數(shù)反映產量的集中點。標準差反映了產量的離散程度。如作物產量,通過計算平均數(shù)和標準差,就可知道這種作物在產量上的總體和變異情況,進而根據(jù)變異程度進行u-檢驗、t-檢驗、F-檢驗和x2-檢驗,并可確定那個品種好,那個品種不好;可篩選出適宜的條件或措施,等等,而這些都只涉獵產量一個變量,而產量不僅與品種有關,還與施肥量、播種密度、及灌水量等多種因素有關。因此在試驗研究的過程中,經常要研究兩個或兩個以上變量間的相關關系。事物間或現(xiàn)象間的關系,這種研究事物間或現(xiàn)象間關系的統(tǒng)計方法就屬于回歸和相關。第十章一元回歸及簡單相關分析一、回歸與相關的基本概念
回歸這個名稱是英國遺傳學家FrancesGolton提出來的。他研究了人的身高、肘長和手的跨距等,發(fā)現(xiàn):身材高的父母所生子女的身材也高,但是高身材的父母所生子女的平均身高不如他們父母那么高,但子女的身高是依靠父母的身高,他把這種趨向稱作回歸,即回歸到全體人口的平均身高,這種子女身高依賴父母身高的關系就是回歸關系。
回歸關系是一種函數(shù)關系,但它不同于數(shù)學上的函數(shù)關系。數(shù)學上的函數(shù)關系是一種確定性的關系,比如,圓的面積S=πr2,你抽取多少個總體,都遵從這一關系;而回歸關系是一種非確定性的關系,總體不同,函數(shù)關系就發(fā)生變化。生物統(tǒng)計就是從這種非確定性關系中去了解變量間的聯(lián)系。表述這種變量間的聯(lián)系有兩個指標:回歸和相關。
對兩個變量,一個變量用符號x表示,另一個變量用y表示,如果通過試驗或調查獲得兩個變量的成對觀測值,可表示為(x1,
y1),(x2,
y2),…,(xn,
yn)。為了直觀看出x和y變化關系.可將每一對觀測值在平面直角坐標系中表示成一個點,作成散點圖。圖10-1x和y之間的關系
從散點圖可以看出:①兩個變量間關系的性質和程度;②兩個變量間關系的類型,是直線型還是曲線型;③是否有異常觀測值的干擾等。例如圖10.1是三幅兩個變量的散點圖,圖a和圖b都是直線型的,但圖a的兩個變量關系較圖b密切,且是正向的,即x增加y心也增加,圖b是負向的,圖c的兩個變量之間關系是曲線型的。由散點圖表示兩個變量之間的關系只是定性的研究,為了探討它們之間的規(guī)律性,必須根據(jù)觀測值將期理論關系推導出來。
研究兩個變量的關系可采用回歸與相關的分析統(tǒng)計方法。如果兩個變量間關系屬于因果關系,一般用回歸來研究。表示原因的變量稱為自變量,用x表示。自變量是固定的(試驗時預先確定的),沒有隨機誤差。表示結果的變量稱為依變量,用y表示.并有隨機誤差。例如作物施肥和產量之間的關系,前者是表示原因的變量,為事先確定的,是自變量,后者是表示結果的變量,且具有隨機誤差,為依變量,作物產量是隨施肥量的變化而變化的。(一個自變量x可以有許多y值和它對應)回歸分析的目的是揭示呈因果關系的變量之間的聯(lián)系形式,建立回歸方程,利用建立回歸方程由自變量來預測和控制依變量。
如果兩變量是平行關系,只能用相關來進行研究。在相關分析中,無自變量和依變量之分,且都具有隨機誤差。(兩個變量取值不是一對一的)相關分析只能研究兩個變量之間相關程度和性質,不能用一個變量的變化去預測另一個變量的變化,這是回歸與相關區(qū)別的關鍵所在。顯然,相關關系中兩個隨機變量沒有誰依賴誰的關系,而回歸關系中隨機變量是依賴于變量的。對于回歸分析而言,我們不但要弄清楚誰依賴誰,而且要搞明白依賴程度是否顯著。
相關關系(correlation)——兩個隨機變量(X和Y)的相互對應關系(X
Y)?;貧w關系(regression)——一個變量(X)和一個隨機變量(Y)的對應關系(X
Y)。簡單直線相關與回歸的區(qū)別p1561.在資料要求上,相關要求兩變量x、y都是隨機變量,如動物體高與體重.兩者都不能預先指定;回歸要求依變量y是隨機變員,而自變量x可以是隨機變量,亦可以指定,幅養(yǎng)試驗中.建立采食量與增重的回歸關系,動物采食量可以人為控制.
2.在意義上.相關反映兩變量間相互依賴的平行關系;而回歸則反映一個變量對另一變量的單向依賴關系.
3.在應用上,說明兩變量間的相關程度用相關;說明兩現(xiàn)象間變化的數(shù)量關系用回歸.第十章一元回歸及簡單相關分析Ⅰ、一元回歸分析的意義二、一元線性回歸1、較少的工作量就可掌握事物或現(xiàn)象的趨勢或規(guī)律;假如土壤中NaCl含量為3.7g·kg-1
,葉干重是多少?因為:y=11.161x+81.786x=3.7所以:y=11.161×3.7+81.786=123.1mg·dm-2
2、預測事物或現(xiàn)象的具體變化;對于重復1:80、90、95、115、130、115、135樣本方差:s2=431
因為:y=11.161x+81.786
誤差均方:MSe=70.7。誤差均方是樣本方差的16.4%。
因此,只有在引進自變量以后所得到的實驗誤差,才是真正的實驗誤差。
3、減小實驗誤差。第十章一元回歸及簡單相關分析二、一元線性回歸Ⅱ、一元直線回歸模型的建立:1、內涵
為了描述兩變量間的數(shù)量關系,當自變量時,因變量Y的平均數(shù)與之相對應,那么,稱為Y的條件平均數(shù)(conditionalmean)。
在實驗無限重復后,可以得到各xi上Y的條件平均數(shù),這些平均數(shù)構成一條直線:
式中:α為直線的截距(intercept),β為斜率(slope)。
對于一對給定的X和Y與直線的離差(隨機誤差)ε,它獨立于X且服從于同一正態(tài)分布。
如上回歸模型只包含一個自變量X且具有正態(tài)性,所以稱為一元正態(tài)線性回歸模型。
一般情況下,得不到真正的α和β,只能求出它們的估計值a和b,從而得到一條估計的直線:
回歸方程估計值回歸系數(shù)畫出的線叫回歸線第十章一元回歸及簡單相關分析Ⅱ、一元直線回歸模型的建立:2、模型建立二、一元線性回歸每一次a和b取值不同,每一個數(shù)據(jù)點的不同。對于所有點而言,每一次a和b取值不同,每一個數(shù)據(jù)點的離差不同。回歸分析中,要使每一個離差都很小,必須選取適當?shù)某?shù)a和b,使得:達到最小,進而保證每個離差的絕對值都很小。這種根據(jù)離差的平方和為最小的條件來選擇常數(shù)的方法稱為最小二乘法(methodofleastsquare)。
第十章一元回歸及簡單相關分析
目的明確以后,把L看成為自變量a
和b的一個二元函數(shù),那么問題就可歸結為求函數(shù)L=L(a,b)在那些點處取得的最小值,這樣就可通過數(shù)學方法可求出使L達到最小時的常數(shù)a和b。
二、一元線性回歸Ⅱ、一元直線回歸模型的建立:2、模型建立得正規(guī)方程(normalequation):
解正規(guī)方程,得到α和β的最小二乘估計a和b:
校正交叉乘積和SXYX的校正平方和SXX計算估計值a和b時的程序:
X和Y的校正交叉乘積和:
X的校正平方和:Y的校正平方和:直線回歸方程的兩個性質:(1);(2)回歸直線必須通過中心點。
(2)計算校正項:
(3)計算估計值a和b:
(1)計算觀測平均值:
二、一元線性回歸第十章一元回歸及簡單相關分析Ⅱ、一元直線回歸模型的建立:3、例題例題10-1土壤不同含鹽量時小麥收獲的葉干重如下表:試建立土壤含鹽量與小麥葉干重的直線回歸方程。解:分別求出SXY、SXX、SYY
回歸系數(shù)b=11.16,表示當自變量每變動一個單位,因變量變動11.16個單位。
二、一元線性回歸第十章一元回歸及簡單相關分析Ⅲ、一元直線回歸模型的檢驗:(一)方差分析1、無重復時的方差分析
即:總平方和=剩余平方和(誤差平方和)+回歸平方和記為:,SYY具n-1自由度;其中:,SSe具n-2自由度;
,SSR具1自由度。
均方分別為:
若F<F1,(n-2),α,則接受H0:β=0;若F>F1,(n-2),α,則拒絕H0:β=0。
F>F1,5,0.01=16.26,回歸極顯著。二、一元線性回歸第十章一元回歸及簡單相關分析2、有重復時的方差分析
Ⅲ、一元直線回歸模型的檢驗:(一)方差分析
如果對于同一個自變量,因變量重復觀測兩次以上,此時剩余平方和分解為純實驗誤差平方和(pureexperimentalerrorsumofsquares)和失擬平方和(lackoffitsumofsquares)(模型選擇不當造成的),總校正平方和做如下分解:
即:
總平方和=回歸平方和+失擬平方和+純實驗誤差平方和
記為:
;SYY具mn-1自由度;
;SSR具1自由度;
;SSpe具mn-n自由度;
;SSLOF具n-2自由度。
均方分別為:
第一步:檢驗選擇模型的適宜性
若F<F(n-2),(mn-n),α,則模型選擇正確;若F>F(n-2),(mn-n),α,則模型選擇不當。當差異不顯著(即模型選擇正確)時,進行下一步檢驗。
第二步:檢驗回歸關系的顯著性
此時,失擬平方和基本上是由實驗誤差造成的。將失擬平方和和純誤差平方和合并,相應自由度合并(df=mn-2),以合并后的均方對回歸均方進行顯著性檢驗。
若F<F1,(mn-2),α,則接受H0:β=0;若F>F1,(mn-2),α,則拒絕H0:β=0。二、一元線性回歸第十章一元回歸及簡單相關分析Ⅲ、一元直線回歸模型的檢驗:(一)方差分析2、有重復時的方差分析
例題10-7土壤不同含鹽量時有重復實驗中小麥收獲的葉干重如下表:試對該土壤含鹽量與小麥葉干重的直線回歸方程的顯著性進行檢驗。解:得到回歸方程
差異不顯著,說明模型選擇正確。注意:對于小樣本(n≤30),F(xiàn)≤1.5肯定不顯著;
對于大樣本(n>30),F(xiàn)≤1.0肯定不顯著。
F>F1,12,0.01=9.33,回歸關系極顯著。
二、一元線性回歸第十章一元回歸及簡單相關分析Ⅲ、一元直線回歸模型的檢驗:(二)回歸系數(shù)t-檢驗一元線性回歸模型的實測值可表示為,因無法獲得α和β,故實測值表述為。二、一元線性回歸第十章一元回歸及簡單相關分析Ⅳ、一元直線回歸模型的檢驗:(3)點估計與區(qū)間估計1、對α和β的估計
二、一元線性回歸第十章一元回歸及簡單相關分析Ⅳ、一元直線回歸模型的檢驗:(3)點估計與區(qū)間估計2、對回歸線和對的估計
總體平均數(shù)觀測值個體—樣本例題:在例題10-1中,請估計土壤含鹽量為1.6g·kg-1時小麥葉干重為多少mg·dm-2(取0.95置信概率)?張老師2006年在土壤含鹽量為1.6g·kg-1的試驗地中進行小麥實驗,葉干重為多少mg·dm-2(取0.95置信概率)?
解:分析——第一問為求總體平均值的置信區(qū)間;第二問為求單個觀測值——樣本的置信區(qū)間。三、一元非線性回歸第十章一元回歸及簡單相關分析
多項式回歸
兩變量間的數(shù)據(jù)散點圖無法確定函數(shù)關系時,用多項式回歸。一般形式為:
例題10-13
假設有一組數(shù)據(jù),如下表,
試建立回歸方程并做顯著性檢驗。解:在Excel中,分別擬合多項式回歸方程,并做顯著性檢驗。結果如下圖。1、相關系數(shù)概念及其計算相關系數(shù)(correlationcoefficient)是指由于回歸因素所引起的變差與總變差之比的平方根,它是衡量線性回歸好壞的一個標志。由回歸因素所引起的變差在總變差中的比率越大,回歸的成分就越大,這兩個變量間的相關就越密切。樣本相關系數(shù)為:相關系數(shù)的性質用散點圖說明第十章一元回歸及簡單相關分析四、相關2、相關系數(shù)的檢驗
涉及一個概念——總體相關系數(shù),即總體相關系數(shù)等于兩變量的協(xié)方差除以兩變量標準差的幾何平均數(shù)。
事實上,總體相關系數(shù)ρ很難計算,只能估計。
(1)r不經變換:當ρ=0時(待檢驗數(shù)據(jù)分布符合正態(tài)分布),可用t=b/sb來檢驗。檢驗統(tǒng)計量為:t0.01
例題10-14
在研究水稻籽粒蛋白質含量(%)時,采用兩種不同的測定方法:凱氏定氮法(KP法)和染料結合法(DBC法),結果如下表,問兩種測定方法對結果是否有顯著影響?解:H0:ρ=0
說明兩種方法測定結果是一致的。
簡單直線相關與回歸的區(qū)別p156楊運清
1.在資料要求上,相關要求兩變量x。y都是隨機變量,如動物體高與體重.兩者都不能預先指定;回歸要求依變量y是隨機變員,而自變量x可以是隨機變量,亦可以指定,幅養(yǎng)試驗中.建立采食量與增重的回歸關系,動物采食量可以人為控制.
2.在意義上.相關反映兩變量間相互依賴的平行關系;而回歸則反映一個變量對另一變量的單向依賴關系.
3.在應用上,說明兩變量間的相關程度用相關;說明兩現(xiàn)象間變化的數(shù)量關系用回歸.3、相關系數(shù)與回歸系數(shù)的關系通常以X為自變量、Y為因變量,這時的回歸系數(shù)
反過來,以Y為自變量、X為因變量,這時的回歸系數(shù)
Finished對比r和b兩個變量在相關系數(shù)計算中的地位是平等的,沒有自變量和依變量之分,這是回歸和相關的區(qū)別。R2
的含義是變量引起變異的回歸平方和占變異總平方和的比率。取值范圍是0到1例題中r=0.953R2=0.9082表明y的變異中有90.82%可用y與x二者之間的線性關系來解釋。
R2的作用:1R2
的大小可以說明曲線和散點配合的程度,越大配合的越好,散點離曲線越近。2(在實際應用中的意義)為探討產婦尿液中雌三醇含量與初生兒體重是否有關,以便盡早根據(jù)產婦產前尿中雌三醇含量水平估計胎兒是否超重,并判斷生產過程的風險,某產科醫(yī)師測量了3l例待產婦24小時的尿雌三醇及其初生兒體重,數(shù)據(jù)記錄如表所示:
r=0.6097檢驗后有極顯著意義。即認為該樣本所代表的總體相關系數(shù)不等于0。因此,本例的相關系數(shù)結果可以這樣解釋:產婦尿雌三醇的含量與新生兒體重之間存在正相關,即尿雌三醇含量高,相應的新生兒體重也高。本例相關系數(shù)雖然達到o.6097,且具有極顯著性意義(P<0.01),但決定系數(shù)只有大約0.3717,即新生兒的體重改變量中只有將近37.17%可以用產婦尿雌三酵含量來解釋,其余大部分由未進入本研究的其他因素所決定。由此可見,該回歸模型的效應并不是很高。從散點圖上亦可看出,各散點的分布偏離回歸直線比較遠。相關系數(shù)和決定系數(shù)有何區(qū)別和聯(lián)系?相關系數(shù)是指由于回歸因素所引起的變差與總變差之比的平方根,它是衡量線性回歸好壞的一個標志。決定系數(shù)R2
的含義是變量引起變異的回歸平方和占變異總平方和的比率。R2
的大小可以說明曲線和散點配合的程度,越大配合的越好,散點離曲線越近。區(qū)別:都是表示相關程度的一個統(tǒng)計數(shù)。相關系數(shù)還可以表示雙變量相關的性質,而絕對系數(shù)只能表示相關程度不能表示相關性質。
R2取值范圍是0到1r取值范圍是-1到1聯(lián)系R2
=r2
確定系數(shù)與回歸模型的效應評價董時富126頁因變量的全部變異包括;隨x變化而發(fā)生b個單位的改變量和殘差兩個部分。這表明x不能100%地解釋y的全部變異。(數(shù)學中A=KbC濃度c可以100%解釋y的變異)那么y的全部變異中,x的確
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024指定工程人力勞務輸出協(xié)議版B版
- 2024版承包工程施工安全合同書
- 2024年鋁合金體育器材設計與制造合同范本3篇
- 2024年金融產品買賣合同
- 2024汽車租賃公司車輛管理與運營合同
- 2024年網(wǎng)絡平臺廣告合作協(xié)議版B版
- 2022-2024年浙江中考英語試題匯編:閱讀理解(說明文)教師版
- 2024年青海建筑工程施工合同
- 2022年中考化學單元復習【知識清單·必做題】第二單元 我們的周圍空氣(解析版)
- 2023-2024房地產經紀人之業(yè)務操作知識筆記
- 系統(tǒng)運行維護方案
- 外貿企業(yè)海外市場開拓計劃書
- (醫(yī)學課件)護理人文關懷
- 數(shù)據(jù)采集服務委托合同
- 河長制工作總結報告5篇河長制年度工作總結
- 第二期專題04-短文填空(6選5)-沖刺中考英語必考題型終極預測(深圳專用)
- 民間借貸利息計算表
- 中國偏頭痛診治指南(第一版)2023解讀
- 2025年公務員考試申論試題與參考答案
- 2024年秋季新人教PEP版三年級上冊英語全冊教案
- 商場反恐防暴應急預案演練方案
評論
0/150
提交評論