第08章 線性相關與回歸_第1頁
第08章 線性相關與回歸_第2頁
第08章 線性相關與回歸_第3頁
第08章 線性相關與回歸_第4頁
第08章 線性相關與回歸_第5頁
已閱讀5頁,還剩58頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、生物統(tǒng)計學線性相關與回歸線性相關與回歸計量資料單變量的統(tǒng)計描述與統(tǒng)計推斷。試問:為何說是單變量?因為每種類型只牽涉一個變量。許多現(xiàn)象之間(即變量之間)都有相互聯(lián)系在這些有關系的現(xiàn)象中,它們之間聯(lián)系的程度和性質也各不相同。有的現(xiàn)象之間因果不清,只是伴隨關系。相關與回歸就是用于研究和解釋兩個變量之間相互關系的。 十九世紀英國人類學家 F.Galton首次在自然遺傳一書中,提出并闡明了“相關”和“相關系數(shù)”兩個概念,為相關論奠定了基礎。其后,他和英國統(tǒng)計學家 Karl Pearson對上千個家庭的身高、臂長、拃長(伸開大拇指與中指兩端的最大長度)做了測量,并做成散點圖。 歷史背景: 兒子身高(Y,英

2、寸)與父親身高(X,英寸)存在線性關系: 即高個子父代的子代在成年之后的身高平均來說不是更高,而是稍矮于其父代水平,而矮個子父代的子代的平均身高不是更矮,而是稍高于其父代水平。Galton將這種趨向于種族穩(wěn)定的現(xiàn)象稱之“回歸”。33.73 0.516YXRegression 釋義小插曲F.Galton Galton(1822-1911)是一位人類學家,著名生物學家達爾文的表兄弟,早年學醫(yī),曾在劍橋大學念書。盡管他的數(shù)學不是很好,但在人類學和優(yōu)生學研究中萌發(fā)的統(tǒng)計學思想,對生物統(tǒng)計的發(fā)展產(chǎn)生了深遠影響,如“回歸”、 “雙變量正態(tài)分布”的概念等。他沒有子女,但一生寫了9部書,發(fā)表了近200篇論文。

3、1860年當選英國皇家學會會員,1909年被封為爵士,1910年獲得英國皇家學會Copley獎。Karl Pearson Karl Pearson (英,18571936)是Francis Galton 的得意門生,他開創(chuàng)了統(tǒng)計方法學。他對統(tǒng)計學的主要貢獻:變異數(shù)據(jù)的處理、分布曲線的選配、卡方檢驗的提出、回歸與相關的發(fā)展。本章內(nèi)容n 第一節(jié) 線性相關n 第二節(jié) 線性回歸n 第三節(jié) 相關與回歸的關系n 第四節(jié) 等級相關 (自學)第一節(jié) 線性相關n 線性相關描述了什么問題?n 線性相關分析的具體步驟是什么?n 線性相關分析對資料有什么要求?n 如何對這些要求進行檢查或檢驗?n 僅用樣本線性相關系數(shù)

4、能否說明相關程度?n 總體相關系數(shù)非常接近1,能否說明Y=X?例:考察身高與體重的伴隨關系 體重體重身高散點圖散點圖問題:通過散點圖可以得出什么結論? 線性相關的概念l 圖中不是每個身材較高的對象必有較重的體重,但大多數(shù)對象的體重Y與其身高X的變化呈一種伴隨增大或減小的直線變化趨勢,這種現(xiàn)象稱為直線相關 。l刻畫兩個隨機變量之間線性相關程度稱為線性相關(linear correlation)線性相關的類型 X和Y伴隨同時上升或伴隨下降稱為線性正相關(Linear Positive Correlation) X和Y無任何直線伴隨變化趨勢,則稱為零相關 (零線性相關) 。 X與Y的反方向伴隨直線變

5、化趨勢稱為線性負相關(linear negative correlation) 正相關 負相關 稱零相關 完全正相關 完全負相關線性相關系數(shù)n 線性相關系數(shù) (linear correlation coeffiecient) ,簡稱相關系數(shù)?;?Pearson相關系數(shù) n 相關系數(shù)是描述兩個變量之間線性相關的程度和相關方向的統(tǒng)計指標。樣本相關系數(shù)用 r 表示,總體相關系數(shù)用表示。 相關系數(shù)的特點:1 r 1r0為正相關r0為負相關r0為零相關或無相關|r| 0.4 為低度線性相關;0.4 |r| 0.7為中度線性相關;0.7|r| 1.0為高度線性相關。相關系數(shù)的計算公式lxx(x 的離均差平

6、方和 )lyy (y 的離均差平方和 )lxy (x和y的離均差乘積和,簡稱乘積和)22()()()()XYXX YYlXXYYrllXXYYnXXlXX22)(nYYlYY22)(nYXXYlXY)(實例分析 健康調查發(fā)現(xiàn)男青年身高與他的前臂長有關; 于是設想,通過測量男青年的身高,可以預測其前臂長,以便更好對男青年的發(fā)育情況進行評價。因此隨機抽取了11名男青年組成樣本,分別測量每個人的身高和前臂長。 問男青年的身高與前臂長之間的相關系數(shù)是多少?是正相關還是負相關? 分析問題:總體-樣本、 目的、變量、關系 11名男青年身高與前臂長的測量結果(cm)分析步驟一、繪制散點圖二、計算xyyyxx

7、lllyx, N=11 X=1891 Y=500 X2=89599 Y2=22810 XY=85185rXXYYXXYYX YXYnXXnYYn()()()2().22222身高(身高(cm) 前臂長前臂長(cm)男青年身高與前臂長的測量結果(cm)的散點圖計算結果r 的值說明了兩個變量X與Y之間關聯(lián)的密切程度(絕對值大?。┡c關聯(lián)的性質(正負號)。2286185 1891 500/11(895991891 /11)(22810500 /11)0.8009rn上例中的相關系數(shù) r 等于0.8009,說明了11例樣本中男青年的身高與前臂長之間存在相關關系。但是,這11例只是總體中的一個樣本,由此得

8、到的相關系數(shù)會存在抽樣誤差。n 因為,總體相關系數(shù)()為零時,由于抽樣誤差,從總體抽出的11例,其 r 可能不等于零。n 這就要對 r 進行假設檢驗,判斷r不等于零是由于抽樣誤差所致,還是兩個變量之間確實存在相關關系。 目的:是判斷兩變量的總體是否有相關關系t檢驗:樣本相關系數(shù)r與總體相關系數(shù)的比較 2102 nrrSrtr2 n 查表法:直接查相關系數(shù)界值表得到相應的概率P。 相關系數(shù)的假設檢驗 資料相關系數(shù)的假設檢驗步驟一、建立假設,確立檢驗水準二、選擇并計算檢驗統(tǒng)計量三、計算P值,做出統(tǒng)計推斷相關系數(shù)的假設檢驗也可以采用查表法,以相關系數(shù)r和自由度 v=n-2查r界值表11,做出統(tǒng)計推斷

9、結論。本例查表法P0.002,結論為拒絕H0,接受H1,與t檢驗結論一致。 1. 作散點圖: 分析要兩變量之間有無相關關系可先作散點圖,在圖上看它們有無關系、關系的密切程度、是正相關還是負相關,然后再計算相關系數(shù)和作假設檢驗; 2. 正態(tài)性:相關系數(shù)的計算要求兩個變量必須服從正態(tài)分布,如果資料不服從正態(tài)分布,應先通過變量變換,使得兩個變量正態(tài)化,再根據(jù)變換值計算相關系數(shù); 相關分析應注意的問題 3. 作假設檢驗: 依據(jù)公式計算出的相關系數(shù)僅是樣本相關系,它是總體相關系數(shù)的一個估計值,與總體相關系數(shù)之間存在著抽樣誤差,要判斷兩個事物之間有無相關關系及相關的密切程度,必須作假設檢驗。 當檢驗拒絕了

10、無效假設時,才可以認為兩個事物之間存在著相關關系,然后再根據(jù)計算出的相關系數(shù)大小來判斷根相關關系的密切程度;4. 相關關系:相關關系不一定是因果關系,也可能是伴隨關系,并不能證明事物間有內(nèi)在聯(lián)系,例如,有人發(fā)現(xiàn),對于在校兒童,鞋的大小與閱讀技能有很強的相關關系。然而,學會新詞并不能使腳變大,而是涉及到第三個因素 年齡。當兒童長大一些,他們的閱讀能力會提高而且由于長大也穿不下原來的鞋。 5. 在確實存在相關關系的前提下(?),如果 r 的絕對值越大,說明兩個變量之間的關聯(lián)程度越強,那么,已知一個變量對預測另一個變量越有幫助;如果r 絕對值越小,則說明兩個變量之間的關系越弱,一個變量的信息對猜測另

11、一個變量的值無多大幫助。 6. 一般說來,當樣本量較大,并對 r 進行假設檢驗,有統(tǒng)計學意義時,r 的絕對值大于0.7,則表示兩個變量高度相關;r的絕對值大于0.4,小于等于0.7時,則表示兩個變量之間中度相關;r 的絕對值大于0.2,小于等于0.4時,則兩個變量低度相關。 從上面的分析可以看出男青年身高與前臂長有相關關系n 如果知道了一位男青年的身高n 能推斷出其前臂長嗎?n 能預測男青年的前臂長可能在什么范圍內(nèi)?n 這要用直線回歸的方法來解決。 n直線回歸方程(總體)是描述什么?n 直線回歸分析對資料有什么要求?n 直線回歸分析的具體基本步驟是什么?n 在直線回歸中,Y 是否一定為隨機變量

12、?n 在直線回歸中,X 是否一定為隨機變量?n 在直線回歸中,預測值 的意義是什么?n 在直線回歸中,回歸系數(shù)b的意義是什么?第二節(jié) 線性回歸分析 n 知道了兩個變量之間有線性相關關系,并且一個變量的變化會引起另一個變量的變化,這時,如果它們之間存在準確、嚴格的關系,它們的變化可用函數(shù)方程來表示,叫它們是函數(shù)關系,它們之間的關系式叫函數(shù)方程。n 實際上,由于其它因素的干擾,許多雙變量之間的關系并不是嚴格的函數(shù)關系,不能用函數(shù)方程反映,為了區(qū)別于兩變量間的函數(shù)方程,我們稱這種關系式為線性回歸方程,這種關系為線性回歸。n直線回歸就是用來描述一個變量如何依賴于另一個變量。n其任務就是要找出一個變量隨

13、另一個變量變化的直線方程,我們把這個直線方程叫做直線回歸方程。 直線回歸是分析直線回歸是分析成對觀測數(shù)據(jù)成對觀測數(shù)據(jù)中兩變量間中兩變量間線性線性 依存關系依存關系的方法。的方法。n其任務就是要找出一個變量隨另一個變量變化其任務就是要找出一個變量隨另一個變量變化的直線方程,我們把這個直線方程叫做的直線方程,我們把這個直線方程叫做線性回線性回歸方程歸方程。u “回歸回歸”是一個借用已久因而相沿成習的統(tǒng)計是一個借用已久因而相沿成習的統(tǒng)計學學 術語。術語。 直線回歸的概念直線回歸的概念直線回歸的概念n 直線回歸是分析成對觀測數(shù)據(jù)中兩變量間線性依存關系的方法。n 其任務就是要找出一個變量隨另一個變量變化

14、的直線方程,我們把這個直線方程叫做線性回歸方程。n “回歸”是一個借用已久因而相沿成習的統(tǒng)計學術語。直線回歸模型1、 資料數(shù)據(jù)格式 2、變 量Y (應變量,結果變量):一般是難測(或不可測)的變量,(要求呈正態(tài)分布的隨機變量) X (自變量,原因變量):一般是可測(或易測)的變量(可是隨機變量或人為給定的量)33.730.516YX 兒子身高(Y,英寸)與父親身高(X,英寸)存在 線性關系:3、直線回歸方程的一般形式為:a 為常數(shù)項,又稱截距;b 為斜率,又稱回歸系數(shù),表示自變量X增 加(或減少)一個單位,應變量Y平均改變的單位數(shù)。bXaY 回歸分析按回歸變量個數(shù)分按回歸形式分一元回歸多元回歸

15、線形回歸非線性回歸回歸的類型線性回歸方程建立的思路Xxy|bXaY樣本總體最小二乘法 Y與X之間為線性關系 選出一條最能反映Y與X之間關系規(guī)律的直線 y 回歸方程原理圖最小二乘法最小二乘法一般而言,所求的a和b應能使每個樣本觀測點(X i,Y i)與回歸直線之間的偏差盡可能小,即使觀察值與擬合值的誤差平方和Q達到最小。回歸直線的有關性質直線通過均點 各點到該回歸線縱向距離平方和較到其它任何直線者為小。 2)YY( )Y,X( X XY bXaY 為來自為來自的一個樣本的一個樣本對于X 各個取值,相應Y的總體均數(shù)直線回歸分析的步驟 n 將原始數(shù)據(jù)在坐標圖上繪散點圖n 根據(jù)樣本數(shù)據(jù)求得估計值 a、

16、bn 即得樣本回歸方程,并作回歸線n對回歸方程作假設檢驗,并對方程的擬合效果作出評價 bXaY 例 有人研究了溫度對蛙的心率的影響,得到了表中 所示的資料,試進行回歸分析。圖 回歸直線、回歸系數(shù)、殘差示意圖05101520253035400510152025溫 度()蛙心率(分/次)例3的解題步驟1. 作散點圖:2. 計算回歸系數(shù)與常數(shù)項 132X 20242X12X 246Y26610Y 22.363Y 3622XY/6 7 0 / 4 4 01 .5 2 3x yx xbll22.3631.523124.087aYbX222/2024132 /11440 xxlXXn222/6610246

17、 /111180.54yylYYn/3622132246 /11670 xylXYXYna) 直線回歸方程的建立4.087 1.523yx本例是以最小二乘法原理得出以下的回歸方程: b) 回歸直線的描繪 根據(jù)求得的回歸方程,可以在自變量 X 的實測范圍內(nèi)任取兩個值,代入方程中,求得相應的兩個Y值,以這兩對數(shù)據(jù)找出對應的兩個坐標點,將兩點連接為一條直線,就是該方程的回歸直線?;貧w直線一定經(jīng)過(0,a ),( )。這兩點可以用來核對圖線繪制是否正確。 ,XY圖回歸直線、回歸系數(shù)、殘差示意圖05101520253035400510152025=4.087+1.523X殘差殘差1個單位個單位b個單位個

18、單位ieyy溫 度 ()蛙心率(分/次)Y= 4.087+1.523X 是否一定能說明溫度與蛙的心率之間存在回歸關系? 與直線相關一樣,直線回歸方程也是從樣本資料計算而得的,同樣也存在著抽樣誤差問題。所以,需要對樣本的回歸系數(shù)b進行假設檢驗,以判斷b是否從回歸系數(shù)為零的總體中抽得。為了判斷抽樣誤差的影響,需對回歸系數(shù)進行假設檢驗??傮w的回歸系數(shù)一般用表示。 回歸方程的假設檢驗方差分析 ( 自學 )t 檢驗 (常用)方 法:t 檢驗常采用基本思想:是利用樣本回歸系數(shù) b與總體回歸系數(shù)進行比較來判斷回歸方程是否成立。bsbt0 XXXYblSS. 22)(2.nSSnyySXY?;貧w方程的假設檢驗

19、剩余標準差:表示固定了X(即扣除了溫度的影響)后,Y(蛙的心率)方面仍有變異,是由X 以外的其它因素(如生長環(huán)境、個體差異等)引起的。XYS.回歸系數(shù)假設檢驗- t 檢驗一、建立假設,確立檢驗水準是否試問所建直線回歸方程試問所建直線回歸方程 成立?成立?二、選擇并計算檢驗統(tǒng)計量三、計算P值,做出統(tǒng)計推斷查t值表,得P0.01,按a=0.05水準, 拒絕H0, 接受H1??烧J為溫度與蛙的心率之間總體直線關系存在,并且可用樣本直線回歸方程估計。線性回歸的應用和注意事項 n 描述兩變量之間的依存關系:通過回歸系數(shù)的假設檢驗,若認為兩變量之間存在直線回歸關系,則可用直線回歸來描述。n 利用回歸方程進行

20、預測 :把自變量代入回歸方程,對應變量進行估計,可求出應變量的波動范圍。例如,已知某男青年的身高,代入回歸方程,再用區(qū)間估計的方法,即可知道男青年的前臂長的范圍。 n 利用回歸方程進行統(tǒng)計控制 :空氣質量與汽車數(shù)量1. 應用: 1) 實際意義 進行相關回歸分析要有實際意義,不可把毫無關系的兩個事物或現(xiàn)象用來作相關回歸分析。例如,有人說,孩子長,公園里的小樹也在長。求孩子和小樹之間的相關關系就毫無意義,用孩子的身高推測小樹的高度則更加荒謬。2) LINE 性 變量是否符合建立線性模型的假定條件(線性、獨立性、正態(tài)率、方差齊性,簡寫為LINE),可考察殘差圖來分析變量是否滿足LINE假定.2. 應注意的問題3) 利用散點圖 對于性質不明確的兩組數(shù)據(jù),可先做散點圖,在圖上看它們有無關系然后再進行回歸分析。4) 變量范圍 回歸分析和回歸方程僅適用于樣本的原始數(shù)據(jù)范圍之內(nèi),出了這個范圍,我們不能得出兩變量原來的回歸關系。即回歸直線方程一般不能外延。X的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論