




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第九章雙變量回歸與相關(guān)LinearRegressionandCorrelation1第九章雙變量回歸與相關(guān)雙變量計(jì)量資料:每個(gè)個(gè)體有兩個(gè)變量值
總體:無(wú)限或有限對(duì)變量值樣本:從總體隨機(jī)抽取的n對(duì)變量值
(X1,Y1),(X2,Y2),…,(Xn,Yn)
目的:研究X和Y的數(shù)量關(guān)系
方法:回歸與相關(guān)簡(jiǎn)單、基本——直線回歸、直線相關(guān)2第九章雙變量回歸與相關(guān)
Content
1.Linearregression2.Linearcorrelation3.Rankcorrelation4.Curvefitting
3第九章雙變量回歸與相關(guān)
十九世紀(jì)英國(guó)人類學(xué)家F.Galton首次在《自然遺傳》一書(shū)中,提出并闡明了“相關(guān)”和“相關(guān)系數(shù)”兩個(gè)概念,為相關(guān)論奠定了基礎(chǔ)。其后,他和英國(guó)統(tǒng)計(jì)學(xué)家KarlPearson對(duì)上千個(gè)家庭的身高、臂長(zhǎng)、拃長(zhǎng)(伸開(kāi)大拇指與中指兩端的最大長(zhǎng)度)做了測(cè)量,發(fā)現(xiàn):歷史背景:4第九章雙變量回歸與相關(guān)
兒子身高(Y,英寸)與父親身高(X,英寸)存在線性關(guān)系:即高個(gè)子父代的子代在成年之后的身高平均來(lái)說(shuō)不是更高,而是稍矮于其父代水平,而矮個(gè)子父代的子代的平均身高不是更矮,而是稍高于其父代水平。Galton將這種趨向于種族穩(wěn)定的現(xiàn)象稱之“回歸”。5第九章雙變量回歸與相關(guān)
目前,“回歸”已成為表示變量之間某種數(shù)量依存關(guān)系的統(tǒng)計(jì)學(xué)術(shù)語(yǔ),并且衍生出“回歸方程”“回歸系數(shù)”等統(tǒng)計(jì)學(xué)概念。如研究糖尿病人血糖與其胰島素水平的關(guān)系,研究?jī)和挲g與體重的關(guān)系等。6第九章雙變量回歸與相關(guān)第一節(jié)直線回歸7第九章雙變量回歸與相關(guān)一、直線回歸的概念
目的:研究應(yīng)變量Y對(duì)自變量X的數(shù)量依存關(guān)系。特點(diǎn):統(tǒng)計(jì)關(guān)系。X值和Y的均數(shù)的關(guān)系,不同于一般數(shù)學(xué)上的X和Y的函數(shù)關(guān)系。8第九章雙變量回歸與相關(guān)
例9-1
某地方病研究所調(diào)查了8名正常兒童的尿肌酐含量(mmol/24h)如表9-1。估計(jì)尿肌酐含量(Y)對(duì)其年齡(X)的回歸方程。9第九章雙變量回歸與相關(guān)
表9-18名正常兒童的年齡(歲)與尿肌酐含量(mmol/24h)
10第九章雙變量回歸與相關(guān)11第九章雙變量回歸與相關(guān)
在定量描述兒童年齡與其尿肌酐含量數(shù)量上的依存關(guān)系時(shí),將年齡稱為自變量(independentvariable),用X表示;尿肌酐含量稱為應(yīng)變量(dependentvariable),用Y表示。12第九章雙變量回歸與相關(guān)
由圖9-1可見(jiàn),尿肌酐含量Y
隨年齡X增加而增大且呈直線趨勢(shì),但并非8個(gè)點(diǎn)子恰好全都在一直線上,此與兩變量間嚴(yán)格的直線函數(shù)關(guān)系不同,稱為直線回歸(linearregression),其方程叫直線回歸方程,以區(qū)別嚴(yán)格意義的直線方程。雙變量直線回歸是回歸分析中最基本、最簡(jiǎn)單的一種,故又稱簡(jiǎn)單回歸。13第九章雙變量回歸與相關(guān)直線回歸方程的一般表達(dá)式為
為各X處Y的總體均數(shù)的估計(jì)。14第九章雙變量回歸與相關(guān)1.a(chǎn)為回歸直線在Y
軸上的截距。a>0,表示直線與縱軸的交點(diǎn)在原點(diǎn)的上方;a<0,則交點(diǎn)在原點(diǎn)的下方;a=0,則回歸直線通過(guò)原點(diǎn)。a=0a<0a>0XY15第九章雙變量回歸與相關(guān)b>0,直線從左下方走向右上方,Y隨X增大而增大;
b<0,直線從左上方走向右下方,Y隨X增大而減??;
b=0,表示直線與X軸平行,X與Y無(wú)直線關(guān)系。XY2.b為回歸系數(shù),即直線的斜率。b的統(tǒng)計(jì)學(xué)意義是:X
每增加(減)一個(gè)單位,Y
平均改變b個(gè)單位。b>0b<0b=016第九章雙變量回歸與相關(guān)
17第九章雙變量回歸與相關(guān)18第九章雙變量回歸與相關(guān)二、直線回歸方程的求法
殘差(residual)或剩余值,即實(shí)測(cè)值Y與假定回歸線上的估計(jì)值的縱向距離。求解a、b實(shí)際上就是“合理地”找到一條能最好地代表數(shù)據(jù)點(diǎn)分布趨勢(shì)的直線。原則:最小二乘法(leastsumofsquares),即可保證各實(shí)測(cè)點(diǎn)至直線的縱向距離的平方和最?。╔,Y)19第九章雙變量回歸與相關(guān)
20第九章雙變量回歸與相關(guān)21第九章雙變量回歸與相關(guān)
例9-1
某地方病研究所調(diào)查了8名正常兒童的尿肌酐含量(mmol/24h)如表9-1。估計(jì)尿肌酐含量(Y)對(duì)其年齡(X)的回歸方程。22第九章雙變量回歸與相關(guān)
表9-18名正常兒童的年齡(歲)與尿肌酐含量(mmol/24h)
23第九章雙變量回歸與相關(guān)解題步驟24第九章雙變量回歸與相關(guān)25第九章雙變量回歸與相關(guān)26第九章雙變量回歸與相關(guān)
此直線必然通過(guò)點(diǎn)(,)且與縱坐標(biāo)軸相交于截距a。如果散點(diǎn)圖沒(méi)有從坐標(biāo)系原點(diǎn)開(kāi)始,可在自變量實(shí)測(cè)范圍內(nèi)遠(yuǎn)端取易于讀數(shù)的X值代入回歸方程得到一個(gè)點(diǎn)的坐標(biāo),連接此點(diǎn)與點(diǎn)(,)也可繪出回歸直線。27第九章雙變量回歸與相關(guān)28第九章雙變量回歸與相關(guān)三、直線回歸中的統(tǒng)計(jì)推斷29第九章雙變量回歸與相關(guān)(一)回歸方程的假設(shè)檢驗(yàn)
建立樣本直線回歸方程,只是完成了統(tǒng)計(jì)分析中兩變量關(guān)系的統(tǒng)計(jì)描述,研究者還須回答它所來(lái)自的總體的直線回歸關(guān)系是否確實(shí)存在,即是否對(duì)總體有?30第九章雙變量回歸與相關(guān)31第九章雙變量回歸與相關(guān)32第九章雙變量回歸與相關(guān)1.方差分析
33第九章雙變量回歸與相關(guān)(X,Y)34第九章雙變量回歸與相關(guān)數(shù)理統(tǒng)計(jì)可證明:35第九章雙變量回歸與相關(guān)上式用符號(hào)表示為
式中
36第九章雙變量回歸與相關(guān)37第九章雙變量回歸與相關(guān)上述三個(gè)平方和,各有其相應(yīng)的自由度,并有如下的關(guān)系:
38第九章雙變量回歸與相關(guān)
如果兩變量間總體回歸關(guān)系確實(shí)存在,回歸的貢獻(xiàn)就要大于隨機(jī)誤差,大到何種程度時(shí)可以認(rèn)為具有統(tǒng)計(jì)意義,可計(jì)算統(tǒng)計(jì)量F39第九章雙變量回歸與相關(guān)式中40第九章雙變量回歸與相關(guān)2.t檢驗(yàn)41第九章雙變量回歸與相關(guān)
例9-2
檢驗(yàn)例9-1數(shù)據(jù)得到的直線回歸方程是否成立?
42第九章雙變量回歸與相關(guān)(1)方差分析43第九章雙變量回歸與相關(guān)
表9-2方差分析表
列出方差分析表如表9-2。44第九章雙變量回歸與相關(guān)(2)t檢驗(yàn)45第九章雙變量回歸與相關(guān)注意:
46第九章雙變量回歸與相關(guān)(二)總體回歸系數(shù)的可信區(qū)間
利用上述對(duì)回歸系數(shù)的t檢驗(yàn),可以得到β的1-α雙側(cè)可信區(qū)間為47第九章雙變量回歸與相關(guān)
例9-3
根據(jù)例9-1中所得b=0.1392,估計(jì)其總體回歸系數(shù)的雙側(cè)95%可信區(qū)間。48第九章雙變量回歸與相關(guān)(0.1392-2.447×0.0304,0.1392+2.447×0.0304)=(0.0648,0.2136)49第九章雙變量回歸與相關(guān)(三)利用回歸方程進(jìn)行估計(jì)和預(yù)測(cè)
50第九章雙變量回歸與相關(guān)(9-15)
(9-14)
反映其抽樣誤差大小的標(biāo)準(zhǔn)誤為51第九章雙變量回歸與相關(guān)(9-16)
(9-17)
52第九章雙變量回歸與相關(guān)兩條實(shí)曲線——總體均數(shù)的可信區(qū)間;兩條虛曲線——個(gè)體Y值的預(yù)測(cè)區(qū)間,范圍更寬。二者都是中間窄,兩頭寬;都在X=處最窄。53第九章雙變量回歸與相關(guān)
例9-4
用例9-1所得直線回歸方程,計(jì)算當(dāng)X0=12時(shí),的95%可信區(qū)間和相應(yīng)個(gè)體值的95%預(yù)測(cè)區(qū)間。54第九章雙變量回歸與相關(guān)計(jì)算步驟例9-1、例9-2已計(jì)算出
55第九章雙變量回歸與相關(guān)56第九章雙變量回歸與相關(guān)第二節(jié)直線相關(guān)57第九章雙變量回歸與相關(guān)
直線相關(guān)(linearcorrelation)又稱簡(jiǎn)單相關(guān)(simplecorrelation),用于雙變量正態(tài)分布(bivariatenormaldistribution)資料。其性質(zhì)可由圖9-6散點(diǎn)圖直觀的說(shuō)明。
目的:研究?jī)蓚€(gè)變量X,Y數(shù)量上的依存(或相關(guān))關(guān)系。
特點(diǎn):統(tǒng)計(jì)關(guān)系一、直線相關(guān)的概念58第九章雙變量回歸與相關(guān)二、相關(guān)系數(shù)的意義與計(jì)算
1.意義:相關(guān)系數(shù)(correlationcoefficient)又稱Pearson積差相關(guān)系數(shù),用來(lái)說(shuō)明具有直線關(guān)系的兩變量間相關(guān)的密切程度與相關(guān)方向。相關(guān)系數(shù)沒(méi)有單位,其值為-1r1。r值為正表示正相關(guān),r值為負(fù)表示負(fù)相關(guān),r的絕對(duì)值等于1為完全相關(guān),r=0為零相關(guān)。59第九章雙變量回歸與相關(guān)60第九章雙變量回歸與相關(guān)2.計(jì)算:樣本相關(guān)系數(shù)的計(jì)算公式為
(9-18)
61第九章雙變量回歸與相關(guān)由例9-1算得,按公式(9-18)
例9-5
對(duì)例9-1數(shù)據(jù)(見(jiàn)表9-1),計(jì)算8名兒童的尿肌酐含量與其年齡的相關(guān)系數(shù)。62第九章雙變量回歸與相關(guān)三、相關(guān)系數(shù)的統(tǒng)計(jì)推斷(一)相關(guān)系數(shù)的假設(shè)檢驗(yàn)(9-19)63第九章雙變量回歸與相關(guān)
例9-6
對(duì)例9-5所得r值,檢驗(yàn)?zāi)蚣◆颗c年齡是否有直線相關(guān)關(guān)系?64第九章雙變量回歸與相關(guān)檢驗(yàn)步驟本例n=8,r=0.8818,按公式(9-19)65第九章雙變量回歸與相關(guān)(二)總體相關(guān)系數(shù)的可信區(qū)間
66第九章雙變量回歸與相關(guān)具體步驟如下67第九章雙變量回歸與相關(guān)
例9-7對(duì)例9-5所得r值,估計(jì)總體相關(guān)系數(shù)的95%可信區(qū)間。
再按公式(9-22)將z作反變換,得到年齡與尿肌酐含量的總體相關(guān)系數(shù)95%可信區(qū)間為(0.4678,0.9971)。
68第九章雙變量回歸與相關(guān)四、決定系數(shù)(coefficientofdetermination)
定義為回歸平方和與總平方和之比,計(jì)算公式為:(9-23)
取值在0到1之間且無(wú)單位,其數(shù)值大小反映了回歸貢獻(xiàn)的相對(duì)程度,也就是在Y的總變異中回歸關(guān)系所能解釋的百分比。
69第九章雙變量回歸與相關(guān)70第九章雙變量回歸與相關(guān)五、直線回歸與相關(guān)應(yīng)用的注意事項(xiàng)
71第九章雙變量回歸與相關(guān)
1.根據(jù)分析目的選擇變量及統(tǒng)計(jì)方法
直線相關(guān)用于說(shuō)明兩變量之間直線關(guān)系的方向和密切程度,X與Y沒(méi)有主次之分;直線回歸則進(jìn)一步地用于定量刻畫(huà)應(yīng)變量Y對(duì)自變量X在數(shù)值上的依存關(guān)系,其中應(yīng)變量的定奪主要依專業(yè)要求而定,可以考慮把易于精確測(cè)量的變量作為X,另一個(gè)隨機(jī)變量作Y,例如用身高估計(jì)體表面積。兩個(gè)變量的選擇一定要結(jié)合專業(yè)背景,不能把毫無(wú)關(guān)聯(lián)的兩種現(xiàn)象勉強(qiáng)作回歸或相關(guān)分析。72第九章雙變量回歸與相關(guān)73第九章雙變量回歸與相關(guān)2.進(jìn)行相關(guān)、回歸分析前應(yīng)繪制散點(diǎn)圖—第一步
(1)
散點(diǎn)圖可考察兩變量是否有直線趨勢(shì);(2)
可發(fā)現(xiàn)離群點(diǎn)(outlier)。
散點(diǎn)圖對(duì)離群點(diǎn)的識(shí)別與處理需要從專業(yè)知識(shí)和現(xiàn)有數(shù)據(jù)兩方面來(lái)考慮,結(jié)果可能是現(xiàn)有回歸模型的假設(shè)錯(cuò)誤需要改變模型形式,也可能是抽樣誤差造成的一次偶然結(jié)果甚至過(guò)失誤差。需要認(rèn)真核對(duì)原始數(shù)據(jù)并檢查其產(chǎn)生過(guò)程認(rèn)定是過(guò)失誤差,或者通過(guò)重復(fù)測(cè)定確定是抽樣誤差造成的偶然結(jié)果,才可以謹(jǐn)慎地剔除或采用其它估計(jì)方法。74第九章雙變量回歸與相關(guān)3.資料的要求
直線相關(guān)分析要求X與Y服從雙變量正態(tài)分布;直線回歸要求至少對(duì)于每個(gè)X相應(yīng)的Y要服從正態(tài)分布,X可以是服從正態(tài)分布的隨機(jī)變量也可以是能精確測(cè)量和嚴(yán)格控制的非隨機(jī)變量;*對(duì)于雙變量正態(tài)分布資料,根據(jù)研究目的可選擇由X估計(jì)Y或者由Y估計(jì)X,一般情況下兩個(gè)回歸方程不相同)。75第九章雙變量回歸與相關(guān)
反應(yīng)兩變量關(guān)系密切程度或數(shù)量上影響大小的統(tǒng)計(jì)量應(yīng)該是回歸系數(shù)或相關(guān)系數(shù)的絕對(duì)值,而不是假設(shè)檢驗(yàn)的P值。
P值越小只能說(shuō)越有理由認(rèn)為變量間的直線關(guān)系存在,而不能說(shuō)關(guān)系越密切或越“顯著”。另外,直線回歸用于預(yù)測(cè)時(shí),其適用范圍一般不應(yīng)超出樣本中自變量的取值范圍。4.結(jié)果解釋及正確應(yīng)用
76第九章雙變量回歸與相關(guān)第三節(jié)秩相關(guān)
(非參數(shù)統(tǒng)計(jì)方法)
77第九章雙變量回歸與相關(guān)適用條件:
雙變量計(jì)量資料:①資料不服從雙變量態(tài)分布;②總體分布型未知,一端或兩端是不確定數(shù)值(如<10歲,≥65歲)的資料;原始數(shù)據(jù)(一個(gè)或兩個(gè)變量值)用等級(jí)表示的資料。78第九章雙變量回歸與相關(guān)一、Spearman秩相關(guān)
1.意義:等級(jí)相關(guān)系數(shù)rs用來(lái)說(shuō)明兩個(gè)變量間直線相關(guān)關(guān)系的密切程度與相關(guān)方向。79第九章雙變量回歸與相關(guān)3.計(jì)算公式(9-25)
(9-26)
80第九章雙變量回歸與相關(guān)81第九章雙變量回歸與相關(guān)表9-3某省1995年到1999年居民死因構(gòu)成與WYPLL構(gòu)成82第九章雙變量回歸與相關(guān)檢驗(yàn)步驟83第九章雙變量回歸與相關(guān)二、相同秩較多時(shí)rs的校正公式中Tx(或TY)=Σ(t3-t)/12,t為X(或Y)中相同秩的個(gè)數(shù)。顯然當(dāng)Tx=TY=0時(shí),公式(9-27)與公式(9-25)相等。
(9-27)
84第九章雙變量回歸與相關(guān)、(9-18)Pi→X
Qi→Y85第九章雙變量回歸與相關(guān)第六節(jié)
曲線擬合
(curvefitting)86第九章雙變量回歸與相關(guān)
醫(yī)學(xué)現(xiàn)象中并非所有的兩變量間關(guān)系都表現(xiàn)為前面所述的直線形式,其較為典型
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025人工智能技術(shù)合作合同
- 湖南省株洲市攸縣第三中學(xué)2025年高三下學(xué)期“領(lǐng)軍考試”英語(yǔ)試題含解析
- 河南省唐河縣友蘭實(shí)驗(yàn)高中2025屆高考模擬歷史試題含解析
- 四川電影電視學(xué)院《近代詩(shī)文研究》2023-2024學(xué)年第二學(xué)期期末試卷
- 江西中醫(yī)藥大學(xué)《書(shū)法設(shè)計(jì)》2023-2024學(xué)年第一學(xué)期期末試卷
- 天津廣播影視職業(yè)學(xué)院《比較文學(xué)概論》2023-2024學(xué)年第二學(xué)期期末試卷
- 濰坊工商職業(yè)學(xué)院《色彩構(gòu)成》2023-2024學(xué)年第二學(xué)期期末試卷
- 濟(jì)南工程職業(yè)技術(shù)學(xué)院《環(huán)境數(shù)學(xué)模型》2023-2024學(xué)年第一學(xué)期期末試卷
- 南京交通職業(yè)技術(shù)學(xué)院《軟件工程基礎(chǔ)訓(xùn)練》2023-2024學(xué)年第二學(xué)期期末試卷
- 貴州省畢節(jié)市赫章縣2025年高考適應(yīng)性月考卷(三)語(yǔ)文試題含解析
- 華潤(rùn)認(rèn)知能力測(cè)評(píng)題
- 大學(xué)生朋輩心理輔導(dǎo)智慧樹(shù)知到期末考試答案2024年
- 社會(huì)穩(wěn)定風(fēng)險(xiǎn)評(píng)估 投標(biāo)方案(技術(shù)標(biāo))
- 兩位數(shù)除以一位數(shù)(有余數(shù))計(jì)算題200道
- 產(chǎn)后早開(kāi)奶好處健康宣教
- 婚姻家庭指導(dǎo)服務(wù)工作方案
- 2024屆江蘇省期無(wú)錫市天一實(shí)驗(yàn)校中考聯(lián)考英語(yǔ)試題含答案
- 北師大版數(shù)學(xué)三年級(jí)下冊(cè)《長(zhǎng)方形的面積》
- 助產(chǎn)士的產(chǎn)婦心理疏導(dǎo)與支持技巧
- 部編版小學(xué)語(yǔ)文1-6年級(jí)教材必背古詩(shī)詞114首匯總
- 職業(yè)院校技能大賽教學(xué)能力比賽備賽經(jīng)驗(yàn)分享如何對(duì)標(biāo)備賽
評(píng)論
0/150
提交評(píng)論