重醫(yī)大醫(yī)學(xué)統(tǒng)計(jì)學(xué)課件07-2線性相關(guān)與回歸_第1頁(yè)
重醫(yī)大醫(yī)學(xué)統(tǒng)計(jì)學(xué)課件07-2線性相關(guān)與回歸_第2頁(yè)
重醫(yī)大醫(yī)學(xué)統(tǒng)計(jì)學(xué)課件07-2線性相關(guān)與回歸_第3頁(yè)
重醫(yī)大醫(yī)學(xué)統(tǒng)計(jì)學(xué)課件07-2線性相關(guān)與回歸_第4頁(yè)
重醫(yī)大醫(yī)學(xué)統(tǒng)計(jì)學(xué)課件07-2線性相關(guān)與回歸_第5頁(yè)
已閱讀5頁(yè),還剩38頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

線性相關(guān)與回歸LinearCorrelationandRegression公共衛(wèi)生與管理學(xué)院人主觀的客觀的直接的間接的外在的內(nèi)在的年齡與血壓吸煙與肺癌父代與子代的身高線性相關(guān)線性回歸兩者比較概念相關(guān)系數(shù)(correlationcoefficient)

定義

計(jì)算

特點(diǎn)

假設(shè)檢驗(yàn)注意事項(xiàng)簡(jiǎn)單相關(guān)(PearsonCorrelation)研究?jī)蓚€(gè)連續(xù)性隨機(jī)變量x與y之間的線性關(guān)系主要任務(wù)——線性關(guān)系是否存在、線性關(guān)系的密切程度以及方向性表1缺碘地區(qū)的母嬰TSH水平測(cè)定(mU/L)編號(hào)12345678910母血TSH水平1.211.301.391.471.471.561.681.721.982.10臍帶血TSH水平3.904.504.204.834.164.934.324.994.705.201.201.401.601.802.002.20x1.002.003.004.005.006.007.00y散點(diǎn)圖(ScatterPlot)圖1缺碘地區(qū)的母嬰TSH水平測(cè)定散點(diǎn)圖圖a2圖a1圖b2圖c1圖b1圖d1雙變量的散點(diǎn)圖——積差相關(guān)系數(shù)用ρ(總體)或r(樣本)表示用來(lái)對(duì)線性關(guān)系的密切程度與方向進(jìn)行統(tǒng)計(jì)描述的指標(biāo)

表2缺碘地區(qū)的母嬰TSH水平測(cè)定(mU/L)編號(hào)母X臍YX2Y2XY11.213.901.464115.21004.719021.304.501.690020.25005.850031.394.201.932117.64005.838041.424.832.016423.32896.858651.474.162.160917.30566.115261.564.932.433624.30497.690871.684.322.822418.66247.257681.724.992.958424.90018.582891.984.703.920422.09009.3060102.105.204.410027.040010.9200合計(jì)15.8345.7325.8083210.731973.1380SXSYSX2SY2SXY樣本中的母嬰TSH水平呈較強(qiáng)的正相關(guān)關(guān)系無(wú)單位數(shù)值的大小反映關(guān)聯(lián)的程度取值[-1,1]

越接近于1,線性關(guān)系越密切越接近于0,線性關(guān)系越不明顯數(shù)值的符號(hào)反映關(guān)聯(lián)的方向若為正值,則正相關(guān)若為負(fù)值,則負(fù)相關(guān)檢驗(yàn)?zāi)康呐袛嗫傮w相關(guān)系數(shù)ρ是否為0檢驗(yàn)步驟

建立假設(shè)H0:ρ=0H1:ρ≠0

計(jì)算統(tǒng)計(jì)量

t檢驗(yàn)

查表法確定P值(t界值表與r界值表)

作出結(jié)論要求x與y都是服從正態(tài)分布的隨機(jī)變量相關(guān)關(guān)系≠因果關(guān)系偽相關(guān)現(xiàn)象相關(guān)分析要有實(shí)際意義等級(jí)相關(guān)(SpearmanCorrelation)偽相關(guān)現(xiàn)象用中間結(jié)果或特征值代表散點(diǎn)造成的假象本不相關(guān)的兩個(gè)樣本合并造成的線性假象制作散點(diǎn)圖實(shí)為必要回歸(Regression)的由來(lái)

趨向于人群平均水平的現(xiàn)象——“回歸”。概念四個(gè)假定直線回歸方程決定系數(shù)應(yīng)用注意事項(xiàng)簡(jiǎn)單回歸研究?jī)蓚€(gè)相關(guān)變量,自變量X(independent

variable)與因變量Y(dependentvariable)之間數(shù)量依存關(guān)系的一類統(tǒng)計(jì)分析方法。要求——y是服從正態(tài)分布的隨機(jī)變量,而對(duì)x無(wú)太嚴(yán)格要求主要任務(wù)——找出合適的線性回歸方程,以確定一條最接近于各實(shí)測(cè)點(diǎn)的回歸直線,描述兩個(gè)變量之間的線性回歸關(guān)系。LINE假定xy標(biāo)準(zhǔn)差相等

EQUALSTANDARDDEVIATION

在x的取值范圍內(nèi),不論x取何值,y都有相同標(biāo)準(zhǔn)差獨(dú)立

INDEPENDENCE

任意兩個(gè)觀察值之間相互獨(dú)立y|X=α+x線性回歸的四個(gè)假定線性

LINEAR

y的均數(shù)μy︱x與X間呈直線關(guān)系正態(tài)

NORMALITY

對(duì)于任何給定的x,y

均服從正態(tài)分布1.201.401.601.802.002.20x1.002.003.004.005.006.007.00yWhichlineshouldbethebestregressionline?圖1缺碘地區(qū)的母嬰TSH水平測(cè)定散點(diǎn)圖最接近于各個(gè)散點(diǎn)的那條!表1缺碘地區(qū)的母嬰TSH水平測(cè)定(mU/L)編號(hào)12345678910母血TSH水平1.211.301.391.471.471.561.681.721.982.10臍帶血TSH水平3.904.504.204.834.164.934.324.994.705.20Yi=a+bXi

Yi估計(jì)值i殘差i=Yi–估計(jì)值

殘差越小,實(shí)測(cè)值和預(yù)測(cè)值越接近,表示實(shí)測(cè)點(diǎn)到方程所規(guī)定的直線最接近,此時(shí)的回歸直線必然能貼切地反映X和Y之間的回歸關(guān)系!

殘差

最小的直線

!x最小二乘原理

(Least-squaresMethod)The“best”lineistheonethatminimizestheresidualsumofsquareddifferencesbetweenthepointsandtheline.保證各個(gè)實(shí)測(cè)散點(diǎn)到這條回歸直線的縱向距離平方和最小。即線性回歸模型

LinearRegressionModelIndependentVariableErrorObservedValue

由樣本數(shù)據(jù)建立的有關(guān)y的平均值如何依賴于x的線性表達(dá)式——線性回歸方程(LinearRegressionEquation):LinearRegressionEquationObservedValuePredictiveValueDependentVariableIndependentVariableInterceptSlopeyY的平均水平一旦確定a與b的取值,回歸方程則唯一確定。xya0統(tǒng)計(jì)意義——當(dāng)X取值為0時(shí)相應(yīng)Y的均數(shù)估計(jì)。a為常數(shù)項(xiàng),也叫“截距”(Intercept)。xy0xxb為回歸直線的斜率

(Slope)。在回歸分析中也叫“回歸系數(shù)”(RegressionCoefficient),表示當(dāng)X變化一個(gè)單位時(shí)Y的平均改變的估計(jì)值。RegressionCoefficientb:當(dāng)x改變一個(gè)單位時(shí)y將平均改變b個(gè)單位。圖2圖3圖6圖5圖4一階偏導(dǎo)(最小二乘回歸直線一定經(jīng)過均數(shù)這一點(diǎn))運(yùn)用最小二乘原理求解系數(shù)a和b表2缺碘地區(qū)的母嬰TSH水平測(cè)定(mU/L)編號(hào)母X臍YX2Y2XY11.213.901.464115.21004.719021.304.501.690020.25005.850031.394.201.932117.64005.838041.424.832.016423.32896.858651.474.162.160917.30566.115261.564.932.433624.30497.690871.684.322.822418.66247.257681.724.992.958424.90018.582891.984.703.920422.09009.3060102.105.204.410027.040010.9200合計(jì)15.8345.7325.8083210.731973.1380SXSYSX2SY2SXY表1缺碘地區(qū)的母嬰TSH水平測(cè)定(mU/L)編號(hào)12345678910母血TSH水平1.211.301.391.421.471.561.681.721.982.10臍帶血TSH水平3.904.504.204.834.164.934.324.994.705.20yx1.201.401.601.802.002.201.002.003.004.005.006.007.00圖1缺碘地區(qū)的母嬰TSH水平測(cè)定散點(diǎn)圖(1.583,4.573)(2.000,4.989)回歸系數(shù)的統(tǒng)計(jì)推斷Y的離均差平方和分解

任意一點(diǎn)實(shí)測(cè)值y的縱坐標(biāo)直線被回歸線與過均數(shù)的水平線截成三個(gè)線段。SS總=SS回+SS殘SS總:未考慮x與y的回歸關(guān)系時(shí),y的總變異。SS回:反映在y的總變異中,因x與y的線性關(guān)系而使y變異減小的部分;即在總平方和中可用x解釋的部分。SS殘:“剩余平方和”,反映x與y的直線關(guān)系之外的所有因素對(duì)y的變異作用;即在總平方和中無(wú)法用x解釋的部分。H0:總體回歸系數(shù)β是否為0F檢驗(yàn)(ANOVA)t檢驗(yàn)對(duì)上例——F檢驗(yàn)(查F界值表)

F=6.9106ν1=1ν2=8t檢驗(yàn)(查t界值表)

t=2.6288ν=8

該線性回歸方程有統(tǒng)計(jì)學(xué)意義。定義:為相關(guān)系數(shù)的平方實(shí)質(zhì)為回歸平方和與總平方和之比作用:反映當(dāng)前回歸模型擬合效果的概括統(tǒng)計(jì)量計(jì)算:特點(diǎn):取值[0,1],無(wú)單位;

反映回歸貢獻(xiàn)的大小,即在Y的總變異中能用回歸關(guān)系解釋的百分比或比重。描述

通過計(jì)算求得回歸方程并經(jīng)過回歸系數(shù)的假設(shè)檢驗(yàn),若接受兩變量存在直線回歸關(guān)系,則可用該方程進(jìn)行描述兩者間的數(shù)量依存關(guān)系。預(yù)測(cè)

把預(yù)報(bào)因子(x)代入回歸方程,對(duì)預(yù)報(bào)量(y)進(jìn)行估計(jì),其波動(dòng)范圍按個(gè)體y值的容許區(qū)間計(jì)算。控制

利用回歸方程進(jìn)行逆估計(jì),若要求y在一定范圍內(nèi)波動(dòng),可通過x的取值來(lái)實(shí)現(xiàn)。回歸要有實(shí)際意義;進(jìn)行分析前,應(yīng)繪制散點(diǎn)圖,當(dāng)觀察點(diǎn)的分布有直線趨勢(shì)時(shí),才適宜作線性回歸;同時(shí),散點(diǎn)圖還能提示有無(wú)異常點(diǎn),有助于修正數(shù)據(jù);直線回歸方程的適用范圍一般以自變量的取值范圍為限,應(yīng)避免不合理的外延。

直線回歸直線相關(guān)資料要求y服從正態(tài)分布x與y均服從正態(tài)分布應(yīng)用目的數(shù)量依存關(guān)系相關(guān)程度與方向系數(shù)[-∞,+∞][-1,1]

有單位

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論