第十一章 簡(jiǎn)單回歸分析1_第1頁(yè)
第十一章 簡(jiǎn)單回歸分析1_第2頁(yè)
第十一章 簡(jiǎn)單回歸分析1_第3頁(yè)
第十一章 簡(jiǎn)單回歸分析1_第4頁(yè)
第十一章 簡(jiǎn)單回歸分析1_第5頁(yè)
已閱讀5頁(yè),還剩74頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第十一章簡(jiǎn)單回歸分析Simplelinearregressionanalysis本章內(nèi)容

第一節(jié)簡(jiǎn)單線性回歸

第二節(jié)線性回歸的應(yīng)用第三節(jié)殘差分析

第四節(jié)非線性回歸

雙變量計(jì)量資料:每個(gè)個(gè)體有兩個(gè)變量值

總體:無(wú)限或有限對(duì)變量值樣本:從總體隨機(jī)抽取的n對(duì)變量值

(X1,Y1),(X2,Y2),…,(Xn,Yn)

目的:研究X和Y的數(shù)量關(guān)系

方法:回歸與相關(guān)簡(jiǎn)單、基本——直線回歸、直線相關(guān)第一節(jié)簡(jiǎn)單線性回歸

英國(guó)人類學(xué)家F.Galton首次在《自然遺傳》一書(shū)中,提出并闡明了“相關(guān)”和“相關(guān)系數(shù)”兩個(gè)概念,為相關(guān)論奠定了基礎(chǔ)。其后,他和英國(guó)統(tǒng)計(jì)學(xué)家KarlPearson對(duì)上千個(gè)家庭的身高、臂長(zhǎng)、拃長(zhǎng)(伸開(kāi)大拇指與中指兩端的最大長(zhǎng)度)做了測(cè)量,發(fā)現(xiàn):歷史背景:

兒子身高(Y,英寸)與父親身高(X,英寸)存在線性關(guān)系:。

也即高個(gè)子父代的子代在成年之后的身高平均來(lái)說(shuō)不是更高,而是稍矮于其父代水平,而矮個(gè)子父代的子代的平均身高不是更矮,而是稍高于其父代水平。Galton將這種趨向于種族穩(wěn)定的現(xiàn)象稱之“回歸”

“回歸”已成為表示變量之間某種數(shù)量依存關(guān)系的統(tǒng)計(jì)學(xué)術(shù)語(yǔ),相關(guān)并且衍生出“回歸方程”“回歸系數(shù)”等統(tǒng)計(jì)學(xué)概念。如研究糖尿病人血糖與其胰島素水平的關(guān)系,研究?jī)和挲g與體重的關(guān)系等。線性回歸的概念及其統(tǒng)計(jì)描述直線回歸的概念

目的:研究應(yīng)變量Y對(duì)自變量X的數(shù)量依存關(guān)系。特點(diǎn):統(tǒng)計(jì)關(guān)系。X值和Y的均數(shù)的關(guān)系,不同于一般數(shù)學(xué)上的X和Y的函數(shù)關(guān)系

為了直觀地說(shuō)明直線回歸的概念,以14名健康婦女體重(X)與基礎(chǔ)代謝(Y)數(shù)據(jù)(表10-1)進(jìn)行回歸分析,得到圖11-1所示散點(diǎn)圖(scatterplot)

編號(hào)基礎(chǔ)代謝(kJ/d)體重(kg)編號(hào)基礎(chǔ)代謝(kJ/d)體重(kg)14175.650.783970.648.624435.053.793983.244.633460.237.1105050.158.644020.851.7115355.571.053987.447.8124560.659.764970.662.8134874.462.175359.767.3145029.261.5

在定量描述健康婦女體重(X)與基礎(chǔ)代謝(Y)數(shù)據(jù)的數(shù)量上的依存關(guān)系時(shí),將體重稱為自變量(independentvariable),用X表示;基礎(chǔ)代謝稱為應(yīng)變量(dependentvariable),用Y表示

圖11-114例中年健康婦女基礎(chǔ)代謝與體重的散點(diǎn)圖

由圖11-1可見(jiàn),基礎(chǔ)代謝隨體重的增加而減低且呈直線趨勢(shì),但并非所有點(diǎn)子恰好全都在一直線上,此與兩變量間嚴(yán)格的直線函數(shù)關(guān)系不同,稱為直線回歸(linearregression),其方程叫直線回歸方程,以區(qū)別嚴(yán)格意義的直線方程?;貧w是回歸分析中最基本、最簡(jiǎn)單的一種,故又稱簡(jiǎn)單回歸。

在應(yīng)用中,線性回歸中的自變量還可以精確測(cè)量和嚴(yán)密控制的指標(biāo),但因變量必須是隨機(jī)變化的。如某研究者應(yīng)用單向環(huán)狀免疫擴(kuò)散法,在固定IgG濃度下覺(jué)得瓊脂免疫板上沉淀環(huán)直徑數(shù)據(jù)見(jiàn)表10-2。No.12345IgG(濃度)(IU/ml)12345沉淀環(huán)直徑(mm)Y4.05.56.27.78.5

表11-2IgG濃度與沉淀環(huán)直徑的散點(diǎn)圖

圖11-2IgG濃度與沉淀環(huán)直徑的散點(diǎn)圖樣本線回歸方程

為各X處Y的總體均數(shù)的估計(jì)。簡(jiǎn)單線性回歸模型1.a(chǎn)為回歸直線在Y

軸上的截距a>0,表示直線與縱軸的交點(diǎn)在原點(diǎn)的上方a<0,則交點(diǎn)在原點(diǎn)的下方a=0,則回歸直線通過(guò)原點(diǎn)2.b為回歸系數(shù),即直線的斜率

b>0,直線從左下方走向右上方,Y隨X增大而增大;

b<0,直線從左上方走向右下方,Y隨X增大而減小;

b=0,表示直線與X軸平行,X與Y無(wú)直線關(guān)系b的統(tǒng)計(jì)學(xué)意義是:X

每增加(減)一個(gè)單位,Y

平均改變b個(gè)單位

回歸模型的前提假設(shè)線性回歸模型的前提條件是:線性(linear)獨(dú)立(independent)正態(tài)(normal)等方差(equalvariance)

殘差(residual)或剩余值,即實(shí)測(cè)值Y與假定回歸線上的估計(jì)值的縱向距離。求解a、b實(shí)際上就是“合理地”找到一條能最好地代表數(shù)據(jù)點(diǎn)分布趨勢(shì)的直線。原則:最小二乘法(leastsumofsquares),即可保證各實(shí)測(cè)點(diǎn)至直線的縱向距離的平方和最小回歸參數(shù)的估計(jì)

——最小二乘原則

回歸參數(shù)的估計(jì)方法

本例:n=14

圖11-114例中年健康婦女基礎(chǔ)代謝與體重的散點(diǎn)圖解題步驟3、計(jì)算有關(guān)指標(biāo)的值4、計(jì)算回歸系數(shù)和截距5、列出回歸方程

此直線必然通過(guò)點(diǎn)(,)且與縱坐標(biāo)軸相交于截距a。如果散點(diǎn)圖沒(méi)有從坐標(biāo)系原點(diǎn)開(kāi)始,可在自變量實(shí)測(cè)范圍內(nèi)遠(yuǎn)端取易于讀數(shù)的值代入回歸方程得到一個(gè)點(diǎn)的坐標(biāo),連接此點(diǎn)與點(diǎn)(,)也可繪出回歸直線。繪制回歸直線總體回歸系數(shù)β的的統(tǒng)計(jì)推斷

1、t檢驗(yàn)法對(duì)回歸系數(shù)作檢驗(yàn)

2、回歸方程的假設(shè)檢驗(yàn)

建立樣本直線回歸方程,只是完成了統(tǒng)計(jì)分析中兩變量關(guān)系的統(tǒng)計(jì)描述,研究者還須回答它所來(lái)自的總體的直線回歸關(guān)系是否確實(shí)存在,即是否對(duì)總體有?1.方差分析

Y的離均差,總變異殘差回歸的變異數(shù)理統(tǒng)計(jì)可證明:上式用符號(hào)表示為

式中

上述三個(gè)平方和,各有其相應(yīng)的自由度,并有如下的關(guān)系:

如果兩變量間總體回歸關(guān)系確實(shí)存在,回歸的貢獻(xiàn)就要大于隨機(jī)誤差,大到何種程度時(shí)可以認(rèn)為具有統(tǒng)計(jì)意義,可計(jì)算統(tǒng)計(jì)量F:式中t檢驗(yàn)

(1)方差分析

方差分析表

總體回歸系數(shù)β的的統(tǒng)計(jì)推斷

t檢驗(yàn)法例11-3對(duì)例11-1中的樣本回歸系數(shù)作檢驗(yàn)注意:

總體回歸系數(shù)的可信區(qū)間

利用上述對(duì)回歸系數(shù)的t檢驗(yàn),可以得到β的1-α雙側(cè)可信區(qū)間為

本例b=61.4229,自由度=12,t0.05,12=2.179,Sb=4.8810,代入公式)得參數(shù)β的95%置信區(qū)間為

=(50.79~72.06)第二節(jié)線性回歸的應(yīng)用(估計(jì)和預(yù)測(cè))

反映其抽樣誤差大小的標(biāo)準(zhǔn)誤為例11-1中,第一觀測(cè)值X1=50.7,

165.1311,1144.5771,代入(11.8)式獲得第一觀測(cè)點(diǎn)X1對(duì)應(yīng)的標(biāo)準(zhǔn)誤為Y的總體均數(shù)的95%置信區(qū)間為

以上是給定某一X值時(shí)所對(duì)應(yīng)的總體均數(shù)的置信區(qū)間。當(dāng)同時(shí)考慮X的所有可能取值時(shí),總體均數(shù)的點(diǎn)估計(jì)就是根據(jù)樣本算得的回歸直線(1-α)置信區(qū)間的上下限連起來(lái)形成一個(gè)弧形區(qū)帶,稱為回歸直線的(1-α)置信帶(confidenceband)。同樣,因?yàn)槠錁?biāo)準(zhǔn)誤是X的函數(shù),所以在均數(shù)()點(diǎn)處置信帶寬度最小,越遠(yuǎn)離該均數(shù)點(diǎn),置信帶寬度越大。圖11-4中,左圖顯示位于最小二乘回歸線上下兩側(cè)的兩條弧形虛線為總體回歸線的(1-α)置信區(qū)帶。右圖的實(shí)線表示可能的總體回歸線,它們落在弧形虛線所確定的置信帶內(nèi)。(1-α)置信帶的意義是:在滿足線性回歸的假設(shè)條件下,可以認(rèn)為真實(shí)的回歸直線落在兩條弧形曲線所形成的區(qū)帶內(nèi),置信度為(1-α)圖11-14總體回歸系數(shù)置信區(qū)帶例11-1中,第一觀測(cè)值X1=50.7,

165.1311,1144.5771,代入(11.8)式獲得第一觀測(cè)點(diǎn)X1對(duì)應(yīng)的標(biāo)準(zhǔn)誤為Y95%的預(yù)測(cè)區(qū)間為

PICI圖11-14總體回歸系數(shù)置信區(qū)帶和預(yù)測(cè)帶決定系數(shù)(coefficientofdetermination)

定義為回歸平方和與總平方和之比,計(jì)算公式為:

取值在0到1之間且無(wú)單位,其數(shù)值大小反映了回歸貢獻(xiàn)的相對(duì)程度,也就是在Y的總變異中回歸關(guān)系所能解釋的百分比。

第三節(jié)殘差分析

殘差(residual)是指觀測(cè)值Yi與回歸模型擬合值之差殘差分析(residualanalysis)旨在通過(guò)殘差深入了解數(shù)據(jù)與模型之間的關(guān)系,評(píng)價(jià)實(shí)際資料是否符合回歸模型假設(shè),識(shí)別異常點(diǎn)等。例如,第一數(shù)據(jù)點(diǎn)的殘差e1=4175.6-4220.784=-45.184,如此類推,計(jì)算出各數(shù)據(jù)點(diǎn)的殘差值,將殘差減去其均數(shù),除以其標(biāo)準(zhǔn)差,便得標(biāo)準(zhǔn)化殘差。若以反應(yīng)變量取值Yi為橫坐標(biāo),以標(biāo)準(zhǔn)化殘差為縱坐標(biāo),構(gòu)成的散點(diǎn)圖如圖11-7所示。類似地,也可以自變量取值Xi為橫坐標(biāo),以標(biāo)準(zhǔn)化殘差為縱坐標(biāo),構(gòu)成的散點(diǎn)圖。這類散點(diǎn)圖統(tǒng)稱為標(biāo)準(zhǔn)化殘差圖。

圖11-8給出的是以自變量取值為縱坐標(biāo),以殘差為橫坐標(biāo)的殘差圖的常見(jiàn)類型。其中,圖(e)顯示殘差呈隨機(jī)分布;圖(a)、(b)和(f)表示殘差不滿足方差齊性條件;圖(c)顯示存在非線性關(guān)系;圖(d)顯示有的點(diǎn)處于

2倍標(biāo)準(zhǔn)差以外,可能是異常點(diǎn)。圖11-8不同類型的標(biāo)準(zhǔn)化殘差圖第四節(jié)非線性回歸非線性回歸要比線性回歸更能充分地表達(dá)變量間的關(guān)系。當(dāng)今線性回歸之所以比非線性回歸應(yīng)用甚多,原因在于無(wú)論從數(shù)學(xué)理論還是計(jì)算方法,線性回歸都比非線性回歸模型簡(jiǎn)單得多。通過(guò)自變量的變換實(shí)現(xiàn)線性化實(shí)踐中有兩類非線性關(guān)系,一類是通過(guò)自變量X的適當(dāng)變換可線性化的,另一類是不可能通過(guò)自變量X的變換實(shí)現(xiàn)線性化的X數(shù)據(jù)變換不能線性化的關(guān)系

變換自變量實(shí)現(xiàn)線性回歸步驟

1.將觀測(cè)數(shù)據(jù)(Xi,Yi),i=1,2,…,n作散點(diǎn)圖,觀察散點(diǎn)分布特征類似于何種函數(shù)類型;2.按照所選定的函數(shù)進(jìn)行相應(yīng)的變量變換;3.對(duì)變換后的數(shù)據(jù)用常規(guī)最小二乘法(OLS)作線性模型的參數(shù)估計(jì)。4.一般擬合多個(gè)相近的模型,然后通過(guò)對(duì)各個(gè)模型的擬合優(yōu)度評(píng)價(jià)挑選較為合適的模型。例11-2某研究者用免疫球蛋白A(IgA,ug/ml)的不同濃度做火箭電泳,測(cè)得電泳高度(nm)如表11-4所示。欲用合適的回歸模型描述火箭高度隨IgA濃度的變化規(guī)律

IgA(μg/ml)火箭電泳高度(nm)X*=lnX0.27.6-1.60940.412.3-0.91630.615.7-0.51080.818.2-0.22311.018.70.00001.221.40.18231.422.60.33651.623.80.4700表11-4免疫球蛋白A不同濃度下的火箭電泳高度由結(jié)果可見(jiàn):在所擬合的三種模型中,以x對(duì)數(shù)函數(shù)回歸的效果最佳,該模型擬合的殘差均方最小,決定系數(shù)最大模型名稱回歸方程F值P值R2值簡(jiǎn)單線性92.440.0000.939對(duì)數(shù)函數(shù)763.500.000.992二次函數(shù)185.170.0000.987值得一提的是,本節(jié)只涉及對(duì)自變量X進(jìn)行變換,然后以變換后的數(shù)據(jù)用標(biāo)準(zhǔn)最小二乘(OLS)法求解模型的參數(shù)估計(jì)與模型評(píng)價(jià)。當(dāng)涉及到對(duì)反應(yīng)變量y實(shí)施非線性變換[如Z=ln(Y)]時(shí),因?yàn)镺LS只保證變換后的Z,即ln(Y)的殘差平方和最小,并不能保證原變量Y的殘差平方和也最小,所以在此情況下,我們建議用統(tǒng)計(jì)軟件來(lái)完成非線性擬合,例如,用SAS系統(tǒng)中的PROCNLIN程序產(chǎn)生非線性模型參數(shù)的最小二乘估計(jì)。

直線回歸應(yīng)用的注意事項(xiàng)直線回歸用于定量刻畫(huà)應(yīng)變量Y對(duì)自變量X在數(shù)值上的依存關(guān)系,其中應(yīng)變量的定奪主要依專業(yè)要求而定,可以考慮把易于精確測(cè)量的變量作為X,另一個(gè)隨機(jī)變量作Y,例如用身高估計(jì)體表面積。兩個(gè)變量的選擇一定要結(jié)合專業(yè)背景,不能把毫無(wú)關(guān)聯(lián)的兩

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論