雙變量回歸與相關(guān)ppt_第1頁(yè)
雙變量回歸與相關(guān)ppt_第2頁(yè)
雙變量回歸與相關(guān)ppt_第3頁(yè)
雙變量回歸與相關(guān)ppt_第4頁(yè)
雙變量回歸與相關(guān)ppt_第5頁(yè)
已閱讀5頁(yè),還剩97頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、1021第九章雙變量回歸與相關(guān)1022雙變量計(jì)量資料:雙變量計(jì)量資料:每個(gè)個(gè)體有兩個(gè)變量值每個(gè)個(gè)體有兩個(gè)變量值 總體:總體:無(wú)限或有限對(duì)變量值無(wú)限或有限對(duì)變量值 樣本:樣本:從總體隨機(jī)抽取的從總體隨機(jī)抽取的n n對(duì)變量值對(duì)變量值 (X1,Y1), (X2,Y2), , (Xn,Yn) 目的:目的:研究研究X X和和Y Y的數(shù)量關(guān)系的數(shù)量關(guān)系 方法:方法:回歸與相關(guān)回歸與相關(guān) 簡(jiǎn)單、基本簡(jiǎn)單、基本直線回歸、直線相關(guān)直線回歸、直線相關(guān)1023 ContentContent 1. Linear regression 1. Linear regression 2. Linear correlation

2、 2. Linear correlation 3. Rank correlation 3. Rank correlation 4. Curve fitting 4. Curve fitting 1024 十九世紀(jì)英國(guó)人類學(xué)家 F.Galton首次在自然遺傳一書中,提出并闡明了“相關(guān)”和“相關(guān)系數(shù)”兩個(gè)概念,為相關(guān)論奠定了基礎(chǔ)。其后,他和英國(guó)統(tǒng)計(jì)學(xué)家 Karl Pearson對(duì)上千個(gè)家庭的身高、臂長(zhǎng)、拃長(zhǎng)(伸開大拇指與中指兩端的最大長(zhǎng)度)做了測(cè)量,發(fā)現(xiàn)發(fā)現(xiàn):歷史背景:1025 兒子身高(Y,英寸)與父親身高(X,英寸)存在線性關(guān)系: 即高個(gè)子父代的子代在成年之后的身高平均來說不是更高,而是稍矮于

3、其父代水平,而矮個(gè)子父代的子代的平均身高不是更矮,而是稍高于其父代水平。Galton將這種趨向于種族穩(wěn)定的現(xiàn)象稱之“回歸”。33.73 0.516YX1026 目前,“回歸”已成為表示變量之間某種數(shù)量依存關(guān)系的統(tǒng)計(jì)學(xué)術(shù)語(yǔ),并且衍生出“回歸方程”“回歸系數(shù)”等統(tǒng)計(jì)學(xué)概念。如研究糖尿病人血糖與其胰島素水平的關(guān)系,研究?jī)和挲g與體重的關(guān)系等。1027第一節(jié) 直線回歸1028一、直線回歸的概念 目的:目的:研究應(yīng)變量研究應(yīng)變量Y對(duì)自變量對(duì)自變量X的數(shù)量依的數(shù)量依 存關(guān)系。存關(guān)系。特點(diǎn):特點(diǎn):統(tǒng)計(jì)關(guān)系。統(tǒng)計(jì)關(guān)系。 X值和值和Y的均數(shù)的關(guān)系,的均數(shù)的關(guān)系, 不同于一般數(shù)學(xué)上的不同于一般數(shù)學(xué)上的X 和和Y的

4、函數(shù)的函數(shù) 關(guān)系。關(guān)系。1029 例9-1 某地方病研究所調(diào)查了8名正常兒童的尿肌酐含量(mmol/24h)如表9-1。估計(jì)尿肌酐含量(Y)對(duì)其年齡(X)的回歸方程。10210 表表9-1 8名正常兒童的年齡名正常兒童的年齡 (歲)與尿肌酐含量(歲)與尿肌酐含量 (mmol/24h) XY編 號(hào) 1 2 3 4 5 6 7 8 年齡 X 13 11 9 6 8 10 12 7 尿肌酐含量Y 3.54 3.01 3.09 2.48 2.56 3.36 3.18 2.65 1021110212 在定量描述兒童年齡與其尿肌酐含量數(shù)量上的依存關(guān)系時(shí),將年齡稱為自變量(independent varia

5、ble),用 X 表示;尿肌酐含量稱為應(yīng)變量(dependent variable),用 Y 表示。10213 由圖9-1可見,尿肌酐含量 Y 隨年齡 X 增加而增大且呈直線趨勢(shì),但并非8個(gè)點(diǎn)子恰好全都在一直線上,此與兩變量間嚴(yán)格的直線函數(shù)關(guān)系不同,稱為直線回歸(linear regression),其方程叫其方程叫直線回歸方程直線回歸方程,以區(qū)別嚴(yán)格意義的直線方程。以區(qū)別嚴(yán)格意義的直線方程。 雙變量雙變量直線直線回歸回歸是回歸分析中最基本、最簡(jiǎn)單的是回歸分析中最基本、最簡(jiǎn)單的一種,故又稱一種,故又稱簡(jiǎn)單回歸簡(jiǎn)單回歸。10214 (9 1)YabX直線回歸方程的一般表達(dá)式為直線回歸方程的一般表

6、達(dá)式為 Y 為各X處Y的總體均數(shù)的估計(jì)。102151a 為回歸直線在為回歸直線在 Y 軸上的截距。軸上的截距。a 0,表示直線與,表示直線與縱軸的交點(diǎn)在原點(diǎn)的縱軸的交點(diǎn)在原點(diǎn)的上方;上方;a 0,則交點(diǎn)在原,則交點(diǎn)在原點(diǎn)的下方;點(diǎn)的下方;a = 0,則回歸直線,則回歸直線通過原點(diǎn)。通過原點(diǎn)。0a = 0a 0XY10216b0,直線從左下方走向,直線從左下方走向右上方,右上方,Y 隨隨 X 增大而增大而增大;增大; b0b0b=010217公式(9-1)稱為樣本回歸方程,它是對(duì)兩變量總體間線性關(guān)系的一個(gè)估計(jì)。根據(jù)散點(diǎn)圖我們可以假定, 對(duì)于X各個(gè)取值,相應(yīng)Y的總體均數(shù)|Y X在一條直線上(圖 9

7、-2) ,表示為 | (92) Y XX1021810219二、直線回歸方程的求法 殘差(residual)或剩余值,即實(shí)測(cè)值Y與假定回歸線上的 估 計(jì) 值 的 縱 向 距離 。求解a、b實(shí)際上就是“合理地”找到一條能最好地代表數(shù)據(jù)點(diǎn)分布趨勢(shì)的直線。YYY原則:最小二乘法(least sum of squares),即可保證各實(shí)測(cè)點(diǎn)至直線的縱向距離的平方和最?。╔,Y)10220式式 中中X Yl為為X 與與Y 的的 離離 均均 差差 乘乘 積積 和和 : ()()()() (9 5)XYlX X Y YXYXYn 2()()()XYXXXXYYlblXX (9-3) (9-4) aYbX10

8、221除了圖中所示兩變量呈直線關(guān)系外,一般還假定每個(gè)X對(duì)應(yīng)Y的總體為正態(tài)分布,各個(gè)正態(tài)分布的總體方差相等且各次觀測(cè)相互獨(dú)立。這樣,公式(9-1)中的Y實(shí)際上是X所對(duì)應(yīng)Y的總體均數(shù)|Y X的一個(gè)樣本估計(jì)值, 稱為回歸方程的預(yù)測(cè)值(predicted value),而a、b分別為和的樣本估計(jì)。 10222 例9-1 某地方病研究所調(diào)查了8名正常兒童的尿肌酐含量(mmol/24h)如表9-1。估計(jì)尿肌酐含量(Y)對(duì)其年齡(X)的回歸方程。10223 表表9-1 8名正常兒童的年齡名正常兒童的年齡 (歲)與尿肌酐含量(歲)與尿肌酐含量 (mmol/24h) XY編 號(hào) 1 2 3 4 5 6 7 8

9、年齡 X 13 11 9 6 8 10 12 7 尿肌酐含量Y 3.54 3.01 3.09 2.48 2.56 3.36 3.18 2.65 102241由原始數(shù)據(jù)及散點(diǎn)圖(圖 9-1)的觀察,兩變量間呈直線趨勢(shì),故作下列計(jì)算。 2計(jì)算X、Y的均數(shù)X、Y,離均差平方和XXl、YYl與離均差積和XYl。 解題步驟102253計(jì)算有關(guān)指標(biāo) 769.58XXn 23.872.98388YYn 222()(76)764428XXXlXn 222()(23.87)72.26831.04628YYYlYn ()()(76)(23.87)232.615.84508XYXYlXYn 1022610227 此

10、直線必然通過點(diǎn)此直線必然通過點(diǎn)( , )( , )且與縱坐標(biāo)軸且與縱坐標(biāo)軸相交于截距相交于截距 a a 。如果散點(diǎn)圖沒有從坐標(biāo)系原。如果散點(diǎn)圖沒有從坐標(biāo)系原點(diǎn)開始,可在自變量實(shí)測(cè)范圍內(nèi)遠(yuǎn)端取易于讀點(diǎn)開始,可在自變量實(shí)測(cè)范圍內(nèi)遠(yuǎn)端取易于讀數(shù)的數(shù)的 X X 值代入回歸方程得到一個(gè)點(diǎn)的坐標(biāo),值代入回歸方程得到一個(gè)點(diǎn)的坐標(biāo),連接此點(diǎn)與點(diǎn)連接此點(diǎn)與點(diǎn)( , )( , )也可繪出回歸直線。也可繪出回歸直線。 XYXY1022810229三、直線回歸中的統(tǒng)計(jì)推斷10230(一)回歸方程的假設(shè)檢驗(yàn) 建立樣本直線回歸方程,只是完成了統(tǒng)計(jì)分析中兩變量關(guān)系的統(tǒng)計(jì)描述,研究者還須回答它所來自的總體的直線回歸關(guān)系是否確

11、實(shí)存在,即是否對(duì)總體有 ?01023110232如 圖 9-3 中 , 無(wú) 論X如 何 取 值 ,|Y X總 在 一 條水 平 線 上 , 即0, 總 體 直 線 回 歸 方 程 并 不 成 立 ,意 即Y與X無(wú) 直 線 關(guān) 系 , 此 時(shí)|Y XY。 然 而 在 一次 隨 機(jī) 抽 樣 中 ,如 果 所 得 樣 本 為 實(shí) 心 園 點(diǎn) 所 示 ,則會(huì) 得 到 一 個(gè) 并 不 等 于0 的 樣 本 回 歸 系 數(shù)b。b與0相 差 到 多 大 可 以 認(rèn) 為 具 有 統(tǒng) 計(jì) 學(xué) 意 義 ? 可 用 方 差分 析 或 與 其 等 價(jià) 的 t 檢 驗(yàn) 來 回 答 這 一 問 題 。 10233 理 解

12、 回 歸 中 方 差 分 析 的 基 本 思 想 ,需 要 對(duì) 應(yīng) 變 量Y的 離 均 差 平 方 和YYl作 分解 ( 如 圖 9-4 所 示 ) 。 1方差分析 10234(X,Y)10235數(shù)理統(tǒng)計(jì)可證明:222)()()(YYYYYY10236SSSSSS總回殘 (9-6) 上式用符號(hào)表示為 式中 10237Y10238SS殘即2)(YY, 為 殘 差 平 方 和 。 它 反 應(yīng) 除了X對(duì)Y的 線 性 影 響 之 外 的 一 切 因 素 對(duì)Y的 變異 的 作 用 , 也 就 是 在 總 平 方 和 中 無(wú) 法 用X解 釋的 部 分 ,表 示 考 慮 回 歸 之 后Y真 正 的 隨 機(jī)

13、誤 差 。在 散 點(diǎn) 圖 中 ,各 實(shí) 測(cè) 點(diǎn) 離 回 歸 直 線 越 近 ,SS殘也就 越 小 , 說 明 直 線 回 歸 的 估 計(jì) 誤 差 越 小 , 回 歸的 作 用 越 明 顯 。 上述三個(gè)平方和,各有其相應(yīng)的自由度 ,并有如下的關(guān)系: 總回殘,1n總,1回,2n殘 (9-7) 10239以上分解可見,不考慮回歸時(shí),隨機(jī)誤差是 Y 的總變異總SS;而考慮回歸以后,由于回歸的貢獻(xiàn)使原來的隨機(jī)誤差減小為SS殘。 如果兩變量間總體回歸關(guān)系確實(shí)存在,回歸的貢獻(xiàn)就要大于隨機(jī)誤差,大到何種程度時(shí)可以認(rèn)為具有統(tǒng)計(jì)意義,可計(jì)算統(tǒng)計(jì)量 F10240MS回為回歸均方 MS殘為殘差均方。 F服從自由度為

14、回殘、的F分布。 式中22XYXYXXXXSSblllb l回 (9-9) SSMSFSSMS回回回殘殘殘, 1 2n回殘, (9-8) 102412. t 檢驗(yàn)10242 例9-2 檢驗(yàn)例9-1數(shù)據(jù)得到的直線回歸方程是否成立? 10243(1)方差分析0H: 0,即尿肌酐含量與年齡之間無(wú)直線關(guān)系 1H: 0,即尿肌酐含量與年齡之間有直線關(guān)系 0.05 225.845 /420.8134XYXXSSll回 1.04620.81340.2328SSSSSS總回殘 10244變異來源 自由度 SS MS F P 總 變 異 7 1.0462 回 歸 1 0.8134 0.8134 20.97 0.

15、01 殘 差 6 0.2328 0.0388 表9-2 方差分析表 列出方差分析表如表9-2。11、26,查F界值表,得0.01P 。按0.05水準(zhǔn)拒絕0H,接受1H,可以認(rèn)為尿肌酐含量與年齡之間有直線關(guān)系。 10245(2)t 檢驗(yàn)0H、1H 及同上 本例8n ,SS殘0.2328,XXl42,b0.1392 按公式(9-10)、(9-11)和(9-12) 0.23280.197082Y XS,0.19700.030442bS 6,查t界值表,得0.0020.005P。按0.05水準(zhǔn),拒絕0H,接受1H,結(jié)論同上。 0.13924.5790.0304t 10246注意:本例20.974.57

16、9Ft,即直線回歸中對(duì)回歸系數(shù)的t檢驗(yàn)與F檢驗(yàn)等價(jià),類似于兩樣本均數(shù)比較可以作t檢驗(yàn)亦可作方差分析。 10247(二)總體回歸系數(shù) 的可信區(qū)間 利用上述對(duì)回歸系數(shù)的t檢驗(yàn),可以得到的1雙側(cè)可信區(qū)間為/2,bbts (9-13) 10248 例9-3 根據(jù)例9-1中所得b=0.1392,估計(jì)其總體回歸系數(shù)的雙側(cè)95%可信區(qū)間。10249例 9-2 已算得=0.0304bS,按自由度6, 查t界值表,得到0.05/2,62.447t,按公式(9-13) 計(jì)算的 95%可信區(qū)間: (0.1392-2.4470.0304,0.1392+2.4470.0304)=(0.0648,0.2136)注意到此區(qū)

17、間不包括 0,可按0.05 水準(zhǔn)同樣得到總體回歸系數(shù)不為 0 的結(jié)論, 即用區(qū)間估計(jì)回答相同時(shí)的假設(shè)檢驗(yàn)問題。 10250(三)利用回歸方程進(jìn)行估計(jì)和預(yù)測(cè) 1總體均數(shù)|Y X的可信區(qū)間 給定X的數(shù)值0X,由樣本回歸方程算出的0Y只是相應(yīng)總體均數(shù)0|Y X的一個(gè)點(diǎn)估計(jì)。0Y會(huì)因樣本而異, 存在抽樣誤差。 10251給定0XX時(shí),總體均數(shù)0|Y X的(1)可信區(qū)間為 00/2,YYtS(9-15) (9-14) 反映其抽樣誤差大小的標(biāo)準(zhǔn)誤為0202()1()Y XYXXSSnXX102522個(gè)體Y值的預(yù)測(cè)區(qū)間 所謂預(yù)測(cè)就是把預(yù)報(bào)因子(自變量 X)代入回歸方程對(duì)總體中預(yù)報(bào)量(應(yīng)變量 Y)的個(gè)體值進(jìn)行

18、估計(jì)。給定 X 的數(shù)值0X, 對(duì)應(yīng)的個(gè)體 Y 值也存在一個(gè)波動(dòng)范圍。 其標(biāo)準(zhǔn)差0YS(注意勿與樣本觀察值 Y 的標(biāo)準(zhǔn)差相混)按公式(9-16)計(jì)算 (9-16) 00/2,YYtS(9-17) 0202()11()YY XXXSSnXX10253兩條實(shí)曲線總體均數(shù)的可信區(qū)間;兩條虛曲線個(gè)體Y值的預(yù)測(cè)區(qū)間,范圍更寬。二者都是中間窄,兩頭寬;都在X= 處最窄。X10254 例9-4 用例9-1所得直線回歸方程,計(jì)算當(dāng)X0=12時(shí), 的95%可信區(qū)間和相應(yīng)個(gè)體值的95%預(yù)測(cè)區(qū)間。0Y X10255計(jì)算步驟例9-1、例9-2已計(jì)算出 1.66170.1392, 9.5, 42, 0.1970XXY X

19、YX XlS 當(dāng)012X 時(shí),1.66170.1392 123.3321Y 。 按公式(9-14)和(9-16) 021(129.5)0.19700.1031842YS021(129.5)0.1970 10.2223842YS10256已查得0.05/2,62.447t,代入公式(9-15) , 故012X 時(shí)尿肌酐含量總體均數(shù)的 95%可信區(qū)間為 (3.3321-2.4470.1031,3.3321+2.4470.1031) =(3.080,3.584) 代入公式(9-17) ,012X 時(shí)尿肌酐含量個(gè)體值的 95%預(yù)測(cè)區(qū)間為 (3.3321-2.4470.2223,3.3321+2.447

20、0.2223) =(2.788,3.876) 10257第二節(jié) 直線相關(guān)10258 直線相關(guān)(linear correlation)又稱簡(jiǎn)單相關(guān)(simple correlation),用于雙變量正態(tài)分布(bivariate normal distribution)資料。其性質(zhì)可由圖9-6散點(diǎn)圖直觀的說明。 目的:研究 兩個(gè)變量X,Y數(shù)量上的依存(或相關(guān)) 關(guān)系。 特點(diǎn):統(tǒng)計(jì)關(guān)系一、直線相關(guān)的概念10259二、相關(guān)系數(shù)的意義與計(jì)算 1. 意義:相關(guān)系數(shù)意義:相關(guān)系數(shù)(correlation coefficient)又)又稱稱Pearson積差相關(guān)系數(shù),用來說明具有直線關(guān)系的積差相關(guān)系數(shù),用來說

21、明具有直線關(guān)系的兩變量間相關(guān)的密切程度與相關(guān)方向。兩變量間相關(guān)的密切程度與相關(guān)方向。以符號(hào)r表示樣本相關(guān)系數(shù), 符號(hào)表示其總體相關(guān)系數(shù)。 相關(guān)系數(shù)沒有單位,其值為相關(guān)系數(shù)沒有單位,其值為-1 -1 r r 1 1。r r值為正值為正表示正相關(guān),表示正相關(guān),r r值為負(fù)表示負(fù)相關(guān),值為負(fù)表示負(fù)相關(guān),r r的絕對(duì)值等的絕對(duì)值等于于1 1為完全相關(guān),為完全相關(guān),r r=0=0為零相關(guān)。為零相關(guān)。 10260102612. 計(jì)算:樣本相關(guān)系數(shù)的計(jì)算公式為22()()()()XYXX YYXX YYlrllXXYY(9-18) 10262由例9-1算得,42XXl,1.046YYl,5.845XYl 按

22、公式(9-18) 5.8450.881842 1.046r 例9-5 對(duì)例9-1數(shù)據(jù)(見表9-1),計(jì)算8名兒童的尿肌酐含量與其年齡的相關(guān)系數(shù)。10263三、相關(guān)系數(shù)的統(tǒng)計(jì)推斷(一)相關(guān)系數(shù)的假設(shè)檢驗(yàn)20, 212rrrtnSrn(9-19)10264 例9-6 對(duì)例9-5所得 r 值,檢驗(yàn)?zāi)蚣◆颗c年齡是否有直線相關(guān)關(guān)系?10265檢驗(yàn)步驟0H: 0,1H: 0,=0.05 本例n=8,r=0.8818,按公式(9-19)20.88184.57910.881882t 按6,查 t 界值表,得0.0020.005P。按0.05水準(zhǔn)拒絕0H,接受1H,可以認(rèn)為尿肌酐含量與年齡之間有正的直線相關(guān)

23、關(guān)系。 若直接查 r 界值表(附表 13, P538),結(jié)論相同。 10266(二)總體相關(guān)系數(shù)的可信區(qū)間 由于相關(guān)系數(shù)的抽樣分布在不等于零時(shí)呈偏態(tài)分布(大樣本情況下亦如此) , 所以的可信區(qū)間需要先將其進(jìn)行某種變量變換, 使之服從正態(tài)分布, 然后再估計(jì)其可信區(qū)間。 10267具體步驟如下1首先對(duì) r 作如下 z 變換 1tanhzr 或 1(1)ln2(1)rzr (9-20) 式中 tanh 為雙曲正切函數(shù),tanh-1為反雙曲正切函數(shù) 2按下式根據(jù)正態(tài)近似原理計(jì)算 z 的1可信區(qū)間 /2/2(3,3zunzun),縮寫為 /23zun (9-21) 3對(duì)上一步計(jì)算出的 z 的上下限作如下

24、變換,得到 r 的1 可信區(qū)間 tanh( )rz 或 1122zzeer (9-22) 10268按公式(9-20)1tanh0.88181.3838z 按公式(9-21)z 的 95%可信區(qū)間為 (1.3838-1.96/83,1.3838+1.96/83) =(0.5073,3.2749) 例9-7 對(duì)例9-5所得r值,估計(jì)總體相關(guān)系數(shù)的95%可信區(qū)間。 再按公式(9-22)將z作反變換,得到年齡與尿肌酐含量的總體相關(guān)系數(shù)95%可信區(qū)間為(0.4678,0.9971)。 10269四、決定系數(shù)(coefficient of determination) 定義為回歸平方和與總平方和之比,計(jì)

25、算公式為:222XYXXXYYYXX YYSSlllRSSlll回總(9-23) 取值在0到1之間且無(wú)單位,其數(shù)值大小反映了回歸貢獻(xiàn)的相對(duì)程度,也就是在Y的總變異中回歸關(guān)系所能解釋的百分比。 2R10270公式(9-23)說明當(dāng)總SS固定不變時(shí),回歸平方和的大小決定了相關(guān)系數(shù) r 絕對(duì)值的大小?;貧w平方和越接近總平方和, 則 r 絕對(duì)值越接近 1, 說明相關(guān)的實(shí)際效果越好。 例9-5中8名兒童的年齡與其尿肌酐含量之間直線相關(guān)系數(shù) r=0.8818,得到2R=0.7775,表示此例中年齡可解釋尿肌酐含量變異性的 77.75,另外約 22的變異不能用年齡來解釋。 10271五、直線回歸與相關(guān)應(yīng)用的

26、注意事項(xiàng)10272 1根據(jù)分析目的選擇變量及統(tǒng)計(jì)方法 直線相關(guān)用于說明兩變量之間直線關(guān)系的方向和密切程度,X與Y沒有主次之分; 直線回歸則進(jìn)一步地用于定量刻畫應(yīng)變量Y對(duì)自變量X在數(shù)值上的依存關(guān)系,其中應(yīng)變量的定奪主要依專業(yè)要求而定,可以考慮把易于精確測(cè)量的變量作為X,另一個(gè)隨機(jī)變量作Y,例如用身高估計(jì)體表面積。 兩個(gè)變量的選擇一定要結(jié)合專業(yè)背景,不能把毫無(wú)關(guān)聯(lián)的兩種現(xiàn)象勉強(qiáng)作回歸或相關(guān)分析。10273102742進(jìn)行相關(guān)、回歸分析前應(yīng)繪制散點(diǎn)圖第一步(1) 散點(diǎn)圖可考察兩變量是否有直線趨勢(shì);(2) 可發(fā)現(xiàn)離群點(diǎn)(outlier)。 散點(diǎn)圖對(duì)離群點(diǎn)的識(shí)別與處理需要從專業(yè)知識(shí)和現(xiàn)有數(shù)據(jù)兩方面來考慮

27、,結(jié)果可能是現(xiàn)有回歸模型的假設(shè)錯(cuò)誤需要改變模型形式,也可能是抽樣誤差造成的一次偶然結(jié)果甚至過失誤差。需要認(rèn)真核對(duì)原始數(shù)據(jù)并檢查其產(chǎn)生過程認(rèn)定是過失誤差,或者通過重復(fù)測(cè)定確定是抽樣誤差造成的偶然結(jié)果,才可以謹(jǐn)慎地剔除或采用其它估計(jì)方法。102753資料的要求 直線相關(guān)分析要求 X與Y 服從雙變量正態(tài)分布; 直線回歸要求至少對(duì)于每個(gè) X 相應(yīng)的 Y 要服從正態(tài)分布,X可以是服從正態(tài)分布的隨機(jī)變量也可以是能精確測(cè)量和嚴(yán)格控制的非隨機(jī)變量; * 對(duì)于雙變量正態(tài)分布資料,根據(jù)研究目的可選擇由 X 估計(jì) Y 或者由 Y 估計(jì) X ,一般情況下兩個(gè)回歸方程不相同)。10276 反應(yīng)兩變量關(guān)系密切程度或數(shù)量上

28、影響大小的統(tǒng)計(jì)量應(yīng)該是回歸系數(shù)或相關(guān)系數(shù)的絕對(duì)值,而不是假設(shè)檢驗(yàn)的P值。 P值越小只能說越有理由認(rèn)為變量間的直線關(guān)系存在,而不能說關(guān)系越密切或越“顯著”。另外,直線回歸用于預(yù)測(cè)時(shí),其適用范圍一般不應(yīng)超出樣本中自變量的取值范圍。4結(jié)果解釋及正確應(yīng)用 10277第三節(jié) 秩相關(guān)(非參數(shù)統(tǒng)計(jì)方法) 10278適用條件: 雙變量計(jì)量資料:雙變量計(jì)量資料: 資料不服從雙變量態(tài)分布; 總體分布型未知,一端或兩端是不確定數(shù)值(如10歲,65歲)的資料;原始數(shù)據(jù)(一個(gè)或兩個(gè)變量值)用等級(jí)表原始數(shù)據(jù)(一個(gè)或兩個(gè)變量值)用等級(jí)表示的資料。示的資料。10279一、Spearman秩相關(guān) 1. 意義:等級(jí)相關(guān)系數(shù) rs

29、 用來說明兩個(gè)變量間直線相關(guān)關(guān)系的密切程度與相關(guān)方向。102803. 計(jì)算公式 ) 1(6122nndrs(9-25) 1nrus (9-26) 10281例 9-8 某省調(diào)查了 1995 年到 1999 年當(dāng)?shù)鼐用?18 類死因的構(gòu)成以及每種死因?qū)е碌臐撛诠ぷ鲹p失年數(shù) WYPLL 的構(gòu)成, 結(jié)果見表 9-3。以死因構(gòu)成為 X,WYPLL 構(gòu)成為 Y,作等級(jí)相關(guān)分析。 10282表9-3 某省1995年到1999年居民死因構(gòu)成與WYPLL構(gòu)成10283檢驗(yàn)步驟0H: 0s,即死因構(gòu)成和 WYPLL 構(gòu)成之間無(wú)直線相關(guān)關(guān)系 1H: 0s,即死因構(gòu)成和 WYPLL 構(gòu)成之間有直線相關(guān)關(guān)系 0.05

30、 36(92)10.9051818sr 本例18n =,查附表 14 的 rs界值表(P539) , 得 P0.01。按0.05水準(zhǔn)拒絕0H,接受1H, 可認(rèn)為當(dāng)?shù)鼐用袼酪虻臉?gòu)成和各種死因?qū)?致的潛在工作損失年數(shù) WYPLL 的構(gòu)成存 在正相關(guān)關(guān)系。 10284二、相同秩較多時(shí) rs 的校正對(duì)X與Y分別排秩時(shí), 若相同秩較多, 宜用公式(9-27)計(jì)算校正sr 3233() 6()() 62() 62XYsXYnnTTdrnnTnnT公式中Tx(或TY)(t3t)/12,t為X(或Y)中相同秩的個(gè)數(shù)。顯然當(dāng)TxTY0時(shí),公式(9-27)與公式(9-25)相等。 (9-27) 10285、 22()()()()XYXX YYXX YYlrllXXYY(9-18)PiXQiY10286第六節(jié) 曲線擬合 (curve fitting)10287 醫(yī)學(xué)現(xiàn)象中并非所有的兩變量間關(guān)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論