卡方檢驗(yàn)與方差分析

上傳人：卓*** IP屬地：廣東上傳時間：2023-05-25 格式：PPT 頁數(shù)：62 大?。?.45MB 積分：18 舉報 版權(quán)申訴

已閱讀5頁，還剩57頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

卡方檢驗(yàn)與方差分析第一頁，共六十二頁，編輯于2023年，星期五第一節(jié)擬合優(yōu)度檢驗(yàn)運(yùn)用Z檢驗(yàn)、t檢驗(yàn)等討論假設(shè)檢驗(yàn)的問題，一般要求總體服從正態(tài)分布，或者在大樣本條件下可以利用漸近正態(tài)分布理論來描述抽樣分布。也就是說，我們都要直接或間接地假定對象總體具有已知的分布形式，然后對總體的未知參數(shù)進(jìn)行假設(shè)檢驗(yàn)。如果不知道總體的分布形式，就無法運(yùn)用t檢驗(yàn)法等對總體參數(shù)進(jìn)行假設(shè)檢驗(yàn)。于是，這里有一個前面留下來的尚未討論的問題很重要，就是怎樣檢定總體是否具有正態(tài)或其他分布形式？擬合優(yōu)度檢驗(yàn)正是就這一問題而言的檢驗(yàn)方法。第二頁，共六十二頁，編輯于2023年，星期五第十一章最后一節(jié)，我們將累計(jì)頻數(shù)檢驗(yàn)用于經(jīng)驗(yàn)分布與理論分布的比較，實(shí)際已經(jīng)提供了擬合優(yōu)度檢驗(yàn)的一種方法。擬合優(yōu)度檢驗(yàn)與累計(jì)頻數(shù)擬合優(yōu)度檢驗(yàn)相對應(yīng)，在評估從經(jīng)驗(yàn)上得到的頻數(shù)和在一組特定的理論假設(shè)下期望得到的頻數(shù)之間是否存在顯著差異時，是一種更普遍的檢驗(yàn)方法?，F(xiàn)在我們再來看看第七章提到的著名的孟德爾豌豆試驗(yàn)。根據(jù)孟德爾提出的分離規(guī)律，純種豌豆雜交后的子二代出現(xiàn)分化，紅花植株與白花植株的數(shù)目應(yīng)為3∶1。但由于隨機(jī)性,觀察結(jié)果與3∶1理論值總有些差距。因此有必要去考察某一大小的差距是否已構(gòu)成否定3∶l理論的充分根據(jù)。這正是我們所討論的擬合優(yōu)度檢驗(yàn)的問題。解決這類問題的工具，是卡·皮爾遜在1900年發(fā)表的一篇文章中引進(jìn)的所謂檢驗(yàn)法。

1．問題的導(dǎo)出第三頁，共六十二頁，編輯于2023年，星期五首先把問題表述成一般模式。設(shè)一總體包含c種可區(qū)別的個體。根據(jù)某種理論或純粹的假設(shè)，第i

種個體出現(xiàn)的概率應(yīng)為某個已知的數(shù)Pi

(i＝1，2，…，c),有Pi

＞0，＝1。這一組概率(P1

，P2

，…，Pc)就構(gòu)成了我們的理論分布?，F(xiàn)在在該總體中隨機(jī)地抽取一個容量為n的樣本，發(fā)現(xiàn)其中第i

種個體的數(shù)目為fi(i

＝1，2，…，c)，并有＝n。我們要據(jù)此檢驗(yàn)理論分布。用概率論的語言可以這樣說，設(shè)對象總體中隨機(jī)變量X有c種取值。當(dāng)X的取值是xi時，按零假設(shè)，其總體分布等于理論分布，即P()＝Pi

(i＝1，2，…，c)

例如，就孟德爾的3∶1理論來說，c

＝2，P(x1)＝3/4，P(x2)＝1/4?，F(xiàn)在從該總體中隨機(jī)地抽取一個容量為n的樣本，發(fā)現(xiàn)其中xi(i＝1，2…，c)出現(xiàn)的次數(shù)為fi(i

＝1，2，…，c)，并有＝n。知道了頻數(shù)也就知道了頻率，即：出現(xiàn)的頻率為，并有＝1。

現(xiàn)在我們就是要據(jù)此經(jīng)驗(yàn)分布來檢驗(yàn)總體分布等于理論分布的零假設(shè)。2．?dāng)M合優(yōu)度檢驗(yàn)(比率擬合檢驗(yàn))第四頁，共六十二頁，編輯于2023年，星期五擬合優(yōu)度檢驗(yàn)如何進(jìn)行?

關(guān)鍵是確定合適的檢驗(yàn)統(tǒng)計(jì)量以及該統(tǒng)計(jì)量所服從的概率分布。這里不可避免地要引進(jìn)某種人為因素，即人們設(shè)計(jì)出下面這樣的綜合性可比指標(biāo)：

其中k1，k2，…，kc是適當(dāng)選取的常數(shù)。仔細(xì)觀察不難發(fā)現(xiàn)，L值大，意味著經(jīng)驗(yàn)分布與理論分布偏離大；L值小，意味著經(jīng)驗(yàn)分布與理論分布偏離小。當(dāng)在某個選定的水平上，經(jīng)驗(yàn)分布顯著偏離理論分布，那么對象總體具有某種分布形式的零假設(shè)便被否定。第五頁，共六十二頁，編輯于2023年，星期五第六頁，共六十二頁，編輯于2023年，星期五結(jié)論：用作為檢定Ho成立的檢驗(yàn)統(tǒng)計(jì)量，理論證明，當(dāng)n足夠大

時，該統(tǒng)計(jì)量服從分布，它是一種具有已知的并制成表的概率

分布，因此對給定的顯著性水平α，可求得臨界值，與比

較，進(jìn)而作出檢驗(yàn)結(jié)論。顯而易見，理論頻數(shù)fe與觀測頻數(shù)fo越接近，統(tǒng)計(jì)值越小，經(jīng)驗(yàn)分布與理論分布擬合程度越好。反之，fe與fo差距越大，值越大，經(jīng)驗(yàn)分布與理論分布擬合程度越差，擬合優(yōu)度檢驗(yàn)由此得名。第七頁，共六十二頁，編輯于2023年，星期五[例]孟德爾遺傳定律表明：在純種紅花豌豆與白花豌豆雜交后所生的子二代豌豆中，紅花對白花之比為3：1。某次種植試驗(yàn)的結(jié)果為；紅花豌豆176株，白花豌豆48株。試在α＝0．05的顯著性水平上，對孟德爾定律作擬合優(yōu)度檢驗(yàn)。（參見下表）應(yīng)用舉例第八頁，共六十二頁，編輯于2023年，星期五第九頁，共六十二頁，編輯于2023年，星期五

3．正態(tài)擬合檢驗(yàn)[例]試對下表所給男青年身高分布的數(shù)據(jù)作正態(tài)擬合檢驗(yàn)，選取α＝0．05。第十頁，共六十二頁，編輯于2023年，星期五

[解]

第十一頁，共六十二頁，編輯于2023年，星期五第十二頁，共六十二頁，編輯于2023年，星期五

檢驗(yàn)的另一個重要應(yīng)用是對交互分類資料的獨(dú)立性檢驗(yàn)，即列聯(lián)表檢驗(yàn)。在上一章，我們曾多次提到過性別與收入高低有無關(guān)聯(lián)的問題，在實(shí)際中類似的問題很多。例如受教育程度與投票行為有無關(guān)聯(lián)?吸煙與壽命長短有無關(guān)聯(lián)?家庭小孩多少與收入多少有無關(guān)聯(lián)?受教育時間長短與收入多少有無關(guān)聯(lián)?血型與某種性格上的差異有無關(guān)聯(lián)?等等，把這類問題上升到一般，就是在列聯(lián)表的基礎(chǔ)上考察變量X與Y有無關(guān)聯(lián)。由于列聯(lián)表一般是按品質(zhì)標(biāo)志把兩個變量的頻數(shù)進(jìn)行交互分類的，所以：

①檢驗(yàn)法用于對交互分類資料的獨(dú)立性檢驗(yàn)，有其它方法無法比擬的優(yōu)點(diǎn)；②如何求得列聯(lián)表中的理論頻數(shù)就成了獨(dú)立性檢驗(yàn)的關(guān)鍵。第二節(jié)無關(guān)聯(lián)性檢驗(yàn)第十三頁，共六十二頁，編輯于2023年，星期五

1、獨(dú)立性、理論頻數(shù)及自由度應(yīng)用此式，不必計(jì)算理論頻數(shù)計(jì)算與這個檢驗(yàn)統(tǒng)計(jì)量相聯(lián)系的自由度算出統(tǒng)計(jì)量之值并定出其自由度后，就可以依前述的方法，在給定了顯著性水平之后，來對X，Y屬性無關(guān)聯(lián)的零假設(shè)進(jìn)行檢驗(yàn)了。第十四頁，共六十二頁，編輯于2023年，星期五應(yīng)用舉例

檢驗(yàn)也適用于定類變量和定類變量的相關(guān)統(tǒng)計(jì)，即可以用它檢定λ和τ系數(shù)是否顯著。就下表所示資料，試以檢驗(yàn)檢定性別與收入之間的相關(guān)程度是否顯著(α取0．001)。

第十五頁，共六十二頁，編輯于2023年，星期五

[解]

第十六頁，共六十二頁，編輯于2023年，星期五故拒絕H0，即認(rèn)為總體上性別與收入高低之間不獨(dú)立，有顯著相關(guān)關(guān)系。第十七頁，共六十二頁，編輯于2023年，星期五

[例]在某種流行病流行的時候，共有120個病人進(jìn)行了治療，其中40個病人按標(biāo)準(zhǔn)劑量服用某種新藥，另有40個病人按標(biāo)準(zhǔn)劑量的2倍服用了這種新藥，其余40個病人只按病狀治療(而不是按病因治療)，治療結(jié)果按迅速痊愈、緩慢痊愈、未痊愈分為三類，最后交叉分類的情況列于下表，試問這三種療法之間有沒有差別(α取0．05)。第十八頁，共六十二頁，編輯于2023年，星期五[解]

H0：這三種療法之間沒有差別

H1：這三種療法之間有差別

由于α＝0．05；自由度k＝(c―l)(r―l)＝2×2＝4，查分布表得臨界值：

在零假設(shè)下，計(jì)算檢驗(yàn)統(tǒng)計(jì)量，計(jì)算過程參見后表。

因此＞，故拒絕零假設(shè)，即三種療法之間有顯著差別。第十九頁，共六十二頁，編輯于2023年，星期五第二十頁，共六十二頁，編輯于2023年，星期五第三節(jié)方差分析

方差分析，是一種很重要的分析方法，它可以檢驗(yàn)兩個以上樣本均值之差。方差分析是均值差檢驗(yàn)的推廣，一般用于處理自變量是一個（或多個）定類變量和因變量是一個定距變量之間的關(guān)系。方差分析所包含的假定與均值差檢驗(yàn)所包含的假定差不多，例如正態(tài)分布、獨(dú)立隨機(jī)樣本、等方差性等，但檢驗(yàn)本身卻很不相同。方差分析直接涉及的是方差而不是均值和標(biāo)準(zhǔn)差。同時，比較也不取兩種估計(jì)量之差，而是取兩種估計(jì)量的比率。在兩種估計(jì)量彼此獨(dú)立的前提下，兩種估計(jì)量之比率F具有已知的抽樣分布，因而可進(jìn)行很簡單的檢驗(yàn)。第二十一頁，共六十二頁，編輯于2023年，星期五

1．總變差及其分解

總變差:在方差分析中記作SST，它表示對于總均值的偏差之平方和。即：

SST＝式中:ni是第i個樣本的容量,n＝

為什么會形成總變差這個散布度呢？一是三個樣本可能不同，這使全部數(shù)據(jù)有三個“中心”；二是隨機(jī)抽樣誤差的影響，使數(shù)據(jù)在每個中心附近有散布。

第二十二頁，共六十二頁，編輯于2023年，星期五總變差分解

第二十三頁，共六十二頁，編輯于2023年，星期五可以看出，總變差分解成兩部分：第一部分是各觀測值對其所屬類別均值的偏差的平方和，稱為組內(nèi)變差(Within-groupsSumofSquares)，記作SSW。組內(nèi)變差反映了數(shù)據(jù)圍繞各“中心”的散布程度，即反映了因隨機(jī)波動所產(chǎn)生的變異，與自變量因素?zé)o關(guān)。換言之,SSW是自變量因素所沒有解釋的的變異。因此，又稱之為殘差。第二部分是組間平方和

(Between-groupsSumofSquares)，記作SSB

，它涉及到諸類別均值對總均值的偏差，反映了前表中數(shù)據(jù)的c個“中心”的散布程度。第二十四頁，共六十二頁，編輯于2023年，星期五

弄清了組間變差和組內(nèi)變差，檢驗(yàn)“A1≠A2≠A3”(也就是零假設(shè)μ1＝μ2＝μ3)的思路也就梳理出來了：關(guān)鍵是比較兩種變差是否有顯著差異。若第一種變差明顯大于第二種變差，則認(rèn)為家庭因素對孩子圖書消費(fèi)是有影響的；若第一種變差與第二種變差之間無顯著區(qū)別，則不能認(rèn)為家庭因素對孩子圖書消費(fèi)有影響。但在統(tǒng)計(jì)學(xué)上，方差分析不取兩者之差而取兩者之比來進(jìn)行這種比較。而且，方差分析不是直接用SSB/SSW作為檢驗(yàn)統(tǒng)計(jì)量，而是用可以解釋的方差/不能解釋的方差作為檢驗(yàn)統(tǒng)計(jì)量，即：

2．關(guān)于自由度第二十五頁，共六十二頁，編輯于2023年，星期五

組間平方和代表c個樣本均值對總均值的偏差。也就是每個可看作為一個單位，c個可看作為c個單位，有c個自由度，求用去一個自由度。因而，與組間平方和相聯(lián)系的自由度為c―1。再看組內(nèi)平方和，計(jì)算時每列失去一個自由度。因而，與組內(nèi)平方和相聯(lián)系的自由度為n―c。最后看總平方和，計(jì)算總均值時失去一個自由度。因而，與總平方和相聯(lián)系的自由度為n―l?？偟膩砜从?

n―l＝（n―c）+（c―1）總自由度＝組內(nèi)自由度+組間自由度

第二十六頁，共六十二頁，編輯于2023年，星期五

上式是在在零假設(shè)(H0：μ1＝μ2＝…＝μc)之下，檢驗(yàn)統(tǒng)計(jì)量Fo的計(jì)算公式。

理論證明：上式服從分子自由度為k1＝c―1、分母自由度為k2＝（n―c）的F分布。于是，給定顯著性水平α，我們就可以很方便地從F分布表中查到臨界值Fα(c―1，n―c)。如果出現(xiàn)Fo＞Fα的情況，我們將在這個顯著性水平上拒絕零假設(shè)。在實(shí)際運(yùn)用中，方差分析的結(jié)果常用一種稱為“方差分析表”的標(biāo)準(zhǔn)形式的表格表示出來，其基本形式如表后所示。第二十七頁，共六十二頁，編輯于2023年，星期五

為了簡化檢驗(yàn)統(tǒng)計(jì)量Fo的計(jì)算，有必要將SST、SSW、SSB這三個定義式展開，其方法與分解總變差的方法相同。于是有：

3．關(guān)于檢驗(yàn)統(tǒng)計(jì)量Fo的計(jì)算

注意，由于總變差等于另兩個變差之和，所以三個變差中僅需求出兩個變差。求出組內(nèi)平方和比求另兩個平方和繁瑣得多，故通常我們都是從總平方和減去組間平方和來求組內(nèi)平方和的。第二十八頁，共六十二頁，編輯于2023年，星期五

[例]試對下表中的資料，計(jì)算SST

、SSW、SSB

，并檢驗(yàn)μ1＝μ2＝μ3的零假設(shè)(α取0．05)。第二十九頁，共六十二頁，編輯于2023年，星期五解：據(jù)題意，n1＝n2＝n3＝8，n1+n2+n3＝24

組內(nèi)自由度＝n―c＝24―3＝21

組間自由度＝c―1＝3―1＝2

分別計(jì)算SST和SSB

，計(jì)算過程參見下表。第三十頁，共六十二頁，編輯于2023年，星期五

由于α＝0．05，查F分布表得臨界值：Fα(c―1，n―c)＝F0.05(2，21)＝3．47＞1．19故在0.05顯著性水平上不否定零假設(shè)，即沒有充分根據(jù)提出這三類家庭的孩子在圖書消費(fèi)方面有顯著不同。第三十一頁，共六十二頁，編輯于2023年，星期五

[例]研究某種商品銷量與品牌的關(guān)系，得下表資料，其中A1，A2，A3表示不同的品牌，數(shù)據(jù)表示銷量。試以顯著性水平10％判斷品牌對該種商品的銷量有無影響。第三十二頁，共六十二頁，編輯于2023年，星期五

[解]據(jù)題意，n1＝n1+n2+n3＝2+4+3＝9

組內(nèi)自由度＝n―c＝9―3＝6

組間自由度＝c―1＝3―1＝2

分別計(jì)算SST和SSB，計(jì)算過程參見前表13.16。于是得MSB

和

MSW

MSB＝SSB／（c―1）＝6.89/2＝3.45

MSW

＝SSW／（n―c）＝30/6＝5.00

再根據(jù)(13．19)式求檢驗(yàn)統(tǒng)計(jì)量Fo

Fo＝＝＝0.69＜1

故在0．10顯著性水平上不否定零假設(shè)，即不能判斷不同品脾對

該種商品的銷量有顯著影響。第三十三頁，共六十二頁，編輯于2023年，星期五

4．相關(guān)比率

當(dāng)方差分析的檢驗(yàn)呈顯著性后，進(jìn)一步討論兩變量間的相關(guān)程度是很自然的。方差分析中相關(guān)程度的測定仍采用PRE法。當(dāng)不知因變量Y的取值與自變量X的取值A(chǔ)1，A2，…，Ac有關(guān)時，最好的預(yù)測是以總均值作為Y的估計(jì)值。此時，估計(jì)所犯的錯誤將等于SST

E1＝SST＝

當(dāng)已知因變量Y的取值與自變量X的取值A(chǔ)1，A2，…，Ac有關(guān)后，自然用各樣本的均值作為各類別的預(yù)測值，此時預(yù)測所產(chǎn)生的誤差將等于SSW

E2＝SSW＝

所以消減誤差比例可寫成PRE＝＝＝正是因?yàn)樯鲜?，我們把SSB稱為已解釋的變差。顯然，已解釋的變差越大，預(yù)測Y所減少的誤差就越多，X與Y之間的關(guān)系就越密切。據(jù)此，方差分析中把已解釋的變差對總變差的比值稱為相關(guān)比率，用符號表示＝1―＝

可用于一個定類變量與一個定距變量的相關(guān)程度的測定，當(dāng)然也可以用于定序—定距變量或定距—定距變量的相關(guān)程度的測定。第三十四頁，共六十二頁，編輯于2023年，星期五

[例]試以表13．12的資料，分析孩子圖書消費(fèi)與家庭類型的關(guān)系。

[解]據(jù)前面例題中已計(jì)算的結(jié)果，已知SSB＝28，SST＝276，因而有

＝1―＝＝＝10.1%

可見，就表給資料而言，利用家庭類型預(yù)測孩子圖書消費(fèi)量，只能削減10.1%的預(yù)測誤差。第三十五頁，共六十二頁，編輯于2023年，星期五小結(jié)：相關(guān)比率研究的是定類—定距變量之間的相關(guān)程度。由于定類變量不具有數(shù)量大小的問題，不存在關(guān)系是否線性的問題。因此，當(dāng)被用于研究定距—定距變量之間的關(guān)系時，不僅可以作為線性相關(guān)的量度，也可以作為非線性相關(guān)的量度。這意味著，對線性相關(guān)，相關(guān)比率與r2(積差系數(shù)之平方)有相同的PRE性質(zhì)；但如果對非線性相關(guān)，用積差系數(shù)r來討論就不行了。對于定距—定距變量，曲線相關(guān)既然要用R來測量，那么反過來，同一資料通過相關(guān)指數(shù)R與積差系數(shù)r計(jì)算的比較，可以判斷確定兩定距變量的關(guān)系是不是直線。如果同時求出r與R，r等于或略大于R，可說明兩變量關(guān)系是直線的，用r去測量是合適的；如果r＜R，則說明兩變量關(guān)系可能是曲線的。第三十六頁，共六十二頁，編輯于2023年，星期五首先，MSB和MSW可以分別稱為組間方差和組內(nèi)方差，其中(在等方差的假設(shè)下)組內(nèi)方差總是σ2的無偏估計(jì)；而組間方差，只有當(dāng)諸總體(即各樣本所代表的子總體)均值實(shí)際上相等時，它才是σ2的無偏估計(jì)。這就是說，如果零假設(shè)為真，MSB和MSW之間將沒有太大的差別。反之。如果零假設(shè)實(shí)際不正確，可以期望MSB和MSW的比值大于1。如果這個比值小于1，則不從F分布表中查找臨界值Fα就可以判斷零假設(shè)不能被否定。其次，以上兩個例題也可以用均值差檢驗(yàn)來處理。均值差檢驗(yàn)涉及t分布，可以做三組合的比較．即A1與A2，A2與A3，A1與A3。與均值差檢驗(yàn)不同，方差分析僅進(jìn)行一次檢驗(yàn)來判定三種類別的家庭(或品牌)在消費(fèi)（或銷售）上彼此是否有顯著性差異。方差分析的優(yōu)點(diǎn)在于，一個檢驗(yàn)可以代替多個檢驗(yàn)。如果有四個類別，均值差檢驗(yàn)需做(4×3)／2＝6次；如果有六個類別，需做(6×5)／2＝15次；如果有十個類別，需做(10×9)／2＝45次。況且，如果做15次均值差檢驗(yàn)。其中4次結(jié)果具有顯著性，這時應(yīng)當(dāng)下什么結(jié)論?可能很難回答。

5．關(guān)于方差分析的幾點(diǎn)討論第三十七頁，共六十二頁，編輯于2023年，星期五第三，方差分析中的自變量X如果是二分變量，也可以采用均值差t檢驗(yàn)。在這種情況下，F(xiàn)的分子自由度是2―1＝1，分母自由度是n―2，這與均值差檢驗(yàn)中的t相同。經(jīng)過計(jì)算可知，具有自由度n―2的t

2值等于具有分子自由度為1和分母自由度為n―2的F值。比較F表和t表也可以核實(shí)這一點(diǎn)。換言之，t是分子自由度為l的F的平方根。這當(dāng)然意味著，對于樣本而言，此時不論采用方差分析或均值差檢驗(yàn)，其結(jié)果完全相同。第四，本節(jié)集中討論了自變量為一個定類變量而因變量為一個定距變量的情況。如果對因變量Y影響的自變量由一個變?yōu)閮蓚€以上，我們就將面對多元方差分析了?？傋儾罘纸獾乃枷肟梢灾苯油茝V至多因素顯著性檢驗(yàn)。例如就兩個自變量（A和B）獨(dú)立對因變量Y影響的情況，可以得到下述方差分析表(表13．17)。第三十八頁，共六十二頁，編輯于2023年，星期五相關(guān)與回歸，由于其廣泛應(yīng)用，如今在統(tǒng)計(jì)學(xué)中是高度發(fā)展的分支之一。而從實(shí)用的觀點(diǎn)來看，線性關(guān)系是最簡單也是最重要的一種關(guān)系。本書第十二章已經(jīng)對積差系數(shù)與回歸直線作了比較細(xì)致的討論。但有關(guān)假設(shè)檢驗(yàn)的內(nèi)容，由于要借助于推論統(tǒng)計(jì)的知識方能闡明，所以本書將這部分內(nèi)容集中放到這一節(jié)來加以補(bǔ)充。學(xué)過推論統(tǒng)計(jì)的人要克制自己免受直線的誘惑，對此，討論回歸系數(shù)和積差系數(shù)之假設(shè)檢驗(yàn)將具有重要意義。

第四節(jié)回歸方程與相關(guān)系數(shù)的檢驗(yàn)第三十九頁，共六十二頁，編輯于2023年，星期五

1．回歸系數(shù)的檢驗(yàn)

檢驗(yàn)兩個總體變量(定距—定距變量)是否具有線性關(guān)系，主要檢驗(yàn)總體的回歸系數(shù)B是否等于零。因此，對于總體線性檢驗(yàn)的假設(shè)可寫成如下形式：

H0：B＝0H1：B≠0

為了尋求檢驗(yàn)H0的方法，我們需要對離差平方和進(jìn)行分解。而這項(xiàng)工作，前面已經(jīng)完成。我們發(fā)現(xiàn)，估計(jì)Y，當(dāng)不知Y和X的關(guān)系時，對它的最佳估計(jì)值只能是。離差之平方和（總變差），正是不知Y和X的關(guān)系時，估計(jì)Y的全部誤差E0

E0＝＝SST

第四十頁，共六十二頁，編輯于2023年，星期五

做了回歸預(yù)測之后．我們可以用Yc估計(jì)Y(參見下圖)。這時估計(jì)Y的誤差變?yōu)镋1(剩余變差):

E1＝＝

SSW

第四十一頁，共六十二頁，編輯于2023年，星期五顯然，利用Yc去估計(jì)Y比用去估計(jì)Y要消減一些誤差。消減的誤差E0―E1就是被回歸直線解釋掉的誤差(回歸變差)。

從第十二章已經(jīng)討論過的回歸變差和剩余變差的意義來看，一個回歸方程效果的好壞，取決于它們兩者之間的比較。已解釋的回歸變差越大，用Yc去估計(jì)Y比用去估計(jì)Y消減的誤差就越多，回歸預(yù)測的效果也就越好。依此，并按上一節(jié)方差分析的思想，在H0成立的條件下，檢驗(yàn)回歸直線的統(tǒng)計(jì)量可構(gòu)造為

E0―E1＝Fo＝~F（1，n―2）第四十二頁，共六十二頁，編輯于2023年，星期五自由度問題

因回歸變差中僅含一個自變量X，故自由度為l。而總變差所含自由度為（n―1），從而由總自由度＝組內(nèi)自由度+組間自由度，得剩余變差的自由度為(n―2)。對選定顯著性水平α，可查表得臨界值Fα。若出現(xiàn)Fo＞Fα(1，n―2)的情況，則拒絕H0，即認(rèn)為回歸方程中X變量對Y的解釋力是顯著的；若出現(xiàn)Fo＜Fα(1，n―2)的情況，則不能拒絕H0，即認(rèn)為回歸方程中X變量對Y沒有的顯著的解釋力。

第四十三頁，共六十二頁，編輯于2023年，星期五

[例]對[例12．5．1]所建立的回歸方程進(jìn)行回歸直線的檢驗(yàn)(α取0．05)。第四十四頁，共六十二頁，編輯于2023年，星期五

[解]

根據(jù)表12.22和[例12.5.1]的計(jì)算結(jié)果可知：＝48，＝252，＝52.5，

＝299.75，＝268.5

a＝0.475，b＝0．975，n＝12

＝＝299.75―0.475×52.5―0．975×268.5

＝13.02

＝

＝(0.975)2×[252―]

＝57．04第四十五頁，共六十二頁，編輯于2023年，星期五計(jì)算檢驗(yàn)統(tǒng)計(jì)量

Fo＝

＝＝43.81

對α＝0．05，查F表得臨界值

Fα(1，n―2)＝F0．05(1，10)＝4．96?43.81

所以拒絕H0，即可以認(rèn)為對總體配置回歸直線是有意義的。第四十六頁，共六十二頁，編輯于2023年，星期五

2．積差系數(shù)的檢驗(yàn)

對于定距—定距變量，上一章討論的積差系數(shù)是就樣本而言的。如同樣本均值、成數(shù)不能完全代表總體均值、成數(shù)一樣，樣本積差系數(shù)r也不就是總體積差系數(shù)ρ。但在社會研究中，要想確切了解兩總體變量(定距—定距變量)間的積差系數(shù)是很難的。所以，通常需要通過樣本積差系數(shù)的統(tǒng)計(jì)檢驗(yàn)來認(rèn)識總體的積差系數(shù)ρ。設(shè)有兩變量X和Y，它們的積差系數(shù)記為ρ。當(dāng)ρ＝0時，表示X和Y不具有線性相關(guān)關(guān)系，當(dāng)ρ≠0時，表示X和Y具有線性相關(guān)關(guān)系。實(shí)踐證明，樣本積差系數(shù)r值比較大時，并不等于總體積差系數(shù)ρ也比較大。尤其是樣本中所含觀測值較少時，更可能出現(xiàn)這種情況。例如，當(dāng)X與Y各只有兩個樣本數(shù)據(jù)時，積差系數(shù)總是為1，但顯然這不能說明變量間一定完全相關(guān)。也就是說，有時即使樣本積差系數(shù)很大，也并不一定就表明總體積差系數(shù)ρ也一定很大。總體積差系數(shù)ρ

的情況，只有在對樣本積差系數(shù)進(jìn)行統(tǒng)計(jì)顯著性檢驗(yàn)后，才能得出結(jié)論。第四十七頁，共六十二頁，編輯于2023年，星期五

那么判斷線性相關(guān)的“顯著”與“不顯著”的檢驗(yàn)統(tǒng)計(jì)量如何構(gòu)造呢?

統(tǒng)計(jì)理論證明，樣本積差系數(shù)是總體積差系數(shù)的一個無偏估計(jì)量，有:

=ρ，=第四十八頁，共六十二頁，編輯于2023年，星期五而且當(dāng)ρ＝0時，樣本容量越大，r（顯然為一隨機(jī)變量）的抽樣分布越接近于自由度為n―2的t分布（見前圖）。因而有檢驗(yàn)統(tǒng)計(jì)量:

to＝r~

t（n―2）

積差系數(shù)檢驗(yàn)的假設(shè)為:

H0：ρ＝0(兩總體不具有線性相關(guān)關(guān)系)

H1：ρ≠0(兩總體具有線性相關(guān)關(guān)系)

對選定的顯著性水平α，查t分布表得臨界值tα/2（n―2）,與統(tǒng)計(jì)值to作比較。若＞，則表明r在統(tǒng)計(jì)上是顯著的，即總體積差系數(shù)顯著地不同于零；＜，則說明r在統(tǒng)計(jì)上不顯著，即X與Y間并不存在線性相關(guān)關(guān)系。第四十九頁，共六十二頁，編輯于2023年，星期五

[例12．4．1]已對表12．21所示資料求出積差系數(shù)，試在0.05顯著性水平上作總體相關(guān)檢驗(yàn)。

表12.21第五十頁，共六十二頁，編輯于2023年，星期五

[解]建立假設(shè)

H0：ρ＝0H1：ρ≠0

已知r＝0．902，n＝12，于是得

to＝r＝0．902×＝6．608

對α＝0．05，查表得臨界值

tα/2（n―2）＝t0。025(10)＝2．228＜6．608

故拒絕H0，接受H1，即認(rèn)為員工的工齡和技術(shù)考核分之間存在線性相關(guān)。

但是，為了使用者的方便，上述檢驗(yàn)現(xiàn)已簡化為使用相關(guān)系數(shù)r進(jìn)行直接檢驗(yàn)。附表12是以r的抽樣分布編制的相關(guān)系數(shù)表，只要給出顯著性水平α和自由度k＝n―2，便可以在表中直接查出相應(yīng)的臨界值

rα(n―2)。第五十一頁，共六十二頁，編輯于2023年，星期五

[解]已知r＝0．902，n＝12，對α＝0．05，k

＝12―2＝10，從附表12中查得

rα(n―2)＝rα(10)＝0．576＜0．902

故拒絕零假設(shè)，即在0．05顯著性水平上可以認(rèn)為員工的工齡和技術(shù)考核分之間存在線性相關(guān)。例:用附表12直接對上例進(jìn)行積差系數(shù)檢驗(yàn)。第五十二頁，共六十二頁，編輯于2023年，星期五小結(jié)：上一小節(jié)，我們講的是回歸系數(shù)的檢驗(yàn)，實(shí)際上那只是線性回歸方程的檢驗(yàn)。而這一小節(jié)討論積差系數(shù)的檢驗(yàn)，也是要確認(rèn)總體線性相關(guān)的存在。因而假設(shè)H0：B＝0與假設(shè)H0：ρ＝0等價。也就是說，如果樣本積差系數(shù)r通過了檢驗(yàn)(t檢驗(yàn))，也必然導(dǎo)致回歸系數(shù)b能通過檢驗(yàn)(F檢驗(yàn))。實(shí)際上F公式與t公式是有對應(yīng)關(guān)系的。

Fo＝＝＝t

即具有自由度n―2的t

2值等于具有分子自由度1和分母自由度n―2的F值。也正是由于這個原因，有的教科書就是用t統(tǒng)計(jì)量來檢驗(yàn)回假設(shè)的。而如果有了r檢驗(yàn)表(附表12)，問題就變得更為簡單，計(jì)算Fo值并進(jìn)行F檢驗(yàn)也都不必要了。第五十三頁，共六十二頁，編輯于2023年，星期五

估計(jì)Y

當(dāng)不知Y和X有關(guān)系時，對它的最佳估計(jì)值只能是，估計(jì)的全部誤差是；當(dāng)知道Y和X有關(guān)系時，可以改用Yc來估計(jì)Y，此時估計(jì)的誤差減少為。

當(dāng)知道Y和X有關(guān)系后，用Yc來估計(jì)Y固然可以消減不少估計(jì)誤差，這也不過是點(diǎn)估計(jì)。而如果我們能在擬合值Yc上下設(shè)置一個合適區(qū)間，那么Y被估計(jì)到的可能性便會大大增加。

3．回歸方程的區(qū)間估計(jì)

回歸方程區(qū)間估計(jì)提出的背景第五十四頁，共六十二頁，編輯于2023年，星期五在回歸線兩側(cè)設(shè)置一個估計(jì)區(qū)間總是容易做到的，但問題是我們需要對估計(jì)的信度和效度作通盤考慮。為此，我們必須了解Y在Yc兩側(cè)的分布特征以及Y在Yc兩側(cè)的分散程度。第五十五頁，共六十二頁，編輯于2023年，星期五

由于誤差為正態(tài)分布的原理(即中心極限定理)，當(dāng)樣本容量n大于30時，我們可以作如下假定（參見前圖）：

1）Y的實(shí)際觀測值在對應(yīng)的每個估計(jì)值Yc周圍都是正態(tài)分布，越靠近Yc的地方，Y值出現(xiàn)的機(jī)會越多，反之出現(xiàn)的機(jī)會越少；

2）所有正態(tài)分布都具有相同的標(biāo)準(zhǔn)差，即所謂的同方差性。于是，除了重溫過去的知識，只有一個具體問題要解決：為了測定回歸線的代表性，有必要參照標(biāo)準(zhǔn)差的意義，引進(jìn)一個離中趨勢的量度——估計(jì)標(biāo)準(zhǔn)誤差，記作SY/X，用來反映圍繞回歸線的Y值的離散程度。在這里，求算估計(jì)標(biāo)準(zhǔn)誤差具有第九章中求算抽樣平均誤差同樣的意義。第五十六頁，共六十二頁，編輯于2023年，星期五當(dāng)知道Y和X有關(guān)系時，用Yc

來估計(jì)Y，估計(jì)的誤差為剩余變差，即SSW。所以，估計(jì)標(biāo)準(zhǔn)誤差顯然為剩余方差MSW的平方根，即

SY/X＝

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

卡方檢驗(yàn)與方差分析

文檔簡介

溫馨提示

最新文檔

評論

卡方檢驗(yàn)與方差分析

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔