卡方檢驗(yàn)應(yīng)用_第1頁(yè)
卡方檢驗(yàn)應(yīng)用_第2頁(yè)
卡方檢驗(yàn)應(yīng)用_第3頁(yè)
卡方檢驗(yàn)應(yīng)用_第4頁(yè)
卡方檢驗(yàn)應(yīng)用_第5頁(yè)
已閱讀5頁(yè),還剩3頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第八章 記數(shù)數(shù)據(jù)統(tǒng)計(jì)法卡方檢驗(yàn)法知識(shí)引入在各個(gè)研究領(lǐng)域中,有些研究問題只能劃分為不同性質(zhì)的類別,各類別沒有量的聯(lián)系。例如,性別分男女,職業(yè)分為公務(wù)員、教師、工人、,教師職稱又分為教授、副教授、。有時(shí)雖有量的關(guān)系,因研究需要將其按一定的標(biāo)準(zhǔn)分為不同的類別,例如,學(xué)習(xí)成績(jī)、能力水平、態(tài)度等都是連續(xù)數(shù)據(jù),只是研究者依一定標(biāo)準(zhǔn)將其劃分為優(yōu)良中差,喜歡與不喜歡等少數(shù)幾個(gè)等級(jí)。對(duì)這些非連續(xù)等距性數(shù)據(jù),要判別這些分類間的差異或者多個(gè)變量間的相關(guān)性方法稱為計(jì)數(shù)數(shù)據(jù)統(tǒng)計(jì)方法??ǚ綑z驗(yàn)是專用于解決計(jì)數(shù)數(shù)據(jù)統(tǒng)計(jì)分析的假設(shè)檢驗(yàn)法。本章主要介紹卡方檢驗(yàn)的兩個(gè)應(yīng)用:擬合性檢驗(yàn)和獨(dú)立性檢驗(yàn)。擬合性檢驗(yàn)是用于分析實(shí)際次數(shù)與理

2、論次數(shù)是否相同,適用于單個(gè)因素分類的計(jì)數(shù)數(shù)據(jù)。獨(dú)立性檢驗(yàn)用于分析各有多項(xiàng)分類的兩個(gè)或兩個(gè)以上的因素之間是否有關(guān)聯(lián)或是否獨(dú)立的問題。在計(jì)數(shù)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析時(shí)要特別注意取樣的代表性。我們知道,統(tǒng)計(jì)分析就是依據(jù)樣本所提供的信息,正確推論總體的情況。在這一過程中,最根本的一環(huán)是確保樣本的代表性及對(duì)實(shí)驗(yàn)的良好控制。在心理與教育研究中,所搜集到的有些數(shù)據(jù)屬于定性資料,它們常常是通過調(diào)查、訪問或問卷獲得,除了少數(shù)實(shí)驗(yàn)可以事先計(jì)劃外,大部分收集數(shù)據(jù)的過程是難于控制的。例如,某研究者關(guān)于某項(xiàng)教育措施的問卷調(diào)查,由于有一部分教師和學(xué)生對(duì)該項(xiàng)措施存有意見,或?qū)柧肀旧碛衅姡揪筒惶顚憜柧?。這樣該研究所能收回的問

3、卷只能代表一部分觀點(diǎn),所以它是一個(gè)有偏樣本,若據(jù)此對(duì)總體進(jìn)行推論,就會(huì)產(chǎn)生一定的偏差,勢(shì)必不能真實(shí)地反映出教師與學(xué)生對(duì)這項(xiàng)教育措施的意見。因此應(yīng)用計(jì)數(shù)資料進(jìn)行統(tǒng)計(jì)推斷時(shí),要特別小心謹(jǐn)慎,防止樣本的偏倚性,只有具有代表性的樣本才能作出正確的推論。 第一節(jié) 卡方擬合性檢驗(yàn)一、卡方檢驗(yàn)的一般問題 卡方檢驗(yàn)應(yīng)用于計(jì)數(shù)數(shù)據(jù)的分析,對(duì)于總體的分布不作任何假設(shè),因此它又是非參數(shù)檢驗(yàn)法中的一種。它由統(tǒng)計(jì)學(xué)家皮爾遜推導(dǎo)。理論證明,實(shí)際觀察次數(shù)(fo)與理論次數(shù)(fe),又稱期望次數(shù))之差的平方再除以理論次數(shù)所得的統(tǒng)計(jì)量,近似服從卡方分布,可表示為:這是卡方檢驗(yàn)的原始公式,其中當(dāng)fe越大(fe5),近似得越好。顯

4、然fo與fe相差越大,卡方值就越大;fo與fe相差越小,卡方值就越??;因此它能夠用來(lái)表示fo與fe相差的程度。根據(jù)這個(gè)公式,可認(rèn)為卡方檢驗(yàn)的一般問題是要檢驗(yàn)名義型變量的實(shí)際觀測(cè)次數(shù)和理論次數(shù)分布之間是否存在顯著差異。它主要應(yīng)用于兩種情況:卡方檢驗(yàn)?zāi)軝z驗(yàn)單個(gè)多項(xiàng)分類名義型變量各分類間的實(shí)際觀測(cè)次數(shù)與理論次數(shù)之間是否一致的問題,這里的觀測(cè)次數(shù)是根據(jù)樣本數(shù)據(jù)得多的實(shí)計(jì)數(shù),理論次數(shù)則是根據(jù)理論或經(jīng)驗(yàn)得到的期望次數(shù)。這一類檢驗(yàn)稱為擬合性檢驗(yàn)。擬合性檢驗(yàn)的零假設(shè)是觀測(cè)次數(shù)與理論次數(shù)之間無(wú)差異。其中理論次數(shù)的計(jì)算一般是根據(jù)某種理論,按一定的概率通過樣本即實(shí)際觀測(cè)次數(shù)來(lái)計(jì)算。這里所說(shuō)的某種理論,可能是經(jīng)驗(yàn)規(guī)律

5、,也可能是理論分布。確定理論次數(shù)是卡方檢驗(yàn)的關(guān)鍵。擬合性檢驗(yàn)自由度的確定與兩個(gè)因素有關(guān):一是分類的項(xiàng)數(shù),二是在計(jì)算理論次數(shù)時(shí),所用統(tǒng)計(jì)量或約束條件的個(gè)數(shù),這兩者之差即為自由度。由于一般情況下,計(jì)算理論次數(shù)時(shí)只用到“總數(shù)”這一統(tǒng)計(jì)量,所以自由度一般是分類的項(xiàng)數(shù)減1。但在對(duì)連續(xù)數(shù)據(jù)分布的配合度檢驗(yàn)中,常常會(huì)用數(shù)據(jù)個(gè)數(shù)、平均數(shù)、標(biāo)準(zhǔn)差等統(tǒng)計(jì)量來(lái)計(jì)算理論次數(shù),所以此時(shí)的自由度應(yīng)從總分類項(xiàng)中減去更多的個(gè)數(shù)。按照檢驗(yàn)中理論次數(shù)的定義不同,擬合性檢驗(yàn)有以下集中應(yīng)用。 二、檢驗(yàn)無(wú)差假設(shè)所謂無(wú)差假設(shè),是指各項(xiàng)分類的實(shí)計(jì)數(shù)之間沒有差異,也就是說(shuō)各項(xiàng)分類之間的概率相等(均勻分布),因此理論次數(shù)完全按概率相

6、等的條件來(lái)計(jì)算。即任一項(xiàng)的理論次數(shù)都等于總數(shù)/分類項(xiàng)數(shù)。因此自由度也就等于分類項(xiàng)數(shù)減1。【例1】 隨機(jī)地將麻將色子拋擲300次,檢驗(yàn)該色子的六個(gè)面是否均勻。結(jié)果1-6點(diǎn)向上的次數(shù)依次是,43,49,56,45,66,41。解:每個(gè)類的理論次數(shù)是 300/6 = 50,代入公式:因此,在0.05的顯著性水平下,可以說(shuō)這個(gè)色子的六面是均勻的?!纠?】 隨機(jī)抽取60名高一學(xué)生,問他們文理要不要分科,回答贊成的39人,反對(duì)的21人,問對(duì)分科的意見是否有顯著的差異。解:如果沒有顯著的差異,則贊成與反對(duì)的各占一半,因此是一個(gè)無(wú)差假設(shè)的檢驗(yàn),于是理論次數(shù)為60/2=30,代入公式:所以對(duì)于文理分科,學(xué)生們的

7、態(tài)度是有顯著的差異的。 三、檢驗(yàn)假設(shè)分布的概率這里的假設(shè)分布可以是經(jīng)驗(yàn)性的,也可以是某理論分布。公式中所需的理論次數(shù)則按照這里假設(shè)的分布進(jìn)行計(jì)算?!纠?】 國(guó)際色覺障礙討論會(huì)宣布,每12個(gè)男子中,有一個(gè)是先天性色盲。從某校抽取的132名男生中有4人是色盲,問該校男子色盲比率與上述比例是否有顯著差異?解:按國(guó)際色覺障礙討論會(huì)的統(tǒng)計(jì)結(jié)果,132人應(yīng)該有132/12=11人是色盲,剩下的121人非色盲,代入公式有:因此,在0.05和顯著性水平下,該校男子色盲比率與國(guó)際色覺障礙討論會(huì)的統(tǒng)計(jì)結(jié)果有顯著差異,顯然根據(jù)比例可知該校的色盲率小于國(guó)際色覺障礙討論會(huì)的統(tǒng)計(jì)結(jié)果。【例4】 在英語(yǔ)四級(jí)考試中

8、,某學(xué)生做對(duì)了80個(gè)四擇一選擇題中的28題,現(xiàn)在要判斷該生是否是完全憑猜測(cè)做題。解:假如該生完全憑猜測(cè)做題,那么平均而言每道題做對(duì)的可能性是1/4,因此80個(gè)題中平均而能做對(duì)80/4=20題,代入公式有:因此,該生可能會(huì)做一些題。 四、連續(xù)變量分布的擬合性檢驗(yàn)對(duì)于一組連續(xù)數(shù)據(jù),經(jīng)常需要對(duì)其次數(shù)分布究竟服從哪種理論分布進(jìn)行探討,這一方面的主要應(yīng)用就是在前面經(jīng)常所提到的總體正態(tài)性檢驗(yàn)。首先要將測(cè)量數(shù)據(jù)整理成次數(shù)分布表和畫出次分布圖,并據(jù)此選擇恰當(dāng)?shù)睦碚摲植?。這些理論分布是多種多樣的,例如有正態(tài)分布、均勻分布等。然后根據(jù)選擇的理論分布計(jì)算出理論次數(shù),就可以計(jì)算卡方統(tǒng)計(jì)量并進(jìn)行顯著性檢驗(yàn)了。

9、若差異顯著,說(shuō)明所選擇的理論分布不合適,可以再選一個(gè)理論分布進(jìn)行檢驗(yàn),直至完全擬合。當(dāng)然有時(shí)也只需檢驗(yàn)是否與某確定的理論分布相符,如正態(tài)性檢驗(yàn)(參見教材有關(guān)內(nèi)容)。對(duì)連續(xù)隨機(jī)變量分布的吻合性檢驗(yàn),關(guān)鍵的步驟是計(jì)算理論次數(shù)與確定自由度。理論次數(shù)的計(jì)算是按所選理論分布規(guī)律,并利用觀測(cè)數(shù)據(jù)的有關(guān)統(tǒng)計(jì)量來(lái)計(jì)算各分組(次數(shù)分布表中)理論次數(shù)。自由度則是用分組數(shù)減去計(jì)算理論次數(shù)時(shí)所用統(tǒng)計(jì)量的數(shù)目。這種擬合性檢驗(yàn)計(jì)算較為繁瑣,不做要求。 五、小理論次數(shù)時(shí)的連續(xù)性校正卡方檢驗(yàn)中,當(dāng)某分類理論次數(shù)小于5時(shí),卡方統(tǒng)計(jì)量不能很好地滿足卡方分布,此時(shí)需要對(duì)卡方統(tǒng)計(jì)量進(jìn)行校正,稱為卡方的連續(xù)性校正,其公式如下

10、:盡管采用此方法校正后,卡方統(tǒng)計(jì)量能較為接近卡方分布,不過我們?nèi)匀唤ㄗh在實(shí)際中最好增大樣本的容量,盡量減少出現(xiàn)這種不大服從理論分布的情況。第二節(jié) 獨(dú)立性檢驗(yàn)卡方檢驗(yàn)還可以用于檢驗(yàn)兩個(gè)或兩個(gè)以上因素(各有兩項(xiàng)或以上的分類)之間是否相互影響的問題,這種檢驗(yàn)稱為獨(dú)立性檢驗(yàn)。例如要討論血型與性格的關(guān)系,血型有A、B、AB、O四類,性格采用心理學(xué)上的A型性格來(lái)劃分,即有A型和B型兩種,每個(gè)人可能是它們之間交叉所形成的8種類型中的一種,那么倒底它們之間有不有關(guān)系,就可以用卡方獨(dú)立性檢驗(yàn)。卡方獨(dú)立性檢驗(yàn)用于檢驗(yàn)兩個(gè)或兩個(gè)以上因素(各有兩項(xiàng)或以上的分類)之間是否相互影響的問題。所謂獨(dú)立,即無(wú)關(guān)聯(lián),互不影響,就

11、意味著一個(gè)因素各個(gè)分類之間的比例關(guān)系,在另一個(gè)因素的各項(xiàng)分類下都是相同的,比如在血型與性格關(guān)系中,如果A型性格人群中各血型的比例關(guān)系,與B型性格人群中各血型的比例關(guān)系相同,就可能說(shuō)血型與性格相互獨(dú)立,當(dāng)然這里的“兩者比例相同”在統(tǒng)計(jì)的意義下,應(yīng)表述為“兩比例差異不超過誤差范圍”,因?yàn)榫退憧傮w之間相互獨(dú)立,收集到兩個(gè)比例完全相同的樣本的可能是很小很小的,甚至是不可能的。相反,若一個(gè)因素各個(gè)分類之間的比例關(guān)系,在另一個(gè)因素的各項(xiàng)分類下是不同的,則它們之間相關(guān)。假如A型性格中A型血的比例高于B型性格中A型血的比例,而且達(dá)到顯著水平,那么就可以說(shuō)血型與性格之間相關(guān),不相互獨(dú)立。卡方獨(dú)立性檢驗(yàn)的零假設(shè)是

12、各因素之間相互獨(dú)立。因此理論次數(shù)的計(jì)算也是基于這一假設(shè),具體計(jì)算時(shí),采用列聯(lián)表的方式,后面將舉例說(shuō)明?!纠?】 某校對(duì)學(xué)生課外活動(dòng)內(nèi)容進(jìn)行調(diào)查,結(jié)果整理成下表,表中彩色格子里的數(shù)是原始數(shù)據(jù)的匯總數(shù),括號(hào)內(nèi)的數(shù)是理論次數(shù)(是按下面將要介紹的原理計(jì)算得來(lái)的),此外的是原始數(shù)據(jù)。 性別(因素2)課外活動(dòng)內(nèi)容(因素1)小計(jì)和(fx)體育文娛閱讀男生21(15.3)11(10.2)23(29.5)55女生 6(11.7) 7(7.8)29(22.5)42小計(jì)和(fy)27185297 由于所有學(xué)生參加三項(xiàng)活動(dòng)的比例是27:18:52,因此如果課外活動(dòng)的選擇與性別沒

13、有關(guān)系的話,男女生參加這三項(xiàng)活動(dòng)的比例也應(yīng)是這同一比例,而男女各自的人數(shù)可以計(jì)算,所以每格內(nèi)的理論次數(shù)的計(jì)算方法如下:男生中參加體育活動(dòng)的理論人數(shù):55×27/97=15.3參加文娛活動(dòng)的理論人數(shù):55×18/97=10.2參加閱讀活動(dòng)的理論人數(shù):55×52/97=29.5女生中參加體育活動(dòng)的理論人數(shù):42×27/97=11.7參加文娛活動(dòng)的理論人數(shù):42×18/97= 7.8參加閱讀活動(dòng)的理論人數(shù):42×52/97=22.5我們將行列的小計(jì)和分別用 fx 和 fy 來(lái)表示,總?cè)藬?shù)用 N 來(lái)表示時(shí),上述計(jì)算理論次數(shù)的方法可以表示為:f

14、eij = fxi× fyj/N所以,卡方獨(dú)立性檢驗(yàn)的公式可以表示如下,其中最后一個(gè)式子比較便于計(jì)算,fxy 表示每格的原始數(shù)據(jù)。由于在計(jì)算理論次數(shù)時(shí),用了按每個(gè)因素分類的小計(jì)和(fx 和 fy,其個(gè)數(shù)分別記為 R 個(gè)和 C 個(gè)),和總和 N ,而總和又可由按每個(gè)因素分類的小計(jì)和計(jì)算得來(lái),因此若從總分類個(gè)數(shù)R×C中減去 R+C,則將總和重復(fù)減去了,因此要補(bǔ) 1 個(gè)自由度回來(lái),所以最終獨(dú)立性檢驗(yàn)的自由度表示為:上述例題最終計(jì)算得:或者:這兩個(gè)公式的計(jì)算結(jié)果有一點(diǎn)點(diǎn)差異,這完全是計(jì)算誤差即四舍五入引起的。df = (3-1)(2-1) = 2,而20.05(2) = 5.99,

15、所以在0.05的顯著性水平下,拒絕零假設(shè),即可以認(rèn)為性別與課外活動(dòng)內(nèi)容有關(guān)聯(lián),或者說(shuō)男女生在選擇課外活動(dòng)上存在顯著的差異。 四格表獨(dú)立性檢驗(yàn)對(duì)于兩個(gè)都只作兩項(xiàng)分類的因素,它們的數(shù)據(jù)整理成的是一個(gè) 2×2 的表格,一般稱為四格表,對(duì)于四格表教材里給出了一個(gè)更簡(jiǎn)潔的公式:公式中,a、b、c、d的規(guī)定要求是a和d必須呈對(duì)角線。該公式的含義非常明確,即當(dāng)對(duì)角線單元格中的次數(shù)差異越大時(shí),卡方檢驗(yàn)越容易顯著,自然也就意味著兩變量間的關(guān)聯(lián)越密切。掌握了一般的R*C表計(jì)算后,四格表計(jì)算相對(duì)簡(jiǎn)單地多。這里不再展開。注意,在獨(dú)立性檢驗(yàn)中,同樣存在某格的理論次數(shù)小于等于 5 的問題,如同擬合性檢

16、驗(yàn)中一樣,我們?nèi)匀唤ㄗh在實(shí)際中最好增大樣本的容量,盡量減少出現(xiàn)這種不大服從理論分布的情況。此外,在獨(dú)立性檢驗(yàn)中,若拒絕了零假設(shè),即各因素之間有關(guān)聯(lián),則如同方差分析中僅判定了存在交互作用一樣,只是一個(gè)總體的結(jié)果,并不能回答具體關(guān)聯(lián)的形式的問題。如果各因素之間獨(dú)立,則到此為止,若各因素間有關(guān)聯(lián),還應(yīng)該作進(jìn)一步的分析,具體搞清楚各變量的次數(shù)間是如何關(guān)聯(lián)的。對(duì)此卡方檢驗(yàn)有一些辦法,但不如參數(shù)檢驗(yàn)中那樣嚴(yán)格??ǚ姜?dú)立性檢驗(yàn)一般也僅限于兩變量間的關(guān)聯(lián)考察,對(duì)于多個(gè)名義型變量,往往采用分拆一個(gè)變量分別進(jìn)行獨(dú)立性檢驗(yàn)的辦法,然后試圖整合多次檢驗(yàn)的結(jié)果。這種做法就顯得更牽強(qiáng)一些。 品質(zhì)相關(guān)卡方檢驗(yàn)既然

17、是用來(lái)解決變量間關(guān)聯(lián)性的,則也可以構(gòu)造和積差相關(guān)或等級(jí)相關(guān)系數(shù)一樣的相關(guān)程度的度量,稱為品質(zhì)相關(guān)。常用的品質(zhì)相關(guān)有以下幾種:1、相關(guān)系數(shù)相關(guān)只適用于四格表,它要求兩變量是不同性質(zhì)的。相關(guān)的公式實(shí)際上是根據(jù)四格表的卡方值變換而來(lái)的,通過變換使得其取值大約在正負(fù)1之間,這樣便于聯(lián)系一般的相關(guān)系數(shù)的含義進(jìn)行解釋。在卡方檢驗(yàn)一節(jié),我們?cè)v到卡方值的大小反映了實(shí)際次數(shù)與理論次數(shù)之間差異的大小,而獨(dú)立性檢驗(yàn)中的理論次數(shù)是根據(jù)兩變量獨(dú)立的假設(shè)計(jì)算出來(lái)的,因此卡方值的大小也就反映了兩變量距獨(dú)立有多遠(yuǎn),離獨(dú)立越遠(yuǎn)就越相關(guān),因此卡方值本身就反映了兩變量間相關(guān)的程度。相關(guān)的計(jì)算公式如下:相關(guān)系數(shù)依分子的正負(fù)號(hào)可取正負(fù)值。不過,所有的品質(zhì)相關(guān)幾乎都不是獨(dú)立構(gòu)造的,而都是對(duì)卡方檢驗(yàn)中卡方統(tǒng)計(jì)量的變換。因此實(shí)際上,只要進(jìn)行了卡方獨(dú)立性檢驗(yàn),則這兩步過程就一次解決了。計(jì)算品質(zhì)相關(guān)系數(shù)只是為了更好地理解兩變量間關(guān)系的密切程度。2、列聯(lián)相關(guān)C系數(shù)列聯(lián)相關(guān)實(shí)際上是將相關(guān)的適用情況從四格表擴(kuò)展到一般的列聯(lián)表。列聯(lián)相關(guān)公式的來(lái)歷也基本上與相關(guān)相同。列聯(lián)相關(guān)公式為:該系數(shù)的取值也在0和1之間,不會(huì)取到1。與使用相關(guān)一樣,使用列聯(lián)相關(guān)之前,最好先檢驗(yàn)兩變量是否相關(guān),只有兩變量相關(guān)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論