




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、第八章記數(shù)數(shù)據(jù)統(tǒng)計法一卡方檢驗法 知識引入在各個研究領域中,有些研究問題只能劃分為不同性質(zhì)的類別,各類別沒有量的聯(lián)系。例如,性別分男女,職業(yè)分為公務員、教師、工人、 ,教師職稱又分為教授、副教授、 。有時雖有量的關系, 因研究需要將其按一定的標準分為不同的類別,例如,學習成績、能力水平、態(tài)度等都是連續(xù)數(shù)據(jù), 只是研究者依一定標準將其劃分為優(yōu)良中差,喜歡與不喜歡等少數(shù)幾個等級。對這些非連續(xù)等距性數(shù)據(jù), 要判別這些分類間的差異或者多個變量間的相關 性方法稱為計數(shù)數(shù)據(jù)統(tǒng)計方法??ǚ綑z驗是專用于解決計數(shù)數(shù)據(jù)統(tǒng)計分析的假設檢驗法。本章主要介紹卡方檢驗的兩個應用:擬合性檢驗和獨立性檢驗。 擬合性檢驗是用于
2、分析實際次數(shù)與理論次數(shù)是否相同,適用于單個因素分類的計數(shù)數(shù)據(jù)。 獨立性檢驗用于分析各有多項分類的兩個或兩個以上的因素 之間是否有關聯(lián)或是否獨立的問題。在計數(shù)數(shù)據(jù)進行統(tǒng)計分析時要特別注意取樣的代表性。我們知道,統(tǒng)計分析就是依據(jù)樣本所提供的信息,正確推論總體的情況。在這一過程中,最根本的一環(huán)是確保樣本的代表性 及對實驗的良好控制。 在心理與教育研究中, 所搜集到的有些數(shù)據(jù)屬于定性資料,它們常常是通過調(diào)查、訪問或問卷獲得,除了少數(shù)實驗可以事先計劃外,大部分收集數(shù)據(jù)的過程是難于控制的。例如,某研究者關于某項教育措施的問卷調(diào)查,由于有一部分教師和學生對該項措施存有意見,或?qū)柧肀旧碛衅姡?根本就不填寫
3、問卷。 這樣該研究所能收回的問卷只能 代表一部分觀點,所以它是一個有偏樣本,若據(jù)此對總體進行推論,就會產(chǎn)生一定的偏差, 勢必不能真實地反映出教師與學生對這項教育措施的意見。因此應用計數(shù)資料進行統(tǒng)計推斷時,要特別小心謹慎,防止樣本的偏倚性,只有具有代表性的樣本才能作出正確的推論。第一節(jié)卡方擬合性檢驗一、卡方檢驗的一般問題卡方檢驗應用于計數(shù)數(shù)據(jù)的分析,對于總體的分布不作任何假設,因此它又是非參數(shù)檢驗法中的一種。它由統(tǒng)計學家皮爾遜推導。 理論證明,實際觀察次數(shù)(f。)與理論次數(shù)(fe), 又稱期望次數(shù))之差的平方再除以理論次數(shù)所得的統(tǒng)計量,近似服從卡方分布,可表示為:才=£伉/尸I
4、4;這是卡方檢驗的原始公式,其中當fe越大(fe>5 ,近似得越好。顯然fo與fe相差越大,卡方值就越大;fo與fe相差越小,卡方值就越?。灰虼怂軌蛴脕肀硎緁o與fe相差的程度。根據(jù)這個公式,可認為卡方檢驗的一般問題是要檢驗名義型變量的實際觀測次數(shù)和理論次數(shù) 分布之間是否存在顯著差異。它主要應用于兩種情況:卡方檢驗能檢驗單個多項分類名義型變量各分類間的實際觀測次數(shù)與理論次數(shù)之間是否一致的問題,這里的觀測次數(shù)是根據(jù)樣本數(shù)據(jù)得多的實計數(shù),理論次數(shù)則是根據(jù)理論或經(jīng)驗得到的期望次數(shù)。這一類檢驗稱為 擬合性檢驗。擬合性檢驗的零假設是觀測次數(shù)與理論次數(shù)之間無差異。其中理論次數(shù)的計算一般是根據(jù)某種理
5、論,按一定的概率通過樣本即實際觀測次數(shù)來計算。這里所說的某種理論,可能是經(jīng)驗規(guī)律,也可能是理論分布。確定理論次數(shù)是卡方檢驗的關鍵。擬合性檢驗自由度的確定與兩個因素有關:一是分類的項數(shù),二是在計算理論次數(shù)時, 所用統(tǒng)計量或約束條件的個數(shù),這兩者之差即為自由度。由于一般情況下,計算理論次數(shù)時只用到 總數(shù)”這一統(tǒng)計量,所以自由度一般是分類的項數(shù)減1。但在對連續(xù)數(shù)據(jù)分布的配合度檢驗中,常常會用數(shù)據(jù)個數(shù)、 平均數(shù)、標準差等統(tǒng)計量來計算理論次數(shù),所以此時的自由度應從總分類項中減去更多的個數(shù)。按照檢驗中理論次數(shù)的定義不同,擬合性檢驗有以下集中應用。二、檢驗無差假設所謂無差假設,是指各項分類的實計數(shù)之間沒有差
6、異, 也就是說各項分類之間的概率相 等(均勻分布),因此理論次數(shù)完全按概率相等的條件來計算。即任一項的理論次數(shù)都等于總數(shù)/分類項數(shù)。因此自由度也就等于分類項數(shù)減 1。至例濟制【例1】 隨機地將麻將色子拋擲 300次,檢驗該色子的六個面是否均勻。結果1-6點向上的次數(shù)依次是,43, 49, 56, 45, 66, 41。解:每個類的理論次數(shù)是300/6 = 50,代入公式:因此,在0.05的顯著性水平下,可以說這個色子的六面是均勻的。【例2】 隨機抽取60名高一學生,問他們文理要不要分科,回答贊成的39人,反對的21人,問對分科的意見是否有顯著的差異。解:如果沒有顯著的差異,則贊成與反對的各占一
7、半,因此是一個無差假設的檢驗,于是理論次數(shù)為60/2=30 ,代入公式:所以對于文理分科,學生們的態(tài)度是有顯著的差異的。三、檢驗假設分布的概率這里的假設分布可以是經(jīng)驗性的,也可以是某理論分布。公式中所需的理論次數(shù)則按照這里假設的分布進行計算?!纠?】國際色覺障礙討論會宣布,每12個男子中,有一個是先天性色盲。從某校抽取的132名男生中有4人是色盲,問該校男子色盲比率與上述比例是否有顯著差異?解:按國際色覺障礙討論會的統(tǒng)計結果,132人應該有132/12=11人是色盲,剩下的121人非色盲,代入公式有:因此,在0.05和顯著性水平下,該校男子色盲比率與國際色覺障礙討論會的統(tǒng)計結果 有顯著差異,顯
8、然根據(jù)比例可知該校的色盲率小于國際色覺障礙討論會的統(tǒng)計結果?!纠?】 在英語四級考試中,某學生做對了80個四擇一選擇題中的 28題,現(xiàn)在要判斷該生是否是完全憑猜測做題。解:假如該生完全憑猜測做題,那么平均而言每道題做對的可能性是1/4,因此80個題中平均而能做對 80/4=20題,代入公式有:因此,該生可能會做一些題。四、連續(xù)變量分布的擬合性檢驗對于一組連續(xù)數(shù)據(jù),經(jīng)常需要對其次數(shù)分布究竟服從哪種理論分布進行探討,這一方面的主要應用就是在前面經(jīng)常所提到的總體正態(tài)性檢驗。首先要將測量數(shù)據(jù)整理成次數(shù)分布表和畫出次分布圖,并據(jù)此選擇恰當?shù)睦碚摲植?。這些理論分布是多種多樣的,例如有正態(tài)分 布、均勻分布等
9、。然后根據(jù)選擇的理論分布計算出理論次數(shù),就可以計算卡方統(tǒng)計量并進行顯著性檢驗了。若差異顯著,說明所選擇的理論分布不合適,可以再選一個理論分布進行檢驗,直至完全擬合。當然有時也只需檢驗是否與某確定的理論分布相符,如正態(tài)性檢驗(參見教材有關內(nèi)容)。對連續(xù)隨機變量分布的吻合性檢驗, 關鍵的步驟是計算理論次數(shù)與確定自由度。 理論次 數(shù)的計算是按所選理論分布規(guī)律, 并利用觀測數(shù)據(jù)的有關統(tǒng)計量來計算各分組 (次數(shù)分布表 中)理論次數(shù)。自由度則是用分組數(shù)減去計算理論次數(shù)時所用統(tǒng)計量的數(shù)目。這種擬合性檢驗計算較為繁瑣,不做要求。五、小理論次數(shù)時的連續(xù)性校正卡方檢驗中,當某分類理論次數(shù)小于 5時,卡方統(tǒng)計量不能
10、很好地滿足卡方分布,此時需要對卡方統(tǒng)計量進行校正,稱為卡方的連續(xù)性校正,其公式如下:1 ;盡管采用此方法校正后,卡方統(tǒng)計量能較為接近卡方分布,不過我們?nèi)匀唤ㄗh在實際中 最好增大樣本的容量,盡量減少出現(xiàn)這種不大服從理論分布的情況。第二節(jié)獨立性檢驗卡方檢驗還可以用于檢驗兩個或兩個以上因素(各有兩項或以上的分類) 之間是否相互影響的問題,這種檢驗稱為 獨立性檢驗。例如要討論血型與性格的關系,血型有 A、B、AB、 O四類,性格采用心理學上的 A型性格來劃分,即有 A型和B型兩種,每個人可能是它們 之間交叉所形成的 8種類型中的一種,那么倒底它們之間有不有關系,就可以用卡方獨立性檢驗??ǚ姜毩⑿詸z驗用
11、于檢驗兩個或兩個以上因素(各有兩項或以上的分類) 之間是否相互影響的問題。所謂獨立,即無關聯(lián),互不影響,就意味著一個因素各個分類之間的比例關系, 在另一個因素的各項分類下都是相同的,比如在血型與性格關系中,如果A型性格人群中各血型的比例關系,與 B型性格人群中各血型的比例關系相同,就可能說血型與性格相互 獨立,當然這里的兩者比例相同”在統(tǒng)計的意義下,應表述為兩比例差異不超過誤差范圍 ”, 因為就算總體之間相互獨立,收集到兩個比例完全相同的樣本的可能是很小很小的,甚至是不可能的。相反,若一個因素各個分類之間的比例關系,在另一個因素的各項分類下是不同的,則它們之間相關。假如 A型性格中A型血的比例
12、高于 B型性格中A型血的比例,而且 達到顯著水平,那么就可以說血型與性格之間相關,不相互獨立。卡方獨立性檢驗的零假設是各因素之間相互獨立。因此理論次數(shù)的計算也是基于這一假設,具體計算時,采用列聯(lián)表的方式,后面將舉例說明?!纠?】 某校對學生課外活動內(nèi)容進行調(diào)查,結果整理成下表,表中彩色格子里的數(shù)是原始數(shù)據(jù)的匯總數(shù),括號內(nèi)的數(shù)是理論次數(shù)(是按下面將要介紹的原理計算得來的),此 外的是原始數(shù)據(jù)。性別(因素2)課外活動內(nèi)容(因素1)小計和(fx)體育文娛閱讀男生21(15.3)11(10.2)23(29.5)55女生6(11.7)7(7.8)29(22.5)42小計和(fy)27185297由于所有
13、學生參加三項活動的比例是27:18:52,因此如果課外活動的選擇與性別沒有關系的話,男女生參加這三項活動的比例也應是這同一比例,而男女各自的人數(shù)可以計算,所以每格內(nèi)的理論次數(shù)的計算方法如下:男生中參加體育活動的理論人數(shù):55X27/97=15.3參加文娛活動的理論人數(shù):55X18/97=10.2參加閱讀活動的理論人數(shù):55X52/97=29.5女生中參加體育活動的理論人數(shù):42X27/97=11.7參加文娛活動的理論人數(shù):42X18/97= 7.8參加閱讀活動的理論人數(shù):42X52/97=22.5我們將行列的小計和分別用 次數(shù)的方法可以表示為:fx和fy來表示,總人數(shù)用 N來表示時,上述計算理
14、論feij = fx i Xfyj/Nfxy表所以,卡方獨立性檢驗的公式可以表示如下,其中最后一個式子比較便于計算,示每格的原始數(shù)據(jù)。忙-1 pl由于在計算理論次數(shù)時,用了按每個因素分類的小計和( fx和fy,其個數(shù)分別記為R個和C個),和總和 N,而總和又可由按每個因素分類的小計和計算得來,因此若從總 分類個數(shù)RXC中減去R+C,則將總和重復減去了,因此要補1個自由度回來,所以最終獨立性檢驗的自由度表示為:上述例題最終計算得:2 _ (21-15.3)J (11-102)- (23-29.5)J1 = 153102293(6-11.7)2 _7.8)a (29-225F117 78 K5=8
15、.3552或者:=83217止+旦+旦+工+竺_】55x18 55x52 42x27 48x13 42x52這兩個公式的計算結果有一點點差異,這完全是計算誤差即四舍五入引起的。df = (3-1)(2-1) = 2,而X0.05(2) = 5.99,所以在0.05的顯著性水平下,拒絕零假設,即可以認為性別與課外活動內(nèi)容有關聯(lián),或者說男女生在選擇課外活動上存在顯著的差異。四格表獨立性檢驗對于兩個都只作兩項分類的因素,它們的數(shù)據(jù)整理成的是一個2X2的表格,一般稱為四格表,對于四格表教材里給出了一個更簡潔的公式:2N(ad-bc公式中,a、b、c、d的規(guī)定要求是a和d必須呈對角線。該公式的含義非常明
16、確,即 當對角線單元格中的次數(shù)差異越大時,卡方檢驗越容易顯著,自然也就意味著兩變量間的關聯(lián)越密切。掌握了一般的 R*C表計算后,四格表計算相對簡單地多。這里不再展開。注意,在獨立性檢驗中,同樣存在某格的理論次數(shù)小于等于5的問題,如同擬合性檢驗中一樣,我們?nèi)匀唤ㄗh在實際中最好增大樣本的容量,盡量減少出現(xiàn)這種不大服從理論分布的情況。此外,在獨立性檢驗中,若拒絕了零假設,即各因素之間有關聯(lián),則如同方差分析中僅判定了存在交互作用一樣,只是一個總體的結果, 并不能回答具體關聯(lián)的形式的問題。如果各因素之間獨立,則到此為止,若各因素間有關聯(lián),還應該作進一步的分析,具體搞清楚各變量的次數(shù)間是如何關聯(lián)的。對此卡
17、方檢驗有一些辦法,但不如參數(shù)檢驗中那樣嚴格。 卡方獨立性檢驗一般也僅限于兩變量間的關聯(lián)考察,對于多個名義型變量, 往往采用分拆一個變量分別進行獨立性檢驗的辦法, 然后試圖整合多次檢驗的結果。 這種做法就顯得更牽強一些。品質(zhì)相關卡方檢驗既然是用來解決變量間關聯(lián)性的,則也可以構造和積差相關或等級相關系數(shù)一樣的相關程度的度量,稱為品質(zhì)相關。常用的品質(zhì)相關有以下幾種:1、相關系數(shù)相關只適用于四格表, 它要求兩變量是不同性質(zhì)的。相關的公式實際上是根據(jù)四格表的卡方值變換而來的, 通過變換使得其取值大約在正負1之間,這樣便于聯(lián)系一般的相關系數(shù)的含義進行解釋。在卡方檢驗一節(jié),我們曾講到卡方值的大小反映了實際次
18、數(shù)與理論次 數(shù)之間差異的大小,而獨立性檢驗中的理論次數(shù)是根據(jù)兩變量獨立的假設計算出來的,因此卡方值的大小也就反映了兩變量距獨立有多遠,離獨立越遠就越相關,因此卡方值本身就反映了兩變量間相關的程度。相關的計算公式如下:ad-be+5)(c+ +rf)相關系數(shù)依分子的正負號可取正負值。不過,所有的品質(zhì)相關幾乎都不是獨立構造的,而都是對卡方檢驗中卡方統(tǒng)計量的變換。因此實際上,只要進行了卡方獨立性檢驗,則這兩步過程就一次解決了。計算品質(zhì)相關系數(shù)只是為了更好地理解兩變量間關系的密切程度。2、列聯(lián)相關C系數(shù)列聯(lián)相關實際上是將相關的適用情況從四格表擴展到一般的列聯(lián)表。列聯(lián)相關公式的來歷也基本上與 相關相同。列聯(lián)相關公式為:該系數(shù)的取值也在 0和1之間,不會取到1。與使用 相關一樣,使用列聯(lián)相關之前, 最好先檢驗兩變量是否相關,只有兩變量相
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 智能化系統(tǒng)安裝工程合同書
- 水利水電工程勞務承包合同
- 土地使用權征收補償合同協(xié)議
- 影視劇本供應與購買合同書版
- 規(guī)范化離婚合同文本范文
- 采購合同簡版-鋼材專項
- 婦科培訓課件模板
- 小學生唱音階課件圖片
- 公證員網(wǎng)絡知識產(chǎn)權考核試卷
- 墨水制備實驗室建設與管理考核試卷
- 中小學領導班子包級包組包班制度
- 汽車掛靠經(jīng)營合同協(xié)議書模板
- 基坑土方開挖專項施工方案(完整版)
- 電網(wǎng)工程設備材料信息參考價(2024年第四季度)
- 2025年江蘇農(nóng)牧科技職業(yè)學院高職單招職業(yè)技能測試近5年??及鎱⒖碱}庫含答案解析
- 數(shù)據(jù)中心運維服務投標方案(技術標)
- 瑞幸對賭協(xié)議
- 幼兒園一日活動流程教師培訓
- 2024-2025學年山東省濰坊市高一上冊1月期末考試數(shù)學檢測試題(附解析)
- 征信入校園教育課件
- 部編人教版四年級下冊道德與法治全冊教案
評論
0/150
提交評論