卡方檢驗完整版本_第1頁
卡方檢驗完整版本_第2頁
卡方檢驗完整版本_第3頁
卡方檢驗完整版本_第4頁
卡方檢驗完整版本_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

PAGEPAGE4第16章無序分類變量的統(tǒng)計推斷——卡方檢驗通過前面的介紹可以知道,變量可以被分為連續(xù)性變量(定距、定比)和分類變量,后者又被細分為有序、無序變量兩種。對于各組所在總體的定量變量(即連續(xù)性變量)的平均水平,可以使用t檢驗和方差分析方法進行比較,秩和檢驗則用于比較各組所在總體為有序分類變量的分布情況是否相同。這里將要介紹的卡方檢驗主要用于無序分類變量的統(tǒng)計推斷,是在應用的程度上可以和t檢驗相媲美的另一種常用檢驗方法。連續(xù)變量兩組t檢驗多組方差分析分類變量有序秩和檢驗無序卡方檢驗16.1卡方檢驗概述16.1.1卡方檢驗的基本原理1.卡方檢驗的基本思想卡方檢驗是以χ2分布為基礎的一種常用假設檢驗方法,它的無效假設為H0是:觀察頻數(shù)與期望頻數(shù)沒有差異??ǚ綑z驗的基本思想是:首先假設H0成立,基于此前提計算出χ2值,它表示觀察值與理論值之間的偏離程度。根據(jù)χ2分布及自由度可以確H0假設成立的情況下獲得當前統(tǒng)計量及更極端情況的概率P。如果P值很小,說明觀察值與理論值偏離程度太大,應當拒絕原假設,表示比較資料之間有顯著差異;否則不能拒絕無效假設,尚不能認為樣本所代表的實際情況和理論假設有差別。2.卡方值的計算與意義見復印資料柯惠新等人編著《調(diào)查研究中的統(tǒng)計分析法》卡方統(tǒng)計量,由于它最初是由英國統(tǒng)計學家KarlPearson在1900年首次提出的,因此也稱之為Pearsonχ2。由卡方的計算公式可知,當觀察頻數(shù)與期望頻數(shù)完全一致時,χ2值為0;觀察頻數(shù)與期望頻數(shù)越接近,兩者之間的差異越小,χ2值越??;反之,觀察頻數(shù)與期望頻數(shù)差別越大,兩者之間的差異越大,χ2值越大。換言之,大的χ2值表明觀察頻數(shù)遠離期望頻數(shù),即表明遠離假設。3.卡方檢驗的樣本量要求一般認為,對于卡方檢驗中的每一個單元格,要求其最小期望頻數(shù)均大于1,且至少有4/5的單元格期望頻數(shù)大于5,此時使用卡方分布計算出的概率值才是準確的。16.1.2卡方檢驗的用途卡方檢驗最常間的用途就是考察無序分類變量各水平在兩組或多組之間的分布是否一致。實際上,除了這個用途之外,卡方檢驗還有更廣泛的應用。具體而言,其用途主要包括以下幾個方面。(1)檢驗某個連續(xù)變量的分布是否與某種理論分布相一致。如是否符合正態(tài)分布、是否服從均勻分布、是否服從Poisson分布等。(2)檢驗某個分類變量出現(xiàn)的概率是否等于指定概率。如在36選7的彩票抽獎中,每個數(shù)字出現(xiàn)的概率是否各為1/36;擲硬幣時,正反兩面出現(xiàn)的概率是否均為0.5。(3)檢驗某兩個分類變量是否相互獨立。如吸煙(二分類變量:是、否)是否與呼吸道疾?。ǘ诸愖兞浚菏恰⒎瘢┯嘘P;產(chǎn)品原料種類(多分類變量)是否與產(chǎn)品合格(二分類變量)有關。(4)檢驗控制某種或某幾種分類因素的作用以后,另兩個分類變量是否相互獨立。如在上例中,控制性別、年齡因素影響以后,吸煙是否和呼吸道疾病有關;控制產(chǎn)品加工工藝的影響后,產(chǎn)品原料類別是否與產(chǎn)品合格有關。(5)檢驗某兩種方法的結果是否一致。如采用兩種診斷方法對同一批人進行診斷,其診斷結果是否一致;采用兩種方法對客戶進行價值類別預測,預測結果是否一致。16.1.3SPSS中的相應功能1.非參數(shù)分布檢驗中的卡方檢驗準確地說,這里提供的就是檢驗某個分類變量各類的出現(xiàn)概率是否等于指定概率的分布檢驗。2.交叉表過程主要用于針對兩個/多個分類變量的交叉表進行其關聯(lián)程度的卡方檢驗,并可進一步計算出關聯(lián)程度指標等,上面提到的卡方檢驗用途中的后三項都可以在該過程中實現(xiàn),而人們一般所說的卡方檢驗也就是指該過程中的相應功能。--單樣本案例:考察抽樣數(shù)據(jù)的性別分布--兩樣本案例:不同收入級別家庭的轎車擁有率比較--兩分類變量間的關聯(lián)程度的度量--一致性檢驗與配對卡方檢驗--分層卡方檢驗16.2單樣本案例:考察抽樣數(shù)據(jù)的性別分布從已知的樣本數(shù)據(jù)出發(fā),來判斷總體各取值水平出現(xiàn)的概率是否與已知概率相符,即該樣本是否的確來自已知總體的分布。這就是本節(jié)所說的單樣本概率與總體率的比較,也有人稱它為擬合問題,在統(tǒng)計學中可以利用(單樣本)卡方檢驗來回答此問題。在實踐工作中,有許多單樣本率與總體率進行比較的例子。如骰子是否公平,檢驗各面出現(xiàn)的概率是否各等于1/6;檢驗彩票中獎號碼的分布是否均勻分布,以檢驗彩票開獎是否作弊;國家人口老齡化問題是否更嚴重了;某產(chǎn)品的市場占有份額是否較以前更大;某病的發(fā)病率是否較前降低等。16.2.1案例分析例16.1以卡方檢驗考察2007年4月的性別分布是否均衡。“分析”——“非參數(shù)檢驗”——“卡方”菜單項卡方檢驗S2.性別觀察數(shù)期望數(shù)殘差男165150.015.0女135150.0-15.0總數(shù)300152152/150+(-15)2/150=3S2.性別卡方顯著性P值為0.083,大于0.05,不顯著,不能拒絕原假設。尚不能認為CCSS抽樣數(shù)據(jù)的性別分布有差異。3.000顯著性P值為0.083,大于0.05,不顯著,不能拒絕原假設。尚不能認為CCSS抽樣數(shù)據(jù)的性別分布有差異。df1漸近顯著性.083a.0個單元(.0%)具有小于5的期望頻率。單元最小期望頻率為150.0。思考:自由度(df)=1是怎么計算得來的?16.3兩樣本案例:不同收入級別家庭的轎車擁有率比較例16.2在CCSS的分析報告中,所有受訪家庭會按照家庭年收入被分為低收入家庭和中高收入家庭兩類,現(xiàn)希望考察不同收入級別的家庭其轎車擁有率是否相同。操作說明及結果解釋“分析”——“描述統(tǒng)計”——“交叉表”菜單項行:家庭收入兩級Ts9列:是否擁有家庭轎車O1單元顯示:行百分比統(tǒng)計量:卡方確定交叉表家庭收入2級*O1.是否擁有家用轎車交叉制表O1.是否擁有家用轎車合計有沒有家庭收入2級Below48,000計數(shù)32303335家庭收入2級中的%9.6%90.4%100.0%Over48,000計數(shù)225429654家庭收入2級中的%34.4%65.6%100.0%合計計數(shù)257732989家庭收入2級中的%26.0%74.0%100.0%家庭收入2級*O1.是否擁有家用轎車交叉制表O1.是否擁有家用轎車合計有沒有家庭收入2級Below48,000計數(shù)32303335期望的計數(shù)87.1247.9335.0家庭收入2級中的%9.6%90.4%100.0%Over48,000計數(shù)225429654期望的計數(shù)169.9484.1654.0家庭收入2級中的%34.4%65.6%100.0%合計計數(shù)257732989期望的計數(shù)257.0732.0989.0家庭收入2級中的%26.0%74.0%100.0%首先給出的是家庭收入級別和轎車擁有情況的交叉表,可見低收入家庭中只有10%擁有轎車,而中高收入家庭中有34%擁有轎車,樣本數(shù)據(jù)的差異很明顯,但該差異是否具有統(tǒng)計學意義尚需進行檢驗??ǚ綑z驗值df漸進Sig.(雙側)精確Sig.(雙側)精確Sig.(單側)Pearson卡方71.1341.000連續(xù)校正b69.8481.000似然比80.1461.000Fisher的精確檢驗.000.000線性和線性組合71.0621.000有效案例中的N989a.0單元格(.0%)的期望計數(shù)少于5。最小期望計數(shù)為87.05。b.僅對2x2表計算上表為卡方檢驗結果表。最下方的腳注內(nèi)容:在該4格表中,沒有單元格(0%)的期望頻數(shù)小于5,其中期望頻數(shù)最少的那個單元格的期望頻數(shù)為87.05。該腳注充分說明,本樣本的樣本量(及其單元格分布)完全滿足Pearson卡方的要求,因此可以放心地閱讀最常用的Pearson卡方的檢驗結果。對表中呈現(xiàn)的其他幾種統(tǒng)計值不做掌握要求。16.4兩分類變量間關聯(lián)程度的度量卡方檢驗可以從定性的角度告訴用戶兩個變量是否存在關聯(lián),當拒絕H0時,在統(tǒng)計上有把握認為兩個變量存在關聯(lián)。但接下來的問題是,如果變量之間存在相關性,它們之間的關聯(lián)強度有多大,有沒有什么指標可以客觀表示其大???16.4.1相對危險度與優(yōu)勢比在實際應用中,卡方值的大小可以粗略地反映兩變量聯(lián)系的強弱,但是這很難有更貼近實際的解釋,只從從它的大小上獲得一個關聯(lián)強弱的印象。但是如果有一個指標能夠告訴研究者:男性購買該產(chǎn)品的可能性是女性的3倍,這就非常容易理解。相對危險度(RelativeRisk,RR)和優(yōu)勢比(OddsRatio,OR,也可翻譯成比數(shù)比)就可以滿足這一要求。它們與其他關聯(lián)測量參數(shù)的最大不同之處在于,RR值和OR值關心的是,行變量某一水平和列變量某一水平相對于基礎水平的關聯(lián)程度,即不同水平間的比較,而上述的關聯(lián)測量參數(shù)關心的則是行變量各水平和列變量各水平的關聯(lián)程度。1.相對危險度RR值是一個概率的比值,是指實驗組人群反應陽性概率與對照組人群反應陽性概率的比值。用公式表示為:RR=Pt/Pc=a/nt/c/nc其中,Pt為實驗組人群反應陽性概率,Pc為對照組人群反應陽性概率,nt為實驗組總人數(shù),a為實驗組反應陽性人數(shù),nc為對照組總人數(shù),c為對照組反應陽性人數(shù)。RR值用于反映實驗因素與反應陽性的關聯(lián)程度。取值范圍從0到無限大。數(shù)值為1時,表明實驗因素與反應陽性無關聯(lián);小于1時,表明實驗因素導致反應陽性的發(fā)生率降低;大于1時,表明實驗因素導致反應陽性的發(fā)生率增加。2.優(yōu)勢比顯然,RR的解釋非常容易理解,但是RR的計算要求得到的反應概率,由于在回顧性研究中,很難求得人群反應概率的估計值,因此也無法計算RR值的估計,此時研究者往往使用OR值代替RR值,來反映實驗因素與對照因素的關聯(lián)強度。OR值是一個比值的比,是反應陽性人群中實驗因素有無的比率與反應陰性的人群中實驗因素有無的比例之比。計算公式可以表示為:OR=a/b/c/d=ad/bc其中,a為反應陽性組實驗組人數(shù),b為反應陽性組對照組人數(shù),c為反應陰性組實驗組人數(shù),d為反應陰性組控制組人數(shù),顯然,如果OR大于1,則說明該實驗因素更容易導致結果為陽性,或者說,采用的實驗因素和結果為陽性有關聯(lián)。16.4.2案例:計算家庭收入級別和轎車擁有情況的關聯(lián)程度16.3節(jié)中已經(jīng)對家庭收入級別和轎車擁有情況的4格表做了卡方檢驗,結果顯示兩者之間存在聯(lián)系,中高收入家庭的轎車擁有比例更高。此外,我們還可以使用RR和OR等一系列指標來對其關聯(lián)程度加以定量描述。利用SPSS軟件直接求得相應的數(shù)值。-“分析”——“描述統(tǒng)計”——“交叉表”菜單項-行:家庭收入兩級-列:是否擁有家庭轎車-統(tǒng)計量:選中“風險”-確定家庭收入2級*O1.是否擁有家用轎車交叉制表O1.是否擁有家用轎車合計有沒有家庭收入2級Below48,000計數(shù)32303335家庭收入2級中的%9.6%90.4%100.0%Over48,000計數(shù)225429654家庭收入2級中的%34.4%65.6%100.0%合計計數(shù)257732989家庭收入2級中的%26.0%74.0%100.0%(1)優(yōu)勢比OR是兩個比數(shù)的比。某個事件的(1)優(yōu)勢比OR是兩個比數(shù)的比。某個事件的比數(shù)是它發(fā)生的概率除以不發(fā)生的概率。在本例中,低收入家庭擁有轎車的比數(shù)是9.6%/90.4%=0.106,中高收入家庭擁有家庭轎車的比數(shù)是34.4%/65.6%=0.524,則OR值(即優(yōu)勢比)等于0.106/0.524=0.201,該指標的95%CI同樣不包括1,說明該數(shù)值的確是不等于1的(有統(tǒng)計學差異)。值95%置信區(qū)間下限上限家庭收入2級(Below48,000/Over48,000)的幾率比.201.135.300用于cohortO1.是否擁有家用轎車=有.278.196.392用于cohortO1.是否擁有家用轎車=沒有1.3791.2911.472有效案例中的N989(3)相應地,兩組家庭不擁有家庭轎車的概率則是兩個人群不用有轎車的概率之比,其估計值為90.4%/65.6%=1.379,即低收入家庭不擁有轎車的概率是中高收入家庭的1.379倍(當然,從這個案例背景而言,更應關心的是0.278這個數(shù)據(jù)),該數(shù)值的95%CI同樣也不包括1。(2)(3)相應地,兩組家庭不擁有家庭轎車的概率則是兩個人群不用有轎車的概率之比,其估計值為90.4%/65.6%=1.379,即低收入家庭不擁有轎車的概率是中高收入家庭的1.379倍(當然,從這個案例背景而言,更應關心的是0.278這個數(shù)據(jù)),該數(shù)值的95%CI同樣也不包括1。(2)對于不同收入的家庭而言,其擁有家庭轎車的相對危險度是兩組人群擁有轎車的概率之比,其估計值是9.6%/34.4%=0.278,即低收入家庭擁有轎車的概率是中高收入家庭的0.278倍,或者倒過來講,中高收入家庭擁有轎車的概率是低收入家庭的1/0.278=3.597倍。且其95%CI不包括1,具有統(tǒng)計學意義。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論