卡方檢驗(yàn)講解_第1頁
卡方檢驗(yàn)講解_第2頁
卡方檢驗(yàn)講解_第3頁
卡方檢驗(yàn)講解_第4頁
卡方檢驗(yàn)講解_第5頁
已閱讀5頁,還剩33頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

χ2檢驗(yàn)(Chi-squaretest)是現(xiàn)代統(tǒng)計(jì)學(xué)的創(chuàng)始人之一,英國(guó)人K.Pearson(1857-1936)于1900年提出的一種具有廣泛用途的統(tǒng)計(jì)方法,可用于兩個(gè)率或構(gòu)成比間的比較,多個(gè)率或構(gòu)成比間的比較,多個(gè)樣本率比較的χ2分割,兩個(gè)分類變量間有無關(guān)聯(lián)性,擬合優(yōu)度的χ2檢驗(yàn)等等。

卡方檢驗(yàn)重點(diǎn)掌握:1.卡方檢驗(yàn)的基本思想;2.完全隨機(jī)設(shè)計(jì)和配對(duì)設(shè)計(jì)四格表資料卡方檢驗(yàn)的步驟及應(yīng)用條件;3.行×列表資料的卡方檢驗(yàn)及應(yīng)用中應(yīng)注意的問題。主要內(nèi)容:1.卡方檢驗(yàn)的基本思想;2.四格表資料的卡方檢驗(yàn);3.行×列表資料的卡方檢驗(yàn);4.率的多重比較;5.頻數(shù)分布擬合優(yōu)度的卡方檢驗(yàn);6.四格表資料的確切概率法;

7.線性趨勢(shì)檢驗(yàn)。χ2分布的特征:

(1)χ2分布是一種連續(xù)型分布,其形狀依賴于自由度ν的大?。寒?dāng)自由度ν≤2時(shí),曲線呈L型;隨著ν的增加,曲線逐漸趨于對(duì)稱;當(dāng)自由度ν∞時(shí),χ2分布趨向正態(tài)分布。

(2)χ2分布具有可加性:如果兩個(gè)獨(dú)立的隨機(jī)變量X1和X2分別服從自由度n1和n2的χ2分布,那么它們的和(X1+X2)服從自由度n1+n2的χ2分布。

(3)χ2分布的分位數(shù):當(dāng)自由度ν確定后,χ2分布曲線下右側(cè)尾部的面積為α?xí)r,橫軸上相應(yīng)的χ2值記作χ2α,ν

即χ2分布的分位數(shù)。v=1v=4v=6v=9例7-1某神經(jīng)內(nèi)科醫(yī)師欲比較A、B兩種藥治療腦血管栓塞病人的療效,將病情、病程相近且滿足試驗(yàn)入選標(biāo)準(zhǔn)的156例腦血管栓塞患者隨機(jī)分為兩組,結(jié)果見表7-1。問兩藥治療近期有效率是否有差別?表7-1兩藥治療腦血管病有效率比較第一節(jié)卡方檢驗(yàn)的基本思想藥物有效無效合計(jì)有效率(%)A73(65.7)9(16.3)8289.02B52(59.3)22(14.7)7470.27合計(jì)1253115680.132.卡方檢驗(yàn)的基本思想實(shí)際頻數(shù)A

(actualfrequency)(a、b、c、d)的理論頻數(shù)T(theoreticalfrequency)(H0:π1=π2=π):a的理論頻數(shù)=(a+b)×pc=(a+b)×[(a+c.)/n]=nRnC/n=65.7b的理論頻數(shù)=(a+b)×(1-pc)=(a+b)×[(b+d.)/n]=nRnC/n=16.3c的理論頻數(shù)=(c+d)×pc=(c+d)×[(a+c)/n]=nRnC/n=59.7d的理論頻數(shù)=(c+d)×(1-pc)=(c+d)×[(b+d.)/n]=nRnC/n=14.32.卡方檢驗(yàn)的基本思想卡方檢驗(yàn)的基本思想可以通過卡方檢驗(yàn)的基本公式來理解。從基本公式可以體會(huì)到卡方值反映了實(shí)際頻數(shù)和理論頻數(shù)吻合的程度。A與T相差越大,則(A-T)2的值越大,反之則越小。然而由(A-T)2的值來衡量實(shí)際頻數(shù)與理論頻數(shù)相差的程度,尚有不足之處。因?yàn)榻^對(duì)差異值的大小還不能完全表示相差的程度,例如:某一資料的實(shí)際頻數(shù)為386,理論頻數(shù)為380,另一資料實(shí)際頻數(shù)為20,理論頻數(shù)為14,兩者的(A-T)2均為36,然而前者為386例中僅差6,后者在20例中就差6,兩者所占的比重極不相同。為彌補(bǔ)這一缺點(diǎn),需把(A-T)2的值變?yōu)橄鄬?duì)數(shù),即把(A-T)2的值與相應(yīng)的理論頻數(shù)T值相比,即(A-T)2/T,以此來反映(A-T)2應(yīng)占的比重。將每組的(A-T)2/T的值相加,即得基本公式。(A-T)2為什么與理論頻數(shù)T相比,而不是與實(shí)際頻數(shù)A相比?其理由是:①當(dāng)理論頻數(shù)的數(shù)值極小時(shí),由于抽樣誤差可使實(shí)際頻數(shù)為零,所以不如用理論頻數(shù)可靠;②理論頻數(shù)是大量的經(jīng)驗(yàn)和自然規(guī)律推算得來,而實(shí)際頻數(shù)來自有限的樣本,變動(dòng)較大,所以用理論頻數(shù)比較合理。

各種情形下,理論頻數(shù)與實(shí)際頻數(shù)偏離的總和即為卡方值(chi-squarevalue),它服從自由度為ν的卡方分布。2.卡方檢驗(yàn)的基本思想

上述基本公式由Pearson提出,因此軟件上常稱這種檢驗(yàn)為Pearson卡方檢驗(yàn),下面將要介紹的其他卡方檢驗(yàn)公式都是在此基礎(chǔ)上發(fā)展起來的。它不僅適用于四格表資料,也適用于其它的“行×列表”。2.卡方檢驗(yàn)的基本思想二、四格表資料的χ2檢驗(yàn)

(一)四格表資料的χ2檢驗(yàn)的基本步驟1、建立檢驗(yàn)假設(shè),確定檢驗(yàn)水準(zhǔn)H0

1=2H1

1

2

=0.05。2、計(jì)算檢驗(yàn)統(tǒng)計(jì)量ν=(2-1)(2-1)=13、確定p值,作出推斷結(jié)論查ν=1的χ2界值表得P<0.05,按=0.05水準(zhǔn),拒絕H0,接受H1,差別有統(tǒng)計(jì)學(xué)意義,可以認(rèn)為A、B兩藥治療有效率有差別

。(二)四格表專用公式

為了不計(jì)算理論頻數(shù)T,

當(dāng)n

40,所有T

5時(shí),可由基本公式推導(dǎo)出,直接由各格子的實(shí)際頻數(shù)(a、b、c、d)計(jì)算卡方值的公式:四格表專用公式結(jié)果與基本公式計(jì)算的相同當(dāng)n

40,所有T

5時(shí),

2(1)~u2將上例例數(shù)據(jù)代入專用公式,得(三)四格表資料卡方檢驗(yàn)的校正

χ2分布是一連續(xù)型分布,而行×列表資料屬離散型分布,對(duì)其進(jìn)行校正稱為連續(xù)性校正(correctionforcontinuity),又稱Yates校正(Yates'correction)。⑴當(dāng)n≥40,且所有T

5時(shí),用基本公式或四格表專用公式;當(dāng)P≈α?xí)r,用四格表資料的Fisher確切概率法。⑵當(dāng)n≥40,而1≤T<5時(shí),用連續(xù)性校正公式。⑶當(dāng)n<40或T<1時(shí),用四格表資料的Fisher確切概率法。校正公式:例7-2某醫(yī)師采用復(fù)合氨基酸膠囊治療肝硬化病人,觀察兩組病人指標(biāo)ALT的變化,數(shù)據(jù)見表7-2,試比較治療后兩組病情改善率是否有差別。四格表資料卡方檢驗(yàn)的校正公式分組改善未改善合計(jì)有效率(%)實(shí)驗(yàn)組23(20.24)2(4.76)2592.00對(duì)照組11(13.76)6(3.24)1764.71合計(jì)3484280.95因?yàn)?<T<5,且n>40時(shí),所以應(yīng)用連續(xù)性校正χ2檢驗(yàn)表7-2復(fù)合氨基酸膠囊對(duì)肝硬化病人病情改善效果分析

在計(jì)量資料方面,同一對(duì)象試驗(yàn)前后差別的統(tǒng)計(jì)意義檢驗(yàn)(或個(gè)別配對(duì)資料)與兩個(gè)樣本均數(shù)差別的統(tǒng)計(jì)意義檢驗(yàn)方法是不同的,在計(jì)數(shù)資料方面也是如此。下面討論配對(duì)設(shè)計(jì),試驗(yàn)結(jié)果為“二分類”的計(jì)數(shù)資料,從設(shè)計(jì)來說,與前面介紹的計(jì)量資料配對(duì)t檢驗(yàn)是一樣的,配對(duì)計(jì)數(shù)數(shù)據(jù)的結(jié)果僅有四種情況。三、配對(duì)設(shè)計(jì)分類變量資料的χ2檢驗(yàn)甲乙合計(jì)+-+aba+b-cdc+d合計(jì)a+cb+dn配對(duì)四格表形式分組+-合計(jì)甲aba+b乙cdc+d合計(jì)a+cb+dn一般四格表形式例7-3某研究組采用病理(甲法)與超聲(乙法)檢查兩種方法,檢查確診乳腺癌患者257例,結(jié)果見表7-4,問兩種方法檢出率是否有差別?表7-4兩種方法的檢驗(yàn)結(jié)果

甲法乙法合計(jì)+-+130(a)75(b)205-11(c)41(d)52合計(jì)141116257配對(duì)四格表資料的χ2檢驗(yàn)也稱McNemar檢驗(yàn)H0:兩種方法的總體檢出率相同,即兩總體B=C

H1:兩種方法的總體檢出率不同,即兩總體B≠Cα=0.05已知b=75,c=11,b+c≥40,故將其代入上面公式,有按α=0.05水準(zhǔn)拒絕H0,接受H1,有統(tǒng)計(jì)學(xué)意義,故可認(rèn)為兩種方法的檢出率不同,病理檢查檢出率(205/257)高于超聲檢查(141/257)。配對(duì)四格表資料的χ2檢驗(yàn)公式推導(dǎo)第三節(jié)、行×列表資料的χ2檢驗(yàn)(一)多個(gè)樣本率的比較(二)兩組或多組構(gòu)成比的比較(三)行×列表資料的關(guān)聯(lián)性檢驗(yàn)

(四)行×列表χ2檢驗(yàn)的注意事項(xiàng)R×C表的χ2檢驗(yàn)通用公式(一)多個(gè)樣本率的比較例7-4將133例尿路感染患者隨機(jī)分為3組,接受甲法治療44例,接受乙法治療45例,接受丙法治療44例。一個(gè)療程后檢測(cè)尿路感染陰轉(zhuǎn)情況,結(jié)果整理見表7-5,問三種療法尿培養(yǎng)陰轉(zhuǎn)率是否有差別?

表7-5三種療法對(duì)尿路感染患者的治療效果療法陰轉(zhuǎn)人數(shù)陽性人數(shù)合計(jì)陰轉(zhuǎn)率%)甲30144468.2乙9364520.0丙32124472.7合計(jì)716213353.41、建立檢驗(yàn)假設(shè),確定檢驗(yàn)水準(zhǔn)H0

1=2=3H1

1

、2

、3不全相等=0.052、計(jì)算檢驗(yàn)統(tǒng)計(jì)量ν=(3-1)(2-1)=23、確定p值,作出推斷結(jié)論查ν=2的χ2界值表,得P<0.005。按=0.05水準(zhǔn)拒絕H0,接受H1,差別有統(tǒng)計(jì)學(xué)意義,故可認(rèn)為3種療法對(duì)尿路感染療效有差別。

(二)兩組或多組構(gòu)成比的比較例7-5某院對(duì)胃鏡檢測(cè)胃十二指腸球部潰瘍患者239例和健康輸血員187例血型分布資料整理見表7-6,問胃十二指腸球部潰瘍患者與健康輸血員血型分布是否不同?239例胃十二指腸疾病患者與187例健康輸血員血型分布分組ABABO合計(jì)胃十二指腸疾病組476620106239健康輸血員組52541962187合計(jì)99120391684261、建立檢驗(yàn)假設(shè),確定檢驗(yàn)水準(zhǔn)H0:胃十二指腸疾病患者與健康輸血員血型分布的構(gòu)成相同;H1:胃十二指腸疾病患者與健康輸血員血型分布的構(gòu)成不同

=0.052、計(jì)算檢驗(yàn)統(tǒng)計(jì)量3、確定p值,作出推斷結(jié)論查χ2界值表,得P>0.05,以

=0.05水準(zhǔn),不拒絕H0,差別無統(tǒng)計(jì)學(xué)意義,尚不能認(rèn)為胃十二指腸疾病患者與健康輸血員血型分布的構(gòu)成不同。三、行×列表資料的關(guān)聯(lián)性檢驗(yàn)例7-6某醫(yī)院觀察了三年間四個(gè)季節(jié)中四種甲狀腺疾病檢出情況,整理結(jié)果如表7-7,問四種甲狀腺疾病檢出情況是否與季節(jié)有關(guān)聯(lián)?疾病分類季節(jié)合計(jì)春夏秋冬甲亢4114512942841440亞甲炎2493293312041113甲低60615952232甲狀腺腫瘤45504640181合計(jì)7658917305802966表7-7某院季節(jié)與甲狀腺疾病檢出情況關(guān)聯(lián)性分析1、建立檢驗(yàn)假設(shè),確定檢驗(yàn)水準(zhǔn)H0:甲狀腺疾病的檢出與季節(jié)無關(guān)聯(lián);H1:甲狀腺疾病的檢出與季節(jié)有關(guān)聯(lián)

=0.052、計(jì)算檢驗(yàn)統(tǒng)計(jì)量3、確定p值,作出推斷結(jié)論查χ2界值表,得P<0.005,以

=0.05水準(zhǔn),拒絕H0,接受H1,差別有統(tǒng)計(jì)學(xué)意義,可認(rèn)為甲狀腺疾病的檢出情況與季節(jié)有關(guān)聯(lián)。

欲進(jìn)一步說明兩變量間關(guān)聯(lián)程度的大小,可計(jì)算列聯(lián)系數(shù),常用的有:Pearson列聯(lián)系數(shù)

Cramér列聯(lián)系數(shù)(修正)式中,:根據(jù)樣本資料計(jì)算的值;:樣本含量;:取和列聯(lián)系數(shù)值界于0-1之間,列聯(lián)系數(shù)為0表示尚不能認(rèn)為兩變量間有關(guān)聯(lián);列聯(lián)系數(shù)愈接近于1,可認(rèn)為兩變量間的關(guān)聯(lián)程度越高。中的較小者。本例由此看出甲狀腺疾病的檢出雖然與季節(jié)有關(guān)聯(lián)性,但數(shù)值較小,盡管有統(tǒng)計(jì)學(xué)意義,但兩變量間關(guān)聯(lián)性較小。四、R×C表χ2檢驗(yàn)注意事項(xiàng)1.計(jì)算x2值時(shí),必須用絕對(duì)數(shù),而不能用相對(duì)數(shù),因?yàn)閤2值的大小與頻數(shù)大小有關(guān)。2.x2檢驗(yàn)要求理論數(shù)不宜太小,否則有可能導(dǎo)致分析的偏性。理論頻數(shù)太小界定為:有1/5以上格子的理論頻數(shù)小于5大于等于1,或至少有1個(gè)格子的理論頻數(shù)小于1。長(zhǎng)期以來,對(duì)于理論頻數(shù)太小的情形,大致有3種處理方法:①適量增大樣本含量,增大理論頻數(shù);②相鄰組進(jìn)行合理歸并。按專業(yè)知識(shí)考慮,將理論數(shù)太小的行(或列)的實(shí)際頻數(shù)與性質(zhì)相近的鄰行(或鄰列)合并;③舍棄部分?jǐn)?shù)據(jù)。在無法實(shí)施前兩條措施時(shí),考慮刪除理論頻數(shù)太小的行或列,但這種做法會(huì)損失資料的部分信息;④采用確切概率法,可由SAS、SPSS軟件實(shí)現(xiàn)。

3.行×列表資料檢驗(yàn)的結(jié)果分析

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論