數(shù)學(xué)卡方檢驗(yàn)_第1頁
數(shù)學(xué)卡方檢驗(yàn)_第2頁
數(shù)學(xué)卡方檢驗(yàn)_第3頁
數(shù)學(xué)卡方檢驗(yàn)_第4頁
數(shù)學(xué)卡方檢驗(yàn)_第5頁
已閱讀5頁,還剩34頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

數(shù)學(xué)卡方檢驗(yàn)第1頁/共39頁第14章無序分類變量的統(tǒng)計(jì)推斷——χ2檢驗(yàn)第2頁/共39頁第14章無序分類變量的統(tǒng)計(jì)推斷——χ2檢驗(yàn)14.1

χ2檢驗(yàn)基礎(chǔ)14.2擬合問題—樣本率與已知總體率的比較14.3相關(guān)問題—兩(多)個(gè)率或構(gòu)成比的比較第3頁/共39頁第14章無序分類變量的統(tǒng)計(jì)推斷——χ2檢驗(yàn)變量可以分為連續(xù)性變量和分類變量,而分類變量又可以分為無序和有序兩種。對(duì)于分組所在總體定量變量平均水平的比較,可以使用t檢驗(yàn)和方差分析來分析。第4頁/共39頁第14章無序分類變量的統(tǒng)計(jì)推斷——χ2檢驗(yàn)秩和檢驗(yàn)則用于比較各組所在總體有序分類變量的分布情況是否相同。χ2檢驗(yàn)則用于檢驗(yàn)?zāi)碂o序分類變量各水平在兩組或多組間的分布是否一致。除此之外,還可以用于檢驗(yàn)一個(gè)分類變量各水平出現(xiàn)的概率是否等于指定概率,一個(gè)連續(xù)變量的發(fā)表是否符合某種理論分布等。第5頁/共39頁14.1

χ2檢驗(yàn)基礎(chǔ)14.1.1

χ2檢驗(yàn)原理14.1.2

χ2值的計(jì)算與意義14.1.3

χ2分布第6頁/共39頁14.1.1

χ2檢驗(yàn)原理χ2檢驗(yàn)是以χ2分布為基礎(chǔ)的一種常用假設(shè)檢驗(yàn)方法。主要用于分類變量,根據(jù)樣本數(shù)據(jù)推斷總體的分布是否有顯著性差異,或推斷兩個(gè)分類變量是否相互關(guān)聯(lián)或相互獨(dú)立。原假設(shè)H0:觀察頻數(shù)與期望頻數(shù)沒有差別第7頁/共39頁14.1.1

χ2檢驗(yàn)原理例如:在某次考試結(jié)束后,對(duì)不同成績進(jìn)行統(tǒng)計(jì),問樣本的測(cè)量頻數(shù)Ai與期望頻數(shù)Ei差異是否顯著。分?jǐn)?shù)段測(cè)量頻數(shù)Qi期望頻數(shù)Ei0-60分0160-75分4675-85分8885-100分43第8頁/共39頁14.1.2

χ2值的計(jì)算與意義c2統(tǒng)計(jì)量其中,Ai為水平的觀察頻數(shù),Ei為水平的期望頻數(shù),n為總頻數(shù),pi為i水平的期望頻率。c2值越大,觀察頻數(shù)與期望頻數(shù)差異越大。第9頁/共39頁14.1.3

χ2分布當(dāng)n比較大時(shí),c2統(tǒng)計(jì)量近似服從自由度為k-1的c2分布。根據(jù)樣本計(jì)算出χ2值,結(jié)合χ2分布計(jì)算出p值p=Sig.=P(χ2>χ2值)在給定的顯著性水平a下,若Sig.<a,則拒絕原假設(shè),認(rèn)為觀察頻數(shù)與期望頻數(shù)不一致。第10頁/共39頁14.2擬合問題——樣本率與已知總體率的比較14.2.1分析實(shí)例14.2.2檢驗(yàn)方法的SPSS實(shí)現(xiàn)14.2.3單樣本χ2檢驗(yàn)的其他話題第11頁/共39頁14.2擬合問題——樣本率與已知總體率的比較假設(shè)一總體中,某個(gè)變量的可能取值有n個(gè)水平,現(xiàn)在已知有一個(gè)樣本,該樣本中變量的可能取值也只有這n個(gè)水平,即一批分類數(shù)據(jù),現(xiàn)在需要從這批分類數(shù)據(jù)出發(fā),來判斷總體各取值水平出現(xiàn)的概率是否與已知概率相符,即該樣本是否的確來自已知的總體分布。這就是本節(jié)所說的樣本率與已知總體率的比較問題,也稱為擬合問題。第12頁/共39頁14.2.1分析實(shí)例例14.1某公司經(jīng)營多年,形成了一套成熟的企業(yè)文化和管理體系,例如根據(jù)多年的運(yùn)營經(jīng)驗(yàn),經(jīng)理層、監(jiān)察員、辦事員三種職務(wù)類別的比例大約在15:5:80為宜,這樣運(yùn)行效率最高。兩年前公司原管理層集體退居二線,新任管理層上任后對(duì)公司結(jié)構(gòu)進(jìn)行了較大的變動(dòng),有員工擔(dān)心這是否導(dǎo)致了職務(wù)類別比例的失調(diào),影響了公司的高效運(yùn)行。第13頁/共39頁14.2.1分析實(shí)例目前三種職務(wù)的人數(shù)之比為84:27:363,如何用數(shù)據(jù)分析來解決此問題呢?上述問題是一個(gè)有關(guān)樣本構(gòu)成比與總體構(gòu)成比進(jìn)行比較的統(tǒng)計(jì)學(xué)問題??傮w構(gòu)成比:15%:5%:80%樣本構(gòu)成比:17.7%:5.7%:76.6%原假設(shè)H0:目前三個(gè)職務(wù)的總體構(gòu)成比仍為15%:5%:80%。第14頁/共39頁14.2.2檢驗(yàn)方法的SPSS實(shí)現(xiàn)數(shù)據(jù)為自帶文件Employeedata.sav,其中jobcat記錄了公司全體員工的職務(wù)類別。AnalyzeNonparametricTestsChiSquareTestVariable:jobcat(想要檢驗(yàn)的變量)ExpectedValues:0.8:0.05:0.15第15頁/共39頁14.2.2檢驗(yàn)方法的SPSS實(shí)現(xiàn)該表給出了樣本中三個(gè)職務(wù)級(jí)別的觀察頻數(shù)(ObservedN)和根據(jù)總體構(gòu)成比計(jì)算出的期望頻數(shù)(ExpectedN),以及觀察頻數(shù)和期望頻數(shù)之差—?dú)埐?Residual)。第16頁/共39頁14.2.2檢驗(yàn)方法的SPSS實(shí)現(xiàn)c2統(tǒng)計(jì)量為3.492,自由度為2,對(duì)應(yīng)的概率為0.174。故接受原假設(shè),認(rèn)為目前三個(gè)職務(wù)的總體構(gòu)成比仍然為15%:5%:80%。第17頁/共39頁14.2.3單樣本χ2檢驗(yàn)的其他話題χ2檢驗(yàn)要求最小期望頻數(shù)均大于1,且至少有4/5的單元格期望頻數(shù)大于5,此時(shí),使用χ2分布計(jì)算出的概率值才是準(zhǔn)確的。對(duì)數(shù)值變量而言,數(shù)值從小到大依次對(duì)應(yīng)第一個(gè)到最后一個(gè)期望頻率。對(duì)字符變量而言,字符值按字母升序排列后,依次對(duì)應(yīng)第一個(gè)到最后一個(gè)期望頻率。第18頁/共39頁14.2.3單樣本χ2檢驗(yàn)的其他話題在ExpectedValue框中,既可以輸入各自比例,即期望頻數(shù),也可以輸入各自期望頻率。如果各個(gè)水平的期望頻率相同,則選擇:Allcategoriesequal.如果原始數(shù)據(jù)中使用的是頻數(shù)變量,則先要進(jìn)行加權(quán)處理。選擇DataWeightCases。第19頁/共39頁14.2.3單樣本χ2檢驗(yàn)的其他話題例如:在某次考試結(jié)束后,對(duì)不同成績進(jìn)行統(tǒng)計(jì),問樣本的測(cè)量頻數(shù)Ai與期望頻數(shù)Ei差異是否顯著。分?jǐn)?shù)段測(cè)量頻數(shù)Qi期望頻數(shù)Ei0-60分0160-75分4675-85分8885-100分43第20頁/共39頁14.2.3單樣本χ2檢驗(yàn)的其他話題輸入數(shù)據(jù)加權(quán):DataWeightCases第21頁/共39頁14.3相關(guān)問題——兩(多)個(gè)率或構(gòu)成比的比較14.3.1分析實(shí)例14.3.2檢驗(yàn)方法的SPSS實(shí)現(xiàn)14.3.3多樣本χ2檢驗(yàn)的其他話題第22頁/共39頁列聯(lián)表列聯(lián)表是用于描述和檢驗(yàn)分類變量間相關(guān)關(guān)系的最基礎(chǔ)的技術(shù),它實(shí)際上是兩個(gè)變量的聯(lián)合頻數(shù)表。每一行是列變量在行變量取值相同時(shí)的頻數(shù)表,每一列是行變量在列變量取值相同時(shí)的頻數(shù)表。第23頁/共39頁列聯(lián)表此表顯示了性別(行變量)與職位類別(列變量)的列聯(lián)表。206表示“女性”“辦事員”的人數(shù)。第24頁/共39頁列聯(lián)表這些變量中每個(gè)都有兩個(gè)或更多的可能取值。這些取值也稱為水平;比如收入有三個(gè)水平,觀點(diǎn)有兩個(gè)水平,性別有兩個(gè)水平等。在SPSS數(shù)據(jù)中,收入的“低”、“中”、“高”用代碼1、2、3代表;性別的“女”、“男”用代碼0、1代表;觀點(diǎn)“贊成”和“不贊成”用1、0代表等。第25頁/共39頁列聯(lián)表列聯(lián)表的中間各個(gè)變量不同水平的交匯處,就是這種水平組合出現(xiàn)的頻數(shù)或計(jì)數(shù)(count)。列聯(lián)表又稱為R×C表,其中R代表行數(shù),即行變量有R個(gè)取值,C代表列數(shù),即列變量有C個(gè)取值。2×2表又稱為四格表。第26頁/共39頁列聯(lián)表二維的列聯(lián)表又稱為交叉表(crosstable)。列聯(lián)表可以有很多維,維數(shù)多的叫做高維列聯(lián)表。研究列聯(lián)表的一個(gè)主要目的是看這些變量是否相關(guān)。第27頁/共39頁14.3.1分析實(shí)例例14.2某婦女聯(lián)合會(huì)向工會(huì)提出質(zhì)疑,認(rèn)為該公司在對(duì)女性員工的職位安排上存在歧視。因?yàn)樵摴?16名女性雇員中,只有10人(4.6%)為經(jīng)理,其余206名為辦事員,而258名男性雇員中,74人(28.7%)為經(jīng)理。但是工會(huì)說,男女職位差別比例的差異,是隨機(jī)誤差,不存在歧視。哪種說法對(duì)呢?第28頁/共39頁14.3.1分析實(shí)例檢驗(yàn)假設(shè)H0:性別與職位類別這兩個(gè)變量獨(dú)立。H1:這兩個(gè)變量不獨(dú)立。令Eij表示第i行第j列的期望頻數(shù),令A(yù)ij表示第i行第j列的觀察頻數(shù),Ti,Tj分別表示第i行和第j列的邊緣期望頻數(shù),T為總期望頻數(shù)。H0為真,兩變量獨(dú)立等價(jià)于Eij=(Ti×Tj)/T第29頁/共39頁14.3.1分析實(shí)例B1B2…BcTi.A1E11E12…E1cT1.A2E21E22…E2cT2.………………ArEr1Er2…ErcTr.T.jT.1T.2…T.cT第30頁/共39頁14.3.1分析實(shí)例Pearsonc2統(tǒng)計(jì)量服從c2((r-1)(c-1))。計(jì)算出c2值,根據(jù)c2分布計(jì)算出p=Sig.=P(c2>c2值),若p<a,則拒絕原假設(shè),認(rèn)為兩變量有關(guān)聯(lián)。第31頁/共39頁14.3.2檢驗(yàn)方法的SPSS實(shí)現(xiàn)AnalyzeDescriptiveStatisticsCrosstabs。Row(行):gender(性別)Column(列):jobcat(職位類別)哪個(gè)放入行或哪個(gè)放入列是沒有關(guān)系的。Statistics:Chi-square(得到c2檢驗(yàn)值)CellsCountsExpected(要求輸出理論頻數(shù))第32頁/共39頁14.3.2檢驗(yàn)方法的SPSS實(shí)現(xiàn)Pearsonc2統(tǒng)計(jì)量、似然比c2統(tǒng)計(jì)量的p都小于0.05,拒絕原假設(shè),認(rèn)為性別與職位類別不獨(dú)立。第33頁/共39頁14.3.2檢驗(yàn)方法的SPSS實(shí)現(xiàn)從樣本觀測(cè)頻數(shù)與期望頻數(shù)看,女性更容易稱為辦事員,而男性更容易得到經(jīng)理和監(jiān)察員職位。第34頁/共39頁14.3.3多樣本χ2檢驗(yàn)的其他話題連續(xù)性校正χ2檢驗(yàn)適用于四格表列聯(lián)表中的PearsonChi-Square值在假設(shè)H0成立時(shí),近似服從χ2分布,當(dāng)表格數(shù)較小時(shí),這種近似就不好,它往往導(dǎo)致χ2值太大而輕易地否定原假設(shè)。為此,統(tǒng)計(jì)學(xué)家FrankYates(耶茨)提出了連續(xù)性修正辦法,使之更接近χ2分布。第35頁/共39頁14.3.3多樣本χ2檢驗(yàn)的其他話題似然比c2統(tǒng)計(jì)量似然比(likelihoodratio)c2統(tǒng)計(jì)量和Pearsonc2統(tǒng)計(jì)量,它們都有漸近的c2分布。二者只是計(jì)算公式不一樣,前者在處理多維表時(shí)有更大優(yōu)勢(shì),對(duì)大樣本而言,二者結(jié)論一致。第36頁/共39頁14.3.3多樣本χ2檢驗(yàn)的其他話題Fisher精確檢驗(yàn):當(dāng)樣本含量較小時(shí)(小于40),需要用Fisher精確檢驗(yàn),它不是用c

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論