列聯(lián)表與獨(dú)立性檢驗(yàn)課件-高二下學(xué)期數(shù)學(xué)人教A版選擇性_第1頁(yè)
列聯(lián)表與獨(dú)立性檢驗(yàn)課件-高二下學(xué)期數(shù)學(xué)人教A版選擇性_第2頁(yè)
列聯(lián)表與獨(dú)立性檢驗(yàn)課件-高二下學(xué)期數(shù)學(xué)人教A版選擇性_第3頁(yè)
列聯(lián)表與獨(dú)立性檢驗(yàn)課件-高二下學(xué)期數(shù)學(xué)人教A版選擇性_第4頁(yè)
列聯(lián)表與獨(dú)立性檢驗(yàn)課件-高二下學(xué)期數(shù)學(xué)人教A版選擇性_第5頁(yè)
已閱讀5頁(yè),還剩25頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

8.3列聯(lián)表與獨(dú)立性檢驗(yàn)8.3.1分類變量與列聯(lián)表

有關(guān)法律規(guī)定:香煙盒上必須印上“吸煙有害健康”的警示語(yǔ).吸煙已成為全球范圍內(nèi)嚴(yán)重危害健康、危害人類生存環(huán)境、降低人們的生活質(zhì)量、縮短人類壽命的緊迫問(wèn)題.為此,聯(lián)合國(guó)固定每年5月31日為全球戒煙日.例如:2019年世界無(wú)煙日的重點(diǎn)是”煙草和肺部健康”.那么吸煙和健康之間有因果關(guān)系嗎?每一個(gè)吸煙者的健康問(wèn)題都是由吸煙引起的嗎?如果你認(rèn)為“健康問(wèn)題不一定是由吸煙引起的,那么可以吸煙”的說(shuō)法對(duì)嗎【引例】下列變量的取值有何異同點(diǎn)?你能將其分類嗎?①人的身高②直尺的長(zhǎng)度③性別④國(guó)籍⑤民族數(shù)值變量取值用以表示個(gè)體所屬類別,分類變量分類變量是區(qū)別不同的現(xiàn)象和性質(zhì)的一種特殊的隨機(jī)變量.本節(jié)主要討論取值于{0,1}的分類變量的關(guān)聯(lián)性.數(shù)值變量的取值為實(shí)數(shù),其大小和運(yùn)算都有實(shí)際含義.①分類變量的取值可以用實(shí)數(shù)來(lái)表示,例如男性,女性可以用1,0表示,學(xué)生的班級(jí)可以用1,2,3來(lái)表示.②這些數(shù)值只作編號(hào)使用,并沒(méi)有大小和運(yùn)算意義.③分類變量是相對(duì)于數(shù)值變量來(lái)說(shuō)的.幾點(diǎn)說(shuō)明:【例1】為調(diào)查性別因素是否對(duì)本校學(xué)生體育鍛煉的經(jīng)常性有影響,某校進(jìn)行了普查.全校生的普查數(shù)據(jù)如下:523名女生中有331名經(jīng)常鍛煉;601名男生中有473名經(jīng)常鍛煉.你能利用這些數(shù)據(jù),說(shuō)明該校女生和男生在體育鍛煉的經(jīng)常性方面是否存在差異嗎解法一:比較經(jīng)常鍛煉的學(xué)生在女生和男中的比率.

男生經(jīng)常鍛煉的比率比女生高出15.4個(gè)百分點(diǎn),所以該校的女生和男生在體育鍛煉的經(jīng)常性方面有差異,而且男生更經(jīng)常鍛煉.解法二:

設(shè)Ω表示該校全體學(xué)生組成的集合,對(duì)于Ω中的每一名學(xué)生,分別令性別對(duì)體育鍛煉的經(jīng)常性沒(méi)有影響:性別對(duì)體育鍛煉的經(jīng)常性有影響:1124804320合計(jì)601473128男生(X=1)523331192女生(X=0)經(jīng)常(Y=1)不經(jīng)常(Y=0)合計(jì)鍛煉性別

可以作出判斷,在該校的學(xué)生中,性別對(duì)體育鍛煉的經(jīng)常性有影響,男生更經(jīng)常性的鍛煉.

在實(shí)踐中,由于保存原始數(shù)據(jù)的成本較高,人們經(jīng)常按研究問(wèn)題的需要,將數(shù)據(jù)分類統(tǒng)計(jì),并做成表格加以保存.我們將形如下表這種形式的數(shù)據(jù)統(tǒng)計(jì)表稱為2×2列聯(lián)表.2×2列聯(lián)表給出了成對(duì)分類變量數(shù)據(jù)的交叉分類頻數(shù).1124804320合計(jì)601473128男生(X=1)523331192女生(X=0)經(jīng)常(Y=1)不經(jīng)常(Y=0)合計(jì)鍛煉性別分類變量X和Y的抽樣數(shù)據(jù)的2×2列聯(lián)表:2×2列聯(lián)表給出成對(duì)分類變量數(shù)據(jù)的交叉分類頻數(shù).n=a+b+c+db+da+c合計(jì)c+ddcX=1a+bbaX=0Y=1Y=0合計(jì)YX

2×2列聯(lián)表【例2】為比較甲、乙兩所學(xué)校學(xué)生的數(shù)學(xué)水平,采用簡(jiǎn)單隨機(jī)抽樣的方法抽取88名學(xué)生.通過(guò)測(cè)驗(yàn)得到了如下數(shù)據(jù):甲校43名學(xué)生中有10名數(shù)學(xué)成績(jī)優(yōu)秀;乙校45名學(xué)生中有7名數(shù)學(xué)成績(jī)優(yōu)秀.試用2×2列聯(lián)表分析兩校學(xué)生中數(shù)學(xué)成績(jī)優(yōu)秀率之間是否存在差異.解:用Ω表示兩所學(xué)校的全體學(xué)生構(gòu)成的集合.考慮以Ω為樣本空間的古典概型.對(duì)于Ω中每一名學(xué)生,定義分類變量X和Y如下:881771合計(jì)45738乙校(X=1)431033甲校(X=0)優(yōu)秀(Y=1)不優(yōu)秀(Y=0)合計(jì)數(shù)學(xué)成績(jī)學(xué)校

因此,甲校學(xué)生中數(shù)學(xué)成績(jī)不優(yōu)秀和數(shù)學(xué)成績(jī)優(yōu)秀的頻率分別為可以用等高堆積條形圖直觀地展示上述計(jì)算結(jié)果:通過(guò)比較發(fā)現(xiàn),兩個(gè)學(xué)校學(xué)生抽樣數(shù)據(jù)中數(shù)學(xué)成績(jī)優(yōu)秀的頻率存在差異,甲校的頻率明顯高于乙校的頻率.依據(jù)頻率穩(wěn)定于概率的原理,我們可以推斷甲校學(xué)生數(shù)學(xué)成績(jī)優(yōu)秀的概率大于乙校學(xué)生數(shù)學(xué)成績(jī)優(yōu)秀的概率.乙校學(xué)生中數(shù)學(xué)成績(jī)不優(yōu)秀和數(shù)學(xué)成績(jī)優(yōu)秀的頻率分別為甲校

乙校

因此,可以認(rèn)為兩校學(xué)生的數(shù)學(xué)成績(jī)優(yōu)秀率存在差異,甲校學(xué)生的數(shù)學(xué)成績(jī)優(yōu)秀率比乙校學(xué)生的高.【思考】“甲乙兩校學(xué)生的數(shù)學(xué)成績(jī)優(yōu)秀率存在差異”這一結(jié)論是否有可能出錯(cuò)?

這一結(jié)論有可能是錯(cuò)誤的.因?yàn)闃颖揪哂须S機(jī)性,所以我們的推斷可能犯錯(cuò)誤,而且在樣本容量較小時(shí),犯錯(cuò)誤的可能性會(huì)較大.

因此,需要找到一種更為合理的推斷方法判斷兩變量之間有無(wú)關(guān)系,同時(shí)也希望能對(duì)出現(xiàn)錯(cuò)誤推斷的概率有一定的控制或估算.8.3.2 獨(dú)立性檢驗(yàn)【探究】一個(gè)囚犯正在接受法官審判,你是法官.法官的任務(wù)是假定囚犯無(wú)罪,但是假如有足夠證據(jù)證明囚犯有罪,則需審判囚犯有罪.先做一個(gè)無(wú)罪假設(shè)找無(wú)罪假設(shè)下不可能出現(xiàn)的人證和物證找到了,假設(shè)不成立,嫌疑人有罪沒(méi)找到,沒(méi)有充分證據(jù)證明假設(shè)不成立,暫且認(rèn)為無(wú)罪零假設(shè):假設(shè)X,Y無(wú)關(guān)聯(lián),相互獨(dú)立找零假設(shè)下不可能發(fā)生的事件(小概率事件)發(fā)生了,假設(shè)不成立,X,Y不獨(dú)立,從而證明二者有關(guān)聯(lián)沒(méi)發(fā)生,沒(méi)有充分證據(jù)證明假設(shè)不成立,暫且認(rèn)為X,Y相互獨(dú)立獨(dú)立性檢驗(yàn)是假設(shè)檢驗(yàn)中的一種方法,所謂假設(shè)檢驗(yàn),即建立某個(gè)假設(shè),通過(guò)樣本數(shù)據(jù)分析,進(jìn)而接受原假設(shè)或者拒絕原假設(shè),從而得出結(jié)論.小概率事件原理:小概率事件是發(fā)生概率一般不超過(guò)5%的事件,即小概率事件在一次試驗(yàn)中幾乎不可能發(fā)生.【思考1】在原假設(shè)H0前提之下,小概率事件幾乎不可能發(fā)生,但若通過(guò)數(shù)據(jù)分析,發(fā)現(xiàn)小概率事件發(fā)生了,這說(shuō)明什么問(wèn)題?原假設(shè)不成立【思考2】這種結(jié)論會(huì)不會(huì)犯錯(cuò)誤?有多大的概率會(huì)犯錯(cuò)誤?不超過(guò)5%我們需要判斷下面的假定關(guān)系

是否成立,通常稱H0為零假設(shè)或原假設(shè).零假設(shè):假設(shè)X,Y無(wú)關(guān)聯(lián),相互獨(dú)立找零假設(shè)下不可能發(fā)生的事件(小概率事件)發(fā)生了,假設(shè)不成立,X,Y不獨(dú)立,從而證明二者有關(guān)聯(lián)沒(méi)發(fā)生,沒(méi)有充分證據(jù)證明假設(shè)不成立,暫且認(rèn)為X,Y相互獨(dú)立①第一步:建立假設(shè)【思考】什么叫做分類變量X和Y獨(dú)立?假定我們通過(guò)簡(jiǎn)單隨機(jī)抽樣得到了X和Y的抽樣數(shù)據(jù)列聯(lián)表如下:n=a+b+c+db+da+c合計(jì)c+ddcX=1a+bbaX=0Y=1Y=0合計(jì)YX

假定我們通過(guò)簡(jiǎn)單隨機(jī)抽樣得到了X和Y的抽樣數(shù)據(jù)列聯(lián)表如下:n=a+b+c+db+da+c合計(jì)c+ddcX=1a+bbaX=0Y=1Y=0合計(jì)YX

零假設(shè)H0:分類變量X與Y獨(dú)立:事件觀測(cè)值期望值觀測(cè)值與期望值差X=0,Y=0aX=0,Y=1bX=1,Y=0cX=1,Y=1d殘差零假設(shè)H0:分類變量X與Y獨(dú)立:

卡方統(tǒng)計(jì)量卡方統(tǒng)計(jì)量有什么用呢?思考:那么,究竟

χ2大到什么程度,可以推斷H0不成立呢?

統(tǒng)計(jì)學(xué)家建議,用隨機(jī)變量

χ2取值

的大小作為判斷零假設(shè)H0是否成立的依據(jù),當(dāng)它比較大時(shí)推斷H0不成立,否則認(rèn)為H0成立.

根據(jù)小概率事件在一次試驗(yàn)中不大可能發(fā)生的規(guī)律,上面的想法可以通過(guò)確定一個(gè)與H0相矛盾的小概率事件來(lái)實(shí)現(xiàn).下表(臨界值表)給出了χ2獨(dú)立性檢驗(yàn)中幾個(gè)常用的小概率值和相應(yīng)的臨界值:0.10.050.010.0050.001xα2.7063.8416.6357.87910.828

例如,對(duì)于一個(gè)小概率值α=0.05,有如下的具體檢驗(yàn)規(guī)則:(1)當(dāng)時(shí),我們推斷H0不成立,即認(rèn)為X與Y不獨(dú)立,(2)當(dāng)時(shí),我們沒(méi)有充分證據(jù)推斷H0不成立,可以認(rèn)為X與Y獨(dú)立.小概率事件基于小概率值α的檢驗(yàn)規(guī)則:

這種利用χ2的取值推斷分類變量X和Y是否獨(dú)立的方法稱為χ2獨(dú)立性檢驗(yàn),讀作“卡方獨(dú)立性檢驗(yàn)”,簡(jiǎn)稱獨(dú)立性檢驗(yàn).思考:依據(jù)小概率值α=0.1的χ2獨(dú)立性檢驗(yàn),分析例1中的抽樣數(shù)據(jù),能否據(jù)此推斷兩校學(xué)生的數(shù)學(xué)成績(jī)優(yōu)秀率有差異?881771合計(jì)45738乙校(X=1)431033甲校(X=0)優(yōu)秀(Y=1)不優(yōu)秀(Y=0)合計(jì)數(shù)學(xué)成績(jī)學(xué)校

解:零假設(shè)為H0:分類變量X與Y相互獨(dú)立,即兩校學(xué)生的數(shù)學(xué)成績(jī)優(yōu)秀率無(wú)差異根據(jù)表中的數(shù)據(jù),計(jì)算得到根據(jù)小概率值α=0.1的卡方獨(dú)立性檢驗(yàn),沒(méi)有充分證據(jù)推斷H0不成立.因此可以認(rèn)為H0成立,即認(rèn)為兩校的數(shù)學(xué)成績(jī)優(yōu)秀率沒(méi)有差異.思考:為何基于同一組數(shù)據(jù)的分析,卻得出了不同的結(jié)論,你能說(shuō)明其中的原因嗎?

事實(shí)上,如前所述,法一只是根據(jù)一個(gè)樣本的兩個(gè)頻率的差異得出兩校學(xué)生的數(shù)學(xué)成績(jī)優(yōu)秀率存在差異的結(jié)論,并沒(méi)有考慮由樣本隨機(jī)性可能導(dǎo)致的錯(cuò)誤,所以那里的推斷依據(jù)不太充分.在法二中,我們用χ2獨(dú)立性檢驗(yàn)對(duì)零假設(shè)H0進(jìn)行了檢驗(yàn).通過(guò)計(jì)算,發(fā)現(xiàn)χ2≈0.837小于α=0.1所對(duì)應(yīng)的臨界值2.706,因此認(rèn)為沒(méi)有充分證據(jù)推斷H0不成立,所以接受H0,推斷出校的數(shù)學(xué)成績(jī)優(yōu)秀率沒(méi)有差異的結(jié)論.這個(gè)檢驗(yàn)結(jié)果意味著,抽樣數(shù)據(jù)中兩個(gè)頻率的差異很有可能是由樣本隨機(jī)性導(dǎo)致的.因此,只根據(jù)頻率的差異得出兩校學(xué)生的數(shù)學(xué)成績(jī)優(yōu)秀率存在差異的結(jié)論是不可靠的.

工作態(tài)度對(duì)待企業(yè)改革態(tài)度合計(jì)積極支持不太支持積極544094一般326395合計(jì)86103189

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論