分類變量與列聯(lián)表教案_第1頁
分類變量與列聯(lián)表教案_第2頁
分類變量與列聯(lián)表教案_第3頁
分類變量與列聯(lián)表教案_第4頁
分類變量與列聯(lián)表教案_第5頁
已閱讀5頁,還剩14頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

8.3分類變量與列聯(lián)表

教材分析

本節(jié)課選自《2019人教A版高中數(shù)學選擇性必修第三冊》,第七章《隨機變量及其分布列》,

本節(jié)課主本節(jié)課主要學習分類變量與列聯(lián)表

學生前面已經(jīng)學習了基本獲取樣本數(shù)據(jù)的方法,從樣本數(shù)據(jù)中提取信息的方法,也掌握了相互

獨立事件的概率計算,獨立性檢驗是進一步分析兩個分類變量之間是否有關(guān)系,是高中數(shù)學知識中

教學過程教學設(shè)計意圖

核心素養(yǎng)目標

體現(xiàn)統(tǒng)計思想的重要課節(jié)。學習重點應(yīng)放在獨立性檢驗的統(tǒng)計學原理上,理解獨立性檢驗的基本思

想,明確獨立性檢驗的基本步驟。課堂趣味性較強,充分體現(xiàn)了數(shù)學在實際生活中的應(yīng)用,對于提

高學生應(yīng)用意識和數(shù)學建模思想有重要意義。

教學目標與核心素養(yǎng)

課程目標學科素養(yǎng)

A.通過對典型案例的探究,了解獨立性檢1.數(shù)學抽象:從特殊實例到一般原理

驗(只要求2x2列聯(lián)表)的基本思想、方法2.邏輯推理:獨立性檢驗的思想方法

及初步應(yīng)用.3.數(shù)學運算:獨立檢驗的運用

B.通過對數(shù)據(jù)的收集、整理和分析,增強學4.數(shù)學建模:模型化思想

生的社會實踐能力,培養(yǎng)學生分析問題、

解決問題的能力.

重點難點

重點:了解獨立性檢驗(只要求2x2列聯(lián)表)的應(yīng)用.

難點:獨立性檢驗(只要求2x2列聯(lián)表)的基本思想、方法

課前準備

多媒體

教學過程

一、問題導學

前面兩節(jié)所討論的變量,如人的身高、樹的胸徑、樹的高度、短

跑100m世界紀錄和創(chuàng)紀錄的時間等,都是數(shù)值變量,數(shù)值變量的取值

為實數(shù).其大小和運算都有實際含義.

在現(xiàn)實生活中,人們經(jīng)常需要回答一定范圍內(nèi)的兩種現(xiàn)象或

性質(zhì)之間是否存在關(guān)聯(lián)性或相互影響的問題.例如,就讀不同學校是否

對學生的成績有影響,不同班級學生用于體育鍛煉的時間是否有差別,

吸煙是否會增加患肺癌的風險,等等,本節(jié)將要學習的獨立性檢驗方法

為我們提供了解決這類問題的方案。

在討論上述問題時,為了表述方便,我們經(jīng)常會使用一種特殊

的隨機變量,以區(qū)別不同的現(xiàn)象或性質(zhì),這類隨機變量稱為分類變量.

分類變量的取值可以用實數(shù)表示,例如,學生所在的班級可以用1,2,3

等表示,男性、女性可以用1,0表示,等等.在很多時候,這些數(shù)值只作為

編號使用,并沒有通常的大小和運算意義,本節(jié)我們主要討論取值于

{0,1}的分類變量的關(guān)聯(lián)性問題.

二、探究新知

問題1.為了有針對性地提高學生體育鍛煉的積極性,某中學需要了

通過具體的問題

解性別因素是否對本校學生體育鍛煉的經(jīng)常性有影響,為此對學生是

情境,引發(fā)學生思考

否經(jīng)常鍛煉的情況進行了普查,全校學生的普查數(shù)據(jù)如下:523名女生積極參與互動,說出

中有331名經(jīng)常鍛煉;601名男生中有473名經(jīng)常鍛煉。你能利用這些自己見解。從而分類

變量獨立性檢驗的

數(shù)據(jù),說明該校女生和男生在體育鍛煉的經(jīng)常性方面是否存在差異

概念,發(fā)展學生邏輯

嗎?推理、數(shù)學運算、數(shù)

這是一個簡單的統(tǒng)計問題,最直接的解答方法是,比較經(jīng)常鍛煉的學生學抽象和數(shù)學建模

在女生和男生中的比率,為了方便,我們即0=經(jīng)常襄北生數(shù),的核心素養(yǎng)。

f二竺常鍛煉的男生數(shù)

,1男生總數(shù)

那么,只要求出{和4的值,通過比較這兩個值的大小,就可以知

道女生和男生在鍛煉的經(jīng)常性方面是否有差異,由所給的數(shù)據(jù),經(jīng)計算

得至優(yōu)^會刈陋九=經(jīng)=0.787.由//?0.787-0.633=0.154可

v523160110

知,男生經(jīng)常鍛煉的比率比女生高出15.4個百分點.

所以該校的女生和男生在體育鍛等的經(jīng)常性方面有差異,而且男生更

經(jīng)常鍛煉.

用n表示該校全體學生構(gòu)成的集合,這是我們所關(guān)心的對象的總

體,考慮以n為樣本空間的古典概型,并定義一對分類變量X和Y如下:

對于。中的每一名學生,

八皿人v(0,該生為女生、(0,該生不經(jīng)常鍛煉、

分別令x=1<1,該生為男生1I,y=(11,該生經(jīng)常鍛煉),

“性別對體育鍛煉的經(jīng)常性沒有影響''可以描述為

P(Y=1|X=0)=P(Y=l|X=l);

“性別對體育鍛煉的經(jīng)常性有影響”可以描述為

P(Y=1|X=O)^P(Y=1|X=1).

我們希望通過比較條件概率p(y=i|x=o)和p(y=i|x=i)回答上面

的問題.按照條件本概率的直觀解釋,

如果從該校女生和男生中各隨機選取一名學生,那么該女生屬于經(jīng)常

鍛煉群體的概率是P(Y=l|X=0),

而該男生屬于經(jīng)常鍛煉群體的概率是P(Y=1|X=1).

為了清楚起見,我們用表格整理數(shù)據(jù)

鍛煉

性別合計

不經(jīng)常(y=o)經(jīng)常(y=i)

女生(X=0)192331523

男生(X=l)128473601

合計3208041124

我們用{X=0,Y=l}表示事件{X=0}和{Y=l}的積事件,用

{X=1,Y=1}表示事件(X=1}和{Y=1}的積事件,根據(jù)古典概型和條件概

率的計算公式,我們有

P(Y=1|X=0)=n(X=0,/=1)=--0.633;P(y=1|X=1)=n(X"1,r=1)=--0.787

'''n(X=O)523,'I'n(X=l)601

由P(Y=1|X=1)>P(Y=1|X=0)

可以作出判斷,在該校的學生中,性別對體育鍛煉的經(jīng)常性有影響,即

該校的女生和男生在體育鍛煉的經(jīng)常性方面存在差異,而且男生更經(jīng)

常鍛煉。

在實踐中,由于保存原始數(shù)據(jù)的成本較高,人們經(jīng)常按研究問題

的需要,將數(shù)據(jù)分類統(tǒng)計,并做成表格加以保存,我們將下表這種形式

的數(shù)據(jù)統(tǒng)計表稱為2x2列聯(lián)表(contingencytable).

2x2列聯(lián)表給出了成對分類變量數(shù)據(jù)的交叉分類頻數(shù),以右表為

例,它包含了X和Y的如下信息:

最后一行的前兩個數(shù)分別是事件{Y=0}和{Y=l}中樣本點的個數(shù);

最后一列的前兩個數(shù)分別是事件{X=0}和{X=l}中樣本點的個數(shù);

中間的四個格中的數(shù)是表格的核心部分,給出了事件

{X=x,Y=y}(x,y=0,l)中樣本點的個數(shù);

右下角格中的數(shù)是樣本空間中樣本點的總數(shù)。

鍛煉

性別合計

不經(jīng)常(y=0)經(jīng)常(y=i)通過問題分析,

女生(X=0)192331523讓學生理解運獨立

男生(X=l)128473601性檢驗的統(tǒng)計學原

合計3208041124理。發(fā)展學生邏輯推

理,直觀想象、數(shù)學

抽象和數(shù)學運算的

三、典例解析

核心素養(yǎng)。

例1.為比較甲、乙兩所學校學生的數(shù)學水平,采用簡單隨機抽樣的方

法抽取88名學生.通過測驗得到了如下數(shù)據(jù):甲校43名學生中有10

名數(shù)學成績優(yōu)秀;乙校45名學生中有7名數(shù)學成績優(yōu)秀,試分析兩校學

生中數(shù)學成績優(yōu)秀率之間是否存在差異.

解:用C表示兩所學校的全體學生構(gòu)成的集合.考慮以C為樣本空間的

古典概型.對于C中每一名學生,定義分類變量X和Y如下:X=

[0,該生來自甲校)=[0,該生數(shù)學成績不優(yōu)秀)

11,該生來自乙校7V二(l,該生數(shù)學成績優(yōu)秀r

學校數(shù)學成績合計

不優(yōu)秀(Y=0)優(yōu)秀(Y=l)

甲校(X=0)331()43

乙校(X=D38745

合計711788

我們將所給數(shù)據(jù)整理成表(單位:人)

表是關(guān)于分類變量X和Y的抽樣數(shù)據(jù)的2X2列聯(lián)表:最后一行

的前兩個數(shù)分別是事件(Y=0)和(Y=l)的頻數(shù);最后一列的前兩個數(shù)分

別是事件(X=0)和(X=1)的頻數(shù);中間的四個格中的數(shù)是事件

(X=x,Y=y)(x,y=O,l)的頻數(shù);

甲校學生中數(shù)學成績不優(yōu)秀和數(shù)學成績優(yōu)秀的頻率分別為^70.7674

43

和卷々0.2326;

乙校學生中數(shù)學成績不優(yōu)秀和數(shù)學成績優(yōu)秀的頻率分別為

45

0.8444和會0.1556

我們可以用等高堆積條形圖直觀地展示上述計算結(jié)果,如圖所示

■優(yōu)秀

O.f

■不優(yōu)秀

0.6u

0.4,J1

0.2

oo

甲校乙校

左邊的藍色和紅色條的高度分別是甲校學生中數(shù)學成績不

優(yōu)秀和數(shù)學成績優(yōu)秀的頻率;右邊的藍色和紅色條的高度分別是乙校

學生中數(shù)學成績不優(yōu)秀和數(shù)學成績優(yōu)秀的頻率,通過比較發(fā)現(xiàn),兩個學

校學生抽樣數(shù)據(jù)中數(shù)學成績優(yōu)秀的頻率存在差異,甲校的頻率明顯高

于乙校的頻率,依據(jù)頻率穩(wěn)定于概率的原理,我們可以推斷

P(Y=1|X=O)>P(Y=1|X=1).

也就是說,如果從甲校和乙校各隨機選取一名學生,那么甲校學生數(shù)學

成績優(yōu)秀的概率大于乙校學生數(shù)學成績優(yōu)秀的概率,因此,可以認為兩

校學生的數(shù)學成績優(yōu)秀率存在差異,甲校學生的數(shù)學成績優(yōu)秀率比乙

校學生的高?

學校數(shù)學成績合計

不優(yōu)秀(Y=0)優(yōu)秀(Y=l)

甲校(X=0)331043

乙校(X=l)38745

合計711788

2.兩個分類變量之間關(guān)聯(lián)關(guān)系的定性分析的方法:

(1)頻率分析法:通過對樣本的每個分類變量的不同類別事件發(fā)生的

頻率大小進行比較來分析分類變量之間是否有關(guān)聯(lián)關(guān)系.如可以通過

列聯(lián)表中唉與七值的大小粗略地判斷分類變量x和Y之間有無關(guān)

系.一般其值相差越大,分類變量有關(guān)系的可能性越大.

(2)圖形分析法:與表格相比,圖形更能直觀地反映出兩個分類變

量間是否互相影響,常用等高堆積條形圖展示列聯(lián)表數(shù)據(jù)的頻率特

征.將列聯(lián)表中的數(shù)據(jù)用高度相同的兩個條形圖表示出來,其中兩列

的數(shù)據(jù)分別對應(yīng)不同的顏色,這就是等高堆積條形圖.

等高堆積條形圖可以展示列聯(lián)表數(shù)據(jù)的頻率特征,能夠直觀地反映出

兩個分類變量間是否相互影響.

問題2.你認為“兩校學生的數(shù)學成績優(yōu)秀率存在差異”這一結(jié)論是否

有可能是錯誤的?

有可能

“兩校學生的數(shù)學成績優(yōu)秀率存在差異”這個結(jié)論是根據(jù)兩個頻率

間存在差異推斷出來的.有可能出現(xiàn)這種情況:在隨機抽取的這個樣

本中,兩個頻率間確實存在差異,但兩校學生的數(shù)學成績優(yōu)秀率實際

上是沒有差別的.對于隨機樣本而言,因為頻率具有隨機性,頻率與

概率之間存在誤差,所以我們的推斷可能犯錯誤,而且在樣本容量較

小時,犯錯誤的可能性會較大.因此,需要找到一種更為合理的推斷

方法,同時也希望能對出現(xiàn)錯誤推斷的概率有一定的控制或估算.

通過具體的問題

“兩校學生的數(shù)學成績優(yōu)秀率存在差異”這個結(jié)論是根據(jù)兩個頻率

情境中的分析,深化

間存在差異推斷出來的.有可能出現(xiàn)這種情況:在隨機抽取的這個樣對獨立性檢驗的理

本中,兩個頻率間確實存在差異,但兩校學生的數(shù)學成績優(yōu)秀率實際解。發(fā)展學生邏輯推

理,直觀想象、數(shù)學

上是沒有差別的.對于隨機樣本而言,因為頻率具有隨機性,頻率與

抽象和數(shù)學運算的

概率之間存在誤差,所以我們的推斷可能犯錯誤,而且在樣本容量較核心素養(yǎng)。

小時,犯錯誤的可能性會較大.因此,需要找到一種更為合理的推斷

方法,同時也希望能對出現(xiàn)錯誤推斷的概率有一定的控制或估算.

考慮以Q為樣本空間的古典概型,設(shè)X和y為定義在Q上,取值

于{0,1}的成對分類變量,我們希望判斷事件{X=l}和{Y=l}之間是否

有關(guān)聯(lián)。注意到{X=0}和{X=l},{Y=0}和{Y=l}都是互對立事件,與前

面的討論類似,我們需要判斷下面的假定關(guān)系

“o:p(y=i|x=o)=p(y=i|x=i)是否成立,通常稱勺為零假設(shè)或原假設(shè)

(nullhypothesis).

P(Y=11X=0)表示從{X=0}中隨機選取一個樣本點,該樣本點屬于

{X=0,Y=l}的概率;

P(Y=1|X=1)表示從{X=l}中隨機選取一個樣本點,該樣本點屬于

{X=1,Y=I}的概率。

由條件概率的定義可知,零假設(shè)等價于端嚓上=筆寫2

0P\X-x))1)

或P(X=0,Y=1)P(X=1)=P(X=1,Y=l)P(X=0).①

考慮以Q為樣本空間的古典概型,設(shè)X和y為定義在Q上,取值

于{0,1}的成對分類變量,我們希望判斷事件{x=1}和{Y=1}之間是否

有關(guān)聯(lián)。注意到{X=0}和{X=l},{Y=0}和{Y=l}都是互對立事件,與前

面的討論類似,我們需要判斷下面的假定關(guān)系

“o:p(y=i|x=o)=p(y=i|x=i)是否成立,通常稱名為零假設(shè)或原假設(shè)

(nullhypothesis).P(Y=l|X=0)表示從{X=0}中隨機選取一個樣本點,該

樣本點屬于{X=0,Y=l}的概率;

P(Y=1|X=1)表示從{X=l}中隨機選取一個樣本點,該樣本點屬于

(X=1,Y=1}的概率。

由條件概率的定義可知,零假設(shè)H.等價于筆蹤^=端=生

0P(X=0)P(X=1)

或P(X=0.Y=1)P(X=1)=P(X=1,Y=l)P(X=0).①

注意到(X=0)和(X=l)為對立事件,于是P(X=0)=l-P(X=l).

再由概率的性質(zhì),我們有P(X=0,Y=1)=P(Y=1)-P(X=1,Y=1).

由此推得①式等價于P(x=1)P(Y=1)=P(X=1,Y=1).

因此,零假設(shè)H0等價于{X=l}與{丫=1}獨立。

根據(jù)已經(jīng)學過的概率知識,下面的四條性質(zhì)彼此等價:

{X=0}與{Y=0}獨立;{X=0}與{Y=l}獨立;{X=l}與{Y=0}獨

立;{X=l}與{Y=l}獨立。

以上性質(zhì)成立,我們就稱分類變量X和Y獨立,這相當于下面四個等式

成立;

P(X=O,Y=O)=P(X=O)P(Y=O);P(X=O,Y=1)=P(X=O)P(Y=1);

P(X=1,Y=O)=P(X=1)P(Y=O);P(X=1,Y=1)=P(X=1)P(Y=1).②

我們可以用概率語言,將零假設(shè)改述為H。:分類變量X和Y獨立.

假定我們通過簡單隨機抽樣得到了X和Y的抽樣數(shù)據(jù)列聯(lián)表,如下表

所示。

表是關(guān)于分類變量X和Y的抽樣數(shù)據(jù)的2x2列聯(lián)表:最后一行

的前兩個數(shù)分別是事件{Y=0}和{Y=l}的頻數(shù)攝后一列的前兩個數(shù)

分別是事件{X=0}和{X=l}的頻數(shù);中間的四個數(shù)a,b,c,d是事件

{X=x,Y=y}(x,y=O,l)的頻數(shù);右下角格中的數(shù)n是樣本容量。

Y

X合計

r=or=i

x=oaba+b

X=1cdc+d

合計a+cb+dn=a+b+c+d

問題3:如何基于②中的四個等式及列聯(lián)表中的數(shù)據(jù),構(gòu)造適當?shù)慕y(tǒng)計

量,對成對分類變量X和Y是否相互獨立作出推斷?

在零假設(shè)”成立的條件下,根據(jù)頻率穩(wěn)定于概率的原理,由②

中的第一個等式,我們可以用概率P(X=O)和p(y=o)對應(yīng)的頻率的乘積

(a+?a+c)估計概率p(x=o,y=o),而把*射£1視為事件{X=O.y=0}發(fā)生

的頻數(shù)的期望值(或預(yù)期值).

這樣,該頻數(shù)的觀測值a和期望值(a+b)(a+c)應(yīng)該比較接近

n

綜合②中的四個式子,如果零假設(shè)H()成立,下面四個量的取值都不應(yīng)

該太大:

?(a+b)(a+c)|,,?+b)(b+d)|,(c+d)(a+c)|,,(c+d)(b+d)|

lan1”一nk|Cn用力n1

③反之,當這些量的取值較大時,就可以推斷H0不成立。

分別考慮③中的四個差的絕對值很困難,我們需要找到一個既合

理又能夠計算分布的統(tǒng)計量,來推斷Ho是否成立.

一般來說,若頻數(shù)的期望值較大,則③中相應(yīng)的差的絕對值也會

較大;而若頻數(shù)的期望值較小,則③中相應(yīng)的差的絕對值也會較小.

為了合理地平衡這種影響,我們將四個差的絕對值取平方后分別除以

相應(yīng)的期望值再求和,得到如下的統(tǒng)計量:

2(Q__+b)(a+c))2e_9+b)(b+d))2

X-(a+b)(a+c)1(a+b)(b+d)

nn

(C_(c+d)(a+C))2g_(。+d)(b+d),2

+(c+d)(a+c)1(c+d)(b+d)

nn

2

該表達式可化簡為:Z2=

(a+b)(c+d)(a+c)(b+d)

統(tǒng)計學家建議,用隨機變量力?取值的大小作為判斷零假設(shè)H°是

否成立的依據(jù),當它比較大時推斷H。不成立,

否則認為H。成立.

問題4:那么,究竟,2大到什么程度,可以推斷H。不成立呢?或者說,怎

樣確定判斷了2大小的標準呢?

根據(jù)小概率事件在一次試驗中不大可能發(fā)生的規(guī)律,可以通

過確定一個與此相矛盾的小概率事件來實現(xiàn),在假定H。的條件下,對

于有放回簡單隨機抽樣,當樣本容量n充分大時,統(tǒng)計學家得到了#2的

近似分布,忽略%2的實際分布與該近似分布的誤差后,對于任何小概

率值a,可以找到相應(yīng)的正實數(shù)x,

a

使得下面關(guān)系成立:P(12》)=a④

a

我們稱X為a的臨界值,這個臨界值就可作為判斷乃2大小的標準,概率

a

值a越小,臨界值x越大,當總體很大時,抽樣有、無放回對,2的分布

a

影響較小.因此,在應(yīng)用中往往不嚴格要求抽樣必須是有放回的.

由④式可知,只要把概率值a取得充分小,在假設(shè)H。成立的情

況下,事件*2不大可能發(fā)生的.根據(jù)這個規(guī)律,如果該事件發(fā)生,我們就

可以推斷H。不成立.不過這個推斷有可能犯錯誤,但犯錯誤的概率不

會超過a.

獨立性檢驗公式及定義:

提出零假設(shè)(原假設(shè))H。:分類變量X和y獨立,假定我們通過

簡單隨機抽樣得到了x和y的抽樣數(shù)據(jù)列聯(lián)表,在列聯(lián)表中,如果

零假設(shè)H成立,則應(yīng)滿足三,即”從.因此lad-AI越小,說

0a+bc+a

明兩個分類變量之間關(guān)系越弱;lad-加1越大,說明兩個分類變量之間

關(guān)系越強.

為了使不同樣本容量的數(shù)據(jù)有統(tǒng)一的評判標準,基于上述分析,我們構(gòu)

2

造一個隨機變量…號、2.

(a+b)(c+d)(a+c)(b+d)

2

X獨立性檢驗中幾個常用的小概率值和相應(yīng)的臨界值.

Y

X合計

r=oY=1

x=oaba+b

X=1cdc+d

合計a+cb+dn=a+b+c+d

a010.050.010.0050.001

2.7063.8416.6357.87910.858

X

a

通過典型例題的

臨界值的定義:分析解決,提升學生

2

對于任何小概率值a,可以找到相應(yīng)的正實數(shù)x,使得P(f力)=a對獨立性檢驗的理

aa

2

成立,我們稱x為a的臨界值,這個臨界值可作為判斷%大小的標解和運用。發(fā)展學生

a

邏輯推理,直觀想

準,概率值a越小,臨界值x越大.

O.

象、數(shù)學抽象和數(shù)學

基于小概率值a的檢驗規(guī)則:

運算的核心素養(yǎng)。

2

當%女時,我們就推斷H不成立,即認為X和Y不獨立,該推斷

a0

犯錯誤的概率不超過a;

2

當%a時,我們沒有充分證據(jù)推斷H不成立,可以認為X和丫獨

a0

立.

2

用%取值的大小作為判斷零假設(shè)H是否成立的依據(jù),當它比較大時

0

2

推斷H不成立,否則認為H成立。這種利用%的取值推斷分類變

00

2

量X和Y是否獨立的方法稱為X獨立性檢驗,讀作“卡方獨立性檢

驗”,簡稱獨立性檢驗.

2

X獨立性檢驗中幾個常用的小概率值和相應(yīng)的臨界值

例2:依據(jù)小概率值a=0.1的尤2獨立性檢驗,分析例1中的抽樣數(shù)據(jù),

能否據(jù)此推斷兩校學生的數(shù)學成績優(yōu)秀率有差異?

解:零假設(shè)為H:分類變量X與Y相互獨立,即兩校學生的數(shù)學成

0

績優(yōu)秀率無差異.因為

學校數(shù)學成績合計

不優(yōu)秀(Y=0)優(yōu)秀(Y=l)

甲校(X=0)331043

乙校(X=D38745

合計711788

所以犬=端蔗誓。。837<2.7。6=%

根據(jù)小概率值a=O.I的f獨立性檢驗,沒有充分證據(jù)推斷H。不成立,

因此可以認為H成立,即認為兩校的數(shù)學成績優(yōu)秀率沒有差異。

0

問題5.例1和例2都是基于同一組數(shù)據(jù)的分析,但卻得出了不同的結(jié)

論,你能說明其中的原因嗎?

例1只是根據(jù)一個樣本的兩個頻率間存在差異得出兩校學生數(shù)

學成績優(yōu)秀率有差異的結(jié)論,并沒有考慮由樣本隨機性可能導致的錯

誤,所以那里的推斷依據(jù)不太充分,在本例中,我們用%2獨立性檢驗對

零假設(shè)H。進行了檢驗,通過計算,發(fā)現(xiàn)%2巾.837小于a=0.1所對應(yīng)的臨

界值2.706,因此認為沒有充分證據(jù)推斷H。不成立,所以接受H。,推斷

出兩校學生的數(shù)學優(yōu)秀率沒有顯著差異的結(jié)論,

這個檢驗結(jié)果意味著,抽樣數(shù)據(jù)中兩個頻率的差異很有可能是由

樣本隨機性導致的,因此,只根據(jù)頻率的差異得出兩校學生的數(shù)學成績

優(yōu)秀率有差異的結(jié)論是不可靠的.

由此可見,相對于簡單比較兩個頻率的推斷,用%2獨立性檢驗得

到的結(jié)果更理性、更全面,理論依據(jù)也更充分。

當我們接受零假設(shè)H0時,也可能犯錯誤。我們不知道犯這類錯誤

的概率p的大小,但是知道,若a越大,則p越小

例3.某兒童醫(yī)院用甲、乙兩種療法治療小兒消化不良.采用有放回簡

單隨機抽樣的方法對治療情況進行檢查,得到了如下數(shù)據(jù):抽到接受

甲種療法的患兒67名,其中未治愈15名,治愈52名;抽到接受乙

種療法的患兒69名,其中未治愈6名,治愈63名.試根據(jù)小概率值

a=0.005的獨立性檢驗,分析乙種療法的效果是否比甲種療法好.

解:零假設(shè)為H:療法與療效獨立,即兩種療法效果沒有差異.

0

將所給數(shù)據(jù)進行整理,得到兩種療法治療數(shù)據(jù)的列聯(lián)表,

療效

療法合計

未治愈治愈

甲155267

乙66369

合計21115136

根據(jù)列聯(lián)表中的數(shù)據(jù),經(jīng)計算得到/=136:T;63-52:6/?

67X69X2IX115

4.881<7,879=%QQQG

根據(jù)小概率值a=0.005的產(chǎn)獨立性檢驗,沒有充分證據(jù)推斷H。

不成立,因此可以認為H成立,即認為兩種療法效果沒有差異.

0

療效

療法合計

未治愈治愈

甲155267

乙66369

合計21115136

2

136x615x63-52x6;

y29=-----------------------------------------x4.881

"67x69x21x115

療效

療法合計

未治愈治愈

乙66369

甲155267

合計21115136

136x652x6-15x63;

Y92=-----------------------------------------?4.881

"69x67x21x115

療效

療法合計

治愈未治愈

甲521567

乙63669

合計11521136

,136x<52x6-15x63;

r2=-----------------------------------------?4.881

z67x69x21x115

不影響

問題6.若對調(diào)兩種療法的位置或?qū)φ{(diào)兩種療效的位置,這樣做會影響

/取值的計算結(jié)果嗎?

例4.為了調(diào)查吸煙是否對肺癌有影響,某腫瘤研究所采取有放回簡單

隨機抽樣,調(diào)查了9965人,得到如下結(jié)果(單位:人)依據(jù)小概率

值a=O.O()l的獨立性檢驗,分析吸煙是否會增加患肺癌的風險。

肺癌

吸煙合計

非肺癌患者肺癌患者

非吸煙

7775427817

吸煙者2099492148

合計9874919965

解:零假設(shè)為H。:吸煙和患肺癌之間沒有關(guān)系根據(jù)列聯(lián)表中的數(shù)據(jù),

經(jīng)計算的根據(jù)小概率值a=0.001的獨立性檢驗,推斷H。不成立,即

認為吸煙與患肺癌有關(guān)聯(lián),此推斷犯錯誤的概率不大于0.001,即我

們有99.9%的把握認為“吸煙與患肺癌有關(guān)系”.

,9965x67775x49-42x2099;

y2=------------------------------------------------------*56.632>10,858

'7817x2148x9874x91

根據(jù)表中的數(shù)據(jù)計算不吸煙者中不患肺癌和患肺癌的頻率分別為

吸煙者中不患肺癌和患肺癌的評率分別為

77764?

--x0.9946,x0.0054,

78177817

209949

—^^0.9772,0.0228

21482148

,0.0228,3

由-------?4.2

0.0054

可見,在被調(diào)查者中,吸煙者患肺癌的頻率是不吸煙者患肺癌頻率

的4倍以上。于是,根據(jù)頻率穩(wěn)定于概率的原理,我們可以認為吸煙

者患肺癌的概率明顯大于不吸煙者患肺癌概率,即吸煙更容易引發(fā)肺

癌。

應(yīng)用獨立性檢驗解決實際問題大致應(yīng)包括以下幾個主要環(huán)節(jié):

(1)提出零假設(shè)H:X和Y相互獨立,并給出在問題中的解釋.

o

(2)根據(jù)抽樣數(shù)據(jù)整理出2x2列聯(lián)表,計算/2的值,并與臨界值X。

比較.

(3)根據(jù)檢驗規(guī)則得出推斷結(jié)論.

(4)在X和Y不獨立的情況下,根據(jù)需要,通過比較相應(yīng)的頻率,

分析X和y間的影響規(guī)律.

注意:上述幾個環(huán)節(jié)的內(nèi)容可以根據(jù)不同情況進行調(diào)整,

例如,在有些時候,分類變量的抽樣數(shù)據(jù)列聯(lián)表是問題中給定的.

0.500.400.250.150.100.050.0250.0100.0050.001

P(Z汽)

0.4550.7081.3232.0722.7063.8415.0246.6357.87910.82

X

08

歸納總結(jié)

跟蹤訓練1.某校對學生的課外活動進行調(diào)查,結(jié)果整理成下表:

體育文娛總計

男生212344

女生62935

3卜275279

試用你所學過的知識分析:能否在犯錯誤的概率不超過0.005的前提

下,認為“喜歡體育還是文娛與性別有關(guān)系”?

解:':a=2\,b=23,c=6,d=29,n=79,

()2

.najc2_79x21x29-23x6

'x一(a+b)(c+d)(a+c)”+d),—44x35x27x52~6-1U0

且^2>7.879)~0.005,

0.500.400.250.150.100.050.0250.0100.0050.001

P(左X。)

0.4550.7081.3232.0722.7063.8415.0246.6357.87910.82

X

08

即我們得到的*2的觀測值x=8.106超過7.879這就意味著:"喜歡體育

還是文娛與性別沒有關(guān)系”這一結(jié)論成立的可能性小于0.005,即在犯

錯誤的概率不超過0.005的前提下認為“喜歡體育還是喜歡文娛與性

別有關(guān).”

三、達標檢測

1.給出下列實際問題:通過練習鞏固

①一種藥物對某種病的治愈率;②兩種藥物治療同一種病是否有區(qū)本節(jié)所學知識,通過

別;學生解決問題,發(fā)展

③吸煙者得肺病的概率;④吸煙是否與性別有關(guān)系;學生的數(shù)學運算、邏

⑤網(wǎng)吧與青少年的犯罪是否有關(guān)系.其中用獨立性檢驗可以解決的問輯推理、直觀想象、

題有()數(shù)學建模的核心素

A.①②③B.②④⑤C.②③④⑤D.①②③④⑤養(yǎng)。

解析:獨立性檢驗是判斷兩個分類變量是否有關(guān)系的方法,而①③都是

概率問題,不能用獨立性檢驗解決.

答案:B

2.某班主任對全班50名學生進行了作業(yè)量多少的調(diào)查,數(shù)據(jù)如下表:

下列敘述中,正確的是()

認為作業(yè)多認為作業(yè)不多總數(shù)

喜歡玩電腦游戲18927

不喜歡玩電腦游戲81523

總數(shù)262450

A.有99%的把握認為“喜歡玩電腦游戲與認為作業(yè)量的多少有關(guān)系”

B.有95%的把握認為“喜歡玩電腦游戲與認為作業(yè)量的多少無關(guān)系”

C.有99%的把握認為“喜歡玩電腦游戲與認為作業(yè)量的多少無關(guān)系”

D.有95%的把握認為“喜歡玩電腦游戲與認為作業(yè)量的多少有關(guān)系”

50X(18X15-8X9)2

計算得Z2-5.059>3.841.

27X23X26X24

答案:D

3.某高?!督y(tǒng)計》課程的教師隨機調(diào)查了選該課的一些學生情況,具體

數(shù)據(jù)如下表:

為了判斷主修統(tǒng)計專業(yè)是否與性別有關(guān)系,根據(jù)表中的數(shù)據(jù),得到

專業(yè)

非統(tǒng)計專業(yè)統(tǒng)計專業(yè)

性別

男1310

女720

因為4.844>3.841,所以有的把握判定主修統(tǒng)計專業(yè)與性

別有關(guān)系.

y=50X(13X20-10X7j4844

人~23x27x20x30~'

答案:95%

4.在500人身上試驗?zāi)撤N血清預(yù)防感冒作用,把他們一年中的感冒記

錄與另外500名未用血清的人的感冒記錄作比較,結(jié)果如表所示。問:

該種血清能否起到預(yù)防感冒的作用?

未感冒感冒合計

使用血清258242500

未使用血清216284500

合計4745261000

解:設(shè)H。:感冒與是

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論