獨立性檢驗原理(1)_第1頁
獨立性檢驗原理(1)_第2頁
獨立性檢驗原理(1)_第3頁
獨立性檢驗原理(1)_第4頁
獨立性檢驗原理(1)_第5頁
已閱讀5頁,還剩17頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、1上節(jié)學習了回歸分析的基本方法線性回歸模型上節(jié)學習了回歸分析的基本方法線性回歸模型ybxae不同于一次函數(shù)不同于一次函數(shù)ybxa,含有,含有_,其,其中中x為為_,y為為_.隨機誤差隨機誤差e解釋變量解釋變量預報變量預報變量樣本點的中心樣本點的中心殘差平方和殘差平方和222121,:1.niiiniiyyRRyy相關指數(shù)來刻畫回歸的效果 公式是1、兩個相關的概念、兩個相關的概念 對于性別變量,其取值為男和女兩種,這種變量的對于性別變量,其取值為男和女兩種,這種變量的不同不同“值值”表示個體表示個體所屬的不同類別所屬的不同類別,像這樣的變量稱,像這樣的變量稱為分類變量,它們的取值為分類變量,它們

2、的取值一定是離散的一定是離散的,而且不同的取,而且不同的取值僅表示個體所屬的類別值僅表示個體所屬的類別。(1) 分類變量分類變量: 定量變量的取值一定是實數(shù),它們的取值大小有定量變量的取值一定是實數(shù),它們的取值大小有特定的含義,不同取值之間的運算也有特定的含義。特定的含義,不同取值之間的運算也有特定的含義。(2)定量變量定量變量: 例如身高、體重、考試成績等,張明的身高是例如身高、體重、考試成績等,張明的身高是180cm,李立的,李立的身高是身高是175cm,說明張明比李立高,說明張明比李立高180-175=5(cm)。)。研究兩個變量的相關關系:定量變量:體重、身高、溫度、考試成績等等。定量

3、變量:體重、身高、溫度、考試成績等等。變量 分類變量:性別、是否吸煙、是否患肺癌、變量 分類變量:性別、是否吸煙、是否患肺癌、 宗教信仰、國籍等等。宗教信仰、國籍等等。兩種變量:本節(jié)研究的是兩個分類變量的獨立性檢驗問題。在日常生活中,我們常常關心分類變量的之間是否有關系在日常生活中,我們常常關心分類變量的之間是否有關系2 2定量變量回歸分析(畫散點圖、相關系數(shù)r、定量變量回歸分析(畫散點圖、相關系數(shù)r、變量 相關指數(shù)R 、殘差分析)變量 相關指數(shù)R 、殘差分析)分類變量分類變量獨立性檢驗獨立性檢驗二二.問題:問題:為了調查吸煙是否對肺癌有影響,某腫瘤研究所隨機地調查了為了調查吸煙是否對肺癌有影

4、響,某腫瘤研究所隨機地調查了 9965 9965人,得到如下結果(單位:人)人,得到如下結果(單位:人)22列聯(lián)表列聯(lián)表 吸煙與不吸煙,患病的可能性的大小是否有差異?吸煙與不吸煙,患病的可能性的大小是否有差異?不患肺癌不患肺癌患肺癌患肺癌總計總計不吸煙不吸煙77757775424278177817吸煙吸煙20992099494921482148總計總計98749874919199659965吸煙與患肺癌吸煙與患肺癌列聯(lián)表列聯(lián)表(列出兩個分類變量的頻數(shù)表):(列出兩個分類變量的頻數(shù)表): 吸煙與肺癌列聯(lián)表吸煙與肺癌列聯(lián)表不患肺癌不患肺癌患肺癌患肺癌總計總計不吸煙不吸煙77757775424278

5、177817吸煙吸煙20992099494921482148總計總計98749874919199659965在不吸煙者中患肺癌的比重是在不吸煙者中患肺癌的比重是 在吸煙者中患肺癌的比重是在吸煙者中患肺癌的比重是 0.54%0.54%2.28%2.28% 根據(jù)統(tǒng)計分析的思想,用頻率估計概率可知,吸煙者和不吸煙者患肺癌的可能性存在差異,吸吸煙者和不吸煙者患肺癌的可能性存在差異,吸煙者患肺癌的可能性大煙者患肺癌的可能性大方法1.用頻率估計概率方法方法2.通過圖形直觀判斷通過圖形直觀判斷等高條形圖等高條形圖患肺癌比例患肺癌比例不患肺癌比例不患肺癌比例由上述圖形顯然可以得到結論是:吸煙與患肺癌有關由上述

6、圖形顯然可以得到結論是:吸煙與患肺癌有關思考:這種判斷可靠嗎?這種判斷可靠嗎?你能有多大把握認為“患病與吸煙有關”呢?不患肺癌不患肺癌患肺癌患肺癌總計總計不吸煙不吸煙aba+b吸煙吸煙cdc+d總計總計a+cb+da+b+c+d假設吸煙與患肺癌沒有關系,那么吸煙者中不患肺癌假設吸煙與患肺癌沒有關系,那么吸煙者中不患肺癌的比例應該與不吸煙者中相應的比例差不多即的比例應該與不吸煙者中相應的比例差不多即()()0aca cdc ababcdadbcadbcadbc 即 因此越小說明吸煙與患肺癌之間關系越弱;因此越大說明吸煙與患肺癌之間關系越強。0H假設:吸煙與患肺癌沒有關系22()()()()()n

7、 ad bca b c d a c b d為了是不同樣本容量的數(shù)據(jù)有一個統(tǒng)一的標準,構造一個隨機變量K,其中n=a+b+c+d為樣本容量2000HKkkk在假設成立的前提下,的觀測值 應該比較小因此,當 很小時,說明在一定的可信程度上H 成立;很大時,說明沒有充分的證據(jù)說明H 成立。k k大小的標準是什么呢?大小的標準是什么呢?0k臨界值獨立性檢驗獨立性檢驗首先,假設結論不成立,即首先,假設結論不成立,即 H :兩個分類變量沒有關系:兩個分類變量沒有關系 (在這種假設下(在這種假設下k應該很?。摵苄。┢浯?,由觀測數(shù)據(jù)計算其次,由觀測數(shù)據(jù)計算K 的觀測值的觀測值k, (如果(如果k很大,則在

8、一定可信程度上說明很大,則在一定可信程度上說明H 不成不成 立立,即兩個分類變量之間有關系)即兩個分類變量之間有關系)最后,根據(jù)最后,根據(jù)k的值判斷假設是否成立的值判斷假設是否成立2卡方臨界值表:卡方臨界值表:10.8287.8796.6355.0243.8412.7062.0721.3230.7080.445 k00.0010.0050.0100.0250.050.100.150.50.400.5020()P Kk10.8287.8796.6355.0243.8412.7062.0721.3230.7080.445 k0.0010.0050.0100.0250.050.100.150.50.

9、400.502()P Kk(1 1)如果)如果k10.828k10.828,就有,就有99.9%99.9%的把握認為的把握認為“X X與與Y Y有關系有關系”;(2 2)如果)如果k7.879k7.879,就有,就有99.5%99.5%的把握認為的把握認為“X X與與Y Y有關系有關系”;(3 3)如果如果k6.635k6.635,就有,就有99%99%的把握認為的把握認為“X X與與Y Y有關系有關系”;(4 4)如果)如果k5.024k5.024,就有,就有97.5%97.5%的把握認為的把握認為“X X與與Y Y有關系有關系”;(5 5)如果)如果k3.841k3.841,就有,就有95

10、%95%的把握認為的把握認為“X X與與Y Y有關系有關系”;(6 6)如果)如果k2.706k2.706,就有,就有90%90%的把握認為的把握認為“X X與與Y Y有關系有關系”;(7 7)如果如果k=2.706k=2.706,就認為沒有充分的證據(jù)顯示,就認為沒有充分的證據(jù)顯示 “X X與與Y Y有關系有關系”. .臨界表臨界表02220:9965(777549422099)56.63278172148987491(10.828)0.00156.631KP K解 : 假 設 H吸 煙 與 患 肺 癌 沒 有 關 系的 觀 測 值 為k根 據(jù) 臨 界 值 表 可 知遠 大 于 10.828,

11、 所 以 有 理 由 判 斷 H 不 成 立 ,所 以 吸 煙 與 患 癌 癥 有 關 系 。注注:1)這種判斷可能會犯錯誤,但是犯錯誤的概率不會超過)這種判斷可能會犯錯誤,但是犯錯誤的概率不會超過0.001,這是個小概率事件,這是個小概率事件,即即我們有我們有99.9的把握認為的把握認為“吸吸 煙與煙與患癌癥有關系患癌癥有關系” 2)利用隨機變量)利用隨機變量 來判斷來判斷“兩個分類變量有關系兩個分類變量有關系”的的 方法稱為這兩個分類變量的獨立性檢驗。方法稱為這兩個分類變量的獨立性檢驗。2k反證法原理與獨立性檢驗原理反證法原理: 在一個已知假設在一個已知假設下,如果推出一個下,如果推出一個

12、矛盾,就證明了這矛盾,就證明了這個假設不成立。個假設不成立。獨立性檢驗原理: 在一個已知假設下,在一個已知假設下,如果推出一個小概如果推出一個小概率事件發(fā)生,則推率事件發(fā)生,則推斷這個假設不成立斷這個假設不成立的可能性很大的可能性很大。返回返回在判斷兩變量相關時,若在判斷兩變量相關時,若K2的觀測值的觀測值k56.632,則,則P(K26.635)0.01和和P(K210.828)0.001,哪種說法是正確,哪種說法是正確的?的?提示:提示:兩種說法均正確兩種說法均正確P(K26.635)0.01的含義是:在犯錯誤的概率不超過的含義是:在犯錯誤的概率不超過0.01的的前提下,認為兩變量相關;前

13、提下,認為兩變量相關;而而P(K210.828)0.001的含義是:在犯錯誤的概率不超過的含義是:在犯錯誤的概率不超過0.001的前提下,認為兩變量相關的前提下,認為兩變量相關問題探究在吸煙與患肺病這兩個分類變量的計算中,下列說法正確在吸煙與患肺病這兩個分類變量的計算中,下列說法正確的是(的是( )A、若、若K的觀測值為的觀測值為k=6.635,我們有我們有99%的把握認為吸煙與的把握認為吸煙與患肺病有關系,那么在患肺病有關系,那么在100個吸煙的人中必有個吸煙的人中必有99個患肺病個患肺病B、從獨立性檢驗可知有、從獨立性檢驗可知有99%的把握認為吸煙與患肺病有關的把握認為吸煙與患肺病有關系時

14、,我們說某人吸煙,那么他有系時,我們說某人吸煙,那么他有99%的可能患肺病的可能患肺病C、若從統(tǒng)計量中求出有、若從統(tǒng)計量中求出有95%的把握認為吸煙與患肺病有關的把握認為吸煙與患肺病有關系,是指有系,是指有5%的可能性使得推理出現(xiàn)錯誤的可能性使得推理出現(xiàn)錯誤D、以上三種說法都不對、以上三種說法都不對c在某醫(yī)院,因為患心臟病而住院的在某醫(yī)院,因為患心臟病而住院的665名病人中,名病人中,有有214人禿頂,而另外人禿頂,而另外772名不是因為患心臟病而名不是因為患心臟病而住院的男性病人中有住院的男性病人中有175人禿頂。利用圖形判斷禿人禿頂。利用圖形判斷禿頂與患心臟病是否有關系。能夠以頂與患心臟病

15、是否有關系。能夠以99%的把握認為的把握認為禿頂與患心臟病有關系嗎?為什么?禿頂與患心臟病有關系嗎?為什么?例1患心臟病患心臟病患其他病患其他病總計總計禿頂禿頂214175389不禿頂不禿頂4515971048總計總計6657721437(1)等高條形圖)等高條形圖從圖中可以看出,禿頂樣本中患心臟病的頻率明顯高于從圖中可以看出,禿頂樣本中患心臟病的頻率明顯高于不禿頂樣本中患心臟病的頻率,因此可直觀地認為禿頂不禿頂樣本中患心臟病的頻率,因此可直觀地認為禿頂與患心臟病有關系。與患心臟病有關系。 因此,在犯錯誤的概率不超過因此,在犯錯誤的概率不超過0.010的前提下認為的前提下認為“禿頂與患心臟病有關禿頂與患心臟病有關”,即有,即有99%的把握認為的把握認為“禿禿頂與患心臟病有關頂與患心臟病有關”。(2)獨立性檢驗法)獨立性檢驗法患心臟病患心臟病患其他病患其他病總計總計禿頂禿頂214175389不禿頂不禿頂4515971048總計總計665772143721437 (214 597 175 451)16.3736.635389 1048 665 772k 獨立性檢驗的一般步驟:獨立性檢驗的一般步驟:(1)(1)根據(jù)樣本數(shù)據(jù)制成根據(jù)樣本數(shù)據(jù)制成2 22 2列聯(lián)表;列聯(lián)表;(2)(2)根據(jù)公式根據(jù)公式K K2 2= = 計算計算K

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論