




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第四章分類變量資料的統(tǒng)計分析
statisticalanalysisforcategoricaldata1第四章分類變量資料的統(tǒng)計分析
statisticala簡要回顧數(shù)值變量分類變量:將觀察單位按事物的某種屬性或類別進行分組,再清點每組觀察單位的個數(shù)得到的資料。2簡要回顧數(shù)值變量2簡要回顧統(tǒng)計分析統(tǒng)計描述統(tǒng)計推斷參數(shù)估計假設(shè)檢驗均數(shù)、標準差總體均數(shù)估計t檢驗,方差分析Example數(shù)值資料3簡要回顧統(tǒng)計分析統(tǒng)計描述統(tǒng)計推斷參數(shù)估計假設(shè)檢驗均數(shù)、標準差統(tǒng)計分析統(tǒng)計描述統(tǒng)計推斷參數(shù)估計假設(shè)檢驗Example分類資料率、比、構(gòu)成比總體率可信區(qū)間χ2檢驗4統(tǒng)計分析統(tǒng)計描述統(tǒng)計推斷參數(shù)估計假設(shè)檢驗Example分類資主要內(nèi)容分類變量資料的統(tǒng)計描述常用的相對數(shù)指標應(yīng)用相對數(shù)時應(yīng)注意的幾個問題;率的標準化法。分類變量資料的統(tǒng)計推斷估計率的抽樣誤差總體率可信區(qū)間的估計兩個率的比較5主要內(nèi)容分類變量資料的統(tǒng)計描述5第一節(jié)分類變量資料的統(tǒng)計描述6第一節(jié)分類變量資料的統(tǒng)計描述6常用的相對數(shù)比例率比相對數(shù)應(yīng)用的注意事項率的標準化7常用的相對數(shù)7計數(shù)資料用定性的方法得到的資料稱作分類變量資料按某種屬性分類,然后清點每類的數(shù)據(jù)住院號年齡職業(yè)文化程度分娩方式妊娠結(jié)局202565527無中學順產(chǎn)足月202565322無小學助產(chǎn)足月202583025管理人員大學順產(chǎn)足月202567724知識分子中學順產(chǎn)早產(chǎn)202564730管理人員大學順產(chǎn)足月202584832無小學剖宮產(chǎn)足月201991527無中學順產(chǎn)死產(chǎn)8計數(shù)資料用定性的方法得到的資料稱作分類變量資料住院號年齡職業(yè)絕對數(shù)和相對數(shù)絕對數(shù):實際數(shù)反映某事物現(xiàn)象發(fā)生的實際情況,總量指標缺點:不利于比較。相對數(shù)是兩個有聯(lián)系的數(shù)據(jù)的比值。目的:將基數(shù)化為相同,便于比較。9絕對數(shù)和相對數(shù)絕對數(shù):實際數(shù)9
問題某部隊野營訓練,發(fā)生中暑12人,北方籍戰(zhàn)士10人,南方籍戰(zhàn)士2人,結(jié)論:北方籍戰(zhàn)士容易中暑。1999年某幼兒園有36名兒童患了腮腺炎,該幼兒園有200名兒童(其中25名兒童以前患過腮腺炎),該幼兒園兒童1999年腮腺炎發(fā)病率是多少?10問題某部隊野營訓練,發(fā)生中暑12人,北方一、常用的相對數(shù)指標構(gòu)成比(proportion)率(rate)比(ratio)動態(tài)數(shù)列(dynamicseries)11一、常用的相對數(shù)指標構(gòu)成比(proportion)111、構(gòu)成比(proportion)概念:說明某一事物內(nèi)部各組成部分所占的比重,常以百分數(shù)表示,又稱比例。
計算公式:121、構(gòu)成比(proportion)概念:說明某一事物內(nèi)部各例:手術(shù)前后胸腔積液白細胞分類13例:手術(shù)前后胸腔積液白細胞分類13構(gòu)成比特點:各部分構(gòu)成比的總和為100%,值在0-1間變動;某部分構(gòu)成比發(fā)生變化時,其他部分也相應(yīng)變化。14構(gòu)成比特點:各部分構(gòu)成比的總和為100%,值在0-1間變動;2、率(rate)
定義:一定時間內(nèi),實際發(fā)生某現(xiàn)象的觀察單位數(shù)與可能發(fā)生該現(xiàn)象的觀察單位總數(shù)之比。計算公式:K比例基數(shù)152、率(rate)定義:一定時間內(nèi),實際發(fā)生某現(xiàn)象的觀察單用以說明某現(xiàn)象發(fā)生的頻率或強度K:比例基數(shù),常用百分率(%)、千分率(‰)、萬分率(1/萬)或十萬分率(1/10萬)等表示。使計算結(jié)果保留1~2位整數(shù)。
平均率不能由各組率相加后求平均,應(yīng)為分子合計除以分母合計。關(guān)于率…16用以說明某現(xiàn)象發(fā)生的頻率或強度關(guān)于率…16例幾種藥物不良反應(yīng)發(fā)生情況半合成青霉素不良反應(yīng)發(fā)生水平最高,達35.5‰總發(fā)生率:87/3803=22.9‰
(‰)17例幾種藥物不良反應(yīng)發(fā)生情況半合成青霉素不良反應(yīng)發(fā)生水發(fā)病率‰患病率
‰
率常用統(tǒng)計指標18發(fā)病率率常用統(tǒng)計指標18‰病死率
死亡率
19‰病死率193、比(ratio)定義:也稱相對比,指兩個有聯(lián)系的指標之比,常以百分數(shù)或倍數(shù)表示。計算公式:兩個指標可以性質(zhì)相同,也可以性質(zhì)不相同;可以是相對數(shù)、絕對數(shù)或平均數(shù)等。203、比(ratio)定義:也稱相對比,指兩個有聯(lián)系的指標之比21214、動態(tài)數(shù)列(dynamicseries)概念:指一系列按時間順序排列起來的統(tǒng)計指標(包括絕對數(shù)、相對數(shù)和平均數(shù)),用以說明事物在時間上的變化和發(fā)展趨勢。常用指標:有絕對增長量、發(fā)展速度和增長速度、平均發(fā)展速度與平均增長速度。224、動態(tài)數(shù)列(dynamicseries)概念:指一系列按絕對增長量:說明事物在一定時期內(nèi)所增減的絕對數(shù)量,表現(xiàn)為兩指標之差。累計絕對增長量報告期與基期指標之差。逐年絕對增長量報告期與前一期指標之差23絕對增長量:說明事物在一定時期內(nèi)所增減的絕對數(shù)量,表現(xiàn)為兩發(fā)展速度和增長速度:說明事物在一定時期內(nèi)發(fā)展變化的幅度和速度。定基比發(fā)展速度環(huán)比發(fā)展速度定基比增長速度環(huán)比增長速度24發(fā)展速度和增長速度:說明事物在一定時期內(nèi)發(fā)展變化的幅度和速度107.5%-100%25107.5%-100%25二、應(yīng)用相對數(shù)應(yīng)注意的問題計算相對數(shù)的分母不宜過小穩(wěn)定性差,缺乏代表性例數(shù)較少時,用絕對數(shù)分析時不能以構(gòu)成比代替率構(gòu)成比是比例指標,它用來說明事物內(nèi)部各組成部分所占的比重或分布,分子僅是分母中同一事物現(xiàn)象的一部分,是概率的估計值。率則與時間有關(guān),它具有速率的概念,也具有概率估計值的意義,是與時間有關(guān)的比例26二、應(yīng)用相對數(shù)應(yīng)注意的問題計算相對數(shù)的分母不宜過小26正確計算平均率不能將這幾個率直接相加求其均值,而應(yīng)將各個率的分子、分母分別相加后,再求總率即平均率相互比較時注意可比性除研究因素不同外,其他影響研究結(jié)果的因素應(yīng)盡可能相同或相近研究對象同質(zhì)、方法相同、其他基本條件一致、內(nèi)部構(gòu)成要相同,不同則進行率的標化后再比較同一地區(qū)不同時期資料的比較,應(yīng)注意客觀條件的變化27正確計算平均率27樣本率或構(gòu)成比的比較應(yīng)進行假設(shè)檢驗樣本率(或構(gòu)成比)是通過抽樣得到的,存在抽樣誤差,因此不能只憑數(shù)值表面相差的大小作結(jié)論,應(yīng)進行差別的假設(shè)檢驗。28樣本率或構(gòu)成比的比較應(yīng)進行假設(shè)檢驗28三、標準化法29三、標準化法29為什么要進行標化30為什么要進行標化301、標化法的基本思想當兩組資料進行比較時,如果其內(nèi)部不同小組率有明顯差別,而且各小組內(nèi)部構(gòu)成也明顯不同,直接比較不合理。在兩個及兩個以上總率(總均數(shù))進行對比時,為了消除內(nèi)部構(gòu)成不同的影響,采用統(tǒng)一標準,分別計算標準化率后再作對比的方法稱為標準化法。311、標化法的基本思想當兩組資料進行比較時,如果其內(nèi)部不同小組2、標準化率的計算標準化方法1.以人口數(shù)作為標準2.以人口構(gòu)成比作為標準選擇標準人口1.選擇有代表性的、較穩(wěn)定的、數(shù)量較大的人群作標準。2.兩組之和的人口數(shù)或人口構(gòu)成比;3.兩組間較穩(wěn)定一組的人口數(shù)或人口構(gòu)成比;322、標準化率的計算32以人口數(shù)作為標準
預(yù)期發(fā)生數(shù)=標準人口數(shù)x原發(fā)生率33以人口數(shù)作為標準
預(yù)期發(fā)生數(shù)=標準人口數(shù)x原發(fā)生率33計算標準化率34計算標準化率34以人口構(gòu)成比作為標準35以人口構(gòu)成比作為標準353、應(yīng)用標準化時的注意事項1.標準化法只適用于某因素兩組內(nèi)部構(gòu)成不同,并有可能影響兩組總率比較的情況。對于因其它條件不同而產(chǎn)生的不具可比性的問題,標準化法不能解決。2.由于選擇的標準人口不同,算出的標準化率也不同。當比較幾個標準化率時,應(yīng)采用同一標準人口。363、應(yīng)用標準化時的注意事項363.標準化率已經(jīng)不再反映當時當?shù)氐膶嶋H水平,它只是表示相互比較的資料間在共同標準下的相對水平,用于比較。4.兩樣本標準化率是樣本值,存在抽樣誤差。比較兩樣本的標準化率,當樣本含量較小時,應(yīng)作假設(shè)檢驗。373.標準化率已經(jīng)不再反映當時當?shù)氐膶嶋H水平,它只是表示相互比第二節(jié)
分類變量資料的統(tǒng)計推斷38第二節(jié)
分類變量資料的統(tǒng)計推斷38統(tǒng)計推斷用樣本信息推論總體特征的過程。包括:參數(shù)估計:
運用統(tǒng)計學原理,用從樣本計算出來的統(tǒng)計指標量,對總體統(tǒng)計指標量進行估計。假設(shè)檢驗:又稱顯著性檢驗,是指由樣本間存在的差別對樣本所代表的總體間是否存在著差別做出判斷。39統(tǒng)計推斷用樣本信息推論總體特征的過程。39簡要回顧統(tǒng)計分析統(tǒng)計描述統(tǒng)計推斷參數(shù)估計假設(shè)檢驗Example分類資料率、比、構(gòu)成比總體率的可信區(qū)間χ2檢驗、u檢驗40簡要回顧統(tǒng)計分析統(tǒng)計描述統(tǒng)計推斷參數(shù)估計假設(shè)檢驗Exampl主要內(nèi)容率的抽樣誤差和總體率的區(qū)間估計率的u檢驗2檢驗41主要內(nèi)容率的抽樣誤差和總體率的區(qū)間估計41
一、率的抽樣誤差和總體率的估計42
一、率的抽樣誤差和總體率的估計421、率的抽樣誤差與標準誤概念:樣本率(p)和總體率(π)的差異稱為率的抽樣誤差(samplingerrorofrate),用率的標準誤(standarderrorofrate)度量。1如果總體率π未知,用樣本率p估計431、率的抽樣誤差與標準誤概念:樣本率(p)和總體率(π)的差率的標準誤越小,說明率的抽樣誤差越小,用樣本推論總體時,可信程度越高。例4.5某地隨機抽取500名兒童,乙肝感染率為4.50%,求乙肝感染率的標準誤。該地500名兒童乙肝感染率的標準誤為0.93%。44率的標準誤越小,說明率的抽樣誤差越小,用樣本推論總體時,可信2、總體率的可信區(qū)間點估計:就是把樣本率看作總體率;區(qū)間估計:按一定的概率,以樣本信息來估計總體率所在的范圍,即計算總體率的1-α置信區(qū)間。這里,α一般取0.05或0.01查表法:正態(tài)近似法452、總體率的可信區(qū)間點估計:就是把樣本率看作總體率;45查表法對于小樣本資料(n≤50),可根據(jù)樣本陽性例數(shù)X及樣本例數(shù)n,直接查二項分布參數(shù)π的置信區(qū)間表,例:某新藥的毒理研究中,用20只小白鼠作急性毒性實驗,死亡3只,估計該藥急性致死率的95%可信區(qū)間。
從附表(根據(jù)二項分布原理制成)查得,在n=20與X=3縱列交叉處的數(shù)值為3~38,即該藥急性致死率的95%可信區(qū)間為3%~38%46查表法對于小樣本資料(n≤50),可根據(jù)樣本陽性例數(shù)X及樣本正態(tài)近似法條件:當n足夠大,p和(1-p)均不太小,且np和n(1-p)均大于5時,樣本率p的抽樣分布近似服從正態(tài)分布??捎霉焦烙嬁傮w率的置信區(qū)間。
公式:(p-usp,p+usp)式中,uα:標準正態(tài)分布曲線下,雙尾面積為α時對應(yīng)的u界值,當α=0.05時,u0.05=1.96;α=0.01時,u0.01=2.58。47正態(tài)近似法條件:當n足夠大,p和(1-p)均不太小,且np和例某地隨機抽取500名兒童,乙肝感染率為4.50%,估計該地兒童乙肝感染率的95%可信區(qū)間?
(p-usp,p+usp)=(0.045-1.96×0.0093,0.045+1.96×0.0093)=(2.68%,6.32%)該地兒童95%乙肝患病率置信區(qū)間為(2.68%,6.32%)。48例某地隨機抽取500名兒童,乙肝感染率為4.50%,估計該二、率的u檢驗49二、率的u檢驗49樣本率存在抽樣誤差,比較兩樣本的率時,應(yīng)作假設(shè)檢驗。當樣本例數(shù)n較大,樣本率p和1-p均不太小,且np和n(1-p)均大于5時,樣本率與總體率、兩樣本率間差別進行比較時,可采用u檢驗。50樣本率存在抽樣誤差,比較兩樣本的率時,應(yīng)作假設(shè)檢驗。501、樣本率與總體率的比較條件:當樣本率的分布近似服從正態(tài)分布時,樣本率p與已知總體率π0的比較,可用u檢驗公式:式中,π0:總體率,一般為理論值、經(jīng)驗值或大量觀察得到的穩(wěn)定值。511、樣本率與總體率的比較條件:當樣本率的分布近似服從正態(tài)分例4.6根據(jù)以往經(jīng)驗,一般胃潰瘍患者中有20%發(fā)生胃出血癥狀。某醫(yī)院觀察65歲以上潰瘍病患者152例,有31.6%的患者出現(xiàn)胃出血癥狀。問老年人潰瘍病患者是否容易發(fā)生胃出血?1)建立假設(shè),確定水準
52例4.6根據(jù)以往經(jīng)驗,一般胃潰瘍患者中有20%發(fā)生胃出血癥2)計算u值532)計算u值533)確定P值,做出結(jié)論543)確定P值,做出結(jié)論542、兩樣本率的比較條件:兩樣本含量n1與n2均較大;兩樣本率p1、(1-p1)及p2、(1-p2)均不太??;如n1p1、或n1(1-p1)及n2p2、或n2(1-p2)均大于5時,可采用正態(tài)近似法。公式:
式中,p1和p2:分別為兩個樣本率;Sp1-p2:兩率之差的標準誤;Xl和X2:分別表示兩樣本發(fā)生某現(xiàn)象的觀察單位數(shù)。552、兩樣本率的比較條件:兩樣本含量n1與n2均較大;兩樣本例4.7調(diào)查兩個城市的甲狀腺腫患病率,其中甲市調(diào)查3315例,甲狀腺腫患病率為1.78%,乙市調(diào)查3215例,患病率為5.60%,問兩個城市甲狀腺腫患病率有無差別?1)建立假設(shè),確定檢驗水準56例4.7調(diào)查兩個城市的甲狀腺腫患病率,其中甲市調(diào)查33152)計算u值572)計算u值573)確定P值,做出結(jié)論583)確定P值,做出結(jié)論58當樣本量不大,或幾個率進行比較時——2檢驗兩樣本率的比較除可用u檢驗,還可采用2檢驗,且ν=1時,u2=2
。59當樣本量不大,或幾個率進行比較時59三、2檢驗60三、2檢驗60用途:推斷兩個總體率或構(gòu)成比之間有無差別多個總體率或構(gòu)成比之間有無差別多個樣本率比較的分割兩個分類變量之間有無關(guān)聯(lián)性頻數(shù)分布擬合優(yōu)度的檢驗。檢驗統(tǒng)計量:應(yīng)用:計數(shù)資料61用途:61一、2檢驗基本思想Foragivenphenomenon,thechi-squaretestcomparestheactualfrequencies(A)withthetheoreticalfrequencies(T).實際頻數(shù)(A):observedfrequencies理論頻數(shù)(T).:calculatedfromsomehypothesis.62一、2檢驗基本思想ForagivenphenomSupposeyoutossacoin100timesH:40timesT:60timesIfyouhypothesizethatthecoinisfair,theoretical:50timeseach.63Supposeyoutossacoin100tiWhethertheHypothesisistrue?ComparetheAwiththeT.Iftheyarequitedifferent,thenthetheorymightnotbetrue;Otherwise,thetheoryisacceptable.64WhethertheHypothesisistrueWhethertheyarequitedifferent?whetherthedeviationsbetweenAandTaresignificant.Deviations=65Whethertheyarequitediffere基本公式:
A:實際頻數(shù),如四個基本數(shù)據(jù);T:理論頻數(shù),是根據(jù)檢驗設(shè),且用合并率來估計而定的。66基本公式:662-distribution,df=16.83P=0.053.84P=0.012valueProbabilitydistributionforthestatistic,whenthesamplesizesandthetheoreticalfrequenciesarenottoosmall.672-distribution,df=16.83P=0.0PvalueSupposethedeviationsarenotsignificant,orthereisnodifferencebetweentheAandT,theprobabilitythatwegetthevalueof2.Withdf=1,theprobabilitythatwegetthevalueof3.84is0.05.68Pvalue68P<0.05Supposethedeviationsarenotsignificant,orthereisnodifferencebetweentheAandT,theprobabilitythatwegetthevalueof2islessthan0.05.Impossible!Sothedeviationsaresignificant.Rejectthehypothesis.69P<0.0569Whetherthecoinisfair?hypothesisthatthecoinisfair,2
=4P=0.05P<0.0543.8470Whetherthecoinisfair?P=0.0c20.05,1=3.84df=1卡方界值表p12271c20.05,1=3.84卡方界值表p122712值反映了實際頻數(shù)與理論頻數(shù)的吻合程度若檢驗假設(shè)H0:π1=π2成立,四個格子的實際頻數(shù)A與理論頻數(shù)T相差不應(yīng)該很大,即統(tǒng)計量不應(yīng)該很大。如果值很大,推斷A與T相差太大,從而懷疑H0的正確性,繼而拒絕H0,接受其對立假設(shè)H1,即π1≠π2。與相應(yīng)自由度的界值比較722值反映了實際頻數(shù)與理論頻數(shù)的吻合程度若檢驗假設(shè)H0:π1四格表資料的2檢驗配對設(shè)計四格表資料2檢驗行×列表資料2檢驗二、卡方檢驗類型73四格表資料的2檢驗二、卡方檢驗類型731、四格表資料的2檢驗什么是四格表資料?2個率或構(gòu)成比的資料,也叫2行2列表741、四格表資料的2檢驗什么是四格表資料?74理論頻數(shù)由下式求得:TRC為第R行C列的理論頻數(shù)
nR為相應(yīng)的行合計
nC為相應(yīng)的列合計
n為總樣本量T11=116×98/224=50.75T12=116×126/224=65.2575理論頻數(shù)由下式求得:TRC為第R行C列的理論頻數(shù)T11四格表檢驗步驟建立假設(shè),確定檢驗水準計算2值76四格表檢驗步驟建立假設(shè),確定檢驗水準計算2值76確定P值,做出結(jié)論6.830.053.840.0177確定P值,做出結(jié)論6.830.053.840.0177四個表專用公式78四個表專用公式78四個表2值的校正不校正:n>40,且全部T>5時校正:當n>40,但有任一格子1≤T<5時確切概率:當n≤40或T<l時79四個表2值的校正不校正:n>40,且全部T>5時79例4.7
某醫(yī)院觀察了28例肝硬化患者和14例再生障礙性貧血患者的血清中抗血小板抗體的陽性情況,結(jié)果見表4-10。問兩類患者血清中抗血小板抗體陽性率有無差異。校正公式80例4.7某醫(yī)院觀察了28例肝硬化患者和14例再生障礙性貧血8181四格表2檢驗計算統(tǒng)計量公式基本公式
專用公式不校正:n>40,且全部T>5時校正:當n>40,但有任一格子1≤T<5時當n≤40或T<l時,用四格表確切概率計算法82四格表2檢驗計算統(tǒng)計量公式2、配對設(shè)計四格表資料2檢驗常用于比較兩種檢驗方法或兩種培養(yǎng)基的陽性率是否有差別。特點:對同一觀察對象分別用兩種方法處理,觀察其陽性與陰性結(jié)果。資料整理為配對四格表形式.832、配對設(shè)計四格表資料2檢驗常用于比較兩種檢驗方法或兩種培配對設(shè)計資料整理形式配對2檢驗公式
b+c>40b+c≤40,校正84配對設(shè)計資料整理形式配對2檢驗公式
例4.8為比較兩種檢驗方法中和法和血凝法檢測關(guān)節(jié)痛病人的抗“O”結(jié)果,觀測105例關(guān)節(jié)痛患者,結(jié)果見表4-11,問兩種檢驗結(jié)果有無差別?85例4.8為比較兩種檢驗方法中和法和血凝法檢測關(guān)節(jié)痛病人的抗8686①
多個樣本率比較時,有R行2列,稱為R×2表;②
兩個樣本的構(gòu)成比比較時,有2行C列,稱2×C表;③
多個樣本的構(gòu)成比比較,以及雙向無序分類資料關(guān)聯(lián)性檢驗時,有行列,稱為R×C表。3、行×列表資料2檢驗87①
多個樣本率比較時,有R行2列,稱為R×2表;3、行×列檢驗統(tǒng)計量式中,n:總例數(shù);ARC::第R行C列的實際頻數(shù);nR、nC:分別為行、列合計數(shù)。88檢驗統(tǒng)計量式中,n:總例數(shù);ARC::第R行C列的實際頻數(shù);例4.9某醫(yī)院研究急性白血病與慢性白血病患者的血型構(gòu)成情況有無不同,資料見表4-12,問兩組差別有無統(tǒng)計學意義。89例4.9某醫(yī)院研究急性白血病與慢性白血病患者的血型構(gòu)成情況90901.行列表中的各格T≥1,并且1≤T<5的格子數(shù)不宜超過1/5格子總數(shù),否則可能產(chǎn)生偏性。處理方法有三種:增大樣本含量將理論頻數(shù)太小的行或列與性質(zhì)相近的鄰行或鄰列合并;刪去理論頻數(shù)太小的格子所對應(yīng)的行或列。行×列表資料χ2檢驗的注意事項911.行列表中的各格T≥1,并且1≤T<5的格子數(shù)不宜超過1/2.當多個樣本率(或構(gòu)成比)比較時,如結(jié)論為拒絕檢驗假設(shè),只能認為各總體率或總體構(gòu)成比之間差別有統(tǒng)計學意義,但并不能說明它們彼此之間都有差別,或某兩者之間有差別。922.當多個樣本率(或構(gòu)成比)比較時,如結(jié)論為拒絕檢驗假設(shè),只掌握常用相對數(shù)指標構(gòu)成比,率,比率的標準化法基本思想,計算方法卡方檢驗四格表資料的卡方檢驗配對資料的卡方檢驗93掌握常用相對數(shù)指標93Thankyou!94Thankyou!94個人觀點供參考,歡迎討論!個人觀點供參考,歡迎討論!第四章分類變量資料的統(tǒng)計分析
statisticalanalysisforcategoricaldata96第四章分類變量資料的統(tǒng)計分析
statisticala簡要回顧數(shù)值變量分類變量:將觀察單位按事物的某種屬性或類別進行分組,再清點每組觀察單位的個數(shù)得到的資料。97簡要回顧數(shù)值變量2簡要回顧統(tǒng)計分析統(tǒng)計描述統(tǒng)計推斷參數(shù)估計假設(shè)檢驗均數(shù)、標準差總體均數(shù)估計t檢驗,方差分析Example數(shù)值資料98簡要回顧統(tǒng)計分析統(tǒng)計描述統(tǒng)計推斷參數(shù)估計假設(shè)檢驗均數(shù)、標準差統(tǒng)計分析統(tǒng)計描述統(tǒng)計推斷參數(shù)估計假設(shè)檢驗Example分類資料率、比、構(gòu)成比總體率可信區(qū)間χ2檢驗99統(tǒng)計分析統(tǒng)計描述統(tǒng)計推斷參數(shù)估計假設(shè)檢驗Example分類資主要內(nèi)容分類變量資料的統(tǒng)計描述常用的相對數(shù)指標應(yīng)用相對數(shù)時應(yīng)注意的幾個問題;率的標準化法。分類變量資料的統(tǒng)計推斷估計率的抽樣誤差總體率可信區(qū)間的估計兩個率的比較100主要內(nèi)容分類變量資料的統(tǒng)計描述5第一節(jié)分類變量資料的統(tǒng)計描述101第一節(jié)分類變量資料的統(tǒng)計描述6常用的相對數(shù)比例率比相對數(shù)應(yīng)用的注意事項率的標準化102常用的相對數(shù)7計數(shù)資料用定性的方法得到的資料稱作分類變量資料按某種屬性分類,然后清點每類的數(shù)據(jù)住院號年齡職業(yè)文化程度分娩方式妊娠結(jié)局202565527無中學順產(chǎn)足月202565322無小學助產(chǎn)足月202583025管理人員大學順產(chǎn)足月202567724知識分子中學順產(chǎn)早產(chǎn)202564730管理人員大學順產(chǎn)足月202584832無小學剖宮產(chǎn)足月201991527無中學順產(chǎn)死產(chǎn)103計數(shù)資料用定性的方法得到的資料稱作分類變量資料住院號年齡職業(yè)絕對數(shù)和相對數(shù)絕對數(shù):實際數(shù)反映某事物現(xiàn)象發(fā)生的實際情況,總量指標缺點:不利于比較。相對數(shù)是兩個有聯(lián)系的數(shù)據(jù)的比值。目的:將基數(shù)化為相同,便于比較。104絕對數(shù)和相對數(shù)絕對數(shù):實際數(shù)9
問題某部隊野營訓練,發(fā)生中暑12人,北方籍戰(zhàn)士10人,南方籍戰(zhàn)士2人,結(jié)論:北方籍戰(zhàn)士容易中暑。1999年某幼兒園有36名兒童患了腮腺炎,該幼兒園有200名兒童(其中25名兒童以前患過腮腺炎),該幼兒園兒童1999年腮腺炎發(fā)病率是多少?105問題某部隊野營訓練,發(fā)生中暑12人,北方一、常用的相對數(shù)指標構(gòu)成比(proportion)率(rate)比(ratio)動態(tài)數(shù)列(dynamicseries)106一、常用的相對數(shù)指標構(gòu)成比(proportion)111、構(gòu)成比(proportion)概念:說明某一事物內(nèi)部各組成部分所占的比重,常以百分數(shù)表示,又稱比例。
計算公式:1071、構(gòu)成比(proportion)概念:說明某一事物內(nèi)部各例:手術(shù)前后胸腔積液白細胞分類108例:手術(shù)前后胸腔積液白細胞分類13構(gòu)成比特點:各部分構(gòu)成比的總和為100%,值在0-1間變動;某部分構(gòu)成比發(fā)生變化時,其他部分也相應(yīng)變化。109構(gòu)成比特點:各部分構(gòu)成比的總和為100%,值在0-1間變動;2、率(rate)
定義:一定時間內(nèi),實際發(fā)生某現(xiàn)象的觀察單位數(shù)與可能發(fā)生該現(xiàn)象的觀察單位總數(shù)之比。計算公式:K比例基數(shù)1102、率(rate)定義:一定時間內(nèi),實際發(fā)生某現(xiàn)象的觀察單用以說明某現(xiàn)象發(fā)生的頻率或強度K:比例基數(shù),常用百分率(%)、千分率(‰)、萬分率(1/萬)或十萬分率(1/10萬)等表示。使計算結(jié)果保留1~2位整數(shù)。
平均率不能由各組率相加后求平均,應(yīng)為分子合計除以分母合計。關(guān)于率…111用以說明某現(xiàn)象發(fā)生的頻率或強度關(guān)于率…16例幾種藥物不良反應(yīng)發(fā)生情況半合成青霉素不良反應(yīng)發(fā)生水平最高,達35.5‰總發(fā)生率:87/3803=22.9‰
(‰)112例幾種藥物不良反應(yīng)發(fā)生情況半合成青霉素不良反應(yīng)發(fā)生水發(fā)病率‰患病率
‰
率常用統(tǒng)計指標113發(fā)病率率常用統(tǒng)計指標18‰病死率
死亡率
114‰病死率193、比(ratio)定義:也稱相對比,指兩個有聯(lián)系的指標之比,常以百分數(shù)或倍數(shù)表示。計算公式:兩個指標可以性質(zhì)相同,也可以性質(zhì)不相同;可以是相對數(shù)、絕對數(shù)或平均數(shù)等。1153、比(ratio)定義:也稱相對比,指兩個有聯(lián)系的指標之比116214、動態(tài)數(shù)列(dynamicseries)概念:指一系列按時間順序排列起來的統(tǒng)計指標(包括絕對數(shù)、相對數(shù)和平均數(shù)),用以說明事物在時間上的變化和發(fā)展趨勢。常用指標:有絕對增長量、發(fā)展速度和增長速度、平均發(fā)展速度與平均增長速度。1174、動態(tài)數(shù)列(dynamicseries)概念:指一系列按絕對增長量:說明事物在一定時期內(nèi)所增減的絕對數(shù)量,表現(xiàn)為兩指標之差。累計絕對增長量報告期與基期指標之差。逐年絕對增長量報告期與前一期指標之差118絕對增長量:說明事物在一定時期內(nèi)所增減的絕對數(shù)量,表現(xiàn)為兩發(fā)展速度和增長速度:說明事物在一定時期內(nèi)發(fā)展變化的幅度和速度。定基比發(fā)展速度環(huán)比發(fā)展速度定基比增長速度環(huán)比增長速度119發(fā)展速度和增長速度:說明事物在一定時期內(nèi)發(fā)展變化的幅度和速度107.5%-100%120107.5%-100%25二、應(yīng)用相對數(shù)應(yīng)注意的問題計算相對數(shù)的分母不宜過小穩(wěn)定性差,缺乏代表性例數(shù)較少時,用絕對數(shù)分析時不能以構(gòu)成比代替率構(gòu)成比是比例指標,它用來說明事物內(nèi)部各組成部分所占的比重或分布,分子僅是分母中同一事物現(xiàn)象的一部分,是概率的估計值。率則與時間有關(guān),它具有速率的概念,也具有概率估計值的意義,是與時間有關(guān)的比例121二、應(yīng)用相對數(shù)應(yīng)注意的問題計算相對數(shù)的分母不宜過小26正確計算平均率不能將這幾個率直接相加求其均值,而應(yīng)將各個率的分子、分母分別相加后,再求總率即平均率相互比較時注意可比性除研究因素不同外,其他影響研究結(jié)果的因素應(yīng)盡可能相同或相近研究對象同質(zhì)、方法相同、其他基本條件一致、內(nèi)部構(gòu)成要相同,不同則進行率的標化后再比較同一地區(qū)不同時期資料的比較,應(yīng)注意客觀條件的變化122正確計算平均率27樣本率或構(gòu)成比的比較應(yīng)進行假設(shè)檢驗樣本率(或構(gòu)成比)是通過抽樣得到的,存在抽樣誤差,因此不能只憑數(shù)值表面相差的大小作結(jié)論,應(yīng)進行差別的假設(shè)檢驗。123樣本率或構(gòu)成比的比較應(yīng)進行假設(shè)檢驗28三、標準化法124三、標準化法29為什么要進行標化125為什么要進行標化301、標化法的基本思想當兩組資料進行比較時,如果其內(nèi)部不同小組率有明顯差別,而且各小組內(nèi)部構(gòu)成也明顯不同,直接比較不合理。在兩個及兩個以上總率(總均數(shù))進行對比時,為了消除內(nèi)部構(gòu)成不同的影響,采用統(tǒng)一標準,分別計算標準化率后再作對比的方法稱為標準化法。1261、標化法的基本思想當兩組資料進行比較時,如果其內(nèi)部不同小組2、標準化率的計算標準化方法1.以人口數(shù)作為標準2.以人口構(gòu)成比作為標準選擇標準人口1.選擇有代表性的、較穩(wěn)定的、數(shù)量較大的人群作標準。2.兩組之和的人口數(shù)或人口構(gòu)成比;3.兩組間較穩(wěn)定一組的人口數(shù)或人口構(gòu)成比;1272、標準化率的計算32以人口數(shù)作為標準
預(yù)期發(fā)生數(shù)=標準人口數(shù)x原發(fā)生率128以人口數(shù)作為標準
預(yù)期發(fā)生數(shù)=標準人口數(shù)x原發(fā)生率33計算標準化率129計算標準化率34以人口構(gòu)成比作為標準130以人口構(gòu)成比作為標準353、應(yīng)用標準化時的注意事項1.標準化法只適用于某因素兩組內(nèi)部構(gòu)成不同,并有可能影響兩組總率比較的情況。對于因其它條件不同而產(chǎn)生的不具可比性的問題,標準化法不能解決。2.由于選擇的標準人口不同,算出的標準化率也不同。當比較幾個標準化率時,應(yīng)采用同一標準人口。1313、應(yīng)用標準化時的注意事項363.標準化率已經(jīng)不再反映當時當?shù)氐膶嶋H水平,它只是表示相互比較的資料間在共同標準下的相對水平,用于比較。4.兩樣本標準化率是樣本值,存在抽樣誤差。比較兩樣本的標準化率,當樣本含量較小時,應(yīng)作假設(shè)檢驗。1323.標準化率已經(jīng)不再反映當時當?shù)氐膶嶋H水平,它只是表示相互比第二節(jié)
分類變量資料的統(tǒng)計推斷133第二節(jié)
分類變量資料的統(tǒng)計推斷38統(tǒng)計推斷用樣本信息推論總體特征的過程。包括:參數(shù)估計:
運用統(tǒng)計學原理,用從樣本計算出來的統(tǒng)計指標量,對總體統(tǒng)計指標量進行估計。假設(shè)檢驗:又稱顯著性檢驗,是指由樣本間存在的差別對樣本所代表的總體間是否存在著差別做出判斷。134統(tǒng)計推斷用樣本信息推論總體特征的過程。39簡要回顧統(tǒng)計分析統(tǒng)計描述統(tǒng)計推斷參數(shù)估計假設(shè)檢驗Example分類資料率、比、構(gòu)成比總體率的可信區(qū)間χ2檢驗、u檢驗135簡要回顧統(tǒng)計分析統(tǒng)計描述統(tǒng)計推斷參數(shù)估計假設(shè)檢驗Exampl主要內(nèi)容率的抽樣誤差和總體率的區(qū)間估計率的u檢驗2檢驗136主要內(nèi)容率的抽樣誤差和總體率的區(qū)間估計41
一、率的抽樣誤差和總體率的估計137
一、率的抽樣誤差和總體率的估計421、率的抽樣誤差與標準誤概念:樣本率(p)和總體率(π)的差異稱為率的抽樣誤差(samplingerrorofrate),用率的標準誤(standarderrorofrate)度量。1如果總體率π未知,用樣本率p估計1381、率的抽樣誤差與標準誤概念:樣本率(p)和總體率(π)的差率的標準誤越小,說明率的抽樣誤差越小,用樣本推論總體時,可信程度越高。例4.5某地隨機抽取500名兒童,乙肝感染率為4.50%,求乙肝感染率的標準誤。該地500名兒童乙肝感染率的標準誤為0.93%。139率的標準誤越小,說明率的抽樣誤差越小,用樣本推論總體時,可信2、總體率的可信區(qū)間點估計:就是把樣本率看作總體率;區(qū)間估計:按一定的概率,以樣本信息來估計總體率所在的范圍,即計算總體率的1-α置信區(qū)間。這里,α一般取0.05或0.01查表法:正態(tài)近似法1402、總體率的可信區(qū)間點估計:就是把樣本率看作總體率;45查表法對于小樣本資料(n≤50),可根據(jù)樣本陽性例數(shù)X及樣本例數(shù)n,直接查二項分布參數(shù)π的置信區(qū)間表,例:某新藥的毒理研究中,用20只小白鼠作急性毒性實驗,死亡3只,估計該藥急性致死率的95%可信區(qū)間。
從附表(根據(jù)二項分布原理制成)查得,在n=20與X=3縱列交叉處的數(shù)值為3~38,即該藥急性致死率的95%可信區(qū)間為3%~38%141查表法對于小樣本資料(n≤50),可根據(jù)樣本陽性例數(shù)X及樣本正態(tài)近似法條件:當n足夠大,p和(1-p)均不太小,且np和n(1-p)均大于5時,樣本率p的抽樣分布近似服從正態(tài)分布??捎霉焦烙嬁傮w率的置信區(qū)間。
公式:(p-usp,p+usp)式中,uα:標準正態(tài)分布曲線下,雙尾面積為α時對應(yīng)的u界值,當α=0.05時,u0.05=1.96;α=0.01時,u0.01=2.58。142正態(tài)近似法條件:當n足夠大,p和(1-p)均不太小,且np和例某地隨機抽取500名兒童,乙肝感染率為4.50%,估計該地兒童乙肝感染率的95%可信區(qū)間?
(p-usp,p+usp)=(0.045-1.96×0.0093,0.045+1.96×0.0093)=(2.68%,6.32%)該地兒童95%乙肝患病率置信區(qū)間為(2.68%,6.32%)。143例某地隨機抽取500名兒童,乙肝感染率為4.50%,估計該二、率的u檢驗144二、率的u檢驗49樣本率存在抽樣誤差,比較兩樣本的率時,應(yīng)作假設(shè)檢驗。當樣本例數(shù)n較大,樣本率p和1-p均不太小,且np和n(1-p)均大于5時,樣本率與總體率、兩樣本率間差別進行比較時,可采用u檢驗。145樣本率存在抽樣誤差,比較兩樣本的率時,應(yīng)作假設(shè)檢驗。501、樣本率與總體率的比較條件:當樣本率的分布近似服從正態(tài)分布時,樣本率p與已知總體率π0的比較,可用u檢驗公式:式中,π0:總體率,一般為理論值、經(jīng)驗值或大量觀察得到的穩(wěn)定值。1461、樣本率與總體率的比較條件:當樣本率的分布近似服從正態(tài)分例4.6根據(jù)以往經(jīng)驗,一般胃潰瘍患者中有20%發(fā)生胃出血癥狀。某醫(yī)院觀察65歲以上潰瘍病患者152例,有31.6%的患者出現(xiàn)胃出血癥狀。問老年人潰瘍病患者是否容易發(fā)生胃出血?1)建立假設(shè),確定水準
147例4.6根據(jù)以往經(jīng)驗,一般胃潰瘍患者中有20%發(fā)生胃出血癥2)計算u值1482)計算u值533)確定P值,做出結(jié)論1493)確定P值,做出結(jié)論542、兩樣本率的比較條件:兩樣本含量n1與n2均較大;兩樣本率p1、(1-p1)及p2、(1-p2)均不太?。蝗鏽1p1、或n1(1-p1)及n2p2、或n2(1-p2)均大于5時,可采用正態(tài)近似法。公式:
式中,p1和p2:分別為兩個樣本率;Sp1-p2:兩率之差的標準誤;Xl和X2:分別表示兩樣本發(fā)生某現(xiàn)象的觀察單位數(shù)。1502、兩樣本率的比較條件:兩樣本含量n1與n2均較大;兩樣本例4.7調(diào)查兩個城市的甲狀腺腫患病率,其中甲市調(diào)查3315例,甲狀腺腫患病率為1.78%,乙市調(diào)查3215例,患病率為5.60%,問兩個城市甲狀腺腫患病率有無差別?1)建立假設(shè),確定檢驗水準151例4.7調(diào)查兩個城市的甲狀腺腫患病率,其中甲市調(diào)查33152)計算u值1522)計算u值573)確定P值,做出結(jié)論1533)確定P值,做出結(jié)論58當樣本量不大,或幾個率進行比較時——2檢驗兩樣本率的比較除可用u檢驗,還可采用2檢驗,且ν=1時,u2=2
。154當樣本量不大,或幾個率進行比較時59三、2檢驗155三、2檢驗60用途:推斷兩個總體率或構(gòu)成比之間有無差別多個總體率或構(gòu)成比之間有無差別多個樣本率比較的分割兩個分類變量之間有無關(guān)聯(lián)性頻數(shù)分布擬合優(yōu)度的檢驗。檢驗統(tǒng)計量:應(yīng)用:計數(shù)資料156用途:61一、2檢驗基本思想Foragivenphenomenon,thechi-squaretestcomparestheactualfrequencies(A)withthetheoreticalfrequencies(T).實際頻數(shù)(A):observedfrequencies理論頻數(shù)(T).:calculatedfromsomehypothesis.157一、2檢驗基本思想ForagivenphenomSupposeyoutossacoin100timesH:40timesT:60timesIfyouhypothesizethatthecoinisfair,theoretical:50timeseach.158Supposeyoutossacoin100tiWhethertheHypothesisistrue?ComparetheAwiththeT.Iftheyarequitedifferent,thenthetheorymightnotbetrue;Otherwise,thetheoryisacceptable.159WhethertheHypothesisistrueWhethertheyarequitedifferent?whetherthedeviationsbetweenAandTaresignificant.Deviations=160Whethertheyarequitediffere基本公式:
A:實際頻數(shù),如四個基本數(shù)據(jù);T:理論頻數(shù),是根據(jù)檢驗設(shè),且用合并率來估計而定的。161基本公式:662-distribution,df=16.83P=0.053.84P=0.012valueProbabilitydistributionforthestatistic,whenthesamplesizesandthetheoreticalfrequenciesarenottoosmall.1622-distribution,df=16.83P=0.0PvalueSupposethedeviationsarenotsignificant,orthereisnodifferencebetweentheAandT,theprobabilitythatwegetthevalueof2.Withdf=1,theprobabilitythatwegetthevalueof3.84is0.05.163Pvalue68P<0.05Supposethedeviationsarenotsignificant,orthereisnodifferencebetweentheAandT,theprobabilitythatwegetthevalueof2islessthan0.05.Impossible!Sothedeviationsaresignificant.Rejectthehypothesis.164P<0.0569Whetherthecoinisfair?hypothesisthatthecoinisfair,2
=4P=0.05P<0.0543.84165Whetherthecoinisfair?P=0.0c20.05,1=3.84df=1卡方界值表p122166c20.05,1=3.84卡方界值表p122712值反映了實際頻數(shù)與理論頻數(shù)的吻合程度若檢驗假設(shè)H0:π1=π2成立,四個格子的實際頻數(shù)A與理論頻數(shù)T相差不應(yīng)該很大,即統(tǒng)計量不應(yīng)該很大。如果值很大,推斷A與T相差太大,從而懷疑H0的正確性,繼而拒絕H0,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度夜店酒吧員工安全協(xié)議與安全教育培訓費用合同
- 2025年度電動車買賣協(xié)議模版
- 二零二五年度知識產(chǎn)權(quán)法律風險管理顧問合同
- 二零二五年度武漢房屋租賃合同物業(yè)管理約定
- 二零二五年度摩托車第三者責任保險合同
- 2025年包頭a2貨運資格證模擬考試
- 2025年??谪涍\從業(yè)資格證實操考試題
- 企業(yè)環(huán)境影響評估合同
- 建筑渣土外運合同
- 校長論壇發(fā)言稿
- 小學校園欺凌行為調(diào)查問卷(學生卷)
- 中醫(yī)養(yǎng)生保健素養(yǎng)知識講座
- 采耳員工合同
- 汽車修理有限公司章程
- (多場景條款)過橋墊資借款合同
- JBT 7901-2023 金屬材料實驗室均勻腐蝕全浸試驗方法 (正式版)
- 小學科學人教鄂教版四年級下冊全冊教案2023春
- 非遺文化介紹課件:扎染
- 營銷培訓:揭秘銷售成功密碼
- 基于STM32Cube的嵌入式系統(tǒng)應(yīng)用 教案
- 動畫分鏡頭腳本設(shè)計課件
評論
0/150
提交評論