版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、醫(yī)學(xué)統(tǒng)計學(xué)總結(jié)一. 緒論1,醫(yī)學(xué)統(tǒng)計學(xué): 運用概率論和數(shù)理統(tǒng)計學(xué)的原理和方法, 研究醫(yī)學(xué)領(lǐng)域中隨機現(xiàn)象有關(guān)數(shù)據(jù)的搜集、 整理、 分析和推斷,進而闡明其客觀規(guī)律性的一門應(yīng)用科學(xué)。2,醫(yī)學(xué)統(tǒng)計學(xué)的主要內(nèi)容:1) 統(tǒng)計研究設(shè)計 調(diào)查研究設(shè)計和實驗研究設(shè)計2) 醫(yī)學(xué)統(tǒng)計學(xué)的基本原理和方法研究設(shè)計和數(shù)據(jù)處理中的基本統(tǒng)計理論和方法。A:資料的搜集與整理 B:常用統(tǒng)計描述, 集中趨勢和離散趨勢, 相對數(shù),相關(guān)系數(shù), 回歸系數(shù),統(tǒng)計表,統(tǒng)計圖 C: 統(tǒng)計推斷,如參數(shù)估計和假設(shè)檢驗。3 )醫(yī)學(xué)多元統(tǒng)計方法 多元線性回歸和逐步回歸分析、 判別分析、 聚類分析、 主成分分析、 因子分析、 logistic 回歸與
2、Cox 回歸分析。3,統(tǒng)計工作步驟:1) 設(shè)計 明確研究目的和研究假說, 確定觀察對象與觀察單位, 樣本含量和抽樣方法, 擬定研究方案, 預(yù)期分析指標(biāo),誤差控制措施,進度與費用。2) 搜集材料A, 搜集材料的原則 及時、準確、完整B, 統(tǒng)計資料的來源 醫(yī)學(xué)領(lǐng)域的統(tǒng)計資料的來源主要有三個方面。 一是統(tǒng)計報表, 二是經(jīng)常性工 作記錄,三是專題調(diào)查或?qū)n}實驗。C, 資料貯存3) 整理資料 a 檢查核對 b設(shè)計分組 c 擬定整理表 d 歸表4) 分析資料 統(tǒng)計分析包括統(tǒng)計描述和統(tǒng)計推斷 4,同質(zhì)( homogeneity ):指被研究指標(biāo)的影響因素相同。變異 (variation) :同質(zhì)基礎(chǔ)上的各觀
3、察單位間的差異。變量 (variable) :收集資料過程中,根據(jù)研究目的確定同質(zhì)觀察單位,再對每個觀察單位的某 項特征進行測量或觀察,這種特征稱為變量變量值:變量的觀察結(jié)果或測量值。變量類型變量值表現(xiàn)實例資料類型數(shù)值變量離散型定量測量值,有計量單位產(chǎn)前檢查次數(shù)計量資料連續(xù)型身高分 類 變 量無序二分類對立的兩類屬性性別(男女)計數(shù)資料多分類不相容的多類屬性血型( A,B,O,AB )有 序多分類類間有程度差異的屬性受教育程度(小學(xué),中 學(xué),高中,大學(xué) , )等級資料5,總體( population ) 根據(jù)研究目的所確定的同質(zhì)研究對象中所有觀察單位某變量值的集合。總 體具有的基本特征是:同質(zhì)
4、性樣本( sample ) 從總體中隨機抽取部分觀察單位,其變量值的集合構(gòu)成樣本。樣本必須具有表性。代表性是指樣本來自同質(zhì)總體,足夠的樣本含量和隨機抽樣的前提。統(tǒng)計量( statistics )描述樣本變量值特征的指標(biāo)( 樣本率, 樣本均數(shù), 樣本標(biāo)準差)參數(shù)( parameter )描述總體變量值特征的指標(biāo)( 總體率, 標(biāo)準差, 總體均數(shù))。抽樣誤差( sampling error ):由于個體差異的存在,即使在同一整體中隨機抽取若干樣本,各樣本的 統(tǒng)計量往往不等,統(tǒng)計量與參數(shù)也會有所不同。這種因抽樣研究引起的差異稱抽樣誤 差。隨機事件( random event )對隨機試驗的各種可能結(jié)果
5、的集合。概率( probability ) 描述隨機事件發(fā)生的可能性大些哦的一個度量。小概率事件 若隨機事件 A 的概率 P(A) ,習(xí)慣上, =0.05 時,就稱 A為小概率事件。其統(tǒng)計學(xué) 意義是小概率事件在一次隨機試驗中認為不會發(fā)生。抽樣誤差1,抽樣誤差( sampling error) 由抽樣而造成的樣本統(tǒng)計量與總體參數(shù)之間的差異或各樣本統(tǒng)計量之間的 差異。在醫(yī)學(xué)統(tǒng)計學(xué)中,常把由抽樣造成的樣本均數(shù)與總體均數(shù)間的差異稱為均數(shù)的抽樣誤差;由抽樣造 成的樣本率與總體率之間的差異稱為率的抽樣誤差。2,樣本均數(shù)的標(biāo)準差(簡稱標(biāo)準誤, standard error) 反映均數(shù)的抽樣誤差大小的指標(biāo)。
6、大,抽樣誤差大;反之, 小,抽樣誤差小3.1)實際 工作中 往往未知的,可 用樣本標(biāo)準差 s 作 的估計值,計 算標(biāo)準誤的估 計值3,標(biāo)準誤的用途: a,衡量樣本均數(shù)的可靠性; b,估計總體均數(shù)的置信區(qū)間; 3,用于均數(shù)的假設(shè)檢驗。 4,標(biāo)準誤的估計值的用途:a ,描述抽樣誤差的大?。籦 ,總體參數(shù)的估計;c ,用來進行假設(shè)檢驗。5,率的抽樣誤差:由抽樣造成的樣本率與總體率的差異稱為率的抽樣誤差。衡量率的抽樣誤差大小的指標(biāo)是率的標(biāo)準誤 。 越小,率的抽樣誤差越?。?越大,率的抽樣誤 差越大。3.3)其中 為總體率。 實際工作中, 由于 往往是未知的,可用樣本率 p 作 的估計值,計算率的標(biāo)準誤
7、的估計值標(biāo)準差( s)標(biāo)準誤計算公式 s=1)表示觀察值的變異程度1)估計均數(shù)的抽樣誤差的大小2)估計總體均數(shù)的可信區(qū)間2)計算變異系數(shù) CV= 100%,)3)進行假設(shè)檢驗3)確定醫(yī)學(xué)參考值范圍4)計算標(biāo)準誤簡述標(biāo)準差、標(biāo)準誤的區(qū)別與聯(lián)系?區(qū)別:( 1)含義不同:標(biāo)準差 S 表示觀察值的變異程度,描述個體變量值(x)之間的變異度大小, S 越估計均數(shù)的抽樣誤差的大小,大,變量值( x)越分散;反之變量值越集中,均數(shù)的代表性越強。標(biāo)準誤是描述樣本均數(shù)之間的變異度大小,標(biāo)準誤越大,樣本均數(shù)與總體均數(shù)間差異越大,抽樣誤差越大;反之, 樣本均數(shù)越接近總體均數(shù),抽樣誤差越小。( 2)與 n的關(guān)系不同:
8、 n 增大時, S趨于 (恒定),標(biāo)準誤 減少并趨于 0(不存在抽樣誤差)。( 3)用途不同:標(biāo)準差表示 x 的變異度大小、計算變異系數(shù)、確定醫(yī) 學(xué)參考值范圍、計算標(biāo)準誤等,標(biāo)準誤用于估計總體均數(shù)可信區(qū)間和假設(shè)檢驗。樣本均數(shù)的標(biāo)準差即為標(biāo)準誤,標(biāo)準差與標(biāo)準誤成正比。聯(lián)系:二者均為變異度指標(biāo),標(biāo)準差:標(biāo)準誤:二. 分布正態(tài)分布1 ,正態(tài)分布的函數(shù)其中 為總體均數(shù), 為總體標(biāo)準差, 為圓周率, 為自然對數(shù)的底,且僅 為變量。以 為橫軸,以 為縱軸,當(dāng)均數(shù)和標(biāo)準差已知時即可繪出正態(tài)分布曲線。為應(yīng)用方便,將式中 進行變量變換,使原來的正態(tài)分布變?yōu)?的標(biāo)準正態(tài)分布,亦 稱 分布。 被稱為標(biāo)準正態(tài)變量或標(biāo)
9、準正態(tài)離差,將 代入上述公式即得標(biāo)準正態(tài)分布的密度函數(shù)2.17)2.18 )2 ,正態(tài)分布的特征1 )正態(tài)曲線( normal curve )在橫軸上方均數(shù)處最高2)正態(tài)分布以均數(shù)為中心,左右對稱3 )正態(tài)分布有 2 個參數(shù)( parameter ),即均數(shù) (位置)和標(biāo)準差 (形狀)。當(dāng) 固定不變時,越大,曲線沿橫軸越向右移動;反之, 越小,則曲線沿橫軸越向左移動。當(dāng) 固定不變時, 越大,曲線越平闊;越小,曲線越尖峭。通常用N ( , )表示均數(shù)為 、方差為 的正態(tài)分布用( 0, 1)表示標(biāo)準正態(tài)分布。( 4)正態(tài)分布在1 處各有一個拐點。( 5)正態(tài)曲線下面積的分布有一定規(guī)律。3,常用的兩
10、個區(qū)間:1.96 及 2.58 的區(qū)間面積分別占總面積的 95%及 99%。4,正態(tài)分布的應(yīng)用雙側(cè)界值:單側(cè)上界 :1 ),制定醫(yī)學(xué)參考值范圍a, 正態(tài)分布法 適用于正態(tài)或近似正態(tài)分布的資料或單側(cè)下界:b ,對數(shù)正態(tài)分布法 適用于對數(shù)正態(tài)分布資料雙側(cè)界值:,或單側(cè)下界,或單側(cè)下界:2 )正態(tài)分布是多種統(tǒng)計方法的理論基礎(chǔ)如 t 分布, F 分布,分布都是在正態(tài)分布的基礎(chǔ)上推導(dǎo)出c ,百分位數(shù)法 常用于偏態(tài)分布資料及資料中一端或兩端無確切數(shù)值的資料。雙側(cè)界值:單側(cè)上界:來的, 分布也是以正態(tài)分布為基礎(chǔ)的。另外 t 分布,二項分布, poisson 分布的極限為正態(tài)分布,一定條 件下可按正態(tài)分布原理
11、處理。t 分布3.5)1,t 分布:t 分布的特征為:1 以 0 為中心,左右對稱的單峰分布。2 t 分布曲線形態(tài)變化與自由度的大小有關(guān)。自由度越小,則 t 值越分散,曲線越低平;自由度 逐漸增大時,則 t 分布逐漸逼近正態(tài)分布(標(biāo)準正態(tài)分布)。當(dāng) = 時, t 分布為 u 分布。 t 界值表附圖中非陰影部分面積的概率為:2,總體均數(shù)的估計:用樣本指標(biāo)估計總體參數(shù)稱為參數(shù)估計,是統(tǒng)計推斷的一個重要方面。總體均數(shù)的估計有 2 種方法。一是直接用統(tǒng)計量估計總體參數(shù) ,稱為點值估計。由于抽樣誤差的存在,此法很難 估計準確。二是區(qū)間估計( interval estimation )法。區(qū)間估計是按一定
12、的概率 100(1- )% 估計總體均數(shù) 所在的范圍,亦稱可信區(qū)間( confidence interval ,CI )。常取的可信度為 95%和 99%,即 95%可信區(qū)間和 99%可信區(qū)間。計算方法有 3 種:(1)未知且 n 小 按 t 分布原理用式( 3.6)計算可信區(qū)間。則總體均數(shù)的100 ( 1- ) %可信區(qū)間的通式為:3.6)或?qū)懗?)。未知,但 n 足夠大時( n>100) t 分布逼近u 分布,按正態(tài)分布原理,用式( 3.7)估計可信區(qū)間。(3) 已知 按正態(tài)分布原理,用式( 3.8)估計可信區(qū)間。( )( 3.8 )標(biāo)準正態(tài)分布( u 分布)與 t 分布有何異同?答
13、:相同點: t 分布和標(biāo)準正態(tài)分布( u分布)都是以 0為中心的正態(tài)分布。標(biāo)準正態(tài)分布是 t 分布的特例 (自由度是無限大時)。不同點: t 分布為抽樣分布, u 分布為理論分布; t 分布比標(biāo)準正態(tài)分布的峰值低,且尾部翹得更高; t 分布受自由度大小的影響,隨著自由度的增大,逐漸趨近于標(biāo)準正態(tài)分布; t 分布有無數(shù)條曲線,而 u 分布 只有唯一一條曲線。二項分布1,二項分布( binomial distribution )是對只具有 2 種互斥結(jié)果的離散型隨機事件的規(guī)律性進行描述的一種 概率分布。二項分布概率公式:(3.9)式中 n為獨立的貝努力試驗次數(shù), 為成功的概率, (1- )為失敗的
14、概率, X 為在 n 次貝努力試驗中出現(xiàn)“成功”的次數(shù),表示在 n 次試驗中出現(xiàn) X 的各種組合數(shù), 在此稱為二項系數(shù) ( binomial coefficient )。2,二項分布的應(yīng)用條件:(1)各觀察單位只能具有相互對立的一種結(jié)果,如陽性或陰性,生存或死亡。(2)已知發(fā)生某一結(jié)果(陽性)的概率為,其對立結(jié)果的概率為 1- ,實際工作中要求 是從大量觀察中獲得比較穩(wěn)定的數(shù)值。(3)n 次試驗在相同條件下進行,且各個觀察單位的觀察結(jié)果相互獨立。 3,二項分布的性質(zhì):A,二項分布的均數(shù)和標(biāo)準差 在二項分布的資料中,當(dāng) 和 n 已知時,它的均數(shù)及其標(biāo)準差 如下: =n3.11)(3.12)3.1
15、1)( 3.12)分別除以 n,得:若均數(shù)和標(biāo)準差不用絕對數(shù)表示,而是用率表示時,即對式(3.13)(3.14)是 樣本率的標(biāo)準誤的理論值,當(dāng) 未知時, 常用樣本 率 p 作為 的 估計值,則 :(3.15)B,二項分布的累計概率 二項分布的累計概率( cumulative probability )常用的有左側(cè)累計和右側(cè)累計 2 種 方法。從陽性率為 的總體中隨機抽取 n 個個體,則(1)最多有 k 例陽性的概率(3.16)(2)最少有 k 例陽性的概率(3.17) D,二項分布的形狀取決于和 n 的大小:(1)當(dāng) =0.5 時,分布對稱; 當(dāng) <0.5 時,分布呈正偏態(tài), 且固定 n
16、時, 越小,分布越偏; 當(dāng) >0.5 時,分布呈負偏態(tài),且固定 n 時, 越大,分布越偏。(2)對固定的 ,分布隨 n 的增大趨于對稱。 4,總體率的估計總體率的估計也有點估計和區(qū)間估計, 點估計是簡單地用樣本率來估計總體率; 區(qū)間估計是求出總體率 的可能范圍。樣本率的理論分布和樣本含量n、陽性率 p 的大小有關(guān),所以需要根據(jù) n 和 p 的大小不同,分別選用下列 2 種方法。(一)查表法 當(dāng)樣本含量 n較小,如 n50,特別是 p很接近于 0 或1 時,按二項分布的原理估計總體率 的可信區(qū)間。(二)正態(tài)近似法 當(dāng)樣本含量 n 足夠大,且樣本率 p 或 1-p 均不太小,如 np 與 n
17、(1-p )均大于 5 時,樣 本率的 p 的抽樣分布近似正態(tài)分布,總體率 的可信區(qū)間可按下列式( 3.17)進行估計。3.17)Poisson 分布1, Poisson分布 泊松分布是在 很小,樣本含量 n 趨向于無窮大時,二項分布的極限形式。更多地用于 研究單位時間、單位人群、單位空間內(nèi),某罕見事件發(fā)生的次數(shù)的分布。式中 =n 為 Poisson 分布的總體均數(shù), X 為單位時間或單位空間內(nèi)某事件的發(fā)生數(shù), e為自然對數(shù)的底,約等于 2.71828。在實際運算中, P(X )亦可按式( 3.20)作遞推計算。(3.20)2, Poisson分布應(yīng)用條件:A , 要求事件的發(fā)生是相互獨立B,
18、 發(fā)生的概率相等C, 結(jié)果是二分類3, Poisson分布的性質(zhì):A , 該分布是一種單參數(shù)的離散型分布,其參數(shù)為,它表示單位時間或空間內(nèi)某件事平均發(fā)生的次數(shù),又稱強度參數(shù)。B, Poisson 分布的方差和均數(shù) 相等,即 =C, Poisson 分布的累計概率(1)最多為 k 次的概率(2) 最少為 k 次的概率4, Poisson分布的圖形已知 ,就可按公式計算得出 X=0,1,2, 時的 P(X)值,以 X 為橫坐標(biāo),以 P(X) 為縱坐標(biāo)作圖, 即可會出 Poisson 分布的圖形。值越小,分布越偏,隨著 的增大,分布越趨于對稱,當(dāng) =20 時,分布接近正態(tài)分布,當(dāng) =50 時, 可以
19、認為 Poisson 分布呈正態(tài)分布 N( , ) 按正態(tài)分布處理。5, Poisson分布具有可加性6,總體參數(shù)的估計由樣本均數(shù)(樣本計數(shù)) X 估計總體均數(shù) 也有點(值)估計和區(qū)間估計,區(qū)間估計的方法,需視樣本 計數(shù)(樣本均數(shù)) X 的大小而定, X 小時用查表法, X 大時用正態(tài)近似法。(一)查表法當(dāng)樣本計數(shù) X 時,用 X 值查附表 poisson 分布 的可信區(qū)間,可得總體均數(shù) 的 95%或 99% 可信區(qū)間。(二)正態(tài)近似法當(dāng)樣本 計數(shù) X>50 時,可用正態(tài)近似原理 下面公式求總體均數(shù) 的 95%或 99%可信區(qū)間正態(tài)分布、二項式和泊松分布的關(guān)系 :二項分布( binomi
20、al distribution ):對只具有兩種互斥結(jié)果的離散型隨機事件的規(guī)律性進行描述的一種 概率分布。 Poisson分布是在 很小,樣本含量 n 趨于無窮大時,二項分布的極限形式。當(dāng) v=時, t 分布 即為 u 分布,趨向正態(tài)分布。可信區(qū)間與參考值范圍的區(qū)別 :意義、計算公式和用途均不同。 (1)參考值范圍是指同質(zhì)總體內(nèi)包括百分之幾十個體值的估計范圍。而可 信區(qū)間是指在百分之幾十的可信度估計的總體參數(shù)的所在范圍。( 2)同樣的百分之幾十,參考值范圍是樣本范圍,可信區(qū)間是指可信度范圍,二者有著本質(zhì)的不同。( 3)從意義來看, 95參考值范圍是指同質(zhì)總體內(nèi)包括 95個體值的估計范圍,而總體
21、均數(shù)95可信區(qū)間是指按 95可信度估計的總體均數(shù)的所在范圍。( 4)從計算公式看,若指標(biāo)服從正態(tài)分布,95參考值范圍的公式是:±1.96s。總體均數(shù) 95可信區(qū)間的公式是:前者用標(biāo)準差,后者用標(biāo)準誤。前者用1.96,后者用 為 0.05,自由度為 v 的 t 界值。( 5)從用途上看,可信區(qū)間用來估計總體均數(shù),參考值范圍用來判斷觀察對象的某 項指標(biāo)是否正常。簡述檢驗假設(shè)與可信區(qū)間的聯(lián)系與區(qū)別 。 答:(1)可信區(qū)間用于推斷總體參數(shù)所在的范圍,假設(shè)檢驗用于推斷總體參數(shù)是否不同。前者估計總體參 數(shù)的大小,后者推斷總體參數(shù)有無質(zhì)的不同。(2)可信區(qū)間也可回答假設(shè)檢驗的問題。但可信區(qū)間不能提
22、供確切的 P 值范圍,只能給出在 水準上有無統(tǒng)計意義。( 3)可信區(qū)間還可提示差別有無實際意義。統(tǒng)計圖表1,繪制統(tǒng)計圖的基本要求:A , 根據(jù)資料性質(zhì)和分析目的據(jù)頂適當(dāng)圖形。B, 標(biāo)題應(yīng)說明資料的內(nèi)容、時間和地點,一般位于圖的下方。C, 圖的縱、橫軸應(yīng)注明標(biāo)目及對應(yīng)單位,尺度應(yīng)等距或具有規(guī)律性,一般自左而右、自下而上、由 小到大。D, 為使圖形美觀并便于比較,統(tǒng)計圖的長寬比例一般為7:5,有時為了說明問題也可以變動。E, 比較、說明不同的事物時,可用不同顏色或線條表示,并常附圖例說明,但不宜過多。 2,常用統(tǒng)計圖的適用條件與繪制1 條圖( bar graph) 用等寬長條的高度表示按性質(zhì)分類資
23、料各類別的數(shù)值大小,用于表示它們之 間的對比關(guān)系。2 圓圖( pie graph) 圓形圖適用于百分構(gòu)成比資料,表示事物各組成部分所占的比重或構(gòu)成。3 百分條圖( percent bar) 意義及適用資料同圓圖,也稱構(gòu)成條圖。4 線圖( line graph) 線圖適用于連續(xù)性資料,以不同的線段升降來表示資料的變化,并可表明一 事物隨另一食物(時間)而變動的情況。5 直方圖( histogram) 直方圖用于表達連續(xù)性資料的頻數(shù)分布。6 散點圖( scatter diagram) 散點圖以直角坐標(biāo)系中各點的密集程度和趨勢來表示兩現(xiàn)象間的關(guān)系 常用在對資料進行相關(guān)分析之前適用。單變量資料一,數(shù)值
24、變量統(tǒng)計描述1,頻數(shù)表的編制 求全距 定組段和組距 列頻數(shù)表 畫頻數(shù)圖2,頻數(shù)分布的兩個重要特征:集中趨勢和離散趨勢3,頻數(shù)分布可以分為正態(tài)分布和偏態(tài)分布4,頻數(shù)表的用途:揭示資料分布類型和分布特征,以便選取適當(dāng)?shù)慕y(tǒng)計方法;便于進一步計算指標(biāo)和統(tǒng)計 處理;便于發(fā)現(xiàn)某些特大或者特小的可疑值。5,集中趨勢的描述:均數(shù) 幾何均數(shù) 中位數(shù) 百分位數(shù)6,均數(shù) (mean):算術(shù)均數(shù)的簡稱。常用= = 表示。7,中位數(shù) (median):一組由小到大按順序排列的觀察值中位次居中的數(shù)值,用M 表示??捎糜诿枋鋈魏畏植迹貏e是偏態(tài)分布資料以及頻數(shù)分布的一端或兩端無確切數(shù)據(jù)資料的中心位置。8,百分位數(shù) (per
25、centile)是一種位置指標(biāo),用表示。一個百分位數(shù) P 將一組觀察值分為兩部分,理論上有 x%的觀察值比它小,有( 100-x )%的觀察值比它大??捎糜诖_定非正態(tài)分布資料的醫(yī)學(xué)參考值范圍9,離散趨勢的描述:10,全距( range) 計算簡單,缺點是:全距( range) 四分位數(shù)間距( quartile ) 方差 標(biāo)準差亦稱極差,為一組同質(zhì)觀察值中最大值和最小值之差。反映個體差異的范圍,優(yōu)點是1)只考慮最大最小值之間的差異,不能反映組內(nèi)其他觀察值的變異度;2)樣本含量相差懸殊時不宜用全距比較。11,四分位數(shù)間距( quartile ) 上四分位數(shù)與下四分位數(shù)之差。常用于描述偏態(tài)頻數(shù)分布以
26、及分布的一端或 兩端無確切數(shù)值資料的離散程度。12,方差( variance )離均差的平方和表示。b,計算變異系數(shù) c,與均數(shù)結(jié)合,估13,標(biāo)準差( standard variance)的作用: a,估計變量值的離散程度計變異值的頻數(shù)分布范圍 d,計算標(biāo)準誤樣本)( 總體 ) s=14, 變異系數(shù)( coefficient of variation ) 常用于比較度量單位不同或均數(shù)相差懸殊的兩組或多組資料的變異度。 CV= 100%假設(shè)檢驗1,假設(shè)檢驗( hypothesis test)亦稱顯著性檢驗( significance test),其基本思想是先對總體的參數(shù)或分布 做出某種假設(shè),如
27、設(shè)總體均數(shù)(或率)為一定值;兩總體均數(shù)(或率)相等;總體服從正態(tài)分布或兩分布 相同等,然后根據(jù)樣本信息選用適當(dāng)?shù)姆椒ǎ茢啻思僭O(shè)應(yīng)當(dāng)拒絕或不拒絕。2,假設(shè)檢驗的一般步驟:(1)建立假設(shè)和確定檢驗水準:根據(jù)實際情況確定單、雙側(cè)檢驗,建立假設(shè),確定檢驗水準;(2)選定檢驗方法和計算統(tǒng)計量: 根據(jù)設(shè)計的類型及研究目的選擇合適的檢驗方法并計算出對應(yīng)的統(tǒng)計量;(3)確定 P 值并做出推斷結(jié)論。若 tt,v,則 P ,按檢驗水準,拒絕 H0,接受 H1,尚可認為差異 顯著有統(tǒng)計學(xué)意義;相反則差異不顯著,無統(tǒng)計學(xué)意義3,假設(shè)檢驗時應(yīng)注意的事項:(1)要有嚴密的抽樣研究設(shè)計; 樣本必須是從同質(zhì)總體中隨機抽取的
28、,要保證組間的均衡性和資料的可比 性,可能影響結(jié)果的非處理因素在對比組間應(yīng)盡可能相同或相近;(2)正確選擇檢驗方法;根據(jù)現(xiàn)有的資料類型、設(shè)計類型、分析目的、樣本含量等因素選用適當(dāng)?shù)臋z驗方 法,如不符合條件可做適當(dāng)轉(zhuǎn)換;(3)正確理解“差別無顯著性”的含義,差別有統(tǒng)計學(xué)意義,不能理解為兩者差差大,也不能理解為所分 析的指標(biāo)在實際應(yīng)用上就有“顯著效果”。(4)檢驗假設(shè)的推斷結(jié)論為概率結(jié)論,不能絕對化:檢驗水準人為規(guī)定,是相對的,報告結(jié)論時應(yīng)列出檢 驗統(tǒng)計量和 P 值的確切范圍。(5)注意是單側(cè)檢驗還是雙側(cè)檢驗I 型錯誤和 II 型錯誤 :I 型錯誤( type I error )拒絕了實際上成立的
29、,即樣本原本來自的總體,由于抽樣的偶然性得到了較大的 t 值,所以拒絕了 ,接受了 ,這類棄真錯誤稱為第一類錯誤, 犯第一類錯誤的概率 是。II 型錯誤( type II error )是不拒絕實際上不成立的即“存?zhèn)巍奔礃颖驹緛碜缘目傮w,但是由于抽樣的偶然性,得到了較小的t 值,得到了較大的P 值,沒有拒絕這類存?zhèn)五e誤稱為第二類錯誤,犯第二類錯誤的概率是 1-正態(tài)性檢驗 :用均數(shù)和標(biāo)準差描述資料的分布特征,對例數(shù) n 較小的樣本進行 t 檢驗時,首先要求樣本取 自正態(tài)分布的總體。兩個方差的齊性檢驗 :兩樣本均數(shù)比較的 t 檢驗和多個樣本均數(shù)比較的方差分析要求各樣本所來自的總體 方差相等。兩樣
30、本方差的齊性檢驗:4.12)式中 為較大的樣本方差, 為較小的樣本方差, 為分子的自由度, 為分母的自由度,相應(yīng)的樣本例數(shù)分別為 和 。當(dāng)兩總體方差齊同時, F 值一般不會離 1 太遠;若算得的 F 值較大,大于我們規(guī) 定的界值時,就認為兩樣本所在總體的方差不齊。t 檢驗t 檢驗: 常用于總體標(biāo)準差未知且樣本含量較小時樣本均數(shù)與總體均數(shù)的比較, 成組設(shè)計的 兩個小 樣本的均數(shù)的比較及配對設(shè)計的兩樣本均數(shù)的比較。t 檢驗的應(yīng)用條件: a,n 50 b,樣本來自正態(tài)分布的總體 c ,兩樣本均數(shù)比較時要求兩樣本總體方差相等。1,單樣本 t 檢驗( one sample t-test ): 樣本均數(shù)與
31、已知總體均數(shù)比較,目的是推斷樣本所代表的未知 總體均數(shù) 與已知總體均數(shù) 有無差別。( ) ( 4.1 )式中 為樣本均數(shù), 為已知總體均數(shù), s為樣本標(biāo)準差, n 為樣本含量, 為自由度。步驟如下(可為 u 檢驗)1)建立假設(shè),確定檢驗水準。H0 : = 0 H1 : 0 =0.052)計算統(tǒng)計量。已知, (總體均數(shù) ) 0=, n= , =, s=3)確定 P 值,做出推斷結(jié)論。按 v=n-1 ,查 t 界值表,得 P>0.05(或 P<0.05),按 檢驗水準,不拒絕 H0 (或拒絕 H0,接受 H1),即 根據(jù)本資料尚不能(可以)認為?與?有差異。2,配對設(shè)計資料的 t 檢驗
32、 分為 3 種情況:將受試對象按一定條件配成對子(同種屬、同體重、同年齡、 同性別等) ,再隨機分配每對中的 2 個受試對象到不同的處理組; 同一受試對象分別接受 2 種不同處理, 其目的是推斷 2 種處理的效果有無差別;同一受試對象處理前后的比較,其目的是推斷某種處理有無作 用。配對設(shè)計資料的 t 檢驗( paired t-test for dependent samples)的基本思路: 首先計算出各對差值 d 的均數(shù)當(dāng)2 種處理結(jié)果無差別或某種處理不起作用時, 理論上差值的總體均數(shù)應(yīng)該為 0,故可將配對設(shè)計資料的t 檢驗視為樣本均數(shù)與總體均數(shù) 的比較。(4.2)式中 為樣本中各對差值 d
33、的均數(shù), 為樣本差值的標(biāo)準差, n 為對子數(shù), 為自由度。先列表求差值 d 和1)建立假設(shè),確定檢驗水準。H0 : d =0 H1 : d0 =0.052)計算統(tǒng)計量。已知, n=, d=, =3)確定 P 值,做出推斷結(jié)論。H0 (或拒絕 H0,接受 H1),即按 v=n-1 ,查 t 界值表,得 P>0.05 (或 P<0.05),按 檢驗水準,不拒絕根據(jù)本資料尚不能(可以)認為?3,成組設(shè)計資料兩樣本均數(shù)比較的 t 檢驗 (two-sample t-test for independent samples ):在臨床醫(yī)學(xué)研究中, 進行配對設(shè)計比較困難,一般分別從 2 個總體中
34、隨機抽樣,進行成組設(shè)計兩樣本均數(shù)的比較,目的是推斷 2 個總體均數(shù)是否相等。所比較的兩個樣本含量最好相等,此時抽樣誤差最小。(4.3)可為 t,u 檢驗1)建立假設(shè),確定檢驗水準。 1= 2 1 2=0.052)計算統(tǒng)計量。已知,n1=, X1= ,n2=, X2= ,1= X1/n1= , 2= X2/n2=(已知, n1=, 1=, s1=, n2=, 2=,s2=3)確定 P 值,做出推斷結(jié)論。按 v=n1+n2-2 ,查 t 界值表,得 P>0.05(或 P<0.05),按 檢驗水準,不拒絕 H0(或拒絕 H0,接受 H1), 可以認為?的差別無(或有)統(tǒng)計學(xué)意義。檢驗u
35、檢驗( u-test,或 Z-test ):用檢驗統(tǒng)計量 u 來命名的。用于樣本含量 n 足夠大( n>50 ),或 n 雖小但總體 標(biāo)準差 已知時的樣本均數(shù)與總體均數(shù)的比較、成組設(shè)計兩樣本均數(shù)的比較。1,單樣本 u 檢驗( one sample u-test):式中 為樣本均數(shù), 為已知總體均數(shù), s為樣本標(biāo)準差, n 為樣本含量。2,成組設(shè)計的兩樣本均數(shù)比較的u 檢驗( two-sample u-test for independent samples)式中, 分別為兩樣本均數(shù),為兩樣本均數(shù)差值的標(biāo)準誤,、 為分別為兩樣本的方差, 、 分別為兩樣本例數(shù)。標(biāo)準正態(tài)分布( u 分布)與
36、t 分布有何異同?答:相同點: t 分布和標(biāo)準正態(tài)分布( u分布)都是以 0為中心的正態(tài)分布。標(biāo)準正態(tài)分布是 t 分布的特例 (自由度是無限大時)。不同點: t 分布為抽樣分布, u 分布為理論分布; t 分布比標(biāo)準正態(tài)分布的峰值低, 且尾部翹得更高; t 分布受自由度大小的影響,隨著自由度的增大,逐漸趨近于標(biāo)準正態(tài)分布; t 分布有無 數(shù)條曲線,而 u 分布只有唯一一條曲線。方差分析1,方差分析的基本思想:按研究目的和設(shè)計類型,將總變異中的離均差平方和SS 和自由度 分別分解成相應(yīng)的若干部分,然后求得各相應(yīng)部分的變異;由于其中的組內(nèi)(或誤差)變異主要反映個體差異或抽樣 誤差,其他各部分的變異
37、與之比較得出統(tǒng)計量 F 值,根據(jù) F 值的大小確定 P值,并做出推斷。 2,方差分析的優(yōu)點:(1)不受比較組數(shù)的限制,可比較多組均數(shù)(2)可同時分析多個因素的作用(3)可分析同類間的交互作用 3,方差分析的應(yīng)用范圍:( 1 ) 2 個或多個樣本均數(shù)間的比較(2)分析 2 個或多個因素間的交互作用(3)回歸方程的線性假設(shè)檢驗(4)多元線性回歸分析中偏回歸系數(shù)的假設(shè)檢驗(5)兩樣本方差齊性檢驗完全隨機設(shè)計的方差分析:是將總變異中的離均差平方和 SS 和自由度 分別分解成組間和組內(nèi)兩部分,SS / 和 SS/SS 分別為組間變異( MS )和組內(nèi)變異( MS ),兩者之比即為統(tǒng)計量 總離均差平方和及
38、自由度:F。1)SS5.2)5.3)2)組間離均差平方和、自由度和均方:SS =5.4)3)=(組數(shù) -1 )MS =5.6)組內(nèi)離均差平方和、自由度和均方:5.5)SS =SS -SS5.7)=N-k (樣本量 - 組數(shù))5.8)MS =5.9) 當(dāng)方差分析的推斷結(jié)果為拒絕H0 ,接受 H1,各總體均數(shù)不同或不全相同時,應(yīng)對均數(shù)進一步兩兩比較,即多重比較 (multiple comparisons)。 可用 q 檢驗進行分析:( 5.14)式中 為方差分析的組內(nèi)均方,若為兩因素或兩因素以上的方差分析,則為誤差項均方;和 分別為兩樣本的樣本含量。配伍組設(shè)計資料的方差分析 配伍組設(shè)計亦稱隨機區(qū)組
39、設(shè)計( randomized block design ),其多個樣本均數(shù)比較可用無重復(fù)數(shù)據(jù)的兩因素 方差分析( two-way ANOVA )。2 個因素是指主要的研究因素和配伍組因素。兩因素的方差分析是把總變 異中的離均差平方和與自由度分別分解成處理組間、配伍組間和誤差三部分。計算公式如下:變異來源離均差平方和自由度均方 MSF總-C處理組間k-1配伍組間b-1誤差SS -SS -SS(k-1)( b-1), 為配伍組數(shù)二,分類變量統(tǒng)計描述 常用相對數(shù),即率,構(gòu)成比,和相對比對分類資料進行統(tǒng)計描述1, 率( rate):率又稱頻率指標(biāo),它說明某現(xiàn)象發(fā)生的頻率或強度率=2,構(gòu)成比( prop
40、ortion ):又稱構(gòu)成指標(biāo),它說明一事物內(nèi)部各組成部分所占的比重或分布,常以百分數(shù) 表示構(gòu)成比=3,相對比( relative ratio )亦稱比,是 A,B 2 個有關(guān)指標(biāo)之比,說明 A和 B 的若干倍或百分之幾,是相對 數(shù)的最簡單形式。 A, B 性質(zhì)可相同可不同。相對比 =4 , 應(yīng)用相對數(shù)時應(yīng)注意的事項:(一)計算相對數(shù)的分母不宜過小。(二)分析時不能以構(gòu)成比代替率。(三)對觀察單位數(shù)不等的幾個率,不能直接用相加求其平均率。(四)資料的對比應(yīng)注意可比性。五) 對樣本率(或構(gòu)成比)的比較應(yīng)遵循隨機抽樣,要做假設(shè)檢驗六) 區(qū)別清分子分母。5,率的 u 檢驗1),樣本率與總體率比較:目
41、的是推斷樣本率所代表的總體率與某已知總體率 是否相等。根據(jù)資料,二項的不同情況,可以采用不同的假設(shè)檢驗方法:若 很小,可用 Poisson 分布原理做檢驗;若不太靠近 0 或 1 時,可用二項分布原理做檢驗;當(dāng)樣本含量n 足夠大時,或 且 分布逼近正態(tài)分布,可用 u 檢驗計算其樣本檢驗統(tǒng)計量。n 為樣本含量。6.1)式中 p 為樣本率,為已知總體率(常為理論值或標(biāo)準值),2),兩樣本率比較:兩個樣本率作比較的目的是推斷兩個樣本各自代表的兩總體率是否相等,當(dāng)兩個樣本滿足正態(tài)近似條件且樣本含量較大時,可用 u 檢驗,其公式:6.2)式中 、 分別為兩個樣本率, 、 分別為兩樣本含量,為兩個樣本率之
42、差的標(biāo)準誤, 為合并陽性率, ,、為兩個樣本陽性例數(shù)。四格表資料的 檢驗適用于分類變量資料中推斷兩個或多個總體率(或構(gòu)成比)之間有無差別,兩個分類指標(biāo)之間有無相關(guān)關(guān) 系的檢驗以及檢驗頻數(shù)分布的擬合優(yōu)度。(6.3)式中 A 代表實際頻數(shù), T 代表理論頻數(shù)。格子理論頻數(shù) 可用同樣方法求得,其計算公式為:6.4)6.5)四格表資料的專用公式:(6.6)式中 a、b、 c、d 分別為四格表的實際頻數(shù) =a+b+c+d。四格表的 值的校正。 當(dāng)所有 T>5,n>40 時用上述公式; 當(dāng)有 1<T<5 ,且 n>40 時,需進行連續(xù)性校正:6.7)(6.7) 或 n<
43、40 時,需用四格表資料的確切概率法。行×列表資料的 檢驗 。(6.9)式中 n 是總例數(shù), A 是每個格子的實際頻數(shù), 分別為某格子對應(yīng)的行合計和列合 行×列表 檢驗注意事項(1)X2 檢驗要求理論頻數(shù)不宜太小,否則將導(dǎo)致偏性。一般認為行X 列表資料中不宜有 1/5 以上的格子理論數(shù)小于 5,或有一個格子理論數(shù)小于 1。處理方法:最好的方法是增加樣本例數(shù),以增大理論頻數(shù);且 精確概率法;進行合理的合并;刪除理論頻數(shù)太小的行和列,后兩種方法將損失一定的信息并影響樣本的 隨機性。(2)單向有序列行 X 列表的統(tǒng)計處理:當(dāng)效應(yīng)按強弱分為若干個級別,試驗結(jié)果整理為單向有序行列表,
44、 在比較各處理組的效應(yīng)有無差別時,宜用秩和檢驗或 Ridit 分析。(3)當(dāng)多個樣本率比較的檢驗。結(jié)論為拒絕 H0 ,只能認為各總體率或總體構(gòu)成比之間總的說來有差別,但不能說明它們彼此間都有差別,或某兩者間有差別。若要進一步解決此問題,可用卡方分割法。 配對四格表資料的卡方檢驗 :(一)關(guān)聯(lián)性分析:(1)建立假設(shè)檢驗,確定檢驗水準。H0:兩種方法的檢驗結(jié)果無關(guān)系H1:兩種方法的檢驗結(jié)果有關(guān)系 =0.05( 2 )計算統(tǒng)計量 X2 值。 n>=40,T>=5, n>=40,1<T<5, n<40 或 T<1, 四格表確切概率法。(3)確定 P 值,做出推
45、斷結(jié)論。X2>3.84 ,P<0.05,按 =0.05檢驗水準,拒絕 H0,接受 H1,可以認為兩種方法的檢驗結(jié)果有關(guān)系。 (二)差別性檢驗:(1)建立假設(shè)檢驗,確定檢驗水準。H0:兩總體的 B=CH1:兩總體的 B 不等于 C =0.05( 2 )計算統(tǒng)計量 X2 值。 b+c>40 時:b+c<40 時,(3)確定 P 值,做出推斷結(jié)論。X2>3.84 , P<0.05,按 =0.05檢驗水準,拒絕 H0,接受 H1,可以認為兩種方法的檢驗結(jié)果有差別。 ( X20.05(1)=3.84, X20.005(1)=7.88 )非參數(shù)檢驗參數(shù)檢驗和非參數(shù)檢驗的
46、優(yōu)缺點:參數(shù)檢驗的優(yōu)點是對資料的分析利用充分, 統(tǒng)計分析的效率高; 缺點是對資料的要求高, 適用范圍有限。 非參數(shù)檢驗的優(yōu)點:( 1)適用范圍廣,對變量的類型和分布無特殊要求,不受總體分布的限制;(2)對數(shù)據(jù)的要求不嚴,對某些指標(biāo)不便準確測定的資料也可應(yīng)用;(3)方法簡便,易于理解和掌握。缺點是如果對符合參數(shù)檢驗的資料用了非參數(shù)檢驗,因不能充分利用資料提供的信息,會使檢驗效能低于非參數(shù)檢 驗;若要使檢驗效能相同,往往需要更大的樣本含量。配對設(shè)計的符號秩和檢驗Wilcoxon 符號秩和檢驗( Wilcoxon signed rank test )是推斷其差值是否來自中位數(shù)為零的總體的方法, 可用
47、于配對設(shè)計差值的比較和單一樣本與總體中位數(shù)的比較。(一)基本思想 其假設(shè) 是差值的總體中位數(shù)等于 0,備擇假設(shè)是差別的總體中位數(shù)不等于 0,如果差別太大,就拒絕 ;反之,不拒絕 。(二)方法步驟: 1,建立檢驗假設(shè),確定檢驗水準; 2,計算檢驗統(tǒng)計量 T 值: a,求各對的差值; b, 編秩; c,求秩和,確定統(tǒng)計量 T;3,確定 P 值,做出推斷結(jié)論。完全隨機設(shè)計兩樣本比較的秩和檢驗 亦稱兩個樣本比較的秩和檢驗,利用兩樣本觀察值的秩和來推斷樣本分別代表的總體分布是否相同。成組設(shè)計多樣本比較的秩和檢驗 , 利用多個樣本的秩和來推斷各樣本分別代表的總體的分布有無差別。配伍組設(shè)計的秩和檢驗 M 檢
48、驗 秩和檢驗步驟:(1) 建立檢驗假設(shè),確定檢驗水準。H0:?和?的?總體分布相同。 H1:?和?的?總體分布不同。(2)計算統(tǒng)計量 T 值。1)編秩 將 2 組數(shù)據(jù)由小到大統(tǒng)一編秩,相同數(shù)據(jù)取平均秩次。2)求秩和,確定統(tǒng)計量 T 2 組秩次分別相加,若兩組例數(shù)相等,則任取一組的秩和為統(tǒng)計量;若兩組例 數(shù)不等,則以樣本例數(shù)較小者對應(yīng)的秩和為統(tǒng)計量。3)確定 P 值,做出推斷結(jié)論。查 T 界值表(成組設(shè)計用),若 T 值在界值范圍內(nèi), P>0.05 ,按 =0.05檢驗水準,不拒絕 H0 ,可以認為 兩者的總體分布相同;若 T 值<= 界值或在界值范圍外, P<=0.05 ,按 =0.05檢驗水準,拒絕 H0,接受 H1,可以認為兩的分布位置不同。如 n1 或 n2-n1 超出了成組設(shè)計 T 界值的范圍,可用正態(tài)近似檢驗: 如相
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度綠化養(yǎng)護與生態(tài)旅游合同范本匯編4篇
- 二零二五版戶外拓展訓(xùn)練設(shè)施維修及服務(wù)合同3篇
- 2025年度美食廣場特色攤位租賃合同(2024版)4篇
- 2025年度會展中心場地租賃合同6篇
- 2025年度儲罐安裝與設(shè)備維護合同4篇
- 二零二五年度美甲店產(chǎn)品線更新與供應(yīng)鏈管理合同4篇
- 2025年度高速公路服務(wù)區(qū)草皮綠化與美化合同模板3篇
- 二零二五年度環(huán)境治理項目承包合同補充協(xié)議4篇
- 二零二五年度綠色建筑節(jié)能改造工程出借咨詢與服務(wù)合同4篇
- 2025年度產(chǎn)業(yè)園區(qū)代建工程合同樣本4篇
- 地測防治水技能競賽理論考試題庫(含答案)
- 以諾書-中英對照
- 三角形與全等三角形復(fù)習(xí)教案 人教版
- 《朝天子·詠喇叭-王磐》核心素養(yǎng)目標(biāo)教學(xué)設(shè)計、教材分析與教學(xué)反思-2023-2024學(xué)年初中語文統(tǒng)編版
- 成長小說智慧樹知到期末考試答案2024年
- 紅色革命故事《王二小的故事》
- 海洋工程用高性能建筑鋼材的研發(fā)
- 英語48個國際音標(biāo)課件(單詞帶聲、附有聲國際音標(biāo)圖)
- GB/T 6892-2023一般工業(yè)用鋁及鋁合金擠壓型材
- 冷庫安全管理制度
- 2023同等學(xué)力申碩統(tǒng)考英語考試真題
評論
0/150
提交評論