醫(yī)學統計學總結_第1頁
醫(yī)學統計學總結_第2頁
醫(yī)學統計學總結_第3頁
醫(yī)學統計學總結_第4頁
醫(yī)學統計學總結_第5頁
已閱讀5頁,還剩15頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、 醫(yī)學統計學總結 一.緒論1,醫(yī)學統計學:運用概率論和數理統計學的原理和方法,研究醫(yī)學領域中隨機現象有關數據的搜集、整理、分析和推斷,進而闡明其客觀規(guī)律性的一門應用科學。2,醫(yī)學統計學的主要內容:1) 統計研究設計 調查研究設計和實驗研究設計2) 醫(yī)學統計學的基本原理和方法 研究設計和數據處理中的基本統計理論和方法。A:資料的搜集與整理 B:常用統計描述,集中趨勢和離散趨勢,相對數,相關系數,回歸系數,統計表,統計圖 C:統計推斷,如參數估計和假設檢驗。 3)醫(yī)學多元統計方法 多元線性回歸和逐步回歸分析、判別分析、聚類分析、主成分分析、因子分析、logistic回歸與Cox回歸分析。3,統計工

2、作步驟:1) 設計 明確研究目的和研究假說,確定觀察對象與觀察單位,樣本含量和抽樣方法,擬定研究方案,預期分析指標,誤差控制措施,進度與費用。2) 搜集材料A, 搜集材料的原則 及時、準確、完整B, 統計資料的來源 醫(yī)學領域的統計資料的來源主要有三個方面。一是統計報表,二是經常性工作記錄,三是專題調查或專題實驗。C, 資料貯存3) 整理資料 a檢查核對b設計分組c擬定整理表d歸表4) 分析資料 統計分析包括統計描述和統計推斷4,同質(homogeneity):指被研究指標的影響因素相同。 變異(variation):同質基礎上的各觀察單位間的差異。 變量(variable):收集資料過程中,根

3、據研究目的確定同質觀察單位,再對每個觀察單位的某項特征進行測量或觀察,這種特征稱為變量 變量值:變量的觀察結果或測量值。變量類型變量值表現實例資料類型數值變量離散型定量測量值,有計量單位產前檢查次數 計量資料連續(xù)型身高分類變量無序二分類對立的兩類屬性性別(男女)計數資料多分類不相容的多類屬性血型(A,B,O,AB)有序多分類類間有程度差異的屬性受教育程度(小學,中學,高中,大學)等級資料5,總體(population) 根據研究目的所確定的同質研究對象中所有觀察單位某變量值的集合??傮w具有的基本特征是:同質性 樣本(sample) 從總體中隨機抽取部分觀察單位,其變量值的集合構成樣本。樣本必須

4、具有代表性。代表性是指樣本來自同質總體,足夠的樣本含量和隨機抽樣的前提。 統計量(statistics)描述樣本變量值特征的指標(樣本率,樣本均數,樣本標準差)。 參數(parameter)描述總體變量值特征的指標(總體率,標準差,總體均數)。 抽樣誤差(sampling error):由于個體差異的存在,即使在同一整體中隨機抽取若干樣本,各樣本的統計量往往不等,統計量與參數也會有所不同。這種因抽樣研究引起的差異稱抽樣誤差。 隨機事件(random event)對隨機試驗的各種可能結果的集合。 概率(probability) 描述隨機事件發(fā)生的可能性大些哦的一個度量。 小概率事件 若隨機事件A

5、的概率P(A),習慣上,=0.05時,就稱A為小概率事件。其統計學意義是小概率事件在一次隨機試驗中認為不會發(fā)生。抽樣誤差1,抽樣誤差(sampling error) 由抽樣而造成的樣本統計量與總體參數之間的差異或各樣本統計量之間的差異。在醫(yī)學統計學中,常把由抽樣造成的樣本均數與總體均數間的差異稱為均數的抽樣誤差;由抽樣造成的樣本率與總體率之間的差異稱為率的抽樣誤差。2,樣本均數的標準差(簡稱標準誤,standard error) 反映均數的抽樣誤差大小的指標。大,抽樣誤差大;反之,小,抽樣誤差小。 (3.1)實際工作中往往未知的,可用樣本標準差s作的估計值,計算標準誤的估計值。 (3.2)3,

6、標準誤的用途:a,衡量樣本均數的可靠性;b,估計總體均數的置信區(qū)間;3,用于均數的假設檢驗。4,標準誤的估計值的用途: a,描述抽樣誤差的大??; b,總體參數的估計; c,用來進行假設檢驗。5,率的抽樣誤差:由抽樣造成的樣本率與總體率的差異稱為率的抽樣誤差。衡量率的抽樣誤差大小的指標是率的標準誤。越小,率的抽樣誤差越小;越大,率的抽樣誤差越大。 (3.3)其中為總體率。實際工作中,由于往往是未知的,可用樣本率p作的估計值,計算率的標準誤的估計值。 (3.4)。標準差(s)標準誤計算公式s=(1)表示觀察值的變異程度(1)估計均數的抽樣誤差的大小(2)計算變異系數CV=100%(2)估計總體均數

7、的可信區(qū)間(,)(3)確定醫(yī)學參考值范圍(3)進行假設檢驗(4)計算標準誤簡述標準差、標準誤的區(qū)別與聯系?區(qū)別:(1)含義不同:標準差S表示觀察值的變異程度,描述個體變量值(x)之間的變異度大小,S越大,變量值(x)越分散;反之變量值越集中,均數的代表性越強。標準誤估計均數的抽樣誤差的大小,是描述樣本均數之間的變異度大小,標準誤越大,樣本均數與總體均數間差異越大,抽樣誤差越大;反之,樣本均數越接近總體均數,抽樣誤差越小。(2)與n的關系不同: n增大時,S趨于(恒定),標準誤減少并趨于0(不存在抽樣誤差)。(3)用途不同:標準差表示x的變異度大小、計算變異系數、確定醫(yī)學參考值范圍、計算標準誤等

8、,標準誤用于估計總體均數可信區(qū)間和假設檢驗。聯系:二者均為變異度指標,樣本均數的標準差即為標準誤,標準差與標準誤成正比。標準差: 標準誤:二.分布 正態(tài)分布 1,正態(tài)分布的函數 其中為總體均數,為總體標準差,為圓周率,為自然對數的底,且僅為變量。以為橫軸,以為縱軸,當均數和標準差已知時即可繪出正態(tài)分布曲線。為應用方便,將式中進行變量變換,使原來的正態(tài)分布變?yōu)榈臉藴收龖B(tài)分布,亦稱分布。被稱為標準正態(tài)變量或標準正態(tài)離差,將代入上述公式即得標準正態(tài)分布的密度函數。 (2.17) (2.18) 2,正態(tài)分布的特征 (1)正態(tài)曲線(normal curve)在橫軸上方均數處最高。(2)正態(tài)分布以均數為中

9、心,左右對稱。(3)正態(tài)分布有2個參數(parameter),即均數(位置)和標準差(形狀)。當固定不變時,越大,曲線沿橫軸越向右移動;反之,越小,則曲線沿橫軸越向左移動。當固定不變時,越大,曲線越平闊;越小,曲線越尖峭。通常用N(,)表示均數為、方差為的正態(tài)分布。用(0,1)表示標準正態(tài)分布。(4)正態(tài)分布在1處各有一個拐點。(5)正態(tài)曲線下面積的分布有一定規(guī)律。3,常用的兩個區(qū)間:1.96及2.58的區(qū)間面積分別占總面積的95%及99%。4,正態(tài)分布的應用 1),制定醫(yī)學參考值范圍 a,正態(tài)分布法 適用于正態(tài)或近似正態(tài)分布的資料 雙側界值:;單側上界:,或單側下界:。 b,對數正態(tài)分布法

10、適用于對數正態(tài)分布資料 雙側界值: ;單側上界:,或單側下界 c,百分位數法 常用于偏態(tài)分布資料及資料中一端或兩端無確切數值的資料。雙側界值:和;單側上界:,或單側下界:。 2)正態(tài)分布是多種統計方法的理論基礎 如t分布,F分布,分布都是在正態(tài)分布的基礎上推導出來的,分布也是以正態(tài)分布為基礎的。另外t分布,二項分布,poisson分布的極限為正態(tài)分布,一定條件下可按正態(tài)分布原理處理。t分布1,t分布: (3.5)t分布的特征為:1 以0為中心,左右對稱的單峰分布。2 t分布曲線形態(tài)變化與自由度的大小有關。自由度越小,則t值越分散,曲線越低平;自由度逐漸增大時,則t分布逐漸逼近正態(tài)分布(標準正態(tài)

11、分布)。當=時,t分布為u分布。t界值表附圖中非陰影部分面積的概率為: 2,總體均數的估計:用樣本指標估計總體參數稱為參數估計,是統計推斷的一個重要方面??傮w均數的估計有2種方法。一是直接用統計量估計總體參數,稱為點值估計。由于抽樣誤差的存在,此法很難估計準確。二是區(qū)間估計(interval estimation)法。區(qū)間估計是按一定的概率100(1-)%估計總體均數所在的范圍,亦稱可信區(qū)間(confidence interval,CI)。常取的可信度為95%和99%,即95%可信區(qū)間和99%可信區(qū)間。計算方法有3種:(1)未知且n小 按t分布原理用式(3.6)計算可信區(qū)間。 由于 將代入,得

12、 則總體均數的100(1-)%可信區(qū)間的通式為: (3.6)或寫成 (,)。(2)未知,但n足夠大時(n100) t分布逼近u分布,按正態(tài)分布原理,用式(3.7)估計可信區(qū)間。 () (3.7)(3)已知 按正態(tài)分布原理,用式(3.8)估計可信區(qū)間。 ()(3.8)標準正態(tài)分布(u分布)與t分布有何異同?答:相同點:t分布和標準正態(tài)分布(u分布)都是以0為中心的正態(tài)分布。標準正態(tài)分布是t分布的特例(自由度是無限大時)。 不同點:t分布為抽樣分布,u分布為理論分布;t分布比標準正態(tài)分布的峰值低,且尾部翹得更高;t分布受自由度大小的影響,隨著自由度的增大,逐漸趨近于標準正態(tài)分布;t分布有無數條曲線

13、,而u分布只有唯一一條曲線。二項分布1,二項分布(binomial distribution)是對只具有2種互斥結果的離散型隨機事件的規(guī)律性進行描述的一種概率分布。二項分布概率公式: (3.9)式中n為獨立的貝努力試驗次數,為成功的概率,(1-)為失敗的概率,X為在n次貝努力試驗中出現“成功”的次數,表示在n次試驗中出現X的各種組合數,在此稱為二項系數(binomial coefficient)。2,二項分布的應用條件:(1)各觀察單位只能具有相互對立的一種結果,如陽性或陰性,生存或死亡。(2)已知發(fā)生某一結果(陽性)的概率為,其對立結果的概率為1-,實際工作中要求 是從大量觀察中獲得比較穩(wěn)定

14、的數值。(3)n次試驗在相同條件下進行,且各個觀察單位的觀察結果相互獨立。3,二項分布的性質:A,二項分布的均數和標準差 在二項分布的資料中,當和n已知時,它的均數及其標準差如下:=n (3.11) (3.12)若均數和標準差不用絕對數表示,而是用率表示時,即對式(3.11)(3.12)分別除以n,得: (3.13) (3.14)是樣本率的標準誤的理論值,當未知時,常用樣本率p作為的估計值,則: (3.15)B,二項分布的累計概率 二項分布的累計概率(cumulative probability)常用的有左側累計和右側累計2種方法。從陽性率為的總體中隨機抽取n個個體,則(1)最多有k例陽性的概

15、率 (3.16) (2)最少有k例陽性的概率 (3.17)D,二項分布的形狀取決于和n的大?。海?)當=0.5時,分布對稱;當0.5時,分布呈負偏態(tài),且固定n時,越大,分布越偏。(2)對固定的,分布隨n的增大趨于對稱。4,總體率的估計 總體率的估計也有點估計和區(qū)間估計,點估計是簡單地用樣本率來估計總體率;區(qū)間估計是求出總體率的可能范圍。樣本率的理論分布和樣本含量n、陽性率p的大小有關,所以需要根據n和p的大小不同,分別選用下列2種方法。(一)查表法 當樣本含量n較小,如n50,特別是p很接近于0或1時,按二項分布的原理估計總體率的可信區(qū)間。(二)正態(tài)近似法 當樣本含量n足夠大,且樣本率p或1-

16、p均不太小,如np與n(1-p)均大于5時,樣本率的p的抽樣分布近似正態(tài)分布,總體率的可信區(qū)間可按下列式(3.17)進行估計。 (3.17)Poisson分布1,Poisson分布 泊松分布是在很小,樣本含量n趨向于無窮大時,二項分布的極限形式。更多地用于研究單位時間、單位人群、單位空間內,某罕見事件發(fā)生的次數的分布。 X=0,1,2(3.19)式中=n為Poisson分布的總體均數,X為單位時間或單位空間內某事件的發(fā)生數,e為自然對數的底,約等于2.71828。在實際運算中,P(X)亦可按式(3.20)作遞推計算。 (3.20)2,Poisson分布應用條件:A, 要求事件的發(fā)生是相互獨立B

17、, 發(fā)生的概率相等C, 結果是二分類3,Poisson分布的性質:A, 該分布是一種單參數的離散型分布,其參數為,它表示單位時間或空間內某件事平均發(fā)生的次數,又稱強度參數。B, Poisson分布的方差和均數相等,即=C, Poisson分布的累計概率 (1) 最多為k次的概率 (2) 最少為k次的概率 4,Poisson分布的圖形 已知,就可按公式計算得出X=0,1,2,時的P(X)值,以X為橫坐標,以P(X)為縱坐標作圖,即可會出Poisson分布的圖形。值越小,分布越偏,隨著的增大,分布越趨于對稱,當=20時,分布接近正態(tài)分布,當=50時,可以認為Poisson分布呈正態(tài)分布N(,)按正

18、態(tài)分布處理。5,Poisson分布具有可加性6,總體參數的估計 由樣本均數(樣本計數)X估計總體均數也有點(值)估計和區(qū)間估計,區(qū)間估計的方法,需視樣本計數(樣本均數)X的大小而定,X小時用查表法,X大時用正態(tài)近似法。 (一)查表法當樣本計數X時,用X值查附表poisson分布的可信區(qū)間,可得總體均數的95%或99%可信區(qū)間。 (二)正態(tài)近似法當樣本計數X50時,可用正態(tài)近似原理下面公式求總體均數的95%或99%可信區(qū)間 正態(tài)分布、二項式和泊松分布的關系:二項分布(binomial distribution):對只具有兩種互斥結果的離散型隨機事件的規(guī)律性進行描述的一種概率分布。Poisson分

19、布是在很小,樣本含量n趨于無窮大時,二項分布的極限形式。當v=時,t分布即為u分布,趨向正態(tài)分布??尚艆^(qū)間與參考值范圍的區(qū)別:意義、計算公式和用途均不同。(1)參考值范圍是指同質總體內包括百分之幾十個體值的估計范圍。而可信區(qū)間是指在百分之幾十的可信度估計的總體參數的所在范圍。(2)同樣的百分之幾十,參考值范圍是樣本范圍,可信區(qū)間是指可信度范圍,二者有著本質的不同。(3)從意義來看,95參考值范圍是指同質總體內包括95個體值的估計范圍,而總體均數95可信區(qū)間是指按95可信度估計的總體均數的所在范圍。(4)從計算公式看,若指標服從正態(tài)分布,95參考值范圍的公式是:1.96s??傮w均數95可信區(qū)間的

20、公式是:。前者用標準差,后者用標準誤。前者用1.96,后者用為0.05,自由度為v的t界值。(5)從用途上看,可信區(qū)間用來估計總體均數,參考值范圍用來判斷觀察對象的某項指標是否正常。簡述檢驗假設與可信區(qū)間的聯系與區(qū)別。答:(1)可信區(qū)間用于推斷總體參數所在的范圍,假設檢驗用于推斷總體參數是否不同。前者估計總體參數的大小,后者推斷總體參數有無質的不同。(2)可信區(qū)間也可回答假設檢驗的問題。但可信區(qū)間不能提供確切的P值范圍,只能給出在水準上有無統計意義。(3)可信區(qū)間還可提示差別有無實際意義。統計圖表1,繪制統計圖的基本要求:A, 根據資料性質和分析目的據頂適當圖形。B, 標題應說明資料的內容、時

21、間和地點,一般位于圖的下方。C, 圖的縱、橫軸應注明標目及對應單位,尺度應等距或具有規(guī)律性,一般自左而右、自下而上、由小到大。D, 為使圖形美觀并便于比較,統計圖的長寬比例一般為7:5,有時為了說明問題也可以變動。E, 比較、說明不同的事物時,可用不同顏色或線條表示,并常附圖例說明,但不宜過多。2,常用統計圖的適用條件與繪制1 條圖(bar graph) 用等寬長條的高度表示按性質分類資料各類別的數值大小,用于表示它們之間的對比關系。2 圓圖(pie graph) 圓形圖適用于百分構成比資料,表示事物各組成部分所占的比重或構成。3 百分條圖(percent bar) 意義及適用資料同圓圖,也稱

22、構成條圖。4 線圖(line graph) 線圖適用于連續(xù)性資料,以不同的線段升降來表示資料的變化,并可表明一事物隨另一食物(時間)而變動的情況。5 直方圖(histogram) 直方圖用于表達連續(xù)性資料的頻數分布。6 散點圖(scatter diagram) 散點圖以直角坐標系中各點的密集程度和趨勢來表示兩現象間的關系。常用在對資料進行相關分析之前適用。 單變量資料 一,數值變量 統計描述1,頻數表的編制 求全距 定組段和組距 列頻數表 畫頻數圖2,頻數分布的兩個重要特征:集中趨勢和離散趨勢3,頻數分布可以分為正態(tài)分布和偏態(tài)分布4,頻數表的用途:揭示資料分布類型和分布特征,以便選取適當的統計

23、方法;便于進一步計算指標和統計處理;便于發(fā)現某些特大或者特小的可疑值。5,集中趨勢的描述:均數 幾何均數 中位數 百分位數6,均數(mean):算術均數的簡稱。常用=表示。7,中位數(median):一組由小到大按順序排列的觀察值中位次居中的數值,用M表示??捎糜诿枋鋈魏畏植迹貏e是偏態(tài)分布資料以及頻數分布的一端或兩端無確切數據資料的中心位置。8,百分位數(percentile)是一種位置指標,用表示。一個百分位數P將一組觀察值分為兩部分,理論上有x%的觀察值比它小,有(100-x)%的觀察值比它大??捎糜诖_定非正態(tài)分布資料的醫(yī)學參考值范圍。9,離散趨勢的描述:全距(range) 四分位數間距

24、(quartile) 方差 標準差10,全距(range) 亦稱極差,為一組同質觀察值中最大值和最小值之差。反映個體差異的范圍,優(yōu)點是計算簡單,缺點是:1)只考慮最大最小值之間的差異,不能反映組內其他觀察值的變異度;2)樣本含量相差懸殊時不宜用全距比較。11,四分位數間距(quartile) 上四分位數與下四分位數之差。常用于描述偏態(tài)頻數分布以及分布的一端或兩端無確切數值資料的離散程度。12,方差(variance)離均差的平方和表示。13,標準差(standard variance)的作用:a,估計變量值的離散程度 b,計算變異系數 c,與均數結合,估計變異值的頻數分布范圍 d,計算標準誤(

25、總體) s=(樣本)14,變異系數(coefficient of variation) 常用于比較度量單位不同或均數相差懸殊的兩組或多組資料的變異度。CV=100%假設檢驗1,假設檢驗(hypothesis test)亦稱顯著性檢驗(significance test),其基本思想是先對總體的參數或分布做出某種假設,如設總體均數(或率)為一定值;兩總體均數(或率)相等;總體服從正態(tài)分布或兩分布相同等,然后根據樣本信息選用適當的方法,推斷此假設應當拒絕或不拒絕。2,假設檢驗的一般步驟:(1)建立假設和確定檢驗水準:根據實際情況確定單、雙側檢驗,建立假設,確定檢驗水準;(2)選定檢驗方法和計算統計

26、量:根據設計的類型及研究目的選擇合適的檢驗方法并計算出對應的統計量;(3)確定P值并做出推斷結論。若tt,v,則P,按檢驗水準,拒絕H0,接受H1,尚可認為差異顯著有統計學意義;相反則差異不顯著,無統計學意義3,假設檢驗時應注意的事項:(1)要有嚴密的抽樣研究設計;樣本必須是從同質總體中隨機抽取的,要保證組間的均衡性和資料的可比性,可能影響結果的非處理因素在對比組間應盡可能相同或相近;(2)正確選擇檢驗方法;根據現有的資料類型、設計類型、分析目的、樣本含量等因素選用適當的檢驗方法,如不符合條件可做適當轉換;(3)正確理解“差別無顯著性”的含義,差別有統計學意義,不能理解為兩者差差大,也不能理解

27、為所分析的指標在實際應用上就有“顯著效果”。(4)檢驗假設的推斷結論為概率結論,不能絕對化:檢驗水準人為規(guī)定,是相對的,報告結論時應列出檢驗統計量和P值的確切范圍。(5)注意是單側檢驗還是雙側檢驗I型錯誤和II型錯誤:I型錯誤(type I error)拒絕了實際上成立的,即樣本原本來自的總體,由于抽樣的偶然性得到了較大的t值,所以拒絕了,接受了,這類棄真錯誤稱為第一類錯誤,犯第一類錯誤的概率是。II型錯誤(type II error)是不拒絕實際上不成立的,即“存?zhèn)巍奔礃颖驹緛碜缘目傮w,但是由于抽樣的偶然性,得到了較小的t值,得到了較大的P值,沒有拒絕,這類存?zhèn)五e誤稱為第二類錯誤,犯第二類

28、錯誤的概率是1-正態(tài)性檢驗:用均數和標準差描述資料的分布特征,對例數n較小的樣本進行t檢驗時,首先要求樣本取自正態(tài)分布的總體。兩個方差的齊性檢驗:兩樣本均數比較的t檢驗和多個樣本均數比較的方差分析要求各樣本所來自的總體方差相等。兩樣本方差的齊性檢驗: (4.12)式中為較大的樣本方差,為較小的樣本方差,為分子的自由度,為分母的自由度,相應的樣本例數分別為和。當兩總體方差齊同時,F值一般不會離1太遠;若算得的F值較大,大于我們規(guī)定的界值時,就認為兩樣本所在總體的方差不齊。t檢驗t檢驗:常用于總體標準差未知且樣本含量較小時樣本均數與總體均數的比較,成組設計的 兩個小樣本的均數的比較及配對設計的兩樣

29、本均數的比較。t檢驗的應用條件:a,n50 b,樣本來自正態(tài)分布的總體 c,兩樣本均數比較時要求兩樣本總體方差相等。1,單樣本t檢驗(one sample t-test):樣本均數與已知總體均數比較,目的是推斷樣本所代表的未知總體均數與已知總體均數有無差別。 () (4.1)式中為樣本均數,為已知總體均數,s為樣本標準差,n為樣本含量,為自由度。步驟如下(可為u檢驗)1)建立假設,確定檢驗水準。H0:=0 H1:0=0.052)計算統計量。已知,(總體均數)0=,n=,=,s=3)確定P值,做出推斷結論。按v=n-1,查t界值表,得P0.05(或P0.05(或P0.05(或P50),或n雖小但

30、總體標準差已知時的樣本均數與總體均數的比較、成組設計兩樣本均數的比較。1,單樣本u檢驗(one sample u-test): (4.4)式中為樣本均數,為已知總體均數,s為樣本標準差,n為樣本含量。2,成組設計的兩樣本均數比較的u檢驗(two-sample u-test for independent samples): (4.5)式中,分別為兩樣本均數,為兩樣本均數差值的標準誤,、為分別為兩樣本的方差,、分別為兩樣本例數。標準正態(tài)分布(u分布)與t分布有何異同?答:相同點:t分布和標準正態(tài)分布(u分布)都是以0為中心的正態(tài)分布。標準正態(tài)分布是t分布的特例(自由度是無限大時)。不同點:t分布

31、為抽樣分布,u分布為理論分布;t分布比標準正態(tài)分布的峰值低,且尾部翹得更高;t分布受自由度大小的影響,隨著自由度的增大,逐漸趨近于標準正態(tài)分布;t分布有無數條曲線,而u分布只有唯一一條曲線。 方差分析1,方差分析的基本思想:按研究目的和設計類型,將總變異中的離均差平方和SS和自由度分別分解成相應的若干部分,然后求得各相應部分的變異;由于其中的組內(或誤差)變異主要反映個體差異或抽樣誤差,其他各部分的變異與之比較得出統計量F值,根據F值的大小確定P值,并做出推斷。2,方差分析的優(yōu)點:(1)不受比較組數的限制,可比較多組均數(2)可同時分析多個因素的作用(3)可分析同類間的交互作用3,方差分析的應

32、用范圍:(1)2個或多個樣本均數間的比較(2)分析2個或多個因素間的交互作用(3)回歸方程的線性假設檢驗(4)多元線性回歸分析中偏回歸系數的假設檢驗(5)兩樣本方差齊性檢驗 完全隨機設計的方差分析: 是將總變異中的離均差平方和SS和自由度分別分解成組間和組內兩部分,SS/ 和SS/SS分別為組間變異(MS)和組內變異(MS),兩者之比即為統計量F。(1)總離均差平方和及自由度:SS= (5.2) = (5.3)(2)組間離均差平方和、自由度和均方:SS= (5.4) = (組數-1) (5.5) MS= (5.6)(3)組內離均差平方和、自由度和均方:SS=SS-SS (5.7) =N-k (

33、樣本量-組數) (5.8) MS= (5.9)當方差分析的推斷結果為拒絕H0,接受H1,各總體均數不同或不全相同時,應對均數進一步兩兩比較,即多重比較(multiple comparisons)??捎胵 檢驗進行分析: (5.14)式中為方差分析的組內均方,若為兩因素或兩因素以上的方差分析,則為誤差項均方;和分別為兩樣本的樣本含量。配伍組設計資料的方差分析配伍組設計亦稱隨機區(qū)組設計(randomized block design),其多個樣本均數比較可用無重復數據的兩因素方差分析(two-way ANOVA)。2個因素是指主要的研究因素和配伍組因素。兩因素的方差分析是把總變異中的離均差平方和與

34、自由度分別分解成處理組間、配伍組間和誤差三部分。計算公式如下:變異來源離均差平方和自由度均方MSF總-C處理組間k-1配伍組間b-1誤差SS-SS-SS(k-1)(b-1),為配伍組數二,分類變量統計描述 常用相對數,即率,構成比,和相對比對分類資料進行統計描述1,率(rate):率又稱頻率指標,它說明某現象發(fā)生的頻率或強度 率=2,構成比(proportion):又稱構成指標,它說明一事物內部各組成部分所占的比重或分布,常以百分數表示 構成比=3,相對比(relative ratio)亦稱比,是A,B 2個有關指標之比,說明A和B 的若干倍或百分之幾,是相對數的最簡單形式。A,B性質可相同可

35、不同。 相對比= 4,應用相對數時應注意的事項:(一) 計算相對數的分母不宜過小。(二) 分析時不能以構成比代替率。(三) 對觀察單位數不等的幾個率,不能直接用相加求其平均率。(四) 資料的對比應注意可比性。(五) 對樣本率(或構成比)的比較應遵循隨機抽樣,要做假設檢驗。(六) 區(qū)別清分子分母。5,率的u檢驗1),樣本率與總體率比較:目的是推斷樣本率所代表的總體率與某已知總體率是否相等。根據資料的不同情況,可以采用不同的假設檢驗方法:若很小,可用Poisson分布原理做檢驗;若不太靠近0或1時,可用二項分布原理做檢驗;當樣本含量n足夠大時,或且,二項分布逼近正態(tài)分布,可用u檢驗計算其樣本檢驗統

36、計量。 (6.1)式中p為樣本率,為已知總體率(常為理論值或標準值),n為樣本含量。2),兩樣本率比較:兩個樣本率作比較的目的是推斷兩個樣本各自代表的兩總體率是否相等,當兩個樣本滿足正態(tài)近似條件且樣本含量較大時,可用u檢驗,其公式: (6.2)式中、分別為兩個樣本率,、分別為兩樣本含量,為兩個樣本率之差的標準誤,為合并陽性率,、為兩個樣本陽性例數。四格表資料的檢驗適用于分類變量資料中推斷兩個或多個總體率(或構成比)之間有無差別,兩個分類指標之間有無相關關系的檢驗以及檢驗頻數分布的擬合優(yōu)度。 (6.3)式中A代表實際頻數,T代表理論頻數。格子理論頻數可用同樣方法求得,其計算公式為: (6.4)

37、(6.5)四格表資料的專用公式: (6.6) 式中a、b、c、d分別為四格表的實際頻數=a+b+c+d。四格表的值的校正。 當所有T5,n40時用上述公式; 當有1T40時,需進行連續(xù)性校正: (6.7) (6.7)或n=40,T=5,n=40,1T5, n40或T3.84,P40時:b+c3.84,P0.05,按=0.05檢驗水準,不拒絕H0,可以認為兩者的總體分布相同;若T值=界值或在界值范圍外,P25%),應校正:uc=?1.96,P0.05。按=0.05檢驗水準,拒絕H0,接受H1,可以認為兩的分布位置不同。非參數統計檢驗的適用條件:(1)資料不符合參數統計法的應用條件(總體為正態(tài)分布、且方差相等)或總體分布類型未知;(2)等級資料;(3)分布呈明顯偏態(tài)又無適當的變量轉換方法使之滿足參數統計條件;(4)在資料滿足參數檢驗的要求時,應首選參數法,以免降低檢驗效能。直線回歸方程的應用:(1)定量描述兩變量之間的依存關系;(2)利用回歸議程進行預測;(3)利用回歸議程進行統計控制。應用直線回歸的注意事項

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論