版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、第一章 緒論統(tǒng)計的三大特征:實用性、豐富性、公平性總體(population):l 是根據(jù)研究目的確定的、同質(zhì)的全部研究對象中所有觀察單位某種變量值的集合。l 同質(zhì)基礎:時間、空間、條件等l (1)有限總體(finite population):有限觀察單位l (2)無限總體(infinite population):很多為無限總體。樣本l 根據(jù)隨機化原則從總體中抽取的一定數(shù)量(sample size)的個體,稱為樣本(sample),用樣本信息來推斷總體特征。l 從總體中抽取部分個體的過程稱為抽樣(sampling)。同質(zhì)(homogeneity)l 是指影響被研究指標的非實驗因素相同。變異
2、(variation, variablility )l 同質(zhì)基礎上的各觀察單位(亦稱為個體)之間的差異為變異。如同性別、同年齡、同民族、同地區(qū)兒童的身高有高有低,稱為身高的變異。參數(shù)(parameter)和統(tǒng)計量(statistic)l 總體的統(tǒng)計指標稱為參數(shù)。如:總體均數(shù)(µ),總體發(fā)病率,總體死亡率,等,l 樣本的統(tǒng)計指標稱為統(tǒng)計量如:樣本均數(shù)(x),樣本發(fā)病率,樣本死亡率,等,l 統(tǒng)計學上用不同的符號表示。誤差(error) 觀察值與實際值的差異,成為誤差。分為:過失誤差;系統(tǒng)誤差;隨機測量誤差;隨機抽樣誤差;(1)過失誤差(mistaken error):過失所致的誤差(不認
3、真,錯誤判斷,記錄等原因);(2)系統(tǒng)誤差(systematic error):儀器未校準所致的誤差(統(tǒng)一偏高,或偏低);這兩類誤差可以避免。(3)隨機測量誤差(random measurement error):不同觀察者或同一觀察者多次觀察值的不相同。 這種誤差不可避免。(4)抽樣誤差(sampling error):總體中存在個體變異,抽樣研究中所抽取的樣本,只包含總體中一部分個體,因而樣本均數(shù)(或率)往往不等于總體均數(shù)(或率),表現(xiàn)為多次抽樣的樣本均數(shù)或率不同。這種由抽樣引起的差異稱為抽樣誤差。抽樣誤差愈小,用樣本推斷總體的精確度愈高;反之,其精確度愈低。由于生物的個體變異是客觀存在的
4、,因而抽樣誤差是不可避免的,但抽樣誤差有一定的規(guī)律性。小概率事件定理:“小概率事件一次抽樣不可能發(fā)生” 變量及變量值l 變量(variable):觀察對象的特征或指標。對變量進行取值所采用的工具或標準成為測量尺度(scale)。l 測量的結果稱為變量值(value of variable) 或觀察值(observed value, measurements)。隨機化(randomization)使總體中的每個個體有均等的機會成為樣本觀察單位的過程,稱為隨機化。l 隨機抽樣旨在避免人的主觀性,讓機遇起作用,以反映總體的客觀情況。常用:抽簽法,隨機數(shù)目表法,計算器隨機數(shù)法;單純隨機抽樣(simpl
5、e random sampling):總體全部觀察單位編號,再用隨機數(shù)字法或抽簽法;整群抽樣cluster sampling:直接由若干個群組成的總體中隨機抽取若干個群,再對被抽取的每個群的全部觀察單位加以調(diào)查。系統(tǒng)抽樣systematic sampling:( 間隔抽樣,機械抽樣)先將總體觀察單位按某順序號分成n個部分,再從第一部分抽第k號觀察單位,依次用此相等間隔機械地從每一部分各抽一個觀察單位組成樣本。分層抽樣stratified sampling:先按某種特征將總體分為若干組別、類型、區(qū)域,再從每一層內(nèi)隨機抽樣,組成樣本。l 抽樣誤差:分層抽樣<系統(tǒng)抽樣<單純隨機抽樣<
6、;整群抽樣第二章 統(tǒng)計資料的收集和整理一、資料的類型根據(jù)是否定量劃分:(1)計量資料(measurement data)用定量方法測量每個觀察單位的某項指標,所得的數(shù)值資料為計量資料,亦稱數(shù)值變量資料。一般有度量衡單位。 常用:平均數(shù),標準差,t檢驗,方差分析,相關與回歸 等分析。(2)計數(shù)資料(enumeration data)將觀察單位按某種屬性或類別分組,然后清點各組的觀察單位數(shù),為計數(shù)資料(亦稱分類變量資料,無序分類資料)。常用:率、構成比、卡方檢驗等(3)等級資料 (ranked data) 將觀察單位按某種屬性的不同程度分組,所得各組的觀察單位數(shù)為等級資料,亦稱有序分類資料。常用:
7、率、構成比、秩和檢驗等。三者聯(lián)系:等級資料與計數(shù)資料不同:屬性的分組有程度差別,各組大小順序排列;等級資料與計量資料不同:每個觀察單位未確切定量,稱為半定量資料。介于計量資料與計數(shù)資料之間。計量資料 計數(shù)資料 等級資料調(diào)查設計和實驗設計調(diào)查設計一般包括專業(yè)設計和統(tǒng)計設計。實驗設計(experiment design) 醫(yī)學實驗的基本要素包括處理因素、受試對象和實驗效應三部分。實驗設計應遵循對照(空白對照,試驗對照,安慰劑對照,配對對照,組間對照)、隨機、重復(即樣本例數(shù))的原則 。頻數(shù)分布表(frequency distribution table)l 用途:(1)揭示頻數(shù)的分布特征:兩個重要
8、特征:l 集中趨勢(central tendency):數(shù)值高低不等,但中等水平的人數(shù)最多。l 離散趨勢(tendency of dispersion):數(shù)值之間參差不齊;逐漸變大(或變?。┑娜藬?shù)漸少。向兩端分散。第三章 計量資料的統(tǒng)計描述集中趨勢central tendency平均數(shù)(average):用于描述數(shù)值變量資料的集中趨勢(平均水平)。特點:簡明概括,便于比較。包括:算術平均數(shù),幾何平均數(shù),中位數(shù),百分位數(shù)1、算術平均數(shù)(arithmetic mean)一組變量值之和除以變量值個數(shù)所得的商,簡稱均數(shù)??傮w均數(shù)µ,樣本均數(shù)x表示。適用條件:資料成正態(tài)分布(或近似正態(tài),或對稱
9、分布)。計算方法:直接法,加權法均數(shù)的兩個重要屬性:(1)各離均差(各觀察值與均數(shù)之差)的總和等于零。(2)離均差的平方和小于各個觀察值X與任何數(shù)a(a 不等于均數(shù))之差的平方和。均數(shù)是一組觀察值理想的代表值。均數(shù)的應用:(1)只能在合理分布的基礎上,對同質(zhì)事物求均數(shù)才有意義,才能反映事物的特性。(2)均數(shù)最適用于對稱分布,尤其是正態(tài)分布資料。此時,均數(shù)位于分布的中央,能反映觀察值的集中趨勢。2、幾何均數(shù)geometric mean G將n個觀察值的乘積再開n次方的方根(或各觀察值對數(shù)值均值的反對數(shù))。適用條件: (1)觀察值為非對稱分布,差距較大,用算術均數(shù)表示其平均水平會受少數(shù)特大或特小值
10、影響;(2)數(shù)值按大小順序排列后,各觀察值呈倍數(shù)關系或近似倍數(shù)關系。如:抗體滴度,藥物效價等;(3)觀察值不能有0;(4)觀察值不能同時有正值和負值。幾何均數(shù)的應用:(1)常用于等比級數(shù)資料,滴度,效價,衛(wèi)生事業(yè)平均發(fā)展速度,人口幾何增長,對數(shù)正態(tài)分布資料;(2)同一組資料求得的幾何均數(shù)小于算術均數(shù)。3、中位數(shù)(median, M) :位于中間位置上的數(shù)值。把一組觀察值,按大小順序排列,位置居中的變量值(奇數(shù)個)或位置居中的兩個變量值的均值(偶數(shù)個)。是位置指標,以中位數(shù)為界,將觀察值分為兩半,有一半比它大,一般比它小。適用于:(1)資料偏態(tài)分布;(2)兩端無確定數(shù)值;(3)資料分布不清楚;如
11、:潛伏期,毒物測定值等用中位數(shù)表示其集中趨勢。5、百分位數(shù)(percentile, P):位于某個百分位置上的數(shù)值。把一組數(shù)據(jù)從小到大排列,分成100等份,各等份含1%的觀察值,處在分割界線上的數(shù)值,就是百分位數(shù),Pr 表示。百分位數(shù)將總體或樣本的全部觀察值分為兩部分,理論上有r%的觀察值比它小,有(100-r)%的觀察值比它大。如含量為n的樣本,P5即表示:理論上有n5%個觀察值比P5小,有n95%個觀察值比P5大。一般說,分布中部的百分位數(shù)相當穩(wěn)定,具有較好代表性,靠近兩端的百分位數(shù),只在樣本含量足夠大時,才穩(wěn)定,故,樣本量不夠大時,不應取太近兩端的百分位數(shù)。常用的百分位數(shù):5,25,75
12、,95 分位數(shù)。百分位數(shù)常用于確定醫(yī)學正常值范圍(normal range)。中位數(shù)是特定的百分位數(shù)。四者的比較:中位數(shù)常用于描述偏態(tài)分布資料的集中趨勢,它反映居中位置的變量值的大小。不受特大,特小值的影響,只受位置居中的觀察值的影響,因而不夠敏感。而均數(shù),幾何均數(shù)是由全部觀察值綜合計算出的,敏感性好。但理論上,中位數(shù)等于算術均數(shù)。百分位數(shù)常用于描述一組資料在某百分位置上的水平和分布特征。多個百分位數(shù)結合使用,可更全面地描述總體或樣本的分布特征,包括位置大小和變異度。離散趨勢tendency of dispersion常用指標:全距,四分位數(shù)間距,方差,標準差,變異系數(shù)1、全距(Range):
13、極大與極小值之差。全距大,資料離散程度大,但易受極端值大小的影響。樣本量越大,抽到極端值的可能性越大,全距可能會越大。故:全距不宜單獨使用。2、四分位數(shù)間距(quartile interval Q):將一組資料分為四等份,上四分位數(shù)P75和下四分位數(shù)P25之差,叫四分位數(shù)間距。意義:Q越大,離散程度越大,通常用于描述偏態(tài)分布資料的離散程度。優(yōu)點:比全距穩(wěn)定;若資料一端或兩端無確切數(shù)值,只能選擇Q作為離散指標。缺點:未考慮全部觀察值,不能全面反映資料離散趨勢。3、方差(variance)和標準差(standard deviation SD)對總體而言,為了克服極差和四分位數(shù)間距的缺點,要描述資料
14、的離散趨勢,必須考慮到各個觀察值,離均差的平方和是最好的指標,意義:方差,標準差越大,變異程度越大。其值越小,觀察值的離散度越小,用均數(shù)反映平均水平的代表性越好。標準差應用:(1)反映一組觀察值的離散程度: 數(shù)值單位相同:直接比較標準差; 數(shù)值單位不同:計算變異系數(shù);變異系數(shù)(coefficient of variation, CV) 也稱離散系數(shù)(coefficient of dispersion)標準差與均數(shù)之比用百分數(shù)表示。公式:常用于比較度量單位不同或均數(shù)相差懸殊的資料的變異。同時考慮了均數(shù)和標準差,更客觀。比如:身高,體重的變異比較(2)估計變量值的頻數(shù)分布:(3)計算標準誤(4)估
15、計醫(yī)學正常值范圍:雙側:均數(shù)± 1.96倍標準差(95%)單側:均數(shù)± 1.645倍標準差(95%)正態(tài)分布(normal distribution)概念: 頻數(shù)分布以均數(shù)為中心,左右兩側基本對稱,靠近均數(shù)兩側頻數(shù)較多,離均數(shù)愈遠,頻數(shù)愈少,形成一個中間多,兩側逐漸減少的對稱分布。是一種連續(xù)型分布。又稱高斯分布. 正態(tài)分布用N(µ ,)表示,其位置與均數(shù)有關,形狀與標準差有關。標準正態(tài)分布:為了應用方便,常將式進行變量變換,即:u變換. 所得到的新變量u的分布即為標準正態(tài)分布。u的含義:變量到均數(shù)間的距離相當于標準差的倍數(shù)。u變換后,=0,=1,使原來的正態(tài)分布變
16、換為標準正態(tài)分布(standard normal distribution)亦稱u分布。正態(tài)分布的特征和分布規(guī)律:簡答 (1)曲線在x軸的上方,與x軸不相交,當x=時,曲線位于最高點。 f(u=0)=0.3989(2)曲線關于直線x=左右對稱。(3)正態(tài)分布有兩個參數(shù):均數(shù),標準差;標準正態(tài)的參數(shù)分別為:0, 1。(4)正態(tài)分布的面積分布有一定規(guī)律。正態(tài)曲線下面積的分布規(guī)律正態(tài)曲線下,橫軸上一定區(qū)間的面積,等于該區(qū)間的頻數(shù)發(fā)生的概率(即所有隨機事件發(fā)生的概率)。正態(tài)曲線下面積的分布規(guī)律的應用:一、確定醫(yī)學參考值范圍意義:是正常人指標測定值的波動范圍,可用于劃分正常,或異常。步驟:1、抽樣 2、
17、控制測量誤差 3、取單側或雙側 4、選定合適的百分界限 5、資料正態(tài)性檢驗 6、進行參考值估計補充:常用方法:正態(tài)分布法(正態(tài)分布),對數(shù)正態(tài)分布法(對數(shù)正態(tài)分布或近似正態(tài)分布),百分位數(shù)法(偏態(tài)分布)二、確定概率分布三、質(zhì)量控制第四章 均數(shù)的抽樣誤差和 t分布一、均數(shù)的抽樣誤差和標準誤均數(shù)的抽樣誤差sampling error of mean由于總體中存在個體變異,抽樣研究中所抽取的樣本,只包含總體中一部分個體,因而樣本均數(shù)(或率)往往不等于總體均數(shù)(或率),樣本均數(shù)之間也互不相等,這種由抽樣引起的差異稱為均數(shù)的抽樣誤差。用樣本均數(shù)的標準差來估計,稱標準誤(standard error)。即
18、總體標準差和樣本例數(shù)的比值,通常以樣本標準差作為總體標準差的估計值標準誤越大,均數(shù)的抽樣誤差越大,樣本均數(shù)與總體均數(shù)間的差異越大。S區(qū)別簡答是方差的平方根。說明一組數(shù)據(jù)在其周圍的分散情況(變異程度)。反映對這組數(shù)值的代表性。是均數(shù)的標準差。 說明一組均數(shù)在“均數(shù)的均數(shù)”(總體均數(shù))周圍的分散情況。反映用樣本均數(shù)代表總體均數(shù)的可靠性。表示抽樣誤差的大小。標準誤的應用1、用來衡量抽樣誤差的大小: 標準誤越小,樣本均數(shù)與總體均數(shù)越接近,樣本均數(shù)的可信度越高;2、結合標準正態(tài)分布與 t 分布曲線下的面積規(guī)律,估計總體均數(shù)的置信區(qū)間。3、用于假設檢驗。二、t 分布(t-distribution) 標準化
19、的均數(shù)的分布t分布曲線特征簡答: t分布是一簇對稱于0的單峰分布曲線。 自由度越?。ㄏ喈斢跇藴什畲螅€的中間越低,兩邊越高;隨自由度增大, t分布曲線逐漸逼近于標準正態(tài)分布曲線。 當自由度無窮大時, t分布就是標準正態(tài)分布曲線。 每一條t分布曲線,都對應于相應的自由度。t分布曲線下的面積規(guī)律:與標準正態(tài)曲線下的面積規(guī)律相似: 在某一個自由度下,兩側外部總面積為5%的界限的t值稱為t0.05/2(),把兩側外部總面積為1%的界限的t值稱為t0.01/2()。 因此,中部占95%面積的t值范圍:t0.05/2()- t0.05/2(),中部占99%面積的t值范圍:t0.01/2()- t0.0
20、1/2()。使用t值表注意: 同一自由度下, P越小,t值越大;P值相同時,自由度越大,t越小;當自由度無窮大時,t值與u值相等。這也是u分布與t分布的區(qū)別。t分布的主要應用: 總體均數(shù)置信區(qū)間估計; t檢驗;三、總體均數(shù)置信區(qū)間的估計 統(tǒng)計推斷:參數(shù)估計,假設檢驗 參數(shù)估計: 點估計(point estimation):用樣本統(tǒng)計量作為對總體參數(shù)的估計值() 。比如均數(shù)的估計。 區(qū)間估計(interval estimation):根據(jù)選定的置信度估計總體均數(shù)所在的區(qū)間(a< <b) . a, b 為置信限(可信限)。置信度(confidence level): 在估計總體均數(shù)的置
21、信區(qū)間時,如果可能估計錯誤的概率為 ,那么估計正確的概率為1- , 即為置信度. 常用: 95%, 99%.置信區(qū)間(confidence interval, CI) 根據(jù)置信度估計得到的區(qū)間,稱為置信區(qū)間。區(qū)間兩端的界限值即置信限置信區(qū)間估計方法: 1、總體標準差已知參照u分布 2、總體標準差未知,樣本例數(shù)(>50)足夠大,也可參考u分布進行 3、總體標準差未知,樣本例數(shù)較小,按t分布原理,依據(jù)自由度,查出某個概率相應的t界值95%置信區(qū)間的意義: 理論上,用一次抽樣所得的樣本均數(shù)估計總體均數(shù),犯錯誤的概率為5%. 或進行100次抽樣,可算得100個置信區(qū)間,平均有95個置信區(qū)間包括客
22、觀存在的總體均數(shù),只有5個置信區(qū)間未包括總體均數(shù)。置信區(qū)間與正常值范圍:簡答95%正常值范圍一般是指同質(zhì)總體內(nèi)包括95%個體值的估計范圍,若總體為正態(tài)分布95%置信區(qū)間是指按照95%置信度估計的總體參數(shù)的可能范圍,常按照下式計算。 前者用標準差,后者用標準誤。第五章 假設檢驗,u, t-檢驗假設檢驗基本思想: 先對總體的參數(shù)或分布作出某種假設,如假設總體均數(shù)(或總體率)為一定值,兩總體均數(shù)(或總體率)相等,總體服從正態(tài)分布或兩總體分布相同等。 然后,用適當方法根據(jù)樣本對總體提供的信息,推斷此假設應當拒絕或不拒絕。其結果將有助于研究者作出決策,采取措施假設檢驗步驟:簡答1、建立檢驗假設和設定檢驗
23、水準無效假設(null hypothesis) H0:假設差異僅由抽樣誤差所致,而兩個總體參數(shù)相同。是從反證法的思想提出的。備擇假設(alternative hypothesis), H1: 即差別不僅是由抽樣誤差所致,而且總體參數(shù)不同。H1是和H0相聯(lián)系的,對立的假設。確定檢驗水準(size of a test) 也叫顯著性水準(significance level):用表示。即:拒絕了實際上成立的H0的概率;一般取0.05,或0.01. 2、計算統(tǒng)計量根據(jù)研究設計類型,資料特征,統(tǒng)計方法的適用條件,選擇和計算統(tǒng)計量。3、確定概率P值,作出統(tǒng)計推斷結論計算統(tǒng)計量后,判斷在H0成立條件下,出現(xiàn)
24、該統(tǒng)計量或更大統(tǒng)計量的概率。如果P大于,是接受H0的區(qū)間;如果大于或等于界值的范圍,P小于或等于,是拒絕H0的區(qū)間。雙側,單側檢驗:比較及選擇原則,單選或簡答根據(jù)專業(yè)知識, 可能大于,也可能小于 0,稱雙側檢驗;若認為大于、等于不可能小于 0(或相反),為單側檢驗。若不能確定單側的情況,應采用雙側檢驗。 在同一t值的界限上單側檢驗的概率僅相當于雙側檢驗概率的一半。因此,總體均數(shù)間確有差別時,單側檢驗比雙側檢驗更易得出差別有統(tǒng)計意義的結論。對同一資料進行檢驗,有可能雙側檢驗無統(tǒng)計意義而單側檢驗有統(tǒng)計意義。但用單側還是雙側檢驗,必須事先根據(jù)專業(yè)知識予以確定,不能等到計算完t值以后再主觀選定 選擇原
25、則: 雙側檢驗永遠是正確的 單側檢驗只有在少數(shù)情況下才是合適的 即使要做單側檢驗,也必須事先確定 單側檢驗:有某種傾向時使用; 雙側檢驗:沒有任何傾向;第一類錯誤與第二類錯誤簡答-比較選擇 假陽性錯誤(false positive error),統(tǒng)計上稱為第一類錯誤(type I error),用表示。 即無效假設(H0:u=u0)是正確的,但被拒絕,誤判為有差別(棄真錯誤)。統(tǒng)計學上定P0.05為有意義,即在統(tǒng)計推斷上允許犯假陽性錯誤的概率為5%。當無效假設正確時,在100次抽樣中,可以有5次推斷是錯誤的。同樣,如果定P0.01為有意義,即犯假陽性錯誤的概率為1%。故統(tǒng)計學上有意義的界限實際
26、上就是允許犯第一類錯誤的界限。 假陰性錯誤(false negative error),統(tǒng)計學上稱為第二類錯誤(type II error)。 即無效假設(H0:u=u0)不正確,實際上應是H1:uu0,但算得的統(tǒng)計量t沒有超過t0.05的水平從而接受了無效假設,錯誤地得出無差別的結論(取偽錯誤)。用b表示。I類錯誤:雖然無效假設為真,但由于抽到了較大(檢驗統(tǒng)計量)的樣本,使得P值小于檢驗水準而導致被拒絕。II類錯誤:雖然無效假設為假,但由于抽到了較小(檢驗統(tǒng)計量)的樣本,使得P值大于檢驗水準而導致不被拒絕。第一類錯誤減小,第二類錯誤的概率就增大了。 選擇統(tǒng)計學意義水平,應考慮兩類錯誤對所要研
27、究事物的影響哪一個重要。一般來說,定0.05為有統(tǒng)計學意義的水平是比較適宜的。其他條件不變,增大樣本含量可使第二類錯誤的概率減小。同時正確的實驗設計能夠減少抽樣誤差,提高檢驗效能。P值的正確理解選擇簡答P值是指在無效假設的前提下,得到觀察到的量(或更極端的量)的概率。P值越小說明無效假設越不可靠?;蛘哒f,P值越小就越有理由推翻無效假設。至于P值是否屬于“小”,一般根據(jù)事先確定的檢驗水準a來判斷的。P值的大小與觀察到的量的大小之間沒有必然的聯(lián)系。實際差別與統(tǒng)計學意義簡答 統(tǒng)計學意義:如果總體均數(shù)相同,抽到這樣大統(tǒng)計量的可能性很小,可以拒絕 H0。但并不意味兩總體均數(shù)差別很大。 樣本量很大時,即使
28、均數(shù)差別不大,統(tǒng)計學意義卻顯著。 樣本小時,即使均數(shù)差別很大,統(tǒng)計學意義卻不顯著。u檢驗和t檢驗簡答兩者比較:u檢驗條件: 總體標準差已知,資料服從正態(tài)分布情況下(1)樣本均數(shù)與總體均數(shù)比較(2)兩大樣本均數(shù)的比較;t檢驗條件:用于樣本量小、總體標準差未知時(1)樣本與總體均數(shù)比較(2)配對設計資料比較(3)兩樣本均數(shù)比較(同時要求兩樣本的總體方差相同,服從正態(tài)分布)配對資料:配對設計:兩樣本中的觀察值由于存在某種聯(lián)系而一一對應結成對子(matching)的情況.常用配對方式:簡答 1、同一受試對象處理前后的比較:高血壓治療前后的血壓值,或每一名病人有一對數(shù)據(jù); 2、同一對象身體不同部位測定值
29、比較:如左右臂皮膚的敏感試驗,測得紅斑直徑; 3、同一樣品兩種不同方法測定結果:兩種儀器,兩名化驗員,兩種條件等; 4、成對設計:動物配對后隨機分到兩組后的測定結果;第六章 方差分析(一)概念,思想,應用,變異分解概念:方差分析是檢驗兩個或兩個以上樣本均數(shù)間差別無統(tǒng)計意義的統(tǒng)計檢驗方法。前提條件:各組總體均數(shù)為正態(tài)分布,方差齊。方差分析的基本思想是:將所有測量值間的總變異按照其變異的來源分解為多個部份,然后進行比較,評價由某種因素所引起的變異是否具有統(tǒng)計學意義。方差分析主要用于:1、均數(shù)差別的顯著性檢驗 2、分離各有關因素并估計其對總變異的作用 3、分析因素間的交互作用,4、方差齊性檢驗。優(yōu)點
30、:1、不受對比組數(shù)的限制; 2、可同時分析多個因素作用; 3、可分析因素間的相互作用; 4、靈敏度高; 5、結論較準確均方:變異程度除與離均差平方和的大小有關外,還與其自由度有關,由于各部分自由度不等,因此各部分離均差平方和不能直接比較,須將各部分離均差平方和除以相應自由度,其比值稱為均方差,簡稱均方(mean square,MS)。MS組內(nèi):組內(nèi)均方,l組內(nèi)/n組內(nèi)MS組間:組間均方, l組間/n組間總變異(total variation):全部測量值Xij與總均數(shù) 間的差異 å(xij-x)2,v=N-1=nk-1組間變異( between group variation ):各
31、組的均數(shù)Xi 與總均數(shù)間的差異 å n(xi-x )2, v=k-1組內(nèi)變異(within group variation ):每組的每個測量值Xij與該組均數(shù)的差異å(xij-xi)2, v=k(n-1)F值:FMS組間/MS組內(nèi)F界值:F0.05(n1,n2) F³ F0.05(n1,n2), p£0.05公式是在H0成立的條件下進行的,即MS組間與MS組內(nèi)差別應該很小, F值應該接近于1。均數(shù)間的相互比較Student-Newman-Keuls(SNK-q 檢驗)法:適用于任意兩組間進行比較Dunnett-t 檢驗:適用于多個實驗組與同一個對照組的
32、比較LSD-t 檢驗:稱最小顯著性差異t 檢驗,適用于對多組中某一對或幾對在專業(yè)上有特殊意義的均數(shù)進行比較。 三種方法是一致的,但并非等價,實際應用中應根據(jù)設計選取,不可多種方法一起使用,然后選取有利的結果。拉丁設計定義:對于兩個以上的標志進行方差分析,而且各種標志的水平數(shù)相同,采用拉丁方設計。其優(yōu)點是可以從較少的實驗數(shù)據(jù),獲取較多的信息。但設計要求各因素的水平數(shù)必須相等,在實際應用時有一定局限性。而且,當各因素間有交互作用時,該設計不合適。拉丁方是以拉丁字母排列的方陣的簡稱。方差齊性檢驗多個方差齊性的Bartlett 法此外,Levene 檢驗法對原數(shù)據(jù)是否為正態(tài)不靈敏,比較穩(wěn)健,也常常采用
33、。方差分析中的數(shù)據(jù)轉換:選擇或簡答(1) 平方根轉換x´=Ö x 當x<10時, x´=Ö x 1 或x´=Ö x 1/2常用于服從普哇松分布的資料(方差隨均數(shù)而變;二項分布中方差隨率變化)(2) 平方根反正弦轉換二項分布中率的比較, x´=arc sin Ö x (3) 對數(shù)轉換對于均數(shù)與標準差呈正比關系的資料x´=lgx 或 x´=lg(x1) (x>0)方差分析(二)概念及方差分析表當實驗的處理是由兩個或兩個以上的因素,每個因素至少有兩個水平的全面組合時,稱之為析因實驗。一、2
34、´2析因實驗(factorial experiment)設計兩個因素,每個因素有兩個水平的實驗設計。單獨效應:是指其它因素的水平固定時,同一因素不同水平間的差別。主效應:指某一因素各水平間的平均差別。交互效應:某因素的各個單獨效應隨另一因素水平的變化而變化,且相互間的差別超出隨機波動的范圍時,稱者兩個因素間存在交互作用或效應。如果AB兩因素的聯(lián)合效應不等于A與B的單獨效應之和,則A,B存在交互效應,若大于則有協(xié)同作用,若小于則為拮抗作用。二、2×2×2析因設計 是指有三個因素,每個因素有兩個水平的實驗設計。第七章 直線回歸與相關(1) 依存關系:應變量(depen
35、dent variable)Y隨自變量(independent variable)X變化而變化。 回歸分析(2) 互依關系: 應變量Y與自變量 X間的彼此關系 相關分析第一節(jié) 直線回歸 ( linear regression 線性回歸)1直線回歸的概念:直線回歸是分析兩變量間線性依存變化的數(shù)量關系。2. 函數(shù)關系與回歸關系:前者是確定關系,后者是不確定關系直線回歸的任務:就是找出一條最能描述變量間非確定性數(shù)量關系的一條直線,此直線為回歸直線,相應的直線方程稱為直線回歸方程( linear regression equation)。對資料的要求:自變量 x :正態(tài)總體中的隨機變量或指定變量 因變
36、量 y :服從正態(tài)分布的隨機變量標準估計誤差各實際值Y與估計值 有一定的誤差,稱為估計誤差。各實際點與回歸線縱軸方向的離散程度,可以用類似求標準差的式子進行計算,即標準估計誤差a b的意義:考a 為回歸直線在 y 軸上的截距,即與Y軸交點的縱坐標(X0)。b 為回歸系數(shù),即回歸直線的斜率;其統(tǒng)計學意義是 x 增加(減)一個單 位,y 平均變動 b 個單位b>0,Y隨X的增大而增大(減少 而減少) 斜上; b<0,Y隨X的增大而減小(減少 而增加) 斜下; b=0,Y與X無直線關系 水平。 b越大,表示Y隨X變化越快,直線越陡峭。3直線回歸方程參數(shù)的計算最小二乘法原則 (least
37、square method):使各實際散點(Y)到直線()的縱向距離的平方和最小。即使(殘差或剩余值)最小殘差(residual)或剩余值,即實測值Y與假定回歸線上的估計值的縱向距離 回歸系數(shù)的檢驗方法:方差分析法各種變異分解-重點 SS總,的離均差平方和(total sum of squares),未考慮與的回歸關系時的總變異。 SS剩,為剩余平方和(residual sum of squares),對的線性影響之外的一切因素對的變異,即總變異中,無法用解釋的部分。SS剩越小,回歸效果越好。 SS回,為回歸平方和(regression sum of squares),由于與的直線關系而使變異
38、減小的部分,即總變異中,可以用解釋的部分。SS回越大,回歸效果越好。 t檢驗法 S b 為樣本回歸系數(shù)標準誤;S yx 為剩余標準差同一組資料作直線相關與回歸時 tb 與 tr 等值回歸系數(shù)的標準誤 b為總體回歸系數(shù)b 的估計值,其誤差為Sb 決定系數(shù):回歸平方和與總平方和之比,大小反映了回歸貢獻的相對程度,也就是在Y的總變異中回歸關系所能解釋的百分比。總體回歸線的95%置信帶,與個體y值比較即µ (x=xi)的可信區(qū)間方差由Y 及 b (x - x)的方差兩部分構成個體Yi 值的范圍預測與總體回歸線比較直線回歸方程的應用描述兩變量的依存數(shù)量關系利用回歸方程進行預測利用回歸方程進行控
39、制第二 直線相關 ( linear correlation )簡單相關(simple correlation),用于雙變量正態(tài)分布資料。進行直線相關分析的基本任務在于根據(jù)x、y的實際觀測值計算表示兩個相關變量x與y線性相關程度和性質(zhì)的統(tǒng)計指標相關系數(shù)r,并進行顯著性檢驗。 1直線相關的概念 直線相關是研究兩變量 x、y 之間協(xié)同變化的線性關系 的分析方法。2對資料的要求 x、y 都是正態(tài)分布資料的隨機變量。3相關系數(shù) (correlation coefficient ,r ) * 表示方法: -1 £ r £ 1意義:描述兩個變量直線相關的方向與密切程度的指標。4、直線回歸
40、與直線相關的聯(lián)系與區(qū)別簡答區(qū)別:1)意義直線回歸反映兩變量的依存關系;直線相關反映兩變量的相互關系。2)對資料的要求直線回歸:自變量是正態(tài)總體的隨機變量或指定變量,y 一定是正態(tài)總體的隨機變量;直線相關:兩變量均為正態(tài)總體的隨機變量。聯(lián)系:1)同一組資料的 r 與 b 的正負符號是一致的;2)同一組資料的 r 和 b 的假設檢驗結果是一致的,即 t r = t b。3)兩變量間有相關關系,不一定有因果關系;但兩變量間有因果關系,一定有相關關系。第三節(jié) Spearman 秩相關適用資料: 不服從雙變量正態(tài)分布 總體分布類型未知 原始數(shù)據(jù)用等級表示等級相關系數(shù)r
41、s(即Spearman Correlation Coefficient)反映兩變量間相關的密切程度與方向 第八章 相對數(shù)計數(shù)資料的統(tǒng)計描述一、常用相對數(shù)(relative number) 1、比( ratio)又稱對比指標或相對比,表示兩個有聯(lián)系的同類指標之比,常用倍數(shù)或百分數(shù)表示。2、比例(proportion)又稱構成指標,表示某一事物內(nèi)部各組成部分所占的比重或分布,常用百分數(shù)表示。、率(rate):又稱頻率指標,表示某現(xiàn)象發(fā)生的頻率或強度,比例基數(shù)用k表示,據(jù)習慣定,一般至少保留12為整數(shù)。包括%、1/萬、1/10萬二、 醫(yī)學中常用的相對數(shù)指標1、醫(yī)學人口統(tǒng)計指標(1)人口總數(shù)(2)人口
42、構成(3)人口生育 自然增長率粗出生率粗死亡率(4)人口死亡 粗死亡率(總死亡率) mortality rate2、反映疾病發(fā)生水平的頻率指標(疾病統(tǒng)計指標)重點發(fā)病率 ( incidence rate)某病發(fā)病率(一定時期某病新發(fā)生的病例數(shù)/同時期內(nèi)可能發(fā)生某病的人口數(shù))´K(1) 時期:指觀察所包括的時間范圍,通常為年或月;(2)新發(fā)生的病例數(shù):指第一次發(fā)生某種疾病,以第一次就診為準。(3)可能發(fā)生“某病”:指存在發(fā)生某病的危險性和條件(流行病學上為暴露人群)。患病率(prevalence rate) 指在某時點接受醫(yī)學檢查時,可能發(fā)生某病的全體受檢人群中被發(fā)現(xiàn)的某病病人現(xiàn)患新、
43、舊病例數(shù)。某病患病率(檢查時發(fā)現(xiàn)的某病現(xiàn)患病例數(shù)/ 該時點受檢人口數(shù))´K適用于病程較長的疾病的統(tǒng)計,反映某種疾病在一定人群中流行的規(guī)模或水平病死率(fatality)某病死亡率(觀察期間內(nèi)因某病死亡人數(shù)/同期某病病人總數(shù))´ K三、應用相對數(shù)應注意的問題簡答l 1,計算率和構成比的分母不宜過?。悍駝t樣本率不穩(wěn)定,易造成錯覺;l 2,不要將構成比作率分析;l 3,求平均率時不能直接將幾個率相加求其合并率或平均率,而應以總發(fā)生數(shù)除以總可能發(fā)生例數(shù)。l 4,應注意資料的可比性資料是否存在偏性當內(nèi)部結構不同的相對數(shù)間進行比較時,若比較合計率,應計算標準化率。率的抽樣誤差與標準誤l
44、 率的抽樣誤差:由抽樣造成的樣本率和總體率的差別稱為率的抽樣誤差。率的總體標準誤用sp表示 sp的樣本估計值為率的樣本標準誤sp 總體率的區(qū)間估計當np³5和n(1-p)³5時,樣本率p近似服從均數(shù)為p、標準誤為sP的正態(tài)分布,當總體率未知時, sp用估計值sp取代 總體率的假設檢驗(u檢驗)l 適用條件:1. 適用于一個樣本率與一個總體率的比較,或兩個樣本率間的比較。而不能用于多個率或構成比資料的比較;2. 要求樣本量較大, 一般np與n(1-p)均大于5,率的分布近似于正態(tài)分布。率的標準化直接,間接比較,標準選擇1. 標準化法(Standardization)的意義當比
45、較兩個總率時,如果兩組內(nèi)部某種能影響指標水平的重要特征的構成上有差別,往往造成總率的升高或下降,影響兩個總率的對比;因此要設法消除其內(nèi)部構成的差異,使之能合理地進行比較,所用的方法稱為標準化法。標準化法即在一個指定的標準構成條件下進行率的比對的方法。目的:采用統(tǒng)一的標準構成以消除內(nèi)部構成不同對總率的影響,使標準化后的標準化總率具有可比性。(1).選擇標準人口:a. 應選擇有代表性、較穩(wěn)定的、數(shù)量較大的人群b. 將比較的兩組(或多組)的人口數(shù)合并作為標準組c. 選其中一組(選人口數(shù)較多組)作為標準組、直接法:以標準人口構成與實際的年齡組別死亡率求得一個調(diào)整死亡率。2、間接法:采用標準年齡組別死亡
46、率與相互比較的兩組年齡組別人口數(shù)計算求得的死亡率。第九章 卡方檢驗(一)概念: 檢驗兩組(或幾組)率或構成比差異是否有統(tǒng)計意義(樣本量不限)。行與列兩個順序變量之間是否相關??ǚ綑z驗的基本思想反映了實際頻數(shù)和理論頻數(shù)吻合的程度。如果檢驗假設成立,則實際頻數(shù)與理論頻數(shù)之差一般不會很大,出現(xiàn)大的卡方值的概率是很小的基本公式: n =(R-1)(C-1)X2檢驗的專用公式法連續(xù)性較正公式: 條件:當四格表中有任一格子理論數(shù)1T<5,同時總例數(shù)n40, 配對四格表資料x2檢驗 配對四格表資料的關聯(lián)性分析 四格表精確檢驗法條件:四格表資料中若 n<40,或有任一格子理論數(shù)T<1。基本思
47、想: 是在周邊合計數(shù)不變的條件下,表格中實際頻數(shù)各種組合的概率。P值=所有小于等于樣本點概率的各種組合的概率之和. 行× 列表資料的x2檢驗適用條件:l 當 R>2 or C>2l 兩個以上的率的比較l 兩個或多個構成比的比較l 按兩種屬性分類的頻數(shù)表資料的關聯(lián)性分析計算公式:行× 列表分類資料的關聯(lián)性分析Pearson列聯(lián)系數(shù)r : 列聯(lián)表卡方檢驗的注意事項:(1) R*C 表中4/5以上格子的理論數(shù)應該>5; 假設1/5以上格子理論數(shù)小于,a. 增加實驗樣本含量b. 相鄰行或列數(shù)字合并;C.刪除所在行或列的數(shù)據(jù)D.直接計算概率(2) x2 檢驗的結果接
48、受1時僅提示所比較的各組總體來說有差別,但不能表示其間任一兩者間有差別,也不表示差別的強度 (3)對于順序變量,用秩和檢驗更合適卡方檢驗(二)多個樣本率間的多重比較Bonferroni法: 行乘列表資料的分類和相應檢驗目的及方法:A、對于雙向無序行乘列表資料若研究目的為多個樣本率(或構成比)的比較,可用行列表資料的檢驗;若研究目的為分析兩個分類變量之間有無關聯(lián)性以及關系的密切程度時,可用行列表資料的檢驗以及Pearson列聯(lián)系數(shù)進行分析。 B、單向有序行乘列表資料 有兩種形式一種是表資料中的分組變量(如年齡)是有序的,而指標變量(如傳染病的類型)是無序的。其研究目的通常是分析不同年齡組各種傳染
49、病的構成情況,此種單向有序表資料可用行列表資料的檢驗進行分析。另一種情況是表資料中的分組變量(如療法)為無序的,而指標變量(如療效按等級分組)是有序的(列為順序變量)。其研究目的為比較不同療法的療效,此種單向有序表資料宜用行平均分檢驗或秩轉換的非參數(shù)檢驗進行分析。C、雙向有序屬性相同的行乘列表資料 資料中的兩個分類變量皆為有序且屬性相同。實際上是配對四格表資料的擴展,即水平數(shù)3或以上的配伍資料,如用兩種檢測方法同時對同一批樣品的測定結果。其研究目的通常是分析兩種檢測方法的一致性,此時宜用一致性檢驗或稱Kappa檢驗。D、雙向有序屬性不同的行乘列表資料資料中兩個分類變量皆為有序的,但屬性不同,對
50、于該類資料,若研究目的為分析不同年齡組患者療效之間有無差別時,可把它視為單向有序表料,選用秩轉換的非參數(shù)檢驗;若研究目的為分析兩個有序分類變量間是否存在相關關系,宜用行列平均分檢驗計算或等級相關分析(spearman等級相關)或Pearson積矩相關分析。 若研究目的為分析兩個有序分類變量間是否存在線性變化趨勢,宜用有序分組資料的線性趨勢檢驗。E、多層列聯(lián)表的分析 -Mantel-Haenszel Analysis分層分析,按資料多來源(多中心,多地區(qū)),性別,年齡等分層校正。多層2´ r:分層分析時,每層有一個2´ r表形成多層2 ´ r表。求校正的c2SMH加
51、權c2檢驗 -(率的Cochran檢驗)內(nèi)部構成不同的兩個率差別的統(tǒng)計意義檢驗,用此法最合適!第十章 二項分布與普哇松分布三種分布的比較二項分布:從陽性率為的總體中隨機抽取許多大小為n的樣本,則出現(xiàn)陽性數(shù)為x(x=0,1,2,3,n)的樣本的分布呈二項分布。二項分布的條件:1、 各事件是相互獨立的2、 各事件是相互排斥的,適于非遺傳,非傳染性疾病二項分布的形態(tài):當陽性率0.5時,分布是對稱的;當0.5時,分布是偏態(tài)的,但n增大時可趨于對稱;1、n > 50且np和n(1-p)均5時(同率utest),二項分布近似正態(tài)分布: 1)可信區(qū)間:可用p±1.96Sp 2) 樣本率與總體
52、率,樣本率之間的比較用utest2、一般當n<5時,二項分布是偏的,不能用以上方法二項分布的應用:1、 計算概率大小,判斷療效2、 求總體率的可信區(qū)間:n<50且 np 和n(1-p)均<5時,須用二項分布法求可信區(qū)間3、 研究家族聚集性:各戶居民家屬中實際病例數(shù)X的分布與按二項分布公式求得的理論病例數(shù)的分布一致(P>0.05),則不能認為該病具有家族聚集性。普哇松分布是指單位時間,單位空間或單位容積中顆粒數(shù)或某罕見事件發(fā)生數(shù)的概率分布。條件:各事件是相互獨立的與二項分布的比較:(1) 當總體比例很小,樣本含量n趨向于無窮大時(重復次數(shù)n>100,每次出現(xiàn)概率&l
53、t;0.01),二項分布趨向于Poission分布;(2) 兩種分布均要求各事件是相互獨立的,均屬離散型分布特征:1、 Poission分布的方差等于其平均數(shù)2=,表示Poission分布變量的變異程度2、 Poission分布的特征取決于其平均數(shù),平均數(shù)越大(>50),Poission分布越接近正態(tài)分布。(二項,Poission,正態(tài)三角) 二項分布 正態(tài)分布n>100, but p<0.01 均數(shù)越大 (>50) Poisson分布3、 可加性:如果x1,x2,xn是從Poission分布總體中(可以是相同或不同的總體)隨機抽取的樣本中的計數(shù),則它們之和也服從Poi
54、ssion分布;4、 總數(shù)的分布也屬Poission分布:每小格的計數(shù)是Poission分布,共有400個格子計數(shù)。若以此400格為一單元進行觀察,則每400格的計數(shù)的分布也屬Poission分布??傮w均數(shù)的可信區(qū)間:1、 當樣本計數(shù)x50時,用Poission分布法即查表法2、 當x50時,用近似正態(tài)分布法(1.96,2.58)計數(shù)差別的檢驗:1、 樣本計數(shù)與總體計數(shù):(1)較小時,Poission分布確切概率法(2)較大時(>50),近似正態(tài)法 ; 2、 兩樣本計數(shù)(不同情況采用不同公式):(1)時間或體積單位相同;又包括x1,x2>20和x1,x2(5,20)(2)時間或體積單位不同第十一章 非參數(shù)檢驗參數(shù)檢驗:以特定的總體分布為前提,對總體參數(shù)進行假設檢驗的一類檢驗方法非參數(shù)檢驗:與參數(shù)檢驗比較,及優(yōu)缺點是一種不依賴于總體分布的具體形式的統(tǒng)計方法,其比較的是分布,而不是參數(shù),不受總體參數(shù)的影響。非參數(shù)檢驗的優(yōu)點:(1) 適用范圍廣:適用于任意分布分布不明,偏態(tài),方差不齊,半定量資料,數(shù)據(jù)一端無界限資料(2) 收集資料方便:可使用“等級”,“符號”等評定結果(3) 有較好的穩(wěn)健性缺點:對適用參數(shù)檢驗的資料,采用非參數(shù)檢驗,則會損失信息,在小樣本時降低檢驗效能Power(即檢驗出相同大小的差異需要較多例數(shù))配對資料:符號等級檢驗
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度文化娛樂產(chǎn)業(yè)財務風險防范合同3篇
- 2025年度高端住宅小區(qū)消防系統(tǒng)委托維護合同3篇
- 2025版綠化工程后期養(yǎng)護與病蟲害防治合同匯編4篇
- 二零二五版房產(chǎn)抵押貸款貸后風險評估與風險防控服務合同2篇
- 蘭州2025版學生宿舍租賃合同模板(含押金管理)3篇
- 二零二五年度建設工程合同爭議解決與和解協(xié)議2篇
- 二零二五年度綠色包裝箱設計與生產(chǎn)合同3篇
- 二零二五年度婚紗定制店轉讓合同:含婚紗設計及生產(chǎn)技術協(xié)議3篇
- 2025年度現(xiàn)代化碼頭設計與施工合同范本4篇
- 二零二五年度智慧路燈系統(tǒng)集成服務合同范本4篇
- 2024版智慧電力解決方案(智能電網(wǎng)解決方案)
- 公司SWOT分析表模板
- 小學預防流行性感冒應急預案
- 肺癌術后出血的觀察及護理
- 生物醫(yī)藥大數(shù)據(jù)分析平臺建設-第1篇
- 基于Android的天氣預報系統(tǒng)的設計與實現(xiàn)
- 沖鋒舟駕駛培訓課件
- 美術家協(xié)會會員申請表
- 聚合收款服務流程
- 中石化浙江石油分公司中石化溫州靈昆油庫及配套工程項目環(huán)境影響報告書
- 搞笑朗誦我愛上班臺詞
評論
0/150
提交評論