醫(yī)學(xué)統(tǒng)計方法二復(fù)習(xí)要點_第1頁
醫(yī)學(xué)統(tǒng)計方法二復(fù)習(xí)要點_第2頁
醫(yī)學(xué)統(tǒng)計方法二復(fù)習(xí)要點_第3頁
醫(yī)學(xué)統(tǒng)計方法二復(fù)習(xí)要點_第4頁
醫(yī)學(xué)統(tǒng)計方法二復(fù)習(xí)要點_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、醫(yī)學(xué)統(tǒng)計方法(二)復(fù)習(xí)要點抽樣研究的目的就是通過樣本的信息了解總體的情況。個體是統(tǒng)計分析根據(jù)研究目的所確定的最基本的研究對象單位,所以個體又稱為觀察單位。同質(zhì)具有相同性質(zhì)的觀察單位稱為同質(zhì)的,否則,稱為異質(zhì)的。變量 就是觀察指標(biāo)。變量取值表示觀察值(或測量值)或?qū)?yīng)的觀察結(jié)果,亦稱資料(data)。資料分為計量資料和計數(shù)資料。有些計數(shù)資料可以認(rèn)為是分類資料:分類資料又分為有序分類和無序分類。 計量資料:亦稱連續(xù)型資料。在測量精度無限制的情況下,一個區(qū)間中的任意值都可以是可能的觀察值,并且通常計量資料含有測量單位。無序分類資料:表示互不相容的類別或?qū)傩?。包?a)二分類資料(b)多分類資料。顯然

2、X的取值僅是起指示分類的作用,其數(shù)值大小并無實際意義。無序分類資料的分析應(yīng)先按類統(tǒng)計匯總,統(tǒng)計每一類的觀察單位數(shù),并將按類匯總的統(tǒng)計結(jié)果編制成表格形式的資料,這種匯總后的資料又可稱為計數(shù)資料。有序分類資料:資料不僅表示互不相容的類別而且表示各類在研究背景意義下的等級順序,因此具有“半定量”意義。所以觀察有序分類變量所得資料又稱為等級資料。有些觀察指標(biāo),例如白細(xì)胞計數(shù),其取值雖然是離散的,但不具有分類的性質(zhì),因此通常把這類觀察指標(biāo)的資料作為較為特殊的計量資料。總體(population) 是根據(jù)研究目的確定同質(zhì)個體的全體??傮w分為有限總體(finite population)和無限總體(infi

3、nite population)。樣本 在一個較大范圍的研究對象中隨機抽出一部分個體進(jìn)行觀察或測量,這些個體的測量值構(gòu)成的集合稱為樣本(sample),樣本中的個體總數(shù)稱為樣本量(sample size)。頻率(frequency):考察某個可能的結(jié)果,若在n次觀察中,有m次觀察到這種可能的結(jié)果,則稱這種可能的結(jié)果發(fā)生的比例為頻率,m稱為頻數(shù)。顯然有。頻率f是一個隨機抽樣觀察的結(jié)果,因此頻率f呈一定的隨機波動。概率(probability):概率刻畫隨機事件發(fā)生可能性大小,其取值界于0和1之間。隨機事件發(fā)生的可能性越小,概率越接近0;隨機事件發(fā)生的可能性越大,概率越接近1。特別,不可能事件發(fā)生

4、的概率等于0,必然事件發(fā)生的概率等于1。概率與頻率的關(guān)系:A是一個隨機事件,進(jìn)行了n次隨機試驗,隨機事件A發(fā)生了m次,則隨機事件A發(fā)生的頻率為,當(dāng)時,隨機事件A發(fā)生的頻率趨向一個常數(shù)p,這個常數(shù)p就是隨機事件A發(fā)生的概率。記為P(A)。在統(tǒng)計學(xué)中,如果隨機事件發(fā)生的概率小于或等于0.05,則認(rèn)為是一個小概率事件,表示該事件在大多數(shù)情況下不會發(fā)生,并且一般認(rèn)為小概率事件在一次隨機抽樣中不會發(fā)生,這就是小概率原理。小概率原理是統(tǒng)計推斷的基礎(chǔ)。如果資料近似呈對稱分布,則用 均數(shù)±標(biāo)準(zhǔn)差 描述如果資料呈偏態(tài)分布,則用 中位數(shù)(P25P75)其中P25,P75為百分位數(shù)中的第25百分位數(shù)和第7

5、5百分位數(shù)。正態(tài)分布的兩個參數(shù)m 與 s ,參數(shù)m 是正態(tài)總體的均數(shù),它描述了正態(tài)分布的集中趨勢位置。參數(shù)s 是正態(tài)總體的標(biāo)準(zhǔn)差,它描述正態(tài)分布的離散程度,s 越小,分布越集中, s 越大,分布越離散。不同的、不同的,對應(yīng)于不同的正態(tài)分布。通常用記號表示均數(shù)為,標(biāo)準(zhǔn)差為的正態(tài)分布。若m0,s1的正態(tài)分布稱為標(biāo)準(zhǔn)正態(tài)分布。記為N(0,1)。標(biāo)準(zhǔn)正態(tài)分布是一種特殊的正態(tài)分布,其均數(shù)為0,標(biāo)準(zhǔn)差為1。常用u或z表示標(biāo)準(zhǔn)正態(tài)分布變量。變換: (2.19)被稱為是標(biāo)準(zhǔn)化變換,因為若變量X服從正態(tài)分布,則就服從標(biāo)準(zhǔn)正態(tài)分布。樣本均數(shù)與總體均數(shù)之間的差異被稱為均數(shù)的抽樣誤差(sampling error)。

6、抽樣誤差是由個體變異和抽樣引起的,因此,只要有個體變異,抽樣就必將導(dǎo)致抽樣誤差,即抽樣誤差是不可避免的。抽樣誤差有兩種表現(xiàn)形式,其一是樣本統(tǒng)計量與總體參數(shù)間的差異,其二是樣本統(tǒng)計量間的差異。隨著樣本含量的增大,樣本均數(shù)的頻數(shù)圖范圍越來越窄。樣本均數(shù)的總體標(biāo)準(zhǔn)差。為了區(qū)分樣本所在總體的標(biāo)準(zhǔn)差,通常稱樣本均數(shù)的標(biāo)準(zhǔn)差為樣本均數(shù)的標(biāo)準(zhǔn)誤(簡稱均數(shù)標(biāo)準(zhǔn)誤),記為。故樣本均數(shù)與個體資料所在的總體變異程度有如下規(guī)律:用樣本標(biāo)準(zhǔn)差S估計總體標(biāo)準(zhǔn)差s,利用上述公式得到均數(shù)標(biāo)準(zhǔn)誤的估計式 為了敘述方便,常稱為標(biāo)準(zhǔn)誤,稱為理論標(biāo)準(zhǔn)誤。小樣本時,t統(tǒng)計量和U統(tǒng)計量的分布是有明顯差別的,但在大樣本時,t統(tǒng)計量和U統(tǒng)計

7、量的分布非常接近。t分布與正態(tài)分布的關(guān)系:自由度v較小時,t分布與標(biāo)準(zhǔn)正態(tài)分布相差較大,并且t分布曲線的尾部面積大于標(biāo)準(zhǔn)正態(tài)分布曲線的尾部面積。當(dāng)自由度時,t分布逼近于標(biāo)準(zhǔn)正態(tài)分布。從頻數(shù)圖(圖3.4)也可以看出,當(dāng)樣本量較大時,同樣可以發(fā)現(xiàn)統(tǒng)計量t的頻數(shù)圖與標(biāo)準(zhǔn)正態(tài)分布曲線非常接近,而當(dāng)樣本含量較小時,統(tǒng)計量t的分布與標(biāo)準(zhǔn)正態(tài)分布則有所區(qū)別:即t統(tǒng)計量的峰值比標(biāo)準(zhǔn)正態(tài)分布的峰值略小,雙側(cè)尾部的值則較標(biāo)準(zhǔn)正態(tài)分布略大。t統(tǒng)計量并記為由于t分布僅與總體均數(shù)有關(guān),與總體標(biāo)準(zhǔn)差無關(guān),因此在統(tǒng)計檢驗中得到廣泛應(yīng)用。樣本均數(shù)隨機地出現(xiàn)總體均數(shù)兩側(cè)附近,樣本均數(shù)的離散程度與樣本量有關(guān),也與原始資料的離散程

8、度有關(guān)可信區(qū)間的涵義如果重復(fù)在同一總體隨機抽樣100次,樣本含量相同,每個樣本均按同一方法構(gòu)建95可信區(qū)間,則理論上平均有95個可信區(qū)間包含了總體均數(shù),還有5個可信區(qū)間未包含總體均數(shù)??傮w參數(shù)是未知參數(shù),但它是一個固定的值,而不是隨機變量值。因此區(qū)間估計中,不能理解為:總體參數(shù)有95的可能落在該區(qū)間內(nèi);也不能理解為:有95的總體參數(shù)在該區(qū)間內(nèi),而5的參數(shù)不在該區(qū)間內(nèi),因為相應(yīng)的總體參數(shù)只有一個。對于同一樣本,當(dāng)然還可以構(gòu)造99%的可信區(qū)間或可信度更大的可信區(qū)間,但是隨著可信度增大,而區(qū)間的寬度增大,即:區(qū)間估計的精確性下降。事實上,可信度可以理解為區(qū)間估計的準(zhǔn)確度,對于同一樣本而言,準(zhǔn)確度越高

9、,可信度就越低;反之準(zhǔn)確度越低,可信度就可以越高。所以在實際應(yīng)用中,一般用95%的可信區(qū)間進(jìn)行參數(shù)區(qū)間估計。考察抽樣結(jié)果在假設(shè)成立的情況下是否為小概率事件。在假設(shè)檢驗中,若H0是真實的,拒絕H0是錯誤的統(tǒng)計推斷,并稱犯I型錯誤(typeerror)或稱第一類錯誤,犯I類錯誤的概率就是檢驗水平a,而不拒絕H0是正確的統(tǒng)計推斷;若H0不是真實的,拒絕H0是正確的統(tǒng)計推斷,而不拒絕H0是錯誤的統(tǒng)計推斷,并稱為犯II型錯誤(typeIerror)或稱犯第二類錯誤,犯II類錯誤的概率記為b。綜述第一類錯誤的概率與第二類錯誤的概率關(guān)系為:在同樣的情況下,第一類錯誤a減小會導(dǎo)致第二類錯誤b增大;第一類錯誤的

10、概率增大可以使第二類錯誤的概率減小。因此在一般的情況下,a通常取0.05,但根據(jù)一些特殊的研究需要和目的,a可以取更大一些或更小一些。如果即要減小第一類錯誤a又要增大檢驗效能1b,則可以通過增大樣本量來實現(xiàn)。符號秩檢驗的基本思想:當(dāng)H0(差值的總體中位數(shù))成立時,任一配對的差值出現(xiàn)正號與出現(xiàn)負(fù)號的機會均等,因此他們的秩和與的理論數(shù) (期望值)也應(yīng)相等,由T+T-=可知,與的理論數(shù)??梢宰C明:當(dāng)H0真時,秩統(tǒng)計量T是對稱分布,對稱軸為T=(如圖8.1),在大多數(shù)情況下T與的差值較小(純屬抽樣誤差)。當(dāng)n很大時,T近似服從均數(shù)mT為,方差為的正態(tài)分布。H0非真時,統(tǒng)計量T呈偏態(tài)分布(如圖8.2),

11、并且在大多數(shù)情況下T遠(yuǎn)離。因此在H0成立的情況下T遠(yuǎn)離為小概率事件,可認(rèn)為在一次抽樣中是不會發(fā)生的,故當(dāng)出現(xiàn)這種情況時推斷拒絕H0。T檢驗與秩和檢驗的比較:在H0成立的情況下,配對和成組t檢驗和秩和檢驗拒絕H0的機會均為a(第一類錯誤的概率)。在H0不成立的情況下,配對t檢驗拒絕H0的概率要高于配對符號秩檢驗拒絕H0的概率(即:配對t檢驗的第二類錯誤的概率b要小)。在H0不成立的情況下,成組的t檢驗拒絕H0的概率要高于成組秩和檢驗拒絕H0的概率(即:t檢驗的第二類錯誤的概率b要小)。但在H0不成立的情況下,并不是每份計量資料的t檢驗的P值低于秩和檢驗的P值。綜合上述,資料若能滿足t檢驗的條件,

12、盡可能用t檢驗,不能滿足的情況下,只好用秩和檢驗。方差分析只能得出均數(shù)之間是否相同的結(jié)論,如果結(jié)論是均數(shù)不全相同的結(jié)論,還不能具體說明哪兩個均數(shù)之間的差異是否有統(tǒng)計學(xué)意義。因此需用進(jìn)一步組間兩兩比較,以確定那些組之間確有差異。兩兩比較有許多方法,此處近介紹兩種方法:lsd方法和Bonferroni方法方差分析與t檢驗的關(guān)系對于成組設(shè)計的兩組均數(shù)比較,可以用成組t檢驗,也可以用完全隨機設(shè)計的方差分析,可以證明t2=F,t的自由度正好為方差分析中的組內(nèi)自由度,結(jié)果和結(jié)論完全是一致的,但是t檢驗可以做單側(cè)假設(shè)檢驗,也可以做雙側(cè)假設(shè)檢驗;而方差分析只能做雙側(cè)假設(shè)檢驗。對于1:1配對設(shè)計的均數(shù)比較問題,

13、可以用配對t檢驗,也可以用隨機區(qū)組設(shè)計的方差分析,同樣可以證明t2=F,t的自由度正好為方差分析中的組內(nèi)自由度,結(jié)果和結(jié)論完全是一致的,同理配對t檢驗可以做單側(cè)假設(shè)檢驗,也可以做雙側(cè)假設(shè)檢驗;但方差分析只能做雙側(cè)假設(shè)檢驗。方差分析的基本思想是按照研究設(shè)計類型,將所有觀察值的離均差平方和分解成幾個部分,總的自由度也分解成相應(yīng)的幾個部分,其中有一個部分表示隨機誤差,其他部分表示處理或區(qū)組因素的變異。每個部分的離均差平方和除以自由度就是均方,將處理或區(qū)組因素的均方除以誤差的均方,就得到檢驗統(tǒng)計量F。根據(jù)F分布的特性,如果F<F,1,2,就有理由接受H0,說明各組均數(shù)的差異無統(tǒng)計學(xué)意義;反之,若

14、FF,1,2,則拒絕H0,說明各組均數(shù)的差異有統(tǒng)計學(xué)意義。方差分析可用于多種實驗設(shè)計類型的數(shù)據(jù)分析,本章只介紹了方差分析在完全隨機設(shè)計資料和隨即區(qū)組設(shè)計資料中的應(yīng)用,主要檢驗各樣本均數(shù)是否來自同一總體。通過Stata軟件來完成運算分析時,可用oneway命令進(jìn)行完全隨機設(shè)計資料的方差分析,用anova命令進(jìn)行隨機區(qū)組設(shè)計資料的方差分析。用t檢驗進(jìn)行多組均數(shù)的比較會增大犯第一類錯誤的概率。直線相關(guān)系數(shù)(linear correlation coeffiecient)又稱積差相關(guān)系數(shù)(coefficient of product moment correlation),簡稱相關(guān)系數(shù)(correla

15、tion coeffiecient),是描述兩個變量之間線性相關(guān)的程度和相關(guān)方向的統(tǒng)計指標(biāo)。描述全體研究對象的兩個變量之間線性相關(guān)性(即相關(guān)程度和相關(guān)方向)的相關(guān)系數(shù)稱為總體相關(guān)系數(shù),用符號r(讀作ru)表示;描述樣本資料的兩個變量之間的線性相關(guān)性的相關(guān)系數(shù)為樣本相關(guān)系數(shù),用符號r表示。分別是變量X、Y的離均差平方和。r的符號由確定,相關(guān)系數(shù)r是一個沒有單位的統(tǒng)計指標(biāo),其取值范圍為1£ r £ 1,同樣,總體相關(guān)系數(shù)r也是沒有單位的,并且取值范圍也為1£ r £ 1。相關(guān)系數(shù)大于0表示正相關(guān);小于0表示負(fù)相關(guān);等于0表示零相關(guān)。相關(guān)系數(shù)的絕對值越接近1,

16、兩個變量的線性相關(guān)程度越密切;相關(guān)系數(shù)越接近0,兩個變量的線性相關(guān)越不密切。b為回歸系數(shù)(regression coefficient),或稱為斜率(slope);a稱為常數(shù)項(constant),或稱為截距(intercept)?;貧w系數(shù)b表示X變化一個單位Y平均變化b個單位。因此b>0時,大多數(shù)的Y隨著X增大而增大;b<0時,大多數(shù)的Y隨著X增大而減??;對于Y是隨機變量,其均數(shù)mY|X滿足公式(9.6)的回歸方程并且b¹0,則稱Y與X有直線回歸關(guān)系。若b0,則稱X與Y沒有直線回歸關(guān)系。直線相關(guān)與回歸小結(jié):1、 Pearson相關(guān)系數(shù)r的假設(shè)檢驗要求資料服從雙變量正態(tài)分布;2、 相關(guān)系數(shù)的假設(shè)檢驗為H0:r0 vs H1:r¹0,對應(yīng)的研究問題是兩個變量的線性相關(guān)問題;3、 不滿足雙變量正態(tài)分布的資料可以進(jìn)行spearman秩相關(guān)分析;4、 直線回歸的基本思想是找一條直線方程估計Y的總體均數(shù)與X之間的線性變化關(guān)系;5、 直線回歸

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論