北京協(xié)和醫(yī)學(xué)院統(tǒng)計(jì)-定量資料的統(tǒng)計(jì)描述_第1頁
北京協(xié)和醫(yī)學(xué)院統(tǒng)計(jì)-定量資料的統(tǒng)計(jì)描述_第2頁
北京協(xié)和醫(yī)學(xué)院統(tǒng)計(jì)-定量資料的統(tǒng)計(jì)描述_第3頁
北京協(xié)和醫(yī)學(xué)院統(tǒng)計(jì)-定量資料的統(tǒng)計(jì)描述_第4頁
北京協(xié)和醫(yī)學(xué)院統(tǒng)計(jì)-定量資料的統(tǒng)計(jì)描述_第5頁
已閱讀5頁,還剩53頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

定量資料的統(tǒng)計(jì)描述主要內(nèi)容頻數(shù)分布集中趨勢離散趨勢被平均中國人公共假期每年已有115天;中國全國家庭平均住房面積116.4㎡;北京平均月薪9227元;中國男性平均身高174.2厘米;中國人平均生育1.18個(gè)孩子;中國家庭資產(chǎn)平均為121.69萬元,城市家庭平均為247.60萬元,農(nóng)村家庭平均為37.70萬元。變量和研究資料的類型數(shù)值變量、定量資料、計(jì)量資料分類變量、定性資料、計(jì)數(shù)資料順序變量、有序分類變量、等級資料定量資料定量資料是指每個(gè)觀察單位某個(gè)變量用測量或其他定量方法觀察結(jié)果,一般有計(jì)量單位。定量資料、數(shù)值資料、計(jì)量資料(measurementdata,quantitativedata,numericdata)定量資料的各個(gè)觀察值之間有量的區(qū)別,沒有性質(zhì)的不同。連續(xù)型資料和離散型資料連續(xù)型資料(continuousdata)

任何兩個(gè)連續(xù)型數(shù)據(jù)之間都有無窮多個(gè)數(shù)據(jù);只要測量儀器足夠精確,連續(xù)型數(shù)據(jù)可以精確到小數(shù)點(diǎn)后無限位。離散型資料(discretedata)

是一種計(jì)數(shù)(countdata),只能是0和正整數(shù),不會(huì)是負(fù)數(shù),也沒有小數(shù)點(diǎn),如心率、血小板數(shù)。有些離散型數(shù)據(jù)的描述要參照分類資料處理,如齲齒個(gè)數(shù)、流產(chǎn)次數(shù)、尿失禁次數(shù)、交通事故死亡人數(shù)。分類資料分類資料、也稱為定性資料、計(jì)數(shù)資料,是將觀察單位按某種屬性分組計(jì)數(shù)的定性觀察結(jié)果。分類資料的變量值只能代表事物的某些屬性或分類,表現(xiàn)為無不相容的類別或?qū)傩?。各觀察單位之間沒有量的區(qū)別,但有質(zhì)的不同。分類資料二分類資料如男或女;陽性或陰性;生存或死亡等。多分類資料無序多分類資料血型:A型、B型、O型和AB型;肺癌類型:腺癌、鱗癌、未分化癌、類癌等。有序多分類資料:即等級資料等級資料等級資料、也稱為有序多分類資料,是介于定量資料和定性資料之間的半定量觀察結(jié)果。等級資料的各個(gè)類別之間存在著大小和程度上的不同,但是不能精確地測量相鄰的兩個(gè)變量值之間的差別。療效:痊愈、有效、無效和惡化;文化程度:小學(xué)、中學(xué)、大學(xué)和研究生;抑郁癥的程度:輕度、中度和重度。隨機(jī)變量和研究資料的類型頻數(shù)分布表

當(dāng)觀察值很多時(shí),直接從原始數(shù)據(jù)很難得出概括的印象,為了解資料的分布特征,可通過資料的整理,編制頻數(shù)分布表,來顯示數(shù)據(jù)分布的范圍、數(shù)據(jù)最集中的區(qū)間和分布的形態(tài)。定量資料的頻數(shù)分布表編制頻數(shù)表就是把資料的取值范圍分割成若干個(gè)互不相交的組段,統(tǒng)計(jì)每個(gè)組段內(nèi)的觀察值個(gè)數(shù)作為對應(yīng)的頻數(shù),由各個(gè)組段的范圍及其頻數(shù)構(gòu)成最基本的頻數(shù)分布表。某地兒研所測得該地150名12歲健康男童體重(kg)原始數(shù)據(jù)如下,試編制頻數(shù)表。25.234.934.338.141.327.833.837.728.433.547.334.830.536.251.038.043.840.937.536.633.447.436.441.436.542.533.729.339.637.539.633.232.129.943.733.835.137.832.438.528.236.523.435.834.127.642.623.137.144.035.644.546.535.031.836.436.247.938.720.537.129.238.241.136.243.532.836.331.830.638.539.628.733.735.142.920.1

35.426.542.039.638.735.451.231.434.125.329.638.243.733.824.529.245.932.523.536.827.234.034.744.441.235.342.634.130.031.440.827.348.635.829.745.641.833.028.333.335.140.638.237.625.537.337.541.538.444.243.231.540.234.537.437.833.432.233.432.432.836.845.741.240.936.547.935.739.342.235.330.127.2

找出最大值和最小值,計(jì)算極差。極差(R)也叫全距,它是一組變量值中最大值與最小值之差。最大值為51.2kg,最小值為20.1kg,極差R=51.2-20.1=31.1kg。按極差大小決定組段數(shù)和組距經(jīng)驗(yàn)劃分:組段數(shù)的多少一般根據(jù)觀察單位的多少來確定,過多或過少均不能更好地反映資料的分布特征,以能夠反映頻數(shù)分布的特點(diǎn)為宜,一般分為8~15組。本例初步確定為10個(gè)組。按極差大小決定組段數(shù)和組距

相鄰組段下限值之差稱為組距,一般分組時(shí)取組距相等。組距≈極差/組數(shù),常取整數(shù)作組距,以方便資料的整理匯總。本例組距=31.1/10=3.11≈3。確定組段的上下限每個(gè)組段的起點(diǎn)稱“下限”,終點(diǎn)稱“上限”;第一組段必須包括最小值,一般取略小于最小值的整數(shù)作為第一組的下限,但是第一組的下限值一般不能等于最小值;各組段既不重疊,也不能留空隙;最后一個(gè)組段應(yīng)該包括最大值,并且封口。計(jì)算各組段的頻數(shù)、頻率本例最小值為20.1,故取20為第一組的下限。第二組下限即20+3=23,余類推。

最后一個(gè)組段為50~53,包括最大值51.2。列表劃記,統(tǒng)計(jì)各組段頻數(shù)。計(jì)算頻率與累計(jì)頻率。150名12歲男童體重(kg)頻數(shù)分布表

組段頻數(shù)f頻率(%)累計(jì)頻數(shù)累計(jì)頻率(%)20~21.321.323~74.796.026~106.71912.729~1510.03422.732~2516.75939.335~3523.39462.738~2315.311778.041~1812.013590.044~85.314395.347~53.314898.750~5321.3150100.0合計(jì)150100.0頻數(shù)分布圖(直方圖)頻數(shù)分布的類型

頻數(shù)分布分為對稱分布和偏態(tài)分布兩種。對稱分布:集中位置在正中,左右兩側(cè)頻數(shù)分布大體對稱。偏態(tài)分布:正、右偏態(tài)(峰)分布:集中位置偏于左側(cè),頻數(shù)尾部向右側(cè)延伸。負(fù)、左偏態(tài)(峰)分布:集中位置偏向右側(cè),頻數(shù)尾部向左側(cè)延伸。鏈球菌感染咽炎患者潛伏期分布圖(正偏峰分布)207例某惡性腫瘤患者年齡分布(負(fù)偏峰分布)分類資料和等級資料的頻數(shù)分布編制頻數(shù)分布表的方法是直接計(jì)算出每一個(gè)觀察值的頻數(shù)和頻率。分類資料的頻數(shù)分布圖為條圖(或稱柱狀圖,Barplot)。分類資料和等級資料的頻數(shù)分布A組B組合計(jì)N%N%婚姻狀況未婚2322.11817.341已婚8177.98682.7167孕次02524.02322.14811817.32524.04323634.63129.86731918.31615.435>365.898.715頻數(shù)表的用途

揭示定量資料的分布特征;描述定量資料分布的集中趨勢和離散趨勢。發(fā)現(xiàn)資料中遠(yuǎn)離群體的某些特大或特小的可疑值。定量資料的統(tǒng)計(jì)描述集中趨勢(平均水平)離散趨勢(變異程度)集中趨勢

平均數(shù)用來描述一組變量的集中趨勢,常作為一組資料的代表值,使資料產(chǎn)生簡明概括的印象,又便于組間的比較,也稱為位置度量指標(biāo)。均數(shù)(mean)幾何均數(shù)(geometricmean,G)中位數(shù)(median,M)均數(shù)均數(shù)是算術(shù)均數(shù)的簡稱,它反映了一組觀察值在數(shù)量上的平均水平。總體均數(shù)用希臘字母μ表示,樣本均數(shù)用表示。均數(shù)的計(jì)算

均數(shù)的計(jì)算方法有直接法和加權(quán)法,計(jì)算機(jī)運(yùn)算中多采用直接法。均數(shù)的計(jì)算直接法是將所有性質(zhì)相同的觀察值x1,x2,x3…xn,直接相加再除以觀察值的個(gè)數(shù)n。例:10名12歲健康男童體重(kg)分別為39.6,33.2,32.1,29.9,43.7,33.8,35.1,37.8,32.4,38.5,求平均體重。均數(shù)的計(jì)算加權(quán)法組中值:該組段下限和上限的均值,或該組段下限和下一個(gè)組段下限的均值。組中值組段組中值頻數(shù)f頻率(%)20~21.521.323~24.574.726~27.5106.729~30.51510.032~33.52516.735~36.53523.338~39.52315.341~42.51812.044~45.585.347~48.553.350~5351.521.3合計(jì)150100.0均數(shù)的計(jì)算均數(shù)的應(yīng)用

描述呈對稱分布的資料,特別是正態(tài)分布或者近似正態(tài)分布的資料的平均水平,此時(shí)均數(shù)位于分布的中心,最能反映分布的集中趨勢。幾何均數(shù)(G)用于描述等比級數(shù)資料和對數(shù)正態(tài)分布資料等的平均水平。幾何均數(shù)常適用于右偏態(tài)分布資料。幾何均數(shù)的計(jì)算直接法:是將n個(gè)觀察值x1,x2,x3…xn的乘積開n次方所得的根。加權(quán)法:幾何均數(shù)應(yīng)用的注意事項(xiàng)觀察值不能為0。因?yàn)?不能取對數(shù),也不能與任何其它數(shù)呈對數(shù)關(guān)系。可以把所有的變量值均加上一個(gè)較小的常數(shù),如加0.001。觀察值不能同時(shí)有正值和負(fù)值。若全是負(fù)值,計(jì)算時(shí)可把負(fù)號(hào)去掉,得出結(jié)果后再加上負(fù)號(hào)。中位數(shù)(M)中位數(shù)是將一組觀察值從小到大按順序排列,位次居中的數(shù)值對應(yīng)的觀察值就是中位數(shù)。全部觀察值中,大于和小于中位數(shù)的觀察值的個(gè)數(shù)相等。直接法計(jì)算中位數(shù)

將原始觀察值按大小順序排列:n為奇數(shù)時(shí),

n為偶數(shù)時(shí),

例:臨床觀察7名某病患者,其潛伏期(天)分別為:2,3,3,5,6,9,16,求其平均潛伏天數(shù)。M=5臨床觀察8名某病患者,其潛伏期(天)分別為:2,3,3,5,6,9,16,20求其平均潛伏天數(shù)。M=(5+6)/2=5.5百分位數(shù)法計(jì)算中位數(shù)

以第50位百分位數(shù)(X50)作為中位數(shù)。百分位數(shù)(percentile)是指把一組資料的全部觀測值分為兩部分,理論上講,有x%的觀測值比它小,有(100-x)%的觀測值比它大。百分位數(shù)的計(jì)算

L:該百分位數(shù)所在組段的下限;fp:該百分位數(shù)所在組段的頻數(shù);i:該百分位數(shù)所在組段的組距;ΣfL:小于L各組段的累計(jì)頻數(shù)。某醫(yī)師檢測120例鏈球菌感染咽炎患者咽痛至發(fā)熱出現(xiàn)的時(shí)間(小時(shí)),試計(jì)算中位數(shù)、第25、75百分位數(shù)。潛伏期病例數(shù)累計(jì)頻數(shù)累計(jì)頻率(%)12-221.724-202218.336-365848.348-288671.760-109680.072-810486.784-811293.396-411696.7108-4120100.0合計(jì)120中位數(shù)所在組段X25所在組段X75所在組段某醫(yī)師檢測120例鏈球菌感染咽炎患者咽痛至發(fā)熱出現(xiàn)的時(shí)間(小時(shí)),試計(jì)算中位數(shù)、第25、75百分位數(shù)。四分位數(shù)(quartile)X25:第一四分位數(shù)(Q1)、下四分位數(shù)(QL);X50:第二四分位數(shù)(Q2)、中四分位數(shù)(M);X75:第三四分位數(shù)(Q3)、上四分位數(shù)(QU);中位數(shù)的應(yīng)用中位數(shù)只受居中變量值波動(dòng)的影響,不受兩端特小值和特大值的影響。中位數(shù)常用于描述偏態(tài)分布或末端無確定數(shù)據(jù)時(shí)資料的平均水平。當(dāng)數(shù)據(jù)呈對稱分布時(shí),中位數(shù)和均數(shù)相近。當(dāng)數(shù)據(jù)呈右偏態(tài)分布時(shí),均數(shù)大于中位數(shù)。當(dāng)數(shù)據(jù)呈左偏態(tài)分布時(shí),均數(shù)小于中位數(shù)。百分位數(shù)的應(yīng)用

百分位數(shù)用于描述樣本或總體觀察值序列在某百分位置水平,多個(gè)百分位數(shù)結(jié)合應(yīng)用時(shí),可更全面地描述總體或樣本的分布特征,可用來確定醫(yī)學(xué)參考值范圍。由于位于中部的百分位數(shù)比較穩(wěn)定,所以最常用的百分位數(shù)是四分位數(shù),它有較好的代表性。離散程度指標(biāo)三組同性別、同年齡兒童的體重(kg)如下,分析其集中趨勢與離散趨勢。甲組2628303234Mean=30kgR=8S=3.16乙組2427303336Mean

=30kgR=12S=4.74丙組2629303134Mean

=30kgR=8S=2.91哪一組數(shù)值的均數(shù)更具代表性?離散程度指標(biāo)離散趨勢即個(gè)體值之間的變異程度,數(shù)據(jù)越分散,變異程度越高。極差四分位數(shù)間距方差標(biāo)準(zhǔn)差變異系數(shù)極差(range,R)極差也叫全距,最大值與最小值之差,反映個(gè)體差異的范圍。缺點(diǎn):由于計(jì)算極差時(shí)只采用了最大值和最小值,未考慮組內(nèi)其它數(shù)據(jù)的變異程度,因此用極差反映變異度不夠全面,穩(wěn)定性差;當(dāng)樣本例數(shù)增大時(shí),得到較大或較小觀察值的機(jī)會(huì)可能會(huì)變大,所以極差也可能更大。四分位數(shù)間距(quartilerange,QR)QR=Q3-Q1=X75–X25四分位數(shù)間距是居中的半數(shù)觀測值的全距,不受最大值和最小值的影響,比極差穩(wěn)定。實(shí)際工作中,常與中位數(shù)結(jié)合使用,描述偏態(tài)分布資料的分布特征。

缺點(diǎn):不能全面地反映所有觀察值的變異程度。離散趨勢指標(biāo)極差R離均差(xi-μ)離均差總和(xi)=0離均差平方和(xi)2

均方(方差)σ2=(xi)2/N

標(biāo)準(zhǔn)差四分位數(shù)間距QR樣本方差與樣本標(biāo)準(zhǔn)差實(shí)際工作

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論