醫(yī)學(xué)數(shù)據(jù)挖掘第二章_第1頁(yè)
醫(yī)學(xué)數(shù)據(jù)挖掘第二章_第2頁(yè)
醫(yī)學(xué)數(shù)據(jù)挖掘第二章_第3頁(yè)
醫(yī)學(xué)數(shù)據(jù)挖掘第二章_第4頁(yè)
醫(yī)學(xué)數(shù)據(jù)挖掘第二章_第5頁(yè)
已閱讀5頁(yè),還剩99頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第二章臨床醫(yī)學(xué)數(shù)據(jù)采集與分析徐娟Email:生物信息教研室分子學(xué)館108辦公室大綱數(shù)據(jù)概念、結(jié)構(gòu)數(shù)據(jù)的預(yù)處理數(shù)據(jù)的統(tǒng)計(jì)描述及廣義知識(shí)挖掘挖掘關(guān)聯(lián)知識(shí)1)數(shù)據(jù)的概念數(shù)據(jù)(data)是對(duì)客觀事物特征狀態(tài)的記錄。如某類藥物的使用量、床位使用率、心率、血壓等生理參數(shù)數(shù)據(jù)是信息和知識(shí)的載體;信息和知識(shí)才是真正有意義的。2)數(shù)據(jù)的結(jié)構(gòu)數(shù)據(jù)對(duì)象(或數(shù)據(jù)記錄)一個(gè)樣本的數(shù)據(jù)記錄對(duì)應(yīng)表格的一行特征屬性表格的每一列TidRefundMaritalStatusTaxableIncomeCheat1YesSingle125KNo2NoMarried100KNo3NoSingle70KNo4YesMarried120KNo5NoDivorced95KYes6NoMarried60KNo7YesDivorced220KNo8NoSingle85KYes9NoMarried75KNo10NoSingle90KYes10Attributes也稱為:變量、指標(biāo)、字段、特征、維Objects屬性值字段名一條記錄的所有屬性的結(jié)合描述了這個(gè)具體對(duì)象的特征腎衰病人預(yù)后研究的臨床資料記錄病人編號(hào)病案號(hào)性別年齡生理評(píng)分腎毒性黃疸昏迷肌酐膽固醇腎功能預(yù)后1004757男2614無(wú)有無(wú)520—治愈2007950女3113無(wú)無(wú)無(wú)5234.5治愈3011093男5517無(wú)無(wú)無(wú)2093.3治愈4017555男259無(wú)無(wú)無(wú)13034.1治愈┇┇┇┇┇┇┇┇┇┇┇274279183女8815有無(wú)無(wú)3316.1喪失標(biāo)識(shí)變量分析變量自變量(解釋變量)反應(yīng)變量3)數(shù)據(jù)的類型數(shù)據(jù)連續(xù)定量(數(shù)值)離散定性(分類)無(wú)序二分類多項(xiàng)分類有序(半定量或等級(jí))3.1)定量數(shù)據(jù)研究對(duì)象的指標(biāo)(X)表現(xiàn)為有數(shù)字大小和單位的數(shù)據(jù),又稱計(jì)量數(shù)據(jù).連續(xù)性數(shù)據(jù)(Continuous

Data)身高值

(cm)

:1.65,1.70

,

1.58

…..體重值

(kg):

52,55,61…..不連續(xù)性數(shù)據(jù)(Discrete

Data)如疾病的復(fù)發(fā)次數(shù)、年齡、學(xué)習(xí)成績(jī)等。3.2)定性數(shù)據(jù)定性數(shù)據(jù)(Qualitative

Data)或稱分類數(shù)據(jù)

(Categorical

Data)變量值表現(xiàn)為按某屬性劃分的定性類別分類數(shù)據(jù)的分層大于2時(shí),又稱為多分類數(shù)據(jù)。定性數(shù)據(jù)類型有無(wú)序和有序。無(wú)序數(shù)據(jù)(Nominal

Categorial)二分類:如性別(男、女)、多分類:血型(A、B、O、AB型)等。有序數(shù)據(jù)(Ordinal

Categorieal)如腫瘤的分級(jí)(I級(jí)、II級(jí)、III級(jí))、疼痛的程度(輕、中、重)等,以及在臨床研究設(shè)計(jì)中,經(jīng)??吹降摹胺浅:?、好、一般、差”這樣的數(shù)據(jù)類型。3.3)數(shù)據(jù)類型的轉(zhuǎn)換以正常參考值或臨床診斷標(biāo)準(zhǔn)作為分組依據(jù)。年齡資料是計(jì)量資料,但可以按大于65歲、45~65歲、小于45歲分為老、中、青年3類而轉(zhuǎn)變?yōu)榈燃?jí)資料某些定量指標(biāo)尚無(wú)公認(rèn)的正常參考值,可根據(jù)均數(shù)或四分位間距值,將其分為兩組或四組。根據(jù)數(shù)據(jù)的分布特點(diǎn)和研究需要,自行確定,但要能對(duì)統(tǒng)計(jì)分析結(jié)果做出合理的解釋。簡(jiǎn)單、數(shù)據(jù)量減少數(shù)據(jù)的類型是可以轉(zhuǎn)換的切割值法定量數(shù)據(jù) 定性或等級(jí)數(shù)據(jù)-X臨床醫(yī)學(xué)原始資料臨床醫(yī)學(xué)原始資料的收集方式直接觀察法:包括體檢標(biāo)本檢測(cè)等。采訪法:面訪、調(diào)查會(huì)及信訪電話訪問等4)臨床數(shù)據(jù)的特點(diǎn)不完整性大綱數(shù)據(jù)數(shù)據(jù)的預(yù)處理數(shù)據(jù)質(zhì)量、結(jié)構(gòu)化整理數(shù)據(jù)的統(tǒng)計(jì)描述及廣義知識(shí)挖掘挖掘關(guān)聯(lián)知識(shí)2.1)數(shù)據(jù)質(zhì)量數(shù)據(jù)質(zhì)量問題:噪聲(Noise)離群點(diǎn)(outliers

)遺漏值(missing

values

)重復(fù)數(shù)據(jù)(

duplicate

data

)(內(nèi)源性)隨機(jī)誤差儀器、方法的不一

致,選擇對(duì)象偏倚、測(cè)量偏倚未知眾多微小因素所引起數(shù)據(jù)的變異,如抽樣誤差。不能避免,有統(tǒng)計(jì)學(xué)規(guī)律性可控制和縮?。ㄍ庠葱裕┓请S機(jī)誤差/系統(tǒng)誤差過失誤差研究者操作失誤予以清除(1)噪聲--測(cè)量誤差的隨機(jī)部分(2)離群點(diǎn)噪聲和離群點(diǎn)的區(qū)別離群點(diǎn)可以是合法的數(shù)據(jù)對(duì)象或值,不像噪聲,離群點(diǎn)本身可以是令人感興趣的例子:姚明的審稿,李娜打網(wǎng)球的表現(xiàn)離群值和極端值離群值(outliner)與P25或P75的距離為“四分位數(shù)間距IQR”的1.5~3.0倍。極端值(extreme

value)與P25或P75的距離為“四分位數(shù)間距IQR”的3.0倍以上。P75+1.5IQRP75

(Q3)P50

(Q2)P25

(Q1)P25-1.5IQR離群或極端值剔除離群或極端值要予以合理解釋。發(fā)現(xiàn)可疑值后,首先應(yīng)從專業(yè)、技術(shù)與操作方面進(jìn)行檢查,尋找可能發(fā)生失誤的原因。若查明屬于粗枝大葉、中途條件改變、未遵守操作規(guī)程、儀器或試劑失靈等,則應(yīng)舍棄該可疑值。如身高1755cm數(shù)據(jù)無(wú)明顯的邏輯錯(cuò)誤,可將數(shù)據(jù)剔除前后各做一次分析,若結(jié)果不矛盾可以不剔除。否則,需要剔除,并給出充分合理的解釋,如,用何種方法確定偏離數(shù)據(jù),該數(shù)據(jù)在實(shí)驗(yàn)中何種干擾下產(chǎn)生等(3)遺漏值產(chǎn)生遺漏值的原因信息未收集到例如:血脂或血糖因?yàn)檠辶坎蛔慊蜓芯繉?duì)象拒絕采血而導(dǎo)致某些研究對(duì)象實(shí)驗(yàn)室的檢測(cè)結(jié)果成為缺失數(shù)據(jù)。屬性并不能用于所有對(duì)象例如:填寫學(xué)歷后,填寫專業(yè),研究方向處理遺漏值刪除數(shù)據(jù)對(duì)象或?qū)傩怨烙?jì)遺漏值在分析時(shí)忽略遺漏值YORFyB1n129

CyB1n130yB1n135yB1n084yB1n136yB1n085yB1n137YKR005C-0.04-0.3-0.43-0.47-0.39-0.12-0.06YKR006C0.20.080.16-0.010.04-0.22YKR007W0.09-0.3-0.5-0.23-0.45-0.32YKR008W0.130.040.02-0.030.180.11-0.11YKL225W0.31-0.030.130.240.060.42-0.12YKR009C-0.15-0.51-0.63-0.63-0.22-0.69YKR010C0.2-0.03-0.13-0.050.10.260.03YKR011C0.05-0.26-0.7-0.33-0.590.86-0.55(4)重復(fù)數(shù)據(jù)數(shù)據(jù)集可能包含重復(fù)或幾乎重復(fù)的數(shù)據(jù)對(duì)象例1:許多人收到重復(fù)的郵件例2:不同數(shù)據(jù)庫(kù)收集的蛋白質(zhì)互作數(shù)據(jù)和通路數(shù)據(jù)的重復(fù)例3:重復(fù)序列,如rRNA基因、tRNA基因和某些蛋白質(zhì)(如組蛋白、肌動(dòng)蛋白等)的基因序列例4:旁系同源基因合并重復(fù)數(shù)據(jù)將不同來(lái)源數(shù)據(jù)的數(shù)據(jù)格式、數(shù)據(jù)單位、數(shù)據(jù)類型進(jìn)行一致性轉(zhuǎn)換偏態(tài)分布資料數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)變量轉(zhuǎn)換的方法很多,可以根據(jù)數(shù)據(jù)的分布特征,選擇合適的數(shù)據(jù)轉(zhuǎn)換方法。常用的方法有對(duì)數(shù)變換,平方根變換或倒數(shù)變換等。數(shù)據(jù)轉(zhuǎn)換的目的:①

使偏態(tài)分布接近正態(tài)分布;②

消除多組資料均數(shù)與標(biāo)準(zhǔn)差的正比關(guān)系。多見于用百分比做觀察結(jié)果的數(shù)值變量資料。2.2)數(shù)據(jù)的結(jié)構(gòu)化整理將數(shù)據(jù)存儲(chǔ)成規(guī)范的表格形式數(shù)據(jù)的轉(zhuǎn)換大綱數(shù)據(jù)概念、結(jié)構(gòu)、數(shù)據(jù)類型及轉(zhuǎn)化數(shù)據(jù)的預(yù)處理數(shù)據(jù)質(zhì)量噪聲、離群點(diǎn)、遺漏值、重復(fù)數(shù)據(jù)結(jié)構(gòu)化整理數(shù)據(jù)的統(tǒng)計(jì)描述及廣義知識(shí)挖掘挖掘關(guān)聯(lián)知識(shí)大綱數(shù)據(jù)的概念數(shù)據(jù)的預(yù)處理數(shù)據(jù)的統(tǒng)計(jì)描述及廣義知識(shí)挖掘計(jì)量資料的統(tǒng)計(jì)描述分類資料的統(tǒng)計(jì)描述挖掘關(guān)聯(lián)知識(shí)計(jì)量資料的統(tǒng)計(jì)描述概念:即用少量幾個(gè)統(tǒng)計(jì)指標(biāo)刻畫出原始數(shù)據(jù)的特征稱為統(tǒng)計(jì)描述。計(jì)量資料的統(tǒng)計(jì)描述方法:1.通過頻數(shù)表描述數(shù)據(jù)特征2.用統(tǒng)計(jì)指標(biāo)定量描述數(shù)據(jù)的特征。計(jì)量資料的頻數(shù)表(大樣本數(shù)據(jù))頻數(shù)表:將變量值分為不同數(shù)量的組段,清點(diǎn)各組段的例數(shù)。意義:概括了解變量值在各組段中的分布范圍和規(guī)律。例: 表1例1

從某單位1999年的職工體檢資料中獲得101名正常成年女子的血清總膽固醇

(mmol/L

)的測(cè)量結(jié)果

2.354.213.325.354.174.132.784.263.584.344.844.414.783.953.923.583.664.283.263.52.74.614.752.913.914.594.192.684.524.913.183.684.833.873.953.914.154.554.83.414.123.955.084.533.923.585.353.843.63.514.063.073.554.233.574.833.523.844.53.964.53.274.523.194.593.753.984.134.263.633.875.713.34.734.175.133.784.573.83.933.783.994.484.284.065.265.253.985.033.513.863.023.74.333.293.254.154.364.953.003.26計(jì)量資料編制頻數(shù)表的步驟例1數(shù)據(jù)1.確定全距(R)=最大值—最小值data<-read.table("C:\\Documents

andSettings\\Administrator\\桌面\\R實(shí)現(xiàn)\\101名正常成年女子的血清總膽固醇.txt",sep=",");R

<-

max(data)-min(data);2.定組數(shù)(8-15組)和組距:組距=全距/組數(shù)大概分成10組3.36/10=0.336≈0.33.寫出組段上下界限4.劃計(jì)并計(jì)數(shù),計(jì)算頻率表2-1

101名正常成年女性血清總膽固醇頻數(shù)表總計(jì)1.00101頻數(shù)表及分布圖的用途1.

通過頻數(shù)表了解數(shù)據(jù)的分布特征。分布情況:偏態(tài)或正態(tài)分布取值情況:變量值取值范圍集中趨勢(shì):變量值集中位置。2.組段的頻率作為概率的估計(jì)。hist(data[,1],breaks=c(min(data)+r*0:10),xlab="血清總膽固醇",ylab="頻數(shù)",main="血清總膽固醇直方圖");直方圖2)連續(xù)變量的統(tǒng)計(jì)指標(biāo)集中趨勢(shì)指標(biāo)平均數(shù):算數(shù)平均數(shù)、幾何平均數(shù)、中位數(shù)、眾數(shù)離散趨勢(shì)指標(biāo)變異指標(biāo):極差、標(biāo)準(zhǔn)差、方差、標(biāo)準(zhǔn)誤、變異系數(shù)經(jīng)常和統(tǒng)計(jì)圖(如直方圖,柱形圖,折線圖,散點(diǎn)圖等)配合使用。集中趨勢(shì)指標(biāo)平均數(shù)用于描述一組同質(zhì)計(jì)量資料的集中趨勢(shì),反映一組觀察值的平均水平或者一個(gè)分布的平均位置的指標(biāo)作用:是一組計(jì)量數(shù)據(jù)平均水平的代表值;可作為不同組間的比較值。平均數(shù)的種類算術(shù)平均數(shù)/均數(shù)(mean),加權(quán)均數(shù)幾何平均數(shù):正偏態(tài)資料,差距較大,值呈倍數(shù)增長(zhǎng)中位數(shù)(

Median,M),P50nX

=

XG

=

n

X1

X

2

Xn小結(jié)平均數(shù)概括描述一組計(jì)量數(shù)據(jù)集中趨勢(shì)。數(shù)據(jù)分布為正態(tài)時(shí),選用均數(shù)描述,并有均數(shù)≈中 位數(shù)。數(shù)據(jù)分布為偏態(tài),選用中位數(shù)描述較好。數(shù)據(jù)為等級(jí)和相差較大時(shí),選用幾何均數(shù)描述。離散趨勢(shì)指標(biāo)變異性:同質(zhì)條件下的觀察單位,其同一標(biāo)志的數(shù)據(jù)間的差異性。描述計(jì)量資料數(shù)據(jù)間離散(變異,參差不齊)程度的指標(biāo)—變異指標(biāo)變異指標(biāo)的種類全局/極差(Range):

R=最大值–

最小值四分位數(shù)間距(quartile range,

QR)

:

QR=P75-P25方差與標(biāo)準(zhǔn)差(Variance

and

Standard

deviation

)變異系數(shù)(Coefficient

of

variation,cv)2Ns

=(

X

-

m)2S

=(

X

-

X

)2Xn

-1CV

=

S

·100%1.在醫(yī)學(xué)雜志中正態(tài)或近似正態(tài)的資料,描述和比較數(shù)據(jù)的平均水平和離散程度。兩組患者年齡(歲)的比較組別

n范圍值試驗(yàn)組

12對(duì)照組

1045.9

±

3.750.5

±

13.035-5718-83兩組患者基線情況的比較計(jì)量數(shù)據(jù)的統(tǒng)計(jì)描述小結(jié)X

SMean-Error

bar

figureHorizontal

lines

correspond

tothe

mean

size

for

each

group2.偏態(tài)分布或特定資料如生存時(shí)間、病程、潛伏期時(shí)間等用中位數(shù)和四分位間距描述。表達(dá)形式:M,四分位數(shù)間距(QR)例2-9

:118名鏈球菌咽喉炎患者的中位潛伏期為51天,QR為28.5天。用百分位數(shù)的P25、P50、P75描述分布位置。Box

plotboxplot(data,ylab="血清總膽固醇");3.等比數(shù)據(jù)和正偏態(tài)數(shù)據(jù)可用幾何均數(shù)和幾何標(biāo)準(zhǔn)差描述表達(dá)形式:G±SG)n

-1(lg

X

)2

-(

lg

X

)2

/

nS

=

lg

-1

(GnG

=

lg-1

(

lg

X

i

)統(tǒng)計(jì)指標(biāo)計(jì)量資料(單變量)中心位置離散非正態(tài):QRX程度

樣本均數(shù):

S量綱相同:S正態(tài)個(gè)體值

量綱不同:CV正態(tài):

X、M非正態(tài):M基于臨床數(shù)據(jù)發(fā)現(xiàn)廣義知識(shí)計(jì)量資料的統(tǒng)計(jì)描述分類資料的統(tǒng)計(jì)描述分類資料的統(tǒng)計(jì)描述絕對(duì)數(shù):表示在一定的條件下某事物發(fā)生的具體規(guī)模和絕對(duì)數(shù)量的多少。發(fā)病例數(shù)、死亡人數(shù)絕對(duì)數(shù)的缺陷不具有可比性不利于保密由兩個(gè)有聯(lián)系的指標(biāo)之比組成,統(tǒng)稱為相對(duì)數(shù)。常用相對(duì)數(shù)包括率(rate)、構(gòu)成比(proportion)和相對(duì)比(ratio)克服缺陷的手段將基數(shù)化成相同的數(shù)值--相對(duì)數(shù)相對(duì)數(shù)相對(duì)比(ratio)表示分子與分母間兩種情況(如兩個(gè)絕對(duì)數(shù)值或兩個(gè)相對(duì)數(shù))的關(guān)系;發(fā)生的甲事件數(shù)發(fā)生的乙事件數(shù)比=構(gòu)成比(proportion)表示某事物或現(xiàn)象內(nèi)部各組成部分的比重,即部分在整體中占的比重。比例=事物內(nèi)部某一組成部分的觀察單位數(shù)·100%同一事物各組成部分的觀察單位數(shù)率(rate)某現(xiàn)象實(shí)際發(fā)生數(shù)與可能發(fā)生總數(shù)之比,又稱頻率指標(biāo)。發(fā)病率、死亡率、治愈率等某時(shí)期內(nèi)實(shí)際發(fā)生某現(xiàn)象的觀察單位數(shù)率

=

·比例基數(shù)(K)同時(shí)期可能發(fā)生該現(xiàn)象的觀察單位總數(shù)比例基數(shù)(K)可以是100%、1000‰、……應(yīng)用相對(duì)數(shù)的注意事項(xiàng)1.正確區(qū)分率和構(gòu)成比,不能以比代率2.計(jì)算相對(duì)數(shù)應(yīng)有足夠的數(shù)量3.正確計(jì)算合計(jì)率4.對(duì)比不同時(shí)期資料應(yīng)注意客觀條件是否相同5.樣本率(或構(gòu)成比)的抽樣誤差例:某廠某年有某病患病職工500人,其中450人為女性職工,占90%,男職工僅占10%,女性職工比男性職工更易患該病,因此今后應(yīng)加強(qiáng)對(duì)女性職工的健康防護(hù)工作。該廠有男性職工200人,有女性職工4000人。女性患病率=450/4000=11.25%男性患病率=50/200=25%“以比代率”的錯(cuò)誤某化工廠不同工齡工人的慢性氣管炎患病情況工齡(年)檢查人數(shù)患者人數(shù)患者百分比(%)患病率(%)0~3401711.55.05~2543020.411.810~4327049.716.915~1362718.419.9合計(jì)1162147100.012.710年~工齡組工人患病情況最嚴(yán)重15年~工齡組工人患病情況最嚴(yán)重5年~工齡組與15年~工齡組工人患病情況差不多以上三種說法都有根據(jù)Difference

of

ratio,

proportion

andrateMeasuring:Rate

Proportion

RatioExample:

Incidence

Prevalence

Female/MaleRatioNumerator

INCLUDEDin

the

denominator???Yes

NoTime

period

was

Considered?Yes

No大綱數(shù)據(jù)的概念數(shù)據(jù)的預(yù)處理數(shù)據(jù)的統(tǒng)計(jì)描述及廣義知識(shí)挖掘計(jì)量資料的統(tǒng)計(jì)描述分類資料的統(tǒng)計(jì)描述挖掘關(guān)聯(lián)知識(shí)頻數(shù)表及分布圖的用途1.

通過頻數(shù)表了解數(shù)據(jù)的分布特征。分布情況:偏態(tài)或正態(tài)分布取值情況:變量值取值范圍集中趨勢(shì):變量值集中位置。2.組段的頻率作為概率的估計(jì)。hist(data[,1],breaks=c(min(data)+r*0:10),xlab="血清總膽固醇",ylab="頻數(shù)",main="血清總膽固醇直方圖");直方圖1.在醫(yī)學(xué)雜志中正態(tài)或近似正態(tài)的資料,描述和比較數(shù)據(jù)的平均水平和離散程度。兩組患者年齡(歲)的比較組別

n范圍值試驗(yàn)組

12對(duì)照組

1045.9

±

3.750.5

±

13.035-5718-83兩組患者基線情況的比較計(jì)量數(shù)據(jù)的統(tǒng)計(jì)描述小結(jié)X

SMean-Error

bar

figureHorizontal

lines

correspond

tothe

mean

size

for

each

group2.偏態(tài)分布或特定資料如生存時(shí)間、病程、潛伏期時(shí)間等用中位數(shù)和四分位間距描述。表達(dá)形式:M,四分位數(shù)間距(QR)例2-9

:118名鏈球菌咽喉炎患者的中位潛伏期為51天,QR為28.5天。用百分位數(shù)的P25、P50、P75描述分布位置。Box

plotboxplot(data,ylab="血清總膽固醇");3.等比數(shù)據(jù)和正偏態(tài)數(shù)據(jù)可用幾何均數(shù)和幾何標(biāo)準(zhǔn)差描述表達(dá)形式:G±SG)n

-1(lg

X

)2

-(

lg

X

)2

/

nS

=

lg

-1

(GnG

=

lg-1

(

lg

X

i

)大綱數(shù)據(jù)的概念數(shù)據(jù)的預(yù)處理數(shù)據(jù)的統(tǒng)計(jì)描述及廣義知識(shí)挖掘計(jì)量資料的統(tǒng)計(jì)描述分類資料的統(tǒng)計(jì)描述挖掘關(guān)聯(lián)知識(shí)某化工廠不同工齡工人的慢性氣管炎患病情況工齡(年)檢查人數(shù)患者人數(shù)患者百分比(%)患病率(%)0~3401711.55.05~2543020.411.810~4327049.716.915~1362718.419.9合計(jì)1162147100.012.7構(gòu)成比Ratio發(fā)生的甲事件數(shù)

發(fā)生的乙事件數(shù)比=兩個(gè)絕對(duì)數(shù)值或兩個(gè)相對(duì)數(shù)構(gòu)成比拓展計(jì)量資料常用的檢驗(yàn)方法T檢驗(yàn)兩樣本均數(shù)比較、樣本均數(shù)與總體均數(shù)比較(單一樣本的t檢驗(yàn))配對(duì)t檢驗(yàn)同體自身前后,配對(duì)資料U檢驗(yàn)兩大樣本資料方差分析兩組及兩組以上秩和檢驗(yàn)偏態(tài)分布資料正態(tài)分布方差齊性拓展計(jì)量資料常用的檢驗(yàn)方法T檢驗(yàn)兩樣本均數(shù)比較、樣本均數(shù)與總體均數(shù)比較(單一樣本的t檢驗(yàn))配對(duì)t檢驗(yàn)同體自身前后,配對(duì)資料U檢驗(yàn)兩大樣本資料方差分析兩組及兩組以上秩和檢驗(yàn)偏態(tài)分布資料t檢驗(yàn)兩小樣本(n<30)均數(shù)的比較兩小樣本均數(shù)比較的t檢驗(yàn)要求兩樣本服從正態(tài)分布,方差齊性。單一樣本的t檢驗(yàn)兩組樣本的t檢驗(yàn)配對(duì)樣本的t檢驗(yàn)n=9tatau單側(cè)概率為0.05雙側(cè)概率為0.05單側(cè)概率的t

界值t分布中t界值和概率的關(guān)系雙側(cè)概率的t界值α=0.05單側(cè)檢驗(yàn)檢驗(yàn)水準(zhǔn)αP值的拒絕域雙側(cè)檢驗(yàn)P

≤α,拒絕H0t檢驗(yàn)單一樣本的t檢驗(yàn)兩組樣本的t檢驗(yàn)配對(duì)樣本的t檢驗(yàn)比較一個(gè)樣本均數(shù)所代表的未知總體均數(shù)與已知的總體均數(shù)有無(wú)差別。

|

x

1

-

x

2

|S

x

1

-

x

2t

=由兩個(gè)樣本均數(shù)的差別推斷兩樣本所代表的總體均數(shù)間有無(wú)差別自由度=n1+n2

–2配對(duì)設(shè)計(jì)資料均數(shù)的比較U檢驗(yàn)兩大樣本均數(shù)比較當(dāng)樣本含量較大時(shí),t分布趨向于正態(tài)分布,可采用u檢驗(yàn)。n1

n2s2

s2

1

+

2

x1

-

x2u

=樣本與總體的U檢驗(yàn)兩樣本的U檢驗(yàn)分布特征與t、u檢驗(yàn)T檢驗(yàn)是以t分布為理論基礎(chǔ),以t值為統(tǒng)計(jì)量的假設(shè)檢驗(yàn)方法,適用于例數(shù)較少,來(lái)源于正態(tài)分布的資料。U檢驗(yàn)是以標(biāo)準(zhǔn)正態(tài)分布為理論基礎(chǔ),以U值作為統(tǒng)計(jì)量的假設(shè)檢驗(yàn)方法,適用于例數(shù)較多的數(shù)值資料T、U檢驗(yàn)都可用于樣本與總體比較、配對(duì)設(shè)計(jì)、兩組完全隨機(jī)的假設(shè)檢驗(yàn)大樣本與小樣本<=30認(rèn)為是小樣本>100認(rèn)為是大樣本30~100視情況而定方差分析analysis

of

variance-ANOVA它把所有數(shù)據(jù)放在一起,一次比較就對(duì)所有各組間是否有差異做出判斷如果沒有顯著性差異,則認(rèn)為各組平均數(shù)相同;如果發(fā)現(xiàn)有差異,再進(jìn)一步比較是哪組數(shù)據(jù)與其它數(shù)據(jù)不同.t檢驗(yàn)做兩兩比較會(huì)提高犯I型錯(cuò)誤的概率如,對(duì)5個(gè)平均數(shù)進(jìn)行檢驗(yàn),若做t檢驗(yàn),則需做10次,假設(shè)每一次檢驗(yàn)接受零假設(shè)的概率為0.95,那么10次都接受零假設(shè)的概率為(0.95)10=0.60,(至少有1次)拒絕零假設(shè)的概率為0.40,犯I型錯(cuò)誤的概率明顯平加方差分析方差分析實(shí)質(zhì)上是關(guān)于觀測(cè)值變異原因的數(shù)量分析方差分析的基本思路將總的變差分解為構(gòu)成總變差的各個(gè)部分??傋儺惾坑^察值之間的變異

MS總或MST組內(nèi)變異組間變異反映處理因素(T)和隨機(jī)誤差(E)大小。

MS組間或MSTR反映隨機(jī)誤差(E)大小。

MS組內(nèi)或MSe方差分析方差分析的基本思路將總的變差分解為構(gòu)成總變差的各個(gè)部分。F=

MS組間/MS組內(nèi)kiiTRi

=1SS

=

n

(X

-

X

)2kiijni(X

-

X

)SSe

=i

=1

j

=i2觀察值Xij與組均數(shù)X

i

的離均差平方和方和各組均數(shù)

X

i

與總均數(shù)

X

的離均差平總n

=

N

-1n組內(nèi)=N

-kn組間=k

-1k為處理組數(shù)MS組間=SS組間/υ組間

MS組內(nèi)=SS組內(nèi)/υ組內(nèi)秩和檢驗(yàn)適用條件總體分布為偏態(tài)或分布形式未知的計(jì)量資料方差不齊的計(jì)量資料比較的數(shù)據(jù)只能用嚴(yán)重程度、優(yōu)劣等級(jí)的半定量(等級(jí))資料組間的比較。非參數(shù)檢驗(yàn)在統(tǒng)計(jì)檢驗(yàn)中不需要假定總體分布形式和用參數(shù)估計(jì)量,直接對(duì)比較數(shù)據(jù)的分布進(jìn)行統(tǒng)計(jì)檢驗(yàn)的方法。稱為非參數(shù)檢驗(yàn)(nonparametric

test).秩和檢驗(yàn)的方法秩轉(zhuǎn)換1.將數(shù)據(jù)(x)按大小轉(zhuǎn)化為秩次(i),用秩次的大小反映變量值的大小。2.對(duì)各組”秩次”求和,稱為秩和(T=∑i)。3.對(duì)各組秩和(T)做檢驗(yàn)當(dāng)n1=n2時(shí),任取一組秩和為檢驗(yàn)統(tǒng)計(jì)量,即T=(T1or

T2)當(dāng)n1≠n2時(shí),取較小樣本的秩和為檢驗(yàn)統(tǒng)計(jì)量,即T

=

T

min(

n

orn

)1

24.以樣本含量較小組的個(gè)體數(shù)n1、兩組樣本含量之差n2-n1及T值查檢驗(yàn)界值表;兩獨(dú)立樣本差別的秩和檢驗(yàn)例對(duì)10例肺癌病人和12例矽肺(硅沉著?。?期

工人用X線片測(cè)量肺門橫徑右側(cè)距RD值(cm),結(jié)果見下表。問肺癌病人的RD值是否高于矽肺0期工人的RD值?肺癌病人矽肺0期工人RD值秩RD值

秩2.7813.23

2.53.232.53.5044.2074.0454.87144.1565.12174.2886.21184.3497.18194.47108.05204.64118.56214.75129.60224.82134.95155.1016Page

73n1

=10T1

=141.5n2

=12T2

=111.5Page

74,認(rèn)為兩組的RD值分得雙側(cè)0.05<p<0.10,按檢驗(yàn)水準(zhǔn)不拒絕H0布不同。兩樣本秩和檢驗(yàn)的步驟H0:兩組RD值的總體分布相同,M1=M2;H1:兩組RD值的總體分布不同,M1≠M(fèi)2

;a

=0.05。編秩,求秩和并確定檢驗(yàn)統(tǒng)計(jì)量:T1=141.5確定P值,n1

=

10,

n2

-

n1

=

2,T0.05/

2

=

84

~

146,T0.10/

2

=

89

~

141拓展計(jì)量資料常用的檢驗(yàn)方法T檢驗(yàn)兩樣本均數(shù)比較、樣本均數(shù)與總體均數(shù)比較(單一樣本的t檢驗(yàn))配對(duì)t檢驗(yàn)同體自身前后,配對(duì)資料U檢驗(yàn)兩大樣本資料方差分析兩組及兩組以上秩和檢驗(yàn)偏態(tài)分布資料常用檢驗(yàn)方法的R實(shí)現(xiàn)單樣本T檢驗(yàn)a

<-

c(1,5,2,4);t.test(a);#Mu=0X<-c(159,

280,

101,

212,

224,

379,

179,

264,

222,

362,168,

250,

149,

260,

485,

170)t.test(X,

alternative

=

"greater",

mu

=

225)常用檢驗(yàn)方法的R實(shí)現(xiàn)配對(duì)T檢驗(yàn)a

<-

c(1,5,2,4);b

<-

c(4,5,2,6);t.test(a,b,paired=T);兩樣本T檢驗(yàn)a

<-

c(1,5,2,4);b

<-

c(4,5,2,6);t.test(a,b);t.test(a-b);常用檢驗(yàn)方法的R實(shí)現(xiàn)方差分析x<-c(25.6,22.2,28.0,29.8,24.4,30.0,29.0,27.5,25.0,27.7,23.0,32.2,28.8,28.0,31.5,25.9,20.6,21.2,22.0,21.2);b

<-

data.frame(x,a=gl(5,4,20));m1<-aov(x~a,data=b);summary(m1)常用檢驗(yàn)方法的R實(shí)現(xiàn)秩和檢驗(yàn)

X

<-c(2.78,3.23,4.20,4.87,5.12,6.21,7.18,8.05,8.56,9.60);

Y

<-c(3.23,3.50,4.04,4.15,4.28,4.34,4.47,4.64,4.75,4.82,4.95,5.10);wilcox.test(X,Y);拓展分類資料常用的檢驗(yàn)方法卡方檢驗(yàn)推斷兩個(gè)或兩個(gè)以上總體率(或構(gòu)成比)之間有無(wú)差別基本思想:實(shí)際頻數(shù)和理論頻數(shù)吻合的程度O

為實(shí)際頻數(shù)

(actual

frequency)E

為理論頻數(shù)(theoretical

frequency)2*2行列式的自由度R*C行列式的自由度拓展分類資料常用的檢驗(yàn)方法多個(gè)總體率的比較兩總體率的比較四格表資料兩總體構(gòu)成比的比較行X列表資料多個(gè)總體構(gòu)成比的比較兩種診斷/檢測(cè)方法陽(yáng)性率(有效率)的比較配對(duì)設(shè)計(jì)比較目的應(yīng)用條件統(tǒng)計(jì)方法兩個(gè)率或構(gòu)成比的比較(完全隨機(jī)設(shè)計(jì))N≥40且T≥5四格表的χ2檢驗(yàn)N≥40且1≤T<5校正四格表的χ2

檢驗(yàn)配對(duì)四格表比較(配對(duì)設(shè)計(jì))b

+

c≥40配對(duì)χ2檢驗(yàn)b

+

c<40校正配對(duì)χ2檢驗(yàn)多個(gè)率或構(gòu)成比資料的比較(完全隨機(jī)設(shè)計(jì))全部格子T≥5

或少于1/5的格子1≤T<5行×列表χ2檢驗(yàn)(列聯(lián)表χ2檢驗(yàn))卡方檢驗(yàn)小結(jié)表2-2101名正常成年女性血清總膽固醇頻數(shù)表頻數(shù)(f)作為X值的權(quán)數(shù)X

=

fX

=

f1

X1

+

f2

X

2

fk

X

k

f

f1

+

f2

fkX

=

fX

f=

4.04(mmol

/

L)加權(quán)法集中趨勢(shì)指標(biāo)病例數(shù)幾何平均數(shù)(Geometric

mean)適用條件:不呈正態(tài)分布,差距較大,X值呈倍數(shù)增長(zhǎng)或部分?jǐn)?shù)據(jù)偏離過的大偏態(tài)分布(正偏態(tài))資料2509名鏈球菌咽喉炎患者潛伏期15105012

24

36

48

60

72

84

96

108潛伏期/h

正偏態(tài)分布40例3

某地5例微絲蚴血癥患者治療7年后用間接熒光抗體試驗(yàn)測(cè)得其抗體滴度分別為1/10,1/20,1/40,1/80,1/160,求幾何均數(shù)。

1

G

=

5

10

·

20

·

40

·80

·160

=

0.025a=[1/10

1/20

1/40

1/80

1/160];geomean_a=geomean(a);結(jié)論:平均抗體滴度為1:40(幾何均數(shù)法)中位數(shù)(

Median,M)定義:把一組觀察值,按大小次序排列,居于中間位置的那個(gè)數(shù)值。適用條件:明顯偏態(tài)分布;資料的分布情況不清楚。計(jì)算方法集中趨勢(shì)指標(biāo)X: 5,

5,

6,

7,

20(d)位次

1

2

3

4

51

(n+1)M

=

X222(

+1)M

=

(

X

n

+

X

n

)n為奇數(shù)n為偶數(shù)12median_value=median(data);變異系數(shù)亦稱離散系數(shù),即標(biāo)準(zhǔn)差與均數(shù)之比用百分?jǐn)?shù)表示。應(yīng)用范圍組間單位不同時(shí)變異程度的比較。比較組單位相同,但均數(shù)相差懸殊的組間變異程度意義:CV越大,表示數(shù)據(jù)變異越大。常用于衡量方法、儀器的精密度。變異系數(shù)XCV

=

S

·100%1.單位不同時(shí)組間變異程度的比較某地7歲年齡組男童身高與體重指標(biāo)S

CV(%)身高(cm)體重(kg)123.10

4.71

3.8322.29

2.26

10.14結(jié)論:7歲年齡組男童身高與體重值指標(biāo)比較,體重指標(biāo)的變異大于身高指標(biāo)。x某地不同年齡組男童身高(cm)年齡組

SCV%1-2月56.32.13.735-6月66.52.23.313-3.5歲96.13.13.225-5.5歲107.83.33.06結(jié)論:隨著年齡增加,身高的變異變小。2.比較組單位相同,但均數(shù)相差懸殊的組間變異程度比較X例、對(duì)某大學(xué)學(xué)生吸煙狀況進(jìn)行調(diào)查,結(jié)果顯示該校男性大學(xué)生吸煙率為35.12%,女性大學(xué)生吸煙率為1.58%,則該校男女學(xué)生吸煙率之比為:35.12%

=

22.231.58%即該校男大學(xué)生吸煙率是女大學(xué)生吸煙率的22.23倍。相對(duì)比Ratio表5

某醫(yī)院1990年和1998年住院病人的五種疾病死亡人數(shù)和構(gòu)成比1990年

1998年疾病構(gòu)成死亡人數(shù)構(gòu)成比(%)死亡人數(shù)構(gòu)成比(%)惡性腫瘤5830.534026.85循環(huán)系統(tǒng)疾病4423.164429.53呼吸系統(tǒng)疾病3719.472919.46消化系統(tǒng)疾病1910.001812.08傳染病3216.841812.08合計(jì)190100.00149100.00構(gòu)成比(proportion)例21999年某幼兒園有36名兒童患了腮腺炎,該幼兒園共有200名兒童(其中25名兒童以前患過),求該幼兒園1999年腮腺炎的發(fā)病率36·100%

=

20.57%200

-

25腮腺炎發(fā)病率=老年人白內(nèi)障的年齡分布情況年齡組(1)受檢人數(shù)(2)白內(nèi)障例數(shù)(3)患病率/(%)(5)40~5606812.1450~44112929.2560~29613545.6170~1499765.10≥80221986.36合計(jì)146844830.52正態(tài)性和方差齊性檢驗(yàn)S

2正態(tài)性檢驗(yàn)可用正態(tài)性檢驗(yàn)的方法如Jarque-Bera檢驗(yàn)基于數(shù)據(jù)樣本的偏度和峰度,評(píng)價(jià)給定數(shù)據(jù)服從未知均值和方差正態(tài)分布的假設(shè)是否成立

[h,p,JBSTAT,CV]=jbtest(x,alpha)還可用圖示法、醫(yī)學(xué)知識(shí)對(duì)資料的正態(tài)性進(jìn)行估計(jì)F檢驗(yàn)原理:看較大樣本方差與較小樣本方差的商是否接近

“1”。若接近“1”,則可認(rèn)為兩樣本代表的總體方差齊,否則,兩方差不齊S

2F

=,v1

=

n1

-1

,

v2

=

n2

-12(較?。?(較大)單一樣本的t檢驗(yàn)55.0072.0058.0057.0070.0075.0072.0069.0061.0067.0069.007

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論