醫(yī)學(xué)統(tǒng)計(jì)學(xué):第21章 聚類分析_第1頁
醫(yī)學(xué)統(tǒng)計(jì)學(xué):第21章 聚類分析_第2頁
醫(yī)學(xué)統(tǒng)計(jì)學(xué):第21章 聚類分析_第3頁
醫(yī)學(xué)統(tǒng)計(jì)學(xué):第21章 聚類分析_第4頁
醫(yī)學(xué)統(tǒng)計(jì)學(xué):第21章 聚類分析_第5頁
已閱讀5頁,還剩36頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第二十一章聚類分析

(clusteranalysis)例

調(diào)查了27名瀝青工和焦?fàn)t工的年齡(X1)、工齡(X2)、吸煙情況(X3),檢測了血清P21(X4)、P53(X6)、外周血淋巴細(xì)胞SCE(X7)、染色體畸變數(shù)(X8)和染色體畸變細(xì)胞數(shù)(X9)。數(shù)據(jù)列于表,其中P21倍數(shù)(X5)=P21檢測值/對照組P21均數(shù)。試用系統(tǒng)聚類法將27名工人歸類。表

瀝青工和焦?fàn)t工的生物標(biāo)志物檢測及聚類分析結(jié)果工人編號(樣品號)年齡工齡吸煙支/d血清P21P21倍數(shù)P53SCE染色體畸變數(shù)染色體畸變細(xì)胞數(shù)聚類結(jié)680.358.11441235122035102.761.436.84331352252027842.190.544.1133143272024511.930.4711.4596153822032472.560.8011.68551651313037102.920.3711.6022174091031942.510.4011.40551834172046583.670.4611.3533195029050193.950.4713.4510811042202074825.890.1213.110021157301538002.990.1910.762211236152024781.950.2510.00001133712038273.010.8210.50441145232029842.350.1611.153311552321037492.950.7211.45111011642273049413.890.7313.807611744272039483.110.3313.6516141184021533602.640.3711.40001193821529362.310.6911.401112044272068515.390.9912.28762214327039263.090.4711.95001222610343813.450.5211.807512337182071425.620.8511.81552242892026122.060.3711.65111252593026382.080.7812.251112634142043223.400.4115.005512750322028622.250.698.80221X1X2X3X4X5X6X7X8X9判別分析:在已知分為若干個(gè)類的前提下,獲得判別模型,并用來判定觀察對象的歸屬。

聚類分析:將隨機(jī)現(xiàn)象歸類的統(tǒng)計(jì)學(xué)方法,在不知道應(yīng)分多少類合適的情況下,試圖借助數(shù)理統(tǒng)計(jì)的方法用已收集到的資料找出研究對象的適當(dāng)歸類方法。已成為發(fā)掘海量基因信息的首選工具。(數(shù)據(jù)挖掘)二者都是研究分類問題的多元統(tǒng)計(jì)分析方法。第一節(jié)相似系數(shù)72.Q型聚類的常用相似系數(shù)

將n例樣品看成是m維空間的n個(gè)點(diǎn),用兩點(diǎn)間的距離定義相似系數(shù),距離越小表明兩樣品間相似程度越高。(1)歐氏距離(2)絕對距離(3)Minkowski距離(4)馬氏距離89

第二節(jié)系統(tǒng)聚類系統(tǒng)聚類(hierarchicalclusteringanalysis)是將相似的樣品或變量歸類的常用方法。111.最大相似系數(shù)法2.最小相似系數(shù)法3.重心法(僅用于樣品聚類)4.類平均法(僅用于樣品聚類)5.離差平方和法(又稱Ward法,僅用于樣品聚類)1213類平均法是系統(tǒng)聚類方法中較好的方法之一,它充分反映了類內(nèi)樣品的個(gè)體信息。141516根據(jù)聚類過程,繪制出系統(tǒng)聚類圖(見圖21-1)。圖中顯示分成兩類較好:{X1,X2},{X3,X4},即長度指標(biāo)歸為一類,圍度指標(biāo)歸為另一類。身高下肢長腰圍胸圍

G1G2G3G4圖21-14個(gè)指標(biāo)聚類的系統(tǒng)聚類圖0.8520.7320.234例21-2今測得6名運(yùn)動員4個(gè)運(yùn)動項(xiàng)目(樣品)的能耗、糖耗的均數(shù)見表19-1,欲對運(yùn)動項(xiàng)目歸類,以便提供相應(yīng)的膳食標(biāo)準(zhǔn),提高運(yùn)動成績。試用樣品系統(tǒng)聚類法將運(yùn)動項(xiàng)目歸類。表21-14個(gè)運(yùn)動項(xiàng)目的測定值運(yùn)動項(xiàng)目名稱能耗

X1(焦耳/分、m2)糖耗X2(%)負(fù)重下蹲G127.89261.421.3150.688引體向上G223.47556.830.1740.088俯臥撐G318.92445.13-1.001-1.441仰臥起坐G420.91361.25-0.4880.665變量的標(biāo)準(zhǔn)化X1‘

X2’聚類過程如下:

(1)計(jì)算4個(gè)樣品間的相似系數(shù)矩陣,樣品聚類中又稱為距離矩陣。負(fù)重下蹲與引體向上之間的距離按公式(21-3)計(jì)算得

同樣負(fù)重下蹲與俯臥撐之間的距離

同理,計(jì)算出距離矩陣

(2)G2,G4間距離最小,將G2,G4并成一新類G5={G2,G4}。應(yīng)用最小相似系數(shù)法,按公式(19-8)計(jì)算G5與其他各類之間的距離

G1,G3,G5的距離矩陣

(3)G1,G5間距離最小,將G1,G5并成一新類G6={G1,G5}。計(jì)算G6與G3之間的距離

(4)最終將G1,G6合并成G7={G1,G6},所有指標(biāo)形成一大類。d15=Max(d12,d14)=Max(1.289,1.803)=1.803d35=Max(d23,d34)=Max(1.928,2.168)=2.168

根據(jù)聚類過程,繪制出系統(tǒng)聚類圖(見圖21-2)。結(jié)合系統(tǒng)聚類圖和專業(yè)知識認(rèn)為分成兩類較好:{G1,G2,G4},{G3}。負(fù)重下蹲、引體向上、仰臥起坐三個(gè)運(yùn)動項(xiàng)目體能消耗較大,訓(xùn)練時(shí)應(yīng)提高膳食標(biāo)準(zhǔn)。圖21-24個(gè)運(yùn)動項(xiàng)目樣品聚類的系統(tǒng)聚類圖G2

G4

G1G3

G5G6G7例21-3現(xiàn)對10名女排運(yùn)動員的7項(xiàng)運(yùn)動指標(biāo)進(jìn)行測定,分別為800米跑、立定三級跳遠(yuǎn)、仰臥起坐、3米折返跑、思維靈敏性、運(yùn)動知覺和適競感的時(shí)間,用X1-X7表示,見表21-3。試用系統(tǒng)聚類法將10名運(yùn)動員歸類。X1X2X3X4X5X6X71145.038.3060.009.350.580.0425.602146.257.8162.009.560.630.0466.003146.137.6561.509.690.660.0586.304147.137.8361.009.730.700.0526.435148.347.9561.009.680.700.0566.766149.208.2962.009.860.680.0547.107149.848.2261.809.720.720.0646.938150.767.1461.009.800.770.0697.429148.427.8362.009.600.800.0707.7010148.398.2162.509.680.810.0717.75表21-3女排運(yùn)動員7項(xiàng)運(yùn)動指標(biāo)測定第三節(jié)動態(tài)樣品聚類表21-4k-means法聚類各類重心類別跑立定三級跳遠(yuǎn)仰臥起坐折返跑思維靈敏性運(yùn)動知覺適競感1146.147.9061.139.580.640.056.082149.167.9461.729.720.750.067.28有序樣品——各樣品在時(shí)域或空域存在自然順序,如生長發(fā)育資料的年齡順序,發(fā)病率的年代順序和地理位置。有序樣品聚類——對有序樣品分類時(shí),考慮到樣品的順序特性這個(gè)前提條件,分類時(shí)不破壞樣品間的順序,由此

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論