版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、聚類分析作者:北京大學(xué)概率統(tǒng)計系 李東風(fēng)聚類分析和判別分析有相似的作用,都是起到分類的作用。但是,判別分析是已知分類然后總結(jié)出判別規(guī)則,是一種有指導(dǎo)的學(xué)習(xí);而聚類分析則是有了一批樣本,不知道它們的分類,甚至連分成幾類也不知道,希望用某種方法把觀測進行合理的分類,使得同一類的觀測比較接近,不同類的觀測相差較多,這是無指導(dǎo)的學(xué)習(xí)。所以,聚類分析依賴于對觀測間的接近程度(距離)或相似程度的理解,定義不同的距離量度和相似性量度就可以產(chǎn)生不同的聚類結(jié)果。SAS/STAT中提供了譜系聚類、快速聚類、變量聚類等聚類過程。譜系聚類方法介紹譜系聚類是一種逐次合并類的方法,最后得到一個聚類的二叉樹聚類圖。其想法是
2、,對于 個觀測,先計算其兩兩的距離得到一個距離矩陣,然后把離得最近的兩個觀測合并為一類,于是我們現(xiàn)在只剩了 個類(每個單獨的未合并的觀測作為一個類)。計算這 個類兩兩之間的距離,找到離得最近的兩個類將其合并,就只剩下了 個類直到剩下兩個類,把它們合并為一個類為止。當(dāng)然,真的合并成一個類就失去了聚類的意義,所以上面的聚類過程應(yīng)該在某個類水平數(shù)(即未合并的類數(shù))停下來,最終的類就取這些未合并的類。決定聚類個數(shù)是一個很復(fù)雜的問題。設(shè)觀測個數(shù)為 ,變量個數(shù)為 , 為在某一聚類水平上的類的個數(shù), 為第 個觀測,
3、160;是當(dāng)前(水平 )的第 類, 為 中的觀測個數(shù), 為均值向量, 為類 中的均值向量(中心), 為歐氏長度, 為總離差平方和, 為類 的類內(nèi)離差平方和, 為聚類水平 對應(yīng)的各類的類內(nèi)離差平方和的總和。假設(shè)某一步聚類把類 和類 合并為下一水平的類 ,則定義 為合并導(dǎo)致的類內(nèi)離差平方和的增量。用 代表兩個觀測之間的距離或非相似性測度, 為第 水平的類 和類 之間的距離或非相似性
4、測度。進行譜系聚類時,類間距離可以直接計算,也可以從上一聚類水平的距離遞推得到。觀測間的距離可以用歐氏距離或歐氏距離的平方,如果用其它距離或非相似性測度得到了一個觀測間的距離矩陣也可以作為譜系聚類方法的輸入。根據(jù)類間距離的計算方法的不同,有多種不同的聚類方法。其中幾種介紹如下:一、類平均法(METHOD=AVERAGE)測量兩類每對觀測間的平均距離,即在 時若類 和類 合并為下一水平的類 類,則類 和類 的距離的遞推公式為二、重心法(METHOD=CENTROID)重心法測量兩個類的重心(均值)之間的(平方)歐氏距離。即當(dāng)觀測間距離為
5、平方歐氏距離時有遞推公式三、最長距離法(METHOD=COMPLETE)計算兩類觀測間最遠一對的距離,即遞推公式為 。四、最短距離法(METHOD=SINGLE)計算兩類觀測間最近一對的距離,即遞推公式為 。五、密度估計法(METHOD=DENSITY)密度估計法按非參數(shù)密度來定義兩點間的距離 。如果兩個點 和 是近鄰(兩點距離小于某指定常數(shù)或 在距離 最近的若干點內(nèi))則距離是兩點密度估計的倒數(shù)的平均,否則距離為正無窮。密度估計有最近鄰估計(K=)、均勻核估計(R=)和Wong 混合法(HYBRID)。六、Ward最小方差法
6、(或稱Ward離差平方和法,METHOD=WARD)當(dāng)觀測間距離為 時遞推公式為Ward方法并類時總是使得并類導(dǎo)致的類內(nèi)離差平方和增量最小。其它的聚類方法還有EML法、可變類平均法(FLEXIBLE)、McQuitty相似分析法(MCQUITTY )、中間距離法(MEDIAN)、兩階段密度估計法(TWOSTAGE)等。譜系聚類類數(shù)的確定譜系聚類最終得到一個聚類樹,可以把所有觀測聚為一類。到底應(yīng)該把觀測分為幾類是一個比較困難的問題,因為分類問題本身就是沒有一定標準的,關(guān)于這一點實用多元統(tǒng)計分析(王學(xué)仁、王松桂,上??萍汲霭嫔纾┑谑陆o出了一個很好的例子,即撲克牌的分類。我們可以把撲克牌
7、按花色分類,按大小點分類,按橋牌的高花色低花色分類,等等。決定類數(shù)的一些方法來自統(tǒng)計的方差分析的思想,我們在這里作一些介紹。一、 統(tǒng)計量其中 為分類數(shù)為 個類時的總類內(nèi)離差平方和, 為所有變量的總離差平方和。 越大,說明分為 個類時每個類內(nèi)的離差平方和都比較小,也就是分為 個類是合適的。但是,顯然分類越多,每個類越小, 越大,所以我們只能取 使得 足夠大,但 本身比較小,而且 不再大幅度增加。二、半偏相關(guān)在把類 和類 合并為下一水平的類 時,定義
8、半偏相關(guān)半偏 其中 為合并類引起的類內(nèi)離差平方和的增量,半偏相關(guān)越大,說明這兩個類越不應(yīng)該合并,所以如果由 類合并為 類時如果半偏相關(guān)很大就應(yīng)該取 類。三、雙峰性系數(shù)其中 是偏度, 是峰度。大于0.555的 值(這時為均勻分布)可能指示有雙峰或多峰邊緣分布。最大值1.0(二值分布)從僅取兩值的總體得到。四、偽F統(tǒng)計量偽F統(tǒng)計量評價分為 個類的效果。如果分為 個類合理,則類內(nèi)離差平方和(分母)應(yīng)該較小,類間平方和(分子)相對較大。所以應(yīng)該取偽F統(tǒng)計量較大而類數(shù)較小的聚類水平。五、偽 統(tǒng)計
9、量用此統(tǒng)計量評價合并類 和類 的效果,該值大說明不應(yīng)合并這兩個類,所以應(yīng)該取合并前的水平。用CLUSTER過程和TREE過程進行譜系聚類一、CLUSTER過程用法CLUSTER過程的一般格式為:PROC CLUSTER DATA=輸入數(shù)據(jù)集 METHOD=聚類方法 選項;VAR 聚類用變量;COPY 復(fù)制變量;RUN;其中的VAR語句指定用來聚類的變量。COPY語句把指定的變量復(fù)制到OUTTREE的數(shù)據(jù)集中。 PROC CLUSTER語句的主要選項有:· METHOD=選項,這是必須指定的,此選項決定我們要用的聚類方法,主要由類間距離定義決定。方法有AVERAGE
10、、CENTROID、COMPLETE、SINGLE、DENSITY、WARD、EML、FLEXIBLE、MCQUITTY 、MEDIAN、TWOSTAGE等,其中DENSITY、TWOSTAGE等方法還要額外指定密度估計方法(K=、R= 或HYBRID)。· 輸入DATA數(shù)據(jù)集,可以是原始觀測數(shù)據(jù)集,也可以是距離矩陣數(shù)據(jù)集。· OUTTREE=輸出譜系聚類樹數(shù)據(jù)集,把譜系聚類樹輸出到一個數(shù)據(jù)集,可以用TREE過程繪圖并實際分類。· STANDARD選項,把變量標準化為均值0,標準差1。· PSEUDO選項和CCC選項。PSEUDO選項要求計算偽F和偽
11、160;統(tǒng)計量,CCC選項要求計算 、半偏和CCC統(tǒng)計量。其中CCC統(tǒng)計量也是一種考察聚類效果的統(tǒng)計量,CCC較大的聚類水平是較好的。二、TREE過程用法TREE過程可以把CLUSTER過程產(chǎn)生的OUTTREE數(shù)據(jù)集作為輸入,畫出譜系聚類的樹圖,并按照用戶指定的聚類水平(類數(shù))產(chǎn)生分類結(jié)果數(shù)據(jù)集。一般格式如下:PROC TREE DATA輸入聚類結(jié)果數(shù)據(jù)集 OUT=輸出數(shù)據(jù)集 GRAPHICS NCLUSTER=類數(shù) 選項;COPY 復(fù)制變量;RUN;其中COPY語句把輸入數(shù)據(jù)集中的變量復(fù)制到輸出數(shù)據(jù)集(實際上這些變量也必須在CLUSTER 過程中用COPY語句復(fù)制到OUTTREE數(shù)
12、據(jù)集)。PROC TREE語句的重要選項有:· DATA數(shù)據(jù)集,指定從CLUSTER過程生成的OUTTREE數(shù)據(jù)集作為輸入。· OUT數(shù)據(jù)集,指定包含最后分類結(jié)果(每一個觀測屬于哪一類,用一個CLUSTER變量區(qū)分)的輸出數(shù)據(jù)集。· NCLUSTERS選項,由用戶指定最后把樣本觀測分為多少個類。· GRAPHICS,這是指定畫譜系聚類的樹圖時使用高分辨率圖形(要求有SAS/GRAPH模塊)。· HORIZONTAL,畫樹圖時橫向畫。三、例子我們以多元分析中一個經(jīng)典的數(shù)據(jù)作為例子,這是Fisher分析過的鳶尾花數(shù)據(jù),有三種不同鳶尾花(Setosa
13、、Versicolor、Virginica),種類信息存入了變量SPECIES,并對每一種測量了50棵植株的花瓣長(PETALLEN)、花瓣寬(PETALWID)、花萼長(SEPALLEN)、花萼寬(SEPALWID)。這個數(shù)據(jù)已知分類,并不屬于聚類分析的研究范圍。這里我們?yōu)榱耸纠傺b不知道樣本的分類情況(既不知道類數(shù)也不知道每一個觀測屬于的類別),讓SAS取進行聚類分析,如果得到的類數(shù)和分類結(jié)果符合真實的植物分類,我們就可以知道聚類分析產(chǎn)生了好的結(jié)果。這里我們假定數(shù)據(jù)已輸入SASUSER.IRIS中(見系統(tǒng)幫助菜單的“Sample Programs | SAS/STAT | Documen
14、tation Example 3 from Proc Cluster”)。為了進行譜系聚類并產(chǎn)生幫助確定類數(shù)的統(tǒng)計量,使用如下過程:proc cluster data=sasuser.iris method=ward outtree=otree pseudo ccc; var petallen petalwid sepallen sepalwid; copy species;run;可以顯示如下的聚類過程(節(jié)略): T Pseudo Pseudo i NCL -Clusters Joined- FREQ SPRSQ RSQ ERSQ CCC F t*2 e 149 OB16 OB76 2 0.
15、000000 1.0000 . . . . 148 OB2 OB58 2 0.000007 1.0000 . . 1854.1 . T 147 OB96 OB107 2 0.000007 1.0000 . . 1400.1 . T 146 OB89 OB113 2 0.000007 1.0000 . . 1253.1 . T 145 OB65 OB126 2 0.000007 1.0000 . . 1182.9 . T 25 CL50 OB57 7 0.000634 0.9824 0.973335 6.446 291.0 5.6 24 CL78 CL62 7 0.000742 0.9817 0
16、.972254 6.430 293.5 9.8 23 CL68 CL38 9 0.000805 0.9809 0.971101 6.404 296.0 6.9 22 CL30 OB137 6 0.000896 0.9800 0.969868 6.352 298.3 5.1 21 CL70 CL33 4 0.000976 0.9790 0.968545 6.290 300.7 3.2 20 CL36 OB25 10 0.001087 0.9779 0.967119 6.206 302.9 9.8 19 CL40 CL22 19 0.001141 0.9768 0.965579 6.146 306
17、.1 7.7 18 CL25 CL39 10 0.001249 0.9755 0.963906 6.082 309.5 6.2 17 CL29 CL45 16 0.001351 0.9742 0.962081 6.026 313.5 8.2 16 CL34 CL32 15 0.001462 0.9727 0.960079 5.984 318.4 9.0 15 CL24 CL28 15 0.001641 0.9711 0.957871 5.929 323.7 9.8 14 CL21 CL53 7 0.001873 0.9692 0.955418 5.850 329.2 5.1 13 CL18 C
18、L48 15 0.002271 0.9669 0.952670 5.690 333.8 8.9 12 CL16 CL23 24 0.002274 0.9647 0.949541 4.632 342.4 9.6 11 CL14 CL43 12 0.002500 0.9622 0.945886 4.675 353.3 5.8 10 CL26 CL20 22 0.002694 0.9595 0.941547 4.811 368.1 12.9 9 CL27 CL17 31 0.003060 0.9564 0.936296 5.018 386.6 17.8 8 CL35 CL15 23 0.003095
19、 0.9533 0.929791 5.443 414.1 13.8 7 CL10 CL47 26 0.005811 0.9475 0.921496 5.426 430.1 19.1 6 CL8 CL13 38 0.006042 0.9414 0.910514 5.806 463.1 16.3 5 CL9 CL19 50 0.010532 0.9309 0.895232 5.817 488.5 43.2 4 CL12 CL11 36 0.017245 0.9137 0.872331 3.987 515.1 41.0 3 CL6 CL7 64 0.030051 0.8836 0.826664 4.
20、329 558.1 57.2 2 CL4 CL3 100 0.111026 0.7726 0.696871 3.833 502.8 115.6 1 CL5 CL2 150 0.772595 0.0000 0.000000 0.000 . 502.8偽F圖形CCC圖形偽圖形半偏圖形這個輸出列出了把150個觀測每次合并兩類,共合并149次的過程。NCL列指定了聚類水平G (即這一步存在的單獨的類數(shù))?!?Clusters Joined-”為兩列,指明這一步合并了哪兩個類。其中OBxxx表示哪一個原始觀測,而CLxxx表示在哪一個聚類水平上產(chǎn)生的類。比如,NCL為149時合并的是OB16和OB76,
21、即16 號觀測和76號觀測,NCL為1(最后一次合并)合并的是CL5和CL2,即類水平為5時得到的類和類水平為2時得到的類,CL5又是由CL9和CL19合并得到的,CL2是由CL4和CL3合并得到的,等等。FREQ表示這次合并得到的類有多少個觀測。SPRSQ是半偏 ,RSQ是 ,ERSQ是在均勻零假設(shè)下的 的近似期望值,CCC為CCC統(tǒng)計量,Pseudo F 為偽F統(tǒng)計量,Pseudo t*2為偽 統(tǒng)計量,Norm RMS Dist是正規(guī)化的的兩類元素間距離的均方根,Tie指示距離最小的候選類對是否有多對。因為我們假裝不知道數(shù)據(jù)的實際分類情況,所以我們必
22、須找到一個合理的分類個數(shù)。為此,考察CCC、偽F、偽 和半偏 統(tǒng)計量。我們打開INSIGHT界面,調(diào)入上面產(chǎn)生的OTREE數(shù)據(jù)集,繪制各統(tǒng)計量的圖形。因為類水平太大時的信息沒有多少用處,所以我們對OTREE數(shù)據(jù)集取其類水平不超過30的觀測,即:data ot; set otree; where _ncl_ <= 30;run;各統(tǒng)計量的圖形見圖2圖5。CCC統(tǒng)計量建議取5類或3類(局部最大值),偽F建議3類(局部最大值),偽 建議3類(局部最大值處是不應(yīng)合并的,即局部最大值處的類數(shù)加1),半偏 建議3類。由這些指標看比較一致的是3類,其次是5類。為了看為什么不能明顯地分為三類,我們對四個變量求主分量,畫出前兩個主分量的散點圖(見圖6)。可以看出Setosa(紅色)與其它兩類分得很開,而Versicolor(綠色)與Virg
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 旅行的策劃與感悟
- 2025年度電子產(chǎn)品全球配送與售后維護服務(wù)合同4篇
- 2025年度智能環(huán)保型廠房出售買賣協(xié)議書4篇
- 2025年度文化產(chǎn)業(yè)廠房購置及運營合作協(xié)議4篇
- 個人借貸抵押協(xié)議標準打印版2024年適用版B版
- 2025年度高科技廠房租賃合同(含知識產(chǎn)權(quán)保護)標準樣本4篇
- 個人專項資金貸款合同范本:2024年版B版
- 2024科技創(chuàng)新項目引薦服務(wù)合作合同一
- 2025年度供應(yīng)鏈金融合同履行的信用增級擔(dān)保服務(wù)3篇
- 2024版特定擔(dān)保書增補協(xié)議上訴文件版B版
- 起重機的維護保養(yǎng)要求與月度、年度檢查記錄表
- 消防設(shè)施維護保養(yǎng)記錄表
- 城區(qū)生活垃圾填埋場封場項目 投標方案(技術(shù)方案)
- 垃圾分類巡檢督導(dǎo)方案
- 大一護理生涯發(fā)展展示
- 五年級上冊數(shù)學(xué)應(yīng)用題100題及答案
- 中國綠色食品市場調(diào)查與分析報告
- 新生兒急救與復(fù)蘇培訓(xùn)
- 外貿(mào)跟單員工作總結(jié)PPT
- UG-NX-8.5標準教程課件
- 神經(jīng)科2023年度工作總結(jié)及2024年度計劃
評論
0/150
提交評論