第四章聚類分析

上傳人：2*** IP屬地：湖北上傳時(shí)間：2023-02-05 格式：PPT 頁數(shù)：53 大?。?.08MB 積分：30 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩48頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第四章聚類分析聚類分析(clusteranalysis)是研究分類問題的多元數(shù)據(jù)分析方法。聚類分析有極其廣泛的分類背景。在經(jīng)濟(jì)學(xué)中，為了了解不同地區(qū)城鎮(zhèn)居民的收入及消費(fèi)情況，往往需要?jiǎng)澐植煌念愋腿パ芯?；在產(chǎn)品質(zhì)量管理中，要根據(jù)各產(chǎn)品的某些重要指標(biāo)而將其分為一等品、二等品等；在生物學(xué)中，要根據(jù)各生物體的綜合特征進(jìn)行分類；又如在考古學(xué)中，要對(duì)某些古生物化石進(jìn)行科學(xué)的分類，等等．隨著人類社會(huì)的發(fā)展與科學(xué)技術(shù)的進(jìn)步，對(duì)分類學(xué)的要求也越來越高。只憑經(jīng)驗(yàn)或?qū)I(yè)知識(shí)對(duì)研究對(duì)象進(jìn)行分類，往往很不夠，有時(shí)不能進(jìn)行確切的分類。于是數(shù)學(xué)被引進(jìn)分類學(xué)中，形成了數(shù)值分類學(xué)。隨著多元數(shù)據(jù)分析方法研究的深入，在數(shù)值分類學(xué)中形成了聚類分析這一分支。聚類分析是多元數(shù)據(jù)分析的重要組成部分?！?.1聚類的目的多元數(shù)據(jù)形成數(shù)據(jù)矩陣，見表4.1。共有n個(gè)樣品，p個(gè)指標(biāo)x1,x2,…xp。聚類分析有2兩種類型：對(duì)樣品聚類或?qū)ψ兞?指標(biāo))聚類。表4.1

數(shù)據(jù)矩陣指標(biāo)樣品

x2…xj

…xp12…i…n

x11

x12…x1j

…x1px21

x22…x1j…x2p……………….

xi1

xi2…xij…xip………………xk1

xk2…xkj…xnp注意：變量(指標(biāo))的選取，取決于聚類的目的。數(shù)據(jù)的類型有間隔尺度、有序尺度和名義尺度，主要討論間隔尺度。聚類分析的基本思想是在樣品之間定義距離，在變量之間定義相似系數(shù),距離或相似系數(shù)代表樣品或變量之間的相似程度。按相似程度的大小,將樣品(或變量)逐一歸類，形成一個(gè)表示親疏關(guān)系的聚類圖，依次按照某些要求對(duì)樣品(或變量)進(jìn)行分類。聚類分析的方法很多,如系統(tǒng)聚類法、動(dòng)態(tài)聚類法、分解法、加入法、模糊聚類法、有序樣品聚類法等，我們重點(diǎn)介紹系統(tǒng)聚類法和快速(動(dòng)態(tài))聚類法。作為聚類分析的出發(fā)點(diǎn)，先介紹分類統(tǒng)計(jì)量—距離與相似系數(shù)。每個(gè)樣品可看成p維空間的一個(gè)點(diǎn)，n個(gè)樣品組成p維空間的n個(gè)點(diǎn)。我們自然用各點(diǎn)之間的距離來衡量樣品之間的相似程度（或靠近程度）?！?.2距離和相似系數(shù)定義4.1

設(shè)E是一個(gè)點(diǎn)的集合,d.,.是E到[0,∞]的函數(shù),滿足：a.dij≥0，i,jE;b.dij=0

,當(dāng)且僅當(dāng)i=j;d.dijdik+dkj

，i,j,kE。則稱dij為i與j之間的距離。c.dij=dji，i,jE;定義4.1

設(shè)E是一個(gè)點(diǎn)的集合,d.,.是E到[0,∞]的函數(shù),滿足：a.dij≥0，i,jE;b.dij=0

,當(dāng)且僅當(dāng)i=j;d.dijdik+dkj

，i,j,kE。則稱dij為i與j之間的距離。c.dij=dji，i,jE;當(dāng)條件加強(qiáng)為d.dijmax{dik,dkj}時(shí)，相應(yīng)的距離稱為極端距離。常用的距離是明考斯基(Minkowski)距離當(dāng)q=1,2,∞時(shí)分別得到Chebyshev(切比雪夫)

距離歐氏距離絕對(duì)距離以上距離與各變量指標(biāo)的量綱有關(guān)，為消除量綱的影響，有時(shí)應(yīng)先對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化，然后用標(biāo)準(zhǔn)化數(shù)據(jù)計(jì)算距離。標(biāo)準(zhǔn)化數(shù)據(jù)樣品之間聚類主要用到以上提到的各種距離。樣品聚類通常稱為Q型聚類。在SAS系統(tǒng)中，采用歐氏距離聚類或先將數(shù)據(jù)標(biāo)準(zhǔn)化，再計(jì)算歐氏距離進(jìn)行聚類。

當(dāng)對(duì)p個(gè)指標(biāo)變量進(jìn)行聚類時(shí)，用相似系數(shù)來衡量變量之間相似程度(或關(guān)聯(lián)性程度)。相似系數(shù)中最常用的是相關(guān)系數(shù)與夾角余弦。變量xi,xj的夾角余弦為

變量xi,xj的相關(guān)系數(shù)為

變量聚類通常稱為R型聚類。有時(shí)變量之間也可以用距離來描述他們的接近程度。實(shí)際上距離和相似系數(shù)之間可以相互轉(zhuǎn)化。若dij是一個(gè)距離，則是相似系數(shù)，若dij是相似系數(shù)，則可令或這樣轉(zhuǎn)換得到的距離不一定符合距離定義，但用它可以實(shí)現(xiàn)聚類?！?.3類和類的特征一、類用G表示類。設(shè)G中有k個(gè)元素，用i,j等簡(jiǎn)示。定義4.2

T為一給定的閾值，如果對(duì)任意的i,jG有

dij≤T，則稱G為一個(gè)類。定義4.3對(duì)閾值T，如果對(duì)每個(gè)iG有則稱G為一個(gè)類。定義4.4對(duì)閾值T、V,如果則稱G為一個(gè)類。二、類的特征類G的元素用X1,X2,…,Xm表示,m為G內(nèi)的樣品數(shù)(或變量數(shù)),可從不同的角度刻畫G的特征,常用的特征有(1)均值或稱為類G的重心(2)樣本散布陣及協(xié)方差陣(3)G的直徑有多種定義，例如三、類與類之間的距離設(shè)兩個(gè)類Gp,Gq分別含有np和nq個(gè)樣品，它們之間的距離用D(p,q)表示，下面是一些常用的定義：（1）最短距離法它等于Gp和Gq中最近的兩個(gè)樣品的距離。（1）最短距離法（2）最長(zhǎng)距離法它等于Gp和Gq中最近的兩個(gè)樣品的距離。它等于Gp和Gq中最遠(yuǎn)的兩個(gè)樣品的距離。（3）重心法它等于兩重心和之間的距離。（5）最小方差法（離差平方和法）它與重心法只差一個(gè)常數(shù)倍。離差平方和法是由Ward提出，又稱Ward法。（4）類平均距離法它等于Gp和Gq中任兩個(gè)樣品距離的平均。四、類間距離的遞推公式設(shè)類Gr由類Gp,Gq合并所得，則Gr包含nr=np+nq個(gè)樣品。我們的問題是：如何由類Gp和Gq計(jì)算其他類Gk與Gr之間的距離。即建立類間距離的遞推公式。（1）最短距離法（2）最長(zhǎng)距離法（3）類平均距離法

（4）重心法（5）離差平方和法當(dāng)樣品間采用歐氏距離時(shí),則上述類間距離的遞推公式有如下的統(tǒng)一形式:其參數(shù)見下表。這種形式為編程提供了極大方便。

方法pq最短距離法最長(zhǎng)距離法類平均法重心法離差平方和法1/21/2np/nrnp/nr(nk+np)/(nk+nr)1/21/2nq/nrnq/nr(nk+nq)/(nk+nr)000pq-nk/(nk+nr)-1/21/2000其參數(shù)見下表。這種形式為編程提供了極大方便。§4.4系統(tǒng)聚類法一、系統(tǒng)聚類法的步驟(A)計(jì)算n個(gè)樣品兩兩間的距離{dij}，記作D=(dij)；(B)構(gòu)造n個(gè)類，每個(gè)類只包含一個(gè)樣品；(C)合并距離最近的兩類為一新類；(D)計(jì)算新類與當(dāng)前各類的距離。若類的個(gè)數(shù)等于1，轉(zhuǎn)到步驟(E)，否則回到步驟(C)；(E)畫聚類圖；(F)決定類的個(gè)數(shù)和類。每一種類間距離用到上述系統(tǒng)聚類程序中就得到一種系統(tǒng)聚類法。通過一個(gè)例子來說明系統(tǒng)聚類法。

例4.1

為研究遼寧、浙江、河南、甘肅、青海5省份1991年城鎮(zhèn)居民生活消費(fèi)規(guī)律，需要利用調(diào)查資料對(duì)這5個(gè)省份分類。指標(biāo)變量共8個(gè)，含義如下:數(shù)據(jù)如下表。將每個(gè)省份的數(shù)據(jù)看成一個(gè)樣品，計(jì)算樣品之間的歐氏距離矩陣。

x1:人均糧食支出，x2:人均副食支出，

x3:人均煙酒茶支出，

x4:人均其他副食支出，

x5:人均衣著商品支出，

x6:人均日用品支出，

x7:人均燃料支出，x8:人均非商品指出。1991年5省城鎮(zhèn)居民月均消費(fèi)(單位：元／人)

指標(biāo)省份

x8遼寧浙江河南甘肅青海

7.9039.778.4912.9419.2711.052.0413.297.6850.3711.3513.3019.2514.592.7514.879.4227.938.208.1416.179.421.559.769.1627.989.019.3215.999.101.8211.3510.0628.6410.5210.0516.188.391.9610.81解:

以1,2,3,4,5分別表示遼寧、浙江、河南、甘肅、青海5個(gè)省(樣品),計(jì)算每?jī)蓚€(gè)樣品之間的歐氏距離。如從而得初始距離矩陣如下：將5個(gè)省各看成一類，即Gi={i},i=1,2,3,4,5。有Dij=dij從D(0)看出，d43=2.20最小，故將G3,G4合并成一個(gè)新類G6={3，4}。計(jì)算G6與G1,G2,G5之間的距離得

{1}{2}{3}{4}{5}{1}{2}{3}{4}{5}D61=min{d31,d41}={13.80,13.12}=13.12D62=min{d32,d42}={24.63,24.06}=24.06D65=min{d35,d45}={3.51,2.21}=2.21(為簡(jiǎn)單記Ds(p,q)為Dpq)從而得D(1)G6={3,4}{1}{2}{5}{3,4}=G6{1}{2}{5}D61=min{d31,d41}={13.80,13.12}=13.12D62=min{d32,d42}={24.63,24.06}=24.06D65=min{d35,d45}={3.51,2.21}=2.21從D(1)看出，G6到G5的距離2.21為最小，故將G6,G5合并成一個(gè)新類G7={G6，G5}。計(jì)算G7與G1,G2之間的距離得G6={3,4}{1}{2}{5}{3,4}=G6{1}{2}{5}D71=min{d61,d51}={13.12,12.80}=12.80D72=min{d62,d52}={24.06,23.54}=23.54從D(1)看出，G6到G5的距離2.21為最小，故將G6,G5合并成一個(gè)新類G7={G6，G5}。計(jì)算G7與G1,G2之間的距離得從而得D(2)G7={3,4,5}{1}{2}{3,4,5}=G7{1}{2}D71=min{d61,d51}={13.12,12.80}=12.80D72=min{d62,d52}={24.06,23.54}=23.54從D(2)看出，G1到G2的距離11.67為最小，故將G1,G2合并成一個(gè)新類G8={G1，G2}={1,2}。計(jì)算G8與G7之間的距離得從而得D(2)D87=min{d17,d27}={12.80,23.54}=12.80G7={3,4,5}{1,2}=G8{3,4,5}=G7{1,2}=G8最后將G7,G8合并成一類G9={G7,G8}={1,2,3,4,5}。按照上述聚類過程，畫聚類圖。從而得D(3)D87=min{d17,d27}={12.80,23.54}=12.80(1)G6={G3,G4}，距離=2.20；(2)G7={G6,G5}，距離=2.21；(3)G8={G1,G2}，距離=11.67;(4)G9={G7,G8}，距離=12.80。(1)G6={G3,G4}，距離=2.20；(2)G7={G6,G5}，距離=2.21；(3)G8={G1,G2}，距離=11.67;(4)G9={G7,G8}，距離=12.80。1遼寧2浙江3河南4甘肅5青海02468101214距離同理，可用最長(zhǎng)距離法進(jìn)行聚類，可作為練習(xí)。系統(tǒng)聚類可用SAS過程cluster來實(shí)現(xiàn)。上例的SAS程序如下：dataex4_1;inputprovince$x1-x8;cards;遼寧7.9039.778.4912.9419.2711.052.0413.29浙江7.6850.3711.3513.3019.2514.592.7514.87河南9.4227.938.208.1416.179.421.559.76甘肅9.1627.989.019.3215.999.101.8211.35青海10.0628.6410.5210.0516.188.391.9610.81;procclustermethod=sinnonormouttree=ex4_1t;varx1-x8;idprovince;proctreedata=ex4_1thorizontal;idprovince;run;過程步說明：procclustermethod=sinnonormouttree=ex4_1t;varx1-x8;idprovince;proctreedata=ex4_1thorizontal;idprovince;run;method=聚類方法；ave—

類平均法；cen—

重心法;com—最長(zhǎng)距離法;sin—最短距離法;war—

Ward法。nonorm—數(shù)據(jù)不變換；std—對(duì)數(shù)據(jù)標(biāo)準(zhǔn)化變換。outtree=數(shù)據(jù)集名，畫聚類圖時(shí)使用。id樣品變量名。tree畫聚類圖過程；horizontal畫水平聚類圖，缺省為垂直聚類圖。輸出結(jié)果：（1）聚類過程（2）聚類圖(sin最短距離法)（2）聚類圖(com最長(zhǎng)距離法)（2）聚類圖(ave類平均法)（2）聚類圖(cen重心法)（2）聚類圖(ward離差平方和法)聚類方法不同，聚類結(jié)果也不盡相同。二、系統(tǒng)聚類法的統(tǒng)計(jì)量聚類分析中，分多少類合適，是我們關(guān)心的問題。一個(gè)較好的聚類應(yīng)該是類內(nèi)各樣品盡可能相似，類間差異較大。下面介紹幾種有助于分類的統(tǒng)計(jì)量。Sk越小，說明Gk中各樣品越相似。記設(shè)在某水平上分為G個(gè)類，類Gk中樣品的類內(nèi)離差平方和為1.R2統(tǒng)計(jì)量類內(nèi)離差平方和為1.R2統(tǒng)計(jì)量總離差平方和為則R2統(tǒng)計(jì)量為R2=1-PG/T顯然0R21則R2統(tǒng)計(jì)量為R2=1-PG/T顯然0R21當(dāng)n個(gè)樣品各自為一類時(shí)，R2=1；當(dāng)n個(gè)樣品合并成一類時(shí)，R2=0。

R2的值隨分類個(gè)數(shù)的減少而減小，當(dāng)R2由平緩減小到“突變”減小時(shí)的G，G即為分類個(gè)數(shù)的參考值。設(shè)類Gp，Gq的離差平方和分別為2.半偏相關(guān)統(tǒng)計(jì)量設(shè)類Gp，Gq的離差平方和分別為2.半偏相關(guān)統(tǒng)計(jì)量將Gp，Gq合并成Gr后的離差平方和為合并后離差平方和的增加量為Wpq=Sr-Sp-Sq由類Gp,Gq合并成Gr時(shí)半偏相關(guān)統(tǒng)計(jì)量SPRSQ為SPRSQ=Wpq/T當(dāng)SPRSQ值越大時(shí)，說明上一次合并效果越好。偽F統(tǒng)計(jì)量PSF是3.偽F統(tǒng)計(jì)量PSF值越大，表示這些樣品可顯著地分為G類。偽t2

統(tǒng)計(jì)量PST2是PST2值越大，表示上一次聚類效果越好。4.偽t2統(tǒng)計(jì)量例4.2

山東省2000年17地市農(nóng)村居民和城鎮(zhèn)居民消費(fèi)水平如下表，試對(duì)17個(gè)地市進(jìn)行分類。表42000年17地市居民消費(fèi)水平(絕對(duì)額，單位：元）資料來源：《山東省統(tǒng)計(jì)年鑒》，2001序號(hào)地農(nóng)村居城鎮(zhèn)居區(qū)民(x1)民(x2)序號(hào)地農(nóng)村居城鎮(zhèn)居區(qū)民(x1)民(x2)123456789濟(jì)南市22988182青島市26417983淄博市25855333棗莊市26085172東營(yíng)市20858171煙臺(tái)市32297173濰坊市23256590濟(jì)寧市19064906泰安市209465641011121314151617威海市29527734日照市21655258萊蕪市21125629臨沂市16894593德州市11574218聊城市12974371濱州市22685267菏澤市12573310dataex4_2;inputgroup$x1-x2;cards;濟(jì)南市22988182青島市26417983…………菏澤市12573310;procclustermethod=avestdrsqpseudoouttree=ex4_2t;varx1-x2;idgroup;run;proctreedata=ex4_2thorizontal;idgroup;run;rsq—R2統(tǒng)計(jì)量和半偏相關(guān)統(tǒng)計(jì)量SPRSQ；pseudo—偽F統(tǒng)計(jì)量和偽t2統(tǒng)計(jì)量。解SAS程序如下：輸出結(jié)果：類平均法聚類統(tǒng)計(jì)量從R2(RSQ)看，從2類至1類下降最大(0.578~0.000),又G=1時(shí)，SPRSQ達(dá)最大，說明分2類合適。類平均法聚類圖§4.4

快速聚類法系統(tǒng)聚類法的缺點(diǎn)是計(jì)算量大。所以產(chǎn)生了快速聚類法，也稱動(dòng)態(tài)聚類法。目前在數(shù)據(jù)挖掘中應(yīng)用較為廣泛?？焖倬垲惙ㄏ葘悠反致缘胤忠幌骂?，然后按照某種原則進(jìn)行調(diào)整，直至分類比較合理為止。動(dòng)態(tài)聚類框圖如下：選擇聚點(diǎn)初始分類分類是否合理最終分類修改分類合理不合理動(dòng)態(tài)聚類法要先給定分類數(shù)k，選擇k個(gè)聚點(diǎn)(種子)，即有代表性的樣品。選擇聚點(diǎn)(初始聚點(diǎn))的方法有：

(1)經(jīng)驗(yàn)選擇。(2)將n個(gè)樣品隨機(jī)分為k類，每類的重心作為聚點(diǎn)。

(3)最小最大原則。（略）

SAS系統(tǒng)的fastclus過程中，分類數(shù)k給定后，種子自動(dòng)確定。然后按照一定的規(guī)則（略）進(jìn)行聚類。例4.3

從12個(gè)不同地區(qū)測(cè)得了某樹種的平均發(fā)芽率x1與發(fā)芽勢(shì)x2，數(shù)據(jù)見下表，距離采用歐氏距離，將12個(gè)地區(qū)用快速聚類法聚為2類。例4.3

從12個(gè)不同地區(qū)測(cè)得了某樹種的平均發(fā)芽率x1與發(fā)芽勢(shì)x2，數(shù)據(jù)見下表，距離采用歐氏距離，將12個(gè)地區(qū)用快速聚類法聚為2類。地區(qū)

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

第四章聚類分析

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

第四章 聚類分析

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔

第四章聚類分析