第四章 聚類分析_第1頁
第四章 聚類分析_第2頁
第四章 聚類分析_第3頁
第四章 聚類分析_第4頁
第四章 聚類分析_第5頁
已閱讀5頁,還剩48頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第四章聚類分析聚類分析(clusteranalysis)是研究分類問題的多元數(shù)據(jù)分析方法。聚類分析有極其廣泛的分類背景。在經(jīng)濟(jì)學(xué)中,為了了解不同地區(qū)城鎮(zhèn)居民的收入及消費(fèi)情況,往往需要?jiǎng)澐植煌念愋腿パ芯?;在產(chǎn)品質(zhì)量管理中,要根據(jù)各產(chǎn)品的某些重要指標(biāo)而將其分為一等品、二等品等;在生物學(xué)中,要根據(jù)各生物體的綜合特征進(jìn)行分類;又如在考古學(xué)中,要對(duì)某些古生物化石進(jìn)行科學(xué)的分類,等等.隨著人類社會(huì)的發(fā)展與科學(xué)技術(shù)的進(jìn)步,對(duì)分類學(xué)的要求也越來越高。只憑經(jīng)驗(yàn)或?qū)I(yè)知識(shí)對(duì)研究對(duì)象進(jìn)行分類,往往很不夠,有時(shí)不能進(jìn)行確切的分類。于是數(shù)學(xué)被引進(jìn)分類學(xué)中,形成了數(shù)值分類學(xué)。隨著多元數(shù)據(jù)分析方法研究的深入,在數(shù)值分類學(xué)中形成了聚類分析這一分支。聚類分析是多元數(shù)據(jù)分析的重要組成部分?!?.1聚類的目的多元數(shù)據(jù)形成數(shù)據(jù)矩陣,見表4.1。共有n個(gè)樣品,p個(gè)指標(biāo)x1,x2,…xp。聚類分析有2兩種類型:對(duì)樣品聚類或?qū)ψ兞?指標(biāo))聚類。表4.1

數(shù)據(jù)矩陣指標(biāo)樣品

x1

x2…xj

…xp12…i…n

x11

x12…x1j

…x1px21

x22…x1j…x2p……………….

xi1

xi2…xij…xip………………xk1

xk2…xkj…xnp注意:變量(指標(biāo))的選取,取決于聚類的目的。數(shù)據(jù)的類型有間隔尺度、有序尺度和名義尺度,主要討論間隔尺度。聚類分析的基本思想是在樣品之間定義距離,在變量之間定義相似系數(shù),距離或相似系數(shù)代表樣品或變量之間的相似程度。按相似程度的大小,將樣品(或變量)逐一歸類,形成一個(gè)表示親疏關(guān)系的聚類圖,依次按照某些要求對(duì)樣品(或變量)進(jìn)行分類。聚類分析的方法很多,如系統(tǒng)聚類法、動(dòng)態(tài)聚類法、分解法、加入法、模糊聚類法、有序樣品聚類法等,我們重點(diǎn)介紹系統(tǒng)聚類法和快速(動(dòng)態(tài))聚類法。作為聚類分析的出發(fā)點(diǎn),先介紹分類統(tǒng)計(jì)量—距離與相似系數(shù)。每個(gè)樣品可看成p維空間的一個(gè)點(diǎn),n個(gè)樣品組成p維空間的n個(gè)點(diǎn)。我們自然用各點(diǎn)之間的距離來衡量樣品之間的相似程度(或靠近程度)?!?.2距離和相似系數(shù)定義4.1

設(shè)E是一個(gè)點(diǎn)的集合,d.,.是E到[0,∞]的函數(shù),滿足:a.dij≥0,i,jE;b.dij=0

,當(dāng)且僅當(dāng)i=j;d.dijdik+dkj

,i,j,kE。則稱dij為i與j之間的距離。c.dij=dji,i,jE;定義4.1

設(shè)E是一個(gè)點(diǎn)的集合,d.,.是E到[0,∞]的函數(shù),滿足:a.dij≥0,i,jE;b.dij=0

,當(dāng)且僅當(dāng)i=j;d.dijdik+dkj

,i,j,kE。則稱dij為i與j之間的距離。c.dij=dji,i,jE;當(dāng)條件加強(qiáng)為d.dijmax{dik,dkj}時(shí),相應(yīng)的距離稱為極端距離。常用的距離是明考斯基(Minkowski)距離當(dāng)q=1,2,∞時(shí)分別得到Chebyshev(切比雪夫)

距離歐氏距離絕對(duì)距離以上距離與各變量指標(biāo)的量綱有關(guān),為消除量綱的影響,有時(shí)應(yīng)先對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,然后用標(biāo)準(zhǔn)化數(shù)據(jù)計(jì)算距離。標(biāo)準(zhǔn)化數(shù)據(jù)樣品之間聚類主要用到以上提到的各種距離。樣品聚類通常稱為Q型聚類。在SAS系統(tǒng)中,采用歐氏距離聚類或先將數(shù)據(jù)標(biāo)準(zhǔn)化,再計(jì)算歐氏距離進(jìn)行聚類。

當(dāng)對(duì)p個(gè)指標(biāo)變量進(jìn)行聚類時(shí),用相似系數(shù)來衡量變量之間相似程度(或關(guān)聯(lián)性程度)。相似系數(shù)中最常用的是相關(guān)系數(shù)與夾角余弦。變量xi,xj的夾角余弦為

變量xi,xj的相關(guān)系數(shù)為

變量聚類通常稱為R型聚類。有時(shí)變量之間也可以用距離來描述他們的接近程度。實(shí)際上距離和相似系數(shù)之間可以相互轉(zhuǎn)化。若dij是一個(gè)距離,則是相似系數(shù),若dij是相似系數(shù),則可令或這樣轉(zhuǎn)換得到的距離不一定符合距離定義,但用它可以實(shí)現(xiàn)聚類?!?.3類和類的特征一、類用G表示類。設(shè)G中有k個(gè)元素,用i,j等簡(jiǎn)示。定義4.2

T為一給定的閾值,如果對(duì)任意的i,jG有

dij≤T,則稱G為一個(gè)類。定義4.3對(duì)閾值T,如果對(duì)每個(gè)iG有則稱G為一個(gè)類。定義4.4對(duì)閾值T、V,如果則稱G為一個(gè)類。二、類的特征類G的元素用X1,X2,…,Xm表示,m為G內(nèi)的樣品數(shù)(或變量數(shù)),可從不同的角度刻畫G的特征,常用的特征有(1)均值或稱為類G的重心(2)樣本散布陣及協(xié)方差陣(3)G的直徑有多種定義,例如三、類與類之間的距離設(shè)兩個(gè)類Gp,Gq分別含有np和nq個(gè)樣品,它們之間的距離用D(p,q)表示,下面是一些常用的定義:(1)最短距離法它等于Gp和Gq中最近的兩個(gè)樣品的距離。(1)最短距離法(2)最長(zhǎng)距離法它等于Gp和Gq中最近的兩個(gè)樣品的距離。它等于Gp和Gq中最遠(yuǎn)的兩個(gè)樣品的距離。(3)重心法它等于兩重心和之間的距離。(5)最小方差法(離差平方和法)它與重心法只差一個(gè)常數(shù)倍。離差平方和法是由Ward提出,又稱Ward法。(4)類平均距離法它等于Gp和Gq中任兩個(gè)樣品距離的平均。四、類間距離的遞推公式設(shè)類Gr由類Gp,Gq合并所得,則Gr包含nr=np+nq個(gè)樣品。我們的問題是:如何由類Gp和Gq計(jì)算其他類Gk與Gr之間的距離。即建立類間距離的遞推公式。(1)最短距離法(2)最長(zhǎng)距離法(3)類平均距離法

(4)重心法(5)離差平方和法當(dāng)樣品間采用歐氏距離時(shí),則上述類間距離的遞推公式有如下的統(tǒng)一形式:其參數(shù)見下表。這種形式為編程提供了極大方便。

方法pq最短距離法最長(zhǎng)距離法類平均法重心法離差平方和法1/21/2np/nrnp/nr(nk+np)/(nk+nr)1/21/2nq/nrnq/nr(nk+nq)/(nk+nr)000pq-nk/(nk+nr)-1/21/2000其參數(shù)見下表。這種形式為編程提供了極大方便。§4.4系統(tǒng)聚類法一、系統(tǒng)聚類法的步驟(A)計(jì)算n個(gè)樣品兩兩間的距離{dij},記作D=(dij);(B)構(gòu)造n個(gè)類,每個(gè)類只包含一個(gè)樣品;(C)合并距離最近的兩類為一新類;(D)計(jì)算新類與當(dāng)前各類的距離。若類的個(gè)數(shù)等于1,轉(zhuǎn)到步驟(E),否則回到步驟(C);(E)畫聚類圖;(F)決定類的個(gè)數(shù)和類。每一種類間距離用到上述系統(tǒng)聚類程序中就得到一種系統(tǒng)聚類法。通過一個(gè)例子來說明系統(tǒng)聚類法。

例4.1

為研究遼寧、浙江、河南、甘肅、青海5省份1991年城鎮(zhèn)居民生活消費(fèi)規(guī)律,需要利用調(diào)查資料對(duì)這5個(gè)省份分類。指標(biāo)變量共8個(gè),含義如下:數(shù)據(jù)如下表。將每個(gè)省份的數(shù)據(jù)看成一個(gè)樣品,計(jì)算樣品之間的歐氏距離矩陣。

x1:人均糧食支出,x2:人均副食支出,

x3:人均煙酒茶支出,

x4:人均其他副食支出,

x5:人均衣著商品支出,

x6:人均日用品支出,

x7:人均燃料支出,x8:人均非商品指出。1991年5省城鎮(zhèn)居民月均消費(fèi)(單位:元/人)

指標(biāo)省份

x1

x2

x3

x4

x5

x6

x7

x8遼寧浙江河南甘肅青海

7.9039.778.4912.9419.2711.052.0413.297.6850.3711.3513.3019.2514.592.7514.879.4227.938.208.1416.179.421.559.769.1627.989.019.3215.999.101.8211.3510.0628.6410.5210.0516.188.391.9610.81解:

以1,2,3,4,5分別表示遼寧、浙江、河南、甘肅、青海5個(gè)省(樣品),計(jì)算每?jī)蓚€(gè)樣品之間的歐氏距離。如從而得初始距離矩陣如下:將5個(gè)省各看成一類,即Gi={i},i=1,2,3,4,5。有Dij=dij從D(0)看出,d43=2.20最小,故將G3,G4合并成一個(gè)新類G6={3,4}。計(jì)算G6與G1,G2,G5之間的距離得

{1}{2}{3}{4}{5}{1}{2}{3}{4}{5}D61=min{d31,d41}={13.80,13.12}=13.12D62=min{d32,d42}={24.63,24.06}=24.06D65=min{d35,d45}={3.51,2.21}=2.21(為簡(jiǎn)單記Ds(p,q)為Dpq)從而得D(1)G6={3,4}{1}{2}{5}{3,4}=G6{1}{2}{5}D61=min{d31,d41}={13.80,13.12}=13.12D62=min{d32,d42}={24.63,24.06}=24.06D65=min{d35,d45}={3.51,2.21}=2.21從D(1)看出,G6到G5的距離2.21為最小,故將G6,G5合并成一個(gè)新類G7={G6,G5}。計(jì)算G7與G1,G2之間的距離得G6={3,4}{1}{2}{5}{3,4}=G6{1}{2}{5}D71=min{d61,d51}={13.12,12.80}=12.80D72=min{d62,d52}={24.06,23.54}=23.54從D(1)看出,G6到G5的距離2.21為最小,故將G6,G5合并成一個(gè)新類G7={G6,G5}。計(jì)算G7與G1,G2之間的距離得從而得D(2)G7={3,4,5}{1}{2}{3,4,5}=G7{1}{2}D71=min{d61,d51}={13.12,12.80}=12.80D72=min{d62,d52}={24.06,23.54}=23.54從D(2)看出,G1到G2的距離11.67為最小,故將G1,G2合并成一個(gè)新類G8={G1,G2}={1,2}。計(jì)算G8與G7之間的距離得從而得D(2)D87=min{d17,d27}={12.80,23.54}=12.80G7={3,4,5}{1,2}=G8{3,4,5}=G7{1,2}=G8最后將G7,G8合并成一類G9={G7,G8}={1,2,3,4,5}。按照上述聚類過程,畫聚類圖。從而得D(3)D87=min{d17,d27}={12.80,23.54}=12.80(1)G6={G3,G4},距離=2.20;(2)G7={G6,G5},距離=2.21;(3)G8={G1,G2},距離=11.67;(4)G9={G7,G8},距離=12.80。(1)G6={G3,G4},距離=2.20;(2)G7={G6,G5},距離=2.21;(3)G8={G1,G2},距離=11.67;(4)G9={G7,G8},距離=12.80。1遼寧2浙江3河南4甘肅5青海02468101214距離同理,可用最長(zhǎng)距離法進(jìn)行聚類,可作為練習(xí)。系統(tǒng)聚類可用SAS過程cluster來實(shí)現(xiàn)。上例的SAS程序如下:dataex4_1;inputprovince$x1-x8;cards;遼寧7.9039.778.4912.9419.2711.052.0413.29浙江7.6850.3711.3513.3019.2514.592.7514.87河南9.4227.938.208.1416.179.421.559.76甘肅9.1627.989.019.3215.999.101.8211.35青海10.0628.6410.5210.0516.188.391.9610.81;procclustermethod=sinnonormouttree=ex4_1t;varx1-x8;idprovince;proctreedata=ex4_1thorizontal;idprovince;run;過程步說明:procclustermethod=sinnonormouttree=ex4_1t;varx1-x8;idprovince;proctreedata=ex4_1thorizontal;idprovince;run;method=聚類方法;ave—

類平均法;cen—

重心法;com—最長(zhǎng)距離法;sin—最短距離法;war—

Ward法。nonorm—數(shù)據(jù)不變換;std—對(duì)數(shù)據(jù)標(biāo)準(zhǔn)化變換。outtree=數(shù)據(jù)集名,畫聚類圖時(shí)使用。id樣品變量名。tree畫聚類圖過程;horizontal畫水平聚類圖,缺省為垂直聚類圖。輸出結(jié)果:(1)聚類過程(2)聚類圖(sin最短距離法)(2)聚類圖(com最長(zhǎng)距離法)(2)聚類圖(ave類平均法)(2)聚類圖(cen重心法)(2)聚類圖(ward離差平方和法)聚類方法不同,聚類結(jié)果也不盡相同。二、系統(tǒng)聚類法的統(tǒng)計(jì)量聚類分析中,分多少類合適,是我們關(guān)心的問題。一個(gè)較好的聚類應(yīng)該是類內(nèi)各樣品盡可能相似,類間差異較大。下面介紹幾種有助于分類的統(tǒng)計(jì)量。Sk越小,說明Gk中各樣品越相似。記設(shè)在某水平上分為G個(gè)類,類Gk中樣品的類內(nèi)離差平方和為1.R2統(tǒng)計(jì)量類內(nèi)離差平方和為1.R2統(tǒng)計(jì)量總離差平方和為則R2統(tǒng)計(jì)量為R2=1-PG/T顯然0R21則R2統(tǒng)計(jì)量為R2=1-PG/T顯然0R21當(dāng)n個(gè)樣品各自為一類時(shí),R2=1;當(dāng)n個(gè)樣品合并成一類時(shí),R2=0。

R2的值隨分類個(gè)數(shù)的減少而減小,當(dāng)R2由平緩減小到“突變”減小時(shí)的G,G即為分類個(gè)數(shù)的參考值。設(shè)類Gp,Gq的離差平方和分別為2.半偏相關(guān)統(tǒng)計(jì)量設(shè)類Gp,Gq的離差平方和分別為2.半偏相關(guān)統(tǒng)計(jì)量將Gp,Gq合并成Gr后的離差平方和為合并后離差平方和的增加量為Wpq=Sr-Sp-Sq由類Gp,Gq合并成Gr時(shí)半偏相關(guān)統(tǒng)計(jì)量SPRSQ為SPRSQ=Wpq/T當(dāng)SPRSQ值越大時(shí),說明上一次合并效果越好。偽F統(tǒng)計(jì)量PSF是3.偽F統(tǒng)計(jì)量PSF值越大,表示這些樣品可顯著地分為G類。偽t2

統(tǒng)計(jì)量PST2是PST2值越大,表示上一次聚類效果越好。4.偽t2統(tǒng)計(jì)量例4.2

山東省2000年17地市農(nóng)村居民和城鎮(zhèn)居民消費(fèi)水平如下表,試對(duì)17個(gè)地市進(jìn)行分類。表42000年17地市居民消費(fèi)水平(絕對(duì)額,單位:元)資料來源:《山東省統(tǒng)計(jì)年鑒》,2001序號(hào)地農(nóng)村居城鎮(zhèn)居區(qū)民(x1)民(x2)序號(hào)地農(nóng)村居城鎮(zhèn)居區(qū)民(x1)民(x2)123456789濟(jì)南市22988182青島市26417983淄博市25855333棗莊市26085172東營(yíng)市20858171煙臺(tái)市32297173濰坊市23256590濟(jì)寧市19064906泰安市209465641011121314151617威海市29527734日照市21655258萊蕪市21125629臨沂市16894593德州市11574218聊城市12974371濱州市22685267菏澤市12573310dataex4_2;inputgroup$x1-x2;cards;濟(jì)南市22988182青島市26417983…………菏澤市12573310;procclustermethod=avestdrsqpseudoouttree=ex4_2t;varx1-x2;idgroup;run;proctreedata=ex4_2thorizontal;idgroup;run;rsq—R2統(tǒng)計(jì)量和半偏相關(guān)統(tǒng)計(jì)量SPRSQ;pseudo—偽F統(tǒng)計(jì)量和偽t2統(tǒng)計(jì)量。解SAS程序如下:輸出結(jié)果:類平均法聚類統(tǒng)計(jì)量從R2(RSQ)看,從2類至1類下降最大(0.578~0.000),又G=1時(shí),SPRSQ達(dá)最大,說明分2類合適。類平均法聚類圖§4.4

快速聚類法系統(tǒng)聚類法的缺點(diǎn)是計(jì)算量大。所以產(chǎn)生了快速聚類法,也稱動(dòng)態(tài)聚類法。目前在數(shù)據(jù)挖掘中應(yīng)用較為廣泛??焖倬垲惙ㄏ葘悠反致缘胤忠幌骂?,然后按照某種原則進(jìn)行調(diào)整,直至分類比較合理為止。動(dòng)態(tài)聚類框圖如下:選擇聚點(diǎn)初始分類分類是否合理最終分類修改分類合理不合理動(dòng)態(tài)聚類法要先給定分類數(shù)k,選擇k個(gè)聚點(diǎn)(種子),即有代表性的樣品。選擇聚點(diǎn)(初始聚點(diǎn))的方法有:

(1)經(jīng)驗(yàn)選擇。(2)將n個(gè)樣品隨機(jī)分為k類,每類的重心作為聚點(diǎn)。

(3)最小最大原則。(略)

SAS系統(tǒng)的fastclus過程中,分類數(shù)k給定后,種子自動(dòng)確定。然后按照一定的規(guī)則(略)進(jìn)行聚類。例4.3

從12個(gè)不同地區(qū)測(cè)得了某樹種的平均發(fā)芽率x1與發(fā)芽勢(shì)x2,數(shù)據(jù)見下表,距離采用歐氏距離,將12個(gè)地區(qū)用快速聚類法聚為2類。例4.3

從12個(gè)不同地區(qū)測(cè)得了某樹種的平均發(fā)芽率x1與發(fā)芽勢(shì)x2,數(shù)據(jù)見下表,距離采用歐氏距離,將12個(gè)地區(qū)用快速聚類法聚為2類。地區(qū)

x1

x2

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論