聚類(lèi)分析的案例分析教程_第1頁(yè)
聚類(lèi)分析的案例分析教程_第2頁(yè)
聚類(lèi)分析的案例分析教程_第3頁(yè)
聚類(lèi)分析的案例分析教程_第4頁(yè)
聚類(lèi)分析的案例分析教程_第5頁(yè)
已閱讀5頁(yè),還剩71頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

聚類(lèi)分析

楊威

西安建筑科技大學(xué)本文檔共76頁(yè);當(dāng)前第1頁(yè);編輯于星期六\15點(diǎn)7分“人以類(lèi)聚,物以群分”。對(duì)事物進(jìn)行分類(lèi),是人們認(rèn)識(shí)事物的出發(fā)點(diǎn),也是人們認(rèn)識(shí)世界的一種重要方法。因此,分類(lèi)學(xué)已成為人們認(rèn)識(shí)世界的一門(mén)基礎(chǔ)學(xué)科。

聚類(lèi)分析又稱(chēng)群分析,它是研究(樣品或指標(biāo))分類(lèi)問(wèn)題的一種多元統(tǒng)計(jì)方法,所謂類(lèi),通俗地說(shuō),就是指相似元素的集合。

本次主要介紹譜系聚類(lèi)、K均值聚類(lèi)、模糊C均值聚類(lèi)和模糊減法聚類(lèi)及其MATLAB實(shí)現(xiàn).本文檔共76頁(yè);當(dāng)前第2頁(yè);編輯于星期六\15點(diǎn)7分1距離聚類(lèi)

1.1聚類(lèi)的思想在社會(huì)經(jīng)濟(jì)領(lǐng)域中存在著大量分類(lèi)問(wèn)題,比如對(duì)我國(guó)30個(gè)省市自治區(qū)獨(dú)立核算工業(yè)企業(yè)經(jīng)濟(jì)效益進(jìn)行分析,一般不是逐個(gè)省市自治區(qū)去分析,而較好地做法是選取能反映企業(yè)經(jīng)濟(jì)效益的代表性指標(biāo),如:百元固定資產(chǎn)實(shí)現(xiàn)利稅、資金利稅率、產(chǎn)值利稅率、百元銷(xiāo)售收入實(shí)現(xiàn)利潤(rùn)、全員勞動(dòng)生產(chǎn)率等等,根據(jù)這些指標(biāo)對(duì)30個(gè)省市自治區(qū)進(jìn)行分類(lèi),然后根據(jù)分類(lèi)結(jié)果對(duì)企業(yè)經(jīng)濟(jì)效益進(jìn)行綜合評(píng)價(jià),就易于得出科學(xué)的分析。本文檔共76頁(yè);當(dāng)前第3頁(yè);編輯于星期六\15點(diǎn)7分由于要考察的物價(jià)指數(shù)很多,通常先對(duì)這些物價(jià)指數(shù)進(jìn)行分類(lèi)??傊?,需要分類(lèi)的問(wèn)題很多,因此聚類(lèi)分析這個(gè)有用的數(shù)學(xué)工具越來(lái)越受到人們的重視,它在許多領(lǐng)域中都得到了廣泛的應(yīng)用。聚類(lèi)問(wèn)題的一般提法是:設(shè)有個(gè)樣品的元觀測(cè)數(shù)據(jù)組成一個(gè)數(shù)據(jù)矩陣本文檔共76頁(yè);當(dāng)前第4頁(yè);編輯于星期六\15點(diǎn)7分其中每一行表示一個(gè)樣品,每一列表示一個(gè)指標(biāo),表示第個(gè)樣品關(guān)于第項(xiàng)指標(biāo)的觀測(cè)值,要根據(jù)觀測(cè)值矩陣X對(duì)樣品或指標(biāo)進(jìn)行分類(lèi)。分類(lèi)的思想:在樣品之間定義距離,在指標(biāo)之間定義相似系數(shù).樣品距離表明樣品之間的相似度,指標(biāo)之間的相似系數(shù)刻畫(huà)指標(biāo)之間的相似度.

聚類(lèi)分析的基本思想:將樣品(或變量)按相似度的大小逐一歸類(lèi),關(guān)系密切的聚集到較小的一類(lèi),關(guān)系疏遠(yuǎn)的聚集到較大的一類(lèi),直到所有的樣品(或變量)都聚集完畢。本文檔共76頁(yè);當(dāng)前第5頁(yè);編輯于星期六\15點(diǎn)7分向量的距離

設(shè)有n個(gè)樣品的p元觀測(cè)數(shù)據(jù)這時(shí),每個(gè)樣品可看成n元空間的一個(gè)點(diǎn),也即一個(gè)維向量,兩個(gè)向量之間的距離記為,滿(mǎn)足如下條件:(1)(非負(fù)性)且當(dāng)且僅當(dāng)(2)(對(duì)稱(chēng)性)(3)(三角不等式)在聚類(lèi)分析中最常用的是歐氏距離。本文檔共76頁(yè);當(dāng)前第6頁(yè);編輯于星期六\15點(diǎn)7分1.歐氏(Euclidean)距離2.絕對(duì)距離3.明可夫斯基(Minkowski)距離4.切貝雪夫(Chebyshev)距離其中m(m>0)為常數(shù)。

本文檔共76頁(yè);當(dāng)前第7頁(yè);編輯于星期六\15點(diǎn)7分5.方差加權(quán)(seuclidean)距離6.馬氏(mahalanobis)距離其中為樣品的協(xié)方差矩陣.其中

本文檔共76頁(yè);當(dāng)前第8頁(yè);編輯于星期六\15點(diǎn)7分在MATLAB中,計(jì)算距離的命令是pdist.調(diào)用格式Y(jié)=pdist(X,distance)輸入的X是一個(gè)矩陣,行為個(gè)體,列為指標(biāo),distance是距離的類(lèi)型。若缺省distance,則輸出的Y是一個(gè)行向量,向量的長(zhǎng)度為(N-1)*N/2,其中N是樣本的容量,Y的元素分別為個(gè)體(1,2),(1,3),...,(1,N),(2,3),...(2,N),.....(N-1,N)之間的歐氏距離??蛇x項(xiàng)distance有:‘euclidean’歐氏距離;‘cityblock’絕對(duì)距離;‘minkowski’明氏距離(m=2);‘chebychev’切氏距離;‘seuclidean’方差加權(quán)距離;‘mahalanobis’馬氏距離;‘jaccard’Jaccard相關(guān)系數(shù)。本文檔共76頁(yè);當(dāng)前第9頁(yè);編輯于星期六\15點(diǎn)7分?。ㄊ校┕ば绞杖?元/人)經(jīng)營(yíng)凈收入(元/人)財(cái)產(chǎn)性收入(元/人)轉(zhuǎn)移性收入(元/人)北

京18738.96778.36452.757707.87上

海21791.111399.14369.126199.77安

徽9302.38959.43293.923603.72陜

西8354.63638.7665.332610.61新疆9422.22938.15141.751976.49表省(區(qū)、市)城鎮(zhèn)居民人均家庭收入例1.12008年我國(guó)5省、區(qū)、市城鎮(zhèn)居民人均年家庭收入如下表為了研究上述5個(gè)省、區(qū)、市的城鎮(zhèn)居民收入差異,需要利用統(tǒng)計(jì)資料對(duì)其進(jìn)行分類(lèi),指標(biāo)變量有4個(gè),計(jì)算各省、區(qū)、市之間的前6種距離本文檔共76頁(yè);當(dāng)前第10頁(yè);編輯于星期六\15點(diǎn)7分解:x=[18738.96778.36452.757707.8721791.111399.14369.126199.779302.38959.43293.923603.728354.63638.7665.332610.619422.22938.15141.751976.49];d1=pdist(x);%或者命令d1=pdist(x,'euclidean')此時(shí)計(jì)算出各行之間的歐氏距離,為了得到距離矩陣,鍵入命令:

D=squareform(d1);%注意此時(shí)d1必須是一個(gè)行向量,結(jié)果為實(shí)對(duì)稱(chēng)矩陣本文檔共76頁(yè);當(dāng)前第11頁(yè);編輯于星期六\15點(diǎn)7分D=1.0e+004*00.34621.02931.15751.09440.346201.27631.39321.30801.02931.276300.14280.16391.15751.39320.142800.12801.09441.30800.16390.12800矩陣D中的第3行第2列為12763,表示上海與山西的歐氏距離為12763,其余類(lèi)推.本文檔共76頁(yè);當(dāng)前第12頁(yè);編輯于星期六\15點(diǎn)7分若想得到下三角陣,則有命令:S=tril(squareform(d1))S=1.0e+004*000000.346200001.02931.27630001.15751.39320.1428001.09441.30800.16390.12800若想得到上三角矩陣,可用命令S=triu(squareform(d1))本文檔共76頁(yè);當(dāng)前第13頁(yè);編輯于星期六\15點(diǎn)7分歐氏距離與量綱有關(guān),因此,有時(shí)需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,如標(biāo)準(zhǔn)化等,在Matlab中的命令是:zscore(x).

輸入x表示N行p列的原始觀測(cè)矩陣,行為個(gè)體,列為指標(biāo)。輸出Z為x的標(biāo)準(zhǔn)化矩陣,即Z=(x-ones(N,1)*mean(x))./(ones(N,1)*std(x)),其中mean(x)為行向量,表示各個(gè)指標(biāo)的均值估計(jì),std(x)表示指標(biāo)的標(biāo)準(zhǔn)差估計(jì)。./表示對(duì)應(yīng)元素相除,ones(N,1)表示元素全為1的行向量,向量的長(zhǎng)度為N。

Z=(x-ones(5,1)*mean(x))./(ones(5,1)*std(x))本文檔共76頁(yè);當(dāng)前第14頁(yè);編輯于星期六\15點(diǎn)7分d3=pdist(x,'minkowski',3);%計(jì)算明氏距離,d3為1行10列的行向量d4=pdist(x,'chebychev')

%計(jì)算切氏距離.d5=pdist(x,'seuclidean')

%計(jì)算方差加權(quán)距離.d6=pdist(x,'mahalanobis')%計(jì)算馬氏距離d2=pdist(x,'cityblock');

%計(jì)算絕對(duì)距離D2=squareform(d2)D2=1.0e+004*00.52651.38811.60091.55190.526501.56001.80901.72811.38811.560000.24900.19211.60091.80900.249000.20781.55191.72810.19210.20780本文檔共76頁(yè);當(dāng)前第15頁(yè);編輯于星期六\15點(diǎn)7分

聚類(lèi)分析方法不僅可以對(duì)樣品進(jìn)行分類(lèi),而且可以對(duì)變量進(jìn)行分類(lèi),在對(duì)變量進(jìn)行分類(lèi)時(shí),常常采用相似系數(shù)來(lái)度量變量之間的相似性。對(duì)個(gè)指標(biāo)變量進(jìn)行聚類(lèi)時(shí),用相似系數(shù)來(lái)衡量變量之間的相似程度(關(guān)聯(lián)度),若用表示變量之間的相似系數(shù),則應(yīng)滿(mǎn)足:(1)且

(2)當(dāng)且僅當(dāng)

(3)本文檔共76頁(yè);當(dāng)前第16頁(yè);編輯于星期六\15點(diǎn)7分相似系數(shù)中最常用的是相關(guān)系數(shù)與夾角余弦.例1.2.

計(jì)算例1.1中各指標(biāo)之間的相關(guān)系數(shù)與夾角余弦解:x=[…];%與例數(shù)據(jù)相同R=corrcoef(x);%指標(biāo)之間的相關(guān)系數(shù)R=[1.00000.61830.81380.89310.61831.00000.42870.29270.81380.42871.00000.92350.89310.29270.92351.0000]其中x表示第i行元素,y表示第j行元素。本文檔共76頁(yè);當(dāng)前第17頁(yè);編輯于星期六\15點(diǎn)7分x1=normc(x);%將x的各列化為單位向量J=x1'*x1

%計(jì)算夾角余弦J=1.00000.95360.96090.97970.95361.00000.90260.89900.96090.90261.00000.98330.97970.89900.98331.0000本文檔共76頁(yè);當(dāng)前第18頁(yè);編輯于星期六\15點(diǎn)7分3類(lèi)間距離與遞推公式前面,我們介紹了兩個(gè)向量之間的距離,下面我們介紹兩個(gè)類(lèi)別之間的距離:設(shè)表示兩個(gè)樣品之間的距離,分別表示兩個(gè)類(lèi)別,各自含有(1)最短距離即用兩類(lèi)中樣品之間的距離最短者作為兩類(lèi)間距離.個(gè)樣品.本文檔共76頁(yè);當(dāng)前第19頁(yè);編輯于星期六\15點(diǎn)7分(2)最長(zhǎng)距離即用兩類(lèi)中樣品之間的距離最長(zhǎng)者作為兩類(lèi)間距離.(3)類(lèi)平均距離即用兩類(lèi)中所有兩兩樣品之間距離的平均作為兩類(lèi)間距離.本文檔共76頁(yè);當(dāng)前第20頁(yè);編輯于星期六\15點(diǎn)7分(4)重心距離其中分別是兩類(lèi)重心之間的歐氏距離作為類(lèi)間距離.一組數(shù)據(jù)的平均數(shù)即為這組數(shù)據(jù)的重心。的重心,這是用本文檔共76頁(yè);當(dāng)前第21頁(yè);編輯于星期六\15點(diǎn)7分(5)離差平方和距離(ward)顯然,離差平方和距離與重心距離的平方成正比.設(shè)有兩類(lèi)合并成新的一類(lèi),包含了個(gè)樣品,如何計(jì)算與其他類(lèi)別之間的距離,這就需要建立類(lèi)間距離的遞推公式.本文檔共76頁(yè);當(dāng)前第22頁(yè);編輯于星期六\15點(diǎn)7分(1)最短距離(2)最長(zhǎng)距離(3)類(lèi)平均距離本文檔共76頁(yè);當(dāng)前第23頁(yè);編輯于星期六\15點(diǎn)7分(4)重心距離(5)離差平方和距離

本文檔共76頁(yè);當(dāng)前第24頁(yè);編輯于星期六\15點(diǎn)7分2譜系聚類(lèi)與K均值聚類(lèi)譜系聚類(lèi)法是目前應(yīng)用較為廣泛的一種聚類(lèi)法.譜系聚類(lèi)是根據(jù)生物分類(lèi)學(xué)的思想對(duì)研究對(duì)象進(jìn)行分類(lèi)的方法.在生物分類(lèi)學(xué)中,分類(lèi)的單位是:門(mén)、綱、目、科、屬、種,其中種是分類(lèi)的基本單位,分類(lèi)單位越小,它所包含的生物就越少,生物之間的共同特征就越多.利用這種思想,譜系聚類(lèi)首先將各樣品自成一類(lèi),然后把最相似(距離最近或相似系數(shù)最大)的樣品聚為小類(lèi),再將已聚合的小類(lèi)按各類(lèi)之間的相似性(用類(lèi)間距離度量)進(jìn)行再聚合,隨著相似性的減弱,最后將一切子類(lèi)都聚為一大類(lèi),從而得到一個(gè)按相似性大小聚結(jié)起來(lái)的一個(gè)譜系圖.2.1譜系聚類(lèi)本文檔共76頁(yè);當(dāng)前第25頁(yè);編輯于星期六\15點(diǎn)7分1譜系聚類(lèi)的步驟(1)

個(gè)樣品開(kāi)始作為個(gè)類(lèi),

距離或相似系數(shù),得到實(shí)對(duì)稱(chēng)矩陣

計(jì)算兩兩之間的(2)從

的非主對(duì)角線(xiàn)上找最小元素(距離)或最大元素(相似系數(shù)),設(shè)該元素是

則將

本文檔共76頁(yè);當(dāng)前第26頁(yè);編輯于星期六\15點(diǎn)7分合并成一個(gè)新類(lèi)

中去掉

所在的兩行、兩列,并加上新類(lèi)

之間的距離或相似系數(shù),得到

與其余各類(lèi)階矩陣

(3)從出發(fā)重復(fù)步驟(2)的做法得到,再由出發(fā)重復(fù)上述步驟,直到兩個(gè)樣品聚為一個(gè)大類(lèi)為止.

(4)在合并過(guò)程中要記下合并樣品的編號(hào)及兩類(lèi)合并時(shí)的水平,并繪制聚類(lèi)譜系圖.本文檔共76頁(yè);當(dāng)前第27頁(yè);編輯于星期六\15點(diǎn)7分例2.1從例1.1算得的樣品間的歐氏距離矩陣出發(fā),用下列方法進(jìn)行譜系聚類(lèi).(1)最短距離,(2)最長(zhǎng)距離.解:我們用1,2,3,4,5分別表示北京,上海,安徽,陜西和新疆,將歐氏距離矩陣除以,記為本文檔共76頁(yè);當(dāng)前第28頁(yè);編輯于星期六\15點(diǎn)7分(1)最短距離法:將各個(gè)樣品看成一類(lèi),即,從可以看出各類(lèi)中距離最短的是,因此將在水平上合成一個(gè),計(jì)算與之間的最短距離,得新類(lèi)本文檔共76頁(yè);當(dāng)前第29頁(yè);編輯于星期六\15點(diǎn)7分將計(jì)算結(jié)果作為第一列,從,剩余元素作為其余各列得到,中去掉第4、5行與4、5列本文檔共76頁(yè);當(dāng)前第30頁(yè);編輯于星期六\15點(diǎn)7分從可以看到與的距離最小,因此在的水平上將與合成一類(lèi),即,計(jì)算與之間的最短距離,得將計(jì)算結(jié)果作為第一列,從中劃掉與所在的行與列,剩余元素作為其他列得本文檔共76頁(yè);當(dāng)前第31頁(yè);編輯于星期六\15點(diǎn)7分從可以看出最接近,在的水平上合并成一類(lèi),至此只剩下兩類(lèi)他們之間的距離為:故在此水平上將合成一類(lèi),包含了全部的五個(gè)樣品.本文檔共76頁(yè);當(dāng)前第32頁(yè);編輯于星期六\15點(diǎn)7分2譜系聚類(lèi)的MATLAB實(shí)現(xiàn)為了方便快捷地實(shí)現(xiàn)大樣本的聚類(lèi)分析,我們將利用MATLAB軟件實(shí)現(xiàn)譜系聚類(lèi)的方法.(1)譜系聚類(lèi)命令linkage。調(diào)用格式:Z=linkage(Y,method)輸入Y是一個(gè)距離矩陣,例如Y是由pdist命令生成的歐氏距離向量。Method是一個(gè)可選項(xiàng),如最長(zhǎng)距離,最短距離等。

'single'----最短距離(缺省狀態(tài))

'complete'----最長(zhǎng)距離

'average'----類(lèi)平均距離

'weighted'----加權(quán)平均距離

'centroid'----重心距離

'ward'----離差平方和距離本文檔共76頁(yè);當(dāng)前第33頁(yè);編輯于星期六\15點(diǎn)7分輸出Z是一個(gè)矩陣(N-1行,3列),Z的第一列和第二列均為正整數(shù),第3列表示聚類(lèi)的水平,每一行表示在相同的聚類(lèi)水平上將個(gè)體合并成新的一類(lèi),每生成一個(gè)新的類(lèi),其編號(hào)將在現(xiàn)有基礎(chǔ)上增加1。(2)作譜系聚類(lèi)圖命令dendrogram,其調(diào)用格式

H=dendrogram(z,N)輸入Z是一個(gè)(N-1)行3列的矩陣,由linkage命令生成,N是樣本容量。輸出產(chǎn)生一個(gè)樹(shù)譜系聚類(lèi)圖,每?jī)深?lèi)通過(guò)線(xiàn)段連接,高度表示類(lèi)間的距離。

此命令作出m個(gè)樣本的圖形,缺省時(shí)默認(rèn)為30。本文檔共76頁(yè);當(dāng)前第34頁(yè);編輯于星期六\15點(diǎn)7分(3)輸出聚類(lèi)結(jié)果命令cluster,調(diào)用格式

T=cluster(z,k)輸入Z是一個(gè)(N-1)行3列的矩陣,由linkage命令生成,N是樣本容量。k是分類(lèi)數(shù)目.輸出T是一個(gè)列向量(N行1列),每一個(gè)元素均為正整數(shù),且最大的數(shù)字不超過(guò)k,第i行的數(shù)字l表示第i個(gè)個(gè)體屬于第l類(lèi)。如果遇到大樣本數(shù)據(jù),為了便于得到每一類(lèi)樣本的編號(hào),可以利用如下命令:

find(T==l)%找出屬于第l類(lèi)的樣品編號(hào)本文檔共76頁(yè);當(dāng)前第35頁(yè);編輯于星期六\15點(diǎn)7分例2.2利用MATLAB軟件對(duì)例中的5個(gè)省、區(qū)、市進(jìn)行聚類(lèi)解:

x=[18738.96778.36452.757707.8721791.111399.14369.126199.779302.38959.43293.923603.728354.63638.7665.332610.619422.22938.15141.751976.49];d=pdist(x);%歐氏距離本文檔共76頁(yè);當(dāng)前第36頁(yè);編輯于星期六\15點(diǎn)7分類(lèi)間距離為最短距離,Matlab中的命令:z1=linkage(d),輸出結(jié)果為:z1=1.0e+004*0.00040.00050.1280%在1280的水平,G4,G5合成一類(lèi)為G60.00030.00060.1428%在1428的水平,G6,G3合成一類(lèi)為G70.00010.00020.3462%在3462的水平,G1,G2合成一類(lèi)為G80.00070.00081.0293%在10293的水平,G7,G8合成一類(lèi)本文檔共76頁(yè);當(dāng)前第37頁(yè);編輯于星期六\15點(diǎn)7分譜系聚類(lèi)圖:H=dendrogram(z1)圖5.1最短距離聚類(lèi)圖本文檔共76頁(yè);當(dāng)前第38頁(yè);編輯于星期六\15點(diǎn)7分(2)當(dāng)類(lèi)間距離為最長(zhǎng)距離時(shí),Matlab中的命令:z2=linkage(d,'complete'),輸出結(jié)果為:z2=1.0e+004*0.00040.00050.1280%在1280的水平,G4,G5合成一類(lèi)為G6

0.00030.00060.1639%在1639的水平,G6,G3合成一類(lèi)為G70.00010.00020.3462

%在3462的水平,G1,G2合成一類(lèi)為G80.00070.00081.3932%在13932的水平,G7,G8合成一類(lèi)本文檔共76頁(yè);當(dāng)前第39頁(yè);編輯于星期六\15點(diǎn)7分圖5.2最長(zhǎng)距離聚類(lèi)圖譜系聚類(lèi)圖:H1=dendrogram(z2)本文檔共76頁(yè);當(dāng)前第40頁(yè);編輯于星期六\15點(diǎn)7分(3)當(dāng)類(lèi)間距離為類(lèi)平均距離時(shí),Matlab中的命令:z3=linkage(d,'average'),輸出結(jié)果為z3=

1.0e+004*0.00040.00050.1280

%在1280的水平,G4,G5合成一類(lèi)為G6

0.00030.00060.1533

%在1533的水平,G6,G3合成一類(lèi)為G7

0.00010.00020.3462

%在3462的水平,G1,G2合成一類(lèi)為G8

0.00070.00081.2098

%在12098的水平,G7,G8合成一類(lèi)本文檔共76頁(yè);當(dāng)前第41頁(yè);編輯于星期六\15點(diǎn)7分圖5.3類(lèi)平均距離聚類(lèi)圖本文檔共76頁(yè);當(dāng)前第42頁(yè);編輯于星期六\15點(diǎn)7分若我們不知道實(shí)際的觀測(cè)數(shù)據(jù),但已經(jīng)知道樣品之間的距離,那么如何在MATLAB中實(shí)現(xiàn)相應(yīng)的聚類(lèi)?例2.3歐州各國(guó)語(yǔ)言有許多相似之處,有的十分相近,以E,N,Da,Du,G,Fr,S,I,P,H,Fi分別表示英語(yǔ)、挪威語(yǔ)、丹麥語(yǔ)、荷蘭語(yǔ)、德語(yǔ)、法語(yǔ)、西班牙語(yǔ)、意大利語(yǔ)、波蘭語(yǔ)、匈牙利語(yǔ)和荷蘭語(yǔ)等11種語(yǔ)言.人們以任兩種語(yǔ)言對(duì)1-10這十個(gè)數(shù)字拼寫(xiě)中第一個(gè)字母不相同的個(gè)數(shù)定義兩種語(yǔ)言間的‘距離’.這種距離是廣義距離.例如,英語(yǔ)和挪威語(yǔ)只有數(shù)字1和8的第一個(gè)字母不同,故這兩種語(yǔ)言間的距離定義為2.這樣得到11種語(yǔ)言間的距離矩陣如下:本文檔共76頁(yè);當(dāng)前第43頁(yè);編輯于星期六\15點(diǎn)7分本文檔共76頁(yè);當(dāng)前第44頁(yè);編輯于星期六\15點(diǎn)7分解:d=[227666679915466678965655689599910897778992151091310941091098];%按列輸入距離矩陣(只輸入下三角陣中的非零元素)z4=linkage(d,'centroid');

%重心距離

H2=dendrogram(z4)%譜系圖

z5=linkage(d,

'ward');

%離差平方和距離

figure(2)H3=dendrogram(z5)%譜系圖圖6.4重心距離的譜系聚類(lèi)圖圖6.5離差平方和距離的譜系聚類(lèi)圖本文檔共76頁(yè);當(dāng)前第45頁(yè);編輯于星期六\15點(diǎn)7分例

2.4RAFisher在1936年發(fā)表的Iris數(shù)據(jù)中,研究某植物的萼片長(zhǎng)、寬及花瓣長(zhǎng)、寬.x1:萼片長(zhǎng),x2:萼片寬,x3:花瓣長(zhǎng),x4:花瓣寬.Iris數(shù)據(jù)保存在MATLAB軟件系統(tǒng)的文件fisheriris.mat中,用meas命名了取自三個(gè)總類(lèi)G1,G2和G3,每一類(lèi)取50個(gè)樣本。試?yán)米V系聚類(lèi)對(duì)Iris數(shù)據(jù)進(jìn)行聚類(lèi).解:從MATLAB系統(tǒng)中導(dǎo)入樣本數(shù)據(jù)的命令loadfisheriris。程序如下。loadfisheriris%導(dǎo)入萼片的相關(guān)數(shù)據(jù),d=pdist(meas)

%計(jì)算歐氏距離z1=linkage(d)%類(lèi)間為最短距離T=cluster(z1,3)

%分為3類(lèi)g1=find(T==1)

%第一類(lèi)里的樣品編號(hào)g2=find(T==2)

%第二類(lèi)里的樣品編號(hào)g3=find(T==3)

%第三類(lèi)里的樣品編號(hào)本文檔共76頁(yè);當(dāng)前第46頁(yè);編輯于星期六\15點(diǎn)7分loadfisheririssubplot(2,3,1)plot(meas(1:50,1),meas(1:50,2),'*',meas(51:100,1),...,meas(51:100,2),'g*',meas(101:150,1),meas(101:150,2),...,'ro'),title('x1-x2')subplot(2,3,2)plot(meas(1:50,1),meas(1:50,3),'*',meas(51:100,1),...,meas(51:100,3),'g*',meas(101:150,1),meas(101:150,3),...,'ro'),title('x1-x3')subplot(2,3,3)plot(meas(1:50,1),meas(1:50,4),'*',meas(51:100,1),...,meas(51:100,4),'g*',meas(101:150,1),meas(101:150,4),...,'ro'),title('x1-x4')subplot(2,3,4)

本文檔共76頁(yè);當(dāng)前第47頁(yè);編輯于星期六\15點(diǎn)7分plot(meas(1:50,2),meas(1:50,3),'*',meas(51:100,2),...,meas(51:100,3),'g*',meas(101:150,2),meas(101:150,3),'ro'),...,title('x2-x3')subplot(2,3,5)plot(meas(1:50,2),meas(1:50,4),'*',meas(51:100,2),...,meas(51:100,4),'g*',meas(101:150,2),meas(101:150,4),'ro'),...,title('x2-x4')subplot(2,3,6)plot(meas(1:50,3),meas(1:50,4),'*',meas(51:100,3),...,meas(51:100,4),'g*',meas(101:150,3),meas(101:150,4),'ro'),...,title('x3-x4')本文檔共76頁(yè);當(dāng)前第48頁(yè);編輯于星期六\15點(diǎn)7分結(jié)果顯示第一類(lèi)里只有兩個(gè)樣品,說(shuō)明聚類(lèi)效果不理想,為了提高聚類(lèi)效果的優(yōu)良性,我們將運(yùn)用K均值聚類(lèi)和模糊C均值聚類(lèi)對(duì)其進(jìn)行再討論.圖6.6

Iris數(shù)據(jù)的散點(diǎn)圖(兩個(gè)指標(biāo))同理可作兩兩指標(biāo)經(jīng)聚類(lèi)分類(lèi)后的數(shù)據(jù)散點(diǎn)圖。從圖形6.6也可看出

聚類(lèi)效果不理想。本文檔共76頁(yè);當(dāng)前第49頁(yè);編輯于星期六\15點(diǎn)7分2.2K-均值聚類(lèi)譜系聚類(lèi)法是先將每個(gè)樣品看成一類(lèi),通過(guò)比較距離的大小逐步擴(kuò)充類(lèi),因此,對(duì)于給定的數(shù)據(jù),譜系聚類(lèi)一定能夠?qū)悠泛喜橐活?lèi),分類(lèi)的結(jié)果唯一,但是譜系聚類(lèi)有一個(gè)缺點(diǎn),樣品一旦被分到某一類(lèi)中就不能改變,且當(dāng)樣本容量較大時(shí),計(jì)算量也相應(yīng)地變大.克服此缺點(diǎn)的一個(gè)方法就是K均值聚類(lèi)法,又稱(chēng)快速聚類(lèi)法或動(dòng)態(tài)聚類(lèi)法.在運(yùn)用K均值聚類(lèi)法之前,要根據(jù)實(shí)際問(wèn)題先確定分類(lèi)數(shù)k,在每一類(lèi)中選擇有代表性的樣品,這樣的樣品稱(chēng)為聚點(diǎn).選擇聚點(diǎn)的方法通常有最小最大原則.本文檔共76頁(yè);當(dāng)前第50頁(yè);編輯于星期六\15點(diǎn)7分若將個(gè)樣品分成k類(lèi),則先選擇所有樣品中距離為前兩個(gè)聚點(diǎn),即選擇,使得最遠(yuǎn)的兩個(gè)樣品然后選擇第3個(gè)聚點(diǎn),使得與前兩個(gè)聚點(diǎn)的較小距離中的距離最小者等于所有其余的與最大的,即然后按相同的原則選取,重復(fù)前面的步驟,直至確定k個(gè)聚點(diǎn)本文檔共76頁(yè);當(dāng)前第51頁(yè);編輯于星期六\15點(diǎn)7分K均值聚類(lèi)的步驟樣品之間的距離采用歐氏距離.設(shè)第k個(gè)初始聚點(diǎn)的集合是:記本文檔共76頁(yè);當(dāng)前第52頁(yè);編輯于星期六\15點(diǎn)7分于是,將樣品分成不相交的k類(lèi),得到一個(gè)初始分類(lèi)(2)從出發(fā),計(jì)算新的聚點(diǎn)集合,計(jì)算其中是類(lèi)中的樣品數(shù),得到一個(gè)新的集合本文檔共76頁(yè);當(dāng)前第53頁(yè);編輯于星期六\15點(diǎn)7分從開(kāi)始再進(jìn)行分類(lèi),將樣品作新的分類(lèi),記得到一個(gè)新的分類(lèi)依次重復(fù)計(jì)算下去.本文檔共76頁(yè);當(dāng)前第54頁(yè);編輯于星期六\15點(diǎn)7分(3)重復(fù)上述步驟次得其中是類(lèi)的重心.

不一定是樣品.當(dāng)逐漸增大時(shí),分類(lèi)趨于穩(wěn)定.同時(shí)可以近似地看作的重心,

本文檔共76頁(yè);當(dāng)前第55頁(yè);編輯于星期六\15點(diǎn)7分即,此時(shí)結(jié)束計(jì)算.實(shí)際計(jì)算時(shí),若對(duì)某一個(gè)m,與相同,則結(jié)束計(jì)算.本文檔共76頁(yè);當(dāng)前第56頁(yè);編輯于星期六\15點(diǎn)7分MATLAB軟件中實(shí)現(xiàn)K-均值聚類(lèi)的命令是kmeans,其調(diào)用格式

IDX=kmeans((X,K)功能是將原始數(shù)據(jù)矩陣X聚成K類(lèi),使得樣本到類(lèi)重心距離和最小,使用歐氏平方距離。其中輸入X為原始觀測(cè)數(shù)據(jù),行為個(gè)體,列為指標(biāo)。輸出IDX為N行1列的列向量,包含每個(gè)樣品屬于哪一類(lèi)的信息,類(lèi)似于Cluster的輸出結(jié)果。本文檔共76頁(yè);當(dāng)前第57頁(yè);編輯于星期六\15點(diǎn)7分例2.5從12不同地區(qū)測(cè)得了某樹(shù)種的平均發(fā)芽率與發(fā)芽勢(shì)表212個(gè)地區(qū)某樹(shù)種發(fā)芽情況地區(qū)1234567891011120.7070.6000.6930.7170.6880.5330.8770.5130.8150.6330.7400.7770.3850.4330.5050.3430.6050.3800.7130.3530.6750.4650.5800.723,數(shù)據(jù)如下采用歐氏距離,將這12個(gè)地區(qū)以樹(shù)種發(fā)芽情況按k均值聚類(lèi)法聚為2類(lèi).本文檔共76頁(yè);當(dāng)前第58頁(yè);編輯于星期六\15點(diǎn)7分解:利用Matlab軟件中的命令:kmeans,可以實(shí)現(xiàn)k均值聚類(lèi)y=[.707.6.693.717.688.533.877.513.815.633.74.777;.385.433.505.343.605.38.713.353.675.465.58.723];x=y';%矩陣x的行為個(gè)體,列為指標(biāo)[a,b]=kmeans(x,2)

%分為2類(lèi),輸出:a為聚類(lèi)的結(jié)果,b為聚類(lèi)重心,每一行表示一個(gè)類(lèi)的重心a=[222212121211]’b=0.77940.65920.62800.4091本文檔共76頁(yè);當(dāng)前第59頁(yè);編輯于星期六\15點(diǎn)7分x1=x(find(a==1),:)%提取第1類(lèi)里的樣品x2=x(find(a==2),:)%提取第2類(lèi)里的樣品x1=0.68800.60500.87700.71300.81500.67500.74000.58000.77700.7230本文檔共76頁(yè);當(dāng)前第60頁(yè);編輯于星期六\15點(diǎn)7分x2=0.70700.38500.60000.43300.69300.50500.71700.34300.53300.38000.51300.35300.63300.4650sd1=std(x1),sd2=std(x2)

%分別計(jì)算第1類(lèi)和第2類(lèi)的標(biāo)準(zhǔn)差sd1=0.07190.0641sd2=0.08310.0603plot(x(a==1,1),x(a==1,2),'r.',x(a==2,1),x(a==2,2),'b.')%作出聚類(lèi)的散點(diǎn)圖本文檔共76頁(yè);當(dāng)前第61頁(yè);編輯于星期六\15點(diǎn)7分圖6.7分類(lèi)結(jié)果的散點(diǎn)圖本文檔共76頁(yè);當(dāng)前第62頁(yè);編輯于星期六\15點(diǎn)7分例2.6(續(xù)例利用K均值聚類(lèi)對(duì)5個(gè)省、區(qū)、市進(jìn)行聚類(lèi)分析.解:x=[…]

%輸入數(shù)據(jù),行為個(gè)體,列為指標(biāo)[a,b]=kmeans(x,3)

%分為3類(lèi)a=[1

1

233]’b=1.0e+004*2.02650.10890.04110.69540.93020.09590.02940.36040.88880.07880.01040.2294說(shuō)明北京和上海為一類(lèi),安徽為一類(lèi),陜西和新疆為一類(lèi).本文檔共76頁(yè);當(dāng)前第63頁(yè);編輯于星期六\15點(diǎn)7分例2.7(續(xù)例利用K均值聚類(lèi)法對(duì)Fisher的Iris

數(shù)據(jù)分為3類(lèi).解:loadfisheriris[ab]=kmeans(meas,3)本文檔共76頁(yè);當(dāng)前第64頁(yè);編輯于星期六\15點(diǎn)7分a=1111111111…1111111111…1111111111…1111111111…1111111111…3323333333…3333333333…3333333233…3333333333…3333333333…2322223222…2223322223…2323223322…2223222232…2232223223本文檔共76頁(yè);當(dāng)前第65頁(yè);編輯于星期六\15點(diǎn)7分b=5.00603.42801.46200.24606.85003.07375.74212.07115.90162.74844.39351.4339n1=length(find(a==1))%第1類(lèi)的樣品數(shù)n2=length(find(a==2))%第2類(lèi)的樣品數(shù)n3=length(find(a==3))%第3類(lèi)的樣品數(shù)n1=62,n2=38,n3=50由此可見(jiàn),K均值聚類(lèi)的效果比譜系聚類(lèi)效果好,但與實(shí)際的分類(lèi)情況相比,K均值聚類(lèi)的結(jié)果依然不甚理想.本文檔共76頁(yè);當(dāng)前第66頁(yè);編輯于星期六\15點(diǎn)7分模糊均值聚類(lèi)本小節(jié)我們將簡(jiǎn)述兩種常用的模糊聚類(lèi)方法:模糊C均值聚類(lèi)和模糊減法聚類(lèi).模糊聚類(lèi)是用模糊理論對(duì)重要數(shù)據(jù)分析和建模的方法,建立了樣本類(lèi)屬的不確定性描述,能比較客觀地反映現(xiàn)實(shí)世界,它已經(jīng)有效地應(yīng)用在大規(guī)模數(shù)據(jù)分析、數(shù)據(jù)挖掘、矢量量化、圖像分割、模式識(shí)別等領(lǐng)域,具有重要的理論與實(shí)際應(yīng)用價(jià)值,隨著應(yīng)用的深入發(fā)展,模糊聚類(lèi)算法的研究不斷豐富。模糊c-均值聚類(lèi)算法fuzzyc-meansalgorithm(FCMA)或稱(chēng)(FCM)。模糊C-均值(FCM)算法通過(guò)優(yōu)化目標(biāo)函數(shù)得到每個(gè)樣本點(diǎn)對(duì)所有類(lèi)中心的隸屬度,從而決定樣本點(diǎn)的類(lèi)屬以達(dá)到自動(dòng)對(duì)樣本數(shù)據(jù)進(jìn)行分類(lèi)的目的。

本文檔共76頁(yè);當(dāng)前第67頁(yè);編輯于星期六\15點(diǎn)7分設(shè)為樣品集,為樣本容量.將分成類(lèi)等價(jià)于將集合表示成且設(shè)是第個(gè)樣品屬于第個(gè)中心的隸屬度,則本文檔共76頁(yè);當(dāng)前第68頁(yè);編輯于星期六\15點(diǎn)7分是一個(gè)的矩陣,稱(chēng)為隸屬度矩陣或特征矩陣,其中每一列的元素只有一個(gè)1,其余全部為0.硬劃分的一個(gè)延拓是將隸屬度矩陣定義為:此時(shí)的聚類(lèi)方法稱(chēng)為模糊C均值聚類(lèi).本文檔共76頁(yè);當(dāng)前第69頁(yè);編輯于星期六\15點(diǎn)7分模糊C均

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論