各種聚類算法的比較_第1頁
各種聚類算法的比較_第2頁
各種聚類算法的比較_第3頁
各種聚類算法的比較_第4頁
各種聚類算法的比較_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、聚類分析是一種重要的人類行為,早在孩提時(shí)代,一個(gè)人就通過不斷 改進(jìn)下意識中的聚類模式來學(xué)會(huì)如何區(qū)分貓狗、動(dòng)物植物。目前在許 多領(lǐng)域都得到了廣泛的研究和成功的應(yīng)用,如用于模式識別、數(shù)據(jù)分 析、圖像處理、市場研究、客戶分割、Web文檔分類等。聚類就是按照某個(gè)特定標(biāo)準(zhǔn)(如距離準(zhǔn)則)把一個(gè)數(shù)據(jù)集分割成不 同的類或簇,使得同一個(gè)簇內(nèi)的數(shù)據(jù)對象的相似性盡可能大,同時(shí)不 在同一個(gè)簇中的數(shù)據(jù)對象的差異性也盡可能地大。即聚類后同一類的 數(shù)據(jù)盡可能聚集到一起,不同數(shù)據(jù)盡量分離。聚類技術(shù)正在蓬勃發(fā)展,對此有貢獻(xiàn)的研究領(lǐng)域包括數(shù)據(jù)挖掘、統(tǒng) 計(jì)學(xué)、機(jī)器學(xué)習(xí)、空間數(shù)據(jù)庫技術(shù)、生物學(xué)以及市場營銷等。各種聚 類方法也被不斷提

2、出和改進(jìn),而不同的方法適合于不同類型的數(shù)據(jù), 因此對各種聚類方法、聚類效果的比較成為值得研究的課題。1聚類算法的分類目前,有大量的聚類算法。而對于具體應(yīng)用,聚類算法的選擇取決 于數(shù)據(jù)的類型、聚類的目的。如果聚類分析被用作描述或探查的工具, 可以對同樣的數(shù)據(jù)嘗試多種算法,以發(fā)現(xiàn)數(shù)據(jù)可能揭示的結(jié)果。主要的聚類算法可以劃分為如下幾類:劃分方法、層次方法基于 密度的方法、基于網(wǎng)格的方法以及基于模型的方法4-6。每一類中都存在著得到廣泛應(yīng)用的算法,例如:劃分方法中的 k-means聚類算法、層次方法中的凝聚型層次聚類算法、基于模型方 法中的神經(jīng)網(wǎng)絡(luò)聚類算法等。目前,聚類問題的研究不僅僅局限于上述的硬聚類

3、,即每一個(gè)數(shù)據(jù) 只能被歸為一類,模糊聚類也是聚類分析中研究較為廣泛的一個(gè)分 支。模糊聚類通過隸屬函數(shù)來確定每個(gè)數(shù)據(jù)隸屬于各個(gè)簇的程度,而 不是將一個(gè)數(shù)據(jù)對象硬性地歸類到某一簇中。目前已有很多關(guān)于模糊 聚類的算法被提出,如著名的FCM算法等。本文主要對k-means聚類算法、凝聚型層次聚類算法、神經(jīng)網(wǎng)絡(luò)聚 類算法之SOM,以及模糊聚類的FCM算法通過通用測試數(shù)據(jù)集進(jìn)行聚 類效果的比較和分析。2四種常用聚類算法研究2.1 k-means聚類算法k-means是劃分方法中較經(jīng)典的聚類算法之一。由于該算法的效率 高,所以在對大規(guī)模數(shù)據(jù)進(jìn)行聚類時(shí)被廣泛應(yīng)用。目前,許多算法均 圍繞著該算法進(jìn)行擴(kuò)展和改進(jìn)。

4、k-means算法以k為參數(shù),把n個(gè)對象分成k個(gè)簇,使簇內(nèi)具有較 高的相似度,而簇間的相似度較低。k-means算法的處理過程如下: 首先,隨機(jī)地選擇k個(gè)對象,每個(gè)對象初始地代表了一個(gè)簇的平均值 或中心;對剩余的每個(gè)對象,根據(jù)其與各簇中心的距離,將它賦給最 近的簇;然后重新計(jì)算每個(gè)簇的平均值。這個(gè)過程不斷重復(fù),直到準(zhǔn) 則函數(shù)收斂。通常,采用平方誤差準(zhǔn)則,其定義如下:/-= X lp-叫 za 尹 E這里E是數(shù)據(jù)庫中所有對象的平方誤差的總和,p是空間中的點(diǎn), mi是簇Ci的平均值。該目標(biāo)函數(shù)使生成的簇盡可能緊湊獨(dú)立,使用 的距離度量是歐幾里得距離當(dāng)然也可以用其他距離度量。k-means聚類算法的

5、算法流程如下:輸入:包含n個(gè)對象的數(shù)據(jù)庫和簇的數(shù)目k ;輸出:k個(gè)簇,使平方誤差準(zhǔn)則最小。步驟:任意選擇k個(gè)對象作為初始的簇中心;repeat;根據(jù)簇中對象的平均值,將每個(gè)對象(重新)賦予最類似的 簇;更新簇的平均值,即計(jì)算每個(gè)簇中對象的平均值;until不再發(fā)生變化。2.2層次聚類算法根據(jù)層次分解的順序是自底向上的還是自上向下的,層次聚類算法分 為凝聚的層次聚類算法和分裂的層次聚類算法。凝聚型層次聚類的策略是先將每個(gè)對象作為一個(gè)簇,然后合并這些 原子簇為越來越大的簇,直到所有對象都在一個(gè)簇中,或者某個(gè)終結(jié) 條件被滿足。絕大多數(shù)層次聚類屬于凝聚型層次聚類,它們只是在簇 間相似度的定義上有所不同

6、。四種廣泛采用的簇間距離度量方法如 下:最距離:*Lnt,i1 |最大距離:心E&Jfhk,匚S 卜十 |平均值的距離:也50用二 mi-TUj |平均距離:= L iiCii .Xp.Cii -p |這里,p-pr是兩個(gè)對象P和P,之間的距離,叫是 除n的平均值,牌是簇如中對象的數(shù)目o這里給出采用最小距離的凝聚層次聚類算法流程:將每個(gè)對象看作一類,計(jì)算兩兩之間的最小距離;將距離最小的兩個(gè)類合并成一個(gè)新類;重新計(jì)算新類與所有類之間的距離;重復(fù)(2)、(3),直到所有類最后合并成一類。2.3 SOM聚類算法SOM神經(jīng)網(wǎng)絡(luò)是由芬蘭神經(jīng)網(wǎng)絡(luò)專家Kohonen教授提出的,該算法 假設(shè)在輸入對象中存在一

7、些拓?fù)浣Y(jié)構(gòu)或順序,可以實(shí)現(xiàn)從輸入空間(n 維)到輸出平面(2維)的降維映射,其映射具有拓?fù)涮卣鞅3中再|(zhì)與 實(shí)際的大腦處理有很強(qiáng)的理論聯(lián)系。SOM網(wǎng)絡(luò)包含輸入層和輸出層。輸入層對應(yīng)一個(gè)高維的輸入向量, 輸出層由一系列組織在2維網(wǎng)格上的有序節(jié)點(diǎn)構(gòu)成,輸入節(jié)點(diǎn)與輸出 節(jié)點(diǎn)通過權(quán)重向量連接。學(xué)習(xí)過程中,找到與之距離最短的輸出層單 元,即獲勝單元,對其更新。同時(shí),將鄰近區(qū)域的權(quán)值更新,使輸出 節(jié)點(diǎn)保持輸入向量的拓?fù)涮卣?。算法流?網(wǎng)絡(luò)初始化,對輸出層每個(gè)節(jié)點(diǎn)權(quán)重賦初值;將輸入樣本中隨機(jī)選取輸入向量,找到與輸入向量距離最小的 權(quán)重向量;定義獲勝單元,在獲勝單元的鄰近區(qū)域調(diào)整權(quán)重使其向輸入向 量靠攏;提供新

8、樣本、進(jìn)行訓(xùn)練;收縮鄰域半徑、減小學(xué)習(xí)率、重復(fù),直到小于允許值,輸出聚 類結(jié)果。2.4 FCM聚類算法1965年美國加州大學(xué)柏克萊分校的扎德教授第一次提出了 集合 的概念。經(jīng)過十多年的發(fā)展,模糊集合理論漸漸被應(yīng)用到各個(gè)實(shí)際應(yīng) 用方面。為克服非此即彼的分類缺點(diǎn),出現(xiàn)了以模糊集合論為數(shù)學(xué)基 礎(chǔ)的聚類分析。用模糊數(shù)學(xué)的方法進(jìn)行聚類分析,就是模糊聚類分析。FCM算法是一種以隸屬度來確定每個(gè)數(shù)據(jù)點(diǎn)屬于某個(gè)聚類程度的 算法。該聚類算法是傳統(tǒng)硬聚類算法的一種改進(jìn)。設(shè)數(shù)冤集上=任心,.,,它的摸糊c劃分可用模糊矩陣t/=| i.-J表示,偶陣(7的元素與表7F第r fr = I .2 , , .I個(gè)數(shù)據(jù)點(diǎn)屬于

9、第隸屬度,*滿垣址下條件:Vj - y I : Vtjuf(= |0,1 ; Uy0LI前被廣泛使用的聚類準(zhǔn)則為取類內(nèi)如權(quán)誤差平方和的極值,即:5弓氣項(xiàng)1;:|丁二】心其| V為聚類中心或?yàn)榧訖?quán)指數(shù),4 國,珀)二 II II算法流程:標(biāo)準(zhǔn)化數(shù)據(jù)矩陣;建立模糊相似矩陣,初始化隸屬矩陣;算法開始迭代,直到目標(biāo)函數(shù)收斂到極小值;根據(jù)迭代結(jié)果,由最后的隸屬矩陣確定數(shù)據(jù)所屬的類,顯示最 后的聚類結(jié)果。3四種聚類算法試驗(yàn)3.1試驗(yàn)數(shù)據(jù)實(shí)驗(yàn)中,選取專門用于測試分類、聚類算法的國際通用的UCI數(shù)據(jù) 庫中的IRIS13數(shù)據(jù)集,IRIS數(shù)據(jù)集包含150個(gè)樣本數(shù)據(jù),分別取 自三種不同的鶯尾屬植物setosa、ve

10、rsicolor和virginica的花朵 樣本,每個(gè)數(shù)據(jù)含有4個(gè)屬性,即萼片長度、萼片寬度、花瓣長度, 單位為cm。在數(shù)據(jù)集上執(zhí)行不同的聚類算法,可以得到不同精度的 聚類結(jié)果。3.2試驗(yàn)結(jié)果說明文中基于前面所述各算法原理及算法流程,用matlab進(jìn)行編程運(yùn) 算,得到表1所示聚類結(jié)果。表1 一神聚類方法的實(shí)驗(yàn)對比結(jié)果聚類A , 4 十耘行d* 1 方法 樣本數(shù) 時(shí)間壓 L準(zhǔn)確世n瑚)L |瞄時(shí)H 知TF邱I,雌匚故聚類51. .-0.12P44-J- 成心1 以任門104可1co SKI225.267 2fi3S6如表1所示,對于四種聚類算法,按三方面進(jìn)行比較:(1)聚錯(cuò)樣 本數(shù):總的聚錯(cuò)的樣本數(shù),即各類中聚錯(cuò)的樣本數(shù)的和;運(yùn)行時(shí) 間:即聚類整個(gè)過程所耗費(fèi)的時(shí)間,單位為s; (3)平均準(zhǔn)確度:設(shè) 原數(shù)據(jù)集有k個(gè)類,用ci表示第i類,ni為ci中樣本的個(gè)數(shù),mi為 聚類正確的個(gè)數(shù)則mi/ni為第i類中的精度,則平均精度為:IE二! gw3.3試驗(yàn)結(jié)果分析四種聚類算法中,在運(yùn)行時(shí)間及準(zhǔn)確度方面綜合考慮,k-means和FCM 相對優(yōu)于其他。但是,各個(gè)算法還是存在固定缺點(diǎn):k-means聚類算 法的初始點(diǎn)選擇不穩(wěn)定,是隨機(jī)選取的,這就引起聚類結(jié)果的不穩(wěn)定, 本實(shí)驗(yàn)中雖是經(jīng)過多次實(shí)驗(yàn)取的平均值,但是具體初始點(diǎn)的選擇方法 還需進(jìn)一步研究;層次聚類雖然不需要

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論