聚類算法簡介_第1頁
聚類算法簡介_第2頁
聚類算法簡介_第3頁
聚類算法簡介_第4頁
聚類算法簡介_第5頁
已閱讀5頁,還剩68頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

聚類算法簡介

報告人:劉銘

mliu@

什么是聚類?

聚類就是對大量未知標(biāo)注的數(shù)據(jù)集,按

數(shù)據(jù)的內(nèi)在相似性將數(shù)據(jù)集劃分為多個

類別,使類別內(nèi)的數(shù)據(jù)相似度較大而類

別間的數(shù)據(jù)相似度較??;

為什么需要聚類?

網(wǎng)頁密訊音樂圖片博客人物更多▼

中國11虎知識國g搜索吃二

對相似的liSI網(wǎng)頁結(jié)果

文檔或超相關(guān)搜索:知識-維基百科

奧運知識知識是對某個主題確信的認(rèn)識,并且這些認(rèn)識擁有潛在的能力為特定目的而使用。認(rèn)知

事物的能力是哲學(xué)中克莉爭議的中心議題之一,并且擁有它自己的分支一知識論。從更

鏈接進(jìn)行汽車知識

加實用的層次來看,知識通常被某些人的群體所共享,在這種情況下,知識可以通過不

聚類,由股票知出同的方式…序多信息

奧運會知正

于類別數(shù)電腦知識雅虎知識堂

雅虎知識堂,提供互動問答信息月艮務(wù)平臺,包含我要提問、我要回答、我要投票'知識專

美容知識

遠(yuǎn)小于文題、知識推薦、知識專家、知識分類、幫助中心等內(nèi)容。

檔數(shù),能期貨知識yahoocom2天前快照

百科知識

設(shè)為首頁網(wǎng)站地圖收藏學(xué)知識

夠加快用國家知識產(chǎn)權(quán)局

首頁軟件教室設(shè)計教室網(wǎng)絡(luò)教室英語教室開發(fā)救室考試教室范文教室管理救

戶尋找相法律知識室營消教室視頻教室社區(qū)…新生報名規(guī)則新生必看!《學(xué)知以互動社區(qū)管理婉則》

您是通過什么渠道知道學(xué)知識?招聘版主管理條例…

關(guān)信息的2008-03-25快瞪

速度;愛問知識人

新浪愛問知識人網(wǎng)站,開設(shè)推薦問題、最新問題、新手問題、問題分類、精彩回答等版

塊。

taskcn2天前快啰

汽車知識之底盤頻道-搜狐汽車

底盤知以傳動系統(tǒng)行駛系統(tǒng)轉(zhuǎn)向系統(tǒng)制動系統(tǒng)看點欄目全時四輪驅(qū)動差速決

空氣懸掛主動轉(zhuǎn)向系統(tǒng)ABSSAB.汽車底盤相關(guān)知識>>更多舒適寧隱新境界消

費者贊凱越底盤新升級(09/131458)..

ajtosohucom/s2006/zhistTi-dpan2008-03-26快呼

電腦知識網(wǎng)-電腦知識的集中營.互聯(lián)網(wǎng)人的繹站

電腦知識教程CopyrightAllRightsReserved..互聯(lián)網(wǎng)如有侵犯

您的權(quán)益,清通知本站,本站將及時處理.coolnie#163.com國ICP備07017146號電腦知

識網(wǎng)…

4天前快照

聚類圖示

聚類中沒有任何指導(dǎo)信息,完全按照數(shù)據(jù)的分布進(jìn)行類別劃分

什么是分類?

■數(shù)據(jù)集合。,類別標(biāo)記集合。

VxeData,CIass(x)GC

?數(shù)據(jù)集合:訓(xùn)練數(shù)據(jù)TrainData

待分類數(shù)據(jù)ClassData

?已知VxeTrainData;konwCIass(x)&&Class(x)

*|可是貝:VZeClassData',Class(t)?

?方法:根據(jù)訓(xùn)練數(shù)據(jù)獲得類別劃分標(biāo)準(zhǔn)

V/eClassData;Class(t)=f(t)

分類圖示

:?訓(xùn)練數(shù)據(jù)???

?????

?待分類數(shù)據(jù)?2

1?■

??■*

?-???

?

??

??

?■

?3?4?.

??????

??

??■?

聚類與分類的區(qū)別

?有類別標(biāo)記和無類別標(biāo)記;

?有監(jiān)督與無監(jiān)督;

(有訓(xùn)練語料與無訓(xùn)練語料)

?TrainAndClassification(分類);

?NoTrain(聚類);

聚類的基本要素'

?定義數(shù)據(jù)之間的相似度;

?聚類有效性函數(shù)(停止判別條件);

1.在聚類算法的不同階段會得到不同的類別劃分結(jié)果,可以通過聚類有效性函數(shù)

來判斷多個劃分結(jié)果中哪個是有效的;

2.使用有效性函數(shù)作為算法停止的判別條件,當(dāng)類別劃分結(jié)果達(dá)到聚類有效性函

數(shù)時即可停止算法運行;

?類別劃分策略(算法);

通過何種類別劃分方式使類別劃分結(jié)果達(dá)到有效性函數(shù);

相似度分類(一)

?Euclideandistance

Euclidean(Ai,Aj)=

?交叉嫡e

〃(/而+4川)1「〃”

H(Ai,Aj)=-工--------------log2(y4/m+Ajm)4-—Z(力〃”*log24w)+Z(彳川*l°g?4注)

22..;=i

?Cosine

Cos(Ai9Aj)=

數(shù)據(jù)表示為向量,向量中某一維對應(yīng)數(shù)據(jù)某一特征或?qū)傩?/p>

僅計算了數(shù)據(jù)向量中屬于同一維度特征的權(quán)值差距;

相似度分類(二)

?BasedonSemantic

2

Semantic(Ai,Aj)=EESemantic{Aim,Ajn)(Aim-Ajn)

in=1n=1

Sem

屬于不同維度的特征的關(guān)系以antic{Aim,Ajn)表不

?UnbalanceSimilarity

r

2

Unbalance(Ai,Aj)=”(力而-4/m)

不同特征在數(shù)據(jù)相似度計算中的作用不同

聚類有效性函數(shù)(一)

?最小誤差(人):

c個類別,待聚類數(shù)據(jù)x,mi為類別C,的中心,

Zxc

m,=三一Je=£EIIx-mII2人越小聚類結(jié)果越好

ICiII=iXGCi

人衡量屬于不同類別的數(shù)據(jù)與類別中心的的誤差和;

?最小方差:

一1-2

s'=丁zZu%-%II

xeCixeCi

S,衡量同一類別內(nèi)數(shù)據(jù)的平均誤差和;

聚類的有效性函數(shù)(二)

聚類嫡(CE):

k

Ep:

j=i

9

nj

En

=(ZEe(p:,p:))+£e(p:,C°)

J=\/=1j=1

第一部分衡量算法的類內(nèi)相似度,類內(nèi)相似度越大越好;

En

第二部分衡量算法的類間相似度,類間相似度越小越好;

聚類評價

?PrecisionandRecall

?Purity

?RandValue

?Intra-clustersimilarity

Inter-clustersimilarity

Purity

測試數(shù)據(jù)首先被人工標(biāo)注為不同的類別;

測試數(shù)據(jù)在聚類結(jié)果中又被重新劃分為多個類別:

g測試語料中被標(biāo)記為第n在聚類結(jié)果中被劃分到

〃夕個類別的數(shù)據(jù)數(shù);,第『個類別的數(shù)據(jù)數(shù);

(/(/聚類結(jié)果的第「個類別中,被標(biāo)記為第夕個

c七類別的數(shù)據(jù)數(shù);

尋找具有最大數(shù)據(jù)數(shù)的<作為類別的代表;

1c

類別C,的P“。:P(C,.)=—max(〃;)

ng=i

r

聚類算法的,nrq

Purity=Z~~max(n)

Rand'

?Setanytwodataintestingcorpusasapair-point;

?Iftestingcorpushasndata,thereisn1)/2pair-points

?a)Onepair-pointisinsameclusterintestingcorpus,andin

clusteringresultsitisinsamecluster;

?b)Onepair-pointisinsameclusterintestingcorpus,andin

clusteringresultsitisn'tindifferentcluster;

?c)Onepair-pointisindifferentclusterintestingcorpus,

andinclusteringresultsitisindifferentcluster;

?d)Onepair-pointisindifferentclusterintestingandin

clusteringresultsitisinsamecluster;

a+c

Rand-----------------------

Intraclustersimilarity

Interclustersimilarity

£Cos(di,dj)

dteC,djwC

類別c,類內(nèi)相似度Sima(Ci)=

|C/|

ZSim(C,)

i=]

算法的類內(nèi)相似度A1gorithm-Sima=---------------------

ICI

ZCos(di,dj)

d/€Ci,djeCj

類別類間相似度Simc(Ci,Cj)=---------------------------------

Cl*Cl

算法的類間相似度Sime(Ci,Cj)

A1gorithm-Simc=Z-------------

』,=i&&fI*IC,I

聚類結(jié)果:類內(nèi)相似度越大越好,類間相似度越小越好;

數(shù)據(jù)集

?UCI

beyond100datasets;

eachcaseineachdatasetisrepresentsbysome

attributes;

?attribute:

continuous,numerical,Boolean,missingattribute,

?oftenuse:

iris,zoo,glass,wine;

numericalcontinuousBooleanFeaturecase

Datasetclassnumber

featurefeaturefeaturenumbernumber

Glass-9-92147

Zo°1-15161017

Wine-13-131783

'Iris

4--41504

聚類算法的簡單分類

?基于戈U分:K-means,K-medoids

?基于層次:HFC

?基于密度:DBSCAN

?基于網(wǎng)格:CL工QUE,STING

K-means

?初始參數(shù)-類別數(shù)&初始類別中心;

?聚類有效性函數(shù)-最小誤差;

?優(yōu)點:

聚類時間快;

?缺點:

對初始參數(shù)敏感;

容易陷入局部最優(yōu);

VORONI圖、

K-mans每一種劃對應(yīng)一個VORONI圖;VORON工圖中將數(shù)據(jù)看作空間中

的點;

?Data7x*Dafa,m一個戈“分Classi9xeClassi

VpwClassi9\/tGDataDistance(p.x)<Distance(pyt)

K-means步驟

?1設(shè)置初始類別中心和類別數(shù);

?2根據(jù)類別中心對數(shù)據(jù)進(jìn)行類別劃分;

?3重新計算當(dāng)前類別劃分下每類的中心;

?4在得到類別中心下繼續(xù)進(jìn)行類別劃分;

?5如果連續(xù)兩次的類別劃分結(jié)果不變則停止算法;否則

循環(huán)2?5;

Update

the

cluster

means

▼reassign

Update

the

cluster

means

初始值敏感

初始化4個類別中心;

左側(cè)的全體數(shù)據(jù)僅與第一個類別中心相似;

K-mcans公式

?目標(biāo):最小化」—2

,e=ZZIIX-"人||

i=1xeCi

?固定類別劃分情況下求人最小值

?偏導(dǎo)數(shù)為0時,Je達(dá)到最小值8Je

=0I=1...C

dmi

?人達(dá)到最小值時,類別中心為類別內(nèi)的數(shù)據(jù)質(zhì)心

E%

Zi-x)=0nmi='(-

Cl

局部極小值

?5、

K-means每一次類別劃分均選擇人解空間的局部極小值;

層次聚類

?分裂或凝聚

犀家的

(ANGNES>

(DIANA>

算法運行到某一階段,類別劃分結(jié)果達(dá)到聚類標(biāo)準(zhǔn)時

即可停止分裂或凝聚;

密度聚類(一)

?將數(shù)據(jù)看作空間中的點,將數(shù)據(jù)間的相似度

看作數(shù)據(jù)間的距離;

?按密度對數(shù)據(jù)進(jìn)行類別劃分,將類別看作是

被低密度區(qū)域分割的高密度區(qū)域;

?任意形狀的類別分布;

?速度快,對噪聲不敏感;

?初始參數(shù):

鄰域半徑-8;

亂vn£鄰域內(nèi)最小對象數(shù);

密度聚類(二)

★★

★★

密度聚類(三)

pts

ptsG(p)

圓心以£為半徑的圓為P的鄰域-乃6(,);density(p)=

"Mp)

Minpts

nsity{p}>--------------,piscore;3o,oiscore&&oG\p,oG密度相連.

兀<P)

密度聚類即通過尋找一系列密度相連的核心對象進(jìn)行類別;

相對密度(一)

問題:

高密度區(qū)

域與低密度,1

區(qū)域是相對

的;?2二

?*3**

相對密度(二)

?改變對固定OWS的依賴

?P的近鄰密度:「£-P,。)1

?0G*-rfrstanre(p)

〃〃d-(p)(P)=1/|-----------------------|

?p的相對密度:['J

「〃〃d,…z(p)/nndL,,、(。)]

Zk-distance(p)vr'k-aistunce(o)vzJ

°-distance(p)

(P)=------------------------------------------------------------------------------------------------------------------------------------------------

k-disiance(p)vr/

k

?……(Pi說明「與其周圍數(shù)據(jù)的密度相差不多,。

一能與周圍數(shù)據(jù)很好的融合在一起,夕大致位于類別中

基于密度的網(wǎng)格聚類(一)

?1將數(shù)據(jù)空間劃分為有限個網(wǎng)格單元;

?2計算每個網(wǎng)格單元的密度;

?3如果網(wǎng)格單元的密度大于一定閾值則此網(wǎng)

格單元為密集網(wǎng)格;

-4將臨近的密集網(wǎng)格單元合并為一個類別;

基于密度的網(wǎng)格聚類(二)

A

B

U

2025303540455055606570

SOM

?SOM(自組織映射)的由來:

1991,Kohoncn提出,模擬人腦中的神經(jīng)元層;,

?人腦中不同的神經(jīng)元區(qū)域負(fù)責(zé)不同的功能;1

?一旦有外部刺激,與刺激相關(guān)的神經(jīng)元會被激

勵,并且其附近神經(jīng)元也會受到激勵;

SOM兩層結(jié)構(gòu)圖

X1

SOM聚類步驟論

?1確定神經(jīng)元分布結(jié)構(gòu)及神經(jīng)元數(shù),每個神經(jīng)元代表

一個類別;J

-2隨機初始化神經(jīng)元向量;/

?3隨機選擇輸入數(shù)據(jù);\

?4計算輸入數(shù)據(jù)與每個神經(jīng)元的相似度;)

?5選擇具有最大相似度的神經(jīng)元為獲勝神經(jīng)元;\

-6調(diào)整獲勝神經(jīng)元向量,及位于獲勝神經(jīng)元鄰域范圍

內(nèi)的神經(jīng)元向量;/J

-7判斷是否滿足收斂條件,如不滿足,反復(fù)運行3?7;\

SOM聚類(一)

SOM聚類(二)

調(diào)整鄰近神經(jīng)元作用

側(cè)的

側(cè)

數(shù)

據(jù)

;

;

初始值敏感

m

K中-

ns的

ea側(cè)

據(jù)

數(shù)

側(cè)

調(diào)

;

神經(jīng)元激勵關(guān)系

側(cè)向距離

臨近神獲勝神臨近神

經(jīng)元經(jīng)元經(jīng)元

激勵成“墨西哥帽”形狀分布;

獲勝神經(jīng)元受到的激勵作用最大;

離獲勝神經(jīng)元距離越遠(yuǎn)的神經(jīng)元其受到的激勵作用越小;

神經(jīng)元結(jié)構(gòu)的作用

1通過對相鄰神經(jīng)元進(jìn)行調(diào)整使相鄰的神經(jīng)

元反映相似的信息;

2使神經(jīng)元分布密度與數(shù)據(jù)的分布密度具有

一定的對應(yīng)關(guān)系;

神經(jīng)元結(jié)構(gòu)

?一維層次

layer0

CXXXDlayer1

layer2

layer3

SOM步驟分析(一)

C

-聚類有效性函數(shù)(最小誤差)入=zz

?SOM同樣也是在尋找使人最小的類別劃分

?人的梯度方向代表人的最陡下降方向

?人偏導(dǎo)數(shù)代表人的梯度方向

dJe

VJe=------=Z(〃?/(,)-x)

梯度下降

mi(t+1)=mi(t)+〃(/)>(mt(t)—x)

?隨機梯度下降近似模擬梯度下降

i(t+1)=m((/)+hi(t)—x)

人⑺代表梯度下降的步長;

隨機梯度下降通過單一數(shù)據(jù)調(diào)整梯度下降的方向不容易陷入局部最優(yōu);

SOM步驟分析(二)

〃⑺代表梯度下降的步長;

。⑺學(xué)習(xí)數(shù)率,主要控制梯度下降的步長;

,⑺臨域函數(shù),反映了神經(jīng)元調(diào)整的范圍;

0(/)3⑷均隨時間增加單調(diào)遞減;

…第,?個神經(jīng)元的位置;

。⑺獲勝神經(jīng)元的序號;_

c(x)=argmin{||x-mi\\}

2

||r,-rc(x)||

h(t)=Ac(x),/(/)=a(/)exp(----------------)

2b2⑺

梯度下降

ns

s-

aj。

S

CD

QJ」

6

(

D

JC

神經(jīng)元分布密度(一)

?輸入數(shù)據(jù)的分布密度為P(x)

?調(diào)整獲勝神經(jīng)元臨近的N個神經(jīng)元

?N=0,不調(diào)整臨近神經(jīng)元

2/3

神經(jīng)元分布密度:尸)

?調(diào)節(jié)臨近的N個神經(jīng)元

神經(jīng)元分布密度:22

C/2/3-1/(372+3(〃+1))、

尸(X)

神經(jīng)元分布密度與數(shù)據(jù)分布密度不成正比,某些數(shù)據(jù)分布密度較

高的區(qū)域神經(jīng)元分布密度較稀疏,某些數(shù)據(jù)分布密度較稀疏的區(qū)

域神經(jīng)元分布密度較高

神經(jīng)元分布密度(二)'

?輸入數(shù)據(jù)分布密度q(x)

?神經(jīng)元分布密度

■神經(jīng)元競爭獲勝的概率:

輸入數(shù)據(jù)中與W相似的數(shù)據(jù)的比例

*推論:

1p")q(X。

,VW/,Wj/(W/)=/(vt?7)=>--------------=Xi=Wz;Xj=Wj

夕(嗎)q

/0,)<7(X()

2VWi,WJ=Xi=Wi-.XJ=Wj==>/2(W/)=p(W/)

/(w./)夕(打)

SOM密度分布(三)

夕(w,)qg)

VWI,Wjf(W/)=------------=Xi=W/;Xj=w

1.數(shù)據(jù)分布比:

3:2:1;

2.初始化6個神經(jīng)

元模擬數(shù)據(jù)分布;

3.每個矩形內(nèi)神經(jīng)

元獲勝的比率:

1:1:1;

4.神經(jīng)元分布比:

3二:1;

123

SOM密度分布(四)

/(w/)q(xi)

Vw<?,wj---------------=--------------Xi=W<;Xy=Wj=/?(W/)夕O./)

/(Wy)q(Xj)

1.數(shù)據(jù)分布比:

3:2:1;

2.初始化6個神經(jīng)

元模擬數(shù)據(jù)分布;

3.每個矩形內(nèi)神經(jīng)

元的獲勝比率:

3:2:1;

4.神經(jīng)元分布比:

1:1:1;

123

SOM優(yōu)點

?對初始值不敏感;

?不容易陷入局部最優(yōu);

?神經(jīng)元分布能夠近似模擬數(shù)據(jù)分布;

SOM不足

?算法迭代時間較長;

?初始參數(shù)(類別數(shù))在實際應(yīng)用中不容

易獲得;

SOM算法的改進(jìn)(一)

?GSOM

?VSOM

GSOM

?計算每個神經(jīng)元的

AQE(mj)=2\\x-mj\\

Xjj

?選擇具有最大的,QE的神經(jīng)元,將此神經(jīng)元記

為e,如果e的4QE超過一定閾值則在e和e最不

相似的鄰居d間插入新的神經(jīng)元;

SOM算法的改進(jìn)(二)

?PSOM

?DASH

PSOM(-)

i初始兩個神經(jīng)元;

2隨機選擇輸入數(shù)據(jù);

3計算數(shù)據(jù)與每個神經(jīng)元相似度;

4如最大相似度小于閾值,初始化新的神經(jīng)元;否則更改

最相似神經(jīng)元向量的權(quán)值及鄰域內(nèi)神經(jīng)元向量的權(quán)值;

5尋找及S5A健立〃成,記錄〃成的建立時間Zge=0;

6其它〃成,Age=Age+1;

7某Jink的Zge大于一定值刪除此〃〃匕

8檢查神經(jīng)元集合,某神經(jīng)元無〃成相連,去掉此神經(jīng)元;

翊壞2?8至類別劃分結(jié)果滿足收斂條件;

PSOM

1次迭代1500次迭代

DASH

?DASH

?引入誤差4。萬

?IfAQE>Threshold

插入新的神經(jīng)元或分層

?生長系數(shù)B:

控制是否在同一層內(nèi)插

入新的神經(jīng)元

?分層系數(shù)0:

?控制是

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論