版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
聚類算法簡介
報告人:劉銘
mliu@
什么是聚類?
聚類就是對大量未知標(biāo)注的數(shù)據(jù)集,按
數(shù)據(jù)的內(nèi)在相似性將數(shù)據(jù)集劃分為多個
類別,使類別內(nèi)的數(shù)據(jù)相似度較大而類
別間的數(shù)據(jù)相似度較??;
為什么需要聚類?
網(wǎng)頁密訊音樂圖片博客人物更多▼
中國11虎知識國g搜索吃二
對相似的liSI網(wǎng)頁結(jié)果
文檔或超相關(guān)搜索:知識-維基百科
奧運知識知識是對某個主題確信的認(rèn)識,并且這些認(rèn)識擁有潛在的能力為特定目的而使用。認(rèn)知
事物的能力是哲學(xué)中克莉爭議的中心議題之一,并且擁有它自己的分支一知識論。從更
鏈接進(jìn)行汽車知識
加實用的層次來看,知識通常被某些人的群體所共享,在這種情況下,知識可以通過不
聚類,由股票知出同的方式…序多信息
奧運會知正
于類別數(shù)電腦知識雅虎知識堂
雅虎知識堂,提供互動問答信息月艮務(wù)平臺,包含我要提問、我要回答、我要投票'知識專
美容知識
遠(yuǎn)小于文題、知識推薦、知識專家、知識分類、幫助中心等內(nèi)容。
檔數(shù),能期貨知識yahoocom2天前快照
百科知識
設(shè)為首頁網(wǎng)站地圖收藏學(xué)知識
夠加快用國家知識產(chǎn)權(quán)局
首頁軟件教室設(shè)計教室網(wǎng)絡(luò)教室英語教室開發(fā)救室考試教室范文教室管理救
戶尋找相法律知識室營消教室視頻教室社區(qū)…新生報名規(guī)則新生必看!《學(xué)知以互動社區(qū)管理婉則》
您是通過什么渠道知道學(xué)知識?招聘版主管理條例…
關(guān)信息的2008-03-25快瞪
速度;愛問知識人
新浪愛問知識人網(wǎng)站,開設(shè)推薦問題、最新問題、新手問題、問題分類、精彩回答等版
塊。
taskcn2天前快啰
汽車知識之底盤頻道-搜狐汽車
底盤知以傳動系統(tǒng)行駛系統(tǒng)轉(zhuǎn)向系統(tǒng)制動系統(tǒng)看點欄目全時四輪驅(qū)動差速決
空氣懸掛主動轉(zhuǎn)向系統(tǒng)ABSSAB.汽車底盤相關(guān)知識>>更多舒適寧隱新境界消
費者贊凱越底盤新升級(09/131458)..
ajtosohucom/s2006/zhistTi-dpan2008-03-26快呼
電腦知識網(wǎng)-電腦知識的集中營.互聯(lián)網(wǎng)人的繹站
電腦知識教程CopyrightAllRightsReserved..互聯(lián)網(wǎng)如有侵犯
您的權(quán)益,清通知本站,本站將及時處理.coolnie#163.com國ICP備07017146號電腦知
識網(wǎng)…
4天前快照
聚類圖示
聚類中沒有任何指導(dǎo)信息,完全按照數(shù)據(jù)的分布進(jìn)行類別劃分
什么是分類?
■數(shù)據(jù)集合。,類別標(biāo)記集合。
VxeData,CIass(x)GC
?數(shù)據(jù)集合:訓(xùn)練數(shù)據(jù)TrainData
待分類數(shù)據(jù)ClassData
?已知VxeTrainData;konwCIass(x)&&Class(x)
*|可是貝:VZeClassData',Class(t)?
?方法:根據(jù)訓(xùn)練數(shù)據(jù)獲得類別劃分標(biāo)準(zhǔn)
V/eClassData;Class(t)=f(t)
分類圖示
:?訓(xùn)練數(shù)據(jù)???
?????
?待分類數(shù)據(jù)?2
1?■
??■*
?-???
?
??
??
?■
?3?4?.
??????
??
??■?
聚類與分類的區(qū)別
?有類別標(biāo)記和無類別標(biāo)記;
?有監(jiān)督與無監(jiān)督;
(有訓(xùn)練語料與無訓(xùn)練語料)
?TrainAndClassification(分類);
?NoTrain(聚類);
聚類的基本要素'
?定義數(shù)據(jù)之間的相似度;
?聚類有效性函數(shù)(停止判別條件);
1.在聚類算法的不同階段會得到不同的類別劃分結(jié)果,可以通過聚類有效性函數(shù)
來判斷多個劃分結(jié)果中哪個是有效的;
2.使用有效性函數(shù)作為算法停止的判別條件,當(dāng)類別劃分結(jié)果達(dá)到聚類有效性函
數(shù)時即可停止算法運行;
?類別劃分策略(算法);
通過何種類別劃分方式使類別劃分結(jié)果達(dá)到有效性函數(shù);
相似度分類(一)
?Euclideandistance
Euclidean(Ai,Aj)=
?交叉嫡e
〃(/而+4川)1「〃”
H(Ai,Aj)=-工--------------log2(y4/m+Ajm)4-—Z(力〃”*log24w)+Z(彳川*l°g?4注)
22..;=i
?Cosine
Cos(Ai9Aj)=
數(shù)據(jù)表示為向量,向量中某一維對應(yīng)數(shù)據(jù)某一特征或?qū)傩?/p>
僅計算了數(shù)據(jù)向量中屬于同一維度特征的權(quán)值差距;
相似度分類(二)
?BasedonSemantic
2
Semantic(Ai,Aj)=EESemantic{Aim,Ajn)(Aim-Ajn)
in=1n=1
Sem
屬于不同維度的特征的關(guān)系以antic{Aim,Ajn)表不
?UnbalanceSimilarity
r
2
Unbalance(Ai,Aj)=”(力而-4/m)
不同特征在數(shù)據(jù)相似度計算中的作用不同
聚類有效性函數(shù)(一)
?最小誤差(人):
c個類別,待聚類數(shù)據(jù)x,mi為類別C,的中心,
Zxc
m,=三一Je=£EIIx-mII2人越小聚類結(jié)果越好
ICiII=iXGCi
人衡量屬于不同類別的數(shù)據(jù)與類別中心的的誤差和;
?最小方差:
一1-2
s'=丁zZu%-%II
xeCixeCi
S,衡量同一類別內(nèi)數(shù)據(jù)的平均誤差和;
聚類的有效性函數(shù)(二)
聚類嫡(CE):
k
Ep:
j=i
9
nj
En
=(ZEe(p:,p:))+£e(p:,C°)
J=\/=1j=1
第一部分衡量算法的類內(nèi)相似度,類內(nèi)相似度越大越好;
En
第二部分衡量算法的類間相似度,類間相似度越小越好;
聚類評價
?PrecisionandRecall
?Purity
?RandValue
?Intra-clustersimilarity
Inter-clustersimilarity
Purity
測試數(shù)據(jù)首先被人工標(biāo)注為不同的類別;
測試數(shù)據(jù)在聚類結(jié)果中又被重新劃分為多個類別:
g測試語料中被標(biāo)記為第n在聚類結(jié)果中被劃分到
〃夕個類別的數(shù)據(jù)數(shù);,第『個類別的數(shù)據(jù)數(shù);
(/(/聚類結(jié)果的第「個類別中,被標(biāo)記為第夕個
c七類別的數(shù)據(jù)數(shù);
尋找具有最大數(shù)據(jù)數(shù)的<作為類別的代表;
1c
類別C,的P“。:P(C,.)=—max(〃;)
ng=i
r
聚類算法的,nrq
Purity=Z~~max(n)
Rand'
?Setanytwodataintestingcorpusasapair-point;
?Iftestingcorpushasndata,thereisn1)/2pair-points
?a)Onepair-pointisinsameclusterintestingcorpus,andin
clusteringresultsitisinsamecluster;
?b)Onepair-pointisinsameclusterintestingcorpus,andin
clusteringresultsitisn'tindifferentcluster;
?c)Onepair-pointisindifferentclusterintestingcorpus,
andinclusteringresultsitisindifferentcluster;
?d)Onepair-pointisindifferentclusterintestingandin
clusteringresultsitisinsamecluster;
a+c
Rand-----------------------
Intraclustersimilarity
Interclustersimilarity
£Cos(di,dj)
dteC,djwC
類別c,類內(nèi)相似度Sima(Ci)=
|C/|
ZSim(C,)
i=]
算法的類內(nèi)相似度A1gorithm-Sima=---------------------
ICI
ZCos(di,dj)
d/€Ci,djeCj
類別類間相似度Simc(Ci,Cj)=---------------------------------
Cl*Cl
算法的類間相似度Sime(Ci,Cj)
A1gorithm-Simc=Z-------------
』,=i&&fI*IC,I
聚類結(jié)果:類內(nèi)相似度越大越好,類間相似度越小越好;
數(shù)據(jù)集
?UCI
beyond100datasets;
eachcaseineachdatasetisrepresentsbysome
attributes;
?attribute:
continuous,numerical,Boolean,missingattribute,
?oftenuse:
iris,zoo,glass,wine;
numericalcontinuousBooleanFeaturecase
Datasetclassnumber
featurefeaturefeaturenumbernumber
Glass-9-92147
Zo°1-15161017
Wine-13-131783
'Iris
4--41504
聚類算法的簡單分類
?基于戈U分:K-means,K-medoids
?基于層次:HFC
?基于密度:DBSCAN
?基于網(wǎng)格:CL工QUE,STING
K-means
?初始參數(shù)-類別數(shù)&初始類別中心;
?聚類有效性函數(shù)-最小誤差;
?優(yōu)點:
聚類時間快;
?缺點:
對初始參數(shù)敏感;
容易陷入局部最優(yōu);
VORONI圖、
K-mans每一種劃對應(yīng)一個VORONI圖;VORON工圖中將數(shù)據(jù)看作空間中
的點;
?Data7x*Dafa,m一個戈“分Classi9xeClassi
VpwClassi9\/tGDataDistance(p.x)<Distance(pyt)
K-means步驟
?1設(shè)置初始類別中心和類別數(shù);
?2根據(jù)類別中心對數(shù)據(jù)進(jìn)行類別劃分;
?3重新計算當(dāng)前類別劃分下每類的中心;
?4在得到類別中心下繼續(xù)進(jìn)行類別劃分;
?5如果連續(xù)兩次的類別劃分結(jié)果不變則停止算法;否則
循環(huán)2?5;
Update
the
cluster
means
▼reassign
Update
the
cluster
means
初始值敏感
初始化4個類別中心;
左側(cè)的全體數(shù)據(jù)僅與第一個類別中心相似;
K-mcans公式
?目標(biāo):最小化」—2
,e=ZZIIX-"人||
i=1xeCi
?固定類別劃分情況下求人最小值
?偏導(dǎo)數(shù)為0時,Je達(dá)到最小值8Je
=0I=1...C
dmi
?人達(dá)到最小值時,類別中心為類別內(nèi)的數(shù)據(jù)質(zhì)心
E%
Zi-x)=0nmi='(-
Cl
局部極小值
?5、
K-means每一次類別劃分均選擇人解空間的局部極小值;
層次聚類
?分裂或凝聚
犀家的
(ANGNES>
(DIANA>
算法運行到某一階段,類別劃分結(jié)果達(dá)到聚類標(biāo)準(zhǔn)時
即可停止分裂或凝聚;
密度聚類(一)
?將數(shù)據(jù)看作空間中的點,將數(shù)據(jù)間的相似度
看作數(shù)據(jù)間的距離;
?按密度對數(shù)據(jù)進(jìn)行類別劃分,將類別看作是
被低密度區(qū)域分割的高密度區(qū)域;
?任意形狀的類別分布;
?速度快,對噪聲不敏感;
?初始參數(shù):
鄰域半徑-8;
亂vn£鄰域內(nèi)最小對象數(shù);
密度聚類(二)
★★
★★
密度聚類(三)
pts
ptsG(p)
圓心以£為半徑的圓為P的鄰域-乃6(,);density(p)=
"Mp)
Minpts
nsity{p}>--------------,piscore;3o,oiscore&&oG\p,oG密度相連.
兀<P)
密度聚類即通過尋找一系列密度相連的核心對象進(jìn)行類別;
相對密度(一)
問題:
高密度區(qū)
域與低密度,1
區(qū)域是相對
的;?2二
?*3**
相對密度(二)
?改變對固定OWS的依賴
?P的近鄰密度:「£-P,。)1
?0G*-rfrstanre(p)
〃〃d-(p)(P)=1/|-----------------------|
?p的相對密度:['J
「〃〃d,…z(p)/nndL,,、(。)]
Zk-distance(p)vr'k-aistunce(o)vzJ
°-distance(p)
(P)=------------------------------------------------------------------------------------------------------------------------------------------------
k-disiance(p)vr/
k
?……(Pi說明「與其周圍數(shù)據(jù)的密度相差不多,。
一能與周圍數(shù)據(jù)很好的融合在一起,夕大致位于類別中
基于密度的網(wǎng)格聚類(一)
?1將數(shù)據(jù)空間劃分為有限個網(wǎng)格單元;
?2計算每個網(wǎng)格單元的密度;
?3如果網(wǎng)格單元的密度大于一定閾值則此網(wǎng)
格單元為密集網(wǎng)格;
-4將臨近的密集網(wǎng)格單元合并為一個類別;
基于密度的網(wǎng)格聚類(二)
A
B
U
2025303540455055606570
SOM
?SOM(自組織映射)的由來:
1991,Kohoncn提出,模擬人腦中的神經(jīng)元層;,
?人腦中不同的神經(jīng)元區(qū)域負(fù)責(zé)不同的功能;1
?一旦有外部刺激,與刺激相關(guān)的神經(jīng)元會被激
勵,并且其附近神經(jīng)元也會受到激勵;
SOM兩層結(jié)構(gòu)圖
X1
SOM聚類步驟論
?1確定神經(jīng)元分布結(jié)構(gòu)及神經(jīng)元數(shù),每個神經(jīng)元代表
一個類別;J
-2隨機初始化神經(jīng)元向量;/
?3隨機選擇輸入數(shù)據(jù);\
?4計算輸入數(shù)據(jù)與每個神經(jīng)元的相似度;)
?5選擇具有最大相似度的神經(jīng)元為獲勝神經(jīng)元;\
-6調(diào)整獲勝神經(jīng)元向量,及位于獲勝神經(jīng)元鄰域范圍
內(nèi)的神經(jīng)元向量;/J
-7判斷是否滿足收斂條件,如不滿足,反復(fù)運行3?7;\
SOM聚類(一)
SOM聚類(二)
調(diào)整鄰近神經(jīng)元作用
側(cè)的
右
類
別
中
心
會
向
左
側(cè)
的
數(shù)
據(jù)
移
動
;
一
避
免
初
定
的
敏
始
值
感
;
初始值敏感
m
左
K中-
ns的
ea側(cè)
據(jù)
數(shù)
右
對
的
側(cè)
別
類
心
中
有
沒
何
任
整
調(diào)
用
作
;
神經(jīng)元激勵關(guān)系
側(cè)向距離
臨近神獲勝神臨近神
經(jīng)元經(jīng)元經(jīng)元
激勵成“墨西哥帽”形狀分布;
獲勝神經(jīng)元受到的激勵作用最大;
離獲勝神經(jīng)元距離越遠(yuǎn)的神經(jīng)元其受到的激勵作用越小;
神經(jīng)元結(jié)構(gòu)的作用
1通過對相鄰神經(jīng)元進(jìn)行調(diào)整使相鄰的神經(jīng)
元反映相似的信息;
2使神經(jīng)元分布密度與數(shù)據(jù)的分布密度具有
一定的對應(yīng)關(guān)系;
神經(jīng)元結(jié)構(gòu)
?一維層次
layer0
CXXXDlayer1
layer2
layer3
SOM步驟分析(一)
C
-聚類有效性函數(shù)(最小誤差)入=zz
?SOM同樣也是在尋找使人最小的類別劃分
?人的梯度方向代表人的最陡下降方向
?人偏導(dǎo)數(shù)代表人的梯度方向
dJe
VJe=------=Z(〃?/(,)-x)
梯度下降
mi(t+1)=mi(t)+〃(/)>(mt(t)—x)
?隨機梯度下降近似模擬梯度下降
i(t+1)=m((/)+hi(t)—x)
人⑺代表梯度下降的步長;
隨機梯度下降通過單一數(shù)據(jù)調(diào)整梯度下降的方向不容易陷入局部最優(yōu);
SOM步驟分析(二)
〃⑺代表梯度下降的步長;
。⑺學(xué)習(xí)數(shù)率,主要控制梯度下降的步長;
,⑺臨域函數(shù),反映了神經(jīng)元調(diào)整的范圍;
0(/)3⑷均隨時間增加單調(diào)遞減;
…第,?個神經(jīng)元的位置;
。⑺獲勝神經(jīng)元的序號;_
c(x)=argmin{||x-mi\\}
2
||r,-rc(x)||
h(t)=Ac(x),/(/)=a(/)exp(----------------)
2b2⑺
梯度下降
ns
s-
aj。
S
CD
QJ」
6
(
D
JC
差
神經(jīng)元分布密度(一)
?輸入數(shù)據(jù)的分布密度為P(x)
?調(diào)整獲勝神經(jīng)元臨近的N個神經(jīng)元
?N=0,不調(diào)整臨近神經(jīng)元
2/3
神經(jīng)元分布密度:尸)
?調(diào)節(jié)臨近的N個神經(jīng)元
神經(jīng)元分布密度:22
C/2/3-1/(372+3(〃+1))、
尸(X)
神經(jīng)元分布密度與數(shù)據(jù)分布密度不成正比,某些數(shù)據(jù)分布密度較
高的區(qū)域神經(jīng)元分布密度較稀疏,某些數(shù)據(jù)分布密度較稀疏的區(qū)
域神經(jīng)元分布密度較高
神經(jīng)元分布密度(二)'
?輸入數(shù)據(jù)分布密度q(x)
?神經(jīng)元分布密度
■神經(jīng)元競爭獲勝的概率:
輸入數(shù)據(jù)中與W相似的數(shù)據(jù)的比例
*推論:
1p")q(X。
,VW/,Wj/(W/)=/(vt?7)=>--------------=Xi=Wz;Xj=Wj
夕(嗎)q
/0,)<7(X()
2VWi,WJ=Xi=Wi-.XJ=Wj==>/2(W/)=p(W/)
/(w./)夕(打)
SOM密度分布(三)
夕(w,)qg)
VWI,Wjf(W/)=------------=Xi=W/;Xj=w
1.數(shù)據(jù)分布比:
3:2:1;
2.初始化6個神經(jīng)
元模擬數(shù)據(jù)分布;
3.每個矩形內(nèi)神經(jīng)
元獲勝的比率:
1:1:1;
4.神經(jīng)元分布比:
3二:1;
123
SOM密度分布(四)
/(w/)q(xi)
Vw<?,wj---------------=--------------Xi=W<;Xy=Wj=/?(W/)夕O./)
/(Wy)q(Xj)
1.數(shù)據(jù)分布比:
3:2:1;
2.初始化6個神經(jīng)
元模擬數(shù)據(jù)分布;
3.每個矩形內(nèi)神經(jīng)
元的獲勝比率:
3:2:1;
4.神經(jīng)元分布比:
1:1:1;
123
SOM優(yōu)點
?對初始值不敏感;
?不容易陷入局部最優(yōu);
?神經(jīng)元分布能夠近似模擬數(shù)據(jù)分布;
SOM不足
?算法迭代時間較長;
?初始參數(shù)(類別數(shù))在實際應(yīng)用中不容
易獲得;
SOM算法的改進(jìn)(一)
?GSOM
?VSOM
GSOM
?計算每個神經(jīng)元的
AQE(mj)=2\\x-mj\\
Xjj
?選擇具有最大的,QE的神經(jīng)元,將此神經(jīng)元記
為e,如果e的4QE超過一定閾值則在e和e最不
相似的鄰居d間插入新的神經(jīng)元;
SOM算法的改進(jìn)(二)
?PSOM
?DASH
PSOM(-)
i初始兩個神經(jīng)元;
2隨機選擇輸入數(shù)據(jù);
3計算數(shù)據(jù)與每個神經(jīng)元相似度;
4如最大相似度小于閾值,初始化新的神經(jīng)元;否則更改
最相似神經(jīng)元向量的權(quán)值及鄰域內(nèi)神經(jīng)元向量的權(quán)值;
5尋找及S5A健立〃成,記錄〃成的建立時間Zge=0;
6其它〃成,Age=Age+1;
7某Jink的Zge大于一定值刪除此〃〃匕
8檢查神經(jīng)元集合,某神經(jīng)元無〃成相連,去掉此神經(jīng)元;
翊壞2?8至類別劃分結(jié)果滿足收斂條件;
PSOM
1次迭代1500次迭代
DASH
?DASH
?引入誤差4。萬
?IfAQE>Threshold
插入新的神經(jīng)元或分層
?生長系數(shù)B:
控制是否在同一層內(nèi)插
入新的神經(jīng)元
?分層系數(shù)0:
?控制是
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年五人合伙投資大數(shù)據(jù)分析平臺合同3篇
- 2024石材材料采購合同書石材供應(yīng)協(xié)議8篇
- 2024版有關(guān)股權(quán)托管協(xié)議
- 2024項目建設(shè)委托合同
- 2024民用房屋建筑承包合同
- 2024餐飲店的租賃合同
- 2024落戶手續(xù)全程代理服務(wù)合同范本3篇
- 2024版特許經(jīng)營許可合同
- 2024版購銷紅酒合同范本
- 2024禽蛋類產(chǎn)品食品安全責(zé)任保險合同3篇
- 宜昌市西陵區(qū)2024年數(shù)學(xué)六年級第一學(xué)期期末檢測試題含解析
- 飲水機維護(hù)服務(wù)協(xié)議書模板
- 深入學(xué)習(xí)2024《軍隊生態(tài)環(huán)境保護(hù)條例》
- 眼藥水項目創(chuàng)業(yè)計劃書
- 2024年全國《國防和兵役》理論知識競賽試題庫與答案
- 家居保潔課件
- 換電站(充電樁)安全風(fēng)險告知
- 經(jīng)營性房屋租賃項目投標(biāo)方案(技術(shù)標(biāo))
- 入戶調(diào)查合同范本
- 七年級道法上冊第一學(xué)期期末綜合測試卷(人教版 2024年秋)
- 標(biāo)桿地產(chǎn)五星級酒店精裝修標(biāo)準(zhǔn)
評論
0/150
提交評論