模式識(shí)別聚類_第1頁(yè)
模式識(shí)別聚類_第2頁(yè)
模式識(shí)別聚類_第3頁(yè)
模式識(shí)別聚類_第4頁(yè)
模式識(shí)別聚類_第5頁(yè)
已閱讀5頁(yè),還剩43頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

模式識(shí)別聚類第1頁(yè),課件共48頁(yè),創(chuàng)作于2023年2月什么是聚類聚類是一種無(wú)監(jiān)督分類法:沒有預(yù)先指定的類別分類:用已知類別的樣本訓(xùn)練集來設(shè)計(jì)分類器(監(jiān)督學(xué)習(xí))聚類:用事先不知類別的樣本,利用樣本的先驗(yàn)知識(shí)來構(gòu)造分類器(無(wú)監(jiān)督學(xué)習(xí))聚類分析無(wú)訓(xùn)練過程,訓(xùn)練與識(shí)別混合在一起。

第2頁(yè),課件共48頁(yè),創(chuàng)作于2023年2月相似性度量設(shè)有樣本集,要求按某種相似性把分類,怎樣實(shí)現(xiàn)?聚類分析符合“物以類聚,人以群分“的原則,它把相似性大的樣本聚集為一個(gè)類型,在特征空間里占據(jù)著一個(gè)局部區(qū)域。每個(gè)局部區(qū)域都形成一個(gè)聚合中心,聚合中心代表相應(yīng)類型。第3頁(yè),課件共48頁(yè),創(chuàng)作于2023年2月如下圖中,(a)有一個(gè)聚合中心,(b)、(c)有兩個(gè)。第4頁(yè),課件共48頁(yè),創(chuàng)作于2023年2月聚類分析避免了估計(jì)類概率密度的困難,對(duì)每個(gè)聚合中心來說都是局部密度極大值位置,其附近密度高,距離越遠(yuǎn)密度越小。聚類分析的關(guān)鍵問題:如何在聚類過程中自動(dòng)地確定類型數(shù)目c。實(shí)際工作中,也可以給定值作為算法終止的條件。第5頁(yè),課件共48頁(yè),創(chuàng)作于2023年2月聚類分析的結(jié)果與特征的選取有很大的關(guān)系。不同的特征,分類的結(jié)果不同。第6頁(yè),課件共48頁(yè),創(chuàng)作于2023年2月1.距離相似性度量一個(gè)模式樣本,對(duì)應(yīng)特征空間里的一個(gè)點(diǎn)。如果模式的特征是適當(dāng)選擇的,也就是各維特征對(duì)于分類來說都是有效的,那么同類樣本就會(huì)密集地分布在一個(gè)區(qū)域里,不同類的模式樣本就會(huì)遠(yuǎn)離。因此,點(diǎn)間距離遠(yuǎn)近反映了相應(yīng)模式樣本所屬類型有無(wú)差異,可以作為樣本相似性度量。距離越近,相似性越大,屬于一個(gè)類型。聚類分析中,最常用的就是距離相似性。第7頁(yè),課件共48頁(yè),創(chuàng)作于2023年2月(1)歐氏距離歐氏距離簡(jiǎn)稱距離,模式樣本向量x與y之間的歐氏距離定義為:

d為特征空間的維數(shù)。

當(dāng)較小時(shí),表示x與y在一個(gè)類型區(qū)域,反之,則不在一個(gè)類型區(qū)域。這里有一個(gè)門限的選擇問題。若選擇過大,則全部樣本被視作一個(gè)唯一類型;若選取過小,則可能造成每個(gè)樣本都單獨(dú)構(gòu)成一個(gè)類型。必須正確選擇門限值以保證正確分類。

第8頁(yè),課件共48頁(yè),創(chuàng)作于2023年2月(1)歐氏距離(續(xù))另外,模式特征坐標(biāo)單位的選取也會(huì)強(qiáng)烈地影響聚類結(jié)果。例如:一個(gè)二維模式,一個(gè)特征是長(zhǎng)度,另一個(gè)特征是壓力。當(dāng)長(zhǎng)度由厘米變?yōu)槊?,在中長(zhǎng)度特征的比重會(huì)下降,同樣,若把比重單位由毫米汞柱高度變成厘米汞柱高度,中壓力特征的影響也會(huì)下降。第9頁(yè),課件共48頁(yè),創(chuàng)作于2023年2月(1)歐氏距離(續(xù))可以用圖表示上述情況:從上圖看出,(b)、(c)特征空間劃分是不同的。(b)中為一類,為另一類,(c)中為一類,為另一類。第10頁(yè),課件共48頁(yè),創(chuàng)作于2023年2月(1)歐氏距離(續(xù))另外,使用歐氏距離度量時(shí),還要注意模式樣本測(cè)量值的選取,應(yīng)該是有效反映類別屬性特征(各類屬性的代表應(yīng)均衡)。但馬氏距離可解決不均衡(一個(gè)多,一個(gè)少)的問題。例如,取5個(gè)樣本,其中有4個(gè)反映對(duì)分類有意義的特征A,只有1個(gè)對(duì)分類有意義的特征B,歐氏距離的計(jì)算結(jié)果,則主要體現(xiàn)特征A。第11頁(yè),課件共48頁(yè),創(chuàng)作于2023年2月(2)馬氏(Mahalanobis)距離定義:馬氏距離的平方其中,為均值向量,為協(xié)方差矩陣。馬氏距離排除了不同特征之間相關(guān)性的影響,其關(guān)鍵在于協(xié)方差矩陣的計(jì)算。當(dāng)為對(duì)角陣時(shí),各特征之間才完全獨(dú)立;當(dāng)為單位矩陣時(shí),馬氏距離等于歐氏距離。馬氏距離比較適用于對(duì)樣本已有初步分類的情況,做進(jìn)一步考核、修正。第12頁(yè),課件共48頁(yè),創(chuàng)作于2023年2月(3)明氏(Minkowsky)距離定義:明氏距離:它是若干距離函數(shù)的通式:時(shí),等于歐氏距離;時(shí),稱為“街坊”(cityblock)距離。第13頁(yè),課件共48頁(yè),創(chuàng)作于2023年2月2.角度相似性度量樣本x與y之間的角度相似性度量定義為它們之間夾角的余弦,即

也是單位向量之間的點(diǎn)積(內(nèi)積)。

越大,x與y越相似。常用于情報(bào)檢索、植物分類、疾病分類。第14頁(yè),課件共48頁(yè),創(chuàng)作于2023年2月2.角度相似性度量滿足:①②當(dāng)時(shí),達(dá)到最大。對(duì)于坐標(biāo)系的旋轉(zhuǎn)及放大、縮小是不變的量,但對(duì)位移和一般性的線性變換不是不變的。樣本與核的相似性度量近鄰函數(shù)值相等第15頁(yè),課件共48頁(yè),創(chuàng)作于2023年2月樣本相似性度量是聚類分析的基礎(chǔ),針對(duì)具體問題,選擇適當(dāng)?shù)南嗨菩远攘渴潜WC聚類質(zhì)量的重要問題。但有了相似性度量還不夠,還必須有適當(dāng)?shù)木垲悳?zhǔn)則函數(shù)。聚類準(zhǔn)則函數(shù)對(duì)聚類質(zhì)量也有重大影響。相似性度量→集合與集合的相似性。相似性準(zhǔn)則→分類效果好壞的評(píng)價(jià)準(zhǔn)則

第16頁(yè),課件共48頁(yè),創(chuàng)作于2023年2月聚類準(zhǔn)則函數(shù)在樣本相似性度量的基礎(chǔ)上,聚類分析還需要一定的準(zhǔn)則函數(shù),才能把真正屬于同一類的樣本聚合成一個(gè)類型的子集,而把不同類的樣本分離開來。如果聚類準(zhǔn)則函數(shù)選得好,聚類質(zhì)量就會(huì)高。第17頁(yè),課件共48頁(yè),創(chuàng)作于2023年2月聚類準(zhǔn)則函數(shù)同時(shí),聚類準(zhǔn)則函數(shù)還可以用來評(píng)價(jià)一種聚類結(jié)果的質(zhì)量,如果聚類質(zhì)量不滿足要求,就要重復(fù)執(zhí)行聚類過程,以優(yōu)化結(jié)果。在重復(fù)優(yōu)化中,可以改變相似性度量,也可以選用新的聚類準(zhǔn)則。第18頁(yè),課件共48頁(yè),創(chuàng)作于2023年2月1.誤差平方和準(zhǔn)則(最常用的)假定有混合樣本,采用某種相似性度量,被聚合成c個(gè)分離開的子集,每個(gè)子集是一個(gè)類型,它們分別包含個(gè)樣本。為了衡量聚類的質(zhì)量,采用誤差平方和聚類準(zhǔn)則函數(shù),定義為:mj是個(gè)集合的中心,可以用來代表c個(gè)類型。第19頁(yè),課件共48頁(yè),創(chuàng)作于2023年2月誤差平方和準(zhǔn)則(續(xù))是樣本和集合中心的函數(shù)。在樣本集X給定的情況下,的取值取決于c個(gè)集合中心。描述個(gè)n試驗(yàn)樣本聚合成c個(gè)類型時(shí),所產(chǎn)生的總誤差平方和。越小越好。

第20頁(yè),課件共48頁(yè),創(chuàng)作于2023年2月誤差平方和準(zhǔn)則(續(xù))誤差平方和準(zhǔn)則適用于各類樣本比較密集且樣本數(shù)目懸殊不大的樣本分布。例如:上圖的樣本分布,共有3個(gè)類型,各個(gè)類型的樣本數(shù)目相差不多(10個(gè)左右)。類內(nèi)較密集,誤差平方和很小,類別之間距離遠(yuǎn)。第21頁(yè),課件共48頁(yè),創(chuàng)作于2023年2月誤差平方和準(zhǔn)則(續(xù))注意:如果不同類型的樣本數(shù)目相差很大,采用誤差平方和準(zhǔn)則,有可能把樣本數(shù)目多的類型分開,以便達(dá)到總的最小。如下圖所示:第22頁(yè),課件共48頁(yè),創(chuàng)作于2023年2月誤差平方和準(zhǔn)則(續(xù))下面進(jìn)一步說明上述問題:例如:有5個(gè)樣本,如下圖所示~第23頁(yè),課件共48頁(yè),創(chuàng)作于2023年2月誤差平方和準(zhǔn)則(續(xù))虛線為正確類型區(qū)分域,實(shí)線為采用誤差平方和最小準(zhǔn)則時(shí)的類別區(qū)分。虛線劃分時(shí):第24頁(yè),課件共48頁(yè),創(chuàng)作于2023年2月誤差平方和準(zhǔn)則(續(xù))實(shí)線劃分時(shí):所以,如果按誤差平方和準(zhǔn)則聚類將得到錯(cuò)誤結(jié)果。第25頁(yè),課件共48頁(yè),創(chuàng)作于2023年2月2.加權(quán)平均平方距離和準(zhǔn)則定義:加權(quán)平均平方距離和準(zhǔn)則式中:是類內(nèi)樣本間平均平方距離,即所有的樣本之間距離的平均值

。第26頁(yè),課件共48頁(yè),創(chuàng)作于2023年2月加權(quán)平均平方距離和準(zhǔn)則(續(xù))為類的先驗(yàn)概率,可以用樣本數(shù)目和樣本總數(shù)目來估計(jì)因此:

第27頁(yè),課件共48頁(yè),創(chuàng)作于2023年2月加權(quán)平均平方距離和準(zhǔn)則(續(xù))用重新討論誤差平方和準(zhǔn)則中所舉例子。5個(gè)樣本,如圖所示。第28頁(yè),課件共48頁(yè),創(chuàng)作于2023年2月第29頁(yè),課件共48頁(yè),創(chuàng)作于2023年2月加權(quán)平均平方距離和準(zhǔn)則(續(xù))雖然,但已較接近。所以,當(dāng)各類樣本數(shù)目相差懸殊時(shí),使用加權(quán)平均平方距離和準(zhǔn)則,要比使用誤差平方和準(zhǔn)則容易得到正確聚類結(jié)果。同一樣,越小,樣本類內(nèi)越密集。以聚合中心為極大值的局部區(qū)域密度越高,聚類結(jié)果越好。第30頁(yè),課件共48頁(yè),創(chuàng)作于2023年2月3.類間距離和準(zhǔn)則類間距離和可用于描述聚類結(jié)果的類間距離分布狀態(tài)。它定義為:加權(quán)類間距離和:

式中,第31頁(yè),課件共48頁(yè),創(chuàng)作于2023年2月類間距離和準(zhǔn)則(續(xù))對(duì)于兩類問題,類間距離常用下式計(jì)算類間距離和準(zhǔn)則描述不同類型之間的分離程度,所以值越大,表示各類之間分離性好,聚類質(zhì)量高。

第32頁(yè),課件共48頁(yè),創(chuàng)作于2023年2月4.散射矩陣為了對(duì)聚類質(zhì)量有一個(gè)全面的描述和考核標(biāo)準(zhǔn),可以通過散射矩陣引導(dǎo)出一些準(zhǔn)則函數(shù),它們不但反映同類樣本的聚集程度,而且也反映不同類之間的分離程度。

第33頁(yè),課件共48頁(yè),創(chuàng)作于2023年2月散射矩陣(續(xù))假定混合樣本集X的n個(gè)樣本被聚集成c個(gè)類型的子集Xj,每個(gè)子集有nj個(gè)樣本,則類內(nèi)散射矩陣定義為:其中為某一個(gè)類型的類內(nèi)散射矩陣:第34頁(yè),課件共48頁(yè),創(chuàng)作于2023年2月散射矩陣(續(xù))類間散射矩陣定義為:

式中,為各類型的均值向量,為全部樣本的均值向量,()為各類型先驗(yàn)概率。

第35頁(yè),課件共48頁(yè),創(chuàng)作于2023年2月定義全部樣本的總散射矩陣為:上述3個(gè)散射矩陣有如下關(guān)系:這一結(jié)果表明,對(duì)于給定的混合樣本集,類內(nèi)散射的減少,將導(dǎo)致類間散射的增加。對(duì)某一聚類結(jié)果,類內(nèi)散射越小越好,類間散射越大越好。

第36頁(yè),課件共48頁(yè),創(chuàng)作于2023年2月利用、、可以定義如下的4個(gè)聚類準(zhǔn)則:表示矩陣的跡,也就是對(duì)角線元素之和,||為行列式。J1~J4同時(shí)考慮了類內(nèi)的散射和類間散射,為了得到好的聚類結(jié)果,它們的值越大越好。第37頁(yè),課件共48頁(yè),創(chuàng)作于2023年2月兩種簡(jiǎn)單的聚類算法

介紹兩種簡(jiǎn)單的聚類分析方法,它是對(duì)某些關(guān)鍵性的元素進(jìn)行試探性的選取,使某種聚類準(zhǔn)則達(dá)到最優(yōu),又稱為基于試探的聚類算法。采用最近鄰規(guī)則的聚類算法

最大最小距離聚類算法第38頁(yè),課件共48頁(yè),創(chuàng)作于2023年2月1.采用最近鄰規(guī)則的聚類算法假設(shè)已有混合樣本集,按照最近鄰原則進(jìn)行聚類,算法如下:①選取距離閾值T,并且任取一個(gè)樣本作為第一個(gè)聚類中心Z1,如:。②計(jì)算樣本到Z1的距離D21:若,則,否則令為第二個(gè)聚合中心,。第39頁(yè),課件共48頁(yè),創(chuàng)作于2023年2月采用最近鄰規(guī)則的聚類算法(續(xù))設(shè),計(jì)算到Z1和Z2的距離D31和D32,若D31>T和D32>T

,則建立第三個(gè)聚合中心。否則把歸于最近鄰的聚合中心。依此類推,直到把所有樣本都進(jìn)行分類。③按照某種聚類準(zhǔn)則考察聚類結(jié)果,若不滿意,則重新選取距離閾值T、第一個(gè)聚合中心Z1

,返回②,直到滿意,算法結(jié)束。第40頁(yè),課件共48頁(yè),創(chuàng)作于2023年2月在樣本分布一定時(shí),該算法的結(jié)果在很大程度上取決于第一個(gè)聚合中心的選取和距離閾值的大小。該算法的優(yōu)點(diǎn)是簡(jiǎn)單,如果有樣本分布的先驗(yàn)知識(shí)用于指導(dǎo)閾值和起始點(diǎn)的選取,則可較快得到合理結(jié)果。對(duì)于高維的樣本集來說,則只有經(jīng)過多次試探,并對(duì)聚類結(jié)果進(jìn)行驗(yàn)算,從而選擇最優(yōu)的聚類結(jié)果。采用最近鄰規(guī)則的聚類算法(續(xù))第41頁(yè),課件共48頁(yè),創(chuàng)作于2023年2月2.最大最小距離聚類算法該算法以歐氏距離為基礎(chǔ),除首先辨識(shí)最遠(yuǎn)的聚類中心外,與上述算法相似。用

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論