聚類分析學(xué)習(xí)總結(jié)_第1頁
聚類分析學(xué)習(xí)總結(jié)_第2頁
聚類分析學(xué)習(xí)總結(jié)_第3頁
聚類分析學(xué)習(xí)總結(jié)_第4頁
聚類分析學(xué)習(xí)總結(jié)_第5頁
已閱讀5頁,還剩3頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、聚類分析學(xué)習(xí)體會聚類分析是多元統(tǒng)計分析中研究“物以類聚”的一種方法,用于對事物的類 別尚不清楚,甚至在事前連總共有幾類都不能確定的情況下進(jìn)行分類的場合。聚類分析主要目的是研究事物的分類,而不同于判別分析。在判別分析中必 須事先知道各種判別的類型和數(shù)目,并且要有一批來自各判別類型的樣本,才能 建立判別函數(shù)來對未知屬性的樣本進(jìn)行判別和歸類。若對一批樣品劃分的類型和 分類的數(shù)目事先并不知道,這時對數(shù)據(jù)的分類就需借助聚類分析方法來解決。聚類分析把分類對象按一定規(guī)則分成組或類,這些組或類不是事先給定的而 是根據(jù)數(shù)據(jù)特征而定的。在一個給定的類里的這些對象在某種意義上傾向于彼此 相似,而在不同類里的這些對象

2、傾向于不相似。聚類統(tǒng)計量在對樣品(變量)進(jìn)行分類時,樣品(變量)之間的相似性是怎么度量?通 常有三種相似性度量一一距離、匹配系數(shù)和相似系數(shù)。距離和匹配系數(shù)常用來度 量樣品之間的相似性,相似系數(shù)常用來變量之間的相似性。樣品之間的距離和相 似系數(shù)有著各種不同的定義,而這些定義與變量的類型有著非常密切的關(guān)系。通 常變量按取值的不同可以分為:定量變量:變量用連續(xù)的量來表示,例如長度、重量、速度、人口等,又 稱為間隔尺度變量。定性變量:并不是數(shù)量上有變化,而只是性質(zhì)上有差異。定性變量還可以 再分為:有序尺度變量:變量不是用明確的數(shù)量表示,而是用等級表示,例如文化 程度分為文盲、小學(xué)、中學(xué)、大學(xué)等。名義尺

3、度變量:變量用一些類表示,這些類之間既無等級關(guān)系,也無數(shù)量 關(guān)系,例如職業(yè)分為工人、教師、干部、農(nóng)民等。下面主要討論具有定量變量的樣品聚類分析,描述樣品間的親疏程度最常用 的是距離。11 .距離1.數(shù)據(jù)矩陣設(shè)七為第i個樣品的第J個指標(biāo)數(shù)據(jù)矩陣如下表n個樣品就是Rp中的n個點。在Rp中需定義某種距離,第i個樣品與第j個樣品 之間的距離記為dj,在聚類過程中,相距較近的點傾向于歸為一類,相距較遠(yuǎn) 的點應(yīng)歸屬不同的類。所定義的距離匕一般應(yīng)滿足如下四個條件:d 0,對一切i, j ;且d3 ,工)=0當(dāng)且僅當(dāng)工=工j i j i j dj = d,對一切 i, j ; a、 d* + dk,對一切 i

4、, j, k2.定量變量的常用的距離對于定量變量,常用的距離有以下幾種:閔科夫斯基(Minkowski)距離豚I1d (q) = |x - x q qk=1這里q為某一自然數(shù)。閔科夫斯基距離有以下三種特殊形式:1)當(dāng)q = 1時,d=|七-X.J稱為絕對值距離,常被形象地稱為“城市 k=1街區(qū)”距離;當(dāng)q = 2時,d二U、-xj2;,稱為歐氏距離,這是聚類分析中最k=1常用的距離; 當(dāng)q = 8時,d(8)= maxx -x ,稱為切比雪夫距離。j1 0(i = 1,2,n; j = 1,2,p)時,第,個樣品與第j個樣品間的蘭 氏距離為d (L) = E xk - xjkjk=1 七 +

5、L這個距離與各變量的單位無關(guān),但沒有考慮指標(biāo)間的相關(guān)性。馬氏距離(Mahalanobis)距離第,個樣品與第j個樣品間的馬氏距離為d (M) = J(x x ) S -1(x x )其中x = (x , x,,x ), x = (x , x,x ), S為樣品協(xié)方差矩陣。ii1 i2ip jj1 j 2jp使用馬氏距離的好處是考慮到了各變量之間的相關(guān)性,并且與各變量的單位無關(guān);但馬氏距離有一個很大的缺陷,就是S難確定。由于聚類是一個動態(tài)過程, 故S隨聚類過程而變化,那么同樣的兩個樣品之間的距離可能也會隨之而變化, 這不符和聚類的基本要求。因此,在實際聚類分析中,馬氏距離不是理想的距離。斜交空間

6、距離第/個樣品與第j個樣品間的斜交空間距離定義為d* = 空(x -x )(x -x )r 2 ijp 2ik jk il jl kl其中r是變量x與變量x間的相關(guān)系數(shù)。當(dāng)p個變量互不相關(guān)時,d*= j) , klklij p即斜交空間距離退化為歐氏距離(除相差一個常數(shù)倍外)。以上幾種距離的定義均要求樣品的變量是定量變量,如果使用的是定性變 量,則有相應(yīng)的定義距離的方法。定性變量的距離下例只是對名義尺度變量的一種距離定義。例1某高校舉辦一個培訓(xùn)班,從學(xué)員的資料中得到這樣6個變量:性別(x1) 取值為男和女;外語語種(x2)取值為英、日和俄;專業(yè)(x3)取值為統(tǒng)計、 會計和金融;職業(yè)(x4)取值

7、為教師和非教師;居住處(x5 )取值為校內(nèi)和校 外;學(xué)歷(x6)取值為本科和本科以下。現(xiàn)有兩名學(xué)員:x1=(男,英,統(tǒng)計,非教師,校外,本科)x2 =(女,英,金融,教師,校外,本科以下)這兩名學(xué)員的第二個變量都取值“英”,稱為配合的,第一個變量一個取值 為“男”,另一個取值為“女”,稱為不配合的。一般地,若記配合的變量數(shù)為m1, 不配合的變量數(shù)為m2,則它們之間的距離可定義為, m d =212 m + m一、.2按此定義本例中氣與x 2之間的距離為3。1.2 .匹配系數(shù)當(dāng)樣品的變量為定性變量時,通常采用匹配系數(shù)作為聚類統(tǒng)計量。第/個樣品與第j個樣品的匹配系數(shù)定義為5 =芝Zk,其中k=1顯

8、然匹配系數(shù)越大,說明兩樣品越相似。1.3.相似系數(shù)聚類分析方法不僅用來對樣品進(jìn)行分類,而且可用來對變量進(jìn)行分類。在對變量進(jìn)行分類時,常常采用相似系數(shù)來度量變量之間的相似性。設(shè)C表示x與x的相似系數(shù),它一般應(yīng)滿足如下三個條件: j 1 j c. V 1,對一切i, j ; c = 1,當(dāng)且僅當(dāng)存在常數(shù)a和b,使得x . = ax + b ; c = c.,對一切 i, j .最常用的相似系數(shù)有以下兩種:1.夾角余弦變量xi與七的夾角余弦定義為七_(dá) 注2.乙22ki kj TOC o 1-5 h z k=1k=1它是Rn中變量xi的觀測向量(x ,x,,x )與變量x的觀測向量1i2inij(x

9、,x ,,x )之間夾角9的余弦函數(shù),即c (1) = cos9 .1j 2jnjijijij相關(guān)系數(shù)變量x與七的相關(guān)系數(shù)為V 7-、/-、4(x - x. )(x - x ,)c (2) =一:k億(xki- x. )2.億氣一 x )22k=1k=1其中x 二乙,x二; k=1k=12 .聚類分析從統(tǒng)計學(xué)的觀點看,聚類分析是通過數(shù)據(jù)建模簡化數(shù)據(jù)的一種方法。傳 統(tǒng)的統(tǒng)計聚類分析方法包括系統(tǒng)聚類法、分解法、加入法、動態(tài)聚類法、 有序樣品聚類、有重疊聚類和模糊聚類等。采用 k-均值、k-中心點等算法 的聚類分析工具已被加入到許多著名的統(tǒng)計分析軟件包中,如SPSS、SAS等。從機(jī)器學(xué)習(xí)的角度看,需

10、要由聚類學(xué)習(xí)算法自動確定標(biāo)記,而分類學(xué) 習(xí)的實例或數(shù)據(jù)對象有類別標(biāo)記。聚類是觀察式學(xué)習(xí),而不是示例式的學(xué) 習(xí)。從實際應(yīng)用的角度看,聚類分析是數(shù)據(jù)挖掘的主要任務(wù),是模式識別 的重要前提。而且聚類能夠作為一個獨立的工具獲得數(shù)據(jù)的分布狀況,觀 察每一簇數(shù)據(jù)的特征,集中對特定的聚簇集合作進(jìn)一步地分析。聚類分析 還可以作為其他算法(如分類和定性歸納算法)的預(yù)處理步驟。聚類分析的流程及數(shù)據(jù)來源聚類分析法的主要流程包括:數(shù)據(jù)預(yù)處理、為衡量數(shù)據(jù)點間的相似度 定義一個距離函數(shù)、聚類或分組和評估輸出,用流程圖描述如圖1所示。圖1聚類分析流程圖聚類分析的源數(shù)據(jù)通常是待聚類或分組的數(shù)據(jù)。對機(jī)械故障模式識別 而言,首先

11、要獲取關(guān)于本機(jī)組的大量運(yùn)行參數(shù),既要有機(jī)器平穩(wěn)運(yùn)行、正 常工作時的數(shù)據(jù),更要有機(jī)器出現(xiàn)故障時的數(shù)據(jù),并且獲知故障的類別。 這樣,由已知故障類別、故障發(fā)生時的各運(yùn)行參數(shù)、歷史記錄組成的數(shù)據(jù) 庫便構(gòu)成了數(shù)據(jù)挖掘的訓(xùn)練學(xué)習(xí)樣本庫。這里用到的數(shù)據(jù)就是設(shè)備的點檢 數(shù)據(jù)。常用的聚類分析方法系統(tǒng)聚類法系統(tǒng)聚類法(Hierarchical clustering method )是目前使用最多的一種方法。其 基本思想是首先將n個樣品看成n類(即一類包括一個樣品),然后規(guī)定樣品之間 的距離和類與類之間的距離。將距離最近的兩類合并為一個新類,在計算新類和 其他類之間的距離,再從中找出最近的兩類合并,繼續(xù)下去,最后所

12、有的樣品全 在一類。將上述并類過程畫成聚類圖,便可以決定分多少類,每類各有什么樣品。系統(tǒng)聚類法的步驟為:首先各樣品自成一類,這樣對n組樣品就相當(dāng)于有n 類;計算各類間的距離,將其中最近的兩類進(jìn)行合并;計算新類與其余各類 的距離,再將距離最近的兩類合并;重復(fù)上述的步驟,直到所有的樣品都聚為 一類時為止。下面以最短距離法為例來說明系統(tǒng)聚類法的過程。最短距離法的聚 類步驟如下:規(guī)定樣品之間的距離,計算樣品的兩兩距離,距離矩陣記為s(0),開始 視每個樣品分別為一類,這時顯然應(yīng)有D(p, q) = d ;pq選擇距離矩陣S()中的最小元素,不失一般性,記其為口(p,q),則將G, 與Gq合并為一新類,

13、記為弓疽 有Gm = G, u Gq ;計算新類G與其他各類的距離,得到新的距離矩陣記為S,、;mV17對、重復(fù)開始進(jìn)行第步,直到所有樣本成為一類為止。(1)值得注意的是在整個聚類的過程中,如果在某一步的距離矩陣中最小元素不 止一個時,則可以將其同時合并。動態(tài)聚類法開始將n個樣品粗略地分成若干類,然后用某種最優(yōu)準(zhǔn)則進(jìn)行調(diào)整,一次又 一次地調(diào)整,直至不能調(diào)整了為止。此法非常類似于計算方法的迭代法。(3)分解法它的程序正好和系統(tǒng)聚類相反,開始時所有的樣本都在一類,然后用某種最 優(yōu)準(zhǔn)則將它分成兩類。再用同樣準(zhǔn)則將這兩類各自試圖分裂為兩類,從中選出一 個使目標(biāo)函數(shù)較好者,這樣由兩類變成了三類。如此下去

14、,一直分裂到每類只有 一個樣品為止(或用其他停止規(guī)則)。(4)加入法將樣品依次輸入,每次輸入后將它放到當(dāng)前聚類圖的應(yīng)有位置上,全部輸入 后,即得聚類圖。3.總結(jié)體會聚類分析指將物理或抽象對象的集合分組成為由類似的對象組成的多個 類的分析過程。它是一種重要的人類行為。聚類分析的目標(biāo)就是在相似的基礎(chǔ)上 收集數(shù)據(jù)來分類。聚類源于很多領(lǐng)域,包括數(shù)學(xué),計算機(jī)科學(xué),統(tǒng)計學(xué),生物學(xué) 和經(jīng)濟(jì)學(xué)。在不同的應(yīng)用領(lǐng)域,很多聚類技術(shù)都得到了發(fā)展,這些技術(shù)方法被用 作描述數(shù)據(jù),衡量不同數(shù)據(jù)源間的相似性,以及把數(shù)據(jù)源分類到不同的簇中。比 如說現(xiàn)在要把n個產(chǎn)品按產(chǎn)品的m個指標(biāo)繼續(xù)聚類,因為產(chǎn)品可能之前的特色是 不一樣的。而這個時候影響產(chǎn)品的因素有m個,不可能一個一個的考慮

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論