第1講聚類分析法預測v_第1頁
第1講聚類分析法預測v_第2頁
第1講聚類分析法預測v_第3頁
第1講聚類分析法預測v_第4頁
第1講聚類分析法預測v_第5頁
已閱讀5頁,還剩44頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、礦床統(tǒng)計12聚類分析法(Cluster Analysis)陳 志 軍學院主要內容第一節(jié)引言第二節(jié)第三節(jié)第四節(jié)聚類統(tǒng)計量系統(tǒng)聚類法動態(tài)聚類法YOUR SITE HERE第一節(jié)引言YOUR SITE HERE人類認識事物、認識世界,往往從分類開始。聚類分析和判別分析是研究事物分類的基本方法。在數(shù)學分類和模式識別中,有兩類問題:第一類問題:研究對象存在一個事前分類,將未知歸屬于其中的一類判別分析(有監(jiān)督或稱有導師的Supervised,樣品的類別屬性是“被標記了”的labeled)另一類問題:不存在一個事前分類,對數(shù)據(jù)結構進 行分類(分組) 聚類分析(無監(jiān)督或稱無導師的Unsupervised)YO

2、UR SITE HERE判別分析數(shù)據(jù)格式YOUR SITE HERE聚類分析數(shù)據(jù)格式YOUR SITE HERE在地學領域中,經(jīng)常一定量的事物(如地著大量的分類問題,即對、樣品或變量)按其屬性進行歸類。由于地質對象的復雜性,單靠定性標志或少數(shù)定量標志進行分類,常常不能揭示客觀事物內在本質的差別和,難以確定地本質屬性的歸屬。同時也造成很多分類計算具有很大的性和任意性,而且所得的結果因人而異,常不能反映客觀實際情況。地學研究中的分類問題較多,如巖石分類、礦物分類、構造期次研究、古氣候古環(huán)境劃分等,這些都有可能需要利用聚類分析來研究。YOUR SITE HERE物以類聚,人以群分聚類分析是一種研究分

3、類問題的多元統(tǒng)計方法。聚類分析的職能是建立一種分類方法,它將一批樣品或變量,按照它們在性質上的親疏、相似程度進行分類。聚類分析的出發(fā)點是研究對象之間可能存在的相似性和親疏關系。所以,根據(jù)研究對象之間各種特征標志的相似程度或相關程度的大小,可將它們進行分類。YOUR SITE HERE聚類分析的目的是把分類對象按一定規(guī)則分成若干類,這些類不是事先給定的,而是根據(jù)數(shù)據(jù)的特征而確定。聚類分析的分類原則是同一類中的分類對象在某種意義上趨于彼此相似(有較大的相似性);不同類中的分類對象趨于不相似(有很大的差異)。YOUR SITE HERE聚類分析基本思想根據(jù)已知數(shù)據(jù),計算各觀察或變量之間親疏關系的統(tǒng)計

4、量(距離、相關系數(shù)等),根據(jù)某種準則(最短距離法、最長距離法、中間距離法、重心法等),使同一類內的差別較小,而類與類之間的差別較大,最終將觀察分為若干類?;蜃兞縔OUR SITE HERE兩個概念:個是類和類之間的距離。點間距離有很多定義方式。最簡單的是其他的距離。距離,還有當然還有一些和距離相反但起同樣作用的概念,比如相似性等,兩點越相似度越大,就相當于距離越短。由一個點組成的類是最基本的類;如果每一類一個點組成,那么點間的距離就是類間距離。但是如果某一類包含不止一個點,那么就要確定類間距離,YOUR SITE HERE兩個“距離”概念按照遠近程度來聚類需要明確一個是點和點之間的距離,一類間

5、距離是基于點間距離定義的:比如兩類之間最近點之間的距離可以作為這兩類之間的距離,也可以用兩類中最遠點之間的距離作為這兩類之間的距離;當然也可以用各類的中心之間的距離來作為類間距離。在計算時,各種點間距離和類間距離的不同選擇,其結果會有所不同,但一般差太多。YOUR SITE HERE聚類分析的分類系統(tǒng)聚類法,也叫分層聚類法,hierarchical cluster動態(tài)聚類法,也叫快速聚類法quick cluster逐步聚類、迭代聚類k-均值聚類 k-means cluster最優(yōu)分割法(有序樣品聚類法) 模糊聚類法圖論聚類法聚類預報法等按聚類方法分YOUR SITE HERE聚類分析的分類聚合

6、法: 分類開始時每個樣品自成一類。最常用,分類結果常用分類譜系圖表達。法: 分類開始將全部樣品看成一類。通常只能是求局部最優(yōu)解的方法。按聚合調優(yōu)法: 首先對樣品進行粗糙的分個類。動態(tài)聚類法就是其中最典型的方法。加入法: 業(yè)已存在一個分類結果,確定每個新加入樣品在分類結構中最合適的位置。等YOUR SITE HERE聚類分析的分類Q型聚類:對樣品的聚類(cases)按聚類對象R型聚類:對變量的聚類(variables)R型聚類和Q型聚類這兩種聚類在數(shù)學處理上是對稱的,沒有什么不同。YOUR SITE HERER型聚類分析和Q型聚類分析1. R型聚類分析(對變量的聚類)是一種降維的方法研究變量之間

7、的相似程度,對變量進行分組。樣品3從幾何意義上說,是以N個樣品為坐標軸,每個變量視為坐標空變量3變量1間的一點或一個,研究樣本變量2空間變量點之間的關系。如研究控礦地質因素及礦化標志間的相關關系,多用于礦物,化學元素等方面的分組,以助于礦床成因問題的研究。樣品2樣品1YOUR SITE HERER型聚類分析和Q型聚類分析2. Q型聚類分析(對樣品的聚類)研究樣品之間的相似程度,對樣品進行分類。變量3從幾何意義上說,是以P個變量為坐標軸,每個樣品視樣品3樣品1為p中一點或一個向樣品2量,研究樣本空間樣品點之間的關系。變量2變量1YOUR SITE HERE來說,主要是進行Q型聚類。對礦床統(tǒng)計(1

8、)對研究劃分的單元,可視為樣品,各單元所測定的各種地質特征作為變量原始數(shù)據(jù)組。(2) 各單元成礦遠景的好壞,決定于單元內有利成礦地質因素及礦化標志的發(fā)育程度,根據(jù)這些地質因素和標志的相似程度對單元進行歸類分組。這實際上是一種對地質環(huán)境的分類。(3) 然后,據(jù)分類中已知有礦和已知無礦單元的分 類,結合地質條件分析,相對地評價單元的成礦遠景。YOUR SITE HERE第二節(jié)聚類統(tǒng)計量變量Variable樣品Caseéêê .1 p ùú2 p ú. úúnp ûX = ê.êê

9、ëYOUR SITE HERE絕距離閔可夫距離距離系數(shù)dij切比雪夫距離型聚類統(tǒng)計量方差蘭氏距離距離聚類統(tǒng)計量(也稱相似性統(tǒng)計量距離C相似夾角余弦ij)系數(shù)相關系數(shù)統(tǒng)型計聚量類rijYOUR SITE HERE|dij|越小,相似程度越高QR對值距離1 p ù樣品xi = (xi1, xi2,xip)樣品xj = (xi1, xi2,xip)ú間的距離úpújpX = êú.p= å| xik - xjkê .údij|ú絕對值距離ûnpk =1på(x- xd=)

10、2距離ijikjkk =1ù1/ qépd=åw | x- x|q閔可夫距離êúijkikjkë k =1û= max | xik- xjk |dij切比雪夫距離1£k £ pYOUR SITE HERE樣品xi = (xi1, xi2,xip)樣品xj = (xi1, xi2,xip)間的距離1/ 21/ 2 xik - xjk sk= é2 ù= é2 ùppåêå(方差距離(x-*dijxjk )úêú

11、;ë k =1ûikë k =1û| xik - xjk|pd (L) = 1 å蘭氏距離(要求xij>0)ijx+ xpk =1ikjk1/ 2- x )ù馬氏距離=(dëûi jijå= 1n(a )- x )¢(n -1 a =1YOUR SITE HERE變量xi = (x1i, x2i,xni)T.x1 pù)T 間的相似系數(shù)1 j變量x = (x , x ,xx2 p új1i2inj.êú2 jX = ê .ú.n&

12、#234;úúå xki ykj.xëûnjnp= cosq= k =1夾角余弦Cijijæöæönnåk =1åk =122xxç÷ç÷kikjèøèø< xi , x j >=22xxijnå(- xj )kj= r = k =1C相關系數(shù)ijijnn- x)2(kjjk =1k =1YOUR SITE HERE距離系數(shù)變量3樣品3變量3樣品1變量1樣品2變量2變量2樣品2變量1樣

13、品1YOUR SITE HERE夾角余弦樣品3距離和相似系數(shù)之間的轉換一般說來,距離越小,兩樣品之間關系越密切,而相似系數(shù)越大,兩變量之間關系越密切。為了聚類方便起見,可以用下面的公式從相關系數(shù)得到變量間的距離。dij2 = 1-rij2YOUR SITE HERE第三節(jié)系統(tǒng)聚類法hierarchical clustering method系統(tǒng)聚類方式:聚合法:先視每個為一類,再合并為幾大類法:先視為一大類,再分成幾類可用于Q型聚類和R型聚類YOUR SITE HERE一、系統(tǒng)聚類的特點開始每個樣品(或變量)都視為一類,然后將各樣品(或變量)相互之間兩兩加以比較,根據(jù)聚類統(tǒng)計量逐步歸類,關系密

14、切的聚合到一個小的分類合到一個較大的分類,關系疏遠的聚,直到把所有樣品(或變量)合并為一大類完畢為止,形成一個由小到大的分類系統(tǒng),并繪制聚類譜系圖,把樣品之間的親疏關系簡明直觀地展示出來。YOUR SITE HERE二、系統(tǒng)聚類的基本思路和做法(1)先將待聚類的n個樣品(或者變量)各作為一類;(2)選定聚類統(tǒng)計量,計算每兩個類之間的聚類統(tǒng)計量,將關系最密切的兩類并為一類,其余不變,即得n-1類。再按前面的計算方法,計算新類與其它類之間的距離(或者相似系數(shù)),再將關系最密切的兩類并為一類,其余不變,即得n-2類;(3)如此繼續(xù)下去,每次重復都減少一類,直到最后所有所有樣品(或變量)一類為止。YO

15、UR SITE HEREx2k=32.5相似性標尺21.5k=210.5k=10012345 x451321YOUR SITE HERE0123453k=4X =1.02.02.54.52.02.04.01.54.02.5三、類間距離Gm問題:當最親近的兩個樣品合并Gk為一個類時,則形成一個樣品集Gl團,即p中的一個點群。如何度量類與類之間的距離?Gr= min d(xi , xj )= minDkr , Dlr DklDmr記類Gk與類Gl之間的距離為Dkld(xi,xj)表示點xi Gk和xj Gl之間的距離YOUR SITE HERE任給兩類,Gk,Gl ,規(guī)定其類間距離為兩類樣品間的最

16、短距離, 若類Gk與Gl合并成一個新類Gm,則Gm與任一類Gr的距離為多少?最短距離四、系統(tǒng)聚類方法1.最短距離法(single linkage)2.最長距離法(complete linkage)3.中間距離法(median linkage)4. 重心法(centroid method)5. 類平均法(average linkage)6. 可變類平均法(flexible-beta method)7. 可變法8. 離差平方和法(亦稱Ward法,Ward's minimum- variance method)等以上聚類方法的計算步驟完全相同,僅類與類之間的定義不同。YOUR SITE HE

17、RE四、譜系圖的形成和應用1.聚類的原則(譜系圖的形成過程)2. 一步形成法3. 多步形成法YOUR SITE HERE1.聚類的原則(譜系圖的形成過程)聚合歸類時一般應遵從以下四條原則:若選出的一對樣品在已經(jīng)分好的組中都未出現(xiàn)過,則把它們形成一個新組。若選出的一對樣品中,有一個出現(xiàn)在已經(jīng)分好的組里,則把另一個也加入到該組。若選出的兩個樣品,它們分別出現(xiàn)在已經(jīng)分好的兩組中,則把這兩個組連在一起。若選出的兩個樣品都出現(xiàn)在同一組中,則不須再分組。按上述四條原則反復進行,直到將所有的樣品(或變量)都聚合完畢為止。最終可形成譜系圖,也稱樹狀圖。YOUR SITE HERE2. 一步形成法(一次計算分類

18、法)一步形成法是一種最簡單的聚類方法,計算量不大。它由距離矩陣或相似性系數(shù)矩陣出發(fā)得到最終的分類結果。方法原理:根據(jù)距離或相似系數(shù)的大小, 依次將諸樣品(或變量)歸類連接起來, 形成一個從小類到大類的分類系統(tǒng)。在連接過程中,要遵循前述四條原則。YOUR SITE HERE例:對鄂東7個矽卡巖體的化探資料的Q型聚類分析。距離矩陣325164連接表YOUR SITE HERE根據(jù)相似性水平的地質意義對譜系圖進行分組,并對每組作出地質解釋。相似性水平的不同反映了要求精度的差別,其結果表現(xiàn)為分組的粗細不同。00.20.40.60.81.0Cu礦化587956808398102Cu型CuCu/W/Mo型

19、YOUR SITE HERE2. 多步形成法(逐步計算成群法)以距離作為聚類統(tǒng)計量(Q型聚類)情形:見前關于類間距離的系統(tǒng)聚類方法以相關系數(shù)作為聚類統(tǒng)計量(R型聚類)情形:(1) 轉換成距離來處理(2) 連續(xù)計算相關系數(shù)矩陣形成法基本步驟相似,唯一的區(qū)別是每一步分類后,要把分過類變量合并成為一個新的變量,即在相關系數(shù)矩陣中劃出最大的元素,將相應的變量合并,賦予新的記號,把合并的變量的數(shù)據(jù)平均作為新的變量的數(shù)據(jù),再計算合并后新變量與其余各變量的相關系數(shù),建立新的相關矩陣,再進行分類,重復這一過程直到把所有變量都合并為一類。最后按歸類作譜系圖。YOUR SITE HERE例:五個銷售員的銷售量x1

20、與教育水平x2聚類統(tǒng)計量:聚類聚類方法:最短距離法YOUR SITE HEREX1x2123451168912320éêê= ê距離矩陣:Dê對ê00êêëéêê= ê稱0YOUR SITE HEREéùêú02649ú G6ê= êú G3D30稱50對3êêúú G7êúëûù126526123

21、45éêêú Gú68= êú GDêú487êúêúëûYOUR SITE HERE026260X1x2123451168912320第四節(jié)動態(tài)聚類法也叫快速聚類法、逐步聚類、迭代聚類quick cluster method, k-means m樣本量很大,用系統(tǒng)聚類法計算的工作量極大,作出的樹狀圖也十分復雜, 不便于分析YOUR SITE HERE動態(tài)聚類的基本思想首先將樣品粗略地分為若干類,然后在按照某種原則逐步修改直到合理的分類為止。計算

22、步驟:(1)選取若干樣品作為初始凝聚點(給出分類的最大個數(shù)k);選凝聚點, 作初始分類(2) 計算各樣品與各凝聚點的距離,并作初始分類;(3) 根據(jù)初始分類,計算各類重心,用重心代替初始凝聚點,進行第二次分類;(4) 重復(2)步,直至所有樣品都不再調整,分類達到穩(wěn)定為止(稱為聚類過程收斂)調整不適合點修改分類YOUR SITE HERE小結YOUR SITE HERE與多元分析的其他方法相比,盡管聚類分析較為粗糙,沒有明顯的理論性,但應用方面取得了很大成功,確實是模式識別研究中非常有用的一類技術。聚類分析方法與傳統(tǒng)的統(tǒng)計分組方法相比,具有如下優(yōu)點:(1) 綜合性:Q型聚類分析可以利用多個變量的信息對樣本進行分類,克服單一指標分類的弊端。(2) 形象性:聚類分析可以利用聚類圖直觀地表現(xiàn)其分類形態(tài),及類與類之間的內在關系。(3)客觀性:聚類分析結果克服因素,比傳統(tǒng)分類方法更客觀、細致、全面。YOUR SITE HERE應用中須注意的問題Ø 同一批數(shù)據(jù)采用不同的聚類統(tǒng)計量,有時會得到不同的分類結果。Ø 同一批數(shù)據(jù)采用相同的聚類統(tǒng)計量,但采用不同的聚類方法,有時會產(chǎn)生不同的分類結果

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論