版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
主編:費宇中國人民大學(xué)出版社第7章聚類分析物以類聚,人以群分。引入統(tǒng)計和數(shù)學(xué)工具把研究對象進行合理分類十分重要.聚類分析(clusteranalysis)就是研究如何將由多個個體組成的研究對象按照個體之間的相似性進行合理分類的一種多元統(tǒng)計方法.聚類分析在經(jīng)濟、管理、醫(yī)學(xué)、地質(zhì)、生物等諸多領(lǐng)域內(nèi)有廣泛應(yīng)用.本章介紹個體間的相似性度量及系統(tǒng)聚類、k均值聚類和EM聚類等常用的聚類方法.2024/7/312第7章聚類分析7.1相似性的度量各種距離:用于對樣品進行聚類(Q型聚類)相關(guān)系數(shù):用于對變量進行聚類(R型聚類)7.2
系統(tǒng)聚類法(一種基本的分層聚類法)7.3
k均值聚類法(一種常用快速聚類法)7.4
EM聚類法(一種迭代尋優(yōu)聚類法)2024/7/3137.1相似性度量設(shè)是對p維總體的n次觀測得到的n×p數(shù)據(jù)矩陣,n個行看成
n個樣品的觀測值,p個列看成p個變量的觀測值.
xij是X的第i行第j列元素.42024/7/31Q型聚類對樣品進行聚類,即根據(jù)樣品間相互“靠近”的程度來進行聚類.通常用各種統(tǒng)計距離來描述這種靠近程度,距離小的樣品聚為同一類,距離大的樣品聚為不同的類.設(shè)與是兩個樣品點(可視為矩陣X的任意兩行).5
2024/7/31常用的幾種距離歐式距離:絕對距離:切氏距離:6
2024/7/31明氏距離:馬氏距離:蘭氏距離:其中2024/7/31
7數(shù)據(jù)陣X=(xij)的列向量間相關(guān)系數(shù)
其中p為變量數(shù),n為樣品數(shù).8
2024/7/31R型聚類對變量進行聚類,即根據(jù)變量間的“相似”度來進行聚類,可用變量(矩陣X的任意兩列)間的相關(guān)系數(shù)或夾角余弦來描述這種相似性.?dāng)?shù)據(jù)陣X=(xij)的列向量間的夾角余弦:9
2024/7/317.2系統(tǒng)聚類法系統(tǒng)聚類法的步驟:(注意:對n個樣品或者p個變量都可以進行系統(tǒng)聚類,只不過使用的相似性度量不同而已)(1)先將要分析的每個個體看成一類,共r類(對Q型聚類,r=n;對R型聚類,r=p);(2)找出最相似的兩類,合并成一個新類,得r-1類;(3)在r-1類中,再找出最相似的兩類合并,得r-2類;(4)以此類推,將所有的r類合并成一大類.10
2024/7/31設(shè)Gs和Gt為系統(tǒng)聚類過程中生成的任意兩個子類,dij為Gs中第i樣品與Gt中第j樣品之間的距離,Dst為Gs與Gt之間的距離.這時,根據(jù)具體情況,可使用不同的距離度量來描述子類與子類之間的距離.(1)最小距離法:11
2024/7/312.Q型聚類過程中子類之間相似程度的度量(2)最大距離法:(3)中間距離法:
其中(4)重心距離法:其中,和分別表示Gs和Gt的重心.12
2024/7/31(5)類平均距離法:(6)離差平方和法(Ward法):
其中,13
2024/7/31設(shè)Gs和Gt為兩個子類,用rij表示Gs中第i個變量與Gt中第j個變量之間的相似系數(shù),則Gs與Gt間的相似度通常用Rst來度量:
注意:也可以將變量間的相似系數(shù)cij轉(zhuǎn)化成變量間的距離dij(例如
)來聚類.14
2024/7/313.R型聚類時子類之間相似程度的度量例7.1(數(shù)據(jù)文件為exam7.1)從湖南鄧阜仙巖體采集了七塊花崗巖樣品,分別測得其五種化學(xué)成分(見表7-1),試用系統(tǒng)聚類的最小距離法和最大距離法對這七塊花崗巖樣品進行聚類.序號SiO2TiO2FeOCaOK2O175.200.141.860.915.21275.150.162.110.744.93372.190.131.520.694.65472.350.131.370.834.87572.740.101.410.724.99673.290.0331.070.173.15773.720.0330.770.282.782024/7/3115表7-1隨機采集的七塊花崗巖樣品的部分化學(xué)成分?jǐn)?shù)據(jù)
解
首先采用最小距離法進行聚類,將七塊花崗巖樣品看成7個基本類,它們之間的距離(R計算程序見后)如表7—2所示.樣品123456710.000
20.4160.000
33.0883.0320.000
42.9132.8980.3410.000
52.5182.5110.6570.4260.000
63.0122.8371.9862.0922.0270.000
73.1132.9482.5652.6302.5400.6510.0002024/7/3116表7-2七塊花崗巖樣品之間的歐氏距離表4-2七塊花崗巖樣品按最小距離法的合并順序172024/7/31合并
次序要合并
的類合并后的新類最小距離法合并距離(歐氏距離)10.34120.41630.42640.65151.98662.511表7-3按最小距離法的合并順序及合并距離表4-3
七塊花崗巖樣品按最大距離法的合并順序18
2024/7/31合并
次序要合并
的類合并后的新類最大距離法合并距離(歐氏距離)10.34120.41630.65140.65752.63063.113從表7-3和表7-4可見:兩種聚類方法合并次序第1、2、5、6步相同,但第3、4兩步剛好相反.表7-4按最大距離法的合并順序及合并距離19
2024/7/31系統(tǒng)聚類(最小距離法)R程序#example7.1系統(tǒng)聚類(假定數(shù)據(jù)存儲目錄為:c:/data)>setwd("C:/data")#設(shè)定工作路徑>d7.1<-read.csv(“exam7.1.csv”,header=T)#將exam7.1數(shù)據(jù)讀入到d7.1中>d<-dist(d7.1,method="euclidean",diag=T,upper=F,p=2)#采用歐氏距離計算距離矩陣d,method為距離計算方法,包括“euclidean”(歐氏距離),“manhattan”(絕對距離),“maximum”(切氏距離),“minkowski”(明氏距離),"canberra"(蘭氏距離)等;diag為是否輸出對角線上的值,upper為是否輸出d的上三角部分的值,p為明氏距離參數(shù)k.>HC<-hclust(d,method="single")#采用最小距離法聚類#method為系統(tǒng)聚類方法,包括"single"(最小距離法),"complete"(最大距離法),"average"(類平均法),"median"(中間距離法),"centroid"(重心法),"ward"(Ward法)等>plot(HC,hang=-1)#繪制最小距離法聚類樹狀圖(圖7-1).
#當(dāng)hang取負(fù)值時,從底部對齊開始繪制聚類樹狀圖>abline(h=c(2.2,1),lty=3)#在圖7-1中分別畫合并距離為2.2和1的兩條水平虛線,用來幫助我們確定分類202024/7/31圖7-1
最小距離法樹狀圖圖7-2
最大距離法樹狀圖從表7-1和圖7-1可以看出:若取合并距離為2.2(上虛線),則7塊樣品可以分為兩類:第一類為{1,2},第二類為{3,4,5,6,7}.取合并距離為1(下虛線),則7塊樣品可以分為三類:第一類為{1,2},第二類為{3,4,5},
第三類為{6,7}.2024/7/3121>HC1<-hclust(d,method="complete")#采用最大距離法聚類>x11()
#另開一個繪圖窗口>plot(HC1,hang=-1)#繪制最大距離法聚類樹狀圖(圖7-2)>rect.hclust(HC1,k=3,border="red")#用紅色矩形框出3個分類222024/7/31最大距離法聚類的R程序由此可知:第一類為{1,2},第二類為{3,4,5},第三類為{6,7}.
函數(shù)cutree()可以將hclust()聚類結(jié)果按順序標(biāo)出樣品所屬類別:>cutree(HC1,k=3)
#指定分類個數(shù)k=3[1]11222337.3k均值聚類法1.基本思想
系統(tǒng)聚類法的每一步都要計算“類間距離”,計算量比較大.MacQueen(1967)提出了一種動態(tài)快速聚類方法—k均值聚類法(k-meanscluster).
其基本思想是:
根據(jù)給定的參數(shù)k,先把n個對象粗略的分為k類,然后按照某種最優(yōu)原則(通常為一個準(zhǔn)則函數(shù))修改不合理的分類,直到準(zhǔn)則函數(shù)收斂為止,就得到了一個最終的分類.
232024/7/31例7.2(數(shù)據(jù)文件為exam7.2)2024/7/3124
表7—5給出了2014-2020年金磚國家和七國集團總發(fā)電量數(shù)據(jù)(單位:太瓦時(10億度)).根據(jù)這些數(shù)據(jù),采用
k均值聚類法進行聚類分析,k分別取4和5.2024/7/3125表7-5近七年來金磚國家和七國集團總發(fā)電量國家\年份2014201520162017201820192020中國5794.55814.66133.26604.47166.17503.47779.1俄羅斯1064.21067.51091.01091.21109.21118.11085.4印度1262.21317.31401.71471.31579.21603.71560.9巴西590.5581.2578.9589.3601.4626.3620.1南非254.8250.1252.7255.1256.3252.6239.5美國4363.34348.74347.94302.54461.64411.24286.6加拿大647.6659.3663.7660.1655.8648.7643.9德國627.8647.6649.7652.9642.9609.4571.9法國564.9571.8556.2554.0574.0562.8524.9英國338.1338.9339.2338.2332.8324.8312.8意大利279.8283.0289.8295.8289.7293.9282.7日本1062.71030.11035.11042.11053.21030.31004.8#金磚國家和七國集團近七年總發(fā)電量的k均值聚類分析.>setwd("C:/data")#設(shè)定工作路徑>exam7.2<-read.csv("exam7.2.csv",header=T)#將exam7.2數(shù)據(jù)讀入>d7.2=exam7.2[,-1]#exam7.2的第一列為國家名,不是數(shù)值先去掉>rownames(d7.2)=exam7.2[,1]#用exam7.2的第一列為d7.2的行重新命名>KM4<-kmeans(d7.2,4,nstart=20,algorithm=“Hartigan-Wong”)#聚類個數(shù)先取為4,初始隨機集合個數(shù)取為20,算法為"Hartigan-Wong">sort(KM4$cluster)#對分類結(jié)果進行排序并查看中國俄羅斯印度日本美國巴西南非加拿大德國法國英國意大利
1222
344444442024/7/312626
2024/7/31
k均值聚類R程序>KM5<-kmeans(d7.2,5,nstart=10,algorithm="Hartigan-Wong")#聚類個數(shù)取為5>sort(KM5$cluster)
#對分類結(jié)果進行排序并查看分類情況
中國
美國
印度俄羅斯日本
南非英國意大利
巴西加拿大
德國法國
1123344455552024/7/312727
2024/7/31聚為4類聚為5類中國中國,美國俄羅斯,印度,日本印度美國俄羅斯,日本南非,英國,意大利,巴西,加拿大,德國,法國,南非,英國,意大利巴西,加拿大,德國,法國分析比較:282024/7/31圖7-3金磚國家和七國集團總發(fā)電量最小距離法聚類樹狀圖7.4其他聚類函數(shù)2024/7/3129K-中心點聚類:pam()函數(shù)(需先加載clust軟件包)密度聚類:dbscan()函數(shù)(需先下載加載fpc軟件包)期望最大化EM聚類:(Expectation-Maximization)的Mclust()函數(shù)(需先下載并加載mclust軟件包)等EM聚類函數(shù)Mclust()的使用格式:Mclust(data,G,modelNames,prior,control,...)其中data為待聚類數(shù)據(jù)集;G為預(yù)設(shè)類別數(shù),默認(rèn)值為1至9,由軟件根據(jù)BIC值選擇最優(yōu)值;modelNames用于設(shè)定模型類別,也由函數(shù)自動選取最優(yōu)值.2024/7/3130例7.3在R軟件內(nèi)置數(shù)據(jù)集中,有一個由地質(zhì)學(xué)家于1978年8月至1979年8月在美國黃石公園旅游景點老忠實泉(OldFaithful)記錄的間歇噴泉噴發(fā)數(shù)據(jù)集,名為faithful.?dāng)?shù)據(jù)集有272行,2列,兩列數(shù)據(jù)各為泉水噴發(fā)持續(xù)時間(eruptions)和噴發(fā)間隔時間(waiting),時間單位均為分鐘.
以下用兩種方法進行EM聚類:(1)用函數(shù)Mclust直接進行EM聚類:>library(mclust)#加載mclust軟件包>EM1<-Mclust(faithful)#直接做EM聚類
>summary(EM1,parameter=TRUE)#查看聚類結(jié)果>plot(EM1,what=“classification”)
#繪制聚類的概率分布圖
(全部272個原始數(shù)據(jù)被聚為三類,詳細分析過程參見教材)31
2024/7/31圖7-4
對faithful數(shù)據(jù)直接進行EM聚類結(jié)果圖2024/7/3132(2)首先在faithful數(shù)據(jù)分布范圍內(nèi)隨機生成728個均勻分布隨機數(shù),將它們與原來的faithful數(shù)據(jù)混合得到大小為1000的混合樣本數(shù)據(jù),再用函數(shù)Mclust對混合樣本作EM聚類分析.>nNoise<-728#設(shè)定均勻分布噪聲數(shù)據(jù)個數(shù)>set.seed(9)#設(shè)置隨機數(shù)種子>Noise<-apply(faithful,2,function(x)runif(nNoise,min=min(x)-0.1,max=max(x)+0.1))#在faithful數(shù)據(jù)分布范圍內(nèi)生成nNoise=728行,2列的均勻分布
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- GB/T 25982-2024客車車內(nèi)噪聲限值及測量方法
- GB/T 45165-2024小型高壓清洗機
- 2024幼兒園園長任期幼兒素質(zhì)教育聘用合同3篇
- 1《學(xué)習(xí)伴我成長》說課稿-2023-2024學(xué)年道德與法治三年級上冊統(tǒng)編版
- 19敕勒歌(說課稿)-2024-2025學(xué)年語文二年級上冊統(tǒng)編版
- 2024新版養(yǎng)老院合同范本標(biāo)準(zhǔn)版3篇
- 2024年水電安裝工程防水質(zhì)量保證清包合同范本3篇
- 2024年跨境電商債權(quán)擔(dān)保與結(jié)算服務(wù)合同3篇
- 15 小島 說課稿-2024-2025學(xué)年統(tǒng)編版語文五年級上冊
- 2024游樂場場地租賃及節(jié)假日親子活動策劃合同范本3篇
- 加快建設(shè)制造強國 夯實實體經(jīng)濟基礎(chǔ)課件
- 影像檢查診斷報告
- 蘭亭集序教學(xué)設(shè)計一等獎(三篇)
- FMCW無線電高度表天線被部分遮擋下的影響分析及驗證方法
- 高考專題復(fù)習(xí):《史記 孫子吳起列傳》分析
- 全國各省市縣統(tǒng)計表-
- 醋酸加尼瑞克注射液
- 蘇科版八年級物理上冊《運動的相對性》教案及教學(xué)反思
- ESG引領(lǐng)下的西部城市再出發(fā)-新型城市競爭力策略研究白皮書
- 供應(yīng)商不良行為管理辦法
- 剖宮產(chǎn)術(shù)后護理教學(xué)查房
評論
0/150
提交評論