




下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、一、聚類分析概述聚類分析(Clusterysis)就是將一個(gè)沒(méi)有類別標(biāo)記的樣本集按照某種準(zhǔn)則劃分成若干個(gè)子集(類),使相似的樣本盡可能歸為一類,而不相似的樣本盡可能劃分到不同的類中。由于在對(duì)樣本集進(jìn)行聚類的過(guò)程中,沒(méi)有任何關(guān)于類別的先驗(yàn)知識(shí),所以聚類分析屬于無(wú)監(jiān)督分類的范疇。聚類分析是一種探索性的分析,它從樣本數(shù)據(jù)出發(fā),自動(dòng)進(jìn)行分類。因此,聚類分析所使用方法的不同,常常會(huì)得到不同的結(jié)論。不同研究者對(duì)于同一組數(shù)據(jù)進(jìn)行聚類分析,所得到的聚類數(shù)未必一致。1.聚類分析的基本聚類分析的基本依據(jù)就是“物以類聚”的。一般認(rèn)為:待聚類的樣本之間存在著程度不同的相似性??梢愿鶕?jù)一批樣本的多個(gè)觀測(cè)指標(biāo),找出能夠度
2、量樣本之間相似程度的統(tǒng)計(jì)量。并以此為依據(jù),將所有的樣品或變量分別聚合到不同的類中,使同一類中的有較大的相似性,不同類中的差異較大。2.數(shù)據(jù)的預(yù)處理在聚類分析中,稱待分類的對(duì)象為樣本。要對(duì)樣本進(jìn)行合理的分類,首先應(yīng)考慮樣本的各種特性指標(biāo)(觀測(cè)數(shù)據(jù))。設(shè)有 n 個(gè)被分類對(duì)象,即樣本集為X = x1, x2, , xn每一個(gè) xi 有 p 個(gè)特性指標(biāo),即 xi特性指標(biāo)向量xi = (xi1, xi2, , xip)其中 xij 表示第 i 個(gè)樣本的第 j 個(gè)特性指標(biāo)??杀硎緸橛谑?,n 個(gè)樣本的特性指標(biāo)矩陣為 MMML通常,也將樣本集記為特性指標(biāo)矩陣的形式,即 X = (xij)np。如果 p 個(gè)特性
3、指標(biāo)的量綱和數(shù)量級(jí)都不相同,在運(yùn)算過(guò)程中就可能會(huì)因?yàn)橥怀瞿承?shù)量級(jí)特別大的特性指標(biāo)對(duì)分類的作用,而降低甚至排除某些數(shù)量級(jí)很小的特性指標(biāo)的作用,致使對(duì)各特性指標(biāo)的分類缺乏一個(gè)所以,為了消除特性指標(biāo)的尺度。的差別和數(shù)量級(jí)不同的影響,當(dāng)特性指標(biāo)的量綱和數(shù)量級(jí)相差較大時(shí),通常事先對(duì)各種指標(biāo)值實(shí)施數(shù)據(jù)標(biāo)準(zhǔn)化(規(guī)格化),從而使得各個(gè)指標(biāo)值都于某種共同的數(shù)值特性范圍。預(yù)處理。稱之為數(shù)據(jù)常用的數(shù)據(jù)標(biāo)準(zhǔn)化方法有兩種:均值方差標(biāo)準(zhǔn)化極大極小標(biāo)準(zhǔn)化。(1) 均值方差標(biāo)準(zhǔn)化設(shè)給定的樣本集為 X = (xij)np,標(biāo)準(zhǔn)化之后的樣本集為X = (xij)np,則i = 1, 2, , n,j = 1, 2, , pj,
4、j式中n1n1n x ,(xi1x x )2jijjijjn 1i1這里 j = 1, 2, , p。(2) 極大極小標(biāo)準(zhǔn)化設(shè)給定的樣本集為 X = (xij)np,標(biāo)準(zhǔn)化之后的樣本集為X = (xij)np,則mj inj這里 i = 1, 2, , n,j = 1, 2, , p,并且x j min minxij,xjmax maxxij, j =1, 2, , p1in1in顯然,實(shí)施數(shù)據(jù)標(biāo)準(zhǔn)化之后,每個(gè)指標(biāo)值均在區(qū)間0, 1 中。3.樣本之間的相似性度量設(shè)待分類的樣本集為 X = x1, x2, , xn 或者X = (xij)np,并已經(jīng)標(biāo)準(zhǔn)化或者不需要標(biāo)準(zhǔn)化。如果能夠計(jì)算出衡量樣本
5、 xi 與 xj 之間相似程度的相似性統(tǒng)計(jì)量 rij,使得0 rij 1,i, j = 1, 2, , n就可以在樣本集 X那么,上建立描述樣本之間相似關(guān)系的相似矩陣: 1r12 1 Mn 2r1nLL L LR r21r2n ,其中 r r 0, 1 MM ijjir1rn1其中:rij = 0 表示樣本 xi 與 xj 之間毫不相似rij = 1 表示樣本 xi 與 xj 之間完全相似rii 1 表示樣本 xi 自身完全相似用于計(jì)算樣本相似性的方法通常有如下幾種:(1) 相關(guān)系數(shù)法pxj|jkk 1rijpp2x )jk 1k 1其中pp11k 1k 1xi x , xxikjjkpp(2
6、) 指數(shù)相似系數(shù)法( xik x jk )24p31eS 2rijkpk 1其中 Sk 是第 k 個(gè)特征的標(biāo)準(zhǔn)差:pn11ni1k 1Skxk ) ,xk22(xxikikn 1(3) 夾角余弦法p xik x jkk 1rijp x2ik x2 jkk 1(4) 數(shù)量積法i i 1,jj 1prx x jk ,ij Mikk 1pM x x其中 M 為一適當(dāng)選取的正數(shù):maxi , jjk ik k 1(5) 最大最小法pmin(xik , x jk ) k 1max(xik , x jk )k 1rijp(6) 算術(shù)平均最小法min(xik , x jk )p k 1prij12k 1(x
7、 x jk )ik(7) 幾何平均最小法min(xik , x jk )p k 1rijp k 1 x jkxik4.聚類分析方法聚類分析包括很多種方法,通常分為兩大類:傳統(tǒng)聚類方法和模糊聚類方法。傳統(tǒng)聚類方法還包括多種具體算法,如系統(tǒng)聚類法,有序樣品聚類法,動(dòng)態(tài)聚類法,圖論聚類法、聚類預(yù)報(bào)法,K 均值聚類法等。模糊聚類方法主要有兩種具體算法:模糊等價(jià)矩陣聚類法,模糊 C 均值聚類法。二、模糊聚類算法簡(jiǎn)介模糊聚類算法主要有兩種:模糊等價(jià)矩陣聚類法,模糊 C 均值聚類法。1.模糊等價(jià)矩陣聚類法模糊等價(jià)矩陣聚類方法的主要,就是從計(jì)算各個(gè)樣本之間的相似性統(tǒng)計(jì)量出發(fā),建立樣本集 X 上的模糊相似矩陣;
8、通過(guò)改造模糊相似矩陣為模糊等價(jià)矩陣,達(dá)到對(duì)樣本集 X 進(jìn)行模糊聚類的目的。(1)模糊矩陣運(yùn)算設(shè) R = (rij)mt, S = (sij)tn, T = (tij)mn, 并且 rij,sij, tij0, 1。若t( rt s )ijikkjk 1則稱 T 為 R 與 S 的,記為 T = RS。若 R 是方陣,即 R = (rij)nn, rij0, 1,則規(guī)R2 = RR定例 設(shè)RM23,SM32,其中 0.60.5 0.20.50.110.8R 0.7, S 0.41 0.10.9則(0.2 0.6) (0.5 0.4) (1 0.1)(0.2 0.5) (0.5 1) (1 0.9
9、)R o S (0.7 0.6) (0.1 0.4) (0.8 0.1)(0.7 0.5) (0.1 1) (0.8 0.9) 0.40.9 0.8 0.6(2)基于模糊等價(jià)矩陣的聚類算法設(shè)待分類的樣本集為 X = x1, x2, , xn,其相應(yīng)的特性指標(biāo)矩陣為X (x ) MnijMpML1選擇適當(dāng)?shù)南嗨菩越y(tǒng)計(jì)量,構(gòu)造樣本集上的模糊相似矩陣 1r12 1 Mn 2r1nLL L LR r21r2n ,其中 r r 0, 1 MM ijjir1r n12按照模糊矩陣運(yùn)算,將模糊相似矩陣改造為模糊等價(jià)矩陣。通過(guò)“平方法”依次計(jì)算 R,R2,R4,R8,當(dāng)?shù)谝淮纬霈F(xiàn) (Rk)2 = Rk 時(shí),R
10、k 就是一個(gè)模糊等價(jià)矩陣,稱為 R 的傳遞閉包,記為 t(R)。3 對(duì)于指定的水平值 ,求 t(R) 的 截矩陣,從而得到該水平下的聚類結(jié)果。注:所謂 截矩陣,就是將其大于等于 的元素取為 1,將小于 的元素取為 0。例對(duì)于某樣本集的特性指標(biāo)矩陣 55325 X 2145由于數(shù)據(jù)不存在量綱和數(shù)量級(jí)的差異,故不需進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化,直接進(jìn)入構(gòu)造模糊相似矩陣步驟。按照絕對(duì)值減數(shù)法建立模糊相似關(guān)系,取c = 0.1,得模糊相似矩陣0.5111.00.811.000.0000.3416120000.18 R 03124015300310.06用平方法求傳遞閉包,以便將模糊相似矩陣改造成模糊等價(jià)矩陣,有:0
11、.310.110.10.20.40.410.40.40.40.80.110.30.10.80.410.50.50.50.20.310.60.50.40.510.610.310.20.40.40.410.40.40.40.80.310.50.30.80.410.50.50.50.40.510.60.50.40.510.60.50.40.4 0.1 0.3R 0.80.1 0.80.3R2 0.50.6 0.50.6 0.31 0.510.5110.50.40.4 0.4 0.4 0.80.5 0.80.5R4R8 0.50.6 0.50.6 0.51 0.51 R4于是,傳遞閉包 t(R)=R4
12、就是所求的模糊等價(jià)矩陣。根據(jù)得到的模糊等價(jià)矩陣 t(R),利用不同水平下的截矩陣得到各個(gè)水平下的聚類結(jié)果。例如:當(dāng) = 0.4 時(shí), t(R) 的 截矩陣為10.410.40.40.40.80.410.50.50.50.40.510.60.5111111111111111111 0.4 0.80.410.5 11 0.50.611 0.5111因此,X 分為一類:I, II, III, IV, V。再如:當(dāng) = 0.6 時(shí), t(R) 的 截矩陣為0.5 1010001010000011010.410.40.40.40.80.410.50.50.50.40.510.60 0 0.4 0.80.
13、40.5 10 0.50.6 01 0.51 01因此,X 分為一類:I, III, IV, V, II。2.模糊 C 均值(FCM)聚類算法設(shè)待分類的樣本集為 X = x1, x2, , xn,其相應(yīng)的特性指標(biāo)矩陣為X (x ) MnijMpMLFCM 算法就是將樣本集 X 劃分成 c 個(gè)模糊群組,并且在每個(gè)模糊群組中尋找一個(gè)聚類中心,使得一個(gè)基于距離測(cè)度的目標(biāo)函數(shù)最小化。它兼顧了類之間的交迭,允許對(duì)象對(duì)所有的類有部分歸屬。的 Fuzzy 工具箱中,給出了在FCM 算法函數(shù):fcm。其調(diào)用格式為center, U, = fcm(X, n)例運(yùn)行結(jié)果為10.90.80.70.60.50.40.
14、30.20.1000.20.40.60.81其中聚類中心為:center center_1 0.31460.63290.3030center_2 0.7294對(duì)任意的樣本xi,分別計(jì)算xi 與center_1 和center_2 的距離,按照擇進(jìn)原則歸類。例如對(duì)第一個(gè)樣本點(diǎn) x1 = (0.8147, 0.1622),可計(jì)算得:d1 = 0.3590,d2 = 0.6434。于是,可將 x1 歸為以 (0.3146, 0.6329) 為聚類中心的第一類。事實(shí)上,程序中的 index1 和 index2分別是隸屬于兩個(gè)類別的樣本的標(biāo)號(hào)。例如,若Index1 = 1, 2, 4, 6, 11, 的
15、則數(shù)據(jù)樣本 x1, x2, x4, x6, x11, 均歸屬于第一類。補(bǔ)充:K 均值聚類算法設(shè)待分類的樣本集為 X = x1, x2, , xn,其相應(yīng)的特性指標(biāo)矩陣為X (x ) MnijMpML的 Ss(統(tǒng)計(jì))工具箱中,給在出了 K 均值算法函數(shù):kmeans。其調(diào)用格式為idx, center = kmeans(X, n)例程序clear allX = randn(20,2)+ones(20,2); randn(20,2)-ones(20,2);opts = sset(Display,final);idx, center = kmeans(X,2); plot(X(idx=1,1),X(idx=1,2),r.,X(idx=2,1), X(idx=2,2),b., center(:,1), center(:,2),kx);運(yùn)行結(jié)果為43210-1-2-3-3-2-10123其中聚類中心為:center center_1 1.1040 1.06051.0486center_2
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 周末插花活動(dòng)方案
- 團(tuán)隊(duì)匯報(bào)活動(dòng)方案
- 團(tuán)日活動(dòng)桌棋活動(dòng)方案
- 品管圈活動(dòng)策劃方案
- 員工思考活動(dòng)方案
- 喜迎冬奧工會(huì)活動(dòng)方案
- 政協(xié)文史資料課件
- 幼兒園信息技術(shù)2.0培訓(xùn)
- 物業(yè)基礎(chǔ)管理培訓(xùn)
- 2024年遼寧省盤錦市第一完全中學(xué)中考三模歷史試卷
- 2024年浙江省杭州市蕭山區(qū)事業(yè)單位招聘歷年(高頻重點(diǎn)復(fù)習(xí)提升訓(xùn)練)共500題附帶答案詳解
- 2024年揚(yáng)州梅嶺中學(xué)七年級(jí)英語(yǔ)第二學(xué)期期末學(xué)業(yè)水平測(cè)試試題含答案
- 現(xiàn)代商貿(mào)流通體系數(shù)字化平臺(tái)解決方案
- 《醫(yī)療和疾控機(jī)構(gòu)后勤安全生產(chǎn)工作管理指南2023版》
- 送教上門記錄24篇
- (完整版)留學(xué)生漢語(yǔ)考試試卷及答案.文檔
- 建筑工程施工現(xiàn)場(chǎng)噪聲及其控制技術(shù)
- 2023年版工程建設(shè)標(biāo)準(zhǔn)強(qiáng)制性條文 水利工程部分
- MOOC 微課設(shè)計(jì)與制作-愛(ài)課程 中國(guó)大學(xué)慕課答案
- MOOC 大學(xué)生創(chuàng)新創(chuàng)業(yè)教育-云南大學(xué) 中國(guó)大學(xué)慕課答案
- 失業(yè)保險(xiǎn)待遇申請(qǐng)表范本
評(píng)論
0/150
提交評(píng)論