版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)據(jù)挖掘聚類分析第六章第1頁(yè),共19頁(yè),2023年,2月20日,星期五例某公司下屬30個(gè)企業(yè),公司為了考核下屬企業(yè)的經(jīng)濟(jì)效益,設(shè)計(jì)了8個(gè)指標(biāo)。為了避免重復(fù),需要對(duì)這8個(gè)指標(biāo)進(jìn)行篩選,建立一個(gè)恰當(dāng)?shù)慕?jīng)濟(jì)效益指標(biāo)體系。通過(guò)計(jì)算30個(gè)企業(yè)8個(gè)指標(biāo)的相關(guān)系數(shù)距離,數(shù)據(jù)是1-r2。得如下表:
x1x2
x3
x4x5
x6
x7
x8
x10
0.600
0.430.460
0.470.450.120
0.570.450.230.220
0.380.400.210.290.220
0.310.790.650.700.800.660
0.450.450.270.230.140.190.770試用將它們聚類。x2
x3x4x5
x6
x7
x8第2頁(yè),共19頁(yè),2023年,2月20日,星期五第3頁(yè),共19頁(yè),2023年,2月20日,星期五確定類的個(gè)數(shù)
在聚類分析過(guò)程中類的個(gè)數(shù)如何來(lái)確定才合適呢?這是一個(gè)十分困難的問(wèn)題,人們至今仍未找到令人滿意的方法。但是這個(gè)問(wèn)題又是不可回避的。
給定閾值——通過(guò)觀測(cè)聚類圖,給出一個(gè)合適的閾值T。要求類與類之間的距離不要超過(guò)T值。例如我們給定T=2.2,當(dāng)聚類時(shí),類間的距離已經(jīng)超過(guò)了2.2,則聚類結(jié)束。第4頁(yè),共19頁(yè),2023年,2月20日,星期五什么是好的聚類方法?一個(gè)好的聚類方法可以產(chǎn)生高質(zhì)量的聚類:類的內(nèi)部具有較高的相似度類間具有較低的相似度聚類結(jié)果的質(zhì)量依賴于相似度評(píng)價(jià)方法以及它們的應(yīng)用;聚類結(jié)果的質(zhì)量也取決于它發(fā)現(xiàn)隱藏模式的能力。.第5頁(yè),共19頁(yè),2023年,2月20日,星期五K-均值聚類K-均值聚類方法是最簡(jiǎn)單、最常用的使用使用準(zhǔn)則的方法。K-均值聚類是屬于劃分方法中的基于質(zhì)心技術(shù)的一種方法。劃分的思路是以k為參數(shù),把n個(gè)對(duì)象分為k個(gè)類,以使類內(nèi)具有較高的相似度,而類間的相似度較低。相似度的計(jì)算根據(jù)一個(gè)類中對(duì)象的平均值(被看作類的重心)來(lái)進(jìn)行。第6頁(yè),共19頁(yè),2023年,2月20日,星期五
K-均值聚類的處理流程如下。首先,隨機(jī)選擇k個(gè)對(duì)象,每個(gè)對(duì)象都初始地代表一個(gè)類的平均值或中心。對(duì)剩余的對(duì)象,根據(jù)其與各自類中心的距離,將它賦給最近的類。然后重新計(jì)算每個(gè)類的平均值。這個(gè)過(guò)程不斷重復(fù),直到準(zhǔn)則函數(shù)收斂。
第7頁(yè),共19頁(yè),2023年,2月20日,星期五
注意:類均值的初始值是任意分配的,可以隨機(jī)分配也可以直接使用前K個(gè)成員的屬性值。第8頁(yè),共19頁(yè),2023年,2月20日,星期五K-均值聚類實(shí)例假設(shè)給定如下要進(jìn)行聚類的元組:{2,4,10,12,3,20,30,11,25},并假設(shè)k=2.初始時(shí)用前兩個(gè)數(shù)值作為類的均值;m=2和m=4.利用歐幾里德距離,可得K1={2,3}和K2={4,10,12,20,30,11,25}。數(shù)值3與兩個(gè)均值的距離相等,所以任意地選擇K1作為其所屬類。在這種情況下,可以進(jìn)行任意指派。計(jì)算均值可得m1=2.5和m2=16。重新對(duì)類中的成員進(jìn)行分配,不斷重復(fù)上述過(guò)程,直至均值不再變化。第9頁(yè),共19頁(yè),2023年,2月20日,星期五
具體過(guò)程如表:m1m2K1K224{2,3}{4,10,12,20,30,11,25}2.516{2,3,4}{10,12,20,30,11,25}318{2,3,4,10}{12,20,30,11,25}4.7519.6{2,3,4,10,11,12}{20,30,25}725{2,3,4,10,11,12}{20,30,25}第10頁(yè),共19頁(yè),2023年,2月20日,星期五
注意在最后兩步中類的成員是一致的,由于均值不再變化,所以均值已經(jīng)收斂了。因此,該問(wèn)題的答案為:K1={2,3,4,10,11,12}和K2={20,30,25}K-均值法要求定義的類均值存在,并且要以期望的類的數(shù)目k作為輸入。要求用戶必須事先給出k(要生成的類的數(shù)目)可以算是該方法的一個(gè)缺點(diǎn)。而且,它對(duì)于“噪聲”和孤立點(diǎn)數(shù)據(jù)是敏感的,少量的該類數(shù)據(jù)能夠?qū)ζ骄诞a(chǎn)生極大的影響。第11頁(yè),共19頁(yè),2023年,2月20日,星期五K-Means聚類示例
第12頁(yè),共19頁(yè),2023年,2月20日,星期五
增量聚類
在越來(lái)越多的應(yīng)用中,必須對(duì)收集來(lái)的大量數(shù)據(jù)進(jìn)行聚類?!按罅俊钡亩x隨著技術(shù)的改變而不同。在六十年代,“大量”意味著幾千個(gè)聚類的樣本。現(xiàn)在,有些應(yīng)用涉及到成千上萬(wàn)個(gè)高維樣本的聚類。增量聚類方法是最流行的,我們將解釋它的基本原理,下面是增量聚類方法的所有步驟:第13頁(yè),共19頁(yè),2023年,2月20日,星期五
1、對(duì)樣本排序后,把第一個(gè)數(shù)據(jù)項(xiàng)分配到第一個(gè)類里。2、考慮下一個(gè)數(shù)據(jù)項(xiàng),把它分配到目前某個(gè)類中或一個(gè)新類中。給分配是基于一些準(zhǔn)則的,例如新數(shù)據(jù)項(xiàng)到目前類的重心的距離。在這種情況下,每次添加一個(gè)新數(shù)據(jù)項(xiàng)到一個(gè)目前的類中時(shí),需要重新計(jì)算重心的值。3、重復(fù)步驟2,直到所有的數(shù)據(jù)樣本都被聚類完畢。第14頁(yè),共19頁(yè),2023年,2月20日,星期五
例如:設(shè)x1=(0,2),x2=(0,0),x3=(1.5,0),x4=(5,0),X5=(5,2)
假定樣本的順序是:X1,X2,X3,X4,X5,類間相似度的閾值水平是s=3。1、第一個(gè)樣本X1將變成第一個(gè)類C1={x1}.x1的坐標(biāo)就是重心坐標(biāo)M1={0,2}。2、開(kāi)始分析其他樣本。a)把第2個(gè)樣本x2和M1比較,距離d為:
d(x2,M1)==2.0<3第15頁(yè),共19頁(yè),2023年,2月20日,星期五
因此,x2屬于類C1,新的重心是:
M1={(0,1)}b)第3個(gè)樣本x3和重心M1(仍是僅有的重心)比較:
d(x3,M1)=C)第4個(gè)樣本X4和重心M1比較:
第16頁(yè),共19頁(yè),2023年,2月20日,星期五
d(x4,M1)=因?yàn)闃颖镜街匦腗1的距離比閾值s大,因此該樣本將生成一個(gè)自己的類C2={X4},
其相應(yīng)的重心為M2={5,0}。d)第5個(gè)樣本和這兩個(gè)類的重心相比較:
d(x5,M1)=d(x5,M2)=第17頁(yè),共19頁(yè),2023年,2月20日,星期五
故
C2={X4,X5}得到M2={5,1}3、分析完所有的樣本,最終的聚類解決方案是
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年度年福建省高校教師資格證之高等教育心理學(xué)考前沖刺試卷A卷含答案
- 房地產(chǎn) 總承包工程技術(shù)標(biāo)述標(biāo)匯報(bào) -總承包工程技術(shù)標(biāo)答辯標(biāo)準(zhǔn)范本2023版
- 一年級(jí)數(shù)學(xué)計(jì)算題專項(xiàng)練習(xí)1000題集錦
- 公共管理研究生社會(huì)實(shí)踐報(bào)告
- 2024年居間協(xié)議范本大全
- 2024年城市渣土清理專項(xiàng)協(xié)議
- 2024年專業(yè)美容師勞動(dòng)協(xié)議模板
- 2024建筑工程統(tǒng)一協(xié)議文件
- 辦公室2024年度租賃協(xié)議范本
- 2024年自動(dòng)門購(gòu)銷協(xié)議模板
- GB/T 10476-2024尿素高壓冷凝器技術(shù)條件
- 人教版小學(xué)數(shù)學(xué)四年級(jí)上冊(cè)教材分析
- 國(guó)家執(zhí)業(yè)醫(yī)師資格考試題庫(kù)(針灸學(xué))
- 茅臺(tái)紅酒推銷文案策劃案例
- 期中達(dá)標(biāo)測(cè)試卷(試題)-2024-2025學(xué)年統(tǒng)編版(2024)語(yǔ)文一年級(jí)上冊(cè)
- 2024年地質(zhì)礦產(chǎn)勘測(cè)行業(yè)技能鑒定考試-地質(zhì)錄井技能考試近5年真題集錦(頻考類試題)帶答案
- 第四章第1節(jié) 陸地與海洋第1課時(shí)教學(xué)設(shè)計(jì)-2024-2025學(xué)年商務(wù)星球版七年級(jí)上冊(cè)地理
- 社保知識(shí)競(jìng)賽考試題及答案
- 九上道德與法治期中復(fù)習(xí)提綱(知識(shí)梳理)(全冊(cè))
- 1-4單元期中提升卷(試題)-2024-2025學(xué)年五年級(jí)上冊(cè)數(shù)學(xué)人教版
- 生物化學(xué)第二章核酸的結(jié)構(gòu)和功能
評(píng)論
0/150
提交評(píng)論