




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第5章機(jī)器學(xué)習(xí)與實(shí)現(xiàn)聚類思想與K-均值聚類K-均值聚類應(yīng)用舉例聚類思想第5章
聚類分析主要是使類內(nèi)的樣本盡可能相似,而類之間的樣本盡可能相異。聚類問題的一般提法是,設(shè)有n個(gè)樣本的
維觀測數(shù)據(jù)組成一個(gè)數(shù)據(jù)矩陣為:其中,每一行表示一個(gè)樣本,每一列表示一個(gè)指標(biāo),xij表示第i個(gè)樣本關(guān)于第j項(xiàng)指標(biāo)的觀測值,并根據(jù)觀測值矩陣X對樣本進(jìn)行聚類。聚類分析的基本思想是:在樣本之間定義距離,距離表明樣本之間的相似度,距離越小,相似度越高,關(guān)系越緊密;將關(guān)系密切的聚集為一類,關(guān)系疏遠(yuǎn)的聚集為另一類,直到所有樣本都聚集完畢。K-均值聚類方法第5章
K-均值聚類是一種基于原型的、根據(jù)距離劃分組的算法,其時(shí)間復(fù)雜度比其他聚類算法低,用戶需指定劃分組的個(gè)數(shù)K。其中,K-均值聚類常見距離測度包括歐幾里得距離(也稱歐氏距離)、曼哈頓距離、切比雪夫距離等。K-均值聚類默認(rèn)采用歐氏距離進(jìn)行計(jì)算,其公式如下:(表示第個(gè)i樣本與第個(gè)j樣本之間的歐氏距離)K-均值聚類算法的直觀理解如下:Step1:隨機(jī)初始化K個(gè)聚類中心,即K個(gè)類中心向量。Step2:對每個(gè)樣本,計(jì)算其與各個(gè)類中心向量的距離,并將該樣本指派給距離最小的類。Step3:更新每個(gè)類的中心向量,更新的方法為取該類所有樣本的特征向量均值。Step4:直到各個(gè)類的中心向量不再發(fā)生變化為止,作為退出條件。K-均值聚類方法第5章
xi1.51.71.62.12.22.42.51.8yi2.51.32.26.25.27.16.81.9將8個(gè)數(shù)據(jù)樣本聚為兩類,其算法執(zhí)行如下Step1:初始化兩個(gè)類的聚類中心,這里取前兩個(gè)樣本分別為聚類中心。C1=(1.5,2.5),C2=(1.7,1.3)到達(dá)C1的距離:0
1.22
0.32
3.75
2.79
4.69
4.41
0.67到達(dá)C2的距離:1.22
0
0.91
4.92
3.93
5.84
5.56
0.61各樣本所屬類:
1
2
1
1
1
1
1
2Step2:分別計(jì)算每個(gè)樣本到達(dá)各個(gè)聚類中心的距離:Step3:更新聚類中心,更新方法為計(jì)算所屬類的特征向量的均值C1=((1.5+1.6+2.1+2.2+2.4+2.5)/6,(2.5+2.2+6.2+5.2+7.1+6.8)/6)=(2.05,5)C2=((1.7+1.8)/2,(1.3+1.9)/2)=(1.75,1.6)K-均值聚類方法第5章
xi1.51.71.62.12.22.42.51.8yi2.51.32.26.25.27.16.81.9將8個(gè)數(shù)據(jù)樣本聚為兩類,其算法執(zhí)行如下返回Step2,重新計(jì)算各樣本到達(dá)各聚類中心的距離。到達(dá)C1的距離:2.56
3.72
2.84
1.2
0.25
2.13
1.86
3.11到達(dá)C2的距離:0.93
0.3
0.62
4.61
3.63
5.54
5.25
0.3各樣本所屬類:
2
2
2
1
1
1
1
2同理更新聚類中心得C1=(2.3,6.325)C2=(1.65,1.975)返回Step2,重新計(jì)算各樣本到達(dá)各聚類中心的距離。到達(dá)C1的距離:3.91
5.06
4.18
0.24
1.13
0.78
0.52
4.45到達(dá)C2的距離:0.55
0.68
0.23
4.25
3.27
5.18
4.9
0.17各樣本所屬類:
2
2
2
1
1
1
1
2同理更新聚類中心得C1=(2.3,6.325)C2=(1.65,1.975)Step4:這里我們發(fā)現(xiàn),聚類中心不再發(fā)生變化,而且類歸屬也沒有發(fā)生變化。其實(shí)正是因?yàn)轭悮w屬沒有發(fā)生變化,才導(dǎo)致了聚類中心不再發(fā)生變化,達(dá)到算法終止條件。故樣本1、2、3、8歸為一類,樣本4、5、6、7歸為另一類。K-均值聚類算法應(yīng)用舉例第5章
對表所示的31個(gè)地區(qū)2016年農(nóng)村居民人均可支配收入情況做聚類分析地區(qū)工資性收入(X1)經(jīng)營凈收入(X2)財(cái)產(chǎn)凈收入(X3)轉(zhuǎn)移凈收入(X4)北京16637.52061.91350.12260天津12048.15309.4893.71824.4河北6263.23970257.51428.6山西5204.42729.91491999.1內(nèi)蒙古2448.96215.7452.62491.7…………………………1.?dāng)?shù)據(jù)獲取及標(biāo)準(zhǔn)化處理importpandasaspddata=pd.read_excel('農(nóng)村居民人均可支配收入來源2016.xlsx')X=data.iloc[:,1:]fromsklearn.preprocessingimportStandardScalerscaler=StandardScaler()scaler.fit(X)X=scaler.transform(X)K-均值聚類算法應(yīng)用舉例第5章
(1)導(dǎo)入K-均值聚類模塊KMeans。
fromsklearn.clusterimportKMeans(2)利用KMeans創(chuàng)建K-均值聚類對象model。
model=KMeans(n_clusters=K,random_state=0,max_iter=500)
參數(shù)說明如下:
n_clusters:設(shè)置的聚類個(gè)數(shù)K。
random_state:隨機(jī)初始狀態(tài),設(shè)置為0即可。
max_iter:最大迭代次數(shù)。(3)調(diào)用model對象中的fit()方法進(jìn)行擬合訓(xùn)練。
model.fit(X)(4)獲取model對象中的labels_屬性,可以返回其聚類的標(biāo)簽。
c=model.labels_2.K-均值聚類分析K-均值聚類算法應(yīng)用舉例第5章
完整代碼如下:importpandasaspddata=pd.read_excel('農(nóng)村居民人均可支配收入來源2016.xlsx')X=data.iloc[:,1:]fromsklearn.preprocessingimportStandardScalerscaler=StandardScaler()scaler.fit(X)X=scaler.transform(X)fromsklearn.clusterimportKMeans
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 美容行業(yè)中的團(tuán)隊(duì)合作與協(xié)調(diào)技巧試題及答案
- 防學(xué)校欺凌課件
- 食品檢驗(yàn)實(shí)驗(yàn)室的設(shè)備與試題及答案
- 公共事業(yè)管理考點(diǎn)分析試題及答案
- 2024-2025學(xué)年河南省駐馬店新蔡一高高一下學(xué)期2月月考物理試題及答案
- 計(jì)算機(jī)基礎(chǔ)考試技巧與實(shí)例試題及答案
- 大學(xué)古代文學(xué)史的評估試題及答案
- 拼寫誤差影響的分析試題及答案
- 2024年CPBA商業(yè)分析師模擬考試題目及答案
- 2024年汽車美容師市場需求分析試題及答案
- 天冬中藥材種植可行性研究報(bào)告
- 肝腎綜合征演示文稿
- 國際關(guān)系理論智慧樹知到答案章節(jié)測試2023年外交學(xué)院
- 1.罌粟堿-經(jīng)典擴(kuò)血管藥物
- 配料記錄表(標(biāo)準(zhǔn)樣本)
- 《四川省平武縣大茅坡鉛鋅礦資源儲量核實(shí)及延伸詳查報(bào)告》礦產(chǎn)資儲量評審備案公示信息表
- 芯片手冊盛科sdk用戶開發(fā)指南
- 海淀八模語文
- GB/T 29312-2022低壓無功功率補(bǔ)償投切器
- 機(jī)臺操作指導(dǎo)書(注塑機(jī)安全操作規(guī)程)
- GB/T 9647-2015熱塑性塑料管材環(huán)剛度的測定
評論
0/150
提交評論