![《大數(shù)據(jù)處理與智能決策 》課件-8-聚類算法典型算法_第1頁(yè)](http://file4.renrendoc.com/view10/M01/0C/08/wKhkGWekD0KAIA8AAAJ4YJeJvOc047.jpg)
![《大數(shù)據(jù)處理與智能決策 》課件-8-聚類算法典型算法_第2頁(yè)](http://file4.renrendoc.com/view10/M01/0C/08/wKhkGWekD0KAIA8AAAJ4YJeJvOc0472.jpg)
![《大數(shù)據(jù)處理與智能決策 》課件-8-聚類算法典型算法_第3頁(yè)](http://file4.renrendoc.com/view10/M01/0C/08/wKhkGWekD0KAIA8AAAJ4YJeJvOc0473.jpg)
![《大數(shù)據(jù)處理與智能決策 》課件-8-聚類算法典型算法_第4頁(yè)](http://file4.renrendoc.com/view10/M01/0C/08/wKhkGWekD0KAIA8AAAJ4YJeJvOc0474.jpg)
![《大數(shù)據(jù)處理與智能決策 》課件-8-聚類算法典型算法_第5頁(yè)](http://file4.renrendoc.com/view10/M01/0C/08/wKhkGWekD0KAIA8AAAJ4YJeJvOc0475.jpg)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
K-means算法
由于具有出色的速度和良好的可擴(kuò)展性,Kmeans聚類算法算得上是最著名的聚類方法。Kmeans算法是一個(gè)重復(fù)移動(dòng)類中心點(diǎn)的過(guò)程,把類的中心點(diǎn),也稱重心(centroids),移動(dòng)到其包含成員的平均位置,然后重新劃分其內(nèi)部成員。k是算法計(jì)算出的超參數(shù),表示類的數(shù)量;Kmeans可以自動(dòng)分配樣本到不同的類,但是不能決定究竟要分幾個(gè)類。k必須是一個(gè)比訓(xùn)練集樣本數(shù)小的正整數(shù)。有時(shí),類的數(shù)量是由問(wèn)題內(nèi)容指定的。
例如,一個(gè)鞋廠有三種新款式,它想知道每種新款式都有哪些潛在客戶,于是它調(diào)研客戶,然后從數(shù)據(jù)里找出三類。也有一些問(wèn)題沒(méi)有指定聚類的數(shù)量,最優(yōu)的聚類數(shù)量是不確定的。后面我將會(huì)詳細(xì)介紹一些方法來(lái)估計(jì)最優(yōu)聚類數(shù)量。hyperparameterK-means算法原理k-means算法的基本步驟:
(1)從數(shù)據(jù)中選擇k個(gè)對(duì)象作為初始聚類中心即初始質(zhì)心;
(2)然后將數(shù)據(jù)集中的每一個(gè)點(diǎn)分配到一個(gè)簇中,即為每一個(gè)點(diǎn)找到距其最近的質(zhì)心,并將其分配給該質(zhì)心所對(duì)應(yīng)的簇;
(3)每一個(gè)簇的質(zhì)心更新為該簇所有點(diǎn)的平均值;
(4)計(jì)算標(biāo)準(zhǔn)測(cè)度函數(shù),直到達(dá)到最大迭代次數(shù),則停止,否則,繼續(xù)操作。K-means算法原理1、為什么K值的確定很重要?舉例說(shuō)明先產(chǎn)生三組不同的高斯分布數(shù)據(jù),做為原始數(shù)據(jù),如下圖:K-means算法的關(guān)鍵點(diǎn):K值和質(zhì)心的選取K-means算法原理當(dāng)聚類個(gè)數(shù)K取不同的值,聚類結(jié)果不同,如下:K=2時(shí)K=3時(shí)K-means算法原理K=4時(shí)K=5時(shí)可知K-means算法中K值取值不同時(shí)對(duì)聚類的結(jié)果影響至關(guān)重要,上例中k為3時(shí)才是理想的聚類結(jié)果。那么如何初步確定K值的選取呢??K-means算法原理K值確定方法-肘部法則:肘部法的核心指標(biāo)是SSE(sumofthesquarederrors,誤差平方和)其中,Ci是第i個(gè)簇,p是Ci中的樣本點(diǎn),mi是Ci的質(zhì)心(Ci中所有樣本的均值),SSE是所有樣本的聚類誤差,代表了聚類效果的好壞。K-means算法原理肘部法的核心思想是:隨著聚類數(shù)k的增大,樣本劃分會(huì)更加精細(xì),每個(gè)簇的聚合程度會(huì)逐漸提高,那么誤差平方和SSE自然會(huì)逐漸變小。并且,當(dāng)k小于真實(shí)聚類數(shù)時(shí),由于k的增大會(huì)大幅增加每個(gè)簇的聚合程度,故SSE的下降幅度會(huì)很大,而當(dāng)k到達(dá)真實(shí)聚類數(shù)時(shí),再增加k所得到的聚合程度回報(bào)會(huì)迅速變小,所以SSE的下降幅度會(huì)驟減,然后隨著k值的繼續(xù)增大而趨于平緩,也就是說(shuō)SSE和k的關(guān)系圖是一個(gè)手肘的形狀,而這個(gè)肘部對(duì)應(yīng)的k值就是數(shù)據(jù)的真實(shí)聚類數(shù)。當(dāng)然,這也是該方法被稱為手肘法的原因。K-means算法原理
2、初始質(zhì)心的選取方法:
1)選擇適當(dāng)?shù)某跏假|(zhì)心是基本kmeans算法的關(guān)鍵步驟。常見(jiàn)的方法是隨機(jī)的選取初始中心,但是這樣簇的質(zhì)量常常很差。處理選取初始質(zhì)心問(wèn)題的一種常用技術(shù)是:多次運(yùn)行,每次使用一組不同的隨機(jī)初始質(zhì)心,然后選取具有最小SSE(誤差的平方和)的簇集。這種策略簡(jiǎn)單,但是效果可能不好,這取決于數(shù)據(jù)集和尋找的簇的個(gè)數(shù)。2)首先隨機(jī)選擇一個(gè)點(diǎn)作為第一個(gè)初始類簇中心點(diǎn),然后選擇距離該點(diǎn)最遠(yuǎn)的那個(gè)點(diǎn)作為第二個(gè)初始類簇中心點(diǎn),然后再選擇距離前兩個(gè)點(diǎn)的最近距離最大的點(diǎn)作為第三個(gè)初始類簇的中心點(diǎn),以此類推,直至選出K個(gè)初始類簇中心點(diǎn)。(推薦)K-means算法原理K-means偽代碼實(shí)現(xiàn):創(chuàng)建k個(gè)點(diǎn)作為起始質(zhì)心,可以隨機(jī)選擇(位于數(shù)據(jù)邊界內(nèi))當(dāng)任意一個(gè)點(diǎn)的簇分配結(jié)果發(fā)生改變時(shí)對(duì)數(shù)據(jù)集中每一個(gè)點(diǎn)對(duì)每個(gè)質(zhì)心計(jì)算質(zhì)心與數(shù)據(jù)點(diǎn)之間的距離將數(shù)據(jù)點(diǎn)分配到距其最近的簇對(duì)每一個(gè)簇,計(jì)算簇中所有點(diǎn)的均值并將均值作為質(zhì)心K-means算法的matlab實(shí)現(xiàn)兩個(gè)公式的理解:公式一:求出所有數(shù)據(jù)和初始化的隨機(jī)數(shù)據(jù)的距離,然后找出距離每個(gè)初始數(shù)據(jù)最近的數(shù)據(jù)。公式二:意思就是求出所有和這個(gè)初始數(shù)據(jù)最近原始數(shù)據(jù)的距離的均值。然后不斷迭代兩個(gè)公式,直到所有的u都不怎么變化了,就算完成了。計(jì)算聚類結(jié)果的準(zhǔn)確率[a,b]=find(Idx==Compound(:,3));K-means算法的matlab實(shí)現(xiàn)main.mclearall;closeall;clc;%第一類數(shù)據(jù)mu1=[000];%均值S1=[0.300;00.350;000.3];%協(xié)方差data1=mvnrnd(mu1,S1,100);%產(chǎn)生高斯分布數(shù)據(jù)%%第二類數(shù)據(jù)mu2=[1.251.251.25];S2=[0.300;00.350;000.3];data2=mvnrnd(mu2,S2,100);%第三個(gè)類數(shù)據(jù)mu3=[-1.251.25-1.25];S3=[0.300;00.350;000.3];data3=mvnrnd(mu3,S3,100);%顯示數(shù)據(jù)plot3(data1(:,1),data1(:,2),data1(:,3),'+');holdon;plot3(data2(:,1),data2(:,2),data2(:,3),'r+');plot3(data3(:,1),data3(:,2),data3(:,3),'g+');gridon;K-means算法實(shí)現(xiàn)%三類數(shù)據(jù)合成一個(gè)不帶標(biāo)號(hào)的數(shù)據(jù)類data=[data1;data2;data3];%這里的data是不帶標(biāo)號(hào)的%k-means聚類[ure]=KMeans(data,3);%最后產(chǎn)生帶標(biāo)號(hào)的數(shù)據(jù),標(biāo)號(hào)在所有數(shù)據(jù)的最后,意思就是數(shù)據(jù)再加一維度[mn]=size(re);%最后顯示聚類后的數(shù)據(jù)figure;holdon;fori=1:mifre(i,4)==1plot3(re(i,1),re(i,2),re(i,3),'ro');elseifre(i,4)==2plot3(re(i,1),re(i,2),re(i,3),'go');elseplot3(re(i,1),re(i,2),re(i,3),'bo');endendgridon;K-means算法實(shí)現(xiàn)KMeans.m%N是數(shù)據(jù)一共分多少類%data是輸入的不帶分類標(biāo)號(hào)的數(shù)據(jù)%u是每一類的中心%re是返回的帶分類標(biāo)號(hào)的數(shù)據(jù)function[ure]=KMeans(data,N)[mn]=size(data);%m是數(shù)據(jù)個(gè)數(shù),n是數(shù)據(jù)維數(shù)
ma=zeros(n);%每一維最大的數(shù)
mi=zeros(n);%每一維最小的數(shù)
u=zeros(N,n);%隨機(jī)初始化,最終迭代到每一類的中心位置
fori=1:nma(i)=max(data(:,i));%每一維最大的數(shù)
mi(i)=min(data(:,i));%每一維最小的數(shù)
forj=1:Nu(j,i)=ma(i)+(mi(i)-ma(i))*rand();%隨機(jī)初始化,不過(guò)還是在每一維[minmax]中初始化好些
endendK-means算法實(shí)現(xiàn)while1pre_u=u;%上一次求得的中心位置
fori=1:Ntmp{i}=[];%公式一中的x(i)-uj,為公式一實(shí)現(xiàn)做準(zhǔn)備
forj=1:mtmp{i}=[tmp{i};data(j,:)-u(i,:)];endendquan=zeros(m,N);fori=1:m%公式一的實(shí)現(xiàn)
c=[];forj=1:Nc=[cnorm(tmp{j}(i,:))];end[junkindex]=min(c);quan(i,index)=norm(tmp{index}(i,:));endfori=1:N%公式二的實(shí)現(xiàn)
forj=1:nu(i,j)=sum(quan(:,i).*data(:,j))/sum(quan(:,i));endendifnorm(pre_u-u)<0.1%不斷迭代直到位置不再變化
break;endendK-means算法實(shí)現(xiàn)re=[];fori=1:mtmp=[];forj=1:Ntmp=[tmpnorm(data(i,:)-u(j,:))];end[junkindex]=min(tmp);re=[re;data(i,:)index];end
endK-means算法實(shí)現(xiàn)結(jié)果:初始的三類樣本K-means算法實(shí)現(xiàn)結(jié)果:聚類的結(jié)果K-means算法實(shí)現(xiàn)K-means算法應(yīng)用實(shí)例一、電信運(yùn)營(yíng)商–客戶價(jià)值分析從客戶需求出發(fā),了解客戶需要什么,他們有怎么樣的特征,電信運(yùn)營(yíng)商為客戶設(shè)置不同的優(yōu)惠套餐爭(zhēng)取更多的用戶:推出不同的優(yōu)惠套餐降低客戶流失率提高收入增加ARPU值(averagerevenueperuser每個(gè)用戶平均收益)精準(zhǔn)的市場(chǎng)營(yíng)銷策略定制
K-means算法應(yīng)用實(shí)例使用聚類模型—分析項(xiàng)目需求K-means算法應(yīng)用實(shí)例importpandasaspdimportmatplotlib.pyplotaspltfromsklearn.clusterimportKMeansfromscipy.cluster.hierarchyimportlinkage,dendrogramcustinfo=pd.read_csv(r'.\\data\\custinfo.csv')custcall=pd.read_csv(r'.\\data\\custcall.csv')custcall.head()1、數(shù)據(jù)感知K-means算法應(yīng)用實(shí)例2、數(shù)據(jù)預(yù)處理K-means算法應(yīng)用實(shí)例K-means算法應(yīng)用實(shí)例3、模型建立K-means算法應(yīng)用實(shí)例K-means算法應(yīng)用實(shí)例K-means算法應(yīng)用實(shí)例defdensity_plot(data):#自定義作圖函數(shù)
plt.rcParams['axes.unicode_minus']=False#用來(lái)正常顯示負(fù)號(hào)
p=data.plot(kind='kde',linewidth=2,subplots=True,sharex=False,figsize=(10,15))[p[i].set_ylabel(u'密度',fontproperties='SimHei')for
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年礦物制品及材料批發(fā)服務(wù)合作協(xié)議書(shū)
- 建設(shè)工程項(xiàng)目聯(lián)合施工協(xié)議書(shū)范本
- 二零二五年度藝術(shù)類合作協(xié)議書(shū):藝術(shù)品投資與收藏合作框架
- 二零二五年度自費(fèi)留學(xué)國(guó)際志愿者項(xiàng)目合作合同
- 2025年度醫(yī)療事故調(diào)解與糾紛預(yù)防合作協(xié)議
- 醫(yī)院合同制人員2025年度工資調(diào)整與職業(yè)成長(zhǎng)激勵(lì)合同
- 二零二五年度足浴店員工工作績(jī)效與獎(jiǎng)勵(lì)合同
- 人教版地理八年級(jí)上冊(cè)《第二節(jié) 氣候》聽(tīng)課評(píng)課記錄1
- 二零二五年度酒店住宿消費(fèi)者返利協(xié)議集
- 2025年度消費(fèi)者權(quán)益保護(hù)糾紛合同范本
- 《監(jiān)理安全培訓(xùn)》課件
- 2022-2023年人教版九年級(jí)物理上冊(cè)期末考試(真題)
- 關(guān)漢卿的生平與創(chuàng)作
- 一年級(jí)語(yǔ)文教材解讀分析ppt
- 編本八年級(jí)下全冊(cè)古詩(shī)詞原文及翻譯
- 公共政策學(xué)政策分析的理論方法和技術(shù)課件
- 裝載機(jī)教材課件
- 萬(wàn)人計(jì)劃藍(lán)色簡(jiǎn)約萬(wàn)人計(jì)劃青年拔尖人才答辯PPT模板
- 統(tǒng)編高中《思想政治》教材編寫理念和內(nèi)容介紹
- 2022年普通高等學(xué)校招生全國(guó)統(tǒng)一考試數(shù)學(xué)試卷 新高考Ⅰ卷(含解析)
- (完整版)中心醫(yī)院心血管學(xué)科的??平ㄔO(shè)與發(fā)展規(guī)劃
評(píng)論
0/150
提交評(píng)論