大數(shù)據(jù)應(yīng)用基礎(chǔ)-聚類算法_第1頁
大數(shù)據(jù)應(yīng)用基礎(chǔ)-聚類算法_第2頁
大數(shù)據(jù)應(yīng)用基礎(chǔ)-聚類算法_第3頁
大數(shù)據(jù)應(yīng)用基礎(chǔ)-聚類算法_第4頁
大數(shù)據(jù)應(yīng)用基礎(chǔ)-聚類算法_第5頁
已閱讀5頁,還剩21頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、聚類分析1注意我們考核非常松 盡可能全部高于80分。2一個(gè)簡單的聚類例子 這是按照顏色進(jìn)行一維聚類。 實(shí)踐中,維度經(jīng)常多于一個(gè)。3基本特點(diǎn) 聚類(clustering)是指根據(jù)“物以類聚”原理,將本身尚未歸類的樣本根據(jù)多個(gè)維度(多個(gè)屬性)聚集成不同的組,這樣的一組數(shù)據(jù)對(duì)象的集合叫做簇或群組。 怎樣聚類算成功呢?經(jīng)過劃分后,使得:屬于同一群組的樣本之間彼此足夠相似,屬于不同群組的樣本應(yīng)該足夠不相似。4分類與聚類的區(qū)別 分類(Classification)有訓(xùn)練過程。 分類是事先定義好類別 ,類別數(shù)不變 。分類器需要由人工標(biāo)注的分類訓(xùn)練數(shù)據(jù)集訓(xùn)練得到,屬于有指導(dǎo)學(xué)習(xí)范疇。 而聚類則是沒有訓(xùn)練過程。

2、在進(jìn)行聚類前,并不知道將要?jiǎng)澐殖蓭讉€(gè)組和什么樣的組。 聚類則沒有事先預(yù)定的類別,類別數(shù)不確定。聚類不需要人工標(biāo)注和預(yù)先訓(xùn)練分類器,類別在聚類過程中自動(dòng)生成 。5聚類分析的主要應(yīng)用領(lǐng)域1. 作為獨(dú)立的工具來分析數(shù)據(jù)2. 發(fā)現(xiàn)離群點(diǎn)3. 為其他算法做數(shù)據(jù)預(yù)處理6聚類分析的最典型應(yīng)用領(lǐng)域客戶分群,進(jìn)而制定差異化的營銷方案7聚類分析的最典型應(yīng)用領(lǐng)域客戶分群,進(jìn)而制定差異化的營銷方案例子:如圖,按照收入和年齡把客戶聚類為兩類8聚類的其他應(yīng)用 按照血型對(duì)學(xué)生進(jìn)行分班 確定婚禮客人如何排座位9離群點(diǎn)檢測(cè) 離群點(diǎn)檢測(cè)和聚類是高度相關(guān)的。 聚類是發(fā)現(xiàn)數(shù)據(jù)集中的主要群體,而離群點(diǎn)檢測(cè)則試圖識(shí)別那些顯著偏離多數(shù)實(shí)例

3、的異常情況。 離群點(diǎn)檢測(cè)可以用聚類方法,但也可以用其它方法,例如:分類方法。 其常見的目的是:信用卡欺詐檢測(cè)。 這需要把和正常交易明顯不同的交易識(shí)別出來。例如,盜竊卡的人的購物地點(diǎn)和所購商品都很不同于真正的卡主、也不同于大多數(shù)顧客。 比如,其一次購物量比卡主大得多,并且購物地點(diǎn)遠(yuǎn)離卡主的通常的購物地點(diǎn)。10聚類算法的分類 聚類算法主要包括: 劃分方法(Partitioning Method):包括K均值方法等 層次方法(Hierarchical Method) 基于密度的方法( Density-based ) 基于網(wǎng)格的方法( Grid-based ) 基于模型的方法( Model-based

4、 ) 其中,前兩種方法最常用。11K均值算法 K-means算法是無可爭議的使用最多的算法。 它是劃分方法的一種。 它原理簡單,容易實(shí)現(xiàn)。 它適合使用數(shù)值型屬性,而不是類別型屬性。 它的一個(gè)不足之處是:對(duì)于離兩個(gè)群組的中心都很近的點(diǎn),你會(huì)不知道該放到哪個(gè)群組中。這其實(shí)也是其他一些聚類算法的局限性。12K均值算法的步驟 K均值算法,概括起來有五個(gè)步驟:1. 設(shè)定一個(gè)數(shù)K,表明總共有幾個(gè)群簇(組);2. 從所有實(shí)例中隨機(jī)選擇K個(gè)實(shí)例,分別代表一個(gè)群簇的初始中心;3. 對(duì)剩余的每個(gè)實(shí)例,根據(jù)其與各個(gè)組的初始中心的距離,將它們分配到離自己最近的一個(gè)群簇中;4. 然后,更新群簇中心,即:重新計(jì)算得出每個(gè)

5、群簇的新的中心點(diǎn);5. 這個(gè)過程不斷重復(fù)(即:重復(fù)第3、4步),直到每個(gè)群簇中心不再變化,即直到所有實(shí)例在K組分布中都找到離自己最近的群簇。13K均值算法什么是中心值14K均值算法的步驟注意看C點(diǎn),它離上面的群的新的的距離中心比離下面那個(gè)群的新的中心更近,所以它被重新劃分到上面那個(gè)群了。15K均值算法的步驟16K均值算法的應(yīng)用:圖像壓縮 群的個(gè)數(shù)越少,意味著圖像被轉(zhuǎn)化成顏色數(shù)量很少的圖像了。17K均值算法的應(yīng)用:圖像壓縮 原理和上面人物照片是一致的。18K均值算法可以用于三個(gè)維度 前面圖像壓縮的例子是基于一個(gè)維度。 這里抽象展示了基于三個(gè)維度的聚類。19如何在軟件中為K均值算法設(shè)定參數(shù) 在軟件

6、中,通常都要設(shè)定群的個(gè)數(shù)。 還可以指定距離的度量方式。例如選擇歐幾里德距離或曼哈頓距離。大多數(shù)聚類分析都使用距離度量來衡量兩個(gè)實(shí)例之間的遠(yuǎn)近。20如何在軟件中為K均值算法設(shè)定參數(shù) 此外,還可以設(shè)定聚類時(shí)采用哪些屬性 同時(shí),數(shù)據(jù)標(biāo)準(zhǔn)化是聚類分析中最重要的一個(gè)數(shù)據(jù)預(yù)處理步驟。如果之前沒做過標(biāo)準(zhǔn)化,可以現(xiàn)在進(jìn)行。21如何評(píng)價(jià)聚類分析的結(jié)果? 這方面和分類算法有一個(gè)顯著不同:分類算法的評(píng)判有訓(xùn)練集、驗(yàn)證集的客觀參照。而聚類結(jié)果的評(píng)判缺乏很明確、客觀的、統(tǒng)計(jì)學(xué)意義上的參照依據(jù)。 對(duì)于聚類,業(yè)務(wù)專家從實(shí)踐角度的評(píng)估是最重要的評(píng)價(jià)層面。如果多數(shù)業(yè)務(wù)專家對(duì)于聚類的結(jié)果都看不懂,那么這個(gè)結(jié)果很可能是值得懷疑的。

7、如果聚類的結(jié)果比較容易理解、解釋,業(yè)務(wù)人員會(huì)更能實(shí)施這個(gè)結(jié)果。22聚類之前的預(yù)處理特征篩選 在實(shí)踐中,聚類中的輸入變量不能太多,尤其是在樣本數(shù)量有限的情況下。否則: 運(yùn)算耗時(shí); 更重要的是變量之間的相關(guān)性會(huì)損害聚類效果; 變量太多會(huì)使人難以理解每個(gè)群的實(shí)際含義。 因此,通常會(huì)采用相關(guān)性分析、結(jié)合業(yè)務(wù)知識(shí)進(jìn)行變量篩選等方法來降維。然后根據(jù)少量幾個(gè)維度 進(jìn)行聚類。 被篩掉的變量可以在聚類完成后再用于對(duì)每個(gè)群的進(jìn)一步分析,比如描述性統(tǒng)計(jì)、分類算法。23聚類之前的預(yù)處理異常值 K-means對(duì)數(shù)據(jù)的噪聲和異常值比較敏感。 這些個(gè)別數(shù)據(jù)對(duì)于平均值的影響非常大。 為此,我們可以: 直接刪除那些比其他任何數(shù)據(jù)點(diǎn)都要遠(yuǎn)離聚類中心點(diǎn)的異常值。 與此類似地,在聚類之后,有些群體內(nèi)樣本數(shù)量太少、這種群體在實(shí)際應(yīng)用中可以忽略不計(jì)。 采用隨機(jī)抽樣。這樣,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論