大數(shù)據(jù)應(yīng)用基礎(chǔ)-聚類算法_第1頁
大數(shù)據(jù)應(yīng)用基礎(chǔ)-聚類算法_第2頁
大數(shù)據(jù)應(yīng)用基礎(chǔ)-聚類算法_第3頁
大數(shù)據(jù)應(yīng)用基礎(chǔ)-聚類算法_第4頁
大數(shù)據(jù)應(yīng)用基礎(chǔ)-聚類算法_第5頁
已閱讀5頁,還剩21頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、聚類分析1注意我們考核非常松 盡可能全部高于80分。2一個簡單的聚類例子 這是按照顏色進行一維聚類。 實踐中,維度經(jīng)常多于一個。3基本特點 聚類(clustering)是指根據(jù)“物以類聚”原理,將本身尚未歸類的樣本根據(jù)多個維度(多個屬性)聚集成不同的組,這樣的一組數(shù)據(jù)對象的集合叫做簇或群組。 怎樣聚類算成功呢?經(jīng)過劃分后,使得:屬于同一群組的樣本之間彼此足夠相似,屬于不同群組的樣本應(yīng)該足夠不相似。4分類與聚類的區(qū)別 分類(Classification)有訓(xùn)練過程。 分類是事先定義好類別 ,類別數(shù)不變 。分類器需要由人工標注的分類訓(xùn)練數(shù)據(jù)集訓(xùn)練得到,屬于有指導(dǎo)學(xué)習(xí)范疇。 而聚類則是沒有訓(xùn)練過程。

2、在進行聚類前,并不知道將要劃分成幾個組和什么樣的組。 聚類則沒有事先預(yù)定的類別,類別數(shù)不確定。聚類不需要人工標注和預(yù)先訓(xùn)練分類器,類別在聚類過程中自動生成 。5聚類分析的主要應(yīng)用領(lǐng)域1. 作為獨立的工具來分析數(shù)據(jù)2. 發(fā)現(xiàn)離群點3. 為其他算法做數(shù)據(jù)預(yù)處理6聚類分析的最典型應(yīng)用領(lǐng)域客戶分群,進而制定差異化的營銷方案7聚類分析的最典型應(yīng)用領(lǐng)域客戶分群,進而制定差異化的營銷方案例子:如圖,按照收入和年齡把客戶聚類為兩類8聚類的其他應(yīng)用 按照血型對學(xué)生進行分班 確定婚禮客人如何排座位9離群點檢測 離群點檢測和聚類是高度相關(guān)的。 聚類是發(fā)現(xiàn)數(shù)據(jù)集中的主要群體,而離群點檢測則試圖識別那些顯著偏離多數(shù)實例

3、的異常情況。 離群點檢測可以用聚類方法,但也可以用其它方法,例如:分類方法。 其常見的目的是:信用卡欺詐檢測。 這需要把和正常交易明顯不同的交易識別出來。例如,盜竊卡的人的購物地點和所購商品都很不同于真正的卡主、也不同于大多數(shù)顧客。 比如,其一次購物量比卡主大得多,并且購物地點遠離卡主的通常的購物地點。10聚類算法的分類 聚類算法主要包括: 劃分方法(Partitioning Method):包括K均值方法等 層次方法(Hierarchical Method) 基于密度的方法( Density-based ) 基于網(wǎng)格的方法( Grid-based ) 基于模型的方法( Model-based

4、 ) 其中,前兩種方法最常用。11K均值算法 K-means算法是無可爭議的使用最多的算法。 它是劃分方法的一種。 它原理簡單,容易實現(xiàn)。 它適合使用數(shù)值型屬性,而不是類別型屬性。 它的一個不足之處是:對于離兩個群組的中心都很近的點,你會不知道該放到哪個群組中。這其實也是其他一些聚類算法的局限性。12K均值算法的步驟 K均值算法,概括起來有五個步驟:1. 設(shè)定一個數(shù)K,表明總共有幾個群簇(組);2. 從所有實例中隨機選擇K個實例,分別代表一個群簇的初始中心;3. 對剩余的每個實例,根據(jù)其與各個組的初始中心的距離,將它們分配到離自己最近的一個群簇中;4. 然后,更新群簇中心,即:重新計算得出每個

5、群簇的新的中心點;5. 這個過程不斷重復(fù)(即:重復(fù)第3、4步),直到每個群簇中心不再變化,即直到所有實例在K組分布中都找到離自己最近的群簇。13K均值算法什么是中心值14K均值算法的步驟注意看C點,它離上面的群的新的的距離中心比離下面那個群的新的中心更近,所以它被重新劃分到上面那個群了。15K均值算法的步驟16K均值算法的應(yīng)用:圖像壓縮 群的個數(shù)越少,意味著圖像被轉(zhuǎn)化成顏色數(shù)量很少的圖像了。17K均值算法的應(yīng)用:圖像壓縮 原理和上面人物照片是一致的。18K均值算法可以用于三個維度 前面圖像壓縮的例子是基于一個維度。 這里抽象展示了基于三個維度的聚類。19如何在軟件中為K均值算法設(shè)定參數(shù) 在軟件

6、中,通常都要設(shè)定群的個數(shù)。 還可以指定距離的度量方式。例如選擇歐幾里德距離或曼哈頓距離。大多數(shù)聚類分析都使用距離度量來衡量兩個實例之間的遠近。20如何在軟件中為K均值算法設(shè)定參數(shù) 此外,還可以設(shè)定聚類時采用哪些屬性 同時,數(shù)據(jù)標準化是聚類分析中最重要的一個數(shù)據(jù)預(yù)處理步驟。如果之前沒做過標準化,可以現(xiàn)在進行。21如何評價聚類分析的結(jié)果? 這方面和分類算法有一個顯著不同:分類算法的評判有訓(xùn)練集、驗證集的客觀參照。而聚類結(jié)果的評判缺乏很明確、客觀的、統(tǒng)計學(xué)意義上的參照依據(jù)。 對于聚類,業(yè)務(wù)專家從實踐角度的評估是最重要的評價層面。如果多數(shù)業(yè)務(wù)專家對于聚類的結(jié)果都看不懂,那么這個結(jié)果很可能是值得懷疑的。

7、如果聚類的結(jié)果比較容易理解、解釋,業(yè)務(wù)人員會更能實施這個結(jié)果。22聚類之前的預(yù)處理特征篩選 在實踐中,聚類中的輸入變量不能太多,尤其是在樣本數(shù)量有限的情況下。否則: 運算耗時; 更重要的是變量之間的相關(guān)性會損害聚類效果; 變量太多會使人難以理解每個群的實際含義。 因此,通常會采用相關(guān)性分析、結(jié)合業(yè)務(wù)知識進行變量篩選等方法來降維。然后根據(jù)少量幾個維度 進行聚類。 被篩掉的變量可以在聚類完成后再用于對每個群的進一步分析,比如描述性統(tǒng)計、分類算法。23聚類之前的預(yù)處理異常值 K-means對數(shù)據(jù)的噪聲和異常值比較敏感。 這些個別數(shù)據(jù)對于平均值的影響非常大。 為此,我們可以: 直接刪除那些比其他任何數(shù)據(jù)點都要遠離聚類中心點的異常值。 與此類似地,在聚類之后,有些群體內(nèi)樣本數(shù)量太少、這種群體在實際應(yīng)用中可以忽略不計。 采用隨機抽樣。這樣,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論