大數(shù)據(jù)應用基礎聚類算法_第1頁
大數(shù)據(jù)應用基礎聚類算法_第2頁
大數(shù)據(jù)應用基礎聚類算法_第3頁
大數(shù)據(jù)應用基礎聚類算法_第4頁
大數(shù)據(jù)應用基礎聚類算法_第5頁
已閱讀5頁,還剩22頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

聚類分析1注意我們考核非常松盡可能全部高于80分。2一個簡單的聚類例子這是按照顏色進行一維聚類。實踐中,維度經(jīng)常多于一個。3基本特點聚類(clustering)是指根據(jù)“物以類聚”原理,將本身尚未歸類的樣本根據(jù)多個維度(多個屬性)聚集成不同的組,這樣的一組數(shù)據(jù)對象的集合叫做簇或群組。怎樣聚類算成功呢?經(jīng)過劃分后,使得:屬于同一群組的樣本之間彼此足夠相似,屬于不同群組的樣本應該足夠不相似。4分類與聚類的區(qū)別分類(Classification)有訓練過程。分類是事先定義好類別,類別數(shù)不變。分類器需要由人工標注的分類訓練數(shù)據(jù)集訓練得到,屬于有指導學習范疇。而聚類則是沒有訓練過程。在進行聚類前,并不知道將要劃分成幾個組和什么樣的組。聚類則沒有事先預定的類別,類別數(shù)不確定。聚類不需要人工標注和預先訓練分類器,類別在聚類過程中自動生成。5聚類分析的主要應用領域作為獨立的工具來分析數(shù)據(jù)發(fā)現(xiàn)離群點為其他算法做數(shù)據(jù)預處理6聚類分析的最典型應用領域客戶分群,進而制定差異化的營銷方案

7聚類分析的最典型應用領域客戶分群,進而制定差異化的營銷方案

例子:如圖,按照收入和年齡把客戶聚類為兩類8聚類的其他應用按照血型對學生進行分班確定婚禮客人如何排座位9離群點檢測離群點檢測和聚類是高度相關的。聚類是發(fā)現(xiàn)數(shù)據(jù)集中的主要群體,而離群點檢測則試圖識別那些顯著偏離多數(shù)實例的異常情況。離群點檢測可以用聚類方法,但也可以用其它方法,例如:分類方法。其常見的目的是:信用卡欺詐檢測。這需要把和正常交易明顯不同的交易識別出來。例如,盜竊卡的人的購物地點和所購商品都很不同于真正的卡主、也不同于大多數(shù)顧客。比如,其一次購物量比卡主大得多,并且購物地點遠離卡主的通常的購物地點。10聚類算法的分類聚類算法主要包括:劃分方法(PartitioningMethod):包括K均值方法等層次方法(HierarchicalMethod)基于密度的方法(Density-based)基于網(wǎng)格的方法(Grid-based)基于模型的方法(Model-based)其中,前兩種方法最最常用。11K均值算法K-means算法是無可爭爭議的使用最最多的算法。它是劃分方法法的一種。它原理簡單,,容易實現(xiàn)。。它適合使用數(shù)數(shù)值型屬性,,而不是類別別型屬性。它的一個不足足之處是:對對于離兩個群組的的中心都很近近的點,你會會不知道該放放到哪個群組組中。這其實也是是其他一些聚聚類算法的局局限性。12K均值算法的步驟K均值算法,概概括起來有五五個步驟:設定一個數(shù)K,表明總共有有幾個群簇((組);從所有實例中隨機選擇K個實例,分別代表一個個群簇的初始中心;對剩余的每個實例,根據(jù)其與各個個組的初始中心的距離,將它們分配到離自己最近的的一個群簇中;然后,更新群簇中心,即:重新計計算得出每個個群簇的新的的中心點;這個過程不斷重復(即:重復第第3、4步),直到每個群簇簇中心不再變化,即直到所有有實例在K組分布中都找找到離自己最最近的群簇。13K均值算法——什么是中心值值14K均值算法的步驟注意看C點,它離上面面的群的新的的的距離中心心比離下面那那個群的新的的中心更近,,所以它被重重新劃分到上上面那個群了了。15K均值算法的步驟16K均值算法的應應用:圖像壓壓縮群的個數(shù)越少少,意味著圖圖像被轉(zhuǎn)化成成顏色數(shù)量很很少的圖像了了。17K均值算法的應應用:圖像壓壓縮原理和上面人人物照片是一一致的。18K均值算法可以用于于三個維度前面圖像壓縮縮的例子是基基于一個維度度。這里抽象展示示了基于三個個維度的聚類類。19如何在軟件中為K均值算法設定定參數(shù)在軟件中,通通常都要設定定群的個數(shù)。還可以指定距離的度量方式。例如選選擇歐幾里德德距離或曼哈哈頓距離。大大多數(shù)聚類分分析都使用距距離度量來衡衡量兩個實例例之間的遠近近。20如何在軟件中中為K均值算法設定定參數(shù)此外,還可以以設定聚類時時采用哪些屬性同時,數(shù)據(jù)標準化是聚類分析中中最重要的一一個數(shù)據(jù)預處處理步驟。如果之之前沒做過標標準化,可以以現(xiàn)在進行。。21如何評價聚類類分析的結果果?這方面和分類類算法有一個個顯著不同::分類算法的評評判有訓練集集、驗證集的的客觀參照。。而聚類結果的的評判缺乏很明確、客觀的、統(tǒng)統(tǒng)計學意義上上的參照依據(jù)。對于聚類,業(yè)務專家從實踐角角度的評估是是最重要的評評價層面。如如果多數(shù)業(yè)務務專家對于聚聚類的結果都都看不懂,那那么這個結果果很可能是值值得懷疑的。。如果聚聚類的的結果果比較較容易易理解解、解解釋,,業(yè)務務人員員會更更能實實施這這個結結果。。22聚類之之前的的預處處理——特征篩篩選在實踐踐中,,聚類類中的的輸入變變量不不能太太多,尤其其是在在樣本本數(shù)量量有限限的情情況下下。否則::運算耗耗時;;更重要要的是是變量量之間間的相相關性性會損損害聚聚類效效果;;變量太多會使使人難難以理理解每每個群群的實實際含含義。。因此,,通常常會采采用相關性性分析、、結合合業(yè)務務知識識進行行變量量篩選選等方方法來來降維維。然然后根根據(jù)少少量幾幾個維維度進進行行聚類類。被篩掉掉的變變量可可以在在聚類類完成成后再再用于于對每每個群群的進進一步步分析析,比比如描描述性性統(tǒng)計計、分分類算算法。。23聚類之之前的的預處處理——異常值值K-means對數(shù)據(jù)據(jù)的噪噪聲和和異常值值比較敏敏感。。這些個個別數(shù)數(shù)據(jù)對對于平平均值值的影影響非非常大大。為此,,我們們可以以:直接刪刪除那那些比比其他他任何何數(shù)據(jù)據(jù)點都都要遠遠離聚聚類中中心點點的異異常值值。與此類類似地地,在在聚類類之后,,有些些群體體內(nèi)樣樣本數(shù)數(shù)量太太少、、這種種群體體在實實際應應用中中可以以忽略略不計計。采用隨機抽抽樣。。這樣樣,作作為稀稀有事事件的的數(shù)據(jù)據(jù)噪聲聲和異異常值值能被被抽進進樣本本的概概率會會很小小,這這樣樣樣本就就比較較干凈凈。24聚類之之前的的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論