2024大數(shù)據(jù)聚類分析_第1頁
2024大數(shù)據(jù)聚類分析_第2頁
2024大數(shù)據(jù)聚類分析_第3頁
2024大數(shù)據(jù)聚類分析_第4頁
2024大數(shù)據(jù)聚類分析_第5頁
已閱讀5頁,還剩13頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

大數(shù)據(jù)聚類分析主要內(nèi)容聚類分析1孤立點挖掘2聚類算法---K-MEANS3總結(jié)4什么是聚類分析?聚類(簇):數(shù)據(jù)對象的集合

在同一個聚類(簇)中的對象彼此相似不同簇中的對象則相異聚類分析將物理或抽象對象的集合分組成為由類似的對象組成的多個類的過程 聚類是一種無指導(dǎo)的學(xué)習(xí):沒有預(yù)定義的類編號聚類分析的數(shù)據(jù)挖掘功能作為一個獨立的工具來獲得數(shù)據(jù)分布的情況作為其他算法(如:特征和分類)的預(yù)處理步驟聚類分析的典型應(yīng)用模式識別人臉識別空間數(shù)據(jù)分析在GIS系統(tǒng)中,對相似區(qū)域進行聚類,產(chǎn)生主題地圖檢測空間聚類,并給出他們在空間數(shù)據(jù)挖掘 中的解釋圖像處理萬維網(wǎng)對WEB上的文檔進行分類對WEB日志的數(shù)據(jù)進行聚類,以發(fā)現(xiàn)相同的 用戶訪問模式聚類分析應(yīng)用實例市場營銷土地使用保險業(yè)城市規(guī)劃幫市場分析人員從客戶基本庫中發(fā)現(xiàn)不同的客戶群,從而可以對不同的客戶群采用不同的營銷策略。在地球監(jiān)測數(shù)據(jù)庫中,發(fā)現(xiàn)相同的土地使用區(qū)域。發(fā)現(xiàn)汽車

根據(jù)房子保險中,

的類型/索賠率較

價值和地高的客戶

理位置對群。

其進行分組。地震研究將觀測到的震中點沿板塊斷裂進行聚類,得出地震高危區(qū)。孤立點挖掘1什么是孤立點一個數(shù)據(jù)集與其他數(shù)據(jù)有著顯著區(qū)別的數(shù)據(jù)對象的集合。例如:運動員:MichaelJordon ,舒馬赫,布勃卡2孤立點產(chǎn)生原因度量或執(zhí)行錯誤數(shù)據(jù)變異的結(jié)果3孤立點挖掘給定一個N個數(shù)據(jù)對象,以及預(yù)期的孤立點數(shù)目

K與剩余的數(shù)據(jù)有著顯著差異的頭K個數(shù)據(jù)對象。4應(yīng)用信用卡欺騙檢測移動電話欺騙檢測客戶劃分醫(yī)療分析(異常)基于統(tǒng)計的孤立點檢測統(tǒng)計的方法對于給定的數(shù)據(jù)集合假定了一個分布或概率模型(例如正態(tài)分布)。使用依賴于以下參數(shù)的不一致性檢(discordancytest)數(shù)據(jù)分布分布參數(shù)(e.g. 均值或方差預(yù)期的孤立點數(shù)缺點:絕大多數(shù)檢驗 是針對個體屬 性的,而數(shù)據(jù) 挖掘要求在多 維空間中發(fā)現(xiàn) 孤立點。大部分情況下,數(shù)據(jù)分布可能是未知的。基于距離的孤立點檢測為了解決統(tǒng)計學(xué)方法帶來的一些限制,引入了基于距離的孤立點檢測在不知道數(shù)據(jù)分布的情況下對數(shù)據(jù)進行多維分析基于距離的孤立點:即DB(p,d),如果數(shù)據(jù)集合

S中的對象至少有p部分與對象o的距離大于d,則對象o就是DB(p,d)。挖掘基于距離的孤立點的高效算法:基于索引的算法嵌套—循環(huán)算法基于單元的算法基于偏離的孤立點檢測通過檢查一組對象的的主要特征來確定孤立點跟主要特征的描述相“偏離”的對象被認為是孤立點兩種基于偏離的孤立點探測技術(shù)序列異常技術(shù) 模仿人類從一系列推測類似的對象識別異常對象的方式OLAP

數(shù)據(jù)立方體技術(shù) 在大規(guī)模的多維數(shù)據(jù)中采用數(shù)據(jù)立方體來確定異常區(qū)域。如果一個立方體的單元值顯著的不同于根據(jù)統(tǒng)計模型得到的期望值,則改單元值被認為是一個異常,并用可視化技術(shù)表示。聚類算法目前存在大量的聚類算法,算法的選擇取決于數(shù)據(jù)的類型、聚類的目的和具體的應(yīng)用。大體上,主要的聚類算法分為這幾大類。聚類算法的衡量標準可伸縮性

不同屬性任意形狀記錄順序基于約束高維度衡量聚類算法的優(yōu)劣領(lǐng)域最小化解釋性-可用性K-Means聚類原理為中心向量C1,C2,…,Cn初始化K個種子(即選擇K個類的初始中心)分組將樣本分配給距離其最近的中心向量由這些樣本構(gòu)造不相交的聚類確定中心用各個聚類的中心向量作為新的中心重復(fù)分組和確定中心的步驟,直至算法收斂。K-Means算法步驟步驟一:將所有對象隨機分配到k個非空的簇中。步驟二:計算每個簇的平均值,并用該平均值代表相應(yīng)的值。步驟三:根據(jù)每個對象與各個簇中心的距離,分配給最近的簇。步驟四:轉(zhuǎn)到步驟二,重新計算每個簇的平均值。這個過程不斷重復(fù)直到滿足某個準則函數(shù)或者終止條件。終止(收斂)條件可以是以下任意一個:沒有(或者最小數(shù)目)數(shù)據(jù)點被重新分配給不同的聚類;沒有(或者最小數(shù)目)聚類中心再發(fā)生變化;誤差平方和(SSE)局部最小。SSE=

dist(x,mj)其中,k表示需要聚集的類的數(shù)目,Cj表示第j個聚類,mj表示聚類Cj的聚類中心,dist(x,mj)表示數(shù)據(jù)點x和聚類中心mj之間的距離。利用該準則可以使所生成的簇盡可能的緊湊和獨立。K-Means算法

特點:K-means算法的每個簇都是使用對象的平均值來表示。原始K-Means算法的缺陷:結(jié)果好壞依賴于對初始聚類中心的選擇容易陷入局部最優(yōu)解對K值的選擇沒有準則可依循對異常數(shù)據(jù)較為敏感只能處理數(shù)值屬性的數(shù)據(jù)……K-Means算法K-Means的變體Bradley和Fayyad等:降低對中心的依賴,能適用 于大規(guī)模數(shù)據(jù)集Dhillon等:調(diào)整迭代過程中重新計算中心方法, 提高性能Zhang等:權(quán)值軟分配調(diào)整迭代優(yōu)化過程Sarafis:將遺傳算法應(yīng)用于目標函數(shù)構(gòu)建中Berkh

in等:應(yīng)用擴展到了分布式聚類還有:采用圖論的劃分思想,平衡聚類結(jié)果,將原 始算法中的目標函數(shù)對應(yīng)于一個各向同性的高斯混 合模型算法快速,簡單。對大數(shù)據(jù)集有較 高的效率并且是 可伸縮的。時間復(fù)雜度近于 線性,而且適合 挖掘大規(guī)模數(shù)據(jù) 集。K-Means算法

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論