數(shù)據(jù)分析與數(shù)據(jù)挖掘課件 【ch15】聚類分析與離群點分析_第1頁
數(shù)據(jù)分析與數(shù)據(jù)挖掘課件 【ch15】聚類分析與離群點分析_第2頁
數(shù)據(jù)分析與數(shù)據(jù)挖掘課件 【ch15】聚類分析與離群點分析_第3頁
數(shù)據(jù)分析與數(shù)據(jù)挖掘課件 【ch15】聚類分析與離群點分析_第4頁
數(shù)據(jù)分析與數(shù)據(jù)挖掘課件 【ch15】聚類分析與離群點分析_第5頁
已閱讀5頁,還剩20頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第十五章聚類分析與離群點分析數(shù)據(jù)分析與數(shù)據(jù)挖掘01聚類問題與聚類類型30%40%聚類是指將數(shù)據(jù)對象分組成為多個類或簇,其中同類對象具有較高的相似性,不同類對象具有較大的差異性。

聚類的過程屬于無監(jiān)督學(xué)習(xí)(Unsupervisedlearning),數(shù)據(jù)樣本不需要預(yù)先標記類別,也沒有預(yù)先定義的各類別列表,聚類好壞的衡量準則通常是:類內(nèi)相似性高、類間相似性低。聚類問題

聚類是設(shè)法通過特征和聚類模型來挖掘隱含在各樣本數(shù)據(jù)內(nèi)部的相似關(guān)系,并把相似的樣本數(shù)據(jù)聚集在一起。Bagging法聚類方法總體可分為以下六種類型:(1)基于劃分的方法。(2)基于層次的方法。(3)基于密度的方法。(4)基于網(wǎng)格的方法。(5)基于模型的方法。(6)核聚類方法。02基于劃分的聚類k-means聚類k-均值(k-means)算法是一種常用的聚類算法,它屬于一種劃分方法。k-means算法將n個數(shù)據(jù)對象劃分為k個聚類,使得聚類滿足同一類中的對象相似度較高,不同聚類中的對象相似度較小的原則。k-中心點(k-medoids)算法不選用簇中對象的平均值作為中心點,而是選用簇中的中心點對象作為參照點。中心點(Medoid)對象是數(shù)據(jù)集中的一個實際對象,而k-means中的類中心對象是通過求簇中各對象均值而獲得的虛擬對象。k-medoids聚類03層次聚類20%30%40%50%層次聚類(Hierarchicalclustering)的結(jié)果是分層次的,每層的聚類個數(shù)不同,粒度大小不同。層次聚類方法可分為兩種:凝聚型層次聚類(自底向頂?shù)木垲?和分裂型層次聚類(自頂向底的聚類)。簇間距離的計算凝聚型層次聚類的主要過程如下。(1)將每個對象都視作一個簇,作為層次聚類樹的最底層,準備向高層逐步聚類。(2)對所有待聚類的簇計算任意兩個簇之間的距離。(3)合并具有最小距離的兩個簇。如果存在幾組具有相同距離的兩個簇,且簇之間不存在交叉,則可以同時合并。(4)如果全部對象合并為一個簇,或者滿足停止合并的條件(如限定最大合并次數(shù)、達到預(yù)設(shè)的最小簇數(shù)),則停止凝聚,否則跳到步驟(2)。層次聚類方法分裂型層次聚類的主要過程如下。(1)將所有對象視作一個簇,視作層次聚類樹的最頂層,準備向底層逐步聚類。(2)利用某種分裂點評價算法計算待劃分為兩個簇的候選分裂點,準備進行分裂。注意,如果簇中只有一個對象則不再分裂。(3)評價各候選分裂點,選擇最佳分裂點,分裂對應(yīng)的簇為兩個新簇。最佳分裂點的常用準則是:可使得分裂后的簇間距離增加最大。(4)如果全部簇都僅有1個對象,或者滿足停止分裂的條件(如限定最大分裂次數(shù)),則停止分裂,否則跳到步驟(2)。層次聚類方法04基于密度的聚類DBSCAN(Density-BasedSpatialClusteringofApplicationwithNoise)是一種典型的基于密度的聚類算法,它根據(jù)樣本分布的緊密程度(密度)進行聚類,能夠除去噪聲點,并且聚類的結(jié)果是劃分為多個簇,簇的形狀是任意的,如圖15.4所示。DBSCAN聚類OPTICS算法(OrderingPointtoIdentifytheClusterStructure)是DBSCAN的一種改進算法,其降低了參數(shù)的敏感度。OPTICS聚類05基于網(wǎng)格的聚類與基于模型的聚類CLIQUE聚類CLIQUE(ClusteringInQuest)聚類是一種基于網(wǎng)格的聚類方法,用于發(fā)現(xiàn)子空間上的基于密度的簇。它把每個維劃分成不重疊的區(qū)間,從而將數(shù)據(jù)對象空間劃分成單元(子區(qū)域或單元格)。自組織神經(jīng)網(wǎng)絡(luò)聚類原理自組織神經(jīng)網(wǎng)絡(luò)(SelfOrganizingMaps,SOM)聚類,它自動尋找樣本數(shù)據(jù)的內(nèi)在規(guī)律和本質(zhì)屬性,通過競爭機制逐步抽取主要特征,實現(xiàn)聚類過程。SOM是無監(jiān)督學(xué)習(xí)網(wǎng)絡(luò),一個神經(jīng)網(wǎng)絡(luò)接收外界輸入模式時,自動地將其劃分到不同的對應(yīng)區(qū)域,各區(qū)域?qū)斎肽J接胁煌捻憫?yīng)特征。自組織神經(jīng)網(wǎng)絡(luò)聚類原理SOM具有這樣幾個特點:①可以將高維空間的數(shù)據(jù)轉(zhuǎn)化到2維空間表示,并且其優(yōu)勢在于源空間的輸入數(shù)據(jù)彼此之間的相似性在2維離散空間得到很好保持,因此在高維空間數(shù)據(jù)之間的相似程度可以轉(zhuǎn)化為表示空間(Representationspace)的位置臨近程度,即可以保持拓撲有序性;②抗噪聲能力較強;③可視化效果較好;④可并行化處理。聚類具有高維和與語義密切相關(guān)的特點。06離群點分析離群點(Outlier)是一個數(shù)據(jù)對象,它顯著不同于其他數(shù)據(jù)對象。離群點是指異常數(shù)據(jù)。離群點可能由客觀或主觀操作錯誤所致。離群點檢測(Outlierdetection)是離群點分析的主要任務(wù)之一。離群點檢測又稱離群點識別或離群點發(fā)現(xiàn),即找出或識別哪些對象是離群點,通常屬于無監(jiān)督模型。離群點分析20%30%40%50%離群點檢測(OutlierDetection)是指在給定的數(shù)據(jù)集中尋找離群點對象,通常屬于無監(jiān)督模型。

數(shù)組的離群點檢測:對于給定的一組數(shù)據(jù),通常是單個屬性數(shù)據(jù)。離群點檢測

回歸數(shù)據(jù)的離群點檢測:線性回歸可以計算對象真實值與回歸預(yù)測值間的殘差,并進行異常數(shù)據(jù)檢驗,得到離群點?;诰垲惙椒ǖ碾x群點檢測:聚類算法將相似對象聚為一類,不相似對象分散在多類中。有些聚類算法,如密度聚類、網(wǎng)格聚類有助于識別異常值。

基于距離的離群點檢測:如果一個對象到周邊點的密度低于某個預(yù)設(shè)閾值,則該對象為離群點。離群點檢測

單類樣本學(xué)習(xí)模型的離群點檢測:目前已有多種學(xué)習(xí)模型,它們將離群點檢測問題看作分類問題,如二分類的“正常值、不是正常值”問題。07本章小結(jié)本章小結(jié)聚類是數(shù)據(jù)挖掘的一個重要類型分析方法。目前的聚類方法大致分

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論