第6章數(shù)據(jù)聚類_第1頁
第6章數(shù)據(jù)聚類_第2頁
第6章數(shù)據(jù)聚類_第3頁
第6章數(shù)據(jù)聚類_第4頁
第6章數(shù)據(jù)聚類_第5頁
已閱讀5頁,還剩40頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

2023/2/1數(shù)據(jù)倉庫與數(shù)據(jù)挖掘1第6章數(shù)據(jù)聚類2023/2/1數(shù)據(jù)倉庫與數(shù)據(jù)挖掘26.1引例數(shù)據(jù)分類分類是在已經(jīng)知道類標號的訓練集上進行分類器工作數(shù)據(jù)聚類聚類是對沒有類標號的數(shù)據(jù)集進行處理.2023/2/1數(shù)據(jù)倉庫與數(shù)據(jù)挖掘36.1引例樣本序號描述屬性1描述屬性2x113x216.5x31.54x44.57.5x548.5x65.59x74.58聚類分析的數(shù)據(jù)集沒有類別屬性2023/2/1數(shù)據(jù)倉庫與數(shù)據(jù)挖掘46.1引例聚類分析的定義聚類分析是將物理的或者抽象的數(shù)據(jù)集合劃分為多個類別的過程.聚類之后的每個類別中任意兩個數(shù)據(jù)樣本之間具有較高的相似度,而不同類別的數(shù)據(jù)樣本之間具有較低的相似度.2023/2/1數(shù)據(jù)倉庫與數(shù)據(jù)挖掘56.1引例聚類分析中數(shù)據(jù)集的表示X={(xi)|i=1,2,…,total}數(shù)據(jù)樣本xi用d維特征向量xi=(xi1,xi2,…,xid)來表示xi=(xi1,xi2,…,xid),其中xi1,xi2,…,xid分別對應d個描述屬性A1,A2,…,Ad的具體取值2023/2/1數(shù)據(jù)倉庫與數(shù)據(jù)挖掘66.2聚類分析概述聚類分析的應用作為一個獨立的工具,對未知類標號的數(shù)據(jù)集進行劃分;作為其他數(shù)據(jù)挖掘技術(shù)如數(shù)據(jù)分類的預處理工作;其他應用如科學數(shù)據(jù);商業(yè)領(lǐng)域;生物學方面;醫(yī)療診斷等領(lǐng)域;2023/2/1數(shù)據(jù)倉庫與數(shù)據(jù)挖掘76.2聚類分析概述數(shù)據(jù)挖掘技術(shù)對聚類分析的要求:可伸縮性小數(shù)據(jù)集

大數(shù)據(jù)集處理不同類型屬性的能力連續(xù)型二值離散型多值離散型混合類型2023/2/1數(shù)據(jù)倉庫與數(shù)據(jù)挖掘86.2聚類分析概述數(shù)據(jù)挖掘技術(shù)對聚類分析的要求:發(fā)現(xiàn)任意形狀聚類的能力歐氏距離曼哈頓距離傾向于劃分為相近大小和密度的球型聚類;實際數(shù)據(jù)集可能是任意形狀的;2023/2/1數(shù)據(jù)倉庫與數(shù)據(jù)挖掘96.2聚類分析概述數(shù)據(jù)挖掘技術(shù)對聚類分析的要求:減小對先驗知識和用戶自定義參數(shù)的依賴性處理噪聲數(shù)據(jù)的能力孤立點缺失值錯誤值可解釋性和實用性低維度聚類結(jié)果容易理解高維度聚類結(jié)果不容易理解2023/2/1數(shù)據(jù)倉庫與數(shù)據(jù)挖掘106.2聚類分析概述通常聚類算法可以分為以下幾類:劃分聚類方法(K-Means)

層次聚類方法凝聚型層次聚類分解型層次聚類基于密度的聚類方法基于網(wǎng)格的聚類方法2023/2/1數(shù)據(jù)倉庫與數(shù)據(jù)挖掘116.3聚類分析中相似度的計算方法2023/2/1數(shù)據(jù)倉庫與數(shù)據(jù)挖掘126.3聚類分析中相似度的計算方法2023/2/1數(shù)據(jù)倉庫與數(shù)據(jù)挖掘136.3聚類分析中相似度的計算方法2023/2/1數(shù)據(jù)倉庫與數(shù)據(jù)挖掘146.3聚類分析中相似度的計算方法2023/2/1數(shù)據(jù)倉庫與數(shù)據(jù)挖掘156.3聚類分析中相似度的計算方法聚類分析將數(shù)據(jù)集劃分為多個類別,要求每個類別中任意兩個樣本的相似度較高,不同類別間的樣本之間相似度較低.6.3.1連續(xù)型屬性的相似度計算方法6.3.2二值離散型屬性的相似度計算方法6.3.3多值離散型屬性的相似度計算方法6.3.4混合類型屬性的相似度計算方法2023/2/1數(shù)據(jù)倉庫與數(shù)據(jù)挖掘166.3.1連續(xù)型屬性的相似度計算方法連續(xù)型屬性:指取值為連續(xù)值的屬性,例如年齡、收入和距離等。假設(shè)數(shù)據(jù)集X={Xm|m=1,2,…total},X中的樣本用d個屬性A1,A2,…Ad來表示,并且d個描述屬性都是連續(xù)型屬性。即數(shù)據(jù)樣本Xi=(Xi1,Xi2,…Xid),Xj=(Xj1,Xj2,…Xjd),樣本Xi與Xj之間的距離用以下方式表示。2023/2/1數(shù)據(jù)倉庫與數(shù)據(jù)挖掘176.3.1連續(xù)型屬性的相似度計算方法歐氏距離(Euclideandistance)2023/2/1數(shù)據(jù)倉庫與數(shù)據(jù)挖掘186.3.1連續(xù)型屬性的相似度計算方法歐氏距離(Euclideandistance)2023/2/1數(shù)據(jù)倉庫與數(shù)據(jù)挖掘196.3.1連續(xù)型屬性的相似度計算方法曼哈頓距離(Manhattandistance)2023/2/1數(shù)據(jù)倉庫與數(shù)據(jù)挖掘206.3.1連續(xù)型屬性的相似度計算方法曼哈頓距離(Manhattandistance)2023/2/1數(shù)據(jù)倉庫與數(shù)據(jù)挖掘216.3.1連續(xù)型屬性的相似度計算方法明考斯基距離(Minkowskidistance)很明顯,當q=1的時候?很明顯,當q=2的時候?樣本序號描述屬性1描述屬性21642753634465382023/2/1數(shù)據(jù)倉庫與數(shù)據(jù)挖掘226.3.1連續(xù)型屬性的相似度計算方法上述三種距離滿足如下的數(shù)學性質(zhì):

2023/2/1數(shù)據(jù)倉庫與數(shù)據(jù)挖掘236.3.2二值離散型屬性的相似度計算方法數(shù)據(jù)樣本的二值離散型屬性的取值情況數(shù)據(jù)樣本xi10合計數(shù)據(jù)樣本xj1a11a10a11+a100a01a00a01+a00合計a11+a01a10+a00a11+a10+a01+a00A1A2A3A4A5A6A7A8A9Xi110010100Xj0110110012023/2/1數(shù)據(jù)倉庫與數(shù)據(jù)挖掘246.3.2二值離散型屬性的相似度計算方法對稱的二值離散型屬性不對稱的二值離散型屬性a00不重要,不必參與運算2023/2/1數(shù)據(jù)倉庫與數(shù)據(jù)挖掘256.3.3多值離散型屬性的相似度計算方法多值離散型屬性的相似度年齡收入信譽度1老年高優(yōu)2青年中良3中年低差4老年中優(yōu)5青年中良6中年低良7中年中良8老年中良2023/2/1數(shù)據(jù)倉庫與數(shù)據(jù)挖掘266.3.3多值離散型屬性的相似度計算方法多值離散型屬性的相似度d為數(shù)據(jù)集中的屬性個數(shù),u為樣本xi和xj取值相同的屬性個數(shù)2023/2/1數(shù)據(jù)倉庫與數(shù)據(jù)挖掘276.3.3多值離散型屬性的相似度計算方法多值離散型屬性的相似度序號年齡學歷收入1青年研究生高2青年本科低3老年本科以下中4中年研究生高D(x1,x2)=

?D(x1,x3)=

?2023/2/1數(shù)據(jù)倉庫與數(shù)據(jù)挖掘286.3.3多值離散型屬性的相似度計算方法多值離散型轉(zhuǎn)化為二值離散型序號年齡學歷收入1青年研究生高2青年本科低序號老年青年中年??票究蒲芯可咧械?01000110020100101002023/2/1數(shù)據(jù)倉庫與數(shù)據(jù)挖掘296.3.4混合類型屬性的相似度計算方法對于包含混合類型屬性的數(shù)據(jù)集的相似度通常有兩種計算方法:將屬性按照類型分組,每個新的數(shù)據(jù)集中只包含一種類型的屬性;之后對每個數(shù)據(jù)集進行單獨的聚類分析把混合類型的屬性放在一起處理,進行一次聚類分析簡單的復習請你來識別下,如下的數(shù)據(jù)適合進行分類還是聚類操作?序號屬性1屬性2x113x216.5x31.54x44.57.5序號屬性1屬性2分類x113C1x216.5C2x31.54C3x44.57.5C1DataSet1DataSet2虛擬場景沈經(jīng)理小王說:最近的產(chǎn)品銷售額似乎成下降趨勢!答:是啊,但是我們的市場策略并沒有變?。≌f:現(xiàn)在的企業(yè)啊,是越來越重視客戶關(guān)系的處理??!競爭越來越激烈了??!對了,我們的市場營銷策略有區(qū)別對待客戶嗎?答:沒有啊,我們對所有的客戶都一視同仁??!說:哦,我想我知道我們的問題出在哪里了?虛擬場景沈經(jīng)理小王說:小王啊,交給你一個任務!盡管我們的客戶很多,但是我希望你能幫我把客戶分分類!然后啊,告訴市場部的同事,針對不同的客戶,我們要采取不同的客戶策略,我要看到接下來我們的銷售額是要增長的??蛻舸穑航?jīng)理,好的。但是,我應該怎么樣進行客戶分類???嗚嗚嗚。。。?虛擬場景小王說:我應該怎么樣進行客戶分類???嗚嗚嗚。。。?說:你看,我們好多好多的客戶啊。。。虛擬場景小王?購買次數(shù)購買金額購買頻率年齡。。。520003/月28。。。840001/月35。。。虛擬場景Q1:為什么要分成3類?如果分成K類呢?Q2:不同的類之間有何特征呢?Q3:這種相似度是什么來衡量呢?同類之間有著相同的特征,相似度較高!點與點之間的距離!+++所有點的平均值Means2023/2/1數(shù)據(jù)倉庫與數(shù)據(jù)挖掘366.4k-means聚類算法6.4.1k-means聚類算法的基本概念6.4.2SQLserver2005中的k-means應用2023/2/1數(shù)據(jù)倉庫與數(shù)據(jù)挖掘376.4.1k-means聚類算法的基本概念K-Means?K代表什么?Means代表什么?K-Means聚類算法將各個聚類子集內(nèi)所有數(shù)據(jù)樣本的均值作為該聚類的代表點.2023/2/1數(shù)據(jù)倉庫與數(shù)據(jù)挖掘386.4.1k-means聚類算法的基本概念K-Means不適合處理離散型,對于連續(xù)型效果較好.K-Means算法的思想是通過迭代過程把數(shù)據(jù)集劃分為不同的類別,使得評價聚類性能的準則函數(shù)達到最優(yōu),從而生成的每個聚類內(nèi)緊湊,類間獨立.簡單的演示2023/2/1數(shù)據(jù)倉庫與數(shù)據(jù)挖掘396.4.1k-means聚類算法的基本概念劃分聚類方法對數(shù)據(jù)集聚類時的三個要點:要點1:選定某種距離作為數(shù)據(jù)樣本間的相似性度量歐氏距離

曼哈頓距離明考斯基距離2023/2/1數(shù)據(jù)倉庫與數(shù)據(jù)挖掘406.4.1k-means聚類算法的基本概念劃分聚類方法對數(shù)據(jù)集進行聚類時包含三個要點:要點2:選擇評價聚類性能的準則函數(shù)K-Means選擇誤差平方和準則函數(shù)來評價聚類性能.2023/2/1數(shù)據(jù)倉庫與數(shù)據(jù)挖掘416.4.1k-means聚類算法的基本概念假設(shè)數(shù)據(jù)集合X包含k個聚類子集X1,X2..Xk,各個聚類子集中的樣本數(shù)量分別為n1,n2,…nk;各個聚類子集的均值代表點(聚類中心)分別為m1,m2…mk,則誤差平方和準則函數(shù)公式為:E=∑(∑||p-mi||)其中mi=∑pp?Xii=1kp?XiX1X2X32023/2/1數(shù)據(jù)倉庫與數(shù)據(jù)挖掘426.4.1k-means聚類算法的基本概念劃分聚類方法對數(shù)據(jù)集進行聚類時包含三個要點:顯然,若E值越大,說明誤差越大,聚類結(jié)果越不好。因此,我們應該尋求使E最小的聚類結(jié)果,即在誤差平方和準則下的最優(yōu)結(jié)果。這種聚類通常稱為最小方差劃分。2023/2/1數(shù)據(jù)倉庫與數(shù)據(jù)挖掘436.4.1k-means聚類算法的基本概念劃分聚類方法對數(shù)據(jù)集進行聚類時包

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論