版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
2023/2/1數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘1第6章數(shù)據(jù)聚類2023/2/1數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘26.1引例數(shù)據(jù)分類分類是在已經(jīng)知道類標(biāo)號(hào)的訓(xùn)練集上進(jìn)行分類器工作數(shù)據(jù)聚類聚類是對(duì)沒有類標(biāo)號(hào)的數(shù)據(jù)集進(jìn)行處理.2023/2/1數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘36.1引例樣本序號(hào)描述屬性1描述屬性2x113x216.5x31.54x44.57.5x548.5x65.59x74.58聚類分析的數(shù)據(jù)集沒有類別屬性2023/2/1數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘46.1引例聚類分析的定義聚類分析是將物理的或者抽象的數(shù)據(jù)集合劃分為多個(gè)類別的過程.聚類之后的每個(gè)類別中任意兩個(gè)數(shù)據(jù)樣本之間具有較高的相似度,而不同類別的數(shù)據(jù)樣本之間具有較低的相似度.2023/2/1數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘56.1引例聚類分析中數(shù)據(jù)集的表示X={(xi)|i=1,2,…,total}數(shù)據(jù)樣本xi用d維特征向量xi=(xi1,xi2,…,xid)來表示xi=(xi1,xi2,…,xid),其中xi1,xi2,…,xid分別對(duì)應(yīng)d個(gè)描述屬性A1,A2,…,Ad的具體取值2023/2/1數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘66.2聚類分析概述聚類分析的應(yīng)用作為一個(gè)獨(dú)立的工具,對(duì)未知類標(biāo)號(hào)的數(shù)據(jù)集進(jìn)行劃分;作為其他數(shù)據(jù)挖掘技術(shù)如數(shù)據(jù)分類的預(yù)處理工作;其他應(yīng)用如科學(xué)數(shù)據(jù);商業(yè)領(lǐng)域;生物學(xué)方面;醫(yī)療診斷等領(lǐng)域;2023/2/1數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘76.2聚類分析概述數(shù)據(jù)挖掘技術(shù)對(duì)聚類分析的要求:可伸縮性小數(shù)據(jù)集
大數(shù)據(jù)集處理不同類型屬性的能力連續(xù)型二值離散型多值離散型混合類型2023/2/1數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘86.2聚類分析概述數(shù)據(jù)挖掘技術(shù)對(duì)聚類分析的要求:發(fā)現(xiàn)任意形狀聚類的能力歐氏距離曼哈頓距離傾向于劃分為相近大小和密度的球型聚類;實(shí)際數(shù)據(jù)集可能是任意形狀的;2023/2/1數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘96.2聚類分析概述數(shù)據(jù)挖掘技術(shù)對(duì)聚類分析的要求:減小對(duì)先驗(yàn)知識(shí)和用戶自定義參數(shù)的依賴性處理噪聲數(shù)據(jù)的能力孤立點(diǎn)缺失值錯(cuò)誤值可解釋性和實(shí)用性低維度聚類結(jié)果容易理解高維度聚類結(jié)果不容易理解2023/2/1數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘106.2聚類分析概述通常聚類算法可以分為以下幾類:劃分聚類方法(K-Means)
層次聚類方法凝聚型層次聚類分解型層次聚類基于密度的聚類方法基于網(wǎng)格的聚類方法2023/2/1數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘116.3聚類分析中相似度的計(jì)算方法2023/2/1數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘126.3聚類分析中相似度的計(jì)算方法2023/2/1數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘136.3聚類分析中相似度的計(jì)算方法2023/2/1數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘146.3聚類分析中相似度的計(jì)算方法2023/2/1數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘156.3聚類分析中相似度的計(jì)算方法聚類分析將數(shù)據(jù)集劃分為多個(gè)類別,要求每個(gè)類別中任意兩個(gè)樣本的相似度較高,不同類別間的樣本之間相似度較低.6.3.1連續(xù)型屬性的相似度計(jì)算方法6.3.2二值離散型屬性的相似度計(jì)算方法6.3.3多值離散型屬性的相似度計(jì)算方法6.3.4混合類型屬性的相似度計(jì)算方法2023/2/1數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘166.3.1連續(xù)型屬性的相似度計(jì)算方法連續(xù)型屬性:指取值為連續(xù)值的屬性,例如年齡、收入和距離等。假設(shè)數(shù)據(jù)集X={Xm|m=1,2,…total},X中的樣本用d個(gè)屬性A1,A2,…Ad來表示,并且d個(gè)描述屬性都是連續(xù)型屬性。即數(shù)據(jù)樣本Xi=(Xi1,Xi2,…Xid),Xj=(Xj1,Xj2,…Xjd),樣本Xi與Xj之間的距離用以下方式表示。2023/2/1數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘176.3.1連續(xù)型屬性的相似度計(jì)算方法歐氏距離(Euclideandistance)2023/2/1數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘186.3.1連續(xù)型屬性的相似度計(jì)算方法歐氏距離(Euclideandistance)2023/2/1數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘196.3.1連續(xù)型屬性的相似度計(jì)算方法曼哈頓距離(Manhattandistance)2023/2/1數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘206.3.1連續(xù)型屬性的相似度計(jì)算方法曼哈頓距離(Manhattandistance)2023/2/1數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘216.3.1連續(xù)型屬性的相似度計(jì)算方法明考斯基距離(Minkowskidistance)很明顯,當(dāng)q=1的時(shí)候?很明顯,當(dāng)q=2的時(shí)候?樣本序號(hào)描述屬性1描述屬性21642753634465382023/2/1數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘226.3.1連續(xù)型屬性的相似度計(jì)算方法上述三種距離滿足如下的數(shù)學(xué)性質(zhì):
2023/2/1數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘236.3.2二值離散型屬性的相似度計(jì)算方法數(shù)據(jù)樣本的二值離散型屬性的取值情況數(shù)據(jù)樣本xi10合計(jì)數(shù)據(jù)樣本xj1a11a10a11+a100a01a00a01+a00合計(jì)a11+a01a10+a00a11+a10+a01+a00A1A2A3A4A5A6A7A8A9Xi110010100Xj0110110012023/2/1數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘246.3.2二值離散型屬性的相似度計(jì)算方法對(duì)稱的二值離散型屬性不對(duì)稱的二值離散型屬性a00不重要,不必參與運(yùn)算2023/2/1數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘256.3.3多值離散型屬性的相似度計(jì)算方法多值離散型屬性的相似度年齡收入信譽(yù)度1老年高優(yōu)2青年中良3中年低差4老年中優(yōu)5青年中良6中年低良7中年中良8老年中良2023/2/1數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘266.3.3多值離散型屬性的相似度計(jì)算方法多值離散型屬性的相似度d為數(shù)據(jù)集中的屬性個(gè)數(shù),u為樣本xi和xj取值相同的屬性個(gè)數(shù)2023/2/1數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘276.3.3多值離散型屬性的相似度計(jì)算方法多值離散型屬性的相似度序號(hào)年齡學(xué)歷收入1青年研究生高2青年本科低3老年本科以下中4中年研究生高D(x1,x2)=
?D(x1,x3)=
?2023/2/1數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘286.3.3多值離散型屬性的相似度計(jì)算方法多值離散型轉(zhuǎn)化為二值離散型序號(hào)年齡學(xué)歷收入1青年研究生高2青年本科低序號(hào)老年青年中年專科本科研究生高中低101000110020100101002023/2/1數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘296.3.4混合類型屬性的相似度計(jì)算方法對(duì)于包含混合類型屬性的數(shù)據(jù)集的相似度通常有兩種計(jì)算方法:將屬性按照類型分組,每個(gè)新的數(shù)據(jù)集中只包含一種類型的屬性;之后對(duì)每個(gè)數(shù)據(jù)集進(jìn)行單獨(dú)的聚類分析把混合類型的屬性放在一起處理,進(jìn)行一次聚類分析簡(jiǎn)單的復(fù)習(xí)請(qǐng)你來識(shí)別下,如下的數(shù)據(jù)適合進(jìn)行分類還是聚類操作?序號(hào)屬性1屬性2x113x216.5x31.54x44.57.5序號(hào)屬性1屬性2分類x113C1x216.5C2x31.54C3x44.57.5C1DataSet1DataSet2虛擬場(chǎng)景沈經(jīng)理小王說:最近的產(chǎn)品銷售額似乎成下降趨勢(shì)!答:是啊,但是我們的市場(chǎng)策略并沒有變啊!說:現(xiàn)在的企業(yè)啊,是越來越重視客戶關(guān)系的處理??!競(jìng)爭(zhēng)越來越激烈了啊!對(duì)了,我們的市場(chǎng)營(yíng)銷策略有區(qū)別對(duì)待客戶嗎?答:沒有啊,我們對(duì)所有的客戶都一視同仁?。≌f:哦,我想我知道我們的問題出在哪里了?虛擬場(chǎng)景沈經(jīng)理小王說:小王啊,交給你一個(gè)任務(wù)!盡管我們的客戶很多,但是我希望你能幫我把客戶分分類!然后啊,告訴市場(chǎng)部的同事,針對(duì)不同的客戶,我們要采取不同的客戶策略,我要看到接下來我們的銷售額是要增長(zhǎng)的。客戶答:經(jīng)理,好的。但是,我應(yīng)該怎么樣進(jìn)行客戶分類啊?嗚嗚嗚。。。?虛擬場(chǎng)景小王說:我應(yīng)該怎么樣進(jìn)行客戶分類啊?嗚嗚嗚。。。?說:你看,我們好多好多的客戶啊。。。虛擬場(chǎng)景小王?購(gòu)買次數(shù)購(gòu)買金額購(gòu)買頻率年齡。。。520003/月28。。。840001/月35。。。虛擬場(chǎng)景Q1:為什么要分成3類?如果分成K類呢?Q2:不同的類之間有何特征呢?Q3:這種相似度是什么來衡量呢?同類之間有著相同的特征,相似度較高!點(diǎn)與點(diǎn)之間的距離!+++所有點(diǎn)的平均值Means2023/2/1數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘366.4k-means聚類算法6.4.1k-means聚類算法的基本概念6.4.2SQLserver2005中的k-means應(yīng)用2023/2/1數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘376.4.1k-means聚類算法的基本概念K-Means?K代表什么?Means代表什么?K-Means聚類算法將各個(gè)聚類子集內(nèi)所有數(shù)據(jù)樣本的均值作為該聚類的代表點(diǎn).2023/2/1數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘386.4.1k-means聚類算法的基本概念K-Means不適合處理離散型,對(duì)于連續(xù)型效果較好.K-Means算法的思想是通過迭代過程把數(shù)據(jù)集劃分為不同的類別,使得評(píng)價(jià)聚類性能的準(zhǔn)則函數(shù)達(dá)到最優(yōu),從而生成的每個(gè)聚類內(nèi)緊湊,類間獨(dú)立.簡(jiǎn)單的演示2023/2/1數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘396.4.1k-means聚類算法的基本概念劃分聚類方法對(duì)數(shù)據(jù)集聚類時(shí)的三個(gè)要點(diǎn):要點(diǎn)1:選定某種距離作為數(shù)據(jù)樣本間的相似性度量歐氏距離
曼哈頓距離明考斯基距離2023/2/1數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘406.4.1k-means聚類算法的基本概念劃分聚類方法對(duì)數(shù)據(jù)集進(jìn)行聚類時(shí)包含三個(gè)要點(diǎn):要點(diǎn)2:選擇評(píng)價(jià)聚類性能的準(zhǔn)則函數(shù)K-Means選擇誤差平方和準(zhǔn)則函數(shù)來評(píng)價(jià)聚類性能.2023/2/1數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘416.4.1k-means聚類算法的基本概念假設(shè)數(shù)據(jù)集合X包含k個(gè)聚類子集X1,X2..Xk,各個(gè)聚類子集中的樣本數(shù)量分別為n1,n2,…nk;各個(gè)聚類子集的均值代表點(diǎn)(聚類中心)分別為m1,m2…mk,則誤差平方和準(zhǔn)則函數(shù)公式為:E=∑(∑||p-mi||)其中mi=∑pp?Xii=1kp?XiX1X2X32023/2/1數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘426.4.1k-means聚類算法的基本概念劃分聚類方法對(duì)數(shù)據(jù)集進(jìn)行聚類時(shí)包含三個(gè)要點(diǎn):顯然,若E值越大,說明誤差越大,聚類結(jié)果越不好。因此,我們應(yīng)該尋求使E最小的聚類結(jié)果,即在誤差平方和準(zhǔn)則下的最優(yōu)結(jié)果。這種聚類通常稱為最小方差劃分。2023/2/1數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘436.4.1k-means聚類算法的基本概念劃分聚類方法對(duì)數(shù)據(jù)集進(jìn)行聚類時(shí)包
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 金色的魚鉤教案范文10篇
- 半年個(gè)人工作計(jì)劃
- 元宵大班教案
- 2021北師大版三年級(jí)數(shù)學(xué)下冊(cè)教案設(shè)計(jì)
- 四年級(jí)上冊(cè)語(yǔ)文教學(xué)計(jì)劃4篇
- 等待高中作文(集錦15篇)
- 幼兒園畢業(yè)實(shí)習(xí)報(bào)告3篇
- 在外貿(mào)公司實(shí)習(xí)報(bào)告集合8篇
- 上半年道路交通安全工作總結(jié)
- 天宮課堂第三課300字作文10篇參考
- 廣東省珠海市2023-2024學(xué)年高二上學(xué)期語(yǔ)文期中試卷(含答案)
- 山東省淄博市周村區(qū)(五四制)2023-2024學(xué)年七年級(jí)上學(xué)期期末考試英語(yǔ)試題(含答案無聽力原文及音頻)
- GB/T 44317-2024熱塑性塑料內(nèi)襯油管
- 七年級(jí)道德與法治期末復(fù)習(xí)計(jì)劃范文兩篇
- 酒店英語(yǔ)會(huì)話(第六版)教案全套 李永生 unit 1 Room Reservations -Unit 15 Handling Problems and Complaints
- 創(chuàng)傷失血性休克中國(guó)急診專家共識(shí)2023解讀課件
- 大學(xué)英語(yǔ)智慧樹知到期末考試答案章節(jié)答案2024年海南經(jīng)貿(mào)職業(yè)技術(shù)學(xué)院
- 執(zhí)行力神經(jīng)機(jī)制與腦成像研究
- 冷鏈物流高質(zhì)量發(fā)展“十四五”規(guī)劃
- 2024年新疆烏魯木齊市選調(diào)生考試(公共基礎(chǔ)知識(shí))綜合能力題庫(kù)完美版
- 2024年中荊投資控股集團(tuán)有限公司招聘筆試沖刺題(帶答案解析)
評(píng)論
0/150
提交評(píng)論