




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、叢集分析之探勘資料探勘第二單元 資料探勘的技術(shù)與工具 1本周綱要叢集分析法的基本概念叢集分析法的技術(shù) 階層式叢集分析法 分割式叢集分析法 其他叢集分析法2叢集分析法的基本概念叢集分析法的主要目的是將一群擁有相異性質(zhì)的資料 (個(gè)體),區(qū)隔為數(shù)個(gè)同質(zhì)性較高的資料群體 (叢集)3何謂叢集分析法叢集分析法的特性4叢集分析法與分類(lèi)法分類(lèi)法分群方式,為擁有事先定義好的群組分群時(shí)再依每個(gè)資料最適合哪個(gè)群組,將資料分配至已經(jīng)事先定義好的群組中叢集分析法無(wú)任何事先定義好的群組群組的特性,需視欲將資料分為幾群或視資料的屬性而定。一種動(dòng)態(tài)的分群資料分析法5叢集分析法的進(jìn)行步驟樣式的描述 (包括特徵的選擇或萃取) 樣
2、式間的相似度計(jì)算分群資料的摘要 (視實(shí)際情況決定是否需要進(jìn)行此步驟)輸出的評(píng)估 (視實(shí)際情況決定是否需要進(jìn)行此步驟) 6叢集分析法的應(yīng)用領(lǐng)域叢集分析法在商業(yè)上的應(yīng)用顧客分群銀行業(yè)方面,可以利用叢集分析法中的離群值分析,來(lái)判別信用卡持卡人的消費(fèi)是否與其平常的消費(fèi)型態(tài)有所不同,藉以降低銀行與持卡人的風(fēng)險(xiǎn)與損失叢集分析法在醫(yī)學(xué)上的應(yīng)用判斷病癥的輔助工具叢集分析法在網(wǎng)路上的應(yīng)用網(wǎng)頁(yè)的內(nèi)容分析叢集分析法在生物領(lǐng)域上的應(yīng)用動(dòng)物或植物進(jìn)行分群7相似度的衡量a. 連續(xù)或區(qū)間數(shù)值的相似度衡量a.1. 標(biāo)準(zhǔn)化先計(jì)算變數(shù)的平均絕對(duì)差異值計(jì)算每個(gè)數(shù)值的 分?jǐn)?shù)可將區(qū)間數(shù)值標(biāo)準(zhǔn)化,再利用標(biāo)準(zhǔn)化後的值進(jìn)行相似度衡量,較不易
3、產(chǎn)生偏差的值。8相似度的衡量a.2. 相似度衡量方法a.2.1. 歐幾里德距離 a.2.2. 曼哈頓距離a.2.3. Minkowski距離9相似度的衡量a.2.4. 加權(quán)式距離衡量方式a.2.5. MND距離衡量法NN(a,b)為對(duì)b而言, 比a到b距離近的鄰居數(shù)目(包含b)10相似度的衡量a.2.6. 概念性叢集之相似度衡量11作業(yè): 利用以下的相似度衡量法計(jì)算甲與乙的距離1. 歐幾里德距離 2. 曼哈頓距離3. 加權(quán)式距離衡量方式(權(quán)重: 年齡0.1, 身高0.4, 體重0.4,成績(jī)0.1)12相似度的衡量b. 其他類(lèi)型值之相似度衡量b.1. 名目變數(shù)的相似度計(jì)算範(fàn)例相似度=0.2513
4、相似度的衡量b.2. 二元變數(shù)值之相似度衡量方法沿用名目變數(shù)相似度計(jì)算方式範(fàn)例相似度=3/5=0.614相似度的衡量b.3. 等級(jí)變數(shù)之相似度衡量方法標(biāo)準(zhǔn)化為01之間的數(shù)值範(fàn)例之後再採(cǎi)用歐幾里德、曼哈頓或Minkowski其中一種來(lái)進(jìn)行距離的計(jì)算斯皮爾曼等級(jí)相關(guān)係數(shù)15叢集分析法的技術(shù)16叢集分析法技術(shù)的分類(lèi)階層式叢集分析法主要透過(guò)分類(lèi)樹(shù)狀圖的建立可再依其進(jìn)行的方式分為聚合式與分裂式分割式叢集分析法分割式叢集分析法為目前進(jìn)行叢集分析的主流方式其他叢集分析法的技術(shù)以密度為基礎(chǔ)的叢集分析法DBSCAN演算法以方格為基礎(chǔ)的叢集分析法STING演算法類(lèi)神經(jīng)網(wǎng)路叢集分析法以機(jī)率為基礎(chǔ)的叢集分析法EM演算
5、法分析離群值的離群分析法17影響叢集分析法技術(shù)的因素聚合或分裂單一特性或多特性明確的叢集或模糊的叢集事先決定或隨機(jī)決定遞增或非遞增 18階層式叢集分析法19階層式叢集分析法聚合式叢集分析法由樹(shù)狀分類(lèi)圖中的分枝一直進(jìn)行到根部的叢集分析法,亦可說(shuō)是一種由下到上的叢集分析法演算法步驟一:將n個(gè)資料自己分為一叢集,因此一開(kāi)始將會(huì)有n個(gè)叢集步驟二:計(jì)算叢集之間的距離,並加以排序步驟三:選擇兩個(gè)最近的叢集,聚為一個(gè)新的叢集步驟四:將步驟三的新叢集與其他的叢集重新計(jì)算距離,更新叢集間的距離,新的叢集距離的代表值,依照不同的叢集方法 (單一鏈結(jié)、完全鏈結(jié))步驟五:重複步驟三、四 次步驟六:直到所有的叢集都聚在
6、同一叢集中,即結(jié)束20階層式叢集分析法單一鏈結(jié)法兩個(gè)資料間新的距離定義為兩個(gè)叢集之間的最小距離完全鏈結(jié)法兩個(gè)資料間新的距離定義為兩個(gè)叢集之間的最大距離21分割式叢集分析法k-means演算法將n個(gè)資料分至k個(gè)叢集中,最後達(dá)成一個(gè)最佳化,也就是每一群之間的資料是最相似的,而群與群之間的相似度則是最小的衡量相似度的基準(zhǔn)在於求出每一群資料的平均值 (也就是所謂的重心)演算法步驟一:隨機(jī)選定欲進(jìn)行叢集的資料中k個(gè)資料,最初以這k個(gè)資料為各叢集的起始重心步驟二:將剩下的每一個(gè)資料分配至最近的重心,聚為同一個(gè)叢集步驟三:以目前每一個(gè)叢集的資料為主,重新計(jì)算每一個(gè)叢集的平均值,找出新的重心步驟四:如果未符合
7、收斂的基準(zhǔn),則至步驟二再執(zhí)行一次演算法,直至收斂為止; 或跳至步驟二執(zhí)行的次數(shù)已超過(guò)指定的閥值就停止。收斂的準(zhǔn)則有兩個(gè)(達(dá)到其中一個(gè)即可)再?zèng)]有任何的 (或極少) 值被分到新的叢集中群聚的平方誤差(距離平方誤差(square error))總和,可稱(chēng)為分群的誤差函數(shù)E(error function)或失真度。最佳化使 E 的值為最小。 22k-means演算法缺點(diǎn)資料必須能夠計(jì)算平均值,也就是必須為數(shù)值資料,但實(shí)際的情況下,資料可能很難為這種情況。使用者必須事先決定叢集的數(shù)目,但有時(shí)此數(shù)目並非最佳的叢集狀態(tài)。容易受到雜質(zhì)或離群值影響叢集的結(jié)果,因?yàn)闀?huì)影響平均值的計(jì)算 (重心的決定)。23作業(yè):
8、 以K-means方法找出下列資料的叢集分析結(jié)果6 instances, 2 attributes, 2 cluster24第五節(jié) 其他叢集分析法以密度為基礎(chǔ)的叢集方法優(yōu)點(diǎn)可找出有不確定形狀的叢集可掌握雜質(zhì)以密度為基礎(chǔ)的叢集分析法進(jìn)行演算時(shí),只需對(duì)資料進(jìn)行一次的掃描25以密度為基礎(chǔ)的叢集方法DBSCAN必須明定兩個(gè)參數(shù)值來(lái)定義最小的密度。在以 為半徑內(nèi)的資料稱(chēng)為 鄰居域在 鄰居域中,最少需有的資料數(shù)目稱(chēng)為MinPts範(fàn)例在圖中 則26DBSCAN假設(shè)有一連串的點(diǎn) ,而 為從 密度可直接觸及的點(diǎn)如圖左邊的部分,因?yàn)辄c(diǎn) 可以直接觸及 ,則稱(chēng) 為可依據(jù)密度而連結(jié)的點(diǎn)27DBSCAN演算法步驟一:任意
9、選擇一點(diǎn)步驟二:找出在 和MinPts下從 可以直接觸及的區(qū)域步驟三:如果 為核心點(diǎn),則叢集形成步驟四:如果 為邊緣點(diǎn),但沒(méi)有任何點(diǎn)從 可以直接觸及,則DBSCAN演算法會(huì)結(jié)束 的處理,繼續(xù)進(jìn)行其他點(diǎn)的處理步驟五:重複直到所有的點(diǎn)皆處理完畢28以方格為基礎(chǔ)的叢集方法STING利用階層式的方格結(jié)構(gòu),儲(chǔ)存資料的數(shù)值性統(tǒng)計(jì)參數(shù)特性 (如:最大值、最小值、平均數(shù)等) 在方格內(nèi)屬性獨(dú)立的參數(shù):n:一格內(nèi)資料的數(shù)目屬性相依的參數(shù) (假設(shè)資料為數(shù)值資料)m:方格內(nèi)所有資料值的平均值s:方格內(nèi)所有資料屬性值的標(biāo)準(zhǔn)差min:方格內(nèi)所有資料屬性值的最小值max:方格內(nèi)所有資料屬性值的最大值distribution
10、:方格內(nèi)所有資料屬性值的分布狀況。分布狀況不是數(shù)值資料,如:正常、平均等。如果分布情況未知的話(huà),則會(huì)記錄為NONE。29類(lèi)神經(jīng)網(wǎng)路叢集方法自我組織圖(SOM)的技術(shù)30以機(jī)率為基礎(chǔ)的叢集分析法解決混合的資料機(jī)率分布31以機(jī)率為基礎(chǔ)的叢集分析法EM演算法EM就是將期望最大化的意思先猜測(cè)5個(gè)參數(shù)值計(jì)算每個(gè)機(jī)率分布的機(jī)率利用其機(jī)率值分配資料到各叢集後,再估計(jì)參數(shù)值,直到最好的結(jié)果出現(xiàn)假設(shè) 為資料 在叢集A中的機(jī)率,則此時(shí)A的平均數(shù)及標(biāo)準(zhǔn)差可以下列公式計(jì)算之:收斂的準(zhǔn)則為32離群值分析低維度的資料利用視覺(jué)化的方法高維度的資料以統(tǒng)計(jì)為基礎(chǔ)的離群值偵測(cè)方法以距離為基礎(chǔ)的離群值偵測(cè)方法以索引式資料結(jié)構(gòu)為基礎(chǔ)
11、的演算法利用多維度索引的資料結(jié)構(gòu),如R-tree或k-d tree來(lái)進(jìn)行離群值的偵測(cè)以細(xì)胞 (Cell) 概念為基礎(chǔ)的演算法把整個(gè)資料的集合切成大小相同的細(xì)胞,再對(duì)於每個(gè)細(xì)胞進(jìn)行偵測(cè),決定在細(xì)胞內(nèi)的值是否為離群值33以細(xì)胞 (Cell) 概念為基礎(chǔ)的演算法之細(xì)胞構(gòu)造示意圖34以細(xì)胞 (Cell) 概念為基礎(chǔ)的演算法步驟一計(jì)算在細(xì)胞外之第一層細(xì)胞壁與細(xì)胞內(nèi)的資料數(shù)目,假如資料數(shù)目小於或等於 時(shí),則將整個(gè)細(xì)胞視為離群值而假如資料的數(shù)目大於 的話(huà),則進(jìn)行第二個(gè)步驟的離群值偵測(cè)。步驟二計(jì)算在第二層細(xì)胞壁內(nèi),包括第一層細(xì)胞壁及細(xì)胞內(nèi)的資料,判斷準(zhǔn)則與第一步驟相同假如計(jì)算後的資料數(shù)目大於 時(shí),此時(shí)資料內(nèi)仍可能存在離群值,則會(huì)對(duì)於每個(gè)資料進(jìn)行單獨(dú)的偵測(cè)偵測(cè)的方法採(cǎi)用鄰居域的方法假如對(duì)每個(gè)資料而言,在d-鄰居域中的鄰居資料數(shù)目不足的話(huà),則此資料將會(huì)被視為離群值,如果數(shù)量足夠的話(huà),就非離群值。35離群值分析以偏差概念為基礎(chǔ)的離群值偵測(cè)方法衡量資料的主要特性與在同一群資料中的特性有無(wú)出現(xiàn)偏差過(guò)大的情形,藉以找出資料中的離群值SET演
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 高效備戰(zhàn)視覺(jué)傳播設(shè)計(jì)小自考的策略與試題及答案
- 第23課《范進(jìn)中舉》教學(xué)設(shè)計(jì) 2023-2024學(xué)年統(tǒng)編版語(yǔ)文九年級(jí)上冊(cè)
- 1《場(chǎng)景歌》教學(xué)設(shè)計(jì)-2024-2025學(xué)年語(yǔ)文二年級(jí)上冊(cè)統(tǒng)編版
- 11 蟋蟀的住宅 教學(xué)設(shè)計(jì)-2024-2025學(xué)年語(yǔ)文四年級(jí)上冊(cè)統(tǒng)編版
- 《第一單元 綠水江南:唱歌 少先隊(duì)員采茶歌》(教學(xué)設(shè)計(jì))-2023-2024學(xué)年人教版(2012)音樂(lè)四年級(jí)下冊(cè)
- 系統(tǒng)應(yīng)用與用戶(hù)反饋分析試題及答案
- 2025年三元催化凈化器合作協(xié)議書(shū)
- 【鄂爾多斯】2024年內(nèi)蒙古鄂爾多斯高新技術(shù)產(chǎn)業(yè)開(kāi)發(fā)區(qū)市融媒體中心招聘控制數(shù)人員35人筆試歷年典型考題及考點(diǎn)剖析附帶答案詳解
- 2025年低功率氣動(dòng)閥島用控制閥合作協(xié)議書(shū)
- 【綿陽(yáng)】2025年四川綿陽(yáng)市特種設(shè)備監(jiān)督檢驗(yàn)所招聘檢驗(yàn)檢測(cè)人員5人筆試歷年典型考題及考點(diǎn)剖析附帶答案詳解
- 安全風(fēng)險(xiǎn)分級(jí)管控清單(大全)
- 2024版國(guó)開(kāi)電大專(zhuān)科《管理英語(yǔ)1》在線形考(單元自測(cè)1至8)試題及答案
- 有效溝通技巧(適用于工廠)PPT幻燈片
- 教科版四年級(jí)科學(xué)下冊(cè)實(shí)驗(yàn)報(bào)告
- 受賄罪-刑事-辯護(hù)詞
- 農(nóng)業(yè)行業(yè)領(lǐng)域重大事故隱患判定標(biāo)準(zhǔn)
- 現(xiàn)行規(guī)章制度梳理情況統(tǒng)計(jì)表
- 統(tǒng)編版語(yǔ)文六年級(jí)下冊(cè)單元課內(nèi)閱讀和類(lèi)文閱讀理解專(zhuān)項(xiàng)檢訓(xùn)練含答案
- 高標(biāo)準(zhǔn)農(nóng)田假設(shè)檢驗(yàn)批表格
- HCCDP 云遷移認(rèn)證理論題庫(kù)
- 嚴(yán)格執(zhí)法【知識(shí) 精講精研 】 高中政治統(tǒng)編版必修三政治與法治
評(píng)論
0/150
提交評(píng)論