《機(jī)器學(xué)習(xí)項(xiàng)目案例開(kāi)發(fā)》課件 8.2聚類-DBSCAN_第1頁(yè)
《機(jī)器學(xué)習(xí)項(xiàng)目案例開(kāi)發(fā)》課件 8.2聚類-DBSCAN_第2頁(yè)
《機(jī)器學(xué)習(xí)項(xiàng)目案例開(kāi)發(fā)》課件 8.2聚類-DBSCAN_第3頁(yè)
《機(jī)器學(xué)習(xí)項(xiàng)目案例開(kāi)發(fā)》課件 8.2聚類-DBSCAN_第4頁(yè)
《機(jī)器學(xué)習(xí)項(xiàng)目案例開(kāi)發(fā)》課件 8.2聚類-DBSCAN_第5頁(yè)
已閱讀5頁(yè),還剩6頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

人工智能技術(shù)與應(yīng)用8.DBSCAN聚類課程概況—基本情況PART01聚類算法DBSCAN算法概述DBSCAN參數(shù)DBSCAN流程DBSCAN優(yōu)缺點(diǎn)DBSCAN概念DBSCAN聚類算法:Kmenas聚類缺點(diǎn):

①K值難確定;②受初始值影響較大;③復(fù)雜度與樣本規(guī)模呈線性關(guān)系;④很難發(fā)現(xiàn)任意形狀的簇。聚類的應(yīng)用:DBSCAN算法是密度聚類算法,所謂密度聚類算法就是說(shuō)這個(gè)算法是,根據(jù)樣本的緊密程度來(lái)進(jìn)行聚類DBSCAN算法基本概念:r鄰域:給定對(duì)象半徑為r內(nèi)的區(qū)域稱為該對(duì)象的r鄰域。如圖,P對(duì)象在半徑r內(nèi)構(gòu)成的圓就是該對(duì)象的r鄰域,如圖1。核心對(duì)象:如果給定對(duì)象r鄰域內(nèi)的樣本點(diǎn)數(shù)大于等于MinPoints,則稱該對(duì)象為核心對(duì)象;如圖2:設(shè)置MinPoints的點(diǎn)為2,那么在對(duì)象p的e領(lǐng)域內(nèi)有4個(gè)點(diǎn),大于MinPoints,那么p對(duì)象就是核心對(duì)象。ε-鄰域的距離閾值:設(shè)定的半徑r直接密度可達(dá):如果樣本點(diǎn)q在p的r鄰域內(nèi),并且p為核心對(duì)象,那么對(duì)象p-q直接密度可達(dá),如圖3。rrrDBSCAN概念DBSCAN算法基本概念:密度可達(dá):若有一個(gè)點(diǎn)的序列q0、q1、…qk,對(duì)任意qi-qi-1是直接密度可達(dá)的,則稱從q0到qk密度可達(dá),這實(shí)際上是直接密度可達(dá)的“傳播”,如圖1,q-p密度直達(dá),m-q密度直達(dá),那么m-p密度可達(dá)。密度相連:若從某核心點(diǎn)p出發(fā),點(diǎn)q和點(diǎn)k都是密度可達(dá)的,則稱點(diǎn)q和點(diǎn)k是密度相連的,如圖2:q-o是密度可達(dá),p-o是密度可達(dá),q-p是密度相連。在DBSCAN中那些樣本可以看成一個(gè)類(也稱簇)。即最大的密度相連的樣本集合。DBSCAN概念密度可達(dá)與密度直達(dá):圖中MinPts=5,紅色的點(diǎn)都是核心對(duì)象,因?yàn)槠?-鄰域至少有5個(gè)樣本。黑色的樣本是非核心對(duì)象。所有核心對(duì)象密度直達(dá)的樣本在以紅色核心對(duì)象為中心的超球體內(nèi),如果不在超球體內(nèi),則不能密度直達(dá)。圖中用綠色箭頭連起來(lái)的核心對(duì)象組成了密度可達(dá)的樣本序列。在這些密度可達(dá)的樣本序列的?-鄰域內(nèi)所有的樣本相互都是密度相連的。DBSCAN概念DBSCAN算法基本概念:邊界點(diǎn):屬于某一個(gè)類的非核心點(diǎn),不能發(fā)展下線了,如圖中B、C點(diǎn)就是邊界點(diǎn)。噪聲點(diǎn):不屬于任何一個(gè)類簇的點(diǎn),從任何一個(gè)核心點(diǎn)出發(fā)都是密度不可達(dá)的,如圖N點(diǎn)。A核心對(duì)象、BC邊界點(diǎn)、N離群點(diǎn)DBSCAN概念DBSCAN流程:參數(shù)D:輸入數(shù)據(jù)集:參數(shù)?:指定半徑MinPts:密度閥值DBSCAN工作流程參數(shù)選擇:參數(shù)?:半徑?,可以根據(jù)K距離來(lái)設(shè)定:找突變點(diǎn)K距離:給定數(shù)據(jù)集P={p(i);i=0,1,…n},計(jì)算點(diǎn)P(i)到集合D的子集S中所有點(diǎn)之間的距離,距離按照從小到大的順序排序,d(k)就被稱為k-距離。MinPts:k-距離中k的值,一般取的小一些,多次嘗試可視化:https:///blog/visualizing-dbscan-clustering/https:///blog/visualizing-k-means-clustering/DBSCAN參數(shù)選擇DBSCAN優(yōu)缺點(diǎn)DBSCAN優(yōu)缺點(diǎn)優(yōu)勢(shì):

不需要指定簇個(gè)數(shù)擅長(zhǎng)找到離群點(diǎn)(檢測(cè)任務(wù))可以發(fā)現(xiàn)任意形狀的簇兩個(gè)參數(shù)就夠了缺點(diǎn):缺點(diǎn):

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論