數(shù)據(jù)挖掘考試題目——聚類_第1頁(yè)
數(shù)據(jù)挖掘考試題目——聚類_第2頁(yè)
數(shù)據(jù)挖掘考試題目——聚類_第3頁(yè)
數(shù)據(jù)挖掘考試題目——聚類_第4頁(yè)
免費(fèi)預(yù)覽已結(jié)束,剩余1頁(yè)可下載查看

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、.數(shù)據(jù)挖掘考試題目聚類一 、填空題1、密度的基于中心的方法使得我們可以將點(diǎn)分類為:_、_ 、_。2、DBSCAN算法在最壞的情況下,時(shí)間復(fù)雜度是_、空間復(fù)雜度是_。3、DBSCAN算法的優(yōu)點(diǎn)是_、_。4、DBSCAN算法的缺點(diǎn)是處理_、_的數(shù)據(jù)效果不好。5、DBSCAN算法的參數(shù)有:_、_。6、簇的有效性的非監(jiān)督度量常??梢苑譃閮深悾篲、_,它常采用的指標(biāo)為_(kāi)。7、簇的有效性的監(jiān)督度量通常稱為_(kāi),它度量簇標(biāo)號(hào)與外部提供的標(biāo)號(hào)的匹配程度主要借助_。8、在相似度矩陣評(píng)價(jià)的聚類中,如果有明顯分離的簇,則相似度矩陣應(yīng)當(dāng)粗略地是_。9、DBSCAN算法的參數(shù)確定的基本方法是觀察_的特性。10、不引用附加

2、的信息,評(píng)估聚類分析結(jié)果對(duì)數(shù)據(jù)擬合情況屬于_技術(shù)。答案:1、 核心點(diǎn) 邊界點(diǎn) 噪聲點(diǎn)2、 O(n2) O(n)3、 耐噪聲 能夠處理任意大小和形狀的簇4、 高維數(shù)據(jù) 變密度的5、 EPS MinPts6、 簇的凝聚性 簇的分離性 均方差(SSE)7、 外部指標(biāo) 監(jiān)督指標(biāo)的熵8、 塊對(duì)角的9、 點(diǎn)到它的第K個(gè)最近鄰的距離(K-距離)10、非監(jiān)督二、選擇題1、DBSCAN算法的過(guò)程是(B)。 刪除噪聲點(diǎn)。 每組連通的核心點(diǎn)形成一個(gè)簇。 將所有點(diǎn)標(biāo)記為核心點(diǎn)、邊界點(diǎn)和噪聲點(diǎn)。 將每個(gè)邊界點(diǎn)指派到一個(gè)與之關(guān)聯(lián)的核心點(diǎn)的簇中。 為距離在Eps之內(nèi)的所有核心點(diǎn)之間賦予一條邊。A:B:C:D:2、如果有m個(gè)

3、點(diǎn),DBSCAN在最壞的情況下的時(shí)間復(fù)雜度度為(C)。A O(m) B O(mlogm) C O(m2) D O(logm)3、在基本DBSCAN的參數(shù)選擇方法中,點(diǎn)到它的K個(gè)最近鄰的距離中的K選作為哪一個(gè)參數(shù)(B)。A Eps B MinPts C 質(zhì)心 D 邊界4、當(dāng)采用K-距離的方法選擇DBSCAN的Eps和MinPts參數(shù)時(shí),如果設(shè)置的K的值太大,則小簇(尺寸小于K的簇)可能會(huì)被標(biāo)記為(A)。A 噪聲 B 核心簇 C 邊界簇 D以上都不對(duì)5、如果處理以下形狀的數(shù)據(jù)時(shí),適宜采用DBSCAN的是(B)A 球形 B SS形 C 橢球形 D 方形6、DBSCAN之所以難以有效處理高維數(shù)據(jù),其主

4、要原因是(D)A 數(shù)據(jù)的形狀太復(fù)雜 B 簇的大小未知 C 噪聲點(diǎn)過(guò)多 D 開(kāi)銷過(guò)大7、簇評(píng)估能夠做到(D)確定數(shù)據(jù)集的聚類趨勢(shì)。確定正確的簇個(gè)數(shù)。比較兩個(gè)簇集,確定那個(gè)更好。不引用附加信息,評(píng)估聚類分析結(jié)果對(duì)數(shù)據(jù)擬合情況A B C D8、如果不考慮外部信息,聚類結(jié)構(gòu)的有良性度量應(yīng)當(dāng)采用(A)。A 均方差 B 方差 C 中位數(shù) D 均值9、比較不同的聚類或簇時(shí),通常采用相對(duì)的簇評(píng)估度量,相對(duì)的簇評(píng)估以()來(lái)評(píng)價(jià)不同的聚類或簇。A SSE或熵 B 簇的大小 C 簇的形狀 D 簇的密度10、對(duì)于DBSCAN,參數(shù)Eps固定,當(dāng)MinPts取值較大時(shí),會(huì)導(dǎo)致(B)A 能很好的區(qū)分各類簇B 只有高密度的

5、點(diǎn)的聚集區(qū)劃為簇,其余劃為噪聲C 低密度的點(diǎn)的聚集區(qū)劃為簇,其余的劃為噪聲D 無(wú)影響三、判斷題1、DBSCAN的參數(shù)Eps固定時(shí),MinPts的值越大越好。(錯(cuò))2、DBSCAN會(huì)把所有點(diǎn)劃分到各自的簇中。(錯(cuò))3、在所有核心點(diǎn)的Eps半徑鄰域內(nèi)的點(diǎn)數(shù)都不少于MinPts閾值。(對(duì))4、SSE在無(wú)監(jiān)督的簇評(píng)估中能起到很好的作用。(對(duì))5、在通過(guò)相似度矩陣評(píng)估簇時(shí),如果相似度矩陣是塊對(duì)角的,說(shuō)明具有明顯分離的簇(對(duì))。6、DBSCAN能夠很好的區(qū)分原始數(shù)據(jù)的形狀,但受限于用戶指定的參數(shù)。(對(duì))7、判斷簇的個(gè)數(shù)不屬于簇評(píng)估。(錯(cuò))8、在做聚類時(shí),DBSCAN會(huì)刪掉它認(rèn)為是噪聲點(diǎn)的數(shù)據(jù)點(diǎn)。(對(duì))9、

6、DBSCAN的空間復(fù)雜度始終都是O(m)。(對(duì))10、K均值可以發(fā)現(xiàn)不是明顯分離的簇,即便簇有重疊也可以發(fā)現(xiàn),但是DBSCAN會(huì)合并有重疊的簇。(對(duì))四、簡(jiǎn)答題1、描述DBSCAN的算法過(guò)程。將所有點(diǎn)標(biāo)記為核心點(diǎn)、邊界點(diǎn)和噪聲點(diǎn)。刪除噪聲點(diǎn)。為距離在Eps之內(nèi)的所有核心點(diǎn)之間賦予一條邊。每組連通的核心點(diǎn)形成一個(gè)簇。將每個(gè)邊界點(diǎn)指派到一個(gè)與之關(guān)聯(lián)的核心點(diǎn)的簇中。2、簡(jiǎn)答DBSCAN的優(yōu)點(diǎn)與不足。答,優(yōu)點(diǎn):DBSCAN是相對(duì)抗噪聲的,并且能夠處理任意形狀和大小的簇,缺點(diǎn):當(dāng)簇的密度變化過(guò)大時(shí),DBSCAN就很難敏感的發(fā)現(xiàn)數(shù)據(jù)集中的簇。同時(shí), DBSCAN在處理高維數(shù)據(jù)時(shí),會(huì)有很大的開(kāi)銷。3、簡(jiǎn)述DBSCAN算法的核心思想。DBSCAN算法的核心思想是一個(gè)簇中除了邊界點(diǎn),每個(gè)點(diǎn)在給定的半徑Eps內(nèi)必須包含不少于PinPts個(gè)數(shù)據(jù)點(diǎn),這樣的點(diǎn)稱為核心點(diǎn)。4、確定DBSCAN參數(shù)的基本的方法是什么。答:觀察點(diǎn)到它的K個(gè)最近鄰的距離的特性。對(duì)于某個(gè)K,計(jì)算所有點(diǎn)的K距離,以遞增的次序排序,繪制排序后的值。在圖中找到曲線拐點(diǎn),拐點(diǎn)處的函數(shù)值為Eps半徑,K的值為Minpt

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論