數(shù)據(jù)挖掘考試題_第1頁(yè)
數(shù)據(jù)挖掘考試題_第2頁(yè)
數(shù)據(jù)挖掘考試題_第3頁(yè)
數(shù)據(jù)挖掘考試題_第4頁(yè)
數(shù)據(jù)挖掘考試題_第5頁(yè)
已閱讀5頁(yè),還剩3頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)挖掘考試題一 選擇題1 O當(dāng)不知道數(shù)據(jù)所帶標(biāo)簽時(shí),可以使用哪種技術(shù)促使帶同類標(biāo)簽得數(shù)據(jù)與帶其她標(biāo)簽得數(shù)據(jù)相分離?( )A.分類B、聚類C.關(guān)聯(lián)分析D。主成分分析2. ( )將兩個(gè)簇得鄰近度定義為不同簇得所有點(diǎn)對(duì)鄰近度得平均值,它就是一種凝聚層次聚類技術(shù)。D.Wa r d方法A。MIN(單鏈)B。MAX(全鏈)C、組平均3、數(shù)據(jù)挖掘得經(jīng)典案例“啤酒與尿布試驗(yàn)”最主要就是應(yīng)用了( )數(shù)據(jù)挖掘方法、A 分類B 預(yù)測(cè)C 關(guān)聯(lián)規(guī)則分析D 聚類4。關(guān)于K均值與DB S CAN得比較,以下說(shuō)法不正確得就是()A.K均值丟棄被它識(shí)別為噪聲得對(duì)象,而DBS C A N 一般聚類所有對(duì)象。B、K均值使用簇得基

2、于原型得概念,DBSC AN使用基于密度得概念。Co K均值很難處理非球形得簇與不同大小得簇,DBSCAN可以處理不同大小與不同形狀得簇D.K均值可以發(fā)現(xiàn)不就是明顯分離得簇,即便簇有重疊也可以發(fā)現(xiàn),但就是DBSCAN會(huì)合并有重疊得簇5、下列關(guān)于Ward's Method說(shuō)法錯(cuò)誤得就是:()A、對(duì)噪聲點(diǎn)與離群點(diǎn)敏感度比較小B 、擅長(zhǎng)處理球狀得簇Co對(duì)于Ward方法,兩個(gè)簇得鄰近度定義為兩個(gè)簇合并時(shí)導(dǎo)致得平方誤差Do當(dāng)兩個(gè)點(diǎn)之間得鄰近度取它們之間距離得平方時(shí),Wa r d方法與組平均非常相似6.下列關(guān)于層次聚類存在得問(wèn)題說(shuō)法正確得就是:()A. 具有全局優(yōu)化目標(biāo)函數(shù)B.Grou pA ve

3、rage擅長(zhǎng)處理球狀得簇C.可以處理不同大小簇得能力D.Ma x對(duì)噪聲點(diǎn)與離群點(diǎn)很敏感7。下列關(guān)于凝聚層次聚類得說(shuō)法中,說(shuō)法錯(cuò)誤得事:()Ao 一旦兩個(gè)簇合并,該操作就不能撤銷B 、算法得終止條件就是僅剩下一個(gè)簇C.空間復(fù)雜度為Do具有全局優(yōu)化目標(biāo)函數(shù)8。規(guī)則牛奶,尿布 一 啤酒得支持度與置信度分別為:()TID項(xiàng)集1面包,牛奶2回包,尿布,啤酒,雞蛋3牛奶尿布,啤酒,可樂(lè)4回包,牛奶,尿布,啤酒5回包,牛奶,尿布,可樂(lè)A。0。4,0.4 B。0.6 7,0、6 7 C。0。4,0、67 D、0。6 7,0、49、下列()就是屬于分裂層次聚類得方法。A.Min?名.Max? C、Group A

4、ver age ?D、MST10。對(duì)下圖數(shù)據(jù)進(jìn)行凝聚聚類操作,簇間相似度使用MA X計(jì)算,第二步就是哪兩個(gè)簇合11I2I3I4I51.000,900.100 650200.901,000700,600,500.10070too0.400.300.650.600.401.000.800.200.500,300,801.00并:()11I2I3I4I5A、在 3與l,2 合并 B、3與4,5合并 C . 2,3與4, 5 合并D、2,3與 4 ,5形成簇與3合并二.填空題:1 .屬性包括得四種類型:、。2 . 就是兩個(gè)簇得鄰近度定義為不同簇得所有點(diǎn)對(duì)鄰近度得平均值、3、基本凝聚層次聚類算法空間復(fù)雜

5、度 ,時(shí)間復(fù)雜度,如果某個(gè)簇到其她所 有簇得距離存放在一個(gè)有序表或堆中,層次聚類所需要得時(shí)間復(fù)雜度將為 。4、 . 聚類中,定義簇間得相似度得方法有(寫出四個(gè)):、。5、 層次聚類技術(shù)就是第二類重要得聚類方法、兩種層次聚類得基本方 法:、6、 組平均就是一種界于 與 之間得折中方法。7、 相似度矩陣可以用相識(shí)度表布還可以用 表不。8 .全鏈在處理大小不同得簇時(shí) ,可能使 破裂,并且偏好 。9 。 單鏈技術(shù)擅長(zhǎng)于處理 ,但對(duì) 與 很敏感。10 、聚類分析可以瞧做就是一種 得分類、(有監(jiān)督、無(wú)監(jiān)督)三、判斷題1 .從點(diǎn)作為個(gè)體簇開始,每一步合并兩個(gè)最接近得簇,這就是一種分裂得層次聚類方法。()2

6、.數(shù)據(jù)挖掘得目標(biāo)不在于數(shù)據(jù)采集策略,而在于對(duì)已經(jīng)存在得數(shù)據(jù)進(jìn)行模式得發(fā)掘。()3 .在聚類分析當(dāng)中,簇內(nèi)得相似性越大,簇間得差別越大,聚類得效果就越差、()4 .當(dāng)兩個(gè)點(diǎn)之間得鄰近度取它們之間距離得平方時(shí),Ward方法與組平均非常相似。()5 . DBSCAN就是相對(duì)抗噪聲得,并且能夠處理任意形狀與大小得簇。()6 .屬性得性質(zhì)不必與用來(lái)度量她得值得性質(zhì)相同。()7 .全鏈對(duì)噪聲點(diǎn)與離群點(diǎn)很敏感。()8 .對(duì)于非對(duì)稱得屬性,只有非零值才就是重要得、()9 . K均值可以很好得處理不同密度得數(shù)據(jù)、()10 .單鏈技術(shù)擅長(zhǎng)處理橢圓形狀得簇。()四。綜合題1 .何為層次聚類?它用哪兩種圖表示?2 。

7、 兩種層次聚類得基本方法??jī)煞N方法得定義?3 .分別寫出Min、Max與組平均得優(yōu)缺點(diǎn)?4 .寫出基本凝聚層次聚類得算法 ?5 .由下圖已給出得距離矩陣,將Max用于6個(gè)點(diǎn)樣本數(shù)據(jù)集,畫出層次聚類得樹狀 圖?P1P2P3P4P5P6P10。000、2 40、2 20.3 70、3 40.23P20。2 40。000。1 40.200。130。25P30、2 20、140。000、1 50。2 80.1 1P40.370、200.150.0 00.290、22P50 .340、1 30.280、2 90。0 00。39P60。2 30。250、110、2 20、3 90、00考試題+答案一、選擇

8、題1 、當(dāng)不知道數(shù)據(jù)所帶標(biāo)簽時(shí), 可以使用哪種技術(shù)促使帶同類標(biāo)簽得數(shù)據(jù)與帶其她標(biāo)簽得數(shù)據(jù)相分離?(B)Ao分類B.聚類 C、關(guān)聯(lián)分析D.主成分分析2。( C )將兩個(gè)簇得鄰近度定義為不同簇得所有點(diǎn)對(duì)鄰近度得平均值,它就是一種凝聚層次聚類技術(shù)。A、MIN(單鏈)B.MAX(全鏈)C.組平均D。Ward方法3、數(shù)據(jù)挖掘得經(jīng)典案例“啤酒與尿布試驗(yàn)”最主要就是應(yīng)用了 (C)數(shù)據(jù)挖掘方法。A 分類B預(yù)測(cè)C關(guān)聯(lián)規(guī)則分析D聚類4 .關(guān)于K均值與DBSC A N得比較,以下說(shuō)法不正確得就是 (A)A.K均值丟棄被它識(shí)別為噪聲得對(duì)象,而D BS C AN 一般聚類所有對(duì)象。B 、 K 均值使用簇得基于原型得概念

9、,DBSCAN 使用基于密度得概念。C、K均值很難處理非球形得簇與不同大小得簇,DB S CAN可以處理不同大小與不同形狀得簇D、K均值可以發(fā)現(xiàn)不就是明顯分離得簇,即便簇有重疊也可以發(fā)現(xiàn),但就是DBSCAN會(huì)合并有重疊得簇5、下列關(guān)于 Ward's Method說(shuō)法錯(cuò)誤得就是:(C)A、對(duì)噪聲點(diǎn)與離群點(diǎn)敏感度比較小B、擅長(zhǎng)處理球狀得簇Co對(duì)于W ard方法,兩個(gè)簇得鄰近度定義為兩個(gè)簇合并時(shí)導(dǎo)致得平方誤差D。當(dāng)兩個(gè)點(diǎn)之間得鄰近度取它們之間距離得平方時(shí),Ward方法與組平均非常相似7 .下列關(guān)于層次聚類存在得問(wèn)題說(shuō)法正確得就是:(B)A 具有全局優(yōu)化目標(biāo)函數(shù)8 .G r oup Avera

10、ge擅長(zhǎng)處理球狀得簇Co可以處理不同大小簇得能力Do Max對(duì)噪聲點(diǎn)與離群點(diǎn)很敏感7。下列關(guān)于凝聚層次聚類得說(shuō)法中,說(shuō)法錯(cuò)誤得事:(D)A、一旦兩個(gè)簇合并,該操作就不能撤銷B、算法得終止條件就是僅剩下一個(gè)簇C、空間復(fù)雜度為D.具有全局優(yōu)化目標(biāo)函數(shù)8、規(guī)則牛奶,尿布一 啤酒得支持度與置信度分別為:(C)T ID項(xiàng)集1面包,牛奶2面包尿布,啤酒雞蛋3t牛奶,尿布,啤酒,可樂(lè)j4回包,牛奶,尿布,啤酒5回包,牛奶,尿布,可樂(lè)Ao 0。4,0、4Bo 0.67,0。67 C、0、4,0。6 7D。0。6 7 ,0.49 .下列(D)就是屬于分裂層次聚類得方法。A。Mi n ? B。Ma x ? Co

11、Gro u p Average?D。 M ST11I2I3I4I51000,900,100.650.200,901,000.700.600.500,100,701.000.400.300.650.600.401000.800200.500.300.801.0010 .對(duì)下圖數(shù)據(jù)進(jìn)行凝聚聚類操作,簇間相似度使用MAX計(jì)算,第二步就是哪兩個(gè)簇合并:(B)11I2I3I4I5A、在3與 1 ,2合并 B.3與4,5合并 C。 2,3與 4 ,5合并D、2, 3 與 4,5形成簇與 3 合并填空題:1。屬性包括得四種類型:標(biāo)粗、序數(shù)、區(qū)間、比率。2。組業(yè)L就是兩個(gè)簇得鄰近度定義為不同簇得所有點(diǎn)對(duì)鄰近度

12、得平均值。3 .基本凝聚層次聚類算法空間復(fù)雜度,時(shí)間復(fù)雜度,如果某個(gè)簇到其她所有簇得距離存放在 一個(gè)有序表或堆中,層次聚類所需要得時(shí)間復(fù)雜度將為。4。聚類中,定義簇間得相似度得方法有 (寫出四個(gè)):MIN(單鏈)、MAX(全鏈)、組平均、Ward 方法。5 。層次聚類技術(shù)就是第二類重要得聚類方法。兩種層次聚類得基本方法:凝聚層次聚類、分裂層次聚類、6 .組平均就是一種界于 單鏈 與全鏈 之間得折中方法。7 、 相似度矩陣可以用相識(shí)度表示還可以用 距離表示。8 .全鏈在處理大小不同得簇時(shí) ,可能使大得簇破裂,并且偏好 球眩。9 、單鏈技術(shù)擅長(zhǎng)于處理非橢圓形大得簇,但對(duì)噪聲點(diǎn) 與離群點(diǎn) 很敏感。1

13、 0。 聚類分析可以瞧做就是一種 無(wú)監(jiān)督得分類。(有監(jiān)督、無(wú)監(jiān)督)三。判斷題:1、 從點(diǎn)作為個(gè)體簇開始,每一步合并兩個(gè)最接近得簇,這就是一種分裂得層次聚類方法、(沖2、 數(shù)據(jù)挖掘得目標(biāo)不在于數(shù)據(jù)采集策略,而在于對(duì)已經(jīng)存在得數(shù)據(jù)進(jìn)行模式得發(fā)掘。(J3。在聚類分析當(dāng)中,簇內(nèi)得相似性越大,簇間得差別越大,聚類得效果就越差、(X )4。當(dāng)兩個(gè)點(diǎn)之間得鄰近度取它們之間距離得平方時(shí),Wa r d方法與組平均非常相似、(J5。 DBSCAN就是相對(duì)抗噪聲得,并且能夠處理任意形狀與大小得簇。(才6、屬性得性質(zhì)不必與用來(lái)度量她得值得性質(zhì)相同。(,)7、全鏈對(duì)噪聲點(diǎn)與離群點(diǎn)很敏感、(X )8。對(duì)于非對(duì)稱得屬性,只

14、有非零值才就是重要得、(,)9、 K均值可以很好得處理不同密度得數(shù)據(jù)。(X)10、單鏈技術(shù)擅長(zhǎng)處理橢圓形狀得簇。(X )四.綜合題1、 何為層次聚類?它用哪兩種圖表示?層次聚類為嵌套簇得聚集,組成一棵層次數(shù)、兩種主要圖得表示:樹狀圖與嵌套簇圖。2、 兩種層次聚類得基本方法 ??jī)煞N方法得定義?凝聚層次聚類與分裂層次聚類凝聚得:從點(diǎn)作為個(gè)體簇開始,每一步合并兩個(gè)最接近得簇。分裂得:從包含所有點(diǎn)得某個(gè)簇開始,每一步分裂一個(gè)簇,直到僅剩下單點(diǎn)簇、3、 分別寫出Min、Max與組平均得優(yōu)缺點(diǎn) ?7E義方式優(yōu)點(diǎn)缺點(diǎn)M i n能處理非橢圓形狀對(duì)噪聲與離群點(diǎn)很敏感Max對(duì)噪聲點(diǎn)與離群點(diǎn)敏感度較小1 .當(dāng)處理簇

15、大小/、同時(shí),較大得簇容易破裂2 .偏好處理球狀得簇組平均對(duì)噪聲點(diǎn)與離群點(diǎn)敏感度較小偏好處理球狀得簇4。寫出基本凝聚層次聚類得算法算法步驟:(1)計(jì)算鄰近度矩陣(2)Repeat(3) 合并最鄰近得兩個(gè)簇(4) 更新鄰近度矩陣,以反映新得簇與原來(lái)得簇之間得鄰近度(5)Unt i l僅剩下一個(gè)簇5。由下圖已給出得距離矩陣,將Max用于6個(gè)點(diǎn)樣本數(shù)據(jù)集,畫出層次聚類得樹 狀圖?P 1P2P3P4P5P6P10。000、240.220.370、340.2 3P20.240.000.140.200 o 130。 25P30O 2 20。140o 000. 1 50o 280o 11P40O 370O

16、2 00、1 50、0 00、290、2 2P50、340、130.280O 290、000、3 9P60O 230、250. 1 10O 220o 390 .0 0C0 1 :0節(jié)g斗0 I0.150 1 ons -這就是告訴您得計(jì)算過(guò)程,現(xiàn)在不要寫了、P3與P6最近所以36結(jié)合,P2與P5較近,所以25結(jié)合,現(xiàn)在就是3, 6 、2, 5 、 1與4,Dist(3,6 , 4 ) = max(dist(3, 4),dist (6,4 )= m a x(0、15,0.22 )=0、22Dist(3, 6 , 2,5 ) = max(dis t (3 ,2),dist( 6 ,2),dist(3,5),di s t( 6 , 5 )= max(0.14,0。2 5,0。28,0、39)=0、39Dist( 3,6 ,1尸max (d ist(3,1),dist(6, 1 )=max(0、2 2,0、23)= 0、23所以3,6與4結(jié)合?,F(xiàn)在還剩3,6,4、 2 ,5與1D 1 st( 3 ,6,4 , 2 ,5 )=max( d i st(3,2),dist 3,5 , d is t (6,2),d i st (6,

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論