




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
《海量數(shù)據(jù)挖掘技術(shù)及工程實(shí)踐》試題
一、單選題(共80題)
1)(D)的目的縮小數(shù)據(jù)的取值范圍,使其更適合于數(shù)據(jù)挖掘算
法的需要,并且能夠得到
和原始數(shù)據(jù)相同的分析結(jié)果。
A.數(shù)據(jù)清洗B.數(shù)據(jù)集成C.數(shù)據(jù)變換D.數(shù)據(jù)歸約
2)某超市研究銷售紀(jì)錄數(shù)據(jù)后發(fā)現(xiàn),買啤酒的人很大概率也會(huì)
購(gòu)買尿布,這種屬于數(shù)據(jù)挖
掘的哪類問題?(A)
A.關(guān)聯(lián)規(guī)則發(fā)現(xiàn)B.聚類
C.分類D.自然語(yǔ)言處理
3)以下兩種描述分別對(duì)應(yīng)哪兩種對(duì)分類算法的評(píng)價(jià)標(biāo)準(zhǔn)?(A)
(a)警察抓小偷,描述警察抓的人中有多少個(gè)是小偷的標(biāo)準(zhǔn)。(b)
描述有多少比例的小偷給警察抓了的標(biāo)準(zhǔn)。A.Precision,RecallB.
Recall,PrecisionA.Precision,ROCD.Recall,ROC
4)將原始數(shù)據(jù)進(jìn)行集成、變換、維度規(guī)約、數(shù)值規(guī)約是在以下
哪個(gè)步驟的任務(wù)?(C)
A.頻繁模式挖掘B.分類和預(yù)測(cè)C.數(shù)據(jù)預(yù)處理D.數(shù)據(jù)流挖
掘
5)當(dāng)不知道數(shù)據(jù)所帶標(biāo)簽時(shí),可以使用哪種技術(shù)促使帶同類標(biāo)
簽的數(shù)據(jù)與帶其他標(biāo)簽的數(shù)
據(jù)相分離?(B)
A.分類B.聚類C.關(guān)聯(lián)分析D.隱馬爾可夫鏈
6)建立一個(gè)模型,通過這個(gè)模型根據(jù)已知的變量值來(lái)預(yù)測(cè)其他
某個(gè)變量值屬于數(shù)據(jù)挖掘的
哪一類任務(wù)?(C)
A.根據(jù)內(nèi)容檢索B.建模描述C.預(yù)測(cè)建模D.尋找模式和規(guī)
則7)下面哪種不屬于數(shù)據(jù)預(yù)處理的方法?(D)
A.變量代換B.離散化
C.聚集D.估計(jì)遺漏值
8)假設(shè)12個(gè)銷售價(jià)格記錄組已經(jīng)排序如下:5,10,11,13,15,
35,50,55,72,92,204,
215使用如下每種方法將它們劃分成四個(gè)箱。等頻(等深)劃分
時(shí),15在第幾個(gè)箱子內(nèi)?(B)
A.第一個(gè)B.第二個(gè)C.第三個(gè)D.第四個(gè)9)下面哪個(gè)不屬于數(shù)
據(jù)的屬性類型:(D)
A.標(biāo)稱B.序數(shù)C.區(qū)間D.相異10)只有非零值才重要的二元
屬性被稱作:(C)
A.計(jì)數(shù)屬性B.離散屬性C.非對(duì)稱的二元屬性D.對(duì)稱屬性
11)以下哪種方法不屬于特征選擇的標(biāo)準(zhǔn)方法:⑴)
A.嵌入B.過濾C.包裝D.抽樣
12)下面不屬于創(chuàng)建新屬性的相關(guān)方法的是:(B)
A.特征提取B.特征修改C.映射數(shù)據(jù)到新的空間D.特征構(gòu)造
13)下面哪個(gè)屬于映射數(shù)據(jù)到新的空間的方法?(A)
A.傅立葉變換3.特征加權(quán)C.漸進(jìn)抽樣D.維歸約
14)假設(shè)屬性income的最大最小值分別是12000元和98000元。
利用最大最小規(guī)范化的方
法將屬性的值映射到0至1的范圍內(nèi)。對(duì)屬性income的73600
元將被轉(zhuǎn)化為:(D)A.0.821B.1.224C.1.458D.0.716
15)一所大學(xué)內(nèi)的各年紀(jì)人數(shù)分別為:一年級(jí)200人,二年級(jí)160
人,三年級(jí)130人,四年
級(jí)H0人。則年級(jí)屬性的眾數(shù)是:(A)A.一年級(jí)B.二年級(jí)C.
三年級(jí)D.四年級(jí)
16)下列哪個(gè)不是專門用于可視化時(shí)間空間數(shù)據(jù)的技術(shù):(B)
A.等高線圖B.餅圖C.曲面圖D.矢量場(chǎng)圖
17)在抽樣方法中,當(dāng)合適的樣本容量很難確定時(shí)?,可以使用的
抽樣方法是:(D)
A.有放回的簡(jiǎn)單隨機(jī)抽樣B.無(wú)放回的簡(jiǎn)單隨機(jī)抽樣C.分層抽
樣D漸進(jìn)抽樣
18)數(shù)據(jù)倉(cāng)庫(kù)是隨著時(shí)間變化的,下面的描述不正確的是(C)
A.數(shù)據(jù)倉(cāng)庫(kù)隨時(shí)間的變化不斷增加新的數(shù)據(jù)內(nèi)容B.捕捉到的新
數(shù)據(jù)會(huì)覆蓋原來(lái)的快照
C.數(shù)據(jù)倉(cāng)庫(kù)隨事件變化不斷刪去舊的數(shù)據(jù)內(nèi)容
D.數(shù)據(jù)倉(cāng)庫(kù)中包含大量的綜合數(shù)據(jù),這些綜合數(shù)據(jù)會(huì)隨著時(shí)間的
變化不斷地進(jìn)行重新綜合
19)下面關(guān)于數(shù)據(jù)粒度的描述不正確的是:(C)
A.粒度是指數(shù)據(jù)倉(cāng)庫(kù)小數(shù)據(jù)單元的詳細(xì)程度和級(jí)別B.數(shù)據(jù)越詳
細(xì),粒度就越小,級(jí)別也就越高C.數(shù)據(jù)綜合度越高,粒度也就越大,級(jí)
別也就越高
D.粒度的具體劃分將直接影響數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)量以及查詢質(zhì)
量20)有關(guān)數(shù)據(jù)倉(cāng)庫(kù)的開發(fā)特點(diǎn),不止確的描述是:(A)
A.數(shù)據(jù)倉(cāng)庫(kù)開發(fā)要從數(shù)據(jù)出發(fā)
B.數(shù)據(jù)倉(cāng)庫(kù)使用的需求在開發(fā)出去就要明確
C.數(shù)據(jù)倉(cāng)庫(kù)的開發(fā)是一個(gè)不斷循環(huán)的過程,是啟發(fā)式的開發(fā)
D.在數(shù)據(jù)倉(cāng)庫(kù)環(huán)境中,并不存在操作型環(huán)境中所固定的和較確切
的處理流,數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)分析和處理更靈活,且沒有固定的模式21)
關(guān)于0LAP的特性,下面正確的是:(D)
(1)快速性(2)可分析性(3)多維性(4)信息性(5)共享性
A.(1)(2)(3)B.(2)(3)(4)
C.(1)(2)(3)(4)D.(1)(2)(3)(4)(5)
22)關(guān)于OLAP和OLTP的區(qū)別描述,不正確的是:(C)
A.OLAP主要是關(guān)于如何理解聚集的大量不同的數(shù)據(jù).它與0TAp應(yīng)
用程序不同B.與OLAP應(yīng)用程序不同,OLTP應(yīng)用程序包含大量相對(duì)簡(jiǎn)
單的事務(wù)C.OLAP的特點(diǎn)在于事務(wù)量大,但事務(wù)內(nèi)容比較簡(jiǎn)單且重復(fù)
率高
D.OLAP是以數(shù)據(jù)倉(cāng)庫(kù)為基礎(chǔ)的,但其最終數(shù)據(jù)來(lái)源與OLTP一樣均
來(lái)自底層的數(shù)據(jù)庫(kù)系統(tǒng),兩者面對(duì)的用戶是相同的
23)關(guān)于OLAP和OLTP的說(shuō)法,下列不正確的是:(A)
A.OLAP事務(wù)量大,但事務(wù)內(nèi)容比較簡(jiǎn)單且重復(fù)率高B.OLAP的最
終數(shù)據(jù)來(lái)源與OLTP不一樣C.OLTP面對(duì)的是決策人員和高層管理人
員D.OLTP以應(yīng)用為核心,是應(yīng)用驅(qū)動(dòng)的
24)設(shè)X={1,2,3}是頻繁項(xiàng)集,則可由X產(chǎn)生(C)個(gè)關(guān)聯(lián)規(guī)則。
A.4B.5C.6D.7
25)考慮下面的頻繁3-項(xiàng)集的集合:
{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5)
,{3,4,5}假定數(shù)據(jù)集中只有5個(gè)項(xiàng),采用合并策略,由候選產(chǎn)生過程
得到4-項(xiàng)集不包含(C)A.1,2,3,4B.1,2,3,5C.1,2,4,5
D.1,3,4,5
26)下面選項(xiàng)中t不是s的子序列的是(C)
A.s=<{2,4},{3}5,6},{8}>t=<⑵,{3,6},{8}>
B.s=<{2,4},{3,5,6},{8}>t=<{2},{8}>C.S=<{1,2},{3,4}>
t=<{1},{2}>D.s=<{2,4},{2,4}>t=<⑵,{4}>
27)在圖集合中發(fā)現(xiàn)一組公共子結(jié)構(gòu),這樣的任務(wù)稱為(B)
A.頻繁子集挖掘B.頻繁子圖挖掘C.頻繁數(shù)據(jù)項(xiàng)挖掘D.頻繁模
式挖掘
28)下列度量不具有反演性的是(D)
A.系數(shù)B.幾率C.Cohen度量D.興趣因子
29)下列(A)不是將主觀信息加入到模式發(fā)現(xiàn)任務(wù)中的方法。
A.與同一時(shí)期其他數(shù)據(jù)對(duì)比B.可視化C.基于模板的方法D.主
觀興趣度量
30)下面購(gòu)物藍(lán)能夠提取的3-項(xiàng)集的最大數(shù)量是多少(C)
TID12345678910
A.1B.2C.3D.431)以下哪些算法是分類算法(B)
A.DBSCANB.C4.5C.K-MeanD.EM
32)以下哪些分類方法可以較好地避免樣本的不平衡問題(A)
A.KNNB.SVMC.BayesD.神經(jīng)網(wǎng)絡(luò)33)決策樹中不包含一下哪
種結(jié)點(diǎn)(C)
A.根結(jié)點(diǎn)(rootnode)B.內(nèi)部結(jié)點(diǎn)(internalnode)
項(xiàng)集牛奶,啤酒,尿布面包,黃油,牛奶牛奶,尿布,餅干面包,
黃油,餅干啤酒,餅干,尿布牛奶,尿布,面包,黃油面包,黃油,尿布
啤酒,尿布牛奶,尿布,面包,黃油啤酒,餅干C.外部結(jié)點(diǎn)
(externalnode)D.葉結(jié)點(diǎn)(leafnode)
34)以下哪項(xiàng)關(guān)于決策樹的說(shuō)法是錯(cuò)誤的(C)
A.冗余屬性不會(huì)對(duì)決策樹的準(zhǔn)確率造成不利的影響B(tài).子樹可
能在決策樹中重復(fù)多次C.決策樹算法對(duì)于噪聲的干擾非常敏感D.
尋找最佳決策樹是NP完全問題
35)在基于規(guī)則分類器的中,依據(jù)規(guī)則質(zhì)量的某種度量對(duì)規(guī)則排
序,保證每一個(gè)測(cè)試記錄都
是由覆蓋它的“最好的”規(guī)格來(lái)分類,這種方案稱為(B)A.基
于類的排序方案B.基于規(guī)則的排序方案C.基于度量的排序方案
D.基于規(guī)格的排序方案。
36)以下哪些算法是基于規(guī)則的分類器(A)
A.C4.5B.KNNC.NaiveBayesD.ANN
37)可用作數(shù)據(jù)挖掘分析中的關(guān)聯(lián)規(guī)則算法有(C)。
A.決策樹、對(duì)數(shù)回歸、關(guān)聯(lián)模式B.K均值法、SOM神經(jīng)網(wǎng)絡(luò)C.
Apriori算法、FP-Tree算法D.RBF神經(jīng)網(wǎng)絡(luò)、K均值法、決策樹
38)如果對(duì)屬性值的任一組合,R中都存在一條規(guī)則加以覆蓋,則
稱規(guī)則集R中的規(guī)則為(B)
A.無(wú)序規(guī)則B.窮舉規(guī)則C.互斥規(guī)則D.有序規(guī)則39)用于分
類與回歸應(yīng)用的主要算法有:(D)
A.Apriori算法、HotSpot算法B.RBF神經(jīng)網(wǎng)絡(luò)、K均值法、決
策樹C.K均值法、SOM神經(jīng)網(wǎng)絡(luò)D.決策樹、BP神經(jīng)網(wǎng)絡(luò)、貝葉斯
40)如果允許一條記錄觸發(fā)多條分類規(guī)則,把每條被觸發(fā)規(guī)則的
后件看作是對(duì)相應(yīng)類的一次
投票,然后計(jì)票確定測(cè)試記錄的類標(biāo)號(hào),稱為(A)A.無(wú)序規(guī)則B.
窮舉規(guī)則C.互斥規(guī)則D.有序規(guī)則
41)考慮兩隊(duì)之間的足球比賽:隊(duì)0和隊(duì)1。假設(shè)65%的比賽隊(duì)0
勝出,剩余的比賽隊(duì)1獲勝。隊(duì)0獲勝的比賽中只有30%是在隊(duì)1的
主場(chǎng),而隊(duì)1取勝的比賽中75%是主場(chǎng)獲勝。如果下一場(chǎng)比賽在隊(duì)1
的主場(chǎng)進(jìn)行隊(duì)1獲勝的概率為(C)A.0.75B.0.35C.0.4678
D.0.573842)以下關(guān)于人工神經(jīng)網(wǎng)絡(luò)(ANN)的描述錯(cuò)誤的有(A)
A.神經(jīng)網(wǎng)絡(luò)對(duì)訓(xùn)練數(shù)據(jù)中的噪聲非常魯棒B.可以處理冗余特征
C.訓(xùn)練ANN是一個(gè)很耗時(shí)的過程D.至少含有一個(gè)隱藏層的多層
神經(jīng)網(wǎng)絡(luò)
43)通過聚集多個(gè)分類器的預(yù)測(cè)來(lái)提高分類準(zhǔn)確率的技術(shù)稱為
A.組合(ensemble)B.聚集(aggregate)C.合并(combination)D.
投票(voting)
44)簡(jiǎn)單地將數(shù)據(jù)對(duì)象集劃分成小重疊的子集,使得每個(gè)數(shù)據(jù)對(duì)
象恰在一個(gè)子集中,這種聚類類型稱作(B)
A.層次聚類B.劃分聚類C.非互斥聚類D.模糊聚類
45)在基本K均值算法里,當(dāng)鄰近度函數(shù)采用(A)的時(shí)候,合適
的質(zhì)心是簇中各點(diǎn)的中位數(shù)。A.曼哈頓距離B.平方歐幾里德距離
C.余弦距離D.Bregman散度
46)(C)是一個(gè)觀測(cè)值,它與其他觀測(cè)值的差別如此之大,以至
于懷疑它是由不同的機(jī)制產(chǎn)生的。
A.邊界點(diǎn)B.質(zhì)心
C.離群點(diǎn)D.核心點(diǎn)47)BIRCH是一種(B)。
A.分類器B.聚類算法
C.關(guān)聯(lián)分析算法D.特征選擇算法
48)檢測(cè)一元正態(tài)分布中的離群點(diǎn),屬于異常檢測(cè)中的基于(A)
的離群點(diǎn)檢測(cè)。
A.統(tǒng)計(jì)方法B.鄰近度C.密度D.聚類技術(shù)
49)(C)將兩個(gè)簇的鄰近度定義為不同簇的所有點(diǎn)對(duì)的平均逐
對(duì)鄰近度,它是一種凝聚層次聚類技術(shù)。
A.MIN(單鏈)B.MAX(全鏈)
C.組平均D.Ward方法
50)(D)將兩個(gè)簇的鄰近度定義為兩個(gè)簇合并時(shí)導(dǎo)致的平方誤
差的增量,它是一種凝聚層次聚類技術(shù)。
A.MIN(單鏈)B.MAX(全鏈)
C.組平均D.Ward方法51)下列算法中,不屬于外推法的是
(B)oA.移動(dòng)平均法B.回歸分析法
C.指數(shù)平滑法D.季節(jié)指數(shù)法52)關(guān)聯(lián)規(guī)則的評(píng)價(jià)指標(biāo)是:
(C)oA.均方誤差、均方根誤差
B.Kappa統(tǒng)計(jì)、顯著性檢驗(yàn)C.支持度、置信度D.平均絕對(duì)誤
差、相對(duì)誤差
53)關(guān)于K均值和DBSCAN的比較,以下說(shuō)法不正確的是(A)。
A.K均值丟棄被它識(shí)別為噪聲的對(duì)象,而DBSCAN一般聚類所有對(duì)象。
B.K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念。
C.K均值很難處理非球形的簇和不同大小的簇,DBSCAN可以處理
不同大小和不同形狀的簇。
D.K均值可以發(fā)現(xiàn)不是明顯分離的簇,即便簇有重疊也可以發(fā)現(xiàn),
但是DBSCAN會(huì)合并有重疊的簇。
54)從研究現(xiàn)狀上看,下面不屬于云計(jì)算特點(diǎn)的是(C)
A.超大規(guī)模B.虛擬化C.私有化D.高可靠性
55)考慮這么一種情況:一個(gè)對(duì)象碰巧與另一個(gè)對(duì)象相對(duì)接近,但
屬于不同的類,因?yàn)檫@兩個(gè)對(duì)象一般不會(huì)共享許多近鄰,所以應(yīng)該選
擇(D)的相似度計(jì)算方法。
A.平方歐幾里德距離B.余弦距離
C.直接相似度D.共享最近鄰
56)分析顧客消費(fèi)行業(yè),以便有針對(duì)性的向其推薦感興趣的服務(wù),
屬于(A)問題。
A.關(guān)聯(lián)規(guī)則挖掘B.分類與回歸C.聚類分析D.時(shí)序預(yù)測(cè)
57)以下哪個(gè)聚類算法不是屬于基于原型的聚類(D)。A.模
糊C均值B.EM算法
C.SOMD.CLIQUE
58)關(guān)于混合模型聚類算法的優(yōu)缺點(diǎn),下面說(shuō)法正確的是(B)。
A.當(dāng)簇只包含少量數(shù)據(jù)點(diǎn),或者數(shù)據(jù)點(diǎn)近似協(xié)線性時(shí),混合模型
也能很好地處理。B.混合模型比K均值或模糊c均值更一般,因?yàn)樗?/p>
可以使用各種類型的分布。C.混合模型很難發(fā)現(xiàn)不同大小和橢球形
狀的簇。D.混合模型在有噪聲和離群點(diǎn)時(shí)不會(huì)存在問題。59)以下
哪個(gè)聚類算法不屬于基于網(wǎng)格的聚類算法(D)。A.STING
B.WaveCluster
C.MAFIAD.BIRCH
60)一個(gè)對(duì)象的離群點(diǎn)得分是該對(duì)象周圍密度的逆。這是基于
(C)的離群點(diǎn)定義。A.概率B.鄰近度
C.密度D.聚類
61)輿情研判,信息科學(xué)側(cè)重(C),社會(huì)和管理科學(xué)側(cè)重突發(fā)
群體事件管理中的群體心
理行為及輿論控制研究,新聞傳播學(xué)側(cè)重對(duì)輿論的本體進(jìn)行規(guī)律
性的探索和研究。A.輿論的本體進(jìn)行規(guī)律性的探索和研究B.輿論控
制研究
C.互聯(lián)網(wǎng)文本挖掘和分析技術(shù)D.用戶行為分析
62)MapReduce的Map函數(shù)產(chǎn)生很多的(C)
A.key
B.value
D.Hash
C.
63)Mapreduce適用于(D)
A.任意應(yīng)用程序
B.任意可在windowsservet2008上運(yùn)行的程序C.可以串行處
理的應(yīng)用程序D.可以并行處理的應(yīng)用程序
64)PageRank是一,個(gè)函數(shù),它對(duì)Web中的每個(gè)網(wǎng)頁(yè)賦予一個(gè)實(shí)數(shù)
值。它的意圖在于網(wǎng)頁(yè)的
PageRank越高,那么它就(D)。A.相關(guān)性越高C.相關(guān)性越低
XA.一對(duì)一C.多對(duì)多
B.越不重要D.越重要B.一對(duì)多
D.多對(duì)一
65)協(xié)同過濾分析用戶興趣,在用戶群中找到指定用戶的相似
(興趣)用戶,綜合這些用戶對(duì)
某一信息的評(píng)價(jià),形成系統(tǒng)對(duì)該指定用戶對(duì)此信息的喜好程度
(D),并將這些用戶喜歡的項(xiàng)推薦給有相似興趣的用戶。A.相似
C.推薦
B.相同D.預(yù)測(cè)
66)大數(shù)據(jù)指的是所涉及的資料量規(guī)模巨大到無(wú)法透過目前主
流軟件工具,在合理時(shí)間內(nèi)達(dá)
到擷取、管理、處理、并(B)成為幫助企業(yè)經(jīng)營(yíng)決策更積極
目的的信息。A.收集C.規(guī)劃
B.整理D.聚集
67)大數(shù)據(jù)科學(xué)關(guān)注大數(shù)據(jù)網(wǎng)絡(luò)發(fā)展和運(yùn)營(yíng)過程中(D)大數(shù)
據(jù)的規(guī)律及其與自然和
社會(huì)活動(dòng)之間的關(guān)系。A.大數(shù)據(jù)網(wǎng)絡(luò)發(fā)展和運(yùn)營(yíng)過程C.規(guī)律和
驗(yàn)證
B.規(guī)劃建設(shè)運(yùn)營(yíng)管理D.發(fā)現(xiàn)和驗(yàn)證
68)大數(shù)據(jù)的價(jià)值是通過數(shù)據(jù)共享、(D)后獲取最大的數(shù)據(jù)
價(jià)值
A.算法共享C.數(shù)據(jù)交換
B.共享應(yīng)用D.交叉復(fù)用
69)社交網(wǎng)絡(luò)產(chǎn)生了海量用戶以及實(shí)時(shí)和完整的數(shù)據(jù),同時(shí)社交
網(wǎng)絡(luò)也記錄了用戶群體的
(C),通過深入挖掘這些數(shù)據(jù)來(lái)了解用戶,然后將這些分析后
的數(shù)據(jù)信息推給需要的品牌商家或是微博營(yíng)銷公司。
A.地址C.情緒
B.行為D.來(lái)源
70)通過數(shù)據(jù)收集和展示數(shù)據(jù)背后的(D),運(yùn)用豐富的、具有
互動(dòng)性的可視化手段,
數(shù)據(jù)新聞學(xué)成為新聞學(xué)作為一門新的分支進(jìn)入主流媒體,即用數(shù)
據(jù)報(bào)道新聞。A.數(shù)據(jù)收集C.真相
B.數(shù)據(jù)挖掘
D.關(guān)聯(lián)與模式
71)CRISP-DM模型中Evaluation表示對(duì)建立的模型進(jìn)行評(píng)估,
重點(diǎn)具體考慮得出的結(jié)果是
否符合(C)的商業(yè)目的。A.第二步C.第一步
B.第三步D.最后一步
72)發(fā)現(xiàn)關(guān)聯(lián)規(guī)則的算法通常要經(jīng)過以下三個(gè)步驟:連接數(shù)據(jù),
作數(shù)據(jù)準(zhǔn)備;給定最小支持
度和(D),利用數(shù)據(jù)挖掘工具提供的算法發(fā)現(xiàn)關(guān)聯(lián)規(guī)則;可視
化顯示、理解、評(píng)估關(guān)聯(lián)規(guī)則A.最小興趣度C.最大支持度
B.最小置信度D.最小可信度
73)規(guī)則I->j,“有可能”,等于所有包含T的購(gòu)物籃中同時(shí)包含
J的購(gòu)物籃的比例,為
(B)oA.置信度C.興趣度
B.可信度
D.支持度
74)如果一個(gè)匹配中,任何一個(gè)節(jié)點(diǎn)都不同時(shí)是兩條或多條邊的
端點(diǎn),也稱作(C)
A.極大匹配C完美匹配
B.二分匹配D.極小匹配
75)只要具有適當(dāng)?shù)恼咄苿?dòng),大數(shù)據(jù)的使用將成為未來(lái)提高競(jìng)
爭(zhēng)力、生產(chǎn)力、創(chuàng)新能力以
及(D)的關(guān)鍵要素。A.提高消費(fèi)
B.提高GDP
C.提高生活水平D.創(chuàng)造消費(fèi)者盈余
76)個(gè)性化推薦系統(tǒng)是建立在海量數(shù)據(jù)挖掘基礎(chǔ)上的一種高級(jí)
商務(wù)智能平臺(tái),以幫助
(D)為其顧客購(gòu)物提供完全個(gè)性化的決策支持和信息服務(wù)。A.
公司
B.各單位
C.跨國(guó)企業(yè)D.電子商務(wù)網(wǎng)站
77)云計(jì)算是對(duì)(D)技術(shù)的發(fā)展與運(yùn)用
A.并行計(jì)算B.網(wǎng)格計(jì)算C.分布式計(jì)算D.三個(gè)選項(xiàng)都是
78)(B)是Google提出的用于處理海量數(shù)據(jù)的并行編程模式
和大規(guī)模數(shù)據(jù)集的并行運(yùn)
算的軟件架構(gòu)。
A.GFSB.MapReduceC.ChubbyD.BitTable
79)在Bigtable中,(A)主要用來(lái)存儲(chǔ)子表數(shù)據(jù)以及一些日
志文件
A.GFSB.ChubbyC.SSTableD.MapReduce
二、判斷題(共40題)
1)分類是預(yù)測(cè)數(shù)據(jù)對(duì)象的離散類別,預(yù)測(cè)是用于數(shù)據(jù)對(duì)象的連
續(xù)取值。(對(duì))
2)時(shí)序預(yù)測(cè)回歸預(yù)測(cè)一?樣,也是用已知的數(shù)據(jù)預(yù)測(cè)未來(lái)的值,
但這些數(shù)據(jù)的區(qū)別是變量所
處時(shí)間的不同。(錯(cuò))
3)數(shù)據(jù)挖掘的主要任務(wù)是從數(shù)據(jù)中發(fā)現(xiàn)潛在的規(guī)則,從而能更
好的完成描述數(shù)據(jù)、預(yù)測(cè)數(shù)
據(jù)等任務(wù)。(對(duì))
4)對(duì)遺漏數(shù)據(jù)的處理方法主要有:忽略該條記錄;手工填補(bǔ)遺
漏值;利用默認(rèn)值填補(bǔ)遺漏
值;利用均值填補(bǔ)遺漏值;利用同類別均值填補(bǔ)遺漏值;利用最
可能的值填充遺漏值。(對(duì))
5)神經(jīng)網(wǎng)絡(luò)對(duì)噪音數(shù)據(jù)具有高承受能力,并能對(duì)未經(jīng)過訓(xùn)練的
數(shù)據(jù)具有分類能力,但其需
要很長(zhǎng)的訓(xùn)練時(shí)間,因而對(duì)于有足夠長(zhǎng)訓(xùn)練時(shí)間的應(yīng)用更合適。
(對(duì))
6)數(shù)據(jù)分類由兩步過程組成:第一步,建立一個(gè)聚類模型,描
述指定的數(shù)據(jù)類集或概念集;
第二步,使用模型進(jìn)行分類。(錯(cuò))
7)聚類是指將物理或抽象對(duì)象的集合分組成為由類似的對(duì)象組
成的多個(gè)類的過程。(對(duì))8)決策樹方法通常用于關(guān)聯(lián)規(guī)則挖掘。
(錯(cuò))
9)數(shù)據(jù)規(guī)范化指將數(shù)據(jù)按比例縮放(如更換大單位),使之落入
一個(gè)特定的區(qū)域(如0-1)
以提高數(shù)據(jù)挖掘效率的方法。規(guī)范化的常用方法有:最大-最小
規(guī)范化、零-均值規(guī)范化、小數(shù)定標(biāo)規(guī)范化。(對(duì))
10)原始業(yè)務(wù)數(shù)據(jù)來(lái)自多個(gè)數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù),它們的結(jié)構(gòu)和規(guī)
則可能是不同的,這將導(dǎo)致
原始數(shù)據(jù)非常的雜亂、不可用,即使在同一個(gè)數(shù)據(jù)庫(kù)中,也可能
存在重復(fù)的和不完整的數(shù)據(jù)信息,為了使這些數(shù)據(jù)能夠符合數(shù)據(jù)挖掘
的要求,提高效率和得到清晰的結(jié)果,必須進(jìn)行數(shù)據(jù)的預(yù)處理。(對(duì))
11)數(shù)據(jù)取樣時(shí),除了要求抽樣時(shí)嚴(yán)把質(zhì)量關(guān)外,還要求抽樣數(shù)
據(jù)必須在足夠范圍內(nèi)有代表
性。(對(duì))
12)分類規(guī)則的挖掘方法通常有:決策樹法、貝葉斯法、人工神
經(jīng)網(wǎng)絡(luò)法、粗糙集法和遺傳
算法。(對(duì))
13)可信度是對(duì)關(guān)聯(lián)規(guī)則的準(zhǔn)確度的衡量。(錯(cuò))
14)孤立點(diǎn)在數(shù)據(jù)挖掘時(shí)總是被視為異常、無(wú)用數(shù)據(jù)而丟棄。
(錯(cuò))15)Apriori算法是一種典型的關(guān)聯(lián)規(guī)則挖掘算法。(對(duì))
16)用于分類的離散化方法之間的根本區(qū)別在于是否使用類信
息。(對(duì))17)特征提取技術(shù)并不依賴于特定的領(lǐng)域。(錯(cuò))
18)模型的具體化就是預(yù)測(cè)公式,公式可以產(chǎn)生與觀察值有相似
結(jié)構(gòu)的輸出,這就是預(yù)測(cè)值。
(對(duì))
19)文本挖掘又稱信息檢索,是從大量文本數(shù)據(jù)中提取以前未知
的、有用的、可理解的、可
操作的知識(shí)的過程。(錯(cuò))
20)定量屬性可以是整數(shù)值或者是連續(xù)值。(對(duì))
21)可視化技術(shù)對(duì)于分析的數(shù)據(jù)類型通常不是專用性的。(錯(cuò))
22)0LAP技術(shù)側(cè)重于把數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行分析、轉(zhuǎn)換成輔助決
策信息,是繼數(shù)據(jù)庫(kù)技術(shù)發(fā)
展之后迅猛發(fā)展起來(lái)的一種新技術(shù)。(對(duì))
23)Web數(shù)據(jù)挖掘是通過數(shù)據(jù)庫(kù)仲的一些屬性來(lái)預(yù)測(cè)另一個(gè)屬性,
它在驗(yàn)證用戶提出的假設(shè)
過程中提取信息。(錯(cuò))
24)關(guān)聯(lián)規(guī)則挖掘過程是發(fā)現(xiàn)滿足最小支持度的所有項(xiàng)集代表
的規(guī)則。(錯(cuò))25)利用先驗(yàn)原理可以幫助減少頻繁項(xiàng)集產(chǎn)生時(shí)需
要探查的候選項(xiàng)個(gè)數(shù)。(對(duì))26)先驗(yàn)原理可以表述為:如果一個(gè)
項(xiàng)集是頻繁的,那包含它的所有項(xiàng)集也是頻繁的。(錯(cuò))27)回歸
分析通常用于挖掘關(guān)聯(lián)規(guī)則。(錯(cuò))
28)具有較高的支持度的項(xiàng)集具有較高的置信度。(錯(cuò))
29)維歸約可以去掉不重要的屬性,減少數(shù)據(jù)立方體的維數(shù),從
而減少數(shù)據(jù)挖掘處理的數(shù)據(jù)
量,提高挖掘效率。(對(duì))
30)聚類(clustering)是這樣的過程:它找出描述并區(qū)分?jǐn)?shù)據(jù)
類或概念的模型(或函數(shù)),
以便能夠使用模型預(yù)測(cè)類標(biāo)記未知的對(duì)象類。(錯(cuò))
31)對(duì)于SVM分類算法,待分樣本集中的大部分樣本不是支持向
量,移去或者減少這些樣本
對(duì)分類結(jié)果沒有影響。(對(duì))
32)Bayes法是一種在已知后驗(yàn)概率與類條件概率的情況下的模
式分類方法,待分樣本的分
類結(jié)果取決于各類域中樣本的全體。(錯(cuò))
33)在決策樹中,隨著樹中結(jié)點(diǎn)數(shù)變得太大,即使模型的訓(xùn)練誤
差還在繼續(xù)減低,但是檢驗(yàn)
誤差開始增大,這是出現(xiàn)了模型擬合不足的問題。(錯(cuò))
34)在聚類分析當(dāng)中,簇內(nèi)的相似性越大,簇間的差別越大,聚
類的效果就越差。(錯(cuò))35)聚類分析可以看作是一種非監(jiān)督的分
類。(對(duì))
36)K均值是一種產(chǎn)生劃分聚類的基于密度的聚類算法,簇的個(gè)
數(shù)由算法自動(dòng)地確定。(錯(cuò)37)基于鄰近度的離群點(diǎn)檢測(cè)方法不能
處理具有不同密度區(qū)域的數(shù)據(jù)集。(對(duì))38)如果一個(gè)對(duì)象不強(qiáng)屬
于任何簇,那么該對(duì)象是基于聚類的離群點(diǎn)。(對(duì))39)大數(shù)據(jù)的
4V特點(diǎn)是Volume、Velocity、Variety、Veracity。(對(duì))
40)聚類分析的相異度矩陣是用于存儲(chǔ)所有對(duì)象兩兩之間相異
度的矩陣,為一個(gè)nn維的單
模矩陣。(對(duì))
三、多選題(共30題)
1)噪聲數(shù)據(jù)的產(chǎn)生原因主要有:(ABCD)
A.數(shù)據(jù)采集設(shè)備有問題
B.在數(shù)據(jù)錄入過程中發(fā)生了人為或計(jì)算機(jī)錯(cuò)誤C.數(shù)據(jù)傳輸過
程中發(fā)生錯(cuò)誤
D.由于命名規(guī)則或數(shù)據(jù)代碼不同而引起的不一致
2)尋找數(shù)據(jù)集中的關(guān)系是為了尋找精確、方便并且有價(jià)值地總
結(jié)出數(shù)據(jù)的某一特征的表示,
這個(gè)過程包括了以下哪些步驟?(ABCD)A.選擇一個(gè)算法過
程使評(píng)分函數(shù)最優(yōu)
B.決定如何量化和比較不同表示擬合數(shù)據(jù)的好壞
C.決定要使用的表示的特征和結(jié)構(gòu)
D.決定用什么欄的數(shù)據(jù)管理原則以高效地實(shí)現(xiàn)算法3)數(shù)據(jù)挖
掘的預(yù)測(cè)建模任務(wù)主要包括哪幾大類問題?(AB)
A.分類B.回歸C.聚類D.關(guān)聯(lián)規(guī)則挖掘
4)下列屬于不同的有序數(shù)據(jù)的有:(ABCD)
A.時(shí)序數(shù)據(jù)B.序列數(shù)據(jù)C.時(shí)間序列數(shù)據(jù)D.事務(wù)數(shù)據(jù)E.空間
數(shù)據(jù)
5)下面屬于數(shù)據(jù)集的一般特性的有:(BCD)
A.連續(xù)性B,維度C.稀疏性D.分辨率E.相異性
6)下面屬于維歸約常用的處理技術(shù)的有:(AC)
A.主成分分析B.特征提取C.奇異值分解D.特征加權(quán)E.離散
化
7)噪聲數(shù)據(jù)處理的方法主要有:(ABD)
A.分箱B.聚類C.關(guān)聯(lián)分析D.回歸
8)數(shù)據(jù)挖掘的主要功能包括概念描述、趨勢(shì)分析、孤立點(diǎn)分析
及(A.挖掘頻繁模式B.分類和預(yù)測(cè)
)等方面。ABCD
C.聚類分析D.偏差分析
9)以下各項(xiàng)均是針對(duì)數(shù)據(jù)倉(cāng)庫(kù)的不同說(shuō)法,你認(rèn)為正確的有
(BCD)o
A.數(shù)據(jù)倉(cāng)庫(kù)就是數(shù)據(jù)庫(kù)
B.數(shù)據(jù)倉(cāng)庫(kù)是一切商業(yè)智能系統(tǒng)的基礎(chǔ)
C.數(shù)據(jù)倉(cāng)庫(kù)是面向業(yè)務(wù)的,支持聯(lián)機(jī)事務(wù)處理(OLTP)D.數(shù)據(jù)
倉(cāng)庫(kù)支持決策而非事務(wù)處理10)聯(lián)機(jī)分析處理包括(BCD)基本分析
功能。
A.聚類B.切片C.轉(zhuǎn)軸D.切塊
11)利用Apriori算法計(jì)算頻繁項(xiàng)集可以有效降低計(jì)算頻繁集的
時(shí)間復(fù)雜度。在以下的購(gòu)物籃中產(chǎn)生支持度不小于3的候選3-項(xiàng)集,
在候選2-項(xiàng)集中需要剪枝的是(BD)
TID12345
A.啤酒、尿布B.啤酒、面包C.面包、尿布D.啤酒、牛奶
12)下表是一個(gè)購(gòu)物籃,假定支持度閾值為40%,其中(AD)是頻
繁閉項(xiàng)集。
ID12345
項(xiàng)集面包、牛奶、尿布面包、牛奶、尿布、啤酒牛奶、尿布、
雞蛋面包、尿布、啤酒、雞蛋啤酒、雞蛋面包、牛奶面包、尿布、
啤酒、雞蛋牛奶、尿布、啤酒、可樂面包、牛奶、尿布、啤酒面
包、牛奶、尿布、可樂項(xiàng)集
A.面包、牛奶、尿布B.面包、啤酒C.尿布、啤酒D.啤酒、雞
蛋13)Apriori算法的計(jì)算復(fù)雜度受(ABCD)影響。
A.支持度閥值B.項(xiàng)數(shù)(維度)C.事務(wù)數(shù)D.事務(wù)平均寬度14)
以下關(guān)于非頻繁模式說(shuō)法,正確的是(AD)
A.其支持度小于閾值B.都是不讓人感興趣的C.包含負(fù)模式和
負(fù)相關(guān)模式D.對(duì)異常數(shù)據(jù)項(xiàng)敏感15)以下屬于分類器評(píng)價(jià)或比較尺
度的有:(ACD)
A.預(yù)測(cè)準(zhǔn)確度B.召回率C.模型描述的簡(jiǎn)潔度I).計(jì)算復(fù)雜度
16)貝葉斯信念網(wǎng)絡(luò)(BBN)有如下哪些特點(diǎn)。(AB)
A.構(gòu)造網(wǎng)絡(luò)費(fèi)時(shí)費(fèi)力B.對(duì)模型的過分問題非常魯棒C.貝葉斯
網(wǎng)絡(luò)不適合處理不完整的數(shù)據(jù)D.網(wǎng)絡(luò)結(jié)構(gòu)確定后,添加變量相當(dāng)麻
煩17)如下哪些不是最近鄰分類器的特點(diǎn)。(C)
A.它使用具體的訓(xùn)練實(shí)例進(jìn)行預(yù)測(cè),不必維護(hù)源自數(shù)據(jù)的模型B.
分類一個(gè)測(cè)試樣例開銷很大C.最近鄰分類器基于全局信息進(jìn)行預(yù)測(cè)
D.可以生產(chǎn)任意形狀的決策邊界18)以下屬于聚類算法的是(AB)。
A.K-MeansB.DBSCAN
C.AprioriD.KNN
19)(CD)都屬于簇有效性的監(jiān)督度量。
A.輪廓系數(shù)B.共性分類相關(guān)系數(shù)
C.焙D.F度量
20)(ABCD)這些數(shù)據(jù)特性都是對(duì)聚類分析具有很強(qiáng)影響的。A.
高維性B
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 隴東學(xué)院《中國(guó)特色美食文化鑒賞》2023-2024學(xué)年第二學(xué)期期末試卷
- 陜西中醫(yī)藥大學(xué)《二維動(dòng)畫技術(shù)》2023-2024學(xué)年第一學(xué)期期末試卷
- 陜西學(xué)前師范學(xué)院《園林規(guī)劃設(shè)計(jì)I》2023-2024學(xué)年第二學(xué)期期末試卷
- 陜西旅游烹飪職業(yè)學(xué)院《井巷工程》2023-2024學(xué)年第二學(xué)期期末試卷
- 陜西省五校重點(diǎn)中學(xué)2024-2025學(xué)年高考物理試題命題比賽模擬試卷(2)含解析
- 陜西省商洛市丹鳳中學(xué)2025年高三質(zhì)量檢測(cè)試題英語(yǔ)試題含解析
- 陜西省安康市旬陽(yáng)縣2025年三下數(shù)學(xué)期末考試模擬試題含解析
- 電力專業(yè)技術(shù)總結(jié)模版
- 陜西省漢中中學(xué)2025年高三年級(jí)八校聯(lián)考化學(xué)試題含解析
- 陜西省漢中市龍崗學(xué)校2025年高三下學(xué)期3月聯(lián)考生物試題試卷含解析
- 2024年中國(guó)大唐集團(tuán)科技創(chuàng)新有限公司招聘考試真題
- 《防護(hù)服穿脫流程》課件
- 2025年山東省職教高考(車輛維修專業(yè))綜合知識(shí)高頻必練考試題庫(kù)400題含答
- 春夏季疾病預(yù)防
- 二年級(jí)課間安全
- 2024年浙江宇翔職業(yè)技術(shù)學(xué)院高職單招職業(yè)技能測(cè)驗(yàn)歷年參考題庫(kù)(頻考版)含答案解析
- 2025年四川省綿陽(yáng)市住房公積金服務(wù)中心招聘5人歷年高頻重點(diǎn)提升(共500題)附帶答案詳解
- 短視頻運(yùn)營(yíng)(初級(jí))營(yíng)銷師-巨量認(rèn)證考試題庫(kù)(附答案)
- 2024年江蘇省蘇州市保安員資格考試模擬練習(xí)題及答案
- 2024年高速數(shù)據(jù)傳輸線項(xiàng)目可行性研究報(bào)告
- 醫(yī)療機(jī)構(gòu)醫(yī)療廢物管理規(guī)范考試試題及答案
評(píng)論
0/150
提交評(píng)論