大數(shù)據(jù)時代下的數(shù)據(jù)挖掘試題及答案_第1頁
大數(shù)據(jù)時代下的數(shù)據(jù)挖掘試題及答案_第2頁
大數(shù)據(jù)時代下的數(shù)據(jù)挖掘試題及答案_第3頁
大數(shù)據(jù)時代下的數(shù)據(jù)挖掘試題及答案_第4頁
大數(shù)據(jù)時代下的數(shù)據(jù)挖掘試題及答案_第5頁
已閱讀5頁,還剩9頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

海量數(shù)據(jù)挖掘技術(shù)及工程實踐》題目一、單選題(共80題)(D)的目的縮小數(shù)據(jù)的取值范圍,使其更適合于數(shù)據(jù)挖掘算法的需要,并且能夠得到和原始數(shù)據(jù)相同的分析結(jié)果。數(shù)據(jù)清洗B.數(shù)據(jù)集成C.數(shù)據(jù)變換D.數(shù)據(jù)歸約某超市研究銷售紀(jì)錄數(shù)據(jù)后發(fā)現(xiàn),買啤酒的人很大概率也會購買尿布,這種屬于數(shù)據(jù)挖掘的哪類問題(A)A.關(guān)聯(lián)規(guī)則發(fā)現(xiàn)B.聚類C.分類D.自然語言處理以下兩種描述分別對應(yīng)哪兩種對分類算法的評價標(biāo)準(zhǔn)(A)(a)警察抓小偷,描述警察抓的人中有多少個是小偷的標(biāo)準(zhǔn)。⑹描述有多少比例的小偷給警察抓了的標(biāo)準(zhǔn)。A.Precision,RecallB.Recall,PrecisionA.Precision,ROCD.Recall,ROC將原始數(shù)據(jù)進(jìn)行集成、變換、維度規(guī)約、數(shù)值規(guī)約是在以下哪個步驟的任務(wù)(C)A.頻繁模式挖掘B.分類和預(yù)測C.數(shù)據(jù)預(yù)處理D.數(shù)據(jù)流挖掘當(dāng)不知道數(shù)據(jù)所帶標(biāo)簽時,可以使用哪種技術(shù)促使帶同類標(biāo)簽的數(shù)據(jù)與帶其他標(biāo)簽的數(shù)據(jù)相分離(B)A.分類B.聚類C.關(guān)聯(lián)分析D.隱馬爾可夫鏈建立一個模型,通過這個模型根據(jù)已知的變量值來預(yù)測其他某個變量值屬于數(shù)據(jù)挖掘的哪一類任務(wù)(C)建模描述B.根據(jù)內(nèi)容檢索A.15).C.預(yù)測建模D.尋找模式和規(guī)則下面哪種不屬于數(shù)據(jù)預(yù)處理的方法(D)A.變量代換B.離散化C.聚集D.估計遺漏值假設(shè)12個銷售價格記錄組已經(jīng)排序如下:5,10,11,13,15,35,50,55,72,92,204,215使用如下每種方法將它們劃分成四個箱。等頻(等深)劃分時,15在第幾個箱子內(nèi)(B)A.第一個B.第二個C.第三個D.第四個下面哪個不屬于數(shù)據(jù)的屬性類型:(D)A.標(biāo)稱B.序數(shù)C.區(qū)間D.相異只有非零值才重要的二元屬性被稱作:(C)A.計數(shù)屬性B.離散屬性非對稱的二元屬性D.對稱屬性以下哪種方法不屬于特征選擇的標(biāo)準(zhǔn)方法:(D)A.嵌入B.過濾包裝D.抽樣下面不屬于創(chuàng)建新屬性的相關(guān)方法的是:(B)A.特征提取B.特征修改C.映射數(shù)據(jù)到新的空間D.特征構(gòu)造下面哪個屬于映射數(shù)據(jù)到新的空間的方法(A)A.傅立葉變換B.特征加權(quán)C.漸進(jìn)抽樣D.維歸約假設(shè)屬性income的最大最小值分別是12000元和98000元。利用最大最小規(guī)范化的方法將屬性的值映射到0至1的范圍內(nèi)。對屬性income的73600元將被轉(zhuǎn)化為:(D).一所大學(xué)內(nèi)的各年紀(jì)人數(shù)分別為:一年級200人,二年級160人,三年級130人,四年級110人。則年級屬性的眾數(shù)是:(A)A.-年級B.二年級C.三年級D.四年級下列哪個不是專門用于可視化時間空間數(shù)據(jù)的技術(shù):(B)A.等高線圖B.餅圖C.曲面圖D.矢量場圖在抽樣方法中,當(dāng)合適的樣本容量很難確定時,可以使用的抽樣方法是:(D)A.有放回的簡單隨機抽樣無放回的簡單隨機抽樣分層抽樣D漸進(jìn)抽樣數(shù)據(jù)倉庫是隨著時間變化的,下面的描述不正確的是(C)A.數(shù)據(jù)倉庫隨時間的變化不斷增加新的數(shù)據(jù)內(nèi)容B.捕捉到的新數(shù)據(jù)會覆蓋原來的快照C.數(shù)據(jù)倉庫隨事件變化不斷刪去舊的數(shù)據(jù)內(nèi)容D.數(shù)據(jù)倉庫中包含大量的綜合數(shù)據(jù),這些綜合數(shù)據(jù)會隨著時間的變化不斷地進(jìn)行重新綜合下面關(guān)于數(shù)據(jù)粒度的描述不正確的是:(C)A.粒度是指數(shù)據(jù)倉庫小數(shù)據(jù)單元的詳細(xì)程度和級別B.數(shù)據(jù)越詳細(xì),粒度就越小,級別也就越高C.數(shù)據(jù)綜合度越高,粒度也就越大,級別也就越高D.粒度的具體劃分將直接影響數(shù)據(jù)倉庫中的數(shù)據(jù)量以及查詢質(zhì)量有關(guān)數(shù)據(jù)倉庫的開發(fā)特點,不正確的描述是:(A)A.數(shù)據(jù)倉庫開發(fā)要從數(shù)據(jù)出發(fā)數(shù)據(jù)倉庫使用的需求在開發(fā)出去就要明確B.51).,C.數(shù)據(jù)倉庫的開發(fā)是一個不斷循環(huán)的過程是啟發(fā)式的開發(fā)52)數(shù)據(jù)倉庫中,并不存在操作型環(huán)境中所固定的和較確切的處理流,53)D.在數(shù)據(jù)倉庫環(huán)境中數(shù)據(jù)分析和處理更靈活,且沒有固定的模式:(D),下面正確的是54)關(guān)于OLAP的特性共享性信息性55)(1)快速性(2)可分析性(3)多維性(4)(5)A.(1)(2)(3)56)B.(2)(3)(4)57)C.(1)(2)(3)(4)58)D.(1)(2)(3)(4)(5)59):(C)關(guān)于OLAP和OLTP的區(qū)別描述,不正確的是60)61)主要是關(guān)于如何理解聚集的大量不同的數(shù)據(jù)?它與OTAP應(yīng)用程序不同,OLTP應(yīng)用程序包含大量相對簡單的事務(wù)B.與OLAP應(yīng)用程序不同62),但事務(wù)內(nèi)容比較簡單且重復(fù)率高63)的特點在于事務(wù)量大兩者一樣均來自底層的數(shù)據(jù)庫系統(tǒng)但其最終數(shù)據(jù)來源與OLTP,64)是以數(shù)據(jù)倉庫為基礎(chǔ)的,面對的用戶是相同的:(A),下列不正確的是OLAP65)關(guān)于和OLTP的說法但事務(wù)內(nèi)容比較簡單且重復(fù)率高66)事務(wù)量大,OLTP67)的最終數(shù)據(jù)來源與不一樣68)面對的是決策人員和高層管理人員69),是應(yīng)用驅(qū)動的以應(yīng)用為核心產(chǎn)生(C)個關(guān)聯(lián)規(guī)則。3}X={170)設(shè),2,是頻繁項集,則可由X71)項集的集合:72)考慮下面的頻繁3-4,5}假定數(shù)據(jù)集中只有5個項,采用合并策略,由候選產(chǎn)生過程得到4-項集不包含(C)TOC\o"1-5"\h\z,2,3,4,2,3,573).,2,4,5,3,4,5(C)不是s的子序列的是t74)下面選項中〉75)76)77)78)79)在圖集合中發(fā)現(xiàn)一組公共子結(jié)構(gòu),這樣的任務(wù)稱為(B)A.頻繁子集挖掘B.頻繁子圖挖掘頻繁數(shù)據(jù)項挖掘D.頻繁模式挖掘下列度量不具有反演性的是(D)A.系數(shù)B.幾率度量D.興趣因子下列(A)不是將主觀信息加入到模式發(fā)現(xiàn)任務(wù)中的方法。A.與同一時期其他數(shù)據(jù)對比B.可視化C.基于模板的方法D.主觀興趣度量下面購物藍(lán)能夠提取的3-項集的最大數(shù)量是多少(C).TID項集牛奶,啤酒,尿布1面包,黃油,牛奶2牛奶,尿布,餅干3面包,黃油,餅干4啤酒,餅干,尿布5牛奶,尿布,6面包,黃油尿布,黃油,面包7.8啤酒,尿布牛奶,尿布,9面包,黃油啤酒,餅干10以下哪些算法是分類算法(B)以下哪些分類方法可以較好地避免樣本的不平衡問題(A)神經(jīng)網(wǎng)絡(luò)決策樹中不包含一下哪種結(jié)點(C)根結(jié)點(rootnode)內(nèi)部結(jié)點(internalnode)外部結(jié)點(externalnode)葉結(jié)點(leafnode)以下哪項關(guān)于決策樹的說法是錯誤的(C)冗余屬性不會對決策樹的準(zhǔn)確率造成不利的影響子樹可能在決策樹中重復(fù)多次決策樹算法對于噪聲的干擾非常敏感尋找最佳決策樹是NP完全問題在基于規(guī)則分類器的中,依據(jù)規(guī)則質(zhì)量的某種度量對規(guī)則排序,保證每一個測試記錄都是由覆蓋它的“最好的”規(guī)格來分類,這種方案稱為(B)A.基于類的排序方案B.基于規(guī)則的排序方案C.基于度量的排序方案D.基于規(guī)格的排序方案。(A)以下哪些算法是基于規(guī)則的分類器98).A.B.KNNC.NaiveBayesD.ANN可用作數(shù)據(jù)挖掘分析中的關(guān)聯(lián)規(guī)則算法有(C)。決策樹、對數(shù)回歸、關(guān)聯(lián)模式101)B.K均值法、S0M神經(jīng)網(wǎng)絡(luò)Apriori算法、FP-Tree算法RBF神經(jīng)網(wǎng)絡(luò)、K均值法、決策樹如果對屬性值的任一組合,R中都存在一條規(guī)則加以覆蓋,則稱規(guī)則集R中的規(guī)則為(B)無序規(guī)則B.窮舉規(guī)則C.互斥規(guī)則D.有序規(guī)則用于分類與回歸應(yīng)用的主要算法有:(D)算法、HotSpot算法神經(jīng)網(wǎng)絡(luò)、K均值法、決策樹均值法、SOM神經(jīng)網(wǎng)絡(luò)D.決策樹、BP神經(jīng)網(wǎng)絡(luò)、貝葉斯40)如果允許一條記錄觸發(fā)多條分類規(guī)則,把每條被觸發(fā)規(guī)則的后件看作是對相應(yīng)類的一次投票,然后計票確定測試記錄的類標(biāo)號,稱為(A)無序規(guī)則B.窮舉規(guī)則C.互斥規(guī)則D.有序規(guī)則41)考慮兩隊之間的足球比賽:隊0和隊1。假設(shè)65%的比賽隊0勝出,剩余的比賽隊1獲勝。隊0獲勝的比賽中只有30%是在隊1的主場,而隊1取勝的比賽中75%是主場獲勝。如果下一場比賽在隊1的主場進(jìn)行隊1獲勝的概率為(C)以下關(guān)于人工神經(jīng)網(wǎng)絡(luò)(ANN)的描述錯誤的有(A)神經(jīng)網(wǎng)絡(luò)對訓(xùn)練數(shù)據(jù)中的噪聲非常魯棒可以處理冗余特征訓(xùn)練ANN是一個很耗時的過程至少含有一個隱藏層的多層神經(jīng)網(wǎng)絡(luò)(A)通過聚集多個分類器的預(yù)測來提高分類準(zhǔn)確率的技術(shù)稱為43).組合(ensemble)B.聚集(aggregate)C.合并(combination)D.投票(voting)44)簡單地將數(shù)據(jù)對象集劃分成不重疊的子集,使得每個數(shù)據(jù)對象恰在一個子集中,這種聚類類型稱作(B)A.層次聚類B.劃分聚類C.非互斥聚類D.模糊聚類45)在基本K均值算法里,當(dāng)鄰近度函數(shù)采用(A)的時候,合適的質(zhì)心是簇中各點的中位數(shù)。A.曼哈頓距離B.平方歐幾里德距離C.余弦距離散度46)(C)是一個觀測值,它與其他觀測值的差別如此之大,以至于懷疑它是由不同的機制產(chǎn)生的。A.邊界點B.質(zhì)心C.離群點D.核心點47)BIRCH是一種(B)。A.分類器B.聚類算法C.關(guān)聯(lián)分析算法D.特征選擇算法48)檢測一元正態(tài)分布中的離群點,屬于異常檢測中的基于(A)的離群點檢測。A.統(tǒng)計方法B.鄰近度C.密度D.聚類技術(shù)49)(C)將兩個簇的鄰近度定義為不同簇的所有點對的平均逐對鄰近度,它是一種凝聚層次聚類技術(shù)。(單鏈)(全鏈)C.組平均方法50)(D)將兩個簇的鄰近度定義為兩個簇合并時導(dǎo)致的平方誤差的增量,它是一種凝聚層次聚類技術(shù)。(單鏈)(全鏈)方法組平均C.51)下列算法中,不屬于外推法的是(B)。A.移動平均法B.回歸分析法C.指數(shù)平滑法D.季節(jié)指數(shù)法52)關(guān)聯(lián)規(guī)則的評價指標(biāo)是:(C)。A.均方誤差、均方根誤差Kappa統(tǒng)計、顯著性檢驗支持度、置信度平均絕對誤差、相對誤差53)關(guān)于K均值和DBSCAN的比較,以下說法不正確的是(A)。均值丟棄被它識別為噪聲的對象,而DBSCAN一般聚類所有對象。均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念。均值很難處理非球形的簇和不同大小的簇,DBSCAN可以處理不同大小和不同形狀的簇。均值可以發(fā)現(xiàn)不是明顯分離的簇,即便簇有重疊也可以發(fā)現(xiàn),但是DBSCAN會合并有重疊的簇。54)從研究現(xiàn)狀上看,下面不屬于云計算特點的是(C)超大規(guī)模B.虛擬化C.私有化D.高可靠性55)考慮這么一種情況:一個對象碰巧與另一個對象相對接近,但屬于不同的類,因為這兩個對象一般不會共享許多近鄰,所以應(yīng)該選擇(D)的相似度計算方法。平方歐幾里德距離B.余弦距離C.直接相似度D.共享最近鄰56)分析顧客消費行業(yè),以便有針對性的向其推薦感興趣的服務(wù),屬于(A)問題。關(guān)聯(lián)規(guī)則挖掘B.分類與回歸C.聚類分析D.時序預(yù)測57)以下哪個聚類算法不是屬于基于原型的聚類(D)。算法均值C模糊A.58)關(guān)于混合模型聚類算法的優(yōu)缺點,下面說法正確的是(B)。當(dāng)簇只包含少量數(shù)據(jù)點,或者數(shù)據(jù)點近似協(xié)線性時,混合模型也能很好地處理?;旌夏P捅菿均值或模糊c均值更一般,因為它可以使用各種類型的分布?;旌夏P秃茈y發(fā)現(xiàn)不同大小和橢球形狀的簇?;旌夏P驮谟性肼暫碗x群點時不會存在問題。59)以下哪個聚類算法不屬于基于網(wǎng)格的聚類算法(D)。60)一個對象的離群點得分是該對象周圍密度的逆。這是基于(C)的離群點定義。A■概率B.鄰近度C■密度D■聚類61)輿情研判,信息科學(xué)側(cè)重(C),社會和管理科學(xué)側(cè)重突發(fā)群體事件管理中的群體心理行為及輿論控制研究,新聞傳播學(xué)側(cè)重對輿論的本體進(jìn)行規(guī)律性的探索和研究。輿論的本體進(jìn)行規(guī)律性的探索和研究輿論控制研究互聯(lián)網(wǎng)文本挖掘和分析技術(shù)C.用戶行為分析D.函數(shù)產(chǎn)生很多的(C)Map62)MapReduce的<key,value>63)Mapreduce適用于(D)任意應(yīng)用程序任意可在windowsservet2008上運行的程序可以串行處理的應(yīng)用程序可以并行處理的應(yīng)用程序中的每個網(wǎng)頁賦予一個實數(shù)值。它的意圖在于網(wǎng)頁的Web它對,是一個函數(shù)PageRank64).PageRank越高,那么它就(D)。相關(guān)性越高B.越不重要相關(guān)性越低越重要D.一對多XA-一對一B.D.多對一C.多對多65)協(xié)同過濾分析用戶興趣,在用戶群中找到指定用戶的相似(興趣)用戶,綜合這些用戶對某一信息的評價,形成系統(tǒng)對該指定用戶對此信息的喜好程度(D),并將這些用戶喜歡的項推薦給有相似興趣的用戶。相似B.相同預(yù)測D.C.推薦66)大數(shù)據(jù)指的是所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具,在合理時間內(nèi)達(dá)到擷取、管理、處理、并(B)成為幫助企業(yè)經(jīng)營決策更積極目的的信息。收集B.整理C.規(guī)劃聚集67)大數(shù)據(jù)科學(xué)關(guān)注大數(shù)據(jù)網(wǎng)絡(luò)發(fā)展和運營過程中(D)大數(shù)據(jù)的規(guī)律及其與自然和社會活動之間的關(guān)系。大數(shù)據(jù)網(wǎng)絡(luò)發(fā)展和運營過程B.規(guī)劃建設(shè)運營管理發(fā)現(xiàn)和驗證C.規(guī)律和驗證68)大數(shù)據(jù)的價值是通過數(shù)據(jù)共享、(D)后獲取最大的數(shù)據(jù)價值A(chǔ).算法共享B.共享應(yīng)用C.數(shù)據(jù)交換交叉復(fù)用69)社交網(wǎng)絡(luò)產(chǎn)生了海量用戶以及實時和完整的數(shù)據(jù),同時社交網(wǎng)絡(luò)也記錄了用戶群體的(C),通過深入挖掘這些數(shù)據(jù)來了解用戶,然后將這些分析后的數(shù)據(jù)信息推給需要的品牌商家或是微博營銷公司。A.地址B.行為D.來源C.情緒,具有互動性的可視化手段運用豐富的、,)D(通過數(shù)據(jù)收集和展示數(shù)據(jù)背后的70).?dāng)?shù)據(jù)新聞學(xué)成為新聞學(xué)作為一門新的分支進(jìn)入主流媒體,即用數(shù)據(jù)報道新聞。A.數(shù)據(jù)收集B.數(shù)據(jù)挖掘真相關(guān)聯(lián)與模式C.71)CRISP-DM模型中Evaluation表示對建立的模型進(jìn)行評估,重點具體考慮得出的結(jié)果是否符合(C)的商業(yè)目的。A.第二步B.第三步最后一步D.C.第一步72)發(fā)現(xiàn)關(guān)聯(lián)規(guī)則的算法通常要經(jīng)過以下三個步驟:連接數(shù)據(jù),作數(shù)據(jù)準(zhǔn)備;給定最小支持度和(D),利用數(shù)據(jù)挖掘工具提供的算法發(fā)現(xiàn)關(guān)聯(lián)規(guī)則;可視化顯示、理解、評估關(guān)聯(lián)規(guī)則A.最小興趣度B.最小置信度最小可信度C.最大支持度73)規(guī)則l->j,“有可能”,等于所有包含I的購物籃中同時包含J的購物籃的比例,為(B)。A.置信度B.可信度支持度C.興趣度74)如果一個匹配中,任何一個節(jié)點都不同時是兩條或多條邊的端點,也稱作(C)A.極大匹配B.二分匹配極小匹配C完美匹配

75)只要具有適當(dāng)?shù)恼咄苿?大數(shù)據(jù)的使用將成為未來提高競爭力、生產(chǎn)力、創(chuàng)新能力以及(D)的關(guān)鍵要素。提高消費B.提高GDPC.提高生活水平D.創(chuàng)造消費者盈余D)為其顧客購物提供完全個性化的決策支持和信息服務(wù)。B.D)為其顧客購物提供完全個性化的決策支持和信息服務(wù)。B.各單位跨國企業(yè)C.D)技術(shù)的發(fā)展與運用B.網(wǎng)格計算D.三個選項都是A.公司電子商務(wù)網(wǎng)站D.77)云計算是對(A.并行計算C.分布式計算78)(B)是Google提出的用于處理海量數(shù)據(jù)的并行編程模式和大規(guī)模數(shù)據(jù)集的并行運算的軟件架構(gòu)。79)在Bigtable中,(A)主要用來存儲子表數(shù)據(jù)以及一些日志文件A.GFSB.Chubby二、判斷題(共40題)1)分類是預(yù)測數(shù)據(jù)對象的離散類別,預(yù)測是用于數(shù)據(jù)對象的連續(xù)取值。(對)2)時序預(yù)測回歸預(yù)測一樣,也是用已知的數(shù)據(jù)預(yù)測未來的值,但這些數(shù)據(jù)的區(qū)別是變量所處時間的不同。(錯)3)數(shù)據(jù)挖掘的主要任務(wù)是從數(shù)據(jù)中發(fā)現(xiàn)潛在的規(guī)則,從而能更好的完成描述數(shù)據(jù)、預(yù)測數(shù)據(jù)等任務(wù)。(對)4)對遺漏數(shù)據(jù)的處理方法主要有:忽略該條記錄;手工填補遺漏值;利用默認(rèn)值填補遺漏值;利用均值填補遺漏值;利用同類別均值填補遺漏值;利用最可能的值填充遺漏值。(對)5)神經(jīng)網(wǎng)絡(luò)對噪音數(shù)據(jù)具有高承受能力,并能對未經(jīng)過訓(xùn)練的數(shù)據(jù)具有分類能力,但其需要很長的訓(xùn)練時間,因而對于有足夠長訓(xùn)練時間的應(yīng)用更合適。(對)6)數(shù)據(jù)分類由兩步過程組成:第一步,建立一個聚類模型,描述指定的數(shù)據(jù)類集或概念集;第二步,使用模型進(jìn)行分類。(錯)7)聚類是指將物理或抽象對象的集合分組成為由類似的對象組成的多個類的過程。(對)8)決策樹方法通常用于關(guān)聯(lián)規(guī)則挖掘。(錯))0-1,使之落入一個特定的區(qū)域(如)如更換大單位(數(shù)據(jù)規(guī)范化指將數(shù)據(jù)按比例縮放9).以提高數(shù)據(jù)挖掘效率的方法。規(guī)范化的常用方法有:最大-最小規(guī)范化、零-均值規(guī)范化、小數(shù)定標(biāo)規(guī)范化。(對)10)原始業(yè)務(wù)數(shù)據(jù)來自多個數(shù)據(jù)庫或數(shù)據(jù)倉庫,它們的結(jié)構(gòu)和規(guī)則可能是不同的這將導(dǎo)致原始數(shù)據(jù)非常的雜亂、不可用,即使在同一個數(shù)據(jù)庫中,也可能存在重復(fù)的和不完整的數(shù)據(jù)信息,為了使這些數(shù)據(jù)能夠符合數(shù)據(jù)挖掘的要求,提高效率和得到清晰的結(jié)果,必須進(jìn)行數(shù)據(jù)的預(yù)處理。(對)11)數(shù)據(jù)取樣時,除了要求抽樣時嚴(yán)把質(zhì)量關(guān)外,還要求抽樣數(shù)據(jù)必須在足夠范圍內(nèi)有代表性。(對)12)分類規(guī)則的挖掘方法通常有:決策樹法、貝葉斯法、人工神經(jīng)網(wǎng)絡(luò)法、粗糙集法和遺傳算法。(對)13)可信度是對關(guān)聯(lián)規(guī)則的準(zhǔn)確度的衡量。(錯)14)孤立點在數(shù)據(jù)挖掘時總是被視為異常、無用數(shù)據(jù)而丟棄。(錯)15)Apriori算法是一種典型的關(guān)聯(lián)規(guī)則挖掘算法。(對)16)用于分類的離散化方法之間的根本區(qū)別在于是否使用類信息。(對)17)特征提取技術(shù)并不依賴于特定的領(lǐng)域。(錯)18)模型的具體化就是預(yù)測公式,公式可以產(chǎn)生與觀察值有相似結(jié)構(gòu)的輸出,這就是預(yù)測值。(對)19)文本挖掘又稱信息檢索,是從大量文本數(shù)據(jù)中提取以前未知的、有用的、可理解的、可操作的知識的過程。(錯)20)定量屬性可以是整數(shù)值或者是連續(xù)值。(對)21)可視化技術(shù)對于分析的數(shù)據(jù)類型通常不是專用性的。(錯)22)OLAP技術(shù)側(cè)重于把數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行分析、轉(zhuǎn)換成輔助決策信息,是繼數(shù)據(jù)庫技術(shù)發(fā)展之后迅猛發(fā)展起來的一種新技術(shù)。(對)23)Web數(shù)據(jù)挖掘是通過數(shù)據(jù)庫仲的一些屬性來預(yù)測另一個屬性,它在驗證用戶提出的假設(shè)過程中提取信息。(錯)24)關(guān)聯(lián)規(guī)則挖掘過程是發(fā)現(xiàn)滿足最小支持度的所有項集代表的規(guī)則。(錯)(對)利用先驗原理可以幫助減少頻繁項集產(chǎn)生時需要探查的候選項個數(shù)。25).26)先驗原理可以表述為:如果一個項集是頻繁的,那包含它的所有項集也是頻繁的。(錯)27)回歸分析通常用于挖掘關(guān)聯(lián)規(guī)則。(錯)28)具有較高的支持度的項集具有較高的置信度。(錯)29)維歸約可以去掉不重要的屬性,減少數(shù)據(jù)立方體的維數(shù),從而減少數(shù)據(jù)挖掘處理的數(shù)據(jù)量,提高挖掘效率。(對)30)聚類(clustering)是這樣的過程:它找出描述并區(qū)分?jǐn)?shù)據(jù)類或概念的模型(或函數(shù)),以便能夠使用模型預(yù)測類標(biāo)記未知的對象類。(錯)31)對于SVM分類算法,待分樣本集中的大部分樣本不是支持向量,移去或者減少這些樣本對分類結(jié)果沒有影響。(對)32)Bayes法是一種在已知后驗概率與類條件概率的情況下的模式分類方法,待分樣本的分類結(jié)果取決于各類域中樣本的全體。(錯)33)在決策樹中,隨著樹中結(jié)點數(shù)變得太大,即使模型的訓(xùn)練誤差還在繼續(xù)減低,但是檢驗誤差開始增大,這是出現(xiàn)了模型擬合不足的問題。(錯)34)在聚類分析當(dāng)中,簇內(nèi)的相似性越大,簇間的差別越大,聚類的效果就越差。(錯)35)聚類分析可以看作是一種非監(jiān)督的分類。(對)36)K均值是一種產(chǎn)生劃分聚類的基于密度的聚類算法,簇的個數(shù)由算法自動地確定。(錯37)基于鄰近度的離群點檢測方法不能處理具有不同密度區(qū)域的數(shù)據(jù)集。(對)38)如果一個對象不強屬于任何簇,那么該對象是基于聚類的離群點。(對)39)大數(shù)據(jù)的4V特點是Volume、Velocity、Variety、Veracity。(對)40)聚類分析的相異度矩陣是用于存儲所有對象兩兩之間相異度的矩陣,為一個nn維的單模矩陣。(對)三、多選題(共30題)1)噪聲數(shù)據(jù)的產(chǎn)生原因主要有:(ABCD)數(shù)據(jù)采集設(shè)備有問題在數(shù)據(jù)錄入過程中發(fā)生了人為或計算機錯誤數(shù)據(jù)傳輸過程中發(fā)生錯誤C.由于命名規(guī)則或數(shù)據(jù)代碼不同而引起的不一致2)尋找數(shù)據(jù)集中的關(guān)系是為了尋找精確、方便并且有價值地總結(jié)出數(shù)據(jù)的某一特征的表示,這個過程包括了以下哪些步驟(ABCD)選擇一個算法過程使評分函數(shù)最優(yōu)決定如何量化和比較不同表示擬合數(shù)據(jù)的好壞決定要使用的表示的特征和結(jié)構(gòu)決定用什么樣的數(shù)據(jù)管理原則以高效地實現(xiàn)算法3)數(shù)據(jù)挖掘的預(yù)測建模任務(wù)主要包括哪幾大類問題(AB)分類回歸聚類關(guān)聯(lián)規(guī)則挖掘4)下列屬于不同的有序數(shù)據(jù)的有:(ABCD)時序數(shù)據(jù)序列數(shù)據(jù)時間序列數(shù)據(jù)事務(wù)數(shù)據(jù)空間數(shù)據(jù)5)下面屬于數(shù)據(jù)集的一般特性的有:(BCD)連續(xù)性維度稀疏性分辨率相異性6)下面屬于維歸約常用的處理技術(shù)的有:(AC)A.主成分分析特征提取B.奇異值分解特征加權(quán)離散化7)噪聲數(shù)據(jù)處理的方法主要有:(ABD)A.分箱B.聚類C.關(guān)聯(lián)分析D.回歸8)數(shù)據(jù)挖掘的主要功能包括概念描述、趨勢分析、孤立點分析及(ABCD)等方面。A.挖掘頻繁模式B.分類和預(yù)測C.聚類分析D.偏差分析9)以下各項均是針對數(shù)據(jù)倉庫的不同說法,你認(rèn)為正確的有(BCD)。10)A.數(shù)據(jù)倉庫就是數(shù)據(jù)庫B■數(shù)據(jù)倉庫是一切商業(yè)智能系統(tǒng)的基礎(chǔ))11C■數(shù)據(jù)倉庫是面向業(yè)務(wù)的,支持聯(lián)機事務(wù)處理(12)OLTP)D13).?dāng)?shù)據(jù)倉庫支持決策而非事務(wù)處理10)聯(lián)機分析處理包括(BCD)基本分析功能。A.聚類B.切片C.轉(zhuǎn)軸D.切塊11)利用Apriori算法計算頻繁項集可以有效降低計算頻繁集的時間復(fù)雜度。在以下的購物籃中產(chǎn)生支持度不小于3的候選3-項集,在候選2-項集中需要剪枝的是(BD)TID項集1面包、牛奶2面包、尿布、啤酒、雞蛋牛奶、尿布、啤酒、可樂34面包、牛奶、尿布、啤酒5面包、牛奶、尿布、可樂A.啤酒、尿布B.啤酒、面包C.面包、尿布D.啤酒、牛奶12)下表是一個購物籃,假定支持度閾值為40%,其中(AD)是頻繁閉項集。ID項集面包、牛奶、尿面包、牛奶、尿布、啤牛奶、尿布、雞面包、尿布、啤酒、雞啤酒、雞A.面包、牛奶、尿布面包、啤酒尿布、啤酒D.啤酒、雞蛋C.影響。(ABCD)13)Apriori算法的計算復(fù)雜度受支持度閥值A(chǔ).項數(shù)(維度)C.事務(wù)數(shù)D.事務(wù)平均寬度AD)正確的是(14)以下關(guān)于非頻繁模式說法,都是不讓人感興趣的A.其支持度小于閾值C.包含負(fù)模式和負(fù)相關(guān)模式D.對異常數(shù)據(jù)項敏感:(ACD)15)以下屬于分類器評價或比較尺度的有預(yù)測準(zhǔn)確度B.召回率A.模型描述的簡潔度C.D.計算復(fù)雜度AB(BBN)16)貝葉斯信念網(wǎng)絡(luò)有如下哪些特點。()構(gòu)造網(wǎng)絡(luò)費時費力A.對模型的過分問題非常魯棒B.貝葉斯網(wǎng)絡(luò)不適合處理不完整的數(shù)據(jù)C.網(wǎng)絡(luò)結(jié)構(gòu)確定后,添加變量相當(dāng)麻煩17)如下哪些不是最近鄰分類器的特點。(C)它使用具體的訓(xùn)練

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論