2023年商業(yè)經(jīng)濟行業(yè)技能考試-數(shù)據(jù)挖掘工程師考試沖刺-歷年真題演練帶答案_第1頁
2023年商業(yè)經(jīng)濟行業(yè)技能考試-數(shù)據(jù)挖掘工程師考試沖刺-歷年真題演練帶答案_第2頁
2023年商業(yè)經(jīng)濟行業(yè)技能考試-數(shù)據(jù)挖掘工程師考試沖刺-歷年真題演練帶答案_第3頁
2023年商業(yè)經(jīng)濟行業(yè)技能考試-數(shù)據(jù)挖掘工程師考試沖刺-歷年真題演練帶答案_第4頁
2023年商業(yè)經(jīng)濟行業(yè)技能考試-數(shù)據(jù)挖掘工程師考試沖刺-歷年真題演練帶答案_第5頁
已閱讀5頁,還剩8頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

(圖片大小可任意調(diào)節(jié))2023年商業(yè)經(jīng)濟行業(yè)技能考試-數(shù)據(jù)挖掘工程師考試沖刺-歷年真題演練帶答案第一卷一.參考題庫(共20題)1.為什么樸素貝葉斯分類稱為“樸素”的?簡述樸素貝葉斯分類優(yōu)缺點。2.簡述雪花模型。3.ID3算法主要存在的缺點是什么?4.離散屬性總是具有有限個值。5.維度可以根據(jù)其變化快慢分為元變化維度、()維度和劇烈變化維度三類。6.MOLAP7.如何用決策樹進行分類?8.關(guān)于OLAP的特性,下面正確的是() (1)快速性(2)可分析性(3)多維性(4)信息性(5)共享性A、(1)(2)(3)B、(2)(3)(4)C、(1)(2)(3)(4)D、(1)(2)(3)(4)(5)9.下表中列出了4個點的兩個最近鄰。使用SNN相似度定義,計算每對點之間的SNN相似度。 10.以下哪種聚類方法可以發(fā)現(xiàn)任意形狀的聚類?()A、劃分的方法B、基于模型的方法C、基于密度的方法D、層次的方法11.數(shù)據(jù)倉庫的三層架構(gòu)主要包括以下哪三部分?()A、數(shù)據(jù)源B、數(shù)據(jù)倉庫服務(wù)器C、OLAP服務(wù)器D、前端工具12.如果規(guī)則不滿足置信度閾值,則形如的規(guī)則一定也不滿足置信度閾值,其中是X的子集。13.根據(jù)關(guān)聯(lián)分析中所涉及的抽象層,可以將關(guān)聯(lián)規(guī)則分類為()。A、布爾關(guān)聯(lián)規(guī)則B、單層關(guān)聯(lián)規(guī)則C、多維關(guān)聯(lián)規(guī)則D、多層關(guān)聯(lián)規(guī)則14.數(shù)據(jù)挖掘的預(yù)測建模任務(wù)主要包括哪幾大類問題?()A、分類B、回歸C、模式發(fā)現(xiàn)D、模式匹配15.項集的頻率是指()16.可視化技術(shù)對于分析的數(shù)據(jù)類型通常不是專用性的。17.數(shù)據(jù)倉庫系統(tǒng)的體系結(jié)構(gòu)根據(jù)應(yīng)用需求的不同,可以分為以下4種類型:()、獨立型數(shù)據(jù)集合、以來型數(shù)據(jù)結(jié)合和操作型數(shù)據(jù)存儲和邏輯型數(shù)據(jù)集中和實時數(shù)據(jù)倉庫。18.某超市研究銷售紀錄數(shù)據(jù)后發(fā)現(xiàn),買啤酒的人很大概率也會購買尿布,這種屬于數(shù)據(jù)挖掘的哪類問題?()A、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)B、聚類C、分類D、自然語言處理19.數(shù)據(jù)分類模型的常用表示形式包括()、()等。20.基于網(wǎng)格的聚類方法的優(yōu)點是:()第二卷一.參考題庫(共20題)1.考慮如下的頻繁3-項集:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}。 (a)根據(jù)Apriori算法的候選項集生成方法,寫出利用頻繁3-項集生成的所有候選4-項集。 (b)寫出經(jīng)過剪枝后的所有候選4-項集。2.分類方法的常用評估度量都有哪些?3.數(shù)據(jù)挖掘的特征:()。4.()這些數(shù)據(jù)特性都是對聚類分析具有很強影響的。A、高維性B、規(guī)模C、稀疏性D、噪聲和離群點5.尋找模式和規(guī)則主要是對數(shù)據(jù)進行干擾,使其符合某種規(guī)則以及模式。6.定量屬性可以是整數(shù)值或者是連續(xù)值。7.數(shù)據(jù)從集結(jié)區(qū)加載到數(shù)據(jù)倉庫中的主要方法是什么?8.下面哪種分類方法是屬于神經(jīng)網(wǎng)絡(luò)學習算法?()A、判定樹歸納B、貝葉斯分類C、后向傳播分類D、基于案例的推理9.簡述分類器設(shè)計階段包含的3個過程。10.當前的數(shù)據(jù)挖掘研究中,最主要的三個研究方向是:()、()和()11.常見的分箱方法有哪些?數(shù)據(jù)平滑處理的方法有哪些?12.簡述K-means算法的基本操作步驟(包括算法的輸入和輸出)。13.在基于圖的簇評估度量表里面,如果簇度量為proximity(Ci,C),簇權(quán)值為mi,那么它的類型是()。A、基于圖的凝聚度B、基于原型的凝聚度C、基于原型的分離度D、基于圖的凝聚度和分離度14.在判定樹歸納中,為什么樹剪枝是有用的?15.關(guān)于OLAP和OLTP的說法,下列不正確的是()A、OLAP事務(wù)量大,但事務(wù)內(nèi)容比較簡單且重復(fù)率高B、OLAP的最終數(shù)據(jù)來源與OLTP不一樣C、OLTP面對的是決策人員和高層管理人員D、OLTP以應(yīng)用為核心,是應(yīng)用驅(qū)動的16.下面哪個不屬于數(shù)據(jù)的屬性類型:()。A、標稱B、序數(shù)C、區(qū)間D、相異17.在評價不平衡類問題分類的度量方法有如下幾種,()。A、F1度量B、召回率(recall)C、精度(precision)D、真正率(turepositiverate,TPR)18.數(shù)據(jù)倉庫數(shù)據(jù)庫常見的存儲優(yōu)化方法包括()、反向規(guī)范化引入冗余、表的物理分割。19.簡述數(shù)據(jù)分類的兩步過程。20.下列哪些是數(shù)據(jù)變換可能涉及的內(nèi)容?()A、數(shù)據(jù)壓縮B、數(shù)據(jù)概化C、維歸約D、規(guī)范化第三卷一.參考題庫(共20題)1.為什么時間總是數(shù)據(jù)倉庫或數(shù)據(jù)集市的維?2.數(shù)據(jù)挖掘要解決的問題是什么?3.尋找數(shù)據(jù)集中的關(guān)系是為了尋找精確、方便并且有價值地總結(jié)了數(shù)據(jù)的某一特征的表示,這個過程包括了以下哪些步驟?()A、決定要使用的表示的特征和結(jié)構(gòu)B、決定如何量化和比較不同表示擬合數(shù)據(jù)的好壞C、選擇一個算法過程使評分函數(shù)最優(yōu)D、決定用什么樣的數(shù)據(jù)管理原則以高效地實現(xiàn)算法4.進行數(shù)據(jù)預(yù)處理時所使用的主要方法包括:()、()、()和()5.使用交互式的和可視化的技術(shù),對數(shù)據(jù)進行探索屬于數(shù)據(jù)挖掘的哪一類任務(wù)?()A、探索性數(shù)據(jù)分析B、建模描述C、預(yù)測建模D、尋找模式和規(guī)則6.數(shù)據(jù)挖掘處理的對象有哪些?請從實際生活中舉出至少三種。7.抽取、轉(zhuǎn)換、加載過程的目的是為決策支持應(yīng)用提供一個()、權(quán)威數(shù)據(jù)源。因此,我們要求ETL過程產(chǎn)生的數(shù)據(jù)是詳細的、歷史的、規(guī)范的、可理解的、即時的和質(zhì)量可控制的。8.假設(shè)屬性income的最大最小值分別是12000元和98000元。利用最大最小規(guī)范化的方法將屬性的值映射到0至1的范圍內(nèi)。對屬性income的73600元將被轉(zhuǎn)化為:()。A、0.821B、1.224C、1.458D、0.7169.在項目實施時,根據(jù)事實表的特點和擁護的查詢需求,可以選用()、業(yè)務(wù)類型、區(qū)域和下屬組織等多種數(shù)據(jù)分割類型。10.貝葉斯信念網(wǎng)絡(luò)(BBN)有如下哪些特點,()。A、構(gòu)造網(wǎng)絡(luò)費時費力B、對模型的過分問題非常魯棒C、貝葉斯網(wǎng)絡(luò)不適合處理不完整的數(shù)據(jù)D、網(wǎng)絡(luò)結(jié)構(gòu)確定后,添加變量相當麻煩11.考慮兩隊之間的足球比賽:隊0和隊1。假設(shè)65%的比賽隊0勝出,剩余的比賽隊1獲勝。隊0獲勝的比賽中只有30%是在隊1的主場,而隊1取勝的比賽中75%是主場獲勝。如果下一場比賽在隊1的主場進行隊1獲勝的概率為()。A、0.75B、0.35C、0.4678D、0.573812.請列出3種數(shù)據(jù)倉庫產(chǎn)品,并說明其優(yōu)缺點。13.在數(shù)據(jù)挖掘中,常用的聚類算法包括:()、()、()、基于網(wǎng)格的方法和基于模型的方法。14.下面關(guān)于數(shù)據(jù)粒度的描述不正確的是()A、粒度是指數(shù)據(jù)倉庫小數(shù)據(jù)單元的詳細程度和級別B、數(shù)據(jù)越詳細,粒度就越小,級別也就越高C、數(shù)據(jù)綜合度越高,粒度也就越大,級別也就越高D、粒度的具體劃分將直接影響數(shù)據(jù)倉庫中的數(shù)據(jù)量以及查詢質(zhì)量15.定義下列數(shù)據(jù)挖掘功能: 關(guān)聯(lián)、分類、聚類、演變分析、離群點檢測 使用你熟悉的生活中的數(shù)據(jù),給出每種數(shù)據(jù)挖掘功能的例子。16.如果允許一條記錄觸發(fā)多條分類規(guī)則,把每條被觸發(fā)規(guī)則的后件看作是對相應(yīng)類的一次投票,然后計票確定測試記錄的類標號,稱為()。A、無序規(guī)則B、窮舉規(guī)則C、互斥規(guī)則D、有序規(guī)則17.關(guān)于數(shù)據(jù)倉庫的設(shè)計,四種不同的視圖必須考慮,分別是:()、()、()、()18.企業(yè)面對海量數(shù)據(jù),應(yīng)如何具體實施數(shù)據(jù)挖掘,使之轉(zhuǎn)換成可行的結(jié)果/模型?19.Web挖掘包括哪些步驟?20.確定了數(shù)據(jù)倉庫的粒度模型以后,為提高數(shù)據(jù)倉庫的使用性能,還需要根據(jù)擁護需求設(shè)計()第一卷參考答案一.參考題庫1.正確答案:基于貝葉斯定理的推斷需要大量訓練數(shù)據(jù)以覆蓋類條件概率空間,引入了很大開銷。樸素貝葉斯分類做了類條件獨立假設(shè),大幅降低了計算開銷。他的優(yōu)點是容易實現(xiàn)并在大多數(shù)情況下可以取得較好的結(jié)果;他的缺陷是類條件獨立在實際應(yīng)用缺乏準確性,因為變量之間經(jīng)常存在依賴關(guān)系,這種依賴關(guān)系影響了樸素貝葉斯分類器的準確性。2.正確答案:雪花模式中某些維表是規(guī)范化的,因而把數(shù)據(jù)進一步分解到附加的表中,模式圖形成了類似雪花的形狀。通過最大限度地減少數(shù)據(jù)存儲量以及聯(lián)合較小的維表來改善查詢性能。雪花模型增加了用戶必須處理的表數(shù)量,增加了某些查詢的復(fù)雜性,但同時提高了處理的靈活性,可以回答更多的商業(yè)問題,特別適合系統(tǒng)的逐步建設(shè)要求。3.正確答案:(1)ID3算法在選擇根結(jié)點和各內(nèi)部結(jié)點中的分枝屬性時,使用信息增益作為評價標準。信息增益的缺點是傾向于選擇取值較多的屬性,在有些情況下這類屬性可能不會提供太多有價值的信息。 (2)ID3算法只能對描述屬性為離散型屬性的數(shù)據(jù)集構(gòu)造決策樹。4.正確答案:錯誤5.正確答案:緩慢變化6.正確答案:是基于類似于“超立方”塊的OLAP存儲結(jié)構(gòu),由許多經(jīng)壓縮的、類似于多維數(shù)組的對象構(gòu)成,并帶有高度壓縮的索引及指針結(jié)構(gòu),通過直接偏移計算進行存取。7.正確答案:決策樹用于對新樣本的分類,即通過決策樹對新樣本屬性值的測試,從樹的根結(jié)點開始,按照樣本屬性的取值,逐漸沿著決策樹向下,直到樹的葉結(jié)點,該葉結(jié)點表示的類別就是新樣本的類別。決策樹方法是數(shù)據(jù)挖掘中非常有效的分類方法。8.正確答案:D9.正確答案:SNN即共享最近鄰個數(shù)為其相似度。 點1和點2的SNN相似度:0(沒有共享最近鄰) 點1和點3的SNN相似度:1(共享點4這個最近鄰) 點1和點4的SNN相似度:1(共享點3這個最近鄰) 點2和點3的SNN相似度:1(共享點4這個最近鄰) 點2和點4的SNN相似度:1(共享點3這個最近鄰) 點3和點4的SNN相似度:0(沒有共享最近鄰)10.正確答案:C11.正確答案:B,C,D12.正確答案:正確13.正確答案:B,D14.正確答案:A,B15.正確答案:包含項集的事務(wù)數(shù)16.正確答案:錯誤17.正確答案:兩層架構(gòu)18.正確答案:A19.正確答案:分類規(guī)則;決策樹和數(shù)學公式20.正確答案:處理速度快第二卷參考答案一.參考題庫1.正確答案:(a)利用頻繁3-項集生成的所有候選4-項集: {1,2,3,4},{1,2,3,5},{1,2,4,5},{1,3,4,5},{2,3,4,5} (b)經(jīng)過剪枝后的所有候選4-項集: {1,2,3,4},{1,2,3,5}2.正確答案: 精度(precision):標記為正類的元組實際為正類所占的百分比。召回率:正元組標記為正的百分比。F量度:精度和召回率的調(diào)和評估指標。準確率,識別率:測試數(shù)據(jù)中正被正確分類的元組所占的百分比。 靈敏度:真正例(識別)率。特效性:真負例率。3.正確答案:先前未知,有效和實用4.正確答案:A,B,C,D5.正確答案:錯誤6.正確答案:正確7.正確答案:SQL命令(如Insert或Update) 由DW供應(yīng)商或第三方提供專門的加載工具 由DW管理員編寫自定義程序8.正確答案:C9.正確答案:劃分數(shù)據(jù)集,分類器構(gòu)造,分類器測試。10.正確答案:統(tǒng)計學;數(shù)據(jù)路技術(shù);機器學習11.正確答案:分箱的方法主要有:①統(tǒng)一權(quán)重法(又稱等深分箱法)②統(tǒng)一區(qū)間法(又稱等寬分箱法)③最小熵法④自定義區(qū)間法數(shù)據(jù)平滑的方法主要有:平均值法、邊界值法和中值法。12.正確答案:13.正確答案:C14.正確答案:決策樹建立時,血多分析反映的是訓練數(shù)據(jù)中的噪聲和離群點點,樹剪枝可以識別并剪去這種分枝,以提高對未知數(shù)據(jù)分類的準確性。15.正確答案:A16.正確答案:D17.正確答案:A,B,C,D18.正確答案:表的歸并與簇文件19.正確答案: 第一步,建立模型:建立描述預(yù)先定義的數(shù)據(jù)類或概念集的分類器; 第二步,在獨立測試集上評估模型的預(yù)測準確率,通過測試后再使用模型,對新的數(shù)據(jù)進行分類。20.正確答案:B,D第三卷參考答案一.參考題庫1.正確答案:因為數(shù)據(jù)倉庫或數(shù)據(jù)集市的數(shù)據(jù)總是歷史的數(shù)據(jù),需要時間維來區(qū)別。2.正確答案:面對高維,復(fù)雜,異構(gòu)的海量數(shù)據(jù),如何集中獲取有用的信息和知識。3.正確答案:A,B,C,D4.正確答案:數(shù)據(jù)清理;數(shù)據(jù)集成;數(shù)據(jù)變換;數(shù)據(jù)規(guī)約5.正確答案:A6.正確答案:數(shù)據(jù)挖掘處理的對象是某一專業(yè)領(lǐng)域中積累的數(shù)據(jù),對象既可以來自社會科學,又可以來自自然科學產(chǎn)生的數(shù)據(jù),還可以是衛(wèi)星觀測得到的數(shù)據(jù)。數(shù)據(jù)形式和結(jié)構(gòu)也各不相同,可以是傳統(tǒng)的關(guān)系數(shù)據(jù)庫,可以是面向?qū)ο蟮母呒墧?shù)據(jù)庫系統(tǒng),也可以是面向特殊應(yīng)用的數(shù)據(jù)庫,如空間數(shù)據(jù)庫、時序數(shù)據(jù)庫、文本數(shù)據(jù)庫和多媒體數(shù)據(jù)庫等,還可以是Web數(shù)據(jù)信息。 實際生活的例子: ①電信行業(yè)中利用數(shù)據(jù)挖掘技術(shù)進行客戶行為分析,包含客戶通話記錄、通話時間、所開通的服務(wù)等,據(jù)此進行客戶群體劃分以及客戶流失性分析。 ②天文領(lǐng)域中利用決策樹等數(shù)據(jù)挖掘方法對上百萬天體數(shù)據(jù)進行分類與分析,幫助天文學家發(fā)現(xiàn)其他未知星體。 ③制造業(yè)中應(yīng)用數(shù)據(jù)挖掘技術(shù)進行零部件故障診斷、資源優(yōu)化、生產(chǎn)過程分析等。 ④市場業(yè)中應(yīng)用數(shù)據(jù)挖掘技術(shù)進行市場定位、消費者分析、輔助制定市場營銷策略等。7.正確答案:單一的8.正確答案:D9.正確答案:時間10.正確答案:A,B11.正確答案:D12.正確答案: (1)IBM提供了基于可視化數(shù)據(jù)倉庫的商業(yè)智能(BI)解決方案,包括:VisualWarehouse(VW),Essbase/DB2OLAPServer5.0、IBMDB2UDB,其中,VW是一個功能很強的集成環(huán)境,既可用于數(shù)據(jù)倉庫建模和元數(shù)據(jù)管理,又可用于數(shù)據(jù)抽取、轉(zhuǎn)換、裝載和調(diào)度。Essbase/DB2OLAPServer支持“維”的定義和數(shù)據(jù)裝載。 (2)Oracle數(shù)據(jù)倉庫解決方案主要包括OracleExpress和OracleDiscoverer兩個部分。OracleExpress由四個工具組成:OracleExpressServer是一個MOLAP(多維OLAP)服務(wù)器,它利用多維模型,存儲和管理多維數(shù)據(jù)庫或多維高速緩存,同時也能夠訪問多種關(guān)系數(shù)據(jù)庫 (3)Microsoft將OLAP功能集成到SQLServer數(shù)據(jù)庫中,其解決方案包括BI平臺、BI終端工具、BI門戶和BI應(yīng)用四個部分。BI平臺是BI解決方案的基礎(chǔ),包括ETL平臺SQLServer2005IntegrationService(SSIS)、數(shù)據(jù)倉庫引擎SQLServer2005RDBMS以及多維分析和數(shù)據(jù)挖掘引擎SQLServer2005AnalysisService、報表管理引擎SQLServer2005ReportingService。13.正確答案:劃分方法;層次方法;基于密度的方法14.正確答案:C15.正確答案:關(guān)聯(lián)是指發(fā)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論