數據挖掘考試題庫

上傳人：伐*** IP屬地：寧夏上傳時間：2021-10-28 格式：DOC 頁數：11 大?。?19.01KB 積分：12 舉報 版權申訴

已閱讀5頁，還剩6頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

1、一、填空題1. web挖掘可分為、和3大類。2. 數據倉庫需要統(tǒng)一數據源，包括統(tǒng)一、統(tǒng)一、統(tǒng)一和統(tǒng)一數據特征4個方面。3. 數據分割通常按時間、以及組合方法進行。4. 噪聲數據處理的方法主要有、和。5. 數值歸約的常用方法有、和對數模型等。6. 評價關聯規(guī)則的2個主要指標是和。7. 多維數據集通常采用或雪花型架構，以表為中心，連接多個表。8. 決策樹是用作為結點，用作為分支的樹結構。9. 關聯可分為簡單關聯、和。10. bp神經網絡的作用函數通常為區(qū)間的。11. 數據挖掘的過程主要包括確定業(yè)務對象、及知識同化等幾個步驟。12. 數據挖掘技術主要涉及、和3個技術領域。13. 數據挖掘的主要功

2、能包括、趨勢分析、孤立點分析和偏差分析7個方面。14. 人工神經網絡具有和等特點，其結構模型包括、和自組織網絡3種。15. 數據倉庫數據的4個基本特征是、非易失、隨時間變化。16. 數據倉庫的數據通常劃分為、和等幾個級別。17. 數據預處理的主要內容(方法)包括、和數據歸約等。18. 平滑分箱數據的方法主要有、和。19. 數據挖掘發(fā)現知識的類型主要有廣義知識、和偏差型知識五種。20. olap的數據組織方式主要有和兩種。21. 常見的olap多維數據分析包括、和旋轉等操作。22. 傳統(tǒng)的決策支持系統(tǒng)是以和驅動，而新決策支持系統(tǒng)則是以、建立在和技術之上。23. olap的數據組織方式主要有和

3、2種。24. sql server2000的olap組件叫，olap操作窗口叫。25. bp神經網絡由、以及一或多個結點組成。26. 遺傳算法包括、3個基本算子。27. 聚類分析的數據通?？煞譃閰^(qū)間標度變量、序數型以及混合類型等。28. 聚類分析中最常用的距離計算公式有、等。29. 基于劃分的聚類算法有和。30. clementine的工作流通常由、和等節(jié)點連接而成。31. 簡單地說，數據挖掘就是從中挖掘的過程。32. 數據挖掘相關的名稱還有、等。二、判斷題( )1. 數據倉庫的數據量越大，其應用價值也越大。( )2. 啤酒與尿布的故事是聚類分析的典型實例。( )3. 等深分箱法使每個箱子的

4、記錄個數相同。( )4. 數據倉庫“粒度”越細，記錄數越少。( )5. 數據立方體由3維構成，z軸表示事實數據。( )6. 決策樹方法通常用于關聯規(guī)則挖掘。( )7. id3算法是決策樹方法的早期代表。( )8. c4.5是一種典型的關聯規(guī)則挖掘算法。( )9. 回歸分析通常用于挖掘關聯規(guī)則。( )10. 人工神經網絡特別適合解決多參數大復雜度問題。( )11. 概念關系分析是文本挖掘所獨有的。( )12. 可信度是對關聯規(guī)則的準確度的衡量。( )13. 孤立點在數據挖掘時總是被視為異常、無用數據而丟棄。( )14. sql server 2000不提供關聯規(guī)則挖掘算法。( )15. clem

5、entine是ibm公司的專業(yè)級數據挖掘軟件。( )16. 決策樹方法特別適合于處理數值型數據。( )17. 數據倉庫的數據為歷史數據，從來不需要更新。( )18. 等寬分箱法使每個箱子的取值區(qū)間相同。( )19. 數據立方體是廣義知識發(fā)現的方法和技術之一。( )20. 數據立方體的其中一維用于記錄事實數據。( )21. 決策樹通常用于分類與預測。( )22. apriori算法是一種典型的關聯規(guī)則挖掘算法。( )23. 支持度是衡量關聯規(guī)則重要性的一個指標。( )24. sql server 2000集成了olap，但不具有數據挖掘功能。( )25. 人工神經網絡常用于分類與預測。三、名詞

6、解釋1. 數據倉庫：是一種新的數據處理體系結構，是面向主題的、集成的、不可更新的(穩(wěn)定性)、隨時間不斷變化(不同時間)的數據集合，為企業(yè)決策支持系統(tǒng)提供所需的集成信息。2. 孤立點：指數據庫中包含的一些與數據的一般行為或模型不一致的異常數據。3. olap：olap是在oltp的基礎上發(fā)展起來的，以數據倉庫為基礎的數據分析處理，是共享多維信息的快速分析，是被專門設計用于支持復雜的分析操作，側重對分析人員和高層管理人員的決策支持。4. 粒度：指數據倉庫的數據單位中保存數據細化或綜合程度的級別。粒度影響存放在數據倉庫中的數據量的大小，同時影響數據倉庫所能回答查詢問題的細節(jié)程度。5. 數據規(guī)范化：指

7、將數據按比例縮放(如更換大單位)，使之落入一個特定的區(qū)域（如01）以提高數據挖掘效率的方法。規(guī)范化的常用方法有：最大最小規(guī)范化、零均值規(guī)范化、小數定標規(guī)范化。6. 關聯知識：是反映一個事件和其他事件之間依賴或相互關聯的知識。如果兩項或多項屬性之間存在關聯，那么其中一項的屬性值就可以依據其他屬性值進行預測。7. 數據挖掘：從大量的、不完全的、有噪聲的、模糊的、隨機的數據中，提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。8. oltp：oltp為聯機事務處理的縮寫，olap是聯機分析處理的縮寫。前者是以數據庫為基礎的，面對的是操作人員和低層管理人員，對基本數據進行查詢和增、

8、刪、改等處理。9. rolap：是基于關系數據庫存儲方式的，在這種結構中，多維數據被映像成二維關系表，通常采用星型或雪花型架構，由一個事實表和多個維度表構成。10. molap：是基于類似于“超立方”塊的olap存儲結構，由許多經壓縮的、類似于多維數組的對象構成，并帶有高度壓縮的索引及指針結構，通過直接偏移計算進行存取。11. 數據歸約：縮小數據的取值范圍，使其更適合于數據挖掘算法的需要，并且能夠得到和原始數據相同的分析結果。12. 廣義知識：通過對大量數據的歸納、概括和抽象，提煉出帶有普遍性的、概括性的描述統(tǒng)計的知識。13. 預測型知識：是根據時間序列型數據，由歷史的和當前的數據去推測未來的

9、數據，也可以認為是以時間為關鍵屬性的關聯知識。14. 偏差型知識：是對差異和極端特例的描述，用于揭示事物偏離常規(guī)的異?，F象，如標準類外的特例，數據聚類外的離群值等。15. 遺傳算法：是一種優(yōu)化搜索算法，它首先產生一個初始可行解群體，然后對這個群體通過模擬生物進化的選擇、交叉、變異等遺傳操作遺傳到下一代群體，并最終達到全局最優(yōu)。16. 聚類：是將物理或抽象對象的集合分組成為多個類或簇(cluster)的過程，使得在同一個簇中的對象之間具有較高的相似度，而不同簇中的對象差別較大。17. 決策樹：是用樣本的屬性作為結點，用屬性的取值作為分支的樹結構。它是分類規(guī)則挖掘的典型方法，可用于對新樣本進行分類

10、。18. 相異度矩陣：是聚類分析中用于表示各對象之間相異度的一種矩陣，n個對象的相異度矩陣是一個nn維的單模矩陣，其對角線元素均為0，對角線兩側元素的值相同。19. 頻繁項集：指滿足最小支持度的項集，是挖掘關聯規(guī)則的基本條件之一。20. 支持度：規(guī)則ab的支持度指的是所有事件中a與b同地發(fā)生的的概率，即p(ab)，是ab同時發(fā)生的次數與事件總次數之比。支持度是對關聯規(guī)則重要性的衡量。21. 可信度：規(guī)則ab的可信度指的是包含a項集的同時也包含b項集的條件概率p(b|a)，是ab同時發(fā)生的次數與a發(fā)生的所有次數之比?？尚哦仁菍﹃P聯規(guī)則的準確度的衡量。22. 關聯規(guī)則：同時滿足最小支持度閾值和最小

11、可信度閾值的規(guī)則稱之為關聯規(guī)則。四、綜合題1. 何謂數據挖掘？它有哪些方面的功能？從大量的、不完全的、有噪聲的、模糊的、隨機的數據中，提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程稱為數據挖掘。相關的名稱有知識發(fā)現、數據分析、數據融合、決策支持等。數據挖掘的功能包括：概念描述、關聯分析、分類與預測、聚類分析、趨勢分析、孤立點分析以及偏差分析等。2. 何謂數據倉庫？為什么要建立數據倉庫？數據倉庫是一種新的數據處理體系結構，是面向主題的、集成的、不可更新的(穩(wěn)定性)、隨時間不斷變化(不同時間)的數據集合，為企業(yè)決策支持系統(tǒng)提供所需的集成信息。建立數據倉庫的目的有3個：一是為

12、了解決企業(yè)決策分析中的系統(tǒng)響應問題，數據倉庫能提供比傳統(tǒng)事務數據庫更快的大規(guī)模決策分析的響應速度。二是解決決策分析對數據的特殊需求問題。決策分析需要全面的、正確的集成數據，這是傳統(tǒng)事務數據庫不能直接提供的。三是解決決策分析對數據的特殊操作要求。決策分析是面向專業(yè)用戶而非一般業(yè)務員，需要使用專業(yè)的分析工具，對分析結果還要以商業(yè)智能的方式進行表現，這是事務數據庫不能提供的。3. 列舉操作型數據與分析型數據的主要區(qū)別。操作型數據分析型數據當前的、細節(jié)的歷史的、綜合的面向應用、事務驅動面向分析、分析驅動頻繁增、刪、改幾乎不更新，定期追加操作需求事先知道分析需求事先不知道生命周期符合sdlc完全不同的生

13、命周期對性能要求高對性能要求寬松一次操作數據量小一次操作數據量大支持日常事務操作支持管理決策需求4. 何謂oltp和olap？它們的主要異同有哪些？oltp即聯機事務處理，是以傳統(tǒng)數據庫為基礎、面向操作人員和低層管理人員、對基本數據進行查詢和增、刪、改等的日常事務處理。olap即聯機分析處理，是在oltp基礎上發(fā)展起來的、以數據倉庫基礎上的、面向高層管理人員和專業(yè)分析人員、為企業(yè)決策支持服務。oltp和olap的主要區(qū)別如下表：oltpolap數據庫數據數據庫或數據倉庫數據細節(jié)性數據綜合性數據當前數據歷史數據經常更新不更新，但周期性刷新一次性處理的數據量小一次處理的數據量大對響應時間要求高響應

14、時間合理用戶數量大用戶數據相對較少面向操作人員，支持日常操作面向決策人員，支持管理需要面向應用，事務驅動面向分析，分析驅動5. 何謂粒度？它對數據倉庫有什么影響？按粒度組織數據的方式有哪些？粒度是指數據倉庫的數據單位中保存數據細化或綜合程度的級別。粒度影響存放在數據倉庫中的數據量的大小，同時影響數據倉庫所能回答查詢問題的細節(jié)程度。按粒度組織數據的方式主要有：簡單堆積結構輪轉綜合結構簡單直接結構連續(xù)結構6. 簡述數據倉庫設計的三級模型及其基本內容。概念模型設計是在較高的抽象層次上的設計，其主要內容包括：界定系統(tǒng)邊界和確定主要的主題域。邏輯模型設計的主要內容包括：分析主題域、確定粒度層次劃

15、分、確定數據分割策略、定義關系模式、定義記錄系統(tǒng)。物理數據模型設計的主要內容包括：確定數據存儲結構、確定數據存放位置、確定存儲分配以及確定索引策略等。在物理數據模型設計時主要考慮的因素有: i/o存取時間、空間利用率和維護代價等。提高性能的主要措施有劃分粒度、數據分割、合并表、建立數據序列、引入冗余、生成導出數據、建立廣義索引等。7. 在數據挖掘之前為什么要對原始數據進行預處理？原始業(yè)務數據來自多個數據庫或數據倉庫，它們的結構和規(guī)則可能是不同的，這將導致原始數據非常的雜亂、不可用，即使在同一個數據庫中，也可能存在重復的和不完整的數據信息，為了使這些數據能夠符合數據挖掘的要求，提高效率和得到清晰

16、的結果，必須進行數據的預處理。為數據挖掘算法提供完整、干凈、準確、有針對性的數據，減少算法的計算量，提高挖掘效率和準確程度。8. 簡述數據預處理方法和內容。數據清洗：包括填充空缺值，識別孤立點，去掉噪聲和無關數據。數據集成：將多個數據源中的數據結合起來存放在一個一致的數據存儲中。需要注意不同數據源的數據匹配問題、數值沖突問題和冗余問題等。數據變換：將原始數據轉換成為適合數據挖掘的形式。包括對數據的匯總、聚集、概化、規(guī)范化，還可能需要進行屬性的重構。數據歸約：縮小數據的取值范圍，使其更適合于數據挖掘算法的需要，并且能夠得到和原始數據相同的分析結果。9. 簡述數據清理的基本內容。盡可能賦

17、予屬性名和屬性值明確的含義；統(tǒng)一多數據源的屬性值編碼；去除無用的惟一屬性或鍵值(如自動增長的id)；去除重復屬性(在某些分析中，年齡和出生日期可能就是重復的屬性，但在某些時候它們可能又是同時需要的) 去除可忽略字段(大部分為空值的屬性一般是沒有什么價值的，如果不去除可能造成錯誤的數據挖掘結果) 合理選擇關聯字段(對于多個關聯性較強的屬性，重復無益，只需選擇其中的部分用于數據挖掘即可，如價格、數據、金額) 去掉數據中的噪音、填充空值、丟失值和處理不一致數據。10. 簡述處理空缺值的方法。忽略該記錄；去掉屬性；手工填寫空缺值；使用默認值；使用屬性平均值；使用同類樣本平均值；預測

18、最可能的值。11. 常見的分箱方法有哪些？數據平滑處理的方法有哪些？分箱的方法主要有：統(tǒng)一權重法(又稱等深分箱法) 統(tǒng)一區(qū)間法(又稱等寬分箱法) 最小熵法自定義區(qū)間法數據平滑的方法主要有：平均值法、邊界值法和中值法。12. 何謂數據規(guī)范化？規(guī)范化的方法有哪些？寫出對應的變換公式。將數據按比例縮放(如更換大單位)，使之落入一個特定的區(qū)域（如0.01.0），稱為規(guī)范化。規(guī)范化的常用方法有：(1) 最大最小規(guī)范化：(2) 零均值規(guī)范化：(3) 小數定標規(guī)范化：xx0/1013. 數據歸約的方法有哪些？為什么要進行維歸約？數據立方體聚集維歸約數據壓縮數值壓縮離散化和概念分層維歸約可以去掉

19、不重要的屬性，減少數據立方體的維數，從而減少數據挖掘處理的數據量，提高挖掘效率。14. 何謂聚類？它與分類有什么異同？聚類是將物理或抽象對象的集合分組成為多個類或簇(cluster)的過程，使得在同一個簇中的對象之間具有較高的相似度，而不同簇中的對象差別較大。聚類與分類不同，聚類要劃分的類是未知的，分類則可按已知規(guī)則進行；聚類是一種無指導學習，它不依賴預先定義的類和帶類標號的訓練實例，屬于觀察式學習，分類則屬于有指導的學習，是示例式學習。15. 舉例說明聚類分析的典型應用。商業(yè)：幫助市場分析人員從客戶基本庫中發(fā)現不同的客戶群，并且用不同的購買模式描述不同客戶群的特征。生物學：推導植物或動物的分

20、類，對基于進行分類，獲得對種群中固有結構的認識。web文檔分類其他：如地球觀測數據庫中相似地區(qū)的確定；各類保險投保人的分組；一個城市中不同類型、價值、地理位置房子的分組等。聚類分析還可作為其他數據挖掘算法的預處理：即先進行聚類，然后再進行分類等其他的數據挖掘。聚類分析是一種數據簡化技術，它把基于相似數據特征的變量或個案組合在一起。16. 聚類分析中常見的數據類型有哪些？何謂相異度矩陣？它有什么特點？常見數據類型有區(qū)間標度變量、比例標度型變量、二元變量、標稱型、序數型以及混合類型等。相異度矩陣是用于存儲所有對象兩兩之間相異度的矩陣，為一個nn維的單模矩陣。其特點是d(i,j)=d(j,i)，d(

21、i,i)=0，d(j,j)=0。如下所示：17. 分類知識的發(fā)現方法主要有哪些？分類過程通常包括哪兩個步驟？分類規(guī)則的挖掘方法通常有：決策樹法、貝葉斯法、人工神經網絡法、粗糙集法和遺傳算法。分類的過程包括2步：首先在已知訓練數據集上，根據屬性特征，為每一種類別找到一個合理的描述或模型，即分類規(guī)則；然后根據規(guī)則對新數據進行分類。18. 什么是決策樹？如何用決策樹進行分類？決策樹是用樣本的屬性作為結點，用屬性的取值作為分支的樹結構。它是利用信息論原理對大量樣本的屬性進行分析和歸納而產生的。決策樹的根結點是所有樣本中信息量最大的屬性。樹的中間結點是以該結點為根的子樹所包含的樣本子集中信息量最大的屬性

22、。決策樹的葉結點是樣本的類別值。決策樹用于對新樣本的分類，即通過決策樹對新樣本屬性值的測試，從樹的根結點開始，按照樣本屬性的取值，逐漸沿著決策樹向下，直到樹的葉結點，該葉結點表示的類別就是新樣本的類別。決策樹方法是數據挖掘中非常有效的分類方法。19. 簡述id3算法的基本思想及其主算法的基本步驟。首先找出最有判別力的因素，然后把數據分成多個子集，每個子集又選擇最有判別力的因素進一步劃分，一直進行到所有子集僅包含同一類型的數據為止。最后得到一棵決策樹，可以用它來對新的樣例進行分類。主算法包括如下幾步：從訓練集中隨機選擇一個既含正例又含反例的子集(稱為窗口)；用“建樹算法”對當前窗口形成一棵決策樹

23、；對訓練集(窗口除外)中例子用所得決策樹進行類別判定，找出錯判的例子；若存在錯判的例子，把它們插入窗口，重復步驟，否則結束。20. 簡述id3算法的基本思想及其建樹算法的基本步驟。首先找出最有判別力的因素，然后把數據分成多個子集，每個子集又選擇最有判別力的因素進一步劃分，一直進行到所有子集僅包含同一類型的數據為止。最后得到一棵決策樹，可以用它來對新的樣例進行分類。建樹算法的具體步驟如下：對當前例子集合，計算各特征的互信息；選擇互信息最大的特征ak；把在ak處取值相同的例子歸于同一子集，ak取幾個值就得幾個子集；對既含正例又含反例的子集，遞歸調用建樹算法；若子集僅含正例或反例，對應分枝標上p或n

24、，返回調用處。21. 設某事務項集構成如下表，填空完成其中支持度和置信度的計算。事務id項集l2支持度%規(guī)則置信度%t1a, da, b33.3ab50t2d, ea, c33.3ca60t3a, c, ea, d44.4ad66.7t4a, b, d, eb, d33.3bd75t5a, b, cc, d33.3cd60t6a, b, dd, e33.3de43t7a, c, dt8c, d, et9b, c, d22. 從信息處理角度看，神經元具有哪些基本特征？寫出描述神經元狀態(tài)的m-p方程并說明其含義。基本特征：多輸入、單輸出；突觸兼有興奮和抑制兩種性能；可時間加權和空間加權；可產生脈沖

25、；脈沖可進行傳遞；非線性，有閾值。m-p方程：，wij是神經元之間的連接強度，是閾值，f(x)是階梯函數。23. 遺傳算法與傳統(tǒng)尋優(yōu)算法相比有什么特點？遺傳算法為群體搜索，有利于尋找到全局最優(yōu)解；遺傳算法采用高效有方向的隨機搜索，搜索效率高；遺傳算法處理的對象是個體而不是參變量，具有廣泛的應用領域；遺傳算法使用適應值信息評估個體，不需要導數或其他輔助信息，運算速度快，適應性好；遺傳算法具有隱含并行性，具有更高的運行效率。24. 寫出非對稱二元變量相異度計算公式(即jaccard系數)，并計算下表中各對象間的相異度。測試項目對象test-1test-2test-3test-4test-5test-6obj1ynpnnnobj2ynpnpnobj3nynynn25. 簡述k-平均算法的輸入、輸出及

人人文庫> 全部分類> 應用文書 > 年終總結

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 人人文庫網僅提供信息存儲空間，僅對用戶上傳內容的表現方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

數據挖掘考試題庫

文檔簡介

溫馨提示

最新文檔

評論

數據挖掘考試題庫

文檔簡介

溫馨提示

最新文檔

評論

相關文檔