數(shù)據(jù)挖掘考試題庫

上傳人：b*** IP屬地：貴州上傳時間：2020-10-06 格式：DOC 頁數(shù)：16 大?。?16.50KB 積分：20 舉報 版權申訴

已閱讀5頁，還剩11頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權，請進行舉報或認領

文檔簡介

1、一、填空題1. Web挖掘可分為、和3大類。2. 數(shù)據(jù)倉庫需要統(tǒng)一數(shù)據(jù)源，包括統(tǒng)一、統(tǒng)一、統(tǒng)一和統(tǒng)一數(shù)據(jù)特征4個方面。3. 數(shù)據(jù)分割通常按時間、以及組合方法進行。4. 噪聲數(shù)據(jù)處理的方法主要有、和。5. 數(shù)值歸約的常用方法有、和對數(shù)模型等。6. 評價關聯(lián)規(guī)則的2個主要指標是和。7. 多維數(shù)據(jù)集通常采用或雪花型架構，以表為中心，連接多個表。8. 決策樹是用作為結(jié)點，用作為分支的樹結(jié)構。9. 關聯(lián)可分為簡單關聯(lián)、和。10. BP神經(jīng)網(wǎng)絡的作用函數(shù)通常為區(qū)間的。11. 數(shù)據(jù)挖掘的過程主要包括確定業(yè)務對象、及知識同化等幾個步驟。12. 數(shù)據(jù)挖掘技術主要涉及、和3個技術領域。13. 數(shù)據(jù)挖掘的主要功

2、能包括、趨勢分析、孤立點分析和偏差分析7個方面。14. 人工神經(jīng)網(wǎng)絡具有和等特點，其結(jié)構模型包括、和自組織網(wǎng)絡3種。15. 數(shù)據(jù)倉庫數(shù)據(jù)的4個基本特征是、非易失、隨時間變化。16. 數(shù)據(jù)倉庫的數(shù)據(jù)通常劃分為、和等幾個級別。17. 數(shù)據(jù)預處理的主要內(nèi)容(方法)包括、和數(shù)據(jù)歸約等。18. 平滑分箱數(shù)據(jù)的方法主要有、和。19. 數(shù)據(jù)挖掘發(fā)現(xiàn)知識的類型主要有廣義知識、和偏差型知識五種。20. OLAP的數(shù)據(jù)組織方式主要有和兩種。21. 常見的OLAP多維數(shù)據(jù)分析包括、和旋轉(zhuǎn)等操作。22. 傳統(tǒng)的決策支持系統(tǒng)是以和驅(qū)動，而新決策支持系統(tǒng)則是以、建立在和技術之上。23. OLAP的數(shù)據(jù)組織方式主要有和

3、2種。24. SQL Server2000的OLAP組件叫，OLAP操作窗口叫。25. BP神經(jīng)網(wǎng)絡由、以及一或多個結(jié)點組成。26. 遺傳算法包括、3個基本算子。27. 聚類分析的數(shù)據(jù)通?？煞譃閰^(qū)間標度變量、序數(shù)型以及混合類型等。28. 聚類分析中最常用的距離計算公式有、等。29. 基于劃分的聚類算法有和。30. Clementine的工作流通常由、和等節(jié)點連接而成。31. 簡單地說，數(shù)據(jù)挖掘就是從中挖掘的過程。32. 數(shù)據(jù)挖掘相關的名稱還有、等。二、判斷題( )1. 數(shù)據(jù)倉庫的數(shù)據(jù)量越大，其應用價值也越大。( )2. 啤酒與尿布的故事是聚類分析的典型實例。( )3. 等深分箱法使每個箱子的

4、記錄個數(shù)相同。( )4. 數(shù)據(jù)倉庫“粒度”越細，記錄數(shù)越少。( )5. 數(shù)據(jù)立方體由3維構成，Z軸表示事實數(shù)據(jù)。( )6. 決策樹方法通常用于關聯(lián)規(guī)則挖掘。( )7. ID3算法是決策樹方法的早期代表。( )8. C4.5是一種典型的關聯(lián)規(guī)則挖掘算法。( )9. 回歸分析通常用于挖掘關聯(lián)規(guī)則。( )10. 人工神經(jīng)網(wǎng)絡特別適合解決多參數(shù)大復雜度問題。( )11. 概念關系分析是文本挖掘所獨有的。( )12. 可信度是對關聯(lián)規(guī)則的準確度的衡量。( )13. 孤立點在數(shù)據(jù)挖掘時總是被視為異常、無用數(shù)據(jù)而丟棄。( )14. SQL Server 2000不提供關聯(lián)規(guī)則挖掘算法。( )15. Clem

5、entine是IBM公司的專業(yè)級數(shù)據(jù)挖掘軟件。( )16. 決策樹方法特別適合于處理數(shù)值型數(shù)據(jù)。( )17. 數(shù)據(jù)倉庫的數(shù)據(jù)為歷史數(shù)據(jù)，從來不需要更新。( )18. 等寬分箱法使每個箱子的取值區(qū)間相同。( )19. 數(shù)據(jù)立方體是廣義知識發(fā)現(xiàn)的方法和技術之一。( )20. 數(shù)據(jù)立方體的其中一維用于記錄事實數(shù)據(jù)。( )21. 決策樹通常用于分類與預測。( )22. Apriori算法是一種典型的關聯(lián)規(guī)則挖掘算法。( )23. 支持度是衡量關聯(lián)規(guī)則重要性的一個指標。( )24. SQL Server 2000集成了OLAP，但不具有數(shù)據(jù)挖掘功能。( )25. 人工神經(jīng)網(wǎng)絡常用于分類與預測。三、名詞

6、解釋1. 數(shù)據(jù)倉庫：是一種新的數(shù)據(jù)處理體系結(jié)構，是面向主題的、集成的、不可更新的(穩(wěn)定性)、隨時間不斷變化(不同時間)的數(shù)據(jù)集合，為企業(yè)決策支持系統(tǒng)提供所需的集成信息。2. 孤立點：指數(shù)據(jù)庫中包含的一些與數(shù)據(jù)的一般行為或模型不一致的異常數(shù)據(jù)。3. OLAP：OLAP是在OLTP的基礎上發(fā)展起來的，以數(shù)據(jù)倉庫為基礎的數(shù)據(jù)分析處理，是共享多維信息的快速分析，是被專門設計用于支持復雜的分析操作，側(cè)重對分析人員和高層管理人員的決策支持。4. 粒度：指數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)細化或綜合程度的級別。粒度影響存放在數(shù)據(jù)倉庫中的數(shù)據(jù)量的大小，同時影響數(shù)據(jù)倉庫所能回答查詢問題的細節(jié)程度。5. 數(shù)據(jù)規(guī)范化：指

7、將數(shù)據(jù)按比例縮放(如更換大單位)，使之落入一個特定的區(qū)域（如01）以提高數(shù)據(jù)挖掘效率的方法。規(guī)范化的常用方法有：最大最小規(guī)范化、零均值規(guī)范化、小數(shù)定標規(guī)范化。6. 關聯(lián)知識：是反映一個事件和其他事件之間依賴或相互關聯(lián)的知識。如果兩項或多項屬性之間存在關聯(lián)，那么其中一項的屬性值就可以依據(jù)其他屬性值進行預測。7. 數(shù)據(jù)挖掘：從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中，提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。8. OLTP：OLTP為聯(lián)機事務處理的縮寫，OLAP是聯(lián)機分析處理的縮寫。前者是以數(shù)據(jù)庫為基礎的，面對的是操作人員和低層管理人員，對基本數(shù)據(jù)進行查詢和增、

8、刪、改等處理。9. ROLAP：是基于關系數(shù)據(jù)庫存儲方式的，在這種結(jié)構中，多維數(shù)據(jù)被映像成二維關系表，通常采用星型或雪花型架構，由一個事實表和多個維度表構成。10. MOLAP：是基于類似于“超立方”塊的OLAP存儲結(jié)構，由許多經(jīng)壓縮的、類似于多維數(shù)組的對象構成，并帶有高度壓縮的索引及指針結(jié)構，通過直接偏移計算進行存取。11. 數(shù)據(jù)歸約：縮小數(shù)據(jù)的取值范圍，使其更適合于數(shù)據(jù)挖掘算法的需要，并且能夠得到和原始數(shù)據(jù)相同的分析結(jié)果。12. 廣義知識：通過對大量數(shù)據(jù)的歸納、概括和抽象，提煉出帶有普遍性的、概括性的描述統(tǒng)計的知識。13. 預測型知識：是根據(jù)時間序列型數(shù)據(jù)，由歷史的和當前的數(shù)據(jù)去推測未來的

9、數(shù)據(jù)，也可以認為是以時間為關鍵屬性的關聯(lián)知識。14. 偏差型知識：是對差異和極端特例的描述，用于揭示事物偏離常規(guī)的異常現(xiàn)象，如標準類外的特例，數(shù)據(jù)聚類外的離群值等。15. 遺傳算法：是一種優(yōu)化搜索算法，它首先產(chǎn)生一個初始可行解群體，然后對這個群體通過模擬生物進化的選擇、交叉、變異等遺傳操作遺傳到下一代群體，并最終達到全局最優(yōu)。16. 聚類：是將物理或抽象對象的集合分組成為多個類或簇(cluster)的過程，使得在同一個簇中的對象之間具有較高的相似度，而不同簇中的對象差別較大。17. 決策樹：是用樣本的屬性作為結(jié)點，用屬性的取值作為分支的樹結(jié)構。它是分類規(guī)則挖掘的典型方法，可用于對新樣本進行分類

10、。18. 相異度矩陣：是聚類分析中用于表示各對象之間相異度的一種矩陣，n個對象的相異度矩陣是一個nn維的單模矩陣，其對角線元素均為0，對角線兩側(cè)元素的值相同。19. 頻繁項集：指滿足最小支持度的項集，是挖掘關聯(lián)規(guī)則的基本條件之一。20. 支持度：規(guī)則AB的支持度指的是所有事件中A與B同地發(fā)生的的概率，即P(AB)，是AB同時發(fā)生的次數(shù)與事件總次數(shù)之比。支持度是對關聯(lián)規(guī)則重要性的衡量。21. 可信度：規(guī)則AB的可信度指的是包含A項集的同時也包含B項集的條件概率P(B|A)，是AB同時發(fā)生的次數(shù)與A發(fā)生的所有次數(shù)之比?？尚哦仁菍﹃P聯(lián)規(guī)則的準確度的衡量。22. 關聯(lián)規(guī)則：同時滿足最小支持度閾值和最小

11、可信度閾值的規(guī)則稱之為關聯(lián)規(guī)則。四、綜合題1. 何謂數(shù)據(jù)挖掘？它有哪些方面的功能？從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中，提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程稱為數(shù)據(jù)挖掘。相關的名稱有知識發(fā)現(xiàn)、數(shù)據(jù)分析、數(shù)據(jù)融合、決策支持等。數(shù)據(jù)挖掘的功能包括：概念描述、關聯(lián)分析、分類與預測、聚類分析、趨勢分析、孤立點分析以及偏差分析等。2. 何謂數(shù)據(jù)倉庫？為什么要建立數(shù)據(jù)倉庫？數(shù)據(jù)倉庫是一種新的數(shù)據(jù)處理體系結(jié)構，是面向主題的、集成的、不可更新的(穩(wěn)定性)、隨時間不斷變化(不同時間)的數(shù)據(jù)集合，為企業(yè)決策支持系統(tǒng)提供所需的集成信息。建立數(shù)據(jù)倉庫的目的有3個：一是為

12、了解決企業(yè)決策分析中的系統(tǒng)響應問題，數(shù)據(jù)倉庫能提供比傳統(tǒng)事務數(shù)據(jù)庫更快的大規(guī)模決策分析的響應速度。二是解決決策分析對數(shù)據(jù)的特殊需求問題。決策分析需要全面的、正確的集成數(shù)據(jù)，這是傳統(tǒng)事務數(shù)據(jù)庫不能直接提供的。三是解決決策分析對數(shù)據(jù)的特殊操作要求。決策分析是面向?qū)I(yè)用戶而非一般業(yè)務員，需要使用專業(yè)的分析工具，對分析結(jié)果還要以商業(yè)智能的方式進行表現(xiàn)，這是事務數(shù)據(jù)庫不能提供的。3. 列舉操作型數(shù)據(jù)與分析型數(shù)據(jù)的主要區(qū)別。操作型數(shù)據(jù)分析型數(shù)據(jù)當前的、細節(jié)的歷史的、綜合的面向應用、事務驅(qū)動面向分析、分析驅(qū)動頻繁增、刪、改幾乎不更新，定期追加操作需求事先知道分析需求事先不知道生命周期符合SDLC完全不同的生

13、命周期對性能要求高對性能要求寬松一次操作數(shù)據(jù)量小一次操作數(shù)據(jù)量大支持日常事務操作支持管理決策需求4. 何謂OLTP和OLAP？它們的主要異同有哪些？OLTP即聯(lián)機事務處理，是以傳統(tǒng)數(shù)據(jù)庫為基礎、面向操作人員和低層管理人員、對基本數(shù)據(jù)進行查詢和增、刪、改等的日常事務處理。OLAP即聯(lián)機分析處理，是在OLTP基礎上發(fā)展起來的、以數(shù)據(jù)倉庫基礎上的、面向高層管理人員和專業(yè)分析人員、為企業(yè)決策支持服務。OLTP和OLAP的主要區(qū)別如下表：OLTPOLAP數(shù)據(jù)庫數(shù)據(jù)數(shù)據(jù)庫或數(shù)據(jù)倉庫數(shù)據(jù)細節(jié)性數(shù)據(jù)綜合性數(shù)據(jù)當前數(shù)據(jù)歷史數(shù)據(jù)經(jīng)常更新不更新，但周期性刷新一次性處理的數(shù)據(jù)量小一次處理的數(shù)據(jù)量大對響應時間要求高響應

14、時間合理用戶數(shù)量大用戶數(shù)據(jù)相對較少面向操作人員，支持日常操作面向決策人員，支持管理需要面向應用，事務驅(qū)動面向分析，分析驅(qū)動5. 何謂粒度？它對數(shù)據(jù)倉庫有什么影響？按粒度組織數(shù)據(jù)的方式有哪些？粒度是指數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)細化或綜合程度的級別。粒度影響存放在數(shù)據(jù)倉庫中的數(shù)據(jù)量的大小，同時影響數(shù)據(jù)倉庫所能回答查詢問題的細節(jié)程度。按粒度組織數(shù)據(jù)的方式主要有：簡單堆積結(jié)構輪轉(zhuǎn)綜合結(jié)構簡單直接結(jié)構連續(xù)結(jié)構6. 簡述數(shù)據(jù)倉庫設計的三級模型及其基本內(nèi)容。概念模型設計是在較高的抽象層次上的設計，其主要內(nèi)容包括：界定系統(tǒng)邊界和確定主要的主題域。邏輯模型設計的主要內(nèi)容包括：分析主題域、確定粒度層次劃

15、分、確定數(shù)據(jù)分割策略、定義關系模式、定義記錄系統(tǒng)。物理數(shù)據(jù)模型設計的主要內(nèi)容包括：確定數(shù)據(jù)存儲結(jié)構、確定數(shù)據(jù)存放位置、確定存儲分配以及確定索引策略等。在物理數(shù)據(jù)模型設計時主要考慮的因素有: I/O存取時間、空間利用率和維護代價等。提高性能的主要措施有劃分粒度、數(shù)據(jù)分割、合并表、建立數(shù)據(jù)序列、引入冗余、生成導出數(shù)據(jù)、建立廣義索引等。7. 在數(shù)據(jù)挖掘之前為什么要對原始數(shù)據(jù)進行預處理？原始業(yè)務數(shù)據(jù)來自多個數(shù)據(jù)庫或數(shù)據(jù)倉庫，它們的結(jié)構和規(guī)則可能是不同的，這將導致原始數(shù)據(jù)非常的雜亂、不可用，即使在同一個數(shù)據(jù)庫中，也可能存在重復的和不完整的數(shù)據(jù)信息，為了使這些數(shù)據(jù)能夠符合數(shù)據(jù)挖掘的要求，提高效率和得到清晰

16、的結(jié)果，必須進行數(shù)據(jù)的預處理。為數(shù)據(jù)挖掘算法提供完整、干凈、準確、有針對性的數(shù)據(jù)，減少算法的計算量，提高挖掘效率和準確程度。8. 簡述數(shù)據(jù)預處理方法和內(nèi)容。數(shù)據(jù)清洗：包括填充空缺值，識別孤立點，去掉噪聲和無關數(shù)據(jù)。數(shù)據(jù)集成：將多個數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來存放在一個一致的數(shù)據(jù)存儲中。需要注意不同數(shù)據(jù)源的數(shù)據(jù)匹配問題、數(shù)值沖突問題和冗余問題等。數(shù)據(jù)變換：將原始數(shù)據(jù)轉(zhuǎn)換成為適合數(shù)據(jù)挖掘的形式。包括對數(shù)據(jù)的匯總、聚集、概化、規(guī)范化，還可能需要進行屬性的重構。數(shù)據(jù)歸約：縮小數(shù)據(jù)的取值范圍，使其更適合于數(shù)據(jù)挖掘算法的需要，并且能夠得到和原始數(shù)據(jù)相同的分析結(jié)果。9. 簡述數(shù)據(jù)清理的基本內(nèi)容。盡可能賦

17、予屬性名和屬性值明確的含義；統(tǒng)一多數(shù)據(jù)源的屬性值編碼；去除無用的惟一屬性或鍵值(如自動增長的id)；去除重復屬性(在某些分析中，年齡和出生日期可能就是重復的屬性，但在某些時候它們可能又是同時需要的) 去除可忽略字段(大部分為空值的屬性一般是沒有什么價值的，如果不去除可能造成錯誤的數(shù)據(jù)挖掘結(jié)果) 合理選擇關聯(lián)字段(對于多個關聯(lián)性較強的屬性，重復無益，只需選擇其中的部分用于數(shù)據(jù)挖掘即可，如價格、數(shù)據(jù)、金額) 去掉數(shù)據(jù)中的噪音、填充空值、丟失值和處理不一致數(shù)據(jù)。10. 簡述處理空缺值的方法。忽略該記錄；去掉屬性；手工填寫空缺值；使用默認值；使用屬性平均值；使用同類樣本平均值；預測

18、最可能的值。11. 常見的分箱方法有哪些？數(shù)據(jù)平滑處理的方法有哪些？分箱的方法主要有：統(tǒng)一權重法(又稱等深分箱法) 統(tǒng)一區(qū)間法(又稱等寬分箱法) 最小熵法自定義區(qū)間法數(shù)據(jù)平滑的方法主要有：平均值法、邊界值法和中值法。12. 何謂數(shù)據(jù)規(guī)范化？規(guī)范化的方法有哪些？寫出對應的變換公式。將數(shù)據(jù)按比例縮放(如更換大單位)，使之落入一個特定的區(qū)域（如0.01.0），稱為規(guī)范化。規(guī)范化的常用方法有：(1) 最大最小規(guī)范化：(2) 零均值規(guī)范化：(3) 小數(shù)定標規(guī)范化：xx0/1013. 數(shù)據(jù)歸約的方法有哪些？為什么要進行維歸約？數(shù)據(jù)立方體聚集維歸約數(shù)據(jù)壓縮數(shù)值壓縮離散化和概念分層維歸約可以去掉

19、不重要的屬性，減少數(shù)據(jù)立方體的維數(shù)，從而減少數(shù)據(jù)挖掘處理的數(shù)據(jù)量，提高挖掘效率。14. 何謂聚類？它與分類有什么異同？聚類是將物理或抽象對象的集合分組成為多個類或簇(cluster)的過程，使得在同一個簇中的對象之間具有較高的相似度，而不同簇中的對象差別較大。聚類與分類不同，聚類要劃分的類是未知的，分類則可按已知規(guī)則進行；聚類是一種無指導學習，它不依賴預先定義的類和帶類標號的訓練實例，屬于觀察式學習，分類則屬于有指導的學習，是示例式學習。15. 舉例說明聚類分析的典型應用。商業(yè)：幫助市場分析人員從客戶基本庫中發(fā)現(xiàn)不同的客戶群，并且用不同的購買模式描述不同客戶群的特征。生物學：推導植物或動物的分

20、類，對基于進行分類，獲得對種群中固有結(jié)構的認識。WEB文檔分類其他：如地球觀測數(shù)據(jù)庫中相似地區(qū)的確定；各類保險投保人的分組；一個城市中不同類型、價值、地理位置房子的分組等。聚類分析還可作為其他數(shù)據(jù)挖掘算法的預處理：即先進行聚類，然后再進行分類等其他的數(shù)據(jù)挖掘。聚類分析是一種數(shù)據(jù)簡化技術，它把基于相似數(shù)據(jù)特征的變量或個案組合在一起。16. 聚類分析中常見的數(shù)據(jù)類型有哪些？何謂相異度矩陣？它有什么特點？常見數(shù)據(jù)類型有區(qū)間標度變量、比例標度型變量、二元變量、標稱型、序數(shù)型以及混合類型等。相異度矩陣是用于存儲所有對象兩兩之間相異度的矩陣，為一個nn維的單模矩陣。其特點是d(i,j)=d(j,i)，d(

21、i,i)=0，d(j,j)=0。如下所示：17. 分類知識的發(fā)現(xiàn)方法主要有哪些？分類過程通常包括哪兩個步驟？分類規(guī)則的挖掘方法通常有：決策樹法、貝葉斯法、人工神經(jīng)網(wǎng)絡法、粗糙集法和遺傳算法。分類的過程包括2步：首先在已知訓練數(shù)據(jù)集上，根據(jù)屬性特征，為每一種類別找到一個合理的描述或模型，即分類規(guī)則；然后根據(jù)規(guī)則對新數(shù)據(jù)進行分類。18. 什么是決策樹？如何用決策樹進行分類？決策樹是用樣本的屬性作為結(jié)點，用屬性的取值作為分支的樹結(jié)構。它是利用信息論原理對大量樣本的屬性進行分析和歸納而產(chǎn)生的。決策樹的根結(jié)點是所有樣本中信息量最大的屬性。樹的中間結(jié)點是以該結(jié)點為根的子樹所包含的樣本子集中信息量最大的屬性

22、。決策樹的葉結(jié)點是樣本的類別值。決策樹用于對新樣本的分類，即通過決策樹對新樣本屬性值的測試，從樹的根結(jié)點開始，按照樣本屬性的取值，逐漸沿著決策樹向下，直到樹的葉結(jié)點，該葉結(jié)點表示的類別就是新樣本的類別。決策樹方法是數(shù)據(jù)挖掘中非常有效的分類方法。19. 簡述ID3算法的基本思想及其主算法的基本步驟。首先找出最有判別力的因素，然后把數(shù)據(jù)分成多個子集，每個子集又選擇最有判別力的因素進一步劃分，一直進行到所有子集僅包含同一類型的數(shù)據(jù)為止。最后得到一棵決策樹，可以用它來對新的樣例進行分類。主算法包括如下幾步：從訓練集中隨機選擇一個既含正例又含反例的子集(稱為窗口)；用“建樹算法”對當前窗口形成一棵決策樹

23、；對訓練集(窗口除外)中例子用所得決策樹進行類別判定，找出錯判的例子；若存在錯判的例子，把它們插入窗口，重復步驟，否則結(jié)束。20. 簡述ID3算法的基本思想及其建樹算法的基本步驟。首先找出最有判別力的因素，然后把數(shù)據(jù)分成多個子集，每個子集又選擇最有判別力的因素進一步劃分，一直進行到所有子集僅包含同一類型的數(shù)據(jù)為止。最后得到一棵決策樹，可以用它來對新的樣例進行分類。建樹算法的具體步驟如下：對當前例子集合，計算各特征的互信息；選擇互信息最大的特征Ak；把在Ak處取值相同的例子歸于同一子集，Ak取幾個值就得幾個子集；對既含正例又含反例的子集，遞歸調(diào)用建樹算法；若子集僅含正例或反例，對應分枝標上P或N

24、，返回調(diào)用處。21. 設某事務項集構成如下表，填空完成其中支持度和置信度的計算。事務ID項集L2支持度%規(guī)則置信度%T1A, DA, B33.3AB50T2D, EA, C33.3CA60T3A, C, EA, D44.4AD66.7T4A, B, D, EB, D33.3BD75T5A, B, CC, D33.3CD60T6A, B, DD, E33.3DE43T7A, C, DT8C, D, ET9B, C, D22. 從信息處理角度看，神經(jīng)元具有哪些基本特征？寫出描述神經(jīng)元狀態(tài)的M-P方程并說明其含義?；咎卣鳎憾噍斎?、單輸出；突觸兼有興奮和抑制兩種性能；可時間加權和空間加權；可產(chǎn)生脈沖

25、；脈沖可進行傳遞；非線性，有閾值。M-P方程：，Wij是神經(jīng)元之間的連接強度，是閾值，f(x)是階梯函數(shù)。23. 遺傳算法與傳統(tǒng)尋優(yōu)算法相比有什么特點？遺傳算法為群體搜索，有利于尋找到全局最優(yōu)解；遺傳算法采用高效有方向的隨機搜索，搜索效率高；遺傳算法處理的對象是個體而不是參變量，具有廣泛的應用領域；遺傳算法使用適應值信息評估個體，不需要導數(shù)或其他輔助信息，運算速度快，適應性好；遺傳算法具有隱含并行性，具有更高的運行效率。24. 寫出非對稱二元變量相異度計算公式(即jaccard系數(shù))，并計算下表中各對象間的相異度。測試項目對象test-1test-2test-3test-4test

26、-5test-6OBJ1YNPNNNOBJ2YNPNPNOBJ3NYNYNN25. 簡述K-平均算法的輸入、輸出及聚類過程(流程)。輸入：簇的數(shù)目k和包含n個對象的數(shù)據(jù)集。輸出：k個簇，使平方誤差準則最小。步驟：任意選擇k個對象作為初始的簇中心；計算其它對象與這k個中心的距離，然后把每個對象歸入離它“最近”的簇；計算各簇中對象的平均值，然后重新選擇簇中心(離平均值“最近”的對象值)；重復第2第3步直到簇中心不再變化為止。 26. 簡述K-中心點算法的輸入、輸出及聚類過程(流程)。輸入：結(jié)果簇的數(shù)目k，包含n個對象的數(shù)據(jù)集輸出：k個簇，使得所有對象與其最近中心點的相異度總和最小。流程：

27、隨機選擇k個對象作為初始中心點；計算其它對象與這k個中心的距離，然后把每個對象歸入離它“最近”的簇；隨機地選擇一個非中心點對象Orandom，并計算用Orandom代替Oj的總代價S；如果S0,則用Orandom代替Oj，形成新的k個中心點集合；重復迭代第3、4步，直到中心點不變?yōu)橹埂?7. 何謂文本挖掘？它與信息檢索有什么關系(異同)。文本挖掘是從大量文本數(shù)據(jù)中提取以前未知的、有用的、可理解的、可操作的知識的過程。它與信息檢索之間有以下幾方面的區(qū)別：方法論不同：信息檢索是目標驅(qū)動的，用戶需要明確提出查詢要求；而文本挖掘結(jié)果獨立于用戶的信息需求，是用戶無法預知的。著眼點不同：信息檢

28、索著重于文檔中字、詞和鏈接；而文本挖掘在于理解文本的內(nèi)容和結(jié)構。目的不同：信息檢索的目的在于幫助用戶發(fā)現(xiàn)資源，即從大量的文本中找到滿足其查詢請求的文本子集；而文本挖掘是為了揭示文本中隱含的知識。評價方法不同：信息檢索用查準率和查全率來評價其性能。而文本挖掘采用收益、置信度、簡潔性等來衡量所發(fā)現(xiàn)知識的有效性、可用性和可理解性。使用場合不同：文本挖掘是比信息檢索更高層次的技術，可用于信息檢索技術不能解決的許多場合。一方面，這兩種技術各有所長，有各自適用的場合；另一方面，可以利用文本挖掘的研究成果來提高信息檢索的精度和效率，改善檢索結(jié)果的組織，使信息檢索系統(tǒng)發(fā)展到一個新的水平。一、名詞解釋(每

29、題4分，共20分) 1、數(shù)據(jù)倉庫數(shù)據(jù)倉庫（Data Warehouse）是一個面向主題的（Subject Oriented）、集成的（Integrate）、相對穩(wěn)定的（Non-Volatile）、反映歷史變化（Time Variant）的數(shù)據(jù)集合，用于支持管理決策。2、數(shù)據(jù)挖掘數(shù)據(jù)挖掘(Data Mining)，又稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge Discovery in Database, KDD)，就是從大量數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程，簡單的說，數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中提取或“挖掘”知識。3、雪花模型雪花模式中某些維表是規(guī)范化的，因而把數(shù)據(jù)進一步分解到附加的表中，模式圖形成了類似雪花的形狀。通過最大限度地減少數(shù)據(jù)存儲量以及聯(lián)合較小的維表來改善查詢性能。雪花模型增加了用戶必須處理的表數(shù)量，增加了某些查詢的復雜性，但同時提高了處理的靈活性，可以回答更多的商業(yè)問題，特別適合系統(tǒng)的逐步建設要求。4、OLAP OLAP是聯(lián)機分析處理，是使分析人員、管理人員或執(zhí)行人員能夠從多角度對信息姓名：學號：班級機器學習Machine LearningIntroduction t.linear model (.第2 頁共4 頁2005級數(shù)據(jù)倉庫與數(shù)據(jù)挖掘卷進行快速、一致、交互地存取,從而獲得對數(shù)據(jù)的更深入了解的一類軟件技術。它支持復雜的分析操作

人人文庫> 全部分類> 教育資料 > 輔導培訓

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

數(shù)據(jù)挖掘考試題庫

文檔簡介

溫馨提示

最新文檔

評論

數(shù)據(jù)挖掘考試題庫

文檔簡介

溫馨提示

最新文檔

評論

相關文檔