數(shù)據(jù)挖掘作業(yè)_第1頁
數(shù)據(jù)挖掘作業(yè)_第2頁
數(shù)據(jù)挖掘作業(yè)_第3頁
數(shù)據(jù)挖掘作業(yè)_第4頁
數(shù)據(jù)挖掘作業(yè)_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、數(shù)據(jù)挖掘作業(yè)第一章 引言一、填空題(1)數(shù)據(jù)庫中的知識挖掘(KDD)包括以下七個步驟: 、 、 、 、 、 和 (2) 數(shù)據(jù)挖掘的性能問題主要包括: 、 和 (3) 當前的數(shù)據(jù)挖掘研究中,最主要的三個研究方向是: 、 和 (4) 在萬維網(wǎng)(WWW)上應用的數(shù)據(jù)挖掘技術常被稱為: (5) 孤立點是指: 二、單選題(1)數(shù)據(jù)挖掘應用和一些常見的數(shù)據(jù)統(tǒng)計分析系統(tǒng)的最主要區(qū)別在于:A、所涉及的算法的復雜性;B、所涉及的數(shù)據(jù)量;C、計算結果的表現(xiàn)形式;D、是否使用了人工智能技術(2)孤立點挖掘適用于下列哪種場合?A、目標市場分析B、購物籃分析C、模式識別 D、信用卡欺詐檢測(3)下列幾種數(shù)據(jù)挖掘功能中,

2、()被廣泛的應用于股票價格走勢分析A. 關聯(lián)分析 B.分類和預測 C.聚類分析 D. 演變分析(4)下面的數(shù)據(jù)挖掘的任務中,( )將決定所使用的數(shù)據(jù)挖掘功能A、選擇任務相關的數(shù)據(jù)B、選擇要挖掘的知識類型C、模式的興趣度度量D、模式的可視化表示(5)下列幾種數(shù)據(jù)挖掘功能中,()被廣泛的用于購物籃分析A、關聯(lián)分析 B、分類和預測 C、聚類分析 D、演變分析(6)根據(jù)顧客的收入和職業(yè)情況,預測他們在計算機設備上的花費,所使用的相應數(shù)據(jù)挖掘功能是()A.關聯(lián)分析 B.分類和預測 C. 演變分析 D. 概念描述(7)幫助市場分析人員從客戶的基本信息庫中發(fā)現(xiàn)不同的客戶群,通常所使用的數(shù)據(jù)挖掘功能是()A.

3、關聯(lián)分析 B.分類和預測 C.聚類分析 D. 孤立點分析 E. 演變分析(8)假設現(xiàn)在的數(shù)據(jù)挖掘任務是解析數(shù)據(jù)庫中關于客戶的一般特征的描述,通常所使用的數(shù)據(jù)挖掘功能是()A.關聯(lián)分析 B.分類和預測 C. 孤立點分析D. 演變分析 E. 概念描述三、簡答題(1)什么是數(shù)據(jù)挖掘?(2)一個典型的數(shù)據(jù)挖掘系統(tǒng)應該包括哪些組成部分?(3)請簡述不同歷史時代數(shù)據(jù)庫技術的演化。(4)請列舉數(shù)據(jù)挖掘應用常見的數(shù)據(jù)源。(或者說,我們都在什么樣的數(shù)據(jù)上進行數(shù)據(jù)挖掘)(5)什么是模式興趣度的客觀度量和主觀度量?(6)在哪些情況下,我們認為所挖掘出來的模式是有趣的?(7)根據(jù)挖掘的知識類型,我們可以將數(shù)據(jù)挖掘系統(tǒng)

4、分為哪些類別?第二章 數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術一、 填空題(1)數(shù)據(jù)倉庫的多維數(shù)據(jù)模型可以有三種不同的形式,分別是: 、 和 (2)給定基本方體,方體的物化有三種選擇: 、 和 (3)著名的數(shù)據(jù)倉庫系統(tǒng)設計師W. H. Inmon認為,數(shù)據(jù)倉庫與其他數(shù)據(jù)存儲系統(tǒng)的區(qū)別的四個特征是: 、 、 和 (4)在數(shù)據(jù)訪問模式上,數(shù)據(jù)倉庫以 為主,而日常應用數(shù)據(jù)庫則以 為主。(5)數(shù)據(jù)立方體度量可以根據(jù)其所使用的聚集函數(shù)分為三類,分別是: 、 和 (6)關于數(shù)據(jù)倉庫的設計,四種不同的視圖必須考慮,分別是: 、 、 、 (7)OLAP服務器的類型主要包括: 、 和 (8)求和函數(shù)sum()是一個 的

5、函數(shù)。(9)方體計算的主要挑戰(zhàn)是 和 之間的矛盾。二、單選題(1)下面的數(shù)據(jù)操作中,哪些操作不是多維數(shù)據(jù)模型上的OLAP操作 A、上卷(roll-up)B、選擇(select)C、切片(slice)D、轉(zhuǎn)軸(pivot)(2)以下哪個范圍是數(shù)據(jù)倉庫的數(shù)據(jù)庫規(guī)模的一個合理范圍 A、1100MB、100M10GC、101000GD、100GB數(shù)TB(3)存放最低層匯總的方體稱為: A、頂點方體B、方體的格C、基本方體D、維(4)哪種OLAP操作可以讓用戶在更高的抽象層,更概化的審視數(shù)據(jù)? A、上卷B、下鉆C、切塊D、轉(zhuǎn)軸(5)平均值函數(shù)avg()屬于哪種類型的度量? A、分布的B、代數(shù)的C、整體的

6、D、混合的三、多選題(1)OLAP系統(tǒng)和OLTP系統(tǒng)的主要區(qū)別包括( )。 A、OLTP系統(tǒng)主要用于管理當前數(shù)據(jù),而OLAP系統(tǒng)主要存放的是歷史數(shù)據(jù);B、在數(shù)據(jù)的存取上,OLTP系統(tǒng)比OLAP系統(tǒng)有著更多的寫操作;C、對OLTP系統(tǒng)上的數(shù)據(jù)訪問量往往比對OLAP系統(tǒng)的數(shù)據(jù)訪問量要大得多;D、OLAP系統(tǒng)中往往存放的是匯總的數(shù)據(jù),而OLTP系統(tǒng)中往往存放詳細的數(shù)據(jù)。(2)從結構的角度看,數(shù)據(jù)倉庫模型包括以下幾類:A、企業(yè)倉庫B、數(shù)據(jù)集市C、虛擬倉庫D、信息倉庫(3)數(shù)據(jù)倉庫的三層架構主要包括以下哪三部分?A、數(shù)據(jù)源B、數(shù)據(jù)倉庫服務器C、OLAP服務器D、前端工具(4)以下哪些是數(shù)據(jù)倉庫的主要應用

7、?A、信息處理B、互聯(lián)網(wǎng)搜索C、分析處理D、數(shù)據(jù)挖掘四、簡答題(1)為什么在進行聯(lián)機分析處理(OLAP)時,我們需要一個獨立的數(shù)據(jù)倉庫,而不是直接在日常操作的數(shù)據(jù)庫上進行。(2)為什么說數(shù)據(jù)倉庫具有隨時間而變化的特征?(2)試述對于多個異種信息源的集成,為什么許多公司寧愿使用更新驅(qū)動的方法(update-driven),而不愿使用查詢驅(qū)動(query-driven)的方法?(3)請簡述幾種典型的多維數(shù)據(jù)的OLAP操作(5)為什么說相對于日常的應用數(shù)據(jù)庫,數(shù)據(jù)倉庫中的數(shù)據(jù)更加不容易丟失?(6)假定Big_University的數(shù)據(jù)倉庫包含如下4個維:student, course, semest

8、er和instructor;2個度量:count和avg_grade。在最低得到概念層(例如,對于給定的學生、課程、學期和教師的組合),度量avg_grade存放學生的實際成績。在較高的概念層,avg_grade存放給定組合的平均成績。(a) 為數(shù)據(jù)倉庫畫出雪花模式圖。(b) 由基本方體student, course, semester, instructor開始,為列出Big_University每個學生的CS課程的平均成績,應當使用哪些OLAP操作(如,由學期上卷到學年)。(c) 如果每維有5層(包括all),如student major status university buys (X

9、, Z)所指定的挖掘知識類型是:A、特征化B、區(qū)分C、關聯(lián)D、分類(2)以下哪種數(shù)據(jù)挖掘系統(tǒng)與數(shù)據(jù)庫/數(shù)據(jù)倉庫系統(tǒng)集成方式將會使數(shù)據(jù)挖掘系統(tǒng)達到最好的性能?A、不耦合B、松散耦合C、半緊密耦合D、緊密耦合三、多選題(1)以下哪些OLAP操作是和概念分層緊密相關的?A、上卷B、切片C、下鉆D、切塊四、簡答題(1)定義數(shù)據(jù)挖掘任務的原語,主要應該包括哪些部分?(2)為什么需要數(shù)據(jù)挖掘原語和語言來指導數(shù)據(jù)挖掘?(3)描述如下將數(shù)據(jù)挖掘系統(tǒng)與數(shù)據(jù)庫或數(shù)據(jù)倉庫系統(tǒng)集成的結構之間的差別:不耦合、松散耦合、半緊密耦合和緊密耦合。(4)數(shù)據(jù)挖掘的GUI可能包含哪些部分?第五章 概念描述:特征化與比較一、填空題

10、(1)概念描述由 和 組成。(2)一般來說,進行類比較的過程應該包括以下幾個步驟: 、 、 和 (3)從數(shù)據(jù)分析的角度看,數(shù)據(jù)挖掘可以分為兩類: 和 (4)屬性相關分析的基本思想是計算某種度量,用于量化屬性與給定類或概念的相關性。可采用的度量包括: 、 、 和 (5)數(shù)據(jù)離散度的最常用度量包括: 、 和 二、單選題(1)類比較的過程中,我們在哪個步驟得到主目標類 關系/方體 和 主對比類 關系/方體?A、數(shù)據(jù)收集B、維相關分析C、同步概化D、導出比較的表示(2)哪種圖形顯示方法常用于描述兩個變量間的依賴模式?A、直方圖B、分位數(shù)圖C、散布圖D、LOESS曲線(3)哪種圖形顯示方法常用于確定兩個

11、量化的變量之間看上去是否有聯(lián)系、模式或者趨勢?A、直方圖B、分位數(shù)圖C、散布圖D、LOESS曲線(4)哪種圖形顯示方法用于顯示所有的數(shù)據(jù),允許用戶評估總的情況和不尋常情況的出現(xiàn)?A、直方圖B、分位數(shù)圖C、散布圖D、LOESS曲線(5)中心趨勢度量模(mode)是指A、算術平均值B、數(shù)據(jù)集中出現(xiàn)頻率最高的值C、最大值D、最小值三、多選題(1)下面哪些是常用的數(shù)據(jù)概化方法?A、離散化 B、數(shù)據(jù)立方體(OLAP技術)C、判定歸納樹 D、面向?qū)傩缘臍w納(2)使用數(shù)據(jù)立方體方法進行數(shù)據(jù)概化的優(yōu)點包括:A、數(shù)據(jù)概化的一種有效實現(xiàn)B、可以計算各種不同的度量值C、受數(shù)據(jù)類型和度量類型的約束比較少D、概化和特征

12、分析通過一系列的數(shù)據(jù)立方體操作完成,簡單高效(3)以下哪些是屬于中心趨勢的度量A、平均值B、標準差C、五數(shù)概括D、中位數(shù)四、簡答題(1)簡述類比較的過程。(2)簡述面向?qū)傩詺w納的基本思想,并說明什么時候使用屬性刪除,什么時候使用屬性概化。(3)簡述概念描述的屬性相關分析的基本步驟。(4)簡要敘述概念描述和OLAP之間的主要區(qū)別。(5)為什么進行屬性相關分析?(6)簡述進行概念描述時,面向數(shù)據(jù)庫的方法和機器學習的主要區(qū)別。(7)什么是概念描述的增量挖掘?第六章 大型數(shù)據(jù)庫中的關聯(lián)規(guī)則挖掘一、填空題(1)關聯(lián)規(guī)則挖掘中,兩個主要的興趣度度量是: 和 (2)Aprior算法包括 和 兩個基本步驟(3

13、)項集的頻率是指 (4)大型數(shù)據(jù)庫中的關聯(lián)規(guī)則挖掘包含兩個過程: 和 (5)根據(jù)規(guī)則中所處理的值類型,關聯(lián)規(guī)則可分為: 和 (6)Apriori性質(zhì)是指: (7)挖掘多維關聯(lián)規(guī)則的技術可以根據(jù)量化屬性的處理分為三種基本方法: 、 和 (8)對于頻繁項集挖掘,在挖掘過程中使用的約束包括以下五種類型: 、 、 、 和 (9)在多維關聯(lián)規(guī)則挖掘中,我們搜索的不是頻繁項集,而是 二、單選題(1)下列幾種數(shù)據(jù)挖掘功能中,()被廣泛的用于購物籃分析。 A、關聯(lián)分析 B、分類和預測 C、聚類分析 D、演變分析(2)支持度(support)是衡量興趣度度量( )的指標。 A、實用性B、確定性C.、簡潔性D、新

14、穎性(3)置信度(confidence)是衡量興趣度度量( )的指標。 A、簡潔性B、確定性C.、實用性D、新穎性(4)根據(jù)關聯(lián)分析中所處理的值類型,可以將關聯(lián)規(guī)則分類為:()A、布爾關聯(lián)規(guī)則和量化關聯(lián)規(guī)則 B、單維關聯(lián)規(guī)則和多維關聯(lián)規(guī)則C、單層關聯(lián)規(guī)則和多層關聯(lián)規(guī)則 D、簡答關聯(lián)規(guī)則和復雜關聯(lián)規(guī)則(5)規(guī)則:age(X,”19-25”) buys(X, “popcorn”) = buys(X, “coke”)是一個A、單維關聯(lián)規(guī)則B、多維關聯(lián)規(guī)則C、混合維關聯(lián)規(guī)則D、不是一個關聯(lián)規(guī)則三、多選題(1)根據(jù)關聯(lián)分析中所涉及的抽象層,可以將關聯(lián)規(guī)則分類為:()A、布爾關聯(lián)規(guī)則 B、單層關聯(lián)規(guī)則C、

15、多維關聯(lián)規(guī)則D、多層關聯(lián)規(guī)則(2)根據(jù)關聯(lián)分析中所涉及的數(shù)據(jù)維,可以將關聯(lián)規(guī)則分類為:()A、布爾關聯(lián)規(guī)則 B、單維關聯(lián)規(guī)則C、多維關聯(lián)規(guī)則D、多層關聯(lián)規(guī)則(3)Apriori算法所面臨的主要的挑戰(zhàn)包括:A、會消耗大量的內(nèi)存 B、會產(chǎn)生大量的候選項集C、對候選項集的支持度計算非常繁瑣 D、要對數(shù)據(jù)進行多次掃描四、簡答題(1)對于具有遞減支持度的多層關聯(lián)規(guī)則挖掘,分別都有哪些搜索策略?各有什么特點?(2)給出一個例子,表明強關聯(lián)規(guī)則中的項可能實際上是負相關的。(3)簡述在多層關聯(lián)規(guī)則挖掘中,在不同的層使用一致的支持度的優(yōu)缺點。(4)什么是簡潔性約束?第七章 分類和預測一、填空題(1)通過對數(shù)據(jù)進

16、行預處理,可以提高分類和預測過程的 、 和 (2)防止分類中的過分適應的兩種方法分別是: 和 二、單選題(1)下面哪種分類方法是屬于神經(jīng)網(wǎng)絡學習算法?() A、判定樹歸納 B、貝葉斯分類 C、后向傳播分類 D、基于案例的推理(2)下面哪種分類方法是屬于統(tǒng)計學的分類方法?() A、判定樹歸納 B、貝葉斯分類 C、后向傳播分類 D、基于案例的推理(3)下列哪個描述是正確的?()A、分類和聚類都是有指導的學習 C、分類是有指導的學習,聚類是無指導的學習B、分類和聚類都是無指導的學習 D、分類是無指導的學習,聚類是有指導的學習三、簡答題(1)簡述判定樹分類的主要步驟。(2)在判定樹歸納中,為什么樹剪枝

17、是有用的?(3)為什么樸素貝葉斯分類稱為“樸素”的?簡述樸素貝葉斯分類的主要思想。(4)請簡述判定樹歸納算法的基本策略。(5)對分類和預測方法進行比較和評估的標準都有哪些?(6)簡述數(shù)據(jù)分類的兩步過程。(7)簡述后向傳播分類的優(yōu)缺點。四、算法題(1)使用判定樹歸納算法,根據(jù)顧客年齡age(分為3個年齡段:23),收入income(取值為high,medium,low),是否為student(取值為yes和no),信用credit_rating等級(取值為fair和excellent)來判定用戶是否會購買PC Game,即構建判定樹buys_PCGame,假設現(xiàn)有的數(shù)據(jù)經(jīng)過第一次劃分之后得到如下

18、圖所示結果,并根據(jù)該結果對每一個劃分中的各個屬性計算信息增益對age23的顧客:Gain(income)=0.042,Gain(student)=0.462,Gain(credit_rating)=0.155請根據(jù)以上結果繪制出判定樹buys_PCGame,來判定用戶是否會購買PC Game。age 23incomestudentcredit_ratingclassIncomestudentcredit_ratingclasshighnofairnohighnofairnomediumyesfairnohighyesexcellentyeshighnofairnomediumyesfairye

19、smediumyesexcellentyeslowyesfairyeslownoexcellentyeslownoexcellentnoincomestudentcredit_ratingclasshighnofairyesmediumyesfairyeshighnofairyesmediumyesexcellentyes第八章 聚類分析一、填空題(1)在數(shù)據(jù)挖掘中,常用的聚類算法包括: 、 、 、基于網(wǎng)格的方法和基于模型的方法。(2)聚類分析常作為一個獨立的工具來獲得 (3)一個好的聚類分析方法會產(chǎn)生高質(zhì)量的聚類,具有兩個特征: 和 (4)許多基于內(nèi)存的聚類算法所常用的兩種數(shù)據(jù)結構是 和 (5)基于網(wǎng)格的聚類方法的優(yōu)點是: (6)孤立點產(chǎn)生的主要原因包括: 和 (7)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論