數(shù)據(jù)倉庫及數(shù)據(jù)挖掘測驗_第1頁
數(shù)據(jù)倉庫及數(shù)據(jù)挖掘測驗_第2頁
數(shù)據(jù)倉庫及數(shù)據(jù)挖掘測驗_第3頁
已閱讀5頁,還剩12頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘 習(xí)題1.1 什么是數(shù)據(jù)挖掘?在你的回答中,強調(diào)以下問題:(a) 它是又一個騙局嗎?(b) 它是一種從數(shù)據(jù)庫,統(tǒng)計學(xué)和機器學(xué)習(xí)發(fā)展的技術(shù)的簡單轉(zhuǎn)換嗎?(c) 解釋數(shù)據(jù)庫技術(shù)發(fā)展如何導(dǎo)致數(shù)據(jù)挖掘(d) 當(dāng)把數(shù)據(jù)挖掘看作知識發(fā)現(xiàn)過程時,描述數(shù)據(jù)挖掘所涉及的步驟。1.2 給出一個例子,其中數(shù)據(jù)挖掘?qū)τ谝环N商務(wù)的成功至關(guān)重要的。這種商務(wù)需要什么數(shù)據(jù)挖掘功能?他 們能夠由數(shù)據(jù)查詢處理或簡單的統(tǒng)計分析來實現(xiàn)嗎?1.3 假定你是 Big-University 的軟件工程師,任務(wù)是設(shè)計一個數(shù)據(jù)挖掘系統(tǒng),分析學(xué)校課程數(shù)據(jù)庫。該數(shù)據(jù)庫包括如下信息:每個學(xué)生的姓名,地址和狀態(tài)(例如,本科生或研究生

2、),所修課程,以及他們累積的GPA(學(xué)分平均)。描述你要選取的結(jié)構(gòu)。該結(jié)構(gòu)的每個成分的作用是什么?1.4 數(shù)據(jù)倉庫和數(shù)據(jù)庫有何不同?它們有那些相似之處?1. 5簡述以下高級數(shù)據(jù)庫系統(tǒng)和應(yīng)用:面向?qū)ο髷?shù)據(jù)庫,空間數(shù)據(jù)庫,文本數(shù)據(jù)庫,多媒體數(shù)據(jù)庫和WWW16 定義以下數(shù)據(jù)挖掘功能:特征化,區(qū)分,關(guān)聯(lián),分類,預(yù)測,聚類和演變分析。使用你熟悉的現(xiàn)實生 活中的數(shù)據(jù)庫,給出每種數(shù)據(jù)挖掘的例子。1. 7 區(qū)分和分類的差別是什么?特征化和聚類的差別是什么?分類和預(yù)測呢?對于每一對任務(wù),它們有何相似之處?1. 8 根據(jù)你的觀察,描述一種可能的知識類型,它需要由數(shù)據(jù)挖掘方法發(fā)現(xiàn),但未在本章中列出。它需要 一種不同

3、于本章列舉的數(shù)據(jù)挖掘技術(shù)嗎?1. 9 描述關(guān)于數(shù)據(jù)挖掘方法和用戶交互問題的三個數(shù)據(jù)挖掘的挑戰(zhàn)。1. 10 描述關(guān)于性能問題的兩個數(shù)據(jù)挖掘的挑戰(zhàn)。2.1 試述對于多個異種信息源的集成,為什么許多公司寧愿使用更新驅(qū)動的方法(構(gòu)造使用數(shù)據(jù)倉庫), 而不愿使用查詢驅(qū)動的方法(使用包裝程序和集成程序)。描述一些情況,其中查詢驅(qū)動方法比更新驅(qū)動 方法更受歡迎。2.2 簡略比較以下概念,可以用例子解釋你的觀點(a)雪花模式、事實星座、星型網(wǎng)查詢模型(b)數(shù)據(jù)清理、數(shù)據(jù)變換、刷新(c ) 發(fā)現(xiàn)驅(qū)動數(shù)據(jù)立方體、多特征方、虛擬倉庫2.3 假定數(shù)據(jù)倉庫包含三個維 time , doctor 和 patient ,兩

4、個度量 count 和 charge ,其中 charge 是醫(yī)生 對一位病人的一次診治的收費。( a ) 列舉三種流行的數(shù)據(jù)倉庫建模模式。(b)使用(a)列舉的模式之一,畫出上面數(shù)據(jù)倉庫的模式圖。(c) 由基本方體 day ,doctor ,patient 開始, 為列出 2000 年每位醫(yī)生的收費總數(shù), 應(yīng)當(dāng)執(zhí)行哪些 OLAP 操作?(d) 為得到同樣的結(jié)果,寫一個 SQL查詢。假定數(shù)據(jù)存放在關(guān)系數(shù)據(jù)庫中,其模式如下:fee ( day, month , year , doctor , hospital , patient , count , charge )2.4 假定 Big_Univ

5、ersity 的數(shù)據(jù)倉庫包含如下 4個維 student, course, semester 和 instructor , 2 個度 量 count 和 avg_grade 。在最低的概念層 (例如對于給定的學(xué)生、 課程、學(xué)期和教師的組合) ,度量 avg_grade 存放學(xué)生的實際成績。在較高的概念層, avg_grade 存放給定組合的平均成績。(a)為數(shù)據(jù)倉庫畫出雪花模式圖;( b) 由基本方體 student, course, semester, instructor 開始,為列出 Big_University 每個學(xué)生的CS課程的平均成績,應(yīng)當(dāng)使用哪些OLAP操作(如由semeste

6、r上卷到y(tǒng)ear);(c)如果每維有 5 層(包括 all ),如 student<MAJOR<STATUS<UNIVERSITY<>2.5 假定數(shù)據(jù)倉庫包含 4 個維 date ,spectator ,location 和 game,2 個度量 count 和 charge 。其中 charge是觀眾在給定的日期觀看節(jié)目的付費。觀眾可以是學(xué)生、成年人或老人,每類觀眾有不同的收費標(biāo)準(zhǔn)。(a ) 畫出該數(shù)據(jù)倉庫的星型模式圖;(b) 由基本方體date , spectator , location , game開始,為列出 2000年學(xué)生觀眾在 GM-Place的總付

7、費,應(yīng)當(dāng)執(zhí)行哪些OLAP操作?(c) 對于數(shù)據(jù)倉庫,位圖索引是有用的。以該數(shù)據(jù)立方體為例,簡略討論使用位圖索引結(jié)構(gòu)的優(yōu)點和問題。2.6 為地區(qū)氣象局設(shè)計一個數(shù)據(jù)倉庫。氣象局大約有 1000 觀察點,散步在該地區(qū)的陸地、海洋,收集基本氣象數(shù)據(jù),包括每小時的氣壓、溫度、降雨量。所有的數(shù)據(jù)都送到中心站,那里已收集了這種數(shù)據(jù)長達(dá)十 年。你的設(shè)計應(yīng)當(dāng)有利于有效的查詢和聯(lián)機分析處理,有利于有效地導(dǎo)出多維空間的一般天氣模式。2.7 關(guān)于數(shù)據(jù)立方體中的度量計算:(a) 根據(jù)計算數(shù)據(jù)立方體所用的聚集函數(shù),列出度量的三種分類;(b) 對于具有三個維 time , location 和 product 的數(shù)據(jù)立方體

8、,函數(shù) variance 屬于哪一類?如果立方體被分割成一些塊,描述如何計算它;(c) 假定函數(shù)是“最高的 10 個銷售額”。討論如何在數(shù)據(jù)立方體里有效的計算該度量。2.8假定需要在數(shù)據(jù)立方體中記錄三種度量: min,average和median。給定的數(shù)據(jù)立方體允許遞增的刪除(即每次一小部分),為每種度量設(shè)計有效的計算和存儲方法。2.9 數(shù)據(jù)倉庫實現(xiàn)的流行方法是構(gòu)造一個稱為數(shù)據(jù)立方體的多維數(shù)據(jù)庫。不幸的是,這常常產(chǎn)生大的、稀 疏的多維矩陣。(a) 給出一個例子,解釋這種大的、稀疏的數(shù)據(jù)立方體;(b) 設(shè)計一種實現(xiàn)方法,可以很好的克服這種稀疏矩陣問題。注意,需要詳細(xì)解釋你的數(shù)據(jù)結(jié)構(gòu),討論空間需

9、求量,以及如何由你的結(jié)構(gòu)中檢索數(shù)據(jù);(c) 修改你在(b)的設(shè)計,處理遞增的數(shù)據(jù)更新。給出你的新設(shè)計的理由。2.10 假定數(shù)據(jù)倉庫包含 20 個維,每個維有 5 級粒度。(a) 用戶感興趣的主要是 4個特定的維,每維有3個上卷、下鉆頻繁訪問的級。你如何設(shè)計數(shù)據(jù)立方結(jié)構(gòu),有效地對此予以支持?(b) 用戶時常想由一兩個特定的維鉆透數(shù)據(jù)立方體,到原始數(shù)據(jù)。你如何支持這一特征?2.11假定基本立方體有三個維 A,B,C,其單元數(shù)如下:|A|=1000000, |B|=100,|C|=1000。假定分塊 將每維分成 10 部分。(a) 假定每維只有一層,畫出完整的立方體的格。(b) 如果每個立方單元存放

10、一個4字節(jié)的度量,若方是稠密的,所計算的立方體有多大?(c) 指出立方體中空間需求量最小的塊計算次序,并對計算2維平面所需要的內(nèi)存空間計算空間量。31 數(shù)據(jù)的質(zhì)量可以用精確性,完整性和一致性來評估。提出兩種數(shù)據(jù)質(zhì)量的其他尺度。32 在現(xiàn)實世界的數(shù)據(jù)中,元組在某些屬性上缺少值是常有的。描述處理該問題的各種方法。3. 3假定用于分析的數(shù)據(jù)包含屬性 age。數(shù)據(jù)元組中age的值如下(按遞增序):13,15,16,16,19,20, 20, 21 , 22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70(a

11、) 使用按箱平均值平滑對以上數(shù)據(jù)進行平滑,箱的深度是 3。解釋你的步驟。評論對于給定的數(shù) 據(jù),該技術(shù)的效果(b) 你怎樣確定數(shù)據(jù)中的孤立點?(c) 對于數(shù)據(jù)平滑,還有那些其他方法?3. 4 討論數(shù)據(jù)集成需要考慮的問題。(1) 模式識別:這主要是實體識別問題(2) 冗余:一個屬性是冗余的,即它能由另一個表導(dǎo)出,如果屬性或唯的命名不一致,也可能導(dǎo)致 冗余,可以用相關(guān)分析來檢測(3) 數(shù)據(jù)值沖突的檢測與處理:有些屬性因表示比例或編碼不同,會導(dǎo)致屬性不同35 使用習(xí)題 3。3給出的 age 數(shù)據(jù),回答以下問題:(a) 使用最小 -最大規(guī)范化,將 age 值 35轉(zhuǎn)換到0 。0,1。0 區(qū)間(b) 使用

12、 z-score 規(guī)范化轉(zhuǎn)換 age 值 35,其中 age 的標(biāo)準(zhǔn)差為 12。 94 年(c) 使用小數(shù)定標(biāo)規(guī)范化轉(zhuǎn)換 age 值 35 。(d) 指出對于給定的數(shù)據(jù),你愿意使用哪種方法。陳述你的理由。3 6 使用流程圖概述如下屬性子集選擇過程(a) 逐步向前選擇(b) 逐步向后刪除(c) 逐步向前選擇和逐步向后刪除的結(jié)合3.7 使用習(xí)題 3.3 給出的 age 數(shù)據(jù)(a) 畫一個寬度為 10 的等寬直方圖。5 的樣本和(b)為如下每種選樣技術(shù)勾畫例子:SRSWORS RSWR,聚類選擇,分層選擇。使用長度為 層 "young" , "middle_aged&q

13、uot; 和 "senior" 。3.8 對如下問題,使用偽代碼或你喜歡用的程序設(shè)計語言,給出算法:(a) 對于分類數(shù)據(jù),基于給定模式中屬性的不同值得個數(shù),自動產(chǎn)生概念分層。(b) 對于數(shù)值數(shù)據(jù),基于等寬劃分規(guī)則,自動產(chǎn)生概念分層。(c) 對于數(shù)值數(shù)據(jù),基于等深劃分規(guī)則,自動產(chǎn)生概念分層。4.1 列出和描述說明數(shù)據(jù)挖掘任務(wù)的五種原語。4.2 說明為什么概念分層在數(shù)據(jù)挖掘中是有用的。4.3 概念分層的四種主要類型是:模式分層,集合分組分層,操作導(dǎo)出的分層和基于規(guī)則的分層。a) 簡略定義每種類型的分層。b) 對于每種類型的分層,給出一個不在本章中出現(xiàn)的例子。4.4 考慮下面的由

14、 Big-University 的學(xué)生數(shù)據(jù)庫挖掘的關(guān)聯(lián)規(guī)則 major(X,"science")=>status(X,"undergrad") (4.8) 假定學(xué)校的學(xué)生人數(shù)(即任務(wù)相關(guān)的元組數(shù))為5000,其中 56%的在校本科生的專業(yè)是科學(xué), 64%的學(xué)生注冊本科學(xué)位課程, 70%的學(xué)生主修科學(xué)。a) 計算規(guī)則 (4.8) 的支持度和置信度。b) 考慮下面的規(guī)則 (4.9) :major(X,"biology")=>status(X,"undergrad") 17%,80% (4.9) 假定主攻科學(xué)

15、的學(xué)生 30%專業(yè)為 biology 。與規(guī)則 (4.8) 對比, 你認(rèn)為規(guī)則 (4.9) 新穎嗎? 解釋你的結(jié) 論。4.5 語句可以用于挖掘特征化,區(qū)分,關(guān)聯(lián)和分類規(guī)則。為聚類的挖掘提出一個語法定義。4.6 論建立標(biāo)準(zhǔn)化的數(shù)據(jù)挖掘查詢語言的重要性。涉及這一任務(wù)的一些潛在好處和挑戰(zhàn)是什么?列舉一些 該領(lǐng)域的最近提議。4.7下面的練習(xí)涉及定義概念分層的DMQI語法。(a) 典型情況,對于模式 date(day,month,quarter,year) ,數(shù)據(jù)挖掘系統(tǒng)有一個預(yù)定義的概念分層。使用DMQ提供該概念分層的定義。(b) 概念分層定義可能涉及多個關(guān)系。例如, iterm_hierachy 可

16、以涉及兩個關(guān)系 item 和 supplier , 由如下模式定義:item(item_ID, brand, type, place_made, supplier)supplier(name, type, headquarter_location, owner, size, assets, revenue)5.1 對于類特征化, 基于數(shù)據(jù)立方體的實現(xiàn)與諸如面向?qū)傩詺w納的關(guān)系實現(xiàn)之間的主要不同是什么?討 論哪種方法最有效,在什么條件下最有效。5.2 假定下面的表從面向?qū)傩缘臍w納導(dǎo)出class &n bsp;birth-placecount&nbsp;Cannadaprogramm

17、er&nbs p; 180others120& nbsp;CannadaDba&nbs p; 20&nbsp;others;80(a)將該表轉(zhuǎn)換成現(xiàn)實相關(guān)t-權(quán)和d-權(quán)的交叉表(b)將類Programmer轉(zhuǎn)換成(雙向的)量化描述規(guī)則。例如(birth_pl ace(X)= ” Canada 人)t:x%,d:y%V ()(t:w%,d:z%。儀,Programmer(X)I)包含相關(guān)分析和(ii )不包5.3討論為什么需要解析特征化和如何進行。比較兩種歸納方法的結(jié)果:(含相關(guān)分析5.4對于數(shù)據(jù)離散的特征化,另外給岀三個常用統(tǒng)計度量(未在本章說明),并討論如何在

18、大型數(shù)據(jù)庫中有效地計算它們。5.5 假定分析數(shù)據(jù)包含屬性 age.數(shù)據(jù)元組的age值(以遞增次序)是:13, 15, 16, 16, 19, 20, 20,21, 22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70A該數(shù)據(jù)的平均值是多少?中位數(shù)是多少?B該數(shù)據(jù)的模是多少?評論數(shù)據(jù)的模態(tài)性(即雙模態(tài),三模態(tài)等).C數(shù)據(jù)的中列數(shù)是什么D你能找出(粗略地)數(shù)據(jù)的第一個四分位數(shù)(q1)和第三個四分位數(shù)(Q3)嗎?E給岀數(shù)據(jù)的五數(shù)概括F畫出數(shù)據(jù)的盒圖G分位數(shù)-分位數(shù)圖與分位數(shù)圖的不同之處是什么?5.6給定由

19、數(shù)據(jù)庫DB導(dǎo)出的概化關(guān)系R,假定元組的集合厶DB需要從DB中刪除,簡要給出用于 R的必要刪除的增量更新過程。5.7 簡要給出挖掘解析類比較的基于數(shù)據(jù)立方體的增量算法。5.8 簡要給出數(shù)據(jù)立方體環(huán)境下數(shù)據(jù)離散統(tǒng)計度量的(1)并行和(H)分布式挖掘方法。61 Apriori算法使用子集支持度性質(zhì)的先驗知識a) 證明頻繁項集的所有非空子集必須也是頻繁的。b) 證明項集s的任意非空子集s'的支持度至少和s的支持度一樣大。C)給定頻繁項集I和I的子集S,證明規(guī)則“ s' =>(l -s') ”的置信度不可能大于“ s=>(l -s) ”的置信度。 其中,s'是

20、s的子集。d) Apriori的一種變形將事務(wù)數(shù)據(jù)庫 D中的事務(wù)劃分成n個不重疊的部分。證明在D中是頻繁的任何項集至少在 D 的一個部分中是頻繁的。62 數(shù)據(jù)庫有 4個事務(wù)。設(shè) min_sup = 60%, min_Conf = 80%TID DATE ITEMS_BOUGHTT10010/15/99K, A, D, BT20010/15/99D, A, C, E, BT30010/19/99C, A, B, ET40010/22/99B, A, DA) 分別使用 Apriori 和 FP- 增長算法找出頻繁項集。比較兩種挖掘過程的有效性。B) 列出所有強關(guān)聯(lián)規(guī)則,他們與下面的元規(guī)則匹配, 其

21、中, X 是代表顧客的變量, item 時表示項的變量:s, Cx transaction, buys(X, iteml) A buys(X, item2) => buys(X, item3) 63 在挖掘?qū)咏徊骊P(guān)聯(lián)規(guī)則時,假定發(fā)現(xiàn)項集“ IBM desktop computer, printer ”不滿足最小支持度。 這一信息可以用來剪去諸如“ IBM desktop computer, b/w printer ”的“后代”項集的挖掘嗎?給出一 個一般規(guī)則,解釋這一信息如何用于對搜索空間剪枝。6 4 給出一個短例子,表明強關(guān)聯(lián)規(guī)則中的項可能實際上是負(fù)相關(guān)的。6 5 下面的相依表匯總了超

22、級市場的事務(wù)數(shù)據(jù),其中,hot dogs 表示包含熱狗的事務(wù), hotdogs 表示不包含熱狗的事務(wù), hamburgers 表示包含漢堡包的事務(wù), hamburgers 表示不包含漢堡包的事務(wù)。Hotdogs hotdogsHamburgers 2000 500 2500hamburgers 1000 1500 2500刀 col 3000 20005000A) 假定發(fā)現(xiàn)關(guān)聯(lián)規(guī)則“ hotdogs=>hamburgers ”。給定最小支持度閾值 25% ,最小置信度閾值 50% , 該關(guān)聯(lián)規(guī)則是強的嗎?B) 根據(jù)給定的數(shù)據(jù),買 hotdog 獨立于買 hamburgers 嗎?如果不是

23、,二者之間存在何種相關(guān)聯(lián)系?66 數(shù)據(jù)庫有 4 個事務(wù),設(shè) min_sup = 60% , min_conf = 80%。Cust_ID TID Items_bought (以 brand- item_category 形式)01 T100 King 's-Carb, Sunset-Milk, Dairyland-Cheese, best-Bread02 T200 Best-Cheese, Dairyland-Milk, Goldenfarm-Apple, Tasty-Pie, Wonder-Bread01 T300 Westcoast-Apple, Dairyland- Milk,

24、Wonder-Bread, Tasty-Pie03 T400 Wonder-Bread, Sunset-Milk, Dairyland-Cheesea) 在 item_category 粒度(例如, itemi 可以是” milk ” ),對于下面規(guī)則模板" x transaction, buys(X, iteml) A buys(X, item2) => buys(X, item3)s, c對于最大的 k ,列出頻繁 k- 項集和包含最大的 k 的頻繁 k- 項集的所有強關(guān)聯(lián)規(guī)則。b) 在 brand-item_category 粒度(例如: item 可以是“ sunset

25、 -milk ”),對于下面的規(guī)則模板:x customer, buys(X, iteml) A buys(X, item2) => buys(X, item3)對最大的k,列出頻繁k-項集。注意:不打印任何規(guī)則。6.7 假定一個大型存儲具有分布在 4 個站點的事務(wù)數(shù)據(jù)庫。每個成員數(shù)據(jù)庫中的事務(wù)具有相同的格式Tj:i1,im;其中,Tj是事務(wù)標(biāo)示符,而ik(1<=k<=m)是事務(wù)中購買的商品標(biāo)識符。提出一個有效的算 法,挖掘全局關(guān)聯(lián)規(guī)則(不考慮多層關(guān)聯(lián)規(guī)則)??梢越o出你的算法的要點。你的算法不必將所有的數(shù)據(jù) 移到一個站點,并且不造成過度的網(wǎng)絡(luò)通信開銷。6.8 假定大型事務(wù)數(shù)據(jù)

26、庫 DB的頻繁項集已經(jīng)存儲。討論:如果新的事務(wù)集 DB (增量地)加進,在相同 的最小支持度閾值下,如何有效地挖掘(全局)關(guān)聯(lián)規(guī)則?6.9 提出并給出挖掘多層關(guān)聯(lián)規(guī)則的層共享挖掘方法的要點。其中,每個項用它的層位置編碼,一次初 始數(shù)據(jù)庫掃描收集每個概念層的每個項的計數(shù),識別頻繁和子頻繁項集。將用該方法挖掘多層關(guān)聯(lián)規(guī)則與 挖掘單層關(guān)聯(lián)規(guī)則的花費進行比較。6.10 證明:包含項h和其祖先h'的項集H的支持度與項集H-h'的支持度相同。解釋如何將它用于層 交叉關(guān)聯(lián)規(guī)則挖掘。6.11 提出一種挖掘混合維關(guān)聯(lián)規(guī)則(多維關(guān)聯(lián)規(guī)則帶有重復(fù)謂詞)的方法。6.12 序列模式可以用類似于關(guān)聯(lián)規(guī)則挖

27、掘的方法挖掘。 設(shè)計一個有效的算法, 由事務(wù)數(shù)據(jù)庫挖掘多層序 列模式。這種模式的一個例子如下: “買PC的顧客在三個月內(nèi)將買 Microsoft軟件”,在其上,可以下鉆, 發(fā)現(xiàn)該模式的更詳細(xì)的版本,如“買 Pentium PC 的顧客在三個月內(nèi)將買 Microsoft Office ”。6.13 商店里每種商品的價格是非負(fù)的。 商店經(jīng)理只關(guān)心如下形式的規(guī)則: “一件免費商品可能觸發(fā)在同 一事務(wù)中 $200 的總購物”。陳述如何有效地挖掘這種規(guī)則。6.14 商店里每種商品的價格是非負(fù)的。 對于以下每種情況, 識別它們提供的約束類型,并簡略討論如何 有效地挖掘這種關(guān)聯(lián)規(guī)則。(a)至少包含一件 Ni

28、ntendo 游戲。(b) 包含一些商品,它們的單價和小于$150。(c) 包含一件免費商品,并且其它商品的單價和至少是$200。(d) 所有商品的平均價格在 $100和$500 之間。7.1 簡述判定樹分類的主要步驟。7.2 在判定樹歸納中,為什么樹剪枝是有用的?用一個單獨的樣本集計值剪枝的缺點是什么?7.3 為什么樸素貝葉斯分類稱為“樸素”的?簡述樸素貝葉斯分類的主要思想。7.4 比較急切分類(如判定樹、貝葉斯、神經(jīng)網(wǎng)絡(luò))相對于懶散分類(如, k- 最臨近、基于案例的推理) 的優(yōu)缺點。7.5 通過對預(yù)測變量的變換,有些非線性回歸模型可以轉(zhuǎn)換成線性的。指出如何將非線性回歸方程 Y=aXb 轉(zhuǎn)

29、換成可以用最小平方法求解的線性回歸方程。7.6 什么是推進?陳述它為何能提高判定樹歸納的準(zhǔn)確性。 的表決,這里每個分類法的表決是其準(zhǔn)確率的函數(shù)。推進算法也可以擴充到連續(xù)值預(yù)測。7.7 證明準(zhǔn)確率是靈敏性和特效性度量的函數(shù),即證明( 7.31 )式。7.8 當(dāng)一個數(shù)據(jù)對象可以同時屬于多個類時,很難評估分類的準(zhǔn)確率。陳述在這種情況下,你將使用何種 標(biāo)準(zhǔn)比較在相同數(shù)據(jù)上的建模的不同分類方法。7.9 給定判定樹,你有選擇: (a) 將判定樹轉(zhuǎn)換成規(guī)則,然后對結(jié)果規(guī)則剪枝,或 (b) 對判定樹剪枝,然后 將剪枝后的樹轉(zhuǎn)換成規(guī)則。相對于 (b) ,(a) 的優(yōu)點是什么?7.10給定k和描述每個樣本的屬性數(shù)

30、n,寫一個k-最臨近分類算法。7.11 下表給出課程數(shù)據(jù)庫中學(xué)生的期中和期末考試成績。X其中考試 Y期末考試72845063817774789490867559498379657 7335288748190(a)繪數(shù)據(jù)圖。 X 和 Y 看上去具有線性聯(lián)系嗎?(b)使用最小二乘法,求由學(xué)生的期中成績預(yù)測學(xué)生的期末成績的方程式。(c)預(yù)測期中成績?yōu)?86 分的學(xué)生的期末成績。7.12 下表有雇員數(shù)據(jù)庫的訓(xùn)練數(shù)據(jù)組成。數(shù)據(jù)已概化。對于給定的行, count 表示 department , status,age 和 salary 在該行上具有給定值的元組數(shù)。department Status Age

31、Salary countsales senior 31.35 46K.50K 30sales& nbsp;junior26.30 26K.30K 40sales junior31.35 31K.35K 40systems juni or21.2546K.50K 20systems senior31.3566K.70K5systemsjunior26.3046K.50K3systemssenior41.4566K.70K3marketingsenior36.4046K.50K 10marketingjunior31.3541K.45K 4secretarysenior46.50&

32、nbs p;36K.40K4secretaryjunior26.3026K.30K6設(shè) salary 是類標(biāo)號屬性。(a) 你將如何修改 ID3 算法,以便考慮每個概化數(shù)據(jù)元組(即每一行)的 count ?(b) 使用你修改過的 ID3 算法,構(gòu)造給定數(shù)據(jù)的判定樹。(c) 給定一個數(shù)據(jù)樣本,它在屬性 department,status 和 age 上的值分別為” systems”, ”junior ” 和” 20.24 ”。該樣本的 salary 的樸素貝葉斯分類是什么?(d) 為給定的數(shù)據(jù)設(shè)計一個多層前饋神經(jīng)網(wǎng)絡(luò)。標(biāo)記輸入和輸出層節(jié)點。(e) 使用上面得到的多層前饋神經(jīng)網(wǎng)絡(luò),給定訓(xùn)練實例”

33、(sales,senior,31.35,46K.50K)”, 給出后向傳播算法一次迭代后的權(quán)值。指出你使用的初始權(quán)值和偏置以及學(xué)習(xí)率。8.1 給定年齡 age 的變量的如下度量值: 18 ,22 , 25 ,42 , 28 , 43 ,33 ,35 , 56 ,28 通 過如下的方法進行變量標(biāo)準(zhǔn)化:a) 計算 age 的平均絕對誤差。b) 計算頭四個值的 z score 。8.2 給定兩個對象,分別用元組( 22 ,1 , 42 ,10 )和( 20 , 0 , 36 ,8 )表示a) 計算兩個對象之間的歐幾里的距離b) 計算兩個對象之間的曼哈坦距離計算兩個對象間的明考斯基距離,q = 3。8

34、.3 什么是聚類?簡單描述下列聚類方法:劃分方法,層次方法,基于密度的方法,基于網(wǎng)格的方 法,以及基于模型的方法。為每種方法給出例子。8.4假設(shè)數(shù)據(jù)挖掘的任務(wù)是將如下8 個點(用( x , y )代表位置)聚類為 3 個簇A1 (2,10 ), A2 ( 2,5 ), A3( 8 , 4 ),B1 (5,8 ),B2 ( 7,5 ), B3 (6 , 4 ),C1 (1,2 ),C2 ( 4,9 )距離函數(shù)是歐幾里的距離。假設(shè)初始選擇 A1 , B1 , C1 分別為每個聚類的中心。請用 K 平均算法 給出a) 第一次循環(huán)執(zhí)行后的三個聚類中心;b) 最后的三個簇。8.5 人眼在判斷聚類方法對二

35、位數(shù)據(jù)的聚類質(zhì)量上是快速而有效的。你能否設(shè)計出一個數(shù)據(jù)可視的 方法類似數(shù)據(jù)聚類可視化和幫助人們判斷三維數(shù)據(jù)的聚類質(zhì)量。對更高維的數(shù)據(jù)如何?8.6 給出如何集成特定聚類算法的例子,例如,什么情況下一個聚類算法被用作另一個算法的預(yù)處 理。9.1 異構(gòu)數(shù)據(jù)庫系統(tǒng)由多個數(shù)據(jù)庫系統(tǒng)組成,這些數(shù)據(jù)庫的定義是相互獨立的,但彼此間需要一定的信息 交換,能夠處理局部和全局查詢。試述在這種系統(tǒng)中如何使用基于概化的方法處理描述性挖掘查詢。9.2 對象立方體的建立,可以在執(zhí)行多維概化之前通過把面向?qū)ο蟮臄?shù)據(jù)庫概化為結(jié)構(gòu)化數(shù)據(jù)來完成。試 述如何在對象立方體中處理集合值數(shù)據(jù)。9.3 空間關(guān)聯(lián)挖掘可以至少按如下兩種方式加以

36、實現(xiàn): (i )基于挖掘查詢的要求,可以動態(tài)計算不同空間 對象之間的空間關(guān)聯(lián)關(guān)系;( ii )預(yù)先計算出空間對象間的空間距離,使得關(guān)聯(lián)挖掘可以基于這些預(yù)計算 結(jié)果求得。試述( i )如何高效實現(xiàn)上述方法;( ii )各方法的適用條件。9.4 假設(shè)某城市的交通部門需要規(guī)劃高速公路的建設(shè),為此希望根據(jù)每天不同時刻收集到的交通數(shù)據(jù)進行 有關(guān)高速公路大通方面的數(shù)據(jù)分析。(a) 設(shè)計一存儲高速公路交通信息的空間數(shù)據(jù)倉庫,可以方便地支持人們按高速公路、按一天的時間和按工作日查看平均的和高峰時間的交通流量,以及在發(fā)生重大交通事故時的交通狀況。(b) 可以從該空間數(shù)據(jù)倉庫中挖掘什么樣的信息用于支持城市規(guī)劃人員

37、?(c) 該數(shù)據(jù)倉庫既包含了空間數(shù)據(jù),也包含了時態(tài)數(shù)據(jù)。設(shè)計一種挖掘技術(shù),可以高效地從該空間-時態(tài) 數(shù)據(jù)倉庫挖掘有意義的模式。9.5 多媒體中的相似檢索已經(jīng)成為多媒體數(shù)據(jù)檢索系統(tǒng)開發(fā)中的主要內(nèi)容。然而,許多多媒體數(shù)據(jù)挖掘方 法只是基于孤立的簡單多媒體特征分析,如顏色、形狀、描述、關(guān)鍵字,等等。(a) 請指出將數(shù)據(jù)挖掘與基于相似性的檢索結(jié)合,可以給多媒體數(shù)據(jù)挖掘帶來重要的進步??梢杂萌我粩?shù)據(jù)挖掘技術(shù)為例,如多維分析、分類、關(guān)聯(lián)或聚類等。(b) 請概述應(yīng)用基于相似性的搜索方法增強多媒體數(shù)據(jù)中聚類質(zhì)量的實現(xiàn)技術(shù)。9.6 假設(shè)一供電站保存了按時間和按地區(qū)的能源消耗量,和每一地區(qū)每一用戶的能源使用信息。討論在這 一時序數(shù)據(jù)庫中,如何解決如下問題:(a)找出星期五某一給定地區(qū)的相似的能源消耗曲線;(b )當(dāng)能源消耗曲線急劇上升時,20分鐘內(nèi)會發(fā)生什么情況?(c) 如何找出可以區(qū)分穩(wěn)定能源消耗地區(qū)與不穩(wěn)定能源消耗地區(qū)的最突出特征?9.7 假設(shè)某連鎖餐廳想挖掘出與主要體育事件相關(guān)的顧客

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論