




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘習題什么是數(shù)據(jù)挖掘?在你的回答中,強調(diào)以下問題:(a)它是又一個騙局嗎?(b)它是一種從數(shù)據(jù)庫,統(tǒng)計學和機器學習發(fā)展的技術(shù)的簡單轉(zhuǎn)換嗎?(c)解釋數(shù)據(jù)庫技術(shù)發(fā)展如何導致數(shù)據(jù)挖掘(d)當把數(shù)據(jù)挖掘看作知識發(fā)現(xiàn)過程時,描述數(shù)據(jù)挖掘所涉及的步驟。給出一個例子,其中數(shù)據(jù)挖掘?qū)τ谝环N商務(wù)的成功至關(guān)重要的。這種商務(wù)需要什么數(shù)據(jù)挖掘功能?他們能夠由數(shù)據(jù)查詢處理或簡單的統(tǒng)計分析來實現(xiàn)嗎?假定你是Big-University的軟件工程師,任務(wù)是設(shè)計一個數(shù)據(jù)挖掘系統(tǒng),分析學校課程數(shù)據(jù)庫。該數(shù)據(jù)庫包括如下信息:每個學生的姓名,地址和狀態(tài)(例如,本科生或研究生),所修課程,以及他們累積的GPA(學分
2、平均)。描述你要選取的結(jié)構(gòu)。該結(jié)構(gòu)的每個成分的作用是什么?數(shù)據(jù)倉庫和數(shù)據(jù)庫有何不同?它們有那些相似之處?15簡述以下高級數(shù)據(jù)庫系統(tǒng)和應(yīng)用:面向?qū)ο髷?shù)據(jù)庫,空間數(shù)據(jù)庫,文本數(shù)據(jù)庫,多媒體數(shù)據(jù)庫和WWW。16定義以下數(shù)據(jù)挖掘功能:特征化,區(qū)分,關(guān)聯(lián),分類,預測,聚類和演變分析。使用你熟悉的現(xiàn)實生活中的數(shù)據(jù)庫,給出每種數(shù)據(jù)挖掘的例子。17區(qū)分和分類的差別是什么?特征化和聚類的差別是什么?分類和預測呢?對于每一對任務(wù),它們有何相似之處?18根據(jù)你的觀察,描述一種可能的知識類型,它需要由數(shù)據(jù)挖掘方法發(fā)現(xiàn),但未在本章中列出。它需要一種不同于本章列舉的數(shù)據(jù)挖掘技術(shù)嗎?1.9描述關(guān)于數(shù)據(jù)挖掘方法和用戶交互問題
3、的三個數(shù)據(jù)挖掘的挑戰(zhàn)。1.10描述關(guān)于性能問題的兩個數(shù)據(jù)挖掘的挑戰(zhàn)。試述對于多個異種信息源的集成,為什么許多公司寧愿使用更新驅(qū)動的方法(構(gòu)造使用數(shù)據(jù)倉庫),而不愿使用查詢驅(qū)動的方法(使用包裝程序和集成程序)。描述一些情況,其中查詢驅(qū)動方法比更新驅(qū)動方法更受歡迎。簡略比較以下概念,可以用例子解釋你的觀點(a)雪花模式、事實星座、星型網(wǎng)查詢模型(b)數(shù)據(jù)清理、數(shù)據(jù)變換、刷新(c)發(fā)現(xiàn)驅(qū)動數(shù)據(jù)立方體、多特征方、虛擬倉庫2.3假定數(shù)據(jù)倉庫包含三個維time,doctor和patient,兩個度量count和charge,其中charge是醫(yī)生對一位病人的一次診治的收費。(a)列舉三種流行的數(shù)據(jù)倉庫建模
4、模式。(b)使用(a)列舉的模式之一,畫出上面數(shù)據(jù)倉庫的模式圖。(c)由基本方體day,doctor,patient開始,為列出2000年每位醫(yī)生的收費總數(shù),應(yīng)當執(zhí)行哪些OLAP操作?(d)為得到同樣的結(jié)果,寫一個SQL查詢。假定數(shù)據(jù)存放在關(guān)系數(shù)據(jù)庫中,其模式如下:fee(day,month,year,doctor,hospital,patient,count,charge)假定Big_University的數(shù)據(jù)倉庫包含如下4個維student,course,semester和instructor,2個度量count和avg_grade。在最低的概念層(例如對于給定的學生、課程、學期和教師的組
5、合),度量avg_grade存放學生的實際成績。在較高的概念層,avg_grade存放給定組合的平均成績。為數(shù)據(jù)倉庫畫出雪花模式圖;由基本方體student,course,semester,instructor開始,為列出Big_University每個學生的CS課程的平均成績,應(yīng)當使用哪些OLAP操作(如由semester上卷到y(tǒng)ear);如果每維有5層(包括all),如studentMAJORSTATUSUNIVERSITY2.5假定數(shù)據(jù)倉庫包含4個維date,spectator,location和game,2個度量count和charge。其中charge是觀眾在給定的日期觀看節(jié)目的付費
6、。觀眾可以是學生、成年人或老人,每類觀眾有不同的收費標準。(a)畫出該數(shù)據(jù)倉庫的星型模式圖;由基本方體date,spectator,location,game開始,為列出2000年學生觀眾在GM-Place的總付費,應(yīng)當執(zhí)行哪些OLAP操作?對于數(shù)據(jù)倉庫,位圖索引是有用的。以該數(shù)據(jù)立方體為例,簡略討論使用位圖索引結(jié)構(gòu)的優(yōu)點和問題。為地區(qū)氣象局設(shè)計一個數(shù)據(jù)倉庫。氣象局大約有1000觀察點,散步在該地區(qū)的陸地、海洋,收集基本氣象數(shù)據(jù),包括每小時的氣壓、溫度、降雨量。所有的數(shù)據(jù)都送到中心站,那里已收集了這種數(shù)據(jù)長達十年。你的設(shè)計應(yīng)當有利于有效的查詢和聯(lián)機分析處理,有利于有效地導出多維空間的一般天氣模
7、式。關(guān)于數(shù)據(jù)立方體中的度量計算:根據(jù)計算數(shù)據(jù)立方體所用的聚集函數(shù),列出度量的三種分類;對于具有三個維time,location和product的數(shù)據(jù)立方體,函數(shù)variance屬于哪一類?如果立方體被分割成一些塊,描述如何計算它;假定函數(shù)是最高的10個銷售額。討論如何在數(shù)據(jù)立方體里有效的計算該度量。2.8假定需要在數(shù)據(jù)立方體中記錄三種度量:min,average和median。給定的數(shù)據(jù)立方體允許遞增的刪除(即每次一小部分),為每種度量設(shè)計有效的計算和存儲方法。數(shù)據(jù)倉庫實現(xiàn)的流行方法是構(gòu)造一個稱為數(shù)據(jù)立方體的多維數(shù)據(jù)庫。不幸的是,這常常產(chǎn)生大的、稀疏的多維矩陣。給出一個例子,解釋這種大的、稀疏
8、的數(shù)據(jù)立方體;設(shè)計一種實現(xiàn)方法,可以很好的克服這種稀疏矩陣問題。注意,需要詳細解釋你的數(shù)據(jù)結(jié)構(gòu),討論空間需求量,以及如何由你的結(jié)構(gòu)中檢索數(shù)據(jù);修改你在(b)的設(shè)計,處理遞增的數(shù)據(jù)更新。給出你的新設(shè)計的理由。假定數(shù)據(jù)倉庫包含20個維,每個維有5級粒度。用戶感興趣的主要是4個特定的維,每維有3個上卷、下鉆頻繁訪問的級。你如何設(shè)計數(shù)據(jù)立方結(jié)構(gòu),有效地對此予以支持?用戶時常想由一兩個特定的維鉆透數(shù)據(jù)立方體,到原始數(shù)據(jù)。你如何支持這一特征?2.11假定基本立方體有三個維A,B,C,其單元數(shù)如下:|A|=1000000,|B|=100,|C|=1000。假定分塊將每維分成10部分。假定每維只有一層,畫出完
9、整的立方體的格。如果每個立方單元存放一個4字節(jié)的度量,若方是稠密的,所計算的立方體有多大?指出立方體中空間需求量最小的塊計算次序,并對計算2維平面所需要的內(nèi)存空間計算空間量。31數(shù)據(jù)的質(zhì)量可以用精確性,完整性和一致性來評估。提出兩種數(shù)據(jù)質(zhì)量的其他尺度。32在現(xiàn)實世界的數(shù)據(jù)中,元組在某些屬性上缺少值是常有的。描述處理該問題的各種方法。3.3假定用于分析的數(shù)據(jù)包含屬性age。數(shù)據(jù)元組中age的值如下(按遞增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70使用按箱平均值平滑對以上數(shù)據(jù)
10、進行平滑,箱的深度是3。解釋你的步驟。評論對于給定的數(shù)據(jù),該技術(shù)的效果你怎樣確定數(shù)據(jù)中的孤立點?對于數(shù)據(jù)平滑,還有那些其他方法?34討論數(shù)據(jù)集成需要考慮的問題。模式識別:這主要是實體識別問題冗余:一個屬性是冗余的,即它能由另一個表導出,如果屬性或唯的命名不一致,也可能導致冗余,可以用相關(guān)分析來檢測數(shù)據(jù)值沖突的檢測與處理:有些屬性因表示比例或編碼不同,會導致屬性不同3.5使用習題3。3給出的age數(shù)據(jù),回答以下問題:使用最小-最大規(guī)范化,將age值35轉(zhuǎn)換到0。0,1。0區(qū)間使用z-score規(guī)范化轉(zhuǎn)換age值35,其中age的標準差為12。94年使用小數(shù)定標規(guī)范化轉(zhuǎn)換age值35。指出對于給定
11、的數(shù)據(jù),你愿意使用哪種方法。陳述你的理由。3.6使用流程圖概述如下屬性子集選擇過程逐步向前選擇逐步向后刪除逐步向前選擇和逐步向后刪除的結(jié)合3.7使用習題3.3給出的age數(shù)據(jù)畫一個寬度為10的等寬直方圖。為如下每種選樣技術(shù)勾畫例子:SRSWOR,SRSWR,聚類選擇,分層選擇。使用長度為5的樣本和層young,middle_aged和senior。對如下問題,使用偽代碼或你喜歡用的程序設(shè)計語言,給出算法:對于分類數(shù)據(jù),基于給定模式中屬性的不同值得個數(shù),自動產(chǎn)生概念分層。對于數(shù)值數(shù)據(jù),基于等寬劃分規(guī)則,自動產(chǎn)生概念分層。對于數(shù)值數(shù)據(jù),基于等深劃分規(guī)則,自動產(chǎn)生概念分層。列出和描述說明數(shù)據(jù)挖掘任務(wù)
12、的五種原語。說明為什么概念分層在數(shù)據(jù)挖掘中是有用的。概念分層的四種主要類型是:模式分層,集合分組分層,操作導出的分層和基于規(guī)則的分層。簡略定義每種類型的分層。對于每種類型的分層,給出一個不在本章中出現(xiàn)的例子。考慮下面的由Big-University的學生數(shù)據(jù)庫挖掘的關(guān)聯(lián)規(guī)則major(X,science)=status(X,undergrad)(4.8)假定學校的學生人數(shù)(即任務(wù)相關(guān)的元組數(shù))為5000,其中56%的在校本科生的專業(yè)是科學,64%的學生注冊本科學位課程,70%的學生主修科學。計算規(guī)則(4.8)的支持度和置信度??紤]下面的規(guī)則(4.9):major(X,biology)=stat
13、us(X,undergrad)17%,80%(4.9)假定主攻科學的學生30%專業(yè)為biology。與規(guī)則(4.8)對比,你認為規(guī)則(4.9)新穎嗎?解釋你的結(jié)論。語句可以用于挖掘特征化,區(qū)分,關(guān)聯(lián)和分類規(guī)則。為聚類的挖掘提出一個語法定義。論建立標準化的數(shù)據(jù)挖掘查詢語言的重要性。涉及這一任務(wù)的一些潛在好處和挑戰(zhàn)是什么?列舉一些該領(lǐng)域的最近提議。4.7下面的練習涉及定義概念分層的DMQL語法。典型情況,對于模式date(day,month,quarter,year)數(shù)據(jù)挖掘系統(tǒng)有一個預定義的概念分層。使用DMQL提供該概念分層的定義。概念分層定義可能涉及多個關(guān)系。例如,iterm_hierach
14、y可以涉及兩個關(guān)系item和supplier,由如下模式定義:item(item_ID,brand,type,place_made,supplier)supplier(name,type,headquarter_location,owner,size,assets,revenue)5.1對于類特征化,基于數(shù)據(jù)立方體的實現(xiàn)與諸如面向?qū)傩詺w納的關(guān)系實現(xiàn)之間的主要不同是什么?討論哪種方法最有效,在什么條件下最有效。假定下面的表從面向?qū)傩缘臍w納導出classprogrammerbirth-placeCannadaothersCannadaDbaotherscount18012020;80將該表轉(zhuǎn)換成現(xiàn)
15、實相關(guān)t-權(quán)和d-權(quán)的交叉表(b)將類Programmer轉(zhuǎn)換成(雙向的)量化描述規(guī)則。例如(birth_place(X)=CanadaA.)t:x%,d:y%.V(.)(t:w%,d:z%。?X,Programmer(X)5.3討論為什么需要解析特征化和如何進行。比較兩種歸納方法的結(jié)果:(I)包含相關(guān)分析和(ii)不包含相關(guān)分析。對于數(shù)據(jù)離散的特征化,另外給出三個常用統(tǒng)計度量(未在本章說明),并討論如何在大型數(shù)據(jù)庫中有效地計算它們。5.5假定分析數(shù)據(jù)包含屬性age.數(shù)據(jù)元組的age值(以遞增次序)是:13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,3
16、3,33,35,35,35,35,36,40,45,46,52,70A該數(shù)據(jù)的平均值是多少?中位數(shù)是多少?B該數(shù)據(jù)的模是多少?評論數(shù)據(jù)的模態(tài)性(即雙模態(tài),三模態(tài)等).C數(shù)據(jù)的中列數(shù)是什么D你能找出(粗略地)數(shù)據(jù)的第一個四分位數(shù)(q1)和第三個四分位數(shù)(Q3)嗎?E給出數(shù)據(jù)的五數(shù)概括F畫出數(shù)據(jù)的盒圖G分位數(shù)-分位數(shù)圖與分位數(shù)圖的不同之處是什么?給定由數(shù)據(jù)庫DB導出的概化關(guān)系R,假定元組的集合厶DB需要從DB中刪除,簡要給出用于R的必要刪除的增量更新過程。簡要給出挖掘解析類比較的基于數(shù)據(jù)立方體的增量算法。5.8簡要給出數(shù)據(jù)立方體環(huán)境下數(shù)據(jù)離散統(tǒng)計度量的(i)并行和(ii)分布式挖掘方法。61Apr
17、iori算法使用子集支持度性質(zhì)的先驗知識證明頻繁項集的所有非空子集必須也是頻繁的。證明項集s的任意非空子集s的支持度至少和s的支持度一樣大。給定頻繁項集丨和丨的子集s,證明規(guī)則,s=(l-s)啲置信度不可能大于s=(l-s)的置信度。其中,s是s的子集。d)Apriori的一種變形將事務(wù)數(shù)據(jù)庫D中的事務(wù)劃分成n個不重疊的部分。證明在D中是頻繁的任何項集至少在D的一個部分中是頻繁的。62數(shù)據(jù)庫有4個事務(wù)。設(shè)min_sup=60%,min_conf=80%。TIDDATEITEMS_BOUGHTT10010/15/99K,A,D,BT20010/15/99D,A,C,E,BT30010/19/99
18、C,A,B,ET40010/22/99B,A,DA)分別使用Apriori和FP-增長算法找出頻繁項集。比較兩種挖掘過程的有效性。B)列出所有強關(guān)聯(lián)規(guī)則,他們與下面的元規(guī)則匹配,其中,X是代表顧客的變量,item時表示項的變量:xWtransaction,buys(X,item1)Abuys(X,item2)=buys(X,item3)s,c6.3在挖掘?qū)咏徊骊P(guān)聯(lián)規(guī)則時,假定發(fā)現(xiàn)項集IBMdesktopcomputer,printer不滿足最小支持度。這一信息可以用來剪去諸如IBMdesktopcomputer,b/wprinter1的后代項集的挖掘嗎?給出一個一般規(guī)則,解釋這一信息如何用于對
19、搜索空間剪枝。6.4給出一個短例子,表明強關(guān)聯(lián)規(guī)則中的項可能實際上是負相關(guān)的。6.5下面的相依表匯總了超級市場的事務(wù)數(shù)據(jù),其中,hotdogs表示包含熱狗的事務(wù),hotdogs表示不包含熱狗的事務(wù),hamburgers表示包含漢堡包的事務(wù),hamburgers表示不包含漢堡包的事務(wù)。HotdogshotdogsHamburgers20005002500hamburgers100015002500工col300020005000假定發(fā)現(xiàn)關(guān)聯(lián)規(guī)則hotdogs=hamburgers。給定最小支持度閾值25%,最小置信度閾值50%,該關(guān)聯(lián)規(guī)則是強的嗎?根據(jù)給定的數(shù)據(jù),買hotdog獨立于買hambu
20、rgers嗎?如果不是,二者之間存在何種相關(guān)聯(lián)系?6.6數(shù)據(jù)庫有4個事務(wù),設(shè)min_sup=60%,min_conf=80%。Cust_IDTIDItems_bought(以brand-item_category形式)01T100Kings-Carb,Sunset-Milk,Dairyland-Cheese,best-Bread02T200Best-Cheese,Dairyland-Milk,Goldenfarm-Apple,Tasty-Pie,Wonder-Bread01T300Westcoast-Apple,Dairyland-Milk,Wonder-Bread,Tasty-Pie03T4
21、00Wonder-Bread,Sunset-Milk,Dairyland-Cheese在item_category粒度(例如,itemi可以是milk),對于下面規(guī)則模板xWtransaction,buys(X,item1)Abuys(X,item2)=buys(X,item3)s,c對于最大的k,列出頻繁k-項集和包含最大的k的頻繁k-項集的所有強關(guān)聯(lián)規(guī)則。在brand-item_category粒度(例如:item可以是sunset-milk),對于下面的規(guī)則模板:xWcustomer,buys(X,item1)Abuys(X,item2)=buys(X,item3)對最大的k,列出頻繁k
22、-項集。注意:不打印任何規(guī)則。假定一個大型存儲具有分布在4個站點的事務(wù)數(shù)據(jù)庫。每個成員數(shù)據(jù)庫中的事務(wù)具有相同的格式Tj:i1,.,im;其中,Tj是事務(wù)標示符,而ik(1=k=m)是事務(wù)中購買的商品標識符。提出一個有效的算法,挖掘全局關(guān)聯(lián)規(guī)則(不考慮多層關(guān)聯(lián)規(guī)則)??梢越o出你的算法的要點。你的算法不必將所有的數(shù)據(jù)移到一個站點,并且不造成過度的網(wǎng)絡(luò)通信開銷。6.8假定大型事務(wù)數(shù)據(jù)庫DB的頻繁項集已經(jīng)存儲。討論:如果新的事務(wù)集ADB(增量地)加進,在相同的最小支持度閾值下,如何有效地挖掘(全局)關(guān)聯(lián)規(guī)則?提出并給出挖掘多層關(guān)聯(lián)規(guī)則的層共享挖掘方法的要點。其中,每個項用它的層位置編碼,一次初始數(shù)據(jù)庫
23、掃描收集每個概念層的每個項的計數(shù),識別頻繁和子頻繁項集。將用該方法挖掘多層關(guān)聯(lián)規(guī)則與挖掘單層關(guān)聯(lián)規(guī)則的花費進行比較。6.10證明:包含項h和其祖先h的項集H的支持度與項集H-h的支持度相同。解釋如何將它用于層交叉關(guān)聯(lián)規(guī)則挖掘。提出一種挖掘混合維關(guān)聯(lián)規(guī)則(多維關(guān)聯(lián)規(guī)則帶有重復謂詞)的方法。序列模式可以用類似于關(guān)聯(lián)規(guī)則挖掘的方法挖掘。設(shè)計一個有效的算法,由事務(wù)數(shù)據(jù)庫挖掘多層序列模式。這種模式的一個例子如下:買PC的顧客在三個月內(nèi)將買Microsoft軟件,在其上,可以下鉆,發(fā)現(xiàn)該模式的更詳細的版本,如買PentiumPC的顧客在三個月內(nèi)將買MicrosoftOffice。商店里每種商品的價格是非負
24、的。商店經(jīng)理只關(guān)心如下形式的規(guī)則:一件免費商品可能觸發(fā)在同一事務(wù)中$200的總購物。陳述如何有效地挖掘這種規(guī)則。商店里每種商品的價格是非負的。對于以下每種情況,識別它們提供的約束類型,并簡略討論如何有效地挖掘這種關(guān)聯(lián)規(guī)則。至少包含一件Nintendo游戲。包含一些商品,它們的單價和小于$150。包含一件免費商品,并且其它商品的單價和至少是$200。所有商品的平均價格在$100和$500之間。簡述判定樹分類的主要步驟。在判定樹歸納中,為什么樹剪枝是有用的?用一個單獨的樣本集計值剪枝的缺點是什么?為什么樸素貝葉斯分類稱為樸素的?簡述樸素貝葉斯分類的主要思想。7.4比較急切分類(如判定樹、貝葉斯、神
25、經(jīng)網(wǎng)絡(luò))相對于懶散分類(如,k-最臨近、基于案例的推理)的優(yōu)缺點。通過對預測變量的變換,有些非線性回歸模型可以轉(zhuǎn)換成線性的。指出如何將非線性回歸方程Y=aXb轉(zhuǎn)換成可以用最小平方法求解的線性回歸方程。什么是推進?陳述它為何能提高判定樹歸納的準確性。的表決,這里每個分類法的表決是其準確率的函數(shù)。推進算法也可以擴充到連續(xù)值預測。證明準確率是靈敏性和特效性度量的函數(shù),即證明(7.31)式。當一個數(shù)據(jù)對象可以同時屬于多個類時,很難評估分類的準確率。陳述在這種情況下,你將使用何種標準比較在相同數(shù)據(jù)上的建模的不同分類方法。7.9給定判定樹,你有選擇:(a)將判定樹轉(zhuǎn)換成規(guī)則,然后對結(jié)果規(guī)則剪枝,或(b)對
26、判定樹剪枝,然后將剪枝后的樹轉(zhuǎn)換成規(guī)則。相對于(b),(a)的優(yōu)點是什么?7.10給定k和描述每個樣本的屬性數(shù)n,寫一個k-最臨近分類算法。7.11下表給出課程數(shù)據(jù)庫中學生的期中和期末考試成績。X其中考試Y期末考試728450638177747894908675594983796577335288748190繪數(shù)據(jù)圖。X和Y看上去具有線性聯(lián)系嗎?使用最小二乘法,求由學生的期中成績預測學生的期末成績的方程式。預測期中成績?yōu)?6分的學生的期末成績。7.12下表有雇員數(shù)據(jù)庫的訓練數(shù)據(jù)組成。數(shù)據(jù)已概化。對于給定的行,count表示department,status,age和salary在該行上具有給定
27、值的元組數(shù)。departmentStatusAgeSalarycountsalessenior31.3546K.50K30salesjunior26.3026K.30K40salesjunior31.3531K.35K40systemsjunior21.2546K.50K20systemssenior31.3566K.70K5systemsjunior26.3046K.50K3systemssenior41.4566K.70K3marketingsenior36.4046K.50K10marketingjunior31.3541K.45K4secretarysenior46.5036K.40K
28、4secretaryjunior26.3026K.30K6設(shè)salary是類標號屬性。你將如何修改ID3算法,以便考慮每個概化數(shù)據(jù)元組(即每一行)的count?使用你修改過的ID3算法,構(gòu)造給定數(shù)據(jù)的判定樹。給定一個數(shù)據(jù)樣本,它在屬性department,status和age上的值分別為systemsTjunior和20.24。該樣本的salary的樸素貝葉斯分類是什么?為給定的數(shù)據(jù)設(shè)計一個多層前饋神經(jīng)網(wǎng)絡(luò)。標記輸入和輸出層節(jié)點。使用上面得到的多層前饋神經(jīng)網(wǎng)絡(luò),給定訓練實例(sales,senior,31.35,46K.50K)給出后向傳播算法一次迭代后的權(quán)值。指出你使用的初始權(quán)值和偏置以及學
29、習率。給定年齡age的變量的如下度量值:18,22,25,42,28,43,33,35,56,28通過如下的方法進行變量標準化:計算age的平均絕對誤差。計算頭四個值的zscore。給定兩個對象,分別用元組(22,1,42,10)和(20,0,36,8)表示計算兩個對象之間的歐幾里的距離計算兩個對象之間的曼哈坦距離計算兩個對象間的明考斯基距離,q=3。什么是聚類?簡單描述下列聚類方法:劃分方法,層次方法,基于密度的方法,基于網(wǎng)格的方法,以及基于模型的方法。為每種方法給出例子。假設(shè)數(shù)據(jù)挖掘的任務(wù)是將如下8個點(用(x,y)代表位置)聚類為3個簇:A1(2,10),A2(2,5),A3(8,4),
30、B1(5,8),B2(7,5),B3(6,4),C1(1,2),C2(4,9)距離函數(shù)是歐幾里的距離。假設(shè)初始選擇A1,B1,C1分別為每個聚類的中心。請用K平均算法給出a)第一次循環(huán)執(zhí)行后的三個聚類中心;b)最后的三個簇。人眼在判斷聚類方法對二位數(shù)據(jù)的聚類質(zhì)量上是快速而有效的。你能否設(shè)計出一個數(shù)據(jù)可視的方法類似數(shù)據(jù)聚類可視化和幫助人們判斷三維數(shù)據(jù)的聚類質(zhì)量。對更高維的數(shù)據(jù)如何?給出如何集成特定聚類算法的例子,例如,什么情況下一個聚類算法被用作另一個算法的預處理。異構(gòu)數(shù)據(jù)庫系統(tǒng)由多個數(shù)據(jù)庫系統(tǒng)組成,這些數(shù)據(jù)庫的定義是相互獨立的,但彼此間需要一定的信息交換,能夠處理局部和全局查詢。試述在這種系統(tǒng)
31、中如何使用基于概化的方法處理描述性挖掘查詢。對象立方體的建立,可以在執(zhí)行多維概化之前通過把面向?qū)ο蟮臄?shù)據(jù)庫概化為結(jié)構(gòu)化數(shù)據(jù)來完成。試述如何在對象立方體中處理集合值數(shù)據(jù)。9.3空間關(guān)聯(lián)挖掘可以至少按如下兩種方式加以實現(xiàn):(i)基于挖掘查詢的要求,可以動態(tài)計算不同空間對象之間的空間關(guān)聯(lián)關(guān)系;(ii)預先計算出空間對象間的空間距離,使得關(guān)聯(lián)挖掘可以基于這些預計算結(jié)果求得。試述(i)如何高效實現(xiàn)上述方法;(ii)各方法的適用條件。9.4假設(shè)某城市的交通部門需要規(guī)劃高速公路的建設(shè),為此希望根據(jù)每天不同時刻收集到的交通數(shù)據(jù)進行有關(guān)高速公路大通方面的數(shù)據(jù)分析。(a)設(shè)計一存儲高速公路交通信息的空間數(shù)據(jù)倉庫,
32、可以方便地支持人們按高速公路、按一天的時間和按工作日查看平均的和高峰時間的交通流量,以及在發(fā)生重大交通事故時的交通狀況。(b)可以從該空間數(shù)據(jù)倉庫中挖掘什么樣的信息用于支持城市規(guī)劃人員?(c)該數(shù)據(jù)倉庫既包含了空間數(shù)據(jù),也包含了時態(tài)數(shù)據(jù)。設(shè)計一種挖掘技術(shù),可以高效地從該空間時態(tài)數(shù)據(jù)倉庫挖掘有意義的模式。多媒體中的相似檢索已經(jīng)成為多媒體數(shù)據(jù)檢索系統(tǒng)開發(fā)中的主要內(nèi)容。然而,許多多媒體數(shù)據(jù)挖掘方法只是基于孤立的簡單多媒體特征分析,如顏色、形狀、描述、關(guān)鍵字,等等。(a)請指出將數(shù)據(jù)挖掘與基于相似性的檢索結(jié)合,可以給多媒體數(shù)據(jù)挖掘帶來重要的進步??梢杂萌我粩?shù)據(jù)挖掘技術(shù)為例,如多維分析、分類、關(guān)聯(lián)或聚類等。(b)請概述應(yīng)用基于相似性的搜索方法增強多媒體數(shù)據(jù)中聚類質(zhì)量的實現(xiàn)技術(shù)。假設(shè)一供電站保存了按時間和按地區(qū)的能源消耗量,和每一地區(qū)每一用戶的能源使用信息。討論在這一時序數(shù)據(jù)庫中,如何解決如下問題:(a)找出星期五某一給定地區(qū)的相似的能源消耗曲線;(b)當能源消耗曲線急劇上升時,20分鐘內(nèi)會發(fā)生什么情況?(c)如何找出可以區(qū)分穩(wěn)定能源消耗地區(qū)與不穩(wěn)定能源消耗地區(qū)的最突出特征?9.7假設(shè)某連鎖餐廳想挖掘出與主要體育事件相關(guān)的顧客行為,如每當電視播出法裔加拿大人的曲棍球比賽時,肯德雞的銷量會在比賽前一小時上升20。(a)給出一種找出這種模式的有效方法。(b)大部分與時間相關(guān)的關(guān)聯(lián)挖
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年醫(yī)用超聲治療設(shè)備合作協(xié)議書
- 2025年新型全液壓鉆機合作協(xié)議書
- 2025年煤炭采掘機械設(shè)備合作協(xié)議書
- 2025年高等教育服務(wù)項目發(fā)展計劃
- 農(nóng)業(yè)種質(zhì)資源保護利用合作協(xié)議
- 2025年家用塑膠墊項目發(fā)展計劃
- 金融投資顧問服務(wù)協(xié)議及保密條款
- 假期旅游企業(yè)批準旅游證明(5篇)
- 建筑工程代理咨詢服務(wù)合同
- 財務(wù)證明書個人銀行流水證明(6篇)
- 生產(chǎn)性服務(wù)業(yè)集聚對我國制造業(yè)全球價值鏈地位影響的門檻效應(yīng)研究
- 西南師大版二年級下冊遞等式計算練習300題及答案
- kpu鞋面工藝流程
- 圖形設(shè)計方法同構(gòu)、替構(gòu)、解構(gòu)、重構(gòu)
- 中華民族共同體建設(shè)實踐探索
- SCA涂膠機內(nèi)部培訓資料課件
- 部編人教版3三年級《道德與法治》下冊電子課本課件
- 新課標人教版六年級數(shù)學上冊教材分析課件
- 稅務(wù)會計學(第 14版)習題參考答案
- ??诞a(chǎn)品及公司介紹全系列
- 《人體解剖生理學》全套課件
評論
0/150
提交評論