數(shù)據(jù)挖掘復(fù)習(xí)題綱_第1頁(yè)
數(shù)據(jù)挖掘復(fù)習(xí)題綱_第2頁(yè)
數(shù)據(jù)挖掘復(fù)習(xí)題綱_第3頁(yè)
數(shù)據(jù)挖掘復(fù)習(xí)題綱_第4頁(yè)
數(shù)據(jù)挖掘復(fù)習(xí)題綱_第5頁(yè)
已閱讀5頁(yè),還剩8頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、一、1.2 數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)庫(kù)有何不同?它們有哪些相似之處?簡(jiǎn)而言之,數(shù)據(jù)庫(kù)是面向事務(wù)的設(shè)計(jì),數(shù)據(jù)倉(cāng)庫(kù)是面向主題設(shè)計(jì)的。 數(shù)據(jù)庫(kù)一般存儲(chǔ)在線交易數(shù)據(jù),數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)的一般是歷史數(shù)據(jù)。 數(shù)據(jù)庫(kù)設(shè)計(jì)是盡量避免冗余,一般采用符合范式的規(guī)則來(lái)設(shè)計(jì),數(shù)據(jù)倉(cāng)庫(kù)在設(shè)計(jì)是有意引入冗余,采用反范式的方式來(lái)設(shè)計(jì)。 數(shù)據(jù)庫(kù)是為捕獲數(shù)據(jù)而設(shè)計(jì),數(shù)據(jù)倉(cāng)庫(kù)是為分析數(shù)據(jù)而設(shè)計(jì),它的兩個(gè)基本的元素是維表和事實(shí)表。維是看問(wèn)題的角度,比如時(shí)間,部門(mén),維表放的就是這些東西的定義,事實(shí)表里放著要查詢的數(shù)據(jù),同時(shí)有維的ID。 單從概念上講,有些晦澀。任何技術(shù)都是為應(yīng)用服務(wù)的,結(jié)合應(yīng)用可以很容易地理解。以銀行業(yè)務(wù)為例。數(shù)據(jù)庫(kù)是事務(wù)系統(tǒng)的數(shù)據(jù)

2、平臺(tái),客戶在銀行做的每筆交易都會(huì)寫(xiě)入數(shù)據(jù)庫(kù),被記錄下來(lái),這里,可以簡(jiǎn)單地理解為用數(shù)據(jù)庫(kù)記帳。數(shù)據(jù)倉(cāng)庫(kù)是分析系統(tǒng)的數(shù)據(jù)平臺(tái),它從事務(wù)系統(tǒng)獲取數(shù)據(jù),并做匯總、加工,為決策者提供決策的依據(jù)。比如,某銀行某分行一個(gè)月發(fā)生多少交易,該分行當(dāng)前存款余額是多少。如果存款又多,消費(fèi)交易又多,那么該地區(qū)就有必要設(shè)立ATM了。 顯然,銀行的交易量是巨大的,通常以百萬(wàn)甚至千萬(wàn)次來(lái)計(jì)算。事務(wù)系統(tǒng)是實(shí)時(shí)的,這就要求時(shí)效性,客戶存一筆錢(qián)需要幾十秒是無(wú)法忍受的,這就要求數(shù)據(jù)庫(kù)只能存儲(chǔ)很短一段時(shí)間的數(shù)據(jù)。而分析系統(tǒng)是事后的,它要提供關(guān)注時(shí)間段內(nèi)所有的有效數(shù)據(jù)。這些數(shù)據(jù)是海量的,匯總計(jì)算起來(lái)也要慢一些,但是,只要能夠提供有效的

3、分析數(shù)據(jù)就達(dá)到目的了。 數(shù)據(jù)倉(cāng)庫(kù),是在數(shù)據(jù)庫(kù)已經(jīng)大量存在的情況下,為了進(jìn)一步挖掘數(shù)據(jù)資源、為了決策需要而產(chǎn)生的,它決不是所謂的“大型數(shù)據(jù)庫(kù)”。那么,數(shù)據(jù)倉(cāng)庫(kù)與傳統(tǒng)數(shù)據(jù)庫(kù)比較,有哪些不同呢?讓我們先看看W.H.Inmon關(guān)于數(shù)據(jù)倉(cāng)庫(kù)的定義:面向主題的、集成的、與時(shí)間相關(guān)且不可修改的數(shù)據(jù)集合。 “面向主題的”:傳統(tǒng)數(shù)據(jù)庫(kù)主要是為應(yīng)用程序進(jìn)行數(shù)據(jù)處理,未必按照同一主題存儲(chǔ)數(shù)據(jù);數(shù)據(jù)倉(cāng)庫(kù)側(cè)重于數(shù)據(jù)分析工作,是按照主題存儲(chǔ)的。這一點(diǎn),類(lèi)似于傳統(tǒng)農(nóng)貿(mào)市場(chǎng)與超市的區(qū)別市場(chǎng)里面,白菜、蘿卜、香菜會(huì)在一個(gè)攤位上,如果它們是一個(gè)小販賣(mài)的;而超市里,白菜、蘿卜、香菜則各自一塊。也就是說(shuō),市場(chǎng)里的菜(數(shù)據(jù))是按照小販

4、(應(yīng)用程序)歸堆(存儲(chǔ))的,超市里面則是按照菜的類(lèi)型(同主題)歸堆的。 “與時(shí)間相關(guān)”:數(shù)據(jù)庫(kù)保存信息的時(shí)候,并不強(qiáng)調(diào)一定有時(shí)間信息。數(shù)據(jù)倉(cāng)庫(kù)則不同,出于決策的需要,數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)都要標(biāo)明時(shí)間屬性。決策中,時(shí)間屬性很重要。同樣都是累計(jì)購(gòu)買(mǎi)過(guò)九車(chē)產(chǎn)品的顧客,一位是最近三個(gè)月購(gòu)買(mǎi)九車(chē),一位是最近一年從未買(mǎi)過(guò),這對(duì)于決策者意義是不同的。 “不可修改”:數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)并不是最新的,而是來(lái)源于其它數(shù)據(jù)源。數(shù)據(jù)倉(cāng)庫(kù)反映的是歷史信息,并不是很多數(shù)據(jù)庫(kù)處理的那種日常事務(wù)數(shù)據(jù)(有的數(shù)據(jù)庫(kù)例如電信計(jì)費(fèi)數(shù)據(jù)庫(kù)甚至處理實(shí)時(shí)信息)。因此,數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是極少或根本不修改的;當(dāng)然,向數(shù)據(jù)倉(cāng)庫(kù)添加數(shù)據(jù)是允許的。 數(shù)據(jù)

5、倉(cāng)庫(kù)的出現(xiàn),并不是要取代數(shù)據(jù)庫(kù)。目前,大部分?jǐn)?shù)據(jù)倉(cāng)庫(kù)還是用關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)來(lái)管理的??梢哉f(shuō),數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)相輔相成、各有千秋。 補(bǔ)充一下,數(shù)據(jù)倉(cāng)庫(kù)的方案建設(shè)的目的,是為前端查詢和分析作為基礎(chǔ),由于有較大的冗余,所以需要的存儲(chǔ)也較大。為了更好地為前端應(yīng)用服務(wù),數(shù)據(jù)倉(cāng)庫(kù)必須有如下幾點(diǎn)優(yōu)點(diǎn),否則是失敗的數(shù)據(jù)倉(cāng)庫(kù)方案。 1.效率足夠高??蛻粢蟮姆治鰯?shù)據(jù)一般分為日、周、月、季、年等,可以看出,日為周期的數(shù)據(jù)要求的效率最高,要求24小時(shí)甚至12小時(shí)內(nèi),客戶能看到昨天的數(shù)據(jù)分析。由于有的企業(yè)每日的數(shù)據(jù)量很大,設(shè)計(jì)不好的數(shù)據(jù)倉(cāng)庫(kù)經(jīng)常會(huì)出問(wèn)題,延遲1-3日才能給出數(shù)據(jù),顯然不行的。 2.數(shù)據(jù)質(zhì)量??蛻粢?/p>

6、各種信息,肯定要準(zhǔn)確的數(shù)據(jù),但由于數(shù)據(jù)倉(cāng)庫(kù)流程至少分為3步,2次ETL,復(fù)雜的架構(gòu)會(huì)更多層次,那么由于數(shù)據(jù)源有臟數(shù)據(jù)或者代碼不嚴(yán)謹(jǐn),都可以導(dǎo)致數(shù)據(jù)失真,客戶看到錯(cuò)誤的信息就可能導(dǎo)致分析出錯(cuò)誤的決策,造成損失,而不是效益。 3.擴(kuò)展性。之所以有的大型數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)架構(gòu)設(shè)計(jì)復(fù)雜,是因?yàn)榭紤]到了未來(lái)3-5年的擴(kuò)展性,這樣的話,客戶不用太快花錢(qián)去重建數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng),就能很穩(wěn)定運(yùn)行。主要體現(xiàn)在數(shù)據(jù)建模的合理性,數(shù)據(jù)倉(cāng)庫(kù)方案中多出一些中間層,使海量數(shù)據(jù)流有足夠的緩沖,不至于數(shù)據(jù)量大很多,就運(yùn)行不起來(lái)了。1.3 定義下列數(shù)據(jù)挖掘功能:特征化、區(qū)分、關(guān)聯(lián)和相關(guān)性分析、分類(lèi)、回歸、聚類(lèi)、離君點(diǎn)分析。使用你熟悉的現(xiàn)實(shí)

7、生活中的數(shù)據(jù)庫(kù),給出每種數(shù)據(jù)挖掘功能的例子。特征化是一個(gè)目標(biāo)類(lèi)數(shù)據(jù)的一般特性或特性的匯總。例如,學(xué)生的特征可被提出,形成所有大學(xué)的計(jì)算機(jī)科學(xué)專(zhuān)業(yè)一年級(jí)學(xué)生的輪廓,這些特征包括作為一種高的年級(jí)平均成績(jī)(GPA:Grade point aversge)的信息,還有所修的課程的最大數(shù)量。. 區(qū)分是將目標(biāo)類(lèi)數(shù)據(jù)對(duì)象的一般特性與一個(gè)或多個(gè)對(duì)比類(lèi)對(duì)象的一般特性進(jìn)行比較。例如,具有高GPA 的學(xué)生的一般特性可被用來(lái)與具有低GPA 的一般特性比較。最終的描述可能是學(xué)生的一個(gè)一般可比較的輪廓,就像具有高GPA 的學(xué)生的75%是四年級(jí)計(jì)算機(jī)科學(xué)專(zhuān)業(yè)的學(xué)生,而具有低GPA 的學(xué)生的65%不是。. 關(guān)聯(lián)是指發(fā)現(xiàn)關(guān)聯(lián)規(guī)

8、則,這些規(guī)則表示一起頻繁發(fā)生在給定數(shù)據(jù)集的特征值的條件。例如,一個(gè)數(shù)據(jù)挖掘系統(tǒng)可能發(fā)現(xiàn)的關(guān)聯(lián)規(guī)則為:major(X, “computing science”) owns(X, “personal computer”)support=12%, confidence=98%其中,X 是一個(gè)表示學(xué)生的變量。這個(gè)規(guī)則指出正在學(xué)習(xí)的學(xué)生,12%(支持度)主修計(jì)算機(jī)科學(xué)并且擁有一臺(tái)個(gè)人計(jì)算機(jī)。這個(gè)組一個(gè)學(xué)生擁有一臺(tái)個(gè)人電腦的概率是98%(置信度,或確定度)。. 分類(lèi)與預(yù)測(cè)不同,因?yàn)榍罢叩淖饔檬菢?gòu)造一系列能描述和區(qū)分?jǐn)?shù)據(jù)類(lèi)型或概念的模型(或功能),而后者是建立一個(gè)模型去預(yù)測(cè)缺失的或無(wú)效的、并且通常是數(shù)字的數(shù)

9、據(jù)值。它們的相似性是他們都是預(yù)測(cè)的工具:分類(lèi)被用作預(yù)測(cè)目標(biāo)數(shù)據(jù)的類(lèi)的標(biāo)簽,而預(yù)測(cè)典型的應(yīng)用是預(yù)測(cè)缺失的數(shù)字型數(shù)據(jù)的值。. 聚類(lèi)分析的數(shù)據(jù)對(duì)象不考慮已知的類(lèi)標(biāo)號(hào)。對(duì)象根據(jù)最大花蕾內(nèi)部的相似性、最小化類(lèi)之間的相似性的原則進(jìn)行聚類(lèi)或分組。形成的每一簇可以被看作一個(gè)對(duì)象類(lèi)。聚類(lèi)也便于分類(lèi)法組織形式,將觀測(cè)組織成類(lèi)分層結(jié)構(gòu),把類(lèi)似的事件組織在一起。. 數(shù)據(jù)延邊分析描述和模型化隨時(shí)間變化的對(duì)象的規(guī)律或趨勢(shì),盡管這可能包括時(shí)間相關(guān)數(shù)據(jù)的特征化、區(qū)分、關(guān)聯(lián)和相關(guān)分析、分類(lèi)、或預(yù)測(cè),這種分析的明確特征包括時(shí)間序列數(shù)據(jù)分析、序列或周期模式匹配、和基于相似性的數(shù)據(jù)分析二、2.2假設(shè)所分析的數(shù)據(jù)包括屬性age,它在數(shù)

10、據(jù)元組中的值(以遞増)為13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70A)該數(shù)據(jù)的均值是多少?中位數(shù)是什么?B)該數(shù)據(jù)的眾數(shù)是什么?討論數(shù)據(jù)的模態(tài)(即二模,三模等)。C)該數(shù)據(jù)的中列數(shù)是多少D)你能(粗略地)找出該據(jù)的第一個(gè)四分位數(shù)(Q1)和第三個(gè)四分位數(shù)(Q3)嗎?E)給出該數(shù)據(jù)的五數(shù)概括。F)繪制出該數(shù)據(jù)的盒圖。G)分位數(shù)分位數(shù)圖與分位數(shù)圖有何不同?解答:(a) 該數(shù)據(jù)的均值是什么?中位數(shù)是什么?(b) 該數(shù)據(jù)的眾數(shù)是什么?討論數(shù)據(jù)的峰(即雙峰、三峰等)。這個(gè)數(shù)集的眾數(shù)有兩個(gè):

11、25 和35,發(fā)生在同樣最高的頻率處,因此是雙峰眾數(shù)。(c) 數(shù)據(jù)的中列數(shù)是什么?數(shù)據(jù)的中列數(shù)是最大術(shù)和最小是的均值。即:midrange=(70+13)/2=41.5。(d) 你能(粗略地)找出數(shù)據(jù)的第一個(gè)四分位數(shù)(Q1)和第三個(gè)四分位數(shù)(Q3)嗎?數(shù)據(jù)集的第一個(gè)四分位數(shù)應(yīng)發(fā)生在25%處,即在(N+1)/4=7 處。所以:Q1=20。而第三個(gè)四分位數(shù)應(yīng)發(fā)生在75%處,即在3×(N+1)/4=21 處。所以:Q3=35(e) 給出數(shù)據(jù)的五數(shù)概括。一個(gè)數(shù)據(jù)集的分布的5 數(shù)概括由最小值、第一個(gè)四分位數(shù)、中位數(shù)、第三個(gè)四分位數(shù)、和最大值構(gòu)成。它給出了分布形狀良好的匯總,并且這些數(shù)據(jù)是:13

12、、20、25、35、70。(f) 畫(huà)出數(shù)據(jù)的盒圖。略。(g) 分位數(shù)分位數(shù)圖與分位數(shù)圖的不同之處是什么?分位數(shù)圖是一種用來(lái)展示數(shù)據(jù)值低于或等于在一個(gè)單變量分布中獨(dú)立的變量的粗略百分比。這樣,他可以展示所有數(shù)的分位數(shù)信息,而為獨(dú)立變量測(cè)得的值(縱軸)相對(duì)于它們的分位數(shù)(橫軸)被描繪出來(lái)。但分位數(shù)分位數(shù)圖用縱軸表示一種單變量分布的分位數(shù),用橫軸表示另一單變量分布的分位數(shù)。兩個(gè)坐標(biāo)軸顯示它們的測(cè)量值相應(yīng)分布的值域,且點(diǎn)按照兩種分布分位數(shù)值展示。一條線(y=x)可畫(huà)到圖中,以增加圖像的信息。落在該線以上的點(diǎn)表示在y 軸上顯示的值的分布比x 軸的相應(yīng)的等同分位數(shù)對(duì)應(yīng)的值的分布高。反之,對(duì)落在該線以下的點(diǎn)

13、則低。2.3設(shè)給定的數(shù)據(jù)集已經(jīng)分組到區(qū)間。這些區(qū)間和對(duì)應(yīng)頻率如下所示:Age frequency1-52006-1545016-2030021-50150051-8070080-11044計(jì)算該數(shù)據(jù)的近似中位數(shù)。2.4假設(shè)醫(yī)院對(duì)18個(gè)隨機(jī)挑選的成年人檢查年齡和身體肥胖,得到如下結(jié)果:Age232327273941474950Fat9.526.57.817.831.425.927.427.231.2Age525454565758586061Fat34.642.528.833.430.234.132.941.235.7A) 計(jì)算age和%fat的均值,中位數(shù)和標(biāo)準(zhǔn)差。B) 繪制age和%fat的盒

14、圖。C) 繪制基于這兩個(gè)變量的散點(diǎn)圖和q-q圖。三3.3在習(xí)題2.2中,age包括如下值(以遞增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70.A) 使用蔞3的箱,用箱均值光滑以上數(shù)據(jù)。說(shuō)明你的步驟,討論這種技術(shù)對(duì)緞帶定數(shù)據(jù)的效果。B) 如何確定該數(shù)據(jù)中的離群點(diǎn)?C) 還有什么其他方法來(lái)光滑數(shù)據(jù)?(a) 使用分箱均值光滑對(duì)以上數(shù)據(jù)進(jìn)行光滑,箱的深度為3。解釋你的步驟。評(píng)述對(duì)于給定的數(shù)據(jù),該技術(shù)的效果。用箱深度為3 的分箱均值光滑對(duì)以上數(shù)據(jù)進(jìn)行光滑需要以下步驟:𙦥

15、8; 步驟1:對(duì)數(shù)據(jù)排序。(因?yàn)閿?shù)據(jù)已被排序,所以此時(shí)不需要該步驟。)􀁺 步驟2:將數(shù)據(jù)劃分到大小為3 的等頻箱中。箱1:13,15,16 箱2:16,19,20 箱3:20,21,22箱4:22,25,25 箱5:25,25,30 箱6:33,33,35箱7:35,35,35 箱8:36,40,45 箱9:46,52,70􀁺 步驟3:計(jì)算每個(gè)等頻箱的算數(shù)均值。􀁺 步驟4:用各箱計(jì)算出的算數(shù)均值替換每箱中的每個(gè)值。箱1:44/3,44/3,44/3 箱2:55/3,55/3,55/3 箱3:21,21,21箱4:24,24,24 箱5:80

16、/3,80/3,80/3 箱6:101/3,101/3,101/3箱7:35,35,35 箱8:121/3,121/3,121/3 箱9:56,56,56(b) 如何確定數(shù)據(jù)中的離群點(diǎn)?聚類(lèi)的方法可用來(lái)將相似的點(diǎn)分成組或“簇”,并檢測(cè)離群點(diǎn)。落到簇的集外的值可以被視為離群點(diǎn)。作為選擇,一種人機(jī)結(jié)合的檢測(cè)可被采用,而計(jì)算機(jī)用一種事先決定的數(shù)據(jù)分布來(lái)區(qū)分可能的離群點(diǎn)。這些可能的離群點(diǎn)能被用人工輕松的檢驗(yàn),而不必檢查整個(gè)數(shù)據(jù)集。(c) 對(duì)于數(shù)據(jù)光滑,還有哪些其他方法?其它可用來(lái)數(shù)據(jù)光滑的方法包括別的分箱光滑方法,如中位數(shù)光滑和箱邊界光滑。作為選擇,等寬箱可被用來(lái)執(zhí)行任何分箱方式,其中每個(gè)箱中的數(shù)據(jù)范

17、圍均是常量。除了分箱方法外,可以使用回歸技術(shù)擬合成函數(shù)來(lái)光滑數(shù)據(jù),如通過(guò)線性或多線性回歸。分類(lèi)技術(shù)也能被用來(lái)對(duì)概念分層,這是通過(guò)將低級(jí)概念上卷到高級(jí)概念來(lái)光滑數(shù)據(jù)。3.5如下規(guī)范化方法的值域是什么?A) 最小-最大規(guī)范化B) Z分?jǐn)?shù)規(guī)范化。C) Z分?jǐn)?shù)規(guī)范化,使用均值絕對(duì)念頭而不是標(biāo)準(zhǔn)差。D) 小數(shù)定標(biāo)規(guī)范化。(a) min-max 規(guī)范化。值域是new_min, new_max。(b) z-score 規(guī)范化。值域是(old_minmean)/,(old_maxmean)/,總的來(lái)說(shuō),對(duì)于所有可能的數(shù)據(jù)集的值域是(,+)。(c) 小數(shù)定標(biāo)規(guī)范化。值域是(1.0,1.0)。3.6使用如下方法規(guī)

18、范化如下數(shù)據(jù)組:200,300,400,600,1000(a) min=0,max=1,最小-最大規(guī)范化。(b) Z分?jǐn)?shù)規(guī)范化。(c) Z分?jǐn)?shù)規(guī)范化,使用均值絕對(duì)偏差而不是標(biāo)準(zhǔn)差。(d) 小數(shù)定標(biāo)規(guī)范化。(a) min-max 規(guī)范化。值域是new_min, new_max。(b) z-score 規(guī)范化。值域是(old_minmean)/,(old_maxmean)/,總的來(lái)說(shuō),對(duì)于所有可能的數(shù)據(jù)集的值域是(,+)。(c) 小數(shù)定標(biāo)規(guī)范化。值域是(1.0,1.0)。4.1試述對(duì)于多個(gè)異構(gòu)信息源的集成,為什么許多公司更愿意使用更 新驅(qū)動(dòng)的方法(構(gòu)造和使用數(shù)據(jù)倉(cāng)庫(kù)),而不是查詢驅(qū)動(dòng)的方法(使用包

19、裝程序和集成程序)。描述一些查詢驅(qū)動(dòng)方法比更 新驅(qū)動(dòng)方法更可取的情況。 答: 因?yàn)閷?duì)于多個(gè)異種信息源的集成, 查詢驅(qū)動(dòng)方法需要復(fù)雜的信息過(guò)濾和集成處理, 并且與局部數(shù)據(jù)源上的處理競(jìng)爭(zhēng)資源,是一種低效的方法,并且對(duì)于頻繁的查詢,特別是需 要聚集操作的查詢,開(kāi)銷(xiāo)很大。而更新驅(qū)動(dòng)方法為集成的異種數(shù)據(jù)庫(kù)系統(tǒng)帶來(lái)了高性能,因 為數(shù)據(jù)被處理和重新組織到一個(gè)語(yǔ)義一致的數(shù)據(jù)存儲(chǔ)中, 進(jìn)行查詢的同時(shí)并不影響局部數(shù)據(jù) 源上進(jìn)行的處理。此外,數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)并集成歷史信息,支持復(fù)雜的多維查詢。 4.2簡(jiǎn)略比較以下概念,可以用例子解釋你的觀點(diǎn)。(a) 雪花模式、事實(shí)星座、星網(wǎng)查詢模型。(b) 數(shù)據(jù)清理、數(shù)據(jù)變換、刷新。(

20、c) 發(fā)現(xiàn)驅(qū)動(dòng)的立方體、多特征冷言冷語(yǔ)腐朽 、虛擬倉(cāng)庫(kù)(a) 雪花形模式、事實(shí)星座形、星形網(wǎng)查詢模型。 答:雪花形和事實(shí)星形模式都是變形的星形模式,都是由事實(shí)表和維表組成,雪花形模式的維表都是規(guī)范化的;而事實(shí)星座形的某幾個(gè)事實(shí)表可能會(huì)共享一些維表;星形網(wǎng)查詢模型是一個(gè)查詢模型而不是模式模型,它是由中心點(diǎn)發(fā)出的涉嫌組成,其中每一條射線代表一個(gè)維的概念分層。 (b) 數(shù)據(jù)清理、數(shù)據(jù)變換、刷新 答:數(shù)據(jù)清理是指檢測(cè)數(shù)據(jù)中的錯(cuò)誤,可能時(shí)訂正它們;數(shù)據(jù)變換是將數(shù)據(jù)由遺產(chǎn)或宿主格式轉(zhuǎn)換成數(shù)據(jù)倉(cāng)庫(kù)格式;刷新是指?jìng)鞑ビ蓴?shù)據(jù)源到數(shù)據(jù)倉(cāng)庫(kù)的更新。4.5假定數(shù)據(jù)倉(cāng)庫(kù)包含4個(gè)維date,spectator,locat

21、ion,game,2個(gè)度量count和charge,其中charge是觀眾在給定的日期觀看節(jié)目的費(fèi)用。觀眾可以是學(xué)生、成年人或老年人,每類(lèi)觀眾有不同的收費(fèi)標(biāo)準(zhǔn)。(a) 畫(huà)出該數(shù)據(jù)倉(cāng)庫(kù)的星形模式圖(b) 由基本方體【date,spectator,location,game】開(kāi)始,為列出2010年學(xué)生觀眾在GM_place的總付費(fèi),應(yīng)當(dāng)執(zhí)行哪些OLAP操作?(c) 對(duì)于數(shù)據(jù)倉(cāng)庫(kù),位圖是有用的。以該數(shù)據(jù)立方體為例,簡(jiǎn)略討論使用位圖索引結(jié)構(gòu)的優(yōu)點(diǎn)和問(wèn)題。6.3 Apriori算法使用子集支持度性質(zhì)的先驗(yàn)知識(shí)。(a) 證明頻繁項(xiàng)集的所有非空子集一定也是頻繁的。(b) 證明項(xiàng)集s的任意非空子集s的支持度至

22、少與s的支持度一樣大。(c) 給定頻繁項(xiàng)集l和l的子集s,證明規(guī)則“s=>l(s)”的置信度不可能大于“s=>l(s)”的置信度。其中,s是s的子集(d) Apriori算法的一種變形將事務(wù)數(shù)據(jù)庫(kù)D中的事務(wù)劃分成n個(gè)不重疊的分區(qū)。證明在D中頻繁的項(xiàng)集至少在D的一個(gè)分區(qū)中是頻繁的。1證明頻繁集的所有非空子集必須也是頻繁的。 證明:根據(jù)定義,如果項(xiàng)集I不滿足最小支持度閾值min_sup,則I不是頻繁的,即supmin_)(<IP如果A想添加到I,則結(jié)果項(xiàng)集不可能不更頻繁出現(xiàn)。因此,也不是頻繁的,即矛盾。 2.同理可證。36.6數(shù)據(jù)庫(kù)有5個(gè)事務(wù)。設(shè)min_sup

23、=6-%,min_conf=80%。TID購(gòu)買(mǎi)的商品T100M,O,N,K,E,YT200D,O,N,K,E,YT300M,A,K,ET400M,U,C,K,YT500C,O,O,K,I,E(a) 分別使用Apriori算法和FP-growth算法找出頻繁項(xiàng)集。比較兩種挖掘過(guò)程的有效性。(b) 列舉所有與下面元規(guī)則匹配的強(qiáng)關(guān)聯(lián)規(guī)則(緞帶出支持度s和置信度c),其中,X是代表太陽(yáng)穴的變量,item,是表示項(xiàng)的變量(如“A”,“B ”等):xtransaction,buys(X,item1)buys(X,item2)=>buys(X,itm3)s,c6.8數(shù)據(jù)庫(kù)有4個(gè)事務(wù)。設(shè)min_sup=

24、60%,min_conf=80%。Cust_IDTID購(gòu)買(mǎi)的商品(以brand-item_category形式)01T100Kings-Carb,Sunset-Milk, Dairyland-Cheese,best-Bread02T200Best-Cheese, Dairyland-Milk, Goldenfarm-Apple,Tasty-Pie,Wonder-Bread01T300Westcoast-Apple,Dairyland-Milk,Wonder-Bread,Tasty-Pie03T400Wonder-Bread,Sunset-Milk,Dairyland-Cheese(a) 在it

25、em_category粒度(例如,item,所可能已經(jīng)”milk”),對(duì)于下面的規(guī)則模板xtransaction,buys(X,item1)buys(X,item2)=>buys(X,item3)s,c列出最大k的頻繁k項(xiàng)集和包含最大k的頻繁k諅的所有強(qiáng)關(guān)聯(lián)規(guī)則(包括它們的支持度s和置信度c)。(b)在brand-item_category粒度(例如,item i可以是Sunset-Milk),對(duì)于下面的規(guī)則模板xcustomer,buys(X,item1)buys(X,item2)=>buys(X,item3)列出最大k的頻繁k項(xiàng)集(但不輸出任何規(guī)則)7.3量化關(guān)聯(lián)規(guī)則可能提示數(shù)

26、據(jù)集中的異常行為,其中“異?!笨梢愿鶕?jù)統(tǒng)計(jì)學(xué)理論定義。例如,7.2.3節(jié)表明關(guān)聯(lián)規(guī)則Sex=femalemeanwage=7,90 $/h(overallmeanwage=9.02 $/h)暗示一個(gè)異常模式。該規(guī)則說(shuō)明,女性的平均工資每小時(shí)只有7.90美元,顯著地于每小時(shí)9.02美元的總體平均工資。討論如何在具有量化屬性的大型數(shù)據(jù)集中系統(tǒng)而有效地發(fā)現(xiàn)這種量化規(guī)則。8.1簡(jiǎn)述決策樹(shù)分類(lèi)的主要步驟。8.7下表由雇員數(shù)據(jù)庫(kù)的訓(xùn)練數(shù)據(jù)組成。數(shù)據(jù)已泛化。例如,age“31.35”表示年齡在31-35之間。對(duì)于給定的行,count表department、status、age和salary在該行上具有給定值

27、的元組數(shù)。Department statusage salarycountSalessenior31-3546k-50k30Salesjunior26-3026-30k40Salesjunior31-3531-35k40Systemsjunior21-2546-50k20Systemssenior31-3566-70k5Systemsjunior26-3046-50k3Systemssenior41-4566-70k3Marketingsenior36-4046-50k10Marketingjunior31-3541-45k4Secretarysenior46-5036-40k4Secreta

28、ryjunior26-3026-30k6(a) 如何修改基本決策樹(shù)算法,以便考慮每個(gè)廣義數(shù)據(jù)元組(即每個(gè)行)的count?(b) 使用修改過(guò)的算法,構(gòu)造繃帶定數(shù)據(jù)的決策樹(shù)(c) 給定一個(gè)數(shù)據(jù)元組,它的屬性department、age和salary的值分別為“system”“2630”和“4660”。該元級(jí)status的相互貝葉斯分類(lèi)是什么?解一:設(shè)元組的各個(gè)屬性之間相互獨(dú)立,所以先求每個(gè)屬性的類(lèi)條件概率:P(systems|junior)=(20+3)/(40+40+20+3+4+6)=23/113;P(26-30|junior)=(40+3+6)/113=49/113;P(46K-50K|j

29、unior)=(20+3)/113=23/113; X=(department=system,age=2630,salary=46K50K); P(X|junior)=P(systems|junior)P(26-30|junior)P(46K-50K|junior)=23×49×23/1133=25921/1442897=0.01796;P(systems|senior)=(5+3)/(30+5+3+10+4)=23/52;P(26-30|senior)=(0)/53=0;P(46K-50K|senior)=(30+10)/52=40/52; X=(department=system,age=2630,salary=46K50K); P(X|senior)=P(systems|senior)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論