數(shù)據(jù)挖掘課后題答案_第1頁(yè)
數(shù)據(jù)挖掘課后題答案_第2頁(yè)
數(shù)據(jù)挖掘課后題答案_第3頁(yè)
數(shù)據(jù)挖掘課后題答案_第4頁(yè)
已閱讀5頁(yè),還剩19頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、下載可編輯數(shù)據(jù)挖掘概念概念與技術(shù)Jiawei HanMicheline Kamber著范明孟曉峰譯第1章引言1.1什么是數(shù)據(jù)挖掘?在你的回答中,針對(duì)以下問題:1.2 1.6 定義下列數(shù)據(jù)挖掘功能:特征化、區(qū)分、關(guān)聯(lián)和相關(guān)分析、預(yù)測(cè)聚 類和演變分析。使用你熟悉的現(xiàn)實(shí)生活的數(shù)據(jù)庫(kù),給出每種數(shù)據(jù)挖掘功 能的例子。解答:? 特征化是一個(gè)目標(biāo)類數(shù)據(jù)的一般特性或特性的匯總。例如,學(xué)生的特征 可被提出,形成所有大學(xué)的計(jì)算機(jī)科學(xué)專業(yè)一年級(jí)學(xué)生的輪廓,這 些 特征包 括 作 為 一 種高 的 年級(jí) 平 均 成 績(jī) (GPA: Gradepointaversge)的信息,還有所修的課程的最大數(shù)量。? 區(qū)分是將目標(biāo)

2、類數(shù)據(jù)對(duì)象的一般特性與一個(gè)或多個(gè)對(duì)比類對(duì)象的一般 特性進(jìn)行比較。例如,具有高 GPA 的學(xué)生的一般特性可被用來與具有 低 GPA 的一般特性比較。最終的描述可能是學(xué)生的一個(gè)一般可比較的 輪廓,就像具有高 GPA 的學(xué)生的 75%是四年級(jí)計(jì)算機(jī)科學(xué)專業(yè)的學(xué)生 ,而具有低 GPA 的學(xué)生的 65%不是。? 關(guān)聯(lián)是指發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,這些規(guī)則表示一起頻繁發(fā)生在給定數(shù)據(jù)集的特征值的條件。例如,一個(gè)數(shù)據(jù)挖掘系統(tǒng)可能發(fā)現(xiàn)的關(guān)聯(lián)規(guī)則為 :major(X,“ computingscience ” )?owns(X,“ personalcomputer ” ) support=12%,confidence=98%其

3、中, X 是一個(gè)表示學(xué)生的變量。這個(gè)規(guī)則指出正在學(xué)習(xí)的學(xué)生,12%(支持度)主修計(jì)算機(jī)科學(xué)并且擁有一臺(tái)個(gè)人計(jì)算機(jī)。這個(gè)組一個(gè)學(xué)生 擁有一臺(tái)個(gè)人電腦的概率是98%(置信度,或確定度)。? 分類與預(yù)測(cè)不同,因?yàn)榍罢叩淖饔檬菢?gòu)造一系列能描述和區(qū)分?jǐn)?shù)據(jù)類型 或概念的模型(或功能) ,而后者是建立一個(gè)模型去預(yù)測(cè)缺失的或無效 的、并且通常是數(shù)字的數(shù)據(jù)值。它們的相似性是他們都是預(yù)測(cè)的工具 : 分類被用作預(yù)測(cè)目標(biāo)數(shù)據(jù)的類的標(biāo)簽,而預(yù)測(cè)典型的應(yīng)用是預(yù)測(cè)缺失的 數(shù)字型數(shù)據(jù)的值。.專業(yè) .整理 .下載可編輯? 聚類分析的數(shù)據(jù)對(duì)象不考慮已知的類標(biāo)號(hào)。對(duì)象根據(jù)最大花蕾內(nèi)部的相似性、最小化類之間的相似性的原則進(jìn)行聚類或分

4、組。形成的每一簇可以被看作一個(gè)對(duì)象類。聚類也便于分類法組織形式,將觀測(cè)組織成類分層結(jié)構(gòu),把類似的事件組織在一起。?數(shù)據(jù)延邊分析描述和模型化隨時(shí)間變化的對(duì)象的規(guī)律或趨勢(shì),盡管這可能包括時(shí)間相關(guān)數(shù)據(jù)的特征化、區(qū)分、關(guān)聯(lián)和相關(guān)分析、分類、或預(yù)測(cè),這種分析的明確特征包括時(shí)間序列數(shù)據(jù)分析、序列或周期模式匹配、和基于相似性的數(shù)據(jù)分析1.3 1.9列舉并描述說明數(shù)據(jù)挖掘任務(wù)的五種原語。解答:用于指定數(shù)據(jù)挖掘任務(wù)的五種原語是:? 任務(wù)相關(guān)數(shù)據(jù):這種原語指明給定挖掘所處理的數(shù)據(jù)。它包括指明數(shù)據(jù)庫(kù)、數(shù)據(jù)庫(kù)表、或數(shù)據(jù)倉(cāng)庫(kù),其中包括包含關(guān)系數(shù)據(jù)、選擇關(guān)系數(shù)據(jù)的條件、用于探索的關(guān)系數(shù)據(jù)的屬性或維、關(guān)于修復(fù)的數(shù)據(jù)排序和分

5、組。? 挖掘的數(shù)據(jù)類型:這種原語指明了所要執(zhí)行的特定數(shù)據(jù)挖掘功能,如特征化、區(qū)分、關(guān)聯(lián)、分類、聚類、或演化分析。同樣,用戶的要求可能更特殊,并可能提供所發(fā)現(xiàn)的模式必須匹配的模版。這些模版或超模式(也被稱為超規(guī)則)能被用來指導(dǎo)發(fā)現(xiàn)過程。? 背景知識(shí):這種原語允許用戶指定已有的關(guān)于挖掘領(lǐng)域的知識(shí)。這樣的知識(shí)能被用來指導(dǎo)知識(shí)發(fā)現(xiàn)過程,并且評(píng)估發(fā)現(xiàn)的模式。關(guān)于數(shù)據(jù)中關(guān)系的概念分層和用戶信念是背景知識(shí)的形式。? 模式興趣度度量:這種原語允許用戶指定功能,用于從知識(shí)中分割不感興趣的模式,并且被用來指導(dǎo)挖掘過程,也可評(píng)估發(fā)現(xiàn)的模式。這樣就允許用戶限制在挖掘過程返回的不感興趣的模式的數(shù)量,因?yàn)橐环N數(shù)據(jù)挖掘系統(tǒng)

6、可能產(chǎn)生大量的模式。興趣度測(cè)量能被指定為簡(jiǎn)易性、確定性 、適用性、和新穎性的特征。? 發(fā)現(xiàn)模式的可視化:這種原語述及發(fā)現(xiàn)的模式應(yīng)該被顯示出來。為了使數(shù)據(jù)挖掘能有效地將知識(shí)傳給用戶,數(shù)據(jù)挖掘系統(tǒng)應(yīng)該能將發(fā)現(xiàn)的各種形式的模式展示出來,正如規(guī)則、表格、餅或條形圖、決策樹、立方體.專業(yè) .整理 .下載可編輯或其它視覺的表示。1.4 1.13描述以下數(shù)據(jù)挖掘系統(tǒng)與數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)集成方法的差別:不耦 合、松散耦合、 半緊耦合和緊密耦合。 你認(rèn)為哪種方法最流行, 為什么?解答: 數(shù)據(jù)挖掘系統(tǒng)和數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的集成的層次的差別如下。? 不耦合:數(shù)據(jù)挖掘系統(tǒng)用像平面文件這樣的原始資料獲得被挖掘的原始數(shù)據(jù)

7、集,因?yàn)闆]有數(shù)據(jù)庫(kù)系統(tǒng)或數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的任何功能被作為處理過程的一部分執(zhí)行。因此,這種構(gòu)架是一種糟糕的設(shè)計(jì)。? 松散耦合:數(shù)據(jù)挖掘系統(tǒng)不與數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)集成,除了使用被挖掘的初始數(shù)據(jù)集的源數(shù)據(jù)和存儲(chǔ)挖掘結(jié)果。這樣,這種構(gòu)架能得到數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)提供的靈活、高效、和特征的優(yōu)點(diǎn)。但是,在大量的數(shù)據(jù)集中,由松散耦合得到高可測(cè)性和良好的性能是非常困難的,因?yàn)樵S多這種系統(tǒng)是基于內(nèi)存的。?半緊密耦合:一些數(shù)據(jù)挖掘原語,如聚合、分類、或統(tǒng)計(jì)功能的預(yù)計(jì)算,可在數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)有效的執(zhí)行,以便數(shù)據(jù)挖掘系統(tǒng)在挖掘- 查詢過程的應(yīng)用。另外,一些經(jīng)常用到的中間挖掘結(jié)果能被預(yù)計(jì)算并存儲(chǔ)到數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中,從而

8、增強(qiáng)了數(shù)據(jù)挖掘系統(tǒng)的性能。? 緊密耦合:數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)被完全整合成數(shù)據(jù)挖掘系統(tǒng)的一部份,并且因此提供了優(yōu)化的數(shù)據(jù)查詢處理。這樣的話,數(shù)據(jù)挖掘子系統(tǒng)被視為一個(gè)信息系統(tǒng)的功能組件。這是一中高度期望的結(jié)構(gòu),因?yàn)樗欣跀?shù)據(jù)挖掘功能、高系統(tǒng)性能和集成信息處理環(huán)境的有效實(shí)現(xiàn)。從以上提供的體系結(jié)構(gòu)的描述看,緊密耦合是最優(yōu)的,沒有值得顧慮的技術(shù)和執(zhí)行問題。但緊密耦合系統(tǒng)所需的大量技術(shù)基礎(chǔ)結(jié)構(gòu)仍然在發(fā)展變化,其實(shí)現(xiàn)并非易事。因此,目前最流行的體系結(jié)構(gòu)仍是半緊密耦合,因?yàn)樗撬缮Ⅰ詈虾途o密耦合的折中。1.5 1.14描述關(guān)于數(shù)據(jù)挖掘方法和用戶交互問題的三個(gè)數(shù)據(jù)挖掘挑戰(zhàn)。.專業(yè) .整理 .下載可編輯第 2

9、章 數(shù)據(jù)預(yù)處理2.1 2.2假設(shè)給定的數(shù)據(jù)集的值已經(jīng)分組為區(qū)間。區(qū)間和對(duì)應(yīng)的頻率如下。年齡頻率1520051545015203002050150050807008011044計(jì)算數(shù)據(jù)的近似中位數(shù)值。解答:先判定中位數(shù)區(qū)間:N=200+450+300+1500+700+44=3194 ;N/2=1597 200+450+300=950<1597<2450=950+1500 ; 2050 對(duì)應(yīng)中位數(shù)區(qū)間。我們有:1=20,=3197,LN( freq ) l =950, freq median =1500 , width =30,使用公式( 2.3):?N / 2freq?3197 /

10、 2-950 ?-?medianl ?width?3032.97L1?freq20?1500?median? median=32.97 歲。2.2 2.4假定用于分析的數(shù)據(jù)包含屬性age 。數(shù)據(jù)元組的age 值(以遞增序)是: 13, 15, 16, 16,19, 20,20, 21, 22,22, 25,25, 25,25, 30,33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70。(a) 該數(shù)據(jù)的均值是什么?中位數(shù)是什么?(b)該數(shù)據(jù)的眾數(shù)是什么?討論數(shù)據(jù)的峰(即雙峰、三峰等)。(c) 數(shù)據(jù)的中列數(shù)是什么?(d) 你能(粗略地) 找出數(shù)據(jù)的第一個(gè)四

11、分位數(shù) ( Q1 )和第三個(gè)四分位數(shù) ( Q3).專業(yè) .整理 .下載可編輯嗎?(e) 給出數(shù)據(jù)的五數(shù)概括。(f) 畫出數(shù)據(jù)的盒圖。(g) 分位數(shù)分位數(shù)圖與分位數(shù)圖的不同之處是什么? 解答:(a) 該數(shù)據(jù)的均值是什么?中位數(shù)是什么?1N29.96 ? 30 (公式2.1 )。中位數(shù)應(yīng)是第 14均值是:809 / 27xx iN i1個(gè),即 x14=25=Q2。(b)該數(shù)據(jù)的眾數(shù)是什么?討論數(shù)據(jù)的峰(即雙峰、三峰等)。 這個(gè)數(shù)集的眾數(shù)有兩個(gè):25和 35,發(fā)生在同樣最高的頻率處,因此是雙峰眾數(shù)。(c)數(shù)據(jù)的中列數(shù)是什么?數(shù)據(jù)的中列數(shù)是最大術(shù)和最小是的均值。即: midrange =(70+13)

12、/2=41.5。(d)你能(粗略地) 找出數(shù)據(jù)的第一個(gè)四分位數(shù)( Q1)和第三個(gè)四分位數(shù)( Q3)嗎?數(shù)據(jù)集的第一個(gè)四分位數(shù)應(yīng)發(fā)生在25%處,即在 (N+1)/4=7處。所以:Q1=20。而第三個(gè)四分位數(shù)應(yīng)發(fā)生在75%處,即在3× (N+1)/4=21處。所以:Q3=35(e) 給出數(shù)據(jù)的五數(shù)概括。一個(gè)數(shù)據(jù)集的分布的5 數(shù)概括由最小值、第一個(gè)四分位數(shù)、中位數(shù)、第三個(gè)四分位數(shù)、 和最大值構(gòu)成。 它給出了分布形狀良好的匯總,并且這些數(shù)據(jù)是:13、20、 25、 35、 70。(f)畫出數(shù)據(jù)的盒圖。略。(g)分位數(shù)分位數(shù)圖與分位數(shù)圖的不同之處是什么?分位數(shù)圖是一種用來展示數(shù)據(jù)值低于或等于在

13、一個(gè)單變量分布中獨(dú)立的變量的粗略百分比。這樣,他可以展示所有數(shù)的分位數(shù)信息,而為獨(dú)立變量測(cè)得的值(縱軸)相對(duì)于它們的分位數(shù)(橫軸)被描繪出來。但分位數(shù)分位數(shù)圖用縱軸表示一種單變量分布的分位數(shù),用橫軸表示另一.專業(yè) .整理 .下載可編輯單變量分布的分位數(shù)。兩個(gè)坐標(biāo)軸顯示它們的測(cè)量值相應(yīng)分布的值域,且點(diǎn)按照兩種分布分位數(shù)值展示。一條線(y=x )可畫到圖中,以增加圖像的信息。落在該線以上的點(diǎn)表示在y 軸上顯示的值的分布比x 軸的相應(yīng)的等同分位數(shù)對(duì)應(yīng)的值的分布高。反之,對(duì)落在該線以下的點(diǎn)則低。2.3 2.7使用習(xí)題2.4給出的age 數(shù)據(jù)回答下列問題:(a)使用分箱均值光滑對(duì)以上數(shù)據(jù)進(jìn)行光滑,箱的深

14、度為 3 。解釋你的步驟。評(píng)述對(duì)于給定的數(shù)據(jù),該技術(shù)的效果。(b)如何確定數(shù)據(jù)中的離群點(diǎn)?(c)對(duì)于數(shù)據(jù)光滑,還有哪些其他方法?解答:(a)使用分箱均值光滑對(duì)以上數(shù)據(jù)進(jìn)行光滑,箱的深度為 3 。解釋你的步驟。評(píng)述對(duì)于給定的數(shù)據(jù),該技術(shù)的效果。用箱深度為3 的分箱均值光滑對(duì)以上數(shù)據(jù)進(jìn)行光滑需要以下步驟:?步驟 1:對(duì)數(shù)據(jù)排序。 (因?yàn)閿?shù)據(jù)已被排序,所以此時(shí)不需要該步驟。)? 步驟 2:將數(shù)據(jù)劃分到大小為3 的等頻箱中。箱1: 13,15, 16箱2:16,19,20箱3:20,21,22箱 4: 22, 25, 25箱 5: 25, 25, 30633,33,35箱 7: 35, 35, 35箱

15、 8: 36, 40, 45箱 :箱 9:46,52,70? 步驟 3:計(jì)算每個(gè)等頻箱的算數(shù)均值。? 步驟 4:用各箱計(jì)算出的算數(shù)均值替換每箱中的每個(gè)值。箱 1: 44/3 , 44/3, 44/3箱 2: 55/3 , 55/3 , 55/3箱 3: 21, 21, 21箱 4:24,24,24箱 5:80/3 ,80/3 ,80/3 箱 6:101/3 ,101/3,101/3箱 7: 35, 35, 35箱 8: 121/3 , 121/3 , 121/3箱 9: 56, 56, 56 (b)如何確定數(shù)據(jù)中的離群點(diǎn)?聚類的方法可用來將相似的點(diǎn)分成組或“簇”,并檢測(cè)離群點(diǎn)。落到簇的集外的值

16、可以被視為離群點(diǎn)。作為選擇,一種人機(jī)結(jié)合的檢測(cè)可被采用,而計(jì)算機(jī)用一種事先決定的數(shù)據(jù)分布來區(qū)分可能的離群點(diǎn)。這些可能的離群點(diǎn)能被用人工輕松的檢驗(yàn),而不必檢查整個(gè)數(shù)據(jù)集。(c) 對(duì)于數(shù)據(jù)光滑,還有哪些其他方法?.專業(yè) .整理 .下載可編輯其它可用來數(shù)據(jù)光滑的方法包括別的分箱光滑方法,如中位數(shù)光滑和箱邊界光滑。作為選擇,等寬箱可被用來執(zhí)行任何分箱方式,其中每個(gè)箱中的數(shù)據(jù)范圍均是常量。除了分箱方法外,可以使用回歸技術(shù)擬合成函數(shù)來光滑數(shù)據(jù),如通過線性或多線性回歸。分類技術(shù)也能被用來對(duì)概念分層,這是通過將低級(jí)概念上卷到高級(jí)概念來光滑數(shù)據(jù)。2.4 2.10如下規(guī)范化方法的值域是什么?(a) min-max

17、規(guī)范化。(b) z-score規(guī)范化。(c) 小數(shù)定標(biāo)規(guī)范化。 解答:(a) min-max規(guī)范化。值域是 new_min, new_max。 (b) z-score 規(guī)范化。值域是 (old _min mean)/, (old_max mean)/ ,總的來說,對(duì)于所有可能的數(shù)據(jù)集的值域是( , + ) 。(c)小數(shù)定標(biāo)規(guī)范化。值域是 (1.0 , 1.0) 。2.5 2.12使用習(xí)題2.4給出的age 數(shù)據(jù),回答以下問題:(a) 使用 min-max 規(guī)范化將 age 值 35 變換到 0.0 , 1.0 區(qū)間。(b)使用 z-score規(guī)范化變換age值 35,其中 age的標(biāo)準(zhǔn)差為12

18、.94歲。(c)使用小數(shù)定標(biāo)規(guī)范化變換age 值 35。(d) 對(duì)于給定的數(shù)據(jù),你愿意使用哪種方法?陳述你的理由。解答:(a) 使用 min-max 規(guī)范化將 age 值 35 變換到 0.0 , 1.0 區(qū)間。 min A=13 , maxA=70 , new _min A=0.0 , new _maxA=1.0 ,而v=35 ,v -v'minAnew _ A - new _Anew _ AminmaxminmaxA -min A35-131.0 - 0.00.00.386070 -13.專業(yè) .整理 .下載可編輯(b) 使用 z-score規(guī)范化變換age值 35,其中 age的

19、標(biāo)準(zhǔn)差為 12.94歲。13152161922021222425A27302334353640454652702780929.96327N AiA2161.2949 , A212.7002-Ai1AN N Ai或 sA2A167.4986 ,s A212.9421-s Ai1Nv=35v 'v- A355.0370.3966 0.400- 29.963 A12.700212.7002v -A35- 5.0370.3892 0.39或v s '29.963sA12.942112.9421(c) 使用小數(shù)定標(biāo)規(guī)范化變換age 值35。v0.3570 ,所以 j=2 。 v'

20、 10 j由于最大的絕對(duì)值為3510 2(d) 對(duì)于給定的數(shù)據(jù),你愿意使用哪種方法?陳述你的理由。略。2.6 2.14假設(shè) 12 個(gè)銷售價(jià)格記錄組已經(jīng)排序如下:5,10 ,11,13 , 15,35,50, 55, 72 , 92 , 204, 215 。使用如下每種方法將其劃分成三個(gè)箱。(a) 等頻(等深)劃分。(b) 等寬劃分。(c)聚類。解答:(a) 等頻(等深)劃分。bin15,10,11,13bin115,35,50,55.專業(yè) .整理 .下載可編輯bin172,91,204,215(b) 等寬劃分。每個(gè)區(qū)間的寬度是:(215-5)/3=70bin15,10,11,13,15,35,

21、50,55,72bin191bin1204,215(c) 聚類。我們可以使用一種簡(jiǎn)單的聚類技術(shù):用2個(gè)最大的間隙將數(shù)據(jù)分成3 個(gè)箱。bin15,10,11,13,15bin135,50,55,72,91bin1204,2152.7 2.15使用習(xí)題2.4給出的age 數(shù)據(jù),(a) 畫出一個(gè)等寬為 10 的等寬直方圖;(b)為如下每種抽樣技術(shù)勾畫例子:SRSWOR, SRSWR,聚類抽樣,分層抽樣。使用大小為5 的樣本和層“青年”,“中年”和“老年”。解答:(a) 畫出一個(gè)等寬為 10 的等寬直方圖;876543210253545556515.專業(yè) .整理 .下載可編輯(b)為如下每種抽樣技術(shù)勾

22、畫例子:SRSWOR, SRSWR,聚類抽樣,分層抽樣。使用大小為5 的樣本和層“青年”,“中年”和“老年”。元組:T 113T 1022T 1935T 215T 1125T 2035T 316T 1225T 2135T 416T 1325T 2236T 519T 1425T 2340T 620T 1530T 2445T 720T 1633T 2546T 821T 1733T 2652T 922T 1835T 2770SRSWOR和 SRSWR:不是同次的隨機(jī)抽樣結(jié)果可以不同,但前者因無放回所以不能有相同的元組。SRSWOR(n=5)SRSWR(n=5)T 416T 720T 620T 720

23、T 1022T 2035T1125T 2135T 2652T 2546聚類抽樣:設(shè)起始聚類共有6 類,可抽其中的m 類。Sample1Sample2Sample3Sample4Sample5Sample6T 113T620T 1125T 1633T 2135T 2652T 215T720T 1225T 1733T 2236T 2770T 316T821T 1325T 1835T 2340T 416T922T 1425T 1935T 2445T 519T 1022T 1530T 2035T 2546Sample2Sample5.專業(yè) .整理 .下載可編輯T 620T2135T 720T2236T

24、 821T2340T 922T2445T 1022T2546分層抽樣:按照年齡分層抽樣時(shí),不同的隨機(jī)試驗(yàn)結(jié)果不同。T113youngT 1022youngT 1935middleT215youngT 1125youngT 2035agemiddleT316youngT 1225youngT 2135agemiddleT416youngT 1325youngT 2236agemiddleT519youngT 1425youngT 2340agemiddleT620youngT 1530middleage T 2445agemiddleT720youngT 1633middleage T 2546

25、agemiddleT821youngT 1733middleage T 2652agemiddleT922youngT 1835middleage T 2770ageseniorT416youngT 1225youngT 1733middleageT 2546middleageT 2770Senior2.8 55555555555555555555555555.專業(yè) .整理 .下載可編輯3.1 3.4假定 BigUniversity的數(shù)據(jù)倉(cāng)庫(kù)包含如下4 個(gè)維:student(student_name,area_id ,major,status,university),course(course

26、_name,department), semester(semester,year)和 instructor(dept,rank) ; 2個(gè)度量:count和 avg_grade 。在最低概念層,度量 avg_grade存放學(xué)生的實(shí)際 課程成績(jī)。在較高概念層,avg_grade存放給定組合的平均成績(jī)。(a) 為該數(shù)據(jù)倉(cāng)庫(kù)畫出雪花形模式圖。(b)由基本方 體 student,course,semester,instructor開始 ,為 列 出 BigUniversity每個(gè)學(xué)生的CS 課程的平均成績(jī),應(yīng)當(dāng)使用哪些特殊的 OLAP 操作。(c)如果每維有5層(包括all) ,如“ student

27、<major<status<university<all”,該 立 方 體 包 含 多 少 方體?解答:a) 為該數(shù)據(jù)倉(cāng)庫(kù)畫出雪花形模式圖。雪花模式如圖所示。b)由 基 本 方 體 student, course, semester, instructor開始 , 為 列 出 BigUniversity每個(gè)學(xué)生的CS 課程的平均成績(jī),應(yīng)當(dāng)使用哪些特殊的OLAP 操作。這些特殊的聯(lián)機(jī)分析處理(OLAP )操作有:i.沿課程( course )維從course_id“上卷”到department 。ii.沿學(xué)生( student)維從student_id“上卷”到unive

28、rsity。iii.取 department=“ CS ”和 university=“ BigUniversity”,沿課程( course )維和學(xué)生( student )維切片。iv.沿學(xué)生( student)維從university下鉆到student_name 。c)如果每維有5層 (包括all) , 如“ student<major<status<university<all”,該立方體包含多少方體?這個(gè)立方體將包含54 =625 個(gè)方體。.專業(yè) .整理 .下載可編輯courseunivstudent維表事實(shí)表維表course_idstudent_idstud

29、ent_idcourse_namecourse_idstudent namedepartmentsemester_idarea_idinstructor_idmajorsemestercountstatus維表avg_gradeuniversitysemester_idsemesterareayear維表area_iinstructd cityor維表provinceInstructorcountry_id deptrank題 3.4圖題3.4中數(shù)據(jù)倉(cāng)庫(kù)的雪花形模式3.2 22222223.3 3333333.專業(yè) .整理 .下載可編輯4.1 2008-11-294.2有幾種典型的立方體計(jì)算方

30、法,4.3題 4.12 考慮下面的多特征立方體查詢:按item , regio n, month 的所有子集分組,對(duì)每組找出2004年的最小貨架壽命,并對(duì)價(jià)格低于100 美元、貨架壽命在最小貨架壽命的1.251.5倍之間的元組找出總銷售額部分。d) 畫出該查詢的多特征立方體圖。e) 用擴(kuò)充的 SQL 表示該查詢。f) 這是一個(gè)分布式多特征立方體嗎?為什么?解答:(a)畫出該查詢的多特征立方體圖。R 0 R1( 1.25*min(shelf)and 1.5*min(shelf) (b)用擴(kuò)充的 SQL 表示該查詢。selectitem,region, month, Min(shelf),SUM(

31、R1)fromPurchasewhereyear=2004cube byitem,region, month:R1suchthatR1.shelf 1.25*MIN(Shelf) and(R1.Shelf 1.5*MIN(Shelf) andR1.Price<100(c)這是一個(gè)分布式多特征立方體嗎?為什么?這不是一個(gè)分布多特征立方體,因?yàn)樵凇皊uchthat ”語句中采用了“”條件。4.4 2008-11-294.5 2008-11-29.專業(yè) .整理 .下載可編輯5.1 Apriori算法使用子集支持度性質(zhì)的先驗(yàn)知識(shí)。5節(jié)介紹了由頻繁項(xiàng)集產(chǎn)生關(guān)聯(lián)規(guī)則的方法。提出了一個(gè)更有效的方法。解

32、 5.3 數(shù)據(jù)庫(kù)有 5 個(gè)事物。設(shè) min_sup=60%, min_conf=80 。釋TID購(gòu)買的商品它T100M, O, N, K, E,為Y什T200D, O, N, K, E,么Y T300M, A, K, E比T400M, U, C, K, YT500C, O, O, K, I, E5g)分別使用 Apriori和 FP增長(zhǎng)算法找出所有的頻繁項(xiàng)集。比較兩種挖.掘過程的效率。2h)列舉所有與下面的的元規(guī)則匹配的強(qiáng)關(guān)聯(lián)規(guī)則(給出支持度s 和.置 信度 c ),其中, X是代表顧客的變量,item是表示項(xiàng)的變量(如2“A”、“ B ”等):? x transaction,buys(X,i

33、tem ) buys(X,item2) ?buys(X, item3) s, c1節(jié)解答:(a)分別使用 Apriori和 FP的增長(zhǎng)算法找出所有的頻繁項(xiàng)集。比較兩種挖掘過 程的效率。方Apriori算法:由于只有5次購(gòu)買事件,所以絕對(duì)支持度是5× min_sup=3 。法更(提示:考慮將習(xí)題 5.1(b) 和習(xí)題5.1(c)的性質(zhì)結(jié)合到你的設(shè)計(jì)中。 ).專業(yè) .整理 .C1?L3項(xiàng)下載可編輯? M3?MO1?MK 3?O3?M?MK?3?3?OKE3?ME 2C3?O3OK 3KEY?N?2?2?2?MY?5?L2? OE?KKL13?5?OK3?KE4EE4?4?C2?OE 3?

34、Y?OY 2?3?D1?A 1?Y3?KY3?U?4?1?KE?C 2?3?I?KY?1?OKE3? ?2EY?FP-growth:數(shù)據(jù)庫(kù)的第一次掃描與Aprio ri算法相同,得到L 。再按支持度1計(jì)數(shù)的遞減序排序,得到:L=(K:5),(E:4), (M:3), (O:3), (Y:3)。掃描沒個(gè)事務(wù),按以上L 的排序,從根節(jié)點(diǎn)開始,得到FP- 樹。RootK:5E:4M:1M:2O:2Y:1O:1Y:1Y:1題 5.3 圖 FP 增長(zhǎng)算法條件模式基條件 FP 樹產(chǎn)生的頻繁模式.專業(yè) .整理 .下載可編輯YK,E,M,O:1, K,E,O:1, K,M:1K:3K,Y:3OK,E,M:1,

35、 K,E:2K:3, E:3K,O:3 , E,O:3,K,E:2, K:1K,E,O:3MK:3K:4K,M:3K:4EK,E:4.專業(yè) .整理 .下載可編輯效率比較:Aprio ri算法的計(jì)算過程必須對(duì)數(shù)據(jù)庫(kù)作多次掃描,而FP- 增長(zhǎng)算 法在構(gòu)造過程中只需掃描一次數(shù)據(jù)庫(kù),再加上初始時(shí)為確定支持度遞減排序 的一次掃描,共計(jì)只需兩次掃描。由于在Aprio ri算法中的自身連接過程產(chǎn)生候選項(xiàng)集,候選項(xiàng)集產(chǎn)生的計(jì)算代價(jià)非常高,而FP- 增長(zhǎng)算法不需產(chǎn)生任何候選項(xiàng)。(b)列舉所有與下面的的元規(guī)則匹配的強(qiáng)關(guān)聯(lián)規(guī)則(給出支持度s和置信度c ),其中,X 是代表顧客的變量,item是表示項(xiàng)的變量(如“A”、“B ”等):? x transaction,buys(X,“ K”) buys(X,“ O”) ? buys(X,“ E ”)s=0.6, c=1? x transaction,buys(X,“ E ”) buys(X,“ E”) ? buys(X,“ K”)s=0.6, c=1或也可表示為K,O Es(support)=0.6或 60%,c(confidence)=1或100% E,O Ks(support)=0.6或 60%,c(confidence)=1或 100%5.4(實(shí)現(xiàn)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論