數(shù)據(jù)挖掘題目及答案_第1頁
數(shù)據(jù)挖掘題目及答案_第2頁
數(shù)據(jù)挖掘題目及答案_第3頁
數(shù)據(jù)挖掘題目及答案_第4頁
數(shù)據(jù)挖掘題目及答案_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、、何為數(shù)據(jù)倉庫?其主要特點是什么?數(shù)據(jù)倉庫與KDD的聯(lián)系是什么?數(shù)據(jù)倉庫是一個面向主題的( Subject Oriented )、集成的(Integrate)、相對穩(wěn)定的(Non-Volatile )、反映歷史變化(Time Variant)的數(shù)據(jù)集合,用于支持管理決策。 特點:1、面向主題操作型數(shù)據(jù)庫的數(shù)據(jù)組織面向事務(wù)處理任務(wù),各個業(yè)務(wù)系統(tǒng)之間各自分離,而數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題域進行組織的。2、集成的數(shù)據(jù)倉庫中的數(shù)據(jù)是在對原有分散的數(shù)據(jù)庫數(shù)據(jù)抽取、清理的基礎(chǔ)上經(jīng)過系統(tǒng)加工、匯總和整理得到的,必須消除源數(shù)據(jù)中的不一致性,以保證數(shù)據(jù)倉庫內(nèi)的信息是關(guān)于整個企業(yè)的一致的全局信息。3、相對穩(wěn)

2、定的數(shù)據(jù)倉庫的數(shù)據(jù)主要供企業(yè)決策分析之用,一旦某個數(shù)據(jù)進入數(shù)據(jù)倉庫以后, 一般情況下將被長期保留,也就是數(shù)據(jù)倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。4、反映歷史變化數(shù)據(jù)倉庫中的數(shù)據(jù)通常包含歷史信息,系統(tǒng)記錄了企業(yè)從過去某一時點(如開始應(yīng)用數(shù)據(jù)倉庫的時點)到目前的各個階段的信息,通過這些信息,可以對企業(yè)的發(fā)展歷程和未來趨 勢做出定量分析和預(yù)測。所謂基于數(shù)據(jù)庫的知識發(fā)現(xiàn)(KDD )是指從大量數(shù)據(jù)中提取有效的、新穎的、潛在有用的、 最終可被理解的模式的非平凡過程。數(shù)據(jù)倉庫為KDD提供了數(shù)據(jù)環(huán)境,KDD從數(shù)據(jù)倉庫中提取有效的,可用的信息數(shù)據(jù)庫有 4 筆交易。設(shè) m

3、i nsup=60%, mi neon f=80%。TIDDATEITEMS BOUGHTT1003/5/2009A, C, S, LT2003/5/2009D, A, C, E, BT3004/5/2010A, B, CT4004/5/2010C, A, B, E使用Apriori算法找出頻繁項集,列出所有關(guān)聯(lián)規(guī)則。解:已知最小支持度為 60%,最小置信度為80%1) 第一步,對事務(wù)數(shù)據(jù)庫進行一次掃描,計算出D中所包含的每個項目出現(xiàn)的次數(shù),生成候選1-項集的集合CoDTID項集T100A, C, S, LT200D, A, C, E, BT300A, B, CT400C, A, B, EC1

4、項集支持度計數(shù)A4B3C4D1E2S1L12)第二步,根據(jù)設(shè)定的最小支持度,從C中確定頻繁1-項集L1L1項集支持度計數(shù)A4B3C43)第三步,由Li產(chǎn)生候選2-項集C2,然后掃描事務(wù)數(shù)據(jù)庫對 C2中的項集進行計數(shù)C2項集支持度計數(shù)A, B3A, C4B, C34)第四步,根據(jù)最小支持度,從候選集C2中確定頻繁2-項集L2L2由頻繁項集產(chǎn)生關(guān)聯(lián)規(guī)則如下:針對頻繁3-項集L3,非空真子集有:A,B,C,A,B,A,C,B,C,相應(yīng)的置信度為:規(guī)則置信度A-B&C3/4=75%B-A&C3/3=100%C-A&B3/4=75%A&B-C3/3=100%A&C-B3/4=75%B&C-A3/3=10

5、0%因為最小置信度為90%故所有關(guān)聯(lián)規(guī)則為:B-A&C、A&B-C、B&C-A三、假設(shè)數(shù)據(jù)集D含有9個數(shù)據(jù)對象(用二維空間的點表示):A1(3, 2),A2(3, 9),A3(8, 6),B1(9, 5),B2(2, 4),B3(3, 10),C1(2, 6),C2(9, 6),C3(2, 2)基于歐幾里得距離采用k-均值方法聚類,取k=3,初始的簇質(zhì)心為A1,B1 和C1,求:(1) 第一次循環(huán)結(jié)束時的三個簇的質(zhì)心。(2) 最后求得的三個簇。解:(1)第一次循環(huán):d2( A1,A1)=(3-3)2+(2-2)2=0d2( A1,B1)=(3-9)2+(2-5) 2=45d2( A1,C1)=

6、(3-2)2+(2-6)2=17因為d2( A1,A1)最小,所以,A1-A1d2( A2,A1)=(3-3)2+(9-2)2=49d2( A2,B1)=(3-9)2+(9-5)2=60d2( A2,C1)=(3-2)2+(9-6)2=10因為d2( A2,C1)最小,所以,A2-C1d2( A3,A1)=(8-3)2+(6-2)2=41d2( A3,B1)=(8-9)2+(6-5)2=2d2( A3,C1)=(8-2)2+(6-6) 2=36因為d2( A3,B1)最小,所以,A3-B1d2( B1,A1)=(9-3)2+(5-2)2=45d2( B1,B1)=(9-9)2+(5-5) 2=

7、0d2( B1,C1)=(9-2)2+(5-6) 2=50因為d2( B1,B1)最小,所以,B1-B1d2( B2,A1 ) =(2-3)2+(4-2)2=5d2(B2,B1)=(2-9)2+(4-5) 2=50d2(B2,C1)=(2-2)2+(4-6) 2=4因為d2 ( B2, C1)最小,所以,B2-C1d2(B3, A1 ) =(3-3) 2+(1 0-2) 2 =64d2(B3, B1) =(3-9) 2+(1 0-5) 2=61d2(B3, C1) =(3-2)2+(10-6)2=17因為d2 (B3, C1)最小,所以,B3-C1d2(C1, A1 ) =(2-3)2+(6-

8、2)2=17d2( C1 , B1) =(2-9) 2+(6-5) 2=50d2(C1, C1) =(2-2)2+(6-6)2=0因為d2 (C1, C1)最小,所以,C1-C1d2( C2, A1 ) =(9-3)2+(6-2) 2=50d2(C2, B1) =(9-9) 2+(6-5) 2=12 2 2d2(C2, C1) =(9-2)2+(6-6)2=49因為 d2( C2, B1 )最小,所以, C2-B1 d2( C3, A1 ) =(2-3)2+(2-2) 2=1 d2( C3, B1) =(2-9)2+(2-5) 2=58 d2(C3, C1) =(2-2)2+(2-6)2=16

9、 因為 d2( C3, A1 )最小,所以, C3-A1 所以第一次循環(huán)結(jié)束時,第一類:A1, C3,質(zhì)心為 O1 (2.5, 2 )第二類: B1, A3,C2, 質(zhì)心為 O2(9, 5.67 )第三類: C1, A2,B2,B3, 質(zhì)心為 O3(2.5, 7.25 )(2) 第二次循環(huán)結(jié)束時,第一類:A1,B2,C3, 質(zhì)心為 01(2.33,3 ),第二類:A3,B1,C2,質(zhì)心為 02 (8.67,5.67 ),第三類:A2,B3,C1,質(zhì)心為 03 (2.67,8.33 )。第三次循環(huán)結(jié)束時,第一類:A1, B2, C3,質(zhì)心為 01 (2.33,3 ),第二類:A3, B1, C2

10、,質(zhì)心為 02 ( 8.67,5.67 ),第三類:A2, B3,C1,質(zhì)心為 03 (2.67,8.33 )。結(jié)果與第二次循環(huán)結(jié)束的結(jié)果一樣,故最后求得的結(jié)果為:第一類:A1,B2, C3,質(zhì)心為 01(2.33,3),第二類:A3, B1,C2,質(zhì)心為 02 ( 8.67,5.67 ),第三類:A2, B3,C1,質(zhì)心為 03 (2.67,8.33 )。四、給定數(shù)據(jù)集S,試根據(jù)前7個樣本構(gòu)造ID3決策樹模型,并預(yù)測第8個樣本 的類別?數(shù)據(jù)集SSampleABCS1a0boC1S2a。b1C1S3a0bC1S481bC2S5a1b1C1Sa1bC2S7a2b0C2S8a2b1解:現(xiàn)計算每個屬

11、性的信息增益。對給定樣本分類所需的期望信息為:E(S)= - (3/7)log2 (3/7) - (4/7)log2 (4/7)=0.5239+0.4613=0.9852 Values(A)=aO, a1, a2,Sa0 =S1, S2, S3 , I Sa0 I =3,其中 3 個都屬于類 C1,故有:E(Sa0)= -(5/5)log2(5/5) (0/5)log2(0/5)=0Sa1= S4, S5, S6 , I Sa1 I =3,其中,1 個屬于 c1,2 個屬于 c2,故有 E(Sa1)= -(1/3)log2(1/3) -(2/3)log2(2=0.5283+0.3900=0.9

12、183 同理,E(Sa2)= -(1/1)log2(1/1) - (0/1)log2(0/1)=0因此屬性 A 的期望熵為:E(S,A)=(3/7)E(Sa0)+ 7)E(Sa1)+(1/7)E(Sa2)=0.3936 故A的信息增益為:Gain(S, A)= E(S) - E(S, A) =0. 9852 - 0. 3936=0.5916同理:Values(B)=b0, b1, b2,Sb0 =S1, S4, S7 , I Sb0 I =3,其中,1 個屬于 c1,2 個屬于 c2,故有E(Sb0)= -(1/3)log2(1/3) -(2/3)log2(22/3)=0.5283+0.390

13、0=0.9183Sb仁S2, S5 , I Sb1 I =2,其中2個都屬于類 C1,故有E(Sb1)= - (2/2)log2(2/2) (0/2)log2(0/2)=0同理,E(Sb2)= -(1/2)log2(1/2) -(1/2)log2(1/2)=1因此屬性B的期望熵為:E(S, B)=(3/7)E(SbO)+ (2/7)E(Sb1)+(2/7)E(Sb2)=0.3936+0+0.2857=0.6793故B的信息增益為:Gain(S,B)= E(S) - E(S, B) =0. 9852 - 0. 6793 =0.3059故A的信息增益最大,令屬性A為根節(jié)點的測試屬性,并對應(yīng)每個值(

14、a0,a1,a2)在根節(jié)點下建立分支,形成部分決策樹:對于A=aO和A=a2節(jié)點,它們對應(yīng)的屬性唯一,不需進一步討論,而對于 A=a1節(jié)點,需 要進一步討論。由于只有B屬性可供討論,因此依據(jù)不同的取值,可得最終的決策樹:A根據(jù)以上決策樹,可知第 8個樣本S8的類別為c2.五、設(shè)論域U=x1, x2 ,x6,屬性集A=C 一 D,條件屬性集C=a, b, c,決策屬 性集D=d,決策表如下:決策表abcdX11021X21021X31202X41220X52102冷2112問:決策表是否為一致決策表?利用分辨矩陣對決策表進行約簡解:由決策表可知,U/C=x1, x2, x3, x4, x5, x6U/D=x1, x2, x3, x5, x6, x4P0Sc(D)=x1, x2, x3, x4, x5, x6 因為k=| P0Sc(D)|/|U|=1,故該決策表為一致決策表。該決策表的分辨矩陣為6

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論