下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘復(fù)習(xí)容4 .說明OLTP概念和OLAO既念答:OLTP(On Line Transaction Processing,聯(lián)機事物處理)是在網(wǎng)絡(luò)環(huán)境下的事務(wù)處理工作以快速的響應(yīng)和頻繁的數(shù)據(jù)修改為特征,使用戶利用數(shù)據(jù)庫能夠快速地處理具體的業(yè) 務(wù)。OLAP (On Line Analytical Processing )聯(lián)機分析處理,是使用多維數(shù)據(jù)庫和多維分 析的方法,對多個關(guān)系數(shù)據(jù)庫共同進(jìn)行大量的綜合計算來得到結(jié)果的方法。6 .說明OLTP與OLAP的主要區(qū)別。答:OLTP針對的是細(xì)節(jié)性數(shù)據(jù)、當(dāng)前數(shù)據(jù)、經(jīng)常更新、一次性處理的數(shù)據(jù)量小、對響應(yīng)時間要求高且面向應(yīng)用,事務(wù)驅(qū)動;OLAP針
2、對的是綜合性數(shù)據(jù)、歷史數(shù)據(jù)、不更新,但周期性刷新、一次處理的數(shù)據(jù)量大、響應(yīng)時間合理且面向分析,分析驅(qū)動。9 .元數(shù)據(jù)與數(shù)據(jù)字典的關(guān)系什么答:在數(shù)據(jù)倉庫中引入了 “元數(shù)據(jù)”的概念,它不僅僅是數(shù)據(jù)倉庫的字典,而且還是數(shù)據(jù)倉 庫本身信息的數(shù)據(jù)。15 .數(shù)據(jù)挖掘與OLAPW"什么不同答:OLAP是在帶層次的維度和跨維度進(jìn)行多維數(shù)據(jù)分析的。數(shù)據(jù)挖掘則不同,它是以變量 和記錄為基礎(chǔ)進(jìn)行分析的。第二章16 說明數(shù)據(jù)集市與數(shù)據(jù)倉庫的區(qū)別與聯(lián)系。答:聯(lián)系:數(shù)據(jù)集市是一種更小,更集中的數(shù)據(jù)倉庫,為公司提供了一條分析商業(yè)數(shù)據(jù)的廉價途徑。數(shù)據(jù)集市是指具有特定應(yīng)用的數(shù)據(jù)倉庫,主要針對某個具有戰(zhàn)略意義的應(yīng)用或者
3、具體部門級的應(yīng)用支持用戶利用已有的數(shù)據(jù)獲得重要的競爭優(yōu)勢或者找到進(jìn)入新市場的具體解決方案。(1)數(shù)據(jù)倉庫是基于整個企業(yè)的數(shù)據(jù)模型建立的,它面向企業(yè)圍的主題。而數(shù)據(jù)集市是 按照某一 特定部門的數(shù)據(jù)模型建立的。(2)部門的主題與企業(yè)的主題之間可能存在關(guān)聯(lián),也可能不存在關(guān)聯(lián)。(3)數(shù)據(jù)集市的數(shù)據(jù)組織一般采用星型模型。,從屬型數(shù)據(jù)集市從企業(yè)級數(shù)據(jù)倉庫獲取數(shù)* 一 tNiJl". 一4:"(4)畫出數(shù)據(jù)集市的兩種結(jié)構(gòu)圖,說明它們白不同點.獨立型數(shù)據(jù)集市直接從操作型環(huán)境獲取數(shù)據(jù) 據(jù),帶有從屬型數(shù)據(jù)集市的體系結(jié)構(gòu)。17.簡單說明ETL過程的主要步驟.ETL過程的主要步驟概括為:(1)決定
4、數(shù)據(jù)倉庫中需要的所有的目標(biāo)數(shù)據(jù)(2)決定所有的數(shù)據(jù)源,包括部和外部的數(shù)據(jù)源(3)準(zhǔn)備從源數(shù)據(jù)到目標(biāo)數(shù)據(jù)的數(shù)據(jù)映射關(guān)系(4)建立全面的數(shù)據(jù)抽取規(guī)則(5)決定數(shù)據(jù)轉(zhuǎn)換和清洗規(guī)則(6)為綜合表制定計劃(7)組織數(shù)據(jù)緩沖區(qū)域和檢測工具(8)為所有的數(shù)據(jù)裝載編寫規(guī)程(9)維度表的抽取、轉(zhuǎn)換和裝載(10)事實表的抽取、轉(zhuǎn)換和裝載22.說明數(shù)據(jù)庫中的元數(shù)據(jù)以及數(shù)據(jù)倉庫中元數(shù)據(jù)的不同。答:關(guān)于數(shù)據(jù)源的元數(shù)據(jù)是現(xiàn)有業(yè)務(wù)系統(tǒng)的數(shù)據(jù)源的描述信息,是對不同平臺上的數(shù)據(jù)源的物理結(jié)構(gòu)和含義的描述。具體為:(1)數(shù)據(jù)源中所有物理數(shù)據(jù)結(jié)構(gòu),包括所有的數(shù)據(jù)項及數(shù)據(jù)類型。(2)所有數(shù)據(jù)項的業(yè)務(wù)定義。(3)每個數(shù)據(jù)項更新的頻率以及
5、由誰或哪個過程更改過。(4)每個數(shù)據(jù)項的有效值。(5)其他系統(tǒng)中具有相同業(yè)務(wù)含義的數(shù)據(jù)項的清單。p24數(shù)據(jù)倉庫的四種數(shù)據(jù)模型。答:星形模型。大多數(shù)數(shù)據(jù)倉庫都采用星型模型,是事實表(大表)以及多個維表(小表)所組成。事實表存放著大量關(guān)于企業(yè)事實數(shù)據(jù)(數(shù)字實際值),對象(元組)個數(shù)通常都很大,而且非規(guī)化程度很高。事實表有大量的行(元組),維表相對來說有較少的行。優(yōu)點:存取速度快,主要針對各個維做了大量處理,做報表時速度很快。與規(guī)化關(guān)系數(shù)據(jù)庫相比,以增加存儲空間為代價, 提高了多維數(shù)據(jù)的查詢速度,而規(guī)化的關(guān)系數(shù)據(jù)庫設(shè)計是使數(shù)據(jù)的冗余保持在最少并減少當(dāng)數(shù)據(jù)改變時系統(tǒng)必須執(zhí)行的動作。缺點:當(dāng)業(yè)務(wù)問題發(fā)生
6、變化,原來的維不能滿足要求時需要增加新的維,維的變化非常 復(fù)雜耗時,數(shù)據(jù)冗余量很大。雪花模型。對星型模型的維表進(jìn)一步的層次化,原來的各維表可能被擴(kuò)展為小的事實表,形成一些局部的“層次”區(qū)域,優(yōu)點是最大限度地減少數(shù)據(jù)存儲量,以及把較小的維表聯(lián)合 在一起來改善查詢信息。 缺點:增加了用戶必須處理的表的數(shù)量,增加了某些查詢的復(fù)雜性。星網(wǎng)模型。多個相關(guān)的星型模型通過相同的維表連接起來形成網(wǎng)狀結(jié)構(gòu),各個事實共享 的維表是時間維。第三式。3NF解決數(shù)據(jù)冗余,數(shù)據(jù)被分割為多個實體,實體在數(shù)據(jù)庫中用表來表示,使 用3NF會形成比較復(fù)雜的關(guān)系表,但適合于操作型處理。星型模型的設(shè)計模式適用于決策分析應(yīng)用。第三章3
7、.2節(jié)OLAP勺三種數(shù)據(jù)模型及其比較 ;答:MOLA啜據(jù)模型:MOLA瞰據(jù)模型是基于多維數(shù)據(jù)庫的OLAP簡稱多維 OLARROLA嗷據(jù)模型:ROLAPb基于關(guān)系數(shù)據(jù)庫的 OLAR簡稱關(guān)系OLAR HOLAR 即?!合 OLAP介于 MOLA儕口 ROLAP1 間。MOLAP與RALAP的上乜粗技以弗&MOLAP1, 1+但婁拒忖關(guān)芹衷.今借點 就擢色序中;2,力伸匯總依 務(wù)錘存在多域戮張中:即從 就把令中中詢問爐做世博,A 多能被據(jù)房中西問匯尋救將1臺RUL4。寸 裝全j建:三以 之足 主蚊如主治如:電31壽 的也陳列中,后不足我將中; 4可以港或畦云林蛾耳:5的 用標(biāo)一面將事技未會昔
8、這正總的1 %鴻響立蟲比奧;耗我校也 班里H奇炳:2瘠廣迂站 %干息極,多通"的香他能力RDLAP1全部靛把& %美.于尋信在敘 樣色中;?邛筑穹短節(jié)科瑋 0.二hJVT,士:m芭士始效推冬4 ; 4從數(shù)搪金莊中間 "F十三里士上士1 '靈期靈親ML乩宓將士盛中盛 翼七據(jù):2RCLAP*在分碼中 包渡代把才方球;一無手法能 在吊篝停髭觀咫tA夏岳川產(chǎn)班農(nóng)一聲思院理.溫央總司批 七的。L*P12 心下也病能.才勒.但圓冷拜的T砧自比M S蹄.在HOLAP的多維數(shù)據(jù)庫中的數(shù)據(jù)維度少于MOLAP中的維度庫,數(shù)據(jù)儲存容量也少于MOLA昉式。(1是,HOLA中數(shù)據(jù)存取
9、速度上又低于 MOLAP第四章數(shù)據(jù)倉庫概念模型將需求分析過程中得到的用戶抽象為計算機表示的信息結(jié)構(gòu)。它是從客觀世界(用戶)到計算機世界的一個中間層次,即用戶需求的數(shù)據(jù)模型。常用 E-R圖 特點:1、能真實反映現(xiàn)實世界,能滿足用戶對數(shù)據(jù)的分析,達(dá)到?jīng)Q策支持的要求,它是現(xiàn)實世界 的一個真實模型。2、易于理解,有利于和用戶交換意見,在用戶的參與下,能有效地完成對數(shù)據(jù)倉庫的成功 設(shè)計。3、易于更改,當(dāng)用戶需求發(fā)生變化時,容易對概念模型進(jìn)行修改和擴(kuò)充。4、易于向數(shù)據(jù)倉庫的數(shù)據(jù)模型(星型模型)轉(zhuǎn)換。邏輯模型設(shè)計把概念模型設(shè)計好的 E-R圖轉(zhuǎn)換成計算機所支持的數(shù)據(jù)模型。主要工作為:1、主要域進(jìn)行概念模型(E
10、-R圖)到邏輯模型(星型模型)的轉(zhuǎn)換;2、顆粒層次劃分;3、關(guān)系模式定義;4、定義記錄系統(tǒng);物理模型設(shè)計為了邏輯模型設(shè)計的數(shù)據(jù)模型確定一個最合適應(yīng)用要求的物理結(jié)構(gòu)(包括存儲結(jié)構(gòu)和存取方法)。數(shù)據(jù)存儲的數(shù)據(jù)模型。工作主要是:1、估計存儲容量;2、確定數(shù)據(jù)的存儲結(jié)構(gòu);3、確定索引;4、確定數(shù)據(jù)存放位置;5、確定存儲分配;時間維度概念:以時間作為描述、表達(dá)變量的度量尺度。是在分析經(jīng)濟(jì)變量時加上時間要素 的角度而形成的。對于經(jīng)濟(jì)變量的考察, 凡能用時間單位來表達(dá)的,就必須在分析中加上時間這一維度,才能使經(jīng)濟(jì)變量準(zhǔn)確的表達(dá)出來。 可以用來表示經(jīng)濟(jì)變量中存量和流量的區(qū)別。 存量是在某一時點測定的,其大小沒
11、有時間維度, 而流量則必須用時間單位宋表示 (年、月、日,小時、分、秒等),即時間維度。不說明時間單位,流量的計量便沒有意義。數(shù)據(jù)粒度概念:數(shù)據(jù)倉庫的數(shù)據(jù)中保存數(shù)據(jù)的細(xì)化程度或綜合程度的級別。細(xì)化程度越高,粒度級別就越??;相反, 細(xì)化程度越低,粒度級別就越高。影響存放在數(shù)據(jù)庫中的數(shù)據(jù)量大小和所能回答的查詢類型。注意雪花模型和綜合事實表的區(qū)別!(8990、4.11和4.12 )雪花模型:減少各維度的記錄數(shù),使查詢過程中搜索記錄數(shù)目減少。 綜合事實表:是由基礎(chǔ)事實表衍生出來的。特別地看一下上次做過的數(shù)據(jù)倉庫的實驗及其實驗文檔,涉及到實驗的具體步驟和容.第八章數(shù)據(jù)掘,看關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘的算法思想,分
12、析課本上P177的例子,要看它的分析步驟和處理辦法,特別是如何畫對應(yīng)的圖8.4;1 基本概念:關(guān)聯(lián)規(guī)則挖掘是發(fā)現(xiàn)大量數(shù)據(jù)庫中項集之間的關(guān)聯(lián)關(guān)系。關(guān)聯(lián)規(guī)則模式屬于描述型模式,發(fā)現(xiàn)關(guān)聯(lián)規(guī)則的算法屬于無監(jiān)督學(xué)習(xí)的方法。 原理:(1) 關(guān)聯(lián)規(guī)則是形如 Z B的蘊涵式,這里 AcI,BcI,且AA Bw ?。(2) 規(guī)則的支持度:規(guī)則A- B在數(shù)據(jù)庫D中具有支持度S,表示S是D中事務(wù)同時包含AB的百分比,它是概率P(AB),即:S(A-B)=P(AB)=|AB|/|A|,其中|D|表示事務(wù)數(shù)據(jù)庫 D的個數(shù),|AB|表示A、B兩個項集同時發(fā)生的事務(wù)個數(shù)。(3) 規(guī)則的可信度,規(guī)則A- B具有可信度C,表示
13、C是包含A項集的同時也包含B項集,相對于包含 A項集的百分比,這是條件概率P(B|A),即C g B)=P(B|A)=|AB|/|A|,A表示數(shù)據(jù)庫中包含項集A的事務(wù)個數(shù)。(4) 閾值:為了在事務(wù)數(shù)據(jù)庫中找出有用的關(guān)聯(lián)規(guī)則,需要由用戶確定兩個閾值:最小支持度(min_sup)和最小可信度(min_conf ).(5) 項的集合稱為項集,包含k個項的項集稱之為 K-項集。若項集滿足最小支持度,則它稱為 頻繁項集。(6) 關(guān)聯(lián)規(guī)則:同時滿足最小支持度和最小可信度的規(guī)則稱為關(guān)聯(lián)規(guī)則,即S(A-B)>min_sup,且C (A- B) >min_conf成立時,規(guī)則 A- B稱為關(guān)聯(lián)規(guī)則,
14、 也可以稱為強關(guān)聯(lián)規(guī)則。(7) 興趣度(不小于 0) : I g B) =P(AB)/P(A)P(B),反映了項集 A與項集B的相關(guān)程度,若I (A-B) =1,即P(AB)=P(A)P(B),表示項集A出現(xiàn)和項集是 相互獨立的。若I (A- B) V 1,表示A出現(xiàn)和B出現(xiàn)是負(fù)相關(guān)。若I (A-B) >1,表示A出現(xiàn)和B出現(xiàn)是正相關(guān),意味著A的出現(xiàn)蘊含B出現(xiàn)。算法基本思想:找到所有支持度大于最小支持度的項集,這些項集稱為頻繁項集。使用一種稱作逐層搜索的迭代方法,“ K-項集”用于搜索“ K+1-”項集,直到不能找到“K-項集”為止,找每個Lk需要一次數(shù)據(jù)庫掃描。性質(zhì):頻繁項集的所有非空
15、子集都必須也是頻繁的。設(shè)K-項集Lk, K+1-項集Lk=i,產(chǎn)生Lk=i的候選集。+1.有公式:Q+i=Lk*Lk=XU Y,其中X,YC Lk,|XY|=K+1,其中C1是1-項集的集合,取自所有事 務(wù)中的單項元素。如 L1=A,B,C2=A U B=A,B,且|AB|=2 , L2=A,B,A,C, C3=A,B UA,C=A,B,C,且|ABC|=3.【2】Apriori算法中候選集與頻繁項集產(chǎn)生實例對表8.6所示的事物數(shù)據(jù)庫,Apriori算法步驟如下:表8.6事物,事物的鞏目集事物1口事物的厘口提T1A,瓦FT6T2氏口T7A. CT3氏GTBAk 氏 G ET4A,乩DT9A,
16、B CTD1、 在算法的第一次迭代,每個項都是候選1-項集的集合C1的成員。算法掃描所有的事務(wù),對每個項的出現(xiàn)次數(shù)計數(shù),圖 8.4中第一列。2、 假定最小事務(wù)支持計數(shù)為2 (即min-sup=2/9=22% )??梢源_定頻繁 1-項集的集合L1.它由具有最小支持度的候選1-項集組成,見圖8.4第二列。3、 為發(fā)現(xiàn)頻繁2-項集的集合L2,算法使用L1*L1 ,來產(chǎn)生候選集 C2,見圖第3列。4、 掃描D中事務(wù),計算C2中每個候選集的支持度計數(shù),如圖 8.4第4歹U。5、 確定頻繁2-項集的集合L2,它由具有最小支持度的 C2中候選2-項集組成,見圖第5歹U。6、 候選3-項集C3產(chǎn)生,仍按3步驟
17、進(jìn)行。得到候選集。C3=A,B,C,A,B,E,A,C,E,B,C,D,B,C,E,B,D,E按Apriori性質(zhì),頻繁項集的所有子集必須是頻繁的。由于A,D,C,D.C,E,D,E不是頻繁項集,故 C3后4個候選不可能是頻繁的,在C3中刪除它們,見圖第6歹U。掃描D中事務(wù),對C3中的候選集計數(shù)支持度計數(shù),圖第 7列。7、 確定L3,它由具有最小支持度的C3中候選3-項集組成,見圖第 8歹U。8、 按公式產(chǎn)生候選 4-項集的集合C4,產(chǎn)生結(jié)果A,B,C,E,這個項集被剪去,因為它的子集B,C,E不是頻繁白勺。這樣 L4W?,此算法終止。L3是最大 的頻繁項集,即A,B,C和A,B,E.圖8.4
18、候選集與頻繁項集的產(chǎn)生L1型觸1-頂施du*.生匚21候選型項K計羽比校項尾計酰產(chǎn)生0及品".也克持府1十射AGA6小A. B4一7C-冉川4金Cga,D乩口1口A. F色.E2工H2B, CE, C4B. DE. 口3B.E& E2CDL 1C. ELD, ELL 111K何絹:1.:吊一 丁限,ttftt卿施網(wǎng)具計排k川田 Ittt兒B4產(chǎn)生瓦匚JL.艮 UZL £ C2f4九E J2工4. E2C3三打康E,C4民口2HE2【3】課本P184習(xí)題八:18, 25 題(Apriori性質(zhì))18、數(shù)據(jù)庫有4個事務(wù),設(shè)最小支持度為50%使用Apriori 、算法找出所有數(shù)據(jù)頻繁項目T1D項T1D項T1樂C, DT芯kr b, C, ET2& 3 FT4E.E,學(xué)定也.Tl V *特rt 3勾2 Min皿一打4一0,C1假地?zé)崛酥Н煻萕 + B支持度事匚支用庇露口支料展3 E支沖度3 II不是胤聚T&# 【11小作fl -i:2 . H&秸后3,。定井碓3
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度消防設(shè)施設(shè)備租賃及維修服務(wù)合同范本2篇
- 2024年版權(quán)代理合同協(xié)議
- ICT項目施工高質(zhì)量保障要求措施
- 中小學(xué)教師心理健康培訓(xùn)心得體會
- 觀看反腐倡廉教育片心得體會
- 人教版五年級美術(shù)上冊教學(xué)計劃
- 現(xiàn)場施工項目部晨會制度流程
- 混凝土工程施工方案與技術(shù)措施
- 股東退股協(xié)議書范文
- 影響施工質(zhì)量的因素分析及相關(guān)措施
- GB/T 44890-2024行政許可工作規(guī)范
- 軍工合作合同范例
- 【7地XJ期末】安徽省宣城市寧國市2023-2024學(xué)年七年級上學(xué)期期末考試地理試題(含解析)
- 2025年中國稀土集團(tuán)總部部分崗位社會公開招聘管理單位筆試遴選500模擬題附帶答案詳解
- 超市柜臺長期出租合同范例
- 廣東省廣州市2025屆高三上學(xué)期12月調(diào)研測試語文試題(含答案)
- 【8物(科)期末】合肥市第四十五中學(xué)2023-2024學(xué)年八年級上學(xué)期期末物理試題
- 統(tǒng)編版2024-2025學(xué)年三年級語文上冊期末學(xué)業(yè)質(zhì)量監(jiān)測試卷(含答案)
- 從0 開始運營抖?音號sop 文檔
- Module7 Unit2 This little girl can't walk(Period 1) (教學(xué)實錄) -2024-2025學(xué)年外研版(三起)英語五年級上冊
- 施工臨建布置方案
評論
0/150
提交評論