第三章數(shù)據(jù)倉庫模型設(shè)計(jì)_第1頁
第三章數(shù)據(jù)倉庫模型設(shè)計(jì)_第2頁
第三章數(shù)據(jù)倉庫模型設(shè)計(jì)_第3頁
第三章數(shù)據(jù)倉庫模型設(shè)計(jì)_第4頁
第三章數(shù)據(jù)倉庫模型設(shè)計(jì)_第5頁
已閱讀5頁,還剩84頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第三章數(shù)據(jù)倉庫模型設(shè)計(jì)第三章數(shù)據(jù)倉庫模型設(shè)計(jì)3.1數(shù)據(jù)倉庫模型設(shè)計(jì)方法概述數(shù)據(jù)倉庫系統(tǒng)的設(shè)計(jì)與數(shù)據(jù)庫系統(tǒng)設(shè)計(jì)的區(qū)別數(shù)據(jù)庫系統(tǒng)設(shè)計(jì)數(shù)據(jù)倉庫系統(tǒng)設(shè)計(jì)面向的數(shù)據(jù)類型面向應(yīng)用面向分析應(yīng)用需求比較明確不太明確系統(tǒng)設(shè)計(jì)目標(biāo)事務(wù)處理的并發(fā)性、安全性、高效性保證數(shù)據(jù)的四個(gè)特征和全局一致性數(shù)據(jù)來源業(yè)務(wù)操作員的輸入業(yè)務(wù)系統(tǒng)系統(tǒng)設(shè)計(jì)的方法需求驅(qū)動(dòng)數(shù)據(jù)驅(qū)動(dòng)第三章數(shù)據(jù)倉庫模型設(shè)計(jì)3.1數(shù)據(jù)倉庫模型設(shè)計(jì)方法概述數(shù)據(jù)倉庫系統(tǒng)的設(shè)計(jì)可以分為數(shù)據(jù)倉庫模型設(shè)計(jì)和數(shù)據(jù)裝載接口的設(shè)計(jì)兩大部分,其中數(shù)據(jù)倉庫模型設(shè)計(jì)又包括概念模型設(shè)計(jì)、邏輯模型設(shè)計(jì)和物理模型設(shè)計(jì)三個(gè)部分。第三章數(shù)據(jù)倉庫模型設(shè)計(jì)3.2數(shù)據(jù)倉庫設(shè)計(jì)的三級(jí)數(shù)據(jù)模型數(shù)據(jù)模型是數(shù)據(jù)倉庫建設(shè)的基礎(chǔ),一個(gè)完整、靈活、穩(wěn)定的數(shù)據(jù)模型對(duì)于數(shù)據(jù)倉庫項(xiàng)目的成功起著如下重要的作用:

1)數(shù)據(jù)模型是整個(gè)系統(tǒng)建設(shè)過程的導(dǎo)航圖。

2)有利于數(shù)據(jù)的整合。3)通過數(shù)據(jù)模型的建立,可以排除數(shù)據(jù)描述的不一致性。4)由于數(shù)據(jù)模型對(duì)現(xiàn)有的信息以及信息之間的關(guān)系從邏輯層進(jìn)行了全面的描述,當(dāng)未來業(yè)務(wù)發(fā)生變化或系統(tǒng)需求發(fā)生變化時(shí),可以很容易地實(shí)現(xiàn)系統(tǒng)擴(kuò)展。第三章數(shù)據(jù)倉庫模型設(shè)計(jì)5)可以消除數(shù)據(jù)倉庫中的冗余數(shù)據(jù)。數(shù)據(jù)倉庫建模是數(shù)據(jù)倉庫構(gòu)建工作正式開始的第一步,正確而完備的數(shù)據(jù)模型是用戶業(yè)務(wù)需求的體現(xiàn),是數(shù)據(jù)倉庫項(xiàng)目成功與否最重要的技術(shù)因素。目前較為流行的數(shù)據(jù)倉庫設(shè)計(jì)模型是概念模型、邏輯模型和物理模型三級(jí)數(shù)據(jù)模型。3.2數(shù)據(jù)倉庫設(shè)計(jì)的三級(jí)數(shù)據(jù)模型第三章數(shù)據(jù)倉庫模型設(shè)計(jì)3.2數(shù)據(jù)倉庫設(shè)計(jì)的三級(jí)數(shù)據(jù)模型一、概念模型概念模型描述的是從客觀世界到主觀認(rèn)識(shí)的映射,它是用于我們?yōu)橐欢ǖ哪繕?biāo)設(shè)計(jì)系統(tǒng)、收集信息而服務(wù)的一個(gè)概念性工具。在進(jìn)行系統(tǒng)設(shè)計(jì)時(shí),我們首先要將現(xiàn)實(shí)世界抽象為概念模型,然后再用計(jì)算機(jī)世界的模型和語言對(duì)客觀世界中的具體問題進(jìn)行描述。第三章數(shù)據(jù)倉庫模型設(shè)計(jì)3.2數(shù)據(jù)倉庫設(shè)計(jì)的三級(jí)數(shù)據(jù)模型二、邏輯模型目前數(shù)據(jù)倉庫一般建立在關(guān)系數(shù)據(jù)庫基礎(chǔ)之上。因此,在數(shù)據(jù)倉庫的設(shè)計(jì)中采用的邏輯模型就是關(guān)系模型,無論是主題還是主題之間的聯(lián)系,都用關(guān)系來表示。邏輯模型描述了數(shù)據(jù)倉庫的主題的邏輯實(shí)現(xiàn),對(duì)于關(guān)系數(shù)據(jù)庫來說,即每個(gè)主題所對(duì)應(yīng)的關(guān)系表的關(guān)系模式的定義。它能直接反映出業(yè)務(wù)部門的需求,同時(shí)對(duì)系統(tǒng)的物理實(shí)施有著重要的指導(dǎo)作用。第三章數(shù)據(jù)倉庫模型設(shè)計(jì)3.2數(shù)據(jù)倉庫設(shè)計(jì)的三級(jí)數(shù)據(jù)模型三、物理模型物理模型是邏輯模型在數(shù)據(jù)倉庫中的實(shí)現(xiàn),如數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)、數(shù)據(jù)索引策略、數(shù)據(jù)的存儲(chǔ)策略以及存儲(chǔ)分配優(yōu)化等。第三章數(shù)據(jù)倉庫模型設(shè)計(jì)3.2數(shù)據(jù)倉庫設(shè)計(jì)的三級(jí)數(shù)據(jù)模型四、三種模型之間的關(guān)系關(guān)系模型物理實(shí)現(xiàn)的細(xì)節(jié)客觀世界主觀世界概念模型邏輯模型物理模型第三章數(shù)據(jù)倉庫模型設(shè)計(jì)3.2數(shù)據(jù)倉庫設(shè)計(jì)的三級(jí)數(shù)據(jù)模型五、高級(jí)模型、中級(jí)模型和低級(jí)模型高級(jí)模型:即數(shù)據(jù)概念模型,用E-R圖表示。低級(jí)模型:即物理數(shù)據(jù)模型。中級(jí)模型:稱為數(shù)據(jù)項(xiàng)(dis-dataitemset)。第三章數(shù)據(jù)倉庫模型設(shè)計(jì)3.2數(shù)據(jù)倉庫設(shè)計(jì)的三級(jí)數(shù)據(jù)模型五、高級(jí)模型、中級(jí)模型和低級(jí)模型dis是E-R圖的細(xì)分。E-R圖的每一個(gè)主題都與一個(gè)dis相對(duì)應(yīng)。主題1主題2主題4主題3disdisdisdisE-R圖高級(jí)模型中級(jí)模型中級(jí)模型第三章數(shù)據(jù)倉庫模型設(shè)計(jì)3.2數(shù)據(jù)倉庫設(shè)計(jì)的三級(jí)數(shù)據(jù)模型五、高級(jí)模型、中級(jí)模型和低級(jí)模型每個(gè)dis中的數(shù)據(jù)分為4個(gè)組別:基本數(shù)據(jù)組、二級(jí)數(shù)據(jù)組、連接數(shù)據(jù)組和類型數(shù)據(jù)組。1)連接數(shù)據(jù)組

主要用于本主題與其他主題之間的聯(lián)系,體現(xiàn)E-R圖中主題之間的關(guān)系。一般情況下,連接數(shù)據(jù)組往往是一個(gè)主題的公共碼鍵。第三章數(shù)據(jù)倉庫模型設(shè)計(jì)3.2數(shù)據(jù)倉庫設(shè)計(jì)的三級(jí)數(shù)據(jù)模型五、高級(jí)模型、中級(jí)模型和低級(jí)模型2)基本數(shù)據(jù)組基本數(shù)據(jù)組包含了本主題中固定的、基本不變的屬性。3)二級(jí)數(shù)據(jù)組

是本主題中有時(shí)會(huì)發(fā)生變化的數(shù)據(jù),其穩(wěn)定性低于基本數(shù)據(jù)組。4)類型數(shù)據(jù)組

是本主題中經(jīng)常改變的數(shù)據(jù),其穩(wěn)定性最低。第三章數(shù)據(jù)倉庫模型設(shè)計(jì)3.2數(shù)據(jù)倉庫設(shè)計(jì)的三級(jí)數(shù)據(jù)模型五、高級(jí)模型、中級(jí)模型和低級(jí)模型例:商品ID客戶ID姓名性別身份證號(hào)碼住址文化程度電話E-mail交易ID商品金額購買時(shí)間交易ID商品金額購買時(shí)間交易ID商品金額購買時(shí)間電器食品床上用品類型數(shù)據(jù)組二級(jí)數(shù)據(jù)組連接數(shù)據(jù)組基本數(shù)據(jù)組第三章數(shù)據(jù)倉庫模型設(shè)計(jì)3.3數(shù)據(jù)倉庫的概念模型設(shè)計(jì)

通過概念模型設(shè)計(jì),可以確定數(shù)據(jù)倉庫的主要主題及相互關(guān)系。進(jìn)行概念模型設(shè)計(jì)所要完成的工作有:1)界定系統(tǒng)邊界,即進(jìn)行任務(wù)和環(huán)境評(píng)估、需求收集和分析,了解用戶迫切需要解決的問題及解決這些問題所需要的信息,要對(duì)現(xiàn)有數(shù)據(jù)庫中的內(nèi)容有一個(gè)完整而清晰的認(rèn)識(shí)。2)確定主要的主題域及其內(nèi)容,即要確定系統(tǒng)所包含的主題域,然后對(duì)每一個(gè)主題域的公共碼鍵、主題域之間的聯(lián)系、充分代表主題的屬性組進(jìn)行較為明確的描述。第三章數(shù)據(jù)倉庫模型設(shè)計(jì)3.3數(shù)據(jù)倉庫的概念模型設(shè)計(jì)數(shù)據(jù)倉庫的概念模型設(shè)計(jì)可以采用兩種方法:

E-R模型和面向?qū)ο蟮姆治龇椒?。一、E-R模型E-R圖描述的是主題以及主題之間的聯(lián)系。用E-R模型進(jìn)行概念模型設(shè)計(jì)的過程如圖:任務(wù)和環(huán)境評(píng)估需求的收集和分析主題選取,確定主題間關(guān)系主題內(nèi)容描述E-R圖對(duì)主題的選擇進(jìn)行調(diào)整第三章數(shù)據(jù)倉庫模型設(shè)計(jì)3.3數(shù)據(jù)倉庫的概念模型設(shè)計(jì)(1)任務(wù)和環(huán)境的評(píng)估(2)需求的收集和分析(3)主題的選取,確定主題間關(guān)系主題選取的原則:

1)優(yōu)先實(shí)施管理者目前最迫切需求、最關(guān)心的主題。

2)優(yōu)先選擇能夠在較短時(shí)間內(nèi)發(fā)生效益的決策主題。

3)推后實(shí)施業(yè)務(wù)邏輯準(zhǔn)備不充分的主題。

4)推后考慮實(shí)現(xiàn)技術(shù)難度大、可實(shí)現(xiàn)性較低、投資風(fēng)險(xiǎn)大的主題。第三章數(shù)據(jù)倉庫模型設(shè)計(jì)3.3數(shù)據(jù)倉庫的概念模型設(shè)計(jì)(4)主題內(nèi)容描述描述的內(nèi)容包括:

1)主題的公共碼鍵。

2)主題之間的聯(lián)系。

3)充分代表主題的屬性組。(5)E-R圖長方形——表示主題橢圓形——表示主題的屬性組菱形——表示主題之間的聯(lián)系例1:假設(shè)有商品、客戶和供應(yīng)商三個(gè)主題。商品有如下屬性組:商品固有信息商品庫存信息商品銷售信息商品采購信心客戶有如下屬性組:客戶固有信息客戶購物信息供應(yīng)商有如下屬性組:供應(yīng)商固有信息供應(yīng)商品信息則可得到如下E-R圖:第三章數(shù)據(jù)倉庫模型設(shè)計(jì)3.3數(shù)據(jù)倉庫的概念模型設(shè)計(jì)供應(yīng)商商品客戶日期供應(yīng)商號(hào)供應(yīng)商固有信息供應(yīng)商品信息日期客戶號(hào)客戶購物信息客戶固有信息日期商品號(hào)商品固有信息商品庫存信息商品銷售信息商品采購信息供應(yīng)購買第三章數(shù)據(jù)倉庫模型設(shè)計(jì)3.3數(shù)據(jù)倉庫的概念模型設(shè)計(jì)第三章數(shù)據(jù)倉庫模型設(shè)計(jì)3.3數(shù)據(jù)倉庫的概念模型設(shè)計(jì)例2、中醫(yī)藥方劑是中醫(yī)治療疾病的重要手段,方劑中蘊(yùn)涵著中醫(yī)博大、精深的理論。為了揭示蘊(yùn)涵在方劑中的應(yīng)用規(guī)律和內(nèi)部的有機(jī)聯(lián)系,推動(dòng)傳統(tǒng)醫(yī)學(xué)的發(fā)展,加快新藥產(chǎn)品的開發(fā),要建立中醫(yī)方劑數(shù)據(jù)倉庫。第三章數(shù)據(jù)倉庫模型設(shè)計(jì)3.3數(shù)據(jù)倉庫的概念模型設(shè)計(jì)方劑中的信息可以分為兩個(gè)部分:一部分是藥物的配比,即需要哪幾味中藥,每種藥材各需要多少;另一部分則是其主治的病癥,這兩部分信息被方劑有機(jī)地聯(lián)系在一起。藥物的配比是由藥理決定的,而病癥的規(guī)則又是與病因和發(fā)展的機(jī)理密切聯(lián)系,要分析方劑,就不可能不研究這兩方面的信息。因此可以確定主要的主題為方劑、藥物、病癥,所需的數(shù)據(jù)為方劑數(shù)據(jù)、藥物數(shù)據(jù)、病癥數(shù)據(jù)。第三章數(shù)據(jù)倉庫模型設(shè)計(jì)3.3數(shù)據(jù)倉庫的概念模型設(shè)計(jì)主題名公共碼鍵屬性組藥物藥物ID藥物基本信息:藥物ID、藥名、味性、歸經(jīng)、功效、主治和禁忌等藥物相關(guān)信息:藥物ID、產(chǎn)地、采集、保存、炮制等方劑方劑ID方劑基本信息:方劑ID、方劑名、煎服方式、文獻(xiàn)等方劑藥物信息:方劑ID、藥物ID、劑量等方劑適宜病癥:方劑ID、病癥ID等病癥病癥ID病癥基本信息:病癥ID、病癥名、臨床表現(xiàn)、病機(jī)等主題的描述第三章數(shù)據(jù)倉庫模型設(shè)計(jì)3.3數(shù)據(jù)倉庫的概念模型設(shè)計(jì)病癥藥物處方方藥方癥方劑ID方劑藥物信息方劑基本信息方劑適宜病癥藥物基本信息藥物ID藥物相關(guān)信息病癥ID病癥基本信息第三章數(shù)據(jù)倉庫模型設(shè)計(jì)3.3數(shù)據(jù)倉庫的概念模型設(shè)計(jì)二、面向?qū)ο蟮姆治龇椒ú捎妹嫦驅(qū)ο蠓椒ㄟM(jìn)行概念模型設(shè)計(jì)時(shí),E-R模型中的實(shí)體轉(zhuǎn)化為面向?qū)ο笙到y(tǒng)中的類,E-R模型中實(shí)體的屬性對(duì)應(yīng)面向?qū)ο笙到y(tǒng)中類的屬性,E-R模型中實(shí)體間的關(guān)系表現(xiàn)為面向?qū)ο笙到y(tǒng)中類間的關(guān)系。環(huán)境評(píng)估需求分析選擇類確定類間關(guān)系描述類屬性、動(dòng)作對(duì)類的選擇進(jìn)行調(diào)整第三章數(shù)據(jù)倉庫模型設(shè)計(jì)3.3數(shù)據(jù)倉庫的概念模型設(shè)計(jì)二、面向?qū)ο蟮姆治龇椒惓S玫膱D形表示方法是類表。汽車屬性:顏色類型……動(dòng)作:行駛()類名類的屬性集合類的動(dòng)作集合第三章數(shù)據(jù)倉庫模型設(shè)計(jì)3.3數(shù)據(jù)倉庫的概念模型設(shè)計(jì)二、面向?qū)ο蟮姆治龇椒ㄔ诿嫦驅(qū)ο蟮姆椒ㄖ校愔g存在三種關(guān)系:繼承、包容和關(guān)聯(lián)。1、繼承交通工具汽車輪船火車第三章數(shù)據(jù)倉庫模型設(shè)計(jì)3.3數(shù)據(jù)倉庫的概念模型設(shè)計(jì)二、面向?qū)ο蟮姆治龇椒?、包容學(xué)校學(xué)生教師第三章數(shù)據(jù)倉庫模型設(shè)計(jì)3.3數(shù)據(jù)倉庫的概念模型設(shè)計(jì)二、面向?qū)ο蟮姆治龇椒?、關(guān)聯(lián)在面向?qū)ο蠓椒ㄖ校税莺屠^承關(guān)系之外,類之間的其他關(guān)系都?xì)w入關(guān)聯(lián)關(guān)系。因?yàn)轭惖膭?dòng)作反映的是類對(duì)自身或者其他類的作用,而關(guān)聯(lián)關(guān)系是指類間的作用與反作用,所以關(guān)聯(lián)關(guān)系可以通過類的動(dòng)作來體現(xiàn)。教師學(xué)生教/學(xué)第三章數(shù)據(jù)倉庫模型設(shè)計(jì)3.3數(shù)據(jù)倉庫的概念模型設(shè)計(jì)二、面向?qū)ο蟮姆治龇椒ɡ褐嗅t(yī)數(shù)據(jù)倉庫選擇出三個(gè)類:藥物類、方劑類、病癥類,其中藥物類可以派生出治感冒的藥物、治脾胃的藥物和治腸炎的藥物三個(gè)子類,各類之間的關(guān)系如圖:方劑藥物病癥治感冒的藥物治脾胃的藥物治腸炎的藥物第三章數(shù)據(jù)倉庫模型設(shè)計(jì)3.4數(shù)據(jù)倉庫的邏輯模型設(shè)計(jì)進(jìn)行邏輯模型設(shè)計(jì)所要完成的主要工作有:(1)系統(tǒng)數(shù)據(jù)量的估算(2)數(shù)據(jù)粒度的選擇(3)確定數(shù)據(jù)分割策略(4)增加時(shí)間字段(5)去除純操作型數(shù)據(jù)(6)進(jìn)行合理的表劃分(7)定義關(guān)系模式(8)增加導(dǎo)出字段(9)定義記錄系統(tǒng)第三章數(shù)據(jù)倉庫模型設(shè)計(jì)3.4數(shù)據(jù)倉庫的邏輯模型設(shè)計(jì)一、系統(tǒng)數(shù)據(jù)量估算

數(shù)據(jù)倉庫數(shù)據(jù)量級(jí)的一個(gè)簡單估算方法是:

設(shè)在概念模型中出現(xiàn)的表個(gè)數(shù)為N(這些表中應(yīng)當(dāng)不包括不會(huì)放進(jìn)數(shù)據(jù)倉庫的表),對(duì)于每個(gè)表i(0<i<=N)計(jì)算表的大小Si和表的主關(guān)鍵字大小Ki,然后估計(jì)每張表i在單位時(shí)間內(nèi)最大記錄數(shù)Lmax和最少記錄數(shù)Lmin。則數(shù)據(jù)倉庫的粗略數(shù)據(jù)量在如下范圍:第三章數(shù)據(jù)倉庫模型設(shè)計(jì)3.4數(shù)據(jù)倉庫的邏輯模型設(shè)計(jì)一、系統(tǒng)數(shù)據(jù)量估算其中,T是數(shù)據(jù)在數(shù)據(jù)倉庫中存在的周期。通常輕度綜合的數(shù)據(jù)在數(shù)據(jù)倉庫中存放的周期是5~10年。α是考慮由于數(shù)據(jù)索引和數(shù)據(jù)冗余而使得數(shù)據(jù)量增大的冗余因子,α通常可取1.2~2。

上式的含義是數(shù)據(jù)倉庫數(shù)據(jù)量=(表記錄的大小十主關(guān)鍵字大小)×記錄的數(shù)量/單位時(shí)間×存儲(chǔ)時(shí)間×冗余因子。第三章數(shù)據(jù)倉庫模型設(shè)計(jì)3.4數(shù)據(jù)倉庫的邏輯模型設(shè)計(jì)一、系統(tǒng)數(shù)據(jù)量估算表i在單位時(shí)間內(nèi)最大記錄數(shù)Limax需要按照公司的客戶數(shù)量或者市場的占用情況估算。比如對(duì)電信公司的計(jì)費(fèi)表記錄數(shù)量的估計(jì),可以采用電信公司的客戶數(shù)量×單位時(shí)間內(nèi)平均通話的次數(shù)×每個(gè)存儲(chǔ)時(shí)間來估計(jì)表的記錄數(shù)量。

以上方法估算的結(jié)果只能作為數(shù)據(jù)粒度選樣和軟硬件平臺(tái)選取的參考數(shù)據(jù),它同實(shí)際系統(tǒng)的數(shù)據(jù)量可能會(huì)有較大的出入。第三章數(shù)據(jù)倉庫模型設(shè)計(jì)3.4數(shù)據(jù)倉庫的邏輯模型設(shè)計(jì)二、數(shù)據(jù)顆粒度的選擇1、單一數(shù)據(jù)粒度的概念:直接存儲(chǔ)細(xì)節(jié)數(shù)據(jù)并定期在細(xì)節(jié)數(shù)據(jù)基礎(chǔ)上進(jìn)行數(shù)據(jù)綜合。第三章數(shù)據(jù)倉庫模型設(shè)計(jì)3.4數(shù)據(jù)倉庫的邏輯模型設(shè)計(jì)二、數(shù)據(jù)顆粒度的選擇2、雙重粒度的概念:對(duì)于細(xì)節(jié)數(shù)據(jù)只保留近期的數(shù)據(jù)在數(shù)據(jù)倉庫中,當(dāng)保留周期到達(dá)時(shí),將距離當(dāng)前較遠(yuǎn)的數(shù)據(jù)導(dǎo)出到磁盤上,從而為最新的數(shù)據(jù)騰出空間。這樣,數(shù)據(jù)倉庫只保留在細(xì)節(jié)數(shù)據(jù)保留周期之內(nèi)的數(shù)據(jù),對(duì)于這個(gè)周期之后的信息,數(shù)據(jù)倉庫只保留其綜合數(shù)據(jù)。第三章數(shù)據(jù)倉庫模型設(shè)計(jì)3.4數(shù)據(jù)倉庫的邏輯模型設(shè)計(jì)二、數(shù)據(jù)顆粒度的選擇2、雙重粒度的概念:第三章數(shù)據(jù)倉庫模型設(shè)計(jì)3.4數(shù)據(jù)倉庫的邏輯模型設(shè)計(jì)二、數(shù)據(jù)顆粒度的選擇2、雙重粒度的概念:單一粒度和雙重粒度的區(qū)別在于細(xì)節(jié)數(shù)據(jù)在數(shù)據(jù)倉庫的高速存儲(chǔ)設(shè)備中存儲(chǔ)的時(shí)間長短不同。

在使用雙重粒度時(shí),一個(gè)重要的參數(shù)是細(xì)節(jié)數(shù)據(jù)的保留周期,這個(gè)周期對(duì)于不同行業(yè)、不同需求可能有不同的答案。第三章數(shù)據(jù)倉庫模型設(shè)計(jì)3.4數(shù)據(jù)倉庫的邏輯模型設(shè)計(jì)二、數(shù)據(jù)顆粒度的選擇3、粒度的選擇第三章數(shù)據(jù)倉庫模型設(shè)計(jì)3.4數(shù)據(jù)倉庫的邏輯模型設(shè)計(jì)二、數(shù)據(jù)顆粒度的選擇4、粒度層次劃分無論是單一粒度還是雙重粒度,在數(shù)據(jù)倉庫中都存在多重綜合層次的數(shù)據(jù)。有幾個(gè)因素會(huì)影響粒度層次的劃分。

(1)要接受的分析類型

(2)可接受的最低粒度

(3)能存儲(chǔ)數(shù)據(jù)的存儲(chǔ)容量第三章數(shù)據(jù)倉庫模型設(shè)計(jì)3.4數(shù)據(jù)倉庫的邏輯模型設(shè)計(jì)三、表的分割在確定粒度之后,需要考慮的是表的分割策略,常用的分割策略是按照時(shí)間進(jìn)行如圖所示。比如商品供應(yīng)關(guān)系問題可以采用雙重粒度,保留近6個(gè)月的細(xì)節(jié)數(shù)據(jù)。綜合數(shù)據(jù)可以按照年進(jìn)行分割。第三章數(shù)據(jù)倉庫模型設(shè)計(jì)3.4數(shù)據(jù)倉庫的邏輯模型設(shè)計(jì)三、表的分割第三章數(shù)據(jù)倉庫模型設(shè)計(jì)3.4數(shù)據(jù)倉庫的邏輯模型設(shè)計(jì)四、增加時(shí)間字段在數(shù)據(jù)粒度/分割策略確定之后,我們可以將表按照數(shù)據(jù)粒度/分割策略的需求定義新表,并為各個(gè)表增加合適的時(shí)間字段;比如在上圖中的細(xì)節(jié)數(shù)據(jù),我們使用的時(shí)間字段是“供貨日期”,按月綜合數(shù)據(jù)使用的時(shí)間字段是“供貨月份”。時(shí)間字段實(shí)際上體現(xiàn)了數(shù)據(jù)粒度的信息。第三章數(shù)據(jù)倉庫模型設(shè)計(jì)3.4數(shù)據(jù)倉庫的邏輯模型設(shè)計(jì)五、去除純操作型數(shù)據(jù)在將業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)抽取到細(xì)節(jié)數(shù)據(jù)表或者綜合數(shù)據(jù)表時(shí),需要去除純操作型數(shù)據(jù)。純操作型數(shù)據(jù)就是與分析毫無關(guān)系的數(shù)據(jù),這些數(shù)據(jù)字段通常是為了方便業(yè)務(wù)系統(tǒng)的運(yùn)營而設(shè)立的,它們對(duì)于面向分析的數(shù)據(jù)倉庫系統(tǒng)沒有實(shí)際的意義。第三章數(shù)據(jù)倉庫模型設(shè)計(jì)3.4數(shù)據(jù)倉庫的邏輯模型設(shè)計(jì)六、合理的表劃分通過增加合適的時(shí)間字段、去除純操作型數(shù)據(jù),我們的模型更進(jìn)了一步。但是在實(shí)際的系統(tǒng)中,一張表的字段數(shù)目常常很多。如果直接存放字段數(shù)目很大的表,可能存在下列的問題:(1)從數(shù)據(jù)的存儲(chǔ)角度上看;(2)從數(shù)據(jù)的訪問角度看。第三章數(shù)據(jù)倉庫模型設(shè)計(jì)3.4數(shù)據(jù)倉庫的邏輯模型設(shè)計(jì)六、合理的表劃分基于這樣的原因,我們需要對(duì)表中的內(nèi)容進(jìn)行合理的劃分。劃分的方法可以按照數(shù)據(jù)的變化情況進(jìn)行、也可以按照業(yè)務(wù)規(guī)則進(jìn)行。(1)按照數(shù)據(jù)的穩(wěn)定性對(duì)表進(jìn)行劃分。第三章數(shù)據(jù)倉庫模型設(shè)計(jì)3.4數(shù)據(jù)倉庫的邏輯模型設(shè)計(jì)六、合理的表劃分第三章數(shù)據(jù)倉庫模型設(shè)計(jì)3.4數(shù)據(jù)倉庫的邏輯模型設(shè)計(jì)六、合理的表劃分(2)按照業(yè)務(wù)規(guī)則進(jìn)行表劃分W.H.Inmon在《BuildingtheDataWarehouse》中提出了DIS(dataitemset)的設(shè)計(jì)方法,這種方法是將數(shù)據(jù)按照業(yè)務(wù)規(guī)則對(duì)共有數(shù)據(jù)和專有數(shù)據(jù)進(jìn)行劃分。DIS模型由初始數(shù)據(jù)、二次數(shù)據(jù)、連接數(shù)據(jù)以及不同數(shù)據(jù)“類型”組成.第三章數(shù)據(jù)倉庫模型設(shè)計(jì)3.4數(shù)據(jù)倉庫的邏輯模型設(shè)計(jì)六、合理的表劃分第三章數(shù)據(jù)倉庫模型設(shè)計(jì)3.4數(shù)據(jù)倉庫的邏輯模型設(shè)計(jì)六、合理的表劃分例:如圖所示的是一個(gè)商品交易的DIS模型。將交易分成現(xiàn)金、信用卡、支票以及是否大客戶等類型。第三章數(shù)據(jù)倉庫模型設(shè)計(jì)3.4數(shù)據(jù)倉庫的邏輯模型設(shè)計(jì)六、合理的表劃分對(duì)于業(yè)務(wù)系統(tǒng)中記載的:“345號(hào)顧客非大客戶

時(shí)間:2001/l/l14:03購買商品:1付款方式:小量

現(xiàn)金”“368號(hào)顧客大客戶

時(shí)間:200l/l/215:53購買商品:1付款方式:批量

支票”兩條記錄,映射在DIS模型中,將生成6條記錄。(1)初始數(shù)據(jù)表中的兩條記錄用于記載僅出現(xiàn)一次的信息,比如交易號(hào)、商品號(hào)、顧客號(hào)、支付類型、是否批量等信息。

(2)在現(xiàn)金表中出現(xiàn)一條記錄記載345號(hào)顧客的購買行為;在小量表中出現(xiàn)一條記錄記載345號(hào)顧客的購買行為。在支票表中出現(xiàn)一條記錄記載368號(hào)顧客的購買行為;在批量表中出現(xiàn)一條記錄記載368號(hào)顧客的購買行為第三章數(shù)據(jù)倉庫模型設(shè)計(jì)3.4數(shù)據(jù)倉庫的邏輯模型設(shè)計(jì)六、合理的表劃分第三章數(shù)據(jù)倉庫模型設(shè)計(jì)3.4數(shù)據(jù)倉庫的邏輯模型設(shè)計(jì)七、定義關(guān)系模式第三章數(shù)據(jù)倉庫模型設(shè)計(jì)3.4數(shù)據(jù)倉庫的邏輯模型設(shè)計(jì)八、增加導(dǎo)出字段

導(dǎo)出數(shù)據(jù)本身是冗余的,但是生成導(dǎo)出數(shù)據(jù)可以方便數(shù)據(jù)以后的使用。下圖給出了供應(yīng)關(guān)系按月綜合表增加導(dǎo)出數(shù)據(jù)的例子。在按月綜合表中,增加了“平均價(jià)格”、“供貨總價(jià)值”、“供應(yīng)總數(shù)量”等導(dǎo)出字段。第三章數(shù)據(jù)倉庫模型設(shè)計(jì)3.4數(shù)據(jù)倉庫的邏輯模型設(shè)計(jì)九、記錄系統(tǒng)的定義

記錄系統(tǒng)的定義就是指明數(shù)據(jù)倉庫中關(guān)系表各個(gè)字段來源于哪個(gè)業(yè)務(wù)數(shù)據(jù)庫的哪張表的哪個(gè)字段。從數(shù)據(jù)庫系統(tǒng)到數(shù)據(jù)倉庫關(guān)系模式的記錄系統(tǒng)定義:第三章數(shù)據(jù)倉庫模型設(shè)計(jì)3.4數(shù)據(jù)倉庫的邏輯模型設(shè)計(jì)九、記錄系統(tǒng)的定義綜合數(shù)據(jù)表也需要進(jìn)行類似的工作。但是綜合數(shù)據(jù)表的數(shù)據(jù)是從細(xì)節(jié)數(shù)據(jù)表中抽取,而不是從業(yè)務(wù)數(shù)據(jù)庫中抽取。對(duì)于綜合數(shù)據(jù)表中的導(dǎo)出字段,我們需要指出它同細(xì)節(jié)數(shù)據(jù)表字段的對(duì)應(yīng)關(guān)系和計(jì)算方法。第三章數(shù)據(jù)倉庫模型設(shè)計(jì)3.5數(shù)據(jù)倉庫的物理模型設(shè)計(jì)在數(shù)據(jù)倉庫的物理設(shè)計(jì)中,主要解決如下問題:(1)確定數(shù)據(jù)的存儲(chǔ)結(jié)構(gòu)(2)確定數(shù)據(jù)的索引策略(3)確定數(shù)據(jù)的存儲(chǔ)策略(4)存儲(chǔ)分配優(yōu)化。第三章數(shù)據(jù)倉庫模型設(shè)計(jì)3.5數(shù)據(jù)倉庫的物理模型設(shè)計(jì)一、確定數(shù)據(jù)的存儲(chǔ)結(jié)構(gòu)數(shù)據(jù)倉庫中包含巨量數(shù)據(jù),為了提高數(shù)據(jù)的訪問效率和可靠性,必須認(rèn)真選擇數(shù)據(jù)的存儲(chǔ)結(jié)構(gòu)。對(duì)于數(shù)據(jù)存儲(chǔ)問題的解決,有兩種可選的方式:分布存儲(chǔ)方式和集中存儲(chǔ)方式。第三章數(shù)據(jù)倉庫模型設(shè)計(jì)3.5數(shù)據(jù)倉庫的物理模型設(shè)計(jì)一、確定數(shù)據(jù)的存儲(chǔ)結(jié)構(gòu)數(shù)據(jù)分布式存儲(chǔ)方式:數(shù)據(jù)分布式存儲(chǔ)是采用磁盤陣列在多個(gè)節(jié)點(diǎn)間分布的方式來存儲(chǔ)數(shù)據(jù)。集中式數(shù)據(jù)存儲(chǔ)方式:數(shù)據(jù)集中存儲(chǔ)是將現(xiàn)有的SAN或NAS系統(tǒng)作為服務(wù)器的存儲(chǔ)部分。第三章數(shù)據(jù)倉庫模型設(shè)計(jì)3.5數(shù)據(jù)倉庫的物理模型設(shè)計(jì)二、確定索引策略在數(shù)據(jù)倉庫中由于數(shù)據(jù)量很大,需要對(duì)數(shù)據(jù)的存取路徑進(jìn)行仔細(xì)設(shè)計(jì)和選擇,建立專用的復(fù)雜的索引,以獲得最高的存取效率。在數(shù)據(jù)倉庫中的數(shù)據(jù)是不常更新的,即每個(gè)數(shù)據(jù)存儲(chǔ)是穩(wěn)定的。索引一旦建立幾乎不需要再維護(hù)。

下面介紹幾種索引技術(shù)。1.B—Tree索引

傳統(tǒng)的數(shù)據(jù)庫采用B-Tree索引,它是一個(gè)高效的索引,如圖所示。第三章數(shù)據(jù)倉庫模型設(shè)計(jì)3.5數(shù)據(jù)倉庫的物理模型設(shè)計(jì)二、確定索引策略1.B—Tree索引第三章數(shù)據(jù)倉庫模型設(shè)計(jì)3.5數(shù)據(jù)倉庫的物理模型設(shè)計(jì)二、確定索引策略B—Tree就具有一定的局限性,它存在以下的缺點(diǎn):(1)B—Tree通常要求被索引的字段具有很好的選擇性。(2)

B—Tree索引對(duì)于從大表中選擇少數(shù)的幾個(gè)數(shù)據(jù)記錄的查詢工作是非常適合。(3)B—Tree的快速索引性能實(shí)際上是通過較大的代價(jià)換取的。2.位索引技術(shù)第三章數(shù)據(jù)倉庫模型設(shè)計(jì)3.5數(shù)據(jù)倉庫的物理模型設(shè)計(jì)二、確定索引策略

Sybase公司推出的數(shù)據(jù)倉庫SybaseIQ,采用位索引技術(shù),它在處理復(fù)雜的查詢時(shí),比傳統(tǒng)數(shù)據(jù)庫索引B-Tree有了突破。(1)位索引技術(shù)位索引技術(shù)在存儲(chǔ)數(shù)據(jù)的方式上與傳統(tǒng)的關(guān)系數(shù)據(jù)庫有所不同,它不是以“行記錄”而是按“列”為單位存儲(chǔ)數(shù)據(jù),即對(duì)數(shù)據(jù)進(jìn)行垂直分割。對(duì)于每一個(gè)記錄的字段滿足查詢條件的真假值用1或0的方式表示,或者用字段中不同取值來表示。2.位索引技術(shù)第三章數(shù)據(jù)倉庫模型設(shè)計(jì)3.5數(shù)據(jù)倉庫的物理模型設(shè)計(jì)二、確定索引策略

一般DSS查詢往往僅涉及大量數(shù)據(jù)記錄中的少數(shù)列,因而不需要訪問原始數(shù)據(jù)就能快速獲得查詢結(jié)果。顯然,利用字段的不同取值也能快速進(jìn)行數(shù)據(jù)聚類、分組、求最大值、求最小值及求平均值等。

對(duì)于高度可選擇的數(shù)(稱高基數(shù)),如姓名或地址等可能有數(shù)萬個(gè)選擇值,用(1,0)真假值來索引是不合適的。2.位索引技術(shù)第三章數(shù)據(jù)倉庫模型設(shè)計(jì)3

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論