第二章數(shù)據(jù)倉庫的基本概念_第1頁
第二章數(shù)據(jù)倉庫的基本概念_第2頁
第二章數(shù)據(jù)倉庫的基本概念_第3頁
第二章數(shù)據(jù)倉庫的基本概念_第4頁
第二章數(shù)據(jù)倉庫的基本概念_第5頁
已閱讀5頁,還剩133頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、主講:王名揚(yáng)主講:王名揚(yáng)信息學(xué)院信息學(xué)院數(shù)據(jù)倉庫與數(shù)據(jù)挖掘數(shù)據(jù)倉庫與數(shù)據(jù)挖掘引引 言言 近年來,由于計(jì)算機(jī)和網(wǎng)絡(luò)的應(yīng)用,計(jì)算開始向兩個(gè)不同的方向拓展:u 廣度計(jì)算廣度計(jì)算:將計(jì)算機(jī)的應(yīng)用范圍擴(kuò)大,實(shí)現(xiàn)廣泛的數(shù)據(jù)交流,如互聯(lián)網(wǎng)的出現(xiàn);u 深度計(jì)算深度計(jì)算:希望計(jì)算機(jī)參與更多的數(shù)據(jù)分析與決策制定事務(wù)型(操作型)數(shù)據(jù)處理:數(shù)據(jù)庫分析型數(shù)據(jù)處理:數(shù)據(jù)倉庫u 數(shù)據(jù)處理的環(huán)境由原來的以單一數(shù)據(jù)庫為中心的數(shù)據(jù)環(huán)境發(fā)展為以數(shù)據(jù)倉庫為基礎(chǔ)的體系化環(huán)境。數(shù)據(jù)倉庫的基本概念數(shù)據(jù)倉庫的基本概念第第2章章 數(shù)據(jù)倉庫的基本概念數(shù)據(jù)倉庫的基本概念2.1 什么是數(shù)據(jù)倉庫2.2 數(shù)據(jù)立方體2.3 數(shù)據(jù)倉庫的三級模型2.4 數(shù)據(jù)

2、倉庫的設(shè)計(jì)2.5 提高數(shù)據(jù)倉庫設(shè)計(jì)性能的幾種方法2.1 什么是數(shù)據(jù)倉庫什么是數(shù)據(jù)倉庫1. 1. 什么是數(shù)據(jù)倉庫?什么是數(shù)據(jù)倉庫?數(shù)據(jù)倉庫(數(shù)據(jù)倉庫(Data Warehouse)u 數(shù)據(jù)倉庫是為構(gòu)建分析型數(shù)據(jù)處理環(huán)境而出現(xiàn)的一種數(shù)據(jù)存儲(chǔ)和組織技術(shù)。用來保存從多個(gè)數(shù)據(jù)庫或其它信息源選取的數(shù)據(jù),并為上層應(yīng)用提供統(tǒng)一用戶接口,完成數(shù)據(jù)查詢和分析。u 在數(shù)據(jù)倉庫的發(fā)展過程中,許多人作出重要貢獻(xiàn): Devlin & Murphy(1988):發(fā)表關(guān)于數(shù)據(jù)倉庫論述的最早文章; William H.Inmon(1993):Building the Data Warehouse,首次系統(tǒng)闡述數(shù)據(jù)倉庫的

3、思想、理論,被尊為“數(shù)據(jù)倉庫之父數(shù)據(jù)倉庫之父”。數(shù)據(jù)倉庫(數(shù)據(jù)倉庫(Data Warehouse)u數(shù)據(jù)倉庫的定義很多,但卻很難有一種嚴(yán)格的定義數(shù)據(jù)倉庫的定義很多,但卻很難有一種嚴(yán)格的定義: 它是一個(gè)提供決策支持功能的數(shù)據(jù)庫,它與公司的操作數(shù)據(jù)庫分開維護(hù)。 為統(tǒng)一的歷史數(shù)據(jù)分析提供堅(jiān)實(shí)的平臺(tái),對信息處理提供支持。u數(shù)據(jù)倉庫是一個(gè)面向主題的、集成的、隨時(shí)間而變化的、不容易丟失的數(shù)據(jù)集合,支持管理部門的決策過程.-W.H.Inmon數(shù)據(jù)倉庫回答的問題數(shù)據(jù)倉庫將為高層管理人員的科學(xué)決策提供可靠依據(jù)。 去年各個(gè)地區(qū)各個(gè)產(chǎn)品的銷售量和銷售額? 10年以來各廠商每季度的銷售額占有比例的變化情況? 如果某種

4、產(chǎn)品的銷售價(jià)格打9折,利潤將發(fā)生怎樣的變化?今年銷售量下降的主要因素(時(shí)間、地區(qū)、部門、商品)是什么?數(shù)據(jù)倉庫的作用兩個(gè)主要作用: 存儲(chǔ)經(jīng)過加工處理的決策需要的數(shù)據(jù) 存儲(chǔ)數(shù)據(jù)的一種形式 加工和集成后的再存儲(chǔ) 查詢和決策分析的依據(jù) 為數(shù)據(jù)驅(qū)動(dòng)型的決策支持提供數(shù)據(jù)基礎(chǔ)數(shù)據(jù)倉庫的關(guān)鍵特征數(shù)據(jù)倉庫的關(guān)鍵特征關(guān)鍵特征:關(guān)鍵特征:u 面向主題;u 集成的;u 隨時(shí)間而變化的(時(shí)變的);u 不容易丟失的(非易失)。1)面向主題在較高層次上對分析對象的數(shù)據(jù)進(jìn)行一個(gè)完整、一致的描述,能完整、統(tǒng)一管理各個(gè)分析對象所涉及的企業(yè)各項(xiàng)數(shù)據(jù)以及數(shù)據(jù)之間的聯(lián)系。 高層次:很高的數(shù)據(jù)抽象級別,如整個(gè)企業(yè)、組織161)面向主題

5、)面向主題u 面向主題,是數(shù)據(jù)倉庫顯著區(qū)別于關(guān)系數(shù)據(jù)庫系統(tǒng)的一個(gè)特征;u 給出數(shù)據(jù)倉庫中數(shù)據(jù)組織的基本原則,數(shù)據(jù)倉庫中所有數(shù)據(jù)都是圍繞某一主題組織、展開的;主題是一個(gè)在較高層次將數(shù)據(jù)歸類的標(biāo)準(zhǔn),每一個(gè)主題基本對應(yīng)一個(gè)宏觀的領(lǐng)域。如,一個(gè)生產(chǎn)企業(yè)的數(shù)據(jù)倉庫所組織的主題可能是產(chǎn)品訂貨分析和貨物發(fā)運(yùn)分析,而按應(yīng)用組織的話可能為財(cái)務(wù)子系統(tǒng)、供應(yīng)子系統(tǒng)、銷售子系統(tǒng)、人力資源子系統(tǒng)和生產(chǎn)調(diào)度子系統(tǒng)等。 典型的主題領(lǐng)域:客戶、產(chǎn)品、交易、賬目等。171)面向主題)面向主題u關(guān)注決策者的數(shù)據(jù)建模與分析,而不是集中于組織機(jī)構(gòu)的日常操作和事務(wù)處理。181)面向主題)面向主題u 但數(shù)據(jù)的產(chǎn)生都是基于應(yīng)用而產(chǎn)生,因此

6、數(shù)據(jù)在進(jìn)入數(shù)據(jù)倉庫之前,必然要經(jīng)過加工和集成,將原始數(shù)據(jù)結(jié)構(gòu)做一個(gè)從面向應(yīng)用到面向主題面向應(yīng)用到面向主題的大轉(zhuǎn)變。20【例】一家采用“會(huì)員制”經(jīng)營方式的商場,按業(yè)務(wù)建立起若干子系統(tǒng),并按業(yè)務(wù)處理要求建立各自數(shù)據(jù)庫模式:采購子系統(tǒng):訂單(訂單號(hào),供應(yīng)商號(hào),總金額,日期)訂單細(xì)則(訂單號(hào),商品號(hào),類別,單價(jià),數(shù)量)供應(yīng)商(供應(yīng)商號(hào),供應(yīng)商名,地址,電話)銷售子系統(tǒng):顧客(顧客號(hào),姓名,性別,年齡,文化程度,地址,電話)銷售(員工號(hào),顧客號(hào),商品號(hào),數(shù)量,單價(jià),日期)21人事管理子系統(tǒng):員工(員工號(hào),姓名,性別,年齡,文化程度,部門號(hào))部門(部門號(hào),部門名稱,部門主管,電話)庫存管理子系統(tǒng):領(lǐng)料單(

7、領(lǐng)料單號(hào),領(lǐng)料人,商品號(hào),數(shù)量,日期)進(jìn)料單(進(jìn)料單號(hào),訂單號(hào),進(jìn)料人,收料人,日期)庫存(商品號(hào),庫房號(hào),庫存量,日期)庫房(庫房號(hào),倉庫管理員,地點(diǎn),庫存商品描述)22傳統(tǒng)的面向應(yīng)用進(jìn)行數(shù)據(jù)組織方式的特征為:v重點(diǎn)在“數(shù)據(jù)”和“處理”;v通常要反映一個(gè)企業(yè)內(nèi)數(shù)據(jù)的動(dòng)態(tài)特征;v所生成的各項(xiàng)數(shù)據(jù)庫模式與企業(yè)實(shí)際的業(yè)務(wù)處理流程中所涉及的單據(jù)及文檔,有很好的對應(yīng)關(guān)系。23面向應(yīng)用到面向主題的轉(zhuǎn)變面向應(yīng)用到面向主題的轉(zhuǎn)變: 面向主題的數(shù)據(jù)組織方式應(yīng)分為兩個(gè)步驟: 抽取主題 確定每個(gè)主題所包含的數(shù)據(jù)內(nèi)容仍以商場為例,它所應(yīng)有的主題包括:商品、供應(yīng)商、顧客。每個(gè)主題有各自獨(dú)立的邏輯內(nèi)涵,對應(yīng)一個(gè)分析對象

8、。24v 商品:商品固有信息:商品號(hào),商品名,類別,顏色等商品采購信息:商品號(hào),供應(yīng)商號(hào),供應(yīng)價(jià),供 應(yīng)日期,供應(yīng)量等商品銷售信息:商品號(hào),顧客號(hào),售價(jià),銷售日 期,銷售量等商品庫存信息:商品號(hào),庫房號(hào),庫存量,日期 等25v 供應(yīng)商:供應(yīng)商固有信息:供應(yīng)商號(hào),供應(yīng)商名,地址, 電話等。供應(yīng)商品信息:供應(yīng)商號(hào),供應(yīng)價(jià),供應(yīng)日期,供應(yīng)量等。v 顧客:顧客固有信息:顧客號(hào),顧客名,性別,年齡,文化程度,住址,電話等。顧客購物信息:顧客號(hào),商品號(hào),售價(jià),購買日期,購買量等。26q 從面向應(yīng)用 面向主題丟棄了原來不必要,不適合分析的信息。將分散在各子系統(tǒng)中的有關(guān)主題的信息集成,形成關(guān)于商品的一致信息。

9、不同主題之間也有重疊的內(nèi)容,但只是邏輯上的重疊,細(xì)節(jié)級上的重疊, 另外主題間并不是兩兩重疊。供應(yīng)商供應(yīng)商顧顧 客客商商 品品1)面向主題)面向主題2)集成性)集成性u 一個(gè)數(shù)據(jù)倉庫是通過集成多個(gè)異種數(shù)據(jù)源來構(gòu)造的;關(guān)系數(shù)據(jù)庫,一般文件,聯(lián)機(jī)事務(wù)處理記錄u 數(shù)據(jù)倉庫中的綜合數(shù)據(jù)不能從原有的數(shù)據(jù)庫系統(tǒng)直接得到,需使用數(shù)據(jù)清理和數(shù)據(jù)集成技術(shù)對數(shù)據(jù)進(jìn)行處理:統(tǒng)一源數(shù)據(jù)中所有矛盾之處(命名約定、編碼結(jié)構(gòu)、屬性度量等)進(jìn)行數(shù)據(jù)綜合和計(jì)算主要做兩個(gè)工作:293)數(shù)據(jù)不易丟失(穩(wěn)定的)數(shù)據(jù)不易丟失(穩(wěn)定的)u 盡管數(shù)據(jù)倉庫中的數(shù)據(jù)來自于操作數(shù)據(jù)庫,但他們卻是在物理上分離保存的操作數(shù)據(jù)庫的更新操作不會(huì)出現(xiàn)在數(shù)據(jù)

10、倉庫環(huán)境下。u 只進(jìn)行兩種數(shù)據(jù)訪問: 數(shù)據(jù)的初始裝載; 查詢操作。314)隨時(shí)間而變化的(時(shí)變的)隨時(shí)間而變化的(時(shí)變的)u 數(shù)據(jù)倉庫從歷史的角度來提供信息:時(shí)間范圍比操作數(shù)時(shí)間范圍比操作數(shù)據(jù)庫系統(tǒng)要長的多據(jù)庫系統(tǒng)要長的多操作數(shù)據(jù)庫系統(tǒng): 主要保存當(dāng)前數(shù)據(jù);數(shù)據(jù)倉庫:從歷史的角度提供信息(比如過去 5-10 年)u 數(shù)據(jù)倉庫中的每一個(gè)關(guān)鍵結(jié)構(gòu)都隱式或顯式地包含時(shí)間元素,時(shí)間維是數(shù)據(jù)倉庫中一個(gè)非常重要的維度;u 而操作數(shù)據(jù)庫中的關(guān)鍵結(jié)構(gòu)可能就不包括時(shí)間元素。2. 2. 為什么要建立數(shù)據(jù)倉庫?為什么要建立數(shù)據(jù)倉庫?35回顧:數(shù)據(jù)組織的發(fā)展過程回顧:數(shù)據(jù)組織的發(fā)展過程總起來講,數(shù)據(jù)組織的發(fā)展經(jīng)歷了四

11、個(gè)階段:總起來講,數(shù)據(jù)組織的發(fā)展經(jīng)歷了四個(gè)階段:p 人工管理階段(人工管理階段(1946年年20世紀(jì)世紀(jì)50年代中期之前)年代中期之前) p 文件系統(tǒng)管理階段(文件系統(tǒng)管理階段(20世紀(jì)世紀(jì)50年代后期到年代后期到60年代中期)年代中期) p 數(shù)據(jù)庫階段(數(shù)據(jù)庫階段(20世紀(jì)世紀(jì)60年代后期年代后期- 80年代中期之前)年代中期之前) p 高級數(shù)據(jù)庫階段(高級數(shù)據(jù)庫階段(20世紀(jì)世紀(jì)80年代中期)年代中期) 36數(shù)據(jù)程序無獨(dú)立性數(shù)據(jù)程序無獨(dú)立性數(shù)據(jù)不能長期保存數(shù)據(jù)不能長期保存數(shù)據(jù)無法共享數(shù)據(jù)無法共享人工管理階段人工管理階段(1)人工管理階段 37文件管理階段文件管理階段數(shù)據(jù)程序分開存儲(chǔ)數(shù)據(jù)程序

12、分開存儲(chǔ)數(shù)據(jù)程序相互依賴數(shù)據(jù)程序相互依賴數(shù)據(jù)冗余度大數(shù)據(jù)冗余度大數(shù)據(jù)不一致性數(shù)據(jù)不一致性 (2)文件管理階段38數(shù)據(jù)程序完全獨(dú)立數(shù)據(jù)程序完全獨(dú)立數(shù)據(jù)可以共享數(shù)據(jù)可以共享數(shù)據(jù)模型表示數(shù)據(jù)結(jié)構(gòu)數(shù)據(jù)模型表示數(shù)據(jù)結(jié)構(gòu)數(shù)據(jù)庫階段數(shù)據(jù)庫階段(3)數(shù)據(jù)庫階段 39分布式數(shù)據(jù)庫分布式數(shù)據(jù)庫多媒體數(shù)據(jù)庫多媒體數(shù)據(jù)庫數(shù)據(jù)倉庫數(shù)據(jù)倉庫高級數(shù)據(jù)庫階段高級數(shù)據(jù)庫階段(3)數(shù)據(jù)庫階段 40從數(shù)據(jù)庫到數(shù)據(jù)倉庫管理信息的處理類型:管理信息的處理類型:(1)事務(wù)型處理:)事務(wù)型處理:業(yè)務(wù)操作處理,用來協(xié)助企業(yè)對相應(yīng)事件或事務(wù)的日常商務(wù)活動(dòng)進(jìn)行處理。是事件驅(qū)動(dòng)、面向應(yīng)用的,通常是對一個(gè)/組記錄的增、刪、改以及簡單查詢等,以滿足組

13、織特定的日常管理需要(數(shù)據(jù)庫數(shù)據(jù)庫);(2)分析型處理:)分析型處理:用于管理人員的決策分析,例如DSS、 EIS和多維數(shù)據(jù)分析等。幫助決策者分析數(shù)據(jù)以察看趨向、判斷問題。分析型處理經(jīng)常要訪問大量的歷史數(shù)據(jù),支持復(fù)雜的查詢分析(數(shù)據(jù)倉庫數(shù)據(jù)倉庫)。事務(wù)型處理事務(wù)型處理分析型處理分析型處理細(xì)節(jié)的綜合的,提煉的當(dāng)前的代表過去的數(shù)據(jù)可更新的不可更新,只讀的事務(wù)驅(qū)動(dòng)分析驅(qū)動(dòng)面向應(yīng)用面向分析一次操作數(shù)據(jù)量小一次操作數(shù)據(jù)量大支持日常操作支持管理需求二者的區(qū)別二者的區(qū)別42事務(wù)型與分析型環(huán)境的分離事務(wù)型與分析型環(huán)境的分離 要擺脫傳統(tǒng)數(shù)據(jù)庫面臨的困境,必須將用于事務(wù)處理的數(shù)據(jù)環(huán)境和用于數(shù)據(jù)分析的數(shù)據(jù)環(huán)境分離:

14、(1)事務(wù)型處理:)事務(wù)型處理:以傳統(tǒng)數(shù)據(jù)庫為中心數(shù)據(jù)庫為中心進(jìn)行企業(yè)的日常業(yè)務(wù)處理,其使用人員通常是企業(yè)的具體操作人員;處理企業(yè)業(yè)務(wù)的細(xì)節(jié)細(xì)節(jié)信息,以實(shí)現(xiàn)企業(yè)的業(yè)務(wù)運(yùn)營;(2)分析型處理:)分析型處理:分析數(shù)據(jù)背后的關(guān)聯(lián)和規(guī)律,為企業(yè)決策提供可靠依據(jù),其使用人員通常是企業(yè)的中高層管理者,或從事數(shù)據(jù)分析的工程師;處理企業(yè)的宏觀宏觀信息,而非具體細(xì)節(jié),以為企業(yè)的決策者提供支持信息。43分離示意圖分離示意圖44轉(zhuǎn)換同時(shí)進(jìn)行的集成轉(zhuǎn)換同時(shí)進(jìn)行的集成3. 3. 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的關(guān)系?數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的關(guān)系?u 數(shù)據(jù)倉庫數(shù)據(jù)倉庫:是一種是一種存儲(chǔ)存儲(chǔ)技術(shù),它能適應(yīng)于不同技術(shù),它能適應(yīng)于不同用戶對不

15、同決策需要提供所需的數(shù)據(jù)和信息用戶對不同決策需要提供所需的數(shù)據(jù)和信息。u數(shù)據(jù)挖掘數(shù)據(jù)挖掘:是一種是一種分析分析技術(shù),研究各種方法和技術(shù),研究各種方法和技術(shù),從大量的數(shù)據(jù)中挖掘出有用的信息和知技術(shù),從大量的數(shù)據(jù)中挖掘出有用的信息和知識(shí)。識(shí)。二者的區(qū)別二者的區(qū)別47u 成功的數(shù)據(jù)挖掘的關(guān)鍵之一是通過訪問正確的、完整的和集成的數(shù)據(jù),以進(jìn)行深層次的分析,而這正是數(shù)據(jù)倉庫所能提供的;u 數(shù)據(jù)倉庫不僅是集成數(shù)據(jù)的一種方式,而且為數(shù)據(jù)挖掘提供了一個(gè)極佳的操作平臺(tái);u 如果數(shù)據(jù)倉庫與數(shù)據(jù)挖掘能實(shí)現(xiàn)有效的聯(lián)結(jié),將給數(shù)據(jù)挖掘帶來各種便利和功能。二者的聯(lián)系二者的聯(lián)系48 首先,大多數(shù)數(shù)據(jù)挖掘工具要在集成的、一致的和

16、經(jīng)過清理的數(shù)據(jù)上進(jìn)行挖掘。需要在挖掘過程中有個(gè)費(fèi)用昂貴的數(shù)據(jù)清理、數(shù)據(jù)變換和數(shù)據(jù)集成過程,而已經(jīng)完成這一系列操作的數(shù)據(jù)倉庫,完全能為數(shù)據(jù)挖掘提供需要的挖掘數(shù)據(jù);二者的聯(lián)系二者的聯(lián)系49 其次,在數(shù)據(jù)倉庫的構(gòu)造過程中,已經(jīng)圍繞數(shù)據(jù)倉庫組建了包括數(shù)據(jù)存取、數(shù)據(jù)集成、數(shù)據(jù)合并、異種數(shù)據(jù)庫轉(zhuǎn)換、ODBC/OLE DB的鏈接、Web訪問和服務(wù)工具以及報(bào)表與OLAP分析工具等全面的數(shù)據(jù)處理和數(shù)據(jù)分析基礎(chǔ)設(shè)施,而這為數(shù)據(jù)挖掘的開展提供了重要的基礎(chǔ)設(shè)施;二者的聯(lián)系二者的聯(lián)系50 此外,在數(shù)據(jù)挖掘過程中,常需要進(jìn)行探測式的數(shù)據(jù)分析,選擇相關(guān)數(shù)據(jù),對各種數(shù)據(jù)選擇不同的粒度,以不同的形式提供知識(shí)和結(jié)果。而數(shù)據(jù)倉庫中

17、的OLAP完全可為數(shù)據(jù)挖掘提供有關(guān)的數(shù)據(jù)操作支持。u 因此,數(shù)據(jù)倉庫促進(jìn)了數(shù)據(jù)挖掘的發(fā)展,而數(shù)據(jù)挖掘可看作聯(lián)機(jī)分析處理的高級階段。二者的聯(lián)系二者的聯(lián)系51注意:注意:數(shù)據(jù)倉庫并不是數(shù)據(jù)挖掘的必要條件:數(shù)據(jù)倉庫并不是數(shù)據(jù)挖掘的必要條件: 數(shù)據(jù)挖掘不一定必須建立在一個(gè)數(shù)據(jù)倉庫上,數(shù)據(jù)倉庫不是必要條件; 基于在開發(fā)數(shù)據(jù)倉庫過程中所進(jìn)行的數(shù)據(jù)集成、清洗和準(zhǔn)備,才使得數(shù)據(jù)倉庫對于數(shù)據(jù)挖掘有著重要的價(jià)值。數(shù)據(jù)挖掘: 數(shù)據(jù)庫中的知識(shí)挖掘(KDD) 數(shù)據(jù)挖掘知識(shí)挖掘的核心數(shù)據(jù)清洗數(shù)據(jù)清洗數(shù)據(jù)集成數(shù)據(jù)集成數(shù)據(jù)庫數(shù)據(jù)庫數(shù)據(jù)倉庫數(shù)據(jù)倉庫任務(wù)相關(guān)數(shù)據(jù)任務(wù)相關(guān)數(shù)據(jù)選擇選擇數(shù)據(jù)挖掘數(shù)據(jù)挖掘模式評估模式評估典型數(shù)據(jù)挖掘系統(tǒng)

18、的體系結(jié)構(gòu)2.2 數(shù)據(jù)立方體數(shù)據(jù)立方體55數(shù)據(jù)立方體數(shù)據(jù)立方體u 數(shù)據(jù)倉庫和OLAP工具是基于多維數(shù)據(jù)模型的。在多維數(shù)據(jù)模型中,數(shù)據(jù)以數(shù)據(jù)立方體數(shù)據(jù)立方體(data cube)的形式存在。u 如,某公司可能創(chuàng)建一個(gè)數(shù)據(jù)倉庫sales,記錄商店的銷售情況,且涉及time, item, location。則,典型的3-D數(shù)據(jù)立方體如圖:56數(shù)據(jù)立方體數(shù)據(jù)立方體u 盡管我們經(jīng)常把數(shù)據(jù)立方體看作3-D幾何結(jié)構(gòu),但實(shí)際上,在數(shù)據(jù)倉庫中,數(shù)據(jù)立方體是n-D的。 u先考察2-D立方體:二維的數(shù)據(jù)表二維的數(shù)據(jù)表。 如,如, 要觀察要觀察Allelectronics公公司銷售數(shù)據(jù)中司銷售數(shù)據(jù)中Vancouver

19、每季度銷售每季度銷售 的商品。這些數(shù)據(jù)就可用二維的數(shù)的商品。這些數(shù)據(jù)就可用二維的數(shù)據(jù)表表示。在此二維表中,據(jù)表表示。在此二維表中,Vancouver的銷售用維的銷售用維time和維和維item表示,表示,所顯示的事實(shí)或度量是所顯示的事實(shí)或度量是dollars-sold(單位:(單位:$1000)表表157u假定想根據(jù)假定想根據(jù)time, item和和location觀察數(shù)據(jù),其中觀察數(shù)據(jù),其中l(wèi)ocation是是城市城市Chicago, New York和和Vancouver。則此。則此3-D的立方體可的立方體可以以以以2-D數(shù)據(jù)表的序列來表示。數(shù)據(jù)表的序列來表示。表表258u當(dāng)然,我們也可直

20、接用當(dāng)然,我們也可直接用3-D的立方體的形式來表示這些數(shù)據(jù)。的立方體的形式來表示這些數(shù)據(jù)。圖圖159u假定增加一維,如假定增加一維,如supplier來觀察銷售數(shù)據(jù),則此時(shí)數(shù)據(jù)來觀察銷售數(shù)據(jù),則此時(shí)數(shù)據(jù)立方體變成立方體變成4維。觀察維。觀察4-D事物非常麻煩,但我們可以將其看事物非常麻煩,但我們可以將其看作作3-D立方體的序列。立方體的序列。 維time, item, location, supplier;度量為dollars-sold (單位:$1000)圖圖260數(shù)據(jù)立方體數(shù)據(jù)立方體u多維數(shù)據(jù)模型為不同角度上的數(shù)據(jù)建模和觀察提供了一個(gè)多維數(shù)據(jù)模型為不同角度上的數(shù)據(jù)建模和觀察提供了一個(gè)良好的

21、基礎(chǔ)。良好的基礎(chǔ)。u 那么,在數(shù)據(jù)倉庫中,如何通過數(shù)據(jù)立方體來體現(xiàn)數(shù)據(jù)那么,在數(shù)據(jù)倉庫中,如何通過數(shù)據(jù)立方體來體現(xiàn)數(shù)據(jù)倉庫的不同的粒度,及數(shù)據(jù)倉庫的數(shù)據(jù)組織方式的呢?倉庫的不同的粒度,及數(shù)據(jù)倉庫的數(shù)據(jù)組織方式的呢? “概念分層概念分層”的概念;的概念;“方體方體”的概念。的概念。61“概念分層概念分層”u在數(shù)據(jù)倉庫中,一個(gè)概念分層(在數(shù)據(jù)倉庫中,一個(gè)概念分層(concept hierarchy)定義一)定義一個(gè)映射序列,將低層概念映射到更一般的高層概念。個(gè)映射序列,將低層概念映射到更一般的高層概念。u 對于一個(gè)給定的屬性或維,根據(jù)不同的用戶視圖,可能有對于一個(gè)給定的屬性或維,根據(jù)不同的用戶視圖

22、,可能有多個(gè)概念分層:多個(gè)概念分層:如,表示如,表示location的概念:杭州的概念:杭州浙江浙江中國中國亞洲;亞洲;u概念分層允許我們在各種抽象級審查和處理數(shù)據(jù)。概念分層允許我們在各種抽象級審查和處理數(shù)據(jù)。62Location維的一個(gè)概念分層維的一個(gè)概念分層allEuropeNorth_AmericaMexicoCanadaSpainGermanyVancouverM. WindL. Chan.TorontoFrankfurtcityallcontinentcountryProvince_or_state63“概念分層概念分層”u概念分層為不同級別上的數(shù)據(jù)匯總提供了一個(gè)良好的基礎(chǔ)概念分層為

23、不同級別上的數(shù)據(jù)匯總提供了一個(gè)良好的基礎(chǔ)u在多維數(shù)據(jù)模型中,通過在不同維上定義概念分層,使得用在多維數(shù)據(jù)模型中,通過在不同維上定義概念分層,使得用戶在不同的維上從不同的層次對數(shù)據(jù)進(jìn)行觀察成為可能。戶在不同的維上從不同的層次對數(shù)據(jù)進(jìn)行觀察成為可能。64方體的格方體的格u方體的格方體的格:給定一個(gè)維的集合,將在不同匯總級別上給出的數(shù)據(jù)立方體稱為方體的格。u每個(gè)方體的格方體的格都在不同的匯總級或不同的數(shù)據(jù)子集顯示數(shù)據(jù)。u 0維方體存放最高層的匯總,稱作頂點(diǎn)方體頂點(diǎn)方體(如總銷售dollars-sold);而存放最底層匯總的方體則稱為基本方體基本方體(如圖2所示的4維基本方體) 。數(shù)據(jù)立方體數(shù)據(jù)立方體

24、一個(gè)方體的格一個(gè)方體的格alltimeitemlocationsuppliertime,itemtime,locationtime,supplieritem,locationitem,supplierlocation,suppliertime,item,locationtime,item,suppliertime,location,supplieritem,location,suppliertime, item, location, supplier0-D(頂點(diǎn)頂點(diǎn)) 方體方體1-D方體方體2-D 方體方體3-D 方體方體4-D(基本基本) 方體方體66淺綠淺綠:不同產(chǎn)品不同地區(qū);深綠深綠:不

25、同產(chǎn)品淺黃淺黃:不同時(shí)間不同地區(qū);深黃深黃:不同時(shí)間;淺灰淺灰:不同國家;深藍(lán)深藍(lán):all2.3 數(shù)據(jù)倉庫的三級模型數(shù)據(jù)倉庫的三級模型68數(shù)據(jù)倉庫的三級模型數(shù)據(jù)倉庫的三級模型(1 1)概念模型:)概念模型:從客觀世界到主觀認(rèn)識(shí)的映射;從客觀世界到主觀認(rèn)識(shí)的映射; 首先將現(xiàn)實(shí)世界抽象為概念模型,然后再用適合計(jì)算機(jī)世界的首先將現(xiàn)實(shí)世界抽象為概念模型,然后再用適合計(jì)算機(jī)世界的模型和語言來描述。模型和語言來描述。(2 2)邏輯模型:)邏輯模型:邏輯模型描述了數(shù)據(jù)倉庫主題的邏輯實(shí)現(xiàn)邏輯模型描述了數(shù)據(jù)倉庫主題的邏輯實(shí)現(xiàn). .(3 3)物理模型)物理模型邏輯模型在數(shù)據(jù)倉庫中的實(shí)現(xiàn),如數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)、存儲(chǔ)策略、

26、邏輯模型在數(shù)據(jù)倉庫中的實(shí)現(xiàn),如數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)、存儲(chǔ)策略、索引策略、存儲(chǔ)分配優(yōu)化等。索引策略、存儲(chǔ)分配優(yōu)化等。1. 數(shù)據(jù)倉庫的概念模型?70概念模型的定義概念模型的定義概念模型:概念模型:u是數(shù)據(jù)倉庫的數(shù)據(jù)模型的第一層或最高層;是數(shù)據(jù)倉庫的數(shù)據(jù)模型的第一層或最高層;u由于大多數(shù)業(yè)務(wù)數(shù)據(jù)是多維的,因此不能用傳統(tǒng)的操作型由于大多數(shù)業(yè)務(wù)數(shù)據(jù)是多維的,因此不能用傳統(tǒng)的操作型數(shù)據(jù)庫的概念模型來表示多維數(shù)據(jù);數(shù)據(jù)庫的概念模型來表示多維數(shù)據(jù);u數(shù)據(jù)倉庫用數(shù)據(jù)倉庫用“信息包圖信息包圖”表示概念模型。表示概念模型。71信息包圖信息包圖信息包圖:信息包圖提供了分析人員思維模式的可視化表示。72示例示例例試畫出銷售分析

27、的信息包圖。解:首先根據(jù)銷售分析的實(shí)際需求,確定信息包圖的維度、類別、指標(biāo)與事實(shí):(1)維度:包括日期維、銷售地點(diǎn)維、銷售產(chǎn)品維、年齡組別維、性別維等。(2)類別:確定各維的詳細(xì)類別,如:日期維包括年(10)、季度(40)、月(120)等類別,括號(hào)中的數(shù)字分別指出各類別的數(shù)量;銷售地點(diǎn)維包括國家(15)、區(qū)域(45)、城市(280)、區(qū)(880)、商店(2000)等類別,括號(hào)中的數(shù)字同樣分別指出各類別的數(shù)量;類似地,可以確定銷售產(chǎn)品、年齡組別維、性別維等的詳細(xì)類別。(3)度量:確定用于進(jìn)行分析的數(shù)值化信息,包括預(yù)測銷售量、實(shí)際銷售量和預(yù)測偏差等。 73銷售分析的信息包圖2. 數(shù)據(jù)倉庫的邏輯模型

28、?75邏輯模型的定義邏輯模型的定義邏輯模型:邏輯模型:u 是數(shù)據(jù)倉庫數(shù)據(jù)模型的第二層;是數(shù)據(jù)倉庫數(shù)據(jù)模型的第二層;u 通常有三種邏輯模型表示法:通常有三種邏輯模型表示法:星型模型、雪花模型、事星型模型、雪花模型、事實(shí)星座模型實(shí)星座模型。76幾個(gè)基本概念幾個(gè)基本概念u 維和維表:維和維表:維:維:關(guān)于一個(gè)組織想要記錄的關(guān)于一個(gè)組織想要記錄的視角或觀點(diǎn)視角或觀點(diǎn)。如公司。如公司Allelectronics 創(chuàng)建數(shù)據(jù)庫創(chuàng)建數(shù)據(jù)庫sales,用以記錄商店的銷售,用以記錄商店的銷售,則可能涉及則可能涉及time , item , branch , location維。維。維表:維表:每個(gè)維都有一個(gè)表與之

29、相關(guān)聯(lián),稱為維表。如,每個(gè)維都有一個(gè)表與之相關(guān)聯(lián),稱為維表。如,item維表可以包含屬性維表可以包含屬性item-name, brand, type。77u 事實(shí)和事實(shí)表:事實(shí)和事實(shí)表:多維數(shù)據(jù)模型圍繞多維數(shù)據(jù)模型圍繞中心主題中心主題組織,該主題用事實(shí)表表組織,該主題用事實(shí)表表示;示;事實(shí):事實(shí):指的是一些指的是一些數(shù)字度量數(shù)字度量;如,;如,sales銷售數(shù)據(jù)倉庫銷售數(shù)據(jù)倉庫的事實(shí)包括的事實(shí)包括dollars-sold(銷售的款項(xiàng)),(銷售的款項(xiàng)),units-sold(銷銷售量售量),amount-budgeted。事實(shí)表:事實(shí)表:包括事實(shí)的名稱或度量,以及每個(gè)相關(guān)維表包括事實(shí)的名稱或度量

30、,以及每個(gè)相關(guān)維表的關(guān)鍵字。的關(guān)鍵字。幾個(gè)基本概念幾個(gè)基本概念1)星型模型)星型模型u 星型模式星型模式(Star schema)是最常見的一種模型是最常見的一種模型范式。這種模式的數(shù)據(jù)倉庫包括一個(gè)大的事實(shí)表和范式。這種模式的數(shù)據(jù)倉庫包括一個(gè)大的事實(shí)表和一組小的維表。一組小的維表。u 事實(shí)表在中心,周圍圍繞地連接著維表事實(shí)表在中心,周圍圍繞地連接著維表(每維一(每維一個(gè))。個(gè))。示例:示例: Allelectronics公司公司sales銷售數(shù)據(jù)倉庫的星型模式。銷售數(shù)據(jù)倉庫的星型模式。Sales有四個(gè)維:有四個(gè)維:time, item, branch, location。該模。該模式包含一個(gè)中

31、心事實(shí)表式包含一個(gè)中心事實(shí)表sales,該表包含四個(gè)維的關(guān),該表包含四個(gè)維的關(guān)鍵字和三個(gè)度量鍵字和三個(gè)度量dollars-sold, units-sold,avg-sales。80星型模型示例星型模型示例 time_keydayday_of_the_weekmonthquarteryearTime維表location_keystreetcitystate_or_provincecountryLocation維表Sales 事實(shí)表 time_key item_key branch_key location_key units_sold dollars_sold avg_salesMeasures

32、item_keyitem_namebrandtypesupplier_typeItem維表branch_keybranch_namebranch_typeBranch維表注意:注意:u在星型模型中,每維只用一個(gè)表表示,每個(gè)表包含一組每維只用一個(gè)表表示,每個(gè)表包含一組屬性屬性。如:location維表包含屬性集location-type, street, city, province_or_state, country。u但是,這一限制可能造成某些冗余某些冗余。如,“Vancouver”和“Victoria”都是加拿大不列顛哥倫比亞省的城市。Location維表中這些城市實(shí)體的屬性provinc

33、e_or_state, country中會(huì)有冗余。(2)雪花模型)雪花模型 雪花模型(Snowflake schema): 是星型模型的變種:u在雪花模型中,某些維表是規(guī)范化某些維表是規(guī)范化的,通過把數(shù)據(jù)進(jìn)一步分解到附加表中,以便減少冗余。u結(jié)果,模式圖形成類似于雪花雪花的形狀。示例:示例: Allelectronics公司sales銷售數(shù)據(jù)倉庫的雪花模式。其中,事實(shí)表Sales與星型模式相同,二者的主要不同是維表。 星型模式中的item單個(gè)維表在雪花模式中被規(guī)范化,導(dǎo)致新的item表和supplier表,通過item表中的屬性supplier-key連接到supplier維表。 星型模式中的

34、location單個(gè)維表也被規(guī)范化為兩個(gè)表:新的location和city。通過location表中的屬性location -key連接到city維表。 如果愿意,雪花模式中的province_or_state和country還可以進(jìn)一步規(guī)范化。雪花模型示例雪花模型示例time_keydayday_of_the_weekmonthquarteryearTime維表location_keystreetcity_keyLocation維表Sales 事實(shí)表 time_key item_key branch_key location_key units_sold dollars_sold avg_s

35、alesMeasuresitem_keyitem_namebrandtypesupplier_keyItem維表維表branch_keybranch_namebranch_typeBranch維表維表supplier_keysupplier_typeSupplier維表維表city_keycitystate_or_provincecountryCity維表85雪花模型:雪花模型: 同星型模型一樣,對雪花結(jié)構(gòu)進(jìn)行OLAP處理,是以外鍵為基礎(chǔ)進(jìn)行維表與事實(shí)表、維表與維表間的關(guān)聯(lián)操作; 但是,相對于星型模型,雪花模型增加了用戶必須處理的表的數(shù)量,增加了某些查詢的復(fù)雜性; 由于執(zhí)行查詢需要更多的連接操

36、作,雪花結(jié)構(gòu)可能降低降低瀏覽的性能因此,在數(shù)據(jù)倉庫設(shè)計(jì)中,雪花模式不如星型模型流行。(3)事實(shí)星座模型)事實(shí)星座模型 事實(shí)星座模型(Fact constellation): u 復(fù)雜的應(yīng)用(如多主題的數(shù)據(jù)倉庫)可能需要多個(gè)事實(shí)表共享維表。u這種模式可以看作星型模式集,因此稱為星系模式(galaxy schema),或者事實(shí)星座(fact constellation)示例:示例: Allelectronics公司sales銷售數(shù)據(jù)倉庫和shipping運(yùn)輸數(shù)據(jù)倉庫的事實(shí)星座模式。該模式給出兩個(gè)事實(shí)表事實(shí)表:sales和shipping。 sales表的定義與星型模式相同。Shipping表有5個(gè)

37、維或關(guān)鍵字:item_key ,time_key,shipper_key, from_location, to_location;兩個(gè)度量:dollars_cost和units_shipped。 sales事實(shí)表和shipping事實(shí)表共享維表item, time, 和location。883. 數(shù)據(jù)倉庫的物理模型?90物理模型的定義物理模型的定義物理模型:u是邏輯模型在數(shù)據(jù)倉庫中的實(shí)現(xiàn);u主要進(jìn)行:數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)、存儲(chǔ)策略、索引策略、存儲(chǔ)分配優(yōu)化等工作。91存儲(chǔ)結(jié)構(gòu)存儲(chǔ)結(jié)構(gòu)有兩種常見的存儲(chǔ)結(jié)構(gòu):u 1)分布式存儲(chǔ);u 2)集中式存儲(chǔ)。921 1)分布式存儲(chǔ))分布式存儲(chǔ)分布式存儲(chǔ):u采用磁盤陣列

38、在多個(gè)節(jié)點(diǎn)間分布的方式來存儲(chǔ)數(shù)據(jù);u物理上是分布的,但邏輯上是統(tǒng)一的。93補(bǔ)充:補(bǔ)充:兩個(gè)概念:uSCSI:小型計(jì)算機(jī)系統(tǒng)接口(SCSI,Small Computer System Interface)是一種用于計(jì)算機(jī)及其周邊設(shè)備之間(硬盤、軟驅(qū)、光驅(qū)、打印機(jī)、掃描儀等)系統(tǒng)級接口的獨(dú)立處理器標(biāo)準(zhǔn)。u FC(Fibre Channel):光纖通信。942 2)集中式存儲(chǔ))集中式存儲(chǔ)集中式存儲(chǔ):u直接通過FC交換機(jī)來直接訪問所有的數(shù)據(jù)而不需要通過其他節(jié)點(diǎn);u 可將節(jié)點(diǎn)從數(shù)據(jù)存儲(chǔ)管理的負(fù)擔(dān)中解脫出來,實(shí)現(xiàn)數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)處理的分離。95集中式存儲(chǔ)集中式存儲(chǔ)96存儲(chǔ)策略存儲(chǔ)策略考慮因素:數(shù)據(jù)的重要程度

39、;粒度;使用頻率;響應(yīng)時(shí)間等。采取措施:重要程度高、使用頻率高或?qū)憫?yīng)時(shí)間要求高的數(shù)據(jù)存放在高速存儲(chǔ)設(shè)備上;反之,則存儲(chǔ)在低速存儲(chǔ)設(shè)備上。2.4 數(shù)據(jù)倉庫的設(shè)計(jì)數(shù)據(jù)倉庫的設(shè)計(jì)DW設(shè)計(jì)與設(shè)計(jì)與DB設(shè)計(jì)方法比較設(shè)計(jì)方法比較處理類型不同處理類型不同DB : 操作型數(shù)據(jù)環(huán)境,面向業(yè)務(wù)DW: 面向主題的分析型數(shù)據(jù)環(huán)境,面向分析,從基本主題開 始,不斷發(fā)展新主題面向需求不同面向需求不同DB : 一組較確定的應(yīng)用(業(yè)務(wù)處理)需求; 較確定的數(shù)據(jù)流DW: 需求不確切(定);分析處理需求靈活; 沒有固定模式;用戶對分析處理需求不甚明了; 其設(shè)計(jì)很難以需求為基礎(chǔ)3DW設(shè)計(jì)與設(shè)計(jì)與DB設(shè)計(jì)方法比較(續(xù)設(shè)計(jì)方法比較(

40、續(xù))設(shè)計(jì)目標(biāo)不同設(shè)計(jì)目標(biāo)不同DB : 事務(wù)處理的性能(OLTP),支持多用戶并發(fā)訪問,高效 的增、刪、改操作DW: 建立DSS的數(shù)據(jù)環(huán)境, 全局的分析環(huán)境,支持用戶快速的 分析和查詢數(shù)據(jù)來源不同數(shù)據(jù)來源不同DB : 企業(yè)的業(yè)務(wù)流程中產(chǎn)生的數(shù)據(jù)DW: 系統(tǒng)內(nèi)部,主要從OLTP系統(tǒng)中獲取,經(jīng)過轉(zhuǎn)換、重組、 綜合; 同時(shí)包括部分外部信息4DW設(shè)計(jì)與設(shè)計(jì)與DB設(shè)計(jì)方法比較(續(xù)設(shè)計(jì)方法比較(續(xù))設(shè)計(jì)方法不同DB : SDLC(System Development Life Cycle) 應(yīng)用需求驅(qū)動(dòng)DW: CLDS 數(shù)據(jù)驅(qū)動(dòng)(中心)需求驅(qū)動(dòng)5數(shù)據(jù)倉庫設(shè)計(jì)的原則數(shù)據(jù)倉庫設(shè)計(jì)的原則 堅(jiān)持“以數(shù)據(jù)驅(qū)動(dòng)為中心,

41、數(shù)據(jù)驅(qū)動(dòng)和需求驅(qū)動(dòng)相以數(shù)據(jù)驅(qū)動(dòng)為中心,數(shù)據(jù)驅(qū)動(dòng)和需求驅(qū)動(dòng)相 結(jié)合結(jié)合”的原則。 數(shù)據(jù)驅(qū)動(dòng)是指根據(jù)當(dāng)前數(shù)據(jù)基礎(chǔ)和質(zhì)量等情況, 進(jìn)行數(shù)據(jù)源分析。 需求驅(qū)動(dòng)是指根據(jù)業(yè)務(wù)方向性需求、業(yè)務(wù)問題 等,確定系統(tǒng)范圍和需求框架。106Inmon: SDLC與與CLDS方法比較方法比較需求分析編程 收集需求 分析 設(shè)計(jì)數(shù)據(jù)倉庫編程 實(shí)現(xiàn)數(shù)據(jù)倉庫 集成數(shù)據(jù) 檢驗(yàn)偏差CLDS方法方法 編程 針對數(shù)據(jù)編程需求 測試 集成 實(shí)現(xiàn)SDLC方法方法 設(shè)計(jì)DSS系統(tǒng) 分析結(jié)果 理解需求SDLC與與CLDS方法比較方法比較外部數(shù)據(jù)應(yīng)用A應(yīng)用B應(yīng)用CDBDB收集應(yīng)用需求分析應(yīng)用需求數(shù)據(jù)倉庫建模數(shù)據(jù)獲取與集成DB構(gòu)建數(shù)據(jù)庫應(yīng)用編程

42、系統(tǒng)測試系統(tǒng)實(shí)施SDLC方法方法構(gòu)建數(shù)據(jù)倉庫DSS應(yīng)用編程系統(tǒng)測試?yán)斫庑枨驝LDS方法方法7在數(shù)據(jù)倉庫建設(shè)過程中明確需求 數(shù)據(jù)倉庫建造過程中,如果開發(fā)者等到完全明確需 求之后開始工作,那么這個(gè)倉庫永遠(yuǎn)建不起來 開發(fā)人員與DSS分析員的反饋循環(huán)十分重要911在實(shí)際工程中的設(shè)計(jì)方法在實(shí)際工程中的設(shè)計(jì)方法分析處理需求收集源 數(shù) 據(jù)分 析 數(shù)據(jù)倉庫的設(shè)計(jì)和實(shí)現(xiàn)是一項(xiàng)工 程,是不斷建立、發(fā)展和完善、循數(shù)據(jù)倉庫設(shè)計(jì)數(shù)據(jù)集成DSS應(yīng)用編程系統(tǒng)測試進(jìn)一步理解需求 環(huán)求精的過程,并不是一個(gè)可以簡 單購買的產(chǎn)品。2.5 提高數(shù)據(jù)倉庫性能的幾提高數(shù)據(jù)倉庫性能的幾種方法種方法性能問題性能問題 提高系統(tǒng)性能, 主要是要

43、提高系統(tǒng)的物理I/O性能。 在數(shù)據(jù)倉庫的設(shè)計(jì)中,應(yīng)盡量減少每次查詢處理要求的I/O次數(shù), 而使每次I/O又能返回盡量多的記錄。提高數(shù)據(jù)倉庫性能的主要途徑:提高數(shù)據(jù)倉庫性能的主要途徑:u (1)粒度劃分粒度劃分u (2)數(shù)據(jù)分片u (3)合并表u (4)選擇冗余u (5)其他方法數(shù)據(jù)模型物理數(shù)據(jù)庫設(shè)計(jì)31108(3 3)粒度的選擇)粒度的選擇u 粒度的確定是數(shù)據(jù)倉庫開發(fā)者需要解決的最重要的單一設(shè)計(jì)問題。u數(shù)據(jù)粒度指的是數(shù)據(jù)倉庫中保存數(shù)據(jù)的細(xì)化或者綜合程度。如,企業(yè)的銷售數(shù)據(jù)可以是最原始的細(xì)節(jié)數(shù)據(jù),也可以是一個(gè)星期、一個(gè)月、一年的匯總數(shù)據(jù)。數(shù)據(jù)的綜合程度不同,其數(shù)據(jù)量將相差很大。數(shù)據(jù)粒度越小,信息

44、越細(xì)節(jié),數(shù)據(jù)量越大;反之,粒度越大,忽略了眾多的細(xì)節(jié),數(shù)據(jù)量越小。u數(shù)據(jù)倉庫中不同的數(shù)據(jù)組織形式,即是“粒度”的直觀體現(xiàn)。(1)粒度劃分)粒度劃分 粒度:數(shù)據(jù)的綜合程度。 例如:細(xì)節(jié) 輕度綜合 高度綜合l 一張表的數(shù)據(jù)量很大時(shí),就需要兩個(gè)級別的粒度。l 粒度的劃分,主要考慮行數(shù)。因?yàn)榘葱薪M織索引,索 引依賴于行數(shù),索引大小直接影響I/O次數(shù)。l 有關(guān)專家認(rèn)為,如果數(shù)據(jù)量只有10000行時(shí),不考慮粒 度,如果有一千萬行時(shí),就需要一個(gè)較高的粒度級。32110粒度對數(shù)據(jù)分析的影響粒度對數(shù)據(jù)分析的影響 在設(shè)計(jì)數(shù)據(jù)倉庫時(shí),設(shè)計(jì)者采取數(shù)據(jù)的什么層次作為粒度的劃分標(biāo)準(zhǔn),將直接影響數(shù)據(jù)倉庫中數(shù)據(jù)的存儲(chǔ)量及查詢

45、質(zhì)量,并進(jìn)一步影響到系統(tǒng)能否滿足最終用戶的分析需求。從如下幾個(gè)方面介紹其影響:u對數(shù)據(jù)倉庫邏輯結(jié)構(gòu)設(shè)計(jì)的影響;u對數(shù)據(jù)倉庫數(shù)據(jù)存儲(chǔ)的影響;u對數(shù)據(jù)倉庫分析效果的影響。1111 1)對邏輯結(jié)構(gòu)設(shè)計(jì)的影響)對邏輯結(jié)構(gòu)設(shè)計(jì)的影響 某公司的管理者想按照國家、區(qū)域、分區(qū)域和分區(qū)域內(nèi)的銷售員這樣的層次關(guān)系來查看公司的銷售情況,根據(jù)此需要,可得到如下的邏輯結(jié)構(gòu):1121 1)對邏輯結(jié)構(gòu)設(shè)計(jì)的影響)對邏輯結(jié)構(gòu)設(shè)計(jì)的影響 如果公司的決策者認(rèn)為不需要了解具體到某個(gè)銷售人員的銷售情況,而只需要了解各個(gè)地理區(qū)域的銷售情況,則沒必要把銷售員維作為一個(gè)粒度,而需把地域相關(guān)的表綜合成為地理維度就可以了,最終設(shè)計(jì)出的邏輯結(jié)構(gòu)

46、如下:1132 2)對數(shù)據(jù)存儲(chǔ)的影響)對數(shù)據(jù)存儲(chǔ)的影響 粒度對數(shù)據(jù)倉庫的最直接的影響就是存儲(chǔ)容量。如下圖,按照每月統(tǒng)計(jì)的客戶購買數(shù)據(jù)和按照每次消費(fèi)記載的客戶購買數(shù)據(jù),兩者的數(shù)據(jù)量相差極大。 如圖所示,假定每個(gè)客戶1天有5次消費(fèi),每次消費(fèi)均涉及6種相同類型的商品,每個(gè)字段為8個(gè)字節(jié),則:(1)1個(gè)客戶1個(gè)月的消費(fèi)細(xì)節(jié)數(shù)據(jù)的數(shù)據(jù)量為:8*6*30*5=7200字節(jié)(2)1個(gè)客戶1個(gè)月的消費(fèi)匯總數(shù)據(jù)的數(shù)據(jù)量為:8*6=48字節(jié)1142 2)對數(shù)據(jù)存儲(chǔ)的影響)對數(shù)據(jù)存儲(chǔ)的影響1153 3)對分析效果的影響)對分析效果的影響 不同的粒度設(shè)計(jì)對應(yīng)不同的分析需求,若分析需求和粒度設(shè)計(jì)不匹配,則會(huì)直接影響數(shù)據(jù)

47、倉庫的分析效果; 數(shù)據(jù)的綜合使得細(xì)節(jié)信息丟失,所以如果分析需求的粒度小于設(shè)計(jì)的粒度,則需求不能得到滿足;反之,如果分析需求的粒度大于設(shè)計(jì)的粒度,則查詢匯總更小的粒度進(jìn)行統(tǒng)計(jì)運(yùn)算后才能回答,這將增加用戶的等待時(shí)間。1163 3)對分析效果的影響)對分析效果的影響117u 由以上分析得知,數(shù)據(jù)倉庫的性能和存儲(chǔ)空間是一對矛盾:如果粒度設(shè)計(jì)很小,事實(shí)表將不得不記錄所有的細(xì)節(jié),存儲(chǔ)數(shù)據(jù)所需要的空間將會(huì)急劇膨脹;若設(shè)計(jì)的粒度很大,雖然事實(shí)表體積大而帶來的諸多問題能得到一定程度的緩解,但決策者不能觀察細(xì)節(jié)數(shù)據(jù)。u所以,粒度的設(shè)計(jì)是數(shù)據(jù)倉庫設(shè)計(jì)中的重要一環(huán)。粒度設(shè)計(jì):空間粒度設(shè)計(jì):空間/行數(shù)計(jì)算行數(shù)計(jì)算331

48、191 1)粗略估算)粗略估算 確定合適的粒度級的起點(diǎn),可以粗略估算數(shù)據(jù)倉庫中將來的數(shù)據(jù)行數(shù)和所需的直接存取存儲(chǔ)空間,具體如下:1)確定數(shù)據(jù)倉庫中將要?jiǎng)?chuàng)建的所有表,然后估計(jì)每張表中行的)確定數(shù)據(jù)倉庫中將要?jiǎng)?chuàng)建的所有表,然后估計(jì)每張表中行的大小(上界、下界)大?。ㄉ辖?、下界)。2)估計(jì))估計(jì)1年內(nèi)表中的最少行數(shù)和最多行數(shù)。年內(nèi)表中的最少行數(shù)和最多行數(shù)。這是設(shè)計(jì)者所要解決的最大問題。如一個(gè)顧客表,應(yīng)估計(jì)在一定商業(yè)環(huán)境和該公司的商業(yè)計(jì)劃影響下的當(dāng)前顧客數(shù);如果沒有當(dāng)前業(yè)務(wù),就估計(jì)為總的市場業(yè)務(wù)量乘以市場份額;若市場份額不可知,則用競爭對手的業(yè)務(wù)量來估計(jì)等。1201 1)粗略估算)粗略估算一旦估計(jì)完1

49、年內(nèi)數(shù)據(jù)倉庫中數(shù)據(jù)單位的數(shù)量(用上下限推測的方法),就可用同樣的方法對5年內(nèi)的數(shù)據(jù)進(jìn)行估計(jì)。粗略估計(jì)完成后,要計(jì)算一下索引數(shù)據(jù)所占的空間:對每張表確定鍵碼的長度。3)將各表中行數(shù)可能的最大值和最小值分別乘以數(shù)據(jù)的最大長)將各表中行數(shù)可能的最大值和最小值分別乘以數(shù)據(jù)的最大長度和最小長度。同時(shí),將索引項(xiàng)的數(shù)目與鍵碼的長度的乘積累加度和最小長度。同時(shí),將索引項(xiàng)的數(shù)目與鍵碼的長度的乘積累加到總的數(shù)據(jù)量中。到總的數(shù)據(jù)量中。1212 2)確定雙重或單一粒度)確定雙重或單一粒度 粒度選擇的標(biāo)準(zhǔn)主要是數(shù)據(jù)倉庫表的總行數(shù)。因?yàn)閿?shù)據(jù)的存取通常是通過存取索引來實(shí)現(xiàn)的,而索引是對應(yīng)表的行來組織的,即在某一索引中每一行

50、總有個(gè)索引項(xiàng),索引的大小只與表的總行數(shù)有關(guān),而與表的數(shù)據(jù)量無關(guān)。存儲(chǔ)空間與粒度設(shè)計(jì)層次的考慮存儲(chǔ)空間與粒度設(shè)計(jì)層次的考慮1223 3)確定粒度的級別)確定粒度的級別 在數(shù)據(jù)倉庫中確定粒度的級別時(shí),需要考慮如下因素:1 1)要接受的分析類型:)要接受的分析類型:計(jì)劃在數(shù)據(jù)倉庫中進(jìn)行的分析類型將直接影響到數(shù)據(jù)倉庫的粒度劃分。粒度定義越高,越不能進(jìn)行更細(xì)致的分析。如,將粒度的層次定義為月份時(shí),就不可能利用數(shù)據(jù)倉庫進(jìn)行按日匯總的信息分析。2 2)可接受的數(shù)據(jù)最低粒度:)可接受的數(shù)據(jù)最低粒度:數(shù)據(jù)倉庫通常在同一模式中使用多重粒度,這是以數(shù)據(jù)倉庫中所需的最低粒度級別為基礎(chǔ)設(shè)置的。如,可用低粒度數(shù)據(jù)保存近期的財(cái)務(wù)數(shù)據(jù)和匯總數(shù)據(jù),而用粒度較大的匯總數(shù)據(jù)保存時(shí)間較遠(yuǎn)的財(cái)務(wù)數(shù)據(jù)。這樣,既可對財(cái)務(wù)近況進(jìn)行細(xì)節(jié)分析,又可利用匯總數(shù)據(jù)對財(cái)務(wù)趨勢進(jìn)行分析。1233 3)確定粒度的級別)確定粒度的級別3 3)可存儲(chǔ)的數(shù)據(jù)量)可存儲(chǔ)的數(shù)據(jù)量:如果存儲(chǔ)資源有一定的限制,就只能采用較高粒度的數(shù)據(jù)粒度劃分策略;反之,可采取較寬松的粒度劃分策略。這是由用戶對數(shù)據(jù)需求的了解和信息

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論