數(shù)據(jù)倉庫開發(fā)模型_第1頁
數(shù)據(jù)倉庫開發(fā)模型_第2頁
數(shù)據(jù)倉庫開發(fā)模型_第3頁
數(shù)據(jù)倉庫開發(fā)模型_第4頁
數(shù)據(jù)倉庫開發(fā)模型_第5頁
已閱讀5頁,還剩25頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第2章數(shù)據(jù)倉庫開發(fā)模型

在創(chuàng)建數(shù)據(jù)倉庫之時,需要使用各種數(shù)據(jù)模型對數(shù)據(jù)倉庫進(jìn)行描述。數(shù)據(jù)倉庫的開發(fā)人員依據(jù)這些數(shù)據(jù)模型,才能開發(fā)出一個滿足用戶需求的數(shù)據(jù)倉庫。使開發(fā)人員能夠?qū)⒆⒁饬性跀?shù)據(jù)倉庫開發(fā)的主要部分。模型有更好的適應(yīng)性,更易于修改。當(dāng)用戶的需求改變時,僅對模型做出相應(yīng)的變化就能反映這個改變。數(shù)據(jù)倉庫開發(fā)模型

2.1數(shù)據(jù)倉庫開發(fā)模型

2.2數(shù)據(jù)倉庫概念模型2.3數(shù)據(jù)倉庫邏輯模型

2.4數(shù)據(jù)倉庫的物理模型

2.5數(shù)據(jù)倉庫的元數(shù)據(jù)模型

2.6數(shù)據(jù)倉庫的粒度和聚集模型

習(xí)

2.1數(shù)據(jù)倉庫開發(fā)模型模型是對現(xiàn)實世界進(jìn)行抽象的工具。在信息管理中需要將現(xiàn)實世界的事物及其有關(guān)特征轉(zhuǎn)換為信息世界的數(shù)據(jù)才能對信息進(jìn)行處理與管理,這就需要依靠數(shù)據(jù)模型作為這種轉(zhuǎn)換的橋梁。這種轉(zhuǎn)換一般需要經(jīng)歷從現(xiàn)實到概念模型,從概念模型到邏輯模型,從邏輯模型到物理模型的轉(zhuǎn)換過程。

現(xiàn)實世界概念世界邏輯世界計算機(jī)世界信用特性屬性列(字段、數(shù)據(jù)項)張三個體實體記錄客戶整體同質(zhì)總體表文件客戶與產(chǎn)品整體間聯(lián)系異質(zhì)總體數(shù)據(jù)庫數(shù)據(jù)倉庫的設(shè)計就是在概念模型、邏輯模型和物理模型的依次轉(zhuǎn)換過程中實現(xiàn)的。作為數(shù)據(jù)倉庫的靈魂——元數(shù)據(jù)模型則自始至終伴隨著數(shù)據(jù)倉庫的開發(fā)、實施與使用。數(shù)據(jù)粒度和聚集模型也在數(shù)據(jù)倉庫的創(chuàng)建中發(fā)揮著指導(dǎo)的作用,指導(dǎo)著數(shù)據(jù)倉庫的具體實現(xiàn)。現(xiàn)實世界概念模型邏輯模型物理模型數(shù)據(jù)倉庫元數(shù)據(jù)模型數(shù)據(jù)粒度和聚集模型2.2數(shù)據(jù)倉庫概念模型

2.2.1概念數(shù)據(jù)模型

財務(wù)部門銷售收入賬應(yīng)收賬應(yīng)付賬成本賬銷售部門銷售計劃銷售合同銷售統(tǒng)計人事部門員工業(yè)績記錄員工技能情況員工薪酬表企業(yè)數(shù)據(jù)模型銷售部門人事部門財務(wù)部門……………圖2.3企業(yè)數(shù)據(jù)模型數(shù)據(jù)倉庫的數(shù)據(jù)模型中不包含操作型的數(shù)據(jù),數(shù)據(jù)倉庫的數(shù)據(jù)模型只包含用戶所感興趣的分析數(shù)據(jù)、描述數(shù)據(jù)和細(xì)節(jié)數(shù)據(jù)。數(shù)據(jù)倉庫的數(shù)據(jù)模型擴(kuò)充了關(guān)鍵字結(jié)構(gòu),增加了時間屬性作為關(guān)鍵字的一部分?jǐn)?shù)據(jù)倉庫的數(shù)據(jù)模型中還增加了一些由基本數(shù)據(jù)所導(dǎo)出的衍生數(shù)據(jù),這些導(dǎo)出的衍生數(shù)據(jù)主要用于對企業(yè)的管理決策進(jìn)行分析指標(biāo)實體(事實實體)指標(biāo)實體名維度實體名詳細(xì)類別實體名維度實體詳細(xì)類別實體(引用實體)

2.2.2規(guī)范的數(shù)據(jù)模型第一范式、第二范式、第三范式數(shù)據(jù)倉庫的反規(guī)范化處理數(shù)據(jù)倉庫的數(shù)據(jù)普通數(shù)據(jù)庫系統(tǒng)的數(shù)據(jù)

長期的框架靜態(tài)數(shù)據(jù)通常是匯總的特殊查詢訪問定期更新數(shù)據(jù)驅(qū)動短期的框架快速變化記錄級的訪問標(biāo)準(zhǔn)查詢訪問實時更新事件驅(qū)動2.2.3星型模型

星型模型是最常用的數(shù)據(jù)倉庫設(shè)計結(jié)構(gòu)的實現(xiàn)模式。使數(shù)據(jù)倉庫形成了一個集成系統(tǒng),為用戶提供分析服務(wù)對象。

事實表維度表維度表維度表維度表維度表核心是事實表,圍繞事實表的是維度表。通過事實表將各種不同的維度表連接起來,各個維度表都連接到中央事實表。2.2.4雪花模型雪花模型是對星型模型的擴(kuò)展,每一個維度都可以向外連接到多個詳細(xì)類別表。

雪花模型對星型模型的維度表進(jìn)一步標(biāo)準(zhǔn)化,對星型模型中的維度表進(jìn)行了規(guī)范化處理。

事實表維度表維度表維度表維度表維度表詳細(xì)類別表詳細(xì)類別表2.3數(shù)據(jù)倉庫邏輯模型

信息反饋貴賓卡賬號姓名客戶類型初次交易時間賬號省市縣街道郵政編碼賬號現(xiàn)金交易額信用交易額賬號商品編號時間交易量賬號最大信用額最近信用發(fā)生時間賬號記錄人反饋類型反饋時間賬號服務(wù)種類時間服務(wù)費(fèi)用顏色信用交易客戶編號交易記錄信用狀況商品交易服務(wù)交易簽字現(xiàn)金交易賬號交易額信用額信用時間2.3.1事實表模型設(shè)計1.事實表(1)客戶事實表客戶基本情況表(賬號Integer9,姓名Character12,出生地Character20,初次交易時間Date,……)。2.事實表中的事實特性事實表中一般包含兩部分,一是由主鍵和外鍵所組成的鍵部分,另一是用戶希望在數(shù)據(jù)倉庫中所了解的數(shù)值指標(biāo)。派生事實主要有兩種,一是可以用同一事實表中其他事實計算得到,還有一類派生事實是非加法性事實。

2.3.2維模型設(shè)計客戶主題維度表模型時間維度表(年Date,月Date,日Date)。地點(diǎn)維度表(省Character20,市Character20,縣Character20,街道Character20)。2.4數(shù)據(jù)倉庫的物理模型2.4.1數(shù)據(jù)倉庫物理模型的存儲結(jié)構(gòu)確定數(shù)據(jù)的存儲結(jié)構(gòu)

并行存儲結(jié)構(gòu)——RAID(RedundantArrayofInexpensiveDisk,廉價冗余磁盤陣列)。·RAID·RAID1級?!AID2級?!AID3級?!AID4級?!AID5級。2.4.2數(shù)據(jù)倉庫物理模型的索引構(gòu)建位圖索引

女性索引客戶性別客戶所在地上海市索引北京市索引0男北京市011女江蘇省001女北京市010男山東省001女北京市010男上海市100男江蘇省001女上海市101女北京市010男浙江省001女廣東省002.4.2數(shù)據(jù)倉庫物理模型的索引構(gòu)建上海市索引OR北京市索引=地區(qū)索引AND女性索引=最后索引01100000100111100000011111010000000101110111100000000102.4.2數(shù)據(jù)倉庫物理模型的索引構(gòu)建2.廣義索引的構(gòu)建3.連接索引連接索引Aagelevel_idtime_idyear_idmonth_idgeo_idprov_idcity_idcounty_idprodu_idagelevel_idtime_idgeo_idprodu_idamou_moneagelevel_idtime_idyear_idmonth_idgeo_idprov_idcity_idcounty_idprodu_idamou_moneagelevel_idtime_idgeo_idprodu_id全連接結(jié)果time_idgeo_id連接索引B2.4.3數(shù)據(jù)倉庫物理模型的優(yōu)化問題1.合并表:幾個表的記錄分散存放在幾個物理塊中時,多個表的存取和連接操作的代價會很大。

2.建立數(shù)據(jù)序列:按照某一固定的順序訪問并處理一組數(shù)據(jù)記錄。將數(shù)據(jù)按照處理順序存放到連續(xù)的物理塊中,形成數(shù)據(jù)序列。

3.引入冗余:一些表的某些屬性可能在許多地方都要用到,將這些屬性復(fù)制到多個主題中,可以減少處理時存取表的個數(shù)。

4.表的物理分割:每個主題中的各個屬性存取頻率是不同的。將一張表按各屬性被存取的頻率分成兩個或多個表,將具有相似訪問頻率的數(shù)據(jù)組織在一起。

5.生成派出數(shù)據(jù):在原始數(shù)據(jù)的基礎(chǔ)上進(jìn)行總結(jié)或計算,生成派出數(shù)據(jù),可以在應(yīng)用中直接使用這些派出數(shù)據(jù),減少I/O次數(shù),免去計算或匯總步驟,在更高級別上建立了公用數(shù)據(jù)源,避免了不同用戶重復(fù)計算可能產(chǎn)生的偏差。

2.5數(shù)據(jù)倉庫的元數(shù)據(jù)模型元數(shù)據(jù)靜態(tài)元數(shù)據(jù)名稱描述格式數(shù)據(jù)類型關(guān)系生成時間來源索引類別域業(yè)務(wù)規(guī)則2.5.1元數(shù)據(jù)的類型與組成元數(shù)據(jù)動態(tài)元數(shù)據(jù)

入庫時間更新周期數(shù)據(jù)質(zhì)量統(tǒng)計信息狀態(tài)處理存儲位置存儲大小引用處2.5.2元數(shù)據(jù)在數(shù)據(jù)倉庫中的作用元數(shù)據(jù)描述了數(shù)據(jù)的結(jié)構(gòu)、內(nèi)容、鍵、索引等項內(nèi)容。在數(shù)據(jù)倉庫中,元數(shù)據(jù)定義了數(shù)據(jù)倉庫中的許多對象——表、列、查詢、商業(yè)規(guī)則或是數(shù)據(jù)倉庫內(nèi)部的數(shù)據(jù)轉(zhuǎn)移。元數(shù)據(jù)是數(shù)據(jù)倉庫的重要構(gòu)件,是數(shù)據(jù)倉庫的指示圖(roadmap)。

1.數(shù)據(jù)倉庫的元數(shù)據(jù)重要性為數(shù)據(jù)倉庫服務(wù)與DSS分析員及高層決策人員服務(wù)提供便利

解決操作型環(huán)境和數(shù)據(jù)倉庫的復(fù)雜關(guān)系

數(shù)據(jù)倉庫中數(shù)據(jù)的管理

2.元數(shù)據(jù)在數(shù)據(jù)倉庫開發(fā)期間的使用確認(rèn)數(shù)據(jù)質(zhì)量、同步化和刷新、映射3.元數(shù)據(jù)在數(shù)據(jù)源抽取中的作用資源領(lǐng)域的確定、跟蹤歷史數(shù)據(jù)結(jié)構(gòu)變化的過程、屬性到屬性的映射、屬性轉(zhuǎn)換

4.元數(shù)據(jù)在數(shù)據(jù)求精與重構(gòu)工程上的作用數(shù)據(jù)的分割、概括與聚集、預(yù)算與推導(dǎo)、轉(zhuǎn)換與再映像

2.5.3元數(shù)據(jù)的收集1.數(shù)據(jù)源的元數(shù)據(jù)2.數(shù)據(jù)模型的元數(shù)據(jù)3.數(shù)據(jù)源與數(shù)據(jù)倉庫映射的元數(shù)據(jù)4.數(shù)據(jù)倉庫應(yīng)用的元數(shù)據(jù)2.6數(shù)據(jù)倉庫的粒度和聚集模型粒度可定義成數(shù)據(jù)倉庫中數(shù)據(jù)細(xì)節(jié)的最低層次,如事務(wù)層次。這種數(shù)據(jù)層次是高度細(xì)節(jié)化的,這樣就能使用戶按所需的任何層次進(jìn)行匯總。根據(jù)粒度的劃分標(biāo)準(zhǔn)可以將數(shù)據(jù)劃分為:詳細(xì)數(shù)據(jù)、輕度總結(jié)、高度總結(jié)三級或更多級粒度。粒度的具體劃分將直接影響到數(shù)據(jù)倉庫中的數(shù)據(jù)量以及查詢質(zhì)量。粒度級別綜合性數(shù)據(jù)細(xì)節(jié)低(如事務(wù))高(如匯總)低高非常高中等到低2.6.1數(shù)據(jù)粒度的劃分第一步,是估算數(shù)據(jù)倉庫中將來要使用的數(shù)據(jù)行數(shù)和所需的直接存取存儲設(shè)備數(shù)。每一個表的存儲空間,應(yīng)該是每一個表的數(shù)據(jù)存儲空間和索引存儲空間之和。一年數(shù)據(jù)五年數(shù)據(jù)數(shù)據(jù)量(行數(shù))粒度劃分策略數(shù)據(jù)量(行數(shù))粒度劃分策略10,000,0001,000,000100,00010,000雙重粒度并仔細(xì)設(shè)計雙重粒度仔細(xì)設(shè)計不考慮20,000,00010,000,0001,000,000100,000雙重粒度并仔細(xì)設(shè)計雙重粒度仔細(xì)設(shè)計不考慮2.6.2確定粒度的級別考慮因素:要接受的分析類型、可接受的數(shù)據(jù)最低粒度和能存儲的數(shù)據(jù)量。粒度的層次定義越高,就越不能在該倉庫中進(jìn)行更細(xì)致的分析。在同一模式中使用多重粒度。如果存儲資源有一定的限制,就只能采用較高粒度的數(shù)據(jù)粒度劃分策略。粒度的確定實質(zhì)上是業(yè)務(wù)決策分析、硬件、軟件和數(shù)據(jù)倉庫使用方法的一個折衷。數(shù)據(jù)粒度劃分策略一定要保證數(shù)據(jù)的粒度確實能夠滿足用戶的決策分析需要,這是數(shù)據(jù)粒度劃分策略中最重要的一個準(zhǔn)則。2.6.3數(shù)據(jù)倉庫的聚集模型確定聚集數(shù)據(jù)主要是為了使用戶獲得更好的查詢性能聚集模型設(shè)計時應(yīng)該注意將聚集數(shù)據(jù)存儲在其事實表中,并與其底層數(shù)據(jù)相區(qū)別。設(shè)計聚集模型時,首先需要考慮用戶的使用要求。其次要考慮數(shù)據(jù)倉庫的粒度模型和數(shù)據(jù)的統(tǒng)計分布情況。數(shù)據(jù)倉庫的聚集模型的設(shè)計與數(shù)據(jù)倉庫的粒度模型緊密相關(guān)建立聚集模型時還需要考慮作為聚集屬性的數(shù)量因素2.6.4聚集模型的處理聚集事實表已經(jīng)獨(dú)立存在并且可以與基本事實表一同保存通過將當(dāng)前加載數(shù)據(jù)添加到系統(tǒng)中的累積“桶”中將數(shù)據(jù)的聚集與數(shù)據(jù)倉庫的加載過程組合為同一處理過程在將數(shù)據(jù)倉庫數(shù)據(jù)加載以后,再進(jìn)行聚集處理每次在加載數(shù)據(jù)倉庫數(shù)據(jù)時,都需要對各種聚集進(jìn)行計算和增加,及時保持聚集與基本數(shù)據(jù)的同步性2.6.5聚集模型的管理要根據(jù)使用情況刪除不經(jīng)常使用的聚集需要減少層次過于接近的聚集生成注意將聚集獨(dú)立存儲在自己的事實表中

練習(xí)

1.在一般的信息管理中采用哪些概念模型來描述信息處理的對象,這些概念數(shù)據(jù)模型是否適合數(shù)據(jù)倉庫的開發(fā)環(huán)境?2.航空公司希望能夠分析在其服務(wù)旅客中的??吐眯汹厔?,這樣可以為公司正確定位航空市場中的??褪袌觥2⑶蚁M軌蚋櫜煌骄€上旅客的季節(jié)變化情況和增長,并跟蹤在不同航班上所消費(fèi)的食品和飲料情況,這樣可以幫助

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論