阿里數(shù)據(jù)倉庫模型設計上課講義_第1頁
阿里數(shù)據(jù)倉庫模型設計上課講義_第2頁
阿里數(shù)據(jù)倉庫模型設計上課講義_第3頁
阿里數(shù)據(jù)倉庫模型設計上課講義_第4頁
阿里數(shù)據(jù)倉庫模型設計上課講義_第5頁
已閱讀5頁,還剩24頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

數(shù)據(jù)(shùjù)建模介紹第一頁,共29頁。數(shù)據(jù)倉庫構(gòu)造方法自上而下BillInmon從整個企業(yè)的業(yè)務環(huán)境入手,分析其中的概念,應該有什么樣的數(shù)據(jù),達成概念完整性,并不從它需要支持那些應用入手。一個企業(yè)建立唯一的數(shù)據(jù)中心,就像一個數(shù)據(jù)的倉庫,其中數(shù)據(jù)是經(jīng)過整合、經(jīng)過清洗、去掉臟數(shù)據(jù)的、標準的,能夠提供統(tǒng)一的視圖。自下而上RalphKimbal按照實際的應用需求,加載需要的數(shù)據(jù),不需要的數(shù)據(jù)不必要加載到數(shù)據(jù)倉庫當中。這種方式建設周期較短,客戶能夠很快看到結(jié)果,適合做項目類數(shù)據(jù)倉庫?;旌戏ńY(jié)合自上而下、自下而上兩種構(gòu)造數(shù)據(jù)倉庫的方法,結(jié)合企業(yè)自身特點,分析業(yè)務環(huán)境構(gòu)造數(shù)據(jù)倉庫底層數(shù)據(jù)基礎,再按照實際的應用需求構(gòu)造數(shù)據(jù)倉庫上層數(shù)據(jù)。第二頁,共29頁。支付寶業(yè)務系統(tǒng)(xìtǒng)簡介業(yè)務特點類金融交易:充值、提現(xiàn)、賬務管理類電子商務:購物交易過程變更、實際交易(對B機票、對C水電等)非純電子商務;純金融線上子系統(tǒng)多而雜截止到2011年6月共有各類線上子系統(tǒng)259個類型多樣:對C、對B、對內(nèi)、對金融機構(gòu)系統(tǒng)間依賴程度(chéngdù)參差不齊垂直依賴(業(yè)務與核心)跨層依賴(跨過交易到賬務)第三頁,共29頁。支付寶業(yè)務(yèwù)系統(tǒng)四大平臺資金平臺客戶平臺支付平臺交易平臺五大域商戶域用戶域支撐域風控域無線域兩條線會員線金融線第四頁,共29頁。支付寶數(shù)據(jù)倉庫架構(gòu)(jiàɡòu)原則底層業(yè)務的數(shù)據(jù)驅(qū)動為導向同時結(jié)合(jiéhé)業(yè)務需求驅(qū)動便于數(shù)據(jù)分析屏蔽底層復雜業(yè)務簡單、完整、集成的將數(shù)據(jù)暴露給分析層底層業(yè)務變動與上層需求變動對模型沖擊最小化業(yè)務系統(tǒng)變化影響削弱在基礎數(shù)據(jù)層(資金訂單改造)結(jié)合(jiéhé)自上而下的建設方法削弱需求變動對模型的影響數(shù)據(jù)水平層次清晰化高內(nèi)聚松耦合主題之內(nèi)或各個完整意義的系統(tǒng)內(nèi)數(shù)據(jù)的高內(nèi)聚主題之間或各個完整意義的系統(tǒng)間數(shù)據(jù)的松耦合構(gòu)建倉庫基礎數(shù)據(jù)層使得底層業(yè)務數(shù)據(jù)整合工作與上層應用開發(fā)工作相隔離,為倉庫大規(guī)模開發(fā)奠定基礎倉庫層次更加清晰,對外暴露數(shù)據(jù)更加統(tǒng)一第五頁,共29頁。傳統(tǒng)倉庫架構(gòu)(jiàɡòu)方法需求(xūqiú)驅(qū)動為主…第六頁,共29頁。支付寶交易主題(zhǔtí)現(xiàn)狀第七頁,共29頁。數(shù)據(jù)倉庫模型(móxíng)建設目標示意圖第八頁,共29頁。倉庫基礎(jīchǔ)數(shù)據(jù)層建設的意義避免底層(dǐcénɡ)業(yè)務變動對上層需求影響過大屏蔽底層(dǐcénɡ)復雜的業(yè)務邏輯,盡可能簡單、完整的在接口層呈現(xiàn)業(yè)務數(shù)據(jù)倉庫數(shù)據(jù)更加豐富建設高內(nèi)聚松耦合的數(shù)據(jù)組織,使得數(shù)據(jù)從業(yè)務角度可分割,有助于數(shù)據(jù)和團隊的擴展。第九頁,共29頁。第三方支付(zhīfù)企業(yè)支付(zhīfù)寶數(shù)據(jù)倉庫體系結(jié)構(gòu)點擊流數(shù)據(jù)(Clickstream)數(shù)據(jù)庫數(shù)據(jù)(OLTP)文檔數(shù)據(jù)(Documents)其它數(shù)據(jù)(Other)源數(shù)據(jù)明細數(shù)據(jù)(DWD)數(shù)據(jù)倉庫ETL報表展示自定義查詢數(shù)據(jù)分析數(shù)據(jù)應用數(shù)據(jù)挖掘元數(shù)據(jù)管理數(shù)據(jù)質(zhì)量監(jiān)控KPI賬單應用日志產(chǎn)品應用高粒度匯總數(shù)據(jù)(DWS)其它……數(shù)據(jù)集市、寬表(DM)數(shù)據(jù)應用(ST)低粒度匯總加工數(shù)據(jù)(DWB)第十頁,共29頁。建立企業(yè)級概念數(shù)據(jù)模型(CDM)的基本(jīběn)架構(gòu)相關方安排位置相關方關系相關方及安排間的關系相關方描述相關方類型業(yè)務概念框架提供了一套通用的結(jié)構(gòu),它描述了所有業(yè)務環(huán)境IBM業(yè)務概念間最初的關系提供了相關方合約位置分類產(chǎn)品/服務資源事件業(yè)務方向條件安排類型所有業(yè)務信息都是可以用九大概念的詞匯來表示每一種信息概念都可用三個分層來詳細說明:分類分層(是什么)描述分層(有什么)關系分層(做什么)第十一頁,共29頁。九大(jiǔdà)數(shù)據(jù)概念變遷IBMFSDM九大數(shù)據(jù)概念支付寶九大數(shù)據(jù)概念當事人地理位置協(xié)議資源項事件產(chǎn)品分類條件業(yè)務方向介質(zhì)介質(zhì)帳戶渠道主要變化:1.將產(chǎn)品中的介質(zhì)以及分類中的帳戶和渠道獨立出來作為單獨的數(shù)據(jù)概念2.條件和分類不作為單獨的數(shù)據(jù)概念,分散在各個數(shù)據(jù)概念中。3.業(yè)務方向中的部分在事件數(shù)據(jù)概念中體現(xiàn)當事人地理位置協(xié)議資源項事件產(chǎn)品介質(zhì)渠道帳戶條件條件分類條件分類條件條件分類業(yè)務方向第十二頁,共29頁。第三方支付企業(yè)(qǐyè)支付寶數(shù)據(jù)模型設計基于OMG推出的數(shù)據(jù)倉庫元數(shù)據(jù)管理的CWM模型(CommonWarehouseMetamodel)物理模型設計PDM設計方法參考(cānkǎo)IBM的FSDM金融行業(yè)的數(shù)據(jù)倉庫通用模板參考(cānkǎo)NCRTeradata金融服務邏輯數(shù)據(jù)模型(FS-LDM),參考(cānkǎo)新巴塞爾資本協(xié)議(BaselIICapitalAccord)需提供三到五年的數(shù)據(jù)的規(guī)范綜合(zōnghé)上述規(guī)范和要求,同時結(jié)合支付寶實際的業(yè)務,推出數(shù)據(jù)倉庫5層架構(gòu)體系第十三頁,共29頁。DW五層模型是按照EDW各個應用層次的需求進行分層細化而來的,每個層次滿足不同的應用。分為以下5層:1.ODS數(shù)據(jù)(shùjù)準備層2.DWD數(shù)據(jù)(shùjù)明細層3.DW(B/S)數(shù)據(jù)(shùjù)匯總層4.DM數(shù)據(jù)(shùjù)集市層5.ST數(shù)據(jù)(shùjù)應用層

DW五層模型架構(gòu)(jiàɡòu)介紹第十四頁,共29頁。DW五層模型(móxíng)架構(gòu)介紹ODS層ST層DM層DW層DWD層數(shù)據(jù)來源及建模方式服務領域數(shù)據(jù)準備區(qū),數(shù)據(jù)來源是各業(yè)務系統(tǒng)的源數(shù)據(jù),物理模型和業(yè)務系統(tǒng)模型一致。數(shù)據(jù)來自ODS層,是DW明細事實層,數(shù)據(jù)模型是ODS一致數(shù)據(jù)來自DWD層,是DW事實層,采用維度建模,星型架構(gòu),這一層可細分為dwb和dws數(shù)據(jù)來自DW層,采用維度建模,星型架構(gòu)數(shù)據(jù)來自DW層,采用維度建模,星型架構(gòu)為其它邏輯層提供數(shù)據(jù),為統(tǒng)一數(shù)據(jù)視圖子系統(tǒng)提供數(shù)據(jù)實時查詢?yōu)镋DW提供各主題業(yè)務明細數(shù)據(jù)為EDW提供各種統(tǒng)計匯總數(shù)據(jù)數(shù)據(jù)挖掘,自定義查詢,應用集市前端報表展現(xiàn),主題分析,KPI報表數(shù)據(jù)ETL過程描述通過支付寶分發(fā)中心平臺,把業(yè)務數(shù)據(jù)抽取落地成文本文件,再裝載到數(shù)據(jù)倉庫ODS層,不做清洗轉(zhuǎn)換根據(jù)ODS增量數(shù)據(jù)進行merge生成全量數(shù)據(jù),不做清洗轉(zhuǎn)換,保留原始全量數(shù)據(jù)從DWD層進行輕度清洗,轉(zhuǎn)換,匯總聚合生成DW層數(shù)據(jù),如字符合并,EMAIL,證件號,日期,手機號轉(zhuǎn)換,合并;用代理鍵取代維度;按各個維度進行聚合匯總從DW層的數(shù)據(jù)進行粗粒度聚合匯總;按業(yè)務需求對事實進行拉寬形成寬表從DW層的數(shù)據(jù)進行粗粒度聚合匯總;如按年、月、季、天對一些維度進行聚合生成業(yè)務需要的事實數(shù)據(jù)第十五頁,共29頁。DW模型(móxíng)架構(gòu)第一層介紹-ODS層功能ODS層是數(shù)據(jù)倉庫準備區(qū)為DWD層提供基礎原始數(shù)據(jù)減少對業(yè)務系統(tǒng)影響建模方式及原則數(shù)據(jù)保留時間根據(jù)實現(xiàn)業(yè)務需求而定可以(kěyǐ)分表進行周期存儲,存儲周期不長數(shù)據(jù)不做清洗轉(zhuǎn)換和業(yè)務系統(tǒng)一樣按主題邏輯劃分數(shù)據(jù)模型和粒度和業(yè)務系統(tǒng)數(shù)據(jù)模型保留一致(3NF)從業(yè)務系統(tǒng)以增量方式抽取加載到ODS第十六頁,共29頁。DW模型架構(gòu)(jiàɡòu)第二層介紹-DWD層功能為DW層提供(tígōng)來源明細數(shù)據(jù)提供(tígōng)業(yè)務系統(tǒng)細節(jié)數(shù)據(jù)的長期沉淀為未來分析類需求的擴展提供(tígōng)歷史數(shù)據(jù)支撐建模方式及原則數(shù)據(jù)模型與ODS層一致(3NF)不做清洗轉(zhuǎn)換處理為支持數(shù)據(jù)重跑可額外增加數(shù)據(jù)業(yè)務日期字段可按天、月、年進行分表用增量ODS層數(shù)據(jù)和前一天DWD相關表進行merge處理第十七頁,共29頁。DW模型(móxíng)架構(gòu)第三層介紹-DW層功能為DM,ST層提供細粒度數(shù)據(jù),細化成DWB和DWSDWB是根據(jù)DWD明細數(shù)據(jù)進行清洗轉(zhuǎn)換,如維度轉(zhuǎn)代理鍵、身份證清洗、會員注冊(zhùcè)來源清洗、字段合并、空值處理、臟數(shù)據(jù)處理、IP清洗轉(zhuǎn)換、賬戶余額清洗、資金來源清洗等DWS是根據(jù)DWB層數(shù)據(jù)按各個維度ID進行粗粒度匯總聚合,如按交易來源,交易類型進行匯總建模方式及原則聚合、匯總增加派生事實關聯(lián)其它主題的事實表,DW層可能會跨主題域DWB保持低粒度匯總加工數(shù)據(jù),DWS保持高粒度匯總數(shù)據(jù)數(shù)據(jù)模型可能采用反范式設計,合并信息等第十八頁,共29頁。DW模型(móxíng)架構(gòu)第三層介紹-DW層第十九頁,共29頁。DW模型架構(gòu)(jiàɡòu)第四層介紹-DM層功能這一層可以是一些寬表,是根據(jù)(gēnjù)DW層數(shù)據(jù)按照各種維度或多種維度組合把需要查詢的一些事實字段進行匯總統(tǒng)計并作為單獨的列進行存儲滿足一些特定查詢、數(shù)據(jù)挖掘應用應用集市數(shù)據(jù)存儲建模方式及原則盡量減少數(shù)據(jù)訪問時計算,優(yōu)化檢索維度建模,星形模型事實拉寬,度量預先計算分表存儲第二十頁,共29頁。DW模型架構(gòu)(jiàɡòu)第四層介紹-DM層第二十一頁,共29頁。DW模型架構(gòu)(jiàɡòu)第五層介紹-ST層功能ST層面向用戶應用和分析需求,包括前端報表、分析圖表、KPI、儀表盤、OLAP、專題等分析,面向最終結(jié)果用戶適合作OLAP、報表模型,如ROLAP,MOLAP根據(jù)(gēnjù)DW層經(jīng)過聚合匯總統(tǒng)計后的粗粒度事實表建模方式及原則保持數(shù)據(jù)量小維度建模,星形模型各種維度代理鍵+度量增加數(shù)據(jù)業(yè)務日期字段,支持數(shù)據(jù)重跑不分表存儲第二十二頁,共29頁。DW模型架構(gòu)(jiàɡòu)第五層介紹-ST層第二十三頁,共29頁。細化DW建模對DW中各個主題業(yè)務建模進行了細分,每個層次具有不同的功能。保留了最細粒度數(shù)據(jù)滿足了不同維度,不同事實的信息滿足數(shù)據(jù)重新生成不同層次的數(shù)據(jù)支持數(shù)據(jù)重新生成無需備份(bèifèn)恢復解決了由不同故障帶來的數(shù)據(jù)質(zhì)量問題消除了重新初始化數(shù)據(jù)的煩惱減少應用對DW的壓力以業(yè)務應用驅(qū)動為向?qū)Ы?,通過ST、DM層提供數(shù)據(jù)避免直接操作基礎事實表降低數(shù)據(jù)獲取時間快速適應需求變更適應維度變化明細基礎數(shù)據(jù)層穩(wěn)定,適應前端應用層業(yè)務需求變更所有前端應用層模型之間不存在依賴,需求變更對DW整個模型影響范圍小能適應短周期內(nèi)上線下線需求DW五層模型(móxíng)架構(gòu)特點第二十四頁,共29頁。數(shù)據(jù)倉庫建設(jiànshè)規(guī)范表命名規(guī)范(guīfàn)程序命名規(guī)范(guīfàn)開發(fā)模板通用SQL文檔第二十五頁,共29頁。數(shù)據(jù)倉庫建設(jiànshè)規(guī)范表命名規(guī)范表名命名格式說明[層次]_[主題][_表內(nèi)容]_[分表規(guī)則]T表命名格式說明T_[層次]_[主題][_表內(nèi)容]臨時表名命名格式說明[tmp]_所屬程序(chéngxù)名_[自定義序號1..10][temp]_[操作者縮寫]_YYYYMMDD_[表內(nèi)容]視圖命名格式說明V_[表名]DWB層視圖仍以DWB_開頭,為了兼容日后業(yè)務變動第二十六頁,共29頁。數(shù)據(jù)倉庫建設(jiànshè)規(guī)范表命名解釋層次ODS,DWD,DWB,DWS,DM,ST如ODS_TRD_TRADE_BASE_YYYYMMDD,DWD_TRD_TRADE_BASE_YYYYMMDD;表內(nèi)容表名視圖(shìtú)名總長度不超過64個字符ODS層和DWD層:[層次]_[主題]_[業(yè)務系統(tǒng)表名字]_[分表規(guī)則]DWB(含)以上層次表名字:[層次]_[主題]_[有意義的縮寫]_[分表規(guī)則]盡量詳盡說明表的具體內(nèi)容分表規(guī)則日表YYYYMMDD月表YYYYMM日匯總D

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論