文檔簡介
第
6
章
數(shù)據(jù)倉庫中的數(shù)據(jù)集成目
錄6.1
數(shù)據(jù)倉庫概念6.2
數(shù)據(jù)集成6.3
ETL6.4
CDC6.1數(shù)據(jù)倉庫概念數(shù)據(jù)倉庫的概念01
傳統(tǒng)的數(shù)據(jù)倉庫02
實(shí)時(shí)主動(dòng)數(shù)據(jù)倉庫數(shù)據(jù)倉庫概念面向主題集成數(shù)據(jù)倉庫AB反映歷史變化D相對(duì)穩(wěn)定C數(shù)據(jù)倉庫的數(shù)據(jù)來自于分散的操作型數(shù)據(jù),將所需數(shù)據(jù)從原來的數(shù)據(jù)中抽取出來,進(jìn)行加工與集成、統(tǒng)一與綜合之后才能進(jìn)入數(shù)據(jù)倉庫在構(gòu)建數(shù)據(jù)倉庫時(shí),會(huì)每隔一定的時(shí)間從數(shù)據(jù)源抽取數(shù)據(jù)并加載到數(shù)據(jù)倉庫,可用來進(jìn)行商務(wù)智能分析數(shù)據(jù)倉庫是不可更新的,數(shù)據(jù)倉庫是為決策分析提供數(shù)據(jù),所涉及操作主要是數(shù)據(jù)的查詢操作型數(shù)據(jù)庫的數(shù)據(jù)組織面向事務(wù)處理任務(wù),而數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題域進(jìn)行組織傳統(tǒng)的數(shù)據(jù)倉庫數(shù)據(jù)倉庫概念1月1日1月31日...分析一個(gè)商品在1月內(nèi)銷量變化反映歷史變化數(shù)據(jù)倉庫概念數(shù)據(jù)庫數(shù)據(jù)倉庫數(shù)據(jù)倉庫是面向主題設(shè)計(jì)的數(shù)據(jù)庫是面向事務(wù)的設(shè)計(jì)數(shù)據(jù)庫一般存儲(chǔ)在線交易數(shù)據(jù)數(shù)據(jù)倉庫存儲(chǔ)的一般是歷史數(shù)據(jù)數(shù)據(jù)倉庫概念圖
數(shù)據(jù)倉庫體系架構(gòu)數(shù)據(jù)倉庫概念不包含當(dāng)前數(shù)據(jù)經(jīng)過處理后加載到數(shù)據(jù)倉庫數(shù)據(jù)抽取周期為一個(gè)月一次、一周一次、或一天一次01實(shí)時(shí)主動(dòng)數(shù)據(jù)倉庫02數(shù)據(jù)倉庫傳統(tǒng)的數(shù)據(jù)倉庫實(shí)時(shí)捕獲數(shù)據(jù)源中發(fā)生的變化根據(jù)預(yù)先設(shè)置的規(guī)則做出戰(zhàn)術(shù)決策數(shù)據(jù)倉庫概念圖
實(shí)時(shí)主動(dòng)數(shù)據(jù)倉庫的體系結(jié)構(gòu)實(shí)時(shí)主動(dòng)數(shù)據(jù)倉庫6.2
數(shù)據(jù)集成數(shù)據(jù)集成01
數(shù)據(jù)集成方式03數(shù)據(jù)集成技術(shù)02數(shù)據(jù)分發(fā)方式數(shù)據(jù)集成方式和數(shù)據(jù)分發(fā)方式數(shù)
據(jù)
集
成腳
本ETL數(shù)據(jù)的批量加載CDC
技術(shù)數(shù)據(jù)集成方式和數(shù)據(jù)分發(fā)方式數(shù)據(jù)集成方式數(shù)據(jù)整合數(shù)據(jù)聯(lián)邦數(shù)據(jù)傳播混合方法使數(shù)據(jù)源中發(fā)生的數(shù)據(jù)變化及時(shí)反映到數(shù)據(jù)倉庫中,保證為實(shí)時(shí)應(yīng)用提供最新的數(shù)據(jù)實(shí)時(shí)主動(dòng)數(shù)據(jù)倉庫集成方法四種數(shù)據(jù)集成方式和數(shù)據(jù)分發(fā)方式數(shù)據(jù)整合邏輯視圖對(duì)外界應(yīng)用屏蔽數(shù)據(jù)在數(shù)據(jù)源的分布細(xì)節(jié),統(tǒng)一數(shù)據(jù)訪問入口集成整合不同應(yīng)用都使用的數(shù)據(jù)采用數(shù)據(jù)整合的方式進(jìn)行集成數(shù)據(jù)目標(biāo)利用ETL工具把數(shù)據(jù)源中的數(shù)據(jù)批量地加載到數(shù)據(jù)倉庫傳播消息在企業(yè)應(yīng)用集成解決方案中,不同應(yīng)用可以傳播消息進(jìn)行交互數(shù)
據(jù)
整
合數(shù)
據(jù)
聯(lián)
邦數(shù)
據(jù)
傳
播混
合
方
式數(shù)據(jù)集成方式和數(shù)據(jù)分發(fā)方式數(shù)據(jù)分發(fā)方式010203推(push)和拉(pull)周期和非周期一對(duì)一和一對(duì)多數(shù)據(jù)集成方式和數(shù)據(jù)分發(fā)方式推拉周期非周期一對(duì)一一對(duì)多數(shù)據(jù)分發(fā)選擇拉非周期一對(duì)一請(qǐng)求/響應(yīng)一對(duì)多請(qǐng)求/探測式響應(yīng)周期一對(duì)一輪詢一對(duì)多探測式輪詢推非周期一對(duì)一-------一對(duì)多發(fā)布/訂閱周期一對(duì)一發(fā)送電子郵件一對(duì)多電子郵件列表不同數(shù)據(jù)分發(fā)方式的組合數(shù)據(jù)集成技術(shù)腳本ETLEAICDC01020304數(shù)據(jù)集成技術(shù)腳
本優(yōu)點(diǎn)使用靈活且比較經(jīng)濟(jì)容易著手開發(fā)和進(jìn)行修改絕大部分DBMS可使用腳本缺點(diǎn)耗費(fèi)開發(fā)者的時(shí)間和精力不好管理和操作不能滿足服務(wù)水平協(xié)議數(shù)據(jù)集成技術(shù)ETLETL
任務(wù)通常都是在“維護(hù)時(shí)間窗口”進(jìn)行,數(shù)據(jù)源默認(rèn)不會(huì)發(fā)生變化數(shù)據(jù)集成技術(shù)EAIEAI解決方案演化成實(shí)時(shí)數(shù)據(jù)獲取和集成的解決方案,通常和ETL解決方案并存,增強(qiáng)ETL的功能調(diào)用應(yīng)用分發(fā)命令和消息實(shí)現(xiàn)應(yīng)用的集成數(shù)據(jù)集成技術(shù)CDCCDC
提供連續(xù)變化數(shù)據(jù)的捕捉和分發(fā)能力,且只需要很低的開銷和時(shí)間延遲(不到1s)能夠維護(hù)數(shù)據(jù)事務(wù)的一致性O(shè)LTP
系統(tǒng)數(shù)據(jù)倉庫數(shù)據(jù)集成技術(shù)屬性腳本ETLEAICDC數(shù)據(jù)量中等很高低高頻率間歇性間歇性連續(xù)性連續(xù)性延遲中到高中到高低低數(shù)據(jù)集成無無保證保證轉(zhuǎn)換中度高級(jí)基本基本處理開銷高高中等低表
不同數(shù)據(jù)集成技術(shù)的比較6.3ETLETL簡介和基本模塊ETL
工具
ETL
模式ETL
基本模塊ETL
簡介數(shù)據(jù)集成的關(guān)鍵技術(shù)ETL簡介和基本模塊ETL簡介將企業(yè)中的分散、零亂、標(biāo)準(zhǔn)不統(tǒng)一的數(shù)據(jù)整合到一起,為企業(yè)的決策提供分析依據(jù)ETL簡介和基本模塊ETL
任務(wù)通常都是在“維護(hù)時(shí)間窗口”進(jìn)行,數(shù)據(jù)源默認(rèn)不會(huì)發(fā)生變化ETL簡介和基本模塊3其他類型數(shù)據(jù)(消息隊(duì)列)2文
件1數(shù)據(jù)庫ETL簡介和基本模塊周期性的“拉”模式ETL支持基于數(shù)據(jù)整合的數(shù)據(jù)集成以批處理的方式工作“拉”模式采用在線方式工作“推”模式事件驅(qū)動(dòng)的“推”模式ETL簡介和基本模塊0102數(shù)
據(jù)
轉(zhuǎn)
換數(shù)
據(jù)
加
載數(shù)據(jù)重構(gòu)和整合數(shù)據(jù)內(nèi)容清洗或集成刷新整個(gè)目標(biāo)數(shù)據(jù)存儲(chǔ)對(duì)目標(biāo)數(shù)據(jù)存儲(chǔ)進(jìn)行增量更新ETL簡介和基本模塊本地?cái)?shù)據(jù)庫和應(yīng)用接口ODBCJDBCJMSETL簡介和基本模塊從平面文件和關(guān)系數(shù)據(jù)庫中捕捉數(shù)據(jù)→并把這些數(shù)據(jù)整合到數(shù)據(jù)倉庫中ETL簡介和基本模塊遺產(chǎn)數(shù)據(jù)、應(yīng)用打包XML文件、WEB日志、EAI源、WEB服務(wù)和非結(jié)構(gòu)化數(shù)據(jù)額外的數(shù)據(jù)源EAI目標(biāo)和WEB服務(wù)額外的目標(biāo)用戶自定義EXIT、數(shù)據(jù)剖析和數(shù)據(jù)質(zhì)量管理、支持標(biāo)準(zhǔn)編程語言、DBMS引擎開發(fā)和WEB服務(wù)改進(jìn)的數(shù)據(jù)轉(zhuǎn)換功能工作計(jì)劃和追蹤、元數(shù)據(jù)管理和錯(cuò)誤恢復(fù)
更好的管理01020304ETL簡介和基本模塊并行處理、負(fù)載平衡、緩存、支持本地DBMS應(yīng)用和數(shù)據(jù)加載接口更好的性能更好的可視化開發(fā)接口改進(jìn)的可用性支持外部安全包和外部網(wǎng)增強(qiáng)的安全性支持基于數(shù)據(jù)聯(lián)邦的數(shù)據(jù)集成方法05060708ETL簡介和基本模塊ETL
基本模塊數(shù)據(jù)抽取數(shù)據(jù)清洗與轉(zhuǎn)換數(shù)據(jù)加載ETL簡介和基本模塊ETL
基本模塊ETL簡介和基本模塊數(shù)據(jù)抽取確定數(shù)據(jù)源確定數(shù)據(jù)抽取方法定義數(shù)據(jù)接口ETL簡介和基本模塊數(shù)據(jù)清洗與轉(zhuǎn)換清洗與轉(zhuǎn)換不完整數(shù)據(jù)錯(cuò)誤數(shù)據(jù)重復(fù)數(shù)據(jù)空值處理數(shù)據(jù)標(biāo)準(zhǔn)數(shù)據(jù)拆分?jǐn)?shù)據(jù)驗(yàn)證數(shù)據(jù)替換數(shù)據(jù)關(guān)聯(lián)ETL簡介和基本模塊數(shù)據(jù)加載全量方式增量方式ETL
模式觸發(fā)器模式增量字段全量同步日志比對(duì)ETL
模式觸發(fā)器模式插
入修
改刪
除ETL
模式源表名稱更新的關(guān)鍵字值更新操作類型增量日志表ETL
模式
123優(yōu)/缺
點(diǎn)
4數(shù)據(jù)抽取的性能高ETL加載規(guī)則簡單速度快無需修改表結(jié)構(gòu)可實(shí)現(xiàn)數(shù)據(jù)的遞增加載要求業(yè)務(wù)表建立觸發(fā)器對(duì)業(yè)務(wù)系統(tǒng)有一定的影響容易對(duì)源數(shù)據(jù)庫構(gòu)成威脅ETL
模式增量字段在數(shù)據(jù)表中增加增量字段,時(shí)間戳字段就會(huì)被修改為相應(yīng)的系統(tǒng)時(shí)間,自增長字段就會(huì)增加ETL
模式0102030405抽取性能比較高判斷過程比較簡單ETL系統(tǒng)設(shè)計(jì)清晰源數(shù)據(jù)抽取相對(duì)清楚簡單可以實(shí)現(xiàn)數(shù)據(jù)的遞增加載未考慮到增量字段,需要對(duì)業(yè)務(wù)系統(tǒng)進(jìn)行改造,有可能出現(xiàn)漏數(shù)據(jù)的情況性
能設(shè)
計(jì)抽
取ETL
模式全量同步全表刪除插入方式每次抽取前先刪除目標(biāo)表數(shù)據(jù),抽取時(shí)全新加載數(shù)據(jù)ETL
模式不影響已有系統(tǒng)表結(jié)構(gòu)無需修改業(yè)務(wù)操作程序管理維護(hù)統(tǒng)一,無風(fēng)險(xiǎn)可實(shí)現(xiàn)數(shù)據(jù)遞增加載設(shè)計(jì)復(fù)雜,速度慢;被動(dòng)的進(jìn)行全表數(shù)據(jù)的比對(duì),性能較差;準(zhǔn)確性較差ETL
模式日志比對(duì)日
志
比
對(duì)日志文件結(jié)構(gòu)存在差異性訪
問
權(quán)
限ETL
模式CDC
技術(shù)捕獲變化數(shù)據(jù)捕獲刪除數(shù)據(jù)新
增更
新刪
除ETL
模式CDC優(yōu)缺點(diǎn)比較優(yōu)
點(diǎn)缺
點(diǎn)010203業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫版本與產(chǎn)品不統(tǒng)一難以統(tǒng)一實(shí)現(xiàn),實(shí)現(xiàn)過程相對(duì)復(fù)雜12ETL同步效率較高無需修改業(yè)務(wù)系統(tǒng)表結(jié)構(gòu)
可實(shí)現(xiàn)數(shù)據(jù)的遞增加載ETL
模式四種模式的比較ETL模式兼容性完備性抽取性能源庫壓力源庫改動(dòng)量實(shí)現(xiàn)難度觸發(fā)器模式關(guān)系型數(shù)據(jù)庫高優(yōu)高高容易增量字段關(guān)系型數(shù)據(jù)庫“具有字段”結(jié)構(gòu)的其它數(shù)據(jù)格式低較優(yōu)低高容易全表同步任何數(shù)據(jù)格式高極差中無容易日志比對(duì)關(guān)系型數(shù)據(jù)庫高較優(yōu)中中難ETL
工
具抽
取轉(zhuǎn)
換加
載ETL
工
具數(shù)據(jù)來自不同的物理主機(jī)減少開銷需要將數(shù)據(jù)整理成統(tǒng)一格式數(shù)據(jù)來源復(fù)雜處理海量數(shù)據(jù)123會(huì)導(dǎo)致數(shù)據(jù)庫資源不足ETLETL
工
具在選擇ETL工具時(shí)考慮因素集成性和開放性43對(duì)數(shù)據(jù)源的支持程度2抽取和裝載的性能1對(duì)平臺(tái)的支持程度管理和調(diào)度的功能65數(shù)據(jù)轉(zhuǎn)換和加工的功能ETL
工
具市場上主流的ETL工具GoldengateTalendDataxInformaticaDataPipelineKettleETL
工
具KettleJava編寫,可以在Windows、Linux、Unix上運(yùn)行,以一種指定的格式流出DataPipeline整合數(shù)據(jù)質(zhì)量分析、質(zhì)量校驗(yàn)、質(zhì)量監(jiān)控等,保證完整性、一致性、準(zhǔn)確性及唯一性Talend可以運(yùn)行于Hadoop集群之間,直接生成MapReduce代碼供Hadoop運(yùn)行Informatica包括InformaticaPowerCenter和InformaticaPowerExchangeDatax離線數(shù)據(jù)同步工具,可以實(shí)現(xiàn)各種異構(gòu)數(shù)據(jù)源之間高效的數(shù)據(jù)同步功能OracleGoldengate基于日志的結(jié)構(gòu)化數(shù)據(jù)復(fù)制軟件,實(shí)現(xiàn)大量交易數(shù)據(jù)的實(shí)時(shí)捕捉、變換和投遞6.4CDCCDC
的特性和組成數(shù)據(jù)集成主動(dòng)高效實(shí)時(shí)CDC
的特性和組成01020304CDC的特性CDC的組成CDC具體應(yīng)用場景需要考慮的問題CDC
的特性和組成CDC
的特性010203沒有宕機(jī)時(shí)間CDC可在操作型系統(tǒng)運(yùn)行時(shí)進(jìn)行變化數(shù)據(jù)的分發(fā)減少系統(tǒng)開銷只轉(zhuǎn)移變化的數(shù)據(jù),消耗的資源更少保持?jǐn)?shù)據(jù)新穎性頻繁甚至是實(shí)時(shí)地分發(fā)新數(shù)據(jù),提供及時(shí)的信息CDC
的特性CDC
的特性和組成CDC
的組成變化捕捉代理變化數(shù)據(jù)服務(wù)變化分發(fā)機(jī)制CDC
的組成010203CDC
的特性和組成變化分發(fā)機(jī)制把變化分發(fā)到變化的消費(fèi)者那里。變化分發(fā)機(jī)制可支持一個(gè)或多個(gè)消費(fèi)者負(fù)責(zé)確定和捕捉發(fā)生在操作型數(shù)據(jù)存儲(chǔ)源系統(tǒng)中的數(shù)據(jù)變化變化捕捉代理變化數(shù)據(jù)服務(wù)包括過濾、排序、附加數(shù)據(jù)、生命周期管理和審計(jì)CDC
的特性和組成使用數(shù)據(jù)庫觸發(fā)器數(shù)據(jù)日志比較優(yōu)
化對(duì)變化捕捉代理進(jìn)行專門優(yōu)化,使它適用于特定的源系統(tǒng)CDC
的特性和組成變化分發(fā)機(jī)制把變化分發(fā)到變化的消費(fèi)者那里。變化分發(fā)機(jī)制可支持一個(gè)或多個(gè)消費(fèi)者負(fù)責(zé)確定和捕捉發(fā)生在操作型數(shù)據(jù)存儲(chǔ)源系統(tǒng)中的數(shù)據(jù)變化變化捕捉代理變化數(shù)據(jù)服務(wù)包括過濾、排序、附加數(shù)據(jù)、生命周期管理和審計(jì)CDC
的特性和組成功能解釋過濾確保只接收已經(jīng)提交的數(shù)據(jù)排序接收數(shù)據(jù)時(shí)基于事務(wù)、表或時(shí)間戳進(jìn)行排序附加數(shù)據(jù)為分發(fā)的變化增加一些參考數(shù)據(jù)以便于對(duì)數(shù)據(jù)進(jìn)行進(jìn)一步的處理生命周期管理在多長時(shí)間內(nèi)應(yīng)用可以得到變化的數(shù)據(jù);多長時(shí)間以后丟棄所分發(fā)的數(shù)據(jù)審計(jì)允許對(duì)系統(tǒng)的端到端行為的監(jiān)聽和對(duì)趨勢的檢查CDC
的特性和組成變化分發(fā)機(jī)制把變化分發(fā)到變化的消費(fèi)者那里。變化分發(fā)機(jī)制可支持一個(gè)或多個(gè)消費(fèi)者負(fù)責(zé)確定和捕捉發(fā)生在操作型數(shù)據(jù)存儲(chǔ)源系統(tǒng)中的數(shù)據(jù)變化變化捕捉代理變化數(shù)據(jù)服務(wù)包括過濾、排序、附加數(shù)據(jù)、生命周期管理和審計(jì)CDC
的特性和組成變化分發(fā)機(jī)制推方式:用消息中間件實(shí)現(xiàn)拉方式:如ODBC或JDBC提供動(dòng)態(tài)返回和請(qǐng)求舊的變化CDC
具體應(yīng)用場景及需要考慮的問題CDC的具體應(yīng)用場景面向批處理的CDC面向?qū)崟r(shí)的CDCpullCDCpushCDCCDC
具體應(yīng)用場景及需要考慮的問題面向批處理的
CDC周期性地請(qǐng)求變化捕捉到的變化一天兩次15分鐘1次數(shù)據(jù)表標(biāo)準(zhǔn)接口CDC
具體應(yīng)用場景及需要考慮的問題面向批處理的
CDCETL只需要轉(zhuǎn)移變化的數(shù)據(jù)減少資源消耗宕機(jī)時(shí)間時(shí)
延傳統(tǒng)ETLCDC
具體應(yīng)用場景及需要考慮的問題面向?qū)崟r(shí)的CDC變化分發(fā)機(jī)制探測到變化push給ETL程序MQSeries零延遲CDC
具體應(yīng)用場景及需要考慮的問題面向消息面向事件EAI
產(chǎn)品零延遲最新的數(shù)據(jù)CDC
具體應(yīng)用場景及需要考慮的問題CDC需要考慮的問題23456178變化捕捉方法對(duì)操作型系統(tǒng)的入侵程度捕捉延遲過濾和排序服務(wù)支持多個(gè)消費(fèi)者失敗和恢復(fù)主機(jī)和遺產(chǎn)數(shù)據(jù)源和ETL工具的無縫集成CDC
具體應(yīng)用場景及需要考慮的問題延遲性可擴(kuò)展性對(duì)操作型系統(tǒng)入侵讀取日志文件數(shù)據(jù)庫觸發(fā)器數(shù)據(jù)比較編寫事件
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 正規(guī)足浴加盟合同協(xié)議
- 工業(yè)自動(dòng)化材料采購合同
- 地毯物流配送合同
- 全面升級(jí)旅游服務(wù)合同模板
- 石灰石購銷合同格式
- 學(xué)生個(gè)人衛(wèi)生保證書
- 電力設(shè)備招標(biāo)文件示范文本
- 補(bǔ)充協(xié)議勞工合同細(xì)節(jié)
- 專業(yè)電腦維護(hù)保養(yǎng)
- 抹灰分包工程勞務(wù)合同
- Camtasia_Studio使用教程
- 業(yè)務(wù)員手冊(cè)內(nèi)容
- 計(jì)劃分配率和實(shí)際分配率_CN
- 《紅燈停綠燈行》ppt課件
- 小學(xué)語文作文技巧六年級(jí)寫人文章寫作指導(dǎo)(課堂PPT)
- 《APQP培訓(xùn)資料》
- PWM脈寬直流調(diào)速系統(tǒng)設(shè)計(jì)及 matlab仿真驗(yàn)證
- 家具銷售合同,家居訂購訂貨協(xié)議A4標(biāo)準(zhǔn)版(精編版)
- 食品加工與保藏課件
- 有功、無功控制系統(tǒng)(AGCAVC)技術(shù)規(guī)范書
- 儲(chǔ)罐施工計(jì)劃
評(píng)論
0/150
提交評(píng)論