數(shù)據(jù)倉庫及ETL2016課件_第1頁
數(shù)據(jù)倉庫及ETL2016課件_第2頁
數(shù)據(jù)倉庫及ETL2016課件_第3頁
數(shù)據(jù)倉庫及ETL2016課件_第4頁
數(shù)據(jù)倉庫及ETL2016課件_第5頁
已閱讀5頁,還剩85頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

數(shù)據(jù)倉庫及ETL介紹

數(shù)據(jù)集成事業(yè)部周欣欣

zhouxinxin@2016.09數(shù)據(jù)倉庫及ETL介紹數(shù)據(jù)集成事業(yè)部目錄基礎(chǔ)概念I(lǐng)nformatica組件詳解InformaticaKB介紹ETL系統(tǒng)介紹目錄基礎(chǔ)概念I(lǐng)nformatica組件詳解Informat1、數(shù)據(jù)倉庫數(shù)據(jù)倉庫是一個:面向主題的(SubjectOriented)集成的(Integrate)相對穩(wěn)定的(Non-Volatile)反映歷史變化(TimeVariant)的數(shù)據(jù)集合1、數(shù)據(jù)倉庫數(shù)據(jù)倉庫是一個:1、數(shù)據(jù)倉庫數(shù)據(jù)倉庫是一個:面向主題的(SubjectOriented)集成的(Integrate)相對穩(wěn)定的(Non-Volatile)反映歷史變化(TimeVariant)的數(shù)據(jù)集合1、數(shù)據(jù)倉庫數(shù)據(jù)倉庫是一個:1、數(shù)據(jù)倉庫的特點面向主題的(SubjectOriented)數(shù)據(jù)是面向應(yīng)用程序事務(wù)的,而數(shù)據(jù)倉庫中數(shù)據(jù)的是按商業(yè)主題存放的,商業(yè)主題會隨著企業(yè)的不同而不同。集成的(Integrate)在將不同來源的數(shù)據(jù)存入數(shù)據(jù)倉庫中之前,必須把這些不同的數(shù)據(jù)元素標準化,對數(shù)據(jù)進行清洗、轉(zhuǎn)換等集成操作。相對穩(wěn)定的(Non-Volatile)一旦某個數(shù)據(jù)進入數(shù)據(jù)倉庫以后,一般情況下將被長期保留,也就是數(shù)據(jù)倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。反映歷史變化(TimeVariant)數(shù)據(jù)倉庫中的數(shù)據(jù)通常包含歷史信息,系統(tǒng)記錄了企業(yè)從過去某一時點到目前的各個階段的信。1、數(shù)據(jù)倉庫的特點面向主題的(SubjectOriente主題與主題域主題面向主題的數(shù)據(jù)組織方式,就是在較高層次上對分析對象數(shù)據(jù)的一個完整并且一致的描述,能刻畫各個分析對象所涉及的企業(yè)各項數(shù)據(jù),以及數(shù)據(jù)之間的聯(lián)系。主題域主題域是對某個主題進行分析后確定的主題的邊界主題與主題域主題主題域主題與主題域主題與主題域:財務(wù):資金籌集、資金配置、資本結(jié)構(gòu)、現(xiàn)金創(chuàng)造、現(xiàn)金管理資產(chǎn)質(zhì)量、盈利能力、債務(wù)風險、成本、費用、差旅人力資源:人員、薪酬、職位、員工關(guān)懷、人員流動、技能提升資產(chǎn):固定資產(chǎn)、資產(chǎn)使用、資產(chǎn)維護、折舊、殘值經(jīng)營分析:流量、生產(chǎn)保障、精細化管理、運營效率、設(shè)施效率主題與主題域主題與主題域:主題與主題域2022/12/9Inspurgroup主題與主題域2022/12/7Inspurgroup維度建模2022/12/9Inspurgroup維度建模:其最簡單的描述就是,按照事實表、維度表來構(gòu)建數(shù)據(jù)倉庫、數(shù)據(jù)集市。維度表:

維度表可以看作是用戶來分析數(shù)據(jù)的窗口,緯度表中包含事實數(shù)據(jù)表中事實記錄的特性,有些特性提供描述性信息,有些特性指定如何匯總事實數(shù)據(jù)表數(shù)據(jù),以便為分析者提供有用的信息,維度表包含幫助匯總數(shù)據(jù)的特性的層次結(jié)構(gòu)。事實表:在多維數(shù)據(jù)倉庫中,保存度量值的詳細值或事實的表稱為“事實表”。維度建模2022/12/7Inspurgroup維度建模:維度建模2022/12/9Inspurgroup簡單的說:

1、事實表就是你要關(guān)注的內(nèi)容;

2、維表就是你觀察該事務(wù)的角度,是從哪個角度去觀察這個內(nèi)容的。

維度建模2022/12/7Inspurgroup簡單的說:星形模型與雪花模型2022/12/9Inspurgroup星形模型與雪花模型2022/12/7Inspurgroup雪花模型2022/12/9Inspurgroup雪花模型2022/12/7Inspurgroup星形模型與雪花模型2022/12/9Inspurgroup星形模型

一種使用關(guān)系數(shù)據(jù)庫實現(xiàn)多維分析空間的模式,稱為星型模式。星型模式的基本形式必須實現(xiàn)多維空間(常常被稱為方塊),以使用關(guān)系數(shù)據(jù)庫的基本功能。雪花模式不管什么原因,當星型模式的維度需要進行規(guī)范化時,星型模式就演進為雪花模式。星形模型與雪花模型2022/12/7Inspurgroup星形模型缺點2022/12/9InspurgroupBenefits:SimplerqueriesSimplifiedbusinessreportinglogicQueryperformancegainsExpansibilityDisadvantagesredundancydataHarderComplexQueries

星形模型缺點2022/12/7InspurgroupBen緩慢變化維2022/12/9InspurgroupSupplier_KeySupplier_CodeSupplier_NameSupplier_State123ABCAcmeSupplyCoCASupplier_KeySupplier_CodeSupplier_NameSupplier_State123ABCAcmeSupplyCoILoriginalNow緩慢變化維2022/12/7InspurgroupSupp緩慢變化維處理方式2022/12/9InspurgroupType0:retainoriginalType1:overwriteType2:addnewrowType3:addnewattributeType4:addhistorytableType6:hybrid緩慢變化維處理方式2022/12/7InspurgroupType2&TYPE32022/12/9InspurgroupSupplier_KeySupplier_CodeSupplier_NameSupplier_StateStart_DateEnd_Date123ABCAcmeSupplyCoCA01-Jan-200021-Dec-2004124ABCAcmeSupplyCoIL22-Dec-2004NULLSupplier_KeySupplier_CodeSupplier_NameOriginal_Supplier_StateEffective_DateCurrent_Supplier_State123ABCAcmeSupplyCoCA22-Dec-2004ILType2&TYPE32022/12/7InspurType4:addhistorytable

2022/12/9InspurgroupSupplier_keySupplier_CodeSupplier_NameSupplier_State124ABCAcme&JohnsonSupplyCoILSupplier_keySupplier_CodeSupplier_NameSupplier_StateCreate_Date123ABCAcmeSupplyCoCA14-June-2003124ABCAcme&JohnsonSupplyCoIL22-Dec-2004Type4:addhistorytable

2022Type62022/12/9InspurgroupSupplier_KeySupplier_CodeSupplier_NameCurrent_StateHistorical_StateStart_DateEnd_DateCurrent_Flag123ABCAcmeSupplyCoNYCA01-Jan-200021-Dec-2004N124ABCAcmeSupplyCoNYIL22-Dec-200403-Feb-2008N125ABCAcmeSupplyCoNYNY04-Feb-200831-Dec-2009YType62022/12/7InspurgroupSu代理主鍵2022/12/9Inspurgroup代理主鍵:

維度建模理論中,維表里使用原業(yè)務(wù)中的主鍵作為主鍵就是業(yè)務(wù)鍵(BusinessKey);建立新的主鍵就是代理鍵(SurrogateKey)為什么使用代理主鍵:性能主鍵重復(fù)代理主鍵2022/12/7Inspurgroup代理主鍵:一致性維度2022/12/9Inspurgroup一致性維度:當不同的維度表的屬性具有相同列名和領(lǐng)域內(nèi)容時,稱維度表具有一致性。利用一致性維度屬性與每個事實表關(guān)聯(lián),可將來自不同事實表的信息合并到同一報表中。建模四步驟:一致性維度2022/12/7Inspurgroup一致性維總線架構(gòu)2022/12/9Inspurgroup總線架構(gòu)2022/12/7Inspurgroup數(shù)據(jù)倉庫架構(gòu)2022/12/9Inspurgroup數(shù)據(jù)倉庫架構(gòu)2022/12/7Inspurgroup快速判斷數(shù)據(jù)倉庫水平2022/12/9Inspurgroup有沒有帶緩慢變化維度一致性維度有沒有跨層取數(shù)的現(xiàn)象快速判斷數(shù)據(jù)倉庫水平2022/12/7InspurgrouETL34個子系統(tǒng)抽取在ETL環(huán)境中從源系統(tǒng)收集原始數(shù)據(jù)并且在任何對數(shù)據(jù)的重要重構(gòu)發(fā)生之前都將數(shù)據(jù)寫入磁盤。子系統(tǒng)1到子系統(tǒng)3都支持抽取過程。清洗和一致化通過ETL系統(tǒng)中的一系列處理步驟發(fā)送源數(shù)據(jù),這些步驟提高了從源系統(tǒng)接收數(shù)據(jù)的質(zhì)量,并且對兩個或多個源系統(tǒng)中的數(shù)據(jù)進行了合并,創(chuàng)建并強化了一致性維度和一致性度量。子系統(tǒng)4到子系統(tǒng)8描述了支持清洗和一致化過程所需的架構(gòu)。ETL34個子系統(tǒng)抽取ETL34個子系統(tǒng)提交從物理上將數(shù)據(jù)組織和裝載到呈現(xiàn)服務(wù)器的目標維度模型中。子系統(tǒng)9到子系統(tǒng)21提供了若干種將數(shù)據(jù)提交到服務(wù)器上的功能。管理用一致的方式來管理ETL環(huán)境中的相關(guān)系統(tǒng)和過程。子系統(tǒng)22到子系統(tǒng)34都描述了支持ETL系統(tǒng)現(xiàn)行管理所需的組件。ETL34個子系統(tǒng)提交2627抽取子系統(tǒng)1--數(shù)據(jù)探查子系統(tǒng)2--變化數(shù)據(jù)捕捉系統(tǒng)審計列定時抽取完全差異比較數(shù)據(jù)庫日志刮取消息隊列監(jiān)視27抽取子系統(tǒng)1--數(shù)據(jù)探查28抽取子系統(tǒng)3--抽取系統(tǒng)文件FTPWEBSERVICE數(shù)據(jù)庫接口28抽取子系統(tǒng)3--抽取系統(tǒng)數(shù)據(jù)的清洗和一致化子系統(tǒng)4--數(shù)據(jù)清洗系統(tǒng)對數(shù)據(jù)質(zhì)量問題的早期診斷和鑒別分類:

完整性、一致性、準確性、及時性讓源系統(tǒng)和集成工作提供更優(yōu)質(zhì)的數(shù)據(jù)具有為ETL過程中遇到的數(shù)據(jù)錯誤提供特定描述的功能具有能夠隨著時間推移捕捉所有數(shù)據(jù)質(zhì)量錯誤和度量數(shù)據(jù)質(zhì)量的框架對最終數(shù)據(jù)的質(zhì)量可信度進行度量的附加功能數(shù)據(jù)的清洗和一致化子系統(tǒng)4--數(shù)據(jù)清洗系統(tǒng)數(shù)據(jù)的清洗和一致化2022/12/9Inspurgroup子系統(tǒng)5--錯誤事件模式子系統(tǒng)6--審計維裝配器數(shù)據(jù)的清洗和一致化2022/12/7Inspurgroup數(shù)據(jù)的清洗和一致化2022/12/9Inspurgroup子系統(tǒng)7--重復(fù)數(shù)據(jù)刪除系統(tǒng)子系統(tǒng)8--一致化系統(tǒng)子系統(tǒng)9--向呈現(xiàn)層交付數(shù)據(jù)子系統(tǒng)9--緩慢變化維管理器子系統(tǒng)10--代理鍵生成器子系統(tǒng)11--層次管理器數(shù)據(jù)的清洗和一致化2022/12/7Inspurgroup數(shù)據(jù)的清洗和一致化2022/12/9Inspurgroup子系統(tǒng)12--專用維度管理器日期/時間維雜項維微型維(視圖維度)小型靜態(tài)維用戶維護的維度子系統(tǒng)13--事實表構(gòu)建器事務(wù)處理粒度事實表裝載器周期快照事實表裝載器累積快照事實表裝載器數(shù)據(jù)的清洗和一致化2022/12/7Inspurgroup數(shù)據(jù)的清洗和一致化2022/12/9Inspurgroup子系統(tǒng)14--代理鍵管道子系統(tǒng)15--多值維度橋接表構(gòu)建器子系統(tǒng)16--延遲到達數(shù)據(jù)處理器子系統(tǒng)17--維度管理系統(tǒng)子系統(tǒng)18--事實提供系統(tǒng)子系統(tǒng)19--聚集構(gòu)建器子系統(tǒng)20--OLAP多維數(shù)據(jù)集構(gòu)建器子系統(tǒng)21--數(shù)據(jù)傳播管理器數(shù)據(jù)的清洗和一致化2022/12/7Inspurgroup管理ETL環(huán)境子系統(tǒng)22--作業(yè)調(diào)度器子系統(tǒng)23--備份系統(tǒng)子系統(tǒng)24--恢復(fù)和重啟系統(tǒng)子系統(tǒng)25--版本控制系統(tǒng)子系統(tǒng)26--版本遷移系統(tǒng)子系統(tǒng)27--工作流監(jiān)視器子系統(tǒng)28--排序系統(tǒng)?子系統(tǒng)29--沿襲和依賴分析器子系統(tǒng)30--問題自動調(diào)整系統(tǒng)子系統(tǒng)31--并行/管道系統(tǒng)子系統(tǒng)32--安全系統(tǒng)子系統(tǒng)33--合規(guī)性管理器管理ETL環(huán)境子系統(tǒng)22--作業(yè)調(diào)度器管理ETL環(huán)境子系統(tǒng)34--元數(shù)據(jù)知識庫管理器技術(shù)元數(shù)據(jù)業(yè)務(wù)元數(shù)據(jù)運行元數(shù)據(jù)管理ETL環(huán)境子系統(tǒng)34--元數(shù)據(jù)知識庫管理器36Informatica整體架構(gòu)36Informatica整體架構(gòu)37兩個服務(wù)器端和五個客戶端組件服務(wù)器端RepositoryServerInformatcaServer客戶端RepositoryManagerDesignerWorkflowManagerWorkflowMonitorRepositoryServerAdministrationConsole37兩個服務(wù)器端和五個客戶端組件服務(wù)器端38五個客戶端組件的作用RepositoryManager

元數(shù)據(jù)資料庫,依賴分析,安全性管理等。Designer定義源和目標數(shù)據(jù)結(jié)構(gòu),設(shè)計轉(zhuǎn)換規(guī)則,生成ETL映射。WorkflowManager

合理地實現(xiàn)復(fù)雜的ETL工作流,基于時間或事件的作業(yè)調(diào)度。WorkflowMonitor監(jiān)控workflow和session,生成工作日志及報告。RepositoryServerAdministrationConsole

Repository的建立與維護38五個客戶端組件的作用RepositoryManager39INFA安裝配置依賴:OracleDB2或SQLSERVER的DBA權(quán)限安裝配置過程:點擊Server軟件包setup.exe完成安裝登錄控制臺創(chuàng)建RS,IS,把RS由獨占模式改為普通模式點擊Client軟件包setup.exe配置連接信息,連接到服務(wù)器端39INFA安裝配置依賴:OracleDB2或SQLS客戶端和服務(wù)端端組件40服務(wù)器端RepositoryServerInformatcaServer客戶端RepositoryManagerDesignerWorkflowManagerWorkflowMonitorRepositoryServerAdministrationConsole客戶端和服務(wù)端端組件40服務(wù)器端INFA組件組件41源、目標SQqualifierExpressionJoinerSorterFilterINFA組件組件41源、目標INFA組件2022/12/9SequenceGeneratorAggregatorRouterUnionSQLUpdateStrategyLOOPUPINFA組件2022/12/7SequenceGenera其他2022/12/9MappletworkflowWorklet其他2022/12/7Mapplet謝謝!謝謝!謝謝!謝謝!數(shù)據(jù)倉庫及ETL介紹

數(shù)據(jù)集成事業(yè)部周欣欣

zhouxinxin@2016.09數(shù)據(jù)倉庫及ETL介紹數(shù)據(jù)集成事業(yè)部目錄基礎(chǔ)概念I(lǐng)nformatica組件詳解InformaticaKB介紹ETL系統(tǒng)介紹目錄基礎(chǔ)概念I(lǐng)nformatica組件詳解Informat1、數(shù)據(jù)倉庫數(shù)據(jù)倉庫是一個:面向主題的(SubjectOriented)集成的(Integrate)相對穩(wěn)定的(Non-Volatile)反映歷史變化(TimeVariant)的數(shù)據(jù)集合1、數(shù)據(jù)倉庫數(shù)據(jù)倉庫是一個:1、數(shù)據(jù)倉庫數(shù)據(jù)倉庫是一個:面向主題的(SubjectOriented)集成的(Integrate)相對穩(wěn)定的(Non-Volatile)反映歷史變化(TimeVariant)的數(shù)據(jù)集合1、數(shù)據(jù)倉庫數(shù)據(jù)倉庫是一個:1、數(shù)據(jù)倉庫的特點面向主題的(SubjectOriented)數(shù)據(jù)是面向應(yīng)用程序事務(wù)的,而數(shù)據(jù)倉庫中數(shù)據(jù)的是按商業(yè)主題存放的,商業(yè)主題會隨著企業(yè)的不同而不同。集成的(Integrate)在將不同來源的數(shù)據(jù)存入數(shù)據(jù)倉庫中之前,必須把這些不同的數(shù)據(jù)元素標準化,對數(shù)據(jù)進行清洗、轉(zhuǎn)換等集成操作。相對穩(wěn)定的(Non-Volatile)一旦某個數(shù)據(jù)進入數(shù)據(jù)倉庫以后,一般情況下將被長期保留,也就是數(shù)據(jù)倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。反映歷史變化(TimeVariant)數(shù)據(jù)倉庫中的數(shù)據(jù)通常包含歷史信息,系統(tǒng)記錄了企業(yè)從過去某一時點到目前的各個階段的信。1、數(shù)據(jù)倉庫的特點面向主題的(SubjectOriente主題與主題域主題面向主題的數(shù)據(jù)組織方式,就是在較高層次上對分析對象數(shù)據(jù)的一個完整并且一致的描述,能刻畫各個分析對象所涉及的企業(yè)各項數(shù)據(jù),以及數(shù)據(jù)之間的聯(lián)系。主題域主題域是對某個主題進行分析后確定的主題的邊界主題與主題域主題主題域主題與主題域主題與主題域:財務(wù):資金籌集、資金配置、資本結(jié)構(gòu)、現(xiàn)金創(chuàng)造、現(xiàn)金管理資產(chǎn)質(zhì)量、盈利能力、債務(wù)風險、成本、費用、差旅人力資源:人員、薪酬、職位、員工關(guān)懷、人員流動、技能提升資產(chǎn):固定資產(chǎn)、資產(chǎn)使用、資產(chǎn)維護、折舊、殘值經(jīng)營分析:流量、生產(chǎn)保障、精細化管理、運營效率、設(shè)施效率主題與主題域主題與主題域:主題與主題域2022/12/9Inspurgroup主題與主題域2022/12/7Inspurgroup維度建模2022/12/9Inspurgroup維度建模:其最簡單的描述就是,按照事實表、維度表來構(gòu)建數(shù)據(jù)倉庫、數(shù)據(jù)集市。維度表:

維度表可以看作是用戶來分析數(shù)據(jù)的窗口,緯度表中包含事實數(shù)據(jù)表中事實記錄的特性,有些特性提供描述性信息,有些特性指定如何匯總事實數(shù)據(jù)表數(shù)據(jù),以便為分析者提供有用的信息,維度表包含幫助匯總數(shù)據(jù)的特性的層次結(jié)構(gòu)。事實表:在多維數(shù)據(jù)倉庫中,保存度量值的詳細值或事實的表稱為“事實表”。維度建模2022/12/7Inspurgroup維度建模:維度建模2022/12/9Inspurgroup簡單的說:

1、事實表就是你要關(guān)注的內(nèi)容;

2、維表就是你觀察該事務(wù)的角度,是從哪個角度去觀察這個內(nèi)容的。

維度建模2022/12/7Inspurgroup簡單的說:星形模型與雪花模型2022/12/9Inspurgroup星形模型與雪花模型2022/12/7Inspurgroup雪花模型2022/12/9Inspurgroup雪花模型2022/12/7Inspurgroup星形模型與雪花模型2022/12/9Inspurgroup星形模型

一種使用關(guān)系數(shù)據(jù)庫實現(xiàn)多維分析空間的模式,稱為星型模式。星型模式的基本形式必須實現(xiàn)多維空間(常常被稱為方塊),以使用關(guān)系數(shù)據(jù)庫的基本功能。雪花模式不管什么原因,當星型模式的維度需要進行規(guī)范化時,星型模式就演進為雪花模式。星形模型與雪花模型2022/12/7Inspurgroup星形模型缺點2022/12/9InspurgroupBenefits:SimplerqueriesSimplifiedbusinessreportinglogicQueryperformancegainsExpansibilityDisadvantagesredundancydataHarderComplexQueries

星形模型缺點2022/12/7InspurgroupBen緩慢變化維2022/12/9InspurgroupSupplier_KeySupplier_CodeSupplier_NameSupplier_State123ABCAcmeSupplyCoCASupplier_KeySupplier_CodeSupplier_NameSupplier_State123ABCAcmeSupplyCoILoriginalNow緩慢變化維2022/12/7InspurgroupSupp緩慢變化維處理方式2022/12/9InspurgroupType0:retainoriginalType1:overwriteType2:addnewrowType3:addnewattributeType4:addhistorytableType6:hybrid緩慢變化維處理方式2022/12/7InspurgroupType2&TYPE32022/12/9InspurgroupSupplier_KeySupplier_CodeSupplier_NameSupplier_StateStart_DateEnd_Date123ABCAcmeSupplyCoCA01-Jan-200021-Dec-2004124ABCAcmeSupplyCoIL22-Dec-2004NULLSupplier_KeySupplier_CodeSupplier_NameOriginal_Supplier_StateEffective_DateCurrent_Supplier_State123ABCAcmeSupplyCoCA22-Dec-2004ILType2&TYPE32022/12/7InspurType4:addhistorytable

2022/12/9InspurgroupSupplier_keySupplier_CodeSupplier_NameSupplier_State124ABCAcme&JohnsonSupplyCoILSupplier_keySupplier_CodeSupplier_NameSupplier_StateCreate_Date123ABCAcmeSupplyCoCA14-June-2003124ABCAcme&JohnsonSupplyCoIL22-Dec-2004Type4:addhistorytable

2022Type62022/12/9InspurgroupSupplier_KeySupplier_CodeSupplier_NameCurrent_StateHistorical_StateStart_DateEnd_DateCurrent_Flag123ABCAcmeSupplyCoNYCA01-Jan-200021-Dec-2004N124ABCAcmeSupplyCoNYIL22-Dec-200403-Feb-2008N125ABCAcmeSupplyCoNYNY04-Feb-200831-Dec-2009YType62022/12/7InspurgroupSu代理主鍵2022/12/9Inspurgroup代理主鍵:

維度建模理論中,維表里使用原業(yè)務(wù)中的主鍵作為主鍵就是業(yè)務(wù)鍵(BusinessKey);建立新的主鍵就是代理鍵(SurrogateKey)為什么使用代理主鍵:性能主鍵重復(fù)代理主鍵2022/12/7Inspurgroup代理主鍵:一致性維度2022/12/9Inspurgroup一致性維度:當不同的維度表的屬性具有相同列名和領(lǐng)域內(nèi)容時,稱維度表具有一致性。利用一致性維度屬性與每個事實表關(guān)聯(lián),可將來自不同事實表的信息合并到同一報表中。建模四步驟:一致性維度2022/12/7Inspurgroup一致性維總線架構(gòu)2022/12/9Inspurgroup總線架構(gòu)2022/12/7Inspurgroup數(shù)據(jù)倉庫架構(gòu)2022/12/9Inspurgroup數(shù)據(jù)倉庫架構(gòu)2022/12/7Inspurgroup快速判斷數(shù)據(jù)倉庫水平2022/12/9Inspurgroup有沒有帶緩慢變化維度一致性維度有沒有跨層取數(shù)的現(xiàn)象快速判斷數(shù)據(jù)倉庫水平2022/12/7InspurgrouETL34個子系統(tǒng)抽取在ETL環(huán)境中從源系統(tǒng)收集原始數(shù)據(jù)并且在任何對數(shù)據(jù)的重要重構(gòu)發(fā)生之前都將數(shù)據(jù)寫入磁盤。子系統(tǒng)1到子系統(tǒng)3都支持抽取過程。清洗和一致化通過ETL系統(tǒng)中的一系列處理步驟發(fā)送源數(shù)據(jù),這些步驟提高了從源系統(tǒng)接收數(shù)據(jù)的質(zhì)量,并且對兩個或多個源系統(tǒng)中的數(shù)據(jù)進行了合并,創(chuàng)建并強化了一致性維度和一致性度量。子系統(tǒng)4到子系統(tǒng)8描述了支持清洗和一致化過程所需的架構(gòu)。ETL34個子系統(tǒng)抽取ETL34個子系統(tǒng)提交從物理上將數(shù)據(jù)組織和裝載到呈現(xiàn)服務(wù)器的目標維度模型中。子系統(tǒng)9到子系統(tǒng)21提供了若干種將數(shù)據(jù)提交到服務(wù)器上的功能。管理用一致的方式來管理ETL環(huán)境中的相關(guān)系統(tǒng)和過程。子系統(tǒng)22到子系統(tǒng)34都描述了支持ETL系統(tǒng)現(xiàn)行管理所需的組件。ETL34個子系統(tǒng)提交7172抽取子系統(tǒng)1--數(shù)據(jù)探查子系統(tǒng)2--變化數(shù)據(jù)捕捉系統(tǒng)審計列定時抽取完全差異比較數(shù)據(jù)庫日志刮取消息隊列監(jiān)視27抽取子系統(tǒng)1--數(shù)據(jù)探查73抽取子系統(tǒng)3--抽取系統(tǒng)文件FTPWEBSERVICE數(shù)據(jù)庫接口28抽取子系統(tǒng)3--抽取系統(tǒng)數(shù)據(jù)的清洗和一致化子系統(tǒng)4--數(shù)據(jù)清洗系統(tǒng)對數(shù)據(jù)質(zhì)量問題的早期診斷和鑒別分類:

完整性、一致性、準確性、及時性讓源系統(tǒng)和集成工作提供更優(yōu)質(zhì)的數(shù)據(jù)具有為ETL過程中遇到的數(shù)據(jù)錯誤提供特定描述的功能具有能夠隨著時間推移捕捉所有數(shù)據(jù)質(zhì)量錯誤和度量數(shù)據(jù)質(zhì)量的框架對最終數(shù)據(jù)的質(zhì)量可信度進行度量的附加功能數(shù)據(jù)的清洗和一致化子系統(tǒng)4--數(shù)據(jù)清洗系統(tǒng)數(shù)據(jù)的清洗和一致化2022/12/9Inspurgroup子系統(tǒng)5--錯誤事件模式子系統(tǒng)6--審計維裝配器數(shù)據(jù)的清洗和一致化2022/12/7Inspurgroup數(shù)據(jù)的清洗和一致化2022/12/9Inspurgroup子系統(tǒng)7--重復(fù)數(shù)據(jù)刪除系統(tǒng)子系統(tǒng)8--一致化系統(tǒng)子系統(tǒng)9--向呈現(xiàn)層交付數(shù)據(jù)子系統(tǒng)9--緩慢變化維管理器子系統(tǒng)10--代理鍵生成器子系統(tǒng)11--層次管理器數(shù)據(jù)的清洗和一致化2022/12/7Inspurgroup數(shù)據(jù)的清洗和一致化2022/12/9Inspurgroup子系統(tǒng)12--專用維度管理器日期/時間維雜項維微型維(視圖維度)小型靜態(tài)維用戶維護的維度子系統(tǒng)13--事實表構(gòu)建器事務(wù)處理粒度事實表裝載器周期快照事實表裝載器累積快照事實表裝載器數(shù)據(jù)的清洗和一致化2022/12/7Inspurgroup數(shù)據(jù)的清洗和一致化2022/12/9Inspurgroup子系統(tǒng)14--代理鍵管道子系統(tǒng)15--多值維度橋接表構(gòu)建器子系統(tǒng)16--延遲到達數(shù)據(jù)處理器子系統(tǒng)17--維度管理系統(tǒng)子系統(tǒng)18--事實提供系統(tǒng)子系統(tǒng)19--聚集構(gòu)建器子系統(tǒng)20--OLAP多維數(shù)據(jù)集構(gòu)建器子系統(tǒng)21--數(shù)據(jù)傳播管理器數(shù)據(jù)的清洗和一致化2022/12/7Inspurgroup管理ETL環(huán)境子系統(tǒng)22--作業(yè)調(diào)度器子系統(tǒng)23--備份系統(tǒng)子系統(tǒng)24--恢復(fù)和重啟系統(tǒng)子系統(tǒng)25--版本控制系統(tǒng)子系統(tǒng)26--版本遷移系統(tǒng)子系統(tǒng)27--工作流監(jiān)視器

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論