XX銀行數(shù)據(jù)倉庫建設(shè)項目方案_第1頁
XX銀行數(shù)據(jù)倉庫建設(shè)項目方案_第2頁
已閱讀5頁,還剩43頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、銀行數(shù)據(jù)倉庫建設(shè)方案文件1XX 銀行EDW數(shù)據(jù)倉庫項目方案目錄第一章系統(tǒng)總體架構(gòu).41.1總體架構(gòu)設(shè)計概述.41.1.1總體架構(gòu)的設(shè)計框架 .41.1.2總體架構(gòu)的設(shè)計原則 .51.1.3總體架構(gòu)的設(shè)計特點 .51.2 ED嗽行架構(gòu).61.2.1執(zhí)行架構(gòu)概述.61.2.2執(zhí)行架構(gòu)設(shè)計原則.61.2.3執(zhí)行架構(gòu)框架.71.3 EDV邏輯架構(gòu).1 41.3.1邏輯架構(gòu)框架.1 41.3.2數(shù)據(jù)處理流程 .2 01.4 EDW運維架構(gòu).2 11.4.1運維架構(gòu)概述.2 11.4.2運維架構(gòu)的邏輯框架.2 2銀行數(shù)據(jù)倉庫建設(shè)方案文件21.5 EDW數(shù)據(jù)架構(gòu).2 71.5.1數(shù)據(jù)架構(gòu)設(shè)計原則.2 71.

2、5.2數(shù)據(jù)架構(gòu)分層設(shè)計.2 91.6 EDV應(yīng)用架構(gòu).3 11.6.1應(yīng)用架構(gòu)設(shè)計原則 .3 11.6.2數(shù)據(jù)服務(wù).3 21.6.3應(yīng)用服務(wù).3 3第二章ETL體系建設(shè) .3 42.1 ETL架構(gòu)概述.3 4銀行數(shù)據(jù)倉庫建設(shè)方案文件32.2 ETL設(shè)計方案.3 62.3 ETL關(guān)鍵設(shè)計環(huán)節(jié) .3 62.3.1接口層設(shè)計策略.3 62.3.2 Staging Area設(shè)計策略 .3 62.3.3數(shù)據(jù)加載策略 .3 72.3.4增量ETL設(shè)計策略.3 72.3.5異常處理 .3 92.3.6作業(yè)調(diào)度和監(jiān)控 .4 02.3.7元數(shù)據(jù)管理.4 02.3.8 ETL模塊設(shè)計 .4 02.3.9 ETL流

3、程設(shè)計 .4 32.3.10動態(tài)資源分配 .4 52.3.11數(shù)據(jù)接口設(shè)計.4 6銀行數(shù)據(jù)倉庫建設(shè)方案文件4第一章系統(tǒng)總體架構(gòu)1.1 總體架構(gòu)設(shè)計概述1.1.1 總體架構(gòu)的設(shè)計框架XX銀行EDW項目的總體架構(gòu)分為基礎(chǔ)技術(shù)架構(gòu)、應(yīng)用架構(gòu)和數(shù)據(jù)架構(gòu)三個核心部分。這三個部分共同組成了XX銀行EDW系統(tǒng)。在基礎(chǔ)技術(shù)架構(gòu)中,包括執(zhí)行架構(gòu)、邏輯架構(gòu)、功能組件架構(gòu)和運維架構(gòu)四 個部分。執(zhí)行架構(gòu)描述系統(tǒng)大的框架和模塊區(qū)域,以及之間的邏輯關(guān)系;是確定 生產(chǎn)環(huán)境的建設(shè)要求及指導(dǎo)原則。邏輯架構(gòu)描述EDV各個模塊之間的數(shù)據(jù)的接口、數(shù)據(jù)流向、工具使用和 采用具體的技術(shù)實現(xiàn)手段或方式情況, 用于規(guī)范本項目最終生產(chǎn)環(huán)境的

4、建立。邏輯架構(gòu)是建立應(yīng)用架構(gòu)、執(zhí)行架構(gòu)、運維架構(gòu)的基礎(chǔ),也是建 立執(zhí)行架構(gòu)、應(yīng)用架構(gòu)以及運維架構(gòu)的原型系統(tǒng)。功能組件架構(gòu)描述確定系統(tǒng)各個大的組件組件區(qū)域的功能模塊框架,以及提供的某種服務(wù)類型。運維架構(gòu)是描述EDV項目的運維架構(gòu)標(biāo)準(zhǔn),包括運維架構(gòu)設(shè)計的內(nèi)容、設(shè)計原則、各構(gòu)成組件的設(shè)計考慮因素、約束、要求等。運維架構(gòu)通過 相應(yīng)的流程和工具實現(xiàn)對邏輯架構(gòu)、功能組件架構(gòu)、執(zhí)行架構(gòu)、數(shù)據(jù)架 構(gòu)以及應(yīng)用架構(gòu)的運維和管理。而數(shù)據(jù)架構(gòu)和應(yīng)用架構(gòu)的主要描述:應(yīng)用架構(gòu)是EDV為滿足業(yè)務(wù)需求所提供的系統(tǒng)應(yīng)用功能及其藍(lán)圖設(shè)計,其中業(yè)務(wù)需求是應(yīng)用架構(gòu)設(shè)計的基礎(chǔ), 最終的應(yīng)用架構(gòu)將以應(yīng)用系統(tǒng)的 形式體現(xiàn)在執(zhí)行架構(gòu)中,主要

5、包括:應(yīng)用服務(wù)和數(shù)據(jù)服務(wù)。數(shù)據(jù)架構(gòu)描述于EDV系統(tǒng)相關(guān)的數(shù)據(jù)流動策略,即數(shù)據(jù)在EDW系統(tǒng)的執(zhí) 行架構(gòu)下的抽取、轉(zhuǎn)換、儲存策略以及應(yīng)采用的流程,包括數(shù)據(jù)層次和 總分行之間的數(shù)據(jù)分部情況等。數(shù)據(jù)架構(gòu)是建立執(zhí)行架構(gòu)標(biāo)準(zhǔn)的需求定 義。下圖是EDW項目總體架構(gòu)的框架:銀行數(shù)據(jù)倉庫建設(shè)方案文件5堪礎(chǔ)技術(shù)架構(gòu)1.1.2 總體架構(gòu)的設(shè)計原則總體架構(gòu)在著重考慮實施要求的同時,需要為后續(xù)階段進(jìn)行規(guī)劃,以保 證項目最終能夠達(dá)到目標(biāo)架構(gòu)的設(shè)計;總體架構(gòu)的設(shè)計要基于包括XX銀行數(shù)據(jù)現(xiàn)狀分析、實施階段數(shù)據(jù)源情況分析、第一階段實施EDV計建議做為參考;總體架構(gòu)設(shè)計架構(gòu)時充分考慮與現(xiàn)有系統(tǒng)兼容,充分利用已有成果,避 免重復(fù)開

6、發(fā)和建設(shè)。總體架構(gòu)設(shè)計過程中應(yīng)遵守XX銀行的IT管理規(guī)程,保證最終的系統(tǒng)可 以順利的部署并移交給XX銀行的運行維護(hù)部門。1.1.3 總體架構(gòu)的設(shè)計特點權(quán)衡功能、性能、可擴展性、易用性、可管理性和性價比。 根據(jù)XX銀行的數(shù)據(jù)情況和分析需求,采用多層次的企業(yè)EDW系統(tǒng)架構(gòu)來 保證在存在復(fù)雜的數(shù)據(jù)種類和關(guān)系的海量數(shù)據(jù)上進(jìn)行業(yè)務(wù)分析和查詢 在業(yè)務(wù)支持能力和性能等方面的要求。多級/自動的增量ETL加載機制,有效提高ETL并發(fā)度、加載效率,降 低錯誤處理的復(fù)雜性。銀行數(shù)據(jù)倉庫建設(shè)方案文件6通過用戶入口支持用戶采用Web瀏覽器使用查詢和分析工具,統(tǒng)一的信 息服務(wù)界面,提高系統(tǒng)易用性,減少技術(shù)支持工作量。利用

7、企業(yè)信息集成和Web數(shù)據(jù)服務(wù),提高系統(tǒng)的數(shù)據(jù)支持能力和接口的 一致性。統(tǒng)一的數(shù)據(jù)增強平臺也減少數(shù)據(jù)增強的復(fù)雜度。1.2 EDW行架構(gòu)執(zhí)行架構(gòu)的主要內(nèi)容是描述EDW項目執(zhí)行架構(gòu)的建設(shè)要求及指導(dǎo)原則,用 于規(guī)范本項目最終生產(chǎn)環(huán)境的建設(shè)。EDW項目的生產(chǎn)環(huán)境的建立需要參考并遵循 執(zhí)行架構(gòu)部分提出的要求。1.2.1 執(zhí)行架構(gòu)概述執(zhí)行架構(gòu)是EDW勺概念環(huán)境,主要包含:源數(shù)據(jù)、數(shù)據(jù)落地區(qū)、ETL數(shù)據(jù)準(zhǔn)備區(qū)、數(shù)據(jù)存儲區(qū)EDW業(yè)務(wù)應(yīng)用、用戶環(huán)境、數(shù)據(jù)管控、系統(tǒng)安全性以及EDW基礎(chǔ)設(shè)施平臺(包括:服務(wù)器、存儲、網(wǎng)絡(luò))等功能組件。從技術(shù)層面上來說,EDW系統(tǒng)的執(zhí)行架構(gòu)應(yīng)實現(xiàn)多種技術(shù)平臺及應(yīng)用之間的無縫集成。1.2

8、.2 執(zhí)行架構(gòu)設(shè)計原則在EDWB目實施的過程中,系統(tǒng)執(zhí)行架構(gòu)的建設(shè)應(yīng)遵循以下技術(shù)原則:?開放性原則:EDW頁目的生產(chǎn)環(huán)境的建設(shè)應(yīng)基于業(yè)界開放標(biāo)準(zhǔn),對系統(tǒng)中使用的網(wǎng)絡(luò)協(xié)議、硬件接口、數(shù)據(jù)接口等應(yīng)進(jìn)行統(tǒng)一規(guī)劃,EDW系統(tǒng)應(yīng)支持主流的應(yīng)用軟件包及其部署的各種硬件平臺。?靈活性與可擴展性:EDW系統(tǒng)的基礎(chǔ)設(shè)施平臺應(yīng)能夠根據(jù)未來系統(tǒng)的發(fā) 展需要以及應(yīng)用需求,方便的擴展設(shè)備容量和提升設(shè)備性能;具備支持銀行數(shù)據(jù)倉庫建設(shè)方案文件7多種組件模塊、多種物理接口的能力;具備技術(shù)升級、設(shè)備更新的靈活 性;具備支持業(yè)務(wù)功能的擴展與重構(gòu)的靈活性。如:系統(tǒng)容量可以隨著ETL系統(tǒng)數(shù)據(jù)量的擴展以及應(yīng)用系統(tǒng)的不斷擴展、用戶量不斷

9、擴展而進(jìn) 行平滑的擴展。?高性能原則:系統(tǒng)應(yīng)達(dá)到數(shù)據(jù)處理時間窗口的要求,用戶定義的查詢效 率、響應(yīng)時間的要求,滿足業(yè)務(wù)系統(tǒng)的要求;對現(xiàn)有業(yè)務(wù)系統(tǒng)影響小。?自動化原則:EDW項目建設(shè)的核心任務(wù)之一是數(shù)據(jù)抽取、轉(zhuǎn)換、清洗和 加載(ETL,在這個過程中應(yīng)采用自動化的設(shè)計原則,避免手工操作。 同時對于元數(shù)據(jù)管理過程應(yīng)采用元數(shù)據(jù)管理平臺來實現(xiàn)對元數(shù)據(jù)集中、 自動化的管理。?安全性原則:EDW項目建設(shè)中的數(shù)據(jù)遷移過程都必須保證數(shù)據(jù)的安全性, 例如:在系統(tǒng)建設(shè)過程中應(yīng)對數(shù)據(jù)中敏感字段進(jìn)行安全處理、同時整個 系統(tǒng)還應(yīng)采用網(wǎng)絡(luò)隔離、用戶身份認(rèn)證及訪問控制、數(shù)據(jù)庫安全、操作 系統(tǒng)安全以及完善的安全審計機制。123

10、 執(zhí)行架構(gòu)框架上圖是EDW系統(tǒng)執(zhí)行架構(gòu),其中包含EDW系統(tǒng)中涵蓋的功能框架以及框架之間的 邏輯關(guān)系。在以下的內(nèi)容中將對執(zhí)行架構(gòu)中的功能框架以及框架之間的關(guān)系進(jìn)行 詳細(xì)描述,具體內(nèi)容包括:?數(shù)據(jù)源:包括XX銀行的多個業(yè)務(wù)系統(tǒng),主要有核心系統(tǒng)、個貸系統(tǒng)、信貸 系統(tǒng)、國際業(yè)務(wù)系銀行數(shù)據(jù)倉庫建設(shè)方案文件8統(tǒng)、財務(wù)系統(tǒng)和各類渠道系統(tǒng)等。?數(shù)據(jù)落地區(qū):此部分內(nèi)容說明數(shù)據(jù)落地的用途,同時對數(shù)據(jù)落地區(qū)應(yīng)具備的 功能進(jìn)行了標(biāo)準(zhǔn)定義以及數(shù)據(jù)落地區(qū)與其他功能組件之間的關(guān)聯(lián)關(guān)系;? ETL此部分內(nèi)容描述ETL系統(tǒng)中數(shù)據(jù)抽取、轉(zhuǎn)換、加載等功能的需求,同 時定義了ETL系統(tǒng)建設(shè)的標(biāo)準(zhǔn)以及ETL與系統(tǒng)中其他功能組件之間的關(guān)

11、系;?數(shù)據(jù)準(zhǔn)備區(qū):此部分描述數(shù)據(jù)準(zhǔn)備區(qū)應(yīng)具備的功能,以及數(shù)據(jù)準(zhǔn)備區(qū)在建設(shè) 過程中的標(biāo)準(zhǔn)需求。?操作型存儲區(qū):此部分內(nèi)容描述EDW系統(tǒng)在建設(shè)的過程中操作型存儲區(qū)應(yīng)遵 循的標(biāo)準(zhǔn)以及系統(tǒng)建設(shè)過程中應(yīng)滿足的需求;?數(shù)據(jù)倉庫存儲區(qū):此部分內(nèi)容描述EDW系統(tǒng)的數(shù)據(jù)倉庫存儲區(qū)應(yīng)遵循的標(biāo)準(zhǔn) 以及系統(tǒng)建設(shè)過程中應(yīng)滿足的需求;?業(yè)務(wù)應(yīng)用:此部分內(nèi)容描述BI應(yīng)用系統(tǒng)建設(shè)的系統(tǒng)需求,包含對應(yīng)用環(huán)境、 分析環(huán)境、靜態(tài)報表環(huán)境;?用戶環(huán)境:此部分的內(nèi)容描述用戶在EDW系統(tǒng)中應(yīng)具備運用的能力,包括: 利用通用展現(xiàn)平臺進(jìn)行信息展現(xiàn)、駕駛艙應(yīng)用、報表應(yīng)用等;?時間窗口和性能的定義:此部分描述整個EDVW頁目中關(guān)于時間窗口的定義

12、以 及相關(guān)系統(tǒng)的性能指標(biāo)要求;?元數(shù)據(jù)管理:此部分描述在系統(tǒng)執(zhí)行架構(gòu)中元數(shù)據(jù)管理的內(nèi)容以及元數(shù)據(jù)管 理系統(tǒng)的建設(shè)的標(biāo)準(zhǔn)定義;?系統(tǒng)安全性:此部分內(nèi)容主要描述EDW系統(tǒng)中的安全性管理內(nèi)容,包括應(yīng)用 安全、網(wǎng)絡(luò)安全、數(shù)據(jù)安全、系統(tǒng)安全等,同時描述系統(tǒng)安全在建立過程中 遵循的原則;?基礎(chǔ)設(shè)施平臺(服務(wù)器、網(wǎng)絡(luò)、存儲):此部分內(nèi)容主要描述生產(chǎn)系統(tǒng)中的 硬件資源,包括:服務(wù)器,網(wǎng)絡(luò)以及存儲的資源需求,容量規(guī)劃應(yīng)滿足的系統(tǒng)指標(biāo)等內(nèi)容;123.1 數(shù)據(jù)源源數(shù)據(jù)系統(tǒng)是報表、關(guān)鍵指標(biāo)、靈活查詢、主題分析等應(yīng)用系統(tǒng)的基礎(chǔ)數(shù)據(jù) 來源。在系統(tǒng)建設(shè)初期,源數(shù)據(jù)系統(tǒng)應(yīng)提供能滿足初始業(yè)務(wù)需要的數(shù)據(jù)以及業(yè)務(wù) 系統(tǒng)需要提供完整

13、數(shù)據(jù)的時間窗口, 在EDW系統(tǒng)擴展的過程中,各個源數(shù)據(jù)系統(tǒng) 中的數(shù)據(jù)將逐漸的加載到EDW系統(tǒng)當(dāng)中。源銀行數(shù)據(jù)倉庫建設(shè)方案文件9數(shù)據(jù)無法滿足應(yīng)用需求時,系統(tǒng)應(yīng)提 供手工方式通過手工數(shù)據(jù)補入平臺將需要的數(shù)據(jù)補入到EDW系統(tǒng)中。目前數(shù)據(jù)源包括XX銀行的多個業(yè)務(wù)系統(tǒng),主要有核心系統(tǒng)、個貸系統(tǒng)、對 公信貸系統(tǒng)、國際業(yè)務(wù)系統(tǒng)、財務(wù)系統(tǒng)和各類渠道系統(tǒng)等。123.2 數(shù)據(jù)落地區(qū)數(shù)據(jù)落地區(qū)是為了保證多系統(tǒng)對源系統(tǒng)數(shù)據(jù)抽取的需求,在數(shù)據(jù)從源數(shù)據(jù)系 統(tǒng)抽取后在統(tǒng)一的數(shù)據(jù)集成環(huán)境中整合。 數(shù)據(jù)落地區(qū)應(yīng)建立與各相關(guān)源數(shù)據(jù)系統(tǒng) 的接口,將這些系統(tǒng)定期卸載的數(shù)據(jù)以固定的格式接收、存放到落地區(qū),考慮數(shù)據(jù)傳輸和加載的速度,源數(shù)

14、據(jù)系統(tǒng)應(yīng)以文本文件格式將數(shù)據(jù)定期傳輸給數(shù)據(jù)落地 區(qū)進(jìn)行處理。數(shù)據(jù)落地區(qū)的數(shù)據(jù)存儲格式原則上是與數(shù)據(jù)源的存儲格式保持一致1.2.3.3 數(shù)據(jù) ETL 架構(gòu)ETL是數(shù)據(jù)的抽取、轉(zhuǎn)換、加載的全部過程,它是數(shù)據(jù)從數(shù)據(jù)落地區(qū)到ETL服務(wù)器以及從ETL服務(wù)器到EDW的數(shù)據(jù)遷移過程以及數(shù)據(jù)從EDW向數(shù)據(jù)集市的數(shù) 據(jù)遷移過程中必須使用的過程和方法,ETL系統(tǒng)應(yīng)包括以下三個主要功能:數(shù)據(jù)抽?。簭臄?shù)據(jù)落地區(qū)系統(tǒng)抽取EDW中需要的數(shù)據(jù);數(shù)據(jù)轉(zhuǎn)換:將從源數(shù)據(jù)系統(tǒng)獲取的數(shù)據(jù)轉(zhuǎn)換成EDW要求的形式,同時按照業(yè)務(wù)需求對數(shù)據(jù)進(jìn)行轉(zhuǎn)換;數(shù)據(jù)加載:將助轉(zhuǎn)換后的數(shù)據(jù)裝載到EDW勺物理模型中;1.2.3.4 數(shù)據(jù)準(zhǔn)備區(qū)數(shù)據(jù)準(zhǔn)備區(qū)是數(shù)

15、據(jù)存儲的臨時存儲區(qū)域, 數(shù)據(jù)在其中只作暫時性保存,數(shù)據(jù)銀行數(shù)據(jù)倉庫建設(shè)方案文件1 o經(jīng)轉(zhuǎn)換后導(dǎo)入到EDW勺物理模型中數(shù)據(jù)準(zhǔn)備區(qū)的功能包括:格式轉(zhuǎn)換、排序去重/篩選、通用基礎(chǔ)清洗、連接/合并/分割、業(yè)務(wù)轉(zhuǎn)換等123.5 操作型存儲區(qū)操作型存儲區(qū)是數(shù)據(jù)倉庫系統(tǒng)一個重要的環(huán)節(jié)。該區(qū)有著承上啟下的作用,從數(shù)據(jù)形態(tài)來看,該區(qū)的數(shù)據(jù)定義貼近業(yè)務(wù)源系統(tǒng);從數(shù)據(jù)標(biāo)準(zhǔn)來看,該區(qū)的數(shù) 據(jù)標(biāo)準(zhǔn)是遵循數(shù)據(jù)倉庫系統(tǒng)的標(biāo)準(zhǔn)。 所以該區(qū)一般分為兩個層次,第一個層次稱 之為良好質(zhì)量的、統(tǒng)一格式的數(shù)據(jù)貼源層,第二個層次為統(tǒng)一的、規(guī)范的、遵循 數(shù)據(jù)倉庫系統(tǒng)標(biāo)準(zhǔn)的數(shù)據(jù)標(biāo)準(zhǔn)層。數(shù)據(jù)貼源層可以繼續(xù)為行內(nèi)現(xiàn)有的一些報表系統(tǒng)或者分析系統(tǒng)提

16、供數(shù)據(jù), 而數(shù)據(jù)標(biāo)準(zhǔn)層為數(shù)據(jù)倉庫中的企業(yè)數(shù)據(jù)模型的落地掃清了道路。所以該存儲區(qū)在整個EDW系統(tǒng)起到了一個承上啟下的關(guān)鍵作用。123.6 EDW 存儲區(qū)EDV存儲區(qū)是面向主題的、集成的、面向企業(yè)的、最明細(xì)的數(shù)據(jù)存儲,其內(nèi) 容是依據(jù)最終用戶應(yīng)用和分析需求來進(jìn)行組織。 數(shù)據(jù)存儲區(qū)中的數(shù)據(jù)模型對標(biāo)準(zhǔn) 層數(shù)據(jù)、基礎(chǔ)整合數(shù)據(jù)、匯總數(shù)據(jù)和面向應(yīng)用的集市數(shù)據(jù)按數(shù)據(jù)層次進(jìn)行管理, 每個數(shù)據(jù)層有自己的數(shù)據(jù)管理重點。對于每個數(shù)據(jù)層次,再按主題進(jìn)行分類組織。 這樣就可以有效的將銀行企業(yè)的操作型數(shù)據(jù)、 匯總型數(shù)據(jù)和分析型數(shù)據(jù)以清晰的 架構(gòu)組織、管理起來,并相輔相成。數(shù)據(jù)層的內(nèi)容相互促進(jìn)發(fā)展,組成銀行完善 的數(shù)據(jù)集合,為

17、各種主題管理應(yīng)用的構(gòu)建提供良好的數(shù)據(jù)架構(gòu)基礎(chǔ)。123.7 業(yè)務(wù)應(yīng)用業(yè)務(wù)應(yīng)用是EDW系統(tǒng)向業(yè)務(wù)用戶提供應(yīng)用功能支持,根據(jù)應(yīng)用服務(wù)提供的形 式和所采用的應(yīng)用系統(tǒng)的不同,業(yè)務(wù)應(yīng)用主要定義在以下幾個技術(shù)環(huán)境。數(shù)據(jù)集市:在業(yè)務(wù)應(yīng)用層中包含了應(yīng)用系統(tǒng)中需要的應(yīng)用集市、OLAR靜態(tài) 報表等數(shù)據(jù)集市。數(shù)據(jù)集市是一組特定的、針對某個主題域、部門或用戶分類的 數(shù)據(jù)集合。這些數(shù)據(jù)需要針對用戶的快速訪問和數(shù)據(jù)輸出進(jìn)行優(yōu)化, 優(yōu)化的方式 可以通過對數(shù)據(jù)結(jié)構(gòu)進(jìn)行匯總和索引。通過數(shù)據(jù)集市可以保障EDW勺高可用性、 可擴展性和高性能。應(yīng)用環(huán)境:應(yīng)用環(huán)境是為滿足業(yè)務(wù)需要在數(shù)據(jù)EDW環(huán)境中配置的應(yīng)用軟件 包。分析環(huán)境:數(shù)據(jù)分析環(huán)

18、境為EDW的高端用戶提供即時的數(shù)據(jù)分析功能等。銀行數(shù)據(jù)倉庫建設(shè)方案文件111報表環(huán)境:報表環(huán)境是于來產(chǎn)生和發(fā)布靜態(tài)報表的環(huán)境,包括:產(chǎn)生的靜態(tài)報表、OLAP生的報表、KPI指標(biāo)展現(xiàn)以及其他系統(tǒng)產(chǎn)生的報表。123.8 用戶環(huán)境用戶環(huán)境是EDW系統(tǒng)最終向用戶提供的某種應(yīng)用服務(wù)的集合,主要有三種應(yīng) 用服務(wù)的表現(xiàn)形式:通用展現(xiàn)平臺:通過此平臺將報表、KPI展現(xiàn)、靈活查詢、分析等多個應(yīng)用 集成到一個平臺中,進(jìn)行統(tǒng)一的展現(xiàn)和信息的管理,包括如:報表生命周期的管 理等。數(shù)據(jù)分發(fā)環(huán)境:在數(shù)據(jù)分發(fā)的過程中應(yīng)提供大容量數(shù)據(jù)批量分發(fā)的能力。給其他需要某個系統(tǒng)的數(shù)據(jù)提供數(shù)據(jù)交換功能。報表分發(fā)環(huán)境:報表的分發(fā)應(yīng)可以滿足

19、系統(tǒng)定義的安全性, 如按照不同的用 戶類型、不同的組織進(jìn)行分發(fā),不同的用戶和組織只能看到屬于自己的報表的數(shù) 據(jù),數(shù)據(jù)的分發(fā)將通過數(shù)據(jù)傳輸平臺進(jìn)行。123.9 元數(shù)據(jù)管理元數(shù)據(jù)管理是對數(shù)據(jù)信息的收集和發(fā)布的集成管理,數(shù)據(jù)信息包括:數(shù)據(jù)的業(yè)務(wù)含義和技術(shù)特性。數(shù)據(jù)倉庫系統(tǒng)架構(gòu)中的各個部分中都含有元數(shù)據(jù)信息,應(yīng)對其進(jìn)行主動式管理,以保證它正確的定義、收集和使用。元數(shù)據(jù)是“關(guān)于數(shù)據(jù) 的數(shù)據(jù)”。應(yīng)包括文件結(jié)構(gòu)定義,數(shù)據(jù)庫字段名稱,數(shù)據(jù)模型中的長度和標(biāo)準(zhǔn), 以及在域-域或域-報表對應(yīng)關(guān)系中的計算和公式等內(nèi)容。元數(shù)據(jù)管理的架構(gòu)如下圖所示,系統(tǒng)的最終架構(gòu)應(yīng)實現(xiàn)對元數(shù)據(jù)的集中的管 理方式:銀行數(shù)據(jù)倉庫建設(shè)方案文件

20、112123.10 系統(tǒng)安全性EDV系統(tǒng)中的數(shù)據(jù)和報表信息均為敏感信息。 因此必須采用適當(dāng)?shù)陌踩呗?以保證其系統(tǒng)和數(shù)據(jù)的安全性。數(shù)據(jù)倉庫系統(tǒng)的安全性應(yīng)涵蓋如下四個方面:驗證:系統(tǒng)應(yīng)對用戶進(jìn)行訪問控制,保證只有合法的用戶才能進(jìn)入到系 統(tǒng)中;授權(quán):系統(tǒng)應(yīng)根據(jù)用戶角色對其進(jìn)行授權(quán),包括對數(shù)據(jù)的訪問權(quán)限,對 功能的使用權(quán)限等。機密性:所有的敏感數(shù)據(jù)必須被嚴(yán)格控制,禁止未授權(quán)訪問,并保障其安全性。一致性:數(shù)據(jù)和程序只能在授權(quán)模式下進(jìn)行修改。針對上述6個方面,數(shù)據(jù)倉庫分系統(tǒng)應(yīng)按照以下的6個方面的標(biāo)準(zhǔn)進(jìn)行建設(shè):應(yīng)用層EDV應(yīng)用系統(tǒng)是建立在OLAP軟件平臺的基礎(chǔ)上,應(yīng)用層應(yīng)實現(xiàn)用戶訪問控 制的功能,針對不同

21、的用戶訪問不同的系統(tǒng)資源來保證整個應(yīng)用系統(tǒng)的安全性控 制。對于未來的數(shù)據(jù)倉庫系統(tǒng)來說,應(yīng)與統(tǒng)一門戶平臺整合,實現(xiàn)整體安全性管 理的策略;數(shù)據(jù)庫層只有被授權(quán)用戶才能訪問和修改數(shù)據(jù)庫中的信息并且數(shù)據(jù)在傳輸過程中應(yīng) 對敏感信息ETLfflAI-瞬瞬債寶稈衷人鮒-=I王札秋也黑第41F1KETLf 1F*rP eirqWIIililIIII0軾電*dRW0與xtm與曾與宦貳4fWW討40-IIW1*操作墾描tCTlXAfiMt! frfTLff rua i j?WTtflji ecRmatTi riri切:f護(hù)挪討*iJ1,3*我11MIMil11壇人曲(瞬EJI理丄厲.56業(yè)專圳戶元圈K存臂ffAw

22、XII 弼IIIIBUM(juenoII4jft斗玄津鼻亂題、44mn弄丄見厭討XtKKKJJl(VDBASI慢術(shù)尢難*W CPU*內(nèi)存劇進(jìn)屋裁理侖牛日志浙詼用尸堆杈膽節(jié)點欣態(tài)合話敕數(shù)據(jù)岸空間丄作負(fù)籃1/0牡況麼用監(jiān)控*為:克純伙忑 CJustcr IS烝 Rcpor1”蔭券 ETL菲等 ETL刁志ETLJCB日志 毎亡皺據(jù)云算JOB日志 旦flMCR秋烝安全監(jiān)揑防火縉日志彥 防病蠱日志 M 養(yǎng)蹈 人佞郴銀行數(shù)據(jù)倉庫建設(shè)方案文件24清理過期數(shù)據(jù)等日常操作。?變更管理允許對技術(shù)架構(gòu)組件進(jìn)行變更的控制管理。在EDV系統(tǒng)運行過程中, 有兩種典型的變更需要進(jìn)行管理:數(shù)據(jù)變更和系統(tǒng)升級。變更控制組件可以

23、 協(xié)助運維團(tuán)隊、開發(fā)團(tuán)隊和業(yè)務(wù)部門之間的溝通,保障系統(tǒng)的變更平滑進(jìn)行。系統(tǒng)維護(hù)管理的主要任務(wù)及工具支持如下圖所示:142.3 備份恢復(fù)管理備份與恢復(fù)的目標(biāo)在于:?保證在任何時點對數(shù)據(jù)的完全恢復(fù)?最低程度地降低數(shù)據(jù)丟失。?盡量提高數(shù)據(jù)備份過程的效率。備份恢復(fù)管理的主要任務(wù)及工具支持如下圖所示:銀行數(shù)據(jù)倉庫建設(shè)方案文件25142.4 故障切換管理故障切換管理組件提供了管理和控制應(yīng)用切換的機制,提供系統(tǒng)的高可用 性。故障切換組件使用冗余系統(tǒng)和數(shù)據(jù)來保證關(guān)鍵任務(wù)數(shù)據(jù)流不間斷。當(dāng)發(fā)生故障或失敗時,該切換發(fā)生在主系統(tǒng)和備份系統(tǒng)之間。在故障或失敗事件中,故障 切換管理組件將系統(tǒng)資源重路由到穩(wěn)定配置的備份系統(tǒng)

24、中,直到主系統(tǒng)被恢復(fù)或 替代。銀行數(shù)據(jù)倉庫建設(shè)方案文件26142.5 性能和容量規(guī)劃性能和容量規(guī)劃組件代表了從環(huán)境中的不同系統(tǒng)元素收集利用數(shù)據(jù),并規(guī) 劃硬件和軟件能力需求的工具。數(shù)據(jù)通過放置在環(huán)境中系統(tǒng)元素一端的代理進(jìn)行 的收集,并由容量規(guī)劃組件進(jìn)行分析,包括磁盤容量、內(nèi)存使用、處理器使用、 數(shù)據(jù)庫、和網(wǎng)絡(luò)等。性能容量規(guī)劃包括如下組件:?信息收集:收集性能容量相關(guān)的重要分析數(shù)據(jù);?性能管理:對系統(tǒng)系統(tǒng)性能進(jìn)行監(jiān)控、管理、分析和調(diào)優(yōu);?性能容量規(guī)劃:基于歷史趨勢和未來性能容量需求進(jìn)行規(guī)劃;性能容量規(guī)劃的主要任務(wù)及工具支持如下圖所示:信息籾集/容 NET通哥量性勺迪控曲瘤量指標(biāo) CPU利用率性能管

25、理容量憐遜盤 I/O性能分析臧鎖內(nèi)存管理性能調(diào)優(yōu)ETL服務(wù)器RAIDS咼可幕性/IRAID 1負(fù)載均衝功徙Z/數(shù)據(jù)直庫匿務(wù)藩冗金設(shè)備RA【D 112 戲路収工Cliques tJl 制網(wǎng)絡(luò)容睹網(wǎng)絡(luò)自動分 3E參個冗余離Enver 統(tǒng)一實施HPMC 軟件銀行數(shù)據(jù)倉庫建設(shè)方案文件27蛭重數(shù)捋増長詹撫記謎芥發(fā)用戶數(shù)丿丿鎖信息丿L|E3 ManagerDQM容殖詁算計算話LResource Usage Mscrcs and Tablesr-D3 Perfarmance Monitcr142.6 運維安全管理安全管理組件通過制定和管理安全策略,并利用安全工具,維護(hù)信息系統(tǒng)資 產(chǎn)(包括硬件、軟件、固件、用

26、戶數(shù)據(jù)、信息/數(shù)據(jù))的機密性、一致性和可用銀行數(shù)據(jù)倉庫建設(shè)方案文件28性。安全管理是貫穿EDW、體架構(gòu)的。例如,在運維架構(gòu)中可能需要使用安全控 制工具對系統(tǒng)管理工具的訪問進(jìn)行管理,在開發(fā)架構(gòu)中則可能使用安全控制工具 對代碼存儲的訪問進(jìn)行管理。為防止安全內(nèi)容的重復(fù),所有安全組件都應(yīng)統(tǒng)一被 考慮,它是跨開發(fā)、執(zhí)行、運維架構(gòu)的。1.5 EDV 數(shù)據(jù)架構(gòu)1.5.1 數(shù)據(jù)架構(gòu)設(shè)計原則統(tǒng)一規(guī)范對各源系統(tǒng)數(shù)據(jù)按主題進(jìn)行統(tǒng)一整合; 分行特色也按統(tǒng)一規(guī) 范進(jìn)行補充建設(shè)。靈活性原則數(shù)據(jù)模型要為數(shù)據(jù)應(yīng)用提供有效的信息支持, 這些信息需求 會隨著銀行需求的變化而不斷增加,進(jìn)而會引起需求的不可預(yù)料 性。特別是加工匯總層

27、的數(shù)據(jù)架構(gòu)必須符合“匯總指標(biāo)可靈活增加” 的技術(shù)要求,不會隨著指標(biāo)的增加而變更數(shù)據(jù)模型。T任銀行數(shù)據(jù)倉庫建設(shè)方案文件29可擴展性原則隨著源系統(tǒng)和數(shù)據(jù)集市應(yīng)用系統(tǒng)的不斷增加,數(shù)據(jù)模型應(yīng)提 供一個規(guī)范化的設(shè)計思路,以便業(yè)務(wù)系統(tǒng)的擴展。高效原則數(shù)據(jù)模型面臨海量數(shù)據(jù)的加工和存儲,隨著時間的推移,數(shù) 據(jù)將不斷累積,因此效率問題是直接影響系統(tǒng)可用性的關(guān)鍵因素。 數(shù)據(jù)模型的效率包括ETL的加工效率和數(shù)據(jù)展現(xiàn)的查詢效率,因此 數(shù)據(jù)模型的數(shù)據(jù)組織和存儲,必須是高效可用的。實用性原則處理大量的源系統(tǒng)數(shù)據(jù),將會占用大量的系統(tǒng)資源,因此必 須仔細(xì)分析數(shù)據(jù)的實用性、指標(biāo)的使用頻率,以業(yè)務(wù)需求驅(qū)動為原 貝對業(yè)務(wù)提出的基礎(chǔ)

28、數(shù)據(jù)和指標(biāo)需求進(jìn)行優(yōu)先級劃分,正確制定指標(biāo)的匯總粒度。力卩工匯總層要重點解決共性指標(biāo)的加工。存儲空間合理性原則數(shù)據(jù)模型需要處理海量數(shù)據(jù)。隨時間的增加,存儲數(shù)據(jù)越來越多。因此在設(shè) 計時必須考慮如何合理組織數(shù)據(jù),以減小數(shù)據(jù)冗余。銀行數(shù)據(jù)倉庫建設(shè)方案文件2101.5.2 數(shù)據(jù)架構(gòu)分層設(shè)計數(shù)據(jù)倉庫徉舖區(qū)砲用接口層為各個應(yīng)用輾供數(shù)據(jù)指標(biāo)弟崙)散捱女菇匯總足阿(氈最輕鉉度匯總,3NF)弟護(hù)轉(zhuǎn)空層(按誰度”指杯建慎)敦挺麒臺層尸即保留最舅緡數(shù)擁,技學(xué)戶、存款*貸款*產(chǎn)品、中閭業(yè)務(wù)等主題劃分言 F 鏗存紅棹* 貸款玲利 宀出劃中I可牡毎禱空H.乜彊旱標(biāo)準(zhǔn)敷押占酣業(yè)事 霰扼柝邁猶.OSODM規(guī)范化 r 良好的貼

29、源敷揭核心索統(tǒng)個貸系統(tǒng)信貸系統(tǒng)國結(jié)系統(tǒng)人力親絨其他系統(tǒng)數(shù)據(jù)庫統(tǒng)一存儲管理所轄數(shù)據(jù),由于數(shù)據(jù)類型比較多,數(shù)據(jù)庫表也比較 多,如何有效的組織管理好全行多種業(yè)務(wù)的數(shù)據(jù)和信息,對下一步清晰的 信息應(yīng)用、方便地使用數(shù)據(jù)是很關(guān)鍵的。因此數(shù)據(jù)和信息不能隨意堆積存 放到數(shù)據(jù)庫中,需要對全行的數(shù)據(jù)和信息進(jìn)行分層、分類存放,并制定相 應(yīng)的數(shù)據(jù)分層、分類的規(guī)范,EDV系統(tǒng)上所有數(shù)據(jù)和應(yīng)用的建設(shè)都應(yīng)遵從統(tǒng) 一的數(shù)據(jù)管理規(guī)范。存放到EDW數(shù)據(jù)庫中的數(shù)據(jù)有以下幾類:1、從原業(yè)務(wù)系統(tǒng)直接采集過來的經(jīng)標(biāo)準(zhǔn)化處理的標(biāo)準(zhǔn)數(shù)據(jù),由標(biāo)準(zhǔn)數(shù) 據(jù)按主題整合形成的基礎(chǔ)業(yè)務(wù)數(shù)據(jù);2、經(jīng)過中間加工匯總形成的匯總數(shù)據(jù);3、管理應(yīng)用所專用的操作型

30、數(shù)據(jù);4、為滿足應(yīng)用分析需要而加工形成的多維分析數(shù)據(jù)。為了更好的管理這些數(shù)據(jù),EDW數(shù)據(jù)按層次進(jìn)行劃分存放及管理,從邏銀行數(shù)據(jù)倉庫建設(shè)方案文件30輯模型上劃分為以下幾個數(shù)據(jù)層次:源數(shù)據(jù)緩沖層:數(shù)據(jù)層與業(yè)務(wù)源的數(shù)據(jù)結(jié)構(gòu)對應(yīng),是數(shù)據(jù)存儲的臨 時存儲區(qū)域,數(shù)據(jù)在其中只作暫時性保存,當(dāng)新的數(shù)據(jù)到達(dá)緩儲區(qū)時, 現(xiàn)有數(shù)據(jù)被刪除或覆蓋。標(biāo)準(zhǔn)化數(shù)據(jù)層:對數(shù)據(jù)做標(biāo)準(zhǔn)化處理,主要有公共代碼標(biāo)準(zhǔn)化、數(shù)據(jù)類型標(biāo)準(zhǔn)化和數(shù)據(jù)格式標(biāo)準(zhǔn)化,未來可以做客戶信息標(biāo)準(zhǔn)化。標(biāo)準(zhǔn)化全量層基礎(chǔ)數(shù)據(jù)層數(shù)據(jù)模型基礎(chǔ)數(shù)據(jù)模型用于整合、存儲全行各業(yè)務(wù)系統(tǒng)的基礎(chǔ)業(yè)務(wù)數(shù)據(jù)。原則上該區(qū)域的數(shù)據(jù)不作復(fù)雜加工,直接存儲業(yè)務(wù)系統(tǒng)中原始數(shù)據(jù)記錄 的關(guān)鍵數(shù)據(jù)(

31、主數(shù)據(jù)),盡量保持貼近源系統(tǒng)的數(shù)據(jù)結(jié)構(gòu)。為應(yīng)用方便、查 詢高效考慮,可以對源系統(tǒng)進(jìn)行適當(dāng)?shù)恼?、拆分,也可以裁減掉源系統(tǒng) 中沒有必要整合的數(shù)據(jù)。同時需要對各系統(tǒng)冗余及標(biāo)準(zhǔn)不一致的數(shù)據(jù)進(jìn)行 規(guī)范和整合。在基礎(chǔ)據(jù)模型中按照八大主題對銀行全行數(shù)據(jù)進(jìn)行整合、 分類組織和存 儲,這八大主題包括總帳(GL)、客戶(CI)、存款(DEP)、貸款(LN)、銀行卡(CRD)、中間業(yè)務(wù)(NIN)、渠道(CHN)、公用(CM);每個主題下設(shè)計相應(yīng)的數(shù) 據(jù)模型,最后構(gòu)成全行統(tǒng)一的基礎(chǔ)數(shù)據(jù)模型。EDW寸各源系統(tǒng)機構(gòu)編碼進(jìn)行統(tǒng)一,提供統(tǒng)一的基線機構(gòu)。EDW寸源系統(tǒng)客戶號進(jìn)行統(tǒng)一,提供統(tǒng)一的客戶號(ECIF客戶編號)。加工

32、匯總數(shù)據(jù)層數(shù)據(jù)模型;加工匯總數(shù)據(jù)層的主題劃分為八大主題:總帳(GL)、客戶(CI)、存款(DEP)、貸款(LN)、銀行卡(CRD)中間業(yè)務(wù)(NIN)、渠 道(CHN)、公用(CM)。加工匯總數(shù)據(jù)層下的匯總需求由“應(yīng)用需要”來確定。多個 應(yīng)用相同的匯總要求,或者多個應(yīng)用在匯總計算的基礎(chǔ)部分有重復(fù) 匯總的部分可以納入該區(qū)域進(jìn)行匯總,形成應(yīng)用共享的中間匯總結(jié) 果,如按客戶、機構(gòu)、產(chǎn)品、渠道等主題的一些公共匯總數(shù)據(jù)(包 括每天或每個階段的業(yè)務(wù)量、業(yè)務(wù)額、平均額等數(shù)據(jù)的匯總)。加工匯總數(shù)據(jù)層的數(shù)據(jù)模型設(shè)計在有相應(yīng)的匯總需求情況下才針對匯總需求進(jìn)行數(shù)據(jù)表和數(shù)據(jù)匯總?cè)蝿?wù)的擴展設(shè)計,逐步積累銀行數(shù)據(jù)倉庫建設(shè)方

33、案文件31公共匯總指標(biāo),最后形成全行可共享的面向各個主題的中間匯總指 標(biāo)。加工匯總數(shù)據(jù)層分為兩種不同數(shù)據(jù)形態(tài):1)匯總指標(biāo)-如平均余額等2)根據(jù)業(yè)務(wù)要求形成的分析加工數(shù)據(jù)-如理財卡帳務(wù)數(shù)據(jù)、 客戶大額存取款等集市數(shù)據(jù)層數(shù)據(jù)模型集市數(shù)據(jù)層用于建立面向各個應(yīng)用主題的數(shù)據(jù)集市,不同的 主題應(yīng)用在集市數(shù)據(jù)區(qū)下建立不同的數(shù)據(jù)集市, 數(shù)據(jù)集市的數(shù)據(jù)模 型根據(jù)應(yīng)用模型的需要進(jìn)行設(shè)計。數(shù)據(jù)集市中可存在操作型數(shù)據(jù)、 匯總型數(shù)據(jù)和多維分析數(shù)據(jù),根據(jù)應(yīng)用的需要分別進(jìn)行建立1.6 EDV 應(yīng)用架構(gòu)播心系疑惜黛系艇個貸系疑 則齊殺芋渠道系竦國姑索誌人力系統(tǒng)Kfe1.6.1 應(yīng)用架構(gòu)設(shè)計原則EDV系統(tǒng)的應(yīng)用架構(gòu)應(yīng)考慮開放

34、性、完整性、合理性。tt t t t乍戸乍戸HL具他 應(yīng)用馬就fit表ACRM時稠麗 爾昨 書番債銀行數(shù)據(jù)倉庫建設(shè)方案文件32開放性:EDV系統(tǒng)的應(yīng)用架構(gòu)設(shè)計必須考慮平臺、系統(tǒng)、功能的開放性,與XX銀行的科技規(guī)劃相適應(yīng),能夠與周邊各系統(tǒng)進(jìn)行良好的信息傳遞。完整性:EDV系統(tǒng)的應(yīng)用架構(gòu)設(shè)計應(yīng)具備完整性,涵蓋目前的應(yīng)用需求,并以 框架形式界定EDW項目的應(yīng)用需求范圍。EDW系統(tǒng)的應(yīng)用架構(gòu)應(yīng)該能夠作為需 求檢查列表,檢驗當(dāng)前用戶需求是否被涵蓋,而不會發(fā)生遺漏。合理性:應(yīng)用架構(gòu)的設(shè)計應(yīng)是對用戶需求的全面反映。應(yīng)用架構(gòu)應(yīng)采用先進(jìn)的 理念和技術(shù),并結(jié)合XX銀行科技規(guī)劃與現(xiàn)有的技術(shù)平臺。162 數(shù)據(jù)服務(wù)ED

35、W將提供全行各個系統(tǒng)的批量數(shù)據(jù)服務(wù),如應(yīng)用架構(gòu)圖所示EDVW可以為 核心系統(tǒng)、財務(wù)系統(tǒng)、個貸系統(tǒng)、信貸系統(tǒng)等業(yè)務(wù)系統(tǒng)提供數(shù)據(jù),也可以為資產(chǎn) 負(fù)債系統(tǒng)、內(nèi)部評級系統(tǒng)、戰(zhàn)略客戶管理信息系統(tǒng)等管理內(nèi)的系統(tǒng)提供數(shù)據(jù)服務(wù); 同時也可以為未來實現(xiàn)的EDW系統(tǒng)提供數(shù)據(jù),從而實現(xiàn)全行范圍內(nèi)系統(tǒng)間的批量 數(shù)據(jù)采集、加工和發(fā)布,原則上各系統(tǒng)不能再建設(shè)其他渠道實現(xiàn)批量數(shù)據(jù)采集、 加工、發(fā)布。EDW數(shù)據(jù)采集、加工、發(fā)布的范圍包括:總行各應(yīng)用系統(tǒng)之間總行與分行應(yīng)用系統(tǒng)之間同一分行應(yīng)用系統(tǒng)間不同分行應(yīng)用系統(tǒng)間分布部署的同一應(yīng)用系統(tǒng)間EDW數(shù)據(jù)服務(wù)具備的能力有:EDW快速提供批量數(shù)據(jù),可以滿足應(yīng)用系統(tǒng)準(zhǔn)實時的數(shù)據(jù)要求。ED

36、W能夠提供的數(shù)據(jù)會覆蓋全行所有系統(tǒng),可以滿足全行所有的數(shù)據(jù)加 工對數(shù)據(jù)的需求。EDW模型化各系統(tǒng)數(shù)據(jù),可以滿足各應(yīng)用系統(tǒng)對全量數(shù)據(jù)、增量數(shù)據(jù)的 需求,減少對重要交易系統(tǒng)的干擾。EDW能夠根據(jù)應(yīng)用系統(tǒng)的需要,對源系統(tǒng)數(shù)據(jù)進(jìn)行必要的加工處理,按 照全行數(shù)據(jù)架構(gòu)原則,合理地在數(shù)據(jù)線上分配數(shù)據(jù)加工功能,保證數(shù)據(jù) 處理的高效、準(zhǔn)確。銀行數(shù)據(jù)倉庫建設(shè)方案文件33163 應(yīng)用服務(wù)基于數(shù)據(jù)分析功能和交易功能分離原則,為保證交易系統(tǒng)運行效率和數(shù)據(jù)分 析功能日益增加的需求,新系統(tǒng)設(shè)計時,應(yīng)該將數(shù)據(jù)分析功能和交易功能分離到 不同系統(tǒng)中,或者至少為將來分離做好技術(shù)準(zhǔn)備。在這個原則下,EDV可以對外提供應(yīng)用服務(wù),如:駕

37、駛艙報表系統(tǒng)中的報表功能;某些時效性要求較高的即時OLAP分析;經(jīng)營關(guān)鍵指標(biāo)KPI展示等。銀行數(shù)據(jù)倉庫建設(shè)方案文件34第二章 ETL 體系建設(shè)2.1 ETL 架構(gòu)概述在商業(yè)銀行的EDW系統(tǒng)中,數(shù)據(jù)由數(shù)據(jù)源系統(tǒng)加載到EDW的各個數(shù)據(jù)層 中,并通過供數(shù)接口提供給相關(guān)使用者系統(tǒng)。其實現(xiàn)的困難在于ETL系統(tǒng)將面臨復(fù)雜的數(shù)據(jù)環(huán)境,包括巨大的加載數(shù)據(jù)量、錯綜復(fù)雜的數(shù)據(jù)關(guān)系和參差不齊 的數(shù)據(jù)質(zhì)量,這些都使ETL的架構(gòu)和應(yīng)用設(shè)計面臨相當(dāng)?shù)奶魬?zhàn)。通過高效的ETL系統(tǒng)結(jié)構(gòu)、層次化的應(yīng)用功能劃分和標(biāo)準(zhǔn)的程序模板,EDW系統(tǒng)能夠達(dá)到以下目標(biāo):?支持在此框架下實現(xiàn)EDWK目所需要的ETL功能;?支持在規(guī)定的批處理時間窗

38、口(Batch Win dow)內(nèi)能夠完成數(shù)據(jù)加載工作,即需要滿足日常數(shù)據(jù)加載的性能需求;?能夠支持有效的應(yīng)用程序開發(fā)模式,提高開發(fā)效率,盡量減少應(yīng)用開發(fā)成本;?減少系統(tǒng)維護(hù)的復(fù)雜性,支持后續(xù)增加新數(shù)據(jù)或功能的開發(fā)工作。?和上下游系統(tǒng)接口的松耦合設(shè)計,避免上下游系統(tǒng)的變更導(dǎo)致ETLg序本身頻繁變更。XX銀行總行的EDW系統(tǒng)數(shù)據(jù)源環(huán)境復(fù)雜,應(yīng)用系統(tǒng)數(shù)據(jù)需求旺盛,數(shù)據(jù)質(zhì) 量參差不齊,結(jié)合以上系統(tǒng)目標(biāo)及設(shè)計原則,建議采用如下體系架構(gòu)建設(shè):銀行數(shù)據(jù)倉庫建設(shè)方案文件35ETL邏輯結(jié)構(gòu)按照處理過程可劃分為ETL預(yù)處理、ETL轉(zhuǎn)換清洗、ETL目標(biāo) 數(shù)據(jù)裝載。對于數(shù)據(jù)提供者,包括業(yè)務(wù)系統(tǒng) (核心業(yè)務(wù)系統(tǒng)、個貸

39、系統(tǒng)、信貸系 統(tǒng)、國際業(yè)務(wù)系統(tǒng)、財務(wù)系統(tǒng)、渠道系統(tǒng))以及管理系統(tǒng)(數(shù)據(jù)倉庫EDW系統(tǒng)、客戶關(guān)系管理CRM系統(tǒng)、績效考核系統(tǒng)、稽核管理系統(tǒng)、報表中心),通過ETL預(yù)處理,數(shù)據(jù)裝載入數(shù)據(jù)緩沖區(qū)。ETL轉(zhuǎn)換清洗通過連接、合并、分割,按照 清洗規(guī)則對數(shù)據(jù)緩沖區(qū)、數(shù)據(jù)存儲區(qū)的數(shù)據(jù)進(jìn)行加工、匯總,最終裝載入數(shù)據(jù) 存儲區(qū)。ETL目標(biāo)數(shù)據(jù)裝載按照EDW的數(shù)據(jù)接口要求,給目標(biāo)系統(tǒng)提供數(shù)據(jù)。? ETL1:屬于ETL預(yù)處理。加載源系統(tǒng)數(shù)據(jù),增加時間拉鏈,數(shù)據(jù)裝載入 數(shù)據(jù)緩沖區(qū)。對源數(shù)據(jù)做數(shù)據(jù)平衡檢查、稽核數(shù)據(jù)有效性,報告數(shù)據(jù)質(zhì) 量問題。? ETL2屬于ETLL青洗。對數(shù)據(jù)緩沖區(qū)數(shù)據(jù)標(biāo)準(zhǔn)化,統(tǒng)一數(shù)據(jù)表達(dá)格式,排序數(shù)據(jù)

40、,篩選重復(fù)數(shù)據(jù),合并或分割數(shù)據(jù)項,裝載入數(shù)據(jù)存儲區(qū)的基 礎(chǔ)數(shù)據(jù)層。報告數(shù)據(jù)轉(zhuǎn)換清洗異常。? ETL3:屬于ETL轉(zhuǎn)換。對操作型存儲區(qū)的貼源標(biāo)準(zhǔn)化數(shù)據(jù),按照業(yè)務(wù)轉(zhuǎn) 換規(guī)則、通用數(shù)據(jù)清洗規(guī)則,加工數(shù)據(jù),裝載入數(shù)據(jù)倉庫區(qū)的FDMS礎(chǔ)層。ETL3處理是耗時最長,邏輯處理最復(fù)雜的階段,需要非常重視。? ETL4:屬于ETL專換。從數(shù)據(jù)倉庫FDh層進(jìn)行適量的維度、指標(biāo)建模。一 些低粒度數(shù)據(jù)逐步向高粒度數(shù)據(jù)歸并和匯總。ETL 営耳孫空昔徑 業(yè)務(wù)規(guī)范:$& =宵5:5:觸瓷患*一3 3- -r r = = ananr r mm - -l lhuxENnflc二- - 9r3fai9r3faia-a-!

41、M-KIII;KJ:M:51 1IL獲脫作業(yè)日志信懇作業(yè)運行狀態(tài)信星 SEW耿 息作業(yè)運疔效率信軋寫入數(shù)據(jù)庠JET1 SEK7EI:.庫張取作業(yè)運行資瀝的 要求.作血依賴檢杳險用參曆庫= =3 3-E-E- TETE VRVR ILILH寓羅二9r3.as9r3.as a-a-S.SS.S說r:變r雷i is s姦口必閔時ETL CLE FT悄魚rftu AxftArftA銀行數(shù)據(jù)倉庫建設(shè)方案文件4 4在,如果條件都滿足,則JOB可以運行。3.3.ETL SERVE對JOB的類型進(jìn)行判斷,如果是普通的SHELL JOB或者EXECJOB則根據(jù)JOB實例表中的NODES_LIST該作業(yè)可使用的節(jié)

42、點列 表),計劃在本域中分配一個ETL CLIENT給JOB運行,如果是DS JOB則根據(jù)JOB實例表中的NODES_NEES(行該作業(yè)所需節(jié)點數(shù))和NODES_LIST該作業(yè)可使用的節(jié)點列表)得到該JOB運行所需的結(jié)點個數(shù) 以及所能夠運行該JOB的結(jié)點列表。4.在每個ETL CLIENT上都安裝著用于獲取結(jié)點資源情況的RESOURCEAGENT這些AGENTI隔一定的時間間隔,就會將本臺CLIENT上的系統(tǒng) 資源使用情況,如:CPU使用率,MEMORY用率,I/O等待情況等寫入 所屬域的管理類數(shù)據(jù)庫中的結(jié)點使用情況表中。5.ETL SERVERS得到JOB運行的結(jié)點個數(shù)和能夠運行該JOB的結(jié)

43、點列表 后,根據(jù)本域的管理類數(shù)據(jù)庫中結(jié)點的使用情況表,按照一定的策略對 能夠運行該JOB的結(jié)點列表進(jìn)行排序,選出最優(yōu)的若干個ETL CLIENT然后根據(jù)結(jié)點情況,動態(tài)生成JOB運行配置文件。然后根據(jù)運行配置文 件,將JOB分配給各個ETL CLIENT執(zhí)行。6.ETL CLIENT開始執(zhí)行JOB無論JOB運行成功還是失敗,都將各種運行信息反饋給所屬域的ETL SERVER7.ETL SERVE得到ETLCLIENT的反饋信息后, 將其寫入日志, 并設(shè)置JOB的狀態(tài),同時釋放結(jié)點的資源。8.ETL SERVE將作業(yè)運行的情況通過退出碼的方式反饋給調(diào)度程序。銀行數(shù)據(jù)倉庫建設(shè)方案文件4 52310

44、動態(tài)資源分配ETL域中各節(jié)點的系統(tǒng)資源使用情況,以及檢測節(jié)點運行狀態(tài)是否正常,以作為 動態(tài)資源分配的主要依據(jù)。Resource Age nt:運行于域中所有節(jié)點(包括主節(jié)點)之上的一個守護(hù)進(jìn)程, 負(fù)責(zé)按照一定的時間間隔采集當(dāng)前節(jié)點的各種系統(tǒng)資源(CPU使用情況,內(nèi)存使用情況)使用情況,磁盤I/O使用情況,是否存在故障),并通過TCP/IP和運行 于主節(jié)點上的Resource Broker進(jìn)程進(jìn)行通信,將當(dāng)前節(jié)點的系統(tǒng)資源使用情況 匯報給ETL Server;Resource Broker:運行于域中ETL Server之上的一個守護(hù)進(jìn)程,負(fù)責(zé)j接收來自域內(nèi)節(jié)點的連接請求,記錄請求節(jié)點的系統(tǒng)資源使用情況;如果域中某 個節(jié)點超過指定的時間間隔沒有發(fā)送資源報告,則將該節(jié)點置為故障,該節(jié)點將 不會被分配來運行任務(wù),如果此后收到該節(jié)點的資源報告請求, 則將該節(jié)點狀態(tài) 置為活動??蛻舳伺c服務(wù)端采用C/S通信模式,通過TCP協(xié)議傳送信息,這樣做的好處 是

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論