智慧銀行數(shù)據(jù)中心應(yīng)用平臺(tái)技術(shù)架構(gòu)規(guī)劃_第1頁(yè)
智慧銀行數(shù)據(jù)中心應(yīng)用平臺(tái)技術(shù)架構(gòu)規(guī)劃_第2頁(yè)
智慧銀行數(shù)據(jù)中心應(yīng)用平臺(tái)技術(shù)架構(gòu)規(guī)劃_第3頁(yè)
智慧銀行數(shù)據(jù)中心應(yīng)用平臺(tái)技術(shù)架構(gòu)規(guī)劃_第4頁(yè)
智慧銀行數(shù)據(jù)中心應(yīng)用平臺(tái)技術(shù)架構(gòu)規(guī)劃_第5頁(yè)
已閱讀5頁(yè),還剩157頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、智慧銀行數(shù)據(jù)中心應(yīng)用平臺(tái)技術(shù)架構(gòu)規(guī)劃 TIME yyyy年M月 2021年1月目 錄 TOC o 1-3 h z HYPERLINK l _Toc62144988 第1章項(xiàng)目概述 PAGEREF _Toc62144988 h 5 HYPERLINK l _Toc62144989 1.1項(xiàng)目背景 PAGEREF _Toc62144989 h 5 HYPERLINK l _Toc62144990 1.2項(xiàng)目目標(biāo) PAGEREF _Toc62144990 h 6 HYPERLINK l _Toc62144991 1.3項(xiàng)目需求 PAGEREF _Toc62144991 h 7 HYPERLINK l

2、 _Toc62144992 1.3.1數(shù)據(jù)中心 PAGEREF _Toc62144992 h 7 HYPERLINK l _Toc62144993 1.3.2金融數(shù)據(jù)模型 PAGEREF _Toc62144993 h 8 HYPERLINK l _Toc62144994 1.3.3數(shù)據(jù)分析及業(yè)務(wù)應(yīng)用展現(xiàn) PAGEREF _Toc62144994 h 9 HYPERLINK l _Toc62144995 第2章解決方案概述 PAGEREF _Toc62144995 h 11 HYPERLINK l _Toc62144996 2.1數(shù)據(jù)中心應(yīng)用平臺(tái) PAGEREF _Toc62144996 h 1

3、1 HYPERLINK l _Toc62144997 2.2解決方案體系架構(gòu) PAGEREF _Toc62144997 h 11 HYPERLINK l _Toc62144998 第3章技術(shù)解決方案 PAGEREF _Toc62144998 h 13 HYPERLINK l _Toc62144999 3.1數(shù)據(jù)中心整體架構(gòu)設(shè)計(jì) PAGEREF _Toc62144999 h 13 HYPERLINK l _Toc62145000 3.1.1系統(tǒng)設(shè)計(jì)原則 PAGEREF _Toc62145000 h 13 HYPERLINK l _Toc62145001 3.1.2總體邏輯架構(gòu) PAGEREF _

4、Toc62145001 h 15 HYPERLINK l _Toc62145002 3.1.3數(shù)據(jù)中心邏輯架構(gòu)與產(chǎn)品部署架構(gòu) PAGEREF _Toc62145002 h 19 HYPERLINK l _Toc62145003 3.2數(shù)據(jù)中心平臺(tái)方案詳細(xì)設(shè)計(jì) PAGEREF _Toc62145003 h 20 HYPERLINK l _Toc62145004 3.2.1數(shù)據(jù)中心應(yīng)用平臺(tái)模型設(shè)計(jì) PAGEREF _Toc62145004 h 20 HYPERLINK l _Toc62145005 3.2.2數(shù)據(jù)源分析方案 PAGEREF _Toc62145005 h 28 HYPERLINK l

5、 _Toc62145006 3.2.3數(shù)據(jù)流程設(shè)計(jì)(Data Centric View) PAGEREF _Toc62145006 h 31 HYPERLINK l _Toc62145007 3.2.4ETL架構(gòu)設(shè)計(jì) PAGEREF _Toc62145007 h 35 HYPERLINK l _Toc62145008 3.2.5元數(shù)據(jù)管理 PAGEREF _Toc62145008 h 43 HYPERLINK l _Toc62145009 3.2.6數(shù)據(jù)質(zhì)量管理 PAGEREF _Toc62145009 h 48 HYPERLINK l _Toc62145010 3.2.7數(shù)據(jù)生命周期管理 P

6、AGEREF _Toc62145010 h 51 HYPERLINK l _Toc62145011 3.2.8數(shù)據(jù)備份與恢復(fù) PAGEREF _Toc62145011 h 53 HYPERLINK l _Toc62145012 3.3物理架構(gòu)設(shè)計(jì) PAGEREF _Toc62145012 h 54 HYPERLINK l _Toc62145013 3.3.1數(shù)據(jù)倉(cāng)庫(kù)配置方法(BCU) PAGEREF _Toc62145013 h 54 HYPERLINK l _Toc62145014 3.3.2數(shù)據(jù)量估算 PAGEREF _Toc62145014 h 58 HYPERLINK l _Toc62

7、145015 3.3.3服務(wù)器選型 PAGEREF _Toc62145015 h 59 HYPERLINK l _Toc62145016 3.3.4物理部署架構(gòu) PAGEREF _Toc62145016 h 60 HYPERLINK l _Toc62145017 3.3.5數(shù)據(jù)中心系統(tǒng)擴(kuò)展建議 PAGEREF _Toc62145017 h 61 HYPERLINK l _Toc62145018 第4章產(chǎn)品解決方案 PAGEREF _Toc62145018 h 63 HYPERLINK l _Toc62145019 4.1軟件配置列表 PAGEREF _Toc62145019 h 63 HYPE

8、RLINK l _Toc62145020 4.2產(chǎn)品介紹 PAGEREF _Toc62145020 h 63 HYPERLINK l _Toc62145021 4.2.1InfoSphere Warehouse產(chǎn)品 PAGEREF _Toc62145021 h 63 HYPERLINK l _Toc62145022 4.2.2ETL 集成工具IBM Information Server PAGEREF _Toc62145022 h 75 HYPERLINK l _Toc62145023 4.2.3BI分析和報(bào)表工具Cognos PAGEREF _Toc62145023 h 93 HYPERLI

9、NK l _Toc62145024 第5章項(xiàng)目實(shí)施方案 PAGEREF _Toc62145024 h 131 HYPERLINK l _Toc62145025 5.1項(xiàng)目進(jìn)度計(jì)劃 PAGEREF _Toc62145025 h 131 HYPERLINK l _Toc62145026 5.1.1項(xiàng)目一期進(jìn)度計(jì)劃 PAGEREF _Toc62145026 h 131 HYPERLINK l _Toc62145027 5.1.2項(xiàng)目階段的工作內(nèi)容及提交成果 PAGEREF _Toc62145027 h 132 HYPERLINK l _Toc62145028 5.2項(xiàng)目培訓(xùn) PAGEREF _Toc

10、62145028 h 132 HYPERLINK l _Toc62145029 5.3項(xiàng)目組織構(gòu)架 PAGEREF _Toc62145029 h 133 HYPERLINK l _Toc62145030 5.3.1項(xiàng)目組織架構(gòu) PAGEREF _Toc62145030 h 133 HYPERLINK l _Toc62145031 5.4項(xiàng)目溝通計(jì)劃 PAGEREF _Toc62145031 h 136 HYPERLINK l _Toc62145032 5.4.1每周項(xiàng)目例會(huì) PAGEREF _Toc62145032 h 136 HYPERLINK l _Toc62145033 5.4.2項(xiàng)目進(jìn)

11、展匯報(bào)(會(huì)) PAGEREF _Toc62145033 h 136 HYPERLINK l _Toc62145034 5.4.3問(wèn)題處理流程 PAGEREF _Toc62145034 h 137 HYPERLINK l _Toc62145035 5.5質(zhì)量管理計(jì)劃 PAGEREF _Toc62145035 h 138 HYPERLINK l _Toc62145036 5.5.1目的 PAGEREF _Toc62145036 h 138 HYPERLINK l _Toc62145037 5.5.2范圍 PAGEREF _Toc62145037 h 138 HYPERLINK l _Toc6214

12、5038 5.5.3質(zhì)量保證組織 PAGEREF _Toc62145038 h 138 HYPERLINK l _Toc62145039 5.5.4質(zhì)量控制過(guò)程 PAGEREF _Toc62145039 h 138 HYPERLINK l _Toc62145040 5.6風(fēng)險(xiǎn)管理計(jì)劃和控制 PAGEREF _Toc62145040 h 139 HYPERLINK l _Toc62145041 第6章整體解決方案的優(yōu)勢(shì)和特點(diǎn) PAGEREF _Toc62145041 h 141 HYPERLINK l _Toc62145042 6.1.1豐富的實(shí)施經(jīng)驗(yàn) PAGEREF _Toc62145042

13、h 141 HYPERLINK l _Toc62145043 6.1.2高性能 PAGEREF _Toc62145043 h 144 HYPERLINK l _Toc62145044 6.1.3可擴(kuò)展性 PAGEREF _Toc62145044 h 146 HYPERLINK l _Toc62145045 6.1.4開(kāi)放性 PAGEREF _Toc62145045 h 147 HYPERLINK l _Toc62145046 6.1.5系統(tǒng)可靠性 PAGEREF _Toc62145046 h 148 HYPERLINK l _Toc62145047 6.1.6數(shù)據(jù)安全 PAGEREF _Toc

14、62145047 h 149 HYPERLINK l _Toc62145048 第7章成功案例 PAGEREF _Toc62145048 h 151 HYPERLINK l _Toc62145049 7.1國(guó)內(nèi)銀行成功案例列表 PAGEREF _Toc62145049 h 151 HYPERLINK l _Toc62145050 7.2近期實(shí)施的案例列表 PAGEREF _Toc62145050 h 152 HYPERLINK l _Toc62145051 7.3實(shí)施案例介紹 PAGEREF _Toc62145051 h 153 HYPERLINK l _Toc62145052 7.3.1浙商

15、銀行企業(yè)數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目 PAGEREF _Toc62145052 h 153 HYPERLINK l _Toc62145053 7.3.2齊魯銀行企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù) PAGEREF _Toc62145053 h 155 HYPERLINK l _Toc62145054 7.3.3龍江銀行數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目 PAGEREF _Toc62145054 h 155 HYPERLINK l _Toc62145055 7.3.4上海銀行企業(yè)信息架構(gòu)咨詢(xún)項(xiàng)目 PAGEREF _Toc62145055 h 156 HYPERLINK l _Toc62145056 附錄1 交付品清單 PAGEREF _Toc621450

16、56 h 157 HYPERLINK l _Toc62145057 附錄2 培訓(xùn)建議書(shū) PAGEREF _Toc62145057 h 158 HYPERLINK l _Toc62145058 附錄3 建議的硬件配置 PAGEREF _Toc62145058 h 160項(xiàng)目概述項(xiàng)目背景目前,銀行已經(jīng)建立了可以覆蓋全省的網(wǎng)絡(luò)中心,1個(gè)營(yíng)業(yè)部33個(gè)機(jī)構(gòu)網(wǎng)點(diǎn)主要分布在德陽(yáng)市、成都市、廣漢市、什邡市、綿竹市、羅江縣、中江縣。并且,隨著業(yè)務(wù)的發(fā)展,行內(nèi)已擁有28個(gè)業(yè)務(wù)系統(tǒng),目前有28個(gè)業(yè)務(wù)系統(tǒng):信貸系統(tǒng)、核心系統(tǒng)(改造中)、財(cái)務(wù)系統(tǒng)、中間業(yè)務(wù)、大額支付、小額支付、銀聯(lián)前置、微貸系統(tǒng)、網(wǎng)上銀行系統(tǒng)、ATM&

17、POS&CC、黃金交易系統(tǒng)、短信系統(tǒng)、第三方存管、支付寶前置、實(shí)物票據(jù)管理系統(tǒng)、網(wǎng)銀跨行轉(zhuǎn)賬、電票系統(tǒng)、工商行政驗(yàn)資、支票影像、財(cái)稅庫(kù)銀、身份核查、柜面通、城商行清算中心、電子回單柜系統(tǒng)、同城票據(jù)交換、銀醫(yī)聯(lián)名卡系統(tǒng)、理財(cái)業(yè)務(wù)系統(tǒng)、渠道平臺(tái)。 業(yè)務(wù)系統(tǒng)現(xiàn)狀核心系統(tǒng)目前正在改造,綜合報(bào)表系統(tǒng)(包含1104報(bào)表、人行支付報(bào)表、反洗錢(qián)報(bào)表、行內(nèi)監(jiān)管報(bào)表)待建。信息技術(shù)部針對(duì)目前應(yīng)用系統(tǒng)對(duì)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)使用情況出臺(tái)了一套數(shù)據(jù)使用標(biāo)準(zhǔn)、規(guī)范,目前還沒(méi)有進(jìn)入到具體實(shí)施階段。 數(shù)據(jù)使用現(xiàn)狀目前行內(nèi)所使用的各種應(yīng)用和來(lái)源數(shù)據(jù)之間交叉成網(wǎng)狀。 眾多業(yè)務(wù)系統(tǒng)的建立使我行的業(yè)務(wù)在準(zhǔn)確性、實(shí)時(shí)性上得到了極大的提高,同

18、時(shí)也降低了業(yè)務(wù)人員的辦公出錯(cuò)概率。雖然,電子化系統(tǒng)能極大的提高業(yè)務(wù)效率,但是,隨著電子化系統(tǒng)的不斷增多,其存在的缺點(diǎn)也逐漸的暴露出來(lái):數(shù)據(jù)孤島,使得各業(yè)務(wù)系統(tǒng)之間數(shù)據(jù)共享困難。不同業(yè)務(wù)系統(tǒng)的相同指標(biāo)數(shù)據(jù)有可能不一致,使得系統(tǒng)之間的銜接困難,不能滿足后續(xù)應(yīng)用系統(tǒng)的快速構(gòu)建的需要。大量數(shù)據(jù)冗余。為滿足多個(gè)應(yīng)用系統(tǒng),需要同時(shí)對(duì)多個(gè)源系統(tǒng)進(jìn)行頻繁數(shù)據(jù)采集,且每個(gè)應(yīng)用系統(tǒng)都會(huì)向源系統(tǒng)采數(shù),效率不高,對(duì)源系統(tǒng)的壓力較大。不能滿足后續(xù)應(yīng)用系統(tǒng)快速構(gòu)建的需要。 每個(gè)系統(tǒng)的開(kāi)發(fā)商不同,其數(shù)據(jù)模型和標(biāo)準(zhǔn)也不同,數(shù)據(jù)的可用程度降低。 這些缺點(diǎn),降低了行內(nèi)數(shù)據(jù)的數(shù)據(jù)抽取、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)整合、數(shù)據(jù)加載、數(shù)據(jù)歸檔、數(shù)據(jù)監(jiān)

19、控調(diào)度等,影響了相關(guān)部門(mén)對(duì)數(shù)據(jù)的管理分析。項(xiàng)目目標(biāo)數(shù)據(jù)中心應(yīng)用平臺(tái)項(xiàng)目的目標(biāo)是:解決目前我行各業(yè)務(wù)系統(tǒng)數(shù)據(jù)間存在的數(shù)據(jù)孤島、數(shù)據(jù)冗余、數(shù)據(jù)標(biāo)準(zhǔn)化的問(wèn)題。整合所有的業(yè)務(wù)系統(tǒng)(不僅包括我行現(xiàn)有的系統(tǒng),還需要考慮到我行以后將要建設(shè)的系統(tǒng))源數(shù)據(jù)準(zhǔn)確完整地分析我行現(xiàn)有的數(shù)據(jù)及其流向,為各個(gè)業(yè)務(wù)部門(mén)的管理分析提供統(tǒng)一而且完整的數(shù)據(jù)支持(如數(shù)據(jù)抽取、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)整合、數(shù)據(jù)加載、數(shù)據(jù)歸檔、數(shù)據(jù)監(jiān)控調(diào)度等)為今后各個(gè)面向主題的分析型應(yīng)用系統(tǒng)的開(kāi)發(fā)建設(shè)提供數(shù)據(jù)基礎(chǔ)和技術(shù)基礎(chǔ)。通過(guò)實(shí)現(xiàn)統(tǒng)一數(shù)據(jù)視圖和數(shù)據(jù)的服務(wù)和共享,提高銀行企業(yè)管理電子化水平。符合銀監(jiān)會(huì)銀行監(jiān)管統(tǒng)計(jì)數(shù)據(jù)質(zhì)量管理良好標(biāo)準(zhǔn)的相關(guān)要求,并配合人行金融

20、統(tǒng)計(jì)標(biāo)準(zhǔn)化試點(diǎn)工作的建設(shè)。項(xiàng)目需求項(xiàng)目要完成以下功能需求:數(shù)據(jù)中心能夠方便完成數(shù)據(jù)處理、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)使用、數(shù)據(jù)備份、恢復(fù)等工作的全程管理。提供自動(dòng)化處理管理機(jī)制,能夠管理任務(wù)調(diào)度和查詢(xún)?nèi)罩尽?shù)據(jù)源整合數(shù)據(jù)中心應(yīng)整合的源系統(tǒng)數(shù)據(jù)有(但不限于)信貸系統(tǒng)、核心系統(tǒng)、財(cái)務(wù)系統(tǒng)、中間業(yè)務(wù)、大額支付、小額支付、銀聯(lián)前置、微貸系統(tǒng)、網(wǎng)上銀行系統(tǒng)、ATM&POS前置、黃金交易系統(tǒng)、短信系統(tǒng)、第三方存管、支付寶前置、實(shí)物票據(jù)管理系統(tǒng)、網(wǎng)銀跨行轉(zhuǎn)賬、電票系統(tǒng)、工商行政驗(yàn)資、支票影像、財(cái)稅庫(kù)銀、身份核查、柜面通、城商行清算中心、電子回單柜系統(tǒng)、同城票據(jù)交換、銀醫(yī)聯(lián)名卡系統(tǒng)、理財(cái)業(yè)務(wù)系統(tǒng)、渠道平臺(tái)。能基于數(shù)據(jù)中心管

21、理業(yè)務(wù)系統(tǒng)產(chǎn)生的新的數(shù)據(jù)。針對(duì)缺失的數(shù)據(jù)能提供手工補(bǔ)錄功能。能夠分析缺失數(shù)據(jù)的源頭并針對(duì)數(shù)據(jù)源提出合理的改造方案。數(shù)據(jù)抽取采用先進(jìn)的ETL工具,將不同數(shù)據(jù)平臺(tái)、不同源數(shù)據(jù)形式、不同性能要求的源數(shù)據(jù)數(shù)據(jù)抽取到數(shù)據(jù)中心系統(tǒng)中。在數(shù)據(jù)抽取時(shí)需要重點(diǎn)考慮數(shù)據(jù)抽取的效率,以及對(duì)現(xiàn)有業(yè)務(wù)系統(tǒng)性能及安全的影響。數(shù)據(jù)采集過(guò)程應(yīng)該是自動(dòng)化的,在每天業(yè)務(wù)系統(tǒng)日結(jié)完成后立即自動(dòng)化進(jìn)行數(shù)據(jù)采集,不需手動(dòng)出發(fā)。避免抽取過(guò)程中源系統(tǒng)發(fā)生業(yè)務(wù)而導(dǎo)致抽取數(shù)據(jù)差異問(wèn)題。數(shù)據(jù)轉(zhuǎn)換對(duì)從不同數(shù)據(jù)源采集到的數(shù)據(jù),根據(jù)數(shù)據(jù)模型的要求,進(jìn)行數(shù)據(jù)的轉(zhuǎn)換、清洗、拆分、匯總等處理,保證來(lái)自不同系統(tǒng)、不同格式的數(shù)據(jù)的一致性和完整性,為應(yīng)用平臺(tái)提供

22、高質(zhì)量的數(shù)據(jù)服務(wù)。項(xiàng)目前期確定數(shù)據(jù)轉(zhuǎn)換的粒度和規(guī)則。數(shù)據(jù)加載采用高效的加載性能數(shù)據(jù)加載工具,將處理加工后的數(shù)據(jù)載入數(shù)據(jù)中心。歷史數(shù)據(jù)歸檔數(shù)據(jù)中心的建設(shè)應(yīng)充分考慮行內(nèi)至少20年的歷史數(shù)據(jù)的存儲(chǔ)及在線查詢(xún)。統(tǒng)一監(jiān)控調(diào)度數(shù)據(jù)中心做為全行的數(shù)據(jù)交換中心,是一個(gè)非常龐大的系統(tǒng),其投產(chǎn)后的運(yùn)轉(zhuǎn)情況均是自動(dòng)化的,那么必然需要一套合理的、健全的、成熟的、統(tǒng)一的監(jiān)控調(diào)度策略,以保證整個(gè)系統(tǒng)安全、穩(wěn)定、簡(jiǎn)單的運(yùn)行。金融數(shù)據(jù)模型建立高度抽象、實(shí)用的數(shù)據(jù)中心模型:數(shù)據(jù)中心項(xiàng)目對(duì)數(shù)據(jù)模型要求較高,數(shù)據(jù)模型的合理與否將關(guān)系到項(xiàng)目的成敗,因此必須選擇先進(jìn)合理的建模理念,緊密契合已有業(yè)務(wù)系統(tǒng),深刻了解銀行業(yè)務(wù)和核心系統(tǒng),建立

23、高度抽象、實(shí)用的數(shù)據(jù)中心模型。建立適合銀行的指標(biāo)庫(kù)體系。數(shù)據(jù)中心模型的建立應(yīng)充分考慮下列應(yīng)用(但不限于)對(duì)數(shù)據(jù)的使用:綜合報(bào)表系統(tǒng)(1104報(bào)表、人行大集中報(bào)表、人行利率報(bào)表、人行金融穩(wěn)定報(bào)表、人行理財(cái)產(chǎn)品統(tǒng)計(jì)報(bào)表、人行反洗錢(qián)報(bào)表、人行支付報(bào)表、國(guó)際收支申報(bào)報(bào)表、其他監(jiān)管類(lèi)報(bào)表以及行內(nèi)報(bào)表)行長(zhǎng)決策系統(tǒng)(領(lǐng)導(dǎo)駕駛艙)財(cái)務(wù)管理系統(tǒng)管理會(huì)計(jì)系統(tǒng)績(jī)效管理系統(tǒng)非現(xiàn)場(chǎng)審計(jì)系統(tǒng)操作型客戶(hù)信息系統(tǒng)(OCRM)分析型客戶(hù)關(guān)系管理系統(tǒng)(ACRM)銀行風(fēng)險(xiǎn)管理系統(tǒng)數(shù)據(jù)分析及業(yè)務(wù)應(yīng)用展現(xiàn)通過(guò)先進(jìn)的展現(xiàn)工具及多樣化的展現(xiàn)方式,向用戶(hù)提供靈活而強(qiáng)大的查詢(xún)、統(tǒng)計(jì)、分析功能,并按要求生成報(bào)表。在數(shù)據(jù)中心基礎(chǔ)上需要建立的業(yè)務(wù)

24、應(yīng)用包括:綜合報(bào)表系統(tǒng)(1104報(bào)表、人行大集中報(bào)表、人行利率報(bào)表、人行金融穩(wěn)定報(bào)表、人行理財(cái)產(chǎn)品統(tǒng)計(jì)報(bào)表、人行反洗錢(qián)報(bào)表、人行支付報(bào)表、國(guó)際收支申報(bào)報(bào)表、其他監(jiān)管類(lèi)報(bào)表以及行內(nèi)報(bào)表)行長(zhǎng)決策系統(tǒng)(領(lǐng)導(dǎo)駕駛艙)(要求支持移動(dòng)應(yīng)用)元數(shù)據(jù)管理建立有效的元數(shù)據(jù)管理平臺(tái),保證系統(tǒng)與業(yè)務(wù)的運(yùn)作保持同步并且根據(jù)市場(chǎng)和業(yè)務(wù)需求的變化隨時(shí)作出調(diào)整,一旦業(yè)務(wù)需求發(fā)生改變,用戶(hù)可以通過(guò)對(duì)元數(shù)據(jù)的維護(hù)使系統(tǒng)的運(yùn)行作出快速的響應(yīng)。數(shù)據(jù)質(zhì)量管理建立有效的、可視化的數(shù)據(jù)質(zhì)量管理平臺(tái),能夠通過(guò)建立檢驗(yàn)規(guī)則,對(duì)源數(shù)據(jù)質(zhì)量進(jìn)行持續(xù)監(jiān)測(cè),并自動(dòng)生成數(shù)據(jù)質(zhì)量管理報(bào)告;能夠?qū)崿F(xiàn)可視化的數(shù)據(jù)追溯展示,清晰展示數(shù)據(jù)指標(biāo)與源數(shù)據(jù)之間的邏

25、輯關(guān)系。解決方案概述數(shù)據(jù)中心應(yīng)用平臺(tái)我們建議銀行以業(yè)界通用的數(shù)據(jù)倉(cāng)庫(kù)理論來(lái)建設(shè)數(shù)據(jù)中心應(yīng)用平臺(tái)項(xiàng)目,數(shù)據(jù)倉(cāng)庫(kù)之父HWInmon是這樣定義數(shù)據(jù)倉(cāng)庫(kù)的:數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主題的、集成的、不可更新的且隨時(shí)間不斷變化的數(shù)據(jù)集合。數(shù)據(jù)倉(cāng)庫(kù)是基于大規(guī)模數(shù)據(jù)庫(kù)的決策支持系統(tǒng)環(huán)境的核心。它具有以下特征:海量數(shù)據(jù) (TB 級(jí)):包括來(lái)自于不同數(shù)據(jù)源的不同粒度的信息 面向主題:面向業(yè)務(wù)分析人員、管理決策者關(guān)注的主題(或者說(shuō)分析目標(biāo)) 集成性:將多個(gè)數(shù)據(jù)源異構(gòu)數(shù)據(jù)按統(tǒng)一的結(jié)構(gòu)和規(guī)則進(jìn)行數(shù)據(jù)抽取、轉(zhuǎn)換、清洗、裝載時(shí)序性:數(shù)據(jù)倉(cāng)庫(kù)中的時(shí)間期限要遠(yuǎn)遠(yuǎn)長(zhǎng)于操作型系統(tǒng)中的時(shí)間期限,比如一些應(yīng)用數(shù)據(jù)保留510年。數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)

26、據(jù)是一系列某一時(shí)刻生成的復(fù)雜的快照。持久性:除了記錄變化時(shí)間的之外,一般不對(duì)業(yè)務(wù)數(shù)據(jù)做修改。而獨(dú)立的ODS或者數(shù)據(jù)集市是為滿足已定義的用戶(hù)組或業(yè)務(wù)領(lǐng)域?qū)τ谔囟I(yè)務(wù)信息的需求而創(chuàng)建的。它們比數(shù)據(jù)倉(cāng)庫(kù)更小且更關(guān)注在數(shù)據(jù)中構(gòu)建復(fù)雜的業(yè)務(wù)規(guī)則來(lái)支持功能強(qiáng)大的分析。我們建議的數(shù)據(jù)中心應(yīng)用平臺(tái)是由ODS,數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)集市統(tǒng)一構(gòu)成,建立在企業(yè)級(jí)的數(shù)據(jù)模型之上的。ODS是數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)準(zhǔn)備區(qū)域,重點(diǎn)完成數(shù)據(jù)的整合與轉(zhuǎn)換,數(shù)據(jù)倉(cāng)庫(kù)完成數(shù)據(jù)的內(nèi)容整合與統(tǒng)一,保留數(shù)據(jù)變化的歷史,并按照業(yè)務(wù)需求進(jìn)行匯總等加工運(yùn)算。數(shù)據(jù)集市就是企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)子集,數(shù)據(jù)集市的數(shù)據(jù)來(lái)源數(shù)據(jù)倉(cāng)庫(kù),但是數(shù)據(jù)粒度上看,都是匯總數(shù)據(jù),它主

27、要是面向某個(gè)特定的分析主題解決方案體系架構(gòu)根據(jù)IBM對(duì)數(shù)據(jù)倉(cāng)庫(kù)的建設(shè)經(jīng)驗(yàn),在充分理解銀行的項(xiàng)目需求的基礎(chǔ)上,我們制定出符合銀行實(shí)際的整體解決方案,包括以下四個(gè)部分:系統(tǒng)規(guī)劃方案:規(guī)劃銀行未來(lái)幾年內(nèi)數(shù)據(jù)中心應(yīng)用平臺(tái)系統(tǒng)建設(shè),包含應(yīng)用規(guī)劃、技術(shù)規(guī)劃、實(shí)施規(guī)劃等內(nèi)容技術(shù)解決方案:從技術(shù)實(shí)現(xiàn)角度說(shuō)明銀行數(shù)據(jù)中心應(yīng)用平臺(tái)系統(tǒng)的解決方案,包括總體邏輯架構(gòu)、物理架構(gòu)、方案詳細(xì)設(shè)計(jì)等內(nèi)容產(chǎn)品解決方案:對(duì)實(shí)現(xiàn)技術(shù)解決方案中所采用的軟硬件產(chǎn)品配置進(jìn)行說(shuō)明實(shí)施方案:介紹IBM在項(xiàng)目實(shí)施中的方法論,在本次項(xiàng)目實(shí)施中的組織架構(gòu)、時(shí)間計(jì)劃等內(nèi)容技術(shù)解決方案數(shù)據(jù)中心整體架構(gòu)設(shè)計(jì)數(shù)據(jù)中心應(yīng)用平臺(tái)的數(shù)據(jù)沉淀和分析功能的開(kāi)發(fā)伴隨

28、著銀行的成長(zhǎng)甚至轉(zhuǎn)型,所以平臺(tái)需要具備足夠的穩(wěn)定性,以應(yīng)對(duì)源系統(tǒng)和外部分析需求的不斷變化。因?yàn)樵聪到y(tǒng)改造或者重建,而導(dǎo)致數(shù)據(jù)倉(cāng)庫(kù)重建往往會(huì)引起數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目的失敗。從整體上數(shù)據(jù)倉(cāng)庫(kù)的架構(gòu)具備足夠的穩(wěn)定性,能夠適應(yīng)數(shù)據(jù)源的不斷變化。數(shù)據(jù)中心的設(shè)計(jì)應(yīng)當(dāng)充分考慮數(shù)據(jù)質(zhì)量的問(wèn)題,準(zhǔn)確的、業(yè)務(wù)人員可信的分析結(jié)果建立在準(zhǔn)確的數(shù)據(jù)基礎(chǔ)之上,數(shù)據(jù)倉(cāng)庫(kù)應(yīng)該有良好的機(jī)制確保數(shù)據(jù)的準(zhǔn)確性。能夠盡早發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問(wèn)題,定位數(shù)據(jù)質(zhì)量問(wèn)題,在數(shù)據(jù)倉(cāng)庫(kù)的范圍內(nèi)盡可能提高數(shù)據(jù)的質(zhì)量。在架構(gòu)和技術(shù)層面,數(shù)據(jù)倉(cāng)庫(kù)和外圍業(yè)務(wù)系統(tǒng)應(yīng)保持松耦合的關(guān)系,確保數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)運(yùn)行不會(huì)對(duì)關(guān)鍵業(yè)務(wù)系統(tǒng)的性能和穩(wěn)定性有影響,最重要的就是體現(xiàn)在數(shù)據(jù)倉(cāng)庫(kù)

29、如何從源系統(tǒng)抽取數(shù)據(jù),既要保證對(duì)源系統(tǒng)的影響最小,同時(shí)也可適應(yīng)源系統(tǒng)的數(shù)據(jù)源的變化,這就要求數(shù)據(jù)抽取這一層的設(shè)計(jì)具備足夠的靈活性、穩(wěn)定性和源系統(tǒng)的無(wú)關(guān)性。 隨著數(shù)據(jù)量的增加,數(shù)據(jù)倉(cāng)庫(kù)應(yīng)該提供有效的數(shù)據(jù)生命周期管理策略,和高性?xún)r(jià)比的水平擴(kuò)展和垂直擴(kuò)展能力,確保數(shù)據(jù)倉(cāng)庫(kù)的效率和成本的可控。大量數(shù)據(jù)倉(cāng)庫(kù)的失敗是因?yàn)槎聲?huì)不愿意承擔(dān)因數(shù)據(jù)量的增長(zhǎng)導(dǎo)致巨額的平臺(tái)擴(kuò)展成本 。支撐數(shù)據(jù)中心的數(shù)據(jù)源和應(yīng)用非常豐富,隨著數(shù)據(jù)中心的發(fā)展,會(huì)有不同機(jī)構(gòu)的數(shù)據(jù)進(jìn)入數(shù)據(jù)中心或者需要在數(shù)據(jù)中心上部署不同廠商的應(yīng)用,所以數(shù)據(jù)中心平臺(tái)應(yīng)該采用開(kāi)放的技術(shù) 系統(tǒng)設(shè)計(jì)原則優(yōu)秀的系統(tǒng)設(shè)計(jì)需要滿足很多要求,例如開(kāi)放性、擴(kuò)展性、安全性等

30、等?;贗BM的數(shù)據(jù)倉(cāng)庫(kù)實(shí)施方法以及IBM的軟硬件產(chǎn)品架構(gòu),我們的系統(tǒng)設(shè)計(jì)符合以下原則:開(kāi)放性與先進(jìn)性:基于開(kāi)放式標(biāo)準(zhǔn),遵循國(guó)際標(biāo)準(zhǔn),提供開(kāi)放的數(shù)據(jù)接口,可以進(jìn)行數(shù)據(jù)的轉(zhuǎn)入和傳出,實(shí)現(xiàn)系統(tǒng)間互連。采用先進(jìn)成熟的設(shè)備和技術(shù),確保系統(tǒng)的技術(shù)先進(jìn)性,保證投資的有效性和延續(xù)性;靈活性與可維護(hù)性:系統(tǒng)應(yīng)易于擴(kuò)展、升級(jí)和移植,并具備支持業(yè)務(wù)處理的靈活的參數(shù)化配置,業(yè)務(wù)功能的重組與更新的靈活性,新的業(yè)務(wù)應(yīng)用可靈活增加,不影響系統(tǒng)原有業(yè)務(wù)流程。具有靈活的、可進(jìn)化的數(shù)據(jù)體系結(jié)構(gòu),允許任何數(shù)據(jù)被有序引入,并與原有的數(shù)據(jù)保持一致和集成;可擴(kuò)展性與可伸縮性:具有開(kāi)放的、可擴(kuò)展的系統(tǒng)結(jié)構(gòu),允許系統(tǒng)與其它應(yīng)用系統(tǒng)集成,新

31、的功能模塊可以被迅速增加或定制出來(lái)。具有平滑分布和升級(jí)、靈活的可伸縮能力,允許將不同的計(jì)算任務(wù)分布到不同的機(jī)器上去,而不妨礙其它部分的運(yùn)行;完整性:對(duì)整個(gè)系統(tǒng)進(jìn)行統(tǒng)一規(guī)劃和設(shè)計(jì),確保統(tǒng)計(jì)應(yīng)用、數(shù)據(jù)中心系統(tǒng)和第三方工具緊密集成,共同構(gòu)成一個(gè)達(dá)到目標(biāo)的系統(tǒng),并且在數(shù)據(jù)、應(yīng)用、服務(wù)、風(fēng)格、操作方面,都能夠做到一致性和完整性;安全性與可靠性:提供良好的數(shù)據(jù)安全可靠性策略,采用多種安全可靠的技術(shù)手段,保證系統(tǒng)及數(shù)據(jù)的安全與可靠;可用性和容錯(cuò)能力:系統(tǒng)具有安全運(yùn)行的管理措施,即使在系統(tǒng)遭到非人為破壞,也能夠在最短的時(shí)間內(nèi)恢復(fù)使用;準(zhǔn)確性與實(shí)時(shí)性:保證系統(tǒng)數(shù)據(jù)處理的準(zhǔn)確性,提供多種數(shù)據(jù)審查手段,數(shù)據(jù)的傳輸要

32、及時(shí)、準(zhǔn)確、可靠和安全;易用性:系統(tǒng)設(shè)計(jì)面向最終用戶(hù),必須保證易操作、易理解、易控制;系統(tǒng)所出現(xiàn)的問(wèn)題能夠及時(shí)預(yù)報(bào)并迅速解決??傮w邏輯架構(gòu)在該總體邏輯架構(gòu)中,我們根據(jù)應(yīng)用架構(gòu)的設(shè)計(jì),結(jié)合IBM整體數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)方案來(lái)滿足銀行的需求。源系統(tǒng)層收集和存貯操作數(shù)據(jù)以對(duì)業(yè)務(wù)現(xiàn)狀進(jìn)行分析。數(shù)據(jù)源指存儲(chǔ)于各系統(tǒng)中的數(shù)據(jù)及外部數(shù)據(jù),包括:核心系統(tǒng)以及信貸系統(tǒng)、中間業(yè)務(wù)、國(guó)際結(jié)算等業(yè)務(wù)系統(tǒng)。ETL層提取/Extract, 轉(zhuǎn)換/Transform 和 裝載/Load (ETL) ,ETL層解決跨系統(tǒng)的數(shù)據(jù)收集與整合。抽取是指識(shí)別最佳的數(shù)據(jù)源,并從中獲得所需的數(shù)據(jù)。它是將數(shù)據(jù)導(dǎo)入數(shù)據(jù)中心的第一步。抽取意味著讀取并

33、理解源數(shù)據(jù),并復(fù)制數(shù)據(jù)中心所需要的部分。轉(zhuǎn)換泛指使數(shù)據(jù)中心數(shù)據(jù)適合于終端使用的過(guò)程。這一過(guò)程包括那些將源數(shù)據(jù)格式變?yōu)槟繕?biāo)數(shù)據(jù)庫(kù)格式的模塊。一般而言,轉(zhuǎn)換包括映射、清洗、匯總、重排和排序等步驟。從源系統(tǒng)到數(shù)據(jù)倉(cāng)庫(kù)之間的ETL 將需要完成對(duì)源數(shù)據(jù)的清洗和整合,最終在數(shù)據(jù)倉(cāng)庫(kù)中形成企業(yè)范圍內(nèi)的統(tǒng)一的、一致的數(shù)據(jù)集; ETL還包括數(shù)據(jù)倉(cāng)庫(kù)到數(shù)據(jù)集市的分發(fā)。從數(shù)據(jù)倉(cāng)庫(kù)到各數(shù)據(jù)集市之間的ETL 過(guò)程主要是根據(jù)不同主題數(shù)據(jù)集市分析的需要,從數(shù)據(jù)倉(cāng)庫(kù)中提取數(shù)據(jù)經(jīng)過(guò)轉(zhuǎn)換生成主題特定的數(shù)據(jù)集。這一部分的處理往往也是最為復(fù)雜的。企業(yè)級(jí)數(shù)據(jù)整合策略,或者稱(chēng)之為我們熟悉的ETL,不過(guò)這里的ETL是經(jīng)過(guò)擴(kuò)展的,數(shù)據(jù)處理的

34、過(guò)程和手段更為豐富,整個(gè)數(shù)據(jù)流程的處理更有策略性數(shù)據(jù)抽取和轉(zhuǎn)換,后面會(huì)介紹到,我們采用信息集成總線的思想來(lái)處理數(shù)據(jù)抽取,這樣數(shù)據(jù)集成收取采用模塊化的方式設(shè)計(jì),同時(shí)又能支持源數(shù)據(jù)的多樣性和異構(gòu)性,集成總線內(nèi)最主要的功能CDC用來(lái)做實(shí)時(shí)的數(shù)據(jù)抽取,聯(lián)邦可加速數(shù)據(jù)集成開(kāi)發(fā)的效率和易用性,同時(shí)可便捷的實(shí)施數(shù)據(jù)質(zhì)量相應(yīng)的管理應(yīng)用。數(shù)據(jù)倉(cāng)庫(kù)層中央數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)輸入的數(shù)據(jù)和結(jié)果數(shù)據(jù),數(shù)據(jù)倉(cāng)庫(kù)做為所有分析功能的單一數(shù)據(jù)源。數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)存儲(chǔ)要保持穩(wěn)定性、靈活性、擴(kuò)展性。一般的,數(shù)據(jù)倉(cāng)庫(kù)會(huì)采用成熟的數(shù)據(jù)倉(cāng)庫(kù)模型進(jìn)行構(gòu)建。數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)按照數(shù)據(jù)模型分主題進(jìn)行組織和存放,包括當(dāng)期的和較長(zhǎng)時(shí)間的歷史數(shù)據(jù)。數(shù)據(jù)倉(cāng)庫(kù)的核

35、心是企業(yè)級(jí)數(shù)據(jù)模型的規(guī)劃和設(shè)計(jì),是所有應(yīng)用的基礎(chǔ)。數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)的核心存儲(chǔ)區(qū)域,以面向主題的方式,細(xì)粒度的保存原子數(shù)據(jù),即屏蔽數(shù)據(jù)源的多樣性和變化,又可方便的為BI應(yīng)用提供數(shù)據(jù)支持ODS(Operational Data Store)操作型數(shù)據(jù)存儲(chǔ)通過(guò)ODS提供單一的主數(shù)據(jù)管理,比如客戶(hù)主信息管理、產(chǎn)品主信息管理等等。另外,通過(guò)ODS可以完成實(shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù)要求。對(duì)于高價(jià)值客戶(hù)的一些信息,可以通過(guò)復(fù)制的方式,實(shí)時(shí)或者近實(shí)時(shí)地復(fù)制到ODS系統(tǒng)中?;蛘咄ㄟ^(guò)ODS完成為其它的系統(tǒng)提供數(shù)據(jù)源的任務(wù)。ODS,可操作數(shù)據(jù)存儲(chǔ)區(qū)域,身兼二職,一方面保持與源系統(tǒng)的業(yè)務(wù)數(shù)據(jù)同步以滿足一些實(shí)時(shí)性應(yīng)用的數(shù)據(jù)需求,另外作

36、為一個(gè)與源系統(tǒng)近似的數(shù)據(jù)加工區(qū)為倉(cāng)庫(kù)提供數(shù)據(jù)加工服務(wù)數(shù)據(jù)集市層數(shù)據(jù)集市的數(shù)據(jù)為最終的前端分析、報(bào)告提供支持?jǐn)?shù)據(jù)集市的數(shù)據(jù)是面向最終應(yīng)用的,比如CRM、績(jī)效、反洗錢(qián)等等。數(shù)據(jù)集市的數(shù)據(jù)基于數(shù)據(jù)倉(cāng)庫(kù)之上進(jìn)行匯總加工而成。數(shù)據(jù)集市設(shè)計(jì)用途是要滿足特定的目的,同時(shí)具有查詢(xún)、分析和報(bào)表功能。這與企業(yè)數(shù)據(jù)倉(cāng)庫(kù)截然不同,企業(yè)數(shù)據(jù)倉(cāng)庫(kù)在信息內(nèi)容與結(jié)構(gòu)方面要盡可能擁有開(kāi)放性與靈活性。數(shù)據(jù)集市有以下特征:為特定用途而設(shè)計(jì)數(shù)據(jù)集市設(shè)計(jì)的目的,是支持特定用戶(hù)對(duì)數(shù)據(jù)子集的特定范圍的查詢(xún)。它以用戶(hù)所要求的方式提供企業(yè)數(shù)據(jù)倉(cāng)庫(kù)的細(xì)節(jié)匯總。優(yōu)化數(shù)據(jù)集市為了支持特定工具的訪問(wèn)而優(yōu)化。根據(jù)工具、根據(jù)企業(yè)數(shù)據(jù)倉(cāng)庫(kù)提供的信息子集來(lái)設(shè)

37、計(jì)數(shù)據(jù)集市,而不是讓用戶(hù)直接訪問(wèn)企業(yè)數(shù)據(jù)倉(cāng)庫(kù)中的大型數(shù)據(jù)庫(kù),這可以改善數(shù)據(jù)集市的性能。虛擬或物理數(shù)據(jù)集市數(shù)據(jù)集市可以是物理的實(shí)現(xiàn),也可以是企業(yè)數(shù)據(jù)倉(cāng)庫(kù)表的各種視圖。使用視圖(虛擬數(shù)據(jù)集市)可以避免存儲(chǔ)數(shù)據(jù)的多個(gè)副本,簡(jiǎn)化了數(shù)據(jù)管理。數(shù)據(jù)集市,在設(shè)計(jì)得時(shí)候往往通過(guò)OLAP技術(shù),利用數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)根據(jù)用戶(hù)需求建立的多維分析模型(多維立方體),模型以特定的方式存儲(chǔ),大大提高了前端查詢(xún)?cè)L問(wèn)的效率,用戶(hù)能方便地實(shí)現(xiàn)靈活、動(dòng)態(tài)、快速、多角度、多層次地分析企業(yè)數(shù)據(jù)。同時(shí),也可以通過(guò)定制靈活的OLTP查詢(xún)來(lái)了解明細(xì)數(shù)據(jù)。數(shù)據(jù)應(yīng)用集市,數(shù)據(jù)經(jīng)過(guò)加工和匯總,數(shù)據(jù)粒度要粗于數(shù)據(jù)倉(cāng)庫(kù),為前端應(yīng)用提供數(shù)據(jù),相比數(shù)據(jù)倉(cāng)庫(kù)

38、這里一般不會(huì)保留細(xì)節(jié)數(shù)據(jù)。以集成的方式展示查詢(xún)、報(bào)表、分析的結(jié)果通過(guò)搭建靈活的、可擴(kuò)展技術(shù)架構(gòu),在保持?jǐn)?shù)據(jù)集市穩(wěn)定性的同時(shí),可以不斷增加數(shù)據(jù)源,增加應(yīng)用數(shù)據(jù)層,滿足不斷增加的業(yè)務(wù)分析應(yīng)用需求。目前有很多業(yè)界靈活的報(bào)表工具,提供很多預(yù)先定義的模版,快速開(kāi)發(fā),從而把時(shí)間更多的放在業(yè)務(wù)需求定義上。數(shù)據(jù)中心基礎(chǔ)管理平臺(tái)數(shù)據(jù)中心的基礎(chǔ),包括元數(shù)據(jù)、數(shù)據(jù)質(zhì)量和數(shù)據(jù)生命周期管理,這些基礎(chǔ)組件貫穿數(shù)據(jù)倉(cāng)庫(kù)整個(gè)生命周期,是數(shù)據(jù)倉(cāng)庫(kù)的基石,基于此之上的數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)的管理應(yīng)用,使整個(gè)倉(cāng)庫(kù)系統(tǒng)更好的受控運(yùn)行。元數(shù)據(jù)管理是數(shù)據(jù)中心建設(shè)的一個(gè)重要一環(huán)。數(shù)據(jù)中心建設(shè)涉及到方方面面:大量的數(shù)據(jù)源表、數(shù)據(jù)倉(cāng)庫(kù)表、業(yè)務(wù)需求、數(shù)據(jù)

39、映射關(guān)系、ETL任務(wù)、ETL調(diào)度等等。一個(gè)可實(shí)施的、良好的元數(shù)據(jù)管理構(gòu)架是數(shù)據(jù)中心成功的基礎(chǔ)。完整的數(shù)據(jù)質(zhì)量管理方案可以確保數(shù)據(jù)中心數(shù)據(jù)的準(zhǔn)確性。數(shù)據(jù)質(zhì)量是數(shù)據(jù)中心的生命,要保證數(shù)據(jù)中心的可用性必須保證數(shù)中心內(nèi)的數(shù)據(jù)質(zhì)量,建立數(shù)據(jù)質(zhì)量問(wèn)題平臺(tái),使數(shù)據(jù)質(zhì)量控制過(guò)程規(guī)則化、具體化。通過(guò)數(shù)據(jù)質(zhì)量平臺(tái)做到具體問(wèn)題具體分析,并跟蹤問(wèn)題直至問(wèn)題解決。數(shù)據(jù)中心邏輯架構(gòu)與產(chǎn)品部署架構(gòu)在該總體邏輯架構(gòu)中,我們根據(jù)應(yīng)用架構(gòu)的設(shè)計(jì),以IBM整體數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)方案滿足銀行的需求。其中,以DataStage為核心來(lái)實(shí)現(xiàn)數(shù)據(jù)ETL平臺(tái),實(shí)現(xiàn)數(shù)據(jù)分發(fā),處理流轉(zhuǎn),質(zhì)量提升,清洗轉(zhuǎn)換等要求。Infomation Server平臺(tái)

40、作為企業(yè)級(jí)的ETL平臺(tái),專(zhuān)門(mén)用于企業(yè)級(jí)數(shù)據(jù)中心平臺(tái)的應(yīng)用,不僅具有強(qiáng)大的ETL功能,還包括了統(tǒng)一的Metadata元數(shù)據(jù)平臺(tái)Metadata Server,數(shù)據(jù)質(zhì)量提升的工具等。通過(guò)統(tǒng)一的元數(shù)據(jù)平臺(tái)Metadata Server對(duì)銀行數(shù)據(jù)中心項(xiàng)目中的技術(shù)元數(shù)據(jù)和其他元數(shù)據(jù)進(jìn)行管理。通過(guò)DataStage可以很好的集成銀行現(xiàn)有的異構(gòu)的數(shù)據(jù)源,進(jìn)行數(shù)據(jù)的采集。在數(shù)據(jù)存儲(chǔ)層和核心的數(shù)據(jù)中心平臺(tái)上,我們建議采用IBM InfoSphere Warehouse數(shù)據(jù)中心平臺(tái)構(gòu)建基礎(chǔ)架構(gòu),InfoSphere Warehouse數(shù)據(jù)中心平臺(tái)中包含了DB2數(shù)據(jù)倉(cāng)庫(kù)引擎,和數(shù)據(jù)倉(cāng)庫(kù)管理開(kāi)發(fā)工具,以及多維分析,數(shù)

41、據(jù)挖掘等工具,可以滿足銀行在數(shù)據(jù)平臺(tái)上的技術(shù)要求,并符合長(zhǎng)期發(fā)展和應(yīng)用擴(kuò)展的要求。 利用InforSphere Warehouse,在將來(lái)通過(guò)該平臺(tái)不斷擴(kuò)展EDW的功能,并且可以集成現(xiàn)有的ODS平臺(tái),實(shí)現(xiàn)統(tǒng)一數(shù)據(jù)管理。在應(yīng)用服務(wù)層,針對(duì)本次項(xiàng)目主要為報(bào)表應(yīng)用和多維分析應(yīng)用,我們建議基于WAS應(yīng)用服務(wù)器平臺(tái),使用IBM Cognos作為BI分析展現(xiàn)和報(bào)表工具,對(duì)應(yīng)用提供支撐, IBM Congnos BI分析工具,具備了完整了BI分析,報(bào)表功能,還具有績(jī)效考核,財(cái)務(wù)分析等擴(kuò)展能力。WAS應(yīng)用服務(wù)器平臺(tái)符合銀行整體應(yīng)用的規(guī)劃和現(xiàn)有的環(huán)境,便于以后的擴(kuò)展,滿足大用戶(hù)量的訪問(wèn)要求。以上是本次數(shù)據(jù)中心項(xiàng)

42、目整體邏輯架構(gòu)的產(chǎn)品映射圖,對(duì)應(yīng)了應(yīng)用架構(gòu)中各個(gè)層次的產(chǎn)品支撐。數(shù)據(jù)中心平臺(tái)方案詳細(xì)設(shè)計(jì)數(shù)據(jù)中心應(yīng)用平臺(tái)模型設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)建模業(yè)務(wù)建模業(yè)務(wù)建模階段將對(duì)業(yè)務(wù)需求定義階段客戶(hù)化得到的業(yè)務(wù)需求進(jìn)行建模,在對(duì)業(yè)務(wù)需求進(jìn)行建模的時(shí)候,不用關(guān)注數(shù)據(jù)訪問(wèn)和性能等設(shè)計(jì)方面的考慮。業(yè)務(wù)建模階段的目標(biāo)是,用理想的方式、從業(yè)務(wù)角度將數(shù)據(jù)倉(cāng)庫(kù)需要的信息結(jié)構(gòu)化。這樣做,可以確認(rèn)業(yè)務(wù)需求被正確理解,并且在下一個(gè)階段,數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)師得到可靠的、業(yè)務(wù)驅(qū)動(dòng)的數(shù)據(jù)結(jié)構(gòu),大大減少近期、中期和遠(yuǎn)期維護(hù)數(shù)據(jù)倉(cāng)庫(kù)邏輯和物理結(jié)構(gòu)的成本。因?yàn)槟P途哂泻芨叩耐ㄓ眯?,我們建議在業(yè)務(wù)建模階段,要求相關(guān)參與人員應(yīng)遵循IBM IFW的實(shí)施方法論原則。業(yè)

43、務(wù)建模過(guò)程中,使用建模工具最終生成業(yè)務(wù)方案模型(Business Solution Model)。使用視圖的概念來(lái)把需要的業(yè)務(wù)方案模版(Business Solution Template)涵蓋進(jìn)來(lái),一個(gè)視圖可作為一個(gè)OLAP CUBE和Erwin模型的單位,在視圖中,定義了所有的需要的維度和度量信息。出于范圍定義的簡(jiǎn)單性,每個(gè)用戶(hù)部門(mén)可能需要不同的視圖定義?;蛘撸總€(gè)業(yè)務(wù)方案模版都會(huì)定義自己的視圖。模型映射根據(jù)數(shù)據(jù)源分析的結(jié)果利用工具進(jìn)行從數(shù)據(jù)源到數(shù)據(jù)模型的Mapping,最終生成ETL Mapping,使數(shù)據(jù)模型符合實(shí)際業(yè)務(wù)技術(shù)需求。并在裁減過(guò)程中充分考慮今后的擴(kuò)展性與穩(wěn)定性。Mappin

44、g人員通常是參與數(shù)據(jù)源分析的人員,熟悉數(shù)據(jù)源的數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)質(zhì)量等信息,同時(shí)也掌握了建模的知識(shí)。在Mapping過(guò)程中的幾個(gè)重點(diǎn):數(shù)據(jù)整合,(統(tǒng))單一視圖整合各個(gè)系統(tǒng)的數(shù)據(jù),如核心業(yè)務(wù)系統(tǒng)的貸款分戶(hù)帳與信貸管理系統(tǒng)中的借據(jù)整合客戶(hù)信息,核心業(yè)務(wù)系統(tǒng)的客戶(hù)信息,信貸管理系統(tǒng)中的客戶(hù)信息數(shù)據(jù)源分析結(jié)果作為M1 Mapping的輸入Mapping按照數(shù)據(jù)源,多人協(xié)同 Mapping同時(shí)做ETL Mapping多個(gè)數(shù)據(jù)源,多個(gè)項(xiàng)目視圖統(tǒng)一,多個(gè)目標(biāo)視圖Mapping Rule, 包含ETL Mapping,作為DataStage Job的輸入標(biāo)示出數(shù)據(jù)之間的業(yè)務(wù)關(guān)系根據(jù)實(shí)際業(yè)務(wù)需求,適當(dāng)修改模型邏輯數(shù)

45、據(jù)建模傳統(tǒng)的應(yīng)用系統(tǒng)大多是一些業(yè)務(wù)系統(tǒng),從數(shù)據(jù)和應(yīng)用的角度來(lái)看,它們具有以下一些特征:面向特定的應(yīng)用由事務(wù)處理驅(qū)動(dòng)實(shí)時(shí)性要求高數(shù)據(jù)檢索量少主要處理當(dāng)前數(shù)據(jù)數(shù)據(jù)按照處理流程進(jìn)行組織與傳統(tǒng)業(yè)務(wù)系統(tǒng)不同,目前正在建設(shè)的分析型應(yīng)用系統(tǒng)大多有以下特征:存儲(chǔ)大量的歷史數(shù)據(jù)和當(dāng)前數(shù)據(jù)面向分析主題(如關(guān)系人、產(chǎn)品、機(jī)構(gòu)等)數(shù)據(jù)來(lái)源廣泛,可能會(huì)跨不同的業(yè)務(wù)系統(tǒng)。實(shí)時(shí)性要求不是特別高數(shù)據(jù)檢索量大主要做一些綜合分析處理數(shù)據(jù)需要按照分析主題進(jìn)行組織因此,為了能夠更方便快捷地從分析應(yīng)用系統(tǒng)中抽取所需要的信息進(jìn)行全面、綜合、靈活多樣的查詢(xún)和分析,支持決策分析,就需要重新有效地組織原有業(yè)務(wù)系統(tǒng)中的數(shù)據(jù),滿足以下要求,這就是

46、邏輯數(shù)據(jù)模型的引入。用圖形的方式體現(xiàn)業(yè)務(wù)規(guī)則成為IT人員和業(yè)務(wù)人員溝通的工具獨(dú)立于技術(shù)是集成當(dāng)前數(shù)據(jù)的有效手段為未來(lái)數(shù)據(jù)的組織提供藍(lán)圖建立邏輯數(shù)據(jù)模型的意義邏輯數(shù)據(jù)模型(Logical Data Model)是一種圖形的展現(xiàn)方式,采用面向主題的方法有效組織來(lái)源多樣的各種業(yè)務(wù)數(shù)據(jù),同時(shí)能全面反映復(fù)雜的業(yè)務(wù)規(guī)則,支持大量的分析應(yīng)用。邏輯數(shù)據(jù)模型使用統(tǒng)一的邏輯語(yǔ)言描述業(yè)務(wù),是數(shù)據(jù)管理的分析工具和交流的有力手段;同時(shí)還能夠很好地保證數(shù)據(jù)的一致性,是實(shí)現(xiàn)業(yè)務(wù)智能(Business Intelligence)的重要基礎(chǔ)。數(shù)據(jù)方面因?yàn)榉治鲂蛻?yīng)用系統(tǒng)的數(shù)據(jù)來(lái)源非常多樣化,作為源數(shù)據(jù)的業(yè)務(wù)系統(tǒng)都有自己的一些特點(diǎn)

47、,同時(shí)它們的部分?jǐn)?shù)據(jù)之間還存在或多或少的聯(lián)系,所以建立邏輯數(shù)據(jù)模型的一個(gè)重要的任務(wù)就是“整合”,對(duì)數(shù)據(jù)進(jìn)行統(tǒng)一有效的管理,效益主要體現(xiàn)在:整合了不同業(yè)務(wù)系統(tǒng)和業(yè)務(wù)平臺(tái)的數(shù)據(jù)有效地避免了數(shù)據(jù)冗余保證了數(shù)據(jù)的一致性規(guī)范數(shù)據(jù)的命名和使用是建立物理數(shù)據(jù)模型的重要基礎(chǔ)應(yīng)用方面從上述幾點(diǎn)不難看出,邏輯數(shù)據(jù)模型搭建了一個(gè)靈活的數(shù)據(jù)組織框架,為不同人員(包括業(yè)務(wù)人員和IT人員)都提供了一個(gè)統(tǒng)一的數(shù)據(jù)平臺(tái),使大家都可以得到同樣的數(shù)據(jù)信息,并據(jù)此開(kāi)發(fā)相關(guān)的應(yīng)用。建立“單一視圖”是業(yè)務(wù)人員和開(kāi)發(fā)人員的橋梁體現(xiàn)不同業(yè)務(wù)之間的關(guān)系,表達(dá)相應(yīng)的業(yè)務(wù)規(guī)則。幫助業(yè)務(wù)用戶(hù)對(duì)數(shù)據(jù)有一致的、統(tǒng)一的理解物理數(shù)據(jù)建模針對(duì)DB2數(shù)據(jù)庫(kù),

48、考慮數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)量、性能要求、安全要求等方面的因素,對(duì)數(shù)據(jù)庫(kù)表結(jié)構(gòu)、約束、索引等數(shù)據(jù)庫(kù)物理特性進(jìn)行設(shè)計(jì)和規(guī)劃。物理設(shè)計(jì)原則物理模型物理化是基于模型工具導(dǎo)出的RDA 物理模型。制定統(tǒng)一的命名規(guī)范,標(biāo)準(zhǔn)字段、根據(jù)DB2/DPF 特性 指定表實(shí)體的存儲(chǔ)空間、分區(qū)鍵、主鍵、索引。物理化后提交的模型和DDL 都保存在RDA模型中。物理化方法物理化方法在邏輯模型的物理化時(shí),不同的物理化方法得到的模型對(duì)數(shù)據(jù)庫(kù)的性能也有較大的影響。其中主要體現(xiàn)在表的合并即超類(lèi)、子類(lèi)的合并,以及屬性表以及主要實(shí)體的合并。如果超類(lèi)屬性的字段很少,此時(shí)建議把超類(lèi)的屬性,合并到每個(gè)子類(lèi)上。稱(chēng)為ROLLDOWN。反過(guò)來(lái),如果子類(lèi)的屬

49、性很少,此時(shí)建議把子類(lèi)的屬性,合并到超類(lèi)上。稱(chēng)為ROLLUP。為了提高數(shù)據(jù)裝載和訪問(wèn)的性能,保持物理模型的簡(jiǎn)單性,在物理化SOR模型時(shí)我們將權(quán)衡使用如下3種方法:關(guān)系合并到父實(shí)體 子類(lèi)實(shí)體歸并到超類(lèi)實(shí)體超類(lèi)實(shí)體屬性拆分到子類(lèi)實(shí)體命名規(guī)范首先,在物理化設(shè)計(jì)過(guò)程中,表的命名遵循模型的實(shí)體和屬性的命名原則。然后,在基于物理模型進(jìn)行完善和修改。標(biāo)準(zhǔn)字段處理標(biāo)識(shí)鍵每個(gè)鍵值代表一個(gè)ETL處理過(guò)程,標(biāo)識(shí)每個(gè)表的每條記錄的生成處理流程ID。比如數(shù)據(jù)在從數(shù)據(jù)源經(jīng)過(guò)DataStage處理到SSA的轉(zhuǎn)換過(guò)程中都會(huì)記錄一個(gè)處理標(biāo)識(shí)。在ETL日志表內(nèi)會(huì)記錄每個(gè)鍵值的含義。每個(gè)表內(nèi)要添加一個(gè)Physical Only的i

50、nt類(lèi)型的ETL_SEQ_ID的字段來(lái)記錄此值。源系統(tǒng)標(biāo)識(shí) 在物理模型中都有一個(gè)能夠標(biāo)識(shí)數(shù)據(jù)業(yè)務(wù)系統(tǒng)來(lái)源的int型字段:SRC_STM_ID。后期數(shù)據(jù)源的擴(kuò)充,基于以上系統(tǒng)ID 往上遞增。主外鍵由于主外鍵表示的是對(duì)數(shù)據(jù)的一種完整性約束,保證數(shù)據(jù)的完整性,但同時(shí)也會(huì)在修改數(shù)據(jù)時(shí)要求DB2做一些額外的工作來(lái)保證這種約束,比如主鍵的唯一性檢查,外鍵的存在性檢查等,作為一個(gè)經(jīng)驗(yàn)準(zhǔn)則,為每一個(gè)物理表指定一個(gè)業(yè)務(wù)主鍵,由于模型中添加主鍵會(huì)影響很多關(guān)聯(lián)關(guān)系的表,所以在模型物理化階段中根據(jù)實(shí)際需要添加改主鍵,這些會(huì)在doc文檔中寫(xiě)明。一般來(lái)說(shuō)數(shù)據(jù)的完整性約束已經(jīng)在我們的ETL程序內(nèi)完成了,因此對(duì)于數(shù)據(jù)倉(cāng)庫(kù)這種

51、特殊的應(yīng)用,我們一般在主外鍵上遵循如下原則:邏輯實(shí)體的主鍵轉(zhuǎn)化為物理表的主鍵,這時(shí)DB2會(huì)自動(dòng)為此表的鍵值創(chuàng)建一個(gè)唯一性索引,此索引在與其它表Join時(shí)可以提高運(yùn)算速度。分區(qū)鍵 DB2/DPF數(shù)據(jù)的分區(qū)有如下2個(gè)原則層面:數(shù)據(jù)在不同數(shù)據(jù)庫(kù)分區(qū)之間的劃分:利用表的分區(qū)鍵(partition key)DB2自動(dòng)完成。通過(guò)一個(gè)hash函數(shù),DB2把每條記錄依據(jù)其分區(qū)鍵的值映射到不同的數(shù)據(jù)庫(kù)分區(qū)內(nèi)。數(shù)據(jù)存儲(chǔ)區(qū)域的劃分:人為的指定把一部分?jǐn)?shù)據(jù)放在一起,另一部分放在另外一塊存儲(chǔ)區(qū)域,這樣在訪問(wèn)數(shù)據(jù)時(shí)DB2可以快速的定位數(shù)據(jù)的位置,從而提高數(shù)據(jù)訪問(wèn)性能。(這塊物理架構(gòu)設(shè)計(jì)中考慮)。當(dāng)定義分區(qū)鍵時(shí),我們不僅從

52、數(shù)據(jù)存儲(chǔ)分布上考慮,同時(shí)還要從業(yè)務(wù)處理能力上考慮。在這兩者之間找到均衡點(diǎn)。有如下原則:數(shù)據(jù)均勻分布原則:為避免某個(gè)特定的分區(qū)數(shù)據(jù)量過(guò)大而成為整個(gè)系統(tǒng)的性能瓶頸,分區(qū)鍵的Cardinality最好要足夠大,并且數(shù)據(jù)在不同分區(qū)鍵值的分布是均勻的,因此表的主鍵或作為唯一索引的鍵是比較好的選擇。數(shù)據(jù)同步分布原則:由于DB2的Share-Nothing特性,為最大限度的利用DB2的并行特性,避免Share-Nothing導(dǎo)致的不利因素(不同分區(qū)的數(shù)據(jù)關(guān)聯(lián)時(shí)大量的網(wǎng)絡(luò)數(shù)據(jù)傳輸),分區(qū)鍵最好也是常用于表之間關(guān)聯(lián)的鍵。性能原則:用于計(jì)算分區(qū)的hash函數(shù)也需要計(jì)算量,為提高此函數(shù)的性能,分區(qū)鍵最好是運(yùn)算速度較

53、快的數(shù)據(jù)類(lèi)型,比如整型,避免使用字符串、浮點(diǎn)、Decimal等數(shù)據(jù)類(lèi)型。例如:比如對(duì)于IP表,會(huì)考慮選擇IP_ID作為分區(qū)鍵。考慮因素:由于IP_ID的cardinality高,hash后數(shù)據(jù)會(huì)均勻的分布到每個(gè)分區(qū)上從應(yīng)用上看,和其他相關(guān)表的連接大多使用IP_id,這樣會(huì)使大部分的join都是collate的,效率最高。分區(qū)鍵選擇參考數(shù)據(jù)庫(kù)建表分區(qū)原則,模型物理化時(shí),需要考慮到實(shí)體的數(shù)據(jù)業(yè)務(wù)應(yīng)用和數(shù)據(jù)均勻分布、長(zhǎng)遠(yuǎn)數(shù)據(jù)量增加上,有下面幾個(gè)標(biāo)準(zhǔn):數(shù)據(jù)量比較小的表(一般小于10萬(wàn)行),物理化時(shí)建立在單節(jié)點(diǎn)的數(shù)據(jù)庫(kù)表空間上。如:Cl數(shù)據(jù)量比較大的建立上多分區(qū)上。同時(shí)要注意以下幾個(gè)方面:有單個(gè)主鍵的實(shí)

54、體表,直接以主鍵作為分區(qū)鍵。對(duì)于聯(lián)合主鍵實(shí)體表,選擇關(guān)聯(lián)查詢(xún)次數(shù)最多的字段作為分區(qū)鍵。根據(jù)DPF 特性,只有在查詢(xún)中包含分區(qū)鍵時(shí),才能體現(xiàn)出DB2 性能。否則會(huì)影響到DB2處理性能。所以考慮到RDWM模型中的關(guān)系表,以最多的查詢(xún)的字段作為分區(qū)鍵。索引索引是DB2改善SQL效率的最主要工具,選擇創(chuàng)建索引的時(shí)候可以基于如下原則:主鍵自動(dòng)建立唯一索引,本模型中主鍵確定,索引將自動(dòng)生成。對(duì)于快速排序操作,在頻繁用于排序數(shù)據(jù)的列上創(chuàng)建索引要提高多列索引的連接性能,如果第一個(gè)鍵列有多項(xiàng)選擇,則使用最常用“=”(等值連接)謂詞指定的那一列,或使用如第一個(gè)鍵那樣具有最多特異值的那些列。 要提高數(shù)據(jù)檢索速度,可

55、在唯一索引中用INCLUDE的方式增加其它字段。合適的列為: 根據(jù)對(duì)鍵的使用是正序還是逆序,可以當(dāng)在 CREATE INDEX 語(yǔ)句中指定 是否使用ALLOW REVERSE SCANS 參數(shù)。該參數(shù)可逆向搜索索引值,但是,執(zhí)行按指定索引順序的掃描比執(zhí)行逆向掃描稍微更快一些。 要保證索引維護(hù)成本和空間: 要提高涉及到 IMMEDIATE 和 INCREMENTAL MQT 的 DELETE 和 UPDATE 操作的性能,對(duì) MQT 的隱含唯一鍵創(chuàng)建唯一索引,它是 MQT 定義的 GROUP BY 子句中的列。 要幫助新插入的行根據(jù)索引進(jìn)行群集并避免頁(yè)分割,定義一個(gè)群集索引(MDC)。群集索引應(yīng)

56、顯著減少重組表的需要。 當(dāng)定義索引時(shí)可以使用 PCTFREE 關(guān)鍵字來(lái)指定頁(yè)上應(yīng)該留下多少可用空間,合理的設(shè)定PCTFREE可以保證IO的性能,同時(shí)減少數(shù)據(jù)頁(yè)分裂的機(jī)會(huì)。要啟用聯(lián)機(jī)索引整理碎片,創(chuàng)建索引時(shí)使用 MINPCTUSED 選項(xiàng)。MINPCTUSED 指定索引葉子頁(yè)中最小使用空間量的閾值并啟用聯(lián)機(jī)索引整理碎片。如果這些刪除實(shí)際上從索引頁(yè)除去鍵,則這可以在鍵刪除期間以性能損失為代價(jià)而減少重組的需要。除此之外,由于DB2維護(hù)索引需要占有空間和CPU,因此在創(chuàng)建索引的時(shí)只在必需的時(shí)候創(chuàng)建索引(只在證明索引能改善性能的時(shí)候再創(chuàng)建,否則不要?jiǎng)?chuàng)建)。創(chuàng)建MDC索引由于分表會(huì)增大管理和使用的復(fù)雜度,

57、對(duì)于數(shù)據(jù)量不大的表,可以用MDC索引來(lái)提高Roll-in/Roll-out和查詢(xún)的性能。在時(shí)間和代碼維上創(chuàng)建MDC索引,可以使數(shù)據(jù)嚴(yán)格遵守相同時(shí)間、相同代碼的數(shù)據(jù)放在一起,從而提高性能。由于MDC索引必須在創(chuàng)建的時(shí)候指定,因此在做物理化時(shí)需要指定用于做MDC索引的列。表物理屬性包含每個(gè)表的PCTFREE置為0、APPEND模式、LOCK SIZE等。數(shù)據(jù)源分析方案數(shù)據(jù)源分析數(shù)據(jù)源分析是數(shù)據(jù)中心平臺(tái)建設(shè)的第一組任務(wù)之一,是一個(gè)對(duì)需要進(jìn)入數(shù)據(jù)中心的業(yè)務(wù)數(shù)據(jù)庫(kù)中數(shù)據(jù)結(jié)構(gòu)的分析過(guò)程。通過(guò)數(shù)據(jù)源分析,我們可以對(duì)進(jìn)入數(shù)據(jù)中心的業(yè)務(wù)數(shù)據(jù)有一個(gè)清楚的認(rèn)識(shí),這種認(rèn)識(shí)可以簡(jiǎn)單劃分為“表級(jí)別”和“字段級(jí)別”。表級(jí)別

58、的數(shù)據(jù)源分析可以幫助我們了解表的業(yè)務(wù)含義、業(yè)務(wù)功能以及數(shù)據(jù)的特征,有利于確定數(shù)據(jù)源的范圍;而字段級(jí)別的分析可以幫助我們了解數(shù)據(jù)本身的特征,如主鍵、數(shù)據(jù)類(lèi)型等,從而掌握詳盡的數(shù)據(jù)質(zhì)量,對(duì)后期的接口設(shè)計(jì)、數(shù)據(jù)模型映射以及ETL的開(kāi)發(fā)都有著重要的指導(dǎo)和借鑒意義。IBM的數(shù)據(jù)倉(cāng)庫(kù)建設(shè)解決方案將將數(shù)據(jù)源分析分為兩部分來(lái)進(jìn)行,即數(shù)據(jù)源物理分析和數(shù)據(jù)源業(yè)務(wù)分析。對(duì)數(shù)據(jù)源物理特征進(jìn)行的分析主要集中在字段級(jí)別,在分析中,要求對(duì)數(shù)據(jù)源中的數(shù)據(jù)結(jié)構(gòu)獲取詳細(xì)信息,對(duì)數(shù)據(jù)變化進(jìn)行準(zhǔn)確統(tǒng)計(jì),包括:字段的明確含義字段的特殊的代碼意義數(shù)據(jù)類(lèi)型、長(zhǎng)度、是否可空、默認(rèn)值、有效值等數(shù)據(jù)的唯一性數(shù)據(jù)如何變化更新頻率數(shù)據(jù)質(zhì)量和稀疏程度

59、對(duì)數(shù)據(jù)源業(yè)務(wù)特征進(jìn)行的分析主要集中在表級(jí)別,在分析中,要求對(duì)數(shù)據(jù)源的業(yè)務(wù)邏輯與業(yè)務(wù)概念進(jìn)行準(zhǔn)確定義,收集非常細(xì)節(jié)的業(yè)務(wù)含義與較高層次的關(guān)系信息,包括:數(shù)據(jù)表的明確業(yè)務(wù)含義和對(duì)應(yīng)的業(yè)務(wù)功能模塊,如卡、現(xiàn)金等。數(shù)據(jù)表的使用情況說(shuō)明,如未使用,代碼表等。表中數(shù)據(jù)的產(chǎn)生方式,如直接更新、記錄歷史等。源系統(tǒng)內(nèi)部數(shù)據(jù)業(yè)務(wù)關(guān)系,如參照關(guān)系,約束關(guān)系等。多個(gè)源系統(tǒng)間數(shù)據(jù)的業(yè)務(wù)邏輯關(guān)系。多個(gè)源系統(tǒng)間數(shù)據(jù)整合時(shí)的數(shù)據(jù)唯一視圖的建立規(guī)則和數(shù)據(jù)準(zhǔn)確獲取標(biāo)準(zhǔn)。數(shù)據(jù)質(zhì)量驗(yàn)證規(guī)則整理,如系統(tǒng)內(nèi)表間關(guān)系數(shù)據(jù)質(zhì)量規(guī)則以及跨系統(tǒng)表間關(guān)系數(shù)據(jù)質(zhì)量規(guī)則,該規(guī)則用來(lái)后續(xù)數(shù)據(jù)清洗和數(shù)據(jù)檢查的參考。按照以上方法進(jìn)行的數(shù)據(jù)源分析示例如下:數(shù)

60、據(jù)源分析協(xié)同工作模式通常,數(shù)據(jù)中心涵蓋的數(shù)據(jù)源來(lái)源于多個(gè)業(yè)務(wù)系統(tǒng),需要進(jìn)入中心的數(shù)據(jù)表有少則幾百?gòu)?,這就導(dǎo)致數(shù)據(jù)源分析工作是一個(gè)復(fù)雜的大工作量任務(wù)。為了在保證質(zhì)量的前提下盡快完成數(shù)據(jù)源的分析,IBM在進(jìn)行數(shù)據(jù)源分析階段任務(wù)的時(shí)候采取多人協(xié)作共同完成的并行工作模式。但這樣的并行模式存在以下不足:多人工做下,工作任務(wù)容易重疊。多人工作下,工作結(jié)果不容易合并。多人工作下,工作風(fēng)格很難統(tǒng)一,工作結(jié)果很難保證。針對(duì)以上的問(wèn)題,IBM將數(shù)據(jù)源分析的結(jié)果看作是一種“業(yè)務(wù)元數(shù)據(jù)”,并將該元數(shù)據(jù)保存到元數(shù)據(jù)管理數(shù)據(jù)庫(kù)(MDR)中,借用元數(shù)據(jù)管理思想來(lái)管理數(shù)據(jù)源分析工作,既能達(dá)到快速的目的,又能夠保證質(zhì)量。下圖是

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論