![商業(yè)銀行數(shù)據(jù)倉庫淺析_第1頁](http://file4.renrendoc.com/view/9feb2c2827aa42c6b8b1c412bb55ce8f/9feb2c2827aa42c6b8b1c412bb55ce8f1.gif)
![商業(yè)銀行數(shù)據(jù)倉庫淺析_第2頁](http://file4.renrendoc.com/view/9feb2c2827aa42c6b8b1c412bb55ce8f/9feb2c2827aa42c6b8b1c412bb55ce8f2.gif)
![商業(yè)銀行數(shù)據(jù)倉庫淺析_第3頁](http://file4.renrendoc.com/view/9feb2c2827aa42c6b8b1c412bb55ce8f/9feb2c2827aa42c6b8b1c412bb55ce8f3.gif)
![商業(yè)銀行數(shù)據(jù)倉庫淺析_第4頁](http://file4.renrendoc.com/view/9feb2c2827aa42c6b8b1c412bb55ce8f/9feb2c2827aa42c6b8b1c412bb55ce8f4.gif)
![商業(yè)銀行數(shù)據(jù)倉庫淺析_第5頁](http://file4.renrendoc.com/view/9feb2c2827aa42c6b8b1c412bb55ce8f/9feb2c2827aa42c6b8b1c412bb55ce8f5.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
商業(yè)銀行數(shù)據(jù)倉庫淺析營口銀行內(nèi)部資料BYK商業(yè)銀行數(shù)據(jù)倉庫淺析BYK商業(yè)銀行數(shù)據(jù)倉庫淺析商業(yè)銀行數(shù)據(jù)倉庫淺析第一版孟凡濤2012年12月目錄引言 51 基本概念 61.1 操作型系統(tǒng) 61.2 OLTP和OLAP 61.3 數(shù)據(jù)源系統(tǒng) 71.4 數(shù)據(jù)倉庫 71.4.1 面向主題 71.4.2 集成 81.4.3 非易失性 91.4.4 隨時間變化 101.5 決策支持系統(tǒng) 111.6 維度和度量 112 數(shù)據(jù)倉庫的好處 123 數(shù)據(jù)倉庫核心內(nèi)容 143.1 典型數(shù)據(jù)倉庫架構(gòu)圖 143.2 數(shù)據(jù)模型 143.2.1 模型設(shè)計思路 153.2.2 模型設(shè)計原則 163.2.3 模型主題劃分 163.2.4 拉鏈表 193.2.5 快照表 203.2.6 流水表 203.3 ODS層 203.3.1 ODS定義 203.3.2 ODS作用 213.4 FDS層 223.5 IDS層 223.6 數(shù)據(jù)集市 223.7 ETL過程 233.8 調(diào)度管理 233.9 元數(shù)據(jù)管理 243.9.1 基本定義 243.9.2 元數(shù)據(jù)管理的作用 253.10 數(shù)據(jù)質(zhì)量管理 264 數(shù)據(jù)倉庫規(guī)范 274.1 數(shù)據(jù)層規(guī)范 274.2 主題域命名 274.2.1 基礎(chǔ)數(shù)據(jù)層(FDS)主題命名 284.2.2 集成數(shù)據(jù)層(IDS)主題命名 294.2.3 實體/表命名 294.2.4 屬性/列命名 325 歷史數(shù)據(jù) 346 常見問題 346.1 數(shù)據(jù)量 356.2 拉鏈表 356.3 索引 36引言近年來,由于計算機(jī)技術(shù)的飛速發(fā)展和科技的不斷進(jìn)步,數(shù)據(jù)庫技術(shù)的應(yīng)用在各個領(lǐng)域也不斷的深入。在金融領(lǐng)域,數(shù)據(jù)庫技術(shù)的發(fā)展和應(yīng)用為商業(yè)銀行積累了大量的日常業(yè)務(wù)數(shù)據(jù),這些數(shù)據(jù)對于商業(yè)銀行來說無異于一個巨大的寶庫,蘊(yùn)藏著大量的對銀行管理和決策有用的信息。但如何使這些數(shù)據(jù)轉(zhuǎn)換成有用的信息,為商業(yè)銀行各種業(yè)務(wù)的發(fā)展提供正確的決策,傳統(tǒng)的數(shù)據(jù)庫系統(tǒng)已經(jīng)無法滿足需求。于是人們不斷嘗試對數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行再加工,形成一個綜合的、面向分析的環(huán)境,以更好的支持銀行決策者進(jìn)行決策分析。在這種情況下,就產(chǎn)生了一種新的信息處理技術(shù)——數(shù)據(jù)倉庫技術(shù)(DataWarehouse)。數(shù)據(jù)倉庫技術(shù)在商業(yè)銀行領(lǐng)域的應(yīng)用越來越多,那么究竟什么是數(shù)據(jù)倉庫,如何構(gòu)建數(shù)據(jù)倉庫就是本文所要探討的內(nèi)容。目前國內(nèi)的很多商業(yè)銀行都在建設(shè)自己的數(shù)據(jù)倉庫,然而不同的廠商、不同的銀行對于數(shù)據(jù)倉庫的理解也各不相同,建設(shè)的成果五花八門,有很成功的案例、也有很多失敗的案例。無論是哪種情況、也無論是采取哪種思路建設(shè)數(shù)據(jù)倉庫,如果所建設(shè)的成果能夠真正為銀行所用、能夠?qū)τ阢y行的統(tǒng)計分析、決策支持起到一定的作用,并且對于后續(xù)的維護(hù)工作、升級工作能夠很順暢的進(jìn)行下去,我們就可以說,這樣的數(shù)據(jù)倉庫對于銀行來說是成功的。本人從事金融行業(yè)的軟件系統(tǒng)建設(shè)工作已經(jīng)近七年的時間,也參與過一些商業(yè)銀行數(shù)據(jù)倉庫的規(guī)劃、建設(shè)過程。對于商業(yè)銀行數(shù)據(jù)倉庫有一些基本的理解與認(rèn)識,為了使自己的經(jīng)驗以及所學(xué)、所想不至于隨著時間的推移而遺忘和丟失,特整理了本文關(guān)于商業(yè)銀行數(shù)據(jù)倉庫方面的知識。本文是基于相關(guān)數(shù)據(jù)倉庫項目的經(jīng)驗、結(jié)合數(shù)據(jù)倉庫一些書籍、文檔以及本人對數(shù)據(jù)倉庫的理解和在數(shù)據(jù)倉庫項目中遇到的一些問題總結(jié)的一份適合銀行內(nèi)部科技人員在數(shù)據(jù)倉庫方面學(xué)習(xí)的文檔。數(shù)據(jù)倉庫技術(shù)本身包含的內(nèi)容較多,文中還有很多章節(jié)還可以進(jìn)一步的精斟細(xì)酌,我會在后續(xù)的工作和學(xué)習(xí)中不斷的對其進(jìn)行完善。每個人對數(shù)據(jù)倉庫的理解程度也各不相同,針對本文如果有欠缺之處,希望在數(shù)據(jù)倉庫領(lǐng)域的資深前輩加以斧正。基本概念操作型系統(tǒng)操作型系統(tǒng)也稱為面向交易的處理系統(tǒng),聯(lián)機(jī)事務(wù)處理(OLTP)系統(tǒng)。其基本特征顧客的原始數(shù)據(jù)可以立即傳送到計算機(jī)中心進(jìn)行處理,并在很短的時間內(nèi)給出處理結(jié)果。其最大優(yōu)點是可以即時地處理輸入的數(shù)據(jù),及時地得到響應(yīng)。也稱為實時系統(tǒng),它的一個重要性能指標(biāo)是響應(yīng)時間。OLTP是由數(shù)據(jù)庫引擎負(fù)責(zé)完成的。OLTP數(shù)據(jù)庫旨在使事務(wù)應(yīng)用程序僅寫入所需的數(shù)據(jù),以便盡快處理單個事務(wù)。OLTP數(shù)據(jù)庫能夠支持大量并發(fā)用戶定期添加和修改數(shù)據(jù),對個別事務(wù)能夠很快地處理完成,并且只需訪問相對較少的數(shù)據(jù)。OLTP旨在處理同時輸入的成百上千的事務(wù)。對于商業(yè)銀行來說,核心業(yè)務(wù)系統(tǒng)、國際結(jié)算系統(tǒng)是典型的操作型系統(tǒng)。OLTP和OLAP當(dāng)今的數(shù)據(jù)處理主要分成兩大類:聯(lián)機(jī)事務(wù)處理OLTP(on-linetransactionprocessing)、聯(lián)機(jī)分析處理OLAP(On-LineAnalyticalProcessing)。OLTP是傳統(tǒng)的關(guān)系型數(shù)據(jù)庫的主要應(yīng)用,主要是基本的、日常的事務(wù)處理,例如銀行交易。OLAP是數(shù)據(jù)倉庫系統(tǒng)的主要應(yīng)用,支持復(fù)雜的分析操作,側(cè)重決策支持,并且提供直觀易懂的查詢結(jié)果。下表列出了OLTP與OLAP之間的比較。原始數(shù)據(jù)/操作型數(shù)據(jù)導(dǎo)出數(shù)據(jù)/DSS數(shù)據(jù)面向應(yīng)用的面向主題的詳細(xì)的綜合的或提煉的在存取瞬間是準(zhǔn)確的代表過去的數(shù)據(jù)為日常工作服務(wù)為管理者服務(wù)可更新不更新重復(fù)運(yùn)行啟發(fā)式運(yùn)行處理需求事先可知處理需求事先不知道生命周期符合SDLC(傳統(tǒng)的系統(tǒng)開發(fā)生命周期)完全不同的生命周期對性能要求高對性能要求寬松一個時刻存取一個單元一個時刻存取一個集合事務(wù)處理驅(qū)動分析處理驅(qū)動更新控制主要涉及所有權(quán)無更新控制問題高可用性松弛的可用性整體管理以子集管理非常冗余時常有冗余靜態(tài)結(jié)構(gòu)、可變的內(nèi)容結(jié)構(gòu)靈活一次處理數(shù)據(jù)量小一次處理數(shù)據(jù)量大支持日常操作支持管理需求訪問的高可能性訪問的低可能性或適度可能性數(shù)據(jù)源系統(tǒng)數(shù)據(jù)倉庫中的數(shù)據(jù)通常都是來自于操作型環(huán)境中的數(shù)據(jù),在商業(yè)銀行中操作型的系統(tǒng)主要包括核心業(yè)務(wù)系統(tǒng)、國際結(jié)算系統(tǒng)、信貸管理系統(tǒng)、財務(wù)系統(tǒng)、ECIF等等。這些系統(tǒng)每天都會產(chǎn)生大量的業(yè)務(wù)數(shù)據(jù)和交易數(shù)據(jù),數(shù)據(jù)倉庫可以每天從這些系統(tǒng)中獲取有用的數(shù)據(jù)加載到數(shù)據(jù)倉庫中供決策分析使用。隨著銀行業(yè)務(wù)的發(fā)展壯大,銀行產(chǎn)品的不斷增多,數(shù)據(jù)源系統(tǒng)也會不斷的擴(kuò)充,如銀行卡系統(tǒng)、網(wǎng)上銀行系統(tǒng)、資金系統(tǒng)等等。也正是由于數(shù)據(jù)源系統(tǒng)是會不斷擴(kuò)充的,所以說數(shù)據(jù)倉庫建設(shè)對于銀行來說不是一個項目而是一個過程。即隨著銀行操作型系統(tǒng)的不斷增多、數(shù)據(jù)倉庫的構(gòu)建也需要一直持續(xù)下去。數(shù)據(jù)倉庫數(shù)據(jù)倉庫是一個面向主題的、集成的、非易失的且隨時間變化的數(shù)據(jù)集合,用來支持管理人員的決策。數(shù)據(jù)倉庫是一個環(huán)境,而不是一個產(chǎn)品,提供用戶用于決策支持的當(dāng)前和歷史數(shù)據(jù),這些數(shù)據(jù)在傳統(tǒng)的操作型數(shù)據(jù)庫中很難或不能得到。數(shù)據(jù)倉庫技術(shù)是為了有效的把操作型數(shù)據(jù)集成到統(tǒng)一的環(huán)境中以提供決策型數(shù)據(jù)訪問的各種技術(shù)和模塊的總稱。所做的一切都是為了讓用戶更快更方便查詢所需要的信息,提供決策支持。面向主題對于商業(yè)銀行來說,傳統(tǒng)的操作型系統(tǒng)是圍繞銀行的業(yè)務(wù)應(yīng)用進(jìn)行組織的。對于一個銀行來說,應(yīng)用問題可能是儲蓄存款、對公存款、住房貸款、銀行承兌匯票。那么對于數(shù)據(jù)倉庫來說銀行的主要主題范圍可能是客戶、存款、貸款、中間業(yè)務(wù)。如下圖所示:集成集成的是數(shù)據(jù)倉庫的重要特點之一,數(shù)據(jù)倉庫中存儲的數(shù)據(jù)都是經(jīng)過集成之后的數(shù)據(jù)。傳統(tǒng)的數(shù)據(jù)是在操作型環(huán)境中存儲的,當(dāng)把數(shù)據(jù)從操作型環(huán)境轉(zhuǎn)入到數(shù)據(jù)倉庫時,如果不進(jìn)行集成就沒有意義,如果數(shù)據(jù)以一種非集成狀態(tài)存放到數(shù)據(jù)倉庫,它就不能很好的支持決策分析。下圖為一個客戶信息集成的簡單的例子。非易失性數(shù)據(jù)倉庫的數(shù)據(jù)非易失性是數(shù)據(jù)倉庫的另一個重要特征。如下圖所示,操作型環(huán)境中的數(shù)據(jù)通常是一次訪問和處理一個記錄,并且操作型環(huán)境中的數(shù)據(jù)是可以被更新的。但是在數(shù)據(jù)倉庫中的數(shù)據(jù)通常是一次載入與訪問的,并且數(shù)據(jù)倉庫中的數(shù)據(jù)并不進(jìn)行一般意義上的數(shù)據(jù)更新。隨時間變化數(shù)據(jù)倉庫的另一個顯著特征是隨時間變化的。如下圖所示,數(shù)據(jù)倉庫隨時間變化的顯著特征主要體現(xiàn)在以下幾點:■數(shù)據(jù)倉庫中的數(shù)據(jù)時間期限要遠(yuǎn)遠(yuǎn)長于操作型系統(tǒng)中數(shù)據(jù)的時間期限。操作型系統(tǒng)的時間期限一般是60~90天,而數(shù)據(jù)倉庫中數(shù)據(jù)的時間期限通常是5~10年?!霾僮餍蛿?shù)據(jù)庫含有“當(dāng)前值”的數(shù)據(jù),這些數(shù)據(jù)的準(zhǔn)確性在訪問時是有效的,同樣當(dāng)前值的數(shù)據(jù)能被更新。而數(shù)據(jù)倉庫中的數(shù)據(jù)僅僅是一系列某一時刻生成的復(fù)雜的快照。■操作型數(shù)據(jù)的鍵碼結(jié)構(gòu)可能包含也可能不包含時間元素,如年、月、日等。而數(shù)據(jù)倉庫的鍵碼結(jié)構(gòu)總是包含某時間元素。決策支持系統(tǒng)在商業(yè)銀行內(nèi)部,決策支持系統(tǒng)(DSS)與傳統(tǒng)的操作型系統(tǒng)有著明顯的區(qū)別。它不是面向交易的系統(tǒng),它屬于銀行內(nèi)部的管理類系統(tǒng),可以用于指導(dǎo)營銷、分析銀行的業(yè)務(wù)經(jīng)營情況、預(yù)測銀行的各種業(yè)務(wù)風(fēng)險、指導(dǎo)經(jīng)營決策,它的數(shù)據(jù)來源為銀行內(nèi)部的各種交易型系統(tǒng)(如核心業(yè)務(wù)系統(tǒng)、信貸管理系統(tǒng)、國際結(jié)算系統(tǒng)、銀行卡系統(tǒng)、資金業(yè)務(wù)系統(tǒng)等)。通常是面向行內(nèi)管理層、決策層和營銷層的系統(tǒng)。典型的決策支持系統(tǒng)有商業(yè)銀行管理駕駛艙系統(tǒng)、商業(yè)銀行CRM系統(tǒng)、商業(yè)銀行績效管理系統(tǒng)、商業(yè)銀行全面風(fēng)險管理系統(tǒng)、商業(yè)銀行全行報表系統(tǒng)等等。決策支持類系統(tǒng)的特點是利用銀行各個交易系統(tǒng)的數(shù)據(jù)進(jìn)行統(tǒng)計、分析、預(yù)警以達(dá)到管理和決策的需要,通常需要大量的歷史數(shù)據(jù)和全方位的業(yè)務(wù)數(shù)據(jù)的支持。因此,銀行建立了數(shù)據(jù)倉庫的基礎(chǔ)上建設(shè)決策支持類系統(tǒng)更加滿足系統(tǒng)建設(shè)和規(guī)劃的要求。維度和度量維度是指一種視角,而不是一個固定的數(shù)字;是一個判斷、說明、評價和確定一個事物的多方位、多角度、多層次的條件和概念。在數(shù)據(jù)倉庫的理論中,維度是一個與業(yè)務(wù)相關(guān)的觀察角度,是依賴于數(shù)據(jù)的有效性和表達(dá)業(yè)務(wù)成效的關(guān)鍵性能指標(biāo)。度量是業(yè)務(wù)量化的表示、用于評價業(yè)務(wù)狀態(tài)的數(shù)值型數(shù)據(jù)、用于檢測業(yè)務(wù)的成效,不同度量反映不同的業(yè)務(wù)性質(zhì),度量之間的相互獨立的。如下圖所示,以貸款基本信息表為例分別列出了維度信息和度量信息。數(shù)據(jù)倉庫的好處眾所周知,數(shù)據(jù)倉庫的建設(shè)對一個銀行甚至一個企業(yè)都是有著非常多的好處的。那么,為了能夠更清晰的理解數(shù)據(jù)倉庫的好處??梢詫?shù)據(jù)倉庫與傳統(tǒng)的操作型系統(tǒng)對比來看。下表從各個層面列出了數(shù)據(jù)倉庫的好處:數(shù)據(jù)倉庫的好處比較方面?zhèn)鹘y(tǒng)的操作型系統(tǒng)數(shù)據(jù)倉庫1.系統(tǒng)用途面向交易的聯(lián)機(jī)事務(wù)處理系統(tǒng),注重的是事務(wù)處理的響應(yīng)結(jié)果和響應(yīng)效率??梢酝瑫r處理成百上千的交易,并且能夠很快的返回結(jié)果。操作型系統(tǒng)主要是面向日常工作服務(wù)。面向復(fù)雜的分析操作,側(cè)重決策支持,能夠支持靈活的數(shù)據(jù)查詢需求,并且提供直觀易懂的查詢結(jié)果。數(shù)據(jù)倉庫主要面向管理者服務(wù)。2.?dāng)?shù)據(jù)方面【A】數(shù)據(jù)屬于分散存儲狀態(tài),均獨立于各個操作型系統(tǒng)本身。便于高效的進(jìn)行聯(lián)機(jī)事務(wù)處理。不利于對數(shù)據(jù)的統(tǒng)一管理和維護(hù)。【A】形成了統(tǒng)一的數(shù)據(jù)平臺,對各個操作型系統(tǒng)的數(shù)據(jù)進(jìn)行了整合。便于對數(shù)據(jù)的統(tǒng)一管理和維護(hù)。【B】數(shù)據(jù)沒有按照業(yè)務(wù)主題進(jìn)行劃分,沒有進(jìn)行集成和整合?!荆隆繉碓从诓煌牟僮餍拖到y(tǒng)的業(yè)務(wù)數(shù)據(jù)按照主題進(jìn)行了劃分并且對數(shù)據(jù)進(jìn)行了集成和整合。便于分析人員使用數(shù)據(jù),便于對數(shù)據(jù)的靈活查詢和分析?!綜】數(shù)據(jù)屬于面向交易的數(shù)據(jù),數(shù)據(jù)可以被更新,隨著交易的發(fā)生,數(shù)據(jù)是在實時發(fā)生變化的。沒有記錄某一時點的數(shù)據(jù)狀態(tài),不能反映數(shù)據(jù)的歷史變化情況?!綜】數(shù)據(jù)是代表過去的某一時點的數(shù)據(jù),數(shù)據(jù)不會被更新,不會發(fā)生變化。記錄著某一時點的數(shù)據(jù)狀態(tài)。能夠反映數(shù)據(jù)的歷史變化情況?!綝】數(shù)據(jù)存儲時間較短,有些數(shù)據(jù)實時發(fā)生變化的,不存儲歷史數(shù)據(jù)。無法對數(shù)據(jù)進(jìn)行持續(xù)的分析?!綝】數(shù)據(jù)存儲時間較長,通常為5到10年,便于對數(shù)據(jù)的長期持續(xù)性分析。便于從數(shù)據(jù)中提取出指導(dǎo)決策和營銷的有價值的信息?!綞】數(shù)據(jù)質(zhì)量受系統(tǒng)功能及使用者的習(xí)慣決定。無法保證有較好的數(shù)據(jù)質(zhì)量?!綞】數(shù)據(jù)倉庫的建設(shè)過程涉及到數(shù)據(jù)的集成和整合的操作,在此階段可以通過補(bǔ)錄的方式完善數(shù)據(jù)質(zhì)量。是數(shù)據(jù)的可用性更強(qiáng)。3.?dāng)?shù)據(jù)倉庫核心內(nèi)容典型數(shù)據(jù)倉庫架構(gòu)圖數(shù)據(jù)模型模型是現(xiàn)實世界的抽象,數(shù)據(jù)模型(DataModel)是數(shù)據(jù)特征的抽象,是數(shù)據(jù)庫系統(tǒng)中用以提供信息表示和操作手段的形式構(gòu)架。數(shù)據(jù)模型包括數(shù)據(jù)庫數(shù)據(jù)的結(jié)構(gòu)部分、數(shù)據(jù)庫數(shù)據(jù)的操作部分和數(shù)據(jù)庫數(shù)據(jù)的約束條件。其中,數(shù)據(jù)結(jié)構(gòu)主要描述數(shù)據(jù)的類型、內(nèi)容、性質(zhì)及數(shù)據(jù)間的關(guān)系;數(shù)據(jù)操作主要描述在相應(yīng)的數(shù)據(jù)結(jié)構(gòu)上的操作類型和操作方式;數(shù)據(jù)約束主要描述數(shù)據(jù)結(jié)構(gòu)內(nèi)數(shù)據(jù)間的語法、詞義聯(lián)系、他們之間的制約和依存關(guān)系以及數(shù)據(jù)動態(tài)變化的規(guī)則,以保證數(shù)據(jù)正確、有效和相容。數(shù)據(jù)模型是數(shù)據(jù)倉庫的靈魂,一套設(shè)計合理的數(shù)據(jù)模型是數(shù)據(jù)倉庫建設(shè)成功并能夠持續(xù)良好運(yùn)行的關(guān)鍵。模型設(shè)計思路 數(shù)據(jù)模型的設(shè)計是一個比較復(fù)雜的過程,需要經(jīng)過多次迭代過程,經(jīng)過反復(fù)檢驗和修正,才可能逐漸接近能夠反映業(yè)務(wù)的真實現(xiàn)狀。數(shù)據(jù)模型設(shè)計的思路如下:數(shù)據(jù)源驅(qū)動:確定ODS層。 對現(xiàn)有的數(shù)據(jù)源系統(tǒng)(核心系統(tǒng)、信貸系統(tǒng)、國結(jié)結(jié)算系統(tǒng)等)進(jìn)行分析,按照模型貼近源系統(tǒng)的基本原則,可以確定ODS層的數(shù)據(jù)模型。統(tǒng)一規(guī)范和管理驅(qū)動:確定FDS層。 需要在對源系統(tǒng)分析的基礎(chǔ)上,對基礎(chǔ)層模型各系統(tǒng)之間的同類數(shù)據(jù)進(jìn)行輕度整合,并結(jié)合本行的業(yè)務(wù)特點和目前的應(yīng)用需求,按一定的業(yè)務(wù)主題重新組織數(shù)據(jù)模型,形成基礎(chǔ)層邏輯模型。拿來主義:選擇共性加工層的參考模型,完善基礎(chǔ)層。 選擇同業(yè)成功案例的數(shù)據(jù)模型作為參考模型,結(jié)合法人行的業(yè)務(wù)特點,對參考模型加以修改完善,形成本行的數(shù)據(jù)模型。這種方法效率高,但得到的數(shù)據(jù)模型需要不斷地進(jìn)行修正。由此,借助他行的模型經(jīng)驗,可以確定本項目共性加工層參考模型。目標(biāo)驅(qū)動:確定應(yīng)用集市層,完善共性加工層。 根據(jù)本期項目的目標(biāo)和應(yīng)用系統(tǒng)的需求,需要產(chǎn)生輕度的數(shù)據(jù)應(yīng)用層模型。并在此基礎(chǔ)上,對各種應(yīng)用需求進(jìn)一步分析,整理出一些共性的數(shù)據(jù)加工需求;必要的話,可以對共性加工層數(shù)據(jù)模型進(jìn)行完善,以滿足多個目標(biāo)應(yīng)用的公共加工匯總要求。模型設(shè)計原則根據(jù)關(guān)鍵業(yè)務(wù)要素,或業(yè)務(wù)關(guān)注視角,及關(guān)鍵業(yè)務(wù)要素(業(yè)務(wù)關(guān)注視角)之間的關(guān)系,對數(shù)據(jù)模型進(jìn)行主題劃分;基礎(chǔ)數(shù)據(jù)層的主題劃分是通過抽象銀行業(yè)經(jīng)營活動中的要素及要素之間關(guān)系的形式,來表達(dá)商業(yè)銀行的實際業(yè)務(wù)和具體的業(yè)務(wù)聯(lián)系。它是獨立于業(yè)務(wù)應(yīng)用需求的,具有高度的穩(wěn)定性和可擴(kuò)展性;共性加工數(shù)據(jù)層的主題劃分則是基于業(yè)務(wù)關(guān)注的視角,也就是和業(yè)務(wù)應(yīng)用需求緊密相關(guān),會根據(jù)應(yīng)用系統(tǒng)的共性需求變化而變化;不同的數(shù)據(jù)層次,由于其業(yè)務(wù)關(guān)注視角不同,其主題劃分的結(jié)果可以不同;各模型層次的主題可根據(jù)實際情況劃分二級主題,便于用戶定位所需數(shù)據(jù);模型主題劃分八大業(yè)務(wù)主題客戶:主要組織和存放與銀行客戶有關(guān)的信息。包括基本信息、地址信息、信用信息、黑名單信息、財務(wù)信息等。在客戶主題域中以客戶號為唯一識別,通過客戶號與存款、貸款、銀行卡、中間業(yè)務(wù)、渠道、公用主題進(jìn)行關(guān)聯(lián)。存款;組織和存儲企業(yè)和個人客戶的在銀行的存款業(yè)務(wù)相關(guān)信息,主要包括賬戶信息、事件信息及事故信息。主要分為按個人活期、個人定期、企業(yè)活期、企業(yè)定期四個子主題。在存款主題域中以賬號為唯一識別,通過賬號與客戶,中間業(yè)務(wù)、渠道、銀行卡、公用主題進(jìn)行關(guān)聯(lián)。貸款:組織和存儲客戶的所有貸款業(yè)務(wù)數(shù)據(jù)。根據(jù)客戶的性質(zhì),將貸款客戶劃分為企業(yè)貸款和個人貸款兩類。在貸款主題域中以賬號為唯一識別,通過賬號與客戶、公用主題進(jìn)行關(guān)聯(lián)。銀行卡:組織和存儲客戶銀行卡的基本信息和交易信息。在銀行卡主題域中以卡號為唯一識別,通過卡號與存款、客戶、渠道、公用。中間業(yè)務(wù):主要整合銀行除存、貸款業(yè)務(wù)以外的業(yè)務(wù),即非利息收入以外的所有業(yè)務(wù)。中間業(yè)務(wù)主題邏輯劃分按中間業(yè)務(wù)種類進(jìn)行劃分,如國內(nèi)結(jié)算業(yè)務(wù)、銀保通、證券基金、外匯買賣等業(yè)務(wù)相關(guān)信息。在中間業(yè)務(wù)主題域中以客戶號、賬號、產(chǎn)品、機(jī)構(gòu)、渠道為唯一識別,分別通過客戶號、賬號、產(chǎn)品、機(jī)構(gòu)、渠道與客戶、存款、公用主題進(jìn)行關(guān)聯(lián)。渠道:主要存儲渠道信息、簽約賬戶信息、渠道賬戶信息以及交易流水信息。根據(jù)客戶性質(zhì)可將渠道數(shù)據(jù)分為企業(yè)客戶和個人客戶。在渠道主題域中以客戶號、賬號、產(chǎn)品、機(jī)構(gòu)、渠道為唯一識別,分別通過客戶號、賬號、產(chǎn)品、機(jī)構(gòu)、渠道與客戶、存款、銀行卡、公用主題進(jìn)行關(guān)聯(lián)。總賬:組織和存儲銀行當(dāng)前會計核算總賬以及內(nèi)部帳有關(guān)的信息。在總賬主題域中以產(chǎn)品、機(jī)構(gòu)為唯一識別,分別通過產(chǎn)品、機(jī)構(gòu)與公用主題進(jìn)行關(guān)聯(lián)。公用:用于存儲各種業(yè)務(wù)主題公用的一些信息。主要整合內(nèi)部機(jī)構(gòu)、人員、公共代碼等相關(guān)信息。包括統(tǒng)一標(biāo)準(zhǔn)代碼,以及標(biāo)準(zhǔn)代碼與各個源系統(tǒng)代碼的映射及人工補(bǔ)充代碼。各個主題間關(guān)系:業(yè)務(wù)主題優(yōu)點:以貼源的原則進(jìn)行設(shè)計,設(shè)計基礎(chǔ)層的時候以具體業(yè)務(wù)作為主導(dǎo),體現(xiàn)在銀行方面就會劃分出類似貸款,存款這樣的常用主題。數(shù)據(jù)能保證完全和真實,因為基礎(chǔ)模型和數(shù)據(jù)源相似率很高。拉鏈表拉鏈表是數(shù)據(jù)倉庫在存儲數(shù)據(jù)時最常用的一種方式。拉鏈表的優(yōu)點是數(shù)據(jù)不會產(chǎn)生冗余,節(jié)省存儲空間;缺點是容易出現(xiàn)斷鏈的情況,數(shù)據(jù)質(zhì)量會受到影響。拉鏈表的具體形態(tài)如下表(存款賬戶信息表)所示,該表中體現(xiàn)接鏈表的一個顯著特征是通過字段開始日期(SDATE)和結(jié)束日期(EDATE)來標(biāo)識,表示某一條記錄在開始日期和結(jié)束日期之間是有效的數(shù)據(jù)。當(dāng)前日期的有效數(shù)據(jù)是以‘99999999’為結(jié)束日期;當(dāng)數(shù)據(jù)發(fā)生變化時,會將‘99999999’更新為變化的前一天,并插一條變化后的數(shù)據(jù)作為當(dāng)前數(shù)據(jù),以變化當(dāng)天的日期為開始日期,以‘99999999’為結(jié)束日期。這就是整個接鏈表的變化過程。SDATEEDATEACCT_NOCLIENT_NOACCT_NAMEACCT_BALLAST_D_BAL20120924201209286224150008514747001010032809397張穎9077.0710077.0720120929201209306224150008514747001010032809397張穎6077.079077.0720121001201210106224150008514747001010032809397張穎4077.076077.0720121011999999996224150008514747001010032809397張穎3577.074077.07在數(shù)據(jù)倉庫設(shè)計時選擇使用接鏈表存儲數(shù)據(jù)應(yīng)該考慮以下幾點:■大數(shù)據(jù)量的數(shù)據(jù)表,可以考慮使用拉鏈表。因為數(shù)據(jù)倉庫中的數(shù)據(jù)是長期存儲并且數(shù)據(jù)量是不斷增長的。使用拉鏈表的好處是當(dāng)數(shù)據(jù)發(fā)生變化才插入新的記錄,使用拉鏈表不會重復(fù)存儲數(shù)據(jù),這樣對于大數(shù)據(jù)量的數(shù)據(jù)表的數(shù)據(jù)增長速度就不會成倍的增長??梢杂行У墓?jié)約存儲空間,并且能夠提高對該數(shù)據(jù)表數(shù)據(jù)的存取效率。■字段較少的數(shù)據(jù)表,可以考慮使用拉鏈表。因為拉鏈表的數(shù)據(jù)是在發(fā)生變化是插入新記錄,在插入新記錄時需要將新記錄與原有記錄做比較,比較的時候需要逐個字段進(jìn)行比較。如果字段較多會影響數(shù)據(jù)的比較效率,直接影響數(shù)據(jù)倉庫的跑批效率?!鰯?shù)據(jù)表的邏輯主鍵明確,需要清晰反映數(shù)據(jù)業(yè)務(wù)變化過程的時候,可以考慮使用拉鏈表。眾所周知,數(shù)據(jù)表中一條數(shù)據(jù)的主鍵是不會發(fā)生變化的,變化的只是主鍵之外的其它信息。拉鏈表的數(shù)據(jù)在發(fā)生變化進(jìn)行關(guān)鏈和開鏈的時候需要通過增量數(shù)據(jù)的主鍵與原有數(shù)據(jù)進(jìn)行比對。如果主鍵不明確或定義錯誤,在兩條數(shù)據(jù)比對時如果數(shù)據(jù)變化體現(xiàn)在我們所錯誤定義的主鍵上面,那么就不會將原有的應(yīng)該關(guān)鏈的數(shù)據(jù)進(jìn)行及時的關(guān)鏈,造成拉鏈表數(shù)據(jù)錯誤。另外,拉鏈表的數(shù)據(jù)能夠連續(xù)的反映某條數(shù)據(jù)記錄變化的過程,通過整條數(shù)據(jù)鏈就能清晰的看到該條記錄的整個變化情況??煺毡砜煺毡硎敲刻毂4嫒繑?shù)據(jù),通過時間戳來表示整張數(shù)據(jù)表的每一個時間點的快照??煺毡淼膬?yōu)點是數(shù)據(jù)處理邏輯簡單、方便,數(shù)據(jù)質(zhì)量較高不會出現(xiàn)錯誤;缺點是數(shù)據(jù)存在冗余,存取效率低??煺毡淼木唧w形態(tài)如下表(貸款借據(jù)表)所示。FDATEDUEBILLNODUEBILLSUMDBRESTSUMDUEBILLDATEDBMATUREDATEYSYJLX20120706XDYC0000949580000.0050950.052011071920140718373.6320120707XDYC0000949580000.0050950.052011071920140718396.9820120708XDYC0000949580000.0050950.052011071920140718420.3320120709XDYC0000949580000.0050950.052011071920140718443.69在數(shù)據(jù)倉庫設(shè)計時選擇使用接鏈表存儲數(shù)據(jù)應(yīng)該考慮以下幾點:■數(shù)據(jù)量較小的數(shù)據(jù)表,可以考慮使用快照表。因為快照表是每天一個快照,數(shù)據(jù)量重復(fù)存儲。如果數(shù)據(jù)量較大不宜使用快照表,會占用大量的存儲空間,并且隨著時間的推移,訪問效率會越來越低?!鲎侄屋^多的數(shù)據(jù)表,可以考慮用快照表。因為,字段較多,如果不采用快照表而采用拉鏈表會影響數(shù)據(jù)倉庫數(shù)據(jù)的跑批效率。流水表流水表即按照每天的交易日期增量存儲數(shù)據(jù)。通常在數(shù)據(jù)倉庫中,對于交易流水?dāng)?shù)據(jù)采用流水表進(jìn)行存儲。如存款余額變動明細(xì)表、總賬流水表等數(shù)據(jù)均需要采用流水表的方式存儲。流水表的特點是,數(shù)據(jù)真實性高、與原系統(tǒng)流水表信息一致。ODS層ODS定義ODS(OperationalDataStore)操作型數(shù)據(jù)存儲,是數(shù)據(jù)倉庫體系中的一個可選部分,ODS具備數(shù)據(jù)倉庫的部分特征和OLTP系統(tǒng)的部分特征,它是“面向主題的、集成的、當(dāng)前或接近當(dāng)前的、不斷變化的”數(shù)據(jù)。ODS層的數(shù)據(jù)是對數(shù)據(jù)源的緩沖,通常不保留歷史數(shù)據(jù),根據(jù)數(shù)據(jù)量的大小數(shù)據(jù)通常存儲七天到一個月的數(shù)據(jù)。ODS作用ODS的設(shè)計主要體現(xiàn)在以下幾個作用:■在業(yè)務(wù)系統(tǒng)和數(shù)據(jù)倉庫之間形成一個隔離層。數(shù)據(jù)倉庫通常都有非常復(fù)雜的數(shù)據(jù)來源,這些數(shù)據(jù)存放在不同的地理位置、不同的數(shù)據(jù)庫、不同的應(yīng)用之中,從這些業(yè)務(wù)系統(tǒng)對數(shù)據(jù)抽取不是一件容易的事情。因此,ODS用于存放從業(yè)務(wù)系統(tǒng)直接抽取出來的數(shù)據(jù),這些數(shù)據(jù)從數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)之間的邏輯關(guān)系上與業(yè)務(wù)系統(tǒng)基本保持一致,因此在抽取過程中極大降低了數(shù)據(jù)轉(zhuǎn)化的復(fù)雜性,而主要關(guān)注數(shù)據(jù)抽取的接口、數(shù)據(jù)量大小、抽取方式等方面的問題?!鲛D(zhuǎn)移一部分業(yè)務(wù)系統(tǒng)細(xì)節(jié)查詢的功能在數(shù)據(jù)倉庫建立之前,大量的報表、分析是由業(yè)務(wù)系統(tǒng)直接支持的,在一些比較復(fù)雜的報表生成過程中,對業(yè)務(wù)系統(tǒng)的運(yùn)行產(chǎn)生相當(dāng)大的壓力。ODS的數(shù)據(jù)從粒度、組織方式等各個方面都保持了與業(yè)務(wù)系統(tǒng)的一致性,那么原來由業(yè)務(wù)系統(tǒng)產(chǎn)生的報表、細(xì)節(jié)數(shù)據(jù)的查詢自然能夠從ODS中進(jìn)行,從而降低業(yè)務(wù)系統(tǒng)的查詢壓力?!鐾瓿蓴?shù)據(jù)倉庫中不能完成的一些功能通常,帶有ODS的數(shù)據(jù)倉庫的體系結(jié)構(gòu)中,數(shù)據(jù)倉庫層所存儲的數(shù)據(jù)都是進(jìn)行匯總過的數(shù)據(jù),并不存儲每筆交易產(chǎn)生的細(xì)節(jié)數(shù)據(jù),但是在某些特殊的應(yīng)用中,可能需要對交易細(xì)節(jié)數(shù)據(jù)進(jìn)行查詢,這時就需要把細(xì)節(jié)數(shù)據(jù)查詢的功能轉(zhuǎn)移到ODS來完成,而且ODS的數(shù)據(jù)模型按照面向主題的方式進(jìn)行存儲,可以方便地支持多維分析等查詢功能。在一個沒有ODS的數(shù)據(jù)倉庫應(yīng)用系統(tǒng)體系結(jié)構(gòu)中,數(shù)據(jù)倉庫中存儲的數(shù)據(jù)粒度是根據(jù)需要而確定的,但一般來說,最為細(xì)節(jié)的業(yè)務(wù)數(shù)據(jù)也是需要保留的,實際上也就相當(dāng)于ODS,但與ODS所不同的是,這時的細(xì)節(jié)數(shù)據(jù)不是“當(dāng)前、不斷變化的”數(shù)據(jù)。而是“歷史的、不再變化的”數(shù)據(jù)。FDS層FDS(FundationalDataStrore)基礎(chǔ)數(shù)據(jù)存儲。所謂基礎(chǔ)數(shù)據(jù),即數(shù)據(jù)不進(jìn)行更新、與源系統(tǒng)的數(shù)據(jù)保持一致。FDS層在整個數(shù)據(jù)倉庫中位于ODS層之上,是數(shù)據(jù)倉庫的核心層。FDS層的數(shù)據(jù)特點是“面向主題的、集成的、非易失的和隨時間變化”的。對于商業(yè)銀行來說,F(xiàn)DS層的主題通常分為客戶、公共、渠道、貸款、銀行卡、存款、貸款、中間業(yè)務(wù)和總賬共八類主題。各個主題下的數(shù)據(jù)是由來源于ODS層的各個業(yè)務(wù)系統(tǒng)的數(shù)據(jù)進(jìn)行了集成后的數(shù)據(jù)。數(shù)據(jù)在集成的過程中不進(jìn)行更新,只加時間標(biāo)識,數(shù)據(jù)的存儲方式主要分為拉鏈表、快照表和流水表的方式進(jìn)行存儲。FDS層的數(shù)據(jù)每天通過增量和全量的方式進(jìn)行加載,數(shù)據(jù)不進(jìn)行刪除,持續(xù)保存歷史數(shù)據(jù)。IDS層IDS(IntegratedDataStore)集成數(shù)據(jù)存儲。IDS是位于FDS之上的一層數(shù)據(jù),數(shù)據(jù)的特點是對FDS層的數(shù)據(jù)進(jìn)行了高度的整合和匯總。數(shù)據(jù)匯總方式主要將存款、貸款、總賬、中間業(yè)務(wù)、客戶等各個主題下的數(shù)據(jù)按照時間維、機(jī)構(gòu)維和幣種等維度進(jìn)行匯總。這樣處理的目的是便于下游各個應(yīng)用系統(tǒng)之間是有數(shù)據(jù)倉庫中的數(shù)據(jù)。IDS層在數(shù)據(jù)倉庫中所做的匯總通常是針對共性的信息進(jìn)行處理。而對于更進(jìn)一步的匯總和加工處理通常由各個應(yīng)用系統(tǒng)根據(jù)自身對數(shù)據(jù)的需求進(jìn)行加工處理。數(shù)據(jù)集市數(shù)據(jù)集市在整個BI領(lǐng)域是經(jīng)常提及到的概念。在很多銀行已經(jīng)建設(shè)了針對不同業(yè)務(wù)應(yīng)用需要的數(shù)據(jù)集市,如監(jiān)管數(shù)據(jù)集市、風(fēng)險數(shù)據(jù)集市、信貸報表數(shù)據(jù)集市等。在銀行沒有建設(shè)數(shù)據(jù)倉庫的情況下,數(shù)據(jù)集市是介于銀行各類業(yè)務(wù)系統(tǒng)與應(yīng)用系統(tǒng)之間的一層數(shù)據(jù)的集合,作為源系統(tǒng)數(shù)據(jù)的緩沖和應(yīng)用系統(tǒng)的數(shù)據(jù)源。例如,在2003年銀監(jiān)會成了之后提出了1104工程,在2006年初便要求全國所有的商業(yè)銀行報送1104報表。當(dāng)時,大多數(shù)銀行在建立1104報表系統(tǒng)時在沒有數(shù)據(jù)倉庫的情況下只能從銀行的各個源業(yè)務(wù)系統(tǒng)抽取數(shù)據(jù),在這種情況下,為了更好的實現(xiàn)1104報表,提高報表的取數(shù)率,大多會為銀行建設(shè)監(jiān)管數(shù)據(jù)集市,即從各個源業(yè)務(wù)系統(tǒng)中抽取出所需要的數(shù),對數(shù)據(jù)進(jìn)行一定的整合、集成,視報表情況進(jìn)行一定時期內(nèi)的報表歷史數(shù)據(jù)的存儲,以便于1104報表能夠方便的從數(shù)據(jù)集市中取數(shù)。這種實現(xiàn)方式既不影響源業(yè)務(wù)系統(tǒng)又實現(xiàn)了監(jiān)管數(shù)據(jù)的統(tǒng)一存儲、統(tǒng)一規(guī)劃、又為日后的監(jiān)管機(jī)構(gòu)的現(xiàn)場檢查提供的依據(jù)。在銀行建設(shè)了數(shù)據(jù)倉庫的情況下,數(shù)據(jù)集市通常建設(shè)在整個數(shù)據(jù)倉庫的基層數(shù)據(jù)模型的最上層,應(yīng)用系統(tǒng)之下。并且,數(shù)據(jù)倉庫的建設(shè)是根據(jù)各個應(yīng)用系統(tǒng)的需要進(jìn)行靈活設(shè)計,這種做法的好處是保證數(shù)據(jù)倉庫不會因為外圍應(yīng)用系統(tǒng)的增加而受到影響,也不會對數(shù)據(jù)倉庫造成任何性能上的壓力。ETL過程ETL即數(shù)據(jù)抽?。‥xtract)、轉(zhuǎn)換(Transfer)、加載(Load)的意思。是構(gòu)建數(shù)據(jù)倉庫的重要環(huán)節(jié)。ETL的過程即從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗轉(zhuǎn)換,最終按照預(yù)先定義好的數(shù)據(jù)倉庫模型,將數(shù)據(jù)加載到數(shù)據(jù)倉庫中去。數(shù)據(jù)抽?。簲?shù)據(jù)抽取程序能將數(shù)據(jù)從高性能聯(lián)機(jī)事務(wù)處理方式中(如銀行的核心系統(tǒng)、信貸系統(tǒng)、國結(jié)系統(tǒng)等)轉(zhuǎn)移出來,所以在對數(shù)據(jù)進(jìn)行總體分析和使用時就不會影響聯(lián)機(jī)事務(wù)處理的性能。當(dāng)數(shù)據(jù)抽取程序?qū)?shù)據(jù)從操作型事務(wù)處理范圍內(nèi)移出時,數(shù)據(jù)的控制方式就發(fā)生了轉(zhuǎn)變。最終用戶一旦開始控制數(shù)據(jù),就最終“擁有”了這些數(shù)據(jù)。就可以直接對數(shù)據(jù)進(jìn)行進(jìn)一步的加工使用。ETL將數(shù)據(jù)加載到數(shù)據(jù)倉庫的過程最終實現(xiàn)了從操作型業(yè)務(wù)系統(tǒng)到最終數(shù)據(jù)應(yīng)用分析系統(tǒng)的徹底分離。調(diào)度管理調(diào)度是數(shù)據(jù)倉庫運(yùn)轉(zhuǎn)的總協(xié)調(diào)員,任何一個數(shù)據(jù)倉庫平臺都離不開調(diào)度管理。一個好的調(diào)度管理是一個數(shù)據(jù)倉庫平臺平穩(wěn)、高效運(yùn)行的關(guān)鍵。一個好的調(diào)度管理平臺通常應(yīng)包含以下內(nèi)容:任務(wù)作業(yè)的編排和配置;任務(wù)調(diào)度過程的監(jiān)控和查看;調(diào)度日志。任務(wù)作業(yè)的編排和配置是在調(diào)度平臺上線正式運(yùn)行之前進(jìn)行配置的內(nèi)容,通常將整個數(shù)據(jù)倉庫的所有的跑批任務(wù)進(jìn)行統(tǒng)一的編號,設(shè)置前、后置的任務(wù)依賴關(guān)系,然后將具體的任務(wù)關(guān)系配置到調(diào)度平臺中,之后調(diào)度管理平臺就可以按照我們希望的先后順序及并行和串行的關(guān)系進(jìn)行調(diào)度。任務(wù)調(diào)度過程的監(jiān)控和查看通常是提供可視化的界面供數(shù)據(jù)倉庫的維護(hù)和管理人員使用,維護(hù)人員可以通過在界面上操作,方便靈活的查看到每一個任務(wù)節(jié)點的運(yùn)行情況。包括查看任務(wù)節(jié)點中包含哪些子任務(wù)、每個子任務(wù)的運(yùn)行狀態(tài)、運(yùn)行的開始時間、結(jié)束時間、正在運(yùn)行的任務(wù)個數(shù)、等待運(yùn)行的任務(wù)個數(shù)、成功運(yùn)行的任務(wù)個數(shù)、失敗運(yùn)行的任務(wù)個數(shù)、任務(wù)運(yùn)行的時長等。調(diào)度日志主要體現(xiàn)在整個調(diào)度管理平臺能夠接收各種ETL工具及腳本返回的日志,如可以集成Datastage、Kettle、Infomatica、存儲過程、Shell、JavaClass等,即具有較好的兼容性。元數(shù)據(jù)管理基本定義元數(shù)據(jù)是數(shù)據(jù)倉庫環(huán)境中一個重要方面。元數(shù)據(jù)是關(guān)于數(shù)據(jù)的數(shù)據(jù)。在數(shù)據(jù)倉庫中,元數(shù)據(jù)扮演一個新的重要角色,通過元數(shù)據(jù),可以最有效地利用數(shù)據(jù)倉庫。元數(shù)據(jù)使得最終用戶、決策分析人員能夠探索各種可能性。元數(shù)據(jù)在數(shù)據(jù)倉庫的上層,并且記錄數(shù)據(jù)倉庫中對象的位置。典型的元數(shù)據(jù)記錄:■數(shù)據(jù)倉庫表的結(jié)構(gòu)?!鰯?shù)據(jù)倉庫表的屬性?!鰯?shù)據(jù)倉庫的源數(shù)據(jù)(銀行的各種操作型系統(tǒng))?!鰪母鞣N操作型系統(tǒng)到數(shù)據(jù)倉庫的映射?!鰯?shù)據(jù)模型的規(guī)格說明?!龀槿?shù)據(jù)的歷史記錄?!鲈L問數(shù)據(jù)的公用例行程序?!鰯?shù)據(jù)模型和數(shù)據(jù)倉庫的關(guān)系。元數(shù)據(jù)為訪問數(shù)據(jù)倉庫提供了一個信息目錄(informationdirectory),這個目錄全面描述了數(shù)據(jù)倉庫中都有什么數(shù)據(jù)、這些數(shù)據(jù)怎么得到的、怎么訪問這些數(shù)據(jù)。是數(shù)據(jù)倉庫運(yùn)行和維護(hù)的中心,數(shù)據(jù)倉庫服務(wù)器利用他來存貯和更新數(shù)據(jù),用戶通過他來了解和訪問數(shù)據(jù)。元數(shù)據(jù)分為技術(shù)元數(shù)據(jù)和業(yè)務(wù)元數(shù)據(jù)。技術(shù)元數(shù)據(jù)是存儲關(guān)于數(shù)據(jù)倉庫系統(tǒng)技術(shù)細(xì)節(jié)的數(shù)據(jù),常見的有庫表結(jié)構(gòu)、數(shù)據(jù)映射、匯總算法等。業(yè)務(wù)元數(shù)據(jù)從業(yè)務(wù)角度描述了數(shù)據(jù)倉庫中的數(shù)據(jù),使得不懂計算機(jī)技術(shù)的業(yè)務(wù)人員也能“讀懂”數(shù)據(jù)倉庫中的數(shù)據(jù)。業(yè)務(wù)元數(shù)據(jù)具體包括以下信息:企業(yè)概念模型、指標(biāo)定義、代碼標(biāo)準(zhǔn)化、用戶訪問報表的規(guī)則、權(quán)限等。如下圖所示,說明了元數(shù)據(jù)與數(shù)據(jù)的區(qū)別。元數(shù)據(jù)管理的作用在數(shù)據(jù)倉庫中,元數(shù)據(jù)管理具有多方面的作用。主要包括:知識共享與標(biāo)準(zhǔn)化、影響分析、血統(tǒng)分析、數(shù)據(jù)質(zhì)量改進(jìn)、版本管理、改善業(yè)務(wù)人員數(shù)據(jù)訪問界面?!糁R共享與標(biāo)準(zhǔn)化降低學(xué)習(xí)與溝通成本;減少缺乏共享與標(biāo)準(zhǔn)帶來的數(shù)據(jù)問題;減少員工流動帶來的影響;◆影響分析減少元數(shù)據(jù)變更出錯率;提高開發(fā)效率;◆血統(tǒng)分析支持?jǐn)?shù)據(jù)分析與審計;減少數(shù)據(jù)冗余處理;◆數(shù)據(jù)質(zhì)理改進(jìn)跟蹤數(shù)據(jù)加工環(huán)節(jié),提供數(shù)據(jù)質(zhì)量預(yù)警;為數(shù)據(jù)質(zhì)量管理提供標(biāo)準(zhǔn)和依據(jù);◆版本管理保證版本的實時性和一致性;◆改善業(yè)務(wù)人員數(shù)據(jù)訪問界面標(biāo)準(zhǔn)業(yè)務(wù)術(shù)語支持;業(yè)務(wù)數(shù)據(jù)快速檢索;數(shù)據(jù)質(zhì)量管理數(shù)據(jù)倉庫是數(shù)據(jù)的載體,數(shù)據(jù)是數(shù)據(jù)倉庫存儲的對象。數(shù)據(jù)質(zhì)量的好壞直接影響下游系統(tǒng)能否從數(shù)據(jù)倉庫中獲取有效的、可供分析使用的數(shù)據(jù);直接決定數(shù)據(jù)倉庫的成敗。因此數(shù)據(jù)質(zhì)量問題是整個數(shù)據(jù)倉庫建設(shè)必須重視的問題之一。數(shù)據(jù)質(zhì)量指的是否能有效地支持所需要的管理應(yīng)用,數(shù)據(jù)質(zhì)量不能用絕對的好與壞來衡量,應(yīng)該用多種數(shù)據(jù)質(zhì)量度量來衡量,通常的數(shù)據(jù)質(zhì)量度量包括完成性、及時性、合法性、唯一性、一致性及準(zhǔn)確性。數(shù)據(jù)質(zhì)量的管理是一項長期的工作,并不是可以一次做完,有些可以通過程序檢查、有些需手工進(jìn)行。并且需要客戶方與數(shù)據(jù)倉庫建設(shè)廠商共同來完成。通常數(shù)據(jù)質(zhì)量控制可以按下列方式進(jìn)行:質(zhì)量標(biāo)準(zhǔn)度量標(biāo)準(zhǔn)定義控制規(guī)劃完整性主要是記錄缺失和字段值缺失等方面主要對ODS層的基本數(shù)據(jù)進(jìn)行分析,收集基本的統(tǒng)計數(shù)據(jù)?;镜慕y(tǒng)計信息包括屬性類別的分布、重要數(shù)字度量的最大值和最小值,空白字段。及時性指數(shù)據(jù)抽取、傳送、處理、裝載、展現(xiàn)的及時和快速性這部分內(nèi)容通常需要由調(diào)度平臺來完成。唯一性指主鍵唯一和候選鍵唯一兩個方面需要再ODS層來完成。系統(tǒng)間一致性指不同系統(tǒng)之間的數(shù)據(jù)差異和相互矛盾的一致性數(shù)據(jù)倉庫通常是多個源系統(tǒng)數(shù)據(jù)的整合,需要在ODS層向FDS層轉(zhuǎn)化是進(jìn)行處理。元數(shù)據(jù)一致性元數(shù)據(jù)管理應(yīng)一致主要檢查各個源系統(tǒng)的數(shù)據(jù)字典與ODS層之間的一致性。數(shù)據(jù)倉庫規(guī)范俗話說,沒有規(guī)矩不成方圓,那么一個好的數(shù)據(jù)倉庫的建設(shè)在很多方面要遵循一定的規(guī)范。在這種規(guī)范下建立的數(shù)據(jù)倉庫無論是對于后續(xù)數(shù)據(jù)的使用還是對數(shù)據(jù)倉庫的維護(hù)都會非常方便。數(shù)據(jù)層規(guī)范在數(shù)據(jù)倉庫中,統(tǒng)一存儲和管理全行的數(shù)據(jù),數(shù)據(jù)類型比較多,數(shù)據(jù)庫表也比較多,有從源業(yè)務(wù)系統(tǒng)直接采集按主題整合而成的基礎(chǔ)業(yè)務(wù)數(shù)據(jù),有經(jīng)過中間加工匯總的匯總數(shù)據(jù),有管理應(yīng)用專用的操作型數(shù)據(jù)和應(yīng)用分析需要而加工出的多維分析數(shù)據(jù)。因此在平臺數(shù)據(jù)庫中,各數(shù)據(jù)層的數(shù)據(jù)表統(tǒng)一存放到一個數(shù)據(jù)庫中,不同數(shù)據(jù)層采用不同的數(shù)據(jù)表命名規(guī)范,采用不同的表名前綴區(qū)分不同的數(shù)據(jù)層。下表對數(shù)據(jù)層的規(guī)范進(jìn)行說明:數(shù)據(jù)區(qū)域中文名數(shù)據(jù)區(qū)域英文名數(shù)據(jù)區(qū)域前綴表命名規(guī)范備注操作型數(shù)據(jù)存儲(ODS)OPERATIONALDATASTOREODSODS_源系統(tǒng)標(biāo)識_源物理表名基礎(chǔ)數(shù)據(jù)存儲層(FDS)FOUNDATIONALDATASTOREFF_主題標(biāo)識_表標(biāo)識_存儲標(biāo)識主題標(biāo)識包含一級、二級、三級主題域;存儲標(biāo)識為保存當(dāng)前(Snap)或歷史His,帶H結(jié)尾即為歷史表集成數(shù)據(jù)存儲層(IDS)INTEGRATEDDATASTOREII_主題標(biāo)識_匯總標(biāo)識主題域命名“主題域”是數(shù)據(jù)模型類面向業(yè)務(wù)功能應(yīng)用的概念區(qū)分,每個“主題域”由一組面向某類應(yīng)用的核心“實體/表”及一組輔助“實體/表”構(gòu)成。原則上,主題域及主題域細(xì)分的命名應(yīng)遵循下述規(guī)則:基礎(chǔ)數(shù)據(jù)層(FDS)主題命名序號一級主題域中文命名一級主題域英文命名二級主題域中文命名二級主題域英文命名細(xì)分細(xì)分英文名業(yè)務(wù)主題域物理表明前綴1客戶CI客戶公用PUBF_CI_PUB_對公客戶CIEF_CI_CIE_個人客戶CIPF_CI_CIP_2存款DP活期存款SA賬戶ACCF_DP_SA_ACC結(jié)構(gòu)存款SD賬戶ACCF_DP_SD_ACC協(xié)議AGRF_DP_SD_AGR定期存款TD賬戶ACCF_DP_TD_ACC協(xié)議AGRF_DP_TD_AGR3貸款LN企業(yè)貸款LNE賬戶ACCF_LN_LNE_ACC協(xié)議AGRF_LN_LNE_AGR個人貸款LNP賬戶ACCF_LN_LNE_ACC協(xié)議AGRF_LN_LNE_AGR4銀行卡CR卡公共PUBF_CR_PUB_貸記卡CRTF_CR_CRT_儲蓄卡/準(zhǔn)貸記卡DBTF_CR_DBT_理財卡FINF_CR_FIN_5中間業(yè)務(wù)AG外匯買賣XTF_AG_XT_證券STF_AG_ST_票據(jù)BLF_AG_BL_本幣結(jié)算STLDF_AG_STLD_國際結(jié)算STLIF_AG_STLI_6總賬GL總賬GLF_GL_GL_內(nèi)部賬INNF_GL_INN_7渠道CH公共信息CHCF_CH_CHC_企業(yè)客戶CHEF_CH_CHE_個人客戶CHPF_CH_CHP_8公共CM內(nèi)部組織IORGF_CM_ORG_業(yè)務(wù)參數(shù)BPF_CM_BP_公共事件PEF_CM_PE_集成數(shù)據(jù)層(IDS)主題命名序號一級主題域中文命名一級主題域英文命名主題標(biāo)識+匯總1客戶CII_CI_2存款DPI_DP_3貸款LNI_LN_4銀行卡CRI_CR_5中間業(yè)務(wù)AGI_AG_6總賬GLI_GL_7渠道CHI_CH_8公共CMI_CM_實體/表命名原則上,實體/表名稱應(yīng)使用易于理解、能準(zhǔn)確描述該實體、表意義的業(yè)務(wù)術(shù)語,同時命名應(yīng)遵循下述規(guī)則:
[1]物理模型表名以英文命名,中文名與英文名含義應(yīng)嚴(yán)格一致;
[2]實體/表名不要使用不易理解的方言或有地域性/部門局限的業(yè)務(wù)術(shù)語,應(yīng)使用統(tǒng)一的、正式的、全局范圍內(nèi)通用的官方業(yè)務(wù)術(shù)語;
[3]表名盡量參照原有的通用數(shù)據(jù)標(biāo)準(zhǔn)的中文名;
[4]關(guān)于物理模型實體/表中<實體標(biāo)識>的命名,如果實體表所屬業(yè)務(wù)在行內(nèi)有比較權(quán)威的源系統(tǒng),且該系統(tǒng)的命名已經(jīng)規(guī)范化,則盡量貼近權(quán)威源系統(tǒng)的命名,如:核心業(yè)務(wù)貼近FIS系統(tǒng),盡量參照數(shù)據(jù)字典中表命名;
[5]物理模型實體/表英文名全部使用字母大寫。如果實體/表英文名由多個單詞組成,單詞之間用下劃線分開;
[6]物理模型實體/表命名不超過30個字符,應(yīng)盡量使用簡練的英文拼寫。個別超長的需要提出來,模型組統(tǒng)一綜合考慮(主要考慮一些數(shù)據(jù)庫(如TERADATA、ORACLE)定義的表名不能超過30個字符)。
[7]歷史實體中文名一般用“<當(dāng)前實體中文名>”命名;英文名用“<當(dāng)前實體名>”。操作數(shù)據(jù)層(ODS)命名[1]格式為:O_源系統(tǒng)標(biāo)識_源表名稱示例:核心系統(tǒng)客戶信息表O_FIS_CUSTMERS(注:ODS存儲層_FIS核心系統(tǒng)標(biāo)示_客戶信息表)[2]物理表統(tǒng)一增加字段:DATA_DATEVARCHAR2(8)--數(shù)據(jù)日期YYYYMMDDLOAD_DATEDATE--加載日期PROD_IDVARCHAR2(5)--數(shù)據(jù)源系統(tǒng)標(biāo)識SOURCE_DATA_TYPEVARCHAR2(1)–源數(shù)據(jù)類型LOAD_TYPEVARCHAR2(1)--加載方式(全量或增量)基礎(chǔ)數(shù)據(jù)層(FDS)命名[1]格式為:F_主題標(biāo)識_表標(biāo)識_存儲標(biāo)識。示例:企業(yè)貸款賬戶信息表F_LN_LNE_ACC示例:企業(yè)貸款賬戶信息歷史表F_LN_LNE_ACC_H[2]物理表統(tǒng)一增加字段:FDATEVARCHAR2(8)--數(shù)據(jù)日期/交易日期SDATEVARCHAR2(8)--拉鏈表的開始日期EDATEVARCHAR2(8)--拉鏈表的結(jié)束日期[3]FDS物理表設(shè)計考慮如下字段信息:機(jī)構(gòu)信息機(jī)構(gòu)編碼(開戶機(jī)構(gòu)營業(yè)機(jī)構(gòu)賬務(wù)機(jī)構(gòu)均考慮下)客戶信息客戶號(涉及到關(guān)系檔主檔交易流水等)卡信息:卡號(涉及到交易流水信息)集成數(shù)據(jù)層(IDS)命名格式為:I_主題標(biāo)識_匯總標(biāo)識其中匯總標(biāo)識可以為:<指標(biāo)的主詞>_<指標(biāo)的類詞>_<匯總維度>_<時間維度>。示例:個人存款余額按賬戶月匯總表I_DP_PER_AMT_ACCT_MONTH取值說明:類別說明取值說明備注分區(qū)代碼匯總區(qū)分區(qū)代碼全部取為:IIDS層主題標(biāo)識分析匯總區(qū)的業(yè)務(wù)主題分區(qū)存款:DP;貸款:LN;
銀行卡:CR;中間業(yè)務(wù):AG
渠道:CH;客戶:CI;
總賬:GL;公共:CM;指標(biāo)主詞該表存放的指標(biāo)的關(guān)鍵詞縮寫如:活期存款:SA
企業(yè)客戶:CIE指標(biāo)類詞對“指標(biāo)關(guān)鍵詞”的進(jìn)一步說明如:數(shù)量:NUM;金額:AMT
交易:TX;不明確的:ALL匯總維度按機(jī)構(gòu):INST
按客戶:CUST
按客戶經(jīng)理:CUM
其它維度選:ALL時間維度匯總時間頻度年:YEAR;月:MON
日:DAY;季:QUAR
旬:TEND;半月:HALFM
半年:HALFY數(shù)據(jù)類型規(guī)范字段含義數(shù)據(jù)類型說明配置類型日期類(年月日)日期類型數(shù)據(jù)。定義為:date時間類(時分秒)時間類型的數(shù)據(jù)。定義為:char(6)
格式:HHMMSS24小時格式日期時間類(年月日時分秒)日期及時間類型的數(shù)據(jù)。定義為:date精確到毫秒的時間戳
(年月日時分秒毫秒)9(15)COMP-3CONVTIMESTAMP定義為:timestamp太陽日太陽日,表示某年的第幾天,
格式為:YYYYDDD
YYYY表示年份;DDD表示該年
的第幾天,取值范圍從1到366;
將轉(zhuǎn)換為正常的日期格式:
YYYY-MM-DD定義為:date旬日期格式:YYYYMMT(年月旬),T=1
代表上旬,T=2代表中旬,T=3
代表下旬,例如:2010年10月
下旬表示為2010103。定義為:char(7)指示器表示“是/否”意義的指示器,
例如:外部產(chǎn)品標(biāo)志,雇員標(biāo)
志,等等。定義為:char(1)
具體含義:“1-是,0-否”。整數(shù)類數(shù)據(jù)包括長整數(shù)和短整數(shù)。定義為:number(12,0)金額類數(shù)據(jù)所有金額類數(shù)據(jù),例如:資產(chǎn)
評估價值,負(fù)債余額,等等。定義為:number(20,2)或
number(20,3)(20位數(shù)字字
符,其中包括小數(shù)點和兩(三)
個小數(shù)位)。一般數(shù)值類數(shù)據(jù)一般的、無特殊含義的數(shù)值
例如:不動產(chǎn)面積,等等。定義為:number(16,2)利率利率數(shù)據(jù)。定義為:number(8,6)匯率匯率數(shù)據(jù)。定義為:number(15,10)費(fèi)率費(fèi)率數(shù)據(jù)。定義為:number(8,6)占比(百分比類數(shù)據(jù))某種情況相對另一種情況的占
比,一般在0和1之間取值,
例如:市場占有率,資產(chǎn)折舊
率,等等。定義為:number(8,6)比率(百分比類數(shù)據(jù))兩種情況之間的比率,可能會
出現(xiàn)大于1的情況。定義為:number(16,8)一般字符串記錄描述性的文字。varchar2(n)屬性/列命名原則上,屬性/列名稱應(yīng)使用易于理解、能準(zhǔn)確描述該屬性/列意義的業(yè)務(wù)術(shù)語,同時命名應(yīng)遵循下述規(guī)則:[1]邏輯模型屬性名以中文命名,物理模型列名以英文命名,中文名與英文名含義應(yīng)嚴(yán)格一致;
[2]屬性/列命名不要使用不易理解的方言或有地域性/部門局限的業(yè)務(wù)術(shù)語,應(yīng)使用統(tǒng)一的、正式的、全局范圍內(nèi)通用的官方業(yè)務(wù)術(shù)語;
[3]屬性/列的中文名稱盡量保留實體所屬主題的名稱作為前綴,比如“活期賬號”、“定期賬號”;
[4]屬性/列名稱通常由兩部分組成:“主詞”和“類詞”,“主詞”部分標(biāo)明屬性/列標(biāo)明所描述的對象內(nèi)容;“類詞”部分標(biāo)明屬性/列所描述的內(nèi)容的類別。如:屬性“CUST_TP”中,“CUST”是“主詞”部分,表明該屬性/列描述的是“客戶”;“_TP”是“類詞”部分,表明該屬性/列是一個描述“(客戶的)類別”;
[5]關(guān)于屬性/列的命名,如果實體/表所屬業(yè)務(wù)在行內(nèi)有比較權(quán)威的源系統(tǒng),且該系統(tǒng)的命名已經(jīng)規(guī)范化,則盡量貼近權(quán)威源系統(tǒng)的命名;
[7]英文名全部使用字母大寫,如果屬性/列英文名由多個單詞組成,單詞之間用下劃線分開;
[8]屬性/列命名不超過30個字符,應(yīng)盡量使用簡練的英文拼寫。個別超長的需要提出來,模型組統(tǒng)一綜合考慮(主要考慮一些數(shù)據(jù)庫(如TERADATA、ORACLE)定義的表名不能超過30個字符);
[9]對于以“編號”作為標(biāo)識符的屬性/列,中文名一般統(tǒng)一命名為“××編號”;英文名后綴應(yīng)是ID,如“參與人編號PTY_ID”,“渠道編號CHL_ID”等;
[10]特殊的,對于一些有習(xí)慣叫法的編號類屬性/列,如,“銀行卡的卡號”,為了遵循使用習(xí)慣,以使模型更易理解,可不將之命名為“卡片編號”,而遵照習(xí)慣直接命名為“卡號”,其英文名也可以遵照習(xí)慣命名為“CR_NO”,而不用命名為“CR_ID”。但這種情況不多,如果遇到需要單獨提出來交模型組統(tǒng)一批準(zhǔn);
[11]日期類型的屬性/列,后綴應(yīng)是DT,如“開戶日期OPEN_DT”等;時間類型后綴應(yīng)是TM,如“事件發(fā)生時間EVT_TM”等;遇到時間戳類型稱為“時間標(biāo)簽”,用DTTM后綴,建議盡量不要使用,如果需要提交項目組批準(zhǔn);
[12]實體/表和屬性/列的命名中英文都應(yīng)保持同步。歷史數(shù)據(jù)數(shù)據(jù)倉庫
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 公司行政年度工作計劃2025(13篇)
- 2025新聞記者個人工作總結(jié)(8篇)
- 2024年6月教師工作總結(jié)范文(7篇)
- 關(guān)于愛情演講2024(31篇)
- 2024-2025學(xué)年重慶市巴渝學(xué)校高一上學(xué)期期中考試歷史試卷
- 2024-2025學(xué)年內(nèi)蒙古自治區(qū)赤峰市高三上學(xué)期期中考試歷史試卷
- 2025年合伙企業(yè)員工餐飲合同
- 2025年環(huán)氧大豆油項目規(guī)劃申請報告
- 2025年制造業(yè)薪資談判集體協(xié)商協(xié)議指導(dǎo)范本
- 2025年共有債權(quán)缺失的離婚協(xié)議書規(guī)范文本
- 《機(jī)械制圖》課程教案-任務(wù)四 滾動軸承的視圖的繪制
- 2024年中考語文試題分類匯編:非連續(xù)性文本閱讀(學(xué)生版)
- 門店禮儀培訓(xùn)
- 2024年北京市平谷區(qū)中考英語二模試卷
- AQ 6111-2023個體防護(hù)裝備安全管理規(guī)范知識培訓(xùn)
- 第一屆山東省職業(yè)能力大賽濟(jì)南市選拔賽制造團(tuán)隊挑戰(zhàn)賽項目技術(shù)工作文件(含樣題)
- 尿毒癥替代治療
- 家族族譜模板
- 2022年公務(wù)員多省聯(lián)考《申論》真題(黑龍江省市卷)及答案解析
- 【課件】2025屆高考英語一輪復(fù)習(xí)小作文講解課件
- “國家示范性高等職業(yè)院校建設(shè)計劃”骨干高職院校項目建設(shè)方案
評論
0/150
提交評論