多維數(shù)據(jù)模型與OLAP實(shí)現(xiàn)_第1頁(yè)
多維數(shù)據(jù)模型與OLAP實(shí)現(xiàn)_第2頁(yè)
多維數(shù)據(jù)模型與OLAP實(shí)現(xiàn)_第3頁(yè)
多維數(shù)據(jù)模型與OLAP實(shí)現(xiàn)_第4頁(yè)
多維數(shù)據(jù)模型與OLAP實(shí)現(xiàn)_第5頁(yè)
已閱讀5頁(yè),還剩3頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、多維數(shù)據(jù)模型與 OLAP實(shí)現(xiàn)近年來(lái),隨著網(wǎng)絡(luò)技術(shù)和數(shù)理分析在銀行業(yè)中的廣泛應(yīng)用,西方商業(yè)銀行開(kāi)始廣泛采用人口地理統(tǒng)計(jì)理論, 運(yùn)用數(shù)據(jù)挖掘及商業(yè)智能 等技術(shù),處理跨時(shí)間、跨空間、跨部門、跨產(chǎn)品的銀行數(shù)據(jù)集成分析 問(wèn)題,逐步實(shí)現(xiàn)了金融產(chǎn)品和金融服務(wù)的交叉銷售,以保留住優(yōu)質(zhì)客戶。目前,國(guó)內(nèi)多家銀行也不同程度地開(kāi)展了商業(yè)智能(BI,Bu siness Intelligence )系統(tǒng)建設(shè)。從信息管理 角度看,商業(yè)智能是決策支持技術(shù)在商業(yè)銀行應(yīng)用的進(jìn)一步發(fā)展和完 善,OLAP (On-Line Analytical Proce ssing,聯(lián)機(jī)分析處理)技術(shù)是BI的關(guān)鍵技術(shù)之一。自197 0年第一個(gè)OL

2、AP的雛形工具Express發(fā)布, 到1 9 9 3年 關(guān)系數(shù)據(jù)庫(kù)之父、數(shù)學(xué)家與計(jì)算機(jī)科學(xué)家愛(ài)德華庫(kù)德(E.F.C odd)系統(tǒng)地提出OLAP概念和OLAP的12條準(zhǔn)則,OLAP技術(shù)和產(chǎn)品有了很大的發(fā)展,其內(nèi)涵和外延也發(fā)生了一定的變化。但其本質(zhì)特征仍然是:以多維數(shù)據(jù)模型為基礎(chǔ)組織和存儲(chǔ)數(shù)據(jù), 滿足 對(duì)用戶請(qǐng)求的快速響應(yīng)和交互式操作。OLAP技術(shù)在國(guó)內(nèi)興起和發(fā)展的過(guò)程中,人們對(duì)某些基本概 念還有不同的理解。比如,OLAP與多維數(shù)據(jù)模型的關(guān)系,多維數(shù) 據(jù)模型與多維數(shù)據(jù)庫(kù)(MDD,MultiDimensional Database )的關(guān)系,M OLAP(Multidimensional OLAP,

3、多維聯(lián)機(jī)分析處理)、ROLAP(Rc lational OLAP,關(guān)系聯(lián)機(jī)分析處理)和H OLAP (H ybrid OLAP,混合聯(lián)機(jī)分析處理)間的差異,多維數(shù)據(jù)庫(kù) 與多維聯(lián)機(jī)分析處理是不是完全一致等問(wèn)題,還有待于進(jìn)一步澄清。一、多維數(shù)據(jù)模型及相關(guān)概念數(shù)據(jù)模型一般有兩個(gè)層次:概念層(邏輯層)和物理層。邏輯數(shù)據(jù)模型是從概念角度抽象出現(xiàn)實(shí)世界的內(nèi)在規(guī)律,如業(yè)務(wù)流程、數(shù)據(jù)架構(gòu)等;物理數(shù)據(jù)模型則側(cè)重于特定環(huán)境下的具體實(shí)現(xiàn),如效率、 安全性等。多維數(shù)據(jù)模型是一個(gè)邏輯概念,該模型主要解決如何對(duì)大量數(shù)據(jù)進(jìn)行快速查詢和多角度展示,以便得出有利于管理決策的信息和知'' H ' '

4、;| !識(shí)。多維數(shù)據(jù)模型的應(yīng)用領(lǐng)域主要有數(shù)據(jù)倉(cāng)庫(kù)、 OLAP和數(shù)據(jù)挖掘3個(gè)方面。其中,多維結(jié)構(gòu)是OLAP的核心。多維數(shù)據(jù)模型通過(guò)引入維、維分層和度量等概念,將信息在概念上視為一個(gè)立方體。1 .立方體:用三維或更多的維數(shù)描述一個(gè)對(duì)象,每個(gè)維彼此垂直。數(shù)據(jù)的度量值發(fā)生在維的交叉點(diǎn)上, 數(shù)據(jù)空間的各個(gè)部分都有相同的維屬性。2. 維:是人們觀察數(shù)據(jù)的特定角度,是考慮問(wèn)題時(shí)的一類屬性。屬性的集合構(gòu)成一個(gè)維(如時(shí)間維、機(jī)構(gòu)維等)。3. 維分層:同一維度還可以存在細(xì)節(jié)程度不同的各個(gè)描述方面(如時(shí)間維可包括年、季度、月份、旬和日期等)。4 .維屬性:維的一個(gè)取值,是數(shù)據(jù)項(xiàng)在某維中位置的描述(例如“某年某月某日

5、”是在時(shí)間維上位置的描述)。5 .度量:立方體中的單元格,用以存放數(shù)據(jù)。OLAP的基本多維分析操作有鉆取 (Roll up, Dri11 down)、切片(Slice)、切塊(Dice)及旋轉(zhuǎn)(P ivot )等。鉆取包含向下鉆取和向上鉆取上卷操作,鉆戰(zhàn)世深度勺樂(lè) 所劃分的層次相對(duì)應(yīng)。上卷操作通過(guò)維規(guī)約在數(shù)據(jù)立方體上進(jìn)行聚* r.集C下鉆操作是上卷操作的逆操作宙不太詳細(xì)的數(shù)據(jù)到更詳細(xì)的數(shù) 據(jù)。切片和切塊是在一部分維上選定值后,度量數(shù)據(jù)在剩余維上的'' H ' '| !分布。在多維數(shù)據(jù)結(jié)構(gòu)中或照二璉、三璉訂行切塊可得到所需數(shù)夷° 如在“機(jī)構(gòu)、產(chǎn)品.吋間&

6、quot;三維立方體中進(jìn)行功塊和切片可得到各 城市、各產(chǎn)品的銷售情況。旋轉(zhuǎn)(轉(zhuǎn)軸)是變換維的方向,即在表格中重新安排維的放置(如行列互換),通過(guò)旋轉(zhuǎn)得到不同視角的數(shù)據(jù)。 r也、I'二、多維數(shù)據(jù)模型的物理實(shí)現(xiàn)OLAP多維數(shù)據(jù)模型的實(shí)現(xiàn)有多種途徑,其中主要有采用數(shù) 組的多維數(shù)據(jù)庫(kù)、關(guān)系型數(shù)據(jù)庫(kù)以及兩者相結(jié)合的方式,人們通常稱 之為MOLAP、 ROLAP和HOLAP。 但MOLAP的提法容 易引起誤解,畢竟根據(jù)OLAP的多維概念,ROLAP也是一種多 維數(shù)據(jù)的組織方式。1.多維聯(lián)機(jī)分析處理(多維數(shù)據(jù)庫(kù)管理系統(tǒng))多維聯(lián)機(jī)分析處理嚴(yán)格遵照庫(kù)德的定義,自行建立多維數(shù)據(jù)庫(kù)來(lái) 存放聯(lián)機(jī)分析系統(tǒng)的數(shù)據(jù)

7、,它以多維數(shù)據(jù)組織方式為核心 也朗是說(shuō) 多維聯(lián)機(jī)分析處理使用多維數(shù)組存儲(chǔ)數(shù)據(jù)口當(dāng)利用多維數(shù)據(jù)庫(kù)存儲(chǔ)OLAP數(shù)據(jù)時(shí), 不需要將多維數(shù)據(jù)模型 中的維度、層劃分和立方體等概念轉(zhuǎn)換成其他的物理模型,因?yàn)槎嗑S 數(shù)組(矩陣)能很好地體現(xiàn)多維數(shù)據(jù)模型特點(diǎn)。利用數(shù)組實(shí)現(xiàn)多維數(shù)據(jù)模型的優(yōu)點(diǎn), 在于對(duì)數(shù)據(jù)的快速訪問(wèn),但.、 f.-r 同時(shí)也會(huì)帶來(lái)存儲(chǔ)空間的冗余,即稀疏矩陣問(wèn)題,進(jìn)而導(dǎo)致對(duì)存儲(chǔ)空 間的極大需求。在用數(shù)組定義一個(gè)立方體結(jié)構(gòu)時(shí),其取值可能有10 44 6 3億種情況。但實(shí)際上,并不是每一天、每個(gè)經(jīng)營(yíng)機(jī)構(gòu)在不'' H ' '| !同地區(qū)和不同特約商戶都會(huì)產(chǎn)生具有不同幣種、不

8、同卡種的交易。和關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)相比,只有當(dāng)某一交易確實(shí)發(fā)生時(shí),才在相應(yīng)的 表中留下記錄。為了解決稀疏矩陣問(wèn)題,某些產(chǎn)品提出了稀疏維(Sparse) 和密度維(Dense )策略。由稀疏維產(chǎn)生索引塊,由密度維形成 數(shù)據(jù)塊。只有當(dāng)稀疏維的組合在交易事件初次發(fā)生時(shí)才創(chuàng)建索引塊, 進(jìn)而創(chuàng)建數(shù)據(jù)塊。圖3顯示了數(shù)據(jù)塊和索引塊的關(guān)系。稀疏維和密度維的引入在一 定程度上降低了立方體的存儲(chǔ)冗余問(wèn)題。 此外,通過(guò)數(shù)據(jù)壓縮技術(shù)可 降低數(shù)據(jù)塊的存儲(chǔ)空間。2 .關(guān)系聯(lián)機(jī)分析處理(關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng))ROLAP以關(guān)系數(shù)據(jù)庫(kù)為核心,以關(guān)系型結(jié)構(gòu)進(jìn)行多維數(shù)據(jù) 的表示和存儲(chǔ),將多維數(shù)據(jù)庫(kù)的多維結(jié)構(gòu)劃分為兩類表: 一類是事實(shí)

9、 表,用來(lái)存儲(chǔ)數(shù)據(jù)和維關(guān)鍵字;另一類是維表,對(duì)每個(gè)維至少使用一 個(gè)表來(lái)存放維的層次、成員類別等維的描述信息。維表和事實(shí)表通過(guò) 主關(guān)鍵字和外關(guān)鍵字聯(lián)系在一起,形成“星型模式”。對(duì)于層次復(fù)雜 的維,為避免冗余數(shù)據(jù)占用過(guò)大的存儲(chǔ)空間可以使用多個(gè)表描述。這種星型模式的擴(kuò)展稱為“雪花模式”。這種多維數(shù)據(jù)的表示方式能夠 讓使用者以較簡(jiǎn)單的方式了解這些資料, 增加查詢效率,并對(duì)海量數(shù)$ r.八據(jù)存儲(chǔ)空間有較少要求。事實(shí)表有如下特性:大量的數(shù)據(jù)列,存儲(chǔ)容量可達(dá)到Tbt;主要是數(shù)值信息,只有少數(shù)的文字或者多媒體信息;有和維表連'' ' | !接的外關(guān)鍵字;靜態(tài)數(shù)據(jù)和聚集數(shù)據(jù)。維表中的信息

10、是對(duì)事實(shí)表的相應(yīng)說(shuō)明,例如產(chǎn)品特征、銷售時(shí) 間和客戶賬號(hào)等。通過(guò)維表將復(fù)雜的描述分割成幾個(gè)小部分, 如某個(gè) 時(shí)間點(diǎn)的銷售量等,減少對(duì)事實(shí)表的掃描,實(shí)現(xiàn)優(yōu)化查詢。它主要有 以下特性:記錄數(shù)較少,可能只有上千或者上萬(wàn)個(gè)記錄;大多為 r也、*1 I文字資料;信息具有層次結(jié)構(gòu);只有一個(gè)主鍵(PrimaryKey或Dimension Key:信息可修改。雪花架構(gòu)是對(duì)星型架構(gòu)的變形,它將星型架構(gòu)下的維表格經(jīng)過(guò) 正規(guī)化處理,使其能表現(xiàn)更豐富的信息,也使得信息處理更加靈活。3 .混合聯(lián)機(jī)分析處理混合聯(lián)機(jī)分析處理利用多維聯(lián)機(jī)分析處理技術(shù)存儲(chǔ)上層匯總數(shù)據(jù),利用關(guān)系聯(lián)機(jī)分析處理存儲(chǔ)細(xì)節(jié)數(shù)據(jù),即低層是關(guān)系型的,高層是

11、多維矩陣型的。這種方式具有更好的靈活性。還有其他一些實(shí)現(xiàn)OLAP的方法,如提供一個(gè)專用的SQLServer,對(duì)某些存儲(chǔ)模式(如星型、雪花型)提供對(duì)SQL查詢的特殊支持。三、存儲(chǔ)模式的比較和選擇多維聯(lián)機(jī)分析處理的優(yōu)勢(shì)不僅在于能清晰地表達(dá)多維概念,更重要的是它有著極高的綜合速度。在關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)中,如果要得 到某一地區(qū)的銷售總量,只能逐條記錄檢索,找到滿足條件的記錄后 將數(shù)據(jù)相加。而在多維數(shù)據(jù)叵中數(shù)據(jù)可以直接按行或列累加,其統(tǒng) 計(jì)速度遠(yuǎn)遠(yuǎn)超過(guò)關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)。 數(shù)據(jù)庫(kù)中的記錄數(shù)越多,其效 '' H ' '| !果越明顯。但是對(duì)多維聯(lián)機(jī)分析處理來(lái)說(shuō),隨著維度和維

12、成員的增加, 其存儲(chǔ)空間可能出現(xiàn)組合爆炸。關(guān)系聯(lián)機(jī)分析處理的存儲(chǔ)空間沒(méi)有大小限制, 現(xiàn)有的關(guān)系數(shù)據(jù)庫(kù) 的技術(shù)可以沿用,可以通過(guò)SQL實(shí)現(xiàn)詳細(xì)數(shù)據(jù)與概要數(shù)據(jù)的存儲(chǔ), 現(xiàn)有關(guān)系型數(shù)據(jù)庫(kù)已經(jīng)對(duì)OLAP做了很多優(yōu)化,包括并行存儲(chǔ)、并 r也、I行查詢、并行數(shù)據(jù)管理、基于成本的查詢優(yōu)化、位圖索引、SQL的 OLAP擴(kuò)展等,大大提高了關(guān)系聯(lián)機(jī)分析處理的訪問(wèn)效率。 相比較 而言,關(guān)系聯(lián)機(jī)分析處理技術(shù)具有更大的可伸縮性。銀行業(yè)的數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目,由于具有超海量數(shù)據(jù)的特性,OLAP 產(chǎn)品及其存儲(chǔ)模式的選擇尤其重要。在項(xiàng)目實(shí)施過(guò)程中,對(duì)OLAP產(chǎn)品和存儲(chǔ)模式的選擇應(yīng)考慮企業(yè)數(shù)據(jù)量的大小、數(shù)據(jù)處理過(guò)程、訪問(wèn)效率和性價(jià)比等多個(gè)方面。由 于多維聯(lián)機(jī)分析處理訪問(wèn)具有高效性,可以將企業(yè)應(yīng)用的大部分聚集 層數(shù)據(jù)以MOLAP形式存儲(chǔ);對(duì)有大量細(xì)節(jié)數(shù)據(jù)的應(yīng)用,為防止立 方體存儲(chǔ)空間過(guò)于膨脹,可考慮對(duì)于聚集數(shù)據(jù)以MOLAP方式存 儲(chǔ);而對(duì)于原子數(shù)據(jù)可以以ROLAP方式存儲(chǔ)。MOLAP存儲(chǔ)依靠多維數(shù)據(jù)集聚合的設(shè)計(jì)和百分比,提供快速的查詢響應(yīng)能力。一般來(lái)說(shuō),MOLAP比較適合于需要頻繁使用和快速查詢響應(yīng)的多維數(shù)據(jù)集。ROLAP查詢響應(yīng)通常比使用MOLAP或H OLAP的查 詢響應(yīng)要慢。ROLAP般用于不經(jīng)常查詢的大型數(shù)據(jù)集,如年份較早的歷史數(shù)據(jù)等。'' H ' '| !

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論