OLAP和數(shù)據(jù)倉庫_第1頁
OLAP和數(shù)據(jù)倉庫_第2頁
OLAP和數(shù)據(jù)倉庫_第3頁
OLAP和數(shù)據(jù)倉庫_第4頁
OLAP和數(shù)據(jù)倉庫_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、目錄 TOC o 1-5 h z HYPERLINK l bookmark5 o Current Document 摘要2 HYPERLINK l bookmark8 o Current Document 一、數(shù)據(jù)倉庫和OLAP的特點(diǎn)分析21.數(shù)據(jù)倉庫22.OLAP2 HYPERLINK l bookmark11 o Current Document 二、數(shù)據(jù)倉庫和OLAP在發(fā)展過程中的關(guān)聯(lián)關(guān)系3 HYPERLINK l bookmark15 o Current Document 三、針對(duì)OLAP的數(shù)據(jù)倉庫模型4 HYPERLINK l bookmark19 o Current Documen

2、t 四、基于數(shù)據(jù)倉庫、OLAP、數(shù)據(jù)挖掘的決策支持系統(tǒng)體系結(jié)構(gòu)設(shè)計(jì)5 HYPERLINK l bookmark26 o Current Document 結(jié)束語5摘要數(shù)據(jù)倉庫從多個(gè)同構(gòu)或異構(gòu)的傳統(tǒng)數(shù)據(jù)庫中獲取原始數(shù)據(jù),先按輔助決策 的主題要求形成當(dāng)前基本數(shù)據(jù)層,再按綜合決策的要求形成綜合數(shù)據(jù)層,實(shí)現(xiàn)了 操作型數(shù)據(jù)與決策環(huán)境的分離,為決策支持系統(tǒng)提供了理想的數(shù)據(jù)組織形式,解 決了決策支持系統(tǒng)發(fā)展中的一大難題。OLAP(聯(lián)機(jī)分析處理)作為數(shù)據(jù)分析工具,與數(shù)據(jù)倉庫進(jìn)行有效的結(jié)合,加上 數(shù)據(jù)挖掘,構(gòu)成了新型的決策支持系統(tǒng)的基本框架。數(shù)據(jù)倉庫、OLAP、數(shù)據(jù)挖 掘從發(fā)展的淵源上看,三者是分別作為三種獨(dú)立

3、的信息處理技術(shù)出現(xiàn)的。數(shù)據(jù)倉 庫從數(shù)據(jù)處理技術(shù)發(fā)展而來,它解決了數(shù)據(jù)不統(tǒng)一問題。其核心在于從底層收集 量事務(wù)級(jí)數(shù)據(jù),并對(duì)這些數(shù)據(jù)進(jìn)行集成、轉(zhuǎn)換和綜合,形成面向全局的數(shù)據(jù)視圖 和整個(gè)決策支持系統(tǒng)的基礎(chǔ)數(shù)據(jù)組織,即數(shù)據(jù)倉庫是直接面向決策支持目標(biāo)、經(jīng) 過提煉、加工后的數(shù)據(jù)集合OLAP是在OLTP (聯(lián)機(jī)事務(wù)處理)已不能滿足終端用戶 對(duì)數(shù)據(jù)庫查詢分析的需要,SQL對(duì)大數(shù)據(jù)庫進(jìn)行的簡單查詢也不能滿足用戶分析 的需要的情況下所出現(xiàn)的一種數(shù)據(jù)處理新技術(shù)。兩者都是以解決決策支持分析問 題為目的發(fā)展起來的,它們之間存在著必然的內(nèi)在聯(lián)系和互補(bǔ)性。對(duì)兩者相互關(guān) 系的研究,有助于完善數(shù)據(jù)倉庫化決策支持系統(tǒng)的體系結(jié)構(gòu)。

4、、數(shù)據(jù)倉庫和OLAP的特點(diǎn)分析1.數(shù)據(jù)倉庫數(shù)據(jù)倉庫之父W.H.Inmon認(rèn)為“數(shù)據(jù)倉庫是一個(gè)面向主題的、集成的、不 可更新的且隨時(shí)間不斷變化的數(shù)據(jù)集合,用來支持管理人員的決策”。該定義 表明了數(shù)據(jù)倉庫是一個(gè)處理過程,過程依據(jù)主題對(duì)若十個(gè)分布的、異質(zhì)的信息源 中的歷史數(shù)據(jù)進(jìn)行組織和存儲(chǔ),并能集成地進(jìn)行數(shù)據(jù)分析,它有著比一般數(shù)據(jù)庫 系統(tǒng)更大的數(shù)據(jù)規(guī)模。數(shù)據(jù)倉庫不僅具有傳統(tǒng)數(shù)據(jù)庫管理系統(tǒng)共享性、完整性、 數(shù)據(jù)獨(dú)立性等基本特點(diǎn),還具有主題、集成性、歷史性、時(shí)間屬性等獨(dú)有特征。數(shù)據(jù)倉庫系統(tǒng)的基本功能是:數(shù)據(jù)獲取、數(shù)據(jù)存儲(chǔ)和管理、信息的訪問。其 最終目是把分散的、不利于訪問的數(shù)據(jù)轉(zhuǎn)換成集中、統(tǒng)一、隨時(shí)可用

5、的信息即 為了決策目標(biāo)將不同形式的數(shù)據(jù)集合成為一種特殊的格式,建立起一種新的數(shù) 據(jù)存儲(chǔ)體系,使數(shù)據(jù)操作環(huán)境與數(shù)分析環(huán)境相到分離。2.OLAPOLAP概念最早是由關(guān)系庫之父E.F.Codd于1993年提出。當(dāng)時(shí),Codd認(rèn)為聯(lián) 機(jī)事務(wù)處理(On-line Transaction processing ,簡稱(OLTP)已不能足終端用 戶對(duì)數(shù)據(jù)庫查詢分析的需要,SQL對(duì)大數(shù)據(jù)庫進(jìn)行的簡單查詢也不能滿足用戶分 析的需求。于是,Codd提出了多維數(shù)據(jù)庫和多維分析的概念,即OLAP。OLAP的 目的是決策支持多維環(huán)境特定的查詢和報(bào)表需求,它的技術(shù)核心是維的概念, 因此OLAP可以說是多維數(shù)據(jù)分析工具的集

6、合。OLAP是一種軟件技術(shù),它使分析人員能夠迅速、一致、交互地從各個(gè)方的 觀察信息,以達(dá)到深人理解數(shù)據(jù)的目的。OLAP技術(shù)是針對(duì)人們事先假設(shè)的特定 問題進(jìn)行聯(lián)機(jī)數(shù)據(jù)訪問和分析。它通過對(duì)信息進(jìn)行快速、穩(wěn)定、一致和交互式存 取,對(duì)數(shù)據(jù)進(jìn)行多層次、階段的分析處理,以獲得高度歸納的分析結(jié)果。因此O LA P技術(shù)從其對(duì)數(shù)據(jù)的分析方式上講是一種自上而下、不斷深人的工具,即在 用戶提出問題或假設(shè)之后,它負(fù)責(zé)提取關(guān)于此問題的細(xì)信息,并以一種比較直 觀的方式呈現(xiàn)給用戶。多維性是O LA P的關(guān)鍵屬性。多維分析是分析企業(yè)數(shù)據(jù)最有效的方法,是 OLAP的靈魂。多維數(shù)據(jù)分析是指對(duì)以多維分析組織起來的數(shù)據(jù)取切片、切塊、

7、 鉆取、旋轉(zhuǎn)等各種分析動(dòng)作來剖析數(shù)據(jù),使用戶直觀地理解、分析數(shù)據(jù),最終能 多角度、多側(cè)面地觀察數(shù)據(jù)庫中的數(shù)據(jù),深人地了解包含在數(shù)據(jù)中的信息、內(nèi)涵。 多維分析合了人的思維模式,因此減少了混淆并且降低了出現(xiàn)錯(cuò)誤的可能性。二、數(shù)據(jù)倉庫和OLAP在發(fā)展過程中的關(guān)聯(lián) 關(guān)系數(shù)據(jù)倉庫是一個(gè)決策支持技術(shù)的集合,旨在能夠使知識(shí)工作者(執(zhí)行者,主管, 分析人員)做出更快更好的決策。過去三年,無論是在所提供的產(chǎn)品和服務(wù)的數(shù)量 上還是在按行業(yè)對(duì)這些技術(shù)的采用上都出現(xiàn)了爆炸性的增長。數(shù)據(jù)倉庫技術(shù)已經(jīng) 成功施展于許多行業(yè):制造業(yè)(訂單發(fā)貨和客戶支持),零售業(yè)(用戶分析和庫存管 理),金融服務(wù)業(yè)(索賠分析,風(fēng)險(xiǎn)分析,信用卡

8、分析,詐騙偵查),運(yùn)輸業(yè)(車隊(duì)管 理),電信業(yè)(呼叫分析和欺詐檢測),城市管理服務(wù)業(yè)(電力使用情況分析),保健 業(yè)(結(jié)果分析)。本文介紹了數(shù)據(jù)倉庫的技術(shù)路線圖,重點(diǎn)放在數(shù)據(jù)倉庫對(duì)數(shù)據(jù)庫 管理系統(tǒng)提出的特殊要求之上。數(shù)據(jù)倉庫就是一個(gè)“面向主題的、集成的、時(shí)變的、非易失性的數(shù)據(jù)集合, 主要幫助組織做出決策”。通常,數(shù)據(jù)倉庫需要與組織的操作數(shù)據(jù)庫分離并被維護(hù)。 分離的原因是多方面的。數(shù)據(jù)倉庫支持聯(lián)機(jī)分析處理(OLAP),其功能和性能要求 與傳統(tǒng)情況下由操作數(shù)據(jù)庫支持的聯(lián)機(jī)事務(wù)處理(OLTP)應(yīng)用有很大不同。OLTP應(yīng)用程序通常會(huì)自動(dòng)處理當(dāng)前數(shù)據(jù)任務(wù),比如訂單輸入和銀行交易等 單位實(shí)用日常操作。這些數(shù)

9、據(jù)任務(wù)重復(fù)且具有復(fù)雜結(jié)構(gòu),由短的、孤立的原子事 務(wù)組成。這些事務(wù)要求詳細(xì)的、確保最新的數(shù)據(jù),并且讀/寫的數(shù)十條記錄通常來 自于對(duì)主碼的訪問。操作數(shù)據(jù)庫訪問記錄數(shù)量則往往是百兆到千兆字節(jié)大小。數(shù) 據(jù)庫的一致性和可恢復(fù)性是至關(guān)重要的,最大化事務(wù)吞吐量是關(guān)鍵性能指標(biāo)。因 此,數(shù)據(jù)庫設(shè)計(jì)的目的是反映已知應(yīng)用程序的操作語義,并減少多事務(wù)并發(fā)運(yùn)行 的沖突。與此相反,數(shù)據(jù)倉庫定位于決策支持。歷史的、匯總的、統(tǒng)一的數(shù)據(jù)比詳細(xì) 的個(gè)別記錄更重要。由于數(shù)據(jù)倉庫包含可能來自多個(gè)操作數(shù)據(jù)庫的統(tǒng)一數(shù)據(jù),經(jīng) 過可能的一段長時(shí)間,它們的數(shù)量級(jí)往往大于操作數(shù)據(jù)庫,企業(yè)數(shù)據(jù)倉庫預(yù)計(jì)要 有幾百GB到TB大小。工作量大多為點(diǎn)對(duì)點(diǎn)的

10、密集查詢,復(fù)雜的查詢能夠訪問數(shù) 百萬條記錄并執(zhí)行大量的掃描、聯(lián)接、聚合。查詢吞吐量和反應(yīng)時(shí)間都要比事務(wù) 吞吐量更為重要些。為幫助復(fù)雜分析和促進(jìn)形象化,數(shù)據(jù)倉庫中的數(shù)據(jù)通常被多維模型化。例如, 在一個(gè)銷售數(shù)據(jù)倉庫中,出售時(shí)間、銷售地點(diǎn)、售貨員和產(chǎn)品可能會(huì)是一些有關(guān) 利潤的維度。通常,這些維度是分層的,銷售時(shí)間可能被組織定義為日月季年層次, 產(chǎn)品被組織為生產(chǎn)-目錄-工業(yè)分層。典型的OLAP操作包括通過沿一個(gè)或多個(gè)維 的概念分層鉆?。ㄉ暇聿僮魈岣呔奂?,下鉆操作降低聚集程度或增加詳情), 切片和切塊(選擇和投影),以及旋轉(zhuǎn)(重排數(shù)據(jù)的多維視圖)。鑒于操作數(shù)據(jù)庫被細(xì)優(yōu)化調(diào)整以支持已知OLTP工作負(fù)載

11、,嘗試對(duì)它執(zhí)行復(fù) 雜的OLAP查詢將很可能導(dǎo)致難以接受的性能。此外,決策支持還需要操作數(shù)據(jù)庫 中可能缺失的一些數(shù)據(jù),例如,了解發(fā)展趨勢(shì)或做出預(yù)測需要?dú)v史數(shù)據(jù),而操作數(shù) 據(jù)庫只存儲(chǔ)當(dāng)前數(shù)據(jù)。決策支持通常需要整合很多不同來源的數(shù)據(jù):除了幾個(gè)操 作數(shù)據(jù)庫,還可能包括外部來源,如股票市場整合。不同數(shù)據(jù)來源可能包含不同質(zhì) 量的數(shù)據(jù),或者使用不一致的表示法、代碼和格式,這些都需要被協(xié)調(diào)。最后,支 持多維數(shù)據(jù)模型和OLAP典型操作需要特殊的數(shù)據(jù)組織、訪問及實(shí)現(xiàn)方法,這些都 并不一般地由針對(duì)OLTP的商業(yè)數(shù)據(jù)庫管理系統(tǒng)來提供。出于所有這些原因,數(shù)據(jù) 倉庫要與操作數(shù)據(jù)庫實(shí)現(xiàn)分離;數(shù)據(jù)倉庫可能在標(biāo)準(zhǔn)或擴(kuò)展的關(guān)系數(shù)

12、據(jù)庫管理系統(tǒng)中實(shí)現(xiàn),稱為ROLAP服務(wù) 器。這些服務(wù)器假定數(shù)據(jù)是存儲(chǔ)在關(guān)系型數(shù)據(jù)庫中的,并且支持SQL語言的擴(kuò)展 和特殊的訪問實(shí)現(xiàn)方法,以高效實(shí)現(xiàn)多維數(shù)據(jù)模型和操作。比較起來,多維聯(lián)機(jī)分 析處理器(MOLAP)則將多維數(shù)據(jù)直接存儲(chǔ)在特殊的數(shù)據(jù)結(jié)構(gòu)中(比如數(shù)組),并且 在這些特殊的數(shù)據(jù)機(jī)構(gòu)上實(shí)現(xiàn)OLAP操作。三、針對(duì)OLAP的數(shù)據(jù)倉庫模型對(duì)于構(gòu)建和維護(hù)一個(gè)數(shù)據(jù)倉庫還遠(yuǎn)不止于僅為它選擇一個(gè)OLAP服務(wù)器,定 義一個(gè)模式、一些復(fù)雜查詢。存在其他的構(gòu)筑方案。很多機(jī)構(gòu)都想實(shí)現(xiàn)一個(gè)橫跨 整個(gè)組織的、收集有關(guān)所有主題(例如,客戶、產(chǎn)品、銷售、資產(chǎn)、人員等)信息 的集成企業(yè)倉庫。然而,構(gòu)建一個(gè)企業(yè)倉庫是個(gè)漫長

13、而復(fù)雜的過程,需要廣泛的業(yè) 務(wù)建模,并可能花費(fèi)許多年才能成功。一個(gè)普遍的,影響前端工具的、數(shù)據(jù)庫設(shè)計(jì)和OLAP查詢引擎的概念模型是倉 庫數(shù)據(jù)的多維視圖。在多維數(shù)據(jù)模型中,有一組作為分析對(duì)象的數(shù)字度量方式。 這種度量方式的例子有銷售、預(yù)算、收入、庫存和ROI(投資回報(bào)率)。每種數(shù)字 度量方式均取決于一組維,維為度量提供環(huán)境。假定所有的維度唯一決定度量值。 因而,多維數(shù)據(jù)把一個(gè)度量視為維的多維空間內(nèi)的一個(gè)值。每維由一系列屬性來 描述。例如,產(chǎn)品的維可以由四種屬性組成:種類和產(chǎn)品工業(yè),推出時(shí)間(年),以及平 均利潤率。產(chǎn)品名稱就可通過一種層次關(guān)系與種類和產(chǎn)業(yè)屬性相關(guān)聯(lián)。OLAP概念模型的另一個(gè)區(qū)別性

14、特征是,它強(qiáng)調(diào)把一個(gè)或多個(gè)維的度量的聚集 作為其中一個(gè)關(guān)鍵操作;例如,按照不同地區(qū)或者年份計(jì)算并排名總銷量。其他普 遍操作包括比較兩個(gè)由相同的維聚齊起來的度量(比如銷售額和預(yù)算)。時(shí)間是一 個(gè)對(duì)決策支持(如動(dòng)向分析)具有特殊意義的維。多維數(shù)據(jù)模型產(chǎn)生于由個(gè)人機(jī)電子表格程序推廣的商業(yè)數(shù)據(jù)視圖,該程 序曾被商業(yè)分析員們廣泛使用。電子表格對(duì)OLAP來說依然是最引人注目的前端 應(yīng)用程序。支持OLAP的一個(gè)查詢環(huán)境的挑戰(zhàn)之處可被初步概括為支持對(duì)大到幾 個(gè)G的數(shù)據(jù)庫進(jìn)行高效的電子表格操作。其他有關(guān)旋轉(zhuǎn)的操作是上卷和下鉆。上卷相當(dāng)于對(duì)當(dāng)前數(shù)據(jù)對(duì)象做進(jìn)一步的 概括分組處理。因而可以對(duì)銷售數(shù)據(jù)進(jìn)行上卷操作,按照

15、“產(chǎn)品”聚集的話,或許 已經(jīng)規(guī)約到city層。下鉆是上卷的逆操作。切片和切塊操作可以降低多維數(shù)據(jù)集 的維,亦即,為了其余維的選定值,在該給定立方體維的一個(gè)子集上做數(shù)據(jù)投影。例 如,我們可以通過切片/塊一個(gè)特定產(chǎn)品的銷售數(shù)據(jù)來創(chuàng)建一個(gè)由city維和the day of sale維組成的表格。其他一些普遍操作還包括排序、選擇和定義計(jì)算屬性。盡管多維電子表格因?yàn)槟軌蚴棺罱K用戶分析業(yè)務(wù)數(shù)據(jù)而吸引了不少人,但還 沒有借助于一個(gè)查詢托管環(huán)境來取代傳統(tǒng)的分析。這些環(huán)境利用存儲(chǔ)過程和預(yù)定 義的復(fù)雜查詢提供包裝好的分析工具。這樣的工具往往有可能使最終用戶依據(jù)特 定領(lǐng)域的業(yè)務(wù)數(shù)據(jù)進(jìn)行查詢。這些應(yīng)用程序常常使用原始

16、數(shù)據(jù)訪問工具,并且依 靠后端數(shù)據(jù)庫服務(wù)器使訪問模式最優(yōu)化。此外,還有一些憑借“指向-點(diǎn)擊”幫助 建立特定SQL查詢的查詢環(huán)境(如Microsoft Access)o最后,存在大量多樣的、經(jīng)常 被用作數(shù)據(jù)倉庫前端工具的數(shù)據(jù)挖掘工具。四、基于數(shù)據(jù)倉庫、OLAP、數(shù)據(jù)挖掘的決策支持系統(tǒng)體系結(jié)構(gòu)設(shè)計(jì)在數(shù)據(jù)倉庫化的決策支持系統(tǒng)中,應(yīng)將數(shù)據(jù)倉庫、OLAP、數(shù)據(jù)挖掘進(jìn)行有機(jī) 結(jié)合,其所擔(dān)當(dāng)?shù)慕巧謩e為:(1)數(shù)據(jù)倉庫用于數(shù)據(jù)的存儲(chǔ)和組織,它從事務(wù)應(yīng)用系統(tǒng)中抽取數(shù)據(jù),并對(duì)其 進(jìn)綜合、集成與轉(zhuǎn)換,提供面向全局的數(shù)據(jù)視圖;OLAP致力于數(shù)據(jù)的分析; 數(shù)據(jù)挖掘則專注于知識(shí)的自動(dòng)發(fā)現(xiàn)。(2)在數(shù)據(jù)倉庫和OLAP、數(shù)據(jù)倉庫和數(shù)據(jù)挖掘之間存在著單向支持的關(guān)系在 數(shù)據(jù)挖掘與OLAP之間,存在雙向聯(lián)系,即數(shù)據(jù)挖掘?yàn)镺LAP提供分析的 模式,OLAP對(duì)數(shù)據(jù)挖掘的結(jié)果進(jìn)行驗(yàn)證,并給予適當(dāng)?shù)囊龑?dǎo)。結(jié)束語本文對(duì)數(shù)據(jù)倉庫、聯(lián)機(jī)分析處理(OLAP)、在決策支持系統(tǒng)中的作用、地位 及其應(yīng)用上的局限性進(jìn)行了探討,對(duì)兩者間的相互關(guān)系進(jìn)行研究。認(rèn)為在數(shù)據(jù)倉 庫和。LAP之間存在著單向支持的關(guān)系。研究清楚數(shù)據(jù)倉庫和。LAP兩者之間的 關(guān)系,將更好地指導(dǎo)企業(yè)建立以數(shù)據(jù)倉庫、OLAP為基本框架的決策支持統(tǒng),有助

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論