Chaer 數(shù)據(jù)倉庫與OLA技術(shù)概述XXXX_第1頁
Chaer 數(shù)據(jù)倉庫與OLA技術(shù)概述XXXX_第2頁
Chaer 數(shù)據(jù)倉庫與OLA技術(shù)概述XXXX_第3頁
Chaer 數(shù)據(jù)倉庫與OLA技術(shù)概述XXXX_第4頁
Chaer 數(shù)據(jù)倉庫與OLA技術(shù)概述XXXX_第5頁
已閱讀5頁,還剩63頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1數(shù)據(jù)倉庫與數(shù)據(jù)挖掘

—第3章—數(shù)據(jù)倉庫與OLAP概述2第3章數(shù)據(jù)倉庫與OLAP技術(shù)概述什么是數(shù)據(jù)倉庫?多維數(shù)據(jù)模型數(shù)據(jù)倉庫系統(tǒng)結(jié)構(gòu)數(shù)據(jù)倉庫實現(xiàn)從數(shù)據(jù)倉庫到數(shù)據(jù)挖掘數(shù)據(jù)倉庫的發(fā)展IBM:在其DB2UDB發(fā)布一年后的1998年9月發(fā)布5.2版,并于1998年12月推向中國市場,除了用于OLAP(聯(lián)機(jī)分析處理)的后臺服務(wù)器DB2OLAPServer外,IBM還提供了一系列相關(guān)的產(chǎn)品,包括前端工具,形成一整套解決方案。Informix公司:在其動態(tài)服務(wù)器IDS(InformixDynamicServer)中提供一系列相關(guān)選件,如高級決策支持選件(AdvancedDecisionSupportOption)、OLAP選件(MetaCubeROLAPOption)、擴(kuò)展并行選件(ExtendedParallelOption)等,這種體系結(jié)構(gòu)嚴(yán)謹(jǐn)、管理方便、索引機(jī)制完善,并行處理的效率更高,其中數(shù)據(jù)倉庫和數(shù)據(jù)庫查詢的SQL語句的一致性使得用戶開發(fā)更加簡便。數(shù)據(jù)倉庫的發(fā)展微軟公司:在其SQLServer7.0以及SQLServer2000中集成了代號為Plato的OLAP服務(wù)器。Sybase:提供了專門的OLAP服務(wù)器SybaseIQ,并將其與數(shù)據(jù)倉庫相關(guān)工具打包成WarehouseStudio。PLATINUM:提出了由InfoPump(數(shù)據(jù)倉庫建模與數(shù)據(jù)加載工具)和Forest&Trees(前端報表工具)構(gòu)成的一套較有特色的整體方案。;Oracle公司:則推出從數(shù)據(jù)倉庫構(gòu)建、OLAP到數(shù)據(jù)集市管理等一系列產(chǎn)品包(如OracleWarehouseBuilder、OracleExpress、DataMartSuit等)。

數(shù)據(jù)倉庫的我國的發(fā)展前景:隨著計算機(jī)技術(shù)的發(fā)展,尤其是分布式技術(shù)的發(fā)展,數(shù)據(jù)倉庫在我國有著廣闊的發(fā)展空間和良好的發(fā)展前景。例如:由于銀行商業(yè)化的步伐正在加大,各大中型銀行在入世的機(jī)遇和挑戰(zhàn)下,開始重新考慮自身的業(yè)務(wù),特別是信貸風(fēng)險管理方面特別注意,因而有關(guān)信貸風(fēng)險管理和風(fēng)險規(guī)章的基于數(shù)據(jù)倉庫的決策支持系統(tǒng)的需求逐漸增多;由于電子商務(wù)的迅速發(fā)展,越來越多的電子商務(wù)網(wǎng)站,開始考慮如何將數(shù)據(jù)倉庫應(yīng)用于商品銷售分析、顧客的誠信度分析等,為客戶提供更進(jìn)一步的個性化服務(wù);如移動通信等各大型企業(yè)也開始考慮著手進(jìn)行決策支持以及數(shù)據(jù)倉庫規(guī)劃。數(shù)據(jù)挖掘的發(fā)展數(shù)據(jù)挖掘是與數(shù)據(jù)倉庫密切相關(guān)的一個信息技術(shù)新領(lǐng)域,它是信息技術(shù)自然演化的結(jié)果。隨著數(shù)據(jù)庫技術(shù)的迅速發(fā)展以及數(shù)據(jù)庫管理系統(tǒng)的廣泛應(yīng)用,人們積累的數(shù)據(jù)越來越多,但缺乏挖掘數(shù)據(jù)中隱藏的知識的手段,導(dǎo)致了“數(shù)據(jù)爆炸但知識貧乏的”現(xiàn)象。自80年代后期以來,聯(lián)機(jī)分析處理(OLAP)和數(shù)據(jù)挖掘技術(shù)應(yīng)運而生。3.1什么是數(shù)據(jù)倉庫數(shù)據(jù)倉庫用來保存從多個數(shù)據(jù)庫或其它信息源選取的數(shù)據(jù),并為上層應(yīng)用提供統(tǒng)一用戶接口,完成數(shù)據(jù)查詢和分析。數(shù)據(jù)倉庫是作為DSS服務(wù)基礎(chǔ)的分析型DB,用來存放大容量的只讀數(shù)據(jù),為制定決策提供所需要的信息。數(shù)據(jù)倉庫是與操作型系統(tǒng)相分離的、基于標(biāo)準(zhǔn)企業(yè)模型集成的、帶有時間屬性的、面向主題及不可更新的數(shù)據(jù)集合。對數(shù)據(jù)倉庫所下的定義:數(shù)據(jù)倉庫是一個面向主題的、集成的、時變的和非易失的數(shù)據(jù)集合,支持管理部門的決策過程。數(shù)據(jù)倉庫的適用范圍信息源中的數(shù)據(jù)變化穩(wěn)定或可預(yù)測應(yīng)用不需要最新的數(shù)據(jù)或允許有延遲應(yīng)用要求有較高的查詢性能 而降低精度要求數(shù)據(jù)倉庫中數(shù)據(jù)的特點

面向主題集成性非易失性時變性面向主題主題:是一個抽象的概念,是在較高層次上將企業(yè)信息系統(tǒng)中的數(shù)據(jù)綜合、歸類并進(jìn)行分析利用的抽象。在邏輯上,它對應(yīng)于企業(yè)中某一宏觀分析領(lǐng)域所涉及的分析對象。面向主題的數(shù)據(jù)組織方式可在較高層次上對分析對象的數(shù)據(jù)給出完整、一致的描述,能完整、統(tǒng)一的刻畫各個分析對象所涉及的企業(yè)的各項數(shù)據(jù)以及數(shù)據(jù)之間的聯(lián)系,從而適應(yīng)企業(yè)各個部門的業(yè)務(wù)活動特點和企業(yè)數(shù)據(jù)的動態(tài)特征,從根本上實現(xiàn)數(shù)據(jù)與應(yīng)用的分離。集成性性數(shù)據(jù)倉倉庫中中的數(shù)數(shù)據(jù)是是從原原有分分散的的源數(shù)數(shù)據(jù)庫庫中提提取出出來的的,其其每一一個主主題所所對應(yīng)應(yīng)的源源數(shù)據(jù)據(jù)在原原有的的數(shù)據(jù)據(jù)庫中中有許許多冗冗余和和不一一致,,且與與不同同的應(yīng)應(yīng)用邏邏輯相相關(guān)。。為了了創(chuàng)建建一個個有效效的主主題域域,必必須將將這些些來自自不同同數(shù)據(jù)據(jù)源的的數(shù)據(jù)據(jù)集成成起來來,使使之遵遵循統(tǒng)統(tǒng)一的的編碼碼規(guī)則則。因因此,,數(shù)據(jù)據(jù)倉庫庫在提提取數(shù)數(shù)據(jù)時時必須須經(jīng)過過數(shù)據(jù)據(jù)集成成,消消除源源數(shù)據(jù)據(jù)中的的矛盾盾,并并進(jìn)行行數(shù)據(jù)據(jù)綜合合和計計算。。經(jīng)過過數(shù)據(jù)據(jù)集成成后,,數(shù)據(jù)據(jù)倉庫庫所提提供的的信息息比數(shù)數(shù)據(jù)庫庫提供供的信信息更更概括括、更更本質(zhì)質(zhì)。非易失失性數(shù)據(jù)倉倉庫中中的數(shù)數(shù)據(jù)反反映的的是一一段時時間內(nèi)內(nèi)歷史史數(shù)據(jù)據(jù)的內(nèi)內(nèi)容,,是不不同時時點的的數(shù)據(jù)據(jù)庫快快照的的集合合,以以及基基于撰撰寫快快照進(jìn)進(jìn)行統(tǒng)統(tǒng)計、、綜合合和重重組的的導(dǎo)出出數(shù)據(jù)據(jù),而而不是是聯(lián)機(jī)機(jī)處理理的數(shù)數(shù)據(jù)。。主要要供企企業(yè)高高層決決策分分析之之用,,所涉涉及的的數(shù)據(jù)據(jù)操作作主要要是查查詢,,一般般情況況下并并不進(jìn)進(jìn)行修修改操操作,,即數(shù)數(shù)據(jù)倉倉庫中中的數(shù)數(shù)據(jù)是是不可可實時時更新新的,,僅當(dāng)當(dāng)超過過規(guī)定定的存存儲期期限,,才將將其從從數(shù)據(jù)據(jù)倉庫庫中刪刪除,,提取取新的的數(shù)據(jù)據(jù)經(jīng)集集成后后輸入入數(shù)據(jù)據(jù)倉庫庫。時變性性時變性性:許許多商商業(yè)分分析要要求對對發(fā)展展趨勢勢做出出預(yù)測測,對對發(fā)展展趨勢勢的分分析需需要訪訪問歷歷史數(shù)數(shù)據(jù)。。因此此數(shù)據(jù)據(jù)倉庫庫必須須不斷斷捕捉捉OLTP數(shù)據(jù)庫庫中變變化的的數(shù)據(jù)據(jù),生生成數(shù)數(shù)據(jù)庫庫的快快照,,經(jīng)集集成后后增加加到數(shù)數(shù)據(jù)倉倉庫中中去;;另外外數(shù)據(jù)據(jù)倉庫庫還需需要隨隨時間間的變變化刪刪去過過期的的、對對分析析沒有有幫助助的數(shù)數(shù)據(jù),,并且且還需需要按按規(guī)定定的時時間段段增加加綜合合數(shù)據(jù)據(jù)。支持管管理決決策數(shù)據(jù)倉倉庫支支持OLAP(聯(lián)機(jī)機(jī)分析析處理理)、、數(shù)據(jù)據(jù)挖掘掘和決決策分分析。。OLAP從數(shù)據(jù)據(jù)倉庫庫中的的綜合合數(shù)據(jù)據(jù)出發(fā)發(fā),提提供面面向分分析的的多維維模型型,并并使用用多維維分析析的方方法從從多個個角度度、多多個層層次對對多維維數(shù)據(jù)據(jù)進(jìn)行行分析析,使使決策策者能能夠以以更加加自然然的方方式來來分析析數(shù)據(jù)據(jù)。數(shù)數(shù)據(jù)挖挖掘則則以數(shù)數(shù)據(jù)倉倉庫和和多維維數(shù)據(jù)據(jù)庫中中的數(shù)數(shù)據(jù)為為基礎(chǔ)礎(chǔ),發(fā)發(fā)現(xiàn)數(shù)數(shù)據(jù)中中的潛潛在模模式和和進(jìn)行行預(yù)測測。因因此,,數(shù)據(jù)據(jù)倉庫庫的功功能是是支持持管理理層進(jìn)進(jìn)行科科學(xué)決決策,,而不不是事事務(wù)處處理。。數(shù)據(jù)倉倉庫的的技術(shù)術(shù)要求求大量數(shù)數(shù)據(jù)的的組織織和管管理::包含含了大大量的的歷史史數(shù)據(jù)據(jù),它它是從從數(shù)據(jù)據(jù)庫中中提取取得來來的,,不必必關(guān)心心它的的數(shù)據(jù)據(jù)安全全性和和數(shù)據(jù)據(jù)完整整性。。復(fù)雜分分析的的高性性能體體現(xiàn)::涉及及大量量數(shù)據(jù)據(jù)的聚聚集、、綜合合等,,在進(jìn)進(jìn)行復(fù)復(fù)雜查查詢時時經(jīng)常常會使使用多多表的的聯(lián)接接、累累計、、分類類、排排序等等操作作。對提取取出來來的數(shù)數(shù)據(jù)進(jìn)進(jìn)行集集成::數(shù)據(jù)據(jù)倉庫庫中的的數(shù)據(jù)據(jù)是從從多個個應(yīng)用用領(lǐng)域域中提提取出出來的的,在在不同同的應(yīng)應(yīng)用領(lǐng)領(lǐng)域和和不同同的數(shù)數(shù)據(jù)庫庫系統(tǒng)統(tǒng)中都都有不不同的的結(jié)構(gòu)構(gòu)和形形式,,所以以如何何對數(shù)數(shù)據(jù)進(jìn)進(jìn)行集集成也也是構(gòu)構(gòu)建數(shù)數(shù)據(jù)倉倉庫的的一個個重要要方面面。對進(jìn)行行高層層決策策的最最終用用戶的的界面面支持持:提提供各各種分分析應(yīng)應(yīng)用工工具。。操作數(shù)數(shù)據(jù)庫庫與數(shù)數(shù)據(jù)倉倉庫的的區(qū)別別操作數(shù)數(shù)據(jù)庫庫系統(tǒng)統(tǒng)的主主要任任務(wù)是是聯(lián)機(jī)機(jī)事務(wù)務(wù)處理理OLTP數(shù)據(jù)倉倉庫在在數(shù)據(jù)據(jù)分析析和決決策方方面為為用戶戶提供供服務(wù)務(wù),這種系系統(tǒng)稱稱為聯(lián)聯(lián)機(jī)分分析處處理OLAP事務(wù)型型處理理與分分析型型處理理事務(wù)型型處理理:即即操作作型處處理,,是指指對數(shù)數(shù)據(jù)庫庫的聯(lián)聯(lián)機(jī)操操作處處理。。事務(wù)務(wù)型處處理是是用來來協(xié)助助企業(yè)業(yè)對響響應(yīng)事事件或或事務(wù)務(wù)的日日常商商務(wù)活活動進(jìn)進(jìn)行處處理。。它是是事件件驅(qū)動動、面面向應(yīng)應(yīng)用的的,通通常是是對一一個或或一組組記錄錄的增增、刪刪、改改以及及簡單單查詢詢等。。事務(wù)務(wù)型處處理的的應(yīng)用用程序序和數(shù)數(shù)據(jù)是是緊緊緊圍繞繞著所所管理理的事事件來來構(gòu)造造的。。在事事務(wù)型型處理理環(huán)境境中,,數(shù)據(jù)據(jù)庫要要求能能支持持日常常事務(wù)務(wù)中的的大量量事務(wù)務(wù),用用戶對對數(shù)據(jù)據(jù)的存存取操操作頻頻率高高而每每次操操作處處理的的時間間短。。分析型處理理分析型處理理:用于管管理人員的的決策分析析,例如DSS、EIS、和多維分分析等。它它幫助決策策者分析數(shù)數(shù)據(jù)以察看看趨向、判判斷問題。。分析型處處理經(jīng)常要要訪問大量量的歷史數(shù)數(shù)據(jù),支持持復(fù)雜的查查詢。在分分析型處理理中,并不不是對從事事務(wù)型處理理環(huán)境中中得到的細(xì)細(xì)節(jié)數(shù)據(jù)進(jìn)進(jìn)行分析。。細(xì)節(jié)數(shù)據(jù)據(jù)量太大,,會嚴(yán)重影影響分析的的效率,而而且太多的的細(xì)節(jié)數(shù)據(jù)據(jù)不利于分分析人員將將注意力集集中于有用用的信息。。分析型處處理過程中中經(jīng)常用到到外部數(shù)據(jù)據(jù),這部分分?jǐn)?shù)據(jù)不是是由事務(wù)型型處理系統(tǒng)統(tǒng)產(chǎn)生的,,而是來自自于其他外外部數(shù)據(jù)源源。事務(wù)型處理理數(shù)據(jù)和分分析型處理理數(shù)據(jù)的區(qū)區(qū)別事務(wù)型處理理數(shù)據(jù)分分析析型處理數(shù)數(shù)據(jù)細(xì)節(jié)的綜綜合的的,或提煉煉的在存取瞬間間是準(zhǔn)確的的代代表過去的的數(shù)據(jù)可更新不不可更新,,只讀的操作需求事事先可知道道 操作作需求事先先不知生命周期符符合SDLC完全不同的的生命周期期對性能要求求高對對性能能要求寬松松一個時刻操操作一個單單元 一個個時刻操作作一個事務(wù)驅(qū)動分分析析驅(qū)動面向應(yīng)用面面向向分析一次操作數(shù)數(shù)據(jù)量小一一次操操作數(shù)據(jù)量量大支持日常操操作支支持管理需需求OLTP和OLAP的區(qū)別用戶和系統(tǒng)統(tǒng)的面向性性:OLTP是面向顧客客的,用于事務(wù)和和查詢處理理OLAP是面向市場場的,用于數(shù)據(jù)分分析數(shù)據(jù)內(nèi)容:OLTP系統(tǒng)管理理當(dāng)前數(shù)數(shù)據(jù).OLAP系統(tǒng)管理理大量歷歷史數(shù)據(jù)據(jù),提供匯總總和聚集機(jī)制制.數(shù)據(jù)庫設(shè)設(shè)計:OLTP采用實體體-聯(lián)系ER模型和面面向應(yīng)用用的數(shù)據(jù)庫設(shè)設(shè)計.OLAP采用星型型或雪花花模型和和面向主主題的數(shù)數(shù)據(jù)庫設(shè)計計.視圖:OLTP主要關(guān)注注一個企企業(yè)或部部門內(nèi)部部的當(dāng)前前數(shù)據(jù),不涉及歷歷史數(shù)據(jù)據(jù)或不同同組織的的數(shù)據(jù)OLAP則相反.訪問模式式:OLTP系統(tǒng)的訪訪問主要要由短的的原子事事務(wù)組成成.這種系統(tǒng)統(tǒng)需要并并行和恢恢復(fù)機(jī)制制.OLAP系統(tǒng)的訪訪問大部部分是只只讀操作作.為什么需需要分離離的數(shù)據(jù)據(jù)倉庫分離操作作數(shù)據(jù)庫庫系統(tǒng)和和數(shù)據(jù)倉倉庫的主主要原因是提提高兩個個系統(tǒng)的的性能.操作數(shù)據(jù)據(jù)庫系統(tǒng)統(tǒng)是為已已知的任任務(wù)和負(fù)負(fù)載設(shè)計計的,而數(shù)據(jù)倉倉庫的查查詢通常常是復(fù)雜雜的,涉及大量量數(shù)據(jù)在在匯總級級的計算算,在操作數(shù)數(shù)據(jù)庫系系統(tǒng)上處處理OLAP查詢,可能會大大大降低低操作任任務(wù)的性性能.3.2多維數(shù)據(jù)據(jù)模型數(shù)據(jù)倉庫庫和OLAP工具基于于多維數(shù)數(shù)據(jù)模型型,該模型將將數(shù)據(jù)看看作數(shù)據(jù)據(jù)立方體體形式數(shù)據(jù)立方方體允許許以多維維對數(shù)據(jù)據(jù)建模和和觀察.具體圖形形詳見71頁圖3-1多維數(shù)據(jù)據(jù)庫模式式星型,雪花和事事實星座座模式是是主要的的存在形形式星型模式式包含一一個大的的包含大大批數(shù)據(jù)據(jù)的事實實表和一一系列維維表.如73頁圖3-4雪花模式式是星型型模式的的變種,不同的是是將某些些維表規(guī)規(guī)范化.如74頁圖3-5事實星座座模式對對應(yīng)多個個事實表表共享維維表.如74頁圖3-626星形模式式例子time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcitystate_or_provincecountrylocationSalesFactTabletime_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranch27雪花形模模式time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcity_keylocationSalesFactTabletime_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_salesMeasuresitem_keyitem_namebrandtypesupplier_keyitembranch_keybranch_namebranch_typebranchsupplier_keysupplier_typesuppliercity_keycitystate_or_provincecountrycity28事實星座座形time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcityprovince_or_statecountrylocationSalesFactTabletime_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranchShippingFactTabletime_keyitem_keyshipper_keyfrom_locationto_locationdollars_costunits_shippedshipper_keyshipper_namelocation_keyshipper_typeshipper定義模式式的例子子定義圖3-4的星型模模式:定義立方方體:Definecubesales_star[time,item,branch,location]:dollars_sold=sum(sales_in_dollars),units_old=count(*)定義維Definedimensiontimeas(time_key,day,day_of_week,month,quarter,year)度量的分分類和計計算分布的:設(shè)數(shù)據(jù)被被劃分為為n個集合,函數(shù)在每每一部分分上的計計算得到到一個聚聚集值.如果將函函數(shù)用于于n個聚集值值得到的的結(jié)果,與將函數(shù)數(shù)用于所所有數(shù)據(jù)據(jù)得到的的結(jié)果一一樣則該該度量是是分布的的,如count(),sum()等代數(shù)的:如果一個個聚集函函數(shù)能夠夠由一個個具有M個參數(shù)的的代數(shù)函函數(shù)計算算,且每個參參數(shù)都可可以用一一個分布布聚集函函數(shù)求得得.如avg()可以由sum()/count()計算,其中sum()和count()是分布聚聚集函數(shù)數(shù).整體的:如果一個個聚集函函數(shù)無法法用具有有M個參數(shù)的的代數(shù)函函數(shù)進(jìn)行行這一計計算,則這個函函數(shù)稱是是整體的的,如rand()等許多度量量可以用用關(guān)系的的聚集操操作計算算對應(yīng)圖2-4,我們也可可寫出SQL語句.計算dollars_sold和units_soldSelectsum(s.number_of_units_sold*s.price)Sum(s.number_of_units_sold)Fromtimet,itemi,branchb,locationl,saless,Wheres.time_key=t.time_keyands.item_key=i.item_keyands.branch_key=b.branch_keyands.loation_key=l.location_keyGroupbys.time_key,s.item_key,s.branch_key,s.location_key概念分分層全序相相關(guān)偏偏序序相關(guān)關(guān)CountryyearCityquartermonthweekStreetday36概念分分層allEuropeNorth_AmericaMexicoCanadaSpainGermanyVancouverM.WindL.Chan..................allregionofficecountryTorontoFrankfurtcity37倉庫與與概念念視圖圖SpecificationofhierarchiesSchemahierarchyday<{month<quarter;week}<yearSet_groupinghierarchy{1..10}<inexpensive38多維數(shù)數(shù)據(jù)Salesvolumeasafunctionofproduct,month,andregionProductRegionMonthDimensions:Product,Location,TimeHierarchicalsummarizationpathsIndustryRegionYearCategoryCountryQuarterProductCityMonthWeekOfficeDay39ASampleDataCubeTotalannualsalesofTVinU.S.A.DateProductCountryAll,All,Allsumsum

TVVCRPC1Qtr2Qtr3Qtr4QtrU.S.ACanadaMexicosum多維數(shù)數(shù)據(jù)模模型的的OLAP操作上卷操操作,通過維維規(guī)約約,在數(shù)據(jù)據(jù)立方方體上上進(jìn)行行聚集集.下鉆操操作,是上卷卷操作作的逆逆操作作,由不太太詳細(xì)細(xì)的數(shù)數(shù)據(jù)到到更詳詳細(xì)的的數(shù)據(jù)據(jù).切片和和切塊塊,切片在在給定定的數(shù)數(shù)據(jù)立立方體體的一一個維維上進(jìn)進(jìn)行選選擇,切塊則則是在在兩個個或兩兩個以以上的的維進(jìn)進(jìn)行選選擇.轉(zhuǎn)軸操操作,轉(zhuǎn)動動數(shù)數(shù)據(jù)據(jù)的的視視覺覺,是目目視視操操作作.如圖圖3-10所示示41圖3.10典型型OLAP操作作3.3數(shù)據(jù)據(jù)倉倉庫庫的的系系統(tǒng)統(tǒng)結(jié)結(jié)構(gòu)構(gòu)自頂頂向向下下視視圖圖,使我我們們可可以以選選擇擇數(shù)數(shù)據(jù)據(jù)倉倉庫庫所所需需的的相相關(guān)關(guān)信信息息.數(shù)據(jù)據(jù)源源視視圖圖,揭示示被被操操作作數(shù)數(shù)據(jù)據(jù)庫庫系系統(tǒng)統(tǒng)捕捕獲獲存存儲儲和和管管理理的的信信息息.數(shù)據(jù)據(jù)倉倉庫庫視視圖圖,包括括事事實實表表和和維維表表.商務(wù)務(wù)查查詢詢視視圖圖,從最最終終用用戶戶的的角角度度透透視視數(shù)數(shù)據(jù)據(jù)倉倉庫庫中中的的數(shù)數(shù)據(jù)據(jù).43數(shù)據(jù)據(jù)倉倉庫庫的的設(shè)設(shè)計計:商業(yè)業(yè)分分析析框框架架四種種視視圖圖自定定向向下下視視圖圖allowsselectionoftherelevantinformationnecessaryforthedatawarehouse數(shù)據(jù)據(jù)源源視視圖圖exposestheinformationbeingcaptured,stored,andmanagedbyoperationalsystems數(shù)據(jù)據(jù)倉倉庫庫視視圖圖consistsoffacttablesanddimensiontables商業(yè)業(yè)查查詢詢視視圖圖seestheperspectivesofdatainthewarehousefromtheviewofend-user數(shù)據(jù)據(jù)倉倉庫庫設(shè)設(shè)計計過過程程選取取待待建建模模的的商商務(wù)務(wù)處處理理選取取商商務(wù)務(wù)處處理理的的粒粒度度,例如如單單個個事事務(wù)務(wù),一天天的的快快照照等等選取取用用于于每每個個事事實實表表記記錄錄的的維維.選取取將將安安放放在在事事實實表表中中的的度度量量如如圖圖3-4中的的dollars_sold和units_sold45數(shù)據(jù)據(jù)倉倉庫庫:多層層結(jié)結(jié)構(gòu)構(gòu)DataWarehouseExtractTransformLoadRefreshOLAP引擎擎AnalysisQueryReportsDataminingMonitor&IntegratorMetadata數(shù)據(jù)據(jù)源源前端端工工具具ServeDataMartsOperationalDBsOthersources數(shù)據(jù)據(jù)存存儲儲OLAPServer三層層數(shù)數(shù)據(jù)據(jù)倉倉庫庫結(jié)結(jié)構(gòu)構(gòu)底層層數(shù)數(shù)據(jù)據(jù)倉倉庫庫服服務(wù)務(wù)器器,使用用稱稱作作網(wǎng)網(wǎng)間間連連接接程程序序的的應(yīng)應(yīng)用用程程序序,由操操作作數(shù)數(shù)據(jù)據(jù)庫庫和和外外部部數(shù)數(shù)據(jù)據(jù)源源提提取取數(shù)數(shù)據(jù)據(jù).中間間層層是是OLAP服務(wù)務(wù)器器,實現(xiàn)現(xiàn)方方法法有有關(guān)系系OLAP模型型,在多多維維數(shù)數(shù)據(jù)據(jù)上上的的操操作作映映射射為為標(biāo)標(biāo)準(zhǔn)準(zhǔn)的的關(guān)關(guān)系系操操作作多維維OLAP模型型,直接接實實現(xiàn)現(xiàn)多多維維數(shù)數(shù)據(jù)據(jù)的的操操作作頂層層是是客客戶戶,它包包括括查查詢詢和和報報告告工工具具,分析析工工具具和和數(shù)數(shù)據(jù)據(jù)挖挖掘掘工工具具(例如如趨趨勢勢分分析析,預(yù)測測等等)數(shù)據(jù)據(jù)倉倉庫庫的的類類型型企業(yè)業(yè)倉倉庫庫:企業(yè)業(yè)倉倉庫庫收收集集了了關(guān)關(guān)于于主主題題的的所所有有信信息息,跨越越整整個個組組織織,它提提供供企企業(yè)業(yè)范范圍圍內(nèi)內(nèi)的的數(shù)數(shù)據(jù)據(jù)集集成成.數(shù)據(jù)據(jù)集集市市:包含含企企業(yè)業(yè)范范圍圍數(shù)數(shù)據(jù)據(jù)的的一一個個子子集集,對于于特特定定的的用用戶戶是是有有用用的的,其范范圍圍限限于于選選定定的的主主題題.虛擬擬倉倉庫庫:是操操作作數(shù)數(shù)據(jù)據(jù)庫庫上上的的視視圖圖集集合合.為了了有有效效地地處處理理查查詢詢,只有有一一些些可可能能的的匯匯總總視視圖圖被被物物化化,虛擬倉庫庫易于建建立,但需要操操作數(shù)據(jù)據(jù)庫服務(wù)務(wù)器具有有剩余能能力.49數(shù)據(jù)倉庫庫開發(fā)的的推薦方方法Defineahigh-levelcorporatedatamodelDataMartDataMartDistributedDataMartsMulti-TierDataWarehouseEnterpriseDataWarehouseModelrefinementModelrefinement50數(shù)據(jù)倉庫庫后端工工具和實實用程序序數(shù)據(jù)提取取getdatafrommultiple,heterogeneous,andexternalsources數(shù)據(jù)清理理detecterrorsinthedataandrectifythemwhenpossible數(shù)據(jù)變換換convertdatafromlegacyorhostformattowarehouseformat裝入sort,summarize,consolidate,computeviews,checkintegrity,andbuildindiciesandpartitions刷新propagatetheupdatesfromthedatasourcestothewarehouseOLAP服務(wù)器類類型關(guān)系OLAP(ROLAP)模型,使用關(guān)系系或擴(kuò)充充關(guān)系DBMS存放并管管理數(shù)據(jù)據(jù)倉庫多維OLAP(MOLAP)服務(wù)器,這些服務(wù)務(wù)器通過過基于數(shù)數(shù)組的多多維存儲儲,支持?jǐn)?shù)組組的多維維視圖混合OLAP(HOLAP)服務(wù)器,結(jié)合ROLAP和MOLAP技術(shù),得宜于ROLAP的可伸縮縮性,和MOLAP的快速計計算.特殊的SQL服務(wù)器,為了滿足足在關(guān)系系數(shù)據(jù)庫庫中日益益增長的的OLAP需要,實現(xiàn)了特特殊的SQL服務(wù)器,提供高級級查詢語語言和查查詢處理理,在星型和和雪花模模式上支支持SQL查詢.數(shù)據(jù)立方方體的有有效計算算計算量:對一個n維數(shù)據(jù)立立方體,第i維的層次次是Li,則可能產(chǎn)產(chǎn)生的立立方體總總數(shù)是T=(L1+1)*…*(Ln+1)如果10維每維4個層次產(chǎn)產(chǎn)生的方方體數(shù)是是5的10次方=9800000.預(yù)先計算算并物化化所有可可能產(chǎn)生生的方體體是不現(xiàn)現(xiàn)實的,較合理的的是部分分物化3.4數(shù)據(jù)倉庫庫實現(xiàn)方體的選選擇計算算不物化:導(dǎo)致運行行時計算算昂貴的的多維聚聚集,速度極慢慢.全物化:需要海量量存儲空空間,存放所有有預(yù)先計計算的方方體.部分物化化:在存儲空空間和響響應(yīng)時間間二者之之間提供供了很好好的折衷衷.多路數(shù)組組聚集將數(shù)組分分成塊,塊的大小小能夠放放入立方方體計算算時可用用的內(nèi)存存.通過訪問問立方體體單元進(jìn)進(jìn)行聚集集,使得每個個單元必必須重新新訪問的的次數(shù)最最小化.索引OLAP數(shù)據(jù)位圖索引引:如圖3-17所示,與散列和和樹索引引相比,位圖索引引將比較較,連接和聚聚集都變變成了位位算術(shù)運運算,大大減少少了運行行時間.連接索引引:源于關(guān)系系數(shù)據(jù)庫庫的查詢詢處理.位圖連接接索引:將連接索索引和位位圖索引引集成.OLAP查詢的有有效處理理確定那些些操作應(yīng)應(yīng)當(dāng)在可可利用的的方體上上執(zhí)行,這涉及將將查詢中中的選擇擇投影上上卷下鉆鉆操作轉(zhuǎn)轉(zhuǎn)換成對對應(yīng)的SQL或OLAP操作.確定相關(guān)關(guān)操作應(yīng)應(yīng)當(dāng)使用用哪些物物化的方方體,這涉及到到找出可可能用于于查詢的的所有物物化方體體.具體步驟驟考察的方方體必須須與查詢詢具有相相同的維維集合,或是它的的超集.選擇代價價最小的的方體.元數(shù)據(jù)存存儲元數(shù)據(jù)是是定義數(shù)數(shù)據(jù)倉庫庫對象的的數(shù)據(jù).元數(shù)據(jù)的存儲包包括數(shù)據(jù)倉庫庫結(jié)構(gòu)的的描述對元數(shù)據(jù)據(jù)的操作作匯總用的的算法由操作環(huán)環(huán)境到數(shù)數(shù)據(jù)倉庫庫的映射射關(guān)于系統(tǒng)統(tǒng)性能的的數(shù)據(jù)商務(wù)元數(shù)數(shù)據(jù)數(shù)據(jù)倉庫庫后端工工具數(shù)據(jù)提取取:從多個異異種的外外部數(shù)據(jù)據(jù)源收集集數(shù)據(jù).數(shù)據(jù)清理理:檢測錯誤誤,可能時修修改錯誤誤.數(shù)據(jù)變換換:將數(shù)據(jù)轉(zhuǎn)轉(zhuǎn)換成數(shù)數(shù)據(jù)倉庫庫格式.裝入:排序,綜合,合并,計算視圖圖,檢查整體體性,并建立索索引和劃劃分.刷新:傳播由數(shù)數(shù)據(jù)源到到數(shù)據(jù)倉倉庫的更更新.數(shù)據(jù)倉庫庫的維護(hù)護(hù)系統(tǒng)維護(hù)護(hù):是在在系統(tǒng)已已經(jīng)交付付使用之之后為了了改正錯錯誤和為為了滿足足新的需需要而修修改系統(tǒng)統(tǒng)的過程程。數(shù)據(jù)倉庫庫中數(shù)據(jù)據(jù)的日常常管理工工作:清除過時時的、不不再使用用的數(shù)據(jù)據(jù);定期從源源數(shù)據(jù)中中提取數(shù)數(shù)據(jù),刷刷新數(shù)據(jù)據(jù)倉庫中中的數(shù)據(jù)據(jù);管理元數(shù)數(shù)據(jù)等。。數(shù)據(jù)倉庫庫系統(tǒng)的的完善工工作:改正性維維護(hù):在在數(shù)據(jù)倉倉庫設(shè)計計與開發(fā)發(fā)過程中中,雖然然已經(jīng)進(jìn)進(jìn)行了嚴(yán)嚴(yán)格的測測試,但但對于一一個大型型的系統(tǒng)統(tǒng)可能還還潛藏著著一些錯錯誤,改改正性維維護(hù)就是是為了發(fā)發(fā)現(xiàn)和改改正這些些錯誤而而進(jìn)行的的過程。。適應(yīng)性維維護(hù):數(shù)數(shù)據(jù)倉庫庫的構(gòu)建建是基于于當(dāng)時的的技術(shù)條條件的,,由于計計算機(jī)科科學(xué)技術(shù)術(shù)發(fā)展十十分迅速速,每隔隔一定的的周期硬硬件設(shè)備備和

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論