數據挖掘2章數據倉庫和數據挖掘的OLAP技術課件_第1頁
數據挖掘2章數據倉庫和數據挖掘的OLAP技術課件_第2頁
數據挖掘2章數據倉庫和數據挖掘的OLAP技術課件_第3頁
數據挖掘2章數據倉庫和數據挖掘的OLAP技術課件_第4頁
數據挖掘2章數據倉庫和數據挖掘的OLAP技術課件_第5頁
已閱讀5頁,還剩48頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第3章數據倉庫和數據挖掘的OLAP技術本章要點數據倉庫的基本概念多維數據模型數據倉庫的系統結構數據倉庫實現數據立方體技術的近一步發(fā)展從數據倉庫到數據挖掘數據倉庫的發(fā)展自從NCR公司為Wal Mart建立了第一個數據倉庫。1996年,加拿大的IDC公司調查了62家實現了數據倉庫的歐美企業(yè),結果表明:數據倉庫為企業(yè)提供了巨大的收益。早期的數據倉庫大都采用當時流行的客戶/服務器結構。近年來分布式對象技術飛速發(fā)展,整個數據倉庫體系結構從功能上劃分為若干個分布式對象,這些分布式對象不僅可以直接用于建立數據倉庫,還可以在應用程序中向用戶提供調用的接口。IBM的實驗室在數據倉庫方面已經進行了10多年的研究,

2、并將研究成果發(fā)展成為商用產品。其他數據庫廠商在數據倉庫領域也紛紛提出了各自的解決方案。數據倉庫的發(fā)展IBM: 在其DB2UDB發(fā)布一年后的1998年9月發(fā)布5.2版,并于1998年12月推向中國市場,除了用于OLAP(聯機分析處理)的后臺服務器DB2 OLAP Server外,IBM還提供了一系列相關的產品,包括前端工具,形成一整套解決方案。Informix公司: 在其動態(tài)服務器IDS(Informix Dynamic Server)中提供一系列相關選件,如高級決策支持選件(Advanced Decision Support Option)、OLAP選件(MetaCube ROLAP Opti

3、on)、擴展并行選件(Extended Parallel Option)等,這種體系結構嚴謹、管理方便、索引機制完善,并行處理的效率更高,其中數據倉庫和數據庫查詢的SQL語句的一致性使得用戶開發(fā)更加簡便。數據倉庫的發(fā)展微軟公司: 在其SQL Server7.0以及SQL Server2000中集成了代號為Plato的OLAP服務器。Sybase: 提供了專門的OLAP服務器Sybase IQ,并將其與數據倉庫相關工具打包成Warehouse Studio 。PLATINUM: 提出了由InfoPump(數據倉庫建模與數據加載工具)和Forest&Trees(前端報表工具)構成的一套較有特色的整

4、體方案。 ; Oracle公司: 則推出從數據倉庫構建、OLAP到數據集市管理等一系列產品包(如Oracle Warehouse Builder、Oracle Express、DataMart Suit等)。 數據倉庫的我國的發(fā)展前景:隨著計算機技術的發(fā)展,尤其是分布式技術的發(fā)展, 數據倉庫在我國有著廣闊的發(fā)展空間和良好的發(fā)展前景。例如:由于銀行商業(yè)化的步伐正在加大,各大中型銀行在入世的機遇和挑戰(zhàn)下,開始重新考慮自身的業(yè)務,特別是信貸風險管理方面特別注意,因而有關信貸風險管理和風險規(guī)章的基于數據倉庫的決策支持系統的需求逐漸增多;由于電子商務的迅速發(fā)展,越來越多的電子商務網站,開始考慮如何將數據

5、倉庫應用于商品銷售分析、顧客的誠信度分析等,為客戶提供更進一步的個性化服務;如移動通信等各大型企業(yè)也開始考慮著手進行決策支持以及數據倉庫規(guī)劃。數據挖掘的發(fā)展數據挖掘是與數據倉庫密切相關的一個信息技術新領域,它是信息技術自然演化的結果。隨著數據庫技術的迅速發(fā)展以及數據庫管理系統的廣泛應用,人們積累的數據越來越多,但缺乏挖掘數據中隱藏的知識的手段,導致了“數據爆炸但知識貧乏的”現象。自80年代后期以來,聯機分析處理(OLAP)和數據挖掘技術應運而生。3.1數據倉庫(Data Warehouse)數據倉庫用來保存從多個數據庫或其它信息源選取的數據, 并為上層應用提供統一 用戶接口,完成數據查詢和分析

6、。數據倉庫是作為DSS服務基礎的分析型DB,用來存放大容量的只讀數據,為制定決策提供所需要的信息。數據倉庫是與操作型系統相分離的、基于標準企業(yè)模型集成的、帶有時間屬性的、面向主題及不可更新的數據集合。W.H.Inmon對數據倉庫所下的定義:數據倉庫是面向主題的、集成的、穩(wěn)定的、隨時間變化的數據集合,用以支持管理決策的過程。數據倉庫的適用范圍信息源中的數據變化穩(wěn)定或可預測應用不需要最新的數據或允許有延遲應用要求 有較高的查詢性能 而降低精度要求數據倉庫中數據的特點 面向主題 集成性 穩(wěn)定性 時變性面向主題主題:是一個抽象的概念,是在較高層次上將企業(yè)信息系統中的數據綜合、歸類并進行分析利用的抽象。

7、在邏輯上,它對應于企業(yè)中某一宏觀分析領域所涉及的分析對象。面向主題的數據組織方式可在較高層次上對分析對象的數據給出完整、一致的描述,能完整、統一的刻畫各個分析對象所涉及的企業(yè)的各項數據以及數據之間的聯系,從而適應企業(yè)各個部門的業(yè)務活動特點和企業(yè)數據的動態(tài)特征,從根本上實現數據與應用的分離。集成性數據倉庫中的數據是從原有分散的源數據庫中提取出來的,其每一個主題所對應的源數據在原有的數據庫中有許多冗余和不一致,且與不同的應用邏輯相關。為了創(chuàng)建一個有效的主題域,必須將這些來自不同數據源的數據集成起來,使之遵循統一的編碼規(guī)則。因此,數據倉庫在提取數據時必須經過數據集成,消除源數據中的矛盾,并進行數據綜

8、合和計算。經過數據集成后,數據倉庫所提供的信息比數據庫提供的信息更概括、更本質。 穩(wěn)定性數據倉庫中的數據反映的是一段時間內歷史數據的內容,是不同時點的數據庫快照的集合,以及基于撰寫快照進行統計、綜合和重組的導出數據,而不是聯機處理的數據。主要供企業(yè)高層決策分析之用,所涉及的數據操作主要是查詢,一般情況下并不進行修改操作,即數據倉庫中的數據是不可實時更新的,僅當超過規(guī)定的存儲期限,才將其從數據倉庫中刪除,提取新的數據經集成后輸入數據倉庫。時變性時變性:許多商業(yè)分析要求對發(fā)展趨勢做出預測,對發(fā)展趨勢的分析需要訪問歷史數據。因此數據倉庫必須不斷捕捉OLTP數據庫中變化的數據,生成數據庫的快照,經集成

9、后增加到數據倉庫中去;另外數據倉庫還需要隨時間的變化刪去過期的、對分析沒有幫助的數據,并且還需要按規(guī)定的時間段增加綜合數據。支持管理決策數據倉庫支持OLAP(聯機分析處理)、數據挖掘和決策分析。OLAP從數據倉庫中的綜合數據出發(fā),提供面向分析的多維模型,并使用多維分析的方法從多個角度、多個層次對多維數據進行分析,使決策者能夠以更加自然的方式來分析數據。數據挖掘則以數據倉庫和多維數據庫中的數據為基礎,發(fā)現數據中的潛在模式和進行預測。因此,數據倉庫的功能是支持管理層進行科學決策,而不是事務處理。數據倉庫的技術要求大量數據的組織和管理:包含了大量的歷史數據,它是從數據庫中提取得來的,不必關心它的數據

10、安全性和數據完整性。復雜分析的高性能體現:涉及大量數據的聚集、綜合等,在進行復雜查詢時經常會使用多表的聯接、累計、分類、排序等操作。對提取出來的數據進行集成:數據倉庫中的數據是從多個應用領域中提取出來的,在不同的應用領域和不同的數據庫系統中都有不同的結構和形式,所以如何對數據進行集成也是構建數據倉庫的一個重要方面。對進行高層決策的最終用戶的界面支持:提供各種分析應用工具。操作數據庫與數據倉庫的區(qū)別操作數據庫系統的主要任務是聯機事務處理OLTP數據倉庫在數據分析和決策方面為用戶提供服務,這種系統稱為聯機分析處理OLAP事務型處理與分析型處理事務型處理:即操作型處理,是指對數據庫的聯機操作處理。事

11、務型處理是用來協助企業(yè)對響應事件或事務的日常商務活動進行處理。它是事件驅動、面向應用的,通常是對一個或一組記錄的增、刪、改以及簡單查詢等。事務型處理的應用程序和數據是緊緊圍繞著所管理的事件來構造的。在事務型處理環(huán)境中,數據庫要求能支持日常事務中的大量事務,用戶對數據的存取操作頻率高而每次操作處理的時間短。分析型處理分析型處理:用于管理人員的決策分析,例如DSS、 EIS、和多維分析等。它幫助決策者分析數據以察看趨向、判斷問題。分析型處理經常要訪問大量的歷史數據,支持復雜的查詢。在分析型處理中,并不是對從事務型處理環(huán)境 中得到的細節(jié)數據進行分析。細節(jié)數據量太大,會嚴重影響分析的效率,而且太多的細

12、節(jié)數據不利于分析人員將注意力集中于有用的信息。分析型處理過程中經常用到外部數據,這部分數據不是由事務型處理系統產生的,而是來自于其他外部數據源。事務型處理數據和分析型處理數據的區(qū)別 事務型處理數據 分析型處理數據細節(jié)的 綜合的,或提煉的在存取瞬間是準確的 代表過去的數據可更新 不可更新,只讀的操作需求事先可知道 操作需求事先不知生命周期符合SDLC完全不同的生命周期對性能要求高 對性能要求寬松一個時刻操作一個單元一個時刻操作一個事務驅動分析驅動面向應用面向分析一次操作數據量小一次操作數據量大支持日常操作支持管理需求OLTP和OLAP的區(qū)別用戶和系統的面向性:OLTP是面向顧客的,用于事務和查詢

13、處理OLAP是面向市場的,用于數據分析數據內容:OLTP系統管理當前數據.OLAP系統管理大量歷史數據,提供匯總和聚集機制.數據庫設計:OLTP采用實體-聯系ER模型和面向應用的數據庫設計.OLAP采用星型或雪花模型和面向主題的數據庫設計.視圖:OLTP主要關注一個企業(yè)或部門內部的當前數據,不涉及歷史數據或不同組織的數據OLAP則相反.訪問模式:OLTP系統的訪問主要由短的原子事務組成.這種系統需要并行和恢復機制.OLAP系統的訪問大部分是只讀操作.為什么需要分離的數據倉庫分離操作數據庫系統和數據倉庫的主要 原因是提高兩個系統的性能.操作數據庫系統是為已知的任務和負載設計的,而數據倉庫的查詢通

14、常是復雜的,涉及大量數據在匯總級的計算,在操作數據庫系統上處理OLAP查詢,可能會大大降低操作任務的性能.3.2 多維數據模型數據倉庫和OLAP工具基于多維數據模型,該模型將數據看作數據立方體形式數據立方體允許以多維對數據建模和觀察.具體圖形詳見71頁圖3-1多維數據庫模式星型,雪花和事實星座模式是主要的存在形式星型模式包含一個大的包含大批數據的事實表和一系列維表.如73頁圖3-4雪花模式是星型模式的變種,不同的是將某些維表規(guī)范化.如74頁圖3-5事實星座模式對應多個事實表共享維表.如74頁圖3-6定義模式的例子定義圖3-4的星型模式:定義立方體:Define cube sales_start

15、ime,item,branch,location: dollars_sold=sum(sales_in_dollars), units_old=count(*)定義維 Define dimension time as (time_key,day,day_of_week,month,quarter,year)度量的分類和計算分布的: 設數據被劃分為n個集合,函數在每一部分上的計算得到一個聚集值.如果將函數用于n個聚集值得到的結果,與將函數用于所有數據得到的結果一樣則該度量是分布的,如count(),sum()等代數的: 如果一個聚集函數能夠由一個具有M個參數的代數函數計算,且每個參數都可以用一個

16、分布聚集函數求得.如avg()可以由sum()/count()計算,其中sum()和count()是分布聚集函數.整體的: 如果一個聚集函數無法用具有M個參數的代數函數進行這一計算,則這個函數稱是整體的,如rand()等許多度量可以用關系的聚集操作計算 對應圖2-4,我們也可寫出SQL語句.計算dollars_sold和units_soldSelect sum(s.number_of_units_sold*s.price) Sum(s.number_of_units_sold) From time t,item i,branch b,location l,sales s,Where s.tim

17、e_key=t.time_key and s.item_key=i.item_key and s.branch_key=b.branch_key and s.loation_key=l.location_keyGroup by s.time_key,s.item_key,s.branch_key,s.location_key概念分層全序相關 偏序相關(具體見3,4章)Country yearCity quarter month weekStreet day多維數據模型的OLAP操作上卷操作,通過維規(guī)約,在數據立方體上進行聚集.下鉆操作,是上卷操作的逆操作,由不太詳細的數據到更詳細的數據.切片和

18、切塊,切片在給定的數據立方體的一個維上進行選擇,切塊則是在兩個或兩個以上的維進行選擇.轉軸操作,轉動數據的視覺,是目視操作.如圖2-10所示3.3 數據倉庫的系統結構自頂向下視圖,使我們可以選擇數據倉庫所需的相關信息.數據源視圖,揭示被操作數據庫系統捕獲存儲和管理的信息.數據倉庫視圖,包括事實表和維表.商務查詢視圖,從最終用戶的角度透視數據倉庫中的數據.數據倉庫設計過程選取待建模的商務處理選取商務處理的粒度,例如單個事務,一天的快照等選取用于每個事實表記錄的維.選取將安放在事實表中的度量如圖3-4中的dollars_sold和units_sold三層數據倉庫結構底層數據倉庫服務器,使用稱作網間

19、連接程序的應用程序,由操作數據庫和外部數據源提取數據.中間層是OLAP服務器,實現方法有 關系OLAP模型,在多維數據上的操作映射為標準的關系操作 多維OLAP模型,直接實現多維數據的操作頂層是客戶,它包括查詢和報告工具,分析工具和數據挖掘工具(例如趨勢分析,預測等)數據倉庫的類型企業(yè)倉庫:企業(yè)倉庫收集了關于主題的所有信息,跨越整個組織,它提供企業(yè)范圍內的數據集成.數據集市:包含企業(yè)范圍數據的一個子集,對于特定的用戶是有用的,其范圍限于選定的主題.虛擬倉庫:是操作數據庫上的視圖集合.為了有效地處理查詢,只有一些可能的匯總視圖被物化,虛擬倉庫易于建立,但需要操作數據庫服務器具有剩余能力.OLAP

20、服務器類型關系OLAP(ROLAP)模型,使用關系或擴充關系DBMS存放并管理數據倉庫多維OLAP(MOLAP)服務器,這些服務器通過基于數組的多維存儲,支持數組的多維視圖混合OLAP(HOLAP)服務器,結合ROLAP和MOLAP技術,得宜于ROLAP的可伸縮性,和MOLAP的快速計算.特殊的SQL服務器,為了滿足在關系數據庫中日益增長的OLAP需要,實現了特殊的SQL服務器,提供高級查詢語言和查詢處理,在星型和雪花模式上支持SQL查詢.數據立方體的有效計算計算量:對一個n維數據立方體,第i維的層次是Li,則可能產生的立方體總數是T=(L1+1)*(Ln+1)如果10維每維4個層次產生的方體

21、數是5的10次方=9800000.預先計算并物化所有可能產生的方體是不現實的,較合理的是部分物化3.4 數據倉庫實現方體的選擇計算不物化:導致運行時計算昂貴的多維聚集,速度極慢.全物化:需要海量存儲空間,存放所有預先計算的方體.部分物化:在存儲空間和響應時間二者之間提供了很好的折衷.多路數組聚集將數組分成塊,塊的大小能夠放入立方體計算時可用的內存.通過訪問立方體單元進行聚集,使得每個單元必須重新訪問的次數最小化.索引OLAP數據位圖索引:如圖3-17所示,與散列和樹索引相比,位圖索引將比較,連接和聚集都變成了位算術運算,大大減少了運行時間.連接索引:源于關系數據庫的查詢處理.位圖連接索引:將連

22、接索引和位圖索引集成.OLAP查詢的有效處理確定那些操作應當在可利用的方體上執(zhí)行,這涉及將查詢中的選擇投影上卷下鉆操作轉換成對應的SQL或OLAP操作.確定相關操作應當使用哪些物化的方體,這涉及到找出可能用于查詢的所有物化方體.具體步驟考察的方體必須與查詢具有相同的維集合,或是它的超集.選擇代價最小的方體.元數據存儲元數據是定義數據倉庫對象的數據.元數據的存儲包括數據倉庫結構的描述對元數據的操作匯總用的算法由操作環(huán)境到數據倉庫的映射關于系統性能的數據商務元數據數據倉庫后端工具數據提取:從多個異種的外部數據源收集數據.數據清理:檢測錯誤,可能時修改錯誤.數據變換:將數據轉換成數據倉庫格式.裝入:

23、排序,綜合,合并,計算視圖,檢查整體性,并建立索引和劃分.刷新:傳播由數據源到數據倉庫的更新.數據倉庫的維護系統維護:是在系統已經交付使用之后為了改正錯誤和為了滿足新的需要而修改系統的過程。數據倉庫中數據的日常管理工作:清除過時的、不再使用的數據;定期從源數據中提取數據,刷新數據倉庫中的數據;管理元數據等。數據倉庫系統的完善工作:改正性維護:在數據倉庫設計與開發(fā)過程中,雖然已經進行了嚴格的測試,但對于一個大型的系統可能還潛藏著一些錯誤,改正性維護就是為了發(fā)現和改正這些錯誤而進行的過程。適應性維護:數據倉庫的構建是基于當時的技術條件的,由于計算機科學技術發(fā)展十分迅速,每隔一定的周期硬件設備和系統軟件都

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論