Lecure數(shù)據(jù)倉庫與OLA技術概述_第1頁
Lecure數(shù)據(jù)倉庫與OLA技術概述_第2頁
Lecure數(shù)據(jù)倉庫與OLA技術概述_第3頁
Lecure數(shù)據(jù)倉庫與OLA技術概述_第4頁
Lecure數(shù)據(jù)倉庫與OLA技術概述_第5頁
已閱讀5頁,還剩33頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

17一月20231數(shù)據(jù)挖掘:概念與技術

—第三、四章—王家兵博士華南理工大學計算機科學與工程學院E-mail:jbwang@17一月20232Lecture3:數(shù)據(jù)倉庫、OLAP及數(shù)據(jù)立方體計算什么是數(shù)據(jù)倉庫(datawarehouse)?多維數(shù)據(jù)模型數(shù)據(jù)倉庫體系結構數(shù)據(jù)倉庫實施17一月20233什么是數(shù)據(jù)倉庫?有多種但并不嚴格的定義與操作數(shù)據(jù)庫相隔離并單獨維護的一個用來支持決策過程的數(shù)據(jù)庫一個用來對整理過的歷史數(shù)據(jù)進行分析以便支持信息處理的固定平臺.“數(shù)據(jù)倉庫是面向主題的、集成的、時變的、非易失的數(shù)據(jù)集合,它用來支持管理部門的決策過程”—W.H.Inmon17一月20234數(shù)據(jù)倉庫—面向主題的圍繞主題組織,如消費者(customer)、產品(product),銷售量(sales)等。主要目的是對數(shù)據(jù)建模與分析,以便于決策者的決策過程,而不是日常操作與事物處理。排出那些對決策過程沒有用的數(shù)據(jù),為決策者提供一個簡明的有關特定主題的視圖。17一月20235數(shù)據(jù)倉庫-集成的集成多個、異構數(shù)據(jù)源關系數(shù)據(jù)庫,普通文件,聯(lián)機事物記錄。應用了數(shù)據(jù)清洗與數(shù)據(jù)集成技術確保多個數(shù)據(jù)源命名慣例、編碼結構、屬性度量等的一致性。在數(shù)據(jù)移入數(shù)據(jù)倉庫之前,對它進行轉換。17一月20236數(shù)據(jù)倉庫-時變的數(shù)據(jù)倉庫跨越的時間比操作數(shù)據(jù)庫要長的多.操作數(shù)據(jù)庫:當前值數(shù)據(jù)。數(shù)據(jù)倉庫:從歷史的視角提供信息(如過去5-10的數(shù)據(jù))數(shù)據(jù)倉庫的健值屬性隱式或顯式地包含一個時間鍵。操作數(shù)據(jù)庫可以也可以不包含時間鍵。17一月20237數(shù)據(jù)倉庫-非易失的與操作數(shù)據(jù)庫分隔存儲。操作數(shù)據(jù)庫的數(shù)據(jù)更新不在數(shù)據(jù)倉庫環(huán)境出現(xiàn)。不需要事務處理,數(shù)據(jù)恢復以及并發(fā)控制機制。僅僅需要以下2種操作:數(shù)據(jù)的初始裝載與數(shù)據(jù)訪問。17一月20238數(shù)據(jù)倉庫vs.數(shù)據(jù)庫管理系統(tǒng)聯(lián)機事物處理(OLTP,on-linetransactionprocessing)傳統(tǒng)關系數(shù)據(jù)庫的主要任務日常操作:購買,存貨,財務等.聯(lián)機分析處理(OLAP,on-lineanalyticalprocessing)數(shù)據(jù)倉庫的主要任務數(shù)據(jù)分析與決策支持17一月20239OLTPOLAP用戶員工,IT專業(yè)人員知識工作者功能每天的日常操作決策支持DB設計面向應用+ER面向主題+Star數(shù)據(jù)當前的,詳細的數(shù)據(jù)歷史的,匯總的,多維的集成的,整理過的使用重復的特定的訪問讀/寫、索引多次掃描工作單元短的,簡單的事務處理復雜查詢記錄數(shù)/查詢幾十百萬用戶數(shù)上千百DB規(guī)模100MB-GB100GB-TBmetrictransactionthroughputquerythroughput,response17一月202310為什么要建立隔離的數(shù)據(jù)倉庫?使得操作數(shù)據(jù)庫與數(shù)據(jù)倉庫都獲得高性能DBMS—OLTP:訪問方法,索引,并發(fā)控制,數(shù)據(jù)恢復。Warehouse—OLAP:復雜OLAP查詢,多維視圖,整理。對數(shù)據(jù)與功能的要求不同:丟失的數(shù)據(jù):決策支持需要歷史數(shù)據(jù),而傳統(tǒng)數(shù)據(jù)庫并不一定維護歷史數(shù)據(jù)。數(shù)據(jù)整理:決策支持需要對異構數(shù)據(jù)源進行數(shù)據(jù)整理。數(shù)據(jù)質量:不同的數(shù)據(jù)源常常具有不一致的數(shù)據(jù)表示,編碼結構與格式。04一月202311數(shù)據(jù)挖掘中的的數(shù)據(jù)倉庫與與OLAP技術什么是數(shù)據(jù)倉倉庫?多維數(shù)據(jù)模型型數(shù)據(jù)倉庫體系系結構數(shù)據(jù)倉庫實施施04一月月202312由表和電子子數(shù)據(jù)表到到數(shù)據(jù)立方方體I數(shù)據(jù)倉庫基基于多維數(shù)數(shù)據(jù)模型,,以數(shù)據(jù)立立方體的形形式對數(shù)據(jù)據(jù)進行觀察察。數(shù)據(jù)立方體體,如銷售售,允許以以多維來對對數(shù)據(jù)進行行建模與觀觀察。維表:如維item(item_name,brand,type),或維time(day,week,month,quarter,year)。事實表包含含度量(measures)):如銷售額以以及每個相相關維表的的關鍵字。。04一月月202313由表和電子子數(shù)據(jù)表到到數(shù)據(jù)立方方體II在數(shù)據(jù)倉庫庫的研究文文獻中,一一個n維立方體((n-D)稱為基本方體(basecuboid);0-D方體存放最最高層的匯匯總,稱稱為頂點方體(apexcuboid),方體的格格稱作數(shù)據(jù)立方體體(datacube)。04一一月月202314立方方體體:方方體體格格alltimeitemlocationsuppliertime,itemtime,locationtime,supplieritem,locationitem,supplierlocation,suppliertime,item,locationtime,item,suppliertime,location,supplieritem,location,suppliertime,item,location,supplier0-D(apex)cuboid1-Dcuboids2-Dcuboids3-Dcuboids4-D(base)cuboid04一一月202315數(shù)據(jù)倉庫庫概念模模型建模數(shù)據(jù)據(jù)倉庫:維&度量星型模式式(Starschema):一個事實實表以及及一組與與事實表表連結的的維表。。雪花模式式(Snowflakeschema):雪花模式式是星型型模式的的變種,,其中某某些維表表是規(guī)范范化的。。(normalized),因而把數(shù)數(shù)據(jù)進一一步分解解到附加加的表中中。事實星座座(Factconstellations):多個事實實表分享享共同的的維表,,這種模模式可以以看作星星型模式式的集合合,因此此稱為星星系模式式(galaxyschema)或事實星星座。04一一月月202316星型模模式time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcitystate_or_provincecountrylocationSalesFactTabletime_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranch04一一月月202317雪花模模式time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcity_keylocationSalesFactTabletime_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_salesMeasuresitem_keyitem_namebrandtypesupplier_keyitembranch_keybranch_namebranch_typebranchsupplier_keysupplier_typesuppliercity_keycitystate_or_provincecountrycity04一月月202318事實星座time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcityprovince_or_statecountrylocationSalesFactTabletime_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranchShippingFactTabletime_keyitem_keyshipper_keyfrom_locationto_locationdollars_costunits_shippedshipper_keyshipper_namelocation_keyshipper_typeshipper04一一月202319度量的分分類I分布式的的(distributive)):一個聚集集函數(shù)是是分布的的,如果果它能以以以下分分布式進進行計算算:如果果將函數(shù)數(shù)用于n個聚集值值得到的的結果,,與將函函數(shù)用于于所有數(shù)數(shù)據(jù)得到到的結果果一樣,,則該函函數(shù)可以以用分布布式計算算。如,count(),sum(),min(),max().代數(shù)的((algebraic)):一個函數(shù)數(shù)是代數(shù)數(shù)的,如如果它能能夠由一一個具有有M個參數(shù)的的代數(shù)函函數(shù)計算算(其中中M是一個有有界整數(shù)數(shù)),而而每個參參數(shù)都可可以用一一個分布布聚集函函數(shù)得到到。如,avg(),standard_deviation().04一一月月202320度量的的分類類II整體的的(holistic)):如果描描述它它的子子聚集集所需需的存存儲沒沒有一一個常常數(shù)界界,即即不存存在一一個具具有M個參數(shù)數(shù)的代代數(shù)函函數(shù)進進行這這一計計算((其中中M是常數(shù)數(shù))。。如,median()(中位位數(shù))),mode()(出現(xiàn)現(xiàn)次數(shù)數(shù)最多多的數(shù)數(shù),眾眾數(shù)))等。。04一一月202321一個概念念層次:維(location)allEuropeNorth_AmericaMexicoCanadaSpainGermanyVancouverM.WindL.Chan..................allregionofficecountryTorontoFrankfurtcity04一月202322多維數(shù)據(jù)銷售立方體ProductRegionMonth維:Product,Location,Time概念層次圖::IndustryRegionYearCategoryCountryQuarterProductCityMonthWeekOfficeDay04一月202323示例:數(shù)據(jù)立立方體TV在美國的年銷銷售額DateProductCountryAll,All,Allsumsum

TVVCRPC1Qtr2Qtr3Qtr4QtrU.S.ACanadaMexicosum04一月月202324對應立方的的立方體allproductdatecountryproduct,dateproduct,countrydate,countryproduct,date,country0-D(apex)cuboid1-Dcuboids2-Dcuboids3-D(base)cuboid04一月月202325典型的OLAP操作I上卷Rollup(上鉆drill-up):通過一個維維的概念分分層向上攀攀升或通過過維規(guī)約,,在數(shù)據(jù)立立方體上進進行聚集。。下鉆Drilldown(rolldown):上卷的逆操操作,它由由不太詳細細的數(shù)據(jù)得得到更詳細細的數(shù)據(jù)。??梢酝ㄟ^沿沿維的概念念分層向下下或引入新新的維實現(xiàn)現(xiàn)。04一月202326典型的OLAP操作II切片Slice與切塊dice投影與選擇。。轉軸Pivot(rotate)是一種目視操操作,它轉動動數(shù)據(jù)的視角角,提供數(shù)據(jù)據(jù)的替代表示示其它操作鉆過drillacross:執(zhí)行涉及多多個事實表的的查詢。鉆透drillthrough:使用SQL的機制,鉆到到數(shù)據(jù)立方的的底層,到后后端關系表。。04一一月月202327數(shù)據(jù)據(jù)挖挖掘掘中中的的數(shù)數(shù)據(jù)據(jù)倉倉庫庫與與OLAP技術術什么么是是數(shù)數(shù)據(jù)據(jù)倉倉庫庫?多維維數(shù)數(shù)據(jù)據(jù)模模型型數(shù)據(jù)據(jù)倉倉庫庫體體系系結結構構數(shù)據(jù)據(jù)倉倉庫庫實實施施04一一月月202328多層層體體系系結結構構DataWarehouseExtractTransformLoadRefreshOLAPEngineAnalysisQueryReportsDataminingMonitor&IntegratorMetadataDataSourcesFront-EndToolsServeDataMartsOperational

DBsothersourcesDataStorageOLAPServer04一一月202329三個數(shù)據(jù)據(jù)倉庫模模型企業(yè)倉庫庫(Enterprisewarehouse)搜集了關關于主題題的所有有信息,,跨越整整個組織織。數(shù)據(jù)集市市(DataMart))包含企業(yè)業(yè)范圍數(shù)數(shù)據(jù)的一一個子集集,對于于特定的的用戶是是有用的的,其范范圍限于于選定的的主題。。虛擬倉庫庫(Virtualwarehouse)操作數(shù)據(jù)據(jù)庫上視視圖的一一組集合合。為了有效效處理查查詢,只只有一些些可能的的匯總視視圖被物物化。04一一月202330數(shù)據(jù)挖掘掘中的數(shù)數(shù)據(jù)倉庫庫與OLAP技術什么是數(shù)數(shù)據(jù)倉庫庫?多維數(shù)據(jù)據(jù)模型數(shù)據(jù)倉庫庫體系結結構數(shù)據(jù)倉庫庫實施04一月月202331數(shù)據(jù)立方的的有效計算算數(shù)據(jù)立方可可以看作是是由立方體體形成的格格結構最底層的立立方體稱為為基本方體體(basecuboid)最上層的方方體稱為頂頂點方體(apexcuboid)一個L層的n維立方有多多少立方體體呢?04一一月月202332數(shù)據(jù)據(jù)立立方方的的物物化化物化化每一一個個立方方體體,不物化化,或者者部分分物化化物化化每一一個個立方方體體?不物化化??部分分物化化?。∵x擇擇將將要要物物化化的的立立方方體體基于于尺尺寸寸大大小小,共享享,訪問問頻頻率率等等。。04一一月月202333立方方計計算算的的多多路路數(shù)數(shù)組組聚聚集集方方法法I把數(shù)數(shù)組組劃劃分分成成塊(chunks,,一個個子子方方,,其其大大小小能能夠夠放放入入立立方方體體計計算算時時可可用用的的內內存存)).采用用壓壓縮縮的的稀稀疏疏數(shù)數(shù)組組結結構構:(chunk_id,offset)通過過訪訪問問立立體體單單元元,,計計算算聚聚集集。??煽梢砸詢?yōu)優(yōu)化化訪訪問問單單元元的的次次序序使使得得每每個個單單元元必必須須重重復復訪訪問問的的次次數(shù)數(shù)最最小小化化。。04一月202334立方計算的多多路數(shù)組聚集集方法IIAB2930313212345913141516646362

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論