復(fù)旦大學(xué)在線分析處理考研復(fù)習(xí)必備_第1頁
復(fù)旦大學(xué)在線分析處理考研復(fù)習(xí)必備_第2頁
復(fù)旦大學(xué)在線分析處理考研復(fù)習(xí)必備_第3頁
復(fù)旦大學(xué)在線分析處理考研復(fù)習(xí)必備_第4頁
復(fù)旦大學(xué)在線分析處理考研復(fù)習(xí)必備_第5頁
已閱讀5頁,還剩25頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、在線分析處理在線分析處理Online Analytical ProcessingOnline Analytical Processing趙衛(wèi)東 博士復(fù)旦大學(xué)軟件學(xué)院OLAP發(fā)展背景發(fā)展背景n60年代,關(guān)系數(shù)據(jù)庫之父年代,關(guān)系數(shù)據(jù)庫之父E.F.Codd提出了關(guān)系模型,促進提出了關(guān)系模型,促進了聯(lián)機事務(wù)處理了聯(lián)機事務(wù)處理(OLTP)的發(fā)展的發(fā)展(數(shù)據(jù)以表格的形式而非文件數(shù)據(jù)以表格的形式而非文件方式存儲方式存儲)。1993年,年,E.F.Codd提出了提出了OLAP概念,認(rèn)為概念,認(rèn)為OLTP已不能滿足終端用戶對數(shù)據(jù)庫查詢分析的需要,已不能滿足終端用戶對數(shù)據(jù)庫查詢分析的需要,SQL對對大型數(shù)據(jù)庫進行

2、的簡單查詢也不能滿足終端用戶分析的要求。大型數(shù)據(jù)庫進行的簡單查詢也不能滿足終端用戶分析的要求。用戶的決策分析需要對關(guān)系數(shù)據(jù)庫進行大量計算才能得到結(jié)用戶的決策分析需要對關(guān)系數(shù)據(jù)庫進行大量計算才能得到結(jié)果,而查詢的結(jié)果并不能滿足決策者提出的需求。因此,果,而查詢的結(jié)果并不能滿足決策者提出的需求。因此,E.F.Codd提出了多維數(shù)據(jù)庫和多維分析的概念,即提出了多維數(shù)據(jù)庫和多維分析的概念,即OLAP。n OLAP是目前是目前RDBMS不可缺少的功能,可以作為一個獨立不可缺少的功能,可以作為一個獨立的的OLAP服務(wù)器實現(xiàn),也可以集成在服務(wù)器實現(xiàn),也可以集成在RDBMS中。中。什么是什么是OLAPOLAP

3、?n定義定義1 :OLAP(聯(lián)機分析處理聯(lián)機分析處理)是針對特定問題的聯(lián)機數(shù)據(jù)訪是針對特定問題的聯(lián)機數(shù)據(jù)訪問和分析。通過對信息問和分析。通過對信息(維數(shù)據(jù)維數(shù)據(jù))的多種可能的觀察形式進行快的多種可能的觀察形式進行快速、穩(wěn)定一致和交互性的存取,允許管理決策人員對數(shù)據(jù)進行速、穩(wěn)定一致和交互性的存取,允許管理決策人員對數(shù)據(jù)進行深入觀察。深入觀察。n定義定義2 :OLAP(聯(lián)機分析處理聯(lián)機分析處理) 是使分析人員、管理人員或執(zhí)是使分析人員、管理人員或執(zhí)行人員能夠從多種角度對從原始數(shù)據(jù)中轉(zhuǎn)化出來的、能夠真正行人員能夠從多種角度對從原始數(shù)據(jù)中轉(zhuǎn)化出來的、能夠真正為用戶所理解的、并真實反映企業(yè)維特性的信息進

4、行快速、一為用戶所理解的、并真實反映企業(yè)維特性的信息進行快速、一致、交互地存取,從而獲得對數(shù)據(jù)的更深入了解的一類軟件技致、交互地存取,從而獲得對數(shù)據(jù)的更深入了解的一類軟件技術(shù)。術(shù)。(OLAP委員會的定義委員會的定義)nOLAP的目標(biāo)的目標(biāo)是滿足決策支持或多維環(huán)境特定的查詢和報表需是滿足決策支持或多維環(huán)境特定的查詢和報表需求,它的技術(shù)核心是求,它的技術(shù)核心是“維維”這個概念,因此這個概念,因此OLAP也可以說是也可以說是多維數(shù)據(jù)分析工具的集合。多維數(shù)據(jù)分析工具的集合。OLAPOLAP決策分析決策分析nOLAPOLAP分析屬于驗證驅(qū)動型發(fā)現(xiàn):用戶首先提出分析屬于驗證驅(qū)動型發(fā)現(xiàn):用戶首先提出自己的假

5、設(shè),然后利用自己的假設(shè),然后利用OLAPOLAP工具檢索查詢以驗工具檢索查詢以驗證或否定假設(shè)。證或否定假設(shè)。OLAPOLAP的數(shù)據(jù)源的數(shù)據(jù)源OLTP & LegacyERPFlat FilesData Warehouses,Data Marts, ODSSpreadsheetsOLAPOLAP基本概念基本概念n維:維:是人們觀察數(shù)據(jù)的特定角度,是是人們觀察數(shù)據(jù)的特定角度,是考慮問題時的一類屬性考慮問題時的一類屬性 ( (時間維、地時間維、地理維等理維等) )。n維的層次:維的層次:人們觀察數(shù)據(jù)的某個特定人們觀察數(shù)據(jù)的某個特定角度角度( (即某個維即某個維) )還可以存在細(xì)節(jié)程度還可以存

6、在細(xì)節(jié)程度不同的各個描述方面不同的各個描述方面( (時間維:日期、時間維:日期、月份、季度、年月份、季度、年) )。n維的成員:維的成員:維的一個取值。是數(shù)據(jù)項維的一個取值。是數(shù)據(jù)項在某維中位置的描述。在某維中位置的描述。(“(“某年某月某某年某月某日日”是在時間維上位置的描述是在時間維上位置的描述) )n多維數(shù)組:多維數(shù)組:維和變量的組合表示。一維和變量的組合表示。一個多維數(shù)組可以表示為:個多維數(shù)組可以表示為:( (維維1 1,維,維2 2,維,維n n,變量,變量) )。( (時間,地區(qū),時間,地區(qū),產(chǎn)品,銷售額產(chǎn)品,銷售額) )n數(shù)據(jù)單元數(shù)據(jù)單元( (單元格單元格) ):多維數(shù)組的取值。

7、多維數(shù)組的取值。(2000(2000年年1 1月,上海,筆記本電腦,月,上海,筆記本電腦,$100000)$100000)產(chǎn) 品時 間財 務(wù) 指 標(biāo)進 口 煙國 產(chǎn) 煙收 入開 銷Q1 Q 2 Q 3 Q4卷 煙 銷 售 分 析OLAPOLAP特性特性n快速性:用戶對OLAP的快速反應(yīng)能力有很高的要求。系統(tǒng)應(yīng)能在5秒內(nèi)對用戶的大部分分析要求做出反應(yīng)??蛻?服務(wù)器體系結(jié)構(gòu)兩層或三層C/S結(jié)構(gòu)。n可分析性:OLAP系統(tǒng)應(yīng)能處理與應(yīng)用有關(guān)的任何邏輯分析和統(tǒng)計分析。n多維性:多維性是OLAP的關(guān)鍵屬性。系統(tǒng)必須提供對數(shù)據(jù)的多維視圖和分析,包括對層次維和多重層次維的完全支持。n信息性:不論數(shù)據(jù)量有多大,

8、也不管數(shù)據(jù)存儲在何處,OLAP系統(tǒng)應(yīng)能及時獲得信息,并且管理大容量信息。OLAP多維數(shù)據(jù)結(jié)構(gòu)多維數(shù)據(jù)結(jié)構(gòu)n超立方結(jié)構(gòu)超立方結(jié)構(gòu)(Hypercube)(Hypercube) 多維數(shù)據(jù)集多維數(shù)據(jù)集n立方體或超立方結(jié)構(gòu)指用三維或更多的維數(shù)來立方體或超立方結(jié)構(gòu)指用三維或更多的維數(shù)來描述一個對象描述一個對象, ,每個維彼此垂直。每個維彼此垂直。n數(shù)據(jù)的測量值發(fā)生在維的交叉點上數(shù)據(jù)的測量值發(fā)生在維的交叉點上, ,數(shù)據(jù)空間的數(shù)據(jù)空間的各個部分都有相同的維屬性各個部分都有相同的維屬性 ( (收縮超立方結(jié)構(gòu),收縮超立方結(jié)構(gòu),這種結(jié)構(gòu)的數(shù)據(jù)密度更大這種結(jié)構(gòu)的數(shù)據(jù)密度更大, ,數(shù)據(jù)的維數(shù)更少數(shù)據(jù)的維數(shù)更少, ,并并

9、可加入額外的分析維可加入額外的分析維) )。 客戶種類數(shù)量分布多維立方客戶種類數(shù)量分布多維立方 OLAP操作操作nCoddCodd從可視化角度提出,主要基于統(tǒng)計的方法:從可視化角度提出,主要基于統(tǒng)計的方法:n切片和切塊切片和切塊(Slice and Dice(Slice and Dice) )n在多維數(shù)據(jù)結(jié)構(gòu)中,按二維進行切片,按三維進行切塊,可得到所需要的數(shù)據(jù)。如在“城市、產(chǎn)品、時間”三維立方體中進行切塊和切片,可得到各城市、各產(chǎn)品的銷售情況。n鉆取鉆取(Drill) (Drill) n鉆取包含向下鉆取(Drill-down)和向上鉆取(Drill-up)/上卷(Roll-up)操作,鉆取的

10、深度與維所劃分的層次相對應(yīng)。 n 旋轉(zhuǎn)旋轉(zhuǎn)(Rotate)/(Rotate)/旋轉(zhuǎn)旋轉(zhuǎn)(Pivot)(Pivot)n通過旋轉(zhuǎn)可以得到不同視角的數(shù)據(jù)。n輔之于各種圖形展示分析結(jié)果輔之于各種圖形展示分析結(jié)果 切片、切塊切片、切塊銷售數(shù)據(jù)的銷售數(shù)據(jù)的4-D表示表示 Dicing ExampleDicing:FilteringbyAUS1+AUS2andWholesaleSlicing ExampleSlicing:FilteringbyAUS2Web數(shù)據(jù)的多維分析數(shù)據(jù)的多維分析鉆取鉆取數(shù)據(jù)聚集旋轉(zhuǎn)旋轉(zhuǎn)時間產(chǎn)品財務(wù)指標(biāo)財務(wù)指標(biāo)產(chǎn)品時間pivotDrill-across:Distributionfirs

11、t,SalesOrg.second按城市的銷售數(shù)據(jù)按城市的銷售數(shù)據(jù)按產(chǎn)品的銷售數(shù)據(jù)按產(chǎn)品的銷售數(shù)據(jù)國際體育用品公司的數(shù)據(jù)分析(國際體育用品公司的數(shù)據(jù)分析(1)IBM Visual Warehouse V3.1 Lotus Approach或或Microsoft Access Intelligent Miner for data/text 國際體育用品公司的數(shù)據(jù)分析(國際體育用品公司的數(shù)據(jù)分析(2)按地區(qū)劃分的頭盔銷售數(shù)據(jù)按地區(qū)劃分的頭盔銷售數(shù)據(jù)按地區(qū)和國家劃分的頭盔銷售數(shù)據(jù)按地區(qū)和國家劃分的頭盔銷售數(shù)據(jù) 國際體育用品公司的數(shù)據(jù)分析(國際體育用品公司的數(shù)據(jù)分析(3)按地區(qū)、國家和城市劃分的頭盔銷

12、售數(shù)據(jù)按地區(qū)、國家和城市劃分的頭盔銷售數(shù)據(jù) 山地車和頭盔銷售的比較山地車和頭盔銷售的比較Brio Enterprise豐富的鉆取功能豐富的鉆取功能 圖4.5 Cognos的鉆取操作IBM Cognos的鉆取操作 OLAPOLAP分類分類按照存儲方式按照存儲方式OLAPMOLAPHOLAPROLAP按照處理地點按照處理地點Client OLAPServer OLAPRelational databaseCubeMicrosoft SQL Server OLAP ServiceROLAPMOLAPHOLAP基于關(guān)系數(shù)據(jù)庫的基于關(guān)系數(shù)據(jù)庫的OLAPROLAPn用關(guān)系表達(dá)式描述多維概念大量的關(guān)系表。用

13、關(guān)系表達(dá)式描述多維概念大量的關(guān)系表。n用星型模型、雪花模型構(gòu)造維模型。用星型模型、雪花模型構(gòu)造維模型。DBDW基礎(chǔ)數(shù)據(jù)基礎(chǔ)數(shù)據(jù)元數(shù)據(jù)元數(shù)據(jù)計算結(jié)果計算結(jié)果多維綜合引多維綜合引擎擎多維多維視圖視圖SQL存取存取多維多維存取存取RDBMS服務(wù)器服務(wù)器關(guān)系型關(guān)系型OLAP 服務(wù)器服務(wù)器 客戶客戶MOLAPMOLAP的多維立方體的多維立方體(Multicube)(Multicube)DBDW多維視圖多維視圖 基礎(chǔ)數(shù)據(jù)基礎(chǔ)數(shù)據(jù) 計算結(jié)果計算結(jié)果多維數(shù)據(jù)多維數(shù)據(jù)庫引擎庫引擎客戶客戶多維多維存取存取基于多維數(shù)據(jù)庫基于多維數(shù)據(jù)庫(MDDB)的的OLAPMOLAPOLAP服務(wù)器:存儲服務(wù)器:存儲OLAP服務(wù)軟件

14、和多維數(shù)據(jù)庫服務(wù)軟件和多維數(shù)據(jù)庫MDDB存儲:采用存儲:采用“超立方超立方體體”形式形式MDDB存取存?。憾嗑S操作:多維操作數(shù)據(jù)組織形式數(shù)據(jù)組織形式nRDB數(shù)據(jù)組織 - MDDB數(shù)據(jù)組織 - 關(guān)系表中綜合數(shù)據(jù)的存放 n多維數(shù)據(jù)庫中綜合數(shù)據(jù)的存放 產(chǎn)品名稱地區(qū)銷售量冰箱東北50冰箱西北60冰箱華北100彩電東北40彩電西北70彩電華北80空調(diào)東北90空調(diào)西北120空調(diào)華北140 東北西北華北冰箱5060100彩電407080空調(diào)90120140產(chǎn)品名稱地區(qū)銷售量冰箱東北50冰箱西北60冰箱華北100冰箱總和210彩電東北40彩電西北70彩電華北80彩電總和190空調(diào)東北90空調(diào)西北120空調(diào)華北

15、140空調(diào)總和350總和東北180總和西北250總和華北320總和總和750 東北西北華北總和冰箱5060100210彩電407080190空調(diào)90120140350總和180250320750ROLAP與與MOLAP比較比較n在MOLAP中,不但把多維實視圖在概念上看成一個超立方體,而且在物理上把多維實視圖組成一個多維數(shù)組,而不象ROLAP以表的形式存儲實視圖。n在MOLAP中,維的屬性值被映射成多維數(shù)組的下標(biāo)值或下標(biāo)的范圍,而總數(shù)據(jù)作為多維數(shù)組的值存儲在數(shù)據(jù)的單元中。nROLAP在節(jié)省存儲空間、靈活性、與關(guān)系數(shù)據(jù)庫保持一致性等方面有明顯的優(yōu)勢; MOLAP則在性能和管理的簡便性方面有其優(yōu)點。nMOLAP的查詢速度比較快,但有下面限制:n用多維數(shù)組實現(xiàn)多維實視圖,需要很大的存儲空間。在實際的數(shù)據(jù)倉庫中,每維的屬性值個數(shù)可能數(shù)萬。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論