OLAP聯(lián)機分析處理入門培訓_第1頁
OLAP聯(lián)機分析處理入門培訓_第2頁
OLAP聯(lián)機分析處理入門培訓_第3頁
OLAP聯(lián)機分析處理入門培訓_第4頁
OLAP聯(lián)機分析處理入門培訓_第5頁
已閱讀5頁,還剩51頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

聯(lián)機分析處理(OLAP)培訓

講師:楚東哲系統(tǒng)技術處一、OLAP的概念與提出二、OLAP多維數(shù)據(jù)模型三、OLAP的分類四、OLAP的簡單實現(xiàn)五、OLAP的十二準那么什么是OLAP? On-LineAnalyticalProcessing,聯(lián)機分析處理,是使分析人員、管理人員或執(zhí)行人員能夠從多角度對信息進行快速、一致、交互地存取,從而獲得對數(shù)據(jù)的更深入了解的一類軟件技術。OLAP的目標是滿足決策支持或者滿足在多維環(huán)境下特定的查詢和報表需求,它的技術核心是"維"這個概念。2.OLAP的提出1993年,提出了OLAP概念,認為OLTP〔On-LineTransactionProcessing,聯(lián)機事務處理〕已不能滿足終端用戶對數(shù)據(jù)庫查詢分析的需要。決策的分析需要對關系數(shù)據(jù)庫進行大量計算才能得到結果,而簡單的查詢的結果并不能滿足決策者提出的需求。因此,提出了多維數(shù)據(jù)庫和多維分析的概念,即OLAP。OLAP概念與提出關系數(shù)據(jù)庫滿足了聯(lián)機事務處理〔OLTP〕的要求存在著大量的分析型應用——RDB無法適應應用角度:要求對大量的數(shù)據(jù)從各個角度進行綜合分析〔多維分析〕

技術角度:SQL已經(jīng)不能很好的適應分析應用需求查詢效率〔響應時間〕SQL本身的限制,尤其對時間的限制例如:用SQL查詢來按地區(qū)求出產(chǎn)品的總銷量,或按品名求出產(chǎn)品在各地區(qū)的銷量總和,就需要涉及對銷量數(shù)據(jù)庫中大局部數(shù)據(jù)記錄的檢索和處理,需要花數(shù)小時才能完成。而一個OLAP數(shù)據(jù)庫效勞器能夠在幾秒鐘內(nèi)完成這種查詢。典型分析應用:對一些統(tǒng)計指標〔銷售金額〕從不同角度〔維〕〔時間、地區(qū)、商品類型〕從不同級別〔層次〕〔地區(qū):縣、地市、省、大區(qū)〕OLAP概念與提出存取工作單位DB大小RDB讀/寫數(shù)十條記錄簡單的事務100MB-GBOLAP讀上百萬條記錄復雜的查詢100GB-TBOLAP與OLTP區(qū)別OLAP所用數(shù)據(jù)來源于OLTP數(shù)據(jù)庫

進行了預綜合和多維化處理OLAP更強調(diào)界面的可視化和靈活性

可視化:多維報表、餅圖、柱狀圖、折線圖OLAP應用舉例1.不同時間段的比較〔同期比〕各種商品本周〔本月、本年〕的銷售狀況與以往相比,有何變化?今后趨勢?2.排序和統(tǒng)計分類〔TopN和BottomN〕統(tǒng)計每天銷售量、銷售額和利潤最高的10個商場3.客戶特定的即席分析〔市場分割、即席分組的情況〕按照季度統(tǒng)計一下東北地區(qū)前四個季度的收入情況OLAP概念與提出一、OLAP的概念與提出二、OLAP多維數(shù)據(jù)模型三、OLAP的分類四、OLAP的簡單實現(xiàn)五、OLAP的十二準那么多維數(shù)據(jù)模型定義舉例組成 a.維 b.事實〔度量〕c.數(shù)據(jù)立方體

多維數(shù)據(jù)模型多維數(shù)據(jù)模型1.又稱多維概念視圖,通常用Cube表示。2.可以更加直觀的表示現(xiàn)實中的復雜關系。3.根本組成:維、度量〔變量、指標〕舉例:計算每一個商場、每種產(chǎn)品的銷售額Product關系表與多維Cube維度〔Dimension〕維層次路徑、維層次、維成員〔維實例〕、維層次屬性事實〔Fact〕度量〔measure〕數(shù)據(jù)立方體〔Cube〕數(shù)據(jù)單元〔cell〕多維數(shù)據(jù)模型的組成維:對數(shù)據(jù)進行分類的一種結構,以用于從特定的角度觀察數(shù)據(jù)。 〔例如:地區(qū)、時間、產(chǎn)品〕維的兩個用途選擇針對期望詳細程度的層次的數(shù)據(jù)分組對細節(jié)數(shù)據(jù)綜合〔聚集〕到相應的詳細程度的數(shù)據(jù)層次。維的組織方式:維層次路徑〔Hierarchy〕維層次路徑由代表不同詳細程度的維層次〔Level〕組成。維的層次:特定角度的不同細節(jié)程度。維度維層次中包含維成員〔DimensionValues〕,維成員樹1.維的一個取值〔稱為該維的一個成員),每一個維成員屬于某一個特定的維層次。 例如:時間維:三個層次,日、月、年,維成員:1999年5月20日、1999年5月、1999年。維成員是數(shù)據(jù)在該維上的位置描述 例如:1999年5月20日銷售額表示銷售額數(shù)據(jù)在時間維上的位置 〔相當于時間軸上的某一點或某一區(qū)間〕 2.不同維層次的取值的組合〔對多層次情況〕,例如:5月20日維層次屬性〔Attributes〕:維層次上的屬性描述,例如產(chǎn)品的“規(guī)格”、“顏色”、“銷地”、“產(chǎn)地”…

維度維層次關系

定義維層次的聚集和鉆取關系為什么需要維層次關系?

如果不支持層次關系,將會增加維的數(shù)目,變成非常“稀疏”的狀況。維成員屬性維成員屬性:維成員的描述屬性,維成員的“類”按一定的劃分標準對維成員全集的一個分類〔劃分〕劃分:即把全集分成了假設干子集各子集的和〔并〕集等于全集子集間的交集為空劃分標準一般是實體〔維成員〕的屬性〔特征〕,稱為類屬性。例如產(chǎn)品的“規(guī)格”、“顏色”、“產(chǎn)地”、“銷地”…一個類屬性對應一個劃分;不同類屬性,得到不同類劃分類劃分一類劃分二事實〔度量〕度量〔指標〕:數(shù)據(jù)的實際意義,一般是一個數(shù)值度量指標,例如:銷售額,銷 售量等,而具體數(shù)據(jù)〔如“10000”〕那么是變量的一個值。事實:存儲一個多維數(shù)據(jù)。表達期望分析的主題〔目的、感興趣的事情、事件或者指標等〕具有一定的粒度,粒度的大小與維層次無關一個事實中通常包含一個或多個度量一個度量的兩個組件數(shù)字型指標聚集函數(shù)

Cube按照一定維層次結構和度量〔事實〕的邏輯上的組織其邏輯上相當于一個多維數(shù)組Cube數(shù)據(jù)單元多維數(shù)組:一個多維數(shù)組表示為:〔維1,維2,...,維n,變量〕例如:〔時間、地區(qū)、銷售渠道、銷售額〕可擴展維數(shù):如〔時間、地區(qū)、銷售渠道、商品類型、銷售額〕數(shù)據(jù)單元〔單元格〕:多維數(shù)組的取值可表示為:〔維1維成員,維2維成員,...,維n維成員,變量的值〕例如:〔1997年1月,北京,批發(fā),10000〕多維分析的根本分析動作切片〔Slice〕從多維數(shù)組選定一個二維子集,切出一個“平面”切塊〔Dice〕從多維數(shù)組選定一個三維子集,切出一個“立方體”旋轉(zhuǎn)〔Pivot〕改變一個報告〔或頁面〕顯示的維方向鉆取〔Roll-up&Drill-down〕根據(jù)維層次,改變維的粒度

切片的定義定義1:在多維數(shù)組的某一維上選定一個維成員,即從n維數(shù)組選取n-1維子集,設多維數(shù)組〔維1,維2,…,維n,變量〕,在維i上,選定維成員Vi。那么:多維數(shù)組的n-1維子集〔維1,…維i-1,維成員Vi,維i+1,…,維n,變量〕為在維i上的一個切片。切塊的定義定義1:在多維數(shù)組的某一維上選定某一區(qū)間的維成員,即限制某一維的取值空間。切片是切塊的特例,即限制的取值區(qū)間只取一個維成員。切塊可看做由多個鄰接的切片迭合而成例如:多維數(shù)組〔地區(qū)、時間、產(chǎn)品、銷售額〕在時間維上選定一個區(qū)間:“1997年1月到1997年10月”得:〔地區(qū),“1997年1月到1997年10月”,產(chǎn)品,銷售額〕為一個切塊。旋轉(zhuǎn)的定義旋轉(zhuǎn):改變一個報告或頁面顯示的內(nèi)容。a.把一個橫向為時間,縱向為產(chǎn)品的報表旋轉(zhuǎn)成為橫向為產(chǎn)品縱向為時間的報表。b.把一個縱向為時間、產(chǎn)品橫向為地區(qū)的報表旋轉(zhuǎn)為縱向為產(chǎn)品橫向為時間、地區(qū)的報表。鉆取操作2009-1112345678…Sale891357798286355170105…2009/Quarter4OctoberNovemberDecemberSale3000285032502009Quarter1Quarter2Quarter3Quarter4Sale50007000800010000Year20092010Sale3000040000鉆取操作向上鉆取向下鉆取OLAP的其他操作DrillThrough〔穿透〕鉆取操作的進一步衍生,尤其對于ROLAP模式,直接得到最底層的詳細數(shù)據(jù),數(shù)據(jù)通常以關系表的形式存在。Ranking〔排序〕

對數(shù)據(jù)單元的度量取值進行排序,獲得top/bottom的假設干數(shù)據(jù)取值。一、OLAP的概念與提出二、OLAP多維數(shù)據(jù)模型三、OLAP的分類四、OLAP的簡單實現(xiàn)五、OLAP的十二準那么OLAP分類OLAP有多種實現(xiàn)方法,根據(jù)存儲數(shù)據(jù)的方式不同可以分為ROLAP、MOLAP、HOLAP按照存儲方式OLAPMOLAPHOLAPROLAP按照處理地點ClientOLAPServerOLAPROLAPROLAP〔RelationalOLAP〕表示基于關系數(shù)據(jù)庫的OLAP實現(xiàn)。以關系數(shù)據(jù)庫為核心,以關系型結構進行多維數(shù)據(jù)的表示和存儲。ROLAP將多維數(shù)據(jù)庫的多維結構劃分為兩類表:事實表:用來存儲數(shù)據(jù)和維關鍵字;維表:對每個維至少使用一個表來存放維的層次、成員類別等信息。事實表和維表通過主鍵和外鍵聯(lián)系在一起,形成了“星型模式”。對于層次復雜的維,可以使用多個表來描述,將“星型模式”擴展為“雪花模式”。ROLAP星形模式Time_idSalesTableDiscount%DollarsUnits"FactTable"Market_idProduct_idCustomer_idProduct_idProductTableSizeBrandProduct_Desc"DimensionTable"Time_idYearQuarterPeriod_DescPeriodTable"DimensionTable"Customer

TableNameProfitCustomer_id"DimensionTable"Market_idMarketTableRegionDistrictMarket_Desc"DimensionTable"ROLAP體系結構SQLResultSetInfo.RequestResultSetDatabaseServer

RDBMSFront-endToolROALPArchitectureROLAPServerMetadataRequestProcessingGraphicshowMOLAPMOLAP〔MultidimensionalOLAP〕表示基于多維數(shù)據(jù)組織的OLAP實現(xiàn),使用多維數(shù)組存儲數(shù)據(jù)。多維數(shù)據(jù)在存儲中將形成“立方塊〔Cube〕”的結構。在MOLAP中對"立方塊"的"旋轉(zhuǎn)"、"切塊"、"切片"是產(chǎn)生多維數(shù)據(jù)報表的主要技術。MOLAP體系結構SQLResultSetInfo.RequestResultSetLoadDatabaseServer

RDBMSFront-endToolMOALPArchitectureMOLAPServerMetadataRequestProcessingGraphicshowHOLAPHOLAP表示基于混合數(shù)據(jù)組織的OLAP實現(xiàn)〔HybridOLAP〕。底層是關系型的,高層是多維矩陣型的。這種方式具有更好的靈活性。HOLAP體系結構

ResultSetSQLQuerySQLResultSetInfo.RequestResultSetLoadDatabaseServer

RDBMSFront-endToolHybridArchitectureMOLAPServerGraphicshow一、OLAP的概念與提出二、OLAP多維數(shù)據(jù)模型三、OLAP的分類四、OLAP的簡單實現(xiàn)五、OLAP的十二準那么承德建龍2010年毛利與銷量統(tǒng)計寫入數(shù)據(jù)庫idmonthproductcompanysalespricecostprofit001142CrMo承德建龍2965397235484240021GCr15承德建龍273836873270416003155#承德建龍122434453054391004140Mn2承德建龍97535173260257005127SiMn承德建龍92633633117246006120CrTiMn承德建龍1506035853453132007145#承德建龍2047133473225122008140Cr承德建龍1548334273306120009120#承德建龍211931943206-12010242CrMo承德建龍181140013820182011237Mn2承德建龍99036413522119012335CrMo承德建龍71743383953385013342CrMo承德建龍408943323908423ROLAP實現(xiàn)方法IDTimeIDProductIDCompanyIDSalesPriceCostProductIDProduct_DesctypeTimeIDTime_DescyearquartermonthdayCompanyIDConpany_DescnameFacttableDimensiontableDimensiontableDimensiontable1.事實表為核心,把所有分析維度寫成外鍵。2.事實表中還要包括各個具體數(shù)據(jù)作為度量,但能計算推導出的數(shù)據(jù)不應包括在內(nèi)。3.每個維表除了主鍵以外,還包含了描述和分類信息。維表假設很復雜應繼續(xù)擴展成“雪花模式”。4.業(yè)務人員據(jù)此提出任何問題,都可以用SQL語句進行表連接或匯總(tablejoinandgroupby)實現(xiàn)數(shù)據(jù)查詢和解答。TimeCompanyIDProductIDSalesh01jlcdst012965h01jlcdst022738h01jlcdst031224h01jlcdst04975h01jlcdst05926h01jlcdst0615060h01jlcdst0720471h01jlcdst0815483h01jlcdst092119h02jlcdst011811h02jlcdst10990h03jlcdst014089h03jlcdst11717ROLAP實現(xiàn)方法CompanyIDNamejlcd承德建龍jljl吉林鋼鐵jlts唐山建龍ProductIDtypest0142CrMost02GCr15st0355#st0440Mn2st0527SiMnst0620CrTiMnst0745#st0840Crst0920#st1037Mn2st1135CrMoTimeIDTimeh012010-01h022010-02h032010-03MOLAP實現(xiàn)方法MOLAP首先對事實表中的所有外鍵進行排序,并將排序后的具體指標數(shù)值一一寫進虛擬的多維立方體中。當然,虛擬的多維立方體只是為了便于理解而設想的,MOLAP實際的數(shù)據(jù)存儲放在數(shù)據(jù)文件(DataFile)中,其數(shù)據(jù)放置的順序與虛擬的多維立方體按x,y,z坐標展開的順序是一致的。為了數(shù)據(jù)查找的方便,MOLAP需要預先建立維度的索引,這個索引被放置在MOLAP的概要文件(Outline)中。

概要文件是MOLAP的核心,相當于ROLAP的數(shù)據(jù)模型設計。概要文件包括所有維的定義〔包括復雜的維度結構〕以及各個層次的數(shù)據(jù)匯總關系(例如在時間維,日匯總至月,月匯總至季,季匯總至年),這些定義往往從關系型維表中直接引入即可。概要文件也包括分析指標的定義,因此可以在概要文件中包含豐富的衍生指標,這些衍生指標由根底指標計算推導出來〔例如利潤〕。MOLAP實現(xiàn)方法42CrMoGCr1555#40Mn227SiMn20CrTiMn45#40Cr20#37Mn235CrMo296529651811181140894089273812249759261506020471154832119990717承德建龍?zhí)粕浇埣咒撹F一月二月三月7174089TimeProductCompanyMOLAP實現(xiàn)方法296518114089273812249759261506020471154832119990717Product42CrMoGCr1555#Time一月二月三月一月二月三月一月二月三月Companyjlcdjltsjljljlcdjltsjljljlcdjltsjljl概要文件數(shù)據(jù)文件ROLAP&MOLAP的比較

一、OLAP的概念與提出二、OLAP多維數(shù)據(jù)模型三、OLAP的分類四、OLAP的簡單實現(xiàn)五、OLAP的十二準那么9234567181011OLAP模型的12條準那么準那么一:OLAP模型必須提供多維概念視圖從用戶分析員的角度來看,整個企業(yè)的視圖本質(zhì)上是多維的,因此OLAP的概念模型也是多維的。企業(yè)決策分析的目的不同,決定了分析和衡量企業(yè)的數(shù)據(jù)總是從不同的角度來進行的,所以企業(yè)數(shù)據(jù)空間本身就是多維的。OLAP模型的12條準那么準那么二:透明性準那么透明性準那么包括兩層含義:1.OLAP在體系結構中的位置對用戶是透明的。OLAP應處于一個真正的開放的系統(tǒng)中,允許分析工具嵌入到分析人員制定的任何位置而不影響嵌入工具的性能。同時,必須保證OLAP的嵌入不會引入和增加任何復雜性。2.OLAP的數(shù)據(jù)源對用戶也是透明的。用戶只需要使用熟悉的查詢工具查詢,而不必擔憂OLAP工具的數(shù)據(jù)來自同構還是異構的數(shù)據(jù)源。OLAP模型的12條準那么準那么三:存取能力準那么OLAP系統(tǒng)不僅能進行開放的存取,而且還提供高效的存取策略。分析員能同時對關系數(shù)據(jù)庫、非關系數(shù)據(jù)庫中的企業(yè)數(shù)據(jù)進行分析。這就要求OLAP能將自己的概念視圖映射到異構的數(shù)據(jù)存儲上,能訪問數(shù)據(jù)并執(zhí)行轉(zhuǎn)換,從而提供單一、完整、連續(xù)的用戶視圖。OLAP模型的12條準那么準那么四:穩(wěn)定的報表性能當數(shù)據(jù)維數(shù)和數(shù)據(jù)的層次增加時,提供給最終分析員的報表能力和響應速度不應該有明顯的降低和減慢,這對維護OLAP產(chǎn)品的易用性和低復雜性至關重要。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論