版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
數(shù)據(jù)庫系統(tǒng)專題
AdvancedTopicsonDatabaseSystems第五章決策支持數(shù)據(jù)庫第五章決策支持數(shù)據(jù)庫5.1數(shù)據(jù)倉庫(DataWarehouse)5.2在線分析處理(OLAP)5.3數(shù)據(jù)挖掘(DataMining)數(shù)據(jù)庫專題講義5.1數(shù)據(jù)倉庫5.1.1數(shù)據(jù)庫與數(shù)據(jù)倉庫5.1.2數(shù)據(jù)倉庫概念5.1.3數(shù)據(jù)倉庫體系結(jié)構(gòu)5.1.4數(shù)據(jù)倉庫的數(shù)據(jù)模型5.1.5實例化視圖數(shù)據(jù)庫專題講義5.1.1數(shù)據(jù)庫與數(shù)據(jù)倉庫傳統(tǒng)數(shù)據(jù)庫應(yīng)用:事務(wù)處理(操作型數(shù)據(jù))以數(shù)據(jù)為中心,進行事務(wù)處理,即對數(shù)據(jù)庫進行日常操作型處理,對一個或一組記錄進行查詢和更新,人們最關(guān)心的是響應(yīng)時間、數(shù)據(jù)安全性和完整性新型應(yīng)用:分析型處理(分析型數(shù)據(jù))面向管理人員的決策分析,經(jīng)常訪問大量的歷史數(shù)據(jù),對數(shù)據(jù)庫進行非常復(fù)雜的分析查詢,最關(guān)心的不是響應(yīng)時間,而是分析結(jié)果。例如,一次質(zhì)量事故的分析原因數(shù)據(jù)庫專題講義操作型數(shù)據(jù)與分析型數(shù)據(jù)的比較操作型數(shù)據(jù)細節(jié)性可更新操作需求事先可知對性能要求高事務(wù)驅(qū)動面向應(yīng)用一次操作數(shù)據(jù)量小支持日常操作分析型數(shù)據(jù)綜合性只讀操作需求實現(xiàn)不知道對性能要求寬松分析驅(qū)動面向分析一次操作數(shù)據(jù)量大支持管理需求數(shù)據(jù)庫專題講義事務(wù)處理環(huán)境不適合分析應(yīng)用
事務(wù)處理與分析處理的性能特性不同分析應(yīng)用程序可能要運行幾個小時,消耗大量的系統(tǒng)資源數(shù)據(jù)集成問題分析應(yīng)用需要集成的數(shù)據(jù),全面而正確的應(yīng)用是有效分析和決策的首要前提,相關(guān)數(shù)據(jù)收集的越完整,得到的結(jié)果越可靠事務(wù)處理應(yīng)用的分散。分析應(yīng)用需要對分散在多個事務(wù)處理應(yīng)用中的相關(guān)數(shù)據(jù)進行集成,以向分析人員提供統(tǒng)一的視圖數(shù)據(jù)不一致問題。數(shù)據(jù)應(yīng)用的分散可能導(dǎo)致多個應(yīng)用間相關(guān)數(shù)據(jù)的不一致,嚴重影響分析結(jié)果的正確性外部數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)。分析應(yīng)用經(jīng)常用到外部數(shù)據(jù),它不是由事務(wù)處理系統(tǒng)產(chǎn)生的,且是非結(jié)構(gòu)化的數(shù)據(jù)庫專題講義事務(wù)處理環(huán)境不適合分析應(yīng)用
數(shù)據(jù)動態(tài)集成分析應(yīng)用需要數(shù)據(jù)的動態(tài)集成。每次分析都進行數(shù)據(jù)集成代價太大,但靜態(tài)集成不能將變化的信息反映給決策者,數(shù)據(jù)的刷新應(yīng)該是周期性的。事務(wù)處理系統(tǒng)不具備動態(tài)集成能力
歷史數(shù)據(jù)問題事務(wù)處理一般只需要當前數(shù)據(jù),只存儲短期數(shù)據(jù)。分析應(yīng)用必須以大量的歷史數(shù)據(jù)為依托數(shù)據(jù)的綜合問題在事務(wù)處理系統(tǒng)中積累了大量的細節(jié)數(shù)據(jù)細節(jié)數(shù)據(jù)量很大,嚴重影響分析效率過多的細節(jié)數(shù)據(jù)不利于分析分析前應(yīng)對細節(jié)數(shù)據(jù)進行不同程度的綜合數(shù)據(jù)庫專題講義5.1.2數(shù)據(jù)倉庫概念數(shù)據(jù)倉庫是作為DSS服務(wù)基礎(chǔ)的分析型DB,用來存放大容量的只讀數(shù)據(jù),為決策提供信息數(shù)據(jù)倉庫是與操作型數(shù)據(jù)相分離的、基于標準企業(yè)模型集成的、帶有時間屬性的(即與企業(yè)定義的時間區(qū)段相關(guān))、面向主題及不可更新的數(shù)據(jù)集合數(shù)據(jù)倉庫是一個更好地支持企業(yè)或組織的決策分析處理的、面向主題的、集成的、不可更新的、集成的、隨時間不斷變化的數(shù)據(jù)集合。數(shù)據(jù)庫專題講義主題與面向主題主題是指在較高層次上將企業(yè)信息系統(tǒng)中的數(shù)據(jù)綜合、歸類并進行分析利用的抽象面向主題是指在較高層次上對分析對象的數(shù)據(jù)的一個完整的、一致的描述,能完整統(tǒng)一地刻畫各個分析對象所涉及的各項數(shù)據(jù),以及數(shù)據(jù)之間的聯(lián)系。數(shù)據(jù)庫專題講義OLTP數(shù)據(jù)組織方式采購子系統(tǒng)定單定單細節(jié)供應(yīng)商銷售子系統(tǒng)顧客銷售庫存管理子系統(tǒng)領(lǐng)料單進料單庫存庫房人事管理子系統(tǒng)員工部門數(shù)據(jù)庫專題講義OLTP數(shù)據(jù)組織方式OLTP數(shù)據(jù)組織是面向應(yīng)用的
OLTP數(shù)據(jù)組織反映一個企業(yè)內(nèi)數(shù)據(jù)的動態(tài)特征,包括部門內(nèi)數(shù)據(jù)流動以及部門間數(shù)據(jù)輸入輸出關(guān)系面向應(yīng)用的數(shù)據(jù)庫模式與業(yè)務(wù)處理流程中涉及的文檔有很好的對應(yīng)關(guān)系面向應(yīng)用的數(shù)據(jù)組織沒有實現(xiàn)數(shù)據(jù)與應(yīng)用的分離,其抽象程度不高。數(shù)據(jù)庫專題講義OLAP數(shù)據(jù)組織方式商品商品固有信息商品采購信息商品銷售信息商品庫存信息供應(yīng)商供應(yīng)商固有信息供應(yīng)商品信息顧客顧客固有信息顧客購物信息數(shù)據(jù)庫專題講義OLAP數(shù)據(jù)組織方式在數(shù)據(jù)倉庫中一個主題是由一組關(guān)系來實現(xiàn)的,但數(shù)據(jù)倉庫中的數(shù)據(jù)不再是業(yè)務(wù)處理的流水帳,例如在商品主題中就不再包含訂單與領(lǐng)料單等信息每個主題中的信息應(yīng)該保持獨立性,一個主題中的信息可以與其它主題中的信息重復(fù),它必須具有獨立的內(nèi)涵,有明確的界限每個主題中的信息必須具有完備性,一個主題要求包含與該主題有關(guān)的所有分析處理用數(shù)據(jù)信息數(shù)據(jù)庫專題講義數(shù)據(jù)倉庫的特征
面向主題數(shù)據(jù)倉庫的數(shù)據(jù)是集成的解決數(shù)據(jù)一致性進行數(shù)據(jù)綜合和計算數(shù)據(jù)倉庫的數(shù)據(jù)是不可更新的許多數(shù)據(jù)庫技術(shù)難點在數(shù)據(jù)倉庫中可以省去復(fù)雜查詢與復(fù)雜索引技術(shù)數(shù)據(jù)庫專題講義數(shù)據(jù)倉庫的特征
數(shù)據(jù)倉庫的數(shù)據(jù)是隨時間不斷變化的數(shù)據(jù)倉庫隨時間變化不斷增加新的數(shù)據(jù)內(nèi)容數(shù)據(jù)倉庫隨時間變化不斷刪除舊的數(shù)據(jù)內(nèi)容數(shù)據(jù)倉庫中包含有大量綜合數(shù)據(jù)數(shù)據(jù)庫專題講義數(shù)據(jù)倉庫與數(shù)據(jù)庫相分離:why性能需要特殊的數(shù)據(jù)組織、存取方法和實現(xiàn)方法來支持多維視圖和典型的OLAP操作復(fù)雜的OLAP查詢將降低操作型事務(wù)的性能OLTP的并發(fā)控制和恢復(fù)與OLAP分析不兼容數(shù)據(jù)庫專題講義數(shù)據(jù)倉庫與數(shù)據(jù)庫相分離:why功能數(shù)據(jù)丟失:決策分析需要歷史數(shù)據(jù)但操作型數(shù)據(jù)庫典型地并不維護這種數(shù)據(jù)數(shù)據(jù)聚合:決策分析需要數(shù)據(jù)聚合,這種數(shù)據(jù)聚合在操作型數(shù)據(jù)庫中是冗余數(shù)據(jù)數(shù)據(jù)質(zhì)量:不同的數(shù)據(jù)源可能使用不一致的數(shù)據(jù)表示、編碼和格式
數(shù)據(jù)庫專題講義5.1.3數(shù)據(jù)倉庫體系結(jié)構(gòu)Monitor&IntegratorDataWarehouseExtractTransformLoadRefreshmetadataOLAPServerAnalysisQueryReportsDataminingDataSourcesToolsServeDataMartsOperational
DBsothersources數(shù)據(jù)庫專題講義數(shù)據(jù)源數(shù)據(jù)源通常是操作型系統(tǒng),提供最底層數(shù)據(jù)一般數(shù)據(jù)源是為操作型使用而設(shè)計的,不為決策分析設(shè)計的數(shù)據(jù)源通常是運行在不同的硬件平臺和軟件系統(tǒng)之上數(shù)據(jù)源之間存在語義沖突數(shù)據(jù)庫專題講義數(shù)據(jù)抽取:從外部源數(shù)據(jù)抽取數(shù)據(jù)通常通過網(wǎng)關(guān)和標準接口來實現(xiàn)數(shù)據(jù)清洗:清洗的必要性,如不一致的域長,不一致的描述、值分配等數(shù)據(jù)裝入:檢查一致性約束、排序、概括、聚集、導(dǎo)出表的計算,建立索引和其它存取路徑,分片到各個存儲區(qū)。數(shù)據(jù)庫專題講義數(shù)據(jù)刷新:根據(jù)數(shù)據(jù)源的變化來修改數(shù)據(jù)倉庫中的數(shù)據(jù)刷新時間周期地或隨時地刷新方式數(shù)據(jù)移動:使用觸發(fā)器來修改快照日志表,并將修改后的數(shù)據(jù)傳送到數(shù)據(jù)倉庫中事務(wù)移動:將事務(wù)日志中的數(shù)據(jù)修改發(fā)送到數(shù)據(jù)倉庫中數(shù)據(jù)庫專題講義監(jiān)控器檢測數(shù)據(jù)源的變化定義觸發(fā)器檢查日志文件中的修改對于遺產(chǎn)系統(tǒng)要編寫額外的程序?qū)?shù)據(jù)源的變化傳送給集成器數(shù)據(jù)庫專題講義集成器接受來自監(jiān)控器的變化使得數(shù)據(jù)與數(shù)據(jù)倉庫概念模式一致將數(shù)據(jù)變化集成到數(shù)據(jù)倉庫中與現(xiàn)有數(shù)據(jù)進行合并解決可能的修改異常數(shù)據(jù)庫專題講義元數(shù)據(jù)源數(shù)據(jù)庫和內(nèi)容gateway描述數(shù)據(jù)倉庫模式、視圖、導(dǎo)出數(shù)據(jù)定義維定義和維層次預(yù)定義查詢數(shù)據(jù)集市的位置和內(nèi)容數(shù)據(jù)分片數(shù)據(jù)抽取、清洗和轉(zhuǎn)換規(guī)格數(shù)據(jù)刷新規(guī)則安全:用戶授權(quán)、存取控制數(shù)據(jù)庫專題講義數(shù)據(jù)集市數(shù)據(jù)集市是企業(yè)內(nèi)部部門級數(shù)據(jù)倉庫的、小型的、面向部門或工作組的數(shù)據(jù)倉庫。數(shù)據(jù)集市的作用自下而上地進行數(shù)據(jù)倉庫的構(gòu)建自上而下建立面向部門級的數(shù)據(jù)分析集數(shù)據(jù)庫專題講義自下而上的數(shù)據(jù)倉庫構(gòu)建采購子系統(tǒng)銷售子系統(tǒng)庫存子系統(tǒng)人事管理子系統(tǒng)財務(wù)子系統(tǒng)全局數(shù)據(jù)倉庫數(shù)據(jù)抽取數(shù)據(jù)在抽取與集成數(shù)據(jù)集市數(shù)據(jù)庫專題講義自上而下建立面向部門級的數(shù)據(jù)分析集采購子系統(tǒng)銷售子系統(tǒng)庫存子系統(tǒng)人事管理子系統(tǒng)財務(wù)子系統(tǒng)全局數(shù)據(jù)倉庫數(shù)據(jù)抽取數(shù)據(jù)在抽取與集成數(shù)據(jù)集市分析應(yīng)用數(shù)據(jù)庫專題講義一個典型數(shù)據(jù)倉庫數(shù)據(jù)組織數(shù)據(jù)倉庫1主題組主題1細節(jié)表組匯總表組主題2……數(shù)據(jù)集市組集市1集市2……數(shù)據(jù)倉庫2……數(shù)據(jù)倉庫n元數(shù)據(jù)倉數(shù)據(jù)庫專題講義5.1.4數(shù)據(jù)倉庫的數(shù)據(jù)模型星型模式:一個事實表連接多個維表雪花模式:星型模式的一種提煉,一個維表可以是一個維層次星座模式:多個事實表共享維表數(shù)據(jù)庫專題講義星型模式DateMonthYearDateCustIdCustNameCustCityCustCountryCustSalesFactTableDateProductStoreCustomerunit_salesdollar_salesYen_salesMeasurementsProductNoProdNameProdDescCategoryQOHProductStoreIDCityStateCountryRegionStore數(shù)據(jù)庫專題講義雪花模式DateMonthDateCustIdCustNameCustCityCustCountryCustSalesFactTableDateProductStoreCustomerunit_salesdollar_sales
Yen_salesMeasurementsProductNoProdNameProdDescCategoryQOHProductMonthYearMonthYearYearCityStateCityCountryRegionCountryStateCountryStateStoreIDCityStore數(shù)據(jù)庫專題講義查詢模型:star-net
ShippingMethodAIR-EXPRESSTRUCKORDERCustomerOrdersCONTRACTSCustomerProductPRODUCTGROUPPRODUCTLINEPRODUCTITEMSALESPERSONDISTRICTDIVISIONOrganizationPromotionDISTRICTREGIONCOUNTRYGeographyDAILYQTRLYANNUALYTime數(shù)據(jù)庫專題講義匯總表數(shù)據(jù)倉庫中可以存儲一些匯總表匯總數(shù)據(jù)可以作為獨立的事實表存儲并共享相同的維表在事實表和維表中匯總數(shù)據(jù)可以進行編碼數(shù)據(jù)庫專題講義5.2在線分析處理(OLAP)5.2.1OLAP基本概念5.2.2數(shù)據(jù)立方5.2.3
OLAP索引技術(shù)數(shù)據(jù)庫專題講義5.2.1OLAP基本概念OLTP數(shù)據(jù)原始數(shù)據(jù)細節(jié)性數(shù)據(jù)當前值數(shù)據(jù)可更新一次處理數(shù)據(jù)量小面向應(yīng)用事務(wù)驅(qū)動面向操作人員,支持日常操作OLAP數(shù)據(jù)導(dǎo)出數(shù)據(jù)綜合性或提煉性數(shù)據(jù)歷史數(shù)據(jù)不可更新,但周期性刷新一次處理數(shù)據(jù)量大面向分析,分析驅(qū)動面向決策人員,支持管理需要數(shù)據(jù)庫專題講義OLAP功能給出數(shù)據(jù)倉庫中數(shù)據(jù)的多維的邏輯視圖通常包含交互式查詢和對數(shù)據(jù)的分析。交互式有多種方法,包括細剖(drills-down)和統(tǒng)攬(roll-up)提供分析的建模功能,包括可以產(chǎn)生比率、變量的計算引擎,有關(guān)的度量,或跨多維的數(shù)字數(shù)據(jù)生成概括數(shù)據(jù)和聚集、層次,以及在每一維的交叉點上對聚集和概括級別的審計數(shù)據(jù)庫專題講義OLAP功能支持功能模型一進行預(yù)測、趨勢分析和統(tǒng)計分析檢索并顯示二維或三維表格、圖表和圖形中的數(shù)據(jù),并且能容易地變換基準軸極快得響應(yīng)查詢具有多維數(shù)據(jù)存儲引擎,按陣列存儲數(shù)據(jù),這些陣列是商業(yè)維的邏輯表示數(shù)據(jù)庫專題講義6.2.2數(shù)據(jù)立方數(shù)據(jù)立方將頻繁涉及聚集函數(shù)等費時計算的數(shù)據(jù)存儲在多維數(shù)據(jù)庫中,用來服務(wù)于決策支持、數(shù)據(jù)挖掘等應(yīng)用CUBE是一個操作算子,用于支持OLAP數(shù)據(jù)庫中的多聚合運算。它是GROUP-BY算子的N-維推廣(GENERALIZATION).CUBE計算屬性列表中所有屬性的可能組合的GROUP-Bys數(shù)據(jù)庫專題講義6.2.2數(shù)據(jù)立方selectdate,product,customer,sum(amount)fromsalescubebydate,product,customer(date,product,customer),(date,product),(date,customer),(product,customer),(date),(product),(customer),ALL數(shù)據(jù)庫專題講義銷售數(shù)據(jù)立方DateProductCountryAll,All,Allsumsum
TVVCRPC1Qtr2Qtr3Qtr4QtrChinaIndiaJapansumTotalannualsalesofTVinChina.數(shù)據(jù)庫專題講義數(shù)據(jù)立方上的操作切片(Slicing):在多維數(shù)組的某一維i上給定一個維值,所得的多維數(shù)組的子集,稱為在維i上的一個切片。如,選定5月,則得到銷售渠道與地區(qū)在5月的銷售情況數(shù)據(jù)ProductDatemarketProductmProduct1Product2Productm-1marketDateDate1DatepProductmarket數(shù)據(jù)庫專題講義數(shù)據(jù)立方上的操作切塊(Dicing):在多維數(shù)組的某一維i上給定一個維值的區(qū)間,所得的多維數(shù)據(jù)的子立方
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度租賃房屋押金管理及退還合同2篇
- 2025年度房產(chǎn)評估居間服務(wù)合同范本
- 個性化2024合作辦學合同書標準格式范本版B版
- 2025年水電站股份轉(zhuǎn)讓與電力系統(tǒng)優(yōu)化設(shè)計合同3篇
- 2025年度旅游服務(wù)合同履約保證書4篇
- 二零二五年度玻璃幕墻玻璃環(huán)保性能改進合同3篇
- 2025年度零擔運輸貨物包裝標準合同4篇
- 2025年度綠色生態(tài)社區(qū)綠化養(yǎng)護項目合同范本3篇
- 二零二五年度窗簾布產(chǎn)品售后服務(wù)與客戶滿意度提升合同3篇
- 2025年環(huán)保設(shè)備銷售業(yè)績提成合同范本3篇
- 2024年高標準農(nóng)田建設(shè)土地承包服務(wù)協(xié)議3篇
- 閱讀理解(專項訓(xùn)練)-2024-2025學年湘少版英語六年級上冊
- 2024-2025學年人教版數(shù)學六年級上冊 期末綜合試卷(含答案)
- 無創(chuàng)通氣基本模式
- 飛行原理(第二版) 課件 第4章 飛機的平衡、穩(wěn)定性和操縱性
- 2024年全國統(tǒng)一高考英語試卷(新課標Ⅰ卷)含答案
- 2024年認證行業(yè)法律法規(guī)及認證基礎(chǔ)知識 CCAA年度確認 試題與答案
- 礦山年中期開采重點規(guī)劃
- 資源庫建設(shè)項目技術(shù)規(guī)范匯編0716印刷版
- GC2級壓力管道安裝質(zhì)量保證體系文件編寫提綱
- 預(yù)應(yīng)力混凝土簡支小箱梁大作業(yè)計算書
評論
0/150
提交評論