




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)倉庫技術(shù)與聯(lián)機(jī)分析處理
DataWarehouse&OLAP
數(shù)據(jù)倉庫技術(shù)與聯(lián)機(jī)分析處理
DataWarehouse1數(shù)據(jù)庫處理的兩大應(yīng)用聯(lián)機(jī)事務(wù)處理(OLTP)決策支持系統(tǒng)(DSS)數(shù)據(jù)庫處理的兩大應(yīng)用2數(shù)據(jù)庫處理的兩大應(yīng)用聯(lián)機(jī)事務(wù)處理(OLTP)操作型處理,為企業(yè)的特定應(yīng)用服務(wù)是對數(shù)據(jù)庫的聯(lián)機(jī)的日常操作,通常是對一個(gè)或一組記錄的查詢和修改人們關(guān)心的是響應(yīng)時(shí)間、數(shù)據(jù)的安全性和完整性決策支持系統(tǒng)(DSS)數(shù)據(jù)庫處理的兩大應(yīng)用3數(shù)據(jù)庫處理的兩大應(yīng)用聯(lián)機(jī)事務(wù)處理(OLTP)決策支持系統(tǒng)(DSS)分析型處理,用于管理人員的決策分析經(jīng)常需要訪問大量的歷史數(shù)據(jù)數(shù)據(jù)倉庫+聯(lián)機(jī)分析處理+數(shù)據(jù)挖掘(DW+OLAP+DM)→DSS數(shù)據(jù)庫處理的兩大應(yīng)用4數(shù)據(jù)倉庫是一個(gè)面向主題的、集成的、非易失的(不可修改)且隨時(shí)間變化的數(shù)據(jù)集合,用來支持管理人員的決策數(shù)據(jù)倉庫5數(shù)據(jù)倉庫的特點(diǎn)面向主題主題是在較高層次上對數(shù)據(jù)抽象面向主題的數(shù)據(jù)組織分為兩步驟抽取主題確定每個(gè)主題所包含的數(shù)據(jù)內(nèi)容每個(gè)主題在數(shù)據(jù)倉庫中都是由一組關(guān)系表實(shí)現(xiàn)的集成的數(shù)據(jù)不可更改隨時(shí)間變化的數(shù)據(jù)倉庫的特點(diǎn)6數(shù)據(jù)倉庫的特點(diǎn)——面向主題數(shù)據(jù)倉庫的特點(diǎn)——面向主題7數(shù)據(jù)倉庫的特點(diǎn)面向主題集成的數(shù)據(jù)倉庫的數(shù)據(jù)是從原有的分散數(shù)據(jù)庫數(shù)據(jù)中抽取來的消除數(shù)據(jù)表述的不一致性(數(shù)據(jù)的清洗)數(shù)據(jù)的綜合數(shù)據(jù)不可更改隨時(shí)間變化的數(shù)據(jù)倉庫的特點(diǎn)8數(shù)據(jù)倉庫的特點(diǎn)——集成數(shù)據(jù)倉庫的特點(diǎn)——集成9數(shù)據(jù)倉庫的特點(diǎn)面向主題集成的數(shù)據(jù)不可更改數(shù)據(jù)倉庫的主要數(shù)據(jù)操作是查詢、分析不進(jìn)行一般意義上的數(shù)據(jù)更新(過期數(shù)據(jù)可能被刪除)數(shù)據(jù)倉庫強(qiáng)化查詢、淡化并發(fā)控制和完整性保護(hù)等技術(shù)隨時(shí)間變化的數(shù)據(jù)倉庫的特點(diǎn)10數(shù)據(jù)倉庫的特點(diǎn)——數(shù)據(jù)不可更改數(shù)據(jù)倉庫的特點(diǎn)——數(shù)據(jù)不可更改11數(shù)據(jù)倉庫的特點(diǎn)面向主題集成的數(shù)據(jù)不可更改隨時(shí)間變化的不斷增加新的數(shù)據(jù)內(nèi)容不斷刪除舊的數(shù)據(jù)內(nèi)容定時(shí)綜合數(shù)據(jù)倉庫中數(shù)據(jù)表的鍵碼都包含時(shí)間項(xiàng),以標(biāo)明數(shù)據(jù)的歷史時(shí)期數(shù)據(jù)倉庫的特點(diǎn)12數(shù)據(jù)倉庫的特點(diǎn)——隨時(shí)間變化數(shù)據(jù)倉庫的特點(diǎn)——隨時(shí)間變化13數(shù)據(jù)倉庫的結(jié)構(gòu)OLTP系統(tǒng)RDBMSSybaseVSAMSAP/ERP5-10年過去詳細(xì)數(shù)據(jù)當(dāng)前詳細(xì)數(shù)據(jù)輕度匯總數(shù)據(jù)高度匯總數(shù)據(jù)數(shù)據(jù)集市分析型CRM業(yè)務(wù)指標(biāo)分析數(shù)據(jù)倉庫數(shù)據(jù)倉庫/決策分析系統(tǒng)EXCEL數(shù)據(jù)倉庫的結(jié)構(gòu)OLTP系統(tǒng)RDBMSVSAMSAP/ERP514數(shù)據(jù)倉庫的結(jié)構(gòu)數(shù)據(jù)由操作型環(huán)境(綜合)導(dǎo)入數(shù)據(jù)倉庫數(shù)據(jù)具有不同的細(xì)節(jié)級早期細(xì)節(jié)級(過期數(shù)據(jù))當(dāng)前細(xì)節(jié)級輕度綜合數(shù)據(jù)級(數(shù)據(jù)集市)高度綜合數(shù)據(jù)級數(shù)據(jù)倉庫的結(jié)構(gòu)15數(shù)據(jù)倉庫建立的過程數(shù)據(jù)倉庫建立的過程16粒度是指數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)的細(xì)化或綜合程度的級別粒度級越小,細(xì)節(jié)程度越高,綜合程度越低,回答查詢的種類越多粒度影響數(shù)據(jù)倉庫中數(shù)據(jù)量的大小粒度問題是設(shè)計(jì)數(shù)據(jù)倉庫的一個(gè)重要方面雙重粒度在數(shù)據(jù)倉庫的細(xì)節(jié)級上創(chuàng)建兩種粒度短期儲存的低粒度(真實(shí)檔案),滿足細(xì)節(jié)查詢具有綜合的高粒度(輕度綜合),做分析粒度17數(shù)據(jù)倉庫與聯(lián)機(jī)分析處理18數(shù)據(jù)倉庫與聯(lián)機(jī)分析處理19分割是指把數(shù)據(jù)分散到各自的物理單元中去,以便能分別獨(dú)立處理,提高數(shù)據(jù)處理效率是粒度之后的第二個(gè)主要設(shè)計(jì)問題兩個(gè)層次的分割系統(tǒng)層:DBMS,一種定義應(yīng)用層:開發(fā)者,多種定義多種分割的標(biāo)準(zhǔn)日期:最常用的地理位置組織單位…...分割20數(shù)據(jù)倉庫與聯(lián)機(jī)分析處理21數(shù)據(jù)倉庫中的數(shù)據(jù)組織形式簡單堆積輪轉(zhuǎn)綜合數(shù)據(jù)按一定的格式進(jìn)行輪轉(zhuǎn)的累加簡化直接按一定的時(shí)間間隔,對數(shù)據(jù)進(jìn)行提取,是操作型數(shù)據(jù)的一個(gè)快照連續(xù)把新的快照追加到以前的連續(xù)數(shù)據(jù)上去數(shù)據(jù)倉庫中的數(shù)據(jù)組織形式22數(shù)據(jù)倉庫中的數(shù)據(jù)組織形式簡單堆積每日由數(shù)據(jù)庫中提取并加工的數(shù)據(jù)逐天積累堆積數(shù)據(jù)倉庫中的數(shù)據(jù)組織形式23數(shù)據(jù)倉庫中的數(shù)據(jù)組織形式輪轉(zhuǎn)綜合數(shù)據(jù)按一定的格式進(jìn)行輪轉(zhuǎn)的累加數(shù)據(jù)倉庫中的數(shù)據(jù)組織形式24數(shù)據(jù)倉庫中的數(shù)據(jù)組織形式簡單堆積與輪轉(zhuǎn)綜合的比較數(shù)據(jù)倉庫中的數(shù)據(jù)組織形式25數(shù)據(jù)倉庫中的數(shù)據(jù)組織形式簡化直接按一定的時(shí)間間隔,對數(shù)據(jù)進(jìn)行提取,是操作型數(shù)據(jù)的一個(gè)快照數(shù)據(jù)倉庫中的數(shù)據(jù)組織形式26數(shù)據(jù)倉庫中的數(shù)據(jù)組織形式連續(xù)把新的快照追加到以前的連續(xù)數(shù)據(jù)上去數(shù)據(jù)倉庫中的數(shù)據(jù)組織形式27數(shù)據(jù)倉庫的數(shù)據(jù)追加數(shù)據(jù)追加數(shù)據(jù)倉庫的數(shù)據(jù)初裝完成以后,再向數(shù)據(jù)倉庫輸入數(shù)據(jù)的過程稱為數(shù)據(jù)追加變化數(shù)據(jù)的捕獲時(shí)標(biāo)法:加標(biāo)識DELTA法:對更新作記錄前后映象法:兩次快照的對比日志法:利用DBMS的日志,需改進(jìn)數(shù)據(jù)倉庫的數(shù)據(jù)追加28數(shù)據(jù)庫的體系化環(huán)境是在一個(gè)企業(yè)或組織內(nèi)部,由各面向應(yīng)用的OLTP數(shù)據(jù)庫及各級面向主題的數(shù)據(jù)倉庫所組成的完整的數(shù)據(jù)環(huán)境操作型環(huán)境、分析型環(huán)境四層體系化環(huán)境操作型環(huán)境——OLTP全局級——數(shù)據(jù)倉庫部門級——局部倉庫個(gè)人級——個(gè)人倉庫,用于啟發(fā)式的分析數(shù)據(jù)集市(DataMart)特定的、面向部門的小型數(shù)據(jù)倉庫是為滿足用戶特定需求而創(chuàng)建的數(shù)據(jù)倉庫是數(shù)據(jù)倉庫的子集數(shù)據(jù)庫的體系化環(huán)境29數(shù)據(jù)庫的體系化環(huán)境數(shù)據(jù)庫的體系化環(huán)境30數(shù)據(jù)庫的體系化環(huán)境數(shù)據(jù)庫的體系化環(huán)境31數(shù)據(jù)倉庫的開發(fā)生命周期數(shù)據(jù)倉庫的開發(fā)生命周期32數(shù)據(jù)倉庫的基本數(shù)據(jù)模式星型模式(StarSchema)事實(shí)表(facttable),存放基本數(shù)據(jù),相關(guān)主題的數(shù)據(jù)主體(BCNF)維(dimension),影響、分析主體數(shù)據(jù)的因素量(measure),事實(shí)表中的數(shù)據(jù)屬性維表(dimensiontable),表示維的各種表維是量的取值條件,維用外鍵表示以事實(shí)表為中心,加上若干維表,組成星型數(shù)據(jù)模式例:產(chǎn)品-商店-銷售額數(shù)據(jù)倉庫的基本數(shù)據(jù)模式33數(shù)據(jù)倉庫的基本數(shù)據(jù)模式CustSalesLocationSalesProdSalesTimeSalesSalestimeid<pk,fk>productid<pk,fk>locationid<pk,fk>customerid<pk,fk>salesrevenueunitssoldProductproductid<pk>makemodelTimetimeid<pk>dateyearquartermonthweekLocationlocationid<pk>regiondistrictstoreCustomercustomerid<pk>categorygroupSalesfactSalesmeasuresTimedimensionAttributesofthe
timedimension數(shù)據(jù)倉庫的基本數(shù)據(jù)模式CustSalesLocationSa34數(shù)據(jù)倉庫的基本數(shù)據(jù)模式雪花模式(SnowflakeSchema)維一般是由若干層次組成把維按其層次結(jié)構(gòu)表示成若干個(gè)表規(guī)范化、節(jié)省存儲空間但需多做連接操作數(shù)據(jù)倉庫的基本數(shù)據(jù)模式35數(shù)據(jù)倉庫的解決方案通用的關(guān)系數(shù)據(jù)庫系統(tǒng)專門的數(shù)據(jù)倉庫服務(wù)器數(shù)據(jù)倉庫的解決方案36數(shù)據(jù)倉庫系統(tǒng)的體系結(jié)構(gòu)數(shù)據(jù)倉庫層數(shù)據(jù)倉庫工具層最終用戶數(shù)據(jù)倉庫系統(tǒng)的體系結(jié)構(gòu)37數(shù)據(jù)倉庫系統(tǒng)數(shù)據(jù)倉庫居系統(tǒng)的核心地位是信息挖掘的基礎(chǔ)數(shù)據(jù)倉庫管理系統(tǒng)是整個(gè)系統(tǒng)的引擎負(fù)責(zé)管理整個(gè)系統(tǒng)的運(yùn)轉(zhuǎn)數(shù)據(jù)倉庫工具一般的查詢工具、功能強(qiáng)大的分析工具是整個(gè)系統(tǒng)發(fā)揮作用的關(guān)鍵數(shù)據(jù)倉庫系統(tǒng)38數(shù)據(jù)倉庫系統(tǒng)一個(gè)集成化的產(chǎn)品集數(shù)據(jù)倉庫系統(tǒng)一個(gè)集成化的產(chǎn)品集39數(shù)據(jù)倉庫系統(tǒng)DesignWarehouseArchitectManageSybaseASIQIntegrateInformaticaEnterpriseConnectReplicationServerPowerMartVisualizeBrioCognosAdministerWarehouseControlCenterWarehouseControlCentre數(shù)據(jù)倉庫系統(tǒng)DesignManageIntegratePow40數(shù)據(jù)分析模型早期靜態(tài)數(shù)據(jù)值的相互比較需求從多個(gè)不同的數(shù)據(jù)源中綜合數(shù)據(jù)從不同的角度觀察數(shù)據(jù)多變的主題、多維數(shù)據(jù)E-R不能完全支持?jǐn)?shù)據(jù)分析模型41四種分析模型(Codd)絕對模型靜態(tài)數(shù)據(jù)分析只能對歷史數(shù)據(jù)進(jìn)行值的比較,描述基本事實(shí)用戶交互少解釋模型思考模型公式模型四種分析模型(Codd)42四種分析模型(Codd)絕對模型解釋模型靜態(tài)數(shù)據(jù)分析在當(dāng)前多維視圖的基礎(chǔ)上找出事件發(fā)生的原因思考模型公式模型四種分析模型(Codd)43四種分析模型(Codd)絕對模型解釋模型思考模型動態(tài)數(shù)據(jù)分析多維分析在決策者的參與下,找出關(guān)鍵變量需要高級數(shù)據(jù)分析人員的介入公式模型四種分析模型(Codd)44四種分析模型(Codd)絕對模型解釋模型思考模型公式模型動態(tài)性最高的一類自動完成變量的引入工作四種分析模型(Codd)45數(shù)據(jù)倉庫系統(tǒng)的工具層查詢工具主要是對分析結(jié)果的查詢很少有對記錄級數(shù)據(jù)的查詢驗(yàn)證型工具多維分析工具用戶首先提出假設(shè),然后利用各種工具通過反復(fù)、遞歸的檢索查詢以驗(yàn)證或否定假設(shè)發(fā)掘型工具從大量數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)模式預(yù)測趨勢和行為數(shù)據(jù)倉庫系統(tǒng)的工具層46聯(lián)機(jī)分析處理——OLAP是針對特定問題的聯(lián)機(jī)訪問和分析。通過對信息的很多種可能的觀察形式進(jìn)行快速、穩(wěn)定一致和交互性的存取,允許分析人員對數(shù)據(jù)進(jìn)行深入觀察聯(lián)機(jī)分析處理——OLAP47一些概念變量是數(shù)據(jù)的實(shí)際意義,描述數(shù)據(jù)是什么維是人們觀察數(shù)據(jù)的特定角度維的層次是維在不同細(xì)節(jié)程度的描述維成員是維的一個(gè)取值多層次維的維成員是各層次取值的組合對應(yīng)一個(gè)數(shù)據(jù)項(xiàng),維成員是該數(shù)據(jù)項(xiàng)在該維中位置的描述多維數(shù)組可以表示為(維1,維2,……,變量),如(地區(qū),時(shí)間,銷售渠道,銷售額)多維數(shù)組的取值稱為數(shù)據(jù)單元(單元格)可以理解為交叉表的數(shù)據(jù)格一些概念48一些基本操作在多維數(shù)組的某一維選定一個(gè)維成員的動作稱為切片。舍棄一些觀察角度在多維數(shù)組的某一維上選定某一區(qū)間的維成員切塊多個(gè)切片的疊加旋轉(zhuǎn)是改變一個(gè)報(bào)告或頁面顯示的維方向以用戶容易理解的角度來觀察數(shù)據(jù)一些基本操作49基于多維數(shù)據(jù)庫的OLAP——MOLAP以多維方式組織數(shù)據(jù)(綜合數(shù)據(jù))以多維方式顯示(觀察)數(shù)據(jù)多維數(shù)據(jù)庫的形式類似于交叉表,可直觀地表述一對多、多對多的關(guān)系如:產(chǎn)品、地區(qū)、銷售額關(guān)系多維多維數(shù)據(jù)庫由許多經(jīng)壓縮的、類似于數(shù)組的對象構(gòu)成,帶有高度壓縮的索引及指針結(jié)構(gòu)以關(guān)系數(shù)據(jù)庫存放細(xì)節(jié)數(shù)據(jù)、以多維數(shù)據(jù)庫存放綜合數(shù)據(jù)基于多維數(shù)據(jù)庫的OLAP——MOLAP50基于關(guān)系數(shù)據(jù)庫的OLAP——ROLAP以二維表與多維聯(lián)系來表達(dá)多維數(shù)據(jù)(綜合數(shù)據(jù))星型結(jié)構(gòu)事實(shí)表,存儲事實(shí)的量及各維的碼值(BCNF)維表,對每一個(gè)維,至少有一個(gè)表用來保存該維的元數(shù)據(jù)(多層次、冗余)事實(shí)表通過外鍵與每個(gè)維表相聯(lián)系雪花、星座、雪暴模擬多維方式顯示(觀察)數(shù)據(jù)基于關(guān)系數(shù)據(jù)庫的OLAP——ROLAP51MOLAP與ROLAPMOLAP計(jì)算速度較快支持的數(shù)據(jù)容量較小缺乏細(xì)節(jié)數(shù)據(jù)的OLAPROLAP結(jié)構(gòu)較復(fù)雜以關(guān)系模擬多維支持適當(dāng)細(xì)節(jié)的OLAP較成熟HOLAP是以上兩種的綜合MOLAP與ROLAP52桌面級工具BrioQuery(ROLAP)BusinessObjects(ROLAP)CognosImpromptu(ROLAP)CognosPowerPlay(MOLAP)服務(wù)器級OLAPArborSoftwareEssbase(MOLAP)MicroStrategyDSSAgent(ROLAP)Oracle’sExpress(hybridMOLAP/ROLAP)桌面級工具53SQL3對聚集的擴(kuò)展(在GroupBy中擴(kuò)展)SP(S#,P#,QTY)S# P# QTYS1 P1 300S1 P2 200S2 P1 300S2 P2 400S3 P2 200S4 P2 200Select sum(QTY)asTOTQTYFrom SP;Select S#,Sum(QTY)asTOTQTYFrom SPGroupByS#;…...SQL3對聚集的擴(kuò)展(在GroupBy中擴(kuò)展)Select54SQL3對聚集的擴(kuò)展(在GroupBy中擴(kuò)展)GroupingSets:支持多個(gè)分組同時(shí)運(yùn)算SelectS#,P#,SUN(QTY)asTOTQTYFromSPGroupByGroupingSets((S#),(P#))S# P# TOTQTYS1 Null 500S2 Null 700S3 Null 200S4 Null 200Null P1 600Null P2 1000SQL3對聚集的擴(kuò)展(在GroupBy中擴(kuò)展)S# P# 55SQL3對聚集的擴(kuò)展(在GroupBy中擴(kuò)展)Rollup:上卷SelectS#,P#,SUN(QTY)asTOTQTYFromSPGroupByRollup(S#,P#)等同于GroupByGroupingSets((S#,P#),(S#),())S# P# TOTQTYS1 P1 300S1 P2 200S2 P1 300S2 P2 400S3 P2 200S4 P2 200S1 Null 500S2 Null 700S3 Null 200S4 Null 200Null Null 1600SQL3對聚集的擴(kuò)展(在GroupBy中擴(kuò)展)S# P# 56SQL3對聚集的擴(kuò)展(在GroupBy中擴(kuò)展)Cube:立方體(交叉表)SelectS#,P#, SUN(QTY)asTOTQTYFromSPGroupByCube(S#,P#)等同于GroupByGroupingSets((S#,P#),(S#),(P#),())S# P# TOTQTYS1 P1 300S1 P2 200S2 P1 300S2 P2 400S3 P2 200S4 P2 200S1 Null 500S2 Null 700S3 Null 200S4 Null 200Null P1 600Null P2 1000Null Null 1600SQL3對聚集的擴(kuò)展(在GroupBy中擴(kuò)展)S# P# 57數(shù)據(jù)挖掘(DataMining)探測型的數(shù)據(jù)分析發(fā)現(xiàn)信息、發(fā)現(xiàn)知識基于人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)由計(jì)算機(jī)自動智能地分析數(shù)據(jù),獲取信息,作出預(yù)測或幫助決策需要算法的支持和機(jī)器的環(huán)境數(shù)據(jù)挖掘(DataMining)58數(shù)據(jù)挖掘的常用方法決策樹方法利用信息論中的互信息,尋找數(shù)據(jù)庫中具有最大信息量的屬性字段,建立決策樹的節(jié)點(diǎn),再根據(jù)該屬性字段的不同取值建立樹的分支在每個(gè)分支子集中重復(fù)建立下層節(jié)點(diǎn)和分支數(shù)據(jù)挖掘的常用方法59數(shù)據(jù)挖掘分析方法關(guān)聯(lián)分析為了挖掘出隱藏在數(shù)據(jù)間的相互關(guān)系支持度/置信度作為輸入的條件,進(jìn)行篩選、分析序列模式分析類似與關(guān)聯(lián)分析著重于分析數(shù)據(jù)的前因后果分類分析對于不同分類的數(shù)據(jù)進(jìn)行分析,找出他們的規(guī)律、特征聚類分析是分類的逆過程根據(jù)數(shù)據(jù)特征,進(jìn)行分類數(shù)據(jù)挖掘分析方法60數(shù)據(jù)挖掘的步驟數(shù)據(jù)準(zhǔn)備數(shù)據(jù)集成數(shù)據(jù)選擇和預(yù)分析挖掘利用前述的方法對數(shù)據(jù)進(jìn)行分析表述利用可視化工具,將結(jié)果展現(xiàn)給分析員評價(jià)評估結(jié)果,遞歸上述過程數(shù)據(jù)挖掘的步驟61數(shù)據(jù)挖掘與OLAP都屬于分析型工具DM是挖掘型工具DM試圖自動地發(fā)現(xiàn)隱藏在數(shù)據(jù)中的模式或規(guī)律OLAP是驗(yàn)證型工具OLAP更多地依賴于用戶的輸入和假設(shè)兩者相輔相成,互補(bǔ)以DM挖掘潛在的模式、預(yù)測未來趨勢以O(shè)LAP來驗(yàn)證DM的結(jié)果數(shù)據(jù)挖掘與OLAP62數(shù)據(jù)倉庫與聯(lián)機(jī)分析處理63
數(shù)據(jù)倉庫技術(shù)與聯(lián)機(jī)分析處理
DataWarehouse&OLAP
數(shù)據(jù)倉庫技術(shù)與聯(lián)機(jī)分析處理
DataWarehouse64數(shù)據(jù)庫處理的兩大應(yīng)用聯(lián)機(jī)事務(wù)處理(OLTP)決策支持系統(tǒng)(DSS)數(shù)據(jù)庫處理的兩大應(yīng)用65數(shù)據(jù)庫處理的兩大應(yīng)用聯(lián)機(jī)事務(wù)處理(OLTP)操作型處理,為企業(yè)的特定應(yīng)用服務(wù)是對數(shù)據(jù)庫的聯(lián)機(jī)的日常操作,通常是對一個(gè)或一組記錄的查詢和修改人們關(guān)心的是響應(yīng)時(shí)間、數(shù)據(jù)的安全性和完整性決策支持系統(tǒng)(DSS)數(shù)據(jù)庫處理的兩大應(yīng)用66數(shù)據(jù)庫處理的兩大應(yīng)用聯(lián)機(jī)事務(wù)處理(OLTP)決策支持系統(tǒng)(DSS)分析型處理,用于管理人員的決策分析經(jīng)常需要訪問大量的歷史數(shù)據(jù)數(shù)據(jù)倉庫+聯(lián)機(jī)分析處理+數(shù)據(jù)挖掘(DW+OLAP+DM)→DSS數(shù)據(jù)庫處理的兩大應(yīng)用67數(shù)據(jù)倉庫是一個(gè)面向主題的、集成的、非易失的(不可修改)且隨時(shí)間變化的數(shù)據(jù)集合,用來支持管理人員的決策數(shù)據(jù)倉庫68數(shù)據(jù)倉庫的特點(diǎn)面向主題主題是在較高層次上對數(shù)據(jù)抽象面向主題的數(shù)據(jù)組織分為兩步驟抽取主題確定每個(gè)主題所包含的數(shù)據(jù)內(nèi)容每個(gè)主題在數(shù)據(jù)倉庫中都是由一組關(guān)系表實(shí)現(xiàn)的集成的數(shù)據(jù)不可更改隨時(shí)間變化的數(shù)據(jù)倉庫的特點(diǎn)69數(shù)據(jù)倉庫的特點(diǎn)——面向主題數(shù)據(jù)倉庫的特點(diǎn)——面向主題70數(shù)據(jù)倉庫的特點(diǎn)面向主題集成的數(shù)據(jù)倉庫的數(shù)據(jù)是從原有的分散數(shù)據(jù)庫數(shù)據(jù)中抽取來的消除數(shù)據(jù)表述的不一致性(數(shù)據(jù)的清洗)數(shù)據(jù)的綜合數(shù)據(jù)不可更改隨時(shí)間變化的數(shù)據(jù)倉庫的特點(diǎn)71數(shù)據(jù)倉庫的特點(diǎn)——集成數(shù)據(jù)倉庫的特點(diǎn)——集成72數(shù)據(jù)倉庫的特點(diǎn)面向主題集成的數(shù)據(jù)不可更改數(shù)據(jù)倉庫的主要數(shù)據(jù)操作是查詢、分析不進(jìn)行一般意義上的數(shù)據(jù)更新(過期數(shù)據(jù)可能被刪除)數(shù)據(jù)倉庫強(qiáng)化查詢、淡化并發(fā)控制和完整性保護(hù)等技術(shù)隨時(shí)間變化的數(shù)據(jù)倉庫的特點(diǎn)73數(shù)據(jù)倉庫的特點(diǎn)——數(shù)據(jù)不可更改數(shù)據(jù)倉庫的特點(diǎn)——數(shù)據(jù)不可更改74數(shù)據(jù)倉庫的特點(diǎn)面向主題集成的數(shù)據(jù)不可更改隨時(shí)間變化的不斷增加新的數(shù)據(jù)內(nèi)容不斷刪除舊的數(shù)據(jù)內(nèi)容定時(shí)綜合數(shù)據(jù)倉庫中數(shù)據(jù)表的鍵碼都包含時(shí)間項(xiàng),以標(biāo)明數(shù)據(jù)的歷史時(shí)期數(shù)據(jù)倉庫的特點(diǎn)75數(shù)據(jù)倉庫的特點(diǎn)——隨時(shí)間變化數(shù)據(jù)倉庫的特點(diǎn)——隨時(shí)間變化76數(shù)據(jù)倉庫的結(jié)構(gòu)OLTP系統(tǒng)RDBMSSybaseVSAMSAP/ERP5-10年過去詳細(xì)數(shù)據(jù)當(dāng)前詳細(xì)數(shù)據(jù)輕度匯總數(shù)據(jù)高度匯總數(shù)據(jù)數(shù)據(jù)集市分析型CRM業(yè)務(wù)指標(biāo)分析數(shù)據(jù)倉庫數(shù)據(jù)倉庫/決策分析系統(tǒng)EXCEL數(shù)據(jù)倉庫的結(jié)構(gòu)OLTP系統(tǒng)RDBMSVSAMSAP/ERP577數(shù)據(jù)倉庫的結(jié)構(gòu)數(shù)據(jù)由操作型環(huán)境(綜合)導(dǎo)入數(shù)據(jù)倉庫數(shù)據(jù)具有不同的細(xì)節(jié)級早期細(xì)節(jié)級(過期數(shù)據(jù))當(dāng)前細(xì)節(jié)級輕度綜合數(shù)據(jù)級(數(shù)據(jù)集市)高度綜合數(shù)據(jù)級數(shù)據(jù)倉庫的結(jié)構(gòu)78數(shù)據(jù)倉庫建立的過程數(shù)據(jù)倉庫建立的過程79粒度是指數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)的細(xì)化或綜合程度的級別粒度級越小,細(xì)節(jié)程度越高,綜合程度越低,回答查詢的種類越多粒度影響數(shù)據(jù)倉庫中數(shù)據(jù)量的大小粒度問題是設(shè)計(jì)數(shù)據(jù)倉庫的一個(gè)重要方面雙重粒度在數(shù)據(jù)倉庫的細(xì)節(jié)級上創(chuàng)建兩種粒度短期儲存的低粒度(真實(shí)檔案),滿足細(xì)節(jié)查詢具有綜合的高粒度(輕度綜合),做分析粒度80數(shù)據(jù)倉庫與聯(lián)機(jī)分析處理81數(shù)據(jù)倉庫與聯(lián)機(jī)分析處理82分割是指把數(shù)據(jù)分散到各自的物理單元中去,以便能分別獨(dú)立處理,提高數(shù)據(jù)處理效率是粒度之后的第二個(gè)主要設(shè)計(jì)問題兩個(gè)層次的分割系統(tǒng)層:DBMS,一種定義應(yīng)用層:開發(fā)者,多種定義多種分割的標(biāo)準(zhǔn)日期:最常用的地理位置組織單位…...分割83數(shù)據(jù)倉庫與聯(lián)機(jī)分析處理84數(shù)據(jù)倉庫中的數(shù)據(jù)組織形式簡單堆積輪轉(zhuǎn)綜合數(shù)據(jù)按一定的格式進(jìn)行輪轉(zhuǎn)的累加簡化直接按一定的時(shí)間間隔,對數(shù)據(jù)進(jìn)行提取,是操作型數(shù)據(jù)的一個(gè)快照連續(xù)把新的快照追加到以前的連續(xù)數(shù)據(jù)上去數(shù)據(jù)倉庫中的數(shù)據(jù)組織形式85數(shù)據(jù)倉庫中的數(shù)據(jù)組織形式簡單堆積每日由數(shù)據(jù)庫中提取并加工的數(shù)據(jù)逐天積累堆積數(shù)據(jù)倉庫中的數(shù)據(jù)組織形式86數(shù)據(jù)倉庫中的數(shù)據(jù)組織形式輪轉(zhuǎn)綜合數(shù)據(jù)按一定的格式進(jìn)行輪轉(zhuǎn)的累加數(shù)據(jù)倉庫中的數(shù)據(jù)組織形式87數(shù)據(jù)倉庫中的數(shù)據(jù)組織形式簡單堆積與輪轉(zhuǎn)綜合的比較數(shù)據(jù)倉庫中的數(shù)據(jù)組織形式88數(shù)據(jù)倉庫中的數(shù)據(jù)組織形式簡化直接按一定的時(shí)間間隔,對數(shù)據(jù)進(jìn)行提取,是操作型數(shù)據(jù)的一個(gè)快照數(shù)據(jù)倉庫中的數(shù)據(jù)組織形式89數(shù)據(jù)倉庫中的數(shù)據(jù)組織形式連續(xù)把新的快照追加到以前的連續(xù)數(shù)據(jù)上去數(shù)據(jù)倉庫中的數(shù)據(jù)組織形式90數(shù)據(jù)倉庫的數(shù)據(jù)追加數(shù)據(jù)追加數(shù)據(jù)倉庫的數(shù)據(jù)初裝完成以后,再向數(shù)據(jù)倉庫輸入數(shù)據(jù)的過程稱為數(shù)據(jù)追加變化數(shù)據(jù)的捕獲時(shí)標(biāo)法:加標(biāo)識DELTA法:對更新作記錄前后映象法:兩次快照的對比日志法:利用DBMS的日志,需改進(jìn)數(shù)據(jù)倉庫的數(shù)據(jù)追加91數(shù)據(jù)庫的體系化環(huán)境是在一個(gè)企業(yè)或組織內(nèi)部,由各面向應(yīng)用的OLTP數(shù)據(jù)庫及各級面向主題的數(shù)據(jù)倉庫所組成的完整的數(shù)據(jù)環(huán)境操作型環(huán)境、分析型環(huán)境四層體系化環(huán)境操作型環(huán)境——OLTP全局級——數(shù)據(jù)倉庫部門級——局部倉庫個(gè)人級——個(gè)人倉庫,用于啟發(fā)式的分析數(shù)據(jù)集市(DataMart)特定的、面向部門的小型數(shù)據(jù)倉庫是為滿足用戶特定需求而創(chuàng)建的數(shù)據(jù)倉庫是數(shù)據(jù)倉庫的子集數(shù)據(jù)庫的體系化環(huán)境92數(shù)據(jù)庫的體系化環(huán)境數(shù)據(jù)庫的體系化環(huán)境93數(shù)據(jù)庫的體系化環(huán)境數(shù)據(jù)庫的體系化環(huán)境94數(shù)據(jù)倉庫的開發(fā)生命周期數(shù)據(jù)倉庫的開發(fā)生命周期95數(shù)據(jù)倉庫的基本數(shù)據(jù)模式星型模式(StarSchema)事實(shí)表(facttable),存放基本數(shù)據(jù),相關(guān)主題的數(shù)據(jù)主體(BCNF)維(dimension),影響、分析主體數(shù)據(jù)的因素量(measure),事實(shí)表中的數(shù)據(jù)屬性維表(dimensiontable),表示維的各種表維是量的取值條件,維用外鍵表示以事實(shí)表為中心,加上若干維表,組成星型數(shù)據(jù)模式例:產(chǎn)品-商店-銷售額數(shù)據(jù)倉庫的基本數(shù)據(jù)模式96數(shù)據(jù)倉庫的基本數(shù)據(jù)模式CustSalesLocationSalesProdSalesTimeSalesSalestimeid<pk,fk>productid<pk,fk>locationid<pk,fk>customerid<pk,fk>salesrevenueunitssoldProductproductid<pk>makemodelTimetimeid<pk>dateyearquartermonthweekLocationlocationid<pk>regiondistrictstoreCustomercustomerid<pk>categorygroupSalesfactSalesmeasuresTimedimensionAttributesofthe
timedimension數(shù)據(jù)倉庫的基本數(shù)據(jù)模式CustSalesLocationSa97數(shù)據(jù)倉庫的基本數(shù)據(jù)模式雪花模式(SnowflakeSchema)維一般是由若干層次組成把維按其層次結(jié)構(gòu)表示成若干個(gè)表規(guī)范化、節(jié)省存儲空間但需多做連接操作數(shù)據(jù)倉庫的基本數(shù)據(jù)模式98數(shù)據(jù)倉庫的解決方案通用的關(guān)系數(shù)據(jù)庫系統(tǒng)專門的數(shù)據(jù)倉庫服務(wù)器數(shù)據(jù)倉庫的解決方案99數(shù)據(jù)倉庫系統(tǒng)的體系結(jié)構(gòu)數(shù)據(jù)倉庫層數(shù)據(jù)倉庫工具層最終用戶數(shù)據(jù)倉庫系統(tǒng)的體系結(jié)構(gòu)100數(shù)據(jù)倉庫系統(tǒng)數(shù)據(jù)倉庫居系統(tǒng)的核心地位是信息挖掘的基礎(chǔ)數(shù)據(jù)倉庫管理系統(tǒng)是整個(gè)系統(tǒng)的引擎負(fù)責(zé)管理整個(gè)系統(tǒng)的運(yùn)轉(zhuǎn)數(shù)據(jù)倉庫工具一般的查詢工具、功能強(qiáng)大的分析工具是整個(gè)系統(tǒng)發(fā)揮作用的關(guān)鍵數(shù)據(jù)倉庫系統(tǒng)101數(shù)據(jù)倉庫系統(tǒng)一個(gè)集成化的產(chǎn)品集數(shù)據(jù)倉庫系統(tǒng)一個(gè)集成化的產(chǎn)品集102數(shù)據(jù)倉庫系統(tǒng)DesignWarehouseArchitectManageSybaseASIQIntegrateInformaticaEnterpriseConnectReplicationServerPowerMartVisualizeBrioCognosAdministerWarehouseControlCenterWarehouseControlCentre數(shù)據(jù)倉庫系統(tǒng)DesignManageIntegratePow103數(shù)據(jù)分析模型早期靜態(tài)數(shù)據(jù)值的相互比較需求從多個(gè)不同的數(shù)據(jù)源中綜合數(shù)據(jù)從不同的角度觀察數(shù)據(jù)多變的主題、多維數(shù)據(jù)E-R不能完全支持?jǐn)?shù)據(jù)分析模型104四種分析模型(Codd)絕對模型靜態(tài)數(shù)據(jù)分析只能對歷史數(shù)據(jù)進(jìn)行值的比較,描述基本事實(shí)用戶交互少解釋模型思考模型公式模型四種分析模型(Codd)105四種分析模型(Codd)絕對模型解釋模型靜態(tài)數(shù)據(jù)分析在當(dāng)前多維視圖的基礎(chǔ)上找出事件發(fā)生的原因思考模型公式模型四種分析模型(Codd)106四種分析模型(Codd)絕對模型解釋模型思考模型動態(tài)數(shù)據(jù)分析多維分析在決策者的參與下,找出關(guān)鍵變量需要高級數(shù)據(jù)分析人員的介入公式模型四種分析模型(Codd)107四種分析模型(Codd)絕對模型解釋模型思考模型公式模型動態(tài)性最高的一類自動完成變量的引入工作四種分析模型(Codd)108數(shù)據(jù)倉庫系統(tǒng)的工具層查詢工具主要是對分析結(jié)果的查詢很少有對記錄級數(shù)據(jù)的查詢驗(yàn)證型工具多維分析工具用戶首先提出假設(shè),然后利用各種工具通過反復(fù)、遞歸的檢索查詢以驗(yàn)證或否定假設(shè)發(fā)掘型工具從大量數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)模式預(yù)測趨勢和行為數(shù)據(jù)倉庫系統(tǒng)的工具層109聯(lián)機(jī)分析處理——OLAP是針對特定問題的聯(lián)機(jī)訪問和分析。通過對信息的很多種可能的觀察形式進(jìn)行快速、穩(wěn)定一致和交互性的存取,允許分析人員對數(shù)據(jù)進(jìn)行深入觀察聯(lián)機(jī)分析處理——OLAP110一些概念變量是數(shù)據(jù)的實(shí)際意義,描述數(shù)據(jù)是什么維是人們觀察數(shù)據(jù)的特定角度維的層次是維在不同細(xì)節(jié)程度的描述維成員是維的一個(gè)取值多層次維的維成員是各層次取值的組合對應(yīng)一個(gè)數(shù)據(jù)項(xiàng),維成員是該數(shù)據(jù)項(xiàng)在該維中位置的描述多維數(shù)組可以表示為(維1,維2,……,變量),如(地區(qū),時(shí)間,銷售渠道,銷售額)多維數(shù)組的取值稱為數(shù)據(jù)單元(單元格)可以理解為交叉表的數(shù)據(jù)格一些概念111一些基本操作在多維數(shù)組的某一維選定一個(gè)維成員的動作稱為切片。舍棄一些觀察角度在多維數(shù)組的某一維上選定某一區(qū)間的維成員切塊多個(gè)切片的疊加旋轉(zhuǎn)是改變一個(gè)報(bào)告或頁面顯示的維方向以用戶容易理解的角度來觀察數(shù)據(jù)一些基本操作112基于多維數(shù)據(jù)庫的OLAP——MOLAP以多維方式組織數(shù)據(jù)(綜合數(shù)據(jù))以多維方式顯示(觀察)數(shù)據(jù)多維數(shù)據(jù)庫的形式類似于交叉表,可直觀地表述一對多、多對多的關(guān)系如:產(chǎn)品、地區(qū)、銷售額關(guān)系多維多維數(shù)據(jù)庫由許多經(jīng)壓縮的、類似于數(shù)組的對象構(gòu)成,帶有高度壓縮的索引及指針結(jié)構(gòu)以關(guān)系數(shù)據(jù)庫存放細(xì)節(jié)數(shù)據(jù)、以多維數(shù)據(jù)庫存放綜合數(shù)據(jù)基于多維數(shù)據(jù)庫的OLAP——MOLAP113基于關(guān)系數(shù)據(jù)庫的OLAP——ROLAP以二維表與多維聯(lián)系來表達(dá)多維數(shù)據(jù)(綜合數(shù)據(jù))星型結(jié)構(gòu)事實(shí)表,存儲事實(shí)的量及各維的碼值(BCNF)維表,對每一個(gè)維,至少有一個(gè)表用來保存該維的元數(shù)據(jù)(多層次、冗余)事實(shí)表通過外鍵與每個(gè)維表相聯(lián)系雪花、星座、雪暴模擬多維方式顯示(觀察)數(shù)據(jù)基于關(guān)系數(shù)據(jù)庫的OLAP——ROLAP114MOLAP與ROLAPMOLAP計(jì)算速度較快支持的數(shù)據(jù)容量較小缺乏細(xì)節(jié)數(shù)據(jù)的OLAPROLAP結(jié)構(gòu)較復(fù)雜以關(guān)系模擬多維支持適當(dāng)細(xì)節(jié)的OLAP較成熟HOLAP是以上兩種的綜合MOLAP與ROLAP115桌面級工具BrioQuery(ROLAP)BusinessObjects(ROLAP)CognosImpromptu(ROLAP)CognosPowerPlay(MOLAP)服務(wù)器級OLAPArborSoftwareEssbase(MOLAP)MicroStrategyDSSAgent(ROLAP)Oracle’sExpress(hybridMOLAP/ROLAP)桌面級工具116SQL3對聚集的擴(kuò)展(在GroupBy中擴(kuò)展)SP(S#,P#,QTY)S# P# QTYS1 P1 300S1 P2 200S2 P1 300S2 P2 400S3 P2 200S4 P2 200Select sum(QTY)asTOTQTYFrom SP;Select S#,Sum(QTY)asTOTQTYFrom SPGroupByS#;…...SQL3對聚集的擴(kuò)展(在GroupBy中擴(kuò)展)Select117SQL3對聚集的擴(kuò)展(在GroupBy中擴(kuò)展)GroupingSets:支持多個(gè)分組同時(shí)運(yùn)算SelectS#,P#,SUN(QTY)asTOTQTYFromSPGroupByGroupingSets((S#),(P#))S# P# TOTQTYS1 Null 500S2 Null 700
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 醫(yī)療器械廣告服務(wù)合同范本
- 變更經(jīng)營人合同范本
- 原址回遷合同范本
- 古玩拍賣合同范本
- 健身房代賣健身卡合同范本
- 醫(yī)用眼罩采購合同范本
- 醫(yī)療員工合同范本
- 《晚上的太陽》教案
- 單位購買門合同范本
- 農(nóng)村樓房分租合同范本
- 航天集團(tuán)人才隊(duì)伍建設(shè)經(jīng)驗(yàn)介紹
- 牙周炎-侵襲性牙周炎
- 心理委員工作記錄表
- 新教科版五下科學(xué)1-5《當(dāng)環(huán)境改變了》公開課課件
- 教師的十大轉(zhuǎn)變課件
- 焦化廠生產(chǎn)工序及工藝流程圖
- 可下載打印的公司章程
- 中藥熏洗法課件
- 本特利探頭應(yīng)用
- QMR-110-00員工手部、接觸面等微生物檢驗(yàn)記錄記錄
- 外陰及陰道炎癥
評論
0/150
提交評論