數(shù)據(jù)倉庫入門_第1頁
數(shù)據(jù)倉庫入門_第2頁
數(shù)據(jù)倉庫入門_第3頁
數(shù)據(jù)倉庫入門_第4頁
數(shù)據(jù)倉庫入門_第5頁
已閱讀5頁,還剩31頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)倉庫入門第1頁,課件共36頁,創(chuàng)作于2023年2月數(shù)據(jù)倉庫管理的歷史時(shí)期人工管理方式:這一時(shí)期是在20世紀(jì)50年代中期以前,這一階段的計(jì)算機(jī)應(yīng)用主要用于科學(xué)計(jì)算,外存只有紙帶、磁帶、卡片等,數(shù)據(jù)處理的方式基本上是批處理。這一時(shí)期數(shù)據(jù)管理的特點(diǎn)是:數(shù)據(jù)不保存;沒有專用的數(shù)據(jù)管理軟件,每個(gè)應(yīng)用都必須自己完成存儲(chǔ)結(jié)構(gòu)、存取方法、輸入輸入輸出等數(shù)據(jù)管理功能;一組數(shù)據(jù)對(duì)應(yīng)一個(gè)應(yīng)用,這使得程序之間可能有重復(fù)的數(shù)據(jù)。文件系統(tǒng)管理這一階段在20世紀(jì)50年代后期至60年代中后期,計(jì)算機(jī)應(yīng)用開始用于信息管理,由于數(shù)據(jù)存儲(chǔ)、檢索和維護(hù)等需求,使得相應(yīng)的研究開展起來了,在硬件和軟件方面都得到了發(fā)展,磁盤磁鼓出現(xiàn),操作系統(tǒng)也產(chǎn)生。這一時(shí)期數(shù)據(jù)管理的特點(diǎn)主要是::數(shù)據(jù)保存,數(shù)據(jù)可以長期保存在磁盤上;有操作系統(tǒng)的文件管理系統(tǒng),文件結(jié)構(gòu)化,數(shù)據(jù)的物理結(jié)構(gòu)和邏輯結(jié)構(gòu)有了區(qū)別;有了存儲(chǔ)文件后,數(shù)據(jù)可以不再僅僅屬于某一個(gè)應(yīng)用,而能進(jìn)行一定程度的復(fù)用。但文件系統(tǒng)在數(shù)據(jù)管理方面存在缺陷,表現(xiàn)在數(shù)據(jù)冗余度大,數(shù)據(jù)和程序之間缺乏獨(dú)立性,容易造成數(shù)據(jù)的不一致性。數(shù)據(jù)庫系統(tǒng)(60年代末開始)2023/7/24第2頁,課件共36頁,創(chuàng)作于2023年2月數(shù)據(jù)倉庫的發(fā)展的動(dòng)力業(yè)務(wù)需求驅(qū)動(dòng)主要是詳細(xì)的分析科學(xué)的經(jīng)營市場(chǎng)活動(dòng)的細(xì)化和實(shí)施等數(shù)據(jù)驅(qū)動(dòng)數(shù)據(jù)量不斷擴(kuò)大沒有數(shù)據(jù)倉庫等相關(guān)技術(shù)很難全面了解企業(yè)項(xiàng)目驅(qū)動(dòng)2023/7/24第3頁,課件共36頁,創(chuàng)作于2023年2月數(shù)據(jù)倉庫定義Inmon的定義:DataWarehouseisasubject-oriented,integrated,time-variant,andnonvolatilecollectionofdatainsupportofmanagement’sdecisionmakingprocess數(shù)據(jù)倉庫的特點(diǎn)數(shù)據(jù)倉庫的數(shù)據(jù)是面向主題的

數(shù)據(jù)倉庫的數(shù)據(jù)是集成的

數(shù)據(jù)倉庫的數(shù)據(jù)是與時(shí)間相關(guān)的

數(shù)據(jù)倉庫的數(shù)據(jù)是穩(wěn)定的

2023/7/24第4頁,課件共36頁,創(chuàng)作于2023年2月簡單的數(shù)據(jù)倉庫架構(gòu)2023/7/24第5頁,課件共36頁,創(chuàng)作于2023年2月數(shù)據(jù)倉庫實(shí)際應(yīng)用例子2023/7/24第6頁,課件共36頁,創(chuàng)作于2023年2月數(shù)據(jù)集成企業(yè)全面的經(jīng)營數(shù)據(jù)OLTP分散在各個(gè)不同系統(tǒng)中(事件獨(dú)立)銀行:卡、儲(chǔ)蓄、信貸、會(huì)計(jì)、中間業(yè)務(wù)等等系統(tǒng)BOSS+增值業(yè)務(wù)+財(cái)務(wù)集成數(shù)據(jù)建立關(guān)聯(lián)事件關(guān)聯(lián)(業(yè)務(wù)之間是相互關(guān)聯(lián))客戶數(shù)據(jù)統(tǒng)一歷史數(shù)據(jù)大量歷史數(shù)據(jù)的保存問題中國建設(shè)銀行一個(gè)中等規(guī)模的省產(chǎn)生每天的交易詳細(xì)記錄大約200M通常在業(yè)務(wù)系統(tǒng)中只保存當(dāng)日數(shù)據(jù)歷史數(shù)據(jù)查詢困難2023/7/24第7頁,課件共36頁,創(chuàng)作于2023年2月數(shù)據(jù)倉庫數(shù)據(jù)處理流程數(shù)據(jù)格式檢查源數(shù)據(jù)清潔、抽取、轉(zhuǎn)換ODS數(shù)據(jù)抽取、轉(zhuǎn)換裝載數(shù)據(jù)到DW裝載到OLAP報(bào)表展現(xiàn)業(yè)務(wù)系統(tǒng)數(shù)據(jù)/外部數(shù)據(jù)DW數(shù)據(jù)抽取、轉(zhuǎn)換DW數(shù)據(jù)生成報(bào)表裝載數(shù)據(jù)到ODS分析性查詢2023/7/24第8頁,課件共36頁,創(chuàng)作于2023年2月ETL簡述2023/7/24第9頁,課件共36頁,創(chuàng)作于2023年2月ETL定義ETL:Extract-Transform-Load數(shù)據(jù)抽取(Extract)、轉(zhuǎn)換(Transform)、裝載(Load)的過程。ETL是BI/DW的核心和靈魂,按照統(tǒng)一的規(guī)則集成并提高數(shù)據(jù)的價(jià)值,是負(fù)責(zé)完成數(shù)據(jù)從數(shù)據(jù)源向目標(biāo)數(shù)據(jù)倉庫轉(zhuǎn)化的過程,是實(shí)施數(shù)據(jù)倉庫的重要步驟2023/7/24第10頁,課件共36頁,創(chuàng)作于2023年2月ETL應(yīng)用過程數(shù)據(jù)抽取抽取主要是針對(duì)各個(gè)業(yè)務(wù)系統(tǒng)及不同網(wǎng)點(diǎn)的分散數(shù)據(jù),充分理解數(shù)據(jù)定義后,規(guī)劃需要的數(shù)據(jù)源及數(shù)據(jù)定義,制定可操作的數(shù)據(jù)源,制定增量抽取的定義。(數(shù)據(jù)源和文件等多種形式)數(shù)據(jù)傳輸數(shù)據(jù)傳輸是通過網(wǎng)絡(luò)負(fù)責(zé)把遠(yuǎn)程的數(shù)據(jù)到本地目錄下。

2023/7/24第11頁,課件共36頁,創(chuàng)作于2023年2月ETL應(yīng)用過程數(shù)據(jù)的清洗和轉(zhuǎn)換轉(zhuǎn)換主要是針對(duì)數(shù)據(jù)倉庫建立的模型,通過一系列的轉(zhuǎn)換來實(shí)現(xiàn)將數(shù)據(jù)從業(yè)務(wù)模型到分析模型,通過內(nèi)建的庫函數(shù)、自定義腳本或其他的擴(kuò)展方式,實(shí)現(xiàn)了各種復(fù)雜的轉(zhuǎn)換,并且支持調(diào)試環(huán)境,清楚的監(jiān)控?cái)?shù)據(jù)轉(zhuǎn)換的狀態(tài)。數(shù)據(jù)轉(zhuǎn)換是真正將源數(shù)據(jù)變?yōu)槟繕?biāo)數(shù)據(jù)的關(guān)鍵環(huán)節(jié),它包括數(shù)據(jù)格式轉(zhuǎn),換數(shù)據(jù)類型轉(zhuǎn)換、數(shù)據(jù)匯總計(jì)算、數(shù)據(jù)拼接等等。清洗主要是針對(duì)系統(tǒng)的各個(gè)環(huán)節(jié)可能出現(xiàn)的數(shù)據(jù)二義性、重復(fù)、不完整、違反業(yè)務(wù)規(guī)則等問題,允許通過試抽取,將有問題的紀(jì)錄先剔除出來,根據(jù)實(shí)際情況調(diào)整相應(yīng)的清洗操作。2023/7/24第12頁,課件共36頁,創(chuàng)作于2023年2月ETL應(yīng)用過程數(shù)據(jù)加載入庫

數(shù)據(jù)加載主要是將經(jīng)過轉(zhuǎn)換和清洗的數(shù)據(jù)加載到數(shù)據(jù)倉庫里面,即入庫,可以通過數(shù)據(jù)文件直接裝載或直連數(shù)據(jù)庫的方式來進(jìn)行數(shù)據(jù)裝載,可以充分體現(xiàn)高效性ETL調(diào)度ETL的調(diào)度控制方式有兩種:自動(dòng)方式由系統(tǒng)每天定時(shí)或準(zhǔn)實(shí)時(shí)啟動(dòng)后臺(tái)程序,自動(dòng)完成數(shù)據(jù)倉庫ETL處理流程。手動(dòng)方式用戶可以通過前臺(tái)監(jiān)控平臺(tái),對(duì)單個(gè)目標(biāo)或批量目標(biāo)進(jìn)行手工調(diào)度。2023/7/24第13頁,課件共36頁,創(chuàng)作于2023年2月ETL應(yīng)用過程監(jiān)控主要是監(jiān)控ETL的整個(gè)過程,通過掃描ETL各模塊的日志中的關(guān)鍵值,如記錄時(shí)間等信息與當(dāng)前的狀態(tài)作比較,如果超過某一個(gè)值,則認(rèn)為該模塊運(yùn)行可能出現(xiàn)問提,應(yīng)告警。2023/7/24第14頁,課件共36頁,創(chuàng)作于2023年2月ETL工具框架2023/7/24第15頁,課件共36頁,創(chuàng)作于2023年2月OLAP簡述2023/7/24第16頁,課件共36頁,創(chuàng)作于2023年2月OLAP&OLTP(on-linetransactionprocessing)OLTPOLAP用戶操作人員,低層管理人員決策人員,高級(jí)管理人員功能日常操作處理分析決策DB設(shè)計(jì)面向應(yīng)用面向主題數(shù)據(jù)當(dāng)前的,最新的細(xì)節(jié)的,二維的分立的歷史的,聚集的,多維的集成的,統(tǒng)一的存取讀/寫數(shù)十條記錄讀上百萬條記錄工作單位簡單的事務(wù)復(fù)雜的查詢用戶數(shù)上千個(gè)上百個(gè)DB大小100MB-GB100GB-TB2023/7/24第17頁,課件共36頁,創(chuàng)作于2023年2月什么是OLAP定義1:OLAP(聯(lián)機(jī)分析處理)是針對(duì)特定問題的聯(lián)機(jī)數(shù)據(jù)訪問和分析。通過對(duì)信息(維數(shù)據(jù))的多種可能的觀察形式進(jìn)行快速、穩(wěn)定一致和交互性的存取,允許管理決策人員對(duì)數(shù)據(jù)進(jìn)行深入觀察。定義2:OLAP(聯(lián)機(jī)分析處理)

是使分析人員、管理人員或執(zhí)行人員能夠從多種角度對(duì)從原始數(shù)據(jù)中轉(zhuǎn)化出來的、能夠真正為用戶所理解的、并真實(shí)反映企業(yè)維特性的信息進(jìn)行快速、一致、交互地存取,從而獲得對(duì)數(shù)據(jù)的更深入了解的一類軟件技術(shù)。(OLAP委員會(huì)的定義)OLAP的目標(biāo)是滿足決策支持或多維環(huán)境特定的查詢和報(bào)表需求,它的技術(shù)核心是“維”這個(gè)概念,因此OLAP也可以說是多維數(shù)據(jù)分析工具的集合。2023/7/24第18頁,課件共36頁,創(chuàng)作于2023年2月相關(guān)基本概念1.維:是人們觀察數(shù)據(jù)的特定角度,是考慮問題時(shí)的一類屬性,屬性集合構(gòu)成一個(gè)維(時(shí)間維、地理維等)。2.維的層次:人們觀察數(shù)據(jù)的某個(gè)特定角度(即某個(gè)維)還可以存在細(xì)節(jié)程度不同的各個(gè)描述方面(時(shí)間維:日期、月份、季度、年)。3.維的成員:維的一個(gè)取值。是數(shù)據(jù)項(xiàng)在某維中位置的描述。(“某年某月某日”是在時(shí)間維上位置的描述)4.多維數(shù)組:維和變量的組合表示。一個(gè)多維數(shù)組可以表示為:(維1,維2,…,維n,變量)。(時(shí)間,地區(qū),產(chǎn)品,銷售額)5.數(shù)據(jù)單元(單元格):多維數(shù)組的取值。(2000年1月,上海,筆記本電腦,$100000)2023/7/24第19頁,課件共36頁,創(chuàng)作于2023年2月OLAP特性(1)快速性:用戶對(duì)OLAP的快速反應(yīng)能力有很高的要求。系統(tǒng)應(yīng)能在5秒內(nèi)對(duì)用戶的大部分分析要求做出反應(yīng)。

(2)可分析性:OLAP系統(tǒng)應(yīng)能處理與應(yīng)用有關(guān)的任何邏輯分析和統(tǒng)計(jì)分析。(3)多維性:多維性是OLAP的關(guān)鍵屬性。系統(tǒng)必須提供對(duì)數(shù)據(jù)的多維視圖和分析,包括對(duì)層次維和多重層次維的完全支持。。(4)信息性:不論數(shù)據(jù)量有多大,也不管數(shù)據(jù)存儲(chǔ)在何處,OLAP系統(tǒng)應(yīng)能及時(shí)獲得信息,并且管理大容量信息。2023/7/24第20頁,課件共36頁,創(chuàng)作于2023年2月OLAP表現(xiàn)方式鉆取改變維的層次,變換分析的粒度向上鉆?。╮ollup)和向下鉆取(drilldown)切片和切塊在一部分維上選定值后,關(guān)心度量數(shù)據(jù)在剩余維上的分布如果剩余的維只有兩個(gè),則是切片;如果有三個(gè),則是切塊旋轉(zhuǎn)(pivot)旋轉(zhuǎn)是變換維的方向,即在表格中重新安排維的放置(例如行列互換)2023/7/24第21頁,課件共36頁,創(chuàng)作于2023年2月OLAP的分析方法(一)切片、切塊2023/7/24第22頁,課件共36頁,創(chuàng)作于2023年2月OLAP的分析方法(二)鉆取按時(shí)間維向下鉆取按時(shí)間維向上鉆取602023/7/24第23頁,課件共36頁,創(chuàng)作于2023年2月OLAP的分析方法(三)旋轉(zhuǎn)2023/7/24第24頁,課件共36頁,創(chuàng)作于2023年2月OLAP分類按照存儲(chǔ)方式OLAPMOLAPHOLAPROLAP按照處理地點(diǎn)ClientOLAPServerOLAP2023/7/24第25頁,課件共36頁,創(chuàng)作于2023年2月OLAP實(shí)現(xiàn)方法ROLAP數(shù)據(jù)存儲(chǔ):基于關(guān)系數(shù)據(jù)庫結(jié)構(gòu)分類事實(shí)表:用來存儲(chǔ)數(shù)據(jù)和維關(guān)鍵字維度表:每個(gè)維至少使用一個(gè)表來存放維的層次、成員類別等維的描述信息

數(shù)據(jù)模型星型模式雪花模式

MOLAP(MultidimensionalOLAP)數(shù)據(jù)存儲(chǔ):使用多維數(shù)組存儲(chǔ)數(shù)據(jù)基于多維數(shù)據(jù)組織的OLAP實(shí)現(xiàn)以多維數(shù)據(jù)組織方式為核心結(jié)構(gòu)分類:立方塊(Cube)HOLAP(HybridOLAP)數(shù)據(jù)存儲(chǔ):基于混合數(shù)據(jù)組織的OLAP實(shí)現(xiàn)其他實(shí)現(xiàn)方法2023/7/24第26頁,課件共36頁,創(chuàng)作于2023年2月OLTP、ROLAP與MOLAP模式2023/7/24第27頁,課件共36頁,創(chuàng)作于2023年2月ROLAP的星型模式(StarSchema)事實(shí)表:用來存儲(chǔ)事實(shí)的度量值和各個(gè)維的碼值。維表:用來存放維的元數(shù)據(jù)(維的層次、成員類別等描述信息)。Time_idSalesTableDiscount%DollarsUnits"FactTable"Market_idProduct_idScenarioProduct_idProductTableSizeBrandProduct_Desc"DimensionTable"Time_idYearQuarterPeriod_DescPeriodTable"DimensionTable"ScenarioTableActualProfitScenario"DimensionTable"Market_idMarketTableRegionDistrictMarket_Desc"DimensionTable"2023/7/24第28頁,課件共36頁,創(chuàng)作于2023年2月MOLAP的多維立方體(Multicube)2023/7/24第29頁,課件共36頁,創(chuàng)作于2023年2月ROLAP與MOLAP比較ROLAP優(yōu)勢(shì)沒有大小限制現(xiàn)有的關(guān)系數(shù)據(jù)庫的技術(shù)可以沿用.可以通過SQL實(shí)現(xiàn)詳細(xì)數(shù)據(jù)與概要數(shù)據(jù)的存儲(chǔ)現(xiàn)有關(guān)系型數(shù)據(jù)庫已經(jīng)對(duì)OLAP做了很多優(yōu)化,包括并行存儲(chǔ)、并行查詢、并行數(shù)據(jù)管理、基于成本的查詢優(yōu)化、位圖索引、SQL的OLAP擴(kuò)展(cube,rollup)等大大提高ROALP的速度MOLAP優(yōu)勢(shì)性能好、響應(yīng)速度快專為OLAP所設(shè)計(jì)支持高性能的決策支持計(jì)算復(fù)雜的跨維計(jì)算多用戶的讀寫操作行級(jí)的計(jì)算2023/7/24第30頁,課件共36頁,創(chuàng)作于2023年2月ROLAP與MOLAP比較(續(xù))ROLAP缺點(diǎn)一般比MDD響應(yīng)速度慢不支持有關(guān)預(yù)計(jì)算的讀寫操作SQL無法完成部分計(jì)算無法完成多行的計(jì)算無法完成維之間的計(jì)算MOLAP缺點(diǎn)增加系統(tǒng)復(fù)雜度,增加系統(tǒng)培訓(xùn)與維護(hù)費(fèi)用受操作系統(tǒng)平臺(tái)中文件大小的限制,難以達(dá)到TB級(jí)(只能10~20G)需要進(jìn)行預(yù)計(jì)算,可能導(dǎo)致數(shù)據(jù)爆炸無法支持維的動(dòng)態(tài)變化缺乏數(shù)據(jù)模型和數(shù)據(jù)訪問的標(biāo)準(zhǔn)2023/7/24第31頁,課件共36頁,創(chuàng)作于2023年2月OLAP體系結(jié)構(gòu)ROLAPArchitectureMOLAPArchitectureSQLResultSetInfo.RequestResultSetDatabaseServer

RDBMSFront-endToolROALPArchitectureROLAPServerMetadataRequestProcessingSQLResultSetInfo.RequestResultSetLoadDatabaseServer

RDBMSFront-endToolMOALPArchitectureMOLAPServerMetadataRequestProcessing2023/7/24第32頁,課件共36頁,創(chuàng)作于2023年2月OLAP體系結(jié)構(gòu)(續(xù))HOLAPArchitectureResultSetORSQLQuerySQLResultSetInfo.RequestResultSetLoadDatabaseServer

RDBMSFront-endToolHybridArchitectureMOLAPServer2023/7/24第33頁,課件共36頁,創(chuàng)作于2023年2月流行的OLAP工具介紹OLAP產(chǎn)品HyperionEssbaseOracleExpressIBMDB2OLAPServerSybaseP

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論