版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、data warehouse overview2數(shù)據(jù)倉(cāng)庫(kù)管理的歷史時(shí)期數(shù)據(jù)倉(cāng)庫(kù)管理的歷史時(shí)期l人工管理方式: 這一時(shí)期是在20世紀(jì)50年代中期以前,這一階段的計(jì)算機(jī)應(yīng)用主要用于科學(xué)計(jì)算,外存只有紙帶、磁帶、卡片等,數(shù)據(jù)處理的方式基本上是批處理。這一時(shí)期數(shù)據(jù)管理的特點(diǎn)是:數(shù)據(jù)不保存;沒(méi)有專用的數(shù)據(jù)管理軟件,每個(gè)應(yīng)用都必須自己完成存儲(chǔ)結(jié)構(gòu)、存取方法、輸入輸入輸出等數(shù)據(jù)管理功能;一組數(shù)據(jù)對(duì)應(yīng)一個(gè)應(yīng)用,這使得程序之間可能有重復(fù)的數(shù)據(jù)。l 文件系統(tǒng)管理 這一階段在20世紀(jì)50年代后期至60年代中后期,計(jì)算機(jī)應(yīng)用開(kāi)始用于信息管理,由于數(shù)據(jù)存儲(chǔ)、檢索和維護(hù)等需求,使得相應(yīng)的研究開(kāi)展起來(lái)了,在硬件和軟件方面都
2、得到了發(fā)展,磁盤(pán)磁鼓出現(xiàn),操作系統(tǒng)也產(chǎn)生。這一時(shí)期數(shù)據(jù)管理的特點(diǎn)主要是: 數(shù)據(jù)保存,數(shù)據(jù)可以長(zhǎng)期保存在磁盤(pán)上; 有操作系統(tǒng)的文件管理系統(tǒng),文件結(jié)構(gòu)化,數(shù)據(jù)的物理結(jié)構(gòu)和邏輯結(jié)構(gòu)有了區(qū)別; 有了存儲(chǔ)文件后,數(shù)據(jù)可以不再僅僅屬于某一個(gè)應(yīng)用,而能進(jìn)行一定程度的復(fù)用。 但文件系統(tǒng)在數(shù)據(jù)管理方面存在缺陷,表現(xiàn)在數(shù)據(jù)冗余度大,數(shù)據(jù)和程序之間缺乏獨(dú)立性,容易造成數(shù)據(jù)的不一致性。l 數(shù)據(jù)庫(kù)系統(tǒng)(60年代末開(kāi)始)3數(shù)據(jù)倉(cāng)庫(kù)的發(fā)展的動(dòng)力數(shù)據(jù)倉(cāng)庫(kù)的發(fā)展的動(dòng)力l業(yè)務(wù)需求驅(qū)動(dòng)主要是詳細(xì)的分析科學(xué)的經(jīng)營(yíng)l市場(chǎng)活動(dòng)的細(xì)化和實(shí)施等l數(shù)據(jù)驅(qū)動(dòng)數(shù)據(jù)量不斷擴(kuò)大沒(méi)有數(shù)據(jù)倉(cāng)庫(kù)等相關(guān)技術(shù)很難全面了解企業(yè)l項(xiàng)目驅(qū)動(dòng)4數(shù)據(jù)倉(cāng)庫(kù)定義數(shù)據(jù)倉(cāng)庫(kù)定義
3、linmon的定義:datawarehouse is a subject-oriented,integrated,time-variant, and nonvolatile collection of data in support of managements decision making processl數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)是面向主題的 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)是集成的 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)是與時(shí)間相關(guān)的 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)是穩(wěn)定的 5簡(jiǎn)單的數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)簡(jiǎn)單的數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)6數(shù)據(jù)倉(cāng)庫(kù)實(shí)際應(yīng)用例子數(shù)據(jù)倉(cāng)庫(kù)實(shí)際應(yīng)用例子7數(shù)據(jù)集成數(shù)據(jù)集成l企業(yè)全面的經(jīng)營(yíng)數(shù)據(jù)oltp分散在各個(gè)不同系統(tǒng)中(事件獨(dú)立)l銀行:卡
4、、儲(chǔ)蓄、信貸、會(huì)計(jì)、中間業(yè)務(wù)等等系統(tǒng)lboss增值業(yè)務(wù)財(cái)務(wù)l集成數(shù)據(jù)建立關(guān)聯(lián)l事件關(guān)聯(lián)(業(yè)務(wù)之間是相互關(guān)聯(lián))l客戶數(shù)據(jù)統(tǒng)一歷史數(shù)據(jù)l大量歷史數(shù)據(jù)的保存問(wèn)題中國(guó)建設(shè)銀行一個(gè)中等規(guī)模的省產(chǎn)生每天的交易詳細(xì)記錄大約200m通常在業(yè)務(wù)系統(tǒng)中只保存當(dāng)日數(shù)據(jù)歷史數(shù)據(jù)查詢困難8數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)處理流程數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)處理流程數(shù)據(jù)格式檢查源數(shù)據(jù)清潔、抽取、轉(zhuǎn)換ods數(shù)據(jù)抽取、轉(zhuǎn)換裝載數(shù)據(jù)到dw裝載到olap報(bào)表展現(xiàn)業(yè)務(wù)系統(tǒng)數(shù)據(jù)/外部數(shù)據(jù)dw數(shù)據(jù)抽取、轉(zhuǎn)換dw數(shù)據(jù)生成報(bào)表裝載數(shù)據(jù)到ods分析性查詢9 etl簡(jiǎn)述簡(jiǎn)述10etl定義定義etl: extract-transform-load 數(shù)據(jù)抽?。╡xtract)、轉(zhuǎn)換
5、(transform)、裝載(load)的過(guò)程。 etl是bi/dw的核心和靈魂,按照統(tǒng)一的規(guī)則集成并提高數(shù)據(jù)的價(jià)值,是負(fù)責(zé)完成數(shù)據(jù)從數(shù)據(jù)源向目標(biāo)數(shù)據(jù)倉(cāng)庫(kù)轉(zhuǎn)化的過(guò)程,是實(shí)施數(shù)據(jù)倉(cāng)庫(kù)的重要步驟11etl應(yīng)用過(guò)程應(yīng)用過(guò)程l數(shù)據(jù)抽取 抽取主要是針對(duì)各個(gè)業(yè)務(wù)系統(tǒng)及不同網(wǎng)點(diǎn)的分散數(shù)據(jù),充分理解數(shù)據(jù)定義后,規(guī)劃需要的數(shù)據(jù)源及數(shù)據(jù)定義,制定可操作的數(shù)據(jù)源,制定增量抽取的定義。 (數(shù)據(jù)源和文件等多種形式)l數(shù)據(jù)傳輸 數(shù)據(jù)傳輸是通過(guò)網(wǎng)絡(luò)負(fù)責(zé)把遠(yuǎn)程的數(shù)據(jù)到本地目錄下。 12etl應(yīng)用過(guò)程應(yīng)用過(guò)程l數(shù)據(jù)的清洗和轉(zhuǎn)換 轉(zhuǎn)換主要是針對(duì)數(shù)據(jù)倉(cāng)庫(kù)建立的模型,通過(guò)一系列的轉(zhuǎn)換來(lái)實(shí)現(xiàn)將數(shù)據(jù)從業(yè)務(wù)模型 到分析模型,通過(guò)內(nèi)建的庫(kù)函
6、數(shù)、自定義腳本或其他的擴(kuò)展方式,實(shí)現(xiàn)了各種復(fù)雜的 轉(zhuǎn)換,并且支持調(diào)試環(huán)境,清楚的監(jiān)控?cái)?shù)據(jù)轉(zhuǎn)換的狀態(tài)。數(shù)據(jù)轉(zhuǎn)換是真正將源數(shù)據(jù)變?yōu)槟繕?biāo)數(shù)據(jù)的關(guān)鍵環(huán)節(jié),它包括數(shù)據(jù)格式轉(zhuǎn),換數(shù)據(jù)類型轉(zhuǎn)換、數(shù)據(jù)匯總計(jì)算、數(shù)據(jù)拼接等等。 清洗主要是針對(duì)系統(tǒng)的各個(gè)環(huán)節(jié)可能出現(xiàn)的數(shù)據(jù)二義性、重復(fù)、不完整、違反業(yè)務(wù) 規(guī)則等問(wèn)題,允許通過(guò)試抽取,將有問(wèn)題的紀(jì)錄先剔除出來(lái),根據(jù)實(shí)際情況調(diào)整相應(yīng) 的清洗操作。 13etl應(yīng)用過(guò)程應(yīng)用過(guò)程l數(shù)據(jù)加載入庫(kù) 數(shù)據(jù)加載主要是將經(jīng)過(guò)轉(zhuǎn)換和清洗的數(shù)據(jù)加載到數(shù)據(jù)倉(cāng)庫(kù)里面,即入庫(kù),可以通過(guò)數(shù)據(jù)文件直接裝載或直連數(shù)據(jù)庫(kù)的方式來(lái)進(jìn)行數(shù)據(jù)裝載,可以充分體現(xiàn)高效性letl調(diào)度 etl的調(diào)度控制方式有兩種:
7、自動(dòng)方式 由系統(tǒng)每天定時(shí)或準(zhǔn)實(shí)時(shí)啟動(dòng)后臺(tái)程序,自動(dòng)完成數(shù)據(jù)倉(cāng)庫(kù)etl處理流程。 手動(dòng)方式 用戶可以通過(guò)前臺(tái)監(jiān)控平臺(tái),對(duì)單個(gè)目標(biāo)或批量目標(biāo)進(jìn)行手工調(diào)度。 14etl應(yīng)用過(guò)程應(yīng)用過(guò)程l監(jiān)控 主要是監(jiān)控etl的整個(gè)過(guò)程,通過(guò)掃描etl各模塊的日志中的關(guān)鍵值,如記錄時(shí)間等信息與當(dāng)前的狀態(tài)作比較,如果超過(guò)某一個(gè)值,則認(rèn)為該模塊運(yùn)行可能出現(xiàn)問(wèn)提,應(yīng)告警。 15etl工具框架工具框架16olap簡(jiǎn)述簡(jiǎn)述17olap&oltp(on-line transaction processing)oltpolap用戶操作人員,低層管理人員決策人員,高級(jí)管理人員功能日常操作處理分析決策db 設(shè)計(jì)面向應(yīng)用面向主題
8、數(shù)據(jù)當(dāng)前的, 最新的細(xì)節(jié)的, 二維的分立的歷史的, 聚集的, 多維的集成的, 統(tǒng)一的存取讀/寫(xiě)數(shù)十條記錄讀上百萬(wàn)條記錄工作單位簡(jiǎn)單的事務(wù)復(fù)雜的查詢用戶數(shù)上千個(gè)上百個(gè)db 大小100mb-gb100gb-tb18什么是什么是olap定義定義1 :olap(聯(lián)機(jī)分析處理聯(lián)機(jī)分析處理)是針對(duì)特定問(wèn)題的聯(lián)機(jī)數(shù)據(jù)訪問(wèn)和分析。通過(guò)對(duì)信息(維數(shù)據(jù))的多種可能的觀察形式進(jìn)行快速、穩(wěn)定一致和交互性的存取,允許管理決策人員對(duì)數(shù)據(jù)進(jìn)行深入觀察。定義定義2 :olap(聯(lián)機(jī)分析處理聯(lián)機(jī)分析處理) 是使分析人員、管理人員或執(zhí)行人員能夠從多種角度對(duì)從原始數(shù)據(jù)中轉(zhuǎn)化出來(lái)的、能夠真正為用戶所理解的、并真實(shí)反映企業(yè)維特性的信息
9、進(jìn)行快速、一致、交互地存取,從而獲得對(duì)數(shù)據(jù)的更深入了解的一類軟件技術(shù)。(olap委員會(huì)的定義)olap的目標(biāo)的目標(biāo)是滿足決策支持或多維環(huán)境特定的查詢和報(bào)表需求,它的技術(shù)核心是“維”這個(gè)概念,因此olap也可以說(shuō)是多維數(shù)據(jù)分析工具的集合。19相關(guān)基本概念相關(guān)基本概念1.維:維:是人們觀察數(shù)據(jù)的特定角度,是考慮問(wèn)題時(shí)的一類屬性,屬性集合構(gòu)成一個(gè)維(時(shí)間維、地理維等)。2.維的層次:維的層次:人們觀察數(shù)據(jù)的某個(gè)特定角度(即某個(gè)維)還可以存在細(xì)節(jié)程度不同的各個(gè)描述方面(時(shí)間維:日期、月份、季度、年)。3.維的成員:維的成員:維的一個(gè)取值。是數(shù)據(jù)項(xiàng)在某維中位置的描述。(“某年某月某日”是在時(shí)間維上位置的
10、描述)4.多維數(shù)組:多維數(shù)組:維和變量的組合表示。一個(gè)多維數(shù)組可以表示為:(維1,維2,維n,變量)。(時(shí)間,地區(qū),產(chǎn)品,銷售額)5.數(shù)據(jù)單元數(shù)據(jù)單元(單元格單元格):多維數(shù)組的取值。(2000年1月,上海,筆記本電腦,$100000)20olap特性特性(1)(1)快速性快速性: :用戶對(duì)olap的快速反應(yīng)能力有很高的要求。系統(tǒng)應(yīng)能在5秒內(nèi)對(duì)用戶的大部分分析要求做出反應(yīng)。(2)(2)可分析性可分析性: :olap系統(tǒng)應(yīng)能處理與應(yīng)用有關(guān)的任何邏輯分析和統(tǒng)計(jì)分析。(3)(3)多維性多維性: :多維性是olap的關(guān)鍵屬性。系統(tǒng)必須提供對(duì)數(shù)據(jù)的多維視圖和分析,包括對(duì)層次維和多重層次維的完全支持。(4
11、)(4)信息性信息性: :不論數(shù)據(jù)量有多大,也不管數(shù)據(jù)存儲(chǔ)在何處,olap系統(tǒng)應(yīng)能及時(shí)獲得信息,并且管理大容量信息。21olap表現(xiàn)方式表現(xiàn)方式l鉆取改變維的層次,變換分析的粒度向上鉆?。╮oll up)和向下鉆?。╠rill down)l切片和切塊在一部分維上選定值后,關(guān)心度量數(shù)據(jù)在剩余維上的分布如果剩余的維只有兩個(gè),則是切片;如果有三個(gè),則是切塊l旋轉(zhuǎn)(pivot)旋轉(zhuǎn)是變換維的方向,即在表格中重新安排維的放置(例如行列互換)22olap的分析方法的分析方法(一一)切片、切塊切片、切塊23olap的分析方法的分析方法(二二)鉆取鉆取按時(shí)間維向下鉆取按時(shí)間維向上鉆取6024olap的分析方法
12、的分析方法(三三)旋轉(zhuǎn)旋轉(zhuǎn)25olap分類分類按照存儲(chǔ)方式olapmolapholaprolap按照處理地點(diǎn)client olapserver olap26olap實(shí)現(xiàn)方法實(shí)現(xiàn)方法lrolap數(shù)據(jù)存儲(chǔ):基于關(guān)系數(shù)據(jù)庫(kù)結(jié)構(gòu)分類l事實(shí)表:用來(lái)存儲(chǔ)數(shù)據(jù)和維關(guān)鍵字l維度表:每個(gè)維至少使用一個(gè)表來(lái)存放維的層次、成員類別等維的描述信息 數(shù)據(jù)模型l星型模式l雪花模式 lmolap(multidimensional olap)數(shù)據(jù)存儲(chǔ):使用多維數(shù)組存儲(chǔ)數(shù)據(jù)l基于多維數(shù)據(jù)組織的olap實(shí)現(xiàn)l以多維數(shù)據(jù)組織方式為核心結(jié)構(gòu)分類:l立方塊(cube)lholap(hybrid olap)數(shù)據(jù)存儲(chǔ):基于混合數(shù)據(jù)組織的o
13、lap實(shí)現(xiàn)l其他實(shí)現(xiàn)方法27oltp、rolap與與molap模式模式28rolap的的星型模式星型模式(star schema)l事實(shí)表:用來(lái)存儲(chǔ)事實(shí)的度量值和各個(gè)維的碼值。l維 表:用來(lái)存放維的元數(shù)據(jù)(維的層次、成員類別等描述信息)。time_idsales tablediscount%dollarsunitsfact tablemarket_idproduct_idscenarioproduct_idproduct tablesizebrandproduct_descdimension tabletime_idyearquarterperiod_descperiod tabledimen
14、sion tablescenario tableactualprofitscenariodimension tablemarket_idmarket tableregiondistrictmarket_descdimension table29molap的多維立方體的多維立方體(multicube)30rolap與與molap比較比較lrolap優(yōu)勢(shì)沒(méi)有大小限制現(xiàn)有的關(guān)系數(shù)據(jù)庫(kù)的技術(shù)可以沿用.可以通過(guò)sql實(shí)現(xiàn)詳細(xì)數(shù)據(jù)與概要數(shù)據(jù)的存儲(chǔ)現(xiàn)有關(guān)系型數(shù)據(jù)庫(kù)已經(jīng)對(duì)olap做了很多優(yōu)化,包括并行存儲(chǔ)、并行查詢、并行數(shù)據(jù)管理、基于成本的查詢優(yōu)化、位圖索引、sql 的olap擴(kuò)展(cube,rollup)等
15、大大提高roalp的速度lmolap優(yōu)勢(shì)性能好、響應(yīng)速度快專為olap所設(shè)計(jì)支持高性能的決策支持計(jì)算l復(fù)雜的跨維計(jì)算l多用戶的讀寫(xiě)操作l行級(jí)的計(jì)算31rolap與與molap比較比較(續(xù)續(xù))lrolap缺點(diǎn)一般比mdd響應(yīng)速度慢不支持有關(guān)預(yù)計(jì)算的讀寫(xiě)操作sql無(wú)法完成部分計(jì)算l無(wú)法完成多行的計(jì)算l無(wú)法完成維之間的計(jì)算lmolap缺點(diǎn)增加系統(tǒng)復(fù)雜度,增加系統(tǒng)培訓(xùn)與維護(hù)費(fèi)用受操作系統(tǒng)平臺(tái)中文件大小的限制,難以達(dá)到tb 級(jí)(只能1020g)需要進(jìn)行預(yù)計(jì)算,可能導(dǎo)致數(shù)據(jù)爆炸無(wú)法支持維的動(dòng)態(tài)變化缺乏數(shù)據(jù)模型和數(shù)據(jù)訪問(wèn)的標(biāo)準(zhǔn)32olap體系結(jié)構(gòu)體系結(jié)構(gòu)lrolap architecture lmolap
16、architecture sql result setinfo.requestresult setdatabase server r dbmsfront-end toolroalp architecturerolap servermetadatarequestprocessingsql result setinfo.requestresult setloaddatabase server rdbmsfront-end toolmoalp architecturemolap servermetadatarequestprocessing33olap體系結(jié)構(gòu)體系結(jié)構(gòu)(續(xù)續(xù))lholap archi
17、tectureresult setorsql querysql result setinfo.requestresult setloaddatabase server rdbmsfront-end toolhybrid architecturemolap server34流行流行的的olap工具介紹工具介紹lolap產(chǎn)品lhyperion essbaseloracle expresslibm db2 olap serverlsybase power dimension linformix metacubelca olap serverlmicrosoft analysis serviceslbriolcognoslbusiness objectlmicrostrategy lolap產(chǎn)品涉及的業(yè)務(wù)操作由外部或內(nèi)部數(shù)據(jù)源批量裝入數(shù)據(jù)由業(yè)務(wù)系統(tǒng)增量裝入數(shù)據(jù)沿?cái)?shù)據(jù)層次匯總數(shù)據(jù)對(duì)基于業(yè)務(wù)模型的新數(shù)據(jù)進(jìn)行計(jì)算時(shí)間序列分析高復(fù)雜的查詢沿?cái)?shù)據(jù)層次細(xì)化分析隨機(jī)查詢多個(gè)聯(lián)機(jī)會(huì)話(多用戶同時(shí)訪問(wèn))35olap展望展望l面向?qū)ο蟮穆?lián)機(jī)分析處理o3lap(object-oriented olap)l對(duì)象關(guān)系的聯(lián)機(jī)分析處理orolap (object relational olap)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年輪胎承包合同
- 2024年國(guó)際貨物買(mǎi)賣(mài)合同的商定與履行
- 代理合同范文教程指南
- 個(gè)人二手房買(mǎi)賣(mài)合同樣例
- 小區(qū)場(chǎng)地租用合同范文
- 大連市商品混凝土銷售合同
- 戶外廣告制作合同范本
- GB/T 35605-2024綠色產(chǎn)品評(píng)價(jià)墻體材料
- 設(shè)計(jì)合同協(xié)議書(shū)范本經(jīng)典版
- 裝修建設(shè)工程施工合同
- 05S502閥門(mén)井圖集
- 舒方特方格練習(xí)(共6頁(yè))
- 90、808系列鋁合金門(mén)窗自動(dòng)計(jì)算下料表
- 管道定額價(jià)目表
- 工期日歷天計(jì)算器
- 相敏檢波電路
- 私募股權(quán)投資基金基本知識(shí)(共45頁(yè)).ppt
- 第一章特殊教育概述-特殊教育概論(共4頁(yè))
- 淺談公務(wù)用車費(fèi)用審計(jì)
- 煉油廠化重整裝置生產(chǎn)原理及工藝
- (完整版)裝修主要材料一覽表
評(píng)論
0/150
提交評(píng)論