版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
UNITfour
數(shù)據(jù)倉庫技術
1 學完本講后,你應該能夠了解:數(shù)據(jù)倉庫中沒有聯(lián)機更新,因而數(shù)據(jù)倉庫比數(shù)據(jù)庫需要一系列更簡單的技術;但數(shù)據(jù)倉庫有很多特殊的技術上的需求;數(shù)據(jù)倉庫的專用DBMS與通用DBMS的區(qū)別;多維DBMS和數(shù)據(jù)倉庫之間的互補關系;數(shù)據(jù)倉庫環(huán)境中的元數(shù)據(jù)與操作型環(huán)境中的元數(shù)據(jù)所扮演的角色不同;為了理解和解釋一段時期內(nèi)的信息,數(shù)據(jù)倉庫需要一個全新的上下文維數(shù)據(jù)倉庫的高效刷新方法:”數(shù)據(jù)復制”和”變化數(shù)據(jù)捕捉”本講主要目標2
一.數(shù)據(jù)倉庫的技術需求 二.數(shù)據(jù)倉庫專用DBMS 三.多維DBMS和數(shù)據(jù)倉庫 四.數(shù)據(jù)倉庫環(huán)境中的元數(shù)據(jù) 五.上下文維和上下文信息 六.建立數(shù)據(jù)倉庫 七.數(shù)據(jù)倉庫的數(shù)據(jù)刷新內(nèi)容提綱3數(shù)據(jù)倉庫的技術需求4數(shù)據(jù)倉庫的技術需求數(shù)據(jù)倉庫與數(shù)據(jù)庫技術需求不同的原因:數(shù)據(jù)倉庫中沒有聯(lián)機數(shù)據(jù)更新 比數(shù)據(jù)庫的技術需求更簡單數(shù)據(jù)倉庫中的數(shù)據(jù)量非常大 要考慮大量和不同數(shù)據(jù)的存儲和查詢的技術和效率數(shù)據(jù)倉庫的數(shù)據(jù)來源于現(xiàn)有的系統(tǒng),而現(xiàn)有的各個系統(tǒng)可能使用不同的技術 不同來源數(shù)據(jù)的集成、轉換和傳送5數(shù)據(jù)倉庫的技術需求數(shù)據(jù)倉庫的技術需求管理大量數(shù)據(jù)管理各種各樣介質(zhì)上的數(shù)據(jù)方便的索引和監(jiān)視數(shù)據(jù)大量接口技術允許程序員將數(shù)據(jù)直接放在物理存儲設備上數(shù)據(jù)的并行存儲和訪問數(shù)據(jù)倉庫的元數(shù)據(jù)控制高效地裝入數(shù)據(jù)倉庫有效地使用索引以壓縮方式存儲數(shù)據(jù)支持復合鍵碼有效地管理變長數(shù)據(jù)有選擇地關閉鎖管理單獨索引處理從大容量存儲器迅速恢復6數(shù)據(jù)倉庫的技術需求管理大量數(shù)據(jù)分四個方面基本的管理技術效率存儲的費用處理的費用7數(shù)據(jù)倉庫的技術需求管理各種各樣介質(zhì)上的數(shù)據(jù) 考慮訪問速度和存儲費用,一個滿載的數(shù)據(jù)倉庫應該放在多種存儲介質(zhì)上:8數(shù)據(jù)倉庫的技術需求方便的索引和監(jiān)視數(shù)據(jù)成功的數(shù)據(jù)倉庫必須能方便和有效地檢索數(shù)據(jù)成功的數(shù)據(jù)倉庫的數(shù)據(jù)必須能被隨意地監(jiān)視監(jiān)視數(shù)據(jù)倉庫的數(shù)據(jù)的理由:決定是否應數(shù)據(jù)重組決定索引是否建立得恰當決定是否有太多數(shù)據(jù)溢出決定數(shù)據(jù)的統(tǒng)計成分決定剩余的可用空間9數(shù)據(jù)倉庫的技術需求大量接口技術能夠用各種不同的技術獲得和傳送數(shù)據(jù)接口不僅要高效,還要便于使用能夠在批模式下運行10數(shù)據(jù)據(jù)倉倉庫庫的的技技術術需需求求允許許程程序序員員將將數(shù)數(shù)據(jù)據(jù)直直接接放放在在物物理理存存儲儲設設備備上上為了了對對數(shù)數(shù)據(jù)據(jù)進進行行高高效效地地訪訪問問和和更更新新,程程序序員員需需要要在在物物理理的的塊塊/頁頁的的一一級級上上對對數(shù)數(shù)據(jù)據(jù)的的存存放放進進行行特特殊殊的的控控制制11數(shù)據(jù)據(jù)倉倉庫庫的的技技術術需需求求數(shù)據(jù)據(jù)的的并并行行存存儲儲和和訪訪問問當數(shù)數(shù)據(jù)據(jù)被被并并行行存存儲儲和和管管理理時時,性性能能會會提提高高很很多多12數(shù)據(jù)據(jù)倉倉庫庫的的技技術術需需求求數(shù)據(jù)據(jù)倉倉庫庫的的元元數(shù)數(shù)據(jù)據(jù)控控制制數(shù)據(jù)據(jù)倉倉庫庫的的用用戶戶應應該該能能夠夠?qū)υ獢?shù)數(shù)據(jù)據(jù)進進行行準準確確和和實實時時的的訪訪問問典型型的的元元數(shù)數(shù)據(jù)據(jù)數(shù)據(jù)據(jù)倉倉庫庫表表的的結結構構數(shù)據(jù)據(jù)倉倉庫庫表表的的屬屬性性數(shù)據(jù)據(jù)倉倉庫庫的的源源數(shù)數(shù)據(jù)據(jù)(記記錄錄系系統(tǒng)統(tǒng))從記記錄錄系系統(tǒng)統(tǒng)到到數(shù)數(shù)據(jù)據(jù)倉倉庫庫的的映映射射數(shù)據(jù)據(jù)模模型型的的規(guī)規(guī)格格說說明明抽取取日日志志訪問問數(shù)數(shù)據(jù)據(jù)的的公公用用例例行行程程序序13數(shù)據(jù)倉庫庫的技術術需求數(shù)據(jù)倉庫庫要有多多種語言言接口數(shù)據(jù)倉庫庫需要有有非常豐豐富的語語言接口口數(shù)據(jù)倉庫庫接口語語言需要要能夠一次次訪問一一組數(shù)據(jù)據(jù)能夠一次次訪問一一條記錄錄特別要保保證,為為了滿足足某個訪訪問要求求,能夠夠支持一一個或多多個索引引能夠插入入、刪除、更新數(shù)據(jù)據(jù)14數(shù)據(jù)倉庫庫的技術術需求高效地裝裝入數(shù)據(jù)據(jù)倉庫在裝入數(shù)數(shù)據(jù)的同同時,索索引也要要高效地地裝入15數(shù)據(jù)倉庫庫的技術術需求有效地使使用索引引數(shù)據(jù)倉庫庫技術不不僅必須須能夠方方便地支支持新索索引的創(chuàng)創(chuàng)建和裝裝入,而而且要能能夠高效效地訪問問這些索索引高效訪問問索引的的方法位映象的的方法多級索引引將部分或或全部索索引裝入入內(nèi)存當被索引引的數(shù)據(jù)據(jù)的次序序允許壓壓縮時,對索引引項進行行壓縮創(chuàng)建選擇擇索引或或范圍索索引16數(shù)據(jù)倉庫庫的技術術需求以壓縮方方式存儲儲數(shù)據(jù)數(shù)據(jù)倉庫庫中的數(shù)數(shù)據(jù)很少少更新,數(shù)據(jù)壓壓縮的管管理很簡簡單解壓縮的的開銷是是CPU開銷,不是I/O資資源的開開銷17數(shù)據(jù)倉庫庫的技術術需求支持復合合鍵碼復合鍵碼碼在數(shù)據(jù)據(jù)倉庫中中隨處可可見18數(shù)據(jù)倉庫庫的技術術需求有效地管管理變長長數(shù)據(jù)在數(shù)據(jù)倉倉庫中,變長數(shù)數(shù)據(jù)很穩(wěn)穩(wěn)定,沒沒有數(shù)據(jù)據(jù)庫中變變長數(shù)據(jù)據(jù)的固有有性能問問題19數(shù)據(jù)倉庫庫的技術術需求有選擇地地關閉鎖鎖管理應用加鎖鎖管理程程序的后后果之一一是它消消耗了相相當?shù)馁Y資源,即即使數(shù)據(jù)據(jù)不被更更新也是是一樣20數(shù)據(jù)倉庫庫的技術術需求單獨索引引處理當只通過過查看一一下索引引就可以以滿足某某些請求求時,由由于用不不著查看看數(shù)據(jù)的的最初數(shù)數(shù)據(jù)源而而會更加加有效21數(shù)據(jù)倉庫庫的技術術需求從大容量量存儲器器迅速恢恢復指能夠從從非直接接存取存存儲設備備快速地地恢復數(shù)數(shù)據(jù)倉庫庫表.當當可以從從二級存存儲設備備上恢復復時,就就可以節(jié)節(jié)約大量量開支22數(shù)據(jù)倉庫庫專用DBMS23數(shù)據(jù)倉庫庫專用DBMS數(shù)據(jù)倉庫庫專用數(shù)數(shù)據(jù)庫管管理系統(tǒng)統(tǒng)--是是特別為為數(shù)據(jù)倉倉庫和決決策支持持而優(yōu)化化設計的的管理系系統(tǒng).與通用DBMS的區(qū)別別專用DBMS的的處理類類型為裝裝入和訪訪問,而而通用DBMS必須適適合于記記錄級的的數(shù)據(jù)更更新專用DBMS不不需要自自由空間間,而通通用DBMS對對數(shù)據(jù)在在塊級上上的管理理要包括括一些附附加空間間專用DBMS可可以使用用更完善善的索引引結構,而通用用DBMS限制制有限數(shù)數(shù)量的索索引專用DBMS物物理上優(yōu)優(yōu)化數(shù)據(jù)據(jù)是為了了便于訪訪問和分分析,而而通用DBMS優(yōu)化數(shù)數(shù)據(jù)是為為了事務務的訪問問24數(shù)據(jù)倉庫庫專用DBMS是否應該改變變DBMS技技術?是當今可用的DBMS技術術,當數(shù)據(jù)倉倉庫首次載入入數(shù)據(jù)時并不不合適數(shù)據(jù)倉庫已經(jīng)經(jīng)變得非常之之大,以至于于應該提出新新的技術方法法數(shù)據(jù)倉庫的利利用已經(jīng)提高高許多,也改改變了許多,使得現(xiàn)在的的數(shù)據(jù)倉庫的的DBMS技技術已經(jīng)不適適用了25數(shù)據(jù)倉庫專用用DBMS是否應該考慮慮找一種新的的DBMS技技術?新的DBMS技術是否滿滿足可預知的的需求?從舊的DBMS向新的DBMS的轉轉換應該怎樣樣去做?轉換的程序應應該怎樣改變變?26多維DBMS和數(shù)據(jù)倉庫27多維DBMS和數(shù)據(jù)倉庫庫多維DBMS(有時也叫叫”數(shù)據(jù)集市市”)多維DBMS提供一種信信息系統(tǒng)結構構,使得對數(shù)數(shù)據(jù)的訪問非非常靈活,可可以以多種方方法對數(shù)據(jù)進進行分片、分割,動態(tài)地考察匯匯總數(shù)據(jù)和細細節(jié)數(shù)據(jù)的關關系多維DBMS不僅提供了了靈活性,還還可以對終端端用戶進行管管理多維DBMS和數(shù)據(jù)倉庫庫有互補關系系28多維DBMS和數(shù)據(jù)倉庫庫多維DBMS數(shù)據(jù)集市的的關系型基礎礎優(yōu)能支持大量數(shù)數(shù)據(jù)能支持數(shù)據(jù)的的動態(tài)連接已被證實是有有效的技術如果對數(shù)據(jù)的的使用模型不不清楚的話,關系型結構構與其他任何何結構一樣好好劣性能上不是最最好的不能單獨對訪訪問處理進行行優(yōu)化29多維DBMS和數(shù)據(jù)倉庫庫多維DBMS數(shù)據(jù)集市的的“立方體””基礎優(yōu)對于DSS處處理性能上是是優(yōu)化的能夠?qū)?shù)據(jù)的的快速訪問進進行優(yōu)化如果已知數(shù)據(jù)據(jù)訪問的模式式,則數(shù)據(jù)的的結構可以優(yōu)優(yōu)化能夠很輕松地地”切片和分分塊”可以用多種方方法檢測劣幾乎不能處理理像標準的關關系模型那么么多的數(shù)據(jù)不支持通用的的更新處理裝入的時間很很長如果對路徑的的訪問不被數(shù)數(shù)據(jù)設計所支支持的話,這這種結構就顯顯得不靈活對數(shù)據(jù)的動態(tài)態(tài)連接的支持持是有問題的的30數(shù)據(jù)倉庫中的的元數(shù)據(jù)31數(shù)據(jù)倉庫中的的元數(shù)據(jù)數(shù)據(jù)倉庫中的的元數(shù)據(jù)包括括兩大部分::有關集成的信信息數(shù)據(jù)倉庫字典典32數(shù)據(jù)倉庫中的的元數(shù)據(jù)數(shù)據(jù)倉庫中元元數(shù)據(jù)特點服務于DSS專業(yè)人員,而不僅僅是是IT人員33數(shù)據(jù)倉庫中的的元數(shù)據(jù)數(shù)據(jù)倉庫中元元數(shù)據(jù)特點涉及到從操作作型環(huán)境到數(shù)數(shù)據(jù)倉庫環(huán)境境的映射34數(shù)據(jù)倉庫中的的元數(shù)據(jù)數(shù)據(jù)倉庫中元元數(shù)據(jù)特點數(shù)據(jù)會存在一一段很長的時時間35上下文維和上下文信息36上下文維和上上下文信息數(shù)據(jù)倉庫中需需要上下文維維數(shù)據(jù)倉庫的一一個重要特征征是能夠?qū)σ灰欢螘r間的信信息進行存儲儲和管理為了理解和解解釋一段時間間內(nèi)的信息,需要信息發(fā)發(fā)生的背景三個級別的上上下文信息簡單上下文信信息復雜上下文信信息外部上下文信信息37上下文維和上上下文信息簡單上下文信信息與數(shù)據(jù)本身的的基本結構有有關,包括數(shù)據(jù)的結構數(shù)據(jù)的編碼數(shù)據(jù)的命名約約定描述數(shù)據(jù)的度度量數(shù)據(jù)的多少數(shù)據(jù)增長速度度數(shù)據(jù)的哪一部部分增長數(shù)據(jù)是怎樣被被使用的簡單上下文以以往是用字典典,目錄,系系統(tǒng)監(jiān)視器等等管理的38上下文維和上上下文信息復雜上下文信信息描述的是和簡簡單上下文相相同的數(shù)據(jù),但從不同的的側面描述,其強調(diào)下下面幾點產(chǎn)品定義市場領域定價包裝組織結構分發(fā)復雜上下文信信息非常有用用但基本,但但非常難以捉捉摸,它令人人難以捉摸是是因為它是想想當然的,并并存在于背景景環(huán)境中39上下文維和上上下文信息外部上下文信信息是公司以外的的,但在理解解隨時間變化化的信息方面面起重要作用用的信息,實實例包括經(jīng)濟預測通貨膨脹金融稅務經(jīng)濟增長政治信息競爭信息技術進展40上下文維和上上下文信息捕獲和管理上上下文信息復雜上下文信信息和外部上上下文信息是是非結構化的的上下文信息變變化很快以往管理上下下文信息的方方法的缺點信息的管理針針對信息系統(tǒng)統(tǒng)的開發(fā)者,而不是最終終用戶對上下文管理理的意圖是被被動的對上下文管理理的意圖在很很多情況下會會從開發(fā)計劃劃中刪除掉對上下文管理理的意圖僅局局限于簡單上上下文41建立數(shù)據(jù)倉庫庫42建立數(shù)據(jù)倉庫庫建立數(shù)據(jù)倉庫庫的任務就是是將數(shù)據(jù)源中中的數(shù)據(jù)整理理后按照數(shù)據(jù)據(jù)倉庫的結構構,放入數(shù)據(jù)據(jù)倉庫的物理理存儲介質(zhì)中中數(shù)據(jù)倉庫的建建立分為三個個子任務:抽取數(shù)據(jù)(extractingdata)轉換數(shù)據(jù)(transformingdata)加載數(shù)據(jù)(transporting/loadingdata)因此,建立數(shù)數(shù)據(jù)倉庫的過過程也稱為ETT過程或或ETL過程程43建立數(shù)據(jù)倉庫庫ETT過程ExtractsourcedataTransform/cleandataIndexandsummarizeLoaddataintoWHDetectchangesRefreshdataProgramsToolsETTOperational
systemsWarehouseBrowser:http://HollywoodX+Customers:arecorof
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年風電場35kV輸電線路工程合同3篇
- 2024建筑材料多孔磚買賣協(xié)議版B版
- 2024年運輸合同物流金融產(chǎn)品設計與風險管理3篇
- 中考英語-英語-任務型閱讀理解專題練習(附答案)
- 2025年度土地承包經(jīng)營權終止合同范本3篇
- 2025年度安全生產(chǎn)信息化系統(tǒng)設計與實施協(xié)議2篇
- 2025年度物流保險采購合同執(zhí)行細則3篇
- 湖南工藝美術職業(yè)學院《化妝品化學》2023-2024學年第一學期期末試卷
- 通化師范學院《植物生物技術實驗》2023-2024學年第一學期期末試卷
- 重慶醫(yī)科大學《精細化學品分析檢測技術》2023-2024學年第一學期期末試卷
- 《新媒體運營》高職新媒體運營全套教學課件
- 大學生創(chuàng)新創(chuàng)業(yè)教程 課件全套 王曉明 第1-11章 創(chuàng)新與創(chuàng)新能力 -中國國際大學生創(chuàng)新大賽與“挑戰(zhàn)杯”大學生創(chuàng)業(yè)計劃競賽
- 2024年蘭州大學專業(yè)課《金融學》科目期末試卷B(有答案)
- 初中物理寶典
- 人工智能基礎與應用-課程標準
- 綠化養(yǎng)護工作日記錄表
- 耳尖放血的護理
- 人工智能趣味科普系列
- 中醫(yī)五臟課件
- 安谷鐵龍煤礦整合技改施工組織設計樣本
- 《新概念英語第二冊》電子書、單詞、筆記、練習冊(附答案)匯編
評論
0/150
提交評論