




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
UNITfour
數(shù)據(jù)倉庫技術(shù)
1 學(xué)完本講后,你應(yīng)該能夠了解:數(shù)據(jù)倉庫中沒有聯(lián)機(jī)更新,因而數(shù)據(jù)倉庫比數(shù)據(jù)庫需要一系列更簡單的技術(shù);但數(shù)據(jù)倉庫有很多特殊的技術(shù)上的需求;數(shù)據(jù)倉庫的專用DBMS與通用DBMS的區(qū)別;多維DBMS和數(shù)據(jù)倉庫之間的互補(bǔ)關(guān)系;數(shù)據(jù)倉庫環(huán)境中的元數(shù)據(jù)與操作型環(huán)境中的元數(shù)據(jù)所扮演的角色不同;為了理解和解釋一段時(shí)期內(nèi)的信息,數(shù)據(jù)倉庫需要一個(gè)全新的上下文維數(shù)據(jù)倉庫的高效刷新方法:”數(shù)據(jù)復(fù)制”和”變化數(shù)據(jù)捕捉”本講主要目標(biāo)2
一.?dāng)?shù)據(jù)倉庫的技術(shù)需求 二.?dāng)?shù)據(jù)倉庫專用DBMS 三.多維DBMS和數(shù)據(jù)倉庫 四.?dāng)?shù)據(jù)倉庫環(huán)境中的元數(shù)據(jù) 五.上下文維和上下文信息 六.建立數(shù)據(jù)倉庫 七.數(shù)據(jù)倉庫的數(shù)據(jù)刷新內(nèi)容提綱3數(shù)據(jù)倉庫的技術(shù)需求4數(shù)據(jù)倉庫的技術(shù)需求數(shù)據(jù)倉庫與數(shù)據(jù)庫技術(shù)需求不同的原因:數(shù)據(jù)倉庫中沒有聯(lián)機(jī)數(shù)據(jù)更新 比數(shù)據(jù)庫的技術(shù)需求更簡單數(shù)據(jù)倉庫中的數(shù)據(jù)量非常大 要考慮大量和不同數(shù)據(jù)的存儲(chǔ)和查詢的技術(shù)和效率數(shù)據(jù)倉庫的數(shù)據(jù)來源于現(xiàn)有的系統(tǒng),而現(xiàn)有的各個(gè)系統(tǒng)可能使用不同的技術(shù) 不同來源數(shù)據(jù)的集成、轉(zhuǎn)換和傳送5數(shù)據(jù)倉庫的技術(shù)需求數(shù)據(jù)倉庫的技術(shù)需求管理大量數(shù)據(jù)管理各種各樣介質(zhì)上的數(shù)據(jù)方便的索引和監(jiān)視數(shù)據(jù)大量接口技術(shù)允許程序員將數(shù)據(jù)直接放在物理存儲(chǔ)設(shè)備上數(shù)據(jù)的并行存儲(chǔ)和訪問數(shù)據(jù)倉庫的元數(shù)據(jù)控制高效地裝入數(shù)據(jù)倉庫有效地使用索引以壓縮方式存儲(chǔ)數(shù)據(jù)支持復(fù)合鍵碼有效地管理變長數(shù)據(jù)有選擇地關(guān)閉鎖管理單獨(dú)索引處理從大容量存儲(chǔ)器迅速恢復(fù)6數(shù)據(jù)倉庫的技術(shù)需求管理大量數(shù)據(jù)分四個(gè)方面基本的管理技術(shù)效率存儲(chǔ)的費(fèi)用處理的費(fèi)用7數(shù)據(jù)倉庫的技術(shù)需求管理各種各樣介質(zhì)上的數(shù)據(jù) 考慮訪問速度和存儲(chǔ)費(fèi)用,一個(gè)滿載的數(shù)據(jù)倉庫應(yīng)該放在多種存儲(chǔ)介質(zhì)上:8數(shù)據(jù)倉庫的技術(shù)需求方便的索引和監(jiān)視數(shù)據(jù)成功的數(shù)據(jù)倉庫必須能方便和有效地檢索數(shù)據(jù)成功的數(shù)據(jù)倉庫的數(shù)據(jù)必須能被隨意地監(jiān)視監(jiān)視數(shù)據(jù)倉庫的數(shù)據(jù)的理由:決定是否應(yīng)數(shù)據(jù)重組決定索引是否建立得恰當(dāng)決定是否有太多數(shù)據(jù)溢出決定數(shù)據(jù)的統(tǒng)計(jì)成分決定剩余的可用空間9數(shù)據(jù)倉庫的技術(shù)需求大量接口技術(shù)能夠用各種不同的技術(shù)獲得和傳送數(shù)據(jù)接口不僅要高效,還要便于使用能夠在批模式下運(yùn)行10數(shù)據(jù)倉庫的技技術(shù)需求允許程序員將將數(shù)據(jù)直接放放在物理存儲(chǔ)儲(chǔ)設(shè)備上為了對(duì)數(shù)據(jù)進(jìn)進(jìn)行高效地訪訪問和更新,程序員需要要在物理的塊塊/頁的一級(jí)級(jí)上對(duì)數(shù)據(jù)的的存放進(jìn)行特特殊的控制11數(shù)據(jù)倉庫的技技術(shù)需求數(shù)據(jù)的并行存存儲(chǔ)和訪問當(dāng)數(shù)據(jù)被并行行存儲(chǔ)和管理理時(shí),性能會(huì)會(huì)提高很多12數(shù)據(jù)倉庫的技技術(shù)需求數(shù)據(jù)倉庫的元元數(shù)據(jù)控制數(shù)據(jù)倉庫的用用戶應(yīng)該能夠夠?qū)υ獢?shù)據(jù)進(jìn)進(jìn)行準(zhǔn)確和實(shí)實(shí)時(shí)的訪問典型的元數(shù)據(jù)據(jù)數(shù)據(jù)倉庫表的的結(jié)構(gòu)數(shù)據(jù)倉庫表的的屬性數(shù)據(jù)倉庫的源源數(shù)據(jù)(記錄錄系統(tǒng))從記錄系統(tǒng)到到數(shù)據(jù)倉庫的的映射數(shù)據(jù)模型的規(guī)規(guī)格說明抽取日志訪問數(shù)據(jù)的公公用例行程序序13數(shù)據(jù)倉庫的技技術(shù)需求數(shù)據(jù)倉庫要有有多種語言接接口數(shù)據(jù)倉庫需要要有非常豐富富的語言接口口數(shù)據(jù)倉庫接口口語言需要能夠一次訪問問一組數(shù)據(jù)能夠一次訪問問一條記錄特別要保證,為了滿足某某個(gè)訪問要求求,能夠支持持一個(gè)或多個(gè)個(gè)索引能夠插入、刪除、更新數(shù)據(jù)14數(shù)據(jù)倉庫的技技術(shù)需求高效地裝入數(shù)數(shù)據(jù)倉庫在裝入數(shù)據(jù)的的同時(shí),索引引也要高效地地裝入15數(shù)據(jù)倉庫的技技術(shù)需求有效地使用索索引數(shù)據(jù)倉庫技術(shù)術(shù)不僅必須能能夠方便地支支持新索引的的創(chuàng)建和裝入入,而且要能能夠高效地訪訪問這些索引引高效訪問索引引的方法位映象的方法法多級(jí)索引將部分或全部部索引裝入內(nèi)內(nèi)存當(dāng)被索引的數(shù)數(shù)據(jù)的次序允允許壓縮時(shí),對(duì)索引項(xiàng)進(jìn)進(jìn)行壓縮創(chuàng)建選擇索引引或范圍索引引16數(shù)據(jù)倉庫的技技術(shù)需求以壓縮方式存存儲(chǔ)數(shù)據(jù)數(shù)據(jù)倉庫中的的數(shù)據(jù)很少更更新,數(shù)據(jù)壓壓縮的管理很很簡單解壓縮的開銷銷是CPU開開銷,不是I/O資源的的開銷17數(shù)據(jù)倉庫的技技術(shù)需求支持復(fù)合鍵碼碼復(fù)合鍵碼在數(shù)數(shù)據(jù)倉庫中隨隨處可見18數(shù)據(jù)倉庫的技技術(shù)需求有效地管理變變長數(shù)據(jù)在數(shù)據(jù)倉庫中中,變長數(shù)據(jù)據(jù)很穩(wěn)定,沒沒有數(shù)據(jù)庫中中變長數(shù)據(jù)的的固有性能問問題19數(shù)據(jù)倉庫的技技術(shù)需求有選擇地關(guān)閉閉鎖管理應(yīng)用加鎖管理理程序的后果果之一是它消消耗了相當(dāng)?shù)牡馁Y源,即使使數(shù)據(jù)不被更更新也是一樣樣20數(shù)據(jù)倉庫的技技術(shù)需求單獨(dú)索引處理理當(dāng)只通過查看看一下索引就就可以滿足某某些請(qǐng)求時(shí),由于用不著著查看數(shù)據(jù)的的最初數(shù)據(jù)源源而會(huì)更加有有效21數(shù)據(jù)倉庫的技技術(shù)需求從大容量存儲(chǔ)儲(chǔ)器迅速恢復(fù)復(fù)指能夠從非直直接存取存儲(chǔ)儲(chǔ)設(shè)備快速地地恢復(fù)數(shù)據(jù)倉倉庫表.當(dāng)可可以從二級(jí)存存儲(chǔ)設(shè)備上恢恢復(fù)時(shí),就可可以節(jié)約大量量開支22數(shù)據(jù)倉庫專用用DBMS23數(shù)據(jù)倉庫專用用DBMS數(shù)據(jù)倉庫專用用數(shù)據(jù)庫管理理系統(tǒng)--是特別別為數(shù)據(jù)倉庫庫和決策支持持而優(yōu)化設(shè)計(jì)計(jì)的管理系統(tǒng)統(tǒng).與通用DBMS的區(qū)別專用DBMS的處理類型型為裝入和訪訪問,而通用用DBMS必必須適合于記記錄級(jí)的數(shù)據(jù)據(jù)更新專用DBMS不需要自由由空間,而通通用DBMS對(duì)數(shù)據(jù)在塊塊級(jí)上的管理理要包括一些些附加空間專用DBMS可以使用更更完善的索引引結(jié)構(gòu),而通通用DBMS限制有限數(shù)數(shù)量的索引專用DBMS物理上優(yōu)化化數(shù)據(jù)是為了了便于訪問和和分析,而通通用DBMS優(yōu)化數(shù)據(jù)是是為了事務(wù)的的訪問24數(shù)據(jù)倉庫專用用DBMS是否應(yīng)該改變變DBMS技技術(shù)?是當(dāng)今可用的DBMS技術(shù)術(shù),當(dāng)數(shù)據(jù)倉倉庫首次載入入數(shù)據(jù)時(shí)并不不合適數(shù)據(jù)倉庫已經(jīng)經(jīng)變得非常之之大,以至于于應(yīng)該提出新新的技術(shù)方法法數(shù)據(jù)倉庫的利利用已經(jīng)提高高許多,也改改變了許多,使得現(xiàn)在的的數(shù)據(jù)倉庫的的DBMS技技術(shù)已經(jīng)不適適用了25數(shù)據(jù)倉庫專用用DBMS是否應(yīng)該考慮慮找一種新的的DBMS技技術(shù)?新的DBMS技術(shù)是否滿滿足可預(yù)知的的需求?從舊的DBMS向新的DBMS的轉(zhuǎn)轉(zhuǎn)換應(yīng)該怎樣樣去做?轉(zhuǎn)換的程序應(yīng)應(yīng)該怎樣改變變?26多維DBMS和數(shù)據(jù)倉庫27多維DBMS和數(shù)據(jù)倉庫庫多維DBMS(有時(shí)也叫叫”數(shù)據(jù)集市市”)多維DBMS提供一種信信息系統(tǒng)結(jié)構(gòu)構(gòu),使得對(duì)數(shù)數(shù)據(jù)的訪問非非常靈活,可可以以多種方方法對(duì)數(shù)據(jù)進(jìn)進(jìn)行分片、分割,動(dòng)態(tài)地考察匯匯總數(shù)據(jù)和細(xì)細(xì)節(jié)數(shù)據(jù)的關(guān)關(guān)系多維DBMS不僅提供了了靈活性,還還可以對(duì)終端端用戶進(jìn)行管管理多維DBMS和數(shù)據(jù)倉庫庫有互補(bǔ)關(guān)系系28多維DBMS和數(shù)據(jù)倉庫庫多維DBMS數(shù)據(jù)集市的的關(guān)系型基礎(chǔ)礎(chǔ)優(yōu)能支持大量數(shù)數(shù)據(jù)能支持?jǐn)?shù)據(jù)的的動(dòng)態(tài)連接已被證實(shí)是有有效的技術(shù)如果對(duì)數(shù)據(jù)的的使用模型不不清楚的話,關(guān)系型結(jié)構(gòu)構(gòu)與其他任何何結(jié)構(gòu)一樣好好劣性能上不是最最好的不能單獨(dú)對(duì)訪訪問處理進(jìn)行行優(yōu)化29多維DBMS和數(shù)據(jù)倉庫庫多維DBMS數(shù)據(jù)集市的的“立方體””基礎(chǔ)優(yōu)對(duì)于DSS處處理性能上是是優(yōu)化的能夠?qū)?shù)據(jù)的的快速訪問進(jìn)進(jìn)行優(yōu)化如果已知數(shù)據(jù)據(jù)訪問的模式式,則數(shù)據(jù)的的結(jié)構(gòu)可以優(yōu)優(yōu)化能夠很輕松地地”切片和分分塊”可以用多種方方法檢測(cè)劣幾乎不能處理理像標(biāo)準(zhǔn)的關(guān)關(guān)系模型那么么多的數(shù)據(jù)不支持通用的的更新處理裝入的時(shí)間很很長如果對(duì)路徑的的訪問不被數(shù)數(shù)據(jù)設(shè)計(jì)所支支持的話,這這種結(jié)構(gòu)就顯顯得不靈活對(duì)數(shù)據(jù)的動(dòng)態(tài)態(tài)連接的支持持是有問題的的30數(shù)據(jù)倉庫中的的元數(shù)據(jù)31數(shù)據(jù)倉庫中的的元數(shù)據(jù)數(shù)據(jù)倉庫中的的元數(shù)據(jù)包括括兩大部分::有關(guān)集成的信信息數(shù)據(jù)倉庫字典典32數(shù)據(jù)倉庫中的的元數(shù)據(jù)數(shù)據(jù)倉庫中元元數(shù)據(jù)特點(diǎn)服務(wù)于DSS專業(yè)人員,而不僅僅是是IT人員33數(shù)據(jù)倉庫中的的元數(shù)據(jù)數(shù)據(jù)倉庫中元元數(shù)據(jù)特點(diǎn)涉及到從操作作型環(huán)境到數(shù)數(shù)據(jù)倉庫環(huán)境境的映射34數(shù)據(jù)倉庫中的的元數(shù)據(jù)數(shù)據(jù)倉庫中元元數(shù)據(jù)特點(diǎn)數(shù)據(jù)會(huì)存在一一段很長的時(shí)時(shí)間35上下文維和上下文信息36上下文維和上上下文信息數(shù)據(jù)倉庫中需需要上下文維維數(shù)據(jù)倉庫的一一個(gè)重要特征征是能夠?qū)σ灰欢螘r(shí)間的信信息進(jìn)行存儲(chǔ)儲(chǔ)和管理為了理解和解解釋一段時(shí)間間內(nèi)的信息,需要信息發(fā)發(fā)生的背景三個(gè)級(jí)別的上上下文信息簡單上下文信信息復(fù)雜上下文信信息外部上下文信信息37上下文維和上上下文信息簡單上下文信信息與數(shù)據(jù)本身的的基本結(jié)構(gòu)有有關(guān),包括數(shù)據(jù)的結(jié)構(gòu)數(shù)據(jù)的編碼數(shù)據(jù)的命名約約定描述數(shù)據(jù)的度度量數(shù)據(jù)的多少數(shù)據(jù)增長速度度數(shù)據(jù)的哪一部部分增長數(shù)據(jù)是怎樣被被使用的簡單上下文以以往是用字典典,目錄,系系統(tǒng)監(jiān)視器等等管理的38上下文維和上上下文信息復(fù)雜上下文信信息描述的是和簡簡單上下文相相同的數(shù)據(jù),但從不同的的側(cè)面描述,其強(qiáng)調(diào)下下面幾點(diǎn)產(chǎn)品定義市場(chǎng)領(lǐng)域定價(jià)包裝組織結(jié)構(gòu)分發(fā)復(fù)雜上下文信信息非常有用用但基本,但但非常難以捉捉摸,它令人人難以捉摸是是因?yàn)樗窍胂氘?dāng)然的,并并存在于背景景環(huán)境中39上下文維和上上下文信息外部上下文信信息是公司以外的的,但在理解解隨時(shí)間變化化的信息方面面起重要作用用的信息,實(shí)實(shí)例包括經(jīng)濟(jì)預(yù)測(cè)通貨膨脹金融稅務(wù)經(jīng)濟(jì)增長政治信息競爭信息技術(shù)進(jìn)展40上下文維和上上下文信息捕獲和管理上上下文信息復(fù)雜上下文信信息和外部上上下文信息是是非結(jié)構(gòu)化的的上下文信息變變化很快以往管理上下下文信息的方方法的缺點(diǎn)信息的管理針針對(duì)信息系統(tǒng)統(tǒng)的開發(fā)者,而不是最終終用戶對(duì)上下文管理理的意圖是被被動(dòng)的對(duì)上下文管理理的意圖在很很多情況下會(huì)會(huì)從開發(fā)計(jì)劃劃中刪除掉對(duì)上下文管理理的意圖僅局局限于簡單上上下文41建立數(shù)據(jù)倉庫庫42建立數(shù)據(jù)倉庫庫建立數(shù)據(jù)倉庫庫的任務(wù)就是是將數(shù)據(jù)源中中的數(shù)據(jù)整理理后按照數(shù)據(jù)據(jù)倉庫的結(jié)構(gòu)構(gòu),放入數(shù)據(jù)據(jù)倉庫的物理理存儲(chǔ)介質(zhì)中中數(shù)據(jù)倉庫的建建立分為三個(gè)個(gè)子任務(wù):抽取數(shù)據(jù)(extractingdata)轉(zhuǎn)換數(shù)據(jù)(transformingdata)加載數(shù)據(jù)(transporting/loadingdata)因此,建立數(shù)數(shù)據(jù)倉庫的過過程也稱為ETT過程或或ETL過程程43建立數(shù)據(jù)倉庫庫ETT過程ExtractsourcedataTransform/cleandataIndexandsummarizeLoaddataintoWHDetectchangesRefreshdataProgramsToolsETTOperational
systemsWarehouseBrowser:http://HollywoodX+Customers:arecorofasX+Customers:Browser:http://HollywoodBrowser:http://HollywoodX+Gateways44數(shù)據(jù)倉庫的數(shù)據(jù)刷新45數(shù)據(jù)倉庫的數(shù)數(shù)據(jù)刷新數(shù)據(jù)倉庫的數(shù)數(shù)據(jù)定期刷新新是一項(xiàng)巨大大的開銷數(shù)據(jù)刷新的方方法直接讀取老的的傳統(tǒng)的數(shù)據(jù)據(jù)庫--開銷非非常大在傳統(tǒng)環(huán)境中中捕捉正在修修改的數(shù)據(jù)數(shù)據(jù)復(fù)制--改變發(fā)發(fā)生時(shí)數(shù)據(jù)被被捕獲,設(shè)置置一個(gè)”觸發(fā)發(fā)器”來捕獲獲數(shù)據(jù)的更新新活動(dòng)變化數(shù)據(jù)捕獲獲--將發(fā)生生了的改變從從在聯(lián)機(jī)更新新時(shí)生成的日日志中提取出出來46學(xué)完本講后,,你應(yīng)該能夠夠了解:數(shù)據(jù)倉庫中沒沒有聯(lián)機(jī)更新新,因而數(shù)據(jù)據(jù)倉庫比數(shù)據(jù)據(jù)庫需要一系系
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度智能制造企業(yè)生產(chǎn)管理人才招聘與智能制造協(xié)議
- 二零二五年度立體停車設(shè)備研發(fā)與委托運(yùn)營管理合同
- 二零二五年度航空航天就業(yè)勞動(dòng)合同
- 二零二五年度叉車安全風(fēng)險(xiǎn)評(píng)估與整改合同
- 圍城深度解讀與評(píng)析征文
- 新產(chǎn)品市場(chǎng)推廣策略及執(zhí)行方案
- 工業(yè)自動(dòng)化控制系統(tǒng)設(shè)計(jì)與維護(hù)服務(wù)協(xié)議
- 《天文觀測(cè)與天體物理學(xué)習(xí)計(jì)劃》
- 行業(yè)市場(chǎng)深度調(diào)研分析
- 互聯(lián)網(wǎng)+三農(nóng)營銷模式創(chuàng)新案例集
- 2024年湖南有色金屬職業(yè)技術(shù)學(xué)院單招職業(yè)適應(yīng)性測(cè)試題庫帶答案
- 創(chuàng)傷中心匯報(bào)
- 2023年春節(jié)美化亮化工程施工用電預(yù)控措施和事故應(yīng)急預(yù)案
- 2024年長沙職業(yè)技術(shù)學(xué)院單招職業(yè)技能測(cè)試題庫及答案解析
- 與醫(yī)保有關(guān)的信息系統(tǒng)相關(guān)材料-模板
- 聚乙烯(PE)孔網(wǎng)骨架塑鋼復(fù)合穩(wěn)態(tài)管
- 范文語文評(píng)課稿15篇
- 2024年西安電力高等專科學(xué)校高職單招(英語/數(shù)學(xué)/語文)筆試歷年參考題庫含答案解析
- 2016-2023年德州科技職業(yè)學(xué)院高職單招(英語/數(shù)學(xué)/語文)筆試歷年參考題庫含答案解析
- 外研版三年級(jí)下冊(cè)英語全冊(cè)教案(2024年2月修訂)
- 大學(xué)生返回母校宣講
評(píng)論
0/150
提交評(píng)論