數(shù)據(jù)倉庫1培訓(xùn)資料課件_第1頁
數(shù)據(jù)倉庫1培訓(xùn)資料課件_第2頁
數(shù)據(jù)倉庫1培訓(xùn)資料課件_第3頁
數(shù)據(jù)倉庫1培訓(xùn)資料課件_第4頁
數(shù)據(jù)倉庫1培訓(xùn)資料課件_第5頁
已閱讀5頁,還剩38頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)倉庫第一頁,共四十三頁。數(shù)據(jù)倉庫技術(shù)概述1.1

數(shù)據(jù)庫到數(shù)據(jù)倉庫1.2數(shù)據(jù)倉庫的概念和特征1.3數(shù)據(jù)倉庫中的數(shù)據(jù)組織1.4數(shù)據(jù)倉庫體系結(jié)構(gòu)2第二頁,共四十三頁。傳統(tǒng)的數(shù)據(jù)環(huán)境:以數(shù)據(jù)庫為中心,數(shù)據(jù)資源組織方式單一。數(shù)據(jù)處理不斷有新需求,從事務(wù)處理,批處理到?jīng)Q策分析等,且不同類型的數(shù)據(jù)處理有不同的處理特點(diǎn)。人們認(rèn)識(shí)到:當(dāng)數(shù)據(jù)處理方式發(fā)生變化,而數(shù)據(jù)組織方式并沒有改變時(shí),就會(huì)出現(xiàn)數(shù)據(jù)處理方式和數(shù)據(jù)環(huán)境不相適應(yīng),從而使得數(shù)據(jù)處理不能獲得理想的結(jié)果。結(jié)論:以單一的數(shù)據(jù)組織方式進(jìn)行組織的數(shù)據(jù)庫,不能滿足數(shù)據(jù)處理多樣化的要求,數(shù)據(jù)倉庫技術(shù)應(yīng)運(yùn)而生。1.1從數(shù)據(jù)庫到數(shù)據(jù)倉庫3第三頁,共四十三頁。1.1從數(shù)據(jù)庫到數(shù)據(jù)倉庫數(shù)據(jù)處理具有多層次的特點(diǎn),可分為兩大類:操作型處理On-LineTransactionProcessing聯(lián)機(jī)事務(wù)處理系統(tǒng)(OLTP)也稱為面向交易的處理系統(tǒng),其基本特征是用戶的原始數(shù)據(jù)可以立即傳送到計(jì)算中心進(jìn)行處理,并在很短的時(shí)間內(nèi)給出處理結(jié)果。這樣做的最大優(yōu)點(diǎn)是可以即時(shí)地處理輸入的數(shù)據(jù),及時(shí)地回答。也稱為實(shí)時(shí)系統(tǒng)(RealtimeSystem)。衡量聯(lián)機(jī)事務(wù)處理系統(tǒng)的一個(gè)重要性能指標(biāo)是系統(tǒng)性能,具體體現(xiàn)為實(shí)時(shí)響應(yīng)時(shí)間(ResponseTime),即用戶在終端上送入數(shù)據(jù)之后,到計(jì)算機(jī)對這個(gè)請求給出答復(fù)所需要的時(shí)間。

OLTP數(shù)據(jù)庫旨在使事務(wù)應(yīng)用程序僅寫入所需的數(shù)據(jù),以便盡快處理單個(gè)事務(wù)。4第四頁,共四十三頁。1.1從數(shù)據(jù)庫到數(shù)據(jù)倉庫分析型處理用于管理人員的決策分析,經(jīng)常要訪問大量的歷史數(shù)據(jù),而很少對數(shù)據(jù)庫進(jìn)行寫操作,除非對數(shù)據(jù)庫進(jìn)行更新或裝入時(shí)。兩種不同類型的數(shù)據(jù)處理存在巨大差異,從應(yīng)用的對象到數(shù)據(jù)的結(jié)構(gòu)、內(nèi)容和用法都不相同。5第五頁,共四十三頁。1.1從數(shù)據(jù)庫到數(shù)據(jù)倉庫(1)事務(wù)處理和分析處理的性能特征不同事務(wù)處理環(huán)境:用戶的行為特點(diǎn)是數(shù)據(jù)的存取操作頻率高,而每次操作處理的時(shí)間短。因此系統(tǒng)可以允許多個(gè)用戶按分時(shí)方式使用系統(tǒng)資源,同時(shí)保持較短的響應(yīng)時(shí)間。分析處理環(huán)境:用戶的行為模式與上面完全不同,一個(gè)分析處理程序可能要連續(xù)運(yùn)行幾個(gè)小時(shí),從而消耗大量系統(tǒng)資源。6第六頁,共四十三頁。1.1從數(shù)據(jù)庫到數(shù)據(jù)倉庫【例】在OLTP系統(tǒng)中,事務(wù)的吞吐量比率通常使用TPS或TPM來表示。TPS:TransactionsPerSecond,即服務(wù)器每秒處理的事務(wù)數(shù)。TPM:TransactionsPerMinute,tpm值在國內(nèi)外被廣泛用于衡量計(jì)算機(jī)系統(tǒng)的事務(wù)處理能力。在DSS中,吞吐量通常用每小時(shí)處理的查詢數(shù)QPH來表示。這些查詢數(shù)量龐大,在它完成前,占用絕大部分機(jī)器資源。一個(gè)OLTP系統(tǒng)即使很大,也不過300GB左右,而一個(gè)大型DSS的規(guī)模可以輕易達(dá)到1TB。(1TB=1000GB)7第七頁,共四十三頁。1.1從數(shù)據(jù)庫到數(shù)據(jù)倉庫(2)數(shù)據(jù)集成問題事務(wù)處理:目的在于使業(yè)務(wù)處理自動(dòng)化,一般只需要與本部門業(yè)務(wù)相關(guān)的當(dāng)前數(shù)據(jù),而對整個(gè)企業(yè)范圍內(nèi)的集成應(yīng)用考慮很少。分析處理:需要集成的數(shù)據(jù),不僅需要整個(gè)企業(yè)內(nèi)部各部門的相關(guān)數(shù)據(jù),還需要企業(yè)外部、競爭對手等的相關(guān)數(shù)據(jù)。8第八頁,共四十三頁。1.1從數(shù)據(jù)庫到數(shù)據(jù)倉庫當(dāng)前絕大多數(shù)企業(yè)內(nèi)部數(shù)據(jù)的真正狀況是分散而非集成的,主要原因:事務(wù)處理應(yīng)用的分散“蜘蛛網(wǎng)”問題數(shù)據(jù)不一致問題9第九頁,共四十三頁。10第十頁,共四十三頁。11第十一頁,共四十三頁。12第十二頁,共四十三頁。13第十三頁,共四十三頁。14第十四頁,共四十三頁。15第十五頁,共四十三頁。16第十六頁,共四十三頁。1.1從數(shù)據(jù)庫到數(shù)據(jù)倉庫(3)歷史數(shù)據(jù)問題事務(wù)處理:一般只需當(dāng)前數(shù)據(jù)。數(shù)據(jù)庫中也只存儲(chǔ)短期數(shù)據(jù),并且不同數(shù)據(jù)保存期也不相同。即使有歷史數(shù)據(jù)保存,也不利用。分析處理:對決策者而言,歷史數(shù)據(jù)相當(dāng)重要,許多分析方法必須以大量歷史數(shù)據(jù)為依托,沒有對歷史數(shù)據(jù)的詳細(xì)分析,很難把握企業(yè)的發(fā)展趨勢。17第十七頁,共四十三頁。1.1從數(shù)據(jù)庫到數(shù)據(jù)倉庫(4)數(shù)據(jù)的綜合問題事務(wù)處理積累了大量的細(xì)節(jié)數(shù)據(jù),一般DSS不對細(xì)節(jié)數(shù)據(jù)分析。一是細(xì)節(jié)數(shù)據(jù)量大,嚴(yán)重影響分析效率;二是太多的細(xì)節(jié)數(shù)據(jù)不利于分析人員將注意力集中在有用信息上。因此,分析處理前經(jīng)常要綜合,而事務(wù)處理系統(tǒng)不具備這種綜合能力。18第十八頁,共四十三頁。第一章數(shù)據(jù)倉庫技術(shù)概述1.1

數(shù)據(jù)庫到數(shù)據(jù)倉庫1.2數(shù)據(jù)倉庫的概念和特征1.3數(shù)據(jù)倉庫中的數(shù)據(jù)組織1.4數(shù)據(jù)倉庫體系結(jié)構(gòu)

19第十九頁,共四十三頁。1.2數(shù)據(jù)倉庫的概念和特征數(shù)據(jù)倉庫系統(tǒng)構(gòu)造方面的領(lǐng)頭設(shè)計(jì)師W.H.Inmen

對數(shù)據(jù)倉庫的定義為:數(shù)據(jù)倉庫是面向主題的、集成的、具有時(shí)間特征的、穩(wěn)定的數(shù)據(jù)集合,用于支持經(jīng)營管理中的決策制定過程。20第二十頁,共四十三頁。1.2數(shù)據(jù)倉庫的概念和特征從定義可看出:DW是明確為決策支持服務(wù),而DB是為事務(wù)處理服務(wù)。數(shù)據(jù)倉庫的主要特征:數(shù)據(jù)倉庫的數(shù)據(jù)是面向主題的數(shù)據(jù)倉庫的數(shù)據(jù)是集成的數(shù)據(jù)倉庫的數(shù)據(jù)是不可更新的數(shù)據(jù)倉庫的數(shù)據(jù)是隨時(shí)間不斷變化的下面討論數(shù)據(jù)倉庫的關(guān)鍵特征:21第二十一頁,共四十三頁。1.2數(shù)據(jù)倉庫的概念和特征1.數(shù)據(jù)倉庫的數(shù)據(jù)是面向主題的

從邏輯意義上講,主題是企業(yè)中某一宏觀分析領(lǐng)域所涉及的分析對象。主題是一個(gè)抽象的概念,是在較高層次上將企業(yè)信息系統(tǒng)中的數(shù)據(jù)綜合、歸類并進(jìn)行分析利用的抽象。所謂較高層次是相對面向應(yīng)用的數(shù)據(jù)組織方式而言的,是指按照主題進(jìn)行數(shù)據(jù)組織的方式具有更高的數(shù)據(jù)抽象級(jí)別。22第二十二頁,共四十三頁。1.2數(shù)據(jù)倉庫的概念和特征

-DW的數(shù)據(jù)是面向主題的面向應(yīng)用的數(shù)據(jù)經(jīng)常會(huì)隨著各種經(jīng)營環(huán)境的改變而發(fā)生變化,面向主題的數(shù)據(jù)則因?yàn)楸葢?yīng)用具有更高的抽象層次而比較穩(wěn)定。但數(shù)據(jù)的產(chǎn)生都是基于應(yīng)用而產(chǎn)生,因此數(shù)據(jù)在進(jìn)入數(shù)據(jù)倉庫之前,要經(jīng)過加工和集成,將原始數(shù)據(jù)結(jié)構(gòu)做一個(gè)從面向應(yīng)用到面向主題的轉(zhuǎn)變。23第二十三頁,共四十三頁。1.2數(shù)據(jù)倉庫的概念和特征

-DW的數(shù)據(jù)是面向主題的【例】一家采用“會(huì)員制”經(jīng)營方式的商場,按業(yè)務(wù)建立起若干子系統(tǒng),并按業(yè)務(wù)處理要求建立各自數(shù)據(jù)庫模式:采購子系統(tǒng):訂單(訂單號(hào),供應(yīng)商號(hào),總金額,日期)訂單細(xì)則(訂單號(hào),商品號(hào),類別,單價(jià),數(shù)量)供應(yīng)商(供應(yīng)商號(hào),供應(yīng)商名,地址,電話)銷售子系統(tǒng):顧客(顧客號(hào),姓名,性別,年齡,文化程度,地址,電話)銷售(員工號(hào),顧客號(hào),商品號(hào),數(shù)量,單價(jià),日期)24第二十四頁,共四十三頁。1.2數(shù)據(jù)倉庫的概念和特征

-DW的數(shù)據(jù)是面向主題的人事管理子系統(tǒng):員工(員工號(hào),姓名,性別,年齡,文化程度,部門號(hào))部門(部門號(hào),部門名稱,部門主管,電話)庫存管理子系統(tǒng):領(lǐng)料單(領(lǐng)料單號(hào),領(lǐng)料人,商品號(hào),數(shù)量,日期)進(jìn)料單(進(jìn)料單號(hào),訂單號(hào),進(jìn)料人,收料人,日期)庫存(商品號(hào),庫房號(hào),庫存量,日期)庫房(庫房號(hào),倉庫管理員,地點(diǎn),庫存商品描述)25第二十五頁,共四十三頁。1.2數(shù)據(jù)倉庫的概念和特征

-DW的數(shù)據(jù)是面向主題的傳統(tǒng)的面向應(yīng)用進(jìn)行數(shù)據(jù)組織方式的特征為:重點(diǎn)在“數(shù)據(jù)”和“處理”;通常要反映一個(gè)企業(yè)內(nèi)數(shù)據(jù)的動(dòng)態(tài)特征;所生成的各項(xiàng)數(shù)據(jù)庫模式與企業(yè)實(shí)際的業(yè)務(wù)處理流程中所涉及的單據(jù)及文檔,有很好的對應(yīng)關(guān)系;并沒有真正體現(xiàn)數(shù)據(jù)與數(shù)據(jù)處理的分離。26第二十六頁,共四十三頁。1.2數(shù)據(jù)倉庫的概念和特征

-DW的數(shù)據(jù)是面向主題的面向應(yīng)用到面向主題的轉(zhuǎn)變:面向主題的數(shù)據(jù)組織方式應(yīng)分為兩個(gè)步驟:抽取主題確定每個(gè)主題所包含的數(shù)據(jù)內(nèi)容27第二十七頁,共四十三頁。

抽取主題

應(yīng)該是按照分析的要求來確定主題。1.在OLTP數(shù)據(jù)庫中進(jìn)行數(shù)據(jù)組織時(shí)要考慮如何更好地記錄下每一筆采購業(yè)務(wù)的情況,我們用“訂單”、“訂單細(xì)則”以及“供應(yīng)商”三個(gè)數(shù)據(jù)庫模式來描述一筆采購業(yè)務(wù)所涉及的數(shù)據(jù)內(nèi)容,這就是面向應(yīng)用來進(jìn)行數(shù)據(jù)組織的方式;

28第二十八頁,共四十三頁。2.在數(shù)據(jù)倉庫中,對于商品采購的分析活動(dòng)主要是要了解各供應(yīng)商的情況,顯然“供應(yīng)商”是采購分析的對象。我們并不需要象“訂單”和“訂單細(xì)則”這樣的數(shù)據(jù)庫模式,因?yàn)樗鼈儼氖羌儾僮餍偷臄?shù)據(jù);但是僅僅只用OLTP數(shù)據(jù)庫的“供應(yīng)商”中的數(shù)據(jù)又是不夠的,因而要重新組織“供應(yīng)商”這個(gè)主題。29第二十九頁,共四十三頁。

確定主題的數(shù)據(jù)內(nèi)容

概括各種分析對象,我們抽取了商場的供應(yīng)商、商品、顧客三個(gè)主題。然后確定每個(gè)主題所應(yīng)包含的數(shù)據(jù)內(nèi)容。以“商品”主題為例,應(yīng)該包括兩個(gè)方面的內(nèi)容:第一,商品固有信息,如商品名稱,商品類別以及型號(hào)、顏色等描述信息;第二,商品的流動(dòng)信息,如某商品采購信息、商品銷售信息及商品庫存信息等。30第三十頁,共四十三頁。1.2數(shù)據(jù)倉庫的概念和特征

-DW的數(shù)據(jù)是面向主題的商品:商品固有信息:商品號(hào),商品名,類別,顏色等商品采購信息:商品號(hào),供應(yīng)商號(hào),供應(yīng)價(jià),供應(yīng)日期,供應(yīng)量等商品銷售信息:商品號(hào),顧客號(hào),售價(jià),銷售日期,銷售量等商品庫存信息:商品號(hào),庫房號(hào),庫存量,日期等31第三十一頁,共四十三頁。1.2數(shù)據(jù)倉庫的概念和特征

-DW的數(shù)據(jù)是面向主題的供應(yīng)商:供應(yīng)商固有信息:供應(yīng)商號(hào),供應(yīng)商名,地址,電話等。供應(yīng)商品信息:供應(yīng)商號(hào),供應(yīng)價(jià),供應(yīng)日期,供應(yīng)量等。顧客:顧客固有信息:顧客號(hào),顧客名,性別,年齡,文化程度,住址,電話等。顧客購物信息:顧客號(hào),商品號(hào),售價(jià),購買日期,購買量等。32第三十二頁,共四十三頁。比照商場原有數(shù)據(jù)庫的數(shù)據(jù)模式,我們可以看到:

首先,在從面向應(yīng)用到面向主題的轉(zhuǎn)變過程中,丟棄了與分析活動(dòng)關(guān)系不大的信息。

其次,在原有的數(shù)據(jù)庫模式中,關(guān)于商品的信息分散在各子系統(tǒng)中。33第三十三頁,共四十三頁。

面向主題的數(shù)據(jù)組織方式是根據(jù)分析要求將數(shù)據(jù)組織成一個(gè)完備的分析領(lǐng)域,即主題域。主題域應(yīng)該具有:1.獨(dú)立性,它必須具有獨(dú)立內(nèi)涵。2.完備性,就是要求對任何一個(gè)對商品的分析處理要求,我們應(yīng)該能在“商品”這一主題內(nèi)找到該分析處理所要求的內(nèi)容。不同主題之間也有重疊的內(nèi)容,但只是邏輯上的重疊,細(xì)節(jié)級(jí)上的重疊。供應(yīng)商顧客商品34第三十四頁,共四十三頁。

主題是一個(gè)在較高層次上對數(shù)據(jù)的抽象,這使得面向主題的數(shù)據(jù)組織可以獨(dú)立于數(shù)據(jù)的處理邏輯,因而可以在這種數(shù)據(jù)環(huán)境上方便地開發(fā)新的分析型應(yīng)用;同時(shí)這種獨(dú)立性也是建設(shè)企業(yè)全局?jǐn)?shù)據(jù)庫所要求的,所以面向主題不僅是適用于分析型數(shù)據(jù)環(huán)境的數(shù)據(jù)組織方式,同時(shí)也是適用于建設(shè)企業(yè)全局?jǐn)?shù)據(jù)庫的組織。35第三十五頁,共四十三頁。1.2數(shù)據(jù)倉庫的概念和特征

-DW的數(shù)據(jù)是面向主題的主題的實(shí)現(xiàn):一個(gè)主題可劃分成多個(gè)表,基于一個(gè)主題的所有表都有一個(gè)公共碼,作為主碼的一部分,將各表統(tǒng)一起來,體現(xiàn)它們是屬于一個(gè)主題。例如實(shí)現(xiàn)商品主題:36第三十六頁,共四十三頁。1.2數(shù)據(jù)倉庫的概念和特征

-DW的數(shù)據(jù)是面向主題的主題:商品公共碼鍵:商品號(hào)商品表(商品號(hào),商品名,類型,顏色,…)采購表1(商品號(hào),供應(yīng)商號(hào),供應(yīng)日期,供應(yīng)價(jià),…)

采購表2(商品號(hào),時(shí)間段,采購總量,…)

:采購表n(商品號(hào),時(shí)間段,采購總量,…)描述的是商品的固有信息描述的是商品的采購細(xì)節(jié)信息時(shí)間段不等的采購綜合表37第三十七頁,共四十三頁。1.2數(shù)據(jù)倉庫的概念和特征

-DW的數(shù)據(jù)是面向主題的銷售表1(商品號(hào),顧客號(hào),銷售日期,售價(jià),銷售量,…)銷售表2(商品號(hào),時(shí)間段,銷售總量,…)

:銷售表n(商品號(hào),時(shí)間段,銷售總量,…)庫存表1(商品號(hào),庫房號(hào),庫存量,日期,…)

庫存表2(商品號(hào),庫房號(hào),庫存量,月份,…)

:庫存表n(…,…)38第三十八頁,共四十三頁。1.2數(shù)據(jù)倉庫的概念和特征2.數(shù)據(jù)倉庫的數(shù)據(jù)是集成的通常,構(gòu)造數(shù)據(jù)倉庫是將多個(gè)異種數(shù)據(jù)源(如關(guān)系DB、一般文件和聯(lián)機(jī)事務(wù)處理記錄)集成在一起,使用數(shù)據(jù)清理和數(shù)據(jù)集成技術(shù),確保命名約定、編碼結(jié)構(gòu)、屬性度量等的一致性。主要做兩個(gè)工作統(tǒng)一源數(shù)據(jù)中所有矛盾之處進(jìn)行數(shù)據(jù)綜合和計(jì)算39第三十九頁,共四十三頁。1.2數(shù)據(jù)倉庫的概念和特征3.數(shù)據(jù)倉庫的數(shù)據(jù)是穩(wěn)定的

數(shù)據(jù)倉庫的數(shù)據(jù)反映的是一段相當(dāng)長時(shí)間內(nèi)的歷史數(shù)據(jù),是不同時(shí)點(diǎn)的數(shù)據(jù)庫快照的集合,以及基于這些快照進(jìn)行統(tǒng)計(jì)、綜合和重組的導(dǎo)出數(shù)據(jù),而不是聯(lián)機(jī)處理的數(shù)據(jù)。OLTP數(shù)據(jù)庫中的數(shù)據(jù)經(jīng)過抽?。‥x

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論