錄屏2022上半年dbms原理與設(shè)計(jì)課件2daba warehouse_第1頁(yè)
錄屏2022上半年dbms原理與設(shè)計(jì)課件2daba warehouse_第2頁(yè)
錄屏2022上半年dbms原理與設(shè)計(jì)課件2daba warehouse_第3頁(yè)
錄屏2022上半年dbms原理與設(shè)計(jì)課件2daba warehouse_第4頁(yè)
錄屏2022上半年dbms原理與設(shè)計(jì)課件2daba warehouse_第5頁(yè)
已閱讀5頁(yè),還剩93頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1數(shù)據(jù)倉(cāng)庫(kù)2本講內(nèi)容1從數(shù)據(jù)庫(kù)到數(shù)據(jù)倉(cāng)庫(kù)(WHY)2什么是數(shù)據(jù)倉(cāng)庫(kù)(WHAT)3數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織(HOW)4數(shù)據(jù)庫(kù)體系化環(huán)境5小結(jié)3

數(shù)據(jù)處理的兩種基本類型操作型(與業(yè)務(wù)活動(dòng)關(guān)聯(lián))分析型(與決策活動(dòng)關(guān)聯(lián))1從數(shù)據(jù)庫(kù)到數(shù)據(jù)倉(cāng)庫(kù)(Why)4數(shù)據(jù)處理的兩種基本類型操作型處理也叫事務(wù)處理,是指對(duì)數(shù)據(jù)庫(kù)聯(lián)機(jī)的日常操作,通常是對(duì)一個(gè)或一組記錄的查詢和修改,主要是為企業(yè)的特定應(yīng)用服務(wù)的,人們關(guān)心的是響應(yīng)時(shí)間,數(shù)據(jù)的安全性和完整性。分析型處理則用于管理人員的決策分析。例如:DSS,EIS和多維分析等,經(jīng)常要訪問大量的歷史數(shù)據(jù)。兩者之間的巨大差異使得操作型處理和分析型處理的分離成為必然。5傳統(tǒng)的數(shù)據(jù)庫(kù)技術(shù) 傳統(tǒng)的數(shù)據(jù)庫(kù)技術(shù)是以單一的數(shù)據(jù)資源,即數(shù)據(jù)庫(kù)為中心,進(jìn)行從事務(wù)處理、批處理,到?jīng)Q策分析等各種類型的數(shù)據(jù)處理工作。

然而,不同類型的數(shù)據(jù)處理有著其不同的處理特點(diǎn),以單一的數(shù)據(jù)組織方式進(jìn)行組織的數(shù)據(jù)庫(kù)并不能反映這種差異,滿足不了數(shù)據(jù)處理多樣化的要求。6從數(shù)據(jù)庫(kù)到數(shù)據(jù)倉(cāng)庫(kù)(Why)數(shù)據(jù)庫(kù)在操作型應(yīng)用中取得了巨大的成功數(shù)據(jù)庫(kù)已經(jīng)成為幾乎所有信息系統(tǒng)的基礎(chǔ)在事務(wù)處理方面的應(yīng)用獲得了巨大的成功經(jīng)歷了三代的發(fā)展造就了四位圖靈獎(jiǎng)獲得者1973年:CharlesBachman——網(wǎng)狀數(shù)據(jù)庫(kù)1981年:EdgarCodd——關(guān)系型數(shù)據(jù)庫(kù)1998年:JimGray——事務(wù)處理2014年:MichaelStonebraer-商用數(shù)據(jù)庫(kù)積累了大量的業(yè)務(wù)數(shù)據(jù)(財(cái)富)7從數(shù)據(jù)庫(kù)到數(shù)據(jù)倉(cāng)庫(kù)(Why)分析型應(yīng)用(DSS)數(shù)據(jù)庫(kù)三級(jí)模式體系結(jié)構(gòu)告訴我們,任何數(shù)據(jù)庫(kù)應(yīng)用都是建立在外模式之上的.傳統(tǒng)數(shù)據(jù)庫(kù)的即席查詢功能就可以支持DSS的需求DSS的重點(diǎn)放在模型與方法上,沒有考慮在數(shù)據(jù)庫(kù)管理系統(tǒng)層面上的支持8

事務(wù)處理環(huán)境不適宜DSS應(yīng)用的原因(1)事務(wù)處理和分析處理的性能特性不同(2)數(shù)據(jù)集成問題(3)數(shù)據(jù)動(dòng)態(tài)集成問題(4)歷史數(shù)據(jù)問題(5)數(shù)據(jù)的綜合問題從數(shù)據(jù)庫(kù)到數(shù)據(jù)倉(cāng)庫(kù)(Why)9

用戶的行為模式在事務(wù)處理環(huán)境中,數(shù)據(jù)的存取操作頻率高而每次操作處理的時(shí)間短在分析處理環(huán)境中,DSS應(yīng)用需要運(yùn)行時(shí)間長(zhǎng),消耗系統(tǒng)資源多(1)事務(wù)處理和分析處理的性能特性不同10

DSS需要的數(shù)據(jù):全面、集成相關(guān)數(shù)據(jù)收集得越完整結(jié)果就越可靠企業(yè)內(nèi)部數(shù)據(jù)企業(yè)外部數(shù)據(jù)競(jìng)爭(zhēng)對(duì)手的數(shù)據(jù)…(2)數(shù)據(jù)集成問題11

事務(wù)處理的數(shù)據(jù):與本部門業(yè)務(wù)有關(guān)當(dāng)前數(shù)據(jù)對(duì)整個(gè)企業(yè)范圍內(nèi)的集成應(yīng)用考慮少當(dāng)前企業(yè)內(nèi)數(shù)據(jù)的狀況分散而非集成——這是事務(wù)處理環(huán)境所固有的事務(wù)處理應(yīng)用產(chǎn)生的細(xì)節(jié)數(shù)據(jù)不能成為統(tǒng)一的整體DSS應(yīng)用必須在應(yīng)用程序中進(jìn)行數(shù)據(jù)集成數(shù)據(jù)集成問題12

數(shù)據(jù)分散的原因事務(wù)處理應(yīng)用的分散“蜘蛛網(wǎng)”問題數(shù)據(jù)不一致問題外部數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)集成問題13

當(dāng)前企業(yè)事務(wù)處理應(yīng)用間是獨(dú)立的原因設(shè)計(jì)方面:為減少系統(tǒng)開發(fā)費(fèi)用和加快開發(fā)進(jìn)度,所采用的設(shè)計(jì)方案僅僅針對(duì)當(dāng)前問題,并且盡可能簡(jiǎn)單而“有效”設(shè)計(jì)方案不能保證對(duì)以后新出現(xiàn)的問題繼續(xù)有效1)事務(wù)處理應(yīng)用的分散14

原因(續(xù))經(jīng)濟(jì)方面:經(jīng)費(fèi)有限系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)采用“滾雪球”方式優(yōu)先為企業(yè)的關(guān)鍵業(yè)務(wù)活動(dòng)建立MIS然后再逐步建立其他業(yè)務(wù)的MIS歷史和地理方面:大公司分散在各地企業(yè)兼并DSS應(yīng)用要對(duì)分散數(shù)據(jù)進(jìn)行集成,向分析人員提供統(tǒng)一的數(shù)據(jù)視圖事務(wù)處理應(yīng)用的分散15

DSS應(yīng)用的“抽取程序”:數(shù)據(jù)庫(kù)/文件數(shù)據(jù)庫(kù)/文件

數(shù)據(jù)庫(kù)/文件

…….用戶1.抽取程序

用戶2.抽取程序

蜘蛛網(wǎng)逐漸形成2)“蜘蛛網(wǎng)”問題16

問題:時(shí)間基準(zhǔn)不統(tǒng)一抽取算法不相同抽取級(jí)別也不相同參考不同的外部數(shù)據(jù)結(jié)果:導(dǎo)致對(duì)同一問題的分析,不同節(jié)點(diǎn)會(huì)產(chǎn)生不同的結(jié)果“蜘蛛網(wǎng)”問題17

多個(gè)應(yīng)用間數(shù)據(jù)不一致的常見形式:同一字段有不同數(shù)據(jù)類型同一字段具有不同的名字同名字段,不同含義

數(shù)據(jù)統(tǒng)一是一項(xiàng)很繁重的工作3)數(shù)據(jù)不一致問題18

外部數(shù)據(jù)源刊物發(fā)布的統(tǒng)計(jì)數(shù)據(jù)業(yè)界的技術(shù)報(bào)告市場(chǎng)比較和分析報(bào)告股票行情外部數(shù)據(jù)源的特點(diǎn):非結(jié)構(gòu)化數(shù)據(jù)4)外部數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)19

數(shù)據(jù)分散的原因小結(jié)事務(wù)處理應(yīng)用的分散“蜘蛛網(wǎng)”問題數(shù)據(jù)不一致問題外部數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)集成問題20DSS對(duì)數(shù)據(jù)集成有迫切需要數(shù)據(jù)集成是一項(xiàng)十分繁雜的工作,都交給應(yīng)用程序完成會(huì)大大增加程序員的負(fù)擔(dān)。如果每做一次分析,都要進(jìn)行一次這樣的集成,將會(huì)導(dǎo)致極低的處理效率。DSS對(duì)數(shù)據(jù)集成的迫切需要是數(shù)據(jù)倉(cāng)庫(kù)技術(shù)出現(xiàn)的最重要?jiǎng)右?/p>

數(shù)據(jù)集成問題21

靜態(tài)集成:集成后不再與數(shù)據(jù)源發(fā)生聯(lián)系動(dòng)態(tài)集成:以一定的周期(例如24小時(shí))刷新集成數(shù)據(jù)(3)數(shù)據(jù)動(dòng)態(tài)集成問題22

事務(wù)處理系統(tǒng)中的數(shù)據(jù)當(dāng)前數(shù)據(jù)短期數(shù)據(jù)決策分析的數(shù)據(jù)必須要?dú)v史數(shù)據(jù)(4)歷史數(shù)據(jù)問題23(5)數(shù)據(jù)的綜合問題DSS系統(tǒng)的分析對(duì)象一般不對(duì)細(xì)節(jié)數(shù)據(jù)進(jìn)行分析細(xì)節(jié)數(shù)據(jù)數(shù)量太大,會(huì)嚴(yán)重影響分析的效率太多的細(xì)節(jié)數(shù)據(jù)影響分析人員的注意力分析前需要對(duì)細(xì)節(jié)數(shù)據(jù)進(jìn)行不同程度的綜合事務(wù)處理系統(tǒng)的對(duì)象只關(guān)心細(xì)節(jié)數(shù)據(jù),不具備綜合能力綜合是一種數(shù)據(jù)冗余,需要加以限制24結(jié)論事務(wù)處理環(huán)境不適宜DSS應(yīng)用的原因(1)事務(wù)處理和分析處理的性能特性不同(2)數(shù)據(jù)集成問題(3)數(shù)據(jù)動(dòng)態(tài)集成問題(4)歷史數(shù)據(jù)問題(5)數(shù)據(jù)的綜合問題

結(jié)論在操作型環(huán)境中直接構(gòu)建分析型應(yīng)用是一種失敗的嘗試需要將分析型處理數(shù)據(jù)和操作型處理數(shù)據(jù)分離25從數(shù)據(jù)庫(kù)到數(shù)據(jù)倉(cāng)庫(kù)1從數(shù)據(jù)庫(kù)到數(shù)據(jù)倉(cāng)庫(kù)2什么是數(shù)據(jù)倉(cāng)庫(kù)3數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織4數(shù)據(jù)庫(kù)體系化環(huán)境5小結(jié)26

不同的定義:“數(shù)據(jù)倉(cāng)庫(kù)是作為DSS服務(wù)基礎(chǔ)的分析型DB,用來(lái)存放大容量的只讀數(shù)據(jù),為制定決策提供所需的信息?!薄皵?shù)據(jù)倉(cāng)庫(kù)是與操作型系統(tǒng)相分離的、基于標(biāo)準(zhǔn)企業(yè)模型集成的、帶有時(shí)間屬性的(即與企業(yè)定義的時(shí)間區(qū)段相關(guān))、面向主題及不可更新的數(shù)據(jù)集合?!?什么是數(shù)據(jù)倉(cāng)庫(kù)(What)27

操作型數(shù)據(jù)

分析型數(shù)據(jù)細(xì)節(jié)的綜合的,或提煉的在存取瞬間是準(zhǔn)確的代表過(guò)去的數(shù)據(jù)可更新不更新操作需求事先可知道操作需求事先不知道生命周期符合SDLC完全不同的生命周期對(duì)性能要求高對(duì)性能要求寬松一個(gè)時(shí)刻操作一單元一個(gè)時(shí)刻操作一集合事務(wù)驅(qū)動(dòng)分析驅(qū)動(dòng)面向應(yīng)用面向分析一次操作數(shù)據(jù)量小一次操作數(shù)據(jù)量大支持日常操作支持管理需求操作型數(shù)據(jù)和分析型數(shù)據(jù)的區(qū)別

28

數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)的四個(gè)基本特征:

數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)是面向主題的

數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)是集成的

數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)是不可更新的

數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)是隨時(shí)間不斷變化的數(shù)據(jù)倉(cāng)庫(kù)定義:數(shù)據(jù)倉(cāng)庫(kù)就是一個(gè)用以更好地支持企業(yè)或組織的決策分析處理的、面向主題的、集成的、不可更新的、隨時(shí)間不斷變化的數(shù)據(jù)集合2什么是數(shù)據(jù)倉(cāng)庫(kù)(What)29

數(shù)據(jù)倉(cāng)庫(kù)的第一個(gè)特征數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是面向主題進(jìn)行組織的什么是主題主題是在較高層次上將企業(yè)信息系統(tǒng)中的數(shù)據(jù)綜合、歸類并進(jìn)行分析利用的抽象邏輯意義:對(duì)應(yīng)企業(yè)中某一宏觀分析領(lǐng)域所涉及的分析對(duì)象2.1主題與面向主題30

什么是較高層次是相對(duì)面向應(yīng)用的數(shù)據(jù)組織方式而言的是指按照主題進(jìn)行數(shù)據(jù)組織的方式具有更高的數(shù)據(jù)抽象級(jí)別面向主題的數(shù)據(jù)組織方式的特點(diǎn)是對(duì)分析對(duì)象的數(shù)據(jù)的一個(gè)完整、一致的描述能完整、統(tǒng)一地刻畫各個(gè)分析對(duì)象所涉及的企業(yè)的各項(xiàng)數(shù)據(jù),以及數(shù)據(jù)之間的聯(lián)系主題與面向主題31

例:“會(huì)員制”商場(chǎng)按照業(yè)務(wù)處理要求,建立的數(shù)據(jù)庫(kù)模式:

采購(gòu)子系統(tǒng):訂單(訂單號(hào),供應(yīng)商號(hào),總金額,日期)訂單細(xì)則(訂單號(hào),商品號(hào),類別,單價(jià),數(shù)量)供應(yīng)商(供應(yīng)商號(hào),供應(yīng)商名,地址,電話)

銷售子系統(tǒng):顧客(顧客號(hào),姓名,性別,年齡,文化程度,地址,電話)銷售(員工號(hào),顧客號(hào),商品號(hào),數(shù)量,單價(jià),日期)面向主題與面向應(yīng)用的數(shù)據(jù)組織方式32

庫(kù)存管理子系統(tǒng):領(lǐng)料單(領(lǐng)料單號(hào),領(lǐng)料人,商品號(hào),數(shù)量,日期)進(jìn)料單(進(jìn)料單號(hào),訂單號(hào),進(jìn)料人,收料人,日期)庫(kù)存(商品號(hào),庫(kù)房號(hào),庫(kù)存量,日期)庫(kù)房(庫(kù)房號(hào),倉(cāng)庫(kù)管理員,地點(diǎn),庫(kù)存商品描述)

人事管理子系統(tǒng):員工(員工號(hào),姓名,性別,年齡,文化程度,部門號(hào))部門(部門號(hào),部門名稱,部門主管,電話)面向主題與面向應(yīng)用的數(shù)據(jù)組織方式33

面向應(yīng)用進(jìn)行數(shù)據(jù)組織,需要對(duì)企業(yè)中相關(guān)的組織、部門等進(jìn)行詳細(xì)調(diào)查,收集數(shù)據(jù)庫(kù)的基礎(chǔ)數(shù)據(jù)及其處理的過(guò)程。調(diào)查的重點(diǎn)數(shù)據(jù)處理組織數(shù)據(jù)的依據(jù)企業(yè)的部門組織結(jié)構(gòu)企業(yè)各部門的業(yè)務(wù)活動(dòng)特點(diǎn)傳統(tǒng)的面向應(yīng)用數(shù)據(jù)組織方式的特點(diǎn)34

數(shù)據(jù)組織應(yīng)反映一個(gè)企業(yè)內(nèi)數(shù)據(jù)的動(dòng)態(tài)特征要表達(dá)每個(gè)部門的實(shí)際業(yè)務(wù)處理的數(shù)據(jù)流程輸入處理輸出組織數(shù)據(jù)的方式按照實(shí)際應(yīng)用即業(yè)務(wù)處理流程來(lái)組織組織數(shù)據(jù)的目標(biāo)提高OLTP應(yīng)用的速度和準(zhǔn)確性傳統(tǒng)的面向應(yīng)用數(shù)據(jù)組織方式的特點(diǎn)35

數(shù)據(jù)庫(kù)模式與實(shí)際的業(yè)務(wù)處理流程中所涉及的單據(jù)或文檔具有對(duì)應(yīng)關(guān)系從而可以較好在這些數(shù)據(jù)庫(kù)模式上建立起各項(xiàng)實(shí)際的應(yīng)用處理在有些應(yīng)用中,這種數(shù)據(jù)組織方式只是對(duì)企業(yè)業(yè)務(wù)活動(dòng)所涉及的數(shù)據(jù)的存儲(chǔ)介質(zhì)的改變,即從紙介質(zhì)到磁介質(zhì)的轉(zhuǎn)變傳統(tǒng)的面向應(yīng)用數(shù)據(jù)組織方式的特點(diǎn)36

沒有體現(xiàn)數(shù)據(jù)庫(kù)這一概念提出的原本意圖:數(shù)據(jù)與數(shù)據(jù)處理的分離沒有將數(shù)據(jù)從數(shù)據(jù)處理或應(yīng)用中抽象出來(lái),組織成一個(gè)和具體的應(yīng)用獨(dú)立的數(shù)據(jù)世界后果描述同一客觀實(shí)體的數(shù)據(jù)與不同的應(yīng)用邏輯捆綁在一起而變得不統(tǒng)一;一個(gè)完整的客觀實(shí)體的數(shù)據(jù)分散在不同的數(shù)據(jù)庫(kù)模式中;傳統(tǒng)的面向應(yīng)用數(shù)據(jù)組織方式的特點(diǎn)37

結(jié)論缺點(diǎn)抽象程度不夠高,數(shù)據(jù)與應(yīng)用沒有完全分離優(yōu)點(diǎn)能較好地將數(shù)據(jù)庫(kù)模式和企業(yè)的現(xiàn)實(shí)業(yè)務(wù)活動(dòng)對(duì)應(yīng)起來(lái),從而具有很好的操作性便于將企業(yè)原來(lái)的各項(xiàng)業(yè)務(wù)從手工處理的方式向計(jì)算機(jī)處理方式的轉(zhuǎn)變可以較好地支持OLTP傳統(tǒng)的面向應(yīng)用數(shù)據(jù)組織方式的特點(diǎn)38

步驟:

1、

抽取主題:按照分析的要求來(lái)確定

2、確定每個(gè)主題所應(yīng)包含的數(shù)據(jù)內(nèi)容例如:商場(chǎng)商品采購(gòu)

在OLTP數(shù)據(jù)庫(kù)中,“訂單”“訂單細(xì)則”

“供應(yīng)商”三個(gè)數(shù)據(jù)庫(kù)模式清晰完整地描述了一筆采購(gòu)業(yè)務(wù)所涉及的數(shù)據(jù)內(nèi)容,這是面向應(yīng)用來(lái)進(jìn)行數(shù)據(jù)組織的方式;在數(shù)據(jù)倉(cāng)庫(kù)中,主要是進(jìn)行數(shù)據(jù)分析處理,商品采購(gòu)時(shí)的分析活動(dòng)主要是要了解各供應(yīng)商的情況,“供應(yīng)商”是采購(gòu)分析時(shí)的分析對(duì)象。所以不需要組織象“訂單”和“訂單細(xì)則”這樣的數(shù)據(jù)庫(kù)模式,因?yàn)樗鼈儼氖羌儾僮餍偷臄?shù)據(jù);但是僅僅只用OLTP數(shù)據(jù)庫(kù)的“供應(yīng)商”中的數(shù)據(jù)又是不夠的,因而要重新組織“供應(yīng)商”這么一個(gè)主題。面向主題的數(shù)據(jù)組織39

商品:商品固有信息:商品號(hào),商品名,類別,顏色等;

商品采購(gòu)信息:商品號(hào),供應(yīng)商號(hào),供應(yīng)價(jià),供應(yīng)日期,供應(yīng)量等;

商品銷售信息:商品號(hào),顧客號(hào),售價(jià),銷售日期,銷售量等;商品庫(kù)存信息:商品號(hào),庫(kù)房號(hào),庫(kù)存量,日期等;供應(yīng)商:供應(yīng)商固有信息:供應(yīng)商號(hào),供應(yīng)商名,地址,電話等;

商品供應(yīng)信息:供應(yīng)商號(hào),商品號(hào),供應(yīng)價(jià),供應(yīng)日期,供應(yīng)量等;顧客:顧客固有信息:顧客號(hào),顧客名,性別,年齡,文化程度,住址,電話等;

顧客購(gòu)物信息:顧客號(hào),商品號(hào),售價(jià),購(gòu)買日期,購(gòu)買量等;

商場(chǎng)主題:供應(yīng)商、商品、顧客等40面向應(yīng)用到面向主題的轉(zhuǎn)變過(guò)程丟棄不必要的、不適于分析的信息把分散在各子系統(tǒng)中有關(guān)某一主題的信息組織起來(lái),形成一個(gè)完整一致的描述41面向應(yīng)用到面向主題的轉(zhuǎn)變過(guò)程不同的主題之間內(nèi)容重疊:反映主題之間的直接聯(lián)系主題之間的重疊是邏輯上的重疊,不是同一數(shù)據(jù)內(nèi)容的重復(fù)物理存儲(chǔ)主題之間的重疊是細(xì)節(jié)級(jí)上的重疊,因?yàn)樵诓煌闹黝}中的綜合方式是不同的。主題間的重疊并不是兩兩重疊。42商品供應(yīng)商顧客面向應(yīng)用到面向主題的轉(zhuǎn)變過(guò)程43基于多維數(shù)據(jù)庫(kù)基于關(guān)系數(shù)據(jù)庫(kù)主題在數(shù)據(jù)倉(cāng)庫(kù)的實(shí)現(xiàn)44基于多維數(shù)據(jù)庫(kù)以多維數(shù)組形式存儲(chǔ)數(shù)據(jù)遇到的問題數(shù)據(jù)稀疏45

一個(gè)主題用一組關(guān)系表表示每個(gè)關(guān)系表都含有一個(gè)公共碼鍵,是主屬性一個(gè)主題的所有表通過(guò)公共碼鍵統(tǒng)一聯(lián)系起來(lái)基于關(guān)系數(shù)據(jù)庫(kù)46

例:主題:商品公共碼鍵:商品號(hào)商品表(商品號(hào),商品名,類型,顏色…)/*描述的是商品的固有信息*/采購(gòu)表1(商品號(hào),供應(yīng)商號(hào),供應(yīng)日期,供應(yīng)價(jià),供應(yīng)日期,…)/*描述的是商品的采購(gòu)細(xì)節(jié)*/基于關(guān)系數(shù)據(jù)庫(kù)示例47

采購(gòu)表2(商品號(hào),時(shí)間段,采購(gòu)總量,…)/*某時(shí)間段內(nèi)商品采購(gòu)信息*/……采購(gòu)表n(商品號(hào),…,…)/*時(shí)間段不等的采購(gòu)綜合表*/銷售表1(商品號(hào),顧客號(hào),銷售日期,售價(jià),銷售量,…)/*描述的是商品的銷售細(xì)節(jié)信息*/銷售表2(商品號(hào),時(shí)間段,銷售總量,…)/*某時(shí)間段內(nèi)商品銷售信息*/……銷售表n(…,…)/*時(shí)間段不等的銷售綜合表*/48

庫(kù)存表1(商品號(hào),庫(kù)房號(hào),庫(kù)存量,日期,…)/*描述的是商品的庫(kù)存細(xì)節(jié)信息*/庫(kù)存表2(商品號(hào),庫(kù)房號(hào),庫(kù)存量,月份,…)/*每月月底的商品庫(kù)存信息*/…庫(kù)存表n(商品號(hào),庫(kù)房號(hào),…,…)/*時(shí)點(diǎn)不同的商品庫(kù)存信息*/…49

同一主題的不同的表:存儲(chǔ)在磁盤、磁帶、光盤等不同介質(zhì)中年代久遠(yuǎn)的、細(xì)節(jié)、查詢概率低存貯在廉價(jià)慢速設(shè)備上近期的、綜合、查詢概率高保存在快速存儲(chǔ)設(shè)備上

主題中表的存儲(chǔ)50

主題域:一個(gè)完備的分析領(lǐng)域獨(dú)立性:主題域必須具有獨(dú)立內(nèi)涵,要求有明確的界限,規(guī)定某項(xiàng)數(shù)據(jù)是否該屬于“商品”主題。完備性:主題內(nèi)包含任何對(duì)該主題對(duì)象的分析處理要求的一切內(nèi)容面向主題的數(shù)據(jù)組織51

主題的數(shù)據(jù)組織是一個(gè)在較高層次上對(duì)數(shù)據(jù)的抽象,可以獨(dú)立于數(shù)據(jù)的處理邏輯因而可以在此數(shù)據(jù)環(huán)境上方便地開發(fā)新的分析型應(yīng)用同時(shí),這種獨(dú)立性也是建設(shè)企業(yè)全局?jǐn)?shù)據(jù)庫(kù)所要求的,所以面向主題不僅是適用于分析型數(shù)據(jù)環(huán)境的數(shù)據(jù)組織方式,同時(shí)也是適用于建設(shè)企業(yè)全局?jǐn)?shù)據(jù)庫(kù)的數(shù)據(jù)組織方式面向主題的數(shù)據(jù)組織52

集成的含義從原有的分散的數(shù)據(jù)庫(kù)數(shù)據(jù)中抽取、清洗得到從原有的分散的數(shù)據(jù)庫(kù)數(shù)據(jù)中綜合得到集成是數(shù)據(jù)倉(cāng)庫(kù)建設(shè)中最關(guān)鍵、最復(fù)雜的步驟2.2特征二:數(shù)據(jù)是集成的53

集成需要解決的問題統(tǒng)一源數(shù)據(jù)中所有矛盾之處字段的同名異義字段的異名同義單位不統(tǒng)一字長(zhǎng)不一致……進(jìn)行數(shù)據(jù)綜合和計(jì)算綜合時(shí)間:抽取數(shù)據(jù)時(shí)生成數(shù)據(jù)倉(cāng)庫(kù)內(nèi)部生成特征二:數(shù)據(jù)是集成的54

數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)存放的是歷史數(shù)據(jù)基本操作是數(shù)據(jù)查詢,一般情況下并不進(jìn)行修改操作數(shù)據(jù)一旦超過(guò)存儲(chǔ)期限,可以刪除特征三:數(shù)據(jù)是不可更新的55

數(shù)據(jù)倉(cāng)庫(kù)管理系統(tǒng)數(shù)據(jù)管理功能簡(jiǎn)化數(shù)據(jù)查詢要求提高提高大數(shù)據(jù)量的查詢速度查詢界面友好性數(shù)據(jù)的直觀表示特征三:數(shù)據(jù)是不可更新的56特征四:隨時(shí)間不斷變化的數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)不可更新是針對(duì)應(yīng)用而言的數(shù)據(jù)倉(cāng)庫(kù)的用戶進(jìn)行分析處理時(shí)是不進(jìn)行數(shù)據(jù)更新操作的數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)是隨時(shí)間的變化不斷變化的57

數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)隨時(shí)間的變化數(shù)據(jù)倉(cāng)庫(kù)隨時(shí)間變化不斷增加新的數(shù)據(jù)內(nèi)容數(shù)據(jù)倉(cāng)庫(kù)隨時(shí)間變化不斷刪去舊的數(shù)據(jù)內(nèi)容操作型環(huán)境中一般只保存有60-90天的數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)中則需要保存較長(zhǎng)時(shí)限的數(shù)據(jù)(如5-10年)數(shù)據(jù)倉(cāng)庫(kù)中包含有大量的跟時(shí)間有關(guān)的綜合數(shù)據(jù)經(jīng)常按照時(shí)間段進(jìn)行綜合隔一定的時(shí)間片進(jìn)行抽樣隨著時(shí)間的變化不斷地進(jìn)行重新綜合數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)的碼鍵都包含時(shí)間項(xiàng),以標(biāo)明數(shù)據(jù)的歷史時(shí)期特征四:隨時(shí)間不斷變化的58從數(shù)據(jù)庫(kù)到數(shù)據(jù)倉(cāng)庫(kù)1從數(shù)據(jù)庫(kù)到數(shù)據(jù)倉(cāng)庫(kù)2什么是數(shù)據(jù)倉(cāng)庫(kù)3數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織4數(shù)據(jù)庫(kù)體系化環(huán)境5小結(jié)593.1數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織3.2粒度與分割3.3數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織形式3.4數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)追加3數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織

60

3.1數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織

數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織結(jié)構(gòu)元數(shù)據(jù)高度綜合級(jí)輕度綜合級(jí)當(dāng)前細(xì)節(jié)級(jí)早期細(xì)節(jié)級(jí)61數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)存在著不同的綜合級(jí)別早期細(xì)節(jié)級(jí)當(dāng)前細(xì)節(jié)級(jí)輕度綜合級(jí)高度綜合級(jí)粒度:數(shù)據(jù)的不同綜合級(jí)別粒度越大、表示細(xì)節(jié)程度越低、綜合程度越高。級(jí)別的劃分是根據(jù)粒度進(jìn)行的數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織

62

數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織結(jié)構(gòu)的一個(gè)例子高度綜合級(jí)輕度綜合級(jí)當(dāng)前細(xì)節(jié)級(jí)早期細(xì)節(jié)級(jí)2016-2020年每月銷售表2016-2020年每周銷售表2016-2020年銷售情況表2010-2015年銷售明細(xì)表數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織

63

元數(shù)據(jù)(metadata):關(guān)于數(shù)據(jù)的數(shù)據(jù)

第一種:從操作型環(huán)境向數(shù)據(jù)倉(cāng)庫(kù)環(huán)境轉(zhuǎn)換而建立的元數(shù)據(jù)。包含:所有源數(shù)據(jù)項(xiàng)名、屬性及其在數(shù)據(jù)倉(cāng)庫(kù)中的轉(zhuǎn)換第二種:與終端用戶的多維商業(yè)模型/前端工具之間建立映射的DSS元數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)中的元數(shù)據(jù)643.1數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織3.2粒度與分割3.3數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織形式3.4數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)追加3數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織

65粒度分割3.2粒度與分割66

粒度分為兩種形式:對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)的綜合程度高低的一個(gè)度量粒度越小,細(xì)節(jié)程度越高,綜合程度越低粒度大小影響數(shù)據(jù)倉(cāng)庫(kù)效率、能回答詢問的種類“張三在某時(shí)某地是否給李四打過(guò)電話?”“張三去年共打了幾次長(zhǎng)途電話”“某地區(qū)今年長(zhǎng)途與普通電話費(fèi)用之比”“今年長(zhǎng)途/普通電話費(fèi)用增長(zhǎng)率”“預(yù)測(cè)未來(lái)長(zhǎng)途/普通電話費(fèi)用變化趨勢(shì)”數(shù)據(jù)倉(cāng)庫(kù)是多粒度的,不同的粒度回答不同的查詢1.粒度67

2)樣本數(shù)據(jù)庫(kù)

根據(jù)采樣率的高低來(lái)劃分粒度:以一定的采樣率從細(xì)節(jié)數(shù)據(jù)或輕度綜合數(shù)據(jù)中抽取的一個(gè)子集用處:代替源數(shù)據(jù)進(jìn)行模擬分析抽樣的方法:隨機(jī)抽取優(yōu)點(diǎn):高效率源數(shù)據(jù)量很大的情況下,抽樣數(shù)據(jù)可以大大下降,分析結(jié)果誤差極小有助于抓住主要因素和主要矛盾1.粒度68

實(shí)際:兩種形式的粒度都存在例:“商品”主題表的劃分:

銷售綜合表和采購(gòu)綜合表是屬于第一種形式的粒度(時(shí)間段上信息的綜合)庫(kù)存信息的不同表:則屬于第二種形式粒度劃分(不同時(shí)點(diǎn)上的粒度)1.粒度69

分割:指將數(shù)據(jù)分散到各自的物理單元中去以便能分別獨(dú)立處理分片:數(shù)據(jù)分割后的數(shù)據(jù)單元分割的目的:提高效率例如:對(duì)于某種相關(guān)性的數(shù)據(jù)集合的分析是最常見的將具有相關(guān)性的數(shù)據(jù)組織在一起,會(huì)提高效率2.分割70

分割標(biāo)準(zhǔn):根據(jù)實(shí)際情況確定1易于重構(gòu)、索引、重組、恢復(fù)、監(jiān)控和順序掃描2按日期、地域或業(yè)務(wù)領(lǐng)域3

按多個(gè)分割標(biāo)準(zhǔn)的組合例子:

健康保險(xiǎn)生命保險(xiǎn)事故保險(xiǎn)

2018分片1分片2分片3

2019

分片4分片5分片6

2020分片7分片8分片92.分割713.1數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織3.2粒度與分割3.3數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織形式3.4數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)追加3數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織

72

簡(jiǎn)單堆積文件它將由數(shù)據(jù)庫(kù)中提取并加工的數(shù)據(jù)逐一積累存儲(chǔ)輪轉(zhuǎn)綜合文件數(shù)據(jù)存儲(chǔ)單位被分為若干個(gè)級(jí)別輪轉(zhuǎn)記錄--綜合優(yōu)點(diǎn):結(jié)構(gòu)簡(jiǎn)捷,數(shù)據(jù)量較簡(jiǎn)單堆積結(jié)構(gòu)減少缺點(diǎn):損失數(shù)據(jù)細(xì)節(jié)。越久遠(yuǎn)的數(shù)據(jù),細(xì)節(jié)損失越多3.3數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織形式73

一月一日一月二日一月三日第1日第2日第31日二月一日二月二日二月三日第1月第2月第12月

三月一日三月二日三月三日第1年第2年第10年

3.3數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織形式………簡(jiǎn)單堆積文件輪轉(zhuǎn)綜合文件圖1-4數(shù)據(jù)倉(cāng)庫(kù)基本數(shù)據(jù)結(jié)構(gòu)74

簡(jiǎn)化直接文件間隔一定時(shí)間的數(shù)據(jù)庫(kù)快照,類似簡(jiǎn)單堆積文件

(按一定的時(shí)間間隔對(duì)數(shù)據(jù)庫(kù)的采樣)連續(xù)文件1)兩個(gè)連續(xù)的簡(jiǎn)化直接文件比較他們的不同連續(xù)文件3.3數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織形式2)連續(xù)文件+新的簡(jiǎn)單文件新的連續(xù)文件75

一月份顧客表數(shù)據(jù)庫(kù)快照操作型數(shù)據(jù)圖1-5生成簡(jiǎn)化直接文件姓名顧客號(hào)地址張平C960100北京王英C960101天津王賓C960102上海李強(qiáng)C960103重慶………………76

連續(xù)文件─兩個(gè)連續(xù)的簡(jiǎn)化直接文件比較他們的不同連續(xù)文件

姓名顧客號(hào)地址張平

C960100

北京王英

C960101

天津王賓

C960102

上海劉仲

C960104

重慶

名顧客號(hào)地址張平

C960100

北京王英

C960101

沈陽(yáng)王賓

C960102

上海劉仲

C960104

大連姓名顧客號(hào)時(shí)間地址張平

C9601001-2月北京王英

C9601011-1月天津王英

C9601012-2月沈陽(yáng)王賓

C9601021-2月上海劉仲

C9601041-1月重慶劉仲

C9601042-2月大連1-2月份顧客表比較不同

2月份顧客表1月份顧客表77

連續(xù)文件+新的簡(jiǎn)單文件新的連續(xù)文件姓名顧客號(hào)地址

張平

C960100北京

王賓

C960102上海

劉仲

C960104大連

姓名顧客號(hào)時(shí)間地址張平

C9601001-2月北京王英

C9601011-1月天津王英

C9601012-2月沈陽(yáng)王賓

C9601021-2月上海劉仲

C9601041-1月重慶劉仲

C9601042-2月大連姓名顧客號(hào)時(shí)間地址張平

C9601001-3月北京王英

C9601011-1月天津王英

C9601012-2月沈陽(yáng)王賓

C9601021-3月上海劉仲

C9601041-1月重慶劉仲

C9601042-3月大連1-2月份顧客表3月份顧客表1-3月份顧客表比較不同

78

各種文件結(jié)構(gòu)的最終實(shí)現(xiàn):關(guān)系數(shù)據(jù)庫(kù)中是“表”

793.1數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織3.2粒度與分割3.3數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織形式3.4數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)追加3數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織

80

數(shù)據(jù)追加:數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)初裝完成后,再向數(shù)據(jù)倉(cāng)庫(kù)輸入數(shù)據(jù)的過(guò)程追加內(nèi)容:上次數(shù)據(jù)追加后在OLTP數(shù)據(jù)庫(kù)中變化了的數(shù)據(jù)變化數(shù)據(jù)的捕捉途徑:時(shí)標(biāo)方法DELTA文件前后映象文件日志文件3.4數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)追加81

時(shí)標(biāo)方法如果數(shù)據(jù)含有時(shí)標(biāo),對(duì)新插入或更新的數(shù)據(jù)記錄,加更新時(shí)的時(shí)標(biāo)問題許多數(shù)據(jù)庫(kù)中的數(shù)據(jù)并不含有時(shí)標(biāo)

1.時(shí)標(biāo)方法82

DELTA文件方法由應(yīng)用生成DELTA文件,記錄應(yīng)用所改變的所有內(nèi)容優(yōu)點(diǎn)避免了掃描整個(gè)數(shù)據(jù)庫(kù),效率比較高問題生成DELTA文件的應(yīng)用不普遍更改應(yīng)用代碼,應(yīng)用在生成新數(shù)據(jù)時(shí)可自動(dòng)將其記錄下來(lái)應(yīng)用成千上萬(wàn),且修改代碼十分繁瑣,很難實(shí)現(xiàn)2.DELTA文件83

前后映象文件的方法抽取數(shù)據(jù)到數(shù)據(jù)倉(cāng)庫(kù)之后,本次將抽取數(shù)據(jù)之前,對(duì)數(shù)據(jù)庫(kù)分別作一次快照,比較兩幅快照的不同,確定追加的數(shù)據(jù)問題占用大量資源,影響系統(tǒng)性能3.前后映象文件84

優(yōu)點(diǎn)利用DB的固有機(jī)制,數(shù)據(jù)只限于日志文件,不用掃描整個(gè)數(shù)據(jù)庫(kù)缺點(diǎn)原來(lái)日志文件的格式是依據(jù)DB系統(tǒng)的要求設(shè)計(jì)的。要進(jìn)行改進(jìn)如:對(duì)一個(gè)記錄的多次更新,日志文件將全部變化過(guò)程都記錄下來(lái),而數(shù)據(jù)倉(cāng)庫(kù),只要最終結(jié)果4.日志文件85從數(shù)據(jù)庫(kù)到數(shù)據(jù)倉(cāng)庫(kù)1從數(shù)據(jù)庫(kù)到數(shù)據(jù)倉(cāng)庫(kù)2什么是數(shù)據(jù)倉(cāng)庫(kù)3數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織4數(shù)據(jù)庫(kù)體系化環(huán)境5小結(jié)86

什么是數(shù)據(jù)庫(kù)體系化環(huán)境? 在一個(gè)企業(yè)或組織內(nèi),由各面向應(yīng)用的OLTP數(shù)據(jù)庫(kù)、以及各級(jí)面向主題的數(shù)據(jù)倉(cāng)庫(kù)所組成的完整的數(shù)據(jù)環(huán)境;并在這個(gè)數(shù)據(jù)環(huán)境上建立和進(jìn)行一個(gè)企業(yè)或部門的從聯(lián)機(jī)事務(wù)處理到企業(yè)管理決策的所有應(yīng)用。4數(shù)據(jù)庫(kù)體系化環(huán)境87

數(shù)據(jù)庫(kù)體系化環(huán)境分為兩個(gè)部分:操作型環(huán)境和分析型環(huán)境,分別為操作型處理和分析型處理這兩類不同的數(shù)據(jù)處理服務(wù)

4數(shù)據(jù)庫(kù)體系化環(huán)境88

數(shù)據(jù)庫(kù)體系化環(huán)境的構(gòu)成:1.各級(jí)數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)2.各面向應(yīng)用的數(shù)據(jù)庫(kù)之間、各級(jí)數(shù)據(jù)倉(cāng)庫(kù)之間、以及數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)之間的界限和相互聯(lián)系有合理劃分和明確描述3.在不同的數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)上的數(shù)據(jù)處理和應(yīng)用有明確的定義和劃分4.軟硬件資源及其人員的配置有明確規(guī)定體系化環(huán)境是一個(gè)結(jié)構(gòu)清晰、層次分明、聯(lián)系明確、可有序運(yùn)行的有機(jī)的整體4數(shù)據(jù)庫(kù)體系化環(huán)境89

層次的體系化環(huán)境:

操作型環(huán)境全局級(jí)數(shù)據(jù)倉(cāng)庫(kù)部門級(jí)的局部倉(cāng)庫(kù)個(gè)人級(jí)數(shù)據(jù)倉(cāng)庫(kù)

4.1四層體系化環(huán)境操作型環(huán)境全局倉(cāng)庫(kù)部門倉(cāng)庫(kù)個(gè)人倉(cāng)庫(kù)注:""表示數(shù)據(jù)的抽取方向操作型環(huán)境個(gè)人級(jí)部門及全局級(jí)數(shù)據(jù)倉(cāng)庫(kù)在體系化環(huán)境中的位置

90

操作型環(huán)境存放:細(xì)節(jié)的操作型數(shù)據(jù),服務(wù)于高性能事務(wù)處理全局級(jí)數(shù)據(jù)倉(cāng)庫(kù):存放細(xì)節(jié)數(shù)據(jù)、導(dǎo)出數(shù)據(jù)部門級(jí)局部倉(cāng)庫(kù):一般存放導(dǎo)出數(shù)據(jù)個(gè)人級(jí)數(shù)據(jù)倉(cāng)庫(kù):數(shù)據(jù)一般是暫時(shí)存放,用于啟發(fā)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論