




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)據(jù)倉(cāng)庫(kù)的概念與體系結(jié)構(gòu)第一頁,共五十四頁。數(shù)據(jù)倉(cāng)庫(kù)的產(chǎn)生聯(lián)機(jī)事務(wù)處理系統(tǒng)(業(yè)務(wù)系統(tǒng))剛上線時(shí),查詢不到數(shù)據(jù)是因?yàn)閿?shù)據(jù)太少了,而幾十年后查詢不到有關(guān)數(shù)據(jù)是因?yàn)閿?shù)據(jù)太多了。針對(duì)這一問題,人們?cè)O(shè)想專門為業(yè)務(wù)數(shù)據(jù)的統(tǒng)計(jì)分析建立一個(gè)數(shù)據(jù)中心,它的數(shù)據(jù)從聯(lián)機(jī)事務(wù)處理系統(tǒng)中來、從異構(gòu)的外部數(shù)據(jù)源來、或從脫機(jī)的歷史業(yè)務(wù)數(shù)據(jù)中來這個(gè)數(shù)據(jù)中心也是一個(gè)聯(lián)機(jī)系統(tǒng),它專門為分析統(tǒng)計(jì)和決策支持應(yīng)用服務(wù),通過它可獲取決策支持和聯(lián)機(jī)分析應(yīng)用所需要的一切數(shù)據(jù)。這個(gè)數(shù)據(jù)中心就叫做數(shù)據(jù)倉(cāng)庫(kù)。簡(jiǎn)單地說,數(shù)據(jù)倉(cāng)庫(kù)就是一個(gè)作為決策支持和聯(lián)機(jī)分析應(yīng)用系統(tǒng)數(shù)據(jù)源的結(jié)構(gòu)化數(shù)據(jù)環(huán)境,數(shù)據(jù)倉(cāng)庫(kù)要研究和解決的問題就是從數(shù)據(jù)庫(kù)中獲取信息的問題。第二頁,共五十四頁。什么是數(shù)據(jù)倉(cāng)庫(kù)?數(shù)據(jù)倉(cāng)庫(kù)(DataWarehouse,簡(jiǎn)寫為DW或DWH)數(shù)據(jù)倉(cāng)庫(kù)的定義很多,但卻很難有一種嚴(yán)格的定義數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)數(shù)據(jù)庫(kù),它與公司的操作數(shù)據(jù)庫(kù)分開維護(hù)。允許將各種應(yīng)用系統(tǒng)集成在一起,為統(tǒng)一的歷史數(shù)據(jù)分析提供堅(jiān)實(shí)的平臺(tái),對(duì)信息處理提供支持?jǐn)?shù)據(jù)倉(cāng)庫(kù)區(qū)別于其他數(shù)據(jù)存儲(chǔ)系統(tǒng)“數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主題的、集成的、隨時(shí)間而變化的、不容易丟失的數(shù)據(jù)集合,支持管理部門的決策過程.”—W.H.Inmon第三頁,共五十四頁。數(shù)據(jù)倉(cāng)庫(kù)的概念—教材上的定義數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主題的(SubjectOriented)、集成的(Integrate)、相對(duì)穩(wěn)定的(Non-Volatile)、反映歷史變化(TimeVariant)的數(shù)據(jù)集合,通常用于輔助決策支持(DDS)第四頁,共五十四頁。數(shù)據(jù)倉(cāng)庫(kù)的發(fā)展以報(bào)表為主以分析為主以預(yù)測(cè)模型為主以營(yíng)運(yùn)導(dǎo)向?yàn)橹饕詫?shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù)、自動(dòng)決策應(yīng)用為主第五頁,共五十四頁。數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn)面向主題;數(shù)據(jù)集成;反映歷史變化;相對(duì)穩(wěn)定的。第六頁,共五十四頁。數(shù)據(jù)倉(cāng)庫(kù)關(guān)鍵特征一——面向主題面向主題,是數(shù)據(jù)倉(cāng)庫(kù)顯著區(qū)別于關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)的一個(gè)特征圍繞一些主題,如顧客、供應(yīng)商、產(chǎn)品等關(guān)注決策者的數(shù)據(jù)建模與分析,而不是集中于組織機(jī)構(gòu)的日常操作和事務(wù)處理。排除對(duì)于決策無用的數(shù)據(jù),提供特定主題的簡(jiǎn)明視圖。第七頁,共五十四頁。數(shù)據(jù)倉(cāng)庫(kù)關(guān)鍵特征二——數(shù)據(jù)集成一個(gè)數(shù)據(jù)倉(cāng)庫(kù)是通過集成多個(gè)異種數(shù)據(jù)源來構(gòu)造的。關(guān)系數(shù)據(jù)庫(kù),一般文件,聯(lián)機(jī)事務(wù)處理記錄使用數(shù)據(jù)清理和數(shù)據(jù)集成技術(shù)。確保命名約定、編碼結(jié)構(gòu)、屬性度量等的一致性。當(dāng)數(shù)據(jù)被移到數(shù)據(jù)倉(cāng)庫(kù)時(shí),它們要經(jīng)過轉(zhuǎn)化。第八頁,共五十四頁。數(shù)據(jù)倉(cāng)庫(kù)關(guān)鍵特征三——隨時(shí)間而變化數(shù)據(jù)倉(cāng)庫(kù)是從歷史的角度提供信息數(shù)據(jù)倉(cāng)庫(kù)的時(shí)間范圍比操作數(shù)據(jù)庫(kù)系統(tǒng)要長(zhǎng)的多。操作數(shù)據(jù)庫(kù)系統(tǒng):主要保存當(dāng)前數(shù)據(jù)。數(shù)據(jù)倉(cāng)庫(kù):從歷史的角度提供信息(比如過去5-10年)數(shù)據(jù)倉(cāng)庫(kù)中的每一個(gè)關(guān)鍵結(jié)構(gòu)都隱式或顯式地包含時(shí)間元素,而操作數(shù)據(jù)庫(kù)中的關(guān)鍵結(jié)構(gòu)可能就不包括時(shí)間元素。第九頁,共五十四頁。數(shù)據(jù)倉(cāng)庫(kù)關(guān)鍵特征四——數(shù)據(jù)不易丟失盡管數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)來自于操作數(shù)據(jù)庫(kù),但他們卻是在物理上分離保存的。操作數(shù)據(jù)庫(kù)的更新操作不會(huì)出現(xiàn)在數(shù)據(jù)倉(cāng)庫(kù)環(huán)境下不需要事務(wù)處理,恢復(fù),和并發(fā)控制等機(jī)制只需要兩種數(shù)據(jù)訪問:數(shù)據(jù)的初始轉(zhuǎn)載和數(shù)據(jù)訪問(讀操作)第十頁,共五十四頁。數(shù)據(jù)倉(cāng)庫(kù)與異種數(shù)據(jù)庫(kù)集成比較傳統(tǒng)的異種數(shù)據(jù)庫(kù)集成:(查詢驅(qū)動(dòng))在多個(gè)異種數(shù)據(jù)庫(kù)上建立包裝程序(wrappers)和中介程序(mediators)查詢驅(qū)動(dòng)方法——當(dāng)從客戶端傳過來一個(gè)查詢時(shí),首先使用元數(shù)據(jù)字典將查詢轉(zhuǎn)換成相應(yīng)異種數(shù)據(jù)庫(kù)上的查詢;然后,將這些查詢映射和發(fā)送到局部查詢處理器數(shù)據(jù)倉(cāng)庫(kù):
(更新驅(qū)動(dòng))將來自多個(gè)異種源的信息預(yù)先集成,并存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中,供直接查詢和分析第十一頁,共五十四頁。查詢驅(qū)動(dòng)方法和更新驅(qū)動(dòng)方法的比較查詢驅(qū)動(dòng)的方法需要負(fù)責(zé)信息過濾和集成處理與局部數(shù)據(jù)源上的處理競(jìng)爭(zhēng)資源對(duì)于頻繁的查詢,尤其是涉及聚集(匯總)操作的查詢,開銷很大(決策支持中常見的查詢形式)更新驅(qū)動(dòng)的方法(帶來高性能)數(shù)據(jù)經(jīng)預(yù)處理后單獨(dú)存儲(chǔ),對(duì)聚集操作提供良好支持不影響局部數(shù)據(jù)源上的處理集成歷史信息,支持負(fù)責(zé)的多維查詢第十二頁,共五十四頁。數(shù)據(jù)倉(cāng)庫(kù)的組成數(shù)據(jù)庫(kù)數(shù)據(jù)抽取工具元數(shù)據(jù)訪問工具數(shù)據(jù)集市數(shù)據(jù)倉(cāng)庫(kù)管理工具信息發(fā)布系統(tǒng)第十三頁,共五十四頁。數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中的數(shù)據(jù)庫(kù)是整個(gè)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的核心,是數(shù)據(jù)信息存放的地方,對(duì)數(shù)據(jù)提供存取和檢索支持。相對(duì)于傳統(tǒng)數(shù)據(jù)庫(kù)來說,它突出的特點(diǎn)是對(duì)海量數(shù)據(jù)的支持和快速的檢索技術(shù)。第十四頁,共五十四頁。數(shù)據(jù)抽取工具數(shù)據(jù)抽取工具把數(shù)據(jù)從各種各樣的存儲(chǔ)環(huán)境中提取出來,進(jìn)行必要的轉(zhuǎn)化、整理,再存放到數(shù)據(jù)倉(cāng)庫(kù)中。對(duì)各種不同的數(shù)據(jù)存儲(chǔ)方式的訪問能力是數(shù)據(jù)抽取工具的關(guān)鍵,數(shù)據(jù)轉(zhuǎn)換通常包括:刪除對(duì)決策分析沒有意義的數(shù)據(jù)轉(zhuǎn)換成統(tǒng)一的數(shù)據(jù)名稱和定義計(jì)算統(tǒng)計(jì)和衍生數(shù)據(jù)填補(bǔ)缺失數(shù)據(jù)統(tǒng)一不同的數(shù)據(jù)定義方式第十五頁,共五十四頁。元數(shù)據(jù)元數(shù)據(jù)是描述數(shù)據(jù)倉(cāng)庫(kù)內(nèi)數(shù)據(jù)的結(jié)構(gòu)和建立方法的數(shù)據(jù)。元數(shù)據(jù)(Metadata)是描述數(shù)據(jù)的數(shù)據(jù)。在關(guān)系數(shù)據(jù)庫(kù)中,數(shù)據(jù)是存放在表中的,表結(jié)構(gòu)的定義、關(guān)于結(jié)構(gòu)的描述就是元數(shù)據(jù)。在數(shù)據(jù)倉(cāng)庫(kù)中,元數(shù)據(jù)就是定義數(shù)據(jù)倉(cāng)庫(kù)對(duì)象的數(shù)據(jù)。元數(shù)據(jù)分為:技術(shù)元數(shù)據(jù)業(yè)務(wù)元數(shù)據(jù)第十六頁,共五十四頁。技術(shù)元數(shù)據(jù)技術(shù)元數(shù)據(jù)是系統(tǒng)的開發(fā)和管理人員使用的、描述數(shù)據(jù)的技術(shù)細(xì)節(jié)的元數(shù)據(jù)。主要包括:數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)的描述倉(cāng)庫(kù)模式、視圖、維、層次結(jié)構(gòu)、導(dǎo)出數(shù)據(jù)的定義,以及數(shù)據(jù)集市的位置和內(nèi)容操作元數(shù)據(jù)包括數(shù)據(jù)血統(tǒng)(datalineage)、數(shù)據(jù)類別(currencyofdata),以及監(jiān)視信息匯總用的算法由操作環(huán)境到數(shù)據(jù)倉(cāng)庫(kù)的映射關(guān)于系統(tǒng)性能的數(shù)據(jù)索引,數(shù)據(jù)刷新、更新或復(fù)制事件的調(diào)度和定時(shí)第十七頁,共五十四頁。數(shù)據(jù)倉(cāng)庫(kù)的組成業(yè)務(wù)元數(shù)據(jù)(商務(wù)元數(shù)據(jù))從業(yè)務(wù)角度描述了系統(tǒng)中的數(shù)據(jù),是介于使用者和真實(shí)系統(tǒng)之間的語義層,使得不懂計(jì)算機(jī)技術(shù)的業(yè)務(wù)人員也能夠“理解”系統(tǒng)中的數(shù)據(jù)。業(yè)務(wù)元數(shù)據(jù)主要包括:用戶的業(yè)務(wù)術(shù)語和它們表達(dá)的數(shù)據(jù)模型信息對(duì)象名稱及其屬性數(shù)據(jù)的來源信息和數(shù)據(jù)訪問的規(guī)則信息。商務(wù)術(shù)語和定義、數(shù)據(jù)擁有者信息、收費(fèi)政策等第十八頁,共五十四頁。元數(shù)據(jù)的作用元數(shù)據(jù)與數(shù)據(jù)一起,構(gòu)成了數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)模型,元數(shù)據(jù)所描述的更多的是這個(gè)模型的結(jié)構(gòu)方面的信息。在數(shù)據(jù)倉(cāng)庫(kù)中,元數(shù)據(jù)的主要用途包括:用作目錄,幫助決策支持系統(tǒng)分析者對(duì)數(shù)據(jù)倉(cāng)庫(kù)的內(nèi)容定義作為數(shù)據(jù)倉(cāng)庫(kù)和操作性數(shù)據(jù)庫(kù)之間進(jìn)行數(shù)據(jù)轉(zhuǎn)換時(shí)的映射標(biāo)準(zhǔn)幫助業(yè)務(wù)人員和技術(shù)人員更好地理解當(dāng)前業(yè)務(wù)和系統(tǒng)數(shù)據(jù)提高系統(tǒng)的管理效率。便于系統(tǒng)集成和可重用第十九頁,共五十四頁。訪問工具訪問工具訪問工具是為用戶訪問數(shù)據(jù)倉(cāng)庫(kù)提供手段,如數(shù)據(jù)查詢和報(bào)表、應(yīng)用開發(fā)工具、數(shù)據(jù)挖掘工具和數(shù)據(jù)分析工具。第二十頁,共五十四頁。數(shù)據(jù)集市數(shù)據(jù)集市(DataMart),也叫數(shù)據(jù)市場(chǎng)。數(shù)據(jù)集市是企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)子集,是為了特定的應(yīng)用目的,從數(shù)據(jù)倉(cāng)庫(kù)中獨(dú)立出來的一部分?jǐn)?shù)據(jù),也稱為部門數(shù)據(jù)或主題數(shù)據(jù)。在分析、內(nèi)容、表現(xiàn),以及易用性方面迎合專業(yè)用戶群體的特殊需求。在數(shù)據(jù)倉(cāng)庫(kù)的實(shí)施過程中,通??梢詮囊粋€(gè)部分的數(shù)據(jù)集市著手,再逐漸用幾個(gè)數(shù)據(jù)集市組成一個(gè)完整的數(shù)據(jù)倉(cāng)庫(kù)(自底向上)。第二十一頁,共五十四頁。數(shù)據(jù)倉(cāng)庫(kù)的組成數(shù)據(jù)倉(cāng)庫(kù)管理數(shù)據(jù)倉(cāng)庫(kù)管理包括安全與權(quán)限管理、數(shù)據(jù)更新跟蹤、數(shù)據(jù)質(zhì)量檢查、元數(shù)據(jù)的管理與更新、數(shù)據(jù)倉(cāng)庫(kù)使用狀態(tài)的檢測(cè)與審計(jì)、數(shù)據(jù)復(fù)制與刪除、數(shù)據(jù)分割與分發(fā)、數(shù)據(jù)備份與恢復(fù)、數(shù)據(jù)存儲(chǔ)管理等。信息發(fā)布系統(tǒng)信息發(fā)布系統(tǒng)是把數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)或其他相關(guān)的數(shù)據(jù)發(fā)送給不同的地點(diǎn)和用戶?;赪eb的信息發(fā)布系統(tǒng)是當(dāng)前流行的多用戶訪問的最有效方法。第二十二頁,共五十四頁。數(shù)據(jù)倉(cāng)庫(kù)的體系結(jié)構(gòu)
第二十三頁,共五十四頁。典型的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)結(jié)構(gòu)從系統(tǒng)構(gòu)建方面來說,一個(gè)典型的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)通常劃分成四個(gè)模塊:數(shù)據(jù)源數(shù)據(jù)存儲(chǔ)和管理(數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器)OLAP服務(wù)器前端工具與應(yīng)用第二十四頁,共五十四頁。數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)數(shù)據(jù)倉(cāng)庫(kù)提取清理轉(zhuǎn)換裝入刷新OLAP服務(wù)器查詢報(bào)告分析數(shù)據(jù)挖掘監(jiān)控、整合元數(shù)據(jù)存儲(chǔ)數(shù)據(jù)源前端工具輸出數(shù)據(jù)集市操作數(shù)據(jù)庫(kù)其他外部信息源數(shù)據(jù)存儲(chǔ)和管理OLAP服務(wù)器第二十五頁,共五十四頁。數(shù)據(jù)源數(shù)據(jù)源是數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的基礎(chǔ),即系統(tǒng)的數(shù)據(jù)來源,通常包含企事業(yè)單位的各種內(nèi)部信息和外部信息。內(nèi)部信息,例如存于操作型數(shù)據(jù)庫(kù)中的各種業(yè)務(wù)數(shù)據(jù)和辦公自動(dòng)化系統(tǒng)中包含的各類文檔數(shù)據(jù);外部數(shù)據(jù),例如各類法律法規(guī)、市場(chǎng)信息、競(jìng)爭(zhēng)對(duì)手的信息以及各類外部統(tǒng)計(jì)數(shù)據(jù)及其它有關(guān)文檔等。第二十六頁,共五十四頁。數(shù)據(jù)的存儲(chǔ)與管理數(shù)據(jù)的存儲(chǔ)與管理是整個(gè)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的核心。存儲(chǔ)在現(xiàn)有各業(yè)務(wù)系統(tǒng)的基礎(chǔ)上,對(duì)數(shù)據(jù)進(jìn)行抽取、清理、并有效集成,按照主題進(jìn)行重新組織,最終確定數(shù)據(jù)倉(cāng)庫(kù)的物理存儲(chǔ)結(jié)構(gòu),同時(shí)組織存儲(chǔ)數(shù)據(jù)倉(cāng)庫(kù)的元數(shù)據(jù)(包括數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)字典、記錄系統(tǒng)定義、數(shù)據(jù)轉(zhuǎn)換規(guī)則、數(shù)據(jù)加載頻率以及業(yè)務(wù)規(guī)則等信息)。
管理對(duì)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的管理也就是對(duì)其相應(yīng)數(shù)據(jù)庫(kù)系統(tǒng)的管理,通常包括數(shù)據(jù)的安全、歸檔、備份、恢復(fù)等維護(hù)工作。第二十七頁,共五十四頁。OLAP服務(wù)器OLAP(聯(lián)機(jī)分析處理)是針對(duì)某個(gè)特定的主題進(jìn)行聯(lián)機(jī)數(shù)據(jù)訪問、處理、分析,通過直觀的方式,從多個(gè)維度、多種數(shù)據(jù)綜合度進(jìn)行分析,并將結(jié)果呈現(xiàn)給使用者。OLAP讓使用者能夠從多角度對(duì)信息進(jìn)行快速、一致、交互地存取。第二十八頁,共五十四頁。前端工具與應(yīng)用前端工具主要包括各種數(shù)據(jù)分析工具、報(bào)表工具、查詢工具、數(shù)據(jù)挖掘工具(例如關(guān)聯(lián)分析、分類、預(yù)測(cè)等)以及各種基于數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市開發(fā)的應(yīng)用。其中:數(shù)據(jù)分析工具主要針對(duì)OLAP服務(wù)器報(bào)表工具、數(shù)據(jù)挖掘工具既可以用于數(shù)據(jù)倉(cāng)庫(kù),也可針對(duì)OLAP服務(wù)器第二十九頁,共五十四頁。OLTP和OLAP聯(lián)機(jī)事務(wù)處理OLTP(on-linetransactionprocessing)聯(lián)機(jī)分析處理OLAP(On-LineAnalyticalProcessing)。OLTP是傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)的主要應(yīng)用,主要是基本的、日常的事務(wù)處理,例如銀行交易。OLAP是數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的主要應(yīng)用,支持復(fù)雜的分析操作,側(cè)重決策支持,并且提供直觀易懂的查詢結(jié)果.第三十頁,共五十四頁。背景數(shù)據(jù)庫(kù)系統(tǒng)作為數(shù)據(jù)管理手段,主要用于事務(wù)處理。在進(jìn)行事務(wù)處理的同時(shí),積累了大量的數(shù)據(jù),傳統(tǒng)決策支持系統(tǒng)一般就建立在這種事務(wù)處理環(huán)境上。數(shù)據(jù)庫(kù)技術(shù)一直在盡量勝任事務(wù)處理、批處理到分析處理,雖然在事務(wù)處理應(yīng)用方面取得了成功,但分析處理的支持隨著數(shù)據(jù)的增長(zhǎng)越來越無法勝任。結(jié)果就是將事務(wù)處理系統(tǒng)和分析處理系統(tǒng)分離,建立兩個(gè)獨(dú)立的系統(tǒng)。第三十一頁,共五十四頁。OLTP與OLAP比較第三十二頁,共五十四頁。OLTPOLTP也稱為面向交易的處理系統(tǒng),其基本特征是顧客的原始數(shù)據(jù)可以立即傳送到計(jì)算中心進(jìn)行處理,并在很短的時(shí)間內(nèi)給出處理結(jié)果。這樣做的最大優(yōu)點(diǎn)是可以即時(shí)隨地處理輸入的數(shù)據(jù),及時(shí)回答。也稱為實(shí)時(shí)系統(tǒng)(RealtimeSystem)。衡量聯(lián)機(jī)事務(wù)處理系統(tǒng)的一個(gè)重要性能指標(biāo)是系統(tǒng)性能,具體體現(xiàn)為實(shí)時(shí)響應(yīng)時(shí)間(ResponseTime)
特點(diǎn)OLTP支持大量并發(fā)用戶定期添加和修改數(shù)據(jù)反映隨時(shí)變化的單位狀態(tài),但不保存其歷史記錄具有復(fù)雜的結(jié)構(gòu)。第三十三頁,共五十四頁。OLTP系統(tǒng)VS.OLAP系統(tǒng)比較(1)用戶和系統(tǒng)的面向性面向顧客(事務(wù))VS.面向市場(chǎng)(分析)數(shù)據(jù)內(nèi)容當(dāng)前的、詳細(xì)的數(shù)據(jù)VS.歷史的、匯總的數(shù)據(jù)數(shù)據(jù)庫(kù)設(shè)計(jì)實(shí)體-聯(lián)系模型(ER)和面向應(yīng)用的數(shù)據(jù)庫(kù)設(shè)計(jì)VS.星型/雪花模型和面向主題的數(shù)據(jù)庫(kù)設(shè)計(jì)第三十四頁,共五十四頁。OLTP系統(tǒng)VS.OLAP系統(tǒng)比較(2)數(shù)據(jù)視圖當(dāng)前的、企業(yè)內(nèi)部的數(shù)據(jù)VS.經(jīng)過演化的、集成的數(shù)據(jù)訪問模式事務(wù)操作VS.只讀查詢(但很多是復(fù)雜的查詢)任務(wù)單位簡(jiǎn)短的事務(wù)VS.復(fù)雜的查詢?cè)L問數(shù)據(jù)量數(shù)十個(gè)VS.數(shù)百萬個(gè)第三十五頁,共五十四頁。OLTP系統(tǒng)VS.OLAP系統(tǒng)比較(3)用戶數(shù)數(shù)千個(gè)VS.數(shù)百個(gè)數(shù)據(jù)庫(kù)規(guī)模100M-數(shù)GBVS.100GB-數(shù)TB度量事務(wù)吞吐量VS.查詢吞吐量、響應(yīng)時(shí)間第三十六頁,共五十四頁。OLAP與數(shù)據(jù)倉(cāng)庫(kù)的區(qū)別OLAP是大多數(shù)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)用來呈現(xiàn)數(shù)據(jù)分析結(jié)果的方法之一。數(shù)據(jù)倉(cāng)庫(kù)最重要的特性是數(shù)據(jù)集成,目的是有效信息數(shù)據(jù)的呈現(xiàn)。OLAP服務(wù)卻不是數(shù)據(jù)集成而設(shè)計(jì),但它是一種強(qiáng)大的數(shù)據(jù)呈現(xiàn)方法。典型的OLAP服務(wù)常常源自一個(gè)或多個(gè)專門設(shè)計(jì)的數(shù)據(jù)集市。OLAP服務(wù)應(yīng)該被看作數(shù)據(jù)倉(cāng)庫(kù)解決方案的一部分。第三十七頁,共五十四頁。OLAP分類OLAP根據(jù)其存儲(chǔ)數(shù)據(jù)的方式分為:ROLAP、MOLAP、HOLAP三類。
ROLAP(關(guān)系OLAP)結(jié)構(gòu):使用關(guān)系或擴(kuò)充關(guān)系DBMS存儲(chǔ)并管理數(shù)據(jù)倉(cāng)庫(kù),OLAP中間件支持其余部分。在接收用戶的請(qǐng)求時(shí),ROLAP服務(wù)器將多維查詢轉(zhuǎn)換成SQL查詢,由數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器對(duì)以關(guān)系形式存放的數(shù)據(jù)執(zhí)行SQL查詢,最終將數(shù)據(jù)返回給終端用戶。MOLAP(多維OLAP)結(jié)構(gòu):核心是其數(shù)據(jù)存儲(chǔ)采用矩陣(可能是多維方陣)方式,數(shù)據(jù)檢索高效HOLAP(混合OLAP)結(jié)構(gòu):結(jié)合ROLAP和MOLAP技術(shù),在MOLAP立方體中存儲(chǔ)高級(jí)別的聚集,在ROLAP中存儲(chǔ)低級(jí)別的聚集。第三十八頁,共五十四頁。數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的體系結(jié)構(gòu)根據(jù)應(yīng)用需求的不同,可以分為四種類型:(1)兩層架構(gòu)(GenericTwo-LevelArchitecture)。(2)獨(dú)立型數(shù)據(jù)集市(IndependentDataMart)。(3)依賴型數(shù)據(jù)集市和操作型數(shù)據(jù)存儲(chǔ)(DependentDataMartandOperationalDataStore)。(4)邏輯型數(shù)據(jù)集市和實(shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù)(LogicalDataMartandReal-TimeDataWarehouse)。第三十九頁,共五十四頁。參考書:三種數(shù)據(jù)倉(cāng)庫(kù)模型從體系結(jié)構(gòu)的角度去看,數(shù)據(jù)倉(cāng)庫(kù)模型可以有以下三種:企業(yè)倉(cāng)庫(kù)搜集關(guān)于跨越整個(gè)組織的主題的所有信息數(shù)據(jù)集市企業(yè)范圍數(shù)據(jù)的一個(gè)子集,對(duì)于特定的客戶是有用的。其范圍限于選定的主題,比如一個(gè)商場(chǎng)的數(shù)據(jù)集市獨(dú)立的數(shù)據(jù)集市VS.非獨(dú)立的數(shù)據(jù)集市(數(shù)據(jù)來自于企業(yè)數(shù)據(jù)倉(cāng)庫(kù))虛擬倉(cāng)庫(kù)操作數(shù)據(jù)庫(kù)上的一系列視圖只有一些可能的匯總視圖被物化第四十頁,共五十四頁。獨(dú)立的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)
(企業(yè)數(shù)據(jù)倉(cāng)庫(kù))第四十一頁,共五十四頁。構(gòu)造步驟數(shù)據(jù)從各種內(nèi)部、外部的源系統(tǒng)文件或數(shù)據(jù)庫(kù)中抽取,在一個(gè)大的組織中可能有幾十或幾百個(gè)這樣的文件和數(shù)據(jù)庫(kù)系統(tǒng)。不同源系統(tǒng)中的數(shù)據(jù)在加載到數(shù)據(jù)倉(cāng)庫(kù)之前需要轉(zhuǎn)換和集成,當(dāng)數(shù)據(jù)分段傳輸發(fā)現(xiàn)錯(cuò)誤時(shí),還要送回源系統(tǒng)進(jìn)行校驗(yàn)糾錯(cuò)。建立數(shù)據(jù)倉(cāng)庫(kù)。數(shù)據(jù)倉(cāng)庫(kù)中將存儲(chǔ)來自源系統(tǒng)的詳細(xì)數(shù)據(jù)和各種綜程度(粒度)的概括數(shù)據(jù)。用戶通過SQL查詢語言或其他分析工具訪問數(shù)據(jù)倉(cāng)庫(kù),其結(jié)果又會(huì)反饋到數(shù)據(jù)倉(cāng)庫(kù)和操作型數(shù)據(jù)庫(kù)。第四十二頁,共五十四頁。ETL簡(jiǎn)介數(shù)據(jù)從源系統(tǒng)加載到數(shù)據(jù)庫(kù)倉(cāng)庫(kù)之前,需要進(jìn)行抽取E(Extract)、清洗C(cleaning)、轉(zhuǎn)換T(transform),最后加載L(load),這就是ETL過程。抽取和加載通常是定期的,每天、每周、或者每月,根據(jù)數(shù)據(jù)倉(cāng)庫(kù)面向的主題而定。ETL過程是一個(gè)數(shù)據(jù)流動(dòng)的過程,中間的“T”(轉(zhuǎn)換)是關(guān)鍵第四十三頁,共五十四頁?;讵?dú)立數(shù)據(jù)集市的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)特點(diǎn):終端用戶訪問分離的數(shù)據(jù)集市增加了復(fù)雜性每一個(gè)數(shù)據(jù)集市開發(fā)一個(gè)獨(dú)立的ETL接口,增加了難度和開銷第四十四頁,共五十四頁?;谝蕾囆蛿?shù)據(jù)集市和操作型數(shù)據(jù)存儲(chǔ)(ODS)的數(shù)據(jù)倉(cāng)庫(kù)第四十五頁,共五十四頁。邏輯型數(shù)據(jù)集市和實(shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)第四十六頁,共五十四頁。從數(shù)據(jù)倉(cāng)庫(kù)到數(shù)據(jù)挖掘第四十七頁,共五十四頁。數(shù)據(jù)倉(cāng)庫(kù)的應(yīng)用數(shù)據(jù)倉(cāng)庫(kù)的三種應(yīng)用信息處理支持查詢和基本的統(tǒng)計(jì)分析,并使用交叉表、表、圖標(biāo)和圖進(jìn)行報(bào)表處理分析處理對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)進(jìn)行多維數(shù)據(jù)分析支持基本的OLAP操作,切塊、切片、上卷、下鉆、轉(zhuǎn)軸等數(shù)據(jù)挖掘從隱藏模式中發(fā)現(xiàn)知識(shí)支持關(guān)聯(lián)分析,構(gòu)建分析性模型,分類和預(yù)測(cè),并用可視化工具呈現(xiàn)挖掘的結(jié)果第四十八頁,共五十四頁。從聯(lián)機(jī)分析處理到聯(lián)機(jī)分析挖掘?yàn)槭裁匆?lián)機(jī)分析挖掘數(shù)據(jù)倉(cāng)庫(kù)中有高質(zhì)量的數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)中存放著整合的、一致的、清理過的數(shù)據(jù)圍繞數(shù)據(jù)倉(cāng)庫(kù)的信息處理結(jié)構(gòu)存取、集成、合并多個(gè)異種數(shù)據(jù)庫(kù)的轉(zhuǎn)換,ODBC/OLEDB連接,Web訪問和訪問工具等基于OLAP的探測(cè)式數(shù)據(jù)分析使用上卷、下鉆、切片、轉(zhuǎn)軸等技術(shù)進(jìn)行數(shù)據(jù)挖掘數(shù)據(jù)挖掘功能的聯(lián)機(jī)選擇多種數(shù)據(jù)挖掘功能、算法和任務(wù)的整合第四十九頁,共五十四頁。聯(lián)機(jī)分析挖掘的體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)元數(shù)據(jù)多維數(shù)據(jù)庫(kù)OLAM引擎OLAP引擎用戶圖形界面API數(shù)據(jù)方體API數(shù)據(jù)庫(kù)API數(shù)據(jù)清理數(shù)據(jù)集成第三層OLAP/OLAM第二層多維數(shù)據(jù)庫(kù)第一層數(shù)據(jù)存儲(chǔ)第四層用戶界面數(shù)據(jù)的過濾、集成過濾數(shù)據(jù)庫(kù)基于約束的數(shù)據(jù)挖掘挖掘結(jié)果第五十頁,共五十四頁。數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)過程(1)自頂向下法、自底向上法或者兩者的混合方法自頂向下法:由總體設(shè)計(jì)和規(guī)劃開始在技術(shù)成熟、商業(yè)理解透徹的情況下使用自底向上法:以實(shí)驗(yàn)和原型開始常用在模型和技術(shù)開發(fā)的初期,可以有效的對(duì)使用的技術(shù)和模型進(jìn)行評(píng)估,降低風(fēng)險(xiǎn)混合方法:
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 南京市政道路路面施工方案
- 衛(wèi)生間橡皮金防水施工方案
- 退股協(xié)議方案
- 上承式鋼箱拱橋施工方案
- 蒸汽管道下穿鐵路施工方案
- 水庫(kù)堤壩加固工程施工方案
- 鐵路變配電所維修施工方案
- 構(gòu)建健全的外商投資服務(wù)體系的策略
- 發(fā)展中醫(yī)藥服務(wù)與傳統(tǒng)醫(yī)療模式的策略及實(shí)施路徑
- 低空經(jīng)濟(jì)的市場(chǎng)前景
- 從吶喊看魯迅筆下的女性角色
- 介紹錢三強(qiáng)的
- 農(nóng)業(yè)資源與環(huán)境經(jīng)濟(jì)學(xué)
- 生態(tài)與翻譯生態(tài)翻譯學(xué)理論解構(gòu)
- HQ城環(huán)湖預(yù)熱馬拉松活動(dòng)方案
- 鐵路行車信號(hào)-手信號(hào)
- 組長(zhǎng)述職晉升報(bào)告
- 小學(xué)學(xué)生課外勞動(dòng)任務(wù)計(jì)劃清單(一至六年級(jí))
- 《構(gòu)造地質(zhì)學(xué)》習(xí)題及參考答案
- 醫(yī)院配電系統(tǒng)智能化管理服務(wù)
- 小學(xué)主題班會(huì)【安全使用和維護(hù)家用電器】
評(píng)論
0/150
提交評(píng)論