版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、數(shù)倉兩種建模方式:維度建模和范式建模、ODS層ODS全稱是OperationalDataStore,般對應(yīng)的是操作性數(shù)據(jù)存儲,直接面向主題的,也叫數(shù)據(jù)運營層,通常是最接近數(shù)據(jù)源中數(shù)據(jù)的層,數(shù)據(jù)源中的數(shù)據(jù),經(jīng)過抽取、洗凈、傳輸,也就是通常說的ETL之后的數(shù)據(jù)存入本層。本層的數(shù)據(jù),總體上大多是按照源頭業(yè)務(wù)系統(tǒng)的分類方式而分類的。但是,這一層面的數(shù)據(jù)卻不等同于原始數(shù)據(jù)。在源數(shù)據(jù)裝入這一層時,要進(jìn)行諸如去噪(例如有一條數(shù)據(jù)中人的年齡是300歲,這種屬于異常數(shù)據(jù),就需要提前做一些處理)、去重(例如在個人資料表中,同一ID卻有兩條重復(fù)數(shù)據(jù),在接入的時候需要做步去重)、字段命名規(guī)范等系列操作。ODS包括的是
2、當(dāng)前或接近當(dāng)前的數(shù)據(jù),ODS反映的是當(dāng)前業(yè)務(wù)條件的狀態(tài),ODS的設(shè)計與用戶或業(yè)務(wù)的需要是有關(guān)聯(lián)的。ODS中的數(shù)據(jù)具有以下4個基本特征:面向主題的:進(jìn)入ODS的數(shù)據(jù)是來源于各個操作型數(shù)據(jù)庫以及其他外部數(shù)據(jù)源,數(shù)據(jù)進(jìn)入ODS前必須經(jīng)過ETL過程(抽取、清洗、轉(zhuǎn)換、加載等)。集成的:ODS的數(shù)據(jù)來源于各個操作型數(shù)據(jù)庫,同時也會在數(shù)據(jù)清理加工后進(jìn)行一定程度的綜合。可更新的:可以聯(lián)機(jī)修改。這點區(qū)別于數(shù)據(jù)倉庫。當(dāng)前或接近當(dāng)前的:“當(dāng)前”是指數(shù)據(jù)在存取時刻是最新的,“接近當(dāng)前”是指存取的數(shù)據(jù)是最近段時間得到的。ODS的目的:(1)實現(xiàn)企業(yè)級的OLTP操作:傳統(tǒng)的操作型數(shù)據(jù)庫往往只存放企業(yè)某一類業(yè)務(wù)或者某一個
3、部門的數(shù)據(jù),因此無法面向企業(yè)全局?jǐn)?shù)據(jù)的OLTP,而ODS可以實現(xiàn)。因為ODS的數(shù)據(jù)是面向整個企業(yè)進(jìn)行集成匯總的,克服了原來面向應(yīng)用的操作型數(shù)據(jù)庫數(shù)據(jù)分散的缺陷。(2)實現(xiàn)即時的OLAP操作:在數(shù)據(jù)倉庫上進(jìn)行OALP,往往由于數(shù)據(jù)量十分龐大而需要較長的時間。而在企業(yè)實際應(yīng)用中,對于一些較低層次的決策,往往并不需要太多的歷史數(shù)據(jù),可能只需要參考當(dāng)前的或者接近當(dāng)前的數(shù)據(jù)就可以完成,并且要求具有較快的響應(yīng)時間,因此數(shù)據(jù)倉庫顯然無法滿足這樣的要求,但是ODS可以實現(xiàn)。ODS中不僅有面向企業(yè)全局的細(xì)節(jié)數(shù)據(jù)和匯總數(shù)據(jù),而且規(guī)模比數(shù)據(jù)倉庫小,具有較強(qiáng)的實時響應(yīng)能力。數(shù)據(jù)分析的概念:OLTP:On-LineTr
4、ansactionProcessing聯(lián)機(jī)事務(wù)處理過程(OLTP),也稱為面向交易的處理過程,其基本特征是前臺接收的用戶數(shù)據(jù)可以立即傳送到計算中心進(jìn)行處理,并在很短的時間內(nèi)給出處理結(jié)果,是對用戶操作快速響應(yīng)的方式之一。OLAP:OLAP展現(xiàn)在用戶面前的是一幅幅多維視圖。聯(lián)機(jī)分析處理的概念:維(Dimension):是人們觀察數(shù)據(jù)的特定角度,是考慮問題時的一類屬性,屬性集合構(gòu)成一個維(時間維、地理維等)。維的層次(Level):人們觀察數(shù)據(jù)的某個特定角度(即某個維)還可以存在細(xì)節(jié)程度不同的各個描述方面(時間維:日期、月份、季度、年)。維的成員(Member):維的一個取值,是數(shù)據(jù)項在某維中位置的
5、描述。(“某年某月某日”是在時間維上位置的描述)。度量(Measure):多維數(shù)組的取值.OLAP的基本多維分析操作有鉆?。―rill-up和Drill-down)、切片(Slice)和切塊(Dice)、以及旋轉(zhuǎn)(Pivot)等。鉆?。菏歉淖兙S的層次,變換分析的粒度。它包括向下鉆?。―rill-down)和向上鉆取(Drill-up)/上卷(Roll-up)Drill-up是在某一維上將低層次的細(xì)節(jié)數(shù)據(jù)概括到高層次的匯總數(shù)據(jù),或者減少維數(shù);而Drill-down則相反,它從匯總數(shù)據(jù)深入到細(xì)節(jié)數(shù)據(jù)進(jìn)行觀察或增加新維。切片和切塊:是在一部分維上選定值后,關(guān)心度量數(shù)據(jù)在剩余維上的分布。如果剩余的維只
6、有兩個,則是切片;如果有三個或以上,則是切塊。旋轉(zhuǎn):是變換維的方向,即在表格中重新安排維的放置(例如行列互換)。OLAP是以數(shù)據(jù)倉庫為基礎(chǔ)的,其最終數(shù)據(jù)來源與OLTP樣均來自底層的數(shù)據(jù)庫系統(tǒng),但由于二者面對的用戶不同,OLTP面對的是操作人員和低層管理人員,OLAP面員和高層管理人員.二、DW數(shù)據(jù)倉庫層數(shù)據(jù)倉庫層(DW,DataWarehouse),是數(shù)據(jù)倉庫的主體在這里,從ODS層中獲得的數(shù)據(jù)按照主題建立各種數(shù)據(jù)模型。是一個面向主題的(SubjectOriented)、集成的(Integrated)、相對穩(wěn)定的(Non-Volatile)、反映歷史變化(TimeVariant)的數(shù)據(jù)集合,用
7、于支持管理決策(DecisionMakingSupport)。數(shù)據(jù)倉庫是一個很大的數(shù)據(jù)存儲集合,出于企業(yè)的分析性報告和決策支持目的而創(chuàng)建,對多樣的業(yè)務(wù)數(shù)據(jù)進(jìn)行篩選與整合。它為企業(yè)提供一定的BI(商業(yè)智能)能力,指導(dǎo)業(yè)務(wù)流程改進(jìn)、監(jiān)視時間、成本、質(zhì)量以及控制。數(shù)據(jù)倉庫存儲是一個面向主題(移動的用戶分析也可做為一個主題)的,反映歷史變化數(shù)據(jù),用于支撐管理決策。1、特征:、效率足夠高,要對進(jìn)入的數(shù)據(jù)快速處理。、數(shù)據(jù)質(zhì)量高,數(shù)據(jù)倉庫是提供很多決策需要的數(shù)據(jù)支撐,DW的數(shù)據(jù)應(yīng)該是唯一的具有權(quán)威性的數(shù)據(jù),企業(yè)的所有系統(tǒng)只能從DW取數(shù)據(jù),所以需要定期對DW里面的數(shù)據(jù)進(jìn)行質(zhì)量審,保證DW里邊數(shù)據(jù)的唯一、權(quán)威、
8、準(zhǔn)確性。、擴(kuò)展性,企業(yè)業(yè)務(wù)擴(kuò)展和降低企業(yè)建設(shè)數(shù)據(jù)倉庫的成本考慮、面向主題,數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題域進(jìn)行組織的,每一個主題對應(yīng)一個宏觀的分析領(lǐng)域,數(shù)據(jù)倉庫排除對決策無用的數(shù)據(jù),提供特定主題的簡明視圖。、數(shù)據(jù)倉庫主要提供查詢服務(wù),并且需要查詢能夠及時響應(yīng)、DW的數(shù)據(jù)也是只允許增加不允許刪除和修改,數(shù)據(jù)倉庫主要是提供查詢服務(wù),刪除和修改在分布式系統(tǒng).2、MDS層MDS是數(shù)據(jù)倉庫中間層,數(shù)據(jù)是以主題域劃分的,并根據(jù)業(yè)務(wù)進(jìn)行數(shù)據(jù)關(guān)聯(lián)形成寬表,但是不對數(shù)據(jù)進(jìn)行聚合處理,MDS層數(shù)據(jù)為數(shù)據(jù)倉庫的上層的統(tǒng)計、分析、挖掘和應(yīng)用提供直接支持。MDS層的數(shù)據(jù)也可以執(zhí)行一定的老化策略。3、ADS層ADS層是
9、數(shù)據(jù)倉庫的應(yīng)用層,一般以業(yè)務(wù)線或者部門劃分庫。這一層可以為各個業(yè)務(wù)線創(chuàng)建一個數(shù)據(jù)庫。ADS層的數(shù)據(jù)是基于MDS層數(shù)據(jù)生成的業(yè)務(wù)報表數(shù)據(jù),可以直接作為數(shù)據(jù)倉庫的輸出導(dǎo)出到外部的操作型系統(tǒng)中(MySQL、MSSQL、Hbase、Elasticsearch等)。4、DIM層DIM層是數(shù)據(jù)倉庫數(shù)據(jù)中,各層公用的維度數(shù)據(jù)。比如:省市縣數(shù)據(jù)。三、DW和ODS的區(qū)別存放的數(shù)據(jù)內(nèi)容不同:ODS中主要存放當(dāng)前或接近當(dāng)前的數(shù)據(jù)、細(xì)節(jié)數(shù)據(jù),可以進(jìn)行聯(lián)機(jī)更新。DW中主要存放細(xì)節(jié)數(shù)據(jù)和歷史數(shù)據(jù),以及各種程度的綜合數(shù)據(jù),不能進(jìn)行聯(lián)機(jī)更新。ODS中也可以存放綜合數(shù)據(jù),但只在需要的時候生成。數(shù)據(jù)規(guī)模不同:由于存放的數(shù)據(jù)內(nèi)容不
10、同,因此DW的數(shù)據(jù)規(guī)模遠(yuǎn)遠(yuǎn)超過ODS。技術(shù)支持不同:ODS需要支持面向記錄的聯(lián)機(jī)更新,并隨時保證其數(shù)據(jù)與數(shù)據(jù)源中的數(shù)據(jù)一致。DW則需要支持ETL技術(shù)和數(shù)據(jù)快速存取技術(shù)等。面向的需求不同:ODS主要面向兩個需求:一是用于滿足企業(yè)進(jìn)行全局應(yīng)用的需要,即企業(yè)級的OLTP和即時的OLAP;二是向數(shù)據(jù)倉庫提供一致的數(shù)據(jù)環(huán)境用于數(shù)據(jù)抽取。DW主要用于高層戰(zhàn)略決策,供挖掘分析使用。使用者不同:ODS主要使用者是企業(yè)中層管理人員,他們使用ODS進(jìn)行企業(yè)日常管理和控制。DW主要使用者是企業(yè)高層和數(shù)據(jù)分析人員。四、DM數(shù)據(jù)集市數(shù)據(jù)集市,以某個業(yè)務(wù)應(yīng)用為出發(fā)點而建立的局部DW,DW只關(guān)心自己需要的數(shù)據(jù),不會全盤考慮
11、企業(yè)整體的數(shù)據(jù)架構(gòu)和應(yīng)用,每個應(yīng)用有自己的DM。還有一種DM的叫法,就是DM(DataMining):數(shù)據(jù)挖掘,又稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn)(KnowledgeDiscoveryinDatabase,KDD),就是從大量數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程,簡單的說,數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中提取或“挖掘”知識。數(shù)據(jù)流向的過程一般如下:五、InmonInmon模式從流程上看是自頂向下的,即從數(shù)據(jù)源到數(shù)據(jù)倉庫再到數(shù)據(jù)集市的(先有數(shù)據(jù)倉庫再有數(shù)據(jù)市場)一種瀑布流開發(fā)方法。對于Inmon模式,數(shù)據(jù)源往往是異構(gòu)的,比如從自行定義的爬蟲數(shù)據(jù)就是較為典型的一種,數(shù)據(jù)源是根據(jù)最終目標(biāo)
12、自行定制的。這里主要的數(shù)據(jù)處理工作集中在對異構(gòu)數(shù)據(jù)的清洗,包括數(shù)據(jù)類型檢驗,數(shù)據(jù)值范圍檢驗以及其他一些復(fù)雜規(guī)則。在這種場景下,數(shù)據(jù)無法從stage層直接輸出到dm層,必須先通過ETL將數(shù)據(jù)的格式清洗后放入dw層,再從dw層選擇需要的數(shù)據(jù)組合輸出到dm層。在Inmon模式中,并不強(qiáng)調(diào)事實表和維度表的概念,因為數(shù)據(jù)源變化的可能性較大,需要更加強(qiáng)調(diào)數(shù)據(jù)的清洗工作,從中抽取實體-關(guān)系。P55應(yīng)用程席7部口級分折企業(yè)數(shù)搖倉庫百子數(shù)鋸的集盛倉庫,規(guī)范化格式豹據(jù)隼市齡型彌4這個體系架構(gòu),左邊是操作型系統(tǒng)或者事務(wù)系統(tǒng),里面包括很多種系統(tǒng),有數(shù)據(jù)庫在線系統(tǒng),有文本文件系統(tǒng)等等。而這些系統(tǒng)的數(shù)據(jù)經(jīng)過ETL的過程,
13、加載數(shù)據(jù)到企業(yè)數(shù)據(jù)倉庫中,ETL的過程是整合不同系統(tǒng)的數(shù)據(jù),經(jīng)過整合,清洗和統(tǒng)一,因此我們可以稱之為數(shù)據(jù)集成六、KimballKimball的維度數(shù)據(jù)倉庫是基于維度模型建立的企業(yè)級數(shù)據(jù)倉庫,它的架構(gòu)有的時候可以稱之為“總線體系結(jié)構(gòu)”,Kimball模式從流程上看是是自底向上的,即從數(shù)據(jù)集市到數(shù)據(jù)倉庫再到數(shù)據(jù)源(先有數(shù)據(jù)集市再有數(shù)據(jù)倉庫)的一種敏捷開發(fā)方法。對于Kimball模式,數(shù)據(jù)源往往是給定的若干個數(shù)據(jù)庫表,數(shù)據(jù)較為穩(wěn)定但是數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系比較復(fù)雜,需要從這些OLTP中產(chǎn)生的事務(wù)型數(shù)據(jù)結(jié)構(gòu)抽取出分析型數(shù)據(jù)結(jié)構(gòu),再放入數(shù)據(jù)集市中方便下一步的BI與決策支持。議掘隼審:救掘倉庫中的主庫邑環(huán)St
14、JKKimball和Inmon是兩種主流的數(shù)據(jù)倉庫方法論,分別由RalphKimbal大神和BillInmon大神提出,在實際數(shù)據(jù)倉庫建設(shè)中,業(yè)界往往會相互借鑒使用兩種開發(fā)模式,這兩種的相同點如下:1、都是假設(shè)操作型系統(tǒng)和分析型系統(tǒng)是分離的;2,數(shù)據(jù)源(操作型系統(tǒng))都是眾多;3、ETL整合了多種操作型系統(tǒng)的信息,集中到一個企業(yè)數(shù)據(jù)倉庫。不同點:最大的不同就是企業(yè)數(shù)據(jù)倉庫的模式不同,inmon是采用第三范式的格式,而kimbalI則采用了多維模型-星型模型,并且還是最低粒度的數(shù)據(jù)存儲。其次是,維度數(shù)據(jù)倉庫可以被分析系統(tǒng)直接訪問,當(dāng)然這種訪問方式畢竟在分析過程中很少使用。最后就是數(shù)據(jù)集市的概念有邏輯上的區(qū)別,在kimball的架構(gòu)中,數(shù)據(jù)集市有維度數(shù)據(jù)倉庫的高亮顯示的表的子集來表示。有的時候,在kimball的架構(gòu)中,有一個可變通的設(shè)計,就是在ETL的過程中加入ODS層,使得ODS層中能保留第三范式的一組表來作為ETL過程的過度。但是這個思想,Kimball看來只是ETL的過程輔助而已。特性對比:FT1JfOLAPCube1OarraiTinONFl口曲mapWaretiiXiie*IDMStar/Sc-hfmajCubeDrsrKimballModel胡UcEdiitirfifInmonModellORF)OLAPCubsDiVtAlJdfUhnufjf,-CubeHrCUtlf
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度寵物醫(yī)院獸醫(yī)團(tuán)隊薪酬績效管理合同4篇
- 2025年度航空航天專用模具訂購合同范本
- 2025年度廠房租賃居間合同-新能源汽車制造租賃協(xié)議3篇
- 二零二五年度綠色能源股份買賣協(xié)議范本3篇
- 2025年度廠房出售與租賃一體化服務(wù)協(xié)議4篇
- 二零二四年度中央空調(diào)系統(tǒng)設(shè)備采購、安裝與質(zhì)保協(xié)議3篇
- 2025年聚氯化鋁行業(yè)深度研究分析報告
- 二零二五年度外匯投資顧問服務(wù)合同
- 二零二五年度保安人員職業(yè)發(fā)展與聘用合同
- 二零二五版面料設(shè)計與生產(chǎn)一體化采購合同樣本4篇
- 【探跡科技】2024知識產(chǎn)權(quán)行業(yè)發(fā)展趨勢報告-從工業(yè)轟鳴到數(shù)智浪潮知識產(chǎn)權(quán)成為競爭市場的“矛與盾”
- 《中國政法大學(xué)》課件
- GB/T 35270-2024嬰幼兒背帶(袋)
- 遼寧省沈陽名校2025屆高三第一次模擬考試英語試卷含解析
- 2024-2025學(xué)年高二上學(xué)期期末數(shù)學(xué)試卷(新題型:19題)(基礎(chǔ)篇)(含答案)
- 2022版藝術(shù)新課標(biāo)解讀心得(課件)小學(xué)美術(shù)
- Profinet(S523-FANUC)發(fā)那科通訊設(shè)置
- 醫(yī)學(xué)教程 常見化療藥物歸納
- 麻醉藥品、精神藥品月檢查記錄表
- JJF 1101-2019環(huán)境試驗設(shè)備溫度、濕度參數(shù)校準(zhǔn)規(guī)范
- GB/T 25000.51-2016系統(tǒng)與軟件工程系統(tǒng)與軟件質(zhì)量要求和評價(SQuaRE)第51部分:就緒可用軟件產(chǎn)品(RUSP)的質(zhì)量要求和測試細(xì)則
評論
0/150
提交評論