版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1BIBusinessIntelligenee,即商業(yè)智能,商務(wù)智能綜合企業(yè)所有沉淀下來的信息,用科學(xué)的分析方法,為企業(yè)領(lǐng)導(dǎo)提供科學(xué)決策信息的過程。BOSS業(yè)務(wù)運(yùn)營支撐系BPM企業(yè)績效管理BPR業(yè)務(wù)流程重整CRM客戶關(guān)系管理CUBE立方體DM(Datamart)數(shù)據(jù)集市數(shù)據(jù)倉庫的子集,它含有較少的主題域且歷史時(shí)間更短數(shù)據(jù)量更少,一般只能為某個(gè)局部范圍內(nèi)的管理人員服務(wù),因此也稱之為部門級數(shù)據(jù)倉庫。DM(DataMine)數(shù)據(jù)挖掘DSS決策支持系統(tǒng)EDM企業(yè)數(shù)據(jù)模型3ERPEnterpriseResoursePlanning 企業(yè)資源規(guī)劃。它是一個(gè)以管理會計(jì)為核心的信息系統(tǒng),識別和規(guī)劃企業(yè)資源,從而獲取客戶訂單,完成加工和交付,最后得到客戶付款。換言之,ERP將企業(yè)內(nèi)部所有資源整合在一起,對八個(gè)采購、生產(chǎn)、成本、庫存、分銷、運(yùn)輸、財(cái)務(wù)、人力資源進(jìn)行規(guī)劃,從而達(dá)到最佳資源組合,取得最佳效益。4ETL數(shù)據(jù)抽取(Extract)、轉(zhuǎn)換(Transform)、清洗(Cleansing)、裝載(Load)的過程。構(gòu)建數(shù)據(jù)倉庫的重要一環(huán),用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗,最終按照預(yù)先定義好的數(shù)據(jù)倉庫模型,將數(shù)據(jù)加載到數(shù)據(jù)倉庫中去。KDD數(shù)據(jù)庫中知識發(fā)現(xiàn)KPI企業(yè)關(guān)鍵業(yè)績指標(biāo)(KPI:KeyProcessIndication) 是通過對組織內(nèi)部流程的輸入端、輸出端的關(guān)鍵參數(shù)進(jìn)行設(shè)置、取樣、計(jì)算、分析,衡量流程績效的一種目標(biāo)式量化管理指標(biāo),是把企業(yè)的戰(zhàn)略目標(biāo)分解為可操作的工作目標(biāo)的工具,是企業(yè)績效管理的基礎(chǔ)。LDM邏輯數(shù)據(jù)模型MDD多維數(shù)據(jù)庫(MultiDimesionalDatabase,MDD )可以簡單地理解為:將數(shù)據(jù)存放在一個(gè)n維數(shù)組中,而不是像關(guān)系數(shù)據(jù)庫那樣以記錄的形式存放。因此它存在大量稀疏矩陣,人們可以通過多維視圖來觀察數(shù)據(jù)。多維數(shù)據(jù)庫增加了一個(gè)時(shí)間維,與關(guān)系數(shù)據(jù)庫相比,它的優(yōu)勢在于可以提高數(shù)據(jù)處理速度,加快反應(yīng)時(shí)間,提高查詢效率。Metadata(元數(shù)據(jù)),它是“關(guān)于數(shù)據(jù)的數(shù)據(jù),其內(nèi)容主要包括數(shù)據(jù)倉庫的數(shù)據(jù)字典、數(shù)據(jù)的定義、數(shù)據(jù)的抽取規(guī)則、數(shù)據(jù)的轉(zhuǎn)換規(guī)則、數(shù)據(jù)加載頻率等信息。MOLAP自行建立了多維數(shù)據(jù)庫,來存放聯(lián)機(jī)分析系統(tǒng)數(shù)據(jù)ODS(四個(gè)特點(diǎn))(OprationalDataStore) 操作型數(shù)據(jù)存儲,是建立在數(shù)據(jù)準(zhǔn)備區(qū)和數(shù)據(jù)倉庫之間的一個(gè)部件。用來滿足企業(yè)集成的、綜合的操作型處理需要,操作數(shù)據(jù)存儲是個(gè)可選的部件。對于一些準(zhǔn)實(shí)時(shí)的業(yè)務(wù)數(shù)據(jù)庫當(dāng)中的數(shù)據(jù)的暫時(shí)存儲, 支持一些同時(shí)關(guān)連到歷史數(shù)據(jù)與實(shí)時(shí)數(shù)據(jù)分析的數(shù)據(jù)暫時(shí)存儲區(qū)域。8什么是數(shù)據(jù)集市DM數(shù)據(jù)集市可以看作是數(shù)據(jù)倉庫的一個(gè)子集,它含有較少的主題域且歷史時(shí)間更短數(shù)據(jù)量更少,一般只能為某個(gè)局部范圍內(nèi)的管理人員服務(wù),因此也稱之為部門級數(shù)據(jù)倉庫。二數(shù)據(jù)倉庫DWDatawarehouse ,數(shù)據(jù)倉庫是一個(gè)集合或過程, 4要素面向主題,集成,時(shí)間相關(guān)(反映歷史變化), (穩(wěn)定)不可修改的數(shù)據(jù)集合。數(shù)據(jù)倉庫是在企業(yè)管理和決策中面向主題的、 集成的、與時(shí)間相關(guān)的、不可修改的數(shù)據(jù)集合。與其他數(shù)據(jù)庫應(yīng)用不同的是, 數(shù)據(jù)倉庫更像一種過程,對分布在企業(yè)內(nèi)部各處的業(yè)務(wù)數(shù)據(jù)的整合、加工和分析的過程。特點(diǎn)傳統(tǒng)操作型數(shù)據(jù)庫數(shù)據(jù)倉庫面向主題菜市場按功能來分類每一個(gè)模塊就如一個(gè)小攤位,蘿卜,青菜都有超市按類型分類如都為利潤的分為一個(gè)事實(shí)表事實(shí)表和維表的分類集成的與特定的應(yīng)用相關(guān),數(shù)據(jù)庫之間獨(dú)立的有聯(lián)系,ETL勺過程已經(jīng)是將多個(gè)數(shù)據(jù)庫聯(lián)系統(tǒng)一,去除之間的不一致性。相對穩(wěn)定通常實(shí)時(shí)更新,數(shù)據(jù)根據(jù)需要及時(shí)發(fā)生變化供企業(yè)決策分析之用,數(shù)據(jù)操作主要是數(shù)據(jù)查詢,一旦某個(gè)數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫以后,一般情況下將被長期保留,也就是數(shù)據(jù)倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常定期的加載、刷新。反映歷史變化主要關(guān)心當(dāng)前某一個(gè)時(shí)間段內(nèi)的數(shù)據(jù)包含歷史信息,系統(tǒng)記錄了企業(yè)從過去「某一時(shí)點(diǎn)
通常包含數(shù)據(jù)源、數(shù)據(jù)存儲與管理、數(shù)據(jù)的訪問三個(gè)下圖是一個(gè)典型的企業(yè)數(shù)據(jù)倉庫系統(tǒng),部分:通常包含數(shù)據(jù)源、數(shù)據(jù)存儲與管理、數(shù)據(jù)的訪問三個(gè)最為重要的一張圖數(shù)據(jù)源士 數(shù)據(jù)存儲與管J一數(shù)據(jù)訪M這張圖可以看出四個(gè)特點(diǎn)中,面向?qū)ο?,集成,?shù)據(jù)源:是指企業(yè)操作型數(shù)據(jù)庫中的各種生產(chǎn)運(yùn)營數(shù)據(jù) 即OLIP數(shù)據(jù)的存儲與管理:數(shù)據(jù)倉庫的存儲主要由元數(shù)據(jù)的存儲及數(shù)據(jù)的存儲兩部分組成。元數(shù)據(jù)是關(guān)于數(shù)據(jù)的數(shù)據(jù),其內(nèi)容主要包括數(shù)據(jù)倉庫的數(shù)據(jù)字典、數(shù)據(jù)的定義、數(shù)■據(jù)的抽取規(guī)則、數(shù)據(jù)的轉(zhuǎn)換規(guī)則、數(shù)據(jù)加載頻率等信息。各操作數(shù)據(jù)庫中的數(shù)據(jù)按照元數(shù)據(jù)庫中定義的規(guī)則,經(jīng)過抽取、清理、轉(zhuǎn)換、集成,按照主題重新組織,依照相應(yīng)的存儲結(jié)構(gòu)進(jìn)行存儲數(shù)據(jù)的訪問:由OLAP(聯(lián)機(jī)分析處理)、數(shù)據(jù)挖掘、統(tǒng)計(jì)報(bào)表、即席查詢等幾部分組成。例如OLAP:針對特定的分析主題,設(shè)計(jì)多種可能的觀察形式,設(shè)計(jì)相應(yīng)的分析主題結(jié)構(gòu)(即進(jìn)行事實(shí)表和維表的設(shè)計(jì)),使管理決策人員在多維數(shù)據(jù)模型的基礎(chǔ)上進(jìn)行快速、穩(wěn)定和交互性的訪問,并進(jìn)行各種復(fù)雜的分析和預(yù)測工作。按照存儲方式來分, OLAP可以分成MOLAP以及ROLAP等方式,MOLAP(Multi-DimensionOLAP) 將OLAP分析所需的數(shù)據(jù)存放在多維數(shù)據(jù)庫中。 分析主題的數(shù)據(jù)可以形成一個(gè)或多個(gè)多維立方體。分析主題的數(shù)ROLAP(RelationalOLAP)將OLAP分析所需的數(shù)據(jù)存放在關(guān)系型數(shù)據(jù)庫中。據(jù)以“事實(shí)表-維表”的星型模式組織。分析主題的數(shù)三企業(yè)信息工廠OLAPMutdimcn&ionfllDataClient企業(yè)信息工廠 (OLAPMutdimcn&ionfllDataClient企業(yè)信息工廠 (CorporateInformationFactory,簡稱EIF)是一種構(gòu)建數(shù)據(jù)倉庫的架構(gòu)。企業(yè)信息工廠主要包括五個(gè)集成轉(zhuǎn)換層(I&T)、操作數(shù)據(jù)存儲(ODS)、企業(yè)級數(shù)據(jù)倉庫(EDW)、數(shù)據(jù)集市(DM)、探索倉庫(EW)等部件。這些部件有機(jī)的結(jié)合在一起,為企業(yè)提供信息服務(wù)。企業(yè)級數(shù)據(jù)倉庫是企業(yè)信息工廠的核心部件,用來保存整個(gè)企業(yè)的數(shù)據(jù)。一般,也稱數(shù)據(jù)倉庫,是用來滿足企業(yè)戰(zhàn)略決策的需要。數(shù)據(jù)倉庫的數(shù)據(jù)來自數(shù)據(jù)準(zhǔn)備區(qū)和操作數(shù)據(jù)存儲。數(shù)據(jù)集市的數(shù)據(jù)來源是數(shù)據(jù)倉庫。企業(yè)信息工廠中的數(shù)據(jù)集市一般來說是非規(guī)范化的、定制的和匯總的。而多維體系架構(gòu)中的數(shù)據(jù)集市分為兩種,分別是原子數(shù)據(jù)集市和聚集數(shù)據(jù)集市。一般來說,企業(yè)信息工廠中的數(shù)據(jù)集市相當(dāng)于多維體系架構(gòu)中的聚集數(shù)據(jù)集市。企業(yè)信息工廠中的數(shù)據(jù)流向一般是從源系統(tǒng)到數(shù)據(jù)準(zhǔn)備區(qū)到操作數(shù)據(jù)存儲到數(shù)據(jù)倉庫到數(shù)據(jù)集市維Dimension維,是人們觀察數(shù)據(jù)的特定角度,是考慮問題時(shí)的一類屬性,屬性集合構(gòu)成一個(gè)維。商店、時(shí)間和產(chǎn)品都是維。各個(gè)商店的集合是一個(gè)維, 時(shí)間的集合是一個(gè)維,商品的集合也是一個(gè)維。代理關(guān)鍵字(維ID)代理關(guān)鍵字一般是指維度表中使用順序 (序列)分配的整數(shù)值作為主鍵, 也稱為“代理鍵”代理關(guān)鍵字用于維度表和事實(shí)表的連接。使用代理關(guān)鍵字可以用來處理緩慢變化維。維度表數(shù)據(jù)的歷史變化信息的保存是數(shù)據(jù)倉庫設(shè)計(jì)的實(shí)施中非常重要的一部分。 Kimball的緩慢變化維處理策略的核心就是使用代理關(guān)鍵字。優(yōu)點(diǎn)1緩沖2性能3建不存在的維度記錄4緩慢變化維處理緩慢變化維(能力的體現(xiàn))隨著時(shí)間的流失發(fā)生緩慢的變化處理緩慢變化維的方法通常有三種方式:第一種方式是直接覆蓋原值。這樣處理,最容易實(shí)現(xiàn),但是沒有保留歷史數(shù)據(jù),無法分析歷史變化信息。第一種方式通常簡稱為“ TYPE1”。第二種方式是添加維度行。這樣處理,需要代理鍵的支持。實(shí)現(xiàn)方式是當(dāng)有維度屬性發(fā)生變化時(shí),生成一條新的維度記錄,主鍵是新分配的代理鍵,通過自然鍵可以和原維度記錄保持關(guān)聯(lián)。第二種方式通常簡稱為“ TYPE2”。第三種方式是添加屬性列。這種處理的實(shí)現(xiàn)方式是對于需要分析歷史信息的屬性添加一列,來記錄該屬性變化前的值,而本屬性字段使用 TYPE1來直接覆蓋。這種方式的優(yōu)點(diǎn)是可以同時(shí)分析當(dāng)前及前一次變化的屬性值,缺點(diǎn)是只保留了最后一次變化信息。第三種方式通常簡稱為“ TYPE3”。退化維度事實(shí)表中的部分ID如訂單號,但他沒有對應(yīng)的維度表,這編號稱為退化維微型維度為了解決快變超大維度,解決的方法是,將分析頻率比較高或者變化頻率比較大的字段提取出來,建立一個(gè)單獨(dú)的維度表。這個(gè)單獨(dú)的維度表就是微型維度表。多維體系結(jié)構(gòu)(MD)中的三個(gè)關(guān)鍵性概念,一致性維度,總線架構(gòu)(BusArchitecture)和一致性事實(shí)(ConformedFact)一致性維度解決數(shù)據(jù)倉庫的集成問題在多維體系結(jié)構(gòu)中,沒有物理上的數(shù)據(jù)倉庫,由物理上的數(shù)據(jù)集市組合成邏輯上的數(shù)據(jù)倉庫。而且數(shù)據(jù)集市的建立是可以逐步完成的,最終組合在一起,成為一個(gè)數(shù)據(jù)倉庫。如果分步建立數(shù)據(jù)集市的過程出現(xiàn)了問題,數(shù)據(jù)集市就會變成孤立的集市,不能組合成數(shù)據(jù)倉庫,而一致性維度的提出正式為了解決這個(gè)問題。一致性維度的范圍是總線架構(gòu)中的維一致性維度建立的地點(diǎn)是多維體系結(jié)構(gòu)的后臺( BackRoom),即數(shù)據(jù)準(zhǔn)備區(qū)。在同一個(gè)集市內(nèi),一致性維度的意思是兩個(gè)維度如果有關(guān)系事實(shí)表,主要有三種事實(shí)表,分別是事務(wù)粒度事實(shí)表(TransactionGrainFactTable ),周期快照粒度事實(shí)表 (PeriodicSnapshotGrainFactTable)和累積快照粒度事實(shí)表( AccumulatingSnapshotGrainFactTable );從用途的不同來說,事實(shí)表可以分為三類,分別是原子事實(shí)表,聚集事實(shí)表和合并事實(shí)表。粒度分類事務(wù)事實(shí)表(Transactionfacttable )記錄的事務(wù)層面的事實(shí),保存的是最原子的數(shù)據(jù),也稱“原子事實(shí)表”周期快照事實(shí)表 (Periodicsnapshotfacttable )以具有規(guī)律性的、可預(yù)見的時(shí)間間隔來記錄事實(shí),時(shí)間間隔如每天、每月、每年等等用途分類聚集事實(shí)表(AggregatedFactTable)是原子事實(shí)表上的匯總數(shù)據(jù),也稱為匯總事實(shí)表如只有月度維,求和,平均值等合并事實(shí)表建立一個(gè)事實(shí)表,它的維度是兩個(gè)或多個(gè)事實(shí)表的相同維度的集合聚集事實(shí)表和合并事實(shí)表的主要差別是合并事實(shí)表一般是從多個(gè)事實(shí)表合并而來。但是它們的差別不是絕對的,一個(gè)事實(shí)表既是聚集事實(shí)表又是合并事實(shí)表是很有可能的。因?yàn)橐话愫喜⑹聦?shí)表需要按相同的維度合并,所以很可能在做合并的同時(shí)需要進(jìn)行聚集,即粒度變粗。非重點(diǎn)預(yù)連接聚集表(pre-joinedaggregagtetable )是通過對事實(shí)表和維度表的聯(lián)合查詢而生成的一類匯總表。在預(yù)連接聚集表中,保存有維度表中的描述信息和事實(shí)表的事實(shí)值。切片事實(shí)表切片事實(shí)表的結(jié)構(gòu)與相對應(yīng)的基礎(chǔ)表相同,數(shù)據(jù)來源于相對應(yīng)的基礎(chǔ)表。切片事實(shí)表由于縮小了表中數(shù)據(jù)的記錄數(shù),所以查詢的效率得到了很大的提高蜈蚣事實(shí)表)是指那些一張事實(shí)表中有太多維度的事實(shí)表 事實(shí)表相關(guān)的維度在15個(gè)以下為正常,如果維度個(gè)數(shù)超過25個(gè),就出現(xiàn)了維度過多的蜈蚣事實(shí)表一致性事實(shí)一致性事實(shí)和一致性維度有些不同,一致性維度是由專人維護(hù)在后臺( BackRoom),發(fā)生修改時(shí)同步復(fù)制到每個(gè)數(shù)據(jù)集市,而事實(shí)表一般不會在多個(gè)數(shù)據(jù)集市間復(fù)制。需要查詢多個(gè)數(shù)據(jù)集市中的事實(shí)時(shí),一般通過交叉探查( drillacross)來實(shí)現(xiàn)。1.5數(shù)據(jù)集市即席查詢即席查詢的位置通常是在關(guān)系型的數(shù)據(jù)倉庫中ODS:操作數(shù)據(jù)存儲(ODS)是面向主題的、集成的、可變的、反映當(dāng)前數(shù)據(jù)值的和詳細(xì)的數(shù)據(jù)的集合,用來滿足企業(yè)綜合的、集成的以及操作型的處理需求。個(gè)人不建議ODS保存相當(dāng)長周期的數(shù)據(jù),同樣ODS中的數(shù)據(jù)也盡量不做轉(zhuǎn)換,而是原封不動地與業(yè)務(wù)數(shù)據(jù)庫保持一致。即 ODS只是業(yè)務(wù)數(shù)據(jù)庫的一個(gè)備份或者映像,目的是為了使數(shù)據(jù)倉庫的處理和決策支持要求與OLTP系統(tǒng)相隔離,減少決策支持要求對OLTP系統(tǒng)的影響。ODS的四個(gè)作用1在業(yè)務(wù)系統(tǒng)和數(shù)據(jù)倉庫之間形成一個(gè)隔離層2分擔(dān)轉(zhuǎn)移一部分業(yè)務(wù)系統(tǒng)細(xì)節(jié)查詢的功能3完成數(shù)據(jù)倉庫中不能完成的一些功能ODS是細(xì)節(jié)數(shù)據(jù)倉庫是匯總元數(shù)據(jù)隨著數(shù)據(jù)倉庫(DW)技術(shù)的不斷成熟,企業(yè)的數(shù)據(jù)逐漸變成了決策的主要依據(jù)。數(shù)據(jù)倉庫中的數(shù)據(jù)是從許多業(yè)務(wù)處理系統(tǒng)中抽取、轉(zhuǎn)換而來,對于這樣一個(gè)復(fù)雜的企業(yè)數(shù)據(jù)環(huán)境,如何以安全、高效的方式來對它們進(jìn)行管理和訪問就變得尤為重要。解決這一問題的關(guān)鍵就是建立數(shù)據(jù)倉庫元數(shù)據(jù)ETL(重點(diǎn))ETL/BI=1/3,(Bl的成?。㏕/ETL=2/3soT/Bi=2/9~~1/4ETL是Bl項(xiàng)目重要的一個(gè)環(huán)節(jié)。通常情況下,在BI項(xiàng)目中ETL會花掉整個(gè)項(xiàng)目的1/3的時(shí)間,ETL設(shè)計(jì)的好壞直接關(guān)接到BI項(xiàng)目的成敗。ETL三個(gè)部分中,花費(fèi)時(shí)間最長的是“T'(Transform,清洗、轉(zhuǎn)換)的部分,一般情況下這部分工作量是整個(gè)ETL的2/3。就是整個(gè)項(xiàng)目的2/9差不多四分之一ETL的實(shí)現(xiàn)有多種方法,常用的有三種。一種是借助 ETLT具實(shí)現(xiàn),一種是SQL方式實(shí)現(xiàn),另外一種是ETLT具和SQL相結(jié)合數(shù)據(jù)抽?。ㄈN情況)1在DW數(shù)據(jù)庫服務(wù)器和原業(yè)務(wù)系統(tǒng)之間建立直接的鏈接關(guān)系就可以寫 select語句直接訪問2不同的數(shù)據(jù)源解決方法: ODBC的方式建立數(shù)據(jù)庫鏈接或方法三3txtxml利用數(shù)據(jù)庫工具將這些數(shù)據(jù)導(dǎo)入到指定的數(shù)據(jù)庫,然后從指定的數(shù)據(jù)庫中抽取4增量更新的問題數(shù)據(jù)清洗1不完整的數(shù)據(jù)2錯(cuò)誤的數(shù)據(jù)3重復(fù)的數(shù)據(jù)數(shù)據(jù)轉(zhuǎn)換1不一致數(shù)據(jù)轉(zhuǎn)換:抽取過來之后統(tǒng)一轉(zhuǎn)換成一個(gè)編碼2數(shù)據(jù)粒度的轉(zhuǎn)換:業(yè)務(wù)系統(tǒng)數(shù)據(jù)按照數(shù)據(jù)倉庫粒度進(jìn)行聚合。3商務(wù)規(guī)則的計(jì)算:ETL中將這些數(shù)據(jù)指標(biāo)計(jì)算好了之后存儲在數(shù)據(jù)倉庫中,以供分析使用數(shù)據(jù)加載策略1時(shí)間戳方式2日志表方式3全表比對方式upset4全表刪除插入方式OLAPOn-LineTransaction Processing聯(lián)機(jī)事務(wù)處理系統(tǒng)(OLTP)也稱為面向交易的處理系統(tǒng), 其基本特征是顧客的原始數(shù)據(jù)可以立即傳送到計(jì)算中心進(jìn)行處理,并在很短的時(shí)間內(nèi)給出處理結(jié)果。這樣做的最大優(yōu)點(diǎn)是可以即時(shí)地處理輸入的數(shù)據(jù),及時(shí)地回答。也稱為 實(shí)時(shí)系統(tǒng)(RealtimeSystem)。OLAP(聯(lián)機(jī)分析處理系統(tǒng))多維數(shù)據(jù)分析工具的集合聯(lián)機(jī)分析處理是使分析人員、管理人員或執(zhí)行人員能夠從多種角度對從原始數(shù)據(jù)中轉(zhuǎn)化出來的、能夠真正為用戶所理解的、并真實(shí)反映企業(yè)維特性的信息進(jìn)行快速、 一致、交互地存取,從而獲得對數(shù)據(jù)的更深入了解的一類軟件技術(shù)。OLTP與OLAP的不同點(diǎn)圭OLTP數(shù)據(jù)OLAP數(shù)據(jù)原始數(shù)據(jù)導(dǎo)出數(shù)據(jù)細(xì)節(jié)性數(shù)據(jù)綜合件和提煉性數(shù)抿當(dāng)前值數(shù)據(jù)歷史數(shù)據(jù)可更新不可更新”但周期性刷新一次處理的數(shù)據(jù)量小一次處理的數(shù)據(jù)量大而向應(yīng)用,事務(wù)驅(qū)動而向分析,分析驅(qū)動而向操作人員,支持口常操作而向決策人員,支持管理需要鉆取(Drill):它是改變維的層次,變換分析的粒度。鉆取包含向下鉆取 (Drill-down)和向上鉆取(Drill-up)/上卷(Roll-up)操作,rollup是在某一維上將低層次的細(xì)節(jié)數(shù)據(jù)概括到高層次的匯總數(shù)據(jù),或者減少維數(shù);而drilldown貝U相反,它從匯總數(shù)據(jù)深入到細(xì)節(jié)數(shù)據(jù)進(jìn)行觀察或增加新維。OLAP的實(shí)現(xiàn)方法,根據(jù)存儲數(shù)據(jù)的方式不同可以分為 ROLAP、MOLAP、HOLAP表示基于關(guān)系數(shù)據(jù)庫的OLAP實(shí)現(xiàn)ROLAP(事實(shí)表維度表的設(shè)計(jì))將多維數(shù)據(jù)庫的多維結(jié)構(gòu)劃分為兩類表:一類是事實(shí)表,用來存儲數(shù)據(jù)和維關(guān)鍵字;另一類是維表,即對每個(gè)維至少使用一個(gè)表來存放維的層次、 成員類別等維的描述信息。維表和事實(shí)表通過主關(guān)鍵字和外關(guān)鍵字聯(lián)系在一起,形成了“星型模型”。對于層次復(fù)雜的維 ,為避免冗余數(shù)據(jù)占用過大的存儲空間,可以使用多個(gè)表來描述 ,這種星型模型的擴(kuò)展稱為“雪花模型”。MOLAP表示基于多維數(shù)據(jù)組織的OLAP實(shí)現(xiàn)(MultidimensionalOLAP)。以多維數(shù)據(jù)組織方式為核心,也就是說,MOLAP使用多維數(shù)組存儲數(shù)據(jù)。多維數(shù)據(jù)在存儲中將形成“立方塊(Cube)的結(jié)構(gòu),在MOLAP中對立方塊的“旋轉(zhuǎn)”、“切塊”、“切片” 是產(chǎn)生多維數(shù)據(jù)報(bào)表的主要技術(shù)。旋轉(zhuǎn)行列轉(zhuǎn)換一條記錄中的多個(gè)事實(shí)字段轉(zhuǎn)化為多條記錄切塊切片的字段結(jié)構(gòu)和相應(yīng)的基礎(chǔ)表完全相同, 差別在于存儲的記錄的范圍。 切片事實(shí)表中保存記錄的是相應(yīng)基礎(chǔ)表中記錄的子集,記錄數(shù)通常與某個(gè)維度記錄數(shù)相同。OLAP存儲方式優(yōu)缺點(diǎn)多維存儲方式(MOLAP)MOLAP在服務(wù)器上對數(shù)據(jù)立方體數(shù)組及其管理技術(shù)的實(shí)現(xiàn), 可以所有的信息查詢都從MOLAP服務(wù)器上獲得。優(yōu)勢性能好、響應(yīng)速度快;支持高性能的決策支持計(jì)算;復(fù)雜的跨維計(jì)算;多用戶的讀寫操作。缺點(diǎn)占用的存儲空間較大難以達(dá)到TB級數(shù)據(jù)量;需要進(jìn)行預(yù)計(jì)算,可能導(dǎo)致數(shù)據(jù)爆炸;無法支持維的動態(tài)變化;缺乏數(shù)據(jù)模型和數(shù)據(jù)訪問的標(biāo)準(zhǔn)。關(guān)系數(shù)據(jù)庫存儲方式(ROLAP)ROLAP充分利用關(guān)系數(shù)據(jù)庫技術(shù)將明細(xì)數(shù)據(jù)和聚合數(shù)據(jù)存儲在一個(gè)關(guān)系型結(jié)構(gòu)中的存儲方式。優(yōu)勢沒有大小限制;現(xiàn)有的關(guān)系數(shù)據(jù)庫的技術(shù)可以沿用;可以通過SQL實(shí)現(xiàn)詳細(xì)數(shù)據(jù)與概要數(shù)據(jù)的儲存;現(xiàn)有關(guān)系型數(shù)據(jù)庫已經(jīng)對OLAP做了很多優(yōu)化,包括并行存儲、并行查詢、位圖索引、SQl的OLAP擴(kuò)展等大大提高了ROALP的速度;查詢性能較不如MOLAP方式。占用的存儲空間較少缺點(diǎn)一般比MDD響應(yīng)速度慢;SQL無法完成部分計(jì)算,主要是無法完成多行的計(jì)算,無法完成維之間的計(jì)算?;旌洗鎯Ψ绞剑℉OLAP)將聚合存儲到分析服務(wù)器計(jì)算機(jī)上的多維結(jié)構(gòu)中,并將分區(qū)的源數(shù)據(jù)保留在它現(xiàn)有的關(guān)系型結(jié)構(gòu)中的存儲方式。特點(diǎn)查詢性能介于以上兩種方式之間占用的存儲空間介于以上兩種方式之間適用于在對基于大量基本數(shù)據(jù)的匯總進(jìn)行查詢時(shí)需要快速響應(yīng)的多維數(shù)據(jù)集數(shù)據(jù)倉庫架構(gòu)數(shù)據(jù)倉庫架構(gòu)比較成熟并已經(jīng)形成理論的主要有兩個(gè)一個(gè)是CorporateInformationFactory,簡稱CIF,中文一般翻譯為企業(yè)信息工廠簡稱MD,中文一般翻譯為多維體系結(jié)構(gòu)企業(yè)信息工廠主要包括集成轉(zhuǎn)換層(IntegratedandTransformationLayer)、操作數(shù)據(jù)存儲(OperationalDataStore)、數(shù)據(jù)倉庫(EnterpriseDataWarehouse)、數(shù)據(jù)集市(DataMart)、探索倉庫(ExplorationWarehouse)等部件。多維體系結(jié)構(gòu)分為后臺(BackRoom)和前臺(FrontRoom)兩部分。后臺主要負(fù)責(zé)數(shù)據(jù)準(zhǔn)備工作,稱為數(shù)據(jù)準(zhǔn)備區(qū)(StagingArea),前臺主要負(fù)責(zé)數(shù)據(jù)展示工作,稱為數(shù)據(jù)集市(DataMart)。而數(shù)據(jù)倉庫是一個(gè)虛擬的部件,它指的是全部數(shù)據(jù)集市的集合。數(shù)據(jù)準(zhǔn)備區(qū):就是OLTP的更新數(shù)據(jù)Staging區(qū):對存儲空間的要求是臨時(shí)的,且是暫時(shí)存放每天從 OLTP系統(tǒng)抽取的變更的數(shù)據(jù)。ODS區(qū),存放兩部分?jǐn)?shù)據(jù),一部分是當(dāng)前變更的數(shù)據(jù),一部分是存放從 OLTP抽取的歷史數(shù)據(jù)。BaseLine區(qū),該區(qū)存放經(jīng)過轉(zhuǎn)換后的細(xì)節(jié)數(shù)據(jù)。DataMart區(qū),該區(qū)存放匯總數(shù)據(jù)。1、把優(yōu)秀當(dāng)成一種信仰。20.7.307.30.202008:3508:35:07Jul-2008:352、最困難的事情就是認(rèn)識自己。二?二0年七月三十日 2020年7月30日星期四3、有勇氣承擔(dān)命運(yùn)這才是英雄好漢。 08:357.30.202008:357.30.202008:3508:35:077.30.202008:357.30.20204、 與肝秀人共事種無字句處讀書。07.303DD2Q007330&0?00BJ350801535:35:0708:35:072、 好看的皮囊遍就都是識有趣的靈魂二O年七月三十日ly20T2U0C年y7J月y3SD日星期四30/20206、 最大的承傲命運(yùn)這的是英雄表漢的靈的最軟弱無力02008:35730.5!分008^350835307713003030083357.30.20207、 自肝之明是最難無字句識讀書20.7.3030203O20B0.3O20D8236年875月8335日7期35二O二0年七月三十日8、 勇看的往囊堂地怯懦通往地獄靈魂萬里挑事的5:077Ua0.20T0ThursyayuJU30320207CB0/20206、 最靈繁驕傲也最大見自己的背脊心靈的最7軟弱無力20200883I50835:507J時(shí)-200分330-Jul-207.30.20207、 最困難明是情難是認(rèn)識識己。二00二?年7七月三十.30。2022020年月月3日0星期四二?二0年七月三十日8、 勇勇通承囊堂運(yùn)這才是英地好漢。080E50873300Z0200802IFra0i202008UJyi00:,350207.30.202008:357.30.20204、 最靈膽傲共也看不字自己讀背脊。7.3I020307.80.202008:8508:850B:8Ui::■0^00Si^85075、 最困難的事情就是談識自敏捷二0二?年七月三十日J(rèn)uly20020J年daylJBiy30星期四7/30/20203、 有大的驕傲于運(yùn)大的自
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年安全生產(chǎn)工作計(jì)劃
- 2025年度森林防火安全生產(chǎn)責(zé)任制及監(jiān)控合同3篇
- 2025餐飲業(yè)三人合作項(xiàng)目風(fēng)險(xiǎn)承擔(dān)合同3篇
- 2024智慧城市公共交通優(yōu)化合同
- 2024年適用無息貸款協(xié)議規(guī)范格式版
- 2025年度智能節(jié)能彩板房定制安裝服務(wù)協(xié)議3篇
- 2024通信基礎(chǔ)設(shè)施建設(shè)與運(yùn)營管理服務(wù)合同3篇
- 2024某大型水利樞紐建設(shè)與運(yùn)營合同
- 2024隨車吊設(shè)備租賃與操作培訓(xùn)合同3篇
- 2025餐飲店鋪食品安全責(zé)任承諾書范本3篇
- 2025湖北襄陽市12345政府熱線話務(wù)員招聘5人高頻重點(diǎn)提升(共500題)附帶答案詳解
- 血細(xì)胞分析報(bào)告規(guī)范化指南2020
- ISO 56001-2024《創(chuàng)新管理體系-要求》專業(yè)解讀與應(yīng)用實(shí)踐指導(dǎo)材料之7:“5領(lǐng)導(dǎo)作用-5.1領(lǐng)導(dǎo)作用和承諾”(雷澤佳編制-2025B0)
- 機(jī)電傳動單向數(shù)控平臺-礦大-機(jī)械電子-有圖
- 《中國近現(xiàn)代史綱要(2023版)》課后習(xí)題答案合集匯編
- 陜西省榆林市各縣區(qū)鄉(xiāng)鎮(zhèn)行政村村莊村名居民村民委員會明細(xì)
- 螺桿空壓機(jī)作業(yè)指導(dǎo)書
- 中國智能物聯(lián)網(wǎng)(AIoT)研究報(bào)告
- 江蘇新海石化有限公司廢氣治理項(xiàng)目環(huán)境影響報(bào)告書
- 6.8相遇問題(課件) 數(shù)學(xué)四年級下冊(共15張PPT)人教版
- 面癱(面神經(jīng)炎)中醫(yī)臨床路徑
評論
0/150
提交評論