版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
數(shù)據(jù)倉庫(1)2024/5/12數(shù)據(jù)倉庫(1)提綱1.為什么要建立數(shù)據(jù)倉庫2.數(shù)據(jù)倉庫的概念及特性3.數(shù)據(jù)倉庫的結(jié)構(gòu)4.數(shù)據(jù)倉庫的設計5.數(shù)據(jù)倉庫的開發(fā)過程6.數(shù)據(jù)倉庫的典型應用精品資料網(wǎng)()數(shù)據(jù)倉庫(1)事務處理環(huán)境不適宜DSS應用的原因
事務處理和分析處理的性能特性不同操作型處理對數(shù)據(jù)的存取操作頻率高而每次操作處理的時間短;
在分析處理環(huán)境中,某個DSS應用程序可能需要連續(xù)幾個小時,從而消耗大量的系統(tǒng)資源。數(shù)據(jù)集成問題數(shù)據(jù)動態(tài)集成問題歷史數(shù)據(jù)問題數(shù)據(jù)的綜合問題
數(shù)據(jù)倉庫(1)抽取程序用抽取程序能將數(shù)據(jù)從高性能聯(lián)機事務處理方式中轉(zhuǎn)移出來,在需要總體分析數(shù)據(jù)時就與聯(lián)機事務處理性能不發(fā)生沖突。用抽取程序能將數(shù)據(jù)從聯(lián)機事務處理范圍內(nèi)移出時,數(shù)據(jù)的控制方式就發(fā)生了轉(zhuǎn)變。精品資料網(wǎng)()數(shù)據(jù)倉庫(1)蜘蛛網(wǎng)問題數(shù)據(jù)缺乏可信性數(shù)據(jù)無時基數(shù)據(jù)算法上的差異抽取的多層次外部數(shù)據(jù)問題無起始的公共數(shù)據(jù)源生產(chǎn)率低根據(jù)全部數(shù)據(jù)生成企業(yè)報表定位數(shù)據(jù)需要瀏覽大量文件抽取程序很多,并且每個都是定制的,不得不克服很多技術(shù)上的障礙。數(shù)據(jù)轉(zhuǎn)化為信息的不可行性數(shù)據(jù)沒有集成化缺乏將數(shù)據(jù)轉(zhuǎn)化為信息所需的歷史數(shù)據(jù)數(shù)據(jù)倉庫(1)體系結(jié)構(gòu)設計環(huán)境的層次數(shù)據(jù)操作層只保存原始數(shù)據(jù)并且服務于高性能事務處理領域;數(shù)據(jù)倉庫層存儲不更新的原始數(shù)據(jù),此外一些導出數(shù)據(jù)也在此存在;數(shù)據(jù)的部門層幾乎只存放導出數(shù)據(jù);在數(shù)據(jù)個體層中完成大多數(shù)啟發(fā)式分析操作層原子/數(shù)據(jù)倉庫層部門層個體層精品資料網(wǎng)()數(shù)據(jù)倉庫(1)數(shù)據(jù)倉庫的概念
數(shù)據(jù)倉庫是在企業(yè)管理和決策中面向主題的、集成的、與時間相關的、不可修改的數(shù)據(jù)集合。[WilliamH.Inmon]與其他數(shù)據(jù)庫應用不同的是,數(shù)據(jù)倉庫更像一種過程,對分布在企業(yè)內(nèi)部各處的業(yè)務數(shù)據(jù)的整合、加工和分析的過程。數(shù)據(jù)倉庫(1)數(shù)據(jù)倉庫的特性
面向主題典型的主題領域:客戶;產(chǎn)品;交易;帳目集成的數(shù)據(jù)提取、凈化、轉(zhuǎn)換、裝載非易失的數(shù)據(jù)倉庫的數(shù)據(jù)通常是一起載入和訪問的,但并不進行一般意義上的數(shù)據(jù)更新隨時間的變化性數(shù)據(jù)倉庫中的時間期限要遠遠長于操作型系統(tǒng)中的時間期限(5~10年);數(shù)據(jù)倉庫中的數(shù)據(jù)是一系列某一時刻生成的復雜的快照;數(shù)據(jù)倉庫的鍵碼結(jié)構(gòu)總是包含某時間元素。精品資料網(wǎng)()數(shù)據(jù)倉庫(1)數(shù)據(jù)倉庫的結(jié)構(gòu)早期細節(jié)級當前細節(jié)級輕度綜合級數(shù)據(jù)集市高度綜合級元數(shù)據(jù)操作型轉(zhuǎn)換數(shù)據(jù)倉庫(1)
數(shù)據(jù)倉庫設計中的幾個重要概念
ETLETL(Extract/Transformation/Load)—用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗、轉(zhuǎn)換,最終按照預先定義好的數(shù)據(jù)倉庫模型,將數(shù)據(jù)加載到數(shù)據(jù)倉庫中去。元數(shù)據(jù)關于數(shù)據(jù)的數(shù)據(jù),指在數(shù)據(jù)倉庫建設過程中所產(chǎn)生的有關數(shù)據(jù)源定義,目標定義,轉(zhuǎn)換規(guī)則等相關的關鍵數(shù)據(jù)。同時元數(shù)據(jù)還包含關于數(shù)據(jù)含義的商業(yè)信息。粒度數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)的細化或綜合程度的級別。細化程度越高,粒度級就越小;相反,細化程度越低,粒度級就越大。分割結(jié)構(gòu)相同的數(shù)據(jù)被分成多個數(shù)據(jù)物理單元。任何給定的數(shù)據(jù)單元屬于且僅屬于一個分割。精品資料網(wǎng)()數(shù)據(jù)倉庫(1)典型的元數(shù)據(jù)包括:數(shù)據(jù)倉庫表的結(jié)構(gòu)數(shù)據(jù)倉庫表的屬性數(shù)據(jù)倉庫的源數(shù)據(jù)(記錄系統(tǒng))從記錄系統(tǒng)到數(shù)據(jù)倉庫的映射數(shù)據(jù)模型的規(guī)格說明抽取日志訪問數(shù)據(jù)的公用例行程序數(shù)據(jù)倉庫(1)
數(shù)據(jù)倉庫設計中的幾個重要概念(續(xù))DataMart數(shù)據(jù)集市--小型的,面向部門或工作組級數(shù)據(jù)倉庫。OperationDataStore操作數(shù)據(jù)存儲—ODS是能支持企業(yè)日常的全局應用的數(shù)據(jù)集合,是不同于DB的一種新的數(shù)據(jù)環(huán)境,是DW擴展后得到的一個混合形式。四個基本特點:面向主題的(Subject-Oriented)、集成的、可變的、當前或接近當前的。datamodel數(shù)據(jù)模型--(1)邏輯數(shù)據(jù)結(jié)構(gòu),包括由DBMS為有效進行數(shù)據(jù)庫處理提供的操作和約束;(2)用于表示數(shù)據(jù)的系統(tǒng)(例如,ERD或關系型模型)。
artifact
人工關系--在DSS環(huán)境中用于表示參照完整性的一種設計技術(shù)。精品資料網(wǎng)()數(shù)據(jù)倉庫(1)企業(yè)數(shù)據(jù)模型到數(shù)據(jù)倉庫數(shù)據(jù)模型的轉(zhuǎn)換除去純粹用于操作型環(huán)境的數(shù)據(jù)在企業(yè)鍵碼結(jié)構(gòu)中增加時間元素增加導出數(shù)據(jù)創(chuàng)建人工關系數(shù)據(jù)倉庫(1)數(shù)據(jù)模型的規(guī)范化/反規(guī)范化為了減少程序在表中的跳轉(zhuǎn)、節(jié)省I/O,需將多個相關的表合并;引入冗余數(shù)據(jù);當訪問概率有很大懸殊時,要對數(shù)據(jù)做進一步分離;在物理數(shù)據(jù)庫的設計中引入導出數(shù)據(jù)可以減少I/O;建立所謂的“創(chuàng)造的”索引或創(chuàng)造的簡要記錄(如卷中的前十名顧客是——)數(shù)據(jù)倉庫(1)數(shù)據(jù)倉庫體系結(jié)構(gòu)OLTP數(shù)據(jù)源數(shù)據(jù)倉庫數(shù)據(jù)集市?數(shù)據(jù)采集及整合數(shù)據(jù)的映射規(guī)則、模型。。。
(元數(shù)據(jù)管理)數(shù)據(jù)倉庫項目流程管理及系統(tǒng)性能管理和監(jiān)控?數(shù)據(jù)展現(xiàn)及決策生產(chǎn)財務結(jié)算外部航線分析總量分析市場分析InfoPump數(shù)據(jù)分析、DM終端用戶終端用戶精品資料網(wǎng)()數(shù)據(jù)倉庫(1)從操作型的現(xiàn)存系統(tǒng)到數(shù)據(jù)倉庫中數(shù)據(jù)轉(zhuǎn)換工作的難點現(xiàn)有系統(tǒng)缺乏數(shù)據(jù)集成,跨越不同應用的數(shù)據(jù)集成性很差存取現(xiàn)存系統(tǒng)的效率,掃描已有文件成了數(shù)據(jù)倉庫體系結(jié)構(gòu)設計者主要面對的問題時基的變化數(shù)據(jù)要濃縮數(shù)據(jù)倉庫(1)概念:數(shù)據(jù)周期、簡要記錄數(shù)據(jù)周期:是指從操作型數(shù)據(jù)發(fā)生改變起,到這個變化反映到數(shù)據(jù)倉庫中所用的時間。從操作型環(huán)境知道數(shù)據(jù)的改變到這個變化反映到數(shù)據(jù)倉庫中至少應該經(jīng)歷24小時。簡要記錄:或聚集記錄,是把不同操作型數(shù)據(jù)的詳細信息聚集在一個記錄中而形成的記錄。好處:①減少數(shù)據(jù)量;②為用戶的訪問和分析提供了一種緊湊的方便的數(shù)據(jù)組織形式;缺點:信息的詳細程度將會降低。
精品資料網(wǎng)()數(shù)據(jù)倉庫(1)數(shù)據(jù)倉庫的建模數(shù)據(jù)模型所有的實體都是平等關系。僅僅從數(shù)據(jù)模型的角度來著手設計數(shù)據(jù)倉庫會產(chǎn)生一種“平面”效應。星型連接事實表:位于星型連接的中央,它是被大量載入數(shù)據(jù)的實體。維表:周圍的其它實體。在很多情況下:文本數(shù)據(jù)與數(shù)值數(shù)據(jù)是分離開的。通過數(shù)據(jù)預連接和建立有選擇的數(shù)據(jù)冗余,設計者為訪問和分析過程大大簡化了數(shù)據(jù)。星型連接應用于設計數(shù)據(jù)倉庫中很大的實體,而數(shù)據(jù)模型則應用于數(shù)據(jù)倉庫中較小的實體。數(shù)據(jù)倉庫(1)VendordataVendordataVendordatavendor_id供應商cust_id客戶order_id發(fā)貨OrderdataOrderdataorder_id訂單CustdataCustdataCustdataNonkeydataOrderdataOrderdataOrderdata產(chǎn)品ProductdataProductdataProductdataProductidVendoridNonkeydatacustidNonkeydataorderidNonkeydataproductid精品資料網(wǎng)()數(shù)據(jù)倉庫(1)數(shù)據(jù)建模的十條戒律①必須回答緊迫的問題;②必須有正確的事實表;③將有正確的維表,描述必須按最終用戶的業(yè)務術(shù)語表達;④必須理解數(shù)據(jù)倉庫所影響的公司過程或影響數(shù)據(jù)倉庫的公司過程;⑤對于事實表,應該有正確的“粒度”;⑥根據(jù)需要存儲正確長度的公司歷史數(shù)據(jù);⑦以一種對于公司有意義的方式來集成所有必要的數(shù)據(jù);⑧創(chuàng)建必要的總結(jié)表;⑨創(chuàng)建必要的索引;⑩能夠加載數(shù)據(jù)倉庫數(shù)據(jù)庫并使它以一種適宜的方式可用。數(shù)據(jù)倉庫(1)數(shù)據(jù)集市外部數(shù)據(jù)用自頂向下的方法構(gòu)建數(shù)據(jù)倉庫數(shù)據(jù)集市建造企業(yè)數(shù)據(jù)倉庫建設中心數(shù)據(jù)模型一次性的完成數(shù)據(jù)的重構(gòu)工作最小化數(shù)據(jù)冗余度和不一致性存儲詳細的歷史數(shù)據(jù)從企業(yè)數(shù)據(jù)倉庫中建造數(shù)據(jù)集市得到大部分的集成數(shù)據(jù)直接依賴于數(shù)據(jù)倉庫的可用性操作數(shù)據(jù)問題投資效益的時間?建設中心數(shù)據(jù)模型的必要性和可能性?初始費用?企業(yè)數(shù)據(jù)倉庫精品資料網(wǎng)()數(shù)據(jù)倉庫(1)用自底向上的方法構(gòu)建數(shù)據(jù)倉庫數(shù)據(jù)集市建立部門數(shù)據(jù)集市限制在一個主題區(qū)域快速投資收益區(qū)域自治–設計的可伸縮性強對相關部門的應用容易復制對每個數(shù)據(jù)集市需要數(shù)據(jù)重構(gòu)存在一定的冗余及不一直性逐步擴展到企業(yè)數(shù)據(jù)倉庫(EDW)把建造EDW作為一個長期的目標存在的問題:數(shù)據(jù)集市的數(shù)據(jù)都是可用的嗎?能生成數(shù)據(jù)模型嗎?如何解決不一致性?外部數(shù)據(jù)操作數(shù)據(jù)(全局)&操作數(shù)據(jù)(局部)操作數(shù)據(jù)(局部)數(shù)據(jù)集市企業(yè)數(shù)據(jù)倉庫數(shù)據(jù)倉庫(1)數(shù)據(jù)倉庫的開發(fā)過程建立或獲得企業(yè)的數(shù)據(jù)模型;定義記錄系統(tǒng);設計數(shù)據(jù)倉庫并按主題領域進行組織;設計和建立操作型環(huán)境中的記錄系統(tǒng)和數(shù)據(jù)倉庫之間的接口,這些接口能保證數(shù)據(jù)倉庫的載入工作能有序的進行;開始載入第一個主題領域,進入載入和反饋過程,數(shù)據(jù)倉庫中的數(shù)據(jù)在此過程中也在不斷地改變。精品資料網(wǎng)()數(shù)據(jù)倉庫(1)數(shù)據(jù)模型的內(nèi)容標識主要主題領域。各個主要主題之間的各種關系。清晰地定義模型的邊界。把原始數(shù)據(jù)和導出數(shù)據(jù)分離。每個主題領域需要標識鍵碼屬性屬性分組之間的關系多重出現(xiàn)的數(shù)據(jù)數(shù)據(jù)的類型數(shù)據(jù)倉庫(1)表達數(shù)據(jù)模型的最好數(shù)據(jù)最實時最準確最完備與外部數(shù)據(jù)源最近最具結(jié)構(gòu)兼容性定義記錄系統(tǒng)就是找出現(xiàn)存系統(tǒng)所具有的最好的數(shù)據(jù)精品資料網(wǎng)()數(shù)據(jù)倉庫(1)將數(shù)據(jù)模型變?yōu)閿?shù)據(jù)倉庫要做的主要工作如果原先沒有時間元素的話,時間元素必須加入到鍵碼結(jié)構(gòu)中必須清除所有的純操作型數(shù)據(jù)需要將參照完整性關系轉(zhuǎn)換成“人工關系”將經(jīng)常需要用到的到處數(shù)據(jù)假如到設計中對數(shù)據(jù)的結(jié)構(gòu)進行調(diào)整增加數(shù)據(jù)陣列增加數(shù)據(jù)冗余在合適的情況下進一步分離數(shù)據(jù)在合適的時候合并數(shù)據(jù)表需要做數(shù)據(jù)的穩(wěn)定性分析數(shù)據(jù)倉庫(1)在接口中需完成的工作數(shù)據(jù)抽取對來自操作型、面向應用型環(huán)境的數(shù)據(jù)的集成數(shù)據(jù)時基的變更數(shù)據(jù)壓縮對現(xiàn)存系統(tǒng)環(huán)境的有效掃描數(shù)據(jù)倉庫(1)數(shù)據(jù)倉庫開發(fā)成功的關鍵關鍵:是數(shù)據(jù)體系結(jié)構(gòu)設計者和DSS分析者之間的反饋循環(huán)。有幾點觀察結(jié)果對數(shù)據(jù)倉庫環(huán)境的成功建立是至關重要的問題:DSS分析人員一定要嚴格遵循“給我我所要的東西,然后我能告訴你我真正需要的東西”的工作模式;反饋循環(huán)的周期越短,越有可能成功;需要調(diào)整的數(shù)據(jù)量越大,反饋循環(huán)所需要的周期就越長數(shù)據(jù)倉庫(1)數(shù)據(jù)倉庫的應用在證券業(yè)的應用:可處理客戶分析、帳戶分析、證券交易數(shù)據(jù)分析、非資金交易分析等多個業(yè)界關心的主題,為客戶提供針對其個人習慣、投資組合的投資建議,從而真正作到對客戶的貼心服務。在銀行領域的應用:防范銀行的經(jīng)營風險、實現(xiàn)科學管理以及進行決策.在稅務領域的應用:可以解決三個方面的問題:一是查出應稅未報者和瞞稅漏稅者,并對其進行跟蹤;二是對不同行業(yè)、產(chǎn)品和市場中納稅人的行為特性進行描述,找出普遍規(guī)律,謀求因勢利導的稅務征稽策略;三是對不同行業(yè)、產(chǎn)品和市場應收稅款進行預測,制定最有
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度民間借貸論文文獻綜述與綜述寫作合同
- 2025年度配套服務用房租賃合同解除協(xié)議
- 二零二五年度木板行業(yè)人才培養(yǎng)與技術(shù)交流合同
- 二零二五年度木門產(chǎn)品線上線下營銷推廣合同范本
- 2025年度冷鏈運輸車輛租賃及運輸服務合同3篇
- 二零二五年度合伙經(jīng)營圖書書店合同書模板2篇
- 2025年建筑用磚采購與質(zhì)量控制管理合同3篇
- 二零二五年度排水溝施工工程進度款支付及結(jié)算合同
- 課題申報參考:農(nóng)村父母養(yǎng)育倦怠所致兒童手游依賴之危害及其矯正機制研究
- 二零二五版耐火材料行業(yè)環(huán)保設施建設合同4篇
- 電纜擠塑操作手冊
- 浙江寧波鄞州區(qū)市級名校2025屆中考生物全真模擬試卷含解析
- 2024-2025學年廣東省深圳市南山區(qū)監(jiān)測數(shù)學三年級第一學期期末學業(yè)水平測試試題含解析
- IATF16949基礎知識培訓教材
- 【MOOC】大學生創(chuàng)新創(chuàng)業(yè)知能訓練與指導-西北農(nóng)林科技大學 中國大學慕課MOOC答案
- 勞務派遣公司員工考核方案
- 基礎生態(tài)學-7種內(nèi)種間關系
- 2024年光伏農(nóng)田出租合同范本
- 《阻燃材料與技術(shù)》課件 第3講 阻燃基本理論
- 2024-2030年中國黃鱔市市場供需現(xiàn)狀與營銷渠道分析報告
- 新人教版九年級化學第三單元復習課件
評論
0/150
提交評論