版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
數據倉庫的設計及應用提綱1.為什么要建立數據倉庫2.數據倉庫的概念及特性3.數據倉庫的結構4.數據倉庫的設計5.數據倉庫的開發(fā)過程6.數據倉庫的典型應用事務處理環(huán)境不適宜DSS應用的原因
事務處理和分析處理的性能特性不同操作型處理對數據的存取操作頻率高而每次操作處理的時間短;
在分析處理環(huán)境中,某個DSS應用程序可能需要連續(xù)幾個小時,從而消耗大量的系統(tǒng)資源。數據集成問題數據動態(tài)集成問題歷史數據問題數據的綜合問題
抽取程序用抽取程序能將數據從高性能聯(lián)機事務處理方式中轉移出來,在需要總體分析數據時就與聯(lián)機事務處理性能不發(fā)生沖突。用抽取程序能將數據從聯(lián)機事務處理范圍內移出時,數據的控制方式就發(fā)生了轉變。體系結構設計環(huán)境的層次數據操作層只保存原始數據并且服務于高性能事務處理領域;數據倉庫層存儲不更新的原始數據,此外一些導出數據也在此存在;數據的部門層幾乎只存放導出數據;在數據個體層中完成大多數啟發(fā)式分析操作層原子/數據倉庫層部門層個體層數據倉庫的概念
數據倉庫是在企業(yè)管理和決策中面向主題的、集成的、與時間相關的、不可修改的數據集合。[WilliamH.Inmon]與其他數據庫應用不同的是,數據倉庫更像一種過程,對分布在企業(yè)內部各處的業(yè)務數據的整合、加工和分析的過程。數據倉庫的結構早期細節(jié)級當前細節(jié)級輕度綜合級數據集市高度綜合級元數據操作型轉換
數據倉庫設計中的幾個重要概念
ETLETL(Extract/Transformation/Load)—用戶從數據源抽取出所需的數據,經過數據清洗、轉換,最終按照預先定義好的數據倉庫模型,將數據加載到數據倉庫中去。元數據關于數據的數據,指在數據倉庫建設過程中所產生的有關數據源定義,目標定義,轉換規(guī)則等相關的關鍵數據。同時元數據還包含關于數據含義的商業(yè)信息。粒度數據倉庫的數據單位中保存數據的細化或綜合程度的級別。細化程度越高,粒度級就越??;相反,細化程度越低,粒度級就越大。分割結構相同的數據被分成多個數據物理單元。任何給定的數據單元屬于且僅屬于一個分割。典型的元數據包括:數據倉庫表的結構數據倉庫表的屬性數據倉庫的源數據(記錄系統(tǒng))從記錄系統(tǒng)到數據倉庫的映射數據模型的規(guī)格說明抽取日志訪問數據的公用例行程序
數據倉庫設計中的幾個重要概念(續(xù))DataMart數據集市--小型的,面向部門或工作組級數據倉庫。OperationDataStore操作數據存儲—ODS是能支持企業(yè)日常的全局應用的數據集合,是不同于DB的一種新的數據環(huán)境,是DW擴展后得到的一個混合形式。四個基本特點:面向主題的(Subject-Oriented)、集成的、可變的、當前或接近當前的。datamodel數據模型--(1)邏輯數據結構,包括由DBMS為有效進行數據庫處理提供的操作和約束;(2)用于表示數據的系統(tǒng)(例如,ERD或關系型模型)。
artifact
人工關系--在DSS環(huán)境中用于表示參照完整性的一種設計技術。企業(yè)數據模型到數據倉庫數據模型的轉換除去純粹用于操作型環(huán)境的數據在企業(yè)鍵碼結構中增加時間元素增加導出數據創(chuàng)建人工關系數據模型的規(guī)范化/反規(guī)范化為了減少程序在表中的跳轉、節(jié)省I/O,需將多個相關的表合并;引入冗余數據;當訪問概率有很大懸殊時,要對數據做進一步分離;在物理數據庫的設計中引入導出數據可以減少I/O;建立所謂的“創(chuàng)造的”索引或創(chuàng)造的簡要記錄(如卷中的前十名顧客是——)從操作型的現存系統(tǒng)到數據倉庫中數據轉換工作的難點現有系統(tǒng)缺乏數據集成,跨越不同應用的數據集成性很差存取現存系統(tǒng)的效率,掃描已有文件成了數據倉庫體系結構設計者主要面對的問題時基的變化數據要濃縮概念:數據周期、簡要記錄數據周期:是指從操作型數據發(fā)生改變起,到這個變化反映到數據倉庫中所用的時間。從操作型環(huán)境知道數據的改變到這個變化反映到數據倉庫中至少應該經歷24小時。簡要記錄:或聚集記錄,是把不同操作型數據的詳細信息聚集在一個記錄中而形成的記錄。好處:①減少數據量;②為用戶的訪問和分析提供了一種緊湊的方便的數據組織形式;缺點:信息的詳細程度將會降低。
VendordataVendordataVendordatavendor_id供應商cust_id客戶order_id發(fā)貨OrderdataOrderdataorder_id訂單CustdataCustdataCustdataNonkeydataOrderdataOrderdataOrderdata產品ProductdataProductdataProductdataProductidVendoridNonkeydatacustidNonkeydataorderidNonkeydataproductid數據建模的十條戒律①必須回答緊迫的問題;②必須有正確的事實表;③將有正確的維表,描述必須按最終用戶的業(yè)務術語表達;④必須理解數據倉庫所影響的公司過程或影響數據倉庫的公司過程;⑤對于事實表,應該有正確的“粒度”;⑥根據需要存儲正確長度的公司歷史數據;⑦以一種對于公司有意義的方式來集成所有必要的數據;⑧創(chuàng)建必要的總結表;⑨創(chuàng)建必要的索引;⑩能夠加載數據倉庫數據庫并使它以一種適宜的方式可用。數據集市外部數據用自頂向下的方法構建數據倉庫數據集市建造企業(yè)數據倉庫建設中心數據模型一次性的完成數據的重構工作最小化數據冗余度和不一致性存儲詳細的歷史數據從企業(yè)數據倉庫中建造數據集市得到大部分的集成數據直接依賴于數據倉庫的可用性操作數據問題投資效益的時間?建設中心數據模型的必要性和可能性?初始費用?企業(yè)數據倉庫數據倉庫的開發(fā)過程建立或獲得企業(yè)的數據模型;定義記錄系統(tǒng);設計數據倉庫并按主題領域進行組織;設計和建立操作型環(huán)境中的記錄系統(tǒng)和數據倉庫之間的接口,這些接口能保證數據倉庫的載入工作能有序的進行;開始載入第一個主題領域,進入載入和反饋過程,數據倉庫中的數據在此過程中也在不斷地改變。數據模型的內容標識主要主題領域。各個主要主題之間的各種關系。清晰地定義模型的邊界。把原始數據和導出數據分離。每個主題領域需要標識鍵碼屬性屬性分組之間的關系多重出現的數據數據的類型表達數據模型的最好數據最實時最準確最完備與外部數據源最近最具結構兼容性定義記錄系統(tǒng)就是找出現存系統(tǒng)所具有的最好的數據在接口中需完成的工作數據抽取對來自操作型、面向應用型環(huán)境的數據的集成數據時基的變更數據壓縮對現存系統(tǒng)環(huán)境的有效掃描數據倉庫開發(fā)成功的關鍵關鍵:是數據體系結構設計者和DSS分析者之間的反饋循環(huán)。有幾點觀察結果對數據倉庫環(huán)境的成功建立是至關重要的問題:DSS分析人員一定要嚴格遵循“給我我所要的東西,然后我能告訴你我真正需要的東西”的工作模式;反饋循環(huán)的周期越短,越有可能成功;需要調整的數據量越大,反饋循環(huán)所需要的周期就越長數據倉庫的應用在證券業(yè)的應用:可處理客戶分析、帳戶分析、證券交易數據分析、非資金交易分析等多個業(yè)界關心的主題,為客戶提供針對其個人習慣、投資組合的投資建議,從而真正作到對客戶的貼心服務。在銀行領域的應用:防范銀行的經營風險、實現科學管理以及進行決策.在稅務領域的應用:可以解決三個方面的問題:一是查出應稅未報者和瞞稅漏稅者,并對其進行跟蹤;二是對不同行業(yè)、產品和市場中納稅人的行為特性進行描述,找出普遍規(guī)律,謀求因勢利導的稅務征稽策略;三是對不同行業(yè)、產品和市場應收稅款進行預測,制定最有效的征收計劃
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 個人財產抵押借款簡易協(xié)議文本版A版
- 二零二四全新石灰石環(huán)保綜合利用合同3篇
- 2024版特種設備吊裝運輸合同3篇
- 個人房產買賣規(guī)范協(xié)議2024版A版
- 2024年04月中國建設銀行北京市分行度社會招考專業(yè)人才筆試歷年參考題庫附帶答案詳解
- 2025年農業(yè)科技推廣合同會簽紀要3篇
- 2024版輪胎承包合同協(xié)議書
- 二零二五年度物流并購保密及市場共享協(xié)議2篇
- 專業(yè)節(jié)電器產品銷售協(xié)議規(guī)范2024版A版
- 2024年03月貴州貴州銀行六盤水分行招考筆試歷年參考題庫附帶答案詳解
- GB/T 12914-2008紙和紙板抗張強度的測定
- GB/T 1185-2006光學零件表面疵病
- ps6000自動化系統(tǒng)用戶操作及問題處理培訓
- 家庭教養(yǎng)方式問卷(含評分標準)
- 城市軌道交通安全管理課件(完整版)
- 線纜包覆擠塑模設計和原理
- TSG ZF001-2006 安全閥安全技術監(jiān)察規(guī)程
- 部編版二年級語文下冊《蜘蛛開店》
- 鍋爐升降平臺管理
- 200m3╱h凈化水處理站設計方案
- 個體化健康教育記錄表格模板1
評論
0/150
提交評論