版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
數(shù)據(jù)倉庫(DataWarehouse)
演講人:沈國峰SQ10058253010
SQ10058253011
SQ10058253008
2010年12月14日
農(nóng)歷十一月初九從數(shù)據(jù)庫到數(shù)據(jù)倉庫數(shù)據(jù)倉庫的概念
數(shù)據(jù)倉庫的特征數(shù)據(jù)倉庫的商業(yè)價值數(shù)據(jù)倉庫的發(fā)展現(xiàn)狀及發(fā)展方向
內(nèi)容提要從數(shù)據(jù)庫到數(shù)據(jù)倉庫由數(shù)據(jù)庫(DB)發(fā)展到數(shù)據(jù)倉庫(DW)主要有以下幾點原因:
數(shù)據(jù)太多,信息貧乏(datarich,informationpoor):隨著數(shù)據(jù)庫技術(shù)的發(fā)展,企事業(yè)單位建立了大量的數(shù)據(jù)庫,數(shù)據(jù)越來越多,而輔助決策信息卻很貧乏,如何將大量的數(shù)據(jù)轉(zhuǎn)化為輔助決策信息成為了研究的熱點。異構(gòu)環(huán)境數(shù)據(jù)的轉(zhuǎn)換與共享:由于各類數(shù)據(jù)庫產(chǎn)品的增加,異構(gòu)環(huán)境的數(shù)據(jù)隨之增加,如何實現(xiàn)這些異構(gòu)環(huán)境數(shù)據(jù)的轉(zhuǎn)換和共享也成了研究的熱點。利用數(shù)據(jù)進行事務(wù)處理轉(zhuǎn)變?yōu)槔脭?shù)據(jù)支持決策:數(shù)據(jù)庫用于事務(wù)處理,若要達到輔助決策,則需要更多的數(shù)據(jù),例如:如何利用歷史數(shù)據(jù)的分析來進行預(yù)測。對大量數(shù)據(jù)的綜合得到宏觀信息等均需要大量的數(shù)據(jù)。就在數(shù)據(jù)倉庫的概念提出后的幾年時間內(nèi)就得到了迅速的發(fā)展,各種各樣的數(shù)據(jù)倉庫產(chǎn)品也不斷出現(xiàn)并陸續(xù)進入市場。
目前市場上主流的數(shù)據(jù)倉庫產(chǎn)品有以下幾種:(BusinessObjects、Oracle、IBM、Sybase、Informix、NCR、Microsoft、SAS、CA)。
數(shù)據(jù)倉庫與數(shù)據(jù)庫的區(qū)別1、數(shù)據(jù)庫用于事務(wù)處理,而數(shù)據(jù)倉庫則用于決策分析2、數(shù)據(jù)庫保持事務(wù)處理的當前狀態(tài),而數(shù)據(jù)倉庫既保存過去
的數(shù)據(jù)也保存當前的數(shù)據(jù)。3、數(shù)據(jù)倉庫的數(shù)據(jù)是大量數(shù)據(jù)庫的集成4、對數(shù)據(jù)庫的操作比較明確,操作數(shù)據(jù)量少;而對數(shù)據(jù)倉庫
的操作不明確,操作數(shù)據(jù)量大。數(shù)據(jù)庫與數(shù)據(jù)倉庫的詳細對比數(shù)據(jù)庫數(shù)據(jù)倉庫數(shù)據(jù)庫數(shù)據(jù)倉庫面向應(yīng)用面向主題一個操作存取一個記錄一個操作存取一個集合數(shù)據(jù)是詳細的數(shù)據(jù)是綜合或提煉的數(shù)據(jù)非冗余數(shù)據(jù)時常冗余保存當前數(shù)據(jù)保存過去和現(xiàn)在的數(shù)據(jù)操作頻繁相對不頻繁數(shù)據(jù)可更新數(shù)據(jù)幾乎不更新事務(wù)處理需要當前數(shù)據(jù)決策分析需要過去和現(xiàn)在的數(shù)據(jù)重復(fù)地操作數(shù)據(jù)啟發(fā)式地操作數(shù)據(jù)很少有復(fù)雜計算很多復(fù)雜的計算操作需求事先可知操作需求臨時決定支持事務(wù)處理支持決策分析從OLTP到OLAP
On-LineTransactionProcessing聯(lián)機事務(wù)處理系統(tǒng)(OLTP)
也稱為面向交易的處理系統(tǒng),其基本特征是顧客的原始數(shù)據(jù)可以立即傳送到計算中心進行處理,并在很短的時間內(nèi)給出處理結(jié)果。這樣做的最大優(yōu)點是可以即時地處理輸入的數(shù)據(jù),及時地回答。也稱為實時系統(tǒng)(RealtimeSystem)。衡量聯(lián)機事務(wù)處理系統(tǒng)的一個重要性能指標是系統(tǒng)性能,具體體現(xiàn)為實時響應(yīng)時間(ResponseTime),即用戶在終端上送入數(shù)據(jù)之后,到計算機對這個請求給出答復(fù)所需要的時間。
OLTP數(shù)據(jù)庫旨在使事務(wù)應(yīng)用程序僅寫入所需的數(shù)據(jù),以便盡快處理單個事務(wù)。定義On-LineAnalysisProcessing聯(lián)機分析處理系統(tǒng)(OLTP)
聯(lián)機分析處理(OLAP)的概念最早是由關(guān)系數(shù)據(jù)庫之父E.F.Codd于1993年提出的。當時,Codd認為聯(lián)機事務(wù)處理(OLTP)已不能滿足終端用戶對數(shù)據(jù)庫復(fù)雜查詢分析的需要,SQL對大數(shù)據(jù)庫進行的簡單查詢也不能滿足用戶分析的需求。用戶的決策分析需要對關(guān)系數(shù)據(jù)庫進行大量計算才能得到結(jié)果,而查詢的結(jié)果并不能滿足決策者提出的需求,因此Codd提出了多維數(shù)據(jù)庫和多維分析的概念即OLAP。OLAP是數(shù)據(jù)倉庫系統(tǒng)的主要應(yīng)用,支持復(fù)雜的分析操作,側(cè)重決策支持,并且提供直觀易懂的查詢結(jié)果,OLAP的技術(shù)核心就是“維度”這個概念。定義ROLAP
各個軟件開發(fā)廠家見仁見智,其中一個流派,認為可以沿用關(guān)系型數(shù)據(jù)庫來存儲多維數(shù)據(jù),于是,基于稀疏矩陣表示方法的星型結(jié)構(gòu)(starschema)就出現(xiàn)了。后來又演化出雪花結(jié)構(gòu)。為了與多維數(shù)據(jù)庫相區(qū)別,則把基于關(guān)系型數(shù)據(jù)庫的OLAP稱為RelationalOLAP,簡稱ROLAP。MOLAPMuiltDimensionOLAP,簡稱MOLAP,代表產(chǎn)品有Hyperion(原Arborsoftware)Essbase、MsOlap、oracleexpress等。立方體,頁,片的數(shù)據(jù)維=主鍵只存放一次,重復(fù)使用強制性保證數(shù)據(jù)完整性節(jié)省磁盤空間極容易地結(jié)合數(shù)據(jù)和公式支持共享的商業(yè)邏輯保證數(shù)據(jù)的一致性每一個單元都被索引因此有很高的存取效率1月2月3月芬達可樂雪碧北京上海南京ROLAP和MOLAP的功能區(qū)別Legacy/Operational/ExternalSystemsTransactionSystemsDecisionSupportSystemsKnowledgeWorkersStrategicTacticalWhat-IfAnalysisCustomizedApplicationsDrill&PivotAnalysisForecastingModelingTime-SeriesQuery&ReportingMOLAPROLAPMDBRDBMSDataCachelinkage運籌帷幄,決勝千里。什么是數(shù)據(jù)倉庫?Adatawarehouseisasubject-oriented,integrated,nonvolatile,andtime-variantcollectionofdatainsupportofmanagement’sdecisions.數(shù)據(jù)倉庫之父——BillInmonsubject-oriented
主題:是指用戶使用數(shù)據(jù)倉庫進行決策時所關(guān)心的重點方面,如收入、客戶、銷售渠道等所謂面向主題,是指數(shù)據(jù)倉庫內(nèi)的信息是按主題進行組織的,而不是像業(yè)務(wù)支撐系統(tǒng)那樣是按照業(yè)務(wù)功能進行組織的。integrated集成:是指數(shù)據(jù)倉庫中的信息不是從各個業(yè)務(wù)系統(tǒng)中簡單抽取出來的,而是經(jīng)過一系列加工、整理和匯總,因此數(shù)據(jù)倉庫中的信息是關(guān)于整個企業(yè)的一致的全局信息。nonvolatile,是指一旦數(shù)據(jù)載入數(shù)據(jù)倉庫以后,一般很少進行修改,更多的是對信息進行訪問查詢操作。
time-variant是指數(shù)據(jù)倉庫內(nèi)的信息并不只是反映企業(yè)當前的狀態(tài),而是記錄了從過去某一時刻到當前各個階段的信息,通過這些信息,可以對企業(yè)的發(fā)展歷程和未來趨勢做出定量分析和預(yù)測。其他特點:
數(shù)據(jù)倉庫的數(shù)據(jù)量很大:通常數(shù)據(jù)倉庫的數(shù)據(jù)量為10GB級,相當于一般數(shù)據(jù)庫(100M左右)的100倍,而且大型的數(shù)據(jù)倉庫更可以達到TB級的數(shù)據(jù)量。
數(shù)據(jù)倉庫中數(shù)據(jù)量的比重是:索引和綜合數(shù)據(jù)占2/3以上,而原始數(shù)據(jù)則占不到1/3,這和數(shù)據(jù)庫正好形成了鮮明的對比。
數(shù)據(jù)倉庫軟硬件要求較高:既需要一個巨大的硬件平臺又需要一個并行的數(shù)據(jù)庫系統(tǒng)。
粒度是指數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)的細化或綜合程度的級別粒度級越小,細節(jié)程度越高,綜合程度越低,回答查詢的種類越多粒度影響數(shù)據(jù)倉庫中數(shù)據(jù)量的大小粒度問題是設(shè)計數(shù)據(jù)倉庫的一個重要方面粒度的選擇雙重粒度:大多數(shù)組織的最佳解決方法就是采用多重粒度級的形式短期儲存的低粒度(真實檔案),滿足細節(jié)查詢具有綜合的高粒度(輕度綜合),做分析,可以滿足綜合查詢?nèi)绾螜?quán)衡?企業(yè)面臨的挑戰(zhàn)適應(yīng)經(jīng)濟全球化趨勢面對激烈的和市場競爭成本控制企業(yè)重組合并增長的利率個性化需求越來越高定價問題日趨復(fù)雜開拓新的銷售渠道可用信息的收集客戶信息One-to-One客戶關(guān)系“豐富的數(shù)據(jù)…貧乏的信息”企業(yè)每天產(chǎn)生大量的數(shù)據(jù),這些數(shù)據(jù)都分散在企業(yè)的各處,如何獲取這些數(shù)據(jù),并將這些數(shù)據(jù)提煉成有意義的一致的信息成為了一種挑戰(zhàn)將數(shù)據(jù)變成企業(yè)資產(chǎn)數(shù)據(jù)倉庫的商業(yè)價值來源:ByWayneEckerson,SmartCampaniesinthe21stCentury數(shù)據(jù)倉庫化的過程數(shù)據(jù)倉庫支持的企業(yè)商業(yè)智能化過程(閉環(huán)的自學(xué)習(xí)過程)數(shù)據(jù)倉庫解決方案改善商業(yè)過程ImproveorRe-inventBusinessProcesses改善庫存管理自動補給優(yōu)化渠道管理提高產(chǎn)品管理能力改善投資/供貨商的談判供應(yīng)鏈管理快速引進和測量新的營銷活動、產(chǎn)品和服務(wù)改進或再造業(yè)務(wù)過程
舉例
以銀行為例,數(shù)據(jù)倉庫可以在競爭力、客戶、風(fēng)險、利潤、組織機構(gòu)等幾個方面對銀行產(chǎn)生影響。例如,銀行可以根據(jù)數(shù)據(jù)倉庫中的信息做出決策,應(yīng)對日益嚴峻的競爭,不斷革新業(yè)務(wù)和產(chǎn)品。銀行還可以利用數(shù)據(jù)倉庫分析傳統(tǒng)業(yè)務(wù)的發(fā)展趨勢、產(chǎn)品之間的差距和機會、銀行業(yè)務(wù)行為和績效、交叉銷售的機會、市場細分、交易渠道使用情況、競爭對手的產(chǎn)品、合理的價格等。
一旦數(shù)據(jù)倉庫中的信息按照上述方式進行組織,銀行就可以通過以下機會獲得業(yè)務(wù)優(yōu)勢,如:市場促銷、產(chǎn)品客戶化、產(chǎn)品包裝、銀行業(yè)務(wù)評估、績效跟蹤、交叉銷售、風(fēng)險管理、渠道使用情況、設(shè)定優(yōu)惠價格、競爭對手聯(lián)盟、客戶份額預(yù)估、費用預(yù)先確定等。數(shù)據(jù)倉庫應(yīng)用現(xiàn)狀
目前數(shù)據(jù)倉庫在很多企業(yè)中的應(yīng)用還是停留在完成了報表的生成和日常事務(wù)的分析,并沒有對數(shù)據(jù)進行深人的挖掘,這樣并不能給銀行帶來真正的效益,也遠遠沒有發(fā)揮出數(shù)據(jù)倉庫的商業(yè)應(yīng)用價值。在對數(shù)據(jù)倉庫的應(yīng)用中還存在著一個問題,由于業(yè)務(wù)系統(tǒng)平臺不統(tǒng)一,依然有許多錯綜復(fù)雜的數(shù)據(jù)互不關(guān)聯(lián),導(dǎo)致數(shù)據(jù)倉庫不能有效地發(fā)揮其作用。另外,數(shù)據(jù)倉庫的提出和應(yīng)用通常都是技術(shù)部門在其中扮演重要角色,業(yè)務(wù)部門參與的較少,但實際上,沒有業(yè)務(wù)部門與技術(shù)部門之間的很好協(xié)調(diào),數(shù)據(jù)倉庫是不可能應(yīng)用成功的。因為數(shù)據(jù)倉庫技術(shù)是管理科學(xué)、計算機科學(xué)、網(wǎng)絡(luò)科學(xué)以及一系列分析手段的大融合。在我國,由于現(xiàn)在對數(shù)據(jù)倉庫的分析還缺乏經(jīng)驗。
數(shù)據(jù)倉庫在使用時很重要的一個問題是如何建立模型,而這要求使用者對相關(guān)的業(yè)務(wù)非常熟悉并具有相應(yīng)的管理和分析能力,否則得出的結(jié)論很可能是就無用的。數(shù)據(jù)倉庫發(fā)展方向
首先要統(tǒng)一信息系統(tǒng)的平臺,采用統(tǒng)一的數(shù)據(jù)結(jié)構(gòu),在數(shù)據(jù)抽取方面,未來的技術(shù)發(fā)展將集中在系統(tǒng)集成化方面。他將互連、轉(zhuǎn)換、復(fù)制、調(diào)度、監(jiān)控納入標準化的統(tǒng)一管理,使所有的數(shù)據(jù)都按相同的結(jié)構(gòu)集中存放在一起,以適應(yīng)數(shù)據(jù)倉庫本身或數(shù)據(jù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 遺傳算法流程圖
- 教育部學(xué)科分類與代碼(全部)
- 2024購銷合同下載范文
- 2024臨時工解聘協(xié)議書臨時工聘用合同協(xié)議書
- 自然資源安全生產(chǎn)
- 規(guī)劃課題申報范例:“雙高?!笨冃гu價研究(附可修改技術(shù)路線圖)
- 深圳大學(xué)《知識產(chǎn)權(quán)法學(xué)》2021-2022學(xué)年期末試卷
- 副主任醫(yī)師定期考核述職報告范文(7篇)
- 關(guān)于班組長安全承諾書3篇
- 軍訓(xùn)決心書(集錦15篇)
- 食用菌現(xiàn)代高效農(nóng)業(yè)示范園區(qū)建設(shè)項目建議書
- 東營港加油、LNG加氣站工程環(huán)評報告表
- 2024年日歷(打印版每月一張)
- 車用動力電池回收利用 管理規(guī)范 第2部分:回收服務(wù)網(wǎng)點征求意見稿編制說明
- 新劍橋少兒英語第六冊全冊配套文本
- 科學(xué)預(yù)測方案
- 職業(yè)生涯規(guī)劃網(wǎng)絡(luò)與新媒體專業(yè)
- T-WAPIA 052.2-2023 無線局域網(wǎng)設(shè)備技術(shù)規(guī)范 第2部分:終端
- 市政管道開槽施工-市政排水管道的施工
- 初中八年級英語課件Reading Giant pandas-“江南聯(lián)賽”一等獎2
- 人工智能在教育行業(yè)中的應(yīng)用與管理
評論
0/150
提交評論