數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技巧課件_第1頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技巧課件_第2頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技巧課件_第3頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技巧課件_第4頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技巧課件_第5頁
已閱讀5頁,還剩53頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘1基本概念數(shù)據(jù)倉庫定義

數(shù)據(jù)倉庫是一個(gè)面向決策主題的、集成的、時(shí)變的、非易失、以讀為主的數(shù)據(jù)集合。數(shù)據(jù)倉庫系統(tǒng)的分類

Web數(shù)據(jù)倉庫;并行數(shù)據(jù)倉庫;多維數(shù)據(jù)倉庫;壓縮數(shù)據(jù)倉庫等。OLAP定義

OLAP是針對(duì)某個(gè)特定的主題進(jìn)行聯(lián)機(jī)數(shù)據(jù)訪問、處理和分析,通過直觀的方式從多個(gè)維度、多種數(shù)據(jù)綜合程度將系統(tǒng)的運(yùn)營情況展現(xiàn)給用戶?;靖拍顢?shù)據(jù)倉庫定義2面向決策主題的

數(shù)據(jù)倉庫圍繞一些主題,排除對(duì)于決策無用的數(shù)據(jù),提供特定主體的簡明視圖。集成的構(gòu)造數(shù)據(jù)倉庫是將多個(gè)異種數(shù)據(jù)源集成在一起,確保命名約定,編碼結(jié)構(gòu),屬性度量等一致性。時(shí)變的數(shù)據(jù)存儲(chǔ)從歷史的角度提供信息.在數(shù)據(jù)倉庫,隱式或顯式地包含時(shí)間元素。非易失的

數(shù)據(jù)倉庫總是物理地分離存放數(shù)據(jù);由于這種分離,數(shù)據(jù)倉庫不需要事務(wù)處理,恢復(fù)和并發(fā)控制。通常數(shù)據(jù)倉庫只需要兩種數(shù)據(jù)訪問:數(shù)據(jù)的初始化裝入和數(shù)據(jù)訪問。以讀為主的數(shù)據(jù)倉庫中的數(shù)據(jù)主要是提供決策進(jìn)行查詢,一般不一定都需要即時(shí)更新,可以定期刷新或按需刷新。數(shù)據(jù)倉庫基本特性面向決策主題的數(shù)據(jù)倉庫基本特性3數(shù)據(jù)倉庫項(xiàng)目流程管理及系統(tǒng)性能管理和監(jiān)控OLTP數(shù)據(jù)源數(shù)據(jù)倉庫數(shù)據(jù)集市數(shù)據(jù)采集及整合數(shù)據(jù)的映射規(guī)則、模型。。。

(元數(shù)據(jù)管理)數(shù)據(jù)展現(xiàn)及決策生產(chǎn)財(cái)務(wù)結(jié)算外部地區(qū)分析總量分析市場分析ETL數(shù)據(jù)分析、DM終端用戶終端用戶數(shù)據(jù)倉庫體系結(jié)構(gòu)數(shù)據(jù)倉庫項(xiàng)目流程管理及系統(tǒng)性能管理和監(jiān)控OLTP數(shù)據(jù)源數(shù)據(jù)倉4數(shù)據(jù)倉庫的結(jié)構(gòu)早期細(xì)節(jié)級(jí)當(dāng)前細(xì)節(jié)級(jí)輕度綜合級(jí)數(shù)據(jù)集市高度綜合級(jí)元數(shù)據(jù)操作型轉(zhuǎn)換數(shù)據(jù)倉庫的結(jié)構(gòu)早期細(xì)節(jié)級(jí)當(dāng)前細(xì)節(jié)級(jí)輕度綜合級(jí)高度綜合級(jí)元數(shù)據(jù)5

數(shù)據(jù)倉庫中的幾個(gè)重要概念

ETLETL(Extract/Transformation/Load)—用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗、轉(zhuǎn)換,最終按照預(yù)先定義好的數(shù)據(jù)倉庫模型,將數(shù)據(jù)加載到數(shù)據(jù)倉庫中去。元數(shù)據(jù)

關(guān)于數(shù)據(jù)的數(shù)據(jù),指在數(shù)據(jù)倉庫建設(shè)過程中所產(chǎn)生的有關(guān)數(shù)據(jù)源定義、目標(biāo)定義、轉(zhuǎn)換規(guī)則等相關(guān)的關(guān)鍵數(shù)據(jù)。同時(shí)元數(shù)據(jù)還包含關(guān)于數(shù)據(jù)含義的商業(yè)信息。

DataMart數(shù)據(jù)集市--小型的,面向部門或工作組級(jí)數(shù)據(jù)倉庫。數(shù)據(jù)倉庫中的幾個(gè)重要概念ETL6OperationDataStore操作數(shù)據(jù)存儲(chǔ)—ODS是能支持企業(yè)日常的全局應(yīng)用的數(shù)據(jù)集合,是不同于DB的一種新的數(shù)據(jù)環(huán)境,是DW擴(kuò)展后得到的一個(gè)混合形式。四個(gè)基本特點(diǎn):面向主題的(Subject-Oriented)、集成的、可變的、當(dāng)前或接近當(dāng)前的。粒度數(shù)據(jù)倉庫的數(shù)據(jù)單元中保存數(shù)據(jù)的細(xì)化或綜合程度的級(jí)別。細(xì)化程度越高,粒度級(jí)就越?。幌喾?,細(xì)化程度越低,粒度級(jí)就越大。分割結(jié)構(gòu)相同的數(shù)據(jù)可以被分成多個(gè)數(shù)據(jù)物理單元。任何給定的數(shù)據(jù)單元屬于且僅屬于一個(gè)分割。數(shù)據(jù)倉庫中的幾個(gè)重要概念

(續(xù))OperationDataStore數(shù)據(jù)倉庫中的幾個(gè)重7操作數(shù)據(jù)庫與數(shù)據(jù)倉庫的區(qū)別操作數(shù)據(jù)庫系統(tǒng)的主要任務(wù)是聯(lián)機(jī)事務(wù)處理OLTP數(shù)據(jù)倉庫在數(shù)據(jù)分析和決策方面為用戶提供服務(wù),這種系統(tǒng)稱為聯(lián)機(jī)分析處理OLAP操作數(shù)據(jù)庫與數(shù)據(jù)倉庫的區(qū)別操作數(shù)據(jù)庫系統(tǒng)的主要任務(wù)是聯(lián)機(jī)事務(wù)8基本數(shù)據(jù)模式星型模式日期維表TimeIDDayMonthYear銷售事實(shí)表TimeIDProductIDRegionIDSalesQuantity產(chǎn)品維表ProductIDProductNameClassIDClassNameCategoryIDCategoryName地區(qū)維表RegionDCityProvinceCountry基本數(shù)據(jù)模式星型模式日期維表銷售事實(shí)表產(chǎn)品維表地區(qū)維表9基本數(shù)據(jù)模式(續(xù)1)雪花模式銷售事實(shí)表TimeIDProductIDRegionIDSalesQuantity日期維表TimeIDdayMonth產(chǎn)品維表ProductIDProductNameClassIDClassName地區(qū)維表RegionIDCityProvince月表MonthYear類別表ClassIDCategoryIDCategoryName省份表ProvinceCountry基本數(shù)據(jù)模式(續(xù)1)雪花模式銷售事實(shí)表日期維表產(chǎn)品維表地區(qū)維10基本數(shù)據(jù)模式(續(xù)2)多維模型Cube(D1,D2,…,Dn,M1,M2,

…,Mm

基本數(shù)據(jù)模式(續(xù)2)多維模型11數(shù)據(jù)倉庫的主要應(yīng)用信息處理支持查詢和基本的統(tǒng)計(jì)分析,并使用表或圖進(jìn)行報(bào)告。分析處理支持基本的OLAP操作,在匯總的和細(xì)節(jié)的歷史數(shù)據(jù)上操作。數(shù)據(jù)挖掘

支持知識(shí)發(fā)現(xiàn),包括找出隱藏的模式和關(guān)聯(lián),構(gòu)造分析模型,進(jìn)行分類和預(yù)測,并用可視化工具提供挖掘結(jié)果.數(shù)據(jù)倉庫的主要應(yīng)用信息處理12OLAP發(fā)展背景60年代,關(guān)系數(shù)據(jù)庫之父E.F.Codd提出了關(guān)系模型,促進(jìn)了聯(lián)機(jī)事務(wù)處理(OLTP)的發(fā)展(數(shù)據(jù)以表格的形式而非文件方式存儲(chǔ))。1993年,E.F.Codd提出了OLAP概念,認(rèn)為OLTP已不能滿足終端用戶對(duì)數(shù)據(jù)庫查詢分析的需要,SQL對(duì)大型數(shù)據(jù)庫進(jìn)行的簡單查詢也不能滿足終端用戶分析的要求。用戶的決策分析需要對(duì)關(guān)系數(shù)據(jù)庫進(jìn)行大量計(jì)算才能得到結(jié)果,而查詢的結(jié)果并不能滿足決策者提出的需求。因此,E.F.Codd提出了多維數(shù)據(jù)庫和多維分析的概念,即OLAP。

OLTP數(shù)據(jù) OLAP數(shù)據(jù)

原始數(shù)據(jù) 導(dǎo)出數(shù)據(jù) 細(xì)節(jié)性數(shù)據(jù) 綜合性和提煉性數(shù)據(jù) 當(dāng)前值數(shù)據(jù) 歷史數(shù)據(jù) 可更新 不可更新,但周期性刷新 一次處理的數(shù)據(jù)量小 一次處理的數(shù)據(jù)量大 面向應(yīng)用,事務(wù)驅(qū)動(dòng) 面向分析,分析驅(qū)動(dòng) 面向操作人員,支持日常操作面向決策人員,支持管理需要

OLAP發(fā)展背景60年代,關(guān)系數(shù)據(jù)庫之父E.F.Codd提出13什么是OLAP?定義1:OLAP(聯(lián)機(jī)分析處理)是針對(duì)特定問題的聯(lián)機(jī)數(shù)據(jù)訪問和分析。通過對(duì)信息(維數(shù)據(jù))的多種可能的觀察形式進(jìn)行快速、穩(wěn)定一致和交互性的存取,允許管理決策人員對(duì)數(shù)據(jù)進(jìn)行深入觀察。定義2:OLAP(聯(lián)機(jī)分析處理)是使分析人員、管理人員或執(zhí)行人員能夠從多種角度對(duì)從原始數(shù)據(jù)中轉(zhuǎn)化出來的、能夠真正為用戶所理解的、并真實(shí)反映企業(yè)維特性的信息進(jìn)行快速、一致、交互地存取,從而獲得對(duì)數(shù)據(jù)的更深入了解的一類軟件技術(shù)。(OLAP委員會(huì)的定義)OLAP的目標(biāo)是滿足決策支持或多維環(huán)境特定的查詢和報(bào)表需求,它的技術(shù)核心是“維”這個(gè)概念,因此OLAP也可以說是多維數(shù)據(jù)分析工具的集合。什么是OLAP?定義1:OLAP(聯(lián)機(jī)分析處理)是針對(duì)特定14OLAP相關(guān)基本概念1)維:是人們觀察數(shù)據(jù)的特定角度,是考慮問題時(shí)的一類屬性,屬性集合構(gòu)成一個(gè)維(時(shí)間維、地理維等)。2)維的層次:人們觀察數(shù)據(jù)的某個(gè)特定角度(即某個(gè)維)還可以存在細(xì)節(jié)程度不同的各個(gè)描述方面(時(shí)間維:日期、月份、季度、年)。3)維的成員:維的一個(gè)取值。是數(shù)據(jù)項(xiàng)在某維中位置的描述。(“某年某月某日”是在時(shí)間維上位置的描述)4)多維數(shù)組:維和變量的組合表示。一個(gè)多維數(shù)組可以表示為:(維1,維2,…,維n,變量)。(時(shí)間,地區(qū),產(chǎn)品,銷售額)5)數(shù)據(jù)單元(單元格):多維數(shù)組的取值。(2000年1月,上海,筆記本電腦,$100000)OLAP相關(guān)基本概念1)維:是人們觀察數(shù)據(jù)的特定角度,是考慮15OLAP特性(1)快速性:用戶對(duì)OLAP的快速反應(yīng)能力有很高的要求。系統(tǒng)應(yīng)能在5秒內(nèi)對(duì)用戶的大部分分析要求做出反應(yīng)。

(2)可分析性:OLAP系統(tǒng)應(yīng)能處理與應(yīng)用有關(guān)的任何邏輯分析和統(tǒng)計(jì)分析。(3)多維性:多維性是OLAP的關(guān)鍵屬性。系統(tǒng)必須提供對(duì)數(shù)據(jù)的多維視圖和分析,包括對(duì)層次維和多重層次維的完全支持。。(4)信息性:不論數(shù)據(jù)量有多大,也不管數(shù)據(jù)存儲(chǔ)在何處,OLAP系統(tǒng)應(yīng)能及時(shí)獲得信息,并且管理大容量信息。OLAP特性(1)快速性:用戶對(duì)OLAP的快速反應(yīng)能力有很高16OLAP基本操作上卷操作:通過維層次,在數(shù)據(jù)立方體上進(jìn)行聚集。下鉆操作:是上卷操作的逆操作,由不太詳細(xì)的數(shù)據(jù)到更詳細(xì)的數(shù)據(jù)。切片和切塊:切片在給定的數(shù)據(jù)立方體的一個(gè)維上進(jìn)行選擇,切塊則是在兩個(gè)或兩個(gè)以上的維進(jìn)行選擇。旋轉(zhuǎn)操作:是改變維度的位置關(guān)系,使最終用戶可以從其他視角來觀察多維數(shù)據(jù)。OLAP基本操作上卷操作:通過維層次,在數(shù)據(jù)立方體上進(jìn)行聚集17OLTP和OLAP的區(qū)別用戶和系統(tǒng)的面向性:OLTP是面向顧客的,用于事務(wù)和查詢處理;OLAP是面向市場的,用于數(shù)據(jù)分析。數(shù)據(jù)內(nèi)容:OLTP系統(tǒng)管理當(dāng)前數(shù)據(jù);OLAP系統(tǒng)管理大量歷史數(shù)據(jù),提供匯總和聚集機(jī)制。數(shù)據(jù)庫設(shè)計(jì):OLTP采用實(shí)體-聯(lián)系ER模型和面向應(yīng)用的數(shù)據(jù)庫設(shè)計(jì);OLAP采用星型或雪花模型和面向主題的數(shù)據(jù)庫設(shè)計(jì)。OLTP和OLAP的區(qū)別用戶和系統(tǒng)的面向性:18視圖:OLTP主要關(guān)注一個(gè)企業(yè)或部門內(nèi)部的當(dāng)前數(shù)據(jù),不涉及歷史數(shù)據(jù)或不同組織的數(shù)據(jù);OLAP則相反,不僅關(guān)注本企業(yè)或組織內(nèi)部的當(dāng)前數(shù)據(jù),而且更多地涉及到歷史數(shù)據(jù)和其他組織的數(shù)據(jù)。訪問模式:OLTP系統(tǒng)的訪問主要由短的原子事務(wù)組成,這種系統(tǒng)需要并行和恢復(fù)機(jī)制。OLAP系統(tǒng)的訪問大部分是只讀操作。OLTP和OLAP的區(qū)別(續(xù))視圖:OLTP和OLAP的區(qū)別(續(xù))19OLAP的分析方法(一)切片、切塊OLAP的分析方法(一)切片、切塊20OLAP的分析方法(二)鉆取按時(shí)間維向下鉆取按時(shí)間維向上鉆取60OLAP的分析方法(二)鉆取按時(shí)間維向下鉆取按時(shí)間維向上鉆取21OLAP的分析方法(三)旋轉(zhuǎn)OLAP的分析方法(三)旋轉(zhuǎn)22OLAP服務(wù)器類型關(guān)系OLAP(ROLAP)模型使用關(guān)系或擴(kuò)充關(guān)系DBMS存放并管理數(shù)據(jù)倉庫。多維OLAP(MOLAP)服務(wù)器

這些服務(wù)器通過基于數(shù)組的多維存儲(chǔ),支持?jǐn)?shù)組的多維視圖。混合OLAP(HOLAP)服務(wù)器

結(jié)合ROLAP和MOLAP技術(shù),得宜于ROLAP的可伸縮性和MOLAP的快速計(jì)算。OLAP服務(wù)器類型關(guān)系OLAP(ROLAP)模型23數(shù)據(jù)組織形式RDB數(shù)據(jù)組織MDDB數(shù)據(jù)組織關(guān)系表中綜合數(shù)據(jù)的存放

多維數(shù)據(jù)庫中綜合數(shù)據(jù)的存放

產(chǎn)品名稱地區(qū)銷售量冰箱東北50冰箱西北60冰箱華北100彩電東北40彩電西北70彩電華北80空調(diào)東北90空調(diào)西北120空調(diào)華北140

東北西北華北冰箱5060100彩電407080空調(diào)90120140產(chǎn)品名稱地區(qū)銷售量冰箱東北50冰箱西北60冰箱華北100冰箱總和210彩電東北40彩電西北70彩電華北80彩電總和190空調(diào)東北90空調(diào)西北120空調(diào)華北140空調(diào)總和350總和東北180總和西北250總和華北320總和總和750

東北西北華北總和冰箱5060100210彩電407080190空調(diào)90120140350總和180250320750數(shù)據(jù)組織形式RDB數(shù)據(jù)組織MDDB數(shù)據(jù)組24ROLAP體系結(jié)構(gòu)SQLResultSetInfo.RequestResultSetDatabaseServerRDBMSFront-endToolROALPArchitectureROLAPServerMetadataRequestProcessingROLAP體系結(jié)構(gòu)SQLResultInfo.Result25MOLAP體系結(jié)構(gòu)SQLResultSetInfo.RequestResultSetLoadDatabaseServer

RDBMSFront-endToolMOALPArchitectureMOLAPServerMetadataRequestProcessingMOLAP體系結(jié)構(gòu)SQLResultInfo.Result26HOLAP體系結(jié)構(gòu)(續(xù))ResultSetSQLQuerySQLResultSetInfo.RequestResultSetLoadDatabaseServer

RDBMSFront-endToolHybridArchitectureMOLAPServerHOLAP體系結(jié)構(gòu)(續(xù))SQLQuerySQLResul27用戶圖形界面API數(shù)據(jù)庫數(shù)據(jù)倉庫數(shù)據(jù)庫元數(shù)據(jù)OLAM引擎OLAP引擎MDDB數(shù)據(jù)方API數(shù)據(jù)庫API基于約束的數(shù)據(jù)挖掘數(shù)據(jù)清理過濾挖掘結(jié)果數(shù)據(jù)集成數(shù)據(jù)過濾數(shù)據(jù)集成第一層數(shù)據(jù)存儲(chǔ)第二層多維數(shù)據(jù)庫第三層OLAP/OLAM第四層用戶界面一個(gè)集成的OLAM和OLAP結(jié)構(gòu)用戶圖形界面API數(shù)據(jù)庫數(shù)據(jù)倉庫數(shù)據(jù)庫元數(shù)據(jù)OLAMOLAP28OLAP的Web表現(xiàn)方式靜態(tài)方法靜態(tài)HTML報(bào)表動(dòng)態(tài)方法通過HTML模板及元數(shù)據(jù)動(dòng)態(tài)生成報(bào)表改進(jìn)方法使用Java或ActiveXCGIAPIHTMLJavaScripActiveX客戶瀏覽器Web服務(wù)器應(yīng)用OLAPServer基于Web的OLAP結(jié)構(gòu)DatabaseServerOLAP的Web表現(xiàn)方式靜態(tài)方法CGIHTML客戶瀏覽器We29數(shù)據(jù)倉庫與數(shù)據(jù)挖掘

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘30基本概念數(shù)據(jù)倉庫定義

數(shù)據(jù)倉庫是一個(gè)面向決策主題的、集成的、時(shí)變的、非易失、以讀為主的數(shù)據(jù)集合。數(shù)據(jù)倉庫系統(tǒng)的分類

Web數(shù)據(jù)倉庫;并行數(shù)據(jù)倉庫;多維數(shù)據(jù)倉庫;壓縮數(shù)據(jù)倉庫等。OLAP定義

OLAP是針對(duì)某個(gè)特定的主題進(jìn)行聯(lián)機(jī)數(shù)據(jù)訪問、處理和分析,通過直觀的方式從多個(gè)維度、多種數(shù)據(jù)綜合程度將系統(tǒng)的運(yùn)營情況展現(xiàn)給用戶?;靖拍顢?shù)據(jù)倉庫定義31面向決策主題的

數(shù)據(jù)倉庫圍繞一些主題,排除對(duì)于決策無用的數(shù)據(jù),提供特定主體的簡明視圖。集成的構(gòu)造數(shù)據(jù)倉庫是將多個(gè)異種數(shù)據(jù)源集成在一起,確保命名約定,編碼結(jié)構(gòu),屬性度量等一致性。時(shí)變的數(shù)據(jù)存儲(chǔ)從歷史的角度提供信息.在數(shù)據(jù)倉庫,隱式或顯式地包含時(shí)間元素。非易失的

數(shù)據(jù)倉庫總是物理地分離存放數(shù)據(jù);由于這種分離,數(shù)據(jù)倉庫不需要事務(wù)處理,恢復(fù)和并發(fā)控制。通常數(shù)據(jù)倉庫只需要兩種數(shù)據(jù)訪問:數(shù)據(jù)的初始化裝入和數(shù)據(jù)訪問。以讀為主的數(shù)據(jù)倉庫中的數(shù)據(jù)主要是提供決策進(jìn)行查詢,一般不一定都需要即時(shí)更新,可以定期刷新或按需刷新。數(shù)據(jù)倉庫基本特性面向決策主題的數(shù)據(jù)倉庫基本特性32數(shù)據(jù)倉庫項(xiàng)目流程管理及系統(tǒng)性能管理和監(jiān)控OLTP數(shù)據(jù)源數(shù)據(jù)倉庫數(shù)據(jù)集市數(shù)據(jù)采集及整合數(shù)據(jù)的映射規(guī)則、模型。。。

(元數(shù)據(jù)管理)數(shù)據(jù)展現(xiàn)及決策生產(chǎn)財(cái)務(wù)結(jié)算外部地區(qū)分析總量分析市場分析ETL數(shù)據(jù)分析、DM終端用戶終端用戶數(shù)據(jù)倉庫體系結(jié)構(gòu)數(shù)據(jù)倉庫項(xiàng)目流程管理及系統(tǒng)性能管理和監(jiān)控OLTP數(shù)據(jù)源數(shù)據(jù)倉33數(shù)據(jù)倉庫的結(jié)構(gòu)早期細(xì)節(jié)級(jí)當(dāng)前細(xì)節(jié)級(jí)輕度綜合級(jí)數(shù)據(jù)集市高度綜合級(jí)元數(shù)據(jù)操作型轉(zhuǎn)換數(shù)據(jù)倉庫的結(jié)構(gòu)早期細(xì)節(jié)級(jí)當(dāng)前細(xì)節(jié)級(jí)輕度綜合級(jí)高度綜合級(jí)元數(shù)據(jù)34

數(shù)據(jù)倉庫中的幾個(gè)重要概念

ETLETL(Extract/Transformation/Load)—用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗、轉(zhuǎn)換,最終按照預(yù)先定義好的數(shù)據(jù)倉庫模型,將數(shù)據(jù)加載到數(shù)據(jù)倉庫中去。元數(shù)據(jù)

關(guān)于數(shù)據(jù)的數(shù)據(jù),指在數(shù)據(jù)倉庫建設(shè)過程中所產(chǎn)生的有關(guān)數(shù)據(jù)源定義、目標(biāo)定義、轉(zhuǎn)換規(guī)則等相關(guān)的關(guān)鍵數(shù)據(jù)。同時(shí)元數(shù)據(jù)還包含關(guān)于數(shù)據(jù)含義的商業(yè)信息。

DataMart數(shù)據(jù)集市--小型的,面向部門或工作組級(jí)數(shù)據(jù)倉庫。數(shù)據(jù)倉庫中的幾個(gè)重要概念ETL35OperationDataStore操作數(shù)據(jù)存儲(chǔ)—ODS是能支持企業(yè)日常的全局應(yīng)用的數(shù)據(jù)集合,是不同于DB的一種新的數(shù)據(jù)環(huán)境,是DW擴(kuò)展后得到的一個(gè)混合形式。四個(gè)基本特點(diǎn):面向主題的(Subject-Oriented)、集成的、可變的、當(dāng)前或接近當(dāng)前的。粒度數(shù)據(jù)倉庫的數(shù)據(jù)單元中保存數(shù)據(jù)的細(xì)化或綜合程度的級(jí)別。細(xì)化程度越高,粒度級(jí)就越小;相反,細(xì)化程度越低,粒度級(jí)就越大。分割結(jié)構(gòu)相同的數(shù)據(jù)可以被分成多個(gè)數(shù)據(jù)物理單元。任何給定的數(shù)據(jù)單元屬于且僅屬于一個(gè)分割。數(shù)據(jù)倉庫中的幾個(gè)重要概念

(續(xù))OperationDataStore數(shù)據(jù)倉庫中的幾個(gè)重36操作數(shù)據(jù)庫與數(shù)據(jù)倉庫的區(qū)別操作數(shù)據(jù)庫系統(tǒng)的主要任務(wù)是聯(lián)機(jī)事務(wù)處理OLTP數(shù)據(jù)倉庫在數(shù)據(jù)分析和決策方面為用戶提供服務(wù),這種系統(tǒng)稱為聯(lián)機(jī)分析處理OLAP操作數(shù)據(jù)庫與數(shù)據(jù)倉庫的區(qū)別操作數(shù)據(jù)庫系統(tǒng)的主要任務(wù)是聯(lián)機(jī)事務(wù)37基本數(shù)據(jù)模式星型模式日期維表TimeIDDayMonthYear銷售事實(shí)表TimeIDProductIDRegionIDSalesQuantity產(chǎn)品維表ProductIDProductNameClassIDClassNameCategoryIDCategoryName地區(qū)維表RegionDCityProvinceCountry基本數(shù)據(jù)模式星型模式日期維表銷售事實(shí)表產(chǎn)品維表地區(qū)維表38基本數(shù)據(jù)模式(續(xù)1)雪花模式銷售事實(shí)表TimeIDProductIDRegionIDSalesQuantity日期維表TimeIDdayMonth產(chǎn)品維表ProductIDProductNameClassIDClassName地區(qū)維表RegionIDCityProvince月表MonthYear類別表ClassIDCategoryIDCategoryName省份表ProvinceCountry基本數(shù)據(jù)模式(續(xù)1)雪花模式銷售事實(shí)表日期維表產(chǎn)品維表地區(qū)維39基本數(shù)據(jù)模式(續(xù)2)多維模型Cube(D1,D2,…,Dn,M1,M2,

…,Mm

基本數(shù)據(jù)模式(續(xù)2)多維模型40數(shù)據(jù)倉庫的主要應(yīng)用信息處理支持查詢和基本的統(tǒng)計(jì)分析,并使用表或圖進(jìn)行報(bào)告。分析處理支持基本的OLAP操作,在匯總的和細(xì)節(jié)的歷史數(shù)據(jù)上操作。數(shù)據(jù)挖掘

支持知識(shí)發(fā)現(xiàn),包括找出隱藏的模式和關(guān)聯(lián),構(gòu)造分析模型,進(jìn)行分類和預(yù)測,并用可視化工具提供挖掘結(jié)果.數(shù)據(jù)倉庫的主要應(yīng)用信息處理41OLAP發(fā)展背景60年代,關(guān)系數(shù)據(jù)庫之父E.F.Codd提出了關(guān)系模型,促進(jìn)了聯(lián)機(jī)事務(wù)處理(OLTP)的發(fā)展(數(shù)據(jù)以表格的形式而非文件方式存儲(chǔ))。1993年,E.F.Codd提出了OLAP概念,認(rèn)為OLTP已不能滿足終端用戶對(duì)數(shù)據(jù)庫查詢分析的需要,SQL對(duì)大型數(shù)據(jù)庫進(jìn)行的簡單查詢也不能滿足終端用戶分析的要求。用戶的決策分析需要對(duì)關(guān)系數(shù)據(jù)庫進(jìn)行大量計(jì)算才能得到結(jié)果,而查詢的結(jié)果并不能滿足決策者提出的需求。因此,E.F.Codd提出了多維數(shù)據(jù)庫和多維分析的概念,即OLAP。

OLTP數(shù)據(jù) OLAP數(shù)據(jù)

原始數(shù)據(jù) 導(dǎo)出數(shù)據(jù) 細(xì)節(jié)性數(shù)據(jù) 綜合性和提煉性數(shù)據(jù) 當(dāng)前值數(shù)據(jù) 歷史數(shù)據(jù) 可更新 不可更新,但周期性刷新 一次處理的數(shù)據(jù)量小 一次處理的數(shù)據(jù)量大 面向應(yīng)用,事務(wù)驅(qū)動(dòng) 面向分析,分析驅(qū)動(dòng) 面向操作人員,支持日常操作面向決策人員,支持管理需要

OLAP發(fā)展背景60年代,關(guān)系數(shù)據(jù)庫之父E.F.Codd提出42什么是OLAP?定義1:OLAP(聯(lián)機(jī)分析處理)是針對(duì)特定問題的聯(lián)機(jī)數(shù)據(jù)訪問和分析。通過對(duì)信息(維數(shù)據(jù))的多種可能的觀察形式進(jìn)行快速、穩(wěn)定一致和交互性的存取,允許管理決策人員對(duì)數(shù)據(jù)進(jìn)行深入觀察。定義2:OLAP(聯(lián)機(jī)分析處理)是使分析人員、管理人員或執(zhí)行人員能夠從多種角度對(duì)從原始數(shù)據(jù)中轉(zhuǎn)化出來的、能夠真正為用戶所理解的、并真實(shí)反映企業(yè)維特性的信息進(jìn)行快速、一致、交互地存取,從而獲得對(duì)數(shù)據(jù)的更深入了解的一類軟件技術(shù)。(OLAP委員會(huì)的定義)OLAP的目標(biāo)是滿足決策支持或多維環(huán)境特定的查詢和報(bào)表需求,它的技術(shù)核心是“維”這個(gè)概念,因此OLAP也可以說是多維數(shù)據(jù)分析工具的集合。什么是OLAP?定義1:OLAP(聯(lián)機(jī)分析處理)是針對(duì)特定43OLAP相關(guān)基本概念1)維:是人們觀察數(shù)據(jù)的特定角度,是考慮問題時(shí)的一類屬性,屬性集合構(gòu)成一個(gè)維(時(shí)間維、地理維等)。2)維的層次:人們觀察數(shù)據(jù)的某個(gè)特定角度(即某個(gè)維)還可以存在細(xì)節(jié)程度不同的各個(gè)描述方面(時(shí)間維:日期、月份、季度、年)。3)維的成員:維的一個(gè)取值。是數(shù)據(jù)項(xiàng)在某維中位置的描述。(“某年某月某日”是在時(shí)間維上位置的描述)4)多維數(shù)組:維和變量的組合表示。一個(gè)多維數(shù)組可以表示為:(維1,維2,…,維n,變量)。(時(shí)間,地區(qū),產(chǎn)品,銷售額)5)數(shù)據(jù)單元(單元格):多維數(shù)組的取值。(2000年1月,上海,筆記本電腦,$100000)OLAP相關(guān)基本概念1)維:是人們觀察數(shù)據(jù)的特定角度,是考慮44OLAP特性(1)快速性:用戶對(duì)OLAP的快速反應(yīng)能力有很高的要求。系統(tǒng)應(yīng)能在5秒內(nèi)對(duì)用戶的大部分分析要求做出反應(yīng)。

(2)可分析性:OLAP系統(tǒng)應(yīng)能處理與應(yīng)用有關(guān)的任何邏輯分析和統(tǒng)計(jì)分析。(3)多維性:多維性是OLAP的關(guān)鍵屬性。系統(tǒng)必須提供對(duì)數(shù)據(jù)的多維視圖和分析,包括對(duì)層次維和多重層次維的完全支持。。(4)信息性:不論數(shù)據(jù)量有多大,也不管數(shù)據(jù)存儲(chǔ)在何處,OLAP系統(tǒng)應(yīng)能及時(shí)獲得信息,并且管理大容量信息。OLAP特性(1)快速性:用戶對(duì)OLAP的快速反應(yīng)能力有很高45OLAP基本操作上卷操作:通過維層次,在數(shù)據(jù)立方體上進(jìn)行聚集。下鉆操作:是上卷操作的逆操作,由不太詳細(xì)的數(shù)據(jù)到更詳細(xì)的數(shù)據(jù)。切片和切塊:切片在給定的數(shù)據(jù)立方體的一個(gè)維上進(jìn)行選擇,切塊則是在兩個(gè)或兩個(gè)以上的維進(jìn)行選擇。旋轉(zhuǎn)操作:是改變維度的位置關(guān)系,使最終用戶可以從其他視角來觀察多維數(shù)據(jù)。OLAP基本操作上卷操作:通過維層次,在數(shù)據(jù)立方體上進(jìn)行聚集46OLTP和OLAP的區(qū)別用戶和系統(tǒng)的面向性:OLTP是面向顧客的,用于事務(wù)和查詢處理;OLAP是面向市場的,用于數(shù)據(jù)分析。數(shù)據(jù)內(nèi)容:OLTP系統(tǒng)管理當(dāng)前數(shù)據(jù);OLAP系統(tǒng)管理大量歷史數(shù)據(jù),提供匯總和聚集機(jī)制。數(shù)據(jù)庫設(shè)計(jì):OLTP采用實(shí)體-聯(lián)系ER模型和面向應(yīng)用的數(shù)據(jù)庫設(shè)計(jì);OLAP采用星型或雪花模型和面向主題的數(shù)據(jù)庫設(shè)計(jì)。OLTP和OLAP的區(qū)別用戶和系統(tǒng)的面向性:47視圖:OLTP主要關(guān)注一個(gè)企業(yè)或部門內(nèi)部的當(dāng)前數(shù)據(jù),不涉及歷史數(shù)據(jù)或不同組織的數(shù)據(jù);OLAP則相反,不僅關(guān)注本企業(yè)或組織內(nèi)部的當(dāng)前數(shù)據(jù),而且更多地涉及到歷史數(shù)據(jù)和其他組織的數(shù)據(jù)。訪問模式:OLTP系統(tǒng)的訪問主要由短的原子事務(wù)組成,這種系統(tǒng)需要并行和恢復(fù)機(jī)制。OLAP系統(tǒng)的訪問大部分是只讀操作。OLTP和OLAP的區(qū)別(續(xù))視圖:OLTP和OLAP的區(qū)別(續(xù))48OLAP的分析方法(一)切片、切塊OLAP的分析方法(一)切片、切塊49OLAP的分析方法(二)鉆取按時(shí)間維向下鉆取按時(shí)間維向上鉆取60OLAP的分析方法(二)鉆取按時(shí)間維向下鉆取按時(shí)間維向上鉆取50OLAP的分析方法(三)旋轉(zhuǎn)OLAP的分析方法(三)旋轉(zhuǎn)51OLAP服務(wù)器類型關(guān)系OLAP(ROLAP)模型使用關(guān)系或擴(kuò)充關(guān)系DBMS存放并管理數(shù)據(jù)倉庫。多維OLAP(MOLAP)服務(wù)器

這些服務(wù)器通過基于數(shù)組的多維存儲(chǔ),支持?jǐn)?shù)組的多維視圖。混合OLAP(HOLAP)服務(wù)器

結(jié)合ROLAP和MOLAP技術(shù),得宜于ROLAP的可伸縮性和MOLAP的快速計(jì)算。OLAP服務(wù)器類型關(guān)系OLAP(ROLAP)模型52數(shù)據(jù)組織形式RDB數(shù)據(jù)組織MDDB數(shù)據(jù)組織關(guān)系表中綜合數(shù)據(jù)的存放

多維數(shù)據(jù)庫中綜合數(shù)據(jù)的存放

產(chǎn)品名稱地區(qū)銷售量冰箱東北50冰箱西北60冰箱華北100彩電東北40彩電西北70彩電華北80空調(diào)東北90空調(diào)西北120空調(diào)華北140

東北西北華北冰箱5060100彩電407080空調(diào)90120140產(chǎn)品名稱地區(qū)銷售量冰箱東北50冰箱西北60冰箱華北100冰箱總和210彩電東北40彩電西北70彩電華北80彩電總和190空調(diào)東北90空調(diào)西北120空調(diào)華北14

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論