第四講 數(shù)據(jù)倉(cāng)庫_第1頁
第四講 數(shù)據(jù)倉(cāng)庫_第2頁
第四講 數(shù)據(jù)倉(cāng)庫_第3頁
第四講 數(shù)據(jù)倉(cāng)庫_第4頁
第四講 數(shù)據(jù)倉(cāng)庫_第5頁
已閱讀5頁,還剩38頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第四講數(shù)據(jù)倉(cāng)庫數(shù)據(jù)庫與數(shù)據(jù)倉(cāng)庫數(shù)據(jù)不一致可頻繁刪除數(shù)據(jù)存放短期數(shù)據(jù)(3個(gè)月內(nèi))存在數(shù)據(jù)冗余數(shù)據(jù)倉(cāng)庫概述數(shù)據(jù)倉(cāng)庫與CRM有著難以割舍的密切關(guān)系,客戶關(guān)系管理的很多工作都是以數(shù)據(jù)倉(cāng)庫為基礎(chǔ)展開的。利用數(shù)據(jù)倉(cāng)庫,企業(yè)可以對(duì)客戶行為進(jìn)行分析和預(yù)測(cè),從而制定準(zhǔn)確的市場(chǎng)策略、發(fā)現(xiàn)重點(diǎn)客戶和評(píng)價(jià)市場(chǎng)性能。對(duì)于客戶量大、市場(chǎng)策略對(duì)企業(yè)影響較大的企業(yè)來說,必須在客戶關(guān)系管理系統(tǒng)中包含數(shù)據(jù)倉(cāng)庫。數(shù)據(jù)倉(cāng)庫的產(chǎn)生早期的數(shù)據(jù)庫主要支持聯(lián)機(jī)事務(wù)處理傳統(tǒng)數(shù)據(jù)庫不能滿足決策支持對(duì)數(shù)據(jù)庫的要求(1)事務(wù)處理和分析處理的性能特性不同(2)數(shù)據(jù)集成問題(3)歷史數(shù)據(jù)問題(1)事務(wù)處理和分析處理的性能特性不同所有聯(lián)機(jī)事務(wù)處理強(qiáng)調(diào)的是數(shù)據(jù)更新處理性能和系統(tǒng)的可靠性。在事務(wù)處理環(huán)境中,用戶的行為特點(diǎn)是數(shù)據(jù)的存取操作頻率高,每次操作處理的時(shí)間短。在分析處理環(huán)境中,用戶的行為模式與此完全不同,強(qiáng)調(diào)的是數(shù)據(jù)處理和分析的能力。在傳統(tǒng)數(shù)據(jù)庫系統(tǒng)基礎(chǔ)上的決策支持(DSS)應(yīng)用程序可能需要連續(xù)幾個(gè)小時(shí),從而消耗大量的系統(tǒng)資源。聯(lián)機(jī)分析和事務(wù)處理對(duì)系統(tǒng)的要求不同,同一個(gè)數(shù)據(jù)庫在理論上難以做到兩全,將具有如此不同處理性能的兩種應(yīng)用放在同一個(gè)環(huán)境中運(yùn)行顯然是不適當(dāng)?shù)?。?)數(shù)據(jù)集成問題DSS需要集成的數(shù)據(jù)。全面而正確的數(shù)據(jù)是有效的分析和決策的首要前提,相關(guān)數(shù)據(jù)收集得越完整,得到的結(jié)果就越可靠。當(dāng)前絕大多數(shù)企業(yè)內(nèi)數(shù)據(jù)的真正狀況是分散而非集成的。造成這種分散的原因有多種,主要有事務(wù)處理應(yīng)用分散、“蜘蛛網(wǎng)”問題、數(shù)據(jù)不一致問題、外部數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。(3)歷史數(shù)據(jù)問題事務(wù)處理一般只需要當(dāng)前數(shù)據(jù),在數(shù)據(jù)庫中一般也是存儲(chǔ)短期數(shù)據(jù),且不同數(shù)據(jù)的保存期限也不一樣,即使有一些歷史數(shù)據(jù)保存下來了,也被束之高閣,未得到充分利用。但對(duì)于決策分析而言,歷史數(shù)據(jù)是相當(dāng)重要的,許多分析方法必須以大量的歷史數(shù)據(jù)為依托。沒有歷史數(shù)據(jù)的詳細(xì)分析,是難以把握企業(yè)的發(fā)展趨勢(shì)的。DSS對(duì)數(shù)據(jù)在空間和時(shí)間上都有了更高的要求,而事務(wù)處理環(huán)境難以滿足這些要求。要提高分析和決策的效率和有效性,分析型處理及其數(shù)據(jù)必須與操作型處理及其數(shù)據(jù)相分離。必須把分析型數(shù)據(jù)從事務(wù)處理環(huán)境中提取出來,按照DSS處理的需要進(jìn)行重新組織,建立單獨(dú)的分析處理環(huán)境,數(shù)據(jù)倉(cāng)庫正是為了構(gòu)建這種新的分析處理環(huán)境而出現(xiàn)的一種數(shù)據(jù)存儲(chǔ)和組織技術(shù)。數(shù)據(jù)倉(cāng)庫的數(shù)據(jù)從聯(lián)機(jī)的事務(wù)處理系統(tǒng)、異構(gòu)的外部數(shù)據(jù)源、脫機(jī)的歷史業(yè)務(wù)數(shù)據(jù)中得到。它是一個(gè)聯(lián)機(jī)的系統(tǒng),專門為分析統(tǒng)計(jì)和決策支持應(yīng)用服務(wù),通過它可滿足決策支持和聯(lián)機(jī)分析應(yīng)用所要求的一切。數(shù)據(jù)倉(cāng)庫的概念和特征著名的數(shù)據(jù)倉(cāng)庫專家在其著作《BuildingtheDataWarehouse》一書中給予如下描述:數(shù)據(jù)倉(cāng)庫(DataWarehouse)是一個(gè)面向主題的(SubjectOriented)、集成的(Integrate)、相對(duì)穩(wěn)定的(Non-Volatile)、反映歷史變化(TimeVariant)的數(shù)據(jù)集合,用于支持管理決策。數(shù)據(jù)倉(cāng)庫概念的兩個(gè)層次功能上:數(shù)據(jù)倉(cāng)庫用于支持決策,面向分析型數(shù)據(jù)處理,它不同于企業(yè)現(xiàn)有的操作型數(shù)據(jù)庫;內(nèi)容和特征上:數(shù)據(jù)倉(cāng)庫是對(duì)多個(gè)異構(gòu)的數(shù)據(jù)源有效集成,集成后按照主題進(jìn)行了重組,并包含歷史數(shù)據(jù),而且存放在數(shù)據(jù)倉(cāng)庫中的數(shù)據(jù)一般不再修改。數(shù)據(jù)倉(cāng)庫特點(diǎn)點(diǎn)-面向主題數(shù)據(jù)倉(cāng)庫是面面向主題而進(jìn)進(jìn)行數(shù)據(jù)組織織的。主題是是一個(gè)在較高高層次上對(duì)數(shù)數(shù)據(jù)的抽象,在邏輯意義上上,它是對(duì)企業(yè)中中某一宏觀領(lǐng)領(lǐng)域所涉及的的分析對(duì)象,,即將數(shù)據(jù)組織成成主題域。數(shù)據(jù)倉(cāng)庫特點(diǎn)點(diǎn)-集成數(shù)據(jù)倉(cāng)庫中的的數(shù)據(jù)是集成成的。數(shù)據(jù)倉(cāng)倉(cāng)庫中的數(shù)據(jù)據(jù)是在對(duì)原有有分散的數(shù)據(jù)據(jù)庫數(shù)據(jù)抽取取、清理的基基礎(chǔ)上經(jīng)過系系統(tǒng)加工、匯匯總和整理得得到的,必須須消除源數(shù)據(jù)中中的不一致性性,以保證數(shù)據(jù)據(jù)倉(cāng)庫內(nèi)的信信息是關(guān)于整整個(gè)企業(yè)的一一致的全局信信息。在數(shù)據(jù)據(jù)倉(cāng)庫建設(shè)中中,這是最關(guān)關(guān)鍵最復(fù)雜的的一個(gè)步驟,,主要工作有有:一是,進(jìn)進(jìn)行數(shù)據(jù)的綜綜合和計(jì)算;;二是,統(tǒng)一一源數(shù)據(jù)中所所有不一致和和矛盾的地方方(如同名異義、、異名同義、、字長(zhǎng)不一致致、單位不一一致等)。數(shù)據(jù)倉(cāng)庫四個(gè)個(gè)特點(diǎn)-相對(duì)穩(wěn)定操作型數(shù)據(jù)庫庫中的數(shù)據(jù)通通常實(shí)時(shí)更新新,數(shù)據(jù)根據(jù)據(jù)需要及時(shí)發(fā)發(fā)生變化。數(shù)數(shù)據(jù)倉(cāng)庫的數(shù)數(shù)據(jù)主要供企企業(yè)決策分析析之用,所涉涉及的數(shù)據(jù)操操作主要是數(shù)數(shù)據(jù)查詢,一一旦某個(gè)數(shù)據(jù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)倉(cāng)庫以后,一一般情況下將將被長(zhǎng)期保留留,也就是數(shù)數(shù)據(jù)倉(cāng)庫中一一般有大量的查詢?cè)儾僮鳎薷暮蛣h除操操作很少,通常只需要要定期的加載、、刷新。數(shù)據(jù)倉(cāng)庫四個(gè)個(gè)特點(diǎn)-相對(duì)穩(wěn)定的數(shù)據(jù)倉(cāng)庫四個(gè)個(gè)特點(diǎn)-反映歷史變化化數(shù)據(jù)倉(cāng)庫中的的數(shù)據(jù)通常包包含歷史信息息,系統(tǒng)記錄錄了企業(yè)從過過去某一時(shí)點(diǎn)點(diǎn)(如開始應(yīng)用數(shù)數(shù)據(jù)倉(cāng)庫的時(shí)時(shí)點(diǎn))到目前的各個(gè)個(gè)階段的信息息,通過這些些信息,可以以對(duì)企業(yè)的發(fā)發(fā)展歷程和未未來趨勢(shì)做出出定量分析和和預(yù)測(cè)。數(shù)據(jù)據(jù)倉(cāng)庫中的數(shù)數(shù)據(jù)時(shí)間期限限要遠(yuǎn)遠(yuǎn)長(zhǎng)于于操作型系統(tǒng)統(tǒng)中的數(shù)據(jù)時(shí)時(shí)間期限。操操作型系統(tǒng)的的時(shí)間期限一一般是60~90天,而數(shù)據(jù)倉(cāng)庫庫中數(shù)據(jù)的時(shí)時(shí)間期限通常常是5~10年。數(shù)據(jù)倉(cāng)庫四個(gè)個(gè)特點(diǎn)-反映歷史變化化數(shù)據(jù)倉(cāng)庫本質(zhì)質(zhì)如果說傳統(tǒng)數(shù)數(shù)據(jù)庫系統(tǒng)的的要求是快速速、準(zhǔn)確、安安全、可靠地地將數(shù)據(jù)存進(jìn)進(jìn)數(shù)據(jù)庫中的的話,那么數(shù)數(shù)據(jù)倉(cāng)庫的要要求就是能夠夠準(zhǔn)確、安全全、可靠地從從數(shù)據(jù)庫中取取出數(shù)據(jù),經(jīng)經(jīng)過加工轉(zhuǎn)換換成有規(guī)律信信息之后,再再供管理人員員進(jìn)行分析使使用。數(shù)據(jù)倉(cāng)庫所要要研究和解決決的問題就是是從數(shù)據(jù)庫中中獲取信息。。數(shù)據(jù)倉(cāng)庫系統(tǒng)統(tǒng)體系結(jié)構(gòu)數(shù)據(jù)源數(shù)據(jù)源是數(shù)據(jù)據(jù)倉(cāng)庫系統(tǒng)的的基礎(chǔ),是整整個(gè)系統(tǒng)的數(shù)數(shù)據(jù)源泉。通通常包括企業(yè)業(yè)內(nèi)部信息和和外部信息。。內(nèi)部信息包包括各種業(yè)務(wù)務(wù)處理數(shù)據(jù)和和各類文檔數(shù)數(shù)據(jù)。外部信信息包括各類類法律法規(guī)、、市場(chǎng)信息和和競(jìng)爭(zhēng)對(duì)手的的信息等等。。數(shù)據(jù)的存儲(chǔ)與與管理數(shù)據(jù)的存儲(chǔ)與與管理是整個(gè)個(gè)數(shù)據(jù)倉(cāng)庫系系統(tǒng)的核心。。針對(duì)現(xiàn)有各各業(yè)務(wù)系統(tǒng)的的數(shù)據(jù),進(jìn)行行抽取、清理理,并有效集集成,按照主主題進(jìn)行組織織。數(shù)據(jù)倉(cāng)庫庫按照數(shù)據(jù)的的覆蓋范圍可可以分為企業(yè)業(yè)級(jí)數(shù)據(jù)倉(cāng)庫庫和部門級(jí)數(shù)數(shù)據(jù)倉(cāng)庫(通通常稱為數(shù)據(jù)據(jù)集市)。OLAP服務(wù)器OLAP服務(wù)器對(duì)分析析需要的數(shù)據(jù)據(jù)進(jìn)行有效集集成,按多維維模型予以組組織,以便進(jìn)進(jìn)行多角度、、多層次的分分析,并發(fā)現(xiàn)現(xiàn)趨勢(shì)。前端工具前端工具主要要包括各種報(bào)報(bào)表工具、查查詢工具、數(shù)數(shù)據(jù)分析工具具、數(shù)據(jù)挖掘掘工具以及各各種基于數(shù)據(jù)據(jù)倉(cāng)庫或數(shù)據(jù)據(jù)集市的應(yīng)用用開發(fā)工具。。聯(lián)機(jī)分析處理理(OLAP)聯(lián)機(jī)分析處理理(OLAP)的概念最早早是由關(guān)系數(shù)數(shù)據(jù)庫之父于1993年提出的。當(dāng)當(dāng)時(shí),Codd認(rèn)為聯(lián)機(jī)事務(wù)務(wù)處理(OLTP)已不能滿足足終端用戶對(duì)對(duì)數(shù)據(jù)庫查詢?cè)兎治龅男枰?,SQL對(duì)大量數(shù)據(jù)庫庫進(jìn)行的簡(jiǎn)單單查詢也不能能滿足用戶分分析的需求。。用戶的決策策分析需要對(duì)對(duì)關(guān)系數(shù)據(jù)庫庫進(jìn)行大量計(jì)計(jì)算才能得到到結(jié)果,而查查詢的結(jié)果并并不能滿足決決策者提出的的需求。因此此Codd提出了多維數(shù)數(shù)據(jù)分析的概概念即OLAP。聯(lián)機(jī)分析處理理(OLAP)OLAP是一種軟件技技術(shù),它使分分析人員能夠夠迅速、一致致、交互地從從各個(gè)方面觀觀察信息,以以達(dá)到深入理理解數(shù)據(jù)的目目的,這些信信息是從原始始數(shù)據(jù)直接轉(zhuǎn)轉(zhuǎn)換過來的,,它們以用戶戶容易理解的的方式反映企企業(yè)的真實(shí)情情況。OLAP大部分策略都都是將關(guān)系型的或或普通的數(shù)據(jù)據(jù)進(jìn)行多維數(shù)數(shù)據(jù)存貯,以便于進(jìn)行行分析,從而而達(dá)到聯(lián)機(jī)分分析處理的目目的。這種多多維DB也被看作一個(gè)個(gè)超立方體,,沿著各個(gè)維維方向存貯數(shù)數(shù)據(jù)。OLAP的多維數(shù)據(jù)概概念維是人們觀察察問題的特定定角度,例如如:時(shí)間維、、地理維、產(chǎn)產(chǎn)品維。假定某某是個(gè)個(gè)百貨零售商商,有一些因因素會(huì)影響他他的銷售業(yè)務(wù)務(wù),如商品、、時(shí)間、商店店。這里,商商品、時(shí)間和和商店都是維維。各個(gè)商店店的集合是一一維,時(shí)間的的集合是一維維,商品的集集合是一維。。維就是相同同類數(shù)據(jù)的集集合,也可以以理解為變量量。而每個(gè)商商店、每段時(shí)時(shí)間、每種商商品都是某一一維的一個(gè)成成員。每個(gè)銷銷售事實(shí)由一一個(gè)特定的商商店、特定的的時(shí)間和特定定的商品組成成。OLAP的多維數(shù)據(jù)概概念數(shù)據(jù)單元。多多維數(shù)據(jù)集的的取值稱為數(shù)數(shù)據(jù)單元。當(dāng)在多維數(shù)據(jù)據(jù)集的每個(gè)維維都選中一個(gè)個(gè)維成員以后后,這些維成成員的組合就就惟一確定了了觀察變量的的值。OLAP多維數(shù)據(jù)分析析1.切片和切塊(SliceandDice)在多維數(shù)據(jù)結(jié)結(jié)構(gòu)中,按二維進(jìn)行切切片,按三維進(jìn)行切切塊,可得到所需要要的數(shù)據(jù)。如如在“城市、、產(chǎn)品、時(shí)間間”三維立方方體中進(jìn)行切切塊和切片,可得到各城市市、各產(chǎn)品的的銷售情況。。2.鉆取取(Drill)鉆取取包包含含向向下下鉆鉆取取(Drill-down)和向向上上鉆鉆取取(Drill-up)/上卷卷(Roll-up)操作作,,鉆鉆取取的的深深度度與與維維所所劃劃分分的的層層次次相相對(duì)對(duì)應(yīng)應(yīng)。。3.旋轉(zhuǎn)轉(zhuǎn)(Rotate)/轉(zhuǎn)軸軸(Pivot)通過過旋旋轉(zhuǎn)轉(zhuǎn)可可以以得得到到不不同同視視角角的的數(shù)數(shù)據(jù)據(jù)。。案例例說說明明現(xiàn)有有某某企企業(yè)業(yè)1995和和1996兩兩年年,,在在廣廣州州和和上上海海兩兩個(gè)個(gè)城城市市的的各各類類電電器器產(chǎn)產(chǎn)品品的的銷銷售售數(shù)數(shù)據(jù)據(jù)。。該組組數(shù)數(shù)據(jù)據(jù)就就是是典典型型的的多多維維數(shù)數(shù)據(jù)據(jù),,其其維維度度分分別別為為時(shí)時(shí)間間、、城城市市、、產(chǎn)產(chǎn)品品。。OLAP的分分析析方方法法(一一)切切片片、、切切塊塊OLAP的分分析析方方法法(二二)鉆鉆取取按時(shí)時(shí)間間維維向向下下鉆鉆取取按時(shí)時(shí)間間維維向向上上鉆鉆取取60OLAP的分分析析方方法法(三三)旋旋轉(zhuǎn)轉(zhuǎn)如果果需需要要比比較較同同一一個(gè)個(gè)季季度度中中不不同同年年份份的的部部門門銷銷售售數(shù)數(shù)據(jù)據(jù),,那那么么應(yīng)應(yīng)該該如如何何調(diào)調(diào)整整上上表表的的數(shù)數(shù)據(jù)據(jù)組組織織方方式式??OLAP的的分分析析方方法法(三三)旋旋轉(zhuǎn)轉(zhuǎn)練習(xí)習(xí)一一已有有2000至至2009年年間間全全國(guó)國(guó)省省會(huì)會(huì)城城市市的的中中心心城城區(qū)區(qū)和和郊郊區(qū)區(qū)的的平平均均房房?jī)r(jià)價(jià)數(shù)數(shù)據(jù)據(jù),,請(qǐng)請(qǐng)問問該該數(shù)數(shù)據(jù)據(jù)應(yīng)應(yīng)如如何何用用三三維維數(shù)數(shù)據(jù)據(jù)立立方方來來表表示示??如果果想想抽抽取取廣廣州州地地區(qū)區(qū)2000至至2009年年中中心心城城區(qū)區(qū)和和郊郊區(qū)區(qū)的的平平均均房房?jī)r(jià)價(jià)數(shù)數(shù)據(jù)據(jù)應(yīng)應(yīng)如如何何對(duì)對(duì)數(shù)數(shù)據(jù)據(jù)立立方方進(jìn)進(jìn)行行切切片片??如果果想想抽抽取取2005年年全全國(guó)國(guó)省省會(huì)會(huì)城城市市的的中中心心城城區(qū)區(qū)和和郊郊區(qū)區(qū)的的平平均均房房?jī)r(jià)價(jià)數(shù)數(shù)據(jù)據(jù)應(yīng)應(yīng)如如何何對(duì)對(duì)數(shù)數(shù)據(jù)據(jù)立立方方進(jìn)進(jìn)行行切切片片??年份份城市市地段段000905廣州州南京京………中心心城城區(qū)區(qū)郊區(qū)區(qū)………………廣州州05練習(xí)習(xí)二二已知知南南京京廣廣州州武武漢漢三三個(gè)個(gè)省省會(huì)會(huì)城城市市的的2008年年平平均均房房?jī)r(jià)價(jià)和和季季度度平平均均房房?jī)r(jià)價(jià),,請(qǐng)請(qǐng)畫畫出出數(shù)數(shù)據(jù)據(jù)鉆鉆取取的的表表格格。。2008年平均房?jī)r(jià)南京廣州武漢2008年平均房?jī)r(jià)第一季度第二季度第三季度第四季度南京廣州武漢練習(xí)習(xí)三三已知知南南京京廣廣州州武武漢漢三三個(gè)個(gè)省省會(huì)會(huì)城城市市2008年和和2009年每每個(gè)個(gè)季季度度的的平平均均房房?jī)r(jià)價(jià)。。如果果要要比比較較同同一一年年不不同同季季度度的的房房?jī)r(jià)價(jià),,那那么么應(yīng)應(yīng)該該如如何何列列出出數(shù)數(shù)據(jù)據(jù)??如果果要要比比較較不不同同年年同同一一季季度度的的房房?jī)r(jià)價(jià),,那那么么應(yīng)應(yīng)該該如如何何列列出出數(shù)數(shù)據(jù)據(jù)??2008年2009年第一季度第二季度第三季度第四季度第一季度第二季度第三季度第四季度廣州南京武漢第一季度第二季度第三季度第四季度20082009200820092008200920082009廣州南京武漢課堂堂練練習(xí)習(xí)已有有2005至

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論