




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、數(shù)據(jù)倉庫實例2022/7/27數(shù)據(jù)倉庫實例1數(shù)據(jù)倉庫設計大致有如下幾個步驟:2.6 數(shù)據(jù)倉庫的設計明確主題概念設計技術準備邏輯設計物理設計數(shù)據(jù)倉庫生成數(shù)據(jù)倉庫的運行與維護數(shù)據(jù)倉庫實例1針對每一個選定的當前實施的主題概念模型設計邏輯模型設計物理模型設計數(shù)據(jù)倉庫生成數(shù)據(jù)倉庫運行與維護2.6 數(shù)據(jù)倉庫的設計數(shù)據(jù)倉庫實例12.6 數(shù)據(jù)倉庫的設計確定系統(tǒng)邊界要做的決策類型有哪些?決策者感興趣的是什么問題?這些問題需要什么樣的信息?要得到這些信息需要包含哪些數(shù)據(jù)源?概念模型設計確定系統(tǒng)邊界確定主要的主題及其內(nèi)容OLAP設計數(shù)據(jù)倉庫實例12.6 數(shù)據(jù)倉庫的設計確定主要的主題即明確數(shù)據(jù)倉庫的分析對象,然后對每
2、個主題的內(nèi)容進行較詳細的描述,包括:確定主題及其屬性信息描述每個屬性的取值情況固定不變的半固定的經(jīng)常變化的確定主題的公共碼鍵主題間的關系:主題間聯(lián)系及其屬性在確定上述內(nèi)容后,就可以用傳統(tǒng)的實體聯(lián)系模型(E-R模型)來表示數(shù)據(jù)倉庫的概念數(shù)據(jù)模型。例如:數(shù)據(jù)倉庫實例12.6 數(shù)據(jù)倉庫的設計主題名公共碼鍵屬性信息商品商品號固有信息:商品號,商品名,類別,顏色等采購信息:商品號,供應商號,供應價,供應日期,供應量等銷售信息:商品號,顧客號,售價,銷售日期,銷售量等庫存信息:商品號,庫房號,庫存量,日期等供應商供應商號固有信息:供應商號,供應商名,地址,電話,供應商類型等供應商品信息:供應商號,商品號,
3、供應價,供應日期,供應量等顧客顧客號固有信息:顧客號,姓名,性別,年齡,文化程度,住址,電話等購物信息:顧客號,商品號,售價,購買日期,購買量等數(shù)據(jù)倉庫實例12.6 數(shù)據(jù)倉庫的設計供應商固有信息供應商供應商品信息日期供應商號顧客固有信息顧客號顧客日期顧客購物信息商品采購信息商品銷售信息商品商品號日期商品固有信息商品庫存信息商品、顧客和供應商之間的E-R圖數(shù)據(jù)倉庫實例12.6 數(shù)據(jù)倉庫的設計邏輯模型設計將ER圖轉換成關系數(shù)據(jù)庫的二維表定義數(shù)據(jù)源和數(shù)據(jù)抽取規(guī)則在邏輯模型的設計過程中,需要考慮以下一些問題:適當?shù)牧6葎澐趾侠淼臄?shù)據(jù)分割策略定義合適的數(shù)據(jù)來源等數(shù)據(jù)倉庫實例12.6 數(shù)據(jù)倉庫的設計邏輯模
4、型設計 粒度劃分在設計過程中需要考慮數(shù)據(jù)倉庫中數(shù)據(jù)粒度的劃分原則,即數(shù)據(jù)單元的詳細程度和級別。數(shù)據(jù)越詳細,粒度越小,級別就越低數(shù)據(jù)綜合度越高,粒度越大,級別就越高。一般將數(shù)據(jù)劃分為:詳細數(shù)據(jù)、輕度總結、高度總結三種粒度,或者采用更多級的粒度劃分方法。例如:根據(jù)時間跨度進行的統(tǒng)計有:天,周,月,季度,年對于不適合進行統(tǒng)計的屬性值,可以采樣獲取數(shù)據(jù)粒度的劃分將直接影響到數(shù)據(jù)倉庫中的數(shù)據(jù)量以及所適合的查詢類型,粒度劃分是否適當是影響數(shù)據(jù)倉庫性能的一個重要方面。數(shù)據(jù)倉庫實例12.6 數(shù)據(jù)倉庫的設計商品固有信息:商品表(商品號,商品名,類型,顏色,)/* 細節(jié)數(shù)據(jù) */商品采購信息:采購表1(商品號,供
5、應商號,供應日期,供應價,)/* 細節(jié)數(shù)據(jù) */采購表2(商品號,時間段1,采購總量,)/* 綜合數(shù)據(jù) */采購表n(商品號,時間段n,采購總量,)商品銷售信息:銷售表1(商品號,顧客號,銷售日期,售價,銷售量,)/* 細節(jié)數(shù)據(jù) */銷售表2(商品號,時間段1,銷售總量,)/* 綜合數(shù)據(jù) */銷售表n(商品號,時間段n,銷售總量,)商品庫存信息:庫存表1(商品號,庫房號,庫存量,日期,)/* 細節(jié)數(shù)據(jù) */庫存表2(商品號,庫房號,庫存量,星期,)/* 樣本數(shù)據(jù) */庫存表n(商品號,庫房號,庫存量,年份,)其它導出數(shù)據(jù):數(shù)據(jù)倉庫實例12.6 數(shù)據(jù)倉庫的設計邏輯模型設計 數(shù)據(jù)分割數(shù)據(jù)的分割是指
6、把邏輯上是統(tǒng)一整體的數(shù)據(jù)分割成較小的、可以獨立管理的數(shù)據(jù)單元進行存儲(關系),以便于重構、重組和恢復,以提高創(chuàng)建索引和順序掃描的效率。選擇數(shù)據(jù)分割的因素有:數(shù)據(jù)量的大小數(shù)據(jù)分析處理的對象(主題)簡單易行的數(shù)據(jù)分割標準數(shù)據(jù)粒度的劃分策略通常采用時間屬性作為數(shù)據(jù)分割的依據(jù)數(shù)據(jù)分割技術類似于數(shù)據(jù)庫中的數(shù)據(jù)分片技術,其目的是為了提高數(shù)據(jù)倉庫的性能。數(shù)據(jù)倉庫實例12.6 數(shù)據(jù)倉庫的設計邏輯模型設計 定義數(shù)據(jù)來源及其抽取規(guī)則定義數(shù)據(jù)倉庫中數(shù)據(jù)的來源,以及數(shù)據(jù)的抽取規(guī)則,例如:主題名屬性名數(shù)據(jù)源系統(tǒng)源表名源屬性名商品商品號庫存子系統(tǒng)商品商品號商品商品名庫存子系統(tǒng)商品商品名商品類別采購子系統(tǒng)商品類別數(shù)據(jù)倉庫實
7、例12.6 數(shù)據(jù)倉庫的設計物理模型設計在邏輯模型設計基礎上確定數(shù)據(jù)的存儲結構、確定索引策略、確定存儲分配及數(shù)據(jù)存放位置等與物理有關的內(nèi)容,物理模型設計的具體方法與數(shù)據(jù)庫設計中的大致相似。其目的是為了提高數(shù)據(jù)倉庫系統(tǒng)的訪問性能。常用的一些技術有:合并表建立數(shù)據(jù)序列引入冗余表的物理分割生成導出數(shù)據(jù)建立廣義索引數(shù)據(jù)倉庫實例12.6 數(shù)據(jù)倉庫的設計在常見的一些分析處理操作中,可能需要執(zhí)行多表連接操作。為了節(jié)省I/O開銷,可以把這些表中的記錄混合存放在一起,以減低表的連接操作的代價。這樣的技術我們稱為 合并表。合并表技術與傳統(tǒng)關系數(shù)據(jù)庫中的集簇(Clustering)技術類似。物理模型設計 合并表數(shù)據(jù)倉
8、庫實例12.6 數(shù)據(jù)倉庫的設計按照數(shù)據(jù)的處理順序調(diào)整數(shù)據(jù)的物理存放位置,以減少減少系統(tǒng)的磁盤I/O的開銷。物理模型設計 建立數(shù)據(jù)序列17584623 page1 page2 page3 page4數(shù)據(jù)倉庫實例12.6 數(shù)據(jù)倉庫的設計物理模型設計 建立數(shù)據(jù)序列12345678 page1 page2 page3 page4調(diào)整后的存儲組織數(shù)據(jù)倉庫實例12.6 數(shù)據(jù)倉庫的設計在面向某個主題的分析過程中,通常需要訪問不同表中的多個屬性,而每個屬性又可能參與多個不同主題的分析過程。因此可以通過修改關系模式把某些屬性復制到多個不同的主題表中去,從而減少一次分析過程需要訪問的表的數(shù)量。采用該種數(shù)據(jù)組織方法
9、回帶來大量的數(shù)據(jù)冗余存儲,數(shù)據(jù)倉庫系統(tǒng)必須保證這些冗余數(shù)據(jù)的一致性。由于數(shù)據(jù)倉庫中的數(shù)據(jù)是穩(wěn)定的,很少執(zhí)行更新操作,不會因此帶來過高的數(shù)據(jù)更新的代價,卻可以有效地提高數(shù)據(jù)倉庫系統(tǒng)的性能。物理模型設計 引入冗余數(shù)據(jù)倉庫實例12.6 數(shù)據(jù)倉庫的設計類似于在邏輯設計階段的數(shù)據(jù)分割??梢愿鶕?jù)表中每個屬性數(shù)據(jù)的訪問頻率和穩(wěn)定性程度對表的存儲結構進行分割。對于訪問頻率較高的屬性,可以單獨考慮其物理存儲組織,以便選擇合適的索引策略和特定的物理組織方式。對于需要頻繁更新的屬性,也可以單獨組織其物理存儲,以免因數(shù)據(jù)更新而帶來的空間重組、重構等工作。物理模型設計 表的物理分割數(shù)據(jù)倉庫實例12.6 數(shù)據(jù)倉庫的設計在
10、原始的細節(jié)數(shù)據(jù)的基礎上進行一些統(tǒng)計和計算,生成導出數(shù)據(jù),并保存在數(shù)據(jù)倉庫中。采用該方法既可以避免在分析過程中執(zhí)行過多的統(tǒng)計或計算操作,減少輸入/出的次數(shù),又避免了不同用戶進行的重復統(tǒng)計操作可能產(chǎn)生的偏差。物理模型設計 生成導出數(shù)據(jù)數(shù)據(jù)倉庫實例12.6 數(shù)據(jù)倉庫的設計用于記錄數(shù)據(jù)倉庫中數(shù)據(jù)于最有關的統(tǒng)計結果的索引被稱為廣義索引。如:當月銷售額最高的商店?當月銷售情況最差的商品?這樣的廣義索引的數(shù)據(jù)量是非常小的,可以在每次進行數(shù)據(jù)倉庫數(shù)據(jù)加載工作時生成或刷新這樣的廣義索引。用戶可以從已經(jīng)建立的廣義索引里直接獲取這些統(tǒng)計信息,而不必對整個數(shù)據(jù)倉庫進行掃描。物理模型設計 建立廣義索引數(shù)據(jù)倉庫實例12.
11、6 數(shù)據(jù)倉庫的設計數(shù)據(jù)倉庫生成建立數(shù)據(jù)模式根據(jù)邏輯設計與物理設計的設計結果建立數(shù)據(jù)倉庫的數(shù)據(jù)模式。編制數(shù)據(jù)抽取程序根據(jù)數(shù)據(jù)倉庫元數(shù)據(jù)中的定義信息,編制抽取程序,將數(shù)據(jù)源中的數(shù)據(jù)作加工以形成數(shù)據(jù)倉庫中的數(shù)據(jù)。數(shù)據(jù)加載將數(shù)據(jù)源中的數(shù)據(jù),通過數(shù)據(jù)抽取程序加載到數(shù)據(jù)倉庫的模式中去。數(shù)據(jù)倉庫實例12.6 數(shù)據(jù)倉庫的設計在數(shù)據(jù)倉庫建立后,就可以建立分析、決策型的應用系統(tǒng)。在應用系統(tǒng)的使用過程中不斷加深理解,改進主題,依照原型法的思想使系統(tǒng)更趨完善。在系統(tǒng)的運行過程中,隨著數(shù)據(jù)源中數(shù)據(jù)的不斷變化,需要通過數(shù)據(jù)刷新操作來維護數(shù)據(jù)倉庫中數(shù)據(jù)的一致性。數(shù)據(jù)倉庫的使用與維護數(shù)據(jù)倉庫實例12.7 聯(lián)機分析處理(OLA
12、P)聯(lián)機事務處理:OLTPOnLine Transaction Processing聯(lián)機分析處理:OLAPOnLine Analytical Processing數(shù)據(jù)倉庫實例12.7 聯(lián)機分析處理(OLAP)OLAP中的幾個基本概念:對象(Object)在分析型處理中我們所關心和分析的對象。例如:商品的銷售金額維(Dimension)觀察分析對象的角度。例如:可以從三個維角度觀察銷售金額這個對象:時間維:可按時間角度分析、統(tǒng)計其銷售金額。商品維:可按不同商品分類角度分析、統(tǒng)計。地域維:可按連鎖點不同地域角度分析、統(tǒng)計其銷售金額。數(shù)據(jù)倉庫實例12.7 聯(lián)機分析處理(OLAP)OLAP中的幾個基本
13、概念:層(Layer)在分析型應用中,對對象可以從不同深度分析與觀察并可得到不同結果,因此,“層”反映了對對象觀察的深度。一般而言,層是與維相關聯(lián)的,一個維中可允許存在若干個層,并且可以又不同的層次劃分方法。例如:時間維:可以有日、周、月、季、年地域維:可以有市、省、國、洲商品維:商品的分類數(shù)據(jù)倉庫實例12.7 聯(lián)機分析處理(OLAP)OLAP中的幾個基本概念:維成員維的一個取值稱為該維的一個維成員。如果一個維是多層次的,則該維的維成員是在不同維層次的取值的組合。 例如:對時間維來說,某年某月某日、某年某月、某月某日、某年都是其維成員。對一個數(shù)據(jù)項來說,維成員是該數(shù)據(jù)項在某維中位置的描述。 數(shù)
14、據(jù)倉庫實例12.7 聯(lián)機分析處理(OLAP)OLAP中的幾個基本概念:多維數(shù)組一個多維數(shù)組可以表示為(維1,維2,維n,變量),這樣可以構成三維、四維及多維的數(shù)據(jù)表示結構。其中,變量表示我們所觀察的數(shù)據(jù)對象,維1、維2、維n分別表示我們觀察該數(shù)據(jù)對象的角度。如(時間,商品種類,商店,銷售額),從而構成一個有關商品銷售額的三維數(shù)組。(2000年, 家電, 南京市,1億)(2000年7月,女性服裝,江蘇省,10億)數(shù)據(jù)倉庫實例12.7 聯(lián)機分析處理(OLAP)OLAP中的幾個基本概念:數(shù)據(jù)單元(單元格)多維數(shù)組的取值稱為數(shù)據(jù)單元。當多維數(shù)組的各個維都選中一個維成員,這些維成員的組合就唯一確定了一個
15、觀察對象的值,即(維成員1,維成員2,維成員n,對象值)。數(shù)據(jù)倉庫實例12.7 聯(lián)機分析處理(OLAP)假設:在一個分析型應用中有若干個分析對象 (設為r個), 以它們?yōu)榫劢裹c作不同角度(設為m個)與深度(設為n個)的分析,那么可以得到多種不同的統(tǒng)計分析結果(共為(r*m*n)個)。為了方便快速地查到這些統(tǒng)計分析結果,OLAP需要解決以下三個問題:OLAP的基本數(shù)據(jù)模型OLAP數(shù)據(jù)構造方式數(shù)據(jù)立方體(Data Cube)與數(shù)據(jù)超立方體(Data Super Cube)數(shù)據(jù)倉庫實例12.7 聯(lián)機分析處理(OLAP)OLAP的基本數(shù)據(jù)模型 星型模式(Star Schema)星形模式是一種多維表結構
16、,它一般有兩種不同性質(zhì)的二維表組成:事實表(fact table):它存放多維表中的主要事實稱為量(Measure)維表(Dimension Table):用以建立多維表中之維成員值一般一個n維的多維表往往有n個維表和一個事實表,它們構成了一個星形結構,稱為星形模式。在星形模式中主體是事實表,而有關維的細節(jié)則構作于維表內(nèi)以達到簡化事實表的目的,事實表與維表間有公共屬性相連以使它們構成一個整體。 數(shù)據(jù)倉庫實例12.7 聯(lián)機分析處理(OLAP)產(chǎn)品標識符商店標識符日期標識符銷售金額產(chǎn)品標識符類別大類別日期標識符日月季年商店標識符市名省名國名洲名銷售表產(chǎn)品表商店表日期表星型模式示意圖數(shù)據(jù)倉庫實例12
17、.7 聯(lián)機分析處理(OLAP)上述的星型模式可以轉化成下面的四個關系:事實表:銷售表(產(chǎn)品標識符,商店標識符,日期標識符,銷售額)維表1:產(chǎn)品表(產(chǎn)品標識符,類別,大類別)維表2:商店表(商店標識符,市名,省名,國名,洲名)維表3:時間表(時間標識符,日期,月份,季度,年份)數(shù)據(jù)倉庫實例12.7 聯(lián)機分析處理(OLAP)OLAP的基本數(shù)據(jù)模型 雪花模式(Snowflake Schema)如果每個維表也是一個類似星型的模式結構,則稱其為雪花模式。例如:上述的產(chǎn)品表也可以是一個星型結構。產(chǎn)品(類別,供應商,顧客) 在上述的星型模式中,我們只考慮產(chǎn)品的分類,在這里我們還可以從產(chǎn)品的供應商或購買顧客角
18、度來來考慮對產(chǎn)品進行分析。也可以以其中的供應商為中心再構成一個星型模式。數(shù)據(jù)倉庫實例12.7 聯(lián)機分析處理(OLAP)OLAP數(shù)據(jù)構造方式ROLAP: (Relational OLAP)用傳統(tǒng)的關系數(shù)據(jù)庫管理系統(tǒng)(RDBMS)管理,將星型(雪花型)模式用二維表形式存儲,表間用關鍵字相連,從而構成一個關系模式,它稱為ROLAP。用戶在ROLAP上的查詢操作將被改寫成RDBMS中的查詢操作并執(zhí)行獲得查詢結果。MOLAP:(Multi- Demensional OLAP)用多維數(shù)據(jù)庫管理系統(tǒng)管理,多維數(shù)據(jù)庫的基本數(shù)據(jù)模式是一個多維數(shù)組。在MOLAP中,事實表被表示成一個多維數(shù)組,維的屬性值被映射成多
19、維數(shù)組下標,而總結數(shù)據(jù)則作為多維數(shù)據(jù)值存儲在數(shù)據(jù)單元中。在查詢時,可以通過下標值取出相應數(shù)組中的總結數(shù)據(jù)。 數(shù)據(jù)倉庫實例12.7 聯(lián)機分析處理(OLAP)OLAP數(shù)據(jù)構造方式OLAP服務器必須提高對OLAP數(shù)據(jù)的訪問效率,包括:數(shù)據(jù)抽取、轉換及加載的效率OLAP數(shù)據(jù)查詢效率OLAP數(shù)據(jù)更新效率數(shù)據(jù)倉庫實例12.7 聯(lián)機分析處理(OLAP)目前可有多種方法以提高OLAP中的處理效率,它們是:盡量采用并行操作方式以提高處理速度。采用物化視圖方式。將視圖這種虛表形式轉換成實際存在的二維表,以達到快速取得總結性數(shù)據(jù)的目的。采用特殊的索引與集簇方式,以加速星型模式內(nèi)表的連接速度。采用OLAP中的查詢優(yōu)化
20、技術,如共享排序技術等。 采用增量技術,在OLAP數(shù)據(jù)更新時保留不變的數(shù)據(jù),僅更改變動的數(shù)據(jù)以加快數(shù)據(jù)更新速度。數(shù)據(jù)倉庫實例12.7 聯(lián)機分析處理(OLAP)數(shù)據(jù)立方體(Data Cube)數(shù)據(jù)倉庫的數(shù)據(jù)模式通常可以看成是定義在多個數(shù)據(jù)源上的數(shù)據(jù)視圖。分析數(shù)據(jù)的基本內(nèi)容是一些統(tǒng)計數(shù)據(jù),獲取這些統(tǒng)計數(shù)據(jù)的常用方法是在視圖中用統(tǒng)計函數(shù)進行計算,但這種方法的缺點是顯見的:時間開銷太大。為了提高對統(tǒng)計信息的查詢速度,我們可以預先計算好數(shù)據(jù)視圖中的統(tǒng)計信息并保存在數(shù)據(jù)倉庫中,這稱為物化視圖,即將虛的視圖轉變成實際的視圖。存放物化視圖的三維數(shù)據(jù)模型叫數(shù)據(jù)立方體。 數(shù)據(jù)倉庫實例12.7 聯(lián)機分析處理(OLAP)以上面的星
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 科技助力腸易激綜合征的現(xiàn)代診療手段
- 2025年河南推拿職業(yè)學院單招職業(yè)技能測試題庫完整版
- 2025年黑龍江農(nóng)墾職業(yè)學院單招職業(yè)傾向性測試題庫附答案
- 2025年呼和浩特職業(yè)學院單招職業(yè)技能測試題庫帶答案
- 2025年黑龍江農(nóng)業(yè)工程職業(yè)學院單招職業(yè)適應性測試題庫完整版
- 2025年河北政法職業(yè)學院單招職業(yè)傾向性測試題庫及答案一套
- 科技行業(yè)甲基四氫苯酐的財務分析與發(fā)展趨勢
- 2025年廣西工商職業(yè)技術學院單招職業(yè)適應性測試題庫含答案
- 2025年海南職業(yè)技術學院單招職業(yè)適應性測試題庫一套
- 2025年湖南環(huán)境生物職業(yè)技術學院單招職業(yè)技能測試題庫匯編
- 2023-2024學年高中信息技術必修一滬科版(2019)第三單元項目六《 解決溫標轉換問題-認識程序和程序設計語言》教學設計
- 【湘教版】2024-2025學年七年級數(shù)學下冊教學工作計劃(及進度表)
- 《急性左心衰》課件
- 二零二五版洗煤廠與礦業(yè)公司合作洗煤業(yè)務合同3篇
- 上海市第一至十八屆高一物理基礎知識競賽試題及答案
- 2024李娜一建管理講義修訂版
- 2024院感培訓課件
- 護理試講考核15分鐘
- 2024預防流感課件完整版
- 2025天貓服飾春夏趨勢白皮書
- 電力工程施工的重點和難點及保證措施
評論
0/150
提交評論