數(shù)據(jù)倉庫系統(tǒng)結(jié)構(gòu)模型.ppt

上傳人：j*** IP屬地：四川上傳時間：2019-07-15 格式：PPT 頁數(shù)：69 大?。?.87MB 積分：15 舉報 版權(quán)申訴

數(shù)據(jù)倉庫系統(tǒng)結(jié)構(gòu)模型.ppt_第2頁

數(shù)據(jù)倉庫系統(tǒng)結(jié)構(gòu)模型.ppt_第3頁

數(shù)據(jù)倉庫系統(tǒng)結(jié)構(gòu)模型.ppt_第4頁

數(shù)據(jù)倉庫系統(tǒng)結(jié)構(gòu)模型.ppt_第5頁

已閱讀5頁，還剩64頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領

文檔簡介

第 4 章,數(shù)據(jù)倉庫系統(tǒng)結(jié)構(gòu)與模型,Inmon數(shù)據(jù)倉庫設計, ,體系結(jié)構(gòu)化環(huán)境三級模型, ,高級模型中級模型低級模型,性能優(yōu)化,目錄,數(shù)據(jù)倉庫設計概述, ,與數(shù)據(jù)庫設計的區(qū)別處理類型應用需求設計目標數(shù)據(jù)來源設計方法,數(shù)據(jù)倉庫設計概述,數(shù)據(jù)倉庫與數(shù)據(jù)庫設計的區(qū)別,處理類型不同, ,數(shù)據(jù)庫系統(tǒng)設計面向應用來進行設計，根據(jù)具體的操作事件和操作對象（實體）來進行設計；目的是建立一個操作型的數(shù)據(jù)環(huán)境。從需求開始，逐步展開數(shù)據(jù)倉庫設計面向分析的；從最基本的主題開始，不斷完善已有主題，發(fā)展新主題；最終建立起一個面向主題的分析型數(shù)據(jù)環(huán)境。,應用需求不同,數(shù)據(jù)庫系統(tǒng)設計面向明確的應用需求設計人員能夠清晰地了解應用的需求和數(shù)據(jù)流程數(shù)據(jù)倉庫設計很難獲得對用戶需求的確切了解應用人員往往是企業(yè)的中高層人員他們自己一開始不知道想看什么，需要引導后期又想什么東西都看，需要解釋,系統(tǒng)設計的目標,數(shù)據(jù)庫系統(tǒng)設計, ,為了進行OLTP處理通常是對一個或者一組記錄的查詢和修改，“一次一集合” 主要為企業(yè)的特定應用服務的事務處理響應時間、數(shù)據(jù)的安全性和完整性是系統(tǒng)的目標,數(shù)據(jù)倉庫設計, ,為了分析決策主要目標是保證數(shù)據(jù)的四個特征（面向主題、集成的、穩(wěn)定的、時變的），建立起一個全局一致的數(shù)據(jù)環(huán)境，作為企業(yè)決策支持的基礎只有查詢而無更新，“一次加載一批” 對響應時間不敏感數(shù)據(jù)量大，海量數(shù)據(jù),數(shù)據(jù)來源不同, ,數(shù)據(jù)庫系統(tǒng)設計數(shù)據(jù)來源主要是業(yè)務操作員的輸入描述如何通過操作員輸入獲取數(shù)據(jù) 描述如何將獲取的數(shù)據(jù)按照OLAP的需求合理存放如何使得OLTP的性能更加優(yōu)化如何保證事務處理的安全性數(shù)據(jù)倉庫設計數(shù)據(jù)主要來源于業(yè)務系統(tǒng) 主要解決如何從業(yè)務系統(tǒng)中得到完整一致的數(shù)據(jù) 如何對數(shù)據(jù)進行轉(zhuǎn)換、清洗、綜合，ETL 如何有效提高數(shù)據(jù)分析的效率與準確性,系統(tǒng)設計方法不同,數(shù)據(jù)庫系統(tǒng)設計, ,“需求驅(qū)動”；先收集需求、分析需求，再進行設計和開發(fā)；系統(tǒng)的需求在收集和分析需求階段之后就定下來了，一旦進入構(gòu)建數(shù)據(jù)庫階段，系統(tǒng)的需求就基本不變了。,數(shù)據(jù)倉庫設計, ,“數(shù)據(jù)驅(qū)動” 從業(yè)務系統(tǒng)已經(jīng)存在的數(shù)據(jù)出發(fā)，獲取之后對數(shù)據(jù)進行集成并檢查數(shù)據(jù)的準確性按照分析領域?qū)?shù)據(jù)及數(shù)據(jù)之間的聯(lián)系重新考察，組織數(shù)據(jù)倉庫中的主題。 “數(shù)據(jù)驅(qū)動”的系統(tǒng)設計方法的優(yōu)點是可以通過了解原有數(shù)據(jù)庫系統(tǒng) 中的數(shù)據(jù)和需要建設的數(shù)據(jù)倉庫中主題的數(shù)據(jù)的共同性，最大限度地利用現(xiàn)有系統(tǒng)，減少系統(tǒng)建設的工作量。,開發(fā)生命周期-CLDS, ,傳統(tǒng)的數(shù)據(jù)庫系統(tǒng)的系統(tǒng)開發(fā)生命周期(SDLC)是需求驅(qū)動的，而數(shù)據(jù)倉庫系統(tǒng)的開發(fā)生命周期則是數(shù)據(jù) 驅(qū)動的，與SDLC相反，一般寫作CLDS，這種寫法沒有對應的實際意義，是一種幽默的寫法。 CLDS由數(shù)據(jù)開始，一旦數(shù)據(jù)到手就集成數(shù)據(jù)。然后，如果數(shù)據(jù)有偏差，就檢驗看看數(shù)據(jù)存在什么偏差。再針對數(shù)據(jù)寫程序，分析程序執(zhí)行結(jié)果。最后，系統(tǒng) 需求才得到了理解。因此，CASE工具和技術(shù)用于數(shù)據(jù)倉庫領域是不合適的。,數(shù)據(jù)倉庫 / DM 螺旋式方式,業(yè)務需求分析,設計,建造,測試,培訓,試點,部署,使用運行,監(jiān)控,維護,確認新需求/改進,實施范圍,業(yè)務驅(qū)動的需求分析,設計,建造,測試,培訓,試點應用,部署,使用,監(jiān)控,維護,發(fā)掘新需求和改進,兩種數(shù)據(jù)倉庫設計,Inmon數(shù)據(jù)倉庫, ,數(shù)據(jù)庫設計的模式三級模型（高級、中級、低級）存儲：關(guān)系數(shù)據(jù)庫,Kimball數(shù)據(jù)倉庫, ,維度建模技術(shù) 維度設計/度量設計存儲：多維數(shù)據(jù)庫/關(guān)系數(shù)據(jù)庫,兩種數(shù)據(jù)倉庫都需要面臨的主要設計問題, ,粒度與分割元數(shù)據(jù) ETL 索引,小結(jié), ,數(shù)據(jù)倉庫的設計不同于事務處理的數(shù)據(jù)庫的設計，是一個循序漸近的過程。數(shù)據(jù)倉庫的選型是一個非常重要的問題，當前，選用 Kimball數(shù)據(jù)倉庫進行設計是很流行的，因此，實踐中可優(yōu)先考慮。面對復雜的數(shù)據(jù)，基于維度建模技術(shù)的Kimball數(shù)據(jù) 倉庫顯得無能為力，還需要深入探索，因此，面向復雜數(shù)據(jù)類型的數(shù)據(jù)倉庫是目前的研究熱點。,數(shù)據(jù)庫設計的三級模型,概念模型, ,從客觀世界到主觀認識的映射首先將現(xiàn)實世界抽象為概念模型，然后再用適合計算機世界的模型和語言來描述 ER圖,邏輯模型, ,ER模型關(guān)系模型規(guī)范化視圖約束,物理模型, ,DBMS選型選擇數(shù)據(jù)庫文件的存儲結(jié)構(gòu) 索引分配存儲空間,Inmon的三級模型,高級模型（高層模型）（數(shù)據(jù)庫設計-概念模型）, ,即概念模型，用E-R圖表示首先將現(xiàn)實世界抽象為概念模型，然后再用適合計算機世界的模型和語言來描述,中級模型（中層模型）（數(shù)據(jù)庫設計-邏輯模型）, ,數(shù)據(jù)項（Data item set，DIS）模型 ER圖的細分每個主題都與一個DIS對應 DIS中的數(shù)據(jù)分為4個組別：基本數(shù)據(jù)組、二級數(shù)據(jù)組、連接數(shù)據(jù) 組和類型數(shù)據(jù)組關(guān)系表（原模型不存在，補充的）,低級模型（底層模型）（數(shù)據(jù)庫設計-物理模型）,物理數(shù)據(jù)模型,每個企業(yè)的業(yè)務模型只有一個,父,子1,子2,概念模型與實現(xiàn)無關(guān)，只有一個,邏輯模型：概念模型的映射，多個,物理模型：與邏輯模型對應，為其實現(xiàn)方式,實體,主題,DIS,表,實體對應主題？,目錄,Inmon數(shù)據(jù)倉庫設計, ,體系結(jié)構(gòu)化環(huán)境三級模型, ,高級模型中級模型低級模型,性能優(yōu)化,中級模型-DIS, ,中層模型通過所謂的DIS（Data Item Set, 數(shù)據(jù)項集）描述，DIS是對高層模型的細分，高層模型中的每個主題域(或?qū)嶓w)都要建立一個中間層模型，即對ER模型的細分。在中層數(shù)據(jù)模型上，有四個基本構(gòu)造：, ,初始數(shù)據(jù)組二次數(shù)據(jù)組連接件，表示主要主題域間的數(shù)據(jù)關(guān)系數(shù)據(jù)“類型”, ,數(shù)據(jù)組之間通過鍵連接。數(shù)據(jù)組劃分標準：穩(wěn)定性穩(wěn)定性順序：初始數(shù)據(jù)組二次數(shù)據(jù)組類型數(shù)據(jù)組分組的目的：根據(jù)穩(wěn)定性將數(shù)據(jù)分開，提高加載效率,13,高級模型中級模型映射,一個實體/主題對應一個DIS,初始數(shù)據(jù)組（主要數(shù)據(jù)組）, ,每個主要主題域有且只有一個主要數(shù)據(jù)組，其中包含了每個主要主題域只出現(xiàn)一次的屬性（穩(wěn)定）。同所有的數(shù)據(jù)組一樣，初始數(shù)據(jù)組有屬性和鍵碼。一個主要數(shù)據(jù)組對應一個主題域。初始數(shù)據(jù)組的數(shù)據(jù)穩(wěn)定性最高，一般情況下是不變化的。姓名、性別、住址,二級數(shù)據(jù)分組, ,包含對每個主要主題域可以存在多次的屬性。有多少可以出現(xiàn)多次的不同數(shù)據(jù)組，就含有多少二級數(shù)據(jù)組。如一對多。二級數(shù)據(jù)分組的數(shù)據(jù)穩(wěn)定性相對初級數(shù)據(jù)組要弱一些，但比類型數(shù)據(jù)組的數(shù)據(jù)穩(wěn)定性要高。,連接件, ,表示兩個主要主題域間的數(shù)據(jù)關(guān)系，兩個主題的聯(lián)系。將數(shù)據(jù)從一個組到另一個組聯(lián)系起來。在E-R圖層確定的關(guān)系在DIS層都必須有與其對應的連接件。主鍵與外鍵。連接器表明，數(shù)據(jù)倉庫中的主題域之間是關(guān)聯(lián)的，可見，通過連接件實現(xiàn)Inmon數(shù)據(jù)倉庫成為有機整體，這在Kimball數(shù)據(jù)倉庫中是不存在的。討論：如果用于連接一個主題的不同數(shù)據(jù)組，連接件就是就是ER模型中的聯(lián)系，連接不同主題域也是ER 模型中的聯(lián)系。具體通過鍵（無論ER模型中還是邏輯模型都有這個概念）連接實現(xiàn)。結(jié)論：連接件=聯(lián) 系。,數(shù)據(jù)的“類型”, ,數(shù)據(jù)的“類型”由指向數(shù)據(jù)組的線段指示。左邊的數(shù)據(jù) 組是超類型，右邊的數(shù)據(jù)組是子類型。類型數(shù)據(jù)組的數(shù)據(jù)的穩(wěn)定性最低，會經(jīng)常變化。如，一個人的信息（主要數(shù)據(jù)分組）與他所做的事情（類型，分類了：工作、生活、情感）。,DIS中的各組件,連接件,例子：DIS中數(shù)據(jù)組的穩(wěn)定性, ,顧客的顧客號、姓名、性別等描述信息基本報紙不變，比較穩(wěn)定，可作為主要數(shù)據(jù)組顧客的住址、文化程度、電話等也基本穩(wěn)定，但存在改變的可能，相對主要數(shù)據(jù)組中的信息穩(wěn)定性要弱一些，可作為二級數(shù)據(jù)組顧客的采購記錄則經(jīng)常發(fā)生變化，其穩(wěn)定性低，因此，作為類型數(shù)據(jù)組這樣劃分的好處：結(jié)構(gòu)清晰、減少冗余,例子：一個DIS,連接件,基本數(shù)據(jù)組,商品ID,客戶ID 姓名性別,身份證號碼,住址文化程度電話 Email,交易ID 商品金額購買時間,交易ID 商品金額購買時間交易ID 商品金額購買時間,類型數(shù)據(jù)組,電器,服裝圖書,一個主題,商品ID 連接件二級數(shù)據(jù)組另一個主題,局部DIS與全局DIS, ,與企業(yè)ERD構(gòu)建方法一樣（由反映不同用戶群體的不同 ERD所建成，局部 ER全局ER），企業(yè)DIS由多個DIS 建成，在進行對個別用戶的訪問或 JAD (聯(lián)合應用程序設計)會議時，就要生成一個DIS和一個 ERD。小范圍的DIS和其他所有DIS一起形成一個反映企業(yè)觀點的 DIS。,目錄,Inmon數(shù)據(jù)倉庫設計, ,體系結(jié)構(gòu)化環(huán)境三級模型, ,高級模型中級模型低級模型,性能優(yōu)化,低級模型, ,底層模型是邏輯模型在數(shù)據(jù)倉庫中的具體實現(xiàn)，如物理存取方式、數(shù)據(jù)存儲結(jié)構(gòu)、數(shù)據(jù)存儲位置、存儲分配等。低級模型具體表現(xiàn)為一系列的關(guān)系表。低級模型設計所要考慮的主要因素有, ,I/O存取時間、空間利用率和維護代價數(shù)據(jù)倉庫性能優(yōu)化，如合并表、引入冗余等技術(shù),討論：DIS能直接實現(xiàn)嗎？, ,Inmon的設計模型沒有探討DIS是如何過渡到低級模型的，中間似乎缺了一個重要的環(huán)節(jié)。這個環(huán)節(jié)是：關(guān)系表。關(guān)系表在原設計模型中沒有深入討論，遺憾！DIS仍然處于概念模型階段，無非是細化了，低級模型則直接實現(xiàn)了，關(guān)系表在哪里設計的？缺憾！應該放在中間模型比較合適。補充：DIS 到關(guān)系表的映射，參考ER模型到關(guān)系模型的轉(zhuǎn)化。有了關(guān)系表，具體實現(xiàn)（低級模型）就沒有問題。,了解：低級模型-存儲結(jié)構(gòu),分布式存儲, ,采用磁盤陣列在多個節(jié)點間以分布的方式來存儲數(shù)據(jù) 物理上是分布的，但是邏輯上是統(tǒng)一的,集中式存儲, ,將現(xiàn)有SAN（存儲局域網(wǎng)）或者NAS（網(wǎng)絡連接存儲）作為服務器的存儲部分直接通過FC交換機來直接訪問所有的數(shù)據(jù)而不需要通過其他節(jié)點可以將節(jié)點從數(shù)據(jù)存儲管理的負擔中解脫出來，實現(xiàn)數(shù)據(jù)處理和數(shù)據(jù)存儲的分離。,分布式存儲,集中式存儲,RAID思想,RAID: Redundant Arrays of Inexpensive Disks （冗余廉價磁盤陣列）,多盤聯(lián)合，統(tǒng)一對外，高速高容量，高可靠性,high capacity,high speed high reliability, ,生活中的RAID， “三個臭皮匠抵上一個諸葛亮”，雇傭三個臭皮匠還是雇傭諸葛亮？三個臭皮匠的成本要低攔截導彈 A型命中率0.7 ，100萬美元 B型命中率0.9 ，1000萬美元, ,用兩個A型，至少一個命中的概率 1-（1-0.7)2= 0.91 用3個A型，至少一個命中的概率 1-（1-0.7)3= 0.97 可用機關(guān)炮打巡航導彈（合算），用多個低價盤代高價盤, ,思想：冗余提高可靠性，并行提高速度后面的推理基于一個假定：兩個廉價磁盤在同一個修復時間（幾小時）內(nèi)同時發(fā)生故障的概率很低。,數(shù)據(jù)拆分, ,這么多冗余磁盤，怎么存儲數(shù)據(jù)？數(shù)據(jù)拆分塊拆分邏輯第 I 塊放到（I mod N)+1號磁盤上，排排坐位拆分當塊的大小為1bit時，稱為 Bit-Level Striping 位拆分（比特級拆分），將字節(jié)按bit拆分，存儲到多個磁盤上（如分到8個磁盤上），這樣多個磁盤就形成一個邏輯上磁盤。讀取的數(shù)據(jù)量成倍放大，（如每次訪問讀取一個磁盤的8倍數(shù)據(jù)量，I/O一次(并行)，數(shù)據(jù)量8倍，可觀!）,RAID,RAID磁盤陣列, ,廉價冗余磁盤陣列是一種采用多磁盤驅(qū)動器來存儲數(shù)據(jù)的數(shù) 據(jù)存儲系統(tǒng) 分為6個級別：RAID0、1、2、3、4、5及RAID0+1,2、3、4 使用頻率較低，5、0、1、0+1使用較多。在 RAID 的各個級別中，RAID 1 和 RAID 0+1 提供最佳的數(shù)據(jù)保護和最佳性能，但是就所需的磁盤而言會需要更多的成本。當硬盤成本不是限制因素時，就兼顧性能和容錯而言，RAID 1 或 RAID 0+1 是最佳選擇。 RAID 5 的成本比 RAID 1 或 RAID 0+1 低，但是它提供的容錯和寫入性能較差。RAID 5 的寫入性能大約只是 RAID 1 或 RAID 0+1 的一半，這是因為 RAID 5 讀取和寫入奇偶校驗信息需要額外的 I/O。,RAID 0, ,塊級拆分，無冗余，多盤并發(fā) （實用中，只用Level 1和5）因為該級別使用名為條帶集的磁盤文件系統(tǒng)，所以又將它稱作磁盤條帶。數(shù)據(jù)被劃分成多個塊并按固定順序分布到陣列中的所有磁盤上。RAID 0將多個操作分布到多個磁盤上，以便可以同時獨立地執(zhí)行這些操作，從而改善了讀取/寫入性能。RAID 0類似于 RAID 5，但是 RAID 5 還提供容錯功能。,RAID 1-寫雙份，讀一份,因為該級別使用名為鏡像集的磁盤文件系統(tǒng)，所以又將它稱作磁盤鏡像。磁盤鏡像可提供一個與所選磁盤完全相同的冗余副本。寫入主磁盤的所有數(shù)據(jù)都會寫入鏡像磁盤。RAID 1 提供了容錯功能，而且通?？?以改進讀取性能（但是可能會降低寫入性能） RAID1,RAID 2、3、4,RAID2-按位拆分+校驗位,該級別通過使用將奇偶校驗分布到所有磁盤上的糾錯方法來添加冗余。它還利用磁盤條帶策略將一個文件分成多個字節(jié)并將該文件分布到多個磁盤上。與鏡像 (RAID 1) 相比，該策略在磁盤利用率和讀取/寫入性能方面只帶來了很小的改進。RAID 2 不如其他 RAID 級別效率高，通常不使用它。,RAID3-按位拆分，交錯帶奇偶校驗，糾正錯誤是用校驗碼和鏡像恢復,該級別使用與 RAID 2 相同的條帶化方法，但是糾錯方法只需一個磁盤用于奇偶校驗數(shù)據(jù)。磁盤空間的使用情況因數(shù)據(jù)磁盤的數(shù)量而異。RAID 3 在讀取/寫入性能方面提供一些改進。RAID 3 也極少使用。,RAID4-按塊拆分，校驗恢復：鏡像和校驗,該級別使用的條帶數(shù)據(jù)塊或段比 RAID 2 或 RAID 3 大得多。與 RAID 3 一樣，糾錯方法只需一個磁盤用于奇偶校驗數(shù)據(jù)。它將用戶數(shù)據(jù)與糾錯數(shù)據(jù)分開。RAID 4 不如其他 RAID 級別效率高，通常不使用。,RAID 5, ,寫雙份+奇偶校驗頁。以改善可靠性。是新設計中最常用的策略。與RAID 4相似，它將數(shù)據(jù)以大塊形式條帶化到陣列中的磁盤上。不同之處在于它在所有磁盤之間寫入奇偶校驗的方式。數(shù)據(jù)冗余通過奇偶校驗信息提供。數(shù)據(jù)和奇偶校驗信息會在磁盤陣列上排列，所以這兩種信息總是位于不同的磁盤上。與磁盤鏡像 (RAID 1) 相比，具有奇偶校驗的條帶化可提供更好的,性能。但是，當條帶成員丟失時（例如，當磁盤發(fā)生故障時），,讀取性能會下降。RAID 5 是最常用的 RAID 配置之一。,RAID5,RAID 0+1, ,該級別又稱作具有條帶化的鏡像。該級別使用條帶化的磁盤陣列，而該陣列又鏡像到另一組相同的條帶化磁盤。例如，可使用四個磁盤創(chuàng)建一個條帶化的陣列。然后，條帶化的磁盤陣列使用另一組（四個）條帶化的磁盤進行鏡像。 RAID 10 提供磁盤條帶化帶來的性能益處以及鏡像帶來的磁盤冗余。在所有的 RAID 級別中，RAID 10 提供的讀取/寫入性能最高，代價是使用的磁盤數(shù)量是其他級別的兩倍。,RAID0+1,鏡像,低級模型-索引策略, ,B樹及B+樹索引、位圖索引等依然有效。廣義索引, ,對于一些經(jīng)常性的查詢，利用一個規(guī)模小得多的“廣義索引”，比去針對所有數(shù)據(jù)建立索引效率高，如上司的電話廣義索引是在數(shù)據(jù)裝載的同時建立，它是一種元數(shù)據(jù) 廣義索引涉及的是用戶最關(guān)心的問題，需要在數(shù)據(jù)加載前進行調(diào)查了解。比如使用頻率最高的10種藥物，使用頻率最低的藥物等。比較適合經(jīng)常性的查詢，開銷比較小,目錄,Inmon數(shù)據(jù)倉庫設計, ,體系結(jié)構(gòu)化環(huán)境三級模型, ,高級模型中級模型低級模型,性能優(yōu)化,數(shù)據(jù)倉庫的物理性能優(yōu)化, ,數(shù)據(jù)倉庫的具有數(shù)據(jù)量大，操作簡單（主要為查詢操作）的特點，因此，數(shù)據(jù)倉庫的性能優(yōu)化主要集中在物理I/O 的性能上，應盡量減少I/O次數(shù)，使每次I/O能夠返回盡量多的記錄。數(shù)據(jù)倉庫性能優(yōu)化所采取的措施有, ,劃分粒度數(shù)據(jù)分割表優(yōu)化, ,合并表建立數(shù)據(jù)序列引入冗余表的物理分割生成導出數(shù)據(jù) 建立廣義索引,數(shù)據(jù)倉庫中的數(shù)據(jù)是細節(jié)還是綜合？細節(jié)到什么程度？綜合到什么程度？,綜合越高，數(shù)據(jù)量相對越小，查詢效率會更高。故，合適的粒度設計會提高查詢效率。,性能優(yōu)化1：粒度設計, ,粒度是數(shù)據(jù)倉庫的重要概念。粒度指的是數(shù)據(jù)倉庫中數(shù)據(jù)單元的細節(jié)程度或綜合程度的級別數(shù)據(jù)倉庫中存在著不同的綜合級別，粒度越大，表示細節(jié)程度越低，綜合程度越高。,高細節(jié)級,高粒度級低細節(jié)級一個顧客一個月的電話綜合,低粒度級一個顧客一個月的電話明細, ,粒度影響數(shù)據(jù)倉庫的數(shù)據(jù)量的大小、查詢類型以及效率，粒度具體表現(xiàn)為不同的層次，如時間、組織結(jié)構(gòu)等高粒度級數(shù)據(jù)是經(jīng)過壓縮后的，數(shù)據(jù)量小，查詢效率高，但是查詢類型受到一定的限制低粒度級的數(shù)據(jù)量大，查詢效率低，但支持的查詢類型多例如，對于高粒度級的數(shù)據(jù)倉庫可以回答“上個月 John從北京打出的長途電話有多少個？”，而不能回答“今天John是否從北京打出長途電話？” 這樣的問題需要低粒度級的數(shù)據(jù)倉庫因此，采用高粒度還是低粒度需要做出權(quán)衡。對于決策信息查詢一般采用高粒度級更為合適。,理解：粒度, ,粒度與官職對應，大官看大粒度（大方向），小官看小粒度（細節(jié)）為總理設計，粒度面向全國，高粒度，超大粒度；為省長設計，粒度面向全省，較大粒度；為縣長設計，粒度面向全縣，大粒度；為鄉(xiāng)長設計，粒度面向全鄉(xiāng)，小粒度，細粒度；為村長設計（別拿村長不當干部），粒度面向全村，超細粒度，張家有田幾畝？李家人丁幾何？，都要有。把村長用的粒度與總理用的粒度調(diào)換一下便知粒度的重要性了，兩個肯定都叫苦。實際設計中，一般我們要確認最低粒度，高粒度可以由低粒度綜合而來。,粒度的形式,粒度可以分為三種形式, ,一般意義的粒度（指最低粒度，常用）多重粒度（常用，效率高）活樣本數(shù)據(jù)庫（效率高）,在實際中，三種形式的粒度都有可能存在, ,第一種形式的粒度是對數(shù)據(jù)倉庫中的數(shù)據(jù)的綜合程度高低的一個度量，指的是最低粒度。它既影響數(shù)據(jù)倉庫中的數(shù)據(jù)量的多少，也影響數(shù)據(jù)倉庫所能回答詢問的種類。細節(jié)程度越高，粒度級就越低，回答查詢的種類就越多，（官越?。?。相反，細節(jié)程度越低，粒度級就越高，（官越大），查詢效率將會提高。數(shù)據(jù)倉庫的主要作用是DSS分析，因而其絕大部分查詢都基于一定程度的綜合數(shù)據(jù)之上，而只有極少的查詢涉及細節(jié)。所以，可以考慮將綜合數(shù)據(jù) 物化，即采用第二種粒度形式多重粒度。,雙重粒度, ,當一個企業(yè)或組織的數(shù)據(jù)倉庫中擁有大量數(shù)據(jù)、資源足夠，并需要多種類型的查詢以及追求高效率的情況下，可以考慮多重粒度。常用的是雙重粒度，即輕度綜合級(高粒度)和最低粒度級(低粒度，當前細節(jié)級),輕度綜合級 April John Count:45 Average:14min ,最低粒度級 John 4.12 p.m. 6:01-6:12 4.12 p.m. 6:15-6:16 4.12 a.m. 9:12-9:23 , ,對于數(shù)據(jù)分析員來說，大部分時間是針對輕度綜合級別(高粒度)的數(shù)據(jù)進行分析，所以，數(shù)據(jù)可以存儲在I/O效率高的介質(zhì)上。低粒度級的數(shù)據(jù)可以存儲在I/O效率相對較低的介質(zhì)上，當DSS分析員需要分析更低的數(shù)據(jù)時，可以對這些數(shù)據(jù)進行操作。但是，需要犧牲效率。雙重粒度適合大多數(shù)機構(gòu)或組織的數(shù)據(jù)倉庫構(gòu)建，單重粒度則只適用于相對較少的數(shù)據(jù)情況。這樣，對于絕大多數(shù)查詢，性能將大大提高。而萬一需要對細節(jié)查詢，小粒度數(shù)據(jù)也可以滿足。采用多重粒度的目標是提高效率，不同級別物化，當然會提高查詢效率，如果軟件硬件技術(shù)足夠先進，則另當別論。,Cube中的粒度設計,維度粒度：維度一般是有層次結(jié)構(gòu)的，而粒度一般是指最細粒度。,如，時間維度：年、季度、月、周、日是有層次的，其中，首先需要確定的是最細粒度“日”，只有這個粒度確定了其他層次的粒度才可以確定。,事實粒度：事實是由事實單元（度量）構(gòu)成的，每個度量與參與維度的最細粒度相對應，所以，事實存儲的是所有參與維度的最細粒度的度量值。,如，一個事實單元為：2005年10月20日（時間維度最細粒度）、玉泉路物美超市食品部冷鮮柜組（部門維度最細粒度）、食品類海鮮海蝦、銷售量：350kg。 350kg為最細粒度的度量值。,活樣本數(shù)據(jù), ,活樣本數(shù)據(jù)是指從數(shù)據(jù)倉庫中取得的真實檔案數(shù)據(jù) 或輕度綜合數(shù)據(jù)的一個子集 “樣本”的含義是指一個更大的數(shù)據(jù)庫的一個子集 “活”是指這個數(shù)據(jù)需要進行周期刷新與通常意義的粒度不同，活樣本數(shù)據(jù)庫的粒度級別不是根據(jù)綜合程度的不同來劃分的，而是根據(jù)采樣率的高低來劃分的采樣粒度不同的樣本數(shù)據(jù)庫可以具有相同的綜合級別，一般它是以一定的采樣率從細節(jié)檔案數(shù)據(jù)或輕度綜合數(shù)據(jù)中抽取的一個子集。, ,活樣本數(shù)據(jù)庫不能回答一些細節(jié)性的問題抽樣的方法很多，一般是隨機抽取?；顦颖緮?shù)據(jù)可以代替源數(shù)據(jù)進行模擬分析經(jīng)驗證明，在源數(shù)據(jù)量很大的情況下，抽樣數(shù)據(jù)量可大大下降，如源數(shù)據(jù)量的1/100或1/1000，源數(shù)據(jù)量越大，數(shù)據(jù)量下降的量越大，而得出的分析結(jié)果誤差極小，具有很高的效率活樣本數(shù)據(jù)庫的抽取可以按照數(shù)據(jù)的重要程度不同來進行。并不是所有的數(shù)據(jù)對于具體的分析來說都具有相同的價值，不能不分主次地對數(shù)據(jù)進行分析（選代表）。利用活樣本數(shù)據(jù)庫的概念，可以收集重要的數(shù)據(jù)來進行分析，既可提高分析效率，也有助于抓住主要因素和主要矛盾。,活樣本數(shù)據(jù)的特點,活樣本數(shù)據(jù)庫的主要用途, ,特別是在分析工作中，有許多探索的過程，有時分析的目的只是要建立起分析模型或是得到相對準確、能反映趨勢的數(shù)據(jù)，從而驗證用戶的猜想，為下一步的策略確定方向或?qū)Ξ斍胺治龀绦蜃龀鱿鄳{(diào)整，而并不要求精確的結(jié)果。這種情況下樣本數(shù)據(jù)就大有用武之地！,性能優(yōu)化2：分區(qū), ,分區(qū)又稱分割，與數(shù)據(jù)庫系統(tǒng)中的分片概念近似，是將一個表模式按照一定標準分成兩個或多個表的模式，將數(shù)據(jù)分割稱小的物理單元（分片）的過程。與數(shù)據(jù)庫系統(tǒng)的分片相似，數(shù)據(jù)倉庫的分割也分為水平分割、垂直分割、混合分割和導出分割。把數(shù)據(jù)庫分區(qū)的技術(shù)“拿來主義”。分區(qū)的目標仍然是提高數(shù)據(jù)倉庫的訪問效率，是一種系統(tǒng)性能優(yōu)化策略。優(yōu)點：分區(qū)可以使數(shù)據(jù)裝載、數(shù)據(jù)訪問、數(shù)據(jù)存檔、數(shù)據(jù)重組、數(shù)據(jù)監(jiān)控、數(shù)據(jù)存儲等操作變得簡單高效。,分割方法, ,數(shù)據(jù)量決定是否需要分割，規(guī)則：小的主題不分大的分；不同主題的數(shù)據(jù)分割方法也不同，如商品按品類，供應商按地址；分割標準要簡單可行，一般與現(xiàn)實業(yè)務對應比較適合作為標準；分割與粒度掛鉤，即分片對應粒度級別恰當?shù)臄?shù)據(jù)分區(qū)使得數(shù)據(jù)增長便于管理如果數(shù)據(jù)分區(qū)不合理則會為數(shù)據(jù)增長和管理造成許多困難簡單地說，數(shù)據(jù)倉庫的本質(zhì)之一是使數(shù)據(jù)訪問變得靈活高效，如果都是大塊的數(shù)據(jù)就達不到這一目標因此，一般情況下，對所有當前細節(jié)的數(shù)據(jù)倉庫都要進行分區(qū)。,分區(qū)標準, ,數(shù)據(jù)分區(qū)的標準可以根據(jù)實際情況來確定，通常可選擇按日期、地域、業(yè)務領域或組織單位等來進行分區(qū)，也可以按多個分區(qū)標準的組合來進行一般而言，分區(qū)標準應包括日期項，它十分自然而且分區(qū)均勻分區(qū)之后，小單元內(nèi)的數(shù)據(jù)相對獨立，處理起來更快、更容易,例子,一個按時間（年）和商品類型作為標準來組織的分區(qū)例子,分區(qū)14 分區(qū)24 分區(qū)34 分區(qū)44,分區(qū)13 分區(qū)23 分區(qū)33 分區(qū)43,分區(qū)12 分區(qū)22 分區(qū)32 分區(qū)42,分區(qū)11 分區(qū)21 分區(qū)31 分區(qū)41,2000年 2001年 2

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

數(shù)據(jù)倉庫系統(tǒng)結(jié)構(gòu)模型.ppt

文檔簡介

溫馨提示

最新文檔

評論

數(shù)據(jù)倉庫系統(tǒng)結(jié)構(gòu)模型.ppt

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔