




已閱讀5頁,還剩64頁未讀, 繼續(xù)免費閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
第 4 章,數(shù)據(jù)倉庫系統(tǒng)結(jié)構(gòu)與模型,Inmon數(shù)據(jù)倉庫設計, ,體系結(jié)構(gòu)化環(huán)境 三級模型, ,高級模型 中級模型 低級模型,性能優(yōu)化,目錄,數(shù)據(jù)倉庫設計概述, ,與數(shù)據(jù)庫設計的區(qū)別 處理類型 應用需求 設計目標 數(shù)據(jù)來源 設計方法,數(shù)據(jù)倉庫設計概述,數(shù)據(jù)倉庫與數(shù)據(jù)庫設計的區(qū)別,處理類型不同, ,數(shù)據(jù)庫系統(tǒng)設計 面向應用來進行設計,根據(jù)具體的操作事件和操作對象 (實體)來進行設計; 目的是建立一個操作型的數(shù)據(jù)環(huán)境。 從需求開始,逐步展開 數(shù)據(jù)倉庫設計 面向分析的; 從最基本的主題開始,不斷完善已有主題,發(fā)展新主 題; 最終建立起一個面向主題的分析型數(shù)據(jù)環(huán)境。,應用需求不同,數(shù)據(jù)庫系統(tǒng)設計 面向明確的應用需求 設計人員能夠清晰地了解應用的需求和數(shù)據(jù)流程 數(shù)據(jù)倉庫設計 很難獲得對用戶需求的確切了解 應用人員往往是企業(yè)的中高層人員 他們自己一開始不知道想看什么,需要引導 后期又想什么東西都看,需要解釋,系統(tǒng)設計的目標,數(shù)據(jù)庫系統(tǒng)設計, ,為了進行OLTP處理 通常是對一個或者一組記錄的查詢和修改,“一次一集合” 主要為企業(yè)的特定應用服務的 事務處理響應時間、數(shù)據(jù)的安全性和完整性是系統(tǒng)的目標,數(shù)據(jù)倉庫設計, ,為了分析決策 主要目標是保證數(shù)據(jù)的四個特征(面向主題、集成的、穩(wěn)定的、時 變的),建立起一個全局一致的數(shù)據(jù)環(huán)境,作為企業(yè)決策支持的基 礎 只有查詢而無更新,“一次加載一批” 對響應時間不敏感 數(shù)據(jù)量大,海量數(shù)據(jù),數(shù)據(jù)來源不同, ,數(shù)據(jù)庫系統(tǒng)設計 數(shù)據(jù)來源主要是業(yè)務操作員的輸入 描述如何通過操作員輸入獲取數(shù)據(jù) 描述如何將獲取的數(shù)據(jù)按照OLAP的需求合理存放 如何使得OLTP的性能更加優(yōu)化 如何保證事務處理的安全性 數(shù)據(jù)倉庫設計 數(shù)據(jù)主要來源于業(yè)務系統(tǒng) 主要解決如何從業(yè)務系統(tǒng)中得到完整一致的數(shù)據(jù) 如何對數(shù)據(jù)進行轉(zhuǎn)換、清洗、綜合,ETL 如何有效提高數(shù)據(jù)分析的效率與準確性,系統(tǒng)設計方法不同,數(shù)據(jù)庫系統(tǒng)設計, ,“需求驅(qū)動”; 先收集需求、分析需求,再進行設計和開發(fā); 系統(tǒng)的需求在收集和分析需求階段之后就定下來了,一旦進入構(gòu)建 數(shù)據(jù)庫階段,系統(tǒng)的需求就基本不變了。,數(shù)據(jù)倉庫設計, ,“數(shù)據(jù)驅(qū)動” 從業(yè)務系統(tǒng)已經(jīng)存在的數(shù)據(jù)出發(fā),獲取之后對數(shù)據(jù)進行集成并檢查 數(shù)據(jù)的準確性 按照分析領域?qū)?shù)據(jù)及數(shù)據(jù)之間的聯(lián)系重新考察,組織數(shù)據(jù)倉庫中 的主題。 “數(shù)據(jù)驅(qū)動”的系統(tǒng)設計方法的優(yōu)點是可以通過了解原有數(shù)據(jù)庫系統(tǒng) 中的數(shù)據(jù)和需要建設的數(shù)據(jù)倉庫中主題的數(shù)據(jù)的共同性,最大限度 地利用現(xiàn)有系統(tǒng),減少系統(tǒng)建設的工作量。,開發(fā)生命周期-CLDS, ,傳統(tǒng)的數(shù)據(jù)庫系統(tǒng)的系統(tǒng)開發(fā)生命周期(SDLC)是需 求驅(qū)動的,而數(shù)據(jù)倉庫系統(tǒng)的開發(fā)生命周期則是數(shù)據(jù) 驅(qū)動的,與SDLC相反,一般寫作CLDS,這種寫法 沒有對應的實際意義,是一種幽默的寫法。 CLDS由數(shù)據(jù)開始,一旦數(shù)據(jù)到手就集成數(shù)據(jù)。然 后,如果數(shù)據(jù)有偏差,就檢驗看看數(shù)據(jù)存在什么偏差。 再針對數(shù)據(jù)寫程序,分析程序執(zhí)行結(jié)果。最后,系統(tǒng) 需求才得到了理解。 因此,CASE工具和技術(shù)用于數(shù)據(jù)倉庫領域是不合適 的。,數(shù)據(jù)倉庫 / DM 螺旋式方式,業(yè)務需求分析,設計,建造,測試,培訓,試點,部署,使用運行,監(jiān)控,維護,確認新需求/改進,實施范圍,業(yè)務驅(qū)動的 需求分析,設計,建造,測試,培訓,試點應用,部署,使用,監(jiān)控,維護,發(fā)掘新需求 和改進,兩種數(shù)據(jù)倉庫設計,Inmon數(shù)據(jù)倉庫, ,數(shù)據(jù)庫設計的模式 三級模型(高級、中級、低級) 存儲:關(guān)系數(shù)據(jù)庫,Kimball數(shù)據(jù)倉庫, ,維度建模技術(shù) 維度設計/度量設計 存儲:多維數(shù)據(jù)庫/關(guān)系數(shù)據(jù)庫,兩種數(shù)據(jù)倉庫都需要面臨的主要設計問題, ,粒度與分割 元數(shù)據(jù) ETL 索引,小結(jié), ,數(shù)據(jù)倉庫的設計不同于事務處理的數(shù)據(jù)庫的設計,是 一個循序漸近的過程。 數(shù)據(jù)倉庫的選型是一個非常重要的問題,當前,選用 Kimball數(shù)據(jù)倉庫進行設計是很流行的,因此,實踐 中可優(yōu)先考慮。 面對復雜的數(shù)據(jù),基于維度建模技術(shù)的Kimball數(shù)據(jù) 倉庫顯得無能為力,還需要深入探索,因此,面向復 雜數(shù)據(jù)類型的數(shù)據(jù)倉庫是目前的研究熱點。,數(shù)據(jù)庫設計的三級模型,概念模型, ,從客觀世界到主觀認識的映射 首先將現(xiàn)實世界抽象為概念模型,然后再用適合計算機世界的模型 和語言來描述 ER圖,邏輯模型, ,ER模型關(guān)系模型 規(guī)范化 視圖 約束,物理模型, ,DBMS選型 選擇數(shù)據(jù)庫文件的存儲結(jié)構(gòu) 索引 分配存儲空間,Inmon的三級模型,高級模型(高層模型)(數(shù)據(jù)庫設計-概念模型), ,即概念模型,用E-R圖表示 首先將現(xiàn)實世界抽象為概念模型,然后再用適合計算機世界的模型 和語言來描述,中級模型(中層模型)(數(shù)據(jù)庫設計-邏輯模型), ,數(shù)據(jù)項(Data item set,DIS)模型 ER圖的細分 每個主題都與一個DIS對應 DIS中的數(shù)據(jù)分為4個組別:基本數(shù)據(jù)組、二級數(shù)據(jù)組、連接數(shù)據(jù) 組和類型數(shù)據(jù)組 關(guān)系表(原模型不存在,補充的),低級模型(底層模型)(數(shù)據(jù)庫設計-物理模型),物理數(shù)據(jù)模型,每個企業(yè)的業(yè)務模型只有一個,父,子1,子2,概念模型與實現(xiàn)無關(guān),只有一個,邏輯模型:概念模型的映射,多個,物理模型:與邏輯模型對應,為其實現(xiàn)方式,實體,主題,DIS,表,實體 對應 主題?,目錄,Inmon數(shù)據(jù)倉庫設計, ,體系結(jié)構(gòu)化環(huán)境 三級模型, ,高級模型 中級模型 低級模型,性能優(yōu)化,中級模型-DIS, ,中層模型通過所謂的DIS(Data Item Set, 數(shù)據(jù)項集) 描述,DIS是對高層模型的細分,高層模型中的每個 主題域(或?qū)嶓w)都要建立一個中間層模型,即對ER模 型的細分。 在中層數(shù)據(jù)模型上,有四個基本構(gòu)造:, ,初始數(shù)據(jù)組 二次數(shù)據(jù)組 連接件,表示主要主題域間的數(shù)據(jù)關(guān)系 數(shù)據(jù)“類型”, ,數(shù)據(jù)組之間通過鍵連接。 數(shù)據(jù)組劃分標準:穩(wěn)定性 穩(wěn)定性順序:初始數(shù)據(jù)組二次數(shù)據(jù)組類型數(shù)據(jù)組 分組的目的:根據(jù)穩(wěn)定性將數(shù)據(jù)分開,提高加載效率,13,高級模型中級模型映射,一個實體/主題對應一個DIS,初始數(shù)據(jù)組(主要數(shù)據(jù)組), ,每個主要主題域有且只有一個主要數(shù)據(jù)組,其中包含 了每個主要主題域只出現(xiàn)一次的屬性(穩(wěn)定)。 同所有的數(shù)據(jù)組一樣,初始數(shù)據(jù)組有屬性和鍵碼。 一個主要數(shù)據(jù)組對應一個主題域。 初始數(shù)據(jù)組的數(shù)據(jù)穩(wěn)定性最高,一般情況下是不變化的。 姓名、性別、住址,二級數(shù)據(jù)分組, ,包含對每個主要主題域可以存在多次的屬性。有多少 可以出現(xiàn)多次的不同數(shù)據(jù)組,就含有多少二級數(shù)據(jù)組。 如一對多。 二級數(shù)據(jù)分組的數(shù)據(jù)穩(wěn)定性相對初級數(shù)據(jù)組要弱一 些,但比類型數(shù)據(jù)組的數(shù)據(jù)穩(wěn)定性要高。,連接件, ,表示兩個主要主題域間的數(shù)據(jù)關(guān)系,兩個主題的聯(lián)系。 將數(shù)據(jù)從一個組到另一個組聯(lián)系起來。在E-R圖層確 定的關(guān)系在DIS層都必須有與其對應的連接件。主鍵 與外鍵。 連接器表明,數(shù)據(jù)倉庫中的主題域之間是關(guān)聯(lián)的,可 見,通過連接件實現(xiàn)Inmon數(shù)據(jù)倉庫 成為 有機整 體,這在Kimball數(shù)據(jù)倉庫中是不存在的。 討論:如果用于連接一個主題的不同數(shù)據(jù)組,連接件 就是就是ER模型中的聯(lián)系,連接不同主題域也是ER 模型中的聯(lián)系。具體通過鍵(無論ER模型中還是邏 輯模型都有這個概念)連接實現(xiàn)。結(jié)論:連接件=聯(lián) 系。,數(shù)據(jù)的“類型”, ,數(shù)據(jù)的“類型”由指向數(shù)據(jù)組的線段指示。左邊的數(shù)據(jù) 組是超類型,右邊的數(shù)據(jù)組是子類型。 類型數(shù)據(jù)組的數(shù)據(jù)的穩(wěn)定性最低,會經(jīng)常變化。 如,一個人的信息(主要數(shù)據(jù)分組)與他所做的事情 (類型,分類了:工作、生活、情感)。,DIS中的各組件,連接件,例子:DIS中數(shù)據(jù)組的穩(wěn)定性, ,顧客的顧客號、姓名、性別等描述信息基本報紙不 變,比較穩(wěn)定,可作為主要數(shù)據(jù)組 顧客的住址、文化程度、電話等也基本穩(wěn)定,但存在 改變的可能,相對主要數(shù)據(jù)組中的信息穩(wěn)定性要弱一 些,可作為二級數(shù)據(jù)組 顧客的采購記錄則經(jīng)常發(fā)生變化,其穩(wěn)定性低,因 此,作為類型數(shù)據(jù)組 這樣劃分的好處:結(jié)構(gòu)清晰、減少冗余,例子:一個DIS,連接件,基本數(shù)據(jù)組,商品ID,客戶ID 姓名 性別,身份證號碼,住址 文化程度 電話 Email,交易ID 商品金額 購買時間,交易ID 商品金額 購買時間 交易ID 商品金額 購買時間,類型數(shù)據(jù)組,電器,服裝 圖書,一個主題,商品ID 連接件 二級數(shù)據(jù)組 另一個主題,局部DIS與全局DIS, ,與企業(yè)ERD構(gòu)建方 法一樣(由反映不 同用戶群體的不同 ERD所建成,局部 ER全局ER), 企業(yè)DIS由多個DIS 建成,在進行對個 別用戶的訪問或 JAD (聯(lián)合應用程序 設計)會議時,就要 生成一個DIS和一個 ERD。 小范圍的DIS和其他 所有DIS一起形成一 個反映企業(yè)觀點的 DIS。,目錄,Inmon數(shù)據(jù)倉庫設計, ,體系結(jié)構(gòu)化環(huán)境 三級模型, ,高級模型 中級模型 低級模型,性能優(yōu)化,低級模型, ,底層模型是邏輯模型在數(shù)據(jù)倉庫中的具體實現(xiàn),如物 理存取方式、數(shù)據(jù)存儲結(jié)構(gòu)、數(shù)據(jù)存儲位置、存儲分 配等。 低級模型具體表現(xiàn)為一系列的關(guān)系表。 低級模型設計所要考慮的主要因素有, ,I/O存取時間、空間利用率和維護代價 數(shù)據(jù)倉庫性能優(yōu)化,如合并表、引入冗余等技術(shù),討論:DIS能直接實現(xiàn)嗎?, ,Inmon的設計模型沒有探討DIS是如何過渡到低級模 型的,中間似乎缺了一個重要的環(huán)節(jié)。 這個環(huán)節(jié)是:關(guān)系表。 關(guān)系表在原設計模型中沒有深入討論,遺憾!DIS仍 然處于概念模型階段,無非是細化了,低級模型則直 接實現(xiàn)了,關(guān)系表在哪里設計的?缺憾!應該放在中 間模型比較合適。 補充:DIS 到 關(guān)系表 的映射,參考ER模型到關(guān)系 模型的轉(zhuǎn)化。有了關(guān)系表,具體實現(xiàn)(低級模型)就 沒有問題。,了解:低級模型-存儲結(jié)構(gòu),分布式存儲, ,采用磁盤陣列在多個節(jié)點間以分布的方式來存儲數(shù)據(jù) 物理上是分布的,但是邏輯上是統(tǒng)一的,集中式存儲, ,將現(xiàn)有SAN(存儲局域網(wǎng))或者NAS(網(wǎng)絡連接存儲)作為 服務器的存儲部分 直接通過FC交換機來直接訪問所有的數(shù)據(jù)而不需要通過其他 節(jié)點 可以將節(jié)點從數(shù)據(jù)存儲管理的負擔中解脫出來,實現(xiàn)數(shù)據(jù)處 理和數(shù)據(jù)存儲的分離。,分布式存儲,集中式存儲,RAID思想,RAID: Redundant Arrays of Inexpensive Disks (冗余 廉價磁 盤陣列 ),多盤聯(lián)合, 統(tǒng)一對外 ,高速 高容量, 高可靠性,high capacity,high speed high reliability, ,生活中的RAID, “三個臭皮匠抵上一個諸葛亮”,雇傭 三個 臭皮匠 還是雇傭 諸葛亮?三個臭皮匠的成本要低 攔截導彈 A型 命中率0.7 ,100萬美元 B型 命中率0.9 ,1000萬美元, ,用兩個A型,至少一個命中的概率 1-(1-0.7)2= 0.91 用3個A型,至少一個命中的概率 1-(1-0.7)3= 0.97 可用機關(guān)炮打巡航導彈(合算),用多個低價盤代高價盤, ,思想:冗余 提高可靠性,并行提高速度 后面的推理基于一個假定: 兩個廉價磁盤 在同一個修復時 間(幾小時)內(nèi)同時發(fā)生故障的概率 很低。,數(shù)據(jù)拆分, ,這么多冗余磁盤,怎么存儲數(shù)據(jù)?數(shù)據(jù)拆分 塊拆分 邏輯第 I 塊 放到(I mod N)+1號磁盤上,排排 坐 位拆分 當塊的大小為1bit時,稱為 Bit-Level Striping 位拆分(比特級拆分),將字節(jié)按bit拆分,存儲到多 個磁盤上(如分到8個磁盤上),這樣多個磁盤就形 成一個邏輯上磁盤。讀取的數(shù)據(jù)量成倍放大,(如每 次訪問讀取一個磁盤的8倍數(shù)據(jù)量,I/O一次(并行), 數(shù)據(jù)量8倍,可觀!),RAID,RAID磁盤陣列, ,廉價冗余磁盤陣列是一種采用多磁盤驅(qū)動器來存儲數(shù)據(jù)的數(shù) 據(jù)存儲系統(tǒng) 分為6個級別:RAID0、1、2、3、4、5及RAID0+1,2、3、4 使用頻率較低,5、0、1、0+1使用較多。 在 RAID 的各個級別中,RAID 1 和 RAID 0+1 提供最佳的 數(shù)據(jù)保護和最佳性能,但是就所需的磁盤而言會需要更多的 成本。當硬盤成本不是限制因素時,就兼顧性能和容錯而 言,RAID 1 或 RAID 0+1 是最佳選擇。 RAID 5 的成本比 RAID 1 或 RAID 0+1 低,但是它提供的容 錯和寫入性能較差。RAID 5 的寫入性能大約只是 RAID 1 或 RAID 0+1 的一半,這是因為 RAID 5 讀取和寫入奇偶校驗 信息需要額外的 I/O。,RAID 0, ,塊級拆分,無冗余,多盤并發(fā) (實用中, 只用Level 1和5) 因為該級別使用名為條帶集的磁盤文件系統(tǒng),所以又將它稱作 磁盤條帶。數(shù)據(jù)被劃分成多個塊并按固定順序分布到陣列中的 所有磁盤上。RAID 0將多個操作分布到多個磁盤上,以便可以 同時獨立地執(zhí)行這些操作,從而改善了讀取/寫入性能。RAID 0類似于 RAID 5,但是 RAID 5 還提供容錯功能。,RAID 1-寫雙份,讀一份,因為該級別使用名為鏡像集的磁盤文件系統(tǒng),所以又 將它稱作磁盤鏡像。磁盤鏡像可提供一個與所選磁盤 完全相同的冗余副本。寫入主磁盤的所有數(shù)據(jù)都會寫 入鏡像磁盤。RAID 1 提供了容錯功能,而且通???以改進讀取性能(但是可能會降低寫入性能) RAID1,RAID 2、3、4,RAID2-按位拆分+校驗位,該級別通過使用將奇偶校驗分布到所有磁盤上的糾錯方法來添加冗 余。它還利用磁盤條帶策略將一個文件分成多個字節(jié)并將該文件分 布到多個磁盤上。與鏡像 (RAID 1) 相比,該策略在磁盤利用率和 讀取/寫入性能方面只帶來了很小的改進。RAID 2 不如其他 RAID 級別效率高,通常不使用它。,RAID3-按位拆分,交錯 帶 奇偶校驗,糾正錯誤是用校驗碼和鏡像 恢復,該級別使用與 RAID 2 相同的條帶化方法,但是糾錯方法只需一個 磁盤用于奇偶校驗數(shù)據(jù)。磁盤空間的使用情況因數(shù)據(jù)磁盤的數(shù)量而 異。RAID 3 在讀取/寫入性能方面提供一些改進。RAID 3 也極少 使用。,RAID4-按塊拆分,校驗恢復:鏡像 和 校驗,該級別使用的條帶數(shù)據(jù)塊或段比 RAID 2 或 RAID 3 大得多。與 RAID 3 一樣,糾錯方法只需一個磁盤用于奇偶校驗數(shù)據(jù)。它將用 戶數(shù)據(jù)與糾錯數(shù)據(jù)分開。RAID 4 不如其他 RAID 級別效率高,通 常不使用。,RAID 5, ,寫雙份+奇偶校驗頁。 以改善可 靠性。是新設計中最常用的策略。 與RAID 4相似,它將數(shù)據(jù)以大塊 形式條帶化到陣列中的磁盤上。 不同之處在于它在所有磁盤之間 寫入奇偶校驗的方式。數(shù)據(jù)冗余 通過奇偶校驗信息提供。數(shù)據(jù)和 奇偶校驗信息會在磁盤陣列上排 列,所以這兩種信息總是位于不 同的磁盤上。 與磁盤鏡像 (RAID 1) 相比,具有 奇偶校驗的條帶化可提供更好的,性能。但是,當條帶成員丟失時 (例如,當磁盤發(fā)生故障時),,讀取性能會下降。RAID 5 是最常 用的 RAID 配置之一。,RAID5,RAID 0+1, ,該級別又稱作具有條帶化的鏡像。該級別使用條帶化的磁盤陣列,而 該陣列又鏡像到另一組相同的條帶化磁盤。 例如,可使用四個磁盤創(chuàng)建一個條帶化的陣列。然后,條帶化的磁盤 陣列使用另一組(四個)條帶化的磁盤進行鏡像。 RAID 10 提供磁盤條帶化帶來的性能益處以及鏡像帶來的磁盤冗余。 在所有的 RAID 級別中,RAID 10 提供的讀取/寫入性能最高,代價 是使用的磁盤數(shù)量是其他級別的兩倍。,RAID0+1,鏡像,低級模型-索引策略, ,B樹及B+樹索引、位圖索引等依然有效。 廣義索引, ,對于一些經(jīng)常性的查詢,利用一個規(guī)模小得多的“廣義索引”,比去 針對所有數(shù)據(jù)建立索引效率高,如上司的電話 廣義索引是在數(shù)據(jù)裝載的同時建立,它是一種元數(shù)據(jù) 廣義索引涉及的是用戶最關(guān)心的問題,需要在數(shù)據(jù)加載前進行調(diào)查 了解。比如使用頻率最高的10種藥物,使用頻率最低的藥物等。 比較適合經(jīng)常性的查詢,開銷比較小,目錄,Inmon數(shù)據(jù)倉庫設計, ,體系結(jié)構(gòu)化環(huán)境 三級模型, ,高級模型 中級模型 低級模型,性能優(yōu)化,數(shù)據(jù)倉庫的物理性能優(yōu)化, ,數(shù)據(jù)倉庫的具有數(shù)據(jù)量大,操作簡單(主要為查詢操作) 的特點,因此,數(shù)據(jù)倉庫的性能優(yōu)化主要集中在物理I/O 的性能上,應盡量減少I/O次數(shù),使每次I/O能夠返回盡量 多的記錄。 數(shù)據(jù)倉庫性能優(yōu)化所采取的措施有, ,劃分粒度 數(shù)據(jù)分割 表優(yōu)化, ,合并表 建立數(shù)據(jù)序列 引入冗余 表的物理分割 生成導出數(shù)據(jù) 建立廣義索引,數(shù)據(jù)倉庫中的數(shù)據(jù)是細節(jié)還是綜合?細節(jié)到 什么程度?綜合到什么程度?,綜合越高,數(shù)據(jù)量相對越小,查詢效率會更 高。故,合適的粒度設計會提高查詢效率。,性能優(yōu)化1:粒度設計, ,粒度是數(shù)據(jù)倉庫的重要概念。粒度指的是數(shù)據(jù)倉 庫中數(shù)據(jù)單元的細節(jié)程度或綜合程度的級別 數(shù)據(jù)倉庫中存在著不同的綜合級別,粒度越大, 表示細節(jié)程度越低,綜合程度越高。,高細節(jié)級,高粒度級 低細節(jié)級 一個顧客一個 月的電話綜合,低粒度級 一個顧客一個 月的電話明細, ,粒度影響數(shù)據(jù)倉庫的數(shù)據(jù)量的大小、查詢類型以 及效率,粒度具體表現(xiàn)為不同的層次,如時間、 組織結(jié)構(gòu)等 高粒度級數(shù)據(jù)是經(jīng)過壓縮后的,數(shù)據(jù)量小,查詢 效率高,但是查詢類型受到一定的限制 低粒度級的數(shù)據(jù)量大,查詢效率低,但支持的查 詢類型多 例如,對于高粒度級的數(shù)據(jù)倉庫可以回答“上個月 John從北京打出的長途電話有多少個?”,而不能 回答“今天John是否從北京打出長途電話?” 這樣 的問題需要低粒度級的數(shù)據(jù)倉庫 因此,采用高粒度還是低粒度需要做出權(quán)衡。對 于決策信息查詢一般采用高粒度級更為合適。,理解:粒度, ,粒度 與 官職 對應,大官 看 大粒度(大方向),小官 看 小粒度(細節(jié)) 為總理設計,粒度 面向 全國,高粒度,超大粒度; 為省長設計,粒度 面向 全省,較大粒度; 為縣長設計,粒度 面向 全縣,大粒度; 為鄉(xiāng)長設計,粒度 面向 全鄉(xiāng),小粒度,細粒度; 為村長設計(別拿村長不當干部),粒度 面向 全村, 超細粒度,張家有田幾畝?李家人丁幾何?,都 要有。 把村長用的粒度與總理用的粒度調(diào)換一下便知粒度的 重要性了,兩個肯定都叫苦。 實際設計中,一般我們要確認最低粒度,高粒度可以 由低粒度綜合而來。,粒度的形式,粒度可以分為三種形式, ,一般意義的粒度(指最低粒度,常用) 多重粒度(常用,效率高) 活樣本數(shù)據(jù)庫(效率高),在實際中,三種形式的粒度都有可能存在, ,第一種形式的粒度是對數(shù)據(jù)倉庫中的數(shù)據(jù)的綜合 程度高低的一個度量,指的是最低粒度。它既影 響數(shù)據(jù)倉庫中的數(shù)據(jù)量的多少,也影響數(shù)據(jù)倉庫 所能回答詢問的種類。細節(jié)程度越高,粒度級就 越低,回答查詢的種類就越多,(官越?。?。相 反,細節(jié)程度越低,粒度級就越高, (官越大),查詢效率將會提高。 數(shù)據(jù)倉庫的主要作用是DSS分析,因而其絕大部分 查詢都基于一定程度的綜合數(shù)據(jù)之上,而只有極 少的查詢涉及細節(jié)。所以,可以考慮將綜合數(shù)據(jù) 物化,即采用第二種粒度形式 多重粒度。,雙重粒度, ,當一個企業(yè)或組織的數(shù)據(jù)倉庫中擁有大量數(shù)據(jù)、 資源足夠,并需要多種類型的查詢以及追求高效 率的情況下,可以考慮多重粒度。 常用的是雙重粒度,即輕度綜合級(高粒度)和最 低粒度級(低粒度,當前細節(jié)級),輕度綜合級 April John Count:45 Average:14min ,最低粒度級 John 4.12 p.m. 6:01-6:12 4.12 p.m. 6:15-6:16 4.12 a.m. 9:12-9:23 , ,對于數(shù)據(jù)分析員來說,大部分時間是針對輕度綜合 級別(高粒度)的數(shù)據(jù)進行分析,所以,數(shù)據(jù)可以存 儲在I/O效率高的介質(zhì)上。 低粒度級的數(shù)據(jù)可以存儲在I/O效率相對較低的介 質(zhì)上,當DSS分析員需要分析更低的數(shù)據(jù)時,可以 對這些數(shù)據(jù)進行操作。但是,需要犧牲效率。 雙重粒度適合大多數(shù)機構(gòu)或組織的數(shù)據(jù)倉庫構(gòu)建, 單重粒度則只適用于相對較少的數(shù)據(jù)情況。 這樣,對于絕大多數(shù)查詢,性能將大大提高。而萬 一需要對細節(jié)查詢,小粒度數(shù)據(jù)也可以滿足。 采用多重粒度的目標是提高效率,不同級別物化, 當然會提高查詢效率,如果軟件硬件技術(shù)足夠先 進,則另當別論。,Cube中的粒度設計,維度粒度:維度一般是有層次結(jié)構(gòu)的,而粒度一般是 指最細粒度。,如,時間維度:年、季度、月、周、日是有層次的,其中, 首先需要確定的是最細粒度“日”,只有這個粒度確定了其他 層次的粒度才可以確定。,事實粒度:事實是由事實單元(度量)構(gòu)成的,每個 度量與參與維度的最細粒度相對應,所以,事實存儲 的是所有參與維度的最細粒度的度量值。,如,一個事實單元為:2005年10月20日(時間維度最細粒 度)、玉泉路物美超市食品部冷鮮柜組(部門維度最細粒 度)、食品類海鮮海蝦、銷售量:350kg。 350kg為最細粒 度的度量值。,活樣本數(shù)據(jù), ,活樣本數(shù)據(jù)是指從數(shù)據(jù)倉庫中取得的真實檔案數(shù)據(jù) 或輕度綜合數(shù)據(jù)的一個子集 “樣本”的含義是指一個更大的數(shù)據(jù)庫的一個子集 “活”是指這個數(shù)據(jù)需要進行周期刷新 與通常意義的粒度不同,活樣本數(shù)據(jù)庫的粒度級別 不是根據(jù)綜合程度的不同來劃分的,而是根據(jù)采樣 率的高低來劃分的 采樣粒度不同的樣本數(shù)據(jù)庫可以具有相同的綜合級 別,一般它是以一定的采樣率從細節(jié)檔案數(shù)據(jù)或輕 度綜合數(shù)據(jù)中抽取的一個子集。, ,活樣本數(shù)據(jù)庫不能回答一些細節(jié)性的問題 抽樣的方法很多,一般是隨機抽取?;顦颖緮?shù)據(jù)可以代 替源數(shù)據(jù)進行模擬分析 經(jīng)驗證明,在源數(shù)據(jù)量很大的情況下,抽樣數(shù)據(jù)量可大 大下降,如源數(shù)據(jù)量的1/100或1/1000,源數(shù)據(jù)量越大, 數(shù)據(jù)量下降的量越大,而得出的分析結(jié)果誤差極小,具 有很高的效率 活樣本數(shù)據(jù)庫的抽取可以按照數(shù)據(jù)的重要程度不同來進 行。并不是所有的數(shù)據(jù)對于具體的分析來說都具有相同 的價值,不能不分主次地對數(shù)據(jù)進行分析(選代表)。 利用活樣本數(shù)據(jù)庫的概念,可以收集重要的數(shù)據(jù)來進行 分析,既可提高分析效率,也有助于抓住主要因素和主 要矛盾。,活樣本數(shù)據(jù)的特點,活樣本數(shù)據(jù)庫的主要用途, ,特別是在分析工作中,有許多探索的過程,有時分析 的目的只是要建立起分析模型或是得到相對準確、能 反映趨勢的數(shù)據(jù),從而驗證用戶的猜想,為下一步的 策略確定方向或?qū)Ξ斍胺治龀绦蜃龀鱿鄳{(diào)整,而并 不要求精確的結(jié)果。 這種情況下樣本數(shù)據(jù)就大有用武之地!,性能優(yōu)化2:分區(qū), ,分區(qū)又稱分割,與數(shù)據(jù)庫系統(tǒng)中的分片概念近 似,是將一個表模式按照一定標準分成兩個或多 個表的模式,將數(shù)據(jù)分割稱小的物理單元(分片) 的過程。 與數(shù)據(jù)庫系統(tǒng)的分片相似,數(shù)據(jù)倉庫的分割也分 為水平分割、垂直分割、混合分割和導出分割。 把數(shù)據(jù)庫分區(qū)的技術(shù)“拿來主義”。 分區(qū)的目標仍然是提高數(shù)據(jù)倉庫的訪問效率,是 一種系統(tǒng)性能優(yōu)化策略。 優(yōu)點:分區(qū)可以使數(shù)據(jù)裝載、數(shù)據(jù)訪問、數(shù)據(jù)存 檔、數(shù)據(jù)重組、數(shù)據(jù)監(jiān)控、數(shù)據(jù)存儲等操作變得 簡單高效。,分割方法, ,數(shù)據(jù)量決定是否需要分割,規(guī)則:小的主題不分大的分; 不同主題的數(shù)據(jù)分割方法也不同,如商品按品類,供應商 按地址; 分割標準要簡單可行,一般與現(xiàn)實業(yè)務對應比較適合作為 標準; 分割與粒度掛鉤,即分片 對應 粒度級別 恰當?shù)臄?shù)據(jù)分區(qū)使得數(shù)據(jù)增長便于管理 如果數(shù)據(jù)分區(qū)不合理則會為數(shù)據(jù)增長和管理造成許多困難 簡單地說,數(shù)據(jù)倉庫的本質(zhì)之一是使數(shù)據(jù)訪問變得靈活高 效,如果都是大塊的數(shù)據(jù)就達不到這一目標 因此,一般情況下,對所有當前細節(jié)的數(shù)據(jù)倉庫都要進行 分區(qū)。,分區(qū)標準, ,數(shù)據(jù)分區(qū)的標準可以根據(jù)實際情況來確定,通常 可選擇按日期、地域、業(yè)務領域或組織單位等來 進行分區(qū),也可以按多個分區(qū)標準的組合來進行 一般而言,分區(qū)標準應包括日期項,它十分自然 而且分區(qū)均勻 分區(qū)之后,小單元內(nèi)的數(shù)據(jù)相對獨立,處理起來 更快、更容易,例子,一個按時間(年)和商品類型作為標準來組織的 分區(qū)例子,分區(qū)14 分區(qū)24 分區(qū)34 分區(qū)44,分區(qū)13 分區(qū)23 分區(qū)33 分區(qū)43,分區(qū)12 分區(qū)22 分區(qū)32 分區(qū)42,分區(qū)11 分區(qū)21 分區(qū)31 分區(qū)41,2000年 2001年 2
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 揚州市職業(yè)大學《兒童教育機構(gòu)創(chuàng)辦與品牌創(chuàng)建》2023-2024學年第一學期期末試卷
- 安徽水利水電職業(yè)技術(shù)學院《中外文學素養(yǎng)》2023-2024學年第二學期期末試卷
- 安徽省碭山縣聯(lián)考2025年初三下學期中考模擬(三)英語試題含答案
- 遼寧鐵道職業(yè)技術(shù)學院《多媒體系統(tǒng)綜合設計》2023-2024學年第二學期期末試卷
- 江西理工大學《養(yǎng)殖水環(huán)境化學》2023-2024學年第二學期期末試卷
- 2024-2025學年重慶江北區(qū)高三第二學期期末檢測試題語文試題含解析
- 浙江省2021屆高三生物上學期期中聯(lián)考試題及答案4份
- 法式護墻施工方案
- 2025民間工程合同范本
- 示例:2025研究開發(fā)委托合同(中英文對照)
- 2024年云南省昆明市五華區(qū)小升初數(shù)學試卷
- 2025年全球創(chuàng)新生態(tài)系統(tǒng)的未來展望
- 藝術(shù)色彩解讀
- 體育業(yè)務知識培訓課件
- 《淞滬會戰(zhàn)》課件
- 《社區(qū)共治共建共享研究的國內(nèi)外文獻綜述》4300字
- 軟件代碼審計與測試作業(yè)指導書
- 上消化道出血護理疑難病例討論記
- 城市軌道交通自動售票機
- 環(huán)境設計專業(yè)考察課程教學大綱
- 2024版互聯(lián)網(wǎng)企業(yè)股東合作協(xié)議書范本3篇
評論
0/150
提交評論