數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)結(jié)構(gòu)模型.ppt_第1頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)結(jié)構(gòu)模型.ppt_第2頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)結(jié)構(gòu)模型.ppt_第3頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)結(jié)構(gòu)模型.ppt_第4頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)結(jié)構(gòu)模型.ppt_第5頁(yè)
已閱讀5頁(yè),還剩64頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第 4 章,數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)結(jié)構(gòu)與模型,Inmon數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì), ,體系結(jié)構(gòu)化環(huán)境 三級(jí)模型, ,高級(jí)模型 中級(jí)模型 低級(jí)模型,性能優(yōu)化,目錄,數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)概述, ,與數(shù)據(jù)庫(kù)設(shè)計(jì)的區(qū)別 處理類型 應(yīng)用需求 設(shè)計(jì)目標(biāo) 數(shù)據(jù)來(lái)源 設(shè)計(jì)方法,數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)概述,數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)庫(kù)設(shè)計(jì)的區(qū)別,處理類型不同, ,數(shù)據(jù)庫(kù)系統(tǒng)設(shè)計(jì) 面向應(yīng)用來(lái)進(jìn)行設(shè)計(jì),根據(jù)具體的操作事件和操作對(duì)象 (實(shí)體)來(lái)進(jìn)行設(shè)計(jì); 目的是建立一個(gè)操作型的數(shù)據(jù)環(huán)境。 從需求開(kāi)始,逐步展開(kāi) 數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì) 面向分析的; 從最基本的主題開(kāi)始,不斷完善已有主題,發(fā)展新主 題; 最終建立起一個(gè)面向主題的分析型數(shù)據(jù)環(huán)境。,應(yīng)用需求不同,數(shù)據(jù)庫(kù)系統(tǒng)設(shè)計(jì) 面向明確的應(yīng)用需求 設(shè)計(jì)人員能夠清晰地了解應(yīng)用的需求和數(shù)據(jù)流程 數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì) 很難獲得對(duì)用戶需求的確切了解 應(yīng)用人員往往是企業(yè)的中高層人員 他們自己一開(kāi)始不知道想看什么,需要引導(dǎo) 后期又想什么東西都看,需要解釋,系統(tǒng)設(shè)計(jì)的目標(biāo),數(shù)據(jù)庫(kù)系統(tǒng)設(shè)計(jì), ,為了進(jìn)行OLTP處理 通常是對(duì)一個(gè)或者一組記錄的查詢和修改,“一次一集合” 主要為企業(yè)的特定應(yīng)用服務(wù)的 事務(wù)處理響應(yīng)時(shí)間、數(shù)據(jù)的安全性和完整性是系統(tǒng)的目標(biāo),數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì), ,為了分析決策 主要目標(biāo)是保證數(shù)據(jù)的四個(gè)特征(面向主題、集成的、穩(wěn)定的、時(shí) 變的),建立起一個(gè)全局一致的數(shù)據(jù)環(huán)境,作為企業(yè)決策支持的基 礎(chǔ) 只有查詢而無(wú)更新,“一次加載一批” 對(duì)響應(yīng)時(shí)間不敏感 數(shù)據(jù)量大,海量數(shù)據(jù),數(shù)據(jù)來(lái)源不同, ,數(shù)據(jù)庫(kù)系統(tǒng)設(shè)計(jì) 數(shù)據(jù)來(lái)源主要是業(yè)務(wù)操作員的輸入 描述如何通過(guò)操作員輸入獲取數(shù)據(jù) 描述如何將獲取的數(shù)據(jù)按照OLAP的需求合理存放 如何使得OLTP的性能更加優(yōu)化 如何保證事務(wù)處理的安全性 數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì) 數(shù)據(jù)主要來(lái)源于業(yè)務(wù)系統(tǒng) 主要解決如何從業(yè)務(wù)系統(tǒng)中得到完整一致的數(shù)據(jù) 如何對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換、清洗、綜合,ETL 如何有效提高數(shù)據(jù)分析的效率與準(zhǔn)確性,系統(tǒng)設(shè)計(jì)方法不同,數(shù)據(jù)庫(kù)系統(tǒng)設(shè)計(jì), ,“需求驅(qū)動(dòng)”; 先收集需求、分析需求,再進(jìn)行設(shè)計(jì)和開(kāi)發(fā); 系統(tǒng)的需求在收集和分析需求階段之后就定下來(lái)了,一旦進(jìn)入構(gòu)建 數(shù)據(jù)庫(kù)階段,系統(tǒng)的需求就基本不變了。,數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì), ,“數(shù)據(jù)驅(qū)動(dòng)” 從業(yè)務(wù)系統(tǒng)已經(jīng)存在的數(shù)據(jù)出發(fā),獲取之后對(duì)數(shù)據(jù)進(jìn)行集成并檢查 數(shù)據(jù)的準(zhǔn)確性 按照分析領(lǐng)域?qū)?shù)據(jù)及數(shù)據(jù)之間的聯(lián)系重新考察,組織數(shù)據(jù)倉(cāng)庫(kù)中 的主題。 “數(shù)據(jù)驅(qū)動(dòng)”的系統(tǒng)設(shè)計(jì)方法的優(yōu)點(diǎn)是可以通過(guò)了解原有數(shù)據(jù)庫(kù)系統(tǒng) 中的數(shù)據(jù)和需要建設(shè)的數(shù)據(jù)倉(cāng)庫(kù)中主題的數(shù)據(jù)的共同性,最大限度 地利用現(xiàn)有系統(tǒng),減少系統(tǒng)建設(shè)的工作量。,開(kāi)發(fā)生命周期-CLDS, ,傳統(tǒng)的數(shù)據(jù)庫(kù)系統(tǒng)的系統(tǒng)開(kāi)發(fā)生命周期(SDLC)是需 求驅(qū)動(dòng)的,而數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的開(kāi)發(fā)生命周期則是數(shù)據(jù) 驅(qū)動(dòng)的,與SDLC相反,一般寫作CLDS,這種寫法 沒(méi)有對(duì)應(yīng)的實(shí)際意義,是一種幽默的寫法。 CLDS由數(shù)據(jù)開(kāi)始,一旦數(shù)據(jù)到手就集成數(shù)據(jù)。然 后,如果數(shù)據(jù)有偏差,就檢驗(yàn)看看數(shù)據(jù)存在什么偏差。 再針對(duì)數(shù)據(jù)寫程序,分析程序執(zhí)行結(jié)果。最后,系統(tǒng) 需求才得到了理解。 因此,CASE工具和技術(shù)用于數(shù)據(jù)倉(cāng)庫(kù)領(lǐng)域是不合適 的。,數(shù)據(jù)倉(cāng)庫(kù) / DM 螺旋式方式,業(yè)務(wù)需求分析,設(shè)計(jì),建造,測(cè)試,培訓(xùn),試點(diǎn),部署,使用運(yùn)行,監(jiān)控,維護(hù),確認(rèn)新需求/改進(jìn),實(shí)施范圍,業(yè)務(wù)驅(qū)動(dòng)的 需求分析,設(shè)計(jì),建造,測(cè)試,培訓(xùn),試點(diǎn)應(yīng)用,部署,使用,監(jiān)控,維護(hù),發(fā)掘新需求 和改進(jìn),兩種數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì),Inmon數(shù)據(jù)倉(cāng)庫(kù), ,數(shù)據(jù)庫(kù)設(shè)計(jì)的模式 三級(jí)模型(高級(jí)、中級(jí)、低級(jí)) 存儲(chǔ):關(guān)系數(shù)據(jù)庫(kù),Kimball數(shù)據(jù)倉(cāng)庫(kù), ,維度建模技術(shù) 維度設(shè)計(jì)/度量設(shè)計(jì) 存儲(chǔ):多維數(shù)據(jù)庫(kù)/關(guān)系數(shù)據(jù)庫(kù),兩種數(shù)據(jù)倉(cāng)庫(kù)都需要面臨的主要設(shè)計(jì)問(wèn)題, ,粒度與分割 元數(shù)據(jù) ETL 索引,小結(jié), ,數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)不同于事務(wù)處理的數(shù)據(jù)庫(kù)的設(shè)計(jì),是 一個(gè)循序漸近的過(guò)程。 數(shù)據(jù)倉(cāng)庫(kù)的選型是一個(gè)非常重要的問(wèn)題,當(dāng)前,選用 Kimball數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行設(shè)計(jì)是很流行的,因此,實(shí)踐 中可優(yōu)先考慮。 面對(duì)復(fù)雜的數(shù)據(jù),基于維度建模技術(shù)的Kimball數(shù)據(jù) 倉(cāng)庫(kù)顯得無(wú)能為力,還需要深入探索,因此,面向復(fù) 雜數(shù)據(jù)類型的數(shù)據(jù)倉(cāng)庫(kù)是目前的研究熱點(diǎn)。,數(shù)據(jù)庫(kù)設(shè)計(jì)的三級(jí)模型,概念模型, ,從客觀世界到主觀認(rèn)識(shí)的映射 首先將現(xiàn)實(shí)世界抽象為概念模型,然后再用適合計(jì)算機(jī)世界的模型 和語(yǔ)言來(lái)描述 ER圖,邏輯模型, ,ER模型關(guān)系模型 規(guī)范化 視圖 約束,物理模型, ,DBMS選型 選擇數(shù)據(jù)庫(kù)文件的存儲(chǔ)結(jié)構(gòu) 索引 分配存儲(chǔ)空間,Inmon的三級(jí)模型,高級(jí)模型(高層模型)(數(shù)據(jù)庫(kù)設(shè)計(jì)-概念模型), ,即概念模型,用E-R圖表示 首先將現(xiàn)實(shí)世界抽象為概念模型,然后再用適合計(jì)算機(jī)世界的模型 和語(yǔ)言來(lái)描述,中級(jí)模型(中層模型)(數(shù)據(jù)庫(kù)設(shè)計(jì)-邏輯模型), ,數(shù)據(jù)項(xiàng)(Data item set,DIS)模型 ER圖的細(xì)分 每個(gè)主題都與一個(gè)DIS對(duì)應(yīng) DIS中的數(shù)據(jù)分為4個(gè)組別:基本數(shù)據(jù)組、二級(jí)數(shù)據(jù)組、連接數(shù)據(jù) 組和類型數(shù)據(jù)組 關(guān)系表(原模型不存在,補(bǔ)充的),低級(jí)模型(底層模型)(數(shù)據(jù)庫(kù)設(shè)計(jì)-物理模型),物理數(shù)據(jù)模型,每個(gè)企業(yè)的業(yè)務(wù)模型只有一個(gè),父,子1,子2,概念模型與實(shí)現(xiàn)無(wú)關(guān),只有一個(gè),邏輯模型:概念模型的映射,多個(gè),物理模型:與邏輯模型對(duì)應(yīng),為其實(shí)現(xiàn)方式,實(shí)體,主題,DIS,表,實(shí)體 對(duì)應(yīng) 主題?,目錄,Inmon數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì), ,體系結(jié)構(gòu)化環(huán)境 三級(jí)模型, ,高級(jí)模型 中級(jí)模型 低級(jí)模型,性能優(yōu)化,中級(jí)模型-DIS, ,中層模型通過(guò)所謂的DIS(Data Item Set, 數(shù)據(jù)項(xiàng)集) 描述,DIS是對(duì)高層模型的細(xì)分,高層模型中的每個(gè) 主題域(或?qū)嶓w)都要建立一個(gè)中間層模型,即對(duì)ER模 型的細(xì)分。 在中層數(shù)據(jù)模型上,有四個(gè)基本構(gòu)造:, ,初始數(shù)據(jù)組 二次數(shù)據(jù)組 連接件,表示主要主題域間的數(shù)據(jù)關(guān)系 數(shù)據(jù)“類型”, ,數(shù)據(jù)組之間通過(guò)鍵連接。 數(shù)據(jù)組劃分標(biāo)準(zhǔn):穩(wěn)定性 穩(wěn)定性順序:初始數(shù)據(jù)組二次數(shù)據(jù)組類型數(shù)據(jù)組 分組的目的:根據(jù)穩(wěn)定性將數(shù)據(jù)分開(kāi),提高加載效率,13,高級(jí)模型中級(jí)模型映射,一個(gè)實(shí)體/主題對(duì)應(yīng)一個(gè)DIS,初始數(shù)據(jù)組(主要數(shù)據(jù)組), ,每個(gè)主要主題域有且只有一個(gè)主要數(shù)據(jù)組,其中包含 了每個(gè)主要主題域只出現(xiàn)一次的屬性(穩(wěn)定)。 同所有的數(shù)據(jù)組一樣,初始數(shù)據(jù)組有屬性和鍵碼。 一個(gè)主要數(shù)據(jù)組對(duì)應(yīng)一個(gè)主題域。 初始數(shù)據(jù)組的數(shù)據(jù)穩(wěn)定性最高,一般情況下是不變化的。 姓名、性別、住址,二級(jí)數(shù)據(jù)分組, ,包含對(duì)每個(gè)主要主題域可以存在多次的屬性。有多少 可以出現(xiàn)多次的不同數(shù)據(jù)組,就含有多少二級(jí)數(shù)據(jù)組。 如一對(duì)多。 二級(jí)數(shù)據(jù)分組的數(shù)據(jù)穩(wěn)定性相對(duì)初級(jí)數(shù)據(jù)組要弱一 些,但比類型數(shù)據(jù)組的數(shù)據(jù)穩(wěn)定性要高。,連接件, ,表示兩個(gè)主要主題域間的數(shù)據(jù)關(guān)系,兩個(gè)主題的聯(lián)系。 將數(shù)據(jù)從一個(gè)組到另一個(gè)組聯(lián)系起來(lái)。在E-R圖層確 定的關(guān)系在DIS層都必須有與其對(duì)應(yīng)的連接件。主鍵 與外鍵。 連接器表明,數(shù)據(jù)倉(cāng)庫(kù)中的主題域之間是關(guān)聯(lián)的,可 見(jiàn),通過(guò)連接件實(shí)現(xiàn)Inmon數(shù)據(jù)倉(cāng)庫(kù) 成為 有機(jī)整 體,這在Kimball數(shù)據(jù)倉(cāng)庫(kù)中是不存在的。 討論:如果用于連接一個(gè)主題的不同數(shù)據(jù)組,連接件 就是就是ER模型中的聯(lián)系,連接不同主題域也是ER 模型中的聯(lián)系。具體通過(guò)鍵(無(wú)論ER模型中還是邏 輯模型都有這個(gè)概念)連接實(shí)現(xiàn)。結(jié)論:連接件=聯(lián) 系。,數(shù)據(jù)的“類型”, ,數(shù)據(jù)的“類型”由指向數(shù)據(jù)組的線段指示。左邊的數(shù)據(jù) 組是超類型,右邊的數(shù)據(jù)組是子類型。 類型數(shù)據(jù)組的數(shù)據(jù)的穩(wěn)定性最低,會(huì)經(jīng)常變化。 如,一個(gè)人的信息(主要數(shù)據(jù)分組)與他所做的事情 (類型,分類了:工作、生活、情感)。,DIS中的各組件,連接件,例子:DIS中數(shù)據(jù)組的穩(wěn)定性, ,顧客的顧客號(hào)、姓名、性別等描述信息基本報(bào)紙不 變,比較穩(wěn)定,可作為主要數(shù)據(jù)組 顧客的住址、文化程度、電話等也基本穩(wěn)定,但存在 改變的可能,相對(duì)主要數(shù)據(jù)組中的信息穩(wěn)定性要弱一 些,可作為二級(jí)數(shù)據(jù)組 顧客的采購(gòu)記錄則經(jīng)常發(fā)生變化,其穩(wěn)定性低,因 此,作為類型數(shù)據(jù)組 這樣劃分的好處:結(jié)構(gòu)清晰、減少冗余,例子:一個(gè)DIS,連接件,基本數(shù)據(jù)組,商品ID,客戶ID 姓名 性別,身份證號(hào)碼,住址 文化程度 電話 Email,交易ID 商品金額 購(gòu)買時(shí)間,交易ID 商品金額 購(gòu)買時(shí)間 交易ID 商品金額 購(gòu)買時(shí)間,類型數(shù)據(jù)組,電器,服裝 圖書(shū),一個(gè)主題,商品ID 連接件 二級(jí)數(shù)據(jù)組 另一個(gè)主題,局部DIS與全局DIS, ,與企業(yè)ERD構(gòu)建方 法一樣(由反映不 同用戶群體的不同 ERD所建成,局部 ER全局ER), 企業(yè)DIS由多個(gè)DIS 建成,在進(jìn)行對(duì)個(gè) 別用戶的訪問(wèn)或 JAD (聯(lián)合應(yīng)用程序 設(shè)計(jì))會(huì)議時(shí),就要 生成一個(gè)DIS和一個(gè) ERD。 小范圍的DIS和其他 所有DIS一起形成一 個(gè)反映企業(yè)觀點(diǎn)的 DIS。,目錄,Inmon數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì), ,體系結(jié)構(gòu)化環(huán)境 三級(jí)模型, ,高級(jí)模型 中級(jí)模型 低級(jí)模型,性能優(yōu)化,低級(jí)模型, ,底層模型是邏輯模型在數(shù)據(jù)倉(cāng)庫(kù)中的具體實(shí)現(xiàn),如物 理存取方式、數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)、數(shù)據(jù)存儲(chǔ)位置、存儲(chǔ)分 配等。 低級(jí)模型具體表現(xiàn)為一系列的關(guān)系表。 低級(jí)模型設(shè)計(jì)所要考慮的主要因素有, ,I/O存取時(shí)間、空間利用率和維護(hù)代價(jià) 數(shù)據(jù)倉(cāng)庫(kù)性能優(yōu)化,如合并表、引入冗余等技術(shù),討論:DIS能直接實(shí)現(xiàn)嗎?, ,Inmon的設(shè)計(jì)模型沒(méi)有探討DIS是如何過(guò)渡到低級(jí)模 型的,中間似乎缺了一個(gè)重要的環(huán)節(jié)。 這個(gè)環(huán)節(jié)是:關(guān)系表。 關(guān)系表在原設(shè)計(jì)模型中沒(méi)有深入討論,遺憾!DIS仍 然處于概念模型階段,無(wú)非是細(xì)化了,低級(jí)模型則直 接實(shí)現(xiàn)了,關(guān)系表在哪里設(shè)計(jì)的?缺憾!應(yīng)該放在中 間模型比較合適。 補(bǔ)充:DIS 到 關(guān)系表 的映射,參考ER模型到關(guān)系 模型的轉(zhuǎn)化。有了關(guān)系表,具體實(shí)現(xiàn)(低級(jí)模型)就 沒(méi)有問(wèn)題。,了解:低級(jí)模型-存儲(chǔ)結(jié)構(gòu),分布式存儲(chǔ), ,采用磁盤陣列在多個(gè)節(jié)點(diǎn)間以分布的方式來(lái)存儲(chǔ)數(shù)據(jù) 物理上是分布的,但是邏輯上是統(tǒng)一的,集中式存儲(chǔ), ,將現(xiàn)有SAN(存儲(chǔ)局域網(wǎng))或者NAS(網(wǎng)絡(luò)連接存儲(chǔ))作為 服務(wù)器的存儲(chǔ)部分 直接通過(guò)FC交換機(jī)來(lái)直接訪問(wèn)所有的數(shù)據(jù)而不需要通過(guò)其他 節(jié)點(diǎn) 可以將節(jié)點(diǎn)從數(shù)據(jù)存儲(chǔ)管理的負(fù)擔(dān)中解脫出來(lái),實(shí)現(xiàn)數(shù)據(jù)處 理和數(shù)據(jù)存儲(chǔ)的分離。,分布式存儲(chǔ),集中式存儲(chǔ),RAID思想,RAID: Redundant Arrays of Inexpensive Disks (冗余 廉價(jià)磁 盤陣列 ),多盤聯(lián)合, 統(tǒng)一對(duì)外 ,高速 高容量, 高可靠性,high capacity,high speed high reliability, ,生活中的RAID, “三個(gè)臭皮匠抵上一個(gè)諸葛亮”,雇傭 三個(gè) 臭皮匠 還是雇傭 諸葛亮?三個(gè)臭皮匠的成本要低 攔截導(dǎo)彈 A型 命中率0.7 ,100萬(wàn)美元 B型 命中率0.9 ,1000萬(wàn)美元, ,用兩個(gè)A型,至少一個(gè)命中的概率 1-(1-0.7)2= 0.91 用3個(gè)A型,至少一個(gè)命中的概率 1-(1-0.7)3= 0.97 可用機(jī)關(guān)炮打巡航導(dǎo)彈(合算),用多個(gè)低價(jià)盤代高價(jià)盤, ,思想:冗余 提高可靠性,并行提高速度 后面的推理基于一個(gè)假定: 兩個(gè)廉價(jià)磁盤 在同一個(gè)修復(fù)時(shí) 間(幾小時(shí))內(nèi)同時(shí)發(fā)生故障的概率 很低。,數(shù)據(jù)拆分, ,這么多冗余磁盤,怎么存儲(chǔ)數(shù)據(jù)?數(shù)據(jù)拆分 塊拆分 邏輯第 I 塊 放到(I mod N)+1號(hào)磁盤上,排排 坐 位拆分 當(dāng)塊的大小為1bit時(shí),稱為 Bit-Level Striping 位拆分(比特級(jí)拆分),將字節(jié)按bit拆分,存儲(chǔ)到多 個(gè)磁盤上(如分到8個(gè)磁盤上),這樣多個(gè)磁盤就形 成一個(gè)邏輯上磁盤。讀取的數(shù)據(jù)量成倍放大,(如每 次訪問(wèn)讀取一個(gè)磁盤的8倍數(shù)據(jù)量,I/O一次(并行), 數(shù)據(jù)量8倍,可觀!),RAID,RAID磁盤陣列, ,廉價(jià)冗余磁盤陣列是一種采用多磁盤驅(qū)動(dòng)器來(lái)存儲(chǔ)數(shù)據(jù)的數(shù) 據(jù)存儲(chǔ)系統(tǒng) 分為6個(gè)級(jí)別:RAID0、1、2、3、4、5及RAID0+1,2、3、4 使用頻率較低,5、0、1、0+1使用較多。 在 RAID 的各個(gè)級(jí)別中,RAID 1 和 RAID 0+1 提供最佳的 數(shù)據(jù)保護(hù)和最佳性能,但是就所需的磁盤而言會(huì)需要更多的 成本。當(dāng)硬盤成本不是限制因素時(shí),就兼顧性能和容錯(cuò)而 言,RAID 1 或 RAID 0+1 是最佳選擇。 RAID 5 的成本比 RAID 1 或 RAID 0+1 低,但是它提供的容 錯(cuò)和寫入性能較差。RAID 5 的寫入性能大約只是 RAID 1 或 RAID 0+1 的一半,這是因?yàn)?RAID 5 讀取和寫入奇偶校驗(yàn) 信息需要額外的 I/O。,RAID 0, ,塊級(jí)拆分,無(wú)冗余,多盤并發(fā) (實(shí)用中, 只用Level 1和5) 因?yàn)樵摷?jí)別使用名為條帶集的磁盤文件系統(tǒng),所以又將它稱作 磁盤條帶。數(shù)據(jù)被劃分成多個(gè)塊并按固定順序分布到陣列中的 所有磁盤上。RAID 0將多個(gè)操作分布到多個(gè)磁盤上,以便可以 同時(shí)獨(dú)立地執(zhí)行這些操作,從而改善了讀取/寫入性能。RAID 0類似于 RAID 5,但是 RAID 5 還提供容錯(cuò)功能。,RAID 1-寫雙份,讀一份,因?yàn)樵摷?jí)別使用名為鏡像集的磁盤文件系統(tǒng),所以又 將它稱作磁盤鏡像。磁盤鏡像可提供一個(gè)與所選磁盤 完全相同的冗余副本。寫入主磁盤的所有數(shù)據(jù)都會(huì)寫 入鏡像磁盤。RAID 1 提供了容錯(cuò)功能,而且通???以改進(jìn)讀取性能(但是可能會(huì)降低寫入性能) RAID1,RAID 2、3、4,RAID2-按位拆分+校驗(yàn)位,該級(jí)別通過(guò)使用將奇偶校驗(yàn)分布到所有磁盤上的糾錯(cuò)方法來(lái)添加冗 余。它還利用磁盤條帶策略將一個(gè)文件分成多個(gè)字節(jié)并將該文件分 布到多個(gè)磁盤上。與鏡像 (RAID 1) 相比,該策略在磁盤利用率和 讀取/寫入性能方面只帶來(lái)了很小的改進(jìn)。RAID 2 不如其他 RAID 級(jí)別效率高,通常不使用它。,RAID3-按位拆分,交錯(cuò) 帶 奇偶校驗(yàn),糾正錯(cuò)誤是用校驗(yàn)碼和鏡像 恢復(fù),該級(jí)別使用與 RAID 2 相同的條帶化方法,但是糾錯(cuò)方法只需一個(gè) 磁盤用于奇偶校驗(yàn)數(shù)據(jù)。磁盤空間的使用情況因數(shù)據(jù)磁盤的數(shù)量而 異。RAID 3 在讀取/寫入性能方面提供一些改進(jìn)。RAID 3 也極少 使用。,RAID4-按塊拆分,校驗(yàn)恢復(fù):鏡像 和 校驗(yàn),該級(jí)別使用的條帶數(shù)據(jù)塊或段比 RAID 2 或 RAID 3 大得多。與 RAID 3 一樣,糾錯(cuò)方法只需一個(gè)磁盤用于奇偶校驗(yàn)數(shù)據(jù)。它將用 戶數(shù)據(jù)與糾錯(cuò)數(shù)據(jù)分開(kāi)。RAID 4 不如其他 RAID 級(jí)別效率高,通 常不使用。,RAID 5, ,寫雙份+奇偶校驗(yàn)頁(yè)。 以改善可 靠性。是新設(shè)計(jì)中最常用的策略。 與RAID 4相似,它將數(shù)據(jù)以大塊 形式條帶化到陣列中的磁盤上。 不同之處在于它在所有磁盤之間 寫入奇偶校驗(yàn)的方式。數(shù)據(jù)冗余 通過(guò)奇偶校驗(yàn)信息提供。數(shù)據(jù)和 奇偶校驗(yàn)信息會(huì)在磁盤陣列上排 列,所以這兩種信息總是位于不 同的磁盤上。 與磁盤鏡像 (RAID 1) 相比,具有 奇偶校驗(yàn)的條帶化可提供更好的,性能。但是,當(dāng)條帶成員丟失時(shí) (例如,當(dāng)磁盤發(fā)生故障時(shí)),,讀取性能會(huì)下降。RAID 5 是最常 用的 RAID 配置之一。,RAID5,RAID 0+1, ,該級(jí)別又稱作具有條帶化的鏡像。該級(jí)別使用條帶化的磁盤陣列,而 該陣列又鏡像到另一組相同的條帶化磁盤。 例如,可使用四個(gè)磁盤創(chuàng)建一個(gè)條帶化的陣列。然后,條帶化的磁盤 陣列使用另一組(四個(gè))條帶化的磁盤進(jìn)行鏡像。 RAID 10 提供磁盤條帶化帶來(lái)的性能益處以及鏡像帶來(lái)的磁盤冗余。 在所有的 RAID 級(jí)別中,RAID 10 提供的讀取/寫入性能最高,代價(jià) 是使用的磁盤數(shù)量是其他級(jí)別的兩倍。,RAID0+1,鏡像,低級(jí)模型-索引策略, ,B樹(shù)及B+樹(shù)索引、位圖索引等依然有效。 廣義索引, ,對(duì)于一些經(jīng)常性的查詢,利用一個(gè)規(guī)模小得多的“廣義索引”,比去 針對(duì)所有數(shù)據(jù)建立索引效率高,如上司的電話 廣義索引是在數(shù)據(jù)裝載的同時(shí)建立,它是一種元數(shù)據(jù) 廣義索引涉及的是用戶最關(guān)心的問(wèn)題,需要在數(shù)據(jù)加載前進(jìn)行調(diào)查 了解。比如使用頻率最高的10種藥物,使用頻率最低的藥物等。 比較適合經(jīng)常性的查詢,開(kāi)銷比較小,目錄,Inmon數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì), ,體系結(jié)構(gòu)化環(huán)境 三級(jí)模型, ,高級(jí)模型 中級(jí)模型 低級(jí)模型,性能優(yōu)化,數(shù)據(jù)倉(cāng)庫(kù)的物理性能優(yōu)化, ,數(shù)據(jù)倉(cāng)庫(kù)的具有數(shù)據(jù)量大,操作簡(jiǎn)單(主要為查詢操作) 的特點(diǎn),因此,數(shù)據(jù)倉(cāng)庫(kù)的性能優(yōu)化主要集中在物理I/O 的性能上,應(yīng)盡量減少I/O次數(shù),使每次I/O能夠返回盡量 多的記錄。 數(shù)據(jù)倉(cāng)庫(kù)性能優(yōu)化所采取的措施有, ,劃分粒度 數(shù)據(jù)分割 表優(yōu)化, ,合并表 建立數(shù)據(jù)序列 引入冗余 表的物理分割 生成導(dǎo)出數(shù)據(jù) 建立廣義索引,數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是細(xì)節(jié)還是綜合?細(xì)節(jié)到 什么程度?綜合到什么程度?,綜合越高,數(shù)據(jù)量相對(duì)越小,查詢效率會(huì)更 高。故,合適的粒度設(shè)計(jì)會(huì)提高查詢效率。,性能優(yōu)化1:粒度設(shè)計(jì), ,粒度是數(shù)據(jù)倉(cāng)庫(kù)的重要概念。粒度指的是數(shù)據(jù)倉(cāng) 庫(kù)中數(shù)據(jù)單元的細(xì)節(jié)程度或綜合程度的級(jí)別 數(shù)據(jù)倉(cāng)庫(kù)中存在著不同的綜合級(jí)別,粒度越大, 表示細(xì)節(jié)程度越低,綜合程度越高。,高細(xì)節(jié)級(jí),高粒度級(jí) 低細(xì)節(jié)級(jí) 一個(gè)顧客一個(gè) 月的電話綜合,低粒度級(jí) 一個(gè)顧客一個(gè) 月的電話明細(xì), ,粒度影響數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)量的大小、查詢類型以 及效率,粒度具體表現(xiàn)為不同的層次,如時(shí)間、 組織結(jié)構(gòu)等 高粒度級(jí)數(shù)據(jù)是經(jīng)過(guò)壓縮后的,數(shù)據(jù)量小,查詢 效率高,但是查詢類型受到一定的限制 低粒度級(jí)的數(shù)據(jù)量大,查詢效率低,但支持的查 詢類型多 例如,對(duì)于高粒度級(jí)的數(shù)據(jù)倉(cāng)庫(kù)可以回答“上個(gè)月 John從北京打出的長(zhǎng)途電話有多少個(gè)?”,而不能 回答“今天John是否從北京打出長(zhǎng)途電話?” 這樣 的問(wèn)題需要低粒度級(jí)的數(shù)據(jù)倉(cāng)庫(kù) 因此,采用高粒度還是低粒度需要做出權(quán)衡。對(duì) 于決策信息查詢一般采用高粒度級(jí)更為合適。,理解:粒度, ,粒度 與 官職 對(duì)應(yīng),大官 看 大粒度(大方向),小官 看 小粒度(細(xì)節(jié)) 為總理設(shè)計(jì),粒度 面向 全國(guó),高粒度,超大粒度; 為省長(zhǎng)設(shè)計(jì),粒度 面向 全省,較大粒度; 為縣長(zhǎng)設(shè)計(jì),粒度 面向 全縣,大粒度; 為鄉(xiāng)長(zhǎng)設(shè)計(jì),粒度 面向 全鄉(xiāng),小粒度,細(xì)粒度; 為村長(zhǎng)設(shè)計(jì)(別拿村長(zhǎng)不當(dāng)干部),粒度 面向 全村, 超細(xì)粒度,張家有田幾畝?李家人丁幾何?,都 要有。 把村長(zhǎng)用的粒度與總理用的粒度調(diào)換一下便知粒度的 重要性了,兩個(gè)肯定都叫苦。 實(shí)際設(shè)計(jì)中,一般我們要確認(rèn)最低粒度,高粒度可以 由低粒度綜合而來(lái)。,粒度的形式,粒度可以分為三種形式, ,一般意義的粒度(指最低粒度,常用) 多重粒度(常用,效率高) 活樣本數(shù)據(jù)庫(kù)(效率高),在實(shí)際中,三種形式的粒度都有可能存在, ,第一種形式的粒度是對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)的綜合 程度高低的一個(gè)度量,指的是最低粒度。它既影 響數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)量的多少,也影響數(shù)據(jù)倉(cāng)庫(kù) 所能回答詢問(wèn)的種類。細(xì)節(jié)程度越高,粒度級(jí)就 越低,回答查詢的種類就越多,(官越?。O?反,細(xì)節(jié)程度越低,粒度級(jí)就越高, (官越大),查詢效率將會(huì)提高。 數(shù)據(jù)倉(cāng)庫(kù)的主要作用是DSS分析,因而其絕大部分 查詢都基于一定程度的綜合數(shù)據(jù)之上,而只有極 少的查詢涉及細(xì)節(jié)。所以,可以考慮將綜合數(shù)據(jù) 物化,即采用第二種粒度形式 多重粒度。,雙重粒度, ,當(dāng)一個(gè)企業(yè)或組織的數(shù)據(jù)倉(cāng)庫(kù)中擁有大量數(shù)據(jù)、 資源足夠,并需要多種類型的查詢以及追求高效 率的情況下,可以考慮多重粒度。 常用的是雙重粒度,即輕度綜合級(jí)(高粒度)和最 低粒度級(jí)(低粒度,當(dāng)前細(xì)節(jié)級(jí)),輕度綜合級(jí) April John Count:45 Average:14min ,最低粒度級(jí) John 4.12 p.m. 6:01-6:12 4.12 p.m. 6:15-6:16 4.12 a.m. 9:12-9:23 , ,對(duì)于數(shù)據(jù)分析員來(lái)說(shuō),大部分時(shí)間是針對(duì)輕度綜合 級(jí)別(高粒度)的數(shù)據(jù)進(jìn)行分析,所以,數(shù)據(jù)可以存 儲(chǔ)在I/O效率高的介質(zhì)上。 低粒度級(jí)的數(shù)據(jù)可以存儲(chǔ)在I/O效率相對(duì)較低的介 質(zhì)上,當(dāng)DSS分析員需要分析更低的數(shù)據(jù)時(shí),可以 對(duì)這些數(shù)據(jù)進(jìn)行操作。但是,需要犧牲效率。 雙重粒度適合大多數(shù)機(jī)構(gòu)或組織的數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建, 單重粒度則只適用于相對(duì)較少的數(shù)據(jù)情況。 這樣,對(duì)于絕大多數(shù)查詢,性能將大大提高。而萬(wàn) 一需要對(duì)細(xì)節(jié)查詢,小粒度數(shù)據(jù)也可以滿足。 采用多重粒度的目標(biāo)是提高效率,不同級(jí)別物化, 當(dāng)然會(huì)提高查詢效率,如果軟件硬件技術(shù)足夠先 進(jìn),則另當(dāng)別論。,Cube中的粒度設(shè)計(jì),維度粒度:維度一般是有層次結(jié)構(gòu)的,而粒度一般是 指最細(xì)粒度。,如,時(shí)間維度:年、季度、月、周、日是有層次的,其中, 首先需要確定的是最細(xì)粒度“日”,只有這個(gè)粒度確定了其他 層次的粒度才可以確定。,事實(shí)粒度:事實(shí)是由事實(shí)單元(度量)構(gòu)成的,每個(gè) 度量與參與維度的最細(xì)粒度相對(duì)應(yīng),所以,事實(shí)存儲(chǔ) 的是所有參與維度的最細(xì)粒度的度量值。,如,一個(gè)事實(shí)單元為:2005年10月20日(時(shí)間維度最細(xì)粒 度)、玉泉路物美超市食品部冷鮮柜組(部門維度最細(xì)粒 度)、食品類海鮮海蝦、銷售量:350kg。 350kg為最細(xì)粒 度的度量值。,活樣本數(shù)據(jù), ,活樣本數(shù)據(jù)是指從數(shù)據(jù)倉(cāng)庫(kù)中取得的真實(shí)檔案數(shù)據(jù) 或輕度綜合數(shù)據(jù)的一個(gè)子集 “樣本”的含義是指一個(gè)更大的數(shù)據(jù)庫(kù)的一個(gè)子集 “活”是指這個(gè)數(shù)據(jù)需要進(jìn)行周期刷新 與通常意義的粒度不同,活樣本數(shù)據(jù)庫(kù)的粒度級(jí)別 不是根據(jù)綜合程度的不同來(lái)劃分的,而是根據(jù)采樣 率的高低來(lái)劃分的 采樣粒度不同的樣本數(shù)據(jù)庫(kù)可以具有相同的綜合級(jí) 別,一般它是以一定的采樣率從細(xì)節(jié)檔案數(shù)據(jù)或輕 度綜合數(shù)據(jù)中抽取的一個(gè)子集。, ,活樣本數(shù)據(jù)庫(kù)不能回答一些細(xì)節(jié)性的問(wèn)題 抽樣的方法很多,一般是隨機(jī)抽取?;顦颖緮?shù)據(jù)可以代 替源數(shù)據(jù)進(jìn)行模擬分析 經(jīng)驗(yàn)證明,在源數(shù)據(jù)量很大的情況下,抽樣數(shù)據(jù)量可大 大下降,如源數(shù)據(jù)量的1/100或1/1000,源數(shù)據(jù)量越大, 數(shù)據(jù)量下降的量越大,而得出的分析結(jié)果誤差極小,具 有很高的效率 活樣本數(shù)據(jù)庫(kù)的抽取可以按照數(shù)據(jù)的重要程度不同來(lái)進(jìn) 行。并不是所有的數(shù)據(jù)對(duì)于具體的分析來(lái)說(shuō)都具有相同 的價(jià)值,不能不分主次地對(duì)數(shù)據(jù)進(jìn)行分析(選代表)。 利用活樣本數(shù)據(jù)庫(kù)的概念,可以收集重要的數(shù)據(jù)來(lái)進(jìn)行 分析,既可提高分析效率,也有助于抓住主要因素和主 要矛盾。,活樣本數(shù)據(jù)的特點(diǎn),活樣本數(shù)據(jù)庫(kù)的主要用途, ,特別是在分析工作中,有許多探索的過(guò)程,有時(shí)分析 的目的只是要建立起分析模型或是得到相對(duì)準(zhǔn)確、能 反映趨勢(shì)的數(shù)據(jù),從而驗(yàn)證用戶的猜想,為下一步的 策略確定方向或?qū)Ξ?dāng)前分析程序做出相應(yīng)調(diào)整,而并 不要求精確的結(jié)果。 這種情況下樣本數(shù)據(jù)就大有用武之地!,性能優(yōu)化2:分區(qū), ,分區(qū)又稱分割,與數(shù)據(jù)庫(kù)系統(tǒng)中的分片概念近 似,是將一個(gè)表模式按照一定標(biāo)準(zhǔn)分成兩個(gè)或多 個(gè)表的模式,將數(shù)據(jù)分割稱小的物理單元(分片) 的過(guò)程。 與數(shù)據(jù)庫(kù)系統(tǒng)的分片相似,數(shù)據(jù)倉(cāng)庫(kù)的分割也分 為水平分割、垂直分割、混合分割和導(dǎo)出分割。 把數(shù)據(jù)庫(kù)分區(qū)的技術(shù)“拿來(lái)主義”。 分區(qū)的目標(biāo)仍然是提高數(shù)據(jù)倉(cāng)庫(kù)的訪問(wèn)效率,是 一種系統(tǒng)性能優(yōu)化策略。 優(yōu)點(diǎn):分區(qū)可以使數(shù)據(jù)裝載、數(shù)據(jù)訪問(wèn)、數(shù)據(jù)存 檔、數(shù)據(jù)重組、數(shù)據(jù)監(jiān)控、數(shù)據(jù)存儲(chǔ)等操作變得 簡(jiǎn)單高效。,分割方法, ,數(shù)據(jù)量決定是否需要分割,規(guī)則:小的主題不分大的分; 不同主題的數(shù)據(jù)分割方法也不同,如商品按品類,供應(yīng)商 按地址; 分割標(biāo)準(zhǔn)要簡(jiǎn)單可行,一般與現(xiàn)實(shí)業(yè)務(wù)對(duì)應(yīng)比較適合作為 標(biāo)準(zhǔn); 分割與粒度掛鉤,即分片 對(duì)應(yīng) 粒度級(jí)別 恰當(dāng)?shù)臄?shù)據(jù)分區(qū)使得數(shù)據(jù)增長(zhǎng)便于管理 如果數(shù)據(jù)分區(qū)不合理則會(huì)為數(shù)據(jù)增長(zhǎng)和管理造成許多困難 簡(jiǎn)單地說(shuō),數(shù)據(jù)倉(cāng)庫(kù)的本質(zhì)之一是使數(shù)據(jù)訪問(wèn)變得靈活高 效,如果都是大塊的數(shù)據(jù)就達(dá)不到這一目標(biāo) 因此,一般情況下,對(duì)所有當(dāng)前細(xì)節(jié)的數(shù)據(jù)倉(cāng)庫(kù)都要進(jìn)行 分區(qū)。,分區(qū)標(biāo)準(zhǔn), ,數(shù)據(jù)分區(qū)的標(biāo)準(zhǔn)可以根據(jù)實(shí)際情況來(lái)確定,通常 可選擇按日期、地域、業(yè)務(wù)領(lǐng)域或組織單位等來(lái) 進(jìn)行分區(qū),也可以按多個(gè)分區(qū)標(biāo)準(zhǔn)的組合來(lái)進(jìn)行 一般而言,分區(qū)標(biāo)準(zhǔn)應(yīng)包括日期項(xiàng),它十分自然 而且分區(qū)均勻 分區(qū)之后,小單元內(nèi)的數(shù)據(jù)相對(duì)獨(dú)立,處理起來(lái) 更快、更容易,例子,一個(gè)按時(shí)間(年)和商品類型作為標(biāo)準(zhǔn)來(lái)組織的 分區(qū)例子,分區(qū)14 分區(qū)24 分區(qū)34 分區(qū)44,分區(qū)13 分區(qū)23 分區(qū)33 分區(qū)43,分區(qū)12 分區(qū)22 分區(qū)32 分區(qū)42,分區(qū)11 分區(qū)21 分區(qū)31 分區(qū)41,2000年 2001年 2

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論