數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)結(jié)構(gòu)模型_第1頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)結(jié)構(gòu)模型_第2頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)結(jié)構(gòu)模型_第3頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)結(jié)構(gòu)模型_第4頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)結(jié)構(gòu)模型_第5頁(yè)
已閱讀5頁(yè),還剩64頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第4章數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)結(jié)構(gòu)與模型?Inmon數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)??體系結(jié)構(gòu)化環(huán)境三級(jí)模型???高級(jí)模型中級(jí)模型低級(jí)模型?性能優(yōu)化目錄?數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)概述??????與數(shù)據(jù)庫(kù)設(shè)計(jì)的區(qū)別處理類型應(yīng)用需求設(shè)計(jì)目標(biāo)數(shù)據(jù)來(lái)源設(shè)計(jì)方法對(duì)比內(nèi)容數(shù)據(jù)庫(kù)系統(tǒng)設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)設(shè)計(jì)面向的處理類型面向應(yīng)用面向分析應(yīng)用需求比較明確不太明確系統(tǒng)設(shè)計(jì)的目標(biāo)事務(wù)處理的并發(fā)性、安全性、高效性保證數(shù)據(jù)的四個(gè)特征和全局一致性數(shù)據(jù)來(lái)源業(yè)務(wù)操作員的輸入業(yè)務(wù)系統(tǒng)系統(tǒng)設(shè)計(jì)的方法需求驅(qū)動(dòng)數(shù)據(jù)驅(qū)動(dòng)數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)概述數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)庫(kù)設(shè)計(jì)的區(qū)別處理類型不同??數(shù)據(jù)庫(kù)系統(tǒng)設(shè)計(jì)?面向應(yīng)用來(lái)進(jìn)行設(shè)計(jì),根據(jù)具體的操作事件和操作對(duì)象 〔實(shí)體〕來(lái)進(jìn)行設(shè)計(jì);?目的是建立一個(gè)操作型的數(shù)據(jù)環(huán)境。?從需求開(kāi)始,逐步展開(kāi)數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)?面向分析的;?從最根本的主題開(kāi)始,不斷完善已有主題,開(kāi)展新主 題;?最終建立起一個(gè)面向主題的分析型數(shù)據(jù)環(huán)境。應(yīng)用需求不同數(shù)據(jù)庫(kù)系統(tǒng)設(shè)計(jì)?面向明確的應(yīng)用需求?設(shè)計(jì)人員能夠清晰地了解應(yīng)用的需求和數(shù)據(jù)流程數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)?很難獲得對(duì)用戶需求確實(shí)切了解?應(yīng)用人員往往是企業(yè)的中高層人員?他們自己一開(kāi)始不知道想看什么,需要引導(dǎo)?后期又想什么東西都看,需要解釋系統(tǒng)設(shè)計(jì)的目標(biāo)?數(shù)據(jù)庫(kù)系統(tǒng)設(shè)計(jì)????為了進(jìn)行OLTP處理通常是對(duì)一個(gè)或者一組記錄的查詢和修改,“一次一集合〞主要為企業(yè)的特定應(yīng)用效勞的事務(wù)處理響應(yīng)時(shí)間、數(shù)據(jù)的平安性和完整性是系統(tǒng)的目標(biāo)?數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)?????為了分析決策主要目標(biāo)是保證數(shù)據(jù)的四個(gè)特征〔面向主題、集成的、穩(wěn)定的、時(shí)變的〕,建立起一個(gè)全局一致的數(shù)據(jù)環(huán)境,作為企業(yè)決策支持的基礎(chǔ)只有查詢而無(wú)更新,“一次加載一批〞對(duì)響應(yīng)時(shí)間不敏感數(shù)據(jù)量大,海量數(shù)據(jù)數(shù)據(jù)來(lái)源不同??數(shù)據(jù)庫(kù)系統(tǒng)設(shè)計(jì)?數(shù)據(jù)來(lái)源主要是業(yè)務(wù)操作員的輸入?描述如何通過(guò)操作員輸入獲取數(shù)據(jù)?描述如何將獲取的數(shù)據(jù)按照OLAP的需求合理存放?如何使得OLTP的性能更加優(yōu)化?如何保證事務(wù)處理的平安性數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)?數(shù)據(jù)主要來(lái)源于業(yè)務(wù)系統(tǒng)?主要解決如何從業(yè)務(wù)系統(tǒng)中得到完整一致的數(shù)據(jù)?如何對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換、清洗、綜合,ETL?如何有效提高數(shù)據(jù)分析的效率與準(zhǔn)確性系統(tǒng)設(shè)計(jì)方法不同?數(shù)據(jù)庫(kù)系統(tǒng)設(shè)計(jì)???“需求驅(qū)動(dòng)〞;先收集需求、分析需求,再進(jìn)行設(shè)計(jì)和開(kāi)發(fā);系統(tǒng)的需求在收集和分析需求階段之后就定下來(lái)了,一旦進(jìn)入構(gòu)建數(shù)據(jù)庫(kù)階段,系統(tǒng)的需求就根本不變了。?數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)????“數(shù)據(jù)驅(qū)動(dòng)〞從業(yè)務(wù)系統(tǒng)已經(jīng)存在的數(shù)據(jù)出發(fā),獲取之后對(duì)數(shù)據(jù)進(jìn)行集成并檢查數(shù)據(jù)的準(zhǔn)確性按照分析領(lǐng)域?qū)?shù)據(jù)及數(shù)據(jù)之間的聯(lián)系重新考察,組織數(shù)據(jù)倉(cāng)庫(kù)中的主題。“數(shù)據(jù)驅(qū)動(dòng)〞的系統(tǒng)設(shè)計(jì)方法的優(yōu)點(diǎn)是可以通過(guò)了解原有數(shù)據(jù)庫(kù)系統(tǒng)中的數(shù)據(jù)和需要建設(shè)的數(shù)據(jù)倉(cāng)庫(kù)中主題的數(shù)據(jù)的共同性,最大限度地利用現(xiàn)有系統(tǒng),減少系統(tǒng)建設(shè)的工作量。開(kāi)發(fā)生命周期-CLDS???促銷分析銷售分析市場(chǎng)分析產(chǎn)品組合分析財(cái)務(wù)績(jī)效分析合并報(bào)表EIS管理報(bào)告公司季報(bào)、年報(bào)投資者報(bào)表預(yù)測(cè)模型指標(biāo)體系業(yè)務(wù)模式規(guī)劃What-if分析投資預(yù)算長(zhǎng)期發(fā)展預(yù)算戰(zhàn)略規(guī)劃日常運(yùn)營(yíng)預(yù)算計(jì)劃建模分析報(bào)表數(shù)據(jù)倉(cāng)庫(kù)/DM螺旋式方式業(yè)務(wù)需求分析設(shè)計(jì)建造測(cè)試培訓(xùn)試點(diǎn)部署使用運(yùn)行監(jiān)控維護(hù)確認(rèn)新需求/改進(jìn)實(shí)施范圍業(yè)務(wù)驅(qū)動(dòng)的需求分析設(shè)計(jì)建造測(cè)試培訓(xùn)試點(diǎn)應(yīng)用部署使用監(jiān)控維護(hù)開(kāi)掘新需求和改進(jìn)階段1階段2階段3兩種數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)?Inmon數(shù)據(jù)倉(cāng)庫(kù)???數(shù)據(jù)庫(kù)設(shè)計(jì)的模式三級(jí)模型〔高級(jí)、中級(jí)、低級(jí)〕存儲(chǔ):關(guān)系數(shù)據(jù)庫(kù)?Kimball數(shù)據(jù)倉(cāng)庫(kù)????兩種數(shù)據(jù)倉(cāng)庫(kù)都需要面臨的主要設(shè)計(jì)問(wèn)題????粒度與分割元數(shù)據(jù)ETL索引小結(jié)???數(shù)據(jù)庫(kù)設(shè)計(jì)的三級(jí)模型?概念模型???從客觀世界到主觀認(rèn)識(shí)的映射首先將現(xiàn)實(shí)世界抽象為概念模型,然后再用適合計(jì)算機(jī)世界的模型和語(yǔ)言來(lái)描述ER圖?邏輯模型????ER模型→關(guān)系模型標(biāo)準(zhǔn)化視圖約束?物理模型????DBMS選型選擇數(shù)據(jù)庫(kù)文件的存儲(chǔ)結(jié)構(gòu)索引分配存儲(chǔ)空間Inmon的三級(jí)模型?高級(jí)模型〔高層模型〕〔數(shù)據(jù)庫(kù)設(shè)計(jì)-概念模型〕??即概念模型,用E-R圖表示首先將現(xiàn)實(shí)世界抽象為概念模型,然后再用適合計(jì)算機(jī)世界的模型和語(yǔ)言來(lái)描述?中級(jí)模型〔中層模型〕〔≈?jǐn)?shù)據(jù)庫(kù)設(shè)計(jì)-邏輯模型〕?????數(shù)據(jù)項(xiàng)〔Dataitemset,DIS〕模型ER圖的細(xì)分每個(gè)主題都與一個(gè)DIS對(duì)應(yīng)DIS中的數(shù)據(jù)分為4個(gè)組別:根本數(shù)據(jù)組、二級(jí)數(shù)據(jù)組、連接數(shù)據(jù)組和類型數(shù)據(jù)組關(guān)系表〔原模型不存在,補(bǔ)充的〕?低級(jí)模型〔底層模型〕〔數(shù)據(jù)庫(kù)設(shè)計(jì)-物理模型〕?物理數(shù)據(jù)模型每個(gè)企業(yè)的業(yè)務(wù)模型只有一個(gè)父子1子2概念模型與實(shí)現(xiàn)無(wú)關(guān),只有一個(gè)邏輯模型:概念模型的映射,多個(gè)物理模型:與邏輯模型對(duì)應(yīng),為其實(shí)現(xiàn)方式實(shí)體主題DIS表實(shí)體對(duì)應(yīng)主題??目錄?Inmon數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)??體系結(jié)構(gòu)化環(huán)境三級(jí)模型???高級(jí)模型中級(jí)模型低級(jí)模型?性能優(yōu)化中級(jí)模型-DIS??中層模型通過(guò)所謂的DIS〔DataItemSet,數(shù)據(jù)項(xiàng)集〕描述,DIS是對(duì)高層模型的細(xì)分,高層模型中的每個(gè)主題域(或?qū)嶓w)都要建立一個(gè)中間層模型,即對(duì)ER模型的細(xì)分。在中層數(shù)據(jù)模型上,有四個(gè)根本構(gòu)造:????初始數(shù)據(jù)組二次數(shù)據(jù)組連接件,表示主要主題域間的數(shù)據(jù)關(guān)系數(shù)據(jù)“類型〞????數(shù)據(jù)組之間通過(guò)鍵連接。數(shù)據(jù)組劃分標(biāo)準(zhǔn):穩(wěn)定性穩(wěn)定性順序:初始數(shù)據(jù)組>二次數(shù)據(jù)組>類型數(shù)據(jù)組分組的目的:根據(jù)穩(wěn)定性將數(shù)據(jù)分開(kāi),提高加載效率

13高級(jí)模型?中級(jí)模型映射一個(gè)實(shí)體/主題對(duì)應(yīng)一個(gè)DIS

一個(gè)實(shí)

體/主題一個(gè)DIS初始數(shù)據(jù)組〔主要數(shù)據(jù)組〕???每個(gè)主要主題域有且只有一個(gè)主要數(shù)據(jù)組,其中包含了每個(gè)主要主題域只出現(xiàn)一次的屬性〔穩(wěn)定〕。同所有的數(shù)據(jù)組一樣,初始數(shù)據(jù)組有屬性和鍵碼。一個(gè)主要數(shù)據(jù)組對(duì)應(yīng)一個(gè)主題域。初始數(shù)據(jù)組的數(shù)據(jù)穩(wěn)定性最高,一般情況下是不變化的。姓名、性別、住址二級(jí)數(shù)據(jù)分組??包含對(duì)每個(gè)主要主題域可以存在屢次的屬性。有多少可以出現(xiàn)屢次的不同數(shù)據(jù)組,就含有多少二級(jí)數(shù)據(jù)組。如一對(duì)多。二級(jí)數(shù)據(jù)分組的數(shù)據(jù)穩(wěn)定性相對(duì)初級(jí)數(shù)據(jù)組要弱一些,但比類型數(shù)據(jù)組的數(shù)據(jù)穩(wěn)定性要高。連接件????表示兩個(gè)主要主題域間的數(shù)據(jù)關(guān)系,兩個(gè)主題的聯(lián)系。將數(shù)據(jù)從一個(gè)組到另一個(gè)組聯(lián)系起來(lái)。在E-R圖層確定的關(guān)系在DIS層都必須有與其對(duì)應(yīng)的連接件。主鍵與外鍵。連接器說(shuō)明,數(shù)據(jù)倉(cāng)庫(kù)中的主題域之間是關(guān)聯(lián)的,可見(jiàn),通過(guò)連接件實(shí)現(xiàn)Inmon數(shù)據(jù)倉(cāng)庫(kù)成為有機(jī)整體,這在Kimball數(shù)據(jù)倉(cāng)庫(kù)中是不存在的。討論:如果用于連接一個(gè)主題的不同數(shù)據(jù)組,連接件就是就是ER模型中的聯(lián)系,連接不同主題域也是ER模型中的聯(lián)系。具體通過(guò)鍵〔無(wú)論ER模型中還是邏輯模型都有這個(gè)概念〕連接實(shí)現(xiàn)。結(jié)論:連接件=聯(lián)系。數(shù)據(jù)的“類型〞???數(shù)據(jù)的“類型〞由指向數(shù)據(jù)組的線段指示。左邊的數(shù)據(jù)組是超類型,右邊的數(shù)據(jù)組是子類型。類型數(shù)據(jù)組的數(shù)據(jù)的穩(wěn)定性最低,會(huì)經(jīng)常變化。如,一個(gè)人的信息〔主要數(shù)據(jù)分組〕與他所做的事情〔類型,分類了:工作、生活、情感〕。DIS中的各組件連接件例子:DIS中數(shù)據(jù)組的穩(wěn)定性????顧客的顧客號(hào)、姓名、性別等描述信息根本報(bào)紙不變,比較穩(wěn)定,可作為主要數(shù)據(jù)組顧客的住址、文化程度、等也根本穩(wěn)定,但存在改變的可能,相對(duì)主要數(shù)據(jù)組中的信息穩(wěn)定性要弱一些,可作為二級(jí)數(shù)據(jù)組顧客的采購(gòu)記錄那么經(jīng)常發(fā)生變化,其穩(wěn)定性低,因此,作為類型數(shù)據(jù)組這樣劃分的好處:結(jié)構(gòu)清晰、減少冗余例子:一個(gè)DIS連接件根本數(shù)據(jù)組商品ID客戶ID姓名性別身份證號(hào)碼住址文化程度

Email交易ID商品金額購(gòu)置時(shí)間交易ID商品金額購(gòu)置時(shí)間交易ID商品金額購(gòu)置時(shí)間類型數(shù)據(jù)組電器一個(gè)主題

商品ID

連接件

二級(jí)數(shù)據(jù)組另一個(gè)主題局部DIS與全局DIS??與企業(yè)ERD構(gòu)建方法一樣〔由反映不同用戶群體的不同ERD所建成,局部ER→全局ER〕,企業(yè)DIS由多個(gè)DIS建成,在進(jìn)行對(duì)個(gè)別用戶的訪問(wèn)或JAD(聯(lián)合應(yīng)用程序設(shè)計(jì))會(huì)議時(shí),就要生成一個(gè)DIS和一個(gè)ERD。小范圍的DIS和其他所有DIS一起形成一個(gè)反映企業(yè)觀點(diǎn)的DIS。目錄?Inmon數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)??體系結(jié)構(gòu)化環(huán)境三級(jí)模型???高級(jí)模型中級(jí)模型低級(jí)模型?性能優(yōu)化低級(jí)模型???底層模型是邏輯模型在數(shù)據(jù)倉(cāng)庫(kù)中的具體實(shí)現(xiàn),如物理存取方式、數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)、數(shù)據(jù)存儲(chǔ)位置、存儲(chǔ)分配等。低級(jí)模型具體表現(xiàn)為一系列的關(guān)系表。低級(jí)模型設(shè)計(jì)所要考慮的主要因素有??討論:DIS能直接實(shí)現(xiàn)嗎?????Inmon的設(shè)計(jì)模型沒(méi)有探討DIS是如何過(guò)渡到低級(jí)模型的,中間似乎缺了一個(gè)重要的環(huán)節(jié)。這個(gè)環(huán)節(jié)是:關(guān)系表。關(guān)系表在原設(shè)計(jì)模型中沒(méi)有深入討論,遺憾!DIS仍然處于概念模型階段,無(wú)非是細(xì)化了,低級(jí)模型那么直接實(shí)現(xiàn)了,關(guān)系表在哪里設(shè)計(jì)的?缺憾!應(yīng)該放在中間模型比較適宜。補(bǔ)充:DIS到關(guān)系表的映射,參考ER模型到關(guān)系模型的轉(zhuǎn)化。有了關(guān)系表,具體實(shí)現(xiàn)〔低級(jí)模型〕就沒(méi)有問(wèn)題。了解:低級(jí)模型-存儲(chǔ)結(jié)構(gòu)?分布式存儲(chǔ)??采用磁盤陣列在多個(gè)節(jié)點(diǎn)間以分布的方式來(lái)存儲(chǔ)數(shù)據(jù)物理上是分布的,但是邏輯上是統(tǒng)一的?集中式存儲(chǔ)???將現(xiàn)有SAN〔存儲(chǔ)局域網(wǎng)〕或者NAS〔網(wǎng)絡(luò)連接存儲(chǔ)〕作為效勞器的存儲(chǔ)局部直接通過(guò)FC交換機(jī)來(lái)直接訪問(wèn)所有的數(shù)據(jù)而不需要通過(guò)其他節(jié)點(diǎn)可以將節(jié)點(diǎn)從數(shù)據(jù)存儲(chǔ)管理的負(fù)擔(dān)中解脫出來(lái),實(shí)現(xiàn)數(shù)據(jù)處理和數(shù)據(jù)存儲(chǔ)的別離。分布式存儲(chǔ)集中式存儲(chǔ)RAID思想?RAID:RedundantArraysofInexpensiveDisks〔冗余廉價(jià)磁盤陣列〕?多盤聯(lián)合,

統(tǒng)一對(duì)外

,高速

高容量,

高可靠性?high

capacityhigh

speed

high

reliability??生活中的RAID,“三個(gè)臭皮匠抵上一個(gè)諸葛亮〞,雇傭三個(gè)臭皮匠還是雇傭諸葛亮?三個(gè)臭皮匠的本錢要低攔截導(dǎo)彈A型命中率0.7,100萬(wàn)美元 B型命中率0.9,1000萬(wàn)美元???用兩個(gè)A型,至少一個(gè)命中的概率1-〔1-0.7)2=0.91用3個(gè)A型,至少一個(gè)命中的概率1-〔1-0.7)3=0.97可用機(jī)關(guān)炮打巡航導(dǎo)彈〔合算〕,用多個(gè)低價(jià)盤代高價(jià)盤??思想:冗余提高可靠性,并行提高速度后面的推理基于一個(gè)假定:兩個(gè)廉價(jià)磁盤在同一個(gè)修復(fù)時(shí)間〔幾小時(shí)〕內(nèi)同時(shí)發(fā)生故障的概率很低。數(shù)據(jù)拆分???這么多冗余磁盤,怎么存儲(chǔ)數(shù)據(jù)?數(shù)據(jù)拆分塊拆分邏輯第I塊放到〔ImodN)+1號(hào)磁盤上,排排坐位拆分當(dāng)塊的大小為1bit時(shí),稱為Bit-LevelStriping位拆分〔比特級(jí)拆分〕,將字節(jié)按bit拆分,存儲(chǔ)到多個(gè)磁盤上〔如分到8個(gè)磁盤上〕,這樣多個(gè)磁盤就形成一個(gè)邏輯上磁盤。讀取的數(shù)據(jù)量成倍放大,〔如每次訪問(wèn)讀取一個(gè)磁盤的8倍數(shù)據(jù)量,I/O一次(并行),數(shù)據(jù)量8倍,可觀!〕RAID?RAID磁盤陣列????廉價(jià)冗余磁盤陣列是一種采用多磁盤驅(qū)動(dòng)器來(lái)存儲(chǔ)數(shù)據(jù)的數(shù)據(jù)存儲(chǔ)系統(tǒng)分為6個(gè)級(jí)別:RAID0、1、2、3、4、5及RAID0+1,2、3、4使用頻率較低,5、0、1、0+1使用較多。在RAID的各個(gè)級(jí)別中,RAID1和RAID0+1提供最正確的數(shù)據(jù)保護(hù)和最正確性能,但是就所需的磁盤而言會(huì)需要更多的本錢。當(dāng)硬盤本錢不是限制因素時(shí),就兼顧性能和容錯(cuò)而言,RAID1或RAID0+1是最正確選擇。RAID5的本錢比RAID1或RAID0+1低,但是它提供的容錯(cuò)和寫入性能較差。RAID5的寫入性能大約只是RAID1或RAID0+1的一半,這是因?yàn)镽AID5讀取和寫入奇偶校驗(yàn)信息需要額外的I/O。RAID

0??塊級(jí)拆分,無(wú)冗余,多盤并發(fā)〔實(shí)用中,只用Level1和5〕因?yàn)樵摷?jí)別使用名為條帶集的磁盤文件系統(tǒng),所以又將它稱作磁盤條帶。數(shù)據(jù)被劃分成多個(gè)塊并按固定順序分布到陣列中的所有磁盤上。RAID0將多個(gè)操作分布到多個(gè)磁盤上,以便可以同時(shí)獨(dú)立地執(zhí)行這些操作,從而改善了讀取/寫入性能。RAID0類似于RAID5,但是RAID5還提供容錯(cuò)功能。

RAID

1-寫雙份,讀一份?因?yàn)樵摷?jí)別使用名為鏡像集的磁盤文件系統(tǒng),所以又將它稱作磁盤鏡像。磁盤鏡像可提供一個(gè)與所選磁盤完全相同的冗余副本。寫入主磁盤的所有數(shù)據(jù)都會(huì)寫入鏡像磁盤。RAID1提供了容錯(cuò)功能,而且通??梢愿倪M(jìn)讀取性能〔但是可能會(huì)降低寫入性能〕 RAID1

RAID

2、3、4?RAID2-按位拆分+校驗(yàn)位?該級(jí)別通過(guò)使用將奇偶校驗(yàn)分布到所有磁盤上的糾錯(cuò)方法來(lái)添加冗余。它還利用磁盤條帶策略將一個(gè)文件分成多個(gè)字節(jié)并將該文件分布到多個(gè)磁盤上。與鏡像(RAID1)相比,該策略在磁盤利用率和讀取/寫入性能方面只帶來(lái)了很小的改進(jìn)。RAID2不如其他RAID級(jí)別效率高,通常不使用它。?RAID3-按位拆分,交錯(cuò)

奇偶校驗(yàn),糾正錯(cuò)誤是用校驗(yàn)碼和鏡像恢復(fù)?該級(jí)別使用與RAID2相同的條帶化方法,但是糾錯(cuò)方法只需一個(gè)磁盤用于奇偶校驗(yàn)數(shù)據(jù)。磁盤空間的使用情況因數(shù)據(jù)磁盤的數(shù)量而異。RAID3在讀取/寫入性能方面提供一些改進(jìn)。RAID3也極少使用。?RAID4-按塊拆分,校驗(yàn)恢復(fù):鏡像

校驗(yàn)?該級(jí)別使用的條帶數(shù)據(jù)塊或段比

RAID

2

RAID

3

大得多。與RAID

3

一樣,糾錯(cuò)方法只需一個(gè)磁盤用于奇偶校驗(yàn)數(shù)據(jù)。它將用戶數(shù)據(jù)與糾錯(cuò)數(shù)據(jù)分開(kāi)。RAID

4

不如其他

RAID

級(jí)別效率高,通常不使用。RAID

5???寫雙份+奇偶校驗(yàn)頁(yè)。

以改善可靠性。是新設(shè)計(jì)中最常用的策略。與RAID

4相似,它將數(shù)據(jù)以大塊形式條帶化到陣列中的磁盤上。不同之處在于它在所有磁盤之間寫入奇偶校驗(yàn)的方式。數(shù)據(jù)冗余通過(guò)奇偶校驗(yàn)信息提供。數(shù)據(jù)和奇偶校驗(yàn)信息會(huì)在磁盤陣列上排列,所以這兩種信息總是位于不同的磁盤上。與磁盤鏡像

(RAID

1)

相比,具有奇偶校驗(yàn)的條帶化可提供更好的性能。但是,當(dāng)條帶成員喪失時(shí)〔例如,當(dāng)磁盤發(fā)生故障時(shí)〕,讀取性能會(huì)下降。RAID

5

是最常用的

RAID

配置之一。RAID5RAID

0+1???該級(jí)別又稱作具有條帶化的鏡像。該級(jí)別使用條帶化的磁盤陣列,而該陣列又鏡像到另一組相同的條帶化磁盤。例如,可使用四個(gè)磁盤創(chuàng)立一個(gè)條帶化的陣列。然后,條帶化的磁盤陣列使用另一組〔四個(gè)〕條帶化的磁盤進(jìn)行鏡像。RAID10提供磁盤條帶化帶來(lái)的性能益處以及鏡像帶來(lái)的磁盤冗余。在所有的RAID級(jí)別中,RAID10提供的讀取/寫入性能最高,代價(jià)是使用的磁盤數(shù)量是其他級(jí)別的兩倍。RAID0+1鏡像低級(jí)模型-索引策略??B樹(shù)及B+樹(shù)索引、位圖索引等依然有效。廣義索引????對(duì)于一些經(jīng)常性的查詢,利用一個(gè)規(guī)模小得多的“廣義索引〞,比去針對(duì)所有數(shù)據(jù)建立索引效率高,如上司的廣義索引是在數(shù)據(jù)裝載的同時(shí)建立,它是一種元數(shù)據(jù)廣義索引涉及的是用戶最關(guān)心的問(wèn)題,需要在數(shù)據(jù)加載前進(jìn)行調(diào)查了解。比方使用頻率最高的10種藥物,使用頻率最低的藥物等。比較適合經(jīng)常性的查詢,開(kāi)銷比較小目錄?Inmon數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)??體系結(jié)構(gòu)化環(huán)境三級(jí)模型???高級(jí)模型中級(jí)模型低級(jí)模型?性能優(yōu)化數(shù)據(jù)倉(cāng)庫(kù)的物理性能優(yōu)化??數(shù)據(jù)倉(cāng)庫(kù)的具有數(shù)據(jù)量大,操作簡(jiǎn)單〔主要為查詢操作〕的特點(diǎn),因此,數(shù)據(jù)倉(cāng)庫(kù)的性能優(yōu)化主要集中在物理I/O的性能上,應(yīng)盡量減少I/O次數(shù),使每次I/O能夠返回盡量多的記錄。數(shù)據(jù)倉(cāng)庫(kù)性能優(yōu)化所采取的措施有???劃分粒度數(shù)據(jù)分割表優(yōu)化??????合并表建立數(shù)據(jù)序列引入冗余表的物理分割生成導(dǎo)出數(shù)據(jù)建立廣義索引數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是細(xì)節(jié)還是綜合?細(xì)節(jié)到什么程度?綜合到什么程度?綜合越高,數(shù)據(jù)量相對(duì)越小,查詢效率會(huì)更高。故,適宜的粒度設(shè)計(jì)會(huì)提高查詢效率。性能優(yōu)化1:粒度設(shè)計(jì)??粒度是數(shù)據(jù)倉(cāng)庫(kù)的重要概念。粒度指的是數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)單元的細(xì)節(jié)程度或綜合程度的級(jí)別數(shù)據(jù)倉(cāng)庫(kù)中存在著不同的綜合級(jí)別,粒度越大,表示細(xì)節(jié)程度越低,綜合程度越高。高細(xì)節(jié)級(jí) 高粒度級(jí) 低細(xì)節(jié)級(jí)一個(gè)顧客一個(gè)月的綜合 低粒度級(jí)一個(gè)顧客一個(gè)月的明細(xì)?????粒度影響數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)量的大小、查詢類型以及效率,粒度具體表現(xiàn)為不同的層次,如時(shí)間、組織結(jié)構(gòu)等高粒度級(jí)數(shù)據(jù)是經(jīng)過(guò)壓縮后的,數(shù)據(jù)量小,查詢效率高,但是查詢類型受到一定的限制低粒度級(jí)的數(shù)據(jù)量大,查詢效率低,但支持的查詢類型多例如,對(duì)于高粒度級(jí)的數(shù)據(jù)倉(cāng)庫(kù)可以答復(fù)“上個(gè)月John從北京打出的長(zhǎng)途有多少個(gè)?〞,而不能答復(fù)“今天John是否從北京打出長(zhǎng)途?〞這樣的問(wèn)題需要低粒度級(jí)的數(shù)據(jù)倉(cāng)庫(kù)因此,采用高粒度還是低粒度需要做出權(quán)衡。對(duì)于決策信息查詢一般采用高粒度級(jí)更為適宜。理解:粒度????粒度與官職對(duì)應(yīng),大官看大粒度〔大方向〕,小官看小粒度〔細(xì)節(jié)〕為總理設(shè)計(jì),粒度面向全國(guó),高粒度,超大粒度;為省長(zhǎng)設(shè)計(jì),粒度面向全省,較大粒度;為縣長(zhǎng)設(shè)計(jì),粒度面向全縣,大粒度;為鄉(xiāng)長(zhǎng)設(shè)計(jì),粒度面向全鄉(xiāng),小粒度,細(xì)粒度;為村長(zhǎng)設(shè)計(jì)〔別拿村長(zhǎng)不當(dāng)干部〕,粒度面向全村,超細(xì)粒度,張家有田幾畝?李家人丁幾何?……,都要有。把村長(zhǎng)用的粒度與總理用的粒度調(diào)換一下便知粒度的重要性了,兩個(gè)肯定都叫苦。實(shí)際設(shè)計(jì)中,一般我們要確認(rèn)最低粒度,高粒度可以由低粒度綜合而來(lái)。

粒度的形式?粒度可以分為三種形式???一般意義的粒度〔指最低粒度,常用〕多重粒度〔常用,效率高〕活樣本數(shù)據(jù)庫(kù)〔效率高〕?在實(shí)際中,三種形式的粒度都有可能存在??第一種形式的粒度是對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)的綜合程度上下的一個(gè)度量,指的是最低粒度。它既影響數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)量的多少,也影響數(shù)據(jù)倉(cāng)庫(kù)所能答復(fù)詢問(wèn)的種類。細(xì)節(jié)程度越高,粒度級(jí)就越低,答復(fù)查詢的種類就越多,〔官越小〕。相反,細(xì)節(jié)程度越低,粒度級(jí)就越高,〔官越大〕,查詢效率將會(huì)提高。數(shù)據(jù)倉(cāng)庫(kù)的主要作用是DSS分析,因而其絕大局部查詢都基于一定程度的綜合數(shù)據(jù)之上,而只有極少的查詢涉及細(xì)節(jié)。所以,可以考慮將綜合數(shù)據(jù)物化,即采用第二種粒度形式—多重粒度。雙重粒度??當(dāng)一個(gè)企業(yè)或組織的數(shù)據(jù)倉(cāng)庫(kù)中擁有大量數(shù)據(jù)、資源足夠,并需要多種類型的查詢以及追求高效率的情況下,可以考慮多重粒度。常用的是雙重粒度,即輕度綜合級(jí)(高粒度)和最低粒度級(jí)(低粒度,當(dāng)前細(xì)節(jié)級(jí))輕度綜合級(jí)

April

John

Count:45

Average:14min

…最低粒度級(jí)

John

4.12

p.m.

6:01-6:12

4.12

p.m.

6:15-6:16

4.12

a.m.

9:12-9:23

…?????Cube中的粒度設(shè)計(jì)?維度粒度:維度一般是有層次結(jié)構(gòu)的,而粒度一般是指最細(xì)粒度。?如,時(shí)間維度:年、季度、月、周、日是有層次的,其中,首先需要確定的是最細(xì)粒度“日〞,只有這個(gè)粒度確定了其他層次的粒度才可以確定。?事實(shí)粒度:事實(shí)是由事實(shí)單元〔度量〕構(gòu)成的,每個(gè)度量與參與維度的最細(xì)粒度相對(duì)應(yīng),所以,事實(shí)存儲(chǔ)的是所有參與維度的最細(xì)粒度的度量值。?如,一個(gè)事實(shí)單元為:2005年\10月\20日〔時(shí)間維度最細(xì)粒度〕、玉泉路物美超市\(zhòng)食品部\冷鮮柜組〔部門維度最細(xì)粒度〕、食品類\海鮮\海蝦、銷售量:350kg。350kg為最細(xì)粒度的度量值。活樣本數(shù)據(jù)?????活樣本數(shù)據(jù)是指從數(shù)據(jù)倉(cāng)庫(kù)中取得的真實(shí)檔案數(shù)據(jù)或輕度綜合數(shù)據(jù)的一個(gè)子集“樣本〞的含義是指一個(gè)更大的數(shù)據(jù)庫(kù)的一個(gè)子集“活〞是指這個(gè)數(shù)據(jù)需要進(jìn)行周期刷新與通常意義的粒度不同,活樣本數(shù)據(jù)庫(kù)的粒度級(jí)別不是根據(jù)綜合程度的不同來(lái)劃分的,而是根據(jù)采樣率的上下來(lái)劃分的采樣粒度不同的樣本數(shù)據(jù)庫(kù)可以具有相同的綜合級(jí)別,一般它是以一定的采樣率從細(xì)節(jié)檔案數(shù)據(jù)或輕度綜合數(shù)據(jù)中抽取的一個(gè)子集。????活樣本數(shù)據(jù)庫(kù)不能答復(fù)一些細(xì)節(jié)性的問(wèn)題抽樣的方法很多,一般是隨機(jī)抽取?;顦颖緮?shù)據(jù)可以代替源數(shù)據(jù)進(jìn)行模擬分析經(jīng)驗(yàn)證明,在源數(shù)據(jù)量很大的情況下,抽樣數(shù)據(jù)量可大大下降,如源數(shù)據(jù)量的1/100或1/1000,源數(shù)據(jù)量越大,數(shù)據(jù)量下降的量越大,而得出的分析結(jié)果誤差極小,具有很高的效率活樣本數(shù)據(jù)庫(kù)的抽取可以按照數(shù)據(jù)的重要程度不同來(lái)進(jìn)行。并不是所有的數(shù)據(jù)對(duì)于具體的分析來(lái)說(shuō)都具有相同的價(jià)值,不能不分主次地對(duì)數(shù)據(jù)進(jìn)行分析〔選代表〕。利用活樣本數(shù)據(jù)庫(kù)的概念,可以收集重要的數(shù)據(jù)來(lái)進(jìn)行分析,既可提高分析效率,也有助于抓住主要因素和主要矛盾。活樣本數(shù)據(jù)的特點(diǎn)活樣本數(shù)據(jù)庫(kù)的主要用途??特別是在分析工作中,有許多探索的過(guò)程,有時(shí)分析的目的只是要建立起分析模型或是得到相對(duì)準(zhǔn)確、能反映趨勢(shì)的數(shù)據(jù),從而驗(yàn)證用戶的猜測(cè),為下一步的策略確定方向或?qū)Ξ?dāng)前分析程序做出相應(yīng)調(diào)整,而并不要求精確的結(jié)果。這種情況下樣本數(shù)據(jù)就大有用武之地!性能優(yōu)化2:分區(qū)?????分割方法????????數(shù)據(jù)量決定是否需要分割,規(guī)那么:小的主題不分大的分;不同主題的數(shù)據(jù)分割方法也不同,如商品按品類,供給商按地址;分割標(biāo)準(zhǔn)要簡(jiǎn)單可行,一般與現(xiàn)實(shí)業(yè)務(wù)對(duì)應(yīng)比較適合作為標(biāo)準(zhǔn);分割與粒度掛鉤,即分片對(duì)應(yīng)粒度級(jí)別恰當(dāng)?shù)臄?shù)據(jù)分區(qū)使得數(shù)據(jù)增長(zhǎng)便于管理如果數(shù)據(jù)分區(qū)不合理那么會(huì)為數(shù)據(jù)增長(zhǎng)和管理造成許多困難簡(jiǎn)單地說(shuō),數(shù)據(jù)倉(cāng)庫(kù)的本質(zhì)之一是使數(shù)據(jù)訪問(wèn)變得靈活高效,如果都是大塊的數(shù)據(jù)就達(dá)不到這一目標(biāo)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論