版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第第3 3章章 設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)(3)(3)物理設(shè)計(jì)物理設(shè)計(jì)n物理設(shè)計(jì)中需要考慮的各種因素的核心是物理I/O效率。n數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)者的主要工作是組織好物理數(shù)據(jù),以保證執(zhí)行一次物理I/O能返回最大數(shù)量的記錄物理數(shù)據(jù)模型物理數(shù)據(jù)模型n物理數(shù)據(jù)模型由中間層數(shù)據(jù)模型創(chuàng)建而來(lái)n物理模型通過擴(kuò)展中間層數(shù)據(jù)模型,使模型中包含關(guān)鍵字和物理特性n設(shè)計(jì)出物理數(shù)據(jù)模型的關(guān)系表后,主要的就是要進(jìn)行性能優(yōu)化n第一步:確定數(shù)據(jù)的粒度和分區(qū)n數(shù)據(jù)分組n合并表n選擇冗余n進(jìn)一步分離數(shù)據(jù)n導(dǎo)出數(shù)據(jù)n預(yù)格式化、預(yù)分配n人工關(guān)系n預(yù)連接表粒度設(shè)計(jì)n預(yù)測(cè)不同體系結(jié)構(gòu)的粒度需求n數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)需要處于最低的公共細(xì)節(jié)水平n數(shù)據(jù)倉(cāng)
2、庫(kù)中的數(shù)據(jù)粒度必須是任何數(shù)據(jù)集市所需要數(shù)據(jù)中的最小粒度。n粒度設(shè)計(jì)與數(shù)據(jù)量估計(jì)n將來(lái)的數(shù)據(jù)行數(shù)n所需的DASD(直接存取存儲(chǔ)設(shè)備)數(shù)估計(jì)數(shù)據(jù)量估計(jì)數(shù)據(jù)量n計(jì)算數(shù)據(jù)倉(cāng)庫(kù)占用空間的方法:n第一步:確定數(shù)據(jù)倉(cāng)庫(kù)中將要?jiǎng)?chuàng)建的所有表n第二步:估計(jì)一年內(nèi)可能的最少行數(shù)與最多行數(shù)n第三步:估計(jì)五年內(nèi)可能的最少行數(shù)與最多行數(shù)n第四步:估計(jì)索引數(shù)據(jù)占用的空間n第五步:計(jì)算空間n一年總的最大空間=最大行大小*一年內(nèi)最大行數(shù)n一年總的最小空間=最小行大小*一年內(nèi)最小行數(shù)n另外,考慮備份和恢復(fù)所需要的空間n估算結(jié)果的準(zhǔn)確程度只需要達(dá)到數(shù)量級(jí)數(shù)據(jù)量與粒度設(shè)計(jì)數(shù)據(jù)量與粒度設(shè)計(jì)n應(yīng)該考慮五年后如下因素:n有更多的技術(shù)管理大
3、量數(shù)據(jù)n硬件費(fèi)用下降n功能更強(qiáng)大的軟件工具n最終用戶更加專業(yè)化粒度與存儲(chǔ)器粒度與存儲(chǔ)器n歷史數(shù)據(jù)與細(xì)節(jié)數(shù)據(jù)造成了數(shù)據(jù)的顯著增長(zhǎng)n根據(jù)數(shù)據(jù)使用頻率,可將數(shù)據(jù)分為二類:n經(jīng)常使用的數(shù)據(jù)n不經(jīng)常使用的數(shù)據(jù)(睡眠數(shù)據(jù))n解決方案:n睡眠數(shù)據(jù)轉(zhuǎn)移至海量備用存儲(chǔ)器或近線存儲(chǔ)器n常用的溢出存儲(chǔ)器可分為:n低性能的磁盤存儲(chǔ)器n近線存儲(chǔ)器n串行磁帶n粒度設(shè)計(jì)反饋技巧粒度設(shè)計(jì)反饋技巧n提高數(shù)據(jù)粒度的方法:n數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)時(shí),進(jìn)行匯總n數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)時(shí),求平均值n數(shù)據(jù)集的最大/最小值放入數(shù)據(jù)倉(cāng)庫(kù)n只放入顯然需要的數(shù)據(jù)n用條件邏輯選擇需要的數(shù)據(jù)n系統(tǒng)需求了解到50%左右時(shí)即可以開始建造數(shù)據(jù)倉(cāng)庫(kù)n當(dāng)正常的業(yè)務(wù)事務(wù)記
4、錄準(zhǔn)備放入數(shù)據(jù)倉(cāng)庫(kù)時(shí),高粒度級(jí)別的數(shù)據(jù)可能需要分解到低粒度級(jí)別。n而對(duì)于一些低粒度級(jí)的數(shù)據(jù),如生產(chǎn)過程控制、網(wǎng)絡(luò)環(huán)境中產(chǎn)生的點(diǎn)擊流數(shù)據(jù)等,必須對(duì)數(shù)據(jù)進(jìn)行編輯、重新排序和匯總等處理。規(guī)范化與反向規(guī)范化規(guī)范化與反向規(guī)范化n數(shù)據(jù)模型處理的輸出是一系列表,每個(gè)表都包含關(guān)鍵字和屬性n設(shè)計(jì)生成的許多小表進(jìn)行連接運(yùn)算時(shí),會(huì)造成I/O性能的急劇下降n方法1:將這些表物理合并,使得I/O代價(jià)最小化規(guī)范化與反向規(guī)范化規(guī)范化與反向規(guī)范化n創(chuàng)建數(shù)據(jù)數(shù)組n要求數(shù)列中值的數(shù)量穩(wěn)定、數(shù)據(jù)是按順序訪問的、數(shù)據(jù)的創(chuàng)建與修改在統(tǒng)計(jì)上是以非常有規(guī)律的方式進(jìn)行等n由于數(shù)據(jù)具有基于時(shí)間特性,因而可通過時(shí)間建立數(shù)組規(guī)范化與反向規(guī)范化規(guī)范
5、化與反向規(guī)范化n2.有意引入冗余數(shù)據(jù)規(guī)范化與反向規(guī)范化規(guī)范化與反向規(guī)范化n3.數(shù)據(jù)分離n當(dāng)數(shù)據(jù)訪問頻率相差懸殊時(shí),將數(shù)據(jù)作進(jìn)一步分離規(guī)范化與反向規(guī)范化規(guī)范化與反向規(guī)范化n4.通過引入導(dǎo)出數(shù)據(jù)減少I/O代價(jià)規(guī)范化與反向規(guī)范化規(guī)范化與反向規(guī)范化n5.建立創(chuàng)造性索引或創(chuàng)造性概要文件n如果對(duì)管理有價(jià)值的需求能夠預(yù)見,就更有意義規(guī)范化與反向規(guī)范化規(guī)范化與反向規(guī)范化n6.參照完整性管理n數(shù)據(jù)倉(cāng)庫(kù)環(huán)境中應(yīng)采用不同方法表示參照完整性分區(qū)設(shè)計(jì)方法分區(qū)設(shè)計(jì)方法n數(shù)據(jù)分區(qū)是指把數(shù)據(jù)分散到可獨(dú)立處理的分離物理單元中.n數(shù)據(jù)分區(qū)的優(yōu)點(diǎn):n數(shù)據(jù)裝載n數(shù)據(jù)訪問n數(shù)據(jù)存檔n數(shù)據(jù)刪除n數(shù)據(jù)監(jiān)控n數(shù)據(jù)存儲(chǔ)n分區(qū)的目的把數(shù)據(jù)劃分成
6、小的可管理的物理單元n任何給定的數(shù)據(jù)單元屬于且僅屬于一個(gè)分區(qū)分區(qū)設(shè)計(jì)方法分區(qū)設(shè)計(jì)方法n數(shù)據(jù)分區(qū)的標(biāo)準(zhǔn):n時(shí)間n業(yè)務(wù)范圍n地理位置n組織單位n所有上述標(biāo)準(zhǔn)其中,日期幾乎總是分區(qū)標(biāo)準(zhǔn)中的一個(gè)必然組成部分n分區(qū)方式:n系統(tǒng)層上分區(qū)一定程度上指某些DBMS和操作系統(tǒng)的功能n應(yīng)用層上分區(qū)由設(shè)計(jì)的應(yīng)用程序完成,并由開發(fā)者和程序員嚴(yán)格控制應(yīng)用層上分區(qū)相對(duì)更有意義,因?yàn)槊磕甑臄?shù)據(jù)可以有不同的定義, 而且數(shù)據(jù)從一個(gè)物理設(shè)備轉(zhuǎn)到另一個(gè)物理設(shè)備不會(huì)有問題數(shù)據(jù)倉(cāng)庫(kù)的索引n大多數(shù)索引建立在維度表上n通常,數(shù)據(jù)倉(cāng)庫(kù)索引比業(yè)務(wù)系統(tǒng)多n索引越多,需要存儲(chǔ)空間越大n大量的索引會(huì)影響裝置過程位圖索引n位圖是一個(gè)按序排列的點(diǎn)陣,每
7、個(gè)點(diǎn)對(duì)應(yīng)索引列的不同取值n位圖索引支持低可選擇性的查詢。相比B樹,占用存儲(chǔ)空間更少n如果有新值加入,位圖索引必須重新構(gòu)建n在訪問位圖索引之后總是要訪問數(shù)據(jù)表位圖索引的優(yōu)勢(shì)n如果將位圖組織為向量組,可以不必加載整個(gè)位圖,而只獲取與查詢有關(guān)的向量的磁盤頁(yè)n可以非常高效的使用布爾運(yùn)算符事實(shí)表的索引n為全部的主鍵建立一個(gè)B樹索引n經(jīng)常用到的鍵作為組合鍵中級(jí)別高的鍵n經(jīng)常查詢的字段也可以建立索引n指定范圍的現(xiàn)金銷售額n位圖索引不適應(yīng)事實(shí)表維度表的索引n主鍵上建立B樹索引n為經(jīng)常查詢的列建立位圖索引n常用于連接的列建立單獨(dú)的索引元數(shù)據(jù)元數(shù)據(jù)元數(shù)據(jù)描述數(shù)據(jù)以及管理數(shù)據(jù)的環(huán)境,擔(dān)任數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織工作。元數(shù)
8、據(jù)描述數(shù)據(jù)以及管理數(shù)據(jù)的環(huán)境,擔(dān)任數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織工作。元數(shù)據(jù)常常被定義為元數(shù)據(jù)常常被定義為“關(guān)于數(shù)據(jù)的數(shù)據(jù)關(guān)于數(shù)據(jù)的數(shù)據(jù)”。文件文件/ /表表 邏輯名邏輯名 顧客顧客 定義定義 購(gòu)買商品或服務(wù)的團(tuán)體或個(gè)人購(gòu)買商品或服務(wù)的團(tuán)體或個(gè)人 物理名物理名 TDW_CSTTDW_CST 記錄編輯過程名記錄編輯過程名 PRC_CSTPRC_CST屬性屬性 邏輯名邏輯名 顧客標(biāo)識(shí)顧客標(biāo)識(shí) 定義定義 賦予每個(gè)顧客的唯一標(biāo)識(shí)賦予每個(gè)顧客的唯一標(biāo)識(shí) 物理名物理名 CST _IDCST _ID 類型類型 CHARACTERCHARACTER 長(zhǎng)度長(zhǎng)度 6 6 能否為空能否為空 NOTNOTNULLNULL 域編輯
9、過程名域編輯過程名 PFC_CST_IDPFC_CST_ID元數(shù)據(jù)的一個(gè)例子元數(shù)據(jù)的一個(gè)例子元數(shù)據(jù)的內(nèi)容n元數(shù)據(jù)在數(shù)據(jù)倉(cāng)庫(kù)環(huán)境主要包括以下方面:n表結(jié)構(gòu)、表屬性、源數(shù)據(jù)、記錄到數(shù)據(jù)倉(cāng)庫(kù)的映射、數(shù)據(jù)模型說(shuō)明、抽取日志、訪問數(shù)據(jù)的公用例行程序、數(shù)據(jù)的定義/描述、數(shù)據(jù)單元之間的關(guān)系。n可分為業(yè)務(wù)元數(shù)據(jù)與技術(shù)元數(shù)據(jù)二類30元數(shù)據(jù)模型元數(shù)據(jù)模型輸入輸入/ /輸出對(duì)象輸出對(duì)象IOIO對(duì)象對(duì)象IDID定義定義IOIO類型類型狀態(tài)狀態(tài)向?qū)驅(qū)Т鏅n周期存檔周期關(guān)系成員關(guān)系成員關(guān)系關(guān)系IDID(FKFK)IOIO對(duì)象對(duì)象IDID(FKFK)關(guān)系角色編碼關(guān)系角色編碼關(guān)系級(jí)別關(guān)系級(jí)別關(guān)系約束關(guān)系約束關(guān)系關(guān)系IDID關(guān)
10、系類型關(guān)系類型業(yè)務(wù)規(guī)則業(yè)務(wù)規(guī)則關(guān)系關(guān)系IOIO對(duì)象對(duì)象IDID數(shù)據(jù)集名數(shù)據(jù)集名文件文件IOIO對(duì)象對(duì)象IDID主題區(qū)主題區(qū)IDIDDBDB位置位置表表IOIO類型類型關(guān)系鍵關(guān)系鍵關(guān)系關(guān)系IDID(FKFK)IOIO對(duì)象對(duì)象IDID(FKFK)域域IDID(FKFK)順序號(hào)順序號(hào)域域IOIO對(duì)象對(duì)象IDID(FKFK)域域IDID(FKFK)數(shù)據(jù)元素名(數(shù)據(jù)元素名(FKFK)列號(hào)列號(hào)起始位置起始位置類型類型長(zhǎng)度長(zhǎng)度域域IDID賦值約束賦值約束缺省值缺省值源系統(tǒng)源系統(tǒng)IDID圖格式圖格式角色編碼角色編碼最后被訪問數(shù)據(jù)最后被訪問數(shù)據(jù)數(shù)據(jù)元素名數(shù)據(jù)元素名定義定義類型類型長(zhǎng)度長(zhǎng)度向?qū)驅(qū)в蛴騃DID數(shù)據(jù)
11、元素?cái)?shù)據(jù)元素31元數(shù)據(jù)工作的一個(gè)例子元數(shù)據(jù)工作的一個(gè)例子13社會(huì)保險(xiǎn)號(hào)社會(huì)保險(xiǎn)號(hào)雇員雇員社會(huì)保險(xiǎn)號(hào)(社會(huì)保險(xiǎn)號(hào)(FKFK)技能編碼(技能編碼(FKFK)雇員技能雇員技能技能編碼技能編碼 技能技能12IOIO對(duì)象對(duì)象IDID雇員雇員雇員技能雇員技能技能技能輸入輸出對(duì)象輸入輸出對(duì)象關(guān)系關(guān)系ID IOID IO對(duì)象對(duì)象IDID 12 12 雇員雇員 12 12 雇員技能雇員技能 13 13 雇員技能雇員技能 13 13 技能技能關(guān)系成員關(guān)系成員 關(guān)系關(guān)系IDID 12 12 13 13關(guān)系鍵關(guān)系鍵關(guān)系關(guān)系關(guān)系關(guān)系ID IOID IO對(duì)象對(duì)象ID ID 域域IDID12 12 雇員雇員 社會(huì)保險(xiǎn)號(hào)社會(huì)
12、保險(xiǎn)號(hào)12 12 雇員技能雇員技能 社會(huì)保險(xiǎn)號(hào)社會(huì)保險(xiǎn)號(hào)13 13 技能技能 技能編碼技能編碼13 13 雇員技能雇員技能 技能編碼技能編碼元數(shù)據(jù)的作用元數(shù)據(jù)的作用n描述什么在數(shù)據(jù)倉(cāng)庫(kù)中。描述什么在數(shù)據(jù)倉(cāng)庫(kù)中。n制作系統(tǒng)設(shè)計(jì)文檔。制作系統(tǒng)設(shè)計(jì)文檔。n測(cè)量數(shù)據(jù)品質(zhì)。測(cè)量數(shù)據(jù)品質(zhì)。n監(jiān)視數(shù)據(jù)同步操作。監(jiān)視數(shù)據(jù)同步操作。n規(guī)定什么樣的數(shù)據(jù)進(jìn)入和離開數(shù)據(jù)倉(cāng)庫(kù)。規(guī)定什么樣的數(shù)據(jù)進(jìn)入和離開數(shù)據(jù)倉(cāng)庫(kù)。n根據(jù)事件時(shí)間表安排數(shù)據(jù)抽取和監(jiān)視導(dǎo)入根據(jù)事件時(shí)間表安排數(shù)據(jù)抽取和監(jiān)視導(dǎo)入(import)工作。)工作。n繪制由源系統(tǒng)數(shù)據(jù)轉(zhuǎn)換為數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)的映射繪制由源系統(tǒng)數(shù)據(jù)轉(zhuǎn)換為數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)的映射圖。圖。n選擇不同級(jí)別的
13、數(shù)據(jù)綜合算法。選擇不同級(jí)別的數(shù)據(jù)綜合算法。元數(shù)據(jù)的作用元數(shù)據(jù)的作用n元數(shù)據(jù)在操作型環(huán)境與數(shù)據(jù)倉(cāng)庫(kù)中扮演著不同的角色:n在操作型環(huán)境中,元數(shù)據(jù)幾乎是事后補(bǔ)記,并歸入到與文檔相同的重要性級(jí)別。而數(shù)據(jù)倉(cāng)庫(kù)環(huán)境中元數(shù)據(jù)重要性提高。n二種環(huán)境中元數(shù)據(jù)服務(wù)于不同的群體。操作型服務(wù)于IT人員,數(shù)據(jù)倉(cāng)庫(kù)服務(wù)于DSS分析人員n元數(shù)據(jù)涉及到對(duì)二種環(huán)境中數(shù)據(jù)的映射管理n數(shù)據(jù)倉(cāng)庫(kù)環(huán)境中的元數(shù)據(jù)需要隨時(shí)間變化追蹤數(shù)據(jù)結(jié)構(gòu)的變化元數(shù)據(jù)的收集與維護(hù)n1元數(shù)據(jù)的收集n(1)來(lái)源于源系統(tǒng)元數(shù)據(jù)操作型系統(tǒng)數(shù)據(jù)模型系統(tǒng)文檔的數(shù)據(jù)元素定義COBOL寫字板及控制塊規(guī)范物理文件布局及字段定義程序規(guī)范外部數(shù)據(jù)來(lái)源的文件布局和字段定義其他來(lái)
14、源(如:電子表格)源系統(tǒng)中元數(shù)據(jù)收集n(2) 來(lái)源于抽取的數(shù)據(jù)元數(shù)據(jù)源 平 臺(tái) 的數(shù) 據(jù) 和 連接所選擇的數(shù)據(jù)源的布局和定義每個(gè)平臺(tái)上初始抽取文件的合并準(zhǔn)則用 于 抽 取的 字 段 定義標(biāo)準(zhǔn)化字段類型與長(zhǎng)度的規(guī)則數(shù) 據(jù) 抽 取計(jì)劃增 量 修 改的 抽 取 方法數(shù) 據(jù) 抽 取任務(wù)流從抽取的數(shù)據(jù)種收集元數(shù)據(jù) n(3)來(lái)源于轉(zhuǎn)換和清理的數(shù)據(jù)元數(shù)據(jù)抽取文件到數(shù)據(jù)準(zhǔn)備文件的映射規(guī)范單獨(dú)文件的轉(zhuǎn)換規(guī)則字段默認(rèn)有效性檢查的商業(yè)規(guī)則分類及重排序安排從數(shù)據(jù)抽取到數(shù)據(jù)準(zhǔn)備的審查跟蹤從轉(zhuǎn)換和清洗的數(shù)據(jù)中收集元數(shù)據(jù)n(4)來(lái)源于裝載的數(shù)據(jù)元數(shù)據(jù)從數(shù)據(jù)準(zhǔn)備文件到裝載映像的映射規(guī)則數(shù)據(jù)準(zhǔn)備到裝載映像的審查跟蹤為每個(gè)文件分配鍵時(shí)的分配規(guī)則完全刷新
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 工程進(jìn)度保證保函
- 保安人員職責(zé)保證
- 招標(biāo)文件條款的深入解讀
- 不放棄工作的承諾示范
- 玉石原料購(gòu)買協(xié)議
- 軟件服務(wù)及技術(shù)支持協(xié)議書
- 零件加工合同書范例
- 真情的承諾保證
- 國(guó)內(nèi)模特服務(wù)合同
- 調(diào)味品供應(yīng)合同
- 廣東省深圳市2023-2024學(xué)年上冊(cè)七年級(jí)歷史期末模擬試題(附答案)
- 客服招聘策劃方案
- 發(fā)掘無(wú)限潛能成就最好的自己主題班會(huì)課件
- 主動(dòng)呼吸循環(huán)技術(shù)方案
- 醫(yī)院能源管理平臺(tái)建設(shè)方案合集
- 海南洪水影響區(qū)域評(píng)估報(bào)告
- 《北京大學(xué)介紹》課件
- 校園蛋糕創(chuàng)業(yè)計(jì)劃書
- 麻醉科臨床診療指南2020版
- 2024年廣西北部灣港集團(tuán)招聘筆試參考題庫(kù)含答案解析
- 課程設(shè)計(jì)電動(dòng)葫蘆設(shè)計(jì)
評(píng)論
0/150
提交評(píng)論