![第3章-設(shè)計數(shù)據(jù)倉庫-3_第1頁](http://file2.renrendoc.com/fileroot_temp3/2021-10/15/4fe8bc4e-06ab-4699-99fb-66e2ac0ffe3f/4fe8bc4e-06ab-4699-99fb-66e2ac0ffe3f1.gif)
![第3章-設(shè)計數(shù)據(jù)倉庫-3_第2頁](http://file2.renrendoc.com/fileroot_temp3/2021-10/15/4fe8bc4e-06ab-4699-99fb-66e2ac0ffe3f/4fe8bc4e-06ab-4699-99fb-66e2ac0ffe3f2.gif)
![第3章-設(shè)計數(shù)據(jù)倉庫-3_第3頁](http://file2.renrendoc.com/fileroot_temp3/2021-10/15/4fe8bc4e-06ab-4699-99fb-66e2ac0ffe3f/4fe8bc4e-06ab-4699-99fb-66e2ac0ffe3f3.gif)
![第3章-設(shè)計數(shù)據(jù)倉庫-3_第4頁](http://file2.renrendoc.com/fileroot_temp3/2021-10/15/4fe8bc4e-06ab-4699-99fb-66e2ac0ffe3f/4fe8bc4e-06ab-4699-99fb-66e2ac0ffe3f4.gif)
![第3章-設(shè)計數(shù)據(jù)倉庫-3_第5頁](http://file2.renrendoc.com/fileroot_temp3/2021-10/15/4fe8bc4e-06ab-4699-99fb-66e2ac0ffe3f/4fe8bc4e-06ab-4699-99fb-66e2ac0ffe3f5.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、第第3 3章章 設(shè)計數(shù)據(jù)倉庫設(shè)計數(shù)據(jù)倉庫(3)(3)物理設(shè)計物理設(shè)計n物理設(shè)計中需要考慮的各種因素的核心是物理I/O效率。n數(shù)據(jù)倉庫設(shè)計者的主要工作是組織好物理數(shù)據(jù),以保證執(zhí)行一次物理I/O能返回最大數(shù)量的記錄物理數(shù)據(jù)模型物理數(shù)據(jù)模型n物理數(shù)據(jù)模型由中間層數(shù)據(jù)模型創(chuàng)建而來n物理模型通過擴(kuò)展中間層數(shù)據(jù)模型,使模型中包含關(guān)鍵字和物理特性n設(shè)計出物理數(shù)據(jù)模型的關(guān)系表后,主要的就是要進(jìn)行性能優(yōu)化n第一步:確定數(shù)據(jù)的粒度和分區(qū)n數(shù)據(jù)分組n合并表n選擇冗余n進(jìn)一步分離數(shù)據(jù)n導(dǎo)出數(shù)據(jù)n預(yù)格式化、預(yù)分配n人工關(guān)系n預(yù)連接表粒度設(shè)計n預(yù)測不同體系結(jié)構(gòu)的粒度需求n數(shù)據(jù)倉庫中的數(shù)據(jù)需要處于最低的公共細(xì)節(jié)水平n數(shù)據(jù)倉
2、庫中的數(shù)據(jù)粒度必須是任何數(shù)據(jù)集市所需要數(shù)據(jù)中的最小粒度。n粒度設(shè)計與數(shù)據(jù)量估計n將來的數(shù)據(jù)行數(shù)n所需的DASD(直接存取存儲設(shè)備)數(shù)估計數(shù)據(jù)量估計數(shù)據(jù)量n計算數(shù)據(jù)倉庫占用空間的方法:n第一步:確定數(shù)據(jù)倉庫中將要創(chuàng)建的所有表n第二步:估計一年內(nèi)可能的最少行數(shù)與最多行數(shù)n第三步:估計五年內(nèi)可能的最少行數(shù)與最多行數(shù)n第四步:估計索引數(shù)據(jù)占用的空間n第五步:計算空間n一年總的最大空間=最大行大小*一年內(nèi)最大行數(shù)n一年總的最小空間=最小行大小*一年內(nèi)最小行數(shù)n另外,考慮備份和恢復(fù)所需要的空間n估算結(jié)果的準(zhǔn)確程度只需要達(dá)到數(shù)量級數(shù)據(jù)量與粒度設(shè)計數(shù)據(jù)量與粒度設(shè)計n應(yīng)該考慮五年后如下因素:n有更多的技術(shù)管理大
3、量數(shù)據(jù)n硬件費用下降n功能更強(qiáng)大的軟件工具n最終用戶更加專業(yè)化粒度與存儲器粒度與存儲器n歷史數(shù)據(jù)與細(xì)節(jié)數(shù)據(jù)造成了數(shù)據(jù)的顯著增長n根據(jù)數(shù)據(jù)使用頻率,可將數(shù)據(jù)分為二類:n經(jīng)常使用的數(shù)據(jù)n不經(jīng)常使用的數(shù)據(jù)(睡眠數(shù)據(jù))n解決方案:n睡眠數(shù)據(jù)轉(zhuǎn)移至海量備用存儲器或近線存儲器n常用的溢出存儲器可分為:n低性能的磁盤存儲器n近線存儲器n串行磁帶n粒度設(shè)計反饋技巧粒度設(shè)計反饋技巧n提高數(shù)據(jù)粒度的方法:n數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫時,進(jìn)行匯總n數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫時,求平均值n數(shù)據(jù)集的最大/最小值放入數(shù)據(jù)倉庫n只放入顯然需要的數(shù)據(jù)n用條件邏輯選擇需要的數(shù)據(jù)n系統(tǒng)需求了解到50%左右時即可以開始建造數(shù)據(jù)倉庫n當(dāng)正常的業(yè)務(wù)事務(wù)記
4、錄準(zhǔn)備放入數(shù)據(jù)倉庫時,高粒度級別的數(shù)據(jù)可能需要分解到低粒度級別。n而對于一些低粒度級的數(shù)據(jù),如生產(chǎn)過程控制、網(wǎng)絡(luò)環(huán)境中產(chǎn)生的點擊流數(shù)據(jù)等,必須對數(shù)據(jù)進(jìn)行編輯、重新排序和匯總等處理。規(guī)范化與反向規(guī)范化規(guī)范化與反向規(guī)范化n數(shù)據(jù)模型處理的輸出是一系列表,每個表都包含關(guān)鍵字和屬性n設(shè)計生成的許多小表進(jìn)行連接運算時,會造成I/O性能的急劇下降n方法1:將這些表物理合并,使得I/O代價最小化規(guī)范化與反向規(guī)范化規(guī)范化與反向規(guī)范化n創(chuàng)建數(shù)據(jù)數(shù)組n要求數(shù)列中值的數(shù)量穩(wěn)定、數(shù)據(jù)是按順序訪問的、數(shù)據(jù)的創(chuàng)建與修改在統(tǒng)計上是以非常有規(guī)律的方式進(jìn)行等n由于數(shù)據(jù)具有基于時間特性,因而可通過時間建立數(shù)組規(guī)范化與反向規(guī)范化規(guī)范
5、化與反向規(guī)范化n2.有意引入冗余數(shù)據(jù)規(guī)范化與反向規(guī)范化規(guī)范化與反向規(guī)范化n3.數(shù)據(jù)分離n當(dāng)數(shù)據(jù)訪問頻率相差懸殊時,將數(shù)據(jù)作進(jìn)一步分離規(guī)范化與反向規(guī)范化規(guī)范化與反向規(guī)范化n4.通過引入導(dǎo)出數(shù)據(jù)減少I/O代價規(guī)范化與反向規(guī)范化規(guī)范化與反向規(guī)范化n5.建立創(chuàng)造性索引或創(chuàng)造性概要文件n如果對管理有價值的需求能夠預(yù)見,就更有意義規(guī)范化與反向規(guī)范化規(guī)范化與反向規(guī)范化n6.參照完整性管理n數(shù)據(jù)倉庫環(huán)境中應(yīng)采用不同方法表示參照完整性分區(qū)設(shè)計方法分區(qū)設(shè)計方法n數(shù)據(jù)分區(qū)是指把數(shù)據(jù)分散到可獨立處理的分離物理單元中.n數(shù)據(jù)分區(qū)的優(yōu)點:n數(shù)據(jù)裝載n數(shù)據(jù)訪問n數(shù)據(jù)存檔n數(shù)據(jù)刪除n數(shù)據(jù)監(jiān)控n數(shù)據(jù)存儲n分區(qū)的目的把數(shù)據(jù)劃分成
6、小的可管理的物理單元n任何給定的數(shù)據(jù)單元屬于且僅屬于一個分區(qū)分區(qū)設(shè)計方法分區(qū)設(shè)計方法n數(shù)據(jù)分區(qū)的標(biāo)準(zhǔn):n時間n業(yè)務(wù)范圍n地理位置n組織單位n所有上述標(biāo)準(zhǔn)其中,日期幾乎總是分區(qū)標(biāo)準(zhǔn)中的一個必然組成部分n分區(qū)方式:n系統(tǒng)層上分區(qū)一定程度上指某些DBMS和操作系統(tǒng)的功能n應(yīng)用層上分區(qū)由設(shè)計的應(yīng)用程序完成,并由開發(fā)者和程序員嚴(yán)格控制應(yīng)用層上分區(qū)相對更有意義,因為每年的數(shù)據(jù)可以有不同的定義, 而且數(shù)據(jù)從一個物理設(shè)備轉(zhuǎn)到另一個物理設(shè)備不會有問題數(shù)據(jù)倉庫的索引n大多數(shù)索引建立在維度表上n通常,數(shù)據(jù)倉庫索引比業(yè)務(wù)系統(tǒng)多n索引越多,需要存儲空間越大n大量的索引會影響裝置過程位圖索引n位圖是一個按序排列的點陣,每
7、個點對應(yīng)索引列的不同取值n位圖索引支持低可選擇性的查詢。相比B樹,占用存儲空間更少n如果有新值加入,位圖索引必須重新構(gòu)建n在訪問位圖索引之后總是要訪問數(shù)據(jù)表位圖索引的優(yōu)勢n如果將位圖組織為向量組,可以不必加載整個位圖,而只獲取與查詢有關(guān)的向量的磁盤頁n可以非常高效的使用布爾運算符事實表的索引n為全部的主鍵建立一個B樹索引n經(jīng)常用到的鍵作為組合鍵中級別高的鍵n經(jīng)常查詢的字段也可以建立索引n指定范圍的現(xiàn)金銷售額n位圖索引不適應(yīng)事實表維度表的索引n主鍵上建立B樹索引n為經(jīng)常查詢的列建立位圖索引n常用于連接的列建立單獨的索引元數(shù)據(jù)元數(shù)據(jù)元數(shù)據(jù)描述數(shù)據(jù)以及管理數(shù)據(jù)的環(huán)境,擔(dān)任數(shù)據(jù)倉庫的數(shù)據(jù)組織工作。元數(shù)
8、據(jù)描述數(shù)據(jù)以及管理數(shù)據(jù)的環(huán)境,擔(dān)任數(shù)據(jù)倉庫的數(shù)據(jù)組織工作。元數(shù)據(jù)常常被定義為元數(shù)據(jù)常常被定義為“關(guān)于數(shù)據(jù)的數(shù)據(jù)關(guān)于數(shù)據(jù)的數(shù)據(jù)”。文件文件/ /表表 邏輯名邏輯名 顧客顧客 定義定義 購買商品或服務(wù)的團(tuán)體或個人購買商品或服務(wù)的團(tuán)體或個人 物理名物理名 TDW_CSTTDW_CST 記錄編輯過程名記錄編輯過程名 PRC_CSTPRC_CST屬性屬性 邏輯名邏輯名 顧客標(biāo)識顧客標(biāo)識 定義定義 賦予每個顧客的唯一標(biāo)識賦予每個顧客的唯一標(biāo)識 物理名物理名 CST _IDCST _ID 類型類型 CHARACTERCHARACTER 長度長度 6 6 能否為空能否為空 NOTNOTNULLNULL 域編輯
9、過程名域編輯過程名 PFC_CST_IDPFC_CST_ID元數(shù)據(jù)的一個例子元數(shù)據(jù)的一個例子元數(shù)據(jù)的內(nèi)容n元數(shù)據(jù)在數(shù)據(jù)倉庫環(huán)境主要包括以下方面:n表結(jié)構(gòu)、表屬性、源數(shù)據(jù)、記錄到數(shù)據(jù)倉庫的映射、數(shù)據(jù)模型說明、抽取日志、訪問數(shù)據(jù)的公用例行程序、數(shù)據(jù)的定義/描述、數(shù)據(jù)單元之間的關(guān)系。n可分為業(yè)務(wù)元數(shù)據(jù)與技術(shù)元數(shù)據(jù)二類30元數(shù)據(jù)模型元數(shù)據(jù)模型輸入輸入/ /輸出對象輸出對象IOIO對象對象IDID定義定義IOIO類型類型狀態(tài)狀態(tài)向?qū)驅(qū)Т鏅n周期存檔周期關(guān)系成員關(guān)系成員關(guān)系關(guān)系IDID(FKFK)IOIO對象對象IDID(FKFK)關(guān)系角色編碼關(guān)系角色編碼關(guān)系級別關(guān)系級別關(guān)系約束關(guān)系約束關(guān)系關(guān)系IDID關(guān)
10、系類型關(guān)系類型業(yè)務(wù)規(guī)則業(yè)務(wù)規(guī)則關(guān)系關(guān)系IOIO對象對象IDID數(shù)據(jù)集名數(shù)據(jù)集名文件文件IOIO對象對象IDID主題區(qū)主題區(qū)IDIDDBDB位置位置表表IOIO類型類型關(guān)系鍵關(guān)系鍵關(guān)系關(guān)系IDID(FKFK)IOIO對象對象IDID(FKFK)域域IDID(FKFK)順序號順序號域域IOIO對象對象IDID(FKFK)域域IDID(FKFK)數(shù)據(jù)元素名(數(shù)據(jù)元素名(FKFK)列號列號起始位置起始位置類型類型長度長度域域IDID賦值約束賦值約束缺省值缺省值源系統(tǒng)源系統(tǒng)IDID圖格式圖格式角色編碼角色編碼最后被訪問數(shù)據(jù)最后被訪問數(shù)據(jù)數(shù)據(jù)元素名數(shù)據(jù)元素名定義定義類型類型長度長度向?qū)驅(qū)в蛴騃DID數(shù)據(jù)
11、元素數(shù)據(jù)元素31元數(shù)據(jù)工作的一個例子元數(shù)據(jù)工作的一個例子13社會保險號社會保險號雇員雇員社會保險號(社會保險號(FKFK)技能編碼(技能編碼(FKFK)雇員技能雇員技能技能編碼技能編碼 技能技能12IOIO對象對象IDID雇員雇員雇員技能雇員技能技能技能輸入輸出對象輸入輸出對象關(guān)系關(guān)系ID IOID IO對象對象IDID 12 12 雇員雇員 12 12 雇員技能雇員技能 13 13 雇員技能雇員技能 13 13 技能技能關(guān)系成員關(guān)系成員 關(guān)系關(guān)系IDID 12 12 13 13關(guān)系鍵關(guān)系鍵關(guān)系關(guān)系關(guān)系關(guān)系ID IOID IO對象對象ID ID 域域IDID12 12 雇員雇員 社會保險號社會
12、保險號12 12 雇員技能雇員技能 社會保險號社會保險號13 13 技能技能 技能編碼技能編碼13 13 雇員技能雇員技能 技能編碼技能編碼元數(shù)據(jù)的作用元數(shù)據(jù)的作用n描述什么在數(shù)據(jù)倉庫中。描述什么在數(shù)據(jù)倉庫中。n制作系統(tǒng)設(shè)計文檔。制作系統(tǒng)設(shè)計文檔。n測量數(shù)據(jù)品質(zhì)。測量數(shù)據(jù)品質(zhì)。n監(jiān)視數(shù)據(jù)同步操作。監(jiān)視數(shù)據(jù)同步操作。n規(guī)定什么樣的數(shù)據(jù)進(jìn)入和離開數(shù)據(jù)倉庫。規(guī)定什么樣的數(shù)據(jù)進(jìn)入和離開數(shù)據(jù)倉庫。n根據(jù)事件時間表安排數(shù)據(jù)抽取和監(jiān)視導(dǎo)入根據(jù)事件時間表安排數(shù)據(jù)抽取和監(jiān)視導(dǎo)入(import)工作。)工作。n繪制由源系統(tǒng)數(shù)據(jù)轉(zhuǎn)換為數(shù)據(jù)倉庫數(shù)據(jù)的映射繪制由源系統(tǒng)數(shù)據(jù)轉(zhuǎn)換為數(shù)據(jù)倉庫數(shù)據(jù)的映射圖。圖。n選擇不同級別的
13、數(shù)據(jù)綜合算法。選擇不同級別的數(shù)據(jù)綜合算法。元數(shù)據(jù)的作用元數(shù)據(jù)的作用n元數(shù)據(jù)在操作型環(huán)境與數(shù)據(jù)倉庫中扮演著不同的角色:n在操作型環(huán)境中,元數(shù)據(jù)幾乎是事后補(bǔ)記,并歸入到與文檔相同的重要性級別。而數(shù)據(jù)倉庫環(huán)境中元數(shù)據(jù)重要性提高。n二種環(huán)境中元數(shù)據(jù)服務(wù)于不同的群體。操作型服務(wù)于IT人員,數(shù)據(jù)倉庫服務(wù)于DSS分析人員n元數(shù)據(jù)涉及到對二種環(huán)境中數(shù)據(jù)的映射管理n數(shù)據(jù)倉庫環(huán)境中的元數(shù)據(jù)需要隨時間變化追蹤數(shù)據(jù)結(jié)構(gòu)的變化元數(shù)據(jù)的收集與維護(hù)n1元數(shù)據(jù)的收集n(1)來源于源系統(tǒng)元數(shù)據(jù)操作型系統(tǒng)數(shù)據(jù)模型系統(tǒng)文檔的數(shù)據(jù)元素定義COBOL寫字板及控制塊規(guī)范物理文件布局及字段定義程序規(guī)范外部數(shù)據(jù)來源的文件布局和字段定義其他來
14、源(如:電子表格)源系統(tǒng)中元數(shù)據(jù)收集n(2) 來源于抽取的數(shù)據(jù)元數(shù)據(jù)源 平 臺 的數(shù) 據(jù) 和 連接所選擇的數(shù)據(jù)源的布局和定義每個平臺上初始抽取文件的合并準(zhǔn)則用 于 抽 取的 字 段 定義標(biāo)準(zhǔn)化字段類型與長度的規(guī)則數(shù) 據(jù) 抽 取計劃增 量 修 改的 抽 取 方法數(shù) 據(jù) 抽 取任務(wù)流從抽取的數(shù)據(jù)種收集元數(shù)據(jù) n(3)來源于轉(zhuǎn)換和清理的數(shù)據(jù)元數(shù)據(jù)抽取文件到數(shù)據(jù)準(zhǔn)備文件的映射規(guī)范單獨文件的轉(zhuǎn)換規(guī)則字段默認(rèn)有效性檢查的商業(yè)規(guī)則分類及重排序安排從數(shù)據(jù)抽取到數(shù)據(jù)準(zhǔn)備的審查跟蹤從轉(zhuǎn)換和清洗的數(shù)據(jù)中收集元數(shù)據(jù)n(4)來源于裝載的數(shù)據(jù)元數(shù)據(jù)從數(shù)據(jù)準(zhǔn)備文件到裝載映像的映射規(guī)則數(shù)據(jù)準(zhǔn)備到裝載映像的審查跟蹤為每個文件分配鍵時的分配規(guī)則完全刷新
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五版消防設(shè)備進(jìn)出口合同72815936662篇
- 二零二五年度美容護(hù)膚品銷售代理合同
- 工作環(huán)境與員工滿意度調(diào)查
- 二零二五年度家庭矛盾離婚調(diào)解合同9篇
- 腫瘤科護(hù)士的腫瘤治療工作總結(jié)
- 高校教研創(chuàng)新成果評選
- 二零二五年度兒童領(lǐng)養(yǎng)協(xié)議書標(biāo)準(zhǔn)版3篇
- 二零二五版同居解除協(xié)議書:情感賠償與財產(chǎn)清算3篇
- 二零二五年度建筑工程鋼管腳手架供應(yīng)與安裝合同
- 二零二五年度個人藝術(shù)品買賣合同規(guī)定3篇
- DL∕T 1100.1-2018 電力系統(tǒng)的時間同步系統(tǒng) 第1部分:技術(shù)規(guī)范
- 以房抵債過戶合同范本
- 重大版小學(xué)英語四年級下冊期末測試卷
- 2024年1月高考適應(yīng)性測試“九省聯(lián)考”英語 試題(學(xué)生版+解析版)
- 2024浙江省農(nóng)發(fā)集團(tuán)社會招聘筆試參考題庫附帶答案詳解
- 慢性壓力對身體健康的影響與調(diào)理方法
- 《白蛇緣起》賞析
- Interstellar-星際穿越課件
- 蘇教版2022-2023學(xué)年三年級數(shù)學(xué)下冊開學(xué)摸底考試卷(五)含答案與解析
- 2023學(xué)年度第一學(xué)期高三英語備課組工作總結(jié)
- 臨建標(biāo)準(zhǔn)化圖集新版
評論
0/150
提交評論