[企業(yè)管理]5數(shù)據(jù)倉庫的設(shè)計與開發(fā)二ppt課件_第1頁
[企業(yè)管理]5數(shù)據(jù)倉庫的設(shè)計與開發(fā)二ppt課件_第2頁
[企業(yè)管理]5數(shù)據(jù)倉庫的設(shè)計與開發(fā)二ppt課件_第3頁
[企業(yè)管理]5數(shù)據(jù)倉庫的設(shè)計與開發(fā)二ppt課件_第4頁
[企業(yè)管理]5數(shù)據(jù)倉庫的設(shè)計與開發(fā)二ppt課件_第5頁
已閱讀5頁,還剩41頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、2n4.2 數(shù)據(jù)倉庫開發(fā)n4.3 數(shù)據(jù)倉庫技術(shù)與開發(fā)的困難34.2數(shù)據(jù)倉庫開發(fā)數(shù)據(jù)倉庫開發(fā)n4.2.1數(shù)據(jù)倉庫開發(fā)過程數(shù)據(jù)倉庫開發(fā)過程n4.2.2 數(shù)據(jù)質(zhì)量與數(shù)據(jù)清洗數(shù)據(jù)質(zhì)量與數(shù)據(jù)清洗n4.2.3 數(shù)據(jù)粒度與維度建模數(shù)據(jù)粒度與維度建模44.2.1數(shù)據(jù)倉庫開發(fā)過程數(shù)據(jù)倉庫開發(fā)過程4.2.2.1分析與設(shè)計階段分析與設(shè)計階段 4.2.1.2數(shù)據(jù)獲取階段數(shù)據(jù)獲取階段4.2.1.3決策支持階段決策支持階段4.2.1.4維護與評估階段維護與評估階段需求分析數(shù)據(jù)裝載信息查詢概念設(shè)計邏輯設(shè)計物理設(shè)計數(shù)據(jù)抽取數(shù)據(jù)轉(zhuǎn)換知識探索數(shù)據(jù)倉庫增長數(shù)據(jù)倉庫維護數(shù)據(jù)倉庫評估決策支持數(shù)據(jù)獲取分析與設(shè)計維護與評估數(shù)據(jù)倉庫開發(fā)過程

2、數(shù)據(jù)倉庫開發(fā)過程64.2.1.1分析與設(shè)計階段 n1.需求分析n2.概念設(shè)計n3.邏輯設(shè)計n4.物理設(shè)計71.需求分析n確定決策主題域n分析主題域的商業(yè)維度n分析支持決策的數(shù)據(jù)來源n確定數(shù)據(jù)倉庫的數(shù)據(jù)量大小n分析數(shù)據(jù)更新的頻率n確定決策分析方法82.概念設(shè)計n建立概念模型:對每個決策主題與屬性以及主題之間的關(guān)系用E-R圖模型表示。nE-R圖將現(xiàn)實世界表示成信息世界,便利向計算機的表示形式進行轉(zhuǎn)化。93.邏輯設(shè)計n將概念模型(E-R圖)轉(zhuǎn)換成邏輯模型,即計算機表示的數(shù)據(jù)模型。n數(shù)據(jù)倉庫數(shù)據(jù)模型一般采用星型模型。n星型模型由事實表、維表組成。104.物理設(shè)計n對邏輯模型設(shè)計的數(shù)據(jù)模型確定物理存儲結(jié)

3、構(gòu)和存取方法。n數(shù)據(jù)倉庫的星型模型在計算機中仍用關(guān)系型數(shù)據(jù)庫存儲。n物理設(shè)計還需要進行存儲容量的估計;確定數(shù)據(jù)存儲的計劃;確定索引策略;確定數(shù)據(jù)存放位置以及確定存儲分配。114.2.1.2數(shù)據(jù)獲取階段 n1.數(shù)據(jù)抽取n2.數(shù)據(jù)轉(zhuǎn)換n3.數(shù)據(jù)裝載121.數(shù)據(jù)抽取n對數(shù)據(jù)源的確認,確定數(shù)據(jù)抽取技術(shù),確認數(shù)據(jù)抽取頻率,按照時間要求抽取數(shù)據(jù)。n由于源系統(tǒng)的差異性,如計算機平臺、操作系統(tǒng)、數(shù)據(jù)庫管理系統(tǒng)、網(wǎng)絡(luò)協(xié)議等的不同造成了抽取數(shù)據(jù)的困難。132.數(shù)據(jù)轉(zhuǎn)換n數(shù)據(jù)格式的修正n字段的解碼n單個字段的分離n信息的合并n變量單位的轉(zhuǎn)化n時間的轉(zhuǎn)化n數(shù)據(jù)匯總143.數(shù)據(jù)裝載n初始裝載:第一次裝入數(shù)據(jù)倉庫。n增量

4、裝載:根據(jù)定期應(yīng)用需求裝入數(shù)據(jù)倉 n 庫。n完全刷新:完全刪除現(xiàn)有數(shù)據(jù),重新裝入n 新的數(shù)據(jù)。154.2.1.3決策支持階段n1.信息查詢n2.知識探索161.信息查詢n信息查詢者使用數(shù)據(jù)倉庫能發(fā)現(xiàn)目前存在的問題。n創(chuàng)建數(shù)據(jù)陣列n將相關(guān)的數(shù)據(jù)(每月的數(shù)據(jù))放在同一個物理位置上。n預(yù)連接表格n對于兩個或多個表格共享一個公用鏈。17n預(yù)聚集數(shù)據(jù)n以每天為基礎(chǔ)存儲數(shù)據(jù)。在一周結(jié)束時,以每周為基礎(chǔ)存儲數(shù)據(jù)(即累加每天的數(shù)據(jù))。月末時,則以每月為基礎(chǔ)存儲數(shù)據(jù)。n聚類數(shù)據(jù)n聚類將數(shù)據(jù)放置在同一地點,這樣可以提高對聚類數(shù)據(jù)的查詢。182.知識探索n發(fā)現(xiàn)的問題并找出原因。 n創(chuàng)建一個單獨的探索倉庫,不影響數(shù)據(jù)

5、倉庫的常規(guī)用戶。同時采用“標識技術(shù)”進行數(shù)據(jù)壓縮,提高數(shù)據(jù)分析速度。n使用一些模型幫助決策分析,例如客戶分段、欺詐監(jiān)測、信用分險、客戶生存期、渠道響應(yīng)、推銷響應(yīng)等模型。n通過模型的計算來得出一些有價值的商業(yè)知識。19n采用數(shù)據(jù)挖掘工具來獲取商業(yè)知識。n例如,得到如下一些知識:n哪些商品一起銷售好?哪些商品一起銷售好?n哪些商業(yè)事務(wù)處理可能帶有欺詐性?哪些商業(yè)事務(wù)處理可能帶有欺詐性?n高價值客戶的共同點是什么?高價值客戶的共同點是什么?n獲取的知識為企業(yè)領(lǐng)導(dǎo)者提供決策支持,達到保留客戶,減少欺詐,提高公司利潤具有重要作用。204.2.1.4維護與評估階段n1.數(shù)據(jù)倉庫增長n2.數(shù)據(jù)倉庫維護n3.

6、數(shù)據(jù)倉庫評估211.數(shù)據(jù)倉庫增長n數(shù)據(jù)倉庫建立以后,隨著用戶的不斷增加,時間的增長,用戶查詢需求更多,數(shù)據(jù)會迅速增長。n n在數(shù)據(jù)倉庫的開發(fā)過程中需要適應(yīng)數(shù)據(jù)倉庫不斷增長的現(xiàn)實。222.數(shù)據(jù)倉庫維護n適應(yīng)數(shù)據(jù)倉庫增長的維護n數(shù)據(jù)增長的處理工作有:去掉沒有用的歷史數(shù)據(jù);根據(jù)用戶使用的情況,取消某些細節(jié)數(shù)據(jù)和無用的匯總數(shù)據(jù),增加些實用的匯總數(shù)據(jù)。 23正常系統(tǒng)維護n數(shù)據(jù)倉庫的備份和恢復(fù)。n 備份數(shù)據(jù)為系統(tǒng)恢復(fù)提供基礎(chǔ),一旦系統(tǒng)出現(xiàn)災(zāi)難時,利用備份數(shù)據(jù)可以很快將數(shù)據(jù)倉庫恢復(fù)到正常狀態(tài)。243.數(shù)據(jù)倉庫評估n(1)系統(tǒng)性能評定)系統(tǒng)性能評定n(2)投資回報分析)投資回報分析n(3)數(shù)據(jù)質(zhì)量評估)數(shù)據(jù)質(zhì)

7、量評估25(1)系統(tǒng)性能評定n硬件平臺是否能夠支持大數(shù)據(jù)量的工作和多類用戶、多種工具的大量需求?n軟件平臺是否是用一個高效的且優(yōu)化的方式來組織和管理數(shù)據(jù)?n是否適應(yīng)系統(tǒng)(數(shù)據(jù)和處理)的擴展?26(2)投資回報分析n定量分析:計算投資回報率(ROI),即收益與成本的比率。 n定性分析:企業(yè)與客戶之間關(guān)系狀態(tài)?對機會快速反應(yīng)能力如何?改善管理能力如何?27(3)數(shù)據(jù)質(zhì)量評估n數(shù)據(jù)是準確的。n數(shù)據(jù)符合它的類型要求和取值要求。n數(shù)據(jù)具有完整性和一致性。n數(shù)據(jù)是清晰的且符合商業(yè)規(guī)則。n數(shù)據(jù)保持時效性并不能出現(xiàn)異常。284.2.2 數(shù)據(jù)質(zhì)量與數(shù)據(jù)清洗數(shù)據(jù)質(zhì)量與數(shù)據(jù)清洗n1. 數(shù)據(jù)質(zhì)量問題數(shù)據(jù)質(zhì)量問題n2.

8、數(shù)據(jù)污染產(chǎn)生的原因數(shù)據(jù)污染產(chǎn)生的原因n3.數(shù)據(jù)清洗數(shù)據(jù)清洗291. 數(shù)據(jù)質(zhì)量問題數(shù)據(jù)質(zhì)量問題n(1)字段中的虛假值。)字段中的虛假值。n(2)數(shù)據(jù)值缺失。)數(shù)據(jù)值缺失。n(3)不一致的值。)不一致的值。n(4)違反常規(guī)的不正確值。)違反常規(guī)的不正確值。n(5)一個字段有多種用途。)一個字段有多種用途。n(6)標法不唯一。)標法不唯一。302.數(shù)據(jù)污染產(chǎn)生的原因數(shù)據(jù)污染產(chǎn)生的原因n(1)系統(tǒng)轉(zhuǎn)換)系統(tǒng)轉(zhuǎn)換n(2)數(shù)據(jù)老化)數(shù)據(jù)老化n(3)復(fù)雜的系統(tǒng)集成)復(fù)雜的系統(tǒng)集成 n(4)數(shù)據(jù)輸入的不完整信息)數(shù)據(jù)輸入的不完整信息 n(5)輸入錯誤)輸入錯誤 n(6)欺詐)欺詐 n(7)缺乏相關(guān)政策)缺乏相

9、關(guān)政策 313.數(shù)據(jù)清洗數(shù)據(jù)清洗n只清洗那些重要的數(shù)據(jù),而忽略那些不重要的數(shù)只清洗那些重要的數(shù)據(jù),而忽略那些不重要的數(shù)據(jù)。據(jù)。n數(shù)據(jù)在被存儲進數(shù)據(jù)倉庫之前就應(yīng)該進行清洗。數(shù)據(jù)在被存儲進數(shù)據(jù)倉庫之前就應(yīng)該進行清洗。n找到適合源系統(tǒng)的字段和格式的清洗工具。找到適合源系統(tǒng)的字段和格式的清洗工具。n建立數(shù)據(jù)質(zhì)量領(lǐng)導(dǎo)小組;建立數(shù)據(jù)質(zhì)量政策和標建立數(shù)據(jù)質(zhì)量領(lǐng)導(dǎo)小組;建立數(shù)據(jù)質(zhì)量政策和標準;定義質(zhì)量指標參數(shù)和基準;識別受壞數(shù)據(jù)影準;定義質(zhì)量指標參數(shù)和基準;識別受壞數(shù)據(jù)影響最大的商業(yè)功能。響最大的商業(yè)功能。n對有較大影響力的數(shù)據(jù)元素定制清洗計劃,并執(zhí)對有較大影響力的數(shù)據(jù)元素定制清洗計劃,并執(zhí)行數(shù)據(jù)清洗。行數(shù)據(jù)

10、清洗。324.2.3 數(shù)據(jù)粒度與維度建模數(shù)據(jù)粒度與維度建模n數(shù)據(jù)粒度是指數(shù)據(jù)倉庫的數(shù)據(jù)中保存數(shù)數(shù)據(jù)粒度是指數(shù)據(jù)倉庫的數(shù)據(jù)中保存數(shù)據(jù)的細化程度或綜合程度的級別。據(jù)的細化程度或綜合程度的級別。n 數(shù)據(jù)粒度深深影響存放在數(shù)據(jù)倉庫中的數(shù)據(jù)粒度深深影響存放在數(shù)據(jù)倉庫中的數(shù)據(jù)量的大小,同時影響數(shù)據(jù)倉庫所能數(shù)據(jù)量的大小,同時影響數(shù)據(jù)倉庫所能回答的查詢類型。回答的查詢類型。331. 大維度與雪花模型大維度與雪花模型n在數(shù)據(jù)倉庫中,客戶維度和產(chǎn)品維度是典型的在數(shù)據(jù)倉庫中,客戶維度和產(chǎn)品維度是典型的大維度。大維度。n大維度表采用雪花模型的數(shù)據(jù)組織,是一種有大維度表采用雪花模型的數(shù)據(jù)組織,是一種有效的方法。效的方法

11、。n對產(chǎn)品維度,產(chǎn)品是分屬于產(chǎn)品品牌,品牌又對產(chǎn)品維度,產(chǎn)品是分屬于產(chǎn)品品牌,品牌又分屬于產(chǎn)品分類。對客戶維度,客戶分屬于地分屬于產(chǎn)品分類。對客戶維度,客戶分屬于地區(qū),地區(qū)分屬于國家。區(qū),地區(qū)分屬于國家。n對于銷售的雪花模型如圖對于銷售的雪花模型如圖4.11所示。所示。地區(qū)地區(qū)鍵地區(qū)名國家鍵產(chǎn)品鍵產(chǎn)品名品牌鍵包裝鍵包裝包裝鍵包裝類別銷售事實產(chǎn)品鍵時間鍵客戶鍵銷售數(shù)目銷售總價利潤時間時間鍵日期月季年客戶鍵客戶名地區(qū)鍵客戶分類品牌鍵品牌名分類鍵品牌分類鍵分類名產(chǎn)品國家鍵國家名國家圖圖4.11 銷售事實的雪花模型銷售事實的雪花模型352. 綜合事實表綜合事實表n大多數(shù)查詢不是基于基礎(chǔ)事實表上操作的,

12、而大多數(shù)查詢不是基于基礎(chǔ)事實表上操作的,而是基于綜合數(shù)據(jù)的查詢。這樣建立綜合事實表是基于綜合數(shù)據(jù)的查詢。這樣建立綜合事實表是提高綜合數(shù)據(jù)查詢的非常有效的方法,且大是提高綜合數(shù)據(jù)查詢的非常有效的方法,且大大提高數(shù)據(jù)倉庫的性能。大提高數(shù)據(jù)倉庫的性能。n在多維表中,很多維都是具有層次結(jié)構(gòu),對不在多維表中,很多維都是具有層次結(jié)構(gòu),對不同維的層次的提升,將可建立多種綜合事實表。同維的層次的提升,將可建立多種綜合事實表。 n從圖從圖4.12可見,對基礎(chǔ)事實表查詢利用產(chǎn)品維可見,對基礎(chǔ)事實表查詢利用產(chǎn)品維表,對綜合事實表查詢,利用產(chǎn)品分類維表。表,對綜合事實表查詢,利用產(chǎn)品分類維表。 產(chǎn)品鍵產(chǎn)品名分類部門產(chǎn)

13、品鍵時間鍵商店鍵銷售量銷售總價時間時間鍵日期月季年商店鍵商店名地域地區(qū)商店產(chǎn)品分類鍵分類名部門產(chǎn)品分類分類鍵時間鍵商店鍵銷售量銷售總價綜合事實表銷售事實表(基礎(chǔ)表)圖圖4.12 綜合事實表和衍生維度(產(chǎn)品分類)表綜合事實表和衍生維度(產(chǎn)品分類)表374.3 數(shù)據(jù)倉庫技術(shù)與開發(fā)的困難數(shù)據(jù)倉庫技術(shù)與開發(fā)的困難n4.3.1數(shù)據(jù)倉庫技術(shù)數(shù)據(jù)倉庫技術(shù)n4.3.2數(shù)據(jù)倉庫開發(fā)的困難數(shù)據(jù)倉庫開發(fā)的困難384.3.1數(shù)據(jù)倉庫技術(shù)數(shù)據(jù)倉庫技術(shù)n1.管理大量數(shù)據(jù)管理大量數(shù)據(jù)n對于數(shù)據(jù)倉庫最重要的技術(shù)就是能夠管理大量的數(shù)據(jù)。對于數(shù)據(jù)倉庫最重要的技術(shù)就是能夠管理大量的數(shù)據(jù)。n數(shù)據(jù)倉庫要管理大量的數(shù)據(jù),是因為它們:數(shù)據(jù)

14、倉庫要管理大量的數(shù)據(jù),是因為它們:n(1)包括粒狀的、原子的細節(jié))包括粒狀的、原子的細節(jié)n(2)包括歷史數(shù)據(jù))包括歷史數(shù)據(jù)n(3)包括細節(jié)和匯總數(shù)據(jù))包括細節(jié)和匯總數(shù)據(jù)n(4)包括元數(shù)據(jù))包括元數(shù)據(jù)n有好多種管理大量數(shù)據(jù)的方法有好多種管理大量數(shù)據(jù)的方法通過尋址,通過索引,通過尋址,通過索引,通過數(shù)據(jù)的外延,通過有效的溢出管理等通過數(shù)據(jù)的外延,通過有效的溢出管理等392.數(shù)據(jù)的高效裝入和數(shù)據(jù)壓縮數(shù)據(jù)的高效裝入和數(shù)據(jù)壓縮n數(shù)據(jù)倉庫的一個重要的技術(shù)就是能夠高數(shù)據(jù)倉庫的一個重要的技術(shù)就是能夠高效地裝入數(shù)據(jù)。效地裝入數(shù)據(jù)。n有好多種裝入數(shù)據(jù)的方法:通過一個語有好多種裝入數(shù)據(jù)的方法:通過一個語言接口一次一

15、條記錄。言接口一次一條記錄。n當(dāng)數(shù)據(jù)能夠被壓縮時,它便能存儲在很當(dāng)數(shù)據(jù)能夠被壓縮時,它便能存儲在很小的空間中。小的空間中。 403.存儲介質(zhì)的管理存儲介質(zhì)的管理 存儲介質(zhì) 訪問速度 存儲費用主存 非???非常貴擴展內(nèi)存 非???貴高速緩存 非常快 貴磁盤 快 適中光盤 不慢 不貴微縮膠片 慢 便宜考慮到訪問速度和存儲費用,對數(shù)據(jù)的存儲要分層次,考慮到訪問速度和存儲費用,對數(shù)據(jù)的存儲要分層次,層次的區(qū)分如下:層次的區(qū)分如下: 418.多維多維DBMS和數(shù)據(jù)倉庫和數(shù)據(jù)倉庫n多維數(shù)據(jù)庫管理系統(tǒng)(多維多維數(shù)據(jù)庫管理系統(tǒng)(多維DBMS)使)使得對數(shù)據(jù)的訪問非常靈活,可以用多種得對數(shù)據(jù)的訪問非常靈活,可以

16、用多種方法對數(shù)據(jù)進行切片、分割,動態(tài)地考方法對數(shù)據(jù)進行切片、分割,動態(tài)地考察匯總數(shù)據(jù)和細節(jié)數(shù)據(jù)的關(guān)系。察匯總數(shù)據(jù)和細節(jié)數(shù)據(jù)的關(guān)系。42n數(shù)據(jù)倉庫和多維數(shù)據(jù)倉庫和多維DBMS的區(qū)別:的區(qū)別:n(1)數(shù)據(jù)倉庫有大量的數(shù)據(jù);多維)數(shù)據(jù)倉庫有大量的數(shù)據(jù);多維DBMS中的數(shù)據(jù)至中的數(shù)據(jù)至少要少一個數(shù)量級。少要少一個數(shù)量級。n(2)數(shù)據(jù)倉庫只適合于少量的靈活訪問;而多維)數(shù)據(jù)倉庫只適合于少量的靈活訪問;而多維DBMS適合大量的非預(yù)知的數(shù)據(jù)的訪問和分析。適合大量的非預(yù)知的數(shù)據(jù)的訪問和分析。n(3)數(shù)據(jù)倉庫內(nèi)存儲了很長時間范圍內(nèi)的數(shù)據(jù))數(shù)據(jù)倉庫內(nèi)存儲了很長時間范圍內(nèi)的數(shù)據(jù)從從5年到年到10年;多維年;多維DBMS中存儲著比較短時間范圍內(nèi)中存儲著比較短時間范圍內(nèi)的數(shù)據(jù)。的數(shù)據(jù)。n(4)數(shù)據(jù)倉庫允許分析人員以受限的形式訪問數(shù)據(jù),)數(shù)據(jù)倉庫允許分析人員以受限的形式訪問數(shù)據(jù),而多維而多維DBMS允許自由的訪問。允許自由的訪問。43n決策支持系統(tǒng)(決策支持系統(tǒng)(DSS)分析者大部分時)分析者大部分時間里可以在多維間里可以在多維DBMS中享受其操作高中享受其操作高效的優(yōu)點,同時如果需要的話,還可以效的優(yōu)點,同時如果需要的話,還可以向下鉆取最低層次的細節(jié)數(shù)據(jù)。向下鉆取最低層次的細節(jié)數(shù)據(jù)。n一些多維一些多維DBMS建立在關(guān)系模型上,而建立在關(guān)系模型上,而一些多維一些多維DBMS建立在多維立方

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論