版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、對數(shù)據(jù)倉庫進(jìn)行數(shù)據(jù)建模IBM2007-11-16 15:00OLTP 與數(shù)據(jù)倉庫-有何差異?在日常生活中,我我們要使用大大量的應(yīng)用程程序來生成新新的數(shù)據(jù)、變變更數(shù)據(jù)、刪刪除數(shù)據(jù),當(dāng)當(dāng)然在大多數(shù)數(shù)的情況下我我們還要查閱閱和分析數(shù)據(jù)據(jù)。就來想象象一個收發(fā) emaill 的簡單應(yīng)應(yīng)用程序吧。我我們已經(jīng)存儲儲了地址信息息,可能還存存儲了一些文文檔。我們可可以決定是否否存儲已經(jīng)發(fā)發(fā)送過的郵件件,但是也可可能隔一段時時間后將其刪刪除,或者刪刪除已經(jīng)發(fā)送送過的所有郵郵件。那么我我們該如何處處理一段時間間以前刪除或或者修改過的的地址呢?我我們再也不會會看到它們了了。Email 程程序大部分都都屬于不是很很復(fù)雜
2、的數(shù)據(jù)據(jù)庫,但是完完全可以將其其看作一個在在單用戶環(huán)境境下的 OLLTP(在線線事務(wù)處理系系統(tǒng))簡單示示例。它使用用了所有的所所謂訪問數(shù)據(jù)據(jù)的操作 CCRUD(創(chuàng)創(chuàng)建、讀取、更更新、刪除)。當(dāng)當(dāng)數(shù)據(jù)存儲達(dá)達(dá)到一定量的的時候,規(guī)模模就會幾乎保保持不變,因因為可以從存存儲中刪除過過期數(shù)據(jù)。數(shù)據(jù)倉庫就完全全是一種不同同種類的應(yīng)用用程序。它并并不是用來運運行當(dāng)前的操操作,例如發(fā)發(fā)送郵件。它它是用來分析析數(shù)據(jù)并且從從現(xiàn)有數(shù)據(jù)中中發(fā)現(xiàn)新的價價值,主要是是用來預(yù)測未未來的情況。數(shù)數(shù)據(jù)倉庫并不不是解決所有有問題的通用用結(jié)構(gòu)。它必必須集中于某某一問題領(lǐng)域域,例如航空空服務(wù)、顧客客收益等。數(shù)據(jù)倉庫也有有有趣的一面
3、,那那就是數(shù)據(jù)庫庫本身是穩(wěn)定定增長的。數(shù)數(shù)據(jù)沒有被刪刪除,也不發(fā)發(fā)生變更。我我們不需要將將冗余數(shù)據(jù)置置于數(shù)據(jù)庫之之外(因為加加入倉庫中的的數(shù)據(jù)經(jīng)過了了數(shù)據(jù)凈化的的過程,該過過程檢查了數(shù)數(shù)據(jù)的正確性性)來減少復(fù)復(fù)雜性同時增增強(qiáng)讀取操作作的性能。為了能夠?qū)?shù)據(jù)據(jù)倉庫中的數(shù)數(shù)據(jù)進(jìn)行分析析,數(shù)據(jù)存儲儲于一個多維維結(jié)構(gòu)中,叫叫做星型模式式。如果將星星型模式擴(kuò)展展,就會得到到雪花模式。本本白皮書將會會闡述如何使使用IBM Ratioonal RRose進(jìn)行行星型模式建建模和雪花模模式建模。飛行服務(wù)數(shù)據(jù)集集市的例子為了更好地解釋釋如何對數(shù)據(jù)據(jù)倉庫建模,本本白皮書將使使用一個簡單單數(shù)據(jù)集市的的的例子(即即一個
4、數(shù)據(jù)倉倉庫或者數(shù)據(jù)據(jù)倉庫的一部部分),來分分析旅客乘坐坐航班 Haappy FFlyingg and Landiing(愉快快飛行平安降降落)的行為為和滿意程度度。我們將存儲乘客客信息和每個個航班的的相相關(guān)數(shù)據(jù)、選選擇的菜單以以及乘客對飛飛行的滿意程程度。數(shù)據(jù)倉庫術(shù)語表表數(shù)據(jù)倉庫引入了了新的術(shù)語,擴(kuò)擴(kuò)展了數(shù)據(jù)建建模的術(shù)語表表。為使本文文的闡述能夠夠完備,下面面我介紹一下下最常用的術(shù)術(shù)語。數(shù)據(jù)倉庫數(shù)據(jù)倉庫是一個個支持管理決決策的數(shù)據(jù)集集合。數(shù)據(jù)是是面向主題的的、集成的、不不易丟失的并并且是時間變變量。數(shù)據(jù)倉庫是所有有操作環(huán)境和和外部數(shù)據(jù)源源的快照集合合。它并不需需要非常精確確,因為它必必須在特定
5、的的時間基礎(chǔ)上上從操作環(huán)境境中提取出來來。數(shù)據(jù)集市數(shù)據(jù)倉庫只限于于單個主題的的區(qū)域,例如如顧客、部門門、地點等。數(shù)數(shù)據(jù)集市在從從數(shù)據(jù)倉庫獲獲取數(shù)據(jù)時可可以依賴于數(shù)數(shù)據(jù)倉庫,或或者當(dāng)它們從從操作系統(tǒng)中中獲取數(shù)據(jù)時時就不依賴于于數(shù)據(jù)倉庫。事實事實是數(shù)據(jù)倉庫庫中的信息單單元,也是多多維空間中的的一個單元,受受分析單元的的限制。事實實存儲于一張張表中(當(dāng)使使用關(guān)系數(shù)據(jù)據(jù)庫時)或者者是多維數(shù)據(jù)據(jù)庫中的一個個單元。每個個事實包括關(guān)關(guān)于事實(收收入、價值、滿滿意記錄等)的的基本信息,并并且與維度相相關(guān)。在某些情況下,當(dāng)當(dāng)所有的必要要信息都存儲儲于維度中時時,單純的事事實出現(xiàn)就是是對于數(shù)據(jù)倉倉庫足夠的信信息。
6、我們稍稍后討論有關(guān)關(guān)缺無事實的的情況。維度維度是綁定由坐坐標(biāo)系定義的的空間的坐標(biāo)標(biāo)系的軸線。數(shù)數(shù)據(jù)倉庫中的的坐標(biāo)系定義義了數(shù)據(jù)單元元,其中包含含事實。坐標(biāo)系的一個例例子就是帶有有 x 維度度和 y 維維度的 Caartesiian(笛卡卡爾)坐標(biāo)系系。在數(shù)據(jù)倉倉庫中,時間間總是維度之之一。數(shù)據(jù)挖掘在數(shù)據(jù)倉庫的數(shù)數(shù)據(jù)中發(fā)現(xiàn)新新信息的過程程被稱為數(shù)據(jù)據(jù)挖掘,這些些新信息不會會從操作系統(tǒng)統(tǒng)中獲得。分析空間分析空間是數(shù)據(jù)據(jù)倉庫中一定定量的數(shù)據(jù),用用于進(jìn)行數(shù)據(jù)據(jù)挖掘以發(fā)現(xiàn)現(xiàn)新信息同時時支持管理決決策。切片一種用來在數(shù)據(jù)據(jù)倉庫中將一一個維度中的的分析空間限限制為數(shù)據(jù)子子集的技術(shù)。切塊一種用來在數(shù)據(jù)據(jù)倉庫中
7、將多多個維度中的的分析空間限限制為數(shù)據(jù)子子集的技術(shù)。星型模式一種使用關(guān)系數(shù)數(shù)據(jù)庫實現(xiàn)多多維分析空間間的模式,稱稱為星型模式式。星型模式將在本本白皮書中稍稍后進(jìn)行進(jìn)一一步討論。雪花模式不管什么原因,當(dāng)當(dāng)星型模式的的維度需要進(jìn)進(jìn)行規(guī)范化時時,星型模式式就演進(jìn)為雪雪花模式。使用 IBM Ratioonal RRose 進(jìn)進(jìn)行星型模式式建模星型模式的基本本形式必須實實現(xiàn)多維空間間(常常被稱稱為方塊),以以使用關(guān)系數(shù)數(shù)據(jù)庫的基本本功能。首先,我們需要要理解多維空空間。多維分析空間幾何學(xué)中的方塊塊是指一個三三維空間,其其中每個維度度的尺寸都相相同。想象一一個立方體,每每個維度都有有三個單元,我我們即得到相
8、相同結(jié)構(gòu)的33327個個單元。圖1 一個具有有 x、y、zz 維度的方方塊多維分析空間(或或者數(shù)據(jù)倉庫庫方塊)與幾幾何空間中的的方塊僅僅存存在細(xì)節(jié)上的的差異。維度不僅限于 3 維。不不過,處理很很多維度的立立方體也不是是件輕松的事事情,這會導(dǎo)導(dǎo)致大多數(shù)的的實現(xiàn)被限制制于 6 或或者 7 維維。不要期盼盼使用圖形可可以很好地表表示超過 44 的維度-如果您有有幸能發(fā)現(xiàn)一一種方法,別別忘了告訴我我一下。 維度并不具有相相同的規(guī)模和和單元。規(guī)模模從幾個單元元到幾百萬個個單元,差別別巨大。單元元可以是一天天、一位顧客客、部門等。 單元,相當(dāng)于子子方塊(111等),包包含事實。 圖2 一個三維維數(shù)據(jù)立方
9、體體數(shù)據(jù)立方體需要要很大的內(nèi)存存以存儲所有有事實。無論論是否包含事事實,都必須須要預(yù)留單元元。這就是為什么使使用關(guān)系數(shù)據(jù)據(jù)庫和星型模模式的原因。使使用它們能夠夠優(yōu)化存儲并并且保持?jǐn)?shù)據(jù)據(jù)結(jié)構(gòu)的靈活活性。星型模式星型模式的基本本思想就是保保持立方體的的多維功能,同同時也增加了了小規(guī)模數(shù)據(jù)據(jù)存儲的靈活活性。圖3 一個星型型模式在圖3中,星型型模式使用事事實 Fliight 表表示了一個 4 維方塊塊(Passsengerr、Menuu、Fligght Scchedullet 和 Time)?;旧希聦崒嵄仨氈付ㄒ灰粋€維度,以以將其放入立立方體的單元元中。我們的例子中的的維度是:Passengge
10、r,描述述了飛行航程程中的每位乘乘客,由經(jīng)常常飛行號(ffrequeent fllyer nnumberr)指定。不不是經(jīng)常乘坐坐飛機(jī)的乘客客不是數(shù)據(jù)倉倉庫的一部分分。 Flight Scheddule,是是指所有常規(guī)規(guī)飛行的日程程。 Menu,是用用于飛行的菜菜單。只有對對菜單進(jìn)行基基本的分類才才會對數(shù)據(jù)挖挖掘有重要意意義。 Time,是指指飛行的時間間。 事實 Fligght 描述述了乘客在唯唯一的 Tiime 的單單程飛行上選選擇 Mennu。分析空間可以是是完整的方塊塊,或者我們們可以根據(jù)維維度將分析空空間分割成小小片。每個維度根據(jù)一一個對象進(jìn)行行描述,對象象可以用類表表示,這些類類就
11、是有關(guān)業(yè)業(yè)務(wù)主題的名名稱。這一點點對于成功建建立數(shù)據(jù)倉庫庫來說是很重重要的,因為為倉庫的用戶戶(經(jīng)理、分分析員、市場場)對于信息息技術(shù)的術(shù)語語并不是很熟熟悉。事實本身就是商商業(yè)智能的另另一個對象,仍仍然通過類進(jìn)進(jìn)行表示。事實指每個維度度。事實與維維度的關(guān)聯(lián)常常常是一對任任意,這也就就意味著每個個事實都與單單個維度的一一個單元準(zhǔn)確確對應(yīng),而維維度的每個單單元(每個PPassennger、TTime等)可可以與任意數(shù)數(shù)量的事實發(fā)發(fā)生關(guān)聯(lián)(包包括0個事實實)。使用 Ratiional Rose 將對象模型型轉(zhuǎn)換為數(shù)據(jù)據(jù)模型即完成成了星型模式式的實現(xiàn)。這這里我們可以以看到轉(zhuǎn)換后后的結(jié)果。圖4 使用Ra
12、ationaal Rosse實現(xiàn)星型型模式在圖4中,沒有有顯示自動創(chuàng)創(chuàng)建的主鍵和和外鍵約束。星型模式的維度度是獨立的表表。當(dāng)對象模模型轉(zhuǎn)換為數(shù)數(shù)據(jù)模型時,RRationnal Roose 可以以生成維度的的主鍵。事實表指從維度度表中使用鍵鍵遷移的維度度,當(dāng)生成數(shù)數(shù)據(jù)模型時 Ratioonal RRose 可可以生成外鍵鍵。在星型模式中切切片和切塊是是對維度的限限制(選擇)。這這是一個運行行時問題,而而不是建模問問題,但是模模型必須分辨辨其需要。雪花模式基本的星型模式式并不能滿足足數(shù)據(jù)挖掘的的所有需要。我我們需要更復(fù)復(fù)雜的維度,例例如時間。分分析員希望根根據(jù)周、月、季季度等識別模模式。維度必須進(jìn)
13、行規(guī)規(guī)范化。我們們不需要冗余余的維度表,這這只會使數(shù)據(jù)據(jù)切片變得更更加復(fù)雜。這這種過程中我我們得到的模模式被稱為雪雪花模式。我們來看一個簡簡單的雪花模模式例子。我我們將時間維維度規(guī)范化為為周、月和季季度。圖5 規(guī)范化的的 Timee 維度我們希望能夠使使用附加的規(guī)規(guī)范化維度將將立方體切片片:周、月和和季度。在本本例中,我們們假定季度是是月的平行層層次,這也就就意味著我們們不能將季度度假定為若干干月的聚合。由由于這個原因因,我們將使使用一張范化化表(是對 OLAP 查詢的一項項簡單附加)預(yù)預(yù)先選擇時間間維度。最終雪花模式添添加了規(guī)范化化維度。圖6 帶有范化化維度的 TTime 和和事實 Flli
14、ght 的雪花模式式當(dāng)然,所有的維維度都可以像像時間例子那那樣進(jìn)行規(guī)范范化,這就導(dǎo)導(dǎo)致了比較復(fù)復(fù)雜的數(shù)據(jù)集集市模式的出出現(xiàn)。由 Ratioonal RRose 從從雪花模式中中開發(fā)的實現(xiàn)現(xiàn)模式(數(shù)據(jù)據(jù)模型)是完完善的。圖7 帶有范化化 Timee 維度的雪雪花模式的數(shù)數(shù)據(jù)模型創(chuàng)建的約束在圖圖中也沒有顯顯示。雪花模式中可以以存在切片,不不僅僅在基本本的 Timme 維度上上,也可以在在規(guī)范化的 Week、MMonth 和 Quaarter 維度上。多對多關(guān)系在一次飛行中,我我們不僅僅只只吃一頓飯。在在長途飛行中中可能要多次次用餐。在這這種情況下,我我們認(rèn)為事實實 Fligght 和 Menu 維
15、度不是一一對多的關(guān)聯(lián)聯(lián)。我們必須須使用多對多多關(guān)聯(lián)。不過過,這種關(guān)聯(lián)聯(lián)不可能在星星型模式中實實現(xiàn)。雪花模式的一種種特殊形式是是使用一種必必要的數(shù)據(jù)結(jié)結(jié)構(gòu)以滿足這這項要求。首先,我們將模模型變更為事事實和維度間間的多對多關(guān)關(guān)聯(lián)。使用 Ratioonal RRose,這這只是關(guān)聯(lián)基基數(shù)的變更。圖8 Menuu 的多對多多維度的星型型模式我們無法在關(guān)系系數(shù)據(jù)庫中實實現(xiàn)多對多關(guān)關(guān)聯(lián)。實現(xiàn)多多對多關(guān)聯(lián)需需要使用另一一種雪花模式式。在下圖中,我們們關(guān)注一下已已經(jīng)開發(fā)的雪雪花模式的一一部分,該部部分處理多對對多維度。圖9 雪花模式式解決了 MMenu 的的多維度Rationaal Rosse 生成了了附加的
16、維度度表 FliightMeenu,它是是指 Mennu 維度和和 Fligght 事實實。確定關(guān)系用于解解決多對多關(guān)關(guān)聯(lián)。對于雪花模式的的架構(gòu)師來說說,最重要的的一點就是識識別多對多關(guān)關(guān)系。簡單對對象視圖可能能會使設(shè)計員員理解概念,而而生成的數(shù)據(jù)據(jù)視圖有助于于進(jìn)一步深入入有關(guān)實現(xiàn)的的問題。層次數(shù)據(jù)挖掘可以從從隱藏在操作作系統(tǒng)表面下下的數(shù)據(jù)中發(fā)發(fā)現(xiàn)信息。我我們想了解的的一個問題就就是選定菜單單與乘客統(tǒng)計計資料之間的的依賴關(guān)系。乘客統(tǒng)計資料數(shù)數(shù)據(jù)可以在 Passeenger 維度的層次次上構(gòu)建。乘乘客可以根據(jù)據(jù)郵政編碼分分組,然后再再按國家進(jìn)行行分組。圖10 乘客的的層次層次通過使用聚聚合來指定
17、。聚聚合定義了所所包括的內(nèi)容容。Counntry 包包含了 ZIIP 編碼,ZZIP 編碼碼包含了多名名 Passsengerr 信息。最終通過使用外外鍵實現(xiàn)了聚聚合。圖11 雪花模模式實現(xiàn)了 Passeenger 維度的聚合合生成的約束仍然然沒有在圖中中表示出來。使用聚合,維度度可以在任何何定義的級別別上使用。分分析空間可以以通過 Paassengger、ZIIP Codde或者 CCountrry 進(jìn)行切切片。一致的維度隨著數(shù)據(jù)倉庫架架構(gòu)師不斷地地添加細(xì)節(jié)內(nèi)內(nèi)容,雪花模模式變得越來來越復(fù)雜。因因此設(shè)計過程程必須在到達(dá)達(dá)某種程度后后停止以保持持?jǐn)?shù)據(jù)倉庫運運行良好。星型或者雪花模模式仍然僅僅僅
18、關(guān)注于一個個事實-在在本例中就是是Flighht。那么復(fù)復(fù)雜關(guān)系又是是什么情況呢呢?對于每個事實我我們都必須設(shè)設(shè)計其各自的的模式。如果果我們想要進(jìn)進(jìn)行復(fù)雜查詢詢的話,它們們就必須具有有共同的維度度-我們稱稱其為一致的的維度。讓我們使用 PPilot 作為一個維維度,PillotFliight 作作為一個事實實來定義第二二個星型模式式。我們還要要使用附加的的 Fligght Scchedulle 維度和和 Timee 維度。圖12 Pillot 星型型模式第二個模式可以以單獨使用或或者與 Paassengger 模式式結(jié)合使用,從從而根據(jù)使用用一致維度的的飛行員維度度來查詢 PPassennger 的的滿意程度。圖13 一致維維度Timee 和 Fllight Scheddule即使在使用一致致維度的數(shù)據(jù)據(jù)倉庫的簡單單結(jié)構(gòu)中,PPilot 與 Passsengeer 之間的的關(guān)系也是簡簡單的。在開發(fā)數(shù)據(jù)模型型時,數(shù)據(jù)倉倉庫將大量小小型星型模式式與雪花模
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年風(fēng)電場35kV輸電線路工程合同3篇
- 2024建筑材料多孔磚買賣協(xié)議版B版
- 2024年運輸合同物流金融產(chǎn)品設(shè)計與風(fēng)險管理3篇
- 中考英語-英語-任務(wù)型閱讀理解專題練習(xí)(附答案)
- 2025年度土地承包經(jīng)營權(quán)終止合同范本3篇
- 2025年度安全生產(chǎn)信息化系統(tǒng)設(shè)計與實施協(xié)議2篇
- 2025年度物流保險采購合同執(zhí)行細(xì)則3篇
- 湖南工藝美術(shù)職業(yè)學(xué)院《化妝品化學(xué)》2023-2024學(xué)年第一學(xué)期期末試卷
- 通化師范學(xué)院《植物生物技術(shù)實驗》2023-2024學(xué)年第一學(xué)期期末試卷
- 重慶醫(yī)科大學(xué)《精細(xì)化學(xué)品分析檢測技術(shù)》2023-2024學(xué)年第一學(xué)期期末試卷
- 初中寒假安全教育主題班會
- 2025年觀看反腐倡廉警示教育片心得體會范文
- 2025年中國煙草總公司湖北省公司校園招聘227人高頻重點提升(共500題)附帶答案詳解
- 居家辦公培訓(xùn)課件
- 部隊行車安全課件
- 2025康復(fù)科年度工作計劃
- 2024屆高考英語詞匯3500左右
- 工程設(shè)計-《工程勘察設(shè)計收費標(biāo)準(zhǔn)》(2002年修訂本)-完整版
- 雙語閱讀:友誼的顏色
- 通用個人全年工資表模板
- 帶電作業(yè)車庫技術(shù)規(guī)范書
評論
0/150
提交評論