數(shù)據(jù)倉庫與數(shù)據(jù)挖掘第2章課件_第1頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘第2章課件_第2頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘第2章課件_第3頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘第2章課件_第4頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘第2章課件_第5頁
已閱讀5頁,還剩105頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

一、多維數(shù)據(jù)模型二、數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)三、數(shù)據(jù)倉庫的實現(xiàn)四、基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘第二章數(shù)據(jù)倉庫的OLAP技術(shù)一、多維數(shù)據(jù)模型第二章數(shù)據(jù)倉庫的OLAP技術(shù)第一節(jié)多維數(shù)據(jù)模型1.數(shù)據(jù)立方體數(shù)據(jù)倉庫和OLAP工具基于多維數(shù)據(jù)模型,多維數(shù)據(jù)模型將數(shù)據(jù)看作數(shù)據(jù)立方體(datacube)形式。數(shù)據(jù)立方體允許以多維對數(shù)據(jù)建模和觀察,由維和事實定義第一節(jié)多維數(shù)據(jù)模型1.數(shù)據(jù)立方體第一節(jié)多維數(shù)據(jù)模型1.數(shù)據(jù)立方體維是關(guān)于一個組織想要記錄的透視或?qū)嶓w每一個維都有一個表與之相關(guān)聯(lián),該表稱為維表,它進一步描述維多維數(shù)據(jù)模型圍繞中心主題組織,主題用事實表表示事實是數(shù)值的度量,事實表包括事實的名稱或度量,以及每個相關(guān)維表的關(guān)鍵字第一節(jié)多維數(shù)據(jù)模型1.數(shù)據(jù)立方體第一節(jié)多維數(shù)據(jù)模型1.數(shù)據(jù)立方體設(shè)某BSEK北星易家連鎖公司由下列關(guān)系表描述:Customer(cust_id,name,address,age,…)Item(item_id,name,type,price,…)Employee(empl_id,name,salary,…)purchases(trans_id,cust_id,empl_id,date,time,method_paid,amount,…)Branch(branch_id,name,address)第一節(jié)多維數(shù)據(jù)模型1.數(shù)據(jù)立方體第一節(jié)多維數(shù)據(jù)模型1.數(shù)據(jù)立方體例如,BSEK可能創(chuàng)建一個數(shù)據(jù)倉庫sales,記錄商店的銷售情況,涉及time,item和location。典型3-D立方體如圖:timelocationitem第一節(jié)多維數(shù)據(jù)模型1.數(shù)據(jù)立方體timelocatio第一節(jié)多維數(shù)據(jù)模型2.多維數(shù)據(jù)庫模式E-R數(shù)據(jù)模型適用于OLTP,而數(shù)據(jù)倉庫需要簡明的、面向主題的模式,便于聯(lián)機數(shù)據(jù)分析。數(shù)據(jù)倉庫的數(shù)據(jù)模型采用多維數(shù)據(jù)模型星型模式雪花模式事實星座模式第一節(jié)多維數(shù)據(jù)模型2.多維數(shù)據(jù)庫模式第一節(jié)多維數(shù)據(jù)模型2.多維數(shù)據(jù)庫模式星型模式:是最常見的模型范式。這種模式的數(shù)據(jù)倉庫包含:一個大的事實表和一組小的維表事實表包含大批數(shù)據(jù)和不含冗余的中心表維表附屬表,每維一個表第一節(jié)多維數(shù)據(jù)模型2.多維數(shù)據(jù)庫模式第一節(jié)多維數(shù)據(jù)模型2.多維數(shù)據(jù)庫模式星型模式time_keyitem_keybranch_keylocation_keymoney_soldunits_soldbranch_keybranch_namebranch_typelocation_keystreetcitycountryitem_keyitem_namebranchtypetime_keydayWeekmonth…Sales事實表time維表branch維表location維表item維表第一節(jié)多維數(shù)據(jù)模型2.多維數(shù)據(jù)庫模式time_keyi第一節(jié)多維數(shù)據(jù)模型2.多維數(shù)據(jù)庫模式雪花模式:是星型模式的變種,其中某些維表是規(guī)范化的,因而數(shù)據(jù)被進一步分解到附加的表中雪花模式的規(guī)范化維表,可以減少冗余,便于維護,并且節(jié)省存儲空間;同巨大的事實表相比,空間節(jié)省有限執(zhí)行查詢需要更多連接操作,雪花模型可能降低瀏覽的性能第一節(jié)多維數(shù)據(jù)模型2.多維數(shù)據(jù)庫模式第一節(jié)多維數(shù)據(jù)模型2.多維數(shù)據(jù)庫模式雪花模式time_keyitem_keybranch_keylocation_keymoney_soldunits_soldbranch_keybranch_namebranch_typelocation_keystreetcity_keyitem_keyitem_namebranchtype_keytime_keydayWeekmonth…type_keytype_namecity_keycitycountrySales事實表timebranchlocation維表item維表type維表city維表第一節(jié)多維數(shù)據(jù)模型2.多維數(shù)據(jù)庫模式time_keyi第一節(jié)多維數(shù)據(jù)模型2.多維數(shù)據(jù)庫模式事實星座模式復(fù)雜的應(yīng)用可能需要多個事實表共享維表,這種模式可以視為星型模式集,因此稱為星系模式,或事實星座模式

第一節(jié)多維數(shù)據(jù)模型2.多維數(shù)據(jù)庫模式第一節(jié)多維數(shù)據(jù)模型2.多維數(shù)據(jù)庫模式事實星座模式time_keyitem_keybranch_keylocation_keymoney_soldunits_soldbranch_keybranch_namebranch_typelocation_keystreetcity_keyitem_keyitem_namebranchtype_keytime_keydayWeekmonth…item_keytime_keyfrom_locationshipper_keymoney_costunits_shippedshipper_keyshipper_namelocation_keySales事實表timebranchlocation維表item維表shipping事實表shipper維表第一節(jié)多維數(shù)據(jù)模型2.多維數(shù)據(jù)庫模式time_keyi第一節(jié)多維數(shù)據(jù)模型3.度量的分類與計算數(shù)據(jù)立方體度量是一個數(shù)值函數(shù),該函數(shù)可以對數(shù)據(jù)立方體的每一個點求值。通過對給定點的各維-值對聚集數(shù)據(jù),計算該點的度量值度量根據(jù)所用的聚集函數(shù)分成三類:分布的度量、代數(shù)的度量、整體的度量

第一節(jié)多維數(shù)據(jù)模型3.度量的分類與計算第一節(jié)多維數(shù)據(jù)模型3.度量的分類與計算分布的:一個聚集函數(shù)是分布的,如果它能以如下分布方式進行計算設(shè)數(shù)據(jù)被劃分為n個集合,函數(shù)在每一部分上的計算得到一個聚集值。如果將函數(shù)用于n個聚集值得到的結(jié)果,與將函數(shù)用于所有數(shù)據(jù)得到的結(jié)果一樣,則該函數(shù)可以用分布方式計算。一個度量是分布的,如果它可以用分布聚集函數(shù)得到第一節(jié)多維數(shù)據(jù)模型3.度量的分類與計算第一節(jié)多維數(shù)據(jù)模型3.度量的分類與計算代數(shù)的:一個聚集函數(shù)是代數(shù)的,如果它能由一個具有M個參數(shù)的代數(shù)計算(M是一個有界整數(shù)),而每個參數(shù)都可以用一個分布聚集函數(shù)求得一個度量是代數(shù)的,如果它可以用代數(shù)聚集函數(shù)得到第一節(jié)多維數(shù)據(jù)模型3.度量的分類與計算第一節(jié)多維數(shù)據(jù)模型3.度量的分類與計算整體的:一個聚集函數(shù)是整體的,如果描述它的子聚集所需的存儲沒有一個常數(shù)界,即不存在一個具有M個參數(shù)的代數(shù)函數(shù)進行這一計算(M是常數(shù)),而每個參數(shù)都可以用一個分布聚集函數(shù)求得一個度量是整體的,如果它可以用整體聚集函數(shù)得到第一節(jié)多維數(shù)據(jù)模型3.度量的分類與計算第一節(jié)多維數(shù)據(jù)模型3.度量的分類與計算多數(shù)數(shù)據(jù)立方體的應(yīng)用需要有效地計算分布的和代數(shù)的度量,存在許多有效的技術(shù);而有效計算整體的度量是很困難的,往往采取計算以滿意的結(jié)果估計大數(shù)據(jù)集的中值,不進行精確計算。例如,median()和mode()第一節(jié)多維數(shù)據(jù)模型3.度量的分類與計算第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作上卷(roll-up)下鉆(drill-down)切片(slice)、切塊(dice)轉(zhuǎn)軸(pivot)鉆過(drill-across)鉆透(drill-through)第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作概念分層將屬性或維組織成漸進的抽象層,它將低層概念映射到更一般的高層概念。概念分層對于多抽象層上的挖掘有用第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作上卷:通過一個維的概念分層向上攀升或通過維歸約,在數(shù)據(jù)立方體上進行聚集第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作上卷LocationTimeItem芝加哥紐約芝加哥溫哥華一季度二季度三季度四季度家庭娛樂計算機電話安全TimeItem美國加拿大一季度二季度三季度四季度家庭娛樂計算機電話安全Location分層定義為全序:“street<city<province_or_state<county”第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作下鉆:通過沿維的概念分層向下或引入新的維來實現(xiàn),它是上卷的逆操作,由不太詳細的數(shù)據(jù)到更詳細的數(shù)據(jù)第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作下鉆分層定義全序為:“day<month<quarter<year”Location芝加哥紐約芝加哥溫哥華Time一季度二季度三季度四季度Item家庭娛樂計算機電話安全Item家庭娛樂計算機電話安全Time1月2月3月4月5月6月7月8月9月10月11月12月Location芝加哥紐約芝加哥溫哥華第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作切片:切片操作在給定的數(shù)據(jù)立方體的一個維上進行選擇,導(dǎo)致一個子方第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作切片LocationTimeItem芝加哥紐約芝加哥溫哥華一季度二季度三季度四季度家庭娛樂計算機電話安全Item芝加哥溫哥華家庭娛樂計算機電話安全Location紐約多倫多Time=“Q1”第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作切塊:切塊操作通過對兩個或多個維執(zhí)行選擇,定義子方第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作切塊(location=“Toronto”or“Vancouver”)and(Time=“Q1”or“Q2”)and(item=“homeentertainment”or“computer”)LocationTimeItem芝加哥紐約芝加哥溫哥華一季度二季度三季度四季度家庭娛樂計算機電話安全TimeItem多倫多溫哥華一季度二季度家庭娛樂計算機Location第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作:轉(zhuǎn)軸:是一種目視操作,它轉(zhuǎn)動數(shù)據(jù)的視角,提供數(shù)據(jù)的替代表示第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作:第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作轉(zhuǎn)軸Item芝加哥溫哥華家庭娛樂計算機電話安全Location紐約多倫多Item家庭娛樂安全芝加哥紐約多倫多溫哥華Location計算機電話第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作鉆過:執(zhí)行涉及多個事實表的查詢鉆透:操作使用關(guān)系SQL機制,鉆到數(shù)據(jù)立方體的底層,到后端關(guān)系表OLAP的許多特征體現(xiàn)在統(tǒng)計數(shù)據(jù)庫(SDB)的早期工作中,而SDB關(guān)注社會經(jīng)濟應(yīng)用,OLAP旨在商務(wù)應(yīng)用以及有效處理海量數(shù)據(jù)

第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)1.數(shù)據(jù)倉庫的設(shè)計步驟數(shù)據(jù)倉庫設(shè)計需要考慮的四種視圖:自頂向下視圖:可以幫助選擇數(shù)據(jù)倉庫所需的相關(guān)息,這些信息能夠滿足當(dāng)前和未來商務(wù)的需求數(shù)據(jù)源視圖:揭示被操作數(shù)據(jù)庫系統(tǒng)捕獲、存儲和管理的信息數(shù)據(jù)倉庫視圖:包括事實表和維表商務(wù)查詢視圖:從最終用戶的角度透視數(shù)據(jù)倉庫中的數(shù)據(jù)第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)1.數(shù)據(jù)倉庫的設(shè)計步驟第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)1.數(shù)據(jù)倉庫的設(shè)計步驟數(shù)據(jù)倉庫的設(shè)計包括如下步驟:選取待建模的商務(wù)處理。如果商務(wù)過程針對整個組織,并涉及多個復(fù)雜對象,選用數(shù)據(jù)倉庫模型;如果是某一部門的、或某一類商務(wù)處理,應(yīng)選擇數(shù)據(jù)集市。選取商務(wù)處理的粒度選取用于每個事實表記錄的維選取安放在事實表中的度量第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)1.數(shù)據(jù)倉庫的設(shè)計步驟第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)2.數(shù)據(jù)倉庫的結(jié)構(gòu)數(shù)據(jù)倉庫通常采用三層結(jié)構(gòu):底層:數(shù)據(jù)倉庫服務(wù)器中間層:OLAP服務(wù)器頂層:前端工具第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)2.數(shù)據(jù)倉庫的結(jié)構(gòu)第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)清理轉(zhuǎn)換集成輸出業(yè)務(wù)數(shù)據(jù)庫外部信息源數(shù)據(jù)倉庫數(shù)據(jù)集市OLAP服務(wù)器底層:數(shù)據(jù)倉庫服務(wù)器頂層:前端工具中間層:OLAP服務(wù)器元數(shù)據(jù)存貯第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)清理轉(zhuǎn)換集成輸出業(yè)務(wù)數(shù)據(jù)庫外第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)2.數(shù)據(jù)倉庫的結(jié)構(gòu)從結(jié)構(gòu)的角度,有三種數(shù)據(jù)倉庫模型:

企業(yè)倉庫數(shù)據(jù)集市虛擬倉庫第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)2.數(shù)據(jù)倉庫的結(jié)構(gòu)第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)2.數(shù)據(jù)倉庫的結(jié)構(gòu)企業(yè)倉庫企業(yè)倉庫(Enterprisewarehouse)收集跨越整個企業(yè)的各個主題的所有信息。它提供全企業(yè)的數(shù)據(jù)集成,數(shù)據(jù)通常來自多個操作型數(shù)據(jù)庫和外部信息提供者,并且是跨越多個功能范圍的。它通常包含詳細數(shù)據(jù)和匯總數(shù)據(jù)企業(yè)數(shù)據(jù)倉庫可以在傳統(tǒng)的大型機上實現(xiàn),例如UNIX超級服務(wù)器或并行結(jié)構(gòu)平臺。它需要廣泛的業(yè)務(wù)建模,可能需要多年的時間來設(shè)計和建造第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)2.數(shù)據(jù)倉庫的結(jié)構(gòu)第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)2.數(shù)據(jù)倉庫的結(jié)構(gòu)數(shù)據(jù)集市數(shù)據(jù)集市(datamart)包含對特定用戶有用的,企業(yè)范圍數(shù)據(jù)的一個子集。它的范圍限于選定的主題,例如一個商場的數(shù)據(jù)集市可能限定它的主題為顧客、商品和銷售。數(shù)據(jù)集市中的數(shù)據(jù)通常為匯總數(shù)據(jù)第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)2.數(shù)據(jù)倉庫的結(jié)構(gòu)第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)2.數(shù)據(jù)倉庫的結(jié)構(gòu)數(shù)據(jù)集市實現(xiàn)數(shù)據(jù)集市的周期一般是數(shù)周,而不是數(shù)月或數(shù)年,然而,如果它的規(guī)劃不是企業(yè)范圍的,從長遠講,可能會涉及很復(fù)雜的集成根據(jù)數(shù)據(jù)的來源不同,數(shù)據(jù)集市分為獨立的依賴的二類。在獨立的數(shù)據(jù)集市中,數(shù)據(jù)來自一個或多個操作型數(shù)據(jù)庫或外部信息提供者,或者是一個特定的部門或地區(qū)本地產(chǎn)生的數(shù)據(jù)。在依賴的數(shù)據(jù)集市中,數(shù)據(jù)直接來自企業(yè)數(shù)據(jù)倉庫第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)2.數(shù)據(jù)倉庫的結(jié)構(gòu)第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)2.數(shù)據(jù)倉庫的結(jié)構(gòu)虛擬倉庫虛擬倉庫(virtualwarehouse)是操作型數(shù)據(jù)庫上視圖的集合。為了有效地處理查詢,只做了一些可能的匯總視圖。虛擬倉庫易于創(chuàng)建,但需要操作型數(shù)據(jù)庫服務(wù)器具有剩余能力第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)2.數(shù)據(jù)倉庫的結(jié)構(gòu)第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)3.

OLAP服務(wù)器的類型

關(guān)系OLAP(ROLAP)服務(wù)器多維OLAP(MOLAP)服務(wù)器混合OLAP(HOLAP)服務(wù)器特殊的SQL服務(wù)器第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)3.OLAP服務(wù)器的類型第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)4.關(guān)系OLAP(RelationalOLAP)ROLAP將分析用的多維數(shù)據(jù)存儲在關(guān)系數(shù)據(jù)庫中,并根據(jù)應(yīng)用需求有選擇的定義一批視圖作為表存儲在關(guān)系數(shù)據(jù)庫中。不必要將每一個SQL查詢都作為實視圖保存,只定義那些應(yīng)用頻率比較高、計算工作量比較大的查詢作為實視圖第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)4.關(guān)系OLAP(Relati4.關(guān)系OLAP(RelationalOLAP)對每個針對OLAP服務(wù)器的查詢,優(yōu)先利用已經(jīng)計算好的實視圖來生成查詢結(jié)果以提高查詢效率。同時用作ROLAP存儲器的RDBMS也針對OLAP作相應(yīng)的優(yōu)化,比如并行存儲、并行查詢、并行數(shù)據(jù)管理、基于成本的查詢優(yōu)化、位圖索引、SQL的OLAP擴展(cube、rollup)等等第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)4.關(guān)系OLAP(RelationalOLAP)第二節(jié)第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)5.多維OLAP(MultidimensionalOLAP)MOLAP將OLAP分析所用到的多維數(shù)據(jù)物理上存儲為多維數(shù)組的形式,形成“立方體”的結(jié)構(gòu)。維的屬性值被映射成多維數(shù)組的下標(biāo)值或下標(biāo)的范圍,而總結(jié)數(shù)據(jù)作為多維數(shù)組的值存儲在數(shù)組的單元中第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)5.多維OLAP(Multid第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)5.多維OLAP(MultidimensionalOLAP)由于MOLAP采用新的存儲結(jié)構(gòu),從物理層實現(xiàn)起,因此又稱為物理OLAP(PhysicalOLAP)而ROLAP主要通過一些軟件工具或中間軟件實現(xiàn),物理層仍采用關(guān)系數(shù)據(jù)庫的存儲結(jié)構(gòu),因此稱為虛擬OLAP(VirtualOLAP)第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)5.多維OLAP(Multid第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)6.ROLAP與MOLAP比對ROLAPMOLAP沿用現(xiàn)有的關(guān)系數(shù)據(jù)庫的技術(shù)專為OLAP所設(shè)計響應(yīng)速度比MOLAP慢;現(xiàn)有關(guān)系型數(shù)據(jù)庫已經(jīng)對OLAP做了很多優(yōu)化,包括并行存儲、并行查詢、并行數(shù)據(jù)管理、基于成本的查詢優(yōu)化、位圖索引、SQL的OLAP擴展(cube、rollup)等,性能有所提高性能好、響應(yīng)速度快數(shù)據(jù)裝載速度快數(shù)據(jù)裝載速度慢存儲空間耗費小,維數(shù)沒有限制需進行預(yù)計算,可能導(dǎo)致數(shù)據(jù)爆炸,無法支持維的公臺變化可以通過SQL實現(xiàn)詳細數(shù)據(jù)與概要數(shù)據(jù)的存儲缺乏數(shù)據(jù)模型和數(shù)據(jù)訪問的標(biāo)準(zhǔn)不支持有關(guān)預(yù)計算讀寫操作;SQL無法完成有些計算;無法完成多行計算;無法完成維之間計算支持高性能決策支持計算;扶著跨維計算;多用戶讀寫操作借用RDBMS存儲數(shù)據(jù),沒有文件大小限制受操作系統(tǒng)平臺文件大小限制,難達到TB級維護困難管理簡便第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)6.ROLAP與MOLAP比第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)6.ROLAP與MOLAP比對左邊為ROLAP方式,右邊為MOLAP方式,對應(yīng)的是同一個三維模型第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)6.ROLAP與MOLAP比對第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)6.混合OLAP(HybirdOLAP)混合型OLAP(HOLAP)把MOLAP和ROLAP兩種結(jié)構(gòu)的優(yōu)點結(jié)合起來迄今為止,對HOLAP還沒有一個正式的定義。但很明顯,HOLAP結(jié)構(gòu)不應(yīng)該是MOLAP與ROLAP結(jié)構(gòu)的簡單組合,而是這兩種結(jié)構(gòu)技術(shù)優(yōu)點的有機結(jié)合,能滿足用戶各種復(fù)雜的分析請求第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)6.混合OLAP(Hybird第三節(jié)數(shù)據(jù)倉庫的實現(xiàn)1.數(shù)據(jù)立方體的有效計算多維數(shù)據(jù)分析的核心是有效地計算多個維集合上的聚集,類似于SQL中的分組基本立方操作及實現(xiàn)部分物化數(shù)據(jù)立方體計算中多路數(shù)組聚集

第三節(jié)數(shù)據(jù)倉庫的實現(xiàn)1.數(shù)據(jù)立方體的有效計算第三節(jié)數(shù)據(jù)倉庫的實現(xiàn)2.索引OLAP數(shù)據(jù)位圖索引連接索引復(fù)合連接索引

第三節(jié)數(shù)據(jù)倉庫的實現(xiàn)2.索引OLAP數(shù)據(jù)第四節(jié)基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘1.數(shù)據(jù)倉庫的使用數(shù)據(jù)倉庫的三種應(yīng)用:信息處理分析處理數(shù)據(jù)挖掘第四節(jié)基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘1.數(shù)據(jù)倉庫的使用第四節(jié)基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘1.數(shù)據(jù)倉庫的使用信息處理:支持查詢和基本的統(tǒng)計分析,并使用交叉表、表、圖表或圖進行報告。數(shù)據(jù)倉庫信息處理的當(dāng)前趨勢是構(gòu)造低成本的基于Web的存取工具,然后與Web瀏覽器集成在一起第四節(jié)基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘1.數(shù)據(jù)倉庫的使用第四節(jié)基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘1.數(shù)據(jù)倉庫的使用分析處理:支持基本的OLAP操作,包括切片與切塊、下鉆、上卷和轉(zhuǎn)軸。一般在匯總的和細節(jié)的歷史數(shù)據(jù)上操作,它支持?jǐn)?shù)據(jù)倉庫的多維數(shù)據(jù)分析第四節(jié)基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘1.數(shù)據(jù)倉庫的使用第四節(jié)基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘1.數(shù)據(jù)倉庫的使用數(shù)據(jù)挖掘:支持知識發(fā)現(xiàn),包括找出隱藏的模式和關(guān)聯(lián),構(gòu)造分析模型,進行分類和預(yù)測,并用可視化工具提供挖掘結(jié)果數(shù)據(jù)挖掘不限于分析數(shù)據(jù)倉庫中的數(shù)據(jù),比OLAP更自動化,更深入,應(yīng)用更廣第四節(jié)基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘1.數(shù)據(jù)倉庫的使用第四節(jié)基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘2.從OLAP到OLAMOLAM聯(lián)機分析挖掘?qū)⒙?lián)機分析處理與數(shù)據(jù)挖掘以及多維數(shù)據(jù)庫中的發(fā)現(xiàn)知識集成在一起。數(shù)據(jù)倉庫中的數(shù)據(jù)高質(zhì)量環(huán)繞數(shù)據(jù)倉庫的有價值的信息處理基礎(chǔ)設(shè)施基于OLAP的探測式數(shù)據(jù)分析數(shù)據(jù)挖掘功能的聯(lián)機選擇第四節(jié)基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘2.從OLAP到OLAM思考問題:1.什么是數(shù)據(jù)立方體和多維數(shù)據(jù)模型?2.最流行的數(shù)據(jù)倉庫模型有哪些?3.什么是數(shù)據(jù)立方體度量,其分類如何?4.多維數(shù)據(jù)模型上的OLAP操作主要有哪些?5.數(shù)據(jù)倉庫的設(shè)計過程主要有哪些步驟?6.簡述OLAP與數(shù)據(jù)挖掘的關(guān)系。思考問題:1.什么是數(shù)據(jù)立方體和多維數(shù)據(jù)模型?一、多維數(shù)據(jù)模型二、數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)三、數(shù)據(jù)倉庫的實現(xiàn)四、基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘第二章數(shù)據(jù)倉庫的OLAP技術(shù)一、多維數(shù)據(jù)模型第二章數(shù)據(jù)倉庫的OLAP技術(shù)第一節(jié)多維數(shù)據(jù)模型1.數(shù)據(jù)立方體數(shù)據(jù)倉庫和OLAP工具基于多維數(shù)據(jù)模型,多維數(shù)據(jù)模型將數(shù)據(jù)看作數(shù)據(jù)立方體(datacube)形式。數(shù)據(jù)立方體允許以多維對數(shù)據(jù)建模和觀察,由維和事實定義第一節(jié)多維數(shù)據(jù)模型1.數(shù)據(jù)立方體第一節(jié)多維數(shù)據(jù)模型1.數(shù)據(jù)立方體維是關(guān)于一個組織想要記錄的透視或?qū)嶓w每一個維都有一個表與之相關(guān)聯(lián),該表稱為維表,它進一步描述維多維數(shù)據(jù)模型圍繞中心主題組織,主題用事實表表示事實是數(shù)值的度量,事實表包括事實的名稱或度量,以及每個相關(guān)維表的關(guān)鍵字第一節(jié)多維數(shù)據(jù)模型1.數(shù)據(jù)立方體第一節(jié)多維數(shù)據(jù)模型1.數(shù)據(jù)立方體設(shè)某BSEK北星易家連鎖公司由下列關(guān)系表描述:Customer(cust_id,name,address,age,…)Item(item_id,name,type,price,…)Employee(empl_id,name,salary,…)purchases(trans_id,cust_id,empl_id,date,time,method_paid,amount,…)Branch(branch_id,name,address)第一節(jié)多維數(shù)據(jù)模型1.數(shù)據(jù)立方體第一節(jié)多維數(shù)據(jù)模型1.數(shù)據(jù)立方體例如,BSEK可能創(chuàng)建一個數(shù)據(jù)倉庫sales,記錄商店的銷售情況,涉及time,item和location。典型3-D立方體如圖:timelocationitem第一節(jié)多維數(shù)據(jù)模型1.數(shù)據(jù)立方體timelocatio第一節(jié)多維數(shù)據(jù)模型2.多維數(shù)據(jù)庫模式E-R數(shù)據(jù)模型適用于OLTP,而數(shù)據(jù)倉庫需要簡明的、面向主題的模式,便于聯(lián)機數(shù)據(jù)分析。數(shù)據(jù)倉庫的數(shù)據(jù)模型采用多維數(shù)據(jù)模型星型模式雪花模式事實星座模式第一節(jié)多維數(shù)據(jù)模型2.多維數(shù)據(jù)庫模式第一節(jié)多維數(shù)據(jù)模型2.多維數(shù)據(jù)庫模式星型模式:是最常見的模型范式。這種模式的數(shù)據(jù)倉庫包含:一個大的事實表和一組小的維表事實表包含大批數(shù)據(jù)和不含冗余的中心表維表附屬表,每維一個表第一節(jié)多維數(shù)據(jù)模型2.多維數(shù)據(jù)庫模式第一節(jié)多維數(shù)據(jù)模型2.多維數(shù)據(jù)庫模式星型模式time_keyitem_keybranch_keylocation_keymoney_soldunits_soldbranch_keybranch_namebranch_typelocation_keystreetcitycountryitem_keyitem_namebranchtypetime_keydayWeekmonth…Sales事實表time維表branch維表location維表item維表第一節(jié)多維數(shù)據(jù)模型2.多維數(shù)據(jù)庫模式time_keyi第一節(jié)多維數(shù)據(jù)模型2.多維數(shù)據(jù)庫模式雪花模式:是星型模式的變種,其中某些維表是規(guī)范化的,因而數(shù)據(jù)被進一步分解到附加的表中雪花模式的規(guī)范化維表,可以減少冗余,便于維護,并且節(jié)省存儲空間;同巨大的事實表相比,空間節(jié)省有限執(zhí)行查詢需要更多連接操作,雪花模型可能降低瀏覽的性能第一節(jié)多維數(shù)據(jù)模型2.多維數(shù)據(jù)庫模式第一節(jié)多維數(shù)據(jù)模型2.多維數(shù)據(jù)庫模式雪花模式time_keyitem_keybranch_keylocation_keymoney_soldunits_soldbranch_keybranch_namebranch_typelocation_keystreetcity_keyitem_keyitem_namebranchtype_keytime_keydayWeekmonth…type_keytype_namecity_keycitycountrySales事實表timebranchlocation維表item維表type維表city維表第一節(jié)多維數(shù)據(jù)模型2.多維數(shù)據(jù)庫模式time_keyi第一節(jié)多維數(shù)據(jù)模型2.多維數(shù)據(jù)庫模式事實星座模式復(fù)雜的應(yīng)用可能需要多個事實表共享維表,這種模式可以視為星型模式集,因此稱為星系模式,或事實星座模式

第一節(jié)多維數(shù)據(jù)模型2.多維數(shù)據(jù)庫模式第一節(jié)多維數(shù)據(jù)模型2.多維數(shù)據(jù)庫模式事實星座模式time_keyitem_keybranch_keylocation_keymoney_soldunits_soldbranch_keybranch_namebranch_typelocation_keystreetcity_keyitem_keyitem_namebranchtype_keytime_keydayWeekmonth…item_keytime_keyfrom_locationshipper_keymoney_costunits_shippedshipper_keyshipper_namelocation_keySales事實表timebranchlocation維表item維表shipping事實表shipper維表第一節(jié)多維數(shù)據(jù)模型2.多維數(shù)據(jù)庫模式time_keyi第一節(jié)多維數(shù)據(jù)模型3.度量的分類與計算數(shù)據(jù)立方體度量是一個數(shù)值函數(shù),該函數(shù)可以對數(shù)據(jù)立方體的每一個點求值。通過對給定點的各維-值對聚集數(shù)據(jù),計算該點的度量值度量根據(jù)所用的聚集函數(shù)分成三類:分布的度量、代數(shù)的度量、整體的度量

第一節(jié)多維數(shù)據(jù)模型3.度量的分類與計算第一節(jié)多維數(shù)據(jù)模型3.度量的分類與計算分布的:一個聚集函數(shù)是分布的,如果它能以如下分布方式進行計算設(shè)數(shù)據(jù)被劃分為n個集合,函數(shù)在每一部分上的計算得到一個聚集值。如果將函數(shù)用于n個聚集值得到的結(jié)果,與將函數(shù)用于所有數(shù)據(jù)得到的結(jié)果一樣,則該函數(shù)可以用分布方式計算。一個度量是分布的,如果它可以用分布聚集函數(shù)得到第一節(jié)多維數(shù)據(jù)模型3.度量的分類與計算第一節(jié)多維數(shù)據(jù)模型3.度量的分類與計算代數(shù)的:一個聚集函數(shù)是代數(shù)的,如果它能由一個具有M個參數(shù)的代數(shù)計算(M是一個有界整數(shù)),而每個參數(shù)都可以用一個分布聚集函數(shù)求得一個度量是代數(shù)的,如果它可以用代數(shù)聚集函數(shù)得到第一節(jié)多維數(shù)據(jù)模型3.度量的分類與計算第一節(jié)多維數(shù)據(jù)模型3.度量的分類與計算整體的:一個聚集函數(shù)是整體的,如果描述它的子聚集所需的存儲沒有一個常數(shù)界,即不存在一個具有M個參數(shù)的代數(shù)函數(shù)進行這一計算(M是常數(shù)),而每個參數(shù)都可以用一個分布聚集函數(shù)求得一個度量是整體的,如果它可以用整體聚集函數(shù)得到第一節(jié)多維數(shù)據(jù)模型3.度量的分類與計算第一節(jié)多維數(shù)據(jù)模型3.度量的分類與計算多數(shù)數(shù)據(jù)立方體的應(yīng)用需要有效地計算分布的和代數(shù)的度量,存在許多有效的技術(shù);而有效計算整體的度量是很困難的,往往采取計算以滿意的結(jié)果估計大數(shù)據(jù)集的中值,不進行精確計算。例如,median()和mode()第一節(jié)多維數(shù)據(jù)模型3.度量的分類與計算第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作上卷(roll-up)下鉆(drill-down)切片(slice)、切塊(dice)轉(zhuǎn)軸(pivot)鉆過(drill-across)鉆透(drill-through)第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作概念分層將屬性或維組織成漸進的抽象層,它將低層概念映射到更一般的高層概念。概念分層對于多抽象層上的挖掘有用第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作上卷:通過一個維的概念分層向上攀升或通過維歸約,在數(shù)據(jù)立方體上進行聚集第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作上卷LocationTimeItem芝加哥紐約芝加哥溫哥華一季度二季度三季度四季度家庭娛樂計算機電話安全TimeItem美國加拿大一季度二季度三季度四季度家庭娛樂計算機電話安全Location分層定義為全序:“street<city<province_or_state<county”第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作下鉆:通過沿維的概念分層向下或引入新的維來實現(xiàn),它是上卷的逆操作,由不太詳細的數(shù)據(jù)到更詳細的數(shù)據(jù)第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作下鉆分層定義全序為:“day<month<quarter<year”Location芝加哥紐約芝加哥溫哥華Time一季度二季度三季度四季度Item家庭娛樂計算機電話安全Item家庭娛樂計算機電話安全Time1月2月3月4月5月6月7月8月9月10月11月12月Location芝加哥紐約芝加哥溫哥華第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作切片:切片操作在給定的數(shù)據(jù)立方體的一個維上進行選擇,導(dǎo)致一個子方第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作切片LocationTimeItem芝加哥紐約芝加哥溫哥華一季度二季度三季度四季度家庭娛樂計算機電話安全Item芝加哥溫哥華家庭娛樂計算機電話安全Location紐約多倫多Time=“Q1”第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作切塊:切塊操作通過對兩個或多個維執(zhí)行選擇,定義子方第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作切塊(location=“Toronto”or“Vancouver”)and(Time=“Q1”or“Q2”)and(item=“homeentertainment”or“computer”)LocationTimeItem芝加哥紐約芝加哥溫哥華一季度二季度三季度四季度家庭娛樂計算機電話安全TimeItem多倫多溫哥華一季度二季度家庭娛樂計算機Location第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作:轉(zhuǎn)軸:是一種目視操作,它轉(zhuǎn)動數(shù)據(jù)的視角,提供數(shù)據(jù)的替代表示第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作:第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作轉(zhuǎn)軸Item芝加哥溫哥華家庭娛樂計算機電話安全Location紐約多倫多Item家庭娛樂安全芝加哥紐約多倫多溫哥華Location計算機電話第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作鉆過:執(zhí)行涉及多個事實表的查詢鉆透:操作使用關(guān)系SQL機制,鉆到數(shù)據(jù)立方體的底層,到后端關(guān)系表OLAP的許多特征體現(xiàn)在統(tǒng)計數(shù)據(jù)庫(SDB)的早期工作中,而SDB關(guān)注社會經(jīng)濟應(yīng)用,OLAP旨在商務(wù)應(yīng)用以及有效處理海量數(shù)據(jù)

第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)1.數(shù)據(jù)倉庫的設(shè)計步驟數(shù)據(jù)倉庫設(shè)計需要考慮的四種視圖:自頂向下視圖:可以幫助選擇數(shù)據(jù)倉庫所需的相關(guān)息,這些信息能夠滿足當(dāng)前和未來商務(wù)的需求數(shù)據(jù)源視圖:揭示被操作數(shù)據(jù)庫系統(tǒng)捕獲、存儲和管理的信息數(shù)據(jù)倉庫視圖:包括事實表和維表商務(wù)查詢視圖:從最終用戶的角度透視數(shù)據(jù)倉庫中的數(shù)據(jù)第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)1.數(shù)據(jù)倉庫的設(shè)計步驟第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)1.數(shù)據(jù)倉庫的設(shè)計步驟數(shù)據(jù)倉庫的設(shè)計包括如下步驟:選取待建模的商務(wù)處理。如果商務(wù)過程針對整個組織,并涉及多個復(fù)雜對象,選用數(shù)據(jù)倉庫模型;如果是某一部門的、或某一類商務(wù)處理,應(yīng)選擇數(shù)據(jù)集市。選取商務(wù)處理的粒度選取用于每個事實表記錄的維選取安放在事實表中的度量第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)1.數(shù)據(jù)倉庫的設(shè)計步驟第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)2.數(shù)據(jù)倉庫的結(jié)構(gòu)數(shù)據(jù)倉庫通常采用三層結(jié)構(gòu):底層:數(shù)據(jù)倉庫服務(wù)器中間層:OLAP服務(wù)器頂層:前端工具第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)2.數(shù)據(jù)倉庫的結(jié)構(gòu)第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)清理轉(zhuǎn)換集成輸出業(yè)務(wù)數(shù)據(jù)庫外部信息源數(shù)據(jù)倉庫數(shù)據(jù)集市OLAP服務(wù)器底層:數(shù)據(jù)倉庫服務(wù)器頂層:前端工具中間層:OLAP服務(wù)器元數(shù)據(jù)存貯第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)清理轉(zhuǎn)換集成輸出業(yè)務(wù)數(shù)據(jù)庫外第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)2.數(shù)據(jù)倉庫的結(jié)構(gòu)從結(jié)構(gòu)的角度,有三種數(shù)據(jù)倉庫模型:

企業(yè)倉庫數(shù)據(jù)集市虛擬倉庫第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)2.數(shù)據(jù)倉庫的結(jié)構(gòu)第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)2.數(shù)據(jù)倉庫的結(jié)構(gòu)企業(yè)倉庫企業(yè)倉庫(Enterprisewarehouse)收集跨越整個企業(yè)的各個主題的所有信息。它提供全企業(yè)的數(shù)據(jù)集成,數(shù)據(jù)通常來自多個操作型數(shù)據(jù)庫和外部信息提供者,并且是跨越多個功能范圍的。它通常包含詳細數(shù)據(jù)和匯總數(shù)據(jù)企業(yè)數(shù)據(jù)倉庫可以在傳統(tǒng)的大型機上實現(xiàn),例如UNIX超級服務(wù)器或并行結(jié)構(gòu)平臺。它需要廣泛的業(yè)務(wù)建模,可能需要多年的時間來設(shè)計和建造第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)2.數(shù)據(jù)倉庫的結(jié)構(gòu)第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)2.數(shù)據(jù)倉庫的結(jié)構(gòu)數(shù)據(jù)集市數(shù)據(jù)集市(datamart)包含對特定用戶有用的,企業(yè)范圍數(shù)據(jù)的一個子集。它的范圍限于選定的主題,例如一個商場的數(shù)據(jù)集市可能限定它的主題為顧客、商品和銷售。數(shù)據(jù)集市中的數(shù)據(jù)通常為匯總數(shù)據(jù)第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)2.數(shù)據(jù)倉庫的結(jié)構(gòu)第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)2.數(shù)據(jù)倉庫的結(jié)構(gòu)數(shù)據(jù)集市實現(xiàn)數(shù)據(jù)集市的周期一般是數(shù)周,而不是數(shù)月或數(shù)年,然而,如果它的規(guī)劃不是企業(yè)范圍的,從長遠講,可能會涉及很復(fù)雜的集成根據(jù)數(shù)據(jù)的來源不同,數(shù)據(jù)集市分為獨立的依賴的二類。在獨立的數(shù)據(jù)集市中,數(shù)據(jù)來自一個或多個操作型數(shù)據(jù)庫或外部信息提供者,或者是一個特定的部門或地區(qū)本地產(chǎn)生的數(shù)據(jù)。在依賴的數(shù)據(jù)集市中,數(shù)據(jù)直接來自企業(yè)數(shù)據(jù)倉庫第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)2.數(shù)據(jù)倉庫的結(jié)構(gòu)第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)2.數(shù)據(jù)倉庫的結(jié)構(gòu)虛擬倉庫虛擬倉庫(virtualwarehouse)是操作型數(shù)據(jù)庫上視圖的集合。為了有效地處理查詢,只做了一些可能的匯總視圖。虛擬倉庫易于創(chuàng)建,但需要操作型數(shù)據(jù)庫服務(wù)器具有剩余能力第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)2.數(shù)據(jù)倉庫的結(jié)構(gòu)第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)3.

OLAP服務(wù)器的類型

關(guān)系OLAP(ROLAP)服務(wù)器多維OLAP(MOLAP)服務(wù)器混合OLAP(HOLAP)服務(wù)器特殊的SQL服務(wù)器第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)3.OLAP服務(wù)器的類型第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)4.關(guān)系OLAP(RelationalOLAP)ROLAP將分析用的多維數(shù)據(jù)存儲在關(guān)系數(shù)據(jù)庫中,并根據(jù)應(yīng)用需求有選擇的定義一批視圖作為表存儲在關(guān)系數(shù)據(jù)庫中。不必要將每一個SQL查詢都作為實視圖保存,只定義那些應(yīng)用頻率比較高、計算工作量比較大的查詢作為實視圖第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)4.關(guān)系OLAP(Relati4.關(guān)系OLAP(RelationalOLAP)對每個針對OLAP服務(wù)器的查詢,優(yōu)先利用已經(jīng)計算好的實視圖來生成查詢結(jié)果以提高查詢效率。同時用作ROLAP存儲器的RDBMS也針對OLAP作相應(yīng)的優(yōu)化,比如并行存儲、并行查詢、并行數(shù)據(jù)管理、基于成本的查詢優(yōu)化、位圖索引、SQL的OLAP擴展(cube、rollup)等等第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)4.關(guān)系OLAP(RelationalOLAP)第二節(jié)第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)5.多維OLAP(MultidimensionalOLAP)MOLAP將OLAP分析所用到的多維數(shù)據(jù)物理上存儲為多維數(shù)組的形式,形成“立方體”的結(jié)構(gòu)。維的屬性值被映射成多維數(shù)組的下標(biāo)值或下標(biāo)的范圍,而總結(jié)數(shù)據(jù)作為多維數(shù)組的值存儲在數(shù)組的單元中第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)5.多維OLAP(Multid第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)5.多維OLAP(MultidimensionalOLAP)由于MOLAP采用新的存儲結(jié)構(gòu),從物理層實現(xiàn)起,因此又稱為物理OLAP(PhysicalOLAP)而ROLA

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論