版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的OLAP技術(shù)數(shù)據(jù)倉庫-數(shù)據(jù)挖掘的有效平臺數(shù)據(jù)倉庫中的數(shù)據(jù)清理和數(shù)據(jù)集成,是數(shù)據(jù)挖掘的重要數(shù)據(jù)預處理步驟數(shù)據(jù)倉庫提供OLAP工具,可用于不同粒度的數(shù)據(jù)分析很多數(shù)據(jù)挖掘功能都可以和OLAP操作集成,以提供不同概念層上的知識發(fā)現(xiàn)分類預測關(guān)聯(lián)聚集什么是數(shù)據(jù)倉庫?數(shù)據(jù)倉庫的定義很多,但卻很難有一種嚴格的定義它是一個提供決策支持功能的數(shù)據(jù)庫,它與公司的操作數(shù)據(jù)庫分開維護。為統(tǒng)一的歷史數(shù)據(jù)分析提供堅實的平臺,對信息處理提供支持數(shù)據(jù)倉庫區(qū)別于其他數(shù)據(jù)存儲系統(tǒng)“數(shù)據(jù)倉庫是一個面向主題的、集成的、隨時間而變化的、不容易丟失的數(shù)據(jù)集合,支持管理部門的決策過程.”—W.H.Inmon數(shù)據(jù)倉庫關(guān)鍵特征一——面向主題面向主題,是數(shù)據(jù)倉庫顯著區(qū)別于關(guān)系數(shù)據(jù)庫系統(tǒng)的一個特征圍繞一些主題,如顧客、供應(yīng)商、產(chǎn)品等關(guān)注決策者的數(shù)據(jù)建模與分析,而不是集中于組織機構(gòu)的日常操作和事務(wù)處理。排除對于決策無用的數(shù)據(jù),提供特定主題的簡明視圖。數(shù)據(jù)倉庫關(guān)鍵特征二——數(shù)據(jù)集成一個數(shù)據(jù)倉庫是通過集成多個異種數(shù)據(jù)源來構(gòu)造的。關(guān)系數(shù)據(jù)庫,一般文件,聯(lián)機事務(wù)處理記錄使用數(shù)據(jù)清理和數(shù)據(jù)集成技術(shù)。確保命名約定、編碼結(jié)構(gòu)、屬性度量等的一致性。當數(shù)據(jù)被移到數(shù)據(jù)倉庫時,它們要經(jīng)過轉(zhuǎn)化。數(shù)據(jù)倉庫關(guān)鍵特征三——隨時間而變化數(shù)據(jù)倉庫是從歷史的角度提供信息數(shù)據(jù)倉庫的時間范圍比操作數(shù)據(jù)庫系統(tǒng)要長的多。操作數(shù)據(jù)庫系統(tǒng):主要保存當前數(shù)據(jù)。數(shù)據(jù)倉庫:從歷史的角度提供信息(比如過去5-10年)數(shù)據(jù)倉庫中的每一個關(guān)鍵結(jié)構(gòu)都隱式或顯式地包含時間元素,而操作數(shù)據(jù)庫中的關(guān)鍵結(jié)構(gòu)可能就不包括時間元素。數(shù)據(jù)倉庫關(guān)鍵特征四——數(shù)據(jù)不易丟失盡管數(shù)據(jù)倉庫中的數(shù)據(jù)來自于操作數(shù)據(jù)庫,但他們卻是在物理上分離保存的。操作數(shù)據(jù)庫的更新操作不會出現(xiàn)在數(shù)據(jù)倉庫環(huán)境下。不需要事務(wù)處理,恢復,和并發(fā)控制等機制只需要兩種數(shù)據(jù)訪問:數(shù)據(jù)的初始轉(zhuǎn)載和數(shù)據(jù)訪問(讀操作)數(shù)據(jù)倉庫的構(gòu)建與使用數(shù)據(jù)倉庫的構(gòu)建包括一系列的數(shù)據(jù)預處理過程數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)變換數(shù)據(jù)倉庫的使用熱點是商業(yè)決策行為,例如:增加客戶聚焦產(chǎn)品重定位尋找獲利點客戶關(guān)系管理數(shù)據(jù)倉庫與異種數(shù)據(jù)庫集成異種數(shù)據(jù)庫的集成方法傳統(tǒng)的異種數(shù)據(jù)庫集成:(查詢驅(qū)動)在多個異種數(shù)據(jù)庫上建立包裝程序(wrappers)和中介程序(mediators)查詢驅(qū)動方法——當從客戶端傳過來一個查詢時,首先使用元數(shù)據(jù)字典將查詢轉(zhuǎn)換成相應(yīng)異種數(shù)據(jù)庫上的查詢;然后,將這些查詢映射和發(fā)送到局部查詢處理器數(shù)據(jù)倉庫:(更新驅(qū)動)將來自多個異種源的信息預先集成,并存儲在數(shù)據(jù)倉庫中,供直接查詢和分析查詢驅(qū)動方法和更新驅(qū)動方法的比較查詢驅(qū)動的方法需要負責的信息過濾和集成處理與局部數(shù)據(jù)源上的處理競爭資源對于頻繁的查詢,尤其是涉及聚集(匯總)操作的查詢,開銷很大(決策支持中常見的查詢形式)更新驅(qū)動的方法(帶來高性能)數(shù)據(jù)經(jīng)預處理后單獨存儲,對聚集操作提供良好支持不影響局部數(shù)據(jù)源上的處理集成歷史信息,支持負責的多維查詢數(shù)據(jù)倉庫與與操作數(shù)據(jù)據(jù)庫系統(tǒng)操作數(shù)據(jù)庫庫系統(tǒng)的主主要任務(wù)是是聯(lián)機事務(wù)務(wù)處理OLTP日常操作:購買,,庫存,銀銀行,制造造,工資,,注冊,記記帳等數(shù)據(jù)倉庫的的主要任務(wù)務(wù)是聯(lián)機分分析處理OLAP數(shù)據(jù)分析和和決策支持持,支持以以不同的形形式顯示數(shù)數(shù)據(jù)以滿足足不同的用用戶需要OLAPVS.OLTP(1)用戶戶和和系系統(tǒng)統(tǒng)的的面面向向性性面向顧顧客((事務(wù)務(wù))VS.面面向向市場場(分分析))數(shù)據(jù)內(nèi)內(nèi)容當前的的、詳詳細的的數(shù)據(jù)據(jù)VS.歷歷史的的、匯匯總的的數(shù)據(jù)據(jù)數(shù)據(jù)庫庫設(shè)計計實體--聯(lián)系系模型型(ER)和面面向應(yīng)應(yīng)用的的數(shù)據(jù)據(jù)庫設(shè)設(shè)計VS.星星型型/雪雪花模模型和和面向向主題題的數(shù)數(shù)據(jù)庫庫設(shè)計計OLAPVS.OLTP(2)數(shù)據(jù)視圖當前的、企企業(yè)內(nèi)部的的數(shù)據(jù)VS.經(jīng)經(jīng)過演化的的、集成的的數(shù)據(jù)訪問模式事務(wù)操作VS.只只讀查詢詢(但很多多是復雜的的查詢)任務(wù)單位簡短的事務(wù)務(wù)VS.復雜的的查詢訪問數(shù)據(jù)量量數(shù)十個VS.數(shù)數(shù)百萬個OLAPVS.OLTP(3)用戶數(shù)數(shù)千個VS.數(shù)數(shù)百個數(shù)據(jù)庫規(guī)模模100M-數(shù)GBVS.100GB-數(shù)TB設(shè)計優(yōu)先性性高性能、高高可用性VS.高高靈活性性、端點用用戶自治度量事務(wù)吞吐量量VS.查詢吞吞吐量、響響應(yīng)時間更多的區(qū)別別見教科書書P28,,表2-1為什么需要要一個分離離的數(shù)據(jù)倉倉庫?提高兩個系系統(tǒng)的性能能DBMS是是為OLTP而設(shè)計計的:存儲儲方式,索索引,并并發(fā)控制,恢復數(shù)據(jù)倉庫是是為OLAP而設(shè)計計:復雜的的OLAP查詢,多維視視圖,匯總總不同的功能能和不同的的數(shù)據(jù):歷史數(shù)據(jù):決策支支持需要歷歷史數(shù)據(jù),,而這些數(shù)數(shù)據(jù)在操作作數(shù)據(jù)庫中中一般不會會去維護數(shù)據(jù)匯總::決策支持持需要將來來自異種源源的數(shù)據(jù)統(tǒng)統(tǒng)一(如聚聚集和匯總總)數(shù)據(jù)質(zhì)量:不同的的源使用不不一致的數(shù)數(shù)據(jù)表示、、編碼和格格式,對這這些數(shù)據(jù)進進行有效的的分析需要要將他們轉(zhuǎn)轉(zhuǎn)化后進行行集成多維數(shù)據(jù)模模型(1)數(shù)據(jù)倉庫和和OLAP工具基于于多維數(shù)據(jù)據(jù)模型在多維數(shù)據(jù)據(jù)模型中,,數(shù)據(jù)以數(shù)數(shù)據(jù)立方體體(datacube)的的形式存在在數(shù)據(jù)立方體體允許以多維維數(shù)據(jù)建模模和觀察。。它由維和事實定義維是關(guān)于一個個組織想要要記錄的視視角或觀點點。每個維維都有一個個表與之相相關(guān)聯(lián),稱稱為維表。多維數(shù)據(jù)模模型圍繞中中心主題組組織,該主主題用事實表表示事實表包括事實的的名稱或度度量以及每每個相關(guān)維維表的關(guān)鍵鍵字事實指的是一些些數(shù)字度量量多維數(shù)據(jù)模模型(2)———示例time_keydayday_of_the_weekmonthquarteryeartime維維表location_keystreetcitystate_or_provincecountrylocation事事實表Sales事實表表time_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_sales度量item_keyitem_namebrandtypesupplier_typeitem維維表branch_keybranch_namebranch_typebranch維表表多維數(shù)據(jù)模模型(3)在數(shù)據(jù)倉庫庫中,數(shù)據(jù)據(jù)立方體是是n-D的的(n維))(關(guān)系表和和電子表格格是幾維的的?)示例AllElectronics的銷售售數(shù)據(jù)按維維time,item的2-D視圖圖(P30,表表2-2)AllElectronics的銷售售數(shù)據(jù)按維維time,item和location的的3-D視視圖(P30,表表2-3)AllElectronics的銷售售數(shù)據(jù)按維維time,item和location的的3-D視視圖的3-D數(shù)據(jù)立立方體表示示(P31,圖圖2-1)銷售數(shù)據(jù)的的4-D立立方體表示示(P31,圖圖2-2)多維數(shù)據(jù)模模型為不同同角度上的的數(shù)據(jù)建模模和觀察提提供了一個個良好的基基礎(chǔ)多維數(shù)據(jù)模模型(4)在數(shù)據(jù)倉庫的的研究文獻中中,一個n維維的數(shù)據(jù)的立立方體叫做基本方體。給定一個維維的集合,我我們可以構(gòu)造造一個方體的格,每個都在不不同的匯總級級或不同的數(shù)數(shù)據(jù)子集顯示示數(shù)據(jù),方體體的格稱為數(shù)據(jù)立方體。0維方體存存放最高層的的匯總,稱作作頂點方體;而存放最底底層匯總的方方體則稱為基本方體。數(shù)據(jù)立方體———一個方體體的格alltimeitemlocationsuppliertime,itemtime,locationtime,supplieritem,locationitem,supplierlocation,suppliertime,item,locationtime,item,suppliertime,location,supplieritem,location,suppliertime,item,location,supplier0-D(頂點點)方體1-D方體2-D方體體3-D方體體4-D(基本本)方體數(shù)據(jù)倉庫的概概念模型最流行的數(shù)據(jù)據(jù)倉庫概念模模型是多維數(shù)數(shù)據(jù)模型。這這種模型可以以以星型模式式、雪花模式式、或事實星星座模式的形形式存在。星型模式(Starschema):事實實表在中心,,周圍圍繞地地連接著維表表(每維一個個),事實表表含有大量數(shù)數(shù)據(jù),沒有冗冗余。雪花模式(Snowflakeschema):是是星型模式的的變種,其中中某些維表是是規(guī)范化的,,因而把數(shù)據(jù)據(jù)進一步分解解到附加表中中。結(jié)果,模模式圖形成類類似于雪花的的形狀。事實星座(Factconstellations):多個事實實表共享維表表,這種模模式可以看作作星型模式集集,因此稱為為星系模式((galaxyschema),,或者事實星星座(factconstellation)星型模式實例例time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcitystate_or_provincecountrylocationSalesFactTabletime_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranch雪花模式實例例time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcity_keylocationSalesFactTabletime_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_salesMeasuresitem_keyitem_namebrandtypesupplier_keyitembranch_keybranch_namebranch_typebranchsupplier_keysupplier_typesuppliercity_keycitystate_or_provincecountrycity事實星座模式式實例time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcityprovince_or_statecountrylocationSalesFactTabletime_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranchShippingFactTabletime_keyitem_keyshipper_keyfrom_locationto_locationdollars_costunits_shippedshipper_keyshipper_namelocation_keyshipper_typeshipper一種數(shù)據(jù)挖掘掘查詢語言:DMQLDMQL首先先包括定義數(shù)數(shù)據(jù)倉庫和數(shù)數(shù)據(jù)集市的語語言原語,這這包括兩種原原語定義:一一種是立方體體定義,一種種是維定義立方體定義(事實表)definecube<cube_name>[<dimension_list>]:<measure_list>維定義(維維表)definedimension<dimension_name>as(<attribute_or_subdimension_list>)特殊案例(共享維表的的定義)第一次作為維維表定義““cubedefinition”然后:definedimension<dimension_name>as<dimension_name_first_time>incube<cube_name_first_time>實例例::使使用用DMQL定定義義星星型型模模式式definecubesales_star[time,item,branch,location]:dollars_sold=sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),units_sold=count(*)definedimensiontimeas(time_key,day,day_of_week,month,quarter,year)definedimensionitemas(item_key,item_name,brand,type,supplier_type)definedimensionbranchas(branch_key,branch_name,branch_type)definedimensionlocationas(location_key,street,city,province_or_state,country)實例::使用用DMQL定義義雪花花模式式definecubesales_snowflake[time,item,branch,location]:dollars_sold=sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),units_sold=count(*)definedimensiontimeas(time_key,day,day_of_week,month,quarter,year)definedimensionitemas(item_key,item_name,brand,type,supplier(supplier_key,supplier_type))definedimensionbranchas(branch_key,branch_name,branch_type)definedimensionlocationas(location_key,street,city(city_key,province_or_state,country))實例:使用用DMQL定義事實實星座模式式definecubesales[time,item,branch,location]:dollars_sold=sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),units_sold=count(*)definedimensiontimeas(time_key,day,day_of_week,month,quarter,year)definedimensionitemas(item_key,item_name,brand,type,supplier_type)definedimensionbranchas(branch_key,branch_name,branch_type)definedimensionlocationas(location_key,street,city,province_or_state,country)definecubeshipping[time,item,shipper,from_location,to_location]:dollar_cost=sum(cost_in_dollars),unit_shipped=count(*)definedimensiontimeastimeincubesalesdefinedimensionitemasitemincubesalesdefinedimensionshipperas(shipper_key,shipper_name,locationaslocationincubesales,shipper_type)definedimensionfrom_locationaslocationincubesalesdefinedimensionto_locationaslocationincubesales度量的分分類一個數(shù)據(jù)立方方體的度量是是一個數(shù)值函數(shù),該函數(shù)數(shù)可以對數(shù)據(jù)據(jù)立方體的每每一個點求值值。(剛才的示例中中用的是什么么函數(shù)?)度量可以根據(jù)據(jù)其所用的聚聚集函數(shù)分為為三類:分布的(distributive):將函數(shù)數(shù)用于n個聚聚集值得到的的結(jié)果和將函函數(shù)用于所有有數(shù)據(jù)得到的的結(jié)果一樣。。比如:count(),,sum(),min(),max()等代數(shù)的(algebraic):函函數(shù)可以由一一個帶M個參參數(shù)的代數(shù)函函數(shù)計算(M為有界整數(shù)數(shù)),而每個個參數(shù)值都可可以有一個分分布的聚集函函數(shù)求得。比如:avg(),min_N(),standard_deviation()整體的(holistic):描述述函數(shù)的子聚聚集所需的存存儲沒有一個個常數(shù)界。比如:median(),mode(),rank()5-6王燦數(shù)據(jù)挖掘0703004概念分層(1)一個概念分層層(concepthierarchy)定定義一個映射射序列,將低低層概念映射射到更一般的的高層概念E.g.表表示location的的概念:杭州州浙江中國國亞洲概念分層允許許我們在各種種抽象級審查查和處理數(shù)據(jù)據(jù)概念分層可以以由系統(tǒng)用戶戶、領(lǐng)域?qū)<壹?、知識工程程師人工的提提供,也可以以根據(jù)數(shù)據(jù)分分布的統(tǒng)計分分析自動的產(chǎn)產(chǎn)生概念分層(2):location維的一一個概念分層層allEuropeNorth_AmericaMexicoCanadaSpainGermanyVancouverM.WindL.Chan..................allregionofficecountryTorontoFrankfurtcity許多概念分層層的定義隱含含在數(shù)據(jù)庫的的模式中。比比如:location維的定義,,office<city<country<region;這些屬屬性按一個個全序相關(guān),,形成一個層層次結(jié)構(gòu):yeardayquartermonthweek維的屬性也可可以組成一個個偏序,形成成一個格:概念分層(3)———使用概念分層為不不同級別上的的數(shù)據(jù)匯總提提供了一個良良好的基礎(chǔ)綜合概念分層層和多維數(shù)據(jù)據(jù)模型的潛力力,可以對數(shù)數(shù)據(jù)獲得更深深入的洞察力力通過在多維數(shù)數(shù)據(jù)模型中,,在不同的維維上定義概念念分層,使得得用戶在不同同的維上從不不同的層次對對數(shù)據(jù)進行觀觀察成為可能能。多維數(shù)據(jù)模型型(數(shù)據(jù)立方方體)使得從從不同的角度度對數(shù)據(jù)進行行觀察成為可可能,而概念念分層則提供供了從不同層層次對數(shù)據(jù)進進行觀察的能能力;結(jié)合這這兩者的特征征,我們可以以在多維數(shù)據(jù)據(jù)模型上定義義各種OLAP操作,為為用戶從不同同角度不同層層次觀察數(shù)據(jù)據(jù)提供了靈活活性:多維數(shù)據(jù)模型型上的OLAP操作(1)上卷(roll-up):匯總數(shù)據(jù)據(jù)通過一個維的的概念分層向向上攀升或者者通過維規(guī)約約當用維歸約進進行上卷時,,一個或多個個維由給定的的數(shù)據(jù)立方體體刪除下鉆(drill-down):上上卷的逆操作作由不太詳細的的數(shù)據(jù)到更詳詳細的數(shù)據(jù),,可以通過沿沿維的概念分分層向下或引引入新的維來來實現(xiàn)(為為給定數(shù)據(jù)添添加更多細節(jié)節(jié))切片和切塊(sliceanddice)切片操作在給給定的數(shù)據(jù)立立方體的一個個維上進行選選擇,導致一一個子方切塊操作通過過對兩個或多多個維進行選選擇,定義子子方P40圖2-10多維數(shù)數(shù)據(jù)模模型上上的OLAP操操作(2)轉(zhuǎn)軸(pivot)立方體體的重重定位位,可可視化化,或或?qū)⒁灰粋€3維立立方體體轉(zhuǎn)化化為一一個2維平平面序序列轉(zhuǎn)軸是是一種種可視化化操作,,通過過轉(zhuǎn)動動當前前數(shù)據(jù)據(jù)的視視圖來來提供供一個個數(shù)據(jù)據(jù)的替替代表表示其他OLAP操操作鉆過(drill_across)::執(zhí)行行涉及及多個個事實實表的的查詢詢鉆透(drill_through):使使用關(guān)關(guān)系SQL機制制,鉆鉆到數(shù)數(shù)據(jù)立立方體體的底底層,,到后后端關(guān)關(guān)系表表其他OLAP操操作可可能包包括列列出表表中最最高或或最低低的N項,,以及及計算算移動動平均均值、、增長長率、、利潤潤、統(tǒng)統(tǒng)計函函數(shù)等等等P40圖圖2-10數(shù)據(jù)倉庫庫設(shè)計::一個商商務(wù)分析析框架(1)數(shù)據(jù)倉庫庫給商業(yè)業(yè)分析專專家提供供了什么么?通過提供供相關(guān)數(shù)數(shù)據(jù)與信信息,獲獲得競爭爭優(yōu)勢通過有效效的收集集精確的的描述組組織的數(shù)數(shù)據(jù),獲獲得生產(chǎn)產(chǎn)力的提提高通過提供供不同級級別(部部門、市市場、商商業(yè))的的客戶視視圖,協(xié)協(xié)助客戶戶關(guān)系管管理通過追蹤蹤長期趨趨勢、異異常等,,降低成成本有效構(gòu)建建數(shù)據(jù)倉倉庫的關(guān)關(guān)鍵:理理解和分分析商業(yè)業(yè)需求通過提供供一個商商業(yè)分析析框架,,綜合各各種不同同的數(shù)據(jù)據(jù)使用者者的視圖圖數(shù)據(jù)倉庫庫設(shè)計::一個商商務(wù)分析析框架(2)數(shù)據(jù)倉庫庫設(shè)計的的四種視視圖自頂向下下視圖允許我們們選擇數(shù)數(shù)據(jù)倉庫庫所需的的相關(guān)信信息數(shù)據(jù)源視視圖揭示被操操作數(shù)據(jù)據(jù)庫系統(tǒng)統(tǒng)所捕獲獲、存儲儲和管理理的信息息數(shù)據(jù)倉庫庫視圖由事實表表和維表表所組成成商務(wù)查詢詢視圖從最終用用戶的角角度透視視數(shù)據(jù)倉倉庫中的的數(shù)據(jù)數(shù)據(jù)倉庫庫設(shè)計::一個商商務(wù)分析析框架(3)數(shù)據(jù)倉庫庫的構(gòu)建建與使用用涉及多多種技能能商業(yè)技能能理解系統(tǒng)統(tǒng)如何存存儲和管管理數(shù)據(jù)據(jù)數(shù)據(jù)如何何提取數(shù)據(jù)如何何刷新技術(shù)方面面的技能能如何通過過使用各各種數(shù)據(jù)據(jù)或量化化的信息息,到處處可以提提供決策策支持的的模式、、趨勢、、判斷等等如何通過審審查歷史數(shù)數(shù)據(jù),分析析發(fā)展趨勢勢等計劃管理技技能如何通過與與不同的技技術(shù)、廠商商、用戶交交互,來及及時、有效效、經(jīng)濟的的提交結(jié)果果數(shù)據(jù)倉庫的的設(shè)計過程程(1)自頂向下法法、自底向向上法或者者兩者的混混合方法自頂向下法法:由總體體設(shè)計和規(guī)規(guī)劃開始在技術(shù)成熟熟、商業(yè)理理解透徹的的情況下使使用自底向上法法:以實驗驗和原型開開始常用在模型型和技術(shù)開開發(fā)的初期期,可以有有效的對使使用的技術(shù)術(shù)和模型進進行評估,,降低風險險混合方法::上述兩者者的結(jié)合從軟件過程程的觀點瀑布式方法法:在進行行下一步前前,每一步步都進行結(jié)結(jié)構(gòu)化和系系統(tǒng)的分析析螺旋式方法法:功能漸漸增的系統(tǒng)統(tǒng)的快速產(chǎn)產(chǎn)生,相繼繼版本之間間間隔很短短數(shù)據(jù)倉庫的的設(shè)計過程程(2)典型的數(shù)據(jù)據(jù)倉庫設(shè)計計過程選取待建模模的商務(wù)過程找到所構(gòu)建建的數(shù)據(jù)倉倉庫的主題題,比如::銷售、貨貨運、訂單單等等選取商務(wù)過過程的顆粒度數(shù)據(jù)起始于于多細的顆顆粒度,比比如:記錄錄每條詳細細訂單,或或是開始于于每日的匯匯總數(shù)據(jù)選取用于每每個事實表表記錄的維常用的維有有:時間、、貨物、客客戶、供應(yīng)應(yīng)商等選取將安放放在事實表表中的度量常用的數(shù)字字度量包括括:售價、、貨物數(shù)量量等三層數(shù)據(jù)倉倉庫架構(gòu)(1)數(shù)據(jù)倉庫提取清理轉(zhuǎn)換裝入刷新OLAP服服務(wù)器查詢報告分析數(shù)據(jù)挖掘監(jiān)控、整合元數(shù)據(jù)存儲數(shù)據(jù)源前端工具輸出數(shù)據(jù)集市操作數(shù)據(jù)庫其他外部信息源數(shù)據(jù)倉庫服服務(wù)器OLAP服服務(wù)器三層數(shù)據(jù)倉倉庫架構(gòu)(2)底層:數(shù)據(jù)據(jù)倉庫的數(shù)數(shù)據(jù)庫服務(wù)務(wù)器關(guān)注的問題題:如何從從這一層提提取數(shù)據(jù)來來構(gòu)建數(shù)據(jù)據(jù)倉庫(通通過Gateway(ODBC,JDBC,OLE/DB等)來來提取)中間層:OLAP服服務(wù)器關(guān)注的問題題:OLAP服務(wù)器器如何實施施(關(guān)系型型OLAP,多維OLAP等等)前端客戶工工具層關(guān)注的問題題:查詢工工具、報表表工具、分分析工具、、挖掘工具具等三種數(shù)據(jù)倉倉庫模型從體系結(jié)構(gòu)構(gòu)的角度去去看,數(shù)據(jù)據(jù)倉庫模型型可以有以以下三種::企業(yè)倉庫搜集關(guān)于跨跨越整個組組織的主題題的所有信信息數(shù)據(jù)集市企業(yè)范圍圍數(shù)據(jù)的的一個子子集,對對于特定定的客戶戶是有用用的。其其范圍限限于選定定的主題題,比如如一個商商場的數(shù)數(shù)據(jù)集市市獨立的數(shù)數(shù)據(jù)集市市VS.非非獨立的的數(shù)據(jù)集集市(數(shù)數(shù)據(jù)來自自于企業(yè)業(yè)數(shù)據(jù)倉倉庫)虛擬倉庫庫操作數(shù)據(jù)據(jù)庫上的的一系列列視圖只有一些些可能的的匯總視視圖被物物化數(shù)據(jù)倉庫庫開發(fā)::困難與與方法數(shù)據(jù)倉庫庫開發(fā)上上的困難難自頂向下下的開發(fā)發(fā)方法從從全系統(tǒng)統(tǒng)的角度度提供解解決方案案,使得得(模塊塊)集成成的問題題最??;;但是該該方法十十分昂貴貴,需要要對組織織進行長長期研究究和建模模分析。。自底向上上方法提提供了更更多的開開發(fā)靈活活性,價價格便宜宜;但往往往會遇遇到集成成問題((每個模模塊單獨獨運行都都沒有問問題,但但是一集集成就出出異常))解決方法法:使用遞增增性、演演化性的的開發(fā)方方法高層數(shù)據(jù)據(jù)模型企業(yè)倉庫庫和數(shù)據(jù)據(jù)集市并并行開發(fā)發(fā)通過分布布式模型型集成各各數(shù)據(jù)集集市多層數(shù)據(jù)據(jù)倉庫數(shù)據(jù)倉庫庫開發(fā)———一個個推薦的的方法定義高層層數(shù)據(jù)模模型數(shù)據(jù)集市市數(shù)據(jù)集市市分布式數(shù)數(shù)據(jù)集市市多層數(shù)據(jù)據(jù)倉庫企業(yè)數(shù)據(jù)據(jù)倉庫模型提煉煉模型提煉煉OLAP服務(wù)器器類型(1)邏輯上,,OLAP服務(wù)務(wù)器從數(shù)數(shù)據(jù)倉庫庫或數(shù)據(jù)據(jù)集市中中給商業(yè)業(yè)用戶提提供多維維數(shù)據(jù)物理上,,OLAP的底底層數(shù)據(jù)據(jù)存儲實實現(xiàn)可以以有多種種不同的的方式關(guān)系OLAP服服務(wù)器(ROLAP)使用關(guān)系系數(shù)據(jù)庫庫或擴展展的關(guān)系系數(shù)據(jù)庫庫存放并并管理數(shù)數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù),而用用OLAP中間間件支持持其余部部分包括每個個DBMS后端端優(yōu)化,,聚集導導航邏輯輯的實現(xiàn)現(xiàn),附加加的工具具和服務(wù)務(wù)較大的可可擴展性性O(shè)LAP服務(wù)器器類型(2)多維OLAP服服務(wù)器(MOLAP)基于數(shù)組組的多維維存儲引引擎(稀稀疏矩陣陣技術(shù)))能對預計計算的匯匯總數(shù)據(jù)據(jù)快速索索引混合OLAP服服務(wù)器(HOLAP)結(jié)合上述述兩種技技術(shù),更更大的使使用靈活活性特殊的SQL服服務(wù)器在星型和和雪花模模型上支支持SQL查詢詢數(shù)據(jù)倉庫庫的實現(xiàn)現(xiàn)———數(shù)據(jù)據(jù)立方體體的有效效計算數(shù)據(jù)倉庫庫中的OLAP查詢是是一種海海量數(shù)據(jù)據(jù)計算((想象象一下對對過去10年各各地區(qū)的的軟件產(chǎn)產(chǎn)品銷售售的匯總總查詢))用戶卻希希望這個個計算能能在數(shù)秒秒鐘內(nèi)完完成解決方法法在于給給出一種種有效的的計算數(shù)數(shù)據(jù)立方方體的方方法數(shù)據(jù)立方方體可以以被看成成是一個個方體的格格最底層的的方體是是基本方方體最頂端的的方體((頂點))只包含含一個單單元的值值一個n維維的數(shù)據(jù)據(jù)立方體體,每維維L層,,可能產(chǎn)產(chǎn)生的方方體總數(shù)數(shù)是多少少?(item)(city)()(year)(city,item)(city,year)(item,year)(city,item,year)方體的操操作DMQL中的方方體定義義和計算算definecubesales[item,city,year]:sum(sales_in_dollars)computecubesales上述的computecube子子句可以以轉(zhuǎn)化為為一個類類似于SQL的的語句SELECTitem,city,year,SUM(amount)FROMSALESCUBEBYitem,city,year這個相當當于SQL中以以下的groupby子句句(item,city,year)–3D(item,city),(itemyear),(city,year)—2D(item),(city),(year)—1D()--0D(item)(city)()(year)(city,item)(city,year)(item,year)(city,item,year)數(shù)據(jù)立方方體的物物化數(shù)據(jù)立方方體的物化可以有以以下三種種選擇::全物化預先計算算所有方方體不物化不預先計計算任何何“非基基本”方方體部分物化化有選擇的的計算一一個所有有方體的的適當子子集考慮因素素:(1)確定要物物化的方方體;(2)在在查詢時時利用物物化的方方體;(3)在在裝載和和刷新時時,有效效的更新新物化的的方體確定定物物化化哪哪些些方方體體考慮慮工工作作負負荷荷下下的的查查詢詢、、它它們們的的頻頻率率和和它它們們的的開開銷銷等等等等方體體計計算算::ROLAPvs.MOLAP方體體計計算算的的挑挑戰(zhàn)戰(zhàn)::海量量數(shù)數(shù)據(jù)據(jù),,有有限限的的內(nèi)內(nèi)存存和和時時間間基于于ROLAP的的方方法法((底底層層使使用用關(guān)關(guān)系系模模型型存存儲儲數(shù)數(shù)據(jù)據(jù)))將排排序序、、散散列列(hashing)和和分分組組操操作作應(yīng)應(yīng)用用于于維維的的屬屬性性,,以以便便對對相相關(guān)關(guān)元元組組重重新新排排序序和和聚聚類類在某某些些子子聚聚集集上上分分組組,,作作為為““部部分分分分組組步步驟驟””。??梢砸杂捎梢砸郧扒坝嬘嬎闼愕牡木劬奂嬘嬎闼阈滦碌牡木劬奂?,,而而不不必必有有基基本本事事實實表表計計算算基于于MOLAP方方法法((底底層層使使用用多多維維數(shù)數(shù)組組存存儲儲數(shù)數(shù)據(jù)據(jù)))多路路數(shù)數(shù)組組聚聚集集的的計計算算方方法法將數(shù)數(shù)組組切切成成塊塊((每每個個塊塊都都可可以以整整個個裝裝入入內(nèi)內(nèi)存存))通過過訪訪問問各各個個塊塊來來計計算算匯匯總總值值方體體計計算算的的多多路路數(shù)數(shù)組組聚聚集集方方法法(1)將數(shù)數(shù)組組分分成成塊塊((chunk,一一個個可可以以裝裝入入內(nèi)內(nèi)存存的的小小子子方方))通過過訪訪問問立立方方體體單單元元,,計計算算聚聚集集。。可可以以優(yōu)優(yōu)化化訪訪問問單單元元組組的的次次序序,,使使得得每每個個單單元元被被訪訪問問的的次次數(shù)數(shù)最最小小化化,,從從而而減減少少內(nèi)內(nèi)存存訪訪問問和和磁磁盤盤I/O的的開開銷銷。。A(month)40個個值值B29303132123459131415166463626148474645a1a0c3c2c1c0b3b2b1b0a2a3C(item)4000個個值值B(city)400個個值值442856402452362060哪個是是多路路數(shù)組組聚集集的最最佳遍遍歷次次序??方體計計算的的多路路數(shù)組組聚集集方法法(2)A(month)40B29303132123459131415166463626148474645a1a0c3c2c1c0b3b2b1b0a2a3C(item)4000442856402452362060B(city)400方體計計算的的多路路數(shù)組組聚集集方法法(3)AB29303132123459131415166463626148474645a1a0c3c2c1c0b3b2b1b0a2a3C442856402452362060B方體計算算的多路路數(shù)組聚聚集方法法(4)方法:各各平面要要按他們們大小的的升序排排列進行行排序和和計算詳見書P50例例2.12(P52圖圖2-16有有誤)思想:將將最小的的平面放放在內(nèi)存存中,對對最大的的平面每每次只是是取并計計算一塊塊方體計算算的多路路數(shù)組聚聚集方法法(5)根據(jù)1到到64的的掃描次次序,在在塊內(nèi)存存中保存存所有相相關(guān)的2-D平平面所需需的最小小存儲為為:40×400((用于整整個AB平面))+40×1000((用于AC平面面一行))+100×1000(用于于BC平平面一塊塊)=156,,000這種方法法的限制制:只有有在維數(shù)數(shù)比較小小的情況況下,效效果才比比較理想想(要計計算的立立方體隨隨維數(shù)指指數(shù)增長長)如果維的的數(shù)目比比較多,,可以考考慮使用用“自底底向上的的計算””或者時時“冰山山方體””計算算OLAP查詢的的有效處處理確定哪些些操作應(yīng)應(yīng)當在可可利用的的方體上上執(zhí)行::將查詢中中的選擇擇、投影影、上卷卷和下鉆鉆等操作作轉(zhuǎn)化為為對應(yīng)的的SQL或/和和OLAP操作作,如::dice=selection+projection確定相關(guān)關(guān)操作應(yīng)應(yīng)當使用用哪些物物化的方方體找尋MOLAP中可以以利用的的索引結(jié)結(jié)構(gòu)以及及壓縮的的或是稠稠密的數(shù)數(shù)組結(jié)構(gòu)構(gòu)有效處理理OLAP查詢詢(示例例)立方體的的定義為為:sales[time,item,location]:sum(sales_in_dollar)time的維層層次day<week<month<quater<yearlocation的維維層次street<city<province_or_state<countryitem的維層層次item_name<brand<type現(xiàn)在要處處理一個個year=2000,定位位在brand和province_or_state級別的的查詢,,現(xiàn)有四四個可用用的已經(jīng)經(jīng)物化的的方體::{item_name,city,year}{brand,country,year}{brand,province_or_state,year}{
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 優(yōu)化教育資源分配提升學校教學水平
- 2025年北海貨物運輸駕駛員從業(yè)資格考試系統(tǒng)
- 2025年黔南客貨運從業(yè)資格證考試教材
- 2025年馬鞍山貨運資格證模擬考試題
- 2025年浙江從業(yè)資格證模擬考試題貨運考題
- 中西醫(yī)結(jié)合的孕期疾病治療方法探討
- 企業(yè)機械設(shè)備安全管理與維護培訓
- 利用社交媒體提升家庭教育效果
- 以創(chuàng)意引領(lǐng)的現(xiàn)代科技產(chǎn)品包裝設(shè)計
- 2025年河源貨運上崗證模擬考試試題
- 2022-2023學年上海市浦東區(qū)高二(上)期末語文試卷
- 工程建設(shè)安全專項整治三年行動實施方案
- 2025年中國帽子行業(yè)發(fā)展現(xiàn)狀、進出口貿(mào)易及市場規(guī)模預測報告
- 工地高處墜落防范與措施方案
- 2025春夏運動戶外行業(yè)趨勢白皮書
- 2024年商會工作計劃|商會年度工作計劃總結(jié)例文
- 中醫(yī)筋傷的治療
- 國土空間生態(tài)修復規(guī)劃
- 第一單元第一節(jié)《兼收并蓄滴水成河-數(shù)據(jù)和數(shù)據(jù)的采集》說課稿 2023-2024學年西交大版(2014)初中信息技術(shù)八年級上冊
- 2024年P(guān)E工程師培訓教材:深入淺出講解
- 期末模擬考試卷01-2024-2025學年上學期高一思想政治課《中國特色社會主義》含答案
評論
0/150
提交評論