版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘綜述概念、體系結(jié)構(gòu)、趨勢、應(yīng)用報告人:朱建秋2001年6月7日數(shù)據(jù)倉庫與數(shù)據(jù)挖掘綜述概念、體系結(jié)構(gòu)、趨勢、應(yīng)用報告人:朱建提綱數(shù)據(jù)倉庫概念數(shù)據(jù)倉庫體系結(jié)構(gòu)及組件數(shù)據(jù)倉庫設(shè)計數(shù)據(jù)倉庫技術(shù)(與數(shù)據(jù)庫技術(shù)的區(qū)別)數(shù)據(jù)倉庫性能數(shù)據(jù)倉庫應(yīng)用數(shù)據(jù)挖掘應(yīng)用概述數(shù)據(jù)挖掘技術(shù)與趨勢數(shù)據(jù)挖掘應(yīng)用平臺(科委申請項(xiàng)目)提綱數(shù)據(jù)倉庫概念數(shù)據(jù)倉庫概念基本概念對數(shù)據(jù)倉庫的一些誤解數(shù)據(jù)倉庫概念基本概念基本概念—數(shù)據(jù)倉庫Datawarehouseisasubjectoriented,integrated,non-volatileandtimevariantcollectionofdatainsupportofmanagement’sdecision——[Inmon,1996].Datawarehouseisasetofmethods,techniques,andtoolsthatmaybeleveragedtogethertoproduceavehiclethatdeliversdatatoend-usersonanintegratedplatform——[Ladley,1997].Datawarehouseisaprocessofcrating,maintaining,andusingadecision-supportinfrastructure——[Appleton,1995][Haley,1997][Gardner1998].基本概念—數(shù)據(jù)倉庫Datawarehouseisas基本概念—數(shù)據(jù)倉庫特征 [Inmon,1996]面向主題一個主題領(lǐng)域的表來源于多個操作型應(yīng)用(如:客戶主題,來源于:定單處理;應(yīng)收帳目;應(yīng)付帳目;…)典型的主題領(lǐng)域:客戶;產(chǎn)品;交易;帳目主題領(lǐng)域以一組相關(guān)的表來具體實(shí)現(xiàn)相關(guān)的表通過公共的鍵碼聯(lián)系起來(如:顧客標(biāo)識號CustomerID)每個鍵碼都有時間元素(從日期到日期;每月累積;單獨(dú)日期…)主題內(nèi)數(shù)據(jù)可以存儲在不同介質(zhì)上(綜合級,細(xì)節(jié)級,多粒度)集成數(shù)據(jù)提取、凈化、轉(zhuǎn)換、裝載穩(wěn)定性批處理增加,倉庫已經(jīng)存在的數(shù)據(jù)不會改變隨時間而變化(時間維)管理決策支持基本概念—數(shù)據(jù)倉庫特征 [Inmon,1996]面向主題基本概念—DataMart,ODSDataMart數(shù)據(jù)集市--
小型的,面向部門或工作組級數(shù)據(jù)倉庫。OperationDataStore操作數(shù)據(jù)存儲—ODS是能支持企業(yè)日常的全局應(yīng)用的數(shù)據(jù)集合,是不同于DB的一種新的數(shù)據(jù)環(huán)境,是DW擴(kuò)展后得到的一個混合形式。四個基本特點(diǎn):面向主題的(Subject-Oriented)、集成的、可變的、當(dāng)前或接近當(dāng)前的?;靖拍睢狣ataMart,ODSDataMart基本概念—ETL,元數(shù)據(jù),粒度,分割ETLETL(Extract/Transformation/Load)—數(shù)據(jù)裝載、轉(zhuǎn)換、抽取工具。MicrosoftDTS;IBMVisualWarehouseetc.元數(shù)據(jù)關(guān)于數(shù)據(jù)的數(shù)據(jù),用于構(gòu)造、維持、管理、和使用數(shù)據(jù)倉庫,在數(shù)據(jù)倉庫中尤為重要。粒度數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)的細(xì)化或綜合程度的級別。細(xì)化程度越高,粒度越小。分割數(shù)據(jù)分散到各自的物理單元中去,它們能獨(dú)立地處理?;靖拍睢狤TL,元數(shù)據(jù),粒度,分割ETL對數(shù)據(jù)倉庫的一些誤解數(shù)據(jù)倉庫與OLAP星型數(shù)據(jù)模型多維分析數(shù)據(jù)倉庫不是一個虛擬的概念數(shù)據(jù)倉庫與范式理論需要非范式化處理對數(shù)據(jù)倉庫的一些誤解數(shù)據(jù)倉庫與OLAP提綱數(shù)據(jù)倉庫概念數(shù)據(jù)倉庫體系結(jié)構(gòu)及組件數(shù)據(jù)倉庫設(shè)計數(shù)據(jù)倉庫技術(shù)(與數(shù)據(jù)庫技術(shù)的區(qū)別)數(shù)據(jù)倉庫性能數(shù)據(jù)倉庫應(yīng)用數(shù)據(jù)挖掘應(yīng)用概述數(shù)據(jù)挖掘技術(shù)與趨勢數(shù)據(jù)挖掘應(yīng)用平臺(科委申請項(xiàng)目)提綱數(shù)據(jù)倉庫概念數(shù)據(jù)倉庫體系結(jié)構(gòu)及組件體系結(jié)構(gòu)ETL工具元數(shù)據(jù)庫(Repository)及元數(shù)據(jù)管理數(shù)據(jù)訪問和分析工具數(shù)據(jù)倉庫體系結(jié)構(gòu)及組件體系結(jié)構(gòu)體系結(jié)構(gòu)
[Pieter,1998]SourceDatabasesDataExtraction,Transformation,loadWarehouseAdmin.ToolsExtract,TransformandLoadDataModelingToolCentralMetadataArchitectedDataMartsDataAccessandAnalysisEnd-UserDWToolsCentralDataWarehouseCentralDataWarehouseMid-TierMid-TierDataMartDataMartLocalMetadataLocalMetadataLocalMetadataMetadataExchangeMDBDataCleansingToolRelationalAppl.PackageLegacyExternalRDBMSRDBMS體系結(jié)構(gòu)[Pieter,1998]SourceData帶ODS的體系結(jié)構(gòu)SourceDatabasesHub-DataExtraction,Transformation,loadWarehouseAdmin.ToolsExtract,TransformandLoadDataModelingToolCentralMetadataArchitectedDataMartsDataAccessandAnalysisCentralDataWare-houseandODSCentralDataWarehouseMid-TierRDBMSDataMartMid-TierRDBMSDataMartLocalMetadataLocalMetadataLocalMetadataMetadataExchangeODSOLTPToolsDataCleansingToolRelationalAppl.PackageLegacyExternalMDBEnd-UserDWTools帶ODS的體系結(jié)構(gòu)SourceHub-DataExtr現(xiàn)實(shí)環(huán)境—異質(zhì)性[DouglasHackney,2001]CustomMarketingDataWarehousePackagedOracleFinancialDataWarehousePackagedI2SupplyChainNon-ArchitectedDataMartSubsetDataMartsOracleFinancialsi2SupplyChainSiebelCRM3rdPartye-Commerce現(xiàn)實(shí)環(huán)境—異質(zhì)性[DouglasHackney,2001聯(lián)合型數(shù)據(jù)倉庫/數(shù)據(jù)集市體系結(jié)構(gòu)RealTimeODSFederatedFinancialDataWarehouseSubsetDataMartsCommonStagingAreaOracleFinancialsi2SupplyChainSiebelCRM3rdPartyFederatedPackagedI2SupplyChainDataMartsAnalyticalApplicationse-CommerceRealTimeDataMiningandAnalyticsRealTimeSegmentation,Classification,Qualification,Offerings,etc.FederatedMarketingDataWarehouse聯(lián)合型數(shù)據(jù)倉庫/數(shù)據(jù)集市體系結(jié)構(gòu)RealTimeFederETLtools&DWtemplatesDataprofiling&reengineeringtoolsDemand-drivendataacquisition&analysisMetadataInterchangeFederateddatawarehouseanddatamartsystemsDecisionenginemodels,rulesandmetricsOLAP&dataminingtools,AnalysistemplatesAnalyticapplicationdevelopmenttools&componentsAnalyticapplicationsFront-andback-officeOLTPe-BusinesssystemsExternalinformationprovidersCRMAnalytics&ReportingSupplyChainAnalytics&ReportingEKP-EnterpriseKnowledgeManagementPortalEPMAnalytics&ReportingBusinessinformation&recommendationsInformeddecisions&actionsFinancialAnalytics&ReportingHRAnalytics&Reporting閉環(huán)的聯(lián)合型BI體系結(jié)構(gòu)ETLtools&DWtemplatesDatap數(shù)據(jù)倉庫的焦點(diǎn)問題-數(shù)據(jù)的獲得、存儲和使用
RelationalPackageLegacyExternalsourceDataCleanToolDataStagingEnterpriseDataWarehouseDatamartDatamartRDBMSROLAPRDBMSEnd-UserToolEnd-UserToolMDBEnd-UserToolEnd-UserTool數(shù)據(jù)倉庫和集市的加載能力至關(guān)重要數(shù)據(jù)倉庫和集市的查詢輸出能力至關(guān)重要數(shù)據(jù)倉庫的焦點(diǎn)問題-數(shù)據(jù)的獲得、存儲和使用
RelationETL工具去掉操作型數(shù)據(jù)庫中的不需要的數(shù)據(jù)統(tǒng)一轉(zhuǎn)換數(shù)據(jù)的名稱和定義計算匯總數(shù)據(jù)和派生數(shù)據(jù)估計遺失數(shù)據(jù)的缺省值調(diào)節(jié)源數(shù)據(jù)的定義變化
ETL工具去掉操作型數(shù)據(jù)庫中的不需要的數(shù)據(jù)ETL工具體系結(jié)構(gòu)ETL工具體系結(jié)構(gòu)元數(shù)據(jù)庫及元數(shù)據(jù)管理元數(shù)據(jù)分類:技術(shù)元數(shù)據(jù);商業(yè)元數(shù)據(jù);數(shù)據(jù)倉庫操作型信息。-[AlexBersonetc,1999]技術(shù)元數(shù)據(jù)包括為數(shù)據(jù)倉庫設(shè)計人員和管理員使用的數(shù)據(jù)倉庫數(shù)據(jù)信息,用于執(zhí)行數(shù)據(jù)倉庫開發(fā)和管理任務(wù)。包括:數(shù)據(jù)源信息轉(zhuǎn)換描述(從操作數(shù)據(jù)庫到數(shù)據(jù)倉庫的映射方法,以及轉(zhuǎn)換數(shù)據(jù)的算法)目標(biāo)數(shù)據(jù)的倉庫對象和數(shù)據(jù)結(jié)構(gòu)定義數(shù)據(jù)清洗和數(shù)據(jù)增加的規(guī)則數(shù)據(jù)映射操作訪問權(quán)限,備份歷史,存檔歷史,信息傳輸歷史,數(shù)據(jù)獲取歷史,數(shù)據(jù)訪問,等等元數(shù)據(jù)庫及元數(shù)據(jù)管理元數(shù)據(jù)分類:技術(shù)元數(shù)據(jù);商業(yè)元數(shù)據(jù);數(shù)據(jù)元數(shù)據(jù)庫及元數(shù)據(jù)管理
商業(yè)元數(shù)據(jù)給用戶易于理解的信息,包括:主題區(qū)和信息對象類型,包括查詢、報表、圖像、音頻、視頻等Internet主頁支持?jǐn)?shù)據(jù)倉庫的其它信息,例如對于信息傳輸系統(tǒng)包括預(yù)約信息、調(diào)度信息、傳送目標(biāo)的詳細(xì)描述、商業(yè)查詢對象,等數(shù)據(jù)倉庫操作型信息例如,數(shù)據(jù)歷史(快照,版本),擁有權(quán),抽取的審計軌跡,數(shù)據(jù)用法
元數(shù)據(jù)庫及元數(shù)據(jù)管理
商業(yè)元數(shù)據(jù)元數(shù)據(jù)庫及元數(shù)據(jù)管理元數(shù)據(jù)庫(metadatarepository)和工具—[MartinStardt,2000]元數(shù)據(jù)庫及元數(shù)據(jù)管理元數(shù)據(jù)庫(metadatareposi數(shù)據(jù)訪問和分析工具報表OLAP數(shù)據(jù)挖掘數(shù)據(jù)訪問和分析工具報表提綱數(shù)據(jù)倉庫概念數(shù)據(jù)倉庫體系結(jié)構(gòu)及組件數(shù)據(jù)倉庫設(shè)計數(shù)據(jù)倉庫技術(shù)(與數(shù)據(jù)庫技術(shù)的區(qū)別)數(shù)據(jù)倉庫性能數(shù)據(jù)倉庫應(yīng)用數(shù)據(jù)挖掘應(yīng)用概述數(shù)據(jù)挖掘技術(shù)與趨勢數(shù)據(jù)挖掘應(yīng)用平臺(科委申請項(xiàng)目)提綱數(shù)據(jù)倉庫概念數(shù)據(jù)倉庫設(shè)計自上而下(Top-Down)自底而上(BottomUp)混合的方法數(shù)據(jù)倉庫建模數(shù)據(jù)倉庫設(shè)計自上而下(Top-Down)Top-downApproachBuildEnterprisedatawarehouseCommoncentraldatamodelDatare-engineeringperformedonceMinimizeredundancyandinconsistencyDetailedandhistorydata;globaldatadiscoveryBuilddatamartsfromtheEnterpriseDataWarehouse(EDW)SubsetofEDWrelevanttodepartmentMostlysummarizeddataDirectdependencyonEDWdataavailabilityLocalDataMartExternalDataLocalDataMartOperationalDataEnterpriseWarehouseTop-downApproachBuildEnterpr自底而上設(shè)計方法創(chuàng)建部門的數(shù)據(jù)集市范圍局限于一個主題區(qū)域快速的ROI--局部的商業(yè)需求得到滿足本部門自治--設(shè)計上具有靈活性對其他部門數(shù)據(jù)集市是一個好的指導(dǎo)容易復(fù)制到其他部門需要為每個部門做數(shù)據(jù)重建有一定級別的冗余和不一致性一個切實(shí)可行的方法擴(kuò)大到企業(yè)數(shù)據(jù)倉庫創(chuàng)建EDB作為一個長期的目標(biāo)局部數(shù)據(jù)集市外部數(shù)據(jù)操作型數(shù)據(jù)(全部)操作型數(shù)據(jù)(局部)操作型數(shù)據(jù)(局部)局部數(shù)據(jù)集市企業(yè)數(shù)據(jù)倉庫EDB自底而上設(shè)計方法創(chuàng)建部門的數(shù)據(jù)集市局部數(shù)據(jù)集市外部數(shù)據(jù)操作型數(shù)據(jù)倉庫建?!切湍J紼xampleofStarSchemaDateMonthYearDateCustIdCustNameCustCityCustCountryCustSalesFactTable
Date
Product
Store
Customer
unit_sales
dollar_sales
Yen_salesMeasurementsProductNoProdNameProdDescCategoryQOHProductStoreIDCityStateCountryRegionStore數(shù)據(jù)倉庫建?!切湍J紼xampleofStarS數(shù)據(jù)倉庫建?!┢J?/p>
DateMonthDateCustIdCustNameCustCityCustCountryCustSalesFactTable
Date
Product
Store
Customer
unit_sales
dollar_sales
Yen_salesMeasurementsProductNoProdNameProdDescCategoryQOHProductMonthYearMonthYearYearCityStateCityCountryRegionCountryStateCountryStateStoreIDCityStoreExampleofSnowflakeSchema數(shù)據(jù)倉庫建?!┢J紻ateDateCustId操作型(OLTP)數(shù)據(jù)源銷售庫操作型(OLTP)數(shù)據(jù)源銷售庫星形模式時間維事實(shí)表星形模式時間維事實(shí)表多維模型事實(shí)度量(Metrics)時間維時間維的屬性多維模型事實(shí)度量時間維時間維的屬性提綱數(shù)據(jù)倉庫概念數(shù)據(jù)倉庫體系結(jié)構(gòu)及組件數(shù)據(jù)倉庫設(shè)計數(shù)據(jù)倉庫技術(shù)(與數(shù)據(jù)庫技術(shù)的區(qū)別)數(shù)據(jù)倉庫性能數(shù)據(jù)倉庫應(yīng)用數(shù)據(jù)挖掘應(yīng)用概述數(shù)據(jù)挖掘技術(shù)與趨勢數(shù)據(jù)挖掘應(yīng)用平臺(科委申請項(xiàng)目)提綱數(shù)據(jù)倉庫概念數(shù)據(jù)倉庫技術(shù)—[Inmon,1996]管理大量數(shù)據(jù)能夠管理大量數(shù)據(jù)的能力能夠管理好的能力管理多介質(zhì)(層次)主存、擴(kuò)展內(nèi)存、高速緩存、DASD、光盤、縮微膠片監(jiān)視數(shù)據(jù)決定是否應(yīng)數(shù)據(jù)重組決定索引是否建立得不恰當(dāng)決定是否有太多數(shù)據(jù)溢出決定剩余的可用空間利用多種技術(shù)獲得和傳送數(shù)據(jù)批模式,聯(lián)機(jī)模式并不非常有用程序員/設(shè)計者對數(shù)據(jù)存放位置的控制(塊/頁)數(shù)據(jù)的并行存儲/管理元數(shù)據(jù)管理數(shù)據(jù)倉庫技術(shù)—[Inmon,1996]管理大量數(shù)據(jù)數(shù)據(jù)倉庫技術(shù)—[Inmon,1996]數(shù)據(jù)倉庫語言接口能夠一次訪問一組數(shù)據(jù)能夠一次訪問一條記錄支持一個或多個索引有SQL接口數(shù)據(jù)的高效裝入高效索引的利用用位映像的方法、多級索引等數(shù)據(jù)壓縮I/O資源比CPU資源少得多,因此數(shù)據(jù)解壓縮不是主要問題復(fù)合鍵碼(因?yàn)閿?shù)據(jù)隨時間變化)變長數(shù)據(jù)加鎖管理(程序員能顯式控制鎖管理程序)單獨(dú)索引處理(查看索引就能提供某些服務(wù))快速恢復(fù)數(shù)據(jù)倉庫技術(shù)—[Inmon,1996]數(shù)據(jù)倉庫語言接口數(shù)據(jù)倉庫技術(shù)—[Inmon,1996]其他技術(shù)特征,傳統(tǒng)技術(shù)起很小作用事務(wù)集成性、高速緩存、行/頁級鎖定、參照完整性、數(shù)據(jù)視圖傳統(tǒng)DBMS與數(shù)據(jù)倉庫DBMS區(qū)別為數(shù)據(jù)倉庫和決策支持優(yōu)化設(shè)計管理更多數(shù)據(jù):10GB/100GB/TB傳統(tǒng)DBMS適合記錄級更新,提供:鎖定Lock、提交Commit、檢測點(diǎn)CheckPoint、日志處理Log、死鎖處理DeadLock、回退Roolback.基本數(shù)據(jù)管理,如:塊管理,傳統(tǒng)DBMS需要預(yù)留空間索引區(qū)別:傳統(tǒng)DBMS限制索引數(shù)量,數(shù)據(jù)倉庫DBMS沒有限制通用DBMS物理上優(yōu)化便于事務(wù)訪問處理,而數(shù)據(jù)倉庫便于DSS訪問分析改變DBMS技術(shù)多維DBMS和數(shù)據(jù)倉庫多維DBMS作為數(shù)據(jù)倉庫的數(shù)據(jù)庫技術(shù),這種想法是不正確的多維DBMS(OLAP)是一種技術(shù),數(shù)據(jù)倉庫是一種體系結(jié)構(gòu)的基礎(chǔ)雙重粒度級別(DASD/磁帶)數(shù)據(jù)倉庫技術(shù)—[Inmon,1996]其他技術(shù)特征,傳數(shù)據(jù)倉庫技術(shù)—[Inmon,1996]數(shù)據(jù)倉庫環(huán)境中的元數(shù)據(jù)DSS分析人員和IT專業(yè)人員不同,需要元數(shù)據(jù)的幫助操作型環(huán)境和數(shù)據(jù)倉庫環(huán)境之間的映射需要元數(shù)據(jù)數(shù)據(jù)倉庫包含很長時間的數(shù)據(jù),必須有元數(shù)據(jù)標(biāo)記數(shù)據(jù)結(jié)構(gòu)/定義上下文和內(nèi)容(上下文維)簡單上下文信息(數(shù)據(jù)結(jié)構(gòu)/編碼/命名約定/度量)復(fù)雜上下文信息(產(chǎn)品定義/市場領(lǐng)域/定價/包裝/組織結(jié)構(gòu))外部上下文信息(經(jīng)濟(jì)預(yù)測:通貨膨脹、金融、稅收/政治信息/競爭信息/技術(shù)進(jìn)展)刷新數(shù)據(jù)倉庫數(shù)據(jù)復(fù)制(觸發(fā)器)變化數(shù)據(jù)捕獲(CDC)(日志)數(shù)據(jù)倉庫技術(shù)—[Inmon,1996]數(shù)據(jù)倉庫環(huán)境中的提綱數(shù)據(jù)倉庫概念數(shù)據(jù)倉庫體系結(jié)構(gòu)及組件數(shù)據(jù)倉庫設(shè)計數(shù)據(jù)倉庫技術(shù)(與數(shù)據(jù)庫技術(shù)的區(qū)別)數(shù)據(jù)倉庫性能數(shù)據(jù)倉庫應(yīng)用數(shù)據(jù)挖掘應(yīng)用概述數(shù)據(jù)挖掘技術(shù)與趨勢數(shù)據(jù)挖掘應(yīng)用平臺(科委申請項(xiàng)目)提綱數(shù)據(jù)倉庫概念數(shù)據(jù)倉庫性能—[Inmon,1999]使用數(shù)據(jù)平臺服務(wù)管理王天佑等譯,《數(shù)據(jù)倉庫管理》,電子工業(yè)出版社,2000年5月數(shù)據(jù)倉庫性能—[Inmon,1999]使用王天佑等譯提綱數(shù)據(jù)倉庫概念數(shù)據(jù)倉庫體系結(jié)構(gòu)及組件數(shù)據(jù)倉庫設(shè)計數(shù)據(jù)倉庫技術(shù)(與數(shù)據(jù)庫技術(shù)的區(qū)別)數(shù)據(jù)倉庫性能數(shù)據(jù)倉庫應(yīng)用數(shù)據(jù)挖掘應(yīng)用概述數(shù)據(jù)挖掘技術(shù)與趨勢數(shù)據(jù)挖掘應(yīng)用平臺(科委申請項(xiàng)目)提綱數(shù)據(jù)倉庫概念數(shù)據(jù)倉庫應(yīng)用—DW用戶數(shù)的調(diào)查“DW系統(tǒng)的用戶在100-500以內(nèi)或以上是未來一段時期內(nèi)的主要部分“DW用戶的調(diào)查最近一年MetaGroupSurvey調(diào)查對象:3000+用戶或意向用戶數(shù)據(jù)倉庫應(yīng)用—DW用戶數(shù)的調(diào)查“DW系統(tǒng)的用戶DW用戶的DW數(shù)據(jù)規(guī)模的調(diào)查DW規(guī)模的調(diào)查最近一年MetaGroupSurvey調(diào)查對象:3000+用戶或意向用戶DW數(shù)據(jù)規(guī)模的調(diào)查DW規(guī)模的調(diào)查HowMuch?$3-6mformid-sizecompany,lessifsmaller,moreiflarger$10m+forlargeorganizations,largedatasets10-50+%annualmaintenancecosts33%Hardware/33%Software/33%ServicesHowMuch?$3-6mformid-sizecoHowLong?2-4yearsfor80/20offullsystemformid-sizecompany6-12monthsforinitialiteration3-6monthsforsubsequentiterationsHowLong?2-4yearsfor80/20oHowRisky?ForEDWProjects,20%(Meta)to70%(OTR,DWN)failHighfailureratefornon-businessdriveninitiativesVeryfewsystemsmeettheexpectationsofthebusinessFailurenotduetotechnology,dueto“soft”issuesMassiveupsidetosuccessfulprojects(100%-2000+%ROI)99%politics-1%technologyHowRisky?ForEDWProjects,20參考文獻(xiàn)參考文獻(xiàn)提綱數(shù)據(jù)倉庫概念數(shù)據(jù)倉庫體系結(jié)構(gòu)及組件數(shù)據(jù)倉庫設(shè)計數(shù)據(jù)倉庫技術(shù)(與數(shù)據(jù)庫技術(shù)的區(qū)別)數(shù)據(jù)倉庫性能數(shù)據(jù)倉庫應(yīng)用數(shù)據(jù)挖掘應(yīng)用概述數(shù)據(jù)挖掘技術(shù)與趨勢數(shù)據(jù)挖掘應(yīng)用平臺(科委申請項(xiàng)目)提綱數(shù)據(jù)倉庫概念數(shù)據(jù)挖掘應(yīng)用綜述數(shù)據(jù)挖掘應(yīng)用概述數(shù)據(jù)挖掘技術(shù)與趨勢數(shù)據(jù)挖掘應(yīng)用平臺數(shù)據(jù)挖掘應(yīng)用綜述數(shù)據(jù)挖掘應(yīng)用概述數(shù)據(jù)挖掘應(yīng)用概述應(yīng)用比例DataMiningUpsidesDataMiningDownsidesDataMiningUseDataMiningIndustryandApplicationDataMiningCosts數(shù)據(jù)挖掘應(yīng)用概述應(yīng)用比例應(yīng)用比例應(yīng)用比例Discoveryofpreviouslyunknownrelationships,trends,anomalies,etc.PowerfulcompetitiveweaponAutomationofrepetitiveanalysisPredictivecapabilitiesDataMiningUpsidesDiscoveryofpreviouslyunknowKnowledgediscoverytechnologyimmatureLonglearningandtuningcyclesforsometechnologies“Blackbox”technologyminimizesconfidenceVLDB(VeryLargeDataBase)requirementsDataMiningDownsidesKnowledgediscoverytechnologyDataMiningUsesDiscoveranomalies,outliersandexceptionsinprocessdataDiscoverbehaviorandpredictoutcomesofcustomerrelationshipsChurnmanagementTargetmarketing(marketofone)PromotionmanagementFrauddetectionPatternID&matching(darkprograms,science)DataMiningUsesDiscoveranomaDataMiningIndustryandApplicationsFromresearchprototypestodataminingproducts,languages,andstandardsIBMIntelligentMiner,SASEnterpriseMiner,SGIMineSet,Clementine,MS/SQLServer2000,DBMiner,BlueMartini,MineIt,DigiMine,etc.Afewdatamininglanguagesandstandards(esp.MSOLEDBforDataMining).ApplicationachievementsinmanydomainsMarketanalysis,trendanalysis,frauddetection,outlieranalysis,Webmining,etc.DataMiningIndustryandAppliDataMiningCostsDesktoptools:$500andup(MSFTcomingatlowpricepoint)Server/MFbased:$20,000to$700,000+MustalsoaddcostofextensiveconsultingforhighendtoolsDon’tforgetlongtrainingandlearningcurvetimeOngoingprocess,nottaskautomationsoftwareDataMiningCostsDesktoptools提綱數(shù)據(jù)倉庫概念數(shù)據(jù)倉庫體系結(jié)構(gòu)及組件數(shù)據(jù)倉庫設(shè)計數(shù)據(jù)倉庫技術(shù)(與數(shù)據(jù)庫技術(shù)的區(qū)別)數(shù)據(jù)倉庫性能數(shù)據(jù)倉庫應(yīng)用數(shù)據(jù)挖掘應(yīng)用概述數(shù)據(jù)挖掘技術(shù)與趨勢數(shù)據(jù)挖掘應(yīng)用平臺(科委申請項(xiàng)目)提綱數(shù)據(jù)倉庫概念數(shù)據(jù)挖掘趨勢歷史回顧多學(xué)科交叉數(shù)據(jù)挖掘從多個角度分類最近十年的研究進(jìn)展數(shù)據(jù)挖掘的趨勢數(shù)據(jù)挖掘與標(biāo)準(zhǔn)化進(jìn)程數(shù)據(jù)挖掘趨勢歷史回顧歷史回顧1989IJCAIWorkshoponKnowledgeDiscoveryinDatabasesKnowledgeDiscoveryinDatabases(G.Piatetsky-ShapiroandW.Frawley,1991)1991-1994WorkshopsonKnowledgeDiscoveryinDatabasesAdvancesinKnowledgeDiscoveryandDataMining(U.Fayyad,G.Piatetsky-Shapiro,P.Smyth,andR.Uthurusamy,1996)1995-1998InternationalConferencesonKnowledgeDiscoveryinDatabasesandDataMining(KDD’95-98)JournalofDataMiningandKnowledgeDiscovery(1997)1998ACMSIGKDD,SIGKDD’1999-2001conferences,andSIGKDDExplorationsMoreconferencesondataminingPAKDD,PKDD,SIAM-DataMining,(IEEE)ICDM,DaWaK,SPIE-DM,etc.歷史回顧1989IJCAIWorkshoponKnoDataMining:ConfluenceofMultipleDisciplines
DataMiningDatabaseTechnologyStatisticsOtherDisciplinesInformationScienceMachineLearning(AI)VisualizationDataMining:ConfluenceofMulAMulti-DimensionalViewofDataMiningAMulti-DimensionalViewofDaResearchProgressintheLastDecadeMulti-dimensionaldataanalysis:DatawarehouseandOLAP(on-lineanalyticalprocessing)Association,correlation,andcausalityanalysisClassification:scalabilityandnewapproachesClusteringandoutlieranalysisSequentialpatternsandtime-seriesanalysisSimilarityanalysis:curves,trends,images,texts,etc.Textmining,WebminingandWebloganalysisSpatial,multimedia,scientificdataanalysisDatapreprocessinganddatabasecompressionDatavisualizationandvisualdataminingManyothers,e.g.,collaborativefilteringResearchProgressintheLastResearchDirections—[HanJ.W.,2001]WebminingTowardsintegrateddataminingenvironmentsandtools“Vertical”(orapplication-specific)dataminingInvisibledataminingTowardsintelligent,efficient,andscalabledataminingmethodsResearchDirections—[HanJ.TowardsIntegratedDataMiningEnvironmentsandToolsOLAPMining:IntegrationofDataWarehousingandDataMiningQueryingandMining:AnIntegratedInformationAnalysisEnvironmentBasicMiningOperationsandMiningQueryOptimization“Vertical”(orapplication-specific)dataminingInvisibledataminingTowardsIntegratedDataMiningQueryingandMining:AnIntegratedInformationAnalysisEnvironmentDataminingasacomponentofDBMS,datawarehouse,orWebinformationsystemIntegratedinformationprocessingenvironmentMS/SQLServer-2000(Analysisservice)IBMIntelligentMineronDB2SASEnterpriseMiner:datawarehousing+miningQuery-basedminingQueryingdatabase/DW/WebknowledgeEfficiencyandflexibility:preprocessing,on-lineprocessing,optimization,integration,etc.QueryingandMining:AnIntegr“Vertical”DataMiningGenericdataminingtools?—Toosimpletomatchdomain-specific,sophisticatedapplicationsExpertknowledgeandbusinesslogicrepresentmanyyearsofworkintheirownfields!Datamining+businesslogic+domainexpertsAmulti-dimensionalviewofdataminersComplexityofdata:Web,sequence,spatial,multimedia,…Complexityofdomains:DNA,astronomy,market,telecom,…Domain-specificdataminingtoolsProvideconcrete,killersolutiontospecificproblemsFeedbacktobuildmorepowerfultools“Vertical”DataMiningGenericInvisibleDataMiningBuildminingfunctionsintodailyinformationservicesWebsearchengine(linkanalysis,authoritativepages,userprofiles)—adaptivewebsites,etc.Improvementofqueryprocessing:history+dataMakingservicesmartandefficientBenefitsfrom/todataminingresearchDataminingresearchhasproducedmanyscalable,efficient,novelminingsolutionsApplicationsfeednewchallengeproblemstoresearchInvisibleDataMiningBuildminTowardsIntelligentToolsforDataMiningIntegrationpavesthewaytointelligentminingSmartinterfacebringsintelligenceEasytouse,understandandmanipulateOnepicturemayworth1,000wordsVisualandaudiodataminingHuman-CenteredDataMiningTowardsself-tuning,self-managing,self-triggeringdataminingTowardsIntelligentToolsforIntegratedMining:ABoosterforIntelligentMiningIntegrationpavesthewaytointelligentminingDataminingintegrateswithDBMS,DW,WebDB,etcIntegrationinheritsthepowerofup-to-dateinformationtechnology:querying,MDanalysis,similaritysearch,etc.MiningcanbeviewedasqueryingdatabaseknowledgeIntegrationleadstostandardinterface/language,function/processstandardization,utility,andreachabilityEfficiencyandscalabilitybringintelligentminingtorealityIntegratedMining:ABoosterf數(shù)據(jù)挖掘與標(biāo)準(zhǔn)化進(jìn)程CRISP—DM過程標(biāo)準(zhǔn)化(CRoss-IndustryStandardProcessforDataMining)XML與數(shù)據(jù)預(yù)處理相結(jié)合SOAP(SimpleObjectAccessProtocol)數(shù)據(jù)庫與系統(tǒng)互操作的標(biāo)準(zhǔn)PMML預(yù)言模型交換標(biāo)準(zhǔn)OLEDBForDataMining數(shù)據(jù)挖掘系統(tǒng)基于API的接口數(shù)據(jù)挖掘與標(biāo)準(zhǔn)化進(jìn)程CRISP—DM提綱數(shù)據(jù)倉庫概念數(shù)據(jù)倉庫體系結(jié)構(gòu)及組件數(shù)據(jù)倉庫設(shè)計數(shù)據(jù)倉庫技術(shù)(與數(shù)據(jù)庫技術(shù)的區(qū)別)數(shù)據(jù)倉庫性能數(shù)據(jù)倉庫應(yīng)用數(shù)據(jù)挖掘應(yīng)用概述數(shù)據(jù)挖掘技術(shù)與趨勢數(shù)據(jù)挖掘應(yīng)用平臺(科委申請項(xiàng)目)提綱數(shù)據(jù)倉庫概念數(shù)據(jù)挖掘應(yīng)用平臺項(xiàng)目最終目標(biāo)研究內(nèi)容(含系統(tǒng)結(jié)構(gòu)、層次等)技術(shù)路線和實(shí)現(xiàn)方法關(guān)鍵技術(shù)分析成果形式和考核指標(biāo)數(shù)據(jù)挖掘應(yīng)用平臺項(xiàng)目最終目標(biāo)項(xiàng)目最終目標(biāo)(1)一年內(nèi),研究數(shù)據(jù)挖掘技術(shù),實(shí)現(xiàn)數(shù)據(jù)挖掘主要算法,開發(fā)出擁有自主知識產(chǎn)權(quán)并具有擴(kuò)充性好、便于應(yīng)用的特點(diǎn)的數(shù)據(jù)挖掘應(yīng)用平臺,建立一套規(guī)范實(shí)用的數(shù)據(jù)挖掘?qū)嶋H應(yīng)用方法論
項(xiàng)目最終目標(biāo)(1)一年內(nèi),研究數(shù)據(jù)挖掘技術(shù),實(shí)現(xiàn)數(shù)據(jù)挖掘主要項(xiàng)目最終目標(biāo)(2)所研究的數(shù)據(jù)挖掘技術(shù)達(dá)到國際先進(jìn)水平實(shí)現(xiàn)主要的數(shù)據(jù)挖掘算法,如關(guān)聯(lián)規(guī)則、聚集、分類等所開發(fā)的數(shù)據(jù)挖掘應(yīng)用平臺擁有自主知識產(chǎn)權(quán),并具有擴(kuò)充性好,便于應(yīng)用的特點(diǎn)所建立的數(shù)據(jù)挖掘應(yīng)用的方法論規(guī)范實(shí)用
項(xiàng)目最終目標(biāo)(2)所研究的數(shù)據(jù)挖掘技術(shù)達(dá)到國際先進(jìn)水平研究內(nèi)容層次結(jié)構(gòu)數(shù)據(jù)挖掘+商業(yè)邏輯+行業(yè)應(yīng)用可擴(kuò)展性的體系結(jié)構(gòu)軟件結(jié)構(gòu)數(shù)據(jù)挖掘平臺的應(yīng)用針對行業(yè)的解決方案軟件開發(fā)商二次開發(fā) 研究內(nèi)容層次結(jié)構(gòu)層次結(jié)構(gòu):數(shù)據(jù)挖掘+商業(yè)邏輯+行業(yè)應(yīng)用關(guān)聯(lián)規(guī)則、序列模式、分類、聚集、神經(jīng)元網(wǎng)絡(luò)、偏差分析…數(shù)據(jù)挖掘算法層產(chǎn)品推薦、客戶細(xì)分、客戶流失、欺詐甄別、特征分析…商業(yè)邏輯層基因(DNA)分析、銀行、保險、電信、證券、零售業(yè)…行業(yè)應(yīng)用層數(shù)據(jù)挖掘應(yīng)用平臺層次結(jié)構(gòu):數(shù)據(jù)挖掘+商業(yè)邏輯+行業(yè)應(yīng)用關(guān)聯(lián)規(guī)則、序列可擴(kuò)展性的體系結(jié)構(gòu)MISERPCRME_Business數(shù)據(jù)挖掘應(yīng)用平臺探索數(shù)據(jù)倉庫數(shù)據(jù)挖掘算法庫模型庫組件庫產(chǎn)品推薦客戶細(xì)分客戶流失欺詐甄別特征分析序列分析……行業(yè)應(yīng)用知識數(shù)據(jù)挖掘應(yīng)用服務(wù)器信息系統(tǒng)行業(yè)客戶端可擴(kuò)展性的體系結(jié)構(gòu)MISERPCRME_Business數(shù)據(jù)軟件結(jié)構(gòu)供數(shù)據(jù)挖掘使用的數(shù)據(jù)倉庫ETL工具數(shù)據(jù)挖掘應(yīng)用服務(wù)器數(shù)據(jù)挖掘應(yīng)用服務(wù)器管理平臺針對行業(yè)的分析平臺軟件結(jié)構(gòu)供數(shù)據(jù)挖掘使用的數(shù)據(jù)倉庫數(shù)據(jù)挖掘平臺的應(yīng)用:針對行業(yè)的解決方案信息系統(tǒng)數(shù)據(jù)源針對行業(yè)的數(shù)據(jù)挖掘應(yīng)用模型使用數(shù)據(jù)挖掘平臺的應(yīng)用:針對行業(yè)的解決方案信息系統(tǒng)針對行業(yè)的數(shù)據(jù)數(shù)據(jù)挖掘平臺的應(yīng)用:軟件開發(fā)商二次開發(fā)信息系統(tǒng)數(shù)據(jù)源軟件產(chǎn)品:MIS、ERP、CRM……模型使用原來的軟件產(chǎn)品增加數(shù)據(jù)挖掘決策支持模塊數(shù)據(jù)挖掘平臺的應(yīng)用:軟件開發(fā)商二次開發(fā)信息系統(tǒng)軟件產(chǎn)品:模型技術(shù)路線和實(shí)現(xiàn)方法數(shù)據(jù)挖掘應(yīng)用服務(wù)器應(yīng)用服務(wù)器管理平臺行業(yè)應(yīng)用1了解掌握研究動態(tài)2商業(yè)模型研究3數(shù)據(jù)倉庫建模4數(shù)據(jù)挖掘算法實(shí)現(xiàn)5服務(wù)器框架構(gòu)建階段一階段二階段三1模型創(chuàng)建可視化2服務(wù)器調(diào)度和監(jiān)聽3數(shù)據(jù)抽取工具研制4用戶界面友好1模型顯示可視化2模型組件的應(yīng)用3特定行業(yè)應(yīng)用4組件二次開發(fā)應(yīng)用5人機(jī)接口友好技術(shù)路線和實(shí)現(xiàn)方法數(shù)據(jù)挖掘應(yīng)用服務(wù)器應(yīng)用服務(wù)器管理平臺行業(yè)應(yīng)關(guān)鍵技術(shù)分析商業(yè)模型在數(shù)據(jù)倉庫中的實(shí)現(xiàn)
商業(yè)模型可視化研究模型平滑地嵌入其他應(yīng)用(ERP,CRM)ETL(抽取、轉(zhuǎn)換、裝載)工具的研制
挖掘算法與商業(yè)模型之間的映射關(guān)系
數(shù)據(jù)挖掘算法的優(yōu)化
關(guān)鍵技術(shù)分析商業(yè)模型在數(shù)據(jù)倉庫中的實(shí)現(xiàn)AnyQuestions?Zhujianqiu@AnyQuestions?Zhujianqiu@hotma數(shù)據(jù)倉庫與數(shù)據(jù)挖掘綜述概念、體系結(jié)構(gòu)、趨勢、應(yīng)用報告人:朱建秋2001年6月7日數(shù)據(jù)倉庫與數(shù)據(jù)挖掘綜述概念、體系結(jié)構(gòu)、趨勢、應(yīng)用報告人:朱建提綱數(shù)據(jù)倉庫概念數(shù)據(jù)倉庫體系結(jié)構(gòu)及組件數(shù)據(jù)倉庫設(shè)計數(shù)據(jù)倉庫技術(shù)(與數(shù)據(jù)庫技術(shù)的區(qū)別)數(shù)據(jù)倉庫性能數(shù)據(jù)倉庫應(yīng)用數(shù)據(jù)挖掘應(yīng)用概述數(shù)據(jù)挖掘技術(shù)與趨勢數(shù)據(jù)挖掘應(yīng)用平臺(科委申請項(xiàng)目)提綱數(shù)據(jù)倉庫概念數(shù)據(jù)倉庫概念基本概念對數(shù)據(jù)倉庫的一些誤解數(shù)據(jù)倉庫概念基本概念基本概念—數(shù)據(jù)倉庫Datawarehouseisasubjectoriented,integrated,non-volatileandtimevariantcollectionofdatainsupportofmanagement’sdecision——[Inmon,1996].Datawarehouseisasetofmethods,techniques,andtoolsthatmaybeleveragedtogethertoproduceavehiclethatdeliversdatatoend-usersonanintegratedplatform——[Ladley,1997].Datawarehouseisaprocessofcrating,maintaining,andusingadecision-supportinfrastructure——[Appleton,1995][Haley,1997][Gardner1998].基本概念—數(shù)據(jù)倉庫Datawarehouseisas基本概念—數(shù)據(jù)倉庫特征 [Inmon,1996]面向主題一個主題領(lǐng)域的表來源于多個操作型應(yīng)用(如:客戶主題,來源于:定單處理;應(yīng)收帳目;應(yīng)付帳目;…)典型的主題領(lǐng)域:客戶;產(chǎn)品;交易;帳目主題領(lǐng)域以一組相關(guān)的表來具體實(shí)現(xiàn)相關(guān)的表通過公共的鍵碼聯(lián)系起來(如:顧客標(biāo)識號CustomerID)每個鍵碼都有時間元素(從日期到日期;每月累積;單獨(dú)日期…)主題內(nèi)數(shù)據(jù)可以存儲在不同介質(zhì)上(綜合級,細(xì)節(jié)級,多粒度)集成數(shù)據(jù)提取、凈化、轉(zhuǎn)換、裝載穩(wěn)定性批處理增加,倉庫已經(jīng)存在的數(shù)據(jù)不會改變隨時間而變化(時間維)管理決策支持基本概念—數(shù)據(jù)倉庫特征 [Inmon,1996]面向主題基本概念—DataMart,ODSDataMart數(shù)據(jù)集市--
小型的,面向部門或工作組級數(shù)據(jù)倉庫。OperationDataStore操作數(shù)據(jù)存儲—ODS是能支持企業(yè)日常的全局應(yīng)用的數(shù)據(jù)集合,是不同于DB的一種新的數(shù)據(jù)環(huán)境,是DW擴(kuò)展后得到的一個混合形式。四個基本特點(diǎn):面向主題的(Subject-Oriented)、集成的、可變的、當(dāng)前或接近當(dāng)前的?;靖拍睢狣ataMart,ODSDataMart基本概念—ETL,元數(shù)據(jù),粒度,分割ETLETL(Extract/Transformation/Load)—數(shù)據(jù)裝載、轉(zhuǎn)換、抽取工具。MicrosoftDTS;IBMVisualWarehouseetc.元數(shù)據(jù)關(guān)于數(shù)據(jù)的數(shù)據(jù),用于構(gòu)造、維持、管理、和使用數(shù)據(jù)倉庫,在數(shù)據(jù)倉庫中尤為重要。粒度數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)的細(xì)化或綜合程度的級別。細(xì)化程度越高,粒度越小。分割數(shù)據(jù)分散到各自的物理單元中去,它們能獨(dú)立地處理?;靖拍睢狤TL,元數(shù)據(jù),粒度,分割ETL對數(shù)據(jù)倉庫的一些誤解數(shù)據(jù)倉庫與OLAP星型數(shù)據(jù)模型多維分析數(shù)據(jù)倉庫不是一個虛擬的概念數(shù)據(jù)倉庫與范式理論需要非范式化處理對數(shù)據(jù)倉庫的一些誤解數(shù)據(jù)倉庫與OLAP提綱數(shù)據(jù)倉庫概念數(shù)據(jù)倉庫體系結(jié)構(gòu)及組件數(shù)據(jù)倉庫設(shè)計數(shù)據(jù)倉庫技術(shù)(與數(shù)據(jù)庫技術(shù)的區(qū)別)數(shù)據(jù)倉庫性能數(shù)據(jù)倉庫應(yīng)用數(shù)據(jù)挖掘應(yīng)用概述數(shù)據(jù)挖掘技術(shù)與趨勢數(shù)據(jù)挖掘應(yīng)用平臺(科委申請項(xiàng)目)提綱數(shù)據(jù)倉庫概念數(shù)據(jù)倉庫體系結(jié)構(gòu)及組件體系結(jié)構(gòu)ETL工具元數(shù)據(jù)庫(Repository)及元數(shù)據(jù)管理數(shù)據(jù)訪問和分析工具數(shù)據(jù)倉庫體系結(jié)構(gòu)及組件體系結(jié)構(gòu)體系結(jié)構(gòu)
[Pieter,1998]SourceDatabasesDataExtraction,Transformation,loadWarehouseAdmin.ToolsExtract,TransformandLoadDataModelingToolCentralMetadataArchitectedDataMartsDataAccessandAnalysisEnd-UserDWToolsCentralDataWarehouseCentralDataWarehouseMid-TierMid-TierDataMartDataMartLocalMetadataLocalMetadataLocalMetadataMetadataExchangeMDBDataCleansingToolRelationalAppl.PackageLegacyExternalRDBMSRDBMS體系結(jié)構(gòu)[Pieter,1998]SourceData帶ODS的體系結(jié)構(gòu)SourceDatabasesHub-DataExtraction,Transformation,loadWarehouseAdmin.ToolsExtract,TransformandLoadDataModelingToolCentralMetadataArchitectedDataMartsDataAccessandAnalysisCentralDataWare-houseandODSCentralDataWarehouseMid-TierRDBMSDataMartMid-TierRDBMSDataMartLocalMetadataLocalMetadataLocalMetadataMetadataExchangeODSOLTPToolsDataCleansingToolRelationalAppl.PackageLegacyExternalMDBEnd-UserDWTools帶ODS的體系結(jié)構(gòu)SourceHub-DataExtr現(xiàn)實(shí)環(huán)境—異質(zhì)性[DouglasHackney,2001]CustomMarketingDataWarehousePackagedOracleFinancialDataWarehousePackagedI2SupplyChainNon-ArchitectedDataMartSubsetDataMartsOracleFinancialsi2SupplyChainSiebelCRM3rdPartye-Commerce現(xiàn)實(shí)環(huán)境—異質(zhì)性[DouglasHackney,2001聯(lián)合型數(shù)據(jù)倉庫/數(shù)據(jù)集市體系結(jié)構(gòu)RealTimeODSFederatedFinancialDataWarehouseSubsetDataMartsCommonStagingAreaOracleFinancialsi2SupplyChainSiebelCRM3rdPartyFederatedPackagedI2SupplyChainDataMartsAnalyticalApplicationse-CommerceRealTimeDataMiningandAnalyticsRealTimeSegmentation,Classification,Qualification,Offerings,etc.FederatedMarketingDataWarehouse聯(lián)合型數(shù)據(jù)倉庫/數(shù)據(jù)集市體系結(jié)構(gòu)RealTimeFederETLtools&DWtemplatesDataprofiling&reengineeringtoolsDemand-drivendataacquisition&analysisMetadataInterchangeFederateddatawarehouseanddatamartsystemsDecisionenginemodels,rulesandmetricsOLAP&dataminingtools,AnalysistemplatesAnalyticapplicationdevelopmenttools&componentsAnalyticapplicationsFront-andback-officeOLTPe-BusinesssystemsExternalinformationprovidersCRMAnalytics&ReportingSupplyChainAnalytics&ReportingEKP-EnterpriseKnowledgeManagementPortalEPMAnalytics&ReportingBusinessinformation&recommendationsInformeddecisions&actionsFinancialAnalytics&ReportingHRAnalytics&Reporting閉環(huán)的聯(lián)合型BI體系結(jié)構(gòu)ETLtools&DWtemplatesDatap數(shù)據(jù)倉庫的焦點(diǎn)問題-數(shù)據(jù)的獲得、存儲和使用
RelationalPackageLegacyExternalsourceDataCleanToolDataStagingEnterpriseDataWarehouseDatamartDatamartRDBMSROLAPRDBMSEnd-UserToolEnd-UserToolMDBEnd-UserToolEnd-UserTool數(shù)據(jù)倉庫和集市的加載能力至關(guān)重要數(shù)據(jù)倉庫和集市的查詢輸出能力至關(guān)重要數(shù)據(jù)倉庫的焦點(diǎn)問題-數(shù)據(jù)的獲得、存儲和使用
RelationETL工具去掉操作型數(shù)據(jù)庫中的不需要的數(shù)據(jù)統(tǒng)一轉(zhuǎn)換數(shù)據(jù)的名稱和定義計算匯總數(shù)據(jù)和派生數(shù)據(jù)估計遺失數(shù)據(jù)的缺省值調(diào)節(jié)源數(shù)據(jù)的定義變化
ETL工具去掉操作型數(shù)據(jù)庫中的不需要的數(shù)據(jù)ETL工具體系結(jié)構(gòu)ETL工具體系結(jié)構(gòu)元數(shù)據(jù)庫及元數(shù)據(jù)管理元數(shù)據(jù)分類:技術(shù)元數(shù)據(jù);商業(yè)元數(shù)據(jù);數(shù)據(jù)倉庫操作型信息。-[AlexBersonetc,1999]技術(shù)元數(shù)據(jù)包括為數(shù)據(jù)倉庫設(shè)計人員和管理員使用的數(shù)據(jù)倉庫數(shù)據(jù)信息,用于執(zhí)行數(shù)據(jù)倉庫開發(fā)和管理任務(wù)。包括:數(shù)據(jù)源信息轉(zhuǎn)換描述(從操作數(shù)據(jù)庫到數(shù)據(jù)倉庫的映射方法,以及轉(zhuǎn)換數(shù)據(jù)的算法)目標(biāo)數(shù)據(jù)的倉庫對象和數(shù)據(jù)結(jié)構(gòu)定義數(shù)據(jù)清洗和數(shù)據(jù)增加的規(guī)則數(shù)據(jù)映射操作訪問權(quán)限,備份歷史,存檔歷史,信息傳輸歷史,數(shù)據(jù)獲取歷史,數(shù)據(jù)訪問,等等元數(shù)據(jù)庫及元數(shù)據(jù)管理元數(shù)據(jù)分類:技術(shù)元數(shù)據(jù);商業(yè)元數(shù)據(jù);數(shù)據(jù)元數(shù)據(jù)庫及元數(shù)據(jù)管理
商業(yè)元數(shù)據(jù)給用戶易于理解的信息,包括:主題區(qū)和信息對象類型,包括查詢、報表、圖像、音頻、視頻等Internet主頁支持?jǐn)?shù)據(jù)倉庫的其它信息,例如對于信息傳輸系統(tǒng)包括預(yù)約信息、調(diào)度信息、傳送目標(biāo)的詳細(xì)描述、商業(yè)查詢對象,等數(shù)據(jù)倉庫操作型信息例如,數(shù)據(jù)歷史(快照,版本),擁有權(quán),抽取的審計軌跡,數(shù)據(jù)用法
元數(shù)據(jù)庫及元數(shù)據(jù)管理
商業(yè)元數(shù)據(jù)元數(shù)據(jù)庫及元數(shù)據(jù)管理元數(shù)據(jù)庫(metadatarepository)和工具—[MartinStardt,2000]元數(shù)據(jù)庫及元數(shù)據(jù)管理元數(shù)據(jù)庫(metadatareposi數(shù)據(jù)訪問和分析工具報表OLAP數(shù)據(jù)挖掘數(shù)據(jù)訪問和分析工具報表提綱數(shù)據(jù)倉庫概念數(shù)據(jù)倉庫體系結(jié)構(gòu)及組件數(shù)據(jù)倉庫設(shè)計數(shù)據(jù)倉庫技術(shù)(與數(shù)據(jù)庫技術(shù)的區(qū)別)數(shù)據(jù)倉庫性能數(shù)據(jù)倉庫應(yīng)用數(shù)據(jù)挖掘應(yīng)用概述數(shù)據(jù)挖掘技術(shù)與趨勢數(shù)據(jù)挖掘應(yīng)用平臺(科委申請項(xiàng)目)提綱數(shù)據(jù)倉庫概念數(shù)據(jù)倉庫設(shè)計自上而下(Top-Down)自底而上(BottomUp)混合的方法數(shù)據(jù)倉庫建模數(shù)據(jù)倉庫設(shè)計自上而下(Top-Down)Top-downApproachBuildEnterprisedatawarehouseCommoncentraldatamodelDatare-engineeringperformedonceMinimizeredundancyandinconsistencyDetailedandhistorydata;globaldatadiscoveryBuilddatamartsfromtheEnterpriseDataWarehouse(EDW)SubsetofEDWrelevanttodepartmentMostlysummarizeddataDirectdependencyonEDWdataavailabilityLocalDataMartExternalDataLocalDataMartOperationalDataEnterpriseWarehouseTop-downApproachBuildEnterpr自底而上設(shè)計方法創(chuàng)建部門的數(shù)據(jù)集市范圍局限于一個主題區(qū)域快速的ROI--局部的商業(yè)需求得到滿足本部門自治--設(shè)計上具有靈活性對其他部門數(shù)據(jù)集市是一個好的指導(dǎo)容易復(fù)制到其他部門需要為每個部門做數(shù)據(jù)重建有一定級別的冗余和不一致性一個切實(shí)可行的方法擴(kuò)大到企業(yè)數(shù)據(jù)倉庫創(chuàng)建EDB作為一個長期的目標(biāo)局部數(shù)據(jù)集市外部數(shù)據(jù)操作型數(shù)據(jù)(全部)操作型數(shù)據(jù)(局部)操作型數(shù)據(jù)(局部)局部數(shù)據(jù)集市企業(yè)數(shù)據(jù)倉庫EDB自底而上設(shè)計方法創(chuàng)建部門的數(shù)據(jù)集市局部數(shù)據(jù)集市外部數(shù)據(jù)操作型數(shù)據(jù)倉庫建?!切湍J紼xampleofStarSchemaDateMonthYearDateCustIdCustNameCustCityCustCountryCustSalesFactTable
Date
Product
Store
Customer
unit_sales
dollar_sales
Yen_salesMeasurementsProductNoProdNameProdDescCategoryQOHProductStoreIDCityStateCountryRegionStore數(shù)據(jù)倉庫建模—星型模式ExampleofStarS數(shù)據(jù)倉庫建?!┢J?/p>
DateMonthDateCustIdCustNameCustCityCustCountryCustSalesFactTable
Date
Product
Store
Customer
unit_sales
dollar_sales
Yen_salesMeasurementsProductNoProdNameProdDescCategoryQOHProductMonthYearMonthYearYearCityStateCityCountryRegionCountryStateCountryStateStoreIDCityStoreExampleofSnowflakeSchema數(shù)據(jù)倉庫建?!┢J紻ateDateCustId操作型(OLTP)數(shù)據(jù)源銷售庫操作型(OLTP)數(shù)據(jù)源銷售庫星形模式時間維事實(shí)表星形模式時間維事實(shí)表多維模型事實(shí)度量(Metrics)時間維時間維的屬性多維模型事實(shí)度量時間維時間維的屬性提綱數(shù)據(jù)倉庫概念數(shù)據(jù)倉庫體系結(jié)構(gòu)及組件數(shù)據(jù)倉庫設(shè)計數(shù)據(jù)倉庫技術(shù)(與數(shù)據(jù)庫技術(shù)的區(qū)別)數(shù)據(jù)倉庫性能數(shù)據(jù)倉庫應(yīng)用數(shù)據(jù)挖掘應(yīng)用概述數(shù)據(jù)挖掘技術(shù)與趨勢數(shù)據(jù)挖掘應(yīng)用平臺(科委申請項(xiàng)目)提綱數(shù)據(jù)倉庫概念數(shù)據(jù)倉庫技術(shù)—[Inmon,1996]管理大量數(shù)據(jù)能夠管理大量數(shù)據(jù)的能力能夠管理好的能力管理多介質(zhì)(層次)主存、擴(kuò)展內(nèi)存、高速緩存、DASD、光盤、縮微膠片監(jiān)視數(shù)據(jù)決定是否應(yīng)數(shù)據(jù)重組決定索引是否建立得不恰當(dāng)決定是否有太多數(shù)據(jù)溢出決定剩余的可用空間利用多種技術(shù)獲得和傳送數(shù)據(jù)批模式,聯(lián)機(jī)模式并不非常有用程序員/設(shè)計者對數(shù)據(jù)存放位置的控制(塊/頁)數(shù)據(jù)的并行存儲/管理元數(shù)據(jù)管理數(shù)據(jù)倉庫技術(shù)—[Inmon,1996]管理大量數(shù)據(jù)數(shù)據(jù)倉庫技術(shù)—[Inmon,1996]數(shù)據(jù)倉庫語言接口能夠一次訪問一組數(shù)據(jù)能夠一次訪問一條記錄支持一個或多個索引有SQL接口數(shù)據(jù)的高效裝入高效索引的利用用位映像的方法、多級索引等數(shù)據(jù)壓縮I/O資源比CPU資源少得多,因此數(shù)據(jù)解壓縮不是主要問題復(fù)合鍵碼(因?yàn)閿?shù)據(jù)隨時間變化)變長數(shù)據(jù)加鎖管理(程序員能顯式控制鎖管理程序)單獨(dú)索引處理(查看索引就能提供某些服務(wù))快速恢復(fù)數(shù)據(jù)倉庫技術(shù)—[Inmon,1996]數(shù)據(jù)倉庫語言接口數(shù)據(jù)倉庫技術(shù)—[Inmon,1996]其他技術(shù)特征,傳統(tǒng)技術(shù)起很小作用事務(wù)集成性、高速緩存、行/頁級鎖定、參照完整性、數(shù)據(jù)視圖傳統(tǒng)DBMS與數(shù)據(jù)倉庫DBMS區(qū)別為數(shù)據(jù)倉庫和決策支持優(yōu)化設(shè)計管理更多數(shù)據(jù):10GB/100GB/TB傳統(tǒng)DBMS適合記錄級更新,提供:鎖定Lock、提交Commit、檢測點(diǎn)CheckPoint、日志處理Log、死鎖處理DeadLock、回退Roolback.基本數(shù)據(jù)管理,如:塊管理,傳統(tǒng)DBMS需要預(yù)留空間索引區(qū)別:傳統(tǒng)DBMS限制索引數(shù)量,數(shù)據(jù)倉庫DBMS沒有限制通用DBMS物理上優(yōu)化便于事務(wù)訪問處理,而數(shù)據(jù)倉庫便于DSS訪問分析改變DBMS技術(shù)多維DBMS和數(shù)據(jù)倉庫多維DBMS作為數(shù)據(jù)倉庫的數(shù)據(jù)庫技術(shù),這種想法是不正確的多維DBMS(OLAP)是一種技術(shù),數(shù)據(jù)倉庫是一種體系結(jié)構(gòu)的基礎(chǔ)雙重粒度級別(DASD/磁帶)數(shù)據(jù)倉庫技術(shù)—[Inmon,1996]其他技術(shù)特征,傳數(shù)據(jù)倉庫技術(shù)—[Inmon,1996]數(shù)據(jù)倉庫環(huán)境中的元數(shù)據(jù)DSS分析人員和IT專業(yè)人員不同,需要元數(shù)據(jù)的幫助操作型環(huán)境和數(shù)據(jù)倉庫環(huán)境之間的映射需要元數(shù)據(jù)數(shù)據(jù)倉庫包含很長時間的數(shù)據(jù),必須有元數(shù)據(jù)標(biāo)記數(shù)據(jù)結(jié)構(gòu)/定義上下文和內(nèi)容(上下文維)簡單上下文信息(數(shù)據(jù)結(jié)構(gòu)/編碼/命名約定/度量)復(fù)雜上下文信息(產(chǎn)品定義/市場領(lǐng)域/定價/包裝/組織結(jié)構(gòu))外部上下文信息(經(jīng)濟(jì)預(yù)測:通貨膨脹、金融、稅收/政治信息/競爭信息/技術(shù)進(jìn)展)刷新數(shù)據(jù)倉庫數(shù)據(jù)復(fù)制(觸發(fā)器)變化數(shù)據(jù)捕獲(CDC)(日志)數(shù)據(jù)倉庫技術(shù)—[Inmon,1996]數(shù)據(jù)倉庫環(huán)境中的提綱數(shù)據(jù)倉庫概念數(shù)據(jù)倉庫體系結(jié)構(gòu)及組件數(shù)據(jù)倉庫設(shè)計數(shù)據(jù)倉庫技術(shù)(與數(shù)據(jù)庫技術(shù)的區(qū)別)數(shù)據(jù)倉庫性能數(shù)據(jù)倉庫應(yīng)用數(shù)據(jù)挖掘應(yīng)用概述數(shù)據(jù)挖掘技術(shù)與趨勢數(shù)據(jù)挖掘應(yīng)用平臺(科委申請項(xiàng)目)提綱數(shù)據(jù)倉庫概念數(shù)據(jù)倉庫性能—[Inmon,1999]使用數(shù)據(jù)平臺服務(wù)管理王天佑等譯,《數(shù)據(jù)倉庫管理》,電子工業(yè)出版社,2000年5月數(shù)據(jù)倉庫性能—[Inmon,1999]使用王天佑等譯提綱數(shù)據(jù)倉庫概念數(shù)據(jù)倉庫體系結(jié)構(gòu)及組件數(shù)據(jù)倉庫設(shè)計數(shù)據(jù)倉庫技術(shù)(與數(shù)據(jù)庫技術(shù)的區(qū)別)數(shù)據(jù)倉庫性能數(shù)據(jù)倉庫應(yīng)用數(shù)據(jù)挖掘應(yīng)用概述數(shù)據(jù)挖掘技術(shù)與趨勢數(shù)據(jù)挖掘應(yīng)用平臺(科委申請項(xiàng)目)提綱數(shù)據(jù)倉庫概念數(shù)據(jù)倉庫應(yīng)用—DW用戶數(shù)的調(diào)查“DW系統(tǒng)的用戶在100-500以內(nèi)或以上是未來一段時期內(nèi)的主要部分“DW用戶
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 交換合同范本
- 二零二五年度城市綠化測繪合同十景觀規(guī)劃3篇
- 二零二四南通單位勞動合同試用期考核與轉(zhuǎn)正協(xié)議3篇
- 二零二四年裝修包清工合同范本:售后服務(wù)與保修條款3篇
- 個性化定制廣告推廣服務(wù)合同范本2024版B版
- 2025年度個人藝術(shù)品修復(fù)服務(wù)合同范本2篇
- 二零二五年度商業(yè)地產(chǎn)項(xiàng)目場地租賃與物業(yè)管理合同4篇
- 個人寵物店運(yùn)營租賃合同(2024版)3篇
- 投資包賠合同模版
- 二零二五年度鄉(xiāng)村旅游池塘使用權(quán)轉(zhuǎn)讓合同范本4篇
- 2025-2030年中國陶瓷電容器行業(yè)運(yùn)營狀況與發(fā)展前景分析報告
- 2025年山西國際能源集團(tuán)限公司所屬企業(yè)招聘43人高頻重點(diǎn)提升(共500題)附帶答案詳解
- 二零二五年倉儲配送中心物業(yè)管理與優(yōu)化升級合同3篇
- 2025屆廈門高三1月質(zhì)檢期末聯(lián)考數(shù)學(xué)答案
- 《小英雄雨來》讀書分享會
- 初中數(shù)學(xué)校本教材(完整版)
- 重慶市銅梁區(qū)2024屆數(shù)學(xué)八上期末檢測試題含解析
- 中央導(dǎo)管相關(guān)血流感染防控
- 光的偏振和晶體光學(xué)基礎(chǔ)課件
- 中科大光學(xué)講義08光的偏振
- 黑布林英語閱讀《小婦人》-中英伴讀
評論
0/150
提交評論