數(shù)據(jù)倉(cāng)庫(kù)實(shí)踐系列課程(1)-數(shù)據(jù)倉(cāng)庫(kù)基本概念_第1頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)實(shí)踐系列課程(1)-數(shù)據(jù)倉(cāng)庫(kù)基本概念_第2頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)實(shí)踐系列課程(1)-數(shù)據(jù)倉(cāng)庫(kù)基本概念_第3頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)實(shí)踐系列課程(1)-數(shù)據(jù)倉(cāng)庫(kù)基本概念_第4頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)實(shí)踐系列課程(1)-數(shù)據(jù)倉(cāng)庫(kù)基本概念_第5頁(yè)
已閱讀5頁(yè),還剩75頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)倉(cāng)庫(kù)實(shí)踐系列課程(1)

——數(shù)據(jù)倉(cāng)庫(kù)基本概念文思海輝?Pactera.Confidential.AllRightsReserved.2數(shù)據(jù)倉(cāng)庫(kù)概念數(shù)據(jù)模型介紹數(shù)據(jù)管理介紹數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目實(shí)施數(shù)據(jù)倉(cāng)庫(kù)出現(xiàn)的背景需求的變化業(yè)務(wù)系統(tǒng)的建設(shè)逐漸完善分析類(lèi)需求不斷增加不斷增加的信息孤島導(dǎo)致數(shù)據(jù)集成問(wèn)題不斷增加技術(shù)發(fā)展?fàn)顩r關(guān)系數(shù)據(jù)庫(kù)技術(shù)日趨成熟報(bào)表和復(fù)雜查詢(xún)處理起來(lái)非常困難各個(gè)系統(tǒng)之間數(shù)據(jù)不一致數(shù)據(jù)倉(cāng)庫(kù)與OLTPOLTP系統(tǒng)(生產(chǎn)系統(tǒng))面向應(yīng)用事務(wù)驅(qū)動(dòng)的實(shí)時(shí)性高數(shù)據(jù)檢索量相對(duì)少只存當(dāng)前數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)(決策系統(tǒng))面向主題分析和決策實(shí)時(shí)性要求不是特別高數(shù)據(jù)檢索量大存儲(chǔ)大量的歷史數(shù)據(jù)和當(dāng)前數(shù)據(jù)分析型系統(tǒng)與操作型系統(tǒng)之間的區(qū)別操作型數(shù)據(jù)分析型數(shù)據(jù)細(xì)節(jié)的細(xì)節(jié)的,綜合的,或提煉的在存取瞬間是準(zhǔn)確的代表過(guò)去的數(shù)據(jù)可更新不更新操作需求事先可知道操作需求事先不知道對(duì)性能要求高對(duì)性能要求相對(duì)寬松一個(gè)時(shí)刻操作一單元一個(gè)時(shí)刻操作一集合事務(wù)驅(qū)動(dòng)分析驅(qū)動(dòng)面向應(yīng)用面向分析一次操作數(shù)據(jù)量小一次操作數(shù)據(jù)量大支持日常操作支持管理需求數(shù)據(jù)倉(cāng)庫(kù)建設(shè)的分歧數(shù)據(jù)倉(cāng)庫(kù)建設(shè)的分歧BillInmonKimball1991年,提出了企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)建設(shè)遭受大面積失敗Kimball出版了TheDataWarehouseToolkit數(shù)據(jù)集市建設(shè)在初期取得了成功多個(gè)數(shù)據(jù)集市之間的復(fù)雜的ETL/數(shù)據(jù)不一致?tīng)?zhēng)論與混亂期(1996-1997)EDWODSDataMart走向融合(1998-2001)提出了企業(yè)信息工廠(CorporateInformationFactory)的架構(gòu),融合了EDW/ODS/DataMartKimball也提出了數(shù)據(jù)倉(cāng)庫(kù)的擴(kuò)展架構(gòu),把EDW/ODS/DataMart結(jié)合在了一起數(shù)據(jù)倉(cāng)庫(kù)理論的形成數(shù)據(jù)倉(cāng)庫(kù)的四個(gè)特征數(shù)據(jù)倉(cāng)庫(kù)是面向主題的(Subject-Oriented)集成的(Integrated)隨時(shí)間不斷變化(Time-variant)不可更新的(Nonvolatile) 數(shù)據(jù)倉(cāng)庫(kù)之父:BillInmon數(shù)據(jù)倉(cāng)庫(kù)面向主題與面向應(yīng)用OLTP應(yīng)用是面向應(yīng)用進(jìn)行數(shù)據(jù)組織的分析應(yīng)用面向主題進(jìn)行組織主題一個(gè)抽象的概念在較高層次上將企業(yè)信息系統(tǒng)中的數(shù)據(jù)綜合、歸類(lèi)并進(jìn)行分析利用的抽象。例如:對(duì)于一個(gè)保險(xiǎn)公司來(lái)說(shuō)OLTP數(shù)據(jù)庫(kù)所面向的應(yīng)用可能是汽車(chē)保險(xiǎn)、健康保險(xiǎn)、人壽保險(xiǎn)與意外傷亡保險(xiǎn)數(shù)據(jù)倉(cāng)庫(kù)所面向的主題域可能是顧客、保險(xiǎn)單、保險(xiǎn)費(fèi)與索賠。目前主流的數(shù)據(jù)倉(cāng)庫(kù)大都是采用關(guān)系數(shù)據(jù)庫(kù)技術(shù)來(lái)實(shí)現(xiàn)的數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)最終也會(huì)用關(guān)系模型表現(xiàn)。因此要把握主題和面向主題的概念,需要將它們提高到一個(gè)更高的抽象層次上來(lái)理解,也就是要特別強(qiáng)調(diào)概念的邏輯意義。數(shù)據(jù)集成數(shù)據(jù)集成的內(nèi)務(wù)數(shù)據(jù)清洗按照數(shù)據(jù)質(zhì)量管理的要求進(jìn)行數(shù)據(jù)的清洗數(shù)據(jù)轉(zhuǎn)換按照源系統(tǒng)與數(shù)據(jù)倉(cāng)庫(kù)中模型之間的差異進(jìn)行轉(zhuǎn)換數(shù)據(jù)整合不同源系統(tǒng)的數(shù)據(jù)在數(shù)據(jù)倉(cāng)庫(kù)中可能會(huì)進(jìn)入到相同的模型中為什么要進(jìn)行數(shù)據(jù)集成?源系統(tǒng)的多樣性數(shù)據(jù)質(zhì)量的要求模型的差異不可更新與不斷變化不可更新不會(huì)修改細(xì)節(jié)數(shù)據(jù)(源系統(tǒng)傳來(lái)的詳細(xì)數(shù)據(jù))數(shù)據(jù)轉(zhuǎn)換:通常需要保留原值不斷變化不斷增加新的數(shù)據(jù)刪除舊的數(shù)據(jù)新的匯總周期帶來(lái)的新的匯總數(shù)據(jù)數(shù)據(jù)集市數(shù)據(jù)集市(DataMart)是部門(mén)級(jí)決策支持的數(shù)據(jù)集合。數(shù)據(jù)集市數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)訪(fǎng)問(wèn)與分析(企業(yè)級(jí))(部門(mén)級(jí))數(shù)據(jù)集市數(shù)據(jù)集市建設(shè)的幾種體系架構(gòu)數(shù)據(jù)倉(cāng)庫(kù)邏輯數(shù)據(jù)集市物理數(shù)據(jù)集市依賴(lài)數(shù)據(jù)集市獨(dú)立數(shù)據(jù)集市14?Pactera.Confidential.AllRightsReserved.數(shù)據(jù)集市的缺點(diǎn)多個(gè)數(shù)據(jù)模型多個(gè)傳輸轉(zhuǎn)換程序數(shù)據(jù)不一致系統(tǒng)復(fù)雜,難于維護(hù)生產(chǎn)系統(tǒng)獨(dú)立數(shù)據(jù)集市市場(chǎng)部......財(cái)務(wù)部?jī)?chǔ)蓄系統(tǒng)信用卡系統(tǒng)MedicaidWelfareMentalHealthChildServices分布式(數(shù)據(jù)集市)集中式(數(shù)據(jù)倉(cāng)庫(kù))MedicaidWelfareMentalHealthChildServicesEmployeesClientServicesProgramEffectivenessDistrictOfficesCostsEligibility“垂直”“水平”數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)集市的業(yè)務(wù)分析能力DW/DM的流派之爭(zhēng)----BillInmon與RalphKimballADW(ActiveDataWarehouse)n=1,072BI已經(jīng)深入到企業(yè)的各個(gè)部門(mén)后臺(tái)管理人員前臺(tái)業(yè)務(wù)人員問(wèn):BI在您的企業(yè)中的哪些領(lǐng)域被用來(lái)制定關(guān)鍵的決策,請(qǐng)選擇所有適用的選項(xiàng)。Source:IDCWhitePaper,“TamingInformationChaos”,Nov2007BI已經(jīng)不僅僅是辦公室的管理人員的專(zhuān)利主要發(fā)現(xiàn)在美國(guó)企業(yè)中,監(jiān)管和審計(jì)要求(SarbOx)是驅(qū)動(dòng)BI應(yīng)用的重要原因–這是與其它地區(qū)非常大的區(qū)別。IDC觀點(diǎn)財(cái)務(wù)分析通常是BI應(yīng)用的主要推動(dòng)力,但這一應(yīng)用仍然只有不到50%的企業(yè)使用。n=1,072BI在企業(yè)內(nèi)部的用戶(hù)群Q:在您的企業(yè)中,哪些用戶(hù)正在通過(guò)BI的解決方案在獲取信息。請(qǐng)選擇所有適用的答案Source:IDCWhitePaper,“TamingInformationChaos”,Nov2007BI深入企業(yè)的各個(gè)層面主要發(fā)現(xiàn)一線(xiàn)業(yè)務(wù)人員也急需決策支持。BI從后端角落里轉(zhuǎn)移到企業(yè)的中心。BI解決方案不僅向內(nèi)部人員提供訪(fǎng)問(wèn),而且向外部用戶(hù)提供訪(fǎng)問(wèn)。領(lǐng)導(dǎo)企業(yè)中,外部用戶(hù)可以訪(fǎng)問(wèn)BI的比例是平均值的兩倍。IDC觀點(diǎn)業(yè)務(wù)分析解決方案可以幫助企業(yè)中的各類(lèi)用戶(hù)群。BI解決方案不僅幫助業(yè)務(wù)分析人員和高層管理者。支持外部用戶(hù)可以加強(qiáng)外部用戶(hù)對(duì)企業(yè)的依賴(lài),從而增強(qiáng)用戶(hù)關(guān)系。內(nèi)部外部什么是并行處理并行處理的概念在某一個(gè)數(shù)據(jù)庫(kù)系統(tǒng)中能同時(shí)采用多個(gè)硬件設(shè)備完成某一任務(wù)的方法。多個(gè)硬件設(shè)備可同時(shí)工作于該任務(wù)的不同方面。并行處理的主要目的是節(jié)省大型和復(fù)雜問(wèn)題的解決時(shí)間。并行處理與并發(fā)處理并發(fā)是指在某一個(gè)數(shù)據(jù)庫(kù)系統(tǒng)中允許多個(gè)任務(wù)的同時(shí)執(zhí)行,任務(wù)與任務(wù)之間沒(méi)有聯(lián)系。并行是指將一個(gè)任務(wù)劃分為多個(gè)子任務(wù),這些子任務(wù)同時(shí)執(zhí)行。在所有子任務(wù)處理完成后,將它們的結(jié)果進(jìn)行合并,就得到該任務(wù)的最終處理結(jié)果OLTP與OLAP對(duì)系統(tǒng)的不同要求OLTP操作使用特點(diǎn)請(qǐng)求短小而密集技術(shù)要求能夠?qū)⒂脩?hù)的請(qǐng)求進(jìn)行均衡分擔(dān)并發(fā)操作。OLAP操作使用特點(diǎn)請(qǐng)求龐大而稀疏每一個(gè)查詢(xún)和統(tǒng)計(jì)都很復(fù)雜,但訪(fǎng)問(wèn)的頻率并不是很高技術(shù)要求能夠?qū)⑺械挠布Y源調(diào)動(dòng)起來(lái)為這一個(gè)復(fù)雜的查詢(xún)請(qǐng)求服務(wù)并行處理結(jié)論并行處理技術(shù)在數(shù)據(jù)倉(cāng)庫(kù)中比OLTP系統(tǒng)更加重要。并行技術(shù)的幾種類(lèi)型SMPSymmetricMulti-Processor對(duì)稱(chēng)多處理器NUMANon-UniformMemoryAccess非一致存儲(chǔ)訪(fǎng)問(wèn)結(jié)構(gòu)MPPMassiveParallelProcessing海量并行處理結(jié)構(gòu)SMPCPU服務(wù)器中多個(gè)CPU對(duì)稱(chēng)工作,無(wú)主次或從屬關(guān)系。CPU共享相同的物理內(nèi)存,每個(gè)CPU訪(fǎng)問(wèn)內(nèi)存中的任何地址所需時(shí)間是相同的。也被稱(chēng)為一致存儲(chǔ)器訪(fǎng)問(wèn)結(jié)構(gòu)(UMA:UniformMemoryAccess)。特征共享:系統(tǒng)中所有資源(CPU、內(nèi)存、I/O等)都是共享的。沖突:每個(gè)CPU必須通過(guò)相同的內(nèi)存總線(xiàn)訪(fǎng)問(wèn)相同的內(nèi)存資源,因此隨著CPU數(shù)量的增加,內(nèi)存訪(fǎng)問(wèn)沖突將迅速增加。SMP的性能擴(kuò)展實(shí)驗(yàn)證明,SMP服務(wù)器CPU利用率最好的情況是2至4個(gè)CPU。NUMANUMA的特征CPU具有多個(gè)CPU模塊每個(gè)CPU模塊由多個(gè)CPU(如4個(gè))組成每個(gè)CPU模塊具有獨(dú)立的本地內(nèi)存、I/O槽口每個(gè)CPU模塊之間可以通過(guò)互聯(lián)模塊進(jìn)行連接和信息交互特征可以較好地解決原來(lái)SMP系統(tǒng)的擴(kuò)展問(wèn)題,在一個(gè)物理服務(wù)器內(nèi)可以支持上百個(gè)CPU訪(fǎng)問(wèn)本地內(nèi)存的速度將遠(yuǎn)遠(yuǎn)高于訪(fǎng)問(wèn)遠(yuǎn)地內(nèi)存當(dāng)CPU數(shù)量增加時(shí),系統(tǒng)性能無(wú)法線(xiàn)性增加MPP系統(tǒng)架構(gòu)由多個(gè)SMP服務(wù)器通過(guò)一定的節(jié)點(diǎn)互聯(lián)網(wǎng)絡(luò)進(jìn)行連接協(xié)同工作,完成相同的任務(wù)從用戶(hù)的角度來(lái)看是一個(gè)服務(wù)器系統(tǒng)基本特征由多個(gè)SMP服務(wù)器(每個(gè)SMP服務(wù)器稱(chēng)節(jié)點(diǎn))通過(guò)節(jié)點(diǎn)互聯(lián)網(wǎng)絡(luò)連接而成每個(gè)節(jié)點(diǎn)只訪(fǎng)問(wèn)自己的本地資源(內(nèi)存、存儲(chǔ)等)ShareNothing結(jié)構(gòu)擴(kuò)展能力最好與NUMA的區(qū)別不存在異地內(nèi)存訪(fǎng)問(wèn)的問(wèn)題節(jié)點(diǎn)之間的信息交互是通過(guò)節(jié)點(diǎn)互聯(lián)網(wǎng)絡(luò)實(shí)現(xiàn)的這個(gè)過(guò)程一般稱(chēng)為數(shù)據(jù)重分配(DataRedistribution)數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用的特征數(shù)據(jù)倉(cāng)庫(kù)大量復(fù)雜的數(shù)據(jù)處理要求很高的I/O處理能力存儲(chǔ)系統(tǒng)提供足夠的I/O帶寬與之匹配OLTP每個(gè)交易所涉及的數(shù)據(jù)不多要求系統(tǒng)具有很高的事務(wù)處理能力能夠在單位時(shí)間里處理盡量多的交易NUMA架構(gòu)更適用于OLTP事務(wù)處理環(huán)境大量復(fù)雜的數(shù)據(jù)處理必然導(dǎo)致大量的數(shù)據(jù)交互,將使CPU的利用率大大降低體系架構(gòu)決定了可擴(kuò)展能力LargeSMP/NUMA設(shè)計(jì)來(lái)做OLAP應(yīng)用對(duì)于小數(shù)據(jù)量的應(yīng)用效率很高當(dāng)CPU數(shù)量增加以及數(shù)據(jù)量增加的時(shí)候,由于資源競(jìng)爭(zhēng)導(dǎo)致效率急劇下降。MemoryCacheCacheCPU(s)MemoryCacheCPU(s)CPU(s)MemorySPEEDLIMIT55

Disk

StorageDisk

StorageCPU(s)CPU(s)CPU(s)CPU(s)CPU(s)CPU(s)CPU(s)CPU(s)CacheCacheCacheCacheCacheCacheCacheCacheMemoryMemoryMemoryMemoryMemoryMemoryMemoryMemoryDiskStorageDiskStorageDiskStorageDiskStorageDiskStorageDiskStorageDiskStorageDiskStorage交換網(wǎng)絡(luò)通過(guò)互聯(lián)網(wǎng)絡(luò)訪(fǎng)問(wèn)共享內(nèi)存CPU通過(guò)互聯(lián)網(wǎng)絡(luò)訪(fǎng)問(wèn)共享磁盤(pán)Shared-NothingMPP斜率為1的線(xiàn)性擴(kuò)展被優(yōu)化用作非常大量的磁盤(pán)讀寫(xiě)對(duì)數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用來(lái)講,效率非常高

線(xiàn)性擴(kuò)展斜率為1NUMA衰減20%SMP衰減10%

CPU個(gè)數(shù)系統(tǒng)性能11109876543211 2 3 4 5 6 7 8 9 10

有時(shí)候這個(gè)也被稱(chēng)作線(xiàn)性擴(kuò)展共享資源導(dǎo)致CPU效率降低ScalingResultsofSMP/NUMAandMPP架構(gòu)選擇示例?Pactera.Confidential.AllRightsReserved.32數(shù)據(jù)倉(cāng)庫(kù)概念數(shù)據(jù)模型介紹數(shù)據(jù)管理介紹數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目實(shí)施模型和數(shù)據(jù)模型模型——現(xiàn)實(shí)世界特征的模擬和抽象,比如地圖、建筑設(shè)計(jì)沙盤(pán),模型飛機(jī)等。數(shù)據(jù)模型DataModel——是現(xiàn)實(shí)世界數(shù)據(jù)特征的抽象。數(shù)據(jù)模型數(shù)據(jù)模型從計(jì)算機(jī)實(shí)現(xiàn)的觀點(diǎn)來(lái)對(duì)數(shù)據(jù)建模是信息世界中的概念和聯(lián)系在計(jì)算機(jī)世界中的表示方法一般有嚴(yán)格的形式化定義,以便于在計(jì)算機(jī)上實(shí)現(xiàn)數(shù)據(jù)模型種類(lèi)數(shù)據(jù)模型層次模型網(wǎng)狀模型關(guān)系模型多維模型層次模型層次模型用樹(shù)結(jié)構(gòu)表示實(shí)體之間聯(lián)系的模型叫層次模型樹(shù)由節(jié)點(diǎn)和連線(xiàn)組成節(jié)點(diǎn)代表實(shí)體型連線(xiàn)表示兩實(shí)體型間的一對(duì)多聯(lián)系樹(shù)的特性每棵樹(shù)有且僅有一個(gè)節(jié)點(diǎn)無(wú)父節(jié)點(diǎn),稱(chēng)為樹(shù)的根樹(shù)中的其它節(jié)點(diǎn)都有且僅有一個(gè)父節(jié)點(diǎn)層次模型地址系名系號(hào)教研室名教研室號(hào)年級(jí)姓名學(xué)號(hào)職稱(chēng)姓名職工號(hào)系教研室學(xué)生教員1:N聯(lián)系實(shí)體層次模型優(yōu)點(diǎn)結(jié)構(gòu)簡(jiǎn)單,易于實(shí)現(xiàn)缺點(diǎn)支持的聯(lián)系種類(lèi)太少只支持二元一對(duì)多聯(lián)系數(shù)據(jù)操縱不方便子結(jié)點(diǎn)的存取只能通過(guò)父結(jié)點(diǎn)來(lái)進(jìn)行插入、刪除復(fù)雜代表產(chǎn)品:IBM的IMS數(shù)據(jù)庫(kù),1969年研制成功網(wǎng)狀模型網(wǎng)狀模型是一個(gè)滿(mǎn)足下列條件的有向圖可以有一個(gè)以上的節(jié)點(diǎn)無(wú)父節(jié)點(diǎn)至少有一個(gè)節(jié)點(diǎn)有多于一個(gè)的父節(jié)點(diǎn)(排除樹(shù)結(jié)構(gòu))節(jié)點(diǎn)代表實(shí)體,有向邊(從箭尾到箭頭)表示兩實(shí)體間的一對(duì)多聯(lián)系學(xué)生課程選課網(wǎng)狀模型優(yōu)點(diǎn)表達(dá)的聯(lián)系種類(lèi)豐富缺點(diǎn)結(jié)構(gòu)復(fù)雜語(yǔ)言復(fù)雜代表產(chǎn)品HP的IMAGE,

CullinetSoftware公司的IDMS等關(guān)系模型屬性元組男女男性別192221年齡D01李紅S02D02王偉S03D01張軍S01系號(hào)姓名學(xué)號(hào)Thebasicprincipleoftherelationalmodelisthe

InformationPrinciple:all

information

isrepresentedby

datavalues

inrelations.關(guān)系模型簡(jiǎn)單,表的概念直觀、單一,用戶(hù)易理解非過(guò)程化的數(shù)據(jù)請(qǐng)求,數(shù)據(jù)請(qǐng)求可以不指明路徑數(shù)據(jù)獨(dú)立性,用戶(hù)只需提出“做什么”,無(wú)須說(shuō)明“怎么做”堅(jiān)實(shí)的理論基礎(chǔ)關(guān)系數(shù)據(jù)建模E.F.Codd于70年代初提出關(guān)系數(shù)據(jù)理論,他因此獲得1981年的ACM圖靈獎(jiǎng)關(guān)系理論,是以“關(guān)系”(RELATION)為中心的,指的是具有單值(singlevalued)項(xiàng)的二維表。關(guān)系模型為我們提供了數(shù)據(jù)組織的技術(shù),這種技術(shù)考慮到了存儲(chǔ)與檢索數(shù)據(jù)過(guò)程中數(shù)據(jù)的一致性,并采用了公認(rèn)的數(shù)學(xué)運(yùn)算方法。規(guī)范化理論提出了一些規(guī)則,這些規(guī)則以新的方式來(lái)組織數(shù)據(jù),從而減少冗余和數(shù)據(jù)異常。規(guī)范化什么是規(guī)范化一種對(duì)數(shù)據(jù)元素進(jìn)行組織的數(shù)據(jù)建模技術(shù),消除數(shù)據(jù)冗余,確保數(shù)據(jù)一致性。Normalizationisasetofrulesandamethodologyformakingsurethattheattributesinadesignarecarriedinthecorrectentitytomapaccuratelytoreality,eliminatedataredundancyandminimizeupdateanomalies.非規(guī)范化的數(shù)據(jù)庫(kù)非規(guī)范數(shù)據(jù)庫(kù)導(dǎo)致的數(shù)據(jù)異?,F(xiàn)象:更新異常。數(shù)據(jù)多處存放,更新時(shí)可能會(huì)導(dǎo)致數(shù)據(jù)不一致。插入異常。插入數(shù)據(jù)可能會(huì)導(dǎo)致原有的關(guān)系被破壞。刪除異常。刪除數(shù)據(jù)可能會(huì)導(dǎo)致其他關(guān)系被刪除。Arelationisinfirstnormalformifitcontainsatomicvaluesonlyandnorepeatingvalues.第一范式(1NF)第二范式(2NF)Before- Cust#andCustNamearedependentonlyonPO#,notthewholeprimarykey.Cust#QtyPO#SeqNumPartNamePart#CustNameAfter(2NF)–Part#,PartName,andQtyareeachfullydependentontheprimarykey.Part#QtyPO#SeqNumPartNameCust#PO#CustNameArelationisinsecondnormalformifitisin1NFandeverynon-keyattributeisfullyfunctionallydependentontheprimarykey.第三范式(3NF)After(3NF)–Part#andQtyaremutuallyindependent.PartNamePart#Part#QtyPO#SeqNumArelationisinthirdnormalformifitisin2NFandeverynon-keyattributeismutuallyindependent(non-transitivelydependentontheprimarykey).Before-PartNameisdependentonPart#.Part#QtyPO#SeqNumPartNameCust#PO#CustNameneedtobechanged?多維模型多維模型通常用Cube來(lái)表示。多維模型可以更加直觀的表示現(xiàn)實(shí)中的復(fù)雜關(guān)系多維模型的基本組成:維、度量。舉例:計(jì)算每一個(gè)商場(chǎng)、每個(gè)產(chǎn)品的銷(xiāo)售額ProductStore多維模型發(fā)展聯(lián)機(jī)分析處理(OLAP)的提出聯(lián)機(jī)事務(wù)處理OLTP無(wú)法適應(yīng)分析型應(yīng)用的需求,包括對(duì)大量的數(shù)據(jù)從各個(gè)角度進(jìn)行綜合分析(多維分析),從不同級(jí)別(層次)進(jìn)行綜合分析。聯(lián)機(jī)分析處理(OLAP)的概念最早是由關(guān)系數(shù)據(jù)庫(kù)之父E.F.Codd于1993年提出的,他同時(shí)提出了關(guān)于OLAP的12條準(zhǔn)則。OLAP的提出引起了很大的反響,OLAP作為一類(lèi)產(chǎn)品同聯(lián)機(jī)事務(wù)處理(OLTP)明顯區(qū)分開(kāi)來(lái)。多維數(shù)據(jù)模型的組成維(Dimension)維層次路徑、維層次、維成員(維實(shí)例)、維層次屬性度量(Measure)數(shù)據(jù)立方體(Cube)維維的組織方式:維層次路徑(HIERARCHY)維層次路徑由代表不同詳細(xì)程度的維層次(Level)組成。維的層次:特定角度的不同細(xì)節(jié)程度維:對(duì)數(shù)據(jù)進(jìn)行分類(lèi)的一種結(jié)構(gòu),用于從特定的角度觀察數(shù)據(jù)。(例如:時(shí)間、地區(qū)、產(chǎn)品)維的兩個(gè)用途 選擇針對(duì)期望詳細(xì)程度的層次的數(shù)據(jù) 分組對(duì)細(xì)節(jié)數(shù)據(jù)綜合(聚集)到相應(yīng)的詳細(xì)程度的數(shù)據(jù)層次度量度量(指標(biāo)):數(shù)據(jù)的實(shí)際意義,一般是一個(gè)數(shù)值度量指標(biāo)例如:銷(xiāo)售量、銷(xiāo)售額,……一個(gè)度量的兩個(gè)組件數(shù)字型指標(biāo)聚集函數(shù)Cube一個(gè)多維模型構(gòu)成的多維數(shù)據(jù)空間我們將其稱(chēng)做數(shù)據(jù)立方體(Cube)其邏輯上相當(dāng)于一個(gè)多維數(shù)組這個(gè)方格代表在某個(gè)時(shí)間、某個(gè)地區(qū)通過(guò)某個(gè)銷(xiāo)售渠道所銷(xiāo)售的產(chǎn)品的銷(xiāo)售額地域時(shí)間銷(xiāo)售渠道

多維分析的基本分析動(dòng)作切片(Slice)切塊(Dice)旋轉(zhuǎn)(Rotate)鉆?。≧ollup/Drilldown)切片切塊timetime=“December2008”旋轉(zhuǎn)鉆取多維數(shù)據(jù)模型的實(shí)現(xiàn)技術(shù)RelationalOLAP(ROLAP)利用關(guān)系數(shù)據(jù)庫(kù)來(lái)存儲(chǔ)和管理基本數(shù)據(jù)和聚合數(shù)據(jù),并利用一些中間件來(lái)支持缺失數(shù)據(jù)的處理具有良好的可擴(kuò)展性MultidimensionalOLAP(MOLAP)利用多維數(shù)據(jù)庫(kù)來(lái)存放和管理基本數(shù)據(jù)和聚合數(shù)據(jù),其中需要對(duì)稀疏矩陣處理技術(shù)對(duì)預(yù)綜合的數(shù)據(jù)進(jìn)行快速索引HybridOLAP(HOLAP)利用關(guān)系數(shù)據(jù)庫(kù)來(lái)存儲(chǔ)和管理基本數(shù)據(jù),利用多維數(shù)據(jù)庫(kù)來(lái)存儲(chǔ)和管理聚合數(shù)據(jù)。星型模式(StarSchema)雪花模式(SnowFlakeSchema)數(shù)據(jù)架構(gòu)緩沖層結(jié)構(gòu)幾乎和源系統(tǒng)一致保持業(yè)務(wù)原貌少量數(shù)據(jù)保持少量歷史整合層面向整合主題設(shè)計(jì)提供規(guī)范和共享應(yīng)用集市層面向應(yīng)用按需定制匯總層初級(jí)的數(shù)據(jù)加工明細(xì)VS匯總依賴(lài)對(duì)應(yīng)用的提煉分析型應(yīng)用系統(tǒng)靈活查詢(xún)數(shù)據(jù)挖掘其他OLAP固定報(bào)表/KPIDashboard數(shù)據(jù)接口行內(nèi)系統(tǒng)接口行外系統(tǒng)接口IT人員業(yè)務(wù)分析人員決策用戶(hù)高級(jí)分析人員模型描述應(yīng)用模式應(yīng)用數(shù)據(jù)模型Application匯總層指星型固定查詢(xún)與報(bào)表初級(jí)階段的Ad-hoc匯雪花預(yù)Fact表偏邏輯化模型的PDM高階Ad-hoc數(shù)據(jù)挖掘源模型單系統(tǒng)固定報(bào)表及審計(jì)ETC專(zhuān)項(xiàng)應(yīng)用?Pactera.Confidential.AllRightsReserved.64數(shù)據(jù)倉(cāng)庫(kù)概念數(shù)據(jù)模型介紹數(shù)據(jù)管理介紹數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目實(shí)施基本概念元數(shù)據(jù)是描述數(shù)據(jù)的數(shù)據(jù),其內(nèi)容主要包括數(shù)據(jù)的格式、結(jié)構(gòu)、約束、加工過(guò)程、部署情況等。元數(shù)據(jù)管理包括元數(shù)據(jù)采集與關(guān)聯(lián)、元數(shù)據(jù)信息維護(hù)、標(biāo)準(zhǔn)代碼及術(shù)語(yǔ)信息維護(hù)等內(nèi)容。對(duì)元數(shù)據(jù)的分析包括血緣分析、影響分析等。元數(shù)據(jù)管理——什么是元數(shù)據(jù)元數(shù)據(jù)業(yè)務(wù)元數(shù)據(jù)業(yè)務(wù)屬性業(yè)務(wù)實(shí)體數(shù)據(jù)質(zhì)量業(yè)務(wù)規(guī)則技術(shù)元數(shù)據(jù)列/字段表/視圖/文件數(shù)據(jù)庫(kù)/文件服務(wù)器數(shù)據(jù)質(zhì)量控制規(guī)則數(shù)據(jù)映射邏輯……業(yè)務(wù)指標(biāo)企業(yè)級(jí)數(shù)據(jù)模型/

數(shù)據(jù)規(guī)范定義數(shù)據(jù)質(zhì)量貸款余額的定義貸款合同的定義還款日期>貸款日期CAPMCURBALCAPMdb2、sybase、oracleLen(身份證)=15或18ETL過(guò)程……不良貸款率的口徑指標(biāo)體系、報(bào)表體系數(shù)據(jù)質(zhì)量包含子項(xiàng)示例關(guān)聯(lián)工作數(shù)據(jù)架構(gòu)業(yè)務(wù)元數(shù)據(jù)與技術(shù)元數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)的例子城市的例子對(duì)象T03_Agreement鼓樓技術(shù)元數(shù)據(jù)1:19個(gè)字段2:1個(gè)索引3:41個(gè)源、20個(gè)目標(biāo)、0接口文件4:65個(gè)ETL任務(wù)5:對(duì)應(yīng)LDM實(shí)體—協(xié)議6:共修改3次1:8條公交2:一條地鐵3:北向南單行線(xiàn)4:附近的餐館、旅館5:門(mén)票20元業(yè)務(wù)元數(shù)據(jù)協(xié)議是金融機(jī)構(gòu)與團(tuán)體之間針對(duì)某種特定產(chǎn)品或服務(wù)而簽立的契約關(guān)系如:風(fēng)險(xiǎn)敞口的計(jì)算、不同種類(lèi)協(xié)議的評(píng)級(jí)、資產(chǎn)負(fù)債的缺口分析、客戶(hù)和銀行的往來(lái)情況(客戶(hù)貢獻(xiàn)、客戶(hù)買(mǎi)的什么產(chǎn)品、何時(shí)購(gòu)買(mǎi)的產(chǎn)品)等。

北京鼓樓在東城區(qū)地安門(mén)外大街。明永樂(lè)十八年(1420年)建,清嘉慶五年(1800年)重修。北京鼓樓下為高約4米的城臺(tái),北京鼓樓臺(tái)前后各有券門(mén)三道,左右各一道。北京鼓樓面闊5間,重檐三滴水灰瓦歇山頂。北京鼓樓是明清兩代向全城擊鼓報(bào)時(shí)之處。數(shù)據(jù)倉(cāng)庫(kù)為什么需要元數(shù)據(jù)管理普通的應(yīng)用為什么不需要元數(shù)據(jù)管理?表的數(shù)量少數(shù)據(jù)加工簡(jiǎn)單數(shù)據(jù)來(lái)源單一訪(fǎng)問(wèn)方式單一交鑰匙的應(yīng)用數(shù)據(jù)倉(cāng)庫(kù)為什么必須元數(shù)據(jù)管理?上下游系統(tǒng)多,變更頻繁加工復(fù)雜用戶(hù)訪(fǎng)問(wèn)方式復(fù)雜維護(hù)周期長(zhǎng)某銀行的DW數(shù)據(jù)舉例:上游系統(tǒng)60個(gè),下游系統(tǒng)20多個(gè),倉(cāng)庫(kù)內(nèi)部的表12000多個(gè),運(yùn)行的ETL任務(wù)3000多個(gè),每個(gè)月都有新版本上線(xiàn)數(shù)據(jù)質(zhì)量問(wèn)題背景數(shù)據(jù)倉(cāng)庫(kù)建設(shè)如火如荼數(shù)據(jù)質(zhì)量現(xiàn)狀堪憂(yōu)ETL源系統(tǒng)數(shù)據(jù)文件企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)集市多維立方體×!?數(shù)據(jù)質(zhì)量問(wèn)題對(duì)專(zhuān)業(yè)從事數(shù)據(jù)倉(cāng)庫(kù)的人來(lái)說(shuō),大都聽(tīng)說(shuō)過(guò)“garbagein,garbageout”這樣的言論,意思是有問(wèn)題的數(shù)據(jù)產(chǎn)生不出有意義的結(jié)果。有關(guān)“數(shù)據(jù)質(zhì)量”的爭(zhēng)執(zhí)從數(shù)據(jù)倉(cāng)庫(kù)建設(shè)伊始就開(kāi)始了“我的數(shù)據(jù)不是這樣的,一定是你的數(shù)據(jù)加載有問(wèn)題”,“我們?cè)谄渌到y(tǒng)中統(tǒng)計(jì)的結(jié)果與你們的不一樣,一定是你們的統(tǒng)計(jì)有問(wèn)題”

……因此,對(duì)數(shù)據(jù)質(zhì)量問(wèn)題的統(tǒng)一認(rèn)識(shí)以及如何“保證”數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的質(zhì)量,對(duì)數(shù)據(jù)倉(cāng)庫(kù)的接收認(rèn)可和推廣應(yīng)用起著至關(guān)重要的作用。數(shù)據(jù)質(zhì)量問(wèn)題概要分析:特點(diǎn)質(zhì)量問(wèn)題是非常隱蔽的質(zhì)量問(wèn)題是會(huì)擴(kuò)散的質(zhì)量問(wèn)題是會(huì)遺留的質(zhì)量問(wèn)題是長(zhǎng)期的工作質(zhì)量問(wèn)題是所有人的工作源數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)集市問(wèn)題數(shù)據(jù)正常數(shù)據(jù)正常數(shù)據(jù)正常數(shù)據(jù)正常數(shù)據(jù)正常數(shù)據(jù)ETLETL數(shù)據(jù)質(zhì)量管理——方法論影響分析&共性分析第三步

預(yù)防/修復(fù)數(shù)據(jù)質(zhì)量問(wèn)題人員流程信息趨勢(shì)監(jiān)控TimeErrorcount第六步研究趨勢(shì)變化ErrorcountTime第一步

Value第二步

追蹤根本原因第四步技術(shù)TimeErrorcount第五步TimeErrorcountErrorcountTimeErrorcountTime定義&驗(yàn)證ValueNo.ofOccurrencesValue當(dāng)今最具權(quán)威人士認(rèn)可的數(shù)據(jù)質(zhì)量管理最佳實(shí)踐方式數(shù)據(jù)質(zhì)量管理——處理策略產(chǎn)生環(huán)節(jié)集成環(huán)節(jié)使用環(huán)節(jié)業(yè)務(wù)源系統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)集市分析型應(yīng)用企業(yè)內(nèi)數(shù)據(jù)的流向數(shù)據(jù)質(zhì)量問(wèn)題產(chǎn)生的數(shù)量數(shù)據(jù)質(zhì)量問(wèn)題發(fā)現(xiàn)的數(shù)量基于數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)集市構(gòu)建數(shù)據(jù)質(zhì)量管理系統(tǒng),并將源系統(tǒng)、相關(guān)應(yīng)用以及相關(guān)科技和業(yè)務(wù)用戶(hù)都納入到數(shù)據(jù)質(zhì)量的發(fā)現(xiàn)-修正-跟蹤-評(píng)估的閉環(huán)流程當(dāng)中,是實(shí)施企業(yè)級(jí)數(shù)據(jù)質(zhì)量管理的最佳選擇。數(shù)據(jù)安全管理——概述數(shù)據(jù)安全管理體系可以分為管理控制策略與技術(shù)控制策略?xún)纱箢?lèi)。管理控制策略:主要指安全管理制度和流程、組織機(jī)構(gòu)。技術(shù)控制策略:使用技術(shù)手段監(jiān)視和控制對(duì)于數(shù)據(jù)的訪(fǎng)問(wèn),即數(shù)據(jù)庫(kù)安全、操作系統(tǒng)安全、物理安全和網(wǎng)絡(luò)安全等。數(shù)據(jù)安全管理體系數(shù)據(jù)安全管理——管理策略管理策略包括數(shù)據(jù)安全等級(jí)分類(lèi)、組織機(jī)構(gòu)和管理流程安全等級(jí)分類(lèi)機(jī)密信息:涉及企業(yè)機(jī)密的信息,比如HR數(shù)據(jù)、財(cái)務(wù)數(shù)據(jù)敏感信息:涉及客戶(hù)隱私的信息,比如證據(jù)信息、聯(lián)系信息公共信息:代碼信息、產(chǎn)品信息、統(tǒng)計(jì)匯總信息組織架構(gòu)安全管理策略制定數(shù)據(jù)分類(lèi)和用戶(hù)角色設(shè)定審計(jì)和監(jiān)管安全管理措施的執(zhí)行管理流程數(shù)據(jù)需求部門(mén)向安全主管部門(mén)提出數(shù)據(jù)訪(fǎng)問(wèn)申請(qǐng)主管部門(mén)對(duì)該申請(qǐng)進(jìn)行審核,審核通過(guò)后會(huì)向申請(qǐng)?zhí)岢稣甙l(fā)訪(fǎng)問(wèn)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論