




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、 數(shù)據(jù)倉庫概述1.1 數(shù)據(jù)倉庫的定義William H.Inmon(比爾·恩門):數(shù)據(jù)倉庫(Data Warehouse)是一個面向主題的(Subject Oriented)、集成的(Integrated)、相對穩(wěn)定的(Non-Volatile)、反映歷史變化的(Time Variant)數(shù)據(jù)集合,用于支持管理決策(Decision Making Support)和信息的全局共享(Global Sharing ofInformation)。其主要功能是將組織透過資訊系統(tǒng)之聯(lián)機(jī)事務(wù)處理(OLTP)經(jīng)年累月所累積的大量資料, 透過數(shù)據(jù)倉庫理論所特有的資料儲存架構(gòu),作一有系統(tǒng)的分析整理,以
2、利各種分析方法如聯(lián)機(jī)分析處理(OLAP)、數(shù)據(jù)挖掘(Data Mining)之進(jìn)行,并進(jìn)而支持如決策支持系統(tǒng)(DSS)、主管資訊系統(tǒng)(EIS)之創(chuàng)建,幫助決策者能快速有效的自大量資料中,分析出有價值的資訊,以利決策擬定及快速回應(yīng)外在環(huán)境 變動,幫助建構(gòu)商業(yè)智能(BI)。1.2 數(shù)據(jù)倉庫的發(fā)展歷程1. 萌芽階段。數(shù)據(jù)倉庫概念最早可追溯到20世紀(jì)70年代,MIT的研究員致力于研究一種優(yōu)化的技術(shù)架構(gòu),該架構(gòu)試圖將業(yè)務(wù)處理系統(tǒng)和分析系統(tǒng),即將業(yè)務(wù)處理和分析處理分為不同層次,各自的特點(diǎn)采取不同的架構(gòu)設(shè)計(jì)原則,MIT的研究員認(rèn)為這兩種信息處理的方式具有顯著差別,以 至于必須采取完全不同的架構(gòu)和設(shè)計(jì)方法。但
3、受限于當(dāng)時的信息處理能力,這個研究僅僅停留在理 論層面。2. 探索階段。20世紀(jì)80年代中后期,DEC公司結(jié)合MIT的研究結(jié)論,建立了TA2(TechnicalArchitecture2)規(guī)范,該規(guī)范定義了分析系統(tǒng)的四個組成部分:數(shù)據(jù)獲取、數(shù)據(jù)、目錄和用戶服務(wù)。這是系統(tǒng)架構(gòu)的一次轉(zhuǎn)變,第一次明確提出分析系統(tǒng)架構(gòu)并將其運(yùn)用于實(shí)踐。3. 雛形階段。1988年,為解決全企業(yè)集成問題,IBM公司第一次提出了信息倉庫(InformationWarehouse)的概念,并稱之為VITAL規(guī)范(VirtuallyIntegrated Technical Architecture Lifecycle)。VIT
4、AL定義了85種信息倉庫組件,包括PC、圖形化界面、面向?qū)ο蟮慕M件以及局域網(wǎng)等。至此,數(shù)據(jù)倉庫的基本原理、技術(shù)架構(gòu)以及分析系統(tǒng)的主要原則都已確定,數(shù)據(jù) 倉庫初具雛形。4. 確立階段。1991年Bill Inmon(比爾·恩門)了他的第一本關(guān)于數(shù)據(jù)倉庫的書Building theData Warehouse,標(biāo)志著數(shù)據(jù)倉庫概念的確立。該書指出,數(shù)據(jù)倉庫(DataWarehouse)是一個面向主題的(Subject Oriented)、集成的(Integrated)、相對穩(wěn)定的(Non-Volatile)、反映歷史變化的(Time Variant)數(shù)據(jù)集合,用于支持管理決策(Decisi
5、on-Making Support)。該書還提供了建立數(shù)據(jù)倉庫的指導(dǎo)意見和基本原則。憑借著這本書,Bill Inmon被稱為數(shù)據(jù)倉庫之父。數(shù)據(jù)倉庫的概念確立之后,有關(guān)數(shù)據(jù)倉庫的實(shí)施方法、實(shí)施路徑和架構(gòu)等問題了諸多爭議。1994年前后,實(shí)施數(shù)據(jù)倉庫的公司大都以失敗告終,導(dǎo)致數(shù)據(jù)集市的概念被提出并大范圍運(yùn)用,其代表 人物是Ralph Kimball。由于數(shù)據(jù)集市僅僅是數(shù)據(jù)倉庫的某一部分,實(shí)施難度大大降低,并且能夠滿足公司內(nèi)部部分業(yè)務(wù)部門的迫切需求,在初期獲得了較大。但隨著數(shù)據(jù)集市的不斷增多,這種架構(gòu)的缺陷也逐步顯現(xiàn)。公司內(nèi)部建設(shè)的數(shù)據(jù)集市由于遵循不同的標(biāo)準(zhǔn)和建設(shè)原則,以致多個數(shù)據(jù)集市的數(shù)據(jù)和不一致
6、。解決問題的方法只能是回歸到數(shù)據(jù)倉庫最初的基本建設(shè)原則上來。1998年,Inmon提出了新的BI架構(gòu)CIF(CorporationInformation Factory,企業(yè)信息工廠),新架構(gòu)在不同架構(gòu)層次上采用不同的構(gòu)件來滿足不同的業(yè)務(wù)需求。1.3 數(shù)據(jù)倉庫的四大特征1. 數(shù)據(jù)倉庫的數(shù)據(jù)是面向主題的2. 數(shù)據(jù)倉庫的數(shù)據(jù)是集成的3. 數(shù)據(jù)倉庫的數(shù)據(jù)是非易失的4. 數(shù)據(jù)倉庫的數(shù)據(jù)是隨時間不斷變化的1.3.1 面向主題主題(Subject):特定的數(shù)據(jù)分析領(lǐng)域與目標(biāo)。主題是根據(jù)分析的要求來確定的。這與按照數(shù)據(jù)處理或應(yīng)用的要求來組織數(shù)據(jù)是不同的。如在生產(chǎn)企業(yè) 中,同樣是材料供應(yīng),在操作型數(shù)據(jù)庫系統(tǒng)中
7、,人們所關(guān)心的是怎樣更方便和更快捷地進(jìn)行材料供應(yīng)的業(yè)務(wù)處理;而在進(jìn)行分析處理時,人們就應(yīng)該關(guān)心材料的不同采購質(zhì)量狀況等。和材料供應(yīng)是否及時,以及材料數(shù)據(jù)倉庫是面向分析、決策的要求的,不同的用戶有不同的要求,同一個用戶的要求也會隨時間而經(jīng)常變化,因此,數(shù)據(jù)倉庫中的主題有時會因用戶面向主題劃分如下:要求的變化而變化的。數(shù)據(jù)倉庫面向在數(shù)據(jù)模型中已經(jīng)定義好的公司的主要主題領(lǐng)域。典型的主題領(lǐng)域包括顧客、或是其他某項(xiàng)事務(wù)或活動。、訂單和財(cái)務(wù)基本主題:教育機(jī)構(gòu):學(xué)生、講師、班、課程等行業(yè):運(yùn)營、流量、價值、商品、市場、風(fēng)控、銷售等傳統(tǒng)行業(yè):供應(yīng)商、商品、客戶、倉庫等主題示例比如,對于Adventure Wo
8、rks Cycle這種類型的公司管理層需要分析的主題一般包括供應(yīng)商主題、商品主題、客戶主題和倉庫主題。其品主題的內(nèi)容包括超市商品的采購情況、商品 的銷售情況和商品的情況;客戶主題包括的內(nèi)容可能有客戶商品的情況;倉庫主題包括倉庫品的情況和倉庫的管理情況等,如下圖所示。確定主題邊界實(shí)際上需要進(jìn)一步理解業(yè)務(wù)關(guān)系,因此在確定整個分析主題后,還需要對這些主題進(jìn)行初 步的細(xì)化才便于獲取每一個主題應(yīng)該具有的邊界。對于上圖的4個主題及其在企業(yè)中的業(yè)務(wù)關(guān)系可以確 定邊界如下圖所示。主題雖然在信息包圖中只占據(jù)標(biāo)題的位置,但是卻是信息打包方法中最重要的部分,當(dāng)主題定義好之 后,數(shù)據(jù)倉庫中的邏輯模型也就基本成形了。此
9、時,需要在主題 的邏輯關(guān)系模式中包含所有的屬性及與系統(tǒng)相關(guān)的行為。數(shù)據(jù)倉庫中的數(shù)據(jù)結(jié)構(gòu)也需要在邏輯模型的設(shè)計(jì)階段完成定義,需要向里面增加所需要的信息和能充分 代表主題的屬性組。以Adventure Works Cycle這類公司數(shù)據(jù)倉庫為例,如下表所示可以分別在“商品”、“銷售”和“客戶”主題上增加能夠進(jìn)一步說明主題的屬性組。由于數(shù)據(jù)倉庫的設(shè)計(jì)是一個螺旋發(fā)展的過程,在剛開始,沒有必要在數(shù)據(jù)倉庫的數(shù)據(jù)庫中體現(xiàn)所有的主 題,選擇最重要的主題作為數(shù)據(jù)倉庫設(shè)計(jì)的試金石是很有必要的。因此使用主題首先是找到需要分析的 主題域。例如在AdventureWorksDW數(shù)據(jù)倉庫的概念模型設(shè)計(jì)中,在對需求進(jìn)行分析
10、后,認(rèn)識到“商品”主題既是 一個銷售型企業(yè)最基本的業(yè)務(wù)對象,又是進(jìn) 行決策分析的最主要領(lǐng)域,因而把“銷售分析”主題域定義為要首先建立的主題。通過“商品”主題的建立,經(jīng)營者就可以對整個企業(yè)的經(jīng)營狀況有較全面的了解。 先實(shí)施“商品”主題可以盡快地滿足企業(yè)管理施。建立數(shù)據(jù)倉庫的最初要求,所以先選定“商品”主題進(jìn)行實(shí)主題域主題域通常是較為緊密的數(shù)據(jù)主題的集合。可以根據(jù)業(yè)務(wù)的關(guān)注點(diǎn),將這些數(shù)據(jù)主題劃分到不同的主題域。主題域的確定必須由最終用戶和數(shù)據(jù)倉庫的設(shè)計(jì)共同完成。主題邊界的劃分應(yīng)該按照以下規(guī)則來進(jìn)行定義劃分。首先數(shù)據(jù)倉庫中邏輯模型根據(jù)業(yè)務(wù)劃分為多個主題域,主題域下面會涉及具體的實(shí)體表,維表以及關(guān)系實(shí)
11、體,這 些劃分可以按照下面規(guī)則來進(jìn)行劃分。a:每個主題域包含一個主要業(yè)務(wù)概念;b:每個主題域包含一個主要業(yè)務(wù)概念,用一個或幾個實(shí)體來表述。c:主題域與主題域之間的實(shí)體不能重疊,實(shí)體間的關(guān)系實(shí)體則可以出現(xiàn)在兩個主題域內(nèi);d:每個主題域中包含幾個關(guān)鍵的實(shí)體,且這幾個實(shí)體間具有直接的關(guān)聯(lián)關(guān)系。主題域的另一種定義是:對某個主題進(jìn)行分析后確定的主題的邊界。分析主題域,確定要裝載到數(shù)據(jù)倉庫的主 題是信息打包技術(shù)的第一步。而在進(jìn)行數(shù)據(jù)倉庫設(shè)計(jì)時,一般是一次先建立一個主題或企業(yè)全部主題中的一部分,因此在大多數(shù)數(shù)據(jù)倉庫的設(shè)計(jì)過程中都有一個主題域的選擇過程。主題域的確定必須由最終用戶和數(shù)據(jù)倉庫的設(shè)計(jì)共同完成。主題
12、域、主題、實(shí)體間關(guān)系主題設(shè)計(jì)是對主題域進(jìn)一步分解,細(xì)化的過程。主題域下面可以有多個主題,主題還可以劃分成更多的子主題,而實(shí)體則是不可劃分的最小。主題域、主題、實(shí)體的關(guān)系如下圖所示:主題域的劃分主題域的確定必須由最終用戶和數(shù)據(jù)倉庫的設(shè)計(jì)共同完成的, 而在劃分主題域時,大家的切入點(diǎn)不同可能會造成一些爭論、重構(gòu)等的現(xiàn)象,考慮的點(diǎn)可能會是下方的某些方面:1、按照業(yè)務(wù)或業(yè)務(wù)過程劃分:比如一個靠銷售位置的門戶主題域可能會有域,客戶域等,而域可能就會有的庫存,銷售分析、內(nèi)部投放分析等主題;2、根據(jù)需求方劃分:比如需求方為財(cái)務(wù)部,就可以設(shè)定對應(yīng)的財(cái)務(wù)主題域,而財(cái)務(wù)主題域里面可能就 會有員工工資分析,投資回報(bào)比
13、分析等主題;3、按照功能或應(yīng)用劃分:比如中的數(shù)據(jù)域、群聊數(shù)據(jù)域等,而數(shù)據(jù)域可能就會有用戶動態(tài)信息主題、主題等;4、按照部門劃分:比如可能會有運(yùn)營域、技術(shù)域等,運(yùn)營域中可能會有工資分析等主題;分析、活動宣傳效果主題域:1.3.2 集成集是指數(shù)據(jù)倉庫中數(shù)據(jù)必須是一致的。數(shù)據(jù)倉庫的數(shù)據(jù)是從原有的分散的多個數(shù)據(jù)庫、數(shù)據(jù)文件和數(shù)據(jù)段中抽取來的,數(shù)據(jù)來源可能既有內(nèi)部數(shù)據(jù)又有外部數(shù)據(jù)。數(shù)據(jù)倉庫中的數(shù)據(jù)是為分析服務(wù)的,而分析需要多種廣泛的不同數(shù)據(jù)源以便進(jìn)行比較、鑒別,因此 數(shù)據(jù)倉庫中的數(shù)據(jù)必須從多個數(shù)據(jù)源中獲取,這些數(shù)據(jù)源包括多種類型數(shù)據(jù)庫、文件系統(tǒng)以及Internet網(wǎng)上數(shù)據(jù)等,它們通過數(shù)據(jù)集成而形成數(shù)據(jù)倉
14、庫中的數(shù)據(jù)。集成的方法:統(tǒng)一:消除不一致的現(xiàn)象綜合:對原有數(shù)據(jù)進(jìn)行綜合和計(jì)算集成需要考慮的問題:數(shù)據(jù)格式計(jì)量數(shù)據(jù)代碼含義數(shù)據(jù)名稱1.3.3 非易失數(shù)據(jù)倉庫中的數(shù)據(jù)是經(jīng)過抽取而形成的分析型數(shù)據(jù),不具有原始性,主要供企業(yè)決策分析之用,執(zhí)行的主要是操作,一般情況下不執(zhí)行更新操作。同時,一個穩(wěn)定的數(shù)據(jù)環(huán)境也有利于數(shù)據(jù)分析操作和決策的制訂。面向應(yīng)用的事務(wù)數(shù)據(jù)庫需要對數(shù)據(jù)進(jìn)行頻繁的、更新操作,而對于數(shù)據(jù)倉庫中數(shù)據(jù)的操作僅限于數(shù)據(jù)的初始導(dǎo)入和。1.3.4 隨時間不斷變化數(shù)據(jù)倉庫以維的形式對數(shù)據(jù)進(jìn)行組織,時間維是數(shù)據(jù)倉庫中很重要的一個維度。并且數(shù)據(jù)倉庫中的 數(shù)據(jù)時間跨度大,從幾年甚至到幾十年,稱為歷史數(shù)據(jù)。數(shù)
15、據(jù)倉庫中的數(shù)據(jù)必須以一定時間段為數(shù)據(jù)變化方式:不斷增加新的數(shù)據(jù)內(nèi)容不斷刪去舊的數(shù)據(jù)內(nèi)容更新與時間有關(guān)的綜合數(shù)據(jù)進(jìn)行統(tǒng)一更新。數(shù)據(jù)的生命周期與行業(yè)、本身的需求有關(guān),比如金融業(yè)“在設(shè)計(jì)數(shù)據(jù)保存周期策略時,最常用的經(jīng)驗(yàn)法則是7年和13規(guī)則”基礎(chǔ)數(shù)據(jù)區(qū)里面通過歷史表(拉鏈表)來保存重要信息的歷史數(shù)據(jù),一般客戶類、賬戶類等信息要保留7年, 史。類流水類信息要保留至少13以上。除此之外,重要代碼、主數(shù)據(jù)也要通過歷史表保存歷根據(jù)業(yè)務(wù)決定數(shù)據(jù)的生命周期,比如數(shù)據(jù)對于數(shù)據(jù)分析沒多大作用,你想10年前的品、用戶都已經(jīng)完全不同了如果數(shù)據(jù)倉庫是僅用于分析的話(我看好多地方建立的數(shù)據(jù)倉庫僅用于統(tǒng)計(jì)分析,對于數(shù)據(jù)挖掘基本
16、都 沒有用),如果有大量的數(shù)據(jù)挖掘的話,那么數(shù)據(jù)多些對于結(jié)果越精確。(當(dāng)然,前提是你的歷史數(shù)據(jù) 質(zhì)量不太差的情況下)現(xiàn)在設(shè)備越來越便宜,如果不是數(shù)據(jù)量很驚人的話,一般是不用刪除或?qū)С龅?,因?yàn)閷?dǎo)出后是需要管理的。1.4 數(shù)據(jù)倉庫的用途整合業(yè)務(wù)數(shù)據(jù),建立統(tǒng)一的數(shù)據(jù)中心產(chǎn)生業(yè)務(wù)報(bào)表,用于作出決策為運(yùn)營提供運(yùn)營上的數(shù)據(jù)支持可以作為各個業(yè)務(wù)的數(shù)據(jù)源,形成業(yè)務(wù)數(shù)據(jù)互相反饋的良性循環(huán)分析用戶行為數(shù)據(jù),通過數(shù)據(jù)挖掘來降低投入成本,提高投入效果開發(fā)數(shù)據(jù),直接或間接地為公司1.5 OLAP VS. OLTP1.5.1 數(shù)據(jù)倉庫和數(shù)據(jù)庫關(guān)系1. 數(shù)倉主要用于解決企業(yè)級的數(shù)據(jù)分析問題。2. 數(shù)據(jù)庫是為捕獲和數(shù)據(jù)而設(shè)計(jì)
17、,數(shù)據(jù)倉庫是為分析數(shù)據(jù)而設(shè)計(jì)。3. 數(shù)據(jù)庫是面向事務(wù)設(shè)計(jì)的,屬于操作型。數(shù)據(jù)倉庫是面向分析,面向主題設(shè)計(jì)的,即信息是按主題 進(jìn)行組織的,屬于分析型。4. 數(shù)據(jù)庫設(shè)計(jì)是盡量避免冗余,一般采用符合范式的規(guī)則來設(shè)計(jì),數(shù)據(jù)倉庫在設(shè)計(jì)是有意引入冗余, 采用反范式的方式來設(shè)計(jì)。5. 數(shù)據(jù)庫是數(shù)據(jù)倉庫的基礎(chǔ),數(shù)據(jù)庫較小,而數(shù)據(jù)倉庫較大,通常一個數(shù)據(jù)倉庫中的數(shù)據(jù)來源于多個 數(shù)據(jù)庫的異構(gòu)。6. 數(shù)據(jù)不一樣。對比如下:1.5.2 OLAP VS. OLTP聯(lián)機(jī)事務(wù)處理OLTP(on-line transaction processing) 主要是執(zhí)行基本日常的事務(wù)處理,比如數(shù)據(jù)庫的增刪查改。比如在的一筆聯(lián)機(jī)分析處
18、理OLAP(On-Line Analytical Processing) 是數(shù)據(jù)倉庫系統(tǒng)的主要應(yīng)用,支持復(fù)雜的分析操作,側(cè)重決策支持,并且提供直觀易懂的OLTP的特點(diǎn)一般有:結(jié)果。典型的應(yīng)用就是復(fù)雜的動態(tài)的報(bào)表系統(tǒng)。1.實(shí)時性要求高。我記得之前上大學(xué)的時候,異地匯款,要隔天才能到賬,而現(xiàn)在是分分鐘到賬的節(jié)奏,說明現(xiàn)在的實(shí)時處理能力大大增強(qiáng)。2.數(shù)據(jù)量不是很大,生產(chǎn)庫上的數(shù)據(jù)量一般太大,而且會及時做相應(yīng)的數(shù)據(jù)處理與轉(zhuǎn)移。3.一般是確定的,比如存取款的金額肯定是確定的,所以O(shè)LTP是對確定性的數(shù)據(jù)進(jìn)行存取4.高并發(fā),并且要求滿足ACID原則。比如兩人同時操作一個萬的QPS請求。賬戶,比如大型的購物
19、秒殺活動時上OLAP的特點(diǎn)一般有:1.實(shí)時性要求不是很高,比如最常見的應(yīng)用就是天級更新數(shù)據(jù),然后出對應(yīng)的數(shù)據(jù)報(bào)表。2.數(shù)據(jù)量大,因?yàn)镺LAP支持的是動態(tài),所以用戶也許要通過將很多數(shù)據(jù)的統(tǒng)計(jì)后才能得到想要知道的信息,例如時間序列分析等等,所以處理的數(shù)據(jù)量很大;3.OLAP系統(tǒng)的重點(diǎn)是通過數(shù)據(jù)提供決策支持,所以一般都是動態(tài),自定義的。所以在OLAP中,維度的概念特別重要。一般會將用戶所有關(guān)心的維度數(shù)據(jù),存入對應(yīng)數(shù)據(jù)平臺。總結(jié):OLTP即聯(lián)機(jī)事務(wù)處理,就是我們經(jīng)常說的關(guān)系數(shù)據(jù)庫,增刪查改就是我們經(jīng)常應(yīng)用的東西,這是數(shù)據(jù)庫的基礎(chǔ);TPCC(Transaction Processing Performa
20、nce Council)屬于此類。OLAP即聯(lián)機(jī)分析處理,是數(shù)據(jù)倉庫的部心,所謂數(shù)據(jù)倉庫是對于大量已經(jīng)由OLTP形成的數(shù)據(jù)的一種分析型的數(shù)據(jù)庫,用于處理商業(yè)智能、決策支持等重要的決策信息;數(shù)據(jù)倉庫是在數(shù)據(jù)庫應(yīng)用到一定程序之后而對歷史數(shù)據(jù)的與分析,較多,更新較少,TPCH屬于此類。模式或者說nosql模式比傳統(tǒng)意義的行隨著大數(shù)據(jù)勢。的到來,對于OLAP,列模式可能更具優(yōu)聯(lián)機(jī)事務(wù)處理【OLTP Online Transaction Processing】聯(lián)機(jī)事務(wù)處理,表示事務(wù)性非常高的系統(tǒng),一般都是高可用的系統(tǒng),以小的事務(wù)以及小的為主,以傳統(tǒng)的關(guān)系型數(shù)據(jù)庫為主要應(yīng)用,主要是基本的、日常的事務(wù)處理,
21、主要為業(yè)務(wù)數(shù)據(jù),例如OLTP系統(tǒng)最容易出現(xiàn)瓶頸的地方就是CPU與磁盤子系統(tǒng)。 OLTP比較常用的設(shè)計(jì)與優(yōu)化方式為Cache技術(shù)與B-tree索引技術(shù).OLTP 系統(tǒng)是一個數(shù)據(jù)塊變化非常頻繁,SQL 語句提交非常頻繁的系統(tǒng).聯(lián)機(jī)分析處理【OLAP Online Analytical Processing】:聯(lián)機(jī)分析處理,有的時候也叫DSS決策支持系統(tǒng),就是我們說的數(shù)據(jù)倉庫,重點(diǎn)主要是面向分析,支持復(fù)雜的分析操作,側(cè)重決策支持,并且提供直觀易懂的結(jié)果。典型的應(yīng)用就是復(fù)雜的動態(tài)的報(bào)表系統(tǒng)。會產(chǎn)生大量的,一般很少涉及增刪改。在這樣的系統(tǒng)中,語句的執(zhí)行量不是標(biāo)準(zhǔn),因?yàn)橐粭l語句的執(zhí)行時間可能會非常長,的數(shù)
22、據(jù)也非常多。所以,在這樣的系統(tǒng)中,的標(biāo)準(zhǔn)往往是磁盤子系統(tǒng)的吞吐量(帶寬),如能達(dá)到多少M(fèi)B/s的流量。在OLAP系統(tǒng)中,常使用分區(qū)技術(shù)、并行技術(shù)。 分區(qū)技術(shù)在OLAP系統(tǒng)中的重要性主要體現(xiàn)在數(shù)據(jù)庫管理上,分區(qū)技術(shù)對性能上的影響,它可以使得一些大表的掃描變得很快(只掃描單個分區(qū))。另外,如果分區(qū)結(jié) 合并行的話,也可以使得整個表的掃描會變得很快??傊謪^(qū)主要的功能是管理上的方便性,它并不能絕對保證性能的提高,有時候分區(qū)會帶來性能上的提高,有時候會降低二 數(shù)據(jù)集市概述2.1 數(shù)據(jù)集市概念建立數(shù)據(jù)集市的數(shù)據(jù)倉庫是一種反映主題的全局性數(shù)據(jù)組織。但是,全局性數(shù)據(jù)倉庫往往太大,在實(shí)際應(yīng)用中將它 們按部門或
23、個人分別建立反映各個子主題的局部性數(shù)據(jù)組織,它們即是數(shù)據(jù)集市。因此,有時我們 也稱它為部門數(shù)據(jù)倉庫。數(shù)據(jù)集市:是按照主題域組織的數(shù)據(jù)集合,用于支持部門級的決策。例:在有關(guān)商品銷售的數(shù)據(jù)倉庫中可以建立多個不同主題的數(shù)據(jù)集市:商品采購數(shù)據(jù)集市庫房使用數(shù)據(jù)集市商品銷售數(shù)據(jù)集市2.2 集市分類按照數(shù)據(jù)獲取來源:型:直接從操作型環(huán)境獲取數(shù)據(jù)從屬型:從企業(yè)級數(shù)據(jù)倉庫獲取數(shù)據(jù)從屬集市和集市如下圖:集市建設(shè)途徑分為如下兩種:從 全局?jǐn)?shù)據(jù)倉庫 到 數(shù)據(jù)集市從 數(shù)據(jù)集市 到 全局?jǐn)?shù)據(jù)倉庫2.3 集市和主題的區(qū)別數(shù)據(jù)倉庫與數(shù)據(jù)集市的關(guān)系類似于傳統(tǒng)關(guān)系數(shù)據(jù)庫系統(tǒng)中的基表與視圖的關(guān)系。數(shù)據(jù)集市的數(shù)據(jù)來自數(shù)據(jù)倉庫,它是數(shù)
24、據(jù)倉庫中數(shù)據(jù)的一個部分與局部,是一個數(shù)據(jù)的再抽取與組 織的過程。具體區(qū)別如下:由于數(shù)據(jù)集市僅僅是數(shù)據(jù)倉庫的某一部分,實(shí)施難度大大降低,并且能夠滿足公司內(nèi)部部分業(yè)務(wù)部門的迫切需求,在初期獲得了較大。但隨著數(shù)據(jù)集市的不斷增多,這種架構(gòu)的缺陷也逐步顯現(xiàn)。公司內(nèi)部建設(shè)的數(shù)據(jù)集市由于遵循不同的標(biāo)準(zhǔn)和建設(shè)原則,以致多個數(shù)據(jù)集市的數(shù)據(jù)和不一致。這就是數(shù)據(jù)孤島(百科),也叫信息孤島。“企業(yè)發(fā)展到一定階段,出現(xiàn)多個事業(yè)部,每個事業(yè)部都有各自數(shù)據(jù),事業(yè)部之間的數(shù)據(jù)往往都各自,各自定義。每個事業(yè)部的數(shù)據(jù)就像一個個孤島一樣無法(或者極其)和企業(yè)內(nèi)部的其他數(shù)據(jù)進(jìn)行連接互動?!蔽覀儼堰@樣的情況稱為數(shù)據(jù)孤島。簡單說就是數(shù)據(jù)
25、間缺乏關(guān)聯(lián)性,數(shù)據(jù)庫彼此無法兼 容。專業(yè)儲,把數(shù)據(jù)孤島分為物理性和邏輯性兩種。物理性的數(shù)據(jù)孤島指的是,數(shù)據(jù)在不同部門相互存維護(hù),彼此間相互孤立,形成了物理上的孤島。邏輯性的數(shù)據(jù)孤島指的是,不同部門站在的角度對數(shù)據(jù)進(jìn)行理解和定義,使得一些相同的數(shù)據(jù)被賦予了不同的含義,無形中加大了跨部門數(shù)據(jù)合作的成本。解決問題的方法只能是回歸到數(shù)據(jù)倉庫最初的基本建設(shè)原則上來。1998年,Inmon提出了新的BI架構(gòu)CIF(CorporationInformation Factory,企業(yè)信息工廠),新架構(gòu)在不同架構(gòu)層次上采用不同的構(gòu)件來滿足不同的業(yè)務(wù)需求。2.4 數(shù)據(jù)倉庫架構(gòu)inmon架構(gòu)kimball架構(gòu)inm
26、on架構(gòu)和kimball架構(gòu)的區(qū)別就是inmon的數(shù)據(jù)倉庫是三范式企業(yè)級數(shù)據(jù)倉庫,kimball的數(shù)據(jù)庫時企業(yè)級數(shù)據(jù)倉庫。架構(gòu)優(yōu)缺點(diǎn)2.5 數(shù)倉架構(gòu)演變史對應(yīng)時間編年史數(shù)據(jù)倉庫第一代架構(gòu)(開發(fā)時間 2001-2002 年)海爾的一個 BI 項(xiàng)目,架構(gòu)的 ETL 使用的是 微軟的數(shù)據(jù)抽取知道有哪些弊端,后便給出了幾個 DTS 的截圖。工具 DTS,老人使用過微軟的 DTS功能:進(jìn)銷存分析、閉環(huán)分析、工貿(mào)分析等硬件環(huán)境:業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫:DB2 for Windows,SQL SERVER2000,ORACLE8I數(shù)據(jù)庫服務(wù)器:4EXON,2G,480GSCSI OLAP 服務(wù)器:2PIV1GHZ,
27、2G,240GSCSI開發(fā)環(huán)境:VISUAL BASIC,ASP,SQL SERVER 2000數(shù)據(jù)倉庫第二代架構(gòu)這是上海通用汽車的一個數(shù)據(jù)平臺,別看復(fù)雜,嚴(yán)格意義上來講這是一套 EDW 的架構(gòu)、在 EDS 數(shù)據(jù)倉庫中采用的是準(zhǔn)三范式的建模方式去構(gòu)建的、大約涉及到十幾種數(shù)據(jù)源,建模中按照某一條主線把數(shù)據(jù) 都集成起來這個數(shù)據(jù)倉庫平臺計(jì)劃三年的時間構(gòu)建完畢,第一階段計(jì)劃構(gòu)建統(tǒng)統(tǒng)一生性周期視圖、客戶統(tǒng)一視圖的 數(shù)據(jù),完成對數(shù)據(jù)質(zhì)量的摸底與部分實(shí)施為業(yè)務(wù)分析與信息共享提供基礎(chǔ)平臺。第二階段是完成主要業(yè)務(wù)數(shù)據(jù)集成與視圖統(tǒng)一,初步實(shí)現(xiàn)企業(yè)績效管理。第三階段全面完善企業(yè)級數(shù)據(jù)倉庫,實(shí)現(xiàn) 數(shù)據(jù)統(tǒng)一。業(yè)務(wù)的在第
28、一階段數(shù)據(jù)倉庫中的數(shù)據(jù)再次通過階梯型高度聚合進(jìn)入到數(shù)據(jù)集市 DM(非挖掘集市)中,完成對業(yè)務(wù)的支撐。數(shù)據(jù)的 ETL 采用 datastage 工具開發(fā)。數(shù)據(jù)集市架構(gòu)這個是國內(nèi)某析。的一套數(shù)據(jù)集市,這是一個典型數(shù)據(jù)集市的架構(gòu)模式、面向客戶經(jīng)理部門的分?jǐn)?shù)據(jù)倉庫混合性架構(gòu) (Cif)這是太平洋保險(xiǎn)的數(shù)據(jù)平臺。該平臺架構(gòu)顯然是一個混合型的數(shù)據(jù)倉庫架構(gòu)。它有混合數(shù)據(jù)倉庫的經(jīng)典結(jié)構(gòu),每一個層次功能定義的 非常明確。ODS 層 支撐單一的客戶視圖,是一個偏操作行的做唯一客戶識別的,同時提供高可用戶性客戶主信息。EDW 層基于 IIW(IBM 的通用模型去整理與實(shí)施)最細(xì)粒度、原子、含歷史的數(shù)據(jù),也支持各業(yè)務(wù)
29、數(shù)據(jù)集市面向詳細(xì)業(yè)務(wù),采用雪花 / 星型模型去做設(shè)計(jì)的支撐 OLAP、Report、現(xiàn)方式。三 數(shù)據(jù)倉庫案例。等數(shù)據(jù)展3.1 環(huán)境準(zhǔn)備源系統(tǒng)是mysql庫,數(shù)據(jù)模型如下建表語句如下:/*=*/* DBMS name:/* Created on:MySQL 5.02018/11/23 1:09:10*/*/*=*/CREATE DATABASE IF NOT EXISTS sales_source DEFAULT CHARSET utf8 COLLATEutf8_general_ci;USE sales_source;DROPTABLEIFEXISTScustomer;DROPTABLEIFEX
30、ISTSproduct;DROPTABLEIFEXISTSsales_order;/*=*/* Table: customer*/*=*/CREATE TABLE customer (customer_numbercustomer_nameINT(11) NOT NULL AUTO_INCREMENT,VARCHAR(128) NOT NULL,customer_street_address VARCHAR(256) NOT NULL,customer_zip_code customer_citycustomer_stateINT(11) NOT VARCHAR(32)VARCHAR(32)N
31、ULL,NOT NULL, NOT NULL,PRIMARY KEY (customer_number);/*=*/* Table: product*/*=*/CREATE TABLE product (product_code product_nameproduct_categoryINT(11) NOT NULL VARCHAR(128) NOTVARCHAR(256) NOTAUTO_INCREMENT, NULL,NULL,PRIMARY KEY (product_code);/*=*/* Table: sales_order*/*=*/CREATE TABLE sales_order
32、 (order_number customer_number product_code order_date entry_dateorder_amountINT(11)INT(11) INT(11)NOTNOT NOTNULL AUTO_INCREMENT, NULL,NULL,DATETIME NOT NULL, DATETIME NOT NULL,DECIMAL(18,2) NOT NULL,PRIMARY KEY (order_number);/*=*/* insert data*/*=*/INSERT INTO customer(,customer_name customer_stre
33、et_address customer_zip_code customer_citycustomer_state) VALUES('Big Customers', '7500 Louise Dr.', '17050','Mechanicsburg', 'PA'),( 'Small Stores', '2500 Woodland St.', '17055', 'Pittsburgh', 'PA')('Medium Retailer
34、s', '1111 Ritter Rd.', '17055','Pittsburgh', 'PA',),('Good Companies', '9500 Scott St.', '17050', 'Mechanicsburg', 'PA')('Wonderful Shops', '3333 Rossmoyne Rd.', '17050', 'Mechanicsburg', '
35、;PA')('Loyal Clients', '7070 Ritter Rd.', '17055','Pittsburgh', 'PA'),;INSERT INTO product(product_name,product_category) VALUES ('Hard Disk','Storage'),('Floppy Drive','Storage'),('lcd panel','monitor');DROP
36、 PROCEDURE IF EXISTS usp_generate_order_data; DELIMITER /CREATE PROCEDURE usp_generate_order_data()BEGINDROP TABLE IF EXISTS tmp_sales_order;CREATE TABLE tmp_sales_order AS SELECT * FROM sales_orderWHERE 1=0;SET SETSETstart_date := UNIX_TIMESTAMP('2020-1-1'); end_date := UNIX_TIMESTAMP('
37、2020-1-31');i := 1;WHILE i<=10000 DOSETSET SETcustomer_number := FLOOR(1+RAND()*6); product_code := FLOOR(1+RAND()* 3);order_date := FROM_UNIXTIME(start_date+RAND()*(end_date-start_date);SET amount := FLOOR(1000+RAND()*9000);INSERT INTO tmp_sales_order VALUES (i,customer_number,product_code,o
38、rder_date,order_date,amount);SET i := i +1; END WHILE;TRUNCATE TABLE sales_order; INSERT INTO sales_orderSELECT NULL,customer_number,product_code,order_date,entry_date,order_amount FROM tmp_sales_order;COMMIT;DROP TABLE tmp_sales_order; END /建完庫后的表和數(shù)據(jù)如下3.2 數(shù)倉分層3.2.1 分層概念CALL usp_generate_order_data(
39、);數(shù)據(jù)倉庫代表的是一種對數(shù)據(jù)的管理和使用的方式,它是一整套包括了etl、調(diào)度、建模在內(nèi)的完整的理論體系流程。數(shù)據(jù)倉庫在構(gòu)建過程中通常都需要進(jìn)行分層處理。業(yè)務(wù)不同,分層的技術(shù)處理 也不同。分層的主要:是在管理數(shù)據(jù)的時候,能對數(shù)據(jù)有一個更加清晰的掌控。詳細(xì)來講,主要有下面幾個清晰數(shù)據(jù)結(jié)構(gòu)每一個數(shù)據(jù)分層都有它的作用域,這樣我們在使用表的時候能更方便地?cái)?shù)據(jù)血緣追蹤和理解。簡單來說,我們最終給業(yè)務(wù)呈現(xiàn)的是一個能直接使用業(yè)務(wù)表,但是它的來源有很多,如果有一張來源表出問題了,我們希望能夠快速準(zhǔn)確地減少重復(fù)開發(fā)到問題,并清楚它的危害范圍。規(guī)范數(shù)據(jù)分層,開發(fā)一些通用的中間層數(shù)據(jù),能夠減少極大的重復(fù)計(jì)算。把復(fù)雜
40、問題簡單化將一個復(fù)雜的任務(wù)分解成多個步驟來完成,每一層只處理單一的步驟,比較簡單和容易理解。而且 便于維護(hù)數(shù)據(jù)的準(zhǔn)確性,當(dāng)數(shù)據(jù)出現(xiàn)問題之后,可以不用修復(fù)所有的數(shù)據(jù),只需要從有問題的步驟 開始修復(fù)。原始數(shù)據(jù)的異常業(yè)務(wù)的影響,不必改一次業(yè)務(wù)就需要重新接入數(shù)據(jù)3.2.2 分層的價值1.高效的數(shù)據(jù)組織形式【易維護(hù)】面向主題的特性決定了數(shù)據(jù)倉庫擁有業(yè)務(wù)數(shù)據(jù)庫所無法擁有的高效的數(shù)據(jù)組織形式,更加完 整的數(shù)據(jù)體系,清晰的數(shù)據(jù)分類和分層機(jī)制。因?yàn)樗袛?shù)據(jù)在進(jìn)入數(shù)據(jù)倉庫之前都經(jīng)過和過濾,使原始數(shù)據(jù)不再雜亂無章,基于優(yōu)化分析的效率。時間價值【高性能】的組織形式,有效提高數(shù)據(jù)獲取、統(tǒng)計(jì)和數(shù)據(jù)倉庫的構(gòu)建將大大縮短獲取
41、信息的時間,數(shù)據(jù)倉庫作為數(shù)據(jù)的集合,所有的信息都可以 從數(shù)據(jù)倉庫直接獲取,數(shù)據(jù)倉庫的最大優(yōu)勢在于一旦底層從各類數(shù)據(jù)源到數(shù)據(jù)倉庫的ETL流程構(gòu)建成型,那么每天就會有來自各方面的信息通過自動任務(wù)調(diào)度的形式流入數(shù)據(jù)倉庫,從而 使一切基于這些底層信息的數(shù)據(jù)獲取的效率達(dá)到迅速提升。從應(yīng)用來看,使用數(shù)據(jù)倉庫可以大大提高數(shù)據(jù)的效率,尤其對于海量數(shù)據(jù)的關(guān)聯(lián)和復(fù)雜,所以數(shù)據(jù)倉庫有利于實(shí)現(xiàn)復(fù)雜的統(tǒng)計(jì)需求,提高數(shù)據(jù)統(tǒng)計(jì)的效率。集成價值【簡單化】數(shù)據(jù)倉庫是所有數(shù)據(jù)的集合,包括日志信息、數(shù)據(jù)庫數(shù)據(jù)、文本數(shù)據(jù)、外部數(shù)據(jù)等都集成在數(shù)據(jù)倉庫中,對于應(yīng)用來說,實(shí)現(xiàn)各種不同數(shù)據(jù)的關(guān)聯(lián)并使分析更加方便,為從多角度多層次地?cái)?shù)據(jù)分析和
42、歷史數(shù)據(jù)【歷史性】提供的可能。歷史是數(shù)據(jù)倉庫的特性之一,數(shù)據(jù)倉庫能夠還原歷史時間點(diǎn)上的狀態(tài)、用戶狀態(tài)、用戶行為等,以便于能更好的回溯歷史,分析歷史,跟蹤用戶的歷史行為,更好地比較歷史和總結(jié)歷史,同時根據(jù)歷史3.2.3 常見分層未來。數(shù)倉的常見分層一般為3層,分別為:數(shù)據(jù)操作層、數(shù)據(jù)倉庫層和數(shù)據(jù)集市層。當(dāng)然根據(jù)研發(fā)經(jīng)驗(yàn)或者業(yè)務(wù),可以分為不同的層,只要能達(dá)到流程清晰、方便查數(shù)即可。ODS:Operate data store,操作數(shù)據(jù),是最接近數(shù)據(jù)源中數(shù)據(jù)的一層,數(shù)據(jù)源中的數(shù)據(jù),經(jīng)過抽取、洗凈、傳輸,也就說類方式而分類的。中的ETL之后,裝入本層。本層的數(shù)據(jù),總體上大多是按照業(yè)務(wù)系統(tǒng)的分例如這一層
43、可能包含的數(shù)據(jù)表可為:人口表(包含每個人的號、姓名、住址等)、機(jī)場登機(jī)(包含乘機(jī)人號、航班號、乘機(jī)日期、起飛城市等)、銀聯(lián)的刷卡信息表(包含號、刷卡地點(diǎn)、刷卡時間、刷卡金額等)、賬戶表(包含號、持卡人號等)等等一系列原始的業(yè)務(wù)數(shù)據(jù)。這里我們可以看到,這一層面的數(shù)據(jù)還具有鮮明的業(yè)務(wù)數(shù)據(jù)庫的特征,甚至還具有一定的關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)范式的組織形式。但是,這一層面的數(shù)據(jù)卻全等同于原始數(shù)據(jù)。在源數(shù)據(jù)裝入這一層時,根據(jù)業(yè)務(wù)不同,可能會進(jìn)行諸如去噪(例如去掉明顯偏離正常水平的刷卡信息)、去重(例如賬戶信息、局人口信息中均含有人的姓名,但是只保留一份即可)、提臟(例的人的刷,在十分鐘內(nèi)同時有統(tǒng)一、砍字段(例如
44、用于支撐前兩筆分別在中國和的刷卡信息,這便是臟數(shù)據(jù))、業(yè)務(wù)提取、端系統(tǒng)工作,但是在數(shù)據(jù)挖掘中不需要的字段)、業(yè)務(wù)判別等多項(xiàng)工作。ODS層數(shù)據(jù)的來源方式: 業(yè)務(wù)庫經(jīng)常會使用sqoop來抽取,比如我們每天定時抽取一次。在實(shí)時方面,可以考慮用canalmysql的binlog,實(shí)時接入即可。埋點(diǎn)日志線上系統(tǒng)會打入各種日志,這些日志一般以文件的形式保存,我們可以選擇用ume定時抽取,也可以用用spark streaming或者storm來實(shí)時接入,當(dāng)然,kafka也會是一個關(guān)鍵的其它數(shù)據(jù)源。不同的業(yè)務(wù)其它數(shù)據(jù)源不一樣,比如第數(shù)據(jù)。DW:Data warehouse,數(shù)據(jù)倉庫層。在這里,從ODS層中獲得
45、的數(shù)據(jù)按照主題建立各種數(shù)據(jù)模型。例如以研究人的旅游消費(fèi)為主題的數(shù)據(jù)集中,便可以結(jié)合航空公司的登機(jī)出行信息,以及銀統(tǒng)的刷卡記錄,進(jìn)行結(jié)合分析,產(chǎn)生數(shù)據(jù)集。在這里,我們需要了解四個概念:維(dimension)、事實(shí)(Fact)、指標(biāo)(Index)和粒度( Granularity)。DM:該層主要是提供數(shù)據(jù)和數(shù)據(jù)分析使用的數(shù)據(jù),一般會存放在es、mysql等系統(tǒng)中供線上系統(tǒng)使用,也可能會存在Hive或者Druid中供數(shù)據(jù)分析和數(shù)據(jù)挖掘使用。 比如我們經(jīng)常說的報(bào)表數(shù)據(jù),或者說那種大寬表,一般就放在這里。注意:每個分層不是必須要用ODS、DW、DM等字樣來標(biāo)識,可以隨便起名字,只要統(tǒng)一這一層是什么類型
46、 數(shù)據(jù),名字符合知名知意即可。分層協(xié)作層次圖分層協(xié)作案例3.2.4 維度層DIM存在度量值的表創(chuàng)建維度表,來從各個角度描述事實(shí)表。而一個項(xiàng)目中可能有很多張維度表,那 我們可以選擇將這些維度表放到單獨(dú)的一個庫中,形成維度庫,即可看成是維度層,意在讓數(shù)倉數(shù)據(jù)清 晰明了。3.3 數(shù)倉開發(fā)規(guī)范1 數(shù)據(jù)庫命名數(shù)據(jù)命名規(guī)則:數(shù)倉層_業(yè)務(wù)方式 如 ods_release/sda_release2 數(shù)倉各層對應(yīng)數(shù)據(jù)庫ods/sda層 -> sda/ods_業(yè)務(wù)(原始數(shù)據(jù)) dw層 -> dw_業(yè)務(wù) (主題庫)dim層 -> dim_維度 (維表庫) dm層 -> dm_業(yè)務(wù)(集市庫)
47、middle層 -> mid_業(yè)務(wù)(中間庫)臨時數(shù)據(jù) -> temp(臨時庫)3 表命名(3-1) 數(shù)據(jù)庫表命名規(guī)則:原始層表:數(shù)倉層_來源類型_業(yè)務(wù) 如 ods_01_其他表:數(shù)倉層_業(yè)務(wù) 如 dw_如果業(yè)務(wù)名稱較長可以簡寫 如 ods_01_xx_xx ods_01_xx(3-2) 數(shù)據(jù)來源代碼(sda層)01 -> hdfs數(shù)據(jù)3.4 數(shù)倉模型星型模式是維度模型最簡單的形式,也是比較常用的模型,我們的案例采用星型模型。所謂星型模型就是以一個事實(shí)表為中心,周圍星型模型將業(yè)務(wù)分為事實(shí)和維度。多個維度表。事實(shí)是業(yè)務(wù)數(shù)據(jù)的度量值,比如銷售額、銷售數(shù)量等,它了特定的量化指標(biāo),一般
48、是度量值和指向維表的外鍵組成。事實(shí)表的粒度級別通常會設(shè)計(jì)的比較低。事實(shí)表有三種類型:事務(wù)事實(shí)表:最低粒度級別的事實(shí)表,原始的操作型.快照事實(shí)表:累積事實(shí)表:給定時間點(diǎn)的事實(shí),如月底賬戶余額給定時間點(diǎn)的聚合事實(shí),如當(dāng)月的銷售金額.維度是對事實(shí)數(shù)據(jù)屬性的描述,如日期,省份,地區(qū)等,維度表的數(shù)據(jù)量通常不大。常用的維度表有:日期維度表,每個數(shù)據(jù)倉庫都需要一個日期維度表。地理維度表:描述位置信息的數(shù)據(jù),如,省份,城市,區(qū)縣,等維度表:描述維度表:描述及其屬性相關(guān)信息,部門員工表等范圍維度表:描述分段數(shù)據(jù)的信息等,比如信用等級3.5 項(xiàng)目物理模型02 -> mysql數(shù)據(jù)03 -> redis
49、數(shù)據(jù)04 -> mongodb數(shù)據(jù)05 -> tidb數(shù)據(jù)如ods_release.ods_01_release 投放數(shù)據(jù)ods_release.ods_02_user用戶表(業(yè)務(wù)表:存于MYSQL)dw_release.dw_customer 目標(biāo)客戶主題表dm_release.dm_customer_stat 目標(biāo)客戶統(tǒng)計(jì)表3.6 建庫、裝載數(shù)據(jù)連接hive創(chuàng)建rds庫創(chuàng)建表,如下create database sales_rds;/*=*/* Table: customer*/*=*/CREATE TABLE sales_rds.customer (customer_numb
50、ercustomer_nameINT ,VARCHAR(128) ,customer_street_address VARCHAR(256) ,customer_zip_code customer_citycustomer_stateINT , VARCHAR(32) ,VARCHAR(32);/*=*/* Table: product*/*=*/CREATE TABLE sales_duct (product_code product_nameproduct_categoryINT, VARCHAR(128) ,VARCHAR(256);/*=*/* Table: sales_
51、order*/*=*/CREATE TABLE sales_rds.sales_order (order_number customer_number product_code order_date entry_dateorder_amountINT , INT, INT ,timestamp , timestamp ,DECIMAL(18,2)row format delimitedfields terminated by 't'create database if not exists dw;use dw;create table dim_Product (product_sk product_code product_name product_category version effective_date expiry_date)int, int ,varchar(128), varchar(256), varchar(32), date,dateclus
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- T-ZSA 231-2024 氧化鎵單晶片X 射線雙晶搖擺曲線半高寬測試方法
- T-ZMDS 10022-2024 光學(xué)脊柱測量及姿態(tài)評估設(shè)備
- 二零二五年度名義購房代持合同中的房產(chǎn)繼承與轉(zhuǎn)讓安排
- 2025年度高品質(zhì)車位租賃與社區(qū)設(shè)施管理合同
- 二零二五年度安全生產(chǎn)評價資質(zhì)借用服務(wù)合同
- 2025年度高速公路監(jiān)控系統(tǒng)維保服務(wù)協(xié)議雙聯(lián)
- 二零二五年度解除勞動合同通知書及員工離職后商業(yè)保險(xiǎn)權(quán)益處理及終止協(xié)議
- 2025年度電力系統(tǒng)設(shè)備租賃合同模板
- 2025年美業(yè)美容儀器銷售代表入職合同
- 二零二五年度淘寶平臺商家入駐信息保密協(xié)議
- 不規(guī)則抗體篩查與鑒定
- 中國銀行海爾多聯(lián)機(jī)方案書
- 涂布機(jī)初級操作技術(shù)與維修培訓(xùn)課件
- GB/T 8417-2003燈光信號顏色
- GB/T 7984-2001輸送帶具有橡膠或塑料覆蓋層的普通用途織物芯輸送帶
- GB/T 7631.10-2013潤滑劑、工業(yè)用油和有關(guān)產(chǎn)品(L類)的分類第10部分:T組(渦輪機(jī))
- GB/T 7324-2010通用鋰基潤滑脂
- GB/T 28114-2011鎂質(zhì)強(qiáng)化瓷器
- GB/T 15566.1-2020公共信息導(dǎo)向系統(tǒng)設(shè)置原則與要求第1部分:總則
- 三菱電梯LEHY-II、LEGY緊急救援的盤車裝置切換說明
- 新編物理基礎(chǔ)學(xué)(上下冊1-17章)課后習(xí)題(每題都有)詳細(xì)答案
評論
0/150
提交評論