




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
第三章基本技術方法3.1
ETL入門3.2
技術路線3.3
ETL工具3.4
ETL子系統(tǒng)習題第三章基本技術方法3.1ETL入門3.2技術路線3.33.1
ETL入門第三章基本技術方法1ETL,全稱為Extraction-Transformation-Loading,中文名為數(shù)據(jù)抽取、轉(zhuǎn)換和加載。2ETL的主要功能是將分布的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)如關系數(shù)據(jù)、平面數(shù)據(jù)文件等抽取到臨時中間層后進行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉庫或數(shù)據(jù)集市中,成為聯(lián)機分析處理、數(shù)據(jù)挖掘的基礎。3ETL也是一個長期的過程,只有不斷地發(fā)現(xiàn)問題并解決問題,才能使ETL運行效率更高,為項目后期開發(fā)提供準確的數(shù)據(jù)。企業(yè)每年產(chǎn)生海量的數(shù)據(jù),這些數(shù)據(jù),有的對企業(yè)非常重要,有的對企業(yè)沒有用處。如何在海量數(shù)據(jù)中抽取出有用的數(shù)據(jù)?可以通過ETL來進行實現(xiàn)。3.1.1ETL解決方案3.1ETL入門第三章基本技術方法1ETL,全稱為Ex“一切圍繞需求”最終用戶提交界面數(shù)據(jù)集成業(yè)務需求數(shù)據(jù)評估大ETL系統(tǒng)的最終步驟是將數(shù)據(jù)提交給最終用戶,提交過程占據(jù)十分重要的位置,并對構(gòu)成最終用戶應用的數(shù)據(jù)結(jié)構(gòu)和內(nèi)容進行嚴格把關,確保其簡單快捷。。在數(shù)據(jù)進入數(shù)據(jù)倉庫之前,需要將全部數(shù)據(jù)無縫集成到一起。數(shù)據(jù)集成可采用規(guī)模化的表格來實現(xiàn),也就是在分離的數(shù)據(jù)庫中建立公共維度實體,從而快速構(gòu)建報表。業(yè)務需求是數(shù)據(jù)倉庫最終用戶的信息需求,它直接決定了數(shù)據(jù)源的選擇。在ETL設計時,需要考慮原始數(shù)據(jù)是否能解決用戶的業(yè)務需求,同時,業(yè)務需求和數(shù)據(jù)源的內(nèi)容是不斷變化的,需要對ETL不斷進行檢驗和討論。數(shù)據(jù)評估是使用分析方法來檢查數(shù)據(jù),充分了解數(shù)據(jù)的內(nèi)容、質(zhì)量。設計好的數(shù)據(jù)評估方法能夠處理海量數(shù)據(jù)。3.1
ETL入門第三章基本技術方法“一切圍繞需求”最終用戶提交界面數(shù)據(jù)集成業(yè)務需求數(shù)據(jù)評估大E“一切圍繞需求”3.1
ETL入門1.業(yè)務需求業(yè)務需求是數(shù)據(jù)倉庫最終用戶的信息需求,它直接決定了數(shù)據(jù)源的選擇。在許多情況下,最初對于數(shù)據(jù)源的調(diào)查不一定完全反映數(shù)據(jù)的復雜性和局限性,所以在ETL設計時,需要考慮原始數(shù)據(jù)是否能解決用戶的業(yè)務需求,同時,業(yè)務需求和數(shù)據(jù)源的內(nèi)容是不斷變化的,需要對ETL不斷進行檢驗和討論。對數(shù)據(jù)倉庫典型的需求包括:數(shù)據(jù)源的歸檔備份以及隨后的數(shù)據(jù)存儲。任何造成數(shù)據(jù)修改的交易記錄的完整性證明。對分配和調(diào)整的規(guī)則進行完備的文檔記錄。數(shù)據(jù)備份的安全性證明,不論是在線還是離線進行。第三章基本技術方法“一切圍繞需求”3.1ETL入門1.業(yè)務需求第三章基“一切圍繞需求”3.1
ETL入門2.數(shù)據(jù)評估
數(shù)據(jù)評估是使用分析方法來檢查數(shù)據(jù),充分了解數(shù)據(jù)的內(nèi)容、質(zhì)量。設計好的數(shù)據(jù)評估方法能夠處理海量數(shù)據(jù)。
例如,企業(yè)的訂單系統(tǒng),能夠很好地滿足生產(chǎn)部門的需求。但是對于數(shù)據(jù)倉庫來說,因為數(shù)據(jù)倉庫使用的字段并不是以訂單系統(tǒng)中的字段為中心,因此訂單系統(tǒng)中的信息對于數(shù)據(jù)倉庫的分析來講是遠遠不夠的。對于“臟”數(shù)據(jù)源需要進行操作處理,主要包括以下幾個方面:完全清除某些輸入字段;補入一些丟失的數(shù)據(jù);自動替換掉某些錯誤數(shù)據(jù)值;在記錄級別上進行人工干預;對數(shù)據(jù)進行完全規(guī)范化的表述。第三章基本技術方法“一切圍繞需求”3.1ETL入門2.數(shù)據(jù)評估第三章基“一切圍繞需求”3.1
ETL入門3.數(shù)據(jù)集成在數(shù)據(jù)進入數(shù)據(jù)倉庫之前,需要將全部數(shù)據(jù)無縫集成到一起。數(shù)據(jù)集成可采用規(guī)模化的表格來實現(xiàn),也就是在分離的數(shù)據(jù)庫中建立公共維度實體,從而快速構(gòu)建報表。在ELT系統(tǒng)中,數(shù)據(jù)集成是數(shù)據(jù)流程中一個獨立的步驟,叫作規(guī)格化步驟。4.最終用戶提交界面ETL系統(tǒng)的最終步驟是將數(shù)據(jù)提交給最終用戶,提交過程占據(jù)十分重要的位置,并對構(gòu)成最終用戶應用的數(shù)據(jù)結(jié)構(gòu)和內(nèi)容進行嚴格把關,確保其簡單快捷。將使用復雜、查詢緩慢的數(shù)據(jù)直接交給最終用戶是不負責的,經(jīng)常犯的一個錯誤就是將完全規(guī)范化的數(shù)據(jù)模型直接交給用戶,就不再過問。第三章基本技術方法“一切圍繞需求”3.1ETL入門3.數(shù)據(jù)集成第三章基ETL基本構(gòu)成數(shù)據(jù)抽取數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)加載3.1
ETL入門3.1.2ETL基本構(gòu)成第三章基本技術方法ETL基本構(gòu)成數(shù)據(jù)抽取數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)加載3.1ETL入門3.“一切圍繞需求”3.1
ETL入門1.數(shù)據(jù)抽取所謂數(shù)據(jù)抽取,就是從源端數(shù)據(jù)系統(tǒng)中抽取目標數(shù)據(jù)系統(tǒng)需要的數(shù)據(jù)。
進行數(shù)據(jù)抽取的原則:一是要求準確性,即能夠?qū)?shù)據(jù)源中的數(shù)據(jù)準確抽取到;二是不對源端數(shù)據(jù)系統(tǒng)的性能、響應時間等造成影響。數(shù)據(jù)抽取可分為全量抽取和增量抽取兩種方式。(1)全量抽取全量抽取好比數(shù)據(jù)的遷移和復制,它是將源端數(shù)據(jù)表中的數(shù)據(jù)一次性全部從數(shù)據(jù)庫中抽取出來,再進行下一步操作。(2)增量抽取增量抽取主要是在第一次全量抽取完畢后,需要對源端數(shù)據(jù)中新增或修改的數(shù)據(jù)進行抽取。增量抽取的關鍵是抽取自上次以來,數(shù)據(jù)表中已經(jīng)變化的數(shù)據(jù)。第三章基本技術方法“一切圍繞需求”3.1ETL入門1.數(shù)據(jù)抽取第三章基“一切圍繞需求”3.1
ETL入門1.數(shù)據(jù)抽?。?)增量抽取例如,在新生入學時,所有學生的信息采集整理屬于全量抽?。辉诤笃?,如果有個別學生或部分學生需要休學,對這部分學生的操作即屬于增量抽取。增量抽取一般有4種抽取模式①觸發(fā)器模式,這是普遍采用一種抽取模式。一般是建立3個觸發(fā)器,即插入、修改、刪除,并且要求用戶擁有操作權(quán)限。當觸發(fā)器獲得新增數(shù)據(jù)后,程序會自動從臨時表中讀取數(shù)據(jù)。這種模式性能高、規(guī)則簡單、效率高,且不需要修改業(yè)務系統(tǒng)表結(jié)構(gòu),可實現(xiàn)數(shù)據(jù)的遞增加載。第三章基本技術方法“一切圍繞需求”3.1ETL入門1.數(shù)據(jù)抽取第三章基“一切圍繞需求”of403.1
ETL入門1.數(shù)據(jù)抽?。?)增量抽?、跁r間戳方式,即在源數(shù)據(jù)表中增加一個時間戳字段。當系統(tǒng)修改源端數(shù)據(jù)表中的數(shù)據(jù)時,同時修改時間戳的值。在進行數(shù)據(jù)抽取時,通過比較系統(tǒng)時間和時間戳的值來決定需要抽取哪些數(shù)據(jù)。③全表對比方式,即每次從源端數(shù)據(jù)表中讀取所有數(shù)據(jù),然后逐條比較數(shù)據(jù),將修改過的數(shù)據(jù)過濾出來。此種方式主要采用MD5校驗碼。全表對比方式不會對源端表結(jié)構(gòu)產(chǎn)生影響。④日志對比方式,即通過分析數(shù)據(jù)庫的日志來抽取相應的數(shù)據(jù)。這種方式主要是在Oracle9i數(shù)據(jù)庫中引入的。以上4種方式中,時間戳方式是使用最為廣泛的,在銀行業(yè)務中采用的就是時間戳方式。第三章基本技術方法“一切圍繞需求”of403.1ETL入門1.數(shù)據(jù)抽取第三章“一切圍繞需求”3.1
ETL入門2.數(shù)據(jù)轉(zhuǎn)換
數(shù)據(jù)轉(zhuǎn)換就是將從數(shù)據(jù)源獲取的數(shù)據(jù)按照業(yè)務需求,通過轉(zhuǎn)換、清洗、拆分等,加工成目的數(shù)據(jù)源所需要的格式。數(shù)據(jù)轉(zhuǎn)換是ETL過程中最關鍵的步驟,它主要是對數(shù)據(jù)格式、數(shù)據(jù)類型等進行轉(zhuǎn)換。它可以在數(shù)據(jù)抽取過程中進行,也可以通過ETL引擎進行轉(zhuǎn)換。數(shù)據(jù)轉(zhuǎn)換的原因非常多,主要包括以下3種:①數(shù)據(jù)不完整,指數(shù)據(jù)庫的數(shù)據(jù)信息缺失。這種轉(zhuǎn)換需要對數(shù)據(jù)內(nèi)容進行二次輸入,以進行補全。②數(shù)據(jù)格式錯誤,指數(shù)據(jù)超出數(shù)據(jù)范圍。可通過定義完整性進行模式約束。③數(shù)據(jù)不一致,即主表與子表的數(shù)據(jù)不能匹配。可通過業(yè)務主管部門確認后,再進行二次抽取。第三章基本技術方法“一切圍繞需求”3.1ETL入門2.數(shù)據(jù)轉(zhuǎn)換第三章基“一切圍繞需求”3.1
ETL入門3.數(shù)據(jù)加載數(shù)據(jù)加載是ETL的最后一個步驟,即將數(shù)據(jù)從臨時表或文件中,加載到指定的數(shù)據(jù)倉庫中。一般來說,有直接SQL語句操作和利用裝載工具進行加載兩種方式,最佳裝載方式取決于操作類型以及數(shù)據(jù)的加載量。第三章基本技術方法“一切圍繞需求”3.1ETL入門第三章基本技術方法“一切圍繞需求”3.1
ETL入門3.1.3ETL技術選型ETL技術的選型,主要從成本、人員、案例和技術支持來衡量。目前流行的3種主要技術為Datastage、Powercenter和ETLAutomation。在Datastage和Powercenter中,ETL技術選型可以從對ETL流程的支持,對元數(shù)據(jù)的支持和對數(shù)據(jù)質(zhì)量的支持來考慮,同時從兼顧維護的實用性、定制開發(fā)的支持等方面考慮。在ETL中,數(shù)據(jù)抽取過程多則上百,少則十幾個,它們之間的依賴關系、出錯控制及恢復的流程都是需要考慮的。第三章基本技術方法“一切圍繞需求”3.1ETL入門3.1.3ETL技術選第三章基本技術方法3.1
ETL入門3.2
技術路線3.3
ETL工具3.4
ETL子系統(tǒng)習題大數(shù)據(jù)應用人才培養(yǎng)系列教材第三章基本技術方法3.1ETL入門3.2技術路線3.3數(shù)據(jù)的來源不同文本清洗RDBMS清洗Web內(nèi)容清洗3.2技術路線第三章基本技術方法數(shù)據(jù)的來源不同文本清洗RDBMS清洗Web內(nèi)容清洗3.2技第三章基本技術方法3.2技術路線3.2.1文本清洗路線
對文本進行清洗主要包括電子表格中的數(shù)據(jù)清洗和文本編輯器的數(shù)據(jù)清洗。對于電子表格中的數(shù)據(jù)清洗,主要是利用表格中的行和列,以及電子表格中的內(nèi)置函數(shù)。我們通常把一些數(shù)據(jù)復制到電子表格中,電子表格根據(jù)相應分隔符(制表位或逗號或其他)把數(shù)據(jù)分成不同的列。有時候會根據(jù)系統(tǒng)不同來人為地制定分隔符。
對于文本編輯器中的數(shù)據(jù)清洗,主要是許多操作系統(tǒng)中集成了文本編輯器,如Windows操作系統(tǒng)中的文本編輯器。在進行文本清洗前,需要對數(shù)據(jù)進行整理,包括對數(shù)據(jù)中的數(shù)據(jù)改變大小寫、在文本每一行前端增加前綴,主要是為了在轉(zhuǎn)換過程中,有可以參考的分隔符。第三章基本技術方法3.2技術路線3.2.1文本清洗路第三章基本技術方法3.2技術路線
3.2.2RDBMS清洗路線
RDBMS即關系型數(shù)據(jù)庫管理系統(tǒng),它作為經(jīng)典的、長期使用的數(shù)據(jù)存儲解決方案,成為數(shù)據(jù)存儲的標準。但由于不同的人在設計數(shù)據(jù)庫時,往往存在設計缺陷,需要對數(shù)據(jù)庫的數(shù)據(jù)進行清洗。通過清洗可以找到異常數(shù)據(jù),通常使用不同的策略來清洗不同類型的數(shù)據(jù)。對于RDBMS數(shù)據(jù)的清洗,有兩種方式可以選擇,即可以先把數(shù)據(jù)導入數(shù)據(jù)庫,然后在數(shù)據(jù)庫端進行清洗;也可以在電子表格或文本編輯器中進行清洗。具體選擇哪種方案,會根據(jù)不同的數(shù)據(jù)進行不同的選擇。第三章基本技術方法3.2技術路線第三章基本技術方法3.2技術路線
3.2.3Web內(nèi)容清洗路線Web內(nèi)容清洗,主要是清洗來自網(wǎng)絡的數(shù)據(jù),為其構(gòu)建合理的清洗方案。Web數(shù)據(jù)主要來自HTML網(wǎng)頁。HTML網(wǎng)頁的頁面結(jié)構(gòu)決定了采取哪種方式。1.HTML頁面結(jié)構(gòu)2.清洗方式第三章基本技術方法3.2技術路線第三章基本技術方法3.2技術路線
1.HTML頁面結(jié)構(gòu)文本組成。所以從Web中進行數(shù)據(jù)抽取,可有兩種不同的方式,一種是行分隔方式,另一種是樹形結(jié)構(gòu)方式。在行分隔方式中,我們把網(wǎng)頁的數(shù)據(jù)看作文本內(nèi)容,把網(wǎng)頁中的標簽理解為分隔符,這樣在進行數(shù)據(jù)抽取時就比較容易。2.清洗方式Web內(nèi)容清洗可以有兩種方式,一種是逐行方式,另一種是使用樹形結(jié)構(gòu)方式。逐行方式中,采用基于正則表達式的HTML分析技術,它是基于文件中的分隔符,配合正則表達式,獲取需要的數(shù)據(jù)。第三章基本技術方法3.2技術路線第三章基本技術方法3.3
ETL工具3.2
技術路線3.1
ETL入門3.4
ETL子系統(tǒng)習題大數(shù)據(jù)應用人才培養(yǎng)系列教材第三章基本技術方法3.3ETL工具3.2技術路線3.1多平臺管理和調(diào)試功能集成性和開放性3.3
ETL工具數(shù)據(jù)轉(zhuǎn)換多種數(shù)據(jù)源管理元數(shù)據(jù)第三章基本技術方法ETL功能多平臺管理和調(diào)試功能集成性和開放性3.3ETL工具數(shù)據(jù)轉(zhuǎn)換第三章基本技術方法3.3ETL工具3.3.1ETL功能
評價ETL設計的好壞需要從多個不同的角度來考慮,主要包括對多平臺的支持、數(shù)據(jù)源格式的支持、數(shù)據(jù)的轉(zhuǎn)換、數(shù)據(jù)的管理和調(diào)試、數(shù)據(jù)的集成和開放性以及對元數(shù)據(jù)的管理等方面。1.多平臺業(yè)務數(shù)據(jù)量的飛速增長,對系統(tǒng)的可靠性提出了更高的要求。對于海量的數(shù)據(jù)抽取,往往要求在有限的時間內(nèi)完成。所以,平臺對ETL開發(fā)工具的支持成為衡量一個開發(fā)工具的重要指標。目前主流的平臺包括Windows、Linux、IBMAIX、MacOS等。第三章基本技術方法3.3ETL工具3.3.1第三章基本技術方法3.3ETL工具
3.3.1ETL功能
2.多種數(shù)據(jù)源開發(fā)工具對數(shù)據(jù)源的支持非常重要,不僅要考慮項目開發(fā)中各種不同類型的數(shù)據(jù)源,還要考慮數(shù)據(jù)源的接口類型。例如,在數(shù)據(jù)抽取時,使用原廠商自己的專用接口,還是通用接口,效率會大不一樣。數(shù)據(jù)源包括Oracle、SQLServer、DB2、Sybase、MicrosoftExcel等。
3.數(shù)據(jù)轉(zhuǎn)換由于在業(yè)務系統(tǒng)中的數(shù)據(jù),存在數(shù)據(jù)時間跨度大、數(shù)據(jù)量多而亂的特點,就會造成在數(shù)據(jù)業(yè)務系統(tǒng)中可能會有多種完全不同的存儲格式,也有可能業(yè)務系統(tǒng)存儲的數(shù)據(jù)需要進行計算才能夠抽取,因此,ETL功能中必須要有對數(shù)據(jù)進行計算、合并、拆分等轉(zhuǎn)換功能。第三章基本技術方法3.3ETL工具3.3.1第三章基本技術方法3.3ETL工具3.3.1ETL功能
4.具備管理和調(diào)試功能由于數(shù)據(jù)業(yè)務量的增大,對數(shù)據(jù)抽取的要求也越來越高,專業(yè)的ETL工具要求具有管理和調(diào)度的功能,主要包括抽取過程的備份和恢復、版本升級、版本管理、支持統(tǒng)一的管理平臺等功能。
5.集成性和開放性隨著國內(nèi)數(shù)據(jù)倉庫技術的不斷發(fā)展,大多數(shù)情況下一般項目只會用到ETL工具的少數(shù)幾個功能,開發(fā)商將ETL工具的主要功能模塊集成到自己的系統(tǒng)中,這樣可以減少用戶的操作錯誤。這就要求ETL能夠具有較好的集成性和開放性。第三章基本技術方法3.3ETL工具3.3.1第三章基本技術方法3.3ETL工具
3.3.1ETL功能
6.管理元數(shù)據(jù)元數(shù)據(jù)是描述數(shù)據(jù)的數(shù)據(jù),它是對業(yè)務數(shù)據(jù)本身及其運行環(huán)境的描述與定義,主要用于支持業(yè)務系統(tǒng)應用。元數(shù)據(jù)的主要表現(xiàn)是對對象的描述,即對數(shù)據(jù)庫、表、列、主鍵等的描述。在當前信息化建設中,一些應用的異構(gòu)性和分布性越來越普遍,使用統(tǒng)一的元數(shù)據(jù)成為重要的選擇,合理的元數(shù)據(jù)可以打破以往信息化建設中的“信息孤島”等問題。第三章基本技術方法3.3ETL工具3.3.1第三章基本技術方法of40263.3ETL工具3.3.2開源ETL工具
1.PentahoKettleKettle是一款國外的開源ETL工具,純Java編寫,可以在Windows、Linux、UNIX上運行,無須安裝,數(shù)據(jù)抽取高效穩(wěn)定。Kettle(中文譯名:水壺),該項目的主程序員Matt希望把各種數(shù)據(jù)放到一個壺里,然后以一種指定的格式流出。Kettle將ETL流程編譯為XML格式,學起來十分簡單,PentahoDataIntegration(Kettle)使用Java(Swing)開發(fā)。Kettle作為編譯器對以XML格式書寫的流程進行編譯。Kettle的JavaScript引擎(和Java引擎)可以深層地控制對數(shù)據(jù)的處理。第三章基本技術方法of40263.3ETL工具第三章基本技術方法3.3ETL工具3.3.2開源ETL工具
2.OpenRefineOpenRefine最初叫作FreebaseGridworks,由一家名為Metaweb的公司開發(fā),主要用于調(diào)試各種表格,以避免隨著時間的推移出現(xiàn)錯誤,這對于任何數(shù)據(jù)庫來說都是一個很大的問題。后來,該軟件被谷歌收購,更名為GoogleRefine,并發(fā)布了第2版。2012年10月,GoogleRefine被社區(qū)接管,并以OpenRefine為名進行了開源。第三章基本技術方法3.3ETL工具3.3.2第三章基本技術方法3.3ETL工具
3.3.2開源ETL工具
3.DataWranglerDataWrangler(中文譯名:牧馬人)是一款由斯坦福大學開發(fā)的在線數(shù)據(jù)清洗、數(shù)據(jù)重組軟件,主要用于去除無效數(shù)據(jù),將數(shù)據(jù)整理成用戶需要的格式等。使用DataWrangler能節(jié)約用戶花在數(shù)據(jù)整理上的時間,從而使其有更多的精力用于數(shù)據(jù)分析。(校企)第三章基本技術方法3.3ETL工具3.3.2第三章基本技術方法3.3ETL工具
3.3.2開源ETL工具
4.HawkHawk是一種數(shù)據(jù)抓取和清洗工具,依據(jù)GPL協(xié)議開源,軟件基于C#實現(xiàn),其前端界面使用WPF開發(fā),支持插件擴展。能夠靈活高效地采集網(wǎng)頁、數(shù)據(jù)庫、文件等來源的數(shù)據(jù),并通過可視化拖曳操作,快速地進行生成、過濾、轉(zhuǎn)換等數(shù)據(jù)操作,快速建立解決方案。非常適合作為網(wǎng)頁爬蟲和數(shù)據(jù)清洗工具。Hawk含義為“鷹”,形容能夠高效、準確地抓取和清洗數(shù)據(jù)。(校企)第三章基本技術方法3.3ETL工具3.3.2第三章基本技術方法3.4
ETL子系統(tǒng)3.2
技術路線3.3
ETL工具3.1
ETL入門習題大數(shù)據(jù)應用人才培養(yǎng)系列教材第三章基本技術方法3.4ETL子系統(tǒng)3.2技術路線3.第三章基本技術方法3.4ETL子系統(tǒng)3.4.1抽取
抽取類子系統(tǒng)中,主要包括數(shù)據(jù)分析系統(tǒng)、增量捕獲系統(tǒng)和數(shù)據(jù)抽取系統(tǒng)。數(shù)據(jù)分析系統(tǒng)主要用來分析不同類型的數(shù)據(jù)源,包括數(shù)據(jù)源的格式、數(shù)據(jù)的類型、數(shù)據(jù)的內(nèi)容等。數(shù)據(jù)增量捕獲系統(tǒng)主要是捕獲數(shù)據(jù)源中發(fā)生了改變的數(shù)據(jù),在Kettle中可通過時間戳的方式來捕獲數(shù)據(jù)的變化。數(shù)據(jù)抽取系統(tǒng)主要是從不同的數(shù)據(jù)源抽取數(shù)據(jù),通過數(shù)據(jù)的過濾和排序,數(shù)據(jù)格式的轉(zhuǎn)換,遷移到ETL環(huán)境,進行數(shù)據(jù)暫存。第三章基本技術方法3.4ETL子系統(tǒng)3.4.1抽第三章基本技術方法3.4ETL子系統(tǒng)3.4.2清洗和更正數(shù)據(jù)清洗和更正數(shù)據(jù)子系統(tǒng)主要包括數(shù)據(jù)清洗系統(tǒng)、錯誤處理系統(tǒng)、審計維度系統(tǒng)、重復數(shù)據(jù)排查系統(tǒng)和數(shù)據(jù)一致性系統(tǒng)。數(shù)據(jù)清洗系統(tǒng)主要是根據(jù)系統(tǒng)業(yè)務需求對數(shù)據(jù)源中的數(shù)據(jù)進行清洗,提高數(shù)據(jù)的質(zhì)量。通過清洗,可以找到錯誤的數(shù)據(jù),并進行更正。在數(shù)據(jù)清洗系統(tǒng)中,數(shù)據(jù)業(yè)務人員、源系統(tǒng)開發(fā)人員、ELT開發(fā)人員都有義務來完成數(shù)據(jù)的清洗。第三章基本技術方法3.4ETL子系統(tǒng)第三章基本技術方法3.4ETL子系統(tǒng)3.4.3數(shù)據(jù)發(fā)布
數(shù)據(jù)發(fā)布類子系統(tǒng)主要是加載和更新數(shù)據(jù)倉庫數(shù)據(jù),包括數(shù)據(jù)緩慢變化維度處理系統(tǒng)、遲到維度處理系統(tǒng)、代理鍵生成系統(tǒng)等。這里主要講述數(shù)據(jù)緩慢變化維度處理系統(tǒng)。數(shù)據(jù)緩慢變化維度處理系統(tǒng)是多維度數(shù)據(jù)倉庫的基礎,它保存了對事實表進行分析的信息。例如,如果業(yè)務系統(tǒng)修改了客戶的信息,維度變更也會根據(jù)不同的規(guī)則變更數(shù)據(jù)倉庫中的數(shù)據(jù)維度。變更方式可采用覆蓋、增加新行、增加新列、增加小維度表、分離歷史表等方式。第三章基本技術方法3.4ETL子系統(tǒng)第三章基本技術方法3.4ETL子系統(tǒng)
3.4.4管理ETL
管理ETL系統(tǒng)主要是對ETL開發(fā)環(huán)境進行設置,包括備份系統(tǒng)、恢復和重新啟動子系統(tǒng)、工作流監(jiān)控系統(tǒng)、問題報告系統(tǒng)、版本控制系統(tǒng)等。第三章基本技術方法3.4ETL子系統(tǒng)第三章基本技術方法3.4
ETL子系統(tǒng)3.2
技術路線3.3
ETL工具3.1
ETL入門習題大數(shù)據(jù)應用人才培養(yǎng)系列教材第三章基本技術方法3.4ETL子系統(tǒng)3.2技術路線3.1.什么是ETL,其主要功能是什么?2.對數(shù)據(jù)倉庫典型的需求包括哪幾個方面?3.在數(shù)據(jù)評估中,對數(shù)據(jù)源進行清潔處理主要包括哪幾個方面?4.簡述比較流行的開源ETL工具。5.ETL子系統(tǒng)主要包括哪4種類型?習題:1.什么是ETL,其主要功能是什么?習題:感謝聆聽感謝聆聽第三章基本技術方法3.1
ETL入門3.2
技術路線3.3
ETL工具3.4
ETL子系統(tǒng)習題第三章基本技術方法3.1ETL入門3.2技術路線3.33.1
ETL入門第三章基本技術方法1ETL,全稱為Extraction-Transformation-Loading,中文名為數(shù)據(jù)抽取、轉(zhuǎn)換和加載。2ETL的主要功能是將分布的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)如關系數(shù)據(jù)、平面數(shù)據(jù)文件等抽取到臨時中間層后進行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉庫或數(shù)據(jù)集市中,成為聯(lián)機分析處理、數(shù)據(jù)挖掘的基礎。3ETL也是一個長期的過程,只有不斷地發(fā)現(xiàn)問題并解決問題,才能使ETL運行效率更高,為項目后期開發(fā)提供準確的數(shù)據(jù)。企業(yè)每年產(chǎn)生海量的數(shù)據(jù),這些數(shù)據(jù),有的對企業(yè)非常重要,有的對企業(yè)沒有用處。如何在海量數(shù)據(jù)中抽取出有用的數(shù)據(jù)?可以通過ETL來進行實現(xiàn)。3.1.1ETL解決方案3.1ETL入門第三章基本技術方法1ETL,全稱為Ex“一切圍繞需求”最終用戶提交界面數(shù)據(jù)集成業(yè)務需求數(shù)據(jù)評估大ETL系統(tǒng)的最終步驟是將數(shù)據(jù)提交給最終用戶,提交過程占據(jù)十分重要的位置,并對構(gòu)成最終用戶應用的數(shù)據(jù)結(jié)構(gòu)和內(nèi)容進行嚴格把關,確保其簡單快捷。。在數(shù)據(jù)進入數(shù)據(jù)倉庫之前,需要將全部數(shù)據(jù)無縫集成到一起。數(shù)據(jù)集成可采用規(guī)?;谋砀駚韺崿F(xiàn),也就是在分離的數(shù)據(jù)庫中建立公共維度實體,從而快速構(gòu)建報表。業(yè)務需求是數(shù)據(jù)倉庫最終用戶的信息需求,它直接決定了數(shù)據(jù)源的選擇。在ETL設計時,需要考慮原始數(shù)據(jù)是否能解決用戶的業(yè)務需求,同時,業(yè)務需求和數(shù)據(jù)源的內(nèi)容是不斷變化的,需要對ETL不斷進行檢驗和討論。數(shù)據(jù)評估是使用分析方法來檢查數(shù)據(jù),充分了解數(shù)據(jù)的內(nèi)容、質(zhì)量。設計好的數(shù)據(jù)評估方法能夠處理海量數(shù)據(jù)。3.1
ETL入門第三章基本技術方法“一切圍繞需求”最終用戶提交界面數(shù)據(jù)集成業(yè)務需求數(shù)據(jù)評估大E“一切圍繞需求”3.1
ETL入門1.業(yè)務需求業(yè)務需求是數(shù)據(jù)倉庫最終用戶的信息需求,它直接決定了數(shù)據(jù)源的選擇。在許多情況下,最初對于數(shù)據(jù)源的調(diào)查不一定完全反映數(shù)據(jù)的復雜性和局限性,所以在ETL設計時,需要考慮原始數(shù)據(jù)是否能解決用戶的業(yè)務需求,同時,業(yè)務需求和數(shù)據(jù)源的內(nèi)容是不斷變化的,需要對ETL不斷進行檢驗和討論。對數(shù)據(jù)倉庫典型的需求包括:數(shù)據(jù)源的歸檔備份以及隨后的數(shù)據(jù)存儲。任何造成數(shù)據(jù)修改的交易記錄的完整性證明。對分配和調(diào)整的規(guī)則進行完備的文檔記錄。數(shù)據(jù)備份的安全性證明,不論是在線還是離線進行。第三章基本技術方法“一切圍繞需求”3.1ETL入門1.業(yè)務需求第三章基“一切圍繞需求”3.1
ETL入門2.數(shù)據(jù)評估
數(shù)據(jù)評估是使用分析方法來檢查數(shù)據(jù),充分了解數(shù)據(jù)的內(nèi)容、質(zhì)量。設計好的數(shù)據(jù)評估方法能夠處理海量數(shù)據(jù)。
例如,企業(yè)的訂單系統(tǒng),能夠很好地滿足生產(chǎn)部門的需求。但是對于數(shù)據(jù)倉庫來說,因為數(shù)據(jù)倉庫使用的字段并不是以訂單系統(tǒng)中的字段為中心,因此訂單系統(tǒng)中的信息對于數(shù)據(jù)倉庫的分析來講是遠遠不夠的。對于“臟”數(shù)據(jù)源需要進行操作處理,主要包括以下幾個方面:完全清除某些輸入字段;補入一些丟失的數(shù)據(jù);自動替換掉某些錯誤數(shù)據(jù)值;在記錄級別上進行人工干預;對數(shù)據(jù)進行完全規(guī)范化的表述。第三章基本技術方法“一切圍繞需求”3.1ETL入門2.數(shù)據(jù)評估第三章基“一切圍繞需求”3.1
ETL入門3.數(shù)據(jù)集成在數(shù)據(jù)進入數(shù)據(jù)倉庫之前,需要將全部數(shù)據(jù)無縫集成到一起。數(shù)據(jù)集成可采用規(guī)模化的表格來實現(xiàn),也就是在分離的數(shù)據(jù)庫中建立公共維度實體,從而快速構(gòu)建報表。在ELT系統(tǒng)中,數(shù)據(jù)集成是數(shù)據(jù)流程中一個獨立的步驟,叫作規(guī)格化步驟。4.最終用戶提交界面ETL系統(tǒng)的最終步驟是將數(shù)據(jù)提交給最終用戶,提交過程占據(jù)十分重要的位置,并對構(gòu)成最終用戶應用的數(shù)據(jù)結(jié)構(gòu)和內(nèi)容進行嚴格把關,確保其簡單快捷。將使用復雜、查詢緩慢的數(shù)據(jù)直接交給最終用戶是不負責的,經(jīng)常犯的一個錯誤就是將完全規(guī)范化的數(shù)據(jù)模型直接交給用戶,就不再過問。第三章基本技術方法“一切圍繞需求”3.1ETL入門3.數(shù)據(jù)集成第三章基ETL基本構(gòu)成數(shù)據(jù)抽取數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)加載3.1
ETL入門3.1.2ETL基本構(gòu)成第三章基本技術方法ETL基本構(gòu)成數(shù)據(jù)抽取數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)加載3.1ETL入門3.“一切圍繞需求”3.1
ETL入門1.數(shù)據(jù)抽取所謂數(shù)據(jù)抽取,就是從源端數(shù)據(jù)系統(tǒng)中抽取目標數(shù)據(jù)系統(tǒng)需要的數(shù)據(jù)。
進行數(shù)據(jù)抽取的原則:一是要求準確性,即能夠?qū)?shù)據(jù)源中的數(shù)據(jù)準確抽取到;二是不對源端數(shù)據(jù)系統(tǒng)的性能、響應時間等造成影響。數(shù)據(jù)抽取可分為全量抽取和增量抽取兩種方式。(1)全量抽取全量抽取好比數(shù)據(jù)的遷移和復制,它是將源端數(shù)據(jù)表中的數(shù)據(jù)一次性全部從數(shù)據(jù)庫中抽取出來,再進行下一步操作。(2)增量抽取增量抽取主要是在第一次全量抽取完畢后,需要對源端數(shù)據(jù)中新增或修改的數(shù)據(jù)進行抽取。增量抽取的關鍵是抽取自上次以來,數(shù)據(jù)表中已經(jīng)變化的數(shù)據(jù)。第三章基本技術方法“一切圍繞需求”3.1ETL入門1.數(shù)據(jù)抽取第三章基“一切圍繞需求”3.1
ETL入門1.數(shù)據(jù)抽?。?)增量抽取例如,在新生入學時,所有學生的信息采集整理屬于全量抽??;在后期,如果有個別學生或部分學生需要休學,對這部分學生的操作即屬于增量抽取。增量抽取一般有4種抽取模式①觸發(fā)器模式,這是普遍采用一種抽取模式。一般是建立3個觸發(fā)器,即插入、修改、刪除,并且要求用戶擁有操作權(quán)限。當觸發(fā)器獲得新增數(shù)據(jù)后,程序會自動從臨時表中讀取數(shù)據(jù)。這種模式性能高、規(guī)則簡單、效率高,且不需要修改業(yè)務系統(tǒng)表結(jié)構(gòu),可實現(xiàn)數(shù)據(jù)的遞增加載。第三章基本技術方法“一切圍繞需求”3.1ETL入門1.數(shù)據(jù)抽取第三章基“一切圍繞需求”of403.1
ETL入門1.數(shù)據(jù)抽?。?)增量抽?、跁r間戳方式,即在源數(shù)據(jù)表中增加一個時間戳字段。當系統(tǒng)修改源端數(shù)據(jù)表中的數(shù)據(jù)時,同時修改時間戳的值。在進行數(shù)據(jù)抽取時,通過比較系統(tǒng)時間和時間戳的值來決定需要抽取哪些數(shù)據(jù)。③全表對比方式,即每次從源端數(shù)據(jù)表中讀取所有數(shù)據(jù),然后逐條比較數(shù)據(jù),將修改過的數(shù)據(jù)過濾出來。此種方式主要采用MD5校驗碼。全表對比方式不會對源端表結(jié)構(gòu)產(chǎn)生影響。④日志對比方式,即通過分析數(shù)據(jù)庫的日志來抽取相應的數(shù)據(jù)。這種方式主要是在Oracle9i數(shù)據(jù)庫中引入的。以上4種方式中,時間戳方式是使用最為廣泛的,在銀行業(yè)務中采用的就是時間戳方式。第三章基本技術方法“一切圍繞需求”of403.1ETL入門1.數(shù)據(jù)抽取第三章“一切圍繞需求”3.1
ETL入門2.數(shù)據(jù)轉(zhuǎn)換
數(shù)據(jù)轉(zhuǎn)換就是將從數(shù)據(jù)源獲取的數(shù)據(jù)按照業(yè)務需求,通過轉(zhuǎn)換、清洗、拆分等,加工成目的數(shù)據(jù)源所需要的格式。數(shù)據(jù)轉(zhuǎn)換是ETL過程中最關鍵的步驟,它主要是對數(shù)據(jù)格式、數(shù)據(jù)類型等進行轉(zhuǎn)換。它可以在數(shù)據(jù)抽取過程中進行,也可以通過ETL引擎進行轉(zhuǎn)換。數(shù)據(jù)轉(zhuǎn)換的原因非常多,主要包括以下3種:①數(shù)據(jù)不完整,指數(shù)據(jù)庫的數(shù)據(jù)信息缺失。這種轉(zhuǎn)換需要對數(shù)據(jù)內(nèi)容進行二次輸入,以進行補全。②數(shù)據(jù)格式錯誤,指數(shù)據(jù)超出數(shù)據(jù)范圍。可通過定義完整性進行模式約束。③數(shù)據(jù)不一致,即主表與子表的數(shù)據(jù)不能匹配。可通過業(yè)務主管部門確認后,再進行二次抽取。第三章基本技術方法“一切圍繞需求”3.1ETL入門2.數(shù)據(jù)轉(zhuǎn)換第三章基“一切圍繞需求”3.1
ETL入門3.數(shù)據(jù)加載數(shù)據(jù)加載是ETL的最后一個步驟,即將數(shù)據(jù)從臨時表或文件中,加載到指定的數(shù)據(jù)倉庫中。一般來說,有直接SQL語句操作和利用裝載工具進行加載兩種方式,最佳裝載方式取決于操作類型以及數(shù)據(jù)的加載量。第三章基本技術方法“一切圍繞需求”3.1ETL入門第三章基本技術方法“一切圍繞需求”3.1
ETL入門3.1.3ETL技術選型ETL技術的選型,主要從成本、人員、案例和技術支持來衡量。目前流行的3種主要技術為Datastage、Powercenter和ETLAutomation。在Datastage和Powercenter中,ETL技術選型可以從對ETL流程的支持,對元數(shù)據(jù)的支持和對數(shù)據(jù)質(zhì)量的支持來考慮,同時從兼顧維護的實用性、定制開發(fā)的支持等方面考慮。在ETL中,數(shù)據(jù)抽取過程多則上百,少則十幾個,它們之間的依賴關系、出錯控制及恢復的流程都是需要考慮的。第三章基本技術方法“一切圍繞需求”3.1ETL入門3.1.3ETL技術選第三章基本技術方法3.1
ETL入門3.2
技術路線3.3
ETL工具3.4
ETL子系統(tǒng)習題大數(shù)據(jù)應用人才培養(yǎng)系列教材第三章基本技術方法3.1ETL入門3.2技術路線3.3數(shù)據(jù)的來源不同文本清洗RDBMS清洗Web內(nèi)容清洗3.2技術路線第三章基本技術方法數(shù)據(jù)的來源不同文本清洗RDBMS清洗Web內(nèi)容清洗3.2技第三章基本技術方法3.2技術路線3.2.1文本清洗路線
對文本進行清洗主要包括電子表格中的數(shù)據(jù)清洗和文本編輯器的數(shù)據(jù)清洗。對于電子表格中的數(shù)據(jù)清洗,主要是利用表格中的行和列,以及電子表格中的內(nèi)置函數(shù)。我們通常把一些數(shù)據(jù)復制到電子表格中,電子表格根據(jù)相應分隔符(制表位或逗號或其他)把數(shù)據(jù)分成不同的列。有時候會根據(jù)系統(tǒng)不同來人為地制定分隔符。
對于文本編輯器中的數(shù)據(jù)清洗,主要是許多操作系統(tǒng)中集成了文本編輯器,如Windows操作系統(tǒng)中的文本編輯器。在進行文本清洗前,需要對數(shù)據(jù)進行整理,包括對數(shù)據(jù)中的數(shù)據(jù)改變大小寫、在文本每一行前端增加前綴,主要是為了在轉(zhuǎn)換過程中,有可以參考的分隔符。第三章基本技術方法3.2技術路線3.2.1文本清洗路第三章基本技術方法3.2技術路線
3.2.2RDBMS清洗路線
RDBMS即關系型數(shù)據(jù)庫管理系統(tǒng),它作為經(jīng)典的、長期使用的數(shù)據(jù)存儲解決方案,成為數(shù)據(jù)存儲的標準。但由于不同的人在設計數(shù)據(jù)庫時,往往存在設計缺陷,需要對數(shù)據(jù)庫的數(shù)據(jù)進行清洗。通過清洗可以找到異常數(shù)據(jù),通常使用不同的策略來清洗不同類型的數(shù)據(jù)。對于RDBMS數(shù)據(jù)的清洗,有兩種方式可以選擇,即可以先把數(shù)據(jù)導入數(shù)據(jù)庫,然后在數(shù)據(jù)庫端進行清洗;也可以在電子表格或文本編輯器中進行清洗。具體選擇哪種方案,會根據(jù)不同的數(shù)據(jù)進行不同的選擇。第三章基本技術方法3.2技術路線第三章基本技術方法3.2技術路線
3.2.3Web內(nèi)容清洗路線Web內(nèi)容清洗,主要是清洗來自網(wǎng)絡的數(shù)據(jù),為其構(gòu)建合理的清洗方案。Web數(shù)據(jù)主要來自HTML網(wǎng)頁。HTML網(wǎng)頁的頁面結(jié)構(gòu)決定了采取哪種方式。1.HTML頁面結(jié)構(gòu)2.清洗方式第三章基本技術方法3.2技術路線第三章基本技術方法3.2技術路線
1.HTML頁面結(jié)構(gòu)文本組成。所以從Web中進行數(shù)據(jù)抽取,可有兩種不同的方式,一種是行分隔方式,另一種是樹形結(jié)構(gòu)方式。在行分隔方式中,我們把網(wǎng)頁的數(shù)據(jù)看作文本內(nèi)容,把網(wǎng)頁中的標簽理解為分隔符,這樣在進行數(shù)據(jù)抽取時就比較容易。2.清洗方式Web內(nèi)容清洗可以有兩種方式,一種是逐行方式,另一種是使用樹形結(jié)構(gòu)方式。逐行方式中,采用基于正則表達式的HTML分析技術,它是基于文件中的分隔符,配合正則表達式,獲取需要的數(shù)據(jù)。第三章基本技術方法3.2技術路線第三章基本技術方法3.3
ETL工具3.2
技術路線3.1
ETL入門3.4
ETL子系統(tǒng)習題大數(shù)據(jù)應用人才培養(yǎng)系列教材第三章基本技術方法3.3ETL工具3.2技術路線3.1多平臺管理和調(diào)試功能集成性和開放性3.3
ETL工具數(shù)據(jù)轉(zhuǎn)換多種數(shù)據(jù)源管理元數(shù)據(jù)第三章基本技術方法ETL功能多平臺管理和調(diào)試功能集成性和開放性3.3ETL工具數(shù)據(jù)轉(zhuǎn)換第三章基本技術方法3.3ETL工具3.3.1ETL功能
評價ETL設計的好壞需要從多個不同的角度來考慮,主要包括對多平臺的支持、數(shù)據(jù)源格式的支持、數(shù)據(jù)的轉(zhuǎn)換、數(shù)據(jù)的管理和調(diào)試、數(shù)據(jù)的集成和開放性以及對元數(shù)據(jù)的管理等方面。1.多平臺業(yè)務數(shù)據(jù)量的飛速增長,對系統(tǒng)的可靠性提出了更高的要求。對于海量的數(shù)據(jù)抽取,往往要求在有限的時間內(nèi)完成。所以,平臺對ETL開發(fā)工具的支持成為衡量一個開發(fā)工具的重要指標。目前主流的平臺包括Windows、Linux、IBMAIX、MacOS等。第三章基本技術方法3.3ETL工具3.3.1第三章基本技術方法3.3ETL工具
3.3.1ETL功能
2.多種數(shù)據(jù)源開發(fā)工具對數(shù)據(jù)源的支持非常重要,不僅要考慮項目開發(fā)中各種不同類型的數(shù)據(jù)源,還要考慮數(shù)據(jù)源的接口類型。例如,在數(shù)據(jù)抽取時,使用原廠商自己的專用接口,還是通用接口,效率會大不一樣。數(shù)據(jù)源包括Oracle、SQLServer、DB2、Sybase、MicrosoftExcel等。
3.數(shù)據(jù)轉(zhuǎn)換由于在業(yè)務系統(tǒng)中的數(shù)據(jù),存在數(shù)據(jù)時間跨度大、數(shù)據(jù)量多而亂的特點,就會造成在數(shù)據(jù)業(yè)務系統(tǒng)中可能會有多種完全不同的存儲格式,也有可能業(yè)務系統(tǒng)存儲的數(shù)據(jù)需要進行計算才能夠抽取,因此,ETL功能中必須要有對數(shù)據(jù)進行計算、合并、拆分等轉(zhuǎn)換功能。第三章基本技術方法3.3ETL工具3.3.1第三章基本技術方法3.3ETL工具3.3.1ETL功能
4.具備管理和調(diào)試功能由于數(shù)據(jù)業(yè)務量的增大,對數(shù)據(jù)抽取的要求也越來越高,專業(yè)的ETL工具要求具有管理和調(diào)度的功能,主要包括抽取過程的備份和恢復、版本升級、版本管理、支持統(tǒng)一的管理平臺等功能。
5.集成性和開放性隨著國內(nèi)數(shù)據(jù)倉庫技術的不斷發(fā)展,大多數(shù)情況下一般項目只會用到ETL工具的少數(shù)幾個功能,開發(fā)商將ETL工具的主要功能模塊集成到自己的系統(tǒng)中,這樣可以減少用戶的操作錯誤。這就要求ETL能夠具有較好的集成性和開放性。第三章基本技術方法3.3ETL工具3.3.1第三章基本技術方法3.3ETL工具
3.3.1ETL功能
6.管理元數(shù)據(jù)元數(shù)據(jù)是描述數(shù)據(jù)的數(shù)據(jù),它是對業(yè)務數(shù)據(jù)本身及其運行環(huán)境的描述與定義,主要用于支持業(yè)務系統(tǒng)應用。元數(shù)據(jù)的主要表現(xiàn)是對對象的描述,即對數(shù)據(jù)庫、表、列、主鍵等的描述。在當前信息化建設中,一些應用的異構(gòu)性和分布性越來越普遍,使用統(tǒng)一的元數(shù)據(jù)成為重要的選擇,合理的元數(shù)據(jù)可以打破以往信息化建設中的“信息孤島”等問題。第三章基本技術方法3.3ETL工具3.3.1第三章基本技術方法of40633.3ETL工具3.3.2開源ETL工具
1.PentahoKettleKettle是一款國外的開源ETL工具,純Java編寫,可以在Windows、Linux、UNIX上運行,無須安裝,數(shù)據(jù)抽取高效穩(wěn)定。Kettle(中文譯名:水壺),該項目的主程序員Matt希望把各種數(shù)據(jù)放到一個壺里,然后以一種指定的格式流出。Kettle將ETL流程編譯為XML格式,學起來十分簡單,PentahoDataIntegration(Kettle)使用Java(Swing)開發(fā)。Kettle作為編譯器對以XML格式書寫的流程進行編譯。Kettle的JavaScript引擎(和Java引擎)可以深層地控制對數(shù)據(jù)的處理。第三章基本技術方法of40263.3ETL工具第三章基本技術方法3.3ETL工具3.3.2開源ETL工具
2.OpenRefineOpenRefine最初叫作FreebaseGridworks,由一家名為Metaweb的公司開發(fā),主要用于調(diào)試各種表格,以避免隨著時間的推移出現(xiàn)錯誤,這對于任何數(shù)據(jù)庫來說都是一個很大的問題。后來,該軟件被谷歌收購,更名為GoogleRefine,并發(fā)布了第2版。2012年10月,GoogleRefine被社區(qū)接管,并以OpenRefi
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年遼寧省丹東市振安區(qū)數(shù)學三年級第一學期期末監(jiān)測試題含解析
- 2024年江西省南昌市新建區(qū)三年級數(shù)學第一學期期末考試模擬試題含解析
- 棕色中國風從四大發(fā)明說起
- 執(zhí)業(yè)護士考試科目之間關系試題及答案
- 行政管理應對變化試題及答案分析
- 2025年行政管理語文考試專題試題及答案
- 行政管理與文化政策試題及答案
- 自考行政管理知識回顧與試題及答案
- 2025年護士團隊協(xié)作試題及答案
- 行政管理專業(yè)語文溫習攻略試題及答案
- 上海市建筑工程質(zhì)量竣工資料ABCD冊教學提綱
- 事故應急池管理制度
- 2025攀枝花輔警考試題庫
- 2025年中職思政試題及答案
- 2024人教版七年級英語下冊Unit8 每課時分層練習(含答案)
- 人教部編版六年級下冊語文【選擇題】專項復習訓練真題100題(附答案解析)
- 腎動脈狹窄介入護理
- (完整版)加工中心新刀具常用切削參數(shù)參照表1
- 赴遠(2024年山東東營中考語文試卷記敘文閱讀試題)
- 《計算機網(wǎng)絡基礎》課件-OSI參考模型
- 2025山東能源集團中級人才庫選拔易考易錯模擬試題(共500題)試卷后附參考答案
評論
0/150
提交評論