




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
ETL
Unit
5TextAContents
NewWords
Abbreviations
Phrases參考譯文NewWordsNewWordsNewWordsNewWordsPhrasesPhrasesAbbreviationsListeningtoTextA提取、轉(zhuǎn)換和加載1.什么是ETL?ETL是一個(gè)從不同源系統(tǒng)提取數(shù)據(jù),然后轉(zhuǎn)換數(shù)據(jù)(例如應(yīng)用計(jì)算、連接等),最后將數(shù)據(jù)加載到數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的過程。ETL的完整形式是提取、轉(zhuǎn)換和加載。你會(huì)認(rèn)為創(chuàng)建數(shù)據(jù)倉(cāng)庫(kù)就只是從多個(gè)來源提取數(shù)據(jù)并將其加載到數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)庫(kù)中。這遠(yuǎn)非事實(shí),它需要復(fù)雜的ETL過程。ETL流程需要包括開發(fā)人員、分析師、測(cè)試人員、高層管理人員在內(nèi)的各種利益相關(guān)者的積極投入,這在技術(shù)上具有挑戰(zhàn)性。為了保持其作為決策者工具的價(jià)值,數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)需要隨業(yè)務(wù)變化而變化。ETL是數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的經(jīng)常性活動(dòng)(每天、每周、每月),并且需要敏捷、自動(dòng)并且文檔完備。2.為什么需要ETL?在組織中采用ETL的原因很多:?它可以幫助公司分析其業(yè)務(wù)數(shù)據(jù)以做出關(guān)鍵的業(yè)務(wù)決策。?它可以回答事務(wù)數(shù)據(jù)庫(kù)無法回答的復(fù)雜業(yè)務(wù)問題。參考譯文?它提供了一種將數(shù)據(jù)從各種來源移到數(shù)據(jù)倉(cāng)庫(kù)中的方法。?設(shè)計(jì)良好且文檔完備的ETL系統(tǒng)對(duì)于數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目的成功至關(guān)重要。?它允許驗(yàn)證數(shù)據(jù)轉(zhuǎn)換、聚合和計(jì)算規(guī)則。?ETL過程允許在源系統(tǒng)和目標(biāo)系統(tǒng)之間進(jìn)行樣本數(shù)據(jù)比較。?ETL過程可能執(zhí)行復(fù)雜的轉(zhuǎn)換,并且需要額外的區(qū)域來存儲(chǔ)數(shù)據(jù)。?它有助于將數(shù)據(jù)遷移到數(shù)據(jù)倉(cāng)庫(kù)中并將其轉(zhuǎn)換為各種格式和類型以保持系統(tǒng)的一致性。2.數(shù)據(jù)倉(cāng)庫(kù)中的ETL過程步驟1.提取在此步驟中,從源系統(tǒng)提取數(shù)據(jù)并存儲(chǔ)到暫存區(qū)域中。(如果有的話)轉(zhuǎn)換在暫存區(qū)域中進(jìn)行,因此源系統(tǒng)的性能不會(huì)降低。此外,如果將損壞的數(shù)據(jù)直接從源復(fù)制到數(shù)據(jù)倉(cāng)庫(kù)中,回滾將是一個(gè)挑戰(zhàn)。暫存區(qū)提供了在提取的數(shù)據(jù)移入數(shù)據(jù)倉(cāng)庫(kù)之前對(duì)其進(jìn)行驗(yàn)證的機(jī)會(huì)。參考譯文參考譯文數(shù)據(jù)倉(cāng)庫(kù)需要集成具有不同DBMS、硬件、操作系統(tǒng)和通信協(xié)議的系統(tǒng)。數(shù)據(jù)來源可能包括傳統(tǒng)應(yīng)用程序(例如大型機(jī))、定制應(yīng)用程序、接觸點(diǎn)設(shè)備(例如ATM)、呼叫交換、文本文件、電子表格、ERP以及來自供應(yīng)商及合作伙伴等的數(shù)據(jù)。因此,在物理上提取和加載數(shù)據(jù)之前,需要一個(gè)邏輯數(shù)據(jù)映射。該數(shù)據(jù)圖描述了源數(shù)據(jù)和目標(biāo)數(shù)據(jù)之間的關(guān)系。共有三種數(shù)據(jù)提取方法:?全提取?部分提取——沒有更新通知?部分提取——有更新通知無論使用哪種方法,提取都不應(yīng)影響源系統(tǒng)的性能和響應(yīng)時(shí)間。這些源系統(tǒng)實(shí)時(shí)產(chǎn)生數(shù)據(jù)庫(kù)。任何放緩或鎖定都可能影響公司的最終盈利。在提取過程中會(huì)進(jìn)行一些驗(yàn)證:?使記錄與源數(shù)據(jù)一致。?確保沒有垃圾郵件/不需要的數(shù)據(jù)被加載。?檢查數(shù)據(jù)類型。?刪除所有類型的重復(fù)數(shù)據(jù)。?檢查所有關(guān)鍵數(shù)據(jù)到位與否。步驟2.轉(zhuǎn)換從源服務(wù)器提取的數(shù)據(jù)是原始數(shù)據(jù),不能以其原始形式使用。因此,需要對(duì)其進(jìn)行清理、映射和轉(zhuǎn)換。實(shí)際上,這是ETL流程的關(guān)鍵步驟,它增加了數(shù)據(jù)的價(jià)值,而且改變數(shù)據(jù)可以生成具有洞察力的商務(wù)智能報(bào)告。在此步驟中,你對(duì)提取的數(shù)據(jù)進(jìn)行了一些處理。不需要任何轉(zhuǎn)換的數(shù)據(jù)稱為直接移動(dòng)。在轉(zhuǎn)換步驟中,你可以對(duì)數(shù)據(jù)執(zhí)行定制的操作。例如,如果用戶想要銷售總額的收入,而該收入不在數(shù)據(jù)庫(kù)中?;蛘?,如果表中的名字和姓氏在不同的列中??梢栽诩虞d之前將它們關(guān)聯(lián)起來。以下是數(shù)據(jù)完整性問題:?同一個(gè)人,名字Jon、John拼寫不同。?有多種表示公司名稱的方法,例如Google、GoogleInc.。?有不同的名稱,例如Cleaveland、Cleveland。?可能會(huì)有不同的應(yīng)用程序?yàn)橥晃豢蛻羯刹煌膸ぬ?hào)的情況。?所需文件中的某些數(shù)據(jù)是空的。參考譯文驗(yàn)證在此階段完成:?過濾——僅選擇某些列來加載。?使用規(guī)則和查找表進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化。?字符集轉(zhuǎn)換和編碼處理。?度量單位的轉(zhuǎn)換,例如日期時(shí)間轉(zhuǎn)換、貨幣轉(zhuǎn)換、數(shù)字轉(zhuǎn)換等。?數(shù)據(jù)閾值驗(yàn)證檢查。例如,年齡不能超過兩位數(shù)。?從暫存區(qū)域到中間表的數(shù)據(jù)流驗(yàn)證。?必填字段不應(yīng)留為空白。?清理(例如,將NULL映射為0或?qū)ⅰ癎enderMale”映射為“M”,將“GenderMale”映射為“F”等)?將一列拆分為多列以及將多個(gè)列合并為一列。?轉(zhuǎn)置行和列?使用查找合并數(shù)據(jù)?使用任何復(fù)雜的數(shù)據(jù)驗(yàn)證(例如,如果一行中的前兩列為空,那么自動(dòng)拒絕對(duì)該行進(jìn)行處理)參考譯文步驟3.加載將數(shù)據(jù)加載到目標(biāo)數(shù)據(jù)倉(cāng)庫(kù)是ETL過程的最后一步。在典型的數(shù)據(jù)倉(cāng)庫(kù)中,需要在相對(duì)較短的時(shí)間內(nèi)加載大量數(shù)據(jù)。因此,應(yīng)優(yōu)化加載過程。如果發(fā)生加載故障,應(yīng)將恢復(fù)機(jī)制配置為從故障點(diǎn)重新啟動(dòng)而不會(huì)丟失數(shù)據(jù)完整性。數(shù)據(jù)倉(cāng)庫(kù)管理員需要根據(jù)當(dāng)前服務(wù)器的性能來監(jiān)管、恢復(fù)或取消加載。加載類型:?初始加載——填充所有數(shù)據(jù)倉(cāng)庫(kù)表。?增量加載——當(dāng)需要時(shí)定期進(jìn)行持續(xù)更改。?完全刷新——擦除一個(gè)或多個(gè)表的內(nèi)容并重新加載新數(shù)據(jù)。加載驗(yàn)證:?確保關(guān)鍵字段數(shù)據(jù)不丟失也不為空。?根據(jù)目標(biāo)表測(cè)試建模視圖。?檢查組合值和計(jì)算結(jié)果。?檢查維度表和歷史記錄表中的數(shù)據(jù)。?檢查BI報(bào)告中已加載的事實(shí)和維度表。參考譯文參考譯文4.ETL工具市場(chǎng)上有許多可用的數(shù)據(jù)倉(cāng)庫(kù)工具。此處羅列了其中一些最著名的。4.1MarkLogicMarkLogic是一種數(shù)據(jù)倉(cāng)庫(kù)解決方案,可使用一系列企業(yè)功能使數(shù)據(jù)集成變得更加輕松快捷。它可以查詢不同類型的數(shù)據(jù),例如文檔、關(guān)系和元數(shù)據(jù)。4.2甲骨文甲骨文是行業(yè)領(lǐng)先的數(shù)據(jù)庫(kù)。它為本地和云提供了廣泛的數(shù)據(jù)倉(cāng)庫(kù)解決方案。它通過提高運(yùn)營(yíng)效率來幫助優(yōu)化客戶體驗(yàn)。4.3亞馬遜RedShift亞馬遜Redshift是數(shù)據(jù)倉(cāng)庫(kù)工具。它是使用標(biāo)準(zhǔn)SQL和現(xiàn)有商務(wù)智能工具分析所有類型數(shù)據(jù),是簡(jiǎn)單且經(jīng)濟(jì)高效的工具。它還允許對(duì)拍字節(jié)級(jí)結(jié)構(gòu)化數(shù)據(jù)運(yùn)行復(fù)雜的查詢。5.ETL過程的最佳實(shí)踐5.1永遠(yuǎn)不要嘗試清理所有數(shù)據(jù)每個(gè)組織都希望所有數(shù)據(jù)都是干凈的,但是大多數(shù)組織不原意支付等待的費(fèi)用或不想等待。清理全部數(shù)據(jù)將花費(fèi)很長(zhǎng)時(shí)間,因此最好不要嘗試清理所有數(shù)據(jù)。5.2計(jì)劃清理內(nèi)容始終制定清理內(nèi)容計(jì)劃,因?yàn)闃?gòu)建數(shù)據(jù)倉(cāng)庫(kù)的最大原因是提供更干凈、更可靠的數(shù)據(jù)。5.3確定清理數(shù)據(jù)的成本在清理所有臟數(shù)據(jù)之前,確定每個(gè)臟數(shù)據(jù)元素的清理成本非常重要。5.4將匯總數(shù)據(jù)存儲(chǔ)到磁盤磁帶中為了降低存儲(chǔ)成本,請(qǐng)將摘要數(shù)據(jù)存儲(chǔ)到磁盤磁帶中。而且,需要在要存儲(chǔ)的數(shù)據(jù)量及其詳細(xì)用法之間進(jìn)行權(quán)衡。在數(shù)據(jù)的粒度級(jí)別上進(jìn)行權(quán)衡以降低存儲(chǔ)成本。
參考譯文6.總結(jié)?ETL代表提取、轉(zhuǎn)換和加載。?
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年證券從業(yè)資格證行為規(guī)范試題及答案
- 2024年項(xiàng)目管理考試注重的試題及答案
- 項(xiàng)目文檔管理的基礎(chǔ)與發(fā)展試題及答案
- 2024年項(xiàng)目管理考試考題解析試題及答案
- 微生物檢驗(yàn)人才培養(yǎng)試題及答案
- 行政管理師證書在企業(yè)中的應(yīng)用價(jià)值及試題及答案
- 2024年項(xiàng)目管理考試知識(shí)框架梳理試題及答案
- 亮化工程幕墻施工方案
- 攔截鉆孔考察方案范本
- 海底設(shè)施鋪設(shè)工程建筑考核試卷
- 公司分布式光伏發(fā)電項(xiàng)目工程監(jiān)理實(shí)施細(xì)則
- 2023年新高考物理廣東卷試題真題及答案詳解(精校版)
- 《疫苗管理法》法律法規(guī)解讀課件
- 自動(dòng)跟隨行李箱系統(tǒng)設(shè)計(jì)
- 手動(dòng)電葫蘆操作規(guī)程
- 創(chuàng)新方法論知到章節(jié)答案智慧樹2023年西安理工大學(xué)
- 《上海市奉賢區(qū)小區(qū)機(jī)動(dòng)車停放管理工作調(diào)查報(bào)告》4300字
- 刑偵工作調(diào)研報(bào)告
- 火力發(fā)電廠鍋爐智能燃燒控制技術(shù)導(dǎo)則
- 國(guó)家開放大學(xué)《社會(huì)心理學(xué)》形考任務(wù)1-4參考答案
- 國(guó)家開放大學(xué)《現(xiàn)代漢語專題》章節(jié)自測(cè)參考答案
評(píng)論
0/150
提交評(píng)論