版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、Hadoop 平臺的大數(shù)據(jù)整合方案技術創(chuàng)新,變革未來C時代24小時在線(Connected 24 hours Era)全方位網(wǎng)絡覆蓋2C時代帶來數(shù)據(jù)的爆炸性增長3通俗的描述:Big Data大數(shù)據(jù)(Big Data)是大交易數(shù)據(jù),大交互數(shù)據(jù)和大數(shù)據(jù)處理的統(tǒng)稱。在線交易處理(OLTP)在線分析處理(OLAP) &數(shù)據(jù)倉庫設備社交媒體數(shù)據(jù)其他交互數(shù)據(jù)科學、基因機器/設備大交易數(shù)據(jù)大交互數(shù)據(jù)大數(shù)據(jù)處理大數(shù)據(jù)集成詳細呼叫記錄、圖 像,點擊流數(shù)據(jù)4我們需要合理疏導和利用大數(shù)據(jù)5各種各樣的數(shù)據(jù)和標準服務資料庫SS平面文件和文檔交互數(shù)據(jù)行業(yè)標準XML最廣范圍的大數(shù)據(jù)/限定限定定位名 稱 =值社交設備/傳感器
2、 科學生產力直觀解析環(huán)境預定義轉換Any DI/BI architecturePIGEDWMDM18hadoop dt-hadoop.jar My_Parser /input/*/input*.txt在 HParser 可視化工作室中定義解析器在 Hadoop 分布式文件系統(tǒng) (HDFS) 上部署解析器運行 HParser 提取數(shù)據(jù), 并在 Hadoop 產生表格格 式在 Hadoop 上解析和準備數(shù)據(jù)工作原理是怎樣的?19金融保險B2B 標準SWIFT MTDTCC-NSCCUNEDIFACTSWIFT MXACORD-AL3EDI-X12NACHAACORD XMLEDI ARRFIXED
3、I UCS+WINSTelekursEDI VICSFpMLRosettaNetBAI V2.0Lockbox醫(yī)療保健OAGICREST DEXIFXHL7TWISTHL7 V3其他UNIFI (ISO 20022)HIPAASEPANCPDPIATA-PADISFIXMLCDISCPLMXMLMISMONEIM和編輯功能使用業(yè)務(行業(yè))術語和定義做出的定義增強的驗證功能所有版本的所有消息的現(xiàn)成轉換基于簡單示例的可視化增強Informatica 交 付的更新和新版 本Informatica HParser工作效率:數(shù)據(jù)轉換工作臺20資料庫InformaticaMap-ReduceHadoop創(chuàng)
4、建/運行配置文件發(fā)現(xiàn)Hadoop 數(shù)據(jù)屬性 配置文件自動轉換成Hadoop 查詢/代碼(Hive,MapReduce 等)在 Hadoop 上本地執(zhí)行通過到Hadoop 的本地連接導入元數(shù)據(jù)(Hive、HDFS、Hbase 等)通過瀏覽器或Eclipse 客戶檢 查和共享結果單一表格/數(shù)據(jù)對象交叉表格/數(shù)據(jù)對象數(shù)據(jù)域發(fā)現(xiàn)HIVEHDFSHBase132發(fā)現(xiàn) Hadoop 問題/異常21客戶標識示例國家/地區(qū)代碼示例3. 追溯分析(Hadoop 數(shù)據(jù))2. 值和 模式分析Hadoop 數(shù)據(jù)1. 探查統(tǒng)計數(shù)據(jù):最小值/最大值,空值 推導的數(shù)據(jù)類型等郵政編碼示例追溯實際數(shù)據(jù)值來檢 驗整個數(shù)據(jù)集中的結
5、 果,包括可能的重復值和模式頻率與不一 致的/臟數(shù)據(jù)或意外模 式隔離Hadoop 數(shù)據(jù)探查結果 通過瀏覽器接觸企業(yè)中的 任何人員標識數(shù)據(jù)中的異常和 反?,F(xiàn)象的統(tǒng)計數(shù)據(jù)Hadoop 數(shù)據(jù)探查結果22Hadoop 數(shù)據(jù)域發(fā)現(xiàn)尋找 Hadoop 數(shù)據(jù)的功能意義1. 利用 INFA 規(guī)則/mapplet 識別Hadoop 數(shù)據(jù)的功能意義敏感數(shù)據(jù)(例如 SSN、信用卡號 等)債務和合規(guī)性風險?PHI:受保護的健康信息 PII:個人識別信息可擴展到查找/發(fā)現(xiàn)任何域類型2. 查看/共享 Hadoop 中包含 的數(shù)據(jù)域/敏感數(shù)據(jù)的報告。 追溯了解可疑數(shù)據(jù)值的能力。2325保護敏感數(shù)據(jù)數(shù)據(jù)脫密除數(shù)據(jù)中的敏感信息
6、。通過數(shù)據(jù)變換的方法去可以在數(shù)據(jù)抽取中批量 完成,也可以在應用和 數(shù)據(jù)庫之間做動態(tài)隔離。使企業(yè)信息資產得到保護,同時滿足合規(guī)要求。Glen Carter 654-45-26434739-1102-3517-8842342 54th Street New YorkJohn Smith 654-65-89454739-1146-8075-5716100 Cardinal wayRedwood city生 產 數(shù) 據(jù) 隔 離敏 感 信 息 屏 蔽數(shù)據(jù)節(jié)點SELECTT1.ORDERKEY1 AS ORDERKEY2, T1.li_count, orders.O_CUSTKEY AS CUSTKEY,
7、customer.C_NAME, customer.C_NATIONKEY, nation.N_NAME,nation.N_REGIONKEYFROM(SELECT TRANSFORM (L_Orderkey.id) USING CustomInfaTx FROM lineitemGROUP BY L_ORDERKEY) T1JOIN orders ON (customer.C_ORDERKEY = orders.O_ORDERKEY) JOIN customer ON (orders.O_CUSTKEY = customer.C_CUSTKEY) JOIN nation ON (custom
8、er.C_NATIONKEY = nation.N_NATIONKEY) WHERE nation.N_NAME = UNITED STATES) T2INSERT OVERWRITE TABLE TARGET1 SELECT *INSERT OVERWRITE TABLE TARGET2 SELECT CUSTKEY, count(ORDERKEY2) GROUP BYCUSTKEY;Hive HQLInformatica 開發(fā)人員Informatica 映射轉換成優(yōu)化的 Hive HQLHQL 調用 Informatica DTM 中的自定義 UDF 進行某些特殊的數(shù)據(jù)轉換優(yōu)化的 HQL
9、轉換為 MapReduce在 Hadoop 上執(zhí)行的 MapReduce 和 UDF數(shù)據(jù)節(jié)點數(shù)據(jù)節(jié)點數(shù)據(jù)節(jié)點UDFMapReduceInformatica數(shù)據(jù)轉換庫數(shù)據(jù)集成和數(shù)據(jù)質量Hadoop MapReduce 處 理25重復使用和導入 Hadoop 的 PC 元數(shù)據(jù)將現(xiàn)有 PC 開發(fā) 的產品導入到 Hadoop 開發(fā)環(huán) 境中在實際導入流程 之前驗證導入邏 輯,確保兼容性26與往常一樣設計映射圖形和元數(shù)據(jù)驅動環(huán) 境中的 Hadoop 設計 集成和質量邏輯配置應在何處運行集 成邏輯 Hadoop 或 本地27查看生成的 HiveQL從 Hadoop 映射查 看完整生成和向下 推動的 Hive
10、 或 MR 代碼28混合工作流編排Hadoop 和本地環(huán)境的單一工作流運行任務Cmd_Choose加載路徑MT_Load2Hadoop+ 解析Cmd_Load2 HadoopMT_ParseCmd_ProfileDataMT_CleanseMT_Data分析通知名稱類型默認值說明$User.LoadOptionPath整型2根據(jù) cmd 任務的輸出加載工作流路徑$User.DataSourceConnection字符串HiveSourceConnection源連接對象$User.ProfileResult整型100從“探查”命令任務輸出。添加編輯移除變量列表:29監(jiān)控 Hive 查詢計劃詳情開
11、發(fā)人員工具中同樣可用的 hive 查詢。30單 個 M/R 作業(yè)的可跟 蹤性。作業(yè) 跟蹤器鏈接 URL查看 Hive查詢詳情作業(yè)跟蹤器狀態(tài)摘要監(jiān)控 Hive 查詢追溯 M/R3133Informatica 大數(shù)據(jù)解決方案將源自100多個國家的200多個品牌的業(yè)務數(shù)據(jù)從五個系統(tǒng)中轉移到一個通過數(shù)據(jù)源,將 客戶、風險和投 訴等各種來源的 數(shù)據(jù)(數(shù)據(jù)倉庫、 遺留數(shù)據(jù)、 30000數(shù)據(jù)集市 和10M投訴)的訪 問迅速提高了5 倍,而成本僅是 之前的1/3提供 分析洞見改善 業(yè)務流程提高效率& 降低成本兼并收購& 資產剝離獲取及挽留 客戶外包非核心職能治理風險 合規(guī)提升合作伙伴 網(wǎng)絡效率提高業(yè)務 靈活性
12、業(yè)務需求大數(shù)據(jù)倉庫&運營商業(yè)智能大數(shù)據(jù)服務通過傳感器、移 動和地理空間數(shù) 據(jù),改善貨運業(yè) 務并賦予業(yè)務 Hadoop形式,節(jié) 省了數(shù)百萬美元社交/大數(shù)據(jù) 同步大數(shù)據(jù)整合復雜事件處理通過地理空間和 視頻追蹤,將人 工檢查轉換為以醒,保證了航海安全為全球177多個 業(yè)務部門及53,000,000個聯(lián)系人提供云訪問。 秒數(shù)計的自動提保持360應用程序與LinkedIn 和Twitter的更新節(jié)省25%的數(shù)據(jù)中心空間(100萬美元),將延遲降低83%至340微秒,將每天10億交易的吞吐量提高580%,且還在持續(xù)提高Ultra messaging實時客戶視圖每月插槽收入提 高4%,并在社交 數(shù)據(jù)和機器數(shù)據(jù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 文物保護樣本修復與管理樣本管理
- 居民社區(qū)智能電梯維護協(xié)議
- 學校硅PU施工合同
- 醫(yī)院消防設施改造合同模板
- 員工行為準則與規(guī)范
- 地下礦井降水施工分包協(xié)議
- 2022年大學藥學專業(yè)大學物理二月考試題B卷-含答案
- 2022年大學力學專業(yè)大學物理下冊期中考試試題B卷-含答案
- 信息技術(基礎模塊)(麒麟操作系統(tǒng) WPSOffice)(微課版) 課件 模塊6、7 新一代信息技術概述、信息素養(yǎng)與社會責任
- 質量部晉級晉升述職報告
- 同濟啟明星深基坑支擋結構分析計算7 0 frws7使用手冊
- 兒童社區(qū)獲得性肺炎診療規(guī)范課件
- 評茶員(高級)資格職業(yè)鑒定題庫附答案(最新版)
- 大單元教學設計說課稿《4.5 光的衍射》
- 學生實習實訓指導書
- 江蘇省智慧航道外場感知設施建設技術指南
- (完整版)四年級語文培優(yōu)輔差記錄表
- 國家開放大學《監(jiān)督學》形考任務(1-4)試題解析和答案
- 祖國萬歲朗誦
- 習近平法制思想概論智慧樹知到答案章節(jié)測試2023年中南財經(jīng)政法大學
- 不斷把人民對美好生活的向往變?yōu)楝F(xiàn)實PPT實現(xiàn)人民對美好生活向往的路徑PPT課件(帶內容)
評論
0/150
提交評論