




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
新產(chǎn)品研發(fā)中心橘云平臺(tái)產(chǎn)品線亞信聯(lián)創(chuàng)科技(中國(guó))有限公司
2013年4月橘云大數(shù)據(jù)處理平臺(tái)OrangeCloudDataComputing提綱23橘云大數(shù)數(shù)據(jù)處理理平臺(tái)功功能與特特點(diǎn)橘云大數(shù)數(shù)據(jù)處理理平臺(tái)部部署方案案1橘云大數(shù)數(shù)據(jù)處理理平臺(tái)簡(jiǎn)簡(jiǎn)介4橘云大數(shù)數(shù)據(jù)處理理平臺(tái)二次次開發(fā)接接口5橘云大數(shù)數(shù)據(jù)處理理平臺(tái)業(yè)業(yè)務(wù)場(chǎng)景景示例概念大數(shù)據(jù)::大數(shù)據(jù)據(jù)(bigdata),或稱稱巨量資資料,指指的是所所涉及的的資料量量規(guī)模巨巨大到無無法透過過目前主主流軟件件工具,,在合理理時(shí)間內(nèi)內(nèi)達(dá)到抽抽取,管管理,,處理,,并整理理成為幫幫助企業(yè)業(yè)經(jīng)營(yíng)決決策更積積極目的的的資訊訊。大數(shù)數(shù)據(jù)的3V特點(diǎn):volume,,velocity,,variety大數(shù)據(jù)的的單位::最小的的基本單單位是Byte,按順序序給出所所有單位位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、DB、NB,云計(jì)算:(cloudcomputing))是基于互聯(lián)網(wǎng)的相關(guān)服服務(wù)的增增加、使使用和交交付模式式,通常常涉及通通過互聯(lián)聯(lián)網(wǎng)來提提供動(dòng)態(tài)態(tài)易擴(kuò)展展且經(jīng)常常是虛擬化的資源。。意味著著計(jì)算能能力也可可作為一一種商品品通過互聯(lián)網(wǎng)進(jìn)行流通通。云計(jì)算是是一種通通過Internet以服務(wù)的的方式提提供動(dòng)態(tài)態(tài)可伸縮縮的虛擬化的資源的的計(jì)算模模式。云模式::cloudmodel,,用于預(yù)測(cè)測(cè)云的性性能和行行為而采采用的物物理或數(shù)數(shù)學(xué)框架架“大數(shù)據(jù)據(jù)”時(shí)代代已經(jīng)來來臨互聯(lián)網(wǎng)時(shí)時(shí)代,尤尤其是社社交網(wǎng)絡(luò)絡(luò)、電子子商務(wù)與與移動(dòng)通通訊把人人類社會(huì)會(huì)帶入一一個(gè)以PB為單位的的結(jié)構(gòu)與與非結(jié)構(gòu)構(gòu)數(shù)據(jù)信信息的新新時(shí)代,,它就是是“大數(shù)數(shù)據(jù)(BigData)””時(shí)代。大數(shù)據(jù)為為云計(jì)算算的大規(guī)規(guī)模與分分布式的的計(jì)算能能力提供供了應(yīng)用用的空間間,解決決了傳統(tǒng)統(tǒng)計(jì)算機(jī)機(jī)無法解解決的問問題。這這個(gè)領(lǐng)域域的計(jì)算算標(biāo)準(zhǔn)與與軟件均均剛剛起起步,為為全世界界新型軟軟、硬件件及應(yīng)用用創(chuàng)新提提供了前前所未有有的機(jī)會(huì)會(huì)。Volume海量Variety多樣Velocity實(shí)時(shí)數(shù)據(jù)處理理的量級(jí)級(jí)正從TB級(jí)向PB、ZB級(jí)擴(kuò)張。。能處理結(jié)結(jié)構(gòu)化數(shù)數(shù)據(jù)和非非結(jié)構(gòu)化化數(shù)據(jù),,Web數(shù)據(jù)、語語音數(shù)據(jù)據(jù)甚至是是圖像、、視頻數(shù)數(shù)據(jù)。從延遲、、批量處處理向?qū)崒?shí)時(shí)處理理、流式式處理轉(zhuǎn)轉(zhuǎn)變,支支持海量量數(shù)據(jù)的的毫秒級(jí)級(jí)運(yùn)算。?!按髷?shù)據(jù)”的3V特性移動(dòng)運(yùn)營(yíng)營(yíng)商的云云計(jì)算需需求單個(gè)網(wǎng)民日均上網(wǎng)時(shí)間增長(zhǎng)趨勢(shì)(小時(shí))網(wǎng)民數(shù)量量增長(zhǎng)趨趨勢(shì)(億億)中國(guó)手機(jī)互聯(lián)網(wǎng)用戶每周手機(jī)上網(wǎng)頻次統(tǒng)計(jì)數(shù)據(jù)來源源:中國(guó)國(guó)互聯(lián)網(wǎng)網(wǎng)發(fā)展?fàn)顮顩r統(tǒng)計(jì)計(jì)報(bào)告、、中國(guó)移移動(dòng)互聯(lián)聯(lián)網(wǎng)與3G用戶調(diào)查查報(bào)告DCCI2010手機(jī)互聯(lián)聯(lián)網(wǎng)受眾眾消費(fèi)與與廣告營(yíng)營(yíng)銷調(diào)查查44.4%中國(guó)手機(jī)互聯(lián)網(wǎng)用戶每周媒體接觸時(shí)長(zhǎng)統(tǒng)計(jì)33.3%3.18億隨著智能能手機(jī)的的快速普普及以及及移動(dòng)互互聯(lián)網(wǎng)業(yè)業(yè)務(wù)的迅迅猛發(fā)展展,各種種網(wǎng)絡(luò)信信令、互互聯(lián)網(wǎng)、、流量數(shù)數(shù)據(jù)信息息等數(shù)據(jù)據(jù)源競(jìng)相相引入,,對(duì)經(jīng)營(yíng)營(yíng)分析數(shù)數(shù)據(jù)處理理及存儲(chǔ)儲(chǔ)要求不不斷增加加,傳統(tǒng)統(tǒng)的BI數(shù)據(jù)處理理架構(gòu)在在日益增增長(zhǎng)的計(jì)算、存存儲(chǔ)、可可靠性要求以及及系統(tǒng)擴(kuò)容成本本等方面均均面臨著著嚴(yán)峻的的考驗(yàn)::計(jì)算能力力傳統(tǒng)ETL工具對(duì)主主機(jī)性能能依賴較較大,數(shù)數(shù)據(jù)處理理任務(wù)交交錯(cuò),無無法充分分利用設(shè)設(shè)備性能能。很多多在DB/DW中進(jìn)行的的數(shù)據(jù)校校驗(yàn)、轉(zhuǎn)轉(zhuǎn)換等工工作對(duì)應(yīng)應(yīng)用性能能影響較較大。存儲(chǔ)能力力存儲(chǔ)壓力力大,海海量存儲(chǔ)儲(chǔ)難以滿滿足。存存儲(chǔ)擴(kuò)容容難度大大。高可靠性性傳統(tǒng)ETL方式可靠靠性不高高,運(yùn)維維管理復(fù)復(fù)雜,影影響應(yīng)用用的穩(wěn)定定性和數(shù)數(shù)據(jù)安全全性。擴(kuò)容成本本擴(kuò)容成本本高,難難度大、、主機(jī)、、存儲(chǔ)、、數(shù)據(jù)庫庫成本占占系統(tǒng)建建設(shè)比重重大,壓壓縮了應(yīng)應(yīng)用建設(shè)設(shè)的投入入。面臨的問問題結(jié)構(gòu)化和和非結(jié)構(gòu)構(gòu)化數(shù)據(jù)據(jù)1、對(duì)于IT行業(yè)來說說,大數(shù)數(shù)據(jù),云云計(jì)算,,云模式式,無疑疑是未來來的熱門門研究領(lǐng)領(lǐng)域。2、大數(shù)據(jù)據(jù)是由結(jié)結(jié)構(gòu)化和和非結(jié)構(gòu)構(gòu)化的數(shù)數(shù)據(jù)組成成。3、結(jié)構(gòu)化化數(shù)據(jù)是是存儲(chǔ)在在數(shù)據(jù)庫庫里面,,占大數(shù)數(shù)據(jù)的10%4、非結(jié)構(gòu)構(gòu)化數(shù)據(jù)據(jù)是跟人人類信息息密切相相關(guān)的數(shù)數(shù)據(jù),比比如說郵郵件,視視頻,微微博,帖帖子,手手機(jī)呼叫叫,網(wǎng)頁頁點(diǎn)擊等等。它們們占大數(shù)數(shù)據(jù)的90%。1、結(jié)構(gòu)化化數(shù)據(jù)::任何一列列的數(shù)據(jù)據(jù)不可以以再細(xì)分分;任何一列列數(shù)據(jù)都都有相同同的數(shù)據(jù)據(jù)類型;;所有關(guān)系系型數(shù)據(jù)據(jù)庫中的的數(shù)據(jù),,全部都都是結(jié)構(gòu)構(gòu)化數(shù)據(jù)據(jù);一般文件件中的數(shù)數(shù)據(jù),就就不是結(jié)結(jié)構(gòu)化數(shù)數(shù)據(jù);2、非結(jié)構(gòu)構(gòu)化數(shù)據(jù)據(jù);不是結(jié)構(gòu)構(gòu)化數(shù)據(jù)據(jù),即非非結(jié)構(gòu)化化數(shù)據(jù);;簡(jiǎn)單來說說,一列列的數(shù)據(jù)據(jù)可以再再細(xì)拆分分;
1、分布式式系統(tǒng)((distributedsystem)是建立立在網(wǎng)絡(luò)絡(luò)之上的的軟件系統(tǒng);2、分布式式數(shù)據(jù)庫庫:分布式數(shù)據(jù)庫系統(tǒng)通常常使用較較小的計(jì)算機(jī)系統(tǒng),每每臺(tái)計(jì)算算機(jī)可單單獨(dú)放在在一個(gè)地地方,每每臺(tái)計(jì)算算機(jī)中都都有DBMS的一份完完整拷貝貝副本,,并具有有自己局局部的數(shù)數(shù)據(jù)庫,,位于不不同地點(diǎn)點(diǎn)的許多多計(jì)算機(jī)機(jī)通過網(wǎng)網(wǎng)絡(luò)互相相連接,,共同組組成一個(gè)個(gè)完整的的、全局局的大型型數(shù)據(jù)庫庫。3、Hadoop是一個(gè)分分布式文文件系統(tǒng)統(tǒng)的基礎(chǔ)礎(chǔ)架構(gòu),,用戶可以以在不了了解分布布式底層層細(xì)節(jié)的的情況下下,開發(fā)發(fā)分布式式程序,,充分利利用集群群的威力力高速運(yùn)運(yùn)算和存存儲(chǔ)。HADOOP實(shí)現(xiàn)了一一個(gè)分布布式文件件系統(tǒng),,簡(jiǎn)稱HDFS。并且設(shè)設(shè)計(jì)用來來部署在在低廉的的(low--cost)硬件上上。且它它提供高高傳輸率率(highthroughput)來訪問問應(yīng)用程序序的數(shù)據(jù),,適合那那些有著著超大數(shù)數(shù)據(jù)集((largedataset)的應(yīng)用用程序。。HADOOP概念1、HADOOPr產(chǎn)品介紹紹:1.1:HDFS:可以支持持千萬級(jí)級(jí)的大型型分布式式文件系系統(tǒng);1.2:HBase是一個(gè)分分布式的的、面向向列的開開源數(shù)據(jù)據(jù)庫;HBase不同于一一般的關(guān)關(guān)系數(shù)據(jù)據(jù)庫,它它是一個(gè)個(gè)適合于于非結(jié)構(gòu)構(gòu)化數(shù)據(jù)據(jù)存儲(chǔ)的的數(shù)據(jù)庫庫。另一個(gè)不不同的是是HBase基于列的的而不是是基于行行的模式式。1.3:MapReduce通過把對(duì)對(duì)數(shù)據(jù)集集的大規(guī)規(guī)模操作作分發(fā)給給網(wǎng)絡(luò)上上的每個(gè)個(gè)節(jié)點(diǎn)實(shí)實(shí)現(xiàn)可靠靠性;每個(gè)節(jié)點(diǎn)點(diǎn)會(huì)周期期性的把把完成的的工作和和狀態(tài)的的更新報(bào)報(bào)告回來來。他極大地地方便了了編程人人員在不不會(huì)分布布式并行行編程的的情況下下,將自自己的程程序運(yùn)行行在分布式系系統(tǒng)上。主要產(chǎn)品對(duì)應(yīng)關(guān)系GoogleHadoop分布式文件系統(tǒng)GFSHDFS,分布式數(shù)據(jù)處理模型和執(zhí)行環(huán)境,運(yùn)行于大型商用機(jī)集群。分布式數(shù)據(jù)庫BigTableHbase,一個(gè)分布式、按列存儲(chǔ)數(shù)據(jù)庫。HBase使用HDFS作為底層存儲(chǔ),同時(shí)支持MapReduce的批量式計(jì)算和點(diǎn)查詢(隨機(jī)讀取)。分布式編程算法MapReduceMapReduce,分布式數(shù)據(jù)處理模型和執(zhí)行環(huán)境,運(yùn)行于大型商用機(jī)集群。分布式鎖服務(wù)ChubbyZooKeeperHadoop是一個(gè)分分布式系系統(tǒng)基礎(chǔ)礎(chǔ)架構(gòu)項(xiàng)項(xiàng)目的總總稱,起起源于作作者兒子子的一只只玩具大大象的名名字,由由Apache基金會(huì)開開發(fā),并并開源提提供支持持,后來來被FaceBook等互聯(lián)網(wǎng)網(wǎng)公司選選用,在此基礎(chǔ)礎(chǔ)上進(jìn)行行二次開開發(fā)。主主要產(chǎn)品品是HDFS,Hbase,MapReduce。擴(kuò)展能力力:能可可靠地存存儲(chǔ)和處處理千兆兆字節(jié)((PB)數(shù)據(jù)。。在不保保證低延延時(shí)的前前提下,,具有相相當(dāng)大的的吞吐量量,非常常適合海海量數(shù)據(jù)據(jù)的運(yùn)算算。成本低::可以通通過普通通機(jī)器組組成的服服務(wù)器群群來分發(fā)發(fā)以及處處理數(shù)據(jù)據(jù)。這些些服務(wù)器器群總計(jì)計(jì)可達(dá)數(shù)數(shù)千個(gè)節(jié)節(jié)點(diǎn)。而而且每個(gè)個(gè)節(jié)點(diǎn)都都是運(yùn)行行在開源源操作系系統(tǒng)Linux上面的。。高效率::通過分分發(fā)數(shù)據(jù)據(jù),hadoop可以在數(shù)數(shù)據(jù)所在在的節(jié)點(diǎn)點(diǎn)上并行行地(parallel)處理它它們,這這使得處處理非常常的快速速??煽啃裕海篽adoop能自動(dòng)地地維護(hù)數(shù)數(shù)據(jù)的多多份復(fù)制制,并且且在任務(wù)務(wù)失敗后后能自動(dòng)動(dòng)地重新新部署計(jì)計(jì)算任務(wù)務(wù)。該框架設(shè)設(shè)計(jì)的初初衷是針針對(duì)海量量數(shù)據(jù)的的運(yùn)算處處理的問問題。因因此對(duì)于于一些數(shù)數(shù)據(jù)量很很小的處處理沒有有任何優(yōu)優(yōu)勢(shì)可言言,甚至至還不如如單機(jī)串串行的效效果,性性能也完完全體現(xiàn)現(xiàn)不出來來。集群中存存在大量量的機(jī)器器,所以以節(jié)點(diǎn)故故障是不不可避免免的。在在Hadoop中有兩種種類型的的結(jié)點(diǎn)::namenode和datanode。Hadoop集群采取取的master//slave結(jié)構(gòu)。Datanode故障一般般是不會(huì)會(huì)影響整整個(gè)系統(tǒng)統(tǒng)的,這這個(gè)和它它的存儲(chǔ)儲(chǔ)策略有有關(guān)。但但是namenode故障是是是極大的的問題其文件系系統(tǒng)設(shè)計(jì)計(jì)的前提提是一次次寫入多多次讀取取的情況況,因此此我們是是無法修修改某條條詳細(xì)的的數(shù)據(jù)。。為什么選選擇Hadoop選擇Hadoop需要注意意什么Hadoop———Google分布式技技術(shù)的開開源實(shí)現(xiàn)現(xiàn)橘云大數(shù)數(shù)據(jù)處理理平臺(tái)OCDC簡(jiǎn)介OCDataComputing平臺(tái)包含含基于Map//Reduce的分布式式批量計(jì)計(jì)算和基基于流式式計(jì)算技技術(shù)的分分布式實(shí)實(shí)時(shí)計(jì)算算功能,,實(shí)現(xiàn)海海量數(shù)據(jù)據(jù)的并行行處理。。適用于于ETL、經(jīng)營(yíng)決決策、用用戶行為為分析、、精準(zhǔn)營(yíng)營(yíng)銷、移移動(dòng)互聯(lián)聯(lián)網(wǎng)等領(lǐng)領(lǐng)域的智智能數(shù)據(jù)據(jù)處理與與分析。。橘云大數(shù)數(shù)據(jù)處理理平臺(tái)技術(shù)術(shù)架構(gòu)云平臺(tái)基于文件刀片機(jī)或PCServer分布式存儲(chǔ)和并行計(jì)算方便擴(kuò)容全圖形化配置監(jiān)控傳統(tǒng)ETL基于數(shù)據(jù)倉(cāng)庫小型機(jī)以上統(tǒng)一存儲(chǔ)和單節(jié)點(diǎn)運(yùn)算難以擴(kuò)容需要專業(yè)人員維護(hù)云VS傳統(tǒng)平臺(tái)VS傳統(tǒng)ETL提綱23橘云大數(shù)據(jù)據(jù)處理平平臺(tái)功能能與特點(diǎn)橘云大數(shù)數(shù)據(jù)處理理平臺(tái)部部署方案案1橘云大數(shù)數(shù)據(jù)處理理平臺(tái)簡(jiǎn)簡(jiǎn)介4橘云大數(shù)數(shù)據(jù)處理理平臺(tái)二二次開發(fā)發(fā)接口5橘云大數(shù)數(shù)據(jù)處理理平臺(tái)業(yè)業(yè)務(wù)場(chǎng)景景示例平臺(tái)功能能概要基礎(chǔ)數(shù)據(jù)元數(shù)據(jù)接入平臺(tái)自定義節(jié)點(diǎn)活動(dòng)類別維度數(shù)據(jù)數(shù)據(jù)流程數(shù)據(jù)流程編輯數(shù)據(jù)清洗轉(zhuǎn)換算法數(shù)據(jù)抽取加載參數(shù)調(diào)度任務(wù)觸發(fā)器啟動(dòng)參數(shù)任務(wù)組依賴任務(wù)監(jiān)控監(jiān)控任務(wù)操作任務(wù)批量執(zhí)行系統(tǒng)管理用戶管理角色管理Hive查詢數(shù)據(jù)HIVE:就基于于HADOOP的一個(gè)數(shù)數(shù)據(jù)倉(cāng)庫庫的工具具,可以以將非結(jié)結(jié)構(gòu)化的的數(shù)據(jù)文文件映射射為一張張數(shù)據(jù)庫庫表,并并提供完完整的SQL查詢功能能。可以以將SQL轉(zhuǎn)換為MAPREDUCE任務(wù)進(jìn)行行運(yùn)行。。其優(yōu)點(diǎn)點(diǎn)是學(xué)習(xí)習(xí)成本低低,可通通過類SQL語句快速速實(shí)現(xiàn)簡(jiǎn)簡(jiǎn)單的MAPREDUCE統(tǒng)計(jì),適適合數(shù)據(jù)據(jù)他庫的的統(tǒng)計(jì)分分析;多種格式CVSXMLExcelASN.1參數(shù)可配不同格式不同參數(shù)編碼分隔符、Tag字段定義可擴(kuò)展提供擴(kuò)展接口,方便支持其他格式參數(shù)自定義高效率內(nèi)部運(yùn)算使用二進(jìn)制存儲(chǔ)針對(duì)大批量零散文件優(yōu)化基礎(chǔ)數(shù)據(jù)據(jù)-元數(shù)據(jù)元數(shù)據(jù):用于描描述業(yè)務(wù)務(wù)數(shù)據(jù)的的格式、、含義、、特性及及其運(yùn)行行環(huán)境等等的數(shù)據(jù)據(jù)多種協(xié)議FTPOracle/DB2/Mysql/TeradataGP其他(可方便擴(kuò)展)并發(fā)和控制多任務(wù)發(fā)布到集群中并行處理可限制抽取并發(fā)數(shù)可控制并發(fā)優(yōu)先級(jí)基礎(chǔ)數(shù)據(jù)據(jù)-接入平臺(tái)臺(tái)基礎(chǔ)數(shù)據(jù)據(jù)-維度數(shù)據(jù)據(jù)維度數(shù)據(jù)據(jù):定義云數(shù)數(shù)據(jù)中字字段的取取值的枚枚舉類型型,可以以通過此此維度校校驗(yàn)云數(shù)據(jù)的正正確性基礎(chǔ)數(shù)據(jù)據(jù)-自定義節(jié)節(jié)點(diǎn)自定義節(jié)節(jié)點(diǎn):用戶可可以根據(jù)據(jù)平臺(tái)的的二次接接口開發(fā)發(fā)規(guī)范定定義個(gè)性性化的業(yè)業(yè)務(wù)處理接接口,在在此處把把定義接接口類注注冊(cè)到系系統(tǒng)中數(shù)據(jù)流程程系統(tǒng)提供供圖形化化的流程程定義畫畫面,用用戶以拖拖拉和配配置的方方式,從從“工具具箱”中中將流程程節(jié)點(diǎn)拖拖動(dòng)到流流程設(shè)計(jì)計(jì)器的畫畫板上,,并根據(jù)據(jù)實(shí)際業(yè)業(yè)務(wù)需要要對(duì)流程程節(jié)點(diǎn)進(jìn)進(jìn)行配置置數(shù)據(jù)流程程-流程節(jié)點(diǎn)點(diǎn)流程節(jié)點(diǎn)點(diǎn)幫助實(shí)實(shí)現(xiàn)具體體的流程程邏輯完完成具體體的工作作流任務(wù)務(wù)流程節(jié)點(diǎn)功能描述開始
標(biāo)識(shí)著一個(gè)數(shù)據(jù)流程的開始。里面沒有什么配置數(shù)據(jù)抽取將外部提供的數(shù)據(jù)抽取到,需要定義抽取接口的連接方式、訪問協(xié)議和接入賬戶等信息,提供了文件和數(shù)據(jù)庫兩種抽取方式:文件提供了FTP、HTTP訪問方式以獲取文件數(shù)據(jù)庫
能夠獲取Oracle和DB2中的數(shù)據(jù),需要配置獲取數(shù)據(jù)的查詢條件輸出把處理后的數(shù)據(jù)以文件或壓縮包的方式輸出到指定位置加載到數(shù)據(jù)庫加載到相應(yīng)的數(shù)據(jù)倉(cāng)庫中進(jìn)行后續(xù)分析運(yùn)算,支持Oracle、DB2等主流數(shù)據(jù)庫結(jié)束標(biāo)識(shí)著一個(gè)數(shù)據(jù)流程的結(jié)束。里面沒有什么配置數(shù)據(jù)流程程-邏輯節(jié)點(diǎn)點(diǎn)邏輯節(jié)點(diǎn)點(diǎn)在流程程中對(duì)數(shù)數(shù)據(jù)進(jìn)行行相應(yīng)的的處理流程節(jié)點(diǎn)功能描述Join能夠?qū)蓚€(gè)文件通過一項(xiàng)或多項(xiàng)記錄進(jìn)行關(guān)聯(lián)輸出,可以是leftjoin、rightjoin或innerjoin。在過程中也可以進(jìn)行記錄的過濾和轉(zhuǎn)換操作Group能夠根據(jù)某個(gè)文件的一項(xiàng)或多項(xiàng)記錄進(jìn)行聚合,并進(jìn)行Max、Min、Count等運(yùn)算處理。在過程中也可以進(jìn)行記錄的過濾和轉(zhuǎn)換操作Union能過對(duì)多個(gè)文件進(jìn)行轉(zhuǎn)換為統(tǒng)一字段后進(jìn)行合并處理。在過程中也可以進(jìn)行記錄的過濾Hive通過編寫HIVEQL語句對(duì)流程中的數(shù)據(jù)進(jìn)行處理Parallet通過JEXL語言,可以用編程的方式對(duì)記錄進(jìn)行處理,把抽取的數(shù)據(jù)轉(zhuǎn)換為系統(tǒng)需要的數(shù)據(jù)格式Udf引入客戶自定義的java類處理特殊的業(yè)務(wù)要求數(shù)據(jù)流程程-監(jiān)聽節(jié)點(diǎn)點(diǎn)通過設(shè)置置監(jiān)聽器器對(duì)流程程運(yùn)行狀狀態(tài)進(jìn)行行監(jiān)控調(diào)度任務(wù)務(wù)觸發(fā)器月、周、日、循環(huán)觸發(fā)可擴(kuò)展自定義觸發(fā)器參數(shù)綁定到ETL流程的變量名和變量值可設(shè)定數(shù)據(jù)日期和偏移量執(zhí)行自動(dòng)根據(jù)觸發(fā)器執(zhí)行手動(dòng)單個(gè)執(zhí)行批量運(yùn)行數(shù)據(jù)日期區(qū)間批量運(yùn)行最后一次到目前為止未執(zhí)行的任務(wù)調(diào)度任務(wù)務(wù)時(shí)間觸發(fā)發(fā)器設(shè)置置:可以以按照小小時(shí)、天天、周、、月設(shè)置置觸發(fā)條條件,設(shè)設(shè)置觸發(fā)發(fā)器開始始執(zhí)行時(shí)時(shí)間及失失效時(shí)間間事件觸發(fā)發(fā)器設(shè)置置:通過過開發(fā)自自定義接接口,實(shí)實(shí)現(xiàn)在滿滿足業(yè)務(wù)務(wù)邏輯的的情況下下觸發(fā)任任務(wù)執(zhí)行行設(shè)置流程程中定義義類所使使用的參參數(shù)調(diào)度任務(wù)務(wù)-任務(wù)組各個(gè)流程程之間可可能存在在依賴關(guān)關(guān)系,平平臺(tái)提供供任務(wù)組組管理,,以流程程化、圖圖形化的的配置能能力把相相互之間間有關(guān)系系的流程程,在同同一任務(wù)務(wù)組中通通過連線線、屬性性配置等等方式實(shí)實(shí)現(xiàn)流程程間依賴賴關(guān)系管管理平臺(tái)監(jiān)控控-任務(wù)監(jiān)控控對(duì)所有已已經(jīng)發(fā)起起的流程程以圖形形化方式式進(jìn)行,,監(jiān)控。。流程整體體監(jiān)控::可以監(jiān)監(jiān)控管轄轄范圍內(nèi)內(nèi)所有流流程的整整體執(zhí)行行情況、、異常情情況;流程監(jiān)控控:可以以監(jiān)控某某個(gè)流程程的執(zhí)行行情況,,以流程程圖的方方式查看看運(yùn)行到到哪一步步;短信提醒醒:調(diào)度度出現(xiàn)了了異常,,可以短短信形式式發(fā)送給給相關(guān)負(fù)負(fù)責(zé)人;;調(diào)度事件件日志::記錄調(diào)調(diào)度日志志信息,,包括調(diào)調(diào)度開始始、結(jié)束束時(shí)間、、調(diào)度異異常等平臺(tái)監(jiān)控控-集群監(jiān)控控監(jiān)控整個(gè)個(gè)Hadoop集群設(shè)備備狀況,,包括設(shè)設(shè)備可用用性,設(shè)設(shè)備整體體負(fù)載情情況(CPU、網(wǎng)絡(luò)、、內(nèi)存、、IO等)平臺(tái)監(jiān)控控-集群監(jiān)控控Hive管理–hive簡(jiǎn)介(1)用戶接接口,包包括CLI,Client,WUI。(2)元數(shù)據(jù)據(jù)存儲(chǔ),,通常是是存儲(chǔ)在在關(guān)系數(shù)數(shù)據(jù)庫如如mysql,derby中。(3)解釋器器、編譯譯器、優(yōu)優(yōu)化器、、執(zhí)行器器。(4)Hadoop:用HDFS進(jìn)行存儲(chǔ)儲(chǔ),利用用MapReduce進(jìn)行計(jì)算算Hive是建立在在Hadoop上的數(shù)據(jù)倉(cāng)庫庫基礎(chǔ)構(gòu)構(gòu)架。它提供供了一系系列的工工具,可可以存儲(chǔ)、查查詢和分分析存儲(chǔ)在Hadoop中的大規(guī)規(guī)模數(shù)。。Hive定義了簡(jiǎn)簡(jiǎn)單的類SQL查詢語言言,稱為為HQL,允許熟熟悉SQL的用戶查查詢數(shù)據(jù)據(jù)。同時(shí)時(shí),這個(gè)個(gè)語言也也允許熟熟悉MapReduce開發(fā)者的的開發(fā)自自定義的的mapper和reducer來處理內(nèi)內(nèi)建的mapper和reducer無法完成成的復(fù)雜雜的分析析工作。。橘云平臺(tái)臺(tái)對(duì)Hive服務(wù)的優(yōu)優(yōu)化改進(jìn)進(jìn)Hive底層調(diào)整整,支持持Hive任務(wù)與Map//Reduce任務(wù)的關(guān)關(guān)聯(lián)跟蹤蹤。Hive支持GBK字符集和和雙字符符分隔符符。提供Hive數(shù)據(jù)倉(cāng)庫庫的圖形形化管理理和HQL執(zhí)行能力力。Hadoop::用HDFS來存儲(chǔ);;用MAPREDUCE來計(jì)算;;用HIVE查詢;類庫表的的數(shù)據(jù)管管理機(jī)制制為了方便便數(shù)據(jù)運(yùn)運(yùn)維管理理,橘云云分布式式計(jì)算產(chǎn)產(chǎn)品將基基于文件件、目錄錄結(jié)構(gòu)的的分布式式文件,,映射為為類數(shù)據(jù)據(jù)庫表的的數(shù)據(jù)管管理方式式??梢砸砸詳?shù)據(jù)據(jù)庫實(shí)例例、數(shù)據(jù)據(jù)庫表的的方式,,方便地地進(jìn)行數(shù)數(shù)據(jù)的創(chuàng)創(chuàng)建、修修改和查查詢。并并支持類類似數(shù)據(jù)據(jù)庫的分分區(qū)、分分表機(jī)制制,提升升數(shù)據(jù)處處理效能能。類SQL的數(shù)據(jù)處處理邏輯輯基于表方方式的數(shù)數(shù)據(jù)管理理,橘云云分布式式計(jì)算平平臺(tái)支持持類SQL語句的ETL數(shù)據(jù)處理理邏輯編編輯方式式,可以將將現(xiàn)有的的數(shù)據(jù)庫庫存儲(chǔ)過過程非常常便捷地地遷移到到云平臺(tái)臺(tái)。并支支持通過過SQL執(zhí)行隨時(shí)時(shí)查詢分分布式文文件系統(tǒng)統(tǒng)中的數(shù)數(shù)據(jù)。Hive管理–庫表管理理平臺(tái)應(yīng)用用流程定義元數(shù)數(shù)據(jù)的類類型及格格式定義數(shù)據(jù)據(jù)抽取及及加載的的平臺(tái)信信息2配置流程程3配置調(diào)度度監(jiān)控流程程任務(wù)監(jiān)控集群群硬件環(huán)環(huán)境4監(jiān)控系統(tǒng)統(tǒng)配置數(shù)據(jù)據(jù)處理流流程,抽抽取、轉(zhuǎn)轉(zhuǎn)換、加加載根據(jù)項(xiàng)目目實(shí)際場(chǎng)場(chǎng)景定義義轉(zhuǎn)換流流程(自自定義類類)定義流程程觸發(fā)機(jī)機(jī)制,定定時(shí)觸發(fā)發(fā)、自定定義觸發(fā)發(fā)器配置任務(wù)務(wù)組,定定義不同同流程間間的觸發(fā)發(fā)關(guān)系1基礎(chǔ)信息息23橘云大數(shù)數(shù)據(jù)處理理平臺(tái)功功能與特特點(diǎn)橘云大數(shù)數(shù)據(jù)處理理平臺(tái)部部署方案案1橘云大數(shù)數(shù)據(jù)處理理平臺(tái)簡(jiǎn)簡(jiǎn)介4橘云大數(shù)數(shù)據(jù)處理理平臺(tái)二二次開發(fā)發(fā)接口5橘云大數(shù)數(shù)據(jù)處理理平臺(tái)業(yè)業(yè)務(wù)場(chǎng)景景示例提綱主機(jī)支持持:支持HP、IBM、Cisco、Dell等任意廠廠商主機(jī)機(jī)設(shè)備,,建議基基于x86架構(gòu)的刀刀片機(jī)PC服務(wù)器。。存儲(chǔ)支持持:支持集中中式的磁磁盤陣列列存儲(chǔ),,也支持持基于本本地硬盤盤的存儲(chǔ)儲(chǔ)方式。。網(wǎng)絡(luò)要求求:主節(jié)點(diǎn)和和子節(jié)點(diǎn)點(diǎn)之間需需支持千千兆及以以上網(wǎng)絡(luò)絡(luò)帶寬。。操作系統(tǒng)統(tǒng):支持各類類操作系系統(tǒng)如Unix、Linux。建議采采用Linux系列(Redhat、CentOS等)。擴(kuò)容方式式:支持通過過擴(kuò)容方方式線性性增加ETL平臺(tái)處理理能力,,支持設(shè)設(shè)備的動(dòng)動(dòng)態(tài)擴(kuò)容容。平臺(tái)部署署計(jì)算能力力線性擴(kuò)擴(kuò)容云計(jì)算集集群增加新的的節(jié)點(diǎn)存儲(chǔ)和運(yùn)運(yùn)算能力力得到擴(kuò)擴(kuò)展提綱23橘云大數(shù)數(shù)據(jù)處理理平臺(tái)功功能與特特點(diǎn)橘云大數(shù)數(shù)據(jù)處理理平臺(tái)部部署方案案1橘云大數(shù)數(shù)據(jù)處理理平臺(tái)簡(jiǎn)簡(jiǎn)介4橘云大數(shù)數(shù)據(jù)處理理平臺(tái)二二次開發(fā)發(fā)接口5橘云大數(shù)數(shù)據(jù)處理理平臺(tái)業(yè)業(yè)務(wù)場(chǎng)景景示例二次開發(fā)發(fā)接口方式式:支持WebService、Rest、JavaAPI、Jar包Plugin等多種接接口輸入入輸出方方式。接口種類類:內(nèi)置與網(wǎng)網(wǎng)管、4A等管理類類系統(tǒng)的的接口,,同時(shí)支支持其它它調(diào)度工工具向OCDC平臺(tái)發(fā)送送調(diào)度請(qǐng)請(qǐng)求。開放性::支持?jǐn)?shù)據(jù)據(jù)格式、、接入平平臺(tái)、ETL算法等單單元的自自定義開開發(fā)、可可以靈活活擴(kuò)充平平臺(tái)的抽抽取、轉(zhuǎn)轉(zhuǎn)換、裝裝載能力力。提綱23橘云大數(shù)數(shù)據(jù)處理理平臺(tái)功功能與特特點(diǎn)橘云大數(shù)數(shù)據(jù)處理理平臺(tái)部部署方案案1橘云大數(shù)數(shù)據(jù)處理理平臺(tái)簡(jiǎn)簡(jiǎn)介4橘云大數(shù)數(shù)據(jù)處理理平臺(tái)二二次開發(fā)發(fā)接口5橘云大數(shù)數(shù)據(jù)處理理平臺(tái)業(yè)業(yè)務(wù)場(chǎng)景景示例功能描述述:Oracle、DB2等數(shù)據(jù)庫庫抽取FTP從接口機(jī)機(jī)指定目目錄抽取取主要處理理流程::1FTP傳輸(或或DB抽?。?記錄傳輸輸數(shù)據(jù)3刪除FTP遠(yuǎn)程數(shù)據(jù)據(jù)實(shí)施關(guān)鍵鍵點(diǎn):1抽取總連連接數(shù)可可控2支持多連連接提高高抽取速速度3異常情況況下避免免文件的的重傳、、漏傳
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度重慶市商鋪?zhàn)赓U及經(jīng)營(yíng)合作協(xié)議
- 二零二五年度房屋抵押轉(zhuǎn)讓及解押合同
- 2025年度知識(shí)產(chǎn)權(quán)侵權(quán)損害糾紛調(diào)解協(xié)議范本集
- 綜合安全培訓(xùn)
- 二零二五年度能源項(xiàng)目評(píng)審合同節(jié)能減排
- 二零二五年度員工期權(quán)激勵(lì)計(jì)劃執(zhí)行與退出協(xié)議
- 二零二五年度藝人經(jīng)紀(jì)違約金賠償及違約責(zé)任界定合同
- 二零二五年家庭內(nèi)部遺產(chǎn)繼承遺產(chǎn)繼承權(quán)法律咨詢協(xié)議
- 門診的護(hù)理禮儀規(guī)范
- 二零二五年度家庭私人家教全方位培養(yǎng)計(jì)劃協(xié)議
- GB/T 15934-2008電器附件電線組件和互連電線組件
- GA/T 765-2020人血紅蛋白檢測(cè)金標(biāo)試劑條法
- 第2章-西周-春秋戰(zhàn)國(guó)時(shí)期的音樂-1-3節(jié)課件
- 提高白云石配比對(duì)燒結(jié)生產(chǎn)的影響
- 公安基礎(chǔ)知識(shí)考試題庫(含各題型)
- 選礦試車方案
- 小課題專題研究參考題目
- 《最好的未來》合唱曲譜
- GB∕T 8081-2018 天然生膠 技術(shù)分級(jí)橡膠(TSR)規(guī)格導(dǎo)則
- 教學(xué)課件個(gè)人理財(cái)-2
- 航空航天概論(課堂PPT)
評(píng)論
0/150
提交評(píng)論