![大數(shù)據(jù)處理技術(shù)簡(jiǎn)介2_第1頁(yè)](http://file4.renrendoc.com/view/2c7674dad72aa7e2652827b278fc82e1/2c7674dad72aa7e2652827b278fc82e11.gif)
![大數(shù)據(jù)處理技術(shù)簡(jiǎn)介2_第2頁(yè)](http://file4.renrendoc.com/view/2c7674dad72aa7e2652827b278fc82e1/2c7674dad72aa7e2652827b278fc82e12.gif)
![大數(shù)據(jù)處理技術(shù)簡(jiǎn)介2_第3頁(yè)](http://file4.renrendoc.com/view/2c7674dad72aa7e2652827b278fc82e1/2c7674dad72aa7e2652827b278fc82e13.gif)
![大數(shù)據(jù)處理技術(shù)簡(jiǎn)介2_第4頁(yè)](http://file4.renrendoc.com/view/2c7674dad72aa7e2652827b278fc82e1/2c7674dad72aa7e2652827b278fc82e14.gif)
![大數(shù)據(jù)處理技術(shù)簡(jiǎn)介2_第5頁(yè)](http://file4.renrendoc.com/view/2c7674dad72aa7e2652827b278fc82e1/2c7674dad72aa7e2652827b278fc82e15.gif)
版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
大數(shù)據(jù)處理技術(shù)簡(jiǎn)介1234大數(shù)據(jù)處理相關(guān)工具介紹國(guó)內(nèi)相關(guān)數(shù)據(jù)處理平臺(tái)簡(jiǎn)介Storm實(shí)時(shí)計(jì)算系統(tǒng)簡(jiǎn)介概念及背景介紹大數(shù)據(jù)概念1、指的是所涉及的資料量規(guī)模巨大到無(wú)法通過(guò)目前主流軟件工具,在合理的時(shí)間內(nèi)達(dá)到擷取、管理、處理并整理成為幫助企業(yè)經(jīng)營(yíng)決策更積極目的的咨詢(xún)。2、維克托·邁爾-舍恩伯格以及肯尼斯·庫(kù)克耶編寫(xiě)的《大數(shù)據(jù)時(shí)代》中大數(shù)據(jù)指不用隨機(jī)分析法(抽樣調(diào)查)這樣的捷徑,而采用所有數(shù)據(jù)進(jìn)行分析處理。3、海量異構(gòu)的數(shù)據(jù)(包括文本、圖像、聲音等)。大數(shù)據(jù)的4V特點(diǎn):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價(jià)值)近年來(lái),一種新的數(shù)據(jù)密集型應(yīng)用已經(jīng)得到了廣泛的認(rèn)同,這些應(yīng)用的實(shí)例包括:網(wǎng)絡(luò)監(jiān)控、電信數(shù)據(jù)管理、Web應(yīng)用、傳感檢測(cè)等等。在這種數(shù)據(jù)流模型中,數(shù)據(jù)以大量、快速、時(shí)變(可能是不可預(yù)知)的數(shù)據(jù)流持續(xù)到達(dá),如何對(duì)海量瞬時(shí)流動(dòng)數(shù)據(jù)建模并處理,產(chǎn)生了一些新的基礎(chǔ)性研究問(wèn)題。大數(shù)據(jù)處理技術(shù)的應(yīng)用大數(shù)據(jù)應(yīng)用情景一(B2C、C2C與金融):淘寶、股票等即時(shí)交易數(shù)據(jù)截至2011年11月,淘寶Beltles平臺(tái)單日最大服務(wù)調(diào)用量19億。今年淘寶雙11QPS:32萬(wàn)/分鐘2012-01-14報(bào)道,鐵道部12306網(wǎng)站連續(xù)5天日均點(diǎn)擊數(shù)超過(guò)10億次,高峰時(shí)超過(guò)14.09億次,導(dǎo)致系統(tǒng)近乎崩潰或癱瘓。2009年四月統(tǒng)計(jì):上證交易所新一代交易系統(tǒng)峰值訂單處理能力約80000筆/秒,平均訂單時(shí)延比現(xiàn)用交易系統(tǒng)縮短30%以上,系統(tǒng)日雙邊成交容量不低于1.2億筆/日,相當(dāng)于單市場(chǎng)1.2萬(wàn)億的日成交規(guī)模。大數(shù)據(jù)應(yīng)用情景三(社交網(wǎng)絡(luò)):社交網(wǎng)絡(luò)即時(shí)消息處理每秒鐘,人們發(fā)送290萬(wàn)封電子郵件。每分鐘,人們向Youtube上傳60個(gè)小時(shí)的視頻。每一天,人們?cè)赥witter上發(fā)消息1.9億條微博。每一天,人們?cè)赥witter上發(fā)出3.44億條消息。每一天,人們?cè)贔acebook發(fā)出40億條信息。大數(shù)據(jù)應(yīng)用情景三(物聯(lián)網(wǎng)數(shù)據(jù)流):傳感網(wǎng)、物聯(lián)網(wǎng)、智慧城市數(shù)據(jù)庫(kù)
傳感設(shè)備
服務(wù)器
用戶(hù)端程序
實(shí)時(shí)數(shù)據(jù)流處理平臺(tái)
Internet設(shè)備網(wǎng)PDA決策支持PC機(jī)傳感網(wǎng)、物聯(lián)網(wǎng)源源不斷產(chǎn)生海量數(shù)據(jù)流、數(shù)據(jù)量更大,加上能更準(zhǔn)確、更快地收集比如位置、生活信息等數(shù)據(jù),對(duì)在線即時(shí)處理提出了更高的要求和挑戰(zhàn)。大數(shù)據(jù)應(yīng)用情景四(數(shù)據(jù)流過(guò)濾):互聯(lián)網(wǎng)帶寬增長(zhǎng)根據(jù)中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)的“中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告”調(diào)查顯示,2011年中國(guó)的互聯(lián)網(wǎng)基礎(chǔ)資源繼續(xù)保持快速增長(zhǎng),IP地址、域名、網(wǎng)站和網(wǎng)頁(yè)等增速基本與網(wǎng)民增長(zhǎng)等速或超過(guò)網(wǎng)民的增速,網(wǎng)絡(luò)國(guó)際出口帶寬達(dá)到1,182,261.45Mbps,半年增長(zhǎng)了7.6%。國(guó)內(nèi)外相關(guān)研究數(shù)據(jù)流計(jì)算的典型模式之一是不確定數(shù)據(jù)速率的數(shù)據(jù)流流入系統(tǒng),系統(tǒng)處理能力必須與數(shù)據(jù)流量大小相匹配。
Hadoop(MapReduce)框架為批處理做了高度優(yōu)化,數(shù)據(jù)存儲(chǔ)在分布式文件系統(tǒng)中,系統(tǒng)典型地通過(guò)調(diào)度批量任務(wù)來(lái)操作分布式文件系統(tǒng)靜態(tài)數(shù)據(jù)。實(shí)時(shí)計(jì)算(數(shù)據(jù)驅(qū)動(dòng))VS.批處理計(jì)算(任務(wù)驅(qū)動(dòng))
國(guó)內(nèi)外相關(guān)研究數(shù)據(jù)流計(jì)算的典型模式之一是不確定數(shù)據(jù)速率的數(shù)據(jù)流流入系統(tǒng),系統(tǒng)處理能力必須與數(shù)據(jù)流量大小相匹配。Hadoop(MapReduce)框架為批處理做了高度優(yōu)化,數(shù)據(jù)存儲(chǔ)在分布式文件系統(tǒng)中,系統(tǒng)典型地通過(guò)調(diào)度批量任務(wù)來(lái)操作分布式文件系統(tǒng)靜態(tài)數(shù)據(jù)。實(shí)時(shí)計(jì)算(數(shù)據(jù)驅(qū)動(dòng))VS.批處理計(jì)算(任務(wù)驅(qū)動(dòng))
應(yīng)用計(jì)算模型與通信機(jī)制數(shù)據(jù)規(guī)模計(jì)算模型普通集群基于消息傳遞的分布式模型TB級(jí)/百臺(tái)MPI云計(jì)算基于文件傳輸?shù)牟⑿杏?jì)算模型PB級(jí)/千臺(tái)MapReduce數(shù)據(jù)流實(shí)時(shí)云計(jì)算基于消息(封裝文件)傳輸?shù)牟⑿杏?jì)算PB級(jí)/千臺(tái)Online
MapReduce分布布式式并行行計(jì)計(jì)算算系系統(tǒng)統(tǒng)流水水線線+并行行、、可配配置置、可容容錯(cuò)錯(cuò)、彈性性可可擴(kuò)擴(kuò)展展、全內(nèi)內(nèi)存存、、實(shí)時(shí)時(shí)在線線處理理。。第一一類(lèi)類(lèi)方方法法,,Hadoop改造造::[1]YingyiBu等在在HadoopMapReduce工作作的的基基礎(chǔ)礎(chǔ)上上設(shè)設(shè)計(jì)計(jì)了了HaLoop,主主要要克克服服了了Hadoop進(jìn)行行迭迭代代計(jì)計(jì)算算時(shí)時(shí)需需要要設(shè)設(shè)置置收收斂斂條條件件以以及及每每次次迭迭代代均均需需要要重重新新加加載載數(shù)數(shù)據(jù)據(jù)的的缺缺點(diǎn)點(diǎn);;[2]伯克克利利大大學(xué)學(xué)的的TysonCondie等對(duì)對(duì)Hadoop進(jìn)行行改改進(jìn)進(jìn),,設(shè)設(shè)計(jì)計(jì)了了HadoopOnlinePrototype(HOP)系統(tǒng)統(tǒng),,支支持持連連續(xù)續(xù)查查詢(xún)?cè)?、、事事件件監(jiān)監(jiān)測(cè)測(cè)以以及及流流處處理理等等功功能能;;[3]Facebook在SIGMOD’’2011上發(fā)發(fā)表表了了利利用用Hbase/Hadoop進(jìn)行行實(shí)實(shí)時(shí)時(shí)處處理理數(shù)數(shù)據(jù)據(jù)的的論論文文,,通通過(guò)過(guò)一一些些實(shí)實(shí)時(shí)時(shí)性性改改造造,,力力圖圖使使hadoop批處處理理計(jì)計(jì)算算平平臺(tái)臺(tái)也也具具備備實(shí)實(shí)時(shí)時(shí)計(jì)計(jì)算算的的能能力力。。[4]Google在新新一一代代內(nèi)內(nèi)容容索索引引系系統(tǒng)統(tǒng)中中放放棄棄了了MapReduce,替替代代者者是是尚尚不不為為人人知知的的分分布布式式數(shù)數(shù)據(jù)據(jù)處處理理系系統(tǒng)統(tǒng)Percolator,Percolator是一一種種增增量量處處理理平平臺(tái)臺(tái),,它它能能持持續(xù)續(xù)更更新新索索引引系系統(tǒng)統(tǒng),,無(wú)無(wú)需需從從頭頭重重新新處處理理一一遍遍整整個(gè)個(gè)系系統(tǒng)統(tǒng)。。[5]WangLam等開(kāi)開(kāi)發(fā)發(fā)了了類(lèi)類(lèi)似似于于Map-reduce框架架、、專(zhuān)專(zhuān)注注于于快快速速處處理理數(shù)數(shù)據(jù)據(jù)的的Muppet;第二二類(lèi)類(lèi)方方法法,,實(shí)實(shí)時(shí)時(shí)云云計(jì)計(jì)算算系系統(tǒng)統(tǒng)::[6]MIT等三三所所高高校校的的研研究究人人員員聯(lián)聯(lián)合合研研發(fā)發(fā)了了第第二二代代分分布布式式流流處處理理系系統(tǒng)統(tǒng)Borealis;[7]SheheryarMalik設(shè)計(jì)計(jì)了了具具有有良良好好錯(cuò)錯(cuò)誤誤容容忍忍機(jī)機(jī)制制的的實(shí)實(shí)時(shí)時(shí)云云計(jì)計(jì)算算系系統(tǒng)統(tǒng);;HarmeekSinghBedi申請(qǐng)請(qǐng)了了實(shí)實(shí)時(shí)時(shí)云云計(jì)計(jì)算算系系統(tǒng)統(tǒng)的的專(zhuān)專(zhuān)利利;;[8]BaiduDstream,淘淘寶寶Beales,F(xiàn)acebookPuma,TwitterStorm,Yahoo!S4[9]2011年組組織織了了以以實(shí)實(shí)時(shí)時(shí)云云計(jì)計(jì)算算和和虛虛擬擬化化為為主主題題的的國(guó)國(guó)際際討討論論組組會(huì)會(huì)RTSOAA(Real-TimeCloudComputingandVirtualization)。。[10]2011年度度的的HadoopChina大會(huì)會(huì)一一個(gè)個(gè)熱熱點(diǎn)點(diǎn)議議題題就就是是數(shù)數(shù)據(jù)據(jù)流流計(jì)計(jì)算算,,在在MapReduce計(jì)算算模模型型風(fēng)風(fēng)靡靡全全球球之之后后,,StreamProcessing將會(huì)會(huì)是是下下一一個(gè)個(gè)研研究究熱熱點(diǎn)點(diǎn),,無(wú)無(wú)論論是是在在工工業(yè)業(yè)界界還還是是學(xué)學(xué)術(shù)術(shù)界界。。實(shí)時(shí)時(shí)計(jì)計(jì)算算系系統(tǒng)統(tǒng)的的改改造造1234大數(shù)數(shù)據(jù)據(jù)處處理理相相關(guān)關(guān)工工具具介介紹紹國(guó)內(nèi)內(nèi)相相關(guān)關(guān)數(shù)數(shù)據(jù)據(jù)處處理理平平臺(tái)臺(tái)簡(jiǎn)簡(jiǎn)介介Storm實(shí)時(shí)時(shí)計(jì)計(jì)算算系系統(tǒng)統(tǒng)簡(jiǎn)簡(jiǎn)介介概念念及及背背景景介介紹紹Hadoop家族族14開(kāi)源源工工具具簡(jiǎn)簡(jiǎn)介介---批處處理理HadoopCommon:Hadoop體系系最最底底層層的的一一個(gè)個(gè)模模塊塊,,為為Hadoop各子子項(xiàng)項(xiàng)目目提提供供各種種工具具,,如如::配配置置文文件件和和日日志志操操作作等。HDFS:是是Hadoop的分分布布式式存存儲(chǔ)儲(chǔ)系系統(tǒng)統(tǒng),同Google的GFS性質(zhì)質(zhì)是是一一樣樣的的。MapReduce:是是一一種種編編程程模模型型,,用用于于大大規(guī)規(guī)模模數(shù)數(shù)據(jù)據(jù)集集的的并并行行運(yùn)算算。Hive是基基于于Hadoop的一一個(gè)個(gè)數(shù)據(jù)據(jù)倉(cāng)庫(kù)庫(kù)工具具,,提供供簡(jiǎn)簡(jiǎn)單單的的sql查詢(xún)?cè)児δ苣?,,可可以以將將sql語(yǔ)句句轉(zhuǎn)轉(zhuǎn)換換為為MapReduce任務(wù)務(wù)進(jìn)進(jìn)行行運(yùn)行行,十分分適適合合數(shù)據(jù)據(jù)倉(cāng)倉(cāng)庫(kù)庫(kù)的統(tǒng)統(tǒng)計(jì)計(jì)分分析析。。Pig:Pig最大大的的作作用用就就是是對(duì)MapReduce算法法(框架架)實(shí)現(xiàn)現(xiàn)了了一一套套shell腳本本,,類(lèi)類(lèi)似似我我們們通通常常熟熟悉悉的的SQL語(yǔ)句句,,在在Pig中稱(chēng)稱(chēng)之之為為PigLatin。Hbase:一個(gè)分分布布式式、、可可擴(kuò)擴(kuò)展展的的大大數(shù)數(shù)據(jù)據(jù)存存儲(chǔ)儲(chǔ)。。它它提提供供了了大大數(shù)數(shù)據(jù)據(jù)集集上上隨隨機(jī)機(jī)和和實(shí)實(shí)時(shí)時(shí)的的讀讀/寫(xiě)訪訪問(wèn)問(wèn),,并并針針對(duì)對(duì)了了商商用用服服務(wù)務(wù)器器集集群群上上的的大大型型表表格格做做出出優(yōu)優(yōu)化化———上百百億億行行,,上上千千萬(wàn)萬(wàn)列列。它是是Googlebigtable的一一個(gè)個(gè)開(kāi)開(kāi)源源的的實(shí)實(shí)現(xiàn)現(xiàn)。。Zookeeper:它是一個(gè)個(gè)針針對(duì)對(duì)大大型型分分布布式式系系統(tǒng)統(tǒng)的的可可靠靠協(xié)協(xié)調(diào)調(diào)系系統(tǒng)統(tǒng),功功能能包括括::配配置置維維護(hù)護(hù)、、名名字字服服務(wù)務(wù)、、分分布布式式同同步步、、組組服服務(wù)務(wù)等等。。ZooKeeper的目標(biāo)就就是封裝裝好復(fù)雜雜易出錯(cuò)錯(cuò)的關(guān)鍵鍵服務(wù),,將簡(jiǎn)單單易用的的接口和和性能高高效、功功能穩(wěn)定定的系統(tǒng)統(tǒng)提供給給用戶(hù)。它是Google的Chubby一個(gè)開(kāi)源源的實(shí)現(xiàn)現(xiàn)。開(kāi)源工具簡(jiǎn)簡(jiǎn)介---實(shí)時(shí)計(jì)算算國(guó)外1:facebookpuma國(guó)外2:twitterstorm國(guó)外3:yahoo!s4Twitter數(shù)據(jù)處理理分層架架構(gòu)Puma3系統(tǒng)數(shù)據(jù)據(jù)處理通通路Storm數(shù)據(jù)流處處理示意意圖S4數(shù)據(jù)流處處理流程程RealtimeCloudcomputingFacebookPumaTwitter
StormYahoo!S4開(kāi)發(fā)語(yǔ)言JAVAClojureJAVA高可用機(jī)制被動(dòng)備用上游回放被動(dòng)備用架構(gòu)均勻架構(gòu)主從架構(gòu)主從架構(gòu)資源利用率低高低恢復(fù)時(shí)間短長(zhǎng)長(zhǎng)開(kāi)源工具具簡(jiǎn)介---全內(nèi)存查查詢(xún)Spark是一通用用并行計(jì)計(jì)算框架架,由UCBerkeley的AMP實(shí)驗(yàn)室開(kāi)開(kāi)發(fā)。將中間數(shù)數(shù)據(jù)放到到內(nèi)存中中,對(duì)于于迭代運(yùn)運(yùn)算效率率比較高高。如::機(jī)器學(xué)學(xué)習(xí)(ML)與hadoop相比提供供了更多多種運(yùn)算算操作,,并且通通信模型型也是多多樣的,,hadoop僅有DataShuffle。缺點(diǎn):Spark不適用那那種異步步細(xì)粒度度更新?tīng)顮顟B(tài)的應(yīng)應(yīng)用,例例如web服務(wù)的存存儲(chǔ)或者者是增量量的web爬蟲(chóng)和索索引。就就是對(duì)于于那種增增量修改改的應(yīng)用用模型,,因?yàn)樵鲈隽扛膭?dòng)動(dòng)完了,,也就不不用了,,不需要要迭代了了。Druid為分析而設(shè)計(jì)計(jì)-Druid是為OLAP工作流的探索索性分析而構(gòu)構(gòu)建。它支持持各種filter、aggregator和查詢(xún)類(lèi)型,,并為添加新新功能提供了了一個(gè)框架。。交互式查詢(xún)-低延遲數(shù)據(jù)攝攝取架構(gòu)允許許事件在它們們創(chuàng)建后毫秒秒內(nèi)查詢(xún),完全有可能在在6TB的數(shù)據(jù)集上實(shí)實(shí)現(xiàn)秒級(jí)查詢(xún)?cè)?。高可用?支持需要一直直在線的SaaS的實(shí)現(xiàn)。你的的數(shù)據(jù)在系統(tǒng)統(tǒng)更新時(shí)依然然可用、可查查詢(xún)。規(guī)模的的擴(kuò)大和縮小小不會(huì)造成數(shù)數(shù)據(jù)丟失??缮炜s-每天處理數(shù)十十億事件和TB級(jí)數(shù)據(jù)。Druid被設(shè)計(jì)成PB級(jí)別。優(yōu)缺點(diǎn):Druid對(duì)于需要實(shí)時(shí)時(shí)單一、海量量數(shù)據(jù)流攝取取產(chǎn)品非常適適合。特別是是如果你面向向無(wú)停機(jī)操作作時(shí),如果你你對(duì)查詢(xún)查詢(xún)?cè)兊撵`活性和和原始數(shù)據(jù)訪訪問(wèn)要求,高高于對(duì)速度和和無(wú)停機(jī)操作作,Druid可能不是很好的解決方案。1234大數(shù)據(jù)處理相相關(guān)工具介紹紹國(guó)內(nèi)相關(guān)數(shù)據(jù)據(jù)處理平臺(tái)簡(jiǎn)簡(jiǎn)介Storm實(shí)時(shí)計(jì)算系統(tǒng)統(tǒng)簡(jiǎn)介概念及背景介介紹國(guó)內(nèi)相關(guān)計(jì)算算平臺(tái)國(guó)內(nèi)1:baidu下一代數(shù)據(jù)流流系統(tǒng)DStream百度基礎(chǔ)架構(gòu)構(gòu)部的下一代代規(guī)劃中,實(shí)實(shí)時(shí)計(jì)算是重重要的組成部部分。實(shí)時(shí)計(jì)算系統(tǒng)統(tǒng)和批處理計(jì)算系系統(tǒng)同屬于云計(jì)算算這個(gè)大的范范疇,相互配合使用用。批處理計(jì)算算是MapReduce(Hadoop)、實(shí)時(shí)計(jì)算算是DStream等。DStream的Release1.0版本在2012年上半年發(fā)布布。DStream依賴(lài)幾個(gè)第三三方系統(tǒng),Bigpipe、Zookeeper和HDFS,分別用于數(shù)數(shù)據(jù)流輸入輸輸出和操作日日志的存儲(chǔ)、、分布式異常常監(jiān)控、用戶(hù)戶(hù)文件存儲(chǔ)和和計(jì)算狀態(tài)存存儲(chǔ)。1、每天有超過(guò)30億的店鋪、商商品瀏覽記錄錄,10億在線商品數(shù)數(shù),上千萬(wàn)的的成交、收藏藏和評(píng)價(jià)數(shù)據(jù)。2、量子統(tǒng)計(jì)、數(shù)據(jù)魔魔方和淘寶指數(shù)。3、Hadoop集群:1500個(gè)節(jié)點(diǎn),每天有大約40000個(gè)作業(yè)對(duì)1.5PB的原始數(shù)據(jù)按按照產(chǎn)品需求求進(jìn)行不同的的MapReduce計(jì)算。4、Storm集群:處理實(shí)時(shí)流流數(shù)據(jù)。國(guó)內(nèi)相關(guān)計(jì)算算平臺(tái)國(guó)內(nèi)2:淘寶數(shù)據(jù)分析平平臺(tái)架構(gòu)數(shù)據(jù)存儲(chǔ)引擎:MySQL的MyISAM引擎統(tǒng)計(jì)數(shù)據(jù):10TB(分布在20個(gè)節(jié)點(diǎn)),每每天6億條的增量節(jié)點(diǎn)類(lèi)型劃分分:熱節(jié)點(diǎn):SAS硬盤(pán)(15000轉(zhuǎn)/分鐘)4.5W/TB冷節(jié)點(diǎn):SATA硬盤(pán)(7500轉(zhuǎn)/分鐘)1.6W/TB缺點(diǎn):不能解解決全屬性選選擇器問(wèn)題,,這時(shí)NoSql是對(duì)其的有益益補(bǔ)充。Myfox簡(jiǎn)介4:300國(guó)內(nèi)相關(guān)計(jì)算算平臺(tái)國(guó)內(nèi)相關(guān)計(jì)算算平臺(tái)國(guó)內(nèi)2:淘寶Beatles實(shí)時(shí)流式數(shù)據(jù)據(jù)分析平臺(tái)2010年Beatles開(kāi)放平臺(tái)基礎(chǔ)礎(chǔ)體系開(kāi)始建建立,服務(wù)調(diào)調(diào)用量增漲到到了9億。截至2011年11月,單日最大大服務(wù)調(diào)用量量19億,增量統(tǒng)計(jì)計(jì)實(shí)時(shí)性要求求在2分鐘內(nèi)(包含含數(shù)據(jù)分析和和數(shù)據(jù)產(chǎn)出,,低峰期1分鐘,高峰期期1分半),系統(tǒng)統(tǒng)可用性要求求高于99.6%目錄1234大數(shù)據(jù)處理相相關(guān)工具介紹紹國(guó)內(nèi)相關(guān)數(shù)據(jù)據(jù)處理平臺(tái)簡(jiǎn)簡(jiǎn)介Storm實(shí)時(shí)計(jì)算系統(tǒng)統(tǒng)簡(jiǎn)介概念及背景介介紹Storm實(shí)時(shí)計(jì)算系統(tǒng)Storm數(shù)據(jù)流處理引擎整體體架構(gòu)主要模塊Master-Supervisor-Worker的模塊關(guān)系圖圖控制節(jié)點(diǎn)啟動(dòng)動(dòng)Master,負(fù)責(zé)整個(gè)topology執(zhí)行監(jiān)控和任務(wù)分分配工作節(jié)點(diǎn)啟動(dòng)動(dòng)Supervisor,每個(gè)Supervisor包含一組port,每個(gè)port可以初始化一一個(gè)Worker,每個(gè)Worker執(zhí)行一部分?jǐn)?shù)數(shù)據(jù)處理程序序工作節(jié)點(diǎn)啟動(dòng)動(dòng)Zookeeper,負(fù)責(zé)topology的協(xié)調(diào)和同步Nimbus模塊Supervisor模塊步驟1:Supervisor從Zookeeper目錄中下載Worker執(zhí)行的代碼步驟2:Supervisor監(jiān)控Worker的執(zhí)行狀態(tài)。。步驟3:Supervisor向Zookeeper的目錄中寫(xiě)入入它所監(jiān)控的的各個(gè)Worker的心跳信息Worker模塊步驟1:Worker從Zookeeper目錄獲取Task集合步驟2:Worker建立接收和發(fā)發(fā)送的消息隊(duì)隊(duì)列步驟3:Worker內(nèi)部的每個(gè)Task開(kāi)始初始化,,準(zhǔn)備執(zhí)行處處理程序和向向Zookeeper發(fā)送心跳步驟4:消息隊(duì)列把把Tuple發(fā)送給相應(yīng)的的Task進(jìn)行處理,處處理結(jié)果再傳傳給消息隊(duì)列列進(jìn)行下發(fā)關(guān)鍵技術(shù)——并行處理技術(shù)術(shù)條件:查詢(xún)由兩個(gè)有狀態(tài)態(tài)算子(一個(gè)個(gè)Join和一個(gè)Aggregate)和4個(gè)無(wú)狀態(tài)算子子(兩個(gè)Map和兩個(gè)Filter)組成。如圖b所示,將每個(gè)個(gè)算子都部署署在有15個(gè)節(jié)點(diǎn)的子集集群,跳數(shù)為為5,每個(gè)節(jié)點(diǎn)的的扇出數(shù)為15,所以扇出的總數(shù)就就是155。如圖c所示,將a所示的查詢(xún)根根據(jù)有狀態(tài)算算子進(jìn)行劃分分,可以劃分分成3個(gè)子查詢(xún),每每個(gè)子查詢(xún)都都部署在30個(gè)節(jié)點(diǎn)的子查查詢(xún)上,由此此可見(jiàn),跳數(shù)數(shù)為2,每個(gè)節(jié)點(diǎn)的的扇出數(shù)為302。相關(guān)工作關(guān)鍵技術(shù)——可靠性保障技技術(shù)a)主動(dòng)備份技術(shù)術(shù)b)被動(dòng)備份技術(shù)術(shù)c)上游備份技術(shù)術(shù)主動(dòng)備份技術(shù)術(shù):節(jié)點(diǎn)A產(chǎn)生的元組同同時(shí)發(fā)送給主主節(jié)點(diǎn)B1和備份節(jié)點(diǎn)B2。該容錯(cuò)技術(shù)術(shù)存在保存副
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 融合教育課件
- 2025-2030全球空氣制純水機(jī)行業(yè)調(diào)研及趨勢(shì)分析報(bào)告
- 2025年全球及中國(guó)3-HAP行業(yè)頭部企業(yè)市場(chǎng)占有率及排名調(diào)研報(bào)告
- 2025年全球及中國(guó)阻燃聚乙烯膜行業(yè)頭部企業(yè)市場(chǎng)占有率及排名調(diào)研報(bào)告
- 2025-2030全球數(shù)據(jù)安全交換解決方案行業(yè)調(diào)研及趨勢(shì)分析報(bào)告
- 2025年全球及中國(guó)口服固體制劑用冷鋁包材行業(yè)頭部企業(yè)市場(chǎng)占有率及排名調(diào)研報(bào)告
- 2025年全球及中國(guó)無(wú)縫合金鈦管行業(yè)頭部企業(yè)市場(chǎng)占有率及排名調(diào)研報(bào)告
- 2025-2030全球高純度2-氯吡啶行業(yè)調(diào)研及趨勢(shì)分析報(bào)告
- 2025-2030全球地磅測(cè)試服務(wù)行業(yè)調(diào)研及趨勢(shì)分析報(bào)告
- 2025-2030全球倉(cāng)庫(kù)地板標(biāo)記膠帶行業(yè)調(diào)研及趨勢(shì)分析報(bào)告
- 山東鐵投集團(tuán)招聘筆試沖刺題2025
- 圖像敘事的跨學(xué)科視野-洞察分析
- 急性缺血性卒中再灌注治療指南2024解讀
- 暑假假期安全教育(課件)-小學(xué)生主題班會(huì)
- 2025年中考英語(yǔ)總復(fù)習(xí):閱讀理解練習(xí)題30篇(含答案解析)
- 陜西省英語(yǔ)中考試卷與參考答案(2024年)
- 基于OBE理念的世界現(xiàn)代史教學(xué)與學(xué)生歷史思維培養(yǎng)探究
- 施工現(xiàn)場(chǎng)揚(yáng)塵污染治理巡查記錄
- 2024年列車(chē)員技能競(jìng)賽理論考試題庫(kù)500題(含答案)
- 中南大學(xué)《藥理學(xué)》2023-2024學(xué)年第一學(xué)期期末試卷
- 《無(wú)人機(jī)測(cè)繪技術(shù)》項(xiàng)目3任務(wù)2無(wú)人機(jī)正射影像數(shù)據(jù)處理
評(píng)論
0/150
提交評(píng)論