版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、hadoop、storm和spark的區(qū)別、比較一、該選哪一個(gè)?為了區(qū)別和,該部分將回答如下問(wèn)題:、各是什么運(yùn)算為什么被稱之為流式計(jì)算系統(tǒng)適合什么場(chǎng)景,什么情況下使用4.什么是吞吐量首先整體認(rèn)識(shí):是磁盤級(jí)計(jì)算,進(jìn)行計(jì)算時(shí),數(shù)據(jù)在磁盤上,需要讀寫磁盤;是內(nèi)存級(jí)計(jì)算,數(shù)據(jù)直接通過(guò)網(wǎng)絡(luò)導(dǎo)入內(nèi)存。讀寫內(nèi)存比讀寫磁盤速度快個(gè)數(shù)量級(jí)。根據(jù)課件,磁盤訪問(wèn)延遲約為內(nèi)存訪問(wèn)延遲的倍。所以更快。注釋:延時(shí),指數(shù)據(jù)從產(chǎn)生到運(yùn)算產(chǎn)生結(jié)果的時(shí)間,“快”應(yīng)該主要指這個(gè)。吞吐,指系統(tǒng)單位時(shí)間處理的數(shù)據(jù)量。的網(wǎng)絡(luò)直傳、內(nèi)存計(jì)算,其時(shí)延必然比的通過(guò)傳輸?shù)偷枚?;?dāng)計(jì)算模型比較適合流式時(shí),的流式處理,省去了批處理的收集數(shù)據(jù)的時(shí)間;
2、因?yàn)槭欠?wù)要快于型的作業(yè),也省去了作業(yè)調(diào)度的時(shí)延。所以從時(shí)延上來(lái)看,要快于從原理角度來(lái)講:基于,需要切分輸入數(shù)據(jù)、產(chǎn)生中間數(shù)據(jù)文件、排序、數(shù)據(jù)壓縮、多份復(fù)制等,效率較低?;谶@個(gè)高性能的消息通訊庫(kù),不持久化數(shù)據(jù)。為什么比快,下面舉一個(gè)應(yīng)用場(chǎng)景說(shuō)一個(gè)典型的場(chǎng)景,幾千個(gè)日志生產(chǎn)方產(chǎn)生日志文件,需要進(jìn)行一些操作存入一個(gè)數(shù)據(jù)庫(kù)。假設(shè)利用,則需要先存入,按每一分鐘切一個(gè)文件的粒度來(lái)算(這個(gè)粒度已經(jīng)極端的細(xì)了,再小的話上會(huì)一堆小文件),開始計(jì)算時(shí),分鐘已經(jīng)過(guò)去了,然后再開始調(diào)度任務(wù)又花了一分鐘,然后作業(yè)運(yùn)行起來(lái),假設(shè)機(jī)器特別多,幾鈔鐘就算完了,然后寫數(shù)據(jù)庫(kù)假設(shè)也花了很少的時(shí)間,這樣,從數(shù)據(jù)產(chǎn)生到最后可以使
3、用已經(jīng)過(guò)去了至少兩分多鐘。而流式計(jì)算則是數(shù)據(jù)產(chǎn)生時(shí),則有一個(gè)程序去一直監(jiān)控日志的產(chǎn)生,產(chǎn)生一行就通過(guò)一個(gè)傳輸系統(tǒng)發(fā)給流式計(jì)算系統(tǒng),然后流式計(jì)算系統(tǒng)直接處理,處理完之后直接寫入數(shù)據(jù)庫(kù),每條數(shù)據(jù)從產(chǎn)生到寫入數(shù)據(jù)庫(kù),在資源充足時(shí)可以在毫秒級(jí)別完成。同時(shí)說(shuō)一下另外一個(gè)場(chǎng)景:如果一個(gè)大文件的,把它放到上進(jìn)行流式的處理,等所有已有數(shù)據(jù)處理完才讓輸出結(jié)果,這時(shí)候,你再把它和比較快慢,這時(shí),其實(shí)比較的不是時(shí)延,而是比較的吞吐了。最主要的方面:使用磁盤作為中間交換的介質(zhì),而的數(shù)據(jù)是一直在內(nèi)存中流轉(zhuǎn)的。兩者面向的領(lǐng)域也不完全相同,一個(gè)是批量處理,基于任務(wù)調(diào)度的;另外一個(gè)是實(shí)時(shí)處理,基于流。以水為例,可以看作是純凈
4、水,一桶桶地搬;而是用水管,預(yù)先接好(),然后打開水龍頭,水就源源不斷地流出來(lái)了。的主工程師表示:可以方便地在一個(gè)計(jì)算機(jī)集群中編寫與擴(kuò)展復(fù)雜的實(shí)時(shí)計(jì)算,之于實(shí)時(shí)處理,就好比之于批處理。保證每個(gè)消息都會(huì)得到處理,而且它很快在一個(gè)小集群中,每秒可以處理數(shù)以百萬(wàn)計(jì)的消息。更棒的是你可以使用任意編程語(yǔ)言來(lái)做開發(fā)。的主要特點(diǎn)如下:簡(jiǎn)單的編程模型。類似于降低了并行批處理復(fù)雜性,降低了進(jìn)行實(shí)時(shí)處理的復(fù)雜性??梢允褂酶鞣N編程語(yǔ)言。你可以在之上使用各種編程語(yǔ)言。默認(rèn)支持、和。要增加對(duì)其他語(yǔ)言的支持,只需實(shí)現(xiàn)一個(gè)簡(jiǎn)單的通信協(xié)議即可。和。要增加對(duì)其他語(yǔ)言的支持,只需實(shí)現(xiàn)一個(gè)簡(jiǎn)單的通信協(xié)議即可。容錯(cuò)性。會(huì)管理工作進(jìn)程
5、和節(jié)點(diǎn)的故障。4.水平擴(kuò)展。計(jì)算是在多個(gè)線程、進(jìn)程和服務(wù)器之間并行進(jìn)行的??煽康南⑻幚怼1WC每個(gè)消息至少能得到一次完整處理。任務(wù)失敗時(shí),它會(huì)負(fù)責(zé)從消息源重試消息??焖?。系統(tǒng)的設(shè)計(jì)保證了消息能得到快速的處理,使用作為其底層消息隊(duì)列。本地模式。有一個(gè)“本地模式”,可以在處理過(guò)程中完全模擬集群。這讓你可以快速進(jìn)行開發(fā)和單元測(cè)試。在消耗資源相同的情況下,一般來(lái)說(shuō)的延時(shí)低于。但是吞吐也低于e是典型的流計(jì)算系統(tǒng),是典型的批處理系統(tǒng)。下面對(duì)流計(jì)算和批處理系統(tǒng)流程這個(gè)個(gè)數(shù)據(jù)處理流程來(lái)說(shuō)大致可以分三個(gè)階段:數(shù)據(jù)采集與準(zhǔn)備數(shù)據(jù)計(jì)算(涉及計(jì)算中的中間存儲(chǔ)),題主中的“那些方面決定”應(yīng)該主要是指這個(gè)階段處理方式。數(shù)
6、據(jù)結(jié)果展現(xiàn)(反饋)數(shù)據(jù)采集階段,目前典型的處理處理策略:數(shù)據(jù)的產(chǎn)生系統(tǒng)一般出自頁(yè)面打點(diǎn)和解析的,流計(jì)算將數(shù)據(jù)采集中消息隊(duì)列(比如Q的,流計(jì)算將數(shù)據(jù)采集中消息隊(duì)列(比如Q等。批處理系統(tǒng)實(shí)際流計(jì)算和批處理系統(tǒng)沒(méi)有本質(zhì)的區(qū)別,像的也有批概念,而實(shí)際流計(jì)算和批處理系統(tǒng)沒(méi)有本質(zhì)的區(qū)別,像的也有批概念,而般將數(shù)據(jù)采集進(jìn)分布式文件系統(tǒng)(比如),當(dāng)然也有使用消息隊(duì)列的。我們暫且把消息隊(duì)列和文件系統(tǒng)稱為預(yù)處理存儲(chǔ)。二者在延時(shí)和吞吐上沒(méi)太大區(qū)別,接下來(lái)從這個(gè)預(yù)處理存儲(chǔ)進(jìn)入到數(shù)據(jù)計(jì)算階段有很大的區(qū)別,流計(jì)算一般在實(shí)時(shí)的讀取消息隊(duì)列進(jìn)入流計(jì)算系統(tǒng)()的數(shù)據(jù)進(jìn)行運(yùn)算,批處理一系統(tǒng)一般會(huì)攢一大批后批量導(dǎo)入到計(jì)算系統(tǒng)(),
7、這里就有了延時(shí)的區(qū)別。)數(shù)據(jù)計(jì)算階段,流計(jì)算系統(tǒng)()的延時(shí)低主要有一下幾個(gè)方面(針對(duì)題主的問(wèn)題):進(jìn)程是常駐的,有數(shù)據(jù)就可以進(jìn)行實(shí)時(shí)的處理數(shù)據(jù)攢一批后由作業(yè)管理系統(tǒng)啟動(dòng)任務(wù),數(shù)據(jù)攢一批后由作業(yè)管理系統(tǒng)啟動(dòng)任務(wù),計(jì)算任務(wù)分配,實(shí)際流計(jì)算和批處理系統(tǒng)沒(méi)有本質(zhì)的區(qū)別,像的也有批概念,而實(shí)際流計(jì)算和批處理系統(tǒng)沒(méi)有本質(zhì)的區(qū)別,像的也有批概念,而實(shí)際流計(jì)算和批處理系統(tǒng)沒(méi)有本質(zhì)的區(qū)別,像的也有批概念,而實(shí)際流計(jì)算和批處理系統(tǒng)沒(méi)有本質(zhì)的區(qū)別,像的也有批概念,而啟動(dòng)相關(guān)的運(yùn)算進(jìn)程每個(gè)計(jì)算單元之間數(shù)據(jù)之間通過(guò)網(wǎng)絡(luò)()直接傳輸。任務(wù)運(yùn)算的結(jié)果要寫入到,在于任務(wù)通過(guò)網(wǎng)絡(luò)拖過(guò)去運(yùn)算。相任務(wù)運(yùn)算的結(jié)果要寫入到,在于任務(wù)通
8、過(guò)網(wǎng)絡(luò)拖過(guò)去運(yùn)算。相對(duì)來(lái)說(shuō)多了磁盤讀寫,比較慢對(duì)于復(fù)雜運(yùn)算的運(yùn)算模型直接支持(有向無(wú)環(huán)圖)需要肯多個(gè)過(guò)程組成,有些操作沒(méi)有意義的)數(shù)據(jù)結(jié)果展現(xiàn)流計(jì)算一般運(yùn)算結(jié)果直接反饋到最終結(jié)果集中(展示頁(yè)面,數(shù)據(jù)庫(kù),搜索引擎的索引)。而一般需要整個(gè)運(yùn)算結(jié)束后將結(jié)果批量導(dǎo)入到結(jié)果集中。的就是基于可以將每次運(yùn)算的數(shù)據(jù)集縮?。ū热鐜追昼妴?dòng)一次),做的流計(jì)算系統(tǒng)。的就是基于二、高性能并行計(jì)算引擎和比較基于這樣的理念,當(dāng)數(shù)據(jù)龐大時(shí),把計(jì)算過(guò)程傳遞給數(shù)據(jù)要比把數(shù)據(jù)傳遞給計(jì)算過(guò)程要更富效率。每個(gè)節(jié)點(diǎn)存儲(chǔ)(或緩存)它的數(shù)據(jù)集,然后任務(wù)被提交給節(jié)點(diǎn)。所以這是把過(guò)程傳遞給數(shù)據(jù)。這和非常相似,除了積極使用內(nèi)存來(lái)避免I/O操作,
9、以使得迭代算法(前一步計(jì)算輸出是下一步計(jì)算的輸入)性能更高。只是一個(gè)基于的查詢引擎(支持臨時(shí)性的分析查詢)而的架構(gòu)和截然相反。是一個(gè)分布式流計(jì)算引擎。每個(gè)節(jié)點(diǎn)實(shí)現(xiàn)一個(gè)基本的計(jì)算過(guò)程,而數(shù)據(jù)項(xiàng)在互相連接的網(wǎng)絡(luò)節(jié)點(diǎn)中流進(jìn)流出。和相反,這個(gè)是把數(shù)據(jù)傳遞給過(guò)程。兩個(gè)框架都用于處理大量數(shù)據(jù)的并行計(jì)算。在動(dòng)態(tài)處理大量生成的“小數(shù)據(jù)塊”上要更好(比如在數(shù)據(jù)流上實(shí)時(shí)計(jì)算一些匯聚功能或分析)。工作于現(xiàn)有的數(shù)據(jù)全集(如數(shù)據(jù))已經(jīng)被導(dǎo)入集群,基于管理可以進(jìn)行快訊掃描,并最小化迭代算法的全局I/O操作。窗口(),而后者需要自己去維護(hù)這個(gè)窗口。窗口(),而后者需要自己去維護(hù)這個(gè)窗口。不過(guò)流模塊()倒是和相類似(都是流計(jì)算引擎),盡管不過(guò)流模塊()倒是和相類似(都是流計(jì)算引擎),盡管并非完全一樣。流模塊先匯聚批量數(shù)據(jù)然后進(jìn)行數(shù)據(jù)塊分發(fā)(視作不可變數(shù)據(jù)進(jìn)行處理),而是只要接
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024房屋買賣合同反訴狀
- 2024煤礦安全監(jiān)控系統(tǒng)建設(shè)與維護(hù)合同
- 10 我們愛和平 第一課時(shí) 說(shuō)課稿-2023-2024學(xué)年道德與法治六年級(jí)下冊(cè)統(tǒng)編版
- 5G時(shí)代2024年電信工程合同管理策略
- 2024年雨污分流工程承包細(xì)則標(biāo)準(zhǔn)協(xié)議
- 2025年度草原畜牧業(yè)生產(chǎn)與市場(chǎng)拓展合作合同3篇
- 專業(yè)凈水設(shè)備定期更新濾芯協(xié)議(2024)版B版
- 福建省南平市武夷山第三中學(xué)2020-2021學(xué)年高一數(shù)學(xué)理月考試題含解析
- 福建省南平市松溪縣職業(yè)中學(xué)2021-2022學(xué)年高一數(shù)學(xué)文模擬試卷含解析
- 生活學(xué)習(xí)收獲成長(zhǎng)
- 醫(yī)療安全不良事件報(bào)告培訓(xùn)PPT培訓(xùn)課件
- 【信息技術(shù)應(yīng)用能力提升工程2.0】A3演示文稿設(shè)計(jì)與制作 初中語(yǔ)文《雖有嘉肴》主題說(shuō)明
- 膽管癌的護(hù)理查房
- 小學(xué)四年級(jí)奧數(shù)教程30講(經(jīng)典講解)
- 爛尾樓工程聯(lián)建檢測(cè)與鑒定
- 汽車技術(shù)服務(wù)與營(yíng)銷畢業(yè)論文備選題目
- Reaxys使用方法
- 跌落測(cè)試(中文版)ISTA2A2006
- 云南省教育科學(xué)規(guī)劃課題開題報(bào)告 - 云南省教育科學(xué)研究院
- 常用鋼材尺寸允許偏差范圍(2013)
- 蒸汽管道施工方案(20201118222709)
評(píng)論
0/150
提交評(píng)論