版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
Hadoop2.0架構(gòu)設(shè)計(jì)與原理數(shù)據(jù)中心-Alan主要內(nèi)容Hadoop介紹1Hadoop原理2HadoopYARN產(chǎn)生的背景
34HadoopYARN根本架構(gòu)5運(yùn)行在YARN上的計(jì)算框架6YARN進(jìn)展趨勢主要內(nèi)容Hadoop介紹1Hadoop原理2HadoopYARN產(chǎn)生的背景
34HadoopYARN根本架構(gòu)5運(yùn)行在YARN上的根本框架6YARN進(jìn)展趨勢Hadoop概述Hadoop是一個(gè)開源的、牢靠的、可擴(kuò)展的分布式并行計(jì)算框架主要組成:分布式文件系統(tǒng)HDFS和MapReduce算法執(zhí)行作者:DougCutting語言:Java,支持多種編程語言,如:Python、C++Hadoop的起源Hadoop是Google的集群系統(tǒng)的開源實(shí)現(xiàn)Google集群系統(tǒng):GFS(GoogleFileSystem)、MapReduce、BigTableHadoop主要由HDFS(HadoopDistributedFileSystemHadoop分布式文件系統(tǒng))、MapReduceHadoop的初衷是為解決Nutch的海量數(shù)據(jù)爬取和存儲的需要Hadoop于2023年秋天作為Lucene的子工程N(yùn)utch的一局部正式引入Apache基金會。名稱起源:DougCutting兒子的黃色大象玩具的名字目前最新穩(wěn)定版本什么是大數(shù)據(jù)數(shù)據(jù)集主要特點(diǎn)Volume:數(shù)量量從TB到PB級別Variety:數(shù)據(jù)類型簡潔,超過80%的數(shù)據(jù)是非構(gòu)造化的Velocity:數(shù)據(jù)量在持續(xù)增加(兩位數(shù)的年增長率)Value:巨大的數(shù)據(jù)價(jià)值其他特征數(shù)據(jù)來自大量源,需要做相關(guān)性分析需要實(shí)時(shí)或者準(zhǔn)實(shí)時(shí)的流式采集,有些應(yīng)用90%寫vs.10%讀數(shù)據(jù)需要長時(shí)間存儲,非熱點(diǎn)數(shù)據(jù)也會被隨機(jī)訪問什么是大數(shù)據(jù)某比薩店的鈴響了,客服人員拿起??头篨XX比薩店。您好,請問有什么需要我為您效勞?顧客:你好,我想要一份……客服:先生,煩請先把您的會員卡號告知我。顧客:16846146***??头宏愊壬?,您好!您是住在泉州路一號12樓120x室,請問您想要點(diǎn)什么?顧客:我想要一個(gè)海鮮比薩……客服:陳先生,海鮮比薩不適合您。顧客:為什么?客服:依據(jù)您的醫(yī)療記錄,你的血壓和膽固醇都偏高。顧客:那你們有什么可以推舉的?客服:您可以試試我們的低脂安康比薩。顧客:你怎么知道我會寵愛吃這種的?客服:您上星期一在中心圖書館借了一本《低脂安康食譜》。顧客:好。那我要一個(gè)家庭特大號比薩,要付多少錢?客服:99元,這個(gè)足夠您一家六口吃了。但您母親應(yīng)當(dāng)少吃,她上個(gè)月剛剛做了心臟搭橋手術(shù),還處在恢復(fù)期。顧客:那可以刷卡嗎?客服:陳先生,對不起。請您付現(xiàn)款,由于您的信用卡已經(jīng)刷爆了,您現(xiàn)在還欠銀行4807元,而且還不包括房貸利息。顧客:那我先去四周的提款機(jī)提款??头宏愊壬罁?jù)您的記錄,您已經(jīng)超過今日提款限額。顧客:算了,你們直接把比薩送我家吧,家里有現(xiàn)金。你們多久會送到?客服:大約30分鐘。假設(shè)您不想等,可以自己騎車來。顧客:為什么?客服:依據(jù)我們?nèi)蚨ㄎ幌到y(tǒng)的車輛行駛自動跟蹤系統(tǒng)記錄。您登記有一輛車號為SB-748的摩托車,而目前您正在解放路東段華聯(lián)商場右側(cè)騎著這輛摩托車。顧客當(dāng)即暈倒……大數(shù)據(jù)VS傳統(tǒng)數(shù)據(jù)
大數(shù)據(jù)處理流程0101非構(gòu)造化數(shù)據(jù)構(gòu)造化數(shù)據(jù)實(shí)時(shí)流數(shù)據(jù)其它數(shù)據(jù)APITextBigDataStoreandAnalyticsETLHadoop生態(tài)圈主要內(nèi)容Hadoop介紹1Hadoop原理2HadoopYARN產(chǎn)生的背景
34HadoopYARN根本架構(gòu)5運(yùn)行在YARN上的根本框架6YARN進(jìn)展趨勢HDFS-分布式文件系統(tǒng)
設(shè)計(jì)目標(biāo)錯(cuò)誤檢測和快速自動恢復(fù)硬件故障是常態(tài)而非特殊為流式數(shù)據(jù)訪問優(yōu)化針對支持大數(shù)據(jù)集單個(gè)文件大小有數(shù)GB或者TB可供給高聚合帶寬訪問可能夠擴(kuò)展至數(shù)千個(gè)節(jié)點(diǎn)簡化“全都性”模型一次寫入、屢次讀,寫入過程可能并發(fā)移動“計(jì)算”比移動“數(shù)據(jù)”更廉價(jià)主要特點(diǎn)使用低本錢存儲和效勞器構(gòu)建存放PB級別的海量數(shù)據(jù)高可擴(kuò)展性,實(shí)際生產(chǎn)環(huán)境擴(kuò)展至4000個(gè)節(jié)點(diǎn)高牢靠性和容錯(cuò)性,數(shù)據(jù)自動復(fù)制,可自我修復(fù)高帶寬,高并發(fā)訪問,對于延遲不敏感數(shù)據(jù)分布與復(fù)制數(shù)據(jù)塊:文件被劃分為固定大小的數(shù)據(jù)塊進(jìn)展存儲數(shù)據(jù)塊缺省為64M,遠(yuǎn)大于一般文件系統(tǒng)數(shù)據(jù)塊大小削減元數(shù)據(jù)的量有利于挨次讀寫〔在磁盤上挨次存放〕牢靠性:數(shù)據(jù)通過副本的方式保存在多個(gè)數(shù)據(jù)節(jié)點(diǎn)上默認(rèn)3個(gè)副本副本選擇會考慮機(jī)架信息以防止整個(gè)機(jī)架同時(shí)掉電系統(tǒng)設(shè)計(jì)優(yōu)化:用單個(gè)治理節(jié)點(diǎn)來保存文件系統(tǒng)元數(shù)據(jù)和治理/協(xié)調(diào)數(shù)據(jù)緩存:DataNode沒有數(shù)據(jù)緩存由于文件的訪問是掃描式的,不具有局部性訪問方式讀、寫、文件改名、刪除等文件內(nèi)容不允許掩蓋更新供給一個(gè)特殊的訪問接口:追加appendHDFS根本設(shè)計(jì)
HDFS體系構(gòu)造
中心名目效勞器(NameNode)治理大量數(shù)據(jù)效勞器(DataNode)NameNode治理元數(shù)據(jù)(文件名目樹,文件->塊映射,塊->數(shù)據(jù)效勞器映射表,etc.)DataNode負(fù)責(zé)存儲數(shù)據(jù)、以及響應(yīng)數(shù)據(jù)讀寫懇求客戶端與NameNode交互進(jìn)展文件創(chuàng)立/刪除/尋址等操作,之后直接與DataNodes交互進(jìn)展文件I/OHDFS寫文件流程HDFS讀文件流程什么是MapReduce編程模型?
Map(映射):對一些獨(dú)立元素組成的列表的每一個(gè)元素進(jìn)展指定的操作,可以高度并行。Reduce(化簡):對一個(gè)列表的元素進(jìn)展合并。一個(gè)簡潔的MapReduce程序只需要指定map、reduce、輸入和輸出,剩下的事由框架幫你搞定。MapReduce計(jì)算框架
為離線數(shù)據(jù)分析而設(shè)計(jì),根本上是個(gè)利用數(shù)據(jù)并行性進(jìn)展分布運(yùn)算而后匯總結(jié)果的計(jì)算框架分析問題能夠被并行化,且輸入數(shù)據(jù)集可以被切分一個(gè)Map函數(shù),在第一階段計(jì)算<Key,Value>對一個(gè)Reduce函數(shù),在其次階段用于匯總Map函數(shù)的結(jié)果MapReduce運(yùn)行機(jī)制MapReduce原理MapReduce實(shí)例分析主要內(nèi)容Hadoop介紹1Hadoop原理2HadoopYARN產(chǎn)生的背景
34HadoopYARN根本架構(gòu)5運(yùn)行在YARN上的根本框架6YARN進(jìn)展趨勢Hadoop
YARN產(chǎn)生背景
直接源于MRv1在幾個(gè)方面的缺陷
擴(kuò)展性受限
單點(diǎn)故障
難以支持MR之外的計(jì)算
多計(jì)算框架各自為戰(zhàn),數(shù)據(jù)共享困難
MR:離線計(jì)算框架
Storm:實(shí)時(shí)計(jì)算框架
Spark:內(nèi)存計(jì)算框架Hadoop
1.0和2.0Hadoop2.0由HDFS、MapReduce和YARN三個(gè)分支構(gòu)成;HDFS:NNFederation、HA;MapReduce:運(yùn)行在YARN上的MR; YARN:資源治理系統(tǒng)主要內(nèi)容Hadoop介紹1Hadoop原理2HadoopYARN產(chǎn)生的背景
34HadoopYARN根本架構(gòu)5運(yùn)行在YARN上的根本框架6YARN進(jìn)展趨勢HadoopYARN根本架構(gòu)Hadoop
YARN各模塊組成ResourceManager處理客戶端懇求啟動/監(jiān)控ApplicationMaster監(jiān)控NodeManager資源安排與調(diào)度NodeManager單個(gè)節(jié)點(diǎn)上的資源治理處理來自ResourceManager的命令處理來自ApplicationMaster的命令A(yù)pplicationMaster數(shù)據(jù)切分為應(yīng)用程序申請資源,并安排給內(nèi)部任務(wù)任務(wù)監(jiān)控與容錯(cuò)Hadoop
YARN運(yùn)行流程分析NodeManagerNodeManagerNodeManagerResourceManagerApplicationMasterClientClientClient①②③④⑤⑤⑤⑥⑥TaskContainerContainerTaskTaskContainerHadoop
YARN容錯(cuò)ResourceManager基于ZooKeeper實(shí)現(xiàn)HA。NodeManager失敗后,RM將失敗任務(wù)告知對應(yīng)的AM;AM準(zhǔn)備如何處理失敗的任務(wù)。ApplicationMaster失敗后,由RM負(fù)責(zé)重啟;AM需處理內(nèi)部任務(wù)的容錯(cuò)問題;RMAppMaster會保存已經(jīng)運(yùn)行完成的Task,重啟后無需重新運(yùn)行。Hadoop
YARN調(diào)度框架雙層調(diào)度框架RM將資源安排給AMAM將資源進(jìn)一步安排給各個(gè)Task基于資源預(yù)留的調(diào)度策略資源不夠時(shí),會為Task預(yù)留,直到資源充分與“allornothing”策略不同〔ApacheMesos〕Hadoop
YARN資源調(diào)度器多類型資源調(diào)度承受DRF算法〔論文:“DominantResourceFairness:FairAllocationofMultipleResourceTypes”〕目前支持CPU和內(nèi)存兩種資源供給多種資源調(diào)度器FIFOFairSchedulerCapacityScheduler多租戶資源調(diào)度器支持資源按比例安排支持層級隊(duì)列劃分方式支持資源搶占Hadoop
YARN資源隔離方案支持內(nèi)存和CPU兩種資源隔離內(nèi)存是一種“準(zhǔn)備生死”的資源CPU是一種“影響快慢”的資源內(nèi)存隔離基于線程監(jiān)控的方案基于Cgroups的方案CPU隔離默認(rèn)不對CPU資源進(jìn)展隔離基于Cgroups的方案Hadoop
YARN資源調(diào)度語義支持的語義懇求某個(gè)特定節(jié)點(diǎn)/機(jī)架上的特定資源量將某些節(jié)點(diǎn)參與〔或移除〕黑名單,不再為自己安排這些節(jié)點(diǎn)上的資源懇求歸還某些資源不支持的語義懇求任意節(jié)點(diǎn)/機(jī)架上的特定資源量懇求一組或幾組符合某種特質(zhì)的資源超細(xì)粒度資源動態(tài)調(diào)整Container資源主要內(nèi)容Hadoop介紹1Hadoop原理2HadoopYARN產(chǎn)生的背景
34HadoopYARN根本架構(gòu)5運(yùn)行在YARN上的根本框架6YARN進(jìn)展趨勢應(yīng)用程序的運(yùn)行模型MapinputoutputMapinputReduceoutputStage1inputoutputStage2Stage3Stage4Stage1inputoutputStage2Stage3StageNYARN應(yīng)用程序類型
長應(yīng)用程序和短應(yīng)用程序
長應(yīng)用程序
Service、HTTP
Server等
短應(yīng)用程序
MR
job、Spark
Job等以YARN為核心的生態(tài)系統(tǒng)運(yùn)行在YARN上的計(jì)算框架
離線計(jì)算框架:MapReduce
DAG計(jì)算框架:Tez
流式計(jì)算框架:Storm
內(nèi)存計(jì)算框架:Spark
圖計(jì)算框架:Giraph、GraphLib離線計(jì)算框架MapReduce將計(jì)算過程分為兩個(gè)階段,Map和ReduceMap階段并行處理輸入數(shù)據(jù)Reduce階段對Map結(jié)果進(jìn)展匯總Shuffle連接Map和Reduce兩個(gè)階段MapTask將數(shù)據(jù)寫到本地磁盤ReduceTask從每個(gè)MapTask上讀取一份數(shù)據(jù)僅適合離線批處理具有很好的容錯(cuò)性和擴(kuò)展性適合簡潔的批處理任務(wù)缺點(diǎn)明顯啟動開銷大、過多使用磁盤導(dǎo)致效率低下等MapReduce
On
YARN2 5MRAppMstrNodeManagerMapTaskNodeManager6 6ReduceTaskClient1Container245MapTask 777ContainerContainerContainerResourceManager3,86ApplicationsManagerResourceSchedulerDAG計(jì)算框架Tez多個(gè)作業(yè)之間存在數(shù)據(jù)依靠關(guān)系,并形成一個(gè)依靠關(guān)系有向圖〔DirectedAcyclicGraph〕,該圖的計(jì)算稱為“DAG計(jì)算”ApacheTez:基于YARN的DAG計(jì)算框架運(yùn)行在YARN之上,充分利用YARN的資源治理和容錯(cuò)等功能;供給了豐富的數(shù)據(jù)流〔dataflow〕API;擴(kuò)展性良好的“Input-Processor-Output”運(yùn)行時(shí)模型;動態(tài)生成物理數(shù)據(jù)流關(guān)系。Phase
1Phase
2Phase
3Phase
4Phase
5MapReduceMapReduceReduceDAG計(jì)算框架TezHDFSMap1Reduce1HDFSHDFSMap2Reduce2HDFSWordCountTop
KHDFSMap1Reduce12HDFSWordCount+Top
KReduce2Job1Job2DAG
JobUsingTezJob1Job2Job4SingleJobUsingTez
On
YARNDAG
AppMstrNodeManager2 5Vertex-ATaskNodeManagerVertex-ATaskClient1Container245Vertex-ATask777ContainerContainerContainerResourceManager3,866ApplicationsManagerResourceSchedulerTez優(yōu)化技術(shù)ApplicationMaster緩沖池作業(yè)提交到AMPoolServer效勞上預(yù)啟動假設(shè)干個(gè)ApplicationMaster,形成一個(gè)ApplicationMaster緩沖池預(yù)先啟動ContainerApplicationMaster啟動時(shí)可以預(yù)先啟動假設(shè)干個(gè)ContainerContainer重用任務(wù)運(yùn)行完成后,ApplicationMaster不會馬上注銷它使用的Container,而是將它重新安排給其他未運(yùn)行的任務(wù)Tez應(yīng)用場景直接編寫應(yīng)用程序Tez供給了一套通用編程接口適合編寫有依靠關(guān)系的作業(yè)優(yōu)化Pig、Hive等引擎下一代Hive:Stinger好處1:避開查詢語句轉(zhuǎn)換成過多的MapReduce作業(yè)后產(chǎn)生大量不必要的網(wǎng)絡(luò)和磁盤IO好處2:更加智能的任務(wù)處理引擎流式計(jì)算Storm流式〔Streaming〕計(jì)算,是指被處理的數(shù)據(jù)像流水一樣不斷流入系統(tǒng),而系統(tǒng)需要針對每條數(shù)據(jù)進(jìn)展實(shí)時(shí)處理和計(jì)算,并永不停頓〔直到用戶顯式殺死進(jìn)程〕;傳統(tǒng)做法:由消息隊(duì)列和消息處理者組成的實(shí)時(shí)行實(shí)時(shí)計(jì)算;化性現(xiàn)。處理網(wǎng)絡(luò)進(jìn)缺乏自動缺乏強(qiáng)健伸縮性差Storm出引自:2023中國大數(shù)據(jù)技術(shù)大會肖康:“Storm在實(shí)時(shí)網(wǎng)絡(luò)攻擊檢測和分析的應(yīng)用與改進(jìn)”,PPT::///slides/1230流式計(jì)算框架StormNimbusSupervisorZookeeperExecutorExecutorWorkerExecutorExecutorWorkerSpoutTasks,topology1Blot-ATasks,topology1SupervisorExecutorExecutorWorkerExecutorExecutorWorkerSupervisorExecutorExecutorWorkerExecutorExecutorWorkerSpoutTasks,topology1Blot-BTasks,topology1SpoutTasks,topology2Blot-1Tasks,topology2Blot-CTasks,topology1Blot-BTasks,topology1Blot-2Tasks,topology2Blot-1Tasks,topology2Blot-2Tasks,topology2Blot-2Tasks,topology2流式計(jì)算框架StormTaskTaskTaskTaskTaskTaskTaskTaskTaskSpoutBlot-ABlot-BBlot-CStreamGroupingStreamGroupingTopologyHadoop
MapReduce(MRv1)Storm系統(tǒng)服務(wù)JobTrackerNimbusTaskTrackerSupervisorChildWorker應(yīng)用程序名稱JobTopology編程模型Map/ReduceSpout/BlotShuffleStream
GroupingStorm
On
YARNResourceManagerNodeManagerNodeManagerStormSupervisiorNodeManager②④④④YARN-StormClientYARN-MPIClientYARN-MapReduceeClientStorm
①SubmissionResource
RequestStormApplicationMaster③StormSupervisiorZookeeperNodeManagerMRAppMstrContainerMapTaskContainer……StormClient⑤StormClient⑤NimbusWeb
UI內(nèi)存計(jì)算框架Spark抑制MapReduce在迭代式計(jì)算和交互式計(jì)算方面的缺乏;引入RDD〔ResilientDistributedDatasets〕數(shù)據(jù)表示模型;RDD是集合,一個(gè)有容錯(cuò)機(jī)制,可以被并能夠被緩存到內(nèi)存或磁盤上行操作的數(shù)據(jù)。引自:“基于SparkonYarn的淘寶數(shù)據(jù)挖掘平臺”,PPT:://vdisk.weibo/s/dn9q7A_XuVrf內(nèi)存計(jì)算框架SparkSpark
On
YARNResourceManagerNodeManagerNodeManagerStandaloneExecutorBackenddNodeManagerYARN-SparkClientYARN-MPIClientYARN-MapReducee
ClientSparkSubmissionResource
RequestClusterSchedulerSpark
Application
MasterStandaloneExecutorBackendNodeManagerMR
AppMstrContainerMap
TaskContainer……Web
UISpark生態(tài)系統(tǒng)主要內(nèi)容Hadoop介紹1Hadoop原理2HadoopYARN產(chǎn)生的背景
34HadoopYARN根本架構(gòu)5運(yùn)行在YARN上的根本框架6YARN進(jìn)展趨勢資源治理系統(tǒng)帶來的好處
提高集群資源利用率 效勞自動化部署YARN(資源治理系
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度知識產(chǎn)權(quán)保護(hù)合同咨詢及代理服務(wù)協(xié)議3篇
- 二零二五版古董家具修復(fù)、安裝與展覽服務(wù)合同3篇
- 二零二五年服裝店轉(zhuǎn)讓合同書附帶品牌形象重塑及宣傳推廣服務(wù)3篇
- 二零二五版噪聲污染檢測與控制合同3篇
- 二零二五年度智能家居代理出租房租賃合同2篇
- 二零二五年杭州二手房買賣合同貸款與還款指導(dǎo)合同3篇
- 二零二五年金融科技公司股份代持與金融信息服務(wù)合同3篇
- 二零二五版房地產(chǎn)開發(fā)項(xiàng)目施工許可證報(bào)建代理合同3篇
- 二零二五版餐飲企業(yè)食品安全責(zé)任承包合同范本3篇
- 二零二五版古建筑保護(hù)監(jiān)理服務(wù)增補(bǔ)合同2篇
- 危險(xiǎn)性較大分部分項(xiàng)工程及施工現(xiàn)場易發(fā)生重大事故的部位、環(huán)節(jié)的預(yù)防監(jiān)控措施
- 繼電保護(hù)試題庫(含參考答案)
- 《榜樣9》觀后感心得體會四
- 2023事業(yè)單位筆試《公共基礎(chǔ)知識》備考題庫(含答案)
- 《水下拋石基床振動夯實(shí)及整平施工規(guī)程》
- 化學(xué)-廣東省廣州市2024-2025學(xué)年高一上學(xué)期期末檢測卷(一)試題和答案
- 2025年云南大理州工業(yè)投資(集團(tuán))限公司招聘31人管理單位筆試遴選500模擬題附帶答案詳解
- 風(fēng)電危險(xiǎn)源辨識及控制措施
- 《教師職業(yè)道德與政策法規(guī)》課程教學(xué)大綱
- 營銷策劃 -麗亭酒店品牌年度傳播規(guī)劃方案
- 兒童傳染病預(yù)防課件
評論
0/150
提交評論