版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第6章Hadoop2.0新特性
·Hadoop2.0的改進與提升·YARN體系結構·YARN工作流程·HDFSHA的搭建方法12?學習目標熟悉掌握掌握掌握熟悉YARN的體系結構12掌握Hadoop2.0的改進與提升4掌握YARN的工作流程3掌握HDFSHA的搭建方法本章通過對Hadoop2.0的改進與提升、YARN體系結構、YARN工作流程、HDFSHA搭建方法進行詳細講解。章節(jié)概要相比于Hadoop1.0,Hadoop2.0由HDFS、MapRduce和YARN三個分支構成。其中HDFS增加了兩個重大特性,HA和Federation。Hadoop2.0將JobTracker中的資源管理和作業(yè)控制分開,分別由Resource-Manager(負責所有應用程序的資源分配)和ApplicationMaster(負責管理一個應用程序)實現,即引入了資源管理框架YARN。
6.1Hadoop2.0的改進與提升Hadoop2.0新特性——HAHA即為高可用性HighAvailability,高可用性最關鍵的策略是消除單點故障。其主要用于解決NameNode單點故障問題,該特性通過熱備的方式為主NameNode提供一個備用者,一旦主NameNode出現故障,可以迅速切換至備NameNode,從而實現不間斷對外提供服務。
6.1Hadoop的文件系統(tǒng)Hadoop2.0新特性——HA在一個典型的HDFSHA場景中,一個NameNode處于Active狀態(tài),另一個NameNode處于Standby狀態(tài)。ActiveNameNode對外提供服務。例如:處理來自客戶端的RPC請求,StandbyNameNode則不對外提供服務,僅同步ActiveNameNode的狀態(tài),以便能夠在它失敗時快速進行切換。
6.1Hadoop的文件系統(tǒng)Hadoop2.0新特性——FederationFederation即為“聯邦”,該特性可理解為一個HDFS集群中允許存在多個相互獨立的NameNode同時對外提供服務,這些使NameNode可以通過增加機器來進行水平擴展。每個NameNode分別進行各自命名空間和塊管理。
6.1Hadoop的文件系統(tǒng)Hadoop2.0新特性——FederationFederation特性的設計主要可以解決以下問題HDFS集群擴展性性能更高效良好的隔離性
6.2YARN體系結構YARN體系結構ApacheHadoopYARN是Hadoop2.0中的資源管理系統(tǒng),它依舊采用了主從架構。YARN主要是由ResourceManager、NodeManager、ApplicationMaster和Container
等幾個組件構成。ResourceManager為master節(jié)點,NodeManager為slaver節(jié)點,ResourceManager主要負責對NodeManager上的資源進行統(tǒng)一的管理與調度。
6.2YARN體系結構YARN體系結構當用戶Client提交一個應用程序時,Client向ResourceManager提交的每個應用程序都必須存在一個AppMaster,它負責向ResourceManager申請資源,并要求NodeManger啟動可以占用一定資源的任務。由于不同的AppMaster被分布到不同的節(jié)點上,因此,它們之間不會相互影響。
6.2YARN體系結構YARN體系結構——ContainerContainer是YARN框架中的資源,它可以理解為組成系統(tǒng)的一個資源單元。例如:內存分片、CPU核心數、網絡帶寬和硬盤空間等。每個slaver節(jié)點由多個512MB或1GB大小的內存容器組成。當應用管理器(ApplicationManager)向資源管理器(ResourceManager)申請資源時,資源管理器返回的資源使用Container表示,且YARN為每個任務分配一個Container。
6.2YARN體系結構YARN體系結構——ResourceManagerResourceManager是一個全局的資源管理器,負責整個系統(tǒng)的資源管理與分配。它主要由兩個組件資源調度器(Scheduler)和應用管理器(ApplicationManager)組成。1)調度器調度器是根據集群中的容量、隊列和資源等限制,將資源分配給各個正在運行的應用。調度器根據每個應用的資源需求和集群各個節(jié)點的資源容器進行調度。2)應用管理器應用管理器負責整個系統(tǒng)中所有應用程序,包括應用程序提交、調度器協調資源啟動(ApplicationMaster)、監(jiān)控應用運行情況并重新啟動等。
6.2YARN體系結構YARN體系結構——NodeManagerNodeManager是每個節(jié)點上的資源和任務管理器,它運行在每個集群的節(jié)點上,其主要負責與ResourceManager配合進行整個集群的資源分配工作,并監(jiān)控運行節(jié)點的健康狀態(tài)。它的工作主要有以下幾個方面:接收ResourceManager請求與ResourceManager交換信息管理Container生命周期管理節(jié)點日志執(zhí)行額外服務
6.2YARN體系結構YARN體系結構——ApplicationMasterApplicationMaster是應用主體,它與用戶提交的每個應用程序是一一對應的,Application-Master的主要作用是向ResourceManager申請資源并與NodeManager協同工作來運行應用的各個任務,然后跟蹤它們狀態(tài)及監(jiān)控各個任務的執(zhí)行,遇到失敗的任務還負責重啟它。它的工作主要負責以下幾個方面:①與ResourceManager調度器協商獲取資源。②與NodeManager合作,在合適的容器中運行對應的組件,并監(jiān)控這些任務執(zhí)行。③如果容器Container出現故障,ApplicationMaster會重新向調度器申請其他資源。④計算應用程序所需要的資源量,并轉化為調度器可識別的協議信息包。⑤在應用主體出現故障后,應用管理器會負責重啟它。
6.3YARN工作流程YARN工作流程①用戶Client向YARN中提交應用程序,并為其分配一個新的應用ID,該應用包括ApplicationMaster程序、啟動ApplicationMaster的命令、用戶程序等。②ResourceManager為該應用程序分配第一個Container。③ApplicationMaster首先向ResourceManager注冊,這樣用戶可以直接通過ResourceManager查看應用程序的運行狀態(tài)。④ApplicationMaster通過RPC協議不斷計算所需資源并向ResourceManager申請和領取資源。⑤一旦ApplicationMaster申請到資源后,應用主體與對應的NodeManager進行通信,要求它啟動任務。⑥NodeManager為任務設置好運行環(huán)境后,將任務啟動命令寫到一個腳本中,并通過運行該腳本啟動任務。⑦各個任務通過某個RPC協議向ApplicationMaster匯報自己的狀態(tài)和進度,以讓ApplicationMaster隨時掌握各個任務的運行狀態(tài)。⑧應用程序運行完成后,ApplicationMaster向ResourceManager注銷并關閉自己。
6.3YARN工作流程YARN工作流程
6.4HDFSHA的搭建方法準備工作——節(jié)點規(guī)劃使用4臺虛擬機搭建HA集群,節(jié)點master1和slave1作為NameNode,節(jié)點master2、slave1、slave2作為DataNode,存儲共享的JournalNode在所有節(jié)點都要啟動。節(jié)點規(guī)劃圖如下:
6.4HDFSHA的搭建方法準備工作——IP地址規(guī)劃
6.4HDFSHA的搭建方法準備工作——修改主機名修改所有節(jié)點的“/etc/hostname”文件,修改三個虛擬機的主機名,執(zhí)行命令“vi/etc/hostname”,將原文件中的“l(fā)ocalhost.localdomain”分別改為master1、master2、slave1和slave2,修改完成后重啟虛擬機。后續(xù)工作還包括創(chuàng)建普通用戶,關閉防火墻,時鐘同步等。
6.4HDFSHA的搭建方法安裝Zookeeper——下載將下載后的安裝包拷貝到每個節(jié)點的“/home/apache/soft”文件夾下,然后使用命令“tar-zxvfZooKeeper-3.4.14.tar.gz”解壓壓縮包。如圖6.6所示,已經成功解壓出文件夾“ZooKeeper-3.4.14”。
6.4HDFSHA的搭建方法安裝Zookeeper——配置修改zookeeper配置文件名稱為zoo.cfg。并修改配置文件,配置的內容如下:tickTime=2000initLimit=10syncLimit=5#修改的dataDir文件路徑,配置臨時文件路徑內容即可,配置的文件路徑需要提前創(chuàng)建好dataDir=/home/apache/soft/zookeeper-3.4.14/tmp#theportatwhichtheclientswillconnectclientPort=2181#配置server幾臺機器就配置幾臺即可,注意server的數字,在后續(xù)需要用到server.1=master2:2888:3888server.2=slave1:2888:3888server.3=slave2:2888:3888server.0=master1:2888:3888
6.4HDFSHA的搭建方法安裝Zookeeper——安裝Rsync工具使用命令“yuminstall-yrsync”。該命令是使用yum下載并安裝Rsync工具包。進行配置分發(fā)操作。
6.4HDFSHA的搭建方法安裝Zookeeper——配置環(huán)境變量修改/etc/profile文件配置環(huán)境變量,配置內容如下:exportJAVA_HOME=/home/apache/soft/jdk1.8.0_211exportHADOOP_HOME=/home/apache/soft/hadoop-2.7.7exportZOOKEEPER_HOME=/home/apache/soft/zookeeper-3.4.14exportPATH=﹩PATH:﹩JAVA_HOME/bin:﹩JAVA_HOME/jre/bin:﹩HADOOP_HOME/bin:﹩HADOOP_HOME/sbin:﹩ZOOKEEPER_HOME/binexportCLASSPATH=﹩CLASSPATH:.:﹩JAVA_HOME/lib:﹩JAVA_HOME/jre/lib
6.4HDFSHA的搭建方法安裝Zookeeper——啟動ZooKeeper的相關命令主要有以下幾個:①啟動ZooKeeper命令:“zkServer.shstart”;②查看ZooKeeper命令:“zkServer.shstatus”;③停止ZooKeeper命令:“zkServer.shstop”。為每臺節(jié)點執(zhí)行“zkServer.shstart”命令,啟動ZooKeeper服務。當每個節(jié)點已經啟動后,使用命令“zkServer.shstatus”查看每個節(jié)點的狀態(tài)。
6.4HDFSHA的搭建方法配置高可用集群——創(chuàng)建文件夾在配置安裝Hadoop之前,需要提前創(chuàng)建好文件夾,用來存儲數據、日志文件、數據存儲文件。對于數據存儲文件夾,創(chuàng)建文件夾命令如下:[root@master1hadoop-2.7.7]#mkdir-p/home/apache/soft/hadoop-2.7.7/media/data1/hdfs/data[root@master1hadoop-2.7.7]#mkdir-p/home/apache/soft/hadoop-2.7.7/media/data2/hdfs/data[root@master1hadoop-2.7.7]#mkdir-p/home/apache/soft/hadoop-2.7.7/media/data3/hdfs/data
6.4HDFSHA的搭建方法配置高可用集群——配置環(huán)境變量這里需要配置Java和Hadoop的環(huán)境變量,配置方法可以參考ZooKeeper環(huán)境變量配置方法,這里只需要修改“/etc/profile”文件,在文件下添加的增加內容為:JAVA_HOME、HADOOP_HOME,并在變量PATH中添加變量。exportJAVA_HOME=/home/apache/soft/jdk1.8.0_211exportHADOOP_HOME=/home/apache/soft/hadoop-2.7.7exportZOOKEEPER_HOME=/home/apache/soft/ZooKeeper-3.4.14exportPATH=﹩PATH:﹩JAVA_HOME/bin:﹩JAVA_HOME/jre/bin:﹩HADOOP_HOME/bin:﹩HADOOP_HOME/sbin:﹩ZOOKEEPER_HOME/binexportCLASSPATH=﹩CLASSPATH:.:﹩JAVA_HOME/lib:﹩JAVA_HOME/jre/lib
6.4HDFSHA的搭建方法配置高可用集群——修改配置文件修改目錄“/home/apache/soft/hadoop-2.7.7/etc/hadoop”下的“hadoop-env.sh”和“yarnenv.sh”兩個文件,這兩個腳本分別是Hadoop的環(huán)境變量與YARN的環(huán)境變量配置腳本。
6.4HDFSHA的搭建方法配置高可用集群——修改配置文件修改配置文件“core-site.xml”,該配置文件主要是設置集群的全局配置文件,用于定義系統(tǒng)級別的參數,如HDFSURL、Hadoop的臨時目錄等。修改配置文件“hdfs-site.xml”,該配置文件是對HDFS的配置文件,通過該配置文件可以修改命名空間NameSpace、指定該集群下有幾個NameNode、NameNode的RPC通信地址與HTTP通信地址、DataNode的存儲文件位置、配置JournalNode的數據共享地址、存儲副本數、高可用性方案、ZooKeeper配置等。修改配置文件“mapred-site.xml”,該配置文件的主要作用是定義MapReduce參數,包括兩部分:JobHistoryServer和應用程序參數,如Reduce任務的默認個數、任務所能使用的內存大小等。
6.4HDFSHA的搭建方法配置高可用集群——修改配置文件修改配置文件“yarn-site.xml”,該配置文件主要用于集群資源管理系統(tǒng)參數的配置,例如:配置“ResourceManager、NodeManager”的通信端口、Web監(jiān)控端口等。修改Hadoop
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 專業(yè)滑雪教學合作合同書2024版版B版
- 西安交通大學《基礎護理學基本技能1》2023-2024學年第一學期期末試卷
- 武漢晴川學院《心理咨詢倫理》2023-2024學年第一學期期末試卷
- 專業(yè)塔吊故障檢修服務協議樣本版A版
- 二零二五版建筑垃圾再生利用與建材企業(yè)合作協議3篇
- 二零二五年度股權代持與公司治理創(chuàng)新合同范本2篇
- 2024版供貨協議范本
- 2024年網絡安全服務提供商合作協議 with 服務內容包括攻防演練、安全監(jiān)控
- 二零二五版汽車進口運輸與知識產權保護合同3篇
- 2025年度綠色能源項目采購代理委托服務協議3篇
- 干細胞項目商業(yè)計劃書
- 浙江省嘉興市2024-2025學年高一數學上學期期末試題含解析
- 2024年高考新課標Ⅱ卷語文試題講評課件
- 無人機航拍技術教案(完整版)
- 人教PEP版(2024)三年級上冊英語Unit 4《Plants around us》單元作業(yè)設計
- 《保密法》培訓課件
- 醫(yī)院項目竣工驗收和工程收尾階段的管理措施專項方案
- 2024年涉密人員考試試題庫保密基本知識試題附答案(考試直接用)
- 2024年桂林中考物理試卷
- DL∕T 5362-2018 水工瀝青混凝土試驗規(guī)程
- (正式版)JC∕T 60023-2024 石膏條板應用技術規(guī)程
評論
0/150
提交評論