![第5章Hadoop2.0主流開源云架構(gòu)(四)_第1頁](http://file3.renrendoc.com/fileroot_temp3/2022-3/3/bcbb4a64-b371-4179-b603-c31bd315a4e2/bcbb4a64-b371-4179-b603-c31bd315a4e21.gif)
![第5章Hadoop2.0主流開源云架構(gòu)(四)_第2頁](http://file3.renrendoc.com/fileroot_temp3/2022-3/3/bcbb4a64-b371-4179-b603-c31bd315a4e2/bcbb4a64-b371-4179-b603-c31bd315a4e22.gif)
![第5章Hadoop2.0主流開源云架構(gòu)(四)_第3頁](http://file3.renrendoc.com/fileroot_temp3/2022-3/3/bcbb4a64-b371-4179-b603-c31bd315a4e2/bcbb4a64-b371-4179-b603-c31bd315a4e23.gif)
![第5章Hadoop2.0主流開源云架構(gòu)(四)_第4頁](http://file3.renrendoc.com/fileroot_temp3/2022-3/3/bcbb4a64-b371-4179-b603-c31bd315a4e2/bcbb4a64-b371-4179-b603-c31bd315a4e24.gif)
![第5章Hadoop2.0主流開源云架構(gòu)(四)_第5頁](http://file3.renrendoc.com/fileroot_temp3/2022-3/3/bcbb4a64-b371-4179-b603-c31bd315a4e2/bcbb4a64-b371-4179-b603-c31bd315a4e25.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、of39電子工業(yè)出版社云計算(第三版)配套課件云 計 算(第三版)CLOUD COMPUTING Third Edition主編:劉鵬 教授第 5 章Hadoop 2.0 主流開源云架構(gòu)(四)本套PPT下載地址:http:/ 教授、博導(dǎo)、學(xué)科帶頭人,清華大學(xué)博士?,F(xiàn)任中國云計算專家咨詢委員會秘書長、中國信息協(xié)會大數(shù)據(jù)分會副會長、工業(yè)與信息化部云計算研究中心專家。 主持完成科研項目25項,發(fā)表論文80余篇,出版專業(yè)書籍15本。獲部級科技進步二等獎4項、三等獎4項。主編了國內(nèi)第一本云計算教材云計算和第一本云計算編程書籍實戰(zhàn)Hadoop。創(chuàng)辦了知名的中國云計算()和中國大數(shù)據(jù)()網(wǎng)站。 曾率隊奪得2
2、002 PennySort國際計算機排序比賽冠軍,兩次奪得全國高??萍急荣愖罡擢?,并三次奪得清華大學(xué)科技比賽最高獎。 榮獲“全軍十大學(xué)習(xí)成才標兵”(排名第一)、南京“十大杰出青年”、江蘇省“333高層次人才培養(yǎng)工程”中青年科學(xué)技術(shù)帶頭人、清華大學(xué)“學(xué)術(shù)新秀”等稱號。劉 鵬5.1 引例5.2 Hadoop 2.0簡述5.3 Hadoop 2.0部署5.4 Hadoop 2.0體系架構(gòu)5.5 Hadoop 2.0訪問接口5.6 Hadoop 2.0編程接口5.4 Hadoop 2.0體系架構(gòu)5.4.1 Hadoop 2.0公共組件Common5.4.2 分布式文件系統(tǒng)HDFS5.4.3 分布式操作
3、系統(tǒng)Yarn5.4.4 Hadoop 2.0安全機制簡介of39云計算第三版配套PPT課件65.4 Hadoop 2.0體系架構(gòu)定位管理計算機資源提供用戶接口一方面管理整個集群的計算資源(CPU、內(nèi)存等)另一方面提供用戶程序訪問系統(tǒng)資源的API。分布式操作系統(tǒng)的基本功能:Yarnof39云計算第三版配套PPT課件75.4 Hadoop 2.0體系架構(gòu)體系架構(gòu)Yarn的主要思想是將MRv1版JobTracker的兩大功能資源管理和任務(wù)調(diào)度,拆分成兩個獨立的進程:資源管理模塊全局資源管理進程ResourceManager任務(wù)管理模塊任務(wù)管理進程ApplicationMasterl Yarn依舊是m
4、aster/slave結(jié)構(gòu)l 主進程ResourceManager是整個集群資源仲裁中心l 從進程NodeManager管理本機資源l ResourceManager和從屬節(jié)點的進程NodeManager組成了Hadoop 2.0的分布式數(shù)據(jù)計算框架of39云計算第三版配套PPT課件8ClientClientRespirceManagerNodeManagerContainerApp MstrNodeManagerContainerApp MstrNodeManagerContainerContainerMapReduce StatusJob SubmissionNode StatusReso
5、urce Request5.4 Hadoop 2.0體系架構(gòu)體系架構(gòu)of39云計算第三版配套PPT課件9Yarn在執(zhí)行時包含以下獨立實體: Client:客戶端,負責(zé)向集群提交作業(yè)。 ResourceManager:集群主進程,仲裁中心,負責(zé)集群資源管理和任務(wù)調(diào)度。 Scheduler:資源仲裁模塊。 ApplicationManager:選定,啟動和監(jiān)管ApplicationMaster。 NodeManager:集群從進程,管理監(jiān)視Containers,執(zhí)行具體任務(wù)。 Container:本機資源集合體,如某Container為4個CPU,8GB內(nèi)存。 ApplicationMaster:
6、任務(wù)執(zhí)行和監(jiān)管中心。5.4 Hadoop 2.0體系架構(gòu)體系架構(gòu)ClientClientContainerContainerContainerContainerContainerContainerApplicationMasterApplicationManagerSchenulerof39云計算第三版配套PPT課件115.4 Hadoop 2.0體系架構(gòu)體系架構(gòu)作業(yè)提交任務(wù)分配任務(wù)執(zhí)行任務(wù)完成進度和狀態(tài)更新ApplicationMaster失敗ApplicationManager會重新選擇一個Container再次執(zhí)行此任務(wù)對應(yīng)的ApplicationMaster計算節(jié)點失敗Applicat
7、ionMaster首先向Scheduler申請資源,接著根據(jù)申請到的資源重新分配失敗節(jié)點上的任務(wù)任務(wù)失敗orof39云計算第三版配套PPT課件125.4 Hadoop 2.0體系架構(gòu)體系架構(gòu)從Yarn架構(gòu)和Yarn任務(wù)執(zhí)行過程能看出Yarn具有巨大優(yōu)勢:Yarn的設(shè)計大大減輕了ResourceManager的資源消耗,并且ApplicationMaster可分布于集群中任意一臺機器,設(shè)計上更加優(yōu)美。SchedulerApplicationMaster純粹的資源仲裁中心ApplicationManager只監(jiān)管ApplicationMaster負責(zé)任務(wù)整體執(zhí)行of39云計算第三版配套PPT課件1
8、3WebAppServerProxyResourceMangerJobHistoryServerNodeManagerNodeManagerNodeManager5.4 Hadoop 2.0體系架構(gòu)體系架構(gòu)Yarn典型拓撲除了ResourceManager和NodeManager兩個實體外,Yarn還包括WebAppProxyServer和JobHistoryServer兩個實體。of39云計算第三版配套PPT課件145.4 Hadoop 2.0體系架構(gòu)體系架構(gòu)JobHistoryServer管理已完成的Yarn任務(wù)WebAppProxyServer 任務(wù)執(zhí)行時的Web頁面代理l 歷史任務(wù)的日
9、志和執(zhí)行時的各種統(tǒng)計信息統(tǒng)一由JobTracker管理l Yarn將管理歷史任務(wù)的功能抽象成一獨立實體JobHistoryServerl 通過使用代理,不僅進一步降低了ResourceManager的壓力,還能降低Yarn受到的Web攻擊l 負責(zé)監(jiān)管具體MapReduce任務(wù)執(zhí)行全過程,將從Container那里收集過的任務(wù)執(zhí)行信息匯總并顯示到一個Web界面上of39云計算第三版配套PPT課件155.4 Hadoop 2.0體系架構(gòu)編程模板ApplicationMaster 是一個可變更的部分,只要實現(xiàn)不同的ApplicationMaster,就可以實現(xiàn)不同的編程模式MapReduce模板Ma
10、pReduce類型的ApplicationMasterdistributedshell模板distributedshell類型的ApplicationMaster示例模板MapReduce模板Yarn的示例編程為“distributedshell”,該程序可以將給定的shell命令分布到機器執(zhí)行Map把任務(wù)分解成為多個任務(wù),Reduce把分解后多任務(wù)處理的結(jié)果匯總起來,得到最終結(jié)果of39云計算第三版配套PPT課件16分段0分段1分段2分段3分段M-1Map()Map()Map()Map()Map()Reduce()Reduce()Reduce()Reduce()結(jié)果0結(jié)果1結(jié)果2結(jié)果R-1輸
11、入M個map任務(wù)R個Reduce任務(wù)輸出分區(qū)5.4 Hadoop 2.0體系架構(gòu)編程模板of39云計算第三版配套PPT課件175.4 Hadoop 2.0體系架構(gòu)編程模板映射階段MapReduce框架將用戶輸入的數(shù)據(jù)分割為M個片斷,對應(yīng)M個Map任務(wù)?;嗠A段每一個Reduce操作的輸入是一個片斷,Reduce操作調(diào)用用戶定義的Reduce函數(shù),生成用戶需要的鍵值對進行輸出。一個MapReduce操作分為兩個階段:映射階段和化簡階段。of39云計算第三版配套PPT課件185.4 Hadoop 2.0體系架構(gòu)調(diào)度策略容量調(diào)度算法(CapacityScheduler)公平調(diào)度算法(FairSche
12、duler)核心問題YarnMapReduce任務(wù)的調(diào)度策略ResourceManager的Scheduler模塊支持插拔,通過配置文件,用戶可以個性化指定其調(diào)度策略of39云計算第三版配套PPT課件195.4 Hadoop 2.0體系架構(gòu)調(diào)度策略CapacityScheduler是一種多用戶多任務(wù)調(diào)度策略,它以隊列為單位劃分任務(wù),以Container為單位分配資源,它也是Hadoop 2.0默認的調(diào)度策略,為多個用戶共享集群資源提供安全可靠的保障。通過共建集群的方式,不但可以提高資源利用率,還能在必要時刻使用更多的集群資源,同時,組織機構(gòu)間共建集群也大大降低了運維成本,容量調(diào)度策略通過隊列來
13、劃分資源,隊列間關(guān)系類似于一棵多叉樹,隊列間一層層繼承,根隊列稱為root隊列,Yarn初次啟動時默認啟動隊列為root.default隊列。容量調(diào)度算法of39云計算第三版配套PPT課件205.4 Hadoop 2.0體系架構(gòu)調(diào)度策略多級隊列容量確定性安全性彈性多用戶易操作性容量調(diào)度策略以隊列來劃分集群資源,不同機構(gòu)可以在集群里新建不同隊列規(guī)定某隊列占用集群資源的上下限,能夠確保即使其他隊列用到其最高峰時,也能預(yù)留充足資源留給此隊列每個隊列都有相應(yīng)的訪問控制列表ACL文件通過設(shè)置隊列額外資源使用量,能夠讓此隊列使用超出規(guī)定的資源量通過設(shè)置不同隊列擁有資源的比例,避免某用戶或某進程獨占集群資源
14、,實現(xiàn)多用戶多任務(wù)調(diào)度主要包括實時配置和實時更改隊列狀態(tài)of39云計算第三版配套PPT課件215.4 Hadoop 2.0體系架構(gòu)調(diào)度策略實時配置:管理員能夠以安全的方式,在不停止集群的情況下,實時更新隊列配置實時更改隊列狀態(tài):基于資源調(diào)度:Yarn支持資源密集型作業(yè),作業(yè)在分配Container時其Container所包含的資源量是一定的,但Yarn允許此Container在執(zhí)行時占用更多的資源,目前只支持內(nèi)存。運行態(tài)停止態(tài)不暫停集群管理用戶權(quán)限作業(yè)提交Yarnof39云計算第三版配套PPT課件225.4 Hadoop 2.0體系架構(gòu)調(diào)度策略管理接口Web接口Shell命令接口yarn-si
15、te.xml指定使用容量調(diào)度策略。capacity-scheduler.xml配置全局多級隊列和隊列的ACL文件。mapred-site.xml配置客戶端提交MapReduce任務(wù)時使用的隊列。Hadoop-policy.xml配置全局ACL文件。$HADOOP_YARN_HOME/bin/yarn rmadmin refreshQueues,管理員可以通過此命令在不停止集群的情況下,使多級隊列的配置立即生效。of39云計算第三版配套PPT課件235.4 Hadoop 2.0體系架構(gòu)調(diào)度策略公平調(diào)度策略FairScheduler是一種允許多個Yarn任務(wù)公平使用集群資源的可插拔式調(diào)度策略Fai
16、rScheduler會將資源分配給集群中所有的任務(wù)FairScheduler則會將正在執(zhí)行任務(wù)釋放的部分資源分配給等待隊列里的任務(wù)集群資源滿足時受限時從宏觀上看,集群資源公平地為每一個任務(wù)所擁有,它不僅可以讓短作業(yè)在合理的時間內(nèi)完成,也避免了長作業(yè)長期得不到執(zhí)行的尷尬局面。of39云計算第三版配套PPT課件245.4 Hadoop 2.0體系架構(gòu)調(diào)度策略默認隊列隊列間權(quán)重配置隊列內(nèi)多調(diào)度策略隊列下限支持多用戶訪問控制列表ACL公平調(diào)度策略也通過隊列來組織和管理任務(wù),并且也支持多級隊列,其隊列之間為多叉樹結(jié)構(gòu)設(shè)置某隊列資源權(quán)重,權(quán)重越大,獲得資源的比例越大隊列內(nèi)部的調(diào)度策略是可配置的,默認為Fa
17、irSharePolicy策略為每個隊列設(shè)置資源下限值,大大提高集群資源利用率通過多級隊列可以將不同的用戶分配到不同的隊列里管理員可以設(shè)置隊列的ACL文件,嚴格控制用戶訪問of39云計算第三版配套PPT課件255.4 Hadoop 2.0體系架構(gòu)調(diào)度策略接口yarn-site.xmlfair-scheduler.xml設(shè)定屬性yarn.resourcemanager.scheduler.classYarn啟動公平調(diào)度策略,設(shè)置屬性yarn.scheduler.fair.allocation.file來指定多級隊列文件位置。配置多級隊列的文件,此文件名與位置是通過Yarn配置文件yarn-sit
18、e.xml里yarn.scheduler.fair.allocation.file屬性指定5.4 Hadoop 2.0體系架構(gòu)5.4.1 Hadoop 2.0公共組件Common5.4.2 分布式文件系統(tǒng)HDFS5.4.3 分布式操作系統(tǒng)Yarn5.4.4 Hadoop 2.0安全機制簡介of39云計算第三版配套PPT課件275.4 Hadoop 2.0體系架構(gòu)Hadoop 2.0安全機制簡介早期Hadoop版本假定HDFS和MapReduce運行在安全的環(huán)境中,它基本上沒有安全措施。集群內(nèi)部集群外部任何用戶提交的MR任務(wù)都可以任意訪問HDFS數(shù)據(jù)我們甚至可以啟動一個非法slave連接到mas
19、ter,從而冒充集群slave騙取集群數(shù)據(jù)。隨著Hadoop應(yīng)用越來越廣泛,它的安全機制也在不斷完善。of39云計算第三版配套PPT課件285.4 Hadoop 2.0體系架構(gòu)Hadoop安全機制背景Hadoop 0.16Hadoop 0.20Hadoop 0.21Hadoop 0.22基本上沒有安全機制模仿Linux文件權(quán)限開始引入第三認證Kerberos繼續(xù)引入第三認證KerberosKerberos認證開始穩(wěn)定of39云計算第三版配套PPT課件295.4 Hadoop 2.0體系架構(gòu)Hadoop安全機制背景數(shù)據(jù)未加密用戶和服務(wù)弱驗證Hadoop可能面臨的安全問題使用Kerberos來實現(xiàn)Hadoop用戶認證Kerberos 鑒定登錄用戶(服務(wù))是否是其聲稱的用戶(服務(wù))Hadoop 決定這個用戶到底擁有多少權(quán)限本章未完待續(xù)百度排名首位的大數(shù)據(jù)資料和交流中心百 度 排 名 首 位 的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- CH-5兒童各年齡期保健課件
- 2025年全球及中國纜索式起重機行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報告
- 2025年全球及中國高壓有載分接開關(guān)行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報告
- 2025年全球及中國可見光波段高光譜成像(HSI)設(shè)備行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報告
- 2025-2030全球墻磨機開關(guān)行業(yè)調(diào)研及趨勢分析報告
- 2025年全球及中國打印貼標機和耗材行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報告
- 2025-2030全球工業(yè)PTFE密封件行業(yè)調(diào)研及趨勢分析報告
- 2025-2030全球超高頻RFID一次性腕帶行業(yè)調(diào)研及趨勢分析報告
- 2025-2030全球便攜手持式光譜儀行業(yè)調(diào)研及趨勢分析報告
- 2025-2030全球除濕白帶丸行業(yè)調(diào)研及趨勢分析報告
- 2025民政局離婚協(xié)議書范本(民政局官方)4篇
- 2024年03月四川農(nóng)村商業(yè)聯(lián)合銀行信息科技部2024年校園招考300名工作人員筆試歷年參考題庫附帶答案詳解
- 小學(xué)一年級數(shù)學(xué)上冊口算練習(xí)題總匯
- ISO17025經(jīng)典培訓(xùn)教材
- 餐飲行業(yè)品牌介紹商務(wù)宣傳PPT模板
- 東南大學(xué)宣講介紹
- 2023年菏澤醫(yī)學(xué)??茖W(xué)校單招綜合素質(zhì)題庫及答案解析
- 九年級下冊-2023年中考歷史總復(fù)習(xí)知識點速查速記(部編版)
- GB/T 18103-2022實木復(fù)合地板
- 小學(xué)四年級語文閱讀理解專項訓(xùn)練
- 輔導(dǎo)班合伙人合同范本(2篇)
評論
0/150
提交評論