




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
云計(jì)算(第4版)第1章大數(shù)據(jù)與云計(jì)算第2章Hadoop3.0:主流開源云架構(gòu)第3章虛擬化技術(shù)第4章容器技術(shù)第5章云原生技術(shù)第6章云計(jì)算數(shù)據(jù)中心第7章總結(jié)與展望全套可編輯PPT課件第一章大數(shù)據(jù)與云計(jì)算1.1大數(shù)據(jù)時(shí)代1.2云計(jì)算概述1.3云計(jì)算發(fā)展現(xiàn)狀1.4云計(jì)算實(shí)現(xiàn)機(jī)制of312習(xí)題1.5云計(jì)算壓倒性的成本優(yōu)勢(shì)1.1大數(shù)據(jù)時(shí)代第一章大數(shù)據(jù)與云計(jì)算of313數(shù)據(jù)來源:百度指數(shù)?baidu
“大數(shù)據(jù)”這個(gè)詞從2012年才引起關(guān)注,之后搜索量便迅猛增長(zhǎng)。為什么大數(shù)據(jù)這么受關(guān)注?1.1大數(shù)據(jù)時(shí)代第一章大數(shù)據(jù)與云計(jì)算of314(EB)(年份)全球數(shù)據(jù)總量變化圖1.1大數(shù)據(jù)時(shí)代第一章大數(shù)據(jù)與云計(jì)算of315為什么全球數(shù)據(jù)量增長(zhǎng)如此之快?1.1大數(shù)據(jù)時(shí)代第一章大數(shù)據(jù)與云計(jì)算of316一:數(shù)據(jù)產(chǎn)生方式的改變二:人類的活動(dòng)越來越依賴數(shù)據(jù)1.人類的日常生活已經(jīng)與數(shù)據(jù)密不可分2.科學(xué)研究進(jìn)入了“數(shù)據(jù)科學(xué)”時(shí)代3.各行各業(yè)也越來越依賴大數(shù)據(jù)手段來開展工作1.1大數(shù)據(jù)時(shí)代第一章大數(shù)據(jù)與云計(jì)算of317何謂大數(shù)據(jù)?1.1大數(shù)據(jù)時(shí)代第一章大數(shù)據(jù)與云計(jì)算of318海量數(shù)據(jù)或巨量數(shù)據(jù),其規(guī)模巨大到無法通過目前主流的計(jì)算機(jī)系統(tǒng)在合理時(shí)間內(nèi)獲取、存儲(chǔ)、管理、處理并提煉以幫助使用者決策。定義1.1大數(shù)據(jù)時(shí)代第一章大數(shù)據(jù)與云計(jì)算of3191C多樣(Variety)快速(Velocity)價(jià)值密度低(Value)復(fù)雜度(Complexity)數(shù)據(jù)量大(Volume)存儲(chǔ)的數(shù)據(jù)量巨大,PB級(jí)別是常態(tài),因而對(duì)其分析的計(jì)算量也大。數(shù)據(jù)的來源及格式多樣,數(shù)據(jù)格式除了傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)外,還包括半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù),比如用戶上傳的音頻和視頻內(nèi)容。而隨著人類活動(dòng)的進(jìn)一步拓寬,數(shù)據(jù)的來源更加多樣。對(duì)數(shù)據(jù)的處理和分析的難度大。數(shù)據(jù)增長(zhǎng)速度快,而且越新的數(shù)據(jù)價(jià)值越大,這就要求對(duì)數(shù)據(jù)的處理速度也要快,以便能夠從數(shù)據(jù)中及時(shí)地提取知識(shí),發(fā)現(xiàn)價(jià)值。在成本可接受的條件下,通過快速采集、發(fā)現(xiàn)和分析,從大量、多種類別的數(shù)據(jù)中提取價(jià)值的體系架構(gòu)。4V第一章大數(shù)據(jù)與云計(jì)算1.2
云計(jì)算概述1.1大數(shù)據(jù)時(shí)代1.3云計(jì)算發(fā)展現(xiàn)狀1.4云計(jì)算實(shí)現(xiàn)機(jī)制of3110習(xí)題1.5云計(jì)算壓倒性的成本優(yōu)勢(shì)1.2云計(jì)算概述第一章大數(shù)據(jù)與云計(jì)算of3111G=f(x)大數(shù)據(jù)與云計(jì)算的關(guān)系我們的目標(biāo)云計(jì)算大數(shù)據(jù)1.2云計(jì)算概述第一章大數(shù)據(jù)與云計(jì)算of3112云計(jì)算長(zhǎng)定義云計(jì)算短定義云計(jì)算是一種商業(yè)計(jì)算模型。它將計(jì)算任務(wù)分布在大量計(jì)算機(jī)構(gòu)成的資源池上,使各種應(yīng)用系統(tǒng)能夠根據(jù)需要獲取計(jì)算力、存儲(chǔ)空間和信息服務(wù)。云計(jì)算是通過網(wǎng)絡(luò)按需提供可動(dòng)態(tài)伸縮的廉價(jià)計(jì)算服務(wù)。1.2云計(jì)算概述第一章大數(shù)據(jù)與云計(jì)算of3113云計(jì)算的7個(gè)特點(diǎn)超大規(guī)模虛擬化高可靠性通用性高可伸縮性按需服務(wù)
廉價(jià)1.2云計(jì)算概述第一章大數(shù)據(jù)與云計(jì)算of3114將軟件作為服務(wù)SaaS(SoftwareasaService)將平臺(tái)作為服務(wù)PaaS(PlatformasaService)將基礎(chǔ)設(shè)施作為服務(wù)IaaS(InfrastructureasaService)針對(duì)性更強(qiáng),它將某些特定應(yīng)用軟件功能封裝成服務(wù)如:SalesforceonlineCRM對(duì)資源的抽象層次更進(jìn)一步,提供用戶應(yīng)用程序運(yùn)行環(huán)境如:GoogleAppEngine將硬件設(shè)備等基礎(chǔ)資源封裝成服務(wù)供用戶使用如:AmazonEC2/S3云計(jì)算按服務(wù)類型大致分為三類:專用通用第一章大數(shù)據(jù)與云計(jì)算1.3
云計(jì)算發(fā)展現(xiàn)狀1.1大數(shù)據(jù)時(shí)代1.2云計(jì)算概述1.4云計(jì)算實(shí)現(xiàn)機(jī)制of3115習(xí)題1.5云計(jì)算壓倒性的成本優(yōu)勢(shì)1.3云計(jì)算發(fā)展現(xiàn)狀第一章大數(shù)據(jù)與云計(jì)算of3116微軟緊跟云計(jì)算步伐,推出了WindowsAzure操作系統(tǒng)國(guó)外云計(jì)算的先行者亞馬遜的云計(jì)算稱為AmazonWebServices(AWS)谷歌是最大的云計(jì)算技術(shù)的使用者1.3云計(jì)算發(fā)展現(xiàn)狀第一章大數(shù)據(jù)與云計(jì)算of3117率先在全球提供了彈性計(jì)算云EC2(ElasticComputingCloud)和簡(jiǎn)單存儲(chǔ)服務(wù)S3(SimpleStorageService),為企業(yè)提供計(jì)算和存儲(chǔ)服務(wù)。收費(fèi)的服務(wù)項(xiàng)目包括存儲(chǔ)空間、帶寬、CPU資源以及月租費(fèi)。AWS服務(wù)的種類非常齊全。全球用戶數(shù)量已經(jīng)超過2億。1.3云計(jì)算發(fā)展現(xiàn)狀第一章大數(shù)據(jù)與云計(jì)算of3118最大的云計(jì)算技術(shù)的使用者。谷歌搜索引擎就建立在分布在200多個(gè)站點(diǎn)、超過1000萬(wàn)臺(tái)的服務(wù)器的支撐之上,而且這些設(shè)施的數(shù)量正在迅猛增長(zhǎng)。以發(fā)表學(xué)術(shù)論文的形式公開其云計(jì)算三大法寶:GFS、MapReduce和Bigtable,并在美國(guó)、中國(guó)等高校開設(shè)如何進(jìn)行云計(jì)算編程的課程。采用GoogleDocs之類的應(yīng)用,用戶數(shù)據(jù)會(huì)保存在互聯(lián)網(wǎng)上的某個(gè)位置,可以通過任何一個(gè)與互聯(lián)網(wǎng)相連的終端十分便利地訪問和共享這些數(shù)據(jù)。谷歌已經(jīng)允許第三方在谷歌的云計(jì)算中通過GoogleAppEngine運(yùn)行大型并行應(yīng)用程序。1.3云計(jì)算發(fā)展現(xiàn)狀第一章大數(shù)據(jù)與云計(jì)算of3119微軟于2008年10月推出了WindowsAzure操作系統(tǒng)。Azure(譯為“藍(lán)天”)是繼Windows取代DOS之后,微軟的又一次顛覆性轉(zhuǎn)型。微軟的云平臺(tái)包括幾十萬(wàn)臺(tái)服務(wù)器。在中國(guó),微軟2014年3月27日宣布由世紀(jì)互聯(lián)負(fù)責(zé)運(yùn)營(yíng)的MicrosoftAzure公有云服務(wù)正式商用,這是國(guó)內(nèi)首個(gè)正式商用的國(guó)際公有云服務(wù)平臺(tái)。Azure的底層是微軟全球基礎(chǔ)服務(wù)系統(tǒng),由遍布全球的第四代數(shù)據(jù)中心構(gòu)成。微軟將為WindowsAzure用戶推出許多新的功能,不但能更簡(jiǎn)單地將現(xiàn)有的應(yīng)用程序轉(zhuǎn)移到云中,而且可以加強(qiáng)云托管應(yīng)用程序的可用服務(wù),充分體現(xiàn)出微軟的“云”+“端”戰(zhàn)略。1.3云計(jì)算發(fā)展現(xiàn)狀第一章大數(shù)據(jù)與云計(jì)算of3120國(guó)內(nèi)云計(jì)算崛起代表企業(yè)存儲(chǔ)服務(wù)為特色多處擁有云計(jì)算數(shù)據(jù)中心游戲托管為特色云計(jì)算大數(shù)據(jù)產(chǎn)品線齊全提供類似AWS服務(wù)專門支撐智能硬件大數(shù)據(jù)免費(fèi)托管第一章大數(shù)據(jù)與云計(jì)算1.4
云計(jì)算實(shí)現(xiàn)機(jī)制1.1大數(shù)據(jù)時(shí)代1.2云計(jì)算概述1.3云計(jì)算發(fā)展現(xiàn)狀of3121習(xí)題1.5云計(jì)算壓倒性的成本優(yōu)勢(shì)1.4云計(jì)算實(shí)現(xiàn)機(jī)制第一章大數(shù)據(jù)與云計(jì)算of3122服務(wù)接口服務(wù)注冊(cè)服務(wù)查找服務(wù)訪問服務(wù)工作流SOA構(gòu)建層管理中間件層用戶環(huán)境配置計(jì)算資源池存儲(chǔ)資源池網(wǎng)絡(luò)資源池?cái)?shù)據(jù)資源池軟件資源池計(jì)算機(jī)存儲(chǔ)器網(wǎng)絡(luò)設(shè)施數(shù)據(jù)庫(kù)軟件資源池層物理資源層賬號(hào)管理用戶管理任務(wù)管理資源管理用戶交互管理使用計(jì)費(fèi)身份認(rèn)證訪問授權(quán)綜合防護(hù)安全審計(jì)安全管理任務(wù)調(diào)度映像部署和管理任務(wù)執(zhí)行生命期管理故障檢測(cè)負(fù)載均衡故障恢復(fù)監(jiān)視統(tǒng)計(jì)1.4云計(jì)算實(shí)現(xiàn)機(jī)制第一章大數(shù)據(jù)與云計(jì)算of3123計(jì)算機(jī)、存儲(chǔ)器、網(wǎng)絡(luò)設(shè)施、數(shù)據(jù)庫(kù)和軟件等。封裝云計(jì)算能力成標(biāo)準(zhǔn)的WebServices服務(wù),并納入到SOA體系。云計(jì)算的資源管理,并對(duì)眾多應(yīng)用任務(wù)進(jìn)行調(diào)度,使資源能夠高效、安全地為應(yīng)用提供服務(wù)。將大量相同類型的資源構(gòu)成同構(gòu)或接近同構(gòu)的資源池。云計(jì)算技術(shù)體系結(jié)構(gòu)SOA構(gòu)建層管理中間件層物理資源層資源池層管理中間件層和資源池層是云計(jì)算技術(shù)的最關(guān)鍵部分,SOA構(gòu)建層的功能更多依靠外部設(shè)施提供。1.4云計(jì)算實(shí)現(xiàn)機(jī)制第一章大數(shù)據(jù)與云計(jì)算of3124均衡使用云資源節(jié)點(diǎn),檢測(cè)節(jié)點(diǎn)故障并試圖恢復(fù)或屏蔽之,并對(duì)資源的使用情況進(jìn)行監(jiān)視統(tǒng)計(jì)。資源管理
任務(wù)管理安全管理
用戶管理
云計(jì)算的管理中間件層
執(zhí)行用戶或應(yīng)用提交的任務(wù),包括完成用戶任務(wù)映象(Image)的部署和管理、任務(wù)調(diào)度、任務(wù)執(zhí)行、任務(wù)生命期管理等。實(shí)現(xiàn)云計(jì)算商業(yè)模式的一個(gè)必不可少的環(huán)節(jié),包括賬號(hào)管理、用戶環(huán)境配置、用戶交互管理、使用計(jì)費(fèi)。保障云計(jì)算設(shè)施的整體安全,包括身份認(rèn)證、訪問授權(quán)、綜合防護(hù)和安全審計(jì)等。1.4云計(jì)算實(shí)現(xiàn)機(jī)制第一章大數(shù)據(jù)與云計(jì)算of3125簡(jiǎn)化的IaaS實(shí)現(xiàn)機(jī)制圖服務(wù)目錄是用戶可以訪問的服務(wù)清單。系統(tǒng)管理模塊負(fù)責(zé)管理和分配所有可用的資源,其核心是負(fù)載均衡。配置工具負(fù)責(zé)在分配的節(jié)點(diǎn)上準(zhǔn)備任務(wù)運(yùn)行環(huán)境。監(jiān)視統(tǒng)計(jì)模塊負(fù)責(zé)監(jiān)視節(jié)點(diǎn)的運(yùn)行狀態(tài),并完成用戶使用節(jié)點(diǎn)情況的統(tǒng)計(jì)。用戶交互接口向應(yīng)用以WebServices方式提供訪問接口,獲取用戶需求。25第一章大數(shù)據(jù)與云計(jì)算1.5
云計(jì)算壓倒性的成本優(yōu)勢(shì)1.1大數(shù)據(jù)時(shí)代1.2云計(jì)算概述1.3云計(jì)算發(fā)展現(xiàn)狀of3126習(xí)題1.4云計(jì)算實(shí)現(xiàn)機(jī)制1.5云計(jì)算壓倒性的成本優(yōu)勢(shì)第一章大數(shù)據(jù)與云計(jì)算of3127全球企業(yè)IT開銷發(fā)展趨勢(shì)-1Source:IBMCorporateStrategyanalysisofIDCdata,Sept.20071.5云計(jì)算壓倒性的成本優(yōu)勢(shì)第一章大數(shù)據(jù)與云計(jì)算of3128全球企業(yè)IT開銷發(fā)展趨勢(shì)-21.5云計(jì)算壓倒性的成本優(yōu)勢(shì)第一章大數(shù)據(jù)與云計(jì)算of3129項(xiàng)目中型數(shù)據(jù)中心成本特大型數(shù)據(jù)中心成本比率網(wǎng)絡(luò)95美元/(MB·s·mon)13美元/(MB·s·mon)7.3存儲(chǔ)2.20美元/(GB·mon)0.40美元/(GB·mon)5.5管理每個(gè)管理員約管理140個(gè)服務(wù)器每個(gè)管理員管理至少1000個(gè)服務(wù)器7.1中型數(shù)據(jù)中心和特大型數(shù)據(jù)中心的成本比較1.5云計(jì)算壓倒性的成本優(yōu)勢(shì)第一章大數(shù)據(jù)與云計(jì)算of3130價(jià)格
地點(diǎn)可能的定價(jià)原因3.6美分愛達(dá)荷州水力發(fā)電,沒有長(zhǎng)途輸送10.0美分加州加州不允許煤電,電力需在電網(wǎng)上長(zhǎng)途輸送18.0美分夏威夷發(fā)電的能源需要海運(yùn)到島上美國(guó)不同地區(qū)電力價(jià)格的差異1.5云計(jì)算壓倒性的成本優(yōu)勢(shì)第一章大數(shù)據(jù)與云計(jì)算of3131“信息時(shí)代核電站”—Google數(shù)據(jù)中心1.5云計(jì)算壓倒性的成本優(yōu)勢(shì)第一章大數(shù)據(jù)與云計(jì)算of3132某典型網(wǎng)站的流量數(shù)據(jù)提供彈性的服務(wù),在超大資源池中動(dòng)態(tài)分配和釋放資源。資源利用率達(dá)到80%左右,是傳統(tǒng)模式5~7倍。云計(jì)算平臺(tái)的規(guī)模大,比較容易平穩(wěn)整體負(fù)載。1.5云計(jì)算壓倒性的成本優(yōu)勢(shì)第一章大數(shù)據(jù)與云計(jì)算of3133云計(jì)算將計(jì)算變成了大眾用得上和用得起的“水和電”成本資源利用率硬件成本電價(jià)管理費(fèi)用10%~15%80%5~7倍>25倍節(jié)約總成本云計(jì)算較之傳統(tǒng)方式的性價(jià)比優(yōu)勢(shì)第一章大數(shù)據(jù)與云計(jì)算習(xí)題1.1大數(shù)據(jù)時(shí)代1.2云計(jì)算概述1.3云計(jì)算發(fā)展現(xiàn)狀of31341.5云計(jì)算壓倒性的成本優(yōu)勢(shì)1.4云計(jì)算實(shí)現(xiàn)機(jī)制習(xí)題:1.大數(shù)據(jù)現(xiàn)象是怎么形成的?2.新摩爾定律的含義是什么?3.云計(jì)算有哪些特點(diǎn)?4.云計(jì)算按照服務(wù)類型可以分為哪幾類?5.云計(jì)算技術(shù)體系結(jié)構(gòu)可以分為哪幾層?6.在性價(jià)比上云計(jì)算相比傳統(tǒng)技術(shù)為什么有壓倒性的優(yōu)勢(shì)?第二章
Hadoop3.0:主流開源云架構(gòu)2.1挑戰(zhàn)與對(duì)策2.2
Hadoop3.0簡(jiǎn)述2.4
Hadoop3.0體系架構(gòu)of3136習(xí)題2.5
hadoop3.0訪問接口2.6
Hadoop3.0生態(tài)組件第二章Hadoop3.0:主流開源云架構(gòu)of3137假現(xiàn)有一些配置完全相同的機(jī)器cslave0~cSlaveN,cmaster0,cmaster1,并且每臺(tái)機(jī)器都有1個(gè)雙核CPU,5GB硬盤?,F(xiàn)有兩個(gè)大小都是2GB的文件file0和file1。第一類問題,存儲(chǔ)。問題①:將file0和file1存入兩臺(tái)不同機(jī)器,但要求對(duì)外顯示它們存于同一硬盤空間。問題②:不考慮①,現(xiàn)有一新文件file2,大小為6GB,要求存入機(jī)器后對(duì)外顯示依舊為一個(gè)完整文件。第二類問題,計(jì)算。問題③:在問題①下,統(tǒng)計(jì)file0和file1這兩個(gè)文件里每個(gè)單詞出現(xiàn)的次數(shù)。第三類問題,可靠性。問題④:假設(shè)用于解決上述問題的機(jī)器宕機(jī)了,問如何保證數(shù)據(jù)不丟失。2.1挑戰(zhàn)與對(duì)策2.1挑戰(zhàn)與對(duì)策第二章Hadoop3.0:主流開源云架構(gòu)of3138第二章Hadoop3.0:主流開源云架構(gòu)of31392.1挑戰(zhàn)與對(duì)策第二章Hadoop3.0:主流開源云架構(gòu)of31402.1挑戰(zhàn)與對(duì)策第二章Hadoop3.0:主流開源云架構(gòu)of31412.1挑戰(zhàn)與對(duì)策第二章Hadoop3.0:主流開源云架構(gòu)of31422.1挑戰(zhàn)與對(duì)策第二章Hadoop3.0:主流開源云架構(gòu)of31432.1挑戰(zhàn)與對(duì)策第二章Hadoop3.0:主流開源云架構(gòu)of31442.1挑戰(zhàn)與對(duì)策第二章Hadoop3.0:主流開源云架構(gòu)of31452.1挑戰(zhàn)與對(duì)策第二章
Hadoop3.0:主流開源云架構(gòu)2.2
Hadoop3.0簡(jiǎn)述2.1挑戰(zhàn)與對(duì)策2.4
Hadoop3.0體系架構(gòu)of3146習(xí)題2.5
hadoop3.0訪問接口2.6
Hadoop3.0生態(tài)組件2.2Hadoop3.0簡(jiǎn)述第二章Hadoop3.0:主流開源云架構(gòu)of3147CommonHDFSYARNMapReduceHadoop3.0組成第二章Hadoop3.0:主流開源云架構(gòu)of3148Hadoop生態(tài)圈2.2Hadoop3.0簡(jiǎn)述第二章
Hadoop3.0:主流開源云架構(gòu)2.4
Hadoop3.0體系架構(gòu)2.1挑戰(zhàn)與對(duì)策2.2
Hadoop3.0簡(jiǎn)述of3149習(xí)題2.5
hadoop3.0訪問接口2.6
Hadoop3.0生態(tài)組件第二章Hadoop3.0:主流開源云架構(gòu)of31502.4Hadoop3.0體系架構(gòu)HDFS邏輯架構(gòu)HDFS存儲(chǔ)數(shù)據(jù)示例HDFS主節(jié)點(diǎn)雙活實(shí)例2.4Hadoop3.0體系架構(gòu)第二章Hadoop3.0:主流開源云架構(gòu)of3151第二章Hadoop3.0:主流開源云架構(gòu)of3152HDFS邏輯架構(gòu)2.4Hadoop3.0體系架構(gòu)第二章Hadoop3.0:主流開源云架構(gòu)of31532.4Hadoop3.0體系架構(gòu)第二章Hadoop3.0:主流開源云架構(gòu)of3154HDFS物理拓?fù)?.4Hadoop3.0體系架構(gòu)第二章Hadoop3.0:主流開源云架構(gòu)of3155HDFS物理拓?fù)?.4Hadoop3.0體系架構(gòu)第二章Hadoop3.0:主流開源云架構(gòu)of31562.4Hadoop3.0體系架構(gòu)MapReduce邏輯架構(gòu)MapReduce執(zhí)行任務(wù)時(shí)架構(gòu)第二章Hadoop3.0:主流開源云架構(gòu)of31572.4Hadoop3.0體系架構(gòu)第二章Hadoop3.0:主流開源云架構(gòu)of31582.4Hadoop3.0體系架構(gòu)第二章Hadoop3.0:主流開源云架構(gòu)of31592.4Hadoop3.0體系架構(gòu)第二章Hadoop3.0:主流開源云架構(gòu)of31602.4Hadoop3.0體系架構(gòu)第二章Hadoop3.0:主流開源云架構(gòu)of31612.4Hadoop3.0體系架構(gòu)YARN邏輯架構(gòu)YARN執(zhí)行任務(wù)時(shí)架構(gòu)第二章Hadoop3.0:主流開源云架構(gòu)of31622.4Hadoop3.0體系架構(gòu)YARN體系架構(gòu)第二章Hadoop3.0:主流開源云架構(gòu)of31632.4Hadoop3.0體系架構(gòu)Yarn架構(gòu)第二章Hadoop3.0:主流開源云架構(gòu)of31642.4Hadoop3.0體系架構(gòu)第二章Hadoop3.0:主流開源云架構(gòu)of31652.4Hadoop3.0體系架構(gòu)第二章Hadoop3.0:主流開源云架構(gòu)of31662.4Hadoop3.0體系架構(gòu)框架執(zhí)行Yarn任務(wù)時(shí)流程強(qiáng)調(diào)任務(wù)邏輯完全由AppMster決定,可以不是MR邏輯AppMster是RM啟動(dòng)的AppMster負(fù)責(zé)任務(wù)執(zhí)行和監(jiān)管①Client端向RM提交任務(wù)②RM首先啟動(dòng)負(fù)責(zé)本此任務(wù)的AppMster③AppMster負(fù)責(zé)本此任務(wù)處理邏輯?它首先與RM協(xié)商申請(qǐng)資源
?再NM協(xié)商啟動(dòng)Container執(zhí)行任務(wù)④AppMster完成任務(wù)后向RM注銷自己Yarn架構(gòu)第二章Hadoop3.0:主流開源云架構(gòu)of31672.4Hadoop3.0體系架構(gòu)第二章Hadoop3.0:主流開源云架構(gòu)of31682.4Hadoop3.0體系架構(gòu)第二章Hadoop3.0:主流開源云架構(gòu)of31692.4Hadoop3.0體系架構(gòu)第二章Hadoop3.0:主流開源云架構(gòu)of31702.4Hadoop3.0體系架構(gòu)第二章Hadoop3.0:主流開源云架構(gòu)of31712.4Hadoop3.0體系架構(gòu)第二章Hadoop3.0:主流開源云架構(gòu)of31722.4Hadoop3.0體系架構(gòu)第二章Hadoop3.0:主流開源云架構(gòu)of31732.4Hadoop3.0體系架構(gòu)第二章Hadoop3.0:主流開源云架構(gòu)of31742.4Hadoop3.0體系架構(gòu)YARN上執(zhí)行MapReduce示例第二章Hadoop3.0:主流開源云架構(gòu)of31752.4Hadoop3.0體系架構(gòu)MapReduce框架第二章Hadoop3.0:主流開源云架構(gòu)of31762.4Hadoop3.0體系架構(gòu)第二章
Hadoop3.0:主流開源云架構(gòu)2.5
Hadoop3.0訪問接口2.1挑戰(zhàn)與對(duì)策2.2
Hadoop3.0簡(jiǎn)述of3177習(xí)題2.4
hadoop3.0體系架構(gòu)2.6
Hadoop3.0生態(tài)組件第二章Hadoop3.0:主流開源云架構(gòu)of3178HDFS自帶Web接口HDFSShell接口WebHDFSRESTAPI接口HDFSJavaAPI接口2.5Hadoop3.0訪問接口第二章Hadoop3.0:主流開源云架構(gòu)of3179HDFS自帶Web接口
ip:500702.5Hadoop3.0訪問接口第二章Hadoop3.0:主流開源云架構(gòu)of31802.5Hadoop3.0訪問接口第二章Hadoop3.0:主流開源云架構(gòu)of31812.5Hadoop3.0訪問接口第二章Hadoop3.0:主流開源云架構(gòu)of31822.5Hadoop3.0訪問接口第二章Hadoop3.0:主流開源云架構(gòu)of31832.5Hadoop3.0訪問接口第二章Hadoop3.0:主流開源云架構(gòu)of31842.5Hadoop3.0訪問接口MapReduce接口Web接口Shell接口API接口第二章Hadoop3.0:主流開源云架構(gòu)of31852.5Hadoop3.0訪問接口類
名默認(rèn)類InputFormatTextInputFormatRecordReaderLineRecordReaderInputSplitFileSplitMapIdentityMapperCombine不使用PartitionerHashPartitionerGroupCompatator不使用ReduceIdentityReducerOutputFormatFileOutputFormatRecordWriterLineRecordWriterOutputCommitterFileOutputCommitter第二章Hadoop3.0:主流開源云架構(gòu)of31862.5Hadoop3.0訪問接口WordCountFileInputFormatWordCountMapWordCountReduceWordCountPartitionerWordCountReduceFileoOutputFormatInputSplitRecordReaderOutputCommiterRecordWriter第二章Hadoop3.0:主流開源云架構(gòu)of31872.5Hadoop3.0訪問接口FileInputFormatWordCountMapWordCountReduceWordCountPartitionerWordCountReduceFileoOutputFormatInputSplitRecordReaderOutputCommiterRecordWriterSequenceFileInputFormatSequenceFileOutputFormat企業(yè)級(jí)WordCount第二章Hadoop3.0:主流開源云架構(gòu)of31882.5Hadoop3.0訪問接口SecondarySort第二章Hadoop3.0:主流開源云架構(gòu)of31892.5Hadoop3.0訪問接口性能優(yōu)化默認(rèn)情況調(diào)優(yōu)方法注意點(diǎn)默認(rèn)塊太小調(diào)整塊大小受限于硬件默認(rèn)不開啟二進(jìn)制開啟二進(jìn)制輸入輸出完美默認(rèn)只用一個(gè)Reduce設(shè)置最佳Reduce數(shù)量受限于集群大小默認(rèn)不開啟多線程Map啟用多線程Map受限于業(yè)務(wù)類型默認(rèn)不開啟分布式緩存開啟分布式緩存受限于業(yè)務(wù)類型默認(rèn)值較優(yōu)增大排序時(shí)內(nèi)存空間不常用默認(rèn)不開啟Combine開啟Combine受限于業(yè)務(wù)類型默認(rèn)不開啟第三方存取讀取第三方存取受限于業(yè)務(wù)類型默認(rèn)不夠用自定義數(shù)據(jù)類型完美第二章Hadoop3.0:主流開源云架構(gòu)of3190YARN自帶Web接口YARNShell接口YARNJavaAPI接口2.5Hadoop3.0訪問接口第二章Hadoop3.0:主流開源云架構(gòu)of31912.5Hadoop3.0訪問接口第二章Hadoop3.0:主流開源云架構(gòu)of31922.5Hadoop3.0訪問接口第二章Hadoop3.0:主流開源云架構(gòu)of31932.5Hadoop3.0訪問接口第二章Hadoop3.0:主流開源云架構(gòu)of31942.5Hadoop3.0訪問接口第二章Hadoop3.0:主流開源云架構(gòu)of31952.5Hadoop3.0訪問接口并行范式示例實(shí)現(xiàn)M范式DistributedShell框架M-S-R范式MapReduce框架BSP范式Giraph框架第二章Hadoop3.0:主流開源云架構(gòu)of31962.5Hadoop3.0訪問接口①依據(jù)本部門在研項(xiàng)目需求書,開發(fā)ApplicationBusinessLogic模塊。②判斷ApplicationBusinessLogic所屬并行化范式。③根據(jù)并行化范式,將ApplicationBusinessLogic改寫成該范式。④羅列ApplicationBusinessLogic執(zhí)行時(shí)Resource清單。⑤羅列ApplicationBusinessLogic執(zhí)行時(shí)偏好清單。⑥羅列ApplicationBusinessLogic執(zhí)行時(shí)環(huán)境清單。⑦編寫執(zhí)行ApplicationBusinessLogic的Shell腳本。①創(chuàng)建并啟動(dòng)AppMstr到RM的靜態(tài)實(shí)例AMRMClientAsync。②創(chuàng)建并啟動(dòng)AppMstr到NM的靜態(tài)實(shí)例NMClientAsyncImpl。③AppMstr使用AMRMClientAsync到RM注冊(cè)自己。④AppMstr使用AMRMClientAsync到RM申請(qǐng)Containers。⑤AppMstr使用AMRMClientAsync將AppBusinessLogic下沉到Container里。⑥AppMstr使用AMRMClientAsync將其他資源下放到Container里。⑦AppMstr調(diào)用NMClientAsyncImpl啟動(dòng)Container。⑧AppMstr調(diào)用NMClientAsyncImpl啟動(dòng)監(jiān)控方法監(jiān)控Container。⑨根據(jù)ApplicationBusinessLogic所屬范式,決定是否執(zhí)行下一層Container。⑩AppMstr使用AMRMClientAsync向RM匯報(bào)應(yīng)用程序執(zhí)行結(jié)束。第二章Hadoop3.0:主流開源云架構(gòu)of31972.5Hadoop3.0訪問接口YARN應(yīng)用程序標(biāo)準(zhǔn)模塊DistributedShell框架對(duì)應(yīng)類ApplicationBussinessLogic用戶編寫的Shell命令A(yù)pplicationClientClient.javaApplicationMasterApplicationMaster.javaYARN應(yīng)用程序標(biāo)準(zhǔn)模塊MapReduce框架對(duì)應(yīng)類ApplicationBusinessLogic用戶自定義Mapper類、Partition類、和Reduce類ApplicationClientYARNRunner.javaApplicationMasterMRAPPMaster.javaYARN應(yīng)用程序標(biāo)準(zhǔn)模塊Giraph框架對(duì)應(yīng)類ApplicationBusinessLogic用戶自定義BasicComputation類ApplicationClientGiraphYarnClient.javaApplicationMasterGiraphApplicationMaster.java第二章Hadoop3.0:主流開源云架構(gòu)of31982.5Hadoop3.0訪問接口ResourceManagerNodeManagerNodeManagerNodeManagerNodeManager第二章
Hadoop3.0:主流開源云架構(gòu)2.6
Hadoop3.0生態(tài)組件2.1挑戰(zhàn)與對(duì)策2.2
Hadoop3.0簡(jiǎn)述of3199習(xí)題2.4
hadoop3.0體系架構(gòu)2.5
Hadoop3.0訪問接口第二章Hadoop3.0:主流開源云架構(gòu)of311002.6Hadoop3.0生態(tài)圈組件大數(shù)據(jù)服務(wù)提供商方案提供商平臺(tái)簡(jiǎn)稱平臺(tái)全稱組
件Apache
基礎(chǔ)組件HortonworksHDPHortonworksDataPlatform基礎(chǔ)組件+商用組件ClouderacdhCloudera’sDistributionIncludingApacheHadoop基礎(chǔ)組件+商用組件MapRmdpMapRDataPlatform基礎(chǔ)組件+商用組件第二章Hadoop3.0:主流開源云架構(gòu)of311012.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of311022.6Hadoop3.0生態(tài)圈組件谷歌大數(shù)據(jù)組件第二章Hadoop3.0:主流開源云架構(gòu)of311032.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of311042.6Hadoop3.0生態(tài)圈組件Apache大數(shù)據(jù)組件
Apache是什么性質(zhì)全稱/別稱作用apache軟件HttpServerWeb服務(wù)器軟件Apache組織ApacheSoftwareFoundation軟件開發(fā)組織第二章Hadoop3.0:主流開源云架構(gòu)of311052.6Hadoop3.0生態(tài)圈組件Apache大數(shù)據(jù)組件
Apache是什么本書參考/第二章Hadoop3.0:主流開源云架構(gòu)of311062.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of311072.6Hadoop3.0生態(tài)圈組件Apache大數(shù)據(jù)組件第二章Hadoop3.0:主流開源云架構(gòu)of311082.6Hadoop3.0生態(tài)圈組件核心組件第二章Hadoop3.0:主流開源云架構(gòu)of311092.6Hadoop3.0生態(tài)圈組件集群第二章Hadoop3.0:主流開源云架構(gòu)of311102.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of311112.6Hadoop3.0生態(tài)圈組件基礎(chǔ)商用集群版第二章Hadoop3.0:主流開源云架構(gòu)of311122.6Hadoop3.0生態(tài)圈組件Hive第二章Hadoop3.0:主流開源云架構(gòu)of311132.6Hadoop3.0生態(tài)圈組件Hive
為什么現(xiàn)實(shí)需求Hive的設(shè)計(jì)目的即是讓Facebook內(nèi)精通SQL的分析師能夠以類SQL的方式查詢存放在HDFS的大規(guī)模數(shù)據(jù)集Hive起源于Facebook內(nèi)部信息處理平臺(tái)。由于需要處理大量新興社會(huì)網(wǎng)絡(luò)數(shù)據(jù),考慮到擴(kuò)展性,F(xiàn)acebook最終選擇hadoop作為存儲(chǔ)和處理平臺(tái)1.編寫MR程序2.組織處理流提交任務(wù)功能好熟悉和Pig有和區(qū)別第二章Hadoop3.0:主流開源云架構(gòu)of31114Hive
是什么概念-工作過程程序員或分析師根據(jù)業(yè)務(wù)邏輯寫好數(shù)據(jù)流腳本向Hive提交任務(wù)Hive會(huì)將寫好的數(shù)據(jù)流處理腳本翻譯成多個(gè)Hdfs,Map和Reduce操作Hive向hadoop提交任務(wù)Hive是一個(gè)構(gòu)建在hadoop上的數(shù)據(jù)倉(cāng)庫(kù)框架2.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of31115Hive
是什么架構(gòu)2.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of31116Hive
是什么-語(yǔ)法語(yǔ)法HiveQL:SQL類似數(shù)據(jù)類型基本類型:數(shù)值型、布爾型、字符串復(fù)雜類型:ARRAY、MAP和STRUCT關(guān)系操作:如x='a'算術(shù)操作:加法x+1邏輯操作:如邏輯或xory操作符函數(shù)Hive內(nèi)置了上百個(gè)函數(shù)基本同SQL一樣countlikeRank-------map子句reduce子句2.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of31117Hive
實(shí)例部署方式2.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of31118Hive
實(shí)例部署yuminstallhive例題①在hive里新建member表,并將表6-6中的數(shù)據(jù)載入hive里的member表中②查詢member表中所有記錄;查詢member表中g(shù)ender值為1的記錄;查詢member表中g(shù)ender值為1且age為22的記錄;統(tǒng)計(jì)member中男性和女性出現(xiàn)次數(shù)③試比較pig中“單詞計(jì)數(shù)”和“統(tǒng)計(jì)男女出現(xiàn)次數(shù)”異同點(diǎn)身份id姓名性別年齡教育職業(yè)收入201401aa021e0p3m201402bb122e1p2l201403cc123e2p1m2.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of31119Hive
實(shí)例理解功能好熟悉Hive和Pig有和區(qū)別(1)hive有metadata,pig無(2)hive面向sql、Pig面向MapReduce(1)pig是沒有開發(fā)好的hive(2)facebook誤解hadoop用途狹義的理解2.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of31120Hive由來Hive是一個(gè)構(gòu)建在Hadoop上的數(shù)據(jù)倉(cāng)庫(kù)框架,它起源于Facebook內(nèi)部信息處理平臺(tái)。由于需要處理大量社會(huì)網(wǎng)絡(luò)數(shù)據(jù),考慮到擴(kuò)展性,F(xiàn)acebook最終選擇Hadoop作為存儲(chǔ)和處理平臺(tái)。Hive的設(shè)計(jì)目的是讓Facebook內(nèi)精通SQL(但Java編程相對(duì)較弱)的分析師能夠以類SQL的方式查詢存放在HDFS的大規(guī)模數(shù)據(jù)集。2.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of31121工作原理Hive非常簡(jiǎn)單,本質(zhì)上,其相當(dāng)于一個(gè)MapReduce和HDFS的翻譯終端。用戶提交Hive腳本后,Hive運(yùn)行時(shí)環(huán)境會(huì)將這些腳本翻譯成MapReduce和HDFS操作并向集群提交這些操作。Step1用戶編寫HiveQL并向Hive運(yùn)行時(shí)環(huán)境提交該HiveQL(圖中Step1)。Step2Hive運(yùn)行時(shí)環(huán)境將該HiveQL翻譯成MapReduce和HDFS操作(圖中Step2)。Step3Hive運(yùn)行時(shí)環(huán)境調(diào)用Hadoop命令行接口或程序接口,向Hadoop集群提交翻譯后的HiveQL(圖中Step3)。Step4Hadoop集群執(zhí)行HiveQL翻譯后的MapReduce-App或HDFS-App(未標(biāo))。2.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of311222.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of311232.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of31124①用戶接口:包括HiveShell、Thrift客戶端、Web接口。②Thrift服務(wù)器:當(dāng)Hive以服務(wù)器模式運(yùn)行時(shí),可以作為Thrift服務(wù)器,供多個(gè)客戶端同時(shí)使用Hive。③元數(shù)據(jù)庫(kù):Hive元數(shù)據(jù)(如表信息)的集中存放地。④解析器:包括解釋器、編譯器、優(yōu)化器、執(zhí)行器。其是將HiveQL翻譯成MapReduce和HDFS的核心部件。⑤Hadoop:底層分布式存儲(chǔ)和計(jì)算引擎。Hive體系架構(gòu)2.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of31125Hive計(jì)算模型CREATETABLEu_data(useridINT,movieidINT,ratingINT,unixtimeSTRING)ROWFORMATDELIMITEDFIELDSTERMINATEDBY'\t'STOREDASTEXTFILE;SELECTCOUNT(*)FROMu_data;2.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of31126HiveQL(Hive的SQL)數(shù)據(jù)類型基本類型數(shù)值型布爾型字符串復(fù)雜類型ARRAYMAPSTRUCT操作函數(shù)關(guān)系操作算術(shù)操作邏輯操作2.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of31127Hive部署Hive部署內(nèi)嵌模式本地模式完全遠(yuǎn)程模式2.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of31128Hive部署部署Hive手工部署工具部署:使用Ambari2.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of31129手工部署Hive集群Step1下載并解壓Hive。Step2為Hive配置Hadoop安裝路徑。Step3在HDFS里新建Hive存儲(chǔ)目錄。Step4啟動(dòng)Hive命令行。Step5驗(yàn)證Hive是否啟動(dòng)成功。2.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of31130使用Ambari部署HiveStep1制定部署規(guī)劃。Step2準(zhǔn)備硬件機(jī)器和OS環(huán)境。Step3配置單機(jī)OS環(huán)境和集群環(huán)境。Step4部署Ambari-server。Step5使用Ambari-server部署HDFS、YARN、Hive。2.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of31131使用Ambari部署Hive效果圖2.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of31132Hive接口HiveWeb接口HiveShell接口HiveAPI接口Hcatalog接口Pig接口Beeline接口2.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of31133實(shí)戰(zhàn)HiveWeb接口Hiveserver2IP:99992.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of31134實(shí)戰(zhàn)HiveShellDDLOperationsDMLOperationsSQLOperations2.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of31135實(shí)戰(zhàn)Hive之綜合示例下面的語(yǔ)句完成:①進(jìn)入Hive命令行接口,獲取Hive函數(shù)列表并單獨(dú)查詢count函數(shù)用法。②在Hive里新建member表,并將表11-2中的數(shù)據(jù)載入Hive里的member表中。③查詢member表中所有記錄,查詢member表中g(shù)ender值為1的記錄,查詢member表中g(shù)ender值為1且age為22的記錄,統(tǒng)計(jì)member中男性和女性出現(xiàn)次數(shù)。下面按問題順序依次講述。身份ID姓名性別年齡教育職業(yè)收入201401aa021e0p3m201402bb122e1p2l201403cc123e2p1m2.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of31136[allen@iclient0~]#hive#進(jìn)入Hive命令行hive>showfunctions;#獲取Hive所有函數(shù)列表hive>describefunctioncount;#查看count函數(shù)用法問答1問答2201401aa021e0p3m201402bb122e1p2l201403cc122e2p1m準(zhǔn)備數(shù)據(jù)上傳,建表,查詢2.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of31137hive>showtables;#查看當(dāng)前Hive倉(cāng)庫(kù)中所有表(以確定當(dāng)前無member表)hive>createtablemember(idint,namestring,gendertinyint,agetinyint,edustring,profstring,incomestring)rowformatdelimitedfieldsterminatedby'\t';#使用合適字段與類型,新建member表hive>showtables;#再次查看,將顯示member表hive>loaddatalocalinpath'/home/allen/memberData'intotablemember;#將本地文件m..載入HDFShive>select*frommember;#查看表中所有記錄hive>select*frommemberwheregender=1;#查看表中g(shù)ender值為1的記錄hive>select*frommemberwheregender=1ANDage=23;#查看表中g(shù)ender值為1且age為23的記錄hive>selectgender,count(*)frommembergroupbygender;#統(tǒng)計(jì)男女出現(xiàn)總次數(shù)hive>droptablemember;#刪除member表hive>quit;2.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of31138Spark2.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of31139基本概念Spark于2009年誕生于伯克利大學(xué)AMPLab,最初它只是伯克利大學(xué)的研究性項(xiàng)目。2010年時(shí)Spark正式開源,2013年,伯克利將其捐贈(zèng)給Aparch基金會(huì)。2014年成為Aparch基金的頂級(jí)項(xiàng)目,目前已廣泛應(yīng)用于工業(yè)界。由來概念Spark是一個(gè)高速的通用型集群計(jì)算框架,其內(nèi)部?jī)?nèi)嵌了一個(gè)用于執(zhí)行DAG的(有向無環(huán)圖)工作流引擎,能夠?qū)AG類型的Spark-App拆分成Task序列并在底層框架上并行運(yùn)行。程序接口層:Java、Scala、Python、R等高級(jí)語(yǔ)音直接編寫Spark-App。接口專用組件:SQL、Mllib、GraphX、Streaming等專用組件,這些組件內(nèi)置了大量專用算法,充分利用這些組件,能夠大大加快Spark-App開發(fā)進(jìn)度。2.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of31140Spark主要模塊(基本概念)2.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of31141Spark計(jì)算模型(基本概念)2.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of31142Spark計(jì)算模型(基本概念)2.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of311432.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of31144MapReduce發(fā)展(基本概念)2.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of31145體系架構(gòu)Spark體系架構(gòu)資源管理層:使用自帶資源管理器,使用第三方資源管理器程序執(zhí)行層:邏輯一樣,進(jìn)程名不同資源管理層:Standalone、YARN、Mesos2.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of31146體系架構(gòu)Spark體系架構(gòu)資源管理層程序執(zhí)行層主服務(wù):Master從服務(wù)WorkerWorkerWorkerWorker從服務(wù)Eexcutor主服務(wù):DriverEexcutorEexcutor2.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of31147體系架構(gòu)Spark體系架構(gòu)資源管理層程序執(zhí)行層主服務(wù):ResourceManager從服務(wù)NodeManager從服務(wù)Child主服務(wù):SparkAppMasterNodeManagerNodeManagerChildChildChild2.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of311482.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of31149Standalone資源管理器2.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of31150Standalone時(shí)執(zhí)行層2.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of311512.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of311522.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of311532.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of31154Spark集群部署概念:部署資源管理器手工部署Standalone資源管理器演示手工部署YARN資源管理器Ambari部署YARN資源管理器2.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of31155手工部署SparkStep1制定部署規(guī)劃。Step2準(zhǔn)備硬件機(jī)器,準(zhǔn)備機(jī)器操作系統(tǒng)環(huán)境,準(zhǔn)備機(jī)器網(wǎng)絡(luò)環(huán)境。Step3對(duì)集群內(nèi)每一臺(tái)機(jī)器,修改機(jī)器名,關(guān)閉防火墻,安裝jdk。Step4為每臺(tái)機(jī)器,添加集群級(jí)別域名映射。Step5打通主節(jié)點(diǎn)到自身無密鑰認(rèn)證,打通主節(jié)點(diǎn)到所有從節(jié)點(diǎn)無密鑰認(rèn)證。Step6主節(jié)點(diǎn)解壓Spark,配置spark。Step7將配置好的Spark復(fù)制至所有slave機(jī)。Step8啟動(dòng)Spark。Step9測(cè)試Spark。2.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of31156手工部署Spark效果圖2.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of31157現(xiàn)有一原始文件rawFile0,要求將rawFile0均勻加載到cslave0、cslave1和cslave2中,然后對(duì)rawFile0中數(shù)據(jù)執(zhí)行過濾操作,過濾時(shí)要求只保留"aa"、"bb"這兩種字符。接著,將"aa"全部發(fā)往cslave0上、"bb"全部發(fā)往cslave1上。最后統(tǒng)計(jì)"aa"和"bb"這兩個(gè)單詞出現(xiàn)次數(shù)。示例1:使用MapReduce模式統(tǒng)計(jì)單詞出現(xiàn)次數(shù)aa,1bb,2aa,1bb,2cslave0cslave12.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of311582.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of31159valconf=newSparkConf()valsc:SparkContext=newSparkContext(conf)valrawRDDA=sc.parallelize(List("!!bb##cc","%%ccbb%%","cc&&++aa"),3)valrawRDDB=sc.parallelize(List(("xx",99),("yy",88),("xx",99),("zz",99)),2)valrawRDDC=sc.parallelize(List(("yy",88)),1)importorg.apache.spark.HashPartitionervartmpResultRDDA=rawRDDA.flatMap(line=>line.split("")).filter(allWord=>{allWord.contains("aa")||allWord.contains("bb")}).map(word=>(word,1)).partitionBy(newHashPartitioner(2)).groupByKey().map((P:(String,Iterable[Int]))=>(P._1,P._2.sum))vartmpResultRDDBC=rawRDDB.distinct.subtract(rawRDDC)valresultRDDABC=tmpResultRDDA.union(tmpResultRDDBC)resultRDDABC.saveAsTextFile("HDFS路徑")2.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of31160Zookeeper2.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of31161Zookeeper
為什么現(xiàn)實(shí)需求部分失敗當(dāng)一條消息在網(wǎng)絡(luò)中的兩個(gè)節(jié)點(diǎn)之間傳送時(shí),由于可能會(huì)出現(xiàn)各種問題,發(fā)送者無法知道接收者是否已經(jīng)接收到這條消息,比如在接收者還未接收到消息前,發(fā)生網(wǎng)絡(luò)中斷,再比如接收者接收到消息后發(fā)生網(wǎng)絡(luò)中斷,甚至是接收進(jìn)程死掉。發(fā)送者能夠獲取真實(shí)情況的唯一途徑是重新連接接收者,并向它發(fā)出詢問。即在分布式環(huán)境下甚至不知道一個(gè)操作是否已經(jīng)失敗。分布式系統(tǒng)固有特征網(wǎng)絡(luò)中斷iReceive宕機(jī)2.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of31162Zookeeper
概念概念Zookeeper(又稱分布式鎖)是由開源組織Apache開發(fā)的一個(gè)的高效、可靠的分布式協(xié)調(diào)服務(wù)。Zookeeper典型應(yīng)用-工作過程2.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of31163Zookeeper數(shù)據(jù)結(jié)構(gòu)樹形目錄結(jié)構(gòu)2.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of31164Zookeeper工作過程基于Paxos算法自身工作過程:選舉Leader、原子廣播對(duì)外服務(wù)過程:讀、讀任意一個(gè)節(jié)點(diǎn)對(duì)外服務(wù)過程:寫、Leader同意2.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of31165Zookeeper工作過程對(duì)外服務(wù)過程、讀:讀任意一個(gè)節(jié)點(diǎn)
讀某個(gè)Follow,調(diào)用該Follow的sync,確保給Follow盡量和Leader一致對(duì)外服務(wù)過程、寫:Leader同意
寫某個(gè)Follow時(shí),該Follow將寫轉(zhuǎn)發(fā)給Leader,Leader將該寫更新至集群內(nèi)其他機(jī)器,超過一半機(jī)器得到更新后,即認(rèn)為更新完成,寫操作成功2.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of31166Zookeeper
架構(gòu)架構(gòu)工作原理:Paxos算法2.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of31167Zookeeper部署2.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of31168Zookeeper應(yīng)用示例2.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of31169Zookeeper應(yīng)用示例2.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of31170Zookeeper讀寫操作2.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of311712.6Hadoop3.0生態(tài)圈組件HBase第二章Hadoop3.0:主流開源云架構(gòu)of31172HBase
為什么現(xiàn)實(shí)需求在線訪問分布式數(shù)據(jù)庫(kù)在線實(shí)時(shí)服務(wù)客戶欲實(shí)時(shí)讀HDFS里數(shù)據(jù)太慢緩存機(jī)制索引機(jī)制2006年谷歌發(fā)表論文BigTable,年末、微軟旗下自然語(yǔ)言搜索公司Powerset出于處理大數(shù)據(jù)的需求,按論文思想,開啟了HBase項(xiàng)目2.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of31173HBase
是什么概念是一個(gè)高可靠性、高性能、列存儲(chǔ)、可伸縮、實(shí)時(shí)讀寫的分布式數(shù)據(jù)庫(kù)系統(tǒng)基于列的而不是基于行的模式適合于存儲(chǔ)非結(jié)構(gòu)化數(shù)據(jù)HBase架構(gòu)在hadoop之上怎么架構(gòu)在hadoop之上HBase架構(gòu)2.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of31174HBase
是什么架構(gòu)MemStoreStoreFileHfileStoreFileHfileMemStoreStoreFileHfileMemStoreStoreFileHfileStoreFileHfileMemStoreStoreFileHfileHMaster2.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of31175HBase
數(shù)據(jù)模型邏輯模型行健時(shí)間戳列族contents列族anchor列族mime"n.www"t9anchor:="CNN"t8anchor:my.look.ca="CNN.com"t6contents:html="<html>…"mime:type="text/html"t5contents:html="<html>…"t6contents:html="<html>…"行健時(shí)間戳列族contents"n.www"t6contents:html="<html>…"t5contents:html="<html>…"t3contents:html="<html>…"行健時(shí)間戳列族anchor"n.www"t9anchor:="CNN"t8anchor:my.look.ca="CNN.com"行健時(shí)間戳列族mime"n.www"t6mime:type="text/html"物理模型2.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of31176[allen@iclient0hbase-1.1.2]$bin/hbaseshell#進(jìn)入HBase命令行HBase(main):001:0>list#查看所有表HBase(main):002:0>create'member','id','personalAttr','socialAttr'#創(chuàng)建member表HBase(main):003:0>listHBase(main):004:0>scan'member'#查看member內(nèi)容HBase(main):005:0>put'member','201401','personalAttr:name','aa'#向表中插入數(shù)據(jù)HBase(main):006:0>put'member','201401','personalAttr:gender','0'HBase(main):007:0>put'member','201401','personalAttr:age','21'HBase(main):008:0>put'member','201401','socialAttr:edu','e0'HBase(main):009:0>put'member','201401','socialAttr:job','p3'HBase(main):010:0>put'member','201401','socialAttr:imcome','m'HBase(main):011:0>scan'member'HBase(main):012:0>disable'member'#廢棄member表HBase(main):013:0>drop'member'#刪除member表HBase(main):014:0>quit2.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of311772.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of311782.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of31179①假定Mysql里有member表,要求使用HBase的shell接口,在HBase中新建并存儲(chǔ)此表HBase
實(shí)例例題②簡(jiǎn)述HBase是否適合存儲(chǔ)問題①中的結(jié)構(gòu)化數(shù)據(jù)身份id姓名性別年齡教育職業(yè)收入201401aa021e0p3m201402bb122e1p2l201403cc123e2p1mKey行鍵Value列鍵列族personalAttr列族socialAttr身份ID姓名性別年齡教育職業(yè)收入201401aa021e0p3m201402bb122e1p2l201403cc123e2P1m2.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of31180身份ID姓名性別年齡教育職業(yè)收入201401aa021e0p3m201402bb122e1p2l201403cc123e2p1mKey行鍵Value列鍵列族personalAttr列族socialAttr身份ID姓名性別年齡教育職業(yè)收入201401aa021e0p3M201402bb122e1p2L201403cc123e2P1M2.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of311812.6Hadoop3.0生態(tài)圈組件Mahout第二章Hadoop3.0:主流開源云架構(gòu)of31182Mahout
為什么現(xiàn)實(shí)需求目的:機(jī)器學(xué)習(xí)算法、數(shù)據(jù)挖掘算法并行化大數(shù)據(jù)為數(shù)據(jù)挖掘帶來的困難2.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of311832.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of31184Mahout
是什么組成聚類分類協(xié)同推薦算法工具類完成數(shù)據(jù)欲處理:轉(zhuǎn)成二進(jìn)制與矩陣2.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of311852.6Hadoop3.0生態(tài)圈組件Redis第二章Hadoop3.0:主流開源云架構(gòu)of311862.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of311872.6Hadoop3.0生態(tài)圈組件Kafka第二章Hadoop3.0:主流開源云架構(gòu)of311882.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of311892.6Hadoop3.0生態(tài)圈組件第二章Hadoop3.0:主流開源云架構(gòu)of311902.6Hadoop3.0生態(tài)圈組件Flink第二章Hadoop3.0:主流開源云架構(gòu)of31
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 醫(yī)院招聘護(hù)士合同范例
- 公共器材租賃合同范本
- 合同范本 合作
- 公司勞動(dòng)用工合同范本簡(jiǎn)版
- 售后回租合同范本
- 出租野餐工具合同范本
- 合同范本些可以修改
- 化妝造型合同范本
- 華能電廠合同范本
- 員工內(nèi)部合同范本
- 售后服務(wù)流程圖
- 建筑地基處理技術(shù)規(guī)范JGJ79-2012
- 印象主義、后印象主義課件
- 《中華傳統(tǒng)文化》第1課-炎黃始-華夏悠遠(yuǎn)教學(xué)課件
- 日常監(jiān)督檢查表
- 隊(duì)列訓(xùn)練教程ppt課件(PPT 86頁(yè))
- 第三章-農(nóng)村公共管理組織課件
- 注塑員工培訓(xùn)
- JMP操作簡(jiǎn)要培訓(xùn)
- 勝利油田壓驅(qū)技術(shù)工藝研究進(jìn)展及下步工作方向
- 研究生復(fù)試匯報(bào)ppt
評(píng)論
0/150
提交評(píng)論