




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
Hadoop大數(shù)據(jù)技術(shù)原理與應用(第2版)第1章
初識Hadoop第2章
部署Hadoop第3章HDFS分布式文件系統(tǒng)第4章MapReduce分布式計算框架第5章ZooKeeper分布式協(xié)調(diào)服務第6章Hadoop高可用集群第7章Hive數(shù)據(jù)倉庫第8章Flume日志采集系統(tǒng)第9章Azkaban工作流管理器第10章Sqoop數(shù)據(jù)遷移第11章
綜合項目—網(wǎng)站流量日志數(shù)據(jù)分析系統(tǒng)全套可編輯PPT課件
第1章初識Hadoop《Hadoop大數(shù)據(jù)技術(shù)原理與應用(第2版)》學習目標/Target了解大數(shù)據(jù),能夠描述大數(shù)據(jù)概念、數(shù)據(jù)類型、特征和研究意義。了解大數(shù)據(jù)應用場景,能夠描述大數(shù)據(jù)在醫(yī)療、金融和零售行業(yè)的應用。了解Hadoop的前世今生,能夠說出Hadoop的發(fā)展過程。本課件是可編輯的正常PPT課件學習目標/Target熟悉Hadoop的生態(tài)體系,能夠敘述Hadoop生態(tài)體系中各個項目的作用。熟悉Hadoop的架構(gòu),能夠描述不同版本Hadoop的架構(gòu)及特點。熟悉Hadoop的優(yōu)缺點,能夠舉例說明Hadoop的優(yōu)點和缺點。本課件是可編輯的正常PPT課件章節(jié)概述/Summary隨著大數(shù)據(jù)時代的到來,大數(shù)據(jù)已經(jīng)在金融、交通、物流等各個行業(yè)領域得到廣泛應用。而Hadoop就是一個用于處理海量數(shù)據(jù)的框架,它既可以為海量數(shù)據(jù)提供可靠的存儲;也可以為海量數(shù)據(jù)提供高效的處理。本章將詳細介紹大數(shù)據(jù)和Hadoop的相關(guān)概念。本課件是可編輯的正常PPT課件目錄/Contents010203大數(shù)據(jù)概述大數(shù)據(jù)的應用場景Hadoop概述本課件是可編輯的正常PPT課件大數(shù)據(jù)概述1.1
先定一個小目標!了解大數(shù)據(jù),能夠描述大數(shù)據(jù)概念、數(shù)據(jù)類型、特征和研究意義1.1大數(shù)據(jù)概述本課件是可編輯的正常PPT課件什么是大數(shù)據(jù)1.1大數(shù)據(jù)概述本課件是可編輯的正常PPT課件高速發(fā)展的信息時代,新一輪科技革命和變革正在加速推進,技術(shù)創(chuàng)新日益成為重塑經(jīng)濟發(fā)展模式和促進經(jīng)濟增長的重要驅(qū)動力量,而大數(shù)據(jù)無疑是核心推動力。那么,什么是大數(shù)據(jù)呢?如果從字面意思來看,大數(shù)據(jù)指的是海量數(shù)據(jù)。那么可能有人會問,多大量級的數(shù)據(jù)才叫大數(shù)據(jù)?其實不同的機構(gòu)或者學者對于大數(shù)據(jù)的量級難以給出一個具體定量的定義,只能說,大數(shù)據(jù)的存儲單位已經(jīng)超過TB發(fā)展到了PB、EB、ZB、YB甚至BB。1.1大數(shù)據(jù)概述1.繼承的概念1.什么是異常什么是大數(shù)據(jù)本課件是可編輯的正常PPT課件最早提出大數(shù)據(jù)時代到來的是麥肯錫公司(McKinsey&Company),該公司認為數(shù)據(jù)已經(jīng)滲透到當今每一個行業(yè)和業(yè)務職能領域,成為重要的生產(chǎn)因素。人們對于海量數(shù)據(jù)的挖掘和運用,預示著新一波生產(chǎn)率增長和消費者盈余浪潮的到來。從大數(shù)據(jù)特點來看,大數(shù)據(jù)具有海量、流轉(zhuǎn)快、數(shù)據(jù)類型豐富以及價值密度低等特點。如果從技術(shù)角度來看,大數(shù)據(jù)的戰(zhàn)略意義不僅在于掌握龐大的數(shù)據(jù),還包括對這些數(shù)據(jù)進行有效處理。換言之,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)盈利的關(guān)鍵在于提高對大數(shù)據(jù)的加工能力,通過加工技術(shù)來實現(xiàn)數(shù)據(jù)增值。1.1大數(shù)據(jù)概述1.繼承的概念1.什么是異常什么是大數(shù)據(jù)本課件是可編輯的正常PPT課件大數(shù)據(jù)的數(shù)據(jù)類型豐富多樣,包括網(wǎng)頁文件、表格數(shù)據(jù)、XML文件、文本數(shù)據(jù)、多媒體數(shù)據(jù)(視頻、圖片等)等,這些數(shù)據(jù)可大致劃分為結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)3種類型。1.1大數(shù)據(jù)概述1.繼承的概念1.什么是異常大數(shù)據(jù)的數(shù)據(jù)類型本課件是可編輯的正常PPT課件213采用標準化格式的數(shù)據(jù),具有明確定義的結(jié)構(gòu),數(shù)據(jù)的存儲和排列是有規(guī)律的,便于理解數(shù)據(jù)的定義、格式和含義,易于人類和程序訪問。結(jié)構(gòu)化數(shù)據(jù)不遵循任何數(shù)據(jù)模型,沒有明確定義的結(jié)構(gòu),但是包含一些結(jié)構(gòu)化元素,用于標記和組織數(shù)據(jù),使數(shù)據(jù)更容易分析。半結(jié)構(gòu)化數(shù)據(jù)不遵循任何數(shù)據(jù)模型,并且沒有易于識別的結(jié)構(gòu),企業(yè)中產(chǎn)生的大部分數(shù)據(jù)都是非結(jié)構(gòu)化數(shù)據(jù),是大數(shù)據(jù)最常見的一種數(shù)據(jù)類型非結(jié)構(gòu)化數(shù)據(jù)1.繼承的概念1.什么是異常大數(shù)據(jù)的數(shù)據(jù)類型1.1大數(shù)據(jù)概述本課件是可編輯的正常PPT課件大數(shù)據(jù)是來源于眾多不同數(shù)據(jù)源的集合,通常由5個特征來描述,包括大量(Volume)、真實(Veracity)、多樣(Variety)、低價值密度(Value)和高速(Velocity),這5個特征稱為大數(shù)據(jù)的5V特征。1.1大數(shù)據(jù)概述1.繼承的概念1.什么是異常大數(shù)據(jù)的特征本課件是可編輯的正常PPT課件0102030405采集、存儲、管理和分析的數(shù)據(jù)量都非常龐大,并且數(shù)據(jù)每年都在持續(xù)的增長。大數(shù)據(jù)的質(zhì)量,一定程度上反應出實際情況,真實不一定代表準確,虛假數(shù)據(jù)所營造出來的準確一定不是真實的,這也是數(shù)據(jù)分析的基礎。大數(shù)據(jù)的數(shù)據(jù)類型和來源的多樣性,數(shù)據(jù)類型多樣性是指大數(shù)據(jù)的數(shù)據(jù)類型;來源多樣性是指大數(shù)據(jù)的數(shù)據(jù)源可以是多種設備。海量數(shù)據(jù)中有價值內(nèi)容的密度相對較低,從海量數(shù)據(jù)中提取有價值的數(shù)據(jù)進行分析預測的方法,可以為企業(yè)帶來更有效的運營。數(shù)據(jù)增長速度快,對于海量數(shù)據(jù)存儲和處理的時效性要求更高。大量真實多樣低價值密度高速大數(shù)據(jù)的特征1.繼承的概念1.什么是異常大數(shù)據(jù)的特征1.1大數(shù)據(jù)概述本課件是可編輯的正常PPT課件研究大數(shù)據(jù)最重要的意義是預測,數(shù)據(jù)從根本上來講,是對過去和現(xiàn)在的歸納與總結(jié),其本身不具備趨勢和方向性的特征,但是可以應用大數(shù)據(jù)去了解事物發(fā)展的客觀規(guī)律、人類的行為特征等,并且能夠幫助我們改變過去的思維方式,建立新的數(shù)據(jù)思維模型,從而對未來進行預測和推測。1.繼承的概念1.什么是異常研究大數(shù)據(jù)的意義1.1大數(shù)據(jù)概述本課件是可編輯的正常PPT課件大數(shù)據(jù)的應用場景1.2
先定一個小目標!了解大數(shù)據(jù)應用場景,能夠描述大數(shù)據(jù)在醫(yī)療行業(yè)的應用1.2.1醫(yī)療行業(yè)的應用本課件是可編輯的正常PPT課件1.2.1醫(yī)療行業(yè)的應用醫(yī)生往往都希望盡可能多地收集病人信息,盡早發(fā)現(xiàn)疾病,對于患者來說,不但降低了身體健康受損的風險,同時也能夠減少醫(yī)療支出。而通過對醫(yī)療大數(shù)據(jù)的分析,人類不但能夠預測流行疾病的爆發(fā)趨勢、避免感染、降低醫(yī)療成本等,還能讓患者享受到更加便利的服務。本課件是可編輯的正常PPT課件1.醫(yī)學影像評估1.2.1醫(yī)療行業(yè)的應用醫(yī)學影像是醫(yī)療過程中經(jīng)常會遇到的醫(yī)療事項,醫(yī)學影像技術(shù)包括X射線、核磁共振成像、醫(yī)學超聲波檢測等。通過醫(yī)院歷年來積累的大量患者影像數(shù)據(jù)訓練人工智能算法,使其協(xié)助處理患者的影像,可以提高患者影像的處理效率,也可以輔助醫(yī)生做出診斷。本課件是可編輯的正常PPT課件2.醫(yī)院管理決策輔助1.2.1醫(yī)療行業(yè)的應用醫(yī)療大數(shù)據(jù)在醫(yī)院管理應用上主要有兩個方向,分別是優(yōu)化醫(yī)療資源配置和彌補醫(yī)院管理漏洞,其中優(yōu)化醫(yī)療資源配置指的是通過人工智能制定實時的工作安排。彌補醫(yī)院管理漏洞是指通過大數(shù)據(jù)分析總結(jié)醫(yī)院存在的問題,并給出解決方案,降低醫(yī)院成本,提高醫(yī)院的營收。本課件是可編輯的正常PPT課件
先定一個小目標!了解大數(shù)據(jù)應用場景,能夠描述大數(shù)據(jù)在金融行業(yè)的應用1.2.2金融行業(yè)的應用本課件是可編輯的正常PPT課件1.2.2金融行業(yè)的應用在大數(shù)據(jù)時代,面對海量的金融數(shù)據(jù),傳統(tǒng)的分析方式需要發(fā)生重大的改變,并建立與之相應的新的統(tǒng)計模式。面對金融大數(shù)據(jù),如何使用和管理大數(shù)據(jù)、從中提取有用的信息,為金融決策者提供可靠的理論支持,是各級政府、企事業(yè)單位以及金融機構(gòu)所共同面臨的重要問題。隨著近年來社會重視度的不斷提高,金融大數(shù)據(jù)的應用將迎來突破性的發(fā)展。本課件是可編輯的正常PPT課件1.風險管控1.2.2金融行業(yè)的應用風險管控主要包括欺詐交易識別和中小企業(yè)貸款風險評估,其中欺詐交易識別是指銀行可以利用持卡人基本信息、銀行卡基本信息、交易歷史,結(jié)合人工智能算法進行實時的交易反欺詐分析;中小企業(yè)貸款風險評估是指銀行可通過企業(yè)的產(chǎn)量、銷售、流通、財務等相關(guān)信息。本課件是可編輯的正常PPT課件2.運營優(yōu)化1.2.2金融行業(yè)的應用運行優(yōu)化主要包括市場和渠道分析優(yōu)化、產(chǎn)品和服務優(yōu)化、輿情分析,市場和渠道分析優(yōu)化可以對合作渠道進行調(diào)整和優(yōu)化;產(chǎn)品和服務優(yōu)化可以對產(chǎn)品創(chuàng)新和服務進行優(yōu)化;輿情分析通過自然語言處理技術(shù)進行正負面判斷,對于負面信息,銀行及時發(fā)現(xiàn)和處理問題,對于正面信息,可以加以總結(jié)并繼續(xù)強化。本課件是可編輯的正常PPT課件
先定一個小目標!了解大數(shù)據(jù)應用場景,能夠描述大數(shù)據(jù)在零售行業(yè)的應用1.2.3零售行業(yè)的應用本課件是可編輯的正常PPT課件大數(shù)據(jù)時代下,高頻次的零售交易會產(chǎn)生海量業(yè)務數(shù)據(jù),但如何將這些數(shù)據(jù)付諸業(yè)務應用卻面臨著重大挑戰(zhàn)。為保持行業(yè)競爭力,零售商們需要克服這些挑戰(zhàn),并根據(jù)業(yè)務各個層面的數(shù)據(jù)作出決策。1.2.3零售行業(yè)的應用本課件是可編輯的正常PPT課件1.打造智慧的購物體驗1.2.3零售行業(yè)的應用零售行業(yè)可以通過定制APP幫助顧客瀏覽產(chǎn)品,在APP中記錄顧客的偏好并收集詳細的購買信息,這些數(shù)據(jù)將反饋給大數(shù)據(jù)分析平臺?;趯?shù)據(jù)的進一步分析,零售行業(yè)可以對顧客歷史購買行為進行分類,并以此改進產(chǎn)品推薦,分析結(jié)果還可以指導零售行業(yè)對新產(chǎn)品的設計和定價,為客戶提供更個性化、更高效、更優(yōu)質(zhì)的服務。本課件是可編輯的正常PPT課件2.構(gòu)建智慧的商品管理和供應鏈網(wǎng)絡1.2.3零售行業(yè)的應用零售行業(yè)在拓展電商平臺方面充分利用大數(shù)據(jù)打開市場,并與上游供應商協(xié)同聯(lián)動,實現(xiàn)預期效果。借助自身積累的會員資料、訪問流量、訂單信息等大數(shù)據(jù),進行深入挖掘,與供應商一起研究用戶需求,向上游供應商進行產(chǎn)品的定制。本課件是可編輯的正常PPT課件Hadoop概述1.3
先定一個小目標!了解Hadoop的前世今生,能夠說出Hadoop的發(fā)展過程1.3.1Hadoop的前世今生本課件是可編輯的正常PPT課件1.3.1Hadoop的前世今生2002~2004開發(fā)出了Nutch分布式文件系統(tǒng),模仿Google的MapReduce框架,實現(xiàn)了一個新的MapReduce并行處理軟件系統(tǒng),并作為Nutch底層的計算引擎。2006~2008NDFS更名為HDFS,Hadoop晉升為Apache軟件基金會的頂級項目。Hive、Pig、HBase和ZooKeeper成為Hadoop的子項目。2012Hadoop2.x誕生,將負責資源管理、工作管理和容錯的代碼庫從MapReduce提取出來,形成一個新的子項目YARN。2021將13個大部分屬于Hadoop的大數(shù)據(jù)項目遷移至軟件基金會的一個項目ApacheAttic。2017Hadoop3.x誕生。本課件是可編輯的正常PPT課件
先定一個小目標!熟悉Hadoop的優(yōu)缺點,能夠舉例說明Hadoop的優(yōu)點和缺點1.3.2Hadoop的優(yōu)缺點本課件是可編輯的正常PPT課件0102030405企業(yè)可以使用多臺廉價的計算機組建集群環(huán)境,通過分布式系統(tǒng)處理大規(guī)模數(shù)據(jù)集。Hadoop自動維護數(shù)據(jù)文件的多份副本,可以有效防止數(shù)據(jù)丟失的情況發(fā)生。若執(zhí)行計算的過程中,某個計算機宕機,那么Hadoop會自動將該計算機上執(zhí)行的任務轉(zhuǎn)移到其他計算機上繼續(xù)執(zhí)行,以防止任務執(zhí)行失敗。Hadoop可以高效地執(zhí)行并行計算,能夠在計算機之間動態(tài)地移動計算,確保每臺計算機在執(zhí)行計算時可以最快的獲取到將要處理的數(shù)據(jù),提高計算效率。Hadoop可以隨時通過添加更多的計算機來增加集群的存儲和計算能力。低成本高可靠性高容錯性高效率高擴展性Hadoop的優(yōu)點1.3.2Hadoop的優(yōu)缺點本課件是可編輯的正常PPT課件1.3.2Hadoop的優(yōu)缺點Hadoop設計之初是為了解決大型數(shù)據(jù)集的處理問題,對于大量小文件的處理來說,Hadoop的處理效率并不高。不適合處理小文件Hadoop的核心是執(zhí)行離線計算的引擎,無法在輸出結(jié)果時像實時計算那樣確保低延遲。無法實時計算Hadoop自身在存儲和網(wǎng)絡傳輸方面缺乏對數(shù)據(jù)的加密,這意味著通過Hadoop處理的數(shù)據(jù)可能存在泄露的風險。安全性較低Hadoop的缺點本課件是可編輯的正常PPT課件
先定一個小目標!熟悉Hadoop的生態(tài)系統(tǒng),能夠敘述Hadoop生態(tài)體系中各個項目的作用1.3.3Hadoop的生態(tài)系統(tǒng)本課件是可編輯的正常PPT課件1.3.3Hadoop的生態(tài)系統(tǒng)Hadoop生態(tài)體系中常見的開源大數(shù)據(jù)項目Hadoop的核心由HDFS、MapReduce和YARN組成。Hadoop也用于泛指與Hadoop相關(guān)的開源大數(shù)據(jù)項目所組成的生態(tài)體系。本課件是可編輯的正常PPT課件1.3.3Hadoop的生態(tài)系統(tǒng)AmbariSubmarineAmbari是一個基于Web的工具。用于配置、管理和監(jiān)控Hadoop,包括對Hive、HBase和Pig等的支持。Submarine是一個智能化平臺。允許用戶利用該平臺在分布式集群中進行機器學習和深度學習的工作。Hadoop生態(tài)體系中常見的開源大數(shù)據(jù)項目本課件是可編輯的正常PPT課件1.3.3Hadoop的生態(tài)系統(tǒng)HBaseHiveHBase是一個基于Hadoop的分布式數(shù)據(jù)庫。HBase提供了對大規(guī)模數(shù)據(jù)的隨機、實時讀寫訪問。Hive是一個數(shù)據(jù)倉庫工具。可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)表。Hadoop生態(tài)體系中常見的開源大數(shù)據(jù)項目本課件是可編輯的正常PPT課件1.3.3Hadoop的生態(tài)系統(tǒng)PigMahoutPig是一個基于Hadoop的大規(guī)模數(shù)據(jù)分析平臺。提供的SQL-LIKE語言是一個類SQL語言。Mahout是一個機器學習的算法庫。提供了一些機器學習領域的經(jīng)典算法。Hadoop生態(tài)體系中常見的開源大數(shù)據(jù)項目本課件是可編輯的正常PPT課件1.3.3Hadoop的生態(tài)系統(tǒng)AvroTezAvro是一個數(shù)據(jù)序列化系統(tǒng)。支持二進制序列化方式,可以便捷、快速地處理大量數(shù)據(jù)。Tez是一個基于Hadoop的YARN構(gòu)建的分布式框架。支持用戶使用DAG(有向無環(huán)圖)作業(yè)處理數(shù)據(jù)。Hadoop生態(tài)體系中常見的開源大數(shù)據(jù)項目本課件是可編輯的正常PPT課件1.3.3Hadoop的生態(tài)系統(tǒng)SparkCassandraSpark是一個基于內(nèi)存的分布式計算引擎??梢酝ㄟ^自身提供組件,實現(xiàn)對大規(guī)模數(shù)據(jù)集相關(guān)操作。Cassandra是一個開源的分布式數(shù)據(jù)庫??梢源鎯Σ煌Y(jié)構(gòu)的數(shù)據(jù),如結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)等。Hadoop生態(tài)體系中常見的開源大數(shù)據(jù)項目本課件是可編輯的正常PPT課件1.3.3Hadoop的生態(tài)系統(tǒng)OzoneChukwaOzone是一個可擴展的分布式存儲系統(tǒng)?;贖adoop的HDFS所構(gòu)建,并彌補了HDFS自身存在的不足。Chukwa是一個構(gòu)建在Hadoop的HDFS和MapReduce之上的開源數(shù)據(jù)收集平臺。監(jiān)控、分析和展示收集到的數(shù)據(jù)。Hadoop生態(tài)體系中常見的開源大數(shù)據(jù)項目本課件是可編輯的正常PPT課件1.3.3Hadoop的生態(tài)系統(tǒng)ZooKeeperZooKeeper是一個分布式協(xié)調(diào)服務。可以為分布式系統(tǒng)提供一致性服務,包括統(tǒng)一命名、狀態(tài)同步、集群管理、配置同步等。Hadoop生態(tài)體系中常見的開源大數(shù)據(jù)項目本課件是可編輯的正常PPT課件
先定一個小目標!熟悉Hadoop的架構(gòu),能夠描述不同版本Hadoop的架構(gòu)及特點1.3.4Hadoop架構(gòu)變遷本課件是可編輯的正常PPT課件1.3.4Hadoop架構(gòu)變遷Hadoop1.x與Hadoop2.x的架構(gòu)Hadoop共發(fā)行了三個版本,分別是Hadoop1.x、Hadoop2.x和Hadoop3.x。Hadoop2.x架構(gòu)比Hadoop1.x架構(gòu)增加了YARN與Others。本課件是可編輯的正常PPT課件1.3.4Hadoop架構(gòu)變遷MapReduce既負責Hadoop資源管理,又負責Hadoop的數(shù)據(jù)處理,負荷較大。HDFS主要負責Hadoop的分布式文件存儲。Hadoop1.x和Hadoop2.x架構(gòu)Hadoop1.x架構(gòu)Hadoop2.x架構(gòu)MapReduce只負責Hadoop的數(shù)據(jù)處理,負載相對較小。YARN負責Hadoop的資源管理和任務調(diào)度。HDFS負責Hadoop中的分布式文件存儲。YARN支持為其他大數(shù)據(jù)開源項目提供資源管理。本課件是可編輯的正常PPT課件1.3.4Hadoop架構(gòu)變遷JDK升級:Hadoop2.x版本支持的最低JDK版本為7。Hadoop3.x版本支持的最低JDK版本為8。重構(gòu)Shell腳本:Hadoop3.x中的Shell腳本被重寫,修補了許多長期存在的Bug,提高了Hadoop使用時的穩(wěn)定性。精簡內(nèi)核:Hadoop3.x剔除了過期的API,將默認組件的實現(xiàn)替換成更高效的實現(xiàn)。類路徑隔離:Hadoop3.x提供了類路徑隔離機制,防止不同版本的jar包發(fā)生沖突。1.HadoopCommonHadoop3.x架構(gòu)優(yōu)化本課件是可編輯的正常PPT課件1.3.4Hadoop架構(gòu)變遷任務本地優(yōu)化:Hadoop3.x中,為MapReduce增加了NativeMapOutputCollector組件來處理MapTask輸出的鍵值對,包括排序、溢寫和IFile序列化,對于Shuffle比較密集型的任務,可以使MapTask的執(zhí)行速度性能提高2~3倍。內(nèi)存參數(shù)自動推斷:在Hadoop2.x中,運行MapReduce程序時設置內(nèi)存參數(shù)的過程非常繁瑣。而Hadoop3.x中運行MapReduce程序時,可自動進行內(nèi)存的調(diào)整。2.MapReduceHadoop3.x架構(gòu)優(yōu)化本課件是可編輯的正常PPT課件1.3.4Hadoop架構(gòu)變遷YARNTimelineServiceV2:YARNTimelineServiceV2主要對Hadoop2.x的YARN進行了兩處優(yōu)化,第一使用了更具有伸縮性的分布式體系架構(gòu),以及可擴展的后端存儲,從而將數(shù)據(jù)的寫入和讀取進行了分離;第二采用了一組收集器負責將數(shù)據(jù)寫入到后端進行存儲。增加YARN資源類型:Hadoop3.x中,YARN資源模型已被通用化,支持用戶定義CPU和內(nèi)存以外的可計數(shù)資源類型。3.YARNHadoop3.x架構(gòu)優(yōu)化本課件是可編輯的正常PPT課件1.3.4Hadoop架構(gòu)變遷支持多個NameNode:Hadoop2.x只允許HDFS中存在一個Active(激活)狀態(tài)的NameNode和一個Standby(備用)狀態(tài)的NameNode。Hadoop3.x版本允許HDFS中存在一個Active狀態(tài)的NameNode和多個Standby狀態(tài)的NameNode,有效提高了HDFS的可靠性。引入ErasureCoding(糾刪碼):Hadoop3.x引入了ErasureCoding,在確保HDFS存儲數(shù)據(jù)可靠的前提下,可以節(jié)省50%的存儲空間。4.HDFSHadoop3.x架構(gòu)優(yōu)化本課件是可編輯的正常PPT課件本章小結(jié)本章主要講解了大數(shù)據(jù)和Hadoop的相關(guān)概念。首先介紹了什么是大數(shù)據(jù),以及大數(shù)據(jù)的數(shù)據(jù)類型、特征和研究意義;然后,介紹了大數(shù)據(jù)在醫(yī)療行業(yè)、金融行業(yè)和零售行業(yè)的應用場景;最后,介紹了Hadoop的前世今生、優(yōu)缺點、生態(tài)體系以及Hadoop的架構(gòu)變遷。希望通過本章的學習,讀者可以了解大數(shù)據(jù)和Hadoop相關(guān)的基本概念,為后續(xù)更加深入的學習Hadoop奠定基礎。本章小結(jié)本課件是可編輯的正常PPT課件本課件是可編輯的正常PPT課件第2章部署Hadoop《Hadoop大數(shù)據(jù)技術(shù)原理與應用(第2版)》學習目標/Target了解虛擬機的創(chuàng)建過程,能夠完成虛擬機和Linux操作系統(tǒng)的安裝。了解虛擬機的克隆方式,能夠使用完整克隆的方式克隆新的虛擬機。熟悉虛擬機的配置,能夠配置Linux系統(tǒng)的主機名、IP地址、網(wǎng)絡參數(shù)等。本課件是可編輯的正常PPT課件學習目標/Target掌握基于完全分布式模式下部署Hadoop,能夠獨立完成完全分布式模式部署。掌握Hadoop的案例操作,能夠在Hadoop中運行MapReduce程序。熟悉基于偽分布式模式部署Hadoop,能夠在單臺虛擬機完成偽分布式模式部署。本課件是可編輯的正常PPT課件章節(jié)概述/Summary“工欲善其事,必先利其器”,比喻要做好一件事情,準備好工具就顯得非常重要。同樣深入學習Hadoop之前,部署好Hadoop集群也是至關(guān)重要的。本章將帶領大家從零開始搭建一個Hadoop集群,并體驗Hadoop集群的簡單使用。本課件是可編輯的正常PPT課件目錄/Contents010203安裝準備Hadoop集群部署模式基于偽分布式模式部署Hadoop04基于完全分布式模式部署Hadoop05案例--詞頻統(tǒng)計本課件是可編輯的正常PPT課件安裝準備2.1
先定一個小目標!了解虛擬機的創(chuàng)建過程,能夠完成虛擬機的安裝2.1.1創(chuàng)建虛擬機本課件是可編輯的正常PPT課件2.1.1創(chuàng)建虛擬機在實際開發(fā)應用場景中,Hadoop集群的搭建需要涉及多臺計算機來實現(xiàn),這對于想要學習Hadoop的大部分人來說是難以實現(xiàn)的。這里我們借助VMwareWorkstation軟件在一臺計算機上創(chuàng)建多臺虛擬機,并且在每臺虛擬機中安裝Linux操作系統(tǒng),從而實現(xiàn)在一臺計算機上搭建Hadoop集群。接下來,我們一起來學習如何安裝虛擬機。本課件是可編輯的正常PPT課件1.繼承的概念1.什么是異常安裝虛擬機2.1.1創(chuàng)建虛擬機下載并安裝好VMwareWorkstation虛擬軟件工具,安裝成功后打開VMwareWorkstation工具,進入VMwareWorkstation主界面。STEP01創(chuàng)建新的虛擬機界面本課件是可編輯的正常PPT課件1.繼承的概念1.什么是異常安裝虛擬機2.1.1創(chuàng)建虛擬機在歡迎使用新建虛擬機向?qū)Ы缑孢x擇自定義(高級)。STEP02歡迎使用新建虛擬機向?qū)Ы缑姹菊n件是可編輯的正常PPT課件1.繼承的概念1.什么是異常安裝虛擬機2.1.1創(chuàng)建虛擬機在選擇虛擬機硬件兼容性界面,選擇硬件兼容性為Workstation16.2.x。STEP03選擇虛擬機硬件兼容性界面本課件是可編輯的正常PPT課件1.繼承的概念1.什么是異常安裝虛擬機2.1.1創(chuàng)建虛擬機在安裝客戶機操作系統(tǒng)界面,選擇安裝來源為稍后安裝操作系統(tǒng)。STEP04安裝客戶機操作系統(tǒng)界面本課件是可編輯的正常PPT課件1.繼承的概念1.什么是異常安裝虛擬機2.1.1創(chuàng)建虛擬機在選擇客戶機操作系統(tǒng)界面,選擇客戶機操作系統(tǒng)為Linux。STEP05選擇客戶機操作系統(tǒng)界面版本為其他Linux5.x內(nèi)核64位本課件是可編輯的正常PPT課件1.繼承的概念1.什么是異常安裝虛擬機2.1.1創(chuàng)建虛擬機在命名虛擬機界面,將虛擬機名稱填寫為Hadoop1。STEP06命名虛擬機界面虛擬機本地的存儲位置本課件是可編輯的正常PPT課件1.繼承的概念1.什么是異常安裝虛擬機2.1.1創(chuàng)建虛擬機在處理器配置界面,處理數(shù)量選擇為1,每個處理器的內(nèi)核數(shù)量設置為2。STEP07處理器配置界面本課件是可編輯的正常PPT課件1.繼承的概念1.什么是異常安裝虛擬機2.1.1創(chuàng)建虛擬機在此虛擬機的內(nèi)存界面,將此虛擬機的內(nèi)存設置為4096MB。STEP08此虛擬機的內(nèi)存界面本課件是可編輯的正常PPT課件1.繼承的概念1.什么是異常安裝虛擬機2.1.1創(chuàng)建虛擬機在網(wǎng)絡類型界面,選擇網(wǎng)絡連接為使用網(wǎng)絡地址轉(zhuǎn)換(NAT)。STEP09網(wǎng)絡類型界面本課件是可編輯的正常PPT課件1.繼承的概念1.什么是異常安裝虛擬機2.1.1創(chuàng)建虛擬機在選擇I/O控制器類型界面,選擇I/O控制器類型為LSILogic。STEP10選擇I/O控制器類型界面本課件是可編輯的正常PPT課件1.繼承的概念1.什么是異常安裝虛擬機2.1.1創(chuàng)建虛擬機在選擇磁盤類型界面,選擇虛擬磁盤類型為SCSI。STEP11選擇磁盤類型界面本課件是可編輯的正常PPT課件1.繼承的概念1.什么是異常安裝虛擬機2.1.1創(chuàng)建虛擬機STEP12選擇磁盤界面在選擇磁盤界面,選擇磁盤為創(chuàng)建新虛擬磁盤。本課件是可編輯的正常PPT課件1.繼承的概念1.什么是異常安裝虛擬機2.1.1創(chuàng)建虛擬機STEP13指定磁盤容量界面在指定磁盤容量界面,將最大磁盤大小設置為30.0。選擇將虛擬磁盤拆分成多個文件本課件是可編輯的正常PPT課件1.繼承的概念1.什么是異常安裝虛擬機2.1.1創(chuàng)建虛擬機STEP14指定磁盤文件界面
在指定磁盤文件界面,將磁盤文件命名為Hadoop1.vmdk。本課件是可編輯的正常PPT課件1.繼承的概念1.什么是異常安裝虛擬機2.1.1創(chuàng)建虛擬機STEP15已準備好創(chuàng)建虛擬機界面
在已準備好創(chuàng)建虛擬機界面,可以查看虛擬機的相關(guān)配置參數(shù)。本課件是可編輯的正常PPT課件1.繼承的概念1.什么是異常安裝虛擬機2.1.1創(chuàng)建虛擬機STEP16完成虛擬機的創(chuàng)建界面
虛擬機Hadoop1創(chuàng)建完成后的效果。本課件是可編輯的正常PPT課件
先定一個小目標!了解虛擬機的創(chuàng)建過程,能夠完成Linux操作系統(tǒng)的安裝2.1.1創(chuàng)建虛擬機本課件是可編輯的正常PPT課件2.1.1創(chuàng)建虛擬機接下來,我們一起來學習在虛擬機Hadoop1安裝Linux操作系統(tǒng)的發(fā)行版CentOSStream9。本課件是可編輯的正常PPT課件2.1.1創(chuàng)建虛擬機STEP01虛擬機設置對話框
在虛擬機設置對話框,勾選使用ISO鏡像文件。選擇本地存放ISO鏡像文件1.繼承的概念1.什么是異常在虛擬機中安裝Linux操作系統(tǒng)本課件是可編輯的正常PPT課件2.1.1創(chuàng)建虛擬機STEP02CentOSStream9安裝引導界面啟動虛擬機Hadoop1,初次啟動虛擬機Hadoop1之后會進入CentOSStream9的安裝引導界面。選擇InstallCentOSStream91.繼承的概念1.什么是異常在虛擬機中安裝Linux操作系統(tǒng)本課件是可編輯的正常PPT課件2.1.1創(chuàng)建虛擬機STEP03歡迎使用CENTOSSTREAM9界面在歡迎使用CENTOSSTREAM9界面,選擇用簡體中文(中國)做為CentOSStream9操作系統(tǒng)的語言。1.繼承的概念1.什么是異常在虛擬機中安裝Linux操作系統(tǒng)本課件是可編輯的正常PPT課件2.1.1創(chuàng)建虛擬機STEP04安裝信息摘要界面在安裝信息摘要界面,可以修改CentOSStream9的相關(guān)配置。1.繼承的概念1.什么是異常在虛擬機中安裝Linux操作系統(tǒng)本課件是可編輯的正常PPT課件2.1.1創(chuàng)建虛擬機STEP05網(wǎng)絡和主機名界面在網(wǎng)絡和主機名界面,確認以太網(wǎng)(ens33)為打開狀態(tài)。1.繼承的概念1.什么是異常在虛擬機中安裝Linux操作系統(tǒng)將主機名設置為hadoop1本課件是可編輯的正常PPT課件2.1.1創(chuàng)建虛擬機STEP06時間和日期界面在時間和日期界面,確認“地區(qū)”和“城市”分別為“亞洲”和“上海”,以及網(wǎng)絡時間為打開狀態(tài)。1.繼承的概念1.什么是異常在虛擬機中安裝Linux操作系統(tǒng)本課件是可編輯的正常PPT課件2.1.1創(chuàng)建虛擬機STEP07安裝目標位置界面在安裝目標位置界面配置CentOSStream9的磁盤分區(qū),選擇存儲配置為自動。1.繼承的概念1.什么是異常在虛擬機中安裝Linux操作系統(tǒng)選擇存儲配置為自動本課件是可編輯的正常PPT課件2.1.1創(chuàng)建虛擬機STEP08軟件選擇界面在軟件選擇界面配置CentOSStream9的基本環(huán)境,選擇基本環(huán)境為MinimalInstall,即最小化安裝。1.繼承的概念1.什么是異常在虛擬機中安裝Linux操作系統(tǒng)本課件是可編輯的正常PPT課件2.1.1創(chuàng)建虛擬機STEP09ROOT密碼界面在ROOT密碼界面,配置用戶root的密碼。1.繼承的概念1.什么是異常在虛擬機中安裝Linux操作系統(tǒng)密碼為123456本課件是可編輯的正常PPT課件2.1.1創(chuàng)建虛擬機STEP10安裝進度界面(1)在安裝進度界面開始安裝CentOSStream9。1.繼承的概念1.什么是異常在虛擬機中安裝Linux操作系統(tǒng)本課件是可編輯的正常PPT課件2.1.1創(chuàng)建虛擬機STEP10安裝進度界面(2)待CentOSStream9安裝完成后,單擊重啟系統(tǒng)按鈕開始使用CentOSStream9。1.繼承的概念1.什么是異常在虛擬機中安裝Linux操作系統(tǒng)本課件是可編輯的正常PPT課件2.1.1創(chuàng)建虛擬機STEP11虛擬機Hadoop1的登錄界面待重啟完成后會進入虛擬機Hadoop1的登錄界面。1.繼承的概念1.什么是異常在虛擬機中安裝Linux操作系統(tǒng)本課件是可編輯的正常PPT課件2.1.1創(chuàng)建虛擬機STEP12成功登錄虛擬機Hadoop1的效果在虛擬機Hadoop1的登錄界面,輸入用戶名root,在“Password:”位置輸入用戶root的密碼123456;按“Enter”鍵登錄虛擬機Hadoop1。1.繼承的概念1.什么是異常在虛擬機中安裝Linux操作系統(tǒng)本課件是可編輯的正常PPT課件
先定一個小目標!了解虛擬機的克隆方式,能夠使用完整克隆的方式克隆新的虛擬機2.1.2克隆虛擬機本課件是可編輯的正常PPT課件2.1.2克隆虛擬機完整克隆的虛擬機是通過復制原虛擬機創(chuàng)建完全獨立的新虛擬機,不和原虛擬機共享任何資源,可以脫離原虛擬機獨立使用。完整克隆鏈接克隆鏈接克隆的虛擬機需要和原虛擬機共享同一個虛擬磁盤文件,不能脫離原虛擬機獨立運行。本課件是可編輯的正常PPT課件通過完整克隆方式創(chuàng)建的虛擬機相對獨立,不依賴于原虛擬機,在實際使用中也較為常用。接下來,我們一起學習以完整克隆的方式創(chuàng)建虛擬機Hadoop2和Hadoop3。2.1.2克隆虛擬機本課件是可編輯的正常PPT課件STEP01關(guān)閉虛擬機虛擬機克隆之前,需要在VMwareWorkstation工具的主界面關(guān)閉要克隆的虛擬機Hadoop1。2.1.2克隆虛擬機本課件是可編輯的正常PPT課件STEP02歡迎使用克隆虛擬機向?qū)Ы缑嬖赩MwareWorkstation的主界面選擇并右擊虛擬機Hadoop1,依次選擇“管理”→“克隆”選項進入歡迎使用克隆虛擬機向?qū)Ы缑妗?.1.2克隆虛擬機本課件是可編輯的正常PPT課件STEP03克隆源界面在克隆源界面,選擇虛擬機中的當前狀態(tài)。2.1.2克隆虛擬機本課件是可編輯的正常PPT課件在克隆類型界面,選擇選擇克隆方法為創(chuàng)建完整克隆。2.1.2克隆虛擬機STEP04克隆類型界面本課件是可編輯的正常PPT課件在“新虛擬機名稱”界面,自定義虛擬機名稱和虛擬機存儲位置。2.1.2克隆虛擬機STEP05新虛擬機名稱界面本課件是可編輯的正常PPT課件在正在克隆虛擬機界面,查看通過完整克隆的方式創(chuàng)建虛擬機Hadoop2的進度。2.1.2克隆虛擬機STEP06正在克隆虛擬機界面本課件是可編輯的正常PPT課件
先定一個小目標!熟悉虛擬機的配置,能夠配置Linux系統(tǒng)的主機名和IP映射2.1.3配置虛擬機本課件是可編輯的正常PPT課件2.1.3配置虛擬機在集群環(huán)境中,IP地址作為各節(jié)點的標識可以說是非常重要的,我們可以通過IP地址明確訪問集群中具體的某一節(jié)點,不過,IP地址難以記憶,通過IP地址訪問節(jié)點非常不方便。此時可以將虛擬機主機名與IP地址映射,使用主機名訪問節(jié)點。本課件是可編輯的正常PPT課件2.1.3配置虛擬機修改主機名hostnamectlset-hostnamehadoop2hostnamectlset-hostnamehadoop3hadoop2hadoop3配置虛擬機的主機名和配置IP映射分別將虛擬機Hadoop2和Hadoop3的主機名修改為hadoop2和hadoop3。STEP01本課件是可編輯的正常PPT課件2.1.3配置虛擬機配置VMwareWorkstation網(wǎng)絡在VMwareWorkstation主界面,依次單擊“編輯”→“虛擬網(wǎng)絡編輯器...”選項,配置VMwareWorkstation網(wǎng)絡。配置虛擬機的主機名和配置IP映射STEP02單擊更改設置本課件是可編輯的正常PPT課件2.1.3配置虛擬機修改映射文件分別在虛擬機Hadoop1、Hadoop2和Hadoop3執(zhí)行“vi/etc/hosts”命令編輯映射文件hosts,在配置文件中添加如下內(nèi)容。60hadoop161hadoop262hadoop3配置虛擬機的主機名和配置IP映射STEP03本課件是可編輯的正常PPT課件
先定一個小目標!熟悉虛擬機的配置,能夠配置網(wǎng)絡參數(shù)2.1.3配置虛擬機本課件是可編輯的正常PPT課件配置虛擬機的網(wǎng)絡參數(shù),主要是將虛擬機Hadoop1、Hadoop2和Hadoop3的網(wǎng)絡由默認的動態(tài)IP修改為靜態(tài)IP,以配置虛擬機Hadoop2的網(wǎng)絡參數(shù)為例演示。2.1.3配置虛擬機本課件是可編輯的正常PPT課件2.1.3配置虛擬機編輯網(wǎng)絡配置文件vi/etc/NetworkManager/system-connections/ens33.nmconnection配置虛擬機的網(wǎng)絡參數(shù)編輯虛擬機Hadoop2的網(wǎng)絡配置文件ens33.nmconnection。STEP01本課件是可編輯的正常PPT課件2.1.3配置虛擬機修改網(wǎng)絡配置文件修改網(wǎng)絡配置文件中[ipv4]下方參數(shù)method的值為manual,表示使用靜態(tài)IP。在[ipv4]下方添加參數(shù)address1和dns,參數(shù)address1用于指定IP地址和網(wǎng)關(guān),參數(shù)dns用于指定域名解析器。STEP02配置虛擬機的網(wǎng)絡參數(shù)本課件是可編輯的正常PPT課件2.1.3配置虛擬機修改uuidsed-i'/uuid=/c\uuid='`uuidgen`''\/etc/NetworkManager/system-connections/ens33.nmconnection修改虛擬機Hadoop2和Hadoop3的uuid,uuid的作用是使分布式系統(tǒng)中的所有元素都有唯一的標識碼。STEP03配置虛擬機的網(wǎng)絡參數(shù)本課件是可編輯的正常PPT課件2.1.3配置虛擬機重啟ens33網(wǎng)卡和重新加載網(wǎng)絡配置文件在虛擬機Hadoop2中執(zhí)行“nmclicreload”命令重新加載網(wǎng)絡配置文件,以及執(zhí)行“nmclicupens33”命令重啟ens33網(wǎng)卡,使修改后的網(wǎng)絡配置文件生效。STEP04配置虛擬機的網(wǎng)絡參數(shù)本課件是可編輯的正常PPT課件2.1.3配置虛擬機查看網(wǎng)絡信息通過執(zhí)行“ipaddr”命令查看虛擬機Hadoop2的網(wǎng)絡信息,驗證網(wǎng)絡配置文件是否修改成功。配置虛擬機的網(wǎng)絡參數(shù)STEP05本課件是可編輯的正常PPT課件2.1.3配置虛擬機檢測網(wǎng)絡連接保證個人計算機連網(wǎng)狀態(tài),執(zhí)行“ping”命令,檢測虛擬機的網(wǎng)絡連接是否正常,檢測完成后可以通過組合鍵“Ctrl+C”退出檢測。配置虛擬機的網(wǎng)絡參數(shù)STEP06本課件是可編輯的正常PPT課件
先定一個小目標!熟悉虛擬機的配置,能夠完成SSH遠程登錄2.1.3配置虛擬機本課件是可編輯的正常PPT課件在VMwareWorkstation中操作虛擬機十分不方便,既不能開啟單臺虛擬機的多個操作窗口,也不能復制內(nèi)容到虛擬機中,在實際工作中,服務器被放置在機房中,受到地域和管理的限制,虛擬機配置SSH遠程登錄功能非常重要,虛擬機Hadoop2為例,為虛擬機配置SSH遠程登錄。2.1.3配置虛擬機本課件是可編輯的正常PPT課件2.1.3配置虛擬機查看是否安裝和開啟SSH服務在虛擬機中,分別執(zhí)行“rpm-qa|grepssh”和“ps-ef|grepsshd”命令,查看當前虛擬機是否安裝了SSH服務,以及SSH服務是否啟動。配置虛擬機SSH遠程登錄STEP01本課件是可編輯的正常PPT課件2.1.3配置虛擬機修改SSH服務配置文件默認情況下,CentOSStream9不允許用戶root進行遠程登錄,在虛擬機Hadoop2中執(zhí)行“vi/etc/ssh/sshd_config”命令編輯配置文件sshd_config。PermitRootLoginyes配置虛擬機SSH遠程登錄STEP02重啟SSH服務systemctlrestartsshd本課件是可編輯的正常PPT課件2.1.3配置虛擬機創(chuàng)建快速連接打開遠程連接工具SecureCRT,在SecureCRT主界面依次單擊“File”→“QuickConnect”選項進入QuickConnect對話框創(chuàng)建快速連接。配置虛擬機SSH遠程登錄STEP03本課件是可編輯的正常PPT課件2.1.3配置虛擬機指定連接信息在QuickConnect對話框的
Hostname和Username文本框中分別輸入61和root,指定虛擬機的IP地址和登錄虛擬機的用戶名。配置虛擬機SSH遠程登錄STEP04虛擬機的IP地址登錄虛擬機的用戶名本課件是可編輯的正常PPT課件2.1.3配置虛擬機保存主機密鑰在NewHostKey對話框,單擊“Accept&Save”按鈕接收并保存主機密鑰。配置虛擬機SSH遠程登錄STEP05本課件是可編輯的正常PPT課件2.1.3配置虛擬機輸入用戶root的密碼在EnterSecureShellPassword對話框中,輸入用戶root的密碼123456。配置虛擬機SSH遠程登錄STEP06勾選Savepassword保存密碼!本課件是可編輯的正常PPT課件2.1.3配置虛擬機連接虛擬機Hadoop2成功連接虛擬機Hadoop2。配置虛擬機SSH遠程登錄STEP07本課件是可編輯的正常PPT課件
先定一個小目標!熟悉虛擬機的配置,能夠完成SSH免密登錄2.1.3配置虛擬機本課件是可編輯的正常PPT課件在集群環(huán)境中,主節(jié)點需要頻繁的訪問從節(jié)點,以獲取從節(jié)點的運行狀態(tài),主節(jié)點每次訪問從節(jié)點時都需要通過輸入密碼的方式進行驗證,確定密碼輸入正確后才建立連接,這會對集群運行的連續(xù)性造成不良影響,為主節(jié)點配置SSH免密登錄功能,可以有效避免訪問從節(jié)點時頻繁輸入密碼。接下來,虛擬機Hadoop1作為集群環(huán)境的主節(jié)點實現(xiàn)SSH免密登錄。2.1.3配置虛擬機本課件是可編輯的正常PPT課件2.1.3配置虛擬機配置虛擬機SSH免密登錄功能生成秘鑰在虛擬機Hadoop1中執(zhí)行“ssh-keygen-trsa”命令,生成密鑰。STEP01執(zhí)行命令生成密鑰,并根據(jù)提示連續(xù)按四次Enter確認!本課件是可編輯的正常PPT課件2.1.3配置虛擬機配置虛擬機SSH免密登錄功能查看秘鑰文件在虛擬機Hadoop1中執(zhí)行“cd/root/.ssh/”命令進入存儲密鑰文件的目錄,在該目錄下執(zhí)行“l(fā)l”命令查看密鑰文件。STEP02密鑰文件本課件是可編輯的正常PPT課件2.1.3配置虛擬機配置虛擬機SSH免密登錄功能復制公鑰文件將虛擬機Hadoop1生成的公鑰文件復制到集群中相關(guān)聯(lián)的所有虛擬機,實現(xiàn)通過虛擬機Hadoop1可以免密登錄虛擬機Hadoop1、Hadoop2和Hadoop3。ssh-copy-idhadoop1ssh-copy-idhadoop2ssh-copy-idhadoop3STEP03復制公鑰文件到虛擬機Hadoop1本課件是可編輯的正常PPT課件2.1.3配置虛擬機配置虛擬機SSH免密登錄功能測試免密登錄在虛擬機Hadoop1中執(zhí)行“sshhadoop2”命令訪問虛擬機Hadoop2,驗證虛擬機Hadoop1是否可以免密登錄虛擬機Hadoop2。STEP04退出虛擬機Hadoop2的訪問本課件是可編輯的正常PPT課件
先定一個小目標!掌握JDK的安裝,能夠在虛擬機中完成JDK的安裝2.1.4安裝JDK本課件是可編輯的正常PPT課件Hadoop的運行依賴于Java環(huán)境,在部署Hadoop集群之前,需要在虛擬機Hadoop1、Hadoop2和Hadoop3安裝JDK。我們使用的Hadoop版本為3.3.0,支持的最低JDK版本是1.8,以JDK1.8為例,演示如何在3臺虛擬機中安裝JDK。2.1.4安裝JDK本課件是可編輯的正常PPT課件創(chuàng)建目錄分別在虛擬機Hadoop1、Hadoop2和Hadoop3的根目錄下創(chuàng)建以下目錄作為約定。STEP01mkdir-p/export/data/mkdir-p/export/servers/mkdir-p/export/software/2.1.4安裝JDK創(chuàng)建存放數(shù)據(jù)的目錄創(chuàng)建存放安裝程序的目錄創(chuàng)建存放安裝包的目錄本課件是可編輯的正常PPT課件上傳JDK安裝包在虛擬機Hadoop1的文件管理器進入/export/software目錄將JDK安裝包上傳。STEP022.1.4安裝JDK查看JDK安裝包是否上傳成功在虛擬機Hadoop1的/export/software目錄執(zhí)行“l(fā)l”命令,查看該目錄包含的內(nèi)容。STEP03JDK安裝包上傳成功!2.1.4安裝JDK本課件是可編輯的正常PPT課件安裝JDK在虛擬機Hadoop1中,以解壓方式安裝JDK,將JDK安裝到/export/servers目錄。STEP04tar-zxvfjdk-8u241-linux-x64.tar.gz-C/export/servers/2.1.4安裝JDK本課件是可編輯的正常PPT課件配置JDK系統(tǒng)環(huán)境變量在虛擬機Hadoop1執(zhí)行“vi/etc/profile”命令編輯環(huán)境變量文件profile,在該文件的底部添加配置JDK系統(tǒng)環(huán)境變量的內(nèi)容。STEP05exportJAVA_HOME=/export/servers/jdk1.8.0_241exportPATH=$PATH:$JAVA_HOME/bin2.1.4安裝JDK初始化系統(tǒng)環(huán)境變量source/etc/profile本課件是可編輯的正常PPT課件驗證JDK是否安裝成功在虛擬機Hadoop1執(zhí)行“java-version”命令查看JDK版本號,驗證當前虛擬機是否成功安裝JDK。STEP06成功在虛擬機Hadoop1中安裝了JDK!2.1.4安裝JDK本課件是可編輯的正常PPT課件分發(fā)JDK安裝目錄通過scp命令將虛擬機Hadoop1的JDK安裝目錄分發(fā)至虛擬機Hadoop2和Hadoop3的/export/servers/目錄。STEP07scp-r/export/servers/jdk1.8.0_241root@hadoop2:/export/servers/scp-r/export/servers/jdk1.8.0_241root@hadoop3:/export/servers/2.1.4安裝JDK向虛擬機Hadoop2分發(fā)JDK安裝目錄向虛擬機Hadoop3分發(fā)JDK安裝目錄本課件是可編輯的正常PPT課件分發(fā)系統(tǒng)環(huán)境變量文件通過scp命令將虛擬機Hadoop1的系統(tǒng)環(huán)境變量文件profile分發(fā)至虛擬機Hadoop2和Hadoop3的/etc目錄。STEP08scp/etc/profileroot@hadoop2:/etcscp/etc/profileroot@hadoop3:/etc2.1.4安裝JDK向虛擬機Hadoop3分發(fā)系統(tǒng)環(huán)境變量文件向虛擬機Hadoop2分發(fā)系統(tǒng)環(huán)境變量文件初始化系統(tǒng)環(huán)境變量source/etc/profile本課件是可編輯的正常PPT課件Hadoop集群部署模式2.2
先定一個小目標!了解Hadoop集群部署模式,能夠描述Hadoop集群的3種部署模式2.2Hadoop集群部署模式本課件是可編輯的正常PPT課件2.2Hadoop集群部署模式獨立模式部署模式獨立模式是一種在單臺計算機的單個JVM進程中模擬Hadoop集群的工作模式,此模式部署的Hadoop通常用于快速安裝體驗Hadoop的功能,并不適用于實際生產(chǎn)環(huán)境。偽分布式模式偽分布式模式是一種在單臺計算機的不同JVM進程中運行Hadoop集群的工作模式,此模式部署的Hadoop通常用于在開發(fā)環(huán)境中進行測試和調(diào)試,并不適用于實際生產(chǎn)環(huán)境。完全分布式模式完全分布式模式是一種在多臺計算機的JVM進程中運行Hadoop集群的工作模式,Hadoop集群的每個守護進程都運行在不同的計算機中,此模式部署的Hadoop通常作為實際生產(chǎn)環(huán)境的基礎。本課件是可編輯的正常PPT課件基于偽分布式模式部署Hadoop2.3
先定一個小目標!熟悉基于偽分布式模式部署Hadoop,能夠在單臺虛擬機完成偽分布式模式部署Hadoop的相關(guān)操作2.3基于偽分布式模式部署Hadoop本課件是可編輯的正常PPT課件2.3基于偽分布式模式部署Hadoop一臺虛擬機便可以滿足基于偽分布式模式部署Hadoop的條件,這對于計算機硬件條件無法滿足創(chuàng)建多臺虛擬機的人來說,是一種不錯的選擇。接下來,以虛擬機Hadoop1為例,演示如何基于偽分布式模式部署Hadoop。本課件是可編輯的正常PPT課件在/export/software目錄執(zhí)行“rz”命令,將本地計算機中準備好的Hadoop安裝包hadoop-3.3.0.tar.gz上傳到虛擬機的/export/software目錄。2.3基于偽分布式模式部署Hadoop1.繼承的概念1.什么是異常1.上傳Hadoop安裝包本課件是可編輯的正常PPT課件在/export/servers目錄創(chuàng)建wfb-hadoop目錄,該目錄用于存放基于偽分布式部署Hadoop的安裝目錄。mkdir-p/export/servers/wfb-hadoop2.3基于偽分布式模式部署Hadoop1.繼承的概念1.什么是異常2.創(chuàng)建目錄本課件是可編輯的正常PPT課件(1)以解壓方式安裝Hadoop,將Hadoop安裝到/export/servers/wfb-hadoop目錄。tar-zxvf/export/software/hadoop-3.3.0.tar.gz-C\/export/servers/wfb-hadoop2.3基于偽分布式模式部署Hadoop1.繼承的概念1.什么是異常3.安裝Hadoop本課件是可編輯的正常PPT課件(2)查看Hadoop安裝目錄中的所有文件。2.3基于偽分布式模式部署Hadoop存放Hadoop最基本的腳本存放管理Hadoop配置文件存放Hadoop的腳本存放Hadoop對外提供編程的動態(tài)庫和靜態(tài)庫存放Hadoop各個模塊編譯后的jar包3.安裝Hadoop本課件是可編輯的正常PPT課件在基于偽分布式部署Hadoop的安裝目錄執(zhí)行“bin/hadoopversion”命令查看Hadoop的版本號,驗證當前虛擬機是否成功安裝Hadoop。2.3基于偽分布式模式部署HadoopHadoop安裝成功1.繼承的概念1.什么是異常4.驗證Hadoop是否安裝成功本課件是可編輯的正常PPT課件Hadoop提供了兩種配置文件:一種是只讀的默認配置文件,另一種是自定義配置文件,以下為Hadoop常用的自定義配置文件。2.3基于偽分布式模式部署Hadoop配置文件功能描述hadoop-env.sh配置Hadoop運行時的環(huán)境,確保HDFS能夠正常運行NameNode、SecondaryNameNode和DataNode服務yarn-env.sh配置YARN運行時的環(huán)境,確保YARN能夠正常運行ResourceManager和NodeManager服務core-site.shHadoop核心配置文件hdfs-site.xmlHDFS核心配置文件mapred-site.xmlMapReduce核心配置文件yarn-site.xmlYARN核心配置文件workers控制從節(jié)點所運行的服務器1.繼承的概念1.什么是異常5.修改Hadoop配置文件本課件是可編輯的正常PPT課件接下來,以自定義配置文件的方式實現(xiàn)基于偽分布式模式部署Hadoop。2.3基于偽分布式模式部署Hadoop本課件是可編輯的正常PPT課件在Hadoop安裝目錄/etc/hadoop/目錄,執(zhí)行“vihadoop-env.sh”命令,在hadoop-env.sh文件的底部添加如下內(nèi)容。2.3基于偽分布式模式部署Hadoop配置Hadoop運行時環(huán)境STEP01exportJAVA_HOME=/export/servers/jdk1.8.0_241exportHDFS_NAMENODE_USER=rootexportHDFS_DATANODE_USER=rootexportHDFS_SECONDARYNAMENODE_USER=rootexportYARN_RESOURCEMANAGER_USER=rootexportYARN_NODEMANAGER_USER=root指定Hadoop使用的JDK指定管理NameNode服務的用戶root指定管理DataNode服務的用戶root指定管理SecondNameNode服務的用戶root指定管理ResourceManager服務的用戶root指定管理NodeManager服務的用戶root本課件是可編輯的正常PPT課件在Hadoop安裝目錄/etc/hadoop/目錄,執(zhí)行“vicore-site.xml”命令,在core-site.xml文件中添加如下內(nèi)容。2.3基于偽分布式模式部署Hadoop配置HadoopSTEP02<property><name>fs.defaultFS</name><value>hdfs://hadoop1:9000</value></property><property><name>hadoop.tmp.dir</name><value>/export/data/hadoop-wfb-3.3.0</value></property><property><name>hadoop.http.staticuser.user</name><value>root</value></property>指定HDFS的通信地址指定Hadoop臨時數(shù)據(jù)的存儲目錄指定通過WebUI訪問HDFS的用戶root本課件是可編輯的正常PPT課件2.3基于偽分布式模式部署Hadoop配置HadoopSTEP02<property><name>xyuser.root.hosts</name><value>*</value></property><property><name>xyuser.root.groups</name><value>*</value></property><property><name>erval</name><value>1440</value></property>允許任何用戶組的root用戶可以向Hadoop提交任務指定HDFS中被刪除文件的存活時長為1440秒允許任何服務器的root用戶可以向Hadoop提交任務本課件是可編輯的正常PPT課件在Hadoop安裝目錄/etc/hadoop/目錄,執(zhí)行“vihdfs-site.xml”命令,在hdfs-site.xml文件中添加如下內(nèi)容。2.3基于偽分布式模式部署Hadoop配置HDFSSTEP03<property><name>dfs.replication</name><value>1</value></property><property><name>node.secondary.http-address</name><value>hadoop1:9868</value></property>指定HDFS的副本數(shù)為1指定SecondaryNameNode服務的通信地址本課件是可編輯的正常PPT課件在Hadoop安裝目錄/etc/hadoop/目錄,執(zhí)行“vimapred-site.xml”命令,在mapred-site.xml文件中添加如下內(nèi)容。2.3基于偽分布式模式部署Hadoop配置MapReduceSTEP04<property><name></name><value>yarn</value></property><property><name>mapreduce.jobhistory.address</name><value>hadoop1:10020</value></property><property><name>mapreduce.jobhistory.webapp.address</name><value>hadoop1:19888</value></property>指定MapReduce任務運行在YARN之上指定MapReduce歷史服務的通信地址指定通過WebUI訪問MapReduce歷史服務的地址本課件是可編輯的正常PPT課件2.3基于偽分布式模式部署Hadoop配置MapReduceSTEP04<property><name>yarn.app.mapreduce.am.env</name><value>HADOOP_MAPRED_HOME=/export/servers/wfb-hadoop/hadoop-3.3.0</value></property><property><name>mapreduce.map.env</name><value>HADOOP_MAPRED_HOME=/export/servers/wfb-hadoop/hadoop-3.3.0</value></property><property><name>mapreduce.reduce.env</name><value>HADOOP_MAPRED_HOME=/export/servers/wfb-hadoop/hadoop-3.3.0</value></property>指定MapReduce任務的運行環(huán)境指定MapReduce任務中Map階段的運行環(huán)境指定MapReduce任務中Reduce階段的運行環(huán)境本課件是可編輯的正常PPT課件在Hadoop安裝目錄/etc/hadoop/目錄,執(zhí)行“viyarn-site.xml”命令,在yarn-site.xml文件中添加如下內(nèi)容。2.3基于偽分布式模式部署Hadoop配置YARNSTEP05<property><name>yarn.resourcemanager.hostname</name><value>hadoop1</value></property><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><property><name>yarn.nodemanager.pmem-check-enabled</name><value>false</value></property>指定ResourceManager服務運行在虛擬機Hadoop1指定NodeManager運行的附屬服務指定是否啟動檢測每個任務使用的物理內(nèi)存本課件是可編輯的正常PPT課件2.3基于偽分布式模式部署Hadoop配置YARNSTEP05<property><name>yarn.nodemanager.vmem-check-enabled</name><value>false</value></property><property><name>yarn.log-aggregation-enable</name><value>true</value></property><property><name>yarn.log.server.url</name><value>http://hadoop1:19888/jobhistory/logs</value></property><property><name>yarn.log-aggregation.retain-seconds</name><value>604800</value></property>指定是否啟動檢測每個任務使用的虛擬內(nèi)存指定是否開啟日志聚合功能指定日志聚合后日志保存的時間指定日志聚合的服務器本課件是可編輯的正常PPT課件2.3基于偽分布式模式部署Hadoop配置workersSTEP05在Hadoop安裝目錄的/etc/hadoop/目錄,執(zhí)行“viworkers”命令,將workers文件默認的內(nèi)容修改為hadoop1。本課件是可編輯的正常PPT課件初次啟動Hadoop之前,需要對HDFS文件系統(tǒng)進行格式化操作之后才能使用,在Hadoop安裝目錄執(zhí)行命令格式化HDFS文件系統(tǒng)。2.3基于偽分布式模式部署HadoopHDFS文件系統(tǒng)格式化成功1.繼承的概念1.什么是異常6.格式化HDFS文件系統(tǒng)bin/hdfsnamenode-format本課件是可編輯的正常PPT課件在Hadoop的安裝目錄執(zhí)行下列命令啟動HDFS和YARN。2.3基于偽分布式模式部署Hadoop1.繼承的概念1.什么是異常7.啟動Hadoopsbin/start-dfs.shsbin/start-yarn.sh關(guān)閉Hadoopsbin/stop-dfs.sh和sbin/stop-yarn.sh啟動HDFS啟動YARN本課件是可編輯的正常PPT課件HDFS和YARN的相關(guān)服務運行在JVM進程中,可以執(zhí)行“jps”命令查看當前虛擬機中運行的JVM進程。2.3基于偽分布式模式部署HadoopHadoop啟動成功1.繼承的概念1.什么是異常8.查看Hadoop運行狀態(tài)本課件是可編輯的正常PPT課件基于完全分布式模式部署Hado
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 【正版授權(quán)】 IEC 61084-2-2:2003 EN-D Cable trunking and ducting systems for electrical installations - Part 2-2: Particular requirements - Cable trunking systems and cable ducting system
- 【正版授權(quán)】 IEC 60896-22:2004 FR-D Stationary lead-acid batteries - Part 22: Valve regulated types - Requirements
- 【正版授權(quán)】 IEC 60730-1:1999+AMD1:2003+AMD2:2007 CSV FR-D Automatic electrical controls for household and similar use - Part 1: General requirements
- 【正版授權(quán)】 IEC 60099-4:1991+AMD1:1998+AMD2:2001 CSV EN-D Surge arresters - Part 4: Metal-oxide surge arresters without gaps for a.c. systems
- 燃氣安全知識教育主題班會
- 幼兒中班工作方案2025年演講稿
- 護理制度無聲踐行有我
- 2025年幼兒園工作方案總結(jié)
- 醫(yī)美行業(yè)如何維護客情
- 2025年學期教學個人工作方案
- 2024年商用密碼應用安全性評估從業(yè)人員考核試題庫-中(多選題)
- 寫字樓商業(yè)樓宇招商租賃制度流程規(guī)范五個案例合集
- 新公司組織架構(gòu)圖及人員設置
- 2024年江蘇省高考化學試題-清晰解析版
- 小學中段 勞動教育-清潔與衛(wèi)生《清洗T恤》教學設計
- 拖拉機駕駛員用工合同
- 2024無孩無共同財產(chǎn)離婚協(xié)議書模板
- 軟件工程智慧樹知到期末考試答案章節(jié)答案2024年天津科技大學
- 膽囊息肉臨床路徑標準住院流程
- 起訴閑魚起訴書
- 醫(yī)院自體輸血管理制度
評論
0/150
提交評論