大數(shù)據(jù)技術(shù)課件第3章

上傳人：1*** IP屬地：廣東上傳時間：2023-11-08 格式：PPTX 頁數(shù)：23 大?。?35.97KB 積分：15 舉報 版權(quán)申訴

已閱讀5頁，還剩18頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)技術(shù)與應(yīng)用第三章Hadoop分布式系統(tǒng)提綱3.1Hadoop概述3.2Hadoop相關(guān)技術(shù)及生態(tài)系統(tǒng)3.3操作實踐:Hadoop安裝與配置習(xí)題小結(jié)23.1Hadoop概述3.1.1Hadoop簡介Hadoop是一個能夠讓用戶輕松架構(gòu)和使用的分布式計算平臺。它主要有以下幾個優(yōu)點。(1)高可靠性(2)高擴(kuò)展性(3)高效性(4)容錯性33.1Hadoop概述3.1.2Hadoop的發(fā)展歷程hadoop的發(fā)展歷程，如下所示:1.Hadoop最初是由ApacheLucene項目的創(chuàng)始人DougCutting開發(fā)的文本搜索庫。2.在2004年，Nutch項目開發(fā)了NDFS（NutchDistributedFileSystem）,3.2004年，谷歌公司又發(fā)表了論文，闡述了MapReduce分布式編程的思想。4.2005年，Nutch開源實現(xiàn)了谷歌的MapReduce。5.2006年2月，ApacheHadoop項目正式啟動以支持MapReduce和HDFS的獨立發(fā)展。6.2007年4月，雅虎公司實現(xiàn)了包含1000個計算節(jié)點的Hadoop集群。7.2008年，淘寶開始投入研究基于Hadoop的系統(tǒng)——云梯，并將其用于處理電子商務(wù)相關(guān)數(shù)據(jù)。8.2008年1月，Hadoop成為Apache頂級項目，獲得了業(yè)界更為廣泛的關(guān)注。49.2008年2月，雅虎公司宣布其搜索引擎產(chǎn)品部署在一個擁有1萬個內(nèi)核的Hadoop集群上。10.2008年7月，Hadoop打破1TB數(shù)據(jù)排序基準(zhǔn)測試記錄。11.2009年5月，Yahoo的團(tuán)隊使用Hadoop對1TB的數(shù)據(jù)進(jìn)行排序只花了62秒時間。12.2009年7月，HadoopCore項目更名為HadoopCommon；MapReduce和HDFS成為Hadoop項目的獨立子項目；Avro和Chukwa成為hadoop新的子項目。13.2010年5月，Avro數(shù)據(jù)傳輸中間件和HBase數(shù)據(jù)庫從Hadoop項目中脫離出來，成為Apache頂級項目。此外，IBM提供了基于Hadoop的大數(shù)據(jù)分析軟件——InfoSphereBigInsights，包括基礎(chǔ)版和企業(yè)版。14.2010年9月，Hive數(shù)據(jù)倉庫工具和Pig數(shù)據(jù)分析平臺從Hadoop項目中脫離出來，成為Apache頂級項目。15.2011年1月，ZooKeeper脫離Hadoop，成為Apache頂級項目。53.1Hadoop概述16.2011年5月，MaprTechnologies公司推出分布式文件系統(tǒng)和MapReduce引擎——MapRDistributionforApacheHadoop。還有的是，HCatalog1.0發(fā)布,使得數(shù)據(jù)清理和歸檔工具可以很容易的進(jìn)行處理。17.2011年8月，Cloudera公布了一項有益于合作伙伴生態(tài)系統(tǒng)的計劃——創(chuàng)建一個生態(tài)系統(tǒng)，以便硬件供應(yīng)商、軟件供應(yīng)商以及系統(tǒng)集成商可以一起探索如何使用Hadoop更好的洞察數(shù)據(jù)。18.2011年12月，Hadoop1.0.0版本發(fā)布，標(biāo)志著Hadoop技術(shù)進(jìn)入成熟期。19.2012年5月，Hadoop發(fā)布2.0Alpha版本，對MapReduce、HDFS等部分進(jìn)行了重大改進(jìn)，標(biāo)志著Hadoop技術(shù)進(jìn)入一個新的發(fā)展階段。20.2013年8月，Hadoop1.2.1穩(wěn)定版發(fā)布。63.1Hadoop概述3.1Hadoop概述3.1.3Hadoop原理及運行機(jī)制 Hadoop的核心由3個子項目組成:HadoopCommonHDFSMapReduce73.1Hadoop概述1.HDFS組件

HDFS（HadoopDistributedFileSystem）是一種專門為MapReduce這類框架下的大規(guī)模分布式數(shù)據(jù)處理而設(shè)計的文件系統(tǒng)。HDFS的組件主要有：NameNode、SecondaryNameNode以及DataNode。

1）NameNode

NameNode，即元數(shù)據(jù)節(jié)點。元數(shù)據(jù)節(jié)點用來管理文件系統(tǒng)的命名空間。它將所有文件和文件夾的元數(shù)據(jù)保存在一個文件系統(tǒng)樹當(dāng)中。這些信息也會存儲在NameNode維護(hù)的兩個本地磁盤文件：命名空間鏡像文件（namespaceimage）和編輯日志文件（editlog）。NameNode還保存了一個文件包括哪些數(shù)據(jù)塊，分布在哪些數(shù)據(jù)節(jié)點上。然而這些信息并不存儲在硬盤上，而是在系統(tǒng)啟動的時候從數(shù)據(jù)節(jié)點收集而成的。83.1Hadoop概述2）SecondaryNameNode

SecondaryNameNode，即從元數(shù)據(jù)節(jié)點。在Hadoop集

群環(huán)境上，只有一個NameNode節(jié)點。那么，一旦NameNode節(jié)

點出現(xiàn)故障，整個系統(tǒng)將會受到影響。為了提高NameNode的可靠性，從Hadoop0.23開始引入了SecondaryNameNode。

但是，SecondaryNameNode并不是NameNode出現(xiàn)問題的時候的備用節(jié)點，它和NameNode負(fù)責(zé)不同的事情。 SecondaryNameNode的主要功能就是周期性將元數(shù)據(jù)節(jié)點命名空間的鏡像文件和修改日志文件合并，以防日志文件過大。合并過后的命名空間鏡像文件也在SecondaryNameNode保存了一份，以防元數(shù)據(jù)節(jié)點出現(xiàn)故障的時候，可以恢復(fù)。93）DataNode

DataNode，即數(shù)據(jù)節(jié)點。DataNode是文件系統(tǒng)中真正存儲數(shù)據(jù)的地方，是HDFS文件系統(tǒng)中保存數(shù)據(jù)的節(jié)點。HDFS中的文件通常被分割成多個數(shù)據(jù)塊，以冗余備份的形式存儲在多個DataNode中。客戶端（client）或者元數(shù)據(jù)信息（NameNode）可以向數(shù)據(jù)節(jié)點請求寫入或者讀出數(shù)據(jù)塊。而DataNode周期性地向NameNode回報其存儲的數(shù)據(jù)塊信息。2.MapReduce組件 MapReduce也采用了

Master/Slave（M/S）架構(gòu)。它主要由以

下幾個組件組成：JobClient、JobTracker、TaskTracker和

Task。下面分別對這幾個組件進(jìn)行介紹：1)JobClient

用戶編寫的MapReduce程序通過JobClient提交到JobTracker端

；同

時，用戶可通過Client提供的一些接口查看作業(yè)運行狀態(tài)。在 Hadoop內(nèi)部用“作業(yè)”（Job）表示 MapReduce程序。一個 MapReduce程序可對應(yīng)若干個作業(yè)，而每個作業(yè)會被分解成若干個 Map/Reduce任務(wù)（Task）。102)JobTracker

JobTracker主要負(fù)責(zé)MapReduce的資源監(jiān)控和作業(yè)調(diào)度。JobTracker 監(jiān)控所TaskTracker與作業(yè)的健康狀況，一旦發(fā)現(xiàn)失敗情況后，其會

將相應(yīng)的任務(wù)轉(zhuǎn)移到其他節(jié)點；同時，JobTracker

會跟蹤任務(wù)的執(zhí)行

進(jìn)度、資源使用量等信息，并將這些信息告訴任務(wù)調(diào)度器，而調(diào)度器

會在資源出現(xiàn)空閑時，選擇合適的任務(wù)使用這些資源。在Hadoop中，

任務(wù)調(diào)度器是一個可插拔的模塊，用戶可以根據(jù)自己的需要設(shè)計相應(yīng)

的調(diào)度器。每一個Hadoop集群中只有一個JobTracker。113)TaskTracker

TaskTracker主要負(fù)責(zé)執(zhí)行由JobTracker分配的任務(wù)。

TaskTracker會周期性地通過Heartbeat將本節(jié)點上資源的使用情況和任務(wù)的運行進(jìn)度匯報給JobTracker，同時接收J(rèn)obTracker發(fā)送過來的命令并執(zhí)行相應(yīng)的操作（如啟動新任務(wù)、殺死任務(wù)等）。4)TaskTask分為MapTask和ReduceTask兩種，均由TaskTracker啟動，負(fù)責(zé)具體地執(zhí)行Map任務(wù)和Reduce任務(wù)的程序。12提綱3.1Hadoop概述3.2Hadoop相關(guān)技術(shù)及生態(tài)系統(tǒng)3.3操作實踐:Hadoop安裝與配置習(xí)題小結(jié)133.2Hadoop相關(guān)技術(shù)及生態(tài)系統(tǒng)Hadoop生態(tài)系統(tǒng)主要包括HDFS、MapReduce、Spark、Storm、HBase、Hive、Pig、ZooKeeper、Avro、Sqoop、Ambari、HCatalog、Chukwa、Flume、Tez、Phoenix、Mahout、Shark等Hadoop生態(tài)系統(tǒng)如下圖所示：14Hadoop開源技術(shù)生態(tài)系統(tǒng)Hadoop開源技術(shù)生態(tài)系統(tǒng)提綱3.1Hadoop概述3.2Hadoop相關(guān)技術(shù)及生態(tài)系統(tǒng)3.3操作實踐:Hadoop安裝與配置習(xí)題小結(jié)153.3操作實踐:Hadoop安裝與配置3.3.1JDK安裝下載jdk-8u131-linux-x64.tar.gz解壓包到/opt設(shè)置環(huán)境變量使配置環(huán)境變量生效驗證Java安裝是否成功16Hadoop開源技術(shù)生態(tài)系統(tǒng)3.3操作實踐:Hadoop安裝與配置3.3.2Hadoop安裝下載hadoop-2.7.3.tar.gz

解壓修改hadoopenv.sh文件修改coresite.xml文件修改hdfssite.xml文件修改hdfssite.xml文件修改hdfssite.xml文件修改Slaves文件修改文件屬性復(fù)制Hadoop到其他節(jié)點17Hadoop開源技術(shù)生態(tài)系統(tǒng)3.3操作實踐:Hadoop安裝與配置3.3.3Hadoop運行Namenode格式化

啟動DFS

啟動YARN

啟動HistoryServer

查看進(jìn)程18Hadoop開源技術(shù)生態(tài)系統(tǒng)3.3操作實踐:Hadoop安裝與配置

3.3.4瀏覽Hadoop頁面瀏覽http://master:50070頁面,查看集群信息和Datenode相關(guān)信息

瀏覽http://master:50090頁面,查看SecondaryNamenode相關(guān)信息瀏覽http://master:8088頁面,查看集群相關(guān)信息和配置信息19Hadoop開源技術(shù)生態(tài)系統(tǒng)提綱3.1Hadoop概述3.2Hadoop相關(guān)技術(shù)及生態(tài)系統(tǒng)3.3操作實踐:Hadoop安裝與配置習(xí)題小結(jié)20習(xí)題1、簡述Hadoop系統(tǒng)及其優(yōu)點。2、簡述Hadoop原理及運行機(jī)制。3、簡述Hadoop技術(shù)生態(tài)系統(tǒng)。4、學(xué)會JDK的安裝和配置。5、掌握Hadoop的安裝和配置。注：答案請參見《習(xí)題答案》21提綱3.1Hadoop概述3.2Hadoop

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

大數(shù)據(jù)技術(shù)課件第3章

文檔簡介

溫馨提示

最新文檔

評論

大數(shù)據(jù)技術(shù)課件第3章

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔