大數(shù)據(jù)技術(shù)課件第3章_第1頁
大數(shù)據(jù)技術(shù)課件第3章_第2頁
大數(shù)據(jù)技術(shù)課件第3章_第3頁
大數(shù)據(jù)技術(shù)課件第3章_第4頁
大數(shù)據(jù)技術(shù)課件第3章_第5頁
已閱讀5頁,還剩18頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)技術(shù)與應(yīng)用第三章Hadoop分布式系統(tǒng)提綱3.1Hadoop概述3.2Hadoop相關(guān)技術(shù)及生態(tài)系統(tǒng)3.3操作實踐:Hadoop安裝與配置習(xí)題小結(jié)23.1Hadoop概述3.1.1Hadoop簡介Hadoop是一個能夠讓用戶輕松架構(gòu)和使用的分布式計算平臺。它主要有以下幾個優(yōu)點。(1)高可靠性(2)高擴(kuò)展性(3)高效性(4)容錯性33.1Hadoop概述3.1.2Hadoop的發(fā)展歷程hadoop的發(fā)展歷程,如下所示:1.Hadoop最初是由ApacheLucene項目的創(chuàng)始人DougCutting開發(fā)的文本搜索庫。2.在2004年,Nutch項目開發(fā)了NDFS(NutchDistributedFileSystem),3.2004年,谷歌公司又發(fā)表了論文,闡述了MapReduce分布式編程的思想。4.2005年,Nutch開源實現(xiàn)了谷歌的MapReduce。5.2006年2月,ApacheHadoop項目正式啟動以支持MapReduce和HDFS的獨立發(fā)展。6.2007年4月,雅虎公司實現(xiàn)了包含1000個計算節(jié)點的Hadoop集群。7.2008年,淘寶開始投入研究基于Hadoop的系統(tǒng)——云梯,并將其用于處理電子商務(wù)相關(guān)數(shù)據(jù)。8.2008年1月,Hadoop成為Apache頂級項目,獲得了業(yè)界更為廣泛的關(guān)注。49.2008年2月,雅虎公司宣布其搜索引擎產(chǎn)品部署在一個擁有1萬個內(nèi)核的Hadoop集群上。10.2008年7月,Hadoop打破1TB數(shù)據(jù)排序基準(zhǔn)測試記錄。11.2009年5月,Yahoo的團(tuán)隊使用Hadoop對1TB的數(shù)據(jù)進(jìn)行排序只花了62秒時間。12.2009年7月,HadoopCore項目更名為HadoopCommon;MapReduce和HDFS成為Hadoop項目的獨立子項目;Avro和Chukwa成為hadoop新的子項目。13.2010年5月,Avro數(shù)據(jù)傳輸中間件和HBase數(shù)據(jù)庫從Hadoop項目中脫離出來,成為Apache頂級項目。此外,IBM提供了基于Hadoop的大數(shù)據(jù)分析軟件——InfoSphereBigInsights,包括基礎(chǔ)版和企業(yè)版。14.2010年9月,Hive數(shù)據(jù)倉庫工具和Pig數(shù)據(jù)分析平臺從Hadoop項目中脫離出來,成為Apache頂級項目。15.2011年1月,ZooKeeper脫離Hadoop,成為Apache頂級項目。53.1Hadoop概述16.2011年5月,MaprTechnologies公司推出分布式文件系統(tǒng)和MapReduce引擎——MapRDistributionforApacheHadoop。還有的是,HCatalog1.0發(fā)布,使得數(shù)據(jù)清理和歸檔工具可以很容易的進(jìn)行處理。17.2011年8月,Cloudera公布了一項有益于合作伙伴生態(tài)系統(tǒng)的計劃——創(chuàng)建一個生態(tài)系統(tǒng),以便硬件供應(yīng)商、軟件供應(yīng)商以及系統(tǒng)集成商可以一起探索如何使用Hadoop更好的洞察數(shù)據(jù)。18.2011年12月,Hadoop1.0.0版本發(fā)布,標(biāo)志著Hadoop技術(shù)進(jìn)入成熟期。19.2012年5月,Hadoop發(fā)布2.0Alpha版本,對MapReduce、HDFS等部分進(jìn)行了重大改進(jìn),標(biāo)志著Hadoop技術(shù)進(jìn)入一個新的發(fā)展階段。20.2013年8月,Hadoop1.2.1穩(wěn)定版發(fā)布。63.1Hadoop概述3.1Hadoop概述3.1.3Hadoop原理及運行機(jī)制 Hadoop的核心由3個子項目組成:HadoopCommonHDFSMapReduce73.1Hadoop概述1.HDFS組件

HDFS(HadoopDistributedFileSystem)是一種專門為MapReduce這類框架下的大規(guī)模分布式數(shù)據(jù)處理而設(shè)計的文件系統(tǒng)。HDFS的組件主要有:NameNode、SecondaryNameNode以及DataNode。

1)NameNode

NameNode,即元數(shù)據(jù)節(jié)點。元數(shù)據(jù)節(jié)點用來管理文件系統(tǒng)的命名空間。它將所有文件和文件夾的元數(shù)據(jù)保存在一個文件系統(tǒng)樹當(dāng)中。這些信息也會存儲在NameNode維護(hù)的兩個本地磁盤文件:命名空間鏡像文件(namespaceimage)和編輯日志文件(editlog)。NameNode還保存了一個文件包括哪些數(shù)據(jù)塊,分布在哪些數(shù)據(jù)節(jié)點上。然而這些信息并不存儲在硬盤上,而是在系統(tǒng)啟動的時候從數(shù)據(jù)節(jié)點收集而成的。83.1Hadoop概述2)SecondaryNameNode

SecondaryNameNode,即從元數(shù)據(jù)節(jié)點。在Hadoop集

群環(huán)境上,只有一個NameNode節(jié)點。那么,一旦NameNode節(jié)

點出現(xiàn)故障,整個系統(tǒng)將會受到影響。為了提高NameNode的可靠性,從Hadoop0.23開始引入了SecondaryNameNode。

但是,SecondaryNameNode并不是NameNode出現(xiàn)問題的時候的備用節(jié)點,它和NameNode負(fù)責(zé)不同的事情。 SecondaryNameNode的主要功能就是周期性將元數(shù)據(jù)節(jié)點命名空間的鏡像文件和修改日志文件合并,以防日志文件過大。合并過后的命名空間鏡像文件也在SecondaryNameNode保存了一份,以防元數(shù)據(jù)節(jié)點出現(xiàn)故障的時候,可以恢復(fù)。93)DataNode

DataNode,即數(shù)據(jù)節(jié)點。DataNode是文件系統(tǒng)中真正存儲數(shù)據(jù)的地方,是HDFS文件系統(tǒng)中保存數(shù)據(jù)的節(jié)點。HDFS中的文件通常被分割成多個數(shù)據(jù)塊,以冗余備份的形式存儲在多個DataNode中。客戶端(client)或者元數(shù)據(jù)信息(NameNode)可以向數(shù)據(jù)節(jié)點請求寫入或者讀出數(shù)據(jù)塊。而DataNode周期性地向NameNode回報其存儲的數(shù)據(jù)塊信息。2.MapReduce組件 MapReduce也采用了

Master/Slave(M/S)架構(gòu)。它主要由以

下幾個組件組成:JobClient、JobTracker、TaskTracker和

Task。下面分別對這幾個組件進(jìn)行介紹:1)JobClient

用戶編寫的MapReduce程序通過JobClient提交到JobTracker端

;同

時,用戶可通過Client提供的一些接口查看作業(yè)運行狀態(tài)。在 Hadoop內(nèi)部用“作業(yè)”(Job)表示 MapReduce程序。一個 MapReduce程序可對應(yīng)若干個作業(yè),而每個作業(yè)會被分解成若干個 Map/Reduce任務(wù)(Task)。102)JobTracker

JobTracker主要負(fù)責(zé)MapReduce的資源監(jiān)控和作業(yè)調(diào)度。JobTracker 監(jiān)控所TaskTracker與作業(yè)的健康狀況,一旦發(fā)現(xiàn)失敗情況后,其會

將相應(yīng)的任務(wù)轉(zhuǎn)移到其他節(jié)點;同時,JobTracker

會跟蹤任務(wù)的執(zhí)行

進(jìn)度、資源使用量等信息,并將這些信息告訴任務(wù)調(diào)度器,而調(diào)度器

會在資源出現(xiàn)空閑時,選擇合適的任務(wù)使用這些資源。在Hadoop中,

任務(wù)調(diào)度器是一個可插拔的模塊,用戶可以根據(jù)自己的需要設(shè)計相應(yīng)

的調(diào)度器。每一個Hadoop集群中只有一個JobTracker。113)TaskTracker

TaskTracker主要負(fù)責(zé)執(zhí)行由JobTracker分配的任務(wù)。

TaskTracker會周期性地通過Heartbeat將本節(jié)點上資源的使用情況和任務(wù)的運行進(jìn)度匯報給JobTracker,同時接收J(rèn)obTracker發(fā)送過來的命令并執(zhí)行相應(yīng)的操作(如啟動新任務(wù)、殺死任務(wù)等)。4)TaskTask分為MapTask和ReduceTask兩種,均由TaskTracker啟動,負(fù)責(zé)具體地執(zhí)行Map任務(wù)和Reduce任務(wù)的程序。12提綱3.1Hadoop概述3.2Hadoop相關(guān)技術(shù)及生態(tài)系統(tǒng)3.3操作實踐:Hadoop安裝與配置習(xí)題小結(jié)133.2Hadoop相關(guān)技術(shù)及生態(tài)系統(tǒng)Hadoop生態(tài)系統(tǒng)主要包括HDFS、MapReduce、Spark、Storm、HBase、Hive、Pig、ZooKeeper、Avro、Sqoop、Ambari、HCatalog、Chukwa、Flume、Tez、Phoenix、Mahout、Shark等Hadoop生態(tài)系統(tǒng)如下圖所示:14Hadoop開源技術(shù)生態(tài)系統(tǒng)Hadoop開源技術(shù)生態(tài)系統(tǒng)提綱3.1Hadoop概述3.2Hadoop相關(guān)技術(shù)及生態(tài)系統(tǒng)3.3操作實踐:Hadoop安裝與配置習(xí)題小結(jié)153.3操作實踐:Hadoop安裝與配置3.3.1JDK安裝下載jdk-8u131-linux-x64.tar.gz解壓包到/opt設(shè)置環(huán)境變量使配置環(huán)境變量生效驗證Java安裝是否成功16Hadoop開源技術(shù)生態(tài)系統(tǒng)3.3操作實踐:Hadoop安裝與配置3.3.2Hadoop安裝下載hadoop-2.7.3.tar.gz

解壓修改hadoopenv.sh文件修改coresite.xml文件修改hdfssite.xml文件修改hdfssite.xml文件修改hdfssite.xml文件修改Slaves文件修改文件屬性復(fù)制Hadoop到其他節(jié)點17Hadoop開源技術(shù)生態(tài)系統(tǒng)3.3操作實踐:Hadoop安裝與配置3.3.3Hadoop運行Namenode格式化

啟動DFS

啟動YARN

啟動HistoryServer

查看進(jìn)程18Hadoop開源技術(shù)生態(tài)系統(tǒng)3.3操作實踐:Hadoop安裝與配置

3.3.4瀏覽Hadoop頁面瀏覽http://master:50070頁面,查看集群信息和Datenode相關(guān)信息

瀏覽http://master:50090頁面,查看SecondaryNamenode相關(guān)信息瀏覽http://master:8088頁面,查看集群相關(guān)信息和配置信息19Hadoop開源技術(shù)生態(tài)系統(tǒng)提綱3.1Hadoop概述3.2Hadoop相關(guān)技術(shù)及生態(tài)系統(tǒng)3.3操作實踐:Hadoop安裝與配置習(xí)題小結(jié)20習(xí)題1、簡述Hadoop系統(tǒng)及其優(yōu)點。2、簡述Hadoop原理及運行機(jī)制。3、簡述Hadoop技術(shù)生態(tài)系統(tǒng)。4、學(xué)會JDK的安裝和配置。5、掌握Hadoop的安裝和配置。注:答案請參見《習(xí)題答案》21提綱3.1Hadoop概述3.2Hadoop

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論