版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
大數(shù)據(jù)技術(shù)與應(yīng)用第三章Hadoop分布式系統(tǒng)提綱3.1Hadoop概述3.2Hadoop相關(guān)技術(shù)及生態(tài)系統(tǒng)3.3操作實踐:Hadoop安裝與配置習(xí)題小結(jié)23.1Hadoop概述3.1.1Hadoop簡介Hadoop是一個能夠讓用戶輕松架構(gòu)和使用的分布式計算平臺。它主要有以下幾個優(yōu)點。(1)高可靠性(2)高擴(kuò)展性(3)高效性(4)容錯性33.1Hadoop概述3.1.2Hadoop的發(fā)展歷程hadoop的發(fā)展歷程,如下所示:1.Hadoop最初是由ApacheLucene項目的創(chuàng)始人DougCutting開發(fā)的文本搜索庫。2.在2004年,Nutch項目開發(fā)了NDFS(NutchDistributedFileSystem),3.2004年,谷歌公司又發(fā)表了論文,闡述了MapReduce分布式編程的思想。4.2005年,Nutch開源實現(xiàn)了谷歌的MapReduce。5.2006年2月,ApacheHadoop項目正式啟動以支持MapReduce和HDFS的獨立發(fā)展。6.2007年4月,雅虎公司實現(xiàn)了包含1000個計算節(jié)點的Hadoop集群。7.2008年,淘寶開始投入研究基于Hadoop的系統(tǒng)——云梯,并將其用于處理電子商務(wù)相關(guān)數(shù)據(jù)。8.2008年1月,Hadoop成為Apache頂級項目,獲得了業(yè)界更為廣泛的關(guān)注。49.2008年2月,雅虎公司宣布其搜索引擎產(chǎn)品部署在一個擁有1萬個內(nèi)核的Hadoop集群上。10.2008年7月,Hadoop打破1TB數(shù)據(jù)排序基準(zhǔn)測試記錄。11.2009年5月,Yahoo的團(tuán)隊使用Hadoop對1TB的數(shù)據(jù)進(jìn)行排序只花了62秒時間。12.2009年7月,HadoopCore項目更名為HadoopCommon;MapReduce和HDFS成為Hadoop項目的獨立子項目;Avro和Chukwa成為hadoop新的子項目。13.2010年5月,Avro數(shù)據(jù)傳輸中間件和HBase數(shù)據(jù)庫從Hadoop項目中脫離出來,成為Apache頂級項目。此外,IBM提供了基于Hadoop的大數(shù)據(jù)分析軟件——InfoSphereBigInsights,包括基礎(chǔ)版和企業(yè)版。14.2010年9月,Hive數(shù)據(jù)倉庫工具和Pig數(shù)據(jù)分析平臺從Hadoop項目中脫離出來,成為Apache頂級項目。15.2011年1月,ZooKeeper脫離Hadoop,成為Apache頂級項目。53.1Hadoop概述16.2011年5月,MaprTechnologies公司推出分布式文件系統(tǒng)和MapReduce引擎——MapRDistributionforApacheHadoop。還有的是,HCatalog1.0發(fā)布,使得數(shù)據(jù)清理和歸檔工具可以很容易的進(jìn)行處理。17.2011年8月,Cloudera公布了一項有益于合作伙伴生態(tài)系統(tǒng)的計劃——創(chuàng)建一個生態(tài)系統(tǒng),以便硬件供應(yīng)商、軟件供應(yīng)商以及系統(tǒng)集成商可以一起探索如何使用Hadoop更好的洞察數(shù)據(jù)。18.2011年12月,Hadoop1.0.0版本發(fā)布,標(biāo)志著Hadoop技術(shù)進(jìn)入成熟期。19.2012年5月,Hadoop發(fā)布2.0Alpha版本,對MapReduce、HDFS等部分進(jìn)行了重大改進(jìn),標(biāo)志著Hadoop技術(shù)進(jìn)入一個新的發(fā)展階段。20.2013年8月,Hadoop1.2.1穩(wěn)定版發(fā)布。63.1Hadoop概述3.1Hadoop概述3.1.3Hadoop原理及運行機(jī)制 Hadoop的核心由3個子項目組成:HadoopCommonHDFSMapReduce73.1Hadoop概述1.HDFS組件
HDFS(HadoopDistributedFileSystem)是一種專門為MapReduce這類框架下的大規(guī)模分布式數(shù)據(jù)處理而設(shè)計的文件系統(tǒng)。HDFS的組件主要有:NameNode、SecondaryNameNode以及DataNode。
1)NameNode
NameNode,即元數(shù)據(jù)節(jié)點。元數(shù)據(jù)節(jié)點用來管理文件系統(tǒng)的命名空間。它將所有文件和文件夾的元數(shù)據(jù)保存在一個文件系統(tǒng)樹當(dāng)中。這些信息也會存儲在NameNode維護(hù)的兩個本地磁盤文件:命名空間鏡像文件(namespaceimage)和編輯日志文件(editlog)。NameNode還保存了一個文件包括哪些數(shù)據(jù)塊,分布在哪些數(shù)據(jù)節(jié)點上。然而這些信息并不存儲在硬盤上,而是在系統(tǒng)啟動的時候從數(shù)據(jù)節(jié)點收集而成的。83.1Hadoop概述2)SecondaryNameNode
SecondaryNameNode,即從元數(shù)據(jù)節(jié)點。在Hadoop集
群環(huán)境上,只有一個NameNode節(jié)點。那么,一旦NameNode節(jié)
點出現(xiàn)故障,整個系統(tǒng)將會受到影響。為了提高NameNode的可靠性,從Hadoop0.23開始引入了SecondaryNameNode。
但是,SecondaryNameNode并不是NameNode出現(xiàn)問題的時候的備用節(jié)點,它和NameNode負(fù)責(zé)不同的事情。 SecondaryNameNode的主要功能就是周期性將元數(shù)據(jù)節(jié)點命名空間的鏡像文件和修改日志文件合并,以防日志文件過大。合并過后的命名空間鏡像文件也在SecondaryNameNode保存了一份,以防元數(shù)據(jù)節(jié)點出現(xiàn)故障的時候,可以恢復(fù)。93)DataNode
DataNode,即數(shù)據(jù)節(jié)點。DataNode是文件系統(tǒng)中真正存儲數(shù)據(jù)的地方,是HDFS文件系統(tǒng)中保存數(shù)據(jù)的節(jié)點。HDFS中的文件通常被分割成多個數(shù)據(jù)塊,以冗余備份的形式存儲在多個DataNode中。客戶端(client)或者元數(shù)據(jù)信息(NameNode)可以向數(shù)據(jù)節(jié)點請求寫入或者讀出數(shù)據(jù)塊。而DataNode周期性地向NameNode回報其存儲的數(shù)據(jù)塊信息。2.MapReduce組件 MapReduce也采用了
Master/Slave(M/S)架構(gòu)。它主要由以
下幾個組件組成:JobClient、JobTracker、TaskTracker和
Task。下面分別對這幾個組件進(jìn)行介紹:1)JobClient
用戶編寫的MapReduce程序通過JobClient提交到JobTracker端
;同
時,用戶可通過Client提供的一些接口查看作業(yè)運行狀態(tài)。在 Hadoop內(nèi)部用“作業(yè)”(Job)表示 MapReduce程序。一個 MapReduce程序可對應(yīng)若干個作業(yè),而每個作業(yè)會被分解成若干個 Map/Reduce任務(wù)(Task)。102)JobTracker
JobTracker主要負(fù)責(zé)MapReduce的資源監(jiān)控和作業(yè)調(diào)度。JobTracker 監(jiān)控所TaskTracker與作業(yè)的健康狀況,一旦發(fā)現(xiàn)失敗情況后,其會
將相應(yīng)的任務(wù)轉(zhuǎn)移到其他節(jié)點;同時,JobTracker
會跟蹤任務(wù)的執(zhí)行
進(jìn)度、資源使用量等信息,并將這些信息告訴任務(wù)調(diào)度器,而調(diào)度器
會在資源出現(xiàn)空閑時,選擇合適的任務(wù)使用這些資源。在Hadoop中,
任務(wù)調(diào)度器是一個可插拔的模塊,用戶可以根據(jù)自己的需要設(shè)計相應(yīng)
的調(diào)度器。每一個Hadoop集群中只有一個JobTracker。113)TaskTracker
TaskTracker主要負(fù)責(zé)執(zhí)行由JobTracker分配的任務(wù)。
TaskTracker會周期性地通過Heartbeat將本節(jié)點上資源的使用情況和任務(wù)的運行進(jìn)度匯報給JobTracker,同時接收J(rèn)obTracker發(fā)送過來的命令并執(zhí)行相應(yīng)的操作(如啟動新任務(wù)、殺死任務(wù)等)。4)TaskTask分為MapTask和ReduceTask兩種,均由TaskTracker啟動,負(fù)責(zé)具體地執(zhí)行Map任務(wù)和Reduce任務(wù)的程序。12提綱3.1Hadoop概述3.2Hadoop相關(guān)技術(shù)及生態(tài)系統(tǒng)3.3操作實踐:Hadoop安裝與配置習(xí)題小結(jié)133.2Hadoop相關(guān)技術(shù)及生態(tài)系統(tǒng)Hadoop生態(tài)系統(tǒng)主要包括HDFS、MapReduce、Spark、Storm、HBase、Hive、Pig、ZooKeeper、Avro、Sqoop、Ambari、HCatalog、Chukwa、Flume、Tez、Phoenix、Mahout、Shark等Hadoop生態(tài)系統(tǒng)如下圖所示:14Hadoop開源技術(shù)生態(tài)系統(tǒng)Hadoop開源技術(shù)生態(tài)系統(tǒng)提綱3.1Hadoop概述3.2Hadoop相關(guān)技術(shù)及生態(tài)系統(tǒng)3.3操作實踐:Hadoop安裝與配置習(xí)題小結(jié)153.3操作實踐:Hadoop安裝與配置3.3.1JDK安裝下載jdk-8u131-linux-x64.tar.gz解壓包到/opt設(shè)置環(huán)境變量使配置環(huán)境變量生效驗證Java安裝是否成功16Hadoop開源技術(shù)生態(tài)系統(tǒng)3.3操作實踐:Hadoop安裝與配置3.3.2Hadoop安裝下載hadoop-2.7.3.tar.gz
解壓修改hadoopenv.sh文件修改coresite.xml文件修改hdfssite.xml文件修改hdfssite.xml文件修改hdfssite.xml文件修改Slaves文件修改文件屬性復(fù)制Hadoop到其他節(jié)點17Hadoop開源技術(shù)生態(tài)系統(tǒng)3.3操作實踐:Hadoop安裝與配置3.3.3Hadoop運行Namenode格式化
啟動DFS
啟動YARN
啟動HistoryServer
查看進(jìn)程18Hadoop開源技術(shù)生態(tài)系統(tǒng)3.3操作實踐:Hadoop安裝與配置
3.3.4瀏覽Hadoop頁面瀏覽http://master:50070頁面,查看集群信息和Datenode相關(guān)信息
瀏覽http://master:50090頁面,查看SecondaryNamenode相關(guān)信息瀏覽http://master:8088頁面,查看集群相關(guān)信息和配置信息19Hadoop開源技術(shù)生態(tài)系統(tǒng)提綱3.1Hadoop概述3.2Hadoop相關(guān)技術(shù)及生態(tài)系統(tǒng)3.3操作實踐:Hadoop安裝與配置習(xí)題小結(jié)20習(xí)題1、簡述Hadoop系統(tǒng)及其優(yōu)點。2、簡述Hadoop原理及運行機(jī)制。3、簡述Hadoop技術(shù)生態(tài)系統(tǒng)。4、學(xué)會JDK的安裝和配置。5、掌握Hadoop的安裝和配置。注:答案請參見《習(xí)題答案》21提綱3.1Hadoop概述3.2Hadoop
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年度房地產(chǎn)開發(fā)與銷售合同
- 居間合作協(xié)議書
- 電腦公司采購合同(3篇)
- 門市出租合同書(26篇)
- 學(xué)校生肉采購合同模板
- 家裝水電質(zhì)保合同范例
- 儲氣罐轉(zhuǎn)讓合同范例
- 變更地址合同模板
- 學(xué)校打井工程合同范例
- 上海擇校合同范例
- 9-2 《第三方過程評估淋蓄水檢查內(nèi)容》(指引)
- 部編版七年級初一語文上冊《狼》公開課課件(定稿)
- 2015路面工程講義(墊層+底基層+基層+面層+聯(lián)合層+封層、透層與黏層)
- 信息安全保密控制措施資料
- 《現(xiàn)代漢語修辭》PPT課件(完整版)
- TTJCA 0007-2022 住宅室內(nèi)裝飾裝修工程施工驗收規(guī)范
- 構(gòu)造柱工程施工技術(shù)交底
- 讀《學(xué)校與社會明日之學(xué)?!酚懈?/a>
- 醫(yī)院科室質(zhì)量與安全管理小組工作記錄本目錄
- 300字方格紙模板
- 草訣百韻歌原文及解釋
評論
0/150
提交評論