Chapter2-廈門大學(xué)-林子雨-大數(shù)據(jù)技術(shù)原理與應(yīng)用-第二章-大數(shù)據(jù)處理架構(gòu)Hadoop_第1頁
Chapter2-廈門大學(xué)-林子雨-大數(shù)據(jù)技術(shù)原理與應(yīng)用-第二章-大數(shù)據(jù)處理架構(gòu)Hadoop_第2頁
Chapter2-廈門大學(xué)-林子雨-大數(shù)據(jù)技術(shù)原理與應(yīng)用-第二章-大數(shù)據(jù)處理架構(gòu)Hadoop_第3頁
Chapter2-廈門大學(xué)-林子雨-大數(shù)據(jù)技術(shù)原理與應(yīng)用-第二章-大數(shù)據(jù)處理架構(gòu)Hadoop_第4頁
Chapter2-廈門大學(xué)-林子雨-大數(shù)據(jù)技術(shù)原理與應(yīng)用-第二章-大數(shù)據(jù)處理架構(gòu)Hadoop_第5頁
已閱讀5頁,還剩14頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

廈門大學(xué)計(jì)算機(jī)科學(xué)系2015年版林子雨廈門大學(xué)計(jì)算機(jī)科學(xué)系主頁:

第二章大數(shù)據(jù)處理架構(gòu)Hadoop

〔PPT版本號(hào):2015年6月第1.0版〕《大數(shù)據(jù)技術(shù)原理與應(yīng)用》溫馨提示:編輯幻燈片母版,可以修改每頁P(yáng)PT的廈大?;蘸偷撞课淖痔峋V2.1概述2.2Hadoop工程結(jié)構(gòu)2.3Hadoop的安裝與使用歡送訪問《大數(shù)據(jù)技術(shù)原理與應(yīng)用》教材官方網(wǎng)站:本PPT是如下教材的配套講義:21世紀(jì)高等教育計(jì)算機(jī)規(guī)劃教材《大數(shù)據(jù)技術(shù)原理與應(yīng)用——概念、存儲(chǔ)、處理、分析與應(yīng)用》〔2015年6月第1版〕廈門大學(xué)林子雨編著,人民郵電出版社ISBN:978-7-115-39287-92.1概述2.1.1 Hadoop簡介2.1.2 Hadoop開展簡史2.1.3 Hadoop的特性2.1.4 Hadoop的應(yīng)用現(xiàn)狀2.1.1Hadoop簡介Hadoop是Apache軟件基金會(huì)旗下的一個(gè)開源分布式計(jì)算平臺(tái),為用戶提供了系統(tǒng)底層細(xì)節(jié)透明的分布式根底架構(gòu)Hadoop是基于Java語言開發(fā)的,具有很好的跨平臺(tái)特性,并且可以部署在廉價(jià)的計(jì)算機(jī)集群中Hadoop的核心是分布式文件系統(tǒng)HDFS〔HadoopDistributedFileSystem〕和MapReduceHadoop被公認(rèn)為行業(yè)大數(shù)據(jù)標(biāo)準(zhǔn)開源軟件,在分布式環(huán)境下提供了海量數(shù)據(jù)的處理能力幾乎所有主流廠商都圍繞Hadoop提供開發(fā)工具、開源軟件、商業(yè)化工具和技術(shù)效勞,如谷歌、雅虎、微軟、思科、淘寶等,都支持Hadoop2.1.2Hadoop開展簡史Hadoop最初是由ApacheLucene工程的創(chuàng)始人DougCutting開發(fā)的文本搜索庫。Hadoop源自始于2002年的ApacheNutch工程——一個(gè)開源的網(wǎng)絡(luò)搜索引擎并且也是Lucene工程的一局部在2004年,Nutch工程也模仿GFS開發(fā)了自己的分布式文件系統(tǒng)NDFS〔NutchDistributedFileSystem〕,也就是HDFS的前身2004年,谷歌公司又發(fā)表了另一篇具有深遠(yuǎn)影響的論文,闡述了MapReduce分布式編程思想2005年,Nutch開源實(shí)現(xiàn)了谷歌的MapReduceHadoop的標(biāo)志2.1.2Hadoop開展簡史到了2006年2月,Nutch中的NDFS和MapReduce開始獨(dú)立出來,成為Lucene工程的一個(gè)子工程,稱為Hadoop,同時(shí),DougCutting加盟雅虎2008年1月,Hadoop正式成為Apache頂級(jí)工程,Hadoop也逐漸開始被雅虎之外的其他公司使用2008年4月,Hadoop打破世界紀(jì)錄,成為最快排序1TB數(shù)據(jù)的系統(tǒng),它采用一個(gè)由910個(gè)節(jié)點(diǎn)構(gòu)成的集群進(jìn)行運(yùn)算,排序時(shí)間只用了209秒在2009年5月,Hadoop更是把1TB數(shù)據(jù)排序時(shí)間縮短到62秒。Hadoop從此名聲大震,迅速開展成為大數(shù)據(jù)時(shí)代最具影響力的開源分布式開發(fā)平臺(tái),并成為事實(shí)上的大數(shù)據(jù)處理標(biāo)準(zhǔn)2.1.3Hadoop的特性Hadoop是一個(gè)能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式處理的軟件框架,并且是以一種可靠、高效、可伸縮的方式進(jìn)行處理的,它具有以下幾個(gè)方面的特性:高可靠性高效性高可擴(kuò)展性高容錯(cuò)性本錢低運(yùn)行在Linux平臺(tái)上支持多種編程語言2.1.3Hadoop的應(yīng)用現(xiàn)狀Hadoop憑借其突出的優(yōu)勢,已經(jīng)在各個(gè)領(lǐng)域得到了廣泛的應(yīng)用,而互聯(lián)網(wǎng)領(lǐng)域是其應(yīng)用的主陣地2007年,雅虎在Sunnyvale總部建立了M45——一個(gè)包含了4000個(gè)處理器和1.5PB容量的Hadoop集群系統(tǒng)Facebook作為全球知名的社交網(wǎng)站,Hadoop是非常理想的選擇,F(xiàn)acebook主要將Hadoop平臺(tái)用于日志處理、推薦系統(tǒng)和數(shù)據(jù)倉庫等方面國內(nèi)采用Hadoop的公司主要有百度、淘寶、網(wǎng)易、華為、中國移動(dòng)等,其中,淘寶的Hadoop集群比較大2.2Hadoop工程結(jié)構(gòu)經(jīng)過多年的開展,Hadoop工程不斷完善和成熟,目前已經(jīng)包含多個(gè)子工程〔如圖2-2所示〕除了核心的HDFS和MapReduce以外,Hadoop工程還包括Common、Avro、Zookeeper、HBase、Hive、Chukwa、Pig等子工程,它們提供了互補(bǔ)性效勞或在核心層上提供了更高層的效勞圖2-2Hadoop工程結(jié)構(gòu)圖2.3 Hadoop的安裝與使用Hadoop根本安裝配置主要包括以下幾個(gè)步驟:創(chuàng)立Hadoop用戶Java安裝SSH登錄權(quán)限設(shè)置單機(jī)安裝配置偽分布式安裝配置2.3.1創(chuàng)立Hadoop用戶添加用戶-----useradd刪除用戶-----userdel更改密碼-----passwd在本次實(shí)驗(yàn)中,創(chuàng)立的用戶名為hadoop2.3.2Java安裝使用CentOS自帶的java版本安裝Oracle官方j(luò)ava版本2.3.3SSH登錄權(quán)限配置SSH的原因:Hadoop名稱節(jié)點(diǎn)〔NameNode〕需要啟動(dòng)集群中所有機(jī)器的Hadoop守護(hù)進(jìn)程,這個(gè)過程需要通過SSH登錄來實(shí)現(xiàn)。Hadoop并沒有提供SSH輸入密碼登錄的形式,因此,為了能夠順利登錄每臺(tái)機(jī)器,需要將所有機(jī)器配置為名稱節(jié)點(diǎn)可以無密碼登錄它們。SSH是什么?SSH

SecureShell

的縮寫,是建立在應(yīng)用層和傳輸層根底上的平安協(xié)議。SSH是由客戶端和效勞端的軟件組成,效勞端是一個(gè)守護(hù)進(jìn)程(daemon),他在后臺(tái)運(yùn)行并響應(yīng)來自客戶端的連接請(qǐng)求,客戶端包含ssh程序以及像scp〔遠(yuǎn)程拷貝〕、slogin〔遠(yuǎn)程登陸〕、sftp〔平安文件傳輸〕等其他的應(yīng)用程序。2.3.4安裝單機(jī)HadoopHadoop版本:下載地址:實(shí)驗(yàn)步驟:解壓縮修改hadoop-env.sh查看hadoop版本信息:./hadoopversion運(yùn)行hadoop實(shí)例2.3.5Hadoop偽分布式安裝文件名稱格式描述hadoop-env.shBash腳本記錄配置Hadoop運(yùn)行所需的環(huán)境變量,以運(yùn)行Hadoopcore-site.xmlHadoop配置XMLHadoopcore的配置項(xiàng),例如HDFS和MapReduce常用的I/O設(shè)置等hdfs-site.xmlHadoop配置XMLHadoop的守護(hù)進(jìn)程的配置項(xiàng),包括NameNode、SecondaryNameNode和DataNode等mapred-site.xmlHadoop配置XMLMapReduce守護(hù)進(jìn)程的配置項(xiàng),包括JobTracker和TaskTrackermasters純文本運(yùn)行SecondaryNameNode的機(jī)器列表(每行一個(gè))slaves純文本運(yùn)行DataNode和TaskTracker的機(jī)器列表(每行一個(gè))pertiesJava屬性控制metrics在Hadoop上如何發(fā)布的屬性Hadoop配置文件2.3.5Hadoop偽分布式安裝實(shí)驗(yàn)步驟:修改配置文件:core-site.xml,hdfs-site.xml,mapred-site.xml初始化文件系統(tǒng)hadoopnamenode-format啟動(dòng)所有進(jìn)程start-all.sh訪問web界面,查看Hadoop信息運(yùn)行實(shí)例本章小結(jié)Hadoop被視為事實(shí)上的大數(shù)據(jù)處理標(biāo)準(zhǔn),本章介紹了Hadoop的開展歷程,并闡述了Hadoop的高可靠性、高效性、高可擴(kuò)展性、高容錯(cuò)性、本錢低、運(yùn)行在Linux平臺(tái)上、支持多種編程語言等特性Hadoop目前已經(jīng)在各個(gè)領(lǐng)域得到了廣泛的應(yīng)用,雅虎、Facebook、百度、淘寶、網(wǎng)易等公司都建立了自己的Hadoop集群經(jīng)過多年開展,Hadoop工程已經(jīng)變得非常成熟和完善,包括Common、Avro、Zookeeper、HDFS、MapReduce、HBase、Hive、Chukwa、Pig等子工程,其中,HDFS和MapReduce是Hadoop的兩大核心組件本章最后介紹了如何在Linux系統(tǒng)下完成Hadoop的安裝和配置,這個(gè)局部是后續(xù)章節(jié)實(shí)踐環(huán)節(jié)的根底主講教師和助

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論