版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、精品好資料學(xué)習(xí)推薦Hadoop版本的關(guān)鍵特性調(diào)研報高Apache HadoopApache版本衍化Apache Hadoop版本分為兩代,我們將第一代Hadoop稱為Hadoop 1.0,第二代Hadoop稱為Hadoop 2.0。第一代Hadoop包含三個大版本,分別是0.20.x,0.21.x和0.22.x,其中,0.20.x最后演化成1.0.x,變成了穩(wěn)定版,而0.21.x和0.22.x則NameNode HA等新的重大特性。第二代Hadoop包含兩個版本,分別是0.23.x和2.x,它們完全不同于Hadoop 1.0,是一套全新的架構(gòu),均包含HDFS Federation和YARN兩個
2、系統(tǒng),相比于0.23.x,2.x增加了NameNode HA和Wire-compatibility兩個重大特性。經(jīng)過上面的大體解釋,大家可能明白了Hadoop以重大特性區(qū)分各個版本的,總結(jié)起來,用于區(qū)分Hadoop版本的特性有以下幾個:(1)Append 支持文件追加功能,如果想使用HBase,需要這個特性。(2)RAID 在保證數(shù)據(jù)可靠的前提下,通過引入校驗碼較少數(shù)據(jù)塊數(shù)目.(3)Symlink支持HDFS文件鏈接(4)Security Hadoop安全。需要注意的是,Hadoop 2.0主要由Yahoo獨立出來的hortonworks公司主持開發(fā)。2013年10月,Hadoop 2.0發(fā)布
3、。關(guān)鍵特性包括:a) YARNYARN是“Yet Another Resource Negotiator”的簡稱,它是Hadoop 2.0引入的一個全新的通用資源管理系統(tǒng),可在其之上運行各種應(yīng)用程序和框架,比如MapReduce、Tez、Storm等,它的引入使得各種應(yīng)用運行在一個集群中成為可能。YARN是在MRv1基礎(chǔ)上衍化而來的,是MapReduce發(fā)展到一定程度的必然產(chǎn)物,它的出現(xiàn)使得Hadoop計算類應(yīng)用進入平臺化時代,我的博客中包含大量介紹YARN的文章,有興趣的讀者可閱讀:/category/mapreduce-nextgen/b) HDF
4、S單點故障得以解決Hadoop 2.2.0同時解決了NameNode單點故障問題和內(nèi)存受限問題,其中,單點故障是通過主備NameNode切換實現(xiàn)的,這是一種古老的解決服務(wù)單點故障的方案,主備NameNode之間通過一個共享存儲同步元數(shù)據(jù)信息,因此共享存儲系統(tǒng)的選擇稱為關(guān)鍵,而Hadoop則提供了NFS、QJM和Bookeeper三種可選的共享存儲系統(tǒng),具體可閱讀我的這篇文章:Hadoop 2.0單點故障問題方案總結(jié)。c)HDFS Federation前面提到HDFS 的NameNode存在內(nèi)存受限問題,該問題也在2.2.0版本中得到了解決。這是通過HDFS Federation實現(xiàn)的,它允許一
5、個HDFS集群中存在多個NameNode,每個NameNode分管一部分目錄,而不同NameNode之間彼此獨立,共享所有DataNode的存儲資源,注意,NameNode Federation中的每個NameNode仍存在單點問題,需為每個NameNode提供一個backup以解決單點故障問題。d)HDFS快照HDFS快照是指HDFS文件系統(tǒng)(或者子系統(tǒng))在某一時刻的只讀鏡像,它的出現(xiàn)使得管理員可定時為重要文件或目錄做快照,以防止數(shù)據(jù)誤刪、丟失等。具體可閱讀:Snapshots for HDFS(使用說明),Support for RW/RO snapshots in HDFS。通過NFSv
6、3訪問HDFSNFS允許用戶像訪問本地文件系統(tǒng)一樣訪問遠程文件系統(tǒng),而將NFS引入HDFS后,用戶可像讀寫本地文件一樣讀寫HDFS上的文件,大大簡化了HDFS使用,這是通過引入一個NFS gateway服務(wù)實現(xiàn)的,該服務(wù)能將NFS協(xié)議轉(zhuǎn)換為HDFS訪問協(xié)議,具體如下圖所示。有興趣的讀者可閱讀:Support NFSv3 interface to HDFS,以及相關(guān)設(shè)計文檔:HDFS NFS Gateway。e)支持Windows操作系統(tǒng)在2.2.0版本之前,Hadoop僅支持Linux操作系統(tǒng),而Windows僅作為實驗平臺使用。從2.2.0開始,Hadoop開始支持Windows操作系統(tǒng),具
7、體可閱讀我之前寫的一篇文章:Hadoop For Windows。f)兼容1.x上運行的MapReduce應(yīng)用程序與Hadoop生態(tài)系統(tǒng)其他系統(tǒng)進行了充分的集成測試除了HDFS、MapReduce和YARN這三個核心系統(tǒng)外,Hadoop生態(tài)系統(tǒng)還包括Hbase、Hive、Pig等系統(tǒng),這些系統(tǒng)底層依賴于Hadoop內(nèi)核,而相比于Hadoop 1.0,Hadoop 2.0的最大變化出現(xiàn)在內(nèi)核(HDFS、MapReduce和YARN),但與生態(tài)系統(tǒng)中其他系統(tǒng)進行集成測試是必需的。除了以上特性外,Apache官方還給出了兩個特殊說明:(1)HDFS變化:HDFS的symlinks(類似于Linux中
8、的軟連接)被將移到了2.3.0版本中(2)YARN/MapReduce注意事項:管理員在NodeManager上設(shè)置ShuffleHandler service時,要采用“mapreduce_shuffle”,而非之前的“mapreduce.shuffle”作為屬性值新版本不僅增強了核心平臺的大量功能,同時還修復(fù)了大量bug。新版本對HDFS做了兩個非常重要的增強:(1)、支持異構(gòu)的存儲層次;(2)、通過數(shù)據(jù)節(jié)點為存儲在HDFS中的數(shù)據(jù)提供了內(nèi)存緩存功能。借助于HDFS對異構(gòu)存儲層次的支持,我們將能夠在同一個Hadoop集群上使用不同的存儲類型。此外我們還可以使用不同的存儲媒介例如商業(yè)磁盤、企
9、業(yè)級磁盤、SSD或者內(nèi)存等更好地權(quán)衡成本和收益。如果你想更詳細地了解與該增強相關(guān)的信息,那么可以訪問這里。類似地,在新版本中我們還能使用Hadoop集群中的可用內(nèi)存集中地緩存并管理數(shù)據(jù)節(jié)點內(nèi)存中的數(shù)據(jù)集。MapReduce、Hive、Pig等類似的應(yīng)用程序?qū)⒛軌蛏暾垉?nèi)存進行緩存,然后直接從數(shù)據(jù)節(jié)點的地址空間中讀取內(nèi)容,通過完全避免磁盤操作極大地提高掃描效率。Hive現(xiàn)在正在為ORC文件實現(xiàn)一個非常有效的零復(fù)制讀取路徑,該功能就使用了這項新技術(shù)。在YARN方面,令我們非常興奮的事情是資源管理器自動故障轉(zhuǎn)移功能已經(jīng)進入尾聲,雖然在2.3.0這個版本中該功能還沒有被發(fā)布,但是極有可能會包含在Hado
10、op-2.4中。此外,2.3.0版本還對YARN做了一些關(guān)鍵的運維方面的增強,例如更好的日志、錯誤處理和診斷等。MapReduce的一個關(guān)鍵增強MAPREDUCE-4421。借助于該功能我們已經(jīng)不再需要在每一臺機器上安裝MapReduce二進制程序,僅僅需要通過YARN分布式緩存將一個MapReduce包復(fù)制到HDFS中就可以了。當然,新版本還包含大量的bug修復(fù)以及其他方面的增強。例如:(1)YarnClientImpl類中的異步輪詢操作引入了超時;(2)修復(fù)了RMFatalEventDispatcher沒有記錄事件原因的問題;(3)HA配置不會影響節(jié)點管理器的RPC地址;(4)RM Web
11、 UI和REST API統(tǒng)一使用YarnApplicationState;(5)在RpcResponseHeader中包含RPC錯誤信息,而不是將其分開發(fā)送;(6)向jetty/httpserver中添加了請求日志;(7)修復(fù)了將dfs.checksum.type定義為NULL之后寫文件和hflush會拋出java.lang.ArrayIndexOutOfBoundsException的問題。2014年4月,Hadoop 2.4.0發(fā)布。關(guān)鍵特性包括:(1)HDFS支持訪問控制列表(ACLs,Access Control Lists);(2)原生支持HDFS滾動升級;(3)HDFS FSIma
12、ge用到了 protocol-buffers,從而可以平滑地升級; (4)HDFS完全支持HTTPS;(5)YARN ResourceManager支持自動故障轉(zhuǎn)移,解決了YARN ResourceManager的單點故障;(6)對YARN的Application History Server和 pplication Timeline Server上的新應(yīng)用加強了支持;(7)通過搶占使得YARN Capacity Scheduler支持強SLAs協(xié)議;安全對于Hadoop來說至關(guān)重要,所以在Hadoop 2.4.0版本中對HDFS的所有訪問(包括WebHDFS, HsFTP甚至是web-int
13、erfaces)都支持了HTTPS。在Hadoop 2.4.0解決了ResourceManager的單點故障。這樣會在集群中存在兩個ResourceManager,其中一個處于Active;另一個處于standby。當Active的出現(xiàn)故障,這樣Hadoop可以自動平滑地切換到另外一個ResourceManager,這個新的ResourceManager將會自動的重啟那些提交的applications。在下一階段,Hadoop將會增加一個熱standby(add a hot standby),這個standby可以繼續(xù)從故障點運行的應(yīng)用程序,以保存任何已經(jīng)完成的工作。2014年8月,Hadoo
14、p 2.5.0發(fā)布。關(guān)鍵特性包括:1. Commona) 使用HTTP代理服務(wù)器時認證改進。當通過代理服務(wù)器使用WebHDFS時這是非常有用的。b) 增加了一個新的Hadoop指標監(jiān)控sink,允許直接寫到Graphite。c) Hadoop文件系統(tǒng)兼容相關(guān)的規(guī)范工作。2. HDFSa) 支持 POSIX風(fēng)格的擴展文件系統(tǒng)。更多細節(jié)查看Extended Attributes in HDFS文檔。b) 支持離線image瀏覽,客戶端現(xiàn)在可以通過WebHDFS的API瀏覽一個fsimage。c) NFS網(wǎng)關(guān)得到大量可支持性的改進和bug修復(fù)。Hadoop portmapper不在需要運行網(wǎng)關(guān),網(wǎng)關(guān)
15、現(xiàn)在可以拒絕沒有權(quán)限的端口的連接。d) SecondaryNameNode, JournalNode, and DataNode 的web UI已經(jīng)使用HTML5和JS美化。3. YARNa) YARN的REST API現(xiàn)在支持寫/修改操作。用戶可以用REST API提交和殺死應(yīng)用程序。b) 時間線存儲到Y(jié)ARN,用來存儲一個應(yīng)用通用的和特殊的信息,支持Kerberos認證。c) 公平調(diào)度器支持動態(tài)分層用戶隊列,運行時,用戶隊列在任一指定的父隊列中被動態(tài)的創(chuàng)建。2014年11月,Hadoop 2.6.0發(fā)布。關(guān)鍵特性包括:1. Common Hadoop Key Management Serv
16、er(KMS)是一個基于HadoopKeyProvider API編寫的密鑰管理服務(wù)器。他提供了一個client和一個server組件,client和server之間基于HTTP協(xié)議使用REST API通信。Client是一個KeyProvider的實現(xiàn),使用KMS HTTP REST API與KMS交互。KMS和它的client有內(nèi)置的安全機制,支持HTTP SPNEGO Kerberos認證和HTTPS安全傳輸。KMS是一個Java Web應(yīng)用程序,運行在與Hadoop發(fā)行版綁定在一起的預(yù)先配置好的Tomcat服務(wù)器上。2. TracingHDFS-5274增加了追蹤通過HDFS的請求的功
17、能,此功能使用了開源的庫,HTrace。大家可以看一下HTrace,功能很強大,Cloudera開源出來的。3. HDFSa)Transparent Encryption,HDFS實現(xiàn)了一個透明的,端到端的加密方式。一旦配置了加密,從HDFS讀出數(shù)據(jù)解密和寫入數(shù)據(jù)加密的過程對用戶應(yīng)用程序代碼帶來說都是透明的。加密過程是端到端的,這意味著數(shù)據(jù)只能在客戶端被加密解密。HDFS從來不存儲,也不訪問未加密的數(shù)據(jù)和數(shù)據(jù)加密密鑰。這樣滿足了加密過程的兩個典型的需求:at-rest encryption(靜態(tài)加密,也就是說,數(shù)據(jù)持久化在像硬盤這樣的媒介上),in-transit encryption(在途加
18、密,例如,當數(shù)據(jù)在網(wǎng)絡(luò)中傳輸?shù)臅r候)。b)Storage SSD& Memory。ArchivalStorage(檔案存儲器)是將計算能力與不斷增長的存儲能力分離。擁有高密度低成本的存儲但是計算能力較低的節(jié)點將變得可用,可以在集群中做冷存儲。增加更多的節(jié)點作為冷存儲可以提高集群的存儲能力,跟集群的計算能力無關(guān)。4. MapReduce這一部分主要是一些bug的修復(fù)和改進。增加了兩個新的新特,在2.5.2里已經(jīng)有所描述了。這里在簡單看一下。a)ResourceManger Restartb)允許AM發(fā)送歷史事件信息到timeline server。5. YARNa)NodeManager Res
19、tart:這個特性可以使NodeManager在不丟失運行在節(jié)點中的活動的container的情況下重新啟動。b)Docker Container Executor:DockerContainer Executor(DCE)允許YARN NodeManager在Docker container中啟動YARN container。用戶可以指定他們想用來運行YARN container的Docker的鏡像。這些container提供了一個可以自定義的軟件環(huán)境,用戶的代碼可以運行在其中,與NodeManager運行的環(huán)境隔離。這些運行用戶代碼的container可以包含應(yīng)用程序需要的特定的庫,它們可
20、以擁有與NodeManager不同版本的Perl,Python甚至是Java。事實上,這些container可以運行與NodeManager所在的OS不同版本的Linux。盡管YARN container必須定義運行Job所需的所有的環(huán)境和庫,但是NodeManager中的所有的東西都不會共享。Docer為YARN提供了一致和隔離兩種模式,一致模式下,所有的YARN container將擁有相同的軟件環(huán)境,在隔離模式下,不管物理機器安裝了什么都不干擾。2015年7月,Hadoop 2.7.0發(fā)布。關(guān)鍵特性包括:1. Common支持Windows Azure Storage,BLOB作為Hadoo
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024酒水購銷合同模板
- 2024三方運輸合同的范本
- 2024購銷水泥合同范文
- 標準房屋轉(zhuǎn)讓協(xié)議樣本
- 2024房屋拆遷合同范本
- 2024機械設(shè)備購銷合同范本
- 建筑材料銷售合同模板:建筑材料買賣合同參考
- 2024居室裝飾裝修施工合同范本
- 2024年民事調(diào)解協(xié)議書參考范本
- 標準服務(wù)合同范例大全
- 工廠改造施工方案
- 初中英語新課程標準詞匯表
- 《春節(jié)的文化與習(xí)俗》課件
- 手機棋牌平臺網(wǎng)絡(luò)游戲商業(yè)計劃書
- 學(xué)校體育與社區(qū)體育融合發(fā)展的研究
- 醫(yī)療機構(gòu)高警示藥品風(fēng)險管理規(guī)范(2023版)
- 一年級體質(zhì)健康數(shù)據(jù)
- 八年級物理(上)期中考試分析與教學(xué)反思
- 國家開放大學(xué)《財政與金融(農(nóng))》形考任務(wù)1-4參考答案
- 2023銀行網(wǎng)點年度工作總結(jié)
- 工廠反騷擾虐待強迫歧視政策
評論
0/150
提交評論