《Hadoop技術(shù)原理》課件-4.HDFS進(jìn)階_第1頁(yè)
《Hadoop技術(shù)原理》課件-4.HDFS進(jìn)階_第2頁(yè)
《Hadoop技術(shù)原理》課件-4.HDFS進(jìn)階_第3頁(yè)
《Hadoop技術(shù)原理》課件-4.HDFS進(jìn)階_第4頁(yè)
《Hadoop技術(shù)原理》課件-4.HDFS進(jìn)階_第5頁(yè)
已閱讀5頁(yè),還剩16頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

Hadoop技術(shù)原理HDFS進(jìn)階HDFS工作原理01HDFS工作原理01數(shù)據(jù)上傳過(guò)程HDFS工作原理02數(shù)據(jù)讀取過(guò)程HDFS工作原理03HDFS的常見(jiàn)問(wèn)題

HDFS具有較高的容錯(cuò)性,可以兼容廉價(jià)的硬件,它把硬件出錯(cuò)看作一種常態(tài),而不是異常,并設(shè)計(jì)了相應(yīng)的機(jī)制檢測(cè)數(shù)據(jù)錯(cuò)誤和進(jìn)行自動(dòng)恢復(fù),主要包括以下幾種情形:名稱(chēng)節(jié)點(diǎn)出錯(cuò)數(shù)據(jù)節(jié)點(diǎn)出錯(cuò)數(shù)據(jù)出錯(cuò)HDFS工作原理04HDFS的容錯(cuò)性NameNode出錯(cuò):用SecondaryNameNode備份的fsimage恢復(fù)

HA(HighAvailability)高可用:多個(gè)NameNodeDataNode出錯(cuò):DataNode與NameNode通過(guò)“心跳”報(bào)告狀態(tài),失效后會(huì)啟動(dòng)數(shù)據(jù)冗余復(fù)制。數(shù)據(jù)出錯(cuò):采用md5和sha1對(duì)數(shù)據(jù)塊進(jìn)行校驗(yàn)。HDFS高級(jí)功能02HDFS高級(jí)功能01安全模式安全模式是HDFS所處的一種特殊狀態(tài),在處于這種狀態(tài)時(shí),文件系統(tǒng)只接受讀數(shù)據(jù)請(qǐng)求,不能對(duì)文件進(jìn)行寫(xiě),刪除等操作。查看當(dāng)前狀態(tài):[root@single~]#hdfsdfsadmin-safemodeget進(jìn)入安全模式:[root@single~]#hdfsdfsadmin-safemodeenter強(qiáng)制離開(kāi)安全模式:[root@single~]#hdfsdfsadmin-safemodeleave一直等待直到安全模式結(jié)束:[root@single~]#hdfsdfsadmin-safemodewaitHDFS高級(jí)功能02回收站HDFS為每一個(gè)用戶都創(chuàng)建了回收站,這個(gè)類(lèi)似操作系統(tǒng)的回收站。位置是/user/用戶名/.Trash/。Hadoop回收站trash,默認(rèn)是關(guān)閉的,可以通過(guò)配置core-site.xml文件開(kāi)啟此功能。修改conf/core-site.xml,增加如下內(nèi)容<property><name>erval</name><value>1440</value></property>HDFS高級(jí)功能03快照快照可以使某個(gè)損壞的目錄或整個(gè)損壞的HDFS恢復(fù)到過(guò)去的一個(gè)數(shù)據(jù)正確的時(shí)間點(diǎn)??煺毡容^常見(jiàn)的應(yīng)用場(chǎng)景是數(shù)據(jù)備份,以防止一些用戶錯(cuò)誤或?yàn)?zāi)難??煺展δ苣J(rèn)禁用,開(kāi)啟或禁用快照功能,需要針對(duì)目錄操作,命令如下(<snapshotDir>表示某個(gè)目錄):hdfsdfsadmin-allowSnapshot<snapshotDir>hdfsdfsadmin-disallowSnapshot<snapshotDir>創(chuàng)建快照、刪除快照、重命名快照的命令如下:hdfsdfs-createSnapshot<snapshotDir>[<snapshotName>]hdfsdfs-deleteSnapshot<snapshotDir><snapshotName>hdfsdfs-renameSnapshot<snapshotDir><oldName><newName>HDFS高級(jí)功能04HDFS

HA(高可用)NameNode是集群的主節(jié)點(diǎn),有單點(diǎn)失效的問(wèn)題。HDFS高級(jí)功能05HDFS

HA(高可用)配置兩個(gè)NameNode,一個(gè)為活躍狀態(tài),一個(gè)為備用狀態(tài)。故障時(shí)馬上切換。HDFS高級(jí)功能06HDFS其他問(wèn)題雖然HDFSHA解決了“單點(diǎn)故障”問(wèn)題,但是在系統(tǒng)擴(kuò)展性、整體性能和隔離性方面仍然存在問(wèn)題:系統(tǒng)擴(kuò)展性方面,元數(shù)據(jù)存儲(chǔ)在NameNode內(nèi)存中,受內(nèi)存上限的制約。整體性能方面,吞吐量受單個(gè)NameNode的影響。隔離性方面,一個(gè)程序可能會(huì)影響其他運(yùn)行的程序,如一個(gè)程序消耗過(guò)多資源導(dǎo)致其他程序無(wú)法順利運(yùn)行。HDFSHA本質(zhì)上還是單名稱(chēng)節(jié)點(diǎn)。HDFS高級(jí)功能07聯(lián)邦Federation12341000個(gè)座位示例:如果只有1個(gè)門(mén),壓力大多增加3個(gè)門(mén)。約定小學(xué)生只能從1,中學(xué)生只能從2,高中生只能從3,大學(xué)生只能從4進(jìn)來(lái)。如果門(mén)4關(guān)了,大學(xué)生這些人進(jìn)不來(lái)了。D盤(pán)4個(gè)目錄,4個(gè)名稱(chēng)空間,A/B/C/D共享空間一旦對(duì)應(yīng)的名稱(chēng)空間沒(méi)有了,下面的文件就找不到了。HDFS高級(jí)功能08聯(lián)邦FederationHDFS的Federation指的是HDFS有多個(gè)NameNode或NameSpace,這些NameNode或NameSpace是聯(lián)合的,它們相互獨(dú)立且不需要互相協(xié)調(diào),各自分工,管理自己的區(qū)域。每個(gè)NameNode或NameSpace有自己的池(pool),池與池之間獨(dú)立的。一個(gè)namenode掛掉了,不會(huì)影響其他namenode。但所有的池(pool)都是共享一個(gè)HDFS的存儲(chǔ)空間。缺點(diǎn):每個(gè)NN都還是存在單點(diǎn)故障問(wèn)題的。HDFS高級(jí)功能09聯(lián)邦Federation一個(gè)NameSpace和它的BlockPool作為一個(gè)管理單元。當(dāng)一個(gè)Namenode或NameSpace被刪除,對(duì)應(yīng)于DataNodes中的數(shù)據(jù)塊池也會(huì)被刪除。在集群的升級(jí)過(guò)程中,每個(gè)管理單元都是以一個(gè)整體進(jìn)行升級(jí)的。這里引入ClusterID來(lái)標(biāo)識(shí)集群中的所有節(jié)點(diǎn)。當(dāng)一個(gè)NameNode格式化后,這個(gè)ClusterID會(huì)生成,格式化其他NameNode時(shí)如果指定這個(gè)ClusterID,則可以使其加入到同一個(gè)集群中。HDFS高級(jí)功能10聯(lián)邦Federation采用Federation的最主要的原因是簡(jiǎn)單,F(xiàn)ederation能夠快速的解決大部分單Namenode的問(wèn)題。

主要優(yōu)點(diǎn):NameSpace具體可擴(kuò)展性支持多個(gè)namenode水平擴(kuò)展整個(gè)文件系統(tǒng)的namespace。原來(lái)只有DataNode可以水平擴(kuò)展,現(xiàn)在NameNode也可以水平擴(kuò)展,這樣減輕了單個(gè)NameNode的內(nèi)存和服務(wù)壓力性能提升多個(gè)NameNode可以提高讀寫(xiě)時(shí)的數(shù)據(jù)吞吐量。隔離性可按照應(yīng)用程序的用戶和種類(lèi)隔離不同類(lèi)型的程序,一定程度上可控制資源的分配。HDFS高級(jí)功能11ClusterID簡(jiǎn)介HDFS的集群ID,是唯一的clusterID存儲(chǔ)在哪里namenode的clusterID存儲(chǔ)位置/usr/local/src/hadoop/data/namenode/current/VERSIONdatanode的clusterID存儲(chǔ)位置/usr/local/src/hadoop/data/datanode/current/VERSION對(duì)比namenode和datanode的clusterID

namenode:clusterID=CID-016ffd53-767b-486b-9c26-5aea4bfb1f6b

datanode:clusterID=CID-016ffd53-767b-486b-9c26-5aea4bfb1f6bHDFS高級(jí)功能12ClusterID注意事項(xiàng)由于clusterID不一致,會(huì)導(dǎo)致datanode進(jìn)程無(wú)法啟動(dòng),并且它不會(huì)報(bào)錯(cuò)格式化之后的namenode的clusterID,如下:

clusterID=CID-a5c4f753-6355-46f6-9a07-3c3ca3849eeddatanode的clusterID,如下:

clusterID=CID-016ffd53-767b-486b-9c26-5aea4bfb1f6b解決方案:復(fù)制namenode的clusterID,然后粘貼覆蓋掉datanode

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論