已閱讀5頁(yè),還剩10頁(yè)未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
對(duì)于Hadoop處理小文件的性能優(yōu)化Neethu Mohandas 和Sabu M. Thampi印度科欽Rajagiri工程與技術(shù)學(xué)院摘 要Hadoop是由Dong Cutting提出的,一個(gè)頂級(jí)的Apache項(xiàng)目。用于支持千級(jí)別的龐大數(shù)據(jù)的分布式應(yīng)用。它是一個(gè)開(kāi)源的軟件框架,靈感來(lái)自于谷歌的MapReduce編程模型和谷歌的系統(tǒng)文件。它是由全球社區(qū)的開(kāi)發(fā)者用java共同研發(fā)的。Hadoop被廣泛地應(yīng)用與世界各地的各種學(xué)術(shù)科研機(jī)構(gòu)和商業(yè)組織,還包括了common hadoop,hadoop文件系統(tǒng)(HDFS)和MapReduce作為其子項(xiàng)目。common hadoop包含了支持其他子項(xiàng)目的通用工具。HDFS是一個(gè)高性能的分布式文件系統(tǒng),Hadoop給予了HDFS高度的訪問(wèn)程序數(shù)據(jù)的性能。它還通過(guò)數(shù)據(jù)復(fù)制提高了可靠性,并同時(shí)保持?jǐn)?shù)據(jù)的完整性。MapReduce的是基于MapReduce算法的一個(gè)能在集群上進(jìn)行大量的分布式數(shù)據(jù)計(jì)算的軟件框架。雖然Hadoop被廣泛的使用,但是由于種種問(wèn)題,它的潛力還沒(méi)有被充分發(fā)揮出來(lái),小文件的問(wèn)題就是其中之一。在hadoop的0.18.0版本開(kāi)始,hadoop歸檔被作為處理小文件的解決方案被引入hadoop。文件序列化也可以作為一種解決方案。這兩種解決方案各自有自己的優(yōu)點(diǎn)和缺點(diǎn)。我們提出的與建議預(yù)計(jì)將獲得兩個(gè)解決方案的優(yōu)點(diǎn),同時(shí)確保hadoop有一個(gè)更好的性能。關(guān)鍵詞:hadoop,hadoop分布式文件系統(tǒng)(HDFS),MapReduce,小文件問(wèn)題,hadoop歸檔,文件序列化1緒 論在分布式計(jì)算的時(shí)代,hadoop飛速發(fā)展起來(lái),它在涉及TB和PB級(jí)別的計(jì)算處理中,表現(xiàn)出極佳的性能和高效的處理能力。這些成就可能源于一個(gè)名為MapReduce的底層軟件架構(gòu)和一個(gè)名為HDFS的分布式文件系統(tǒng)。MapReduce正像它的名字表現(xiàn)的,是一個(gè)基于Map和Reduce兩步的支持大量計(jì)算的軟件框架。Map和Reduce兩個(gè)步驟的概念都源于函數(shù)是編程語(yǔ)言。在2004年的OSDI中,谷歌提交了一份關(guān)于MapReduce的文件,標(biāo)志著這項(xiàng)工程的動(dòng)工。Hadoop是基于java的MapReduce實(shí)現(xiàn),它的基本概念即為將一個(gè)巨大的難以管理的計(jì)算分成更小的可管理的塊。HDFS,從另一方面來(lái)說(shuō),是受了谷歌文件系統(tǒng)的啟發(fā)。它依靠它的可靠的數(shù)據(jù)存儲(chǔ),數(shù)據(jù)的高完整性,以及最重要的高吞吐量,來(lái)支持hadoop高性能的大型計(jì)算。因此,Hadoop廣泛地受到了網(wǎng)絡(luò),搜索,金融,科研機(jī)構(gòu)等市場(chǎng)的青睞。2研究背景2.1MapReduce程序員們從這個(gè)框架中受益良多,因?yàn)樗麄兛梢员苊饪紤]應(yīng)用程序復(fù)雜的分布式運(yùn)算所帶來(lái)的頭痛。這是因?yàn)榉植际竭\(yùn)算可能需要將輸入分片,分配給集群中一組計(jì)算節(jié)點(diǎn),管理系統(tǒng)的故障,節(jié)點(diǎn)間的通信都需要實(shí)時(shí)考慮。程序員可以方便地運(yùn)用分布式框架進(jìn)行分布式編程, 即使他們沒(méi)有多少分布式計(jì)算經(jīng)驗(yàn),而hadoop就是其中最受程序選喜愛(ài)的一個(gè)分布式編程框架。基本的編程模型可以描述為一個(gè)Map任務(wù)和一個(gè)Reduce任務(wù)的組合。要執(zhí)行計(jì)算,就需要提供的一組鍵值對(duì)作為最初的輸入。然后計(jì)算完成后,最終產(chǎn)生一組鍵值對(duì)作為輸出。在具有MapReduce庫(kù)的情況下,計(jì)算可以被看做是兩個(gè)函數(shù),Map和Reduce。Map和Reduce函數(shù)都會(huì)被用戶重寫(xiě)。Map函數(shù)將接受一組鍵值對(duì)作輸入,并且將一組鍵值對(duì)作為中間輸出。然后,MapReduce庫(kù)根據(jù)鍵的唯一性將這些值組合起來(lái),然后將它傳遞給Reduce函數(shù)。如果鍵值對(duì)的列表過(guò)大,為了適應(yīng)內(nèi)存的容量,可能會(huì)進(jìn)行迭代操作。更新這些從屬于一個(gè)特有鍵的值的集合使它們變?yōu)橐粋€(gè)更小的值的集合是Reduce函數(shù)的任務(wù)。如果用戶希望得到一個(gè)更小的輸出值的集合,他/她通過(guò)將這個(gè)輸出作為下一個(gè)輸入,避免人工地將這個(gè)輸出作為另一個(gè)MapReduce的輸入,從而完成一嵌套的MapReduce調(diào)用。舉個(gè)簡(jiǎn)單的例子,我們可以算一組URL的訪問(wèn)頻率,如果我們給網(wǎng)頁(yè)請(qǐng)求的日志作為輸入到MapReduce計(jì)算。該Map函數(shù)產(chǎn)生。Reduce函數(shù)總結(jié)的值 相同的URL,并生成一個(gè)對(duì),從而計(jì)算出該URL訪問(wèn)頻率。在圖1中,我們可以看到Map和Reduce任務(wù)被master節(jié)點(diǎn)分配道不同的節(jié)點(diǎn),而且將輸入劃分給不同的節(jié)點(diǎn)來(lái)分配不同的Map作業(yè),從而產(chǎn)生各自的中間值。master節(jié)點(diǎn)將被每個(gè)節(jié)點(diǎn)告知中間值產(chǎn)生的位置。在獲取這些信息的時(shí)候,master節(jié)點(diǎn)將它傳遞給指定的節(jié)點(diǎn)與reduce任務(wù)終于完成了合并工作,產(chǎn)生輸出 文件。圖1:MapReduce執(zhí)行概要2.2 Hadoop分布式文件系統(tǒng)hadoop分布式文件系統(tǒng)是被hadoop使用的文件系統(tǒng)。它與UNIX的文件系統(tǒng)非常類(lèi)似,并且被開(kāi)發(fā)來(lái)支持的Hadoop在數(shù)據(jù)密集型分布式計(jì)算。在Hadoop實(shí)現(xiàn)一個(gè)集群的情況下, 根據(jù)雅虎,Apache Hadoop項(xiàng)目最大的貢獻(xiàn)者目前的設(shè)計(jì),每個(gè)集群作為NameNode的一個(gè)節(jié)點(diǎn),它存儲(chǔ)所有的文件的元數(shù)據(jù)。應(yīng)用程序的數(shù)據(jù)將被存儲(chǔ)在的DataNodes之中。 如果用戶希望執(zhí)行讀操作,則該請(qǐng)求將被NameNode處理并且它會(huì)提供數(shù)據(jù)塊構(gòu)成的位置的文件??蛻舳藢淖罱咏腄ataNode進(jìn)行讀取操作。對(duì)于寫(xiě)操作,NameNode會(huì)選擇一組DataNodes(默認(rèn)情況下),負(fù)責(zé)對(duì)每個(gè)文件塊的備份而客戶將以流水閑的方式將這些文件塊寫(xiě)入那些DataNodes節(jié)點(diǎn)中。在集群中,當(dāng)一個(gè)DataNode啟動(dòng)時(shí),他將和NameNode進(jìn)行一次握手,這是為了保證數(shù)據(jù)的完整性。在握手的過(guò)程中,命名空間的ID和DataNode軟件的版本將會(huì)被檢測(cè)。只有命名空間的ID相同且DataNode軟件的版本支持的情況下DataNode才會(huì)被允許進(jìn)入集群。每個(gè)DataNode都會(huì)定期發(fā)送塊報(bào)告給Namenode,來(lái)提供關(guān)于塊拷貝的信息,從而幫助NameNode收集每個(gè)塊拷貝文件的信息。這樣,就保持了數(shù)據(jù)的一致性。此外,DataNode每隔3秒鐘就發(fā)送一次心跳(heartbeats),來(lái)確認(rèn)現(xiàn)在可用的節(jié)點(diǎn),同時(shí)文件塊拷貝他持有的信息。如果NameNode在一段時(shí)間內(nèi),比如說(shuō)10分鐘,沒(méi)有收到來(lái)自DataNode的心跳,那么他將認(rèn)為DataNode以及它的塊拷貝是不可用的,并且在集群中選擇那些可用的塊中重建它們的新拷貝。圖2HDFS結(jié)構(gòu)NameNode會(huì)為元數(shù)據(jù)分配空間,并且平衡集群中正在使用包含心跳信息的DataNode之間的負(fù)載。從圖2我們可以看出HDFS體系結(jié)構(gòu)的示意圖,以及讀取和寫(xiě)入操作。3小文件問(wèn)題讓我們來(lái)討論這個(gè)問(wèn)題對(duì)我們之前討論的hadoop的兩大組件,Hadoop分布式文件系統(tǒng)和MapReduce的影響。科研的應(yīng)用環(huán)境中,如氣候?qū)W,天文學(xué)中,含有大量的小文件。3.1對(duì)HDFS的影響默認(rèn)情況下,HDFS塊大小為64 MB。任何比這個(gè)空間更小的文件都被認(rèn)為是小文件。我們知道,NameNode會(huì)負(fù)責(zé)保持集群中DataNode中的每個(gè)DataNode的元數(shù)據(jù)。如果每一個(gè)DataNode都含有數(shù)量不確定的小文件,顯然NameNode將很難去管理大量的元數(shù)據(jù)。此外,這將導(dǎo)致一個(gè)低效率的數(shù)據(jù)訪問(wèn)模式,因?yàn)樗鼘⑿枰罅康挠蠨ataNode到DataNode的尋道操作,以搜索和檢索請(qǐng)求的文件塊。3.2對(duì)MapReduce的影響數(shù)量龐大的小文件將消耗MapReduce的額外開(kāi)銷(xiāo),由于Map任務(wù)通常在同一時(shí)刻只讀取一塊的輸入數(shù)據(jù),并且每個(gè)Map任務(wù)將只處理很少的一點(diǎn)數(shù)據(jù)。這樣就會(huì)導(dǎo)致大量的Map任務(wù)。3.3為什么小文件被制作出來(lái)?無(wú)論這些文件時(shí)比較大文件的碎片或者他們是自然產(chǎn)生的。一兩個(gè)這兩種情況會(huì)在大多數(shù)環(huán)境中使我們面臨小文件問(wèn)題。圖3:小文件問(wèn)題3.4小文件問(wèn)題的特征這個(gè)問(wèn)題中的一個(gè)重要的原因是NameNode不得不管理大量的元數(shù)據(jù)在它的內(nèi)存中。另外一個(gè)問(wèn)題涉及每個(gè)DataNode啟動(dòng)時(shí)掃描它的文件系統(tǒng)來(lái)取得它持有的文件中的數(shù)據(jù)被發(fā)送到的NameNode所需要的塊報(bào)告所經(jīng)歷的時(shí)間。小文件的數(shù)量越大,需要時(shí)間就越長(zhǎng)。在集群中,管理員將對(duì)目錄用戶配額提供兩種選擇:1. 每個(gè)目錄下存放最大數(shù)量的文件2. 每個(gè)目錄下使用最大的文件空間在圖3中,允許的最大文件數(shù)是7,并且對(duì)于允許一個(gè)用戶目錄最大文件空間是7GB。用戶1既沒(méi)有超出 的文件最大限制數(shù),也沒(méi)有超出最大的文件空間的限制。所以傳入一個(gè)新的文件請(qǐng)求馬上處理。但對(duì)于用戶2,因?yàn)樗呀?jīng)達(dá)到了的文件限制數(shù),雖然很多文件允許的空間仍然存在,對(duì)于一個(gè)新文件傳入的請(qǐng)求不能被處理。但用戶n具有到達(dá)文件空間限制雖然他還沒(méi)有超過(guò)第一準(zhǔn)則限制文件的最大數(shù)量對(duì)于一個(gè)新文件傳入的請(qǐng)求不能被處理。4存在的解決方案如果較小的文件是一個(gè)較大的文件的一部分,那么這個(gè)問(wèn)題可以通過(guò)寫(xiě)一個(gè)連接小文件來(lái)產(chǎn)生一個(gè)和默認(rèn)塊大小幾乎一樣的大文件的程序來(lái)解決。但是,如果這些文件是本身就小,那么他們就需要通過(guò)某些方式進(jìn)行分組。對(duì)于這方面的一些現(xiàn)有的解決方案如下。4.1Hadoop歸檔Hadoop在后來(lái)的版本中,引入了歸檔來(lái)作為對(duì)小文件問(wèn)題的解決方案。Hadoop的歸檔文件,總是以*.har作為拓展名,包含了元數(shù)據(jù)和數(shù)據(jù)文件。元數(shù)據(jù)將被組織成索引和主索引文件,而數(shù)據(jù)文件將會(huì)以part-*文件的方式存儲(chǔ)。這些歸檔文件的名字和位置信息將會(huì)被存儲(chǔ)在索引文件中。用于歸檔的文件系統(tǒng)的修改是對(duì)用戶不可見(jiàn)的,然而,對(duì)系統(tǒng)性能的提升則是用戶顯著能感受到的。此外,該 在HDFS中的文件數(shù)量已減少導(dǎo)致更好的NameNode性能。該解決方案是只在Hadoop版本0.18.0以后的版本中存在,而以前的版本仍然被廣泛使用。如果一個(gè)MapReduce任務(wù)正被超出配額進(jìn)行處理,那么該任務(wù)將會(huì)由調(diào)度中心終止,不管任務(wù)是多么地重要,或者多么接近完成。雖然文件歸檔文件的壓縮是不可能用這種方法。讀操作仍可能會(huì)很慢,因?yàn)槊總€(gè)文件的訪問(wèn)需要兩個(gè)索引文件的讀取和一個(gè)數(shù)據(jù)文件讀取。圖4:hadoop歸檔格式4.2序列化文件在這個(gè)方法中,現(xiàn)有的數(shù)據(jù)被轉(zhuǎn)化為序列化文件。即,那些小文件被放在一個(gè)文件序列中,并且這個(gè)序列可以被流程化處理。序列化文件還允許被壓縮,不像Hadoop歸檔一樣。此外,序列化文件可以被分成更小的塊,而且MapReduce可以以獨(dú)立的方式來(lái)操作它們。轉(zhuǎn)換為序列化文件可能需要一些時(shí)間,并這個(gè)方法主要是依賴(lài)于java的,即,它不提供一個(gè)跨平臺(tái)方式。5建議的解決方案建議的解決方案維持了上一章所列出的現(xiàn)有解決方案的優(yōu)點(diǎn),并且試圖去避免它們的缺點(diǎn)。雖然Hadoop的歸檔成功分組小文件,讀操作仍然會(huì)很慢,因?yàn)樗枰x取兩個(gè)索引文件和一個(gè)最終的數(shù)據(jù)文件。另一方面,序列化文件是有效的數(shù)據(jù)處理方式,但是它對(duì)平臺(tái)完全依賴(lài)。我們提出了一種自動(dòng)分析輸入數(shù)據(jù)塊大小的方法。如果它小于HDFS的默認(rèn)塊大小,它會(huì)自動(dòng)降低的數(shù)量減少任務(wù)到一個(gè)最佳數(shù)目。這是基于Hadoop的每一個(gè)Reduce任務(wù)的輸出,而不管Reduce任務(wù)可能不會(huì)產(chǎn)生任何數(shù)據(jù)這一事實(shí)。此外,壓縮是被允許的。建議在一個(gè)獨(dú)立于平臺(tái)的實(shí)現(xiàn)方式上用這種方法。在執(zhí)行MapReduce任務(wù)的時(shí)候,這種方法將跟蹤內(nèi)存剩余空間,保證了一個(gè)文件最低的解壓空間是可用的。因?yàn)橐笤谒麄兊脑嘉募磯嚎s格式。既然歸檔不是用這種方式完成的,那么讀操作可以用正常的方式進(jìn)行,雖然寫(xiě)操作將需要所要求的解壓縮的文件中進(jìn)行。與可能會(huì)使用超過(guò)所需要的時(shí)間的轉(zhuǎn)換成序列化的文件的方法不同,這種方法有效地分析手頭的輸入任務(wù),決定了塊的大小,并相應(yīng)設(shè)置的reduce任務(wù)的數(shù)目。并且該方法中,提出了被實(shí)現(xiàn)為工具,可以被用于早些的Hadoop版本中,那些版本沒(méi)有歸檔這個(gè)工具。在社交網(wǎng)絡(luò)上進(jìn)行的一項(xiàng)研究發(fā)現(xiàn),許多地方仍在使用Hadoop的原版本, 這意味著,該方法可以幫助他們提高它們所使用的版本的性能。6結(jié)論Hadoop的在有效地進(jìn)行大量的計(jì)算中的作用是顯而易見(jiàn)的。Hadoop有很大的潛力。這是因?yàn)楠?dú)特的分布式計(jì)算的方法和最終合并的結(jié)果。伴隨著被定制的高效的文件系統(tǒng)保證全部潛力的發(fā)揮。我們已經(jīng)討論了所面臨的Hadoop的一個(gè)缺點(diǎn),在某些環(huán)境中,那里有大量的小文件降低Hadoop的性能。簡(jiǎn)要解釋了兩種現(xiàn)有的解決方案,以及它們各自的優(yōu)點(diǎn)和缺點(diǎn)。最后,我們提出了結(jié)合現(xiàn)有解決方案的優(yōu)點(diǎn)的解決方案。同時(shí)篩選出他們所面對(duì)的缺點(diǎn)。提出的解決方案,完全實(shí)施后,預(yù)計(jì)將提高Hadoop在所謂的小文件問(wèn)題導(dǎo)致性能下降問(wèn)題中的性能。7未來(lái)的工作在我們的工作的下一個(gè)里程碑將是成功提高輸入文件本質(zhì)上是小的情況下的hadoop運(yùn)算效率。這方面的一個(gè)擴(kuò)展可以是一個(gè)能夠有效地管理小文件,無(wú)論是本身就是小文件還是其他的情況,這樣能更加方便程序員編程,使他們減少對(duì)分布式復(fù)雜性的考慮。參考文獻(xiàn)1. Dean, J., Ghemawat, S.: MapReduce: Simplified Data Processing on Large Clusters.In: Proceedings of the 6th Symposium on Operating Systems Design andImplementation, San Francisco CA (December 2004)2. Shvachko, K., Kuang, H., Radia, S., Chansler, R.: The Hadoop Distributed FileSystem. In: Proceedings of the 26th IEEE Symposium on Massive Storage Systemsand Technologies (May 2010)3. Mackey, G., Sehrish, S.,Wang, J.: ImprovingMetadata Management for Small Filesin HDFS. In: Proceedings of IEEE International Conference on Cluster Computingand Workshops, pp. 14 (August 2009)4. Satyanarayanan, M.: A Survey of Distributed File Systems, Technical ReportCMU-CS-89- 116, Department of Computer Scie
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 液態(tài)奶冷鏈物流優(yōu)化-洞察分析
- 稅收風(fēng)險(xiǎn)管理工具-洞察分析
- 系統(tǒng)負(fù)載均衡方法-洞察分析
- 音樂(lè)療法在癡呆癥康復(fù)過(guò)程中的作用-洞察分析
- 土壤質(zhì)地與土壤碳循環(huán)研究-洞察分析
- 芯片級(jí)能效評(píng)估-洞察分析
- 現(xiàn)代農(nóng)業(yè)產(chǎn)業(yè)鏈構(gòu)建-洞察分析
- 移動(dòng)CRM應(yīng)用開(kāi)發(fā)-洞察分析
- 語(yǔ)義消歧與知識(shí)圖譜融合-洞察分析
- 養(yǎng)老院合同范本(2篇)
- 氫能與燃料電池電動(dòng)汽車(chē)第5章 氫與燃料電池
- 餐飲店購(gòu)銷(xiāo)合同
- 文化資源數(shù)字化技術(shù)有哪些
- 2023年杭州聯(lián)合銀行校園招聘筆試歷年高頻考點(diǎn)試題答案詳解
- 灌裝軋蓋機(jī)和供瓶機(jī)設(shè)備驗(yàn)證方案
- 《國(guó)家中藥飲片炮制規(guī)范》全文
- 《鈷鉧潭西小丘記》教學(xué)設(shè)計(jì)(部級(jí)優(yōu)課)語(yǔ)文教案
- 人教版五年級(jí)下冊(cè)數(shù)學(xué)講義
- 安全工器具-變壓器絕緣油課件
- 瓦楞紙箱工藝流程演示文稿
- 神通數(shù)據(jù)庫(kù)管理系統(tǒng)v7.0企業(yè)版-3概要設(shè)計(jì)說(shuō)明書(shū)
評(píng)論
0/150
提交評(píng)論