2023學年完整公開課版輸入和輸出_第1頁
2023學年完整公開課版輸入和輸出_第2頁
2023學年完整公開課版輸入和輸出_第3頁
2023學年完整公開課版輸入和輸出_第4頁
2023學年完整公開課版輸入和輸出_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

主講:張義目錄0102輸入分片尺寸輸出輸入分片尺寸1輸入分片尺寸可以通過配置適當的輸入和輸出策略使作業(yè)運行得更快。例如,可以在輸入階段、中間階段以及最后輸出的過程中為MapReduce作業(yè)配置多個級別的壓縮。為更高效地輸入和輸出所采取的任何策略都將減少磁盤和網絡I/O并加快作業(yè)運行。輸入分片用于管理MapReduce數據處理。map任務的數量基于Hadoop計算的作業(yè)輸入分片數。將如此確定的每個map任務分配給存儲數據分片的DataNode。Hadoop(通過ResourceManager控制)盡可能地在本地處理輸入分片。輸入分片尺寸MapReduce計數器顯示map任務的平均輸入字節(jié)數。還可以到如下的HDFS

DFS主頁上查找HDFS輸入文件的大?。篽ttp://machinename:50070/dfshealth.jsp單擊BrowsetheFileSystem查看文件大小及其復制因子和文件的HDFS塊大小。如果為HDFS配置了512MB的塊大小,并且文件大小為1MB,則顯然會有由許多小文件組成的輸入數據。輸入分片尺寸Hadoop是用來批處理大數據的。因此,在理想情況下,應該主要運行集群中的大中型MR作業(yè),而不是大量的微型MR作業(yè)。應該將小型作業(yè)整合到幾個大型作業(yè)中,而不是一次處理大量的數據,從而提高性能。這里一個重要的目標是讓每個MR作業(yè)處理至少幾GB的數據。正如我們在前邊課程中學習的,Hadoop在非常小的文件上運行不正常,因為它導致處理效率低下。處理小文件需要大量的進程,這除了能減緩作業(yè)外,還需要大量資源。輸入分片尺寸當然,小文件也會對NameNode的效率產生不利影響。在此,可以使用多種策略來改善“小文件問題”:將幾個小文件合并成一個大文件。使用Hadoop存檔(HAR)文件。使用Avro等創(chuàng)建容器文件,以序列化輸入數據。另一方面,如果每個map任務的輸入字節(jié)數遠大于HDFS塊大小,則意味著Hadoop無法分割輸入文件。而且如gzip的壓縮格式是不可拆分的。輸出2輸出MapReduce的輸出使用壓縮格式,如第5章介紹的,將增強HDFS的寫入性能。另外,選擇正確的文件格式也非常重要,特別是對于reduce任務的輸出。由于zlib、gzip、lzo文件無法拆分,MapReduce被迫使用單個map來處理整個文件。使用諸如SequenceFiles之類的文件格式更為有效,因為它們是可壓縮和可拆分的。在處理大型的單個輸出文件時,最好使用較大的塊大?。╠fs.block.size

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論