




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
主講:張義目錄0102輸入分片尺寸輸出輸入分片尺寸1輸入分片尺寸可以通過配置適當的輸入和輸出策略使作業(yè)運行得更快。例如,可以在輸入階段、中間階段以及最后輸出的過程中為MapReduce作業(yè)配置多個級別的壓縮。為更高效地輸入和輸出所采取的任何策略都將減少磁盤和網絡I/O并加快作業(yè)運行。輸入分片用于管理MapReduce數據處理。map任務的數量基于Hadoop計算的作業(yè)輸入分片數。將如此確定的每個map任務分配給存儲數據分片的DataNode。Hadoop(通過ResourceManager控制)盡可能地在本地處理輸入分片。輸入分片尺寸MapReduce計數器顯示map任務的平均輸入字節(jié)數。還可以到如下的HDFS
DFS主頁上查找HDFS輸入文件的大?。篽ttp://machinename:50070/dfshealth.jsp單擊BrowsetheFileSystem查看文件大小及其復制因子和文件的HDFS塊大小。如果為HDFS配置了512MB的塊大小,并且文件大小為1MB,則顯然會有由許多小文件組成的輸入數據。輸入分片尺寸Hadoop是用來批處理大數據的。因此,在理想情況下,應該主要運行集群中的大中型MR作業(yè),而不是大量的微型MR作業(yè)。應該將小型作業(yè)整合到幾個大型作業(yè)中,而不是一次處理大量的數據,從而提高性能。這里一個重要的目標是讓每個MR作業(yè)處理至少幾GB的數據。正如我們在前邊課程中學習的,Hadoop在非常小的文件上運行不正常,因為它導致處理效率低下。處理小文件需要大量的進程,這除了能減緩作業(yè)外,還需要大量資源。輸入分片尺寸當然,小文件也會對NameNode的效率產生不利影響。在此,可以使用多種策略來改善“小文件問題”:將幾個小文件合并成一個大文件。使用Hadoop存檔(HAR)文件。使用Avro等創(chuàng)建容器文件,以序列化輸入數據。另一方面,如果每個map任務的輸入字節(jié)數遠大于HDFS塊大小,則意味著Hadoop無法分割輸入文件。而且如gzip的壓縮格式是不可拆分的。輸出2輸出MapReduce的輸出使用壓縮格式,如第5章介紹的,將增強HDFS的寫入性能。另外,選擇正確的文件格式也非常重要,特別是對于reduce任務的輸出。由于zlib、gzip、lzo文件無法拆分,MapReduce被迫使用單個map來處理整個文件。使用諸如SequenceFiles之類的文件格式更為有效,因為它們是可壓縮和可拆分的。在處理大型的單個輸出文件時,最好使用較大的塊大?。╠fs.block.size
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- T-ZZB 3589-2023 潔凈轉子泵標準
- 2025年度礦山新能源利用合作開發(fā)協議
- 二零二五年度船舶租賃與船舶融資租賃合同
- 二零二五年度金融產品創(chuàng)新增資協議
- 2025年度酒店品牌授權及加盟合作協議
- 二零二五年度有機果園使用權及品牌授權合同
- 二零二五美容院轉讓合同包含員工培訓體系與職業(yè)發(fā)展規(guī)劃
- 2025年度旅游度假區(qū)合租商鋪合作協議
- 二零二五年度知識產權標準化與認證顧問合同
- 二零二五年度科技園區(qū)出租房承包管理協議
- 森林防火知識
- 2025年湖南鐵路科技職業(yè)技術學院單招職業(yè)技能測試題庫參考答案
- 2025年黑龍江林業(yè)職業(yè)技術學院單招職業(yè)適應性測試題庫帶答案
- 《ISO 56000-2025創(chuàng)新管理 基礎和術語》之1:“引言+范圍+術語和定義”專業(yè)深度解讀與應用指導材料(雷澤佳編寫2025A0)-1-150
- DB37-T4817-2025 瀝青路面就地冷再生技術規(guī)范
- 2025年公共營養(yǎng)師三級理論試題及答案
- 提高設備基礎預埋螺栓一次安裝合格率
- 煤礦防治水安全質量標準化評分表
- 2024年科技節(jié)小學科普知識競賽題及答案(共100題)
- 2025年度教育培訓機構學生綜合素質評價協議3篇
- 氧氣管道吹掃、打壓方案
評論
0/150
提交評論