




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
Open
Passion
Value2014-3-11MapReducexianm
22014-3-11?MapReduce工作原理及架構回顧?運維技巧?開發(fā)技巧32014-3-1142014-3-11?HadoopMap/Reduec體系結構Client:進行任務切分、提交Map-reduce任務JobTracker:協(xié)調整個job的運行,一個Java進程TaskTracker:運行此job的task,處理input
split,一個Java進程HDFS:hadoop分布式文件系統(tǒng),用于在各個進程間共享Job相關的文件52014-3-1162014-3-11?開源社區(qū)–git://git.apa
mon.git
/cdh4/?Hadoop編譯開源1.xant
jar2.xmvn
package
-DskipTestsCdhhttps:
/content/cloudera-content/cloudera-docs/CDH4/latest/CDH4-
Installation-Guide/cdh4ig_topic_32_2.html-1.cdh4.5.0.p0.24.src.rpmrpm
-ivh
hadoop-2.0.0rpmbuild
-ba
hadoop.spec?Eclipse環(huán)境82014-3-11?MapReduce工作原理及架構回顧?運維技巧?開發(fā)技巧?<Hadoop_home>/conf中三個文件:core-site.xml、mapred-site.xml、hdfs-site.xml?
Log:<Hadoop_Home>/conf/hadoop-env.xml中HADOOP_LOG_DIR。92014-3-11102014-3-11?有200多個可以調節(jié)的參數(shù),有些在配置文件中,有些需要編碼實現(xiàn)?Hadoop任務的優(yōu)化需要從多個角度考慮,沒有一種普適行的調節(jié)方法?基本步驟合理設定Map/Reduce數(shù)量如果可能,使用Combiner減少中間數(shù)據(jù)輸出對中間數(shù)據(jù)和最終結果啟用壓縮減少Shuffle過程中寫入磁盤的數(shù)據(jù)適當增大每個節(jié)點的slot數(shù)量?Mapper數(shù)量不能直接設定可以通過選擇BlockSize間接調整Mapper數(shù)量壓縮輸入文件重寫InputFormat,覆蓋getSplits方法?適當選擇Reducer數(shù)量Reducer數(shù)量由程序指定,默認為1Reducer數(shù)量過小導致并發(fā)度不夠,過大導致Overhead過高。每個Reducer處理1-2G的數(shù)據(jù)比較合適Jobtracker上每個任務需要
一個(MapNum
*
ReduceNum)的矩陣每個reducer很有可能要從所有的mapper獲取數(shù)據(jù)112014-3-11?如果可能使用Combiner減少中間數(shù)據(jù)輸出122014-3-11Combiner一定要能減少reducer的數(shù)據(jù)Combiner可能在Map或reducer端分別進行,也可能不執(zhí)行Combiner的輸入和輸出數(shù)據(jù)類型是相同的?對中間數(shù)據(jù)和最終結果啟用壓縮––
mappression.lzo.LzoCodec–––press.map.output
=
truepression.codec
=press
=
truepression.codec
=pression.type=
BLOCKpression.lzo.LzoCodec<property><name>
press.map.output</name><value>true</value></property>pression.codec</name>press.SnappyCodec</value><property><name>map<value>org.ap</property>?ShuffleMap到Reduce的數(shù)據(jù)需要進行排序/分區(qū)和歸并Map側和Reduce側都有工作Map側將數(shù)據(jù)進行部分排序,由設定的內(nèi)存決定以此排序的大小Reduce側從多個Map拷貝數(shù)據(jù),并進行歸并排序(外排)132014-3-11142014-3-11152014-3-11162014-3-11?
io.sort.mb–
:100不宜過大,否則嚴重占用系統(tǒng)內(nèi)存?
io.sort.record.percent
和io.sort.spill.percentio.sort.record.percent
:Kv數(shù)組長度與內(nèi)存量的百分比,默認0.05;io.sort.spill.percent
:多大比例時開始spill,默認0.80,基本不需要調整?
io.sort.factor:100Reducer側一次對多少文件進行歸并排序,?
mapred.job.shuffle.input.buffer.percentReducer側的shuffle
buffer占其heap的比例?
mapred.reduce.parallel.copies20-50–Reducer側同時并發(fā)拷貝的數(shù)量,?
mapred.reduce.parallel.copies?其他參數(shù)…172014-3-11?
mapred.tasktracker.map.tasks.um
&ummapred.tasktracker.reduce.tasks.由系統(tǒng)管理員設定Map的數(shù)量大約為CPU數(shù)量1.5-2倍Reduce的數(shù)量大約為CPU數(shù)量的0.7-1倍考慮機群的內(nèi)存狀況,特別要計算TaskTracker/DataNode等進程的內(nèi)存占用量?特殊情況特殊處理?Scheduler會進一步限制每個用戶的slot數(shù)量182014-3-11?ulimit調高同時打開文件描述符及網(wǎng)絡連接、關閉swap?JVM參數(shù):-XXseCo GC
-XX:NewSize=300M
-XX:MaxNewSize=300M-XX:+DoEscapeysis pressedOops
-XX:+HeapDumpOnOutOfMemoryError
-XX:HeapDumpPath=/logs/
-XX:CMSInitiatingOccupancyFraction=70
-XX:+UseCMSInitiatingOccupancyOnly"?
erval.min?多盤讀寫:mapred.local.dir?增加rpchandler:mapred.job.tracker.handler.count?split數(shù)量:mapred.min.split.size/mapred.max.split.size?speculative:mapred.map.tasks.speculative.execution、mapred.reduce.tasks.speculative.execution?任務失敗次數(shù):mapred.max.map.failures.percent/reduce,mapred.map.max.attempts/reduce?多任務共享VM:mapred.job.reuse.jvm.num.tasks?任務超時:mapred.task.timeout?
DistributedCachepleted.maps?慢啟動:mapred.re?優(yōu)先級:mapred.job.priority?用戶端設置:mapred.child.java.opts192014-3-11?
Sort
ben
ark兩步驟:產(chǎn)生隨機測試數(shù)據(jù)、執(zhí)行排序任務產(chǎn)生隨機測試數(shù)據(jù):hadoop
jar
/usr/lib/hadoop-0.20-mapreduce/hadoop-examples.jar
randomwriter
-Dtest.randomwrite.bytes_per_map=100
-Dtest.randomwriter.maps_per_host=10/user/mapred/testRandomDataTips:不要放棄代碼202014-3-11?
Sort
ben
ark執(zhí)行排序任務hadoop
jar
/usr/lib/hadoop-0.20-mapreduce/hadoop-examples.jar
sort/user/mapred/testRandomData
/user/mapred/sortedData驗證結果hadoop
jar
/usr/lib/hadoop-0.20-mapreduce/hadoop-test.jar
testmapredsort
-sortInput/user/mapred/testRandomData
-sortOutput
/user/mapred/sortedData?
常用的ben
arkhadoop
jar
/usr/lib/hadoop-0.20-mapreduce/hadoop-test.jar
<test_name>TestDFSIO,測試hdfs
IO性能nnbench,namenode壓力測試,檢驗Namenode的硬件能力mrbanch,一系列小任務順序提交TeraSort:1T數(shù)據(jù)排序hadoop
jar
/usr/lib/hadoop-0.20-mapreduce/hadoop-examples.jar<teragen/terasort/
teravalidate>212014-3-11?默認情況:一個任務(map或者reduce)啟動一個獨立的javaVM執(zhí)行?
mapred.job.reuse.jvm.num.tasks節(jié)省java虛擬機啟動時間同一個job的不同task在一個VM中順序被執(zhí)行,直到數(shù)字達到mapred.job.reuse.jvm.num.tasks配置的值配置為-1時,相同job的task在一個VM中順序執(zhí)行注意:與mapred.tasktracker.map.tasks.
um和mapred.tasktracker.reduce.tasks.
um區(qū)別222014-3-11?
mapred.max.map.failures.percent/reduce,mapred.map.max.attempts/reduce,mapred.re
pleted.mapsmapred.re
pleted.maps
*
100
<=
100-mapred.max.map.failures.percent?
mapred.skip.map.max.skip.records記錄失敗mapred.skip.attempts.to.start.skip
=2(默認為2)次之后進入跳過模式,跳過壞記錄數(shù)由mapred.skip.map.max.skip.records定義232014-3-11?默認FIFO?
FairScheduler<property><name>mapred.jobtracker.taskScheduler</name><value>org.apache.hadoop.mapred.FairScheduler</value></property>在HADOOP_HOME/lib下需要存在fairscheduler.jar文件?其它:CapacityScheduler?MapReduce工作原理及架構回顧?運維技巧?開發(fā)技巧?處理類型必須是是org.apache.hadoop.io.Writable接口實現(xiàn)定義數(shù)據(jù)序列化及反序列化用于輸入、輸出及中間數(shù)據(jù)?
Key必須是org.apache.had除了Writable,還要具備Comparable功能?示例:Map輸入:(key:LongWritable,value:Text)輸出:(key:Text,value:IntWritable)parable<T>接口實現(xiàn)?示例Reduce輸入:(key:Text,value:IntWritable)輸出:(key:Text,value:IntWritable)?Map
reduce共用輸出key/value類型?定義map特殊的輸出kv類型?內(nèi)置的可用于key的類型IntWritable,
LongWritable,
BooleanWritable,
FloatWritable,
ByteWritableText:UTF8文本BytesWritable:字節(jié)序列VIntWritable/VLongWritable:長度可變的整型及長整型NullWritable?內(nèi)置的可用于value的類型ArrayWritable?可用作value的類型TwoDArrayWritable:二維writable隊列MapWritable/SortedMapWritable?實現(xiàn)org.apache.hadoop.io.Writable接口(無參數(shù)構造函數(shù)需保留)?實現(xiàn)org.apache.h
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 省級醫(yī)學課題申報書范例
- 出售游艇別墅合同范本
- 原房主合同范例
- 北京租賃居間合同范本
- 課題立項申報書小學
- 人像攝影肖像合同范本
- 個人出租土地合同范本
- 【復習大串講】【中職專用】高二語文上學期期末綜合測試題(五)(職業(yè)模塊)(原卷版)
- 二手辦公用房買賣合同范本
- 養(yǎng)殖基地出售馬匹合同范本
- 2025年天翼云解決方案架構師認證考試指導題庫-上(單選題)
- 2025年春人教版英語八年級下冊同步課件 Unit 7 Whats the highest mountain in the world課件 Section A 1a-2d
- 行為規(guī)范教育中學校長在國旗下講話:嚴格要求自己規(guī)范自己的行為
- 2024年12月廣東廣州市港務局直屬事業(yè)單位引進緊缺專業(yè)人才8人筆試歷年典型考題(歷年真題考點)解題思路附帶答案詳解
- DBJ50-T-100-2022 建筑邊坡工程施工質量驗收標準
- 2025年寧夏工商職業(yè)技術學院高職單招職業(yè)適應性測試近5年??及鎱⒖碱}庫含答案解析
- 2025年信陽職業(yè)技術學院高職單招職業(yè)技能測試近5年??及鎱⒖碱}庫含答案解析
- DB11-T 1004-2023 房屋建筑使用安全檢查評定技術規(guī)程
- 《藝術與傳播》課件
- 烹飪安全知識培訓課件
- 2024年廣東職業(yè)技術學院高職單招語文歷年參考題庫含答案解析
評論
0/150
提交評論