版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第五章MapReduce編程入門1MapReduce概述、編程模型目錄下載和安裝idea、maven2MapReduce代碼實(shí)現(xiàn)3下載和安裝idea在官網(wǎng)下載idea安裝包官網(wǎng):/idea/下載和安裝idea2.將idea安裝包解壓到本地的安裝目錄3.雙擊解壓文件下idea文件夾中的圖標(biāo)打開idea添加maven插件ApacheMaven是一個(gè)(特別是Java編程)項(xiàng)目管理及自動(dòng)構(gòu)建工具。maven三大功能:管理依賴、構(gòu)建項(xiàng)目、管理項(xiàng)目信息。1)項(xiàng)目的自動(dòng)構(gòu)建,幫助開發(fā)人員做項(xiàng)目代碼的編譯、測(cè)試、打包、安裝、部署等。
2)管理依賴(管理項(xiàng)目中使用的各種jar包)。ProjectObjectModel項(xiàng)目對(duì)象模型,maven把項(xiàng)目當(dāng)做模型處理。操作這個(gè)模型就是操作項(xiàng)目。maven通過pom.xml文件實(shí)現(xiàn)項(xiàng)目的構(gòu)建和依賴的管理。添加maven插件進(jìn)入官網(wǎng):/解壓安裝包配置環(huán)境變量添加maven工程進(jìn)入idea,新建一個(gè)項(xiàng)目。選擇maven,projectsdk選擇自己的java版本添加maven工程N(yùn)ame:推薦填寫跟項(xiàng)目相關(guān)的名字。Location:選擇路徑GroupId:填寫域名ArtifactId:填寫項(xiàng)目名Version:填寫版本添加maven工程工程添加完成:想要運(yùn)行HDFSJavaApi或MR,則需要修改maven自帶的pom文件,進(jìn)行包及包的依賴下載:添加maven工程添加內(nèi)容參考如下:<dependencies><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-common</artifactId><version>2.7.6</version></dependency><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-client</artifactId><version>2.7.6</version></dependency><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-hdfs</artifactId><version>2.7.6</version></dependency><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-mapreduce-client-core</artifactId><version>2.7.6</version></dependency></dependencies>1MapReduce概述、編程模型目錄下載和安裝idea、maven2MapReduce代碼實(shí)現(xiàn)3MapReduce概述
MapReduce是什么簡(jiǎn)單地說,MapReduce是面向大數(shù)據(jù)并行處理的計(jì)算模型、框架和平臺(tái)。具體包含以下3層含義。MapReduce是一個(gè)并行程序的計(jì)算模型與方法MapReduce是一個(gè)并行程序運(yùn)行的軟件框架MapReduce是一個(gè)基于集群的高性能并行計(jì)算平臺(tái)MapReduce概述
MapReduce基本設(shè)計(jì)思想面向大規(guī)模數(shù)據(jù)處理,MapReduce有以下三個(gè)層面上的基本設(shè)計(jì)思想。分而治之抽象成模型上升到構(gòu)架MapReduce概述
MapReduce優(yōu)缺點(diǎn)MapReduce優(yōu)點(diǎn)1)MapReduce易于編程。2)良好的擴(kuò)展性。3)高容錯(cuò)性。4)適合PB級(jí)以上海量數(shù)據(jù)的離線處理。MapReduce缺點(diǎn)1)不適合實(shí)時(shí)計(jì)算。2)不適合流式計(jì)算。3)不適合DAG(有向無環(huán)圖)計(jì)算MapReduce概述
MapReduce是Hadoop提供的一種處理海量數(shù)據(jù)的并行編程模型和計(jì)算框架,用于對(duì)大規(guī)模的數(shù)據(jù)進(jìn)行并行計(jì)算。主要由ResourceManager和NodeManager兩類節(jié)點(diǎn)構(gòu)成。ResourceManager主要負(fù)責(zé)集群資源管理,NodeManager負(fù)責(zé)節(jié)點(diǎn)的資源管理。當(dāng)運(yùn)行MapReduce任務(wù)的時(shí)候,后產(chǎn)生ApplicationMaster和Container,其中ApplicationMaster負(fù)責(zé)向ResourceManager節(jié)點(diǎn)進(jìn)行資源的申請(qǐng)并控制任務(wù)的執(zhí)行,Container是最基本的資源單位。MapReduce的Map和Reduce均是其之上進(jìn)行運(yùn)行的。MapReduce概述
MapReduce編程思想MapReduce采用“分而治之”的思想。對(duì)大規(guī)模的數(shù)據(jù)集的操作分配給各子節(jié)點(diǎn)進(jìn)行操作,然后通過整合子節(jié)點(diǎn)的中間結(jié)果得到最終結(jié)果。即“任務(wù)的分解和結(jié)果的匯總”。Hadoop將這個(gè)工作高度抽象成為兩個(gè)函數(shù),分別為Map和Reduce。Map負(fù)責(zé)將任務(wù)分解為多個(gè)任務(wù)。Reduce負(fù)責(zé)將多個(gè)Map任務(wù)的中間結(jié)果合并為最終結(jié)果。在此過程中的其他步驟均由Hadoop的MapReduce框架自行負(fù)責(zé)處理,包括工作調(diào)度、任務(wù)分配和節(jié)點(diǎn)間通信等。MapReduce原理
(1)Mapper:映射器。(2)Mapper助理InputFormat:輸入文件讀取器。(3)Shuffle:運(yùn)輸隊(duì)。(4)Shuffle助理Sorter:排序器。(5)Reducer:歸約器。(6)Reducer助理OutputFormat:輸出結(jié)果寫入器。MapReduce原理
數(shù)據(jù)分片。假設(shè)原始文件中8000萬行記錄被系統(tǒng)分配給100個(gè)Mapper來處理,那么每個(gè)Mapper處理80萬行數(shù)據(jù)。相當(dāng)于MapReduce通過數(shù)據(jù)分片的方式,把數(shù)據(jù)分發(fā)給多個(gè)單元來進(jìn)行處理,這就是分布式計(jì)算的第一步。數(shù)據(jù)映射。在數(shù)據(jù)分片完成后,由Mapper助理InputFormat從文件的輸入目錄中讀取這些記錄,然后由Mapper負(fù)責(zé)對(duì)記錄進(jìn)行解析,并重新組織成新的格式。然后Mapper把自己的處理結(jié)果輸出,等待Shuffle運(yùn)輸隊(duì)取走結(jié)果。數(shù)據(jù)混洗。由Shuffle運(yùn)輸隊(duì)把獲取的結(jié)果按照相同的鍵(Key)進(jìn)行匯集,再把結(jié)果送到Shuffle助理Sorter,由Sorter負(fù)責(zé)對(duì)這些結(jié)果排好序,然后提交給Reducer。數(shù)據(jù)歸約。Reducer收到傳輸過來的結(jié)果后,接著進(jìn)行匯總與映射工作,得到最終計(jì)算結(jié)果。最后由Reducer助理OutputFormat把結(jié)果輸出到指定位置。MapReduce應(yīng)用示例
背景分析WordCount主要完成的功能是:統(tǒng)計(jì)一系列文本文件中每個(gè)單詞出現(xiàn)的次數(shù)MapReduce應(yīng)用示例
解決問題的思路業(yè)務(wù)場(chǎng)景:有大量的文件,每個(gè)文件里面存儲(chǔ)的都是單詞。我們的任務(wù):統(tǒng)計(jì)所有文件中每個(gè)單詞出現(xiàn)的次數(shù)。解決思路:先分別統(tǒng)計(jì)出每個(gè)文件中各個(gè)單詞出現(xiàn)的次數(shù);然后,再累加不同文件中同一個(gè)單詞出現(xiàn)次數(shù)。MapReduce應(yīng)用示例
數(shù)據(jù)處理流程分析把數(shù)據(jù)源轉(zhuǎn)化為<key,value>對(duì)MapReduce應(yīng)用示例
數(shù)據(jù)處理流程分析自定義map()方法處理Mapper任務(wù)輸入的<key,value>對(duì)MapReduce應(yīng)用示例
數(shù)據(jù)處理流程分析Map端的shuffle過程MapReduce應(yīng)用示例
數(shù)據(jù)處理流程分析自定義reduce()方法處理Reduce任務(wù)輸入的<key,value>對(duì)1MapReduce概述、編程模型目錄下載和安裝idea、maven2MapReduce代碼實(shí)現(xiàn)3WordCount代碼實(shí)現(xiàn)Mapper類//Map階段
publicstaticclassMyMapperextendsMapper<LongWritable,Text,Text,IntWritable>{/***@paramkey*@paramvalue*@paramcontext*@throwsIOException*@throwsInterruptedException*/protectedvoidmap(LongWritablekey,Textvalue,Mapper<LongWritable,Text,Text,IntWritable>.Contextcontext)throwsIOException,InterruptedException{//實(shí)現(xiàn)自己的map端邏輯
StringvStr=value.toString();//按照空格切分,將每個(gè)單詞切分出來
String[]words=vStr.split("");//遍歷每一個(gè)單詞,構(gòu)造k——v格式
for(Stringword:words){TextkeyOut=newText(word);IntWritablevalueOut=newIntWritable(1);//通過context將構(gòu)建好的k-v發(fā)送出去
context.write(keyOut,valueOut);}}}WordCount代碼實(shí)現(xiàn)
Reducer類//Reduce階段
publicstaticclassMyReducerextendsReducer<Text,IntWritable,Text,IntWritable>{/***@paramkey*@paramvalues*@paramcontext*@throwsIOException*@throwsInterruptedException*/@Overrideprotectedvoidreduce(Textkey,Iterable<IntWritable>values,Reducer<Text,IntWritable,Text,IntWritable>.Contextcontext)throwsIOException,InterruptedException{//實(shí)現(xiàn)自己的Reduce邏輯
intsum=0;//保存每個(gè)單詞的數(shù)量
for(IntWritablevalue:values){//遍歷values迭代器
sum+=value.get();}//將Reduce統(tǒng)計(jì)得到的結(jié)果輸出到HDFScontext.write(key,newIntWritable(sum));}}WordCount代碼實(shí)現(xiàn)
Driver類//Driver端(將Map、Reduce進(jìn)行組裝)
publicstaticvoidmain(String[]args)throwsIOException,InterruptedException,ClassNotFoundException{//創(chuàng)建配置文件
Configurationconf=newConfiguration();//創(chuàng)建一個(gè)Job實(shí)例
Jobjob=Job.getInstance(conf);//對(duì)Job進(jìn)行一些簡(jiǎn)單的配置
job.setJobName("demo1WordCount");//設(shè)置運(yùn)行Job時(shí)該執(zhí)行哪一個(gè)類
job.setJarByClass(demo1WordCount.class);//對(duì)Map端進(jìn)行配置
job.setMapOutputKeyClass(Text.class);job.setMapOutputValueClass(IntWritable.class);job.setMapperClass(MyMapper
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 骨折伴有糖尿病
- 內(nèi)河港口資金籌措與財(cái)務(wù)分析
- 公路工程施工圖預(yù)算審核措施探析
- 話題作文集錦六篇
- 貨運(yùn)綜合樞紐項(xiàng)目風(fēng)險(xiǎn)評(píng)估與應(yīng)對(duì)策略
- 重慶市縣(2024年-2025年小學(xué)六年級(jí)語文)部編版小升初真題((上下)學(xué)期)試卷及答案
- 城鎮(zhèn)再生水循環(huán)利用社會(huì)效益與風(fēng)險(xiǎn)評(píng)估
- -鄉(xiāng)村醫(yī)生述職報(bào)告
- 2024年新型功能材料項(xiàng)目立項(xiàng)申請(qǐng)報(bào)告模范
- 試用期員工轉(zhuǎn)正申請(qǐng)書(匯編15篇)
- DB50T 1689-2024 綠茶型老鷹茶加工技術(shù)規(guī)范
- 初級(jí)消防設(shè)施操作員實(shí)操題庫 (一)
- 國家職業(yè)技術(shù)技能標(biāo)準(zhǔn) 4-02-01-01 軌道列車司機(jī)(動(dòng)車組司機(jī))人社廳發(fā)2019121號(hào)
- CURTIS1232-1234-1236-SE-SERIES交流控制器手冊(cè)
- 2024年國家開放大學(xué)(電大)-混凝土結(jié)構(gòu)設(shè)計(jì)(A)考試近5年真題集錦(頻考類試題)帶答案
- 2024年山東省臨沂蘭山法院招聘司法輔助人員56人歷年高頻500題難、易錯(cuò)點(diǎn)模擬試題附帶答案詳解
- 期末綜合素質(zhì)達(dá)標(biāo)(試題)-2024-2025學(xué)年人教精通版英語五年級(jí)上冊(cè)
- 全國職業(yè)院校技能大賽高職組(商務(wù)數(shù)據(jù)分析賽項(xiàng))備賽試題庫(含答案)
- 印刷數(shù)字工作流程智慧樹知到答案2024年上海出版印刷高等??茖W(xué)校
- 江蘇園林綠化工作計(jì)劃
- GB/T 4706.117-2024家用和類似用途電器的安全第117部分:帶非柔性加熱部件的電暖床墊的特殊要求
評(píng)論
0/150
提交評(píng)論