Hadoop大數(shù)據(jù)開發(fā)基礎(chǔ)與案例實(shí)戰(zhàn)(微課版)課件 5.3WrdCount設(shè)計(jì)思路_第1頁
Hadoop大數(shù)據(jù)開發(fā)基礎(chǔ)與案例實(shí)戰(zhàn)(微課版)課件 5.3WrdCount設(shè)計(jì)思路_第2頁
Hadoop大數(shù)據(jù)開發(fā)基礎(chǔ)與案例實(shí)戰(zhàn)(微課版)課件 5.3WrdCount設(shè)計(jì)思路_第3頁
Hadoop大數(shù)據(jù)開發(fā)基礎(chǔ)與案例實(shí)戰(zhàn)(微課版)課件 5.3WrdCount設(shè)計(jì)思路_第4頁
Hadoop大數(shù)據(jù)開發(fā)基礎(chǔ)與案例實(shí)戰(zhàn)(微課版)課件 5.3WrdCount設(shè)計(jì)思路_第5頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

Hadoop大數(shù)據(jù)項(xiàng)目開發(fā)——單詞統(tǒng)計(jì)分析設(shè)計(jì)目錄content02設(shè)計(jì)思路01設(shè)計(jì)過程part-r-00000的內(nèi)容如下:part-r-00001的內(nèi)容如下:words1.txt的內(nèi)容如下:thisisagoodpigthatisagoodbearwords2.txt的內(nèi)容如下:thisisabadpigthatisabadbearMapReduce案例描述輸入文件是words1.txt和words2.txt兩個(gè)文本文件,文件內(nèi)容僅有字符串和空格。輸出文件為part-r-00000和part-r-00001,文件內(nèi)容是:文件中出現(xiàn)的單詞及單詞出現(xiàn)的次數(shù)。單詞統(tǒng)計(jì)?設(shè)計(jì)思路各個(gè)單詞之間的頻數(shù)不具有相關(guān)性,可以將不同的單詞分發(fā)到不同的節(jié)點(diǎn)上處理;在統(tǒng)計(jì)單詞數(shù)量任務(wù)中,可以將大的數(shù)據(jù)集切分成小的數(shù)據(jù)集,且各數(shù)據(jù)集之間相互獨(dú)立,方便并行處理;MapReduce單詞統(tǒng)計(jì)任務(wù)的解決思路符合MapReduce的編程思想。設(shè)計(jì)思路指定輸入文件所在的位置將兩個(gè)文件切分成兩個(gè)輸入分片,然后對(duì)輸入分片進(jìn)行格式化,文件按行分解,從而形成以行偏移量為key、行內(nèi)容為value的鍵值對(duì)。將鍵值對(duì)的value按空格分解成一個(gè)個(gè)單詞,生成<word,1>形式的鍵值對(duì)。輸入階段輸入分片及其格式化階段設(shè)計(jì)map()函數(shù)階段設(shè)計(jì)思路設(shè)計(jì)reduce()函數(shù),將輸入的<word,list(value)>形式的數(shù)據(jù)進(jìn)行匯總,最后生成以key為單詞、value為單詞頻數(shù)的鍵值對(duì)。系統(tǒng)默認(rèn)的輸出格式為“單詞+空格+單詞頻數(shù)”的形式,若要輸出特定樣式的數(shù)據(jù),需要對(duì)輸出結(jié)果進(jìn)行格式化,需要進(jìn)行指定。指定單詞統(tǒng)計(jì)程序的輸出結(jié)果文件位置。設(shè)計(jì)reduce()函數(shù)階段輸出格式化階段輸出階段設(shè)計(jì)過程1.輸入分片及其格式化:對(duì)輸入分片進(jìn)行格式化操作,形成<key1,value1>形式的數(shù)據(jù)流,key1為偏移量,從0開始,每讀取一個(gè)字符就增加1;value1為每行文本內(nèi)容。包括空格、換行符等設(shè)計(jì)過程map()函數(shù)將接收到的<key1,value1>形式的輸入數(shù)據(jù)流,按空格進(jìn)行拆分,輸出結(jié)果為<key2,1>形式的數(shù)據(jù)。key2為字符串形式的單詞,value的值為1,表示單詞數(shù)為1。2.Map過程設(shè)計(jì)過程將多個(gè)Map任務(wù)的<key2,value2>形式的輸出,處理成<key2,list(value2)>形式的中間結(jié)果。3.Shuffle過程設(shè)計(jì)過程reduce()函數(shù)接收<key2,list(value2)>形式的數(shù)據(jù)流,對(duì)相同單詞的值集合進(jìn)行計(jì)算,匯總出單詞出現(xiàn)的總次數(shù)。4.Reduce過程功能實(shí)現(xiàn)part-r-00000的內(nèi)容如下:part-r-00001的內(nèi)容如下:words1.txt的內(nèi)容如下:thisisagoodpigthatisagoodbearwords2.txt的內(nèi)容如下:thisisabadpigthatisabadbearMapReduce輸入

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論