




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
Hadoop大數(shù)據(jù)項(xiàng)目開發(fā)——單詞統(tǒng)計(jì)分析設(shè)計(jì)目錄content02設(shè)計(jì)思路01設(shè)計(jì)過程part-r-00000的內(nèi)容如下:part-r-00001的內(nèi)容如下:words1.txt的內(nèi)容如下:thisisagoodpigthatisagoodbearwords2.txt的內(nèi)容如下:thisisabadpigthatisabadbearMapReduce案例描述輸入文件是words1.txt和words2.txt兩個(gè)文本文件,文件內(nèi)容僅有字符串和空格。輸出文件為part-r-00000和part-r-00001,文件內(nèi)容是:文件中出現(xiàn)的單詞及單詞出現(xiàn)的次數(shù)。單詞統(tǒng)計(jì)?設(shè)計(jì)思路各個(gè)單詞之間的頻數(shù)不具有相關(guān)性,可以將不同的單詞分發(fā)到不同的節(jié)點(diǎn)上處理;在統(tǒng)計(jì)單詞數(shù)量任務(wù)中,可以將大的數(shù)據(jù)集切分成小的數(shù)據(jù)集,且各數(shù)據(jù)集之間相互獨(dú)立,方便并行處理;MapReduce單詞統(tǒng)計(jì)任務(wù)的解決思路符合MapReduce的編程思想。設(shè)計(jì)思路指定輸入文件所在的位置將兩個(gè)文件切分成兩個(gè)輸入分片,然后對(duì)輸入分片進(jìn)行格式化,文件按行分解,從而形成以行偏移量為key、行內(nèi)容為value的鍵值對(duì)。將鍵值對(duì)的value按空格分解成一個(gè)個(gè)單詞,生成<word,1>形式的鍵值對(duì)。輸入階段輸入分片及其格式化階段設(shè)計(jì)map()函數(shù)階段設(shè)計(jì)思路設(shè)計(jì)reduce()函數(shù),將輸入的<word,list(value)>形式的數(shù)據(jù)進(jìn)行匯總,最后生成以key為單詞、value為單詞頻數(shù)的鍵值對(duì)。系統(tǒng)默認(rèn)的輸出格式為“單詞+空格+單詞頻數(shù)”的形式,若要輸出特定樣式的數(shù)據(jù),需要對(duì)輸出結(jié)果進(jìn)行格式化,需要進(jìn)行指定。指定單詞統(tǒng)計(jì)程序的輸出結(jié)果文件位置。設(shè)計(jì)reduce()函數(shù)階段輸出格式化階段輸出階段設(shè)計(jì)過程1.輸入分片及其格式化:對(duì)輸入分片進(jìn)行格式化操作,形成<key1,value1>形式的數(shù)據(jù)流,key1為偏移量,從0開始,每讀取一個(gè)字符就增加1;value1為每行文本內(nèi)容。包括空格、換行符等設(shè)計(jì)過程map()函數(shù)將接收到的<key1,value1>形式的輸入數(shù)據(jù)流,按空格進(jìn)行拆分,輸出結(jié)果為<key2,1>形式的數(shù)據(jù)。key2為字符串形式的單詞,value的值為1,表示單詞數(shù)為1。2.Map過程設(shè)計(jì)過程將多個(gè)Map任務(wù)的<key2,value2>形式的輸出,處理成<key2,list(value2)>形式的中間結(jié)果。3.Shuffle過程設(shè)計(jì)過程reduce()函數(shù)接收<key2,list(value2)>形式的數(shù)據(jù)流,對(duì)相同單詞的值集合進(jìn)行計(jì)算,匯總出單詞出現(xiàn)的總次數(shù)。4.Reduce過程功能實(shí)現(xiàn)part-r-00000的內(nèi)容如下:part-r-00001的內(nèi)容如下:words1.txt的內(nèi)容如下:thisisagoodpigthatisagoodbearwords2.txt的內(nèi)容如下:thisisabadpigthatisabadbearMapReduce輸入
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年高中歷史選擇題高分攻略建議收藏
- 現(xiàn)代農(nóng)業(yè)技術(shù)與實(shí)踐測(cè)試卷
- 3書的歷史(教學(xué)設(shè)計(jì))-2023-2024學(xué)年科學(xué)二年級(jí)上冊(cè)(教科版)
- 12《我們的食物》教學(xué)設(shè)計(jì)-2023-2024學(xué)年科學(xué)二年級(jí)上冊(cè)青島版
- 17 記金華的雙龍洞教學(xué)設(shè)計(jì)-2023-2024學(xué)年四年級(jí)下冊(cè)語文統(tǒng)編版
- 12我的環(huán)保小搭檔 第1課時(shí)(教學(xué)設(shè)計(jì))-部編版道德與法治二年級(jí)下冊(cè)
- 建筑裝飾設(shè)計(jì)施工合同
- 4少讓父母為我操心(教學(xué)設(shè)計(jì))-2024-2025學(xué)年統(tǒng)編版道德與法治四年級(jí)上冊(cè)
- 5 繭中鉆出了蠶蛾(教學(xué)設(shè)計(jì))2023-2024學(xué)年三年級(jí)下冊(cè)科學(xué) 教科版
- 1 古詩三首 四時(shí)田園雜興(其三十一)教學(xué)設(shè)計(jì)-2023-2024學(xué)年語文五年級(jí)下冊(cè)統(tǒng)編版
- (一模)哈三中2025屆高三第一次模擬考試 語文試題(含答案)
- 2025年甘肅能化金昌能源化工開發(fā)有限公司社會(huì)招聘35人筆試參考題庫附帶答案詳解
- 2025安徽省投資集團(tuán)控股有限公司校園招聘34人筆試參考題庫附帶答案詳解
- 2025年新部編統(tǒng)編版中學(xué)七年級(jí)下冊(cè)歷史全冊(cè)分課知識(shí)點(diǎn)總結(jié)課件105張
- 2025年湖南司法警官職業(yè)學(xué)院?jiǎn)握新殬I(yè)技能測(cè)試題庫審定版
- 2025年湖南科技職業(yè)學(xué)院?jiǎn)握新殬I(yè)技能測(cè)試題庫匯編
- 節(jié)后復(fù)工復(fù)產(chǎn)應(yīng)急預(yù)案
- 2023版《思想道德與法治》(緒論-第一章)緒論 擔(dān)當(dāng)復(fù)興大任 成就時(shí)代新人;第一章 領(lǐng)悟人生真諦 把握人生方向 第3講 創(chuàng)造有意義的人生
- HGT 20714-2023 管道及儀表流程圖(P ID)安全審查規(guī)范 (正式版)
- 《三氣周瑜》兒童故事繪本ppt課件(圖文演講)
- 學(xué)校后勤工作人員績(jī)效工資考核細(xì)則
評(píng)論
0/150
提交評(píng)論