版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、廈門大學(xué)計算機科學(xué)系研究生課程 大數(shù)據(jù)技術(shù)原理與應(yīng)用上機練習(xí)MapReduce 編程初級實踐主講教師:林子雨廈門大學(xué)數(shù)據(jù)庫實驗室二零一五年九月 目錄1作業(yè)題目 . . 1 2作業(yè)目的 . . 1 3作業(yè)性質(zhì) . . 1 4作業(yè)考核方法 . . 1 5作業(yè)提交日期與方式 . . 1 6實驗平臺 . . 1 7實驗內(nèi)容和要求 . . 1 8實驗報告 . . 4附錄 1:任課教師介紹 . 4附錄 2:課程教材介紹 . . 5大數(shù)據(jù)技術(shù)原理與應(yīng)用MapReduce 編程初級實踐上機練習(xí)說明主講教師:林子雨E-mail: ziyulin 個人主頁:1作業(yè)題目MapReduce 編程初級實踐。2作業(yè)目的1
2、. 通過實驗掌握基本的 MapReduce 編程方法;2. 掌握用 MapReduce 解決一些常見的數(shù)據(jù)處理問題,包括數(shù)據(jù)去重、數(shù)據(jù)排序和數(shù)據(jù) 挖掘等。3作業(yè)性質(zhì)課后作業(yè),必做,作為課堂平時成績。4作業(yè)考核方法提交上機實驗報告,任課老師根據(jù)上機實驗報告評定成績。5作業(yè)提交日期與方式林子雨編著大數(shù)據(jù)技術(shù)原理與應(yīng)用教材第七章 MapReduce 內(nèi)容結(jié)束后的下一周周 六晚上 9點之前提交。6實驗平臺已經(jīng)配置完成的 Hadoop 偽分布式環(huán)境。7實驗內(nèi)容和要求1. 編程實現(xiàn)文件合并和去重操作對于兩個輸入文件, 即文件 A 和文件 B , 請編寫 MapReduce 程序, 對兩個文件進行合并, 并
3、剔除其中重復(fù)的內(nèi)容,得到一個新的輸出文件 C 。下面是輸入文件和輸出文件的一個樣例 供參考。輸入文件 A 的樣例如下:20150101 x20150102 y20150103 x20150104 y20150105 z20150106 x輸入文件 B 的樣例如下:20150101 y20150102 y20150103 x20150104 z20150105 y根據(jù)輸入文件 A 和 B 合并得到的輸出文件 C 的樣例如下:20150101 x20150101 y20150102 y20150103 x20150104 y20150104 z20150105 y20150105 z2015010
4、6 x2. 編寫程序?qū)崿F(xiàn)對輸入文件的排序現(xiàn)在有多個輸入文件, 每個文件中的每行內(nèi)容均為一個整數(shù)。 要求讀取所有文件中的整 數(shù),進行升序排序后,輸出到一個新的文件中,輸出的數(shù)據(jù)格式為每行兩個整數(shù), 第一個數(shù) 字為第二個整數(shù)的排序位次, 第二個整數(shù)為原待排列的整數(shù)。 下面是輸入文件和輸出文件的 一個樣例供參考。輸入文件 1的樣例如下:33371240輸入文件 2的樣例如下:416395輸入文件 3的樣例如下:14525根據(jù)輸入文件 1、 2和 3得到的輸出文件如下:1 12 43 54 125 166 257 338 379 3910 4011 453. 對給定的表格進行信息挖掘下面給出一個 child-parent 的表格,要求挖掘其中的父子輩關(guān)系,給出祖孫輩關(guān)系的 表格。輸入文件內(nèi)容如下:child parentSteven LucySteven JackJone LucyJone JackLucy MaryLucy F
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- QC/T 757-2024乘用車列車
- 2025-2030年中國超微細(xì)電子線材行業(yè)營銷創(chuàng)新戰(zhàn)略制定與實施研究報告
- 2025-2030年中國景區(qū)旅游行業(yè)開拓第二增長曲線戰(zhàn)略制定與實施研究報告
- 2025-2030年中國化學(xué)機械拋光行業(yè)商業(yè)模式創(chuàng)新戰(zhàn)略制定與實施研究報告
- 2025-2030年中國汽車經(jīng)銷行業(yè)商業(yè)模式創(chuàng)新戰(zhàn)略制定與實施研究報告
- 2025-2030年中國招商服務(wù)行業(yè)資本規(guī)劃與股權(quán)融資戰(zhàn)略制定與實施研究報告
- 路燈桿項目評估報告模板
- 摩托硬件知識培訓(xùn)課件
- 制造業(yè)繪圖知識培訓(xùn)課件
- 2025年度VIP客戶專屬藝術(shù)品收藏服務(wù)協(xié)議2篇
- 四人合伙投資協(xié)議書范本
- 反射療法師3級考試題庫(含答案)
- 山東省濟南市2023-2024學(xué)年高二上學(xué)期期末考試地理試題 附答案
- 期末復(fù)習(xí)試題1(試題)-2024-2025學(xué)年二年級上冊數(shù)學(xué)北師大版
- 安徽省蕪湖市2023-2024學(xué)年高一上學(xué)期期末考試 生物 含解析
- 通用電子嘉賓禮薄
- GB/T 3280-2015不銹鋼冷軋鋼板和鋼帶
- 加拿大——文化ppt
- 100以內(nèi)不進位不退位加減法200道
- 開展創(chuàng)新型課題QC小組活動實施指導(dǎo)意見
- 皮具工藝生產(chǎn)流程(共6頁)
評論
0/150
提交評論