大數(shù)據(jù)處理實(shí)踐PROJECT_第1頁(yè)
大數(shù)據(jù)處理實(shí)踐PROJECT_第2頁(yè)
大數(shù)據(jù)處理實(shí)踐PROJECT_第3頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、工程實(shí)踐與科技創(chuàng)新IV-G:大數(shù)據(jù)處理實(shí)踐Project 2(1)任務(wù)要求使用Wikipedia頁(yè)面間鏈接數(shù)據(jù)集實(shí)現(xiàn) PageRank非序。數(shù)據(jù)集下載地址:links-simple-sorted.zip (323MB)titles-sorted.zip (28MB)文件包含所有 Wikipedia頁(yè)面間的鏈接(英文Wikipedia頁(yè)面)。在links-simple-sorted.txt文件中,每行表示一個(gè) Wikipedia頁(yè)面,跟著該頁(yè)面上的所有鏈接,以鄰接圖形式表示如下:from1: to11 to12 to13 .from2: to21 to22 to23 .from1是一個(gè)整數(shù),表示

2、 Wikipedia的一個(gè)頁(yè)面,to11 to12 是所有從 from1鏈接到的頁(yè)面。可以在titles-sorted.txt中找到對(duì)應(yīng)的頁(yè)面標(biāo)題, titles-sorted.txt中行數(shù)與 Wikipedia頁(yè)面標(biāo)號(hào)一一對(duì)應(yīng)。要求每組同學(xué)安裝并配置自己的Hadoop環(huán)境,并基于MapReduce實(shí)現(xiàn)PageRan博法,然后在自己的 Hadoop集群上對(duì)給 定數(shù)據(jù)集進(jìn)行排序,給出最終排序結(jié)果中top 100的標(biāo)題和PageRank 值。每組同學(xué)可以使用不同的參數(shù)值(teleport)去運(yùn)行PageRanl# 法, 對(duì)結(jié)果做相關(guān)比較。 必須包含一組 teleport 參數(shù)值 ( beta) 為

3、 0.85, iteration=10 的結(jié)果。 同時(shí), 可以與基于 in-links 的排序算法進(jìn)行對(duì)比。當(dāng)然,每組同學(xué)可以在給定的數(shù)據(jù)集上做很多其他有趣的工作,鼓勵(lì)每組同學(xué)完成項(xiàng)目基本要求后實(shí)現(xiàn)一些自己的 idea, 有所創(chuàng)新的小組將會(huì)在最后成績(jī)上得到20%的附加分。提交的所有資料必須完全是每個(gè)小組自己的工作, 被發(fā)現(xiàn)作弊的小組將得到 0 分。Tips: 1、遇到問題及時(shí)反饋給助教; 2、數(shù)據(jù)集過大,運(yùn)行時(shí)間可能過長(zhǎng),可以提取部分?jǐn)?shù)據(jù)供 調(diào)試用。2)任務(wù)結(jié)果形式2.1) Presentation:說明所實(shí)現(xiàn)的排序算法的功能,設(shè)計(jì)目的,創(chuàng)新之處,對(duì)自己的 demo 做功能演示,并說明團(tuán)隊(duì)成員的分工情況。平均每人5 分鐘演講,每個(gè)組5 分鐘回答問題。2.2) 提交材料:i. 源代碼:要求能有良好的注釋,清晰的代碼風(fēng)格。ii. 相應(yīng)的文檔:需要說明詳細(xì)的設(shè)計(jì)方案, 說明各個(gè)模塊的功能, 以及對(duì)應(yīng)的代碼在何處。 說明代碼的運(yùn)行方式, 如果使用了開源框架請(qǐng)注明, 以及不同參數(shù)設(shè)置下的結(jié)果或者截圖。 小組的分工情況,各個(gè)成員的主要貢獻(xiàn)。iii. Presentation 的 ppt3 )時(shí)間節(jié)點(diǎn)( 3. 1) Presentation:11 月 22 日下午 4 點(diǎn) - 6 點(diǎn),電院群樓3 號(hào)樓528。( 3. 2

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論