Map-Reduce 分布式聚類 分布式數(shù)據(jù)預(yù)處理 join操作_第1頁
Map-Reduce 分布式聚類 分布式數(shù)據(jù)預(yù)處理 join操作_第2頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、Map-Reduce論文:基于Map-Reduce分布式日志信息處理研究與實現(xiàn)【中文摘要】隨著互聯(lián)網(wǎng)的高速發(fā)展,電子商務(wù)網(wǎng)站每天需要處理的日志信息多達幾terabyte。如何廉價并且高效地去除日志中的暫時無用信息、提取日志中有用信息是目前我們面臨的一個困難。論文基于Map-Reduce并行處理平臺詳細介紹了如何處理海量日志信息,經(jīng)過日志信息預(yù)處理、用戶聚類等處理過程,最終根據(jù)用戶的訪問商品類情況對用戶進行了聚類。通過使用hadoop云計算平臺有效地避免了傳統(tǒng)單機處理大規(guī)模web日志數(shù)據(jù)運行時間過長或者運行不出結(jié)果的問題,低廉并且高效實現(xiàn)了大規(guī)模原始數(shù)據(jù)的預(yù)處理及聚類。本文以web用戶訪問商品的

2、日志信息為數(shù)據(jù)源。它使用了Map-Reduce思想,該思想共分為兩個階段Map階段信息提??;reduce階段進行數(shù)據(jù)求和。詳細介紹了并實現(xiàn)了基于Map-Reduce超大文件數(shù)據(jù)間的join操作及改進型join操作。然后對上面的處理結(jié)果建立向量空間模型,形成了用戶訪問類向量空間模型。在聚類研究過程中將SOM的自適應(yīng)思想與模糊聚類思想結(jié)合在一起在Map-Reduce平臺上實現(xiàn)。由于傳統(tǒng)模糊聚類具有運行時間長、運算復(fù)雜等特征所以當(dāng)數(shù)據(jù)量大的時候往往無法得出結(jié)果。論文將自適應(yīng)的思想應(yīng).【英文摘要】WiththehighdevelopmentofInternet,e-commercewebsitesno

3、wroutinelyhavetoworkwithlogdatasetswhichareuptoafewterabytesinsize.Howtoremovemessydatatimelywithlowcostandfindoutusefulinformationisaproblemwehavetoface.ThisPaperisbasedonMap-Reduceparallelprocessingplatform.Itintroducestheprocessingofloginformationfromrawdatatofinalmodelandimplementdataextraction,

4、clusteringalgorithmforahugeamountofdata.Finally,wecanclustertheuserswh.【關(guān)鍵詞】Map-Reduce分布式聚類分布式數(shù)據(jù)預(yù)處理join操作【英文關(guān)鍵詞】map-reducedistributeddataminingdatapre-processingjoinoperation【索購全文】聯(lián)系園Qi:138113721EJQ2:139938848【目錄】基于Map-Reduce分布式日志信息處理研究與實現(xiàn)摘要4-5ABSTRACT5第一章緒論8-141.1課題來源及意義8-91.2與本課題有關(guān)的國內(nèi)外研究狀況9-131.2.

5、1數(shù)據(jù)挖掘研究現(xiàn)狀9-101.2.2分布式計算研究現(xiàn)狀10-111.2.3云計算平臺介紹11-131.3本文研究的內(nèi)容和安排13-14第二章hadoop技術(shù)介紹14-202.1hadoop整體架構(gòu)14-172.1.1HDFS14-152.1.2MapReduce15-172.2hadoop應(yīng)用17-192.2.1hbase17-182.2.2hive182.2.3mahout18-192.3本章總結(jié)19-20第三章基于hadoop的日志信息處理20-313.1web日志的內(nèi)容20-243.1.1基本概念21-223.1.2web日志信息預(yù)處理過程22-243.1.2.1數(shù)據(jù)清洗223.1.2.

6、2用戶識別22- 233.1.2.3會話識別233.1.2.4補充路徑23- 243.2hadoop處理數(shù)據(jù)操作24-313.2.1數(shù)據(jù)抽取與求和統(tǒng)計操作24-263.2.1.1數(shù)據(jù)抽取24- 253.2.1.2求和統(tǒng)計功能25-263.2.2基于map-reduce的join操作26-313.2.2.1默認join方式26-283.2.2.2mapjoin方式283.2.2.3改進后join方式28-31第四章基于map-reduce的聚類31-454.1聚類介紹314.2聚類方法分類31-354.2.1劃分聚類324.2.2層次聚類32-334.2.3基于密度的聚類33-344.2.4其他

7、聚類算法34-354.3模糊理論35-364.3.1模糊集合354.3.2模糊關(guān)系35- 364.4模糊聚類36-404.4.1模糊C均值聚類36- 384.4.2模糊自組織映射神經(jīng)網(wǎng)絡(luò)聚類算法38-404.4.2.1自組織特征映射神經(jīng)網(wǎng)絡(luò)38-394.4.2.2模糊自組織特征映射網(wǎng)絡(luò)39-404.5分布式聚類40-444.5.1基于map-reduce模糊C均值聚類41-434.5.2基于map-reduce模糊自組織特征映射網(wǎng)絡(luò)聚類43-444.6本章總結(jié)44-45第五章基于map-reduce的web日志數(shù)據(jù)處理系統(tǒng)實現(xiàn)45-495.1系統(tǒng)環(huán)境455.2系統(tǒng)實現(xiàn)流程45-486.2.1日志信息收集

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論