下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、Map-Reduce論文:基于Map-Reduce分布式日志信息處理研究與實現(xiàn)【中文摘要】隨著互聯(lián)網(wǎng)的高速發(fā)展,電子商務(wù)網(wǎng)站每天需要處理的日志信息多達幾terabyte。如何廉價并且高效地去除日志中的暫時無用信息、提取日志中有用信息是目前我們面臨的一個困難。論文基于Map-Reduce并行處理平臺詳細介紹了如何處理海量日志信息,經(jīng)過日志信息預(yù)處理、用戶聚類等處理過程,最終根據(jù)用戶的訪問商品類情況對用戶進行了聚類。通過使用hadoop云計算平臺有效地避免了傳統(tǒng)單機處理大規(guī)模web日志數(shù)據(jù)運行時間過長或者運行不出結(jié)果的問題,低廉并且高效實現(xiàn)了大規(guī)模原始數(shù)據(jù)的預(yù)處理及聚類。本文以web用戶訪問商品的
2、日志信息為數(shù)據(jù)源。它使用了Map-Reduce思想,該思想共分為兩個階段Map階段信息提??;reduce階段進行數(shù)據(jù)求和。詳細介紹了并實現(xiàn)了基于Map-Reduce超大文件數(shù)據(jù)間的join操作及改進型join操作。然后對上面的處理結(jié)果建立向量空間模型,形成了用戶訪問類向量空間模型。在聚類研究過程中將SOM的自適應(yīng)思想與模糊聚類思想結(jié)合在一起在Map-Reduce平臺上實現(xiàn)。由于傳統(tǒng)模糊聚類具有運行時間長、運算復(fù)雜等特征所以當(dāng)數(shù)據(jù)量大的時候往往無法得出結(jié)果。論文將自適應(yīng)的思想應(yīng).【英文摘要】WiththehighdevelopmentofInternet,e-commercewebsitesno
3、wroutinelyhavetoworkwithlogdatasetswhichareuptoafewterabytesinsize.Howtoremovemessydatatimelywithlowcostandfindoutusefulinformationisaproblemwehavetoface.ThisPaperisbasedonMap-Reduceparallelprocessingplatform.Itintroducestheprocessingofloginformationfromrawdatatofinalmodelandimplementdataextraction,
4、clusteringalgorithmforahugeamountofdata.Finally,wecanclustertheuserswh.【關(guān)鍵詞】Map-Reduce分布式聚類分布式數(shù)據(jù)預(yù)處理join操作【英文關(guān)鍵詞】map-reducedistributeddataminingdatapre-processingjoinoperation【索購全文】聯(lián)系園Qi:138113721EJQ2:139938848【目錄】基于Map-Reduce分布式日志信息處理研究與實現(xiàn)摘要4-5ABSTRACT5第一章緒論8-141.1課題來源及意義8-91.2與本課題有關(guān)的國內(nèi)外研究狀況9-131.2.
5、1數(shù)據(jù)挖掘研究現(xiàn)狀9-101.2.2分布式計算研究現(xiàn)狀10-111.2.3云計算平臺介紹11-131.3本文研究的內(nèi)容和安排13-14第二章hadoop技術(shù)介紹14-202.1hadoop整體架構(gòu)14-172.1.1HDFS14-152.1.2MapReduce15-172.2hadoop應(yīng)用17-192.2.1hbase17-182.2.2hive182.2.3mahout18-192.3本章總結(jié)19-20第三章基于hadoop的日志信息處理20-313.1web日志的內(nèi)容20-243.1.1基本概念21-223.1.2web日志信息預(yù)處理過程22-243.1.2.1數(shù)據(jù)清洗223.1.2.
6、2用戶識別22- 233.1.2.3會話識別233.1.2.4補充路徑23- 243.2hadoop處理數(shù)據(jù)操作24-313.2.1數(shù)據(jù)抽取與求和統(tǒng)計操作24-263.2.1.1數(shù)據(jù)抽取24- 253.2.1.2求和統(tǒng)計功能25-263.2.2基于map-reduce的join操作26-313.2.2.1默認join方式26-283.2.2.2mapjoin方式283.2.2.3改進后join方式28-31第四章基于map-reduce的聚類31-454.1聚類介紹314.2聚類方法分類31-354.2.1劃分聚類324.2.2層次聚類32-334.2.3基于密度的聚類33-344.2.4其他
7、聚類算法34-354.3模糊理論35-364.3.1模糊集合354.3.2模糊關(guān)系35- 364.4模糊聚類36-404.4.1模糊C均值聚類36- 384.4.2模糊自組織映射神經(jīng)網(wǎng)絡(luò)聚類算法38-404.4.2.1自組織特征映射神經(jīng)網(wǎng)絡(luò)38-394.4.2.2模糊自組織特征映射網(wǎng)絡(luò)39-404.5分布式聚類40-444.5.1基于map-reduce模糊C均值聚類41-434.5.2基于map-reduce模糊自組織特征映射網(wǎng)絡(luò)聚類43-444.6本章總結(jié)44-45第五章基于map-reduce的web日志數(shù)據(jù)處理系統(tǒng)實現(xiàn)45-495.1系統(tǒng)環(huán)境455.2系統(tǒng)實現(xiàn)流程45-486.2.1日志信息收集
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度行政合同行政主體特權(quán)在緊急情況下的適用合同4篇
- 2025版小學(xué)操場運動設(shè)施更新與維修合同3篇
- 體育會展客戶關(guān)系管理考核試卷
- 光纖通信在智能電網(wǎng)故障診斷中的應(yīng)用考核試卷
- 2025年土地轉(zhuǎn)讓合同
- 2025版停車場消防設(shè)施建設(shè)與維護服務(wù)合同3篇
- 2025版木工材料研發(fā)與勞務(wù)合作合同范本3篇
- 2025年寫作創(chuàng)作分期付款合同
- 2025年加盟代理合約協(xié)議
- 2025年家庭矛盾仲裁協(xié)議
- 油氣行業(yè)人才需求預(yù)測-洞察分析
- 《數(shù)據(jù)采集技術(shù)》課件-Scrapy 框架的基本操作
- 2025年河北省單招語文模擬測試二(原卷版)
- 高一化學(xué)《活潑的金屬單質(zhì)-鈉》分層練習(xí)含答案解析
- 圖書館前臺接待工作總結(jié)
- 衛(wèi)生院藥品管理制度
- 理論力學(xué)智慧樹知到期末考試答案章節(jié)答案2024年中國石油大學(xué)(華東)
- 2024老年人靜脈血栓栓塞癥防治中國專家共識(完整版)
- 四年級上冊脫式計算100題及答案
- 上海市12校2023-2024學(xué)年高考生物一模試卷含解析
- 儲能電站火災(zāi)應(yīng)急預(yù)案演練
評論
0/150
提交評論