Spark大數(shù)據(jù)分析實(shí)戰(zhàn)_第1頁(yè)
Spark大數(shù)據(jù)分析實(shí)戰(zhàn)_第2頁(yè)
Spark大數(shù)據(jù)分析實(shí)戰(zhàn)_第3頁(yè)
Spark大數(shù)據(jù)分析實(shí)戰(zhàn)_第4頁(yè)
Spark大數(shù)據(jù)分析實(shí)戰(zhàn)_第5頁(yè)
已閱讀5頁(yè),還剩57頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、Spark大數(shù)據(jù)分析實(shí)戰(zhàn)Spark大數(shù)據(jù)分析實(shí)戰(zhàn)1 Spark簡(jiǎn)介01Part One1 Spark簡(jiǎn)介01Part One1 Spark簡(jiǎn)介1.1 初識(shí)Spark1.2 Spark生態(tài)系統(tǒng)BDAS1.3 Spark架構(gòu)與運(yùn)行邏輯1.4 彈性分布式數(shù)據(jù)集1.5 本章小結(jié) 1.4.1 RDD簡(jiǎn)介1.4.2 RDD算子分類(lèi)1 Spark簡(jiǎn)介1.1 初識(shí)Spark1.2 Spark生2 Spark開(kāi)發(fā)與環(huán)境配置02Part One2 Spark開(kāi)發(fā)與環(huán)境配置02Part One2 Spark開(kāi)發(fā)與環(huán)境配置2.4 配置Spark源碼閱讀環(huán)境2.3 Spark編譯2.2 遠(yuǎn)程調(diào)試Spark程序2.1 S

2、park應(yīng)用開(kāi)發(fā)環(huán)境配置2.1.1 使用Intellij開(kāi)發(fā)Spark程序2.1.2 使用SparkShell進(jìn)行交互式數(shù)據(jù)分析 2.5 本章小結(jié) 2 Spark開(kāi)發(fā)與環(huán)境配置2.4 配置Spark源碼閱讀環(huán)3 BDAS簡(jiǎn)介03Part One3 BDAS簡(jiǎn)介03Part One3 BDAS簡(jiǎn)介3.1 SQL on Spark3.2 Spark Streaming3.5 本章小結(jié)3.4 MLlib3.3 GraphX3 BDAS簡(jiǎn)介3.1 SQL on Spark3.2 Sp3 BDAS簡(jiǎn)介3.1 SQL on Spark3.1.1 為什么使用Spark SQL3.1.2 Spark SQL架

3、構(gòu)分析3 BDAS簡(jiǎn)介3.1 SQL on Spark3.1.1 3 BDAS簡(jiǎn)介3.2 Spark Streaming20203.2.1 Spark Streaming簡(jiǎn)介0120213.2.2 Spark Streaming架構(gòu)0220223.2.3 Spark Streaming原理剖析033 BDAS簡(jiǎn)介3.2 Spark Streaming2023 BDAS簡(jiǎn)介3.3 GraphXCBA3.3.1 GraphX簡(jiǎn)介3.3.2 GraphX的使用簡(jiǎn)介3.3.3 GraphX體系結(jié)構(gòu)3 BDAS簡(jiǎn)介3.3 GraphXCBA3.3.1 Gra3 BDAS簡(jiǎn)介3.4 MLlib3.4.1

4、MLlib簡(jiǎn)介3.4.2 MLlib中的聚類(lèi)和分類(lèi)3 BDAS簡(jiǎn)介3.4 MLlib3.4.1 MLlib簡(jiǎn)介4 Lamda架構(gòu)日志分析流水線04Part One4 Lamda架構(gòu)日志分析流水線04Part One4 Lamda架構(gòu)日志分析流水線4.1 日志分析概述 4.2 日志分析指標(biāo) 4.3 Lamda架構(gòu) 4.4 構(gòu)建日志分析數(shù)據(jù)流水線 4.4.1 用Flume進(jìn)行日志采集4.4.2 用Kafka將日志匯總4.4.3 用Spark Streaming進(jìn)行實(shí)時(shí)日志分析4.4.4 Spark SQL離線日志分析4.4.5 用Flask將日志KPI可視化4.5 本章小結(jié) 4 Lamda架構(gòu)日志

5、分析流水線4.1 日志分析概述5 基于云平臺(tái)和用戶日志的推薦系統(tǒng)05Part One5 基于云平臺(tái)和用戶日志的推薦系統(tǒng)05Part One5 基于云平臺(tái)和用戶日志的推薦系統(tǒng)AEDFBC5.2 系統(tǒng)架構(gòu)5.3 構(gòu)建Node.js應(yīng)用5.5 Spark Streaming實(shí)時(shí)分析用戶日志5.4 數(shù)據(jù)收集與預(yù)處理5.6 MLlib離線訓(xùn)練模型5.1 Azure云平臺(tái)簡(jiǎn)介5 基于云平臺(tái)和用戶日志的推薦系統(tǒng)AEDFBC5.2 系統(tǒng)架5 基于云平臺(tái)和用戶日志的推薦系統(tǒng)5.7 本章小結(jié)5 基于云平臺(tái)和用戶日志的推薦系統(tǒng)5.7 本章小結(jié)5.1 Azure云平臺(tái)簡(jiǎn)介5 基于云平臺(tái)和用戶日志的推薦系統(tǒng)5.1.2

6、Azure數(shù)據(jù)存儲(chǔ)5.1.1 Azure網(wǎng)站模型5.1.3 Azure Queue消息傳遞5.1 Azure云平臺(tái)簡(jiǎn)介5 基于云平臺(tái)和用戶日志的推薦系5 基于云平臺(tái)和用戶日志的推薦系統(tǒng)5.3 構(gòu)建Node.js應(yīng)用CBA5.3.1 創(chuàng)建Azure Web應(yīng)用5.3.2 構(gòu)建本地Node.js網(wǎng)站5.3.3 發(fā)布應(yīng)用到云平臺(tái)5 基于云平臺(tái)和用戶日志的推薦系統(tǒng)5.3 構(gòu)建Node.jsLOGOM.94275.CN5 基于云平臺(tái)和用戶日志的推薦系統(tǒng)5.4 數(shù)據(jù)收集與預(yù)處理15.4.1 通過(guò)JS收集用戶行為日志25.4.2 用戶實(shí)時(shí)行為回傳到Azure QueueLOGOM.94275.CN5 基于云

7、平臺(tái)和用戶日志的推薦系LOGOM.94275.CN5 基于云平臺(tái)和用戶日志的推薦系統(tǒng)5.5 Spark Streaming實(shí)時(shí)分析用戶日志5.5.1 構(gòu)建Azure Queue的Spark Streaming Receiver01025.5.2 Spark Streaming實(shí)時(shí)處理Azure Queue日志035.5.3 Spark Streaming數(shù)據(jù)存儲(chǔ)于Azure TableLOGOM.94275.CN5 基于云平臺(tái)和用戶日志的推薦系5 基于云平臺(tái)和用戶日志的推薦系統(tǒng)5.6 MLlib離線訓(xùn)練模型5.6.1 加載訓(xùn)練數(shù)據(jù)5.6.2 使用rating RDD訓(xùn)練ALS模型5.6.3 使

8、用ALS模型進(jìn)行電影推薦5.6.4 評(píng)估模型的均方差5 基于云平臺(tái)和用戶日志的推薦系統(tǒng)5.6 MLlib離線訓(xùn)練6 Twitter情感分析06Part One6 Twitter情感分析06Part One6 Twitter情感分析6.2 Twitter數(shù)據(jù)收集6.4 Spark Streaming熱點(diǎn)Twitter分析6.6 Spark SQL進(jìn)行Twitter分析6.1 系統(tǒng)架構(gòu)6.3 數(shù)據(jù)預(yù)處理與Cassandra存儲(chǔ)6.5 Spark Streaming在線情感分析6 Twitter情感分析6.2 Twitter數(shù)據(jù)收集6.6 Twitter情感分析6.7 Twitter可視化6.8 本

9、章小結(jié)6 Twitter情感分析6.7 Twitter可視化6.86.2 Twitter數(shù)據(jù)收集6 Twitter情感分析6.2.2 Spark Streaming接收并輸出Tweet6.2.1 設(shè)置6.2 Twitter數(shù)據(jù)收集6 Twitter情感分析6.6.3 數(shù)據(jù)預(yù)處理與Cassandra存儲(chǔ)6 Twitter情感分析6.3.1 添加SBT依賴(lài)6.3.2 創(chuàng)建Cassandra Schema6.3.3 數(shù)據(jù)存儲(chǔ)于Cassandra6.3 數(shù)據(jù)預(yù)處理與Cassandra存儲(chǔ)6 Twitter6 Twitter情感分析6.6 Spark SQL進(jìn)行Twitter分析16.6.1 讀取Cas

10、sandra數(shù)據(jù)26.6.2 查看JSON數(shù)據(jù)模式36.6.3 Spark SQL分析Twitter6 Twitter情感分析6.6 Spark SQL進(jìn)行Tw7 熱點(diǎn)新聞分析系統(tǒng)07Part One7 熱點(diǎn)新聞分析系統(tǒng)07Part One7 熱點(diǎn)新聞分析系統(tǒng)AEDFBC7.2 系統(tǒng)架構(gòu)7.3 爬蟲(chóng)抓取網(wǎng)絡(luò)信息7.5 新聞聚類(lèi)7.4 新聞文本數(shù)據(jù)預(yù)處理7.6 Spark Elastic Search構(gòu)建全文檢索引擎7.1 新聞數(shù)據(jù)分析7 熱點(diǎn)新聞分析系統(tǒng)AEDFBC7.2 系統(tǒng)架構(gòu)7.3 爬蟲(chóng)7 熱點(diǎn)新聞分析系統(tǒng)7.7 本章小結(jié)7 熱點(diǎn)新聞分析系統(tǒng)7.7 本章小結(jié)7 熱點(diǎn)新聞分析系統(tǒng)7.3 爬

11、蟲(chóng)抓取網(wǎng)絡(luò)信息7.3.1 Scrapy簡(jiǎn)介7.3.2 創(chuàng)建基于Scrapy的新聞爬蟲(chóng)7.3.3 爬蟲(chóng)分布式化7 熱點(diǎn)新聞分析系統(tǒng)7.3 爬蟲(chóng)抓取網(wǎng)絡(luò)信息7.3.1 Sc7 熱點(diǎn)新聞分析系統(tǒng)7.5 新聞聚類(lèi)7.5.2 新聞聚類(lèi)02047.5.4 實(shí)時(shí)熱點(diǎn)新聞分析7.5.1 數(shù)據(jù)轉(zhuǎn)換為向量(向量空間模型VSM)037.5.3 詞向量同義詞查詢017 熱點(diǎn)新聞分析系統(tǒng)7.5 新聞聚類(lèi)7.5.2 新聞聚類(lèi)027 熱點(diǎn)新聞分析系統(tǒng)7.6 Spark Elastic Search構(gòu)建全文檢索引擎0102037.6.1 部署Elastic Search7.6.2 用Elastic Search索引Mongo

12、DB數(shù)據(jù)7.6.3 通過(guò)Elastic Search檢索數(shù)據(jù)7 熱點(diǎn)新聞分析系統(tǒng)7.6 Spark Elastic Se8 構(gòu)建分布式的協(xié)同過(guò)濾推薦系統(tǒng)08Part One8 構(gòu)建分布式的協(xié)同過(guò)濾推薦系統(tǒng)08Part One8 構(gòu)建分布式的協(xié)同過(guò)濾推薦系統(tǒng)AEDFBC8.2 協(xié)同過(guò)濾介紹8.3 基于Spark的矩陣運(yùn)算實(shí)現(xiàn)協(xié)同過(guò)濾算法8.5 案例:使用MLlib協(xié)同過(guò)濾實(shí)現(xiàn)電影推薦8.4 基于Spark的MLlib實(shí)現(xiàn)協(xié)同過(guò)濾算法8.6 本章小結(jié)8.1 推薦系統(tǒng)簡(jiǎn)介8 構(gòu)建分布式的協(xié)同過(guò)濾推薦系統(tǒng)AEDFBC8.2 協(xié)同過(guò)濾LOGOM.94275.CN8 構(gòu)建分布式的協(xié)同過(guò)濾推薦系統(tǒng)8.2 協(xié)

13、同過(guò)濾介紹8.2.1 基于用戶的協(xié)同過(guò)濾算法User-based CF01028.2.2 基于項(xiàng)目的協(xié)同過(guò)濾算法Item-based CF038.2.3 基于模型的協(xié)同過(guò)濾推薦Model-based CFLOGOM.94275.CN8 構(gòu)建分布式的協(xié)同過(guò)濾推薦系統(tǒng)8 構(gòu)建分布式的協(xié)同過(guò)濾推薦系統(tǒng)8.3 基于Spark的矩陣運(yùn)算實(shí)現(xiàn)協(xié)同過(guò)濾算法018.3.1 Spark中的矩陣類(lèi)型028.3.2 Spark中的矩陣運(yùn)算038.3.3 實(shí)現(xiàn)User-based協(xié)同過(guò)濾的示例048.3.4 實(shí)現(xiàn)Item-based協(xié)同過(guò)濾的示例058.3.5 基于奇異值分解實(shí)現(xiàn)Model-based協(xié)同過(guò)濾的示例8

14、 構(gòu)建分布式的協(xié)同過(guò)濾推薦系統(tǒng)8.3 基于Spark的矩陣8 構(gòu)建分布式的協(xié)同過(guò)濾推薦系統(tǒng)8.4 基于Spark的MLlib實(shí)現(xiàn)協(xié)同過(guò)濾算法8.4.1 MLlib的推薦算法工具8.4.2 MLlib協(xié)同過(guò)濾推薦示例8 構(gòu)建分布式的協(xié)同過(guò)濾推薦系統(tǒng)8.4 基于Spark的ML8 構(gòu)建分布式的協(xié)同過(guò)濾推薦系統(tǒng)8.5 案例:使用MLlib協(xié)同過(guò)濾實(shí)現(xiàn)電影推薦CBA8.5.1 MovieLens數(shù)據(jù)集8.5.2 確定最佳的協(xié)同過(guò)濾模型參數(shù)8.5.3 利用最佳模型進(jìn)行電影推薦8 構(gòu)建分布式的協(xié)同過(guò)濾推薦系統(tǒng)8.5 案例:使用MLlib9 基于Spark的社交網(wǎng)絡(luò)分析09Part One9 基于Spark

15、的社交網(wǎng)絡(luò)分析09Part One9 基于Spark的社交網(wǎng)絡(luò)分析9.1 社交網(wǎng)絡(luò)介紹9.3 Spark中的K均值算法9.5 社交網(wǎng)絡(luò)中的鏈路預(yù)測(cè)算法9.2 社交網(wǎng)絡(luò)中社團(tuán)挖掘算法9.4 案例:基于Spark的Facebook社團(tuán)挖掘9.6 Spark MLlib中的Logistic回歸9 基于Spark的社交網(wǎng)絡(luò)分析9.1 社交網(wǎng)絡(luò)介紹9.3 9 基于Spark的社交網(wǎng)絡(luò)分析9.7 案例:基于Spark的鏈路預(yù)測(cè)算法9.8 本章小結(jié)9 基于Spark的社交網(wǎng)絡(luò)分析9.7 案例:基于SparkLOGOM.94275.CN9 基于Spark的社交網(wǎng)絡(luò)分析9.1 社交網(wǎng)絡(luò)介紹19.1.1 社交網(wǎng)絡(luò)

16、的類(lèi)型29.1.2 社交網(wǎng)絡(luò)的相關(guān)概念LOGOM.94275.CN9 基于Spark的社交網(wǎng)絡(luò)分析LOGOM.94275.CN9 基于Spark的社交網(wǎng)絡(luò)分析9.2 社交網(wǎng)絡(luò)中社團(tuán)挖掘算法9.2.1 聚類(lèi)分析和K均值算法簡(jiǎn)介9.2.2 社團(tuán)挖掘的衡量指標(biāo)9.2.3 基于譜聚類(lèi)的社團(tuán)挖掘算法LOGOM.94275.CN9 基于Spark的社交網(wǎng)絡(luò)分析9 基于Spark的社交網(wǎng)絡(luò)分析9.3 Spark中的K均值算法9.3.1 Spark中與K均值有關(guān)的 對(duì)象和方法019.3.2 Spark下K均值算法示例029 基于Spark的社交網(wǎng)絡(luò)分析9.3 Spark中的K均值9 基于Spark的社交網(wǎng)絡(luò)分

17、析9.4 案例:基于Spark的Facebook社團(tuán)挖掘AB9.4.2 基于Spark的社團(tuán)挖掘?qū)崿F(xiàn)9.4.1 SNAP社交網(wǎng)絡(luò)數(shù)據(jù)集 介紹9 基于Spark的社交網(wǎng)絡(luò)分析9.4 案例:基于SparkLOGOM.94275.CN9 基于Spark的社交網(wǎng)絡(luò)分析9.5 社交網(wǎng)絡(luò)中的鏈路預(yù)測(cè)算法9.5.1 分類(lèi)學(xué)習(xí)簡(jiǎn)介9.5.2 分類(lèi)器的評(píng)價(jià)指標(biāo)9.5.3 基于Logistic回歸的鏈路預(yù)測(cè)算法LOGOM.94275.CN9 基于Spark的社交網(wǎng)絡(luò)分析LOGOM.94275.CN9 基于Spark的社交網(wǎng)絡(luò)分析9.6 Spark MLlib中的Logistic回歸9.6.1 分類(lèi)器相關(guān)對(duì)象9.6

18、.2 模型驗(yàn)證對(duì)象9.6.3 基于Spark的Logistic回歸示例LOGOM.94275.CN9 基于Spark的社交網(wǎng)絡(luò)分析9 基于Spark的社交網(wǎng)絡(luò)分析9.7 案例:基于Spark的鏈路預(yù)測(cè)算法9.7.1 SNAP符號(hào)社交網(wǎng)絡(luò) Epinions數(shù)據(jù)集019.7.2 基于Spark的鏈路預(yù)測(cè)算法029 基于Spark的社交網(wǎng)絡(luò)分析9.7 案例:基于Spark10 基于Spark的大規(guī)模新聞主題分析10Part One10 基于Spark的大規(guī)模新聞主題分析10Part One10 基于Spark的大規(guī)模新聞主題分析10.1 主題模型簡(jiǎn)介10.2 主題模型LDA10.5 本章小結(jié)10.3

19、 Spark中的LDA模型10.4 案例:Newsgroups新聞的主題分析10 基于Spark的大規(guī)模新聞主題分析10.1 主題模型簡(jiǎn)LOGOM.94275.CN10 基于Spark的大規(guī)模新聞主題分析10.2 主題模型LDAA10.2.1 LDA模型介紹10.2.2 LDA的訓(xùn)練算法BLOGOM.94275.CN10 基于Spark的大規(guī)模新聞LOGOM.94275.CN10 基于Spark的大規(guī)模新聞主題分析10.3 Spark中的LDA模型110.3.1 MLlib對(duì)LDA的支持210.3.2 Spark中LDA模型訓(xùn)練示例LOGOM.94275.CN10 基于Spark的大規(guī)模新聞10 基于Spark的大規(guī)模新聞主題分析10.4 案例:Newsgroups新聞的主題分析10.4.1 Newsgroups數(shù)據(jù)集介紹10.4.2 交叉驗(yàn)證估計(jì)新聞的主題個(gè)數(shù)10.4.3 基于主題模型的文本聚類(lèi)算法10.4.4 基于主題模型的文本分類(lèi)算法10 基于Spark的大規(guī)模新聞主題分析10.4 案例:Ne11 構(gòu)建分布式的搜索引擎11Part One11 構(gòu)建分布式的搜索引擎11Part One11 構(gòu)建分布式的搜索引擎AEDFBC11.2 搜索排序概述11.3 查詢無(wú)關(guān)模型P

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論