




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
大數(shù)據(jù)分析與實戰(zhàn)項目1
搭建Spark開發(fā)環(huán)境在Linux系統(tǒng)下,搭建Spark開發(fā)環(huán)境,并初步體驗SparkShell編程。在借鑒MapReduce優(yōu)點基礎上,新一代大數(shù)據(jù)計算引擎Spark應運而生,已經(jīng)成為當前大數(shù)據(jù)計算的主流技術。情境導入Spark項目分解Spark序號任務任務說明1認識大數(shù)據(jù)了解大數(shù)據(jù)的內(nèi)涵、產(chǎn)生的來源,理解大數(shù)據(jù)處理的流程。2搭建Hadoop基礎平臺了解Hadoop平臺的基本原理,在本地環(huán)境建立Hadoop基礎平臺(偽分布模式),并初步體驗其用法。3部署Spark計算平臺了解Spark平臺的基本原理,在本地Linux環(huán)境建立Spark計算平臺,并初步體驗其用法。能夠獨立搭建Hadoop大數(shù)據(jù)基礎平臺。了解Hadoop、Spark平臺的產(chǎn)生背景與功能。能夠獨立搭建Spark分布式計算平臺。123學習目標Spark項目1
搭建Spark開發(fā)環(huán)境Spark任務1擁抱大數(shù)據(jù)時代搭建Hadoop基礎平臺部署Spark計算平臺任務2任務3任務分析Spark大數(shù)據(jù)、人工智能、5G等新一代IT技術風起云涌,社會已經(jīng)步入大數(shù)據(jù)時代。何為大數(shù)據(jù)?大數(shù)據(jù)具備哪些特征?大數(shù)據(jù)從哪里產(chǎn)生的?如何處理大數(shù)據(jù),并產(chǎn)生有價值的分析結果?本任務將帶領您探尋答案。大數(shù)據(jù)時代已然來臨Spark當前,數(shù)據(jù)的來源及其數(shù)量正以前所未有的速度增長;2025年全球數(shù)據(jù)總量將增長到175ZB(約合200萬億GB),10年增長10余倍,復合增長率為26%。從資源的角度,數(shù)據(jù)被視為“未來的石油”,被作為戰(zhàn)略性資產(chǎn)進行管理。在國家治理角度,大數(shù)據(jù)被用來提升治理效率,重構治理模式,破解治理難題,它將掀起一場國家治理革命。從經(jīng)濟增長角度,大數(shù)據(jù)是全球經(jīng)濟低迷大背景下的產(chǎn)業(yè)亮點,是戰(zhàn)略新興產(chǎn)業(yè)中最活躍的部分。從國家安全角度,全球數(shù)據(jù)空間沒有國界邊疆,大數(shù)據(jù)能力成為大國之間博弈和較量的利器。大數(shù)據(jù)的內(nèi)涵與特征Spark通常,大數(shù)據(jù)是指無法在有限時間內(nèi)用常規(guī)軟件工具對其進行獲取、存儲、管理和處理的數(shù)據(jù)集合。大數(shù)據(jù)具有如下4個特點(簡稱4v):Volume:表示大數(shù)據(jù)的數(shù)據(jù)體量巨大。Velocity:表示大數(shù)據(jù)的數(shù)據(jù)產(chǎn)生、處理和分析的速度在持續(xù)加快。Variety:表示大數(shù)據(jù)的數(shù)據(jù)類型繁多。Value:表示大數(shù)據(jù)的數(shù)據(jù)價值密度低。大數(shù)據(jù)來自哪里?Spark(1)運營式系統(tǒng)(2)用戶原創(chuàng)內(nèi)容(3)感知式系統(tǒng)大數(shù)據(jù)處理過程Spark(1)數(shù)據(jù)收集:通過Web爬蟲、數(shù)據(jù)庫接口、服務器日志等手段采集數(shù)據(jù)。(2)數(shù)據(jù)預處理:包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)歸約與數(shù)據(jù)轉換等內(nèi)容,可以極大提升數(shù)據(jù)的總體質(zhì)量。(3)數(shù)據(jù)處理與分析:綜合應用IT技術、統(tǒng)計學、機器學習、人工智能等知識,分析現(xiàn)有數(shù)據(jù)(分布式統(tǒng)計分析),然后挖掘數(shù)據(jù)背后隱含的有價值信息(通過聚類與分類、推薦、關聯(lián)分析、深度學習等算法,對未知數(shù)據(jù)進行分布式挖掘)。(4)數(shù)據(jù)可視化與應用
:可視化圖表形式展示;分析處理后的結果應用于管理決策、戰(zhàn)略規(guī)劃等。相關知識小結Spark大數(shù)據(jù)是指無法在有限時間內(nèi)用常規(guī)軟件工具對其進行獲取、存儲、管理和處理的數(shù)據(jù)集合;大數(shù)據(jù)的特點:Volume、Velocity、Variety和Value。大數(shù)據(jù)處理階段:采集、預處理、分析、可視化等借助互聯(lián)網(wǎng)手段,查找大數(shù)據(jù)熱點詞匯;整合同學收集的熱點詞匯,構建一個詞云。任務實施項目1
搭建Spark開發(fā)環(huán)境Spark任務1擁抱大數(shù)據(jù)時代搭建Hadoop基礎平臺部署Spark計算平臺任務2任務3任務分析Spark自2004年誕生以來,Hadoop逐漸成為大數(shù)據(jù)領域的重要事實標準;而Spark可以獨立安裝使用,也可以和Hadoop一起協(xié)同應用,這樣一方面可以發(fā)揮Spark內(nèi)存計算的優(yōu)勢,另外一方面發(fā)揮Hadoop分布式存儲與資源調(diào)度的強項。本項任務將帶領讀者初步了解Hadoop生態(tài),并搭建Hadoop環(huán)境,為后續(xù)Spark環(huán)境部署做好準備。認識Hadoop生態(tài)SparkHadoop是一個由Apache基金會開發(fā)的大數(shù)據(jù)分布式系統(tǒng)基礎架構。用戶可以在不了解分布式底層細節(jié)的情況下,輕松地在Hadoop上開發(fā)、運行分布式程序,充分利用集群的優(yōu)勢,進行高效運算和存儲。Hadoop環(huán)境的搭建SparkHadoop運行模式包括單機模式、偽分布模式、完全分布式模式等;真實的項目應用中,Hadoop是運行在Linux之上的,因此需安裝好Linux操作系統(tǒng)。Linux安裝:(1)安裝虛擬化工具VirtualBox或VMware;
(2)在VirtualBox(VMware)中安裝Linux系統(tǒng)(建議選擇
Ubuntu,對新手比較友好);
(3)為Ubuntu分配的內(nèi)存4G以上,CPU內(nèi)核大于2個。Hadoop環(huán)境的搭建SparkUbuntu自帶root用戶,但其權限太大、存在操作風險;創(chuàng)建新的hadoop用戶,日后的操作均在hadoop用戶下完成。sudouseradd-mhadoop-s/bin/bash#創(chuàng)建一個hadoop用戶sudopasswdhadoop#設置hadoop用戶密碼,按照提示輸入兩次sudoadduserhadoopsudo#將hadoop用戶加入管理員組,以簡化后續(xù)操作sudoapt-getupdate#更新apt,后續(xù)使用apt安裝部分軟件Hadoop環(huán)境的搭建Spark通常Hadoop集群包含若干個節(jié)點(計算機),節(jié)點間相互訪問需要用到SSH(類似于遠程登陸,允許用戶遠程登錄某臺Linux主機并執(zhí)行相關命令)。sudoapt-getinstallopenssh-server#安裝SSHserver,系統(tǒng)提示“您希望繼續(xù)執(zhí)行嗎?[Y/n]”,輸入“y”即可sshlocalhost
#通過ssh方式登錄本機;此過程會有相關提示,輸入yes及hadoop用戶密碼exit
#退出上述sshlocalhostcd~/.ssh/
#若沒有該目錄,請先執(zhí)行一次sshlocalhostssh-keygen-trsa
#會有若干提示,連續(xù)按Enter鍵即可cat./id_rsa.pub>>./authorized_keys
#加入授權Hadoop環(huán)境的搭建SparkHadoop的運行需要依賴JDK,因此在安裝Hadoop前需要安裝并配置好JDK。使用命令mkdir/home/hadoop/soft創(chuàng)建保存軟件的目錄(也可以在圖像用戶界面創(chuàng)建)。到Java官網(wǎng)(/zh_CN/)下載JDK(建議1.8以上版本),并保存于“/home/hadoop/soft”目錄中。Hadoop環(huán)境的搭建Spark將下載的jdk解壓到/usr/local目錄下,并修改目錄名稱:cd/home/hadoop/soft
#
進入Hadoop安裝包所在的目錄sudotar-zxvfjdk-8u221-linux-x64.tar.gz-C/usr/local
#
注意:C為大寫sudomv/usr/local/jdk1.8.0_221//usr/local/jkd1.8#
將解壓后的文件夾改名Hadoop環(huán)境的搭建Spark執(zhí)行命令“gedit~/.bashrc”編輯.bashrc文件,設置環(huán)境變量、添加如下內(nèi)容:exportJAVA_HOME=/usr/local/jdk1.8exportJRE_HOME={JAVA_HOME}/jreexportCLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/libexportPATH=$PATH:${JAVA_HOME}/bin保存上述設置后,使用命令“source~/.bashrc”使配置生效;然后輸入命令“java-version”查看是否安裝成功;如JDK安裝配置成功,則顯示java版本信息。Hadoop環(huán)境的搭建Spark使用如下命令完成Hadoop包的解壓、重命名等工作:sudotar-zxvfhadoop-3.3.5.tar.gz-C/usr/local#Hadoop包解壓到/usr/localsudomv/usr/local/hadoop-3.3.5//usr/local/hadoop#目錄改名,便于后續(xù)操作sudochown-Rhadoop:hadoop/usr/local/hadoop#目錄擁有者改為hadoop用戶Hadoop環(huán)境的搭建Spark修改Hadoop的兩個配置文件core-site.xml和hdfs-site.xml(位于目錄/usr/local/hadoop/etc/hadoop/下),將hdfs的臨時路徑和集群信息等寫入文件中(具體參照本教材)。使用命令“/usr/local/hadoop/bin/hdfsnamenode-format”,完成集群中NameNode的格式化處理。啟動Hadoop,jps驗證。Hadoop平臺的初步體驗SparkHadoopNameNode、DataNode啟動成功后,瀏覽器中輸入http://localhost:9870,可以訪問HadoopWeb界面。Hadoop是當前主流的大數(shù)據(jù)框架,構建了大數(shù)據(jù)計算生態(tài)圈,包含HDFS、MapReduce等眾多組件!Hadoop部署模式:單機模式、偽分布模式及分布式模式等。Spark按照教材提示,完成Hadoop偽分布模式的部署工作,并練習Hadoop及HDFS相關命令。任務實施相關知識小結Spark項目1
搭建Spark開發(fā)環(huán)境Spark任務1擁抱大數(shù)據(jù)時代搭建Hadoop基礎平臺部署Spark計算平臺任務2任務3任務分析Spark既然Hadoop中已經(jīng)有了MapReduce計算引擎,為什么還需要Spark呢?這是因為Spark基于內(nèi)存計算,性能可超過Hadoop百倍,更適合大數(shù)據(jù)處理。本項任務將帶領大家進一步走進Spark的世界,邀您部署自己的Spark計算平臺,并初步體驗Spark分布式計算引擎(編寫程序代碼,輸出結果)。初識SparkSparkApacheSpark是用于大規(guī)模數(shù)據(jù)處理的統(tǒng)一分析引擎,它能夠在內(nèi)存中進行計算,因此Spark比MapReduce更加高效。Spark與Hadoop的比較SparkSpark基于內(nèi)存計算,把中間結果放到內(nèi)存中,帶來了更高的迭代運算效率;Spark提供了一個全面、統(tǒng)一的框架,用于滿足各種不同數(shù)據(jù)集(結構化、非結構化)和數(shù)據(jù)源(批數(shù)據(jù)、流數(shù)據(jù))的大數(shù)據(jù)處理需求。Spark提供的數(shù)據(jù)集操作類型更加豐富,從而可以支持更多類型的應用。Spark基于DAG的任務調(diào)度執(zhí)行機制,比HadoopMapReduce的迭代執(zhí)行機制更優(yōu)越。Spark平臺的部署與體驗Spark準備工作:
(1)完成JDK、Hadoop等部署與配置(已完成);
(2)下載Spark安裝包(官網(wǎng)下載或教材資源中下載)解壓安裝包:sudotar-zxfspark-3.4.2-bin-without-hadoop.tgz-C/usr/local/#解壓sudomv/usr/local/spark-3.4.2-bin-without-hadoop//usr/local/spark#重命名sudochown-Rhadoop:hadoop/usr/local/spark#授權給hadoop用戶初識分布式計算框架SparkSpark進入/usr/local/spark/conf目錄下,復制一份文件spark-env.sh:cp./spark-env.sh.template./spark-env.sh
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 欄桿拆除及更換施工方案
- 2025短期勞動合同全面解析
- 2025至2031年中國反射型普通照明燈泡行業(yè)投資前景及策略咨詢研究報告
- 工廠隔音墻板施工方案
- 2025至2030年中國驗卷機數(shù)據(jù)監(jiān)測研究報告
- 2025至2030年中國鋼制鏈輪數(shù)據(jù)監(jiān)測研究報告
- 2025至2030年中國煤礦防爆特殊型蓄電池電機車數(shù)據(jù)監(jiān)測研究報告
- 2025動產(chǎn)抵押借款合同
- 2025至2030年中國機車車輛及零部件數(shù)據(jù)監(jiān)測研究報告
- 2025至2030年中國數(shù)碼隱形防偽技術數(shù)據(jù)監(jiān)測研究報告
- 接觸網(wǎng)施工-接觸網(wǎng)竣工驗收
- 黑龍江省哈爾濱市香坊區(qū)2023-2024學年八年級上學期期末數(shù)學試題
- GB/Z 43281-2023即時檢驗(POCT)設備監(jiān)督員和操作員指南
- 主動披露報告表
- 煤礦一通三防知識培訓課件
- 2022年版小學《義務教育音樂課程標準》考試復習題庫
- 筑業(yè)海南省建筑工程資料表格填寫范例與指南
- 國家開放大學《廣告學概論》形考任務1-4參考答案
- 畢業(yè)論文建筑消防系統(tǒng)論文
- 自制移動吊車(炮車)方案
- 《咕咚來了》PPT圖文帶mpa
評論
0/150
提交評論