大數(shù)據(jù)分析及應(yīng)用項(xiàng)目教程(Spark SQL)(微課版) 課件 許慧 第1、2章 大數(shù)據(jù)分析概述、實(shí)踐環(huán)境準(zhǔn)備_第1頁
大數(shù)據(jù)分析及應(yīng)用項(xiàng)目教程(Spark SQL)(微課版) 課件 許慧 第1、2章 大數(shù)據(jù)分析概述、實(shí)踐環(huán)境準(zhǔn)備_第2頁
大數(shù)據(jù)分析及應(yīng)用項(xiàng)目教程(Spark SQL)(微課版) 課件 許慧 第1、2章 大數(shù)據(jù)分析概述、實(shí)踐環(huán)境準(zhǔn)備_第3頁
大數(shù)據(jù)分析及應(yīng)用項(xiàng)目教程(Spark SQL)(微課版) 課件 許慧 第1、2章 大數(shù)據(jù)分析概述、實(shí)踐環(huán)境準(zhǔn)備_第4頁
大數(shù)據(jù)分析及應(yīng)用項(xiàng)目教程(Spark SQL)(微課版) 課件 許慧 第1、2章 大數(shù)據(jù)分析概述、實(shí)踐環(huán)境準(zhǔn)備_第5頁
已閱讀5頁,還剩54頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第1章大數(shù)據(jù)分析概述關(guān)于大數(shù)據(jù)分析第一部分什么是大數(shù)據(jù)分析大數(shù)據(jù)分析可視化大數(shù)據(jù)分析工具學(xué)習(xí)目標(biāo)和要求1、了解大數(shù)據(jù)分析的概念、特點(diǎn)、類別、優(yōu)缺點(diǎn)。2、知道大數(shù)據(jù)分析的相關(guān)工具。3、了解大數(shù)據(jù)分析可視化的概念及相關(guān)工具。什么是大數(shù)據(jù)分析12345Volume(容量)Velocity(速度)Variety(種類)Value(價(jià)值)Veracity(真實(shí)性)1、大數(shù)據(jù)的“5V”特征大數(shù)據(jù)是指無法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,大數(shù)據(jù)分析就是指對(duì)規(guī)模巨大的數(shù)據(jù)進(jìn)行數(shù)據(jù)分析。什么是大數(shù)據(jù)分析2、大數(shù)據(jù)分析概念數(shù)據(jù)分析量大1234數(shù)據(jù)處理速度快數(shù)據(jù)分析類型多數(shù)據(jù)價(jià)值密度低3、大數(shù)據(jù)分析的特點(diǎn)BigDataAnalysis5數(shù)據(jù)的可靠性低什么是大數(shù)據(jù)分析什么是大數(shù)據(jù)分析4、大數(shù)據(jù)分析類別預(yù)測分析關(guān)注的是對(duì)未來事件的預(yù)測。預(yù)測性分析規(guī)范性分析是指在發(fā)生問題之后,根據(jù)問題診斷性分析之后,結(jié)合預(yù)測性分析,做出相應(yīng)的優(yōu)化建議和行動(dòng)。規(guī)范性分析針對(duì)過去已經(jīng)發(fā)生的事情,分析該事件產(chǎn)生的原因。診斷性分析描述性分析是描述過去的數(shù)據(jù),基于歷史數(shù)據(jù)描述發(fā)生了什么,對(duì)過去的大量歷史數(shù)據(jù)進(jìn)行匯總分析描述,以簡單可讀的方式進(jìn)行呈現(xiàn)。描述性分析為優(yōu)質(zhì)決策提供參考;提高產(chǎn)品開發(fā)創(chuàng)新力;改善客戶服務(wù)體驗(yàn);提升風(fēng)險(xiǎn)管理優(yōu)勢缺點(diǎn)信息透明化成本高數(shù)據(jù)質(zhì)量低技術(shù)更新變化快什么是大數(shù)據(jù)分析5、大數(shù)據(jù)分析的優(yōu)勢與缺點(diǎn)大數(shù)據(jù)分析工具(1)ApacheSpark:具有SparkSQL、Streaming實(shí)時(shí)計(jì)算、機(jī)器學(xué)習(xí)和SparkGraphX圖計(jì)算的內(nèi)置功能。(2)Hbase:HBase是一個(gè)基于HDFS的面向列的分布式數(shù)據(jù)庫。(3)Storm:Storm是流處理的代表性實(shí)現(xiàn)之一。Storm具有低延遲、高性能、分布式、可擴(kuò)展、容錯(cuò)、可靠性、快速等特點(diǎn)。(4)Flink:

Flink是一個(gè)框架和分布式處理引擎,用于在無邊界和有邊界數(shù)據(jù)流上進(jìn)行有狀態(tài)的計(jì)算。1、Hadoop生態(tài)圈中的大數(shù)據(jù)分析工具123編程語言Scala語言:Scala語言是基于JVM運(yùn)行環(huán)境、面向?qū)ο蠛秃瘮?shù)式編程的完美結(jié)合Python語言:Python在數(shù)據(jù)分析領(lǐng)域也是一個(gè)強(qiáng)大的語言工具。R語言:是大數(shù)據(jù)分析工具之一,可用于科學(xué)計(jì)算、統(tǒng)計(jì)分析、數(shù)據(jù)可視化等。大數(shù)據(jù)分析工具2、大數(shù)據(jù)分析編程語言RapidMiner其特點(diǎn)是拖拽操作,無需編程,運(yùn)算速度快,具有豐富數(shù)據(jù)挖掘分析和算法功能,常用于解決各種商業(yè)關(guān)鍵問題。12MongoDB是一個(gè)基于分布式文件存儲(chǔ)的數(shù)據(jù)庫。旨在為WEB應(yīng)用提供可擴(kuò)展的高性能數(shù)據(jù)存儲(chǔ)解決方案。大數(shù)據(jù)分析工具3、其他工具

數(shù)據(jù)可視化是利用計(jì)算機(jī)以圖形圖表的形式將原始的抽象信息和數(shù)據(jù)直觀的表示出來。

大數(shù)據(jù)分析可視化工具有很多,比如Zeppelin、PowerBI、Tableau、Spass等等。大數(shù)據(jù)分析可視化認(rèn)識(shí)SparkSQL第二部分SparkSQL背景簡介SparkSQL運(yùn)行原理學(xué)習(xí)目標(biāo)和要求1、了解SparkSQL的背景、特點(diǎn)。2、知道SparkSQL的運(yùn)行架構(gòu)。3、掌握Catalyst查詢編譯器的工作流程。4、掌握SparkSQL運(yùn)行流程。HiveSharkSparkSQLHive是最原始的SQL-on-Hadoop工具。是Facebook開發(fā)的構(gòu)建于Hadoop集群之上的數(shù)據(jù)倉庫應(yīng)用,它提供了類似于SQL語句的HQL語句作為數(shù)據(jù)訪問接口脫離了Hive的依賴,SparkSQL在數(shù)據(jù)兼容、組件擴(kuò)展、性能優(yōu)化方面都得到了極大的提升。Shark是使用Scala語言開發(fā)的開源SQL查詢引擎。其設(shè)計(jì)目標(biāo)是作為Hive的補(bǔ)充,性能比Hive提高了10-100倍。但是Shark對(duì)于Hive依舊存在很多的依賴。SparkSQL背景簡介1、SparkSQL的背景多種性能優(yōu)化技術(shù)組件擴(kuò)展性用戶可以對(duì)SQL的語法解析器、分析器以及優(yōu)化器進(jìn)行重新定義和開發(fā),并動(dòng)態(tài)擴(kuò)展。采用內(nèi)存列存儲(chǔ)(In-MemoryColumnarStorage),字節(jié)碼生成技術(shù)(byte-codegeneration),CostModel對(duì)查詢操作進(jìn)行動(dòng)態(tài)評(píng)估、獲取最佳物理計(jì)劃等。支持多種數(shù)據(jù)源可以在Hive上運(yùn)行SQL或者HQL;可以從RDD、parquet文件、JSON文件中獲取數(shù)據(jù)。SparkSQL背景簡介2、SparkSQL的特點(diǎn)SparkSQL背景簡介多種性能優(yōu)化技術(shù)內(nèi)存列存儲(chǔ)(In-MemoryColumnarStorage)JVM對(duì)象存儲(chǔ)和內(nèi)存列存儲(chǔ)對(duì)比SparkSQL背景簡介多種性能優(yōu)化技術(shù)字節(jié)碼生成技術(shù)(byte-codegeneration)例如執(zhí)行selecta+bfromtable這條命令通用的SQL方法:首先將生成一個(gè)表達(dá)式,并多次調(diào)用虛函數(shù)。SparkSQL:在其catalyst模塊的expressions中增加了codegen模塊。使用動(dòng)態(tài)字節(jié)碼生成技術(shù)來優(yōu)化其性能,對(duì)匹配的表達(dá)式采用特定的代碼動(dòng)態(tài)編譯,然后運(yùn)行。SparkSQL運(yùn)行原理1、SparkSQL的運(yùn)行架構(gòu)SparkSQL的整體架構(gòu)SparkSQL是由Catalyst,Core,Hive和Hive-Thriftserver四個(gè)子項(xiàng)目組成。SparkSQL運(yùn)行原理(1)Catalyst:負(fù)責(zé)處理整個(gè)查詢過程,包括解析、綁定、優(yōu)化等,將SQL語句轉(zhuǎn)換成物理執(zhí)行計(jì)劃。(2)Core:用于將Catalyst的邏輯查詢計(jì)劃轉(zhuǎn)換為SparkRDD代碼。(3)Hive:Hive組件包括HiveContext和SQLContext,允許用戶使用HiveQL的子集編寫查詢。(4)Hive-Thriftserver:支持HiveServer和CLI。SparkSQL運(yùn)行原理2、Catalyst查詢編譯器(1)Catalyst的組成:Parser、Analyzer、Optimizer、Planner(2)Catalyst的工作流程Catalyst運(yùn)行流程SparkSQL運(yùn)行原理3、SparkSQL的運(yùn)行原理(1)傳統(tǒng)SQL的運(yùn)行流程詞法和語法解析(Parse)綁定(Bind)優(yōu)化(Optimize)執(zhí)行(Execute)SparkSQL運(yùn)行原理(2)SparkSQL運(yùn)行流程SessionCatalog保存元數(shù)據(jù)ANTLR生成未綁定的邏輯計(jì)劃Analyzer綁定邏輯計(jì)劃Optimizer優(yōu)化邏輯計(jì)劃SparkPlanner生成可執(zhí)行的物理計(jì)劃CostModel選擇最佳物理執(zhí)行計(jì)劃execute執(zhí)行物理計(jì)劃小結(jié)

本章首先對(duì)大數(shù)據(jù)分析進(jìn)行了介紹,詳細(xì)闡述了大數(shù)據(jù)分析的相關(guān)概念、特點(diǎn)、類別及優(yōu)缺點(diǎn);簡單介紹了大數(shù)據(jù)分析的常用工具;并對(duì)大數(shù)據(jù)分析可視化的優(yōu)勢價(jià)值等進(jìn)行了分析。然后對(duì)大數(shù)據(jù)分析工具中的SparkSQL展開了詳盡的描述,包括SparkSQL的發(fā)展演變歷程、特點(diǎn)、運(yùn)行架構(gòu)原理等內(nèi)容。THANKS!第2章實(shí)踐環(huán)境準(zhǔn)備Hadoop集群環(huán)境搭建第一部分環(huán)境準(zhǔn)備啟動(dòng)Hadoop集群運(yùn)行經(jīng)典案例wordcount安裝Hadoop學(xué)習(xí)目標(biāo)和要求1、掌握Hadoop集群環(huán)境搭建的環(huán)境準(zhǔn)備工作,包括配置主機(jī)名、防火墻設(shè)置、免密登錄設(shè)置、Java環(huán)境設(shè)置。2、掌握安裝Hadoop的過程、配置文件設(shè)置及啟動(dòng)集群的方法。3、會(huì)在Hadoop集群運(yùn)行經(jīng)典案例wordcount。環(huán)境準(zhǔn)備1、集群節(jié)點(diǎn)規(guī)劃此集群由三個(gè)節(jié)點(diǎn)構(gòu)成,分別是master、slaver01、slaver02。集群搭建部署均在虛擬機(jī)中完成,使用VMwareWorkstation16Pro虛擬計(jì)算機(jī)軟件。環(huán)境準(zhǔn)備2、配置主機(jī)名和IP(1)修改對(duì)應(yīng)虛擬機(jī)的IP地址:

vi/etc/sysconfig/network-scripts/ifcfg-ens33(2)將三臺(tái)虛擬機(jī)的主機(jī)名修改為master、slaver01、slaver02。

hostnamectlset-hostname主機(jī)名(3)重啟網(wǎng)絡(luò),使網(wǎng)絡(luò)配置生效。

systemctlrestartnetwork環(huán)境準(zhǔn)備3、連接MobaXterm終端工具使用MobaXterm終端工具,為master、slaver01和slaver02創(chuàng)建SSH連接。環(huán)境準(zhǔn)備4、關(guān)閉防火墻

防火墻是對(duì)服務(wù)器進(jìn)行保護(hù)的一種服務(wù),但有時(shí)候會(huì)帶來很多麻煩,它會(huì)妨礙Hadoop集群間的相互通信,所以我們要關(guān)閉防火墻。關(guān)閉master、slaver01和slaver02主機(jī)的防火墻,并設(shè)置開機(jī)不自啟。systemctlstatusfirewalldsystemctlstopfirewalldsystemctldisablefirewalldsystemctlstatusfirewalld環(huán)境準(zhǔn)備5、關(guān)閉SElinuxSELINUX是對(duì)系統(tǒng)安全級(jí)別更細(xì)粒度的設(shè)置。關(guān)閉master、slaver01和slaver02主機(jī)的SElinux。vi/etc/sysconfig/selinux環(huán)境準(zhǔn)備6、修改/etc/hosts文件修改master、slaver01和slaver02主機(jī)的/etc/hosts文件,建立主機(jī)和ip地址之間的映射關(guān)系。vi/etc/hosts7、配置免密登錄首先在master節(jié)點(diǎn)創(chuàng)建生成密鑰。將密鑰拷貝到slaver01和slaver02兩個(gè)節(jié)點(diǎn),完成免密登錄配置。環(huán)境準(zhǔn)備8、配置Java環(huán)境在master節(jié)點(diǎn)上傳JDK軟件包并解壓。在.bash_profile文件中配置環(huán)境變量。使用source.bash_profile命令,使.bash_profile文件配置生效。查看Java版本,驗(yàn)證安裝成功。使用scp命令將jdk解壓安裝相關(guān)文件分發(fā)到slaver01和slaver02節(jié)點(diǎn)。安裝Hadoop

由于三個(gè)節(jié)點(diǎn)都需要安裝Hadoop,為了提高部署效率,先在master節(jié)點(diǎn)進(jìn)行部署安裝,然后將相關(guān)的文件和配置拷貝分發(fā)到另外兩個(gè)節(jié)點(diǎn)中。上傳Hadoop安裝包并解壓。修改環(huán)境變量。使環(huán)境變量生效。修改hadoop的配置文件hadoop-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml、workers。分發(fā)Hadoop和環(huán)境變量文件到slaver01和slaver02。格式化HDFS文件系統(tǒng)。啟動(dòng)Hadoop集群1、啟動(dòng)Hadoop集群只需要在master節(jié)點(diǎn)輸入start-all.sh。接著查看各節(jié)點(diǎn)的服務(wù)進(jìn)程。2、打開Google瀏覽器,輸入地址30:8088,可以打開Yarn頁面。3、輸入地址30:9870,可以打開HDFS頁面。案例wordcount通過經(jīng)典案例wordcount,體驗(yàn)Hadoop運(yùn)行MapReduce計(jì)算。1、在本地root目錄下創(chuàng)建一個(gè)txt文件,輸入一段自定義文字。2、上傳文本到到hdfs。案例wordcount3、運(yùn)行命令并查看結(jié)果hadoopjarhadoop-mapreduce-examples-3.2.1.jarwordcount/input/outputSpark集群部署與使用第二部分Spark安裝啟動(dòng)SparkSpark集群測試學(xué)習(xí)目標(biāo)和要求1、掌握Spark集群安裝配置方法。2、會(huì)啟動(dòng)關(guān)閉Spark集群。3、能使用Spark-shell進(jìn)行簡單編程測試。Spark安裝1、上傳軟件包使用MobaXterm工具,將軟件包上傳至master節(jié)點(diǎn)的root目錄下,然后將其解壓到/usr/local目錄中。Spark安裝2、在.bash_profile文件中修改環(huán)境變量執(zhí)行source.bash_profile使環(huán)境變量生效Spark安裝3、修改Spark配置文件(1)配置spark-env.sh文件(2)配置workers文件4、復(fù)制修改spark啟動(dòng)腳本,避免和hadoop的啟動(dòng)腳本沖突。5、分發(fā)Spark安裝文件到slaver01和slaver02。啟動(dòng)Spark1、在master節(jié)點(diǎn)輸入start-spark-all.sh,啟動(dòng)Spark。2、查看各節(jié)點(diǎn)服務(wù)進(jìn)程狀態(tài)(此處已經(jīng)啟動(dòng)Hadoop集群)啟動(dòng)Spark3、Web查看Spark主頁情況在瀏覽器中輸入地址30:8080/,進(jìn)行查看。Spark集群測試1、使用spark-submit工具提交Spark作業(yè)spark-submit提交任務(wù)及參數(shù)說明:--class:應(yīng)用程序的主類,僅針對(duì)java或scala應(yīng)用。--master:master的地址,提交任務(wù)到哪里執(zhí)行,例如spark://host:port,yarn,local。--driver-memory:driver進(jìn)程所使用的內(nèi)存數(shù)量,以字節(jié)為單位??梢灾付ú煌暮缶Y如“512m”或“15g”,默認(rèn)是1G。--executor-memory:executor使用的內(nèi)存數(shù)量,以字節(jié)為單位??梢灾付ú煌暮缶Y如“512m”或“15g”,默認(rèn)是1G。--total-executor-cores:所有executor

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論