Spark大數(shù)據(jù)分析平臺架構(gòu)

上傳人：賈*** IP屬地：上海上傳時(shí)間：2022-08-23 格式：PPTX 頁數(shù)：32 大?。?.51MB 積分：25 舉報(bào) 版權(quán)申訴

免費(fèi)預(yù)覽已結(jié)束，剩余27頁可下載查看

 下載本文檔

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、Spark 大數(shù)據(jù)分析平臺架構(gòu)大數(shù)據(jù)計(jì)算平臺架構(gòu)Spark平臺化遇到的問題Spark自動(dòng)化分析和故障診斷大數(shù)據(jù)計(jì)算平臺架構(gòu)StormLibra SQLESYARNHiveSpark CoreFlinkSpark StreamingSpark SQL離線計(jì)算流式計(jì)算OLAP引擎DruidSQL(Spark SQL)Spark MLlib平臺化工具大數(shù)據(jù)計(jì)算平臺架構(gòu)CBT調(diào)度平臺：為Spark、Spark SQL、Hive等離線任務(wù)提供任務(wù)流的配置、管理以及調(diào)度能力。大數(shù)據(jù)計(jì)算平臺架構(gòu)SSMP平臺：針對Spark Streaming提供任務(wù)托管、資源托管以及監(jiān)控報(bào)警的能力，為App 24小時(shí)L

2、ong Running提供穩(wěn)定性保證。大數(shù)據(jù)計(jì)算平臺架構(gòu)機(jī)器學(xué)習(xí)平臺：基于Spark MLlib、 GraphX和Streaming構(gòu)建的在線機(jī)器學(xué)習(xí)平臺，實(shí)現(xiàn)模型訓(xùn)練、調(diào)優(yōu)、發(fā)布的統(tǒng)一。大數(shù)據(jù)計(jì)算平臺架構(gòu)任務(wù)類型2016Q4任務(wù)數(shù)2017年Q2任務(wù)數(shù)Hive任務(wù)10,682個(gè)18,765個(gè)Spark/Spark SQL任務(wù)250個(gè)3000個(gè)Spark Streaming任務(wù)0個(gè)29個(gè)集群規(guī)模：Yarn集群700節(jié)點(diǎn)；任務(wù)規(guī)模：5W 任務(wù)/天；處理的數(shù)據(jù)量：300TB/天；現(xiàn)狀：Spark應(yīng)用越來越廣泛大數(shù)據(jù)計(jì)算平臺架構(gòu)Spark平臺化遇到的問題Spark自動(dòng)化分析和故障診斷Spark平臺

3、化遇到的問題對Spark SQL的認(rèn)識不夠，導(dǎo)致過度的依賴Spark RDD層面的API。對內(nèi)存計(jì)算存在誤解，不合理使用Cache機(jī)制，導(dǎo)致資源浪費(fèi)。不合理的Map、Reduce并發(fā)度設(shè) 置，導(dǎo)致任務(wù)計(jì)算效率低，或?qū)?致任務(wù)調(diào)度Overhead過高，并產(chǎn) 生過多小文件。業(yè)務(wù)方面平臺未提供數(shù)據(jù)來指導(dǎo)用戶去優(yōu) 化Executor個(gè)數(shù)以及內(nèi)存參數(shù)，導(dǎo)致平臺資源利用率過低。平臺未提供數(shù)據(jù)來指導(dǎo)用戶發(fā)現(xiàn) 并解決任務(wù)執(zhí)行過程中，存在的數(shù)據(jù)傾斜、HDFS Commit阻塞，及CPU，內(nèi)存，網(wǎng)絡(luò)資源瓶頸等各種問題。平臺方面Spark平臺化過程中，我們遇到很多問題：Spark平臺化遇到的問題收集數(shù)據(jù)解

4、決問題分析經(jīng)驗(yàn)知識系統(tǒng)給業(yè)務(wù)App提供指標(biāo)分析和事件分析能力。實(shí)時(shí) 系統(tǒng)支持對正在運(yùn) 行的App進(jìn)行數(shù) 據(jù)采集、狀態(tài) 分析，以及實(shí) 時(shí)故障診斷。知識系統(tǒng)將平臺積累下來的經(jīng)驗(yàn)進(jìn)行代碼化，為后續(xù)App提供自動(dòng)化分析工具平臺化大數(shù)據(jù)計(jì)算平臺架構(gòu)Spark平臺化遇到的問題Spark自動(dòng)化分析和故障診斷Spark自動(dòng)化分析和故障診斷華佗Spark App自動(dòng)化分析和故障診斷系統(tǒng)工具將運(yùn)維的經(jīng)驗(yàn)和知識工具化，并配合指標(biāo) 和事件兩種信息，來對任務(wù)進(jìn)行分析和故障診斷Spark自動(dòng)化分析和故障診斷Service-AgentHuatuo ClientHostHostJMX-CollectHDFS

5、YarnHuatuo ServerES事件存儲(chǔ)Druid指標(biāo)存儲(chǔ)Huatuo監(jiān)控平臺指標(biāo)分析事件分析故障診斷異常報(bào)警平臺報(bào)表SparkSpark Listener 機(jī)制Metric SystemEventSystem擴(kuò)展SourcesHuatuo-SinkSpark自動(dòng)化分析和故障診斷Druid是一種適用于時(shí)序化數(shù)據(jù)的OLAP分析引擎。特別適合于統(tǒng)計(jì)分析、系統(tǒng)監(jiān)控等業(yè)務(wù)場景。時(shí)間維度支持：TopN/GroupBy等聚合查詢以及簡單明細(xì)查詢指標(biāo)在：目前Druid作為主要的OLAP引擎進(jìn)行推廣，支撐銷售報(bào)表、金融自助分析、風(fēng)控平臺以及平臺監(jiān)控等十多個(gè)業(yè)務(wù)場景。Spark自動(dòng)化分析和故障診斷故障角

6、度Shuffle數(shù)據(jù)傾斜HDFS Commit阻塞Executor丟失Spill事件分析高維Parquet寫性能診斷RDD Size Estimator耗時(shí)診斷任務(wù)事件流目前提供分析和診斷能力資源角度宿主機(jī)器狀態(tài)分析HDFS資源使用分析Driver/Executor進(jìn) 程狀態(tài)分析資源利用率分析Cache 利用率分析Shuffle內(nèi)存利用率分析性能角度Task耗時(shí)鏈分析長尾Task分析任務(wù)調(diào)度Overhead 分析Reduce并發(fā)度分析JDBC并發(fā)度分析Kafka讀并發(fā)度分析Spark自動(dòng)化分析和故障診斷資源角度：宿主機(jī)器狀態(tài)分析通過對任務(wù)運(yùn)行過程中宿主機(jī)器狀態(tài)進(jìn)行分析，可以判斷任務(wù)的性能瓶

7、頸或故障是否與平臺穩(wěn)定性有關(guān)。Spark自動(dòng)化分析和故障診斷資源角度：Driver/Executor進(jìn)程狀態(tài)分析通過對任務(wù)運(yùn)行過程中宿主進(jìn)程狀態(tài)進(jìn)行分析，可以對進(jìn)程的資源使用情況進(jìn)行監(jiān)控，并判斷是否存在性能瓶頸、句柄泄露等異常。Spark自動(dòng)化分析和故障診斷資源角度：資源利用率分析通過對任務(wù)運(yùn)行過程中宿主進(jìn)程的內(nèi)存利用率進(jìn)行分析，來指導(dǎo)業(yè)務(wù)優(yōu)化任務(wù)的相關(guān)內(nèi)存參數(shù)。Spark自動(dòng)化分析和故障診斷資源角度：資源利用率分析通過對任務(wù)運(yùn)行過程中Executor CPU時(shí)間片利用率進(jìn)行分析，來指導(dǎo)業(yè)務(wù) 優(yōu)化任務(wù)的執(zhí)行器個(gè)數(shù)。Spark自動(dòng)化分析和故障診斷資源角度：Cache利用率分析對Executo

8、r Cache內(nèi)存段的利用率進(jìn)行分析；同時(shí)對任務(wù)的DAG圖進(jìn)行分析，對無用Cache進(jìn)行診斷，以及針對調(diào)用2次以上的RDD給出Cache建議。Spark自動(dòng)化分析和故障診斷故障角度Shuffle數(shù)據(jù)傾斜HDFS Commit阻塞Executor丟失Spill事件分析高維Parquet寫性能診斷RDD Size Estimator耗時(shí)診斷任務(wù)事件流目前提供分析和診斷能力資源角度宿主機(jī)器狀態(tài)分析HDFS資源使用分析Driver/Executor進(jìn) 程狀態(tài)分析資源利用率分析Cache 利用率分析Shuffle內(nèi)存利用率分析性能角度Task耗時(shí)鏈分析長尾Task分析任務(wù)調(diào)度Overhead 分析Re

9、duce并發(fā)度分析JDBC并發(fā)度分析Kafka讀并發(fā)度分析Spark自動(dòng)化分析和故障診斷Task耗時(shí)分析性能角度：Task耗時(shí)鏈分析Spark自動(dòng)化分析和故障診斷性能角度：Task耗時(shí)鏈分析Spark自動(dòng)化分析和故障診斷耗時(shí)鏈?zhǔn)腔赗DD-Iterator來實(shí)現(xiàn)，WholeStageCodeGeneration目前還不支持。性能角度：Task耗時(shí)鏈分析Spark自動(dòng)化分析和故障診斷性能角度：長尾TaskSpark自動(dòng)化分析和故障診斷性能角度：任務(wù)調(diào)度Overhead過大不管是Map操作還是Reduce操作，過于細(xì)碎Task會(huì)占用過多時(shí)間在調(diào)度以及等待調(diào)度上，導(dǎo)致任務(wù)調(diào)度Overhead過大。S

10、park自動(dòng)化分析和故障診斷性能角度：Reduce并發(fā)度分析不合理的Reduce并發(fā)度，是導(dǎo)致任務(wù)調(diào)度overhead主要原因之一。Spark SQL 2.0+ 支持通過spark.sql.adaptive.enabled來設(shè)置Reduce大小自適應(yīng)。Spark自動(dòng)化分析和故障診斷故障角度Shuffle數(shù)據(jù)傾斜HDFS Commit阻塞Executor丟失Spill事件分析高維Parquet寫性能診斷RDD Size Estimator耗時(shí)診斷任務(wù)事件流目前提供分析和診斷能力資源角度宿主機(jī)器狀態(tài)分析HDFS資源使用分析Driver/Executor進(jìn) 程狀態(tài)分析資源利用率分析Cache 利用率分析Shuffle內(nèi)存利用率分析性能角度Task耗時(shí)鏈分析長尾Task分析任務(wù)調(diào)度Overhead 分析Reduce并發(fā)度分析JDBC并發(fā)度分析 Kafka讀并發(fā)度分析Spark自動(dòng)化分析和故障診斷故障角度：Shuffle數(shù)據(jù)傾斜Shuffle數(shù)據(jù)傾斜是一個(gè)非常常見的故障Case。對于業(yè)務(wù)來說，應(yīng)該主動(dòng)去感知并處理可能出現(xiàn)的數(shù)據(jù)傾斜。Spark自動(dòng)化分析和故障診斷詳見: MAPREDUCE-4815：If a job generates many files to commit

人人文庫> 全部分類> 專業(yè)文獻(xiàn) > IT計(jì)算機(jī)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

Spark大數(shù)據(jù)分析平臺架構(gòu)

文檔簡介

溫馨提示

最新文檔

評論

Spark大數(shù)據(jù)分析平臺架構(gòu)

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔