Spark大數(shù)據(jù)分析平臺架構(gòu)_第1頁
Spark大數(shù)據(jù)分析平臺架構(gòu)_第2頁
Spark大數(shù)據(jù)分析平臺架構(gòu)_第3頁
Spark大數(shù)據(jù)分析平臺架構(gòu)_第4頁
Spark大數(shù)據(jù)分析平臺架構(gòu)_第5頁
免費(fèi)預(yù)覽已結(jié)束,剩余27頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、Spark 大數(shù)據(jù)分析平臺架構(gòu)大數(shù)據(jù)計(jì)算平臺架構(gòu)Spark平臺化遇到的問題Spark自動(dòng)化分析和故障診斷大數(shù)據(jù)計(jì)算平臺架構(gòu)StormLibra SQLESYARNHiveSpark CoreFlinkSpark StreamingSpark SQL離線計(jì)算流式計(jì)算OLAP引擎DruidSQL(Spark SQL)Spark MLlib平臺化工具大數(shù)據(jù)計(jì)算平臺架構(gòu)CBT調(diào)度平臺:為Spark、Spark SQL、Hive等離線任務(wù)提供任務(wù)流 的配置、管理以及調(diào)度能力。大數(shù)據(jù)計(jì)算平臺架構(gòu)SSMP平臺:針對Spark Streaming提供任務(wù)托管、資源托管以及 監(jiān)控報(bào)警的能力,為App 24小時(shí)L

2、ong Running提供穩(wěn)定性保證。大數(shù)據(jù)計(jì)算平臺架構(gòu)機(jī)器學(xué)習(xí)平臺:基于Spark MLlib、 GraphX和Streaming構(gòu)建的在 線機(jī)器學(xué)習(xí)平臺,實(shí)現(xiàn)模型訓(xùn)練、調(diào)優(yōu)、發(fā)布的統(tǒng)一。大數(shù)據(jù)計(jì)算平臺架構(gòu)任務(wù)類型2016Q4任務(wù)數(shù)2017年Q2任務(wù)數(shù)Hive任務(wù)10,682個(gè)18,765個(gè)Spark/Spark SQL任務(wù)250個(gè)3000個(gè)Spark Streaming任務(wù)0個(gè)29個(gè)集群規(guī)模:Yarn集群700節(jié)點(diǎn); 任務(wù)規(guī)模:5W 任務(wù)/天;處理的數(shù)據(jù)量:300TB/天;現(xiàn)狀:Spark應(yīng)用越來越廣泛大數(shù)據(jù)計(jì)算平臺架構(gòu)Spark平臺化遇到的問題Spark自動(dòng)化分析和故障診斷Spark平臺

3、化遇到的問題對Spark SQL的認(rèn)識不夠,導(dǎo)致過度的依賴Spark RDD層面的API。對內(nèi)存計(jì)算存在誤解,不合理使 用Cache機(jī)制,導(dǎo)致資源浪費(fèi)。不合理的Map、Reduce并發(fā)度設(shè) 置,導(dǎo)致任務(wù)計(jì)算效率低,或?qū)?致任務(wù)調(diào)度Overhead過高,并產(chǎn) 生過多小文件。業(yè)務(wù)方面平臺未提供數(shù)據(jù)來指導(dǎo)用戶去優(yōu) 化Executor個(gè)數(shù)以及內(nèi)存參數(shù), 導(dǎo)致平臺資源利用率過低。平臺未提供數(shù)據(jù)來指導(dǎo)用戶發(fā)現(xiàn) 并解決任務(wù)執(zhí)行過程中,存在的 數(shù)據(jù)傾斜、HDFS Commit阻塞, 及CPU,內(nèi)存,網(wǎng)絡(luò)資源瓶頸等 各種問題。平臺方面Spark平臺化過程中,我們遇到很多問題:Spark平臺化遇到的問題收集數(shù)據(jù)解

4、決問題分析 經(jīng)驗(yàn)知識 系統(tǒng)給業(yè)務(wù)App提供 指標(biāo)分析和事件 分析能力。實(shí)時(shí) 系統(tǒng)支持對正在運(yùn) 行的App進(jìn)行數(shù) 據(jù)采集、狀態(tài) 分析,以及實(shí) 時(shí)故障診斷。知識 系統(tǒng)將平臺積累下來的 經(jīng)驗(yàn)進(jìn)行代碼化, 為后續(xù)App提供自 動(dòng)化分析工具平臺化大數(shù)據(jù)計(jì)算平臺架構(gòu)Spark平臺化遇到的問題Spark自動(dòng)化分析和故障診斷Spark自動(dòng)化分析和故障診斷華佗Spark App自動(dòng)化分析和故障診斷系統(tǒng)工具將運(yùn)維的經(jīng)驗(yàn)和知識 工具化,并配合指標(biāo) 和事件兩種信息,來對任務(wù)進(jìn)行分析和故障診斷Spark自動(dòng)化分析和故障診斷Service-AgentHuatuo ClientHostHostJMX-CollectHDFS

5、YarnHuatuo ServerES事件存儲(chǔ)Druid指標(biāo)存儲(chǔ)Huatuo監(jiān)控平臺指標(biāo)分析事件分析故障診斷異常報(bào)警平臺報(bào)表SparkSpark Listener 機(jī)制Metric SystemEventSystem擴(kuò)展SourcesHuatuo-SinkSpark自動(dòng)化分析和故障診斷Druid是一種適用于時(shí)序化數(shù)據(jù)的OLAP分析引擎。特別適合于統(tǒng)計(jì)分析、系統(tǒng)監(jiān)控等業(yè)務(wù)場景。時(shí)間維度支持:TopN/GroupBy等聚合查詢以及簡單明細(xì)查詢指標(biāo)在:目前Druid作為主要的OLAP引擎進(jìn)行推廣,支撐銷售報(bào)表、金融自助分析、風(fēng)控平 臺以及平臺監(jiān)控等十多個(gè)業(yè)務(wù)場景。Spark自動(dòng)化分析和故障診斷故障角

6、度Shuffle數(shù)據(jù)傾斜HDFS Commit阻塞Executor丟失Spill事件分析高維Parquet寫性 能診斷RDD Size Estimator耗時(shí)診斷任務(wù)事件流目前提供分析和診斷能力資源角度宿主機(jī)器狀態(tài)分析HDFS資源使用分析Driver/Executor進(jìn) 程狀態(tài)分析資源利用率分析Cache 利用率分析Shuffle內(nèi)存利用率分析性能角度Task耗時(shí)鏈分析長尾Task分析任務(wù)調(diào)度Overhead 分析Reduce并發(fā)度分析JDBC并發(fā)度分析Kafka讀并發(fā)度分析Spark自動(dòng)化分析和故障診斷資源角度:宿主機(jī)器狀態(tài)分析通過對任務(wù)運(yùn)行過程中宿主機(jī)器狀態(tài)進(jìn)行分析,可以判斷任務(wù)的性能 瓶

7、頸或故障是否與平臺穩(wěn)定性有關(guān)。Spark自動(dòng)化分析和故障診斷資源角度:Driver/Executor進(jìn)程狀態(tài)分析通過對任務(wù)運(yùn)行過程中宿主進(jìn)程狀態(tài)進(jìn)行分析,可以對進(jìn)程的資源使用 情況進(jìn)行監(jiān)控,并判斷是否存在性能瓶頸、句柄泄露等異常。Spark自動(dòng)化分析和故障診斷資源角度:資源利用率分析通過對任務(wù)運(yùn)行過程中宿主進(jìn)程的內(nèi)存利用率進(jìn)行分析,來指導(dǎo)業(yè)務(wù)優(yōu)化 任務(wù)的相關(guān)內(nèi)存參數(shù)。Spark自動(dòng)化分析和故障診斷資源角度:資源利用率分析通過對任務(wù)運(yùn)行過程中Executor CPU時(shí)間片利用率進(jìn)行分析,來指導(dǎo)業(yè)務(wù) 優(yōu)化任務(wù)的執(zhí)行器個(gè)數(shù)。Spark自動(dòng)化分析和故障診斷資源角度:Cache利用率分析對Executo

8、r Cache內(nèi)存段的利用率進(jìn)行分析;同時(shí)對任務(wù)的DAG圖進(jìn)行分析,對無用Cache進(jìn)行診斷,以及針對調(diào)用2次以上的RDD給出Cache建議。Spark自動(dòng)化分析和故障診斷故障角度Shuffle數(shù)據(jù)傾斜HDFS Commit阻塞Executor丟失Spill事件分析高維Parquet寫性 能診斷RDD Size Estimator耗時(shí)診斷任務(wù)事件流目前提供分析和診斷能力資源角度宿主機(jī)器狀態(tài)分析HDFS資源使用分析Driver/Executor進(jìn) 程狀態(tài)分析資源利用率分析Cache 利用率分析Shuffle內(nèi)存利用率分析性能角度Task耗時(shí)鏈分析長尾Task分析任務(wù)調(diào)度Overhead 分析Re

9、duce并發(fā)度分析JDBC并發(fā)度分析Kafka讀并發(fā)度分析Spark自動(dòng)化分析和故障診斷Task耗時(shí)分析性能角度:Task耗時(shí)鏈分析Spark自動(dòng)化分析和故障診斷性能角度:Task耗時(shí)鏈分析Spark自動(dòng)化分析和故障診斷耗時(shí)鏈?zhǔn)腔赗DD-Iterator來實(shí)現(xiàn),WholeStageCodeGeneration目前還不支持。性能角度:Task耗時(shí)鏈分析Spark自動(dòng)化分析和故障診斷性能角度:長尾TaskSpark自動(dòng)化分析和故障診斷性能角度:任務(wù)調(diào)度Overhead過大不管是Map操作還是Reduce操作,過于細(xì)碎Task會(huì)占用過多時(shí)間在調(diào)度以及等待調(diào)度上,導(dǎo)致任務(wù)調(diào)度Overhead過大。S

10、park自動(dòng)化分析和故障診斷性能角度:Reduce并發(fā)度分析不合理的Reduce并發(fā)度,是導(dǎo)致任務(wù)調(diào)度overhead主要原因之一。Spark SQL 2.0+ 支持通過spark.sql.adaptive.enabled來設(shè)置Reduce大小 自適應(yīng)。Spark自動(dòng)化分析和故障診斷故障角度Shuffle數(shù)據(jù)傾斜HDFS Commit阻塞Executor丟失Spill事件分析高維Parquet寫性 能診斷RDD Size Estimator耗時(shí)診斷任務(wù)事件流目前提供分析和診斷能力資源角度宿主機(jī)器狀態(tài)分析HDFS資源使用分析Driver/Executor進(jìn) 程狀態(tài)分析資源利用率分析Cache 利用率分析Shuffle內(nèi)存利用率分析性能角度Task耗時(shí)鏈分析長尾Task分析任務(wù)調(diào)度Overhead 分析Reduce并發(fā)度分析JDBC并發(fā)度分析 Kafka讀并發(fā)度分 析Spark自動(dòng)化分析和故障診斷故障角度:Shuffle數(shù)據(jù)傾斜Shuffle數(shù)據(jù)傾斜是一個(gè)非常常見的故障Case。對于業(yè)務(wù)來說,應(yīng)該主動(dòng)去感知并處理可能出現(xiàn)的數(shù)據(jù)傾斜。Spark自動(dòng)化分析和故障診斷詳見: MAPREDUCE-4815:If a job generates many files to commit

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論