基于APM的智能運(yùn)維體系的實(shí)踐_第1頁(yè)
基于APM的智能運(yùn)維體系的實(shí)踐_第2頁(yè)
基于APM的智能運(yùn)維體系的實(shí)踐_第3頁(yè)
基于APM的智能運(yùn)維體系的實(shí)踐_第4頁(yè)
基于APM的智能運(yùn)維體系的實(shí)踐_第5頁(yè)
已閱讀5頁(yè),還剩33頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、技術(shù)創(chuàng)新,變革未來基于APM的智能運(yùn)維體系的實(shí)踐目錄業(yè)界智能運(yùn)維發(fā)展現(xiàn)狀及趨勢(shì)智能運(yùn)維體系建設(shè)方法論大規(guī)模實(shí)時(shí)監(jiān)控平臺(tái)的實(shí)踐方案智能故障定位與處理實(shí)踐APM 在京東物流的落地實(shí)踐智能運(yùn)維(AIOps)落地規(guī)劃業(yè)界智能運(yùn)維發(fā)展趨勢(shì)新的問題1234正在消失的運(yùn)維運(yùn)維從業(yè)者減少,運(yùn)維專家匱乏運(yùn)維平臺(tái)日趨復(fù)雜,缺乏統(tǒng)一規(guī)劃公司內(nèi)部監(jiān)控/運(yùn)維系統(tǒng)繁多,形成數(shù)據(jù)孤島網(wǎng)絡(luò)拓?fù)淙找鎻?fù)雜,資源云化,虛擬資 源頻繁彈性伸縮。不可靠的CMDB運(yùn)維人數(shù)不變,管理機(jī)器數(shù)翻倍過去1:n 現(xiàn)在1:10越來越復(fù)雜的應(yīng)用拓?fù)湎⒎?wù)器發(fā)消息應(yīng)用E收消息應(yīng)用D收消息收消息數(shù)據(jù)庫(kù)分布式 緩存JDBCJDBC讀緩存分布式 文件系統(tǒng)寫

2、緩存存取應(yīng)用A開放平臺(tái)API 請(qǐng)求無(wú)線客戶端請(qǐng)求前端網(wǎng)頁(yè) 請(qǐng)求應(yīng)用B應(yīng)用C服務(wù)調(diào)用服務(wù)調(diào)用應(yīng)用F應(yīng)用G服務(wù)調(diào)用服務(wù)調(diào)用應(yīng)用H服務(wù)調(diào)用服務(wù)調(diào)用服務(wù)調(diào)用數(shù)據(jù)庫(kù)應(yīng)用AJDBC前端網(wǎng)頁(yè) 請(qǐng)求系統(tǒng)問題定位難快速發(fā)展的APMAPM (應(yīng)用性能管理)市場(chǎng)規(guī)模逐年遞增01020304050607020142015201620172018APM市場(chǎng)規(guī)模(億美元)目前,全球APM市場(chǎng)規(guī)模大約在60億美元左右,預(yù) 計(jì)在五年內(nèi)達(dá)到90億美元APM成為ITOM成長(zhǎng)最快的領(lǐng)域APM能夠?qū)ζ髽I(yè)的關(guān)鍵業(yè)務(wù)應(yīng)用進(jìn)行監(jiān)測(cè)、診斷分 析、優(yōu)化,最終能夠提高應(yīng)用的可靠性和質(zhì)量,保證 良好的用戶體驗(yàn),降低IT成本運(yùn)維角色轉(zhuǎn)變背鍋俠救火員

3、被動(dòng)響應(yīng)主動(dòng)求變需求提煉產(chǎn)品化開發(fā)產(chǎn)品化落地產(chǎn)品意識(shí)推廣落地業(yè)務(wù)數(shù)據(jù)分析過程改進(jìn)技術(shù)運(yùn)營(yíng)事件處理業(yè)務(wù)分析業(yè)務(wù)預(yù)測(cè)業(yè)務(wù)增值架構(gòu)標(biāo)準(zhǔn)化架構(gòu)實(shí)施架構(gòu)優(yōu)化架構(gòu)運(yùn)維運(yùn)維價(jià)值凸顯 新運(yùn)維時(shí)代來臨目錄業(yè)界智能運(yùn)維發(fā)展現(xiàn)狀及趨勢(shì)分 析智能運(yùn)維體系建設(shè)方法論大規(guī)模實(shí)時(shí)監(jiān)控平臺(tái)的實(shí)踐方案智能故障定位與處理實(shí)踐APM 在京東物流的落地實(shí)踐智能運(yùn)維(AIOps)落地規(guī)劃智能運(yùn)維體系建設(shè)方法論統(tǒng)一規(guī)劃、避免重復(fù)建設(shè)標(biāo)準(zhǔn)化是前提產(chǎn)品化設(shè)計(jì)、產(chǎn)品化開發(fā)服務(wù)驅(qū)動(dòng)運(yùn)維中臺(tái)業(yè)務(wù)增值過程改進(jìn)智能運(yùn)維體系建設(shè)方法論閉環(huán)生命周期管理流程管理審計(jì)歸檔目錄業(yè)界智能運(yùn)維發(fā)展現(xiàn)狀及趨勢(shì)智能運(yùn)維體系建設(shè)方法論大規(guī)模實(shí)時(shí)監(jiān)控平臺(tái)的實(shí)踐方案智能故障

4、定位與處理實(shí)踐APM 在京東物流的落地實(shí)踐智能運(yùn)維(AIOps)落地規(guī)劃大規(guī)模實(shí)時(shí)監(jiān)控平臺(tái)V1.0大規(guī)模監(jiān)控平臺(tái)架構(gòu)大規(guī)模實(shí)時(shí)監(jiān)控平臺(tái)V1.0多維度使用率分析助力企業(yè)降本增效多級(jí)部門、應(yīng)用多維度統(tǒng)計(jì)日?qǐng)?bào)、周報(bào)、同比、環(huán)比統(tǒng)計(jì)低資源使用率TOP統(tǒng)計(jì)低負(fù)載應(yīng)用榜單低資源使用率應(yīng)用優(yōu)化建議使用率報(bào)表大規(guī)模實(shí)時(shí)監(jiān)控平臺(tái)V2.0整合多端數(shù)據(jù),解決數(shù)據(jù)孤島問題性能分析、告警分析更加準(zhǔn)確更全面評(píng)估應(yīng)用健康狀況大規(guī)模實(shí)時(shí)監(jiān)控平臺(tái)V2.0整合各種應(yīng)用維度的指標(biāo)分析,提供更全面的應(yīng)用數(shù)據(jù)分析和故障診斷系統(tǒng)指標(biāo)調(diào)用鏈指標(biāo)日志分析數(shù)據(jù)庫(kù)指標(biāo)JVM指標(biāo)應(yīng)用拓?fù)渥詣?dòng)探測(cè)應(yīng)用健康報(bào)告大規(guī)模實(shí)時(shí)監(jiān)控平臺(tái)V2.0日志處理架構(gòu)大

5、規(guī)模實(shí)時(shí)監(jiān)控平臺(tái)V3.0產(chǎn)品規(guī)劃大規(guī)模實(shí)時(shí)監(jiān)控平臺(tái)V3.0預(yù)測(cè)分類:故障預(yù)測(cè)、容量預(yù)測(cè)、性能預(yù)測(cè)預(yù)測(cè)算法:LSTM、多元線性回歸、決策樹、隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)、樸素貝葉斯分類、最小二乘 法、支持向量機(jī) 重點(diǎn)關(guān)注:算法匹配度評(píng)分Kpi自動(dòng)分類并匹配預(yù)測(cè)算法日歷適配、基于節(jié)假日的機(jī)器學(xué)習(xí)算法 基于業(yè)務(wù)關(guān)聯(lián)關(guān)系的預(yù)測(cè)算法預(yù)測(cè)大規(guī)模實(shí)時(shí)監(jiān)控平臺(tái)V3.0紅綠燈大屏可視化目錄業(yè)界智能運(yùn)維發(fā)展現(xiàn)狀及趨勢(shì)智能運(yùn)維體系建設(shè)方法論大規(guī)模實(shí)時(shí)監(jiān)控平臺(tái)的實(shí)踐方案智能故障定位與處理實(shí)踐APM 在京東物流的落地實(shí)踐智能運(yùn)維(AIOps)落地規(guī)劃智能故障處理傳 統(tǒng) 故 障 處 理被動(dòng)故障處理:事后處理:出先故障后開始處理,易

6、造成業(yè)務(wù)中斷;人工處理:基于工作流的故障上報(bào)和處理,層層通知手工定位故障原因,故障修復(fù)時(shí)間長(zhǎng);無(wú)計(jì)劃性:多為突發(fā)情況,進(jìn)行臨時(shí)處理,難免有疏漏之處;報(bào)警爆炸:隨著業(yè)務(wù)增長(zhǎng),報(bào)警越來越多,運(yùn)維人員不堪其擾主動(dòng)故障處理:事前感知:通過故障預(yù)測(cè)算法,預(yù)測(cè)故障類型及發(fā)生時(shí)間,并提前通知項(xiàng)目負(fù)責(zé)人;自動(dòng)處理:決策引擎根據(jù)預(yù)設(shè)的事件處理策略,自動(dòng)執(zhí)行處理指令以及基于機(jī)器學(xué)習(xí)的自動(dòng)故障處理;定時(shí)巡檢:平臺(tái)化的定時(shí)巡檢機(jī)制,給出應(yīng)用健康報(bào)告,問題早發(fā)現(xiàn)早解決;報(bào)警收斂:對(duì)告警做告警篩選、過濾、合并操作,大大減少報(bào)警數(shù)量;故障快照出現(xiàn)告警自動(dòng)抓取現(xiàn)場(chǎng)快照信息快照信息持久化保存根據(jù)自學(xué)習(xí)的知識(shí)庫(kù)提供異常原因分析集

7、成Arthas診斷工具,快速診斷問題根因分析基于雙向過濾的告警通知恢復(fù)輕度中度嚴(yán)重過濾通知處理引擎過濾高級(jí)通知策略方法告警日志告警資產(chǎn)資產(chǎn)資產(chǎn)郵件 短信咚咚 微信調(diào)用鏈告警業(yè)務(wù)告警業(yè)務(wù)告警每周自定義每天每月時(shí)間規(guī)則為保證告警信息能夠及時(shí)準(zhǔn)確的傳達(dá)給系 統(tǒng)管理員,監(jiān)控模塊需要實(shí)現(xiàn)靈活的告警通 知策略雙重過濾的通知方式:資源和通知聯(lián)系人 分別應(yīng)用通知策略,實(shí)現(xiàn)對(duì)通知的雙重安全 過濾目錄業(yè)界智能運(yùn)維發(fā)展現(xiàn)狀及趨勢(shì)智能運(yùn)維體系建設(shè)方法論大規(guī)模實(shí)時(shí)監(jiān)控平臺(tái)的實(shí)踐方案智能故障定位與處理實(shí)踐APM 在京東物流的落地實(shí)踐智能運(yùn)維(AIOps)落地規(guī)劃業(yè)界分布式跟蹤系統(tǒng)Google:Dapper Naver:P

8、inpoint Twitter:Zipkin 點(diǎn)評(píng):Cat阿里:EagleEye京東:JTrace、JD-Hydra(已廢棄)、Callgraph、SGM新浪:Watchman 美團(tuán):MTrace又拍云:Tail其他: OpenTracing、 SkyWalking服務(wù)廠商:Compuware、iMaster、博睿Bonree、聽云、New Relic、云智慧、 OneAPM、AppDyn、Amics京東物流Jtrace分布式跟蹤系統(tǒng)延展性應(yīng)用級(jí)透明低消耗智能分析定義了四個(gè)具體的設(shè)計(jì)目標(biāo)JTrace數(shù)據(jù)結(jié)構(gòu)核心數(shù)據(jù)結(jié)構(gòu)由Span, Trace, 和 TraceId組成:Trace: 多個(gè)Spa

9、n的集合;Span: RPC跟蹤的基本單元;SpanEvent:內(nèi)部方法調(diào)用基本單元TraceId:TransactionId (TxId) : 全局唯一消息的IDSpanIdParentSpanId (pSpanId)Jtrace應(yīng)用示例架構(gòu)設(shè)計(jì)七大能力 :分布式事務(wù)跟蹤,跟蹤分布式應(yīng)用消息自動(dòng)檢測(cè)應(yīng)用拓?fù)?,幫你搞清楚?yīng)用的架構(gòu)水平擴(kuò)展支持大規(guī)模服務(wù)器集群提供代碼級(jí)別的可見性以便輕松定位失敗點(diǎn)和瓶頸使用字節(jié)碼增強(qiáng)技術(shù),添加新功能無(wú)需改動(dòng)代碼集成SQLAdvisor智能化采樣率字節(jié)碼增強(qiáng)技術(shù)JavaAgent:java -javaagent:myagent.jar=mode=test Test

10、功能:可以在加載class文件之前做攔截,對(duì)字節(jié)碼做修改可以在運(yùn)行期對(duì)已加載類的字節(jié)碼做變更,但是這種情況下會(huì)有很多的限制。還有其他一些小眾的功能獲取所有已經(jīng)加載過的類獲取所有已經(jīng)初始化過的類(執(zhí)行過clinit方法,是上面的一個(gè)子集)獲取某個(gè)對(duì)象的大小將某個(gè)jar加入到bootstrap classpath里作為高優(yōu)先級(jí)被bootstrapClassloader加載將某個(gè)jar加入到classpath里供AppClassloard去加載設(shè)置某些native方法的前綴,主要在查找native方法的時(shí)候做規(guī)則匹配java字節(jié)碼框架kernelpluginpluginpluginpluginAge

11、nt內(nèi)部是采用微內(nèi)核+插件的方式微內(nèi)核:封裝了通過ASM或Javassist字節(jié)碼框架對(duì)類進(jìn)行增強(qiáng)插件:插件中指定要增強(qiáng)的類和方法以及增強(qiáng)內(nèi)容優(yōu)點(diǎn)缺點(diǎn)手工埋點(diǎn)要求更少開發(fā)資源API可以更簡(jiǎn)單并最終減少bug的數(shù)量開發(fā)人員必須修改代碼跟蹤級(jí)別低自動(dòng)埋點(diǎn)開發(fā)人員不需要修改代碼可以收集到更多精確的數(shù)據(jù)因 為有字節(jié)碼中的更多信息開發(fā)難開發(fā)人員要求高增加bug發(fā)生的可能性字節(jié)碼增強(qiáng)的價(jià)值隱藏API一旦API被暴露給開發(fā)人員使用,我們作為API的提供者,就不能隨意的修改API。這樣的限制 會(huì)給我們?cè)黾訅毫Α6褂米止?jié)碼增強(qiáng)技術(shù),我們就不必?fù)?dān)心暴露跟蹤API而可以持續(xù)改進(jìn)設(shè)計(jì),不用考慮依賴關(guān) 系。容易啟用或者禁用使用字節(jié)碼增強(qiáng)的缺點(diǎn)是當(dāng)JTrace自身類庫(kù)的采樣代碼出現(xiàn)問題時(shí)可能影響應(yīng)用。不過,可以通過 啟用或者禁用JTrace來解決問題,很簡(jiǎn)單,因?yàn)椴恍枰薷拇a。-javaagent:$AGENT_PATH/pinpoint-bootstrap-$VERSION.jar-Dpinpoint.applicationName=APM性能優(yōu)化使用二進(jìn)制格式(thrift協(xié)議)使用變長(zhǎng)編碼和格式優(yōu)化數(shù)據(jù)記錄(thriftCompactProtocol)用常量表替換重復(fù)的API信息,SQL語(yǔ)句和字符串處理大量請(qǐng)求的采樣使用異步數(shù)據(jù)傳輸來

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論