海量數(shù)據(jù)場(chǎng)景下的智能監(jiān)控與故障定位_第1頁(yè)
海量數(shù)據(jù)場(chǎng)景下的智能監(jiān)控與故障定位_第2頁(yè)
海量數(shù)據(jù)場(chǎng)景下的智能監(jiān)控與故障定位_第3頁(yè)
海量數(shù)據(jù)場(chǎng)景下的智能監(jiān)控與故障定位_第4頁(yè)
海量數(shù)據(jù)場(chǎng)景下的智能監(jiān)控與故障定位_第5頁(yè)
已閱讀5頁(yè),還剩29頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、海量數(shù)據(jù)場(chǎng)景下的智能監(jiān)控與故障定位滴滴出行架構(gòu)分析背景6海量指標(biāo)的產(chǎn)生 微服務(wù)化&云化:監(jiān)控指標(biāo)量級(jí)提升約100倍 指標(biāo)維度增加:組合爆炸 單機(jī)平均指標(biāo):約10000關(guān)鍵技術(shù)挑戰(zhàn) 計(jì)算與存儲(chǔ) 異常檢測(cè) 故障定位內(nèi)容提綱7一、監(jiān)控架構(gòu)二、異常檢測(cè) 三、快速定位滴滴-監(jiān)控系統(tǒng)概覽8告警與定位異常檢測(cè)(日志/binlog/軌跡)Metric上報(bào)Odin報(bào)警服務(wù)聚合計(jì)算Flink計(jì)算引擎Odin Metric ServerDD-Falcon智能模型傳統(tǒng)闊值Druid自定義指標(biāo)專(zhuān)項(xiàng)指標(biāo)Hbase特征提取個(gè)體監(jiān)控指標(biāo)聚合問(wèn)題定位監(jiān)控可視化數(shù)據(jù)通道服務(wù)清洗指標(biāo)聚合ODP業(yè)務(wù)JoinESOdin監(jiān)控平臺(tái)Her

2、a日志服務(wù)數(shù)據(jù)采集傳輸BI實(shí)時(shí)監(jiān)控把脈問(wèn)題定位9metricsaggr Metric通路借鑒statsd設(shè)計(jì):集成在業(yè)務(wù)代碼內(nèi)部的埋點(diǎn)上報(bào)機(jī)制,走UDP協(xié)議本機(jī)agent聚合:10s粒度聚合,以及維度聚合Server端中心聚合:機(jī)器粒度聚合DD-Falcon實(shí)時(shí)降采樣rrdtool, 寫(xiě)入時(shí) 即完成降采樣(平衡讀寫(xiě)能力)提高 長(zhǎng)時(shí)間跨度 時(shí)的讀效率冷熱分離索引與數(shù)據(jù)分離, 分級(jí)索引, 優(yōu)化索引查詢(xún)緩存10分鐘最新數(shù)據(jù), 優(yōu)化即時(shí)查詢(xún)數(shù)據(jù)清洗通過(guò)容量控制, 兜底通過(guò)多維度自動(dòng)檢測(cè), 主動(dòng)發(fā)現(xiàn)、過(guò)濾非ts數(shù)據(jù)磁盤(pán)讀寫(xiě)優(yōu)化等(由Open-Falcon提供)10 Metric通路:DD-Falcon時(shí)

3、序數(shù)據(jù)存儲(chǔ)+ :日志計(jì)算通路11基于流式計(jì)算的指標(biāo)聚合日志在Flink中完成ETL、Join、聚合,僅存聚合指標(biāo)提供類(lèi)SQL的流式計(jì)算配置化服務(wù)基于Druid存儲(chǔ)的指標(biāo)聚合原始數(shù)據(jù)在Flink完成ETL、Join原始指標(biāo)數(shù)據(jù)存入Druid借助Druid的預(yù)聚合及計(jì)算能力實(shí)現(xiàn)監(jiān)控指標(biāo)聚合數(shù)據(jù)采集傳輸(日志/binlog/軌跡) 聚合計(jì)算Druid自定義指標(biāo)專(zhuān)項(xiàng)指標(biāo)特征提取清洗指標(biāo)聚合ODP業(yè)務(wù)Join Flink計(jì)算引擎 ODP數(shù)據(jù)Join介紹接入數(shù)據(jù)在存儲(chǔ)后轉(zhuǎn)換為數(shù)據(jù)事件,參與流式Join生成通知事件實(shí)時(shí):訂閱通知事件觸發(fā)特征查詢(xún)和特征計(jì)算、監(jiān)控離線:把脈問(wèn)題定位-離線數(shù)據(jù)使用二、異常檢測(cè):背

4、景13海量指標(biāo)的驅(qū)動(dòng) 迫使改變傳統(tǒng)的人工配置模式,探索模型算法 無(wú)監(jiān)督學(xué)習(xí),降低標(biāo)注成本問(wèn)題定義 核心指標(biāo):高準(zhǔn)召率,基于標(biāo)注訓(xùn)練或者人工精細(xì)化調(diào)參 非核心指標(biāo):低成本接入,中準(zhǔn)召率,無(wú)標(biāo)注訓(xùn)練,冷啟動(dòng),基于反饋?zhàn)詣?dòng)調(diào)整模型算法 預(yù)測(cè)+異常判定二、異常檢測(cè):我們經(jīng)歷的幾個(gè)階段141. 人工配置2. 單模型(一陽(yáng)指)3. 多模型(六脈神劍)4. 通用模型(獨(dú)孤九劍)階段2(一陽(yáng)指):?jiǎn)文P腿A指數(shù)平滑15預(yù)測(cè):三階指數(shù)平滑(Holt-Winters) 適用于有趨勢(shì)和周期性的時(shí)序指標(biāo) 模型參數(shù):/,截距/斜率/周期平滑系數(shù) 參數(shù)確定:人工配置自動(dòng)訓(xùn)練:排除異常點(diǎn)最大化擬合度異常判定: 明確上下界:

5、預(yù)測(cè)值 固定閾值 歷史周期點(diǎn)的指數(shù)平滑 滑動(dòng)窗口的偏差標(biāo)準(zhǔn)差階段2(一陽(yáng)指):?jiǎn)文P腿A指數(shù)平滑當(dāng)前應(yīng)用情況 滴滴核心業(yè)務(wù)指標(biāo):百級(jí)別 準(zhǔn)召率90%+適用場(chǎng)景及局限 適用于穩(wěn)定且有周期的指標(biāo) 指標(biāo)需連續(xù)且無(wú)突增突降 接入效率偏低階段3(六脈神劍):多模型,分而治之當(dāng)前應(yīng)用及效果 應(yīng)用于線上萬(wàn)級(jí)別指標(biāo) 召回線上問(wèn)題50+ 準(zhǔn)確率約60% 召回率約70%實(shí)現(xiàn)思路 根據(jù)指標(biāo)特征自動(dòng)尋找合適模型 自動(dòng)選擇模型參數(shù) 目前支持類(lèi)別閾值類(lèi)/同環(huán)比/趨勢(shì)類(lèi)階段3(六脈神劍):分類(lèi)趨勢(shì)類(lèi)同環(huán)比類(lèi)動(dòng)態(tài)閾值類(lèi) 多周期性 有周期性 數(shù)值分布集中 趨勢(shì)性 中低穩(wěn)定,波動(dòng)大 成功率、時(shí)延等指標(biāo) 高穩(wěn)定,波動(dòng)小 平滑,無(wú)突

6、增突降 不平滑,有突增突降動(dòng)態(tài)閾值模型:加權(quán)同環(huán)比模型:階段3(六脈神劍):模型參數(shù)訓(xùn)練階段3(六脈神劍):分類(lèi)模式的缺陷分類(lèi)算法:合理性與準(zhǔn)確性 分類(lèi)邊緣指標(biāo)與模型的適配性差 分類(lèi)覆蓋不全:10%無(wú)法分類(lèi)模型選擇及參數(shù)訓(xùn)練 無(wú)標(biāo)注場(chǎng)景下,參數(shù)訓(xùn)練較困難 新模型研發(fā)成本高,周期長(zhǎng)算法架構(gòu) 不夠靈活,落地略困難階段4(獨(dú)孤九劍):Canary算法-普適性探索21核心思路 回到“預(yù)測(cè)+異常判定”的基本思路 尋找普適性的回歸預(yù)測(cè)模型,彌補(bǔ)HW缺陷特征的全面性 異常判定:基于殘差的概率密度建模默認(rèn)閾值的選擇實(shí)時(shí)標(biāo)注反饋機(jī)制回歸預(yù)測(cè)訓(xùn)練樣本歷史特征擬合回歸模型預(yù)測(cè)值真實(shí)值異常判定殘差值殘差樣本概率密度模

7、型計(jì)算殘差樣本異常概率值概率闈值報(bào)警階段4(獨(dú)孤九劍):Canary算法探索22效果對(duì)比:分類(lèi)算法 vs Canary2300.51準(zhǔn)確率10.80.60.40.20召回率00.51F-Score分類(lèi)算法準(zhǔn)確率:60%召回率:68.6%F-Score:58.5%Canary算法準(zhǔn)確率:72.3%召回率:78.3%F-Score:71.3%三、快速定位24定位案例定位技術(shù)方案案例一:特定errorcode報(bào)警2526案例一:特定errorcode報(bào)警-日志詳情及Trace關(guān)聯(lián)27案例一:特定errorcode報(bào)警-調(diào)用拓?fù)?8案例二:趨勢(shì)類(lèi)指標(biāo)報(bào)警案例二:趨勢(shì)類(lèi)指標(biāo)報(bào)警-成分分析29案例三:性能

8、報(bào)警30案例三:性能報(bào)警-鏈路瓶頸分析31案例四:業(yè)務(wù)問(wèn)題定位33定位技術(shù)方案鏈路追蹤與還原 用戶、訂單、請(qǐng)求、調(diào)用海量日志治理 標(biāo)準(zhǔn)化、云端化、關(guān)聯(lián)分析34鏈路追蹤:用戶,訂單,請(qǐng)求APPRouterTraceID: abcd123模塊1(PHP)模塊3(C+)BridgeQ模塊2(Go)Mysql (DbProxy)KafkaRedis (Codis)TraceID: abcd123CSpanID: 1001TraceID: abcd123CSpanID: 1002TraceID: abcd123CSpanID: 1003TraceID: abcd123CSpanID: 1004Trace

9、ID: abcd123CSpanID: 1004TraceID: abcd123CSpanID: 1004UserID: efg01TraceID: abcd123(OrderID TraceID)PushUserID: bacd01TraceID: abcd123TraceID: abcd123請(qǐng)求鏈路 TraceID透?jìng)?標(biāo)識(shí)唯一一次請(qǐng)求用戶鏈路 APP透?jìng)鱑serID到接入層訂單鏈路 API層:OrderID關(guān)聯(lián)TraceID 司乘數(shù)據(jù)關(guān)聯(lián)鏈路追蹤:調(diào)用鏈鏈路追蹤:內(nèi)部機(jī)制模塊2APPRouter請(qǐng)求線程子線程Thread Local入口函數(shù)子函數(shù)RPC調(diào)用RPC調(diào)用TraceID: a

10、bcd123 CSpanID: 1001Tpackage: TraceID: abcd123SpanID: 1001Tpackage: Trace組件RPC調(diào)用寫(xiě)入Trace 采樣判定Tpackage邏輯獲取Trace 獲取Tpackage獲取Trace 生成CSpanid Tpackage邏輯傳遞 TLS模塊1模塊3模塊4模塊5TraceID: abcd123Tpackage: TraceID: abcd123Tpackage:TraceID: abcd123 CSpanID: 1002Tpackage: TraceID: abcd123 CSpanID: 1003Tpackage: TraceID: abcd123 CSpanID: 1004Tpackage: ID生成 TLS管理 采樣控制Tpackage邏輯內(nèi)部

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論