




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
王肇剛(梓弋)品事業(yè)部-混合云平臺里云高級技術專家王肇剛(花名:梓弋)王肇剛(花名:梓弋),阿里云基礎產品事件部混合云全景監(jiān)控平臺團隊(前阿里集團監(jiān)控平臺Sunfire團隊)及混合云云+應用一體化運維項目負責人。在智能監(jiān)控、運維領域工作多年,一直在努力通過產品化、智能化的方式提升監(jiān)控、運維的效率和能力。?混合云場景下落地可觀測能力的技術挑戰(zhàn)?面向混合云客戶的企業(yè)級監(jiān)控平臺技術架構探索?混合云可觀測實戰(zhàn)案例從監(jiān)控到可觀測控通過采集、分析和使用特定.vs.測通過分析系統(tǒng)主動暴露或生成的數據被動施加關注具體指標和現象關注報警和概況從外掛式監(jiān)控到內置式監(jiān)控從孤立、割裂的指標、事件到全景、全棧化的態(tài)勢感知和關聯分析分析從報警響應到故障全聲明周期的問題排查、處置和長期優(yōu)化主動透出關注上下文和背后原因關注根因和處置方案??捎^測景可觀測一體??捎^測景可觀測一體云平臺、基礎位一體、處置一體化混合云行業(yè)增長趨勢明顯,目前處于攻堅期受監(jiān)控(可觀測)產品自身技術演進趨勢影響眾多的NPM和APM廠商進入ITIM(IT基礎設施監(jiān)控)領域,監(jiān)控產品供應商之間的界限越發(fā)模糊注重分析監(jiān)控工具更多地關注數據采集(收集)和展示,棧監(jiān)控受客戶IT技術形態(tài)演進趨勢影響監(jiān)控領域的客戶更多關注在混合基礎架構(多云、異構網絡、物聯網)等領域的監(jiān)控能力成本運營運維人員希望通過一起使用ITIM工具和云原生監(jiān)控能力,來達成(成本)優(yōu)化的目標?;旌霞軜嫽旌显瓶蛻魧捎^測能力的三大需求服務于故障處理全聲明周期的可觀測能力服務于故障處理全聲明周期的可觀測能力如何進行監(jiān)控元數據如何兼容監(jiān)控視角和數據采集、聚合維度如何滿足應用性能監(jiān)如何觀測應用自身的如何基于應用暴露業(yè)如何進行監(jiān)控元數據如何兼容監(jiān)控視角和數據采集、聚合維度如何滿足應用性能監(jiān)如何觀測應用自身的如何基于應用暴露業(yè)如何在混合架構下度應用架構差異傳統(tǒng)應用架構微服務架構技術棧差異發(fā)語言差異技術框架差異研發(fā)模式差異運維模式差異基于物理機/基于容器/K8S虛擬機運維虛擬機運維技術環(huán)境差異導致全棧監(jiān)控落地困難如何讓監(jiān)控、運維同災……割裂層之二:平臺運營和平臺運維之間的割裂割裂層之三:監(jiān)控報警和應急處置之間的割裂割裂層之四:不同的垂直應用系統(tǒng)之間的割裂如何在割裂的運維體系下落地全景可觀測災……割裂層之二:平臺運營和平臺運維之間的割裂割裂層之三:監(jiān)控報警和應急處置之間的割裂割裂層之四:不同的垂直應用系統(tǒng)之間的割裂遲延成功率成成功率支付網關政務業(yè)務政務中臺門戶網站政企業(yè)務2政企業(yè)務2應門戶網站政企業(yè)務2政企業(yè)務2租戶側contractbusinesscontractbusiness)政企應用2c政企應用2政企應用1Container/ECSContainer/ECSOSS管控OSS管控存儲安全平臺運維平臺側云平臺層運維應用/業(yè)務監(jiān)控獲取拓撲困難運維應用/業(yè)務監(jiān)控獲取拓撲困難?業(yè)務和業(yè)務之間的橫向拓撲?業(yè)務和應用之間的縱向拓撲?應用與應用之間的橫向拓撲?應用與云產品實例(中間件、DB)之間的縱向拓撲?云產品實例和云平臺組件之間的縱向拓撲如何讓監(jiān)控報警更好地服務于故障定界和處置 故障發(fā)現故障定級故障快恢故障定界快恢預案告警服務于故障發(fā)現告警服務于故障快恢報警風暴掩蓋關鍵業(yè)務告警告警服務于故障定級故障定級難以綜合技術容災能力和業(yè)務影響告警服務于故障定界告警和快恢入口割裂,快恢決策依賴人工判斷針對不同監(jiān)控對象的告警雜亂發(fā)送,無法結構化地服務于故障定界?混合云場景下落地可觀測能力的技術挑戰(zhàn)?面向混合云客戶的企業(yè)級監(jiān)控平臺技術架構探索?混合云可觀測實戰(zhàn)案例KPI看板析自愈化定級量預測應急指揮編排智能診斷場景略管理應急快恢能力集成應急業(yè)務視圖應急應用視圖應急盯屏應急預案應急協同應用監(jiān)控業(yè)務監(jiān)控景視圖應用全局拓撲秒級監(jiān)控計算類云實例應用視角云資源池監(jiān)控API控應用健康畫像容器&經典應用程調用監(jiān)控盤KPI看板析自愈化定級量預測應急指揮編排智能診斷場景略管理應急快恢能力集成應急業(yè)務視圖應急應用視圖應急盯屏應急預案應急協同應用監(jiān)控業(yè)務監(jiān)控景視圖應用全局拓撲秒級監(jiān)控計算類云實例應用視角云資源池監(jiān)控API控應用健康畫像容器&經典應用程調用監(jiān)控盤代碼級診斷應用Trace分析數據庫調用監(jiān)控應用核心鏈路Prometheus數據庫類云實例race智能基線檢測成JAVA異常監(jiān)控景檢測集成集成景檢測據管理一存儲管控計算引擎一采控框架場景化監(jiān)控能力驗分析報告演練集成應用云實例拓撲集成存儲類云實例應用云實例拓撲集成存儲類云實例康畫像控控系挖掘警模板注入統(tǒng)一采控平臺代理管理統(tǒng)物理服務器據庫應用系統(tǒng)虛擬機&容器業(yè)務應用應用一體化運維對業(yè)務應用應用一體化運維對象云平臺安全生產業(yè)務場景故障發(fā)現故障定界故障處理事件定級1.集中式調度2.消息驅動3.守護&監(jiān)護Sunfirebraingger SunfirereduceSunfiremaptputManagerctorShareinputManagerggerServerSunfireAgentAli-metricxporterHbaseLindormAlibabaAlarmCenterSunfireAlarm混合云可觀測架構實現路徑1.集中式調度2.消息驅動3.守護&監(jiān)護Sunfirebraingger SunfirereduceSunfiremaptputManagerctorShareinputManagerggerServerSunfireAgentAli-metricxporterHbaseLindormAlibabaAlarmCenterSunfireAlarm起點:阿里集團監(jiān)控平臺(Sunfire)技術架構SunfiremetaSunfirecomputeAlibabaAlibabaCMDBSunfireWEBUI&APISunfireMQLSunfireMQL計算核心業(yè)務指標,不超過4.7秒的數據遲延監(jiān)控集群自身規(guī)模(節(jié)點數量)過萬~分布在阿里集團多個數據中心,生產突襲驗證全局高可用基于消息的異步調度租戶隔離的分布式部署準確拉模式下的數據齊全度保障?客訴量?輿情?輿情反饋?輿情監(jiān)控方案?在線客訴監(jiān)控方案?熱線客訴監(jiān)控方案阿里云ECS宕機數客戶端監(jiān)控APP監(jiān)控方案?Crash率、Crash數(各維度?客訴量?輿情?輿情反饋?輿情監(jiān)控方案?在線客訴監(jiān)控方案?熱線客訴監(jiān)控方案阿里云ECS宕機數客戶端監(jiān)控APP監(jiān)控方案?Crash率、Crash數(各維度)…業(yè)務總量、成功率、耗API…服務端監(jiān)控?日志監(jiān)控解決方案?智能監(jiān)控報警策略方案?端監(jiān)控指標業(yè)務指標釘釘文本消息量優(yōu)酷視頻全國播放量進程容量性能系統(tǒng)監(jiān)控基礎指標監(jiān)控方案應用監(jiān)控?應用服務監(jiān)控方案?HTP、JVM…集團故障應急由業(yè)務監(jiān)控而非系統(tǒng)/應用監(jiān)控觸發(fā)直接根據業(yè)務影響面和影響程度進行實時故障級別判定和指揮調度?基礎服務?網絡?機房?基礎服務監(jiān)控標準方案?網絡監(jiān)控方案系統(tǒng)應用監(jiān)控基礎設施監(jiān)控服務端業(yè)務監(jiān)控起源:阿里集團全局故障應急背景下的監(jiān)控方案 監(jiān)控重點 監(jiān)控重點監(jiān)控解決方案淘寶交易創(chuàng)建量用戶反饋監(jiān)控客戶端業(yè)務監(jiān)控客戶端業(yè)務監(jiān)控不影響業(yè)務的系統(tǒng)/應用報警不觸發(fā)全局的故障應急調度不影響業(yè)務的系統(tǒng)/應用報警不觸發(fā)全局的故障應急調度故故障定義業(yè)務監(jiān)控風險預警故障通告故障快恢應急協同故障復盤混合云可觀測架構實現路徑—阿里集團監(jiān)控平臺轉型之痛直面Sunfire轉型之痛大規(guī)模監(jiān)控計算調度和在混合云現有客戶場景客戶普遍缺失業(yè)務監(jiān)控的理念……急需補全的能力客戶側專有云資源嚴格規(guī)劃,小型化瘦身和部署能力增強是當務之急需要兼容全棧監(jiān)控能力,增加鏈路監(jiān)控和日志集成和兼容客戶側多樣監(jiān)控數據源和監(jiān)控工具……業(yè)務應用云可觀測架構演進路線圖業(yè)務應用云+應用一云平云平臺安全生產業(yè)務場景故障發(fā)現故障定界故障處理事件定級化運維對象實時計算架構和實時計算架構和Prometheus架構兼容智能化框架融合和演進指標監(jiān)控和開源鏈路監(jiān)控系統(tǒng)集成業(yè)務監(jiān)控向三層全景監(jiān)控架構演進面向一體化定級的事件中心架構演進計算架構和Prometheus架構融合 Map-Reduce融合Prometheus計算架構和Prometheus架構融合 Map-Reduce融合Prometheus要點?將Promethues原生架構的計算能力和Sunfire計算、存儲進行有機結合?通過擴展設計,提升了Prometheus的高可用能力。 HAPrometheusGroup指標監(jiān)控和開源鏈路監(jiān)控系統(tǒng)(Skywalking)集成SunfireSunfire*Prometheus*SkyWalking->云原生可觀測性架構演進要點調用鏈信息與應用性能監(jiān)控指標聯動不需要在JavaAgent端加指定參數,能做到服務自發(fā)現檢測邊界可視化線上回溯智能化框架融合和演進檢測邊界可視化線上回溯算法功能演進從智能基線到黃金指標異常檢測,再到智能診斷、智能配置推薦、智能..…智能檢測,根據歷史推測該時間點同比智能檢測,根據歷史推測該時間點同比下跌40%,異常需要關注算法產品化能力迭代算算法參數可配置??算法調度框架任務分發(fā)算法中心調度存儲API任務執(zhí)行報警分發(fā)添加算法場景異步回調回溯算法任務??算法調度框架任務分發(fā)算法中心調度存儲API任務執(zhí)行報警分發(fā)添加算法場景異步回調回溯算法任務公共算法層架構演進要點架構演進要點存算一體化,降低報警發(fā)送延遲統(tǒng)一調度:統(tǒng)一調度分發(fā)任務,控制錯誤重傳等容錯機制,衍生出不同類型的任務調度插件滿足不同類型業(yè)務需求配置存儲時序存儲算法配置界面算法實現框架Api層Service層統(tǒng)一事件中心解決方案事件聚合規(guī)事件抑制配報警收斂報則置告異構事件接入入應用層告警事件接入云平臺層告警事件接入異構事件配置化接入統(tǒng)一推送API統(tǒng)一拉取事件接入事件抑制按時間抑制抖動抑制變更抑制事件通知事件訂閱事件聚合接收人管理通知策略模板渲染統(tǒng)一事件中心解決方案事件聚合規(guī)事件抑制配報警收斂報則置告異構事件接入入應用層告警事件接入云平臺層告警事件接入異構事件配置化接入統(tǒng)一推送API統(tǒng)一拉取事件接入事件抑制按時間抑制抖動抑制變更抑制事件通知事件訂閱事件聚合接收人管理通知策略模板渲染釘釘群通知接收賬號管理逐級通告維度智能聚合Webhook推送渠道管理值班組管理歷史關聯聚合通知組管理比例關聯就高關聯事件關聯報警數據多維分析客戶成功分析預警事件挖掘報警日報數據導出報警收斂優(yōu)化報告事件數據分析事件認領事件診斷相似事件推薦事件處理記錄事件處置一一體化定級解決方案業(yè)務視圖應用視圖故障定級事件盯屏事件中心產品功能事件去重事件去事件去重 (無狀態(tài))事件去事件去重 (有狀態(tài))事件豐富元元數據豐富豐富業(yè)業(yè)務樹豐富企企業(yè)級能力事件數據流租戶管理容量管理統(tǒng)一認證權限發(fā)布數據Normandy應用變更報警數據SunfireASOPremetheusARMSZabbix渠道管理事件認領事件數據分析事件診斷處置&分析事件盯屏業(yè)務視圖應用視圖可視化渠道注冊渠道映射Sender事件組聚合通知訂閱渠道分派器發(fā)布數據Normandy應用變更報警數據SunfireASOPremetheusARMSZabbix渠道管理事件認領事件數據分析事件診斷處置&分析事件盯屏業(yè)務視圖應用視圖可視化渠道注冊渠道映射Sender事件組聚合通知訂閱渠道分派器事件聚合接入網關事件豐富事件去重事件關聯事件網關架構演進要點?通過開放性設計和事件模型抽象,提供豐富地南向、北向集成能力。?結合阿里云專有云的部署方案,支持各種場景下的容災能力。技技術架構北北向集成下游渠道釘釘群郵件短信電話Webhook渠道賬戶適配器賬渠道賬戶適配器賬戶系統(tǒng)Uni-manager元數據NormandyCMDBSunfire業(yè)務樹客戶賬戶系統(tǒng)元數據適配器客戶CMDB自定義數據渲染引擎C?混合云場景下落地可觀測能力的技術挑戰(zhàn)?面向混合云客戶的企業(yè)級監(jiān)控平臺技術架構探索?混合云可觀測實戰(zhàn)案例統(tǒng)一事件中心(統(tǒng)一接入、過濾、合并、處理事件)原始消息業(yè)務指標應用監(jiān)控微服務基礎資源云服務實例Tracing400+條/天統(tǒng)一事件中心(統(tǒng)一接入、過濾、合并、處理事件)原始消息業(yè)務指標應用監(jiān)控微服務基礎資源云服務實例Tracing400+條/天周告警數據匯總業(yè)務監(jiān)控大屏,客戶重點展示和使用控報警規(guī)則的定義,不僅實現對每層監(jiān)控的快速發(fā)現,快速告警,同時為監(jiān)控數據分析提供全面的數據支撐。云平臺底座代扣托收XX聯網直收渠道信息查詢功能前端微服務接口務接口數據微服務接口代扣托收XX聯網直收渠道信息查詢功能前端微服務接口務接口數據微服務接
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 荊州中學自招試題及答案
- 蕪湖綠影小學試題及答案
- 白蛇緣起測試題及答案
- 甘肅大學語文試題及答案
- 音樂演繹中的即興表達技巧試題及答案
- 聊城化學數學試題及答案
- 代理收購實物黃金合同范例
- 企業(yè)軟裝合同范例
- 主動放棄租賃合同范例
- 泉州幼教面試題及答案
- 社會工作介入老年社區(qū)教育的探索
- 國開電大-工程數學(本)-工程數學第4次作業(yè)-形考答案
- 高考倒計時30天沖刺家長會課件
- 施工項目現金流預算管理培訓課件
- 時行疾?。ㄖ嗅t(yī)兒科學課件)
- 街道計生辦主任先進事跡材料-巾幗弄潮顯風流
- GB/T 32616-2016紡織品色牢度試驗試樣變色的儀器評級方法
- 部編版小學語文三年級下冊第七單元整體解讀《奇妙的世界》課件
- 管道支吊架培訓教材課件
- 2、工程工質量保證體系框圖
- 地鐵工程車輛段路基填方施工方案
評論
0/150
提交評論