




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、 企業(yè)AIOps智能運(yùn)維方案白皮書(shū)目錄背景介紹4組織單位4編寫(xiě)成員5發(fā)起人5顧問(wèn)5編審成員5本版本核心編寫(xiě)成員61、整體介紹82、AIOps 目標(biāo)103、AIOps 能力框架114、AIOps 平臺(tái)能力體系145、 AIOps 團(tuán)隊(duì)角色175.1 運(yùn)維工程師175.2 運(yùn)維開(kāi)發(fā)工程師175.3 運(yùn)維 AI 工程師176、AIOps 常見(jiàn)應(yīng)用場(chǎng)景196.1效率提升方向216.1.1 智能變更226.1.2 智能問(wèn)答226.1.3 智能決策236.1.4 容量預(yù)測(cè)236.2質(zhì)量保障方向246.2.1 異常檢測(cè)246.2.2 故障診斷256.2.3 故障預(yù)測(cè)256.2.4 故障自愈266.3 成本管
2、理方向266.3.1 成本優(yōu)化26資源優(yōu)化27容量規(guī)劃28性能優(yōu)化28 HYPERLINK l _TOC_250022 7、AIOps 實(shí)施及關(guān)鍵技術(shù)29 HYPERLINK l _TOC_250021 數(shù)據(jù)采集29 HYPERLINK l _TOC_250020 數(shù)據(jù)處理30 HYPERLINK l _TOC_250019 數(shù)據(jù)存儲(chǔ)30 HYPERLINK l _TOC_250018 離線和在線計(jì)算30 HYPERLINK l _TOC_250017 面向 AIOps 的算法技術(shù)30 HYPERLINK l _TOC_250016 說(shuō)明:31 HYPERLINK l _TOC_250015
3、附錄:案例33 HYPERLINK l _TOC_250014 案例 1:海量時(shí)間序列異常檢測(cè)的技術(shù)方案33 HYPERLINK l _TOC_250013 1、案例陳述33 HYPERLINK l _TOC_250012 2、海量時(shí)間序列異常檢測(cè)的常見(jiàn)問(wèn)題與解決方案33 HYPERLINK l _TOC_250011 3、總結(jié)34 HYPERLINK l _TOC_250010 案例 2:金融場(chǎng)景下的根源告警分析35 HYPERLINK l _TOC_250009 1、案例概述35 HYPERLINK l _TOC_250008 2、根源告警分析處理流程35 HYPERLINK l _TOC
4、_250007 3、根源告警分析處理方法37 HYPERLINK l _TOC_250006 4、總結(jié)39 HYPERLINK l _TOC_250005 案例 3:?jiǎn)螜C(jī)房故障自愈壓縮40 HYPERLINK l _TOC_250004 1、案例概述40 HYPERLINK l _TOC_250003 2、單機(jī)房故障止損流程40 HYPERLINK l _TOC_250002 3、單機(jī)房故障自愈的常見(jiàn)問(wèn)題和解決方案41 HYPERLINK l _TOC_250001 4、單機(jī)房故障自愈的架構(gòu)43 HYPERLINK l _TOC_250000 5、總結(jié)44背景介紹AIOps 即智能運(yùn)維,其目標(biāo)
5、是,基于已有的運(yùn)維數(shù)據(jù)(日志、監(jiān)控信息、應(yīng)用信息等),通過(guò)機(jī)器學(xué)習(xí)的方式來(lái)進(jìn)一步解決自動(dòng)化運(yùn)維所未能解決的問(wèn)題,提高系統(tǒng)的預(yù)判能力、穩(wěn)定性、降低 IT 成本,并提高企業(yè)的產(chǎn)品競(jìng)爭(zhēng)力。Gartner 在 2016 年時(shí)便提出了 AIOps 的概念,并預(yù)測(cè)到 2020 年,AIOps 的采用率將會(huì)達(dá)到 50%。AIOps 目前在國(guó)內(nèi)外領(lǐng)先的互聯(lián)網(wǎng)企業(yè)開(kāi)始被逐漸應(yīng)用,也是近年來(lái)國(guó)內(nèi)外被普遍看好的新技術(shù)。為了讓國(guó)內(nèi)眾多互聯(lián)網(wǎng)中小企業(yè)、特別是傳統(tǒng)企業(yè)可以共享、復(fù)用國(guó)內(nèi)外頂尖互聯(lián)網(wǎng)的AIOps 技術(shù)和能力,并能夠更快捷的進(jìn)行 AIOps 相關(guān)產(chǎn)品選型,因此開(kāi)展國(guó)內(nèi)外第一個(gè) AIOps 白皮書(shū)及相關(guān)標(biāo)準(zhǔn)制定
6、工作。AIOps 標(biāo)準(zhǔn)將分成兩大類,分別適用于企業(yè)內(nèi)部的AIOps 能力建設(shè)與評(píng)估、及企業(yè)購(gòu)置相關(guān) AIOps 產(chǎn)品的認(rèn)證評(píng)估,使得 AI 真正落地應(yīng)用于運(yùn)維,造福于企業(yè)。1、整體介紹AIOps,即 Artificial Intelligence for IT Operations,智能運(yùn)維,將人工智能應(yīng)用于運(yùn)維領(lǐng)域,基于已有的運(yùn)維數(shù)據(jù)(日志、監(jiān)控信息、應(yīng)用信息等),通過(guò)機(jī)器學(xué)習(xí)的方式來(lái)進(jìn)一步解決自動(dòng)化運(yùn)維沒(méi)辦法解決的問(wèn)題。早期的運(yùn)維工作大部分是由運(yùn)維人員手工完成的,這被稱為手工運(yùn)維或人肉運(yùn)維。這種落后的生產(chǎn)方式,在互聯(lián)網(wǎng)業(yè)務(wù)快速擴(kuò)張、人力成本高企的時(shí)代,難以維系。自動(dòng)化運(yùn)維因此應(yīng)運(yùn)而生。其基
7、于用可被自動(dòng)觸發(fā)的、預(yù)定義規(guī)則的腳本,來(lái)執(zhí)行常見(jiàn)的、重復(fù)性的運(yùn)維工作,從而減少人力成本,提高運(yùn)維效率。總的來(lái)說(shuō),自動(dòng)化運(yùn)維可以認(rèn)為是一種基于行業(yè)領(lǐng)域知識(shí)和運(yùn)維場(chǎng)景領(lǐng)域知識(shí)的專家系統(tǒng)。隨著整個(gè)互聯(lián)網(wǎng)業(yè)務(wù)急劇膨脹,以及服務(wù)類型的復(fù)雜多樣,“基于人為指定規(guī)則”的專家系統(tǒng)逐漸變得力不從心。自動(dòng)化運(yùn)維的不足,日益凸顯。DevOps 的出現(xiàn),部分解決了上述問(wèn)題。其強(qiáng)調(diào)從價(jià)值交付的全局視角,端到端打通軟件生命周期,建立基于微服務(wù)的單件流式的流水線。但 DevOps 更強(qiáng)調(diào)橫向融合及打通,較低階段的 DevOps 無(wú)力改變“基于認(rèn)為指定規(guī)則”的既定事實(shí)。AIOps 是 DevOps 在運(yùn)維(技術(shù)運(yùn)營(yíng))側(cè)的高階
8、實(shí)現(xiàn),兩者并不沖突。此部分可具體參考研發(fā)運(yùn)營(yíng)一體化能力成熟度模型。AIOps 不依賴于人為指定規(guī)則,主張由機(jī)器學(xué)習(xí)算法自動(dòng)地從海量運(yùn)維數(shù)據(jù)(包括事件本身以及運(yùn)維人員的人工處理日志)中不斷地學(xué)習(xí),不斷地提煉并總結(jié)規(guī)則。AIOps 在自動(dòng)化運(yùn)維的基礎(chǔ)上,增加了一個(gè)基于機(jī)器學(xué)習(xí)的大腦,指揮監(jiān)測(cè)系統(tǒng)采集大腦決策所需的數(shù)據(jù),做出分析、決策,并指揮自動(dòng)化腳本去執(zhí)行大腦的決策,從而達(dá)到運(yùn)維系統(tǒng)的整體目標(biāo)。AIOps 基于自動(dòng)化運(yùn)維,將 AI 和運(yùn)維很好的結(jié)合起來(lái),其需要三方面的知識(shí):行業(yè)領(lǐng)域知識(shí):應(yīng)用的行業(yè),如互聯(lián)網(wǎng)、金融、電信、物流、能源電力、工業(yè)制造和智慧城市等,并熟悉生產(chǎn)實(shí)踐中的難題;運(yùn)維場(chǎng)景領(lǐng)域知識(shí)
9、:如指標(biāo)監(jiān)控、異常檢測(cè)、故障發(fā)現(xiàn)、故障止損、成本優(yōu)化、容量規(guī)劃和性能優(yōu)化等;機(jī)器學(xué)習(xí):把實(shí)際問(wèn)題轉(zhuǎn)化為算法問(wèn)題,常用算法包括如聚類、決策樹(shù)、卷積神經(jīng)網(wǎng)絡(luò)等。AIOps 和 DevOps 兩者并不沖突,企業(yè)級(jí) DevOps 涵括包括運(yùn)維在內(nèi)的整個(gè)軟件生命周期,AIOps 是 企業(yè)級(jí) DevOps 在運(yùn)維(技術(shù)運(yùn)營(yíng))側(cè)的高階實(shí)現(xiàn)。AIOps 是運(yùn)維的發(fā)展必然,是自動(dòng)化運(yùn)維的下一個(gè)發(fā)展階段。Gartner 相關(guān)報(bào)告預(yù)測(cè)AIOps 的全球部署率將從 2017 年的 10%增加到 2020 年的 50%。其應(yīng)用行業(yè),除了互聯(lián)網(wǎng)以外, 還包括高性能計(jì)算、電信、金融、電力網(wǎng)絡(luò)、物聯(lián)網(wǎng)、 醫(yī)療網(wǎng)絡(luò)和設(shè)備、航空
10、航天、軍用設(shè)備及網(wǎng)絡(luò)等領(lǐng)域。本白皮書(shū)綜合國(guó)內(nèi)領(lǐng)先的互聯(lián)網(wǎng)公司、金融企業(yè)及 AIOps 解決方案提供方的相關(guān)經(jīng)驗(yàn), 給出了一種企業(yè)級(jí) AIOps 的 AIOps 理論方法和生產(chǎn)實(shí)踐,希望能幫助貴司快速、成功實(shí)施AIOps。本白皮書(shū)聚焦 AI 應(yīng)用到 Ops 領(lǐng)域,不涉及自動(dòng)化運(yùn)維相關(guān)內(nèi)容。2、AIOps 目標(biāo)AIOps,通俗的講,是對(duì)規(guī)則的 AI 化,即將人工總結(jié)運(yùn)維規(guī)則的過(guò)程變?yōu)樽詣?dòng)學(xué)習(xí)的過(guò)程。具體而言,是對(duì)我們平時(shí)運(yùn)維工作中長(zhǎng)時(shí)間積累形成的自動(dòng)化運(yùn)維和監(jiān)控等能力,將其規(guī)則配置部分,進(jìn)行自學(xué)習(xí)的“去規(guī)則化”改造,最終達(dá)到終極目標(biāo):“有 AI 調(diào)度中樞管理的, 質(zhì)量、成本、效率三者兼顧的無(wú)人值守
11、運(yùn)維,力爭(zhēng)所運(yùn)營(yíng)系統(tǒng)的綜合收益最大化”。AIOps 的目標(biāo)是,利用大數(shù)據(jù)、機(jī)器學(xué)習(xí)和其他分析技術(shù),通過(guò)預(yù)防預(yù)測(cè)、個(gè)性化和動(dòng)態(tài)分析,直接和間接增強(qiáng) IT 業(yè)務(wù)的相關(guān)技術(shù)能力,實(shí)現(xiàn)所維護(hù)產(chǎn)品或服務(wù)的更高質(zhì)量、合理成本及高效支撐。3、AIOps 能力框架AIOps 的建設(shè)可以先由無(wú)到局部單點(diǎn)探索、再到單點(diǎn)能力完善,形成解決某個(gè)局部問(wèn)題的運(yùn)維 AI“學(xué)件”,再由多個(gè)具有 AI 能力的單運(yùn)維能力點(diǎn)組合成一個(gè)智能運(yùn)維流程。AIOps 能力框架基于如下 AIOps 能力分級(jí)。AIOps 能力分級(jí)可具體可描述為 5 級(jí)(圖-2):開(kāi)始嘗試應(yīng)用 AI 能力,還無(wú)較成熟單點(diǎn)應(yīng)用具備單場(chǎng)景的 AI 運(yùn)維能力,可以初
12、步形成供內(nèi)部使用的學(xué)件有由多個(gè)單場(chǎng)景 AI 運(yùn)維模塊串聯(lián)起來(lái)的流程化 AI 運(yùn)維能力,可以對(duì)外提供可靠的運(yùn)維 AI 學(xué)件主要運(yùn)維場(chǎng)景均已實(shí)現(xiàn)流程化免干預(yù)AI 運(yùn)維能力,可以對(duì)外提供可靠的AIOps 服務(wù)。有核心中樞 AI,可以在成本、質(zhì)量、效率間從容調(diào)整,達(dá)到業(yè)務(wù)不同生命周期對(duì)三個(gè)方面不同的指標(biāo)要求,可實(shí)現(xiàn)多目標(biāo)下的最優(yōu)或按需最優(yōu)。圖 3-1 AIOps 能力分級(jí)學(xué)件,亦稱 AI 運(yùn)維組件,類似程序中的 API 或公共庫(kù),但 API 及公共庫(kù)不含具體業(yè)務(wù)數(shù)據(jù),只是某種算法,而 AI 運(yùn)維組件(或稱學(xué)件),則是在類似 API 的基礎(chǔ)上,兼具對(duì)某個(gè)運(yùn)維場(chǎng)景智能化解決的“記憶”能力,將處理這個(gè)場(chǎng)景的
13、智能規(guī)則保存在了這個(gè)組件中。這個(gè)智能規(guī)則是在一定量的數(shù)據(jù)下學(xué)習(xí)而來(lái)的,且具有“可重用”,“可演進(jìn)”,“可了解”的特性,既可共享由專家利用數(shù)據(jù)訓(xùn)練的算法,又可保護(hù)數(shù)據(jù)和隱私。“學(xué)件”(Learnware)一詞由南京大學(xué)周志華老師原創(chuàng),學(xué)件(Learnware)= 模型( model ) + 規(guī)約( specification ),具有可重用、可演進(jìn)、可了解的特性。很多人可能在自己的應(yīng)用中已經(jīng)建立了類似的模型,他們也很愿意找到一個(gè)地方把這些模型分享出去。這樣一來(lái),一個(gè)新用戶想要應(yīng)用,也許不用自己去建立一個(gè),而是先到“學(xué)件” 市場(chǎng)上找一找有沒(méi)有合適的,拿來(lái)直接或修改后使用。學(xué)件基于專家基礎(chǔ)上建立,所
14、以比較容 易得到專家級(jí)的結(jié)果,又因?yàn)楣蚕沓鰜?lái)的是模型,所以避免了數(shù)據(jù)泄露和隱私泄露的問(wèn)題?;谏鲜?AIOps 能力分級(jí),對(duì)應(yīng)的 AIOps 能力框架如下。圖 3-2 AIOps 能力框架相關(guān)關(guān)鍵運(yùn)維場(chǎng)景的 AIOps 演進(jìn)如下。2圖 3-3 關(guān)鍵運(yùn)維場(chǎng)景的 AIOps 演講2“可重用”的特性使得能夠獲取大量不同的樣本;“可演進(jìn)”的特性使得可以適應(yīng)環(huán)境的變化;“可了解”的特性使得能有效地了解模型的能力。4、AIOps 平臺(tái)能力體系A(chǔ)IOps 工作平臺(tái)能力體系主要功能是為AIOps 的實(shí)際場(chǎng)景建設(shè)落地而提供功能的工具或者產(chǎn)品平臺(tái),其主要目的是降低 AIOps 的開(kāi)發(fā)人員成本,提升開(kāi)發(fā)效率,規(guī)范工
15、作交付質(zhì)量。AIOps 平臺(tái)功能與一般的機(jī)器學(xué)習(xí)( 或者數(shù)據(jù)挖掘) 平臺(tái)極為類似,此類產(chǎn)品國(guó)外的比如 Google 的 AutoML(/automl/)。圖 4-1 AIOps 平臺(tái)功能模塊圖 4-2 AI 建模服務(wù)能力如上圖 4-1、圖 4-2,具體的工具或者產(chǎn)品應(yīng)具備以下功能或模塊:交互式建模功能:該功能支持用戶在平臺(tái)上交互式的進(jìn)行模型的開(kāi)發(fā)調(diào)試,通過(guò)簡(jiǎn)單的方法配置完成模型的構(gòu)建。算法庫(kù):用戶可以在算法庫(kù)中找到常見(jiàn)常用的算法直接使用,算法按照用途分類, 以供用戶方便的使用。樣本庫(kù):樣本庫(kù)用于管理用戶的樣本數(shù)據(jù),供用戶建模時(shí)使用,支持樣本的增刪改查等基本操作。數(shù)據(jù)準(zhǔn)備:該功能支持用戶對(duì)數(shù)據(jù)進(jìn)
16、行相關(guān)的預(yù)處理操作,包括關(guān)聯(lián)、合并、分支路由、過(guò)濾等。靈活的計(jì)算邏輯表達(dá):在基本常用的節(jié)點(diǎn)功能之外,用戶還需要自由的表達(dá)一些計(jì)算邏輯,該需求主要是通過(guò)讓用戶寫(xiě)代碼或表達(dá)式來(lái)支持。可擴(kuò)展的底層框架支持:平臺(tái)本身要能夠靈活的支持和兼容多種算法框架引擎,如Spark、TensorFlow 等,以滿足不同的場(chǎng)景以及用戶的需求。數(shù)據(jù)分析探索:該功能是讓用戶能夠方便快捷地了解認(rèn)識(shí)自己的數(shù)據(jù),用戶只有基于對(duì)數(shù)據(jù)充分的認(rèn)識(shí)與理解,才能很好的完成模型的構(gòu)建。模型評(píng)估:對(duì)模型的效果進(jìn)行評(píng)估的功能,用戶需要依據(jù)評(píng)估的結(jié)論對(duì)模型進(jìn)行調(diào)整。參數(shù)以及算法搜索:該功能能夠自動(dòng)快速的幫助用戶搜索算法的參數(shù),對(duì)比不同的算法,幫
17、助用戶選擇合適的算法以及參數(shù),輔助用戶建模。場(chǎng)景模型:平臺(tái)針對(duì)特定場(chǎng)景沉淀的解決方案,這些場(chǎng)景都是通用常見(jiàn)的,用戶可以借鑒參考相關(guān)的解決方案以快速的解決實(shí)際問(wèn)題實(shí)驗(yàn)報(bào)告:模型除了部署運(yùn)行,相關(guān)挖掘出來(lái)的結(jié)論也要能夠形成報(bào)告,以供用戶導(dǎo)出或動(dòng)態(tài)發(fā)布使用。模型的版本管理:模型可能有對(duì)個(gè)不同的版本,線上運(yùn)行的模型實(shí)例可能分屬各個(gè)不同的版本,版本管理支持模型不同版本構(gòu)建發(fā)布以及模型實(shí)例版本切換升級(jí)等。模型部署應(yīng)用:模型構(gòu)建完成后需要發(fā)布應(yīng)用,模型部署應(yīng)用功能支持模型的實(shí)例化,以及相關(guān)計(jì)算任務(wù)的運(yùn)行調(diào)度管理。數(shù)據(jù)質(zhì)量保障:全鏈路的數(shù)據(jù)監(jiān)控,能夠完整的掌控?cái)?shù)據(jù)的整個(gè)生命周期,具備對(duì)丟失的數(shù)據(jù)執(zhí)行回傳補(bǔ)錄的
18、能力,保障數(shù)據(jù)的可用性。5、 AIOps 團(tuán)隊(duì)角色圖 5-1 AIOps 團(tuán)隊(duì)角色及和外部的協(xié)同關(guān)系A(chǔ)IOps 團(tuán)隊(duì)內(nèi)部人員根據(jù)職能可分為三類團(tuán)隊(duì),分別為運(yùn)維工程師團(tuán)隊(duì)、運(yùn)維開(kāi)發(fā)工程師團(tuán)隊(duì)和運(yùn)維 AI 工程師團(tuán)隊(duì),他們?cè)?AIOps 相關(guān)工作中分別扮演不同的角色,三者缺一不可。運(yùn)維工程師能從業(yè)務(wù)的技術(shù)運(yùn)營(yíng)中,提煉出智能化的需求點(diǎn)。在開(kāi)發(fā)實(shí)施前能夠考慮好需求方案, 規(guī)范數(shù)據(jù)格式。前期可以通過(guò)仿真手法探索和驗(yàn)證方案可行性,起草合適的算法方案。運(yùn)維開(kāi)發(fā)工程師負(fù)責(zé)進(jìn)行平臺(tái)相關(guān)功能和模塊的開(kāi)發(fā),以降低用戶使用門(mén)檻,提升用戶使用效率,并且將運(yùn)維數(shù)據(jù)工程師交付的數(shù)據(jù)通過(guò)友好的方式展現(xiàn)給用戶。根據(jù)企業(yè) AIO
19、ps 程度和能力的不同,運(yùn)維開(kāi)發(fā)工程師中的運(yùn)維自動(dòng)化平臺(tái)開(kāi)發(fā)和運(yùn)維數(shù)據(jù)平臺(tái)開(kāi)發(fā)的權(quán)重不同。運(yùn)維 AI 工程師針對(duì)來(lái)自于運(yùn)維工程師和算法方案進(jìn)行理解和梳理,完成最終落地方案的輸出工作;在工程落地上能夠考慮好健壯性、魯棒性、敏捷性等,合理拆分任務(wù),保障成果落地,以提升最終業(yè)務(wù)運(yùn)營(yíng)質(zhì)量。6、AIOps 常見(jiàn)應(yīng)用場(chǎng)景AIOps 圍繞質(zhì)量保障、成本管理和效率提升的基本運(yùn)維場(chǎng)景,逐步構(gòu)建智能化運(yùn)維場(chǎng)景。在質(zhì)量保障方面,保障現(xiàn)網(wǎng)穩(wěn)定運(yùn)行細(xì)分為異常檢測(cè)、故障診斷、故障預(yù)測(cè)、故障自愈等基本場(chǎng)景;在成本管理方面,細(xì)分為指標(biāo)監(jiān)控,異常檢測(cè),資源優(yōu)化,容量規(guī)劃,性能優(yōu)化等基本場(chǎng)景;在效率方面,分為智能預(yù)測(cè),智能變更、
20、智能問(wèn)答,智能決策等基本場(chǎng)景(注:三者之間不是完全獨(dú)立的,是相互影響的,場(chǎng)景的劃分側(cè)重于主影響維度)。無(wú)論是效率提升,質(zhì)量監(jiān)控,還是成本優(yōu)化,都離不開(kāi)最基礎(chǔ)的數(shù)據(jù)采集,它是整個(gè)AIOp 的基石。 AIOps 提高運(yùn)維生產(chǎn)力的一種方式就是把質(zhì)量處理流程中的人力部分盡可能的都替換成機(jī)器來(lái)做。在機(jī)器的分析過(guò)程中,系統(tǒng)運(yùn)行過(guò)程中的每一個(gè)部件都需要數(shù)據(jù)支持。無(wú)論是海量數(shù)據(jù)采集、還是數(shù)據(jù)提取方面都離不開(kāi)大數(shù)據(jù)技術(shù)。從數(shù)據(jù)采集的層面來(lái)看,運(yùn)維數(shù)據(jù)的采集往往是實(shí)時(shí)的,數(shù)據(jù)采集端需要具備一定分析能力,綜合考慮用戶流量、隱私,服務(wù)器壓力等多個(gè)因素,盡可能的降低無(wú)效數(shù)據(jù)的采集,增加有價(jià)值信息的上報(bào)。從數(shù)據(jù)提取的層面
21、來(lái)看,運(yùn)維的數(shù)據(jù)是多樣化的,歷史數(shù)據(jù),流數(shù)據(jù),日志數(shù)據(jù)、網(wǎng)絡(luò)數(shù)據(jù)、算法數(shù)據(jù)、文本和 NLP 文檔數(shù)據(jù),以及 APP 數(shù)據(jù)、瀏覽器數(shù)據(jù)、業(yè)務(wù)系統(tǒng)運(yùn)營(yíng)指標(biāo)數(shù)據(jù)等,從這些海量的數(shù)據(jù)中提取出正真有價(jià)值的指標(biāo)化數(shù)據(jù)并可視化是進(jìn)一步分析決策的前提條件。而成本優(yōu)化和效率的提升同樣離不開(kāi)數(shù)據(jù)的支撐。例如,開(kāi)始實(shí)施成本優(yōu)化的 AIOPS 前,需要盡可能多的收集目前的服務(wù)器,網(wǎng)絡(luò)設(shè)備,應(yīng)用服務(wù),數(shù)據(jù)庫(kù)等的性能信息,應(yīng)用日志信息,tracing 信息,以便對(duì)成本優(yōu)化的效果進(jìn)行評(píng)估。例如,在搭建智能客服機(jī)器人的時(shí)候,就需要提供充足的問(wèn)題庫(kù)和相應(yīng)的答案才能夠建立好一個(gè)較優(yōu)的模型。圖 6-1 AIOps 常見(jiàn)應(yīng)用場(chǎng)景枚舉
22、以下為各個(gè)方向應(yīng)用場(chǎng)景的能力描述。效率提升方向質(zhì)量保障方向成本管理方向在這個(gè)階段,嘗試在變?cè)谶@個(gè)階段,沒(méi)有成熟在這個(gè)階段,運(yùn)維的成更,問(wèn)答,決策,預(yù)測(cè)的單點(diǎn)應(yīng)用,主要是手本管理方向還在嘗試引第一階段領(lǐng)域使用人工智能的能動(dòng)運(yùn)維、自動(dòng)化運(yùn)維和入人工智能,但是并沒(méi)(嘗試應(yīng)用)力,但是并沒(méi)有形成有智能運(yùn)維的嘗試階段,有成熟的單點(diǎn)應(yīng)用,這效的單點(diǎn)應(yīng)用,這個(gè)階這個(gè)階段可以聚焦于數(shù)個(gè)階段可以聚焦于數(shù)據(jù)段可以聚焦于數(shù)據(jù)采集據(jù)采集和可視化采集和可視化和可視化第二階段在這個(gè)階段,在一些小在這個(gè)階段,在一些單在這個(gè)階段,在一些?。▎吸c(diǎn)應(yīng)用)的場(chǎng)景下,人工智能已點(diǎn)應(yīng)用的場(chǎng)景下,人工的場(chǎng)景下,人工智能已經(jīng)可以逐步發(fā)揮自
23、己的智能已經(jīng)開(kāi)始逐步發(fā)揮經(jīng)開(kāi)始逐步發(fā)揮自己的能力,包括智能變更,自己的能力,包括指標(biāo)能力,包括成本報(bào)表方智能問(wèn)答,智能決策,監(jiān)控,磁盤(pán),網(wǎng)絡(luò)異常向,資源優(yōu)化,容量規(guī)智能預(yù)測(cè)檢測(cè)等劃,性能優(yōu)化等方向第三階段在這個(gè)階段,人工智能在這個(gè)階段,人工智能在這個(gè)階段,人工智能(串聯(lián)應(yīng)用)已經(jīng)將單點(diǎn)應(yīng)用中的一已經(jīng)將第二階段(單點(diǎn)已經(jīng)將單點(diǎn)應(yīng)用中的一些模塊串聯(lián)起來(lái),可以應(yīng)用)中的一些模塊串些模塊串聯(lián)在一起,可結(jié)合多個(gè)情況進(jìn)行下一聯(lián)在一起,可以綜合多以根據(jù)成本、資源、容步的分析和操作個(gè)情況進(jìn)行下一步的分量、性能的實(shí)際狀況進(jìn)析和操作,包括多維下行下一步的分析和操作鉆分析尋找故障根因等方向第四階段在這個(gè)階段,人工智
24、能在這個(gè)階段,人工智能在這個(gè)階段,人工智能(能力完備)能力完備,已經(jīng)可以基已經(jīng)基于故障的實(shí)際場(chǎng)的能力已經(jīng)完備,能夠于實(shí)際場(chǎng)景實(shí)現(xiàn)性能優(yōu)景實(shí)現(xiàn)故障定位,然后實(shí)現(xiàn)基于成本和資源的化,然后進(jìn)行預(yù)測(cè),變進(jìn)行故障自愈等操作。實(shí)際場(chǎng)景實(shí)現(xiàn)成本的自更,問(wèn)答,決策等操作比如根據(jù)版本質(zhì)量分析主優(yōu)化,然后進(jìn)行智能改進(jìn)的操作推斷是否需要版本回退,CDN 自動(dòng)調(diào)度等第五階段在這個(gè)階段,人工參與在這個(gè)階段,人工參與在這個(gè)階段,人工參與(終極 AIOps)的成分已經(jīng)很少,性能的部分已經(jīng)很少,從故的成分已經(jīng)很少,從成優(yōu)化等整個(gè)流程由智能障發(fā)現(xiàn)到診斷到自愈整本報(bào)表方向,資源優(yōu) 大腦統(tǒng)一控制,并由自個(gè)流程由智能大腦統(tǒng)一化,容量
25、規(guī)劃,性能優(yōu)動(dòng)化和智能化自主實(shí)施控制,并由自動(dòng)化和智化性等整個(gè)流程由智能能化自主實(shí)施大腦統(tǒng)一控制,由自動(dòng)化自主實(shí)施表 6-1 常見(jiàn)應(yīng)用場(chǎng)景的分類分級(jí)能力概述效率提升方向運(yùn)維效率的提升是運(yùn)維系統(tǒng)的主要目標(biāo)之一,自動(dòng)化運(yùn)維帶來(lái)的核心價(jià)值之一就是效率提升,而 AIOps 會(huì)推動(dòng)運(yùn)維效率提升到一個(gè)新的高度。其本質(zhì)的原因是自動(dòng)化運(yùn)維依然是人+自動(dòng)化工具的模式,人工決策與實(shí)施依然是主要驅(qū)動(dòng)力,但人會(huì)受到自身生理極限以及認(rèn)知局限的限制,無(wú)法持續(xù)地面向大規(guī)模、高復(fù)雜性的系統(tǒng)提供高質(zhì)量的運(yùn)維效率。而 AIOps 系統(tǒng)通過(guò)深度洞察能力為運(yùn)維提供持續(xù)的,高質(zhì)量的效率運(yùn)轉(zhuǎn)。圖 6-2 舉例(大規(guī)模、高復(fù)雜性的系統(tǒng)運(yùn)維
26、,超越人+工具模式的承載力)圖 6-3 效率提升方向的常見(jiàn)應(yīng)用場(chǎng)景質(zhì)量保障是運(yùn)維的基本場(chǎng)景之一,隨著業(yè)務(wù)的發(fā)展,運(yùn)維系統(tǒng)也在不斷的演進(jìn),其規(guī)模復(fù)雜度、變更頻率非常大,技術(shù)更新也非常的快,與此同時(shí),軟件的規(guī)模、調(diào)用關(guān)系、變更頻率也在逐漸增大。在這樣背景下,需要 AIOps 提供精準(zhǔn)的業(yè)務(wù)質(zhì)量感知、支撐用戶體驗(yàn)優(yōu)化、全面提升質(zhì)量保障效率。智能變更變更是運(yùn)維中的一種常見(jiàn)場(chǎng)景,DevOps 通過(guò)串聯(lián)變更的各個(gè)環(huán)節(jié)形成流水線提升了效率, 而 AIOps 不僅為變更流水線的各個(gè)環(huán)節(jié)引入了“系統(tǒng)決策”,也能更加持續(xù)地,精確地提供高效的變更質(zhì)量管理。智能變更的系統(tǒng)決策來(lái)源于運(yùn)維人員的運(yùn)維經(jīng)驗(yàn),這些經(jīng)驗(yàn)通過(guò)機(jī)器
27、學(xué)習(xí), 知識(shí)圖譜等手段轉(zhuǎn)化成系統(tǒng)可學(xué)習(xí)和實(shí)施的數(shù)據(jù)模型。AIOps 的智能變更可以應(yīng)對(duì)以下場(chǎng)景:頻繁變更,高速發(fā)布的場(chǎng)景:運(yùn)維人員會(huì)由于生理極限以及認(rèn)知的局限難以應(yīng)付這 樣的場(chǎng)景。例如,每天從 1 到 10 次變更時(shí),運(yùn)維人員通過(guò)自動(dòng)化運(yùn)維系統(tǒng)尚可應(yīng)對(duì), 如果由 10 次升級(jí)到 100 次,甚至更多,就難以高效的,準(zhǔn)確的應(yīng)對(duì)了。AIOps 可以根據(jù)每次變更的目標(biāo),狀態(tài),上下文在變更過(guò)程中及時(shí)做出系統(tǒng)決策,幫助加速變 更過(guò)程以及規(guī)避變更可能帶來(lái)的問(wèn)題。大規(guī)模并行變更:隨著微服務(wù)架構(gòu)的普及,實(shí)際上服務(wù)節(jié)點(diǎn)會(huì)成倍增長(zhǎng),原有幾個(gè)或幾十個(gè)節(jié)點(diǎn),可能變成幾千甚至上萬(wàn)的規(guī)模。人工驅(qū)動(dòng)工具的模式不但受制于人的
28、精力而被迫“串行化”,也制約了變更過(guò)程的監(jiān)察以及變更結(jié)果驗(yàn)證的準(zhǔn)確性。AIOps 則可以并行驅(qū)動(dòng)更大規(guī)模的變更過(guò)程,而且變更監(jiān)察以及結(jié)果驗(yàn)證都會(huì)被更準(zhǔn)確的完成。智能問(wèn)答運(yùn)維的目標(biāo)是為了支持穩(wěn)定,可靠的業(yè)務(wù)運(yùn)行,而業(yè)務(wù)與業(yè)務(wù)之間既可能有相似性,又可能有差異性。但由于知識(shí)背景和對(duì)業(yè)務(wù)的認(rèn)知差異,往往出現(xiàn)以下情況:不同的業(yè)務(wù)人員或開(kāi)發(fā)人員往往會(huì)詢問(wèn)運(yùn)維人員一些相似的問(wèn)題,運(yùn)維人員的答案也是非常類似的,但人力被重復(fù)消耗。面對(duì)同一個(gè)問(wèn)題,運(yùn)維人員的回答可能會(huì)出現(xiàn)差異(例如表達(dá)方式,措辭等),缺乏標(biāo)準(zhǔn)化,可能造成誤解。AIOps 智能問(wèn)答系統(tǒng)通過(guò)機(jī)器學(xué)習(xí),自然語(yǔ)言處理等技術(shù)來(lái)學(xué)習(xí)運(yùn)維人員的回復(fù)文本,構(gòu)建標(biāo)
29、準(zhǔn)問(wèn)答知識(shí)庫(kù),從而在遇到類似問(wèn)題的時(shí)候給出標(biāo)準(zhǔn)的,統(tǒng)一的回復(fù)。這樣,不僅可以有效地節(jié)省運(yùn)維人員的人力成本,還能夠使得提問(wèn)得到更加及時(shí)的回復(fù)。智能決策許多運(yùn)維管理工作都需要各種各樣的決策,包括擴(kuò)容,縮容,制定權(quán)重,調(diào)度,重啟等內(nèi)容。那么可能面臨如下問(wèn)題:運(yùn)維人員可以根據(jù)自己的業(yè)務(wù)經(jīng)驗(yàn)制定相應(yīng)的決策。但是,不同的業(yè)務(wù)有著各自的特點(diǎn),不同的運(yùn)維人員也有著自己的業(yè)務(wù)經(jīng)驗(yàn)。如何將運(yùn)維人員的這些經(jīng)驗(yàn)有效地傳承是個(gè)問(wèn)題。人的認(rèn)知局限性,運(yùn)維場(chǎng)景的復(fù)雜性可能導(dǎo)致最有經(jīng)驗(yàn)的運(yùn)維人員遺漏掉某些“不起眼”的“重要細(xì)節(jié)”,顯然,準(zhǔn)確的決策還依賴足夠充足的細(xì)節(jié)。AIOps 智能決策一方面可以將運(yùn)維人員的決策過(guò)程數(shù)據(jù)化,
30、構(gòu)建決策支持知識(shí)庫(kù),從而實(shí)現(xiàn)經(jīng)驗(yàn)積累;另一方面,由于系統(tǒng)掌握了從全局到細(xì)節(jié)的數(shù)據(jù),再結(jié)合決策支持知識(shí)庫(kù),可以為更加準(zhǔn)確的決策提供最有力的支撐。容量預(yù)測(cè)運(yùn)維工作不僅僅包含對(duì)當(dāng)下的決策和處理,往往還需要根據(jù)業(yè)務(wù)的訴求對(duì)未來(lái)做出合理的規(guī)劃,包括擴(kuò)容的預(yù)測(cè),縮容的預(yù)測(cè)等。由于對(duì)未來(lái)的規(guī)劃時(shí)常存在不確定性,那么規(guī)劃過(guò)程往往需要大量的數(shù)據(jù)來(lái)支持,還需要大量的推演來(lái)確定。而人工預(yù)測(cè)的方式,一方面需要投入大量人力,另一方面運(yùn)維人員的能力可能存在差異,使得推演的結(jié)果品質(zhì)不盡一致。AIOps 智能預(yù)測(cè)借助大數(shù)據(jù)和機(jī)器學(xué)習(xí)能力,結(jié)合運(yùn)維人員的有效評(píng)估經(jīng)驗(yàn),甚至業(yè)務(wù)發(fā)展模式以及政策等,對(duì)目標(biāo)場(chǎng)景實(shí)現(xiàn)高效的推演過(guò)程,最
31、終使預(yù)測(cè)結(jié)果趨近合理范圍。這樣一來(lái),不但是人力得以節(jié)省,關(guān)鍵在于由于預(yù)測(cè)效率的提升,使得過(guò)去難以重復(fù),耗時(shí)耗力的人工預(yù)測(cè)過(guò)程,變得可以應(yīng)需而變,不斷修正預(yù)測(cè)結(jié)果,最終使業(yè)務(wù)訴求獲得最佳預(yù)測(cè)收益。質(zhì)量保障方向質(zhì)量保障是運(yùn)維的基本場(chǎng)景之一,隨著業(yè)務(wù)的發(fā)展,運(yùn)維系統(tǒng)也在不斷的演進(jìn),其規(guī)模復(fù)雜度、變更頻率非常大,技術(shù)更新也非常的快,與此同時(shí),軟件的規(guī)模、調(diào)用關(guān)系、變更頻率也在逐漸增大。在這樣背景下,需要 AIOps 提供精準(zhǔn)的業(yè)務(wù)質(zhì)量感知、支撐用戶體驗(yàn)優(yōu)化、全面提升質(zhì)量保障效率。圖 6-4 質(zhì)量保障方向常見(jiàn)應(yīng)用場(chǎng)景異常檢測(cè)運(yùn)維系統(tǒng)中常見(jiàn)的兩大類監(jiān)控?cái)?shù)據(jù)源是:指標(biāo)和文本。前者通常是時(shí)序數(shù)據(jù),即包含指標(biāo)采
32、集時(shí)間和對(duì)應(yīng)指標(biāo)的值;后者通常是半結(jié)構(gòu)化文本格式,如程序日志、Tracing 等。隨著系統(tǒng)規(guī)模的變大、復(fù)雜度的提高、監(jiān)控覆蓋的完善,監(jiān)控?cái)?shù)據(jù)量越來(lái)越大,運(yùn)維人員無(wú)法從海量監(jiān)控?cái)?shù)據(jù)中發(fā)現(xiàn)質(zhì)量問(wèn)題。智能化的異常檢測(cè)就是要通過(guò) AI 算法,自動(dòng)、實(shí)時(shí)、準(zhǔn)確地從監(jiān)控?cái)?shù)據(jù)中發(fā)現(xiàn)異常,為后續(xù)的診斷、自愈提供基礎(chǔ)。異常檢測(cè)的常見(jiàn)任務(wù)包括對(duì)數(shù)據(jù)源的異常檢測(cè),保證數(shù)據(jù)質(zhì)量,以及對(duì)指標(biāo)和文本的異常檢測(cè)。數(shù)據(jù)源異常檢測(cè):數(shù)據(jù)源會(huì)因?yàn)橐恍┎豢杀苊獾脑虼嬖谝恍┊惓?shù)據(jù),這些異常數(shù)據(jù)占比雖然很低,但是往往會(huì)引起整個(gè)指標(biāo)統(tǒng)計(jì)值的波動(dòng),使得統(tǒng)計(jì)結(jié)果偏離真實(shí)的用戶體驗(yàn)。AIOps 需要自動(dòng)、實(shí)時(shí)的動(dòng)態(tài)設(shè)置閾值,去除數(shù)據(jù)源中的
33、異常數(shù)據(jù)干擾,并能夠區(qū)分系統(tǒng)真正發(fā)生異常時(shí)候的故障數(shù)據(jù)和數(shù)據(jù)源本身的異常數(shù)據(jù),這種判斷依賴于一些外部信息。指標(biāo)異常檢測(cè):包括單指標(biāo)異常檢測(cè)及多指標(biāo)異常檢測(cè)。其中,單指標(biāo)異常檢測(cè):時(shí)間序列指標(biāo)的異常檢測(cè)是發(fā)現(xiàn)問(wèn)題的核心環(huán)節(jié),傳統(tǒng)的靜態(tài)閾值檢測(cè)為主的方式,閾值太高,漏告警多,質(zhì)量隱患難以發(fā)現(xiàn),閾值太低,告警太多引發(fā)告警風(fēng)暴,干擾業(yè)務(wù)運(yùn)維人員的判斷。AIOps 通過(guò)機(jī)器學(xué)習(xí)算法結(jié)合人工標(biāo)注結(jié)果,實(shí)現(xiàn)自動(dòng)學(xué)習(xí)閾值、自動(dòng)調(diào)參,提高告警的精度和召回率,大幅度降低人工配置成本。其中,多指標(biāo)異常檢測(cè):運(yùn)維過(guò)程中有些指標(biāo)孤立來(lái)看可能并沒(méi)有異常,但是綜合多個(gè)指標(biāo)來(lái)看,可能就是異常的。有些單指標(biāo)表現(xiàn)是異常的,但是綜
34、合多個(gè)指標(biāo)來(lái)看可能又是正常的。AIOps 需要能夠綜合多個(gè)指標(biāo)綜合評(píng)判系統(tǒng)指標(biāo)異常,提高告警的準(zhǔn)確性。文本異常檢測(cè):文本日志常是在特點(diǎn)條件下觸發(fā)生成的,并遵循一定的模板,即半結(jié)構(gòu)化文本。傳統(tǒng)的日志檢測(cè)有兩種方式:1、根據(jù)日志級(jí)別(如 Info、Warning、Critical)進(jìn)行報(bào)警,但由于其設(shè)定不準(zhǔn)確,或不滿足實(shí)際需要,導(dǎo)致準(zhǔn)確性差;2、通過(guò)設(shè)置規(guī)則,匹配日志中特定字符串進(jìn)行報(bào)警,但該方法依賴依賴人工經(jīng)驗(yàn),且只能檢測(cè)已知和確定模式的異常。AIOps 需要通過(guò)自然語(yǔ)言處理、聚類、頻繁模式挖掘等手段,自動(dòng)識(shí)別日志出現(xiàn)的反常模式;結(jié)合人工反饋和標(biāo)注,不斷進(jìn)行優(yōu)化、完善。故障診斷異常檢測(cè)實(shí)現(xiàn)了運(yùn)維
35、人員對(duì)數(shù)據(jù)的感知,有了數(shù)據(jù)之后,智能分析可以進(jìn)一步解放運(yùn)維人力,提高運(yùn)維效率,故障診斷是智能分析的核心部分,主要包括基于人工故障庫(kù)的故障診斷和基于數(shù)據(jù)挖掘的故障診斷?;谌斯す收蠋?kù)的故障診斷:日常運(yùn)維過(guò)程中,運(yùn)維人員積累了大量的人工經(jīng)驗(yàn),運(yùn)維過(guò)程中的大部分故障都是重復(fù)的、人工能夠識(shí)別的異常。重復(fù)問(wèn)題的定位浪費(fèi)了大量的人力, 而且人工確認(rèn)過(guò)程往往是比較滯后的。AIOps 把人工專家經(jīng)驗(yàn)固化下來(lái),對(duì)常見(jiàn)問(wèn)題實(shí)現(xiàn)分鐘級(jí)內(nèi)自動(dòng)診斷,運(yùn)維人員收到的告警信息中,就需要包括故障定位的結(jié)果信息?;跀?shù)據(jù)挖掘的故障診斷:人工經(jīng)驗(yàn)可能存在偏差,人工認(rèn)為的原因可能并不是問(wèn)題的根因,當(dāng)有些故障首次發(fā)生沒(méi)有人工經(jīng)驗(yàn)可以
36、借鑒的時(shí)候,故障根因也難以定位。尤其隨著微服務(wù)的發(fā)展,業(yè)務(wù)的組網(wǎng)變得更加復(fù)雜,模塊多帶來(lái)的消息路由多、依賴多,問(wèn)題的定界定位分析更為困難,人工故障決策效率挑戰(zhàn)巨大。 對(duì)于已知故障,AIOps 能夠綜合故障數(shù)據(jù)和人工經(jīng)驗(yàn)自動(dòng)提取故障特征,生成故障特征庫(kù),自動(dòng)匹配,自動(dòng)定位故障;對(duì)于未知故障,AIOps 需要根據(jù)故障特征推演出可能的故障原因,并在人工確認(rèn)后加入的故障特征庫(kù)。故障預(yù)測(cè)故障的出現(xiàn)一般不是突然的,就比如網(wǎng)絡(luò)故障來(lái)說(shuō),往往從丟包開(kāi)始到網(wǎng)絡(luò)不可用是有一個(gè)演變的過(guò)程,依據(jù)海恩法則:每一起嚴(yán)重事故的背后,必然有 29 次輕微事故和 300 起未遂先兆以及 1000 起事故隱患,開(kāi)展主動(dòng)健康度檢查
37、,針對(duì)重要特性數(shù)據(jù)進(jìn)行預(yù)測(cè)算法學(xué)習(xí),提前診斷故障,避免服務(wù)受損;常見(jiàn)場(chǎng)景:磁盤(pán)故障預(yù)測(cè)、網(wǎng)絡(luò)故障預(yù)測(cè)(根據(jù)交換機(jī)日志的交換機(jī)故障預(yù)測(cè)),內(nèi)存泄露預(yù)測(cè)等等。故障自愈智能分析實(shí)現(xiàn)了故障的診斷和預(yù)測(cè),智能執(zhí)行根據(jù)智能分析的結(jié)果實(shí)現(xiàn)故障自愈。傳統(tǒng)的故障自愈的決策主要靠人的經(jīng)驗(yàn),人的經(jīng)驗(yàn)?zāi)軌蚋采w的故障范圍是有限的,而且人工無(wú)法保證 7*24 隨時(shí)可以立即決策與處理。AIOps 能夠提供完善的自動(dòng)化平臺(tái),在故障智能分析之后, 自動(dòng)決策,實(shí)現(xiàn)自愈,常見(jiàn)場(chǎng)景:版本升級(jí)回退,DNS 自動(dòng)切換,CDN 智能調(diào)度,智能流量調(diào)度等。故障自愈是根據(jù)故障診斷的結(jié)果的輸出(問(wèn)題定位和根因分析),進(jìn)而進(jìn)行影響評(píng)估, 決定“解
38、決故障”或“恢復(fù)系統(tǒng)”的過(guò)程。影響評(píng)估是對(duì)故障之后所產(chǎn)生的影響范圍(系統(tǒng)應(yīng)用層面,業(yè)務(wù)執(zhí)行層面,成本損失層面等等)輸出評(píng)估結(jié)果,并根據(jù)這個(gè)評(píng)估來(lái)決定要采用什么解決手段,甚至生成解決手段的執(zhí)行計(jì)劃。成本管理方向每個(gè)公司的經(jīng)營(yíng)都離不開(kāi)成本管理,成本管理包括成本核算,成本分析,成本決策,成本控制。本文不對(duì)財(cái)務(wù)上的成本管理做過(guò)多的闡述,主要從 AIOps 方向上在成本分析和決策中能發(fā)揮的作用來(lái)舉例說(shuō)明。AIOps 通過(guò)智能化的資源優(yōu)化,容量管理,性能優(yōu)化實(shí)現(xiàn) IT 成本的態(tài)勢(shì)感知、支撐成本規(guī)劃與優(yōu)化、提升成本管理效率。成本優(yōu)化圖 6-5 成本管理方向的常見(jiàn)應(yīng)用場(chǎng)景在成本優(yōu)化方向,需要采取高可用的設(shè)計(jì),
39、提供更加合理的服務(wù),包括接入層,業(yè)務(wù) 層,存儲(chǔ)層等。在接入層需要提供合理的健康檢查機(jī)制,更加智能的負(fù)載均衡算法,限定流量等工作。在業(yè)務(wù)層不僅需要去除 DB 的強(qiáng)依賴,使用合理的降級(jí),還要進(jìn)行合理的壓測(cè),監(jiān)控以及動(dòng)態(tài)的負(fù)載均衡。在存儲(chǔ)層需要做的事情是容災(zāi)等關(guān)鍵工作。這樣的話,可以使得內(nèi)部數(shù)據(jù)的質(zhì)量得到大量提升,外部數(shù)據(jù)的優(yōu)先接入和動(dòng)態(tài)選擇。對(duì)于設(shè)備采集的周期控制這個(gè)問(wèn)題來(lái)說(shuō),過(guò)晚的設(shè)備采購(gòu)可能會(huì)影響到業(yè)務(wù)的正常上線或擴(kuò)展,而過(guò)早的采購(gòu)也可能造成成本的浪費(fèi)。于是,AIOps 需要建立合理的模型并建立更好的規(guī)劃,并據(jù)此計(jì)算更準(zhǔn)確的設(shè)備采購(gòu)計(jì)劃,也能對(duì)成本進(jìn)行更好的控制。資源優(yōu)化公司的運(yùn)營(yíng)成本優(yōu)化項(xiàng)目
40、一直是公司成本預(yù)算的關(guān)鍵一步。優(yōu)化問(wèn)題包括設(shè)備的優(yōu)化,帶寬,碼率的優(yōu)化等等。只有進(jìn)行了合理的資源優(yōu)化,才能夠使得公司的成本得到有效的控 制。不同的服務(wù)的資源消耗類型是不一樣的,包括計(jì)算密集型,包括存儲(chǔ)密集型等等,而對(duì)于同一個(gè)服務(wù)在不同的時(shí)間點(diǎn)資源消耗也是不一樣的。對(duì)于一個(gè)企業(yè)來(lái)說(shuō),識(shí)別不同服務(wù)的資源消耗類型,識(shí)別每個(gè)服務(wù)的資源瓶頸,實(shí)現(xiàn)不同服務(wù)間的資源復(fù)用是降低成本的重要環(huán)節(jié)。根據(jù)資源應(yīng)用的性能指標(biāo),可以大致分類成以下類別:計(jì)算密集型:CPU 使用率較高,常見(jiàn)于需要大量計(jì)算資源的搜索,推薦,數(shù)學(xué)計(jì)算等場(chǎng)景中;內(nèi)存密集型:占用的內(nèi)存使用率較高,如緩存服務(wù);IO 密集型:網(wǎng)絡(luò) IO 繁忙或者磁盤(pán)
41、IO 操作繁忙,常見(jiàn)于爬蟲(chóng),消息管道,分布式存儲(chǔ)等服務(wù)中。大型互聯(lián)網(wǎng)公司里動(dòng)輒上千上萬(wàn)的應(yīng)用數(shù),很容易有應(yīng)用因?yàn)闃I(yè)務(wù)變化已經(jīng)訪問(wèn)量不斷縮減甚至已經(jīng)下線,但是線上還占用著大量的資源,通過(guò)對(duì)應(yīng)用的性能指標(biāo)分析,篩選出各項(xiàng)性能指標(biāo)都很低的應(yīng)用,就可以識(shí)別出這些“被遺忘” 的應(yīng)用,就可以跟業(yè)務(wù)負(fù)責(zé)人進(jìn)行核對(duì)進(jìn)行縮容或者下線。目前大部分公司都已經(jīng)使用了虛擬化或者 docker 技術(shù),同一個(gè)物理機(jī)上的不同虛擬機(jī)或容器已經(jīng)進(jìn)行了很好的細(xì)粒度資源分配和隔離,所以對(duì)于同一臺(tái)物理機(jī)可以進(jìn)行混合部署不同類型的應(yīng)用,如計(jì)算密集型應(yīng)用,存儲(chǔ)密集型應(yīng)用,IO 密集型應(yīng)用混部在同一臺(tái)物理機(jī)上,以提高更大的資源利用率,甚至一
42、定量的“超賣(mài)”(通過(guò)共享部分資源,實(shí)現(xiàn)分配的總的資源數(shù)超過(guò)物理機(jī)的資源數(shù))。對(duì)于一些靈活的計(jì)算任務(wù),如 Spark,Storm 等計(jì)算類任務(wù),還可以使用按時(shí)分配的策略,如白天運(yùn)行在部分服務(wù)器上,而且夜間需要運(yùn)行大批量計(jì)算的報(bào)表等任務(wù)時(shí),利用業(yè)務(wù)應(yīng)用夜間資源使用率低的特點(diǎn),把部分任務(wù)分配到業(yè)務(wù)應(yīng)用所在的服務(wù)器上運(yùn)行,充分利用這些業(yè)務(wù)應(yīng)用的服務(wù)器的計(jì)算資源,提高整體利用率。AIOps 通過(guò)密度管理、特性管理、碎片管理、木桶管理等方法,優(yōu)化企業(yè)不同服務(wù)器的配比,發(fā)現(xiàn)并優(yōu)化資源中的短板,提供不同服務(wù)的混合部署建議,最終實(shí)現(xiàn)智能化降成本方案分析服務(wù)。容量規(guī)劃對(duì)于一個(gè)企業(yè)來(lái)說(shuō),容量的需求和業(yè)務(wù)的發(fā)展緊密相
43、關(guān)。為了保障產(chǎn)品的正常運(yùn)營(yíng),就需要對(duì)容量進(jìn)行合理的預(yù)估。如果容量預(yù)留過(guò)多,則會(huì)造成資源浪費(fèi);反之,如果容量預(yù)留過(guò)少,則容易引發(fā)現(xiàn)網(wǎng)故障。而傳統(tǒng)的基于業(yè)務(wù)運(yùn)維人員人工經(jīng)驗(yàn)容量預(yù)測(cè)手段不是十分有效,甚至大多數(shù)是“拍腦袋”的結(jié)果。不準(zhǔn)確的容量預(yù)估也使得運(yùn)維縮容和擴(kuò)容顯得被動(dòng)。通常來(lái)說(shuō),大型的互聯(lián)網(wǎng)公司都會(huì)有規(guī)模龐大的服務(wù)器集群,業(yè)務(wù)規(guī)模增加,新業(yè)務(wù)上線,過(guò)保機(jī)器替換都會(huì)導(dǎo)致有大量新采購(gòu)的機(jī)器需要上線并擴(kuò)容到集群中,對(duì)于一些特殊場(chǎng) 景,如電商網(wǎng)站的大促活動(dòng),社交類網(wǎng)站的熱點(diǎn)新聞事件等,容量規(guī)劃更是一件必不可少的考驗(yàn)?;顒?dòng)之后資源往往又需要進(jìn)行回收縮容操作,以節(jié)省運(yùn)行的成本。以往的容量規(guī)劃往往是靠人工經(jīng)
44、驗(yàn)來(lái)操作,現(xiàn)今 AIOps 將根據(jù)業(yè)務(wù)目標(biāo)的需求,結(jié)合服務(wù)數(shù)據(jù),整合運(yùn)維人員的業(yè)務(wù)經(jīng)驗(yàn),建立精準(zhǔn)容量規(guī)劃模型,從而精確預(yù)測(cè)各個(gè)業(yè)務(wù)的容量, 讓其使用率達(dá)到最優(yōu)。性能優(yōu)化性能的調(diào)優(yōu)一直是運(yùn)維的重要一環(huán)。如果性能優(yōu)化得當(dāng),則會(huì)減少實(shí)際的運(yùn)算量,減少內(nèi)存方面的濫用,提升服務(wù)器的性能。運(yùn)維人員在其中并不能保證及時(shí)發(fā)現(xiàn)所有潛在的性能問(wèn)題,很多時(shí)候也不知道什么的系統(tǒng)配置才是最優(yōu)的系統(tǒng)配置,什么時(shí)候的權(quán)重配比才能夠達(dá)到最佳的效果。AIOps 能夠根據(jù)現(xiàn)網(wǎng)的實(shí)際情況,進(jìn)行智能地調(diào)整配置,智能發(fā)現(xiàn)性能優(yōu)化策略,提供智能化的優(yōu)化服務(wù)。7、AIOps 實(shí)施及關(guān)鍵技術(shù)為了實(shí)現(xiàn)成本管理、效率提升、質(zhì)量保障的場(chǎng)景,根據(jù)
45、Gartner 的定義,AIOps 產(chǎn)品或平臺(tái)應(yīng)包含下圖所示的要素:數(shù)據(jù)源:大量并且種類繁多的 IT 基礎(chǔ)設(shè)施大數(shù)據(jù)平臺(tái):用于處理歷史和實(shí)時(shí)的數(shù)據(jù)計(jì)算與分析:通過(guò)已有的 IT 數(shù)據(jù)產(chǎn)生新的數(shù)據(jù),例如數(shù)據(jù)清洗、去除噪聲等算法:用于計(jì)算和分析,以產(chǎn)生 IT 運(yùn)維場(chǎng)景所需要的結(jié)果機(jī)器學(xué)習(xí):這里一般指無(wú)監(jiān)督學(xué)習(xí),可根據(jù)基于算法的分析結(jié)果來(lái)產(chǎn)生新的算法圖 7-1 AIOps 產(chǎn)品或平臺(tái)要素圖 說(shuō)明3數(shù)據(jù)采集數(shù)據(jù)采集負(fù)責(zé)將智能運(yùn)維所需要的數(shù)據(jù)接入至 AIOps 平臺(tái),所接入的運(yùn)維數(shù)據(jù)類型一般包括(但不限于)日志數(shù)據(jù),性能指標(biāo)數(shù)據(jù),網(wǎng)絡(luò)抓包數(shù)據(jù),用戶行為數(shù)據(jù),告警數(shù)據(jù),配置管理數(shù)據(jù),運(yùn)維流程類數(shù)據(jù)等。數(shù)據(jù)采
46、集方式可分為無(wú)代理采集以及有代理采集兩種。其中無(wú)代理采集為服務(wù)端采集,支持 SNMP, 數(shù)據(jù)庫(kù) JDBC, TCP/UDP 監(jiān)聽(tīng), SYSLOG, Web Service,消息隊(duì)列采集等主流采集方式。有代理采集則用于本地文件或目錄采集,容器編排環(huán)境采集,以及腳本采集等。說(shuō)明3 本圖來(lái)源 https:/ HYPERLINK /blogs/what-is-aiops/ /blogs/what-is-aiops/ 并增加了最上行數(shù)據(jù)處理針對(duì)采集數(shù)據(jù)進(jìn)行入庫(kù)前的預(yù)處理,數(shù)據(jù)從非結(jié)構(gòu)化到結(jié)構(gòu)化的解析,數(shù)據(jù)清洗,格式轉(zhuǎn)換,以及數(shù)據(jù)(如性能指標(biāo))的聚合計(jì)算,處理工作主要體現(xiàn)在幾個(gè)方面:數(shù)據(jù)字段提?。和ㄟ^(guò)正則
47、解析,KV 解析,分隔符解析等解析方式提取字段規(guī)范化數(shù)據(jù)格式:對(duì)字段值類型重定義和格式轉(zhuǎn)換數(shù)據(jù)字段內(nèi)容替換:基于業(yè)務(wù)規(guī)則替換數(shù)據(jù)字段內(nèi)容,比如必要的數(shù)據(jù)脫敏過(guò)程, 同時(shí)可實(shí)現(xiàn)無(wú)效數(shù)據(jù)、缺失數(shù)據(jù)的替換處理時(shí)間規(guī)范化:對(duì)各類運(yùn)維數(shù)據(jù)中的時(shí)間字段進(jìn)行格式統(tǒng)一轉(zhuǎn)換預(yù)聚合計(jì)算:對(duì)數(shù)值型字段或指標(biāo)類數(shù)據(jù)基于滑動(dòng)時(shí)間窗口進(jìn)行聚合統(tǒng)計(jì)計(jì)算,如取 1 分鐘 CPU 平均值數(shù)據(jù)存儲(chǔ)數(shù)據(jù)存儲(chǔ)是 AIOps 平臺(tái)的數(shù)據(jù)落地的地方,可以根據(jù)不同的數(shù)據(jù)類型以及數(shù)據(jù)的消費(fèi)和使用場(chǎng)景,可選擇不同的數(shù)據(jù)存儲(chǔ)方式。數(shù)據(jù)主要可分為如下幾類:數(shù)據(jù)需要進(jìn)行實(shí)時(shí)全文檢索,分詞搜索??蛇x用主流的 ElasticSearch 引擎時(shí)間序列數(shù)
48、據(jù)(性能指標(biāo)),主要以時(shí)間維度進(jìn)行查詢分析的數(shù)據(jù), 可選用主流的rrdtool、graphite、influxdb 等時(shí)序數(shù)據(jù)庫(kù)關(guān)系類數(shù)據(jù),以及會(huì)聚集在基于關(guān)系進(jìn)行遞歸查詢的數(shù)據(jù)可選擇圖數(shù)據(jù)庫(kù)數(shù)據(jù)的長(zhǎng)期存儲(chǔ)和離線挖掘以及數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建,可選用主流的 Hadoop、Spark 等大數(shù)據(jù)平臺(tái)離線和在線計(jì)算離線計(jì)算:針對(duì)存儲(chǔ)的歷史數(shù)據(jù)進(jìn)行挖掘和批量計(jì)算的分析場(chǎng)景,用于大數(shù)據(jù)量的離線模型訓(xùn)練和計(jì)算,如挖掘告警關(guān)聯(lián)關(guān)系,趨勢(shì)預(yù)測(cè)/容量預(yù)測(cè)模型計(jì)算,錯(cuò)誤詞頻分析等場(chǎng)景。在線計(jì)算:對(duì)流處理中的實(shí)時(shí)數(shù)據(jù)進(jìn)行在線計(jì)算,包括但不限于數(shù)據(jù)的查詢、預(yù)處理和統(tǒng)計(jì)分析,數(shù)據(jù)的實(shí)時(shí)異常檢測(cè),以及部分支持實(shí)時(shí)更新模型的機(jī)器學(xué)習(xí)
49、算法運(yùn)用等。主流的流處理框架包括:Spark Streaming, Kafka Streaming, Flink, Storm 等。面向 AIOps 的算法技術(shù)運(yùn)維場(chǎng)景通常無(wú)法直接基于通用的機(jī)器學(xué)習(xí)算法以黑盒的方式解決,因此需要一些面向AIOps 的算法技術(shù),作為解決具體運(yùn)維場(chǎng)景的基礎(chǔ)。有時(shí)一個(gè)算法技術(shù)還可用于支撐另外一個(gè)算法技術(shù)。 常見(jiàn)的面向 AIOps 的算法技術(shù)包括:指標(biāo)趨勢(shì)預(yù)測(cè):通過(guò)分析指標(biāo)歷史數(shù)據(jù),判斷未來(lái)一段時(shí)間指標(biāo)趨勢(shì)及預(yù)測(cè)值,常見(jiàn)有 Holt-Winters、時(shí)序數(shù)據(jù)分解、ARIMA 等算法。該算法技術(shù)可用于異常檢測(cè)、容量預(yù)測(cè)、容量規(guī)劃等場(chǎng)景。指標(biāo)聚類: 根據(jù)曲線的相似度把多個(gè)
50、 KPI 聚成多個(gè)類別。該算法技術(shù)可以應(yīng)用于大規(guī)模的指標(biāo)異常檢測(cè):在同一指標(biāo)類別里采用同樣的異常檢測(cè)算法及參數(shù),大幅降低訓(xùn)練和檢測(cè)開(kāi)銷。常見(jiàn)的算法有 DBSCAN, K-medoids, CLARANS 等,應(yīng)用的挑戰(zhàn)是數(shù)據(jù)量大,曲線模式復(fù)雜。多指標(biāo)聯(lián)動(dòng)關(guān)聯(lián)挖掘: 多指標(biāo)聯(lián)動(dòng)分析判斷多個(gè)指標(biāo)是否經(jīng)常一起波動(dòng)或增長(zhǎng)。該算法技術(shù)可用于構(gòu)建故障傳播關(guān)系,從而應(yīng)用于故障診斷。常見(jiàn)的算法有 Pearson correlation, Spearman correlation, Kendall correlation 等,應(yīng)用的挑戰(zhàn)為 KPI 種類繁多,關(guān)聯(lián)關(guān)系復(fù)雜。指標(biāo)與事件關(guān)聯(lián)挖掘: 自動(dòng)挖掘文本數(shù)據(jù)中
51、的事件與指標(biāo)之間的關(guān)聯(lián)關(guān)系( 比如在程序 A 每次啟動(dòng)的時(shí)候 CPU 利用率就上一個(gè)臺(tái)階)。該算法技術(shù)可用于構(gòu)建故障傳播關(guān)系,從而應(yīng)用于故障診斷。常見(jiàn)的算法有 Pearson correlation, J-measure, Two-sample test 等,應(yīng)用的挑戰(zhàn)為事件和 KPI 種類繁多,KPI 測(cè)量時(shí)間粒度過(guò)粗會(huì)導(dǎo)致判斷相關(guān)、先后、單調(diào)關(guān)系困難。事件與事件關(guān)聯(lián)挖掘: 分析異常事件之間的關(guān)聯(lián)關(guān)系,把歷史上經(jīng)常一起發(fā)生的事件關(guān)聯(lián)在一起。該算法技術(shù)可用于構(gòu)建故障傳播關(guān)系,從而應(yīng)用于故障診斷。常見(jiàn)的算法有 FP-Growth, Apriori,隨機(jī)森林等,但前提是異常檢測(cè)需要準(zhǔn)確可靠。故障傳
52、播關(guān)系挖掘:融合文本數(shù)據(jù)與指標(biāo)數(shù)據(jù),基于上述多指標(biāo)聯(lián)動(dòng)關(guān)聯(lián)挖掘、指標(biāo)與事件關(guān)聯(lián)挖掘、事件與事件關(guān)聯(lián)挖掘等技術(shù)、由 tracing 推導(dǎo)出的模塊調(diào)用關(guān)系圖、輔以服務(wù)器與網(wǎng)絡(luò)拓?fù)?,?gòu)建組件之間的故障傳播關(guān)系。該算法技術(shù)可以應(yīng)用于故障診斷,其有效性主要取決于其基于的其它技術(shù)。說(shuō)明:本文檔為第一次發(fā)布,更多內(nèi)容如 AIOps 實(shí)踐路徑建議、AIOps 效果度量等內(nèi)容,因時(shí)間關(guān)系未能呈現(xiàn),將在后續(xù)版本中予以更新。附錄:案例案例 1:海量時(shí)間序列異常檢測(cè)的技術(shù)方案1、案例陳述在很多企業(yè)內(nèi)部,工程師都會(huì)收集指標(biāo)類的監(jiān)控?cái)?shù)據(jù),也就是根據(jù)時(shí)間來(lái)采集相應(yīng)的指標(biāo)值。例如某款 APP 的在線用戶數(shù),某個(gè)場(chǎng)景下的成功數(shù)
53、和失敗數(shù)。隨著時(shí)間的遷移,整個(gè)系統(tǒng)會(huì)越來(lái)越復(fù)雜,監(jiān)控的數(shù)據(jù)量會(huì)變得越來(lái)越大,就會(huì)形成海量的時(shí)間序列。在這種情況下, 運(yùn)維人員很難通過(guò)人工巡查的方式來(lái)查看所有的時(shí)間序列是否出現(xiàn)了異常,運(yùn)維人員也無(wú)法通過(guò)配置規(guī)則的方式來(lái)解決海量時(shí)間序列異常檢測(cè)的問(wèn)題。而且,在公司的人力成本有限的情況下,通過(guò)人工巡檢的方式也無(wú)法及時(shí)和有效地發(fā)現(xiàn)時(shí)間序列的異常。為了解決這類問(wèn)題,我們針對(duì)騰訊 SNG 內(nèi)外部的場(chǎng)景建設(shè)了基于機(jī)器學(xué)習(xí)的時(shí)間序列異常檢測(cè)方案。結(jié)合織云 Monitor 監(jiān)控的具體場(chǎng)景,我們構(gòu)建了全方位的時(shí)間序列異常檢測(cè)方案。同時(shí),基于騰訊 SNG 豐富的數(shù)據(jù)集,已經(jīng)實(shí)現(xiàn)了百萬(wàn)條時(shí)間序列用少量時(shí)間序列檢測(cè)模型
54、就可以實(shí)現(xiàn)異常檢測(cè)的能力。2、海量時(shí)間序列異常檢測(cè)的常見(jiàn)問(wèn)題與解決方案【常見(jiàn)問(wèn)題】在海量時(shí)間序列的異常檢測(cè)中,通過(guò)人工巡檢的方式明顯不足以及時(shí)發(fā)現(xiàn)時(shí)間序列的異常告警。在海量時(shí)間序列的異常檢測(cè)中,通過(guò)人工配置規(guī)則的方式,針對(duì)單條時(shí)間序列配置不同的參數(shù), 也是很難通過(guò)少量的人力配置完所有參數(shù)的。退一步講,就算通過(guò)人力配置好了告警參數(shù),隨 著時(shí)間的遷移,業(yè)務(wù)曲線的走勢(shì)也會(huì)發(fā)生變化,以前配置的告警策略有可能無(wú)法自動(dòng)適應(yīng)現(xiàn)在 的環(huán)境,又需要投入巨大的人力去重新配置告警參數(shù)。【解決方案】圖 1時(shí)間序列異常檢測(cè)的技術(shù)框架上圖為時(shí)間序列異常檢測(cè)的技術(shù)框架,作為時(shí)間序列的異常檢測(cè)模型,整體框架分成三大板塊,第一
55、個(gè)是離線訓(xùn)練模塊,第二個(gè)是在線預(yù)測(cè)模塊,第三個(gè)是 AB test 調(diào)優(yōu)模塊。離線模塊,使用統(tǒng)計(jì)判別和無(wú)監(jiān)督算法輸出疑似異常,例如使用3-Sigma原理, Isolation Forest 等算法。然后把輸出的疑似異常給人工進(jìn)行審核,然后加入正負(fù)樣本庫(kù)。然后通過(guò)提取時(shí)間序列的特征,加入有監(jiān)督算法進(jìn)行離線訓(xùn)練并且輸出模型;這里的有監(jiān) 督學(xué)習(xí)算法可以使用線性回歸,邏輯回歸,決策樹(shù),隨機(jī)森林等算法。在線模塊,使用加載離線訓(xùn)練好的模型,并且使用相應(yīng)的有監(jiān)督學(xué)習(xí)算法進(jìn)行實(shí)時(shí)預(yù)測(cè), 也就是判斷正常還是異常。在這里,也需要加入人工校正的過(guò)程,把誤告和漏告的樣本加入樣本庫(kù);其中的 AB test 模塊是作為調(diào)優(yōu)
56、的工具,一旦有某個(gè)流量的模型效果好,就會(huì)全網(wǎng)發(fā)布,實(shí)時(shí)預(yù)測(cè)。注:統(tǒng)計(jì)判別和無(wú)監(jiān)督算法可以使用 3-Sigma 原理,Isolation Forest 等算法。有監(jiān)督學(xué)習(xí)算法可以使用線性回歸,邏輯回歸,決策樹(shù),隨機(jī)森林等算法。3、總結(jié)針對(duì)海量時(shí)間序列異常檢測(cè)的問(wèn)題,我們構(gòu)建了基于機(jī)器學(xué)習(xí)的海量時(shí)間序列異常檢測(cè)方案。該方案把整個(gè)過(guò)程劃分成了無(wú)監(jiān)督,有監(jiān)督,人工決策三部分。通過(guò)運(yùn)維人員的業(yè)務(wù)經(jīng)驗(yàn),使用機(jī)器學(xué)習(xí)來(lái)主動(dòng)學(xué)習(xí)人工經(jīng)驗(yàn),來(lái)實(shí)現(xiàn)時(shí)間序列異常檢測(cè)的智能化。案例 2:金融場(chǎng)景下的根源告警分析1、案例概述金融場(chǎng)景下對(duì)線上故障排查的時(shí)間要求非常嚴(yán)苛,核心業(yè)務(wù)要求在分鐘級(jí)能找到問(wèn)題的 原因,而應(yīng)用數(shù)目和
57、服務(wù)器數(shù)目又非常龐大,以京東金融為例,單個(gè)應(yīng)用的實(shí)例數(shù)就有上千之 多,應(yīng)用的數(shù)量也是有幾千個(gè)。如此大的規(guī)模下,靠人工經(jīng)驗(yàn)去排查問(wèn)題很難達(dá)到時(shí)效性要求, 所以京東金融智能運(yùn)維平臺(tái)引入了更智能化的方法來(lái)進(jìn)行根源告警分析。2、根源告警分析處理流程根源告警分析是基于網(wǎng)絡(luò)拓?fù)?,結(jié)合調(diào)用鏈,通過(guò)時(shí)間相關(guān)性、權(quán)重、機(jī)器學(xué)習(xí)等算法, 將告警進(jìn)行分類篩選,快速找到告警根源的一種方式。它能從大量的告警中找到問(wèn)題的根源, 因此大大縮短了故障排查及恢復(fù)時(shí)間。處理步驟:告警過(guò)濾(將告警中不重要的告警以及重復(fù)告警過(guò)濾掉)生成派生告警(根源關(guān)聯(lián)關(guān)系生成各類派生告警)告警關(guān)聯(lián)(同一個(gè)時(shí)間窗內(nèi),不同類型派生告警是否存在關(guān)聯(lián))權(quán)
58、重計(jì)算(根據(jù)預(yù)先設(shè)置的各類告警的權(quán)重,計(jì)算成為根源告警的可能性)生成根源告警(將權(quán)重最大的派生告警標(biāo)記為根源告警)根源告警合并(若多類告警計(jì)算出的根源告警相同,則將其合并)根據(jù)歷史告警處理知識(shí)庫(kù),找到類似根源告警的處理方案,智能地給出解決方案。圖 1 京東金融根源告警架構(gòu)圖舉例來(lái)說(shuō):假設(shè)多個(gè)系統(tǒng)通過(guò) RPC 進(jìn)行服務(wù)調(diào)用,調(diào)用關(guān)系如下:D 系統(tǒng)- C 系統(tǒng)- B 系統(tǒng)- A 系統(tǒng)當(dāng) A 系統(tǒng)查詢數(shù)據(jù)庫(kù)出現(xiàn)查詢超時(shí)后,告警會(huì)層層往前推進(jìn),導(dǎo)致 B、C、D 系統(tǒng)均有 N 個(gè)超時(shí)告警產(chǎn)生。此時(shí),ROOT 分析可以將告警進(jìn)行收斂,直接分析出根源告警為 A 系統(tǒng)訪問(wèn)數(shù)據(jù)庫(kù)異常,導(dǎo)致 A、B、C、D 多個(gè)
59、系統(tǒng)異常。這樣,就避免了處理人員和每個(gè)系統(tǒng)開(kāi)發(fā)人員溝通,輔助處理人員快速定位問(wèn)題根源、提高了平均解決時(shí)間(MTTR)。如下圖所示:圖 2 京東金融根源告警調(diào)用鏈關(guān)系圖圖 3 京東金融根源告警明細(xì)圖3、根源告警分析處理方法根源告警分析的方法主要分為強(qiáng)關(guān)聯(lián)分析與機(jī)器學(xué)習(xí)兩類。 1)強(qiáng)關(guān)聯(lián)數(shù)據(jù)分析強(qiáng)關(guān)聯(lián)指的是已知確定的關(guān)聯(lián)關(guān)系。如:應(yīng)用之間的調(diào)用鏈關(guān)系數(shù)據(jù)庫(kù)與應(yīng)用服務(wù)器網(wǎng)絡(luò)設(shè)備與網(wǎng)絡(luò)設(shè)備、網(wǎng)絡(luò)設(shè)備與應(yīng)用服務(wù)器宿主機(jī)與虛擬機(jī)關(guān)系等若在同一個(gè)時(shí)間窗內(nèi),有多個(gè)強(qiáng)關(guān)聯(lián)的設(shè)備或應(yīng)用服務(wù)器同時(shí)告警,則大概率認(rèn)為告警之間存在關(guān)聯(lián)關(guān)系。在權(quán)重算法中,有一個(gè)重要的規(guī)則,鏈路上存在連續(xù)的告警可能存在關(guān)聯(lián),越靠后的應(yīng)用越
60、可能是根源?,F(xiàn)在我們根據(jù)例子,分別計(jì)算各類根源告警。繼續(xù)使用上面的例子,D 應(yīng)用-C 應(yīng)用-B 應(yīng)用-A 應(yīng)用-數(shù)據(jù)庫(kù) 的異常的情況。首先是計(jì)算數(shù)據(jù)庫(kù)根源告警。根據(jù)數(shù)據(jù)庫(kù)關(guān)聯(lián)關(guān)系,會(huì)派生數(shù)據(jù)庫(kù)類型的數(shù)據(jù)庫(kù)告警、A 應(yīng)用告警。還會(huì)派生一條應(yīng)用類型的 A 應(yīng)用數(shù)據(jù)庫(kù)異常告警。根據(jù)數(shù)據(jù)庫(kù)派生告警以及數(shù)據(jù)庫(kù)與應(yīng)用的關(guān)聯(lián)關(guān)系及權(quán)重,可以得出數(shù)據(jù)庫(kù)異常導(dǎo)致 A 應(yīng)用查詢超時(shí)。接下來(lái)是計(jì)算應(yīng)用根源告警。根據(jù)調(diào)用關(guān)系,我們先計(jì)算出連續(xù)多個(gè)應(yīng)用告警的鏈路。當(dāng)前 D-C-B-A 四個(gè)應(yīng)用都有派生告警,滿足此規(guī)則。然后,找到最靠后的告警應(yīng)用,也就是 A 應(yīng)用。列舉時(shí)間窗口內(nèi)所有 A 應(yīng)用的派生告警(可能存在多種派生
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 廣東省實(shí)驗(yàn)中學(xué)廣州市天河區(qū)附屬實(shí)驗(yàn)學(xué)校2021-2022學(xué)年八年級(jí)下學(xué)期期中物理試題(含答案)
- 基層中醫(yī)藥知識(shí)培訓(xùn)課件
- (一模)哈三中2025屆高三第一次模擬考試 英語(yǔ)試題(含答案)
- 物業(yè)管理服務(wù)委托及管理費(fèi)支付協(xié)議
- 安東尼奇妙的冒險(xiǎn)故事讀后感
- 項(xiàng)目執(zhí)行工作計(jì)劃書(shū)與時(shí)間表安排
- 山西省晉中市太谷區(qū)職業(yè)中學(xué)校2024-2025學(xué)年高一上學(xué)期期末考試生物試題
- 企業(yè)文件保密制度表格化處理記錄
- 三農(nóng)問(wèn)題社會(huì)調(diào)查方法與技術(shù)指導(dǎo)書(shū)
- 離職員工知識(shí)產(chǎn)權(quán)保密協(xié)議
- DB3410T 34-2024特定地域單元生態(tài)產(chǎn)品價(jià)值核算規(guī)范
- 無(wú)人機(jī)操控技術(shù) 課件全套 項(xiàng)目1-6 緒論-無(wú)人機(jī)自動(dòng)機(jī)場(chǎng)
- 江蘇紅豆實(shí)業(yè)股份有限公司償債能力分析
- 青島中石化輸油管道爆炸事故調(diào)查報(bào)告
- 2024年蘇州職業(yè)大學(xué)高職單招(英語(yǔ)/數(shù)學(xué)/語(yǔ)文)筆試歷年參考題庫(kù)含答案解析
- 充電樁采購(gòu)安裝投標(biāo)方案(技術(shù)方案)
- 教科版小學(xué)科學(xué)六年級(jí)下冊(cè)單元練習(xí)試題及答案(全冊(cè))
- 《Java程序設(shè)計(jì)》電子課件
- 乳腺癌患者的疼痛護(hù)理課件
- 研課標(biāo)說(shuō)教材修改版 八年級(jí)下冊(cè)
- 江西宜春城市文化介紹
評(píng)論
0/150
提交評(píng)論