版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
我們經(jīng)常會從監(jiān)控、撥測、巡檢、可觀測性、演練、混沌工程等角度發(fā)現(xiàn)風(fēng)險,本文對“監(jiān)控、撥測、巡檢、可觀測性”4點(diǎn)以及風(fēng)險感知場景的切入點(diǎn)進(jìn)行解讀。1.監(jiān)控監(jiān)控是在線監(jiān)測、處理IT對象運(yùn)行狀況的工具與過程管理。監(jiān)控相當(dāng)于給運(yùn)維團(tuán)隊分配了成千上萬的機(jī)器人,這些機(jī)器人駐扎在硬件、平臺軟件、應(yīng)用系統(tǒng)等對象中,7*24不間斷的采集指標(biāo)數(shù)據(jù),并將指標(biāo)的異常情況,甚至故障點(diǎn)信息實(shí)時觸達(dá)到正確的人,確保異常信息得到響應(yīng)。監(jiān)控是運(yùn)維組織發(fā)現(xiàn)潛在風(fēng)險與異常的主要手段,推動監(jiān)控發(fā)現(xiàn)的覆蓋面、準(zhǔn)確率、告警觸達(dá)能力的提升,是縮短故障發(fā)現(xiàn)時長的關(guān)鍵舉措。監(jiān)控的目標(biāo)是“不漏報、少誤報、高響應(yīng)”。“不漏報”主要來源于工具能力不足與工具應(yīng)用不到位,前者關(guān)注平臺能力建設(shè),重點(diǎn)是選擇一個可擴(kuò)展性的監(jiān)控技術(shù)平臺、監(jiān)控生態(tài),以及持續(xù)完善的監(jiān)控研發(fā)能力;后者重點(diǎn)是建立最小監(jiān)控覆蓋面基面、主動式的監(jiān)控覆蓋面治理,以及圍繞監(jiān)控覆蓋面治理的流程機(jī)制的完善。“少誤報”主要解決大量反復(fù)誤報告警讓運(yùn)維人員麻木、消極,進(jìn)而忽視監(jiān)控告警,錯過了真正的監(jiān)控告警的處理的問題,主要從從報警策略與報警管理入手,前者關(guān)注源端監(jiān)控工具策略的精準(zhǔn)度、統(tǒng)一告警對告警的收斂與抑制,后者關(guān)注告警處置涉及的維護(hù)管理、告警數(shù)據(jù)治理?!案唔憫?yīng)”指監(jiān)控告警出現(xiàn)后的處理時效性管理,關(guān)注告警分級、觸達(dá)、升級、治理,以及響應(yīng)管理要求。從工具角度看,監(jiān)控工具是一個能力集合,行業(yè)主要的解決方案包括涉及基礎(chǔ)設(shè)施、平臺軟件、應(yīng)用軟件、應(yīng)用功能、客戶體驗(yàn)等層面的源端監(jiān)控工具,以及集中式的統(tǒng)一告警管理組成。如果組織監(jiān)控工具投入資源可以得到保證,還會建立監(jiān)控性能指標(biāo)數(shù)據(jù)的集中管理,這個解決方案目前越來越受一些中大型運(yùn)維組織的青睞。2.撥測撥測是一種主動性的監(jiān)控測試方式,主要利用跨區(qū)域的監(jiān)控網(wǎng)絡(luò),以真實(shí)終端用戶使用場景為視角,對目標(biāo)應(yīng)用進(jìn)行功能可用性、性能管理、網(wǎng)絡(luò)性能角度的監(jiān)控,先于最終用戶挖掘故障隱患。撥測通常是模擬用戶訪問域名、URL、API等方式,監(jiān)測網(wǎng)絡(luò)鏈路質(zhì)量,監(jiān)控web的事務(wù)可用性,主動感知用戶端應(yīng)用訪問體驗(yàn),先于客戶發(fā)現(xiàn)問題。撥測的目標(biāo)是“模擬客戶行為,先于客戶發(fā)現(xiàn)風(fēng)險”。這個風(fēng)險可能是業(yè)務(wù)與服務(wù)可用性,也可能是客戶體驗(yàn)問題。在技術(shù)手段上,借助一些傳統(tǒng)對于頁面、接口的撥測工具一個廣泛使用的方法,也可以考慮以下思路擴(kuò)展:一是借鑒全鏈路的思路,從用戶旅程角度建立端到端的撥測方案。二是將自動化撥測的方案轉(zhuǎn)為即時質(zhì)檢的思路,落地運(yùn)行健康度切面信息。當(dāng)然,對于海量的實(shí)時交易,真實(shí)客戶行為本身也是撥測源頭,如何在第一撥少量用戶遇到問題時快速發(fā)現(xiàn),并進(jìn)行處理是實(shí)現(xiàn)撥測目標(biāo)的擴(kuò)展要求。由于撥測涉及模擬客戶行為操作,組織可以根據(jù)政策、風(fēng)險、成本等維度考慮選擇不同的解決方案。3.可觀測可觀測性概念并非源于計算機(jī)軟件領(lǐng)域,在控制理論中可觀測是指系統(tǒng)可以由其外部輸出推斷其內(nèi)部狀態(tài)的程度。要理解可觀測最近兩年火熱的背景,要理解復(fù)雜,即IT運(yùn)行環(huán)境與技術(shù)架構(gòu)復(fù)雜性,以及IT對生產(chǎn)對象掌握能力加深訴求兩個因素導(dǎo)致。尤其是在云原生環(huán)境下,企業(yè)大規(guī)模地部署容器,應(yīng)用節(jié)點(diǎn)呈指數(shù)級增長,故障可能發(fā)生在任意節(jié)點(diǎn),無法感知與預(yù)測的因素越來越多,而傳統(tǒng)監(jiān)控、日志、可視化等工具只能看到單個環(huán)節(jié)、整體性問題,無法建立更細(xì)化的評估、分析運(yùn)維掌控能力。可觀測理念的提出,是運(yùn)維需要從原來只負(fù)責(zé)可用性被動保障的角色跳出來,站在白盒角度看系統(tǒng)運(yùn)行狀況,剖析應(yīng)用層面的運(yùn)行信息。因?yàn)閺?fù)雜,運(yùn)維組織對于IT系統(tǒng)的掌控力越來越小,傳統(tǒng)監(jiān)控的思路對IT對象風(fēng)險點(diǎn)的發(fā)現(xiàn),在復(fù)雜架構(gòu)下,只能回答當(dāng)前發(fā)現(xiàn)了問題,但是運(yùn)維的目標(biāo)是恢復(fù)連續(xù)性。可觀測的目標(biāo)是“發(fā)現(xiàn)風(fēng)險并協(xié)助排障”,至少應(yīng)達(dá)到故障定界。下面一圖很好的解釋可觀測與監(jiān)控的區(qū)別,自上而下看代表:告警、概況、排錯、剖析、依賴分析,可以理解為處理監(jiān)控告警的幾個步驟:系統(tǒng)異常引發(fā)監(jiān)控告警;受理監(jiān)控告警,查看告警豐富后概述、關(guān)鍵系統(tǒng)運(yùn)行指標(biāo),了解系統(tǒng)整體運(yùn)行狀態(tài),根據(jù)專家意見做出故障識別與診斷;識別異常后,逐層下鉆,進(jìn)行運(yùn)行分析,調(diào)取日志、數(shù)據(jù)庫流水、報文等詳細(xì)信息對異常進(jìn)行進(jìn)一步的分析排錯;進(jìn)一步深入到接口、方法、功能、性能層面進(jìn)行異常分析診斷;調(diào)取模塊與模塊間的交互狀態(tài),通過鏈路追蹤,建立生產(chǎn)對象上下游關(guān)系進(jìn)行分析,建立關(guān)聯(lián)分析能力,輔助判斷問題根因?!翱捎^測性”能力是結(jié)合云原生架構(gòu)下對故障發(fā)現(xiàn)與排障需求的一個最佳實(shí)踐,并在工具層面提出圍繞在日志(logs)、指標(biāo)(metrics)、鏈路(trace)三個要素。分別代表的意義是:日志記錄(logs),軟件在執(zhí)行過程中產(chǎn)出的信息。日志數(shù)據(jù)很豐富,包含正常程序處理過程、異常報錯等信息,詳細(xì)解釋系統(tǒng)的運(yùn)行狀況,但由于日志格式不統(tǒng)一,通常需要先進(jìn)行加工處理以更好的消費(fèi)。追蹤鏈路(trace),處理請求范圍內(nèi)的信息,可以包括從終端到服務(wù)端、到上游關(guān)聯(lián)系統(tǒng)服務(wù)節(jié)點(diǎn),甚至細(xì)化到接口、方法、函數(shù)等多個維度的鏈路關(guān)系。鏈路關(guān)系能夠幫助更全面的了解請求生命周期中系統(tǒng)各個組件的健康情況等。指標(biāo)信息(metrics)。指標(biāo)是反映某個主題的量化、聚合性數(shù)據(jù),是一個可度量數(shù)值,監(jiān)控策略就是建立在一個個評價系統(tǒng)健康情況的指標(biāo)之上,智能異常檢測、系統(tǒng)感知、效能評估、IT服務(wù)管理等也同樣是基于指標(biāo)構(gòu)建。構(gòu)建可觀測系統(tǒng),是為了讓運(yùn)維在復(fù)雜架構(gòu)下具備深入剖析問題的能力。相比傳統(tǒng)監(jiān)控平臺,可觀測是一項(xiàng)綜合整合多種數(shù)據(jù)的、解決“未知”問題的解決方案,監(jiān)控是針對“已知”故障的監(jiān)控,傳統(tǒng)監(jiān)控數(shù)據(jù)是可觀測系統(tǒng)應(yīng)用的一部分。監(jiān)控需要提前了解系統(tǒng)數(shù)據(jù),建立針對運(yùn)行數(shù)據(jù)的監(jiān)控策略,而可觀測是從全局角度分析數(shù)據(jù),良好的可觀測能力需要在設(shè)計階段進(jìn)行非功能性前移,當(dāng)系統(tǒng)異常時能夠讓運(yùn)維快速了解問題的現(xiàn)狀和影響,并能夠深入探索、跟蹤問題的根因。另外,可觀測與以往的運(yùn)行可視化也有一些區(qū)別??捎^測系統(tǒng)不是一個簡單整合數(shù)據(jù)可視化或落地好看的儀表板,而是要在異常發(fā)現(xiàn)、診斷、定位過程中發(fā)揮作用。相比以往構(gòu)建的可視化,可觀測系統(tǒng)不僅需要整合更豐富的鏈路、日志、指標(biāo)數(shù)據(jù),還需要更加標(biāo)準(zhǔn)的數(shù)據(jù)內(nèi)容才能達(dá)成整合效果。要得到滿足條件的數(shù)據(jù),需要運(yùn)維、研發(fā)通力協(xié)作,在軟件設(shè)計過程中考慮相關(guān)數(shù)據(jù)埋點(diǎn)。所以,在構(gòu)建可觀測之前務(wù)必要分別調(diào)動研發(fā)、測試、管理決策層的興趣,挖掘各方的痛點(diǎn)與期望,即不僅僅要考慮運(yùn)維工程師希望實(shí)現(xiàn)的快速故障定界、診斷的作用,還要考慮可觀測如何解決研發(fā)、測試工程師的架構(gòu)失控、性能管理、變更后驗(yàn)證、了解生產(chǎn)運(yùn)行環(huán)境、基礎(chǔ)設(shè)施、了解程序上線后運(yùn)行狀況等問題。以及,如何解決管理決策層建立穿透式的量化運(yùn)行狀況掌控力,并進(jìn)行指揮決策。4.巡檢巡檢是主動對IT運(yùn)行風(fēng)險的評估發(fā)現(xiàn),包括常規(guī)巡檢與深度巡檢,前者是高頻、例行的分析,通常融入到常規(guī)運(yùn)維流程;后者主要從成本角度區(qū)別于常規(guī)巡檢,比如加大評估分析面、分析深度、預(yù)測分析、協(xié)同范圍、問題跟蹤等,通常深度巡檢帶有一定的風(fēng)險分析主題。巡檢的目標(biāo)是“主動評估風(fēng)險”,強(qiáng)調(diào)的是一種主動發(fā)現(xiàn)風(fēng)險的數(shù)字化思維模式與組織協(xié)同文化。在數(shù)字化運(yùn)維階段,巡檢需在操作上要進(jìn)行升級,將巡檢從常規(guī)操作性例行工作與監(jiān)控管理區(qū)別開,不斷鼓勵、促進(jìn)運(yùn)維專家轉(zhuǎn)變被動工作方式,建立巡檢的管理機(jī)制,不斷的固化巡檢規(guī)則、任務(wù)、報告、數(shù)據(jù)感知等解決方案,是主動運(yùn)營的一個轉(zhuǎn)變表現(xiàn)方式。比如:圍繞業(yè)務(wù)連續(xù)性保障相關(guān)的重要系統(tǒng)性能&容量&質(zhì)量管理主題的數(shù)據(jù)運(yùn)營、平臺軟件性能&容量&質(zhì)量管理主題的數(shù)據(jù)運(yùn)營、重系統(tǒng)運(yùn)行狀態(tài)感知、重要系統(tǒng)上下游看板、交易終端交易分布、客戶訂單感知、功能號運(yùn)行感知、業(yè)務(wù)品種分析、清算過程管理等主題分析,以及擴(kuò)展到IT服務(wù)管理相關(guān)的監(jiān)控告警處置效率、生產(chǎn)變更發(fā)布風(fēng)險、應(yīng)急處置效率、生產(chǎn)已知缺陷看板、故障應(yīng)急過程管理、配置管理等主題分析。5.風(fēng)險感知百度百科對“感知”的定義是“對內(nèi)外界信息的覺察、感覺、注意、知覺的一系列過程”。風(fēng)險感知包括對客觀風(fēng)險信息的“知覺”,與運(yùn)維專家經(jīng)驗(yàn)知識的“感覺”。我對“感知”一詞的認(rèn)識來源于幾年前《全數(shù)字化賦能》一書。書中定義了數(shù)字化的感知力,是指通過收集數(shù)據(jù)與見解,察覺企業(yè)所處環(huán)境的重要變化,感知力包括行為感知與情景感知,行為感知是指深入了解員工、客戶的行為與想法,情景感知是對商業(yè)環(huán)境與運(yùn)營環(huán)境的感知。“感知”與“決策、執(zhí)行”共同組成了我對數(shù)據(jù)智能思維框架的三要素,打造數(shù)字化IT風(fēng)險管理的風(fēng)險感知場景將是數(shù)字化運(yùn)維體系的重要方向。風(fēng)險感知場景關(guān)鍵的三點(diǎn)是:影響風(fēng)險的客觀信息組合、專家知識的融入、擴(kuò)展到?jīng)Q策與執(zhí)行的閉環(huán)。風(fēng)險感知是場景,將整合上述監(jiān)控、撥測、可觀測、巡檢的一些基本能力,并基于場景需要構(gòu)建工具需要具備的功能、流程機(jī)制,配套組織角色。風(fēng)險感知之所以能成為場景,在于風(fēng)險感知在運(yùn)維體系中是一個既能獨(dú)立運(yùn)作,又能與其他場景相結(jié)合產(chǎn)生更全面與深度的效能。在組織、流程、平臺、場景四位一體的體系方案中,場景接近用戶工作,包括“人、事、時間、協(xié)同、環(huán)境”5要素,提升場景價值不是重復(fù)造輪子,要善用、組合已有的平臺能力??偨Y(jié)一下前面提到的監(jiān)控、撥測、可觀測、巡檢四項(xiàng)能力的目標(biāo):監(jiān)控:目標(biāo)是“不漏報、少誤報、高響應(yīng)”,從風(fēng)險角度重點(diǎn)關(guān)注即時發(fā)現(xiàn)風(fēng)險,包括眾多風(fēng)險監(jiān)測的“點(diǎn)”,偏被動。撥測:目標(biāo)是“模擬客戶行為,先于客戶發(fā)現(xiàn)風(fēng)險”,從風(fēng)險角度重點(diǎn)關(guān)注業(yè)務(wù)層面的風(fēng)險發(fā)現(xiàn),是以終為始的風(fēng)險發(fā)現(xiàn),由業(yè)務(wù)風(fēng)險帶動其他風(fēng)險的發(fā)現(xiàn),專注業(yè)務(wù)層面風(fēng)險的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《家裝知識講座》課件
- 《癲癇本科》課件
- 《家族式增員》課件
- 單位管理制度合并選集【人員管理篇】
- 單位管理制度范例選集人事管理篇十篇
- 《投資經(jīng)濟(jì)學(xué)》課程教學(xué)大綱
- 《現(xiàn)代經(jīng)濟(jì)學(xué)》課程教學(xué)大綱1
- 《小學(xué)分?jǐn)?shù)教學(xué)》課件
- 《電子元件基礎(chǔ)知識》課件
- 《企業(yè)環(huán)保管理》課件
- 流行病學(xué)知識考核試題題庫與答案
- DB11-T212-2017園林綠化工程施工及驗(yàn)收規(guī)范
- 小學(xué)數(shù)學(xué)自制教具學(xué)具的研究及探討
- 廣東省幼兒園一日活動指引(試行)
- 光學(xué)材料-光學(xué)加工流程
- 奔馳卡車產(chǎn)品分析(課堂PPT)
- 反循環(huán)鉆孔灌注樁施工方案
- 新能源小客車購車充電條件確認(rèn)書
- 發(fā)明專利專利答辯模板
- 市政府副市長年道路春運(yùn)工作會議講話稿
- 鑄鐵鑲銅閘門
評論
0/150
提交評論