2024年主機(jī)上云運(yùn)維現(xiàn)代化核心能力白皮書(shū)-華為-46正式版_第1頁(yè)
2024年主機(jī)上云運(yùn)維現(xiàn)代化核心能力白皮書(shū)-華為-46正式版_第2頁(yè)
2024年主機(jī)上云運(yùn)維現(xiàn)代化核心能力白皮書(shū)-華為-46正式版_第3頁(yè)
2024年主機(jī)上云運(yùn)維現(xiàn)代化核心能力白皮書(shū)-華為-46正式版_第4頁(yè)
2024年主機(jī)上云運(yùn)維現(xiàn)代化核心能力白皮書(shū)-華為-46正式版_第5頁(yè)
已閱讀5頁(yè),還剩41頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

踐行深度用云主機(jī)上云運(yùn)維現(xiàn)代化核心能力編制委員會(huì)主

華為云計(jì)算技術(shù)有限公司編

問(wèn)

尚海峰胡玉海編

支新輝貢徐青俊劉征輝林麗鑫王飛主

郭曉征耿麗麗馬曉明毛明強(qiáng)張志炯王進(jìn)行石松參

黃征彬熊洪槐張聞毅濤馬韜錢(qián)石姚張沛沛博凱秦丹濤張瀚文張胡劉王江堃杰瑞王珂李松李晉彭永紅程紫東張任遠(yuǎn)田應(yīng)軍席彬王樂(lè)曉關(guān)建峰趙靜敏責(zé)

輯(排名不分先后)序言尚海峰華為主機(jī)上云軍團(tuán)CEO、混合云總裁過(guò)去三四十年,金融核心系統(tǒng)主要采用集中式主機(jī)架構(gòu)進(jìn)行建設(shè)。隨著金融業(yè)務(wù)數(shù)字化轉(zhuǎn)型需求的不斷深化,云計(jì)算技術(shù)的持續(xù)演進(jìn),金融機(jī)構(gòu)普遍采用了云原生相關(guān)技術(shù)進(jìn)行業(yè)務(wù)改造,更有不少頭部大行作為先行者,率先將主機(jī)承載的核心系統(tǒng)業(yè)務(wù)也遷移上云,加速了金融行業(yè)數(shù)智化、自主創(chuàng)新進(jìn)程。目前,大部分國(guó)有銀行和股份制銀行已經(jīng)完成了從一般類(lèi)業(yè)務(wù)上云到核心類(lèi)業(yè)務(wù)上云改造的試點(diǎn)工作,進(jìn)入到核心業(yè)務(wù)批量上云改造階段。柜面系統(tǒng)、網(wǎng)銀系統(tǒng)、信貸系統(tǒng)、投資理財(cái)系統(tǒng)、信用卡系統(tǒng)等核心交易系統(tǒng)陸續(xù)遷移到云上,使得金融云平臺(tái)承載的業(yè)務(wù)規(guī)模不斷擴(kuò)大,重要性不斷攀升。隨之而來(lái)的是,業(yè)務(wù)對(duì)持續(xù)高可用的要求更加苛刻,尤其是核心業(yè)務(wù)上云后,任何業(yè)務(wù)中斷都會(huì)引發(fā)重大的影響。金融對(duì)公眾開(kāi)放的核心業(yè)務(wù)一旦中斷會(huì)造成嚴(yán)重的社會(huì)影響甚至引發(fā)信用危機(jī)。除業(yè)務(wù)中斷外,業(yè)務(wù)的劣化,如卡頓、報(bào)錯(cuò)等,也會(huì)造成最終用戶(hù)的不滿(mǎn)和投訴。這就對(duì)承載核心業(yè)務(wù)的云平臺(tái)提出了更高的穩(wěn)定性、可靠性要求。除了穩(wěn)定的產(chǎn)品外,強(qiáng)大的運(yùn)維體系是保障云平臺(tái)穩(wěn)定性最直接、最有效的手段。在主機(jī)核心業(yè)務(wù)逐步上云后,如何加強(qiáng)運(yùn)維全鏈路監(jiān)控能力,快速定位、定界和解決問(wèn)題,如何變被動(dòng)運(yùn)維為主動(dòng)故障預(yù)防從而大幅減少潛在故障與運(yùn)維投入,如何將應(yīng)用運(yùn)維與平臺(tái)運(yùn)維進(jìn)行有效協(xié)同從而保障系統(tǒng)性業(yè)務(wù)高可靠高可用,如何應(yīng)對(duì)平臺(tái)運(yùn)維安全與租戶(hù)安全帶來(lái)的雙重挑戰(zhàn)等問(wèn)題,成為了擺在金融運(yùn)維人面前的關(guān)鍵挑戰(zhàn)。華為云基于自身云平臺(tái)運(yùn)維經(jīng)驗(yàn),以及服務(wù)上百家金融客戶(hù)數(shù)字化轉(zhuǎn)型的實(shí)踐,持續(xù)積累主機(jī)上云場(chǎng)景的運(yùn)維核心能力,并沉淀了一套全面構(gòu)建穩(wěn)定可靠的現(xiàn)代化運(yùn)維能力的路徑和方法,期望助力金融企業(yè)加快實(shí)現(xiàn)主機(jī)業(yè)務(wù)的全面云化。目錄105-08主機(jī)上云帶來(lái)的運(yùn)維新挑戰(zhàn)21.1挑戰(zhàn)1:如何基于應(yīng)用視角設(shè)計(jì)高可用上云方案與高可靠運(yùn)維保障方案1.2挑戰(zhàn)2:云平臺(tái)技術(shù)棧快速增厚,如何有效進(jìn)行全鏈路可視監(jiān)控1.3挑戰(zhàn)3:云網(wǎng)深度融合,如何快速發(fā)現(xiàn)、定位、恢復(fù)問(wèn)題1.4挑戰(zhàn)4:如何應(yīng)對(duì)運(yùn)維安全與租戶(hù)安全的雙重挑戰(zhàn)09-43主機(jī)上云運(yùn)維現(xiàn)代化核心能力2.1平臺(tái)運(yùn)維現(xiàn)代化2.1.1全鏈路運(yùn)維監(jiān)控構(gòu)建從應(yīng)用到云平臺(tái)的全棧感知能力2.1.2基于故障模式庫(kù)和云網(wǎng)一體化運(yùn)維實(shí)現(xiàn)確定性故障恢復(fù)2.1.3基于一體化風(fēng)險(xiǎn)庫(kù)和混沌工程進(jìn)行預(yù)見(jiàn)性風(fēng)險(xiǎn)治理2.2應(yīng)用運(yùn)維現(xiàn)代化2.2.1運(yùn)維規(guī)劃前置到設(shè)計(jì)階段,業(yè)務(wù)可靠性來(lái)源于運(yùn)維與設(shè)計(jì)的融合2.2.2借助運(yùn)維數(shù)倉(cāng)構(gòu)建應(yīng)用可用性監(jiān)控管理體系,實(shí)現(xiàn)業(yè)務(wù)故障實(shí)時(shí)感知定界2.2.3面向故障全生命周期,全方位提升故障感知、診斷、恢復(fù)智能化水平32.3安全運(yùn)維現(xiàn)代化2.3.1全視角運(yùn)維安全體系設(shè)計(jì)構(gòu)筑金融云運(yùn)維安全堤壩2.3.2體系化、智能化安全運(yùn)營(yíng)為云上業(yè)務(wù)保駕護(hù)航44結(jié)語(yǔ)主機(jī)上云帶來(lái)的運(yùn)維新挑戰(zhàn)挑戰(zhàn)1:如何基于應(yīng)用視角設(shè)計(jì)高可用上云方案與高可靠運(yùn)維保障方案據(jù)庫(kù)、中間件、AI、大模型等各種云原生技術(shù)被廣泛應(yīng)用。新服務(wù)、新技術(shù)的迭代加速,猶如一柄雙刃劍,在助力業(yè)務(wù)快速發(fā)展、快速創(chuàng)新的同時(shí),也帶來(lái)了系統(tǒng)技術(shù)棧復(fù)雜度的急劇提升,給傳統(tǒng)的IT運(yùn)維方式帶來(lái)巨大沖擊。主機(jī)上云的最大挑戰(zhàn)就是核心應(yīng)用上云后的可用性管理。隨著原來(lái)運(yùn)行在大機(jī)上的應(yīng)用不斷遷移上云,云上的業(yè)務(wù)可用性等級(jí)要求被提升到了新的高度,傳統(tǒng)的運(yùn)維手段已經(jīng)無(wú)法滿(mǎn)足核心業(yè)務(wù)N個(gè)9的可用性目標(biāo)??捎眯怨芾砬爸玫搅讼到y(tǒng)設(shè)計(jì)乃至應(yīng)用設(shè)計(jì)階段。例如,應(yīng)用的微服務(wù)化改造,帶來(lái)微服務(wù)數(shù)量的指數(shù)級(jí)增長(zhǎng),應(yīng)用的調(diào)用層次和調(diào)用關(guān)系變得冗長(zhǎng);分布式云原生的深度應(yīng)用,使得業(yè)務(wù)鏈路更加復(fù)雜。當(dāng)上層業(yè)務(wù)應(yīng)用出現(xiàn)故障時(shí),排障過(guò)程可能涉及從應(yīng)用到網(wǎng)絡(luò)的完整鏈路,這其中包含業(yè)務(wù)應(yīng)用、云服務(wù)實(shí)例、云基礎(chǔ)設(shè)施和服務(wù)器、網(wǎng)絡(luò)、存儲(chǔ)等物理設(shè)備。即便如此,可用性管理依然面臨著成本、技術(shù)和管理的三重挑戰(zhàn)。首先,無(wú)論是備份、主備、多活還是業(yè)務(wù)單元化改造,所有的高可用的架構(gòu)設(shè)計(jì)都需要投入高昂的成本,高可用的效果和技術(shù)方案的投入成本成正相關(guān)關(guān)系。如何平衡高可用的投入與產(chǎn)出就成為IT管理者在高可用管理過(guò)程中的重要難題。典型的業(yè)務(wù)流量路徑如:應(yīng)用>容器>PaaS實(shí)例>虛擬機(jī)>服務(wù)器>虛擬網(wǎng)絡(luò)>物理網(wǎng)絡(luò)。在針對(duì)這個(gè)路徑的運(yùn)維實(shí)際工作中,應(yīng)用、虛擬機(jī)軟件提供方、服務(wù)器和網(wǎng)絡(luò)設(shè)備提供方常常是各管一段,整個(gè)業(yè)務(wù)從上到下的全棧調(diào)用路徑往往是個(gè)黑盒,導(dǎo)致故障定位定界困難,或者恢復(fù)時(shí)長(zhǎng)無(wú)法控制。其次,高可用設(shè)計(jì)是一系列技術(shù)方案的組合,從底層網(wǎng)絡(luò)設(shè)計(jì)、到云服務(wù)的有效運(yùn)用以及高可用技術(shù)工具的選型,從業(yè)務(wù)部署架構(gòu)的改造到上層業(yè)務(wù)的單元化改造,每個(gè)層次都涉及多種技術(shù)的使用與配合。如何讓現(xiàn)有的技術(shù)手段以及云服務(wù)發(fā)揮最大的效能,如何基于先進(jìn)的單元化設(shè)計(jì)理念達(dá)成核心應(yīng)用N個(gè)9的可靠性也是IT管理者面臨的難題。面對(duì)IT系統(tǒng)復(fù)雜的技術(shù)棧及海量的運(yùn)維對(duì)象,做到軟硬件運(yùn)維對(duì)象的統(tǒng)一管理,指標(biāo)、告警、日志、調(diào)用鏈、拓?fù)涞冗\(yùn)維數(shù)據(jù)的統(tǒng)一匯聚和分析,構(gòu)建全鏈路故障感知、全棧故障可視的運(yùn)維體驗(yàn),對(duì)于金融主機(jī)上云過(guò)程中的運(yùn)維工作至關(guān)重要。最后,服務(wù)SLA(ServiceLevelAgreement,服務(wù)水平協(xié)議)的達(dá)成還需要有相匹配的管理手段與工具,如故障模式庫(kù)、演練工具等資源作為支撐,不但要能有效跟蹤度量SLA的實(shí)際效果,還需要持續(xù)、主動(dòng)發(fā)現(xiàn)可用性風(fēng)險(xiǎn)的機(jī)制與工具,在可用性管理的過(guò)程中實(shí)現(xiàn)數(shù)據(jù)積累和能力演進(jìn)。挑戰(zhàn)3:云網(wǎng)深度融合,如何快速發(fā)現(xiàn)、定位、恢復(fù)問(wèn)題過(guò)去一年,在互聯(lián)網(wǎng)領(lǐng)域發(fā)生過(guò)多起頗為嚴(yán)重的宕機(jī)事故:2023年3月,某互聯(lián)網(wǎng)服務(wù)商發(fā)生機(jī)房故障,多個(gè)互聯(lián)網(wǎng)核心應(yīng)用受到影響,事故持續(xù)7個(gè)小時(shí),影響約十幾億用戶(hù)。挑戰(zhàn)2:云平臺(tái)技術(shù)??焖僭龊?,如何有效進(jìn)行全鏈路可視監(jiān)控2023年11月,某云服務(wù)商旗下多款應(yīng)用出現(xiàn)無(wú)法登錄故障,事故持續(xù)4個(gè)小時(shí),這是該云服務(wù)商時(shí)隨著主機(jī)上云和業(yè)務(wù)云化轉(zhuǎn)型的持續(xù)深入,分布式數(shù)06隔一年之后第二次出現(xiàn)嚴(yán)重故障。如何解決云網(wǎng)絡(luò)問(wèn)題在云網(wǎng)絡(luò)和物理網(wǎng)絡(luò)深度融合的場(chǎng)景下,應(yīng)用級(jí)的網(wǎng)絡(luò)可視、云網(wǎng)絡(luò)端到端的故障探測(cè)是解決云網(wǎng)絡(luò)問(wèn)題的關(guān)鍵所在。2023年11月,某互聯(lián)網(wǎng)服務(wù)公司核心應(yīng)用業(yè)務(wù)癱瘓接近12個(gè)小時(shí),流失千萬(wàn)訂單,直接損失上億元,引發(fā)了廣泛的社會(huì)關(guān)注??偨Y(jié)上述這些事故,它們都具備了如下幾個(gè)特點(diǎn):挑戰(zhàn)4:如何應(yīng)對(duì)運(yùn)維安全與租戶(hù)安全的雙重挑戰(zhàn)事故影響范圍巨大,社會(huì)反響強(qiáng)烈,更有甚者還會(huì)對(duì)社會(huì)的衣食住行產(chǎn)生嚴(yán)重影響。主機(jī)上云的過(guò)程中,應(yīng)用與云平臺(tái)的運(yùn)維會(huì)同時(shí)受到運(yùn)維安全和租戶(hù)安全的雙重挑戰(zhàn)。事故影響時(shí)間較長(zhǎng),業(yè)務(wù)恢復(fù)周期以數(shù)小時(shí)計(jì),嚴(yán)重者故障恢復(fù)時(shí)長(zhǎng)達(dá)到了12小時(shí)。在運(yùn)維安全方面常見(jiàn)的挑戰(zhàn)包括:造成巨額經(jīng)濟(jì)損失,負(fù)責(zé)人被處分、問(wèn)責(zé)。運(yùn)維安全意識(shí)不足運(yùn)維管理者缺乏對(duì)運(yùn)維安全的完整規(guī)劃,在制度、流程和技術(shù)規(guī)范方面缺少對(duì)變更的嚴(yán)格管控。在缺乏對(duì)變更的嚴(yán)格審控機(jī)制的情況下,隨意的變更為引發(fā)后續(xù)事故埋下了隱患。隨著上云進(jìn)程的逐漸深入,金融企業(yè)開(kāi)始將核心應(yīng)用搬遷上云。核心應(yīng)用一般有著規(guī)模大、分布式、架構(gòu)復(fù)雜等特點(diǎn),這一點(diǎn)和互聯(lián)網(wǎng)業(yè)務(wù)非常相似,上述互聯(lián)網(wǎng)的故障也在時(shí)刻給金融核心應(yīng)用的運(yùn)維敲響警鐘。在此背景下,近年來(lái)金融領(lǐng)域客戶(hù)提出了核心業(yè)務(wù)的“1-5-10”目標(biāo),即:1分鐘發(fā)現(xiàn)故障、5分鐘定位、10分鐘恢復(fù)。要實(shí)現(xiàn)這個(gè)目標(biāo)必須要解決以下關(guān)鍵問(wèn)題:運(yùn)維安全管控的技術(shù)手段不足主要表現(xiàn)為,對(duì)運(yùn)維操作入口沒(méi)有進(jìn)行技術(shù)管控,缺乏對(duì)運(yùn)維操作過(guò)程的有效監(jiān)管,缺乏對(duì)高危操作的攔截,缺乏對(duì)運(yùn)維操作的記錄與審計(jì),缺乏識(shí)別惡意操作的評(píng)估手段。如何盡可能地少出問(wèn)題首先,需要有一個(gè)完善的運(yùn)維規(guī)范和流程來(lái)保障運(yùn)維流程合規(guī);其次,核心應(yīng)用需要全局的高可用設(shè)計(jì),從架構(gòu)層面避免單點(diǎn)故障;最后,企業(yè)還應(yīng)具備完善的風(fēng)險(xiǎn)管理體系,可以對(duì)識(shí)別到的風(fēng)險(xiǎn)舉一反三快速閉環(huán),持續(xù)提升核心應(yīng)用的韌性。權(quán)責(zé)不匹配運(yùn)維人員的權(quán)限過(guò)大或者超越自己的職責(zé)范圍,很容易引發(fā)超出職責(zé)范圍的誤操作,從而帶來(lái)不必要的運(yùn)維風(fēng)險(xiǎn)。在租戶(hù)安全方面的挑戰(zhàn)包括:如何快速恢復(fù)故障基于核心應(yīng)用黃金指標(biāo)的秒級(jí)故障感知是故障恢復(fù)的前提;基于調(diào)用鏈分析、日志解析、云服務(wù)實(shí)例快速診斷的分鐘級(jí)故障定位是故障恢復(fù)的基礎(chǔ);基于應(yīng)急處理預(yù)案的一鍵式故障恢復(fù)是行之有效的手段。安全攻擊無(wú)法避免希望一勞永逸地解決租戶(hù)安全問(wèn)題是不切實(shí)際的。人類(lèi)的操作永遠(yuǎn)無(wú)法做到完美,系統(tǒng)和技術(shù)總在不斷演進(jìn),新的漏洞會(huì)不斷出現(xiàn),完全消除漏洞是不可能的。所以,0日攻擊、釣魚(yú)攻擊以及賬戶(hù)被破解都無(wú)法被避免。07租戶(hù)安全防護(hù)難以全局統(tǒng)籌理解威脅的本質(zhì),以制定有效的處置策略。有時(shí)候安全團(tuán)隊(duì)還會(huì)面臨技術(shù)上的限制,從而需要花費(fèi)更多時(shí)間來(lái)研究和實(shí)施解決方案?,F(xiàn)代企業(yè)和組織的網(wǎng)絡(luò)環(huán)境越發(fā)復(fù)雜,涉及眾多設(shè)備、應(yīng)用、數(shù)據(jù)類(lèi)型。同時(shí)安全威脅也在不斷演變,包括網(wǎng)絡(luò)攻擊、釣魚(yú)、木馬、病毒、社會(huì)工程學(xué)攻擊等多種形式。安全團(tuán)隊(duì)需要同時(shí)跟蹤多種威脅情報(bào),及時(shí)調(diào)整安全策略和措施,以應(yīng)對(duì)各種各樣的威脅。在實(shí)際業(yè)務(wù)場(chǎng)景中,由于安全管理不善造成重大事故和業(yè)務(wù)損失的案例并不鮮見(jiàn),如誤刪數(shù)據(jù)庫(kù)賬戶(hù)造成結(jié)算業(yè)務(wù)失效,誤刪虛擬機(jī)造成業(yè)務(wù)中斷,租戶(hù)權(quán)限管理不當(dāng)誤刪OBS桶等等。云化、集中化雖然提升了業(yè)務(wù)的創(chuàng)新速度,也讓運(yùn)維安全的管控以及租戶(hù)安全的治理變得更加復(fù)雜,所以運(yùn)維安全是業(yè)務(wù)可靠性保障的基石,也是運(yùn)維現(xiàn)代化的基礎(chǔ)。安全威脅處置緩慢安全威脅普遍具有隱蔽性強(qiáng)的特點(diǎn),不易被及時(shí)發(fā)現(xiàn)。現(xiàn)代安全威脅越來(lái)越復(fù)雜和多樣化,攻擊手段和方式不斷演變,安全團(tuán)隊(duì)需要花費(fèi)更多時(shí)間來(lái)分析和主機(jī)上云運(yùn)維現(xiàn)代化核心能力主機(jī)上云運(yùn)維現(xiàn)代化旨在圍繞核心系統(tǒng)云平臺(tái)運(yùn)維、應(yīng)用運(yùn)維及安全運(yùn)維三大領(lǐng)域系統(tǒng)性構(gòu)建上云后的云運(yùn)維保障能力,全面支撐金融核心應(yīng)用通過(guò)平遷、改造或核心重構(gòu)三種方式遷移上云后的穩(wěn)定可靠運(yùn)行,助力金融機(jī)構(gòu)平滑穩(wěn)健地深化數(shù)智業(yè)務(wù)創(chuàng)新,構(gòu)筑面向自主創(chuàng)新的高質(zhì)量發(fā)展基座。存貸款消費(fèi)信貸支付結(jié)算中間業(yè)務(wù)現(xiàn)金管理理財(cái)管理資金交易主動(dòng)預(yù)防運(yùn)行穩(wěn)定安全可靠1.平臺(tái)運(yùn)維現(xiàn)代化2.應(yīng)用運(yùn)維現(xiàn)代化3.安全運(yùn)維現(xiàn)代化全鏈路確定性預(yù)見(jiàn)性高可用智能化全視角體系化運(yùn)維監(jiān)控故障恢復(fù)風(fēng)險(xiǎn)治理架構(gòu)設(shè)計(jì)應(yīng)用運(yùn)維運(yùn)維安全安全運(yùn)營(yíng)全鏈路可觀測(cè)面向應(yīng)用運(yùn)維極簡(jiǎn)信息匯聚云網(wǎng)定位定界故障精準(zhǔn)診斷一鍵故障恢復(fù)主動(dòng)風(fēng)險(xiǎn)預(yù)防變更風(fēng)控管控混沌工程演練高可用SLA規(guī)劃應(yīng)用高可用設(shè)計(jì)持續(xù)高可用治理運(yùn)維數(shù)據(jù)治理可用性指標(biāo)構(gòu)建運(yùn)維故障分析用戶(hù)授權(quán)可控制作業(yè)過(guò)程可信賴(lài)潛在風(fēng)險(xiǎn)可識(shí)別立體防御體系主動(dòng)智能安全全面安全運(yùn)營(yíng)主機(jī)上云新基座應(yīng)用平遷上云應(yīng)用改造上云核心重構(gòu)圖2.1運(yùn)維現(xiàn)代化三大核心能力平臺(tái)運(yùn)維現(xiàn)代化平臺(tái)運(yùn)維的現(xiàn)代化轉(zhuǎn)型重點(diǎn)要考慮如下三方面的能力建設(shè):華為云給出了通過(guò)全鏈路檢測(cè)、故障模式庫(kù)和云網(wǎng)結(jié)合快速定界故障的思路,以此提升核心應(yīng)用上云后云平臺(tái)故障恢復(fù)的確定性。全鏈路運(yùn)維監(jiān)控核心業(yè)務(wù)上云的過(guò)程中,云與應(yīng)用的耦合度逐步提高,應(yīng)用與云平臺(tái)的關(guān)系愈加復(fù)雜,因而云運(yùn)維必須實(shí)現(xiàn)應(yīng)用到云平臺(tái)乃至物理設(shè)備的全鏈路覆蓋。同時(shí)需要梳理出應(yīng)用與云平臺(tái)間的依賴(lài)關(guān)系,當(dāng)應(yīng)用出現(xiàn)故障的時(shí)候能夠基于應(yīng)用的視角快速感知和診斷故障。預(yù)見(jiàn)性風(fēng)險(xiǎn)治理實(shí)現(xiàn)風(fēng)險(xiǎn)的提前感知與預(yù)防始終是運(yùn)維管理者長(zhǎng)期的期望,也是運(yùn)維人員一直面臨的難題。這個(gè)問(wèn)題同樣擺在華為面前。在十多年運(yùn)維工作中,華為云通過(guò)大量項(xiàng)目實(shí)踐摸索出了一套預(yù)見(jiàn)性風(fēng)險(xiǎn)治理的思路,不但覆蓋了運(yùn)行時(shí)的風(fēng)險(xiǎn)治理,也覆蓋了對(duì)變更的風(fēng)險(xiǎn)治理方法,以及對(duì)未知風(fēng)險(xiǎn)的識(shí)別與預(yù)防手段,本文將詳細(xì)闡釋通過(guò)數(shù)字化到自動(dòng)化的轉(zhuǎn)換實(shí)現(xiàn)云平臺(tái)風(fēng)險(xiǎn)預(yù)見(jiàn)性治理的思考。確定性故障恢復(fù)快速創(chuàng)新的金融業(yè)務(wù)場(chǎng)景增加了云平臺(tái)技術(shù)棧復(fù)雜度,也因此提升了故障定界、故障快速恢復(fù)的難度。10應(yīng)用運(yùn)維現(xiàn)代化當(dāng)前,越來(lái)越多金融云運(yùn)維管理者的關(guān)注點(diǎn)從以云與設(shè)備為核心的運(yùn)維轉(zhuǎn)向以應(yīng)用為核心的運(yùn)維,尤其是核心應(yīng)用的運(yùn)維受到格外的重視。在應(yīng)用運(yùn)維領(lǐng)域,存在多種多樣的工具與技術(shù),然而工具之間數(shù)據(jù)割裂無(wú)法形成全局視野,因而會(huì)直接影響應(yīng)用運(yùn)維的效率與效果。只有打破各個(gè)工具間的數(shù)據(jù)孤島才能統(tǒng)籌洞察應(yīng)用的完整運(yùn)行態(tài)勢(shì),對(duì)應(yīng)用進(jìn)行全方位的監(jiān)控與分析。在本文中,華為云提出要將應(yīng)用的可靠性保障前置到設(shè)計(jì)階段,通過(guò)高可用設(shè)計(jì)提升應(yīng)用的可靠性,同時(shí)也給出了應(yīng)用高可用設(shè)計(jì)的思路,幫助金融企業(yè)選擇合適的高可用方案平衡成本與效益的矛盾。安全運(yùn)維現(xiàn)代化運(yùn)維安全是保障業(yè)務(wù)可靠性的基石,也是運(yùn)維現(xiàn)代化的基礎(chǔ)。在運(yùn)維安全領(lǐng)域需要通過(guò)對(duì)運(yùn)維過(guò)程無(wú)死角的安全管控來(lái)保障運(yùn)維安全,具體來(lái)說(shuō),需要實(shí)現(xiàn)事前對(duì)權(quán)限的有效規(guī)劃和管理,事中對(duì)運(yùn)維操作的嚴(yán)格管控,以及事后對(duì)運(yùn)維操作的審計(jì)與分析,減少由于運(yùn)維誤操作給云業(yè)務(wù)帶來(lái)的風(fēng)險(xiǎn)。除了云平臺(tái)本身的安全保障,在租戶(hù)安全維度,也應(yīng)構(gòu)建完整的安全防護(hù)體系,端到端保障云租戶(hù)的安全。2.1平臺(tái)運(yùn)維現(xiàn)代化核心能力2.1.1全鏈路監(jiān)控構(gòu)建從應(yīng)用到云平臺(tái)的全棧感知能力應(yīng)用層通過(guò)在容器集群、彈性云服務(wù)器、裸金屬服務(wù)器上部署復(fù)雜的應(yīng)用,實(shí)現(xiàn)某些業(yè)務(wù)功能;從應(yīng)用視角到平臺(tái)視角,構(gòu)建全面的指標(biāo)體系,快速感知故障PaaS實(shí)例層主要是指云平臺(tái)提供的容器集群、中間件、數(shù)據(jù)庫(kù)等實(shí)例資源;核心應(yīng)用部署上云,從上到下可以分為四層,分別為終端層、應(yīng)用層、PaaS實(shí)例層和IaaS基礎(chǔ)設(shè)施層。如下圖:IaaS基礎(chǔ)設(shè)施層主要指提供計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)的基礎(chǔ)資源池,如云數(shù)據(jù)中心的存儲(chǔ)池、虛擬網(wǎng)元、計(jì)算資源池或者傳統(tǒng)數(shù)據(jù)中心的服務(wù)器、網(wǎng)絡(luò)設(shè)備、存儲(chǔ)設(shè)備等。終端層嚴(yán)格意義上并不在云上部署,主要部署在端側(cè),通過(guò)APP或者瀏覽器實(shí)現(xiàn)應(yīng)用訪(fǎng)問(wèn);簡(jiǎn)單應(yīng)用訪(fǎng)問(wèn)流程示例微服務(wù)架構(gòu)復(fù)雜應(yīng)用訪(fǎng)問(wèn)流程示例終端層訂單處理120ms102msuser-mgrMySQL102msELB應(yīng)用層102msapi-gw200mscache-mgrAPPSAPPSAPPSAPPAPPAPP102ms102msRabbitMQRedisproduct-mgr數(shù)據(jù)庫(kù)實(shí)例層緩存容器節(jié)點(diǎn)云硬盤(pán)云主機(jī)宿主機(jī)緩存云主機(jī)云硬盤(pán)容器節(jié)點(diǎn)數(shù)據(jù)庫(kù)層宿主機(jī)網(wǎng)元存儲(chǔ)池宿主機(jī)網(wǎng)元存儲(chǔ)池宿主機(jī)物理主機(jī)網(wǎng)元存儲(chǔ)池云數(shù)據(jù)中心1云數(shù)據(jù)中心2傳統(tǒng)數(shù)據(jù)中心如上圖所示,針對(duì)簡(jiǎn)單應(yīng)用(綠色線(xiàn)條),可以直接以應(yīng)用云上部署架構(gòu)來(lái)構(gòu)建全鏈路監(jiān)控;針對(duì)微服務(wù)架構(gòu)的復(fù)雜應(yīng)用(紅色線(xiàn)條),需要借助APM工具解析微服務(wù)間交互流程來(lái)構(gòu)建全鏈路監(jiān)控。圖2.2典型云上應(yīng)用部署模型12構(gòu)建核心應(yīng)用可觀測(cè)體系,需要根據(jù)應(yīng)用部署層級(jí)分別進(jìn)行設(shè)計(jì):端,對(duì)應(yīng)用進(jìn)行周期性撥測(cè),快速感知邊緣網(wǎng)絡(luò)故障。終端可觀測(cè)終端層常見(jiàn)指標(biāo)舉例:終端層需重點(diǎn)關(guān)注用戶(hù)的使用體驗(yàn),采集終端應(yīng)用運(yùn)行報(bào)告、訪(fǎng)問(wèn)成功率、接口延時(shí)等體驗(yàn)類(lèi)指標(biāo),通過(guò)終端內(nèi)置的軟件工具包(SDK)上報(bào)到應(yīng)用可觀測(cè)平臺(tái)。必要時(shí)需要部署一定數(shù)量的云撥測(cè)終a.APP體驗(yàn)指標(biāo):如下載成功率、安裝成功率、用戶(hù)搜索耗時(shí)、用戶(hù)下載速率等表征最終用戶(hù)體驗(yàn)的指標(biāo)b.API性能指標(biāo):調(diào)用成功率、調(diào)用量、時(shí)延等App/ServerKitAccountkitAudiokit…邊緣網(wǎng)絡(luò)c.邊緣網(wǎng)絡(luò)性能指標(biāo):丟包率、延時(shí)、帶寬、流量消耗等Internet/骨干網(wǎng)&CDN應(yīng)用可觀測(cè)APP體驗(yàn)指標(biāo)API性能指標(biāo)邊緣網(wǎng)絡(luò)指標(biāo)應(yīng)用層需要根據(jù)應(yīng)用的核心功能,構(gòu)建表征功能健康度的黃金指標(biāo)。不同應(yīng)用功能存在差異,梳理出的指標(biāo)不盡相同,指標(biāo)越能精細(xì)表征健康度,越能快速感知故障,反之亦然。下載成功率安裝成功率首頁(yè)打開(kāi)耗時(shí)首頁(yè)圖片耗時(shí)用戶(hù)搜索耗時(shí)應(yīng)用詳情耗時(shí)用戶(hù)下載速率…API時(shí)延調(diào)用量成功率…帶寬流量速率CDN…以某互聯(lián)網(wǎng)視頻應(yīng)用為例,需要基于應(yīng)用接口日志定義接口請(qǐng)求量、接口成功率、接口時(shí)延、播放卡頓率等指標(biāo),針對(duì)指標(biāo)數(shù)據(jù)進(jìn)行治理,最終呈現(xiàn)不同時(shí)間維度的視圖,同時(shí)支持針對(duì)流量的趨勢(shì)進(jìn)行動(dòng)態(tài)閾值調(diào)整,準(zhǔn)確產(chǎn)生指標(biāo)告警。圖2.3典型終端指標(biāo)設(shè)計(jì)流程維度:APP版本、視頻分類(lèi)度量:請(qǐng)求結(jié)果標(biāo)識(shí)、時(shí)延視頻登錄請(qǐng)求成功次數(shù)/視頻登錄請(qǐng)求次數(shù)視頻登錄請(qǐng)求成功次數(shù)視頻登錄請(qǐng)求次數(shù)視頻登錄請(qǐng)求成功率長(zhǎng)視頻登錄請(qǐng)求成功率邏輯主體基礎(chǔ)指標(biāo)派生指標(biāo)指標(biāo)疊加公式組合指標(biāo)派生組合指標(biāo)APP版本視頻請(qǐng)求分類(lèi)結(jié)果......時(shí)延視頻登錄請(qǐng)求次數(shù)視頻登錄請(qǐng)求成功次數(shù)視頻登錄請(qǐng)求成功率長(zhǎng)視頻登錄請(qǐng)求成功率1.0.11.0.21.0.11.0.3長(zhǎng)視頻成功短視頻成功短視頻成功長(zhǎng)視頻失敗30503540X(次)X(次)XX(%)XX(%)圖2.4指標(biāo)設(shè)計(jì)流程示例13應(yīng)用指標(biāo)定義完成之后,還需要構(gòu)建應(yīng)用全鏈路拓?fù)湟晥D,發(fā)生故障時(shí),能夠在拓?fù)湟晥D中直觀呈現(xiàn),運(yùn)維人員可以從多個(gè)維度快速感知故障影響范圍,并對(duì)故障進(jìn)行簡(jiǎn)單定界。全鏈路拓?fù)湟话憧梢苑殖蓱?yīng)用調(diào)用拓?fù)浜途W(wǎng)絡(luò)流量拓?fù)洌?應(yīng)用調(diào)用視圖:基于APM(applicationperformancemanagement,應(yīng)用性能管理)調(diào)用鏈能力,追蹤應(yīng)用進(jìn)程內(nèi)部的函數(shù)調(diào)用路徑,用于跨線(xiàn)程和異步場(chǎng)景故障感知。-網(wǎng)絡(luò)流量視圖:基于eBPF(extendedBerkeleyPacketFilter)內(nèi)核組件和網(wǎng)絡(luò)報(bào)文染色能力,無(wú)侵入式覆蓋網(wǎng)關(guān)、基礎(chǔ)服務(wù)、網(wǎng)絡(luò)路徑、跨語(yǔ)言服務(wù)場(chǎng)景的故障感知。應(yīng)用調(diào)用視圖33calls|120ms133calls|200ms503calls|568msuser-mgr31calls|102ms31calls|102msMySQL31calls|102msRabbitMQ31calls|102msapi-gwcache-mgr29calls|1014ms31calls|102msproduct-mgrRedis0%/8usGuestOS0%/10us3%/20usapi-gwGuestOSRabbitMQ網(wǎng)絡(luò)流量視圖subnetELBVPC源端源端subnet目的端目的端subnet0%/15us0%/8us0%/8usvSwitchELB源端0%/15usvSwitch0%/15usvSwitch0%/8us0%/8us0%/8us0%/15usvSwitch目的端0%/8us源端目的端圖2.5全鏈路應(yīng)用拓?fù)湟晥D14PaaS實(shí)例可觀測(cè)式數(shù)據(jù)庫(kù)的長(zhǎng)事務(wù)、慢SQL執(zhí)行等指標(biāo)。云平臺(tái)通常能夠提供豐富的PaaS實(shí)例,如容器集群、消息隊(duì)列、數(shù)據(jù)庫(kù)、分布式緩存、分布式事務(wù)等中間件,這一類(lèi)PaaS實(shí)例由云平臺(tái)側(cè)提供開(kāi)箱即用的SLI(servicelevelindicator,服務(wù)質(zhì)量指標(biāo)),通過(guò)API或者監(jiān)控對(duì)接等方式接入到應(yīng)用運(yùn)維平臺(tái)。此類(lèi)指標(biāo)以云平臺(tái)提供的客戶(hù)可感知的服務(wù)實(shí)例為中心,直觀體現(xiàn)實(shí)例狀態(tài)的監(jiān)控指標(biāo),與實(shí)例類(lèi)型強(qiáng)相關(guān),通常以業(yè)務(wù)請(qǐng)求消息統(tǒng)計(jì)的形式獲取對(duì)應(yīng)指標(biāo)。-Error(錯(cuò)誤率):代表執(zhí)行某一業(yè)務(wù)的錯(cuò)誤率是多少,如分布式緩存高危命令、大Key使用等指標(biāo)。-Ticket(工單):代表某一功能是否需要人工介入,人工介入越多,可用性越差。PaaS實(shí)例SLI指標(biāo)體系建設(shè)遵照VALET原則構(gòu)建五個(gè)維度的指標(biāo):容量-Volume(容量):是指服務(wù)承諾的最大容量是多少,如數(shù)據(jù)庫(kù)連接數(shù)、容器集群可用節(jié)點(diǎn)數(shù)等??捎眯怨螌?shí)例SLI指標(biāo)-Availablity(可用性):代表服務(wù)是否正常,如實(shí)例主備狀態(tài)、實(shí)例可用副本數(shù)量等。延時(shí)錯(cuò)誤率-Latency(時(shí)延):代表響應(yīng)是否足夠快,如分布圖2.6遵照VALET模型建設(shè)SLI指標(biāo)體系云服務(wù)(索引)功能點(diǎn)功能平面VALET類(lèi)別指標(biāo)名稱(chēng)指標(biāo)

指標(biāo)

監(jiān)控單位

周期

方式閾值規(guī)則重復(fù)次數(shù)影響說(shuō)明連接使用率大于90%查詢(xún)服務(wù)過(guò)去1分鐘內(nèi)為一個(gè)統(tǒng)計(jì)周監(jiān)控期,至少3次檢測(cè)連接使上述指標(biāo)表征DCS實(shí)例連接使用率情況,超過(guò)使用率可能導(dǎo)致實(shí)例新建連接失敗,可用性產(chǎn)生異常。DCS實(shí)例可連接性DCS實(shí)例連接使用率DCS數(shù)據(jù)面可用性%1分鐘3用率達(dá)到95%。查詢(xún)過(guò)去1分鐘內(nèi)為一個(gè)統(tǒng)DCS實(shí)例可連接性DCS實(shí)例命令時(shí)延服務(wù)計(jì)周期,每分鐘統(tǒng)計(jì)的最監(jiān)控大時(shí)延超過(guò)10ms,連續(xù)實(shí)例命令時(shí)延過(guò)長(zhǎng),阻塞后續(xù)命令執(zhí)行,影響實(shí)例功能。DCSDCS數(shù)據(jù)面延時(shí)毫秒1分鐘31三次上報(bào)告警。查詢(xún)過(guò)去1分鐘內(nèi)為一個(gè)統(tǒng)計(jì)周期,存在高危命令、大Key使用的告警。需要考慮告警聚合策略。DCS實(shí)例可連接性DCS實(shí)例使用規(guī)范性布爾類(lèi)型數(shù)據(jù)面錯(cuò)誤率1分鐘告警高危命令、大Key使用可能影響實(shí)例可用性。圖2.7可用性指標(biāo)設(shè)計(jì)舉例15基礎(chǔ)設(shè)施可觀測(cè)綜上所述,構(gòu)建核心應(yīng)用的可觀測(cè)體系,應(yīng)該從業(yè)務(wù)應(yīng)用視角到云平臺(tái)資源視角進(jìn)行分層設(shè)計(jì)。應(yīng)用視角主要包含終端層和應(yīng)用層,基于應(yīng)用的核心功能,由業(yè)務(wù)開(kāi)發(fā)人員、運(yùn)維人員、測(cè)試人員組成“鐵三角”共同設(shè)計(jì)。云平臺(tái)資源層主要包含PaaS層實(shí)例和IaaS層基礎(chǔ)設(shè)施,由云平臺(tái)提供開(kāi)箱即用的標(biāo)準(zhǔn)SLI指標(biāo),應(yīng)用指標(biāo)和資源指標(biāo)匯聚接入到應(yīng)用可觀測(cè)平臺(tái)中,由應(yīng)用可觀測(cè)平臺(tái)統(tǒng)一對(duì)外呈現(xiàn)?;A(chǔ)設(shè)施指標(biāo)主要是指以公共的基礎(chǔ)設(shè)施類(lèi)資源為中心,用于體現(xiàn)基礎(chǔ)資源當(dāng)前運(yùn)行狀態(tài)的指標(biāo)。此類(lèi)指標(biāo)只有出現(xiàn)瓶頸時(shí)才可能會(huì)影響上層業(yè)務(wù),但很難定義出與上層業(yè)務(wù)之間明確的必然性以及關(guān)聯(lián)度,如:CPU使用率、內(nèi)存使用率、IOPS、網(wǎng)卡發(fā)送速度等指標(biāo)。此類(lèi)指標(biāo)無(wú)業(yè)務(wù)含義,重點(diǎn)體現(xiàn)的是基礎(chǔ)設(shè)施資源的運(yùn)行狀態(tài),而指標(biāo)的異常也無(wú)法明確對(duì)上層業(yè)務(wù)的具體影響。由于比較通用,這類(lèi)指標(biāo)可通過(guò)公共能力統(tǒng)一提供。業(yè)務(wù)應(yīng)用視角應(yīng)用可觀測(cè)平臺(tái)端側(cè)可觀測(cè)終端應(yīng)用日志指標(biāo)事件終端體驗(yàn)類(lèi)指標(biāo)端側(cè)數(shù)據(jù)采集APP瀏覽器撥測(cè)云撥測(cè)運(yùn)營(yíng)數(shù)據(jù)業(yè)務(wù)數(shù)據(jù)移動(dòng)端JS錯(cuò)誤端側(cè)體驗(yàn)類(lèi)撥測(cè)端側(cè)運(yùn)行監(jiān)控異常分析用戶(hù)旅程應(yīng)用可觀測(cè)業(yè)務(wù)應(yīng)用日志指標(biāo)trace事件應(yīng)用黃金指標(biāo)應(yīng)用數(shù)據(jù)匯聚全局拓?fù)滏溌纷粉櫞a級(jí)診斷應(yīng)用請(qǐng)求成功率應(yīng)用功能響應(yīng)時(shí)延應(yīng)用請(qǐng)求吞吐量Profiling多語(yǔ)言接入實(shí)例可觀測(cè)云服務(wù)實(shí)例日志指標(biāo)事件云實(shí)例可用性指標(biāo)云實(shí)例數(shù)據(jù)匯聚容器集群可觀測(cè)中間件可觀測(cè)實(shí)例可連接性實(shí)例讀寫(xiě)時(shí)延實(shí)例狀態(tài)集群監(jiān)控Pod監(jiān)控消息隊(duì)列RDS節(jié)點(diǎn)監(jiān)控網(wǎng)絡(luò)監(jiān)控GaussDB緩存基礎(chǔ)設(shè)施可觀測(cè)資源池日志指標(biāo)事件基礎(chǔ)設(shè)施指標(biāo)平臺(tái)CPU利用率內(nèi)存利用率資源池?cái)?shù)據(jù)匯聚管理虛擬機(jī)操作系統(tǒng)主機(jī)網(wǎng)絡(luò)網(wǎng)絡(luò)帶寬使用率存儲(chǔ)IO使用率存儲(chǔ)圖2.8四層指標(biāo)體系16極簡(jiǎn)信息匯聚,一站式觸達(dá)運(yùn)維態(tài)勢(shì),提升運(yùn)維體驗(yàn)和故障處理效率監(jiān)控匯聚狀態(tài)可視:展現(xiàn)被管對(duì)象及內(nèi)部組件的告警信息?;诟婢梢钥焖俑兄獙?duì)象的異常狀態(tài);此外,運(yùn)維平臺(tái)還應(yīng)支持查看被管對(duì)象及內(nèi)部組件的指標(biāo)信息。如前所述,金融客戶(hù)在日常運(yùn)維信息的獲取上,存在兩個(gè)關(guān)鍵痛點(diǎn),一是運(yùn)維體驗(yàn)圍繞功能展開(kāi),對(duì)運(yùn)維對(duì)象的操作需要在不同界面來(lái)回切換,體驗(yàn)不暢;二是信息分散,比如描述狀態(tài)的告警指標(biāo)信息、用于定位的日志和調(diào)用鏈信息、各類(lèi)操作的狀態(tài)信息需要從不同的運(yùn)維界面上獲取,導(dǎo)致故障處理效率低。因此需要持續(xù)構(gòu)建極簡(jiǎn)信息獲取的能力,使運(yùn)維人員可以快速獲取所需的運(yùn)維態(tài)勢(shì)信息,從而提升運(yùn)維體驗(yàn)和故障處理效率,進(jìn)而解決企業(yè)運(yùn)維要求高和運(yùn)維能力不足的矛盾。拓?fù)潢P(guān)聯(lián)故障定界:展現(xiàn)被管對(duì)象與內(nèi)部組件、底層部署依賴(lài)、周邊調(diào)用依賴(lài)等關(guān)系的拓?fù)鋱D,并在拓?fù)鋱D中展示各個(gè)對(duì)象的告警狀態(tài)。創(chuàng)建的拓?fù)鋺?yīng)包括應(yīng)用的物理拓?fù)?、云服?wù)物理拓?fù)?、云服?wù)部署拓?fù)涞?。通過(guò)對(duì)關(guān)聯(lián)對(duì)象的異常狀態(tài)分析,可以支撐運(yùn)維人員進(jìn)行故障定界。組件分析逐層下鉆:故障定界定位猶如抽絲剝繭,極簡(jiǎn)運(yùn)維要支持從故障表現(xiàn)的點(diǎn)開(kāi)始,對(duì)齊內(nèi)部組件和依賴(lài)資源,逐步、逐層進(jìn)行下鉆分析,一步步接近問(wèn)題根因。極簡(jiǎn)信息獲取的設(shè)計(jì)理念信息集約:面向運(yùn)維對(duì)象進(jìn)行運(yùn)維操作功能的體驗(yàn)設(shè)計(jì),例如,在同一個(gè)操作界面上集成運(yùn)維對(duì)象的狀態(tài)信息、組件關(guān)聯(lián)、操作維護(hù)等信息。操作維護(hù)快速直達(dá):集成被管對(duì)象的常見(jiàn)操作,如自動(dòng)作業(yè)、節(jié)點(diǎn)診斷、撥測(cè)等,在日常運(yùn)維和故障處理時(shí),能夠快速完成操作。對(duì)象關(guān)聯(lián):圍繞同一個(gè)運(yùn)維對(duì)象,可向下關(guān)聯(lián)依賴(lài)的容器、物理設(shè)備等底層資源信息,向上關(guān)聯(lián)被依賴(lài)的應(yīng)用組件信息,從而快速獲取與該運(yùn)維對(duì)象相關(guān)聯(lián)的運(yùn)維信息。2.1.2基于故障模式庫(kù)和云網(wǎng)一體化運(yùn)維實(shí)現(xiàn)確定性故障恢復(fù)逐層下鉆:在呈現(xiàn)運(yùn)維狀態(tài)信息時(shí),界面應(yīng)圍繞運(yùn)維對(duì)象關(guān)系,展示逐層下鉆的內(nèi)部組件和依賴(lài)資源相關(guān)的分析信息,以便逐步逼近問(wèn)題根因。確定性故障恢復(fù)需要從應(yīng)用系統(tǒng)視角和云平臺(tái)資源視角分別定義。一致體驗(yàn):所有被管理對(duì)象都有一致的全景360視圖體驗(yàn),從一個(gè)關(guān)聯(lián)對(duì)象可以一鍵跳轉(zhuǎn)至其全景360監(jiān)控信息界面?;谠品?wù)故障模式基線(xiàn)庫(kù),對(duì)云服務(wù)實(shí)例進(jìn)行全面診斷,以便精確定位、快速恢復(fù)故障應(yīng)用可觀測(cè)平臺(tái)感知故障之后,通過(guò)指標(biāo)的匯聚和算法處理,可以對(duì)故障進(jìn)行初步的定界,輸出可能存在故障的資源實(shí)例,此時(shí)需要云平臺(tái)具備針對(duì)資源實(shí)例端到端的精確故障診斷和快速恢復(fù)能力。實(shí)現(xiàn)資源實(shí)例的診斷,需要大量的運(yùn)維專(zhuān)家經(jīng)驗(yàn),從實(shí)例的資源、依賴(lài)、歷史故障模式等多個(gè)維度進(jìn)行分析,因此,構(gòu)建云服務(wù)的故障模式庫(kù)至關(guān)重要。極簡(jiǎn)信息獲取的目標(biāo)效果運(yùn)維信息展示要能夠圍繞運(yùn)維對(duì)象進(jìn)行匯聚,使運(yùn)維人員可以方便且快速獲取需要的運(yùn)維信息。對(duì)象狀態(tài)一屏概覽:被管對(duì)象概覽界面,要能夠展示對(duì)象關(guān)鍵信息,包括基本信息、告警、關(guān)鍵指標(biāo)等內(nèi)容。故障模式庫(kù)生成機(jī)制故障模式庫(kù)是在產(chǎn)品設(shè)計(jì)階段,對(duì)構(gòu)成產(chǎn)品的組件進(jìn)17行逐一分析,找出潛在的失效模式,并分析其可能造成的影響,根據(jù)組件的薄弱環(huán)節(jié),輸出的預(yù)防措施列表。構(gòu)建一個(gè)完善的故障模式庫(kù)需要至少包含如下三個(gè)方面:確定分析對(duì)象描述系統(tǒng)功能定義嚴(yán)酷等級(jí)建立框圖故障模式清單白盒化的故障模式分析:端到端梳理組件架構(gòu),根據(jù)組件在架構(gòu)中的位置,分析可能的故障點(diǎn)。梳理云服務(wù)核心功能,并和組件架構(gòu)有機(jī)結(jié)合,以實(shí)現(xiàn)對(duì)某一核心功能對(duì)應(yīng)故障點(diǎn)的可視化呈現(xiàn)。此外,還應(yīng)規(guī)劃對(duì)應(yīng)故障點(diǎn)的自動(dòng)化診斷、一鍵式恢復(fù)能力。FMEA分析圖2.9系統(tǒng)級(jí)FMEA故障模式分析流程黑盒化的功能性撥測(cè):包括關(guān)鍵進(jìn)程和端口的探測(cè)、網(wǎng)絡(luò)組件交互性撥測(cè)、及AA集群流量負(fù)載均衡的診斷。續(xù)積累故障模式庫(kù)。故障模式庫(kù)的推廣機(jī)制梳理故障模式庫(kù)只是故障處理的一種手段,讓站點(diǎn)能夠基于故障模式庫(kù)快速診斷、恢復(fù)故障才是最終目的。因此基于故障模式庫(kù)中定義的每一種故障模式都需要開(kāi)發(fā)對(duì)應(yīng)的內(nèi)容包,內(nèi)容包中應(yīng)至少包含一套診斷腳本和一套恢復(fù)腳本。故障模式內(nèi)容包應(yīng)該與產(chǎn)品解耦,既可以集成到產(chǎn)品中支持新建站點(diǎn)的開(kāi)箱即用,又可以單獨(dú)發(fā)布支撐存量站點(diǎn)的持續(xù)迭代更新?,F(xiàn)網(wǎng)歷史故障補(bǔ)充:基于產(chǎn)品組件在現(xiàn)網(wǎng)中的歷史重大故障進(jìn)行逆向覆蓋,確保重大質(zhì)量問(wèn)題全覆蓋,改進(jìn)措施對(duì)應(yīng)指標(biāo)可診斷??墒褂孟到y(tǒng)級(jí)FMEA(failuremodeandeffectanalysis,失效模式及效應(yīng)分)故障模式分析流程持針對(duì)一類(lèi)服務(wù)的某個(gè)核心功能的故障模式庫(kù)梳理故障模式描述產(chǎn)品對(duì)象核心功能點(diǎn)云服務(wù)名稱(chēng)分布式緩存分布式緩存分布式緩存故障對(duì)象Redis實(shí)例Redis節(jié)點(diǎn)Redis實(shí)例故障模式故障影響嚴(yán)酷等級(jí)I類(lèi)觀測(cè)方式應(yīng)急恢復(fù)措施實(shí)例重啟Redis訪(fǎng)問(wèn)Redis訪(fǎng)問(wèn)Redis訪(fǎng)問(wèn)實(shí)例狀態(tài)異常節(jié)點(diǎn)狀態(tài)異常實(shí)例拒絕連接影響業(yè)務(wù)訪(fǎng)問(wèn)Redis影響業(yè)務(wù)訪(fǎng)問(wèn)Redis影響業(yè)務(wù)訪(fǎng)問(wèn)Redis實(shí)例狀態(tài)異常告警實(shí)例節(jié)點(diǎn)異常告警I類(lèi)實(shí)例節(jié)點(diǎn)重啟調(diào)整實(shí)例最大連接數(shù)監(jiān)控實(shí)例活躍客戶(hù)端連接數(shù)超規(guī)格I類(lèi)故障模式適配包開(kāi)發(fā)故障模式適配包推廣├─resource_{云服務(wù)索引}_{version}.zip│├─alarm#故障適配包#告警目錄開(kāi)箱││├─{云服務(wù)索引}_alarm.json│├─monitor#告警靜態(tài)信息#監(jiān)控目錄十統(tǒng)一新建站點(diǎn)即用故障模式內(nèi)容包

適配包│├─script#非必選│││├─config.json│││├─{script}│├─operations#配置腳本范圍#腳本邏輯#運(yùn)維操作目錄#操作配置│││├─actions.json││├─i18n#國(guó)際化目錄#自動(dòng)作業(yè)目錄#操作目錄運(yùn)維持續(xù)迭代存量站點(diǎn)│├─autoops治理包││├─operations││├─flows#編排目錄││├─i18n#國(guó)際化目錄圖2.10故障模式庫(kù)推廣機(jī)制故障模式庫(kù)運(yùn)行機(jī)制運(yùn)維人員在運(yùn)維平臺(tái)上針對(duì)故障進(jìn)行一鍵式診斷,對(duì)于診斷不通過(guò)項(xiàng),進(jìn)行一鍵式故障恢復(fù)。這樣可以減少運(yùn)維人員對(duì)環(huán)境接入及運(yùn)維能力的依賴(lài),使他們可以更加聚焦業(yè)務(wù)。分布式緩存服務(wù)關(guān)系數(shù)據(jù)庫(kù)服務(wù)XXX服務(wù)告警監(jiān)控指標(biāo)監(jiān)控自動(dòng)作業(yè)狀態(tài)診斷腳本信息收集腳本快速恢復(fù)腳本狀態(tài)診斷腳本信息收集腳本快速恢復(fù)腳本狀態(tài)診斷腳本信息收集腳本快速恢復(fù)腳本局點(diǎn)運(yùn)維人員圖2.11故障模式庫(kù)運(yùn)行機(jī)制19圖2.12一鍵式故障診斷恢復(fù)示例云網(wǎng)一體化運(yùn)維實(shí)現(xiàn)應(yīng)用、虛擬鏈路、物理路由的一致性監(jiān)控和運(yùn)維用端點(diǎn)無(wú)損監(jiān)測(cè)和iFIT真實(shí)業(yè)務(wù)流鏈路監(jiān)測(cè)兩大核心功能實(shí)現(xiàn)。云網(wǎng)一體化運(yùn)維是指將云計(jì)算與網(wǎng)絡(luò)技術(shù)相結(jié)合,對(duì)云計(jì)算環(huán)境中的網(wǎng)絡(luò)資源進(jìn)行統(tǒng)一管理和維護(hù)的一種模式。在這種模式下,網(wǎng)絡(luò)管理員可以通過(guò)云計(jì)算平臺(tái)提供的工具和接口,對(duì)網(wǎng)絡(luò)資源進(jìn)行實(shí)時(shí)監(jiān)控、故障排查、性能優(yōu)化等操作。虛擬&物理網(wǎng)絡(luò)可視診斷定界:主要通過(guò)Cloud-NetDebug虛擬網(wǎng)絡(luò)撥測(cè)和FabricInsight物理網(wǎng)絡(luò)定界兩大核心功能實(shí)現(xiàn)。(一)應(yīng)用網(wǎng)絡(luò)真實(shí)業(yè)務(wù)流一屏監(jiān)控云網(wǎng)一體化運(yùn)維的實(shí)現(xiàn)依賴(lài)于云平臺(tái)和網(wǎng)絡(luò)設(shè)備的協(xié)同工作,云平臺(tái)需要提供相應(yīng)的API接口,以便管理員可以訪(fǎng)問(wèn)和操作網(wǎng)絡(luò)資源,同時(shí)網(wǎng)絡(luò)設(shè)備也需要支持相應(yīng)的功能,如網(wǎng)絡(luò)監(jiān)控、故障診斷、流量分析等,以實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)資源的有效管理,從而實(shí)現(xiàn)云上Overlay資源與Underlay網(wǎng)絡(luò)設(shè)備的統(tǒng)一運(yùn)維。1)eBPF應(yīng)用端點(diǎn)無(wú)損監(jiān)測(cè)eBPF是一種在Linux內(nèi)核中運(yùn)行的虛擬機(jī),它允許用戶(hù)在不修改內(nèi)核源代碼的情況下,動(dòng)態(tài)地加載和執(zhí)行代碼。eBPF最初是為了網(wǎng)絡(luò)數(shù)據(jù)包過(guò)濾而設(shè)計(jì),已擴(kuò)展到其他領(lǐng)域,如安全、跟蹤和性能分析。云網(wǎng)一體化運(yùn)維通過(guò)如下兩個(gè)機(jī)制實(shí)現(xiàn)高效監(jiān)控與問(wèn)題定位:eBPF的運(yùn)維涉及到許多方面,包括部署、監(jiān)控、調(diào)試和排查。具體的實(shí)現(xiàn)機(jī)制是:eBPF以字節(jié)碼形式注入到應(yīng)用內(nèi)核中并掛載到特定鉤子(hook)掛載點(diǎn)應(yīng)用網(wǎng)絡(luò)真實(shí)業(yè)務(wù)流一屏監(jiān)控:主要通過(guò)eBPF應(yīng)20上。當(dāng)內(nèi)核或應(yīng)用程序執(zhí)行到某個(gè)掛載點(diǎn)時(shí),產(chǎn)生特定事件并觸發(fā)程序運(yùn)行。eBPF技術(shù)的代碼無(wú)侵入、語(yǔ)言無(wú)關(guān)、高性能、強(qiáng)關(guān)聯(lián)、數(shù)據(jù)端到端覆蓋等特征,可滿(mǎn)足可觀測(cè)性標(biāo)準(zhǔn)和觀測(cè)數(shù)據(jù)采集的要求?;趀BPF內(nèi)核觀測(cè)技術(shù)生成的網(wǎng)絡(luò)級(jí)丟包、時(shí)延、吞吐量等方面指標(biāo),可以實(shí)現(xiàn)流級(jí)的應(yīng)用路況可視化監(jiān)控能力。應(yīng)用訪(fǎng)問(wèn)拓?fù)淇梢暎涸L(fǎng)問(wèn)關(guān)系圖、訪(fǎng)問(wèn)量、訪(fǎng)問(wèn)時(shí)間BPFProgramReaderLLVM/Clang應(yīng)用網(wǎng)絡(luò)質(zhì)量可視:重傳、擁塞、0窗口Prog.bfpbpfBytecodeUserspaceKernel2)iFIT真實(shí)業(yè)務(wù)流鏈路監(jiān)測(cè)bpfIFIT(In-situFlowInformationTelemetry)是一種用于網(wǎng)絡(luò)流量監(jiān)控和分析的技術(shù),可以實(shí)時(shí)收集網(wǎng)絡(luò)中數(shù)據(jù)包的元數(shù)據(jù)信息,如源地址、目的地址、協(xié)議類(lèi)型、源端口、目的端口等,及數(shù)據(jù)包的時(shí)間戳。通過(guò)分析這些元數(shù)據(jù)信息,可以了解網(wǎng)絡(luò)中流量的實(shí)時(shí)情況,識(shí)別流量模式和趨勢(shì),檢測(cè)異常流量和故障,從而實(shí)現(xiàn)網(wǎng)絡(luò)的智能運(yùn)維。eBPFBPFMapsBPFBytecodeVerifier+JITKernelFunctionsNativeCode圖2.13eBPF掛載原理iFIT主要基于在被檢測(cè)業(yè)務(wù)流報(bào)文中添加iFIT檢測(cè)頭,實(shí)現(xiàn)隨流的業(yè)務(wù)質(zhì)量檢測(cè),反映業(yè)務(wù)流的真實(shí)業(yè)務(wù)質(zhì)量。R1(Source)1588v2/G8275.1R2(Destination)Tx[i+1]Tx[i]Rx[i+1]Rx[i]000111110000010001110100001T:染色周期每周期統(tǒng)計(jì)點(diǎn)后移,屏蔽亂序干擾:T+6T/10,后移6T/10時(shí)點(diǎn)圖2.14iFIT監(jiān)測(cè)原理21借鑒IPFPM(FlowPerformanceMeasurement,流性能測(cè)量)染色機(jī)制,iFIT染色報(bào)文帶內(nèi)測(cè)量技術(shù)可以構(gòu)建流級(jí)的網(wǎng)絡(luò)路況追蹤和診斷能力,實(shí)現(xiàn)基于包粒度的真實(shí)業(yè)務(wù)流全鏈路檢測(cè)。這項(xiàng)技術(shù)具有以下幾方面特點(diǎn):部署,自動(dòng)按需E2E/逐跳檢測(cè)丟包位置:基于每節(jié)點(diǎn)的報(bào)文計(jì)數(shù),分析丟包點(diǎn)逐跳時(shí)延/抖動(dòng):基于每節(jié)點(diǎn)的時(shí)戳記錄,分析鏈路/節(jié)點(diǎn)時(shí)延支持多種業(yè)務(wù)場(chǎng)景:L3VPN/EVPN/SRv6/SR-MPLS/MPLS路徑還原:基于每節(jié)點(diǎn)上報(bào)信息,呈現(xiàn)業(yè)務(wù)真實(shí)路徑易部署運(yùn)維:頭節(jié)點(diǎn)按需定制,中間/尾節(jié)點(diǎn)一次圖2.15iFIT業(yè)務(wù)流監(jiān)測(cè)實(shí)例如圖所示,實(shí)例中實(shí)現(xiàn)了網(wǎng)絡(luò)丟包、時(shí)延、抖動(dòng)、帶寬等真實(shí)業(yè)務(wù)流路徑的可視監(jiān)控。(二)虛擬&物理網(wǎng)絡(luò)可視診斷定界1)CloudNetDebug虛擬網(wǎng)絡(luò)撥測(cè)CloudNetDebug是面向運(yùn)維人員的虛擬網(wǎng)絡(luò)診斷工具,幫助網(wǎng)絡(luò)管理員和開(kāi)發(fā)人員快速診斷和解決云網(wǎng)絡(luò)中的問(wèn)題。通過(guò)收集和分析云網(wǎng)絡(luò)中的數(shù)據(jù)包、流量和性能指標(biāo)等信息,提供全面的視圖,使用戶(hù)能夠快速定位和解決網(wǎng)絡(luò)問(wèn)題,包括數(shù)據(jù)包捕獲、流量分析、集成撥測(cè)和抓包、性能監(jiān)測(cè)和故障排查等。通過(guò)客戶(hù)報(bào)文模擬撥測(cè),應(yīng)用報(bào)文抓取等方式,實(shí)現(xiàn)可視化撥測(cè)快速診斷定界。22正常周期撥測(cè)---覆蓋所有鏈路CNA1vRouter1BorderRouter1①CNA2···交換機(jī)1vRouter2···交換機(jī)3···BorderRouter2······BMSGW1交換機(jī)2ENAT1交換機(jī)4BorderRouter15BMSGW2預(yù)置探針ENAT2BorderRouter16出現(xiàn)故障場(chǎng)景---自動(dòng)匯聚告警CNA1vRouter1BorderRouter1②CNA2···交換機(jī)1···vRouter2交換機(jī)3···BorderRouter2······BMSGW1交換機(jī)2ENAT1交換機(jī)4BorderRouter15BMSGW2預(yù)置探針ENAT2BorderRouter16圖2.16CloudNetDebug撥測(cè)原理軟件撥測(cè)定位是利用染色標(biāo)記技術(shù)主動(dòng)撥測(cè)抓包,通過(guò)跟蹤染色報(bào)文經(jīng)過(guò)的路徑,覆蓋資源(IP)>虛擬交換網(wǎng)絡(luò)>物理交換網(wǎng)絡(luò)進(jìn)行全景網(wǎng)絡(luò)拓?fù)涞目梢暬瘬軠y(cè)診斷。實(shí)際應(yīng)用中,有如下兩種監(jiān)控診斷模式:物理網(wǎng)絡(luò)診斷通過(guò)調(diào)用FabricInsight的接口獲取業(yè)務(wù)流路徑指標(biāo),包括流狀態(tài)以及交換機(jī)異常信息等,實(shí)現(xiàn)從控制面>虛擬網(wǎng)絡(luò)>物理網(wǎng)絡(luò)的三層穿透故障診斷。2)FabricInsight物理網(wǎng)絡(luò)定界LinkMonitor主動(dòng)鏈路監(jiān)控:通過(guò)在計(jì)算節(jié)點(diǎn)創(chuàng)建探針,創(chuàng)建出VPCL2、VPCL3、VPC-Peering、EIP和DC流量的撥測(cè)任務(wù),自動(dòng)周期性探測(cè)虛擬網(wǎng)元的轉(zhuǎn)發(fā)質(zhì)量,以及網(wǎng)絡(luò)服務(wù)的鏈路質(zhì)量,從被動(dòng)問(wèn)題處理轉(zhuǎn)變?yōu)橹鲃?dòng)發(fā)現(xiàn)鏈路質(zhì)量問(wèn)題,進(jìn)而提前發(fā)現(xiàn)問(wèn)題風(fēng)險(xiǎn)點(diǎn)。FabricInsight是一種用于物理網(wǎng)絡(luò)分析和監(jiān)控的工具。這個(gè)工具支持實(shí)時(shí)監(jiān)控和警報(bào),幫助用戶(hù)快速發(fā)現(xiàn)和解決問(wèn)題,更好地理解和管理他們的網(wǎng)絡(luò)鏈路系統(tǒng),還提供了豐富的分析功能,幫助用戶(hù)深入了解網(wǎng)絡(luò)的性能和行為,并識(shí)別潛在的瓶頸和優(yōu)化機(jī)會(huì)。此外,F(xiàn)abricInsight工具還支持多種物理設(shè)備組網(wǎng)的管理、控制和分析,支持網(wǎng)絡(luò)仿真校驗(yàn)及虛擬感知,支持NetConf,OpenFlow,OVSDB,SNMP等協(xié)議,從而實(shí)現(xiàn)物理和虛擬網(wǎng)絡(luò)設(shè)備的可視化管理。FullLink全鏈路診斷:進(jìn)行全鏈路復(fù)雜流量疊加場(chǎng)景的網(wǎng)絡(luò)問(wèn)題定位。通過(guò)控制面診斷租戶(hù)的云服務(wù)配置、路由表、安全組和網(wǎng)絡(luò)ACL等配置,檢測(cè)每個(gè)網(wǎng)元的時(shí)延和丟包率實(shí)現(xiàn)虛擬網(wǎng)絡(luò)診斷。23網(wǎng)絡(luò)路徑設(shè)備KPI故障風(fēng)險(xiǎn)TCPSYN/FIN/RST報(bào)文采集逐跳真實(shí)路徑還原丟包/時(shí)延變更檢測(cè)網(wǎng)絡(luò)路況分析TCP連通性分析關(guān)聯(lián)逐跳故障分析關(guān)聯(lián)逐跳網(wǎng)絡(luò)質(zhì)量分析逐跳配置變更檢測(cè)VMVMVMVMVMVMVMVMVMVMVMVMVM自動(dòng)輸出故障定位結(jié)論圖2.17FabricInsight物理網(wǎng)絡(luò)故障定界硬件診斷定位是通過(guò)業(yè)務(wù)物理路徑指標(biāo),包括流狀態(tài)以及交換機(jī)設(shè)備故障、鏈路故障、轉(zhuǎn)發(fā)過(guò)載等,實(shí)現(xiàn)業(yè)務(wù)流路徑物理網(wǎng)絡(luò)端到端路徑的可視及異常定位。分析指標(biāo)、日志、告警、配置、容量等運(yùn)維數(shù)據(jù),從風(fēng)險(xiǎn)隱患、性能規(guī)格、系統(tǒng)容量、系統(tǒng)可靠性、最佳實(shí)踐、版本生命周期、安全漏洞等多個(gè)維度對(duì)系統(tǒng)進(jìn)行全面的評(píng)估。Fabric內(nèi)業(yè)務(wù)流路徑可視:通過(guò)關(guān)聯(lián)分析逐跳設(shè)備信息感知故障斷點(diǎn),故障一鍵式診斷,定位網(wǎng)絡(luò)路由、策略類(lèi)故障根因。變更風(fēng)險(xiǎn)控制:通過(guò)建立變更前的風(fēng)險(xiǎn)識(shí)別和評(píng)審機(jī)制,提前識(shí)別變更的潛在風(fēng)險(xiǎn);通過(guò)自動(dòng)化及漸進(jìn)式的變更過(guò)程,確保變更不引入風(fēng)險(xiǎn)。質(zhì)差主動(dòng)發(fā)現(xiàn):基于網(wǎng)絡(luò)路況開(kāi)放,實(shí)現(xiàn)應(yīng)用網(wǎng)絡(luò)協(xié)同,通過(guò)技術(shù)分析微突發(fā)、丟包、光模塊異常等現(xiàn)象快速定界定位問(wèn)題。未知風(fēng)險(xiǎn)挖掘:通過(guò)混沌工程識(shí)別系統(tǒng)的薄弱環(huán)節(jié)并改進(jìn),持續(xù)提升系統(tǒng)韌性。變“被動(dòng)救火”為主動(dòng)預(yù)防,構(gòu)建運(yùn)行態(tài)風(fēng)險(xiǎn)主動(dòng)預(yù)防體系2.1.3基于一體化風(fēng)險(xiǎn)庫(kù)和混沌工程進(jìn)行預(yù)見(jiàn)性風(fēng)險(xiǎn)治理面向未來(lái),“被動(dòng)救火”式運(yùn)維將成為過(guò)去式,主動(dòng)運(yùn)維將成為保障系統(tǒng)高可用的重要手段預(yù)見(jiàn)性風(fēng)險(xiǎn)治理是一種前瞻性的風(fēng)險(xiǎn)管理方法,旨在通過(guò)事前的預(yù)測(cè)和診斷識(shí)別潛在風(fēng)險(xiǎn),提前制定風(fēng)險(xiǎn)消減措施,保障系統(tǒng)的穩(wěn)定運(yùn)行。根據(jù)風(fēng)險(xiǎn)場(chǎng)景,預(yù)見(jiàn)性風(fēng)險(xiǎn)治理主要分為運(yùn)行態(tài)風(fēng)險(xiǎn)預(yù)防,變更風(fēng)險(xiǎn)控制和未知風(fēng)險(xiǎn)挖掘三部分內(nèi)容?!妒酚洝吩d,魏文侯問(wèn)扁鵲“你們?nèi)值苷l(shuí)的醫(yī)術(shù)最為高明?”扁鵲言“長(zhǎng)兄最善,中兄次之,扁鵲為下?!蔽暮詈闷娴馈昂纬龃搜??”扁鵲答“大哥治病,常以望聞問(wèn)切,診斷隱患,在病害形成之前就能鏟除病因,因此一般人不知道大哥的厲害,是以聲名不顯。二哥治病于初起之時(shí),大家以為他只能看看小病,所以他只聞名于鄉(xiāng)里。而我治病于運(yùn)行態(tài)風(fēng)險(xiǎn)預(yù)防:建立完善的運(yùn)行態(tài)風(fēng)險(xiǎn)主動(dòng)預(yù)防體系,定期進(jìn)行風(fēng)險(xiǎn)評(píng)估和監(jiān)測(cè)。通過(guò)收集和24嚴(yán)重之時(shí),用針刺猛藥,救人于危機(jī)之時(shí),所以大家都以為我醫(yī)術(shù)最高明,因此名傳天下。金融云風(fēng)險(xiǎn)主動(dòng)預(yù)防機(jī)制的核心思想是通過(guò)構(gòu)筑中心化的風(fēng)險(xiǎn)庫(kù),從風(fēng)險(xiǎn)規(guī)則的生成、風(fēng)險(xiǎn)診斷到風(fēng)險(xiǎn)的預(yù)警推送,構(gòu)筑服務(wù)化的風(fēng)險(xiǎn)主動(dòng)預(yù)防能力。實(shí)施層面可按如下思路展開(kāi)建設(shè):上工治未病,扁鵲長(zhǎng)兄治病于未發(fā),是為事前;中兄治病于漸發(fā),是為事中;扁鵲治病于嚴(yán)重,是為事后。治病如此,運(yùn)維亦是如此。運(yùn)維的核心目標(biāo)是保障業(yè)務(wù)可用,減少和避免故障發(fā)生。傳統(tǒng)的救火式運(yùn)維,運(yùn)維人員的工作內(nèi)容和工作重心往往聚焦在事件和故障處理,偏向事后,這種運(yùn)維方式無(wú)異于減少和避免故障,無(wú)法滿(mǎn)足現(xiàn)代化云運(yùn)維的要求。從故障事前、事中和事后的角度看,事后恢復(fù)不如事中控制,事中控制不如事前預(yù)防。因此,必須摒棄傳統(tǒng)的救火式運(yùn)維,變被動(dòng)為主動(dòng),預(yù)防和減少故障發(fā)生,防患于未然。1.構(gòu)建中心化風(fēng)險(xiǎn)庫(kù)構(gòu)建中心化風(fēng)險(xiǎn)庫(kù)的目的在于將風(fēng)險(xiǎn)集中管理,防止風(fēng)險(xiǎn)管理的無(wú)序和散亂。風(fēng)險(xiǎn)庫(kù)的建設(shè)需遵循全面性、實(shí)時(shí)性和持續(xù)性原則。全面性:風(fēng)險(xiǎn)庫(kù)需要涵蓋明確的風(fēng)險(xiǎn)類(lèi)型和范圍,如產(chǎn)品缺陷、性能過(guò)載、組網(wǎng)非標(biāo)、配置隱患、版本配套、硬件適配、安全漏洞等,確保風(fēng)險(xiǎn)范圍覆蓋全面,防止遺漏。建設(shè)金融云風(fēng)險(xiǎn)主動(dòng)預(yù)防體系,實(shí)現(xiàn)站點(diǎn)故障早發(fā)現(xiàn)實(shí)時(shí)性:風(fēng)險(xiǎn)動(dòng)態(tài)實(shí)時(shí)更新,即風(fēng)險(xiǎn)從發(fā)現(xiàn)到入庫(kù)的時(shí)效性需要得到保證,確?,F(xiàn)網(wǎng)應(yīng)用的風(fēng)險(xiǎn)庫(kù)時(shí)刻保持最新。主動(dòng)運(yùn)維并不是一個(gè)新鮮的概念,但在大部分的企業(yè)中,主動(dòng)運(yùn)維仍是一句口號(hào),對(duì)于一個(gè)云平臺(tái),如何能讓主動(dòng)運(yùn)維真正落地并產(chǎn)生效果?本質(zhì)上來(lái)講,主動(dòng)運(yùn)維的目的在于事前預(yù)防,治病于未發(fā)是關(guān)鍵,因此需要重點(diǎn)構(gòu)建事前的風(fēng)險(xiǎn)識(shí)別和預(yù)防能力。持續(xù)性:制定明確的風(fēng)險(xiǎn)庫(kù)管理制度,包括風(fēng)險(xiǎn)庫(kù)的更新和維護(hù)機(jī)制,確保風(fēng)險(xiǎn)庫(kù)的有效運(yùn)行和持續(xù)更新。2.建立風(fēng)險(xiǎn)評(píng)估機(jī)制1986年,美國(guó)挑戰(zhàn)者號(hào)航天飛機(jī)發(fā)射后發(fā)生爆炸,事故造成7名宇航員喪生,發(fā)射活動(dòng)以失敗告終。為了實(shí)現(xiàn)故障先預(yù)警,隱患早發(fā)現(xiàn),NASA建立了航天器故障預(yù)防診斷平臺(tái),旨在提前通過(guò)診斷檢查發(fā)現(xiàn)異常事件,保障航天器可靠運(yùn)行,避免事故發(fā)生。對(duì)于云平臺(tái)這種大型的分布式軟件系統(tǒng)來(lái)說(shuō),建立風(fēng)險(xiǎn)檢測(cè)預(yù)防機(jī)制同樣是重中之重。風(fēng)險(xiǎn)評(píng)估機(jī)制是通過(guò)收集和分析信息數(shù)據(jù),結(jié)合風(fēng)險(xiǎn)庫(kù)規(guī)則來(lái)識(shí)別風(fēng)險(xiǎn)隱患的過(guò)程,其目的是為了有效地識(shí)別系統(tǒng)風(fēng)險(xiǎn)。風(fēng)險(xiǎn)評(píng)估機(jī)制的主要步驟包括:信息收集:收集生產(chǎn)環(huán)境的指標(biāo)、日志、告警、配置、資源、容量等運(yùn)維數(shù)據(jù),作為風(fēng)險(xiǎn)診斷分析的數(shù)據(jù)輸入。傳統(tǒng)IT系統(tǒng)的風(fēng)險(xiǎn)主動(dòng)預(yù)防通常會(huì)以產(chǎn)品化的方式發(fā)布巡檢工具,通過(guò)在現(xiàn)網(wǎng)部署巡檢工具進(jìn)行巡檢來(lái)識(shí)別風(fēng)險(xiǎn),這種方式受限于工具的發(fā)布節(jié)奏,風(fēng)險(xiǎn)無(wú)法實(shí)時(shí)更新,無(wú)法保證現(xiàn)網(wǎng)時(shí)刻都可以應(yīng)用到最新的風(fēng)險(xiǎn)庫(kù)。診斷分析:對(duì)收集的運(yùn)維數(shù)據(jù)進(jìn)行分析診斷,識(shí)別系統(tǒng)劣化指標(biāo),匹配風(fēng)險(xiǎn)庫(kù)規(guī)則進(jìn)行風(fēng)險(xiǎn)冒泡,評(píng)估風(fēng)險(xiǎn)等級(jí)及影響,輸出健康度評(píng)估報(bào)告。253.建立風(fēng)險(xiǎn)預(yù)警流程變更前建立完善的風(fēng)險(xiǎn)預(yù)警機(jī)制,通過(guò)定期的風(fēng)險(xiǎn)評(píng)估報(bào)告方式將風(fēng)險(xiǎn)預(yù)警推送到現(xiàn)網(wǎng),確保風(fēng)險(xiǎn)信息可以及時(shí)準(zhǔn)確地傳遞給相關(guān)組織。同時(shí),提供相應(yīng)的風(fēng)險(xiǎn)規(guī)避措施,持續(xù)跟蹤風(fēng)險(xiǎn)在現(xiàn)網(wǎng)的閉環(huán)情況。-變更準(zhǔn)入:建立變更準(zhǔn)入機(jī)制,在變更申請(qǐng)階段對(duì)變更的準(zhǔn)入條件進(jìn)行控制,包括變更必要性評(píng)估,標(biāo)準(zhǔn)化變更方案制定,變更影響分析,回退方案、變更授權(quán)等;基于變更模型提前攔截變更態(tài)風(fēng)險(xiǎn),通過(guò)全流程自動(dòng)化實(shí)現(xiàn)變更態(tài)風(fēng)險(xiǎn)有效控制-風(fēng)險(xiǎn)識(shí)別:變更前對(duì)變更風(fēng)險(xiǎn)進(jìn)行識(shí)別,包括變更歷史問(wèn)題風(fēng)險(xiǎn)、變更方案風(fēng)險(xiǎn)、業(yè)務(wù)影響風(fēng)險(xiǎn)、高危操作風(fēng)險(xiǎn)等;變更風(fēng)險(xiǎn)控制是系統(tǒng)變更過(guò)程中至關(guān)重要的一環(huán),旨在減少因系統(tǒng)變更而帶來(lái)的不利影響,提高變更的成功率。隨著業(yè)務(wù)數(shù)量和業(yè)務(wù)規(guī)模的持續(xù)擴(kuò)大,現(xiàn)網(wǎng)的變更數(shù)量和變更頻次不斷增長(zhǎng),而頻繁的變更常常會(huì)給運(yùn)維帶來(lái)不可預(yù)知的風(fēng)險(xiǎn)。據(jù)數(shù)據(jù)統(tǒng)計(jì),70%的線(xiàn)上故障都是由變更引起,變更可能引起功能失效、性能下降、數(shù)據(jù)丟失甚至系統(tǒng)崩潰。如何有效管控變更風(fēng)險(xiǎn),是運(yùn)維工作面臨的巨大挑戰(zhàn)。面向現(xiàn)代化的變更風(fēng)險(xiǎn)控制能力構(gòu)建可按下面思路進(jìn)行考量:-變更評(píng)審:變更評(píng)審階段,由評(píng)審人對(duì)變更方案和變更風(fēng)險(xiǎn)進(jìn)行評(píng)審,確保變更實(shí)施方案正確,變更影響和變更風(fēng)險(xiǎn)評(píng)估準(zhǔn)確。變更中-灰度變更:構(gòu)筑變更實(shí)施階段的灰度變更能力,按需控制變更范圍,可以盡早發(fā)現(xiàn)并解決變更問(wèn)題,有效降低變更帶來(lái)的風(fēng)險(xiǎn);1.變更風(fēng)險(xiǎn)控制需要在變更的不同階段構(gòu)筑不同的控制能力-風(fēng)險(xiǎn)控制:在變更實(shí)施過(guò)程中控制變更操作的風(fēng)險(xiǎn)。對(duì)于高危操作、未授權(quán)操作實(shí)施攔截,對(duì)于變更過(guò)程中的異常和非預(yù)期結(jié)果,應(yīng)實(shí)施變更自動(dòng)終止操作。-變更監(jiān)控:對(duì)變更過(guò)程實(shí)施監(jiān)控,通過(guò)狀態(tài)、指標(biāo)和告警,快速發(fā)現(xiàn)變更帶來(lái)的非預(yù)期影響。流程,使得變更在各個(gè)階段都能得到有效的跟蹤和控制。變更后變更申請(qǐng)階段,基于變更模型創(chuàng)建變更申請(qǐng)單,變更申請(qǐng)單自動(dòng)獲取變更模型關(guān)聯(lián)的風(fēng)險(xiǎn)規(guī)則,同時(shí)根據(jù)風(fēng)險(xiǎn)規(guī)則識(shí)別變更風(fēng)險(xiǎn)。風(fēng)險(xiǎn)規(guī)則可以是特定的匹配規(guī)則或腳本,通過(guò)自動(dòng)化流程運(yùn)行風(fēng)險(xiǎn)規(guī)則或腳本,給出本變更所識(shí)別出的風(fēng)險(xiǎn)集合。-安全回退:構(gòu)筑變更回退能力,包括變更全量回退以及按階段、按工步的局部回退,支持靈活的回退策略制定;-撥測(cè)驗(yàn)證:建立變更后的業(yè)務(wù)撥測(cè)能力,在變更后通過(guò)業(yè)務(wù)撥測(cè)驗(yàn)證變更業(yè)務(wù)是否可用,及時(shí)發(fā)現(xiàn)問(wèn)題。變更評(píng)審階段,對(duì)于變更單所識(shí)別變更風(fēng)險(xiǎn)的閉環(huán)情況進(jìn)行審核,確保變更風(fēng)險(xiǎn)全部閉環(huán),變更流程才能進(jìn)入變更實(shí)施階段。在變更申請(qǐng)和變更評(píng)審階段,重點(diǎn)構(gòu)筑變更風(fēng)險(xiǎn)的識(shí)別和攔截能力。2.建立變更模型+風(fēng)險(xiǎn)規(guī)則的風(fēng)險(xiǎn)識(shí)別機(jī)制,確保變更風(fēng)險(xiǎn)提前識(shí)別首先,對(duì)不同類(lèi)型的變更建立不同的變更模型,并對(duì)變更模型設(shè)定相應(yīng)的風(fēng)險(xiǎn)規(guī)則,風(fēng)險(xiǎn)規(guī)則可來(lái)源于此類(lèi)型變更的歷史問(wèn)題和專(zhuān)家經(jīng)驗(yàn),或與此類(lèi)變更相關(guān)的狀態(tài)、指標(biāo)和配置等。變更實(shí)施階段,基于工具構(gòu)筑自動(dòng)化變更及控制能力。工具應(yīng)具備作業(yè)編排、灰度分批、高危攔截、熔斷回退等核心功能?;叶确峙兏湫偷膽?yīng)用形式通常如下:此外,應(yīng)建立變更模型和風(fēng)險(xiǎn)規(guī)則的關(guān)聯(lián)機(jī)制,持續(xù)積累風(fēng)險(xiǎn)規(guī)則,通過(guò)工具能力自動(dòng)識(shí)別風(fēng)險(xiǎn),使得風(fēng)險(xiǎn)識(shí)別不依賴(lài)人,基于變更模型建立標(biāo)準(zhǔn)化的風(fēng)險(xiǎn)識(shí)別流程和能力,確保變更前風(fēng)險(xiǎn)有效識(shí)別。-灰度測(cè)試環(huán)境:提供獨(dú)立的灰度壞境。變更在生產(chǎn)環(huán)境實(shí)施前,在灰度環(huán)境上提前實(shí)施變更,進(jìn)行業(yè)務(wù)驗(yàn)證;3.基于流程和工具構(gòu)筑變更風(fēng)險(xiǎn)控制能力,確保風(fēng)險(xiǎn)控制有效落地-生產(chǎn)環(huán)境分批實(shí)施:在生產(chǎn)環(huán)境中分批實(shí)施變更,優(yōu)先選擇小范圍、重要性較低或影響可控對(duì)象實(shí)施變更,根據(jù)變更結(jié)果逐步放開(kāi)批次。具體來(lái)說(shuō),應(yīng)建立數(shù)字化的變更流程系統(tǒng),從變更申請(qǐng)、變更評(píng)審、變更實(shí)施到變更驗(yàn)證建立完善的變更推送、閉環(huán)執(zhí)行腳本/規(guī)則流程變更實(shí)施風(fēng)險(xiǎn)評(píng)審識(shí)別風(fēng)險(xiǎn)創(chuàng)建變更單拉取風(fēng)險(xiǎn)信息導(dǎo)入模型變更模型風(fēng)險(xiǎn)腳本/規(guī)則圖2.18變更申請(qǐng)、評(píng)審流程27變更作業(yè)流水線(xiàn)變更作業(yè)子流程N(yùn)變更作業(yè)子流程N(yùn)+1生產(chǎn)批安全回滾灰度批批次2準(zhǔn)入條件預(yù)檢查批次1生產(chǎn)批灰度批批次2安全回滾準(zhǔn)入條件批次1預(yù)檢查安全回滾工具能力灰度分批安全回滾模板編排熔斷機(jī)制高危攔截生產(chǎn)驗(yàn)證圖2.19典型灰度分批變更應(yīng)用形式變更驗(yàn)證階段,通過(guò)功能驗(yàn)證、業(yè)務(wù)撥測(cè)等驗(yàn)證手段,對(duì)變更后的業(yè)務(wù)進(jìn)行可用性驗(yàn)證,及時(shí)發(fā)現(xiàn)可能的風(fēng)險(xiǎn)。從系統(tǒng)架構(gòu)層面,混沌工程可以驗(yàn)證系統(tǒng)的容錯(cuò)能力,推動(dòng)提升系統(tǒng)的架構(gòu)可用性;測(cè)試層面,混沌工程可以提前暴露線(xiàn)上問(wèn)題,防止帶病上線(xiàn);運(yùn)維層面,混沌工程可以讓我們更好地理解和掌握系統(tǒng)的運(yùn)行邏輯和規(guī)律,提升應(yīng)急恢復(fù)效率,降低故障影響和損失,增強(qiáng)團(tuán)隊(duì)?wèi)?yīng)急能力,建立系統(tǒng)抵御未知風(fēng)險(xiǎn)的信心?;诨煦绻こ掏诰蛭粗L(fēng)險(xiǎn),識(shí)別系統(tǒng)薄弱環(huán)節(jié),持續(xù)提升系統(tǒng)韌性混沌工程核心思想:識(shí)別系統(tǒng)隱患,減少故障影響,提升系統(tǒng)韌性混沌工程的實(shí)施實(shí)踐混沌工程實(shí)踐可以按照如下步驟開(kāi)展:混沌工程是一種實(shí)驗(yàn)性的可靠性工程提升方法,是通過(guò)主動(dòng)模擬故障場(chǎng)景來(lái)驗(yàn)證系統(tǒng)在各種異常場(chǎng)景下的行為,通過(guò)比較假設(shè)行為和實(shí)際行為,發(fā)現(xiàn)系統(tǒng)存在的薄弱環(huán)節(jié)。在復(fù)雜的分布式系統(tǒng)中,交互關(guān)系和服務(wù)依賴(lài)錯(cuò)綜復(fù)雜,難免會(huì)出現(xiàn)各種不可預(yù)料的突發(fā)事件,系統(tǒng)越復(fù)雜,越容易出現(xiàn)無(wú)法預(yù)知的故障。混沌工程旨在提前識(shí)別系統(tǒng)的未知風(fēng)險(xiǎn),針對(duì)性地進(jìn)行防范加強(qiáng),讓系統(tǒng)在每一次故障中獲益,不斷優(yōu)化,持續(xù)提升系統(tǒng)的韌性,保障業(yè)務(wù)的連續(xù)可用。制定試驗(yàn)?zāi)繕?biāo)開(kāi)展混沌演練之前,首先需要明確試驗(yàn)?zāi)繕?biāo)及假設(shè),確保實(shí)驗(yàn)的有效性及針對(duì)性。例如,驗(yàn)證某應(yīng)用系統(tǒng)在過(guò)載場(chǎng)景下的保護(hù)機(jī)制,假設(shè)當(dāng)流量過(guò)載時(shí),系統(tǒng)的哪些指標(biāo)會(huì)發(fā)生什么變化,預(yù)期會(huì)有什么保護(hù)措施會(huì)觸發(fā)等。28故障模式分析故障模式分析是混沌工程實(shí)踐的關(guān)鍵環(huán)節(jié),通過(guò)6維故障分析法,從冗余、容災(zāi)、備份、過(guò)載、依賴(lài)和安全維度,剖析系統(tǒng)的部署架構(gòu),邏輯架構(gòu)和內(nèi)外部的依賴(lài)關(guān)系,分析風(fēng)險(xiǎn)場(chǎng)景,選定故障模式,作為混沌演練的場(chǎng)景輸入。云平臺(tái)故障場(chǎng)景識(shí)別xx會(huì)議系統(tǒng)故障場(chǎng)景識(shí)別冗余l(xiāng)vs視頻網(wǎng)關(guān)APIGnginx故障點(diǎn)故障場(chǎng)景分析故障場(chǎng)景分析容災(zāi)依賴(lài)安全備份前端負(fù)載均衡consoleframe6維故障分析法故障點(diǎn)故障點(diǎn)視頻前端web01視頻前端web02視頻后端servicehaproxyhaproxy視頻后端serviceapicomimsimsvpc故障點(diǎn)故障點(diǎn)pub-dbpub-db過(guò)載視頻數(shù)據(jù)庫(kù)DB圖2.206維故障場(chǎng)景分析法如圖所示,6維故障分析法對(duì)于云平臺(tái)和業(yè)務(wù)應(yīng)用場(chǎng)景的故障模式分析均適用。例如,對(duì)于應(yīng)用系統(tǒng)中的關(guān)鍵模塊,如web前端,在業(yè)務(wù)過(guò)載場(chǎng)景下,分析系統(tǒng)是否具備限流、降級(jí)或彈性擴(kuò)容能力;對(duì)于數(shù)據(jù)庫(kù),在業(yè)務(wù)過(guò)載場(chǎng)景下,分析系統(tǒng)是否具備自我保護(hù)能力等條件。演練復(fù)盤(pán)進(jìn)行演練復(fù)盤(pán)總結(jié),從產(chǎn)品質(zhì)量、預(yù)案質(zhì)量和運(yùn)作流程等方面識(shí)別改進(jìn)點(diǎn)并優(yōu)化?;煦绻こ唐脚_(tái)構(gòu)建混沌工程平是進(jìn)行混沌演練的基礎(chǔ),完整的混沌工程平臺(tái)需要具備故障模式管理、故障場(chǎng)景編排、故障注入、演練指揮、演練復(fù)盤(pán)等能力:制定應(yīng)急預(yù)案根據(jù)故障場(chǎng)景,分析故障發(fā)生后的系統(tǒng)行為及影響,制定對(duì)應(yīng)的應(yīng)急預(yù)案。應(yīng)急預(yù)案應(yīng)包括故障的識(shí)別、影響范圍確認(rèn)、故障隔離、恢復(fù)驗(yàn)證等方面。故障模式管理提供豐富的故障模式庫(kù),如過(guò)載類(lèi)故障、網(wǎng)絡(luò)類(lèi)故障、狀態(tài)變化類(lèi)故障等,基于故障模式可以構(gòu)造業(yè)務(wù)故障場(chǎng)景。過(guò)載類(lèi)故障包括磁盤(pán)IO高,CPU負(fù)載高,內(nèi)存利用率高,網(wǎng)卡流量高等。網(wǎng)絡(luò)類(lèi)故障典型如網(wǎng)絡(luò)丟包、網(wǎng)絡(luò)時(shí)延、網(wǎng)絡(luò)中斷、網(wǎng)絡(luò)錯(cuò)報(bào)、亂序、重復(fù)包等。狀態(tài)變化類(lèi)故障有kill進(jìn)程、關(guān)機(jī)、重啟、磁盤(pán)只讀、停止服務(wù)等。故障演練根據(jù)故障場(chǎng)景實(shí)施故障注入,觀察系統(tǒng)的行為是否符合預(yù)期,例如穩(wěn)態(tài)指標(biāo)觀察,容錯(cuò)行為驗(yàn)證等,同時(shí)驗(yàn)證處置策略,恢復(fù)手段是否有效。29故障場(chǎng)景編排2.2應(yīng)用運(yùn)維現(xiàn)代化基于故障模式和資源對(duì)象,進(jìn)行故障場(chǎng)景的靈活編排。2.2.1運(yùn)維規(guī)劃前置到設(shè)計(jì)階段,業(yè)務(wù)可靠性來(lái)源于運(yùn)維與設(shè)計(jì)的融合故障注入基于故障模式或故障場(chǎng)景,對(duì)資源對(duì)象進(jìn)行故障注入,為系統(tǒng)引入錯(cuò)誤行為。由于云上資源的多樣性,故障注入需要支持各種類(lèi)型的資源,包括主機(jī)、虛機(jī)、容器、數(shù)據(jù)庫(kù)、中間件、進(jìn)程等。隨著核心業(yè)務(wù)持續(xù)上云,金融企業(yè)對(duì)應(yīng)用高可用要求達(dá)到了5個(gè)9。業(yè)務(wù)一旦出現(xiàn)故障不但會(huì)影響經(jīng)濟(jì)效益,甚至?xí)绊懙絿?guó)計(jì)民生,所以如何縮小應(yīng)用故障的影響范圍,保障核心業(yè)務(wù)數(shù)據(jù)不丟失就成了企業(yè)面臨的頭等問(wèn)題。因此,應(yīng)用高可用設(shè)計(jì)成為應(yīng)用與基礎(chǔ)設(shè)施現(xiàn)代化轉(zhuǎn)型的關(guān)鍵。演練指揮設(shè)置演練指揮中心,制定演練計(jì)劃,演練排班和應(yīng)急預(yù)案,演練過(guò)程全程監(jiān)控。然而,單純依靠傳統(tǒng)的運(yùn)維方式已經(jīng)難以保障業(yè)務(wù)的高可靠要求,運(yùn)維需要前置到設(shè)計(jì)階段,業(yè)務(wù)可靠性來(lái)源于運(yùn)維與設(shè)計(jì)的融合。演練復(fù)盤(pán)分析演練數(shù)據(jù),對(duì)演練過(guò)程進(jìn)行復(fù)盤(pán)總結(jié),輸出演練報(bào)告,發(fā)掘改進(jìn)環(huán)節(jié)并持續(xù)跟蹤。1.業(yè)務(wù)容災(zāi)等級(jí)評(píng)估高可用設(shè)計(jì)并非單純的技術(shù)問(wèn)題,成本也是影響鍵。由于高可用設(shè)計(jì)需要大量的費(fèi)用投入,而其產(chǎn)出并不能立竿見(jiàn)影地被直接感知到,所以對(duì)于高可用設(shè)計(jì)往往需要先解決“高可用設(shè)計(jì)成本與業(yè)務(wù)預(yù)期的沖突”問(wèn)題。演練文化混沌工程要在企業(yè)內(nèi)部有效落地,首先需要認(rèn)可其所帶來(lái)的價(jià)值,從組織、流程、文化建設(shè)方面引導(dǎo),從上到下建立混沌演練文化。只有持續(xù)例行地開(kāi)展演練工作,才能持續(xù)提升系統(tǒng)的容錯(cuò)性和可恢復(fù)性,系統(tǒng)的韌性才能得到不斷提升。在投入成本方面,應(yīng)用可用性要求越高,對(duì)應(yīng)技術(shù)方案需要投入的成本也會(huì)越高。成本數(shù)據(jù)丟失損失成本數(shù)據(jù)可靠性成本應(yīng)用可靠性成本應(yīng)用宕機(jī)損失成本業(yè)務(wù)側(cè)期望業(yè)務(wù)側(cè)期望當(dāng)前現(xiàn)狀當(dāng)前現(xiàn)狀平衡點(diǎn)數(shù)據(jù)丟失時(shí)長(zhǎng)(RPO)應(yīng)用恢復(fù)時(shí)間(RTO)分鐘0分鐘普通業(yè)務(wù)重要業(yè)務(wù)關(guān)鍵業(yè)務(wù)重要業(yè)務(wù)普通業(yè)務(wù)圖2.21高可用設(shè)計(jì)與業(yè)務(wù)沖突預(yù)期沖突分析30如圖所示:當(dāng)RPO和RTO都為0時(shí),對(duì)應(yīng)的高可用設(shè)計(jì)成本達(dá)到峰值;相反RPO和RTO時(shí)間比較高時(shí),對(duì)應(yīng)的高可用成本也會(huì)相應(yīng)降低。如果所有業(yè)務(wù)都按照最高的高可用目標(biāo)建設(shè),金融企業(yè)將面臨巨大的高可用投入成本,所以在技術(shù)設(shè)計(jì)前,首先要對(duì)業(yè)務(wù)災(zāi)備等級(jí)進(jìn)行評(píng)估分類(lèi)。基于應(yīng)用的重要程度,數(shù)據(jù)一致性要求,時(shí)延敏感性等因素可以將業(yè)務(wù)劃分為“關(guān)鍵業(yè)務(wù)”、“重要業(yè)務(wù)”和“普通業(yè)務(wù)”三個(gè)等級(jí),重要程度依次降低。端邊縱向可觀測(cè)體系設(shè)計(jì)端側(cè)監(jiān)控請(qǐng)求量日志傳輸指標(biāo)三方服務(wù)業(yè)務(wù)指標(biāo)體系搭建時(shí)延吞吐2.業(yè)務(wù)容災(zāi)策略不同重要程度的業(yè)務(wù)選擇不同的容災(zāi)策略:運(yùn)維數(shù)倉(cāng)匯聚運(yùn)維數(shù)據(jù)關(guān)鍵業(yè)務(wù)的高可用設(shè)計(jì)原則是通過(guò)應(yīng)用架構(gòu)改造+部署架構(gòu)改造,實(shí)現(xiàn)數(shù)據(jù)0丟失,同城多活,異地容災(zāi),并縮小故障爆炸半徑;配置告警圖2.22典型運(yùn)維數(shù)據(jù)治理流程重要業(yè)務(wù)則需通過(guò)調(diào)整應(yīng)用的部署架構(gòu)(無(wú)需調(diào)整應(yīng)用架構(gòu)),實(shí)現(xiàn)數(shù)據(jù)丟失趨于0,同城主備,異地容災(zāi);進(jìn)于一體的開(kāi)箱即用的可觀測(cè)性平臺(tái)至關(guān)重要。構(gòu)建這樣一個(gè)應(yīng)用可用性觀測(cè)體系首先需要具備一個(gè)統(tǒng)一的運(yùn)維數(shù)據(jù)倉(cāng)庫(kù),以及完善的業(yè)務(wù)可觀測(cè)指標(biāo)設(shè)計(jì)。典型的運(yùn)維數(shù)據(jù)治理流程主要包括運(yùn)維數(shù)倉(cāng)匯聚運(yùn)維數(shù)據(jù)、業(yè)務(wù)指標(biāo)體系搭建、端邊縱向可觀測(cè)體系設(shè)計(jì)三個(gè)步驟。運(yùn)維數(shù)倉(cāng)匯聚運(yùn)維數(shù)據(jù)是基礎(chǔ),業(yè)務(wù)指標(biāo)體系搭建是核心,端邊縱向可觀測(cè)體系設(shè)計(jì)是補(bǔ)充。普通業(yè)務(wù)無(wú)需對(duì)應(yīng)用和部署架構(gòu)作任何調(diào)整,僅需進(jìn)行關(guān)鍵數(shù)據(jù)的定時(shí)備份即可。3.高可用的持續(xù)治理應(yīng)用高可用的保障過(guò)程是一個(gè)持續(xù)的治理過(guò)程。在經(jīng)歷了前期的技術(shù)選型、方案設(shè)計(jì)、方案實(shí)施和方案驗(yàn)證后,還需建立完善的容災(zāi)管理制度,并通過(guò)專(zhuān)業(yè)的高可用技術(shù)團(tuán)隊(duì)持續(xù)跟蹤和優(yōu)化業(yè)務(wù)高可用的達(dá)成情況。所以應(yīng)用高可用治理還涉及容災(zāi)團(tuán)隊(duì)建設(shè)、容災(zāi)狀態(tài)監(jiān)控、容災(zāi)演練以及知識(shí)管理等一系列工作,才能真正保障應(yīng)用高可用目標(biāo)的達(dá)成。運(yùn)維數(shù)倉(cāng)匯聚運(yùn)維數(shù)據(jù)應(yīng)用運(yùn)行過(guò)程中會(huì)產(chǎn)生大量的運(yùn)維數(shù)據(jù),包括端側(cè)數(shù)據(jù)、撥測(cè)網(wǎng)絡(luò)數(shù)據(jù)、實(shí)例指標(biāo)數(shù)據(jù)(Metrics)、日志數(shù)據(jù)(Logs)、調(diào)用鏈數(shù)據(jù)(Traces)等。這些運(yùn)維數(shù)據(jù)需要一個(gè)統(tǒng)一的運(yùn)維數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行承載。運(yùn)維數(shù)倉(cāng)主要由數(shù)據(jù)集成、ETL、數(shù)據(jù)湖、MPPDB、數(shù)據(jù)應(yīng)用等功能組件構(gòu)成,典型數(shù)據(jù)處理流程如下:2.2.2借助運(yùn)維數(shù)倉(cāng)構(gòu)建應(yīng)用可用性監(jiān)控管理體系,實(shí)現(xiàn)業(yè)務(wù)故障實(shí)時(shí)感知定界應(yīng)用可用性監(jiān)控管理是面向應(yīng)用運(yùn)維的一個(gè)重要方面。著眼于持續(xù)現(xiàn)代化演進(jìn)的應(yīng)用可用性監(jiān)控,建設(shè)一個(gè)圍繞故障生命周期集預(yù)防、檢測(cè)、診斷、恢復(fù)、通報(bào)和改數(shù)據(jù)集成:這些數(shù)據(jù)并非全部是結(jié)構(gòu)化的數(shù)據(jù),因此需要有完備的數(shù)據(jù)集成平臺(tái),支持多種運(yùn)維數(shù)據(jù)接入,如消息隊(duì)列、API集成、SFTP集成等。31數(shù)據(jù)抽取:數(shù)據(jù)接入之后由ETL對(duì)單條數(shù)據(jù)進(jìn)行過(guò)濾、切分、擴(kuò)展、格式化等操作,統(tǒng)一放到消息隊(duì)列中。數(shù)據(jù)湖處理:不同的數(shù)據(jù)主體消費(fèi)消息隊(duì)列中的數(shù)據(jù),完成不同的數(shù)據(jù)存儲(chǔ),如原始日志或者指標(biāo)存放到OBS中、單條粒度數(shù)據(jù)直接入庫(kù)或者通過(guò)格式定義存放到ClickHouse中、時(shí)序多維度量數(shù)據(jù)需要依據(jù)一定的數(shù)據(jù)治理規(guī)則分多個(gè)表保存在MPPDB中。數(shù)據(jù)應(yīng)用:所有運(yùn)維數(shù)據(jù)治理完成之后,由數(shù)據(jù)應(yīng)用對(duì)數(shù)據(jù)進(jìn)行API封裝,提供對(duì)外統(tǒng)一查詢(xún)接口。UniQueryServer運(yùn)維數(shù)倉(cāng)數(shù)據(jù)應(yīng)用單條粒度運(yùn)維數(shù)據(jù)[ClickHouse]時(shí)序多維度量數(shù)據(jù)離線(xiàn)數(shù)據(jù)分析數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)湖ETL后端數(shù)據(jù)訂閱分發(fā)[Kafka]日志原始文件[HDFS/OBS]單條粒度運(yùn)維數(shù)據(jù)單條數(shù)據(jù)過(guò)濾、切分、擴(kuò)展、格式化[SparkStreaming/Flink]數(shù)據(jù)集成接入[Kafka/SFTP/HTTPS]數(shù)據(jù)集成端側(cè)數(shù)據(jù)采集APMS撥測(cè)服務(wù)EchoTest指標(biāo)監(jiān)控系統(tǒng)Prometheus日志服務(wù)LogService調(diào)用鏈服務(wù)NuwaTrace自定義數(shù)據(jù)圖2.23應(yīng)用運(yùn)維數(shù)倉(cāng)典型架構(gòu)業(yè)務(wù)指標(biāo)體系搭建例,針對(duì)這些測(cè)試用例梳理黑盒化指標(biāo),如撥測(cè)類(lèi)指標(biāo)、規(guī)格類(lèi)指標(biāo)等;運(yùn)維人員則根據(jù)運(yùn)維過(guò)程中的問(wèn)題持續(xù)對(duì)指標(biāo)進(jìn)行優(yōu)化,三者相互配合,構(gòu)建完備的業(yè)務(wù)可觀測(cè)指標(biāo)。業(yè)務(wù)可觀測(cè)性指標(biāo)是指在企業(yè)的業(yè)務(wù)層面上,通過(guò)監(jiān)測(cè)、分析和理解數(shù)據(jù),設(shè)計(jì)出來(lái)的用以表征業(yè)務(wù)運(yùn)行情況、用戶(hù)體驗(yàn)的業(yè)務(wù)指標(biāo)。業(yè)務(wù)可觀測(cè)性更加關(guān)注運(yùn)行過(guò)程、用戶(hù)旅程和客戶(hù)交互等方面的可視化,從而幫助企業(yè)更好地理解業(yè)務(wù)的健康狀況,給最終用戶(hù)提供更好的用戶(hù)體驗(yàn)。業(yè)務(wù)可觀測(cè)性指標(biāo)設(shè)計(jì)步驟通常情況下,業(yè)務(wù)可觀測(cè)指標(biāo)體系搭建主要分成如下四個(gè)步驟:業(yè)務(wù)可觀測(cè)性指標(biāo)梳理參與角色設(shè)計(jì)可觀測(cè)性指標(biāo)的前提是對(duì)業(yè)務(wù)系統(tǒng)功能有非常深入的理解,因此應(yīng)用開(kāi)發(fā)人員、測(cè)試人員、運(yùn)維人員組成的“鐵三角”缺一不可。開(kāi)發(fā)人員可以對(duì)系統(tǒng)功能的實(shí)現(xiàn)邏輯進(jìn)行白盒化剖析,通過(guò)監(jiān)控和日志手段在開(kāi)發(fā)階段預(yù)埋相應(yīng)的指標(biāo);測(cè)試人員更多從用戶(hù)體驗(yàn)視角設(shè)計(jì)相應(yīng)的測(cè)試用a.數(shù)據(jù)調(diào)研,分解業(yè)務(wù)要素指標(biāo)設(shè)計(jì)人員將業(yè)務(wù)系統(tǒng)的功能進(jìn)行拆解,梳理出業(yè)務(wù)核心功能點(diǎn),每個(gè)功能點(diǎn)會(huì)產(chǎn)生的數(shù)據(jù)類(lèi)型(結(jié)構(gòu)化數(shù)據(jù)、日志、指標(biāo)等),以及明確這些數(shù)據(jù)的作用。32b.梳理概念模型,構(gòu)建總線(xiàn)矩陣每個(gè)核心功能點(diǎn)識(shí)別之后,就需要開(kāi)發(fā)人員對(duì)每個(gè)核心功能點(diǎn)的業(yè)務(wù)過(guò)程進(jìn)行白盒化梳理,包括每個(gè)業(yè)務(wù)過(guò)程需要關(guān)注的數(shù)據(jù)維度,以及每個(gè)維度對(duì)應(yīng)的字段。以互聯(lián)網(wǎng)應(yīng)用“設(shè)備登錄”業(yè)務(wù)過(guò)程為例,應(yīng)用需要獲取設(shè)備類(lèi)型、設(shè)備品牌、登錄地域、登錄運(yùn)營(yíng)商、HTTP響應(yīng)狀態(tài)碼、業(yè)務(wù)響應(yīng)狀態(tài)碼等維度的數(shù)據(jù)。一致性維度業(yè)務(wù)過(guò)程業(yè)務(wù)過(guò)程一級(jí)二級(jí)請(qǐng)求來(lái)源Apple設(shè)備類(lèi)型DevtypeProductID品類(lèi)地理區(qū)域http響應(yīng)碼業(yè)務(wù)響應(yīng)碼運(yùn)營(yíng)商北向設(shè)備注冊(cè)南向直連設(shè)備注冊(cè)南向下掛設(shè)備注冊(cè)南向批量下掛注冊(cè)南向設(shè)備登陸設(shè)備注冊(cè)設(shè)備登陸北向藍(lán)牙設(shè)備數(shù)據(jù)上報(bào)北向三方設(shè)備數(shù)據(jù)上報(bào)南向設(shè)備數(shù)據(jù)上報(bào)設(shè)備數(shù)據(jù)上報(bào)設(shè)備查詢(xún)?cè)O(shè)備控制設(shè)備認(rèn)證北向設(shè)備注銷(xiāo)南向設(shè)備注銷(xiāo)設(shè)備注銷(xiāo)南向鴻蒙設(shè)備重置圖2.24設(shè)備登錄業(yè)務(wù)過(guò)程總線(xiàn)矩陣舉例c.邏輯模型設(shè)計(jì)根據(jù)總線(xiàn)矩陣,進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)邏輯模型設(shè)計(jì),在維度建模中,有以下一些關(guān)鍵概念和組件:維度(Dimension):維度是描述業(yè)務(wù)過(guò)程的屬性或特征,用于對(duì)事實(shí)進(jìn)行分類(lèi)和分組。事實(shí)表(FactTable):事實(shí)表是數(shù)據(jù)倉(cāng)庫(kù)中的核心表,包含了與業(yè)務(wù)過(guò)程相關(guān)的數(shù)值型度量或指標(biāo)。事實(shí)表中的每一行通常表示一個(gè)業(yè)務(wù)事件或交易,并與一個(gè)或多個(gè)維度表相關(guān)聯(lián)。在實(shí)際應(yīng)用時(shí),應(yīng)該盡量將來(lái)源于同一個(gè)業(yè)務(wù)過(guò)程的底層度量結(jié)果存儲(chǔ)于一個(gè)維度模型中。維度表(DimensionTable):維度表包含了描述事實(shí)表中度量的上下文信息,它們用于描述與“who、what、where、when、how、why”有關(guān)的事件,用于對(duì)事實(shí)進(jìn)行分組和篩選的屬性。33維度表事實(shí)表維度表層次結(jié)構(gòu)(Hierarchy):維度可以具有層次結(jié)構(gòu),即組織成多個(gè)級(jí)別的數(shù)據(jù)。例如,時(shí)間維度可以包含年、季度、月等層次。維度表維度表維度表維度表度量/原子指標(biāo)(Measure):原子指標(biāo)和度量含義相同,是事實(shí)表中的數(shù)值型數(shù)據(jù),表示業(yè)務(wù)過(guò)程的性能或結(jié)果,是用戶(hù)在數(shù)據(jù)倉(cāng)庫(kù)中分析的關(guān)鍵指標(biāo)。維度表維度表圖2.25數(shù)據(jù)倉(cāng)庫(kù)維度模型——星形維度模型設(shè)備維度表歌曲播放事務(wù)事實(shí)表日期維度表維度設(shè)備編號(hào)DID設(shè)備內(nèi)部型號(hào)設(shè)備產(chǎn)品傳播名設(shè)備品牌日期[FK]設(shè)備編號(hào)DID[FK]設(shè)備產(chǎn)品傳播名時(shí)間[FK]時(shí)間維度表設(shè)備品類(lèi)華為賬號(hào)編號(hào)UP_ID[FK]歌曲代理IO[FK]歌曲名稱(chēng)設(shè)備價(jià)格范圍設(shè)備上市日期…歌曲專(zhuān)輯代理ID[FK]藝術(shù)家[FK]藝術(shù)家維度表賬號(hào)維度表度量播放時(shí)長(zhǎng)歌曲維度表有效播放時(shí)長(zhǎng)播放次數(shù)…...歌曲專(zhuān)輯維度表圖2.26星形維度模型實(shí)踐舉例34d.物理模型開(kāi)發(fā)與上線(xiàn)應(yīng)用完整的全鏈路監(jiān)控是非常有價(jià)值的工作:物理模型開(kāi)發(fā)就是在邏輯模型中填充數(shù)據(jù)的過(guò)程,填充的數(shù)據(jù)就是在總線(xiàn)矩陣中定義的數(shù)據(jù),這些數(shù)據(jù)的來(lái)源主要是業(yè)務(wù)系統(tǒng)的數(shù)據(jù)庫(kù)、日志、調(diào)用鏈(本質(zhì)上也是日志)、指標(biāo)數(shù)據(jù)等。而這些數(shù)據(jù)并非結(jié)構(gòu)化數(shù)據(jù),需要經(jīng)過(guò)清洗,匯聚到數(shù)據(jù)倉(cāng)庫(kù)的物理表中,才能夠讓指標(biāo)設(shè)計(jì)人員對(duì)指標(biāo)進(jìn)行進(jìn)一步處理(如打標(biāo)簽或者派生指標(biāo)設(shè)計(jì)),最終完成業(yè)務(wù)可觀測(cè)性指標(biāo)上線(xiàn)。可以提升故障主動(dòng)發(fā)現(xiàn)率,減少故障對(duì)業(yè)務(wù)的影響,提高系統(tǒng)的穩(wěn)定性和可靠性。通過(guò)逐層下鉆的數(shù)據(jù)分析能力,幫助快速定位和解決問(wèn)題。通過(guò)對(duì)系統(tǒng)的實(shí)時(shí)監(jiān)測(cè)和數(shù)據(jù)分析,提供決策支持,優(yōu)化系統(tǒng)性能和資源利用率。端邊縱向可觀測(cè)體系設(shè)計(jì)應(yīng)用運(yùn)維的運(yùn)維對(duì)象是應(yīng)用,即是將“應(yīng)用”作為一個(gè)獨(dú)立的邏輯實(shí)體。所有該應(yīng)用所使用的資源,如VM、Docker、中間件、數(shù)據(jù)庫(kù)等,都是該“應(yīng)用”的組成部分。所以對(duì)于應(yīng)用運(yùn)維來(lái)說(shuō),構(gòu)建該上一章節(jié)主要闡釋了指標(biāo)體系如何構(gòu)建,下面介紹如何根據(jù)這些能力構(gòu)建一個(gè)典型應(yīng)用的全鏈路監(jiān)控模型。App/ServerKit邊緣網(wǎng)絡(luò)服務(wù)&微服務(wù)二方/三方AccountkitAudioKit…ELBWeb服務(wù)器數(shù)據(jù)庫(kù)三方服務(wù)二方服務(wù)SLB應(yīng)用NoSQL服務(wù)器Internet/骨干網(wǎng)&CDNAPP體驗(yàn)指標(biāo)API性能指標(biāo)邊緣網(wǎng)指標(biāo)服務(wù)&微服務(wù)性能依賴(lài)方性能下載成功率安裝成功率首頁(yè)打開(kāi)耗時(shí)首頁(yè)圖片耗時(shí)用戶(hù)搜索耗時(shí)應(yīng)用詳情耗時(shí)用戶(hù)下載速率…API時(shí)延調(diào)用量成功率…帶寬流量速率CDN…API時(shí)延主機(jī)性能中間件數(shù)據(jù)庫(kù)基礎(chǔ)設(shè)施…API時(shí)延調(diào)用量成功率…圖2.28典型應(yīng)用全鏈路監(jiān)控模型:端邊云縱向可觀測(cè)體系35根據(jù)上圖我們可以看出,一個(gè)應(yīng)用要對(duì)最終用戶(hù)產(chǎn)生價(jià)值,整個(gè)數(shù)據(jù)流是從端側(cè)發(fā)起,經(jīng)過(guò)接入側(cè)、廣域網(wǎng)、數(shù)據(jù)中心傳輸后,最終到達(dá)云上的服務(wù)端完成邏輯處理,再返回到端側(cè),完成一次完整的數(shù)據(jù)交互。其中在云上服務(wù)端處理的過(guò)程中,還存在與第三方外部服務(wù)調(diào)用的場(chǎng)景。在這個(gè)交互過(guò)程中,任何一個(gè)環(huán)節(jié)都可能影響到最終用戶(hù)的使用和體驗(yàn)。所以對(duì)于應(yīng)用的全鏈路監(jiān)控來(lái)說(shuō),每個(gè)環(huán)節(jié)都應(yīng)該盡可能地做好監(jiān)控。處理,掌握傳輸過(guò)程的數(shù)據(jù)有利于在協(xié)同處理中更高效地完成故障修復(fù)。由于無(wú)法在傳輸節(jié)點(diǎn)上采集數(shù)據(jù),這部分的時(shí)延數(shù)據(jù)一般可通過(guò)云側(cè)與端側(cè)的指標(biāo)通過(guò)復(fù)合計(jì)算得到。而邊緣加速網(wǎng)絡(luò)的數(shù)據(jù)可以通過(guò)供應(yīng)商的標(biāo)準(zhǔn)監(jiān)控能力獲取。云側(cè)監(jiān)控應(yīng)用的云側(cè)監(jiān)控除了應(yīng)用黃金指標(biāo)外,還應(yīng)包括構(gòu)建該應(yīng)用的資源監(jiān)控。這部分的監(jiān)控?cái)?shù)據(jù)來(lái)源于云基礎(chǔ)設(shè)施監(jiān)控能力,但要

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論