金融業(yè)分布式信息系統(tǒng)運維技術(shù)研究報告_第1頁
金融業(yè)分布式信息系統(tǒng)運維技術(shù)研究報告_第2頁
金融業(yè)分布式信息系統(tǒng)運維技術(shù)研究報告_第3頁
金融業(yè)分布式信息系統(tǒng)運維技術(shù)研究報告_第4頁
金融業(yè)分布式信息系統(tǒng)運維技術(shù)研究報告_第5頁
已閱讀5頁,還剩66頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

金融業(yè)分布式信息系統(tǒng)運維技術(shù)研究報告北京金融科技產(chǎn)業(yè)聯(lián)盟2023

7

月版權(quán)聲明本報告版權(quán)屬于北京金融科技產(chǎn)業(yè)聯(lián)盟,并受法律保護。轉(zhuǎn)載、編摘或利用其他方式使用本白皮書文字或觀點的,應(yīng)注明來源。違反上述聲明者,將被追究相關(guān)法律責任。I編制委員會編委會成員:王長江

聶麗琴

趙開山編寫組成員:楊利進

劉智俊

宋凌杰

靜吳建蘭

包旭利

周斌峰

張小翠

行鐘

陳凌云

袁振青

王文春

蔣維杰于永恒

闞廣穩(wěn)

趙明明

欣吳嘉瑜

藍國平

姜險峰

陸碧波

王月凡

晉鄭

范澤芳

袁云飛

熊彤磊

科蔣玉芳編審:黃本濤

周豫齊

鵬II參編單位:北京金融科技產(chǎn)業(yè)聯(lián)盟秘書處中國工商銀行股份有限公司浙江網(wǎng)商銀行騰訊云計算(北京)有限責任公司華為技術(shù)有限公司螞蟻科技集團股份有限公司北京百度網(wǎng)訊科技有限公司新華三技術(shù)有限公司杭州諧云科技有限公司III摘

要金融業(yè)正處于向數(shù)字化轉(zhuǎn)型發(fā)展的關(guān)鍵時期,而信息系統(tǒng)作為數(shù)字化轉(zhuǎn)型的基礎(chǔ)支撐正加速向全面分布式架構(gòu)轉(zhuǎn)型。分布式信息系統(tǒng)規(guī)模龐大,技術(shù)棧復(fù)雜,對傳統(tǒng)運維模式提出了嚴峻的挑戰(zhàn),迫切需要構(gòu)建新的運維模式。本報告在充分調(diào)研業(yè)界廣泛實踐探索的基礎(chǔ)上提煉總結(jié),研究金融業(yè)分布式信息系統(tǒng)運維架構(gòu)規(guī)劃和落地建設(shè)的體系化方法,以期更好地指導(dǎo)分布式信息系統(tǒng)運維體系的建設(shè)。本報告建立了金融業(yè)分布式信息系統(tǒng)運維能力框架,強化以“服務(wù)業(yè)務(wù)”為核心的運維理念,基于業(yè)務(wù)視角定義生產(chǎn)運維的各項能力水平,給出了運維管理保障方面的優(yōu)化方法,并詳述了運維技術(shù)能力建設(shè)的體系化方案。一是圍繞監(jiān)控、應(yīng)急、容災(zāi)、變更、性能容量等主要運維場景,構(gòu)建運維數(shù)據(jù)驅(qū)動的自動化服務(wù)和風(fēng)險管控框架。二是夯實運維服務(wù)和運維數(shù)據(jù)“兩個基礎(chǔ)平臺”,形成運維互聯(lián)互通能力和面向場景的服務(wù)支撐能力,全面提升運維自動化水平。三是闡述了IT架構(gòu)向多地多中心及單元化演進的運維配套能力建設(shè)路線。報告最后分析了運維技術(shù)的發(fā)展趨勢。關(guān)鍵詞:金融業(yè)分布式信息系統(tǒng)、運維架構(gòu)、運維管理保障、運維技術(shù)能力、IT基礎(chǔ)架構(gòu)IV目

錄一、研究背景.....................................................................................................1(一)金融業(yè)信息系統(tǒng)加速向分布式架構(gòu)演進

...................

1(二)金融業(yè)分布式信息系統(tǒng)運維能力不足

.....................

1(三)政策引導(dǎo)高質(zhì)量建設(shè)分布式信息系統(tǒng)運維保障能力

..........2(四)金融業(yè)分布式信息系統(tǒng)運維技術(shù)研究目標

.................

4二、金融業(yè)分布式信息系統(tǒng)運維能力框架....................................................4(一)運維目標

.............................................

4(二)運維架構(gòu)規(guī)劃

.........................................

5(三)運維管理保障

.........................................

7三、金融業(yè)分布式信息系統(tǒng)運維技術(shù)能力建設(shè)..........................................10(一)監(jiān)控發(fā)現(xiàn)

............................................

10(二)應(yīng)急管理

............................................

18(三)變更管理

............................................

26(四)性能容量管理

........................................

37(五)運維技術(shù)平臺

........................................

48(六)單元化架構(gòu)及運維配套能力建設(shè)

........................

55四、金融業(yè)分布式信息系統(tǒng)運維發(fā)展趨勢展望..........................................62參考文獻...........................................................................................................65V一、研究背景(一)金融業(yè)信息系統(tǒng)加速向分布式架構(gòu)演進金融業(yè)信息系統(tǒng)過去主要采用以IOE為代表的集中式架構(gòu),建立了較為規(guī)范的運維模式。隨著移動互聯(lián)網(wǎng)及大數(shù)據(jù)時代的到來,面對業(yè)務(wù)需求的快速增長以及多樣化的計算場景,集中式的處理模式越來越顯得捉襟見肘。另一方面,分布式計算的理論和實踐逐漸走向成熟,分布式系統(tǒng)能快速地進行系統(tǒng)容量的擴縮以及系統(tǒng)性能的擴展,同時又因其多節(jié)點架構(gòu)提升了系統(tǒng)的可用性以及容錯性,不同節(jié)點之間可根據(jù)各自功能劃分進行相互協(xié)作,整體上統(tǒng)一對外提供服務(wù)。分布式架構(gòu)在其經(jīng)濟性、自主性、靈活性、擴展性層面較集中式架構(gòu)有較為突出的優(yōu)勢。金融業(yè)正處于向數(shù)字化轉(zhuǎn)型發(fā)展的關(guān)鍵時期,信息系統(tǒng)作為數(shù)字化轉(zhuǎn)型的基礎(chǔ)支撐正加速向全面分布式架構(gòu)演進。以工商銀行為例,從2015年開始持續(xù)推進分布式架構(gòu)轉(zhuǎn)型,目前已構(gòu)建了金融業(yè)規(guī)模最大的分布式信息系統(tǒng),承載銀行核心業(yè)務(wù)。(二)金融業(yè)分布式信息系統(tǒng)運維能力不足為支持各類不同的應(yīng)用場景并提供不同級別的高可用性、高性能、可擴展性、一致性等,分布式信息系統(tǒng)通常具有極高的復(fù)雜度。在復(fù)雜的生產(chǎn)環(huán)境中運行時,分布式系統(tǒng)往往伴隨著各種無法預(yù)料的突發(fā)故障,導(dǎo)致系統(tǒng)服務(wù)響應(yīng)延時、數(shù)據(jù)計算出錯、不一致或丟失,甚至服務(wù)崩潰等問題,從而帶來無法估量的損失和災(zāi)難。另外,隨著微服務(wù)化、云原生、敏捷開發(fā)的快速普及,1快速支持迭代業(yè)務(wù)需求、高效提供全流程的模塊交付變更、保證資源的合理使用,也成為了業(yè)務(wù)發(fā)展的核心訴求。因此,探索如何提高分布式系統(tǒng)在異常情況下的穩(wěn)定性,避免因為各種故障帶來的風(fēng)險,建設(shè)全流程的服務(wù)交付體系,完善整體業(yè)務(wù)的資源管理方案,進而為用戶提供高穩(wěn)定、高品質(zhì)服務(wù),成為金融業(yè)分布式信息系統(tǒng)運維至關(guān)重要的內(nèi)容。當前金融行業(yè)的運維架構(gòu)與分布式技術(shù)架構(gòu)協(xié)同不足。一是既有的運維平臺缺乏統(tǒng)一規(guī)劃,新技術(shù)在運維工具中的沉淀不足。二是配置管理不適應(yīng)分布式架構(gòu)調(diào)用關(guān)系復(fù)雜的特性。三是監(jiān)控與應(yīng)急手段較難支撐分布式架構(gòu)下的故障快速定位及處置。四是變更灰度及性能容量管控能力不足等。為應(yīng)對上述挑戰(zhàn),迫切需要構(gòu)建新的運維模式,具備信息系統(tǒng)高可靠運行保障以及賦能業(yè)務(wù)創(chuàng)新的高度自動化運維能力。(三)政策引導(dǎo)高質(zhì)量建設(shè)分布式信息系統(tǒng)運維保障能力為加強企業(yè)IT系統(tǒng)風(fēng)險管理,提高業(yè)務(wù)連續(xù)性管理能力,保障國家安全和人民生命、財產(chǎn)安全,國家對各行業(yè)的軟件質(zhì)量及系統(tǒng)穩(wěn)定性提出了更高的標準和更嚴的要求,如國務(wù)院公布的《關(guān)鍵信息基礎(chǔ)設(shè)施安全保護條例》指出“建立健全監(jiān)測預(yù)警制度、明確網(wǎng)絡(luò)安全事件應(yīng)急處置要求”,中國人民銀行印發(fā)的《金融科技發(fā)展規(guī)劃(2022—2025年)》強調(diào)高質(zhì)量推進金融數(shù)字化轉(zhuǎn)型,原中國銀行保險監(jiān)督管理委員會印發(fā)的《關(guān)于銀行業(yè)保險業(yè)數(shù)字化轉(zhuǎn)型的指導(dǎo)意見》提出建立能夠快速響應(yīng)需求的敏捷研2發(fā)運維體系,證監(jiān)會科技監(jiān)管局組織編寫的《證券期貨業(yè)科技發(fā)展“十四五”規(guī)劃》強調(diào)遵循的第一項原則即為“穩(wěn)字當頭、穩(wěn)中求進”等,相關(guān)政策法規(guī)列于表1。由此觀之,政策要求各行業(yè)的運維團隊培養(yǎng)良好的系統(tǒng)穩(wěn)定性保障觀念,做好風(fēng)險管控,提升運維效能。表

1

國內(nèi)推動信息系統(tǒng)運維保障的相關(guān)政策時間機構(gòu)政策名稱相關(guān)政策建立信息共享機制、建立健全監(jiān)測預(yù)警制度、明確網(wǎng)絡(luò)安全事件應(yīng)急處置要求?!?/p>

關(guān)

礎(chǔ)設(shè)

條例》2021

4

國務(wù)院《

發(fā)

展規(guī)劃(2022—2025年)》中國人民銀強調(diào)高質(zhì)量推進金融數(shù)字化轉(zhuǎn)型。2022

1

月行原中國銀行

關(guān)

業(yè)

提出“建立能夠快速響2022

1

保險監(jiān)督管

業(yè)

數(shù)

轉(zhuǎn)

應(yīng)需求的敏捷研發(fā)運維理委員會的指導(dǎo)意見》體系”。《

關(guān)

業(yè)

堅持風(fēng)險可控。統(tǒng)籌發(fā)險

業(yè)

展與安全,完善風(fēng)險控科

制機制,提升科技金融原中國銀行2021

11

保險監(jiān)督管理委員會指導(dǎo)意見》風(fēng)險管理能力?!?/p>

業(yè)

強調(diào)遵循四項原則,其技發(fā)展“十四五”

中第一項為“穩(wěn)字當頭、中國證監(jiān)會2021

10

月科技監(jiān)管局規(guī)劃》穩(wěn)中求進”。原中國銀行2011

12

保險監(jiān)督管理委員會商業(yè)銀行應(yīng)當將業(yè)務(wù)連續(xù)性管理納入全面風(fēng)險管理體系。《

業(yè)

業(yè)

務(wù)連續(xù)性監(jiān)管指引》3(四)金融業(yè)分布式信息系統(tǒng)運維技術(shù)研究目標以大型銀行為代表的金融機構(gòu)在推進其信息系統(tǒng)向分布式架構(gòu)轉(zhuǎn)型的過程中,在運維方面積累了大量的經(jīng)驗教訓(xùn),進行了廣泛的探索實踐,取得了一定的成效,但是缺乏統(tǒng)一的認知和框架指導(dǎo),成效參差不齊。本報告的研究目標是提煉總結(jié)業(yè)界成功實踐,為金融業(yè)分布式信息系統(tǒng)運維架構(gòu)規(guī)劃和落地建設(shè)提供指導(dǎo),推進金融業(yè)運維架構(gòu)轉(zhuǎn)型,為分布式信息系統(tǒng)高可靠穩(wěn)定運行及賦能業(yè)務(wù)創(chuàng)新提供運維保障。二、金融業(yè)分布式信息系統(tǒng)運維能力框架(一)運維目標金融業(yè)信息系統(tǒng)運維的本質(zhì)是服務(wù)金融業(yè)務(wù),總體目標為“生產(chǎn)安全穩(wěn)定”以及“服務(wù)重質(zhì)高效”(如圖1所示),即在保障業(yè)務(wù)連續(xù)性的同時支持業(yè)務(wù)快速創(chuàng)新,并提升運維效能。在生產(chǎn)安全穩(wěn)定方面,持續(xù)將風(fēng)險規(guī)避在架構(gòu)設(shè)計、系統(tǒng)分析、開發(fā)、測試、變更等活動前,需要技術(shù)能力、架構(gòu)成熟度、風(fēng)險意識、組織建設(shè)等穩(wěn)步提升。運維目標包括及時發(fā)現(xiàn)定位故障、快速解決故障、降低變更差錯、防范容量突發(fā)風(fēng)險等。在服務(wù)重質(zhì)高效方面,支持應(yīng)用快速交付、基礎(chǔ)環(huán)境供應(yīng)效能和運維效能提升,以及運維服務(wù)互聯(lián)互通。通過運維架構(gòu)目標的梳理及運維業(yè)務(wù)場景的分解,進而明確運維架構(gòu)規(guī)劃的主題。4圖

1

運維目標梳理(二)運維架構(gòu)規(guī)劃運維架構(gòu)規(guī)劃遵循如下重點原則。一是強化以“服務(wù)業(yè)務(wù)”為核心的運維理念,基于業(yè)務(wù)視角定義生產(chǎn)運維的各項能力水平。二是加強運維體系的整體設(shè)計,夯實運維服務(wù)和運維數(shù)據(jù)“兩個基礎(chǔ)”,形成運維互聯(lián)互通能力和面向場景的服務(wù)支撐能力,全面提升運維自動化水平,同時重點圍繞主要運維場景,構(gòu)建運維數(shù)據(jù)驅(qū)動的自動化服務(wù)和風(fēng)險管控框架。三是明確運維規(guī)范標準和評價體系,實現(xiàn)研發(fā)與運維、業(yè)務(wù)與技術(shù)、運維架構(gòu)與技術(shù)架構(gòu)之間的協(xié)同發(fā)展。重視分布式技術(shù)架構(gòu)和云原生技術(shù)棧的運維能力建設(shè),如流量調(diào)度、資源彈性、運行狀態(tài)監(jiān)測、故障自愈,以及分層分級灰度等。5基于上述原則,并提煉金融業(yè)分布式信息系統(tǒng)運維實踐,形成如圖2所示的運維架構(gòu)規(guī)劃。圖

2

運維架構(gòu)規(guī)劃在運維業(yè)務(wù)場景層面,提煉并規(guī)劃八大主題場景,基于場景進行管控流程內(nèi)聚和能力組合,形成各自獨立、相互支撐的運維產(chǎn)品。本報告規(guī)劃重點為監(jiān)控、應(yīng)急、演練、變更、性能容量等主題。安全管控、運營分析、資源/資產(chǎn)不在本報告研究范圍內(nèi)。在運維技術(shù)平臺建設(shè)層面,以“平臺化、服務(wù)化”為核心理念,提供“運維服務(wù)”“運維數(shù)據(jù)”兩大平臺,融匯PaaS、IaaS及其他專業(yè)技術(shù)工具和數(shù)據(jù),形成一站式運維基礎(chǔ)支撐。實踐中,也可以合并成一個平臺提供服務(wù)和數(shù)據(jù)兩類功能。6(三)運維管理保障1.優(yōu)化運維組織管理(1)基本組織結(jié)構(gòu)金融業(yè)分布式信息系統(tǒng)的運維組織架構(gòu)是在傳統(tǒng)信息系統(tǒng)運維組織結(jié)構(gòu)的基礎(chǔ)上演變形成,按照基礎(chǔ)設(shè)施、技術(shù)支撐、業(yè)務(wù)單元三層人員體系分別對系統(tǒng)設(shè)備網(wǎng)絡(luò)、通用技術(shù)支撐平臺、各領(lǐng)域業(yè)務(wù)系統(tǒng)開展運維工作,建立如圖3所示的具備“橫、縱、專”特性的矩陣制運維組織結(jié)構(gòu),并適配一體化向研發(fā)、質(zhì)量等科技體系上下游延伸。圖

3

運維組織建設(shè)橫向上,在層次內(nèi)部,集成應(yīng)用實體、平臺實體的單元化運維團隊,一個領(lǐng)域由一個團隊負責。縱向上,以業(yè)務(wù)場景為邊界,圍繞監(jiān)控、應(yīng)急等運維核心工7作開展鏈路化運維管理,強化信息系統(tǒng)對業(yè)務(wù)發(fā)展的價值貢獻。專項上,針對信息系統(tǒng)運維的關(guān)鍵領(lǐng)域建設(shè)技術(shù)團隊,實現(xiàn)新技術(shù)的迭代和系統(tǒng)的持續(xù)發(fā)展。(2)業(yè)務(wù)運維單元組織管理隨著業(yè)務(wù)運營監(jiān)測感知需求的提高,分布式系統(tǒng)架構(gòu)下,以單體應(yīng)用為運維管理粒度的運維模式無法滿足高效排查處置問題和風(fēng)險管控的生產(chǎn)運維要求,需按照業(yè)務(wù)運維單元優(yōu)化組織管理,強化端到端的面向業(yè)務(wù)視角的運維價值輸出。業(yè)務(wù)運維單元是結(jié)合金融主體業(yè)務(wù)領(lǐng)域劃分及生產(chǎn)運維實際,圍繞端到端的一組業(yè)務(wù)場景定義的用于承接版本研發(fā)、應(yīng)用部署、運維分工、風(fēng)險管控、應(yīng)急處置等運維工作的單元。分布式系統(tǒng)在運維架構(gòu)、制度規(guī)范、平臺支撐、組織體系等方面,需基于業(yè)務(wù)運維單元構(gòu)建運維能力。在金融業(yè)分布式業(yè)務(wù)單元組織構(gòu)成下,通常會根據(jù)最小業(yè)務(wù)單元的維度配置相應(yīng)的技術(shù)角色,每個角色通常至少配備2人進行主備。(3)運維專業(yè)領(lǐng)域組織管理SRE(Site

Reliability

Engineer,站點可靠性工程師)是金融業(yè)務(wù)中非常特殊且有代表性的角色,根據(jù)運維對象的區(qū)別分為業(yè)務(wù)SRE、平臺SRE、基礎(chǔ)SRE,分別承擔業(yè)務(wù)單元、技術(shù)支撐平臺、基礎(chǔ)設(shè)施領(lǐng)域的運維工作。SRE角色不僅僅負責信息系統(tǒng)線上的基本運維工作,同時負責利用運維專業(yè)領(lǐng)域的技術(shù)與平臺,8從性能容量、變更管控、應(yīng)急定位、監(jiān)控發(fā)現(xiàn)、資金核對、演練管理等專業(yè)領(lǐng)域,系統(tǒng)化、體系化保障信息系統(tǒng)在線上的系統(tǒng)穩(wěn)定性及業(yè)務(wù)可用性,通過技術(shù)化、平臺化手段不斷提升信息系統(tǒng)線上運行時的保障水平,同時通過演練等方式,確保運維工具與流程等持續(xù)有效。面向SRE使用的運維專業(yè)領(lǐng)域技術(shù)與平臺,需要配備專業(yè)的關(guān)鍵角色(通常有運維架構(gòu)、運維研發(fā)、運維數(shù)據(jù)、運維算法四類角色),分別負責技術(shù)與平臺的架構(gòu)工作、運維技術(shù)與平臺的研發(fā)工作、運維數(shù)據(jù)的開發(fā)與ETL(Extract

Transform

and

Load,抽取轉(zhuǎn)換與加載)工作、運維算法領(lǐng)域的算法能力訓(xùn)練與建模工作。2.完善運維制度規(guī)范,建立運維質(zhì)效評價管控機制一是建立面向業(yè)務(wù)運營的“故障管理標準”。從業(yè)務(wù)運營和客戶服務(wù)的視角出發(fā),梳理并制定業(yè)務(wù)健康度和故障等級定義,基于該標準和對應(yīng)的故障管理體系對運維能力、應(yīng)用質(zhì)量等進行標準化度量,便于指導(dǎo)運維核心能力建設(shè),真實地體現(xiàn)業(yè)務(wù)連續(xù)性保障水平。二是加強規(guī)范標準的硬控制措施,隨著運維工具體系建設(shè),完善監(jiān)控、變更、應(yīng)急、容災(zāi)、性能容量等相關(guān)領(lǐng)域的標準化,以及相應(yīng)的規(guī)范標準檢查自動化。三是完善業(yè)務(wù)線/應(yīng)用條線的運維成熟度評估體系,通過監(jiān)控發(fā)現(xiàn)、業(yè)務(wù)可用率、故障恢復(fù)時效等核心指標責任共擔的方式,9持續(xù)提高源頭治理和共同保障效果。應(yīng)用質(zhì)量評估結(jié)果與生產(chǎn)運維管控措施掛鉤,通過變更頻度和審批控制、加大健康巡檢頻度、強化變更驗證等措施,控制成熟度較低的應(yīng)用系統(tǒng)投產(chǎn)風(fēng)險。研發(fā)團隊的應(yīng)用負責人工作評價可酌情參考應(yīng)用質(zhì)量評估結(jié)果和運維KPI指標。三、金融業(yè)分布式信息系統(tǒng)運維技術(shù)能力建設(shè)基于上述運維目標梳理及運維架構(gòu)規(guī)劃,本章的運維技術(shù)能力建設(shè)分為三部分,一是運維業(yè)務(wù)場景,聚焦監(jiān)控、應(yīng)急、容災(zāi)、變更、性能容量等五個主題場景,其中應(yīng)急與容災(zāi)合并體現(xiàn),分四個小節(jié)展開。二是運維技術(shù)平臺,涵蓋運維數(shù)據(jù)及運維服務(wù)兩個平臺內(nèi)容,在第五小節(jié)詳述。三是IT基礎(chǔ)架構(gòu)向多地多中心及單元化架構(gòu)演進所需運維配套能力建設(shè)相關(guān)內(nèi)容,在第六節(jié)詳述。(一)監(jiān)控發(fā)現(xiàn)1.分布式架構(gòu)下監(jiān)控面臨的挑戰(zhàn)一是運維關(guān)注點由原來的軟硬件狀態(tài)及可用性,更多地向用戶體驗、資源擴縮彈性、負載均衡、數(shù)據(jù)一致性及準確性等方面轉(zhuǎn)變,傳統(tǒng)“面向資源”的監(jiān)控理念逐漸不能滿足新發(fā)展趨勢的要求。二是各專業(yè)監(jiān)控系統(tǒng)處于獨立運行狀態(tài),數(shù)據(jù)缺乏橫向打通,豎井效應(yīng)突出,聯(lián)動機制不足,難以快速精準定位故障。三是業(yè)務(wù)系統(tǒng)間存在復(fù)雜的邏輯及調(diào)用關(guān)系,交易鏈路較以往更加多變,內(nèi)部運轉(zhuǎn)呈現(xiàn)黑盒化現(xiàn)象,原有監(jiān)控分析手段難以10繼續(xù)發(fā)揮作用。四是分布式架構(gòu)下基礎(chǔ)設(shè)施規(guī)模和復(fù)雜度急劇增加,信息節(jié)點數(shù)量翻倍、監(jiān)控數(shù)據(jù)量激增,異常感知檢測難度大,需引入智能算法模型加以收斂,實現(xiàn)精準預(yù)警。五是金融業(yè)傳統(tǒng)監(jiān)控體系構(gòu)建于集中式信息系統(tǒng)架構(gòu)之上,與當時的運維模式相匹配。但當核心信息系統(tǒng)演進到分布式架構(gòu)時,監(jiān)控體系自身也需要轉(zhuǎn)型變革,以滿足新階段運維需求。六是受到技術(shù)狀態(tài)限制,以往監(jiān)控數(shù)據(jù)采集/刷新頻度一般處于分鐘級水平,對象顆粒度較粗,對異常的探測捕捉能力弱、響應(yīng)慢,需要引入新技術(shù)棧等手段加以解決。2.分布式架構(gòu)監(jiān)控體系設(shè)計分布式架構(gòu)下監(jiān)控體系應(yīng)以建立統(tǒng)一監(jiān)控平臺為目標,整體思路是自底向上實現(xiàn)對網(wǎng)絡(luò)、存儲、服務(wù)器、操作系統(tǒng)等基礎(chǔ)資源,以及應(yīng)用軟件、業(yè)務(wù)服務(wù)的統(tǒng)一管理,構(gòu)建以資源數(shù)據(jù)為紐帶的大資源管理框架體系,打破以往分專業(yè)豎井式建設(shè)模式,制定統(tǒng)一標準化的數(shù)據(jù)采集規(guī)范,建立全域指標體系,從業(yè)務(wù)邏輯、用戶體驗兩個維度重新設(shè)計分析、評估、展示、告警、治理的流程與操作,使得監(jiān)控系統(tǒng)在業(yè)務(wù)邏輯呈現(xiàn)上更清晰,用戶使用起來更容易上手。在監(jiān)控體系設(shè)計上應(yīng)遵循以下原則:一是平臺功能支持傳統(tǒng)架構(gòu)與分布式架構(gòu)下的全業(yè)務(wù)監(jiān)控模式,應(yīng)涵蓋運維業(yè)務(wù)的各個領(lǐng)域,包括監(jiān)、管、控、服、安全、11大數(shù)據(jù)及人工智能等多方面,如圖4所示。二是以面向業(yè)務(wù)的視角規(guī)劃架構(gòu),滿足不同發(fā)展階段、不同業(yè)務(wù)的運維場景需求;以數(shù)據(jù)中臺為核心,既能滿足金融企業(yè)全域資源的統(tǒng)一管理,又能保障各技術(shù)域的數(shù)據(jù)關(guān)聯(lián);提供統(tǒng)一門戶、統(tǒng)一告警、統(tǒng)一資源、統(tǒng)一監(jiān)控、統(tǒng)一采集的集中管理能力。三是架構(gòu)具有靈活的可擴展性與開放性,提供二次開發(fā)能力,能快速實現(xiàn)與第三方系統(tǒng)對接;具有“熱插拔”能力,以便在維護某一業(yè)務(wù)模塊時不會影響其他業(yè)務(wù)模塊的正常運行。圖

4

一站式監(jiān)控功能架構(gòu)123.分布式監(jiān)控體系監(jiān)控范圍分布式監(jiān)控體系的監(jiān)控范圍涵蓋從業(yè)務(wù)到基礎(chǔ)設(shè)施的各層級監(jiān)控內(nèi)容,通過構(gòu)建多視角監(jiān)控大盤形成一站式可觀測的平臺能力。從業(yè)務(wù)視角包含重點業(yè)務(wù)線監(jiān)控、批量業(yè)務(wù)監(jiān)控、賬務(wù)一致性監(jiān)控,大屏聚合監(jiān)控等。從專業(yè)視角,包含應(yīng)用/交易監(jiān)控,云監(jiān)控、網(wǎng)絡(luò)監(jiān)控、系統(tǒng)監(jiān)控、設(shè)備監(jiān)控、動環(huán)監(jiān)控等。從運維數(shù)據(jù)類型上看,至少包含日志、指標、鏈路、配置、事件等五類數(shù)據(jù)源。4.分布式監(jiān)控體系重點能力建設(shè)由于分布式架構(gòu)信息節(jié)點數(shù)量眾多、運行數(shù)據(jù)信息量極大、復(fù)雜性較高,因此需要重點開展如下幾方面能力建設(shè)。(1)運維數(shù)據(jù)采集能力運用可觀測性(Observability)理念,通過對各類系統(tǒng)、應(yīng)用、平臺、業(yè)務(wù)以及用戶體驗的度量,以了解系統(tǒng)內(nèi)部運行情況,進而為優(yōu)化性能指引方向??捎^測對象包括:日志、指標、事件等系統(tǒng)運行過程中產(chǎn)生的信息、狀態(tài)以及用戶使用過程中的操作表征。通過遍布各處的探針與接口,實時采集基礎(chǔ)運行指標及日志信息。在獲取CPU負載、內(nèi)存使用量等技術(shù)指標的同時,還應(yīng)在交易流中嵌入標簽,記錄交易在不同應(yīng)用和系統(tǒng)中執(zhí)行、調(diào)用、跳轉(zhuǎn)等操作的時空信息,用于完整描繪程序運行路徑。此外,在應(yīng)用側(cè)增加切片時點交易額、交易成功率等業(yè)務(wù)度量指標13的記錄,為進一步評估業(yè)務(wù)服務(wù)水平提供依據(jù)。在指標采集方式上,應(yīng)盡量多樣化,支持代理與無代理混合納管方式,根據(jù)采集對象加以選擇,結(jié)合主動推送與被動輪詢機制,實現(xiàn)監(jiān)控數(shù)據(jù)靈活采集、高效上送。為了擴展采集能力,還可考慮引入旁路監(jiān)控、擴展伯克利包過濾器(eBPF)、移動應(yīng)用錨點、巡檢機器人等新技術(shù),在采集信息的同時,盡量減小對被采集對象的影響。為了便于后續(xù)匯聚整合監(jiān)控指標,應(yīng)建立統(tǒng)一的監(jiān)控指標規(guī)范,明確指標類型、格式、編碼、采集周期、傳輸方式等。(2)業(yè)務(wù)拓撲繪制能力分布式系統(tǒng)及微服務(wù)架構(gòu)帶來好處的同時,也增加了系統(tǒng)的規(guī)模和復(fù)雜性。隨著應(yīng)用服務(wù)粒度越來越小,應(yīng)用服務(wù)數(shù)量越來越多,為了獲取應(yīng)用服務(wù)之間的相互依賴關(guān)系、全方位感知分布式架構(gòu)業(yè)務(wù)的運行狀態(tài),需要借助業(yè)務(wù)標簽信息,自動構(gòu)建全鏈路拓撲和業(yè)務(wù)系統(tǒng)畫像,在交易全鏈路拓撲關(guān)系基礎(chǔ)上套疊基礎(chǔ)設(shè)施拓撲信息,形成資源、狀態(tài)、性能、關(guān)系等多維度全局架構(gòu)和端到端交易鏈路體系。由于分布式架構(gòu)更多地從提供高水平業(yè)務(wù)服務(wù)角度出發(fā),業(yè)務(wù)拓撲與交易鏈路往往處于動態(tài)變化中,因此應(yīng)綜合利用嗅探掃描、網(wǎng)絡(luò)抓包以及調(diào)取配置信息、查詢知識庫等手段,自動化地動態(tài)探測與描繪“業(yè)務(wù)-資源”關(guān)系圖,不斷刷新業(yè)務(wù)服務(wù)水平與資源節(jié)點之間的關(guān)聯(lián)對應(yīng)關(guān)系,從而為提升業(yè)務(wù)健康狀況分析14與監(jiān)控能力奠定基礎(chǔ)。在業(yè)務(wù)服務(wù)水平下降時,能夠根據(jù)業(yè)務(wù)拓撲和專業(yè)告警信息,構(gòu)建事件因果關(guān)系圖,自頂向下迅速溯源定位故障源頭,為應(yīng)急處置提供依據(jù);當關(guān)鍵資源節(jié)點發(fā)生異常時,也可以自底向上評估業(yè)務(wù)影響范圍,自動計算健康度。(3)大數(shù)據(jù)處理及智能分析能力在數(shù)據(jù)處理方面,由于監(jiān)控數(shù)據(jù)的時效性要求很高,依托運維數(shù)據(jù)中臺的大數(shù)據(jù)處理能力,采用流計算引擎以及相關(guān)大數(shù)據(jù)存儲組件,實現(xiàn)監(jiān)控數(shù)據(jù)的高效聚合計算及存儲。在智能分析方面,傳統(tǒng)基于靜態(tài)指標閾值等專家規(guī)則的分析判斷方法已難以滿足監(jiān)控需求,需要將不同渠道上報的各專業(yè)運維數(shù)據(jù)加以整合,采取同一視角進行智能化分析。首先,基于歷史運維數(shù)據(jù),按不同統(tǒng)計周期對各類資源指標、交易響應(yīng)時間、業(yè)務(wù)成功率等維度抽取特征值,構(gòu)建不同對象、不同層面的動態(tài)基線庫,作為監(jiān)測資源性能、評估服務(wù)水平的基準。進而,根據(jù)業(yè)務(wù)系統(tǒng)運行方式(節(jié)點數(shù))、告警數(shù)量、資源容量、中斷時長、安全等保評估、漏洞數(shù)量等節(jié)點信息,使用機器學(xué)習(xí)算法,訓(xùn)練并構(gòu)建業(yè)務(wù)健康度評價模型,確定健康度層級及其關(guān)鍵指標和權(quán)重。在接入實時運行指標后,能夠迅速捕捉異常,隨著持續(xù)使用真實指標加以訓(xùn)練,評價模型輸出的判斷結(jié)果將更準確、效率更高,綜合評定業(yè)務(wù)系統(tǒng)安全性、穩(wěn)健性以及承載服務(wù)能力的水平越強,運維智能化水平越高。其次,通過數(shù)據(jù)中臺等形式,集中化存儲和處理全體系下的15運行指標,再基于機器學(xué)習(xí)KPI異常檢測模型建立閾值智能監(jiān)控算法庫。縱向上,對不同指標的歷史數(shù)據(jù)進行挖掘分析,自動學(xué)習(xí)單個指標隨時間變化的正常波動表現(xiàn);橫向上,自動識別和探索不同指標之間的關(guān)聯(lián)關(guān)系,打破企業(yè)內(nèi)部各個系統(tǒng)之間的數(shù)據(jù)隔閡,整合分散在各個孤島上的數(shù)據(jù),再配以日志語義分析,實現(xiàn)精準報警與趨勢預(yù)測。第三,針對告警事件做到智能地過濾、壓縮、合并、豐富、去重、升級,輔以業(yè)務(wù)系統(tǒng)、時間、IP等維度等數(shù)據(jù)加以融合,最終聚合成一種高級事件即故障,進而通知用戶進行處理,減少告警噪音干擾,避免單一底層故障引發(fā)消息風(fēng)暴、對監(jiān)控系統(tǒng)正常運行產(chǎn)生沖擊。(4)架構(gòu)開放能力由于監(jiān)控系統(tǒng)是分布式運維體系有機整體的一部分,除了實現(xiàn)自身功能以外,還應(yīng)向體系中其他模塊提供服務(wù),例如:對運維中常見的應(yīng)急、變更等操作輸出數(shù)據(jù)和結(jié)論支持,滿足其需求,并減少人工判斷和手工操作。此外,監(jiān)控系統(tǒng)用戶還會根據(jù)工作任務(wù)變化、關(guān)注點轉(zhuǎn)移等情況,不斷提出新的運維需求,因此監(jiān)控系統(tǒng)應(yīng)提供便捷的二次開發(fā)能力和擴展能力,方便接入新的監(jiān)控工具,從而快速達成預(yù)期功能。(5)集中管控能力新時期面向業(yè)務(wù)的監(jiān)控體系,在實現(xiàn)各類運維數(shù)據(jù)充分融合16的基礎(chǔ)上,需要以全局視角審視信息系統(tǒng)健康度、衡量業(yè)務(wù)服務(wù)水平。因此,監(jiān)控平臺應(yīng)提供一致的查詢、分析、控制、配置等使用方法,以支持各方用戶開展監(jiān)控活動,這就要求至少滿足以下幾方面:(a)設(shè)計標準化。在基礎(chǔ)設(shè)施資源(物理機/虛擬機配置規(guī)格)、軟件資源(發(fā)布單元、容器規(guī)格)、應(yīng)用架構(gòu)(單元化部署)、技術(shù)架構(gòu)(技術(shù)棧、服務(wù)API接口、日志規(guī)范)等多個層面,采取標準化設(shè)計,以降低建設(shè)、整合、維護難度。(b)監(jiān)控模板化。內(nèi)置精煉的必需監(jiān)控模板,支持自定義監(jiān)控項擴展,在滿足監(jiān)控要求的同時,盡可能降低監(jiān)控采集壓力、保證監(jiān)控高效性。(c)配置一站式。對參數(shù)設(shè)置、算法模型、告警規(guī)則、通知策略等配置操作進行簡化和集中管理,實現(xiàn)配置參數(shù)自動下發(fā)和生效,降低使用成本與操作門檻。(d)交互可視化。提供以業(yè)務(wù)為視角、主動發(fā)現(xiàn)業(yè)務(wù)故障并協(xié)助對業(yè)務(wù)故障進行端到端分析的可視化視圖,用戶可以快速獲取所需信息,縮短決策時間,減輕運維團隊工作壓力。(6)自監(jiān)控能力隨著運維要求越來越高,監(jiān)控系統(tǒng)的地位越來越重要,運維人員對其倚重程度也越來越深。監(jiān)控系統(tǒng)自身健康優(yōu)劣、能否準確高效提供服務(wù),則必須加以考慮和重視。因此,監(jiān)控系統(tǒng)除了滿足日常對外監(jiān)控需求,采取高可用架構(gòu)部署,使用獨立的采集、17傳輸、存儲、分析路徑,還應(yīng)提供心跳檢測等對內(nèi)自監(jiān)控能力,及時發(fā)現(xiàn)自身異常情況并成功發(fā)出通知,提醒運維人員加以干預(yù)處理,以免呈現(xiàn)“偽健康”狀態(tài),影響用戶判斷決策。(二)應(yīng)急管理為有效應(yīng)對各種突發(fā)事件,快速恢復(fù)對外服務(wù),保障金融機構(gòu)信息系統(tǒng)安全、穩(wěn)定、持續(xù)運行,金融機構(gòu)以第一時間恢復(fù)生產(chǎn)為第一要務(wù),采取有效措施,建立層次化應(yīng)急組織架構(gòu),制定應(yīng)急管理制度,及時、穩(wěn)妥、高效處理各類突發(fā)事件,近年來金融機構(gòu)應(yīng)急管理水平在不斷提高。1.分布式信息系統(tǒng)轉(zhuǎn)型下應(yīng)急管理面臨的困難數(shù)據(jù)中心在應(yīng)急管理層面所面臨的困難有以下幾個方面:(1)應(yīng)急的復(fù)雜度更高分布式架構(gòu)將一個單體系統(tǒng)拆分為多個服務(wù),存在大量系統(tǒng)間復(fù)雜的調(diào)度依賴關(guān)系,一旦某個點出問題,故障定位和應(yīng)急處置上都更加復(fù)雜,單純靠人工難以處理。(2)業(yè)務(wù)連續(xù)性要求更高隨著越來越多新的金融服務(wù)模式和渠道出現(xiàn),如手機、移動銀行類服務(wù)常常會出現(xiàn)瞬時高并發(fā)業(yè)務(wù)負載,往往需要處理萬次/每秒的讀寫請求。同時,客戶對金融業(yè)務(wù)的連續(xù)性要求很高,特別是對銀行等金融組織,原則上要求7X24小時不間斷服務(wù)。(3)硬件設(shè)備故障概率增大越來越多的信息系統(tǒng)采用分布式架構(gòu)來突破單機性能瓶頸,18導(dǎo)致硬件設(shè)備故障概率增大。一方面,隨著硬件數(shù)量的增加,底層硬件和網(wǎng)絡(luò)設(shè)備故障的概率也隨之增加。另一方面,分布式架構(gòu)通常包含多種異構(gòu)的硬件設(shè)備,這些設(shè)備的損耗、替換速率存在差異,這種異構(gòu)性也增加了硬件設(shè)備發(fā)生故障的概率。2.分布式信息系統(tǒng)在應(yīng)急管理方面的優(yōu)勢分布式系統(tǒng)最大的特點是可擴展性,能適應(yīng)需求變化而擴展。隨著業(yè)務(wù)量需求的日益增長,并發(fā)用戶請求越來越多,要處理的數(shù)據(jù)也越來越多。分布式系統(tǒng)因其良好的可擴展性,同時能夠更便捷地通過各種應(yīng)急手段(重啟、隔離、切換、熔斷、限流、擴容等)來增強系統(tǒng)整體的處理能力,并能夠通過標準化應(yīng)急工具執(zhí)行提升應(yīng)急效率,從而應(yīng)對業(yè)務(wù)增長帶來的計算需求。3.應(yīng)急管理目標與體系建設(shè)應(yīng)急管理對于金融業(yè)信息系統(tǒng)穩(wěn)定尤為重要?;趹?yīng)急管理目標和管理過程,對應(yīng)急管理相關(guān)組件進行設(shè)計并形成如圖5所示的模型。圖

5

應(yīng)急管理體系19應(yīng)急管理的目標是應(yīng)對可能發(fā)生或已發(fā)生的、影響信息系統(tǒng)連續(xù)運行的重大生產(chǎn)事件,能快速恢復(fù)生產(chǎn)系統(tǒng)的正常運行,降低突發(fā)事件危害。應(yīng)急管理對突發(fā)事件的原因、過程及后果進行分析,集成信息系統(tǒng)各方面的相關(guān)資源,對突發(fā)事件進行有效預(yù)警、控制和處理。分布式架構(gòu)下各系統(tǒng)組成部分的相互關(guān)系及作用發(fā)生了較大變化,除在系統(tǒng)架構(gòu)設(shè)計和研發(fā)等方面的變革外,更由于系統(tǒng)部署模式、故障恢復(fù)機制的變化,須在應(yīng)急處理等方面進行配套建設(shè),需要研發(fā)和運維部門之間緊密協(xié)同,共同做好分布式架構(gòu)下的運維。同時,科技與業(yè)務(wù)部門也需要緊密配合,一方面,可進一步發(fā)揮分布式架構(gòu)的靈活可擴展、并行高效率處理的優(yōu)勢,另一方面,分布式架構(gòu)在數(shù)據(jù)和事務(wù)一致性方面,也可能給產(chǎn)品和服務(wù)帶來挑戰(zhàn),需要科技與業(yè)務(wù)部門共同處理。4.分布式信息系統(tǒng)下的應(yīng)急管理建設(shè)方案為應(yīng)對分布式信息系統(tǒng)轉(zhuǎn)型對應(yīng)急管理造成的影響與壓力,應(yīng)急管理需要積極作出應(yīng)對和轉(zhuǎn)變。基于不同金融企業(yè)規(guī)模、投入產(chǎn)出比、難易度等依次提出如下建設(shè)方案。應(yīng)急管理建設(shè)方案需要圍繞應(yīng)急事前、事中、事后的全生命周期,提升應(yīng)急管理的全流程自動化水平。事前階段,一是建設(shè)流程編制工具,用于基于故障場景的應(yīng)急流程編排和發(fā)布評審功能,便于在應(yīng)急處置過程中直接調(diào)用。二是應(yīng)急預(yù)案管理,將隔離、重啟、限流、擴容、切換等標準應(yīng)20急場景通過關(guān)聯(lián)工具的服務(wù)化和腳本化,提高應(yīng)急預(yù)案的切實可行程度。事中階段,建設(shè)應(yīng)急事中平臺、標準化應(yīng)急工具。事后階段,可利用應(yīng)急事中平臺或者應(yīng)急執(zhí)行平臺,實現(xiàn)應(yīng)急過程信息(如監(jiān)控、線上交流記錄、應(yīng)急執(zhí)行平臺操作等日志)的錄放、靈活組合展示和在線編輯,快速實現(xiàn)應(yīng)急過程復(fù)盤。(1)故障管理故障管理包括故障復(fù)盤和故障要素記錄兩部分主要功能。故障復(fù)盤功能,主要對故障發(fā)生到結(jié)束的關(guān)鍵時間節(jié)點進行回顧,明確故障原因、故障造成業(yè)務(wù)影響、監(jiān)控情況、處置效率等信息,并分析各環(huán)節(jié)薄弱點,制定相應(yīng)的后續(xù)優(yōu)化措施。故障要素記錄,主要將故障復(fù)盤后的內(nèi)容進行詳細記錄,為明確事件級別、原因歸類等科技管理指標提供依據(jù),同時以故障單的形式進行跟蹤,確保各項優(yōu)化措施有序推進和落實。(2)應(yīng)急事中管理基于工具平臺實現(xiàn)應(yīng)急過程中的信息記錄、信息發(fā)布及統(tǒng)一管理,支持重啟、參數(shù)變更、降級、切換、限流等應(yīng)急處置。應(yīng)急事中管理需要統(tǒng)一的操作執(zhí)行平臺,通過這個平臺,可以對應(yīng)急執(zhí)行過程進行記錄,并支持各種類型的應(yīng)急處置,包括人工或者使用工具應(yīng)急執(zhí)行。應(yīng)急事中平臺,主要用于應(yīng)急現(xiàn)場快速組織和應(yīng)急過程消息實時共享,提升應(yīng)急通知和組織效率。主要功能包括:一是啟動21應(yīng)急,及時有效地將應(yīng)急故障消息發(fā)送至應(yīng)急組織架構(gòu)人員,啟動應(yīng)急視頻會議;二是應(yīng)急事中消息實時共享;三是應(yīng)急復(fù)盤。(3)應(yīng)急預(yù)案管理金融機構(gòu)應(yīng)根據(jù)信息系統(tǒng)建設(shè)及運行情況,對應(yīng)用系統(tǒng)各環(huán)節(jié)的次生、衍生、再生影響以及災(zāi)害性事件做出全方位分析和風(fēng)險評估,制定科學(xué)、操作性強的分級應(yīng)急處置措施。對于分布式架構(gòu)下常見的幾類故障(例如服務(wù)器宕機、網(wǎng)絡(luò)異常、磁盤故障等)要制定詳細的應(yīng)急預(yù)案場景,具體如下:——應(yīng)急預(yù)案場景標準化。應(yīng)急預(yù)案場景按梯隊劃分管理,將隔離、重啟、一鍵式切換、應(yīng)急限流、熔斷、降級、切流等操作納入第一梯隊,對于標準化應(yīng)急場景進行腳本化和工具化,提供一鍵式應(yīng)急能力?!獔鼍肮芾磉吔缜逦?。建立以業(yè)務(wù)運維單元為維度的應(yīng)急預(yù)案,使業(yè)務(wù)運維單元內(nèi)各場景管理邊界更清晰,技術(shù)落地更有抓手,故障爆炸半徑更可控?!收显\斷和應(yīng)急決策。應(yīng)急處置需要對故障事件進行診斷,并根據(jù)故障性質(zhì)啟動相應(yīng)的應(yīng)急預(yù)案。故障診斷平臺要和應(yīng)急執(zhí)行平臺進行聯(lián)動,將故障診斷結(jié)果推送到應(yīng)急執(zhí)行平臺,作為應(yīng)急決策的依據(jù)。故障診斷和應(yīng)急決策的速度和準確度會在很大程度上影響故障恢復(fù)的時間,這主要取決于兩方面:一是對實際情況是否有盡可能詳細的掌握,包括監(jiān)控、告警和日志信息是否完備;二是應(yīng)急處置人員是否對分布式系統(tǒng)架構(gòu)具備足夠的了22解,或者是否可以通過決策樹/排障樹等智能診斷平臺做出相應(yīng)的故障診斷。同時,對于故障診斷和應(yīng)急決策工具,應(yīng)當有命中記錄統(tǒng)計,并做好持續(xù)優(yōu)化工作。(4)快速處置(a)一鍵式處置。一鍵式應(yīng)急處置主要使用的是應(yīng)急工具。建立標準化應(yīng)急工具,包括同城切換工具、一梯隊處理能力標準化應(yīng)急工具(包括重啟、隔離、切換、限流、熔斷、擴容等),要將以上工具納入統(tǒng)一執(zhí)行平臺進行管理,應(yīng)急的執(zhí)行進展可在該平臺上展現(xiàn),同時監(jiān)控、故障診斷平臺要與應(yīng)急執(zhí)行平臺進行聯(lián)動,推薦應(yīng)急處理方案,作為人工輔助判斷依據(jù),人工進入應(yīng)急執(zhí)行平臺進行應(yīng)急處理。(b)自愈管理。應(yīng)急處置中,第一時間恢復(fù)生產(chǎn)為第一要義。在分布式信息系統(tǒng)架構(gòu)下,應(yīng)急處置僅靠人工排查恢復(fù)并驗證是不夠的。故障排查定位、應(yīng)急恢復(fù)操作的前后依賴項、應(yīng)急恢復(fù)后的驗證復(fù)雜度等,都關(guān)系著故障的影響程度、故障的影響范圍、應(yīng)急處置的時效性和準確性。自愈管理主要是將人工處置步驟固化成系統(tǒng)自動化操作,實現(xiàn)自動檢測和自動恢復(fù),降低影響,快速恢復(fù)生產(chǎn)。建立立體化健康自檢系統(tǒng),通過流程編排工具,整合跨專業(yè)線自助式服務(wù),如平臺中間件、數(shù)據(jù)庫、操作系統(tǒng)參數(shù)、網(wǎng)絡(luò)防火墻、應(yīng)用可用性、基礎(chǔ)設(shè)施等,預(yù)先構(gòu)建故障的檢測定位步驟和相應(yīng)的處置步驟,結(jié)合定時巡檢方式或發(fā)生故障時的人工觸發(fā)23方式,實現(xiàn)系統(tǒng)自愈,提高應(yīng)急恢復(fù)的時效性和準確性。通過自愈統(tǒng)計形成分析報告,提供應(yīng)急決策依據(jù),提升系統(tǒng)穩(wěn)定性。如定時巡檢應(yīng)用可用性時發(fā)現(xiàn)故障,結(jié)合數(shù)據(jù)庫側(cè)用戶是否鎖、中間件側(cè)WAS是否關(guān)閉等判斷故障點,若故障點定位為應(yīng)用,則自動重啟,驗證應(yīng)用恢復(fù)情況。(5)容災(zāi)演練應(yīng)急演練是驗證應(yīng)急預(yù)案正確性、應(yīng)急資源完備性及人員適應(yīng)性的重要方法。金融機構(gòu)通常采用以演促防的策略,從而提前發(fā)現(xiàn)穩(wěn)定性保障工作的技術(shù)、系統(tǒng)和組織的薄弱環(huán)節(jié),提前著手解決問題,完善預(yù)案中可能存在的漏洞。需要關(guān)注以下幾點:一是按年度安排重點應(yīng)急場景應(yīng)急演練計劃,計劃應(yīng)以應(yīng)急預(yù)案為基礎(chǔ),制定應(yīng)急演練總體方案,并進行風(fēng)險再評估,制定相應(yīng)的保障措施;二是要選擇業(yè)務(wù)影響小的時段進行,避免因演練導(dǎo)致服務(wù)中斷;三是演練完成后,應(yīng)提交應(yīng)急演練報告;四是定期對信息系統(tǒng)應(yīng)急響應(yīng)相關(guān)人員進行培訓(xùn)。(a)演練線上化管理隨著應(yīng)急演練類型日益豐富,演練數(shù)量逐漸增多,應(yīng)急與災(zāi)備管理系統(tǒng)已經(jīng)可以實現(xiàn)手工登記應(yīng)急演練報告、演練記錄管理。在此基礎(chǔ)上,要推動完善應(yīng)急演練管理線上化,通過加強應(yīng)急與災(zāi)備管理系統(tǒng)與變更單、應(yīng)急工具平臺的關(guān)聯(lián),以實現(xiàn)自動生成演練報告的功能,并不斷探索演練計劃編排、覆蓋率查詢統(tǒng)計、結(jié)果復(fù)盤和持續(xù)跟進等管理功能。24(b)常態(tài)化開展應(yīng)急實戰(zhàn)演練關(guān)于同城切換演練。金融機構(gòu)要定期開展重點應(yīng)用園區(qū)隔離實戰(zhàn)演練,綜合業(yè)務(wù)交易特點等業(yè)務(wù)影響,在夜間計劃性演練的基礎(chǔ)上,擴展演練形式;同時,在業(yè)務(wù)低峰時段,以突發(fā)方式開展多應(yīng)用園區(qū)隔離,檢驗同城雙活應(yīng)用系統(tǒng)的園區(qū)接管能力。關(guān)于異地災(zāi)備恢復(fù)演練。金融機構(gòu)需要定期開展災(zāi)備演練,同時不斷豐富業(yè)務(wù)連續(xù)性演練場景,優(yōu)化災(zāi)備演練組織方案,持續(xù)提高災(zāi)備管理水平,提升全方位業(yè)務(wù)連續(xù)性覆蓋能力。(c)有序開展混沌演練一直以來,金融行業(yè)的業(yè)務(wù)架構(gòu)都相對比較復(fù)雜,交易鏈路長,對交易可靠性、冪等性要求高?;煦绻こ淌窃诜植际较到y(tǒng)上進行實驗的學(xué)科,作為發(fā)現(xiàn)系統(tǒng)潛在風(fēng)險,提升應(yīng)用系統(tǒng)彈性的重要手段,在可控范圍或環(huán)境下,通過故障注入實驗,觀察系統(tǒng)行為,發(fā)現(xiàn)系統(tǒng)弱點,并持續(xù)優(yōu)化和實驗,不斷提高系統(tǒng)穩(wěn)定性,對復(fù)雜分布式系統(tǒng)抵御突發(fā)事件樹立信心。通過混沌演練,可以驗證應(yīng)用系統(tǒng)高可用能力、監(jiān)控報警及應(yīng)急處置能力的有效性。基于審慎原則,混沌演練一般會在測試環(huán)境引入和生產(chǎn)對等環(huán)境,再逐步進階到具備真實流量的灰度環(huán)境和生產(chǎn)環(huán)境?;煦缪菥毞譃橛袚p及無損兩種:有損演練注入真實故障,目標是提前發(fā)現(xiàn)問題,減少生產(chǎn)故障率;無損演練在不影響業(yè)務(wù)的前提下,注入日志、監(jiān)控告警等模擬故障,目標是檢驗故障處置能力,提升運維團隊戰(zhàn)斗力。25(三)變更管理1.金融業(yè)科技發(fā)展過程中變更管理變化及現(xiàn)狀作為系統(tǒng)運維的重要活動之一,變更管理緊跟IT運維的發(fā)展,不斷進行自我優(yōu)化與完善。得益于ITIL的引入,變更管理進一步明確了管理目標、建立了一套更為合理的標準化閉環(huán)式管理流程。目前,各金融企業(yè)通過自研或外購方式,完成了變更管理流程平臺的建設(shè)(如:ServiceDesk、HelpDesk等,或第三方開發(fā)的流程管理產(chǎn)品)。同時伴隨著多年的標準化變更、自動化變更建設(shè),變更風(fēng)險控制能力有了質(zhì)的提升。2.分布式信息系統(tǒng)轉(zhuǎn)型下變更管理面臨的挑戰(zhàn)隨著去中心化金融模式的興起,以及如火如荼開展的國產(chǎn)化改造任務(wù),我國金融行業(yè)正經(jīng)歷著一場IT革命。在這場革命中,變更管理也同其他IT運維領(lǐng)域一樣,面臨著各式各樣的運維轉(zhuǎn)型難題,較為突出的有以下幾方面。(1)變更數(shù)量增長迅猛(a)分布式架構(gòu)的特點就決定了系統(tǒng)整體規(guī)模的幾何倍數(shù)擴張,并導(dǎo)致基礎(chǔ)環(huán)境等維護類變更數(shù)量同比增長。(b)新應(yīng)用系統(tǒng)上線的環(huán)境搭建數(shù)量也較傳統(tǒng)集中模式有較大增長。(c)分布式的彈性縮擴容機制,也產(chǎn)生出了新的變更類型。(d)互聯(lián)網(wǎng)金融業(yè)務(wù)需求快速變化,敏捷、DevOps等軟件開發(fā)實踐導(dǎo)致應(yīng)用版本上線頻率顯著提高。26(2)變更方案復(fù)雜度提高(a)相對于集中式環(huán)境,分布式環(huán)境信息收集工作有所增加。當某一變更涉及多個不同架構(gòu)應(yīng)用時(如:煙囪式架構(gòu)、共享式架構(gòu)應(yīng)用等),變更方案制定復(fù)雜度將進一步凸顯。(b)分布式轉(zhuǎn)型引入了大量新技術(shù)、開源軟件,迅速進行知識技能轉(zhuǎn)型也成為了技術(shù)人員面臨的一項艱巨考驗。轉(zhuǎn)型效果也將直接影響相關(guān)變更方案的優(yōu)劣。(c)分布式轉(zhuǎn)型對系統(tǒng)進行微服務(wù)化拆分,微服務(wù)鏈路長,涉及開發(fā)團隊多,影響面評估復(fù)雜。(3)變更風(fēng)險控制力下降(a)由于變更數(shù)量增加和架構(gòu)轉(zhuǎn)變,引發(fā)了變更風(fēng)險的質(zhì)變。傳統(tǒng)的專家型等變更風(fēng)險評估體系面臨嚴重壓力。(b)應(yīng)用層和基礎(chǔ)架構(gòu)層尚未完全解耦前,基礎(chǔ)環(huán)境類變更將影響對外服務(wù)的連續(xù)性。雖然相關(guān)影響時長較短,但頻率可能會有所增加。(c)金融業(yè)務(wù)發(fā)展對應(yīng)用版本持續(xù)部署的強烈需求,與IT系統(tǒng)穩(wěn)定運維之間存在著直接矛盾。(4)業(yè)務(wù)連續(xù)性等級提升金融業(yè)務(wù)互聯(lián)網(wǎng)化后,業(yè)務(wù)部門對于變更引起的業(yè)務(wù)不可用容忍度降低,同時對故障的影響面、恢復(fù)時間都提出了更高等級要求。3.分布式架構(gòu)帶來更為豐富的變更管理手段27(1)變更業(yè)務(wù)影響降低由于不同的業(yè)務(wù)(功能模塊)分散部署在不同的服務(wù)器,并且提供相同業(yè)務(wù)功能的服務(wù)也部署在多個不同服務(wù)器或容器上,整體可靠性(容錯性)較傳統(tǒng)集中部署模式更高。為變更實施提供了更小的分批顆粒度,造成的計劃性業(yè)務(wù)影響或?qū)嵤┊惓G闆r下業(yè)務(wù)影響均大幅縮減。版本發(fā)布方面,基于分布式架構(gòu)采取的灰度投產(chǎn)模式,允許少量客戶的交易流量在獨立的灰度環(huán)境執(zhí)行,降低了由于程序質(zhì)量等原因?qū)е碌娜中詷I(yè)務(wù)風(fēng)險及影響。(2)變更實施風(fēng)險控制成熟的分布式產(chǎn)品提供了較為穩(wěn)定的集中管控平臺,通過該管控平臺可以通過參數(shù)配置、任務(wù)下發(fā)等方式靈活實現(xiàn)分布式環(huán)境搭建。相關(guān)變更的實施過程也可以通過管控平臺實現(xiàn)全流程監(jiān)控,實施異常情況下,也可以快速鏟除異常節(jié)點。大幅減少了人員在變更實施窗口內(nèi)的人工操作量,提升變更效率的同時也降低了現(xiàn)場實施風(fēng)險。由此,部分分布式架構(gòu)下的變更實現(xiàn)了高度全流程閉環(huán)管理模式。4.變更管理的目標與管理體系建設(shè)相較于電子商務(wù)、生產(chǎn)制造等行業(yè),銀行等金融企業(yè)承擔著較為重要、全面的社會責任。金融系統(tǒng)的正常連續(xù)運作關(guān)系到國家金融穩(wěn)定及人民群眾的衣食住行。為此,金融業(yè)IT變更管理目標及管理體系建設(shè)要同時具備一定的通用性和特殊性。(1)變更管理目標28分布式信息系統(tǒng)轉(zhuǎn)型帶來的變更頻率和數(shù)量急劇增加,僅通過制度、管理要求的優(yōu)化,已無法滿足當下變更效率、變更風(fēng)險管控、變更度量的需求。將變更視作為技術(shù)問題,通過新技術(shù)應(yīng)用,系統(tǒng)化、自動化、智能化的應(yīng)對,不再只聚焦于人的操作流程優(yōu)化與效率提升。變更管理的目標可以分為:(a)變更效率提升。體現(xiàn)為:智能評估、智能防御、自動化執(zhí)行到智能執(zhí)行(執(zhí)行過程智能監(jiān)控、調(diào)度、回滾)。(b)變更風(fēng)險控制在可接受范圍內(nèi)。變更流程按階段可以分為:變更采集、變更通知、變更評估(方案、風(fēng)險、影響)、變更測試/模擬、變更灰度實施、變更防御、變更監(jiān)控、變更止血。(c)變更可度量。包括但不限于:管控覆蓋率、評估質(zhì)量、評估效率、自動化執(zhí)行率、智能防御覆蓋率、智能防御效率等。(2)分布式信息系統(tǒng)下的變更管理建設(shè)方案基于上述變更管理目標,梳理變更管理全過程業(yè)務(wù)模型如圖6。主要包括:變更需求、方案、風(fēng)險評估、測試與實施、評估與改進等幾個階段。29圖6

變更管理業(yè)務(wù)模型為應(yīng)對分布式信息系統(tǒng)轉(zhuǎn)型對變更管理造成的影響與壓力,圍繞變更管理全過程,變更管理需要積極做出應(yīng)對和轉(zhuǎn)變?;诓煌鹑谄髽I(yè)規(guī)模、投入產(chǎn)出比、難易度等依次提出如下建設(shè)方案。(a)標準化變更建設(shè)。作為ITIL原有的變更管理最佳實踐之一,標準化變更將極大程度降低變更方案風(fēng)險,提高變更編排效率。在成本可控的情況下,快速實現(xiàn)變更管理目標。為實現(xiàn)該目標,一是要進行標準變更方案庫建設(shè),二是相同操作在不同環(huán)境(傳統(tǒng)環(huán)境、分布式環(huán)境等)要分別設(shè)計,三是變更方案要注意時效性。(b)自動化變更建設(shè)。中大型銀行等金融企業(yè)IT規(guī)模龐大,30有限的人力面對快速擴張的IT環(huán)境,必須投入一部分力量在自動化變更能力上。在建設(shè)初期可以以專業(yè)為單位進行自動化工具的開發(fā),先實現(xiàn)專業(yè)內(nèi)的自動化,然后逐步建立自動化工具進行平臺化集中整合。(c)智能化變更建設(shè)。在這一變更模式下,IT系統(tǒng)將根據(jù)技術(shù)人員預(yù)先設(shè)置好的參數(shù),自動提出變更,技術(shù)人員負責可行性和必要性審核(或者也交由系統(tǒng)自動判斷)。變更自動實施并反饋結(jié)果,異常情況下自動回退或提示人工干預(yù)。此外,還需做好以下兩方面能力建設(shè)。一方面,遠程變更能力建設(shè)。分布式架構(gòu)的核心特點就是多地部署,同時金融企業(yè)為了提高IT系統(tǒng)的可用性、容災(zāi)性等,近年來都在進行同城雙活、異地多活、異地災(zāi)備等數(shù)據(jù)中心建設(shè)。從IT人力資源配置合理性與冗余度考慮,遠程變更能力建設(shè)勢在必行。另一方面,變更風(fēng)險防控能力建設(shè)。變更最大的難點不在于確保變更成功實施,而是對變更風(fēng)險和影響的控制。金融機構(gòu)和分布式產(chǎn)品開發(fā)商,均對變更風(fēng)險、緊急進行了分級管理,并對不同級別的變更采取了不同的評審等管理策略。標準化變更、自動化變更在一定程度上消除方案風(fēng)險和人工實施風(fēng)險,但其余變更風(fēng)險仍存在不可控的短板。故需要對變更實施過程進行持續(xù)監(jiān)控,并加強自動化、智能化應(yīng)急回退等能力的建設(shè)。需要強調(diào)的是,變更智能防御水平也是智能化變更能力評判的重要因素之一。31(3)變更風(fēng)險防控體系(a)變更信息收集。變更信息來源從組織層面覆蓋了組織內(nèi)部、組織外部關(guān)聯(lián)機構(gòu)(如合作單位、網(wǎng)絡(luò)運營商等);從環(huán)境來看,變更信息覆蓋了IaaS層服務(wù)器、網(wǎng)絡(luò)、數(shù)據(jù)庫、中間件、PaaS、系統(tǒng)發(fā)布、系統(tǒng)配置、業(yè)務(wù)數(shù)據(jù)等。通過對多源信息進行標準化采集,后續(xù)可用于變更信息的訂閱、應(yīng)急檢索、影響面分析等。(b)風(fēng)險評估。組織變更風(fēng)險專家組評審,有效識別變更過程中的風(fēng)險,并梳理應(yīng)對措施。(c)風(fēng)險模擬。在仿真平臺進行變更實施模擬,仿真環(huán)境中的數(shù)據(jù)、流量、配置等與生產(chǎn)環(huán)境要盡量保持一致,最大程度上模擬變更在生產(chǎn)環(huán)境實施情況,提前識別潛在風(fēng)險。(d)執(zhí)行防御。根據(jù)不同的變更場景類型、作用對象重要性,確定變更逐步生效的步長、間隔、批次,以及每個批次的具體范圍。在變更動作開始前檢查準入風(fēng)險,在變更動作完成后觀察其成敗與影響。(e)度量防控效果。通過對變更防控效果進行度量,持續(xù)提高變更防控的場景覆蓋率、風(fēng)險評估質(zhì)量、模擬覆蓋率、風(fēng)險攔截準確率、防御執(zhí)行效率等。防控體系如圖7所示:32圖

7

變更防控體系簡圖(4)變更灰度/分批風(fēng)險防控模式原本只能靠體驗應(yīng)急恢復(fù)速度來解決的問題,通過一個可控范圍暴露風(fēng)險,再利用充分的風(fēng)險識別手段,不斷將未知的變更風(fēng)險問題逐步收斂。由于所有的問題根因無法窮舉,使得前置校驗的風(fēng)險覆蓋率低;同時相同根因的變更故障不常復(fù)犯,使得前置規(guī)則編寫的ROI(投資回報率)較低。分布式架構(gòu)下,計算節(jié)點、數(shù)據(jù)庫節(jié)點高度自治,使得灰度/分批的變更防控模式得以實現(xiàn),其防控能力得以充分發(fā)揮。由于分批策略的引入,即使前面幾個小批次出現(xiàn)了問題,由于范圍可控,問題的嚴重性也可控制。變更風(fēng)險防控從面向已知問題的防控,演進到了面向未知的防控,從押寶前置校驗演進到了前后置共同防控。分布式架構(gòu)與可灰度/分批策略的變更防控架構(gòu)的結(jié)合,也要遵循以下幾個必要條件。(a)固定流程的執(zhí)行流水線(強制風(fēng)險發(fā)現(xiàn)/步驟可控):——執(zhí)行按照預(yù)發(fā)/灰度/生產(chǎn)批次進行——環(huán)境間/批次間串聯(lián)(b)變更分批執(zhí)行能力(控制風(fēng)險范圍):——變更的生效需要能夠區(qū)分環(huán)境33——線上環(huán)境按批次生效(c)前后置防御校驗(風(fēng)險發(fā)現(xiàn)):——前置阻斷變更、后置發(fā)現(xiàn)問題/阻斷下一批次——變更每批次的前后置需要布防基于變更灰度/分批執(zhí)行的流水線如圖8所示。圖

8

變更灰度流水線(5)基于分布式信息系統(tǒng)的業(yè)務(wù)軟件部署除了分布式系統(tǒng)自身的軟硬件變更外,基于分布式系統(tǒng)的業(yè)務(wù)軟件產(chǎn)品部署也有其特殊的管理流程——持續(xù)部署。分布式架構(gòu)提供的持續(xù)部署由部署流水線、部署策略、驗證、風(fēng)險應(yīng)對等部分組成,用以支持分布式系統(tǒng)業(yè)務(wù)價值的快速交付。(a)部署原則。明確部署全流程中,部署流水線、文檔、部署環(huán)境的對應(yīng)關(guān)系及完備性要求。(b)部署策略。明確部署策略要包含灰度策略、技術(shù)業(yè)務(wù)驗證策略、風(fēng)險應(yīng)對策略等內(nèi)容,并要根據(jù)相關(guān)灰度技術(shù)規(guī)范進34行部署。(c)風(fēng)險管控。依據(jù)變更等級、潛在影響等進行風(fēng)險評估;部署過程的可視化、可驗證等非功能需求加以控制,并依據(jù)制度加強合規(guī)風(fēng)險控制。(d)驗證體系。建立完備的驗證體系,通過設(shè)置驗證指標、驗證要點等方式結(jié)合智能化等技術(shù)驗證手段及時判斷部署結(jié)果。(e)后評估。部署過程的效能、中斷、驗證、回退等環(huán)節(jié)應(yīng)可度量、可視化。(6)軟件產(chǎn)品灰度發(fā)布管理流程作為持續(xù)部署實踐中一個最重要的軟件產(chǎn)品發(fā)布策略之一,分布式架構(gòu)的業(yè)務(wù)系統(tǒng)軟件產(chǎn)品通過灰度發(fā)布的模式,有效地控制了新業(yè)務(wù)上線風(fēng)險,提升了對客服務(wù)的連續(xù)性。(a)基本原則。根據(jù)不同應(yīng)用、業(yè)務(wù)系統(tǒng),或產(chǎn)品線重要程度設(shè)置灰度部署模式(物理灰度、邏輯灰度、藍綠發(fā)布等)和策略。其中,物理灰度模式(即有獨立的灰度應(yīng)用群組)風(fēng)險控制能力最強。該模式通過交易引流器等方式,將少量等試點交易引入灰度節(jié)點群組進行處理并驗證新程序處理邏輯的正確性、客戶體驗情況等。(b)設(shè)計原則?;叶劝l(fā)布設(shè)計原則應(yīng)考慮上下游的投產(chǎn)部署和灰度策略,不能對生產(chǎn)造成影響?;叶拳h(huán)境性能容量、兼容性、引流策略和參數(shù)等要評估充分。分布式架構(gòu)通過業(yè)務(wù)/系統(tǒng)功能拆分、應(yīng)用代碼解耦,維護靈活性大幅提升,在此基礎(chǔ)上進35行的業(yè)務(wù)流/交易流的全鏈路灰度發(fā)布模式將是后續(xù)的發(fā)展方向。(c)部署原則。明確并制定灰度部署全套流程的控制要求和管理策略,具體包括:首次灰度部署、引流、驗證、監(jiān)控、流量爬坡、轉(zhuǎn)正。(d)配置原則。分布式系統(tǒng)的環(huán)境和程序配置信息應(yīng)納入分布式配置中心統(tǒng)一管理。(7)變更管理體系建設(shè)的難點及提升方向分布式信息系統(tǒng)下的變更管理體系的建設(shè)與落地,仍面臨著如下難點問題。難點1:分布式架構(gòu)設(shè)計復(fù)雜,技術(shù)多樣性與服務(wù)多變使得運維復(fù)雜度提高。對于變更風(fēng)險評估仍較大程度依賴專家體系的現(xiàn)狀,變更方案風(fēng)險評估的完整性、可控性無法得到保證。提升措施:一是基于知識圖譜進行變更影響分析,提供給專家判斷與部分場景的智能決策。二是利用模擬執(zhí)行與灰度流水線執(zhí)行等措施開展智能防御,通過智能分批監(jiān)控識別變更對象、對象上下游、對象關(guān)聯(lián)鏈路、對象關(guān)聯(lián)業(yè)務(wù)等判斷變更的影響,提升變更風(fēng)險識別能力。三是站在組織角度,堅持先外圍應(yīng)用、后核心應(yīng)用的分布式改造,逐步擴大分布式技術(shù)的適用范圍。加強人員技能培訓(xùn),經(jīng)驗積累并建立分布式技術(shù)知識庫。難點2:金融行業(yè)對于業(yè)務(wù)連續(xù)性及產(chǎn)品迭代的高頻需求與36相對保守滯后的變更管理模式的沖突。提升措施:一是完善優(yōu)化分布式架構(gòu)下變更技術(shù)手段,通過灰度投產(chǎn)、全鏈路灰度投產(chǎn)模式的持續(xù)推廣,降低產(chǎn)品部署風(fēng)險和業(yè)務(wù)影響范圍。研究并制定分布式下的變更管理新模式與流程。二是研究分布式架構(gòu)下系統(tǒng)、網(wǎng)絡(luò)等基礎(chǔ)環(huán)境與上層應(yīng)用服務(wù)的解耦方案,消除或減少底層環(huán)境變更對應(yīng)用服務(wù)的影響。(四)性能容量管理1.分布式架構(gòu)下性能容量管理的挑戰(zhàn)與機遇性能容量管理是指為優(yōu)化整體運營績效,滿足當前和未來業(yè)務(wù)需求而評價、監(jiān)控和調(diào)整IT服務(wù)資源性能和容量的活動,并使得IT服務(wù)的成本可控。隨著業(yè)務(wù)系統(tǒng)從集中式向分布式、微服務(wù)架構(gòu)轉(zhuǎn)型,對傳統(tǒng)性能容量管理模式帶來了以下幾方面挑戰(zhàn)。(1)信息系統(tǒng)架構(gòu)愈加復(fù)雜,分布式環(huán)境受服務(wù)器資源、架構(gòu)設(shè)計、網(wǎng)絡(luò)、應(yīng)用和業(yè)務(wù)場景等多條件制約,服務(wù)鏈路復(fù)雜,任何一個環(huán)境出現(xiàn)性能容量瓶頸都可能放大到整條鏈路,性能容量管理的復(fù)雜性顯著增加。(2)移動互聯(lián)、數(shù)字化等新技術(shù)、新業(yè)態(tài)賦能業(yè)務(wù)發(fā)展,新的業(yè)務(wù)形態(tài)也愈發(fā)復(fù)雜,真實業(yè)務(wù)交易的瞬息萬變和部分交易的高并發(fā)大流量,隨時都可能會對IT系統(tǒng)的穩(wěn)定性帶來巨大沖擊。(3)服務(wù)器的爆發(fā)式增長導(dǎo)致機房等基礎(chǔ)設(shè)施資源緊張,但是資源過度裁剪又會導(dǎo)致設(shè)備性能負載升高,存在生產(chǎn)性能隱37患的矛盾。另一方面,分布式架構(gòu)為支持資源高效利用提供了豐富的技術(shù)手段。彈性伸縮:是根據(jù)業(yè)務(wù)需求和策略自動調(diào)整計算能力(容器實例數(shù)量)的服務(wù)。根據(jù)指定的實例類型和配置策略,在業(yè)務(wù)增長時,彈性伸縮自動增加指定類型實例,保證計算能力。在業(yè)務(wù)需求下降時,彈性伸縮自動減少指定類型實例,節(jié)約成本。資源混部:是在云原生架構(gòu)建設(shè)過程中進行在線和離線集群混合部署,統(tǒng)一資源調(diào)度,以資源隔離和動態(tài)調(diào)整為基礎(chǔ),將不同屬性類型的在線服務(wù)和離線計算類服務(wù)精確進行組合,利用高效調(diào)度算法和智能化的容量計算模型等技術(shù)手段完成資源的合理利用,提升資源錯峰高效利用水平,降低IT成本。資源池化:資源池化是將服務(wù)器物理資源抽象成邏輯資源,讓一臺服務(wù)器變成幾臺甚至上百臺相互隔離的服務(wù)器,不再受限于物理上的界限,而是讓CPU、內(nèi)存、磁盤、I/O等硬件變成可以動態(tài)管理的“資源池”,從而提高資源的利用率,簡化系統(tǒng)管理,實現(xiàn)服務(wù)器整合。2.性能容量管理目標一是提升資源管控水平。通過建設(shè)性能容量管理平臺,涵蓋從業(yè)務(wù)、應(yīng)用、系統(tǒng)、網(wǎng)絡(luò)到基礎(chǔ)設(shè)施的全域性能容量指標體系,實現(xiàn)精細化性能容量評估,解決業(yè)務(wù)與基礎(chǔ)設(shè)施在容量評估等環(huán)節(jié)的斷層現(xiàn)象。38二是建立完整的全鏈路壓測方案。建設(shè)壓測管理平臺,通過壓測風(fēng)險控制及配套技術(shù)手段解決測試環(huán)境壓測不準確等問題。三是建設(shè)容量自愈及多級流量管控體系。提供各類流量服務(wù)檢測和調(diào)撥服務(wù),支撐網(wǎng)絡(luò)接入層、應(yīng)用接入層、應(yīng)用服務(wù)層、數(shù)據(jù)服務(wù)層等多級交易流量靈活調(diào)度。3.性能容量管理體系建設(shè)性能容量管理體系建設(shè)閉環(huán)如圖9所示。圖

9

性能容量管理體系(1)提升資源管控水平圍繞重要業(yè)務(wù)場景做好全鏈路性能容量管控,結(jié)合業(yè)務(wù)量等因素,科學(xué)評估應(yīng)用系統(tǒng)的性能容量指標及閾值,核心場景通過全鏈路壓測,掌握實際業(yè)務(wù)支撐能力,建立體系化評估方法及流程,提升資源管控水平。(a)重點業(yè)務(wù)的全鏈路梳理鏈路梳理是保障工作的基礎(chǔ)和開始,如同對整體應(yīng)用系統(tǒng)進39行一次全面體檢,從流量入口開始,按照鏈路軌跡,逐級分層節(jié)點,得到系統(tǒng)全局畫像與核心保障鏈路。該階段工作需要從應(yīng)用和系統(tǒng)層面入手?!獞?yīng)用鏈路梳理。應(yīng)用鏈路梳理工作一般根據(jù)前期明確的業(yè)務(wù)場景從流量入口開始,按照流量軌跡對鏈路上的節(jié)點按照依賴程度、可用性、可靠性進行分層區(qū)分?!到y(tǒng)鏈路梳理。在保障活動中,一是評估核心鏈路網(wǎng)絡(luò)情況,確認核心服務(wù)器的網(wǎng)卡支持帶寬;二是評估核心鏈路存儲情況,確認是否存在存儲瓶頸;三是評估核心鏈路應(yīng)用上訪問數(shù)據(jù)庫的情況,為后續(xù)的“流量預(yù)算”“容量評估”工作做準備;四是對于非常重要的保障需求可考慮梳理“老舊機器”,包括

服務(wù)器設(shè)備、網(wǎng)絡(luò)設(shè)備、存儲設(shè)備,確保核心鏈路應(yīng)用沒有老舊設(shè)備。(b)性能容量平臺建設(shè)在性能容量管理平臺中納管應(yīng)用性能容量和系統(tǒng)性能容量的數(shù)據(jù),匯聚物理設(shè)備、操作系統(tǒng)、中間件、數(shù)據(jù)庫和應(yīng)用交易的性能監(jiān)控數(shù)據(jù),建設(shè)完善業(yè)務(wù)、應(yīng)用、系統(tǒng)、網(wǎng)絡(luò)到基礎(chǔ)設(shè)施的全域性能容量指標體系,實現(xiàn)精細化性能容量評估?!獞?yīng)用容量評估根據(jù)應(yīng)用業(yè)務(wù)情況和應(yīng)用系統(tǒng)性能數(shù)據(jù)分析當前的情況、預(yù)測業(yè)務(wù)應(yīng)用系統(tǒng)云基礎(chǔ)設(shè)施未來的使用情況以及為滿足預(yù)計的業(yè)務(wù)服務(wù)需求而需要資源,從而完成對容量評估的過程。容量評40估需要將業(yè)務(wù)量、服務(wù)等級、應(yīng)用系統(tǒng)性能統(tǒng)一規(guī)劃管理,建立三者之間的關(guān)系模型。容量評估需要對當前的系統(tǒng)做壓力測試來評估當前系統(tǒng)的性能和容量。目前行業(yè)主流通過TPC-C、排隊論來作為容量評估的專業(yè)手段,其中前者是作為基準方法,后者排隊論更加精準(排隊論是研究系統(tǒng)隨機聚散現(xiàn)象和隨機服務(wù)系統(tǒng)工作過程的理論和方法,又稱隨機服務(wù)系統(tǒng)理論,為運籌學(xué)的一個分支)。——系統(tǒng)容量評估系統(tǒng)容量評估主要為“資源供給”方面的容量評估,基礎(chǔ)環(huán)境的容量決定了應(yīng)用容量。結(jié)合數(shù)據(jù)中心的現(xiàn)狀,可在網(wǎng)絡(luò)、數(shù)據(jù)庫、存儲方面開展評估。數(shù)據(jù)庫容量評估主要關(guān)注cpu、內(nèi)存、io、cache方面的參數(shù);存儲容量重點評估每個表增加的記錄數(shù)、長度等;網(wǎng)絡(luò)容量評估主要關(guān)注系統(tǒng)穩(wěn)定運行的整體最大TPS,每秒數(shù)據(jù)大小計算出網(wǎng)絡(luò)容量。(c)建立體系化評估方法及流程建立事前評估、事中監(jiān)控、事后調(diào)優(yōu)等不同階段的全流程管控和持續(xù)優(yōu)化機制;通過深入挖掘主機系統(tǒng)、平臺系統(tǒng)、應(yīng)用容量、網(wǎng)絡(luò)環(huán)境、設(shè)備及機房基礎(chǔ)設(shè)施等深層次的檢查要點,發(fā)現(xiàn)潛在的性能或容量風(fēng)險隱患,并通過常態(tài)化巡檢和推動整改,有效消除未來較長一段時期的風(fēng)險隱患,確保系統(tǒng)、網(wǎng)絡(luò)、機房容量能夠滿足業(yè)務(wù)需求?!虑霸u估。在特殊業(yè)務(wù)時期、業(yè)務(wù)營銷推廣、重大項目41投產(chǎn)前,提前做好重點業(yè)務(wù)的全鏈路梳理和評估,結(jié)合業(yè)務(wù)需求、全鏈路壓測、健康檢查,以及性能指標趨勢分析等情況,合理預(yù)估資源需求,保障重點業(yè)務(wù)場景資源分配與業(yè)務(wù)發(fā)展相匹配?!轮斜O(jiān)控。加強對重點時段、重點業(yè)務(wù)的監(jiān)控;建立關(guān)鍵及敏感系統(tǒng)清單(重點涉及影響對外連續(xù)服務(wù)、業(yè)務(wù)和客戶敏感系統(tǒng)、核心關(guān)鍵系統(tǒng))。通過集中監(jiān)控系統(tǒng)和性能容量分析系統(tǒng),采集系統(tǒng)運行指標,實時掌握系統(tǒng)運行情況,并結(jié)合性能容量模型進行分析優(yōu)化。監(jiān)控過程中,重點對超過性能容量指標閾值的情況進行分析,并按照事件管理流程或者問題管理流程進行處理。——事后調(diào)優(yōu)。根據(jù)生產(chǎn)性能容量分析結(jié)果,結(jié)合業(yè)務(wù)實際運行情況,制定性能容量優(yōu)化方案,對需優(yōu)化的業(yè)務(wù)系統(tǒng)進行配置調(diào)優(yōu)、擴容資源等實施工作。對長期因資源配置過高而利用不足的業(yè)務(wù)系統(tǒng),實施資源配置縮減。做到保障業(yè)務(wù)發(fā)展的前提下對資源的充分利用。(2)全鏈路壓測管理為進一步提升客戶體驗和系統(tǒng)穩(wěn)定性,全鏈路線上壓測是最貼近生產(chǎn)實際業(yè)務(wù)運行,測試置信度最高的測試、驗收方法。(a)全鏈路線上壓測方案全鏈路壓測的核心思想是借助流量打標、數(shù)據(jù)隔離等技術(shù),復(fù)用生產(chǎn)軟硬件資源實施壓測,同時又避免了壓測流量對生產(chǎn)業(yè)務(wù)數(shù)據(jù)的污染。常用的有兩種改造方式:42一是侵入式代碼改造。該方案確定性高,運維風(fēng)險小,但是改造成本高,接入、功能升級周期都較長。二是非侵入式Agent動態(tài)增強。該方案靈活度高,可復(fù)制性強,接入成本低,但是存在一定運維操作風(fēng)險,如agent接入遺漏等。改造后重點業(yè)務(wù)鏈路支持線上全鏈路影子流量壓測,實現(xiàn)常態(tài)化活動保障壓測和基線壓測,系統(tǒng)具備的能力如下:一是全鏈路流量染色。通過壓測平臺對輸出的壓力請求打上標識,在系統(tǒng)中提取壓測標識,確保完整的程序上下文都持有該標識。二是全鏈路日志隔離。當系統(tǒng)向磁盤或外設(shè)輸出日志時,若流量是被標記的壓測流量,則將日志隔離輸出,避免影響生產(chǎn)日志。三是全鏈路風(fēng)險熔斷。兩個系統(tǒng)之間服務(wù)通信將會有白黑名單開關(guān)來控制流量流入許可。四是全鏈路數(shù)據(jù)隔離。當訪問數(shù)據(jù)庫時,在持久化層同樣會根據(jù)壓測標識進行路由訪問壓測數(shù)據(jù)表。數(shù)據(jù)隔離的手段有多種,比如影子庫、影子表,或者影子數(shù)據(jù),三種方案的仿真度會有一定的差異。(b)全鏈路線上壓測平臺建設(shè)——搭建模式一是使用外部壓力測試服務(wù)商發(fā)起壓力:外購發(fā)壓服務(wù),可43按照壓力發(fā)起服務(wù)的發(fā)起次數(shù)及能力進行計費付費。二是在機構(gòu)內(nèi)搭建面向互聯(lián)網(wǎng)的全鏈路壓測發(fā)壓平臺:內(nèi)部搭建面向互聯(lián)網(wǎng)的全鏈路壓測發(fā)壓平臺,在自有的數(shù)據(jù)中心機房進行設(shè)備資源、網(wǎng)絡(luò)帶寬等基礎(chǔ)設(shè)施規(guī)劃改造,靈活調(diào)度使用設(shè)備、帶寬資源,作為生產(chǎn)全鏈路壓測的壓力發(fā)起端。三是在機構(gòu)內(nèi)搭建面向局域網(wǎng)的全鏈路壓測發(fā)壓平臺:在機構(gòu)內(nèi)搭建面向局域網(wǎng)的全鏈路壓測發(fā)壓平臺,壓測平臺在內(nèi)網(wǎng)對目標系統(tǒng)進行全鏈路壓測?!獕簻y工具選擇由于生產(chǎn)全鏈路壓測一般都有較高的并發(fā)需求,且一般需要多臺壓測機組成發(fā)壓集群進行測試,開源工具更容易進行集成和二次開發(fā)。推薦選用Jmeter和Gatling作為全鏈路壓測平臺的底層發(fā)壓工具?!獪y試監(jiān)控壓測過程中,對系統(tǒng)、業(yè)務(wù)交易各項指標(例如TPS、QPS、交易成功率、失敗率、錯誤日志查詢等)的監(jiān)控是定位問題和衡量壓測效果的重要工具:一是系統(tǒng)層面的性能監(jiān)控可復(fù)用生產(chǎn)運維的監(jiān)控體系。二是完善交易性能指標的監(jiān)控范圍。在場景設(shè)計及測試過程中發(fā)現(xiàn)的,對性能容量影響較大的性能指標(如CPS、連接保持時間、交易成功TPS,交易失敗TPS等),納入生產(chǎn)整體監(jiān)控。三是壓測工具監(jiān)控。壓測過程中,需要對壓測機資源進行整44體快速調(diào)用,并且實時匯總統(tǒng)計整體壓測工具指標,輔助問題分析定位。四是場景化監(jiān)控,可定制的監(jiān)控大盤,便于快速直觀地看到當前整體性能趨勢??煽焖俣ㄎ坏奖粶y系統(tǒng)的所有節(jié)點監(jiān)控指標數(shù)據(jù)以及問題日志定位,可以通過大盤或者統(tǒng)一入口進行快速信息獲取,以便測試過程中對生產(chǎn)海量服務(wù)器具體問題的快速定位。(c)實施全鏈路線上壓測——壓測實施方案制定經(jīng)過業(yè)務(wù)場景需求分析及場景設(shè)計后,依據(jù)業(yè)務(wù)需求形成具體測試場景細節(jié)。一般壓測方案中需要包含如下內(nèi)容:一是壓測相關(guān)方在壓測前后期間的配合工作。二是壓測時間窗口及具體安排。三是壓測場景和場景的壓測目標描述,壓測場景主要包含壓測的交易種類和壓測方法。目標包含:吞吐量的目標、響應(yīng)時間的目標、成功率的目標、系統(tǒng)資源的目標等。四是壓測場景的測試策略,例如:穩(wěn)定階梯發(fā)壓,還是模擬秒殺類的瞬時涌入。五是場景監(jiān)控方案及監(jiān)控指標。六是壓測所需的其他文檔,例如應(yīng)急方案、數(shù)據(jù)清理方案等?!獕簻y準備工作正式壓測之前,可能會有如下前置準備工作需要完成,根據(jù)整體工作安排依次完成:45一是系統(tǒng)程序版本及環(huán)境就緒。二是測試環(huán)境程序測試驗收及腳本測試完成。三是線上系統(tǒng)網(wǎng)絡(luò)、操作系統(tǒng)資源搭建就緒(根據(jù)前期對系統(tǒng)各節(jié)點的容量預(yù)估,或者全鏈路壓測過程中的反饋數(shù)據(jù),進行服務(wù)器數(shù)據(jù)準備)。四是監(jiān)控系統(tǒng)調(diào)整就緒。五是第三方資源協(xié)調(diào)就緒,根據(jù)業(yè)務(wù)系統(tǒng)全鏈路分析,對第三方資源進行容量預(yù)估,并告知第三方進行環(huán)境資源協(xié)調(diào)準備。六是壓力機資源協(xié)調(diào)就緒,需要提前完成發(fā)壓平臺建設(shè),并基于前期測試評估的單臺壓力機發(fā)壓的上限,準備壓力機資源供測試期間調(diào)撥?!獕簻y實施過程壓測實施過程中,需要嚴格按照全鏈路線上性能測試實施方案開展;壓測過程中,需要實時關(guān)注生產(chǎn)運行監(jiān)控情況,及時記錄數(shù)據(jù),在遇到生產(chǎn)報警后,第一時間進行應(yīng)急處理,保證生產(chǎn)存量業(yè)務(wù)的穩(wěn)定運行;壓測實施完成后,需要及時將環(huán)境進行回退處理?!獕簻y結(jié)果分析一是記錄各個壓測場景的實施時間。二是收集壓測期間交易、系統(tǒng)、網(wǎng)絡(luò)各個維度的監(jiān)控數(shù)據(jù)。三是記錄壓測過程中發(fā)生的各類問題。(3)容量自愈及多級流量管控46(a)容量應(yīng)急自愈主要包括兩部分:容量決策判斷和容量恢復(fù)操作?;谛阅苋萘勘O(jiān)控、性能基線數(shù)據(jù)以及歷史性能指標分析,結(jié)合歷史容量故障特征值分析進行綜合判斷,根據(jù)分級容量異常做出自愈判斷,調(diào)用容量恢復(fù)操作組件實現(xiàn)容量自愈,如圖10所示包括擴容、重啟、流量阻斷等。圖

10

容量自愈流程(b)多級流量管控/調(diào)度47——限流中心建設(shè)。建立統(tǒng)一的限流熔斷治理能力平臺,統(tǒng)一治理對象和治理能力,建立全局管控視圖。統(tǒng)一技術(shù)方案,適配各類技術(shù)平臺。具備限流、熔斷、阻斷三種服務(wù)治理能力。——限流/調(diào)度能力覆蓋。限流/調(diào)度需要做到系統(tǒng)組件全覆蓋,包括接入層、網(wǎng)關(guān)層、應(yīng)用層、消息、緩存、數(shù)據(jù)訪問等。同時提供豐富的限流能力?!蘖?調(diào)度統(tǒng)一規(guī)范。建立限流/調(diào)度的統(tǒng)一實施規(guī)范,包括全局限流策略、降級策略、熔斷策略,以及實施標準等?!?guī)范預(yù)案管理。限流/調(diào)度需要建立規(guī)范化的管理流程,包括預(yù)案的編排保鮮,演練計劃實施、風(fēng)險檢查等。(五)運維技術(shù)平臺分布式信息系統(tǒng)運維場景復(fù)雜,運維工具的建設(shè)存在煙囪式的情況,運維數(shù)據(jù)難以互聯(lián)互通,應(yīng)用運維相關(guān)操作和基礎(chǔ)設(shè)施運維相關(guān)操作均分散在多個工作平臺中,使得技術(shù)平臺的標準化、操作風(fēng)險管理統(tǒng)一管控、跨專業(yè)運維場景的編排等難以得到有效保障。因此,有必要對運維技術(shù)平臺體系做整體梳理及規(guī)劃,打破專業(yè)豎井。通過借鑒銀行業(yè)務(wù)架構(gòu)建模的理念,梳理歸納出生產(chǎn)運維主要場景,“抽絲剝繭”提煉出運維活動流程并構(gòu)建運維領(lǐng)域業(yè)務(wù)架構(gòu),進而形成基于運維對象、面向運維場景的運維技術(shù)平臺建設(shè)規(guī)劃。主要是通過建設(shè)運維數(shù)據(jù)及運維服務(wù)兩個技術(shù)中臺實現(xiàn)運維數(shù)據(jù)的互聯(lián)互通及服務(wù)的共享共用,為各類運維場景48化工具提供服務(wù)調(diào)用,從而構(gòu)建全方位一體化的運維工具體系,實現(xiàn)運維效率和質(zhì)量提升。如圖11所示,運維技術(shù)平臺整體架構(gòu)如下:運維場景化工具包含監(jiān)控、應(yīng)急、變更、性能容量、持續(xù)交付、容災(zāi)等。統(tǒng)一運維工作臺封裝運維服務(wù)及數(shù)據(jù)中臺的服務(wù)接口,構(gòu)建包含應(yīng)用及基礎(chǔ)設(shè)施運維的運維服務(wù)目錄,并為上層運維場景化工具提供各類視圖及“監(jiān)、管、控、營”服務(wù)接口。運維服務(wù)平臺覆蓋各專業(yè)技術(shù)系統(tǒng),運維數(shù)據(jù)中臺包含數(shù)據(jù)和算法支撐。在實踐中,也可以合并成一個平臺提供服務(wù)和數(shù)據(jù)兩類功能。圖

11

運維技術(shù)平臺框架1.運維數(shù)據(jù)中臺(1)運維數(shù)據(jù)中臺建設(shè)目標49在滿足金融業(yè)分布式系統(tǒng)運維數(shù)字化建設(shè)背景下,按照數(shù)據(jù)組件化、服務(wù)化的思路,建設(shè)集數(shù)據(jù)、算力、算法、工具、服務(wù)于一體的運維數(shù)據(jù)中臺。如圖12所示,通過融合運維數(shù)據(jù)資產(chǎn)要素、構(gòu)建數(shù)據(jù)分層布局治理體系、打造安全高效普惠用數(shù)流水線、創(chuàng)新研發(fā)管理新機制、驅(qū)動數(shù)據(jù)服務(wù)共享新模式,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論