面向分布式轉(zhuǎn)型的異構(gòu)系統(tǒng)運(yùn)維管理平臺(tái)建設(shè)_第1頁
面向分布式轉(zhuǎn)型的異構(gòu)系統(tǒng)運(yùn)維管理平臺(tái)建設(shè)_第2頁
面向分布式轉(zhuǎn)型的異構(gòu)系統(tǒng)運(yùn)維管理平臺(tái)建設(shè)_第3頁
面向分布式轉(zhuǎn)型的異構(gòu)系統(tǒng)運(yùn)維管理平臺(tái)建設(shè)_第4頁
面向分布式轉(zhuǎn)型的異構(gòu)系統(tǒng)運(yùn)維管理平臺(tái)建設(shè)_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

近年來,面對國際形勢變化以及互聯(lián)網(wǎng)企業(yè)架構(gòu)帶來的啟發(fā),商業(yè)銀行紛紛開

啟分布式轉(zhuǎn)型,同時(shí)其信息系統(tǒng)架構(gòu)也呈現(xiàn)出集中式與分布式并存的特點(diǎn)。在

此趨勢下,TT運(yùn)維團(tuán)隊(duì)不僅要繼續(xù)承擔(dān)傳統(tǒng)集中式大型主機(jī)平臺(tái)平穩(wěn)運(yùn)行的運(yùn)

維職責(zé),又要做好未來分布式運(yùn)維的技術(shù)儲(chǔ)備,尤其在大型主機(jī)技術(shù)相對封

閉、向分布式技術(shù)棧遷移難度較大的情況下,如何順利實(shí)現(xiàn)運(yùn)維技術(shù)轉(zhuǎn)型成為

當(dāng)前面臨的重大挑戰(zhàn)。與此同時(shí),在集中式和分布式并存的復(fù)雜架構(gòu)下,只有

讓運(yùn)維能力具備與運(yùn)維對象松耦合的可遷移性和普適性,才能更好地適應(yīng)銀行

信息系統(tǒng)技術(shù)不斷更迭的現(xiàn)狀和趨勢。

針對上述變化,筆者團(tuán)隊(duì)以多年積累的運(yùn)維經(jīng)驗(yàn)為基礎(chǔ),總結(jié)提煉了分布式運(yùn)

維管理方法論,并配套搭建異構(gòu)系統(tǒng)運(yùn)維管理平臺(tái),創(chuàng)新開展了以數(shù)據(jù)統(tǒng)一采

集與標(biāo)準(zhǔn)化治理為基礎(chǔ)支撐、以標(biāo)準(zhǔn)化產(chǎn)品組件為控制接口、以即插即用的工

具平臺(tái)為共享服務(wù)、以運(yùn)維需求為應(yīng)用場景的落地實(shí)踐,逐步推動(dòng)運(yùn)維模式從

“事件驅(qū)動(dòng)”向“數(shù)據(jù)驅(qū)動(dòng)”轉(zhuǎn)變,推動(dòng)平臺(tái)建設(shè)從“需求功能實(shí)現(xiàn)”向“通

用運(yùn)維能力沉淀”轉(zhuǎn)變。

一、異構(gòu)系統(tǒng)運(yùn)維管理平臺(tái)

架構(gòu)設(shè)計(jì)

面向分布式轉(zhuǎn)型趨勢,筆者團(tuán)隊(duì)將新技術(shù)手段與管理流程優(yōu)化相融合,著力推

動(dòng)以數(shù)據(jù)驅(qū)動(dòng)的智能運(yùn)維體系建設(shè),并創(chuàng)新搭建了異構(gòu)系統(tǒng)運(yùn)維管理平臺(tái)(如圖

1所示)。該平臺(tái)基于多維度運(yùn)維數(shù)據(jù),在屏蔽底層運(yùn)維對象復(fù)雜性的基礎(chǔ)上,

重點(diǎn)實(shí)現(xiàn)了標(biāo)準(zhǔn)化數(shù)據(jù)治理與規(guī)范化接口調(diào)用,旨在迭代推動(dòng)運(yùn)維模式向可視

化、自動(dòng)化和智能化轉(zhuǎn)型。平臺(tái)設(shè)計(jì)重點(diǎn)強(qiáng)調(diào)了三項(xiàng)基本原則:一是相對獨(dú)

立,即將復(fù)雜的運(yùn)維能力建設(shè)拆分為相對獨(dú)立的服務(wù)建設(shè),通過規(guī)范接口,實(shí)

現(xiàn)平臺(tái)間、模塊間的相互調(diào)用協(xié)作;二是能力復(fù)用,即使每一個(gè)開發(fā)過的功能

模塊在之后的能力建設(shè)中能夠被最大程度被復(fù)用,進(jìn)而降低成本、縮短時(shí)間,

實(shí)現(xiàn)乘數(shù)效應(yīng);三是閉環(huán)設(shè)計(jì),即通過將人的能力和機(jī)器的能力統(tǒng)籌考慮,最

終實(shí)現(xiàn)數(shù)據(jù)、分析、決策、處置的操作閉環(huán)與事前、事中、事后的流程閉環(huán),

并借此持續(xù)推進(jìn)自動(dòng)化、智能化轉(zhuǎn)型。

功價(jià)

應(yīng)用場景共享服務(wù)

景|告譽(yù)收斂]異常檢費(fèi)]|連接關(guān)系

日志分析平臺(tái)大解展示

與ELKGrafana

服I時(shí)序舊淵]橫因定位U容■定位]

務(wù)時(shí)間序列分析平臺(tái)機(jī)學(xué)習(xí)

日志風(fēng)否診片問!歐蜉'[運(yùn)雄知識(shí)廛B

I1i1Horao算法座

控制接口數(shù)據(jù)治理

口原生工具集SA/ARM/SFI^SYSREXX主機(jī)性能容?平臺(tái)TDS

數(shù)一罐式健朦檢查自動(dòng)化工具大數(shù)據(jù)平臺(tái)BIGDATA

據(jù)

自動(dòng)化運(yùn)堆管理平臺(tái)MOMA配置管理數(shù)據(jù)痹CMDB

運(yùn)主機(jī)平臺(tái)

對系統(tǒng)DB2CICSMQ開放平臺(tái)X86平臺(tái)

象匚通像I存儲(chǔ)U批.JSWIFT-]

圖1異構(gòu)系統(tǒng)運(yùn)維管理平臺(tái)架構(gòu)設(shè)計(jì)

基于上述原則,異構(gòu)系統(tǒng)運(yùn)維管理平臺(tái)重點(diǎn)打造數(shù)據(jù)治理、控制接口、共享服

務(wù)、應(yīng)用場景等四大功能模塊,并在其中內(nèi)嵌了“數(shù)據(jù)驅(qū)動(dòng)、預(yù)防為主、應(yīng)急

為輔”的預(yù)防性維護(hù)閉環(huán)流程。其中,數(shù)據(jù)治理功能重在實(shí)現(xiàn)對異構(gòu)運(yùn)維對象

數(shù)據(jù)的統(tǒng)一采集、存儲(chǔ)、歸總,控制接口功能重在實(shí)現(xiàn)對異構(gòu)運(yùn)維對象的統(tǒng)一

控制操作,共享服務(wù)功能重在將常用的數(shù)據(jù)分析服務(wù)集成為通用工具,應(yīng)用場

景則是指根據(jù)事前、事中、事后的應(yīng)急閉環(huán)迭代流程落地具體的運(yùn)維場景,并

以統(tǒng)一門戶全景展示異構(gòu)運(yùn)維對象的實(shí)時(shí)狀態(tài)。

1.數(shù)據(jù)治理模塊

異構(gòu)系統(tǒng)運(yùn)維管理平臺(tái)的運(yùn)維對象涉及大型主機(jī)平臺(tái)、AIX平臺(tái)、X86平臺(tái)等多

個(gè)并存的異構(gòu)系統(tǒng),每天有大量源數(shù)據(jù)存儲(chǔ)需求,數(shù)據(jù)的類型、格式也千差萬

別。對此,筆者團(tuán)隊(duì)首先在數(shù)據(jù)治理模塊中搭載了數(shù)據(jù)字典,并據(jù)此標(biāo)準(zhǔn)化數(shù)

據(jù)采集工具,最后基于數(shù)據(jù)倉庫統(tǒng)一存儲(chǔ)的治理策略,搭建了主機(jī)性能容量平

臺(tái)(TDS)、大數(shù)據(jù)平臺(tái)(BIGDATA)、配置管理數(shù)據(jù)庫(CMDB)三大平臺(tái)作為數(shù)據(jù)治

理的主要抓手,建設(shè)標(biāo)準(zhǔn)化的平臺(tái)數(shù)據(jù)資源池。

以主機(jī)性能容量平臺(tái)為例,該平臺(tái)重點(diǎn)實(shí)現(xiàn)了對主機(jī)性能指標(biāo)(SMF)數(shù)據(jù)的統(tǒng)一

結(jié)構(gòu)化存儲(chǔ)與管理。實(shí)踐中,TDS首先是按照系統(tǒng)、存儲(chǔ)、數(shù)據(jù)庫、交易中間

件、消息中間件、批量等組件劃分方式,分條目建設(shè)性能指標(biāo)體系,再基于指

標(biāo)體系抽取了685個(gè)常見的性能指標(biāo)作為采集對象,每一類組件設(shè)計(jì)有單獨(dú)的

采集解析腳本,收集數(shù)據(jù)互不影響,且采集的數(shù)據(jù)會(huì)統(tǒng)一落入DB2和MySQL數(shù)

據(jù)庫。

在此基礎(chǔ)上,作為支持上層應(yīng)用的數(shù)據(jù)資源,該平臺(tái)還重點(diǎn)搭載了三個(gè)典型應(yīng)

用:第一部分是系統(tǒng)的健康檢查,幫助運(yùn)維人員快速掌握系統(tǒng)運(yùn)行狀態(tài),發(fā)現(xiàn)

潛在的性能問題;第二部分是關(guān)鍵指標(biāo)的容量預(yù)估,通過分析指標(biāo)的長期變化

趨勢,提前預(yù)估基礎(chǔ)環(huán)境中的容量問題,做好容量規(guī)劃,保障生產(chǎn)資源的彈性

擴(kuò)容;第三部分是事后問題診斷,通過對底層多維度的指標(biāo)關(guān)聯(lián)挖掘,平臺(tái)集

成有波動(dòng)分析、趨勢分析、定比分析等多個(gè)分析模型,用于根因的快速分析定

位。

2.控制接口模塊

為實(shí)現(xiàn)對異構(gòu)平臺(tái)的統(tǒng)一自動(dòng)化調(diào)用,控制接口模塊中搭載了中國銀行自主研

發(fā)的自動(dòng)化運(yùn)維管理平臺(tái)一一MOMAoM0MA通過將常見運(yùn)維操作進(jìn)行標(biāo)準(zhǔn)化打

包,可實(shí)現(xiàn)對異構(gòu)運(yùn)維對象的統(tǒng)一控制,并基于工作流編排、調(diào)度和交互控制

等功能,支持用戶在網(wǎng)頁端定義一系列相互關(guān)聯(lián)的指令作業(yè),并按照事先約定

的執(zhí)行流程進(jìn)行自動(dòng)執(zhí)行與實(shí)時(shí)追蹤,從而實(shí)現(xiàn)一套流程、集中控制、重復(fù)使

用,顯著降低了管理成本和差錯(cuò)率。

M0MA平臺(tái)通過標(biāo)準(zhǔn)化接口實(shí)現(xiàn)主機(jī)平臺(tái)和開源平臺(tái)對接,徹底改變了主機(jī)平臺(tái)

的閉源特性,使傳統(tǒng)主機(jī)平臺(tái)擁有了豐富的可視化界面。同時(shí),在變更任務(wù)的

拆分過程中,通過開發(fā)大量能滿足平臺(tái)接口調(diào)用規(guī)范的主機(jī)平臺(tái)作業(yè)流,全面

覆蓋了自動(dòng)化控制、智能判斷等功能,并共同組建了主機(jī)自動(dòng)化運(yùn)維腳本庫。

未來,伴隨著M0MA平臺(tái)的演進(jìn)和發(fā)展,主機(jī)平臺(tái)的自動(dòng)化運(yùn)維能力也將不斷提

升,而主機(jī)接口標(biāo)準(zhǔn)化建設(shè)則為異構(gòu)運(yùn)維對象的集中自動(dòng)化調(diào)度鋪平了道路。

3.共享服務(wù)模塊

基于相對獨(dú)立和能力復(fù)用等設(shè)計(jì)原則,共享服務(wù)模塊作為對接數(shù)據(jù)與應(yīng)用的通

用服務(wù)層,主要負(fù)責(zé)將運(yùn)維場景常用的展示能力、分析能力、決策能力等集成

為即插即用的服務(wù),以避免功能重復(fù)開發(fā)。目前,共享服務(wù)層重點(diǎn)建設(shè)了指標(biāo)

展示大屏、時(shí)間序列分析平臺(tái)(Horae)、主機(jī)日志分析平臺(tái)、機(jī)器學(xué)習(xí)算法庫等

作為通用服務(wù)工具。

其中,時(shí)間序列分析平臺(tái)利用統(tǒng)計(jì)分析和機(jī)器學(xué)習(xí)算法,可對具有規(guī)律性的性

能指標(biāo)數(shù)據(jù)進(jìn)行精細(xì)化分析和價(jià)值挖掘,從而為上層應(yīng)用場景提供任一性能指

標(biāo)數(shù)據(jù)的趨勢預(yù)測和異常檢測服務(wù)。同時(shí),該平臺(tái)通過將時(shí)間序列分析中常見

操作封裝為Horae平臺(tái)命令,支持用戶使用配置文件輸入命令和參數(shù)信息來調(diào)

用服務(wù)。截至目前,Horae平臺(tái)內(nèi)已集成有10余種時(shí)間序列分析算法,并支持

算法的動(dòng)態(tài)彈性擴(kuò)展,能夠很好地覆蓋運(yùn)維中常見的序列類型。

4.應(yīng)用場景模塊

應(yīng)用場景模塊通過將團(tuán)隊(duì)門戶作為統(tǒng)一入口,基于對告警、日志、生產(chǎn)問題、

性能指標(biāo)等運(yùn)維數(shù)據(jù)的挖掘分析,實(shí)現(xiàn)了包含數(shù)據(jù)、分析,決策、處置在內(nèi)的

操作閉環(huán)與覆蓋事前、事中、事后的流程閉環(huán)。例如,該模塊基于告警風(fēng)暴收

斂、日志風(fēng)險(xiǎn)診斷、容量預(yù)估等功能可實(shí)現(xiàn)事前風(fēng)險(xiǎn)感知,通過運(yùn)維知識(shí)庫、

異常檢測、自動(dòng)處置等功能大幅提高了事中處置速度,以及結(jié)合問題跟蹤、根

因分析等功能實(shí)現(xiàn)了事后閉環(huán)迭代。

二、異構(gòu)系統(tǒng)運(yùn)維管理平臺(tái)應(yīng)用示例

1.告警風(fēng)暴收斂

傳統(tǒng)運(yùn)維方式下,運(yùn)維團(tuán)隊(duì)通常會(huì)根據(jù)重要性和緊急程度從高到低將告警分為

紅、橙、黃、藍(lán)四個(gè)等級(jí)。從告警數(shù)量來看,每天以重要程度較低的藍(lán)色告警

居多,因其包含了許多不重要的提示信息,所以很容易被運(yùn)維人員忽視。鑒于

此,告警風(fēng)暴收斂的一項(xiàng)重點(diǎn)工作即在于對藍(lán)色告警進(jìn)行再分級(jí),并最終從海

量藍(lán)色告警中篩選出真正有價(jià)值的風(fēng)險(xiǎn)。藍(lán)色告警再分級(jí)如圖2所示。

圖2藍(lán)色告警再分級(jí)

為實(shí)現(xiàn)上述目標(biāo),筆者團(tuán)隊(duì)利用機(jī)器學(xué)習(xí)算法圍繞告警風(fēng)險(xiǎn)指數(shù)展開了統(tǒng)計(jì)分

析,其核心思想是抽取系統(tǒng)平穩(wěn)運(yùn)行時(shí)出現(xiàn)的藍(lán)色告警歷史數(shù)據(jù)特征,并將其

作為風(fēng)險(xiǎn)等級(jí)較低的正樣本數(shù)據(jù),同時(shí)將新出現(xiàn)的藍(lán)色告警與歷史一段時(shí)間的

正樣本數(shù)據(jù)進(jìn)行比對,當(dāng)一條藍(lán)色告警的發(fā)生次數(shù)、告警內(nèi)容等特征與歷史情

況趨同時(shí),說明該告警風(fēng)險(xiǎn)等級(jí)低,而一旦與歷史情況差別較大時(shí),則說明可

能發(fā)生了異常情況,需要重點(diǎn)關(guān)注。

基于上述思想,筆者團(tuán)隊(duì)結(jié)合TFIDF文本分析和Kmeans聚類算法,對每條藍(lán)色

告警的風(fēng)險(xiǎn)指數(shù)進(jìn)行了實(shí)時(shí)計(jì)算,并將其依次分為“99999、1000+、100+、

10+、1+”五個(gè)風(fēng)險(xiǎn)等級(jí),以輔助運(yùn)維人員合理分配注意力,對風(fēng)險(xiǎn)等級(jí)高的藍(lán)

色告警予以重點(diǎn)關(guān)注,實(shí)現(xiàn)精細(xì)化區(qū)分告警風(fēng)險(xiǎn)等級(jí)的目標(biāo)C結(jié)合實(shí)際應(yīng)用來

看,偏離歷史一般規(guī)律越多的藍(lán)色告警的風(fēng)險(xiǎn)指數(shù)越高,而這一結(jié)果和運(yùn)維經(jīng)

驗(yàn)相吻合,可有效助力運(yùn)維人員及時(shí)發(fā)現(xiàn)潛在風(fēng)險(xiǎn)。

2.運(yùn)維知識(shí)庫

運(yùn)維知識(shí)庫旨在實(shí)現(xiàn)處置方案的快速查找,從而有效提高事中的應(yīng)急速度。按

照傳統(tǒng)的文檔庫建設(shè)思路,通常很難保證文檔版本的動(dòng)態(tài)更新,且使用時(shí)也往

往需要進(jìn)行復(fù)雜的檢索操作才能定位解決方案。為彌補(bǔ)上述不足,運(yùn)維知識(shí)庫

基于“有警必有解”的建設(shè)思路,將告警信息作為知識(shí)庫統(tǒng)一入口,點(diǎn)擊任意

一條新出現(xiàn)的告警信息,均可鏈接到運(yùn)維知識(shí)庫中針對該告警的具體解釋和處

理手段,從而實(shí)現(xiàn)了對每一條告警的快速應(yīng)對。

此外,為保證運(yùn)維知識(shí)庫的完備性,異構(gòu)系統(tǒng)運(yùn)維管理平臺(tái)利用關(guān)鍵字技術(shù)對

告警的關(guān)閉操作和知識(shí)庫的錄入操作實(shí)施了強(qiáng)關(guān)聯(lián),即工程師想要關(guān)閉告警就

必須將解決方案錄入知識(shí)庫,從而實(shí)現(xiàn)了歷史經(jīng)驗(yàn)的固化積累;同時(shí),為保證每

一條處置方案都能對應(yīng)到可操作層面,還為其專門建立了后評價(jià)反饋機(jī)制,即

由一線值班工程師在實(shí)際使用后進(jìn)行評價(jià)反饋,將有問題的解決方案登記到問

題跟蹤,由二線處理并更新知識(shí)庫。

3.故障自動(dòng)處置

目前,運(yùn)維自動(dòng)化主要指監(jiān)控告警自動(dòng)化與處置操作自動(dòng)化兩個(gè)方面。傳統(tǒng)運(yùn)

維方式下,告警自動(dòng)化產(chǎn)生后,通常需人工查找自動(dòng)化腳本或工具提交執(zhí)行,

且事中處置同樣需人和機(jī)器枕,作完成。對此,異構(gòu)系統(tǒng)運(yùn)維管理平臺(tái)通過內(nèi)嵌

自動(dòng)處置模塊,力求打通監(jiān)控和執(zhí)行環(huán)節(jié),即在無人參與的前提下,根據(jù)告警

信息找到對應(yīng)的處置方法自動(dòng)執(zhí)行。

異構(gòu)系統(tǒng)運(yùn)維管理平臺(tái)基于MOMA和主機(jī)自帶的自動(dòng)化工具集,可將日常運(yùn)維的

手工操作轉(zhuǎn)化為由自動(dòng)化腳本組成的歸檔集成,并針對具有固定處理方式的告

警信息,抓取關(guān)鍵字觸發(fā)腳本進(jìn)行自動(dòng)化處置,從而為日常運(yùn)維提供了自動(dòng)化

的預(yù)防性維護(hù)能力。以高亮信息處理場景為例,高亮信息是大型主機(jī)特有的從

路由到終端的提示信息,作為監(jiān)控領(lǐng)域的一大痛點(diǎn),運(yùn)維人員每天都需要處理

大量的高亮信息,尤其在應(yīng)用批次投產(chǎn)等特殊時(shí)段,甚至一天內(nèi)會(huì)出現(xiàn)20余萬

次,運(yùn)維人員很容易在高亮風(fēng)暴中忽略關(guān)鍵信息。針對上述難點(diǎn),當(dāng)利用異構(gòu)

系統(tǒng)運(yùn)維管理平臺(tái)的自動(dòng)處置功能進(jìn)行高亮信息治理后,絕大部分高亮信息實(shí)

現(xiàn)了系統(tǒng)自動(dòng)回復(fù),使需要運(yùn)維人員關(guān)注的高亮信息減少了80%以上,有力提

升了運(yùn)維效率。

三、總結(jié)和展望

綜上所述,本文介紹了一種面向分布式轉(zhuǎn)型的運(yùn)維管理方法,并基于此方法建

設(shè)了異構(gòu)系統(tǒng)運(yùn)維管理平臺(tái),不僅為預(yù)防性維護(hù)方法論的落地實(shí)現(xiàn)提供了一種

可參考的平臺(tái)框架,而且為異構(gòu)運(yùn)維對象的統(tǒng)一管理維護(hù)奠定了能力基礎(chǔ)。與

此同時(shí),該方法通過在異構(gòu)系統(tǒng)運(yùn)維管理平臺(tái)中構(gòu)建標(biāo)準(zhǔn)化數(shù)據(jù)資源池,為實(shí)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論