金融行業(yè)IT運(yùn)維監(jiān)控體系建設(shè)實(shí)踐_第1頁(yè)
金融行業(yè)IT運(yùn)維監(jiān)控體系建設(shè)實(shí)踐_第2頁(yè)
金融行業(yè)IT運(yùn)維監(jiān)控體系建設(shè)實(shí)踐_第3頁(yè)
金融行業(yè)IT運(yùn)維監(jiān)控體系建設(shè)實(shí)踐_第4頁(yè)
金融行業(yè)IT運(yùn)維監(jiān)控體系建設(shè)實(shí)踐_第5頁(yè)
免費(fèi)預(yù)覽已結(jié)束,剩余28頁(yè)可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、 金融行業(yè)IT運(yùn)維監(jiān)控體系的建設(shè)實(shí)踐目 錄 TOC o 1-3 h z u HYPERLINK l _Toc33352485 一、監(jiān)控體系分層 PAGEREF _Toc33352485 h 6 HYPERLINK l _Toc33352486 1、概述 PAGEREF _Toc33352486 h 6 HYPERLINK l _Toc33352487 2、分層方式 PAGEREF _Toc33352487 h 7 HYPERLINK l _Toc33352488 3、各層職責(zé) PAGEREF _Toc33352488 h 9 HYPERLINK l _Toc33352489 二、監(jiān)控整合 PA

2、GEREF _Toc33352489 h 11 HYPERLINK l _Toc33352490 1、事件匯總 PAGEREF _Toc33352490 h 12 HYPERLINK l _Toc33352491 2、統(tǒng)一可視 PAGEREF _Toc33352491 h 13 HYPERLINK l _Toc33352492 3、整合標(biāo)準(zhǔn) PAGEREF _Toc33352492 h 14 HYPERLINK l _Toc33352493 三、監(jiān)控指標(biāo) PAGEREF _Toc33352493 h 15 HYPERLINK l _Toc33352494 1、指標(biāo)分類 PAGEREF _Toc

3、33352494 h 15 HYPERLINK l _Toc33352495 2、指標(biāo)分級(jí) PAGEREF _Toc33352495 h 17 HYPERLINK l _Toc33352496 3、指標(biāo)基線 PAGEREF _Toc33352496 h 18 HYPERLINK l _Toc33352497 四、監(jiān)控事件 PAGEREF _Toc33352497 h 18 HYPERLINK l _Toc33352498 1、監(jiān)控事件 PAGEREF _Toc33352498 h 19 HYPERLINK l _Toc33352499 2、事件標(biāo)準(zhǔn) PAGEREF _Toc33352499 h

4、 19 HYPERLINK l _Toc33352500 3、事件關(guān)聯(lián) PAGEREF _Toc33352500 h 22 HYPERLINK l _Toc33352501 4、事件應(yīng)急 PAGEREF _Toc33352501 h 25 HYPERLINK l _Toc33352502 五、持續(xù)優(yōu)化 PAGEREF _Toc33352502 h 28 HYPERLINK l _Toc33352503 1、思路 PAGEREF _Toc33352503 h 29 HYPERLINK l _Toc33352504 2、措施 PAGEREF _Toc33352504 h 29 HYPERLINK

5、l _Toc33352505 3、團(tuán)隊(duì)建設(shè) PAGEREF _Toc33352505 h 32IT運(yùn)維體系的架構(gòu)中,IT運(yùn)維監(jiān)控是IT運(yùn)維體系中重要的組成部分,作為運(yùn)維的生命線,安全生產(chǎn)保障的生命線仍需強(qiáng)調(diào)。運(yùn)維的安全生產(chǎn)保障,主要以“監(jiān)、管、控”為核心,其中“監(jiān)”則主要指的是監(jiān)控。在金融行業(yè)工作過程中積累的監(jiān)控體系建設(shè)知識(shí)進(jìn)行總結(jié),梳理成體系,思維導(dǎo)圖如下:一、監(jiān)控體系分層1、概述多年運(yùn)維經(jīng)驗(yàn)的積累,往往己沉淀下來(lái)不少監(jiān)控工具,同時(shí)也有不同專業(yè)線條的工具,在基礎(chǔ)架構(gòu)、系統(tǒng)網(wǎng)絡(luò)、數(shù)據(jù)庫(kù)、中間件、應(yīng)用層面等采用不同的監(jiān)控工具。對(duì)于這些工具,通常采用以下方式處理:1)建立集中監(jiān)控平臺(tái):在一體化運(yùn)維

6、體系中,監(jiān)控平臺(tái)貫穿所有環(huán)節(jié),可以對(duì)生產(chǎn)系統(tǒng)涉及的各種環(huán)境的實(shí)時(shí)運(yùn)行狀況監(jiān)控,監(jiān)控平臺(tái)事件驅(qū)動(dòng)的特性也為一體化運(yùn)維體系起到驅(qū)動(dòng)的作用。為了提高投入效率,減少重復(fù)投入,建立集中監(jiān)控平臺(tái)實(shí)現(xiàn)統(tǒng)一展示、統(tǒng)一管理是迫切需要的,集中監(jiān)控也能夠同時(shí)實(shí)現(xiàn)兩地三中心建設(shè),具備靈活的擴(kuò)展性,支持運(yùn)維數(shù)據(jù)分析等功能;2)完善監(jiān)控工具功能:當(dāng)前并沒有哪一個(gè)監(jiān)控工具可以覆蓋所有生產(chǎn)系統(tǒng)的運(yùn)行指標(biāo),不同的專業(yè)線條需要不同的監(jiān)控工具,因此需要不斷完善沉淀監(jiān)控工具。另外監(jiān)控平臺(tái)從WEB、APP、到DB均采用了多中心雙活分布式架構(gòu)部署,但為了保證監(jiān)控覆蓋能力,部份重要的環(huán)節(jié)仍建議不僅限一套監(jiān)控工具。3)各專業(yè)條線對(duì)各條線的監(jiān)

7、控負(fù)責(zé):術(shù)業(yè)有專攻,各專業(yè)條線是最清楚自己需要監(jiān)控哪些指標(biāo)的團(tuán)隊(duì),各專業(yè)條線對(duì)監(jiān)控覆蓋率、監(jiān)控準(zhǔn)確率負(fù)責(zé),監(jiān)控平臺(tái)的建設(shè)方負(fù)責(zé)平臺(tái)體系的建設(shè),提供基礎(chǔ)技術(shù)支撐。4)資源整合:不同的專業(yè)條線、不同的分析技術(shù)可以有不同的監(jiān)控工具,采用這種多點(diǎn)開花的建設(shè)方式更有助于監(jiān)控面與深度的完善,所有的工具最終需要進(jìn)行標(biāo)準(zhǔn)化的整合?;谏厦?個(gè)處理思路,明確主要的建設(shè)目標(biāo)、減少重復(fù)建設(shè),需要對(duì)監(jiān)控工具進(jìn)行體系化管理,體系化管理首先要做的就是進(jìn)行監(jiān)控體系分層。2、分層方式不同的監(jiān)控體系有不同的分層體系,以專業(yè)條線方式分層方式如下:1)基礎(chǔ)架構(gòu)層:包括運(yùn)營(yíng)商網(wǎng)絡(luò)專線、機(jī)房(機(jī)房?jī)?nèi)的設(shè)施,比如制冷、安防等),基礎(chǔ)設(shè)施

8、層的監(jiān)控分為狀態(tài)、性能、質(zhì)量、容量、架構(gòu)等幾個(gè)層面。2)系統(tǒng)網(wǎng)絡(luò)層:包括系統(tǒng)服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)設(shè)備等服務(wù)器的可用性狀態(tài)。3)數(shù)據(jù)庫(kù)層:主要是指數(shù)據(jù)庫(kù)的使用情況。4)中間件層:主要針對(duì)中間件的使用情況。5)應(yīng)用服務(wù):主要是針對(duì)應(yīng)用服務(wù)可用性、應(yīng)用營(yíng)業(yè)狀態(tài)、應(yīng)用性能幾方面。3、各層職責(zé)1)基礎(chǔ)架構(gòu)層狀態(tài)監(jiān)控包括機(jī)房供電、空調(diào)等軟硬件狀態(tài),如設(shè)備狀態(tài)等;性能監(jiān)控包括設(shè)備的性能情況等;容量監(jiān)控包括設(shè)備負(fù)載使用率、專線帶寬使用率、出口流量分布等;由于基礎(chǔ)設(shè)施硬件往往己有設(shè)備健康性的檢測(cè)機(jī)制,建議向這類廠商提要求,將設(shè)備的運(yùn)行事件主動(dòng)送到監(jiān)控平臺(tái)整合。2)系統(tǒng)網(wǎng)絡(luò)層存儲(chǔ):包括存儲(chǔ)設(shè)備,以及設(shè)備上的硬盤讀寫

9、錯(cuò)誤、讀寫超時(shí)、硬盤掉線、硬盤介質(zhì)錯(cuò)誤網(wǎng)絡(luò)監(jiān)控包括設(shè)備錯(cuò)包、丟包率,針對(duì)網(wǎng)絡(luò)設(shè)備以及網(wǎng)絡(luò)鏈路的探測(cè)延時(shí)、丟包率監(jiān)控等;服務(wù)器上的內(nèi)存(內(nèi)存缺失、內(nèi)存配置錯(cuò)誤、內(nèi)存不可用、內(nèi)存校驗(yàn))、網(wǎng)卡(網(wǎng)卡速率;電源:電源電壓、電源模塊是否失效)、風(fēng)扇、Raid卡虛擬機(jī)容器:Docker等存儲(chǔ)、物理設(shè)備、虛擬機(jī)等參考基礎(chǔ)設(shè)施層由廠商主動(dòng)匯總事件到監(jiān)控平臺(tái)。3)數(shù)據(jù)庫(kù)中間件層主要包括中間件、數(shù)據(jù)庫(kù),以及其它開源分布式中間件等工具,這方面包括很多,以數(shù)據(jù)庫(kù)為例,包括:CPU(CPU整體使用率、CPU各核使用率、CPU 負(fù)載)、內(nèi)存(應(yīng)用內(nèi)存、整體內(nèi)存、Swap等)、磁盤IO(讀寫速率、IOPS、平均等待延時(shí)、平

10、均服務(wù)延時(shí)等)、連接等。這一層的工具能夠采用成熟工具或自研的方式,可選的空間比較大,建設(shè)過程中,中間件與數(shù)據(jù)庫(kù)兩塊是值得讓DBA、中間件管理員深度挖掘監(jiān)控指標(biāo)覆蓋面。4)應(yīng)用服務(wù)層服務(wù)可用性監(jiān)控:如服務(wù)、端口是否存在,是否假死等應(yīng)用性能:應(yīng)用處理能力,比如交易量、成功率、失敗率、響應(yīng)率、耗時(shí)二、監(jiān)控整合監(jiān)控的分層方式促進(jìn)了每一個(gè)專業(yè)層的監(jiān)控覆蓋面與深度,防止建設(shè)失控。在監(jiān)控整合上,主要從事件匯總、統(tǒng)一可視、監(jiān)控?cái)?shù)據(jù)匯總?cè)矫孢M(jìn)行梳理。1、事件匯總監(jiān)控應(yīng)該盡可能簡(jiǎn)單地把需要人介入或關(guān)注的信息展示給運(yùn)維團(tuán)隊(duì),能通過自動(dòng)化自愈解決、分析定位過程則不在一級(jí)視圖提供。第一部分監(jiān)控分層中提到,完善監(jiān)控工具

11、,這些工具在運(yùn)營(yíng)過程中每天都會(huì)產(chǎn)生大量事件,為了實(shí)現(xiàn)監(jiān)控集中展示,集中管理,需要建設(shè)一個(gè)事件匯總的模塊實(shí)現(xiàn)事件統(tǒng)一匯總,并對(duì)不同層面、不同專業(yè)角度的事件進(jìn)行關(guān)聯(lián)分析,更全面的感知系統(tǒng)運(yùn)行狀況。從可視化角度看,不同的工具有不同的監(jiān)控事件展示界面,多個(gè)運(yùn)維視圖增加了運(yùn)維技能要求,需要更多的人力去管理生產(chǎn);缺少對(duì)各類事件進(jìn)行匯總與數(shù)據(jù)分析,無(wú)法反映生產(chǎn)系統(tǒng)整體的運(yùn)行狀況,如能將這些事件數(shù)據(jù)匯總起來(lái),則可以直觀地管控應(yīng)用狀況;同一個(gè)生產(chǎn)問題往往會(huì)帶來(lái)多個(gè)維度的生產(chǎn)運(yùn)行問題,如果監(jiān)控指標(biāo)足夠豐富往往會(huì)有上百條以上,不能準(zhǔn)確、快速定位問題根源。每天能觸發(fā)閥值的告警很多,以經(jīng)驗(yàn)的方式很難讓一線監(jiān)控團(tuán)隊(duì)無(wú)時(shí)無(wú)

12、刻能準(zhǔn)確的定位哪些是高優(yōu)先級(jí)的告警,比如磁盤空間到了70%的確需要有人去關(guān)注,評(píng)估是否進(jìn)行數(shù)據(jù)清理、擴(kuò)容,但這類告警屬于低優(yōu)先級(jí)的事件。事件匯總模塊需要有幾個(gè)基本要求:事件匯總:匯總不同層次、不同專業(yè)條線、不同類型事件是監(jiān)控集中管理的基礎(chǔ)。事件收斂:前面提到同一個(gè)故障會(huì)觸發(fā)多類指標(biāo)的告警,同一個(gè)指標(biāo)在故障未解除前也會(huì)重復(fù)產(chǎn)生大量的告警事件,如果將全部事件都展示出來(lái),那對(duì)于監(jiān)控處理人員將是災(zāi)難性的,所以需要進(jìn)行事件收斂。事件分級(jí):對(duì)于不同的事件需要有適當(dāng)層次的事件分級(jí),事件升級(jí)的策略。事件分級(jí)是將事件當(dāng)前緊急程度進(jìn)行標(biāo)識(shí)顯示,事件升級(jí)是對(duì)于低級(jí)的事件當(dāng)達(dá)到一定的程度,比如處理時(shí)間過長(zhǎng),則需要進(jìn)行

13、升級(jí)。事件分析:事件分析是建立事件的關(guān)聯(lián)關(guān)系。2、統(tǒng)一可視不同監(jiān)控工具有著不同界面,不同的操作方法,對(duì)工具的掌握程度依賴于運(yùn)維人員的經(jīng)驗(yàn),監(jiān)控管理很難形成標(biāo)準(zhǔn)化,不利于監(jiān)控的集中管理、釋放人力成本。所以,監(jiān)控事件匯總后,需要有一個(gè)統(tǒng)一的可視化,支持統(tǒng)一展示、多類型展示形式、多維用戶視角、支持按需訂閱的特點(diǎn)。具體包括:支持事件的統(tǒng)一展示:支持不同角色用戶管理不同的事件,包括事件的受理、分派、督辦、升級(jí)、解除、轉(zhuǎn)工單等閉環(huán)操作,無(wú)需在不同工具上多次操作。多維監(jiān)控:根據(jù)不同機(jī)構(gòu)、不同用戶的關(guān)注點(diǎn),比如一線運(yùn)維主要關(guān)注實(shí)時(shí)告警,二線運(yùn)維主要關(guān)注事件豐富與故障樹等輔助定位,值班人員主要關(guān)注當(dāng)天監(jiān)控事件處

14、理情況,團(tuán)隊(duì)管理者主要關(guān)注團(tuán)隊(duì)內(nèi)監(jiān)控事件與重要業(yè)務(wù)系統(tǒng)運(yùn)行狀況,主管經(jīng)理主要關(guān)注整合的運(yùn)行情況與人員處理情況,開發(fā)人員需要有協(xié)助處理的視角數(shù)據(jù)等。支持訂閱展示:針對(duì)不同的業(yè)務(wù)運(yùn)營(yíng)場(chǎng)景、不同的用戶進(jìn)行布局、推送數(shù)據(jù)、監(jiān)控指標(biāo)的訂閱式展示。3、整合標(biāo)準(zhǔn)關(guān)于數(shù)據(jù)整合,需要不同的監(jiān)控線條自行判斷整理不同監(jiān)控工具事件數(shù)據(jù)的整合,主要從告警、日志、報(bào)送幾個(gè)角度分析出發(fā)。三、監(jiān)控指標(biāo)監(jiān)控有賴于運(yùn)維各專業(yè)條線協(xié)同完善,通過將監(jiān)控體系進(jìn)行分層、分類,各專業(yè)條線再去有重點(diǎn)的豐富監(jiān)控指標(biāo)。1、指標(biāo)分類1)基礎(chǔ)架構(gòu)層環(huán)境動(dòng)力:暖通系統(tǒng)(如空調(diào)、機(jī)房環(huán)境、漏水等)、電力系統(tǒng)(如配電柜等)、安防系統(tǒng)(如消防、門禁等)等安

15、全設(shè)備:防火墻、入侵檢測(cè)、防病毒等2)系統(tǒng)網(wǎng)絡(luò)層虛擬化:虛擬網(wǎng)絡(luò)資源、虛擬主機(jī)、虛擬存儲(chǔ)資源等存儲(chǔ)設(shè)備:磁盤陣列、虛擬帶庫(kù)、物理磁帶庫(kù)、SAN、NAS等服務(wù)器:大中小型機(jī)、X86服務(wù)器網(wǎng)絡(luò)設(shè)備:路由器、網(wǎng)絡(luò)交換機(jī)、多層交換機(jī)、負(fù)載均衡設(shè)備3)數(shù)據(jù)庫(kù)層數(shù)據(jù)庫(kù):ORACLE、MYSQL、SQL SERVER等其它系統(tǒng)軟件:備份軟件4)中間件層中間件:WEBSPHERE、WEBLOGIC、TOMCAT、REDIS等5)應(yīng)用服務(wù)層服務(wù)可用性:服務(wù)狀態(tài)、日志刷新、端口監(jiān)聽、網(wǎng)絡(luò)連通性等2、指標(biāo)分級(jí)需要重點(diǎn)強(qiáng)調(diào)一下監(jiān)控指標(biāo)的分級(jí)與上升機(jī)制問題,監(jiān)控最重要目標(biāo)是不漏報(bào),為了不漏報(bào)在實(shí)際實(shí)施過程中會(huì)出現(xiàn)監(jiān)控告

16、警過多的困難。如何讓運(yùn)維人員在不漏處理監(jiān)控事件,又能快速解決風(fēng)險(xiǎn)最高的事件?則監(jiān)控指標(biāo)需要有明確的分級(jí)與上升機(jī)制:1)分級(jí)與上升機(jī)制有監(jiān)控指標(biāo),就需要針對(duì)監(jiān)控指標(biāo)定義閥值,監(jiān)控閥值的設(shè)立需要有分級(jí)機(jī)制 對(duì)于升級(jí),是指一個(gè)預(yù)警當(dāng)長(zhǎng)時(shí)間未處理時(shí),需要有一個(gè)上升機(jī)制,轉(zhuǎn)化為告警,以督辦運(yùn)維人員完成監(jiān)控事件的處理。分級(jí)與上升需通過流程管理加以落實(shí)。3、指標(biāo)基線1)基礎(chǔ)基線需要對(duì)系統(tǒng)運(yùn)行的情況設(shè)定一個(gè)基礎(chǔ)基線,基線越準(zhǔn)確,誤報(bào)率越低。有些情況判斷一個(gè)監(jiān)控指標(biāo)是否是事件,需要將多個(gè)指標(biāo)放在一起看才能判斷。比如WINDOWS集群下的SQL SERVER進(jìn)程內(nèi)存長(zhǎng)期都占95%以上,如果將內(nèi)存作為基線畫線,就會(huì)

17、是一條高負(fù)載的線,所以可以考慮將CPU、內(nèi)存兩個(gè)指標(biāo)合并作為一個(gè)基線指標(biāo)。2)基線的人工調(diào)整系統(tǒng)運(yùn)行過程中難免會(huì)因?yàn)闃I(yè)務(wù)運(yùn)營(yíng)推廣等導(dǎo)致歷史基線不能反映指標(biāo)是否合理,這時(shí)候需要有一個(gè)人工調(diào)整基線的入口,運(yùn)維人員可以重新繪制基線。四、監(jiān)控事件1、監(jiān)控事件監(jiān)控事件反映的是IT基礎(chǔ)架構(gòu)、中間件、數(shù)據(jù)庫(kù)、應(yīng)用程序等運(yùn)行過程中發(fā)生的問題。監(jiān)控系統(tǒng)通過采集運(yùn)行數(shù)據(jù),通過數(shù)據(jù)判斷規(guī)則生成事件,監(jiān)控事件還涉及事件的處理、事件的關(guān)聯(lián)分析,并驅(qū)動(dòng)事件的解決。事件關(guān)聯(lián)、事件應(yīng)急、事件分析、智能處理方面的建設(shè)思路有哪些?2、事件標(biāo)準(zhǔn)1)數(shù)據(jù)模型事件數(shù)據(jù)主要包含數(shù)據(jù)信息、靜態(tài)信息、現(xiàn)場(chǎng)信息、知識(shí)庫(kù)信息、關(guān)聯(lián)信息。靜態(tài)信息

18、包含描述信息,描述信息主要包含相關(guān)人員描述信息、服務(wù)器描述信息、工單信息等,這塊豐富數(shù)據(jù)可以通過CIMS獲取,這部份豐富數(shù)據(jù)有助于事件處理過程中關(guān)聯(lián)分析。事件現(xiàn)場(chǎng)信息包含指標(biāo)信息、性能信息、系統(tǒng)資源信息等,這部份信息主要是反映事件的現(xiàn)場(chǎng)數(shù)據(jù)。知識(shí)庫(kù)信息主要指相似歷史事件及其處理方式等信息。關(guān)聯(lián)信息主要包含從屬事件信息、關(guān)聯(lián)影響信息。2)分級(jí)標(biāo)準(zhǔn)分級(jí)是將事件當(dāng)前緊急程度進(jìn)行標(biāo)識(shí)顯示,事件升級(jí)是對(duì)于低級(jí)的事件當(dāng)達(dá)到一定的程度,比如處理時(shí)間過長(zhǎng),則需要進(jìn)行升級(jí)。我們將監(jiān)控事件等級(jí)事件級(jí)別分為通知、預(yù)警、故障三種:通知:指一般的通知信息類事件。預(yù)警:指已經(jīng)出現(xiàn)異常,即將要引起生產(chǎn)故障的事件。故障:指已

19、經(jīng)發(fā)生問題,并且已經(jīng)影響到生產(chǎn)流程的事件,如果需要進(jìn)一步細(xì)化故障級(jí)別,可以分為一般故障和緊急故障:一般故障不需要緊急處理的故障,緊急故障需要管理員緊急處理的故障。事件細(xì)分的粒度需根據(jù)各運(yùn)維團(tuán)隊(duì)的管理要求而定。3、事件關(guān)聯(lián)1)事件豐富事件豐富包括事件描述豐富、事件現(xiàn)場(chǎng)豐富(指標(biāo)信息豐富、系統(tǒng)資源信息豐富)、知識(shí)庫(kù)豐富,提高運(yùn)維人員分析問題的能力。事件主要豐富方法如下:與第三方監(jiān)控系統(tǒng)對(duì)接,獲取事件相關(guān)信息。如與CIMS系統(tǒng)對(duì)接,獲取服務(wù)器等相關(guān)配置信息進(jìn)行CIMS數(shù)據(jù)豐富;指標(biāo)信息豐富:獲取事件發(fā)生前后一段時(shí)間內(nèi)的相關(guān)指標(biāo)信息數(shù)據(jù)(如CPU/內(nèi)存等),進(jìn)行指標(biāo)信息豐富;相關(guān)事件豐富:根據(jù)拓?fù)潢P(guān)系

20、模型、應(yīng)用關(guān)系關(guān)聯(lián)模型將相近事件時(shí)間范圍內(nèi)的事件進(jìn)行豐富展示;知識(shí)庫(kù)豐富:建立事件處理方案知識(shí)庫(kù),記錄事件處理的方法和流程,為事件處理人提供參考依據(jù),以及為后續(xù)自動(dòng)化運(yùn)維提供理論支撐。2)事件擴(kuò)散事件發(fā)生之后,監(jiān)控系統(tǒng)需要能自動(dòng)分析事件的關(guān)聯(lián)信息,幫助運(yùn)維人員盡可能的還原事件現(xiàn)場(chǎng),提高分析問題的能力。3)事件觸發(fā)系統(tǒng)在設(shè)置報(bào)警策略時(shí),可針對(duì)指標(biāo)進(jìn)行觸發(fā)條件設(shè)置,觸發(fā)條件按照類型分為閾值觸發(fā)、基線觸發(fā)、智能預(yù)測(cè)。系統(tǒng)根據(jù)不同的觸發(fā)類型設(shè)置,采用的判斷方式也不一樣。具體如下:閾值觸發(fā)系統(tǒng)支持指標(biāo)的閾值觸發(fā)設(shè)置,當(dāng)指標(biāo)值達(dá)到設(shè)置的閾值時(shí)即可進(jìn)行報(bào)警。閾值的設(shè)置范圍只能在該指標(biāo)的數(shù)值范圍內(nèi)進(jìn)行設(shè)置。閾

21、值在設(shè)置時(shí)需要指定數(shù)值單位,防止數(shù)值因單位不同出現(xiàn)判斷錯(cuò)誤。在設(shè)置閾值時(shí)系統(tǒng)支持實(shí)時(shí)查看指標(biāo)當(dāng)日折現(xiàn)圖和歷史基線,幫助運(yùn)維人員正確判斷閾值的設(shè)置范圍。基線觸發(fā)系統(tǒng)支持指標(biāo)的基線觸發(fā)設(shè)置,當(dāng)指標(biāo)值達(dá)到設(shè)置的基線時(shí)即可進(jìn)行報(bào)警?;€設(shè)置可按照歷史基線進(jìn)行設(shè)置。系統(tǒng)支持在選定的基線基礎(chǔ)上進(jìn)行上浮或下沉幅度的設(shè)置。在設(shè)置基線時(shí)系統(tǒng)支持實(shí)時(shí)查看指標(biāo)當(dāng)日折現(xiàn)圖和歷史基線,幫助運(yùn)維人員正確判斷基線的設(shè)置范圍。系統(tǒng)支持按照平均基線進(jìn)行設(shè)置?;€設(shè)置時(shí)需要有一定的歷史數(shù)據(jù)作為依據(jù)。智能預(yù)測(cè)智能預(yù)測(cè)主要是通過歷史數(shù)據(jù)的分析,通過智能算法預(yù)測(cè)未來(lái)可能出現(xiàn)的問題。4、事件應(yīng)急1)應(yīng)急恢復(fù)運(yùn)維最基本的指標(biāo)就是系統(tǒng)可用性

22、,應(yīng)急恢復(fù)的時(shí)效性是系統(tǒng)可用性的關(guān)鍵指標(biāo)。通常來(lái)講應(yīng)急恢復(fù)的方法有不少,比如:服務(wù)整體性能下降或異常,可以考慮重啟服務(wù);應(yīng)用做過變更,可以考慮是否需要回切變更;資源不足,可以考慮應(yīng)急擴(kuò)容;應(yīng)用性能問題,可以考慮調(diào)整應(yīng)用參數(shù)、日志參數(shù);數(shù)據(jù)庫(kù)繁忙,可以考慮通過數(shù)據(jù)庫(kù)快照分析,優(yōu)化SQL;應(yīng)用功能設(shè)計(jì)有誤,可以考慮緊急關(guān)閉功能菜單;等等2)模擬事故現(xiàn)場(chǎng)故障處理中,理論上應(yīng)該在應(yīng)急前進(jìn)行現(xiàn)場(chǎng)保護(hù)以備問題原因排查的跟進(jìn)?,F(xiàn)場(chǎng)信息主要包含進(jìn)程內(nèi)部狀態(tài)信息、日志信息。實(shí)際應(yīng)用過程中可以結(jié)合工具進(jìn)行現(xiàn)場(chǎng)模擬。3)問題排查是否為偶發(fā)性、是否可重現(xiàn)故障現(xiàn)象是否可以重現(xiàn),對(duì)于快速解決問題很重要,而且能重現(xiàn)的故障往

23、往可能是服務(wù)異常、變更等工作導(dǎo)致的問題。如果故障是偶發(fā)性的,是有極小概率出現(xiàn)的,則比較難排查,這依賴于系統(tǒng)是否有足夠的故障期間的現(xiàn)場(chǎng)信息來(lái)決定是否可以定位到總是原因。是否進(jìn)行過相關(guān)變更大部份故障是由于變更導(dǎo)致,確定故障現(xiàn)象后,如果有應(yīng)的變更,有助于從變更角度出現(xiàn)分析是否是變更引起,進(jìn)而快速定位故障并準(zhǔn)備好回切等應(yīng)急方案。關(guān)聯(lián)方配合分析問題避免各關(guān)聯(lián)團(tuán)隊(duì)同時(shí)無(wú)頭緒的排查的同時(shí),對(duì)于牽頭方在縮小范圍后需要開放的態(tài)度去請(qǐng)求關(guān)聯(lián)方配合定位,而對(duì)于關(guān)聯(lián)方則需要有積極配合的工作態(tài)度。是否有足夠的日志定位故障原因,最常用也最有效的方法就是分析日志,對(duì)運(yùn)維人員不僅需要知道業(yè)務(wù)功能對(duì)應(yīng)哪個(gè)服務(wù)進(jìn)程,還要知道這個(gè)

24、服務(wù)進(jìn)程對(duì)應(yīng)的哪些應(yīng)用日志,并具備一些簡(jiǎn)單的應(yīng)用日志異常錯(cuò)誤的判斷能力。4)文檔管理故障的表現(xiàn)雖然形式多種多樣,但實(shí)際的故障處理過程中,應(yīng)急措施往往重復(fù)使用幾個(gè)常用的步驟,所以應(yīng)急文檔首先要針對(duì)這些常用的場(chǎng)景。另外,有了應(yīng)急方案,還要保證運(yùn)維人員持續(xù)去更新,這就需要先讓運(yùn)維人員經(jīng)常使用這個(gè)手冊(cè)。如果一個(gè)手冊(cè)沒有場(chǎng)景可以用,那就需要管理者為運(yùn)維人員創(chuàng)造機(jī)會(huì)去使用這個(gè)手冊(cè),比如應(yīng)急演練。五、持續(xù)優(yōu)化1、思路監(jiān)控系統(tǒng)建設(shè)目標(biāo)是完善監(jiān)控能力,持續(xù)優(yōu)化是必不可少的環(huán)節(jié)。2、措施1)目標(biāo)分解不漏報(bào)漏報(bào)可以從兩個(gè)層面看,一個(gè)是監(jiān)控工具不具備某一方面的監(jiān)控能力;一個(gè)是監(jiān)控工具具備監(jiān)控能力,但因?yàn)槭褂谜呤褂脝栴}導(dǎo)致未覆蓋監(jiān)控。前者需要完善監(jiān)控能力,比如針對(duì)生產(chǎn)故障舉一反三式的優(yōu)化,或由不同專業(yè)條線主動(dòng)增加監(jiān)控能力,后者則需要考慮幾個(gè)問題:管理上有沒有要求指標(biāo)的100%覆蓋率覆蓋率的要求是否確實(shí)可以落地,或功能上是否設(shè)計(jì)極不友好前面兩個(gè)問題需要從

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論