版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、.1IT系統(tǒng)統(tǒng)一監(jiān)控預(yù)研報告目錄 TOC o 1-3 h z u HYPERLINK l _Toc444465121IT系統(tǒng)統(tǒng)一監(jiān)控預(yù)研報告 PAGEREF _Toc444465121 h 1HYPERLINK l _Toc4444651221引言 PAGEREF _Toc444465122 h 3HYPERLINK l _Toc4444651232平臺建立的目標(biāo) PAGEREF _Toc444465123 h 3HYPERLINK l _Toc4444651242.1建立健全企業(yè)IT運(yùn)行監(jiān)測指標(biāo)體系 PAGEREF _Toc444465124 h 3HYPERLINK l _Toc44446
2、51252.2完善公司業(yè)務(wù)監(jiān)測指標(biāo)體系,保障業(yè)務(wù)連續(xù)性 PAGEREF _Toc444465125 h 4HYPERLINK l _Toc4444651262.3管理業(yè)務(wù)系統(tǒng)容量 PAGEREF _Toc444465126 h 5HYPERLINK l _Toc4444651273平臺架構(gòu) PAGEREF _Toc444465127 h 5HYPERLINK l _Toc44446512831平臺技術(shù)架構(gòu) PAGEREF _Toc444465128 h 5HYPERLINK l _Toc444465129采集層 PAGEREF _Toc444465129 h 6HYPERLINK l _Toc
3、444465130處理層 PAGEREF _Toc444465130 h 6HYPERLINK l _Toc444465131展現(xiàn)層 PAGEREF _Toc444465131 h 6HYPERLINK l _Toc44446513232平臺功能架構(gòu) PAGEREF _Toc444465132 h 7HYPERLINK l _Toc4444651334對新核心系統(tǒng)建立的要求 PAGEREF _Toc444465133 h 8HYPERLINK l _Toc44446513441規(guī)系統(tǒng)日志輸出 PAGEREF _Toc444465134 h 8HYPERLINK l _Toc4444651354
4、3 提供效勞持續(xù)可用性監(jiān)控方法 PAGEREF _Toc444465135 h 10HYPERLINK l _Toc4444651365結(jié)論 PAGEREF _Toc444465136 h 10引言隨著信息系統(tǒng)規(guī)模持續(xù)擴(kuò)大,業(yè)務(wù)應(yīng)用的不斷增加,效勞用戶對象的日益增多,IT運(yùn)維管理人員逐漸面臨著三大難題:(1)設(shè)備和業(yè)務(wù)種類繁多,各類資料信息分散,導(dǎo)致位于一線的IT運(yùn)維監(jiān)控人員感知故障的速度晚于信息系統(tǒng)的使用用戶,且故障發(fā)生后缺乏對信息系統(tǒng)的整體把控;而后臺管理人員也往往因為信息系統(tǒng)性能數(shù)據(jù)和故障數(shù)據(jù)的匱乏而缺少對系統(tǒng)運(yùn)行安康度的了解。(2)核心機(jī)房可能分布于多個地點(diǎn),部署圍廣泛,設(shè)備繁雜,對于
5、大批最網(wǎng)絡(luò)設(shè)備、主機(jī)效勞器、應(yīng)用系統(tǒng)沒有一個統(tǒng)一的監(jiān)控平臺,不能制定統(tǒng)一的故障預(yù)警管理策略,故障預(yù)警效率低,業(yè)務(wù)恢復(fù)時間慢;(3)對關(guān)鍵核心業(yè)務(wù)系統(tǒng)的運(yùn)行安康程度缺乏評估手段和預(yù)警措施,只能被動等待問題發(fā)生,無法提前采取技術(shù)手段和管理手段躲避問題。在此背景下,總分公司一線運(yùn)維人員數(shù)量多但是經(jīng)歷缺乏,后臺運(yùn)維工程師經(jīng)歷豐富但是數(shù)量少,這些矛盾促使我司在新系統(tǒng)建立時需同步建立一套一體化的IT運(yùn)維監(jiān)控和效勞預(yù)警平臺,協(xié)助以自動化的手段完成信息系統(tǒng)的監(jiān)測和維護(hù)。平臺建立的目標(biāo)建立健全企業(yè)IT運(yùn)行監(jiān)測指標(biāo)體系首先,平臺的主要目標(biāo)是加大對公司部各遺留及專有監(jiān)控系統(tǒng)的整合力度,提高IT運(yùn)控中心對公司其他分支
6、機(jī)構(gòu)IT系統(tǒng)管理、檢測和把控能力,建立并完善IT系統(tǒng)監(jiān)控、IT運(yùn)行事件響應(yīng)、IT系統(tǒng)故障處理、IT安康度報告、IT運(yùn)行問題跟蹤和反響機(jī)制,引人自動化IT運(yùn)維管理工具,從而在公司部建立健全運(yùn)行管理控制能力,實(shí)現(xiàn)IT安康度和業(yè)務(wù)連續(xù)性治理。在此根底上,進(jìn)一步優(yōu)化監(jiān)控策略,實(shí)現(xiàn)對設(shè)備及效勞項全面、細(xì)粒度的監(jiān)測,預(yù)警和管理,主要包含以下方面:1打造多平臺環(huán)境下平安穩(wěn)定髙效的檢測代理及檢測工具;2在實(shí)現(xiàn)對各類業(yè)務(wù)系統(tǒng)、硬件和網(wǎng)絡(luò)設(shè)備、機(jī)房環(huán)境等實(shí)時檢測的根底上,完善對新核心系統(tǒng)的全流程監(jiān)控,根據(jù)性能數(shù)據(jù)進(jìn)展預(yù)警,并將性能數(shù)據(jù)和故障數(shù)據(jù)引入事件管理平臺進(jìn)展后續(xù)治理,以可視化的方式向運(yùn)維人員提供一覽式的IT
7、效勞安康狀況視圖;3構(gòu)建集成監(jiān)控平臺,對平臺的檢測插件、檢測機(jī)制、預(yù)警算法、視圖展現(xiàn)等監(jiān)控資源進(jìn)展統(tǒng)一管理,實(shí)現(xiàn)大屏集中式告警,便于后臺管理人員直觀地看到系統(tǒng)整體安康程度;通過視圖的靈活組合可以快速定位故障點(diǎn),結(jié)合知識庫縮短處理時間。因此,IT運(yùn)維自動化是一組將靜態(tài)的設(shè)備構(gòu)造轉(zhuǎn)化為根據(jù)IT效勞需求動態(tài)彈性響應(yīng)的策略,目的就是實(shí)現(xiàn)IT運(yùn)維的質(zhì)量,降低本錢。完善公司業(yè)務(wù)監(jiān)測指標(biāo)體系,保障業(yè)務(wù)連續(xù)性隨著公司信息化的開展,IT技術(shù)已經(jīng)從業(yè)務(wù)支持逐步走向與業(yè)務(wù)的融合,并成為公司穩(wěn)健運(yùn)營和開展的支柱。公司部很多業(yè)務(wù)流程都已經(jīng)在IT部門的支持下實(shí)現(xiàn)了流程的再造和優(yōu)化,提煉并制定了相應(yīng)的流程圖、流程文件及流程
8、運(yùn)作機(jī)制。但是目前我們對于公司部業(yè)務(wù)風(fēng)險的管控尚處在初步階段。各類業(yè)務(wù)流程依然面臨著來自部和外部的各種業(yè)務(wù)風(fēng)險。例如部業(yè)務(wù)風(fēng)險主要來自于員工和效勞商對信息系統(tǒng)的不當(dāng)應(yīng)用,如非授權(quán)操作或誤操作;外部業(yè)務(wù)風(fēng)險主要來自于外部的不平安事件,如黑客攻擊、機(jī)房環(huán)境變化等。對應(yīng)用系統(tǒng)進(jìn)展業(yè)務(wù)監(jiān)控,能夠及時識別業(yè)務(wù)風(fēng)險,有效進(jìn)展相應(yīng)的主動躲避操作,防止造成損失。管理業(yè)務(wù)系統(tǒng)容量通過業(yè)務(wù)監(jiān)控平臺可以密切監(jiān)控業(yè)務(wù)系統(tǒng)性能,包括系統(tǒng)的業(yè)務(wù)處理量、處理性能、各資源使用狀況等,通過對系統(tǒng)資源瓶頸的分析,可以降低或提高業(yè)務(wù)系統(tǒng)容量;平臺架構(gòu)1平臺技術(shù)架構(gòu)運(yùn)維平臺能夠?qū)Ω黝愑嬎銠C(jī)設(shè)備、網(wǎng)絡(luò)設(shè)備、平安產(chǎn)品、應(yīng)用系統(tǒng)等IT設(shè)備
9、運(yùn)行狀況和各種網(wǎng)上行為進(jìn)展集中監(jiān)控,對各類設(shè)備進(jìn)展全面集中的統(tǒng)一管理,及時發(fā)現(xiàn)各類異常情況、快速定位各類事件故障并自動形成“工單、自動分派,再由調(diào)度系統(tǒng)進(jìn)展分派,由系統(tǒng)按預(yù)定流程規(guī)則進(jìn)展自動化處理或人工處理的運(yùn)維業(yè)務(wù)信息管理系統(tǒng)。使運(yùn)維工作由被動變主動,由手動處理變成自動處理,并大大降低了運(yùn)維人員的工作強(qiáng)度,具備良好的延展性,如以下圖所示:如上圖所示,一體化運(yùn)維監(jiān)控平臺的系統(tǒng)整體框架由下及上劃分為3層數(shù)據(jù)采集息采集層、數(shù)據(jù)處理層(處理層和數(shù)據(jù)使用層(展現(xiàn)層)。此外,通過平臺的管理控制臺,在各個層面都能夠?qū)ζ脚_進(jìn)展全方位的配置管理。采集層采集層主要負(fù)責(zé)采集信息系統(tǒng)的性能數(shù)據(jù)和故障數(shù)據(jù),通過在信息
10、系統(tǒng)效勞器上部署Agent,或者通過SNMP協(xié)議采集等多種方式與外圍系統(tǒng)對接,獲取所述根底數(shù)據(jù)。采集層被動地接收平臺效勞器發(fā)出的采集指令,執(zhí)行相關(guān)的信息采集插件,將采集到的數(shù)據(jù)放人隊列和數(shù)據(jù)庫中,便于后續(xù)的分析和數(shù)據(jù)挖掘。處理層數(shù)據(jù)處理層根據(jù)不同監(jiān)控對象的自身特點(diǎn)和運(yùn)維管理需要,靈活定制相應(yīng)的性能指標(biāo)集,定義所述性能指標(biāo)集中每個指標(biāo)的監(jiān)測圍、數(shù)據(jù)來源, 計算方法、預(yù)警閾值、測量頻度參數(shù),通過實(shí)時和歷史性能圖表,進(jìn)展監(jiān)測、分析和確定系統(tǒng)性能瓶頸,假設(shè)超過預(yù)警閾值的狀況,自動建立事件,并通知運(yùn)維人員,由調(diào)度系統(tǒng)進(jìn)展指派,由運(yùn)維人員手動處理或按照流程規(guī)則由自動化運(yùn)維工具處理。展現(xiàn)層展現(xiàn)層分信息系統(tǒng)全
11、局視圖、系統(tǒng)安康度巡檢報表、檢測數(shù)據(jù)査詢?nèi)齻€局部。全局視圖可以展現(xiàn)實(shí)時監(jiān)視告警情況,利用巡檢報表,系統(tǒng)管理員可以分析系統(tǒng)性能狀況,并記錄進(jìn)事件管理平臺。上述綜合展示通過業(yè)務(wù)視圖、邏輯拓?fù)洹⒅匾O(shè)備、告警統(tǒng)計各個不同視圖,將運(yùn)維管理工作所關(guān)注的容有序、實(shí)時、全面地呈現(xiàn)出信息系統(tǒng)資源和業(yè)務(wù)系統(tǒng)的整體運(yùn)行狀況。32平臺功能架構(gòu)一體化IT運(yùn)維監(jiān)控模型基于松耦合體系架構(gòu),采取靈活模塊化組裝、云計算靈活部署構(gòu)造,實(shí)現(xiàn)“監(jiān)控、管理、管控三個方面協(xié)同處理過程,其功能架構(gòu)如下:統(tǒng)一門戶通過一次登錄,即可對所有的平臺功能進(jìn)展操作,針對不同的登錄用戶,可以提供專門的個人桌面和輔助工具。監(jiān)測臺可以定義效勞視圖,將性能
12、,流量,報表,拓?fù)涞认到y(tǒng)管理所關(guān)心的信息在不同樣式的視圖上集中表達(dá)出來。運(yùn)行效勞平臺以IT管理流程為核心,對運(yùn)維的主要工作進(jìn)展規(guī)化的管理,并實(shí)現(xiàn)設(shè)備維修、值班的管理。統(tǒng)一事件管理平臺能夠提供統(tǒng)一的企業(yè)級網(wǎng)絡(luò)事件管理。通過從各種網(wǎng)絡(luò)設(shè)備和管理平臺收集網(wǎng)絡(luò)事件信息,并進(jìn)展必要的分析和自動化處理工作。集成數(shù)據(jù)網(wǎng)管系統(tǒng),提供數(shù)據(jù)網(wǎng)管標(biāo)準(zhǔn)接口以供信息交互,完成事件的統(tǒng)一管理,使網(wǎng)絡(luò)和系統(tǒng)中的各種資源得到更加高效的利用和綜合管理。系統(tǒng)管理提供對效勞器、存儲設(shè)備、操作系統(tǒng)、數(shù)據(jù)庫、中間件、綜合管理,實(shí)現(xiàn)系統(tǒng)故障告警管理、系統(tǒng)性能管理、拓?fù)渑c配置管理。接收來自防火墻、人侵檢測、端口掃描等平安系統(tǒng)的告警,并將這
13、些告警實(shí)時呈現(xiàn)給信息網(wǎng)絡(luò)平安部門,以采取進(jìn)一步的響應(yīng)動作,保障網(wǎng)絡(luò)系統(tǒng)的正常運(yùn)行,并對網(wǎng)絡(luò)流量進(jìn)展監(jiān)聽和分析。對新核心系統(tǒng)建立的要求41規(guī)系統(tǒng)日志輸出目前核心業(yè)務(wù)系統(tǒng)的日志輸出沒有統(tǒng)一的規(guī),有些日志采用log4j進(jìn)展輸出,有些直接在系統(tǒng)中采用System.out在nohup.out文件中進(jìn)展輸出,給運(yùn)維監(jiān)控分析排查問題帶來較大的困難,建議在新系統(tǒng)的建立過程中,統(tǒng)一規(guī)日志的輸出:規(guī)日志信息級別日志信息輸出的優(yōu)先級從高到低至少應(yīng)分為五檔,分別是Fatal、ERROR、WARN、INFO、DEBUG。這些級別用來指定這條日志信息的重要程度。在測試階段可以翻開所有級別的日志,系統(tǒng)上線后只允許輸出INF
14、O以上級別含INFO。各級別的日志信息作用如下:致命Fatal嚴(yán)重的錯誤,系統(tǒng)無常運(yùn)行,如硬盤空間滿等。這個級別很少被用,常暗含系統(tǒng)或者系統(tǒng)的組件迫近崩潰。錯誤Error系統(tǒng)可以繼續(xù)運(yùn)行,但最好要盡快修復(fù)的錯誤。這個級別用的較多,常常伴隨Java異常,錯誤(Error)的環(huán)境不一定會造成系統(tǒng)的崩潰,系統(tǒng)可以繼續(xù)效勞接下來的請求。警告Warn系統(tǒng)可以正常運(yùn)行,但需要引起注意的警告信息。這個級別預(yù)示較小的問題,由系統(tǒng)外部的因素造成的,比方用戶輸入了不符合條件的參數(shù)。信息Info系統(tǒng)運(yùn)行的主要關(guān)鍵時點(diǎn)的操作信息,一般用于記錄業(yè)務(wù)日志。但同時,也應(yīng)該有足夠的信息以保證可以記錄再現(xiàn)缺陷的路徑。這個級別記
15、錄了系統(tǒng)日常運(yùn)轉(zhuǎn)中有意義的事件。調(diào)試Debug系統(tǒng)運(yùn)行中的調(diào)試信息,便于開發(fā)人員進(jìn)展錯誤分析和修正,一般用于程序日志,關(guān)心程序操作(細(xì)粒度),不太關(guān)心業(yè)務(wù)操作(粗粒度)。系統(tǒng)出現(xiàn)問題時,必須拋出異常,在處理異常時記錄日志,且日志級別必須是前三個級別FatalErrorWarning中的一種。日志中除包含錯誤信息外,還需包含如下信息:Web應(yīng)用系統(tǒng)發(fā)生異常時,日志信息中需包含,系統(tǒng)操作用戶的信息,發(fā)生異常時的業(yè)務(wù)數(shù)據(jù)、系統(tǒng)功能、程序代碼信息及完整的SQL語句; 接口類效勞發(fā)生異常時,日志信息中需包含,接口調(diào)用的URL,調(diào)用端和被調(diào)用端的實(shí)地址,交互報文,報文的檢查結(jié)果,接口響應(yīng)時常;在日志中,記
16、錄關(guān)鍵程序和數(shù)據(jù)庫交易的處理時長,并根據(jù)事先預(yù)定的閾值,在日志中以醒目的方式完整的顯示超過閾值的程序代碼的方法名或SQL語句,以便運(yùn)維監(jiān)控人員分析,排查性能隱患。42 預(yù)留應(yīng)用系統(tǒng)監(jiān)控接口,便于監(jiān)控系統(tǒng)采集相關(guān)指標(biāo)在核心的建立過程中,需預(yù)留監(jiān)控接口,應(yīng)用監(jiān)控系統(tǒng)通過調(diào)用核心系統(tǒng)的監(jiān)控接口,來采集包括但不限于以下指標(biāo):從web頁面對應(yīng)用程序功能進(jìn)展語義監(jiān)控,比方“頁面加載錯誤、“Error500、Error404;對用戶質(zhì)量的監(jiān)控,頁面加載時常;對程序主邏輯進(jìn)展監(jiān)控,判斷主邏輯是否正常;如果主邏輯正常,則對程序自身占用資源的合理性、程序的性能、和程序的分支功能進(jìn)展判斷;另外對程序占用的資源情況進(jìn)
17、展監(jiān)控:CPU資源的占用,存資源的占用,文件句柄的使用情況,網(wǎng)絡(luò)句柄的使用情況,文件狀態(tài)的進(jìn)程數(shù);效勞的監(jiān)控指標(biāo),數(shù)據(jù)加載的情況,模塊的處理能力平均耗時,隊列長度,線程池的使用率,模塊間通訊的狀態(tài)(平均連接時間,讀、寫錯誤數(shù)),模塊運(yùn)行時間;系統(tǒng)用戶的操作習(xí)慣,完成功能模塊操作的時長;43提供效勞持續(xù)可用性監(jiān)控方法效勞化是應(yīng)用系統(tǒng)開展的方向,但效勞的監(jiān)控及問題的排查,一直困擾運(yùn)維人員,尤其是多層效勞之間調(diào)用問題的排查是相當(dāng)困難的例如:效勞調(diào)用 A-B-C-D,最終結(jié)果依次返回 D-C-B-A,中間任何環(huán)節(jié)出現(xiàn)問題,結(jié)果都返回不到A。建議在新系統(tǒng)的建立過程中考慮提供效勞的自測工具和監(jiān)控方法,效勞的自測工具以便讓運(yùn)維人
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年山東建筑安全員C證考試題庫
- 2025年云南省安全員-B證(項目經(jīng)理)考試題庫
- 【課件】搜索引擎營銷的部分問題探討
- DB14T-紅地球葡萄主要病蟲害綜合防控技術(shù)規(guī)程編制說明
- 單位人力資源管理制度集合大全十篇
- 單位管理制度展示大全人員管理十篇
- 2024年土地登記代理人題庫附參考答案(鞏固)
- 2025年社會服務(wù)行業(yè)尋找彈性與韌性中的結(jié)構(gòu)機(jī)會
- 單位管理制度展示大合集人員管理十篇
- 比高矮比長短課件
- 箱變遷移工程施工方案
- 北師大版九年級數(shù)學(xué)下冊《圓的對稱性》評課稿
- 《遙感原理與應(yīng)用》期末考試試卷附答案
- 物流無人機(jī)垂直起降場選址與建設(shè)規(guī)范(征求意見稿)
- 工程分包管理制度
- 2023年湖南成人學(xué)位英語考試真題
- GB/T 9452-2023熱處理爐有效加熱區(qū)測定方法
- 肺炎支原體肺炎診治專家共識
- 藥物化學(xué)(第七版)(全套課件1364P)
- 能源中國(上海電力大學(xué))超星爾雅學(xué)習(xí)通網(wǎng)課章節(jié)測試答案
- 采購計劃流程圖
評論
0/150
提交評論