版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
中國建設(shè)銀行ITIT運維體系建設(shè)總體規(guī)劃方案北京神州泰岳軟件股份有限公司1IT運維規(guī)劃總體設(shè)計思路 3 31.1.1在一體化全方位管理基礎(chǔ)上充分考慮7層12P的新一代目標(biāo)架構(gòu) 31.1.2從“以IT為中心”上升到“以業(yè)務(wù)為中心” 51.1.3為大規(guī)模虛擬化集群及SOA組件服務(wù)提供必要管理手段 62IT運維管理體系總體設(shè)計 73建設(shè)功能描述 3.1監(jiān)控管理體系 3.1.2應(yīng)用監(jiān)控 3.1.3跨系統(tǒng)交易監(jiān)控 3.2綜合分析體系 403.2.1總體分析平臺設(shè)計 403.2.2統(tǒng)計分析分類 3.3自動化管理體系 543.4配置管理數(shù)據(jù)庫(CMDB) 573.5服務(wù)管理體系 583.5.1ITIL核心流程 錯誤!未定義書簽。3.5.2知識庫管理 錯誤!未定義書簽。3.5.3值班管理 錯誤!未定義書簽。3.6統(tǒng)一展示體系 3.6.2大屏呈現(xiàn) 651IT運維規(guī)劃1IT運維規(guī)劃總體設(shè)計思路隨著我行的IT系統(tǒng)不斷建設(shè)與完善,在新一代業(yè)務(wù)系統(tǒng)統(tǒng)一規(guī)劃與建設(shè)過程中,對系統(tǒng)的運行維護(hù)也需進(jìn)行整體規(guī)劃。我們將建立一套以客戶為中心,以業(yè)務(wù)為導(dǎo)向的綜合運維管理體系,對各類物理資源和虛擬資源實現(xiàn)全方位、一體化的集中管理模式,遵循IT運維相關(guān)規(guī)范,建立起包含集中監(jiān)控管理、自動化運維管理、統(tǒng)一配置管理CMDB、統(tǒng)一流程平臺、綜合分析分析、綜合展示為核心的一體化運維管理平臺,從物理資源管理深入到虛擬資源管理,為大規(guī)模虛擬化集群以及SOA組件服務(wù)提供必要管理手段,同時不斷提升用戶感知和用戶體驗,以業(yè)務(wù)的視角關(guān)注系統(tǒng)健康狀況,從IT管理上升到業(yè)務(wù)服務(wù)管理,逐步奠定我行新一代綜合運維平臺“國內(nèi)領(lǐng)先、國際一流”的地位。批注[雨林木風(fēng)1]:請補(bǔ)充相關(guān)文字一代目標(biāo)架構(gòu)一體化的全方位管理,將實現(xiàn)對新一代業(yè)務(wù)系統(tǒng)支撐的資源包括物理資源和虛擬資源進(jìn)行一體化監(jiān)控,同時結(jié)合7層(渠道整合層、客戶服務(wù)整合層、應(yīng)用集成層、外聯(lián)集成層、產(chǎn)品服務(wù)層、數(shù)據(jù)集成層、管理分析層)12個域(渠道整合技術(shù)服務(wù)平臺、客戶服務(wù)應(yīng)用整合服務(wù)平臺、應(yīng)用集成服務(wù)平臺、外聯(lián)集成控制服務(wù)平臺、在線交易處理服務(wù)、支付服務(wù)平臺、數(shù)據(jù)集成服務(wù)平臺、管理分析服務(wù)平臺、在線交易處理服務(wù)平臺、事件控制服務(wù)平臺)的新一代業(yè)務(wù)平臺核心設(shè)計理念,建立一套完整的“集中管理、集中監(jiān)控、集中運維、集中配置”的綜合運維管理體系。綜合展示平臺綜合展示平臺大屏展示研發(fā)測試及系統(tǒng)部署綜合評估自動化管理平臺CMDB研發(fā)測試及系統(tǒng)部署綜合評估自動化管理平臺CMDB運維優(yōu)化綜合分析平臺服務(wù)流程平臺監(jiān)控管理平臺監(jiān)控管理平臺云基礎(chǔ)架構(gòu)統(tǒng)一管理云基礎(chǔ)架構(gòu)統(tǒng)一管理生產(chǎn)環(huán)境生產(chǎn)環(huán)境測試環(huán)境測試環(huán)境研發(fā)環(huán)境研發(fā)環(huán)境建立IT監(jiān)控管理體系,通過前期的建設(shè),目前CMP系統(tǒng)已經(jīng)實現(xiàn)了對開放平臺物理資源的監(jiān)管,已經(jīng)收到了良好的成效,從CMP系統(tǒng)對被管對象的故障發(fā)現(xiàn)率、故障發(fā)現(xiàn)及時性、準(zhǔn)確性、有效性,告警信息通知到人的及時、準(zhǔn)確性,監(jiān)控覆蓋面以及CMP系統(tǒng)的自身運行情況幾個角度的實際使用效果來考量,CMP系統(tǒng)已經(jīng)初步建設(shè)成為了穩(wěn)定、準(zhǔn)確、高效、全面的監(jiān)控系統(tǒng),為日常的運維工作提供了有力的保障,下一步將在該平臺基礎(chǔ)上進(jìn)一步完善物理資源監(jiān)控,繼續(xù)深入監(jiān)控的粒度、廣度;同時通過TPMS系統(tǒng)逐步深入到關(guān)鍵業(yè)務(wù)交易內(nèi)部,實現(xiàn)業(yè)務(wù)交易全路徑展示和端到端的分析;從物理資源管理邁入到虛擬資源管理,逐步對各類虛擬資源的全面監(jiān)控,最終實現(xiàn)監(jiān)控全方位、立體化、智能化的全方位管理,構(gòu)建一套先進(jìn)的監(jiān)控管理體系和平臺。建立IT服務(wù)管理體系,實現(xiàn)“五個轉(zhuǎn)變”:建立集中統(tǒng)一的IT服務(wù)組織管理模式,實現(xiàn)IT服務(wù)由分散管理向集中管理轉(zhuǎn)變;建立體系化的管理制度和績效考核指標(biāo),實現(xiàn)IT服務(wù)由粗放管理向精細(xì)管理轉(zhuǎn)變;建立規(guī)范標(biāo)準(zhǔn)的IT服務(wù)管理流程,實現(xiàn)IT服務(wù)由職能管理向流程管理轉(zhuǎn)變;建立統(tǒng)一的用戶服務(wù)窗口,實現(xiàn)IT服務(wù)由無序管理向有序管理轉(zhuǎn)變;建立先進(jìn)、實用、高效的IT服務(wù)管理平臺,實現(xiàn)IT服務(wù)管理水平和能力的提升。建立自動化管理體系,實現(xiàn)日常管理的自動化操作,如日常巡檢、故障智能化處理、虛擬資源分配與變更處理、配置變更審計、軟件自動裝載等,將日常運維只是進(jìn)行固化,以減輕復(fù)雜的日常運維帶來的龐大工作量。建立統(tǒng)一配置管理數(shù)據(jù)庫,隨著IT基礎(chǔ)架構(gòu)越來越復(fù)雜,越來越龐大,IT資產(chǎn)已經(jīng)成為運營過程中很重要的管理對象。為了統(tǒng)一管理、共享資源,我行需要建立集中、統(tǒng)一的配置管理數(shù)據(jù)庫,實現(xiàn)各類配置資源集中化、規(guī)范化的管理。建立綜合分析體系,經(jīng)過前期的系統(tǒng)建設(shè),各類系統(tǒng)已經(jīng)采集并存儲了海量數(shù)據(jù),數(shù)據(jù)范圍涉及到了告警、性能、配置項、業(yè)務(wù)、運營、運維等多領(lǐng)域,如何將這些數(shù)據(jù)進(jìn)行有效的利用、分析為系統(tǒng)規(guī)范、系統(tǒng)分析、決策判斷提供準(zhǔn)確的依據(jù)成為系統(tǒng)發(fā)展的瓶頸。為更好的利用既有數(shù)據(jù),服務(wù)于業(yè)務(wù)運營,提升業(yè)務(wù)運營質(zhì)量,通過建設(shè)綜合分析平臺進(jìn)行綜合化的分析,分析中心主要面向管理人員、業(yè)務(wù)人員,維護(hù)人員,通過對既有數(shù)據(jù)進(jìn)行多視角、多維度的分析,直觀展示業(yè)務(wù)、應(yīng)用及系統(tǒng)的運行狀況、發(fā)展趨勢,最終為系統(tǒng)擴(kuò)容優(yōu)化、業(yè)務(wù)質(zhì)量提升提供運維數(shù)據(jù)支持。建立綜合展示體系,通過建立IT運維部門統(tǒng)一的門戶和大屏,為業(yè)務(wù)支撐部門內(nèi)包括部門領(lǐng)導(dǎo)、業(yè)務(wù)管理人員、運維人員、值班監(jiān)控人員在內(nèi)的各層用戶提供統(tǒng)一的展示平臺,實現(xiàn)統(tǒng)一用戶、統(tǒng)一認(rèn)證,不斷增強(qiáng)運維平臺提升展示效果,積極提升用戶體驗。我們將以業(yè)務(wù)為中心進(jìn)行IT運維管理,和傳統(tǒng)的以IT為中心管理所關(guān)注的層面和建設(shè)的思路存在著本質(zhì)的區(qū)別。以業(yè)務(wù)為中心需要站在業(yè)務(wù)層面進(jìn)行系統(tǒng)的維護(hù)管理和深入剖析,傳統(tǒng)的以IT為中心的管理則只關(guān)注設(shè)備運行情況、設(shè)備故障情況以及設(shè)備故障處理。可以說,以業(yè)務(wù)為中心不僅需要建設(shè)以IT為中心的日常運維管理,還要對業(yè)務(wù)過程、業(yè)務(wù)數(shù)據(jù)甚至交易過程等進(jìn)行全方位的管理,并深入分析業(yè)務(wù)數(shù)據(jù),從業(yè)務(wù)本身情況,對IT進(jìn)行高層次的管理和應(yīng)用。新一代運維管理平臺我們將摒棄以往割裂的看到服務(wù)器、應(yīng)用以及業(yè)務(wù)的監(jiān)控和處理方式,以業(yè)務(wù)為主線,從底層資源到上層業(yè)務(wù)進(jìn)行整體的監(jiān)控和關(guān)聯(lián)分析,以嶄新的業(yè)務(wù)視角來進(jìn)行管理,把業(yè)務(wù)服務(wù)的可用性和性能狀態(tài),與底層IT平臺部件和業(yè)務(wù)部件關(guān)聯(lián)起來,以便提供一個以業(yè)務(wù)為中心的IT服務(wù)平臺,來支撐業(yè)務(wù)的運營。同時基于ARM規(guī)范逐步批注[雨林木風(fēng)2]:批注[雨林木風(fēng)2]:請調(diào)整實現(xiàn)對業(yè)務(wù)交易的監(jiān)控,對交易線進(jìn)行監(jiān)控的意義在于交易線是面向業(yè)務(wù)邏輯的,而不是面向業(yè)務(wù)系統(tǒng)的。這就使得監(jiān)控管理能夠細(xì)化到各業(yè)務(wù)環(huán)節(jié)一級,監(jiān)控每個業(yè)務(wù)環(huán)節(jié)在整個業(yè)務(wù)處理過程中的性能狀況,使業(yè)務(wù)處理全過程對運維人員可見、可控,徹底改變目前業(yè)務(wù)管理長期處于被動局面的最直接和有效的技術(shù)手段。通過業(yè)務(wù)和交易監(jiān)控,最終實現(xiàn)如下目標(biāo):通過對業(yè)務(wù)性能數(shù)據(jù)進(jìn)行綜合分析和業(yè)務(wù)系統(tǒng)優(yōu)化分析,找出系統(tǒng)瓶頸,為系統(tǒng)升級及優(yōu)化提供量化參考依據(jù)。對業(yè)務(wù)交易各處理環(huán)節(jié)進(jìn)行監(jiān)控,直觀的展現(xiàn)業(yè)務(wù)交易流轉(zhuǎn)路徑,反映每個關(guān)鍵處理環(huán)節(jié)的性能狀況,是運維人員具備對用戶投訴做出快速響應(yīng)的能力。對業(yè)務(wù)交易進(jìn)行真正意義的實時監(jiān)視,使運維部門具有主動性的監(jiān)控能力,快速發(fā)現(xiàn)當(dāng)前故障,同時做到盡早發(fā)現(xiàn)可能的故障隱患。理手段理手段隨著云計算技術(shù)的逐漸成熟,其應(yīng)用逐步進(jìn)行擴(kuò)展,在我行新一代業(yè)務(wù)系統(tǒng)的建設(shè)中,云計算將是一個重點建設(shè)平臺,而如何以云平臺作為基礎(chǔ),進(jìn)行日常的運行維護(hù)管理,也將是新一代規(guī)劃的一個重點。因此在運維平臺建設(shè)中,需實現(xiàn)面向基礎(chǔ)的云設(shè)施的一體化管理,并結(jié)合云服務(wù)的提供,建立自動化管理機(jī)制,為我行云計算管理奠定好根基,為后續(xù)云計算的拓展建設(shè)和運行維護(hù)打下基礎(chǔ),針對我行的實際情況,云管理主要包括以下主要內(nèi)容:云資源監(jiān)控:可以統(tǒng)一管理多種虛擬平臺,包括VMwarevSphere(包括ESX版本)、CitrixXenServer,能夠提供物理主機(jī)設(shè)備、以及部署在其上的虛擬機(jī)狀態(tài)監(jiān)控,并能夠?qū)崿F(xiàn)虛擬機(jī)部署的自動發(fā)現(xiàn)和自動監(jiān)控;云資源分析:生產(chǎn)云的監(jiān)控(包括基礎(chǔ)物理平臺監(jiān)控、生產(chǎn)虛機(jī)監(jiān)控及應(yīng)用監(jiān)控)納入統(tǒng)一運維管理系統(tǒng),能夠提供云計算平臺整體及各個子云的資源使用狀況、資源使用趨勢等指標(biāo)進(jìn)行監(jiān)控并能給出直觀的報告;云資源分配:對虛擬化平臺的管理功能包括:新建、擴(kuò)容、克隆、遷移、回收等。通過自動化的虛擬資源管理可以大大提高虛擬資源的分配效率,降低人為操作失誤概率,從而實現(xiàn)減少人力成本。監(jiān)控管理平臺批注[雨林木風(fēng)3]:請根據(jù)上圖,補(bǔ)充相關(guān)文字,同時補(bǔ)充圖中綜合分析部分2評估治理研發(fā)測試及系統(tǒng)部署運維優(yōu)化服務(wù)流程平臺自動化管理平臺CMDB12個P平臺115個組件監(jiān)控管理平臺批注[雨林木風(fēng)3]:請根據(jù)上圖,補(bǔ)充相關(guān)文字,同時補(bǔ)充圖中綜合分析部分2評估治理研發(fā)測試及系統(tǒng)部署運維優(yōu)化服務(wù)流程平臺自動化管理平臺CMDB12個P平臺115個組件ITIT運維管理體系總體設(shè)計綜合展現(xiàn)平臺綜合展現(xiàn)平臺綜合分析平臺綜合分析平臺服務(wù)門戶自助訂購合規(guī)策略服務(wù)優(yōu)化服務(wù)發(fā)布快速部署服務(wù)驗證云基礎(chǔ)架構(gòu)統(tǒng)一管理服務(wù)門戶自助訂購合規(guī)策略服務(wù)優(yōu)化服務(wù)發(fā)布快速部署服務(wù)驗證服務(wù)服務(wù)目錄附圖1.總體架構(gòu)設(shè)計經(jīng)過多年建設(shè),我行圍繞著IT運維標(biāo)準(zhǔn)規(guī)范和最佳實踐,初步建立起一套較為成熟的運維管理體系,涵蓋了以監(jiān)控、服務(wù)流程、CMDB、自動化運維為核心的IT總體運維框架。我行目前采用了神州泰岳Ultra-NMS和BMCAgent產(chǎn)品組合方式,實現(xiàn)對開放平臺各類服務(wù)器、數(shù)據(jù)庫、中間件的監(jiān)控;采用了IBMNetCool產(chǎn)品實現(xiàn)了對整體網(wǎng)絡(luò)環(huán)境的監(jiān)控;采用了基于ARM的交易監(jiān)控方式實現(xiàn)了對業(yè)務(wù)交易線的監(jiān)控;采用了CAServiceDeskManager產(chǎn)品實現(xiàn)日常運維工作的流程化、規(guī)范化、電子化;采用了BMCAtriumCMDB產(chǎn)品實現(xiàn)了統(tǒng)一配置數(shù)據(jù)庫管理;采用了HpOpsware基本實現(xiàn)了運維管理自動化。下一步我們將完善運維管理體系,將整體運維管理體系覆蓋到綜合分析、綜合展示以及虛擬化資源監(jiān)控等領(lǐng)域,不斷提升我行整體運維管理水平,積極提升運維部門對外形象,保障核心生產(chǎn)系統(tǒng)的安全生產(chǎn)和業(yè)務(wù)的穩(wěn)定發(fā)展。新一代運維管理規(guī)劃將重點關(guān)注以下幾個主要方面的內(nèi)1.將管理范圍從傳統(tǒng)的基于物理平臺拓展到基于物理+虛擬化平臺,包括:物理平臺:網(wǎng)絡(luò)設(shè)備,服務(wù)器,存儲,數(shù)據(jù)庫,中間件,安全設(shè)備,動力環(huán)境等。虛擬平臺:小機(jī)虛擬化(LPAR,VPAR,ZONEx86虛擬化(Vmware,Citrix,Hyper-V,RedHat),桌面虛擬化(ICA-VDI)。虛擬化資源管理不等于虛擬機(jī)管理。虛擬化資源除虛擬機(jī)(VM)外,還包括虛擬化平臺本身(如ESX,VC虛擬化資源池(ResourcePool虛擬化存儲(DataStor),虛擬化集群(Cluster)及動態(tài)負(fù)載分配(DRS)等內(nèi)容,單一的虛擬機(jī)層面的監(jiān)管不完整。虛擬化平臺自身的穩(wěn)定性會影響其上層承載應(yīng)用的性能及穩(wěn)定性,通常很難定位問題的根源,需要考慮一體化的綜合分析手段。對虛擬化的池化資源及相關(guān)設(shè)施應(yīng)該制定統(tǒng)一的管理標(biāo)準(zhǔn)及管理措施。2.將傳統(tǒng)的針對應(yīng)用自身的監(jiān)管拓展到“應(yīng)用管理+平臺管理+SOA組件管理”三個維度。單純從應(yīng)用自身監(jiān)管的維度來嘗試將管理層次提升到“面向業(yè)務(wù)”的水平,在建行新一代系統(tǒng)中不可行。考慮到新一代的設(shè)計理念大量采用SOA架構(gòu),并將原有的300多個應(yīng)用利用統(tǒng)一的ESB總線接口及12個P平臺來完成整合,因此在管理平臺的設(shè)計中,追加了SOA及P平臺的管理維度。這三個維度的管理指標(biāo),作為基礎(chǔ)數(shù)據(jù),向上輔助交易層面的管理功能,真正實現(xiàn)“以IT為中心”上升到“以業(yè)務(wù)為中心”。缺乏這種支撐手段,單純展現(xiàn)某種交易的性能及故障,對業(yè)務(wù)的輔助將極其有限。3.將傳統(tǒng)的利用管理人員經(jīng)驗進(jìn)行交易故障及性能的手動分析拓展到的基于業(yè)務(wù)層面各交易的端對端管理,輔助進(jìn)行自動化分析,并建立專家系統(tǒng)。將各種業(yè)務(wù)交易過程進(jìn)行細(xì)粒度的精細(xì)化分析,比如交易流轉(zhuǎn)路徑、交易時長等對業(yè)務(wù)交易實現(xiàn)真正意義的實時監(jiān)控,運維部門主動發(fā)現(xiàn)業(yè)務(wù)當(dāng)前的問題,而不是等待業(yè)務(wù)人員電話報送問題后進(jìn)行響應(yīng)。利用專家系統(tǒng)進(jìn)行業(yè)務(wù)綜合分析,快速定位業(yè)務(wù)環(huán)節(jié)中的故障范圍,并利用“應(yīng)用+P平臺+SOA”的三維監(jiān)控手段作為輔助,盡快制定業(yè)務(wù)問題的解決方案。利用專家系統(tǒng)進(jìn)行業(yè)務(wù)收益業(yè)務(wù)風(fēng)險資源占用(包括云資源)關(guān)聯(lián)分析,幫助管理人員對整個新一代數(shù)據(jù)中心的業(yè)務(wù)運行狀態(tài)是否合理做出判斷,保障優(yōu)質(zhì)資源配備給重要的業(yè)務(wù)應(yīng)用。4.將傳統(tǒng)的綜合分析由單一的歷史數(shù)據(jù)統(tǒng)計報表,拓展到包括的虛擬架構(gòu)優(yōu)化、預(yù)測未來容量需求、歷史工作負(fù)載和資源使用關(guān)聯(lián)分析、服務(wù)等級管理、行為模式及使用趨勢、組件容量管理(過度、不足)等內(nèi)容的專業(yè)化的綜合分析系統(tǒng),輔助制定整個新一代系統(tǒng)的運行維護(hù)策略。傳統(tǒng)管理平臺中的綜合分析只是對物理資源進(jìn)行故障分布分析、性能趨勢分析、資產(chǎn)統(tǒng)計分析,并依賴報表進(jìn)行呈現(xiàn),這種分析手段依然必要,但不能夠完全滿足建行新一代IT運維的要求。新一代系統(tǒng)建設(shè)的總體思路是利用SOA進(jìn)行應(yīng)用整合,并依托于虛擬化資源池進(jìn)行承載,因此,必須綜合考慮虛擬架構(gòu)優(yōu)化,業(yè)務(wù)質(zhì)量分析(關(guān)鍵業(yè)務(wù)指標(biāo)應(yīng)用架構(gòu)優(yōu)化,SOA組件合并及請求流程,物理實體容量規(guī)劃,資源池建設(shè)標(biāo)準(zhǔn)等相關(guān)同時,參考國際上一流的綜合分析方案,引入歷史工作負(fù)載和資源使用關(guān)聯(lián)分析、服務(wù)等級管理、行為模式及使用趨勢、組件容量管理(過度、不足)等相關(guān)內(nèi)容。呈現(xiàn)手段也從單一報表方式而力求多樣化,滿足用戶直觀準(zhǔn)確快速獲取管理信息的要求。5.將傳統(tǒng)的開放平臺應(yīng)用監(jiān)控拓展到對開放平臺+大機(jī)的整體數(shù)據(jù)采集及分析,去掉傳統(tǒng)的大機(jī)管理“黑洞”,真實準(zhǔn)確地展現(xiàn)交易的每個環(huán)節(jié)。6.配合后續(xù)的定制開發(fā),提供多種貼近用戶需求的展示方式,包括:大屏展示,統(tǒng)一門戶(虛擬化+物理資源+云計算建設(shè)專家系統(tǒng),業(yè)務(wù)接入,流程管理等內(nèi)容。監(jiān)控管理體系的建設(shè),要求以我行新一代業(yè)務(wù)系統(tǒng)的規(guī)劃作為基礎(chǔ),站在業(yè)務(wù)應(yīng)用的高度進(jìn)行整體系統(tǒng)的一體化監(jiān)控管理。與傳統(tǒng)的監(jiān)控管理不同,一體化的監(jiān)控管理將以業(yè)務(wù)應(yīng)用為中心,從支撐業(yè)務(wù)系統(tǒng)運行的資源、應(yīng)用,到業(yè)務(wù)交易,進(jìn)行全方位的監(jiān)控管理,以最終達(dá)到監(jiān)控管理向新一代業(yè)務(wù)系統(tǒng)應(yīng)用轉(zhuǎn)型和高度建設(shè)的目標(biāo)。因此在新一代規(guī)劃方案中,將分別從資源監(jiān)控、應(yīng)用監(jiān)控、交易監(jiān)控三個層面來進(jìn)行建設(shè)的功能要點闡述,以達(dá)到新一代業(yè)務(wù)系統(tǒng)整體運行的可視、可控的管理。附圖2.監(jiān)控管理架構(gòu)資源維度:主要關(guān)注支撐業(yè)務(wù)系統(tǒng)運行的平臺類監(jiān)控,管理對象包括物理資源和虛擬資源等。通過標(biāo)準(zhǔn)或非標(biāo)準(zhǔn)協(xié)議獲取這些被管對象的配置、性能、告警信息,而不涉及業(yè)務(wù)系統(tǒng)自身可用性及性能的監(jiān)控。應(yīng)用維度:從應(yīng)用系統(tǒng)可用性角度出發(fā),開始關(guān)注業(yè)務(wù)系統(tǒng)自身的一些關(guān)鍵監(jiān)控點,包括核心業(yè)務(wù)系統(tǒng)(如網(wǎng)銀、證劵)自身的一些關(guān)鍵監(jiān)控點(如進(jìn)程、日志、端口等)和部分業(yè)務(wù)指標(biāo)??梢酝ㄟ^分析業(yè)務(wù)系統(tǒng)的日志或是執(zhí)行業(yè)務(wù)系統(tǒng)提供的管理指令獲取包括交易量、成功或失敗筆數(shù)、無響應(yīng)或超時筆數(shù)等相關(guān)指標(biāo)。交易維度:以業(yè)務(wù)邏輯(交易線)為線索,在關(guān)鍵交易模塊中嵌入監(jiān)控探針,采集交易路徑各個環(huán)節(jié)的交易狀態(tài)。從而對用戶真實的交易狀況進(jìn)行統(tǒng)計,生成單位時間內(nèi)的交易量、交易模塊單位時間內(nèi)的執(zhí)行失敗率、交易模塊的平均響應(yīng)時間、交易的同異步信息、串聯(lián)生成交易拓?fù)涞鹊龋瑥臉I(yè)務(wù)邏輯層展現(xiàn)交易運行情況,提供直觀、快速、準(zhǔn)確的定位手段。物理實體監(jiān)控我行于2006年開始建設(shè)CMP項目,通過5年的逐步實施和不斷努力,目前已形成面向我行開放系統(tǒng)的資源和應(yīng)用的全方位監(jiān)控管理體系,范圍涉及我行開放系統(tǒng)的1600多臺服務(wù)器(包括AIX、HP_UX、Windows、ScoUnix等操作系統(tǒng))、300多套數(shù)據(jù)庫(包括Oracle、DB2、Informix)、140多套中間件(包括WebLogic、Websphere、Tuxedo、WebsphereMQ、CICS、LotusDomino群件)、EMC和日立的存儲備份設(shè)備及其承載的多種證券、信貸、人力資源、龍卡、網(wǎng)銀、清算、OA業(yè)務(wù)應(yīng)用系統(tǒng)。使用CMP的人員為我行負(fù)責(zé)開放系統(tǒng)維護(hù)的管理人員、工程人員和維護(hù)人員、廠商技術(shù)支持人員,共有用戶1000余人,已經(jīng)形成了規(guī)范化的運維管理體系。通過數(shù)據(jù)中心對CMP系統(tǒng)的實際使用,從CMP系統(tǒng)對被管對象的故障發(fā)現(xiàn)率、故障發(fā)現(xiàn)及時性、準(zhǔn)確性、有效性,告警信息通知到人的及時、準(zhǔn)確性,監(jiān)控覆蓋面以及CMP系統(tǒng)的自身運行情況幾個角度的實際使用效果來考量,CMP系統(tǒng)已經(jīng)初步建設(shè)成為了穩(wěn)定、準(zhǔn)確、高效、全面的監(jiān)控系統(tǒng)。CMP系統(tǒng)為數(shù)據(jù)中心IT系統(tǒng)穩(wěn)定運行提供了強(qiáng)有力的支撐與保障,每天晨會討論的80%事件出自CMP監(jiān)控系統(tǒng),其中5%若不加處理會釀成生產(chǎn)事故。CMP系統(tǒng)已經(jīng)成為我行安全生產(chǎn)的不可或缺的重要系統(tǒng)。在我行CMP項目的建設(shè)中,采用BMCPatrol進(jìn)行數(shù)據(jù)信息的采集,采用Ultra-NMS作為集中監(jiān)控管理平臺進(jìn)行數(shù)據(jù)的處理和展現(xiàn),其監(jiān)控管理效果已得到了充分的驗證。虛擬實體監(jiān)控隨著虛擬化技術(shù)的逐漸成熟,其應(yīng)用逐步進(jìn)行擴(kuò)展,在我行新一代業(yè)務(wù)系統(tǒng)的建設(shè)中,虛擬化將是一個重點建設(shè)平臺,而如何實現(xiàn)虛擬化資源的管控,也將是新一代規(guī)劃的一個重點。虛擬實體的監(jiān)控具體來說應(yīng)包含三個組成部分:對虛擬化平臺自身的監(jiān)控(如Vmware,Xen,IBMLPAR,Hyper-V,VBLOCK等)。對虛擬化平臺上衍生出的虛擬化實體的監(jiān)控(如:虛擬機(jī),虛擬網(wǎng)卡,虛擬內(nèi)存,虛擬CPU,虛擬存儲,資源池,集群等動態(tài)資源)。對虛擬桌面架構(gòu)(VDI云桌面)的監(jiān)控。批注[雨林木風(fēng)4]:批注[雨林木風(fēng)4]:指標(biāo)要列出來管理的需要。當(dāng)前,先進(jìn)的虛擬化健康度管理方法強(qiáng)調(diào)對整個虛擬化環(huán)境進(jìn)行統(tǒng)一的管控。從用戶體驗的角度,自上而下的全面評估虛擬化環(huán)境的健康度,從而提高虛擬化環(huán)境的可用性和性能,擴(kuò)大虛擬化環(huán)境的適用范圍。通過提供一套統(tǒng)一的可管理多種虛擬化系統(tǒng)的管理平臺,針對虛擬化建設(shè)及運維過程中所面臨的困難,利用虛擬化健康度管理方法來逐步改進(jìn)和完善虛擬化建設(shè)的不足:一方面,這種全新的虛擬化健康度管理方法覆蓋了虛擬化環(huán)境所涉及到的軟硬件的各個層面,統(tǒng)一運維,綜合分析,從而全面保障了虛擬化環(huán)境的健康度。另一方面,企業(yè)通過引入先進(jìn)的健康度管理方法,還可以使得業(yè)務(wù)人員和IT運維人員可以更好地明確自己的管理職責(zé),更好地合作,提高了工作效率,同是也優(yōu)化的虛擬化環(huán)境的可用性。運維人員可以從最終用戶、交易、應(yīng)用、主機(jī)、數(shù)據(jù)庫、中間件和網(wǎng)絡(luò)等各個方面,全面監(jiān)控和分析虛擬化環(huán)境的性能和瓶頸。通過事件關(guān)聯(lián)和SLA分析,快速發(fā)現(xiàn)虛擬化應(yīng)用服務(wù)事件,定位事件根源,快速解決問題。針對此次需要監(jiān)控的虛擬平臺,主要實現(xiàn)以下指標(biāo)的監(jiān)控和管理:批注[雨林木風(fēng)5]:說法有問題,統(tǒng)一監(jiān)控實現(xiàn)跨小機(jī)(LPAR,VPAR)及x86(VMware等)批注[雨林木風(fēng)5]:說法有問題,統(tǒng)一監(jiān)控附圖3.小機(jī)及X86虛擬化統(tǒng)一管理實現(xiàn)對VMWareESXSERVER等虛擬化平臺自身健壯性的監(jiān)管,防止虛擬化平臺因自身故障導(dǎo)致上層的虛擬機(jī)出現(xiàn)問題。附圖4.虛擬化平臺自身監(jiān)控實現(xiàn)對VMware管理控制臺VirtualCenter的監(jiān)管,包括VirtualCenter服務(wù)器狀態(tài)(啟動和停止)、VirtualCenter應(yīng)用(進(jìn)程、服務(wù)、日志等)信息的監(jiān)控和管理。實現(xiàn)對虛擬交換機(jī)(vSwitch虛擬存儲卷(DataStor),虛擬化資源池及集群等動態(tài)資源的監(jiān)管,使得部署在虛擬化平臺上的各種應(yīng)用不會因為動態(tài)計算資源的變換而導(dǎo)致性能不穩(wěn)定。附圖5.虛擬化各組件監(jiān)控監(jiān)控ICA協(xié)議,XENSERVER及ESX,實現(xiàn)對虛擬桌面架構(gòu)(VDI)的統(tǒng)一管理。附圖6.云桌面監(jiān)控實現(xiàn)對虛擬機(jī)(VM)的監(jiān)控,包括CPU、內(nèi)存、硬盤、網(wǎng)絡(luò)等資源信息的監(jiān)控和管理。附圖7.虛擬機(jī)自身監(jiān)控參數(shù)實現(xiàn)對物理服務(wù)器虛擬化平臺上層應(yīng)用的關(guān)聯(lián)分析,以確定最終影響性能或者發(fā)生故障的范圍。圍繞12個核心域組織應(yīng)用監(jiān)控管理應(yīng)用監(jiān)控一個主要目標(biāo)就是是通過自動化、智能化的IT手段對業(yè)務(wù)系統(tǒng)進(jìn)行實時監(jiān)控以及歷史數(shù)據(jù)分析,從而達(dá)到保障業(yè)務(wù)可用的目標(biāo)。因此,在進(jìn)行應(yīng)用監(jiān)控管理之前首先需要考慮管理對象是誰?管理哪些內(nèi)容?如何發(fā)現(xiàn)管理的內(nèi)容對管理對象產(chǎn)生的影響?要回答以上問題就需要拆解可能影響業(yè)務(wù)可用性的關(guān)鍵要素,判斷這些因素在何種情況下可能對業(yè)務(wù)發(fā)生影響,并實施跟蹤這些關(guān)鍵因素,保障業(yè)務(wù)免受這些因素的影響。根據(jù)建行新一代業(yè)務(wù)系統(tǒng)規(guī)劃思路,將相關(guān)核心業(yè)務(wù)抽象為12個P平臺,包括渠道整合技術(shù)服務(wù)平臺(內(nèi)部、外部各1個)、客戶服務(wù)應(yīng)用整合服務(wù)平臺(內(nèi)部、外部各1個)、應(yīng)用集成服務(wù)平臺、外聯(lián)集成控制服務(wù)平臺、在線交易處理服務(wù)、支付服務(wù)平臺、數(shù)據(jù)集成服務(wù)平臺、管理分析服務(wù)平臺、在線交易處理服務(wù)平臺、事件控制服務(wù)平臺等平臺。集中監(jiān)控系統(tǒng)將統(tǒng)一規(guī)劃、分步實施,圍繞著12個P平臺,逐步實現(xiàn)對于核心應(yīng)用的監(jiān)控和管理。我們將在項目實施過程中根據(jù)各個應(yīng)用系統(tǒng)的不同特點以及業(yè)務(wù)使用人員的監(jiān)控需求,通過業(yè)務(wù)建模、業(yè)務(wù)采集、業(yè)務(wù)處理、業(yè)務(wù)展現(xiàn)等技術(shù)手段,幫助運維人員快速梳理業(yè)務(wù)關(guān)聯(lián)關(guān)系、定位業(yè)務(wù)故障根源、及時分析業(yè)務(wù)運行趨勢,保證業(yè)務(wù)系統(tǒng)的正常運行。針對32個重要系統(tǒng)的應(yīng)用監(jiān)控通過前期的業(yè)務(wù)平臺梳理,后續(xù)我們將對32個重要系統(tǒng)的120個核心指標(biāo)進(jìn)行集中監(jiān)控管理,通過定義關(guān)鍵業(yè)務(wù)點(KBP)以及關(guān)鍵業(yè)務(wù)點的實例化原則,能夠?qū)⒏黝惐还軜I(yè)務(wù)對象納入監(jiān)控管理平臺的管理范圍,通過定義關(guān)鍵性能指標(biāo)(KPI能夠?qū)⑷魏蔚臄?shù)據(jù)指標(biāo)納入監(jiān)控管理平臺的監(jiān)控體系,下面著重說明監(jiān)控管理平臺如何實現(xiàn)業(yè)務(wù)性能、業(yè)務(wù)告警、業(yè)務(wù)關(guān)聯(lián)影響分析等重要業(yè)務(wù)管理場景。.1業(yè)務(wù)性能管理應(yīng)用系統(tǒng)監(jiān)控通過性能數(shù)據(jù)接口,集成各類業(yè)務(wù)系統(tǒng)的實時業(yè)務(wù)性能數(shù)據(jù),對業(yè)務(wù)性能的管理能夠展現(xiàn)實時展示和歷史性能數(shù)據(jù)分析統(tǒng)計,對于實時的性能數(shù)據(jù)可以采用曲線圖的方式進(jìn)行響應(yīng)時間趨勢分析。附圖8.業(yè)務(wù)量實時分析附圖9.交易時長趨勢分析.2業(yè)務(wù)告警管理無論對平臺類告警,還是業(yè)務(wù)類告警,在監(jiān)控管理平臺中處理方式、處理流程,如告警過濾、告警相關(guān)性分析、告警確認(rèn)、告警清除等、告警通知、工單接口等都是一致的,對于業(yè)務(wù)類告警,唯一的區(qū)別體現(xiàn)在事件標(biāo)準(zhǔn)化規(guī)則方面,我們將采用統(tǒng)一的告警處理流程,將業(yè)務(wù)應(yīng)用類告警在業(yè)務(wù)監(jiān)控列表中實時分析和展示。附圖10.業(yè)務(wù)告警.3業(yè)務(wù)影響性分析業(yè)務(wù)人員日常工作中面對著復(fù)雜、繁多的業(yè)務(wù)對象及其業(yè)務(wù)指標(biāo),指標(biāo)數(shù)據(jù)歸屬于不同被管理的業(yè)務(wù)對象,同時業(yè)務(wù)對象之間又遵從于業(yè)務(wù)邏輯,如何能夠把業(yè)務(wù)實體與業(yè)務(wù)指標(biāo)有機(jī)的組織與呈現(xiàn),便于業(yè)務(wù)管理人員快速、準(zhǔn)確的查看系統(tǒng)狀況將在很大程度的決定監(jiān)控管理系統(tǒng)的價值?;跇I(yè)務(wù)建模中對象與對象之間的關(guān)系,結(jié)合業(yè)務(wù)邏輯,實現(xiàn)業(yè)務(wù)影響分析功能,使得在業(yè)務(wù)人員能夠發(fā)現(xiàn)某一故障對其它系統(tǒng)的影響程度。業(yè)務(wù)影響以業(yè)務(wù)影響拓?fù)涞男问匠尸F(xiàn)。業(yè)務(wù)影響拓?fù)涫钦宫F(xiàn)故障和告警影響或者緣由的視圖。業(yè)務(wù)對象之間、業(yè)務(wù)對象和平臺對象之間存在著各種影響關(guān)系,即某個對象上發(fā)生的告警影響哪些業(yè)務(wù)系統(tǒng)、以及對業(yè)務(wù)系統(tǒng)產(chǎn)生的影響程度有多大,監(jiān)控系統(tǒng)能夠以業(yè)務(wù)影響分析的視角分析高層業(yè)務(wù)到底層技術(shù)之間的影響范圍和程度的拓?fù)湟晥D,它既可以正向展現(xiàn)影響路徑,也可以反向展現(xiàn)緣由和根源。附圖11.業(yè)務(wù)影響視圖.4大機(jī)業(yè)務(wù)指標(biāo)監(jiān)控應(yīng)用監(jiān)控的管理范圍不僅僅包含了開放平臺,可以進(jìn)一步擴(kuò)大應(yīng)用監(jiān)控管理范圍,將大機(jī)平臺的關(guān)鍵業(yè)務(wù)指標(biāo)納入進(jìn)來,可以和大機(jī)平臺廠商梳理相關(guān)業(yè)務(wù)指標(biāo),通過定制規(guī)范的集成接口,將大機(jī)的監(jiān)控指標(biāo)集成到應(yīng)用監(jiān)控平臺中進(jìn)行統(tǒng)一處理和展現(xiàn)。大機(jī)應(yīng)用性能管理:提供豐富的信息,提高對性能問題的響應(yīng)能力,此前這些問題通常都需要人工干預(yù)。通過簡潔、界面自定義的界面訪問信息,它能夠?qū)崿F(xiàn)資源利用率監(jiān)測、性能調(diào)整、問題分析和解決。監(jiān)控實時和歷史的主機(jī)系統(tǒng)信息??啥ㄖ频拈y值報警,實現(xiàn)更加獨立的系統(tǒng)關(guān)鍵數(shù)據(jù)監(jiān)測。在指定時間段內(nèi)采集數(shù)據(jù),提高系統(tǒng)效率。大機(jī)應(yīng)用的性能管理附圖12.大機(jī)網(wǎng)絡(luò)監(jiān)控(TCP/大機(jī)應(yīng)用的性能管理附圖12.大機(jī)網(wǎng)絡(luò)監(jiān)控(TCP/IP及SNA提供了大型機(jī)內(nèi)部全面的網(wǎng)絡(luò)性能信息監(jiān)控與分析功能,針對不同的網(wǎng)絡(luò)協(xié)議TCP/IP或SNA提供了豐富的功能,以及SOA應(yīng)用程序提供了全面的支持。包括:提供連接時長信息和ConnectionTrace。分析連接性能指標(biāo)。DDF中的流量信息及應(yīng)用程序信息。大機(jī)應(yīng)用的網(wǎng)絡(luò)管理附圖13.批注[雨林木風(fēng)6]:加一個圖大機(jī)應(yīng)用性能調(diào)優(yōu)(MAT端到端性能管理是解決方案中非常重要的組件之一,大機(jī)應(yīng)用監(jiān)控平臺實時監(jiān)控發(fā)現(xiàn)業(yè)務(wù)應(yīng)用的性能問題后,調(diào)用MAT對目標(biāo)業(yè)務(wù)應(yīng)用進(jìn)行性能采樣與分析,收集好這支應(yīng)用程序在大型機(jī)中不同子系統(tǒng)(如:CICS,DB2,z/OS等)務(wù)應(yīng)用的性能問題后,調(diào)用MAT對目標(biāo)業(yè)務(wù)應(yīng)用進(jìn)行性能采樣與分析,收集好這支應(yīng)用程序在大型機(jī)中不同子系統(tǒng)(如:CICS,DB2,z/OS等)的性能開銷信息,及時或事后對這些樣本進(jìn)行分析,可以:發(fā)現(xiàn)應(yīng)用程序的CPU,I/O開銷的性能信息。定位引起應(yīng)用系統(tǒng)低效的編碼在哪一行,數(shù)據(jù)庫調(diào)用語句或系統(tǒng)服務(wù)。生成性能報告——一種詳盡列出在應(yīng)用系統(tǒng)執(zhí)行期間,時間消耗等,為改善系統(tǒng)和系統(tǒng)資源調(diào)優(yōu)提出報告依據(jù)。通過開放大機(jī)系統(tǒng)的相關(guān)接口,將大機(jī)的關(guān)鍵指標(biāo)集成應(yīng)用系統(tǒng)監(jiān)控平臺中統(tǒng)一分析,最終幫助用戶實現(xiàn)分布式端到大型機(jī)端應(yīng)用性能信息一覽無余,并利用統(tǒng)一的“儀表盤”展示真實的業(yè)務(wù)現(xiàn)狀,極大地提升解決問題的效率,并通過主動的預(yù)警機(jī)制及未來使用趨勢分析進(jìn)一步保障業(yè)務(wù)連續(xù)性和穩(wěn)定性。批注[雨林木風(fēng)7]:和P平臺掛上鉤基于ARM的交易監(jiān)控傳統(tǒng)的業(yè)務(wù)管理模式難以從根本上改變金融企業(yè)運維工作被動的局面,難以業(yè)務(wù)運維質(zhì)量得到大幅度的提升。這對提升用戶滿意度和企業(yè)形象都十分不利,因此我行迫切需要建設(shè)一套全方位滿足業(yè)務(wù)管理需求的業(yè)務(wù)交易監(jiān)控管理平臺,提升運維的質(zhì)量,為廣大客戶提供更優(yōu)質(zhì)的服務(wù)?;贏RM標(biāo)準(zhǔn)的交易監(jiān)控管理平臺TPMS系統(tǒng)在繼承和延續(xù)交易性能監(jiān)控基礎(chǔ)上,開展跨系統(tǒng)交易層面的監(jiān)控管理,通過TPMS系統(tǒng)的建設(shè)不斷完善我行IT生產(chǎn)環(huán)境的應(yīng)用系統(tǒng)交易監(jiān)控和管理體系,從根本上提高我行IT的監(jiān)控和管理水平,為我行的業(yè)務(wù)發(fā)展提供有利保障。通過TPMS系統(tǒng)的建設(shè),我們希望達(dá)到如下目標(biāo):令對跨系統(tǒng)的業(yè)務(wù)交易各處理環(huán)節(jié)進(jìn)行監(jiān)控,直觀的展現(xiàn)業(yè)務(wù)交易流轉(zhuǎn)路徑,反映每個關(guān)鍵處理環(huán)節(jié)的性能狀況,是運維人員具備對用戶投訴做出快速響應(yīng)的能力;令對業(yè)務(wù)交易進(jìn)行真正意義的實時監(jiān)控,使運維部門具有主動性的監(jiān)控能力,快速發(fā)現(xiàn)當(dāng)前故障,同時做到盡早發(fā)現(xiàn)可能的故障隱患;令實現(xiàn)統(tǒng)一的業(yè)務(wù)故障管理,并通過對告警信息的相關(guān)性分析,減少不必要的冗余告警,準(zhǔn)確定位業(yè)務(wù)交易故障根源,具備故障精確定位的能力,有效提升故障排查效令通過對業(yè)務(wù)性能數(shù)據(jù)進(jìn)行綜合分析和業(yè)務(wù)系統(tǒng)優(yōu)化分析,找出系統(tǒng)瓶頸,為系統(tǒng)升級及優(yōu)化提供量化參考依據(jù)。.1關(guān)鍵技術(shù)分析對業(yè)務(wù)監(jiān)控的方式有很多種,但業(yè)務(wù)邏輯監(jiān)控有其特殊性,監(jiān)控粒度需要深入到業(yè)務(wù)系統(tǒng)內(nèi)部,實時反映業(yè)務(wù)系統(tǒng)內(nèi)部各環(huán)節(jié)性能狀況,目前,能夠充分滿足業(yè)務(wù)邏輯監(jiān)控需求,業(yè)界廣泛認(rèn)可的技術(shù)標(biāo)準(zhǔn)為ARM,ARM標(biāo)準(zhǔn)是目前國際公認(rèn)的也是業(yè)界遵循的唯一標(biāo)準(zhǔn)。所謂ApplicationResponseMeasurement(ARM)是一個應(yīng)用程序接口(API),它可以監(jiān)控不同應(yīng)用和系統(tǒng)下的業(yè)務(wù)事務(wù)的可用性和性能。ARM標(biāo)準(zhǔn)定義了事務(wù)何時開始和結(jié)束,因此這些事務(wù)就可以進(jìn)行測量和監(jiān)控。基本上,應(yīng)用程序調(diào)用ARMAPI。這種方法使得開發(fā)人員可以把企業(yè)管理工具直接擴(kuò)展到應(yīng)用程序本身,這就可以創(chuàng)建全面的管理能力,包括可用性、性能和應(yīng)用程序使用的監(jiān)控,也包括對端對端事務(wù)相應(yīng)時間的監(jiān)控。ARM的優(yōu)勢主要體現(xiàn)在以下幾個方面:口成熟的技術(shù)規(guī)范ARM標(biāo)準(zhǔn)由OpenGroup開發(fā),從1996年開始開發(fā)ARM的首個版本ARMVersion1,通過ARM工作組及其合作伙伴歷經(jīng)10多年的完善和發(fā)展,截止2008年ARM標(biāo)準(zhǔn)的最后版本是ARM4.0version2。跨平臺跨語言支持令A(yù)RM支持多種平臺,這樣有利于監(jiān)控基于多個不同平臺的應(yīng)用程序;令A(yù)RM支持多種編程語言。目前最新的ARM4支持用JAVA和C/C++編寫的應(yīng)用程極低的性能消耗對性能進(jìn)行詳細(xì)的監(jiān)控同時沒有帶來太多性能上的損失。當(dāng)我們要對一個應(yīng)用性能進(jìn)行監(jiān)控的時候,監(jiān)控的細(xì)致程度往往和給應(yīng)用程序帶來的性能負(fù)載是成正比的。相較于其他監(jiān)控方式,ARM是一個最佳選擇,它可以讓我們根據(jù)需要進(jìn)行詳細(xì)的監(jiān)控,同時不會帶來太多性能上的影響。帶來業(yè)務(wù)監(jiān)控領(lǐng)域的革命隨著金融行業(yè)的電子化程度不斷提高,除了功能方面的需求,人們也對系統(tǒng)的性能、可靠性等方面的要求也越來越高,會越發(fā)關(guān)心類似以下問題:令這些transaction成功了嗎?令是什么原因?qū)е履硞€transaction失敗了?令客戶體驗到的系統(tǒng)響應(yīng)時間是多少?令在整個交易過程中哪個部分耗時最長?令系統(tǒng)瓶頸在哪里?令如何能提高應(yīng)用系統(tǒng)的性能?ARM正是用來回答這些問題的。通過在應(yīng)用系統(tǒng)中引入ARMAPIs,可以讓這些應(yīng)用程序變得可管理、可監(jiān)控,再配合相應(yīng)的管理端系統(tǒng),就可以捕獲、分析運行時數(shù)據(jù),回答以上這些問題。ARM規(guī)范經(jīng)過多年的發(fā)展,現(xiàn)已成為業(yè)界公認(rèn)的標(biāo)準(zhǔn),尤其是金融業(yè),對業(yè)務(wù)系統(tǒng)的穩(wěn)定性、可靠性的要求相當(dāng)高,越來越多的業(yè)務(wù)系統(tǒng)廠商開始遵循ARM規(guī)范進(jìn)行系統(tǒng)開發(fā),使得業(yè)務(wù)系統(tǒng)相關(guān)性能信息、屬性信息對管理者可見。業(yè)務(wù)監(jiān)控進(jìn)入白盒監(jiān)控時代。附圖14.ARM管理系統(tǒng)的工作流程.2系統(tǒng)邏輯架構(gòu)設(shè)計系統(tǒng)邏輯架構(gòu)如下圖所示,概括性的闡述了系統(tǒng)的邏輯架構(gòu)。其中,不同的顏色表示不同的模塊,方框表示軟件內(nèi)部的功能模塊,通過此圖可以直觀地看到不同的功能模塊在系統(tǒng)中的層次。附圖15.ARM系統(tǒng)邏輯架構(gòu)示意圖系統(tǒng)分為應(yīng)用接口層、數(shù)據(jù)采集層、數(shù)據(jù)處理層和數(shù)據(jù)展示層(用戶接口層)。1、應(yīng)用接口層提供客戶應(yīng)用調(diào)用接口,C實現(xiàn)的為基于標(biāo)準(zhǔn)的ARM4.1規(guī)范,它收集到的應(yīng)用性能信息發(fā)送到消息隊列中;針對J2EE系統(tǒng),通過Java字節(jié)碼注入的技術(shù)(Javaagent在系統(tǒng)運行時在需要監(jiān)控的代碼塊前后插入探針,當(dāng)這個代碼塊被調(diào)用時,就可以獲得這次調(diào)用的性能數(shù)據(jù);2、數(shù)據(jù)采集層負(fù)責(zé)收集由應(yīng)用接口層發(fā)送過來的性能數(shù)據(jù),進(jìn)行一些簡單的計算后發(fā)送給數(shù)據(jù)處理層;在C語言實現(xiàn)中,由單獨的ARMAgent進(jìn)程讀取消息隊列中的性能數(shù)據(jù),計算處理后發(fā)送給ARMProbe;在Java實現(xiàn)中,由一個單獨的線程接受性能數(shù)據(jù),將相同交易模塊的性能數(shù)據(jù)合并(統(tǒng)計并定時發(fā)送給數(shù)據(jù)處理層;對于每個交易模塊單比的性能數(shù)據(jù),使用采樣率過濾(如果是有異常信息的則不被過濾然后發(fā)送給數(shù)據(jù)處理層。3、數(shù)據(jù)處理層接收到性能數(shù)據(jù),將他們儲存到數(shù)據(jù)庫中,并進(jìn)行一些計算分析,包括交易線統(tǒng)計分析、交易模塊統(tǒng)計分析和應(yīng)用統(tǒng)計分析,將分析結(jié)果儲存在數(shù)據(jù)庫中,供歷史查詢和報表使用;同時,當(dāng)性能統(tǒng)計信息更新或告警發(fā)生時,數(shù)據(jù)處理層會通知數(shù)據(jù)展示層,數(shù)據(jù)展示層將負(fù)責(zé)協(xié)調(diào)刷新客戶端,以達(dá)到實時監(jiān)控的效果。4、用戶通過瀏覽器請求數(shù)據(jù)展示層加載監(jiān)控界面,ARMServer負(fù)責(zé)對登錄的用戶進(jìn)行權(quán)限控制;用戶使用基于flex技術(shù)的富客戶端頁面與后臺的ARMServer交互,以拓?fù)鋱D的方式觀察業(yè)務(wù)系統(tǒng)之間以及系統(tǒng)內(nèi)部交易模塊之間的關(guān)系,診斷系統(tǒng)瓶頸。ARMServer實時刷新客戶端界面,并負(fù)責(zé)處理用戶的操作請求。.3實時交易監(jiān)控對于收集到的交易性能信息,需要提供三種不同視角的實時監(jiān)控方式。分別是應(yīng)用視角、交易模塊視角和交易線視角,以實現(xiàn)從總體到局部的較為全面的業(yè)務(wù)監(jiān)控,每種視角均可以正確的展示異構(gòu)系統(tǒng)之間的交易串聯(lián)。附圖16.異構(gòu)系統(tǒng)交易線示意圖基于C語言開發(fā)的應(yīng)用系統(tǒng)之間:基于C語言開發(fā)的應(yīng)用系統(tǒng)的交易監(jiān)控是基于ARM4.1標(biāo)準(zhǔn)并改造應(yīng)用代碼后實現(xiàn)的,同時根據(jù)該標(biāo)準(zhǔn),應(yīng)用系統(tǒng)模塊和模塊之間、應(yīng)用系統(tǒng)之間通過傳遞Correlator實現(xiàn)交易線自動串聯(lián);基于Java開發(fā)的應(yīng)用系統(tǒng)之間以及系統(tǒng)內(nèi)部的異步調(diào)用:通過ARM4.1ForJAVA標(biāo)準(zhǔn),開發(fā)API產(chǎn)生并注入Correlator,以模擬上述基于C語言開發(fā)的應(yīng)用系統(tǒng)交易監(jiān)控實現(xiàn)方案;基于Java及C開發(fā)的應(yīng)用系統(tǒng)間調(diào)用:異構(gòu)系統(tǒng)之間的調(diào)用需要基于傳遞Correlator機(jī)制來實現(xiàn)自動串聯(lián)交易線,Java端模擬產(chǎn)生Correlator,C系統(tǒng)接收它并調(diào)用ARMAPI注入,系統(tǒng)將自動生成調(diào)用關(guān)系的交易線;反之亦然。業(yè)務(wù)交易在進(jìn)行流轉(zhuǎn)的同時,會將交易相關(guān)性參數(shù)(Correlator)依次傳遞到交易線各個模塊,系統(tǒng)通過獲取這一參數(shù),了解業(yè)務(wù)交易路徑、交易的同步異步信息等,以此將各交易模塊串聯(lián)起來生成交易拓?fù)?,并以圖形方式展示出來。同時系統(tǒng)能夠采集交易數(shù)據(jù),并進(jìn)行統(tǒng)計,生成單位時間內(nèi)的交易量、交易模塊單位時間內(nèi)的執(zhí)行失敗率、交易模塊的平均響應(yīng)時間等,對于上述性能指標(biāo),系統(tǒng)還提供歷史性能曲線,幫助管理員了解業(yè)務(wù)性能變化趨勢,避免可能產(chǎn)生的故障。附圖17.交易拓?fù)湔故鞠到y(tǒng)將從應(yīng)用的視角將定期采集到的交易進(jìn)行統(tǒng)計,計算一段時間內(nèi)的交易量和錯誤的交易模塊筆數(shù),并以拓?fù)鋱D的形式展現(xiàn)出來,應(yīng)用之間如果有跨系統(tǒng)的調(diào)用關(guān)系則用箭頭表附圖18.交易指標(biāo)展示.3.4交易狀態(tài)實時排名如下圖所示,系統(tǒng)將對每個應(yīng)用內(nèi)的首交易模塊的交易量和平均響應(yīng)時間(每個統(tǒng)計周期內(nèi)的交易量)分別進(jìn)行實時排序,以列表形式來顯示;從應(yīng)用實時監(jiān)控面板可導(dǎo)航到實時排名面板,從實時排名頁面可導(dǎo)航到交易模塊實時監(jiān)控面板。附圖19.交易狀態(tài)排名告警集成ARM產(chǎn)生的告警需發(fā)送給CMP系統(tǒng),并通過告警模塊來產(chǎn)生告警動作,監(jiān)控人員看見告警后,可導(dǎo)航到ARM系統(tǒng)的拓?fù)鋱D上,查看告警,進(jìn)行告警的確認(rèn)和清除。附圖20.交易告警明細(xì)交易告警視圖系統(tǒng)通過告警管理模塊對錯誤和超時的交易模塊產(chǎn)生告警。超時告警:當(dāng)模塊超時次數(shù)超過設(shè)定次數(shù)時,或是模塊單位時間內(nèi)超時次數(shù)與單位時間內(nèi)總筆數(shù)的比值超過設(shè)定值時,系統(tǒng)會產(chǎn)生相應(yīng)告警;錯誤告警:對錯誤碼進(jìn)行設(shè)置,系統(tǒng)將捕捉應(yīng)用系統(tǒng)上報的錯誤碼,并與設(shè)定值進(jìn)行比較,當(dāng)模塊單位時間內(nèi)錯誤次數(shù)與單位時間內(nèi)總筆數(shù)的比值超過設(shè)定值時,系統(tǒng)將產(chǎn)生告警。不同顏色顯示不同的告警級別,在交易拓?fù)渲锌梢灾庇^的展現(xiàn)故障點,精確定位故障環(huán)節(jié),提高運維人員的排障效率。附圖21.交易模塊告警視圖令歷史告警如下圖所示,對于ARM產(chǎn)生過的告警信息,用戶可通過界面查詢,查詢條件包括告警發(fā)生時間、交易模塊名稱和應(yīng)用名稱。附圖22.交易歷史告警.4交易查詢系統(tǒng)可根據(jù)交易相關(guān)信息包括主流水號、子流水號、發(fā)起系統(tǒng)、主交易碼、子交易碼、錯誤碼等對錯誤的交易環(huán)節(jié)進(jìn)行查詢,以列表的方式顯示所有負(fù)荷條件的交易模塊,用戶可以查看選中模塊的詳細(xì)信息,包括應(yīng)用名稱、應(yīng)用實例、交易名稱、交易實例、父交易實例、同步或異步調(diào)用、響應(yīng)時間、錯誤碼等。附圖23.異常交易查詢.4.2單筆交易實例查詢當(dāng)采樣率設(shè)置為100%時,系統(tǒng)將記錄每筆交易數(shù)據(jù)。根據(jù)交易相關(guān)信息用戶可以對單筆交易進(jìn)行查詢,查詢條件包括:主流水號、子流水號、發(fā)起系統(tǒng)、主交易碼、子交易碼、錯誤碼和交易狀態(tài)等,同時顯示整條交易線的拓?fù)?。附圖24.單筆交易業(yè)務(wù)查詢.5歷史交易綜合分析.5.1交易模塊指標(biāo)歷史回溯對于每個交易模塊的平均響應(yīng)時間、交易量以及最大響應(yīng)時間、最小響應(yīng)時間,以曲線圖的方式來反映指標(biāo)的變化趨勢,可通過選定時間范圍來查看。用橫向滾動條來調(diào)整橫軸的精確度(精確度越低,橫軸單位長度所表示的時間間隔越大,圖中包含的數(shù)據(jù)就越多,反之,精確度越高,局部的變化趨勢就越詳細(xì),精確度最高可以到每15秒一個性能數(shù)據(jù))。如下圖所示,面板上顯示了交易模塊PCHK_PRECHECK在一定時間內(nèi)的交易量,橫坐標(biāo)是時間,縱坐標(biāo)是交易量。附圖25.交易模塊指標(biāo)歷史回朔.5.2交易量相對業(yè)務(wù)系統(tǒng)比重計算系統(tǒng)計算出一段時間內(nèi)交易模塊的交易量占該交易所屬業(yè)務(wù)系統(tǒng)的總交易量的百分比,用圖表來顯示(在一張圖上顯示交易模塊交易量和應(yīng)用交易量兩條曲線,并標(biāo)識出每個點上的百分比,或繪制百分比曲線)。如下圖所示:面板上顯示了交易模塊0001_MAIN_ANS在一段時間內(nèi)的交易量,以及這個交易模塊所屬業(yè)務(wù)系統(tǒng)pltserver的交易量,通過此圖可直觀的看到交易模塊業(yè)務(wù)量占業(yè)務(wù)系統(tǒng)的比附圖26.交易量相對業(yè)務(wù)系統(tǒng)比重分析對于一段歷史時間的曲線分析圖,提供同比和環(huán)比曲線作為對比。令同比圖包括:按星期同比,例如將這個星期的星期一和上個星期的星期一來對比;按月同比,例如將這個月的15號和上個月的15號進(jìn)行對比;按年同比,例如將今年5月1日和去年5月1日進(jìn)行對比;令環(huán)比圖包括:按天環(huán)比,例如將今天的和昨天的性能數(shù)據(jù)做對比;環(huán)比即給定一個統(tǒng)計周期,將這個統(tǒng)計周期和上一個周期進(jìn)行對比,統(tǒng)計周期長短可配置。附圖27.業(yè)務(wù)指標(biāo)同比3.1.3.2基于無代理方式的業(yè)務(wù)交易監(jiān)控一個全面的應(yīng)用性能監(jiān)控管理解決方案通常需要實時監(jiān)控到所有的用戶,所有的應(yīng)用,并可以適應(yīng)企業(yè)網(wǎng)絡(luò)拓?fù)涞母淖兓蛟鲩L。通過安裝代理程序可以實現(xiàn)端到端的性能檢測或分析,但不可避免的是,無論采取在主機(jī)上安裝代理,或安裝被動式代理,主動式代理都有一定的局限性。當(dāng)如果需要對所有服務(wù)器,應(yīng)用,用戶或網(wǎng)段進(jìn)行監(jiān)控就意味著需要安裝大量的代理程序。因此,我們需要另一種方式,也就是無代理方式對整個系統(tǒng)進(jìn)行監(jiān)控。無代理業(yè)務(wù)交易監(jiān)控的特點包括:1.無代理網(wǎng)絡(luò)監(jiān)控我們可以通過連接核心交換機(jī)上的鏡像端口或監(jiān)控端口,可收集并發(fā)現(xiàn)所有網(wǎng)絡(luò)上的協(xié)議,服務(wù)器,端口以及用戶。同時,對IP(TCP和UDP)流量進(jìn)行分析,并可對其它IP或非IP流量進(jìn)行統(tǒng)計。針對不同網(wǎng)絡(luò)接口上采集到的相同的數(shù)據(jù)包,采用無重復(fù)數(shù)據(jù)包技術(shù)來保障數(shù)據(jù)采集的唯一性和無重復(fù)性,這一技術(shù)也用于多個探針采集到的同一IP數(shù)據(jù)流的處理,以此保障了對數(shù)據(jù)處理的準(zhǔn)確性。2.識別真實的應(yīng)用/網(wǎng)絡(luò)用戶自動通過IP地址,登陸名發(fā)現(xiàn)所有的網(wǎng)絡(luò)用戶。分別監(jiān)控記錄每一用戶,應(yīng)用,服務(wù)器的使用情況和性能。對于使用VPN登陸企業(yè)內(nèi)網(wǎng)的用戶,系統(tǒng)會自動識別出登陸名和用戶真實的IP地址。在基于網(wǎng)站的無代理監(jiān)控模式下,自動發(fā)現(xiàn)所有的訪問網(wǎng)站的用戶,監(jiān)控每一位用戶使用情況和性能表現(xiàn),并對網(wǎng)站用戶數(shù)進(jìn)行統(tǒng)計。在真實網(wǎng)站用戶統(tǒng)計中,往往使用不同的人工模擬代理的方式。3.通用TCP流量分析提供基于TCP交易的應(yīng)用響應(yīng)時間,錯誤率,可用率等性能指標(biāo)。所有的這些指標(biāo)適用于任何基于網(wǎng)絡(luò)的應(yīng)用和提供從鏈路層至?xí)拰拥膽?yīng)用控制。如需要應(yīng)用層的進(jìn)一步分析,可通過不同的協(xié)議解碼器實現(xiàn)。4.HTTP深度分析提供基于HTTP頁面的應(yīng)用層至表現(xiàn)層性能指標(biāo),使用HTTPHit-to算法??勺詣影l(fā)現(xiàn)網(wǎng)站所有的Web服務(wù);通過分析GET和POST請求來區(qū)分Web應(yīng)用。對于每個Web應(yīng)用(URL和相應(yīng)的GET/POST參數(shù))可監(jiān)控其使用,性能,HTTP錯誤率等指標(biāo)。HTTP性能指標(biāo)包括,正常和較慢頁面加載數(shù)量統(tǒng)計,頁面加載時間,網(wǎng)絡(luò)時間-服務(wù)器時間分別所占的時間,重定向時間,頁面大小,頁面吞吐。HTTP錯誤包括HTTP客戶端錯誤(錯誤代碼如未授權(quán),未發(fā)現(xiàn),其它)和HTTP服務(wù)器端錯誤。應(yīng)用錯誤通常是經(jīng)基于模式匹配的HTML內(nèi)容檢查后所得出。HTML分析包括支持Frame結(jié)構(gòu)的頁面分析(<IFRAME>/<FRAMESET>標(biāo)簽,并支持遞歸模式)。Frame結(jié)構(gòu)的頁面被看做一個頁面而非一組頁面,F(xiàn)rame結(jié)構(gòu)的頁面的監(jiān)控模式可自動或手工配置進(jìn)行監(jiān)控。5.業(yè)務(wù)交易分析HTTP業(yè)務(wù)交易是指在網(wǎng)站上,通過一組順序的URL頁面去執(zhí)行和業(yè)務(wù)相關(guān)的一系列操作。每一個業(yè)務(wù)交易都有自己的起始頁面,終止頁面和相關(guān)其它的一些頁面組成。以實時方式監(jiān)控所有網(wǎng)站用戶的業(yè)務(wù)交易。對于每一個業(yè)務(wù)交易,其監(jiān)控性能指標(biāo)包括執(zhí)行時間,實際步驟,以及各步驟,服務(wù)器處理時間,網(wǎng)絡(luò)消耗時間,和空閑時間的關(guān)系或時間比重。交易期間的錯誤不僅會出現(xiàn)在HTTP頁面報告也同樣會反映到交易報告中。6.SMTP分析SMTP分析提供EMAIL流量數(shù)據(jù),包括EMAIL字節(jié)數(shù),附件數(shù)量,SMTP服務(wù)器性能,比如處理時間和錯誤數(shù)。SMTP報表的用戶是EMAIL地址用戶。7.防火墻和負(fù)載均衡檢測監(jiān)控設(shè)備本身的延遲和丟失率。提供設(shè)備延遲時間,計算防火墻上被丟失的SESSION數(shù)8.網(wǎng)絡(luò)性能表現(xiàn)對被監(jiān)控的應(yīng)用的網(wǎng)絡(luò)性能,提供延遲(roundtriptime)和丟包率(retransmissions)。網(wǎng)絡(luò)性能往往作為應(yīng)用服務(wù)水平下降的一個原因-也就是,應(yīng)用服務(wù)是否受到網(wǎng)絡(luò)性能的影網(wǎng)絡(luò)性能表現(xiàn)可針對于單個用戶,應(yīng)用或服務(wù)器,并提供上傳和下傳兩方面評估參數(shù)。網(wǎng)絡(luò)延遲是TCPSESSION持續(xù)性的參數(shù)。9.應(yīng)用監(jiān)控對網(wǎng)絡(luò)上的每個應(yīng)用,服務(wù)器,用戶,可以按client-server和server-client分開監(jiān)測其流量(字節(jié),包帶寬使用,吞吐量等性能指標(biāo)。.1無代理采集探針采集探針將部署在關(guān)鍵網(wǎng)段,通常依附于交換機(jī)上的鏡像端口或監(jiān)控端口。通過無代理技術(shù),以被動方式從交換機(jī)的端口或分流器收集數(shù)據(jù)。以實時方式對采集信息按網(wǎng)絡(luò)用戶和應(yīng)用程序等進(jìn)行初步的元數(shù)據(jù)處理,對元數(shù)據(jù)進(jìn)行進(jìn)一步的分析和整理,以提供報表和告警觸發(fā)信息。.2數(shù)據(jù)分析服務(wù)通過讀取一個或多個探針收集的信息,在數(shù)據(jù)庫中,為每一個網(wǎng)站用戶,服務(wù)和URL建立相應(yīng)的性能指標(biāo)。數(shù)據(jù)的處理是以準(zhǔn)實時的方式進(jìn)行,因此可保證報表的準(zhǔn)確性和及時性。并且,所有的報表都可以以WEB的方式進(jìn)行訪問。數(shù)據(jù)庫不僅保存實時的各指標(biāo)性能數(shù)據(jù),還留有歷史紀(jì)錄,這樣可以方便地進(jìn)行趨勢分析和自動計算性能基線。.3高級診斷服務(wù)Web應(yīng)用通常采用復(fù)雜的多層(multi-tier)網(wǎng)站架構(gòu)?;贖TTP的應(yīng)用需要智能化的診斷,深入到Web用戶以表格、向?qū)Щ蛘弑闅v等各種形式動態(tài)交互的頁面。在這種情形下,網(wǎng)站的用戶故障診斷成為一項復(fù)雜的任務(wù)。網(wǎng)站的系統(tǒng)問題定位也變得非常具有挑戰(zhàn)性,以至經(jīng)常引起架構(gòu)部門、內(nèi)容設(shè)計部門和應(yīng)用管理部門難以化解的爭端。深入分析HTTP針對每個網(wǎng)站用戶、每個HTTP點擊、用戶請求的每個頁面分別收集數(shù)據(jù),這些數(shù)據(jù)存入數(shù)據(jù)庫,從而轉(zhuǎn)化為用戶-網(wǎng)站交互(Hit和Pages)的原子級別的診斷信息。由于這些詳細(xì)信息是根據(jù)業(yè)務(wù)模塊分別累積的,詳細(xì)的HTTP分析可以專注于單個用戶或者Web應(yīng)用的故障診斷,包括業(yè)務(wù)應(yīng)用、用戶和位置信息。詳細(xì)的分析是基于一系列可根據(jù)具體需求定制的報告進(jìn)行的。即時可通的報告包括頁面加載漸進(jìn)視圖、對請求時間、服務(wù)器時間、空閑時間、響應(yīng)時間以及他們之間在一個頁面加載內(nèi)的關(guān)系的做詳細(xì)評估。業(yè)務(wù)交易監(jiān)測將探針收集的數(shù)據(jù)定制可擴(kuò)展的報表,可以生成業(yè)務(wù)交易報表。即時可用的報表包括業(yè)務(wù)交易記分牌視圖和漸進(jìn)視圖。業(yè)務(wù)交易報表包含的信息有事務(wù)性能、利用率和出錯矩陣。漸進(jìn)視圖專注于事務(wù)執(zhí)行,用來展示事務(wù)之間的時間關(guān)系。最終用戶還可以深入至事務(wù)內(nèi)部的每個頁面。網(wǎng)站問題解決報表我們將構(gòu)建一個網(wǎng)站性能分析模型,用于找出導(dǎo)致基于HTTP的應(yīng)用性能下降的系統(tǒng)問題。系統(tǒng)問題的出現(xiàn)頻率、原因以及影響都被量化并和網(wǎng)絡(luò)、服務(wù)器、客戶端時延、內(nèi)容設(shè)計等關(guān)聯(lián)起來。根據(jù)特定單元的失敗導(dǎo)致的頁面加載緩慢的數(shù)量來量化系統(tǒng)問題的影響范圍和嚴(yán)重級別,然后將它們以一種便于理解的形式展示出來,以幫助IT人員重點解決那些最為嚴(yán)重的網(wǎng)站問題。業(yè)務(wù)模擬體驗來自Google和Microsoft的研究證明,即使是一秒鐘的延遲都會對用戶體驗、收入和品牌忠實度產(chǎn)生明顯影響。用戶一直渴望和要求更好的交互體驗和更快的響應(yīng)速度。當(dāng)用戶數(shù)和交易數(shù)量不斷增加,現(xiàn)有的系統(tǒng)運維風(fēng)險開始變大,而且越來越難以保證新版本發(fā)布后的擴(kuò)展性和穩(wěn)定性。用戶體驗的重要性不言而喻,那么通過怎樣的手段來保障用戶體驗是最有效的呢?業(yè)務(wù)模擬體驗管理,是衡量應(yīng)用性能最直觀的指標(biāo)?;A(chǔ)架構(gòu)的建設(shè)、應(yīng)用系統(tǒng)的開發(fā)運維,最終目標(biāo)是提供一個高效的業(yè)務(wù)運行平臺,隨著信息技術(shù)與業(yè)務(wù)的融合,用戶對于業(yè)務(wù)的接觸界面被虛擬化了。業(yè)務(wù)部門對于用戶體驗的掌控開始失效,而用戶體驗管理就是為了彌補(bǔ)這種狀況。而信息技術(shù)部門對于應(yīng)用運維的評價,已經(jīng)不能單純從單個網(wǎng)絡(luò)、系統(tǒng)、數(shù)據(jù)庫、應(yīng)用來進(jìn)行了,即使一切組件都運行正常,也難以確保用戶體驗良好,必須從真實用戶的實際體驗角度對運維進(jìn)行評價,才不致于片面失察。業(yè)務(wù)模擬體驗管理提供對于用戶行為和用戶體驗的完全可視性,它捕獲每一次用戶點擊,無論該點擊來自何種設(shè)備,何種瀏覽器類型,都提供24*7的全時性能和錯誤分析,繼而與動態(tài)生成的性能基線進(jìn)行比對,為IT運維與業(yè)務(wù)管理層提供快速直觀的故障診斷報告業(yè)務(wù)模擬體驗管理作為業(yè)務(wù)服務(wù)管理的重要組成部分,完全以最終用戶的角度,通過自動對系統(tǒng)的模擬操作,記錄并分析模擬體驗結(jié)果從而度量用戶敏感度高的客戶接觸類業(yè)務(wù),為運維人員提供體統(tǒng)可用性、系統(tǒng)質(zhì)量的信息。業(yè)務(wù)模擬體驗管理以7×24小時不間斷的方式,主動地模擬用戶使用業(yè)務(wù)的行為,發(fā)現(xiàn)關(guān)鍵業(yè)務(wù)流程潛在的性能和可用性問題,建立預(yù)警機(jī)制,通過系統(tǒng)監(jiān)控管理生成業(yè)務(wù)體驗告警事件。業(yè)務(wù)模擬體驗管理目標(biāo)是借助端到端的模擬請求,找出體驗較差的業(yè)務(wù)流程,彌補(bǔ)系統(tǒng)監(jiān)控管理發(fā)現(xiàn)不了的缺陷。模擬功能管理現(xiàn)代Web或企業(yè)應(yīng)用的用戶體驗需要一個端到端、基于交易的方案?,F(xiàn)代應(yīng)用越來越多的調(diào)用第三方服務(wù),例如內(nèi)容分布式網(wǎng)絡(luò),廣告服務(wù)等等。而且,越來越多的代碼在瀏覽器端執(zhí)行以增加與用戶的互動性,虛擬化的基礎(chǔ)設(shè)施和云服務(wù)被采用以降低風(fēng)險和提供更大的靈活性。傳統(tǒng)方案只能看見傳輸?shù)椒?wù)器的網(wǎng)絡(luò)數(shù)據(jù)以及其攜帶的有限信息。我們將提供完全基于交易的端到端的用戶體驗管理功能。第一次實現(xiàn)對真實用戶體驗、行為等信息的管理能力,能夠全面了解使用任何設(shè)備的用戶,從點擊鼠標(biāo)到最終數(shù)據(jù)庫的整體性能??梢暬瘜崟r交易流即使在最理想的狀態(tài)下,隔離性能問題仍然是非常有挑戰(zhàn)性的一件事,而對于今天復(fù)雜,分布式,動態(tài)的應(yīng)用,仍然沿用老的性能監(jiān)控工具去隔離性能問題幾乎是不可能的。實時交易流拓?fù)鋱D實時勾畫出穿越你的應(yīng)用環(huán)境中的每一個交易,包括全面的概覽,或者是某個出現(xiàn)性能偏移的交易,或者是作為特定SLA一部分的交易??梢钥吹绞悄囊粋€應(yīng)用組件被使用來處理這個交易,了解組件之間的互動關(guān)系以及層與層之間交互時的性能影響,展示一個交易在每層消耗的時間以及資源消耗比如CPU利用率。另外,交易流視圖也可以展現(xiàn)每次交易執(zhí)行時所調(diào)用的服務(wù)次數(shù),高亮產(chǎn)生性能瓶頸的問題類別。附圖28.可視化實時交易流端到端交易服務(wù)端到端的交易跟蹤,可以跨越WEB/WebServer/Java/.Net/C邊界,同時會記錄和捕捉上下文環(huán)境,例如用戶會話信息、方法參數(shù)、返回值,日志消息,異常詳細(xì)信息等。采用可視化的技術(shù)快速定位性能瓶頸。附圖29.端到端交易分析分析應(yīng)用在瀏覽端的性能可以深入分析應(yīng)用在瀏覽器端執(zhí)行的性能,包括Javascript執(zhí)行時間,頁面渲染時間,解析時間,網(wǎng)絡(luò)時間,服務(wù)器時間。附圖30.瀏覽器端性能分析分布部署模擬體驗點功能應(yīng)具備從不同地理位置發(fā)起業(yè)務(wù)體驗的能力。這些業(yè)務(wù)體驗發(fā)起地點應(yīng)部署在用戶體驗較差、性能問題多發(fā)地點,或者業(yè)務(wù)量較大的地點。所有體驗點都會把采集到的用戶體驗數(shù)據(jù)發(fā)送到業(yè)務(wù)管理平臺,按照小時、天、周、月、季度和年等時間周期進(jìn)行逐層聚合,便于進(jìn)行歷史數(shù)據(jù)分析。模擬體驗點歷史性能數(shù)據(jù)分析功能以業(yè)務(wù)為中心,按照模擬業(yè)務(wù)體驗發(fā)起時間、發(fā)起地點、業(yè)務(wù)響應(yīng)時間和業(yè)務(wù)體驗結(jié)果等維度進(jìn)行歷史數(shù)據(jù)分析,找出體驗較差的業(yè)務(wù)。經(jīng)過前期的系統(tǒng)建設(shè),運維體系中各個管理系統(tǒng)已經(jīng)采集并存儲了海量數(shù)據(jù),數(shù)據(jù)范圍涉及到了告警、性能、配置項、業(yè)務(wù)、運營、運維等多領(lǐng)域,如何將這些數(shù)據(jù)進(jìn)行有效的利用、分析,為系統(tǒng)分析、決策判斷提供準(zhǔn)確的依據(jù)成為系統(tǒng)發(fā)展的瓶頸。為更好的利用既有數(shù)據(jù),服務(wù)于業(yè)務(wù)運營,提升業(yè)務(wù)運營質(zhì)量,通過建設(shè)綜合分析平臺進(jìn)行綜合化的分析,分析中心主要面向管理人員、業(yè)務(wù)人員,維護(hù)人員,通過對既有數(shù)據(jù)進(jìn)行多視角、多維度的分析,直觀展示業(yè)務(wù)、應(yīng)用及系統(tǒng)的運行狀況、發(fā)展趨勢,最終為系統(tǒng)擴(kuò)容優(yōu)化、業(yè)務(wù)質(zhì)量提升提供運維數(shù)據(jù)支持。提供方便的查詢功能,可以通過導(dǎo)航對各專業(yè)的維度和指標(biāo)進(jìn)行簡單定制的查詢;提供多種統(tǒng)計分析能力,圍繞分析主題進(jìn)行不同角度、不同層次的數(shù)據(jù)分析,用戶能夠在頁面上快速實現(xiàn)指標(biāo)的對比分析、分布分析、同比分析、環(huán)比分析、趨勢分析等,從而形成一系列的指標(biāo)分析內(nèi)容;提供了靈活、易用的應(yīng)用展現(xiàn)功能,包括:圖、表、圖表結(jié)合、文字、符號等多種可視化界面;提供靈活的多維瀏覽展現(xiàn),用戶可以對數(shù)據(jù)進(jìn)行靈活的鉆取分析、切片旋轉(zhuǎn)分析,幫助發(fā)現(xiàn)數(shù)據(jù)之間潛在的、不易為人察覺的關(guān)系,洞悉業(yè)務(wù)發(fā)展規(guī)律;同時能夠?qū)⒎治鼋Y(jié)果自動生成所需要的報告;各種數(shù)據(jù)分析方法和操作方法——對比分析、分布分析、同比分析、環(huán)比分析、趨勢分析、閾值分析和鉆取分析、關(guān)聯(lián)分析、切片分析、旋轉(zhuǎn)分析、排序分析、數(shù)據(jù)導(dǎo)出,需根據(jù)主題分析內(nèi)容可選實現(xiàn)。故障分布分析CMP系統(tǒng)每天會產(chǎn)生數(shù)量眾多的告警信息,報表模塊從告警類型、告警級別、告警源等多個角度分析這些告警信息。提供按照日、周、月等不同時間粒度的告警明細(xì)和統(tǒng)計報表,幫助維護(hù)人員定位故障頻發(fā)點、故障多發(fā)時段,故障多發(fā)類型,分析故障發(fā)生原因,以采取有針對性的措施,盡量防止故障的發(fā)生。統(tǒng)計分析平臺提供關(guān)于當(dāng)前告警和歷史告警的查詢、統(tǒng)計和分析功能,并給出故障分析報告等信息,為透徹掌握系統(tǒng)運行情況提供分析數(shù)據(jù)。維護(hù)人員能夠通過報表查看和處理告警和故障,對系統(tǒng)運行狀況進(jìn)行快速總結(jié)和匯報;管理人員也能夠通過報表看到故障發(fā)生、處理、趨勢等數(shù)據(jù)和圖表,作為決策和考核的數(shù)據(jù)基礎(chǔ)。告警管理報表能夠提供以下信息:令當(dāng)前告警:提供了多種維度的當(dāng)前告警信息,方便查看各種需求的告警統(tǒng)計,為故障及時處理提供了告警和故障的有效展現(xiàn)工具,主要包括:告警列表查詢:以最小粒度1分鐘及時刷新當(dāng)前告警,并提供按照設(shè)備、告警類型、告警標(biāo)題、告警內(nèi)容、告警級別、告警狀態(tài)、發(fā)生時間、重復(fù)告警等條件的查詢功能,當(dāng)前告警可以鉆取(DrillDown)到詳細(xì)的告警信息。按照設(shè)備分布查詢:將告警按照不同設(shè)備統(tǒng)計嚴(yán)重告警/主要告警/次要告警/警告告警等告警,可以按照設(shè)備鉆?。―rillDown)到詳細(xì)的告警信息。自定義查詢:可以按照設(shè)備屬性、告警屬性、其它屬性、告警發(fā)生時間等條件進(jìn)行復(fù)合查詢。設(shè)備狀態(tài)圖:按照系統(tǒng)、主機(jī)、網(wǎng)絡(luò)、數(shù)據(jù)庫等分別組織的設(shè)備狀態(tài)的直觀展現(xiàn)工具圖表,可以將所有設(shè)備的主要屬性(如主機(jī)的CPU/內(nèi)存/Disk/Swap/磁盤/進(jìn)程/文件系統(tǒng)/通斷性等)的當(dāng)前狀態(tài),按照不同顏色顯示嚴(yán)重/主要/次要/警告/不確定/正常等不同狀態(tài),可以鉆取訪問到詳細(xì)的告警信息。令歷史告警:提供了多種維度的歷史告警信息,方便查看多種方式的告警統(tǒng)計,為故障處理的考核提供了數(shù)據(jù)基礎(chǔ),主要包括:按照不同的系統(tǒng)統(tǒng)計歷史告警按照不同的時長統(tǒng)計歷史告警,包括告警時長、處理時長、響應(yīng)時長等按照不同的告警類別統(tǒng)計歷史告警按照不同的告警級別統(tǒng)計歷史告警按照不同的設(shè)備統(tǒng)計歷史告警自定義統(tǒng)一和自定義查詢。附圖31.故障分析報表性能綜合分析系統(tǒng)運行情況性能報告是報表系統(tǒng)的重要內(nèi)容。報表模塊能夠提供各種性能KPI指標(biāo)報表,同時展現(xiàn)設(shè)定的性能指標(biāo)的門限值,使維護(hù)人員能夠通過報表系統(tǒng)了解IT系統(tǒng)、子系統(tǒng)的運轉(zhuǎn)狀況,分析運行趨勢,定位性能瓶頸,為合理的容量規(guī)劃和系統(tǒng)擴(kuò)容提供量化依可以將多種數(shù)據(jù)來源的后臺數(shù)據(jù)經(jīng)過計算、加工、整理、組織,形成系統(tǒng)設(shè)備的歷史性能數(shù)據(jù),并按照最終展現(xiàn)的報表要求,進(jìn)行各種時間粒度的聚合,從業(yè)務(wù)應(yīng)用的角度,將經(jīng)過聚合處理的數(shù)據(jù)按照各種維度進(jìn)行重新組織,方便地展現(xiàn)各級不同用戶需要的性能統(tǒng)計報令業(yè)務(wù)系統(tǒng)狀態(tài)報表各個業(yè)務(wù)系統(tǒng)的維護(hù)人員在日常運維過程中需要了解自己負(fù)責(zé)維護(hù)設(shè)備的Overview情況。因此,報表模塊提供了各業(yè)務(wù)系統(tǒng)的Overview報表,包括了該業(yè)務(wù)系統(tǒng)所屬設(shè)備列表(可DrillDown察看明細(xì)資產(chǎn)數(shù)據(jù))、當(dāng)前設(shè)備告警情況(可DrillDown察看明細(xì)告警數(shù)據(jù))、若干主要性能指標(biāo)的TopN報表(可DrillDown察看性能明細(xì)數(shù)據(jù))。性能查詢報表對于服務(wù)器、數(shù)據(jù)庫、中間件等的性能報表提供靈活的明細(xì)數(shù)據(jù)查詢功能。能夠?qū)π畔⒌膬?nèi)容條目設(shè)置查詢條件,也能夠?qū)χ饕臈l目進(jìn)行復(fù)合條件的組合過濾查詢。在用戶設(shè)置如時間、日期等查詢條件時,可以對輸入內(nèi)容的合法性進(jìn)行檢查。能夠提供性能指標(biāo)的橫向比對和縱向比對的功能。橫向比對即若干臺設(shè)備的同一個或幾個性能指標(biāo)在同一時間段內(nèi)的性能曲線比對,縱向比對即同一臺設(shè)備的某幾個性能指標(biāo)的當(dāng)前情況與昨日、上周、上月、往年同期的比對分析。對于通過折線圖展現(xiàn)的多指標(biāo)報表,可以區(qū)分到底哪條曲線代表哪個指標(biāo),能夠?qū)Σ煌闹笜?biāo)加以不同的標(biāo)記。同一張報表中展示多個指標(biāo),而這些指標(biāo)的單位不同,可能是數(shù)量、時間、百分比等,報表模塊提供同時展現(xiàn)多個坐標(biāo)軸的功能。用戶在查看性能指標(biāo)數(shù)據(jù)的同時也可以查看到這些性能指標(biāo)的告警門限,以直觀的了解在一段時間內(nèi)該指標(biāo)的變化情況。如果用戶需要了解某些指標(biāo)對另外一個重要指標(biāo)構(gòu)成的壓力情況,還提供在同一張報表中展示不同指標(biāo),指標(biāo)狀態(tài)和變化趨勢可以分別用柱圖、折線圖表示。附圖32.性能分析報表資產(chǎn)分析對于用戶關(guān)心的IT系統(tǒng)的資源資產(chǎn)情況,可以通過資源資產(chǎn)分析報表獲得。提供按照生產(chǎn)廠商、業(yè)務(wù)系統(tǒng)、設(shè)備型號、設(shè)備類型、聯(lián)系部門、地理位置等多種維度組合查詢功能,容量規(guī)劃容量規(guī)劃使維護(hù)人員能夠清晰地了解IT系統(tǒng)中各種設(shè)備、軟件、應(yīng)用的資源配置情況。報表查詢可以按照整體統(tǒng)計或設(shè)備明細(xì)進(jìn)行,通過統(tǒng)計報表的向下鉆取也可得到明細(xì)報表。資源資產(chǎn)報表為用戶提供了翔實的數(shù)據(jù),為維護(hù)人員、管理人員掌控系統(tǒng)資源信息,充分了解系統(tǒng)資源配置情況提供非常便利的工具。資源資產(chǎn)報表還提供在指定時間段內(nèi)資產(chǎn)配置信息發(fā)生變化的配置變化報表。附圖33.資產(chǎn)分析報表批注[雨林木風(fēng)8]:加入虛擬化容量規(guī)劃附圖34.容量規(guī)劃視圖附圖35.容量趨勢報表.1.1主機(jī)容量規(guī)劃主機(jī)容量規(guī)劃是指依據(jù)對歷史數(shù)據(jù)分析結(jié)果,形成評估模型,可以通過業(yè)務(wù)增漲量評估主機(jī)應(yīng)具備的運算能力(TPC-C值與內(nèi)存需求量從而為支撐部門按業(yè)務(wù)量進(jìn)行主機(jī)擴(kuò)容提供參考依據(jù)。.1.1.1規(guī)劃要素規(guī)劃要素包括:分析模型、分析變量、分析常量、分析結(jié)果。主機(jī)容量數(shù)據(jù)要素包括:主機(jī)型號、TPCC值、CPU主頻與數(shù)量、內(nèi)存容量、CPU利用率、內(nèi)存利用率。主機(jī)容量按指定的忙時,提取單臺采集主機(jī)容量指標(biāo),數(shù)據(jù)來源為性能數(shù)據(jù)或系統(tǒng)狀態(tài)快照文件。業(yè)務(wù)數(shù)據(jù)的內(nèi)容包括:業(yè)務(wù)指標(biāo)名稱、業(yè)務(wù)指標(biāo)量、業(yè)務(wù)指標(biāo)的統(tǒng)計周期、需要使用的系統(tǒng)資源名稱,以及完成業(yè)務(wù)量處理所需要的運行時長。.1.1.2規(guī)劃方法TPC-C評估方法TPC-C測試基準(zhǔn)主要用于計算主機(jī)服務(wù)器每分鐘能夠處理的聯(lián)機(jī)交易筆數(shù),評估產(chǎn)生的單位結(jié)果是TPM值(TransactionPerMinute,即每分鐘處理的交易比數(shù))。TPC-C雖然客觀的反映了各個計算機(jī)廠商的系統(tǒng)處理性能,并且測試基準(zhǔn)也在不斷完善以更加貼近現(xiàn)實應(yīng)用的交易環(huán)境,但是仍然無法與紛繁多樣的各類實際應(yīng)用完全吻合;而且參加TPC測試的主機(jī)系統(tǒng)都做了適當(dāng)程度的系統(tǒng)優(yōu)化。因此,在實際業(yè)務(wù)應(yīng)用系統(tǒng)選擇主機(jī)服務(wù)器乘載體時,必須考慮到多方面的因素,以最大程度的做到適合應(yīng)用系統(tǒng)的生產(chǎn)需內(nèi)存量估計方法首先根據(jù)數(shù)據(jù)庫容量算出所需的數(shù)據(jù)庫緩存大小,再估計出操作系統(tǒng)、系統(tǒng)軟件等所需內(nèi)存,再根據(jù)按合理的利率計算出的值,即是所需的內(nèi)存容量。公式如下:TOTAL_MEM=(OS_BASE_MEM+OS_HA_MEM+APP_MEM+DB_SYS_MEM+DB_CACHE_MEM)/Good_Rate其中:OS_BASE_MEM:操作系統(tǒng)所占的內(nèi)存量OS_HA_MEM:雙機(jī)熱備等系統(tǒng)軟件所占的內(nèi)存量APP_MEM:應(yīng)用程序所占的內(nèi)存量DB_SYS_MEM:數(shù)據(jù)庫管理系統(tǒng)所占的內(nèi)存量DB_CACHE_MEM:數(shù)據(jù)庫緩存內(nèi)存量Good_Rate:合理的內(nèi)存利用率,建議:75%.1.1.3規(guī)劃結(jié)論以業(yè)務(wù)量預(yù)測值為基礎(chǔ),給出滿足預(yù)測值的主機(jī)容量建議。.1.2數(shù)據(jù)庫容量規(guī)劃根據(jù)數(shù)據(jù)庫容量評估得到的趨勢圖,形成DB容量要素指標(biāo)和數(shù)據(jù)量的變化模型,通過數(shù)據(jù)增量評估數(shù)據(jù)庫要素指標(biāo)的增量,從而得到規(guī)劃的數(shù)據(jù)量對應(yīng)的的數(shù)據(jù)庫要素指標(biāo),為支撐部門按業(yè)務(wù)量規(guī)劃DB容量要素提供參考依據(jù)。批注[雨林木風(fēng)批注[雨林木風(fēng)9]:.1.2.1規(guī)劃要素令數(shù)據(jù)庫容量要素:硬件因素:包括表空間增量、內(nèi)存增量;調(diào)整參數(shù)因素,包括游標(biāo)增量、會話增量、進(jìn)程增量、鎖增量、任務(wù)隊列增量;.1.2.2規(guī)劃方法根據(jù)數(shù)據(jù)庫容量評估得到的趨勢圖,形成DB容量要素與業(yè)務(wù)量的變化模型,根據(jù)評估模型,形成DB容量要素增量的關(guān)系。.1.2.3規(guī)劃結(jié)論根據(jù)評估方法模型得到數(shù)據(jù)庫的容量規(guī)劃,為支撐部門按業(yè)務(wù)量規(guī)劃DB容量提供參考依據(jù)。容量規(guī)劃主要是建立未來系統(tǒng)擴(kuò)容計劃。通過容量評估已經(jīng)可以得到系統(tǒng)支持的最大業(yè)務(wù)量,但是無法通過業(yè)務(wù)量趨勢分析得到到達(dá)最大業(yè)務(wù)量的時間。容量規(guī)劃可以通過對現(xiàn)有系統(tǒng)平臺指標(biāo)的趨勢分析,獲得平臺指標(biāo)到達(dá)閥值的時間。通過以上分析可以在業(yè)務(wù)量不明的情況下進(jìn)行系統(tǒng)容量規(guī)劃,獲得擴(kuò)容的時間點。同時,當(dāng)獲得業(yè)務(wù)部門預(yù)測未來的業(yè)務(wù)量是,可以通過系統(tǒng)交易模型反推出該業(yè)務(wù)量所需要的平臺指標(biāo)大小,進(jìn)而分析要支撐未來業(yè)務(wù)量所需要擴(kuò)容的項目和大小。.1.3虛擬化容量規(guī)劃針對虛擬及物理實體的容量進(jìn)行統(tǒng)一分析及預(yù)測由迅速增長和部署的虛擬服務(wù)器趨勢所推動。首先容量管理解決方案需要監(jiān)控并收集、過濾、歸一并分析所有物理及虛擬實體的性能及配置數(shù)據(jù),然后基于這些性能和配置數(shù)據(jù)以及可能的工作負(fù)載情況,預(yù)測未來的虛擬及物理實體對容量的需求狀況。虛擬化增加了數(shù)據(jù)中心的靈活性。但同時也增加了復(fù)雜度。有些服務(wù)器實施了虛擬化,有些則沒有。首先對虛擬及物理實體的性能及配置數(shù)據(jù)進(jìn)行收集,整合來自多種異構(gòu)性能數(shù)據(jù)源實例的性能數(shù)據(jù),并將這些數(shù)據(jù)標(biāo)準(zhǔn)化,在整合過程中實現(xiàn)自動抓取、標(biāo)準(zhǔn)化、同步和驗證來自多種普及供應(yīng)商和自定義數(shù)據(jù)源的性能數(shù)據(jù)。首先需要確保數(shù)據(jù)之間不存在差別,保證準(zhǔn)確性。如果需要,可以根據(jù)實際的業(yè)務(wù)和應(yīng)用生命周期,重新定義數(shù)據(jù)采集周期和指標(biāo)水平。企業(yè)肯定都擁有多個來源的性能和配置數(shù)據(jù),因此要求容量數(shù)據(jù)收集能支持單一儲存庫支持和利用所有來源數(shù)據(jù)。例如應(yīng)用一部分運行在VMware中,而另外一部分運行在HPMonitoring管理的UNIX/Linux服務(wù)器中,還有一部分則通過SAR或PerfMon進(jìn)行監(jiān)測,收集器可以提供集成的標(biāo)準(zhǔn)化數(shù)據(jù)集,從而實現(xiàn)報告和建模功能。即使獨特的數(shù)據(jù)源也可以在收集器中加以利用,實現(xiàn)最終的靈活性。收集器還包括開放式報告框架,可以在容量儲存庫中提供所有內(nèi)容的報告視圖。用戶能夠利用立即可用的集成報告,支持簡單的趨勢分析和應(yīng)用概要分析,或者他們能夠采用自己的報告編寫軟件,創(chuàng)建自己的報告。如果需要理解當(dāng)前應(yīng)用的運行情況,收集器可以實現(xiàn)圖形展示,無需額外的時間或部分精力。基于html的報告可以輕松實現(xiàn)與相關(guān)者的共享,以便促進(jìn)討論和決策支持。用戶還擁有可選項,利用預(yù)先定義的報表模板用于報告。容量管理解決方案其目的就是在盡可能確保容量滿足業(yè)務(wù)的服務(wù)水平的前提下節(jié)約成本。因此首先需要深入了解提供正確組合基礎(chǔ)設(shè)施的洞察力,并且通過醒目的執(zhí)行儀表板提批注[雨林木風(fēng)10]:加上其他幾條批注[雨林木風(fēng)10]:加上其他幾條供信息。再對比硬件供應(yīng)商和配置,確定哪種基礎(chǔ)設(shè)施組合可以采用最佳成本滿足服務(wù)水平要求。最后規(guī)劃并且定制傳統(tǒng)的或虛擬的環(huán)境,包括應(yīng)用環(huán)境。及早發(fā)現(xiàn)性能瓶頸,將風(fēng)險保持在最低程度,通過預(yù)測提前糾正。虛擬實體綜合分析通過分析虛擬實體的性能監(jiān)測數(shù)據(jù)可以發(fā)現(xiàn)已經(jīng)發(fā)生的問題,然而,當(dāng)用于構(gòu)建未來的績效模型時,這種數(shù)據(jù)沒有太大價值。已經(jīng)采集的數(shù)據(jù)利用價值在于,可以迅速創(chuàng)建應(yīng)用和基礎(chǔ)設(shè)施的準(zhǔn)確仿真模型,并且對它進(jìn)行虛擬變更,不會給生產(chǎn)系統(tǒng)帶來風(fēng)險。憑借超過90%的精確度,可以獲得所需的所有洞察力,從而做出明智的IT投資決策。一旦模型創(chuàng)建之后,可以應(yīng)用“假設(shè)分析”("what-if")場景來加以實現(xiàn)。譬如不斷更改的硬件供應(yīng)商、整合服務(wù)器、不斷增長的工作負(fù)載等等各種場景,有超過4000個硬件模型庫的組件可以輕松挖掘出這些可能的趨勢。在發(fā)生故障之前,便能識別出潛在的性能瓶頸,對需要投資領(lǐng)域的IT運行環(huán)境容量進(jìn)行規(guī)劃。一旦模型創(chuàng)建完成,可以采用內(nèi)置的執(zhí)行和運行報告,將基礎(chǔ)設(shè)施和應(yīng)用的詳細(xì)信息以報表的方式對IT和業(yè)務(wù)部門進(jìn)行展現(xiàn),容量管理解決方案支持開放式報告框架,所有建模相關(guān)的成果都可以在開放式XML結(jié)構(gòu)中提供,任何支持XML數(shù)據(jù)源的報告編寫軟件都可以獲得包含報告在內(nèi)的建模成果。容量管理解決方案還可以提供立即可用、與CrystalReports的額外集成,以實現(xiàn)執(zhí)行和自定義報告功能。通過利用專利預(yù)測分析技術(shù),結(jié)合真實世界的績效數(shù)據(jù)、建模、仿真、財務(wù)信息和決策支持儀表板,綜合分析解決方案可以提供對于虛擬和物理實體的容量信息的深入洞察能力和決策支持。運維管理綜合分析運維分析主要是對DCM系統(tǒng)的數(shù)據(jù)進(jìn)行分析,反映服務(wù)管理工作的質(zhì)量和效率,從而評估流程管理的有效性和效率。運維分析的維度可以按照事件流程、問題流程、需求流程、配置流程、變更流程、發(fā)布流程、服務(wù)請求運維流程進(jìn)行分類,分析指標(biāo)應(yīng)該涵蓋數(shù)量、解決率、及時率、響應(yīng)時長、中斷時長、重復(fù)率、成功率等,詳情請見下表:表格1.運維專題分析表維度主要指標(biāo)數(shù)量解決率及時率解決時長中斷時長重復(fù)率成功率事件管理√√√√√√√√√√√√統(tǒng)√√√√√√優(yōu)先級√√√√√√√√√√√√
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 超聲波和次聲波課件
- 《PDA發(fā)展與介紹》課件
- 單位管理制度展示大全【人事管理】十篇
- 單位管理制度展示大合集【人力資源管理篇】十篇
- 策略深度研究:當(dāng)前還有哪些高股息值得關(guān)注
- 全程編制棉絲絨項目可行性研究報告方案可用于立項及銀行貸款+201
- 2024-2026年中國微信公眾號市場調(diào)查研究及行業(yè)投資潛力預(yù)測報告
- 可行性項目研究報告電子類
- 2024河南金屬及金屬礦批發(fā)市場前景及投資研究報告
- 2025年鹽酸酯項目可行性研究報告
- 2024年人教版八年級語文上冊期末考試卷(附答案)
- 遼寧省大連市2023-2024學(xué)年高三上學(xué)期雙基測試(期末考試) 物理 含解析
- 勞務(wù)分包的工程施工組織設(shè)計方案
- 18項醫(yī)療質(zhì)量安全核心制度
- 智能終端安全檢測
- 新能源發(fā)電技術(shù) 電子課件 1.4 新能源發(fā)電技術(shù)
- DB34-T 4859-2024 農(nóng)村河道清淤規(guī)范
- 中學(xué)物業(yè)管理服務(wù)采購?fù)稑?biāo)方案(技術(shù)方案)
- 康復(fù)科年度工作亮點與展望計劃
- 冀教版二年級(上)數(shù)學(xué)加減乘除口算題卡
- 【期中考后反思】《反躬自省,砥礪奮進(jìn)》-2022-2023學(xué)年初中主題班會課件
評論
0/150
提交評論