IT自動化技術(shù)的研究與實(shí)施2012-06-25講述_第1頁
IT自動化技術(shù)的研究與實(shí)施2012-06-25講述_第2頁
IT自動化技術(shù)的研究與實(shí)施2012-06-25講述_第3頁
IT自動化技術(shù)的研究與實(shí)施2012-06-25講述_第4頁
IT自動化技術(shù)的研究與實(shí)施2012-06-25講述_第5頁
已閱讀5頁,還剩31頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、IT自動化技術(shù)的研究與實(shí)施信息系統(tǒng)部 趙永剛2012.6摘 要隨著IT建設(shè)的不斷深入和發(fā)展,IT運(yùn)維管理工作的復(fù)雜度和難度也大大增加,僅靠過去幾個“運(yùn)維英雄”或“技術(shù)大拿”來包打天下已經(jīng)行不通了,企業(yè)需要專業(yè)化、標(biāo)準(zhǔn)化和流程化的手段,來實(shí)現(xiàn)運(yùn)維工作的自動化管理,盡管目前的技術(shù)雖然能夠獲取IT設(shè)備、服務(wù)器、網(wǎng)絡(luò)流量,甚至數(shù)據(jù)庫的警告信息,但成千上萬條警告信息堆積在一起更本沒法判斷問題的根源在哪里,即使一個簡單的系統(tǒng)變更或更新往往都需要運(yùn)維人員逐一登錄每臺設(shè)備進(jìn)行手工變更,當(dāng)設(shè)備數(shù)量達(dá)至成百上千時,其工作量之大可想而知。本文對北京公司系統(tǒng)維護(hù)中心承擔(dān)的日常運(yùn)維作業(yè)任務(wù)進(jìn)行了詳細(xì)分析,根據(jù)北京公司具

2、有設(shè)備數(shù)量多、涉及業(yè)務(wù)系統(tǒng)多、支撐的業(yè)務(wù)復(fù)雜、周期性強(qiáng)、對任務(wù)結(jié)果核查要求快速、問題處理時限短等特點(diǎn),在符合北京公司的安全前提下,通過IT自動化的建設(shè),有針對性地提升維護(hù)作業(yè)任務(wù)內(nèi)容的規(guī)范化與執(zhí)行過程的自動化,從而實(shí)現(xiàn)日常運(yùn)維作業(yè)的電子化,減少人員登錄系統(tǒng)的頻繁操作,還能將異常情況直接呈現(xiàn)在管理員面前,達(dá)到高效維護(hù)IT設(shè)備的目的。目 錄1引言12業(yè)務(wù)場景分析12.1維護(hù)作業(yè)計(jì)劃12.2告警智能預(yù)處理52.3軟件自動裝載53技術(shù)架構(gòu)設(shè)計(jì)73.1總體說明73.2接口描述93.3與周邊系統(tǒng)協(xié)作流程104數(shù)據(jù)模型設(shè)計(jì)205系統(tǒng)功能實(shí)現(xiàn)215.1基礎(chǔ)功能215.2維護(hù)作業(yè)計(jì)劃265.3告警智能預(yù)處理30

3、5.4軟件自動裝載316總結(jié)341 引言隨著中國移動北京公司IT建設(shè)的不斷深入和發(fā)展,IT系統(tǒng)的運(yùn)行維護(hù)已經(jīng)成為了IT部門普遍關(guān)注和不堪重負(fù)的問題。國際知名調(diào)查機(jī)構(gòu)Gartner調(diào)查發(fā)現(xiàn),在IT運(yùn)維成本中,源自技術(shù)或產(chǎn)品(包括硬件、軟件、網(wǎng)絡(luò)等)成本其實(shí)只占20%,而流程維護(hù)成本占40%,運(yùn)維人員成本占40%。流程維護(hù)成本包括日常維護(hù)、變更管理、測試成本等;人員成本包括訓(xùn)練、教育、人員流失、招聘成本等。因此,如何提高IT運(yùn)維管理效率,降低運(yùn)維成本是時下IT界和CIO最熱門的話題之一。現(xiàn)在隨著IT運(yùn)維管理工作的復(fù)雜度和難度的大大增加,僅靠過去幾個“運(yùn)維英雄”或“技術(shù)大拿”來包打天下已經(jīng)行不通了,

4、企業(yè)開始需要運(yùn)用專業(yè)化、標(biāo)準(zhǔn)化和流程化的手段,來實(shí)現(xiàn)運(yùn)維工作的自動化管理。因?yàn)橥ㄟ^自動化監(jiān)控系統(tǒng)能及時發(fā)現(xiàn)故障隱患,主動的告訴用戶需要關(guān)注的資源,以達(dá)到防患于未然。例如,全天候自動檢測與及時報警能實(shí)現(xiàn)IT運(yùn)維的“全天候無人值守”,大大降低IT運(yùn)維人員的工作負(fù)擔(dān)。而且,通過自動化診斷能最大限度地減少維修時間,提高服務(wù)質(zhì)量。因此, 對于越來越復(fù)雜的IT運(yùn)維來說,將純粹的人工操作變?yōu)橐欢ǔ潭鹊淖詣踊芾硎且粋€重要發(fā)展趨勢。企業(yè)需要專業(yè)化、標(biāo)準(zhǔn)化和流程化的手段,來實(shí)現(xiàn)運(yùn)維工作的自動化管理,盡管目前的技術(shù)雖然能夠獲取IT設(shè)備、服務(wù)器、網(wǎng)絡(luò)流量,甚至數(shù)據(jù)庫的警告信息,但成千上萬條警告信息堆積在一起更本沒法

5、判斷問題的根源在哪里,即使一個簡單的系統(tǒng)變更或更新往往都需要運(yùn)維人員逐一登錄每臺設(shè)備進(jìn)行手工變更,當(dāng)設(shè)備數(shù)量達(dá)至成百上千時,其工作量之大可想而知。2 業(yè)務(wù)場景分析2.1 維護(hù)作業(yè)計(jì)劃維護(hù)作業(yè)計(jì)劃系統(tǒng)的主要目的是通過規(guī)范化的流程和靈活的任務(wù)制定策略,以確保周期性、重復(fù)性的工作任務(wù)合理規(guī)劃、確保執(zhí)行、及時完成,并嚴(yán)格控制作業(yè)執(zhí)行質(zhì)量。通過實(shí)現(xiàn)對現(xiàn)有設(shè)備的健康維護(hù)工作的規(guī)范化,從而壓制設(shè)備和業(yè)務(wù)系統(tǒng)的故障率。在制定維護(hù)作業(yè)計(jì)劃的同時,可以通過智能運(yùn)維平臺自動化調(diào)度巡檢任務(wù),實(shí)現(xiàn)對批量、重復(fù)的維護(hù)作業(yè)工作的自動化操作,從而降大大降低人力投入,并提高執(zhí)行效率。運(yùn)維人員每天要求對主機(jī)設(shè)備進(jìn)行巡檢,巡檢內(nèi)容

6、包括:cpu、內(nèi)存、文件系統(tǒng)、IO等內(nèi)容。例如客服系統(tǒng)日常維護(hù)作業(yè)計(jì)劃中,對小機(jī)的日常巡檢需要做的操作如下表所示:維護(hù)作業(yè)計(jì)劃實(shí)例表小型機(jī)日常維護(hù)作業(yè)計(jì)劃維護(hù)項(xiàng)目操作命令參考指標(biāo)檢查操作系統(tǒng)錯誤日志vi/var/adm/syslog/syslog.log無“WARNNING”、“ERROR”檢查包日志pkg1.log和pkg2.logvi/etc/cmcluster/icdpkg/tl.log無“WARNNING”、“ERROR”檢查啟動日志vi /var/adm/rc.log無“WARNNING”、“ERROR”檢查內(nèi)存vmstat 2 10 或 topFree memory大于100MBp

7、i、po為零檢查CPUsar 2 10 或topIdle大于30%wio小于30%urs大于2sys檢查I/Osar -d 2 10BUSY應(yīng)小于90%KB_READKB_WRITE小于10MB檢查swap區(qū)Swapinfo atm檢查硬盤空間bdf呼叫中心所用各邏輯卷%used小于90%維護(hù)作業(yè)計(jì)劃總體流程示意圖如下:附圖1. 維護(hù)作業(yè)計(jì)劃總體流程示意圖通過維護(hù)作業(yè)計(jì)劃系統(tǒng)完成主機(jī)設(shè)備自動巡檢的具體步驟如下:1. 維護(hù)作業(yè)計(jì)劃制定維護(hù)作業(yè)計(jì)劃管理員通過作業(yè)計(jì)劃管理系統(tǒng)制定一個針對客服系統(tǒng)小機(jī)設(shè)備進(jìn)行巡檢的維護(hù)作業(yè)任務(wù)單。在工單中寫明要求接受巡檢主機(jī)的設(shè)備目錄及巡檢指標(biāo),并制定每天的巡檢開始時

8、間和結(jié)束時間等必要信息2. 設(shè)備巡檢操作維護(hù)作業(yè)計(jì)劃執(zhí)行人確認(rèn)工單后,依據(jù)維護(hù)作業(yè)任務(wù)單的內(nèi)容,開始巡檢工作。根據(jù)不同設(shè)備類型的巡檢要求,在自動巡檢操作界面,選擇或創(chuàng)建巡檢腳本,并填寫對應(yīng)的基線信息,如性能基線,配置基線等。如果巡檢中發(fā)現(xiàn)問題,可以通過智能運(yùn)維平臺完成修復(fù)操作。3. 巡檢結(jié)果通知與確認(rèn)巡檢任務(wù)結(jié)束后,巡檢任務(wù)執(zhí)行人向作業(yè)計(jì)劃系統(tǒng)回執(zhí)巡檢任務(wù)單完成。同時巡檢任務(wù)結(jié)束后要利用通知功能將巡檢結(jié)果向相關(guān)負(fù)責(zé)人員通報。最終由負(fù)責(zé)人完成對本次巡檢任務(wù)的確認(rèn)。4. 定制巡檢報表與巡檢報告巡檢報表和巡檢報告用來客觀反映運(yùn)維人員的巡檢工作情況。運(yùn)維人員根據(jù)工作需要定制巡檢報表和巡檢報告樣式與內(nèi)容

9、,并將其發(fā)送給相關(guān)人員。5. 維護(hù)作業(yè)的自動化在主機(jī)設(shè)備自動巡檢描述的場景中,可以將具備固化可能的巡檢的任務(wù)固化,由智能運(yùn)維平臺統(tǒng)一調(diào)度執(zhí)行,從而實(shí)現(xiàn)巡檢的自動化和違規(guī)結(jié)果的自動修復(fù),構(gòu)建閉合的維護(hù)作業(yè)計(jì)劃。維護(hù)作業(yè)的自動化可以提自動巡檢的效率,降低人力投入成本,同時降低人為操作的失誤風(fēng)險,進(jìn)一步確保巡檢操作的規(guī)范性。下圖為維護(hù)作業(yè)計(jì)劃總體流程與維護(hù)作業(yè)計(jì)劃示意圖:附圖2. 維護(hù)作業(yè)計(jì)劃的自動化流程示意圖維護(hù)作業(yè)的自動化實(shí)現(xiàn)場景如下:1. 創(chuàng)建自動巡檢任務(wù)維護(hù)作業(yè)計(jì)劃執(zhí)行人在接到巡檢任務(wù)單后,經(jīng)過判斷和總結(jié),確定可以將對客戶系統(tǒng)小機(jī)設(shè)備的該巡檢任務(wù)加以固化,并利用智能運(yùn)維平臺的集成調(diào)度功能實(shí)現(xiàn)

10、自動化的腳本調(diào)度。并在自動化流程的必要節(jié)點(diǎn)中,設(shè)定邏輯判斷依據(jù)、傳遞參數(shù)內(nèi)容的以及設(shè)定基線比對規(guī)則。從而完成符合維護(hù)作業(yè)計(jì)劃要求的自動化巡檢任務(wù)定制。創(chuàng)建自動修復(fù)任務(wù)制定對巡檢結(jié)果的邏輯判斷,根據(jù)判斷結(jié)果調(diào)度自動修復(fù)腳本或觸發(fā)修復(fù)工具,同時根據(jù)自動通知策略自動發(fā)起通知。自動巡檢任務(wù)和修復(fù)任務(wù)與維護(hù)作業(yè)計(jì)劃模板進(jìn)行關(guān)聯(lián)通過智能運(yùn)維平臺的自動化流程控制器,將自動巡檢任務(wù)和自動修復(fù)任務(wù)與維護(hù)作業(yè)計(jì)劃模板相關(guān)聯(lián),確保維護(hù)作業(yè)計(jì)劃任務(wù)下發(fā)時自動觸發(fā)智能巡檢,巡檢結(jié)束后根據(jù)結(jié)果判斷是否 調(diào)度修復(fù)任務(wù)。2. 維護(hù)作業(yè)計(jì)劃自動實(shí)施巡檢任務(wù)將隨著每天作業(yè)計(jì)劃任務(wù)單的下發(fā)而自動實(shí)施,實(shí)施結(jié)束后有智能運(yùn)維平臺調(diào)度作

11、業(yè)計(jì)劃管理更新自動更新作業(yè)計(jì)劃任務(wù)工單狀態(tài)。最終實(shí)現(xiàn)維護(hù)作業(yè)計(jì)劃的自動實(shí)施2.2 告警智能預(yù)處理告警智能預(yù)處理功能,主要是借助智能運(yùn)維平臺的自動化技術(shù),實(shí)現(xiàn)對可固化的事故解決方法進(jìn)行自動化的執(zhí)行,從而提高該類故障解決效率,降低人力投入成本和人為失誤概率。下面對告警智能處理的過程進(jìn)行詳細(xì)描述,該過程主要涉及到事件管理、知識庫以及智能運(yùn)維平臺的自動化流程控制器。具體場景如下:l 告警診斷通過事件管理流程對故障進(jìn)行診斷。事件管理流程創(chuàng)建了一張內(nèi)容關(guān)于某業(yè)務(wù)系統(tǒng)服務(wù)器磁盤空間已滿的事件單,分配給事件解決人員處理解決。事件解決人受理發(fā)現(xiàn)是由于某進(jìn)程崩潰后在root文件系統(tǒng)下產(chǎn)生了較大coredump文件

12、,導(dǎo)致該文件系統(tǒng)被寫滿。事件解決人清空coredump文件后,系統(tǒng)恢復(fù)正常。l 關(guān)聯(lián)知識庫的知識條目事件解決人經(jīng)過驗(yàn)證和總結(jié)發(fā)現(xiàn)該事件處理過程可以固化,便在智能運(yùn)維平臺中創(chuàng)建清空coredump文件的自動化動作。并借助自動化流程控制器,將該自動化處理動作與知識庫相關(guān)聯(lián)。主動發(fā)起知識流程,將該類事件的解決方案列入知識入庫申請。審批通過后,該知識及即生效。l 自動實(shí)施知識條目中的處理任務(wù)今后出現(xiàn)同類故障,事件處理人可以在知識庫引用該知識,并由知識條目自動出發(fā)清空coredump文件的動作進(jìn)行處理。從而實(shí)現(xiàn)該類告警的智能處理。2.3 軟件自動裝載軟件自動裝載的目的是實(shí)現(xiàn)對批量設(shè)備或制定設(shè)備進(jìn)行自動化

13、的應(yīng)用部署、軟件或補(bǔ)丁的版本檢查以及基于策略的自動更新或者卸載。軟件自動裝載可以有效的規(guī)避操作失誤風(fēng)險,提升應(yīng)用發(fā)布效率。軟件裝載功能支持的軟件包括:網(wǎng)絡(luò)和服務(wù)器的操作系統(tǒng)、數(shù)據(jù)庫、中間件、應(yīng)用軟件、補(bǔ)丁等。軟件自動裝載的業(yè)務(wù)場景包括:安裝審查、軟件自動分發(fā)、軟件部署、安裝后回滾等四個。l 安裝審查在軟件或補(bǔ)丁自動部署之前,應(yīng)該將預(yù)先對被安裝設(shè)進(jìn)行安裝備檢,審查過程中將自動排查重復(fù)安裝或其它異常情況;同時檢查和安裝的作業(yè)自動關(guān)聯(lián)。l 軟件自動分發(fā)審查通過后,智能運(yùn)維平臺自動觸發(fā)軟件分發(fā)功能,基于分發(fā)策略對預(yù)備安裝該軟件的設(shè)備(或一批設(shè)備)進(jìn)行統(tǒng)一介質(zhì)分發(fā)。l 軟件部署操作人員制定工作軟件安裝部

14、署時間(可立即安裝也和定時安裝)并在在智能運(yùn)維平臺操作界面填寫軟件安裝必要的參數(shù),然后啟動軟件部署動作。l 安裝回滾如果某些設(shè)備的安裝失敗或錯安裝者需要卸載,可以指定設(shè)備執(zhí)行回滾操作,執(zhí)行后該設(shè)備自動回滾到?jīng)]安裝之前的狀態(tài)。3 技術(shù)架構(gòu)設(shè)計(jì)3.1 總體說明附圖3. 智能運(yùn)維平臺技術(shù)架構(gòu)u 協(xié)議適配層即南向接口。該層主要實(shí)現(xiàn)統(tǒng)一采集接口,不同采集組件實(shí)現(xiàn)松耦合。u 綜合指令服務(wù)引擎為其他模塊提供基礎(chǔ)功能服務(wù):網(wǎng)元連接的資源信息管理、腳本模板管理、云任務(wù)管理、任務(wù)管理、調(diào)度管理、告警處理等。u 自動巡檢完成日常巡檢的主要功能:網(wǎng)絡(luò)設(shè)備、主機(jī)、數(shù)據(jù)庫、中間件、業(yè)務(wù)應(yīng)用的巡檢功能,并提供巡檢報告、巡檢

15、報表、檢閱等功能。u 自動化流程控制器巡檢元任務(wù)所采集的數(shù)據(jù)均為各自獨(dú)立,沒有相互關(guān)系。此模塊提供將不同命令組合起邏輯關(guān)系,完成一個控制流程,給用戶解決實(shí)際的工作的所遇到的問題能夠真正提高用戶的生產(chǎn)效率。并為知識庫提供服務(wù),來實(shí)現(xiàn)知識的積累及復(fù)用,達(dá)到知識庫的共享及知識的固化作用,詳細(xì)請參考智能預(yù)處理節(jié)。附圖4. 自動化流程控制器配置界面示意圖提供圖形化界面,通過鼠標(biāo)的拖拉拽操作完成流程模板編輯,以方便執(zhí)行自動化流程作業(yè),提高用戶的生產(chǎn)效率。u 配置變更審計(jì)主要提供兩大功能:1. 提供采集信息與資源管理平臺的基準(zhǔn)信息對比,不一致時產(chǎn)生告警。2. 配置文件對比,通過兩步操作完成此功能。用戶選擇某

16、次巡檢結(jié)果,作為下次對比基準(zhǔn)。可以提供手工輸入基準(zhǔn)值。使用本次巡檢結(jié)果,與基準(zhǔn)對比,不一致時產(chǎn)生告警。告警內(nèi)容中給出對比的差異。u 軟件裝載完成軟件裝載、卸載、升級、回退、檢查等功能的獨(dú)立模塊??芍贫ú僮髁鞒棠0?、計(jì)劃;為簡化操作,最好提供模板復(fù)制功能。u 北向接口服務(wù)即北向接口。完成智能維護(hù)平臺與外圍系統(tǒng)協(xié)作時,對外提供服務(wù)的各種接口: 向運(yùn)維管理中心的發(fā)送事件工單(告警)接口; 運(yùn)維管理中心派發(fā)維護(hù)作業(yè)計(jì)劃接口; 向資源管理系統(tǒng)查詢配置信息接口。 向運(yùn)維管理中心、知識庫等外圍系統(tǒng)提供執(zhí)行作業(yè)任務(wù)接口。詳細(xì)信息請看下節(jié)接口描述。3.2 接口描述表格1. 智能運(yùn)維平臺與外圍系統(tǒng)接口接口源系統(tǒng)目

17、標(biāo)系統(tǒng)接口描述和信息項(xiàng)1智能運(yùn)維平臺資源管理系統(tǒng)查詢資源配置信息:資源ID,資源名稱,資源屬性信息;更新資源配置信息:資源ID,資源屬性ID,資源屬性值;2智能運(yùn)維平臺運(yùn)維管理中心派發(fā)事件工單:告警ID,告警標(biāo)題,告警類型,告警級別,告警內(nèi)容,工單ID;運(yùn)維管理中心智能運(yùn)維平臺執(zhí)行巡檢作業(yè)任務(wù):任務(wù)ID,執(zhí)行參數(shù);制定巡檢作業(yè)計(jì)劃:任務(wù)ID,時間周期,時間頻率3知識庫智能運(yùn)維平臺查詢?nèi)蝿?wù)信息:任務(wù)ID,任務(wù)名稱,任務(wù)描述,任務(wù)類別,參數(shù)說明;執(zhí)行任務(wù):任務(wù)ID,執(zhí)行參數(shù);4智能運(yùn)維平臺基線測量查詢基線:元任務(wù)ID,上基線,下基線,上容忍線,下容忍線;配置基線:元任務(wù)ID,上基線,下基線,上容忍

18、線,下容忍線;5智能運(yùn)維平臺堡壘主機(jī)telnet6智能運(yùn)維平臺PASM權(quán)限認(rèn)證信息3.3 與周邊系統(tǒng)協(xié)作流程3.3.1 智能預(yù)處理對告警根據(jù)事先定制好的告警處理知識庫進(jìn)行相應(yīng)處理,對已有告警進(jìn)行確認(rèn),以降低誤告警率,對可以自動化維護(hù)的告警進(jìn)行預(yù)處理并進(jìn)行相應(yīng)的數(shù)據(jù)采集并分析對其進(jìn)行設(shè)備告警指標(biāo)優(yōu)化,減少用戶的維護(hù)量,提高告警質(zhì)量,對不同告警進(jìn)行多步驟流程化分析。附圖5. 知識庫操作向?qū)д{(diào)用智能運(yùn)維平臺執(zhí)行自動化任務(wù)還可以通過對故障處理,總結(jié)、積累到知識庫中。并通過知識庫增加一個操作向?qū)?,固化對故障診斷、處理的經(jīng)驗(yàn)。附圖6. 智能預(yù)處理數(shù)據(jù)流圖其中,2是一個人工的過程,并沒有數(shù)據(jù)中【運(yùn)維管理中心

19、】和【知識庫】之間傳輸。3.3.2 軟件裝載附圖7. 軟件裝載流程圖由【運(yùn)維管理中心】發(fā)起一次軟件裝載任務(wù),下發(fā)給【智能運(yùn)維平臺】;由【軟件裝載】模塊負(fù)責(zé)執(zhí)行此任務(wù)。登錄到【網(wǎng)元】后,從【軟件包ftp服務(wù)器】下載軟件包;執(zhí)行安裝步驟;將安裝是否成功的信息發(fā)送給【運(yùn)維管理中心】。附圖8. 軟件裝載數(shù)據(jù)流圖3.3.3 配置變更審計(jì)附圖9. 配置變更審計(jì)發(fā)送不一致告警流程圖由【配置變更審計(jì)】模塊的巡檢調(diào)度,發(fā)起一次巡檢任務(wù)。首先,從【網(wǎng)元】上采集配置信息;然后,從【資源管理平臺】取得此配置信息的基準(zhǔn)值;對比兩個值,不一致時產(chǎn)生告警,向【運(yùn)維管理中心】派發(fā)事件工單。附圖10. 配置變更審計(jì)發(fā)送配置不一

20、致告警工單數(shù)據(jù)流圖3.3.4 派發(fā)告警工單流程附圖11. 派發(fā)告警工單數(shù)據(jù)流圖【自動巡檢】執(zhí)行巡檢任務(wù),如與異常或產(chǎn)生告警,通過【北向接口服務(wù)】向【運(yùn)維管理中心】派發(fā)事件工單。3.3.5 制定、執(zhí)行巡檢作業(yè)計(jì)劃附圖12. 巡檢作業(yè)計(jì)劃制定數(shù)據(jù)流圖【運(yùn)維管理中心】通過【北向接口服務(wù)】下發(fā)“巡檢作業(yè)任務(wù)”,執(zhí)行結(jié)果通過【北向接口服務(wù)】傳回【運(yùn)維管理中心】。3.3.6 自動變更附圖13. 自動變更數(shù)據(jù)流圖【運(yùn)維管理中心】向【智能運(yùn)維平臺】下發(fā)變更網(wǎng)元配置信息的任務(wù),【智能運(yùn)維平臺】負(fù)責(zé)修改網(wǎng)元上的配置;【運(yùn)維管理中心】確認(rèn)此修改成功后,修改【資源管理平臺】中的配置信息。3.3.7 與周邊模塊的關(guān)系附

21、圖14. 智能運(yùn)維平臺與外圍系統(tǒng)關(guān)系圖軟件裝載所使用的軟件安裝包存放在【文件服務(wù)器】上,在執(zhí)行軟件裝載時,智能運(yùn)維平臺將軟件安裝包從【文件服務(wù)器】下載,傳輸?shù)奖还苤鳈C(jī),執(zhí)行安裝動作。【智能運(yùn)維平臺】執(zhí)行采集命令(登錄網(wǎng)元上操作),是通過【堡壘主機(jī)】建立的通道完成的,執(zhí)行權(quán)限通過【4A】系統(tǒng)控制。智能運(yùn)維平臺通過【中國移動業(yè)務(wù)支撐網(wǎng)絡(luò)運(yùn)營管理系統(tǒng)】內(nèi)的【權(quán)限管理】模塊完成用戶操作權(quán)限控制。【知識庫】的操作向?qū)?,需調(diào)用【智能運(yùn)維平臺】中【自動化流程控制器】提供的服務(wù)完成智能預(yù)處理?!具\(yùn)維管理中心】通過【智能運(yùn)維平臺】北向接口提供的服務(wù)完成巡檢作業(yè)計(jì)劃、部署、執(zhí)行?!局悄苓\(yùn)維平臺】在完成配置變更審計(jì)

22、功能時,需取得【資源管理平臺】的配置信息,作為比對的基準(zhǔn)值。4 數(shù)據(jù)模型設(shè)計(jì)智能運(yùn)維平臺數(shù)據(jù)模型如下:附圖15. 智能運(yùn)維平臺數(shù)據(jù)模型節(jié)點(diǎn):是一種抽象概念,包含【開始】、【條件】、【循環(huán)】、【分支】、【合并】、【結(jié)束】節(jié)點(diǎn),模板也是一種節(jié)點(diǎn)。服務(wù):也是一種抽象概念,包含【巡檢作業(yè)服務(wù)】、【自動化流程服務(wù)】。模板:包含有【指令】、【腳本解析】、【告警基線】。元任務(wù):一個【模板】和一個【資源】的組合。任務(wù):一組【元任務(wù)】的組合。調(diào)度:一個【任務(wù)】與一個時間周期的組合。時間周期有日、周、月、節(jié)假日、一次性。資源:網(wǎng)絡(luò)、主機(jī)等,也可以是數(shù)據(jù)庫、中間件和業(yè)務(wù)應(yīng)用系統(tǒng)。指令:采集配置項(xiàng),巡檢作業(yè)使用的操作

23、指令,可以是shell命令、數(shù)據(jù)庫SQL語句、SNMP的GET指令、JMX的一個對象、等。解析腳本:使用腳本解析引擎對指令執(zhí)行結(jié)果格式化的配置腳本。告警基線:告警對比使用的靜態(tài)閾值或動態(tài)閾值。5 系統(tǒng)功能實(shí)現(xiàn)5.1 基礎(chǔ)功能5.1.1 資源管理巡檢作業(yè)中使用的資源,如管理其登錄的用戶名、密碼、IP地址、管理方式、廠商、版本、型號等信息的維護(hù)功能。【主要功能】u 系統(tǒng)有豐富的資源組織模式,資源管理方式多樣性可以適應(yīng)不同用戶對資源的個性化組織。同時資源維度的可任意擴(kuò)展性使得系統(tǒng)可以對不同的資源維度進(jìn)行個性化配置。并以列表的形式展現(xiàn)巡檢系統(tǒng)中所有維度的信息。對維度信息可以執(zhí)行添加、刪除、編輯的操作。

24、u 可以通過excel文件方式進(jìn)行批量資源導(dǎo)入,減輕了用戶資源導(dǎo)入的工作量。簡化了系統(tǒng)資源配置流程。u 智能運(yùn)維平臺能發(fā)現(xiàn)各種資產(chǎn)信息和配置信息,包括: 硬件:CPU,處理器速度,處理器/架構(gòu),BIOS,描述信息,MAC地址,制造商,型號, 磁盤,存儲卡等等。 操作系統(tǒng):DNS名稱,IP地址,開放的TCP端口,操作系統(tǒng)類型,網(wǎng)絡(luò)設(shè)定,軟件補(bǔ)丁,系統(tǒng)名稱,用戶,用戶組,注冊表,COM+, 安全設(shè)定,服務(wù)等等。 軟件:可以發(fā)現(xiàn)注冊到系統(tǒng)中的MSI,RPM,LPAR,Depot等標(biāo)準(zhǔn)軟件包信息,同時,發(fā)現(xiàn)功能內(nèi)置的應(yīng)用簽名,還可以發(fā)現(xiàn)和標(biāo)識常用的企業(yè)應(yīng)用軟件,如DB2, Websphere, Apa

25、che, Tomcat,SSH,LDAP,Oracle,SAP等等, 用戶可以通過擴(kuò)展應(yīng)用簽名標(biāo)注和發(fā)現(xiàn)自行開發(fā)的應(yīng)用。下圖所示為采集的Oracle的相關(guān)配置和數(shù)據(jù)表結(jié)構(gòu)信息:附圖16. Oracle配置信息管理示例 配置信息:智能運(yùn)維平臺,可以與統(tǒng)一資源庫進(jìn)行數(shù)據(jù)交互,通過對統(tǒng)一資源庫的數(shù)據(jù)讀取,可以獲取在應(yīng)用或操作系統(tǒng)的配置文件(如hosts, security, serviecs, route, web.xml, init.ora)中的配置項(xiàng)信息,如下圖所示的截圖為智能運(yùn)維平臺所收集并解析的數(shù)據(jù)配置項(xiàng)信息:附圖17. 主機(jī)配置文件信息管理示例 用命令或腳本自定義采集:智能運(yùn)維平臺還可以將

26、命令行或腳本輸出通過語法文件對象化,并轉(zhuǎn)化為配置項(xiàng)供用戶瀏覽,下圖為指令采集軟件配置文件的腳本:附圖18. 通過指令采集的配置文件信息5.1.2 模板管理主要對運(yùn)維管理中頻繁使用到的比對基線、操作腳本、存儲過程進(jìn)行規(guī)范化的管理,以實(shí)現(xiàn)各種部署操作高效、安全執(zhí)行。模板創(chuàng)建后要通過測試、專家評審才能固化在系統(tǒng)中使用。模板管理模塊可以將經(jīng)過驗(yàn)證、審核的模板進(jìn)行歸檔。【主要功能】u 腳本模板管理:支持腳本增加、刪除、修改、查詢功能;具有測試功能,支持執(zhí)行腳本及查看執(zhí)行結(jié)果功能;支持模板批量導(dǎo)入。如下圖所示:附圖19. 腳本模板示例圖u 基線模板管理:支持性能基線模板和配置基線模板的增加、刪除、修改、查

27、詢功能;支持通用審計(jì)規(guī)范模板的導(dǎo)入如SOX、PCI等;5.1.3 控制權(quán)限管理控制權(quán)限管理實(shí)現(xiàn)對IT運(yùn)維人員的集中操作權(quán)限控制,其中包括操作腳本權(quán)限和操作資源權(quán)限,操作管理的身份需到統(tǒng)一認(rèn)證平臺進(jìn)行認(rèn)證,本模塊可以做到基于角色的權(quán)限分配?!局饕δ堋縰 操作腳本權(quán)限,對于控制操作中定義好的各種腳本,可以設(shè)定某個操作員或者角色對該腳本是否具有編輯、執(zhí)行權(quán)限。腳本操作授權(quán)如下圖所示:u 操作資源權(quán)限,對于被管設(shè)備(包括網(wǎng)絡(luò)和主機(jī)),可以設(shè)置操作員是否可見的權(quán)限。附圖20. 基于角色的操作資源權(quán)限控制u 模板操作使用權(quán)限5.1.4 操作日志管理日志管理主要實(shí)現(xiàn)對系統(tǒng)維護(hù)過程、操作過程、任務(wù)進(jìn)程執(zhí)行過

28、程的日志記錄和管理,可以對操作的每一步處理過程日志進(jìn)行追蹤查詢?!局饕δ堋縰 操作日志查詢:可以按照不同操作員、執(zhí)行的操作、被管對象、操作時間、操作結(jié)果等進(jìn)行查詢統(tǒng)計(jì);u 支持對腳本及存儲過程的上傳、審批、運(yùn)行等操作進(jìn)行日志記錄。u 支持操作執(zhí)行結(jié)果審核,定期生成審核報告。5.1.5 自動化流程控制器自動化操作控制器主要用于復(fù)雜的任務(wù)調(diào)度和系統(tǒng)間的整合,將多種標(biāo)準(zhǔn)操作組合起來完成一個具體的管理任務(wù)。目的是協(xié)調(diào)調(diào)度運(yùn)維工作中各個環(huán)節(jié),通過自動化的流程控制器的可將多種服務(wù)、工具、腳本組裝執(zhí)行,以實(shí)現(xiàn)各種配置變更操作、日常檢查的自動化執(zhí)行、以及跨系統(tǒng)的流程化調(diào)度。【主要功能】u 圖形化的操作流程設(shè)

29、計(jì):支持拖拉拽的方式,完成操作流程的組裝,具備流程嵌套功能,支持邏輯判斷、for循環(huán)、流程分支、以及邏輯選擇等多種流程流轉(zhuǎn)動作。如下圖所示:附圖21. 自動化流程控制器流程設(shè)計(jì)界面u 自動化的集成與調(diào)度功能主要包括對智能運(yùn)維平臺內(nèi)部模塊調(diào)度和對平臺外部模塊的調(diào)度: 平臺內(nèi)部調(diào)度:可以協(xié)調(diào)調(diào)度平臺內(nèi)部的巡檢腳本、操作處理腳本、合規(guī)審計(jì)模塊、軟件裝載模塊、虛擬機(jī)管理模塊等,通過對內(nèi)部功能的組裝實(shí)現(xiàn)智能運(yùn)維平臺的集成調(diào)度整合自動化。 平臺外部調(diào)度:提供多種接口適配器,如WebService、Telnet等,可以快速簡單的實(shí)現(xiàn)與運(yùn)維中心的事件管理、變更管理、作業(yè)計(jì)劃管理等模塊的集成調(diào)度?;谑录?qū)動的

30、作業(yè)調(diào)度、靈活定時作業(yè)調(diào)度,構(gòu)建閉環(huán)的事件管理流程和變更管理流程。5.2 維護(hù)作業(yè)計(jì)劃自動巡檢是將日常運(yùn)維管理中所定義的日常巡檢操作任務(wù)通過工具自動化進(jìn)行,例如記錄和檢查設(shè)備的配置參數(shù)和運(yùn)行狀態(tài)。這些任務(wù)都是標(biāo)準(zhǔn)化的操作,可以通過定義和執(zhí)行巡檢規(guī)則來實(shí)現(xiàn)。通過定時自動執(zhí)行這些操作序列(巡檢任務(wù))實(shí)現(xiàn)無人值守的自動化巡檢,并生成相應(yīng)巡檢報告。自動巡檢主要包括巡檢作業(yè)計(jì)劃定制、巡檢作業(yè)部署、巡檢作業(yè)執(zhí)行、巡檢作業(yè)報告等功能,提升巡檢作業(yè)的效率、準(zhǔn)確性和全面性。5.2.1 巡檢作業(yè)計(jì)劃制定對巡檢作業(yè)的執(zhí)行進(jìn)行計(jì)劃制定、參數(shù)配置、腳本檢查等。【主要功能】u 管理員可以定義巡檢作業(yè),可以添加、修改、刪除

31、巡檢作業(yè)。u 巡檢作業(yè)中定義巡檢規(guī)則,包括巡檢對象、巡檢操作、結(jié)果檢查、時間間隔等參數(shù)。u 檢查的對象可以是配置文件、運(yùn)行參數(shù)、運(yùn)行狀態(tài)、安全設(shè)置等。智能運(yùn)維平臺所提供的細(xì)粒度配置項(xiàng)和強(qiáng)大智能判讀邏輯,以致一般的檢查規(guī)則無需編寫任何腳本,通過直觀的表達(dá)邏輯組合即可完成檢查設(shè)置。如下圖所示附圖22. 巡檢規(guī)則編輯示例圖u 巡檢操作可以是腳本,也可以是其它命令。u 定義自動巡檢任務(wù),和任務(wù)調(diào)度策略。管理員可以隨時執(zhí)行巡檢,也可以定義計(jì)劃表來自動執(zhí)行巡檢。計(jì)劃表包含日、周、月、節(jié)假日、一次性調(diào)度。調(diào)度樣式如下圖所示附圖23. 智能運(yùn)維平臺的普通調(diào)度界面附圖24. 節(jié)假日調(diào)度界面巡檢執(zhí)行中5.2.2

32、巡檢作業(yè)部署對制定好的巡檢作業(yè)進(jìn)行部署?!局饕δ堋縰 巡檢作業(yè)可以部署到一個配置項(xiàng)上,也可以部署到一組配置項(xiàng)上。配置項(xiàng)可以是網(wǎng)絡(luò)、主機(jī)等,也可以是數(shù)據(jù)庫、中間件和業(yè)務(wù)應(yīng)用系統(tǒng)。u 巡檢作業(yè)本身可以分組存放,可以單獨(dú)部署,也可以成組部署。5.2.3 巡檢操作巡檢過程中,提供巡檢控制界面,例如填寫巡檢參數(shù),修改巡檢腳本。巡檢結(jié)束后展現(xiàn)和通報巡檢結(jié)果,并提供基于巡檢結(jié)果的操作,如故障修復(fù)等。具備巡檢告警確認(rèn)功能。【主要功能】u 提供巡檢操作界面,可以靈活填寫巡檢參數(shù)、修改腳本。u 當(dāng)巡檢發(fā)現(xiàn)問題時,可以自動向告警管理發(fā)送告警信息。u 提清晰地巡檢結(jié)果展示界面,管理員可以利用在平臺建立的配置基線,即

33、將上一次的配置檢查結(jié)果保存為基線,巡檢結(jié)果可以和配置基線進(jìn)行對比,并以醒目的方式標(biāo)出變化情況。如下圖所示附圖25. 審計(jì)結(jié)果展示示例圖附圖26. 配置基線比對示例u 管理員可定義自動修復(fù)的操作,當(dāng)巡檢發(fā)現(xiàn)問題時,管理員可以根據(jù)需要選擇自動修復(fù)或是手工修復(fù)。5.2.4 巡檢作業(yè)報告對巡檢作業(yè)執(zhí)行狀況進(jìn)行匯總,形成巡檢報告?!局饕δ堋縰 巡檢結(jié)果可以生成報告,支持導(dǎo)出到多種格式,包括PDF、Excel、CSV等。u 提供郵件方式自動發(fā)送訂閱報表的功能,巡檢結(jié)果報告可以自動發(fā)送到指定的郵箱里。5.2.5 巡檢作業(yè)報表對巡檢作業(yè)中所有執(zhí)行結(jié)果的統(tǒng)計(jì)。展現(xiàn)巡檢系統(tǒng)中所有巡檢結(jié)果的作業(yè)概況。以表格形式展

34、示所有巡檢任務(wù)當(dāng)日的執(zhí)行情況,并可鉆取到巡檢任務(wù)執(zhí)行結(jié)果報表和巡檢元任務(wù)執(zhí)行結(jié)果報表?!局饕δ堋縰 展現(xiàn)某維度當(dāng)日作業(yè)結(jié)果的作業(yè)概況。以標(biāo)簽的形式對巡檢結(jié)果進(jìn)行篩選,按巡檢匯聚類別分:日作業(yè)結(jié)果、周作業(yè)結(jié)果、月作業(yè)結(jié)果、節(jié)假日作業(yè)結(jié)果、一次性作業(yè)結(jié)果。并可鉆取到按小時匯聚的作業(yè)概括。u 對巡檢系統(tǒng)中資源、作業(yè)、巡檢項(xiàng)、設(shè)備、業(yè)務(wù)系統(tǒng)、參數(shù)、作業(yè)結(jié)果的統(tǒng)計(jì)。5.3 告警智能預(yù)處理對告警根據(jù)事先定制好的告警處理知識庫進(jìn)行相應(yīng)處理,對已有告警進(jìn)行確認(rèn),以降低誤告警率,對可以自動化維護(hù)的告警進(jìn)行預(yù)處理并進(jìn)行相應(yīng)的數(shù)據(jù)采集并分析對其進(jìn)行設(shè)備告警指標(biāo)優(yōu)化,減少用戶的維護(hù)量,提高告警質(zhì)量,對不同告警進(jìn)行多

35、步驟流程化分析。故障處理任務(wù)固化是告警智能預(yù)處理的基礎(chǔ),可以將診斷管理中的各種操作,包括診斷信息的收集、診斷邏輯、自動修復(fù)操作等固化下來,重復(fù)使用,提高運(yùn)維效率。一般常見的網(wǎng)絡(luò)故障和系統(tǒng)故障都有固定的處理方式,在各種設(shè)備的維護(hù)手冊上都可以查到。每一步都可以轉(zhuǎn)化為詳細(xì)的執(zhí)行腳本,通過固化,可以重復(fù)使用故障恢復(fù)操作?!局饕δ堋縰 警智能預(yù)處理支持所有故障操作和修復(fù)操作的固化,對任意的操作序列都可以內(nèi)置到診斷過程中,診斷管理支持常見連接方法,例如,ftp,ssh,telnet等,固化時管理員只需重點(diǎn)關(guān)注操作命令即可,相關(guān)的連接等輔助操作均由系統(tǒng)自動完成。u 警智能預(yù)處理支持圖形化方式設(shè)計(jì)故障處理和

36、診斷的過程,住要是通過智能運(yùn)維平臺的自動化流程控制器設(shè)計(jì)調(diào)度流程,并在調(diào)度流程中實(shí)現(xiàn)對相關(guān)腳本和工具的調(diào)度來執(zhí)行每一步操作。u 警智能預(yù)處理中的操作流程可以全自動執(zhí)行,也可以設(shè)置交互,在執(zhí)行過程中由管理員輸入必要的信息,根據(jù)管理員的信息或者判斷,往下執(zhí)行。u 警智能預(yù)處理可以與運(yùn)維中心中事件和問題的解決方案固化成的知識相集成,當(dāng)故障管理判斷新的故障和以前的事件相同時,可以引用知識庫的中的知識,并有知識自動調(diào)用這些解決方案修復(fù)故障。5.4 軟件自動裝載主要實(shí)現(xiàn)軟件分發(fā)與部署,接收發(fā)布包(主要描述被管對象上應(yīng)該安裝什么軟件、補(bǔ)丁、配置信息,以及安裝順序、安裝和卸載腳本等信息)并實(shí)現(xiàn)發(fā)布包的分發(fā)、部署和結(jié)果檢查。部署控制是維護(hù)控制的一種典型應(yīng)用,大部分功能參照維護(hù)控制章節(jié)建設(shè),較個性功能結(jié)合本省情況自行擴(kuò)充。5.4

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論