2022年IT監(jiān)控運維管理平臺建設(shè)方案_第1頁
2022年IT監(jiān)控運維管理平臺建設(shè)方案_第2頁
2022年IT監(jiān)控運維管理平臺建設(shè)方案_第3頁
2022年IT監(jiān)控運維管理平臺建設(shè)方案_第4頁
2022年IT監(jiān)控運維管理平臺建設(shè)方案_第5頁
已閱讀5頁,還剩31頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、IT監(jiān)控運維管理平臺建設(shè)方案PART 01IT監(jiān)控運維現(xiàn)狀及痛點對企業(yè)IT監(jiān)控運維的基本認(rèn)識IT系統(tǒng)架構(gòu)機房環(huán)境硬件設(shè)備網(wǎng)絡(luò)中間件業(yè)務(wù)數(shù)據(jù)系統(tǒng)應(yīng)用IT監(jiān)控運維業(yè)務(wù)運營人員方法流程工具可用性成本連續(xù)性性能體驗設(shè)備故障系統(tǒng)異常系統(tǒng)故障系統(tǒng)變更企業(yè)IT監(jiān)控運維的核心使命就是保證企業(yè)業(yè)務(wù)的正常與高效運轉(zhuǎn)系統(tǒng)監(jiān)控維修更新業(yè)務(wù)保障應(yīng)用反饋企業(yè)信息與數(shù)字化的迅猛發(fā)展,給IT運維帶來了全新的挑戰(zhàn)故障類型越來越多業(yè)務(wù)變化越來越快CIO業(yè)務(wù)中斷容忍度更低用戶體驗要求越來越高系統(tǒng)變更越來越頻故障排查、修復(fù)更難系統(tǒng)架構(gòu)越來越復(fù)雜系統(tǒng)負(fù)載更大、故障風(fēng)險高新系統(tǒng)上線越來越多業(yè)務(wù)訪問量快速增長業(yè)務(wù)處理時效性更高高層對IT部

2、門考核更嚴(yán)技術(shù)快速演進(jìn)與新技術(shù)應(yīng)用人員技術(shù)能力與經(jīng)驗不足人員成本越來越高知識經(jīng)驗無法沉淀構(gòu)建主動式的IT監(jiān)控與運維將成為必然所趨被動救火式維護(hù)主動巡防式監(jiān)控定時粗略巡查等待故障報告人工故障處理實時全面監(jiān)控分散維護(hù)系統(tǒng)集中監(jiān)控系統(tǒng)自動故障處理提前故障預(yù)警隨著業(yè)務(wù)對IT運維提出的要求越來越高,原來傳統(tǒng)的被動救火式的IT運維模式已經(jīng)不能滿足企業(yè)的要求,無法為業(yè)務(wù)的發(fā)展提供保障只有借助當(dāng)前先進(jìn)的技術(shù),構(gòu)建主動巡防式的IT監(jiān)控與運維體系,能夠提前預(yù)防并智能化處理系統(tǒng)的各類故障,才為業(yè)務(wù)的快速發(fā)展保駕護(hù)航,滿足企業(yè)對IT的要求高風(fēng)險低評價離散化人工化低風(fēng)險高價值一體化智能化企業(yè)當(dāng)前IT監(jiān)控的現(xiàn)狀及痛點1應(yīng)

3、用現(xiàn)狀復(fù)雜的智慧社區(qū),其次是WLAN,其他基本是單體應(yīng)用2監(jiān)控現(xiàn)狀目前,基于zabbix,做了硬件資源和中間件調(diào)用缺少應(yīng)用層監(jiān)控3異常處理現(xiàn)狀異常發(fā)現(xiàn)方式通過人工撥測 應(yīng)用級異常無監(jiān)控形式數(shù)據(jù)庫監(jiān)控缺少手段、內(nèi)存泄露被動式維護(hù)模式故障發(fā)現(xiàn)不及時故障處理效率低故障對業(yè)務(wù)影響大系統(tǒng)運行風(fēng)險高運維工作量大服務(wù)滿意度不高PART 02IT監(jiān)控運維解決方案總體思路全面性從基礎(chǔ)設(shè)施、主機、虛擬機、容器集群、日志、調(diào)用鏈全面具備監(jiān)控能力提供多種的監(jiān)控指標(biāo)的采集能力及辦法自動化具備監(jiān)控腳本部署的自動化部署監(jiān)控主機的監(jiān)控端口自動發(fā)現(xiàn)能力平臺化加強平臺化,所有監(jiān)控指標(biāo)統(tǒng)一處理簡化監(jiān)控技術(shù)棧,降低運維難度業(yè)務(wù)視角從

4、業(yè)務(wù)視角分析故障從業(yè)務(wù)的視角來分析故障帶來的影響解決方案構(gòu)建智能化IT監(jiān)控平臺,建立主動式IT監(jiān)控運維模式人員支撐運維工程師技術(shù)工程師CIO業(yè)務(wù)主管運維主管信息推送工作支撐數(shù)據(jù)采集故障探測采集信息應(yīng)用服務(wù)中間件底層系統(tǒng)基礎(chǔ)設(shè)施業(yè)務(wù)狀態(tài)連接系統(tǒng)移動應(yīng)用智慧社區(qū)視頻監(jiān)控WLAN系統(tǒng)數(shù)據(jù)采集異常檢測主動預(yù)警信息通知郵件通知聲音告警報告推送大屏展示可視展示主動告警智能IT監(jiān)控運維管理平臺數(shù)據(jù)采集探傷檢測規(guī)則配置智能監(jiān)控主動告警自動修復(fù)數(shù)據(jù)分析可視展示構(gòu)建主動式IT監(jiān)控運維模式的核心思路與方法目標(biāo):保障業(yè)務(wù) & 提升能力 & 降低成本 & 彰顯IT價值一體化建立統(tǒng)一的IT監(jiān)控與運維體系平臺化-集中監(jiān)控精

5、細(xì)化全面、精細(xì)的監(jiān)控提供多種的監(jiān)控指標(biāo)的采集能力及辦法多維度從多維視角開展IT系統(tǒng)的監(jiān)控與運維技術(shù)/業(yè)務(wù)/管理智能化故障定義標(biāo)準(zhǔn)化故障分析模型化故障巡檢算法化自主化故障主動探測預(yù)警故障自動修復(fù)部署自動執(zhí)行可視化實現(xiàn)可視化監(jiān)控故障告警、處理、分析可視化展示基于統(tǒng)一平臺,打造一體化監(jiān)控運維體系,全面提升運維能力統(tǒng)一智能IT監(jiān)控運維管理平臺統(tǒng)一策略統(tǒng)一告警統(tǒng)一操作集中展示全面分析集中監(jiān)控所有系統(tǒng)都納入到統(tǒng)一個平臺進(jìn)行監(jiān)控監(jiān)控信息集中管理統(tǒng)一故障與指標(biāo)定義故障的分析策略設(shè)置故障監(jiān)控與預(yù)測策略統(tǒng)一告警能力支持統(tǒng)一告警規(guī)范設(shè)置集中告警策略配置統(tǒng)一故障告警處理統(tǒng)一故障自動修復(fù)處理統(tǒng)一自動部署操作統(tǒng)一信息可視

6、化展示統(tǒng)一的信息發(fā)布集中數(shù)據(jù)存儲與管理集中的IT故障分析全面的故障與預(yù)警報告分析,優(yōu)化IT運維知識沉淀、經(jīng)驗傳遞、能力提升精細(xì)化的監(jiān)控是主動并全面識別、預(yù)防、處理各類故障的基礎(chǔ)統(tǒng)一智能IT監(jiān)控與運維平臺Hypervisor虛擬化網(wǎng)絡(luò)SNMPSDK中間件JMX/CLI存儲SNMP/SMI-S服務(wù)器SNMPAgent數(shù)據(jù)庫JDBC新資源協(xié)議操作系統(tǒng)網(wǎng)絡(luò)流量流量分析硬件監(jiān)控存儲監(jiān)控基礎(chǔ)設(shè)施系統(tǒng)層中間層應(yīng)用層業(yè)務(wù)層vCenteNagiosCactiZabbixPRTG對象內(nèi)容層級工具對IT系統(tǒng)所包含的對象、資源與內(nèi)容進(jìn)行細(xì)致的分層與分類全面連接、監(jiān)控各類IT資源與內(nèi)容,全面采集數(shù)據(jù)不同類型資源使用不同

7、的監(jiān)控與管理工具通過精細(xì)化的數(shù)據(jù)采集,實現(xiàn)對It系統(tǒng)的多維度、全面監(jiān)控與運維細(xì)致的結(jié)構(gòu)化內(nèi)容分層,是實現(xiàn)精細(xì)化IT監(jiān)控的前提業(yè)務(wù)層前端渲染、交易量、訪問量、成功率、響應(yīng)時間、響應(yīng)筆數(shù)等應(yīng)用層資源占用、服務(wù)存活時間、日志大小、端口存活、API調(diào)用情況、線程數(shù)等中間件層隊列服務(wù)、數(shù)據(jù)庫服務(wù)、緩存服務(wù)、配置中心服務(wù)等系統(tǒng)層CPU、內(nèi)存、磁盤、進(jìn)程數(shù)等基礎(chǔ)設(shè)施層機房、網(wǎng)絡(luò)、硬件等在精細(xì)化基礎(chǔ)上從多個維度監(jiān)控系統(tǒng),保障業(yè)務(wù)的可用與連續(xù)T從技術(shù)角度發(fā)現(xiàn)故障從技術(shù)的角度來對系統(tǒng)運行狀態(tài)進(jìn)行分析,識別、預(yù)測并排除故障,保障系統(tǒng)可用。B從業(yè)務(wù)視角排除故障從業(yè)務(wù)的視角來分析故障帶來的影響,排除故障,確保系統(tǒng)業(yè)務(wù)的

8、可用與連續(xù)性。M從管理視角分析故障從管理的視角來檢查使用狀態(tài)與分析故障,確保系統(tǒng)使用符合企業(yè)管理要求與規(guī)范。智能化的監(jiān)控分析,識別故障并預(yù)測風(fēng)險,構(gòu)建主動運維能力智能化標(biāo)準(zhǔn)化算法化模型化建立故障識別模型基于體系標(biāo)準(zhǔn)庫建立定義故障的數(shù)據(jù)模型確定每個故障、風(fēng)險、問題的識別數(shù)學(xué)模型可以從不同維度(技術(shù)/業(yè)務(wù)/管理)建立多種故障識別模型梳理故障指標(biāo)體系標(biāo)準(zhǔn)基于保障業(yè)務(wù),確保系統(tǒng)正常運行的目標(biāo),梳理出金阿卡指標(biāo)與故障體系標(biāo)準(zhǔn)構(gòu)建監(jiān)控指標(biāo)庫構(gòu)建故障與風(fēng)險類型庫構(gòu)建事件、問題與任務(wù)類型庫設(shè)計故障分析算法基于故障模型設(shè)計自動故障與風(fēng)險分析的算法創(chuàng)建IT監(jiān)控與分析任務(wù)(監(jiān)控的系統(tǒng)與內(nèi)容)設(shè)置自動化算法的執(zhí)行與調(diào)

9、度策略自動執(zhí)行算法,識別、預(yù)測故障與風(fēng)險基于實際效果技術(shù)優(yōu)化、調(diào)整算法標(biāo)準(zhǔn)化程度、故障模型與算法設(shè)計的合理性直接決定項目成效標(biāo)準(zhǔn)化模型化算法化監(jiān)控指標(biāo)庫風(fēng)險故障庫問題事件庫模型庫任務(wù)算法庫調(diào)度引擎監(jiān)控需求采集數(shù)據(jù)項定義故障定義風(fēng)險調(diào)用關(guān)聯(lián)設(shè)計加載NN建立標(biāo)準(zhǔn)、細(xì)致的IT監(jiān)控指標(biāo)庫,實現(xiàn)一體化、精細(xì)化IT監(jiān)控監(jiān)控指標(biāo)庫主機監(jiān)控CPU使用率內(nèi)存使用率網(wǎng)絡(luò)寫入I/O磁盤使用率磁盤寫入I/O網(wǎng)絡(luò)丟包率前端監(jiān)控頁面性能監(jiān)控接口性能監(jiān)控數(shù)據(jù)庫/中間件監(jiān)控mysqlredismongonginxtomcathttpsoracle日志查詢應(yīng)用日志應(yīng)用錯誤日志組件日志服務(wù)器日志主動的故障探測與自動的故障修復(fù),極

10、大提升效率并降低風(fēng)險主動探測+預(yù)防主動進(jìn)行系統(tǒng)應(yīng)用巡檢和探傷檢測主動預(yù)測故障風(fēng)險進(jìn)行潛在故障干預(yù)自動告警+運維自動告知相關(guān)人員故障與風(fēng)險信息自動執(zhí)行故障修復(fù)或系統(tǒng)部署等任務(wù)自主化監(jiān)控運維平臺在全面采集系統(tǒng)各項運行數(shù)據(jù)后,進(jìn)行智能化的分析,可以及時識別出各類故障和故障風(fēng)險,基于此平臺會進(jìn)一步采取自主化的處理方式,及時修復(fù)故障,提前解除風(fēng)險,以保障業(yè)務(wù)的可用性和連續(xù)性。平臺會主動對系統(tǒng)進(jìn)行各項指標(biāo)的探測和巡檢,以便及時發(fā)現(xiàn)系統(tǒng)故障平臺會基于智能化數(shù)據(jù)風(fēng)險,給出故障風(fēng)險預(yù)測提前判斷潛在的故障,并進(jìn)行主動干預(yù),降低系統(tǒng)運行風(fēng)險任何故障或風(fēng)險信息,平臺都會及時給予告警(支持郵件、短信、信息、聲音、警燈等

11、方式),通知相關(guān)人員平臺支持對(部分)故障進(jìn)行自動的修復(fù)處理平臺支持自動執(zhí)行系統(tǒng)部署圖文監(jiān)控數(shù)據(jù)采集主動巡檢探測自主化IT監(jiān)控與運維總體流程平臺具備了自主化IT監(jiān)控與運維能力,不僅可以進(jìn)行主動的傷探檢測,還可以在發(fā)現(xiàn)故障或潛在故障風(fēng)險后,進(jìn)行主動的故障修復(fù)處理,實現(xiàn)整個IT故障檢測與處理的全自動化。潛在故障風(fēng)險自動告警智能引擎監(jiān)控模型任務(wù)調(diào)度讀取數(shù)據(jù)信息反饋IT故障問題主動故障修復(fù)主動干預(yù)處理預(yù)測識別監(jiān)測發(fā)現(xiàn)處理日志報告基于告警策略自動進(jìn)行告警基于策略配置基于策略配置執(zhí)行修復(fù)任務(wù)部分故障無法直接進(jìn)行修復(fù)處理,則平臺會自動生成故障處理任務(wù)并指派給相應(yīng)人員生成故障工單生成故障修復(fù)任務(wù)生成風(fēng)險消除任

12、務(wù)部分故障直接分派人工處理故障過程結(jié)果反饋部分風(fēng)險可以自主修復(fù)主動式的IT故障探測與系統(tǒng)狀態(tài)巡檢,保障業(yè)務(wù)的可用性可以利用自動化測試腳本,命令執(zhí)行,調(diào)用接口、模擬操作等方式,主動對IT的各項資源以及業(yè)務(wù)系統(tǒng)的運行狀況進(jìn)檢測,主動發(fā)現(xiàn)存在的故障與潛在風(fēng)險,改變被動等待故障發(fā)生的IT監(jiān)控運維工作模式,保證業(yè)務(wù)的可用性。IT故障的主動探測、系統(tǒng)狀態(tài)自動巡檢、業(yè)務(wù)可用性保障業(yè)務(wù)可用測試網(wǎng)卡主機磁盤交換機端口進(jìn)程serverApp中間件數(shù)據(jù)庫負(fù)載設(shè)備App發(fā)現(xiàn)問題主動巡檢快速修復(fù)告警通知智能故障分析業(yè)務(wù)影響范圍解決告警硬件可用探測系統(tǒng)狀態(tài)巡檢硬件狀態(tài)巡檢執(zhí)行測試腳本執(zhí)行檢測命令調(diào)用服務(wù)接口模擬操作告警策

13、略配置告警內(nèi)容模版告警聯(lián)系人告警方式告警事件統(tǒng)一的告警策略配置,自動化監(jiān)控告警,集中歷史事件管理歷史告警事件管理監(jiān)控運維智能引擎可以在平臺上配置統(tǒng)一的事件告警策略,包括:告警事情、告警內(nèi)容、告警方式與告警聯(lián)系人。平臺在監(jiān)控過程中,一旦發(fā)現(xiàn)符合告警策略的事件,即會自動發(fā)出告警,并將告警事件進(jìn)行統(tǒng)一管理與分析。實時監(jiān)控數(shù)據(jù)讀取數(shù)據(jù)實時計算加載觸發(fā)告警發(fā)現(xiàn)故障風(fēng)險事件事件管理集中分析優(yōu)化策略可以定義不同事件/風(fēng)險的等級,然后根據(jù)事件/風(fēng)險等級,設(shè)置不同的告警策略可以定義事件的告警方式,告警聯(lián)系人員范圍,告警內(nèi)容等可以集中配置、更新、管理告警策略實現(xiàn)自動化IT運維,簡化IT運維工作,提高運維效率利用平

14、臺的自動化運維工具,可以將傳統(tǒng)枯燥、重復(fù)的運維工作逐漸用機器自動化代替,例如磁盤自動清理據(jù)、數(shù)據(jù)定時備份、定期服務(wù)重啟、應(yīng)用自動部署等,無需人為參與,大大減輕了IT運維工作量。自動運維日志管理監(jiān)控運維任務(wù)調(diào)度加載任務(wù)執(zhí)行任務(wù)觸發(fā)執(zhí)行日志日志報告任務(wù)統(tǒng)計自動運維策略維護(hù)任務(wù)生效周期執(zhí)行觸發(fā)設(shè)置任務(wù)執(zhí)行腳本任務(wù)目標(biāo)定義加載臨時運維任務(wù)手工新增任務(wù)使用策略自動生成周期性的運維任務(wù)系統(tǒng)巡檢磁盤清理計劃維護(hù)數(shù)據(jù)備份重啟服務(wù)關(guān)閉服務(wù)應(yīng)用部署快照恢復(fù)系統(tǒng)體檢系統(tǒng)發(fā)布支持各種IT運維作業(yè)提供可視化的監(jiān)控與故障數(shù)據(jù)分析及展示平臺具備強大的大數(shù)據(jù)分析能力與展示能力平臺將整合當(dāng)前與歷史監(jiān)控數(shù)據(jù)進(jìn)行深度分析,分析故障

15、特征,輔助發(fā)現(xiàn)問題根源平臺將對IT監(jiān)控數(shù)據(jù)全面的分析,定期輸出分析報告,支持企業(yè)從傳統(tǒng)運維統(tǒng)計轉(zhuǎn)向智能運維分析平臺具備強大的圖形化數(shù)據(jù)展示開發(fā)能力,支持個性化數(shù)據(jù)展示開發(fā)平臺支持各類圖形化的數(shù)據(jù)展示并支持大屏設(shè)備提供數(shù)據(jù)與信息推送功能,支持各種方式的數(shù)據(jù)推送方式數(shù)據(jù)分析信息展示信息推送方案應(yīng)用全景示意圖打造主動式IT巡檢運維模式智能IT監(jiān)控運維管理平臺IT物聯(lián)網(wǎng)大數(shù)據(jù)云計算基礎(chǔ)設(shè)施網(wǎng)絡(luò)存儲服務(wù)器數(shù)據(jù)庫中間件應(yīng)用服務(wù)業(yè)務(wù)應(yīng)用WLAN視頻監(jiān)控智慧社區(qū)移動應(yīng)用智能故障分析大屏統(tǒng)一監(jiān)控快速故障修復(fù)信息推送與告警故障報告數(shù)據(jù)匯集深度分析發(fā)現(xiàn)故障/風(fēng)險數(shù)據(jù)分析可視化展示信息推送報表管理指標(biāo)配置故障模型算法

16、引擎監(jiān)控任務(wù)故障處理調(diào)整算法查收報告整體監(jiān)控信息配置處理告警處理故障設(shè)置任務(wù)數(shù)據(jù)采集主動探測告警、修復(fù)識別、預(yù)測實時任務(wù)定時全面多維智能方案應(yīng)用價值示意圖支撐企業(yè)IT監(jiān)控運維的智能化升級搭建智能化IT監(jiān)控運維平臺以大數(shù)據(jù)分析能力支撐的智能化IT監(jiān)控運維平臺機器數(shù)據(jù)分析傳統(tǒng)ITSM、APM、NPM、SOC、Cloud Management保障業(yè)務(wù)、降低風(fēng)險、提升效率構(gòu)建智能化運維體系自主化智能化多維度精細(xì)化一體化可視化本解決方案對于企業(yè)的核心價值被動式維護(hù)模式主動式監(jiān)控模式離散一體局部滯后人工緩慢快速全面提前自動監(jiān)控內(nèi)容故障發(fā)現(xiàn)運維方式故障處理保障業(yè)務(wù)提升IT價值提升效率降低成本監(jiān)控模式PART 03IT監(jiān)控運維管理平臺建設(shè)方案系統(tǒng)建設(shè)目標(biāo)與內(nèi)容優(yōu)先監(jiān)控四大平臺:WLAN、智慧社區(qū)、視頻監(jiān)控、移動辦公。視頻監(jiān)控和WLAN實現(xiàn)與硬件對接實現(xiàn)自動采集、自動監(jiān)控、自動告警、自動運維修復(fù)、自動部署實現(xiàn)巡檢規(guī)則配置,自動執(zhí)行巡檢,生成巡檢報告搭建智能IT監(jiān)控平臺:搭建部一套智能化的IT系統(tǒng)監(jiān)控運維平臺,基于該平臺實現(xiàn)對各IT系統(tǒng)集中監(jiān)控與維護(hù)平臺總體架構(gòu)管理控制臺大屏統(tǒng)一監(jiān)控自動告警統(tǒng)一采集平臺統(tǒng)一處理平臺自動采集智慧社區(qū)WLAN視頻監(jiān)控移動辦公自動監(jiān)控平臺功能架構(gòu)數(shù)據(jù)源層數(shù)據(jù)采集層業(yè)務(wù)處理層展示層基礎(chǔ)設(shè)施服務(wù)器虛擬機數(shù)據(jù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論