【案例】AA自動智慧運維管理平臺技術方案_第1頁
【案例】AA自動智慧運維管理平臺技術方案_第2頁
【案例】AA自動智慧運維管理平臺技術方案_第3頁
【案例】AA自動智慧運維管理平臺技術方案_第4頁
【案例】AA自動智慧運維管理平臺技術方案_第5頁
已閱讀5頁,還剩111頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

****自動智慧運維管理平臺技術方案第頁********自動智慧運維管理平臺技術方案上海北塔軟件股份有限公司2018年12月目錄TOC\o"1-5"\h\z\u28898目錄 2325541.運維軟件的變革 10128461.1.運維管理的三個轉(zhuǎn)變 1044791.2.智慧運維給用戶的價值 1152851.2.1.落實等級化管理 11187721.2.2.落實管理經(jīng)驗積累 12195991.2.3.從數(shù)據(jù)挖掘?qū)崿F(xiàn)隱患分析 1330651.2.4.支持持續(xù)管理建設 14111591.3.智能運維的特色功能 15183351.3.1.智能拓撲 1514271.3.2.智能采集 15198381.3.3.智能基線 1621961.3.4.智能策略 1756941.4.項目效益分析 1726081.4.1.管理效益 1726831.4.2.實現(xiàn)綠色經(jīng)濟模式 1872731.5.北塔軟件公司介紹 18308801.5.1.自主創(chuàng)新 1937531.5.2.大量優(yōu)質(zhì)案例 19272481.5.3.參與標準制訂 19255051.5.4.服務能力 19245621.5.5.核心競爭力 19192082.整體技術方案介紹 20252412.1.建設目標 20262672.1.1.建設思路 20150772.1.2.建設內(nèi)容 2071122.2.方案產(chǎn)品介紹 2191652.3.方案產(chǎn)品亮點 21327362.4.方案詳細介紹 22293612.4.1.產(chǎn)品平臺介紹 226866.分布式采集器 248102.綜合展示 2523732.運行摘要 2514682.日常運維 2717579.1.運維等級管理 2726850.2.制度化運維檢巡檢 2827627.3.重點應用實時控 293377.4.每日運維工作交接 3132235.5.每周智維隱患分析 3229449.6.停機檢修管理 3212030.7.軟件操作審計 3355352.4.2.智能運維引擎 333313.運用等級概念實現(xiàn)差異化管理 3330032.自主學習基線實現(xiàn)業(yè)務異常監(jiān)控 348542.智能策略實現(xiàn)管理實例落地 3415646.專項智維方案快速實現(xiàn)問題排查 36235092.4.3.系統(tǒng)智能運維 3629886.預置智維管理方案 3710760.智維事件監(jiān)控 3711400.智維越界提醒策略 385790.客戶化分析策略定制 39147332.4.4.故障管理 3919290.及時有效捕獲故障 392964.分析故障歷史提高運維成效 4031157.處置知識管理 42132672.4.5.系統(tǒng)類管理 421317.主機管理 4310909.服務器硬件管理 4425754.數(shù)據(jù)庫管理 464962.Oracle集群管理 497427.中間件管理 5131142.標準應用管理 541238.主機拓撲管理 5458682.4.6.日志管理 55166192.4.7.網(wǎng)絡管理 5628828.網(wǎng)絡拓撲管理 5611569.1.拓撲生成 5622123.2.拓撲圖展現(xiàn) 5714338.3.個性化拓撲 5719674.4.監(jiān)控結(jié)果展現(xiàn)直觀 5711556.5.界面美觀 583263.6.操作便捷 585556.設備性能分析 5918419.網(wǎng)絡配置管理 60155052.4.8.無線管理 6093692.4.9.IP地址簿管理 6189642.4.10.虛擬化管理 6211179.呈現(xiàn)虛擬化對象健康性 6420402.預防容量枯竭 653225.保障容量有效使用 6629216.明細容量分配 6626438.發(fā)現(xiàn)和解決性能瓶頸 6626448.1.虛擬機性能分析 675811.2.智能運維策略 6820537.判斷虛擬機可刪除 6925662.4.11.存儲管理 7012597.存儲設備硬件狀態(tài)管理 7126327.存儲空間使用管理 712449.存儲設備性能管理 72181592.4.12.業(yè)務拓撲管理 733299.透明展現(xiàn)業(yè)務關系 7313521.綜合評價業(yè)務健康 7413270.業(yè)務視角管理基礎設施 7426061.構建用戶感知和基礎設施的關系 76185662.4.13.數(shù)據(jù)拓撲管理 76259662.4.14.機房管理 77293582.4.15.報表與分析 7917784.預置報表 8010792.定制報表 8216096.數(shù)據(jù)快照分析 8227283.性能趨勢分析 8321335.基礎管理報表 836436.系統(tǒng)巡檢報表 8415459.快速報表定制 86219852.4.16.用戶與權限 8672032.4.17.多平臺層次化統(tǒng)一管理 8731709.實現(xiàn)總部全局狀態(tài)監(jiān)控 8717697.實現(xiàn)下級單位設備的監(jiān)控 88287172.4.18.維小寶物聯(lián)APP 8823021.維小寶組成架構圖 887599.維小寶使用流程 8919027.通過掃描標簽進行運維 89112253.項目管理 9290593.1.項目總則 92125823.2.項目組織機構 9242663.2.1.組織架構保證 92260853.2.2.人員穩(wěn)定 9282713.3.項目進度計劃 93170063.4.項目范圍內(nèi)容 93104773.5.項目實施地點 9430803.6.項目進度管理 94264643.7.項目合同變更管理 94117873.8.項目質(zhì)量管理 94235233.9.服務內(nèi)容 96268803.10.項目交付成果 96269254.實施方案 99286184.1.實施計劃安排 10034434.2.技術支持要求 10028544.2.1.實施團隊人員資質(zhì) 10031914.2.2.培訓 10024056.培訓總則 10123306.培訓內(nèi)容 102310454.2.3.知識轉(zhuǎn)移和交付 103244944.3.驗收 10494254.3.1.到貨驗收 104310374.3.2.系統(tǒng)驗收 10510668.驗收目的 105951.驗收范圍 1055691.期望目標 1055296.驗收報告 105285465.售后服務 106132935.1.服務宗旨 10686295.2.服務內(nèi)容 106149025.2.1.產(chǎn)品升級服務 106210825.2.2.標準支持服務 10739425.2.3.現(xiàn)場巡檢服務 10821866.附錄:《季度巡檢報告樣稿》 1092617服務介紹 1091031系統(tǒng)巡檢概要表 1101911用戶管理對象巡檢結(jié)果 1118778BTSO系統(tǒng)巡檢結(jié)果 113運維軟件的變革運維管理的三個轉(zhuǎn)變近年來,國內(nèi)IT應用系統(tǒng)建設經(jīng)歷了基礎硬件環(huán)境建設、系統(tǒng)應用建設、數(shù)據(jù)大集中階段等多個階段。面對業(yè)務部門對信息支撐能力要求日益提高,信息部門管理工作也逐步從大建設、大發(fā)展階段進化到精細化管理階段,從過去強調(diào)網(wǎng)絡建設、應用建設和系統(tǒng)建設,逐步認識到增強管理能力的重要性。傳統(tǒng)的運維管理雖然具備一定的設備管理能力,但從實踐中有發(fā)現(xiàn)了很多弊端。這些弊端包括管理設備究竟該管那些關鍵指標(KPI)?確定KPI后運維管理給出的具體數(shù)值又代表什么含義?設備是正常的?故障的?還是只是需要注意下?最痛苦的是用戶會發(fā)現(xiàn)管設備節(jié)約的人力都投入到使用運維管理系統(tǒng)中,那么運維管理系統(tǒng)帶給用戶的價值在哪里呢?綜上所述,傳統(tǒng)運維管理軟件的弊端必然帶來新的變革,這種變革趨勢包含以下三個方向:人工運維向自動智能運維轉(zhuǎn)變傳統(tǒng)運維工作是以人工處理為主,通過各種專業(yè)的人對系統(tǒng)進行檢查的方式來發(fā)現(xiàn)系統(tǒng)中存在的問題。隨著系統(tǒng)復雜性和建設規(guī)模不斷增大,各種復雜設備對人的要求越來越高。初級的運維管理系統(tǒng)應運而生,這類系統(tǒng)是以“工具”的形式出現(xiàn),即“我不知道該看什么指標,該管什么設備,反正我都可以管,具體怎么管用戶自己定”。系統(tǒng)投運后,大量的工作都需要用戶自己完成,轉(zhuǎn)變不外乎從登錄設備操作改變到登錄運維系統(tǒng)進行操作。這樣的運維管理系統(tǒng)一旦部署,用戶的工作量并沒有任何改變,對這類管理系統(tǒng)最大體會就是難用。因此,用戶也迫切希望建設具有自動管理能力,更像一個高水平的“管家”幫助用戶全方位的監(jiān)控各類系統(tǒng)的運行狀況,及時給出異常提醒和操作建議。閥值管理向趨勢管理轉(zhuǎn)變閾值管理也是傳統(tǒng)運維管理系統(tǒng)的核心特征。通過設置設備運行的固定閾值,來界定設備處于正常和故障兩種狀態(tài)。然而事實上,閥值管理很難對實際的運維管理工作有指導意義。這是因為由于各類設備都承載了各種業(yè)務,由于每個用戶實際業(yè)務不同,即便完全相同的設備的運行指標也呈現(xiàn)出不同的負載變化。另外運維管理系統(tǒng)的核心價值體現(xiàn)是“防患于未然”,采用固定閾值的結(jié)果是走向兩個極端,要么設備故障了才告警,要么一堆告警而設備完全正常。這兩種極端會導致用戶被動處理各種故障或者對故障提醒麻木。這些都導致運維管理的核心價值沒有體現(xiàn)。因此真正的管理應遵循設備本身的實際運行狀態(tài)情況,“貼身”描繪出各個設備各個時間段的性能變化情況,并根據(jù)變化情況建立跟蹤曲線,通過跟蹤曲線可以真正建立趨勢管理視角,依據(jù)設備運行數(shù)據(jù)變化情況來做趨勢分析和預測,準確把握設備處于健康狀態(tài)、亞健康狀態(tài)和“生病”狀態(tài)。所以趨勢管理才是用戶真正需要的運維管理。通用平臺向全面開放的專屬平臺轉(zhuǎn)變雖然大多數(shù)用戶建設信息系統(tǒng)時采用的設備、技術都有相似性,但是系統(tǒng)的復雜性、耦合性、環(huán)境多樣性都導致每個用戶的運維管理重點與難點是存在較多的差異。這種差異既有實際環(huán)境中帶來的各種現(xiàn)實問題,也有不同發(fā)展階段不同運維要求帶來的實際問題。這些都要求運維管理系統(tǒng)提供全面、深入的管理能力同時還需要具備開放性,能夠根據(jù)用戶自身運維經(jīng)驗提供“私人專屬”的定制運維策略能力,將用戶歷史的運維經(jīng)驗,目前的管理重點都通過智能運維策略自動實現(xiàn),真正實現(xiàn)即兼顧全面的綜合運維管理要求又能充分兼顧用戶個性化運維訴求。綜上所述,以大量KPI庫為核心,以閾值管理來區(qū)別設備正?;蛘吖收?,以通用標準為訴求點的舊運維管理系統(tǒng)已經(jīng)越來越難以適應用戶管理要求。具備自動學習功能,可以完整學習各類設備日常運行狀況,根據(jù)基線數(shù)據(jù)自動運維,主動匯報設備異常,可以根據(jù)用戶真實管理要求進行定制策略智慧運維管理平臺將成為用戶選擇的主流。智慧運維給用戶的價值落實等級化管理管理上劃分優(yōu)先級是被普遍認可的方式,優(yōu)先級劃分能實現(xiàn)管理投入的合理分配,對于運維管理同樣適用,通過對資源按照所在業(yè)務重要度區(qū)分其對應的管理等級,比如關乎生產(chǎn)系統(tǒng)的資源劃分成一級,內(nèi)部辦公系統(tǒng)相關資源劃分成二級設備;對于一級設備意味著更為密集的數(shù)據(jù)采集和更低的閾值,對于異常更為敏感,故障處理上要求更為嚴格,后期的管理數(shù)據(jù)統(tǒng)計需要單獨列項統(tǒng)計。常規(guī)運維軟件中僅僅是對于將管理對象簡單的劃分了不同等級,僅是為了界面上進行統(tǒng)計,沒有落實到具體運維過程中;真正落地的等級化管理必須要做到如下幾點:按照業(yè)務劃分管理資源實現(xiàn)對于不同等級資源不同的監(jiān)控周期和預警閾值對于不同等級資源定義不同預警等級和處置方案對于不同等級資源進行不同角度的統(tǒng)計和報表分析能便捷的調(diào)整等級,并應用相應等級的管理規(guī)則智慧運維平臺以等級為核心進行管理區(qū)分,內(nèi)置不同等級的管理解決方案,從下到上貫徹等級化,差異化管理模式。預置不同的指標采集方案和策略,落實差異化采集方式,按需采集提供技術基礎,同時為大節(jié)點管理提供理論可能;預置不同等級的不同風險閾值的設定,落實差異化管理和考核要求;為高級別設備自動生成統(tǒng)計報表,使用戶能方便的關注報表數(shù)據(jù);支持方便的界面等級顯示方式,在不同界面均能方便的區(qū)分不同的等級,便于管理視野的日常落地。落實管理經(jīng)驗積累從本世紀初,企業(yè)用戶開始重視IT環(huán)境的運維管理,10多年的運維歷程造就了一批運維人員的同時,長期的運維工作也促成企業(yè)用戶總結(jié)處理其具有自身業(yè)務特色的管理方法,這些方法包括大到流程的本地化,小到具體管理指標的定義;如何實現(xiàn)此類管理經(jīng)驗的落實呢?智慧運維平臺提供處置知識管理,通過對用戶日常故障處置方法的收集,經(jīng)驗積累,自動反饋到相同故障的處置過程中。通過系統(tǒng)提供的智能策略機制,將用戶對于某些異常分析的人工方式自動化,比如對于主機高負載原因的排查,一般的操作邏輯是確定主機負載超過風險閾值情況是偶發(fā)事件還是一直存在,然后分析每一次出現(xiàn)高負載的進程是否一致,通過人工智能找到具體的異常進程,關閉該進程或者卸載相關軟件,同時對于該進程的設定預警,達到事前預警;智慧運維平臺通過策略實現(xiàn)這一系列動作,包括對歷史記錄多點對比,對于進程的記錄,異常進程的智能判斷,乃至告警的建議;通過策略體制調(diào)用系統(tǒng)的各項零散功能,將用戶問題分析方式,快速自動化。從數(shù)據(jù)挖掘?qū)崿F(xiàn)隱患分析傳統(tǒng)運維領域,更多的關注點在于即時狀態(tài)的監(jiān)控,能對于異常的即時、準確通知;而隨著廠商技術的不斷提高,設備的告警越來越少,特別是一些新建機房,可能一個月也不能沒有幾個告警事件,難道運維就不再重要了嗎?恰恰相反,當設備故障減少后,正好為IT運維創(chuàng)造價值提供了客觀條件,IT運維需要將更多的時間和精力放在挖掘?qū)嵗龜?shù)據(jù),發(fā)現(xiàn)業(yè)務隱患,提高業(yè)務運行效率。智慧運維平臺提供了強大的歷史記錄能力,可以實現(xiàn)45萬KPI的指標數(shù)據(jù)不壓縮存儲1年;同時提供詳盡靈活的數(shù)據(jù)分析工具,可以實現(xiàn)單設備1年、1季度、1月、1周整體趨勢分析,從歷史層面分析出業(yè)務運行規(guī)律,方便的發(fā)現(xiàn)業(yè)務運行異常;多指標相對分析,實現(xiàn)管理對象的縱向比較,找到影響具體的異常指標集。通過對歷史記錄分析,為管理方式改進提供基礎數(shù)據(jù),貼合業(yè)務指標變化的規(guī)律,整合人力資源,實現(xiàn)關鍵時段重點關注的優(yōu)先級理念;為用戶年度管理數(shù)據(jù)的統(tǒng)計提供可能,配合北塔快速報表開發(fā)能力,使符合用戶管理實踐的事后考核報為可能。智慧運維平臺貫徹時段管理的理念,提供了拓撲上整體的CPU趨勢分析,對近幾周的整體性能均值做比較,便于發(fā)現(xiàn)業(yè)務的偏離情況;使用歷史記錄作為檢測閾值,實現(xiàn)更為合理的業(yè)務使用情況監(jiān)控;提供整體高低負載分析,實現(xiàn)整體回顧,合理評價。支持持續(xù)管理建設智慧運維平臺以平臺化架構設計,可以靈活定制用戶管理需求,實現(xiàn)用戶管理的可持續(xù)化建設;智慧運維平臺為用戶多種開發(fā)集成方式包含如下幾種技術實現(xiàn):增加具有用戶獨有設備的管理,通過合作開發(fā),智慧運維平臺可以集成用戶自行開發(fā)的采集方式,融入智慧運維平臺中進行統(tǒng)一的管理;整合具有本單位特色的管理指標集,實現(xiàn)下級單位的快速部署,和統(tǒng)一化管理;用戶管理經(jīng)驗的策略化,實現(xiàn)用戶先進管理分析方式的自動化處理;報表定制,快速導入報表模板,實現(xiàn)客戶報表的快速實現(xiàn)和更新,使用戶報表的變更不再成為運維軟件的痛苦;使用戶的管理意志在軟件中得到持續(xù)體現(xiàn)。智能運維的特色功能智能拓撲系統(tǒng)采用北塔先進的、且得到近5000個現(xiàn)場驗證的發(fā)現(xiàn)算法,智能發(fā)現(xiàn)網(wǎng)絡設備和設備間的真實線路,準確而快速的完成拓撲的構建。網(wǎng)絡拓撲能清晰展現(xiàn)網(wǎng)絡的關系,自動布局;并能提供“圓形”“樹形”多種拓撲展現(xiàn)方式,便于用戶根據(jù)業(yè)務關系快速調(diào)整到用戶需要的展現(xiàn)方式,同時將管理對象的實時性能和告警信息通過圖標的不同狀態(tài)展現(xiàn)給用戶。智慧運維平臺拓撲管理不僅是,拓撲結(jié)構的展現(xiàn)方式,更是用戶監(jiān)控的智能幫手;針對于業(yè)務承載的主機,系統(tǒng)同樣提供了系統(tǒng)拓撲,不僅提供全局狀態(tài)監(jiān)控界面,同時也講拓撲圖作為全局分析工具,實現(xiàn)對于管理對象增長趨勢的全域分析,包含對全域設備的CPU業(yè)務應用情況的分析,整體智能分析業(yè)務上一段時間內(nèi)使用的整體趨勢變化,以紅、黃、綠作為不同區(qū)段的顯示,使用戶能清晰辨識歷史增長異常。智能采集采集是運維管理的基礎,只有實現(xiàn)了采集穩(wěn)定和準確,用戶才能管理,當采集的量和采集的正確性得不到保證,運維只能是理論而已。智慧運維平臺采用北塔自主研發(fā)的新一代智能采集平臺DGO,該平臺實現(xiàn)自主采集,自主容錯功能,獨立擴展功能,與設備相關的取值事項均有該平臺完成。均衡采集命令:該平臺通過智能控制,智能分配被管理對象的采集口令,忙閑配合,實現(xiàn)保證數(shù)據(jù)取值的前提下,對于設備的壓力最小;智能錯誤處置:平臺通過智能判斷,對于被管理對象取值異常進行智能判斷,避免由于網(wǎng)絡突發(fā)異常造成的采集出錯誤報和頻繁采集造成的設備壓力;DGO提供豐富的擴展接口,可方便的接入用戶自行開發(fā)的采集探針,實現(xiàn)用戶管理對象的便捷增加。智能基線傳統(tǒng)運維關于被管對象“警戒值”,而一旦超過警戒值意味著一定程度的“損失”已經(jīng)發(fā)生,有沒有辦法在提前一點發(fā)現(xiàn)風險呢?答案有多種,通過業(yè)務基線的偏離判斷異常就是其中一種。智慧運維平臺能根據(jù)歷史記錄自動生成基線,并可按照業(yè)務變化規(guī)律,形成以日基線、周基線的數(shù)據(jù)對比,一旦實時數(shù)據(jù)大于基線比對點一定范圍,即生成智維事件,便于分析;當出現(xiàn)多次越界后,系統(tǒng)主動通知用戶,提示運維風險?;€方式的引入,降低了用戶對于“警戒值”的識別難度,使設置符合用戶業(yè)務實際的閾值成為簡單、可執(zhí)行的事情;同時基線的方式,符合用戶周期性業(yè)務穩(wěn)定的實際情況,真正落實用戶對于業(yè)務風險檢測。智能策略智慧運維平臺引入策略管理概念,架構上為策略提供各個功能的調(diào)用接口,方便的實現(xiàn)軟件各種處理邏輯的協(xié)同處置;方便實現(xiàn)用戶對于管理方法的落地。策略的分為觸發(fā)、分析、處置三個部分,通過全面的智能運維監(jiān)控,實現(xiàn)對于各項關鍵節(jié)點的智維,包含單點、多點觸發(fā);多單指標歷史記錄分析、多指標對比分析等方式,實現(xiàn)合理結(jié)論的分析,以提示、告警通知、自動報表的各項輸出方式給出用戶最終處置建議。系統(tǒng)預置多款智能策略,實現(xiàn)全面檢測、智能判斷、全面分析;包含對所有智維規(guī)則的普世策略,越界次數(shù)警示;包含對CPU負載過高的深入分析策略,可實現(xiàn)一站式,異常進程的分析識別。智慧運維平臺支持快速策略定制,便于用戶實現(xiàn)個性化管理需求,落實符合管理實踐的自動化分析。項目效益分析自動智慧運維平臺的上線將實現(xiàn)管理和經(jīng)濟兩方面的效益:管理效益自動智慧運維平臺的上線可帶來如下運維管理效應:透明化管理:通過對信息資源的透明化實現(xiàn)對信息資源的統(tǒng)一監(jiān)控和智能管理,實現(xiàn)自動化的信息資源監(jiān)控和管理能力。主動運維:即時的故障告警幫助管理人員即時了解安全和運行隱患,實現(xiàn)真正的事前管理,變被動為主動。全面降低誤操作可能:運維管理和安全手段都從手動的方式轉(zhuǎn)變?yōu)橄到y(tǒng)自動、安全、可以跟蹤的行為,手動的方式大量減少將極大降低誤操作的可能性,極大增加信息化設施的穩(wěn)定性。提高效率:系統(tǒng)提供易用易操作的監(jiān)控、處理、分析一體化關聯(lián)分析能力,快速幫助運維管理人員了解問題、分析問題、定位問題、輔助管理人員解決問題,提高處理問題的效率,為信息化的可靠運行保駕護航。綜合分析能力:總體把握資源,提高效益,能及時判斷信息資源各個環(huán)節(jié)對業(yè)務的影響,提高信息設施質(zhì)量和降低運維管理人員工作強度,最終為提高科技部的核心價值服務。實現(xiàn)綠色經(jīng)濟模式通過實施自動智慧運維平臺將會帶來非常大的收益和回報。我們來算一筆帳,我們在網(wǎng)絡中采用了自動智慧運維平臺后將產(chǎn)生什么樣的收益。自動智慧運維平臺可以實現(xiàn)對所有網(wǎng)絡、主機的安全和運維工作7*24小時不間斷自動監(jiān)控,代替以往人工檢查的方法。按照200個管理對象預計,每個對象運行情況檢查大約需要10分鐘;全部檢查一遍需要約83.2工時。以每天系統(tǒng)運行情況檢查一遍,每工時/人按15元計算,每年可以節(jié)省人力成本約455520元。自動智慧運維平臺上線后,隨著運維管理水平的提高,整個信息系統(tǒng)故障的解決時間會縮短,并且由于管理水平的提高,信息系統(tǒng)非計劃停機時間也會減少,提高業(yè)務部門滿意度,提升行業(yè)形象,為用戶帶來短期和長期的經(jīng)濟效益無法估量。自動智慧運維平臺將帶來如下的綠色經(jīng)濟模式:系統(tǒng)可以減少運行維護人員的日常巡檢工作強度,可以合理安排人員。北塔的性能數(shù)據(jù)和事件處理辦法預計可以減少大量的運算服務器和存儲設備。系統(tǒng)對信息系統(tǒng)運行和安全隱患進行評估,減小了信息系統(tǒng)故障造成的科技部系統(tǒng)中斷影響面,按評估結(jié)果進行故障排查。北塔軟件公司介紹上海北塔軟件股份有限公司(簡稱北塔軟件)是專業(yè)從事IT運維管理產(chǎn)品研發(fā)、銷售、咨詢和服務的高新技術軟件企業(yè),致力于為中國用戶提供從網(wǎng)絡管理、IT基礎架構管理到業(yè)務服務管理的全面優(yōu)質(zhì)解決方案。通過優(yōu)質(zhì)的解決方案,北塔軟件不斷拓展各個行業(yè)用戶,累計取得全國超過5000家用戶的規(guī)模應用。這些規(guī)模應用讓北塔軟件的產(chǎn)品不斷改進,始終處于運維行業(yè)領先水平。2014年北塔軟件成功登陸國內(nèi)新三板市場,為公司持續(xù)良性發(fā)展奠定堅實基礎。北塔軟件也深知服務對用戶的重要性,在全國所有省會城市都建立了專門的服務團隊,由此建立了全國最大的運維管理產(chǎn)品技術服務團隊,真誠為用戶提供更快捷、更周到的服務。自主創(chuàng)新北塔立足國內(nèi)運維管理實際需要,獨立自主研發(fā),堅定不移走自主創(chuàng)新之路,形成了完全符合國內(nèi)用戶使用體驗的專業(yè)IT運維管理產(chǎn)品。產(chǎn)品完整覆蓋網(wǎng)絡、主機、數(shù)據(jù)庫、中間件、應用、業(yè)務、機房、虛擬化、存儲等各個IT設備領域。通過北塔專業(yè)的研發(fā)團隊,向用戶提供豐富的產(chǎn)品支撐和精細化的指標管理能力,完全滿足用戶對各種IT設備的管理要求。隨著北塔業(yè)務的不斷發(fā)展,北塔收獲了超過23個產(chǎn)品著作權證書,3個發(fā)明專利證書,承擔國家和地方科研項目,這些都是北塔強大的研發(fā)實力的體現(xiàn)。大量優(yōu)質(zhì)案例北塔軟件深知用戶的需求所在,秉承“為用戶創(chuàng)造價值”的服務宗旨,持續(xù)完善和貫徹符合國際標準的項目管理和質(zhì)量管理體系。多年來,已在政府、電力、銀行、石油石化、教育、傳媒、企業(yè)等各行業(yè)開展實踐應用,協(xié)助用戶提升了IT運維管理水平,并以高品質(zhì)、高性價比贏得了用戶的廣泛信任。目前,全國已有超過5000家的用戶使用北塔軟件系列IT運維管理產(chǎn)品。參與標準制訂2010年,北塔軟件加入ITSS(國家信息技術服務標準工作組)。作為副組長成員,肩負行業(yè)責任感,參與了研究并建立信息技術服務標準體系,制定信息技術服務領域的相關標準等方面工作,并積極投身于規(guī)范和引導信息技術服務業(yè)的發(fā)展歷程中。服務能力公司總部設于上海,現(xiàn)有員工超過300人,在上海、北京、廣州、成都、西安、沈陽設有六大營銷和服務中心,在全國三十幾個主要城市均設有分支機構和常駐人員,為用戶提供高效、快捷的本地化服務和支持。核心競爭力北塔軟件不斷加大研發(fā)、技術、服務和人才等方面的投入,強化以”研發(fā)、技術、創(chuàng)新“三大實力為主的核心競爭力,緊跟技術的發(fā)展與用戶的需求,不斷為廣大用戶提供高性價比的產(chǎn)品與服務,幫助用戶創(chuàng)造價值,持續(xù)站在國內(nèi)同領域的巔峰位置。整體技術方案介紹建設目標建設思路結(jié)合國內(nèi)外信息化管理平臺發(fā)展特點,針對信息化現(xiàn)狀和用戶實際需求,自動智慧運維平臺主要從以下兩個方面進行建設:建設全面的基礎設施管理本次管理平臺需要提供全面的基礎設施管理,這些管理內(nèi)容包括網(wǎng)絡設備、無線設備、網(wǎng)絡安全設備、服務器(含小機)、數(shù)據(jù)庫、中間件、標準應用等以及機房內(nèi)的溫濕度探針、UPS設備、空調(diào)設備、門禁、煙感、水浸、攝像頭等設備。在管理設備的基礎上還包括對IP地址管理、設備配置管理、服務器硬件管理、進程管理等內(nèi)容。通過全面的基礎設施管理,能夠建設一個具備全面和精細的管理平臺。建設自動智慧運維管理平臺全面基礎管理之上,通過自動學習,跟蹤設備運行狀態(tài),自動建立設備“健康檔案”。依據(jù)設備的運行狀態(tài)學習,建立全面的數(shù)據(jù)基線,基于自動運維理念,自動對設備的運行異常進行提醒。異常提醒的同時還同步給出操作建議。整個系統(tǒng)還能做到開放運維,可以將用戶的運維經(jīng)驗通過智能策略的方式加入到運維管理平臺,更好滿足用戶“私人定制”系統(tǒng)的要求。建設內(nèi)容具體建設內(nèi)容如下:系統(tǒng)平臺,包括管理平臺、智能運維引擎和多用戶支持引擎。網(wǎng)絡管理,包括網(wǎng)絡設備管理、網(wǎng)絡拓撲管理、網(wǎng)絡性能管理、網(wǎng)絡配置管理等內(nèi)容。無線管理,包括無線設備管理、無線拓撲管理、無線性能管理等內(nèi)容。應用管理,包括服務器管理、數(shù)據(jù)庫管理、中間件管理和標準應用管理,建設系統(tǒng)拓撲圖、主機日志管理等內(nèi)容。存儲管理,包括對存儲設備(磁盤陣列、光纖交換機等)的設備狀態(tài)、性能管理,以及各個磁盤、控制器的狀態(tài)監(jiān)管,并提供存儲容量分析策略,實現(xiàn)主動分析,透明化監(jiān)控;虛擬化管理,包括對虛擬機中心、文件夾、數(shù)據(jù)中心、集群、宿主機、資源池、vApp等資源的全面管理和資源性能的智維分析。機房管理,包括對溫濕度探針、UPS設備、空調(diào)設備、門禁、煙感、水浸、攝像頭、機柜等機房設備管理,提供機房的綜合展現(xiàn)。告警管理,包括建設設備運行基線、異常提示、處置經(jīng)驗管理和智能巡檢等內(nèi)容。報表管理,包括網(wǎng)絡管理、應用報表和虛擬化三方面各類運行報表、故障報表等統(tǒng)計信息,還包括對網(wǎng)絡和應用的數(shù)據(jù)快照功能。層次化管理,提供一對多的多系統(tǒng)部署和管理模式,支持多級部署;總部以圖形方式,動態(tài)區(qū)塊展示下級各單位管理對象的統(tǒng)計狀態(tài)和基本狀態(tài)詳情;支持總部免登陸方式切入到下級平臺,查看具體對象的詳情信息。方案產(chǎn)品介紹在目前這個IT技術大發(fā)展的時代,各行各業(yè)越來越倚重IT作為生產(chǎn)平臺,各種新技術運用使業(yè)務運行更便捷的同時,給業(yè)務IT系統(tǒng)的運維部門帶來的巨大的挑戰(zhàn)。隨著企業(yè)發(fā)展,IT運維部門也在不斷的摸索最佳運維方式,逐漸形成了一些具有企業(yè)特色的運維經(jīng)驗和問題分析方式,而業(yè)界的運維軟件往往無法實現(xiàn)對于企業(yè)運維方式的很好兼容,導致IT部門無法將管理理論轉(zhuǎn)化成最佳生產(chǎn)力,提高管理效率,降低運維成本。北塔BTSO(BetasoftSmartOperation&Maintenance,北塔智慧運維平臺)作為北塔軟件最新一代的運維管理軟件,秉承北塔多年管理經(jīng)驗結(jié)合平臺化開發(fā)方式,在滿足用戶對于基本狀態(tài)和性能無人值守及實時展示的基本運維需求的同時,智能抓取關鍵性能數(shù)據(jù),根據(jù)預置策略進行數(shù)據(jù)分析和聯(lián)動處置;同時提供強大的平臺能力和后臺開發(fā)能力,能將用戶個性化的分析方式和處置方式快速實現(xiàn)策略化,以期實現(xiàn)用戶管理效率的最大化提升。方案產(chǎn)品亮點BTSO系統(tǒng)以自動學習、自動分析、自動運維詮釋智能運維的運維方法。自動學習:實現(xiàn)用戶環(huán)境數(shù)據(jù)的學習,結(jié)合內(nèi)置檢測指標體系,建立具有用戶特征的常態(tài)健康標準;自動分析:實時監(jiān)控用戶各項運維指標,結(jié)合指標變化特征,通過諸如單指標越界比例、多指標組合判斷、歷史趨勢變化等方法自動判斷數(shù)據(jù)異常情況,主動提醒;自動運維:提供處置方案的提醒,用戶處置程序的調(diào)用等多種方案,實現(xiàn)異常問題的及時處理和運維。BTSO系統(tǒng)在落實智能化的運維方法的基礎上,同時注重運維可視化的實現(xiàn),實現(xiàn)運維過程可視、可控;機房可視化:實現(xiàn)用戶從物理結(jié)構角度的監(jiān)控管理,從真實展示效果入手,可快速定位到接口問題信息;業(yè)務可視化:BSM圖形實現(xiàn)業(yè)務關系和業(yè)務狀態(tài)的信息可視性;巡檢可視化:通過圖表方式,實時顯示巡檢過程,及時顯示每一個巡檢項的檢測結(jié)果;動態(tài)顯示巡檢執(zhí)行情況;數(shù)據(jù)可視化:提供靈活定制的界面,多種大數(shù)據(jù)展現(xiàn)界面,使用運維管理的個性化展示要求足。方案詳細介紹產(chǎn)品平臺介紹BTSO采用平臺化設計,以DGO(DataGatherOcean)為數(shù)據(jù)采集平臺,基礎采集平臺構建功能平臺;以告警、報表、智能運維、license構成強大的功能平臺;具體資源的管理作為基于平臺的管理功能,具備以接口為中心的設計模式。BTSO平臺支持在多種操作系統(tǒng)環(huán)境下部署,支持的部署環(huán)境如下:CPU芯片:X86CPU龍芯CPU飛騰CPU操作系統(tǒng):WindowsServer2012/2016等LinuxCentOS7.0/7.1中標麒麟LinuxServer7.0操作系統(tǒng)銀河麒麟LinuxServer7.0操作系統(tǒng)數(shù)據(jù)庫要求:內(nèi)部數(shù)據(jù)庫瀏覽器:ChromeFirefox平臺系統(tǒng)提供強大的擴展能力,支持管理能力的自由擴展:采集平臺支持用戶個性化采集程序的快速兼容,實現(xiàn)管理指標的快速擴展;采集服務器支持無縫擴展,支持多個采集器同時部署;支持管理策略的快速擴展,實現(xiàn)用戶管理方式落地;支持用戶個性化報表的快速擴展,實現(xiàn)各種具備企業(yè)特征報表數(shù)據(jù)和展現(xiàn)方式;支持不少于10個并發(fā)用戶同時登錄系統(tǒng)并進行操作。分布式采集器對于包含多個分支機構的企事業(yè)單位,由于分支機構之間的網(wǎng)絡隔離原因,單一的采集器已經(jīng)不能覆蓋,為此BTSO提供可擴展的廣域網(wǎng)采集器,最多支持20個分支機構的分布部署,對于分支和總部之間的線路要求降到最低,可用1M的帶寬,并支持廣域網(wǎng)等線路穩(wěn)定性較差的環(huán)境,并支持加密方式;采集器具有獨立的采集處理功能,在采集器完成自行的發(fā)現(xiàn)工作。在部署完成后,可進行自由擴展采集器數(shù)量;支持對于固定采集器的管理對象進行禁訪設置,規(guī)避由于管理對象本身監(jiān)控協(xié)議的造成業(yè)務影響;綜合展示BTSO提供的個性首頁能幫助用戶個性化定制首頁和大屏投影,提供靈活定制的界面,能夠進行多種大數(shù)據(jù)展現(xiàn)界面,完全滿足運維管理的個性化展示要求。運行摘要對于一款監(jiān)控軟件來說,其最大的價值是能替代運維人員(值班員)實現(xiàn)不間斷的監(jiān)控,當系統(tǒng)成為用戶的必備管理工具時,每次進入系統(tǒng)有一個概要性的說明,成為軟件的必要。運維主管每日登陸一次即可綜合性的顯示了24小時內(nèi)的系統(tǒng)運行變化趨勢,通過列出了運維人員重點關注內(nèi)容;通過對本界面的閱讀,可快速掌握最近24小時的運維概況,實現(xiàn)運維工作的快速銜接。當前實時運維狀況,需要重點關注當前還處于告警狀態(tài)的資源最近需要的停機計劃虛擬化環(huán)境目前的整合密度,概要性反映虛擬資源利用的有效性最近24小時運維系統(tǒng)的設置變動,便于用戶了解“未在線”時段的事件重要的資源變動統(tǒng)計重要的監(jiān)控方式變動統(tǒng)計已恢復的告警信息了解昨日關鍵指標波動最大的5個資源,便于本日重點分析主機CPU波動分析網(wǎng)絡設備CPU波動統(tǒng)計線路流量均值波動統(tǒng)計日常運維在運維過程中,運維系統(tǒng)在后臺進行規(guī)律性監(jiān)測,但是由于業(yè)務上的定期整修、環(huán)境的變化,管理要求的提高均需要運維管理人員對于系統(tǒng)運維工作進行干預操作,為了更好的實現(xiàn)日常運維的各項管理,BTSO提供日常運維菜單,為用戶提供場景化工作入口,包括對現(xiàn)行監(jiān)控方式的查看、對智維巡查過程的關注、調(diào)整監(jiān)控計劃,審計運維配置修改過程。運維等級管理等級管理是實現(xiàn)差異化管理的一個具體手段,按照不同等級實現(xiàn)不同的監(jiān)控方式是等級管理的具體落實;作為等級管理的主要頁面,全局顯示了所有等級的設備數(shù)量,以及不同等級的方式,包含智維規(guī)則、告警規(guī)則;同時設備的管理優(yōu)先級不是固定不變的,本界面為用戶提供了快速等級切換的統(tǒng)一配置功能。制度化運維檢巡檢巡檢管理是IT運維制度的必要組成部分,通過巡檢制度保障日常系統(tǒng)是被監(jiān)控的,傳統(tǒng)巡檢是通過手工查詢獲得,而北塔的智能巡檢是基于依托系統(tǒng)強大的采集能力實現(xiàn)定期巡查和報告生成,極大程度上提高日常運維效率。巡檢任務的建立支持以業(yè)務、自定義組合為輸入的巡檢任務建立方式,支持以某一個業(yè)務或同一類型以同一個巡檢報告樣式、同一個時間點進行巡查;巡檢任務支持巡檢模板方式,為企業(yè)已經(jīng)生產(chǎn)的巡檢規(guī)范快速應對到巡檢任務提供快捷應用,用戶僅需把巡檢對象(業(yè)務、對象)納入到巡檢任務中,系統(tǒng)自動配對相應的巡檢指標要求;同時支持將已經(jīng)執(zhí)行的個性化巡檢任務提升成企業(yè)巡檢模板。系統(tǒng)支持提供日、周、月、不定周期多種巡檢方式,其中日、周、月為周期巡檢,一個周期內(nèi)可以執(zhí)行多次巡檢任務;周期巡檢是將多次巡檢在同一個統(tǒng)計報表中進行統(tǒng)計查詢;系統(tǒng)支持特殊時段的巡檢工作,比如國慶假期的特殊巡檢,此類巡檢為短時段內(nèi),以日為巡檢基礎單元的巡檢任務;同時提供此不定周期巡檢的巡檢周期報表。為巡檢過程透明化提供了數(shù)據(jù)基礎,而透明化巡檢過程,可以使異常的識別更為清晰;每一次巡檢結(jié)果均使用顏色方式顯示巡檢結(jié)果,紅色表示巡檢異常,綠色顯示巡檢正常;通過文字說明當前巡檢結(jié)果狀態(tài);系統(tǒng)應該提供此次巡檢任務的健康度評價,以及每一個巡檢項目的當前值和巡檢檢測值的情況。系統(tǒng)支持對巡檢任務的立即執(zhí)行和重點保障業(yè)務的不間斷巡檢工作,通過“立即巡檢”“持續(xù)巡檢”,可以發(fā)現(xiàn)巡檢工作,并在視圖中進行顯示。完成巡檢后,可以以表格方式查詢當前本次巡檢的統(tǒng)計結(jié)果;對于具體的巡檢指標,系統(tǒng)應該提供企業(yè)自身處置方案的定制,可以通過定制+加載方式實現(xiàn)對于巡檢異常的快速處理,作為一種處置策略,延續(xù)北塔智維運維中自動處理的一貫思路,在用戶現(xiàn)場規(guī)范設定的前提下,可以擴展成對于主機的關閉進程、上聯(lián)端口關閉等自動運維操作;延續(xù)企業(yè)日常傳統(tǒng)運維要求,巡檢報表具備一定的范式,要求系統(tǒng)生成的巡檢統(tǒng)計報表可以按照用戶要求定制,并且能無縫納入到系統(tǒng)中。重點應用實時控對于工程師日常監(jiān)控來說,故障管理是突發(fā)情況,而關鍵業(yè)務、指標的監(jiān)控是常態(tài)管理要求,為了滿足工程師對于重點應用質(zhì)保的監(jiān)控要求,系統(tǒng)提供了自定義首頁功能,該功能提供基于角色的個性展示功能,用戶可以自行選擇不同管理重點指標以及展現(xiàn)方式,以便完成一圖完成所有重點監(jiān)控;系統(tǒng)能夠為展示要求提供數(shù)據(jù)支撐,能為自定義布局提供技術支撐,管理展現(xiàn)提供數(shù)據(jù)支撐。系統(tǒng)至少提供TOP表格、TOP柱狀圖、性能曲線圖、單值圖等多種展示方式;支持對于所有數(shù)值型數(shù)據(jù)的統(tǒng)一排序、歷史記錄展示;結(jié)合日常管理需求,可以實現(xiàn)諸如骨干線路監(jiān)控總圖、關鍵應用監(jiān)控視圖的管理要素。除了所以采集范圍內(nèi)的指標外,也支持通過sql、ssh、snmp等方式擴展業(yè)務指標的顯示;系統(tǒng)能夠提供基于一個角色同時查看和配置多張視圖的能力,每張視圖可以新窗口打開,為用戶日常監(jiān)控展示提供便利性。每日運維工作交接運維軟件7*24小時在后臺運行,運維人員無需長期打開軟件前臺。但是當用戶一段時間下線后,需要快速了解在離開的時間就運維工作有什么發(fā)生了,后續(xù)有什么繼續(xù)處理的;這也是BTSO運行摘要為用戶帶來的管理價值;系統(tǒng)提供歷史發(fā)生重要事件,便于用戶了解管理方案有何變化:提供昨日管理對象范圍的變化,列出具體哪些對象被新納入了管理范圍提供昨日管理規(guī)則的變化,列出哪些智維規(guī)則、告警規(guī)則發(fā)生了變動提供昨日告警恢復清單,列出了哪些告警事件被處理;系統(tǒng)提供當前重要事件提醒,便于用戶了解當前運維工作急需處理的事項:提供當前未恢復告警清單提供本日需要停機設備清單提供昨日性能增長異常的設備,便于找到性能優(yōu)化的抓手;每周智維隱患分析BTSO自動對管理對象進行數(shù)據(jù)收集,用戶進行數(shù)據(jù)對比分析,系統(tǒng)也提供智維分析的周統(tǒng)計,智能的挖掘系統(tǒng)的問題隱患。提供本日/周/月系統(tǒng)運行概要信息:目前管理的總數(shù)量,本周運維巡檢的次數(shù)本周執(zhí)行智能診斷的次數(shù)本周生成的報表數(shù)量提供各個管理類型的運維巡檢情況:本周運行健康趨勢如何,如果問題增多則需要關注;提供為什么問題增多的具體表現(xiàn),包含本周巡檢問題最多的指標,以及問題最多的設備;包含本周巡檢問題最多的設備,以及這個設備的問題指標;停機檢修管理停機檢修是每個企業(yè)中不可避免的運維場景,檢修時段的監(jiān)控是沒有意義,而且會導致相關誤告警;BTSO將停機作為基本運維場景,用戶可以按照在系統(tǒng)中制定停機計劃,比如網(wǎng)絡設備停機、主機停機,系統(tǒng)自動根據(jù)關聯(lián)關系對于相關聯(lián)的線路和承載軟件自動列入計劃。計劃執(zhí)行前,系統(tǒng)可以以郵件、短信多種方式通知管理員做好相關保存?zhèn)浞莨ぷ?。計劃?zhí)行時,系統(tǒng)自動屏蔽相關設備與軟件的告警項目;計劃結(jié)束后,系統(tǒng)自動啟用告警監(jiān)控;相關統(tǒng)計中自動將停機內(nèi)容進行去除,以設備正常進行計算。同時提供了admin賬號補填停機計劃的過程,此項過程為了保障由于臨時性停機過程,而出現(xiàn)的錯誤統(tǒng)計現(xiàn)象。軟件操作審計BTSO用于評價IT環(huán)境中的各個管理資源,為了體現(xiàn)公平合理,相關的評價規(guī)則的設置需要得到控制,所以提供了軟件操作審計,為管理者能清晰的查閱到對于資源設置變更、監(jiān)控規(guī)則變更、報表規(guī)則變更的情況,強大的搜索系統(tǒng),為用戶定位異常操作提供助力。智能運維引擎運用等級概念實現(xiàn)差異化管理運用等級概念實現(xiàn)差異化管理BTSO精選各類管理對象的關鍵狀態(tài)、性能指標,以不同管理等級為數(shù)據(jù)集,實現(xiàn)一個等級的資源一個管理方案,包含預置智維檢測指標、預置報表、預置策略檢測等;實現(xiàn)資源加入即可監(jiān)控的簡單運維方式。BTSO也支持用戶根據(jù)業(yè)務系統(tǒng)的重要性,將管理上相同重要性的不同管理對象設置為同一等級,針對性新設、修訂管理指標監(jiān)控集合,修訂監(jiān)控密度、閾值,指定針對性處置策略,在不同等級間實施差異化管理;圖:智維引擎工作示意自主學習基線實現(xiàn)業(yè)務異常監(jiān)控在日常運維管理中,業(yè)務管理的復雜性要遠高于設備管理的復雜性,它不是簡單的表現(xiàn)為好壞、通斷,而是更復雜為可用性問題,可用性判斷也是由一批關鍵指標構成的,但指標的正常與否,不能簡單地以固定閾值來對比,要結(jié)合真實業(yè)務情況的波動來判斷。BTSO提供智能基線監(jiān)控方式,支持智能基線的自動學習,通過對正常狀態(tài)下指標的“歷史表現(xiàn)”,加以調(diào)整后作為基準線,與以后同樣時段的實時指標做對比,如果誤差在允許范圍內(nèi),那么判定為正常,否則為越界,越界次數(shù)越多,會導致系統(tǒng)的可用性嚴重下降,極端情況下導致系統(tǒng)不可正常使用;以此作為業(yè)務異常的監(jiān)控;系統(tǒng)提供日、周兩種基線方式,周基線的形成是以前幾個穩(wěn)定的周歷史數(shù)據(jù)為基礎,通過智能算法,將每日相同時間點的多個數(shù)據(jù),歸并成一個基準數(shù)據(jù),并以此為方式形成周基線。使用基線時,將實時數(shù)據(jù)和基線相同時間點進行比對,實現(xiàn)周一和周末的區(qū)別、上午8點和下午4點的業(yè)務區(qū)別。智能策略實現(xiàn)管理實例落地BTSO將圍繞運維數(shù)據(jù)產(chǎn)生且具有固定分析和處理邏輯的運維方法,歸類為智能策略需要處理的方法;通過策略的應用,可以進一步提高運維效率和運行成效。BTSO內(nèi)置了眾多的智維策略,提供標準的管理實例落地,通過客戶化開發(fā)實現(xiàn)用戶處理經(jīng)驗的快速落地;系統(tǒng)對于所有管理指標均可實現(xiàn)基礎分析方法,當發(fā)現(xiàn)異常后,及時了解該異常指標的管理意義和影響范圍,以及歷史情況,這樣將原本專業(yè)性過強的指標一下子拉進到可理解可運維的角度;系統(tǒng)對于主機類兩個重要問題“負載過高”“內(nèi)存泄露”進行了專項分析,針對這兩個問題特征,聯(lián)合進程分析,進一步定位造成這兩個問題的具體業(yè)務進程,為用戶解決系統(tǒng)問題提供有數(shù)據(jù)、有結(jié)論的原因定位;系統(tǒng)對于數(shù)據(jù)存儲的核心性能問題“內(nèi)核延遲”“設備延遲”做了專項分析,另外對于集群、宿主機、虛擬機、數(shù)據(jù)存儲的24個關鍵性能指標提供自動分析,當發(fā)現(xiàn)異常越界比例過高時,系統(tǒng)會主動以專題性分析報告的方式告知用戶,列出歷史分析數(shù)據(jù),便于用戶更深入了解問題本質(zhì),同時給出了具體解決這個問題的方案,從而使用戶在第一時間能將影響范圍縮到最??;通用指標越界策略,如同上述數(shù)據(jù)庫指標一樣,通過對于歷史數(shù)據(jù)的分析回顧,智能分析出指標與歷史基準(具體風險閾值的差異),主動提示用戶異常風險,并同時告知該指標的意義以及異常的處理建議;該策略可覆蓋所有類型的指標,包括主機、網(wǎng)絡、數(shù)據(jù)庫等,用戶也可通過該策略關注業(yè)務相關的特殊指標,以完成策略的本地化應用;圖:異常情況分析與處理建議專項智維方案快速實現(xiàn)問題排查系統(tǒng)提供場景化工具用于對專項問題的分析,從而復雜問題的簡單化排查,系統(tǒng)在常見操作界面提供快速操作入口,便于用戶能快速調(diào)用并解決故障。系統(tǒng)預置多個智維分析方案,并支持快速開發(fā),插件化導入,實現(xiàn)用戶分析場景的快速集成。系統(tǒng)支持對于服務器和客戶端鏈路質(zhì)量的快速分析,僅需輸入服務器和客戶端的IP地址即可計算兩端的接入設備和中間的網(wǎng)絡傳輸連續(xù),并可對相關鏈路進行傳輸質(zhì)量分析,并輔以借助本地服務器對兩端延時的測試,從而分析出網(wǎng)絡訪問緩慢的瓶頸點。系統(tǒng)支持對于沖突IP的快速定位,在外部獲得IP沖突信息后,僅需輸入沖突IP,就可以定位到當前使用者以及被沖突IP接入位置,從而快速處理。系統(tǒng)智能運維傳統(tǒng)系統(tǒng)監(jiān)控的訪問方式為告警,但是面對設備日趨完善,管理對象超過閾值的告警越來越少,如何實現(xiàn)運維價值的最大化呢?這是擺在運維管理主管面前的最大課題。北塔公司結(jié)合用戶運維實際情況,發(fā)現(xiàn)運維價值最大化的方式有如下方面:通過事前隱患智能分析,主動排除,即時通知,將故障發(fā)生概率降到最低;對于部分故障實現(xiàn)自動化分析和處置,縮短故障處置周期,避免損失擴大化;落實每個運維主管的對于自身企業(yè)的個性化管理要求;BTSO適時推出了智能運維管理,為用戶落實如上3點訴求,提供管理功能。預置智維管理方案BTSO核心管理方式就是智能化管理,智能化的理論基礎是北塔十幾年的運維經(jīng)驗和幾千家用戶的管理實踐,為把這些管理方案推送到用戶現(xiàn)場,BTSO提供了智能運維模板。智維模板按照管理等級,預置了不同管理對象的管理方案,方案包含如下技術點:內(nèi)置監(jiān)測方案,包含采集指標的多寡,具體指標的采集周期、監(jiān)測閾值,便于對系統(tǒng)自行巡檢相關數(shù)據(jù);提供了預置告警規(guī)則給用戶進行選擇,用戶可以根據(jù)業(yè)務管理實踐的不同啟用相應的告警管理規(guī)則;提供常見管理報表,并生成高級別對象的管理報表。通過上述智維模板,使軟件無需復雜配置,安裝就能對資源進行基礎運維。智維事件監(jiān)控對于預置監(jiān)控方案,BTSO不僅提供后臺自動檢測過程,也提供了前端巡查功能,使用戶能實時了解到后臺智維的實時動態(tài);對于智維巡查結(jié)果,以事件方式存在,此類事件并不完整描述了故障或異常,所以BTSO推薦以統(tǒng)計角度進行評價,以越界比例作為觀測的切入點。同時系統(tǒng)提供詳盡智維分析工具,包含智維信息的統(tǒng)計、智維異常分布、歷史值檢查等,結(jié)合此類工具實現(xiàn)異常的關聯(lián)分析和確認。智維越界提醒策略BTSO預置多種預置策略,基礎策略是對于內(nèi)置監(jiān)控方案的提醒策略,對于智維越界事件,當系統(tǒng)發(fā)現(xiàn)內(nèi)置檢測指標,越界事件超出安全頻率后,主動推送到頁面前端,通知管理員,系統(tǒng)發(fā)現(xiàn)了異常。提示內(nèi)容中包含最近3日,發(fā)生異常的次數(shù)并且給出該指標的歷史曲線;同時給出該指標的詳細定義,清晰的列明,該指標是什么,異常后影響什么,一般的解決方案是什么。同時可對該指標進行快速設置告警,便于后期管理中,出現(xiàn)了相同問題后能通過短信、郵件通知離線用戶??蛻艋治霾呗远ㄖ艬TSO的智能策略基于平臺化接口體系,作為軟件的核心,其可以調(diào)用BTSO軟件的各個方面,包含基礎數(shù)據(jù)的采集,合成指標的計算,各類對象的綜合分析,并可以實現(xiàn)通知、報表、下發(fā)等處置策略的調(diào)用。北塔軟件基于BTSO,通過合作開發(fā)的模式,可以實現(xiàn)用戶管理策略的自動化,使每個用戶能使用上“貼心”的運維軟件。故障管理對管理對象按照預置的風險閾值進行檢測,并實時通知到管理員處,是運維系統(tǒng)必備功能,也是傳統(tǒng)上運維軟件的核心價值所在;而在傳統(tǒng)上故障管理在應用上經(jīng)常會遇到如下問題:設置告警的范圍選擇,用戶總是期望監(jiān)控無死角,但是所有KPI的高頻監(jiān)控必然導致管理設備的異常負載增加,這要求運維廠商能提供合理的告警范圍推薦;告警規(guī)則的自動設置,往往用戶對于告警的規(guī)則和檢測標準時一致的,如何實現(xiàn)相同標準的推廣,這要求運維軟件對于規(guī)則設置的易用性;告警的經(jīng)驗如何總結(jié)和繼承,告警處理經(jīng)驗能得到及時記錄,并能在下次出現(xiàn)同問題時,即時推送,便于有效提高故障處置效率。BTSO系統(tǒng)提供了靈活的告警設置、精確的告警檢測,多樣告警推送方式、簡單的告警經(jīng)驗積累方式,實現(xiàn)用戶有效及時得到故障信息。BTSO提供智維管理對越界異常進行了檢測,以越界頻率為判斷方式,通過智能分析、判斷,輔助異常處理,而告警觸發(fā),需要人工介入、流程處理,盡快“撲滅”故障現(xiàn)場是首要的,分析原因是其次的。及時有效捕獲故障系統(tǒng)提供了靈活的告警設置、精確的告警檢測,多樣告警推送方式、簡單的告警經(jīng)驗積累方式,實現(xiàn)用戶有效及時得到故障信息。1、系統(tǒng)告警規(guī)則實現(xiàn)快速設置,支持用戶實現(xiàn)快速規(guī)模化設置告警規(guī)則:提供大量預置告警規(guī)則;提供按照指標進行告警資源的批量設置;提供對指標意義進行詳細的說明;提供以IP段方式預先設置告警規(guī)則,只要新對象符合IP范圍,自動啟動告警規(guī)則。提供不同監(jiān)控時段的設置,提供工作時間和非工作時間的不同監(jiān)控周期設置;支持多種告警通知方式,包括短信、郵件等內(nèi)置通知方式。2、系統(tǒng)提供靈活的告警查詢方式:可通過告警檢測指標進行統(tǒng)一查詢,實現(xiàn)指標統(tǒng)一分析;可通過IP地址查詢IP上的所有告警規(guī)則。3、系統(tǒng)即時發(fā)送告警信息:系統(tǒng)以5個等級區(qū)別不同的告警重要度;提供告警信息的詳細展示。支持最短60秒響應周期,可根據(jù)不同業(yè)務要求進行調(diào)整告警響應周期;支持短信、郵件、數(shù)據(jù)庫、syslog等多種標準方式輸出;支持用戶現(xiàn)有通知平臺的定制輸出;分析故障歷史提高運維成效對于故障的處理需要即時,快速;但當故障處理完成后,更需要對以往發(fā)生的故障進行回顧分析,找出故障規(guī)律,并采集進一步優(yōu)化方案,避免下一次故障的產(chǎn)生;當處理告警時或者不會注意,但是通過同一條告警規(guī)則的歷史觸發(fā)情況的回顧,往往會發(fā)現(xiàn)該告警指標的告警次數(shù)最多的設備、以及持續(xù)時間最長的設備,便于對這幾個設備進行分調(diào)整,比如更換更好配置的機器承擔此項業(yè)務要求,比如將業(yè)務進行分散;同時告警的處理一定程度上也是IT運維成效的體現(xiàn),管理上可以通過對告警解決時間和告警時長的角度,作為運維工作的一個考核項目;系統(tǒng)需要提供及時的故障分析報表;處置知識管理日常故障處置經(jīng)驗的積累是運維管理最有效、最傳統(tǒng)的方式,而實際操作往往由于各類主觀原因沒有很好的落實;BTSO通過對告警的統(tǒng)計,智能判斷需要用戶進行積累經(jīng)驗的時機,主動彈出相應的界面,要求用戶及時把管理經(jīng)驗進行積累,使用戶運維的無形資產(chǎn)得到保留;當后續(xù)出現(xiàn)相同告警時,告警信息在第一時間完成關聯(lián)的處置經(jīng)驗信息反映,為用戶處理故障提供快速參考建議,使運維經(jīng)驗的應用落到實處。系統(tǒng)類管理主機管理主機管理以波浪圖方式顯示所有主機的全局信息,以圖形化方式顯示主機的常用管理參數(shù)。包含如下信息:詳細的主機基本管理參數(shù)單個系統(tǒng)的CPU、內(nèi)存增長趨勢單個系統(tǒng)的業(yè)務流量變化趨勢單個系統(tǒng)存儲空間實時和變化情況同時可對統(tǒng)計范圍內(nèi)的主機進行詳細的實時分析數(shù)據(jù),便于用戶關聯(lián)分析出需要重點關注的主機:以實時CPU利用率的主機排行實時內(nèi)存利用率的主機排行實時連續(xù)運行時間的主機排行各個操作系統(tǒng)的存儲空間已使用情況分析,給出使用率最高的20個設備最近30天以CPU為評價指標的高負載和低負載設備列表提供主機一體化顯示,按照不同的操作系統(tǒng)進行數(shù)據(jù)分類,系統(tǒng)提供基礎信息、運行信息、進程管理、事件與告警、硬件信息等各類管理信息:以關聯(lián)方式顯示主機上的承載數(shù)據(jù)庫、中間件、標準應用的實時狀態(tài)圖形化列出重點監(jiān)控的硬件、日志、CPU性能、磁盤信息的實時信息對于CPU性能、網(wǎng)卡等重要參數(shù)的最近3天數(shù)據(jù)分析支持主機進程的實時展示分析對進程列表支持數(shù)據(jù)快照分析,支持列表數(shù)據(jù)定時導出;實現(xiàn)對進程的變化分析主機系統(tǒng)支持對于HP、Dell、IBM三個廠商的硬件狀態(tài)監(jiān)控,支持對于溫度、風扇、磁盤、CPU、內(nèi)存、電源等重要主機硬件的狀態(tài)監(jiān)控;BTSO智能翻譯硬件各個狀態(tài),將復雜的各個硬件運行狀態(tài),轉(zhuǎn)化成運維監(jiān)控的異常正常狀態(tài);便于用戶快捷的設置硬件異常監(jiān)控告警。服務器硬件管理系統(tǒng)支持以IPMI方式為主體監(jiān)控方式的硬件管理,IPMI方式屬于主板層面的監(jiān)控,是以帶外管理模式監(jiān)控服務器的硬件狀態(tài),支持各類國產(chǎn)廠商的服務器,包括聯(lián)想、曙光等。帶外管理模式可以在服務器操作系統(tǒng)無法啟動時,感知到具體的設備異常,避免用戶在定位服務器問題時需要打開機箱的麻煩,從而實現(xiàn)真正的遠程運維;對于硬件服務器的監(jiān)控,系統(tǒng)從異常狀態(tài)和開機時長兩個維度為用戶進行全局歸類,支持各項存在異常狀態(tài)的服務器進行分類查詢,實現(xiàn)在大量服務器管理場景下的快速問題定義;在服務器管理中開始時長也是一個重要管理指標,通過開機時長可以快速判斷服務器是否穩(wěn)定運行;硬件管理通過表格展示硬件IP和OS對應關系,同時分組展現(xiàn)各個硬件組件的實時狀態(tài);點擊硬件IP可以查看硬件監(jiān)控詳情,點擊OSIP可以查看當前關聯(lián)操作系統(tǒng)的狀態(tài),以便了解承載應用的可用性;服務器硬件管理需要在被管對象處配置單獨的管理IP,監(jiān)控產(chǎn)品支持一個服務器上通過虛擬化方式加載多操作系統(tǒng)的部署方案。支持通過操作系統(tǒng)和服務器硬件的關聯(lián)管理;服務器硬件管理以IPMIV2.0為基礎,支持服務器生產(chǎn)廠商、啟用時長的系統(tǒng)資產(chǎn)屬性的獲取,同時監(jiān)控電源、電壓、溫度、風扇各類傳感器的監(jiān)控。結(jié)合添加硬件傳感器可以實現(xiàn)功率監(jiān)控的特殊監(jiān)控要求;同時監(jiān)控系統(tǒng)日志信息,可以查詢到各類硬盤狀態(tài)、插卡熱插拔、系統(tǒng)啟動等系統(tǒng)底層信息。數(shù)據(jù)庫管理數(shù)據(jù)庫專項管理支持對所有數(shù)據(jù)庫的統(tǒng)一分析和處理;BTSO支持Oracle(含OracleRAC)、SQLSever、DB2、MYSql、sybase、infomix、達夢等各版本的數(shù)據(jù)庫監(jiān)控;數(shù)據(jù)庫管理操作系統(tǒng)管理為基礎,實現(xiàn)主機和數(shù)據(jù)庫協(xié)同管理。數(shù)據(jù)庫增加方式支持手工增加和批量導入模式;支持用戶以模板為基礎修改的資產(chǎn)清單的導入。支持對于管理信息的統(tǒng)計,包含授權點使用情況,各個數(shù)據(jù)庫狀態(tài)分布、各類型數(shù)據(jù)庫熟練統(tǒng)計、數(shù)據(jù)庫等級統(tǒng)計。支持對于各個數(shù)據(jù)庫實時運行狀態(tài)的實時統(tǒng)計,包含數(shù)據(jù)庫會話數(shù)、死鎖數(shù)實時排行。在數(shù)據(jù)庫技術層面主要對表空間大小和會話數(shù)、緩存信息、鎖信息進行重點監(jiān)管;系統(tǒng)以圖形化方式顯示了各個關鍵指標,使管理者能快速了解數(shù)據(jù)庫狀態(tài)。同時鑒于數(shù)據(jù)庫與主機的不可分割性,系統(tǒng)強調(diào)關聯(lián)分析:主機列出數(shù)據(jù)的實時告警狀態(tài),所在主機主要性能,主機上目前數(shù)據(jù)庫相關的進行列表實時情況。依托于所在主機的日志管理,支持對于數(shù)據(jù)庫應用日志的監(jiān)控,比如oracle中alert_<instance>.log文件監(jiān)控,可以獲取對ORA-27072等常見錯誤日志的實時監(jiān)控。SQLserver管理從運行狀態(tài)、運行信息、資源使用、日志、作業(yè)、后臺告警幾個角度進行管理,對于運行信息涉及會話、事務、鎖對象、閂對象、緩存器多個管理要素的核心運行數(shù)據(jù),資源使用結(jié)合操作系統(tǒng)資源和分配資源內(nèi)容進行管理,包含CPU、內(nèi)存、進程、磁盤空間、網(wǎng)絡帶寬使用;同時提供數(shù)據(jù)文件的日增量,便于了解業(yè)務增長規(guī)律;DB2管理從運行狀態(tài)、運行信息、表空間、進程狀態(tài)、資源使用等幾個維度重點切入,運行信息涉及應用連接、緩存、數(shù)據(jù)庫緩存池IO信息、鎖信息等多個管理要素的核心運行數(shù)據(jù),資源使用涉及操作系統(tǒng)相關的CPU、內(nèi)存、應用已分配日志空間的管理;Mysql管理從運行狀態(tài)、運行信息、資源使用、事件等幾個角度進行重點切入,運行信息涉及響應時間、緩存、IO、連接、鎖對象等多個管理要素的核心運行數(shù)據(jù),資源使用結(jié)合操作系統(tǒng)資源和分配資源內(nèi)容進行管理,包含CPU、內(nèi)存、進程、磁盤空間、網(wǎng)絡帶寬使用;同時提供數(shù)據(jù)文件的日增量,便于了解業(yè)務增長規(guī)律;Sybase管理從運行狀態(tài)、運行信息、資源使用、作業(yè)等幾個角度進行重點切入,運行信息涉及響應、會話、緩存、事務、鎖對象、磁盤讀寫等多個管理要素的核心運行數(shù)據(jù),資源使用結(jié)合操作系統(tǒng)資源和分配資源內(nèi)容進行管理,包含CPU、內(nèi)存、進程、磁盤空間、網(wǎng)絡帶寬使用;同時提供數(shù)據(jù)文件的日增量,便于了解業(yè)務增長規(guī)律;達夢(DM)數(shù)據(jù)庫管理通過運行狀態(tài)、運行信息、資源使用等多個角度進行管理切入,運行信息涉及會話、緩沖區(qū)、網(wǎng)絡、線程、磁盤IO、鎖對象、文件IO、數(shù)據(jù)緩沖區(qū)等多個管理要素的核心運行數(shù)據(jù);informix管理通過運行狀態(tài)、運行信息、日志文件、配置信息等多個角度進行管理切入,運行信息涉及塊、擴展數(shù)據(jù)塊、高可用數(shù)據(jù)復制狀態(tài)、鎖對象、會話等多個管理要素的核心運行數(shù)據(jù)。Oracle集群管理Oracle集群(RAC)作為常見的oracle部署方式,結(jié)構復雜,管理能力要求高;BTSO通過圖形化展示方式,將RAC的結(jié)構清晰展現(xiàn)給用戶,同時列出重點性能信息,幫助企業(yè)用戶能初步定為RAC系統(tǒng)的關鍵異常狀態(tài)。BTSO支持oracle版本的集群體系,通過與部署主機、承載實例、控制軟件的分層管理實現(xiàn)清晰架構。通過整體方式顯示各個承載系統(tǒng)的性能,通過對各承載系統(tǒng)CPU、內(nèi)存、物理IO情況的分析,清晰的展現(xiàn)出各個承載系統(tǒng)的負載均衡情況。支持對承載主機、實例、clusterware的一體化信息查看。對于clusterware應用軟件性能做了細致分析,如上圖,BTSO通過對GCS性能、融合寫比例、IO、實例會話四個方面,以對比方式監(jiān)控不同的實例,從而幫助用戶判斷出節(jié)點負載是否均衡;為規(guī)劃調(diào)整提供對比數(shù)據(jù)。中間件管理中間件管理對通用定義中間件的管理,包含了應用服務器、消息中間件的管理,支持MQ、webologic、websphere、Tongweb、IIS、Domino、Easerver、Jboss、Apache、tomcat、Tuxedo的非集群管理;實現(xiàn)用戶對于中間件的基本狀態(tài)和承載業(yè)務的基本狀態(tài)監(jiān)管。支持對于管理信息的統(tǒng)計,包含授權點使用情況,各個中間件狀態(tài)分布、各類型中間件數(shù)量統(tǒng)計、中間件等級統(tǒng)計。MQ管理:對于MQ管理系統(tǒng)中重點關注所在主機性能和通道、隊列信息。同時提供特別關注功能,記錄用戶業(yè)務相關的通道和隊列信息。websphere管理線程、事務信息、虛擬機信息,同時顯示實際承載業(yè)務的鏈接信息。weblogic管理重點關注中間件自身性能和承載業(yè)務鏈接應用的信息。BTSO支持最近24小時數(shù)據(jù)展現(xiàn),使用戶更為清晰了解性能變化情況。Tongweb管理通過對中間件運行狀態(tài)和運行數(shù)據(jù)、配置信息的監(jiān)控實現(xiàn)運維,其中運行數(shù)據(jù)涉及堆內(nèi)存、非堆內(nèi)存、Java虛擬機、線程信息、class信息、垃圾收集器、ORB線程池、JDBC連接池、web應用、servlet、EJB池的核心運行指標;Tuexdo管理通過對中間件運行狀態(tài)和運行數(shù)據(jù)、配置信息的監(jiān)控實現(xiàn)運維,其中運行數(shù)據(jù)涉及客戶端、消息隊列、服務信息、服務器信息的核心運行指標;Tomcat管理通過對運行狀態(tài)和JVM信息、連接器信息的監(jiān)控實現(xiàn)運維,其中連接器部分涉及線程、和請求信息的核心運行指標;Apache管理通過對運行狀態(tài)和性能指標的監(jiān)控實現(xiàn)運維,其中關鍵的指標包含訪問次數(shù)、業(yè)務流程、活動進程數(shù)等該類指標均可通過基線方式實現(xiàn)運行異常變化的監(jiān)管;Domino管理通過運行狀態(tài)和性能、配置指標等監(jiān)控實現(xiàn)運維,其中性能指標涉及服務運行情況、服務器任務、服務器信息、服務器硬盤、復制情況、郵件情況、服務器內(nèi)存的核心運行指標。IIS管理通過對總體IIS服務站點的監(jiān)控實現(xiàn)運維,其中涉及IIS的運行狀態(tài)、連接信息、服務器性能等多方面的核心運行指標;JBoss管理通過狀態(tài)和運行信息的監(jiān)控實現(xiàn)運維,其中運行信息涉及EJB、EJB3、JDBC、JVM、servlet、線程池、web應用、緩存、JMS、請求、會話、log4j能等多方面的核心運行指標。EAserver管理通過對運行狀態(tài)和運行信息的監(jiān)控實現(xiàn)運維,主要涉及服務器狀態(tài)、連接信息、網(wǎng)絡讀寫、連接緩存信息等多個方面的核心運行指標。標準應用管理標準應用管理支持文件傳輸應用(ftp)、網(wǎng)頁服務(http)、郵件服務(pop3、smtp)、Aspnet、dhcp、DNS、Exchange2003\2007、JVM、LDAP的監(jiān)控。支持加密傳輸協(xié)議,包括Sftp、https的監(jiān)控。支持對于管理信息的統(tǒng)計,包含授權點使用情況,各個數(shù)據(jù)庫狀態(tài)分布、各類型數(shù)據(jù)庫熟練統(tǒng)計、數(shù)據(jù)庫等級統(tǒng)計。支持圖形化方式顯示應用的承載主機狀態(tài)和應用的基本性能信息。主機拓撲管理系統(tǒng)拓撲以主機為核心,展現(xiàn)了所有承載的數(shù)據(jù)庫和中間件、標準應用之間的實時狀態(tài)監(jiān)控,為主機監(jiān)控提供全景視圖;系統(tǒng)自動生成并智能布局,無需人工調(diào)整。系統(tǒng)拓撲提供清晰的展現(xiàn)方式:提供網(wǎng)段不同顏色表示方式,不同主機按照其操作類型圖標顯示,從主機出發(fā)關聯(lián)數(shù)據(jù)庫與主機的關系。系統(tǒng)通過不同的顏色區(qū)分管理對象的實時性能層級,BTSO提供了主機經(jīng)典性能指標,并以紅、黃、藍代表其主機實時性能;提供根據(jù)業(yè)務需要性能負載調(diào)整設置功能;提供主機關鍵性能指標的實時顯示;系統(tǒng)以閃爍的圖標反映,重點提醒用戶該資源發(fā)生了告警;同時以彈出框顯示告警的具體對象信息;系統(tǒng)提供自定義拓撲方式,可通過對不同業(yè)務拓撲主機的自定義歸類,實現(xiàn)單獨業(yè)務的聚焦關注。拓撲圖不僅反映單個設備的狀態(tài),同時提供關聯(lián)數(shù)據(jù)排行,為問題定位增加信息參考:提供以故障作為評價方式的綜合評分,整體了解系統(tǒng)的整體運行健康情況;提供主機CPU實時TOPN排行,分析主機性能最高的設備,便于用戶重點監(jiān)控;提供主機連續(xù)運行時間TOPN,分析主機異常開關系統(tǒng)的變化;提供數(shù)據(jù)庫會話數(shù)TOPN,分析數(shù)據(jù)庫實時運行狀態(tài)。拓撲圖不僅作為展現(xiàn)工具,同時可作為主機管理的分析工具:系統(tǒng)提供各種全局性變化趨勢分析,包括CPU漲幅分析、內(nèi)存漲幅分析、流量漲幅分析、存儲周期漲幅分析;通過對管理范圍內(nèi)的所有的主機進行全局分析,以不同的顏色區(qū)別顯示主機對于CPU的增長區(qū)間;提供CPU、內(nèi)存、流量、存儲的趨勢分析,通過環(huán)比分析,區(qū)分出運行趨勢的異常;如CPU趨勢分析,給出前4天日均值,以及動態(tài)變化曲線。日志管理日志是所有IT應用反映內(nèi)部異常和狀態(tài)的重要記錄方式,日志反饋的異常相對于標準網(wǎng)管協(xié)議的信息更為及時和完整,日志的主流協(xié)議包括文本日志、syslog、trap等,實際運行中還有很多設備廠商、軟件廠商僅提供trap方式或文本方式記錄關鍵狀態(tài),本版本通過對日志采集能力的擴展,實現(xiàn)監(jiān)控對象的擴展和告警信息的處理日志管理支持文本日志、SNMPtrap,Syslog方式的監(jiān)控,提供日志信息按照既定模板轉(zhuǎn)換成管理指標,根據(jù)指標的業(yè)務屬性可以進行歷史記錄、實時顯示、告警等方式的管理。對于文本日志的監(jiān)控,支持操作系統(tǒng)、數(shù)據(jù)庫、中間件、用戶應用在內(nèi)的任意文本日志的監(jiān)控,以客戶端方式實時監(jiān)控文本日志的IO寫入變化,監(jiān)控文本日志關鍵信息的上傳。支持最大到10G的日志文件支持windows、linux系統(tǒng)上的以文本方式存儲的日志文件支持自定義文本日志所在路徑支持日志秒級監(jiān)控周期支持日志指標的告警通知。對于syslog、trap的日志,系統(tǒng)預置常見mib信息指標定義,直接通過添加管理對象即可trap日志監(jiān)控和告警。支持各廠商自行定義trap信息的指標化轉(zhuǎn)化,實現(xiàn)部分國產(chǎn)廠商僅通過trap指標的設備型號支持。網(wǎng)絡管理網(wǎng)絡拓撲管理拓撲生成BTSO可以自動根據(jù)北塔特有的拓撲生成算法,快速搜索整個網(wǎng)絡內(nèi)的網(wǎng)絡設備,智能分析網(wǎng)絡拓撲結(jié)構,自動勾畫出整個網(wǎng)絡的真實物理拓撲圖,真實反映整個網(wǎng)絡的構成狀況。BTSO除拓撲生成之外,還支持拓撲添加功能,在保留原有拓撲圖的基礎上,搜索新的網(wǎng)絡設備,并自動添加到網(wǎng)絡拓撲圖上。拓撲算法快速、準確。內(nèi)部采用北塔特有的拓撲算法,并融合了CDP算法、NDP等多種常用算法。確保能夠快速、準確的自動生成物理拓撲圖;支持跨廣域網(wǎng)分布式部署拓撲引擎。可將各引擎的拓撲搜索結(jié)果上傳到中心進行匯總,創(chuàng)建出一張完整的拓撲圖,實現(xiàn)統(tǒng)一展現(xiàn)。設備廠商支持廣泛,能夠支持100多廠家的1600多種型號設備,且能支持多廠商的設備組成的“混合”網(wǎng)絡。拓撲圖展現(xiàn)網(wǎng)絡拓撲圖可從全局的角度出發(fā),幫助運維管理人員實時了解整個網(wǎng)絡當前的運行狀況,主動告訴用戶關注點應在哪里,網(wǎng)絡架構是否合理,有無網(wǎng)絡瓶頸,設備和流量有無異常等,動態(tài)告訴用戶可能的故障隱患,達到透明化、事前管理目的。個性化拓撲為了同時滿足不同用戶間的個性化需求,BTSO提供了靈活的拓撲圖復制功能,可為不同用戶提供單獨的展現(xiàn)頁面。用戶可以根據(jù)自己的偏好設置自己的個性化拓撲圖,且不同的用戶之間沒有任何影響。監(jiān)控結(jié)果展現(xiàn)直觀可以通過紅、黃、綠等不同顏色表示網(wǎng)絡設備和線路負載壓力的評估狀況,并可以調(diào)整設備和線路的變色閾值;可以通過不同顏色的告警圖標,顯示各個網(wǎng)絡設備的告警觸發(fā)情況;可以為拓撲圖上的每臺設備、每條線路設置中文名稱,添加注釋,方便進行管理。界面美觀提供背景圖的更換設置功能,可自由選擇精美的圖片作為拓撲圖的背景;提供了靈活設備圖標的拖拽功能,可以自由設定圖標的擺放位置;提供設備圖標大小自適應功能,可以根據(jù)連接線路的數(shù)量自動調(diào)整設備圖標大小;提供拓撲圖的放大、縮小功能,可以將拓撲圖調(diào)整到合適的展現(xiàn)尺寸;提供大屏展現(xiàn)功能,可以在大屏投影的情況下提供友好的顯示效果;最突出的是網(wǎng)絡拓撲圖中連接線路的線型選擇方案異常豐富,主要包含:直線、直角折線、斜角折線、合并線等多種不同線型,并可在同一張拓撲圖中同時存在多種線型。操作便捷提供鷹眼功能,可以總攬全局,并快速的瀏覽、移動拓撲圖;提供便捷的縮略圖標、拓撲圖創(chuàng)建和維護功能;提供多種常用管理工具:服務端Ping、SNMP測試、Web管理等,可供用戶直接調(diào)用;提供快捷的設備實時信息查看功能,可以快速的查看指定設備的MAC表、ARP表、路由表、端口信息表等內(nèi)容。設備性能分析對當前網(wǎng)絡設備的CPU和MEM負載進行排名查看,并可進一步查看指定設備的性能負載歷史記錄??杉皶r了解當前負載較高的網(wǎng)絡設備,在問題苗頭出現(xiàn)的時候,及時進行處置,保障網(wǎng)絡不間斷的平穩(wěn)運行。網(wǎng)絡配置管理BTSO提供了一個對交換機、路由器配置管理的平臺,此功能對IT網(wǎng)絡系統(tǒng)的關鍵設備的運行參數(shù)進行監(jiān)控,通過TFTP方式進行相關信息的備份,并且在當所選的設備的相關配置信息發(fā)生變動時能夠及時進行告警,幫助管理人員能夠及時分析問題,排除問題等。特點如下:支持TFTP方式支持自定義配置文件的備份時間間隔和備份數(shù)量支持智能對比分析。對于多份備份文件,可以進行對比,顯著展現(xiàn)增加、修改、刪除的內(nèi)容。無線管理無線管理是有線網(wǎng)絡的擴展,通過對無線AC這個特殊設備的業(yè)務層取值,獲得AC下所連AP的關系、AP的性能信息、接入用戶信息,將無線終端納入到管理系統(tǒng)中;BTSO支持有線路由、交換設備和AC、AP的同一拓撲展現(xiàn)要求,拓撲圖上提供無線設備的CPU、內(nèi)存等基礎性能動態(tài)展示;對于AC設備在具備基本網(wǎng)絡設備的管理信息的基礎上,增加在線AP數(shù)等無線模塊特有管理指標。BTSO支持AP和上聯(lián)接入交換機的關聯(lián)關系的自動識別和構建,以此為基礎自動構建出終端-AP-上聯(lián)交換機-AC的無線傳輸線路。BTSO能提供無線傳輸線路的關鍵節(jié)點性能診斷,從而快速定位終端無法上網(wǎng)或者網(wǎng)速慢的原因。診斷路徑至少包含如下信息:AC:狀態(tài)、關鍵性能、上聯(lián)端口性能上聯(lián)交換機:狀態(tài)關鍵性能、AP接入端口狀態(tài)、端口帶寬利用率AP:狀態(tài)、關鍵性能、wlan總流量終端:上線時間等;BTSO提供AC、AP的關鍵指標詳情界面,針對不同廠商AC設備提供原廠管理軟件的跳轉(zhuǎn)等功能。IP地址簿管理IP地址簿管理是基于企業(yè)網(wǎng)絡中對于有線網(wǎng)絡接入終端有規(guī)劃管理要求的應用,通過本管理模塊能實現(xiàn)對于異常接入設備(非規(guī)劃范圍內(nèi)IP、設備)的檢測和快速處理;IP地址簿管理分為2個管理層次,第一個層次是實時識別終端的接入位置,為終端故障提供快速問題定位提供信息支撐。系統(tǒng)自動發(fā)現(xiàn)被管網(wǎng)絡上的活動IP地址及其對應的硬件地址,并定位其接入被管網(wǎng)絡的位置(交換設備及端口),能在網(wǎng)絡拓撲圖定位顯示,便于用戶跟蹤、掌握網(wǎng)絡終端的使用和分布情況,分析網(wǎng)絡事件的影響度,實現(xiàn)對網(wǎng)絡上IP地址的上線、下線以及分布(定位)進行分析、追溯和統(tǒng)計。IP地址簿管理的第二個層次是對于終端接入的異常監(jiān)控,通過規(guī)劃(到部門)和分配(到終端)建立可接入的白名單,對于每一個新接入終端進行判斷并對異常接入行為(未按規(guī)劃和分配要求進行接入)進行告警。IP地址規(guī)劃應該和業(yè)務管理所匹配,應該按照部門進行IP準入的設置,同時可以為每一個規(guī)劃終端設置其管理屬性。對于期望網(wǎng)絡中常見的來賓網(wǎng)段,實現(xiàn)動態(tài)分配,僅作檢測和記錄,不作為告警處理;對于多部門內(nèi)部構建子網(wǎng)的情況,提供多管理域方式,解決IP沖突問題;IP地址簿通過分布式采集引擎支持更大規(guī)模的網(wǎng)絡拓撲,對數(shù)據(jù)進行本地處理以減少傳輸數(shù)據(jù)量;引入管理域概念,支持不同網(wǎng)絡區(qū)域(多采集引擎)之間獨立進行IP地址規(guī)劃;優(yōu)化數(shù)據(jù)采集策略,自動根據(jù)網(wǎng)絡設備的連接狀態(tài)調(diào)整采集密度減少無效采集:支持大型網(wǎng)絡多管理域

IP地址定位、規(guī)劃管理

;支持在拓撲圖上同時定位多個IP地址的物理鏈接位置支持現(xiàn)場用戶根據(jù)具體的現(xiàn)場定位需求,合理調(diào)整定位掃描范圍、調(diào)節(jié)定位速度支持用戶IP規(guī)劃導入、規(guī)劃使用情況監(jiān)視、未用IP地址回收規(guī)劃池支持快速IP地址掃描,查詢IP使用分布情況虛擬化管理虛擬拓撲管理支持VMwarevSphere和CritixXenServer的虛擬拓撲管理。vSphere虛擬化拓撲在展現(xiàn)上分成資源區(qū)和呈現(xiàn)區(qū),資源區(qū)采用vCenter主機和集群的目錄樹結(jié)構,展現(xiàn)虛擬中心、文件夾、數(shù)據(jù)中心、集群、宿主機、資源池、vApp的層級關系。呈現(xiàn)區(qū)主要展現(xiàn)宿主機、虛擬機、數(shù)據(jù)存儲、虛擬網(wǎng)絡的連接關系、性能、狀態(tài)和

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論