博睿數(shù)據(jù)2024IT運維最佳實踐白皮書_第1頁
博睿數(shù)據(jù)2024IT運維最佳實踐白皮書_第2頁
博睿數(shù)據(jù)2024IT運維最佳實踐白皮書_第3頁
博睿數(shù)據(jù)2024IT運維最佳實踐白皮書_第4頁
博睿數(shù)據(jù)2024IT運維最佳實踐白皮書_第5頁
已閱讀5頁,還剩16頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

BACKGROUND改變傳統(tǒng)的運維模式,化被動為主動業(yè)務日志分析能力欠缺,風險防范意識不足,且缺少治理動作監(jiān)控覆蓋度不全,出現(xiàn)故業(yè)務日志分析能力欠缺,風險防范意識不足,且缺少治理動作報警平臺、信息過多,有價值的報警信息容易被淹沒且分散機器資源一直在申請,從未被回收,浪費嚴重根因定位不準確,業(yè)務調(diào)用鏈不清晰,機器資源一直在申請,從未被回收,浪費嚴重SOLUTION系統(tǒng)運作過程中,風險雖然不影響用戶體驗,但多個風險累積容易發(fā)生平臺打不開、數(shù)據(jù)丟失等故障問題。為了提前發(fā)現(xiàn)風險將故障扼殺在搖籃中,運維團隊不斷完善BonreeONE的指標體系建設,AI風險檢測更加準確。在日常運行中,當系統(tǒng)檢測到有一個多活程序掛了,運維人員便能立刻發(fā)現(xiàn)去解決;CPU過高時,系統(tǒng)發(fā)出告警,負責人員便能及時打堆棧,并聯(lián)系研發(fā)部門分析原因,在風險累積衍生成故障之前解決問題,降低故障發(fā)生率。BonreePilot的自動巡檢和即時巡檢功能利用自動巡檢與即時巡檢功能,對BonreeONE全套組件以及核心指標實施全面健康監(jiān)測,涵蓋主機監(jiān)控、服務監(jiān)控、運營分析、告警管理、業(yè)務監(jiān)控等多個關鍵模塊。當巡檢報告中出現(xiàn)了告警和問題,例如磁盤容量告急:過去的被動運維:磁盤容量告急,立馬縮減/擴容現(xiàn)在的主動運維:磁盤容量告急,先看表詳情,觀察這些表的增長趨勢是否合理,表結構設計是否合理,是否存在優(yōu)化空間,將空間釋放、不合理設計優(yōu)化后再采取對應的解決措施進行縮減/擴容,對運維成本進行主動管控。集成能力將Zabbix、Prometheus等監(jiān)控方式通過集成功能,實現(xiàn)一體化存儲,用全棧根因分析,統(tǒng)一告警,運維人員無需監(jiān)控每一運維團隊搶先體驗了BonreeONE3.0的新功能:可用性監(jiān)測??捎眯员O(jiān)測支持HTTP多地址訪問,釋放了運維人員寫腳本的工作量。同時能夠自定義內(nèi)外網(wǎng)監(jiān)測點,以前對公網(wǎng)域名監(jiān)控時需要給Zabbix機器增加外網(wǎng)訪問的能力,因Zabbix機器有訪問所有機器的權限,具備外網(wǎng)能力后,這顯然不符合安全規(guī)定??捎眯员O(jiān)測功能夠同時使用內(nèi)網(wǎng)和外網(wǎng)的監(jiān)測點,很好地解決了這個問題。新功能彌補了開源工具對HTTP監(jiān)控的缺失,也降低運維人員對shell腳本開發(fā)能力的依賴。3.AI智能觀測,快速定位根因問題與影響范圍全域分析將數(shù)據(jù)統(tǒng)一集成到BonreeONE后,運維團隊以實體關系為核心構建數(shù)據(jù)指標體系,平臺統(tǒng)一對數(shù)據(jù)進行分析、關聯(lián)、查看過去查看日志需要上機器,且日志需符合等保3級對日志審計系統(tǒng)的要求,系統(tǒng)日志、安全日志、關鍵配置等均要能夠保存和分析,現(xiàn)在在平臺上便能立即查看相關日志信息,打破運維傳統(tǒng)的流程慣例。接入Zabbix、Prometheus等第三方數(shù)據(jù)后,運維人員能夠通過查看依賴分析影響范圍,很直觀地看出當前程序訪問了哪些服務,以及哪些服務訪問了當前程序。調(diào)用鏈分析能夠在問題出現(xiàn)時幫助運維團隊定位到Server領域或者慢方法,定位更準確,節(jié)約時間。發(fā)現(xiàn)風險報警問題后,打開問題詳情,通過詳情清單查看本次故障所涉及到的實體信息。根據(jù)系統(tǒng)提供的初步判斷查看具體的方法、SQL等通過使用BonreeONE,運維團隊的工作模式實現(xiàn)了從被動應對問題向主動治理風險的根本性轉(zhuǎn)變。主動運維策略將風險與問題前置,團隊能夠提前識別并解決風險,顯著提升系統(tǒng)穩(wěn)定性的同時極大地減輕了運維人員的工作負擔。同時,風險與問題前置也為運維人員爭取了充裕的時間,能夠在問題出現(xiàn)前對系統(tǒng)進行深入的觀察和分析,及時進行必要的調(diào)整優(yōu)化,這不僅提升了運維效率,還實現(xiàn)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論