自動(dòng)化監(jiān)控平臺(tái)實(shí)踐-課件_第1頁(yè)
自動(dòng)化監(jiān)控平臺(tái)實(shí)踐-課件_第2頁(yè)
自動(dòng)化監(jiān)控平臺(tái)實(shí)踐-課件_第3頁(yè)
自動(dòng)化監(jiān)控平臺(tái)實(shí)踐-課件_第4頁(yè)
自動(dòng)化監(jiān)控平臺(tái)實(shí)踐-課件_第5頁(yè)
已閱讀5頁(yè),還剩37頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、1號(hào)店自動(dòng)化監(jiān)控平臺(tái)實(shí)踐張定鵬 資深架構(gòu)師 1號(hào)店案例背景與簡(jiǎn)述監(jiān)控平臺(tái)架構(gòu)介紹自動(dòng)化監(jiān)控平臺(tái)實(shí)踐案例分析案例啟示摘要案例背景線上有事故了,怎么沒收到告警?哪里能看到?這個(gè)業(yè)務(wù)不是我負(fù)責(zé)的,為什么告警給我?這個(gè)業(yè)務(wù)正在發(fā)布,怎么收到這么多告警? 現(xiàn)象發(fā)布錯(cuò)漏告警缺失責(zé)任混亂排障遲緩面臨的挑戰(zhàn)準(zhǔn)快全無(wú)盲點(diǎn)全覆蓋無(wú)誤報(bào)無(wú)噪點(diǎn)實(shí)時(shí)性及時(shí)性標(biāo)準(zhǔn)化智能化運(yùn)營(yíng)化案例介紹告警收斂告警過(guò)濾根源定位CMDB監(jiān)控模板監(jiān)控部署日志規(guī)范告警事件標(biāo)準(zhǔn)業(yè)務(wù)健康事故處理中心監(jiān)控大屏案例背景與簡(jiǎn)述監(jiān)控平臺(tái)架構(gòu)介紹自動(dòng)化監(jiān)控平臺(tái)實(shí)踐案例分析案例啟示摘要樂道云平臺(tái)監(jiān)控平臺(tái)架構(gòu)-模塊監(jiān)控管理數(shù)據(jù)采集TrackerHealthChe

2、ckSOA采集ZabbixSNMPIPMILogAgentScript數(shù)據(jù)展示監(jiān)控部署數(shù)據(jù)監(jiān)控?cái)?shù)據(jù)日志業(yè)務(wù)數(shù)據(jù)配置數(shù)據(jù)監(jiān)控設(shè)置監(jiān)控報(bào)表告警事件告警設(shè)置告警分析事件管理事故處理中心監(jiān)控服務(wù)基礎(chǔ)監(jiān)控日志監(jiān)控業(yè)務(wù)監(jiān)控業(yè)務(wù)健康監(jiān)控模板告警過(guò)濾監(jiān)控平臺(tái)架構(gòu)- 全方位采集 TomcatNginxMemcacheDatabase 服務(wù)器交換機(jī)路由器存儲(chǔ)設(shè)備負(fù)載均衡WebWebServiceServiceSOATrackerIPMILogAgentHealthCheckZabbixZabbixSNMPSOA采集日志業(yè)務(wù)數(shù)據(jù)監(jiān)控?cái)?shù)據(jù)配置數(shù)據(jù)日志:50億條/天(峰值)監(jiān)控:2.6億條/天(均值)調(diào)用:37億次/天

3、(均值)案例背景與簡(jiǎn)述監(jiān)控平臺(tái)架構(gòu)介紹自動(dòng)化監(jiān)控平臺(tái)實(shí)踐案例分析案例啟示摘要實(shí)踐1-標(biāo)準(zhǔn)化標(biāo)準(zhǔn)化程度決定產(chǎn)品的高度數(shù)據(jù)標(biāo)準(zhǔn)化CMDB監(jiān)控模板日志告警事件流程標(biāo)準(zhǔn)化監(jiān)控部署標(biāo)準(zhǔn)化-CMDB 困難來(lái)源多格式雜牽涉廣狀態(tài)亂業(yè)務(wù)信息組織關(guān)系基礎(chǔ)資源主 機(jī)交換機(jī)存 儲(chǔ)部 門站 點(diǎn)機(jī) 柜機(jī) 房應(yīng) 用系統(tǒng)配置運(yùn) 維負(fù)責(zé)人研 發(fā) 應(yīng)用模板供應(yīng)商依賴關(guān)系標(biāo)準(zhǔn)化-監(jiān)控模板不同設(shè)備有各自的默認(rèn)模板服務(wù)器,虛擬機(jī),交換機(jī),負(fù)載均衡,反向代理等標(biāo)準(zhǔn)化-監(jiān)控模板每個(gè)應(yīng)用有對(duì)應(yīng)的自定義模板緩存,軟件負(fù)載均衡,DB,消息隊(duì)列,Web Server等標(biāo)準(zhǔn)化-監(jiān)控部署裝機(jī)空閑期服務(wù)期維護(hù)期報(bào)廢替換模板禁用啟用禁用啟用刪除監(jiān)控添加

4、監(jiān)控空白模板由部署系統(tǒng)觸發(fā)監(jiān)控狀態(tài)和模板的變更標(biāo)準(zhǔn)化-日志路徑不同類型的日志規(guī)定各自固定的目錄;規(guī)范的日志文件名形式;格式日期 時(shí)間 日志級(jí)別 線程 位置 日志內(nèi)容;規(guī)范時(shí)間格式;規(guī)范日志級(jí)別;內(nèi)容規(guī)定日志中不能出現(xiàn)敏感信息的內(nèi)容;日志平臺(tái)訪問(wèn)日志應(yīng)用日志交換機(jī)日志硬件日志Track日志標(biāo)準(zhǔn)化-告警事件預(yù)分配權(quán)限驗(yàn)證API統(tǒng)一接入規(guī)范化消息發(fā)送路徑標(biāo)準(zhǔn)化事件等級(jí)標(biāo)準(zhǔn)化事件類型標(biāo)準(zhǔn)化事件源規(guī)范化層級(jí)類型 業(yè)務(wù)類型數(shù)據(jù)類型設(shè)備等級(jí)應(yīng)用等級(jí)嚴(yán)重等級(jí)等級(jí)依據(jù)所屬部門默認(rèn)路徑去除多路唯一入口存在的問(wèn)題都是自定義的,到底誰(shuí)報(bào)的?什么類型的告警??jī)?nèi)容分不清這個(gè)告警到底嚴(yán)不嚴(yán)重?設(shè)置的通知人離職了,沒人收到這

5、條告警告警只有內(nèi)容和IP,怎么按部門統(tǒng)計(jì)?數(shù)量太多看不過(guò)來(lái)內(nèi)容各式各樣,無(wú)法區(qū)分問(wèn)題在哪?如何發(fā)現(xiàn)問(wèn)題智能實(shí)踐2-告警智能化告警去重合并收斂根源定位智能化-告警事件系統(tǒng)架構(gòu)APIRabbitMQWorkerWorkerWorkerMysql事件告警CMDBHR DB收斂策略過(guò)濾策略通知策略NotifyRabbitMQ設(shè)置分析智能化-告警事件去重合并去噪消除波動(dòng)性誤報(bào);消除由于發(fā)布變更等引起的誤報(bào);按時(shí)間區(qū)間去重不同類型告警設(shè)置不同的時(shí)間有效性;穩(wěn)定性告警合并CPU使用率、負(fù)載,網(wǎng)卡流量等不會(huì)直接影響服務(wù)的告警;按應(yīng)用合并、按IP合并、按內(nèi)容合并;可性告警合并HealthCheck,軟件進(jìn)程、服

6、務(wù)是否掛掉等直接導(dǎo)致不可用的告警;相同層次的告警按應(yīng)用合并成條;智能化-告警事件收斂Application(HealthCheck)Software(Alive)System(Ping)Network(Ping)屏蔽上層告警系統(tǒng)故障因服務(wù)器、路由器、交換機(jī)等損壞以及操作系統(tǒng)文件配置、網(wǎng)絡(luò)配置引發(fā)系統(tǒng)宕機(jī)導(dǎo)致1號(hào)店系統(tǒng)無(wú)法正常使用的事件。智能化-告警事件收斂應(yīng)用故障設(shè)計(jì)需求理解偏差,設(shè)計(jì)缺陷、程序Bug、操作數(shù)據(jù)庫(kù)及發(fā)布失敗,回滾引發(fā)的導(dǎo)致系統(tǒng)無(wú)法正常使用的事件。負(fù)載均衡(Usable)HealthCheck告警(大量)數(shù)據(jù)接口(Error)緩存(Usable)數(shù)據(jù)庫(kù)(Usable)屏蔽上層告警

7、變更系統(tǒng)(記錄)告警收斂案例1-系統(tǒng)故障核心交換機(jī)物理機(jī)虛擬機(jī)TomcatAPP接入交換機(jī)物理機(jī)虛擬機(jī)TomcatAPP物理機(jī)虛擬機(jī)TomcatAPPPing交換機(jī)日志進(jìn)程存活端口連通HealthCheckPing告警收斂案例2-應(yīng)用故障DBTomcatAPPMemcacheLoadBalance緩存接口JDBCTomcatAPP緩存接口JDBCTomcatAPP緩存接口JDBC變更系統(tǒng)HealthCheck(大量)記錄訪問(wèn)失敗日志告警Ping端口連通實(shí)踐3-運(yùn)營(yíng)化運(yùn)營(yíng)化服務(wù)用戶體驗(yàn)產(chǎn)品協(xié)助改善協(xié)同參與運(yùn)營(yíng)推廣業(yè)務(wù)健康指標(biāo)事故處理中心監(jiān)控大屏運(yùn)營(yíng)化-業(yè)務(wù)健康系統(tǒng)架構(gòu)事件API告警事件系統(tǒng)采集W

8、orkerWorkerWorkerAPI業(yè)務(wù)系統(tǒng)Redis Queue業(yè)務(wù)業(yè)務(wù)日志SQLAPIAPIRedis Queue告警判斷WorkerWorkerWorkerMysql告警規(guī)則采集策略指標(biāo)添加運(yùn)營(yíng)化-業(yè)務(wù)健康指標(biāo)添加業(yè)務(wù)健康指標(biāo)項(xiàng)運(yùn)營(yíng)化-業(yè)務(wù)健康指標(biāo)添加采集方式DB, API, 應(yīng)用日志運(yùn)營(yíng)化-業(yè)務(wù)健康指標(biāo)添加告警規(guī)則閾值,時(shí)間區(qū)間,報(bào)警間隔等事故發(fā)生了,怎么辦?事故處理中心運(yùn)營(yíng)化-事故處理中心開啟事故信息匯總事故處理關(guān)閉事故過(guò)程記錄告警日志發(fā)布手動(dòng)輸入重啟,回滾,擴(kuò)容處理事故后分析事故記錄分析總結(jié)事故處理中心變更記錄信息錄入時(shí)間軸影響范圍事故處理郵件發(fā)送過(guò)程記錄事故后分析手機(jī)同步展示監(jiān)控平臺(tái)配置發(fā)布運(yùn)營(yíng)化-監(jiān)控大屏案例背景與簡(jiǎn)述監(jiān)控平臺(tái)架構(gòu)介紹自動(dòng)化監(jiān)控平臺(tái)實(shí)踐案例分析案例啟示摘要案例ROI分析Ping無(wú)響應(yīng)告警進(jìn)程存活告警全部告警Ping無(wú)響應(yīng)告警進(jìn)程存活告警全部告警下降70%下降72%下降85%告警數(shù)量

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論