2025數(shù)據(jù)驅(qū)動的智能運維_第1頁
2025數(shù)據(jù)驅(qū)動的智能運維_第2頁
2025數(shù)據(jù)驅(qū)動的智能運維_第3頁
2025數(shù)據(jù)驅(qū)動的智能運維_第4頁
2025數(shù)據(jù)驅(qū)動的智能運維_第5頁
已閱讀5頁,還剩42頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

2025數(shù)據(jù)驅(qū)動的智能運維SA,

SE,

OP,

DevOps,SRE?所以,你如何DevOps-ing?用這些DevOps-ready工具?所以,你如何DevOps-ing?還是自動化、自動化、自動化?70%的微博故障原因是變更操作!你呢?數(shù)據(jù)驅(qū)動的運維操作我們需要充分的數(shù)據(jù)來證明,下一步變更是有必要的,安全的?,F(xiàn)在,請出示你的:alertsreportsmetricsexceptions…數(shù)據(jù)驅(qū)動的運維操作監(jiān)控軟件大多是采樣式的。采樣意味著監(jiān)控的評定是一種模糊估算,是去除了細節(jié)的大趨勢上的判斷。在通過監(jiān)控做到了總體穩(wěn)定的初級目標以后,有必要通過全量數(shù)據(jù)分析的方式,對細節(jié)做更明確、更高效的診斷和優(yōu)化。隨著技術(shù)的發(fā)展,大數(shù)據(jù)的興起,靠數(shù)據(jù)來驅(qū)動運維,也成為可能。如何驅(qū)動?Gartner2016.04:2019年,全球有25%的企業(yè)將搭建好自己的AIOps平臺,而這個數(shù)字目前是不到5%。What's

inside

AIOps?三大作用:更靈活、更易用的訪問和分析數(shù)據(jù);能分析過去散落在各組件中未利用上的業(yè)務(wù)數(shù)據(jù)和上下文;快速的探索和實驗平臺,提供獨特的洞擦力What's

inside

AIOps?『隨著日志文件的容量和類型的增長,對日志數(shù)據(jù)進行分析、追蹤潛在的問題、發(fā)現(xiàn)錯誤變得越來越難,尤其是在多日志相關(guān)性分析出現(xiàn)之后。即便在最佳狀態(tài)下,也需要經(jīng)驗豐富的操作人員跟蹤事件鏈、過濾噪音,并最終診斷出導(dǎo)致復(fù)雜問題產(chǎn)生的根本原因』--埃森哲咨詢What's

inside

AIOps?兩個方向:大數(shù)據(jù)和機器學(xué)習(xí)技術(shù),實現(xiàn)以數(shù)據(jù)為中心的可用性和性能分析;將以數(shù)據(jù)為中心的的方法擴展到其他ITOA學(xué)科,比如SIEM和業(yè)務(wù)分析。What's

inside

AIOps?從『系統(tǒng)組成』看AIOps架構(gòu):數(shù)據(jù)湖、自動化系統(tǒng)、記錄系統(tǒng)、交互系統(tǒng)和監(jiān)控生態(tài)圈What's

inside

AIOps?監(jiān)控系統(tǒng):硬件和虛擬平臺的檢測,管理服務(wù)質(zhì)量;(StatsD,CollectD)記錄系統(tǒng):問題記錄和知識庫積累,并與CMDB關(guān)聯(lián);(Jira,GitLab)自動化系統(tǒng):自動執(zhí)行固化事件的解決腳本;(Puppet,Saltstack,Ansible)交互系統(tǒng):降噪和實時分發(fā)信息到真正負責的人,以及一些早期檢測和修復(fù);(Nagios,Zabbix,Zenoss)數(shù)據(jù)湖:診斷、即時圖表和儀表盤。保存你所有可能會用到的日志,用于深度分析What's

inside

AIOps?從『數(shù)據(jù)流向』看AIOps架構(gòu):采集、存儲、分析、可視化。數(shù)據(jù)接入動態(tài)的知識積累儀表盤動態(tài)鉆取流程設(shè)計,幫助無場景知識積累的人快速了解事件根源。告警交互系統(tǒng)"Alertmanager

...

takes

care

of

deduplicating,

grouping,and

routingthem

to

the

correct

receiver

integrations

such

as

email,

PagerDuty,or

OpsGenie.

It

also

takes

care

of

silencingand

inhibitionof

alerts."--

prometheus.io告警交互系統(tǒng)擴展搜索風(fēng)暴靜默模板渲染告警交互系統(tǒng)有一個spl告警,告警名稱為『單域名平均響應(yīng)時間大于

2s』,搜索條件是:*

|

bucket

timestamp

span=1h

as

ts|

stats

avg(request_time)as

avg_

by

domain,ts。觸發(fā)條

件為avg_大于2。這時候我想著如果能在告警出來的時候,順帶把

request_time:>10ANDupstream_resp_time:<1的部分日志也附帶上,可能會更有助于我們判斷故障。我們可以把這個搜索也保存下來,然后在『擴展搜索』上選擇這個搜索。然后填寫這樣的告警郵件內(nèi)容模板:郵件內(nèi)容的django模板告警名稱:{{}}<br>觸發(fā)條件:{{

pare_desc_text

}}<br>可能導(dǎo)致本次服務(wù)異常的可疑訪問如下:{%

for

hit

in

alert.result.extend_hits

%}{{

hit.raw_message

}}

<br>{%

endfor

%}建議您優(yōu)先排查這部分。郵件內(nèi)容告警名稱:單域名平均響應(yīng)時間大于2s觸發(fā)條件:avg_的值大于2可能導(dǎo)致本次服務(wù)異常的可疑訪問如下:24

-

-

[15/Jun/2016:14:21:06.588

+0800]"GET/index/login/

HTTP/1.1"

200

1938

"-"

"-"

"-"

13.21

0.03024

-

-

[15/Jun/2016:14:21:06.588

+0800]"GET/index.jsp

HTTP/1.1"

200

10326

"-"

"-"

"-"

10.22

0.30124

-

-

[15/Jun/2016:14:21:06.588

+0800]"GET/index/login/

HTTP/1.1"

200

1938

"-"

"-"

"-"

14.20

0.103建議您優(yōu)先排查這部分。智能運維平臺實現(xiàn)要點非結(jié)構(gòu)化數(shù)據(jù)的處理多模塊關(guān)聯(lián)追蹤分析動態(tài)閾值的異常檢測平臺服務(wù)的資源管控非結(jié)構(gòu)化數(shù)據(jù)的處理平臺運維≠業(yè)務(wù)模塊開發(fā)。90%的日志不會結(jié)構(gòu)化非結(jié)構(gòu)化數(shù)據(jù)的處理鼠標拖拽命名,通過機器學(xué)習(xí)算法自動生成正則非結(jié)構(gòu)化數(shù)據(jù)的處理古典方案:Hadoop的MapReduce離線批處理現(xiàn)代方案:ELK的預(yù)先處理,將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)變?yōu)榘胱杂傻慕Y(jié)構(gòu)化數(shù)據(jù)后現(xiàn)代方案:在搜索運行時,對非結(jié)構(gòu)化數(shù)據(jù)做臨時性的必要結(jié)構(gòu)化處理統(tǒng)計非結(jié)構(gòu)化數(shù)據(jù)的處理查詢時字段的提取和統(tǒng)計非結(jié)構(gòu)化數(shù)據(jù)的處理矛盾:剛剛用算法避免了用戶學(xué)正則,轉(zhuǎn)身又還是要用戶在搜索的時候手寫正則來提取了?解決辦法:通過算法生成的正則,自動運用到用戶搜索的數(shù)據(jù)上?難點:正則的質(zhì)量無法保證。性能性能性能!重說三……多模塊下的關(guān)聯(lián)分析幸運的人:統(tǒng)一框架下,依賴于基礎(chǔ)庫的改造,實現(xiàn)比較方便的全局唯一ID關(guān)聯(lián);不幸的人:別說多模塊之間的調(diào)用關(guān)系,連自己調(diào)用的模塊誰寫的都不清楚。誰給你加ID?多模塊下的關(guān)聯(lián)分析{"timestamp":1491985634000,

"sid":1,

"module":"a"}{"timestamp":1491985634000,

"sid":2,

"module":"a"}{"timestamp":1491985634002,

"sid":1,

"module":"b"}{"timestamp":1491985634003,

"sid":1,

"module":"c"}{"timestamp":1491985634003,

"sid":2,

"module":"c"}{"timestamp":1491985634004,

"sid":3,

"module":"a"}{"timestamp":1491985634005,

"sid":3,

"module":"b"}通過聚類模式,將時序數(shù)據(jù)經(jīng)過多ID串聯(lián),找到復(fù)雜拓撲下的請求鏈關(guān)聯(lián)。多模塊關(guān)聯(lián)分析可視化基于聚類算法的RCA對不同系統(tǒng)的相關(guān)性,采用距離算法做聚類。Etsy的Oculus系統(tǒng):歐氏距離FastDTW基于聚類算法的RCAUber的argos系統(tǒng)。nodes之間的weight決定了重要性。基于聚類算法的RCAIBM的predictive

insightgranger

causeIf

past

values

of

A

and

B

can

predict

future

value

of

B

better

than

pastvalues

of

B

alone,Then,

time

series

A

granger

cause

time

series

B異常檢測到底什么叫異常檢測:rare統(tǒng)計?同比環(huán)比?Box?Histogram?算法驅(qū)動的異常檢測:時序預(yù)測:趨勢?季節(jié)?多樣本校驗?多元預(yù)測:降維?異常檢測不同算法的預(yù)測表現(xiàn):指數(shù)平滑多層感知線性回歸時序預(yù)測的開源選擇Facebook在今年2月剛開源的Prophet庫。(R/Python)Yahoo!在去年開源的egads庫。(Java)Twitter在去年開源的anomalydetection庫。(R)Netflix在2015年開源的Surus庫。(Pig,基于PCA)Etsy在2013年開源的skyline庫。(python)Numenta在2013年開源的NuPIC庫。(python,基于HTM)RRDtool在1997年實現(xiàn)的HWPREDICT。(C,基于holt-winters)。。。IT環(huán)境下的時序預(yù)測一個穩(wěn)定的IT環(huán)境中,時序數(shù)據(jù)通常具有趨勢性,甚至季節(jié)性。Simple

exponential

smoothingDouble

exponential

smoothing

(Holt’s

linear

trend)Seasonal

triple

exponential

smoothing

(Holt

Winters)人工調(diào)節(jié)α,β,γ三個參數(shù),工作量太大。best

model

select(Akaike

information

criterion)best

smoothing

parameter

optimize(通過Nelder-Mead

simplex非線性優(yōu)化算法,獲得最小的MSE)IT環(huán)境下的時序預(yù)測多元預(yù)測示例服務(wù)器電力未來是否需要擴容?單純靠電力自己的趨勢意義不大。盡量收集更多的服務(wù)器指標,嘗試做多元預(yù)測。完整性校驗降維多元預(yù)測PCA降維多種算法的預(yù)測效果對比算法RAE耗時(s)kNN7.1043%31.65線性回歸19.2408%0.38MLP神經(jīng)網(wǎng)絡(luò)9.7343%0.39M5P樹回歸6.4732%0.42隨機森林6.2794%1.65平臺服務(wù)的資源管控平臺服務(wù)的『多租戶』特性,也是AIOps用『大數(shù)據(jù)』統(tǒng)一管理多個隔離的『小數(shù)據(jù)』的辦法。資源:邏輯資源,包括用戶所能讀寫的數(shù)據(jù)、告警、報表資源管理;物理資源,包括用戶所能利用的CPU、IO、MEM資源管理。聽起來像是Docker或者k8s的關(guān)鍵詞?日志分析系統(tǒng)既有海量數(shù)據(jù)不便切分遷移的難點,又有資源隔離控制的需求。搜索的任務(wù)管理從純粹的實時分布式,變成任務(wù)式。任務(wù)管理的幾個思路:對超限的kill掉。Cgroup類資源限制。CPU

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論