基于實(shí)時(shí)計(jì)算(Flink)與高斯模型構(gòu)建實(shí)時(shí)異常檢測(cè)系統(tǒng)_第1頁(yè)
免費(fèi)預(yù)覽已結(jié)束,剩余1頁(yè)可下載查看

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、基于實(shí)時(shí)計(jì)算(flink)與高斯模型構(gòu)建實(shí)時(shí)異常檢測(cè)系統(tǒng)1. 概述異樣檢測(cè)(anomaly detection)指的是對(duì)不符合預(yù)期模式或數(shù)據(jù)集(英語(yǔ):dataset)中其他項(xiàng)目的項(xiàng)目、大事或觀測(cè)值的識(shí)別。實(shí)際應(yīng)用包括入侵檢測(cè)、欺詐檢測(cè)、故障檢測(cè)、系統(tǒng)健康監(jiān)測(cè)、傳感器網(wǎng)絡(luò)大事檢測(cè)和生態(tài)系統(tǒng)干擾檢測(cè)等。之前我曾經(jīng)介紹過(guò)一種異樣檢測(cè)的解決計(jì)劃準(zhǔn)實(shí)時(shí)異樣檢測(cè)系統(tǒng),但那個(gè)架構(gòu)中flink主要擔(dān)當(dāng)?shù)倪€是檢測(cè)后的分析,真正的異樣檢測(cè)被前置到了業(yè)務(wù)系統(tǒng)中。在本文中,我將介紹一種挺直用法flink做實(shí)時(shí)異樣檢測(cè)的計(jì)劃。2. 異樣檢測(cè)算法2.1 異樣的種類異樣(離群點(diǎn))分為三種類型:全局離群點(diǎn),最基本的異樣,即一

2、個(gè)單獨(dú)的遠(yuǎn)離群體的點(diǎn);情境(或條件)離群點(diǎn),該點(diǎn)在全局不算異樣,但在某個(gè)上下文中卻是異樣的,比如人的性別為男性不是異樣,但假如選定范圍為女廁所,那么這個(gè)就是異樣的;集體離群點(diǎn),單個(gè)點(diǎn)不算異樣,但一系列組合起來(lái)卻是異樣。比如間或的服務(wù)延遲不是異樣,但假如囫圇系統(tǒng)大部分服務(wù)都延遲那就是異樣。本文以解釋基本原理為主,所以用法最容易的全局離群點(diǎn)做例子,即只關(guān)注檢測(cè)某個(gè)單獨(dú)的大事是否偏離正常。2.2 異樣監(jiān)測(cè)算法本文選取最容易的一種算法,基于高斯分布分布的異樣檢測(cè)算法。假設(shè)我們已經(jīng)有了一組正常數(shù)據(jù),x(1),x(2),x(m),那么針對(duì)新的數(shù)據(jù)x,我們推斷這個(gè)x是否正常,可以計(jì)算x在正常數(shù)據(jù)中浮現(xiàn)的概率

3、如何,假如x浮現(xiàn)的概率大于某個(gè)閾值,則為正常,否則即為異樣,這種辦法叫做密度估量。那么我們可以假設(shè),這些數(shù)據(jù)遵循高斯分布(正態(tài)分布),那么對(duì)某個(gè)特定的值來(lái)說(shuō),其在高斯分布的中間部分是比較正常的,在兩端可能是異樣的。通常假如我們認(rèn)為變量 x 符合高斯分布 x——n(μ,σ2),則其概率密度函數(shù)為:異樣檢測(cè)算法的步驟為:對(duì)于給定的數(shù)據(jù)集 x(1),x(2),x(m),針對(duì)每一個(gè)特征計(jì)算 μ 和 σ2 的估量值,計(jì)算辦法如下。一旦我們獲得了每個(gè)特征的平均值和方差的估量值,給定新的一個(gè)訓(xùn)練實(shí)例,

4、按照模型計(jì)算每一特征的概率再相乘得到整體的概率:注:可能你要檢測(cè)的大事惟獨(dú)一個(gè)特征,那么很明顯就不用再乘了。挑選一個(gè)閾值 ε,將 p(x)=ε 作為判定邊界,當(dāng) p(x)>ε 時(shí)預(yù)測(cè)數(shù)據(jù)為正常數(shù)據(jù),否則為異樣,這樣就完成了囫圇異樣檢測(cè)過(guò)程。注:閾值ε的挑選可以挺直估算一個(gè),也可以容易訓(xùn)練得出,詳細(xì)訓(xùn)練方式這里不再贅述總結(jié)一下,其實(shí)囫圇模型我們只需要計(jì)算正常數(shù)據(jù)中每個(gè)特征的平均值和方差,再加上終于整體閾值,所以模型是十分小的,徹低可以把這些數(shù)據(jù)計(jì)算出來(lái)后隨代碼一起發(fā)布。(固然從解耦性來(lái)說(shuō),最好能

5、夠自立存儲(chǔ),通過(guò)注冊(cè)或配置的方式來(lái)發(fā)布)3. 基于flink和高斯分布的實(shí)時(shí)異樣檢測(cè)系統(tǒng)前面介紹了異樣檢測(cè)的基本算法,那么本小節(jié)我們就基于flink和高斯分布設(shè)計(jì)一個(gè)實(shí)時(shí)異樣檢測(cè)系統(tǒng)。假設(shè)你是一個(gè)公司的運(yùn)維人員,負(fù)責(zé)管理全公司的it資源,為了保證公司it穩(wěn)定性,提前發(fā)覺(jué)主機(jī)或者系統(tǒng)的問(wèn)題,你設(shè)計(jì)了這樣一個(gè)實(shí)時(shí)異樣檢測(cè)系統(tǒng)。系統(tǒng)架構(gòu)與所選軟件如下圖所示:數(shù)據(jù)源包括兩個(gè)部分,主機(jī)運(yùn)行信息與系統(tǒng)的運(yùn)行日志,主機(jī)運(yùn)行信息通過(guò)collectd 收集,系統(tǒng)運(yùn)行日志通過(guò)filebeat收集,二者均將數(shù)據(jù)推送到kafka。數(shù)據(jù)通過(guò)kafka流轉(zhuǎn),支持flink計(jì)算過(guò)程中的實(shí)時(shí)分層。終于數(shù)據(jù)存儲(chǔ)到elastic

6、 search中,并通過(guò)kibana可視化。異樣檢測(cè)由實(shí)時(shí)計(jì)算flink完成,計(jì)算過(guò)程很容易:數(shù)據(jù)清洗,把原始數(shù)據(jù)格式化;計(jì)算特征值,計(jì)算所選大事的特征,比如某個(gè)服務(wù)打印日志的頻率就是一個(gè)特征,如果系統(tǒng)調(diào)用失敗,則會(huì)打印一條失敗記錄,那么當(dāng)系統(tǒng)打印失敗記錄的頻率變高時(shí),系統(tǒng)可能浮現(xiàn)了問(wèn)題;計(jì)算特征統(tǒng)計(jì)值,即找到該特征的高斯分布(確定平均值和方差即可確定高斯分布);這里高斯分布挺直在線計(jì)算,益處是隨時(shí)可更新,沒(méi)有顯式的訓(xùn)練過(guò)程,缺點(diǎn)是可能受異樣數(shù)據(jù)影響。另外一種方式是離線選取一些正常數(shù)據(jù)然后計(jì)算高斯分布。檢測(cè)異樣值,利用2.2節(jié)中的算法原理檢測(cè)異樣大事;輸出,最后把檢測(cè)出的異樣數(shù)據(jù)寫(xiě)到下游;好了,一個(gè)容易的實(shí)時(shí)異樣檢測(cè)系統(tǒng)就完成了。4. 總結(jié)在本文中,在kappa架構(gòu)上添加容易的異樣檢測(cè)算法即可完成一個(gè)容易有效的實(shí)時(shí)異樣檢測(cè)系統(tǒng)。該架構(gòu)具備良好的可擴(kuò)展性,基于flink的kappa架構(gòu)讓系統(tǒng)能夠應(yīng)對(duì)超大規(guī)模數(shù)據(jù)流,并且能夠在數(shù)據(jù)流轉(zhuǎn)的過(guò)程中完成處理。此外,雖然本文中挺直把異樣檢測(cè)算法內(nèi)置到了flink的規(guī)律中,但

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論