版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、異常數(shù)據(jù)處理方法研究1 異常數(shù)據(jù)處理概述1.1 研究背景近年來(lái),隨著海上風(fēng)力發(fā)電技術(shù)的日益成熟和陸上風(fēng)電可開(kāi)發(fā)資源的不斷減少,海上風(fēng)電尤其是近海風(fēng)電的開(kāi)發(fā)開(kāi)始加速。風(fēng)機(jī)是海上風(fēng)電開(kāi)發(fā)的主要形式,而風(fēng)機(jī)基礎(chǔ)結(jié)構(gòu)承擔(dān)著抵抗海上風(fēng)機(jī)結(jié)構(gòu)的豎向、水平荷載和傾覆力矩的作用,其質(zhì)量關(guān)系到海上風(fēng)機(jī)結(jié)構(gòu)的運(yùn)行安全。作為隱蔽工程,其健康狀況受到了社會(huì)各界的高度重視,如何對(duì)風(fēng)機(jī)基礎(chǔ)特別是MW級(jí)風(fēng)機(jī)基礎(chǔ)的安全運(yùn)行狀況監(jiān)測(cè)成為研究領(lǐng)域的熱點(diǎn)?,F(xiàn)有的監(jiān)測(cè)技術(shù)需要通過(guò)設(shè)臵在風(fēng)機(jī)基礎(chǔ)中的數(shù)據(jù)采集系統(tǒng)自動(dòng)獲取基礎(chǔ)的各狀態(tài)的大量參數(shù),如應(yīng)力、應(yīng)變、振動(dòng)、變形等,采集到的海量原始數(shù)據(jù)通過(guò)通信網(wǎng)絡(luò)傳輸?shù)奖O(jiān)控中心,經(jīng)過(guò)數(shù)據(jù)存儲(chǔ),分析
2、處理得到基礎(chǔ)的安全運(yùn)行狀況和維修決策等結(jié)論。風(fēng)機(jī)基礎(chǔ)監(jiān)測(cè)系統(tǒng)是集結(jié)構(gòu)監(jiān)測(cè)、系統(tǒng)識(shí)別及結(jié)構(gòu)評(píng)估于一體的綜合監(jiān)測(cè)系統(tǒng),其內(nèi)容包括幾何變形監(jiān)測(cè)、結(jié)構(gòu)響應(yīng)(應(yīng)力、應(yīng)變及振動(dòng))監(jiān)測(cè)等。監(jiān)測(cè)系統(tǒng)的質(zhì)量主要取決于三方面因素:(1)傳感器的靈敏性和精度以及數(shù)據(jù)傳輸和采集設(shè)備的性能;(2)測(cè)點(diǎn)的空間分布,即傳感器的最優(yōu)布臵問(wèn)題;(3)異常數(shù)據(jù)的分析處理。從目前電子技術(shù)的發(fā)展來(lái)看,成熟、穩(wěn)定、高性能的傳感器已經(jīng)被應(yīng)用與監(jiān)測(cè)系統(tǒng)中,而且合理安排傳感器位臵,以達(dá)到信息采集的最優(yōu)化,也已經(jīng)有很多研究成果。但由于監(jiān)測(cè)信息格式復(fù)雜、信息量大,每天數(shù)據(jù)量甚至能達(dá)到十幾GB,如果不能有效地對(duì)這些數(shù)據(jù)進(jìn)行處理,很多異常數(shù)據(jù)將不能
3、有效辨識(shí),缺失信息將不能有效彌補(bǔ),而且監(jiān)測(cè)數(shù)據(jù)的分析必須建立在準(zhǔn)確有效的監(jiān)測(cè)數(shù)據(jù)之上,低精度和異常的監(jiān)測(cè)數(shù)據(jù)常常影響數(shù)值分析的結(jié)果,會(huì)影響到系統(tǒng)的功能與特性分析,給后續(xù)數(shù)據(jù)處理帶來(lái)很大的誤差,正常信息不能得到有效利用,故有必要對(duì)原始采集數(shù)據(jù)進(jìn)行處理。因此監(jiān)測(cè)異常數(shù)據(jù)處理是三方面中至關(guān)重要的一點(diǎn)。監(jiān)測(cè)系統(tǒng)異常數(shù)據(jù)處理包含兩個(gè)方面的內(nèi)容:(1)異常數(shù)據(jù)檢測(cè),即找出異常信息并確定異常信息所在位臵,根據(jù)需要將異常數(shù)據(jù)保存入專(zhuān)門(mén)數(shù)據(jù)庫(kù)中或直接進(jìn)行剔除;(2)異常數(shù)據(jù)修正,即通過(guò)插值等方法,參考數(shù)據(jù)異常點(diǎn)前后的數(shù)據(jù),完成該異常數(shù)據(jù)點(diǎn)的修正,確保采集信息不缺失,保持原始采集數(shù)據(jù)的連續(xù)性。異常是一個(gè)復(fù)雜的概念
4、,迄今為止還沒(méi)有一個(gè)統(tǒng)一定義。Hawkins提出的異常定義被大多數(shù)人所接受,其定義為:異常是在數(shù)據(jù)集中與眾不同的數(shù)據(jù),使人們懷疑這些數(shù)據(jù)并非隨機(jī)產(chǎn)生的,而是產(chǎn)生于完全不同的機(jī)制。異常數(shù)據(jù)往往代表一種偏差或者新模式的開(kāi)始,因此對(duì)異常數(shù)據(jù)的識(shí)別有時(shí)會(huì)比正常數(shù)據(jù)更有價(jià)值。傳感器異常數(shù)據(jù)是指在數(shù)據(jù)集中與大部分?jǐn)?shù)據(jù)不一致或者偏離正常行為模式的數(shù)據(jù)。異常數(shù)據(jù)的產(chǎn)生主要是因?yàn)橐韵聨追N情況而發(fā)生的:(1) 數(shù)據(jù)來(lái)源中的異常,這類(lèi)異常中可能隱藏著重要的知識(shí)或規(guī)律。對(duì)這類(lèi)異常分析可以獲取常規(guī)數(shù)據(jù)不能得到的新的信息,如基礎(chǔ)結(jié)構(gòu)損壞等;(2)數(shù)據(jù)固有變化異常,這類(lèi)異常通常是自然發(fā)生的,如風(fēng)速的變化、波浪波動(dòng)等;(3)
5、數(shù)據(jù)測(cè)量誤差,這類(lèi)異常的產(chǎn)生往往是因?yàn)闇y(cè)量?jī)x器故障或者網(wǎng)絡(luò)傳輸錯(cuò)誤,以及噪音的存在引起的,這類(lèi)異常通常作為噪聲而被刪除。與其他工程相比,風(fēng)機(jī)基礎(chǔ)安全狀況監(jiān)測(cè)發(fā)展較為滯后,尚未發(fā)現(xiàn)關(guān)于風(fēng)機(jī)基礎(chǔ)監(jiān)測(cè)數(shù)據(jù)處理的相關(guān)研究成果,其監(jiān)測(cè)異常數(shù)據(jù)的處理缺乏相應(yīng)的經(jīng)驗(yàn)??梢越梃b類(lèi)似工程監(jiān)測(cè)數(shù)據(jù)處理的方法進(jìn)行研究。而針對(duì)監(jiān)測(cè)數(shù)據(jù)的種類(lèi)多、數(shù)據(jù)海量、頻幅分布廣等特點(diǎn),國(guó)內(nèi)學(xué)者已經(jīng)研究了很多處理辦法。其中研究較多的如小波分析、數(shù)據(jù)挖掘、數(shù)據(jù)流理論等。然而,目前的類(lèi)似工程監(jiān)測(cè)數(shù)據(jù)處理的方法主要是在離線(xiàn)數(shù)據(jù)的基礎(chǔ)上,在實(shí)時(shí)監(jiān)控上還缺乏相應(yīng)的準(zhǔn)確率和智能化。結(jié)合風(fēng)機(jī)基礎(chǔ)特點(diǎn),尋找一種有效的適用于風(fēng)機(jī)基礎(chǔ)監(jiān)測(cè)實(shí)時(shí)數(shù)據(jù)處理的
6、方法具有十分重要的研究意義和實(shí)用價(jià)值。1.2 國(guó)內(nèi)外研究現(xiàn)狀綜述在國(guó)外,研究人員通過(guò)對(duì)異常挖掘的深入研究,根據(jù)對(duì)異常存在形式的不同假設(shè),提出了許多異常數(shù)據(jù)檢測(cè)算法。早期的異常數(shù)據(jù)檢測(cè)方法是基于統(tǒng)計(jì)的方法,這種方法依賴(lài)于數(shù)據(jù)集服從某種標(biāo)準(zhǔn)分布,所以異常數(shù)據(jù)是基于概率分布來(lái)定義的,如Yamanishi等人將正常行為用一個(gè)高斯混合模型來(lái)進(jìn)行描述,通過(guò)計(jì)算數(shù)據(jù)對(duì)象與這個(gè)模型的偏離程度來(lái)發(fā)現(xiàn)異常。雖然這種基于標(biāo)準(zhǔn)分布的模型,能識(shí)別異?,F(xiàn)象,但此類(lèi)方法有很大的局限性,因?yàn)橥鶡o(wú)法預(yù)知數(shù)據(jù)集是服從哪類(lèi)標(biāo)準(zhǔn)分布。為了克服這種缺陷,JamesP.R、DanielB.等在概率論H假設(shè)檢驗(yàn)方法的理論基礎(chǔ)上,提出了一
7、種基于某臵信度區(qū)間標(biāo)準(zhǔn)的異常檢測(cè)方法,達(dá)到這個(gè)標(biāo)準(zhǔn)的則為正常數(shù)據(jù),反之則為異常。Knorr等人于1998年提出了基于距離的異常數(shù)據(jù)檢測(cè)算法,他們認(rèn)為數(shù)據(jù)是高維空間中的點(diǎn),異常數(shù)據(jù)被定義為數(shù)據(jù)集中與大多數(shù)點(diǎn)之間的距離大于某個(gè)事先設(shè)定的閾值的數(shù)據(jù)。F.Abgiulli和C.Pizzuti等學(xué)者針對(duì)基于距離的異常數(shù)據(jù)挖掘算法在高維數(shù)據(jù)中計(jì)算時(shí)間較長(zhǎng)的缺點(diǎn),將圖論中的連通性原理引入到數(shù)據(jù)之間距離的計(jì)算上,極大地降低了計(jì)算時(shí)間復(fù)雜度。Arning等人提出了基于偏離的方法,這種方法認(rèn)為:某個(gè)數(shù)據(jù)對(duì)象在數(shù)據(jù)集中的特征明顯“偏離”數(shù)據(jù)集中的其它數(shù)據(jù)時(shí),這樣的數(shù)據(jù)被認(rèn)為是異常數(shù)據(jù)。BirantD等提出了一種任意
8、形狀的聚類(lèi)算法并將其應(yīng)用于異常挖掘中,該算法可以依據(jù)數(shù)據(jù)的非空間屬性、空間屬性和時(shí)態(tài)屬性來(lái)發(fā)現(xiàn)聚類(lèi)簇和異常數(shù)據(jù)對(duì)象。Breuning等學(xué)者定義了局部異常因子的概念,提出了一種基于密度的局部異常點(diǎn)挖掘算法,它是用局部異常因子LOF(LocalOutlierFactor)表征數(shù)據(jù)對(duì)象與它的鄰居對(duì)象的偏離程度,LOF越大則認(rèn)為該點(diǎn)是異常數(shù)據(jù)的可能性越大。ToWel等人在分析神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,根據(jù)神經(jīng)網(wǎng)絡(luò)的理論提出了基于神經(jīng)網(wǎng)絡(luò)的異常數(shù)據(jù)挖掘算法。最近提出的比較流行的異常數(shù)據(jù)挖掘算法是基于核的分類(lèi)方法,主要思想是將輸入的數(shù)據(jù)通過(guò)關(guān)系函數(shù)映射到一個(gè)高維特征空間,通過(guò)高維空間的分類(lèi)超平面,就可以建立一個(gè)簡(jiǎn)
9、單的分類(lèi)模型,從而區(qū)分正常或異常數(shù)據(jù)。國(guó)內(nèi)對(duì)異常數(shù)據(jù)挖掘的研究起步較晚,但是近年來(lái)在理論研究方面已經(jīng)取得了許多研究成果。林士敏對(duì)基于距離的異常數(shù)據(jù)挖掘算法作了改進(jìn),提出了基于抽樣的近似檢測(cè)算法;金義富等在Knorr觀(guān)點(diǎn)的基礎(chǔ)上,提出了一種異常約簡(jiǎn)算法ORDA,該算法以粗糙集理論的屬性約簡(jiǎn)技術(shù)為基礎(chǔ),提出了異常數(shù)據(jù)劃分和異常約簡(jiǎn)思想,以及異常數(shù)據(jù)關(guān)鍵屬性域子空間的分析方法,這種方法可以對(duì)挖掘出的異常數(shù)據(jù)進(jìn)行有效的分析和解釋?zhuān)恢貞c大學(xué)的鄧玉潔,朱慶生提出了基于聚類(lèi)的異常數(shù)據(jù)挖掘方法,該方法將離群數(shù)據(jù)在分類(lèi)討論的基礎(chǔ)上,定義了平凡離群數(shù)據(jù)、非平凡離群數(shù)據(jù)以及噪聲數(shù)據(jù),然后引入離群屬性和離群聚類(lèi)簇的概
10、念,在此基礎(chǔ)上,以現(xiàn)有的異常數(shù)據(jù)挖掘技術(shù)為基礎(chǔ),實(shí)現(xiàn)了離群數(shù)據(jù)的發(fā)現(xiàn)。田江在一類(lèi)支持向量機(jī)的基礎(chǔ)上,設(shè)計(jì)了一種“孤立點(diǎn)類(lèi)支持向量機(jī)”算法,該算法是一種無(wú)監(jiān)督的異常數(shù)據(jù)檢測(cè)算法,通過(guò)設(shè)定不同的權(quán)值,將基于超平面距離定義的異常數(shù)據(jù)的異常程度和基于概率大小定義的異常程度相結(jié)合,通過(guò)在特征空間劃分距離可疑異常數(shù)據(jù)的最大間隔超平面來(lái)發(fā)現(xiàn)異常。綜上所述,國(guó)內(nèi)外針對(duì)異常數(shù)據(jù)產(chǎn)生的原因以及應(yīng)用領(lǐng)域的不同提出了許多異常數(shù)據(jù)檢測(cè)算法。大量研究發(fā)現(xiàn),基于密度的局部異常數(shù)據(jù)挖掘算法能夠發(fā)現(xiàn)其它的異常數(shù)據(jù)挖掘算法不能發(fā)現(xiàn)的異常,即“局部”異常,它更加符合Hawkins對(duì)異常數(shù)據(jù)的定義。Breunig等人提出了局部異常因
11、子(LocalOutlierFactor,LOF)的概念,通過(guò)它來(lái)表征一個(gè)數(shù)據(jù)對(duì)象的局部異常程度,LOF算法出現(xiàn)后,出現(xiàn)了很多局部異常程度的度量算法。這些算法適用于靜態(tài)環(huán)境下的數(shù)據(jù)庫(kù),但在工程應(yīng)用領(lǐng)域,大部分?jǐn)?shù)據(jù)庫(kù)中的數(shù)據(jù)是隨時(shí)間動(dòng)態(tài)增加的,新增加的數(shù)據(jù)可能會(huì)影響某些對(duì)象的局部異常程度,因此在二次挖掘時(shí),需重新計(jì)算所有數(shù)據(jù)對(duì)象的局部異常因子,計(jì)算時(shí)間復(fù)雜度較高,所以這些算法在動(dòng)態(tài)環(huán)境中不易實(shí)現(xiàn)。因此,如何在動(dòng)態(tài)環(huán)境中提高基于密度的異常數(shù)據(jù)挖掘算法的時(shí)間效率避免大量的重復(fù)計(jì)算顯得尤為重要。1.3 研究目的和意義本項(xiàng)研究的目的在于結(jié)合風(fēng)機(jī)基礎(chǔ)特點(diǎn),在傳統(tǒng)異常數(shù)據(jù)處理方法基礎(chǔ)上,研究一種有效的適用于
12、風(fēng)機(jī)基礎(chǔ)監(jiān)測(cè)實(shí)時(shí)數(shù)據(jù)處理的方法,該方法能夠在線(xiàn)辨識(shí)異常監(jiān)測(cè)數(shù)據(jù)并保存,且能夠自動(dòng)修復(fù)原數(shù)據(jù)集,保持器連續(xù)性。本研究的意義在于:(1) 實(shí)現(xiàn)異常數(shù)據(jù)在線(xiàn)檢測(cè)與修正。目前的監(jiān)測(cè)數(shù)據(jù)處理方法主要是在離線(xiàn)數(shù)據(jù)的基礎(chǔ)上,在實(shí)時(shí)監(jiān)控上還缺乏相應(yīng)的準(zhǔn)確率和智能化。本研究實(shí)現(xiàn)了異常數(shù)據(jù)在線(xiàn)檢測(cè)與修正,與傳統(tǒng)的異常數(shù)據(jù)識(shí)別方法相比,具有更快的計(jì)算時(shí)間和更高的還原精度,能夠滿(mǎn)足數(shù)據(jù)的在線(xiàn)異常檢測(cè)與修正要求(2) 實(shí)時(shí)發(fā)現(xiàn)異常狀況并采取必要處理措施。對(duì)于實(shí)時(shí)檢測(cè)出的異常數(shù)據(jù)進(jìn)行分析,尋找異常事件原因,并根據(jù)產(chǎn)生原因采取應(yīng)有的處理方式。對(duì)于傳感器故障或執(zhí)行錯(cuò)誤導(dǎo)致數(shù)據(jù)異常情況,應(yīng)進(jìn)行剔除處理;有些異常數(shù)據(jù)是數(shù)據(jù)變異產(chǎn)
13、生的結(jié)果,如對(duì)于基礎(chǔ)結(jié)構(gòu)監(jiān)測(cè),發(fā)生異常工況或結(jié)構(gòu)損壞在一段時(shí)間往往會(huì)出現(xiàn)前兆,導(dǎo)致數(shù)據(jù)異常,如果能夠及時(shí)捕捉到異常狀況的發(fā)生并采取相應(yīng)措施,則能防患于未然,保證結(jié)構(gòu)安全。(3) 提高和完善監(jiān)測(cè)結(jié)果準(zhǔn)確性,為后續(xù)研究奠定基礎(chǔ)。監(jiān)測(cè)結(jié)果的準(zhǔn)確性建立在高質(zhì)量的監(jiān)測(cè)數(shù)據(jù)之上,如果不能有效地辨識(shí)與處理異常數(shù)據(jù),低精度和異常的監(jiān)測(cè)數(shù)據(jù)混入正常數(shù)據(jù)集中,會(huì)對(duì)監(jiān)測(cè)系統(tǒng)的功能與特性分析產(chǎn)生重大影響,給后續(xù)數(shù)據(jù)處理帶來(lái)很大的誤差,正常數(shù)據(jù)信息不能有效用于后續(xù)的相關(guān)研究,利用數(shù)據(jù)研究得到的結(jié)論與實(shí)際可能存在較大誤差。1.4 主要研究?jī)?nèi)容本研究主要包括以下3部分內(nèi)容:(1) 對(duì)常用異常數(shù)據(jù)檢測(cè)與修正方法簡(jiǎn)要介紹,介紹
14、了常用的數(shù)據(jù)預(yù)處理技術(shù)及異常數(shù)據(jù)檢測(cè)問(wèn)題的重要特征,對(duì)常用異常數(shù)據(jù)檢測(cè)及修正算法進(jìn)行了描述和討論,分析了各種算法的優(yōu)缺點(diǎn)和適用場(chǎng)景。(2) 幾種典型改進(jìn)算法及其工程應(yīng)用實(shí)例進(jìn)行分析,。(3) 風(fēng)機(jī)基礎(chǔ)監(jiān)測(cè)異常數(shù)據(jù)的檢測(cè)和修正。2 異常數(shù)據(jù)檢測(cè)與修正方法異常數(shù)據(jù)檢測(cè)問(wèn)題通常包括四個(gè)過(guò)程:第一是數(shù)據(jù)的預(yù)處理,即通過(guò)數(shù)字濾波方法去除一些干擾;第二是異常數(shù)據(jù)的定義,即在數(shù)據(jù)集中表現(xiàn)出怎樣的行為或者模式的數(shù)據(jù)稱(chēng)為異常數(shù)據(jù);第三是選擇合適的能夠有效發(fā)現(xiàn)異常數(shù)據(jù)的算法,異常數(shù)據(jù)表現(xiàn)行為不同,異常數(shù)據(jù)挖掘算法結(jié)果也會(huì)有所差異;第四是異常數(shù)據(jù)的修正,即通過(guò)異常挖掘?qū)惓?shù)據(jù)挖掘出來(lái)后,對(duì)這部分?jǐn)?shù)據(jù)按照原有模式規(guī)
15、則進(jìn)行修正,確保采集信息不缺失,保持采集數(shù)據(jù)時(shí)間序列上的連續(xù)性。本章介紹了常用的數(shù)據(jù)預(yù)處理技術(shù)及異常數(shù)據(jù)檢測(cè)問(wèn)題的重要特征,對(duì)常用異常數(shù)據(jù)檢測(cè)及修正算法進(jìn)行了描述和討論,分析了各種算法的優(yōu)缺點(diǎn)和適用場(chǎng)景。2.1 數(shù)據(jù)預(yù)處理技術(shù)數(shù)據(jù)是通過(guò)各種類(lèi)型的監(jiān)測(cè)傳感器獲取的,數(shù)據(jù)是一種通過(guò)間接方法取得事物狀態(tài)的技術(shù),如將結(jié)構(gòu)相應(yīng)等參數(shù)通過(guò)一定的轉(zhuǎn)換技術(shù)轉(zhuǎn)變?yōu)殡娦盘?hào),然后再將電信號(hào)轉(zhuǎn)換為數(shù)字化的數(shù)據(jù)。由于傳感器安裝環(huán)境的不穩(wěn)定和數(shù)據(jù)轉(zhuǎn)換過(guò)程摻雜少量的噪聲數(shù)據(jù)等各方面因素的影響,得到的數(shù)據(jù)會(huì)受到一定干擾,影響了最終數(shù)據(jù)的準(zhǔn)確性。為了減小噪聲對(duì)數(shù)據(jù)結(jié)果的影響,除了采用更加科學(xué)的采樣技術(shù)外,還需要采用一些必要的技
16、術(shù)手段對(duì)原始數(shù)據(jù)進(jìn)行整理、統(tǒng)計(jì),數(shù)字濾波技術(shù)是最基本的處理方法,它可以消弱數(shù)據(jù)中的噪聲,提高數(shù)據(jù)的代表性。均值濾波是最常用的數(shù)字濾波方法,是對(duì)采樣序列中的數(shù)據(jù)求和后,再取其平均值作為結(jié)果。雖然這種方法可以達(dá)到濾波的目的,但是如果采樣數(shù)據(jù)中的噪聲數(shù)據(jù)過(guò)大或過(guò)小,都會(huì)對(duì)處理結(jié)果產(chǎn)生影響。中值濾波是對(duì)采樣序列按大小排序形成有序列,取有序列的中間值作為結(jié)果。排序算法一般采用“冒泡排序法”或“快速排序法”等。眾數(shù)是數(shù)理統(tǒng)計(jì)中常用的一種數(shù)據(jù)處理辦法,它要求對(duì)大量的數(shù)據(jù)進(jìn)行處理,眾數(shù)濾波的原理是在采樣序列中找出最大值Tmax和最小值Tmin,再在區(qū)間上平均分為m組(5T0組),確定完分組后,對(duì)序列統(tǒng)計(jì)各組區(qū)
17、間內(nèi)數(shù)據(jù)的個(gè)數(shù),形成統(tǒng)計(jì)序列,查找其最大的值即眾數(shù)組序號(hào)k,根據(jù)相應(yīng)公式計(jì)算眾數(shù)的近似值。以前由于計(jì)算機(jī)的采樣速度和計(jì)算機(jī)速度較慢,處理周期較長(zhǎng),所以一直沒(méi)有采用,隨著計(jì)算機(jī)運(yùn)算速度的提高及高速采集模塊的采用,現(xiàn)在處理周期已縮短到1秒以?xún)?nèi),由于眾數(shù)濾波的數(shù)據(jù)代表性較其它處理方法更強(qiáng),所以逐步被采用。為了提高濾波的效果,盡量減少噪聲數(shù)據(jù)對(duì)結(jié)果的影響,可將兩種或兩種以上的濾波算法結(jié)合在一起使用。如對(duì)于采集的數(shù)據(jù)量比較大的環(huán)境參數(shù),為了達(dá)到更好的濾波效果,可以選用眾數(shù)濾波和均值濾波結(jié)合的復(fù)合濾波方法。2.2 異常數(shù)據(jù)問(wèn)題的重要特征異常數(shù)據(jù)問(wèn)題的重要特征可以概括為四個(gè)方面,即數(shù)據(jù)特性、異常類(lèi)型、數(shù)據(jù)標(biāo)
18、簽和輸出類(lèi)型。數(shù)據(jù)特性異常檢測(cè)算法的輸入一般是數(shù)據(jù)實(shí)例的集合。每個(gè)數(shù)據(jù)實(shí)例用一個(gè)或若干個(gè)屬性及其取值來(lái)描述,每個(gè)屬性的取值可能為二進(jìn)制、分類(lèi)或連續(xù)變量的形式。屬性的表示方式不同,適用的異常檢測(cè)算法也不同。例如,如果使用統(tǒng)計(jì)學(xué)的技術(shù)檢測(cè)異常,分類(lèi)和連續(xù)取值的數(shù)據(jù)需要使用不同的統(tǒng)計(jì)模型。按數(shù)據(jù)實(shí)例之間的關(guān)系,數(shù)據(jù)可以分為順序數(shù)據(jù)和空間數(shù)據(jù)。順序數(shù)據(jù)的數(shù)據(jù)實(shí)例之間有一定的先后次序,其典型實(shí)例包括時(shí)間序列數(shù)據(jù)、基因組序列和蛋白質(zhì)序列等??臻g數(shù)據(jù)的各個(gè)數(shù)據(jù)實(shí)例之間有一定的相對(duì)位臵關(guān)系。數(shù)據(jù)實(shí)例之間的關(guān)系對(duì)異常檢測(cè)算法的設(shè)計(jì)有重要影響。(2) 異常類(lèi)型數(shù)據(jù)異??梢苑譃槿?lèi):點(diǎn)異常、上下文異常和集合異常。如
19、果某個(gè)單個(gè)的數(shù)據(jù)實(shí)例被認(rèn)為是異常值,則該數(shù)據(jù)實(shí)例就被標(biāo)記為點(diǎn)異常。點(diǎn)異常是最簡(jiǎn)單的一類(lèi)異常,也是與異常檢測(cè)相關(guān)的文獻(xiàn)中討論最多的一類(lèi)異常。如果某個(gè)數(shù)據(jù)實(shí)例只在特定的場(chǎng)合或環(huán)境下被認(rèn)為是異常值,則該數(shù)據(jù)實(shí)例就被標(biāo)記為上下文異常。一個(gè)典型的例子就是野外環(huán)境的溫度監(jiān)控,溫度報(bào)警閡值的設(shè)定要根據(jù)當(dāng)前季節(jié)的大氣溫度變化范圍和一天中的時(shí)間確定。集合異常是包含多個(gè)相關(guān)的數(shù)據(jù)實(shí)例的異常,是多個(gè)數(shù)據(jù)實(shí)例的集合。集合中單一數(shù)據(jù)實(shí)例不被認(rèn)為是異常,但這些數(shù)據(jù)實(shí)例同時(shí)出現(xiàn)就構(gòu)成了集合異常。(3) 數(shù)據(jù)標(biāo)記對(duì)于點(diǎn)異常檢測(cè),每個(gè)數(shù)據(jù)實(shí)例都可以有一個(gè)分類(lèi)標(biāo)記,用來(lái)標(biāo)記該數(shù)據(jù)實(shí)例是否正常或異常。給數(shù)據(jù)實(shí)例做標(biāo)記的工作一般由領(lǐng)
20、域?qū)<襾?lái)完成,被標(biāo)記的數(shù)據(jù)實(shí)例的集合稱(chēng)為訓(xùn)練數(shù)據(jù)集(trainingdataset)。根據(jù)數(shù)據(jù)實(shí)例被標(biāo)記的情況,異常數(shù)據(jù)檢測(cè)技術(shù)可分為以下三類(lèi):有監(jiān)督(supervised)異常檢測(cè),半監(jiān)督(semisupervised)異常檢測(cè)和無(wú)監(jiān)督(unsupervised)異常檢測(cè)。對(duì)于有監(jiān)督異常檢測(cè),訓(xùn)練數(shù)據(jù)集存在,且其中既包括標(biāo)記為正常的數(shù)據(jù)實(shí)例,也包括標(biāo)記為異常的數(shù)據(jù)實(shí)例。利用訓(xùn)練數(shù)據(jù)集構(gòu)造一個(gè)分類(lèi)預(yù)測(cè)模型,把標(biāo)記未知的數(shù)據(jù)實(shí)例輸入該模型,根據(jù)模型輸出判斷該數(shù)據(jù)實(shí)例是否異常。對(duì)于半監(jiān)督異常檢測(cè),訓(xùn)練數(shù)據(jù)集存在,且其中只包括標(biāo)記為正常的數(shù)據(jù)實(shí)例。利用訓(xùn)練數(shù)據(jù)集構(gòu)造一個(gè)預(yù)測(cè)模型,把標(biāo)記未知的數(shù)據(jù)實(shí)例
21、輸入該模型,根據(jù)模型輸出判斷該數(shù)據(jù)實(shí)例是否能屬于正常分類(lèi),不屬于任何正常分類(lèi)的數(shù)據(jù)實(shí)例一律標(biāo)記為異常。對(duì)于無(wú)監(jiān)督異常檢測(cè),不需要訓(xùn)練數(shù)據(jù)集,但需要假設(shè)正常的數(shù)據(jù)實(shí)例在數(shù)量上要遠(yuǎn)遠(yuǎn)多于異常數(shù)據(jù)實(shí)例。(4) 輸出類(lèi)型異常檢測(cè)算法有兩類(lèi)典型的輸出:分值(score)和標(biāo)記(label)。前一類(lèi)算法依據(jù)一定的標(biāo)準(zhǔn),給訓(xùn)練數(shù)據(jù)集中的每個(gè)數(shù)據(jù)對(duì)象(即數(shù)據(jù)實(shí)例或構(gòu)成集合異常的數(shù)據(jù)實(shí)例的集合)標(biāo)記一個(gè)分值,并且輸出一個(gè)按分值排序的可能的異常數(shù)據(jù)對(duì)象列表。領(lǐng)域?qū)<铱梢栽诖嘶A(chǔ)上最終確定異常數(shù)據(jù)對(duì)象。后一類(lèi)算法直接把每一個(gè)數(shù)據(jù)對(duì)象標(biāo)記為正?;虍惓#恍枰I(lǐng)域?qū)<业闹苯訁⑴c。2.3 異常數(shù)據(jù)檢測(cè)方法隨著對(duì)異常挖掘研
22、究的深入,對(duì)應(yīng)于不同的應(yīng)用領(lǐng)域出現(xiàn)了許多異常數(shù)檢測(cè)方法,參考大量研究成果,本節(jié)簡(jiǎn)要介紹了常用的八種異常檢測(cè)算法的基本技術(shù)思路及部分方法的優(yōu)缺點(diǎn)。前面七類(lèi)主要是針對(duì)點(diǎn)異常檢測(cè)做的歸納,但這些檢測(cè)算法也經(jīng)常適用于集合異常的檢測(cè),最后一類(lèi)是討論上下文異常的檢測(cè)。(1) 基于分類(lèi)的異常檢測(cè)基于分類(lèi)的異常檢測(cè)基本都是分為兩個(gè)階段,即訓(xùn)練階段和檢測(cè)階段。在訓(xùn)練階段,算法利用訓(xùn)練數(shù)據(jù)集中的數(shù)據(jù)對(duì)象,構(gòu)造分類(lèi)器模型。在檢測(cè)階段,測(cè)試數(shù)據(jù)集中的數(shù)據(jù)對(duì)象被輸入分類(lèi)器,根據(jù)分類(lèi)的結(jié)果判斷是否是異常數(shù)據(jù)。分類(lèi)器可以基于規(guī)則、神經(jīng)網(wǎng)絡(luò)、貝葉斯網(wǎng)絡(luò)和支持向量機(jī)等技術(shù)來(lái)實(shí)現(xiàn)。按照訓(xùn)練樣本有標(biāo)記種類(lèi)個(gè)數(shù)的不同,基于分類(lèi)的方法
23、分為有監(jiān)督的方法和半監(jiān)督的方法。基于監(jiān)督學(xué)習(xí)的分類(lèi)方法最常用的方法是基于支持向量機(jī)的方法,基于支持向量機(jī)的方法不需要事先對(duì)數(shù)據(jù)作任何假設(shè),也不需要任何的預(yù)設(shè)參數(shù),但是支持向量機(jī)的計(jì)算時(shí)間往往較長(zhǎng),主要是因?yàn)楹撕瘮?shù)的計(jì)算往往要消耗大量的計(jì)算時(shí)間,同時(shí)基于支持向量機(jī)的方法也很難確定合適的參數(shù)來(lái)衡量特征空間中正常數(shù)據(jù)區(qū)域邊界的大小?;诎氡O(jiān)督的分類(lèi)方法常用的有基于神經(jīng)網(wǎng)絡(luò)的方法,神經(jīng)網(wǎng)絡(luò)是一種常用的回歸預(yù)測(cè)和分類(lèi)技術(shù),基于神經(jīng)網(wǎng)絡(luò)的異常檢測(cè)是通過(guò)對(duì)正常數(shù)據(jù)樣本的學(xué)習(xí)后建立一個(gè)正常樣本的分類(lèi)模型,然后在輸出層重構(gòu)輸入數(shù)據(jù),如果重構(gòu)的誤差很大則將該數(shù)據(jù)判定為異常數(shù)據(jù)?;谏窠?jīng)網(wǎng)絡(luò)的異常數(shù)據(jù)檢測(cè)方法不需要
24、事先對(duì)數(shù)據(jù)進(jìn)行任何條件假設(shè),能夠發(fā)現(xiàn)異常的關(guān)鍵屬性,從而根據(jù)這個(gè)關(guān)鍵屬性有效地發(fā)現(xiàn)數(shù)據(jù)集中的異常。神經(jīng)網(wǎng)絡(luò)方法雖然能較好地發(fā)現(xiàn)異常,但是神經(jīng)網(wǎng)絡(luò)對(duì)模型參數(shù)的設(shè)定具有很強(qiáng)的依賴(lài)性,且這些參數(shù)會(huì)對(duì)檢測(cè)結(jié)果產(chǎn)生較大影響。(2) 最近鄰法異常檢測(cè)使用最近鄰法的基本假設(shè)是:按某種度量方式,正常數(shù)據(jù)對(duì)象之間比較接近,而異常數(shù)據(jù)對(duì)象和鄰居數(shù)據(jù)對(duì)象之間卻相對(duì)較遠(yuǎn)。數(shù)據(jù)對(duì)象之間的遠(yuǎn)近可以用距離或相似性表示。如果數(shù)據(jù)對(duì)象的屬性都是連續(xù)的變量,經(jīng)常用歐式(Euclidean)距離來(lái)表示數(shù)據(jù)對(duì)象之間的距離。常見(jiàn)的基于最近鄰法的異常檢測(cè)算法大體分為兩類(lèi):一類(lèi)算法是基于距離的異常數(shù)據(jù)檢測(cè),另外一類(lèi)是基于密度的異常數(shù)據(jù)檢測(cè)
25、方法?;诰嚯x的方法克服了基于分布的方法事先要知道數(shù)據(jù)集分布,依賴(lài)統(tǒng)計(jì)檢驗(yàn)的缺點(diǎn),其實(shí)質(zhì)是將異常數(shù)據(jù)對(duì)象看作是在閾值d內(nèi)其鄰居比較稀疏的對(duì)象?;诰嚯x的異常數(shù)據(jù)檢測(cè)方法又可以分為三種:即基于索引(index-based)的方法、基于單元(cell-based)的方法、基于循環(huán)嵌套的方法(nested-loop)?;诰嚯x的異常數(shù)據(jù)檢測(cè)方法的主要缺陷是時(shí)間復(fù)雜度較高且難以確定合適的參數(shù)k與d。針對(duì)上述兩種問(wèn)題,出現(xiàn)了許多改進(jìn)算法。基于距離的異常數(shù)據(jù)挖掘方法是基于分布的方法的拓展,在數(shù)據(jù)集不滿(mǎn)足任何分布模型時(shí)仍能夠有效地發(fā)現(xiàn)異常數(shù)據(jù)。但是該方法對(duì)參數(shù)選擇非常的敏感,不適用于數(shù)據(jù)形狀分布不均勻的數(shù)據(jù)
26、集,且該方法需要搜索整個(gè)數(shù)據(jù)集來(lái)確定每個(gè)數(shù)據(jù)對(duì)象的鄰居,算法時(shí)間復(fù)雜度較高,不適用于大規(guī)模的數(shù)據(jù)集?;诿芏鹊漠惓?shù)據(jù)檢測(cè)方法是通過(guò)計(jì)算數(shù)據(jù)之間的距離以及與給定范圍內(nèi)數(shù)據(jù)的個(gè)數(shù)相結(jié)合來(lái)得到“密度”的概念,然后將數(shù)據(jù)對(duì)象的異常程度與它周?chē)臄?shù)據(jù)的密度相關(guān)聯(lián)。最常用的為基于局部異常因子(LocalOutlierFactor)的異常數(shù)據(jù)檢測(cè)算法,自從LOF這個(gè)局部異常數(shù)據(jù)檢測(cè)方法被提出以后,相繼出現(xiàn)了許多度量異常程度的方法,比較經(jīng)典的有COF、MDEF、SLOM等?;诿芏鹊姆椒軝z測(cè)出其它方法不能識(shí)別的異常即局部異常數(shù)據(jù)。該方法定義了數(shù)據(jù)對(duì)象的異常程度,在檢測(cè)率上有較高的精度,但是該算法每次都要掃
27、描數(shù)據(jù)庫(kù)來(lái)查找數(shù)據(jù)對(duì)象的k鄰居,這樣計(jì)算時(shí)間開(kāi)銷(xiāo)是很大的,與基于距離的方法一樣,基于密度的方法的時(shí)間復(fù)雜度也是O(N2),采用專(zhuān)門(mén)的索引結(jié)構(gòu)可以將時(shí)間復(fù)雜度降為O(NlogN),但是當(dāng)數(shù)據(jù)維數(shù)比較大時(shí),索引結(jié)構(gòu)將不再有效,時(shí)間復(fù)雜度為0(N2)。(3) 基于聚簇的異常檢測(cè)聚簇(clustering)技術(shù)用來(lái)對(duì)數(shù)據(jù)對(duì)象進(jìn)行分組,相似的數(shù)據(jù)對(duì)象被歸入一個(gè)簇。在異常檢測(cè)領(lǐng)域,聚簇技術(shù)被用于無(wú)監(jiān)督檢測(cè)和半監(jiān)督檢測(cè)。依據(jù)基本假設(shè)的不同,基于聚簇技術(shù)的異常檢測(cè)方法大體分為三類(lèi):一類(lèi)假設(shè)正常的數(shù)據(jù)對(duì)象都能被聚簇算法歸入某個(gè)簇,而異常數(shù)據(jù)對(duì)象不屬于任何一個(gè)簇;一類(lèi)假設(shè)正常的數(shù)據(jù)對(duì)象與它所在簇的質(zhì)心比較近,而異
28、常數(shù)據(jù)對(duì)象與它所在簇的質(zhì)心比較遠(yuǎn);另一類(lèi)假設(shè)正常的數(shù)據(jù)對(duì)象屬于較大且較密集的簇,而異常的數(shù)據(jù)對(duì)象屬于較小且較稀疏的簇?;诰鄞氐漠惓?shù)據(jù)檢測(cè)方法首先是對(duì)數(shù)據(jù)集進(jìn)行聚類(lèi)操作,然后再針對(duì)聚類(lèi)簇進(jìn)行異常數(shù)據(jù)的判斷,是一種有效的異常數(shù)據(jù)檢測(cè)方法。但是聚類(lèi)的效果往往會(huì)影響異常數(shù)據(jù)的檢測(cè)效果,而異常數(shù)據(jù)的存在對(duì)聚類(lèi)效果的影響是不容易忽略的,因此在聚類(lèi)過(guò)程中往往要采用不同的方法來(lái)避免異常數(shù)據(jù)對(duì)聚類(lèi)的影響,因此該方法的針對(duì)性較強(qiáng),能否有效地挖掘異常數(shù)據(jù)依賴(lài)于數(shù)據(jù)集中聚類(lèi)簇的個(gè)數(shù)以及異常數(shù)據(jù)的存在性,并且雖然該算法適用于大規(guī)模數(shù)據(jù)集,但是對(duì)高維數(shù)據(jù)的異常檢測(cè)效果并不十分的理想。(4) 統(tǒng)計(jì)異常檢測(cè)使用統(tǒng)計(jì)異常檢
29、測(cè)方法的基本假設(shè)是:正常數(shù)據(jù)對(duì)象分布在某個(gè)隨機(jī)模型的高概率區(qū)間,而異常數(shù)據(jù)對(duì)象出現(xiàn)在該隨機(jī)模型的低概率區(qū)間。異常檢測(cè)的基本思路是:首先利用訓(xùn)練數(shù)據(jù)集和領(lǐng)域知識(shí)構(gòu)造隨機(jī)模型,然后檢測(cè)測(cè)試數(shù)據(jù)集中的數(shù)據(jù)對(duì)象是否有比較高的概率由該隨機(jī)模型生成。依據(jù)是否知道隨機(jī)模型的具體參數(shù),統(tǒng)計(jì)異常檢測(cè)分為兩類(lèi):參數(shù)化檢測(cè)和非參數(shù)化檢測(cè)。參數(shù)化檢測(cè)主要包括基于高斯模型和基于回歸模型的異常檢測(cè),非參數(shù)化檢測(cè)主要包括基于直方圖和基于核函數(shù)的異常檢測(cè)?;诮y(tǒng)計(jì)學(xué)的異常數(shù)據(jù)檢測(cè)算法主要優(yōu)點(diǎn)是:算法有概率統(tǒng)計(jì)的理論作為其有利的支撐;通過(guò)對(duì)異常數(shù)據(jù)不一致性檢驗(yàn)可以發(fā)現(xiàn)背后隱藏的意義;在概率模型建立后只需要存儲(chǔ)少量的模型信息不需
30、要存儲(chǔ)數(shù)據(jù)對(duì)象的信息,降低了數(shù)據(jù)的存儲(chǔ)量?;诮y(tǒng)計(jì)學(xué)的異常數(shù)據(jù)檢測(cè)算法主要缺點(diǎn)是:通常只能處理單維的數(shù)據(jù)對(duì)象;需要很多先驗(yàn)知識(shí),要預(yù)先假設(shè)數(shù)據(jù)集的分布,不適合分布未知的情況;通常只適合處理數(shù)據(jù)型的數(shù)據(jù),限制了其在符號(hào)型或者含有大量分類(lèi)數(shù)據(jù)對(duì)象的數(shù)據(jù)集上的應(yīng)用。(5) 基于信息論的異常檢測(cè)嫡在信息論中是一個(gè)重要的概念,用來(lái)衡量所收集到的信息的不確定性?;谛畔⒄撨M(jìn)行異常檢測(cè)的基本假設(shè)是:數(shù)據(jù)集中的異常數(shù)據(jù)實(shí)例導(dǎo)致了嫡的增加。如果用D表示數(shù)據(jù)集,(D)表示D的嫡值,基本的異常檢測(cè)思路是:設(shè)法找到D的一個(gè)最小子集I,使得C(D)-C(D-I)最大,則子集I中的數(shù)據(jù)就是異常數(shù)據(jù)實(shí)例。(6) 基于維度減
31、小技術(shù)的異常檢測(cè)使用維度減小技術(shù)的基本假設(shè)是:數(shù)據(jù)可以被嵌入或投射到一個(gè)低維度的子空間中。在此子空間中,正常數(shù)據(jù)對(duì)象和異常數(shù)據(jù)對(duì)象能被顯著的區(qū)分開(kāi)。雖然有多種降低數(shù)據(jù)維度的方法,但各種基于主分量分析(PrincipalComPonentAnalysis,PCA)的方法在異常檢測(cè)中應(yīng)用最多。(7) 基于偏差的異常檢測(cè)Argrawal和Ragaran(KDD1995)提出一種"序列異常”(sequentialexception)的概念。給定n個(gè)對(duì)象的集合S,建立一個(gè)子集序列S1,S2,,Sm,對(duì)每個(gè)子集,確定該子集與前序子集的差異度的差。光滑因子最大的子集就是異常集。這個(gè)算法復(fù)雜度與數(shù)據(jù)
32、集大小呈線(xiàn)性關(guān)系,有優(yōu)異的計(jì)算性能。但是序列異常在對(duì)異常存在的假設(shè)太過(guò)理想化,對(duì)現(xiàn)實(shí)復(fù)雜數(shù)據(jù)效果不太好?;谄畹姆椒ㄖ校蛄挟惓z測(cè)算法提出的序列異常的概念并沒(méi)有得到普遍的認(rèn)同,序列異常在概念上仍然有一定缺陷,遺漏了不少的異常數(shù)據(jù)。(8) 上下文異常檢測(cè)檢測(cè)上下文異常需要在算法中考慮應(yīng)用的上下文場(chǎng)景,因此需要把數(shù)據(jù)實(shí)例的屬性細(xì)分為兩類(lèi),即上下文屬性和行為屬性。典型的上下文屬性包括空間位臵信息、時(shí)間標(biāo)簽和鄰居節(jié)點(diǎn)之間的連通性信息等描述應(yīng)用上下文場(chǎng)景的屬性,而行為屬性則包括用來(lái)描述被觀(guān)測(cè)對(duì)象的主要特征的屬性,例如溫度、濕度和降雨量等。上下文異常檢測(cè)方法大體分為兩類(lèi):一類(lèi)方法使用前面介紹的點(diǎn)異常檢
33、測(cè)方法,但要首先知道數(shù)據(jù)實(shí)例中的上下文屬性的取值,并考慮上下文屬性的不同取值對(duì)異常檢測(cè)算法的影響;另外一類(lèi)方法不需要量化的評(píng)估數(shù)據(jù)實(shí)例中的上下文屬性的不同取值對(duì)算法的影響,而是在一定的上下文場(chǎng)景中對(duì)訓(xùn)練數(shù)據(jù)集建模,然后利用此模型檢測(cè)測(cè)試數(shù)據(jù)集中的數(shù)據(jù)是否異常。2.4 異常數(shù)據(jù)修正方法簡(jiǎn)介常用的瞬時(shí)異常數(shù)據(jù)的修正方法是,參考該點(diǎn)前后的數(shù)據(jù),采用線(xiàn)性插值法或三階、多階平滑法的方式完成該數(shù)據(jù)點(diǎn)的修正,但這種方法無(wú)法適應(yīng)進(jìn)化(evolving)數(shù)據(jù)流在不同時(shí)刻具有不同波動(dòng)情況的特點(diǎn),在出現(xiàn)多個(gè)連續(xù)異常數(shù)據(jù)或數(shù)據(jù)值變化劇烈時(shí)修正的精度偏低。已有的文獻(xiàn)均未重點(diǎn)研究連續(xù)錯(cuò)誤數(shù)據(jù)的修復(fù)問(wèn)題。3 幾種典型改進(jìn)算
34、法及其應(yīng)用實(shí)例由于異常檢測(cè)問(wèn)題涉及很多領(lǐng)域,不同的問(wèn)題域有不同的問(wèn)題特征,所以沒(méi)有各領(lǐng)域通用的異常檢測(cè)技術(shù)。異常檢測(cè)技術(shù)的關(guān)鍵構(gòu)成包括學(xué)科領(lǐng)域、應(yīng)用領(lǐng)域、問(wèn)題特征和異常檢測(cè)算法。不同應(yīng)用領(lǐng)域的研究者,根據(jù)異常檢測(cè)問(wèn)題的特征,應(yīng)用數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)等不同學(xué)科領(lǐng)域的概念和技術(shù),設(shè)計(jì)了各種異常檢測(cè)算法。異常數(shù)據(jù)檢測(cè)的方法目前主要有統(tǒng)計(jì)、特征選擇、神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)挖掘、小波奇異性檢測(cè)等等,這些方法都有一個(gè)共同的缺點(diǎn)就是需要訓(xùn)練的數(shù)據(jù)量大,運(yùn)算代價(jià)高,對(duì)實(shí)時(shí)檢測(cè)有較大影響。3.1基于局部最大距離的異常數(shù)據(jù)檢測(cè)124 風(fēng)機(jī)基礎(chǔ)監(jiān)測(cè)異常數(shù)據(jù)的檢測(cè)和修正基于密度的局部異常數(shù)據(jù)挖掘方法雖然能夠有效地發(fā)現(xiàn)數(shù)
35、據(jù)集中的異常數(shù)據(jù),但是這些算法由于計(jì)算量相當(dāng)大因此僅適合靜態(tài)環(huán)境下的異常數(shù)據(jù)挖掘。在實(shí)際工程應(yīng)用領(lǐng)域,通常意義上是這樣一種數(shù)據(jù)庫(kù),它里面含有的數(shù)據(jù)量是隨著時(shí)間的增長(zhǎng)而動(dòng)態(tài)增加的,如一般的數(shù)據(jù)采集系統(tǒng)、在線(xiàn)數(shù)據(jù)監(jiān)測(cè)系統(tǒng)等。通常在這種大型數(shù)據(jù)庫(kù)系統(tǒng)中,數(shù)據(jù)倉(cāng)庫(kù)作為一種有價(jià)值的工具用來(lái)存放系統(tǒng)數(shù)據(jù),在絕大多數(shù)情況下,當(dāng)事物數(shù)據(jù)庫(kù)系統(tǒng)有數(shù)據(jù)增加時(shí),數(shù)據(jù)倉(cāng)庫(kù)并不是立即將新增的數(shù)據(jù)存入內(nèi)存中,而是在人為設(shè)定的一定時(shí)間后例如夜間或者其他空閑的時(shí)間內(nèi),以批量新增的方式將數(shù)據(jù)存入數(shù)據(jù)倉(cāng)庫(kù)中。因此,在這種數(shù)據(jù)批量增加的數(shù)據(jù)庫(kù)環(huán)境下,新增加的數(shù)據(jù)可能會(huì)影響原數(shù)據(jù)庫(kù)中的某些對(duì)象的局部異常程度,在進(jìn)行二次異常挖掘時(shí),需
36、要重新計(jì)算所有數(shù)據(jù)對(duì)象的局部異常因子,這樣計(jì)算量是很大的,因此在數(shù)據(jù)量成批增加的環(huán)境下,如何快速有效發(fā)現(xiàn)異常且避免大量的重復(fù)計(jì)算顯得尤為重要。然而,由于測(cè)量設(shè)備本身、數(shù)據(jù)傳輸或者人工操作等原因,可能使測(cè)量數(shù)據(jù)中包含某些錯(cuò)誤的信息。如果不將這些錯(cuò)誤的測(cè)量信息檢測(cè)并剔除掉,將給后續(xù)的數(shù)據(jù)處理帶來(lái)很大的誤差。目前,針對(duì)異常數(shù)據(jù)檢測(cè)問(wèn)題已經(jīng)提出過(guò)很多種方法,包括基于統(tǒng)計(jì)學(xué)的方法、基于最近鄰居的方法、基于分簇的方法、基于聚類(lèi)的方法等。這些方法在傳感器網(wǎng)絡(luò)的數(shù)據(jù)檢測(cè)中得到了廣泛的應(yīng)用。均值濾波及其改進(jìn)算法基于鄰近去最值均值濾波的原理,其次根據(jù)時(shí)間的連續(xù)等差變化特性對(duì)時(shí)間參數(shù)進(jìn)行了檢測(cè)修正,采用基于鄰近去最
37、值均值濾波方法對(duì)監(jiān)測(cè)數(shù)據(jù)進(jìn)行修正,最后利用實(shí)測(cè)數(shù)據(jù)進(jìn)行了驗(yàn)證。均值濾波算法是基于統(tǒng)計(jì)理論的一種能有效抑制噪聲的非線(xiàn)性信號(hào)處理技術(shù)。通常應(yīng)用于圖像處理中的平滑和去噪。其基本原理是對(duì)圖像中的每個(gè)合法像素點(diǎn)鄰域中的像素按照灰度級(jí)進(jìn)行排序,然后將該組的均值輸出作為該像素點(diǎn)的值。均值濾波定義如下:g(x,y)=meanf(s,t),s,tESxy式中:g(x,y)為(x,y)點(diǎn)的輸出值;f(s,t)為以(x,y)點(diǎn)為中心的鄰域內(nèi)(s,t)點(diǎn)的輸入值;Sxy為以(x,y)為中心的鄰域。鄰域類(lèi)型可以根據(jù)研究或者應(yīng)用需要選擇方形、一字形、十字形、X形等,鄰域大小一般可以選擇3x3,5x5。對(duì)本文數(shù)據(jù)類(lèi)型進(jìn)行均
38、值濾波,相當(dāng)于采用一字形窗口。均值濾波可以消除圖像中的椒鹽噪聲和突變點(diǎn),但是會(huì)改變圖像中的原始數(shù)據(jù)。基于鄰近去最值均值濾波是對(duì)均值濾波的改進(jìn),它對(duì)模板S內(nèi)的數(shù)據(jù)做了去最值修正處理,即在得到模板S內(nèi)的數(shù)據(jù)后,去除了其中的最大最小值(以f(s,t)表示),再進(jìn)行均值濾波。該濾波方法極大減小了由于異常點(diǎn)參與運(yùn)算而導(dǎo)致的濾波結(jié)果偏離真值的影響,但是同樣會(huì)改變?cè)紨?shù)據(jù)?;卩徑プ钪稻禐V波檢測(cè)濾波和檢測(cè)的目的不同,前者主要是對(duì)數(shù)據(jù)進(jìn)行去噪和平滑,而后者主要是在不修改原始數(shù)據(jù)的前提下找出數(shù)據(jù)中的異常點(diǎn)。因此,本文根據(jù)式(1)給出如下判別規(guī)則:|Af(x,y)|>3std(f(s,t)其中:Af(x
39、,y)=f(x,y)-mean(f(s,t)式中f(s,t)為去除模板內(nèi)數(shù)據(jù)的最大最小值的其他數(shù)據(jù)。若式成立,則(x,y)點(diǎn)為異常點(diǎn)。數(shù)據(jù)驅(qū)動(dòng)控制是指控制器不包含受控過(guò)程的數(shù)學(xué)模型信息,僅利用受控系統(tǒng)的在線(xiàn)和離線(xiàn)數(shù)據(jù)以及經(jīng)過(guò)數(shù)據(jù)處理而得到的知識(shí)來(lái)設(shè)計(jì)控制器,并在一定的假設(shè)下,有收斂性、穩(wěn)定性保障和魯棒性結(jié)論的控制理論和方法,是一種直接從數(shù)據(jù)到控制器設(shè)計(jì)的無(wú)模型控制理論和方法。目前,有關(guān)無(wú)模型控制國(guó)內(nèi)外已有一些標(biāo)志性的方法,例如,無(wú)模型自適應(yīng)控制(Model-FreeAdaptiveControl,MFAC)、迭代反饋整定(Itera-tiveFeedbackTuningIFT)、迭代學(xué)習(xí)控制(
40、IterativeLearningControl,ILC)等。其中MFAC作為一種典型的數(shù)據(jù)驅(qū)動(dòng)控制算法已經(jīng)在多個(gè)工業(yè)生產(chǎn)過(guò)程領(lǐng)域中取得成功應(yīng)用。理論證明、仿真研究和實(shí)際應(yīng)用均表明基于數(shù)據(jù)驅(qū)動(dòng)的無(wú)模型自適應(yīng)控制方法能夠處理非線(xiàn)性和時(shí)變線(xiàn)性系統(tǒng)的控制問(wèn)題。傳感器是指那些對(duì)被測(cè)對(duì)象的某一確定的信息具有感受(或響應(yīng))與檢出功能,并使之按照一定規(guī)律轉(zhuǎn)換成與之對(duì)應(yīng)的可輸出信號(hào)的元器件或裝臵的總稱(chēng)。傳感器一般被認(rèn)為由敏感元件、轉(zhuǎn)換元件、測(cè)量電路三部分組成。針對(duì)傳感器的工作原理和結(jié)構(gòu)在不同場(chǎng)合均需要的基本要求是:高靈敏度、抗干擾的穩(wěn)定性、容易調(diào)節(jié)、高精度、高可靠性、無(wú)遲滯性、工作壽命長(zhǎng)、高響應(yīng)速率等。傳感器
41、的主要作用有兩個(gè):其一是敏感作用,它感受被測(cè)量的變化,完成信號(hào)的拾?。黄涠亲儞Q作用,完成非電量到電量的轉(zhuǎn)換。根據(jù)傳感器應(yīng)用的對(duì)象、測(cè)量的范圍、周?chē)沫h(huán)境的不同,需要使用的傳感器大不相同。傳感器的分類(lèi)方法也較多。異常數(shù)據(jù)的產(chǎn)生主要有以下幾種原因:第一,不完美的數(shù)據(jù)采集設(shè)備、數(shù)據(jù)輸入有誤、數(shù)據(jù)傳輸錯(cuò)誤、測(cè)量單位混亂、靈敏度不夠等;第二,外界因素突變?cè)斐刹杉臄?shù)據(jù)異常;異常數(shù)據(jù)根據(jù)其性質(zhì)可以分為完全無(wú)用的噪聲數(shù)據(jù),如人為造成的數(shù)據(jù)缺失和數(shù)據(jù)錯(cuò)誤,和包含重要系統(tǒng)信息的異常數(shù)據(jù),如數(shù)據(jù)采集設(shè)備故障,外界因素突變等。其中找出包含數(shù)據(jù)采集設(shè)備故障信息的異常數(shù)據(jù)可以用于故障診斷,而找出蘊(yùn)涵外界因素突變信息的
42、異常數(shù)據(jù)可用于保障結(jié)構(gòu)安全,意義十分重大。異常數(shù)據(jù)存在對(duì)軟計(jì)算建模的影響,軟計(jì)算建模方法對(duì)于系統(tǒng)數(shù)據(jù)變化有較強(qiáng)的適應(yīng)能力,但這都是建立在系統(tǒng)數(shù)據(jù)比較清潔的基礎(chǔ)上的。當(dāng)系統(tǒng)數(shù)據(jù)存在異常數(shù)據(jù)時(shí),要兼顧異常數(shù)據(jù)的作用,其建模的精度會(huì)大幅度下降,模型性能并不能令人因此,異常數(shù)據(jù)并不是全是對(duì)數(shù)據(jù)分析完全無(wú)用的數(shù)據(jù)。那么,對(duì)于以上兩類(lèi)異常數(shù)據(jù)的分析就是我們所說(shuō)的異常數(shù)據(jù)檢測(cè)(outlierdetecting)。本文基于實(shí)例著重從數(shù)據(jù)采集設(shè)備異常數(shù)據(jù)檢測(cè)的角度來(lái)探討各種異常數(shù)據(jù)檢測(cè)方法的有效性和實(shí)用性。傳感器所采集的原始數(shù)據(jù)是某設(shè)定采樣頻率下采集的與某時(shí)間序列相對(duì)應(yīng)的數(shù)據(jù),故原始采集數(shù)據(jù)可視為時(shí)間序列數(shù)據(jù),
43、其處理流程如圖2-1所示。對(duì)于原始采集數(shù)據(jù),由于環(huán)境噪聲、儀器設(shè)備等原因,在長(zhǎng)時(shí)間的連續(xù)采集中不可避免的會(huì)出現(xiàn)異常數(shù)據(jù),因此監(jiān)測(cè)數(shù)據(jù)處理流程的第一步就是進(jìn)行數(shù)據(jù)可靠性檢驗(yàn),分析數(shù)據(jù)異常原因,將可靠數(shù)據(jù)與異常數(shù)據(jù)分開(kāi)保存。對(duì)于經(jīng)過(guò)可靠性檢驗(yàn)后的原始采集數(shù)據(jù),根據(jù)采集數(shù)據(jù)類(lèi)型的不同,將分別在時(shí)域和頻域內(nèi)進(jìn)行處理分析。時(shí)域分析具有直觀(guān)和準(zhǔn)確的優(yōu)點(diǎn),可直接在時(shí)間域內(nèi)對(duì)時(shí)間序列數(shù)據(jù)進(jìn)行處理分析,能夠便利的表達(dá)數(shù)據(jù)變化趨勢(shì)以及特征值,比較適合例如應(yīng)力、應(yīng)變、位移等監(jiān)測(cè)數(shù)據(jù)的處理。頻域分析通過(guò)圖解分析法分析數(shù)據(jù)在頻域內(nèi)的能量分布來(lái)獲取特征參數(shù),比較適合例如風(fēng)機(jī)振動(dòng)等監(jiān)測(cè)數(shù)據(jù)的處理。傳感器類(lèi)型為振弦傳感器由于
44、傳感器系統(tǒng)中的振弦式傳感器是通過(guò)熱敏電阻來(lái)測(cè)量溫度值的,因此數(shù)據(jù)采集與傳輸系統(tǒng)中通用振弦采集儀采集與輸出的原始數(shù)據(jù)亦為電阻值,在應(yīng)力數(shù)據(jù)處理與分析子系統(tǒng)中需要對(duì)輸出的溫度值進(jìn)行二次加工處理,轉(zhuǎn)換為溫度值。振弦式傳感器是利用被測(cè)結(jié)構(gòu)物的應(yīng)變與振弦頻率之間的關(guān)系來(lái)測(cè)量應(yīng)變的,數(shù)據(jù)采集與傳輸系統(tǒng)輸出的頻率值,通過(guò)一定的轉(zhuǎn)換可得到結(jié)構(gòu)應(yīng)變?cè)隽?,具體公式為y&=CxK(fl2-f02)式中4卩&為微應(yīng)變?cè)隽?;C為振弦式傳感器平均修正系數(shù)(取值由商家提供);K為振弦式傳感器標(biāo)準(zhǔn)系數(shù)(取值由商家提供);fl為本次測(cè)試頻率讀數(shù)(單位:Hz);f0為上次測(cè)試頻率讀數(shù)(單位:Hz)。經(jīng)過(guò)長(zhǎng)時(shí)間分析應(yīng)力數(shù)據(jù)的異?,F(xiàn)象,可以把異常數(shù)據(jù)按照產(chǎn)生原因分為兩類(lèi)。一類(lèi):由于自然界的強(qiáng)干擾產(chǎn)生的,如雷電。這類(lèi)異常數(shù)據(jù)的特點(diǎn)是跳躍非常大;另一類(lèi):由于傳感器采集傳輸系統(tǒng)中某環(huán)節(jié)偶爾的工作不穩(wěn)定產(chǎn)生的,這類(lèi)異常數(shù)據(jù)的特點(diǎn)是跳躍較小。
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024新款:基于物聯(lián)網(wǎng)的智能農(nóng)業(yè)解決方案合同
- 2024年股東股權(quán)買(mǎi)賣(mài)合同:權(quán)益轉(zhuǎn)讓協(xié)議模板
- 2024標(biāo)磚采購(gòu)簡(jiǎn)單合同
- B2B電子商務(wù)2024年購(gòu)銷(xiāo)協(xié)議2篇
- 2025年度建筑工程安全生產(chǎn)責(zé)任合同實(shí)施細(xì)則3篇
- 2024年版:石油化工產(chǎn)品采購(gòu)與銷(xiāo)售合同
- 2024民間融資居間合同(含應(yīng)急預(yù)案)范本2篇
- 2025年度土壤污染防治與修復(fù)工程合同3篇
- 2024年牧草種子供應(yīng)鏈合作合同書(shū)
- 自行車(chē)動(dòng)力知識(shí)培訓(xùn)課件
- 2024政務(wù)服務(wù)綜合窗口人員能力與服務(wù)規(guī)范考試試題
- JT∕T 1477-2023 系列2集裝箱 角件
- 《陸上風(fēng)電場(chǎng)工程設(shè)計(jì)概算編制規(guī)定及費(fèi)用標(biāo)準(zhǔn)》(NB-T 31011-2019)
- 陜西省商洛市各縣區(qū)鄉(xiāng)鎮(zhèn)行政村村莊村名居民村民委員會(huì)明細(xì)
- 幼兒園“值日生”工作開(kāi)展論文
- 實(shí)習(xí)生請(qǐng)假條
- 光伏電站繼電保護(hù)運(yùn)行規(guī)程
- 承兌匯票臺(tái)帳模版
- 地下管道頂管施工方案(非常全)
- 有色金屬工業(yè)安裝工程質(zhì)量檢驗(yàn)評(píng)定標(biāo)準(zhǔn)(共1004頁(yè))
- 資料員崗位培訓(xùn)ppt課件(PPT 36頁(yè))
評(píng)論
0/150
提交評(píng)論