異常數(shù)據(jù)的修正算法

上傳人：s*** IP屬地：天津上傳時(shí)間：2022-05-08 格式：DOCX 頁數(shù)：12 大小：32.35KB 積分：18 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩7頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、異常數(shù)據(jù)處理方法研究1 異常數(shù)據(jù)處理概述1.1 研究背景近年來，隨著海上風(fēng)力發(fā)電技術(shù)的日益成熟和陸上風(fēng)電可開發(fā)資源的不斷減少，海上風(fēng)電尤其是近海風(fēng)電的開發(fā)開始加速。風(fēng)機(jī)是海上風(fēng)電開發(fā)的主要形式，而風(fēng)機(jī)基礎(chǔ)結(jié)構(gòu)承擔(dān)著抵抗海上風(fēng)機(jī)結(jié)構(gòu)的豎向、水平荷載和傾覆力矩的作用，其質(zhì)量關(guān)系到海上風(fēng)機(jī)結(jié)構(gòu)的運(yùn)行安全。作為隱蔽工程，其健康狀況受到了社會(huì)各界的高度重視，如何對風(fēng)機(jī)基礎(chǔ)特別是MW級風(fēng)機(jī)基礎(chǔ)的安全運(yùn)行狀況監(jiān)測成為研究領(lǐng)域的熱點(diǎn)。現(xiàn)有的監(jiān)測技術(shù)需要通過設(shè)臵在風(fēng)機(jī)基礎(chǔ)中的數(shù)據(jù)采集系統(tǒng)自動(dòng)獲取基礎(chǔ)的各狀態(tài)的大量參數(shù)，如應(yīng)力、應(yīng)變、振動(dòng)、變形等，采集到的海量原始數(shù)據(jù)通過通信網(wǎng)絡(luò)傳輸?shù)奖O(jiān)控中心，經(jīng)過數(shù)據(jù)存儲(chǔ)，分析

2、處理得到基礎(chǔ)的安全運(yùn)行狀況和維修決策等結(jié)論。風(fēng)機(jī)基礎(chǔ)監(jiān)測系統(tǒng)是集結(jié)構(gòu)監(jiān)測、系統(tǒng)識(shí)別及結(jié)構(gòu)評估于一體的綜合監(jiān)測系統(tǒng)，其內(nèi)容包括幾何變形監(jiān)測、結(jié)構(gòu)響應(yīng)(應(yīng)力、應(yīng)變及振動(dòng))監(jiān)測等。監(jiān)測系統(tǒng)的質(zhì)量主要取決于三方面因素:(1)傳感器的靈敏性和精度以及數(shù)據(jù)傳輸和采集設(shè)備的性能；(2)測點(diǎn)的空間分布，即傳感器的最優(yōu)布臵問題；(3)異常數(shù)據(jù)的分析處理。從目前電子技術(shù)的發(fā)展來看，成熟、穩(wěn)定、高性能的傳感器已經(jīng)被應(yīng)用與監(jiān)測系統(tǒng)中，而且合理安排傳感器位臵，以達(dá)到信息采集的最優(yōu)化，也已經(jīng)有很多研究成果。但由于監(jiān)測信息格式復(fù)雜、信息量大，每天數(shù)據(jù)量甚至能達(dá)到十幾GB,如果不能有效地對這些數(shù)據(jù)進(jìn)行處理，很多異常數(shù)據(jù)將不能

3、有效辨識(shí)，缺失信息將不能有效彌補(bǔ)，而且監(jiān)測數(shù)據(jù)的分析必須建立在準(zhǔn)確有效的監(jiān)測數(shù)據(jù)之上，低精度和異常的監(jiān)測數(shù)據(jù)常常影響數(shù)值分析的結(jié)果，會(huì)影響到系統(tǒng)的功能與特性分析，給后續(xù)數(shù)據(jù)處理帶來很大的誤差，正常信息不能得到有效利用，故有必要對原始采集數(shù)據(jù)進(jìn)行處理。因此監(jiān)測異常數(shù)據(jù)處理是三方面中至關(guān)重要的一點(diǎn)。監(jiān)測系統(tǒng)異常數(shù)據(jù)處理包含兩個(gè)方面的內(nèi)容：(1)異常數(shù)據(jù)檢測，即找出異常信息并確定異常信息所在位臵，根據(jù)需要將異常數(shù)據(jù)保存入專門數(shù)據(jù)庫中或直接進(jìn)行剔除；(2)異常數(shù)據(jù)修正，即通過插值等方法，參考數(shù)據(jù)異常點(diǎn)前后的數(shù)據(jù)，完成該異常數(shù)據(jù)點(diǎn)的修正，確保采集信息不缺失，保持原始采集數(shù)據(jù)的連續(xù)性。異常是一個(gè)復(fù)雜的概念

4、，迄今為止還沒有一個(gè)統(tǒng)一定義。Hawkins提出的異常定義被大多數(shù)人所接受，其定義為：異常是在數(shù)據(jù)集中與眾不同的數(shù)據(jù)，使人們懷疑這些數(shù)據(jù)并非隨機(jī)產(chǎn)生的，而是產(chǎn)生于完全不同的機(jī)制。異常數(shù)據(jù)往往代表一種偏差或者新模式的開始，因此對異常數(shù)據(jù)的識(shí)別有時(shí)會(huì)比正常數(shù)據(jù)更有價(jià)值。傳感器異常數(shù)據(jù)是指在數(shù)據(jù)集中與大部分?jǐn)?shù)據(jù)不一致或者偏離正常行為模式的數(shù)據(jù)。異常數(shù)據(jù)的產(chǎn)生主要是因?yàn)橐韵聨追N情況而發(fā)生的：(1) 數(shù)據(jù)來源中的異常，這類異常中可能隱藏著重要的知識(shí)或規(guī)律。對這類異常分析可以獲取常規(guī)數(shù)據(jù)不能得到的新的信息，如基礎(chǔ)結(jié)構(gòu)損壞等；(2)數(shù)據(jù)固有變化異常，這類異常通常是自然發(fā)生的，如風(fēng)速的變化、波浪波動(dòng)等；(3)

5、數(shù)據(jù)測量誤差，這類異常的產(chǎn)生往往是因?yàn)闇y量儀器故障或者網(wǎng)絡(luò)傳輸錯(cuò)誤，以及噪音的存在引起的，這類異常通常作為噪聲而被刪除。與其他工程相比，風(fēng)機(jī)基礎(chǔ)安全狀況監(jiān)測發(fā)展較為滯后，尚未發(fā)現(xiàn)關(guān)于風(fēng)機(jī)基礎(chǔ)監(jiān)測數(shù)據(jù)處理的相關(guān)研究成果，其監(jiān)測異常數(shù)據(jù)的處理缺乏相應(yīng)的經(jīng)驗(yàn)?？梢越梃b類似工程監(jiān)測數(shù)據(jù)處理的方法進(jìn)行研究。而針對監(jiān)測數(shù)據(jù)的種類多、數(shù)據(jù)海量、頻幅分布廣等特點(diǎn)，國內(nèi)學(xué)者已經(jīng)研究了很多處理辦法。其中研究較多的如小波分析、數(shù)據(jù)挖掘、數(shù)據(jù)流理論等。然而，目前的類似工程監(jiān)測數(shù)據(jù)處理的方法主要是在離線數(shù)據(jù)的基礎(chǔ)上，在實(shí)時(shí)監(jiān)控上還缺乏相應(yīng)的準(zhǔn)確率和智能化。結(jié)合風(fēng)機(jī)基礎(chǔ)特點(diǎn)，尋找一種有效的適用于風(fēng)機(jī)基礎(chǔ)監(jiān)測實(shí)時(shí)數(shù)據(jù)處理的

6、方法具有十分重要的研究意義和實(shí)用價(jià)值。1.2 國內(nèi)外研究現(xiàn)狀綜述在國外，研究人員通過對異常挖掘的深入研究，根據(jù)對異常存在形式的不同假設(shè)，提出了許多異常數(shù)據(jù)檢測算法。早期的異常數(shù)據(jù)檢測方法是基于統(tǒng)計(jì)的方法，這種方法依賴于數(shù)據(jù)集服從某種標(biāo)準(zhǔn)分布，所以異常數(shù)據(jù)是基于概率分布來定義的，如Yamanishi等人將正常行為用一個(gè)高斯混合模型來進(jìn)行描述，通過計(jì)算數(shù)據(jù)對象與這個(gè)模型的偏離程度來發(fā)現(xiàn)異常。雖然這種基于標(biāo)準(zhǔn)分布的模型，能識(shí)別異常現(xiàn)象，但此類方法有很大的局限性，因?yàn)橥鶡o法預(yù)知數(shù)據(jù)集是服從哪類標(biāo)準(zhǔn)分布。為了克服這種缺陷，JamesP.R、DanielB.等在概率論H假設(shè)檢驗(yàn)方法的理論基礎(chǔ)上，提出了一

7、種基于某臵信度區(qū)間標(biāo)準(zhǔn)的異常檢測方法，達(dá)到這個(gè)標(biāo)準(zhǔn)的則為正常數(shù)據(jù)，反之則為異常。Knorr等人于1998年提出了基于距離的異常數(shù)據(jù)檢測算法，他們認(rèn)為數(shù)據(jù)是高維空間中的點(diǎn)，異常數(shù)據(jù)被定義為數(shù)據(jù)集中與大多數(shù)點(diǎn)之間的距離大于某個(gè)事先設(shè)定的閾值的數(shù)據(jù)。F.Abgiulli和C.Pizzuti等學(xué)者針對基于距離的異常數(shù)據(jù)挖掘算法在高維數(shù)據(jù)中計(jì)算時(shí)間較長的缺點(diǎn)，將圖論中的連通性原理引入到數(shù)據(jù)之間距離的計(jì)算上，極大地降低了計(jì)算時(shí)間復(fù)雜度。Arning等人提出了基于偏離的方法，這種方法認(rèn)為：某個(gè)數(shù)據(jù)對象在數(shù)據(jù)集中的特征明顯“偏離”數(shù)據(jù)集中的其它數(shù)據(jù)時(shí)，這樣的數(shù)據(jù)被認(rèn)為是異常數(shù)據(jù)。BirantD等提出了一種任意

8、形狀的聚類算法并將其應(yīng)用于異常挖掘中，該算法可以依據(jù)數(shù)據(jù)的非空間屬性、空間屬性和時(shí)態(tài)屬性來發(fā)現(xiàn)聚類簇和異常數(shù)據(jù)對象。Breuning等學(xué)者定義了局部異常因子的概念，提出了一種基于密度的局部異常點(diǎn)挖掘算法，它是用局部異常因子LOF(LocalOutlierFactor)表征數(shù)據(jù)對象與它的鄰居對象的偏離程度，LOF越大則認(rèn)為該點(diǎn)是異常數(shù)據(jù)的可能性越大。ToWel等人在分析神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上，根據(jù)神經(jīng)網(wǎng)絡(luò)的理論提出了基于神經(jīng)網(wǎng)絡(luò)的異常數(shù)據(jù)挖掘算法。最近提出的比較流行的異常數(shù)據(jù)挖掘算法是基于核的分類方法，主要思想是將輸入的數(shù)據(jù)通過關(guān)系函數(shù)映射到一個(gè)高維特征空間，通過高維空間的分類超平面，就可以建立一個(gè)簡

9、單的分類模型，從而區(qū)分正?；虍惓?shù)據(jù)。國內(nèi)對異常數(shù)據(jù)挖掘的研究起步較晚，但是近年來在理論研究方面已經(jīng)取得了許多研究成果。林士敏對基于距離的異常數(shù)據(jù)挖掘算法作了改進(jìn)，提出了基于抽樣的近似檢測算法；金義富等在Knorr觀點(diǎn)的基礎(chǔ)上，提出了一種異常約簡算法ORDA,該算法以粗糙集理論的屬性約簡技術(shù)為基礎(chǔ)，提出了異常數(shù)據(jù)劃分和異常約簡思想，以及異常數(shù)據(jù)關(guān)鍵屬性域子空間的分析方法，這種方法可以對挖掘出的異常數(shù)據(jù)進(jìn)行有效的分析和解釋；重慶大學(xué)的鄧玉潔，朱慶生提出了基于聚類的異常數(shù)據(jù)挖掘方法，該方法將離群數(shù)據(jù)在分類討論的基礎(chǔ)上，定義了平凡離群數(shù)據(jù)、非平凡離群數(shù)據(jù)以及噪聲數(shù)據(jù)，然后引入離群屬性和離群聚類簇的概

10、念，在此基礎(chǔ)上，以現(xiàn)有的異常數(shù)據(jù)挖掘技術(shù)為基礎(chǔ)，實(shí)現(xiàn)了離群數(shù)據(jù)的發(fā)現(xiàn)。田江在一類支持向量機(jī)的基礎(chǔ)上，設(shè)計(jì)了一種“孤立點(diǎn)類支持向量機(jī)”算法，該算法是一種無監(jiān)督的異常數(shù)據(jù)檢測算法，通過設(shè)定不同的權(quán)值，將基于超平面距離定義的異常數(shù)據(jù)的異常程度和基于概率大小定義的異常程度相結(jié)合，通過在特征空間劃分距離可疑異常數(shù)據(jù)的最大間隔超平面來發(fā)現(xiàn)異常。綜上所述，國內(nèi)外針對異常數(shù)據(jù)產(chǎn)生的原因以及應(yīng)用領(lǐng)域的不同提出了許多異常數(shù)據(jù)檢測算法。大量研究發(fā)現(xiàn)，基于密度的局部異常數(shù)據(jù)挖掘算法能夠發(fā)現(xiàn)其它的異常數(shù)據(jù)挖掘算法不能發(fā)現(xiàn)的異常，即“局部”異常，它更加符合Hawkins對異常數(shù)據(jù)的定義。Breunig等人提出了局部異常因

11、子(LocalOutlierFactor，LOF)的概念，通過它來表征一個(gè)數(shù)據(jù)對象的局部異常程度，LOF算法出現(xiàn)后，出現(xiàn)了很多局部異常程度的度量算法。這些算法適用于靜態(tài)環(huán)境下的數(shù)據(jù)庫，但在工程應(yīng)用領(lǐng)域，大部分?jǐn)?shù)據(jù)庫中的數(shù)據(jù)是隨時(shí)間動(dòng)態(tài)增加的，新增加的數(shù)據(jù)可能會(huì)影響某些對象的局部異常程度，因此在二次挖掘時(shí)，需重新計(jì)算所有數(shù)據(jù)對象的局部異常因子，計(jì)算時(shí)間復(fù)雜度較高，所以這些算法在動(dòng)態(tài)環(huán)境中不易實(shí)現(xiàn)。因此，如何在動(dòng)態(tài)環(huán)境中提高基于密度的異常數(shù)據(jù)挖掘算法的時(shí)間效率避免大量的重復(fù)計(jì)算顯得尤為重要。1.3 研究目的和意義本項(xiàng)研究的目的在于結(jié)合風(fēng)機(jī)基礎(chǔ)特點(diǎn)，在傳統(tǒng)異常數(shù)據(jù)處理方法基礎(chǔ)上，研究一種有效的適用于

12、風(fēng)機(jī)基礎(chǔ)監(jiān)測實(shí)時(shí)數(shù)據(jù)處理的方法，該方法能夠在線辨識(shí)異常監(jiān)測數(shù)據(jù)并保存，且能夠自動(dòng)修復(fù)原數(shù)據(jù)集，保持器連續(xù)性。本研究的意義在于：(1) 實(shí)現(xiàn)異常數(shù)據(jù)在線檢測與修正。目前的監(jiān)測數(shù)據(jù)處理方法主要是在離線數(shù)據(jù)的基礎(chǔ)上，在實(shí)時(shí)監(jiān)控上還缺乏相應(yīng)的準(zhǔn)確率和智能化。本研究實(shí)現(xiàn)了異常數(shù)據(jù)在線檢測與修正，與傳統(tǒng)的異常數(shù)據(jù)識(shí)別方法相比，具有更快的計(jì)算時(shí)間和更高的還原精度，能夠滿足數(shù)據(jù)的在線異常檢測與修正要求(2) 實(shí)時(shí)發(fā)現(xiàn)異常狀況并采取必要處理措施。對于實(shí)時(shí)檢測出的異常數(shù)據(jù)進(jìn)行分析，尋找異常事件原因，并根據(jù)產(chǎn)生原因采取應(yīng)有的處理方式。對于傳感器故障或執(zhí)行錯(cuò)誤導(dǎo)致數(shù)據(jù)異常情況，應(yīng)進(jìn)行剔除處理；有些異常數(shù)據(jù)是數(shù)據(jù)變異產(chǎn)

13、生的結(jié)果，如對于基礎(chǔ)結(jié)構(gòu)監(jiān)測，發(fā)生異常工況或結(jié)構(gòu)損壞在一段時(shí)間往往會(huì)出現(xiàn)前兆，導(dǎo)致數(shù)據(jù)異常，如果能夠及時(shí)捕捉到異常狀況的發(fā)生并采取相應(yīng)措施，則能防患于未然，保證結(jié)構(gòu)安全。(3) 提高和完善監(jiān)測結(jié)果準(zhǔn)確性，為后續(xù)研究奠定基礎(chǔ)。監(jiān)測結(jié)果的準(zhǔn)確性建立在高質(zhì)量的監(jiān)測數(shù)據(jù)之上，如果不能有效地辨識(shí)與處理異常數(shù)據(jù)，低精度和異常的監(jiān)測數(shù)據(jù)混入正常數(shù)據(jù)集中，會(huì)對監(jiān)測系統(tǒng)的功能與特性分析產(chǎn)生重大影響，給后續(xù)數(shù)據(jù)處理帶來很大的誤差，正常數(shù)據(jù)信息不能有效用于后續(xù)的相關(guān)研究，利用數(shù)據(jù)研究得到的結(jié)論與實(shí)際可能存在較大誤差。1.4 主要研究內(nèi)容本研究主要包括以下3部分內(nèi)容：(1) 對常用異常數(shù)據(jù)檢測與修正方法簡要介紹，介紹

14、了常用的數(shù)據(jù)預(yù)處理技術(shù)及異常數(shù)據(jù)檢測問題的重要特征，對常用異常數(shù)據(jù)檢測及修正算法進(jìn)行了描述和討論，分析了各種算法的優(yōu)缺點(diǎn)和適用場景。(2) 幾種典型改進(jìn)算法及其工程應(yīng)用實(shí)例進(jìn)行分析，。(3) 風(fēng)機(jī)基礎(chǔ)監(jiān)測異常數(shù)據(jù)的檢測和修正。2 異常數(shù)據(jù)檢測與修正方法異常數(shù)據(jù)檢測問題通常包括四個(gè)過程：第一是數(shù)據(jù)的預(yù)處理，即通過數(shù)字濾波方法去除一些干擾；第二是異常數(shù)據(jù)的定義，即在數(shù)據(jù)集中表現(xiàn)出怎樣的行為或者模式的數(shù)據(jù)稱為異常數(shù)據(jù)；第三是選擇合適的能夠有效發(fā)現(xiàn)異常數(shù)據(jù)的算法，異常數(shù)據(jù)表現(xiàn)行為不同，異常數(shù)據(jù)挖掘算法結(jié)果也會(huì)有所差異；第四是異常數(shù)據(jù)的修正，即通過異常挖掘?qū)惓?shù)據(jù)挖掘出來后，對這部分?jǐn)?shù)據(jù)按照原有模式規(guī)

15、則進(jìn)行修正，確保采集信息不缺失，保持采集數(shù)據(jù)時(shí)間序列上的連續(xù)性。本章介紹了常用的數(shù)據(jù)預(yù)處理技術(shù)及異常數(shù)據(jù)檢測問題的重要特征，對常用異常數(shù)據(jù)檢測及修正算法進(jìn)行了描述和討論，分析了各種算法的優(yōu)缺點(diǎn)和適用場景。2.1 數(shù)據(jù)預(yù)處理技術(shù)數(shù)據(jù)是通過各種類型的監(jiān)測傳感器獲取的，數(shù)據(jù)是一種通過間接方法取得事物狀態(tài)的技術(shù)，如將結(jié)構(gòu)相應(yīng)等參數(shù)通過一定的轉(zhuǎn)換技術(shù)轉(zhuǎn)變?yōu)殡娦盘?，然后再將電信號轉(zhuǎn)換為數(shù)字化的數(shù)據(jù)。由于傳感器安裝環(huán)境的不穩(wěn)定和數(shù)據(jù)轉(zhuǎn)換過程摻雜少量的噪聲數(shù)據(jù)等各方面因素的影響，得到的數(shù)據(jù)會(huì)受到一定干擾，影響了最終數(shù)據(jù)的準(zhǔn)確性。為了減小噪聲對數(shù)據(jù)結(jié)果的影響，除了采用更加科學(xué)的采樣技術(shù)外，還需要采用一些必要的技

16、術(shù)手段對原始數(shù)據(jù)進(jìn)行整理、統(tǒng)計(jì)，數(shù)字濾波技術(shù)是最基本的處理方法，它可以消弱數(shù)據(jù)中的噪聲，提高數(shù)據(jù)的代表性。均值濾波是最常用的數(shù)字濾波方法，是對采樣序列中的數(shù)據(jù)求和后，再取其平均值作為結(jié)果。雖然這種方法可以達(dá)到濾波的目的，但是如果采樣數(shù)據(jù)中的噪聲數(shù)據(jù)過大或過小，都會(huì)對處理結(jié)果產(chǎn)生影響。中值濾波是對采樣序列按大小排序形成有序列，取有序列的中間值作為結(jié)果。排序算法一般采用“冒泡排序法”或“快速排序法”等。眾數(shù)是數(shù)理統(tǒng)計(jì)中常用的一種數(shù)據(jù)處理辦法，它要求對大量的數(shù)據(jù)進(jìn)行處理，眾數(shù)濾波的原理是在采樣序列中找出最大值Tmax和最小值Tmin，再在區(qū)間上平均分為m組(5T0組)，確定完分組后，對序列統(tǒng)計(jì)各組區(qū)

17、間內(nèi)數(shù)據(jù)的個(gè)數(shù)，形成統(tǒng)計(jì)序列，查找其最大的值即眾數(shù)組序號k，根據(jù)相應(yīng)公式計(jì)算眾數(shù)的近似值。以前由于計(jì)算機(jī)的采樣速度和計(jì)算機(jī)速度較慢，處理周期較長，所以一直沒有采用，隨著計(jì)算機(jī)運(yùn)算速度的提高及高速采集模塊的采用，現(xiàn)在處理周期已縮短到1秒以內(nèi)，由于眾數(shù)濾波的數(shù)據(jù)代表性較其它處理方法更強(qiáng)，所以逐步被采用。為了提高濾波的效果，盡量減少噪聲數(shù)據(jù)對結(jié)果的影響，可將兩種或兩種以上的濾波算法結(jié)合在一起使用。如對于采集的數(shù)據(jù)量比較大的環(huán)境參數(shù)，為了達(dá)到更好的濾波效果，可以選用眾數(shù)濾波和均值濾波結(jié)合的復(fù)合濾波方法。2.2 異常數(shù)據(jù)問題的重要特征異常數(shù)據(jù)問題的重要特征可以概括為四個(gè)方面，即數(shù)據(jù)特性、異常類型、數(shù)據(jù)標(biāo)

18、簽和輸出類型。數(shù)據(jù)特性異常檢測算法的輸入一般是數(shù)據(jù)實(shí)例的集合。每個(gè)數(shù)據(jù)實(shí)例用一個(gè)或若干個(gè)屬性及其取值來描述，每個(gè)屬性的取值可能為二進(jìn)制、分類或連續(xù)變量的形式。屬性的表示方式不同，適用的異常檢測算法也不同。例如，如果使用統(tǒng)計(jì)學(xué)的技術(shù)檢測異常，分類和連續(xù)取值的數(shù)據(jù)需要使用不同的統(tǒng)計(jì)模型。按數(shù)據(jù)實(shí)例之間的關(guān)系，數(shù)據(jù)可以分為順序數(shù)據(jù)和空間數(shù)據(jù)。順序數(shù)據(jù)的數(shù)據(jù)實(shí)例之間有一定的先后次序，其典型實(shí)例包括時(shí)間序列數(shù)據(jù)、基因組序列和蛋白質(zhì)序列等?？臻g數(shù)據(jù)的各個(gè)數(shù)據(jù)實(shí)例之間有一定的相對位臵關(guān)系。數(shù)據(jù)實(shí)例之間的關(guān)系對異常檢測算法的設(shè)計(jì)有重要影響。(2) 異常類型數(shù)據(jù)異常可以分為三類:點(diǎn)異常、上下文異常和集合異常。如

19、果某個(gè)單個(gè)的數(shù)據(jù)實(shí)例被認(rèn)為是異常值，則該數(shù)據(jù)實(shí)例就被標(biāo)記為點(diǎn)異常。點(diǎn)異常是最簡單的一類異常，也是與異常檢測相關(guān)的文獻(xiàn)中討論最多的一類異常。如果某個(gè)數(shù)據(jù)實(shí)例只在特定的場合或環(huán)境下被認(rèn)為是異常值，則該數(shù)據(jù)實(shí)例就被標(biāo)記為上下文異常。一個(gè)典型的例子就是野外環(huán)境的溫度監(jiān)控，溫度報(bào)警閡值的設(shè)定要根據(jù)當(dāng)前季節(jié)的大氣溫度變化范圍和一天中的時(shí)間確定。集合異常是包含多個(gè)相關(guān)的數(shù)據(jù)實(shí)例的異常，是多個(gè)數(shù)據(jù)實(shí)例的集合。集合中單一數(shù)據(jù)實(shí)例不被認(rèn)為是異常，但這些數(shù)據(jù)實(shí)例同時(shí)出現(xiàn)就構(gòu)成了集合異常。(3) 數(shù)據(jù)標(biāo)記對于點(diǎn)異常檢測，每個(gè)數(shù)據(jù)實(shí)例都可以有一個(gè)分類標(biāo)記，用來標(biāo)記該數(shù)據(jù)實(shí)例是否正常或異常。給數(shù)據(jù)實(shí)例做標(biāo)記的工作一般由領(lǐng)

20、域?qū)＜襾硗瓿?，被?biāo)記的數(shù)據(jù)實(shí)例的集合稱為訓(xùn)練數(shù)據(jù)集(trainingdataset)。根據(jù)數(shù)據(jù)實(shí)例被標(biāo)記的情況，異常數(shù)據(jù)檢測技術(shù)可分為以下三類：有監(jiān)督(supervised)異常檢測，半監(jiān)督(semisupervised)異常檢測和無監(jiān)督(unsupervised)異常檢測。對于有監(jiān)督異常檢測，訓(xùn)練數(shù)據(jù)集存在，且其中既包括標(biāo)記為正常的數(shù)據(jù)實(shí)例，也包括標(biāo)記為異常的數(shù)據(jù)實(shí)例。利用訓(xùn)練數(shù)據(jù)集構(gòu)造一個(gè)分類預(yù)測模型，把標(biāo)記未知的數(shù)據(jù)實(shí)例輸入該模型，根據(jù)模型輸出判斷該數(shù)據(jù)實(shí)例是否異常。對于半監(jiān)督異常檢測，訓(xùn)練數(shù)據(jù)集存在，且其中只包括標(biāo)記為正常的數(shù)據(jù)實(shí)例。利用訓(xùn)練數(shù)據(jù)集構(gòu)造一個(gè)預(yù)測模型，把標(biāo)記未知的數(shù)據(jù)實(shí)例

21、輸入該模型，根據(jù)模型輸出判斷該數(shù)據(jù)實(shí)例是否能屬于正常分類，不屬于任何正常分類的數(shù)據(jù)實(shí)例一律標(biāo)記為異常。對于無監(jiān)督異常檢測，不需要訓(xùn)練數(shù)據(jù)集，但需要假設(shè)正常的數(shù)據(jù)實(shí)例在數(shù)量上要遠(yuǎn)遠(yuǎn)多于異常數(shù)據(jù)實(shí)例。(4) 輸出類型異常檢測算法有兩類典型的輸出:分值(score)和標(biāo)記(label)。前一類算法依據(jù)一定的標(biāo)準(zhǔn)，給訓(xùn)練數(shù)據(jù)集中的每個(gè)數(shù)據(jù)對象(即數(shù)據(jù)實(shí)例或構(gòu)成集合異常的數(shù)據(jù)實(shí)例的集合)標(biāo)記一個(gè)分值，并且輸出一個(gè)按分值排序的可能的異常數(shù)據(jù)對象列表。領(lǐng)域?qū)＜铱梢栽诖嘶A(chǔ)上最終確定異常數(shù)據(jù)對象。后一類算法直接把每一個(gè)數(shù)據(jù)對象標(biāo)記為正常或異常，不需要領(lǐng)域?qū)＜业闹苯訁⑴c。2.3 異常數(shù)據(jù)檢測方法隨著對異常挖掘研

22、究的深入，對應(yīng)于不同的應(yīng)用領(lǐng)域出現(xiàn)了許多異常數(shù)檢測方法，參考大量研究成果，本節(jié)簡要介紹了常用的八種異常檢測算法的基本技術(shù)思路及部分方法的優(yōu)缺點(diǎn)。前面七類主要是針對點(diǎn)異常檢測做的歸納，但這些檢測算法也經(jīng)常適用于集合異常的檢測，最后一類是討論上下文異常的檢測。(1) 基于分類的異常檢測基于分類的異常檢測基本都是分為兩個(gè)階段，即訓(xùn)練階段和檢測階段。在訓(xùn)練階段，算法利用訓(xùn)練數(shù)據(jù)集中的數(shù)據(jù)對象，構(gòu)造分類器模型。在檢測階段，測試數(shù)據(jù)集中的數(shù)據(jù)對象被輸入分類器，根據(jù)分類的結(jié)果判斷是否是異常數(shù)據(jù)。分類器可以基于規(guī)則、神經(jīng)網(wǎng)絡(luò)、貝葉斯網(wǎng)絡(luò)和支持向量機(jī)等技術(shù)來實(shí)現(xiàn)。按照訓(xùn)練樣本有標(biāo)記種類個(gè)數(shù)的不同，基于分類的方法

23、分為有監(jiān)督的方法和半監(jiān)督的方法?；诒O(jiān)督學(xué)習(xí)的分類方法最常用的方法是基于支持向量機(jī)的方法，基于支持向量機(jī)的方法不需要事先對數(shù)據(jù)作任何假設(shè)，也不需要任何的預(yù)設(shè)參數(shù)，但是支持向量機(jī)的計(jì)算時(shí)間往往較長，主要是因?yàn)楹撕瘮?shù)的計(jì)算往往要消耗大量的計(jì)算時(shí)間，同時(shí)基于支持向量機(jī)的方法也很難確定合適的參數(shù)來衡量特征空間中正常數(shù)據(jù)區(qū)域邊界的大小?；诎氡O(jiān)督的分類方法常用的有基于神經(jīng)網(wǎng)絡(luò)的方法，神經(jīng)網(wǎng)絡(luò)是一種常用的回歸預(yù)測和分類技術(shù)，基于神經(jīng)網(wǎng)絡(luò)的異常檢測是通過對正常數(shù)據(jù)樣本的學(xué)習(xí)后建立一個(gè)正常樣本的分類模型，然后在輸出層重構(gòu)輸入數(shù)據(jù)，如果重構(gòu)的誤差很大則將該數(shù)據(jù)判定為異常數(shù)據(jù)?；谏窠?jīng)網(wǎng)絡(luò)的異常數(shù)據(jù)檢測方法不需要

24、事先對數(shù)據(jù)進(jìn)行任何條件假設(shè)，能夠發(fā)現(xiàn)異常的關(guān)鍵屬性，從而根據(jù)這個(gè)關(guān)鍵屬性有效地發(fā)現(xiàn)數(shù)據(jù)集中的異常。神經(jīng)網(wǎng)絡(luò)方法雖然能較好地發(fā)現(xiàn)異常，但是神經(jīng)網(wǎng)絡(luò)對模型參數(shù)的設(shè)定具有很強(qiáng)的依賴性，且這些參數(shù)會(huì)對檢測結(jié)果產(chǎn)生較大影響。(2) 最近鄰法異常檢測使用最近鄰法的基本假設(shè)是:按某種度量方式，正常數(shù)據(jù)對象之間比較接近，而異常數(shù)據(jù)對象和鄰居數(shù)據(jù)對象之間卻相對較遠(yuǎn)。數(shù)據(jù)對象之間的遠(yuǎn)近可以用距離或相似性表示。如果數(shù)據(jù)對象的屬性都是連續(xù)的變量，經(jīng)常用歐式(Euclidean)距離來表示數(shù)據(jù)對象之間的距離。常見的基于最近鄰法的異常檢測算法大體分為兩類:一類算法是基于距離的異常數(shù)據(jù)檢測，另外一類是基于密度的異常數(shù)據(jù)檢測

25、方法。基于距離的方法克服了基于分布的方法事先要知道數(shù)據(jù)集分布，依賴統(tǒng)計(jì)檢驗(yàn)的缺點(diǎn)，其實(shí)質(zhì)是將異常數(shù)據(jù)對象看作是在閾值d內(nèi)其鄰居比較稀疏的對象?；诰嚯x的異常數(shù)據(jù)檢測方法又可以分為三種：即基于索引(index-based)的方法、基于單元(cell-based)的方法、基于循環(huán)嵌套的方法(nested-loop)?；诰嚯x的異常數(shù)據(jù)檢測方法的主要缺陷是時(shí)間復(fù)雜度較高且難以確定合適的參數(shù)k與d。針對上述兩種問題，出現(xiàn)了許多改進(jìn)算法?；诰嚯x的異常數(shù)據(jù)挖掘方法是基于分布的方法的拓展，在數(shù)據(jù)集不滿足任何分布模型時(shí)仍能夠有效地發(fā)現(xiàn)異常數(shù)據(jù)。但是該方法對參數(shù)選擇非常的敏感，不適用于數(shù)據(jù)形狀分布不均勻的數(shù)據(jù)

26、集，且該方法需要搜索整個(gè)數(shù)據(jù)集來確定每個(gè)數(shù)據(jù)對象的鄰居，算法時(shí)間復(fù)雜度較高，不適用于大規(guī)模的數(shù)據(jù)集。基于密度的異常數(shù)據(jù)檢測方法是通過計(jì)算數(shù)據(jù)之間的距離以及與給定范圍內(nèi)數(shù)據(jù)的個(gè)數(shù)相結(jié)合來得到“密度”的概念，然后將數(shù)據(jù)對象的異常程度與它周圍的數(shù)據(jù)的密度相關(guān)聯(lián)。最常用的為基于局部異常因子(LocalOutlierFactor)的異常數(shù)據(jù)檢測算法，自從LOF這個(gè)局部異常數(shù)據(jù)檢測方法被提出以后，相繼出現(xiàn)了許多度量異常程度的方法，比較經(jīng)典的有COF、MDEF、SLOM等?；诿芏鹊姆椒軝z測出其它方法不能識(shí)別的異常即局部異常數(shù)據(jù)。該方法定義了數(shù)據(jù)對象的異常程度，在檢測率上有較高的精度，但是該算法每次都要掃

27、描數(shù)據(jù)庫來查找數(shù)據(jù)對象的k鄰居，這樣計(jì)算時(shí)間開銷是很大的，與基于距離的方法一樣，基于密度的方法的時(shí)間復(fù)雜度也是O(N2)，采用專門的索引結(jié)構(gòu)可以將時(shí)間復(fù)雜度降為O(NlogN),但是當(dāng)數(shù)據(jù)維數(shù)比較大時(shí)，索引結(jié)構(gòu)將不再有效，時(shí)間復(fù)雜度為0(N2)。(3) 基于聚簇的異常檢測聚簇(clustering)技術(shù)用來對數(shù)據(jù)對象進(jìn)行分組，相似的數(shù)據(jù)對象被歸入一個(gè)簇。在異常檢測領(lǐng)域，聚簇技術(shù)被用于無監(jiān)督檢測和半監(jiān)督檢測。依據(jù)基本假設(shè)的不同，基于聚簇技術(shù)的異常檢測方法大體分為三類:一類假設(shè)正常的數(shù)據(jù)對象都能被聚簇算法歸入某個(gè)簇，而異常數(shù)據(jù)對象不屬于任何一個(gè)簇；一類假設(shè)正常的數(shù)據(jù)對象與它所在簇的質(zhì)心比較近，而異

28、常數(shù)據(jù)對象與它所在簇的質(zhì)心比較遠(yuǎn)；另一類假設(shè)正常的數(shù)據(jù)對象屬于較大且較密集的簇，而異常的數(shù)據(jù)對象屬于較小且較稀疏的簇?；诰鄞氐漠惓?shù)據(jù)檢測方法首先是對數(shù)據(jù)集進(jìn)行聚類操作，然后再針對聚類簇進(jìn)行異常數(shù)據(jù)的判斷，是一種有效的異常數(shù)據(jù)檢測方法。但是聚類的效果往往會(huì)影響異常數(shù)據(jù)的檢測效果，而異常數(shù)據(jù)的存在對聚類效果的影響是不容易忽略的，因此在聚類過程中往往要采用不同的方法來避免異常數(shù)據(jù)對聚類的影響，因此該方法的針對性較強(qiáng)，能否有效地挖掘異常數(shù)據(jù)依賴于數(shù)據(jù)集中聚類簇的個(gè)數(shù)以及異常數(shù)據(jù)的存在性，并且雖然該算法適用于大規(guī)模數(shù)據(jù)集，但是對高維數(shù)據(jù)的異常檢測效果并不十分的理想。(4) 統(tǒng)計(jì)異常檢測使用統(tǒng)計(jì)異常檢

29、測方法的基本假設(shè)是:正常數(shù)據(jù)對象分布在某個(gè)隨機(jī)模型的高概率區(qū)間，而異常數(shù)據(jù)對象出現(xiàn)在該隨機(jī)模型的低概率區(qū)間。異常檢測的基本思路是:首先利用訓(xùn)練數(shù)據(jù)集和領(lǐng)域知識(shí)構(gòu)造隨機(jī)模型，然后檢測測試數(shù)據(jù)集中的數(shù)據(jù)對象是否有比較高的概率由該隨機(jī)模型生成。依據(jù)是否知道隨機(jī)模型的具體參數(shù)，統(tǒng)計(jì)異常檢測分為兩類:參數(shù)化檢測和非參數(shù)化檢測。參數(shù)化檢測主要包括基于高斯模型和基于回歸模型的異常檢測，非參數(shù)化檢測主要包括基于直方圖和基于核函數(shù)的異常檢測。基于統(tǒng)計(jì)學(xué)的異常數(shù)據(jù)檢測算法主要優(yōu)點(diǎn)是：算法有概率統(tǒng)計(jì)的理論作為其有利的支撐；通過對異常數(shù)據(jù)不一致性檢驗(yàn)可以發(fā)現(xiàn)背后隱藏的意義；在概率模型建立后只需要存儲(chǔ)少量的模型信息不需

30、要存儲(chǔ)數(shù)據(jù)對象的信息，降低了數(shù)據(jù)的存儲(chǔ)量?；诮y(tǒng)計(jì)學(xué)的異常數(shù)據(jù)檢測算法主要缺點(diǎn)是：通常只能處理單維的數(shù)據(jù)對象；需要很多先驗(yàn)知識(shí)，要預(yù)先假設(shè)數(shù)據(jù)集的分布，不適合分布未知的情況；通常只適合處理數(shù)據(jù)型的數(shù)據(jù)，限制了其在符號型或者含有大量分類數(shù)據(jù)對象的數(shù)據(jù)集上的應(yīng)用。(5) 基于信息論的異常檢測嫡在信息論中是一個(gè)重要的概念，用來衡量所收集到的信息的不確定性?；谛畔⒄撨M(jìn)行異常檢測的基本假設(shè)是:數(shù)據(jù)集中的異常數(shù)據(jù)實(shí)例導(dǎo)致了嫡的增加。如果用D表示數(shù)據(jù)集，(D)表示D的嫡值，基本的異常檢測思路是:設(shè)法找到D的一個(gè)最小子集I,使得C(D)-C(D-I)最大，則子集I中的數(shù)據(jù)就是異常數(shù)據(jù)實(shí)例。(6) 基于維度減

31、小技術(shù)的異常檢測使用維度減小技術(shù)的基本假設(shè)是:數(shù)據(jù)可以被嵌入或投射到一個(gè)低維度的子空間中。在此子空間中，正常數(shù)據(jù)對象和異常數(shù)據(jù)對象能被顯著的區(qū)分開。雖然有多種降低數(shù)據(jù)維度的方法，但各種基于主分量分析(PrincipalComPonentAnalysis，PCA)的方法在異常檢測中應(yīng)用最多。(7) 基于偏差的異常檢測Argrawal和Ragaran(KDD1995)提出一種"序列異?！?sequentialexception)的概念。給定n個(gè)對象的集合S,建立一個(gè)子集序列S1,S2,，Sm，對每個(gè)子集，確定該子集與前序子集的差異度的差。光滑因子最大的子集就是異常集。這個(gè)算法復(fù)雜度與數(shù)據(jù)

32、集大小呈線性關(guān)系，有優(yōu)異的計(jì)算性能。但是序列異常在對異常存在的假設(shè)太過理想化，對現(xiàn)實(shí)復(fù)雜數(shù)據(jù)效果不太好?；谄畹姆椒ㄖ校蛄挟惓z測算法提出的序列異常的概念并沒有得到普遍的認(rèn)同，序列異常在概念上仍然有一定缺陷，遺漏了不少的異常數(shù)據(jù)。(8) 上下文異常檢測檢測上下文異常需要在算法中考慮應(yīng)用的上下文場景，因此需要把數(shù)據(jù)實(shí)例的屬性細(xì)分為兩類，即上下文屬性和行為屬性。典型的上下文屬性包括空間位臵信息、時(shí)間標(biāo)簽和鄰居節(jié)點(diǎn)之間的連通性信息等描述應(yīng)用上下文場景的屬性，而行為屬性則包括用來描述被觀測對象的主要特征的屬性，例如溫度、濕度和降雨量等。上下文異常檢測方法大體分為兩類:一類方法使用前面介紹的點(diǎn)異常檢

33、測方法，但要首先知道數(shù)據(jù)實(shí)例中的上下文屬性的取值，并考慮上下文屬性的不同取值對異常檢測算法的影響；另外一類方法不需要量化的評估數(shù)據(jù)實(shí)例中的上下文屬性的不同取值對算法的影響，而是在一定的上下文場景中對訓(xùn)練數(shù)據(jù)集建模，然后利用此模型檢測測試數(shù)據(jù)集中的數(shù)據(jù)是否異常。2.4 異常數(shù)據(jù)修正方法簡介常用的瞬時(shí)異常數(shù)據(jù)的修正方法是，參考該點(diǎn)前后的數(shù)據(jù)，采用線性插值法或三階、多階平滑法的方式完成該數(shù)據(jù)點(diǎn)的修正，但這種方法無法適應(yīng)進(jìn)化(evolving)數(shù)據(jù)流在不同時(shí)刻具有不同波動(dòng)情況的特點(diǎn)，在出現(xiàn)多個(gè)連續(xù)異常數(shù)據(jù)或數(shù)據(jù)值變化劇烈時(shí)修正的精度偏低。已有的文獻(xiàn)均未重點(diǎn)研究連續(xù)錯(cuò)誤數(shù)據(jù)的修復(fù)問題。3 幾種典型改進(jìn)算

34、法及其應(yīng)用實(shí)例由于異常檢測問題涉及很多領(lǐng)域，不同的問題域有不同的問題特征，所以沒有各領(lǐng)域通用的異常檢測技術(shù)。異常檢測技術(shù)的關(guān)鍵構(gòu)成包括學(xué)科領(lǐng)域、應(yīng)用領(lǐng)域、問題特征和異常檢測算法。不同應(yīng)用領(lǐng)域的研究者，根據(jù)異常檢測問題的特征，應(yīng)用數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)等不同學(xué)科領(lǐng)域的概念和技術(shù)，設(shè)計(jì)了各種異常檢測算法。異常數(shù)據(jù)檢測的方法目前主要有統(tǒng)計(jì)、特征選擇、神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)挖掘、小波奇異性檢測等等，這些方法都有一個(gè)共同的缺點(diǎn)就是需要訓(xùn)練的數(shù)據(jù)量大，運(yùn)算代價(jià)高，對實(shí)時(shí)檢測有較大影響。3.1基于局部最大距離的異常數(shù)據(jù)檢測124 風(fēng)機(jī)基礎(chǔ)監(jiān)測異常數(shù)據(jù)的檢測和修正基于密度的局部異常數(shù)據(jù)挖掘方法雖然能夠有效地發(fā)現(xiàn)數(shù)

35、據(jù)集中的異常數(shù)據(jù)，但是這些算法由于計(jì)算量相當(dāng)大因此僅適合靜態(tài)環(huán)境下的異常數(shù)據(jù)挖掘。在實(shí)際工程應(yīng)用領(lǐng)域，通常意義上是這樣一種數(shù)據(jù)庫，它里面含有的數(shù)據(jù)量是隨著時(shí)間的增長而動(dòng)態(tài)增加的，如一般的數(shù)據(jù)采集系統(tǒng)、在線數(shù)據(jù)監(jiān)測系統(tǒng)等。通常在這種大型數(shù)據(jù)庫系統(tǒng)中，數(shù)據(jù)倉庫作為一種有價(jià)值的工具用來存放系統(tǒng)數(shù)據(jù)，在絕大多數(shù)情況下，當(dāng)事物數(shù)據(jù)庫系統(tǒng)有數(shù)據(jù)增加時(shí)，數(shù)據(jù)倉庫并不是立即將新增的數(shù)據(jù)存入內(nèi)存中，而是在人為設(shè)定的一定時(shí)間后例如夜間或者其他空閑的時(shí)間內(nèi)，以批量新增的方式將數(shù)據(jù)存入數(shù)據(jù)倉庫中。因此，在這種數(shù)據(jù)批量增加的數(shù)據(jù)庫環(huán)境下，新增加的數(shù)據(jù)可能會(huì)影響原數(shù)據(jù)庫中的某些對象的局部異常程度，在進(jìn)行二次異常挖掘時(shí)，需

36、要重新計(jì)算所有數(shù)據(jù)對象的局部異常因子，這樣計(jì)算量是很大的，因此在數(shù)據(jù)量成批增加的環(huán)境下，如何快速有效發(fā)現(xiàn)異常且避免大量的重復(fù)計(jì)算顯得尤為重要。然而，由于測量設(shè)備本身、數(shù)據(jù)傳輸或者人工操作等原因，可能使測量數(shù)據(jù)中包含某些錯(cuò)誤的信息。如果不將這些錯(cuò)誤的測量信息檢測并剔除掉，將給后續(xù)的數(shù)據(jù)處理帶來很大的誤差。目前，針對異常數(shù)據(jù)檢測問題已經(jīng)提出過很多種方法，包括基于統(tǒng)計(jì)學(xué)的方法、基于最近鄰居的方法、基于分簇的方法、基于聚類的方法等。這些方法在傳感器網(wǎng)絡(luò)的數(shù)據(jù)檢測中得到了廣泛的應(yīng)用。均值濾波及其改進(jìn)算法基于鄰近去最值均值濾波的原理，其次根據(jù)時(shí)間的連續(xù)等差變化特性對時(shí)間參數(shù)進(jìn)行了檢測修正，采用基于鄰近去最

37、值均值濾波方法對監(jiān)測數(shù)據(jù)進(jìn)行修正，最后利用實(shí)測數(shù)據(jù)進(jìn)行了驗(yàn)證。均值濾波算法是基于統(tǒng)計(jì)理論的一種能有效抑制噪聲的非線性信號處理技術(shù)。通常應(yīng)用于圖像處理中的平滑和去噪。其基本原理是對圖像中的每個(gè)合法像素點(diǎn)鄰域中的像素按照灰度級進(jìn)行排序，然后將該組的均值輸出作為該像素點(diǎn)的值。均值濾波定義如下：g(x,y)=meanf(s,t),s,tESxy式中：g(x,y)為(x,y)點(diǎn)的輸出值；f(s,t)為以(x,y)點(diǎn)為中心的鄰域內(nèi)(s,t)點(diǎn)的輸入值；Sxy為以(x,y)為中心的鄰域。鄰域類型可以根據(jù)研究或者應(yīng)用需要選擇方形、一字形、十字形、X形等，鄰域大小一般可以選擇3x3,5x5。對本文數(shù)據(jù)類型進(jìn)行均

38、值濾波，相當(dāng)于采用一字形窗口。均值濾波可以消除圖像中的椒鹽噪聲和突變點(diǎn),但是會(huì)改變圖像中的原始數(shù)據(jù)?；卩徑プ钪稻禐V波是對均值濾波的改進(jìn)，它對模板S內(nèi)的數(shù)據(jù)做了去最值修正處理，即在得到模板S內(nèi)的數(shù)據(jù)后，去除了其中的最大最小值(以f(s,t)表示)，再進(jìn)行均值濾波。該濾波方法極大減小了由于異常點(diǎn)參與運(yùn)算而導(dǎo)致的濾波結(jié)果偏離真值的影響，但是同樣會(huì)改變原始數(shù)據(jù)?；卩徑プ钪稻禐V波檢測濾波和檢測的目的不同，前者主要是對數(shù)據(jù)進(jìn)行去噪和平滑，而后者主要是在不修改原始數(shù)據(jù)的前提下找出數(shù)據(jù)中的異常點(diǎn)。因此，本文根據(jù)式(1)給出如下判別規(guī)則：|Af(x,y)|>3std(f(s,t)其中：Af(x

39、,y)=f(x,y)-mean(f(s,t)式中f(s,t)為去除模板內(nèi)數(shù)據(jù)的最大最小值的其他數(shù)據(jù)。若式成立，則(x,y)點(diǎn)為異常點(diǎn)。數(shù)據(jù)驅(qū)動(dòng)控制是指控制器不包含受控過程的數(shù)學(xué)模型信息，僅利用受控系統(tǒng)的在線和離線數(shù)據(jù)以及經(jīng)過數(shù)據(jù)處理而得到的知識(shí)來設(shè)計(jì)控制器，并在一定的假設(shè)下，有收斂性、穩(wěn)定性保障和魯棒性結(jié)論的控制理論和方法，是一種直接從數(shù)據(jù)到控制器設(shè)計(jì)的無模型控制理論和方法。目前，有關(guān)無模型控制國內(nèi)外已有一些標(biāo)志性的方法，例如，無模型自適應(yīng)控制(Model-FreeAdaptiveControl，MFAC)、迭代反饋整定(Itera-tiveFeedbackTuningIFT)、迭代學(xué)習(xí)控制(

40、IterativeLearningControl，ILC)等。其中MFAC作為一種典型的數(shù)據(jù)驅(qū)動(dòng)控制算法已經(jīng)在多個(gè)工業(yè)生產(chǎn)過程領(lǐng)域中取得成功應(yīng)用。理論證明、仿真研究和實(shí)際應(yīng)用均表明基于數(shù)據(jù)驅(qū)動(dòng)的無模型自適應(yīng)控制方法能夠處理非線性和時(shí)變線性系統(tǒng)的控制問題。傳感器是指那些對被測對象的某一確定的信息具有感受(或響應(yīng))與檢出功能，并使之按照一定規(guī)律轉(zhuǎn)換成與之對應(yīng)的可輸出信號的元器件或裝臵的總稱。傳感器一般被認(rèn)為由敏感元件、轉(zhuǎn)換元件、測量電路三部分組成。針對傳感器的工作原理和結(jié)構(gòu)在不同場合均需要的基本要求是：高靈敏度、抗干擾的穩(wěn)定性、容易調(diào)節(jié)、高精度、高可靠性、無遲滯性、工作壽命長、高響應(yīng)速率等。傳感器

41、的主要作用有兩個(gè)：其一是敏感作用，它感受被測量的變化，完成信號的拾?。黄涠亲儞Q作用，完成非電量到電量的轉(zhuǎn)換。根據(jù)傳感器應(yīng)用的對象、測量的范圍、周圍的環(huán)境的不同，需要使用的傳感器大不相同。傳感器的分類方法也較多。異常數(shù)據(jù)的產(chǎn)生主要有以下幾種原因：第一，不完美的數(shù)據(jù)采集設(shè)備、數(shù)據(jù)輸入有誤、數(shù)據(jù)傳輸錯(cuò)誤、測量單位混亂、靈敏度不夠等；第二，外界因素突變造成采集的數(shù)據(jù)異常；異常數(shù)據(jù)根據(jù)其性質(zhì)可以分為完全無用的噪聲數(shù)據(jù)，如人為造成的數(shù)據(jù)缺失和數(shù)據(jù)錯(cuò)誤，和包含重要系統(tǒng)信息的異常數(shù)據(jù)，如數(shù)據(jù)采集設(shè)備故障，外界因素突變等。其中找出包含數(shù)據(jù)采集設(shè)備故障信息的異常數(shù)據(jù)可以用于故障診斷，而找出蘊(yùn)涵外界因素突變信息的

42、異常數(shù)據(jù)可用于保障結(jié)構(gòu)安全，意義十分重大。異常數(shù)據(jù)存在對軟計(jì)算建模的影響，軟計(jì)算建模方法對于系統(tǒng)數(shù)據(jù)變化有較強(qiáng)的適應(yīng)能力，但這都是建立在系統(tǒng)數(shù)據(jù)比較清潔的基礎(chǔ)上的。當(dāng)系統(tǒng)數(shù)據(jù)存在異常數(shù)據(jù)時(shí)，要兼顧異常數(shù)據(jù)的作用，其建模的精度會(huì)大幅度下降，模型性能并不能令人因此，異常數(shù)據(jù)并不是全是對數(shù)據(jù)分析完全無用的數(shù)據(jù)。那么，對于以上兩類異常數(shù)據(jù)的分析就是我們所說的異常數(shù)據(jù)檢測（outlierdetecting）。本文基于實(shí)例著重從數(shù)據(jù)采集設(shè)備異常數(shù)據(jù)檢測的角度來探討各種異常數(shù)據(jù)檢測方法的有效性和實(shí)用性。傳感器所采集的原始數(shù)據(jù)是某設(shè)定采樣頻率下采集的與某時(shí)間序列相對應(yīng)的數(shù)據(jù)，故原始采集數(shù)據(jù)可視為時(shí)間序列數(shù)據(jù)，

43、其處理流程如圖2-1所示。對于原始采集數(shù)據(jù)，由于環(huán)境噪聲、儀器設(shè)備等原因，在長時(shí)間的連續(xù)采集中不可避免的會(huì)出現(xiàn)異常數(shù)據(jù)，因此監(jiān)測數(shù)據(jù)處理流程的第一步就是進(jìn)行數(shù)據(jù)可靠性檢驗(yàn)，分析數(shù)據(jù)異常原因，將可靠數(shù)據(jù)與異常數(shù)據(jù)分開保存。對于經(jīng)過可靠性檢驗(yàn)后的原始采集數(shù)據(jù)，根據(jù)采集數(shù)據(jù)類型的不同，將分別在時(shí)域和頻域內(nèi)進(jìn)行處理分析。時(shí)域分析具有直觀和準(zhǔn)確的優(yōu)點(diǎn)，可直接在時(shí)間域內(nèi)對時(shí)間序列數(shù)據(jù)進(jìn)行處理分析，能夠便利的表達(dá)數(shù)據(jù)變化趨勢以及特征值，比較適合例如應(yīng)力、應(yīng)變、位移等監(jiān)測數(shù)據(jù)的處理。頻域分析通過圖解分析法分析數(shù)據(jù)在頻域內(nèi)的能量分布來獲取特征參數(shù)，比較適合例如風(fēng)機(jī)振動(dòng)等監(jiān)測數(shù)據(jù)的處理。傳感器類型為振弦傳感器由于

44、傳感器系統(tǒng)中的振弦式傳感器是通過熱敏電阻來測量溫度值的，因此數(shù)據(jù)采集與傳輸系統(tǒng)中通用振弦采集儀采集與輸出的原始數(shù)據(jù)亦為電阻值，在應(yīng)力數(shù)據(jù)處理與分析子系統(tǒng)中需要對輸出的溫度值進(jìn)行二次加工處理，轉(zhuǎn)換為溫度值。振弦式傳感器是利用被測結(jié)構(gòu)物的應(yīng)變與振弦頻率之間的關(guān)系來測量應(yīng)變的，數(shù)據(jù)采集與傳輸系統(tǒng)輸出的頻率值，通過一定的轉(zhuǎn)換可得到結(jié)構(gòu)應(yīng)變增量，具體公式為y&=CxK（fl2-f02）式中4卩&為微應(yīng)變增量；C為振弦式傳感器平均修正系數(shù)（取值由商家提供）；K為振弦式傳感器標(biāo)準(zhǔn)系數(shù)（取值由商家提供）；fl為本次測試頻率讀數(shù)（單位：Hz）;f0為上次測試頻率讀數(shù)（單位：Hz）。經(jīng)過長時(shí)間分析應(yīng)力數(shù)據(jù)的異?，F(xiàn)象，可以把異常數(shù)據(jù)按照產(chǎn)生原因分為兩類。一類：由于自然界的強(qiáng)干擾產(chǎn)生的，如雷電。這類異常數(shù)據(jù)的特點(diǎn)是跳躍非常大；另一類：由于傳感器采集傳輸系統(tǒng)中某環(huán)節(jié)偶爾的工作不穩(wěn)定產(chǎn)生的，這類異常數(shù)據(jù)的特點(diǎn)是跳躍較小。

人人文庫> 全部分類> 應(yīng)用文書 > 作業(yè)報(bào)告

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

異常數(shù)據(jù)的修正算法

文檔簡介

溫馨提示

最新文檔

評論

異常數(shù)據(jù)的修正算法

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔