

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、異常數(shù)據(jù)處理方法研究1 異常數(shù)據(jù)處理概述1.1 研究背景近年來,隨著海上風(fēng)力發(fā)電技術(shù)的日益成熟和陸上風(fēng)電可開發(fā)資源的不斷減少,海上風(fēng)電尤其是近海風(fēng)電的開發(fā)開始加速。風(fēng)機(jī)是海上風(fēng)電開發(fā)的主要形式,而風(fēng)機(jī)基礎(chǔ)結(jié)構(gòu)承擔(dān)著抵抗海上風(fēng)機(jī)結(jié)構(gòu)的豎向、水平荷載和傾覆力矩的作用,其質(zhì)量關(guān)系到海上風(fēng)機(jī)結(jié)構(gòu)的運(yùn)行安全。作為隱蔽工程,其健康狀況受到了社會(huì)各界的高度重視,如何對風(fēng)機(jī)基礎(chǔ)特別是MW級風(fēng)機(jī)基礎(chǔ)的安全運(yùn)行狀況監(jiān)測成為研究領(lǐng)域的熱點(diǎn)。現(xiàn)有的監(jiān)測技術(shù)需要通過設(shè)臵在風(fēng)機(jī)基礎(chǔ)中的數(shù)據(jù)采集系統(tǒng)自動(dòng)獲取基礎(chǔ)的各狀態(tài)的大量參數(shù),如應(yīng)力、應(yīng)變、振動(dòng)、變形等,采集到的海量原始數(shù)據(jù)通過通信網(wǎng)絡(luò)傳輸?shù)奖O(jiān)控中心,經(jīng)過數(shù)據(jù)存儲(chǔ),分析
2、處理得到基礎(chǔ)的安全運(yùn)行狀況和維修決策等結(jié)論。風(fēng)機(jī)基礎(chǔ)監(jiān)測系統(tǒng)是集結(jié)構(gòu)監(jiān)測、系統(tǒng)識(shí)別及結(jié)構(gòu)評估于一體的綜合監(jiān)測系統(tǒng),其內(nèi)容包括幾何變形監(jiān)測、結(jié)構(gòu)響應(yīng)(應(yīng)力、應(yīng)變及振動(dòng))監(jiān)測等。監(jiān)測系統(tǒng)的質(zhì)量主要取決于三方面因素:(1)傳感器的靈敏性和精度以及數(shù)據(jù)傳輸和采集設(shè)備的性能;(2)測點(diǎn)的空間分布,即傳感器的最優(yōu)布臵問題;(3)異常數(shù)據(jù)的分析處理。從目前電子技術(shù)的發(fā)展來看,成熟、穩(wěn)定、高性能的傳感器已經(jīng)被應(yīng)用與監(jiān)測系統(tǒng)中,而且合理安排傳感器位臵,以達(dá)到信息采集的最優(yōu)化,也已經(jīng)有很多研究成果。但由于監(jiān)測信息格式復(fù)雜、信息量大,每天數(shù)據(jù)量甚至能達(dá)到十幾GB,如果不能有效地對這些數(shù)據(jù)進(jìn)行處理,很多異常數(shù)據(jù)將不能
3、有效辨識(shí),缺失信息將不能有效彌補(bǔ),而且監(jiān)測數(shù)據(jù)的分析必須建立在準(zhǔn)確有效的監(jiān)測數(shù)據(jù)之上,低精度和異常的監(jiān)測數(shù)據(jù)常常影響數(shù)值分析的結(jié)果,會(huì)影響到系統(tǒng)的功能與特性分析,給后續(xù)數(shù)據(jù)處理帶來很大的誤差,正常信息不能得到有效利用,故有必要對原始采集數(shù)據(jù)進(jìn)行處理。因此監(jiān)測異常數(shù)據(jù)處理是三方面中至關(guān)重要的一點(diǎn)。監(jiān)測系統(tǒng)異常數(shù)據(jù)處理包含兩個(gè)方面的內(nèi)容:(1)異常數(shù)據(jù)檢測,即找出異常信息并確定異常信息所在位臵,根據(jù)需要將異常數(shù)據(jù)保存入專門數(shù)據(jù)庫中或直接進(jìn)行剔除;(2)異常數(shù)據(jù)修正,即通過插值等方法,參考數(shù)據(jù)異常點(diǎn)前后的數(shù)據(jù),完成該異常數(shù)據(jù)點(diǎn)的修正,確保采集信息不缺失,保持原始采集數(shù)據(jù)的連續(xù)性。異常是一個(gè)復(fù)雜的概念
4、,迄今為止還沒有一個(gè)統(tǒng)一定義。Hawkins提出的異常定義被大多數(shù)人所接受,其定義為:異常是在數(shù)據(jù)集中與眾不同的數(shù)據(jù),使人們懷疑這些數(shù)據(jù)并非隨機(jī)產(chǎn)生的,而是產(chǎn)生于完全不同的機(jī)制。異常數(shù)據(jù)往往代表一種偏差或者新模式的開始,因此對異常數(shù)據(jù)的識(shí)別有時(shí)會(huì)比正常數(shù)據(jù)更有價(jià)值。傳感器異常數(shù)據(jù)是指在數(shù)據(jù)集中與大部分?jǐn)?shù)據(jù)不一致或者偏離正常行為模式的數(shù)據(jù)。異常數(shù)據(jù)的產(chǎn)生主要是因?yàn)橐韵聨追N情況而發(fā)生的:(1) 數(shù)據(jù)來源中的異常,這類異常中可能隱藏著重要的知識(shí)或規(guī)律。對這類異常分析可以獲取常規(guī)數(shù)據(jù)不能得到的新的信息,如基礎(chǔ)結(jié)構(gòu)損壞等;(2)數(shù)據(jù)固有變化異常,這類異常通常是自然發(fā)生的,如風(fēng)速的變化、波浪波動(dòng)等;(3)
5、數(shù)據(jù)測量誤差,這類異常的產(chǎn)生往往是因?yàn)闇y量儀器故障或者網(wǎng)絡(luò)傳輸錯(cuò)誤,以及噪音的存在引起的,這類異常通常作為噪聲而被刪除。與其他工程相比,風(fēng)機(jī)基礎(chǔ)安全狀況監(jiān)測發(fā)展較為滯后,尚未發(fā)現(xiàn)關(guān)于風(fēng)機(jī)基礎(chǔ)監(jiān)測數(shù)據(jù)處理的相關(guān)研究成果,其監(jiān)測異常數(shù)據(jù)的處理缺乏相應(yīng)的經(jīng)驗(yàn)??梢越梃b類似工程監(jiān)測數(shù)據(jù)處理的方法進(jìn)行研究。而針對監(jiān)測數(shù)據(jù)的種類多、數(shù)據(jù)海量、頻幅分布廣等特點(diǎn),國內(nèi)學(xué)者已經(jīng)研究了很多處理辦法。其中研究較多的如小波分析、數(shù)據(jù)挖掘、數(shù)據(jù)流理論等。然而,目前的類似工程監(jiān)測數(shù)據(jù)處理的方法主要是在離線數(shù)據(jù)的基礎(chǔ)上,在實(shí)時(shí)監(jiān)控上還缺乏相應(yīng)的準(zhǔn)確率和智能化。結(jié)合風(fēng)機(jī)基礎(chǔ)特點(diǎn),尋找一種有效的適用于風(fēng)機(jī)基礎(chǔ)監(jiān)測實(shí)時(shí)數(shù)據(jù)處理的
6、方法具有十分重要的研究意義和實(shí)用價(jià)值。1.2 國內(nèi)外研究現(xiàn)狀綜述在國外,研究人員通過對異常挖掘的深入研究,根據(jù)對異常存在形式的不同假設(shè),提出了許多異常數(shù)據(jù)檢測算法。早期的異常數(shù)據(jù)檢測方法是基于統(tǒng)計(jì)的方法,這種方法依賴于數(shù)據(jù)集服從某種標(biāo)準(zhǔn)分布,所以異常數(shù)據(jù)是基于概率分布來定義的,如Yamanishi等人將正常行為用一個(gè)高斯混合模型來進(jìn)行描述,通過計(jì)算數(shù)據(jù)對象與這個(gè)模型的偏離程度來發(fā)現(xiàn)異常。雖然這種基于標(biāo)準(zhǔn)分布的模型,能識(shí)別異常現(xiàn)象,但此類方法有很大的局限性,因?yàn)橥鶡o法預(yù)知數(shù)據(jù)集是服從哪類標(biāo)準(zhǔn)分布。為了克服這種缺陷,JamesP.R、DanielB.等在概率論H假設(shè)檢驗(yàn)方法的理論基礎(chǔ)上,提出了一
7、種基于某臵信度區(qū)間標(biāo)準(zhǔn)的異常檢測方法,達(dá)到這個(gè)標(biāo)準(zhǔn)的則為正常數(shù)據(jù),反之則為異常。Knorr等人于1998年提出了基于距離的異常數(shù)據(jù)檢測算法,他們認(rèn)為數(shù)據(jù)是高維空間中的點(diǎn),異常數(shù)據(jù)被定義為數(shù)據(jù)集中與大多數(shù)點(diǎn)之間的距離大于某個(gè)事先設(shè)定的閾值的數(shù)據(jù)。F.Abgiulli和C.Pizzuti等學(xué)者針對基于距離的異常數(shù)據(jù)挖掘算法在高維數(shù)據(jù)中計(jì)算時(shí)間較長的缺點(diǎn),將圖論中的連通性原理引入到數(shù)據(jù)之間距離的計(jì)算上,極大地降低了計(jì)算時(shí)間復(fù)雜度。Arning等人提出了基于偏離的方法,這種方法認(rèn)為:某個(gè)數(shù)據(jù)對象在數(shù)據(jù)集中的特征明顯“偏離”數(shù)據(jù)集中的其它數(shù)據(jù)時(shí),這樣的數(shù)據(jù)被認(rèn)為是異常數(shù)據(jù)。BirantD等提出了一種任意
8、形狀的聚類算法并將其應(yīng)用于異常挖掘中,該算法可以依據(jù)數(shù)據(jù)的非空間屬性、空間屬性和時(shí)態(tài)屬性來發(fā)現(xiàn)聚類簇和異常數(shù)據(jù)對象。Breuning等學(xué)者定義了局部異常因子的概念,提出了一種基于密度的局部異常點(diǎn)挖掘算法,它是用局部異常因子LOF(LocalOutlierFactor)表征數(shù)據(jù)對象與它的鄰居對象的偏離程度,LOF越大則認(rèn)為該點(diǎn)是異常數(shù)據(jù)的可能性越大。ToWel等人在分析神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,根據(jù)神經(jīng)網(wǎng)絡(luò)的理論提出了基于神經(jīng)網(wǎng)絡(luò)的異常數(shù)據(jù)挖掘算法。最近提出的比較流行的異常數(shù)據(jù)挖掘算法是基于核的分類方法,主要思想是將輸入的數(shù)據(jù)通過關(guān)系函數(shù)映射到一個(gè)高維特征空間,通過高維空間的分類超平面,就可以建立一個(gè)簡
9、單的分類模型,從而區(qū)分正?;虍惓?shù)據(jù)。國內(nèi)對異常數(shù)據(jù)挖掘的研究起步較晚,但是近年來在理論研究方面已經(jīng)取得了許多研究成果。林士敏對基于距離的異常數(shù)據(jù)挖掘算法作了改進(jìn),提出了基于抽樣的近似檢測算法;金義富等在Knorr觀點(diǎn)的基礎(chǔ)上,提出了一種異常約簡算法ORDA,該算法以粗糙集理論的屬性約簡技術(shù)為基礎(chǔ),提出了異常數(shù)據(jù)劃分和異常約簡思想,以及異常數(shù)據(jù)關(guān)鍵屬性域子空間的分析方法,這種方法可以對挖掘出的異常數(shù)據(jù)進(jìn)行有效的分析和解釋;重慶大學(xué)的鄧玉潔,朱慶生提出了基于聚類的異常數(shù)據(jù)挖掘方法,該方法將離群數(shù)據(jù)在分類討論的基礎(chǔ)上,定義了平凡離群數(shù)據(jù)、非平凡離群數(shù)據(jù)以及噪聲數(shù)據(jù),然后引入離群屬性和離群聚類簇的概
10、念,在此基礎(chǔ)上,以現(xiàn)有的異常數(shù)據(jù)挖掘技術(shù)為基礎(chǔ),實(shí)現(xiàn)了離群數(shù)據(jù)的發(fā)現(xiàn)。田江在一類支持向量機(jī)的基礎(chǔ)上,設(shè)計(jì)了一種“孤立點(diǎn)類支持向量機(jī)”算法,該算法是一種無監(jiān)督的異常數(shù)據(jù)檢測算法,通過設(shè)定不同的權(quán)值,將基于超平面距離定義的異常數(shù)據(jù)的異常程度和基于概率大小定義的異常程度相結(jié)合,通過在特征空間劃分距離可疑異常數(shù)據(jù)的最大間隔超平面來發(fā)現(xiàn)異常。綜上所述,國內(nèi)外針對異常數(shù)據(jù)產(chǎn)生的原因以及應(yīng)用領(lǐng)域的不同提出了許多異常數(shù)據(jù)檢測算法。大量研究發(fā)現(xiàn),基于密度的局部異常數(shù)據(jù)挖掘算法能夠發(fā)現(xiàn)其它的異常數(shù)據(jù)挖掘算法不能發(fā)現(xiàn)的異常,即“局部”異常,它更加符合Hawkins對異常數(shù)據(jù)的定義。Breunig等人提出了局部異常因
11、子(LocalOutlierFactor,LOF)的概念,通過它來表征一個(gè)數(shù)據(jù)對象的局部異常程度,LOF算法出現(xiàn)后,出現(xiàn)了很多局部異常程度的度量算法。這些算法適用于靜態(tài)環(huán)境下的數(shù)據(jù)庫,但在工程應(yīng)用領(lǐng)域,大部分?jǐn)?shù)據(jù)庫中的數(shù)據(jù)是隨時(shí)間動(dòng)態(tài)增加的,新增加的數(shù)據(jù)可能會(huì)影響某些對象的局部異常程度,因此在二次挖掘時(shí),需重新計(jì)算所有數(shù)據(jù)對象的局部異常因子,計(jì)算時(shí)間復(fù)雜度較高,所以這些算法在動(dòng)態(tài)環(huán)境中不易實(shí)現(xiàn)。因此,如何在動(dòng)態(tài)環(huán)境中提高基于密度的異常數(shù)據(jù)挖掘算法的時(shí)間效率避免大量的重復(fù)計(jì)算顯得尤為重要。1.3 研究目的和意義本項(xiàng)研究的目的在于結(jié)合風(fēng)機(jī)基礎(chǔ)特點(diǎn),在傳統(tǒng)異常數(shù)據(jù)處理方法基礎(chǔ)上,研究一種有效的適用于
12、風(fēng)機(jī)基礎(chǔ)監(jiān)測實(shí)時(shí)數(shù)據(jù)處理的方法,該方法能夠在線辨識(shí)異常監(jiān)測數(shù)據(jù)并保存,且能夠自動(dòng)修復(fù)原數(shù)據(jù)集,保持器連續(xù)性。本研究的意義在于:(1) 實(shí)現(xiàn)異常數(shù)據(jù)在線檢測與修正。目前的監(jiān)測數(shù)據(jù)處理方法主要是在離線數(shù)據(jù)的基礎(chǔ)上,在實(shí)時(shí)監(jiān)控上還缺乏相應(yīng)的準(zhǔn)確率和智能化。本研究實(shí)現(xiàn)了異常數(shù)據(jù)在線檢測與修正,與傳統(tǒng)的異常數(shù)據(jù)識(shí)別方法相比,具有更快的計(jì)算時(shí)間和更高的還原精度,能夠滿足數(shù)據(jù)的在線異常檢測與修正要求(2) 實(shí)時(shí)發(fā)現(xiàn)異常狀況并采取必要處理措施。對于實(shí)時(shí)檢測出的異常數(shù)據(jù)進(jìn)行分析,尋找異常事件原因,并根據(jù)產(chǎn)生原因采取應(yīng)有的處理方式。對于傳感器故障或執(zhí)行錯(cuò)誤導(dǎo)致數(shù)據(jù)異常情況,應(yīng)進(jìn)行剔除處理;有些異常數(shù)據(jù)是數(shù)據(jù)變異產(chǎn)
13、生的結(jié)果,如對于基礎(chǔ)結(jié)構(gòu)監(jiān)測,發(fā)生異常工況或結(jié)構(gòu)損壞在一段時(shí)間往往會(huì)出現(xiàn)前兆,導(dǎo)致數(shù)據(jù)異常,如果能夠及時(shí)捕捉到異常狀況的發(fā)生并采取相應(yīng)措施,則能防患于未然,保證結(jié)構(gòu)安全。(3) 提高和完善監(jiān)測結(jié)果準(zhǔn)確性,為后續(xù)研究奠定基礎(chǔ)。監(jiān)測結(jié)果的準(zhǔn)確性建立在高質(zhì)量的監(jiān)測數(shù)據(jù)之上,如果不能有效地辨識(shí)與處理異常數(shù)據(jù),低精度和異常的監(jiān)測數(shù)據(jù)混入正常數(shù)據(jù)集中,會(huì)對監(jiān)測系統(tǒng)的功能與特性分析產(chǎn)生重大影響,給后續(xù)數(shù)據(jù)處理帶來很大的誤差,正常數(shù)據(jù)信息不能有效用于后續(xù)的相關(guān)研究,利用數(shù)據(jù)研究得到的結(jié)論與實(shí)際可能存在較大誤差。1.4 主要研究內(nèi)容本研究主要包括以下3部分內(nèi)容:(1) 對常用異常數(shù)據(jù)檢測與修正方法簡要介紹,介紹
14、了常用的數(shù)據(jù)預(yù)處理技術(shù)及異常數(shù)據(jù)檢測問題的重要特征,對常用異常數(shù)據(jù)檢測及修正算法進(jìn)行了描述和討論,分析了各種算法的優(yōu)缺點(diǎn)和適用場景。(2) 幾種典型改進(jìn)算法及其工程應(yīng)用實(shí)例進(jìn)行分析,。(3) 風(fēng)機(jī)基礎(chǔ)監(jiān)測異常數(shù)據(jù)的檢測和修正。2 異常數(shù)據(jù)檢測與修正方法異常數(shù)據(jù)檢測問題通常包括四個(gè)過程:第一是數(shù)據(jù)的預(yù)處理,即通過數(shù)字濾波方法去除一些干擾;第二是異常數(shù)據(jù)的定義,即在數(shù)據(jù)集中表現(xiàn)出怎樣的行為或者模式的數(shù)據(jù)稱為異常數(shù)據(jù);第三是選擇合適的能夠有效發(fā)現(xiàn)異常數(shù)據(jù)的算法,異常數(shù)據(jù)表現(xiàn)行為不同,異常數(shù)據(jù)挖掘算法結(jié)果也會(huì)有所差異;第四是異常數(shù)據(jù)的修正,即通過異常挖掘?qū)惓?shù)據(jù)挖掘出來后,對這部分?jǐn)?shù)據(jù)按照原有模式規(guī)
15、則進(jìn)行修正,確保采集信息不缺失,保持采集數(shù)據(jù)時(shí)間序列上的連續(xù)性。本章介紹了常用的數(shù)據(jù)預(yù)處理技術(shù)及異常數(shù)據(jù)檢測問題的重要特征,對常用異常數(shù)據(jù)檢測及修正算法進(jìn)行了描述和討論,分析了各種算法的優(yōu)缺點(diǎn)和適用場景。2.1 數(shù)據(jù)預(yù)處理技術(shù)數(shù)據(jù)是通過各種類型的監(jiān)測傳感器獲取的,數(shù)據(jù)是一種通過間接方法取得事物狀態(tài)的技術(shù),如將結(jié)構(gòu)相應(yīng)等參數(shù)通過一定的轉(zhuǎn)換技術(shù)轉(zhuǎn)變?yōu)殡娦盘?,然后再將電信號轉(zhuǎn)換為數(shù)字化的數(shù)據(jù)。由于傳感器安裝環(huán)境的不穩(wěn)定和數(shù)據(jù)轉(zhuǎn)換過程摻雜少量的噪聲數(shù)據(jù)等各方面因素的影響,得到的數(shù)據(jù)會(huì)受到一定干擾,影響了最終數(shù)據(jù)的準(zhǔn)確性。為了減小噪聲對數(shù)據(jù)結(jié)果的影響,除了采用更加科學(xué)的采樣技術(shù)外,還需要采用一些必要的技
16、術(shù)手段對原始數(shù)據(jù)進(jìn)行整理、統(tǒng)計(jì),數(shù)字濾波技術(shù)是最基本的處理方法,它可以消弱數(shù)據(jù)中的噪聲,提高數(shù)據(jù)的代表性。均值濾波是最常用的數(shù)字濾波方法,是對采樣序列中的數(shù)據(jù)求和后,再取其平均值作為結(jié)果。雖然這種方法可以達(dá)到濾波的目的,但是如果采樣數(shù)據(jù)中的噪聲數(shù)據(jù)過大或過小,都會(huì)對處理結(jié)果產(chǎn)生影響。中值濾波是對采樣序列按大小排序形成有序列,取有序列的中間值作為結(jié)果。排序算法一般采用“冒泡排序法”或“快速排序法”等。眾數(shù)是數(shù)理統(tǒng)計(jì)中常用的一種數(shù)據(jù)處理辦法,它要求對大量的數(shù)據(jù)進(jìn)行處理,眾數(shù)濾波的原理是在采樣序列中找出最大值Tmax和最小值Tmin,再在區(qū)間上平均分為m組(5T0組),確定完分組后,對序列統(tǒng)計(jì)各組區(qū)
17、間內(nèi)數(shù)據(jù)的個(gè)數(shù),形成統(tǒng)計(jì)序列,查找其最大的值即眾數(shù)組序號k,根據(jù)相應(yīng)公式計(jì)算眾數(shù)的近似值。以前由于計(jì)算機(jī)的采樣速度和計(jì)算機(jī)速度較慢,處理周期較長,所以一直沒有采用,隨著計(jì)算機(jī)運(yùn)算速度的提高及高速采集模塊的采用,現(xiàn)在處理周期已縮短到1秒以內(nèi),由于眾數(shù)濾波的數(shù)據(jù)代表性較其它處理方法更強(qiáng),所以逐步被采用。為了提高濾波的效果,盡量減少噪聲數(shù)據(jù)對結(jié)果的影響,可將兩種或兩種以上的濾波算法結(jié)合在一起使用。如對于采集的數(shù)據(jù)量比較大的環(huán)境參數(shù),為了達(dá)到更好的濾波效果,可以選用眾數(shù)濾波和均值濾波結(jié)合的復(fù)合濾波方法。2.2 異常數(shù)據(jù)問題的重要特征異常數(shù)據(jù)問題的重要特征可以概括為四個(gè)方面,即數(shù)據(jù)特性、異常類型、數(shù)據(jù)標(biāo)
18、簽和輸出類型。數(shù)據(jù)特性異常檢測算法的輸入一般是數(shù)據(jù)實(shí)例的集合。每個(gè)數(shù)據(jù)實(shí)例用一個(gè)或若干個(gè)屬性及其取值來描述,每個(gè)屬性的取值可能為二進(jìn)制、分類或連續(xù)變量的形式。屬性的表示方式不同,適用的異常檢測算法也不同。例如,如果使用統(tǒng)計(jì)學(xué)的技術(shù)檢測異常,分類和連續(xù)取值的數(shù)據(jù)需要使用不同的統(tǒng)計(jì)模型。按數(shù)據(jù)實(shí)例之間的關(guān)系,數(shù)據(jù)可以分為順序數(shù)據(jù)和空間數(shù)據(jù)。順序數(shù)據(jù)的數(shù)據(jù)實(shí)例之間有一定的先后次序,其典型實(shí)例包括時(shí)間序列數(shù)據(jù)、基因組序列和蛋白質(zhì)序列等??臻g數(shù)據(jù)的各個(gè)數(shù)據(jù)實(shí)例之間有一定的相對位臵關(guān)系。數(shù)據(jù)實(shí)例之間的關(guān)系對異常檢測算法的設(shè)計(jì)有重要影響。(2) 異常類型數(shù)據(jù)異常可以分為三類:點(diǎn)異常、上下文異常和集合異常。如
19、果某個(gè)單個(gè)的數(shù)據(jù)實(shí)例被認(rèn)為是異常值,則該數(shù)據(jù)實(shí)例就被標(biāo)記為點(diǎn)異常。點(diǎn)異常是最簡單的一類異常,也是與異常檢測相關(guān)的文獻(xiàn)中討論最多的一類異常。如果某個(gè)數(shù)據(jù)實(shí)例只在特定的場合或環(huán)境下被認(rèn)為是異常值,則該數(shù)據(jù)實(shí)例就被標(biāo)記為上下文異常。一個(gè)典型的例子就是野外環(huán)境的溫度監(jiān)控,溫度報(bào)警閡值的設(shè)定要根據(jù)當(dāng)前季節(jié)的大氣溫度變化范圍和一天中的時(shí)間確定。集合異常是包含多個(gè)相關(guān)的數(shù)據(jù)實(shí)例的異常,是多個(gè)數(shù)據(jù)實(shí)例的集合。集合中單一數(shù)據(jù)實(shí)例不被認(rèn)為是異常,但這些數(shù)據(jù)實(shí)例同時(shí)出現(xiàn)就構(gòu)成了集合異常。(3) 數(shù)據(jù)標(biāo)記對于點(diǎn)異常檢測,每個(gè)數(shù)據(jù)實(shí)例都可以有一個(gè)分類標(biāo)記,用來標(biāo)記該數(shù)據(jù)實(shí)例是否正常或異常。給數(shù)據(jù)實(shí)例做標(biāo)記的工作一般由領(lǐng)
20、域?qū)<襾硗瓿?,被?biāo)記的數(shù)據(jù)實(shí)例的集合稱為訓(xùn)練數(shù)據(jù)集(trainingdataset)。根據(jù)數(shù)據(jù)實(shí)例被標(biāo)記的情況,異常數(shù)據(jù)檢測技術(shù)可分為以下三類:有監(jiān)督(supervised)異常檢測,半監(jiān)督(semisupervised)異常檢測和無監(jiān)督(unsupervised)異常檢測。對于有監(jiān)督異常檢測,訓(xùn)練數(shù)據(jù)集存在,且其中既包括標(biāo)記為正常的數(shù)據(jù)實(shí)例,也包括標(biāo)記為異常的數(shù)據(jù)實(shí)例。利用訓(xùn)練數(shù)據(jù)集構(gòu)造一個(gè)分類預(yù)測模型,把標(biāo)記未知的數(shù)據(jù)實(shí)例輸入該模型,根據(jù)模型輸出判斷該數(shù)據(jù)實(shí)例是否異常。對于半監(jiān)督異常檢測,訓(xùn)練數(shù)據(jù)集存在,且其中只包括標(biāo)記為正常的數(shù)據(jù)實(shí)例。利用訓(xùn)練數(shù)據(jù)集構(gòu)造一個(gè)預(yù)測模型,把標(biāo)記未知的數(shù)據(jù)實(shí)例
21、輸入該模型,根據(jù)模型輸出判斷該數(shù)據(jù)實(shí)例是否能屬于正常分類,不屬于任何正常分類的數(shù)據(jù)實(shí)例一律標(biāo)記為異常。對于無監(jiān)督異常檢測,不需要訓(xùn)練數(shù)據(jù)集,但需要假設(shè)正常的數(shù)據(jù)實(shí)例在數(shù)量上要遠(yuǎn)遠(yuǎn)多于異常數(shù)據(jù)實(shí)例。(4) 輸出類型異常檢測算法有兩類典型的輸出:分值(score)和標(biāo)記(label)。前一類算法依據(jù)一定的標(biāo)準(zhǔn),給訓(xùn)練數(shù)據(jù)集中的每個(gè)數(shù)據(jù)對象(即數(shù)據(jù)實(shí)例或構(gòu)成集合異常的數(shù)據(jù)實(shí)例的集合)標(biāo)記一個(gè)分值,并且輸出一個(gè)按分值排序的可能的異常數(shù)據(jù)對象列表。領(lǐng)域?qū)<铱梢栽诖嘶A(chǔ)上最終確定異常數(shù)據(jù)對象。后一類算法直接把每一個(gè)數(shù)據(jù)對象標(biāo)記為正常或異常,不需要領(lǐng)域?qū)<业闹苯訁⑴c。2.3 異常數(shù)據(jù)檢測方法隨著對異常挖掘研
22、究的深入,對應(yīng)于不同的應(yīng)用領(lǐng)域出現(xiàn)了許多異常數(shù)檢測方法,參考大量研究成果,本節(jié)簡要介紹了常用的八種異常檢測算法的基本技術(shù)思路及部分方法的優(yōu)缺點(diǎn)。前面七類主要是針對點(diǎn)異常檢測做的歸納,但這些檢測算法也經(jīng)常適用于集合異常的檢測,最后一類是討論上下文異常的檢測。(1) 基于分類的異常檢測基于分類的異常檢測基本都是分為兩個(gè)階段,即訓(xùn)練階段和檢測階段。在訓(xùn)練階段,算法利用訓(xùn)練數(shù)據(jù)集中的數(shù)據(jù)對象,構(gòu)造分類器模型。在檢測階段,測試數(shù)據(jù)集中的數(shù)據(jù)對象被輸入分類器,根據(jù)分類的結(jié)果判斷是否是異常數(shù)據(jù)。分類器可以基于規(guī)則、神經(jīng)網(wǎng)絡(luò)、貝葉斯網(wǎng)絡(luò)和支持向量機(jī)等技術(shù)來實(shí)現(xiàn)。按照訓(xùn)練樣本有標(biāo)記種類個(gè)數(shù)的不同,基于分類的方法
23、分為有監(jiān)督的方法和半監(jiān)督的方法?;诒O(jiān)督學(xué)習(xí)的分類方法最常用的方法是基于支持向量機(jī)的方法,基于支持向量機(jī)的方法不需要事先對數(shù)據(jù)作任何假設(shè),也不需要任何的預(yù)設(shè)參數(shù),但是支持向量機(jī)的計(jì)算時(shí)間往往較長,主要是因?yàn)楹撕瘮?shù)的計(jì)算往往要消耗大量的計(jì)算時(shí)間,同時(shí)基于支持向量機(jī)的方法也很難確定合適的參數(shù)來衡量特征空間中正常數(shù)據(jù)區(qū)域邊界的大小?;诎氡O(jiān)督的分類方法常用的有基于神經(jīng)網(wǎng)絡(luò)的方法,神經(jīng)網(wǎng)絡(luò)是一種常用的回歸預(yù)測和分類技術(shù),基于神經(jīng)網(wǎng)絡(luò)的異常檢測是通過對正常數(shù)據(jù)樣本的學(xué)習(xí)后建立一個(gè)正常樣本的分類模型,然后在輸出層重構(gòu)輸入數(shù)據(jù),如果重構(gòu)的誤差很大則將該數(shù)據(jù)判定為異常數(shù)據(jù)?;谏窠?jīng)網(wǎng)絡(luò)的異常數(shù)據(jù)檢測方法不需要
24、事先對數(shù)據(jù)進(jìn)行任何條件假設(shè),能夠發(fā)現(xiàn)異常的關(guān)鍵屬性,從而根據(jù)這個(gè)關(guān)鍵屬性有效地發(fā)現(xiàn)數(shù)據(jù)集中的異常。神經(jīng)網(wǎng)絡(luò)方法雖然能較好地發(fā)現(xiàn)異常,但是神經(jīng)網(wǎng)絡(luò)對模型參數(shù)的設(shè)定具有很強(qiáng)的依賴性,且這些參數(shù)會(huì)對檢測結(jié)果產(chǎn)生較大影響。(2) 最近鄰法異常檢測使用最近鄰法的基本假設(shè)是:按某種度量方式,正常數(shù)據(jù)對象之間比較接近,而異常數(shù)據(jù)對象和鄰居數(shù)據(jù)對象之間卻相對較遠(yuǎn)。數(shù)據(jù)對象之間的遠(yuǎn)近可以用距離或相似性表示。如果數(shù)據(jù)對象的屬性都是連續(xù)的變量,經(jīng)常用歐式(Euclidean)距離來表示數(shù)據(jù)對象之間的距離。常見的基于最近鄰法的異常檢測算法大體分為兩類:一類算法是基于距離的異常數(shù)據(jù)檢測,另外一類是基于密度的異常數(shù)據(jù)檢測
25、方法。基于距離的方法克服了基于分布的方法事先要知道數(shù)據(jù)集分布,依賴統(tǒng)計(jì)檢驗(yàn)的缺點(diǎn),其實(shí)質(zhì)是將異常數(shù)據(jù)對象看作是在閾值d內(nèi)其鄰居比較稀疏的對象?;诰嚯x的異常數(shù)據(jù)檢測方法又可以分為三種:即基于索引(index-based)的方法、基于單元(cell-based)的方法、基于循環(huán)嵌套的方法(nested-loop)?;诰嚯x的異常數(shù)據(jù)檢測方法的主要缺陷是時(shí)間復(fù)雜度較高且難以確定合適的參數(shù)k與d。針對上述兩種問題,出現(xiàn)了許多改進(jìn)算法?;诰嚯x的異常數(shù)據(jù)挖掘方法是基于分布的方法的拓展,在數(shù)據(jù)集不滿足任何分布模型時(shí)仍能夠有效地發(fā)現(xiàn)異常數(shù)據(jù)。但是該方法對參數(shù)選擇非常的敏感,不適用于數(shù)據(jù)形狀分布不均勻的數(shù)據(jù)
26、集,且該方法需要搜索整個(gè)數(shù)據(jù)集來確定每個(gè)數(shù)據(jù)對象的鄰居,算法時(shí)間復(fù)雜度較高,不適用于大規(guī)模的數(shù)據(jù)集。基于密度的異常數(shù)據(jù)檢測方法是通過計(jì)算數(shù)據(jù)之間的距離以及與給定范圍內(nèi)數(shù)據(jù)的個(gè)數(shù)相結(jié)合來得到“密度”的概念,然后將數(shù)據(jù)對象的異常程度與它周圍的數(shù)據(jù)的密度相關(guān)聯(lián)。最常用的為基于局部異常因子(LocalOutlierFactor)的異常數(shù)據(jù)檢測算法,自從LOF這個(gè)局部異常數(shù)據(jù)檢測方法被提出以后,相繼出現(xiàn)了許多度量異常程度的方法,比較經(jīng)典的有COF、MDEF、SLOM等?;诿芏鹊姆椒軝z測出其它方法不能識(shí)別的異常即局部異常數(shù)據(jù)。該方法定義了數(shù)據(jù)對象的異常程度,在檢測率上有較高的精度,但是該算法每次都要掃
27、描數(shù)據(jù)庫來查找數(shù)據(jù)對象的k鄰居,這樣計(jì)算時(shí)間開銷是很大的,與基于距離的方法一樣,基于密度的方法的時(shí)間復(fù)雜度也是O(N2),采用專門的索引結(jié)構(gòu)可以將時(shí)間復(fù)雜度降為O(NlogN),但是當(dāng)數(shù)據(jù)維數(shù)比較大時(shí),索引結(jié)構(gòu)將不再有效,時(shí)間復(fù)雜度為0(N2)。(3) 基于聚簇的異常檢測聚簇(clustering)技術(shù)用來對數(shù)據(jù)對象進(jìn)行分組,相似的數(shù)據(jù)對象被歸入一個(gè)簇。在異常檢測領(lǐng)域,聚簇技術(shù)被用于無監(jiān)督檢測和半監(jiān)督檢測。依據(jù)基本假設(shè)的不同,基于聚簇技術(shù)的異常檢測方法大體分為三類:一類假設(shè)正常的數(shù)據(jù)對象都能被聚簇算法歸入某個(gè)簇,而異常數(shù)據(jù)對象不屬于任何一個(gè)簇;一類假設(shè)正常的數(shù)據(jù)對象與它所在簇的質(zhì)心比較近,而異
28、常數(shù)據(jù)對象與它所在簇的質(zhì)心比較遠(yuǎn);另一類假設(shè)正常的數(shù)據(jù)對象屬于較大且較密集的簇,而異常的數(shù)據(jù)對象屬于較小且較稀疏的簇?;诰鄞氐漠惓?shù)據(jù)檢測方法首先是對數(shù)據(jù)集進(jìn)行聚類操作,然后再針對聚類簇進(jìn)行異常數(shù)據(jù)的判斷,是一種有效的異常數(shù)據(jù)檢測方法。但是聚類的效果往往會(huì)影響異常數(shù)據(jù)的檢測效果,而異常數(shù)據(jù)的存在對聚類效果的影響是不容易忽略的,因此在聚類過程中往往要采用不同的方法來避免異常數(shù)據(jù)對聚類的影響,因此該方法的針對性較強(qiáng),能否有效地挖掘異常數(shù)據(jù)依賴于數(shù)據(jù)集中聚類簇的個(gè)數(shù)以及異常數(shù)據(jù)的存在性,并且雖然該算法適用于大規(guī)模數(shù)據(jù)集,但是對高維數(shù)據(jù)的異常檢測效果并不十分的理想。(4) 統(tǒng)計(jì)異常檢測使用統(tǒng)計(jì)異常檢
29、測方法的基本假設(shè)是:正常數(shù)據(jù)對象分布在某個(gè)隨機(jī)模型的高概率區(qū)間,而異常數(shù)據(jù)對象出現(xiàn)在該隨機(jī)模型的低概率區(qū)間。異常檢測的基本思路是:首先利用訓(xùn)練數(shù)據(jù)集和領(lǐng)域知識(shí)構(gòu)造隨機(jī)模型,然后檢測測試數(shù)據(jù)集中的數(shù)據(jù)對象是否有比較高的概率由該隨機(jī)模型生成。依據(jù)是否知道隨機(jī)模型的具體參數(shù),統(tǒng)計(jì)異常檢測分為兩類:參數(shù)化檢測和非參數(shù)化檢測。參數(shù)化檢測主要包括基于高斯模型和基于回歸模型的異常檢測,非參數(shù)化檢測主要包括基于直方圖和基于核函數(shù)的異常檢測。基于統(tǒng)計(jì)學(xué)的異常數(shù)據(jù)檢測算法主要優(yōu)點(diǎn)是:算法有概率統(tǒng)計(jì)的理論作為其有利的支撐;通過對異常數(shù)據(jù)不一致性檢驗(yàn)可以發(fā)現(xiàn)背后隱藏的意義;在概率模型建立后只需要存儲(chǔ)少量的模型信息不需
30、要存儲(chǔ)數(shù)據(jù)對象的信息,降低了數(shù)據(jù)的存儲(chǔ)量?;诮y(tǒng)計(jì)學(xué)的異常數(shù)據(jù)檢測算法主要缺點(diǎn)是:通常只能處理單維的數(shù)據(jù)對象;需要很多先驗(yàn)知識(shí),要預(yù)先假設(shè)數(shù)據(jù)集的分布,不適合分布未知的情況;通常只適合處理數(shù)據(jù)型的數(shù)據(jù),限制了其在符號型或者含有大量分類數(shù)據(jù)對象的數(shù)據(jù)集上的應(yīng)用。(5) 基于信息論的異常檢測嫡在信息論中是一個(gè)重要的概念,用來衡量所收集到的信息的不確定性?;谛畔⒄撨M(jìn)行異常檢測的基本假設(shè)是:數(shù)據(jù)集中的異常數(shù)據(jù)實(shí)例導(dǎo)致了嫡的增加。如果用D表示數(shù)據(jù)集,(D)表示D的嫡值,基本的異常檢測思路是:設(shè)法找到D的一個(gè)最小子集I,使得C(D)-C(D-I)最大,則子集I中的數(shù)據(jù)就是異常數(shù)據(jù)實(shí)例。(6) 基于維度減
31、小技術(shù)的異常檢測使用維度減小技術(shù)的基本假設(shè)是:數(shù)據(jù)可以被嵌入或投射到一個(gè)低維度的子空間中。在此子空間中,正常數(shù)據(jù)對象和異常數(shù)據(jù)對象能被顯著的區(qū)分開。雖然有多種降低數(shù)據(jù)維度的方法,但各種基于主分量分析(PrincipalComPonentAnalysis,PCA)的方法在異常檢測中應(yīng)用最多。(7) 基于偏差的異常檢測Argrawal和Ragaran(KDD1995)提出一種"序列異?!?sequentialexception)的概念。給定n個(gè)對象的集合S,建立一個(gè)子集序列S1,S2,,Sm,對每個(gè)子集,確定該子集與前序子集的差異度的差。光滑因子最大的子集就是異常集。這個(gè)算法復(fù)雜度與數(shù)據(jù)
32、集大小呈線性關(guān)系,有優(yōu)異的計(jì)算性能。但是序列異常在對異常存在的假設(shè)太過理想化,對現(xiàn)實(shí)復(fù)雜數(shù)據(jù)效果不太好?;谄畹姆椒ㄖ校蛄挟惓z測算法提出的序列異常的概念并沒有得到普遍的認(rèn)同,序列異常在概念上仍然有一定缺陷,遺漏了不少的異常數(shù)據(jù)。(8) 上下文異常檢測檢測上下文異常需要在算法中考慮應(yīng)用的上下文場景,因此需要把數(shù)據(jù)實(shí)例的屬性細(xì)分為兩類,即上下文屬性和行為屬性。典型的上下文屬性包括空間位臵信息、時(shí)間標(biāo)簽和鄰居節(jié)點(diǎn)之間的連通性信息等描述應(yīng)用上下文場景的屬性,而行為屬性則包括用來描述被觀測對象的主要特征的屬性,例如溫度、濕度和降雨量等。上下文異常檢測方法大體分為兩類:一類方法使用前面介紹的點(diǎn)異常檢
33、測方法,但要首先知道數(shù)據(jù)實(shí)例中的上下文屬性的取值,并考慮上下文屬性的不同取值對異常檢測算法的影響;另外一類方法不需要量化的評估數(shù)據(jù)實(shí)例中的上下文屬性的不同取值對算法的影響,而是在一定的上下文場景中對訓(xùn)練數(shù)據(jù)集建模,然后利用此模型檢測測試數(shù)據(jù)集中的數(shù)據(jù)是否異常。2.4 異常數(shù)據(jù)修正方法簡介常用的瞬時(shí)異常數(shù)據(jù)的修正方法是,參考該點(diǎn)前后的數(shù)據(jù),采用線性插值法或三階、多階平滑法的方式完成該數(shù)據(jù)點(diǎn)的修正,但這種方法無法適應(yīng)進(jìn)化(evolving)數(shù)據(jù)流在不同時(shí)刻具有不同波動(dòng)情況的特點(diǎn),在出現(xiàn)多個(gè)連續(xù)異常數(shù)據(jù)或數(shù)據(jù)值變化劇烈時(shí)修正的精度偏低。已有的文獻(xiàn)均未重點(diǎn)研究連續(xù)錯(cuò)誤數(shù)據(jù)的修復(fù)問題。3 幾種典型改進(jìn)算
34、法及其應(yīng)用實(shí)例由于異常檢測問題涉及很多領(lǐng)域,不同的問題域有不同的問題特征,所以沒有各領(lǐng)域通用的異常檢測技術(shù)。異常檢測技術(shù)的關(guān)鍵構(gòu)成包括學(xué)科領(lǐng)域、應(yīng)用領(lǐng)域、問題特征和異常檢測算法。不同應(yīng)用領(lǐng)域的研究者,根據(jù)異常檢測問題的特征,應(yīng)用數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)等不同學(xué)科領(lǐng)域的概念和技術(shù),設(shè)計(jì)了各種異常檢測算法。異常數(shù)據(jù)檢測的方法目前主要有統(tǒng)計(jì)、特征選擇、神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)挖掘、小波奇異性檢測等等,這些方法都有一個(gè)共同的缺點(diǎn)就是需要訓(xùn)練的數(shù)據(jù)量大,運(yùn)算代價(jià)高,對實(shí)時(shí)檢測有較大影響。3.1基于局部最大距離的異常數(shù)據(jù)檢測124 風(fēng)機(jī)基礎(chǔ)監(jiān)測異常數(shù)據(jù)的檢測和修正基于密度的局部異常數(shù)據(jù)挖掘方法雖然能夠有效地發(fā)現(xiàn)數(shù)
35、據(jù)集中的異常數(shù)據(jù),但是這些算法由于計(jì)算量相當(dāng)大因此僅適合靜態(tài)環(huán)境下的異常數(shù)據(jù)挖掘。在實(shí)際工程應(yīng)用領(lǐng)域,通常意義上是這樣一種數(shù)據(jù)庫,它里面含有的數(shù)據(jù)量是隨著時(shí)間的增長而動(dòng)態(tài)增加的,如一般的數(shù)據(jù)采集系統(tǒng)、在線數(shù)據(jù)監(jiān)測系統(tǒng)等。通常在這種大型數(shù)據(jù)庫系統(tǒng)中,數(shù)據(jù)倉庫作為一種有價(jià)值的工具用來存放系統(tǒng)數(shù)據(jù),在絕大多數(shù)情況下,當(dāng)事物數(shù)據(jù)庫系統(tǒng)有數(shù)據(jù)增加時(shí),數(shù)據(jù)倉庫并不是立即將新增的數(shù)據(jù)存入內(nèi)存中,而是在人為設(shè)定的一定時(shí)間后例如夜間或者其他空閑的時(shí)間內(nèi),以批量新增的方式將數(shù)據(jù)存入數(shù)據(jù)倉庫中。因此,在這種數(shù)據(jù)批量增加的數(shù)據(jù)庫環(huán)境下,新增加的數(shù)據(jù)可能會(huì)影響原數(shù)據(jù)庫中的某些對象的局部異常程度,在進(jìn)行二次異常挖掘時(shí),需
36、要重新計(jì)算所有數(shù)據(jù)對象的局部異常因子,這樣計(jì)算量是很大的,因此在數(shù)據(jù)量成批增加的環(huán)境下,如何快速有效發(fā)現(xiàn)異常且避免大量的重復(fù)計(jì)算顯得尤為重要。然而,由于測量設(shè)備本身、數(shù)據(jù)傳輸或者人工操作等原因,可能使測量數(shù)據(jù)中包含某些錯(cuò)誤的信息。如果不將這些錯(cuò)誤的測量信息檢測并剔除掉,將給后續(xù)的數(shù)據(jù)處理帶來很大的誤差。目前,針對異常數(shù)據(jù)檢測問題已經(jīng)提出過很多種方法,包括基于統(tǒng)計(jì)學(xué)的方法、基于最近鄰居的方法、基于分簇的方法、基于聚類的方法等。這些方法在傳感器網(wǎng)絡(luò)的數(shù)據(jù)檢測中得到了廣泛的應(yīng)用。均值濾波及其改進(jìn)算法基于鄰近去最值均值濾波的原理,其次根據(jù)時(shí)間的連續(xù)等差變化特性對時(shí)間參數(shù)進(jìn)行了檢測修正,采用基于鄰近去最
37、值均值濾波方法對監(jiān)測數(shù)據(jù)進(jìn)行修正,最后利用實(shí)測數(shù)據(jù)進(jìn)行了驗(yàn)證。均值濾波算法是基于統(tǒng)計(jì)理論的一種能有效抑制噪聲的非線性信號處理技術(shù)。通常應(yīng)用于圖像處理中的平滑和去噪。其基本原理是對圖像中的每個(gè)合法像素點(diǎn)鄰域中的像素按照灰度級進(jìn)行排序,然后將該組的均值輸出作為該像素點(diǎn)的值。均值濾波定義如下:g(x,y)=meanf(s,t),s,tESxy式中:g(x,y)為(x,y)點(diǎn)的輸出值;f(s,t)為以(x,y)點(diǎn)為中心的鄰域內(nèi)(s,t)點(diǎn)的輸入值;Sxy為以(x,y)為中心的鄰域。鄰域類型可以根據(jù)研究或者應(yīng)用需要選擇方形、一字形、十字形、X形等,鄰域大小一般可以選擇3x3,5x5。對本文數(shù)據(jù)類型進(jìn)行均
38、值濾波,相當(dāng)于采用一字形窗口。均值濾波可以消除圖像中的椒鹽噪聲和突變點(diǎn),但是會(huì)改變圖像中的原始數(shù)據(jù)?;卩徑プ钪稻禐V波是對均值濾波的改進(jìn),它對模板S內(nèi)的數(shù)據(jù)做了去最值修正處理,即在得到模板S內(nèi)的數(shù)據(jù)后,去除了其中的最大最小值(以f(s,t)表示),再進(jìn)行均值濾波。該濾波方法極大減小了由于異常點(diǎn)參與運(yùn)算而導(dǎo)致的濾波結(jié)果偏離真值的影響,但是同樣會(huì)改變原始數(shù)據(jù)?;卩徑プ钪稻禐V波檢測濾波和檢測的目的不同,前者主要是對數(shù)據(jù)進(jìn)行去噪和平滑,而后者主要是在不修改原始數(shù)據(jù)的前提下找出數(shù)據(jù)中的異常點(diǎn)。因此,本文根據(jù)式(1)給出如下判別規(guī)則:|Af(x,y)|>3std(f(s,t)其中:Af(x
39、,y)=f(x,y)-mean(f(s,t)式中f(s,t)為去除模板內(nèi)數(shù)據(jù)的最大最小值的其他數(shù)據(jù)。若式成立,則(x,y)點(diǎn)為異常點(diǎn)。數(shù)據(jù)驅(qū)動(dòng)控制是指控制器不包含受控過程的數(shù)學(xué)模型信息,僅利用受控系統(tǒng)的在線和離線數(shù)據(jù)以及經(jīng)過數(shù)據(jù)處理而得到的知識(shí)來設(shè)計(jì)控制器,并在一定的假設(shè)下,有收斂性、穩(wěn)定性保障和魯棒性結(jié)論的控制理論和方法,是一種直接從數(shù)據(jù)到控制器設(shè)計(jì)的無模型控制理論和方法。目前,有關(guān)無模型控制國內(nèi)外已有一些標(biāo)志性的方法,例如,無模型自適應(yīng)控制(Model-FreeAdaptiveControl,MFAC)、迭代反饋整定(Itera-tiveFeedbackTuningIFT)、迭代學(xué)習(xí)控制(
40、IterativeLearningControl,ILC)等。其中MFAC作為一種典型的數(shù)據(jù)驅(qū)動(dòng)控制算法已經(jīng)在多個(gè)工業(yè)生產(chǎn)過程領(lǐng)域中取得成功應(yīng)用。理論證明、仿真研究和實(shí)際應(yīng)用均表明基于數(shù)據(jù)驅(qū)動(dòng)的無模型自適應(yīng)控制方法能夠處理非線性和時(shí)變線性系統(tǒng)的控制問題。傳感器是指那些對被測對象的某一確定的信息具有感受(或響應(yīng))與檢出功能,并使之按照一定規(guī)律轉(zhuǎn)換成與之對應(yīng)的可輸出信號的元器件或裝臵的總稱。傳感器一般被認(rèn)為由敏感元件、轉(zhuǎn)換元件、測量電路三部分組成。針對傳感器的工作原理和結(jié)構(gòu)在不同場合均需要的基本要求是:高靈敏度、抗干擾的穩(wěn)定性、容易調(diào)節(jié)、高精度、高可靠性、無遲滯性、工作壽命長、高響應(yīng)速率等。傳感器
41、的主要作用有兩個(gè):其一是敏感作用,它感受被測量的變化,完成信號的拾?。黄涠亲儞Q作用,完成非電量到電量的轉(zhuǎn)換。根據(jù)傳感器應(yīng)用的對象、測量的范圍、周圍的環(huán)境的不同,需要使用的傳感器大不相同。傳感器的分類方法也較多。異常數(shù)據(jù)的產(chǎn)生主要有以下幾種原因:第一,不完美的數(shù)據(jù)采集設(shè)備、數(shù)據(jù)輸入有誤、數(shù)據(jù)傳輸錯(cuò)誤、測量單位混亂、靈敏度不夠等;第二,外界因素突變造成采集的數(shù)據(jù)異常;異常數(shù)據(jù)根據(jù)其性質(zhì)可以分為完全無用的噪聲數(shù)據(jù),如人為造成的數(shù)據(jù)缺失和數(shù)據(jù)錯(cuò)誤,和包含重要系統(tǒng)信息的異常數(shù)據(jù),如數(shù)據(jù)采集設(shè)備故障,外界因素突變等。其中找出包含數(shù)據(jù)采集設(shè)備故障信息的異常數(shù)據(jù)可以用于故障診斷,而找出蘊(yùn)涵外界因素突變信息的
42、異常數(shù)據(jù)可用于保障結(jié)構(gòu)安全,意義十分重大。異常數(shù)據(jù)存在對軟計(jì)算建模的影響,軟計(jì)算建模方法對于系統(tǒng)數(shù)據(jù)變化有較強(qiáng)的適應(yīng)能力,但這都是建立在系統(tǒng)數(shù)據(jù)比較清潔的基礎(chǔ)上的。當(dāng)系統(tǒng)數(shù)據(jù)存在異常數(shù)據(jù)時(shí),要兼顧異常數(shù)據(jù)的作用,其建模的精度會(huì)大幅度下降,模型性能并不能令人因此,異常數(shù)據(jù)并不是全是對數(shù)據(jù)分析完全無用的數(shù)據(jù)。那么,對于以上兩類異常數(shù)據(jù)的分析就是我們所說的異常數(shù)據(jù)檢測(outlierdetecting)。本文基于實(shí)例著重從數(shù)據(jù)采集設(shè)備異常數(shù)據(jù)檢測的角度來探討各種異常數(shù)據(jù)檢測方法的有效性和實(shí)用性。傳感器所采集的原始數(shù)據(jù)是某設(shè)定采樣頻率下采集的與某時(shí)間序列相對應(yīng)的數(shù)據(jù),故原始采集數(shù)據(jù)可視為時(shí)間序列數(shù)據(jù),
43、其處理流程如圖2-1所示。對于原始采集數(shù)據(jù),由于環(huán)境噪聲、儀器設(shè)備等原因,在長時(shí)間的連續(xù)采集中不可避免的會(huì)出現(xiàn)異常數(shù)據(jù),因此監(jiān)測數(shù)據(jù)處理流程的第一步就是進(jìn)行數(shù)據(jù)可靠性檢驗(yàn),分析數(shù)據(jù)異常原因,將可靠數(shù)據(jù)與異常數(shù)據(jù)分開保存。對于經(jīng)過可靠性檢驗(yàn)后的原始采集數(shù)據(jù),根據(jù)采集數(shù)據(jù)類型的不同,將分別在時(shí)域和頻域內(nèi)進(jìn)行處理分析。時(shí)域分析具有直觀和準(zhǔn)確的優(yōu)點(diǎn),可直接在時(shí)間域內(nèi)對時(shí)間序列數(shù)據(jù)進(jìn)行處理分析,能夠便利的表達(dá)數(shù)據(jù)變化趨勢以及特征值,比較適合例如應(yīng)力、應(yīng)變、位移等監(jiān)測數(shù)據(jù)的處理。頻域分析通過圖解分析法分析數(shù)據(jù)在頻域內(nèi)的能量分布來獲取特征參數(shù),比較適合例如風(fēng)機(jī)振動(dòng)等監(jiān)測數(shù)據(jù)的處理。傳感器類型為振弦傳感器由于
44、傳感器系統(tǒng)中的振弦式傳感器是通過熱敏電阻來測量溫度值的,因此數(shù)據(jù)采集與傳輸系統(tǒng)中通用振弦采集儀采集與輸出的原始數(shù)據(jù)亦為電阻值,在應(yīng)力數(shù)據(jù)處理與分析子系統(tǒng)中需要對輸出的溫度值進(jìn)行二次加工處理,轉(zhuǎn)換為溫度值。振弦式傳感器是利用被測結(jié)構(gòu)物的應(yīng)變與振弦頻率之間的關(guān)系來測量應(yīng)變的,數(shù)據(jù)采集與傳輸系統(tǒng)輸出的頻率值,通過一定的轉(zhuǎn)換可得到結(jié)構(gòu)應(yīng)變增量,具體公式為y&=CxK(fl2-f02)式中4卩&為微應(yīng)變增量;C為振弦式傳感器平均修正系數(shù)(取值由商家提供);K為振弦式傳感器標(biāo)準(zhǔn)系數(shù)(取值由商家提供);fl為本次測試頻率讀數(shù)(單位:Hz);f0為上次測試頻率讀數(shù)(單位:Hz)。經(jīng)過長時(shí)間分析應(yīng)力數(shù)據(jù)的異?,F(xiàn)象,可以把異常數(shù)據(jù)按照產(chǎn)生原因分為兩類。一類:由于自然界的強(qiáng)干擾產(chǎn)生的,如雷電。這類異常數(shù)據(jù)的特點(diǎn)是跳躍非常大;另一類:由于傳感器采集傳輸系統(tǒng)中某環(huán)節(jié)偶爾的工作不穩(wěn)定產(chǎn)生的,這類異常數(shù)據(jù)的特點(diǎn)是跳躍較小。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 快速掌握裁判知識(shí)的試題及答案
- 2024年裁判員考試應(yīng)對技巧試題及答案
- 農(nóng)作物種子繁育員的道德責(zé)任試題及答案
- 2024年種子繁育員考試每周學(xué)習(xí)計(jì)劃試題及答案
- 2024年游泳救生員考試注意事項(xiàng)試題
- 提高考試通過率的裁判員試題及答案
- 農(nóng)作物種子繁育員資格考試試題及答案在線解析
- 2024年國家公務(wù)員考試國考國家稅務(wù)系統(tǒng)結(jié)構(gòu)化面試真題試題試卷及答案解析7套全
- 農(nóng)業(yè)植保員考試政策變化影響試題及答案
- 2024年農(nóng)業(yè)植保員資格考試的新情況與應(yīng)對策略試題及答案
- 福建省龍巖市一級校2024-2025學(xué)年高二下學(xué)期4月期中聯(lián)考 數(shù)學(xué)試題(含答案)
- 2025年街道全面加強(qiáng)鄉(xiāng)村治理工作實(shí)施方案
- 湖北省武漢市2025屆高中畢業(yè)生四月調(diào)研考試英語試題(無答案)
- 護(hù)理不良事件報(bào)告及管理制度
- 小米供應(yīng)鏈管理案例分析
- 黃岡市2025年春季九年級調(diào)研考試道德與法治試卷
- 2025至2030年中國集成電路(IC)制造產(chǎn)業(yè)全景調(diào)查及投資咨詢報(bào)告
- 2025“十五五”金融規(guī)劃研究白皮書
- 9.2法律保障生活(教案) -2024-2025學(xué)年統(tǒng)編版道德與法治七年級下冊
- 2025年鄉(xiāng)村全科執(zhí)業(yè)助理醫(yī)師考試目的明確試題及答案
- 北京市海淀區(qū)2025屆高三一模思想政治試卷(含答案)
評論
0/150
提交評論