基于模糊核匹配追尋的特征模式識(shí)別_第1頁
基于模糊核匹配追尋的特征模式識(shí)別_第2頁
基于模糊核匹配追尋的特征模式識(shí)別_第3頁
基于模糊核匹配追尋的特征模式識(shí)別_第4頁
基于模糊核匹配追尋的特征模式識(shí)別_第5頁
已閱讀5頁,還剩13頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、計(jì)算機(jī)學(xué)報(bào)2009年8期 基于模糊核匹配追尋的特征模式識(shí)別李青 焦李成 周偉達(dá) (南京電子技術(shù)研究所1313信箱100分箱 南京 210013) (西安電子科技大學(xué)智能信息處理研究所 西安710071)摘要:核匹配追尋算法是近年來新興的模式識(shí)別方法,在處理非線性及高維模式識(shí)別問題中表現(xiàn)出了突出的優(yōu)點(diǎn)。傳統(tǒng)的核匹配追尋在處理模式識(shí)別的問題中平等地對(duì)待所有樣本,最終的判決函數(shù)是針對(duì)所有樣本的一個(gè)平等綜合考慮,要求總識(shí)別誤差盡可能的小,并不能對(duì)某一類指定的樣本進(jìn)行針對(duì)性地識(shí)別,然而實(shí)際應(yīng)用中經(jīng)常會(huì)碰到這樣的情況:要求對(duì)某一類樣本的識(shí)別精度很高,尤其是對(duì)于非平衡樣本中或者對(duì)于具有時(shí)間屬性的樣本序列,由

2、于標(biāo)準(zhǔn)核匹配追尋學(xué)習(xí)機(jī)自身的局限性,使其不能有效地處理這些問題。本文針對(duì)這些問題,提出了模糊核匹配追尋學(xué)習(xí)機(jī),預(yù)先根據(jù)分類的要求對(duì)每個(gè)樣本做出了不同的重要性定義,學(xué)習(xí)機(jī)根據(jù)重要性不同,對(duì)樣本進(jìn)行程度不同的學(xué)習(xí),最終得到基于問題的判決對(duì)重要樣本保持很高的分類精度;最后通過實(shí)際的仿真實(shí)驗(yàn)證明了模糊匹配追尋的有效性及可行性。關(guān)鍵詞 機(jī)器學(xué)習(xí);核匹配追尋;模糊;時(shí)間序列; 特征目標(biāo)識(shí)別1、 引言核匹配追尋(Kernel Matching Pursuit,即KMP)是近年來新提出的一種模式識(shí)別方法,它首先通過核映射將訓(xùn)練樣本映射成為一組基原子字典,通過貪婪算法在基函數(shù)字典中尋找一組基原子的線性組合來最小

3、化損失函數(shù),該線性組合即為所要求解的判別函數(shù)。核匹配追尋分類器的分類性能幾乎可以達(dá)到支撐矢量機(jī)的分類性能,同時(shí)較其他經(jīng)典的核機(jī)器算法相比,具有更為稀疏的解1。然而在實(shí)際問題中,存在這樣幾種情況:1)對(duì)指定類別的識(shí)別精度有特殊性要求在識(shí)別問題中,一類樣本(或某些樣本)比另一類樣本(或其余樣本)更為重要,要求對(duì)這些重要樣本的識(shí)別精度要高(例如對(duì)癌細(xì)胞的檢測(cè)、非法入侵的檢測(cè));2)所獲得的樣本是具有特征時(shí)間屬性的,也就是說,在某些特定的問題中,某一時(shí)間段內(nèi)的樣本相比其他樣本具有更為重要的意義,這就需要對(duì)處于這一時(shí)間段內(nèi)的樣本給予特殊地對(duì)待,使得這些樣本對(duì)最終的判決起到更為重要的貢獻(xiàn);3)非平衡樣本的

4、識(shí)別,在很多實(shí)際的問題中,兩類樣本的個(gè)數(shù)是不平衡的,尤其是當(dāng)所采得的特征樣本(或弱勢(shì)樣本)相對(duì)于另一類樣本很少時(shí),對(duì)弱勢(shì)樣本的識(shí)別就變得非常困難,由于傳統(tǒng)核匹配追尋的最終決策是針對(duì)整個(gè)樣本集做出的綜合考慮,這就使得學(xué)習(xí)機(jī)弱勢(shì)樣本識(shí)別很難。雖然核匹配追尋已經(jīng)成功地應(yīng)用于許多領(lǐng)域,如人臉識(shí)別,手寫體識(shí)別,筆記身份鑒定,數(shù)據(jù)挖掘等3,5;然而,傳統(tǒng)的核匹配追尋在處理模式識(shí)別的問題中平等地對(duì)待所有的樣本,最終的求解是對(duì)錯(cuò)分誤差和分類間隔進(jìn)行折中的結(jié)果,它可以對(duì)兩類樣本做出平等綜合的考慮,要求總識(shí)別誤差盡可能的小,并不能對(duì)某一類或某一些指定的樣本進(jìn)行針對(duì)性的識(shí)別,這就限制了核匹配追尋在這些有特殊要求問題

5、中的應(yīng)用。本文認(rèn)真分析了核匹配追尋的原理,提出了模糊核匹配追尋,根據(jù)樣本之間的重要性,對(duì)每個(gè)樣本分別設(shè)定不同的模糊因子,使得學(xué)習(xí)機(jī)訓(xùn)練出針對(duì)目標(biāo)樣本的決策,進(jìn)一步擴(kuò)展了核匹配追尋的應(yīng)用范圍。最后,通過實(shí)際的實(shí)驗(yàn)證明了模糊核匹配追尋的可行性及有效性。2、 核匹配追尋2.1 基本匹配追尋算法給定個(gè)觀測(cè)點(diǎn),相應(yīng)的觀測(cè)值為。匹配追尋的基本思想是:在一個(gè)高度冗余的字典(dictionary)空間D中將觀測(cè)值為分解為一組基函數(shù)的線性組合,其中字典D是定義在希爾伯特空間中的一組基函數(shù)2,3。假定字典包含M個(gè)基函數(shù): (1)同時(shí),定義損失函數(shù)(亦稱為重構(gòu)誤差): (2)其中,稱為殘差,是對(duì)個(gè)觀測(cè)點(diǎn)的觀測(cè)值的逼

6、近。匹配追尋算法在每一步的迭代中從字典中尋找一個(gè)基函數(shù)及其相應(yīng)的系數(shù),使得當(dāng)時(shí),當(dāng)前的殘差能量最小,即 (3)由匹配追尋算法4, (4) (5)其中,表示兩個(gè)向量的點(diǎn)積,表示向量的二范數(shù)。由上可知,匹配追尋實(shí)際上采用了貪婪算法,每次迭代都是從字典中查找與當(dāng)前殘差相關(guān)系數(shù)最大的基函數(shù)分量,隨著分解次數(shù)的增加,式(5)右端基函數(shù)向量的線性組合理論上可以任意的逼近原始觀測(cè)值,但是通常在滿足某種精度條件時(shí)就終止了,如殘差能量低于某一閾值,或者當(dāng)基函數(shù)的個(gè)數(shù)大于預(yù)先設(shè)定的值。2. 2 后擬合匹配追尋算法基本匹配追尋算法在每一步的優(yōu)化迭代中,針對(duì)當(dāng)前殘差尋找與之相關(guān)系數(shù)最大的基函數(shù)及其系數(shù),這樣,觀測(cè)值在

7、第代的逼近為: (6)然而,當(dāng)增加后,匹配追尋在第代對(duì)觀測(cè)值的逼近并不一定是最優(yōu)的;可以通過后擬合的方法修正,使其進(jìn)一步逼近觀測(cè)值5。所謂后擬合,就是增加項(xiàng)后,重新調(diào)整系數(shù),使得當(dāng)前的殘差能量最小,即: (7)上式的優(yōu)化過程是一個(gè)非常耗時(shí)的計(jì)算,通常采用折中的方法:匹配追尋算法在迭代運(yùn)算數(shù)步后進(jìn)行一次后擬合3。2.3 核匹配追尋核匹配追尋實(shí)際上是將匹配追尋應(yīng)用于機(jī)器學(xué)習(xí)問題中的一個(gè)非常簡(jiǎn)單的思想:采用核方法生成函數(shù)字典1。給定核函數(shù),利用觀測(cè)點(diǎn)處的核函數(shù)值生成函數(shù)字典:。核方法的應(yīng)用受啟發(fā)于機(jī)器學(xué)習(xí)方法中的支撐矢量機(jī);在支撐矢量機(jī)中,應(yīng)用的核函數(shù)要滿足Mercer條件6,7,然而在匹配追尋中,

8、核函數(shù)不必滿足次條件,并且,可以在生成函數(shù)字典時(shí)同時(shí)采用多個(gè)核函數(shù)。通常采用的核函數(shù)有8,9:1) 多項(xiàng)式核 2) 徑向基核 3) Sigmoid核 2.4 損失函數(shù)的拓展基本的匹配追蹤算法采用的損失函數(shù)是能量損失函數(shù)(即平方損失函數(shù)),可以通過梯度下降法將匹配追蹤的損失函數(shù)進(jìn)行拓展,使學(xué)習(xí)機(jī)能夠?qū)θ我饨o定的損失函數(shù)進(jìn)行學(xué)習(xí)。假設(shè)損失函數(shù),當(dāng)觀測(cè)值為時(shí)計(jì)算預(yù)測(cè)值的殘差定義如下1: (8)那么,由匹配追蹤算法,在每一次迭代中所要尋求的最優(yōu)基函數(shù)為 (9)對(duì)應(yīng)該最優(yōu)基函數(shù)的系數(shù)為: (10)此時(shí),后擬合即是進(jìn)行如下的優(yōu)化過程: (11)通常在神經(jīng)網(wǎng)絡(luò)中所采用的損失函數(shù)均可以應(yīng)用于核匹配追蹤學(xué)習(xí)機(jī)中

9、,例如:1) 平方損失: (12)2) 修正雙曲正切損失: (13)由于在分類問題中,觀測(cè)值,故而,將核匹配追蹤方法應(yīng)用于分類領(lǐng)域中可以采用間隔損失函數(shù),假定分類器輸出為,則間隔損失損失函數(shù)為:1) 平方間隔損失: (14)2) 修正雙曲正切間隔損失: (15)其中,稱為分類間隔。最終,由核匹配追蹤學(xué)習(xí)機(jī)訓(xùn)練所得到的判決超平面為: (16)其中 KMP的訓(xùn)練類似于支撐矢量機(jī)(SVM),即每一個(gè)訓(xùn)練樣本均對(duì)應(yīng)一個(gè)系數(shù),而決策超平面僅取決于那些對(duì)應(yīng)系數(shù)不為零的樣本,為了區(qū)分于支撐矢量機(jī)中關(guān)于支撐矢量(SV)的定義,我們將核匹配追尋中對(duì)應(yīng)系數(shù)不為零的樣本稱為支撐模式(Support Pattern,

10、簡(jiǎn)寫為SP)。表示由模糊核匹配追尋算法得到的支撐模式。3、 模糊核匹配追尋(Fuzzy Kernel Matching Pursuit,即Fuzzy KMP 或FKMP)3.1 基于平方損失函數(shù)的模糊學(xué)習(xí)機(jī)核匹配追尋在模式識(shí)別領(lǐng)域中表現(xiàn)了顯著的優(yōu)勢(shì),然而,由于算法本身的特點(diǎn),限制了對(duì)一些特定問題的應(yīng)用(如時(shí)間序列樣本識(shí)別等)。下面,我們將詳細(xì)建立模糊核匹配追尋,對(duì)傳統(tǒng)的核匹配追尋進(jìn)行擴(kuò)展。由(2)式,傳統(tǒng)的核匹配追尋采用平方損失,并令殘差,通過該殘差函數(shù),任意一點(diǎn)的殘差均等于目標(biāo)值與該點(diǎn)的逼近值的差值。這樣,所有樣本的殘差定義并沒有區(qū)別,從而使得標(biāo)準(zhǔn)KMP算法平等地對(duì)待所有的樣本,最終做出的判

11、決也是對(duì)所有樣本的一個(gè)平等綜合考慮,要求總識(shí)別誤差盡可能的小,并不能對(duì)某一類指定的樣本進(jìn)行針對(duì)性地識(shí)別。然而在實(shí)際的問題中,樣本之間的重要性是不同的(如癌變細(xì)胞與正常細(xì)胞),問題的核心就是對(duì)這些具有重要的樣本做出盡可能準(zhǔn)確的判別。本文提出了模糊核匹配追尋,根據(jù)每個(gè)樣本的重要性對(duì)其賦予不同的權(quán)重(稱之為模糊因子),并根據(jù)模糊因子重新定義其殘差,使得學(xué)習(xí)機(jī)對(duì)每一個(gè)樣本的學(xué)習(xí)程度不同,對(duì)應(yīng)較大的要求學(xué)習(xí)機(jī)對(duì)其充分學(xué)習(xí),盡可能地保證識(shí)別正確,而對(duì)于較小的則要求學(xué)習(xí)機(jī)僅對(duì)其進(jìn)行粗略的學(xué)習(xí)。這樣,學(xué)習(xí)機(jī)最終得到的判別函數(shù)就是考慮了不同權(quán)重樣本的結(jié)果,能夠?qū)?quán)重高的樣本做出盡可能精確的識(shí)別。首先,我們給出如

12、下定義:定義(運(yùn)算):對(duì)于兩個(gè)向量,向量之間的運(yùn)算定義為 (17)同時(shí), (18)下面,我們?cè)敿?xì)地建立基于平方損失函數(shù)的模糊核匹配追尋。給定樣本,其中為其特征,為觀測(cè)值,為其相應(yīng)的權(quán)重因子(模糊因子),采用核函數(shù),利用觀測(cè)點(diǎn)處的核函數(shù)值生成函數(shù)字典:。重新定義殘差 (19)其中,是第點(diǎn)的估計(jì)值,則其重構(gòu)誤差為 (20)由匹配追尋算法, (21)則 (22)尋找相應(yīng)的,使得重構(gòu)誤差最小,令,可得 (23)故 (24)將代入(21),得 (25)由上,模糊核匹配追尋即是在由核函數(shù)生成的字典D中,尋找基函數(shù),使得最小,即 (26)(27)式等價(jià)為 (27)相應(yīng)的 (28)采用同標(biāo)準(zhǔn)匹配追尋相似的方法

13、,每fitN步進(jìn)行一次后擬合來修正系數(shù),使進(jìn)一步逼近觀測(cè)值,即: (29)最終得到判決函數(shù) (30)其中表示由模糊核匹配追尋算法得到的支撐模式。3.2 基于任意損失函數(shù)的模糊核匹配追蹤學(xué)習(xí)機(jī)類似于核匹配追蹤學(xué)習(xí)機(jī)向非平方損失函數(shù)地拓展策略,采用梯度下降法將模糊核匹配追蹤學(xué)習(xí)機(jī)拓展到任意的非平方損失函數(shù)。給定某損失函數(shù),結(jié)合模糊因子我們重新建立基于損失函數(shù)的自適應(yīng)殘差為,即 (31)利用貪婪算法,在第N1步迭代中,最優(yōu)基原子和相應(yīng)的系數(shù)為 (32) (33)當(dāng)增加后,匹配追蹤在第代對(duì)觀測(cè)值的逼近并不一定是最優(yōu)的;仍然通過后擬合的方法修正,使其進(jìn)一步逼近觀測(cè)值,即重新調(diào)整系數(shù),使得當(dāng)前的自適應(yīng)殘差

14、能量最小: (34)最后得到的模糊核匹配追蹤學(xué)習(xí)機(jī)的判決超平面為 (35)其中表示由模糊匹配追蹤算法得到的支撐模式。3.3 模糊參數(shù)的選取模糊核匹配追尋根據(jù)每個(gè)樣本的重要性對(duì)其賦予不同的權(quán)重(稱之為模糊因子),使得學(xué)習(xí)機(jī)對(duì)每一個(gè)樣本的學(xué)習(xí)程度不同,對(duì)應(yīng)較大的要求學(xué)習(xí)機(jī)對(duì)其充分學(xué)習(xí),而對(duì)于較小的則要求學(xué)習(xí)機(jī)僅對(duì)其進(jìn)行粗略的學(xué)習(xí),從而使得不同的樣本對(duì)最終的判決函數(shù)做出相應(yīng)的貢獻(xiàn)。3.3.1 階躍參數(shù)在實(shí)際的應(yīng)用中,經(jīng)常碰到這樣一種問題:要求對(duì)其中一類樣本的識(shí)別精度很高,甚至只考慮對(duì)指定類別樣本的識(shí)別(如對(duì)癌癥細(xì)胞的識(shí)別),這就使得指定類別樣本比其余樣本更為重要,要求對(duì)這類樣本的識(shí)別精度很高,此時(shí)模

15、糊因子選取如下: (36)這里,是折中因子,對(duì)兩類樣本的識(shí)別精度取折中(在這一類問題中,即使我們對(duì)非指定類別產(chǎn)生較大的錯(cuò)分誤差,它帶來的風(fēng)險(xiǎn)仍然比較小錯(cuò)識(shí)指定類別造成的風(fēng)險(xiǎn)低,所以,允許學(xué)習(xí)機(jī)對(duì)非指定類別有一個(gè)較低的識(shí)別率,而對(duì)指定類別必須具有較高的精度識(shí)別):D越大,對(duì)指定類別的樣本學(xué)習(xí)程度越充分,識(shí)別精度越高,同時(shí)非指定類別樣本的識(shí)別精度損失也越大。3.3.2 時(shí)間參數(shù)在某些特定的工程應(yīng)用(如經(jīng)濟(jì)預(yù)測(cè)、氣象預(yù)報(bào)等)中,樣本是隨著時(shí)間逐次到達(dá)的,并且由先驗(yàn)信息已知某時(shí)間段或晚到的樣本具有相對(duì)重要的意義。因而,設(shè)計(jì)模糊函數(shù)是對(duì)時(shí)間的函數(shù) 在時(shí)間參數(shù)中,本文給出的時(shí)間參數(shù)是基于“晚到的樣本具有相

16、對(duì)重要的意義”這一情況,對(duì)于“特定時(shí)間段內(nèi)的重要樣本”,其模糊因子的設(shè)定可采用3.3.1節(jié)中階躍參數(shù)的形式。,可以采用如下的表達(dá)形式10 (37)這里,代表第個(gè)到達(dá)的樣本,共采集到個(gè)樣本,是衰減因子,為遺忘因子,通過圖1和圖2可以清晰地看出隨時(shí)間及衰減因子、遺忘因子的變化。圖1. 時(shí)間參數(shù)圖,(x軸為樣本序列;當(dāng)時(shí),均為0.5,隨著的增大,函數(shù)左半部分下降,右半部分上升,至?xí)r,相當(dāng)于階躍函數(shù))圖2. 時(shí)間參數(shù)圖,(x軸為樣本序列;當(dāng)時(shí),大部分先前的樣本被遺忘,隨著的減小,被遺忘的樣本數(shù)量下降)4、 仿真試驗(yàn)4.1 指定樣本高精度識(shí)別產(chǎn)生兩類交錯(cuò)的同心圓樣本,其中第一類樣本的半徑是均勻分布,第二

17、類樣本的半徑是均勻分布,兩類樣本各50個(gè)作為訓(xùn)練樣本,采用RBF核,核匹配追尋本文中,KMP均采用了早停策略(即預(yù)設(shè)貪婪算法的最大迭代次數(shù),用maxN表示);fitN表示每經(jīng)過fitN步進(jìn)行一次后擬合,參見文獻(xiàn)1。參數(shù)maxN30,fitN4對(duì)樣本進(jìn)行實(shí)驗(yàn)了實(shí)驗(yàn),采用折中因子選取。分別用 “+”和“”表示兩類樣本,要求對(duì)樣本“”(即中心區(qū)域樣本)的識(shí)別精度盡可能高。圖3、圖4分別給出了用標(biāo)準(zhǔn)核匹配追尋和模糊核匹配追尋識(shí)別的結(jié)果,從圖中清晰地看出,模糊核匹配追尋能夠很好地滿足我們的要求,對(duì)“”樣本達(dá)到100的識(shí)別,而標(biāo)準(zhǔn)核匹配追尋則不能。圖3:標(biāo)準(zhǔn)核匹配追尋對(duì)同心圓樣本的識(shí)別圖4:模糊核匹配追尋

18、對(duì)同心圓樣本的識(shí)別(要求對(duì)“”樣本的識(shí)別精度)4.2 時(shí)間序列樣本識(shí)別產(chǎn)生兩類交錯(cuò)分布的同心圓樣本各26個(gè);用數(shù)字記錄該樣本的位置及到達(dá)時(shí)刻,用陰影數(shù)字兩類樣本;分別用標(biāo)準(zhǔn)核匹配追尋和本文提出的模糊匹配追尋對(duì)兩類樣本進(jìn)行了識(shí)別,要求能夠?qū)π路f樣本的識(shí)別率盡可能高。實(shí)驗(yàn)采用時(shí)間學(xué)習(xí)因子選取,RBF核參數(shù),核匹配追尋參數(shù)maxN30,fitN4。圖5是標(biāo)準(zhǔn)核匹配追尋給出的結(jié)果,圖6是模糊核匹配追尋給出的分類結(jié)果。由圖可知:模糊核匹配追尋對(duì)最后采得的20個(gè)樣本作出了精確的分類而傳統(tǒng)的核匹配追尋則不然。圖5:標(biāo)準(zhǔn)核匹配追尋對(duì)時(shí)間序列樣本的識(shí)別圖6:模糊核匹配追尋對(duì)時(shí)間序列樣本的識(shí)別4.3 FKMP有效

19、性測(cè)試選取UCI /mlearn/MLRepository.html數(shù)據(jù)庫中的Heart Disease數(shù)據(jù),Heart Disease數(shù)據(jù)由13個(gè)含噪特征屬性和一個(gè)類別屬性構(gòu)成,是一個(gè)2類問題,共270個(gè)樣本,選取170個(gè)樣本進(jìn)行訓(xùn)練(74個(gè)正類樣本),其余100個(gè)樣本中的44個(gè)正類樣本作測(cè)試。實(shí)驗(yàn)中模糊核匹配追尋選取階越參數(shù),圖7給出了不同折中因子D取值下對(duì)正類樣本和負(fù)類樣本的測(cè)試誤差。其中,核匹配追尋參數(shù)選取:maxN=80,fitN8,RBF核參數(shù),模糊因子在0.01,0.5上等間采樣50次。由圖可知:隨著D的增大,目標(biāo)樣本的識(shí)別誤差隨之下降。

20、圖7:階越學(xué)習(xí)因子D對(duì)目標(biāo)樣本識(shí)別影響4.4 對(duì)實(shí)際數(shù)據(jù)的測(cè)試選取UCI數(shù)據(jù)庫中的Breast Cancer、Diabetis、Heart Disease及Thyroid數(shù)據(jù)對(duì)本文提出的模糊核匹配追尋算法進(jìn)行測(cè)試。其中,Breast Cancer數(shù)據(jù)由9個(gè)含噪特征屬性和一個(gè)類別屬性構(gòu)成,是一個(gè)2類問題,共277個(gè)樣本,選取200個(gè)作為檢驗(yàn)樣本,其余77個(gè)樣本中的23個(gè)正類樣本作測(cè)試;Pima Indians Diabetes數(shù)據(jù)由8個(gè)含噪特征屬性和一個(gè)類別屬性構(gòu)成,是一個(gè)2類問題,共768個(gè)樣本,選取256個(gè)樣本進(jìn)行訓(xùn)練,其余512個(gè)樣本中的174個(gè)正類樣本作測(cè)試; Thyroid數(shù)據(jù)由5個(gè)含

21、噪特征屬性和一個(gè)類別屬性構(gòu)成,是一個(gè)2類問題,共215個(gè)樣本,選取140個(gè)樣本進(jìn)行訓(xùn)練,其余75個(gè)樣本中的26個(gè)正類樣本作測(cè)試。在本實(shí)驗(yàn)中,我們更為關(guān)注對(duì)于正類樣本的分類性能,這是因?yàn)檎悩颖揪坍嬃藱z測(cè)呈陽性的病理狀態(tài),學(xué)習(xí)機(jī)的任務(wù)就是要對(duì)這一類樣本盡可能的精確識(shí)別。實(shí)驗(yàn)參數(shù):采用RBF核,對(duì)于Breast Cancer數(shù)據(jù)maxN=60,fitN5,模糊因子;對(duì)于Pima Indians數(shù)據(jù)maxN=100,fitN8,模糊因子,對(duì)于Thyroid數(shù)據(jù)maxN=50,fitN3,模糊因子,分別用標(biāo)準(zhǔn)KMP和FKMP對(duì)病理類別特征樣本進(jìn)行識(shí)別測(cè)試。我們是在matlab環(huán)境下,P43.2GHz

22、、2G內(nèi)存的微機(jī)上獨(dú)立進(jìn)行30次實(shí)驗(yàn)取平均的結(jié)果,表1給出了具體的實(shí)驗(yàn)結(jié)果。由于采用的樣本為非平衡樣本(即兩類樣本個(gè)數(shù)相差較大),傳統(tǒng)的核匹配追尋不能對(duì)弱勢(shì)樣本(數(shù)量小的一類樣本)進(jìn)行有效的識(shí)別,甚至失去了識(shí)別能力(識(shí)別率50),而采用模糊核匹配追尋,就可以有效地解決這一問題,仿真的試驗(yàn)結(jié)果中,當(dāng)標(biāo)準(zhǔn)KMP對(duì)弱勢(shì)樣本的識(shí)別率50(34.78)時(shí),利用模糊KMP,仍然可以使識(shí)別精度可以達(dá)到99以上。表1:對(duì)UCI非平衡數(shù)據(jù)的測(cè)試數(shù) 據(jù)訓(xùn)練樣本檢驗(yàn)樣本損失函數(shù)算法支撐模式識(shí)別率Breast Cancer類:58類:142類:23Loss-mse Loss-mse表示核匹配追尋采用平方損失函數(shù)。Fu

23、zzy KMP499.92KMP5534.78Loss-tanh Loss-tanh表示核匹配追尋采用修正雙曲正切損失函數(shù)。Fuzzy KMP699.87%KMP6433.56%Pima Indians Diabetes類:94類:162類:174Loss-mseFuzzy KMP8799.14KMP10056.32Loss-tanhFuzzy KMP6999.25%KMP10257.22%Thyroid類:39類:101類:26Loss-mseFuzzy KMP50100KMP5084.62Loss-tanhFuzzy KMP48100%KMP5083.69%5、 總結(jié)核匹配追尋具有很強(qiáng)的推

24、廣能力,強(qiáng)大的非線性處理能力和高維處理能力,同時(shí)較其他核機(jī)器相比,其稀疏性更優(yōu)。然而在實(shí)際問題中經(jīng)常遇到這樣幾種情況:1)所獲得的樣本是具有時(shí)間屬性的;2)要求其中一類樣本的識(shí)別精度;3)非平衡樣本的識(shí)別。由于傳統(tǒng)的核匹配追尋在處理模式識(shí)別的問題平等對(duì)待所有的樣本,它要求總識(shí)別誤差盡可能的小,但是并不能對(duì)某一類或某一些指定的樣本進(jìn)行針對(duì)性的識(shí)別,這就限制了核匹配追尋在這些實(shí)際問題中的應(yīng)用。針對(duì)這些問題,本文提出了模糊核匹配追尋,根據(jù)問題的要求對(duì)每個(gè)樣本作出重要性定義,學(xué)習(xí)機(jī)可以根據(jù)樣本的重要性定義進(jìn)行程度不同的學(xué)習(xí),對(duì)次要的樣本粗略學(xué)習(xí),而對(duì)重要的樣本進(jìn)行充分學(xué)習(xí),使學(xué)習(xí)機(jī)的最終判決對(duì)指定的重

25、要樣本達(dá)到較高的識(shí)別精度。本文進(jìn)行了大量的仿真實(shí)驗(yàn),結(jié)合分類圖例證實(shí)了模糊核匹配追尋可行性及有效性;在對(duì)UCI數(shù)據(jù)的性能測(cè)試中可以得出:當(dāng)傳統(tǒng)的核匹配追尋已不能對(duì)弱勢(shì)樣本進(jìn)行識(shí)別(識(shí)別率小于50)時(shí),模糊核匹配追尋仍然對(duì)弱勢(shì)樣本保持了較高的識(shí)別精度。參考文獻(xiàn)1 Pascal Vincent, Yoshua Bengio. Kernel matching pursuit. Machine Learning, 48:165-187, 2002.2 Mallat S., Z. Zhang (1993, Dec.). Matching pursuit with time-frequency dicti

26、onaries. IEEE Trans. Signal Proc. 41 (12), 3397-3415.3 Davis G., Mallat S., Z. Zhang. Adaptive time-frequency decompositions. Optical Engineering 33(7), 2183-2191.4 S. Mallat. A theory for nuliresolution signal decomposition: The wavelet representation. IEEE Trans. Pattern Anal. Machine Intell., vol

27、. 11, pp. 674-693, July 1989.5 Pati Y., Rezaiifar R. and Krishnaprasad P. Orthogonal Matching Pursuit: Recursive Function Approximation with Applications to Wavelet Decomposition. In Proceedings of the 27th Annual Asilomar Conference on Signals, Systems, and Computers, pp. 40-44, 1993.6 Vapnik, V.N.

28、 An overview of statistical learning theory, IEEE Trans. Neural Networks, vol. 10, no.5, pp.988-999, 1999.7 C. J. C. Burges. A tutorial on support vector machines for pattern recognition. Data Mining and Knowledge Discovery, 1998, 2(2): 1-47.8 Schlkopf, B., Smola, A. Learning with kernels. MIT Press

29、, 1999.9 Burges, C. J. Geometry and invariance in kernel based method. In advance in kernel method-Support vector learning. Cambridge, MA: MIT Press, 1999, pp. 86-116.10 Cao, L. J. and Francis, E. H. Support vector machine with adaptive parameters in financial time series forecasting. IEEE Trans. Ne

30、ural Networks, vol. 14, no. 6, pp. 1506-1518, 2003.Pattern Recognition Based on the Fuzzy Kernel Matching PursuitLI Qing, JIAO Li-cheng, Zhou Weida( Institute of Intelligent Information Processing, Xidian University, Xian 710071 ) Abstract Kernel Matching Pursuit (KMP), a novel method of the pattern

31、 recognition, presents excellent performance in solving the problems with small sample, nonlinear and local minima. KMP has been proposed to provide a good generalization performance for both classes, yet the classification precision of some important data cant be classified precisely. This is mainl

32、y because the decision function found by KMP is the synthetic consideration results of all the data, which has greatly limited its use in many practical problems, such as time series identification and unbalanced data classification. In this paper, an fuzzy kernel matching pursuit machine is (FKMP)

33、proposed, which can classify the appointed important samples much more precisely according to the predefined importance of the data. Lots of experiments have been done in the paper to prove the feasibility and validation of the fuzzy kernel matching pursuit machine.Keywords Machine Learning, Kernel

34、Matching Pursuit, Fuzzy Kernel Matching Pursuit; Time Series Identification; Unbalanced Data Classificationl BackgroundWe have made researches on many fields of the support vector machine, such as Linear programming support vector machine, kernel matching pursuit classifier ensemble, support vector regression based on unconstrained convex quadratic programming and so on, and have applied these methods to the field of S

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論