模糊數(shù)學(xué),分類器融合_第1頁
模糊數(shù)學(xué),分類器融合_第2頁
模糊數(shù)學(xué),分類器融合_第3頁
模糊數(shù)學(xué),分類器融合_第4頁
模糊數(shù)學(xué),分類器融合_第5頁
已閱讀5頁,還剩28頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、LOGO 基于模糊規(guī)則的多分類器基于模糊規(guī)則的多分類器融合融合 劉 明 袁保宗 苗振江 唐曉芳 基本內(nèi)容基本內(nèi)容v摘要v1.補充知識v2.引言v3.基于模糊規(guī)則的多分類器融合 v4.基于支持向量的模糊系統(tǒng)設(shè)計方法 v5.實驗 v6.總結(jié)v7.參考 文 獻(xiàn) Company Logo摘要 用非線性方法解決多分類器融合問題能夠取得比較高的識別率, 但是,當(dāng)前被應(yīng)用在多分類器融合領(lǐng)域中的非線性方法可理解性較差,給使用者帶來一定的困難。而基于模糊規(guī)則的模式識別方法是一類可理解性好的非線性方法,但迄今為止還沒有被應(yīng)用于多分類器融合問題中?;谏鲜隹紤],該文將模糊系統(tǒng)應(yīng)用到多分類器融合中,并且研究了如何設(shè)計

2、可理解性好、精度高的模糊系統(tǒng)的問題,提出了一種改進(jìn)的基于支持向量的模糊系統(tǒng)設(shè)計方法。該方法在從ELENA項目數(shù)據(jù)庫和UCI數(shù)據(jù)庫中選出的4個數(shù)據(jù)集上進(jìn)行了測試。實驗結(jié)果表明,該方法能夠用可理解性好的模糊系統(tǒng)實現(xiàn)低錯誤率的多分類器融合。 關(guān)鍵詞:信息融合;模式識別;模糊邏輯;支持向量機 1.補充知識1. 分類器:給出一個數(shù)據(jù)集D,機器學(xué)習(xí)的目標(biāo)是產(chǎn)生一個聯(lián)系屬性值集合A和類標(biāo)集合C的分類、預(yù)測函數(shù),這個函數(shù)的目的是預(yù)測新函數(shù)的類屬性,這個函數(shù)被稱為分類模型,預(yù)測模型,或者分類器。2. 泛化能力:概括地說,所謂泛化能力(generalization ability)是指機器學(xué)習(xí)算法對新鮮樣本的適應(yīng)

3、能力。學(xué)習(xí)的目的是學(xué)到隱含在數(shù)據(jù)對背后的規(guī)律,對具有同一規(guī)律的學(xué)習(xí)集以外的數(shù)據(jù),經(jīng)過訓(xùn)練的網(wǎng)絡(luò)也能給出合適的輸出,該能力稱為泛化能力3.K-NN算法:即K-近鄰算法, K最近鄰(k-Nearest Neighbour,KNN)分類算法,是一個理論上比較成熟的方法,也是最簡單的機器學(xué)習(xí)算法之一。該方法的思路是:如果一個樣本在特征空間中的k個最相似(即特征空間中最鄰近)Company Logo1.補充知識的樣本中的大多數(shù)屬于某一個類別,則該樣本也屬于這個類別。 用官方的話來說,所謂K近鄰算法,即是給定一個訓(xùn)練數(shù)據(jù)集,對新的輸入實例,在訓(xùn)練數(shù)據(jù)集中找到與該實例最鄰近的K個實例(也就是上面所說的K個鄰

4、居), 這K個實例的多數(shù)屬于某個類,就把該輸入實例分類到這個類中。根據(jù)這個說法,看下引自維基百科上的一幅圖:4.置信度:一條規(guī)則X Y是指即包含X有包含Y的事務(wù)的數(shù)量占所有包含X的事務(wù)是量的百分比。這樂意看做是條件概Company Logo1.補充知識率P(Y|X)一個估計,置信度的計算如下:置信度=(XY).count/X.count 置信度決定了規(guī)則的可預(yù)測程度,如果一條規(guī)則的可以測程度過低,那么就很難從X推導(dǎo)Y,置信度過低的規(guī)則在實際中應(yīng)用不大。5.支持向量機:是一種有監(jiān)督學(xué)習(xí)方法,即已知訓(xùn)練點的類別,求訓(xùn)練點和類別的之間的對應(yīng)關(guān)系,以便將訓(xùn)練集按照類別分開,或者預(yù)測新的訓(xùn)練點的所對應(yīng)的

5、類別。 支持向量機的主要思想:建立的分類超平面能夠保證分類的精度的同時,使得超平面兩側(cè)的區(qū)域最大,從而實現(xiàn)超平面的最優(yōu)分類問題。6.支持向量:是指訓(xùn)練集中的訓(xùn)練點,這些點最靠近分類決策面,是最難分類的點。Company Logo1.補充知識給出支持向量機的主要思想的概圖:8.數(shù)據(jù)壓縮法:數(shù)據(jù)壓縮是指在不丟失有用信息的前提下,縮減數(shù)據(jù)量以減少存儲空間,提高其傳輸、存儲和處理效率,或按照一定的算法對數(shù)據(jù)進(jìn)行重新組織,減少數(shù)據(jù)的冗余和存儲的空間的一種技術(shù)方法。數(shù)據(jù)壓縮包括有損壓縮和無損壓縮。Company Logo2.引言v 多分類器融合是目前模式識別領(lǐng)域的一個研究熱點,人們已經(jīng)提出了很多種融合方法

6、,如投票法1,證據(jù)理論方法2,模糊積分方法3,神經(jīng)網(wǎng)絡(luò)方法4,回歸方法5等。考慮一個一般性的多分類器融合問題,假定我們對各個分類器之間的關(guān)系不清楚,只有大量的訓(xùn)練樣本,那么我們可以認(rèn)為分類器之間的關(guān)系是復(fù)雜的,非線性的。許多研究成果表明針對這種一般性的多分類器融合問題,采用非線性方法能夠取得比較好的效果。例如實驗表明基于非線性回歸的融合方法比基于線性回歸的融合方法正確識別率高。神經(jīng)網(wǎng)絡(luò)是一種經(jīng)典的非線性方法,它已經(jīng)被證明是一種很好的多分類器融合方法4,7。證據(jù)理論方法和模糊積分方法也屬于非線性方法。但是目前已經(jīng)應(yīng)用在多分類器融合中的非線性方法可理解性較差,為使用者帶來一定的困難。這里所說的融合

7、方法的可理解性指的是融合規(guī)則形式上比較簡單,符合 人類的思維習(xí)慣,便于理解。神Company Logo2.引言 經(jīng)網(wǎng)絡(luò)由于可理解性差,被人們稱為“黑箱子”;而非線性回歸方法中要使用很多難以解釋的參數(shù);基于證據(jù)理論的方法中使用的合成規(guī)則也是很復(fù)雜的;基于模糊積分的方法的融合規(guī)則以根據(jù)模糊測度定義的模糊積分的形式表達(dá)出來,這種形式可理解性也比較差。基于模糊規(guī)則的模式識別方法是一類可理解性好的非線性方法,其融合規(guī)則可以用符號化的語言描述,符合人的思維習(xí)慣。但是這種方法還沒有被應(yīng)用在多分類器融合中?;谏鲜鲈颍疚奶岢隽嘶谀:?guī)則融合多分類器的思想。 在多分類器融合系統(tǒng)中,需要設(shè)計一種可理解性好又

8、具有比較高的精度的模糊系統(tǒng)。設(shè)計這樣一種模糊系統(tǒng)是模糊系統(tǒng)設(shè)計方法研究中的一個難題。這里提到的精度指的是函數(shù)逼近問題中的逼近精度和模式識別問題中的識別率??衫斫庑院茫鸵竽:到y(tǒng)的規(guī)則數(shù)比較少。而在規(guī)則數(shù)比較少的條件下達(dá)到比較高的精度是一個難題。為了解決這一難題,一些作者提出了基于多目標(biāo)遺傳算法的方法8,Company Logo1.引言 但是這一類方法時間復(fù)雜度很高,而在多分類器融合問題中往往包含大量的訓(xùn)練樣本,這樣訓(xùn)練一個模糊系統(tǒng)需要大量的時間。有學(xué)者提出了一種基于“特征點”設(shè)計模糊系統(tǒng)的方法,在該方法中采用了兩種減少模糊規(guī)則的算法,試圖在不降低模糊系統(tǒng)精度的條件下盡可能減少模糊規(guī)則數(shù)目。

9、這種方法需要比較多的循環(huán)操作來進(jìn)行模型優(yōu)化,每一輪循環(huán)都需要計算模糊系統(tǒng)在訓(xùn)練集上的平均誤差,所以在訓(xùn)練樣本很多的條件下仍然要使用大量的訓(xùn)練時間。本文出一種從支持向量中選取一部分有代表性的樣本點,然后根據(jù)這些樣本點產(chǎn)生模糊規(guī)則的方法。實驗證明用這種方法可以設(shè)計出模糊規(guī)則數(shù)少而精度高的模糊系統(tǒng)。 基于支持向量設(shè)計模糊系統(tǒng)的方法是由Chen等提出來的11。該方法通過支持向量機(SVM)在訓(xùn)練集上的學(xué)習(xí)確定模糊系統(tǒng)的參數(shù),使得到的模糊系統(tǒng)具有比較好的泛化能力,從而能夠得到一個高識別率的模糊分類器。這種方法在訓(xùn)練樣本比較少的情況下非常有效。而當(dāng)訓(xùn)練樣本多、數(shù)據(jù)中存在噪聲情況下,支持向量的數(shù)目很多,Co

10、mpany Logo1.引言如果根據(jù)每一個支持向量產(chǎn)生一條模糊規(guī)則,模糊系統(tǒng)的可理解性將會大大降低。過多的模糊規(guī)則使得模糊系統(tǒng)的復(fù)雜度提高,可理解性降低。本文根據(jù)基于k-近鄰的數(shù)據(jù)壓縮算法12提出了一種從支持向量中選擇一部分樣本點來產(chǎn)生模糊規(guī)則的方法,在實驗中取得了比較好的效果。Company Logo3.基模于糊規(guī)則的多分類器融合Company Logoilx12(,)iiiilllM lxxxxily12(,)iiiilllM lxxxxy基于模糊規(guī)則的多分類器融合 分類器融合方法可以分為3個層次:決策層融合、排序?qū)尤诤?、度量層融合。本文只考慮度量層融合。在這類方法中,被融合的單個分類器被

11、當(dāng)作是第0層的分類器,第0層分類器的輸出為樣本屬于各個模式類的置信度(本文中我們理解為概率);多分類器融合模塊可以看成是第1層的分類器,第1層分類器可以是一組分類器,每個分類器針對一個模式類5;也可以是一個分類器,針對所有的模式類。在本文中第1層分類器是一組模糊系統(tǒng)。 下面介紹基于模糊規(guī)則的多分類器融合 的基本框架流程如下:Company Logo基于模糊規(guī)則的多分類器融合 Company Logo3.基于模糊規(guī)則的多分類器融合 Company Logo12(,)iiiilllM lxxxx3.基于模糊規(guī)則的多分類器融合 Company Logo2nA2nAnmAnmA3.基于模糊規(guī)則的多分類

12、器融合 Company Logo其中 , 參數(shù),參數(shù), 是隸屬函數(shù)的中心。是隸屬函數(shù)的中心。 在推理引擎中采用乘法規(guī)則,在去模糊模塊中采用質(zhì)心去模糊法。模糊系統(tǒng)的輸出表示為 這里M為模糊系統(tǒng)輸入特征的維數(shù),也就是第0層分類器的數(shù)目;N為模糊規(guī)則的數(shù)目。 mnmpnmp4.向量的基于支持模糊系統(tǒng)設(shè)計方法 Company Logoyy4基于支持向量的模糊系統(tǒng)設(shè)計方法 Company Logo4.基于支持向量的模糊系統(tǒng)設(shè)計方法 采用高斯隸屬函數(shù)可以保證 從而可以簡化為:假設(shè)模糊子集序列的隸屬函數(shù)中心為輸入空間中的一點 ,則可以定義一個核函數(shù) Company Logo12(,)nnnnmpp pp4基

13、于支持向量的模糊系統(tǒng)設(shè)計方法 Company Logonmpm4基于支持向量的模糊系統(tǒng)設(shè)計方法 Chen提出的方法雖然可以采用核方法求出模糊系統(tǒng)的參數(shù),是的生成的模糊系統(tǒng)在解決分類問題時有較高識別率,適用于訓(xùn)練樣本比較少的情況。在多分類器融合問題中,通常訓(xùn)練樣本很多,而且每個分類器輸出的數(shù)據(jù)存在比較大的噪聲,這些因素導(dǎo)致非常多的支持向量。如果根據(jù)每一個支持向量產(chǎn)生一條模糊規(guī)則,那么模糊規(guī)則的數(shù)量非常多。過多的模糊規(guī)則使得系統(tǒng)的復(fù)雜度提高而可理解性降低。 為了解決這一問題,我們改進(jìn)了這個方法,基于k近鄰的數(shù)據(jù)壓縮方法是一種多分辨率的方法,其主要思想是從原始數(shù)據(jù)中選擇一些代表性的數(shù)據(jù)。然后我們將其

14、和基于支持向量設(shè)計模糊系統(tǒng)的方法結(jié)合,主要內(nèi)容是在支持向量構(gòu)成的集合中求數(shù)據(jù)樣本的k-近鄰距離,然后在所有訓(xùn)練樣本組成的集合上估計局部密度,最后選取局部密度最大的支持向量并刪除被它覆蓋的其它支持向量。Company Logo4.基于支持向量機的模糊系統(tǒng)設(shè)計方法 Company Logo12(,)ssssllMlvv vv4基于支持向量機的模糊系統(tǒng)設(shè)計方法Company Logo21!Msmnqsmlmlrnrdvv4基于支持向量機的模糊系統(tǒng)設(shè)計方法Company Logoilyilxily,iillyxily4基于支持向量機的模糊系統(tǒng)設(shè)計方法下面進(jìn)入本文的實驗部分:在實驗中采用了ELENA項目

15、中的Clouds數(shù)據(jù)集,Phoneme 數(shù)據(jù)集,Satimage 和UCI數(shù)據(jù)庫中的Waveform 數(shù)據(jù)集。每個數(shù)據(jù)集被平均分為訓(xùn)練集和測試集兩部分,不需要額外的數(shù)據(jù)來訓(xùn)練融合算法。被融合的單個分類器被稱為第0層分類器。對于只包含兩個模式類,樣本維數(shù)比較低的Clouds數(shù)據(jù)集和Phoneme數(shù)據(jù)集,本文采用相同輸入特征不同分類器的方法生成第0層分類器。采用的第0層分類器有:SVM,多層感知器(MLP)和k-近鄰(k-NN)。對于SVM,根據(jù)決策函數(shù)計算樣本屬于各模式類的概率,具體方法見文獻(xiàn)15;對于MLP,通過調(diào)整其結(jié)構(gòu)參數(shù)和訓(xùn)練方法使其輸出為樣本屬于各模式類的概率。對k-NN, 根據(jù)k-N

16、N中各類樣本的數(shù)量來計算樣本屬于各模式類的概率,對于包含多個模式類,樣本維數(shù)比較高的Satimage 和Waveform 數(shù)據(jù)集,本文采用子空間方法各生成5個10-NN分類器。對于每個10-NN分類器,從原始數(shù)據(jù)集的特征中隨機選取一部分特征作為它的輸入特征。在S數(shù)據(jù)集和 W數(shù)據(jù)集上的10-NN分類器的輸入特征的數(shù)目為15和10。 Company Logo4基于支持向量機的模糊系統(tǒng)設(shè)計方法實驗分為兩部分,第1部分實驗用于測試本文提出的模糊系統(tǒng)設(shè)計方法;第2部分實驗將基于本文方法的多分類器融合方法與兩種經(jīng)典的多分類器融合方法進(jìn)行了比較。第1部分:我先通過模糊規(guī)則數(shù)及錯誤率確定k,通過實驗我們得到如

17、圖所示的曲線要求模糊規(guī)則較少,錯誤率較低,本文去k為Company Logo4基于支持向量機的模糊系統(tǒng)設(shè)計方法本文將提出的改進(jìn)的基于支持向量的模糊系統(tǒng)設(shè)計方法與Chen方法進(jìn)行了比較。分別基于這兩種方法設(shè)計多分類器融合算法,并在4個數(shù)據(jù)集上比較算法分類時的平均運行時間、錯誤率和算法中模糊系統(tǒng)的規(guī)則數(shù)目。表1中給出了基于十重交叉驗證的平均結(jié)果。在表中,F(xiàn)RCF-1表示Chen方法的多分類器融合方法,FRCF-2表示本文改進(jìn)的多分類器融合方法。可以看出與FRCF-1方法相比,F(xiàn)RCF-2方法的模糊規(guī)則減少了910倍,分類時運行時間縮短了910倍。錯誤率方面,在兩類數(shù)據(jù)集(Clouds, Phoneme)上基本保持不變,在多類數(shù)據(jù)集(Satimag, Waveform)上略有下降。分類時運行時間縮短是因為模糊規(guī)則減少了,模糊系統(tǒng)的復(fù)雜度降低了,而復(fù)雜度降低還使得模糊系統(tǒng)的可理解性提高了。錯誤率下降的原因是復(fù)雜度降低之后,系統(tǒng)的泛化能力提高。Company Logo4基于支持向量機的模糊系統(tǒng)設(shè)計方法我們的實驗結(jié)果如下表所示:Company Logo4基于支持向量機的模糊系統(tǒng)設(shè)計方法另外也將此方法和其他的分類器方法進(jìn)行比較得到下面的表格:從這幾個表格我們可以看出本文題出的算法對這幾個數(shù)集都有很好的優(yōu)越性。Company Logo5總結(jié)本文題出的算法具有可理解性好,錯誤率低,模糊規(guī)則數(shù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論