非參數(shù)判別分類方法

上傳人：0*** IP屬地：湖北上傳時間：2023-02-03 格式：PPT 頁數(shù)：17 大?。?74KB 積分：28 舉報 版權(quán)申訴

已閱讀5頁，還剩12頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領

文檔簡介

模式識別非參數(shù)判別分類方法3.5.3

特征映射法、解決非線性判別分類問題*支持向量機采用的方法與前面提到的方法很不相同，支持向量機提出的方法是利用特征映射方法,使非線性分類的問題可以利用線性分類的計算框架來實現(xiàn)。*原理示意圖廣義線性判別函數(shù)

例如：假設對一個二維空間的分類問題，想用一個二次函數(shù)作為判別函數(shù)，則二次曲線函數(shù)的一般式可以寫成：

作為映射后的特征向量，而相應的廣義權(quán)向量如果我們希望采用廣義線性方程的方法，則可以定義則一個線性方程就可以寫成,其中,這樣一來，線性分類方法就可以直接采用。支持向量機利用特征映射的思想其中,是以下式子求極大值的解

計算上式的極大值只用到訓練樣本數(shù)據(jù)間的點積<xi.xj>,而使用的分類器判別函數(shù)中權(quán)向量的作用也是通過權(quán)向量與樣本的點積體現(xiàn)出來的，而從（3-104）式子中可以看出，權(quán)向量是訓練樣本中的支持向量的線性組合，因此WTX值的計算可以寫成（3-104）（3-105）（3-106）4

它表明在計算判別函數(shù)值時，仍然只需要通過計算相應數(shù)據(jù)的點積即可。

由此可以設想，如果我們將原特征向量用映射的方式轉(zhuǎn)換成

，則相應的式子只需要改變成分類界面方程其中

為相應的常數(shù)項（3-107）（3-108）特征映射，核函數(shù)分類界面方程

因此選擇合適的函數(shù)K(.,.)就成為設計中的重要問題

由于特征進行了映射，從x變成了f（x），因此問題是在另一個映射后的空間討論的。設原空間維數(shù)為d，即，而新空間為m維，即

，則一般m維要比d維大得多。權(quán)向量的維數(shù)也是m維，它是在映射后空間中的支持向量的線性求和。但是支持向量機的提出者進一步發(fā)現(xiàn)，并不一定要求出這個權(quán)向量，因為分類判別函數(shù)中只關心權(quán)向量與樣本向量之間的點積。因此，又引出了所謂核函數(shù)（3-109）（3-110）支持向量機計算示意圖核函數(shù)

與內(nèi)積函數(shù)值等價的函數(shù)K(.,.)稱為核函數(shù)。理論上的研究對核函數(shù)的充分必要條件進行了研究，并已得出一些主要結(jié)論（如Mercer條件）。

常用的核函數(shù)還局限于以下三種函數(shù)形式。多項式類型的函數(shù)核函數(shù)型式的函數(shù)S行函數(shù)，如（3-111）（3-112）（3-113）本章小結(jié)一、參數(shù)判別分類方法與非參數(shù)判別分類方法的區(qū)別

參數(shù)判別方法：它的提前是對特征空間中的各類樣本的分布清楚，因此一旦要測試分類樣本的特征向量值X已知，就可以確定X對各類的后驗概率，也就是可按相應的準則計算與分類，所以判別函數(shù)等的確定取決于樣本統(tǒng)計分布的有關知識。

非參數(shù)分類判別方法：著眼于直接利用訓練樣本集，省去參數(shù)估計這一環(huán)節(jié)，這樣一來，從保證最小錯去率的原則出發(fā)計算確定判別函數(shù)的方法就不適用了。因此，非參數(shù)分類判別方法只能根據(jù)一些其它準則來設計分類器。分類器的效果好壞，所選擇的判別函數(shù)型式，所使用的訓練樣本集，以及所用的算法是對結(jié)果都會有影響。二、非參數(shù)分類判別方法的基本做法

非參數(shù)分類判別方法進行分類器設計主要包含兩個步驟：1.確定要使用的判別函數(shù)類型或決策面方程類型，如線性分類器，分段線性分類器，非線性分類器等或近鄰法等。如果使用人工神經(jīng)網(wǎng)絡，則怎樣的網(wǎng)絡結(jié)構(gòu)也隱含了所使用的函數(shù)形式。

2.在選定的函數(shù)類型網(wǎng)絡結(jié)構(gòu)等條件下，確定相應的參數(shù)，從而完成整個分類器設計。三、決策面方程的顯示表示和隱式表示四、基于相似度的分類判別方法

判別函數(shù)的隱式表示與使用基于相似程度判別的原則有關。如近鄰法是用距離遠近表示相似程度，錯誤修正法用樣本向量與增廣權(quán)向量的點積運算，也可在一定程度上看作相似度，在多類問題上，往往用計算相似度較為方便。*用函數(shù)直接表示分界面方程，如線性方程式表示的邊界等。*用隱含形式，例如我們用最小距離分類器就代表了這種類

型，其實這兩種型式是等價的。如二維空間的最小距離分類器用最小距離表示為：||X-m1||=||x-m2||而其等價于連接m1與m2線的垂直平分線。*本章學習的Fisher準則、支持向量機與局部訓練法等用的是

顯示表示，而錯誤修正法和近鄰法則可以說是隱式表示。五、Fisher準則

Fisher準則是傳統(tǒng)模式識別方法中的典型方法，它強調(diào)將線性方程中的法向量與樣本的乘積看作樣本向量在單位法向量上的投影，如能做到不同類的樣本在法向量上的投影呈現(xiàn)類內(nèi)聚集，類間分開的效果，則對減少錯分類有利。所得最佳法向量計算式為

（

見有關課本定義）。這個結(jié)果與正態(tài)分布協(xié)方差矩陣等的貝葉斯決策結(jié)果相近，這說明如果兩類分布范圍繞各自均值的確相近，F(xiàn)isher準則可使錯誤率較小。六、感知準則函數(shù)方法

這種方法提倡用錯分類提供的信息修正錯誤，這種思想對機器學習的發(fā)展以及人工神經(jīng)元網(wǎng)絡的發(fā)生發(fā)展產(chǎn)生深遠影響。七、近鄰法

近鄰法訓練樣本數(shù)量較多時，從逐漸錯誤率角度看，其錯誤率比較小，是經(jīng)常使用的模式識別分類方法，比較適合在多類別情況下使用。當每類的樣本數(shù)很多時，存儲量與計算量要求都偏高，使用剪輯近鄰法與壓縮近鄰法，特別是壓縮近鄰法可大量減少訓練樣本的數(shù)量。八、支持向量機

支持向量機是新近提出的影響較大的方法。在理論上有很深的背景，這里指的理論是統(tǒng)計學習理論。

它主要關注的問題是：當訓練樣本數(shù)量有限時。在訓練過程中做到使訓練樣本錯誤率為最小，是否就意味著系統(tǒng)在實際應用中，也能自然而然做到錯誤率小呢？對我們來說了解這種理論顯然超出我們課程的范圍，但是可以舉一個例子說明這種問題的確存在。例如下圖表示在一個樣本集（X，Y），其中X在實數(shù)范圍內(nèi)取值，而Y則在[-1,+1]范圍取值。例：Sin（ax）擬合紅線表示正確擬合得到的結(jié)果，但是對于這樣一組數(shù)據(jù)，我們完全可以用一個函數(shù)Sin(ax)來擬合它，如圖中藍線表示的函數(shù)所示，只要調(diào)整參數(shù)a總可以使所有數(shù)據(jù)都落在Sin(ax)曲線上，但是很明顯Sin(ax)并不反映這組數(shù)據(jù)的內(nèi)在規(guī)律，如果再增加一個新數(shù)據(jù)，參數(shù)a很可能就要變。從直觀上講，所用的函數(shù)Sin(ax)并不合適，但是從訓練樣本數(shù)據(jù)來看，它的擬合程度的確很高。統(tǒng)計學習理論

從我們所討論的一些方法中，分類器設計的性能，都以隊訓練樣本集有好的性能為目標，而沒有辦法保證在實際使用時仍能保持好的性能。支持向量機在線性可分時要求隔離帶盡可能寬，正是從期望實際的錯誤率也較低這一點出發(fā)。關于

人人文庫> 全部分類> 教育資料 > 輔導培訓

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

非參數(shù)判別分類方法

文檔簡介

溫馨提示

最新文檔

評論

非參數(shù)判別分類方法

文檔簡介

溫馨提示

最新文檔

評論

相關文檔