模式識別期末復習總結(jié)._第1頁
模式識別期末復習總結(jié)._第2頁
模式識別期末復習總結(jié)._第3頁
模式識別期末復習總結(jié)._第4頁
模式識別期末復習總結(jié)._第5頁
全文預覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、1、貝葉斯分類器貝葉斯分類器的定義:在具有模式的完整統(tǒng)計知識的條件下,按照貝葉斯決策理論進行設計的一種最優(yōu)分類器。貝葉斯分類器的分類原理:通過某對象的先驗概率,利用貝葉斯公式計算出其后驗概率,即該對象屬于某一類的概率,選擇具有最大后驗概率的類作為該對象所屬的類。貝葉斯分類器是各種分類器中分類錯誤概率最小或者在預先給定代價的情況下平均風險最小的分類器。貝葉斯的公式:什么情況下使用貝葉斯分類器:對先驗概率和類概率密度有充分的先驗知識,或者有足夠多的樣本,可以較好的進行概率密度估計,如果這些條件不滿足,則采用最優(yōu)方法設計出的分類器往往不具有最優(yōu)性質(zhì)。2、K近鄰法kNN算法的核心思想: 如果一個樣本在

2、特征空間中的k個最相鄰的樣本中的大多數(shù)屬于某一個類別,則該樣本也屬于這個類別,并具有這個類別上樣本的特性。假設有N個已知樣本分屬c個類i, i=1,c ,考察新樣本x在這些樣本中的前K個近鄰,設其中有ki個屬于i類,則i類的判別函數(shù)就是 gix=ki i=1,c決策規(guī)則: 若gkx= max1icgix則xk什么情況下使用K近鄰法:kNN只是確定一種決策原則,在確定分類決策上只依據(jù)最鄰近的一個或者幾個樣本的類別來決定待分樣本所屬的類別,并不需要利用已知數(shù)據(jù)事先訓練出一個判別函數(shù),這種方法不需要太多的先驗知識。在樣本數(shù)量不足時,KNN法通常也可以得到不錯的結(jié)果。但是這種決策算法需要始終存儲所有的

3、已知樣本,并將每一個新樣本與所有已知樣本進行比較和排序,其計算和存儲的成本都很大。對于類域的交叉或重疊較多的待分樣本集來說,kNN方法較其他方法更為適合。 3、PCA和LDA的區(qū)別Principal Components Analysis (PCA):uses a signal representation criterion Linear Discriminant Analysis (LDA):uses a signal classification criterion LDA:線性判別分析,一種分類方法。它尋找線性分類器最佳的法線向量方向,將高維數(shù)據(jù)投影到一維空間,使兩類樣本在該方向上的投

4、影滿足類內(nèi)盡可能密集,類間盡可能分開。即使投影后兩類相隔盡可能遠,而同時每一類的樣本又盡可能聚集。PCA:主成分分析法,一種數(shù)據(jù)降維方法。它將高維的數(shù)據(jù)映射到低維的空間中表示,新特征是原有特征的線性組合。降維之后能夠最大化保持數(shù)據(jù)的內(nèi)在信息,并期望在所投影的維度上數(shù)據(jù)的方差最大,以此使用較少的數(shù)據(jù)維度,同時保留住較多的原數(shù)據(jù)點的特性。PCA和LDA的區(qū)別:PCA主要是從特征的協(xié)方差角度,去找到比較好的投影方式;LDA選擇分類性能最好的方向,期望投影后類間距更大,類內(nèi)距更小。PCA是無監(jiān)督的方式,它沒有分類標簽,降維之后需要采用K-Means或自組織映射網(wǎng)絡等無監(jiān)督的算法進行分類;LDA是有監(jiān)督

5、的,它先對訓練數(shù)據(jù)進行降維,然后找出一個線性判別函數(shù)。PCA投影的坐標系都是正交的;LDA根據(jù)類別的標注,關(guān)注分類能力,因此不保證投影到的坐標系是正交的。4、開測試,閉測試開測試:測試樣本不包含訓練樣本閉測試:測試樣本包含訓練樣本5、維數(shù),訓練樣本對分類器性能的影響維數(shù):從理論上講,在有無限的訓練樣本的情況下。不斷的增加新的特征并不會影響最終的分類結(jié)果,最壞的情況也就是分類器忽略了新加的特征,而只要新特征提供了有用的信息,那么分類器的精確度就會提高。在實際情況中,剛開始隨著維數(shù)的增加,精確度也會越來越高,但當維數(shù)到達一定值后,精確度會下降。這就是“維數(shù)災難”:因為我們的樣本不是無限多的,在高維

6、的情況下,樣本密度會越來越稀疏,很容易就能找到一個超平面將訓練樣本分開,但當其映射到低維空間時,得到的是一個復雜的非線性分類器。如果將其用來辨別那些未曾出現(xiàn)在訓練樣本中的測試樣本時,通常結(jié)果不太理想。這其實就是我們在機器學習中學過的過擬合問題。另外,隨著維數(shù)的增加,大部分分類器計算的時間復雜度會呈指數(shù)型提高。樣本數(shù)量:從理論上講,樣本越多,分類器的精確度也會越高。在實際情況中,因為存在特征維數(shù)的限制,隨著樣本增多,精確度會逐漸升高然后趨于穩(wěn)定。又因為實際情況的樣本中可能存在著噪聲,如果后來增加的樣本噪聲太多,精確度反而可能下降。從效率上來說,樣本越多,時間復雜度會線性提高。6、監(jiān)督學習在概率密

7、度函數(shù)不知道的情況下怎么分類對于貝葉斯分類器來說,就是用學習樣本估計特征向量的類條件概率密度函數(shù)。在已知類條件概率密度函數(shù)形式的條件下,用給定的獨立和隨機獲取的樣本集,根據(jù)最大似然法或貝葉斯學習估計出類條件概率密度函數(shù)的參數(shù)。例如,假定模式的特征向量服從正態(tài)分布,樣本的平均特征向量和樣本協(xié)方差矩陣就是正態(tài)分布的均值向量和協(xié)方差矩陣的最大似然估計。在類條件概率密度函數(shù)的形式未知的情況下,有各種非參數(shù)方法,直接用學習樣本對類條件概率密度函數(shù)進行估計。方法一:非參數(shù)估計。不對概率密度函數(shù)的形式作出任何假設,而是直接用樣本估計出整個函數(shù)。最大似然方法和貝葉斯方法都屬于參數(shù)化的估計方法,要求待估計的概率

8、密度函數(shù)形式已知,只是利用樣本來估計函數(shù)中的某些參數(shù)。但是當樣本的分布未知,無法事先給出概率密度函數(shù),或者很難用簡單的函數(shù)來描述概率密度函數(shù)時,就需要使用非參數(shù)估計的方法,即不對概率密度函數(shù)的形式作出任何假設,而是直接用樣本估計出整個函數(shù)。非參數(shù)估計的方法可以看做是從所有可能的函數(shù)中進行一種選擇。常見的非參數(shù)估計方法有直方圖法,KN近鄰估計法,Parzen窗法等。(可以稍微解釋下這三種方法)方法二:使用基于數(shù)據(jù)的模式識別方法。無需進行概率密度估計,而是直接根據(jù)要解決的問題和訓練樣本就求出判別函數(shù)的分類器,例如神經(jīng)網(wǎng)絡和SVM。甚至是使用直接確定分類原則,連分類器都不需要的模式識別方法,例如近鄰

9、法。7、分類器性能衡量衡量方法一、利用所假設的參數(shù)模型來計算例如代入未知參數(shù)的均值和協(xié)方差的估計來評估誤差率的上界。這種方法存在的問題:誤差估計過分樂觀;參數(shù)模型的有效性無法驗證;訓練樣本獨有的特性沒有被揭示;衡量方法二、訓練錯誤率(閉測試)用分類器對全部訓練樣本進行分類,其中分類錯誤的樣本占總樣本數(shù)的比例就是訓練錯誤率。這種方法存在的問題:在一定程度上反映了機器推廣能力;但是這種做法偏樂觀,存在信息泄露問題,因此這種訓練錯誤率不能很好的反映分類器在未來樣本上的表現(xiàn)。衡量方法三、測試錯誤率(開測試)將樣本劃分成訓練集和測試集,其中,訓練集樣本不包含測試集樣本互不相交。測試錯誤率:使用常規(guī)訓練集

10、訓練分類器完成后,用分類器對驗證集訓練樣本進行分類,其中分類錯誤的樣本占驗證集的比例就是測試錯誤率。這種方法存在的問題:在樣本數(shù)不是很多時,如果把一部分樣本劃分為測試集,則訓練樣本數(shù)目就大大減少,可能影響分類器性能;測試集本身也不大,所以測試錯誤率估計的方差本身也比較大。衡量方法4:交叉驗證一般的衡量分類器的性能常用的就是CV2的交叉驗證方法。在現(xiàn)有總樣本不變的情況下,隨機選用一部分樣本作為臨時的訓練集,其余樣本作為臨時測試集得到一個錯誤率估計;然后隨機選用另外一部分樣本作為臨時訓練集,其余樣本作為臨時測試集,再得到一個錯誤率估計如此反復多次,最后各個錯誤率求平均,得到交叉驗證錯誤率。8、高斯

11、混合模型參數(shù)怎么確定?用EM算法確定GMM認為數(shù)據(jù)是從幾個GSM中生成出來的,即 K需要事先確定好,就像K-means中的K一樣。k是權(quán)值因子。 其中的任意一個高斯分布N(x;uk,k)叫作這個模型的一個component。GMM是一種聚類算法,每個component就是一個聚類中心。即在只有樣本點,不知道樣本分類(含有隱含變量)的情況下,計算出模型參數(shù)(,u和)-這顯然可以用EM算法來求解。再用訓練好的模型去差別樣本所屬的分類,方法是:step1隨機選擇K個component中的一個(被選中的概率是k);step2把樣本代入剛選好的component,判斷是否屬于這個類別,如果不屬于則回到step1。EM算法:在統(tǒng)計計算中,最大期望(EM)算法是在概率(probabilistic)模型中尋找參數(shù)最大似然估計或者最大后驗估計的算法,其中概率模型依賴于無法觀測的隱藏變量(Latent Variable)。最大期望經(jīng)常用在機器學習和計算機視覺的數(shù)據(jù)聚類(Data Clustering)領域。最大期望算法經(jīng)過兩個步驟交替進行計算:第一步是計算期望(E),利用對隱藏變量的現(xiàn)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論