




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
模式識別近鄰法第1頁,課件共63頁,創(chuàng)作于2023年2月一最近鄰決策規(guī)則
假定有c類模式,ω1,ω2,…,ωc,每類有個樣本,i=1,2,…,c,總樣本數(shù)為。對未知樣本,找出已知類別的訓(xùn)練樣本集中和最近的一個樣本,把分到與該樣本一樣的類。
第2頁,課件共63頁,創(chuàng)作于2023年2月最近鄰決策算法存儲訓(xùn)練樣本;對一新的樣本x,在訓(xùn)練樣本集中按某種距離度量找到x的最近鄰(xi,yi),令x的類別y和yi相同。使用歐式距離時:使用平方距離結(jié)果是一樣的,免去了開方運(yùn)算:第3頁,課件共63頁,創(chuàng)作于2023年2月近鄰法和使用的距離度量關(guān)系很大將所有的特征值規(guī)范到相同的范圍(比如[-1,1]),否則取值范圍大的特征起的作用大。去掉噪聲的、不好的特征,它們影響距離度量和性能。利用好的距離度量,如式中是互信息?;蚶肕ahalanobis距離:●使用k-近鄰更可靠。第4頁,課件共63頁,創(chuàng)作于2023年2月二最近鄰法的錯誤率分析下面先分析近鄰法的錯誤率,然后討論具體實施近鄰法時的一些問題。近鄰法錯誤率分析的思想是把它和貝葉斯錯誤率聯(lián)系起來第5頁,課件共63頁,創(chuàng)作于2023年2月最近鄰法的錯誤率分析
令是要分類的點(diǎn),是它的最近鄰,的真實類是,的真實類別是,對于和,發(fā)生錯誤的概率為
第6頁,課件共63頁,創(chuàng)作于2023年2月最近鄰法的錯誤率分析假定事件“是類”和“是類”是獨(dú)立的事件,則最近鄰算法的條件錯誤率為:
第7頁,課件共63頁,創(chuàng)作于2023年2月最近鄰法的錯誤率分析如果密度函數(shù)是連續(xù)的,而且樣本點(diǎn)相當(dāng)多,則的最近鄰將非常接近,因此可以合理地認(rèn)為(假定)代入上式,有
(*)第8頁,課件共63頁,創(chuàng)作于2023年2月最近鄰法的錯誤率分析下面分析這個錯誤率和貝葉斯錯誤率間的關(guān)系令是根據(jù)貝葉斯決策規(guī)則將所分的類,即:第9頁,課件共63頁,創(chuàng)作于2023年2月最近鄰法的錯誤率分析貝葉斯決策的條件錯誤率為:
(**)或?qū)懗?/p>
(1)第10頁,課件共63頁,創(chuàng)作于2023年2月為了導(dǎo)出的界,對(*)式中的平方項,有
(***)
對于固定的值,上式當(dāng),,都相等時取最小值。第11頁,課件共63頁,創(chuàng)作于2023年2月又由(**)式,使(***)式的取最小值的為(2)第12頁,課件共63頁,創(chuàng)作于2023年2月(***)式可以化為(把(1)和(2)代入)共(c-1)項,消除了一個(c-1)第13頁,課件共63頁,創(chuàng)作于2023年2月把上式代入(*)式并化簡有,(3)第14頁,課件共63頁,創(chuàng)作于2023年2月最近鄰法的錯誤率分析而近鄰法和貝葉斯決策的錯誤率定義為:
第15頁,課件共63頁,創(chuàng)作于2023年2月最近鄰法的錯誤率分析第16頁,課件共63頁,創(chuàng)作于2023年2月取(3)式期望,并利用上式,有由于貝葉斯錯誤率是最小的,所以完整的上下界是:
第17頁,課件共63頁,創(chuàng)作于2023年2月最近鄰法的錯誤率分析上式的結(jié)果表明,當(dāng)樣本數(shù)相當(dāng)多時,近鄰法的錯誤率在貝葉斯錯誤率和兩倍的貝葉斯錯誤率之間。第18頁,課件共63頁,創(chuàng)作于2023年2月的一些特殊情況
當(dāng)時,第19頁,課件共63頁,創(chuàng)作于2023年2月當(dāng)各類的后驗概率相等時
的一些特殊情況
第20頁,課件共63頁,創(chuàng)作于2023年2月4.2K-近鄰法
取未知樣本的K個近鄰,看這K個近鄰中哪類的樣本數(shù)最多,就把未知樣本歸到該類。
第21頁,課件共63頁,創(chuàng)作于2023年2月K-近鄰法的錯誤率界
K-近鄰的錯誤率的分析要復(fù)雜。當(dāng)類別數(shù)c=2時,K-近鄰法的錯誤率以一族凹函數(shù)為上界。具有如下的性質(zhì):
第22頁,課件共63頁,創(chuàng)作于2023年2月K-近鄰法的錯誤率界這些函數(shù)的形狀如下:
第23頁,課件共63頁,創(chuàng)作于2023年2月K-近鄰法的錯誤率界第24頁,課件共63頁,創(chuàng)作于2023年2月*K-近鄰法的錯誤率界證明K-NN法錯誤率的思路:(對兩類,K為奇數(shù)的情況)
若,而時則發(fā)生錯分,其錯誤率為
①
第25頁,課件共63頁,創(chuàng)作于2023年2月K-近鄰法的錯誤率界同樣,當(dāng),而時發(fā)生誤分類,其錯誤率為
②
第26頁,課件共63頁,創(chuàng)作于2023年2月K-近鄰法的錯誤率界所以,給出x時的條件錯誤率為
①+②
第27頁,課件共63頁,創(chuàng)作于2023年2月K-近鄰法的錯誤率界上式可以化為
(3)
第28頁,課件共63頁,創(chuàng)作于2023年2月K-近鄰法的錯誤率界其中:
(當(dāng)K為偶數(shù)時,有:
,)(4)第29頁,課件共63頁,創(chuàng)作于2023年2月K-近鄰法的錯誤率界而給出x時的條件貝葉斯風(fēng)險為
(5)
(Maclaulin)馬克勞林級數(shù)展開
第30頁,課件共63頁,創(chuàng)作于2023年2月K-近鄰法的錯誤率界利用上面的③–⑤式,有
(回想過去講的
和間聯(lián)系了起來,貝葉斯錯誤率的Bhattacharyya界,稱為B距離。)
第31頁,課件共63頁,創(chuàng)作于2023年2月K-近鄰法的錯誤率界例
投票法最近鄰分類的錯誤率
第32頁,課件共63頁,創(chuàng)作于2023年2月K-近鄰法的錯誤率界粗略地說,有些樣本落在了其它類的決策區(qū),錯了。而這個錯的樣本又可能把正確地落在區(qū)域內(nèi)的樣本弄錯,所以最近鄰法的錯誤率在貝葉斯錯誤率和2倍貝葉斯錯誤率之間。
第33頁,課件共63頁,創(chuàng)作于2023年2月最近鄰法的決策邊界:訓(xùn)練樣本的部分VoronoiDiagram近鄰法雖然沒有直接計算決策邊界,然而所得到的決策邊界是訓(xùn)練樣本VoronoiDiagram的一個子集。每一條線是不同類樣本間連線的平分線。樣本越多,決策邊界越復(fù)雜。第34頁,課件共63頁,創(chuàng)作于2023年2月減少近鄰法的計算和存儲問題減少訓(xùn)練樣本的數(shù)量,盡量利用“好”的訓(xùn)練樣本。設(shè)計好的數(shù)據(jù)結(jié)構(gòu)和查找算法快速查找x的k近鄰。第35頁,課件共63頁,創(chuàng)作于2023年2月存儲所有的訓(xùn)練樣本需要大量的存儲,要從訓(xùn)練樣本中挑選一些好的樣本常用的方法有兩種:逐步從訓(xùn)練集中刪掉一些“壞的”樣本。逐步從訓(xùn)練集中挑選出一些“好的”代表樣本。第36頁,課件共63頁,創(chuàng)作于2023年2月4.3剪輯近鄰法由前面的圖可以看出,在投票法的k-近鄰法中,第類的樣本落在類的區(qū)域后,它可能成為某些類樣本的近鄰,因而引起額外的錯誤,這是為什么近鄰法的錯誤率大于貝葉斯錯誤率的原因。
這些額外的錯誤可以通過去掉類落在類區(qū)域中的樣本而減少(上圖中的1、3、5、6)。
第37頁,課件共63頁,創(chuàng)作于2023年2月在實際問題中,由于不知道準(zhǔn)確的貝葉斯決策邊界,所以不能準(zhǔn)確確定類落在類區(qū)域中的樣本。而代之以去掉被k近鄰分錯的樣本。這樣得到的樣本集合稱為剪輯(Editedset)集。以后的實驗樣本集用剪輯集按k近鄰法分類。這種算法稱為剪輯近鄰法。
第38頁,課件共63頁,創(chuàng)作于2023年2月在剪輯近鄰法中,類的落在類區(qū)域中的有些樣本被(正確)分到了類,因而未被剪掉。而類的在區(qū)域中的一些樣本則有可能被誤分類,而被剪輯掉。所以剪輯近鄰法的錯誤率不可能和貝葉斯錯誤率一樣。下面我們分析漸進(jìn)情況下(即)時的錯誤率。第39頁,課件共63頁,創(chuàng)作于2023年2月1剪輯的最近鄰法的錯誤率假定給出x的后驗概率為和,在使用投票法的最近鄰中,被正確分類和不正確分類的概率為
和
i=1,2第40頁,課件共63頁,創(chuàng)作于2023年2月剪輯的最近鄰法的錯誤率當(dāng)剪輯掉被錯分的,保留分對的時,在剪輯集中x的后驗概率為第41頁,課件共63頁,創(chuàng)作于2023年2月剪輯的最近鄰法的錯誤率原來樣本集若用剪輯集按NN法分類,則錯誤率為式中利用了,當(dāng)時。第42頁,課件共63頁,創(chuàng)作于2023年2月剪輯的最近鄰法的錯誤率可以證明,未剪輯的最近鄰法的錯誤率和貝葉斯錯誤率分別為上式的上下界:
,()第43頁,課件共63頁,創(chuàng)作于2023年2月更一般的剪輯近鄰法用一近鄰剪輯,用一近鄰分類第44頁,課件共63頁,創(chuàng)作于2023年2月更一般的剪輯近鄰法重復(fù)使用最近鄰法,把落在類區(qū)域中類的樣本剪掉,其錯誤率的情況為
第45頁,課件共63頁,創(chuàng)作于2023年2月4.4壓縮近鄰法近鄰法存在的問題計算量大,存儲量大,要計算大量的樣本間的距離在投票近鄰法,靠近貝葉斯決策邊界的點(diǎn)對分類有關(guān)鍵作用。而位于各類類中心附近、遠(yuǎn)離決策邊界的點(diǎn)不影響分類,因而可以把它們?nèi)サ?。這樣減少(參考)樣本點(diǎn),可以節(jié)省近鄰法的時間和空間。這類的算法稱為壓縮近鄰法。第46頁,課件共63頁,創(chuàng)作于2023年2月壓縮近鄰法每個樣本x的條件風(fēng)險是表示x是否靠近決策邊界的一種度量。因此可設(shè)置一個閾值τ,并把小于閾值的樣本去掉,。為了避免如剪輯法中討論的問題,減少額外的錯誤,應(yīng)當(dāng)先剪輯,后壓縮。
第47頁,課件共63頁,創(chuàng)作于2023年2月壓縮近鄰法下面是一個壓縮算法:(這個算法沒有計算,另種思路)
Condensingalgor.
設(shè)兩個存儲器Store和Grabbag。把第一個樣本放入Store中,把所有其它樣本放在Grabbag中
第48頁,課件共63頁,創(chuàng)作于2023年2月壓縮近鄰法用當(dāng)前Store中的樣本按一近鄰規(guī)則對Grabbag中樣本進(jìn)行分類。若分類正確,則該樣本仍放回Grabbag中;否則,放入Store中。對Grabbag中的所有樣本重復(fù)以上過程。
若從Grabbag中轉(zhuǎn)到Store中的樣本數(shù)為0,或Grabbag中的樣本數(shù)變?yōu)?時,停止。否則轉(zhuǎn)2。壓縮后,以Store中的樣本作為分類的參考集(設(shè)計集)
第49頁,課件共63頁,創(chuàng)作于2023年2月4.5查找k近鄰的快速算法(樹搜索)為了減少查找k-近鄰的計算量,需要盡量避免窮盡地計算和所有樣本間的距離,可把樣本組織(分解)成一定的等級如樹結(jié)構(gòu)等,盡量排除一些不必要的計算。常用的是k-d樹等一類結(jié)構(gòu)和搜索算法。
第50頁,課件共63頁,創(chuàng)作于2023年2月假定樣本集,目的是要在
X
中尋找未知樣本x的k個近鄰。為了簡單,先假定k=1,即最近鄰的搜索。
下面介紹另外一種把樣本組織成樹結(jié)構(gòu)的算法。算法分兩個階段:第51頁,課件共63頁,創(chuàng)作于2023年2月把樣本集X
分級分解,組織成樹結(jié)構(gòu)??筛鶕?jù)樣本在特征空間中所占的位置,把樣本集分成不相交的一些子集(個),然后把這些樣本子集再分解成不相交的子集,如此進(jìn)行下去,直到每個終端點(diǎn)只含一個樣本為止。如下圖:第52頁,課件共63頁,創(chuàng)作于2023年2月第53頁,課件共63頁,創(chuàng)作于2023年2月樹的中間節(jié)點(diǎn)都代表一個樣本子集,可以用下列參數(shù)描述::節(jié)點(diǎn)k所對應(yīng)的樣本子集:中的樣本數(shù):中的樣本均值,從到中的樣本的最大距離(不妨稱為的半徑)第54頁,課件共63頁,創(chuàng)作于2023年2月分成子集的方法,可根據(jù)樣本在特征空間中所占的位置,把相鄰樣本組織成一個子集??梢杂镁垲惙治龅姆椒ǎㄈ鏲均值聚類算法)第55頁,課件共63頁,創(chuàng)作于2023年2月
可以利用下面兩個規(guī)則加快搜索。判斷xi或xi所屬的子集有否可能是x的近鄰。2.搜索未知樣本的(最,k)近鄰(分支限界算法)規(guī)則1:令B是算法執(zhí)行過程中已經(jīng)找到的x的最近鄰離x的距離,程序開始時可設(shè)B的初值為∞。第56頁,課件共63頁,創(chuàng)作于2023年2月令是的半徑,若,則不可能是x的最近鄰。
這個規(guī)則可以排除不可能是x近鄰的,不用計算每個,。直觀意義如下:
第57頁,課件共63頁,創(chuàng)作于2023年2月根據(jù)三角不等式:
規(guī)則1
對于終端節(jié)點(diǎn),可以利用下面的規(guī)則2迅速檢驗它能否成為x的最近鄰,省去計算所有的。
第58頁,課件共63頁,創(chuàng)作于2023年2月規(guī)則2:若,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 濱州中考語文試題及答案
- 第二十章 能源、材料與社會 教學(xué)設(shè)計- 2024-2025學(xué)年滬科版物理九年級上冊
- 獲取考試技巧2024年自考試題及答案
- 【撫州】2024年江西撫州市廣昌縣事業(yè)單位第二批引進(jìn)高素質(zhì)人才13人筆試歷年典型考題及考點(diǎn)剖析附帶答案詳解
- 公共事業(yè)管理的基本理念試題及答案
- 2024年重慶開州區(qū)遴選公務(wù)員考試真題
- 稅務(wù)培訓(xùn)類面試題及答案
- 鹽源縣縣屬國有企業(yè)招聘工作人員筆試真題2024
- 2024年寧波圖書館選聘工作人員考試真題
- 南水北調(diào)東線山東干線有限責(zé)任公司招聘筆試真題2024
- 項目驗收單標(biāo)準(zhǔn)模板
- 24式太極拳教案(1~4課)
- 小學(xué) 三年級 心理健康《最好的老師-興趣的作用》教學(xué)設(shè)計
- DB12T 1040-2021 建筑工程規(guī)劃管理技術(shù)規(guī)范
- 產(chǎn)業(yè)經(jīng)濟(jì)學(xué)的課后復(fù)習(xí)答案
- 中國綠色經(jīng)濟(jì)發(fā)展之路(PPT-37張)課件
- G322-1鋼筋砼過梁
- 客房控制系統(tǒng)——RCU系統(tǒng)培訓(xùn)PPT通用通用課件
- 壓力管道安裝許可證換證自評報告
- (會議紀(jì)要(2011)第29期)河南煤業(yè)化工集團(tuán)有限責(zé)任公司會議紀(jì)要
- 起重機(jī)械定期檢驗規(guī)則概述
評論
0/150
提交評論