模式識(shí)別清華-課件第二章_第1頁(yè)
模式識(shí)別清華-課件第二章_第2頁(yè)
模式識(shí)別清華-課件第二章_第3頁(yè)
模式識(shí)別清華-課件第二章_第4頁(yè)
模式識(shí)別清華-課件第二章_第5頁(yè)
已閱讀5頁(yè),還剩1頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第二章貝葉斯決策理論與統(tǒng)計(jì)判別方法學(xué)習(xí)指南這一章的主要內(nèi)容是說(shuō)明分類(lèi)識(shí)別中為什么會(huì)有錯(cuò)分類(lèi),在何種情況下會(huì)出現(xiàn)錯(cuò)分類(lèi)?錯(cuò)分類(lèi)的可能性會(huì)有多大?在理論上指明了怎樣才能使錯(cuò)分類(lèi)最少?另一方面,錯(cuò)分類(lèi)有不同情況,例如誤將A錯(cuò)分為B類(lèi),或?qū)類(lèi)錯(cuò)分為A類(lèi)就是兩種不同的錯(cuò)誤。不同的錯(cuò)分類(lèi)造成的危害是不同的,有的錯(cuò)分類(lèi)種類(lèi)造成的危害更大,因此控制這種錯(cuò)分類(lèi)那么是更重要的。為此引入了一種“風(fēng)險(xiǎn)”與“損失”概念,希望做到使風(fēng)險(xiǎn)最小。要著重理解“風(fēng)險(xiǎn)”與“損失”的概念,以及在引入“風(fēng)險(xiǎn)”概念后的處理方法。理解這一章的關(guān)鍵是要正確理解先驗(yàn)概率,類(lèi)概率密度函數(shù),后驗(yàn)概率這三種概率,對(duì)這三種概率的定義,相互關(guān)系要搞得清清楚楚。Bayes公式正是表達(dá)這三者關(guān)系的式子,要透徹掌握。本章討論的內(nèi)容在理論上有指導(dǎo)意義,代表了基于統(tǒng)計(jì)參數(shù)這一類(lèi)的分類(lèi)器設(shè)計(jì)方法,結(jié)合正態(tài)分布這一例子的目的是使分類(lèi)器設(shè)計(jì)更加具體化。學(xué)習(xí)這一章還要體會(huì)模式識(shí)別算法的設(shè)計(jì)都是強(qiáng)調(diào)“最正確”與“最優(yōu)”,即希望所設(shè)計(jì)的系統(tǒng)在性能上最優(yōu)。這種最優(yōu)是指對(duì)某一種設(shè)計(jì)原那么講的,這種原那么稱(chēng)為準(zhǔn)那么。使這些準(zhǔn)那么到達(dá)最優(yōu),如最小錯(cuò)誤率準(zhǔn)那么,基于最小風(fēng)險(xiǎn)準(zhǔn)那么等。設(shè)計(jì)準(zhǔn)那么,并使該準(zhǔn)那么到達(dá)最優(yōu)的條件是設(shè)計(jì)模式識(shí)別系統(tǒng)最根本的方法。課前思考1、機(jī)器自動(dòng)識(shí)別分類(lèi),能不能防止錯(cuò)分類(lèi),如漢字識(shí)別能不能做到百分之百正確?怎樣才能減少錯(cuò)誤?2、錯(cuò)分類(lèi)往往難以防止,因此就要考慮減小因錯(cuò)分類(lèi)造成的危害損失,譬如對(duì)病理切片進(jìn)行分析,有可能將正確切片誤判為癌癥切片,反過(guò)來(lái)也可能將癌癥病人誤判為正常人,這兩種錯(cuò)誤造成的損失一樣嗎?看來(lái)后一種錯(cuò)誤更可怕,那么有沒(méi)有可能對(duì)后一種錯(cuò)誤嚴(yán)格控制?3、概率論中講的先驗(yàn)概率,后驗(yàn)概率與概率密度函數(shù)等概念還記得嗎?什么是貝葉斯公式?4、什么叫正態(tài)分布?什么叫期望值?什么叫方差?為什么說(shuō)正態(tài)分布是最重要的分布之一?學(xué)習(xí)目標(biāo)這一章是模式識(shí)別的重要理論根底,它用概率論的概念分析造成錯(cuò)分類(lèi)和識(shí)別錯(cuò)誤的根源,并說(shuō)明與哪些量有關(guān)系。在這個(gè)根底上指出了什么條件下能使錯(cuò)誤率最小。有時(shí)不同的錯(cuò)誤分類(lèi)造成的損失會(huì)不相同,因此如果錯(cuò)分類(lèi)不可防止,那么有沒(méi)有可能對(duì)危害大的錯(cuò)分類(lèi)實(shí)行控制。對(duì)于這兩方面的概念要求理解透徹。這一章會(huì)將分類(lèi)與計(jì)算某種函數(shù)聯(lián)系起來(lái),并在此根底上定義了一些術(shù)語(yǔ),如判別函數(shù)、決策面(分界面),決策域等,要正確掌握其含義。這一章會(huì)涉及設(shè)計(jì)一個(gè)分類(lèi)器的最根本方法——設(shè)計(jì)準(zhǔn)那么函數(shù),并使所設(shè)計(jì)的分類(lèi)器到達(dá)準(zhǔn)那么函數(shù)的極值,即最優(yōu)解,要理解這一最根本的做法。這一章會(huì)開(kāi)始涉及一些具體的計(jì)算,公式推導(dǎo)、證明等,應(yīng)通過(guò)學(xué)習(xí)提高這方面的理解能力,并通過(guò)習(xí)題、思考題提高自己這方面的能力。本章要點(diǎn)1、機(jī)器自動(dòng)識(shí)別出現(xiàn)錯(cuò)分類(lèi)的條件,錯(cuò)分類(lèi)的可能性如何計(jì)算,如何實(shí)現(xiàn)使錯(cuò)分類(lèi)出現(xiàn)可能性最小——基于最小錯(cuò)誤率的Bayes決策理論2、如何減小危害大的錯(cuò)分類(lèi)情況——基于最小錯(cuò)誤風(fēng)險(xiǎn)的Bayes決策理論3、模式識(shí)別的根本計(jì)算框架——制定準(zhǔn)那么函數(shù),實(shí)現(xiàn)準(zhǔn)那么函數(shù)極值化的分類(lèi)器設(shè)計(jì)方法4、正態(tài)分布條件下的分類(lèi)器設(shè)計(jì)5、判別函數(shù)、決策面、決策方程等術(shù)語(yǔ)的概念6、Bayes決策理論的理論意義與在實(shí)踐中所遇到的困難難點(diǎn)1、三種概率:先驗(yàn)概率、類(lèi)概率密度函數(shù)、后驗(yàn)概率的定義2、三種概率之間的關(guān)系——Bayes公式3、描述隨機(jī)變量分布的一些定義,如期望值、方差、尤其是協(xié)方差、協(xié)方差矩陣,其定義、計(jì)算方法及內(nèi)在含義,透徹掌握其含義才會(huì)做到靈活運(yùn)用。知識(shí)點(diǎn)§2.1引言在描述本章所要討論的問(wèn)題之前,再提一下對(duì)于待識(shí)別的物理對(duì)象的描述問(wèn)題。假設(shè)一個(gè)待識(shí)別的物理對(duì)象用其d個(gè)屬性觀察值描述,稱(chēng)之為d個(gè)特征,這組成一個(gè)d維的特征向量,而這d維待征所有可能的取值范圍那么組成了一個(gè)d維的特征空間。為了說(shuō)明這句話,我們討論一個(gè)具體的例子。假設(shè)蘋(píng)果的直徑尺寸限定在7厘米到15厘米之間,它們的重量在3兩到8兩之間變化。如果直徑長(zhǎng)度x用厘米為單位,重量y以?xún)蔀閱挝?。那么,由x值從7到15,y值從3到8包圍的二維空間就是對(duì)蘋(píng)果進(jìn)行度量的特征空間。貝葉斯決策理論方法所討論的問(wèn)題是:總共有c類(lèi)物體,也就是說(shuō)待識(shí)別物體屬于這c類(lèi)中的一個(gè)類(lèi)別,對(duì)這c類(lèi)不同的物理對(duì)象,以及各類(lèi)在這d維特征空間的統(tǒng)計(jì)分布,具體說(shuō)來(lái)是各類(lèi)別ωi=1,2,…,c的先驗(yàn)概率P(ωi)及類(lèi)條件概率密度函數(shù)p(x|ωi)的條件下,如何對(duì)某一樣本按其特征向量分類(lèi)的問(wèn)題。由于屬于不同類(lèi)的待識(shí)別對(duì)象存在著呈現(xiàn)相同觀察值的可能,即所觀察到的某一樣本的特征向量為X,而在c類(lèi)中又有不止一類(lèi)可能呈現(xiàn)這一X值,這種可能性可用P(ωi|X)表示。如何作出合理的判決就是貝葉斯決策理論所要討論的問(wèn)題。下一節(jié)討論幾種常用的決策規(guī)那么,接著要分析正態(tài)分布時(shí)統(tǒng)計(jì)決策的問(wèn)題以及錯(cuò)誤概率等問(wèn)題。由于這種決策理論基于概率分布為前提,因此在本章還要討論概念密度函數(shù)的估計(jì)問(wèn)題。上一章提到機(jī)器實(shí)現(xiàn)自動(dòng)分類(lèi)有兩大類(lèi)方法:一種是模板匹配方法,而另一種就是對(duì)特征空間劃分為子空間(每類(lèi)的勢(shì)力范圍)的方法。本章是針對(duì)第二種方法的。核心問(wèn)題是:樣本為特征向量X時(shí),它屬于哪一類(lèi)可能性有多大,如能確定屬于各個(gè)類(lèi)別的百分比(概率)分類(lèi)決策就有了依據(jù)。例如某個(gè)樣本的特征向量為X,X屬于第一類(lèi)樣本的可能性為60%,而第二類(lèi)的可能性為40%。在沒(méi)有任何樣本信息的情況下,那么應(yīng)將樣本決策為第一類(lèi)以使錯(cuò)分類(lèi)可能性小(40%),這就是這一章考慮分類(lèi)問(wèn)題的出發(fā)點(diǎn)?!?.2幾種常用的決策規(guī)那么本節(jié)將討論幾種常用的決策規(guī)那么。不同的決策規(guī)那么反映了分類(lèi)器設(shè)計(jì)者的不同考慮,對(duì)決策結(jié)果有不同的影響。其中最有代表性的是基于最小錯(cuò)誤率的貝葉斯決策與基于最小風(fēng)險(xiǎn)的貝葉斯決策,下面分別加以討論。2.2.1基于最小錯(cuò)誤率的貝葉斯決策(一)(二)(三)一般說(shuō)來(lái),c類(lèi)不同的物體應(yīng)該具有各不相同的屬性,在d維特征空間,各自有不同的分布。當(dāng)某一特征向量值X只為某一類(lèi)物體所特有,即,對(duì)其作出決策是容易的,也不會(huì)出什么過(guò)失。問(wèn)題在于出現(xiàn)模棱兩可的情況。此時(shí),任何決策都存在判錯(cuò)的可能性。這一節(jié)討論的是使錯(cuò)誤率為最小的決策方法,稱(chēng)為基于最小錯(cuò)誤率的貝葉斯決策理論。最小錯(cuò)誤率是在統(tǒng)計(jì)的意義上說(shuō)的,請(qǐng)注意其含義。

在這里要弄清楚條件概率這個(gè)概念。P(*|#)是條件概率的通用符號(hào),在“|”后邊出現(xiàn)的#為條件,之前的*為某個(gè)事件,即在某條件#下出現(xiàn)某個(gè)事件*的概率。P(ωK|X)是表示在X出現(xiàn)條件下,樣本為ωK類(lèi)的概率。

一個(gè)事物在某條件下出現(xiàn)的概率P(*|#)與該事件在不帶任何條件下出現(xiàn)的概率(寫(xiě)成P(*))是不相同的。例如全世界人口有60億。因此你見(jiàn)到一個(gè)人在不帶任何條件下,有20%的可能性是中國(guó)人P(*)=0.2,但是如果你在中國(guó),或香港、臺(tái)灣,那么中國(guó)、香港、臺(tái)灣都是指一種條件(#),這種地理?xiàng)l件下,你所見(jiàn)到的某一個(gè)人是中國(guó)人(*)的概率就要大得多,此時(shí)P(*|#)就應(yīng)該大于20%,甚至更多了。

下面先討論一個(gè)例子——癌細(xì)胞的識(shí)別,以此說(shuō)明解決問(wèn)題的過(guò)程。假設(shè)每個(gè)要識(shí)別的細(xì)胞已作過(guò)預(yù)處理,并抽取出了d個(gè)特征描述量,用一個(gè)d維的特征向量X表示,識(shí)別的目的是要依據(jù)該X向量將細(xì)胞劃分為正常細(xì)胞或者異常細(xì)胞。這里我們用ω1表示是正常細(xì)胞,而ω2那么屬于異常細(xì)胞。

類(lèi)別的狀態(tài)是一個(gè)隨機(jī)變量,而某種狀態(tài)出現(xiàn)的概率是可以估計(jì)的。概率的估計(jì)包含兩層含義,一是由統(tǒng)計(jì)資料說(shuō)明,正常細(xì)胞與異常細(xì)胞在統(tǒng)計(jì)意義上的比例,這稱(chēng)為先驗(yàn)概率P(ω1)及P(ω2),另一種那么分別表示所檢查細(xì)胞呈現(xiàn)出不同屬性的概率密度函數(shù)P(x|ω1)和P(x|ω2),顯然在一般情況下正常細(xì)胞占比例大,即P(ω1)>P(ω2),因此如果我們不對(duì)具體的細(xì)胞化驗(yàn)值作仔細(xì)觀察,我們作出該細(xì)胞是正常細(xì)胞的判決,在統(tǒng)計(jì)的意義上來(lái)說(shuō),也就是平均意義上說(shuō),錯(cuò)判可能性比判為異常細(xì)胞時(shí)小。但是僅按先驗(yàn)概率來(lái)決策,就會(huì)把所有細(xì)胞都劃歸為正常細(xì)胞,并沒(méi)有到達(dá)將正常細(xì)胞與異常細(xì)胞區(qū)分開(kāi)的目的。這說(shuō)明由先驗(yàn)概率所提供的信息太少。

為此我們還必須利用對(duì)細(xì)胞作病理分析所觀測(cè)到的信息,也就是所抽取到的d維觀測(cè)向量。為簡(jiǎn)單起見(jiàn),我們假定只用其一個(gè)特征進(jìn)行分類(lèi),即d=1,并這兩類(lèi)的類(lèi)條件概率密度函數(shù)分布,如圖2.1所示,其中P(x|ω1)是正常細(xì)胞的屬性分布,P(x|ω2)是異常細(xì)胞的屬性分布。那末,當(dāng)觀測(cè)向量為X值時(shí),它屬于各類(lèi)的概率又是多少呢?為此我們可以利用貝葉斯公式,來(lái)計(jì)算這種條件概率,稱(chēng)之為狀態(tài)的后驗(yàn)概率P(ωi|X)。基于最小風(fēng)險(xiǎn)的貝葉斯決策(一)(二)上面我們討論了使錯(cuò)誤率最小的貝葉斯決策規(guī)那么。然而當(dāng)接觸到實(shí)際問(wèn)題時(shí),可以發(fā)現(xiàn)使錯(cuò)誤率最小并不一定是一個(gè)普遍適用的最正確選擇。譬如,在上面討論過(guò)的細(xì)胞分類(lèi)的例子中,把正常細(xì)胞錯(cuò)分為癌細(xì)胞,或相反方向的錯(cuò)誤,其嚴(yán)重性是截然不同的。把正常細(xì)胞誤判為異常細(xì)胞固然會(huì)給人帶來(lái)不必要的痛苦,但假設(shè)將癌細(xì)胞誤判為正常細(xì)胞,那么會(huì)使病人因失去及早治療的時(shí)機(jī)而遭受極大的損失。由此可見(jiàn),根據(jù)不同性質(zhì)的錯(cuò)誤會(huì)引起不同程度的損失這一考慮出發(fā),我們寧肯擴(kuò)大一些總的錯(cuò)誤率,但也要使總的損失減少。這會(huì)引進(jìn)一個(gè)與損失有關(guān)聯(lián)的,更為廣泛的概念——風(fēng)險(xiǎn)。在作出決策時(shí),要考慮所承當(dāng)?shù)娘L(fēng)險(xiǎn)?;谧钚★L(fēng)險(xiǎn)的貝葉斯決策規(guī)那么正是為了表達(dá)這一點(diǎn)而產(chǎn)生的。在限定一類(lèi)錯(cuò)誤率條件下使另一類(lèi)錯(cuò)誤率為最小的兩類(lèi)別決策**本小節(jié)不作根本要求。上面討論的最小錯(cuò)誤率或最小風(fēng)險(xiǎn)決策方法都是在先驗(yàn)概率的條件下進(jìn)行的,先驗(yàn)概率的數(shù)值對(duì)決策有很密切的關(guān)系。然而有時(shí)會(huì)遇到先驗(yàn)概率不知道,或先驗(yàn)概率發(fā)生變化的情況。在這種情況下,如果仍按某一組先驗(yàn)概率值P(ωi)作決策,那么很可能使實(shí)際的決策效果有較大的錯(cuò)誤率或較大風(fēng)險(xiǎn)。那末能否在這種情況下,找到一種適宜的分類(lèi)器設(shè)計(jì),使其最大可能的風(fēng)險(xiǎn)為最小。換句話說(shuō),如果先驗(yàn)概率值在較大范圍內(nèi)變化,就可能產(chǎn)生的最大風(fēng)險(xiǎn)而言是最小的。而這一節(jié)講的是哪一種方法,即不考慮先驗(yàn)概率,而只要求限定某一種錯(cuò)誤率條件下,使另一類(lèi)錯(cuò)誤率最小。這一節(jié)僅供有興趣的同學(xué)參考,而最小最大風(fēng)險(xiǎn)決策可參閱講義《模式識(shí)別根本教程》判別函數(shù)、決策面與分類(lèi)器設(shè)計(jì)以上我們討論了幾種常用的決策原那么,在這些原那么的指導(dǎo)下,可以進(jìn)行分類(lèi)器的設(shè)計(jì)。在討論分類(lèi)器設(shè)計(jì)前,需要說(shuō)明在分類(lèi)器設(shè)計(jì)中使用的一些概念,這就是決策面與判別函數(shù)。在前面討論中曾提到,分類(lèi)決策實(shí)質(zhì)上是在描述待識(shí)別對(duì)象的d維特征所組成的特征空間內(nèi),將其劃分為c個(gè)決策域,待識(shí)別的特征向量落在哪個(gè)決策域,該樣本就被判為哪一類(lèi)。因此決策域的邊界面就是決策面,在數(shù)學(xué)上用解析形式表示成決策面方程。用于表達(dá)決策規(guī)那么的某些函數(shù)那么稱(chēng)為判別函數(shù)。顯然判別函數(shù)與決策面方程是密切相關(guān)的,并且都是由相應(yīng)決策規(guī)那么所確定的?!?.3正態(tài)分布時(shí)的統(tǒng)計(jì)決§2.3正態(tài)分布時(shí)的統(tǒng)計(jì)決策(一)正態(tài)分布概率密度函數(shù)的定義與性質(zhì)正態(tài)分布概率模型下的最小錯(cuò)誤率貝葉斯決策學(xué)習(xí)這一節(jié)關(guān)鍵是要將多元正態(tài)分

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論