版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、先修課程 概率論與數(shù)理統(tǒng)計概率論與數(shù)理統(tǒng)計, ,矩陣理論,矩陣理論, 線性代數(shù)線性代數(shù), , 高級高級語言程序設計語言程序設計/ /MatlabMatlab課程簡介 介紹模式識別的基本概念、基本理論、基本介紹模式識別的基本概念、基本理論、基本方法、基本應用。為今后學習人工智能、人機方法、基本應用。為今后學習人工智能、人機交互、系統(tǒng)分析等打下基礎交互、系統(tǒng)分析等打下基礎l基本:掌握模式識別的基本知識,按時上基本:掌握模式識別的基本知識,按時上課、完成作業(yè),通過考試,獲得學分。課、完成作業(yè),通過考試,獲得學分。l擴展:能夠將所學知識和內容用于解決實擴展:能夠將所學知識和內容用于解決實際問題,通過模
2、式識別的學習,改進思維際問題,通過模式識別的學習,改進思維方式,為將來的學習工作打好基礎。方式,為將來的學習工作打好基礎。l教材 模式識別模式識別清華大學出版社清華大學出版社 邊肇祺邊肇祺 、張學工、張學工。l參考文獻:l1 模式識別模式識別,蔡元龍,西安電子科技大學出版社,蔡元龍,西安電子科技大學出版社。l2 模式識別模式識別,李晶皎、朱志良等,電子工業(yè)出版社,李晶皎、朱志良等,電子工業(yè)出版社l3 模式識別模式識別,楊光正、吳岷等,中國科技大學出版社,楊光正、吳岷等,中國科技大學出版社l4 Pattern Classification, 2nd Edition, Richard O. Dud
3、a, Peter E. Hart, and David G. Stork,l5 Pattern Recognition and Machine Learning,Christopher Bishopl6 The Elements of Statistical Learning, Trevor Hastie, Robert Tibshirani & Jerome Friedmanl課時安排: 每周每周2 2次課、共次課、共8 8周周l實驗安排(課外自行安排): 實驗一:實驗一:K K均值的系統(tǒng)聚類。均值的系統(tǒng)聚類。 實驗二:均值向量和協(xié)方差矩陣的參數(shù)估計。實驗二:均值向量和協(xié)方差矩陣的參
4、數(shù)估計。 實驗三:計算總體散布矩陣、本征根和特征實驗三:計算總體散布矩陣、本征根和特征向向l考試安排: 期末,開卷期末,開卷l第零章模式識別引論第零章模式識別引論(第第1章章) l第一章第一章 非監(jiān)督學習方法非監(jiān)督學習方法 (第三版第第三版第9章或第二版第章或第二版第10章章) l第二章第二章 線性判別函數(shù)線性判別函數(shù) (第三版第第三版第4章第章第5章的章的5.15.3或第二版第或第二版第4,5章章) l第三章第三章 貝葉斯決策理論貝葉斯決策理論(第第2章章) l第四章第四章 概率密度函數(shù)估計概率密度函數(shù)估計 (第三版第第三版第3章第章第10章的章的10.1或第二版第或第二版第3章章) l第五
5、章第五章 特征選擇與特征提取特征選擇與特征提取 (第三版第第三版第7,8章或第二版第章或第二版第8,9章章) 1.1模式識別的基本概念一、模式識別基本定義 l模式(Pattern):存在于時間,空間中可觀察的事物,具有時間或空間分布的信息。l模式識別(Pattern Recognition):用計算機實現(xiàn)人對各種事物或現(xiàn)象的分析,描述,判斷,識別。NOTE:模式通常所指的不是事物本身,模式通常所指的不是事物本身,而是從事物獲得的信息,因此,模式往而是從事物獲得的信息,因此,模式往往表現(xiàn)為具有時間和空間分布的信息。往表現(xiàn)為具有時間和空間分布的信息。l模式識別與圖像識別,圖像處理的關系: 模式識別
6、是模擬人的某些功能,達到劃分對象的目的。 模擬人的視覺: 計算機+光學系統(tǒng) 模擬人的聽覺: 計算機+聲音傳感器 模擬人的嗅覺和觸覺: 計算機+傳感器l圖像識別:對二維圖像信號的處理,識別感興趣的部分。 比如,一副圖像,里面有背景和人臉,要將人臉從圖像重提取出來,甚至將人臉圖像分成輪廓和五官等各個組件,這就完成了圖像識別或者圖像特征的提取。當需要從多幅這樣的圖像中分類出每個人的照片的時候,就需要完成模式識別了,每個五官都有自身的特點,即模式的特征,運用模式識別理論就可以達到分類。l主要動力:不同程度的模擬或者取代人腦的部分功能。l主要目標:利用機器(不僅僅是計算機),在錯誤概率最小的情況下,對對
7、象進行分類處理,使分類的結果與實際盡量相符合。l 1929年年 G. Tauschek發(fā)明閱讀機發(fā)明閱讀機 ,能夠閱讀,能夠閱讀0-9的數(shù)的數(shù)字。字。l20世紀世紀30年代年代 Fisher提出統(tǒng)計分類理論提出統(tǒng)計分類理論,奠定了統(tǒng)計奠定了統(tǒng)計模式識別的基礎。因此,在模式識別的基礎。因此,在6070年代,統(tǒng)計模式年代,統(tǒng)計模式識別發(fā)展很快,但由于被識別的模式愈來愈復雜,識別發(fā)展很快,但由于被識別的模式愈來愈復雜,特征也愈多,就出現(xiàn)特征也愈多,就出現(xiàn)“維數(shù)災難維數(shù)災難”。但由于計算機。但由于計算機運算速度的迅猛發(fā)展,這個問題得到一定克服。統(tǒng)運算速度的迅猛發(fā)展,這個問題得到一定克服。統(tǒng)計模式識別仍
8、是模式識別的主要理論。計模式識別仍是模式識別的主要理論。l20世紀世紀50年代年代 Noam Chomsky提出形式語言理論提出形式語言理論 ,美籍華人付京蓀美籍華人付京蓀 提出句法結構模式識別。提出句法結構模式識別。l20世紀世紀60年代年代 L.A.Zadeh提出了模糊集理提出了模糊集理論,模糊模式識別理論得到了較廣泛的應論,模糊模式識別理論得到了較廣泛的應用。用。l20世紀世紀80年代年代 Hopfield提出神經元網絡模提出神經元網絡模型理論。近些年人工神經元網絡在模式識型理論。近些年人工神經元網絡在模式識別和人工智能上得到較廣泛的應用。別和人工智能上得到較廣泛的應用。l20世紀世紀9
9、0年代年代 小樣本學習理論,支持向量小樣本學習理論,支持向量機機(SVM)也受到了很大的重視。也受到了很大的重視。l近來近來 盲分析識別、獨立分量分析等應用到盲分析識別、獨立分量分析等應用到模式識別模式識別 。l1973年年 IEEE發(fā)起了第一次關于模式識別的國際會發(fā)起了第一次關于模式識別的國際會議議“ICPR” IEEE International Conference on Pattern Recognition,每每2年召開一次國際學術會議。年召開一次國際學術會議。lIEEE International Conference on Computer Vision and Pattern
10、Recognition (CVPR) lIEEE International Conference on Computer Vision (ICCV) lEuropean Conference on Computer Vision (ECCV)lIEEE International Conference on Image Processing (ICIP)l1977年年 IEEE的計算機學會成立了模式分析與機器的計算機學會成立了模式分析與機器智能(智能(PAMI)委員會,每委員會,每2年召開一次模式識別與年召開一次模式識別與圖像處理學術會議。圖像處理學術會議。lIEEE Transaction
11、s on Pattern Analysis and Machine Intelligence (PAMI)lInternational Journal of Computer VisionlIEEE Transactions on Image Processing (TIP)lPattern RecognitionlMachine Learning lIEEE Transactions on Multimedia (MM)lIEEE Transactions on Circuits and Systems for Video Technology (CSVT)l國內的組織有電子學會,通信學會,
12、自動化協(xié)會,國內的組織有電子學會,通信學會,自動化協(xié)會,中文信息學會。中文信息學會。l中科院自動化研究所模式識別重點實驗室中科院自動化研究所模式識別重點實驗室l中科院合肥智能機械研究所,主辦模式識別與人中科院合肥智能機械研究所,主辦模式識別與人工智能工智能信息獲取預處理特征選取分類器設計模式分類錯誤率檢測改進分類器(參數(shù))識別結果輸出信息的獲?。和ㄟ^傳感器,將光或聲音等信息轉化為電信息。信息可以是二維的圖像如文字,圖像等;可以是一維的波形如聲波,心電圖,腦電圖;也可以是物理量與邏輯值。預處理:包括A/D,二值化,圖像的平滑,變換,增強,恢復,濾波等, 主要指圖像處理。特征抽取和選擇:在模式識別
13、中,需要進行特征的抽取和選擇,例如,一幅64x64x8bits的圖像可以得到4096個數(shù)據(jù)(字節(jié)),這種在測量空間的原始數(shù)據(jù)通過變換獲得在特征空間最能反映分類本質的特征。這就是特征提取和選擇的過程。分類器設計:分類器設計的主要功能是通過訓練確定判決規(guī)則,使按此類判決規(guī)則分類時,錯誤率最低。把這些判決規(guī)則建成標準庫。錯誤率檢測:計算分類器錯誤分類的概率,總結分類錯誤的主要特征。改進分類器(參數(shù)): 依據(jù)錯誤率檢測的結果適當修正分類器的參數(shù)或者構造新的分類器。模式分類:在特征空間中對被識別對象進行分類。1 1、字符識別:、字符識別: 包括印刷體字符的識別;手寫體字符的識別,各種包括印刷體字符的識別
14、;手寫體字符的識別,各種OCROCR(Optical character recognitionOptical character recognition)設備例如信函分揀、設備例如信函分揀、文件處理、卡片輸入、支票查對、自動排板、期刊閱讀、文件處理、卡片輸入、支票查對、自動排板、期刊閱讀、稿件輸入、各種書寫輸入板。稿件輸入、各種書寫輸入板。2 2、生物醫(yī)學、生物醫(yī)學 心電圖,腦電圖,染色體,癌細胞識別,心電圖,腦電圖,染色體,癌細胞識別,疾病診斷、疾病診斷、自動細胞學、染色體特性研自動細胞學、染色體特性研究、遺傳研究究、遺傳研究3 3、航空航天、航空航天 資源衛(wèi)星照片,氣象衛(wèi)星照片處理,數(shù)字
15、資源衛(wèi)星照片,氣象衛(wèi)星照片處理,數(shù)字化地球,圖像分辨率可以達到化地球,圖像分辨率可以達到1 1米。米。4 4、生物特征標識(、生物特征標識(安全檢查)安全檢查) 指紋識別指紋識別 、臉形識別,虹膜識別。、臉形識別,虹膜識別。5 5、環(huán)境保護、環(huán)境保護 檢測污染分析、大氣、水源、環(huán)境監(jiān)測。檢測污染分析、大氣、水源、環(huán)境監(jiān)測。6 6、工業(yè)生產、工業(yè)生產 自動檢測:產品質量自動檢測。自動檢測:產品質量自動檢測。7. 7. 人機智能人機智能 語聲識別、機器翻譯、電話號碼自動查語聲識別、機器翻譯、電話號碼自動查詢、偵聽、機器故障判斷。詢、偵聽、機器故障判斷。8. 8. 國防軍事國防軍事 軍事設置的目標識
16、別。軍事設置的目標識別。一一. .模式模式( (樣本樣本) )表示方法表示方法l向量表示向量表示 : 假設一個樣本有假設一個樣本有n個變量個變量(特征特征) = (X1,X2,Xn)T2. 矩陣表示矩陣表示: N個樣本,個樣本,n個變量個變量(特征特征) 變 量 樣 本 x1 x2 xn X1 X11 X12 X1n X2 X21 X22 X2n XN XN1 XN2 XNn 3. 幾何表示幾何表示 一維表示一維表示 X1=1.5 X2=3 二維表示二維表示 X1=(x1,x2)T=(1,2)T X2=(x1,x2)T=(2,1)T 三維表示三維表示 X1=(x1,x2, x3)T=(1,1,
17、0)T X2=(x1,x2 , x3)T=(1,0,1)T4. 基元(鏈碼)表示:基元(鏈碼)表示:在右側的圖中八個基元在右側的圖中八個基元分別表示分別表示0,1,2,3,4,5,6,7,八個方向,八個方向和基元線段長度。和基元線段長度。則右側樣本可以表示為則右側樣本可以表示為 X1=006666這種方法將在句法模式識這種方法將在句法模式識別中用到。別中用到。1. 緊致集:同一類模式類樣本的分布比較緊致集:同一類模式類樣本的分布比較集中,沒有或臨界樣本很少,這樣的模集中,沒有或臨界樣本很少,這樣的模式類稱緊致集。式類稱緊致集。2. 臨界點臨界點(樣本樣本):在多類樣本中,某些樣本的值:在多類樣
18、本中,某些樣本的值有微小變化時就變成另一類樣本稱為臨界樣本有微小變化時就變成另一類樣本稱為臨界樣本(點)。(點)。3. 緊致集的性質緊致集的性質 要求臨界點很少要求臨界點很少 集合內的任意兩點的連線集合內的任意兩點的連線,在線上的點屬于在線上的點屬于同同 一集合一集合 集合內的每一個點都有足夠大的鄰域集合內的每一個點都有足夠大的鄰域,在鄰在鄰域內只包含同一集合的點域內只包含同一集合的點4. 模式識別的要求模式識別的要求:滿足緊致集,才能很好的分滿足緊致集,才能很好的分類;如果不滿足緊致集,就要采取變換的方法類;如果不滿足緊致集,就要采取變換的方法,滿足緊致集滿足緊致集.1.兩個樣本兩個樣本xi
19、 ,xj之間的相似度量滿足以下要求:之間的相似度量滿足以下要求: 應為非負值應為非負值 樣本本身相似性度量應最大樣本本身相似性度量應最大 度量應滿足對稱性度量應滿足對稱性 在滿足緊致性的條件下,相似性應該是點間距離的在滿足緊致性的條件下,相似性應該是點間距離的 單調函數(shù)單調函數(shù) 2. 用各種距離表示相似性:用各種距離表示相似性: 絕對值距離絕對值距離 已知兩個樣本已知兩個樣本 xi=(xi1, xi2 , xi3,xin)T xj=(xj1, xj2 , xj3,xjn)T 模式識別就是把具體事物歸入某一類的過程。識別(Recognition)其實就是再認知(Re-Cognition)。相似和
20、分類是認知的基本問題。 歐幾里德距離歐幾里德距離明考夫斯基距離明考夫斯基距離 其中當其中當q=1q=1時為絕對值距離,當時為絕對值距離,當q=2q=2時為歐氏距離時為歐氏距離nkjkikijXXd1|nkjkikijXXd12nkjkikqijXXqqd1|1)( 切比雪夫距離切比雪夫距離 q q趨向無窮大時明氏距離的極限情況趨向無窮大時明氏距離的極限情況 馬哈拉諾比斯距離馬哈拉諾比斯距離 其中其中xi ,xj為特征向量,為特征向量, 為協(xié)方差。使用的條件是為協(xié)方差。使用的條件是 樣樣 本符合正態(tài)分布本符合正態(tài)分布|max)(1jkiknkijXXd1)(XjXiXXMdjiTij 夾角余弦夾
21、角余弦 為為xi xj的均值的均值 即樣本間夾角小的為一類,具有相似性即樣本間夾角小的為一類,具有相似性例:例: x1 , x2 , x3的夾角如圖:的夾角如圖:因為因為x1 , x2 的夾角小的夾角小,所以所以x1 , x2 最相似。最相似。nkjknkiknkjkikijXXXXC12121x1x2x1x2x3XXji, 相關系數(shù)相關系數(shù) 為為xi xj的均值的均值注意:在求相關系數(shù)之前,要將數(shù)據(jù)標準化注意:在求相關系數(shù)之前,要將數(shù)據(jù)標準化3. 分類的主觀性和客觀性分類的主觀性和客觀性 分類帶有主觀性:目的不同,分類不同。例如:鯨魚,分類帶有主觀性:目的不同,分類不同。例如:鯨魚,牛,馬從
22、生物學的角度來講都屬于哺乳類,但是從產牛,馬從生物學的角度來講都屬于哺乳類,但是從產業(yè)角度來講鯨魚屬于水產業(yè),牛和馬屬于畜牧業(yè)。業(yè)角度來講鯨魚屬于水產業(yè),牛和馬屬于畜牧業(yè)。 分類的客觀性:科學性分類的客觀性:科學性判斷分類必須有客觀標準,因此分類是追求客觀性的,判斷分類必須有客觀標準,因此分類是追求客觀性的,但主觀性也很難避免,這就是分類的復雜性。但主觀性也很難避免,這就是分類的復雜性。nknkjkjikinkjkjikiXXXXXXXXrij11221jiXX,四四.特征的生成特征的生成 (特征是決定相似性與分類的關鍵特征是決定相似性與分類的關鍵) 1.低層特征:低層特征: 無序尺度:有明確
23、的數(shù)量和數(shù)值。無序尺度:有明確的數(shù)量和數(shù)值。 有序尺度:有先后、好壞的次序關系,如酒有序尺度:有先后、好壞的次序關系,如酒 分為上,中,下三個等級。分為上,中,下三個等級。 名義尺度:無數(shù)量、無次序關系,如有紅,名義尺度:無數(shù)量、無次序關系,如有紅, 黃兩種顏色黃兩種顏色 2. 中層特征:經過計算,變換得到的特征中層特征:經過計算,變換得到的特征 3. 高層特征:在中層特征的基礎上有目的的經過運高層特征:在中層特征的基礎上有目的的經過運 算形成算形成例如:椅子的重量例如:椅子的重量=體積體積*比重比重 體積與長,寬,高有關;比重與材料,紋理,顏體積與長,寬,高有關;比重與材料,紋理,顏色有關。
24、這里低、中、高三層特征都有了。色有關。這里低、中、高三層特征都有了。五五.數(shù)據(jù)的標準化數(shù)據(jù)的標準化 1.極差標準化,一批樣本中,每個特征的最大值極差標準化,一批樣本中,每個特征的最大值與最小值之差。與最小值之差。 極差極差 極差標準化極差標準化 2. 方差標準化方差標準化 Si 為方差為方差標準化的方法很多,原始數(shù)據(jù)是否應該標準化,應采用標準化的方法很多,原始數(shù)據(jù)是否應該標準化,應采用什么方法標準化,都要根據(jù)具體情況來定。什么方法標準化,都要根據(jù)具體情況來定。ijijiXXRminmaxiiijRXXXijiiijSXXXij1 1、 對象具有顯著的特征(對象具有顯著的特征(可觀察性)可觀察性
25、) 對象在經過一定的處理之后能提取出部分顯著對象在經過一定的處理之后能提取出部分顯著的特征,這些特征可以描述該對象,或者以此的特征,這些特征可以描述該對象,或者以此將該對象區(qū)別與其他的對象將該對象區(qū)別與其他的對象, ,用特征向量來表用特征向量來表示特征示特征。2 2、 對象具有邏輯可分性(對象具有邏輯可分性(可區(qū)分性)可區(qū)分性) 從邏輯上可以依據(jù)一定的標準將對象劃分成不從邏輯上可以依據(jù)一定的標準將對象劃分成不同的類別,依據(jù)的標準可能與對象特征密切聯(lián)同的類別,依據(jù)的標準可能與對象特征密切聯(lián)系,劃分的方法又直接關系到分類方法的正確系,劃分的方法又直接關系到分類方法的正確程度,劃分方法又可能從已有的
26、一部分樣本來程度,劃分方法又可能從已有的一部分樣本來進行歸納得到。進行歸納得到。3 3、 統(tǒng)計意義上的最優(yōu)性(源于統(tǒng)計意義上的最優(yōu)性(源于相似性)相似性) 對象或者說是待分類的樣本總體數(shù)目可對象或者說是待分類的樣本總體數(shù)目可能無限大,有時候無法求得對所有的樣能無限大,有時候無法求得對所有的樣本進行精確分類,這個時候只是需要統(tǒng)本進行精確分類,這個時候只是需要統(tǒng)計意義上的最優(yōu),或者錯誤率最低則可。計意義上的最優(yōu),或者錯誤率最低則可。 模式識別系統(tǒng)的目標:在模式識別系統(tǒng)的目標:在特征空間特征空間和和分分類空間類空間之間找到一種之間找到一種歸屬關系映射映射,這這種映射也稱之為種映射也稱之為分類。特征空
27、間:從模式得到的對分類有用的度量、特征空間:從模式得到的對分類有用的度量、屬性或基元構成的空間。屬性或基元構成的空間。分類空間:將分類空間:將c個類別表示為個類別表示為其中其中 為所屬類別的集合,稱為分類空間。為所屬類別的集合,稱為分類空間。 X1、 X2 、 X3 、Xn 1、 2、 、 c1 判別函數(shù) 作為模式識別,模式分類的依據(jù),從作為模式識別,模式分類的依據(jù),從數(shù)值上劃分模式。判別函數(shù),有線性函數(shù)值上劃分模式。判別函數(shù),有線性函數(shù)和非線性函數(shù),模式空間(或者模式數(shù)和非線性函數(shù),模式空間(或者模式特征空間)特點決定了判別函數(shù)的得來特征空間)特點決定了判別函數(shù)的得來和特征以及表達形式。這也
28、是我們這門和特征以及表達形式。這也是我們這門課程研究的一個重點。將在不同的情形課程研究的一個重點。將在不同的情形確定判別函數(shù),并且深入討論它的特性。確定判別函數(shù),并且深入討論它的特性。 2 監(jiān)督分類和非監(jiān)督分類監(jiān)督分類和非監(jiān)督分類 監(jiān)督類監(jiān)督類( (Supervised)Supervised)分類方法分類方法:依靠已知所:依靠已知所屬類別的訓練樣本集合,按照他們特征向屬類別的訓練樣本集合,按照他們特征向量的分布來確定判別函數(shù),只有判別函數(shù)量的分布來確定判別函數(shù),只有判別函數(shù)確定之后才能用它來對未知的模式進行分確定之后才能用它來對未知的模式進行分類判別。類判別。 要求:進行大量的測試、實驗、提煉
29、、要求:進行大量的測試、實驗、提煉、統(tǒng)計得到足夠的先驗知識。作為確定判別統(tǒng)計得到足夠的先驗知識。作為確定判別函數(shù)的基礎。并且要有足夠的樣本。函數(shù)的基礎。并且要有足夠的樣本。3 監(jiān)督分類和非監(jiān)督分類監(jiān)督分類和非監(jiān)督分類 非監(jiān)督(非監(jiān)督(Unsupervised)分類方法分類方法:沒有:沒有(足夠的足夠的)先驗知識,而是基于先驗知識,而是基于“物以類聚物以類聚”的出發(fā)點,通過聚類分析,將模式特征的出發(fā)點,通過聚類分析,將模式特征相近的劃分成一類,在特征空間相距比相近的劃分成一類,在特征空間相距比較近的一些模式歸為一類。較近的一些模式歸為一類。 目標:用某種相似性度量的方法將原始數(shù)目標:用某種相似性
30、度量的方法將原始數(shù)據(jù)組織成有意義的和有用的各種數(shù)據(jù)集。據(jù)組織成有意義的和有用的各種數(shù)據(jù)集。4 統(tǒng)計模式識別統(tǒng)計模式識別 以模式集合的樣本在特征空間中表現(xiàn)出隨機性,以模式集合的樣本在特征空間中表現(xiàn)出隨機性,我們只能根據(jù)類的分布概率密度函數(shù)為基礎,我們只能根據(jù)類的分布概率密度函數(shù)為基礎,來確定判別函數(shù),以某一個置信度來分類模式。來確定判別函數(shù),以某一個置信度來分類模式。(1 1) 參數(shù)方法參數(shù)方法 已知概率密度函數(shù)的參數(shù)和表達形式,或已知概率密度函數(shù)的參數(shù)和表達形式,或者通過樣本訓練學習能估計出類的概率密度函者通過樣本訓練學習能估計出類的概率密度函數(shù)的近似表達式。數(shù)的近似表達式。(2 2) 非參數(shù)
31、方法非參數(shù)方法 在沒有概率密度函數(shù)或者也估計不出概率密度在沒有概率密度函數(shù)或者也估計不出概率密度函數(shù)的情況下,就無法利用概率密度函數(shù)來計算判函數(shù)的情況下,就無法利用概率密度函數(shù)來計算判別函數(shù)。按我們教材上的說法:凡是不采用某種概別函數(shù)。按我們教材上的說法:凡是不采用某種概率密度函數(shù)的估計參數(shù)來確定判別函數(shù)的,都可以率密度函數(shù)的估計參數(shù)來確定判別函數(shù)的,都可以歸之為非參數(shù)方法。那么,歸之為非參數(shù)方法。那么, (i) 繞過概率密度函數(shù)直接確定判別函數(shù)(或繞過概率密度函數(shù)直接確定判別函數(shù)(或者判函數(shù)的形式,再通過訓練樣本來確定參數(shù))者判函數(shù)的形式,再通過訓練樣本來確定參數(shù)) (ii) 最鄰近的原則分
32、類。最鄰近的原則分類。 l19名男女同學進行體檢,測量了身高和名男女同學進行體檢,測量了身高和體重,但事后發(fā)現(xiàn)其中有體重,但事后發(fā)現(xiàn)其中有4人忘記填寫人忘記填寫性別,試問(在最小錯誤的條件下)這性別,試問(在最小錯誤的條件下)這4人是男是女?體檢數(shù)值如下:人是男是女?體檢數(shù)值如下:待識別的模式:性別(男或女)待識別的模式:性別(男或女)測量的特征:身高和體重測量的特征:身高和體重訓練樣本:訓練樣本:15名已知性別的樣本特征名已知性別的樣本特征目標:希望借助于訓練樣本的特征建立判目標:希望借助于訓練樣本的特征建立判別函數(shù)(即數(shù)學模型)別函數(shù)(即數(shù)學模型)l由訓練樣本得到的特征空間分布圖由訓練樣本
33、得到的特征空間分布圖l從圖中訓練樣本的分布情況,找出男、從圖中訓練樣本的分布情況,找出男、女兩類特征各自的聚類特點,從而求取女兩類特征各自的聚類特點,從而求取一個判別函數(shù)(直線或曲線)。一個判別函數(shù)(直線或曲線)。l只要給出待分類的模式特征的數(shù)值,看只要給出待分類的模式特征的數(shù)值,看它在特征平面上落在判別函數(shù)的哪一側,它在特征平面上落在判別函數(shù)的哪一側,就可以判別是男還是女了。就可以判別是男還是女了。5 句法模式識別 對象從結構上由多個部分組成,依據(jù)對象從結構上由多個部分組成,依據(jù)文法理論和句式結構,判斷組成部分之文法理論和句式結構,判斷組成部分之間的結構關系,通過該關系達到分類對間的結構關系
34、,通過該關系達到分類對象集合。象集合。 l問題:如何利用對圖像的結構信息描述,問題:如何利用對圖像的結構信息描述,識別如下所示圖片:識別如下所示圖片:l將整個場景圖像結構分解成一些比較簡單的將整個場景圖像結構分解成一些比較簡單的子圖像子圖像(subimage)的組合;的組合;l子圖像又用一些更為簡單的基本圖像單元子圖像又用一些更為簡單的基本圖像單元(item ,element)來表示,直至子圖像達到了我來表示,直至子圖像達到了我們認為的最簡單的圖像單元(基元);們認為的最簡單的圖像單元(基元);l所有這些基元按一定的結構關系來表示,利所有這些基元按一定的結構關系來表示,利用多級樹結構對其進行描
35、述(這種描述可以用多級樹結構對其進行描述(這種描述可以采用形式語言理論)。采用形式語言理論)。l多級樹描述結構多級樹描述結構l訓練過程:用已知結構信息的圖像作為訓練樣本,先識別出基元(比如場景圖中的X、Y、Z等簡單平面)和它們之間的連接關系(例如長方體E是由X、Y和Z三個面拼接而成),并用字母符號代表之;然后用構造句子的文法來描述生成這幅場景的過程,由此推斷出生成該場景的一種文法。l識別過程:先對未知結構信息的圖像進行基元提取及其相互結構關系的識別;然后用訓練過程獲得的文法做句法分析;如果能被已知結構信息的文法分析出來,則該幅未知圖像與訓練樣本具有相同的結構(識別成功),否則就不是這種結構(識
36、別失?。?。形式語言和文法理論形式語言和文法理論 自然語言:人們平時說話時所使用的一種語言,:人們平時說話時所使用的一種語言,不同的國家和民族有著不同的語言。不同的國家和民族有著不同的語言。 形式語言:形式化描述的字母表上的字符串的:形式化描述的字母表上的字符串的集合。通過人們公認的符號,表達方式所描述集合。通過人們公認的符號,表達方式所描述的一種語言,是一種通用語言,沒有國籍之分。的一種語言,是一種通用語言,沒有國籍之分。形式語言是某個字母表上的字符串的集合,有形式語言是某個字母表上的字符串的集合,有一定的描述范圍一定的描述范圍. .字母表:字符的有限集合。:字符的有限集合。e.g.e.g.:
37、2626個英個英文字母構成的字母表。文字母構成的字母表。字符串:字母表中的字符構成的有限序列。:字母表中的字符構成的有限序列。e.g. hello, afjhkfyue.g. hello, afjhkfyu形 式 語 言 的 最 初 起 因 : 語 言 學 家語 言 學 家(ChomskyChomsky)想用一套形式化方法來描述想用一套形式化方法來描述語言。形式語言在自然語言研究中起步,語言。形式語言在自然語言研究中起步,在計算機科學中得到廣泛應用。在計算機科學中得到廣泛應用。最初的應用:編譯,:編譯, 讓計算機按照語法規(guī)則將讓計算機按照語法規(guī)則將高級語言方便地翻譯成機器語言。高級語言方便地翻
38、譯成機器語言?,F(xiàn)在: 已廣泛應用在人工智能、圖像處理、通已廣泛應用在人工智能、圖像處理、通信協(xié)議、通信軟件等多個領域信協(xié)議、通信軟件等多個領域在計算機理論科學方面:是可計算理論(算法:是可計算理論(算法在有限步驟內求得解、算法復雜性、停機問在有限步驟內求得解、算法復雜性、停機問題、)、定理自動證明、程序轉換(程序自動題、)、定理自動證明、程序轉換(程序自動生成)、模式識別等的基礎。生成)、模式識別等的基礎。 補充:有的文獻上對模式識別的分類方補充:有的文獻上對模式識別的分類方法不太一樣。如可以分成這樣幾個大類法不太一樣。如可以分成這樣幾個大類: : (1 1)統(tǒng)計決策:)統(tǒng)計決策:依據(jù)概率論數(shù)
39、理統(tǒng)計的依據(jù)概率論數(shù)理統(tǒng)計的知識,研究對象的特征向量,并以此來知識,研究對象的特征向量,并以此來分類,常用的方法有幾何分類(線性分分類,常用的方法有幾何分類(線性分類、非線性分類)、統(tǒng)計分類(類、非線性分類)、統(tǒng)計分類(BayesBayes)決策、無教師分類(聚類分析)。決策、無教師分類(聚類分析)。(2 2)句法結構:)句法結構:依據(jù)形式語言和自動機技術等依據(jù)形式語言和自動機技術等理論研究符號串、樹、圖的關系,并以此來分理論研究符號串、樹、圖的關系,并以此來分類,常用的分類方法有自動機技術、類,常用的分類方法有自動機技術、CYKCYK剖析剖析算法、算法、EarlyEarly算法、轉移圖法。算
40、法、轉移圖法。(3 3)模糊判決)模糊判決 :依據(jù)模糊數(shù)學的理論,建立模依據(jù)模糊數(shù)學的理論,建立模糊集合和模糊關系,用隸屬度將模糊集合劃分糊集合和模糊關系,用隸屬度將模糊集合劃分為若干子集,再根據(jù)擇近原則分類。關鍵的就為若干子集,再根據(jù)擇近原則分類。關鍵的就是隸屬度函數(shù)的設計,通常有這樣幾種方法:是隸屬度函數(shù)的設計,通常有這樣幾種方法:模糊統(tǒng)計法、二元對比排序法、推理法等模糊統(tǒng)計法、二元對比排序法、推理法等(4 4)邏輯推理:)邏輯推理:依據(jù)演繹邏輯和布爾代數(shù)的相依據(jù)演繹邏輯和布爾代數(shù)的相關理論,從事實出發(fā)運用一系列規(guī)則,推理得關理論,從事實出發(fā)運用一系列規(guī)則,推理得到不同的結果,以此達到分類
41、的目的。產生式到不同的結果,以此達到分類的目的。產生式推理、語義網推理、框架推理。推理、語義網推理、框架推理。(5 5)神經網絡:)神經網絡:依據(jù)神經生理學、心理學中的依據(jù)神經生理學、心理學中的一些原理來進行分類。這些原理就是闡述人類一些原理來進行分類。這些原理就是闡述人類在學習、記憶、推理等活動中的關系和規(guī)則。在學習、記憶、推理等活動中的關系和規(guī)則。通過對樣本的學習建立起記憶,然后將為止模通過對樣本的學習建立起記憶,然后將為止模式判決為其最接近的記憶。式判決為其最接近的記憶??偨Y:總結: 這種分類方法很明了,利用某一方面的概念、這種分類方法很明了,利用某一方面的概念、理論來描述對象、以此達到
42、分類識別的目的,理論來描述對象、以此達到分類識別的目的,有一種為了理論而模式識別的感覺。有一種為了理論而模式識別的感覺。 NOTE:NOTE:我們是面向問題的而不是面向知識和理我們是面向問題的而不是面向知識和理論的,我們要發(fā)現(xiàn)問題,為尋求解決問題而建論的,我們要發(fā)現(xiàn)問題,為尋求解決問題而建立相關的理論,尋求解決問題的方法。立相關的理論,尋求解決問題的方法。(1) 隨機向量隨機向量l如果一個對象的特征觀察值為如果一個對象的特征觀察值為x1, x2, , xn,它它可構成一個可構成一個n維的特征向量值維的特征向量值x,即即X= (x1, x2, , xn)T 式中,式中, x1, x2, , xn
43、為特征向量為特征向量X的各個分量。的各個分量。l一個特征可以看作一個特征可以看作n維空間中的向量或點,此空維空間中的向量或點,此空間稱為模式的特征空間間稱為模式的特征空間Rn。隨機向量隨機向量l在模式識別過程中,要對許多具體對象進行測量,在模式識別過程中,要對許多具體對象進行測量,以獲得許多次觀測值。以獲得許多次觀測值。l每次觀測值不一定相同,所以對許多對象而言,每次觀測值不一定相同,所以對許多對象而言,各個特征分量都是隨機變量,即許多對象的特征各個特征分量都是隨機變量,即許多對象的特征向量在向量在n維空間中呈隨機性分布,稱為隨機向量。維空間中呈隨機性分布,稱為隨機向量。分布函數(shù)分布函數(shù)密度函數(shù)密度函數(shù)隨機向量的參數(shù)隨機向量的參數(shù)l數(shù)學期望數(shù)學期望l協(xié)方差矩陣協(xié)方差矩陣l自相關矩陣自相關矩陣l協(xié)方差正定性協(xié)方差正定性l正態(tài)分布正態(tài)分布一維正態(tài)密度函數(shù)一維正態(tài)密度函數(shù)222)(exp21)(mxxpP(x)N(0,1.5)l正態(tài)分布多維正態(tài)密度函數(shù)不相關與獨立性邊界密度函數(shù)、條件概率密度函數(shù)。馬氏平方 )()(),(12mxCmxCmxdt定義 稱為X到m的馬氏距離平方 l密度函數(shù)的變換和雅克比行列式)(XgY ),(),(11121nnnxxgxxgYYYJxpyp)()(nnnn
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 微商城維護合同范例
- 軟件租賃合同范例
- 教育培訓機合同范例
- 房管買賣居間合同范例
- 二年級數(shù)學計算題專項練習1000題匯編集錦
- 五年級數(shù)學(小數(shù)除法)計算題專項練習及答案
- 樓花買賣合同范例
- 合同范例錯誤通報范文
- 2024至2030年真空加硫機項目投資價值分析報告
- 深圳租寶馬530合同范例
- 大學英語2(含答案)
- 遼寧省大連市2023-2024學年數(shù)學四年級第一學期期末達標檢測模擬試題含答案
- 蘭州市城市垃圾處理費征收管理辦法
- 井岡山斗爭和井岡山精神教學課件
- 2023年湖南申論(鄉(xiāng)鎮(zhèn)卷)解析及參考答案
- 研學旅行PPT模板
- 2023春國家開放大學-04014人文英語2-期末考試題帶答案
- 2023年天津市高中物理學業(yè)水平試題真題含答案
- 2021-2022學年廣東省廣州市白云區(qū)九年級(上)期末語文試卷
- 植樹問題整理與復習
- 閉門器買賣合同
評論
0/150
提交評論