模式識別基礎(chǔ)課件_第1頁
模式識別基礎(chǔ)課件_第2頁
模式識別基礎(chǔ)課件_第3頁
模式識別基礎(chǔ)課件_第4頁
模式識別基礎(chǔ)課件_第5頁
已閱讀5頁,還剩120頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、模式識別授課對象計(jì)算機(jī)應(yīng)用技術(shù)專業(yè)及電子信息類相關(guān)專業(yè)碩士研究生相關(guān)學(xué)科統(tǒng)計(jì)學(xué)概率論矩陣分析最優(yōu)化原理形式語言機(jī)器學(xué)習(xí)人工智能圖像處理計(jì)算機(jī)視覺,語音信號處理等等教學(xué)方法著重講述模式識別的基本概念,基本方法和算法原理。注重理論與上機(jī)實(shí)踐相結(jié)合。學(xué)生應(yīng)具備一定自學(xué)能力。給出必要的理論推導(dǎo)。 教學(xué)目標(biāo)掌握模式識別的基本概念,方法和原理有效運(yùn)用所學(xué)解決實(shí)際問題為研究新模式識別理論和方法打基礎(chǔ) 授課內(nèi)容貝葉斯決策理論參數(shù)估計(jì),非參數(shù)技術(shù)判別函數(shù)結(jié)構(gòu)模式識別獨(dú)立于算法的機(jī)器學(xué)習(xí)聚類算法,特征提取神經(jīng)網(wǎng)絡(luò)教 材R. Duda, P. Hart, D. Stork, Pattern Classificati

2、on, second edition, 2000.邊肇祺,模式識別(第二版),清華大學(xué)出版社,2000。會議、刊物Conferences: ICCV,CVPR,ICPR,NIPS Journals:Pattern Recognition (PR)Pattern Recognition Letters (PRL)IEEE. Trans. PAMI計(jì)算機(jī)學(xué)報(bào)電子學(xué)報(bào)自動化學(xué)報(bào)軟件學(xué)報(bào)計(jì)算機(jī)研究與發(fā)展第一章 概論模式和模式識別的概念模式識別的發(fā)展簡史和應(yīng)用模式識別的主要方法模式識別的系統(tǒng)和實(shí)例模式識別的幾個(gè)基本問題生物特征識別簡介本章主要內(nèi)容模式不是事物本身,而是從事物獲得的信息。比如,人的照片、個(gè)

3、人資料 可以區(qū)分模式之間是否相似(與問題有關(guān))模式一般用向量來表示,下標(biāo)可以反映時(shí)間特性、空間特性或者其他標(biāo)識(不同年齡的身高、圖象的各個(gè)象素點(diǎn)的灰度值、個(gè)人資料)模式類:模式所屬的類別或同一類中模式的總體(簡稱類)模式識別的概念模式識別 直觀,無所不在,“人以類聚,物以群分”周圍物體的認(rèn)知:桌子、椅子人的識別:張三、李四聲音的辨別:汽車、火車,狗叫、人語氣味的分辨:炸帶魚、紅燒肉人和動物的模式識別能力是極其平常的,但對計(jì)算機(jī)來說卻是非常困難的。人通過視覺、嗅覺、聽覺、味覺、觸覺接收外界信息、再經(jīng)過人腦根據(jù)已有知識進(jìn)行適當(dāng)?shù)奶幚砗笞鞒龅呐袆e事物或者劃分事物性質(zhì)(類別)的能力人的模式識別能力例:

4、幼兒認(rèn)動物老師教幼兒學(xué)(學(xué)習(xí))幼兒自己認(rèn)(決策)錯(cuò)分現(xiàn)象例:醫(yī)生給一個(gè)病人看?。J阶R別的完整過程) 測量病人的體溫和血壓,化驗(yàn)血沉,詢問臨床表現(xiàn) 通過綜合分析,抓住主要病癥; 醫(yī)生運(yùn)用自己的知識,根據(jù)主要病癥,作出正確的診斷。模式識別技術(shù)中,經(jīng)常使用的術(shù)語有:樣本:醫(yī)院里的眾多患者,每個(gè)患者都是一個(gè)樣本。單一樣本:請醫(yī)生給出診斷的某一個(gè)患者,就是眾多患者中的一個(gè)樣本。樣本的測量值:患者的體溫、血壓等測量值。模式:樣本的各測量值的綜合.模式樣本:具有某種模式的樣本。模式采集:獲取某樣本的各測量值的過程。樣本特征:患者的主要病癥。特征提取、特征選擇:模式樣本各測量值經(jīng)過綜合分析找出主要病癥。分類

5、判決:醫(yī)生運(yùn)用自己的知識作出診斷。判決準(zhǔn)則、判決規(guī)則:醫(yī)生的知識。判決結(jié)果:把患者區(qū)別成某種疾病的患者。(也就是把樣本(患者)區(qū)別為相應(yīng)類型(疾?。?。 與人辨別事物相比,機(jī)器識別事物的方法是很不同的,在目前也是很簡單與低級的,因此機(jī)器識別事物的能力還很差。這主要的原因是人們在學(xué)習(xí)與認(rèn)識事物中會總結(jié)出規(guī)律,并把這些規(guī)律性的東西抽象成“概念”。但機(jī)器目前的抽象能力是很差的。要讓機(jī)器準(zhǔn)確地把握事物的本質(zhì),弄清分辨事物的關(guān)鍵,從而正確辨別事物,實(shí)質(zhì)上是要使人能夠研究出好的方法,提出好的算法,從而構(gòu)造出好的系統(tǒng),使機(jī)器辨別事物的本領(lǐng)更強(qiáng)。模式分類問題的描述給定一個(gè)訓(xùn)練樣本的特征矢量集合:分別屬于c個(gè)類別

6、:設(shè)計(jì)出一個(gè)分類器,能夠?qū)ξ粗悇e樣本x進(jìn)行分類特征空間-模式空間常常不能反映樣本的實(shí)質(zhì),機(jī)器在作出判斷之前要對模式空間里的各坐標(biāo)元素進(jìn)行綜合分析,以獲取最能揭示樣本屬性的觀測量作為主要特征,這些主要特征就構(gòu)成特征空間,常常選取不變性特征。特征提取和特征選擇-從模式空間到特征空間所需要的綜合分析,往往包含適當(dāng)?shù)淖儞Q和選擇,這個(gè)過程稱為特征提取和特征選擇。判決規(guī)則:由某些知識和經(jīng)驗(yàn)可以確定的分類準(zhǔn)則類型空間(解釋空間)-根據(jù)適當(dāng)?shù)呐袥Q規(guī)則,把特征空間里的樣本區(qū)分成不同的類型,從而把特征空間塑造成了類型空間。決策面:不同類型之間的分界面。分類判決:由特征空間到類型空間所需要的操作就是分類判決。模式

7、識別過程:從物理上可以覺察到的世界,通過模式空間、特征空間到類型空間,經(jīng)歷了模式采集、特征提取/選擇、以及分類決策等過程,這就是一個(gè)完整的模式識別過程。模式識別過程的圖形表示:1.2 模式識別簡史和應(yīng)用1929年 G. Tauschek發(fā)明閱讀機(jī) ,能夠閱讀0-9的數(shù)字。30年代 Fisher提出統(tǒng)計(jì)分類理論,奠定了統(tǒng)計(jì)模式識別的基礎(chǔ)。50年代 Noam Chemsky 提出形式語言理論傅京蓀 提出句法結(jié)構(gòu)模式識別。60年代 L.A.Zadeh提出了模糊集理論,模糊模式識別方法得以發(fā)展和應(yīng)用。80年代以Hopfield網(wǎng)、BP網(wǎng)為代表的神經(jīng)網(wǎng)絡(luò)模型導(dǎo)致人工神經(jīng)元網(wǎng)絡(luò)復(fù)活,并在模式識別得到較廣泛

8、的應(yīng)用。90年代小樣本學(xué)習(xí)理論,支持向量機(jī)也受到了很大的重視。模式識別的應(yīng)用生物學(xué)染色體特性研究、遺傳研究天文學(xué)天文望遠(yuǎn)鏡圖像分析、自動光譜學(xué)經(jīng)濟(jì)學(xué)股票交易預(yù)測、企業(yè)行為分析醫(yī)學(xué)心電圖分析、腦電圖分析、醫(yī)學(xué)圖像分析工程產(chǎn)品缺陷檢測、特征識別、語音識別、自動導(dǎo)航系統(tǒng)、污染分析軍事航空攝像分析、雷達(dá)和聲納信號檢測和分類、自動目標(biāo)識別安全指紋識別、人臉識別、監(jiān)視和報(bào)警系統(tǒng)美國郵政數(shù)字識別數(shù)據(jù)庫(USPS):7300個(gè)訓(xùn)練樣本,2000個(gè)測試樣本,16X16圖像0191.3 模式識別方法模式識別系統(tǒng)的目標(biāo):在特征空間和解釋空間之間找到一種映射關(guān)系,這種映射也稱之為假說。 假說的兩種獲得方法監(jiān)督學(xué)習(xí)、概

9、念驅(qū)動或歸納假說:在特征空間中找到一個(gè)與解釋空間的結(jié)構(gòu)相對應(yīng)的假說。在給定模式下假定一個(gè)解決方案,任何在訓(xùn)練集中接近目標(biāo)的假說也都必須在“未知”的樣本上得到近似的結(jié)果。依靠已知所屬類別的的訓(xùn)練樣本集,按它們特征向量的分布來確定假說 (通常為一個(gè)判別函數(shù)),只有在判別函數(shù)確定之后才能用它對未知的模式進(jìn)行分類;對分類的模式要有足夠的先驗(yàn)知識,通常需要采集足夠數(shù)量的具有典型性的樣本進(jìn)行訓(xùn)練。假說的兩種獲得方法(續(xù))非監(jiān)督學(xué)習(xí)、數(shù)據(jù)驅(qū)動或演繹假說:在解釋空間中找到一個(gè)與特征空間的結(jié)構(gòu)相對應(yīng)的假說。這種方法試圖找到一種只以特征空間中的相似關(guān)系為基礎(chǔ)的有效假說。在沒有先驗(yàn)知識的情況下,通常采用聚類分析方法

10、,基于“物以類聚”的觀點(diǎn),用數(shù)學(xué)方法分析各特征向量之間的距離及分散情況;如果特征向量集聚集若干個(gè)群,可按群間距離遠(yuǎn)近把它們劃分成類;這種按各類之間的親疏程度的劃分,若事先能知道應(yīng)劃分成幾類,則可獲得更好的分類結(jié)果。模式分類的主要方法數(shù)據(jù)聚類統(tǒng)計(jì)分類結(jié)構(gòu)模式識別神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)聚類目標(biāo):用某種相似性度量的方法將原始數(shù)據(jù)組織成有意義的和有用的各種數(shù)據(jù)集。是一種非監(jiān)督學(xué)習(xí)的方法,解決方案是數(shù)據(jù)驅(qū)動的。統(tǒng)計(jì)分類基于概率統(tǒng)計(jì)模型得到各類別的特征向量的分布,以取得分類的方法。特征向量分布的獲得是基于一個(gè)類別已知的訓(xùn)練樣本集。是一種監(jiān)督分類的方法,分類器是概念驅(qū)動的。結(jié)構(gòu)模式識別該方法通過考慮識別對象的各部分之

11、間的聯(lián)系來達(dá)到識別分類的目的。識別采用結(jié)構(gòu)匹配的形式,通過計(jì)算一個(gè)匹配程度值(matching score)來評估一個(gè)未知的對象或未知對象某些部分與某種典型模式的關(guān)系如何。當(dāng)成功地制定出了一組可以描述對象部分之間關(guān)系的規(guī)則后,可以應(yīng)用一種特殊的結(jié)構(gòu)模式識別方法 句法模式識別,來檢查一個(gè)模式基元的序列是否遵守某種規(guī)則,即句法規(guī)則或語法。神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)是受人腦組織的生理學(xué)啟發(fā)而創(chuàng)立的。由一系列互相聯(lián)系的、相同的單元(神經(jīng)元)組成。相互間的聯(lián)系可以在不同的神經(jīng)元之間傳遞增強(qiáng)或抑制信號。增強(qiáng)或抑制是通過調(diào)整神經(jīng)元相互間聯(lián)系的權(quán)重系數(shù)來(weight)實(shí)現(xiàn)。神經(jīng)網(wǎng)絡(luò)可以實(shí)現(xiàn)監(jiān)督和非監(jiān)督學(xué)習(xí)條件下的分類

12、。1.4模式識別系統(tǒng)模式識別系統(tǒng)的基本構(gòu)成數(shù)據(jù)獲取特征提取和選擇預(yù)處理分類決策分類器設(shè)計(jì)模式識別系統(tǒng)組成單元數(shù)據(jù)獲?。河糜?jì)算機(jī)可以運(yùn)算的符號來表示所研究的對象,即通過各種傳感器,將光或聲音等信息轉(zhuǎn)化為電信息,或者將文字信息輸入計(jì)算機(jī) -例1、用話筒將聲音信號轉(zhuǎn)換成電信號,表現(xiàn)出電壓(電流)隨時(shí)間變化的復(fù)雜波形。 -例2、景物信息在攝像機(jī)靶面成像并轉(zhuǎn)換成二維的象素矩陣,每個(gè)像素(矩陣元素)的電信號與物體表面反射的光強(qiáng)或顏色信息呈現(xiàn)函數(shù)關(guān)系。因此信號獲取環(huán)節(jié)主要是由不同形式的傳感器構(gòu)成,它實(shí)現(xiàn)信息獲取與信息在不同媒體之間的轉(zhuǎn)換。模式識別系統(tǒng)組成單元信息可以分成:一維波形:聲波,心電圖,腦電圖等二維

13、圖象:文字,圖象等物理量:人的身高、體重,商品的重量、質(zhì)量級別等邏輯量(0/1):有無、男女等模式識別系統(tǒng)組成單元預(yù)處理單元:其目的為 1)清除或減少模式采集中的噪聲及其它干擾,提高信噪比。 2)消除或減少數(shù)據(jù)圖像的模糊及幾何失真,提高清晰度。 3)轉(zhuǎn)變模式的結(jié)構(gòu),以便后續(xù)處理(如非線性模式轉(zhuǎn)為線性模式)。預(yù)處理方法:有一維信號濾波去噪,圖象的平滑、增強(qiáng)、恢復(fù)、濾波、分割等心電圖圖像去噪模式識別系統(tǒng)組成單元特征提取和選擇:對原始數(shù)據(jù)進(jìn)行變換,得到最能反映分類本質(zhì)的特征,選擇不變性特征模式識別系統(tǒng)組成單元特征提取/選擇的必要性 模式維數(shù)很大的問題是處理時(shí)間很長,費(fèi)用很高,有時(shí)甚至直接用于分類是不

14、可能的,即所謂“維數(shù)災(zāi)難”。另外,有些數(shù)據(jù)坐標(biāo)對刻劃事物的本質(zhì)貢獻(xiàn)不大,甚至很小。特征提取準(zhǔn)則 1)考慮特征之間的統(tǒng)計(jì)關(guān)系,選用適當(dāng)?shù)恼蛔儞Q,提取最有效的特征,降低數(shù)據(jù)冗余。 2)特征提取的分類準(zhǔn)則:在該準(zhǔn)則下,選擇對分類貢獻(xiàn)較大的特征,刪除貢獻(xiàn)甚微的特征。模式識別系統(tǒng)組成單元分類器設(shè)計(jì):根據(jù)訓(xùn)練樣本集,確定判決規(guī)則,使得按這樣判決規(guī)則對被識別對象進(jìn)行分類時(shí),錯(cuò)誤率最小、損失最小或者某一準(zhǔn)則函數(shù)值最小,即將該特征空間劃分成由各類占據(jù)的子空間(決策域),確定相應(yīng)的決策分界。模式識別系統(tǒng)組成單元模式識別系統(tǒng)組成單元分類決策:用相應(yīng)的決策分界對待分類樣本進(jìn)行分類決策的過程。例:如圖所示為一個(gè)二維特

15、征空間兩類物體的分布狀況,其中x1與x2分別為兩個(gè)特征坐標(biāo)。由于各類樣本分布呈現(xiàn)出聚類狀態(tài),因此可以將該特征空間劃分成由各類占據(jù)的子空間,確定相應(yīng)的決策分界。一般說來采用什么樣式的分界由設(shè)計(jì)者決定,如本題中二維特征空間中可用直線、折線或曲線作為類別的分界線。分界線的類型可由設(shè)計(jì)者直接確定,也可通過訓(xùn)練過程產(chǎn)生,但是這些分界線的具體參數(shù)則利用訓(xùn)練樣本經(jīng)訓(xùn)練過程確定。分類決策過程是指分類器在分界形式及其具體參數(shù)都確定后,對待分類樣本進(jìn)行分類決策的過程。在圖所示的情況中,待識別樣本按處于分界線左下方,或右上方分類。x2=ax1+b例如右圖為兩類別樣本在二維特征空間中的分布。其中兩類別樣本分別用“”與

16、“”表示。從圖中可見這兩類樣本在二維特征空間中有相互穿插,也就是說這兩類樣本很難用簡單的分界線將它們完全分開。如果我們用一直線作為分界線,稱為線性分類器,對圖中所示的樣本分布情況,無論直線參數(shù)如何設(shè)計(jì),總會有錯(cuò)分類發(fā)生。如果我們以錯(cuò)分類最小為原則分類,則圖中A直線可能是最佳的分界線,它使錯(cuò)分類的樣本數(shù)量為最小。但是如果將一個(gè)“”樣本錯(cuò)分成“”類所造成的損失要比將“”分成“”類嚴(yán)重,則偏向使對“”類樣本的錯(cuò)分類進(jìn)一步減少,可以使總的損失為最小,那末B直線就可能比A直線更適合作為分界線??梢姺诸惼鲄?shù)的選擇或者學(xué)習(xí)過程得到的結(jié)果取決于設(shè)計(jì)者選擇什么樣的準(zhǔn)則函數(shù)。不同準(zhǔn)則函數(shù)的最優(yōu)解對應(yīng)不同的學(xué)習(xí)結(jié)

17、果,得到性能不同的分類器。模式識別過程實(shí)例在傳送帶上用光學(xué)傳感器件對魚按品種分類鱸魚(Seabass)品種鮭魚(Salmon)識別過程數(shù)據(jù)獲取:架設(shè)一個(gè)攝像機(jī),采集一些樣本圖像,獲取樣本數(shù)據(jù)預(yù)處理:去噪聲,用一個(gè)分割操作把魚和魚之間以及魚和背景之間分開識別過程特征提取和選擇:對單個(gè)魚的信息進(jìn)行特征選擇,從而通過測量某些特征來減少信息量長度亮度寬度魚翅的數(shù)量和形狀嘴的位置,等等 分類決策:把特征送入決策分類器模式分類器的獲取和評測過程數(shù)據(jù)采集特征選取模型選擇訓(xùn)練和測試計(jì)算結(jié)果和復(fù)雜度分析,反饋訓(xùn)練和測試訓(xùn)練集:是一個(gè)已知樣本集,在監(jiān)督學(xué)習(xí)方法中,用它來開發(fā)出模式分類器。測試集:在設(shè)計(jì)識別和分類系

18、統(tǒng)時(shí)沒有用過的獨(dú)立樣本集。系統(tǒng)評價(jià)原則:為了更好地對模式識別系統(tǒng)性能進(jìn)行評價(jià),必須使用一組獨(dú)立于訓(xùn)練集的測試集對系統(tǒng)進(jìn)行測試。實(shí)例:統(tǒng)計(jì)模式識別19名男女同學(xué)進(jìn)行體檢,測量了身高和體重,但事后發(fā)現(xiàn)其中有4人忘記填寫性別,試問(在最小錯(cuò)誤的條件下)這4人是男是女?體檢數(shù)值如下:實(shí)例:統(tǒng)計(jì)模式識別(續(xù))待識別的模式:性別(男或女)測量的特征:身高和體重訓(xùn)練樣本:15名已知性別的樣本特征目標(biāo):希望借助于訓(xùn)練樣本的特征建立判別函數(shù)(即數(shù)學(xué)模型)實(shí)例:統(tǒng)計(jì)模式識別(續(xù))由訓(xùn)練樣本得到的特征空間分布圖實(shí)例:統(tǒng)計(jì)模式識別(續(xù))從圖中訓(xùn)練樣本的分布情況,找出男、女兩類特征各自的聚類特點(diǎn),從而求取一個(gè)判別函數(shù)(

19、直線或曲線)。只要給出待分類的模式特征的數(shù)值,看它在特征平面上落在判別函數(shù)的哪一側(cè),就可以判別是男還是女了。實(shí)例:句法模式識別問題:如何利用對圖像的結(jié)構(gòu)信息描述,識別如下所示圖片:實(shí)例:句法模式識別(續(xù))將整個(gè)場景圖像結(jié)構(gòu)分解成一些比較簡單的子圖像的組合;子圖像又用一些更為簡單的基本圖像單元來表示,直至子圖像達(dá)到了我們認(rèn)為的最簡單的圖像單元(基元);所有這些基元按一定的結(jié)構(gòu)關(guān)系來表示,利用多級樹結(jié)構(gòu)對其進(jìn)行描述(這種描述可以采用形式語言理論)。實(shí)例:句法模式識別(續(xù))多級樹描述結(jié)構(gòu)實(shí)例:句法模式識別(續(xù))訓(xùn)練過程:用已知結(jié)構(gòu)信息的圖像作為訓(xùn)練樣本,先識別出基元(比如場景圖中的X、Y、Z等簡單平

20、面)和它們之間的連接關(guān)系(例如長方體E是由X、Y和Z三個(gè)面拼接而成),并用字母符號代表之;然后用構(gòu)造句子的文法來描述生成這幅場景的過程,由此推斷出生成該場景的一種文法。實(shí)例:句法模式識別(續(xù))識別過程:先對未知結(jié)構(gòu)信息的圖像進(jìn)行基元提取及其相互結(jié)構(gòu)關(guān)系的識別;然后用訓(xùn)練過程獲得的文法做句法分析;如果能被已知結(jié)構(gòu)信息的文法分析出來,則該幅未知圖像與訓(xùn)練樣本具有相同的結(jié)構(gòu)(識別成功),否則就不是這種結(jié)構(gòu)(識別失敗)。1.5 模式識別的基本問題一.模式(樣本)表示方法向量表示 : 假設(shè)一個(gè)樣本有n個(gè)變量(特征) = (X1,X2,Xn)T2. 矩陣表示: N個(gè)樣本,n個(gè)變量(特征)3. 幾何表示 一

21、維表示 X1=1.5 X2=3 二維表示 X1=(x1,x2)T=(1,2)T X2=(x1,x2)T=(2,1)T 三維表示 X1=(x1,x2, x3)T=(1,1,0)T X2=(x1,x2 , x3)T=(1,0,1)T4. 基元(鏈碼)表示:在右側(cè)的圖中八個(gè)基元分別表示0,1,2,3,4,5,6,7,八個(gè)方向和基元線段長度。則右側(cè)樣本可以表示為 X1=006666這種方法將在句法模式識別中用到。二.模式類的緊致性1. 緊致集:同一類模式類樣本的分布比較集中,沒有或臨界樣本很少,這樣的模式類稱緊致集。2. 臨界點(diǎn)(樣本):在多類樣本中,某些樣本的值有微小變化時(shí)就變成另一類樣本稱為臨界樣

22、本(點(diǎn))。3. 緊致集的性質(zhì) 要求臨界點(diǎn)很少 集合內(nèi)的任意兩點(diǎn)的連線,在線上的點(diǎn)屬于同 一集合 集合內(nèi)的每一個(gè)點(diǎn)都有足夠大的鄰域,在鄰域內(nèi)只包含同一集合的點(diǎn)4. 模式識別的要求:滿足緊致集,才能很好的分類;如果不滿足緊致集,就要采取變換的方法,滿足緊致集.三.相似與分類 1.兩個(gè)樣本xi ,xj之間的相似度量滿足以下要求: 應(yīng)為非負(fù)值 樣本本身相似性度量應(yīng)最大 度量應(yīng)滿足對稱性 在滿足緊致性的條件下,相似性應(yīng)該是點(diǎn)間距離的 單調(diào)函數(shù) 2. 用各種距離表示相似性: 絕對值距離 已知兩個(gè)樣本 xi=(xi1, xi2 , xi3,xin)T xj=(xj1, xj2 , xj3,xjn)T 歐幾里

23、德距離明考夫斯基距離 其中當(dāng)q=1時(shí)為絕對值距離,當(dāng)q=2時(shí)為歐氏距離 切比雪夫距離 q趨向無窮大時(shí)明氏距離的極限情況 馬哈拉諾比斯距離 其中xi ,xj為特征向量, 為協(xié)方差。使用的條件是 樣本符合正態(tài)分布 夾角余弦 為xi xj的均值 即樣本間夾角小的為一類,具有相似性例: x1 , x2 , x3的夾角如圖:因?yàn)閤1 , x2 的夾角小,所以x1 , x2 最相似。xyx1x2x33. 分類的主觀性和客觀性 分類帶有主觀性:目的不同,分類不同。例如:鯨魚,牛,馬從生物學(xué)的角度來講都屬于哺乳類,但是從產(chǎn)業(yè)角度來講鯨魚屬于水產(chǎn)業(yè),牛和馬屬于畜牧業(yè)。 分類的客觀性:科學(xué)性判斷分類必須有客觀標(biāo)準(zhǔn)

24、,因此分類是追求客觀性的,但主觀性也很難避免,這就是分類的復(fù)雜性。四.特征的生成 1.低層特征: 無序尺度:有明確的數(shù)量和數(shù)值。 有序尺度:有先后、好壞的次序關(guān)系,如酒 分為上,中,下三個(gè)等級。 名義尺度:無數(shù)量、無次序關(guān)系,如有紅, 黃兩種顏色 2. 中層特征:經(jīng)過計(jì)算,變換得到的特征 3. 高層特征:在中層特征的基礎(chǔ)上有目的的經(jīng)過運(yùn) 算形成例如:椅子的重量=體積*比重 體積與長,寬,高有關(guān);比重與材料,紋理,顏色有關(guān)。這里低、中、高三層特征都有了。五.數(shù)據(jù)的標(biāo)準(zhǔn)化 1.極差標(biāo)準(zhǔn)化 2. 方差標(biāo)準(zhǔn)化 標(biāo)準(zhǔn)化的方法很多,原始數(shù)據(jù)是否應(yīng)該標(biāo)準(zhǔn)化,應(yīng)采用什么方法標(biāo)準(zhǔn)化,都要根據(jù)具體情況來定。 所謂

25、生物特征識別 (BIOMETRICS) 技術(shù)是指通過計(jì)算機(jī)利用人體所固有的生理特征或行為特征來進(jìn)行個(gè)人身份鑒定。生理特征與生俱來,多為先天性的;行為特征則是習(xí)慣使然,多為后天性的。我們將生理和行為特征統(tǒng)稱為生物特征。 生物特征識別技術(shù)包括:指紋識別、虹膜識別、面部識別、說話人識別、筆跡識別、步態(tài)識別、紅外溫譜圖等。1.6 生物特征識別簡介 簡單地說,根據(jù)指紋、虹膜、掌形、臉型、聲音、步態(tài)、筆跡等,計(jì)算機(jī)就能猜出你是誰,這就是生物特征識別。生物特征識別是一門計(jì)算機(jī)“模式識別”的高科技,主要應(yīng)用于安全保密、認(rèn)證防偽、考勤打卡、刑事偵破等。 如果你建設(shè)一個(gè)數(shù)字化社區(qū),就需要有一套安全可靠的門禁系統(tǒng),

26、是用鑰匙?用IC卡?還是用指紋鎖?如果成本合適的話,大家可能會選擇指紋鎖,因?yàn)橹讣y是“隨身攜帶”的,不用當(dāng)心會丟失;指紋又是唯一的,全球60億人沒有兩個(gè)指紋是一樣的,安全可靠。 鑒別人的身份是一個(gè)非常困難的問題,傳統(tǒng)的身份鑒別方法把這個(gè)問題轉(zhuǎn)化為鑒別一些標(biāo)識個(gè)人身份的事物,這包括兩個(gè)方面: 1) 身份標(biāo)識物品,比如鑰匙、證件、ATM卡等。 2) 身份標(biāo)識知識,比如用戶名和密碼。 在一些安全性要求嚴(yán)格的系統(tǒng)中,可以將這兩者結(jié)合起來,比如ATM機(jī)要求用戶同時(shí)提供ATM卡和密碼。這些傳統(tǒng)的身份鑒別方法存在明顯的缺點(diǎn):個(gè)人擁有的物品容易丟失或被偽造,個(gè)人的密碼容易遺忘或記錯(cuò)。更為嚴(yán)重的是這些系統(tǒng)無法區(qū)

27、分真正的擁有者和取得身份標(biāo)識物的冒充者,一旦他人獲得了這些身份標(biāo)識事物,就可以擁有相同的權(quán)力。 與傳統(tǒng)的身份鑒定手段相比,基于生物特征識別的身份鑒定技術(shù)具有以下優(yōu)點(diǎn): 1) 不易遺忘或丟失; 2) 防偽性能好,不易偽造或被盜; 3) 隨身攜帶,隨時(shí)隨地可用。 工作原理 生物特征識別系統(tǒng)基本上都采用相同的工作原理。首先是采集樣品,這些樣品或是指紋、面孔的圖像等,或是語音,隨后經(jīng)過特征提取系統(tǒng)進(jìn)行處理。根據(jù)樣品與眾不同的特征,用一種算法為其分配一個(gè)特征代碼。這一代碼被存入人的數(shù)據(jù)庫,形成識別數(shù)據(jù)庫。當(dāng)某人需要被識別身份時(shí),一種特征匹配算法將存在數(shù)據(jù)庫里的該人的特征代碼與被識別人的特征相匹配,從而驗(yàn)

28、明其身份。 生物特征識別技術(shù)可廣泛用于政府、軍隊(duì)、銀行、社會福利保障、電子商務(wù)及安全防務(wù)。例如,一位儲戶走進(jìn)了銀行,他既沒帶銀行卡,也沒有回憶密碼就徑直提款,當(dāng)他在提款機(jī)上提款時(shí),一臺攝像機(jī)對該用戶的眼睛掃描,然后迅速而準(zhǔn)確地完成了用戶身份鑒定,辦理完業(yè)務(wù),這是美國德克薩斯洲聯(lián)合銀行的一個(gè)營業(yè)部中發(fā)生的一個(gè)真實(shí)的鏡頭。而該營業(yè)部所使用的正是現(xiàn)代生物特征識別技術(shù)中的“虹膜識別系統(tǒng)”。美國9.11事件后,反恐怖活動已成為各國政府的共識,加強(qiáng)機(jī)場的安全防務(wù)十分重要。美國維薩格公司的臉像識別技術(shù)在美國的兩家機(jī)場大顯神通,它能在擁擠的人群中挑出某一張面孔,判斷他是不是通緝犯。 指紋識別 指紋識別是人們最

29、熟悉的生物測定學(xué)技術(shù),也是當(dāng)今世界上最常用的生物特征身份識別方式。人類從胎兒四個(gè)月大就已經(jīng)形成指紋,從此指紋作為一個(gè)隨身攜帶的“特殊印章”,具有獨(dú)特的單一性和排它性,不能假冒。 指紋鑒定技術(shù)與絕大多數(shù)其他的生物測定技術(shù)相比更先進(jìn)(除虹膜識別以外)。掃描儀能夠嵌入到鍵盤和鼠標(biāo)中,所以系統(tǒng)安裝既簡單又便宜。 指紋識別技術(shù)現(xiàn)在廣泛應(yīng)用于銀行儲蓄業(yè)、保險(xiǎn)業(yè)、證券業(yè)、醫(yī)療衛(wèi)生系統(tǒng)、計(jì)算機(jī)開機(jī)控制、計(jì)算機(jī)系統(tǒng)訪問權(quán)限管理、門禁系統(tǒng)、考勤系統(tǒng)、網(wǎng)上交易、指紋駕照、護(hù)照等身份證件驗(yàn)證等領(lǐng)域,指紋識別技術(shù)有良好的市場前景。 虹膜識別 虹膜識別技術(shù)是90年代才成熟的生物特征識別技術(shù),但它是目前可靠性最高的生物測定

30、學(xué)識別技術(shù),比指紋識別技術(shù)更先進(jìn),因此在不遠(yuǎn)的將來可能取代指紋識別技術(shù)和其他各種生物特征識別技術(shù)。 虹膜是瞳孔與鞏膜間的環(huán)形可視部分,虹膜具有終身不變性與差異性。人眼中的虹膜是由一種隨瞳孔直徑的變化而拉伸的復(fù)雜的纖維狀組織所構(gòu)成。人們在出生前的隨機(jī)生長過程中,造成了各自虹膜組織結(jié)構(gòu)的細(xì)微差別。因而沒有任何虹膜的形狀是完全相同的,即使是同一個(gè)人的左眼和右眼的虹膜形狀也不相同。 因?yàn)椴煌酥g的虹膜具有隨機(jī)的細(xì)節(jié)特征和紋理圖像,而且這些特征在人的一生中均保持相當(dāng)高的穩(wěn)定性,加之進(jìn)行虹膜識別時(shí),不需對人體進(jìn)行侵犯,故它是一種理想的生物識別技術(shù)。人的虹膜具有大約266項(xiàng)可檢測到的特征,相比之下,人的指

31、紋只有大約40項(xiàng)可檢測到的特征。虹膜的這些特征目前可被定位于大約0.9米遠(yuǎn)的一臺相機(jī)所識別。而由于人們的虹膜之間存在著千差萬別,因而識別系統(tǒng)存儲的虹膜代碼信息,即使有三分之一發(fā)生錯(cuò)配,仍能做出準(zhǔn)確的鑒別。 虹膜身份識別技術(shù)為金融電子化、電子貿(mào)易、訪問控制、通道控制及智能卡技術(shù)的進(jìn)一步發(fā)展提供了一種可靠的安全技術(shù)。它的大量使用將指日可待。因此,如果有人對你進(jìn)行身份識別的話,他只需用相機(jī)透過你的眼睛觀察你,來確認(rèn)你并非另外一個(gè)人。 國外的虹膜識別研究比我國早,研制的識別系統(tǒng)也比較成熟。美國SENSAR公司開發(fā)出了虹膜識別系統(tǒng)自動取款機(jī)。它使用方便,用戶將取款卡插入取款機(jī)口后,機(jī)器上的立體照相機(jī)將迅

32、速捕捉用戶臉部,對準(zhǔn)用戶眼睛,攝取其眼虹膜的數(shù)字圖像。無論白天或黑夜,也不管用戶是否帶有普通眼鏡或隱形眼鏡,不需其他照明燈光,安裝著特殊透鏡的照相機(jī)都可以準(zhǔn)確獲取用戶的虹膜圖像,并將獲得的圖像與用戶以前留存在公司(銀行)或記錄在取款卡的圖像比較,核對完身份,用戶便可繼續(xù)下步操作,提取現(xiàn)金。面部識別 面部識別是人們最早使用的生物特征識別技術(shù)。面部識別有兩種技術(shù)。第一種是比較特征部位的大小和關(guān)系,如鼻子的長度和兩只眼睛之間的距離;第二種方法是將你有效的圖像數(shù)據(jù),與存儲在數(shù)據(jù)庫中的面孔記錄進(jìn)行匹配。面孔識別的好處在于,它采用的是一種很“不顯眼”的技術(shù):系統(tǒng)將你的面孔捕捉到移動的視頻中,分解出特征并且能很快地對它們進(jìn)行識別。 由中科院計(jì)算所科學(xué)家自主研制的“面像檢測與識別核心技術(shù)”,在 “中國共產(chǎn)黨第16次全國代表大會”會場人民大會堂獲得成功應(yīng)用,集成了該技術(shù)的系統(tǒng)成功實(shí)現(xiàn)了利用計(jì)算機(jī)自動確認(rèn)與會人員身份。語音識別 語音識別系統(tǒng)是將人體發(fā)出的語音作為生物特征,其過程是首先由用戶輸入代表自己的帳號或其它身份信息,然后輸入密碼,即語音,也可以直接輸入語音,再對語音進(jìn)行分析。語音分析有兩種方式,其一是從連續(xù)語音中抽取出單詞和詞組,和數(shù)據(jù)庫進(jìn)行對照,其二是對語音進(jìn)行基于聲帶特征的分析,以最終確定用戶身份。筆跡識別隨著計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)技術(shù)的發(fā)展與普及,筆跡鑒別技術(shù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論