數(shù)字媒體技術(shù)概論(融媒體版)課件 第3、4章 計(jì)算機(jī)視覺技術(shù)及應(yīng)用、數(shù)字音頻技術(shù)及應(yīng)用_第1頁(yè)
數(shù)字媒體技術(shù)概論(融媒體版)課件 第3、4章 計(jì)算機(jī)視覺技術(shù)及應(yīng)用、數(shù)字音頻技術(shù)及應(yīng)用_第2頁(yè)
數(shù)字媒體技術(shù)概論(融媒體版)課件 第3、4章 計(jì)算機(jī)視覺技術(shù)及應(yīng)用、數(shù)字音頻技術(shù)及應(yīng)用_第3頁(yè)
數(shù)字媒體技術(shù)概論(融媒體版)課件 第3、4章 計(jì)算機(jī)視覺技術(shù)及應(yīng)用、數(shù)字音頻技術(shù)及應(yīng)用_第4頁(yè)
數(shù)字媒體技術(shù)概論(融媒體版)課件 第3、4章 計(jì)算機(jī)視覺技術(shù)及應(yīng)用、數(shù)字音頻技術(shù)及應(yīng)用_第5頁(yè)
已閱讀5頁(yè),還剩112頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第3講:計(jì)算機(jī)視覺技術(shù)及應(yīng)用數(shù)字媒體技術(shù)概論第3章:計(jì)算機(jī)視覺技術(shù)及應(yīng)用1計(jì)算機(jī)視覺的定義與發(fā)展2深度學(xué)習(xí)與計(jì)算機(jī)視覺3計(jì)算機(jī)視覺關(guān)鍵技術(shù)4計(jì)算機(jī)視覺的實(shí)際應(yīng)用一、計(jì)算機(jī)視覺的定義§3.1計(jì)算機(jī)視覺的定義與發(fā)展計(jì)算機(jī)視覺是用計(jì)算機(jī)來(lái)看世界的科學(xué)。使用攝像機(jī)和計(jì)算機(jī)來(lái)代替人眼和人腦來(lái)觀察分析圖像和視頻,對(duì)其中的目標(biāo)進(jìn)行識(shí)別、跟蹤、測(cè)量。計(jì)算機(jī)視覺通過將圖像與其中的多維數(shù)據(jù)建立起聯(lián)系從而獲取更多的信息。計(jì)算機(jī)視覺是一門綜合性的工程學(xué)科,它包含了計(jì)算機(jī)科學(xué)、信號(hào)處理、物理學(xué)、應(yīng)用數(shù)學(xué)、統(tǒng)計(jì)學(xué)、生物學(xué)、認(rèn)知科學(xué)等多種學(xué)科?!?.1計(jì)算機(jī)視覺的定義與發(fā)展二、計(jì)算機(jī)視覺的發(fā)展神經(jīng)生物學(xué)家DavidHubel和TorstenWiesel對(duì)視覺神經(jīng)的研究為計(jì)算機(jī)視覺奠定了基礎(chǔ),Russell在同階段與其同學(xué)研制了第一臺(tái)數(shù)字圖像掃描儀,從此數(shù)字圖像處理迎來(lái)了開端計(jì)算機(jī)視覺于這個(gè)階段正式投入了市場(chǎng)應(yīng)用20世紀(jì)50年代20世紀(jì)60年代麻省理工學(xué)院人工智能實(shí)驗(yàn)室提出了計(jì)算機(jī)視覺理論,成為了計(jì)算機(jī)視覺下一階段發(fā)展的重要框架理論20世紀(jì)70年代計(jì)算機(jī)視覺經(jīng)歷了漫長(zhǎng)的發(fā)展。從20世紀(jì)中期開始,計(jì)算機(jī)視覺經(jīng)歷了從二維圖像到三維圖像再到視頻的不斷探知,算法也從簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)發(fā)展到深度學(xué)習(xí)?!?.1計(jì)算機(jī)視覺的定義與發(fā)展人們開始致力于研究特征識(shí)別計(jì)算機(jī)視覺從理論走向了應(yīng)用20世紀(jì)80年代20世紀(jì)90年代21世紀(jì)初計(jì)算機(jī)視覺的發(fā)展走向了高潮21世紀(jì)10年代深度學(xué)習(xí)在計(jì)算機(jī)視覺中被廣泛應(yīng)用三、計(jì)算機(jī)視覺相關(guān)學(xué)科§3.1計(jì)算機(jī)視覺的定義與發(fā)展圖像處理

指將圖像用計(jì)算機(jī)進(jìn)行分析,轉(zhuǎn)化為另一幅包含更多特征的圖像。模式識(shí)別(模式分類)

指用計(jì)算機(jī)根據(jù)不同圖像中特征的不同進(jìn)行統(tǒng)計(jì),劃分為不同的類別。圖像理解指給計(jì)算機(jī)一張圖像,計(jì)算機(jī)不但能描述圖像本身,還可以對(duì)圖像內(nèi)的物體做出解釋,研究圖像中有哪些目標(biāo),目標(biāo)之間有什么樣的關(guān)聯(lián),圖像所處的場(chǎng)景是怎樣的。計(jì)算機(jī)視覺涉及的學(xué)科眾多,上述的幾種學(xué)科以及很多其他的學(xué)科都有著密切的關(guān)系,因此計(jì)算機(jī)視覺是一個(gè)極為復(fù)雜、研究領(lǐng)域極廣的學(xué)科。第3章:計(jì)算機(jī)視覺技術(shù)及應(yīng)用1計(jì)算機(jī)視覺的定義與發(fā)展2深度學(xué)習(xí)與計(jì)算機(jī)視覺3計(jì)算機(jī)視覺關(guān)鍵技術(shù)4計(jì)算機(jī)視覺的實(shí)際應(yīng)用一、深度學(xué)習(xí)§3.2深度學(xué)習(xí)與計(jì)算機(jī)視覺深度學(xué)習(xí)是機(jī)器學(xué)習(xí)中的一個(gè)領(lǐng)域,它是通過對(duì)數(shù)據(jù)集或樣本庫(kù)進(jìn)行深層次的理解與學(xué)習(xí),對(duì)圖像、視頻、文字、聲音等多個(gè)數(shù)據(jù)進(jìn)行研究。定義深度學(xué)習(xí)在搜索技術(shù)、機(jī)器翻譯、計(jì)算機(jī)視覺、自然語(yǔ)言處理、個(gè)性化推薦等多個(gè)領(lǐng)域的技術(shù)都發(fā)揮了極大的作用。應(yīng)用一、深度學(xué)習(xí)§3.2深度學(xué)習(xí)與計(jì)算機(jī)視覺研究?jī)?nèi)容基于卷積計(jì)算的神經(jīng)網(wǎng)絡(luò)系統(tǒng)(常稱為卷積神經(jīng)網(wǎng)絡(luò))基于多層神經(jīng)元的自編碼神經(jīng)網(wǎng)絡(luò)深度置信網(wǎng)絡(luò)隨著對(duì)深度學(xué)習(xí)研究的深入化,科研人員逐漸將不同的方法和不同的訓(xùn)練步驟相結(jié)合,以達(dá)到更加優(yōu)秀的訓(xùn)練結(jié)果。與傳統(tǒng)的方法相比較,深度學(xué)習(xí)中設(shè)置了更多的參數(shù)模型,因此參與訓(xùn)練的數(shù)據(jù)量就更大,模型的訓(xùn)練難度就更大,但訓(xùn)練達(dá)到的效果會(huì)更好。一、深度學(xué)習(xí)§3.2深度學(xué)習(xí)與計(jì)算機(jī)視覺學(xué)習(xí)能力強(qiáng)覆蓋范圍廣,有較強(qiáng)的適應(yīng)性,可解決復(fù)雜問題數(shù)據(jù)量越大,表現(xiàn)效果越好多平臺(tái)多框架兼容優(yōu)點(diǎn)受所需算力和數(shù)據(jù)規(guī)模過大的限制,難以在移動(dòng)設(shè)備上使用對(duì)硬件要求高使用困難,模型設(shè)計(jì)復(fù)雜對(duì)數(shù)據(jù)依賴性高,可解釋性不高,當(dāng)數(shù)據(jù)種類不平均時(shí)會(huì)產(chǎn)生較大誤差缺點(diǎn)一、深度學(xué)習(xí)§3.2深度學(xué)習(xí)與計(jì)算機(jī)視覺

深度學(xué)習(xí)的本質(zhì)是人工神經(jīng)網(wǎng)絡(luò),深度神經(jīng)網(wǎng)絡(luò)指的是具有一層及一層以上的隱含層的神經(jīng)網(wǎng)絡(luò),通常用于對(duì)復(fù)雜的非線性系統(tǒng)進(jìn)行建模,其中常用的幾種網(wǎng)絡(luò)結(jié)構(gòu)如下:(1)CNN定義:NN是為了完成生物視知覺仿造任務(wù)而構(gòu)造的,是一種包含卷積計(jì)算且具備深度結(jié)果的前饋神經(jīng)網(wǎng)絡(luò),可以用監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)進(jìn)行訓(xùn)練應(yīng)用:可以對(duì)數(shù)據(jù)進(jìn)行平移不變的分類,因此也稱為平移不變?nèi)斯ど窠?jīng)網(wǎng)絡(luò)

CNN網(wǎng)絡(luò)架構(gòu)一、深度學(xué)習(xí)§3.2深度學(xué)習(xí)與計(jì)算機(jī)視覺(2)深度信念網(wǎng)絡(luò)定義:深度信念網(wǎng)絡(luò)(DeepBeliefNetwork,DBN)是一種包含多層隱藏層的概率生成模型,與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)判別模型相對(duì)比,生成模型對(duì)數(shù)據(jù)和標(biāo)簽進(jìn)行聯(lián)合對(duì)比觀察應(yīng)用:DBN是由多個(gè)限制玻爾茲曼機(jī)層構(gòu)成,采用無(wú)監(jiān)督逐層訓(xùn)練的方式進(jìn)行訓(xùn)練,可以對(duì)訓(xùn)練的數(shù)據(jù)進(jìn)行深層次的表達(dá)DBN網(wǎng)絡(luò)架構(gòu)一、深度學(xué)習(xí)§3.2深度學(xué)習(xí)與計(jì)算機(jī)視覺(3)循環(huán)神經(jīng)網(wǎng)絡(luò)定義:循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)是以序列數(shù)據(jù)為輸入并在序列的方向上進(jìn)行遞歸的遞歸式神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)內(nèi)的循環(huán)單元按鏈?zhǔn)较噙B接應(yīng)用:RNN由于其記憶性的特點(diǎn)在對(duì)序列數(shù)據(jù)進(jìn)行學(xué)習(xí)時(shí)有一定的優(yōu)勢(shì),常被應(yīng)用在各種時(shí)間序列預(yù)測(cè)中。CNN和RNN相結(jié)合的神經(jīng)網(wǎng)絡(luò)可以用來(lái)處理輸入為序列的計(jì)算機(jī)視覺問題RNN網(wǎng)絡(luò)架構(gòu)一、深度學(xué)習(xí)§3.2深度學(xué)習(xí)與計(jì)算機(jī)視覺(4)監(jiān)督學(xué)習(xí)監(jiān)督學(xué)習(xí)是指參與訓(xùn)練的數(shù)據(jù)都帶標(biāo)簽,且訓(xùn)練的誤差是從上向下傳輸?shù)挠?xùn)練過程。監(jiān)督學(xué)習(xí)的第一步是對(duì)輸入數(shù)據(jù)進(jìn)行學(xué)習(xí),得到各層的參數(shù)并進(jìn)一步對(duì)多層模型的參數(shù)進(jìn)行優(yōu)化調(diào)整。監(jiān)督學(xué)習(xí)第一步得到的初始值接近全局最優(yōu),因此取得的效果更好。(5)無(wú)監(jiān)督學(xué)習(xí)無(wú)監(jiān)督學(xué)習(xí)是指參與訓(xùn)練的數(shù)據(jù)不帶有標(biāo)簽,從底層開始一層一層向上的訓(xùn)練過程。由于人工給數(shù)據(jù)進(jìn)行分類打標(biāo)簽的任務(wù)成本過高,因此需要計(jì)算機(jī)來(lái)幫助實(shí)現(xiàn)這一目標(biāo)。首先用沒有標(biāo)簽的數(shù)據(jù)訓(xùn)練第一層并學(xué)習(xí)到數(shù)據(jù)本身的結(jié)構(gòu),得到比輸入的數(shù)據(jù)更加有表現(xiàn)能力的輸出,并輸入到下一層中。學(xué)習(xí)到n-1層時(shí),將輸出作為n層的輸入,從而做到自下而上的訓(xùn)練,并得到各層的參數(shù)。二、深度學(xué)習(xí)與計(jì)算機(jī)視覺§3.2深度學(xué)習(xí)與計(jì)算機(jī)視覺傳統(tǒng)的視覺算法通常包含五個(gè)步驟,分別為特征感知、圖像預(yù)處理、特征提取、特征篩選和推理預(yù)測(cè)與識(shí)別。傳統(tǒng)的特征提取主要依靠人工完成,對(duì)于簡(jiǎn)單的任務(wù)來(lái)說(shuō)效果好,但對(duì)于規(guī)模較大的數(shù)據(jù)集難以實(shí)現(xiàn)。

深度學(xué)習(xí)在處理信息量較為豐富的任務(wù)上有很好的表現(xiàn),非常適合計(jì)算機(jī)視覺任務(wù),大規(guī)模的數(shù)據(jù)集和深度學(xué)習(xí)網(wǎng)絡(luò)的強(qiáng)大能力為計(jì)算機(jī)視覺提供了廣闊的發(fā)展空間。傳統(tǒng)的特征提取存在的缺點(diǎn)二、深度學(xué)習(xí)與計(jì)算機(jī)視覺§3.2深度學(xué)習(xí)與計(jì)算機(jī)視覺(1)局部卷積神經(jīng)網(wǎng)絡(luò)

局部卷積神經(jīng)網(wǎng)絡(luò)(Region-CNN,R-CNN),是第一個(gè)將深度學(xué)習(xí)運(yùn)用到目標(biāo)檢測(cè)上的算法。R-CNN保存著傳統(tǒng)的目標(biāo)檢測(cè)的思路,保留使用區(qū)域框進(jìn)行特征提取、圖像分類、非極大值抑制的方法,但區(qū)別在于將傳統(tǒng)的特征提取方法換成了深度卷積網(wǎng)絡(luò)特征提取的方法。傳統(tǒng)的目標(biāo)檢測(cè)一般先在圖片上圈出所有可能是目標(biāo)物體的區(qū)域框,然后對(duì)這些區(qū)域框進(jìn)行特征提取并使用圖像識(shí)別的方法分類,分類后的區(qū)域用非極大值抑制的方法進(jìn)行輸出。二、深度學(xué)習(xí)與計(jì)算機(jī)視覺§3.2深度學(xué)習(xí)與計(jì)算機(jī)視覺對(duì)輸入的一張圖片采用選擇性搜索(SelectiveSearch,SS)算法提取2000個(gè)類別獨(dú)立的區(qū)域框。將每個(gè)區(qū)域框調(diào)整為固定的大小,用CNN提取特征向量。對(duì)每個(gè)區(qū)域框進(jìn)行支持向量機(jī)(SupportVectorMachine,SVM)目標(biāo)分類R-CNN的具體步驟訓(xùn)練一個(gè)邊界框回歸模型,對(duì)框的準(zhǔn)確位置進(jìn)行修正。樣例二、深度學(xué)習(xí)與計(jì)算機(jī)視覺§3.2深度學(xué)習(xí)與計(jì)算機(jī)視覺二、深度學(xué)習(xí)與計(jì)算機(jī)視覺§3.2深度學(xué)習(xí)與計(jì)算機(jī)視覺(2)常見數(shù)據(jù)集數(shù)據(jù)集合是深度學(xué)習(xí)中不可缺少的部分,深度學(xué)習(xí)的學(xué)習(xí)都是基于數(shù)據(jù)集內(nèi)大量數(shù)據(jù)所攜帶的信息,訓(xùn)練用的數(shù)據(jù)集量越大,得到的訓(xùn)練結(jié)果可能會(huì)更好。計(jì)算機(jī)視覺所需要的數(shù)據(jù)集比較龐大,且個(gè)人收集起來(lái)十分復(fù)雜,因此網(wǎng)絡(luò)上有許多公開的數(shù)據(jù)集可供研究人員學(xué)習(xí)使用。ImageNetMSCOCOCityscapesKITTI幾個(gè)常用的開源數(shù)據(jù)集:第3章:計(jì)算機(jī)視覺技術(shù)及應(yīng)用1計(jì)算機(jī)視覺的定義與發(fā)展2深度學(xué)習(xí)與計(jì)算機(jī)視覺3計(jì)算機(jī)視覺關(guān)鍵技術(shù)4計(jì)算機(jī)視覺的實(shí)際應(yīng)用一、特征檢測(cè)§3.3計(jì)算機(jī)視覺關(guān)鍵技術(shù)在計(jì)算機(jī)視覺技術(shù)中,特征檢測(cè)是十分基礎(chǔ)而重要的角色。計(jì)算機(jī)視覺中的多種任務(wù),如目標(biāo)識(shí)別、圖像分類、圖像分割、立體視覺、三維重建等工作都是以特征檢測(cè)為基礎(chǔ),通過對(duì)特征的檢測(cè)與提取從而完成后續(xù)任務(wù)。特征檢測(cè)中的特征包括特征點(diǎn)、輪廓、邊緣等,有明顯的可以識(shí)別的與周圍環(huán)境差異較大位置都是特征。有些特征人眼可以輕易分辨識(shí)別,而計(jì)算機(jī)視覺技術(shù)是通過檢測(cè)兩張圖像中的特征點(diǎn),判斷相同的特征點(diǎn)來(lái)進(jìn)行匹配:樣例一、特征檢測(cè)§3.3計(jì)算機(jī)視覺關(guān)鍵技術(shù)(a)原始圖片生活中隨手拍攝的照片都可以用于特征檢測(cè),圖(a)是一張手機(jī)拍攝的風(fēng)景圖片一、特征檢測(cè)§3.3計(jì)算機(jī)視覺關(guān)鍵技術(shù)(b)截取部分圖片圖(b)是從(a)中截取出的校徽部分并進(jìn)行了放大。用眼睛可以輕易的分辨識(shí)別出(b)圖片是(a)圖片的哪一部分,而計(jì)算機(jī)視覺技術(shù)則是通過檢測(cè)兩張圖像中的特征點(diǎn),判斷相同的特征點(diǎn)來(lái)進(jìn)行匹配。特征點(diǎn):也可以稱為是興趣點(diǎn)、角點(diǎn),是圖像的重要因素之一,指的是圖像中關(guān)鍵、顯而易見的點(diǎn),如圖像中某個(gè)部分的邊角點(diǎn)、特殊形狀物體的邊緣端點(diǎn)等。一、特征檢測(cè)§3.3計(jì)算機(jī)視覺關(guān)鍵技術(shù)(c)特征點(diǎn)檢測(cè)經(jīng)過特征檢測(cè)后,圖(a)中圖像的特征點(diǎn)用圓圈圈出來(lái),如圖(c)所示,圖片中的字、建筑物的邊角點(diǎn)、樹枝的末端、?;諆?nèi)不同顏色的交界點(diǎn)等都是特征點(diǎn)。一、特征檢測(cè)§3.3計(jì)算機(jī)視覺關(guān)鍵技術(shù)(d)特征點(diǎn)匹配特殊點(diǎn)可以用來(lái)尋找不同圖像中特殊點(diǎn)相同的對(duì)應(yīng)部分,下面通過特殊點(diǎn)的識(shí)別與匹配將圖(a)、(b)中的兩張圖片匹配起來(lái),圖(d)所示,可以看出兩張圖片中相同的特殊點(diǎn)用直線相連接,通過檢測(cè)兩張圖像的特殊點(diǎn),并對(duì)特殊點(diǎn)進(jìn)行比對(duì),相同特征的點(diǎn)即可對(duì)應(yīng)連接匹配起來(lái)。一、特征檢測(cè)§3.3計(jì)算機(jī)視覺關(guān)鍵技術(shù)

用于進(jìn)行特殊點(diǎn)檢測(cè)的算子稱為特征描述算子,常用的特征描述算子有尺度不變特征檢測(cè)、Harris特征點(diǎn)檢測(cè)、偏差和增益規(guī)范化檢測(cè)等。尺度不變特征變換(Scale-invariantfeaturetransform,SIFT)是一種經(jīng)典的局部特征描述算子,是由DavidLowe于1999年最初發(fā)表的。SIFT主要是通過將圖像高斯模糊后,圖像中不同區(qū)域點(diǎn)的變化不同,變化較小的點(diǎn)一般為平滑區(qū)域,變化較大的點(diǎn)則為特征點(diǎn)。通過檢測(cè)到的關(guān)鍵特征點(diǎn)為中心,選擇16×16的窗口,將這個(gè)區(qū)域平均分為多個(gè)4×4的子區(qū)域,每個(gè)4×4子區(qū)域分成8個(gè)區(qū)間,即可得到4×4×8=128維度的特征向量。

SIFT算法主要可以分為四個(gè)步驟:尺度空間極值檢測(cè)精確特征點(diǎn)的位置確定特征點(diǎn)的方向特征點(diǎn)的描述一、特征檢測(cè)§3.3計(jì)算機(jī)視覺關(guān)鍵技術(shù)(1)尺度空間極值檢測(cè)尺度空間是在進(jìn)行圖像處理的模型內(nèi)引入一個(gè)尺度的參數(shù)來(lái)使其擁有尺度不變性的特征,通過對(duì)空間內(nèi)的各個(gè)尺度的圖像進(jìn)行處理,模擬人眼距離看到目標(biāo)的遠(yuǎn)近差異的過程,對(duì)圖像進(jìn)行逐漸增長(zhǎng)的模糊處理,圖像的模糊程度與尺度成正比。公式及相關(guān)參數(shù)(3-1)

(3-2)

是高斯尺度

是尺度空間因子一、特征檢測(cè)§3.3計(jì)算機(jī)視覺關(guān)鍵技術(shù)上文描述了尺度空間的定義,接下來(lái)通過高斯金字塔的方式來(lái)實(shí)現(xiàn)尺度空間的搭建。定義:高斯金字塔是通過將圖像逐層高斯濾波并進(jìn)行降階采樣,得到的圖像進(jìn)行由大到小的圖像構(gòu)成金字塔狀,金字塔模型的最底下一層為原始的圖像。

步驟:1)首先對(duì)原始圖像進(jìn)行不同參數(shù)的高斯濾波,得到多張模糊程度不同的圖像;2)然后進(jìn)行降價(jià)采樣后得到上一層的圖像;3)得到的圖像作為再上一層的原始圖像,重復(fù)進(jìn)行操作直到滿足層數(shù)需求。金字塔每層的圖像進(jìn)行多參數(shù)高斯模糊,因此塔每層都包含多張圖像,每一層的多張圖像組合稱為Octave,這些圖像的大小一致但模糊程度不同。一、特征檢測(cè)§3.3計(jì)算機(jī)視覺關(guān)鍵技術(shù)在SIFT特征點(diǎn)檢測(cè)中選擇了差分高斯金字塔代替高斯金字塔,可以有效地提高檢測(cè)的效率。尺度空間極值檢測(cè)一、特征檢測(cè)§3.3計(jì)算機(jī)視覺關(guān)鍵技術(shù)(2)精確特征點(diǎn)的位置由于數(shù)字圖像都為離散采樣的圖像,而實(shí)際的圖像是連續(xù)的,并且還需要考慮在邊緣位置的極值點(diǎn),因此在上一步驟中檢測(cè)出的極值點(diǎn)有可能出現(xiàn)偏差。因此要對(duì)差分高斯空間進(jìn)行擬合處理,來(lái)精確特征點(diǎn)的位置。

通過設(shè)置閾值來(lái)判斷極值點(diǎn)是否在邊緣上,H(x,y)為差分高斯金字塔中對(duì)x和y的二階導(dǎo)數(shù),(3-3)一、特征檢測(cè)§3.3計(jì)算機(jī)視覺關(guān)鍵技術(shù)(3-5)若極值點(diǎn)不滿足下式,則舍去該點(diǎn)。(3-6)

Tr(H)為矩陣H的跡,Det(H)是行列式(3-4)一、特征檢測(cè)§3.3計(jì)算機(jī)視覺關(guān)鍵技術(shù)(3)確定特征點(diǎn)的方向通過對(duì)圖像的每個(gè)關(guān)鍵點(diǎn)賦予一個(gè)方向,可使這個(gè)特征檢測(cè)算子具有旋轉(zhuǎn)不變性,也就是當(dāng)目標(biāo)發(fā)生方向的變化時(shí),只要其他的特征都相對(duì)應(yīng),也可以識(shí)別出。極值點(diǎn)的方向通過其周圍的像素的梯度來(lái)確定方向,梯度的公式為:(3-7)一、特征檢測(cè)§3.3計(jì)算機(jī)視覺關(guān)鍵技術(shù)梯度的幅值為:(3-8)梯度的方向?yàn)椋海?-9)一、特征檢測(cè)§3.3計(jì)算機(jī)視覺關(guān)鍵技術(shù)(4)特征點(diǎn)的描述

經(jīng)過上述步驟產(chǎn)生的特征點(diǎn)都是基于圖片的點(diǎn)坐標(biāo)的,如果想根據(jù)特征點(diǎn)與其他的圖像進(jìn)行對(duì)比,需要將特征點(diǎn)單獨(dú)提取出來(lái)。通過對(duì)特征點(diǎn)周圍進(jìn)行分塊,并計(jì)算梯度直方圖,生成具有唯一性的方向向量來(lái)代表這部分的圖像,從而產(chǎn)生SIFT特征向量?!?.3計(jì)算機(jī)視覺關(guān)鍵技術(shù)二、圖像分割定義:圖像分割即為將想要識(shí)別的目標(biāo)從圖像中分割出來(lái)應(yīng)用:圖像分割是計(jì)算機(jī)視覺中十分重要的任務(wù),它在實(shí)際生活中有廣泛的應(yīng)用,并發(fā)揮著核心的作用。例如在行人檢測(cè)、視頻監(jiān)控、自動(dòng)駕駛、醫(yī)學(xué)圖像分析等方面,圖像分割都扮演著不可或缺的角色圖像分割二、圖像分割§3.3計(jì)算機(jī)視覺關(guān)鍵技術(shù)圖像分割將圖像中的待識(shí)別目標(biāo)分割出來(lái),并對(duì)分割的目標(biāo)進(jìn)行分類。圖像中一般都會(huì)同時(shí)存在多種物體,語(yǔ)義分割通過對(duì)像素級(jí)別將圖片分為多個(gè)部分,分割出不同類別的目標(biāo)。語(yǔ)義分割將圖像中的待識(shí)別目標(biāo)分割出來(lái),對(duì)分割的目標(biāo)分類后,還需要對(duì)分類后的目標(biāo)進(jìn)行區(qū)分,將每個(gè)不同的實(shí)例單獨(dú)分割。相較于語(yǔ)義分割,實(shí)例分割將每一個(gè)目標(biāo)作為一個(gè)待分割的實(shí)例。實(shí)例分割§3.3計(jì)算機(jī)視覺關(guān)鍵技術(shù)圖像分割算法(按分割方式的不同進(jìn)行分類)閾值分割法:選取一個(gè)合適的像素值作為邊界,將圖像處理成對(duì)比度較高的、分割部分容易識(shí)別的方法。區(qū)域增長(zhǎng)細(xì)分方法:通過將屬性相似的像素組合在一起形成一個(gè)區(qū)域,將區(qū)域內(nèi)找到一個(gè)種子像素,將周圍的屬性與種子像素相似的像素合并到區(qū)域中。將這些新合并進(jìn)來(lái)的像素作為新的種子像素繼續(xù)合并,可以得到?jīng)]有滿足屬性相似的像素。邊緣檢測(cè)分割方法:主要通過圖像的灰度值不同以及邊緣的突出進(jìn)行分割基于聚類分割方法:通過將類的劃分以物體間的相似性作為標(biāo)準(zhǔn),使相似的類別盡可能的相似,不相似的類別區(qū)別盡可能大。基于CNN的弱監(jiān)督學(xué)習(xí)分割方法:對(duì)圖像內(nèi)待識(shí)別對(duì)象區(qū)域用部分像素進(jìn)行標(biāo)記。二、圖像分割二、圖像分割§3.3計(jì)算機(jī)視覺關(guān)鍵技術(shù)圖像分割算法的發(fā)展三、R-CNN系列算法§3.3計(jì)算機(jī)視覺關(guān)鍵技術(shù)基于R-CNN的幾種算法的演進(jìn):FastR-CNN在基于R-CNN的基礎(chǔ)上,在R-CNN的最后一個(gè)卷積層后添加感興趣區(qū)域(RegionsofInterest,ROI)的池化層,采用將bbox回歸與區(qū)域在神經(jīng)網(wǎng)絡(luò)內(nèi)部合并成為多重任務(wù)模型,并使用Softmax代替了SVM分類器。FastR-CNN的改進(jìn)有效地解決了R-CNN嚴(yán)重的速度問題,并且為FasterR-CNN做了鋪墊。FasterR-CNN在FastR-CNN的基礎(chǔ)上使用了區(qū)域生成網(wǎng)絡(luò)(RegionProposalNetwork,RPN)來(lái)生成候選框,讓RPN和FastR-CNN共享CNN特征,成為一個(gè)端到端的CNN對(duì)象檢測(cè)模型。三、R-CNN系列算法§3.3計(jì)算機(jī)視覺關(guān)鍵技術(shù)MaskR-CNN算法在FasterR-CNN的基礎(chǔ)上創(chuàng)新了RoI對(duì)齊操作,引用全卷積網(wǎng)絡(luò)(FullyConvolutionalNetwork,F(xiàn)CN)生成Mask,并且添加了用于語(yǔ)義分割的Mask損失函數(shù),改變了算法損失函數(shù)的計(jì)算方法。MaskScoringR-CNN創(chuàng)新出了一種新方法,添加MaskIoUHead模塊,將MaskHead操作后得到的預(yù)測(cè)分?jǐn)?shù)與ROI特征輸入到卷積層和全連接層,從而得到模型的分?jǐn)?shù)。三、R-CNN系列算法§3.3計(jì)算機(jī)視覺關(guān)鍵技術(shù)表3-1幾種基于R-CNN的算法對(duì)比

使用方法缺點(diǎn)改進(jìn)R-CNN選擇性搜索SS提取候選區(qū)域(RegionProposal,RP)CNN提取特征SVM分類/bbox回歸訓(xùn)練步驟繁瑣訓(xùn)練所占空間大訓(xùn)練耗時(shí)長(zhǎng)mAP為66%FastR-CNNSS提取RP/CNN提取特征Softmax分類多任務(wù)損失函數(shù)邊框回歸沒有實(shí)現(xiàn)端到端訓(xùn)練測(cè)試mAP提升至70%;測(cè)試耗時(shí)縮短。FasterR-CNNRPN提取RPCNN提取特征Softmax分類多任務(wù)損失邊框回歸計(jì)算量依舊比較大測(cè)試精度和速度提升;實(shí)現(xiàn)端到端目標(biāo)檢測(cè);迅速生成建議框。MaskR-CNNRPN提取RPResNet-FPN提取特征ROI對(duì)齊的方法來(lái)取代ROI池化Mask分支邊框分類置信度用來(lái)作為Mask準(zhǔn)確率時(shí)不夠精確ROI對(duì)齊能將像素對(duì)齊,滿足了圖像語(yǔ)義分割的準(zhǔn)確度要求。MaskScoringR-CNNRPN提取RPResNet-FPN提取特征加入MaskIOU分支

獲得更加可靠的Mask分?jǐn)?shù)。三、R-CNN系列算法§3.3計(jì)算機(jī)視覺關(guān)鍵技術(shù)圖像分割評(píng)分指標(biāo)平均正確率(AveragePrecision,AP),指的是所有類別的正確率。(3-10)像素精度(PixelAccuracy,PA),指標(biāo)記正確的像素占全部像素的比例。(3-11)三、R-CNN系列算法§3.3計(jì)算機(jī)視覺關(guān)鍵技術(shù)均像素精度(MeanPixelAccuracy,MPA),指在PA的基礎(chǔ)上對(duì)標(biāo)記正確像素占全部像素的比例做類平均。(3-12)交并比(IntersectionOverUnion,IoU),指計(jì)算真實(shí)值和預(yù)測(cè)值兩個(gè)集合的交集和并集之比(3-13)三、R-CNN系列算法§3.3計(jì)算機(jī)視覺關(guān)鍵技術(shù)均交并比(MeanIntersectionUnion,MIoU),指在每一個(gè)類上計(jì)算IoU后進(jìn)行平均。MIoU是使用最頻繁的圖像分割精準(zhǔn)度度量標(biāo)準(zhǔn)。(3-14)頻權(quán)交并比(FrequencyWeightedIntersectionoverUnion,F(xiàn)WIoU),指在MIoU的基礎(chǔ)上進(jìn)行升級(jí),根據(jù)類別出現(xiàn)的頻率設(shè)置權(quán)重。(3-15)四、立體視覺§3.3計(jì)算機(jī)視覺關(guān)鍵技術(shù)立體視覺指的是用兩個(gè)或多個(gè)攝像頭來(lái)獲取深度的視覺信息的技術(shù)。首先介紹雙目視覺求解深度:雙目視覺求解深度就是根據(jù)透視幾何圖形學(xué)的三角化原理,通過左邊拍攝的圖像上面的任意一個(gè)點(diǎn),在右邊拍攝的圖像上找到相應(yīng)的匹配點(diǎn),即可確定該點(diǎn)的三維坐標(biāo)。下圖所示為雙目視覺求深度的過程。P為選中的任意一點(diǎn)P點(diǎn)左右兩個(gè)相機(jī)中成像的位置為P0和P1兩個(gè)相機(jī)的焦距分別為f0和f1兩個(gè)相機(jī)的相對(duì)位移為R和T四、立體視覺§3.3計(jì)算機(jī)視覺關(guān)鍵技術(shù)根據(jù)小孔成像原理可知:(3-16)(3-17)由相機(jī)的左右相對(duì)位置關(guān)系可得:(3-18)相機(jī)的左右相對(duì)位置關(guān)系為:因此只要找到左圖上一點(diǎn)在右圖上的匹配點(diǎn),即可求出該點(diǎn)在相機(jī)坐標(biāo)系中的坐標(biāo)。四、立體視覺§3.3計(jì)算機(jī)視覺關(guān)鍵技術(shù)接下來(lái)解決從右圖找左圖對(duì)應(yīng)點(diǎn)坐標(biāo)的問題。一般來(lái)說(shuō),從右圖中找左圖中已知的對(duì)應(yīng)點(diǎn)是一個(gè)復(fù)雜度較高的2維搜索問題,為了降低算法的復(fù)雜度,使用極線約束將此問題轉(zhuǎn)換為一維問題。左圖上的點(diǎn)在右圖中可能的投影是在某一條線上,將搜索范圍由面降低到線。將左右攝像頭完美對(duì)齊,使他們的焦距等參數(shù)完全一致,即可將左右攝像頭的極線矯正成行相同的平行線。因此左圖中任意一點(diǎn)在右圖中只能映射到與其對(duì)應(yīng)的相同行上。四、立體視覺§3.3計(jì)算機(jī)視覺關(guān)鍵技術(shù)

立體視覺的研究主要由以下幾個(gè)方面組成:圖像獲?。毫Ⅲw視覺研究中需要從圖像中獲取許多要素,且圖像的場(chǎng)景復(fù)雜度會(huì)受到一些因素的影響。攝像機(jī)模型:對(duì)立體攝像機(jī)組的重要幾何和物理特征的表示,提供圖像上對(duì)應(yīng)點(diǎn)空間和實(shí)際場(chǎng)景空間之間的映射關(guān)系,還約束尋找對(duì)應(yīng)點(diǎn)時(shí)的搜索空間。特征抽?。涸撨^程即為提取匹配基元的過程。圖像匹配:是立體視覺的核心,建立圖像之間的對(duì)應(yīng)關(guān)系,從而計(jì)算視差。深度計(jì)算:解決匹配問題的復(fù)雜化、提高深度計(jì)算精度。內(nèi)插:該過程可以近似連續(xù)深度圖。第3章:計(jì)算機(jī)視覺技術(shù)及應(yīng)用1計(jì)算機(jī)視覺的定義與發(fā)展2深度學(xué)習(xí)與計(jì)算機(jī)視覺3計(jì)算機(jī)視覺關(guān)鍵技術(shù)4計(jì)算機(jī)視覺的實(shí)際應(yīng)用§3.4計(jì)算機(jī)視覺的實(shí)際應(yīng)用隨著人工智能技術(shù)的迅速發(fā)展,人們生活越來(lái)越智能化,計(jì)算機(jī)視覺的技術(shù)也深入到生活中去。人工智能已經(jīng)在不知不覺中滲透進(jìn)生活的每個(gè)細(xì)枝末節(jié)。2016年3月,谷歌智能圍棋機(jī)器人阿爾法狗與人類圍棋世界冠軍李世石的人機(jī)圍棋大戰(zhàn)。在這場(chǎng)對(duì)弈中,阿爾法狗以4比1的成績(jī)戰(zhàn)勝李世石,人工智能開始受到大家的廣泛關(guān)注,成為研究熱點(diǎn)。計(jì)算機(jī)視覺作為人工智能的一個(gè)重要的、實(shí)用性極強(qiáng)的分支,更是受到許多研究人員的青睞?!?.4計(jì)算機(jī)視覺的實(shí)際應(yīng)用我們生活中的方方面面都離不開眼睛的幫助,許多工作也都是基于人眼的觀察才可以完成,但人眼觀察受到的限制比較多。而計(jì)算機(jī)視覺正是用計(jì)算機(jī)代替人眼工作的,并且計(jì)算機(jī)的算力、速度遠(yuǎn)遠(yuǎn)強(qiáng)于人類,且成本較低,因此計(jì)算機(jī)視覺在生活中的實(shí)際應(yīng)用范圍十分廣闊。例如停車場(chǎng)內(nèi)的智能車牌識(shí)別系統(tǒng)、上班打卡的虹膜識(shí)別和指紋識(shí)別系統(tǒng)、手機(jī)應(yīng)用軟件中的智能物體識(shí)別功能、人臉面部表情識(shí)別、人類肢體動(dòng)作識(shí)別、手寫字體識(shí)別等都是生活中和我們息息相關(guān)的技術(shù)。下面為大家詳細(xì)介紹人臉識(shí)別、三維重建以及自動(dòng)駕駛這三個(gè)實(shí)際應(yīng)用的計(jì)算機(jī)視覺技術(shù)。一、人臉識(shí)別§3.4計(jì)算機(jī)視覺的實(shí)際應(yīng)用

人臉識(shí)別是計(jì)算機(jī)視覺在實(shí)際應(yīng)用中使用范圍比較廣泛的一項(xiàng)技術(shù),在許多的場(chǎng)景都能見到它的身影。學(xué)生進(jìn)出圖書館進(jìn)行人臉識(shí)別人臉的特征和虹膜、指紋一樣,有著唯一性、不易變性、以及不可復(fù)制性,因此為人的身份鑒定打下了基礎(chǔ)。例如過去火車站進(jìn)站在核驗(yàn)乘車人身份時(shí),檢票員只使用肉眼粗略比對(duì)持證人與所持身份證上的照片是否一致,很容易出現(xiàn)紕漏。而今在進(jìn)站口設(shè)有多臺(tái)人臉識(shí)別機(jī)器,乘車人刷身份證的同時(shí)進(jìn)行面部比對(duì),高效又安全。一、人臉識(shí)別§3.4計(jì)算機(jī)視覺的實(shí)際應(yīng)用

人臉識(shí)別的主要步驟:人臉圖像的采集:人臉識(shí)別所需要的圖像為人五官清晰的臉部圖像,可以通過視頻、動(dòng)圖、圖片等多種途徑獲取。人臉圖像的預(yù)處理:采集得到的包含人臉的圖像不能直接用于人臉識(shí)別,需要進(jìn)行預(yù)處理操作。需要對(duì)圖片灰度變換、過濾噪聲、銳化以及歸一化等多種處理。人臉特征的提?。喝四樚卣鞯奶崛】梢钥醋魇菍?duì)圖像進(jìn)行關(guān)鍵點(diǎn)定位,通過圖像中人的五官的位置來(lái)判斷人臉的位置和大小。人臉特征的對(duì)比與匹配:將待識(shí)別的人臉特征與數(shù)據(jù)庫(kù)內(nèi)的人臉特征進(jìn)行搜索匹配,當(dāng)特征的相似度到達(dá)一個(gè)設(shè)定的值時(shí),即認(rèn)為兩者有較大的相似度,從而實(shí)現(xiàn)人臉識(shí)別任務(wù)。一、人臉識(shí)別§3.4計(jì)算機(jī)視覺的實(shí)際應(yīng)用值得注意的是,在人臉識(shí)別任務(wù)的實(shí)現(xiàn)中數(shù)據(jù)庫(kù)是必不可少的,數(shù)據(jù)庫(kù)在人臉識(shí)別的任務(wù)中也發(fā)揮了十分重要的作用。用于商用的人臉識(shí)別技術(shù)需要單獨(dú)建立數(shù)據(jù)庫(kù),而數(shù)據(jù)庫(kù)的建立不可避免的涉及到用戶的個(gè)人信息。因此數(shù)據(jù)庫(kù)的安全、信息保密是十分重要的,但許多科技公司的技術(shù)和財(cái)力難以實(shí)現(xiàn)對(duì)用戶人臉信息的保護(hù),導(dǎo)致了網(wǎng)絡(luò)上經(jīng)常會(huì)出現(xiàn)人臉信息的售賣。2020年11月1日,國(guó)家標(biāo)準(zhǔn)《信息安全技術(shù)遠(yuǎn)程人臉識(shí)別系統(tǒng)技術(shù)要求》正式實(shí)施,此標(biāo)準(zhǔn)對(duì)我國(guó)人臉識(shí)別技術(shù)體系和應(yīng)用場(chǎng)景都做出了進(jìn)一步的詳細(xì)約束。二、三維重建§3.4計(jì)算機(jī)視覺的實(shí)際應(yīng)用定義:計(jì)算機(jī)視覺中的三維重建就是通過對(duì)圖像進(jìn)行處理,分析圖像中隱含的信息來(lái)重建圖像所處的三維環(huán)境。應(yīng)用:三位重建技術(shù)是環(huán)境感知的重要技術(shù)之一,自動(dòng)駕駛、虛擬現(xiàn)實(shí)技術(shù)、增強(qiáng)現(xiàn)實(shí)技術(shù)、運(yùn)動(dòng)目標(biāo)檢測(cè)、行為分析等多種計(jì)算機(jī)視覺的實(shí)際應(yīng)用中都存在著三維重建的身影。對(duì)比:三維重建一般是通過單一的視圖或者多角度的視圖來(lái)對(duì)當(dāng)前環(huán)境進(jìn)行三維信息還原的過程。多角度的視圖所包含的條件信息比較充足,因此三維重建的難度較小,而單一視圖的三維重建則比較困難。表示方法:深度圖、點(diǎn)云、體積元素和網(wǎng)格二、三維重建§3.4計(jì)算機(jī)視覺的實(shí)際應(yīng)用深度圖用于表示場(chǎng)景中各點(diǎn)與計(jì)算機(jī)間的距離,深度圖中的每像素表示的是圖像中對(duì)應(yīng)的場(chǎng)景與攝像機(jī)之間的距離。1.深度圖體積元素又稱體素,與像素一樣,體素是三維空間內(nèi)分割的最小的單位,用恒定的標(biāo)量或向量來(lái)表示一個(gè)立體的區(qū)域。2.體積元素三維重建通常采用的四種表示方法二、三維重建§3.4計(jì)算機(jī)視覺的實(shí)際應(yīng)用點(diǎn)云是通過測(cè)量一起得到的圖像中物體表面的數(shù)據(jù)集合。點(diǎn)云可以分為系數(shù)點(diǎn)云和密集點(diǎn)云。稀疏點(diǎn)云:使用三維坐標(biāo)測(cè)量機(jī)得到的間距較大的點(diǎn)云。密集點(diǎn)云:使用三維激光掃描儀得到的比較密集的點(diǎn)云。3.點(diǎn)云前視圖俯視圖左視圖原圖點(diǎn)云三視圖二、三維重建§3.4計(jì)算機(jī)視覺的實(shí)際應(yīng)用網(wǎng)格即為用網(wǎng)格模擬組成三維立體物體的表面,計(jì)算機(jī)視覺中的網(wǎng)格常用的有三角網(wǎng)格和四角網(wǎng)格。4.網(wǎng)絡(luò)二、三維重建§3.4計(jì)算機(jī)視覺的實(shí)際應(yīng)用

三維重建在實(shí)際應(yīng)用中有不同的方向,例如自動(dòng)駕駛和機(jī)器人領(lǐng)域中三維重建叫作即時(shí)定位與地圖構(gòu)建(SimultaneousLocalizationAndMapping,SLAM)。

計(jì)算機(jī)視覺里還有基于深度學(xué)習(xí)的三維重建,以及對(duì)人體的三維重建、對(duì)人臉的三維重建、對(duì)各種物體的三維重建、對(duì)室內(nèi)場(chǎng)景的三維重建等。三、自動(dòng)駕駛§3.4計(jì)算機(jī)視覺的實(shí)際應(yīng)用自動(dòng)駕駛汽車(無(wú)人駕駛汽車)是通過電腦進(jìn)行控制來(lái)實(shí)現(xiàn)的新型技術(shù)。自動(dòng)駕駛是由人工智能、計(jì)算機(jī)視覺、雷達(dá)系統(tǒng)、全球定位系統(tǒng)等多種技術(shù)相結(jié)合的技術(shù),無(wú)需人類的操控即可實(shí)現(xiàn)對(duì)車輛的安全駕駛。自動(dòng)駕駛技術(shù)是一項(xiàng)十分復(fù)雜難度極大的工程,需要駕駛?cè)巳褙炞?、時(shí)刻保持清醒,對(duì)路況有著清晰迅速的判斷力,而路況本身就很復(fù)雜,參與交通的因素多,路況信息實(shí)時(shí)發(fā)生改變,稍有不慎就會(huì)發(fā)生交通事故。三、自動(dòng)駕駛§3.4計(jì)算機(jī)視覺的實(shí)際應(yīng)用自動(dòng)駕駛汽車(無(wú)人駕駛汽車)是通過電腦進(jìn)行控制來(lái)實(shí)現(xiàn)的新型技術(shù)。自動(dòng)駕駛是由人工智能、計(jì)算機(jī)視覺、雷達(dá)系統(tǒng)、全球定位系統(tǒng)等多種技術(shù)相結(jié)合的技術(shù),無(wú)需人類的操控即可實(shí)現(xiàn)對(duì)車輛的安全駕駛。自動(dòng)駕駛技術(shù)是一項(xiàng)十分復(fù)雜難度極大的工程,需要駕駛?cè)巳褙炞?、時(shí)刻保持清醒,對(duì)路況有著清晰迅速的判斷力,而路況本身就很復(fù)雜,參與交通的因素多,路況信息實(shí)時(shí)發(fā)生改變,稍有不慎就會(huì)發(fā)生交通事故。三、自動(dòng)駕駛§3.4計(jì)算機(jī)視覺的實(shí)際應(yīng)用自動(dòng)駕駛汽車早在2012年就已經(jīng)受到廣泛的關(guān)注,谷歌自動(dòng)駕駛汽車于當(dāng)年的5月獲得了美國(guó)首個(gè)自動(dòng)駕駛車輛的許可證。由于國(guó)外地廣人稀的明顯優(yōu)勢(shì),使得自動(dòng)駕駛技術(shù)相較于國(guó)內(nèi)發(fā)展更為順利。百度與寶馬的自動(dòng)駕駛研究項(xiàng)目于2014年正式開啟,并迅速的推出了原型車。三、自動(dòng)駕駛§3.4計(jì)算機(jī)視覺的實(shí)際應(yīng)用2020年底,北京經(jīng)濟(jì)技術(shù)開發(fā)區(qū)建成網(wǎng)聯(lián)云控式高級(jí)別自動(dòng)駕駛示范區(qū),示范區(qū)支持L4級(jí)別以上的高級(jí)別自動(dòng)駕駛,并且能兼容低級(jí)別的自動(dòng)駕駛。2021年5月舉行的第8屆國(guó)際智能網(wǎng)聯(lián)汽車技術(shù)年會(huì)上,北京高級(jí)別自動(dòng)駕駛示范區(qū)頒發(fā)了國(guó)內(nèi)首批無(wú)人配送車車輛編碼,并且授予相對(duì)應(yīng)路段的路權(quán),這是我國(guó)自動(dòng)駕駛領(lǐng)域的一次創(chuàng)新突破。第八屆國(guó)際智能網(wǎng)聯(lián)汽車技術(shù)年會(huì)無(wú)人配送車三、自動(dòng)駕駛§3.4計(jì)算機(jī)視覺的實(shí)際應(yīng)用2021年6月3日,為了加強(qiáng)新冠肺炎疫情防控,在廣州市委市政府的統(tǒng)一部署下,無(wú)人駕駛工程團(tuán)隊(duì)連夜對(duì)管控區(qū)域進(jìn)行測(cè)試,完成無(wú)人車的部署。無(wú)人駕駛小巴和無(wú)人駕駛出租車駛?cè)胍咔楣芸氐貐^(qū)為區(qū)域內(nèi)的居民提供生活物資。無(wú)人駕駛車輛均不需要配備任何人員,實(shí)現(xiàn)了封閉區(qū)域內(nèi)的全無(wú)人駕駛,減少了防疫人員的工作量,避免交叉感染的風(fēng)險(xiǎn),增大了防疫安全性。疫情期間的無(wú)人駕駛小巴三、自動(dòng)駕駛§3.4計(jì)算機(jī)視覺的實(shí)際應(yīng)用自動(dòng)駕駛所涉及的技術(shù)多種多樣,其中十分重要的部分就是計(jì)算機(jī)視覺,由于車輛駕駛中需要用無(wú)時(shí)不刻用眼睛觀察一切參與交通的要素,因此計(jì)算機(jī)視覺發(fā)揮了它極大的作用,計(jì)算機(jī)的高算力和低人工成本為自動(dòng)駕駛提供了堅(jiān)實(shí)的基礎(chǔ)。自動(dòng)駕駛涉及到多方面的物體識(shí)別,其中最為基礎(chǔ)的是車輛以及道路的識(shí)別。傳統(tǒng)的特征提取方法對(duì)車道線、馬路邊緣界限的灰度值以及紋理特征進(jìn)行處理計(jì)算,分割出馬路的各個(gè)區(qū)域,但局限性較大。由于馬路的視頻及圖像常受光線、障礙物、樹木的陰影、路邊雜亂的車輛和行人等的影響,因此傳統(tǒng)的簡(jiǎn)單特征檢測(cè)方法難以實(shí)現(xiàn)復(fù)雜路況中的識(shí)別任務(wù)。自動(dòng)駕駛的計(jì)算機(jī)視覺技術(shù)經(jīng)過了長(zhǎng)時(shí)間的更新迭代,從傳統(tǒng)的特征提取方法,轉(zhuǎn)為采用深度學(xué)習(xí)的計(jì)算機(jī)視覺方法。三、自動(dòng)駕駛§3.4計(jì)算機(jī)視覺的實(shí)際應(yīng)用深度學(xué)習(xí)的興起使得目標(biāo)識(shí)別檢測(cè)任務(wù)的完成質(zhì)量有了極大的飛躍,在許多情況下甚至在準(zhǔn)確度和速度方面超越人類。深度學(xué)習(xí)的目標(biāo)檢測(cè)與傳統(tǒng)的檢測(cè)相比,不僅僅是根據(jù)圖像中目標(biāo)表面的特征定位來(lái)進(jìn)行判斷,而是進(jìn)行深入的自主學(xué)習(xí)?;谏疃葘W(xué)習(xí)的自動(dòng)駕駛通過直接對(duì)正確駕駛過程進(jìn)行學(xué)習(xí),來(lái)感知實(shí)際行駛道路的駕駛方法,對(duì)駕駛道路上的路況和目標(biāo)做整體的判斷,而不是局部的對(duì)路面、車輛、行人等分別計(jì)算,能夠極大的提高反應(yīng)速度。第4講:數(shù)字音頻技術(shù)及應(yīng)用數(shù)字媒體技術(shù)概論第4章:數(shù)字音頻技術(shù)及應(yīng)用1數(shù)字音頻基礎(chǔ)知識(shí)2心理學(xué)模型3數(shù)字語(yǔ)音技術(shù)4語(yǔ)音識(shí)別5語(yǔ)音合成一、數(shù)字音頻基本概念§4.1數(shù)字音頻基礎(chǔ)知識(shí)“數(shù)字音頻”是指使用脈沖編碼調(diào)制、數(shù)字信號(hào)等技術(shù)來(lái)處理模擬信號(hào),并將其進(jìn)行錄制和回放的一種方法。模擬數(shù)字轉(zhuǎn)換器:將傳過來(lái)的模擬音頻信號(hào)轉(zhuǎn)換為數(shù)字音頻信號(hào),再經(jīng)過編碼記錄在存儲(chǔ)載體里面,實(shí)現(xiàn)了錄音功能。數(shù)字模擬轉(zhuǎn)換器:將存儲(chǔ)載體里面的數(shù)字音頻信號(hào)轉(zhuǎn)換為模擬音頻信號(hào),從而實(shí)現(xiàn)數(shù)字音頻回放的功能。數(shù)字音頻主要分為錄制、編輯、壓縮、傳輸和播放五個(gè)環(huán)節(jié)1.數(shù)字音頻二、數(shù)字音頻的發(fā)展歷史§4.1數(shù)字音頻基礎(chǔ)知識(shí)PCM技術(shù)的出現(xiàn)貝爾實(shí)驗(yàn)室在20世紀(jì)40年代開發(fā)的貝爾實(shí)驗(yàn)室開發(fā)的一種基于PCM技術(shù)的加密傳輸系統(tǒng)——SIGSALY代表了語(yǔ)音的第一次數(shù)字量化和語(yǔ)音的第一次PCM信號(hào)傳輸數(shù)字音頻的飛躍發(fā)展起源于20世紀(jì)50年代末60年代初晶體管數(shù)碼計(jì)算機(jī)的出現(xiàn)貝爾實(shí)驗(yàn)室的工程師使用錄音系統(tǒng)進(jìn)行錄音模擬錄音時(shí)代二、數(shù)字音頻的發(fā)展歷史§4.1數(shù)字音頻基礎(chǔ)知識(shí)NHK有了一個(gè)可以工作的雙通道立體聲錄音機(jī)。集成電路的出現(xiàn)加快了音質(zhì)的提高。日本廣播協(xié)會(huì)(NHK)開發(fā)了單聲道PCM錄音機(jī)。20世紀(jì)60年代1967年1969-1971年天龍租賃了一臺(tái)NHK立體聲PCM錄音機(jī)。1969年英國(guó)廣播公司研究部開發(fā)了一種雙通道PCM記錄器。天龍與NHK共同研發(fā)成功了世界第一臺(tái)PCM錄音機(jī)——天龍DN-023R。公共廣播系統(tǒng)和數(shù)字通信公司開發(fā)了電視數(shù)字音頻系統(tǒng)。1972年1973年1977年底3M公司推出了其數(shù)字母盤制作系統(tǒng)。20世紀(jì)70年代初二、數(shù)字音頻的發(fā)展歷史§4.1數(shù)字音頻基礎(chǔ)知識(shí)世界第一臺(tái)實(shí)用化PCM錄音機(jī)天龍DN-023R天龍DN-023R是一種8通道系統(tǒng),具有13位分辨率和47.25kHz的采樣率?,F(xiàn)如今所有數(shù)字音樂格式的共同祖先。人類自此開始擺脫模擬錄音時(shí)代的種種不便。二、數(shù)字音頻的發(fā)展歷史§4.1數(shù)字音頻基礎(chǔ)知識(shí)光盤(CompactDisc,CD)超過了唱片。索尼公司發(fā)布世界上第一款隨身聽產(chǎn)品:TPS-L2,標(biāo)志著便攜式音樂理念的誕生。飛利浦和索尼推出了數(shù)字光盤。1979年7月20世紀(jì)80年代初20世紀(jì)90年代中期CD幾乎成了北美、歐洲和日本唯一的音樂大眾媒介。20世紀(jì)80年代末80年代初期索尼、松下以及東京電聲公司聯(lián)合制定了數(shù)字音頻固定磁頭(DigitalAudioStationaryHead,DASH)格式。二、數(shù)字音頻的發(fā)展歷史§4.1數(shù)字音頻基礎(chǔ)知識(shí)索尼

PCM數(shù)碼錄音機(jī)除了DASH格式錄音機(jī)外,數(shù)字錄音帶(DigitalAudioTape,DAT)也是數(shù)碼錄音發(fā)展史上一個(gè)重要的名字.由索尼公司主導(dǎo)開發(fā)取代模擬磁帶錄像機(jī)和PCM處理器所組成的錄音系統(tǒng)(如右圖)采用體積更小的盒式數(shù)碼錄音帶面向錄音室和唱片公司二、數(shù)字音頻的發(fā)展歷史§4.1數(shù)字音頻基礎(chǔ)知識(shí)世界第一臺(tái)VCD韓國(guó)世韓公司推出了世界上第一臺(tái)的MP3播放器——MPManF10。開發(fā)了世界上第一臺(tái)視頻高密光盤(VCD)影碟機(jī)——“萬(wàn)燕”。飛利浦與索尼合作,推出了一項(xiàng)創(chuàng)新產(chǎn)品數(shù)字多功能光盤DVD。1993年9月1997年2002年9月全球首款支持視窗媒體音頻編碼功能的MP3誕生——LGMF-PE520。1998年三、數(shù)字音頻基本知識(shí)§4.1數(shù)字音頻基礎(chǔ)知識(shí)響度是人耳對(duì)聲音強(qiáng)弱的主觀感受。響度的單位是宋(sone)。國(guó)際上規(guī)定,頻率為1kHz、聲壓級(jí)為40分貝(dB)時(shí)的響度為1宋。大量統(tǒng)計(jì)表明,聲壓級(jí)每增加10dB,響度增加一倍,響度與聲壓級(jí)有如下關(guān)系:其中,N為響度宋,為聲壓級(jí)。響度不僅正比于聲音響度的對(duì)數(shù)值,而且與聲音的頻率和波形有關(guān)。1.響度三、數(shù)字音頻基本知識(shí)§4.1數(shù)字音頻基礎(chǔ)知識(shí)音調(diào)又稱音高,是指人耳對(duì)聲音刺激頻率的主觀感受。音調(diào)主要是由基波頻率決定,基頻越高,音調(diào)越高,同時(shí)還與聲音的強(qiáng)度有關(guān)。音調(diào)的單位是美(Mel)。頻率為1kHz、聲壓級(jí)為40dB的純音產(chǎn)生的音調(diào)定義為1美。音調(diào)大體上與頻率的對(duì)數(shù)成正比。2.聲調(diào)§4.1數(shù)字音頻基礎(chǔ)知識(shí)三、數(shù)字音頻基本知識(shí)音色是指人耳對(duì)不同特性聲音的主觀感覺。音色主要由聲音的頻譜結(jié)構(gòu)決定,還與聲音的響度、持續(xù)時(shí)間、建立過程及衰變過程等有關(guān)。3.音色采樣頻率是將模擬聲音波形轉(zhuǎn)換為數(shù)字時(shí),每秒鐘所抽取聲波幅度樣本的次數(shù)。采樣定理(奈奎斯特采樣定理):其中,采樣信號(hào)頻率為fs,輸入模擬信號(hào)的最高頻率分量的頻率為fmax4.采樣頻率量化位數(shù)是對(duì)模擬信號(hào)的幅度軸進(jìn)行數(shù)字化,表示每個(gè)采樣點(diǎn)用多少二進(jìn)制位表示數(shù)據(jù)范圍。量化位數(shù)越多,音質(zhì)越好,數(shù)據(jù)量也越大。量化位數(shù)決定了數(shù)據(jù)的動(dòng)態(tài)范圍。5.量化位數(shù)§4.1數(shù)字音頻基礎(chǔ)知識(shí)三、數(shù)字音頻基本知識(shí)聲道數(shù)是指一次采樣所記錄的產(chǎn)生聲音波形的個(gè)數(shù)。它是衡量音響設(shè)備的重要指標(biāo)之一。立體聲比單聲道的表現(xiàn)力豐富,但數(shù)據(jù)量翻倍。單聲道:記錄聲音時(shí),每次生成一個(gè)聲波數(shù)據(jù)。雙聲道:記錄聲音時(shí),每次生成兩個(gè)聲波數(shù)據(jù)。立體聲:聲音在錄制過程中被分配到兩個(gè)獨(dú)立的聲道。準(zhǔn)立體聲:在錄制聲音的時(shí)候采用單聲道,而放音有時(shí)是立體聲,有時(shí)是單聲道。四聲道環(huán)繞:規(guī)定了4個(gè)發(fā)音點(diǎn):前左、前右,后左、后右,聽眾則被包圍在這中間,可以獲得身臨各種不同環(huán)境的聽覺感受。6.聲道數(shù)§4.1數(shù)字音頻基礎(chǔ)知識(shí)三、數(shù)字音頻基本知識(shí)數(shù)據(jù)量=采樣頻率×量化位數(shù)×聲道數(shù)/8(字節(jié)/秒)不同采樣頻率、量化位數(shù)和聲道數(shù)對(duì)應(yīng)的數(shù)據(jù)量如下表所示:7.數(shù)字音頻的大小計(jì)算采樣頻率(kHz)量化位數(shù)(比特)數(shù)據(jù)量(KB/s)單聲道立體聲11.025810.7721.531621.5343.0722.05821.5343.071643.0786.1344.1843.0786.131686.13172.27比特率是指每秒傳送的比特(bit)數(shù)。比特率的單位為比特每秒(bitpersecond,bps)。8.比特率壓縮率一般是指文件壓縮前和壓縮后大小的比值,表示數(shù)字聲音的壓縮效率。9.壓縮率第4章:數(shù)字音頻技術(shù)及應(yīng)用1數(shù)字音頻基礎(chǔ)知識(shí)2心理學(xué)模型3數(shù)字語(yǔ)音技術(shù)4語(yǔ)音識(shí)別5語(yǔ)音合成一、聲學(xué)基本物理量§4.2心理學(xué)模型聲強(qiáng)是單位時(shí)間內(nèi)垂直于聲波傳播方向的單位面積上通過的平均聲能量它是表示聲場(chǎng)中聲能流大小和方向的物理量,通常用I表示,單位是瓦/平方米取決于發(fā)音體振動(dòng)幅度的大小,振幅越大,聲強(qiáng)越強(qiáng),反之,聲強(qiáng)越弱剛剛能使人聽到的聲音的聲強(qiáng)——基準(zhǔn)聲強(qiáng):使人耳產(chǎn)生疼痛感覺的聲音的聲強(qiáng)——極限聲強(qiáng):1.聲強(qiáng)一、聲學(xué)基本物理量§4.2心理學(xué)模型聲強(qiáng)級(jí)是把相對(duì)于基準(zhǔn)聲強(qiáng)的比值依對(duì)數(shù)劃分的等級(jí)人對(duì)聲音強(qiáng)弱的感覺并不與聲強(qiáng)成正比,而是與其對(duì)數(shù)成正比聲強(qiáng)級(jí)通常用表示,單位是dB。聲強(qiáng)級(jí)的計(jì)算公式:2.聲強(qiáng)級(jí)聲壓是在大氣壓強(qiáng)上疊加一個(gè)聲波擾動(dòng)而引起的交變壓強(qiáng)一般用p表示,它的單位是帕(Pa)聲壓計(jì)算公式:聲強(qiáng)單位為:W/m2;密度單位為:kg/m2;聲速單位為:m/s3.聲壓一、聲學(xué)基本物理量§4.2心理學(xué)模型常用聲壓的相對(duì)大?。ǚQ聲壓級(jí))來(lái)表示聲壓的強(qiáng)弱聲壓級(jí)是描述接收者感受的量,通常用符號(hào)表示,它的單位是dB。聲壓級(jí)的計(jì)算公式為:4.聲壓級(jí)不同聲壓級(jí)的主觀感覺聲功率定義為聲源在單位時(shí)間內(nèi)向外輻射的聲能,單位是瓦(W),是聲源的物理屬性。聲功率級(jí)用表示,單位是dB。聲功率級(jí)的計(jì)算公式W為測(cè)量的聲功率;Wo=10-12W為基準(zhǔn)聲功率5.聲功率級(jí)§4.2心理學(xué)模型二、人耳相關(guān)發(fā)聲及聽覺特性心理聲學(xué)模型是根據(jù)外圍聽覺系統(tǒng)的耳部結(jié)構(gòu)和一些心理聲學(xué)現(xiàn)象建模形成的。外圍聽覺系統(tǒng)主要分為三個(gè)部分:外耳、中耳和內(nèi)耳。外耳:收集聲能,并將其通過耳道傳輸至鼓膜。內(nèi)耳靠近大腦,可以縮短動(dòng)作電位的傳播時(shí)間。1.外圍聽覺系統(tǒng)外圍聽覺系統(tǒng)§4.2心理學(xué)模型二、人耳相關(guān)發(fā)聲及聽覺特性在安靜環(huán)境中能被人耳聽到的純音最小值稱為絕對(duì)聞閾,所有低于這個(gè)值的聲音都會(huì)被掩蔽。計(jì)算絕對(duì)閾值的經(jīng)驗(yàn)公式:其中,f表示頻率,單位為kHz;表示絕對(duì)閾值,單位為dB。人的聽覺系統(tǒng)對(duì)于聲音頻率信號(hào)的感知范圍在20Hz~20kHz。2.聲音的掩蔽效應(yīng)絕對(duì)掩蔽一種聲音的存在使人感覺不到另一種聲音,稱為掩蔽效應(yīng)。掩蔽效應(yīng)又分為:絕對(duì)掩蔽、時(shí)域掩蔽和頻域掩蔽。絕對(duì)閾值的實(shí)驗(yàn)測(cè)量§4.2心理學(xué)模型二、人耳相關(guān)發(fā)聲及聽覺特性時(shí)域掩蔽時(shí)域掩蔽是指能量較強(qiáng)的音頻信號(hào),可掩蔽同時(shí)、其前或其后出現(xiàn)的能量較弱的音頻信號(hào)。時(shí)域掩蔽又分為超前掩蔽和滯后掩蔽。超前掩蔽僅在非常短的時(shí)間內(nèi)有效,即20毫秒。滯后掩蔽:當(dāng)掩蔽聲音已經(jīng)消失時(shí),仍然會(huì)產(chǎn)生掩蔽作用。2.聲音的掩蔽效應(yīng)時(shí)域掩蔽§4.2心理學(xué)模型二、人耳相關(guān)發(fā)聲及聽覺特性頻域掩蔽當(dāng)掩蔽聲音和被掩蔽聲音同時(shí)存在時(shí),就會(huì)發(fā)生同時(shí)掩蔽。哈斯效應(yīng)又稱優(yōu)先效應(yīng),聽覺系統(tǒng)會(huì)基于先聽到的聲音判斷聲音方向,這種先入為主的聽覺特性稱為哈斯效應(yīng)。利用哈斯效應(yīng)可以合理優(yōu)化場(chǎng)館或現(xiàn)場(chǎng)的揚(yáng)聲器延遲,可以有效增強(qiáng)聽眾的聽感,提高音效感染力。2.聲音的掩蔽效應(yīng)以頻率為250Hz、聲強(qiáng)為60dB的純音為掩蔽音,測(cè)得純音的聽閾隨頻率變化的特性如圖所示。第4章:數(shù)字音頻技術(shù)及應(yīng)用1數(shù)字音頻基礎(chǔ)知識(shí)2心理學(xué)模型3數(shù)字語(yǔ)音技術(shù)4語(yǔ)音識(shí)別5語(yǔ)音合成§4.3數(shù)字語(yǔ)音技術(shù)一、語(yǔ)音基本概念音素是按照音質(zhì)的不同劃分出的最小語(yǔ)音單位,任何語(yǔ)言都有元音和輔音兩種音素。音素是組成音節(jié)的最小單位。音素是從音色的角度劃分的,與音高、音長(zhǎng)和音強(qiáng)沒有關(guān)系。音節(jié)是語(yǔ)音結(jié)構(gòu)的基本單位。音節(jié)是說(shuō)話時(shí)自然發(fā)出、聽話時(shí)自然感到的最小語(yǔ)音片段。漢語(yǔ)中的一個(gè)漢字就代表一個(gè)音節(jié)。1.音節(jié)、音素§4.3數(shù)字語(yǔ)音技術(shù)一、語(yǔ)音基本概念元音,又叫母音,是指氣流振動(dòng)聲帶,在口腔咽腔形成的音。元音是音節(jié)的主干,不同的元音是由發(fā)聲時(shí)口腔的不同形狀所決定的。輔音,又叫子音,是指發(fā)音時(shí)氣流受到阻礙形成的音。輔音可以根據(jù)發(fā)音部位和發(fā)音方法加以描述。輔音只出現(xiàn)在音節(jié)的前后兩端。根據(jù)聲帶的震動(dòng)與否分為清輔音和濁輔音。2.元音、輔音§4.3數(shù)字語(yǔ)音技術(shù)一、語(yǔ)音基本概念聲母指音節(jié)開頭的輔音,如果音節(jié)開頭沒有輔音,則稱為零聲母。韻母是指音節(jié)中聲母后面的音素,主要成分是元音。聲調(diào)指音節(jié)的高低升降變化。聲調(diào)的變化附著于整個(gè)音節(jié)。3.聲母、韻母、聲調(diào)§4.3數(shù)字語(yǔ)音技術(shù)二、語(yǔ)音基本特性語(yǔ)音具有物理方面的性質(zhì),也叫語(yǔ)音的自然屬性。語(yǔ)音產(chǎn)生于發(fā)音體的振動(dòng),通過媒介來(lái)傳播,傳播聲音最重要的介質(zhì)就是空氣。語(yǔ)音有噪聲和樂聲之分。語(yǔ)音是音高、音強(qiáng)、音長(zhǎng)、音色的統(tǒng)一體。物理屬性語(yǔ)音是由人的發(fā)聲器官發(fā)出來(lái)的。語(yǔ)音單位的差別是由于發(fā)聲器官不同。發(fā)聲器官可以分為三個(gè)部分:提供發(fā)聲原動(dòng)力的肺和支氣管;作為發(fā)聲體的喉嚨和聲帶;作為共鳴器的口腔、鼻腔和咽腔。生理屬性語(yǔ)音具有社會(huì)性質(zhì)。社會(huì)屬性是語(yǔ)音的本質(zhì)屬性。語(yǔ)音的社會(huì)屬性有多方面表現(xiàn)。語(yǔ)音的社會(huì)屬性是語(yǔ)音區(qū)別于自然界其他聲音的最根本的性質(zhì)。社會(huì)屬性§4.3數(shù)字語(yǔ)音技術(shù)三、數(shù)字語(yǔ)音通信一個(gè)基本的數(shù)字語(yǔ)音通信系統(tǒng)是由發(fā)送端、接收端和信道構(gòu)成。發(fā)送端:獲取輸入的語(yǔ)音消息并預(yù)處理,對(duì)處理過的信號(hào)信源編碼、加密、信道編碼和數(shù)字調(diào)制。接收端:傳輸?shù)恼Z(yǔ)音信號(hào)在通過信道后進(jìn)行相應(yīng)的逆處理變換——數(shù)字解調(diào)、信道譯碼、解密、信源譯碼。信道:是信號(hào)的傳輸媒質(zhì)。發(fā)送的信號(hào)波形會(huì)在通信過程中經(jīng)歷多次噪聲、干擾和衰落的影響?!?.3數(shù)字語(yǔ)音技術(shù)三、數(shù)字語(yǔ)音通信將信源的模擬信號(hào)轉(zhuǎn)換成數(shù)字信號(hào)。提高通信的有效性。信源編碼人為加入冗余,提高數(shù)據(jù)在傳輸過程中的抗干擾能力。實(shí)現(xiàn)系統(tǒng)的差錯(cuò)可控。信道編碼提高信號(hào)在信道上傳輸?shù)男?。達(dá)到信號(hào)遠(yuǎn)距離傳輸?shù)哪康摹P旁淳幋a數(shù)字語(yǔ)音通信系統(tǒng)基本結(jié)構(gòu)§4.3數(shù)字語(yǔ)音技術(shù)三、數(shù)字語(yǔ)音通信數(shù)字語(yǔ)音通信的主要研究方向數(shù)字語(yǔ)音可以轉(zhuǎn)換成文字、語(yǔ)種、說(shuō)話人情感等等,也可以進(jìn)行反方向變換。數(shù)字語(yǔ)音通信的研究方向主要分成6大類,分別是文字、說(shuō)話人、語(yǔ)種、情感、唱歌節(jié)奏和其他每大類又細(xì)分為不同的研究方向數(shù)字語(yǔ)音通信的研究和應(yīng)用方向第4章:數(shù)字音頻技術(shù)及應(yīng)用1數(shù)字音頻基礎(chǔ)知識(shí)2心理學(xué)模型3數(shù)字語(yǔ)音技術(shù)4語(yǔ)音識(shí)別5語(yǔ)音合成§4.4語(yǔ)音識(shí)別一、語(yǔ)音識(shí)別語(yǔ)音識(shí)別是一門實(shí)現(xiàn)人和機(jī)器交流的交叉學(xué)科。包含了聲學(xué)、心理學(xué)、語(yǔ)言學(xué)、生理學(xué)、信號(hào)處理、模式識(shí)別、人工智能、概率論和信息論等。語(yǔ)音識(shí)別技術(shù)的三個(gè)發(fā)展階段:基于高斯混合模型和隱馬爾可夫模型的GMM-HMM時(shí)代基于深度神經(jīng)網(wǎng)絡(luò)和隱馬爾可夫模型的DNN-HMM時(shí)代基于深度學(xué)習(xí)的端到端時(shí)代語(yǔ)音識(shí)別的概念§4.4語(yǔ)音識(shí)別一、語(yǔ)音識(shí)別1952年貝爾實(shí)驗(yàn)室開發(fā)的Audrey語(yǔ)音識(shí)別系統(tǒng)動(dòng)態(tài)規(guī)劃和線性預(yù)測(cè)分析技術(shù)對(duì)語(yǔ)音識(shí)別的發(fā)展產(chǎn)生了深遠(yuǎn)影響。“RadioRex”玩具狗利用了跟蹤語(yǔ)音的共振峰原理。貝爾實(shí)驗(yàn)室開發(fā)了Audrey語(yǔ)音識(shí)別系統(tǒng)。20世紀(jì)20年代1952年現(xiàn)在語(yǔ)音識(shí)別目前已經(jīng)應(yīng)用在生活中的各個(gè)場(chǎng)景中,如智能語(yǔ)音產(chǎn)品。20世紀(jì)60年代§4.4語(yǔ)音識(shí)別一、語(yǔ)音識(shí)別語(yǔ)音識(shí)別是將語(yǔ)音信號(hào)轉(zhuǎn)換成相應(yīng)的文本信息語(yǔ)音識(shí)別系統(tǒng)主要包括:預(yù)處理和特征提取、聲學(xué)模型、語(yǔ)言模型和解碼搜索預(yù)處理:對(duì)聲音信號(hào)進(jìn)行濾波和分幀等預(yù)處理特征提取:將聲音信號(hào)從時(shí)域轉(zhuǎn)換到頻域,去除冗余信息聲學(xué)模型:根據(jù)聲學(xué)特性計(jì)算出語(yǔ)音片段屬于相應(yīng)聲學(xué)符號(hào)的概率語(yǔ)言模型:計(jì)算聲音信號(hào)對(duì)應(yīng)可能詞組序列的概率解碼搜索:將得分最高詞組序列作為識(shí)別出的文本序列語(yǔ)音識(shí)別的基本原理§4.4語(yǔ)音識(shí)別一、語(yǔ)音識(shí)別語(yǔ)音識(shí)別系統(tǒng)基本結(jié)構(gòu)框架1、除去冗余信息2、提取關(guān)鍵信息和特征信息3、用最小單元識(shí)別字詞4、依照先后次序識(shí)別字詞5、語(yǔ)義分析和識(shí)別6、調(diào)整句子構(gòu)成7、對(duì)當(dāng)前正在處理的語(yǔ)句進(jìn)行適當(dāng)修正語(yǔ)音識(shí)別系統(tǒng)的工作流程§4.4語(yǔ)音識(shí)別一、語(yǔ)音識(shí)別科大訊飛語(yǔ)音識(shí)別語(yǔ)音識(shí)別技術(shù)早

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論