語音處理與語音識(shí)別簡(jiǎn)介_第1頁
語音處理與語音識(shí)別簡(jiǎn)介_第2頁
語音處理與語音識(shí)別簡(jiǎn)介_第3頁
語音處理與語音識(shí)別簡(jiǎn)介_第4頁
語音處理與語音識(shí)別簡(jiǎn)介_第5頁
已閱讀5頁,還剩29頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1語音處理與語音識(shí)別簡(jiǎn)介2014年9月2主要內(nèi)容數(shù)字音頻基礎(chǔ)知識(shí)音頻處理基礎(chǔ)知識(shí)語音識(shí)別技術(shù)簡(jiǎn)介3主要內(nèi)容數(shù)字音頻基礎(chǔ)知識(shí)音頻處理基礎(chǔ)知識(shí)語音識(shí)別技術(shù)簡(jiǎn)介4●是指自然聲●是機(jī)械振動(dòng)在彈性介質(zhì)中傳播的機(jī)械波●是隨時(shí)間連續(xù)變化的物理量●

聲音概念●振幅—波的高低幅度,表示聲音的強(qiáng)弱●周期—兩個(gè)相鄰波之間的時(shí)間長(zhǎng)度●頻率—每秒鐘波振動(dòng)的次數(shù),單位是Hz●

聲音特性5聲音的強(qiáng)度(響度或音量),與聲波振幅成正比;唱盤、CD盤等聲音載體中的音強(qiáng)不變,通過播放設(shè)備的音量控制可改變聆聽時(shí)強(qiáng)度;音頻處理軟件可提高聲源音強(qiáng)聲音的特色,主要影響因素是復(fù)音;復(fù)音指具有不同頻率和不同振幅的混合聲音,其中最低頻率是“基音”,是聲音的基調(diào),其他頻率的聲音為“諧音(泛音)”代表聲音的高低,與頻率有關(guān);使用音頻處理軟件對(duì)聲音的頻率進(jìn)行調(diào)整時(shí),其音調(diào)也會(huì)隨之發(fā)生變化●聲音的三要素●音調(diào)——(高低)●音強(qiáng)——(強(qiáng)弱)●音色——(特質(zhì))6●聲音的頻率范圍7數(shù)字音頻聲音是振動(dòng)的機(jī)械波,話筒把機(jī)械振動(dòng)轉(zhuǎn)換成電信號(hào),用隨時(shí)間連續(xù)變化的物理量表示,稱之為模擬音頻。在計(jì)算機(jī)內(nèi)部,所有的信息均以數(shù)字表示,代表聲音信號(hào)的物理量也用一系列數(shù)字表示,稱之為數(shù)字音頻。模擬音頻在時(shí)間上是連續(xù)的,而數(shù)字音頻則是一個(gè)數(shù)據(jù)序列,在時(shí)間上不具備連續(xù)性,因此只能是斷續(xù)的。當(dāng)把模擬聲音變成數(shù)字聲音時(shí),需要每隔一個(gè)時(shí)間間隔在模擬聲音波形上取一個(gè)電壓幅度值,稱之為采樣。采樣得到的表示聲音強(qiáng)弱的模擬電壓幅值是連續(xù)的,把無窮多個(gè)電壓幅值用有限個(gè)數(shù)字表示,稱之為量化。8●采樣采樣過程按固定間隔采樣聲音波形采樣聲音波形之后的結(jié)果聲波是連續(xù)信號(hào),或稱連續(xù)時(shí)間函數(shù)x(t)。用計(jì)算機(jī)處理這些信號(hào)時(shí)應(yīng)先離散化,即按一定的時(shí)間間隔(T)取值,得到x(nT)(n為整數(shù)),T

稱采樣周期,1/T

稱采樣頻率(每秒鐘采樣次數(shù)),x(nT)稱采樣值(或離散信號(hào))采樣概念9設(shè)連續(xù)信號(hào)x(t)的頻譜為x(f),以采樣間隔T

采樣得到離散信號(hào)x(nT)如果滿足:當(dāng)|f|≥fc

(fc

是信號(hào)高端截止頻率)時(shí),有T≤1/(2fc)或fc≤1/(2T)則可由x(nT)完全確定x(t)。當(dāng)fN

=1/(2T)

時(shí),稱fN

為奈奎斯特頻率采樣定理奈奎斯特(Nyqust)采樣定理:只要采樣頻率大于或者等于信號(hào)中所包含的最高頻率的兩倍;即當(dāng)信號(hào)是最高頻率時(shí),每個(gè)周期至少采樣兩個(gè)點(diǎn),則理論上就可以完全恢復(fù)原來的信號(hào)。●采樣采樣方法語音信號(hào)頻譜在高頻處迅速下降,但非限帶。應(yīng)用時(shí)只對(duì)一定頻率范圍內(nèi)的信號(hào)感興趣,就可以對(duì)經(jīng)濾波限帶的音頻信號(hào)采樣。這樣,在采樣前,用一個(gè)銳截止模擬低通濾波器對(duì)音頻信號(hào)進(jìn)行濾波。10●量化通過采樣得到的表示聲音強(qiáng)弱的函數(shù)x(nT)是連續(xù)的,為把x(nT)存入計(jì)算機(jī),就必須將采樣值離散化,即量化成一個(gè)有限個(gè)幅度值的集合x(nT)量化概念量化原理先將整個(gè)幅度劃分成為有限個(gè)小幅度(量化階距)的集合,把落入某個(gè)階距內(nèi)的樣值歸為一類,并賦予相同的量化值。如果量化值是均勻分布的,稱為均勻量化。設(shè)

為量化階距,量化器最大范圍是Xmax,則:

=2Xmax/2B量化電壓幅值之后的結(jié)果11●編碼音頻模擬信號(hào)經(jīng)過采樣與量化之后,為把數(shù)字化音頻存入計(jì)算機(jī),需對(duì)其編碼,即用二進(jìn)制數(shù)表示每個(gè)采樣的量化值,完成整個(gè)模數(shù)轉(zhuǎn)換過程編碼概念PCM編碼一種最方便簡(jiǎn)單的編碼方法是脈沖編碼調(diào)制,常稱為PCM(PulseCodeModulation)編碼。是一種未經(jīng)壓縮的數(shù)字音頻信號(hào),常作為一種參考信號(hào),以便其他編碼方法與之比較,或者在此基礎(chǔ)上作進(jìn)一步壓縮編碼處理12

衡量一種編碼方法的性能有兩個(gè)主要指標(biāo):碼流速率和量化噪聲

碼流速率指的是音頻信號(hào)編碼后每秒鐘產(chǎn)生的數(shù)據(jù)流量,以kbit/s為單位表示,也可以表示為kbps。例如對(duì)普通模擬話音用8kHz的頻率采樣并以8位量化和編碼,所形成的音頻數(shù)字信號(hào)的碼率便是64kbps。

量化噪聲是由量化失真引起的噪聲,通常表示為量化后的音頻信號(hào)噪聲比,簡(jiǎn)稱信噪比。每增加1位量化精度,信噪比即提高6db。例如在高保真音響系統(tǒng)中,要求信噪比大于90db,則量化精度必須在16位以上?!窬幋a13

聲道(SoundChannel)是指聲音在錄制或播放時(shí)在不同空間位置采集或回放的相互獨(dú)立的音頻信號(hào),所以聲道數(shù)也就是聲音錄制時(shí)的音源數(shù)量或回放時(shí)相應(yīng)的揚(yáng)聲器數(shù)量。

單聲道(mono):只有一個(gè)聲道。普通的單聲道錄放系統(tǒng)使用一只話筒錄音,信號(hào)錄在一條軌跡上,放音時(shí)使用一路放大器和一只揚(yáng)聲器,所以重放出來的聲音是一個(gè)點(diǎn)聲源?!衤暤?/p>

立體聲(stereo):有兩個(gè)聲道。在錄制聲音時(shí),在不同的位置用兩只話筒進(jìn)行錄音,而在重放時(shí)則使用兩路獨(dú)立的放大器和兩個(gè)揚(yáng)聲器,從而使聽者可以較準(zhǔn)確地判斷出錄音中不同音源的準(zhǔn)確位置。1415WAV為微軟公司(Microsoft)開發(fā)的一種聲音文件格式非壓縮,直接存儲(chǔ)(采樣、量化、PCM編碼后的)原始數(shù)據(jù);如果采樣率高,其音質(zhì)極佳;數(shù)據(jù)量大,與采樣頻率、量化位數(shù)、聲道數(shù)成正比?!癫ㄐ我纛l文件(WAV)數(shù)字音頻文件格式1617●WindowsPCMWAV文件頭格式偏移地址大小字節(jié)數(shù)據(jù)塊類型內(nèi)容00H~03H44字符資源交換文件標(biāo)志(RIFF)04H~07H4長(zhǎng)整數(shù)從下個(gè)地址開始到文件尾的總字節(jié)數(shù)08H~0BH44字符WAV文件標(biāo)志(WAVE)0CH~0FH44字符波形格式標(biāo)志(fmt),最后一位空格。10H~13H4整數(shù)過濾字節(jié)(一般為00000010H)14H~15H2整數(shù)格式種類(值為1時(shí),表示數(shù)據(jù)為線性PCM編碼)16H~17H2整數(shù)通道數(shù),單聲道為1,雙聲道為218H~1BH4長(zhǎng)整數(shù)采樣頻率1CH~1FH4長(zhǎng)整數(shù)波形數(shù)據(jù)傳輸速率(每秒平均字節(jié)數(shù))20H~21H2整數(shù)DATA數(shù)據(jù)塊長(zhǎng)度,字節(jié)。22H~23H2整數(shù)PCM位寬24H~27H44字符數(shù)據(jù)標(biāo)志符(data)28H~2BH4長(zhǎng)整型DATA總數(shù)據(jù)長(zhǎng)度字節(jié)18●WindowsPCMWAV文件頭格式19主要內(nèi)容數(shù)字音頻基礎(chǔ)知識(shí)音頻處理基礎(chǔ)知識(shí)語音識(shí)別技術(shù)簡(jiǎn)介20在音頻信息處理領(lǐng)域,特征提取是一個(gè)非常重要的問題。特征提取的任務(wù):從原始輸入的原始音頻信號(hào)中提取既能表征不同音頻內(nèi)容的聲學(xué)差異,又能表征相同音頻內(nèi)容不同樣本之間的聲學(xué)相似性的信息,同時(shí)減少原始信號(hào)的信息冗余?!褚纛l特征提取21時(shí)域音頻信號(hào)是非平穩(wěn)信號(hào),難以處理。但它在一個(gè)很小的時(shí)段內(nèi)具有

相對(duì)的穩(wěn)定性。

因此在對(duì)其進(jìn)行分析時(shí),可以假定語音信號(hào)在一個(gè)時(shí)間幀(frame)內(nèi)是平穩(wěn)的。通常一幀在10~30ms之間,視實(shí)際情況而定,而且分幀可連續(xù),也可采用交疊分段的方法。●分幀10ms25ms10ms25ms22短時(shí)能量(STE:ShortTimeEnergy)是一幀的總能量短時(shí)能量說明了音頻信號(hào)的強(qiáng)度,可用于靜音的檢測(cè)。例如,對(duì)于一個(gè)音頻信號(hào),如果這個(gè)音頻信號(hào)中的某一個(gè)短時(shí)幀的平均能量值低于一個(gè)事先設(shè)定的閾值,則可判定該短時(shí)幀為靜音。對(duì)于一段音頻,以時(shí)間或幀為橫坐標(biāo),短時(shí)能量值為縱坐標(biāo),可以畫出一條曲線,我們將該曲線稱為能量包絡(luò)(EnergyEnvelop)曲線?!穸虝r(shí)能量23

MFCC全稱為美爾頻標(biāo)倒譜系統(tǒng)(Mel-FrequencyCepstralCoefficients),是語音處理中常用的特征。MFCC正是利用三角濾波器組對(duì)傅立葉變換能量系數(shù)濾波而得,并且對(duì)其頻域進(jìn)行Mel尺度變換,以更符合人類的聽覺特征?!馦FCC24主要內(nèi)容數(shù)字音頻基礎(chǔ)知識(shí)音頻處理基礎(chǔ)知識(shí)語音識(shí)別技術(shù)簡(jiǎn)介1/31/202325語音識(shí)別分類根據(jù)處理的語音數(shù)據(jù)和識(shí)別結(jié)果分類連續(xù)語音識(shí)別(ContinuousSpeechRecognition)孤立詞識(shí)別(IsolateWordRecognition)關(guān)鍵詞檢測(cè)(KeyWordRecognition,KeyWordSpotting)根據(jù)針對(duì)的發(fā)音人分類特定人語音識(shí)別(SD:SpeakerDependent)非特定人語音識(shí)別(SI:SpeakerIndependent)1/31/202326系統(tǒng)框架特征提取語言模型自適應(yīng)第一遍識(shí)別聲學(xué)模型前端處理第n遍識(shí)別語音識(shí)別結(jié)果識(shí)別結(jié)果系統(tǒng)框架1/31/202327前端處理前端處理消除個(gè)體的影響聲道長(zhǎng)度歸一(VTN:VocalTractLengthNormalization)端點(diǎn)檢測(cè)短時(shí)能量高階譜算法子帶能量語音增強(qiáng)(去噪)維納濾波1/31/202328特征提?。∕FCC)FFT頻譜LogDCT39維聲學(xué)特征向量美標(biāo)度三角濾波器組倒譜均值減1/31/202329聲學(xué)模型聲學(xué)模型確定發(fā)音串P(O|A)主流方法CHMMHMM的單元:三音子(Tri-Phone)注:Phone(Phoneme):音子,b,t,a

Syllable:音節(jié),ba,ti,taoBi-Phone:二音子,b-a-t-a,b-a-t-aTri-Phone:三音子w-o-sh-i-sh-u-i,w-o-sh-i-sh-u-i1/31/202330語言模型語言模型已知發(fā)音串寫出詞串P(S|LP)P(P|L)P(L|W)P(W|A)P(A)其中,W是字串,A是讀音串,L是詞串,P是詞性串,S是詞義串主流方法三元語法:n-gram1/31/202331搜索算法搜索(解碼)識(shí)別的主要過程通過搜索找到某一概率(P(W))最大化的字串W主流方法Viterbi搜索:HMM

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論