語音的產(chǎn)生機理_第1頁
語音的產(chǎn)生機理_第2頁
語音的產(chǎn)生機理_第3頁
語音的產(chǎn)生機理_第4頁
語音的產(chǎn)生機理_第5頁
已閱讀5頁,還剩123頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、生物認證技術(shù)Biometrics第五章 聲紋識別內(nèi)容歷史2.語音產(chǎn)生機理 3.語音特征4.系統(tǒng)架構(gòu)5.引言1.引言聲音是攜帶信息的極其重要的媒體(20)聲音是通過空氣傳播的一種連續(xù)的波,叫聲波,也具有反射、折射和衍射現(xiàn)象。聲音信號是由許多頻率不同的分量信號組成的復(fù)合信號。復(fù)合信號的頻率范圍稱為帶寬。帶寬為20Hz20kHz的信號稱為音頻(audio)信號,可以被人的耳朵感知。聲音是時基類媒體。說的是什么內(nèi)容?是誰在說話?計算機去說話?怎么把話說好?語音識別聲紋識別文語轉(zhuǎn)換說話水平評估說的是什么語言?語種識別引言語音處理研究的基本內(nèi)容引言Speaker, or voice, recognitio

2、n is a biometric modality that uses an individuals voice for recognition purposes. 說話人識別(聲紋識別)是一項根據(jù)語音波形中反映說話人生理和行為特征的語音參數(shù),自動識別說話人身份的技術(shù)。It is a different technology than “speech recognition”, which recognizes words as they are articulated, which is not a biometric.聲紋識別利用的是語音信號中的說話人信息,而不考慮語音中的字詞意思,它強調(diào)

3、說話人的個性;而語音識別的目的是識別出語音信號中的言語內(nèi)容,并不考慮說話人是誰,它強調(diào)共性。引言The speaker recognition process relies on features influenced by both the physical structure of an individuals vocal tract and the behavioral characteristics of the individual.聲音是個復(fù)雜的信號,說話人有關(guān)的差異是聲道在解剖學(xué)上的差異和后天的說話習(xí)慣差異的綜合的結(jié)果。在說話人識別中,所有的這些差異都可以被用來區(qū)別不同的用戶。它

4、涉及到說話人發(fā)音器官上的個性差異、發(fā)音聲道之間的個性差異、發(fā)音習(xí)慣之間的個性差異等不同級別上的差異。說話人識別是交叉運用心理學(xué)、生理學(xué)、語音信號處理、模式識別、統(tǒng)計學(xué)習(xí)理論和人工智能的綜合性研究課題。引言說話人識別的特殊優(yōu)勢對用戶干擾少,易被用戶接受最經(jīng)濟的方法之一,輸入設(shè)備造價低廉 語音獲取非接觸,具備衛(wèi)生方面的安全性適用基于電信網(wǎng)絡(luò)的應(yīng)用中 因此,說話人識別研究具有巨大應(yīng)用前景引言聲紋分析技術(shù)的應(yīng)用領(lǐng)域:信息查詢領(lǐng)域的應(yīng)用在電話交易的應(yīng)用在PC以及手持式設(shè)備上面的應(yīng)用在保安系統(tǒng)以及證件防偽中的應(yīng)用與二維條碼技術(shù)相結(jié)合的防偽應(yīng)用挑戰(zhàn)說話人的發(fā)音經(jīng)常與環(huán)境、情緒、健康狀態(tài)有密切關(guān)系。語音信號或

5、者稱為“聲紋(voiceprint)”與指紋(fingerprint)不同,指紋是靜態(tài)的、固定不變的生理特性,而說話人特征具有長時變動特性,會隨時間、年齡的變化而變化。如感冒、聲道管疾病,都有可能使發(fā)出的聲音改變。情緒變化也是一個因素,大聲喊叫的時候,聲道的形狀顯然同正常狀態(tài)有很大的不同。挑戰(zhàn)聲音往往是可以模仿的,還可以預(yù)先錄制起來,如何區(qū)別真假聲音也是很頭痛的事情。特別是對于遠程電話身份認證,不能采用同用戶的其他特征相結(jié)合的辦法。挑戰(zhàn)線路傳輸所帶來的線路噪聲,包括不同線路噪聲情況可能不同、同一線路在不同時期噪聲情況也會不同,噪聲的處理也很有難度。噪聲可能導(dǎo)致語音信號在整個時域空間上的污染,甚

6、至有可能也對頻域特征造成污染,這就給提取出正確的反映說話人的特征,造成了很大的困難。內(nèi)容歷史2.語音產(chǎn)生機理 3.語音特征4.系統(tǒng)架構(gòu)5.引言1.歷史以人們的語音作為身份認證的手段,據(jù)說是從1660 年英國查爾斯一世之死的判決開始的,首次利用語音作為推斷犯人作案的線索。其后隨著技術(shù)的發(fā)展,電話克服了距離的障礙,錄音手段克服了時間的障礙,從而使得對語音的說話人個性的分析得到了關(guān)注。歷史從1937 年開始,以C. A. Lindbergh 先生的兒子拐騙事件為開端,對語音的說話人個性開展了科學(xué)的測量和研究。1945 年,美國貝爾實驗室的R. K. Pooter 發(fā)明了語音頻譜圖,能把所謂的聲紋(v

7、oiceprint)動描述出來。1962 年,貝爾實驗室的L. G. Kersta 第一次介紹了采用上述方法進行說話人識別的可能性。1966 年,美國法院第一次采用此方法進行了取證。歷史原先的說話人識別,往往是用視覺來判斷聲音頻譜圖,或者用聽覺判斷是誰的聲音。隨著計算機的發(fā)展,自動說話人識別(ASR)的研究得到了迅速的發(fā)展。自動說話人識別是指利用計算機技術(shù),不需要人們的干預(yù),自動的進行身份認證。內(nèi)容歷史2.語音產(chǎn)生機理 3.語音特征4.系統(tǒng)架構(gòu)5.引言1.語音的產(chǎn)生機理眾所周知,發(fā)聲從肺部擠出空氣開始,空氣通過振動聲帶造出振動波。由于這個振動波在自聲帶到口為止的“3個箱子”各自振動,進一步強化

8、共振,最終構(gòu)成聲音。這3個箱子是“咽頭”、“口腔”、和“鼻腔”。在制造語音的3個箱子中,口腔扮演了重要的角色。因為通過舌頭能夠改變空間的容積。如果容積改變,則發(fā)音也改變了,3個頻率的組合產(chǎn)生聲音。 語音的產(chǎn)生機理語音產(chǎn)生器官發(fā)聲器官語音合成肺、氣管、喉(包括聲帶)、咽、鼻、口。它們共同形成一條形狀復(fù)雜的管道聲帶和聲門喉與氣管的接口處稱為聲門聲道其中喉以上的部分稱為聲道,隨著發(fā)出語音的不同其形狀是變化的語音的產(chǎn)生機理產(chǎn)生語音的能量,絕大多數(shù)來源于正常呼吸時肺部呼出的穩(wěn)定氣流有極少數(shù)語種,如某些非洲語言,是利用吸氣氣流來發(fā)音的聲帶最重要的發(fā)聲器官既是一個閥門又是一個振動部件呼吸時左右兩聲帶打開(聲

9、門開)在說話的時候合攏,肺部氣流經(jīng)氣管形成沖擊“打開-閉合-打開-閉合-”聲門,從而沖擊聲帶產(chǎn)生振動,然后通過聲道響應(yīng)變成語音聲道調(diào)制聲道咽、口腔和鼻腔從聲門延伸至口唇的非均勻截面的聲管,約17cm功能諧振腔:放大某一頻率而衰減其他頻率分量諧振頻率:由每一瞬間的聲道外形決定,又稱為共振峰,是聲道的重要聲學(xué)特征語音的頻率性質(zhì)音調(diào)周期/基音周期聲門開啟-閉合一次的時間即振動周期基頻基音周期的倒數(shù),聲帶振動的基本頻率音調(diào)聲帶振動的頻率(即基音)決定了聲音頻率的高低,頻率快則音調(diào)高,否則音調(diào)低人的基音范圍70350HZ,兒童和青年女性偏高,男性偏低語音的產(chǎn)生機理濁音(voiced sounds):聲道

10、打開,聲帶在先打開后關(guān)閉,氣流經(jīng)過使聲帶要發(fā)生張馳振動,變?yōu)闇?zhǔn)周期振動氣流。濁音的激勵源被等效為準(zhǔn)周期的脈沖信號。如發(fā)/U/、/d/、/i/等音清音(unvoiced sounds):聲帶不振動,而在某處保持收縮,氣流在聲道里收縮后高速通過產(chǎn)生湍流,再經(jīng)過主聲道(咽、口腔)的調(diào)整最終形成清音。清音的激勵源被等效為一種白噪聲信號。如發(fā)/音爆破音(plosive sounds):聲道關(guān)閉之后產(chǎn)生壓縮空氣然后突然打開聲道所發(fā)出的聲音。如發(fā)/ t/音時發(fā)聲過程小結(jié)人的發(fā)聲過程包括兩個步驟聲門/聲帶產(chǎn)生不同頻率的聲音準(zhǔn)周期氣流脈沖或白噪聲聲道對聲源的調(diào)制作用 激勵過程(聲門)調(diào)制過程(聲道)語音輻射語音

11、的產(chǎn)生機理肺中的空氣受到擠壓形成氣流,氣流通過聲門(聲帶)沿著聲道(由咽、喉、口腔等組成)釋放出去,就形成了話音。 氣流、聲門可以等效為一個激勵源,聲道可以等效為一個時變?yōu)V波器(共振峰)。 話音信號具有很強的相關(guān)性(長期相關(guān)、短期相關(guān))。語音的產(chǎn)生機理語音信號的產(chǎn)生數(shù)學(xué)模型激勵模型聲道模型輻射模型激勵模型激勵模型非常復(fù)雜聲門脈沖模型濁音聲帶振動,聲門脈沖如:斜三角形脈沖串隨機白噪聲清音聲帶不振動,隨機白噪聲內(nèi)容歷史2.語音產(chǎn)生機理 3.語音特征4.系統(tǒng)架構(gòu)5.引言1.聲紋識別流程圖1 說話人識別模型 聲紋識別系統(tǒng)的組成聲紋識別系統(tǒng)主要包括兩部分,即特征檢測和模式匹配。特征檢測的任務(wù)是選取唯一表

12、現(xiàn)說話人身份的有效且穩(wěn)定可靠的特征.模式匹配的任務(wù)是對訓(xùn)練和識別時的特征模式做相似性匹配。 特征Speech samples are waveforms with time on the horizontal axis and loudness on the vertical access. Voice Sample: The voice input signal (top of image) shows the inputloudness with respect to the time domain. The lower image (blue) depicts thespectral i

13、nformation of the voice signal. This information is plotted bydisplaying the time versus the frequency variations特征特征提取是指用各種模擬和數(shù)字處理技術(shù)、運用軟件和硬件的手段,處理語音信號,選擇和提取表征語音信號的特征。特征提取的任務(wù)是提取并選擇對說話人的聲紋具有可分性強、穩(wěn)定性高等特性的聲學(xué)或語言特征。與語音識別不同,聲紋識別的特征必須是“個性化”特征,而語音識別的特征對說話人來講必須是“共性特征”。較好的特征,應(yīng)該能夠有效地區(qū)分不同的說話人,但又能在同一說話人語音發(fā)生變化時保持

14、相對的穩(wěn)定;不易被他人模仿或能夠較好地解決被他人模仿問題;具有較好的抗噪性能。 特征提取的信息來源是說話人所說的話,其語音信號中既包含了說話人所說的話的信息,也包含了說話人的個性信息,是話音特征和個性特征的混合體。目前還沒有將說話人的個性特征從所發(fā)語音的語音特征中分離出來的較好辦法,從而給有效的特征提取帶來了很大的難度。所有提取出來的特征向量中,雖然在一定程度上表征了說話人的個性特征,不可避免的包含有特定話音的特征。語音信號分析方法分類時域特征直接從時域信號計算得到,反應(yīng)了語音信號時域波形的特征。如短時平均能量、短時平均過零率、共振峰、基音周期等。頻域及倒譜域特征由時域信號進行頻譜變換得到,反

15、映語音信號的頻域特性包括傅里葉頻譜、倒譜以及利用了語音信號的時序信息的時頻譜聽覺特征不直接對聲道模型進行研究,而是從人類聽覺系統(tǒng)對語音的感知特性來刻畫語音信號的特征如感知線性預(yù)測(PLP)分析 根據(jù)所分析的參數(shù)類型,語音信號分析可以分成時域分析和變換域(頻域、倒譜域)分析。其中時域分析方法是最簡單、最直觀的方法,它直接對語音信號的時域波形進行分析,提取的特征參數(shù)主要有語音的短時能量和平均幅度、短時平均過零率、短時自相關(guān)函數(shù)和短時平均幅度差函數(shù)等。短時分析技術(shù)語音信號是非平穩(wěn)時變信號語音信號的特性是隨時間而變化的幸運的是具有短時平穩(wěn)性短時間范圍內(nèi)其特性基本保持不變(緩慢變換),即短時相對平穩(wěn)準(zhǔn)平

16、穩(wěn)過程短時分析技術(shù)即在對語音信號進行分析時,將語音信號分為一段一段,利用平穩(wěn)信號的分析方法對每一分段進行處理每一分段成為一“幀”:一般1030ms為一幀短時分析的不足對語音識別,應(yīng)采用HMM來分析,以處理語音信號的瞬變和非平穩(wěn)特性語音信號的預(yù)處理 在對語音信號進行數(shù)字處理之前,首先要將模擬語音信號s(t) 離散化為s(n). 實際中獲得數(shù)字語音的途徑一般有兩種,正式的和非正式的。 正式的是指大公司或語音研究機構(gòu)發(fā)布的被大家認可的語音數(shù)據(jù)庫,非正式的則是研究者個人用錄音軟件或硬件電路加麥克風(fēng)隨時隨地錄制的一些發(fā)音或語句。 語音信號的頻率范圍通常是3003400Hz,一般情況下取采樣率為8kHz即

17、可。 有了語音數(shù)據(jù)文件后,對語音的預(yù)處理包括:預(yù)加重、加窗分幀等。語音信號的預(yù)加重處理 預(yù)加重目的:為了對語音的高頻部分進行加重,去除口唇輻射的影響,增加語音的高頻分辨率??赏ㄟ^一階FIR高通數(shù)字濾波器來實現(xiàn):設(shè)n時刻的語音采樣值為x(n) ,經(jīng)過預(yù)加重處理后的結(jié)果為 高通濾波器的幅頻特性和相頻特性如下 預(yù)加重前和預(yù)加重后的一段語音信號時域波形 預(yù)加重前和預(yù)加重后的一段語音信號頻譜 語音信號的加窗處理 由于發(fā)音器官的慣性運動,可以認為在一小段時間里(一般為10ms30ms)語音信號近似不變,即語音信號具有短時平穩(wěn)性。這樣,可以把語音信號分為一些短段(稱為分析幀)來進行處理。 說話人識別(9/1

18、4)語音信號的分幀實現(xiàn)方法: 采用可移動的有限長度窗口進行加權(quán)的方法來實現(xiàn)的。一般每秒的幀數(shù)約為33100幀。 分幀一般采用交疊分段的方法,這是為了使幀與幀之間平滑過渡,保持其連續(xù)性。前一幀和后一幀的交疊部分稱為幀移,幀移與幀長的比值一般取為01/2。 圖3.3給出了幀移與幀長示意圖。 加窗常用的兩種方法:矩形窗,窗函數(shù)如下:漢明(Hamming)窗,窗函數(shù)如下 矩形窗及其頻譜如下漢明窗及其頻譜如下思考:兩種窗效果有何異同?加窗方法示意圖: 窗長的選擇 一般選取100200。原因如下: 當(dāng)窗較寬時,平滑作用大,能量變化不大,故反映不出能量的變化。 當(dāng)窗較窄時,沒有平滑作用,反映了能量的快變細節(jié)

19、,而看不出包絡(luò)的變化。 語音信號的分幀處理,實際上就是對各幀進行某種變換或運算。設(shè)這種變換或運算用T 表示,x(n)為輸入語音信號,w(n)為窗序列,h(n)是與w(n)有關(guān)的濾波器,則各幀經(jīng)處理后的輸出可以表示為: 幾種常見的短時處理方法是:1.對應(yīng)于能量;2.,對應(yīng)于平均過零率;3.對應(yīng)于自相關(guān)函數(shù) ;短時平均能量 1短時平均能量定義定義n時刻某語音信號的短時平均能量En為: 當(dāng)窗函數(shù)為矩形窗時,有若令 則短時平均能量可以寫成: 2. En特點:En反映語音信號的幅度或能量隨時間緩慢變化的規(guī)律 。3. 窗的長短對于能否由短時能量反映語音信號的幅度變化,起著決定性影響。 如果窗選得很長,En

20、不能反映語音信號幅度變化。 窗選得太窄,En將不夠平滑。 通常,當(dāng)取樣頻率為10kHz時,選擇窗寬度N=100200是比較合適的。不同矩形窗長N時的短時能量函數(shù) 短時平均能量的主要用途如下: 1)可以作為區(qū)分清音和濁音的特征參數(shù)。 2)在信噪比較高的情況下,短時能量還可以作為區(qū)分有聲和無聲的依據(jù)。 3)可以作為輔助的特征參數(shù)用于語音識別中。MATLAB的具體實現(xiàn)如下 :1、用Cooledit讀入語音“我到北京去”。2、將讀入的語音文件wav保存為txt文件,設(shè)置采樣率為8kHz,16位,單聲道。3、把保存的文件zqq.txt讀入Matlab。fid=fopen(zqq.txt,rt); x=f

21、scanf(fid,%f);fclose(fid);4、對采集到的語音樣點值進行分幀。3.4 短時平均幅度函數(shù) 為了克服短時能量函數(shù)計算x2 ( m ) 的缺點,定義了短時平均幅度函數(shù): Mn與En的比較: 1. Mn能較好地反映清音范圍內(nèi)的幅度變化; 2. Mn所能反映幅度變化的動態(tài)范圍比En好; 3. Mn反映清音和濁音之間的電平差次于En。 短時平均幅度函數(shù)隨矩形窗窗長N變化的情況短時平均過零率 1. 定義 在離散時間語音信號情況下,如果相鄰的采樣具有不同的代數(shù)符號就稱為發(fā)生了過零。單位時間內(nèi)過零的次數(shù)就稱為過零率。短時平均過零率的定義為 在上式中,用1/2N 作為幅值,是考慮了對該窗口

22、范圍內(nèi)的過零數(shù)取平均的意思。 考慮到w(n-m)的非零值范圍為n-m0,即mn,以及 n-mN-1,故mn-N+1,因此短時平均過零率可以改寫為:(定義式)2. 實現(xiàn)短時平均過零率女聲“我到北京去”的短時平均過零次數(shù)的變化曲線:3. 應(yīng)用 清音過零率高,濁音過零率低。 局限性:濁音和清音重疊區(qū)域只根據(jù)短時平均過零率不可能明確地判別清、濁音。端點檢測 端點檢測目的:從包含語音的一段信號中確定出語音的起點及結(jié)束點。 有效的端點檢測不僅能使處理時間減到最少,而且能抑制無聲段的噪聲干擾,提高語音處理的質(zhì)量。時域特征短時平均能量N為分析窗的寬度,St(n) 表示第t 幀中第n個采樣點的信號值短時平均過零

23、率過零率tS(t)One frame20msOne frame20ms時域特征能量和過零率參數(shù)的缺點對于說話人和背景噪聲的魯棒性較差目前時域參數(shù)多用在語音的預(yù)處理上如端點檢測,判斷語音的開始與結(jié)束也有人把它作為模型參數(shù)進行使用頻域分析為什么要進行頻域分析?穩(wěn)態(tài)語音的生成模型由線性系統(tǒng)組成,其被一隨時間做周期變化或者隨機變化的源所激勵,因而系統(tǒng)輸出頻譜反映了激勵與聲道頻率響應(yīng)特性語音信號的頻譜具有非常明顯的語音、聲學(xué)意義,可以獲得重要的語音特征,如共振峰共振峰是指在聲音的頻譜中能量相對集中的一些區(qū)域共振峰不但是音質(zhì)的決定因素,而且反映了聲道(共振腔)的物理特征。聲音在經(jīng)過共振腔時,受到腔體的濾波

24、作用,使得頻域中不同頻率的能量重新分配,一部分因為共振腔的共振作用得到強化,另一部分則受到衰減,得到強化的那些頻率在時頻分析的語圖上表現(xiàn)為濃重的黑色條紋。由于能量分布不均勻,強的部分猶如山峰一般,故而稱之為共振峰。在語音聲學(xué)中,共振峰決定著元音的音質(zhì) 廣義頻域分析廣義頻譜分析頻譜倒頻譜功率譜頻譜包絡(luò)常用頻譜分析方法傅里葉變換法線性預(yù)測法帶通濾波器組法頻域分析基本工具傅里葉變換標(biāo)準(zhǔn)傅里葉變換適用于周期、平穩(wěn)隨機信號不適合于非平穩(wěn)的語音信號短時傅里葉變換短時譜,有限長度的傅里葉變換即對某一幀語音進行傅里葉變換窗選語音信號的標(biāo)準(zhǔn)傅里葉變換特別適用于“語音分析和語音合成”因為其可以精確的恢復(fù)語音波形反

25、卷積問題定義語音信號的產(chǎn)生模型線性非移變系統(tǒng)的輸出,即聲門激勵信號和聲道沖激響應(yīng)的卷積A = L * R問題已知A,如何求解L和R?解卷(反卷積)由卷積結(jié)果求得參與卷積的各個信號分量反卷積方法倒譜(同態(tài))分析線性預(yù)測分析同態(tài)分析基本思路,三步走:Z變換: 卷積信號乘積信號對數(shù)運算:乘積信號加性運算逆Z變換: 得到滿足加性的時域信號分析得到的逆Z變換結(jié)果稱為復(fù)倒頻譜Complex Cepstrum倒譜 同態(tài)分析/同態(tài)濾波/倒譜分析 Spectrum倒譜(同態(tài))分析應(yīng)用倒譜分析可以得到某些參數(shù)的近似表示聲門激勵的基音周期聲門的振動特征區(qū)分濁音與清音濁音:聲帶振動,聲門開閉清音:聲帶不振動聲道響應(yīng)的

26、共振峰頻率聲道(咽、口腔和鼻腔)特征反卷積方法倒譜(同態(tài))分析線性預(yù)測分析線性預(yù)測分析概況線性預(yù)測 Linear Prediction, LP1947年,維納首次提出1967年,板倉等人應(yīng)用于語音分析和合成中LP是首次得到成功實用的語音分析技術(shù)功能估計基本的語音參數(shù)包括基音、共振峰、譜、聲道面積函數(shù)用于低帶寬傳輸和存儲語音優(yōu)勢精確估計參數(shù);參數(shù)少但可以有效而準(zhǔn)確的表示語音波形及其頻譜性質(zhì);速度快,效率高。線性預(yù)測分析基本思路基本概念一個語音的采樣可以用過去若干個語音采樣的線性組合來逼近分析思路通過使實際語音采樣和線性預(yù)測采樣之間差值的平方和達到最小值,即進行最小均方誤差的逼近,能夠決定唯一的一

27、組線性預(yù)測系數(shù)線性預(yù)測分析基本思路線性預(yù)測分析模型將信號看作某一模型(系統(tǒng))的輸出將語音生成的激勵、聲道和輻射模型全部譜效應(yīng)簡化為一個時變的數(shù)字濾波器用模型參數(shù)來描述信號,其參數(shù)包括:濁音/清音判決,濁音基音周期增益常數(shù),數(shù)字濾波器參數(shù)等語音信號的線性預(yù)測分析求解數(shù)字濾波器的參數(shù)和增益常數(shù)的過程即語音信號的線性預(yù)測分析輸出LPC, LP coefficients線性預(yù)測系數(shù):參數(shù)、增益常數(shù)注意語音信號具有時變性,所以系數(shù)的預(yù)測同樣要按幀進行線性預(yù)測系數(shù)(LPC)的計算方法問題轉(zhuǎn)化最后問題轉(zhuǎn)化求解線性方程組的問題LPC的計算方法自相關(guān)法格型法引入正向預(yù)測/反向預(yù)測的概念協(xié)方差矩陣法對協(xié)方差矩陣進

28、行特征分解LPC+倒譜 = LPCC基于LP的倒譜分析LPC是語音信號的基本表示參數(shù),可以變換為其他形式的參數(shù)在求得LPC 后,使用下面的遞推公式可以計算出該幀語音的LPC 倒譜(LPCC)系數(shù)基于LPC 的倒譜系數(shù)LPCC基于Mel頻率的倒譜MFCC生理支持根據(jù)人類聽覺系統(tǒng)的特性,人耳分辨聲音頻率的過程猶如一種取對數(shù)的功能,基于此,出現(xiàn)了Mel 頻率的倒譜系數(shù)(MFCC)MFCC: Mel-Frequency Cepstrum Coefficients特點MFCC 比LPCC 更能反映聽覺特性,在語音識別系統(tǒng)中有著廣泛的應(yīng)用,是目前公認的性能最好的特征參數(shù)之一Mel-頻率目的模擬人耳對不同頻

29、率語音的感知人的耳朵由外耳、中耳和內(nèi)耳構(gòu)成,起重要作用的是內(nèi)耳耳蝸。對于不同的聲音頻率,耳蝸內(nèi)的基底膜運動的幅度也不同。通常在幾百赫茲以上的聲音信號,頻率沿基底膜是對數(shù)分布的;幾百赫茲以下是線性分布的。通過耳蝸處理,把時域語音信號分解成在不同的空間軸位置上有不同頻率特性的信號,這就是耳蝸的頻率分解。Mel-頻率人類對不同頻率語音有不同的感知能力1kHz以下,與頻率成線性關(guān)系1kHz以上,與頻率成對數(shù)關(guān)系Mel頻率將頻譜轉(zhuǎn)換到基于Mel頻標(biāo)的非線性頻譜在Mel頻域內(nèi),人對音調(diào)的感知能力為線性關(guān)系如果兩段語音的Mel頻率差兩倍,人在感知上也差兩倍Mel-頻率公式:頻率Mel-頻率:- 頻率- Me

30、l-頻率Mel-頻率頻率(Hz)MFCC計算過程計算流程:DFT時域信號線性譜域Mel濾波器組LogDCTMel譜域?qū)?shù)譜域MFCCMel帶通濾波利用D 個三角帶通濾波器分別與離散譜St(k) 做卷積,其中三角濾波器的中心頻率和邊界頻率與相應(yīng)的Mel頻標(biāo)對齊(帶寬在Mel標(biāo)度上是相等的)倒譜系數(shù)計算求出每個頻段的對數(shù)能量輸出三角濾波器的輸出最后用DCT將這些系數(shù)變換到倒譜域倒譜系數(shù)的維數(shù)通常取DCT系數(shù)的前12維聲學(xué)特征小結(jié)短時平均能量/幅度/功率短時平均過零率線性預(yù)測系數(shù)(LPC)LPC倒譜特征(LPCC)Mel 倒譜參數(shù)(MFCC)內(nèi)容歷史2.語音產(chǎn)生機理 3.語音特征4.系統(tǒng)架構(gòu)5.引言

31、1.說話人識別(10/14)說話人識別模型主要有三類:基于模板的模型:K-NN (K近鄰法)DTW(動態(tài)時間規(guī)整)VQ(矢量量化)隨機模型:GMM(高斯混合模型)HMM(隱馬爾可夫模型)基于人工神經(jīng)網(wǎng)絡(luò)的模型NN(神經(jīng)元網(wǎng)絡(luò))SVM(支持向量機)說話人識別(11/14)Feature 1Feature 2: class-A point: class-B point: point with unknown classCircle of 3-nearest neighborsThe point is class B via 3-NNR.K近鄰法 (K-NNR):1. 對給定的點找到前K個最近的鄰居

32、. 2. 對這K個最近的鄰居通過投票法決定這個特征點屬于哪個類.說話人識別(12/14)一維高斯混合模型二維高斯混合模型說話人識別(13/14)三維高斯混合模型說話人識別(14/14)情感和情感語音(1/7)普通心理學(xué)/現(xiàn)代心理學(xué)簡明牛津英語詞典從心理學(xué)的角度給情緒下的定義是:“情緒是一種不同于認知或意志的精神上的情感或感情?!鼻榫w(emotion)是人對客觀事物的態(tài)度和體驗。這是從最廣泛的意義上給情緒下的定義。情緒是人(包括動物)所具有的一種心理形式。它與認識活動不同,具有主干的體驗形式(如喜怒悲劇懼等感受色彩)、外部表現(xiàn)形式(如面部表情),以及獨特的生理基礎(chǔ)(如皮層下等部位的特定活動)。情

33、感和情感語音(2/7)情緒可以分為基本情緒和復(fù)合情緒,口語中情緒表達一般不強烈,更多的是復(fù)合情緒而不是某一種基本情緒。目前用的最多的基本情緒分類為:害怕、生氣、高興、難過、驚訝、厭惡。情感和情感語音(3/7)研究熱點情感語音庫情感語音分析情感語音識別情感語音合成語音產(chǎn)生語音理解生理過程圖1 中性語音“你是個好人”的語音特征 情感和情感語音(4/7)語音信號中的情感特征基音頻率發(fā)音持續(xù)時間能量韻律結(jié)構(gòu)音質(zhì) 世間的問題, 原來極復(fù)雜的,可以用極簡單的事例, 加以說明情感和情感語音(5/7) 情感與語音參數(shù)之間的關(guān)系 漢語語速稍快較快,但有時較慢稍慢很快非常慢平均音高非常高很高稍低非常高非常低音高范

34、圍很寬很寬稍窄很寬稍寬音節(jié)基頻高線變化陡峭,在重讀音節(jié)處平滑,上升變化下降變化正常寬,下降終端變化音節(jié)基頻低線變化沒有太多變化平滑,上升變化下降變化正常下降終端變化音強較高較高較低正常較低音質(zhì)有呼吸聲,胸腔聲調(diào)有呼吸聲,響亮共鳴聲不規(guī)則發(fā)聲嘟囔的胸鳴聲清晰度焦急正常模糊準(zhǔn)確正常情感和情感語音(6/7)情感和情感語音(7/7)傳統(tǒng)說話人識別面臨挑戰(zhàn)中性語音低層的短時聲學(xué)特征人機交互中情感計算的加強說話人發(fā)聲狀態(tài)的情感變異語速音高音長因此,需要情感魯棒說話人識別模型 內(nèi)容情感和情感語音2.情感與說話人識別3.說話人識別技術(shù)1.情感語音對說話人識別系統(tǒng)性能影響(1/4)識別率情感語音對說話人識別系統(tǒng)性能影響(2/4)與訓(xùn)練語音的文本相關(guān)性文本的情感建模方式得分選擇策略情感語音對說話人識別系統(tǒng)性能影響(3/4)訓(xùn)練文本的情感對于中性語音,誘發(fā)情感信息對于情感語音,更好地表達情感情感語料越多越好,但是情感語料的增加破壞了系統(tǒng)的友好性,一般每種情感可錄10s;與訓(xùn)練語音的文本的相關(guān)性文本內(nèi)容豐富,文本

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論