




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、生物認(rèn)證技術(shù)Biometrics第五章 聲紋識(shí)別內(nèi)容歷史2.語音產(chǎn)生機(jī)理 3.語音特征4.系統(tǒng)架構(gòu)5.引言1.引言聲音是攜帶信息的極其重要的媒體(20)聲音是通過空氣傳播的一種連續(xù)的波,叫聲波,也具有反射、折射和衍射現(xiàn)象。聲音信號(hào)是由許多頻率不同的分量信號(hào)組成的復(fù)合信號(hào)。復(fù)合信號(hào)的頻率范圍稱為帶寬。帶寬為20Hz20kHz的信號(hào)稱為音頻(audio)信號(hào),可以被人的耳朵感知。聲音是時(shí)基類媒體。說的是什么內(nèi)容?是誰在說話?計(jì)算機(jī)去說話?怎么把話說好?語音識(shí)別聲紋識(shí)別文語轉(zhuǎn)換說話水平評(píng)估說的是什么語言?語種識(shí)別引言語音處理研究的基本內(nèi)容引言Speaker, or voice, recognitio
2、n is a biometric modality that uses an individuals voice for recognition purposes. 說話人識(shí)別(聲紋識(shí)別)是一項(xiàng)根據(jù)語音波形中反映說話人生理和行為特征的語音參數(shù),自動(dòng)識(shí)別說話人身份的技術(shù)。It is a different technology than “speech recognition”, which recognizes words as they are articulated, which is not a biometric.聲紋識(shí)別利用的是語音信號(hào)中的說話人信息,而不考慮語音中的字詞意思,它強(qiáng)調(diào)
3、說話人的個(gè)性;而語音識(shí)別的目的是識(shí)別出語音信號(hào)中的言語內(nèi)容,并不考慮說話人是誰,它強(qiáng)調(diào)共性。引言The speaker recognition process relies on features influenced by both the physical structure of an individuals vocal tract and the behavioral characteristics of the individual.聲音是個(gè)復(fù)雜的信號(hào),說話人有關(guān)的差異是聲道在解剖學(xué)上的差異和后天的說話習(xí)慣差異的綜合的結(jié)果。在說話人識(shí)別中,所有的這些差異都可以被用來區(qū)別不同的用戶。它
4、涉及到說話人發(fā)音器官上的個(gè)性差異、發(fā)音聲道之間的個(gè)性差異、發(fā)音習(xí)慣之間的個(gè)性差異等不同級(jí)別上的差異。說話人識(shí)別是交叉運(yùn)用心理學(xué)、生理學(xué)、語音信號(hào)處理、模式識(shí)別、統(tǒng)計(jì)學(xué)習(xí)理論和人工智能的綜合性研究課題。引言說話人識(shí)別的特殊優(yōu)勢(shì)對(duì)用戶干擾少,易被用戶接受最經(jīng)濟(jì)的方法之一,輸入設(shè)備造價(jià)低廉 語音獲取非接觸,具備衛(wèi)生方面的安全性適用基于電信網(wǎng)絡(luò)的應(yīng)用中 因此,說話人識(shí)別研究具有巨大應(yīng)用前景引言聲紋分析技術(shù)的應(yīng)用領(lǐng)域:信息查詢領(lǐng)域的應(yīng)用在電話交易的應(yīng)用在PC以及手持式設(shè)備上面的應(yīng)用在保安系統(tǒng)以及證件防偽中的應(yīng)用與二維條碼技術(shù)相結(jié)合的防偽應(yīng)用挑戰(zhàn)說話人的發(fā)音經(jīng)常與環(huán)境、情緒、健康狀態(tài)有密切關(guān)系。語音信號(hào)或
5、者稱為“聲紋(voiceprint)”與指紋(fingerprint)不同,指紋是靜態(tài)的、固定不變的生理特性,而說話人特征具有長(zhǎng)時(shí)變動(dòng)特性,會(huì)隨時(shí)間、年齡的變化而變化。如感冒、聲道管疾病,都有可能使發(fā)出的聲音改變。情緒變化也是一個(gè)因素,大聲喊叫的時(shí)候,聲道的形狀顯然同正常狀態(tài)有很大的不同。挑戰(zhàn)聲音往往是可以模仿的,還可以預(yù)先錄制起來,如何區(qū)別真假聲音也是很頭痛的事情。特別是對(duì)于遠(yuǎn)程電話身份認(rèn)證,不能采用同用戶的其他特征相結(jié)合的辦法。挑戰(zhàn)線路傳輸所帶來的線路噪聲,包括不同線路噪聲情況可能不同、同一線路在不同時(shí)期噪聲情況也會(huì)不同,噪聲的處理也很有難度。噪聲可能導(dǎo)致語音信號(hào)在整個(gè)時(shí)域空間上的污染,甚
6、至有可能也對(duì)頻域特征造成污染,這就給提取出正確的反映說話人的特征,造成了很大的困難。內(nèi)容歷史2.語音產(chǎn)生機(jī)理 3.語音特征4.系統(tǒng)架構(gòu)5.引言1.歷史以人們的語音作為身份認(rèn)證的手段,據(jù)說是從1660 年英國(guó)查爾斯一世之死的判決開始的,首次利用語音作為推斷犯人作案的線索。其后隨著技術(shù)的發(fā)展,電話克服了距離的障礙,錄音手段克服了時(shí)間的障礙,從而使得對(duì)語音的說話人個(gè)性的分析得到了關(guān)注。歷史從1937 年開始,以C. A. Lindbergh 先生的兒子拐騙事件為開端,對(duì)語音的說話人個(gè)性開展了科學(xué)的測(cè)量和研究。1945 年,美國(guó)貝爾實(shí)驗(yàn)室的R. K. Pooter 發(fā)明了語音頻譜圖,能把所謂的聲紋(v
7、oiceprint)動(dòng)描述出來。1962 年,貝爾實(shí)驗(yàn)室的L. G. Kersta 第一次介紹了采用上述方法進(jìn)行說話人識(shí)別的可能性。1966 年,美國(guó)法院第一次采用此方法進(jìn)行了取證。歷史原先的說話人識(shí)別,往往是用視覺來判斷聲音頻譜圖,或者用聽覺判斷是誰的聲音。隨著計(jì)算機(jī)的發(fā)展,自動(dòng)說話人識(shí)別(ASR)的研究得到了迅速的發(fā)展。自動(dòng)說話人識(shí)別是指利用計(jì)算機(jī)技術(shù),不需要人們的干預(yù),自動(dòng)的進(jìn)行身份認(rèn)證。內(nèi)容歷史2.語音產(chǎn)生機(jī)理 3.語音特征4.系統(tǒng)架構(gòu)5.引言1.語音的產(chǎn)生機(jī)理眾所周知,發(fā)聲從肺部擠出空氣開始,空氣通過振動(dòng)聲帶造出振動(dòng)波。由于這個(gè)振動(dòng)波在自聲帶到口為止的“3個(gè)箱子”各自振動(dòng),進(jìn)一步強(qiáng)化
8、共振,最終構(gòu)成聲音。這3個(gè)箱子是“咽頭”、“口腔”、和“鼻腔”。在制造語音的3個(gè)箱子中,口腔扮演了重要的角色。因?yàn)橥ㄟ^舌頭能夠改變空間的容積。如果容積改變,則發(fā)音也改變了,3個(gè)頻率的組合產(chǎn)生聲音。 語音的產(chǎn)生機(jī)理語音產(chǎn)生器官發(fā)聲器官語音合成肺、氣管、喉(包括聲帶)、咽、鼻、口。它們共同形成一條形狀復(fù)雜的管道聲帶和聲門喉與氣管的接口處稱為聲門聲道其中喉以上的部分稱為聲道,隨著發(fā)出語音的不同其形狀是變化的語音的產(chǎn)生機(jī)理產(chǎn)生語音的能量,絕大多數(shù)來源于正常呼吸時(shí)肺部呼出的穩(wěn)定氣流有極少數(shù)語種,如某些非洲語言,是利用吸氣氣流來發(fā)音的聲帶最重要的發(fā)聲器官既是一個(gè)閥門又是一個(gè)振動(dòng)部件呼吸時(shí)左右兩聲帶打開(聲
9、門開)在說話的時(shí)候合攏,肺部氣流經(jīng)氣管形成沖擊“打開-閉合-打開-閉合-”聲門,從而沖擊聲帶產(chǎn)生振動(dòng),然后通過聲道響應(yīng)變成語音聲道調(diào)制聲道咽、口腔和鼻腔從聲門延伸至口唇的非均勻截面的聲管,約17cm功能諧振腔:放大某一頻率而衰減其他頻率分量諧振頻率:由每一瞬間的聲道外形決定,又稱為共振峰,是聲道的重要聲學(xué)特征語音的頻率性質(zhì)音調(diào)周期/基音周期聲門開啟-閉合一次的時(shí)間即振動(dòng)周期基頻基音周期的倒數(shù),聲帶振動(dòng)的基本頻率音調(diào)聲帶振動(dòng)的頻率(即基音)決定了聲音頻率的高低,頻率快則音調(diào)高,否則音調(diào)低人的基音范圍70350HZ,兒童和青年女性偏高,男性偏低語音的產(chǎn)生機(jī)理濁音(voiced sounds):聲道
10、打開,聲帶在先打開后關(guān)閉,氣流經(jīng)過使聲帶要發(fā)生張馳振動(dòng),變?yōu)闇?zhǔn)周期振動(dòng)氣流。濁音的激勵(lì)源被等效為準(zhǔn)周期的脈沖信號(hào)。如發(fā)/U/、/d/、/i/等音清音(unvoiced sounds):聲帶不振動(dòng),而在某處保持收縮,氣流在聲道里收縮后高速通過產(chǎn)生湍流,再經(jīng)過主聲道(咽、口腔)的調(diào)整最終形成清音。清音的激勵(lì)源被等效為一種白噪聲信號(hào)。如發(fā)/音爆破音(plosive sounds):聲道關(guān)閉之后產(chǎn)生壓縮空氣然后突然打開聲道所發(fā)出的聲音。如發(fā)/ t/音時(shí)發(fā)聲過程小結(jié)人的發(fā)聲過程包括兩個(gè)步驟聲門/聲帶產(chǎn)生不同頻率的聲音準(zhǔn)周期氣流脈沖或白噪聲聲道對(duì)聲源的調(diào)制作用 激勵(lì)過程(聲門)調(diào)制過程(聲道)語音輻射語音
11、的產(chǎn)生機(jī)理肺中的空氣受到擠壓形成氣流,氣流通過聲門(聲帶)沿著聲道(由咽、喉、口腔等組成)釋放出去,就形成了話音。 氣流、聲門可以等效為一個(gè)激勵(lì)源,聲道可以等效為一個(gè)時(shí)變?yōu)V波器(共振峰)。 話音信號(hào)具有很強(qiáng)的相關(guān)性(長(zhǎng)期相關(guān)、短期相關(guān))。語音的產(chǎn)生機(jī)理語音信號(hào)的產(chǎn)生數(shù)學(xué)模型激勵(lì)模型聲道模型輻射模型激勵(lì)模型激勵(lì)模型非常復(fù)雜聲門脈沖模型濁音聲帶振動(dòng),聲門脈沖如:斜三角形脈沖串隨機(jī)白噪聲清音聲帶不振動(dòng),隨機(jī)白噪聲內(nèi)容歷史2.語音產(chǎn)生機(jī)理 3.語音特征4.系統(tǒng)架構(gòu)5.引言1.聲紋識(shí)別流程圖1 說話人識(shí)別模型 聲紋識(shí)別系統(tǒng)的組成聲紋識(shí)別系統(tǒng)主要包括兩部分,即特征檢測(cè)和模式匹配。特征檢測(cè)的任務(wù)是選取唯一表
12、現(xiàn)說話人身份的有效且穩(wěn)定可靠的特征.模式匹配的任務(wù)是對(duì)訓(xùn)練和識(shí)別時(shí)的特征模式做相似性匹配。 特征Speech samples are waveforms with time on the horizontal axis and loudness on the vertical access. Voice Sample: The voice input signal (top of image) shows the inputloudness with respect to the time domain. The lower image (blue) depicts thespectral i
13、nformation of the voice signal. This information is plotted bydisplaying the time versus the frequency variations特征特征提取是指用各種模擬和數(shù)字處理技術(shù)、運(yùn)用軟件和硬件的手段,處理語音信號(hào),選擇和提取表征語音信號(hào)的特征。特征提取的任務(wù)是提取并選擇對(duì)說話人的聲紋具有可分性強(qiáng)、穩(wěn)定性高等特性的聲學(xué)或語言特征。與語音識(shí)別不同,聲紋識(shí)別的特征必須是“個(gè)性化”特征,而語音識(shí)別的特征對(duì)說話人來講必須是“共性特征”。較好的特征,應(yīng)該能夠有效地區(qū)分不同的說話人,但又能在同一說話人語音發(fā)生變化時(shí)保持
14、相對(duì)的穩(wěn)定;不易被他人模仿或能夠較好地解決被他人模仿問題;具有較好的抗噪性能。 特征提取的信息來源是說話人所說的話,其語音信號(hào)中既包含了說話人所說的話的信息,也包含了說話人的個(gè)性信息,是話音特征和個(gè)性特征的混合體。目前還沒有將說話人的個(gè)性特征從所發(fā)語音的語音特征中分離出來的較好辦法,從而給有效的特征提取帶來了很大的難度。所有提取出來的特征向量中,雖然在一定程度上表征了說話人的個(gè)性特征,不可避免的包含有特定話音的特征。語音信號(hào)分析方法分類時(shí)域特征直接從時(shí)域信號(hào)計(jì)算得到,反應(yīng)了語音信號(hào)時(shí)域波形的特征。如短時(shí)平均能量、短時(shí)平均過零率、共振峰、基音周期等。頻域及倒譜域特征由時(shí)域信號(hào)進(jìn)行頻譜變換得到,反
15、映語音信號(hào)的頻域特性包括傅里葉頻譜、倒譜以及利用了語音信號(hào)的時(shí)序信息的時(shí)頻譜聽覺特征不直接對(duì)聲道模型進(jìn)行研究,而是從人類聽覺系統(tǒng)對(duì)語音的感知特性來刻畫語音信號(hào)的特征如感知線性預(yù)測(cè)(PLP)分析 根據(jù)所分析的參數(shù)類型,語音信號(hào)分析可以分成時(shí)域分析和變換域(頻域、倒譜域)分析。其中時(shí)域分析方法是最簡(jiǎn)單、最直觀的方法,它直接對(duì)語音信號(hào)的時(shí)域波形進(jìn)行分析,提取的特征參數(shù)主要有語音的短時(shí)能量和平均幅度、短時(shí)平均過零率、短時(shí)自相關(guān)函數(shù)和短時(shí)平均幅度差函數(shù)等。短時(shí)分析技術(shù)語音信號(hào)是非平穩(wěn)時(shí)變信號(hào)語音信號(hào)的特性是隨時(shí)間而變化的幸運(yùn)的是具有短時(shí)平穩(wěn)性短時(shí)間范圍內(nèi)其特性基本保持不變(緩慢變換),即短時(shí)相對(duì)平穩(wěn)準(zhǔn)平
16、穩(wěn)過程短時(shí)分析技術(shù)即在對(duì)語音信號(hào)進(jìn)行分析時(shí),將語音信號(hào)分為一段一段,利用平穩(wěn)信號(hào)的分析方法對(duì)每一分段進(jìn)行處理每一分段成為一“幀”:一般1030ms為一幀短時(shí)分析的不足對(duì)語音識(shí)別,應(yīng)采用HMM來分析,以處理語音信號(hào)的瞬變和非平穩(wěn)特性語音信號(hào)的預(yù)處理 在對(duì)語音信號(hào)進(jìn)行數(shù)字處理之前,首先要將模擬語音信號(hào)s(t) 離散化為s(n). 實(shí)際中獲得數(shù)字語音的途徑一般有兩種,正式的和非正式的。 正式的是指大公司或語音研究機(jī)構(gòu)發(fā)布的被大家認(rèn)可的語音數(shù)據(jù)庫(kù),非正式的則是研究者個(gè)人用錄音軟件或硬件電路加麥克風(fēng)隨時(shí)隨地錄制的一些發(fā)音或語句。 語音信號(hào)的頻率范圍通常是3003400Hz,一般情況下取采樣率為8kHz即
17、可。 有了語音數(shù)據(jù)文件后,對(duì)語音的預(yù)處理包括:預(yù)加重、加窗分幀等。語音信號(hào)的預(yù)加重處理 預(yù)加重目的:為了對(duì)語音的高頻部分進(jìn)行加重,去除口唇輻射的影響,增加語音的高頻分辨率??赏ㄟ^一階FIR高通數(shù)字濾波器來實(shí)現(xiàn):設(shè)n時(shí)刻的語音采樣值為x(n) ,經(jīng)過預(yù)加重處理后的結(jié)果為 高通濾波器的幅頻特性和相頻特性如下 預(yù)加重前和預(yù)加重后的一段語音信號(hào)時(shí)域波形 預(yù)加重前和預(yù)加重后的一段語音信號(hào)頻譜 語音信號(hào)的加窗處理 由于發(fā)音器官的慣性運(yùn)動(dòng),可以認(rèn)為在一小段時(shí)間里(一般為10ms30ms)語音信號(hào)近似不變,即語音信號(hào)具有短時(shí)平穩(wěn)性。這樣,可以把語音信號(hào)分為一些短段(稱為分析幀)來進(jìn)行處理。 說話人識(shí)別(9/1
18、4)語音信號(hào)的分幀實(shí)現(xiàn)方法: 采用可移動(dòng)的有限長(zhǎng)度窗口進(jìn)行加權(quán)的方法來實(shí)現(xiàn)的。一般每秒的幀數(shù)約為33100幀。 分幀一般采用交疊分段的方法,這是為了使幀與幀之間平滑過渡,保持其連續(xù)性。前一幀和后一幀的交疊部分稱為幀移,幀移與幀長(zhǎng)的比值一般取為01/2。 圖3.3給出了幀移與幀長(zhǎng)示意圖。 加窗常用的兩種方法:矩形窗,窗函數(shù)如下:漢明(Hamming)窗,窗函數(shù)如下 矩形窗及其頻譜如下漢明窗及其頻譜如下思考:兩種窗效果有何異同?加窗方法示意圖: 窗長(zhǎng)的選擇 一般選取100200。原因如下: 當(dāng)窗較寬時(shí),平滑作用大,能量變化不大,故反映不出能量的變化。 當(dāng)窗較窄時(shí),沒有平滑作用,反映了能量的快變細(xì)節(jié)
19、,而看不出包絡(luò)的變化。 語音信號(hào)的分幀處理,實(shí)際上就是對(duì)各幀進(jìn)行某種變換或運(yùn)算。設(shè)這種變換或運(yùn)算用T 表示,x(n)為輸入語音信號(hào),w(n)為窗序列,h(n)是與w(n)有關(guān)的濾波器,則各幀經(jīng)處理后的輸出可以表示為: 幾種常見的短時(shí)處理方法是:1.對(duì)應(yīng)于能量;2.,對(duì)應(yīng)于平均過零率;3.對(duì)應(yīng)于自相關(guān)函數(shù) ;短時(shí)平均能量 1短時(shí)平均能量定義定義n時(shí)刻某語音信號(hào)的短時(shí)平均能量En為: 當(dāng)窗函數(shù)為矩形窗時(shí),有若令 則短時(shí)平均能量可以寫成: 2. En特點(diǎn):En反映語音信號(hào)的幅度或能量隨時(shí)間緩慢變化的規(guī)律 。3. 窗的長(zhǎng)短對(duì)于能否由短時(shí)能量反映語音信號(hào)的幅度變化,起著決定性影響。 如果窗選得很長(zhǎng),En
20、不能反映語音信號(hào)幅度變化。 窗選得太窄,En將不夠平滑。 通常,當(dāng)取樣頻率為10kHz時(shí),選擇窗寬度N=100200是比較合適的。不同矩形窗長(zhǎng)N時(shí)的短時(shí)能量函數(shù) 短時(shí)平均能量的主要用途如下: 1)可以作為區(qū)分清音和濁音的特征參數(shù)。 2)在信噪比較高的情況下,短時(shí)能量還可以作為區(qū)分有聲和無聲的依據(jù)。 3)可以作為輔助的特征參數(shù)用于語音識(shí)別中。MATLAB的具體實(shí)現(xiàn)如下 :1、用Cooledit讀入語音“我到北京去”。2、將讀入的語音文件wav保存為txt文件,設(shè)置采樣率為8kHz,16位,單聲道。3、把保存的文件zqq.txt讀入Matlab。fid=fopen(zqq.txt,rt); x=f
21、scanf(fid,%f);fclose(fid);4、對(duì)采集到的語音樣點(diǎn)值進(jìn)行分幀。3.4 短時(shí)平均幅度函數(shù) 為了克服短時(shí)能量函數(shù)計(jì)算x2 ( m ) 的缺點(diǎn),定義了短時(shí)平均幅度函數(shù): Mn與En的比較: 1. Mn能較好地反映清音范圍內(nèi)的幅度變化; 2. Mn所能反映幅度變化的動(dòng)態(tài)范圍比En好; 3. Mn反映清音和濁音之間的電平差次于En。 短時(shí)平均幅度函數(shù)隨矩形窗窗長(zhǎng)N變化的情況短時(shí)平均過零率 1. 定義 在離散時(shí)間語音信號(hào)情況下,如果相鄰的采樣具有不同的代數(shù)符號(hào)就稱為發(fā)生了過零。單位時(shí)間內(nèi)過零的次數(shù)就稱為過零率。短時(shí)平均過零率的定義為 在上式中,用1/2N 作為幅值,是考慮了對(duì)該窗口
22、范圍內(nèi)的過零數(shù)取平均的意思。 考慮到w(n-m)的非零值范圍為n-m0,即mn,以及 n-mN-1,故mn-N+1,因此短時(shí)平均過零率可以改寫為:(定義式)2. 實(shí)現(xiàn)短時(shí)平均過零率女聲“我到北京去”的短時(shí)平均過零次數(shù)的變化曲線:3. 應(yīng)用 清音過零率高,濁音過零率低。 局限性:濁音和清音重疊區(qū)域只根據(jù)短時(shí)平均過零率不可能明確地判別清、濁音。端點(diǎn)檢測(cè) 端點(diǎn)檢測(cè)目的:從包含語音的一段信號(hào)中確定出語音的起點(diǎn)及結(jié)束點(diǎn)。 有效的端點(diǎn)檢測(cè)不僅能使處理時(shí)間減到最少,而且能抑制無聲段的噪聲干擾,提高語音處理的質(zhì)量。時(shí)域特征短時(shí)平均能量N為分析窗的寬度,St(n) 表示第t 幀中第n個(gè)采樣點(diǎn)的信號(hào)值短時(shí)平均過零
23、率過零率tS(t)One frame20msOne frame20ms時(shí)域特征能量和過零率參數(shù)的缺點(diǎn)對(duì)于說話人和背景噪聲的魯棒性較差目前時(shí)域參數(shù)多用在語音的預(yù)處理上如端點(diǎn)檢測(cè),判斷語音的開始與結(jié)束也有人把它作為模型參數(shù)進(jìn)行使用頻域分析為什么要進(jìn)行頻域分析?穩(wěn)態(tài)語音的生成模型由線性系統(tǒng)組成,其被一隨時(shí)間做周期變化或者隨機(jī)變化的源所激勵(lì),因而系統(tǒng)輸出頻譜反映了激勵(lì)與聲道頻率響應(yīng)特性語音信號(hào)的頻譜具有非常明顯的語音、聲學(xué)意義,可以獲得重要的語音特征,如共振峰共振峰是指在聲音的頻譜中能量相對(duì)集中的一些區(qū)域共振峰不但是音質(zhì)的決定因素,而且反映了聲道(共振腔)的物理特征。聲音在經(jīng)過共振腔時(shí),受到腔體的濾波
24、作用,使得頻域中不同頻率的能量重新分配,一部分因?yàn)楣舱袂坏墓舱褡饔玫玫綇?qiáng)化,另一部分則受到衰減,得到強(qiáng)化的那些頻率在時(shí)頻分析的語圖上表現(xiàn)為濃重的黑色條紋。由于能量分布不均勻,強(qiáng)的部分猶如山峰一般,故而稱之為共振峰。在語音聲學(xué)中,共振峰決定著元音的音質(zhì) 廣義頻域分析廣義頻譜分析頻譜倒頻譜功率譜頻譜包絡(luò)常用頻譜分析方法傅里葉變換法線性預(yù)測(cè)法帶通濾波器組法頻域分析基本工具傅里葉變換標(biāo)準(zhǔn)傅里葉變換適用于周期、平穩(wěn)隨機(jī)信號(hào)不適合于非平穩(wěn)的語音信號(hào)短時(shí)傅里葉變換短時(shí)譜,有限長(zhǎng)度的傅里葉變換即對(duì)某一幀語音進(jìn)行傅里葉變換窗選語音信號(hào)的標(biāo)準(zhǔn)傅里葉變換特別適用于“語音分析和語音合成”因?yàn)槠淇梢跃_的恢復(fù)語音波形反
25、卷積問題定義語音信號(hào)的產(chǎn)生模型線性非移變系統(tǒng)的輸出,即聲門激勵(lì)信號(hào)和聲道沖激響應(yīng)的卷積A = L * R問題已知A,如何求解L和R?解卷(反卷積)由卷積結(jié)果求得參與卷積的各個(gè)信號(hào)分量反卷積方法倒譜(同態(tài))分析線性預(yù)測(cè)分析同態(tài)分析基本思路,三步走:Z變換: 卷積信號(hào)乘積信號(hào)對(duì)數(shù)運(yùn)算:乘積信號(hào)加性運(yùn)算逆Z變換: 得到滿足加性的時(shí)域信號(hào)分析得到的逆Z變換結(jié)果稱為復(fù)倒頻譜Complex Cepstrum倒譜 同態(tài)分析/同態(tài)濾波/倒譜分析 Spectrum倒譜(同態(tài))分析應(yīng)用倒譜分析可以得到某些參數(shù)的近似表示聲門激勵(lì)的基音周期聲門的振動(dòng)特征區(qū)分濁音與清音濁音:聲帶振動(dòng),聲門開閉清音:聲帶不振動(dòng)聲道響應(yīng)的
26、共振峰頻率聲道(咽、口腔和鼻腔)特征反卷積方法倒譜(同態(tài))分析線性預(yù)測(cè)分析線性預(yù)測(cè)分析概況線性預(yù)測(cè) Linear Prediction, LP1947年,維納首次提出1967年,板倉(cāng)等人應(yīng)用于語音分析和合成中LP是首次得到成功實(shí)用的語音分析技術(shù)功能估計(jì)基本的語音參數(shù)包括基音、共振峰、譜、聲道面積函數(shù)用于低帶寬傳輸和存儲(chǔ)語音優(yōu)勢(shì)精確估計(jì)參數(shù);參數(shù)少但可以有效而準(zhǔn)確的表示語音波形及其頻譜性質(zhì);速度快,效率高。線性預(yù)測(cè)分析基本思路基本概念一個(gè)語音的采樣可以用過去若干個(gè)語音采樣的線性組合來逼近分析思路通過使實(shí)際語音采樣和線性預(yù)測(cè)采樣之間差值的平方和達(dá)到最小值,即進(jìn)行最小均方誤差的逼近,能夠決定唯一的一
27、組線性預(yù)測(cè)系數(shù)線性預(yù)測(cè)分析基本思路線性預(yù)測(cè)分析模型將信號(hào)看作某一模型(系統(tǒng))的輸出將語音生成的激勵(lì)、聲道和輻射模型全部譜效應(yīng)簡(jiǎn)化為一個(gè)時(shí)變的數(shù)字濾波器用模型參數(shù)來描述信號(hào),其參數(shù)包括:濁音/清音判決,濁音基音周期增益常數(shù),數(shù)字濾波器參數(shù)等語音信號(hào)的線性預(yù)測(cè)分析求解數(shù)字濾波器的參數(shù)和增益常數(shù)的過程即語音信號(hào)的線性預(yù)測(cè)分析輸出LPC, LP coefficients線性預(yù)測(cè)系數(shù):參數(shù)、增益常數(shù)注意語音信號(hào)具有時(shí)變性,所以系數(shù)的預(yù)測(cè)同樣要按幀進(jìn)行線性預(yù)測(cè)系數(shù)(LPC)的計(jì)算方法問題轉(zhuǎn)化最后問題轉(zhuǎn)化求解線性方程組的問題LPC的計(jì)算方法自相關(guān)法格型法引入正向預(yù)測(cè)/反向預(yù)測(cè)的概念協(xié)方差矩陣法對(duì)協(xié)方差矩陣進(jìn)
28、行特征分解LPC+倒譜 = LPCC基于LP的倒譜分析LPC是語音信號(hào)的基本表示參數(shù),可以變換為其他形式的參數(shù)在求得LPC 后,使用下面的遞推公式可以計(jì)算出該幀語音的LPC 倒譜(LPCC)系數(shù)基于LPC 的倒譜系數(shù)LPCC基于Mel頻率的倒譜MFCC生理支持根據(jù)人類聽覺系統(tǒng)的特性,人耳分辨聲音頻率的過程猶如一種取對(duì)數(shù)的功能,基于此,出現(xiàn)了Mel 頻率的倒譜系數(shù)(MFCC)MFCC: Mel-Frequency Cepstrum Coefficients特點(diǎn)MFCC 比LPCC 更能反映聽覺特性,在語音識(shí)別系統(tǒng)中有著廣泛的應(yīng)用,是目前公認(rèn)的性能最好的特征參數(shù)之一Mel-頻率目的模擬人耳對(duì)不同頻
29、率語音的感知人的耳朵由外耳、中耳和內(nèi)耳構(gòu)成,起重要作用的是內(nèi)耳耳蝸。對(duì)于不同的聲音頻率,耳蝸內(nèi)的基底膜運(yùn)動(dòng)的幅度也不同。通常在幾百赫茲以上的聲音信號(hào),頻率沿基底膜是對(duì)數(shù)分布的;幾百赫茲以下是線性分布的。通過耳蝸處理,把時(shí)域語音信號(hào)分解成在不同的空間軸位置上有不同頻率特性的信號(hào),這就是耳蝸的頻率分解。Mel-頻率人類對(duì)不同頻率語音有不同的感知能力1kHz以下,與頻率成線性關(guān)系1kHz以上,與頻率成對(duì)數(shù)關(guān)系Mel頻率將頻譜轉(zhuǎn)換到基于Mel頻標(biāo)的非線性頻譜在Mel頻域內(nèi),人對(duì)音調(diào)的感知能力為線性關(guān)系如果兩段語音的Mel頻率差兩倍,人在感知上也差兩倍Mel-頻率公式:頻率Mel-頻率:- 頻率- Me
30、l-頻率Mel-頻率頻率(Hz)MFCC計(jì)算過程計(jì)算流程:DFT時(shí)域信號(hào)線性譜域Mel濾波器組LogDCTMel譜域?qū)?shù)譜域MFCCMel帶通濾波利用D 個(gè)三角帶通濾波器分別與離散譜St(k) 做卷積,其中三角濾波器的中心頻率和邊界頻率與相應(yīng)的Mel頻標(biāo)對(duì)齊(帶寬在Mel標(biāo)度上是相等的)倒譜系數(shù)計(jì)算求出每個(gè)頻段的對(duì)數(shù)能量輸出三角濾波器的輸出最后用DCT將這些系數(shù)變換到倒譜域倒譜系數(shù)的維數(shù)通常取DCT系數(shù)的前12維聲學(xué)特征小結(jié)短時(shí)平均能量/幅度/功率短時(shí)平均過零率線性預(yù)測(cè)系數(shù)(LPC)LPC倒譜特征(LPCC)Mel 倒譜參數(shù)(MFCC)內(nèi)容歷史2.語音產(chǎn)生機(jī)理 3.語音特征4.系統(tǒng)架構(gòu)5.引言
31、1.說話人識(shí)別(10/14)說話人識(shí)別模型主要有三類:基于模板的模型:K-NN (K近鄰法)DTW(動(dòng)態(tài)時(shí)間規(guī)整)VQ(矢量量化)隨機(jī)模型:GMM(高斯混合模型)HMM(隱馬爾可夫模型)基于人工神經(jīng)網(wǎng)絡(luò)的模型NN(神經(jīng)元網(wǎng)絡(luò))SVM(支持向量機(jī))說話人識(shí)別(11/14)Feature 1Feature 2: class-A point: class-B point: point with unknown classCircle of 3-nearest neighborsThe point is class B via 3-NNR.K近鄰法 (K-NNR):1. 對(duì)給定的點(diǎn)找到前K個(gè)最近的鄰居
32、. 2. 對(duì)這K個(gè)最近的鄰居通過投票法決定這個(gè)特征點(diǎn)屬于哪個(gè)類.說話人識(shí)別(12/14)一維高斯混合模型二維高斯混合模型說話人識(shí)別(13/14)三維高斯混合模型說話人識(shí)別(14/14)情感和情感語音(1/7)普通心理學(xué)/現(xiàn)代心理學(xué)簡(jiǎn)明牛津英語詞典從心理學(xué)的角度給情緒下的定義是:“情緒是一種不同于認(rèn)知或意志的精神上的情感或感情。”情緒(emotion)是人對(duì)客觀事物的態(tài)度和體驗(yàn)。這是從最廣泛的意義上給情緒下的定義。情緒是人(包括動(dòng)物)所具有的一種心理形式。它與認(rèn)識(shí)活動(dòng)不同,具有主干的體驗(yàn)形式(如喜怒悲劇懼等感受色彩)、外部表現(xiàn)形式(如面部表情),以及獨(dú)特的生理基礎(chǔ)(如皮層下等部位的特定活動(dòng))。情
33、感和情感語音(2/7)情緒可以分為基本情緒和復(fù)合情緒,口語中情緒表達(dá)一般不強(qiáng)烈,更多的是復(fù)合情緒而不是某一種基本情緒。目前用的最多的基本情緒分類為:害怕、生氣、高興、難過、驚訝、厭惡。情感和情感語音(3/7)研究熱點(diǎn)情感語音庫(kù)情感語音分析情感語音識(shí)別情感語音合成語音產(chǎn)生語音理解生理過程圖1 中性語音“你是個(gè)好人”的語音特征 情感和情感語音(4/7)語音信號(hào)中的情感特征基音頻率發(fā)音持續(xù)時(shí)間能量韻律結(jié)構(gòu)音質(zhì) 世間的問題, 原來極復(fù)雜的,可以用極簡(jiǎn)單的事例, 加以說明情感和情感語音(5/7) 情感與語音參數(shù)之間的關(guān)系 漢語語速稍快較快,但有時(shí)較慢稍慢很快非常慢平均音高非常高很高稍低非常高非常低音高范
34、圍很寬很寬稍窄很寬稍寬音節(jié)基頻高線變化陡峭,在重讀音節(jié)處平滑,上升變化下降變化正常寬,下降終端變化音節(jié)基頻低線變化沒有太多變化平滑,上升變化下降變化正常下降終端變化音強(qiáng)較高較高較低正常較低音質(zhì)有呼吸聲,胸腔聲調(diào)有呼吸聲,響亮共鳴聲不規(guī)則發(fā)聲嘟囔的胸鳴聲清晰度焦急正常模糊準(zhǔn)確正常情感和情感語音(6/7)情感和情感語音(7/7)傳統(tǒng)說話人識(shí)別面臨挑戰(zhàn)中性語音低層的短時(shí)聲學(xué)特征人機(jī)交互中情感計(jì)算的加強(qiáng)說話人發(fā)聲狀態(tài)的情感變異語速音高音長(zhǎng)因此,需要情感魯棒說話人識(shí)別模型 內(nèi)容情感和情感語音2.情感與說話人識(shí)別3.說話人識(shí)別技術(shù)1.情感語音對(duì)說話人識(shí)別系統(tǒng)性能影響(1/4)識(shí)別率情感語音對(duì)說話人識(shí)別系統(tǒng)性能影響(2/4)與訓(xùn)練語音的文本相關(guān)性文本的情感建模方式得分選擇策略情感語音對(duì)說話人識(shí)別系統(tǒng)性能影響(3/4)訓(xùn)練文本的情感對(duì)于中性語音,誘發(fā)情感信息對(duì)于情感語音,更好地表達(dá)情感情感語料越多越好,但是情感語料的增加破壞了系統(tǒng)的友好性,一般每種情感可錄10s;與訓(xùn)練語音的文本的相關(guān)性文本內(nèi)容豐富,文本
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 了解2024年籃球裁判員考試的原則與試題與答案
- 2024籃球裁判員考試的科學(xué)復(fù)習(xí)法試題及答案
- 游泳救生員崗位職責(zé)與工作要求分析試題及答案
- 2024年游泳救生員危機(jī)處理試題及答案
- 關(guān)注行業(yè)動(dòng)態(tài) 2024年籃球裁判員試題及答案
- 模具設(shè)計(jì)中的知識(shí)共享平臺(tái)試題及答案
- 2024年游泳救生員考試準(zhǔn)備中的經(jīng)驗(yàn)分享及試題及答案
- 體育經(jīng)紀(jì)人需了解的行業(yè)動(dòng)態(tài)研究試題及答案
- 農(nóng)作物種子繁育員的行業(yè)認(rèn)知與實(shí)踐試題及答案
- 歷年體育經(jīng)紀(jì)人考試真題解析試題及答案
- 腳手架穩(wěn)定計(jì)算
- 信息系統(tǒng)網(wǎng)絡(luò)安全應(yīng)急預(yù)案
- 掉落物落地品管理規(guī)定
- 【圖文】GB8624-2012建筑材料及制品燃燒性能分級(jí)(精)
- 科姆龍變頻器說明書kv2000
- 小學(xué)生讀書知識(shí)競(jìng)賽試題
- 藍(lán)色簡(jiǎn)約法律通用PPT模板
- 旅行社掛靠協(xié)議(樣板)
- 皮爾遜Ⅲ型曲線模比系數(shù)計(jì)算表(共享版)
- 房屋租賃合以裝修費(fèi)抵租金
- Z5140型立式鉆床說明書
評(píng)論
0/150
提交評(píng)論