第2章語音技術(shù)概述

上傳人：a*** IP屬地：湖北上傳時(shí)間：2024-01-26 格式：PPT 頁數(shù)：97 大?。?.35MB 積分：20 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩92頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

§２.1語音和語言

構(gòu)成人類語音的是聲音，由人講話所發(fā)出的聲音，對(duì)語音中音的分類和研究稱為語音學(xué)。1、言語的過程和作用想說階段————大腦中樞活動(dòng)說出階段————發(fā)音器官的活動(dòng)傳送階段————傳送信息的物理過程起作用接收階段————聽覺系統(tǒng)活動(dòng)理解階段————大腦中樞活動(dòng)12、一些根本概念①音素〔phoneme〕：語音的最小單位，由音素構(gòu)成音節(jié)。②音節(jié)〔Syllable〕：說話時(shí)一次發(fā)出的，具有一個(gè)響亮的中心，并被明顯感覺的語音片斷。音素和音節(jié)2輔音和元音

音素分為兩類：輔音〔Consonant〕和元音〔Vowel〕元音：聲帶振動(dòng)產(chǎn)生一個(gè)準(zhǔn)周期的空氣脈沖，如i、u、ü、a、o、e等。輔音：呼出的氣流，由于通路中某一局部封閉起來或受阻，氣流不通暢所產(chǎn)生的聲音，如b、p、m、f、d、t、n、l等。3輔音和元音的區(qū)別有四點(diǎn)：1、輔音發(fā)音時(shí)，氣流在通過咽頭、口腔的過程中，要受到某部位的阻礙；元音發(fā)音時(shí)，氣流在咽頭、口腔不受阻礙。這是元音和輔音最主要的區(qū)別。2、輔音發(fā)音時(shí)，發(fā)音器官成阻的部位特別緊張；元音發(fā)音時(shí)發(fā)音器官各部位保持均衡的緊張狀態(tài)。3、輔音發(fā)音時(shí)，氣流較強(qiáng)；元音發(fā)音時(shí)，氣流較弱。4、輔音發(fā)音時(shí)，聲帶不一定振動(dòng)，聲音一般不響亮；元音發(fā)音時(shí)，聲帶振動(dòng)，聲音比輔音響亮。4半元音：聲道根本通暢，但某處比較狹窄，引起輕微摩擦。[W]、[Y]元音構(gòu)成音節(jié)的主干，輔音只出現(xiàn)在音節(jié)前端或前后兩端。元音的共振峰特性：聲道被看成具有均勻截面積的聲管，發(fā)音時(shí)起共鳴器的作用。元音鼓勵(lì)進(jìn)入聲道時(shí)引起共振特性，產(chǎn)生一組共振頻率，即共振峰。5清音和濁音清音：聲帶不振動(dòng)濁音：聲帶振動(dòng)而發(fā)音元音都是濁音、輔音有清音也有濁音。63、漢語的聲調(diào)：濁音的聲帶振動(dòng)基頻稱為基音頻率。無論在說一個(gè)單音節(jié)或說一段連續(xù)語音時(shí)，各個(gè)音節(jié)中韻母段的都是隨時(shí)間變化的，基音頻率的不同軌跡稱為聲調(diào)。幾乎平均于橫軸、平均值高從較低一直上升到較高頻率先降后升從較高頻率降到較低頻率74、語音信號(hào)的時(shí)域波形開始/ai//k/時(shí)變特性有些段落周期性，有些段落具有噪聲特性，短時(shí)平穩(wěn)性8Doyoulikeit?VsDidyoulikeit?Waveform9§２.2語音產(chǎn)生的過程及聲學(xué)特征語音產(chǎn)生的過程喉以上的局部稱為聲道，隨著發(fā)出聲音的不同其形狀是變化的；而喉的局部稱為聲門。10聲帶〔VocalCords〕10~14mm在喉部的從喉結(jié)到杓狀軟骨之間的韌帶褶。聲門〔Glottis〕兩個(gè)聲帶之間形成一個(gè)開閉自如的聲門，聲帶合攏因而受聲門下氣流的沖擊而張開；但由于聲帶韌性迅速地閉合，隨后又張開而閉合，聲帶開啟和閉合使氣流形成一系列脈沖。聲門每開啟和閉合一次的時(shí)間即振動(dòng)周期稱為音調(diào)周期或基音周期，其倒數(shù)稱為基音頻率，也簡稱為基頻。基音的范圍約為70~350Hz左右。11聲道〔vocaltract〕17cm由咽腔、口腔和鼻腔三個(gè)空氣腔體組成。聲道是一個(gè)分布參數(shù)系統(tǒng)，它有許多自然諧振頻率〔在這些頻率上其傳遞函數(shù)具有極大值〕，所以聲道是一諧振腔，它放大某一頻率而衰減其他頻率分量。諧振頻率由每一瞬間的聲道外形決定。如果聲道的截面是均勻的，諧振頻率將發(fā)生在12聽覺系統(tǒng)：

聲波經(jīng)過外耳的放大后，經(jīng)過鼓膜和聽小骨將聲波轉(zhuǎn)化為機(jī)械振動(dòng)，傳入內(nèi)耳?！?.3語音感知

由外耳、中耳、內(nèi)耳組成人耳的作用：1、聲音放大；2、聲音傳導(dǎo)；3、聲源定位13正常人的聽域與聽閾：聽覺感知特性：正常人的聽覺系統(tǒng)是極為靈敏的，人耳所能感覺的最低聲壓接近空氣中分子熱運(yùn)動(dòng)所產(chǎn)生的聲壓。正常人可聽聲音的頻率范圍為0.016-16kHz，年輕人可聽到20kHz的聲音，而老年人可聽到的高頻聲音要減少到10kHz左右。正常人可聽聲音的強(qiáng)度范圍為0-120dBSPL(聲壓級(jí))，這里的基準(zhǔn)聲壓(0dBSPL)是或。14純音聽閾是與頻率有關(guān)的量，在1000Hz時(shí)約為4dB左右，而在40Hz時(shí)上升為50dB左右，在15kHz時(shí)上升為24dB左右。

感覺閾代表可容忍的最高聲壓。在聲壓級(jí)高到一定程度時(shí)，耳朵會(huì)出現(xiàn)不適感覺，或者具有癢、壓迫及痛感。對(duì)正常人而言一般取120dB為不適閡，140dB為痛闡，且認(rèn)為它與頻率無關(guān)。15響度〔Londness〕---方〔phon〕是一種主觀心理量，主觀感覺到的聲音強(qiáng)弱的一種衡量標(biāo)準(zhǔn)，它與頻率有關(guān)。一樣的音強(qiáng)，不一樣的頻率，那么響度也會(huì)有所不同。0dB聲強(qiáng)級(jí)的1000Hz純音的響度級(jí)為0phon;ndB聲強(qiáng)級(jí)的1000Hz純音的響度級(jí)為nphon;16聽覺掩蔽效應(yīng)掩蔽效應(yīng)：一種聲音的聽覺感受受到同時(shí)聽到的另一種聲音的影響。分：同時(shí)掩蔽和短時(shí)掩蔽

17同時(shí)掩蔽：同時(shí)存在的一個(gè)弱信號(hào)和一個(gè)強(qiáng)信號(hào)頻率接近時(shí)，強(qiáng)信號(hào)會(huì)提高弱信號(hào)的聽閾，當(dāng)弱信號(hào)的聽閾升高到一定程度會(huì)導(dǎo)致弱信號(hào)不可聞。短時(shí)掩蔽：當(dāng)A聲和B聲不同時(shí)出現(xiàn)時(shí)。后向掩蔽：掩蔽聲B消失后，其作用仍持續(xù)一段時(shí)間：0.5～2s前向掩蔽：被掩蔽音A出現(xiàn)后，相隔0.005～0.2s之內(nèi)出現(xiàn)掩蔽音B，也會(huì)對(duì)A起作用。18§2.4語音信號(hào)的數(shù)學(xué)模型準(zhǔn)那么：要尋求一種可以表達(dá)一定物理狀態(tài)下的數(shù)學(xué)關(guān)系，要使這種關(guān)系不僅具有最大的精確度，而且還要最簡單。期望：模型既是線性的又是時(shí)不變的，這是最理想的模型。語音信號(hào)特征：一連串的時(shí)變過程；聲門和聲道相互耦合，還形成語音信號(hào)的非線性特性。合理假設(shè)：在較短的時(shí)間間隔內(nèi)表示語音信號(hào)時(shí)，采用線性時(shí)不變模型。19發(fā)音器官的機(jī)理模型：20語音信號(hào)的產(chǎn)生模型21(1)發(fā)濁音時(shí)。此時(shí)氣流通過繃緊的聲帶，沖激聲帶產(chǎn)生振動(dòng)，使聲門處形成準(zhǔn)周期性的脈沖串，并用它去鼓勵(lì)聲道。聲帶繃緊的程度不同，振動(dòng)頻率也不同。該頻率就是音調(diào)頻率，其倒數(shù)為音調(diào)周期。(2)發(fā)清音時(shí)。此時(shí)聲帶松弛而不振動(dòng)，氣流通過聲門直接進(jìn)入聲道。表示為均值為0、方差為1，并在時(shí)間或在幅度上為白色分布的序列。

1、鼓勵(lì)模型22羅森貝格〔Rosenberg〕在研究中發(fā)現(xiàn)，如果在發(fā)濁音時(shí)聲門脈沖取如下圖的形狀，可以獲得比較好的合成語音效果。發(fā)濁音時(shí)的聲門脈沖23把聲道視作截面積變化的管子，研究聲音沿管道是怎樣傳播的。2、聲道模型〔一〕聲管模型24管道內(nèi)聲波的運(yùn)動(dòng)方程：

其中，為在點(diǎn)時(shí)刻的聲壓

為在點(diǎn)時(shí)刻的體積速度

為空氣密度

為聲速

為管道截面積25每個(gè)管子可看作為一個(gè)四端網(wǎng)絡(luò)，這個(gè)網(wǎng)絡(luò)具有反射系數(shù)，聲道可由一組截面積或一組反射系數(shù)來表示。

通常用A表示聲管的截面積。由于語音的短時(shí)平穩(wěn)性，假設(shè)在短時(shí)間內(nèi)，各段管子的截面積且是常數(shù)。設(shè)第m段和第m+1段的聲管的截面積分別為Am、Am+1，設(shè)稱為“面積和差比〞，其取值范圍為-1<km<1。它實(shí)際上是線性預(yù)測的反射系數(shù)。26共振峰與舌位關(guān)系舌位上下決定了F1共振頻率。舌位越高，F(xiàn)1的頻率越低，反那么反之。舌位前后決定了F2共振頻率舌位越后，F(xiàn)2的頻率越低，反那么反之?！捕彻舱穹迥Ｐ吐暤辣灰暈橹C振腔，共振峰是腔體的諧振頻率271〕級(jí)聯(lián)共振峰模型〔適合于一般元音〕分解：282〕并聯(lián)型〔非一般元音和大多數(shù)輔音〕293、混合型〔結(jié)合級(jí)聯(lián)型和并聯(lián)型〕：幅度控制因子AB專為一些頻譜特性比較平坦的音素，如[f],[p],[b]所考慮的。30

聲道的終端為口和唇。從聲道輸出的是速度波，而語音信號(hào)是聲壓波，二者之倒比稱為輻射阻抗ZL。它表征口和唇的輻射效應(yīng)，也包括圓形的頭部的繞射效應(yīng)等。

口唇的輻射效應(yīng)可表示為：，它是一階后向差分。輻射模型R(z)是一階類高通濾波器的形式。3、輻射模型31完整的語音信號(hào)數(shù)字模型可以用三個(gè)子模型：鼓勵(lì)模型、聲道模型和輻射模型的串聯(lián)來表示。其轉(zhuǎn)移函數(shù)為：H(z)=U(z)V(z)R(z)這里，U(z)是鼓勵(lì)信號(hào)——聲門脈沖即斜三角波的形式；V(z)是聲道傳遞函數(shù)，既可以用聲管模型，也可以用共振峰模型來描述。在共振峰模型中，又可采用級(jí)聯(lián)型、并聯(lián)型或混合型等幾種形式；R(z)為輻射模型。4、完整的模型

聲門脈沖

聲道語音信號(hào)

激勵(lì)信號(hào)聲道濾波器語音信號(hào)頻譜傳遞函數(shù)頻譜韻母的產(chǎn)生過程332.5語音的質(zhì)量評(píng)估一類是音節(jié)以下(如音素、聲母、韻母)的語音單元的測試，這常稱為“清晰度〞測試；清晰度測試可以元音、輔音為根底或以聲母、韻母為根底，再根據(jù)音節(jié)成分算出音節(jié)清晰度。一類是音節(jié)以上(如詞、句)的語音單元的測試，常稱為“可懂度〞測試。語音質(zhì)量測試可分為兩類：

342.6語音信號(hào)的時(shí)頻特性分析漢語拼音“SouKe〞的時(shí)域波形采樣率8kHz3536372.7語音信號(hào)的語譜圖語譜儀：將語音信號(hào)(經(jīng)話筒變成了電信號(hào))送進(jìn)一排頻率依次相接的窄帶濾波器，各窄帶濾波器的輸出記錄在一卷按一定速度旋轉(zhuǎn)的記錄紙上(各濾波器的由低到高按頻率排列)，信號(hào)強(qiáng)那么記錄得濃黑一些，反之那么淺談一些。由此得到的即是語音信號(hào)的語譜圖，此圖的水平方向是時(shí)間軸，垂直方向是頻率軸，固上或深或淺的黑色條紋表征各個(gè)時(shí)刻的短時(shí)譜。38

自然語音a波形圖

自然語音a語譜圖

自然語音o波形圖

自然語音o語譜圖39語音信號(hào)具有時(shí)變特性，而在一個(gè)短時(shí)間范圍內(nèi)其特性根本保持不變即相對(duì)穩(wěn)定，因而可以將其看作是一個(gè)準(zhǔn)穩(wěn)態(tài)過程。語音的重要特性是它具有“短時(shí)性〞，所以對(duì)語音的分析和處理必須建立在“短時(shí)〞的根底上，即進(jìn)行“短時(shí)分析〞，§2.8語音信號(hào)的數(shù)字化與預(yù)處理語音信號(hào)處理系統(tǒng)框圖40數(shù)字化：放大、增益控制、反混疊濾波、采樣、A/D變換及編碼預(yù)處理：預(yù)加重、加窗、分幀、端點(diǎn)檢測①表示語音信號(hào)比較直觀、物理意義明確。②實(shí)現(xiàn)起來比較簡單、運(yùn)算量少。③可以得到語音的一些重要參數(shù)。④采用示波器等通用設(shè)備，使用較為簡單。時(shí)域分析的特點(diǎn)：411、預(yù)濾波、采樣、A/D變換目的：1、抑制輸入信號(hào)各頻域分量中頻率超出fs/2的所有分量，以防止混疊干擾；2、抑制50Hz工頻干擾。實(shí)現(xiàn)：帶通濾波器，上下邊帶截止頻率分別為、42采樣根據(jù)取樣定理，當(dāng)取樣頻率大于信號(hào)的兩倍帶寬時(shí)，取樣過程中不會(huì)喪失信息，且從取樣信號(hào)中可以精確地重構(gòu)原始信號(hào)波形。在信號(hào)的帶寬不明確時(shí)，在取樣前應(yīng)接入反混疊濾波器，使其帶寬限制在某個(gè)范圍內(nèi)。語音信號(hào)頻率范圍：300～3400Hz采樣率：8kHz～10kHz43量化：將輸入的整個(gè)幅值分成有限區(qū)間，把落入同一區(qū)間的波形樣本都量化成同一幅度值。44量化后的信號(hào)值與原信號(hào)之間的差值稱為量化誤差，又稱為量化噪聲。假設(shè)信號(hào)波形的變化足夠大或量化間隔足夠小時(shí)，可以證明量化噪聲符合具有以下特性的統(tǒng)計(jì)模型：①它是一個(gè)平穩(wěn)的白噪聲過程；②量化噪聲和輸入信號(hào)不相關(guān)；③量化噪聲在量化間隔內(nèi)均勻分布，即具有等概率密度分布。452、預(yù)處理預(yù)加重：原因：語音信號(hào)的平均功率譜受聲門鼓勵(lì)和口鼻輻射的影響，高頻端大約在800Hz以上按6dB／倍頻程跌落。目的：提升高頻局部，使信號(hào)的頻譜變得平坦，以便于進(jìn)行頻譜分析或聲道參數(shù)分析。位置：可在反混疊濾波之前進(jìn)行，這樣不僅能夠進(jìn)行預(yù)加重，而且可以壓縮信號(hào)的動(dòng)態(tài)范圍，有效地提高信噪比。也可在A／D變換之后進(jìn)行，用具有6dB／倍頻程的提升高頻特性的預(yù)加重?cái)?shù)字濾波器實(shí)現(xiàn)，它一般是一階的。式中值接近于1。

46加窗分幀：語音信號(hào)是一種典型的非平穩(wěn)信號(hào)，其特性是隨時(shí)間而變化的，但是語音的形成過程是與發(fā)音器官的運(yùn)動(dòng)密切相關(guān)的，這種物理運(yùn)動(dòng)比起聲音振動(dòng)速度來說要緩慢得多，因此語音信號(hào)常?？杉俣槎虝r(shí)平穩(wěn)的，即在10～30ms的時(shí)間段內(nèi)，其頻譜特性和物理特征參量可近似地看作是不變的，這樣，就可以采用平穩(wěn)過程的分析處理方法來處理了。由這個(gè)假定導(dǎo)出了各種“短時(shí)〞處理方法，以后討論的各種語音信號(hào)都是分隔為一些短段(幀)再加以處理。這些短段就好似是來自一個(gè)具有固定特性的持續(xù)語音片段一樣。47將語音分成短段的根本手段是對(duì)語音加窗，即用一個(gè)有限長度的窗序列截取一段語音信號(hào)來進(jìn)行分析。該窗函數(shù)可以按時(shí)間方向滑動(dòng)，以便分析任一時(shí)刻附近的信號(hào)。加窗運(yùn)算定義為：48幀長和幀移的例如49矩形窗：漢明窗：漢寧窗：50端點(diǎn)檢測：端點(diǎn)檢測是指從包含語音的一段信號(hào)中確定出語音的開始和終止點(diǎn)。有效的端點(diǎn)檢測不僅能使處理時(shí)間減到最小，而且能去除無聲段的噪聲干擾，從而使識(shí)別系統(tǒng)具有良好的識(shí)別性能。一個(gè)較好的端點(diǎn)檢測算法應(yīng)該能夠滿足：門限值可以對(duì)背景噪聲的變化有一定的適應(yīng)；能夠?qū)⒍虝r(shí)沖激噪聲和超過門限值的信號(hào)納入無聲段而不是有聲段；對(duì)于爆破音的寂靜段，應(yīng)將其納入語音的范圍而不是無聲段；應(yīng)該盡量防止在檢測中喪失鼻韻和弱摩擦音等與噪聲特性相似、短時(shí)參數(shù)較少的語音；應(yīng)該防止使用過零率作為判決標(biāo)準(zhǔn)，以免帶來負(fù)面影響。51傳統(tǒng)的端點(diǎn)檢測算法1.基于能量的端點(diǎn)檢測語音和噪音的主要區(qū)別在它們的能量上，語音段的能量比噪音段的大，語音段的能量是噪音段能量疊加語音聲波能量的和。傳統(tǒng)端點(diǎn)檢測算法認(rèn)為，如果環(huán)境噪聲和系統(tǒng)環(huán)境噪聲比較小，能夠保證系統(tǒng)的信噪比較高，那么只要計(jì)算輸入信號(hào)的短時(shí)能量或短時(shí)平均幅度就能把語音段和噪聲背景區(qū)分開。實(shí)際中信噪比較低。522.雙門限前端檢測法利用短時(shí)過零率來檢測清音，用短時(shí)能量來檢測濁音。雙門限法是考慮到語音開始以后總會(huì)出現(xiàn)能量較大的濁音，設(shè)一個(gè)較高的門限用以確定語音已開始，再取一比稍低的門限，用以確定真正的起止點(diǎn)及結(jié)束點(diǎn)。判斷清音與無話的差異，是采用另一個(gè)較低的門限，求越過該門限的“過零率〞。只要取得適宜，通常背景噪聲的低門限過零率將明顯低于語音的低門限過零率值。這種方法普遍地用于有話、無話鑒別或詞語前端檢測。533.基于噪聲動(dòng)態(tài)檢測的語音端點(diǎn)檢測算法54仿真實(shí)驗(yàn)及結(jié)果分析圖1“制約〞在零噪聲時(shí)的檢測結(jié)果圖2“１〞在參加少量噪聲時(shí)的檢測結(jié)果圖3“１〞在噪聲加大時(shí)的檢測結(jié)果圖4“１〞在噪聲進(jìn)一步加大時(shí)的檢測結(jié)果554.基于小波變換的語音端點(diǎn)檢測算法依據(jù)：小波系數(shù)可以反映語音信號(hào)在各個(gè)子帶內(nèi)沿時(shí)間軸的能量分布，通過處理又可以捕捉到語音段的邊界，因此可以利用小波變換來對(duì)語音信號(hào)進(jìn)行端點(diǎn)檢測，以到達(dá)區(qū)分語音段和非語音段的目的。56步驟：1)先將語音信號(hào)分成由1024個(gè)采樣點(diǎn)組成的幀；2)對(duì)每幀進(jìn)行10層小波分解；3)計(jì)算所選兩個(gè)子帶(子帶4和子帶5)的小波系數(shù)；4)計(jì)算兩個(gè)子帶的互相關(guān)系數(shù)；5)通過幀間平滑連接所有互相關(guān)系數(shù)成為一個(gè)和原信號(hào)長度相同的序列；6)計(jì)算序列前220個(gè)點(diǎn)(20ms)的最大值，把此最大值作為閾值；7)比較序列中各個(gè)點(diǎn)的值。假設(shè)小于閾值，那么記為靜音；假設(shè)大于閾值，那么記為語音；8)按照上述過程對(duì)語音信號(hào)進(jìn)行標(biāo)記，再濾掉個(gè)別誤判點(diǎn)，完成語音信號(hào)的端點(diǎn)檢測。575.基于循環(huán)神經(jīng)網(wǎng)絡(luò)的語音端點(diǎn)檢測算法

原理：選用一個(gè)三層的RNN，且隱層的輸出全部反響到輸入層。輸入的采樣語音信號(hào)被分成三種模式：濁音〔U〕、清音〔V〕、和背景噪聲〔N〕。選用的RNN神經(jīng)網(wǎng)絡(luò)輸出層有三個(gè)節(jié)點(diǎn)，對(duì)應(yīng)輸出的三種模式。58循環(huán)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)593〕仿真實(shí)驗(yàn)與結(jié)果分析針對(duì)白噪聲和汽車噪聲環(huán)境對(duì)數(shù)字0~9的語音數(shù)據(jù)進(jìn)行實(shí)驗(yàn)，用來做測試的語音文件每組50個(gè)，包括男生和女生發(fā)音，含有汽車噪聲的語音信號(hào)平均信噪比10dB和5dB，分別模擬汽車中速和高速行駛環(huán)境下的錄音。60實(shí)驗(yàn)室背景下基于能量和過零率的端點(diǎn)檢測結(jié)果61信噪比15dB時(shí)基于能量和過零率的檢測結(jié)果62信噪比15dB時(shí)基于小波變換的端點(diǎn)檢測結(jié)果63信噪比5dB時(shí)基于小波變換的端點(diǎn)檢測結(jié)果64信噪比5dB時(shí)基于循環(huán)神經(jīng)網(wǎng)絡(luò)小波變換的端點(diǎn)檢測結(jié)果

65方法測度白噪聲/dB汽車噪聲/dB0515510Energy0.620.750.800.720.780.530.610.780.590.690.590.720.780.680.75Wavelet0.850.900.990.870.900.700.820.980.770.800.810.880.990.840.87RNN0.900.951.000.910.920.750.880.980.820.850.860.920.990.880.92噪聲情況下各種語音端點(diǎn)檢測方法比較66

基于能量和過零率的端點(diǎn)檢測方法在實(shí)驗(yàn)室環(huán)境下可以獲得較好的端點(diǎn)檢測結(jié)果，隨著信噪比的降低該方法檢測的準(zhǔn)確率將隨之下降，基于小波變換和基于循環(huán)神經(jīng)網(wǎng)絡(luò)的端點(diǎn)檢測方法對(duì)于噪聲具有一定的魯棒性，但是隨著噪聲的明顯增大，小波變換的方法得到的檢測結(jié)果仍然有所下降，與之相比基于循環(huán)神經(jīng)網(wǎng)絡(luò)的方法的魯棒性要優(yōu)于基于小波變換的方法，具有很大的優(yōu)越性和實(shí)用性。

結(jié)果分析：672.8短時(shí)能量和平均幅度分析原理：語音信號(hào)能量隨時(shí)間有相當(dāng)大的變化，特別是清音段的能量一般比濁音段的小得多。

定義：1、短時(shí)能量分析68決定短時(shí)能量特性有兩個(gè)條件：不同的窗口的形狀和長度。

矩形窗：第一個(gè)零點(diǎn)：窗口形狀：窗長對(duì)分辨率的影響窗長越長，頻率分辨率越高，而時(shí)間分辨率越低69海明窗：第一個(gè)零點(diǎn)：矩形窗譜平滑性能好，但損失高頻成分，波形細(xì)節(jié)喪失，海明窗與之相反。70N=51的直角窗和海明窗的對(duì)數(shù)幅頻特性。海明窗的第一個(gè)零值頻率位置比直角窗要大1倍左右，同時(shí)其帶外衰減也比直角窗大得多。71這里窗長的選擇對(duì)于反映語音信號(hào)的幅度變化起著決定的作用。如果很大，它等效于很窄的低通濾波器，此時(shí)隨時(shí)間的變化很小，不能反映語音信號(hào)的幅度變化，信號(hào)的變化細(xì)節(jié)就看不出來；反之，窗長太小時(shí)，濾波器的通帶變寬，隨時(shí)間有急劇的變化，不能得到平滑的能量函數(shù)。窗口的長度：標(biāo)準(zhǔn)：一幀內(nèi)含有1～7個(gè)基音周期，10kHz取樣下，N取100～200點(diǎn)。722、短時(shí)平均幅度分析定義：框圖：優(yōu)點(diǎn)：1、對(duì)高電平信號(hào)不如En敏感；2、計(jì)算方法簡單。缺點(diǎn)：濁音和清音的區(qū)分不如En明顯。73短時(shí)平均能量和短時(shí)平均幅度的主要用途：

可以區(qū)分清音段與濁音段：En值大的對(duì)應(yīng)于濁音段，而En值小的對(duì)應(yīng)于清音段。En值的變化，可大致判定濁音變?yōu)榍逡艋蚯逡糇優(yōu)闈嵋舻臅r(shí)刻?？梢杂脕韰^(qū)分聲母與韻母的分界，無聲與有聲的分界，連字(指字之間無間隙)的分界等。作為一種超音段信息，用于語音識(shí)別中。

742.9短時(shí)過零分析定義：過零就是信號(hào)通過零值。連續(xù)語音信號(hào)，考察其時(shí)域波形通過時(shí)間軸的情況；離散時(shí)間信號(hào)，相鄰的取樣值改變符號(hào)那么稱為過零。語音信號(hào)序列是寬帶信號(hào)，那么不能簡單用上面的公式。75語音信號(hào)短時(shí)過零分析定義：其中：框圖：76短時(shí)過零分析的意義：可以區(qū)分清音與濁音：濁音時(shí)具有較低的平均過零數(shù)，而清音時(shí)具有較高的平均過零數(shù)。利用它可以從背景噪聲中找出語音信號(hào)，可用于判斷寂靜無語音和有語音的起點(diǎn)和終點(diǎn)位置。

在背景噪聲較小時(shí)用平均能量識(shí)別較為有效，而在背景噪聲較大時(shí)用平均過零數(shù)識(shí)別較為有效。

772.10語音信號(hào)的倒譜分析求語音倒譜特征參數(shù)，通過同態(tài)處理來實(shí)現(xiàn)。倒譜分析：運(yùn)用對(duì)數(shù)運(yùn)算和二次FFT/IFFT變換，將基音諧波和聲道的頻譜包絡(luò)別離出來，用低時(shí)窗從語音信號(hào)倒譜中截取出低倒譜域局部，可以更精確的反映聲道的響應(yīng)，得到共振峰。2、對(duì)原語音信號(hào)分析出一組預(yù)測系數(shù)，得到語音產(chǎn)生模型的頻率響應(yīng)。同態(tài)處理〔同態(tài)濾波〕：解卷，將卷積關(guān)系變?yōu)榍蠛吞幚怼⒄Z音信號(hào)的聲門鼓勵(lì)和聲道響應(yīng)別離開。78同態(tài)信號(hào)處理的根本原理信號(hào)分類：加性信號(hào)、乘積性信號(hào)、卷積性信號(hào)等。同態(tài)信號(hào)處理目的：將非線性問題轉(zhuǎn)化為線性問題來處理。同態(tài)信號(hào)處理分類：乘積同態(tài)處理和卷積同態(tài)處理兩種。79特征系統(tǒng)

D*反特征系統(tǒng)

D*-1：它是特征系統(tǒng)的反運(yùn)算卷積同態(tài)系統(tǒng)：80特征系統(tǒng)D*81反特征系統(tǒng)D*-1：82復(fù)倒譜和倒譜是一個(gè)時(shí)域序列，我們稱是x(n)的“復(fù)倒頻譜”，簡稱為“復(fù)倒譜”，有時(shí)也稱作對(duì)數(shù)復(fù)倒譜。所處的離散時(shí)域，稱之為“復(fù)倒譜域”。這樣，特征系統(tǒng)D*[]將離散時(shí)域中的卷積運(yùn)算轉(zhuǎn)換為復(fù)倒譜域中的加性運(yùn)算。進(jìn)行同態(tài)信號(hào)處理后，即可完成解卷的任務(wù)。若時(shí)域中有，則復(fù)倒譜域中。假設(shè)位于復(fù)倒譜域中不同的間隔內(nèi)并且互不交替，那么適當(dāng)?shù)卦O(shè)計(jì)線性系統(tǒng)，便可將x1(n)或x2(n)分離出來。83特征系統(tǒng)D*反特征系統(tǒng)D*-1c(n)是序列x(n)對(duì)數(shù)幅度譜的傅里葉逆變換，c(n)稱為“倒頻譜〞或簡稱為“倒譜〞，有時(shí)也稱“對(duì)數(shù)倒頻譜〞。84復(fù)倒譜和倒譜的特點(diǎn)和關(guān)系：1.復(fù)倒譜要進(jìn)行復(fù)對(duì)數(shù)運(yùn)算，倒譜只進(jìn)行實(shí)對(duì)數(shù)運(yùn)算。2.倒譜情況下，一個(gè)序列經(jīng)過正反兩個(gè)特征系統(tǒng)以后不能復(fù)原成自身，因

人人文庫> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

第2章語音技術(shù)概述

文檔簡介

溫馨提示

最新文檔

評(píng)論

第2章 語音技術(shù)概述

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔

第2章語音技術(shù)概述