語(yǔ)音識(shí)別方法及發(fā)展趨勢(shì)分析

上傳人：w*** IP屬地：安徽上傳時(shí)間：2022-05-04 格式：DOCX 頁(yè)數(shù)：10 大?。?9.38KB 積分：16 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩5頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、- -語(yǔ)音識(shí)別改進(jìn)方法及難點(diǎn)分析"模式識(shí)別"結(jié)課小論文學(xué)院：化工與環(huán)境學(xué)院學(xué)號(hào)：212021 1177XX：杜妮摘要：隨著計(jì)算機(jī)技術(shù)的不斷開展，人工智能程度也越來越高，作為人工智能的一局部模式識(shí)別也在模型和算法上愈發(fā)成熟。本文根據(jù)近105年文獻(xiàn)，分析最新聲音識(shí)別的方法和應(yīng)用。關(guān)鍵字：模式識(shí)別聲音識(shí)別方法應(yīng)用隨著人工智能的迅速開展，語(yǔ)音識(shí)別的技術(shù)越來越成為國(guó)內(nèi)外研究機(jī)構(gòu)的焦點(diǎn)。人們致力于能使機(jī)器能夠聽懂人類的話語(yǔ)指令，并希望通過語(yǔ)音實(shí)現(xiàn)對(duì)機(jī)器的控制。語(yǔ)音識(shí)別的研究開展將在不遠(yuǎn)的將來極大地方便人們的生活。語(yǔ)音識(shí)別大致的流程包括：特征提取、聲學(xué)模型訓(xùn)練、語(yǔ)音模型訓(xùn)練以及識(shí)別搜索算

2、法。作為一項(xiàng)人機(jī)交互的關(guān)鍵技術(shù)，語(yǔ)音識(shí)別在過去的幾十年里取得了飛速的開展，人們?cè)谘芯亢吞剿鬟^程中針對(duì)語(yǔ)音識(shí)別的各部流程進(jìn)展了各種各樣的嘗試和改造，以期發(fā)現(xiàn)更好的方法來完成語(yǔ)音識(shí)別流程中的各步驟，以此來促進(jìn)在不同環(huán)境下語(yǔ)音識(shí)別的效率和準(zhǔn)確率。本文通過查閱近10年國(guó)內(nèi)外文獻(xiàn)，分析目前語(yǔ)音識(shí)別流程中的技術(shù)進(jìn)展和趨勢(shì)，并在文章最后給出幾項(xiàng)語(yǔ)音識(shí)別在日常生活中的應(yīng)用案例，從而分析語(yǔ)音識(shí)別之后的市場(chǎng)走勢(shì)和實(shí)際利用價(jià)值。一、語(yǔ)音識(shí)別的改進(jìn)方法(一) 特征提取模塊改進(jìn)特征提取就是從語(yǔ)音信號(hào)中提取出語(yǔ)音的特征序列。提取的語(yǔ)音特征應(yīng)該能完全、準(zhǔn)確地表達(dá)語(yǔ)音信號(hào)，特征提取的目的是提取語(yǔ)音信號(hào)中能代表語(yǔ)音特征的信息，

3、減少語(yǔ)音識(shí)別時(shí)所要處理的數(shù)據(jù)量。語(yǔ)音信號(hào)的特征分析是語(yǔ)音信號(hào)處理的前提和根底，只有分析出可以代表語(yǔ)音信號(hào)本質(zhì)特征的參數(shù)，才能對(duì)這些參數(shù)進(jìn)展高效的語(yǔ)音通信，語(yǔ)音合成，和語(yǔ)音識(shí)別等處理，并且語(yǔ)音合成的好壞，語(yǔ)音識(shí)別率的上下，也都取決于語(yǔ)音特征提取的準(zhǔn)確性和魯棒性。目前，針對(duì)特定應(yīng)用的中小詞匯量、特定人的語(yǔ)音識(shí)別技術(shù)開展已較為成熟，已經(jīng)能夠滿足通常應(yīng)用的要求，并逐步投入了實(shí)用。而非特定人、大詞匯量、連續(xù)語(yǔ)音識(shí)別仍是目前階段語(yǔ)音識(shí)別研究的重點(diǎn)和難點(diǎn)【1】。由于考慮到人耳的聽覺特性， Mel 倒譜系數(shù)或感知線性預(yù)測(cè)系數(shù)【2】已經(jīng)成為目前主流的語(yǔ)音特征向量提取方法之一，加上它們的一階、二階差分以及對(duì)特征向

4、量進(jìn)展歸一化處理以后，在大詞匯量連續(xù)語(yǔ)音識(shí)別問題上取得不錯(cuò)的結(jié)果。語(yǔ)音識(shí)別技術(shù)中最流行的特征參數(shù)時(shí)基于聲道模型和聽覺機(jī)理的LPCC(LinearPredictive Cepstral Coeficients)和MFCC(Mel Frequency Cepstralcocficients)參數(shù)，而MFCC在低頻段具有較高的譜分辨率，對(duì)噪聲的魯棒性優(yōu)于LPCC，更適合語(yǔ)音識(shí)別。但與人聽覺系統(tǒng)非凡的感知能力比較，不管是LPCC還是MFCC參數(shù)，在不利的噪聲環(huán)境下，其魯棒性都會(huì)急劇下降。如何在特征提取過程中抽取保持語(yǔ)音信號(hào)最重要的特征參數(shù)，成為一個(gè)急需解決的問題。對(duì)語(yǔ)音識(shí)別實(shí)際應(yīng)用過程中的噪聲問題，付

5、麗輝給出了一種新的抗噪聲的特征提取算法，即先利用小波變換將語(yǔ)音信號(hào)進(jìn)展小波子帶分解，再根據(jù)人耳的聽覺掩蔽效應(yīng)，由譜壓縮的技術(shù)，將小波變換后的子帶語(yǔ)音信號(hào)進(jìn)展壓縮，從而提取其對(duì)應(yīng)的語(yǔ)音特征。通過MATLAB軟件建立實(shí)驗(yàn)平臺(tái)，仿真實(shí)驗(yàn)結(jié)果說明該語(yǔ)音特征可以在噪聲環(huán)境下得到較高的識(shí)別率。新的特征參數(shù)即充分利用了小波的抗噪聲特性又有效地降低了語(yǔ)音識(shí)別中的訓(xùn)練環(huán)境和識(shí)別環(huán)境間的失配，具有抗噪聲的特點(diǎn)【3】。為抑制FIR濾波器存在的通阻帶特性差、濾波器階次高等缺點(diǎn)給語(yǔ)音識(shí)別系統(tǒng)帶來的不利影響，黃麗霞等人采用Laguerre濾波器組代替過零峰值幅度特征提取中使用的FIR濾波器組進(jìn)展前端處理。在仔細(xì)研究FIR

6、濾波器參數(shù)確定方法的根底上，詳細(xì)介紹了La-guerre濾波器原理及參數(shù)計(jì)算方法，并給出了計(jì)算結(jié)果。孤立詞、非特定人語(yǔ)音識(shí)別實(shí)驗(yàn)結(jié)果說明，使用Laguerre濾波器不僅使識(shí)別系統(tǒng)抗噪性能優(yōu)于使用FIR濾波器，而且濾波器階數(shù)也大為下降【4】。陳斌等人提出了一種基于最小分類錯(cuò)誤(Minimum classification error，MCE)準(zhǔn)那么的線性判別分析方法(Linear discriminant analysis， LDA)，并將其應(yīng)用到連續(xù)語(yǔ)音識(shí)別中的特征變換。該方法采用非參數(shù)核密度估計(jì)方法進(jìn)展數(shù)據(jù)概率分布估計(jì)；根據(jù)得到的概率分布，在最小分類錯(cuò)誤準(zhǔn)那么下，采用基于梯度下降的線性搜索算

7、法求解判別分析變換矩陣。利用判別分析變換矩陣對(duì)相鄰幀梅爾濾波器組輸出拼接的超矢量變換降維，得到時(shí)頻特征。實(shí)驗(yàn)結(jié)果說明，與傳統(tǒng)的MFCC特征相比，經(jīng)過本文判別分析提取的時(shí)頻特征其識(shí)別準(zhǔn)確率提高了1。41%，相比于HLDA(Heteroscedastic LDA)和近似成對(duì)經(jīng)歷正確率準(zhǔn)那么(Approximate pairwise empirical accuracy criterion，aPEAC)判別分析方法，識(shí)別準(zhǔn)確率分別提高了1.14%和0.83%【5】。(二) 聲學(xué)模型訓(xùn)練改善聲學(xué)模型是語(yǔ)音識(shí)別系統(tǒng)的底層模型，是語(yǔ)音識(shí)別系統(tǒng)中最為關(guān)鍵的一局部。其目標(biāo)就是提供一種有效的方法，計(jì)算語(yǔ)音的特征

8、矢量序列和每一個(gè)發(fā)音模板之間的距離。傳統(tǒng)的聲學(xué)建模方式大都基于隱馬爾科夫框架，采用混合高斯模型Guassian mixture model，GMM來描述語(yǔ)音聲學(xué)特征的概率分布。針對(duì)傳統(tǒng)的“隱馬爾科夫模型-高斯混合模型聲學(xué)模型，目前常用的解決方案有: 構(gòu)造化協(xié)方差矩陣/精度矩陣建模方法【6】，即假設(shè)不同協(xié)方差矩陣或其精度矩陣由假設(shè)干個(gè)低秩(通常是秩為1 的) 基矩陣的線性疊加得到，各高斯混元通過某種方式共享一組一樣的基矩陣；本征三音子(Eigentriphone) 建模方法【7】，將上下文相關(guān)狀態(tài)進(jìn)展聚類，將每一類狀態(tài)的均值矢量限定在一個(gè)線性子空間中，通過估計(jì)子空間中的低維坐標(biāo)矢量來重構(gòu)狀態(tài)的均

9、值矢量，從而得到更為準(zhǔn)確的參數(shù)估計(jì)；子空間高斯混合模型(Subspace Gaussian mixture model， SGMM)【8】，將高斯混元的均值和權(quán)重限制在一個(gè)全局參數(shù)子空間中，因此每一個(gè)狀態(tài)可以用一個(gè)或假設(shè)干個(gè)低維參數(shù)子空間中的矢量來表示，從而提高模型參數(shù)估計(jì)的穩(wěn)健性。與傳統(tǒng)的高斯混合模型相比，SGMM 聲學(xué)模型大大壓縮了模型尺寸，并且可以利用集外數(shù)據(jù)對(duì)參數(shù)子空間進(jìn)展估計(jì)，因此特別適用于訓(xùn)練數(shù)據(jù)量受限條件下的語(yǔ)音識(shí)別【9】。X文林等人提出從語(yǔ)音信號(hào)聲學(xué)特征空間的非線性流形構(gòu)造特點(diǎn)出發(fā)，利用流形上的壓縮感知原理，構(gòu)建新的語(yǔ)音識(shí)別聲學(xué)模型。將特征空間劃分為多個(gè)局部區(qū)域，對(duì)每個(gè)局部區(qū)域

10、用一個(gè)低維的因子分析模型進(jìn)展近似，從而得到混合因子分析模型。將上下文相關(guān)狀態(tài)的觀測(cè)矢量限定在該非線性低維流形構(gòu)造上，推導(dǎo)得到其觀測(cè)概率模型。最終每個(gè)狀態(tài)由一個(gè)服從稀疏約束的權(quán)重矢量和假設(shè)干個(gè)服從標(biāo)準(zhǔn)正態(tài)分布的低維局部因子矢量所決定。基于RM 語(yǔ)料庫(kù)的連續(xù)語(yǔ)音識(shí)別實(shí)驗(yàn)說明，相比于傳統(tǒng)的高斯混合模型(Gaussian mixture model，GMM) 和子空間高斯混合模型(Subspace Gaussian mixture model， SGMM)，新聲學(xué)模型在測(cè)試集上的平均詞錯(cuò)誤率(Word error rate，WER) 分別相對(duì)下降了33。1% 和9。2 %【10】。由于隱馬爾科夫?qū)儆诘?/p>

11、型的淺層學(xué)習(xí)構(gòu)造，僅含單個(gè)將原始輸入信號(hào)轉(zhuǎn)換到特定問題空間特征的簡(jiǎn)單構(gòu)造，而目前識(shí)別挑戰(zhàn)越來越嚴(yán)峻，在大量的數(shù)據(jù)下其性能將會(huì)受到限制。隨著人工智能的進(jìn)一步開展，人們開場(chǎng)利用人工神經(jīng)網(wǎng)絡(luò)artificial neural network，ANN來模擬人類大腦存儲(chǔ)及處理信息的相應(yīng)模型。目前，微軟、IBM、Goolge等許多國(guó)際知名語(yǔ)音研究機(jī)構(gòu)都投入了大量的經(jīng)歷開展深層神經(jīng)網(wǎng)絡(luò)的研究。近年來，微軟利用上下文相關(guān)的深層神經(jīng)網(wǎng)context dependent deep neural network，CD-DNN進(jìn)展聲學(xué)模型建模，并在大詞匯連續(xù)語(yǔ)音識(shí)別上取得相對(duì)于經(jīng)鑒別性訓(xùn)練HMM系統(tǒng)有句錯(cuò)誤率相對(duì)下降

12、23.2%的性能改善，掀起了深層神經(jīng)網(wǎng)絡(luò)在語(yǔ)音識(shí)別領(lǐng)域的熱潮【11】。為了抑制經(jīng)典語(yǔ)音識(shí)別建模方式在大數(shù)據(jù)環(huán)境下的局限性，X晴晴等人提出利用卷積神經(jīng)網(wǎng)絡(luò)來完成海量數(shù)據(jù)下的語(yǔ)音識(shí)別。她提出，音識(shí)別中，卷積神經(jīng)網(wǎng)絡(luò)( Convolutionalneural networks， Ns)相比于目前廣泛使用的深層神經(jīng)網(wǎng)絡(luò)(deep neural network，DNNs)，能在保證性能的同時(shí)，大大壓縮模型的尺寸。她在文章中深入分析了卷積神經(jīng)網(wǎng)絡(luò)中卷積層和聚合層的不同構(gòu)造對(duì)識(shí)別性能的影響情況，并與目前廣泛使用的深層神經(jīng)網(wǎng)絡(luò)模型進(jìn)展了比照。在標(biāo)準(zhǔn)語(yǔ)音識(shí)別庫(kù)TIMIT以及大詞表非特定人自然口語(yǔ)對(duì)話數(shù)據(jù)庫(kù)上的實(shí)

13、驗(yàn)結(jié)果證明，相比傳統(tǒng)深層神經(jīng)網(wǎng)絡(luò)模型，卷積神經(jīng)網(wǎng)絡(luò)明顯降低模型規(guī)模的同時(shí)，識(shí)別性能更好，且泛化能力更強(qiáng)【11】。(三) 語(yǔ)音模型訓(xùn)練改進(jìn)隨著語(yǔ)音識(shí)別技術(shù)的不斷開展，語(yǔ)言模型在語(yǔ)音識(shí)別中的作用也顯得越來越重要。由于聲學(xué)信號(hào)的動(dòng)態(tài)時(shí)變、瞬時(shí)和隨機(jī)性，單靠聲學(xué)模式的匹配與判斷不可能完成語(yǔ)音的無誤的識(shí)別和理解。一些較高層次的語(yǔ)言知識(shí)的利用可以在聲學(xué)識(shí)別的層次上減少模式匹配的模糊性，從而提高識(shí)別的準(zhǔn)確性。并且一個(gè)大詞匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng)必須在每一時(shí)刻檢測(cè)是否遇到語(yǔ)音發(fā)音邊界，這樣許多不同的字或詞將會(huì)從不同的語(yǔ)音流中識(shí)別出來。為了消除這些字或詞之間的模糊性，語(yǔ)言模型是必不可少的。語(yǔ)言模型可以提供字或詞之間

14、的上下文信息和語(yǔ)義信息。語(yǔ)言模型不僅用在語(yǔ)音識(shí)別系統(tǒng)中，而且可以用在機(jī)器翻譯、信息檢索等研究領(lǐng)域【13】【14】。基于隱馬爾科夫模型的參數(shù)語(yǔ)音合成系統(tǒng)，在采用線譜對(duì)參數(shù)表征語(yǔ)音頻譜特征時(shí)，傳統(tǒng)MGE訓(xùn)練中使用的歐氏距離生成誤差計(jì)算方法并不能較好地反映生成頻譜與自然頻譜之間的真實(shí)距離。因此雷鳴等人提出一種基于感知加權(quán)線譜對(duì)(Line Spectral Pair，LSP)距離的最小生成誤差(Minimum Generation Error，MGE)模型訓(xùn)練方法，采用與譜參數(shù)無關(guān)的對(duì)數(shù)譜間距(Log Spectral Distortion，LSD)定義的生成誤差函數(shù)來改善這一問題，但改進(jìn)后主觀效果不

15、明顯，且運(yùn)算復(fù)雜度很高【15】。為了抑制語(yǔ)音身份確認(rèn)中語(yǔ)音分割、特征提取和魯棒性差的困難，X秉誠(chéng)等人在深入分析叩齒聲音波形特性后，提出一種了一種利用叩齒聲音進(jìn)展身份確認(rèn)的方法這種方法使用二階微分方程建立齒震動(dòng)發(fā)聲的近似模型，以此為根底提出基于叩齒聲音信號(hào)的身份確認(rèn)方法。經(jīng)過實(shí)驗(yàn)證明，叩齒聲音信號(hào)穩(wěn)定性強(qiáng)，處理復(fù)雜度低于聲紋信號(hào)，應(yīng)用于身份識(shí)別性能優(yōu)良。該方法和經(jīng)典的支持向量機(jī)、最近鄰算法相比，運(yùn)算量低，所需訓(xùn)練樣本少。【15】(四) 識(shí)別搜索算法改進(jìn)搜索就是在由語(yǔ)句構(gòu)成的空間當(dāng)中，按照一定的優(yōu)化準(zhǔn)那么，尋找最優(yōu)句子的過程，也就是利用已掌握的知識(shí)聲學(xué)知識(shí)、語(yǔ)音學(xué)知識(shí)、詞典知識(shí)、語(yǔ)言模型知識(shí)以及語(yǔ)

16、法語(yǔ)義知識(shí)等，在狀態(tài)指的是詞組、詞、建模單元或HMM 的狀態(tài)空間中找到最優(yōu)的狀態(tài)序列。近年來，由于信息技術(shù)和互聯(lián)網(wǎng)技術(shù)的飛速開展，人們?cè)絹碓蕉嗟乩们度胧奖銛y設(shè)備作為獲取信息的工具。而語(yǔ)音識(shí)別技術(shù)作為自然方便的人機(jī)交互手段，也已經(jīng)應(yīng)用于越來越多的嵌入式設(shè)備上。但是由于嵌入式設(shè)備的系統(tǒng)資源配置與PC有著很大的不同，其對(duì)計(jì)算復(fù)雜度和內(nèi)存消耗有著更為苛刻的限制，尤其是嵌入式設(shè)備為滿足其低功耗一般都采用盡可能小的動(dòng)態(tài)內(nèi)存。所以一些較成熟的PC上的語(yǔ)音識(shí)別任務(wù)往往受限于嵌入式設(shè)備自身有限的計(jì)算能力和存儲(chǔ)量?！?7】目前世界上主流的語(yǔ)音識(shí)別系統(tǒng)根本是采用HMM框架?；贖MM的語(yǔ)音識(shí)別系統(tǒng)通常由聲學(xué)模型、

17、發(fā)音詞典、搜索空間、搜索算法模塊組成。其中搜索算法是決定系統(tǒng)性能的關(guān)鍵，它決定了如何使用各種資源，而搜索算法又和搜索空間密不可分，搜索空間的構(gòu)造不僅本身影響著內(nèi)存的占用，而且也影響著搜索的效率。傳統(tǒng)的狀態(tài)樹搜索算法18是讓每個(gè)詞條通過查找發(fā)音字典取得音素序列，音素序列根據(jù)聲學(xué)模型里面的決策樹19得到相應(yīng)的音素狀態(tài)序列。狀態(tài)搜索樹的合并策略是如果兩個(gè)單詞的音素狀態(tài)序列前綴一致，合并一樣的局部，虛節(jié)點(diǎn)不允許合并。解碼搜索過程中采用基于時(shí)間同步的令牌傳遞(token passing)算法20。開場(chǎng)識(shí)別時(shí)在root節(jié)點(diǎn)放置一個(gè)初始令牌(token)，之后每來一幀語(yǔ)音數(shù)據(jù)，在已有的搜索空間中按其拓?fù)漤樞?/p>

18、進(jìn)展令牌傳遞，每一個(gè)令牌記錄識(shí)別得分并且包括回溯信息。識(shí)別過程中為了加快搜索速度，采用動(dòng)態(tài)束剪枝搜索算法21僅使得分較高的令牌繼續(xù)傳遞；識(shí)別完畢時(shí)從詞尾節(jié)點(diǎn)處取得得分最高的令牌并將其回溯，即可得到首選識(shí)別結(jié)果。邵健等于提出了一種新的高效的樹搜索算法，即在原有的基于狀態(tài)音素搜索樹中合并沒有分枝的連續(xù)的單兒子節(jié)點(diǎn)序列成一個(gè)節(jié)點(diǎn)，稱之為超音素節(jié)點(diǎn)，超音素節(jié)點(diǎn)需要保存被合并的多個(gè)節(jié)點(diǎn)的狀態(tài)信息，用狀態(tài)音素序列來表示。對(duì)于SP節(jié)點(diǎn)和詞標(biāo)示節(jié)點(diǎn)這兩類特殊節(jié)點(diǎn)同樣不作合并。實(shí)現(xiàn)了基于超音素搜索樹的詞條動(dòng)態(tài)添加和刪除功能，使得內(nèi)存占用減少為狀態(tài)樹搜索的40%【22】。2021年蔡塔等人提出了嵌入式語(yǔ)音識(shí)別中一

19、種高效的圖搜索算法，通過別離聲學(xué)層和詞法層來構(gòu)建2層圖搜索空間,其中聲學(xué)層記錄聲學(xué)模型相關(guān)信息,詞法層記錄詞表語(yǔ)法信息.利用這樣簡(jiǎn)潔的搜索空間可以使語(yǔ)音識(shí)別的解碼過程更加緊湊有效.實(shí)驗(yàn)結(jié)果說明,與基線系統(tǒng)相比,所提出的雙層圖搜索算法在系統(tǒng)解碼速度相對(duì)提高10%的情況下,系統(tǒng)的動(dòng)態(tài)內(nèi)存占用僅為基線的8%.【23】二、語(yǔ)音識(shí)別的開展分析語(yǔ)音識(shí)別的應(yīng)用范圍極為廣泛，可應(yīng)用于各行各業(yè)，如醫(yī)療衛(wèi)生效勞、語(yǔ)音撥號(hào)、智能玩具、智能家居、賓館效勞、軍事監(jiān)聽、股票交易、翻譯系統(tǒng)、汽車導(dǎo)航、信息網(wǎng)絡(luò)查詢、工業(yè)控制等等。語(yǔ)音識(shí)別廣泛涉及聲學(xué)、語(yǔ)言學(xué)、語(yǔ)音學(xué)、生理科學(xué)、數(shù)字信號(hào)處理、通信理論、電子技術(shù)、計(jì)算機(jī)科學(xué)、模

20、式識(shí)別和人工智能等眾多學(xué)科【24】。雖然語(yǔ)音識(shí)別近30年內(nèi)得到了極大地開展，也取得了較為廣泛的應(yīng)用，但應(yīng)該看到，語(yǔ)音識(shí)別依然存在很多問題需要我們解決：(一) 語(yǔ)音識(shí)別難點(diǎn)問題分析語(yǔ)音識(shí)別還做不到使機(jī)器能如同人類一樣能“聽懂或理解自然語(yǔ)言，像人與人之間的語(yǔ)言交流一樣。主要原因是目前研究工作進(jìn)展緩慢，主要技術(shù)理論沒有突破。雖然各種新的修正方法不斷出現(xiàn)，但其普遍性和實(shí)用性還存在問題。具體的來說有如下：l、語(yǔ)音識(shí)別系統(tǒng)的魯棒性差，對(duì)環(huán)境依賴嚴(yán)重；2、語(yǔ)音識(shí)別系統(tǒng)的靈活性差，不能適應(yīng)人類靈活、自然的說話方式；3、連續(xù)語(yǔ)音流中語(yǔ)音信號(hào)的聲學(xué)特征隨與之前后相連的語(yǔ)音的不同而有很大的變化，且各語(yǔ)音單位之間不存

21、在明顯的界限，語(yǔ)音切分很困難；4、語(yǔ)音特征變化大。語(yǔ)音特征隨發(fā)音人的不同、發(fā)音人生理或心理狀態(tài)的變化而有很大的差異；5、語(yǔ)音的模糊性，同音詞大量而普遍存在；6、對(duì)韻律信息的利用缺乏；韻律信息指的是說話之中的重音、語(yǔ)調(diào)等超音段信息；如何在語(yǔ)音識(shí)別中結(jié)合韻律信息還有待進(jìn)一步的研究；7、自然語(yǔ)言的多變性難以借助于一些根本語(yǔ)法規(guī)那么進(jìn)展描述，語(yǔ)法、語(yǔ)義規(guī)那么定義困難。(二) 漢語(yǔ)語(yǔ)音識(shí)別特點(diǎn)與難點(diǎn)分析對(duì)于漢語(yǔ)語(yǔ)音識(shí)別來說除具有一般語(yǔ)音識(shí)別的特點(diǎn)外，還有其獨(dú)特的方面，因?yàn)椋?、漢語(yǔ)字以單音節(jié)為單位，發(fā)音時(shí)間短，不像英語(yǔ)以多音節(jié)為主；2、漢語(yǔ)有大量的同音字；漢語(yǔ)由60個(gè)左右的聲母和韻母組成40多個(gè)無調(diào)音節(jié)

22、和1200多個(gè)有調(diào)音節(jié)，音節(jié)與音節(jié)之間相似性大、易混淆；3、中國(guó)民族眾多，不同地區(qū)之間發(fā)音變化很大，方言多；4、漢語(yǔ)的字詞不分使得詞的切分成為漢語(yǔ)語(yǔ)言理解與處理獨(dú)有和首要的問題；5、靈活自由的語(yǔ)言表述難以用漢語(yǔ)語(yǔ)言知識(shí)表示方法來表達(dá)。技術(shù)效勞于生活，生活產(chǎn)生需要，需要又將進(jìn)一步反作用于技術(shù)開展。根據(jù)對(duì)目前語(yǔ)音識(shí)別的技術(shù)困難分析，想必語(yǔ)音識(shí)別領(lǐng)域未來將針對(duì)以上種種語(yǔ)音識(shí)別中存在的困難和壁壘，做出新的成果。參考文獻(xiàn)【1】. 王炳錫，屈丹，彭煊，"實(shí)用語(yǔ)音識(shí)別根底"M國(guó)防工業(yè)2005年1月，5657【2】. Dahl G E，Yu D。context-dependent pre-

23、trained deep neutral networks for large-vovabulary speech recognition。 IEEE Trans Audio Speech Lang Process，2021，201：30【3】. 付麗輝抗噪聲的小波譜壓縮特征提取算法在語(yǔ)音識(shí)別中的應(yīng)用。J。量子電子學(xué)報(bào)。第4期。2021【4】. 黃麗霞，X雪英Laguerre濾波器在抗噪語(yǔ)音識(shí)別特征提取中的應(yīng)用J。計(jì)算機(jī)工程與應(yīng)用。第四期。2021【5】. 陳斌等?；贛CE準(zhǔn)那么的語(yǔ)音識(shí)別特征線性判別分析J。自動(dòng)化學(xué)報(bào)。第40卷第6期。2021年6月。【6】. Povey D， Burge

24、t L， Agarwal M， Akyazi P， Kai F， GhoshalA， Glembek O， Goel N， Kara¯µat M， Rastrow A， Rose RC， Schwarz P， Thomas S。 The subspace Gaussian mixturemodel a structured model for speech recognition。puter Speech & Language，2021， 25(2): 404-439【7】. Ko T， Mak B。 Eigentriphones for context-depen

25、dent acoustic modeling。 IEEE Transactions on Audio， Speech， andLanguage Processing，2021， 21(6): 1285-1294【8】. Olsen P A， Gopinath R A。 Modeling inverse covariance ma-trices by basis expansion。 IEEE Transactions on Speech and Audio Processing， 2004， 12(1): 37-46【9】. Qi J， Wang D， Tejedor J。 Subspace

26、models for bottleneckfeatures。 In: Proceedings of the 14th Annual Conference ofthe International Speechmunication Association。 Lyon，F(xiàn)rance: ISCA，2021。 1746-1750【10】. X文林?；诼晫W(xué)特征空間非線性流形構(gòu)造的語(yǔ)音識(shí)別聲學(xué)模型【J】，自動(dòng)化學(xué)報(bào)。第41卷第5期，2021 ，12【11】. Dahl G E，Yu D。context-dependent pre-trained deep neutral networks for larg

27、e-vovabulary speech recognition。 IEEE Trans Audio Speech Lang Process，2021，201：30【12】. X晴晴。卷積神經(jīng)網(wǎng)絡(luò)的連續(xù)語(yǔ)音識(shí)別J。工程科學(xué)學(xué)報(bào)。第37卷，第9期，1212-1217，2021 年9月【13】. Croft ，W。B。and J 。Lafferty ，Language Modeling forInformatioanRetrieval M 。2003 :Kluwer-AcademicPublishers【14】. Ney ， H 。， One decade o f statistical machi

28、ne translationn:1996-2005 C / IEEE Workshop on AutomaticSpeech Recognition and Understanding (Asru )，2005 :2-2?！?5】. Lei Ming。Minimum Generation Error Training Based on Perceptually Weighted Line Spectral Pair Distance for Statistical Parametric Speech Synthesis。J。2021:Pattern Recognition and Artificial Int

人人文庫(kù)> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

語(yǔ)音識(shí)別方法及發(fā)展趨勢(shì)分析

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

語(yǔ)音識(shí)別方法及發(fā)展趨勢(shì)分析

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔