版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、- -語(yǔ)音識(shí)別改進(jìn)方法及難點(diǎn)分析"模式識(shí)別"結(jié)課小論文學(xué)院:化工與環(huán)境學(xué)院學(xué)號(hào):212021 1177XX:杜妮摘要:隨著計(jì)算機(jī)技術(shù)的不斷開展,人工智能程度也越來越高,作為人工智能的一局部模式識(shí)別也在模型和算法上愈發(fā)成熟。本文根據(jù)近105年文獻(xiàn),分析最新聲音識(shí)別的方法和應(yīng)用。關(guān)鍵字:模式識(shí)別聲音識(shí)別方法應(yīng)用隨著人工智能的迅速開展,語(yǔ)音識(shí)別的技術(shù)越來越成為國(guó)內(nèi)外研究機(jī)構(gòu)的焦點(diǎn)。人們致力于能使機(jī)器能夠聽懂人類的話語(yǔ)指令,并希望通過語(yǔ)音實(shí)現(xiàn)對(duì)機(jī)器的控制。語(yǔ)音識(shí)別的研究開展將在不遠(yuǎn)的將來極大地方便人們的生活。語(yǔ)音識(shí)別大致的流程包括:特征提取、聲學(xué)模型訓(xùn)練、語(yǔ)音模型訓(xùn)練以及識(shí)別搜索算
2、法。作為一項(xiàng)人機(jī)交互的關(guān)鍵技術(shù),語(yǔ)音識(shí)別在過去的幾十年里取得了飛速的開展,人們?cè)谘芯亢吞剿鬟^程中針對(duì)語(yǔ)音識(shí)別的各部流程進(jìn)展了各種各樣的嘗試和改造,以期發(fā)現(xiàn)更好的方法來完成語(yǔ)音識(shí)別流程中的各步驟,以此來促進(jìn)在不同環(huán)境下語(yǔ)音識(shí)別的效率和準(zhǔn)確率。本文通過查閱近10年國(guó)內(nèi)外文獻(xiàn),分析目前語(yǔ)音識(shí)別流程中的技術(shù)進(jìn)展和趨勢(shì),并在文章最后給出幾項(xiàng)語(yǔ)音識(shí)別在日常生活中的應(yīng)用案例,從而分析語(yǔ)音識(shí)別之后的市場(chǎng)走勢(shì)和實(shí)際利用價(jià)值。一、語(yǔ)音識(shí)別的改進(jìn)方法(一) 特征提取模塊改進(jìn)特征提取就是從語(yǔ)音信號(hào)中提取出語(yǔ)音的特征序列。提取的語(yǔ)音特征應(yīng)該能完全、準(zhǔn)確地表達(dá)語(yǔ)音信號(hào),特征提取的目的是提取語(yǔ)音信號(hào)中能代表語(yǔ)音特征的信息,
3、減少語(yǔ)音識(shí)別時(shí)所要處理的數(shù)據(jù)量。語(yǔ)音信號(hào)的特征分析是語(yǔ)音信號(hào)處理的前提和根底,只有分析出可以代表語(yǔ)音信號(hào)本質(zhì)特征的參數(shù),才能對(duì)這些參數(shù)進(jìn)展高效的語(yǔ)音通信,語(yǔ)音合成,和語(yǔ)音識(shí)別等處理,并且語(yǔ)音合成的好壞,語(yǔ)音識(shí)別率的上下,也都取決于語(yǔ)音特征提取的準(zhǔn)確性和魯棒性。目前,針對(duì)特定應(yīng)用的中小詞匯量、特定人的語(yǔ)音識(shí)別技術(shù)開展已較為成熟,已經(jīng)能夠滿足通常應(yīng)用的要求,并逐步投入了實(shí)用。而非特定人、大詞匯量、連續(xù)語(yǔ)音識(shí)別仍是目前階段語(yǔ)音識(shí)別研究的重點(diǎn)和難點(diǎn)【1】。由于考慮到人耳的聽覺特性, Mel 倒譜系數(shù)或感知線性預(yù)測(cè)系數(shù)【2】已經(jīng)成為目前主流的語(yǔ)音特征向量提取方法之一,加上它們的一階、二階差分以及對(duì)特征向
4、量進(jìn)展歸一化處理以后,在大詞匯量連續(xù)語(yǔ)音識(shí)別問題上取得不錯(cuò)的結(jié)果。語(yǔ)音識(shí)別技術(shù)中最流行的特征參數(shù)時(shí)基于聲道模型和聽覺機(jī)理的LPCC(LinearPredictive Cepstral Coeficients)和MFCC(Mel Frequency Cepstralcocficients)參數(shù),而MFCC在低頻段具有較高的譜分辨率,對(duì)噪聲的魯棒性優(yōu)于LPCC,更適合語(yǔ)音識(shí)別。但與人聽覺系統(tǒng)非凡的感知能力比較,不管是LPCC還是MFCC參數(shù),在不利的噪聲環(huán)境下,其魯棒性都會(huì)急劇下降。如何在特征提取過程中抽取保持語(yǔ)音信號(hào)最重要的特征參數(shù),成為一個(gè)急需解決的問題。對(duì)語(yǔ)音識(shí)別實(shí)際應(yīng)用過程中的噪聲問題,付
5、麗輝給出了一種新的抗噪聲的特征提取算法,即先利用小波變換將語(yǔ)音信號(hào)進(jìn)展小波子帶分解,再根據(jù)人耳的聽覺掩蔽效應(yīng),由譜壓縮的技術(shù),將小波變換后的子帶語(yǔ)音信號(hào)進(jìn)展壓縮,從而提取其對(duì)應(yīng)的語(yǔ)音特征。通過MATLAB軟件建立實(shí)驗(yàn)平臺(tái),仿真實(shí)驗(yàn)結(jié)果說明該語(yǔ)音特征可以在噪聲環(huán)境下得到較高的識(shí)別率。新的特征參數(shù)即充分利用了小波的抗噪聲特性又有效地降低了語(yǔ)音識(shí)別中的訓(xùn)練環(huán)境和識(shí)別環(huán)境間的失配,具有抗噪聲的特點(diǎn)【3】。為抑制FIR濾波器存在的通阻帶特性差、濾波器階次高等缺點(diǎn)給語(yǔ)音識(shí)別系統(tǒng)帶來的不利影響,黃麗霞等人采用Laguerre濾波器組代替過零峰值幅度特征提取中使用的FIR濾波器組進(jìn)展前端處理。在仔細(xì)研究FIR
6、濾波器參數(shù)確定方法的根底上,詳細(xì)介紹了La-guerre濾波器原理及參數(shù)計(jì)算方法,并給出了計(jì)算結(jié)果。孤立詞、非特定人語(yǔ)音識(shí)別實(shí)驗(yàn)結(jié)果說明,使用Laguerre濾波器不僅使識(shí)別系統(tǒng)抗噪性能優(yōu)于使用FIR濾波器,而且濾波器階數(shù)也大為下降【4】。陳斌等人提出了一種基于最小分類錯(cuò)誤(Minimum classification error,MCE)準(zhǔn)那么的線性判別分析方法(Linear discriminant analysis, LDA),并將其應(yīng)用到連續(xù)語(yǔ)音識(shí)別中的特征變換。該方法采用非參數(shù)核密度估計(jì)方法進(jìn)展數(shù)據(jù)概率分布估計(jì);根據(jù)得到的概率分布,在最小分類錯(cuò)誤準(zhǔn)那么下,采用基于梯度下降的線性搜索算
7、法求解判別分析變換矩陣。利用判別分析變換矩陣對(duì)相鄰幀梅爾濾波器組輸出拼接的超矢量變換降維,得到時(shí)頻特征。實(shí)驗(yàn)結(jié)果說明,與傳統(tǒng)的MFCC特征相比,經(jīng)過本文判別分析提取的時(shí)頻特征其識(shí)別準(zhǔn)確率提高了1。41%,相比于HLDA(Heteroscedastic LDA)和近似成對(duì)經(jīng)歷正確率準(zhǔn)那么(Approximate pairwise empirical accuracy criterion,aPEAC)判別分析方法,識(shí)別準(zhǔn)確率分別提高了1.14%和0.83%【5】。(二) 聲學(xué)模型訓(xùn)練改善聲學(xué)模型是語(yǔ)音識(shí)別系統(tǒng)的底層模型,是語(yǔ)音識(shí)別系統(tǒng)中最為關(guān)鍵的一局部。其目標(biāo)就是提供一種有效的方法,計(jì)算語(yǔ)音的特征
8、矢量序列和每一個(gè)發(fā)音模板之間的距離。傳統(tǒng)的聲學(xué)建模方式大都基于隱馬爾科夫框架,采用混合高斯模型Guassian mixture model,GMM來描述語(yǔ)音聲學(xué)特征的概率分布。針對(duì)傳統(tǒng)的“隱馬爾科夫模型-高斯混合模型聲學(xué)模型,目前常用的解決方案有: 構(gòu)造化協(xié)方差矩陣/精度矩陣建模方法【6】,即假設(shè)不同協(xié)方差矩陣或其精度矩陣由假設(shè)干個(gè)低秩(通常是秩為1 的) 基矩陣的線性疊加得到,各高斯混元通過某種方式共享一組一樣的基矩陣;本征三音子(Eigentriphone) 建模方法【7】,將上下文相關(guān)狀態(tài)進(jìn)展聚類,將每一類狀態(tài)的均值矢量限定在一個(gè)線性子空間中,通過估計(jì)子空間中的低維坐標(biāo)矢量來重構(gòu)狀態(tài)的均
9、值矢量,從而得到更為準(zhǔn)確的參數(shù)估計(jì);子空間高斯混合模型(Subspace Gaussian mixture model, SGMM)【8】,將高斯混元的均值和權(quán)重限制在一個(gè)全局參數(shù)子空間中,因此每一個(gè)狀態(tài)可以用一個(gè)或假設(shè)干個(gè)低維參數(shù)子空間中的矢量來表示,從而提高模型參數(shù)估計(jì)的穩(wěn)健性。與傳統(tǒng)的高斯混合模型相比,SGMM 聲學(xué)模型大大壓縮了模型尺寸,并且可以利用集外數(shù)據(jù)對(duì)參數(shù)子空間進(jìn)展估計(jì),因此特別適用于訓(xùn)練數(shù)據(jù)量受限條件下的語(yǔ)音識(shí)別【9】。X文林等人提出從語(yǔ)音信號(hào)聲學(xué)特征空間的非線性流形構(gòu)造特點(diǎn)出發(fā),利用流形上的壓縮感知原理,構(gòu)建新的語(yǔ)音識(shí)別聲學(xué)模型。將特征空間劃分為多個(gè)局部區(qū)域,對(duì)每個(gè)局部區(qū)域
10、用一個(gè)低維的因子分析模型進(jìn)展近似,從而得到混合因子分析模型。將上下文相關(guān)狀態(tài)的觀測(cè)矢量限定在該非線性低維流形構(gòu)造上,推導(dǎo)得到其觀測(cè)概率模型。最終每個(gè)狀態(tài)由一個(gè)服從稀疏約束的權(quán)重矢量和假設(shè)干個(gè)服從標(biāo)準(zhǔn)正態(tài)分布的低維局部因子矢量所決定。基于RM 語(yǔ)料庫(kù)的連續(xù)語(yǔ)音識(shí)別實(shí)驗(yàn)說明,相比于傳統(tǒng)的高斯混合模型(Gaussian mixture model,GMM) 和子空間高斯混合模型(Subspace Gaussian mixture model, SGMM),新聲學(xué)模型在測(cè)試集上的平均詞錯(cuò)誤率(Word error rate,WER) 分別相對(duì)下降了33。1% 和9。2 %【10】。由于隱馬爾科夫?qū)儆诘?/p>
11、型的淺層學(xué)習(xí)構(gòu)造,僅含單個(gè)將原始輸入信號(hào)轉(zhuǎn)換到特定問題空間特征的簡(jiǎn)單構(gòu)造,而目前識(shí)別挑戰(zhàn)越來越嚴(yán)峻,在大量的數(shù)據(jù)下其性能將會(huì)受到限制。隨著人工智能的進(jìn)一步開展,人們開場(chǎng)利用人工神經(jīng)網(wǎng)絡(luò)artificial neural network,ANN來模擬人類大腦存儲(chǔ)及處理信息的相應(yīng)模型。目前,微軟、IBM、Goolge等許多國(guó)際知名語(yǔ)音研究機(jī)構(gòu)都投入了大量的經(jīng)歷開展深層神經(jīng)網(wǎng)絡(luò)的研究。近年來,微軟利用上下文相關(guān)的深層神經(jīng)網(wǎng)context dependent deep neural network,CD-DNN進(jìn)展聲學(xué)模型建模,并在大詞匯連續(xù)語(yǔ)音識(shí)別上取得相對(duì)于經(jīng)鑒別性訓(xùn)練HMM系統(tǒng)有句錯(cuò)誤率相對(duì)下降
12、23.2%的性能改善,掀起了深層神經(jīng)網(wǎng)絡(luò)在語(yǔ)音識(shí)別領(lǐng)域的熱潮【11】。為了抑制經(jīng)典語(yǔ)音識(shí)別建模方式在大數(shù)據(jù)環(huán)境下的局限性,X晴晴等人提出利用卷積神經(jīng)網(wǎng)絡(luò)來完成海量數(shù)據(jù)下的語(yǔ)音識(shí)別。她提出,音識(shí)別中,卷積神經(jīng)網(wǎng)絡(luò)( Convolutionalneural networks, Ns)相比于目前廣泛使用的深層神經(jīng)網(wǎng)絡(luò)(deep neural network,DNNs),能在保證性能的同時(shí),大大壓縮模型的尺寸。她在文章中深入分析了卷積神經(jīng)網(wǎng)絡(luò)中卷積層和聚合層的不同構(gòu)造對(duì)識(shí)別性能的影響情況,并與目前廣泛使用的深層神經(jīng)網(wǎng)絡(luò)模型進(jìn)展了比照。在標(biāo)準(zhǔn)語(yǔ)音識(shí)別庫(kù)TIMIT以及大詞表非特定人自然口語(yǔ)對(duì)話數(shù)據(jù)庫(kù)上的實(shí)
13、驗(yàn)結(jié)果證明,相比傳統(tǒng)深層神經(jīng)網(wǎng)絡(luò)模型,卷積神經(jīng)網(wǎng)絡(luò)明顯降低模型規(guī)模的同時(shí),識(shí)別性能更好,且泛化能力更強(qiáng)【11】。(三) 語(yǔ)音模型訓(xùn)練改進(jìn)隨著語(yǔ)音識(shí)別技術(shù)的不斷開展,語(yǔ)言模型在語(yǔ)音識(shí)別中的作用也顯得越來越重要。由于聲學(xué)信號(hào)的動(dòng)態(tài)時(shí)變、瞬時(shí)和隨機(jī)性,單靠聲學(xué)模式的匹配與判斷不可能完成語(yǔ)音的無誤的識(shí)別和理解。一些較高層次的語(yǔ)言知識(shí)的利用可以在聲學(xué)識(shí)別的層次上減少模式匹配的模糊性,從而提高識(shí)別的準(zhǔn)確性。并且一個(gè)大詞匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng)必須在每一時(shí)刻檢測(cè)是否遇到語(yǔ)音發(fā)音邊界,這樣許多不同的字或詞將會(huì)從不同的語(yǔ)音流中識(shí)別出來。為了消除這些字或詞之間的模糊性,語(yǔ)言模型是必不可少的。語(yǔ)言模型可以提供字或詞之間
14、的上下文信息和語(yǔ)義信息。語(yǔ)言模型不僅用在語(yǔ)音識(shí)別系統(tǒng)中,而且可以用在機(jī)器翻譯、信息檢索等研究領(lǐng)域【13】【14】。基于隱馬爾科夫模型的參數(shù)語(yǔ)音合成系統(tǒng),在采用線譜對(duì)參數(shù)表征語(yǔ)音頻譜特征時(shí),傳統(tǒng)MGE訓(xùn)練中使用的歐氏距離生成誤差計(jì)算方法并不能較好地反映生成頻譜與自然頻譜之間的真實(shí)距離。因此雷鳴等人提出一種基于感知加權(quán)線譜對(duì)(Line Spectral Pair,LSP)距離的最小生成誤差(Minimum Generation Error,MGE)模型訓(xùn)練方法,采用與譜參數(shù)無關(guān)的對(duì)數(shù)譜間距(Log Spectral Distortion,LSD)定義的生成誤差函數(shù)來改善這一問題,但改進(jìn)后主觀效果不
15、明顯,且運(yùn)算復(fù)雜度很高【15】。為了抑制語(yǔ)音身份確認(rèn)中語(yǔ)音分割、特征提取和魯棒性差的困難,X秉誠(chéng)等人在深入分析叩齒聲音波形特性后,提出一種了一種利用叩齒聲音進(jìn)展身份確認(rèn)的方法這種方法使用二階微分方程建立齒震動(dòng)發(fā)聲的近似模型,以此為根底提出基于叩齒聲音信號(hào)的身份確認(rèn)方法。經(jīng)過實(shí)驗(yàn)證明,叩齒聲音信號(hào)穩(wěn)定性強(qiáng),處理復(fù)雜度低于聲紋信號(hào),應(yīng)用于身份識(shí)別性能優(yōu)良。該方法和經(jīng)典的支持向量機(jī)、最近鄰算法相比,運(yùn)算量低,所需訓(xùn)練樣本少。【15】(四) 識(shí)別搜索算法改進(jìn)搜索就是在由語(yǔ)句構(gòu)成的空間當(dāng)中,按照一定的優(yōu)化準(zhǔn)那么,尋找最優(yōu)句子的過程,也就是利用已掌握的知識(shí)聲學(xué)知識(shí)、語(yǔ)音學(xué)知識(shí)、詞典知識(shí)、語(yǔ)言模型知識(shí)以及語(yǔ)
16、法語(yǔ)義知識(shí)等,在狀態(tài)指的是詞組、詞、建模單元或HMM 的狀態(tài)空間中找到最優(yōu)的狀態(tài)序列。近年來,由于信息技術(shù)和互聯(lián)網(wǎng)技術(shù)的飛速開展,人們?cè)絹碓蕉嗟乩们度胧奖銛y設(shè)備作為獲取信息的工具。而語(yǔ)音識(shí)別技術(shù)作為自然方便的人機(jī)交互手段,也已經(jīng)應(yīng)用于越來越多的嵌入式設(shè)備上。但是由于嵌入式設(shè)備的系統(tǒng)資源配置與PC有著很大的不同,其對(duì)計(jì)算復(fù)雜度和內(nèi)存消耗有著更為苛刻的限制,尤其是嵌入式設(shè)備為滿足其低功耗一般都采用盡可能小的動(dòng)態(tài)內(nèi)存。所以一些較成熟的PC上的語(yǔ)音識(shí)別任務(wù)往往受限于嵌入式設(shè)備自身有限的計(jì)算能力和存儲(chǔ)量?!?7】目前世界上主流的語(yǔ)音識(shí)別系統(tǒng)根本是采用HMM框架?;贖MM的語(yǔ)音識(shí)別系統(tǒng)通常由聲學(xué)模型、
17、發(fā)音詞典、搜索空間、搜索算法模塊組成。其中搜索算法是決定系統(tǒng)性能的關(guān)鍵,它決定了如何使用各種資源,而搜索算法又和搜索空間密不可分,搜索空間的構(gòu)造不僅本身影響著內(nèi)存的占用,而且也影響著搜索的效率。傳統(tǒng)的狀態(tài)樹搜索算法18是讓每個(gè)詞條通過查找發(fā)音字典取得音素序列,音素序列根據(jù)聲學(xué)模型里面的決策樹19得到相應(yīng)的音素狀態(tài)序列。狀態(tài)搜索樹的合并策略是如果兩個(gè)單詞的音素狀態(tài)序列前綴一致,合并一樣的局部,虛節(jié)點(diǎn)不允許合并。解碼搜索過程中采用基于時(shí)間同步的令牌傳遞(token passing)算法20。開場(chǎng)識(shí)別時(shí)在root節(jié)點(diǎn)放置一個(gè)初始令牌(token),之后每來一幀語(yǔ)音數(shù)據(jù),在已有的搜索空間中按其拓?fù)漤樞?/p>
18、進(jìn)展令牌傳遞,每一個(gè)令牌記錄識(shí)別得分并且包括回溯信息。識(shí)別過程中為了加快搜索速度,采用動(dòng)態(tài)束剪枝搜索算法21僅使得分較高的令牌繼續(xù)傳遞;識(shí)別完畢時(shí)從詞尾節(jié)點(diǎn)處取得得分最高的令牌并將其回溯,即可得到首選識(shí)別結(jié)果。邵健等于提出了一種新的高效的樹搜索算法,即在原有的基于狀態(tài)音素搜索樹中合并沒有分枝的連續(xù)的單兒子節(jié)點(diǎn)序列成一個(gè)節(jié)點(diǎn),稱之為超音素節(jié)點(diǎn),超音素節(jié)點(diǎn)需要保存被合并的多個(gè)節(jié)點(diǎn)的狀態(tài)信息,用狀態(tài)音素序列來表示。對(duì)于SP節(jié)點(diǎn)和詞標(biāo)示節(jié)點(diǎn)這兩類特殊節(jié)點(diǎn)同樣不作合并。實(shí)現(xiàn)了基于超音素搜索樹的詞條動(dòng)態(tài)添加和刪除功能,使得內(nèi)存占用減少為狀態(tài)樹搜索的40%【22】。2021年蔡塔等人提出了嵌入式語(yǔ)音識(shí)別中一
19、種高效的圖搜索算法,通過別離聲學(xué)層和詞法層來構(gòu)建2層圖搜索空間,其中聲學(xué)層記錄聲學(xué)模型相關(guān)信息,詞法層記錄詞表語(yǔ)法信息.利用這樣簡(jiǎn)潔的搜索空間可以使語(yǔ)音識(shí)別的解碼過程更加緊湊有效.實(shí)驗(yàn)結(jié)果說明,與基線系統(tǒng)相比,所提出的雙層圖搜索算法在系統(tǒng)解碼速度相對(duì)提高10%的情況下,系統(tǒng)的動(dòng)態(tài)內(nèi)存占用僅為基線的8%.【23】二、語(yǔ)音識(shí)別的開展分析語(yǔ)音識(shí)別的應(yīng)用范圍極為廣泛,可應(yīng)用于各行各業(yè),如醫(yī)療衛(wèi)生效勞、語(yǔ)音撥號(hào)、智能玩具、智能家居、賓館效勞、軍事監(jiān)聽、股票交易、翻譯系統(tǒng)、汽車導(dǎo)航、信息網(wǎng)絡(luò)查詢、工業(yè)控制等等。語(yǔ)音識(shí)別廣泛涉及聲學(xué)、語(yǔ)言學(xué)、語(yǔ)音學(xué)、生理科學(xué)、數(shù)字信號(hào)處理、通信理論、電子技術(shù)、計(jì)算機(jī)科學(xué)、模
20、式識(shí)別和人工智能等眾多學(xué)科【24】。雖然語(yǔ)音識(shí)別近30年內(nèi)得到了極大地開展,也取得了較為廣泛的應(yīng)用,但應(yīng)該看到,語(yǔ)音識(shí)別依然存在很多問題需要我們解決:(一) 語(yǔ)音識(shí)別難點(diǎn)問題分析語(yǔ)音識(shí)別還做不到使機(jī)器能如同人類一樣能“聽懂或理解自然語(yǔ)言,像人與人之間的語(yǔ)言交流一樣。主要原因是目前研究工作進(jìn)展緩慢,主要技術(shù)理論沒有突破。雖然各種新的修正方法不斷出現(xiàn),但其普遍性和實(shí)用性還存在問題。具體的來說有如下:l、語(yǔ)音識(shí)別系統(tǒng)的魯棒性差,對(duì)環(huán)境依賴嚴(yán)重;2、語(yǔ)音識(shí)別系統(tǒng)的靈活性差,不能適應(yīng)人類靈活、自然的說話方式;3、連續(xù)語(yǔ)音流中語(yǔ)音信號(hào)的聲學(xué)特征隨與之前后相連的語(yǔ)音的不同而有很大的變化,且各語(yǔ)音單位之間不存
21、在明顯的界限,語(yǔ)音切分很困難;4、語(yǔ)音特征變化大。語(yǔ)音特征隨發(fā)音人的不同、發(fā)音人生理或心理狀態(tài)的變化而有很大的差異;5、語(yǔ)音的模糊性,同音詞大量而普遍存在;6、對(duì)韻律信息的利用缺乏;韻律信息指的是說話之中的重音、語(yǔ)調(diào)等超音段信息;如何在語(yǔ)音識(shí)別中結(jié)合韻律信息還有待進(jìn)一步的研究;7、自然語(yǔ)言的多變性難以借助于一些根本語(yǔ)法規(guī)那么進(jìn)展描述,語(yǔ)法、語(yǔ)義規(guī)那么定義困難。(二) 漢語(yǔ)語(yǔ)音識(shí)別特點(diǎn)與難點(diǎn)分析對(duì)于漢語(yǔ)語(yǔ)音識(shí)別來說除具有一般語(yǔ)音識(shí)別的特點(diǎn)外,還有其獨(dú)特的方面,因?yàn)椋?、漢語(yǔ)字以單音節(jié)為單位,發(fā)音時(shí)間短,不像英語(yǔ)以多音節(jié)為主;2、漢語(yǔ)有大量的同音字;漢語(yǔ)由60個(gè)左右的聲母和韻母組成40多個(gè)無調(diào)音節(jié)
22、和1200多個(gè)有調(diào)音節(jié),音節(jié)與音節(jié)之間相似性大、易混淆;3、中國(guó)民族眾多,不同地區(qū)之間發(fā)音變化很大,方言多;4、漢語(yǔ)的字詞不分使得詞的切分成為漢語(yǔ)語(yǔ)言理解與處理獨(dú)有和首要的問題;5、靈活自由的語(yǔ)言表述難以用漢語(yǔ)語(yǔ)言知識(shí)表示方法來表達(dá)。技術(shù)效勞于生活,生活產(chǎn)生需要,需要又將進(jìn)一步反作用于技術(shù)開展。根據(jù)對(duì)目前語(yǔ)音識(shí)別的技術(shù)困難分析,想必語(yǔ)音識(shí)別領(lǐng)域未來將針對(duì)以上種種語(yǔ)音識(shí)別中存在的困難和壁壘,做出新的成果。參考文獻(xiàn)【1】. 王炳錫,屈丹,彭煊,"實(shí)用語(yǔ)音識(shí)別根底"M國(guó)防工業(yè)2005年1月,5657【2】. Dahl G E,Yu D。context-dependent pre-
23、trained deep neutral networks for large-vovabulary speech recognition。 IEEE Trans Audio Speech Lang Process,2021,201:30【3】. 付麗輝 抗噪聲的小波譜壓縮特征提取算法在語(yǔ)音識(shí)別中的應(yīng)用。J。量子電子學(xué)報(bào)。第4期。2021【4】. 黃麗霞,X雪英Laguerre濾波器在抗噪語(yǔ)音識(shí)別特征提取中的應(yīng)用J。計(jì)算機(jī)工程與應(yīng)用。第四期。2021【5】. 陳斌等?;贛CE準(zhǔn)那么的語(yǔ)音識(shí)別特征線性判別分析J。自動(dòng)化學(xué)報(bào)。第40卷第6期。2021年6月。【6】. Povey D, Burge
24、t L, Agarwal M, Akyazi P, Kai F, GhoshalA, Glembek O, Goel N, Kara¯µat M, Rastrow A, Rose RC, Schwarz P, Thomas S。 The subspace Gaussian mixturemodel a structured model for speech recognition。puter Speech & Language,2021, 25(2): 404-439【7】. Ko T, Mak B。 Eigentriphones for context-depen
25、dent acoustic modeling。 IEEE Transactions on Audio, Speech, andLanguage Processing,2021, 21(6): 1285-1294【8】. Olsen P A, Gopinath R A。 Modeling inverse covariance ma-trices by basis expansion。 IEEE Transactions on Speech and Audio Processing, 2004, 12(1): 37-46【9】. Qi J, Wang D, Tejedor J。 Subspace
26、models for bottleneckfeatures。 In: Proceedings of the 14th Annual Conference ofthe International Speechmunication Association。 Lyon,F(xiàn)rance: ISCA,2021。 1746-1750【10】. X文林?;诼晫W(xué)特征空間非線性流形構(gòu)造的語(yǔ)音識(shí)別聲學(xué)模型【J】,自動(dòng)化學(xué)報(bào)。第41卷第5期,2021 ,12【11】. Dahl G E,Yu D。context-dependent pre-trained deep neutral networks for larg
27、e-vovabulary speech recognition。 IEEE Trans Audio Speech Lang Process,2021,201:30【12】. X晴晴。卷積神經(jīng)網(wǎng)絡(luò)的連續(xù)語(yǔ)音識(shí)別J。工程科學(xué)學(xué)報(bào)。第37卷,第9期,1212-1217,2021 年9月【13】. Croft ,W。B。and J 。Lafferty ,Language Modeling forInformatioanRetrieval M 。2003 :Kluwer-AcademicPublishers【14】. Ney , H 。, One decade o f statistical machi
28、ne translationn:1996-2005 C / IEEE Workshop on AutomaticSpeech Recognition and Understanding (Asru ),2005 :2-2?!?5】. Lei Ming。Minimum Generation Error Training Based on Perceptually Weighted Line Spectral Pair Distance for Statistical Parametric Speech Synthesis。J。2021:Pattern Recognition and Artificial Int
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 四川省眉山車城中學(xué)2024-2025學(xué)年高二上學(xué)期期末考試歷史試題(含答案)
- 湖南省衡陽(yáng)市衡山縣2024-2025學(xué)年七年級(jí)上學(xué)期1月期末地理試卷(含答案)
- 物流專業(yè)理論知識(shí)競(jìng)賽理論試題題庫(kù)及答案
- 2025年度別墅智能家居安防系統(tǒng)升級(jí)合同263篇
- 2024鮮花婚禮布置與婚宴策劃配套服務(wù)合同3篇
- 2024版掛靠聘任協(xié)議書范本
- 2023年教科版三年級(jí)科學(xué)全冊(cè)教案
- 2024年一級(jí)建造師之一建工程法規(guī)題庫(kù)附完整答案【奪冠系列】
- 福建省南平市九三英華高級(jí)中學(xué)高三語(yǔ)文月考試卷含解析
- 中國(guó)古代建筑屋頂做法
- 學(xué)生(幼兒)上學(xué)放學(xué)交通方式情況登記表
- 提高感染性休克集束化治療達(dá)標(biāo)率
- 2023年湖北省武漢市高考數(shù)學(xué)一模試卷及答案解析
- 電動(dòng)自行車換電柜規(guī)劃方案
- 工程變更、工程量簽證、結(jié)算以及零星項(xiàng)目預(yù)算程序?qū)嵤┘?xì)則(試行)
- 中央廣播電視大學(xué)畢業(yè)生登記表-8
- 2023年人民日?qǐng)?bào)社校園招聘72人筆試參考題庫(kù)(共500題)答案詳解版
- 《焊接常用工具》課件
- 山東師范大學(xué)《古代文學(xué)專題(一)》期末復(fù)習(xí)題
- 員工內(nèi)部崗位調(diào)換申請(qǐng)表
- 選礦廠建設(shè)工程施工組織設(shè)計(jì)
評(píng)論
0/150
提交評(píng)論