




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
本科學生學年論文論文題目:基于單片機的語音識別系統(tǒng)研究學院:電子工程學院年級:2023級專業(yè):電子信息工程姓名:學號:指導教師:2023年06月22日摘要隨著計算機技術(shù)的不斷開展,人們越來越希望通過語音來實現(xiàn)人機對話,語音識別技術(shù)由此應運而生。語音識別是讓機器自動識別和理解語音信號,并把語音信號轉(zhuǎn)變?yōu)橄鄳畹募夹g(shù)。特定人孤立詞的語音識別是應用最為廣泛的一種語音識別技術(shù),而當前這方面的硬件設(shè)備本錢較高,使得難以大量推廣應用?;谏鲜鲈?本文通過對孤立詞語音特點的研究,結(jié)合單片機等硬件設(shè)備,設(shè)計了一種基于特定人孤立詞的語音識別系統(tǒng)。本文的研究工作和成果主要有以下幾個方面的內(nèi)容:文章首先分析了語音產(chǎn)生的機理,并以此分析了語音識別的各種算法。對語音信號進行預處理后,提出了一種新的基于短時平均幅度和短時平均過零率的端點檢測手段,增強了算法對于不同類型詞語的適用性。提取語音線性預測倒譜系數(shù),作為特征參數(shù)選擇動態(tài)時間規(guī)整法為模板匹配算法,并針對傳統(tǒng)匹配算法中計算量大的特點,作出改良,采用了一種全局路徑限制的方法以減小匹配過程中的計算量。在模板的訓練中,針對語音信號隨機性較大的特點,提出了一種平均模板的訓練法,提高了模板的可靠性。然后,以C805IF040單片機為核心,對系統(tǒng)的硬件電路做了詳細設(shè)計。之后,文章詳細闡述了系統(tǒng)算法的具體實現(xiàn)過程。另外,考慮到系統(tǒng)的定位,對算法中特征階數(shù)的選擇作出計算。最后,對系統(tǒng)在不同的噪聲環(huán)境和語言環(huán)境下進行了大量的實驗。結(jié)果說明,系統(tǒng)在相對安靜的條件下,對特定人孤立詞的識別率較高,滿足設(shè)計要求。同時,由于系統(tǒng)本錢低,操作簡單,在社會中將具有很好的應用前景。關(guān)鍵詞語音識別;線性預測倒譜;動態(tài)規(guī)整技術(shù);單片機AbstractWiththecontinuousdevelopmentofcomputertechnology,itishopedtoachieveman-computerdialoguebyvoice.Asaresult,speechrecognitiontechnologycameintobeing.Speechrecognitionisakindoftechnologythatisusingcomputertotransferthevoicesignaltoacommandbyidentificationandunderstanding.Speaker-dependedisolatedwordspeechrecognitionisthemostwidelyusedspeechrecognitiontechnology.However,thecostofhardwaredevicesinthisregardistoohighatpresent,resultinginanunnecessarywasteofresources.Giventhestatus,throughthestudyingofthecharactersofsingleword,aspeaker-DependedIsolated-wordspeechrecognitionsystemisdesignedwiththecombinationofMCUandotherhardwaredevice.Themainresearchandresultsaresummarizedasfollows:Firstly,accordingtothemechanismofvoiceproduction,avarietyofspeechrecognitionalgorithmsareintroduced.Afterthepretreatmentonthespeechsignal,anewalgorithmbasedonzero-crossingrateandshort-termaveragerateispresentedwhichenhancedtheapplicabilityfordifferenttypesofwords.LPCC(LinearPredictiveCepstralCoding)isextractedfromthesignalasthespeechcharacteristicparameters,DTW(DynamicTimeWarping)algorithm,whichisimprovedtoreducetheamountofdatainthematchingprocessbyusingglobalconstraint,isusedforthematchingofthemodel.Theaveragetrainingmethodisusedtoenhancetherobustnessofthesysteminthecourseofthetrainingtemplatesfortherandomnessofspeechsignal.Secondly,C805lF040micro-controllerselectedasthecore,circuitdesignofthesystemisshown.Then,thepaperdetailsthesoftwarecomponents,includingtheconcreterealizationoftheProcessofthealgorithm.Inaddition,takingintoaccountthecharacteristicsofthesystemitself,theparametersofthealgorithmarecalculated.Finally,alotofdebuggingandtestarecarriedoutunderdifferentnoiseenvironmentandlanguageenvironment.Experimentresultsindicatethatthiscontrolsystemisstable,andcanachieveagoodrecognitionresultforspecialwordsinquietconditions.Atthesametime,duetothelowcost,simpleoperation,thesystemwillhaveagoodapplicationprospectsandwillbewidelyusedinfuture.KeywordsSpeechRecognition;LPCC;DTW;MCU目錄28092摘要I27952AbstractII20744前言130228第一章語音識別相關(guān)技術(shù)2285811.1語音識別概述2306911.1.1語音識別系統(tǒng)2306911.1.2語音識別的步驟397551.2預處理及特征參數(shù)提取3306911.2.1語音信號的預處理364981.2.2線性預測系數(shù)LPC5225451.3基于DTW的語音識別6152121.3.1DTW算法原理6226121.3.2DTW算法的改良6320341.3.3匹配模板的訓練方法715878第二章系統(tǒng)軟件設(shè)計8161312.1主程序流程8145352.2模板的訓練與識別程序8245352.3端點檢測子程序117422.4特征提取子程序1112795第三章實驗與分析13267003.1系統(tǒng)實驗平臺介紹 1376703.2實驗方案設(shè)計 14312293.3實驗結(jié)果與分析 1427760結(jié)論1717403參考文獻1830983致謝19前言語音不僅是人和人之間進行信息交流最直接最方便和最有效的工具,而且也是人和機器之間進行通信的一種重要手。實現(xiàn)人機自然語音對話,對于方便人們生活,提高工作效率具有重要的意義。而實現(xiàn)人機自然語音對話的核心技術(shù)就是語音信號處理。語音信號處理,是以語音學和數(shù)字信號處理為根底開展形成的一個綜合性的學科,它的研究方向主要有語音分析、語音增強、語音識別、語音合成等幾個分支。在過去的近半個世紀里,在語音信號處理方面的研究已經(jīng)為社會生活帶來了深遠的影響和極大的便利。作為語音信號處理的關(guān)鍵分支,語音識別技術(shù)己經(jīng)走出實驗室,在諸多領(lǐng)域有著廣泛的應用,成為了智能計算機研究的主要分支和人機語音通信的主要途徑之一。由于語音識別本身所存在的巨大商業(yè)價值,世界各大公司紛紛在這方面投以巨資,讓這項技術(shù)取得了長足的開展,并已經(jīng)進入社會的各個領(lǐng)域之中。在以后的生活中,語音識別會扮演越來越重要的角色,為人類社會的開展帶來更大的便利。目前,語音識別技術(shù)主要有兩個開展方向,即大詞匯量的語音識別系統(tǒng)和小型化、便攜式的語音識別系統(tǒng)。其中,大詞匯量的語音識別系統(tǒng)算法復雜,實現(xiàn)難度大,主要用于聽寫機等設(shè)備;小型的語音識別系統(tǒng),尤其是基于特定人孤立詞的語音識別系統(tǒng),在很多行業(yè)中已經(jīng)有了廣泛的應用。盡管小型語音識別系統(tǒng)正日臻完善,但是由于語音信號的隨機性較大,而且對背景噪聲極為敏感的特點,導致在通常情況下識別率很難到達100%,而一旦背景噪聲增大,系統(tǒng)的識別率更會迅速降低?;谝陨显?我們必須對語音識別做進一步的研究工作。本文的研究目的就是要找出一套適合于特定人孤立詞語音識別的系統(tǒng)方案。第一章語音識別相關(guān)技術(shù)1.1語音識別概述1.1.1語音識別系統(tǒng)語音識別系統(tǒng)本質(zhì)上是一種模式識別系統(tǒng),它的根本結(jié)構(gòu)如圖1-1所示,與一般模與一般模式識別系統(tǒng)一樣包括有特征提取、模式匹配、參考模式庫等三個根本單元,一般分兩個步驟。第一步是系統(tǒng)學習或訓練階段。這一階段的任務(wù)是建立識別根本單元的聲學模型以及進行文法分析的語言模型,即構(gòu)建參考模式庫。第二步是識別或測試階段。根據(jù)識別系統(tǒng)的類型選擇能夠滿足要求的一種識別方法,采用語音信號處理方法分析出這種識別方法所需求的語音特征參數(shù),按照一定的準那么和測度與參考模式庫中的模型進行比擬,通過判決得出結(jié)果。圖1-1語音識別系統(tǒng)的結(jié)構(gòu)框圖語音識別系統(tǒng)的設(shè)計要考慮到效勞對象、詞表大小、發(fā)音方式、任務(wù)性質(zhì)等許多因素。按不同的影響因素,語音識別系統(tǒng)可以做許多分類。1.根據(jù)效勞對象分為:特定人和非特定人這里所說的效勞對象,是指所研制的識別系統(tǒng)是考慮提供應特定的人使用的,還是不確定的任意人使用的,即有特定人識別系統(tǒng)和非特定人識別系統(tǒng)之分。2.根據(jù)詞表大小分類:大、中、小詞匯量每一個語音識別系統(tǒng)都有一個詞匯表,系統(tǒng)只能識別詞匯表中包含的詞匯。很明顯,隨著詞匯數(shù)目的增加,識別器的難度一般會增加。這是由于:詞匯越多,潛在的詞間相似性會增加,分辨愈困難;隨著詞條數(shù)增加,系統(tǒng)的搜索運算開銷及存儲開銷就增加。3.根據(jù)發(fā)音方式分為:孤立詞和連續(xù)語音發(fā)音方式指的是采用孤立詞發(fā)音方式還是連續(xù)語音發(fā)音方式。一般的孤立詞識別系統(tǒng)的結(jié)構(gòu)比擬簡單,其原理框圖如圖1-1所示,詞表中每個詞對應有一個參考模式,它是由這個詞重復發(fā)音多遍,再經(jīng)特征提取和某種訓練算法得到的。孤立詞的發(fā)音,詞與詞之間要有足夠的時間間隙,以便能夠檢測到首末點。對于連續(xù)語音發(fā)音方式通常采用連續(xù)語音識別系統(tǒng),其系統(tǒng)結(jié)構(gòu)更為復雜,碰到的困難也更多[1]。1.1.2語音識別的步驟語音信號首先經(jīng)過預處理(含AD轉(zhuǎn)換)變成滿足要求的離散數(shù)字信號;然后對其進行頻譜分析,提取出語音信號的參數(shù)化表示(或稱待識別未知模式),通常是由特征矢量構(gòu)成的特征矩陣;在識別過程中,再把此模式和數(shù)據(jù)庫中的參考模式進行比擬;最后由識別決策來決定是否識別,并給出結(jié)果[2]。預處理預處理的內(nèi)容很豐富,首先是A/D轉(zhuǎn)換,其目的就是將麥克風錄入的原始模擬語音信號采樣量化成能夠被程序控制和處理的數(shù)字信號。特征提取經(jīng)過對語音信號的預處理之后就要進行特征參數(shù)的提取,特征提取是任何一個模式識別處理問題首先要解決的問題。在語音信號的特征提取中對特征參數(shù)的要求是:〔1〕能有效代表語音特征,具有良好的區(qū)分性;〔2〕特征參數(shù)之間有良好的獨立性;(3)特征參數(shù)易于計算,最好能保證語音識別的實時實現(xiàn)。線性預測系數(shù)是能夠有效地表征語音的全極點模型參數(shù)。在語音信號的頻域特征參數(shù)中,目前使用最為廣泛的是線性預測倒譜系數(shù)〔LPCC)和美爾頻率倒譜系數(shù)(MFCC),MFCC在非特定人識別方面性能優(yōu)越于LPCC。但求解MFCC系數(shù)需要快速傅立葉變換(FFT)、三角濾波、取對數(shù)和離散余弦變換(DCT)等過程,運算復雜,LPCC在特定人的語音識別方面也具有較好的效果,其運算量相對較小。本系統(tǒng)設(shè)計采用LPCC系數(shù),本文也將主要介紹線性預測倒譜系數(shù)(LPCC)[3]。識別判決語音識別過程就是根據(jù)模式匹配原那么,按照一定的相似性度量法那么,使未知模式與參考模式庫中的某一個參考模型獲得最正確匹配的過程。1.2預處理及特征參數(shù)提取1.2.1語音信號的預處理由于自然界的語音都是模擬信號,假設(shè)希望對語音信號做處理,必須將其轉(zhuǎn)變成數(shù)字信號,再對數(shù)字信號進行整理分析,濾除不必要的信息。這個過程就被稱為語音信號的預處理,它包括數(shù)字化、預加重和加窗分幀三個局部。數(shù)字化語音信號的數(shù)字化是將語音模擬信號轉(zhuǎn)變成為數(shù)字信號的過程,這個過程分為兩個步驟:采樣和量化。圖1-2語音信號數(shù)字化過程采樣就是把信號在等間隔的時間上進行抽取,得到離散的序列,并將其轉(zhuǎn)換成數(shù)字?!?-1〕其中n為整數(shù);T為采樣周期,是原始模擬信號。雖然語音信號的頻率最大值可達1okHz,但是語音中對聲音的清晰度有最重要影響的還是集中在300一3400Hz之間,而根據(jù)采樣定理,只有當采樣頻率大于信號自身頻率的2倍時,才不會導致信息的喪失,因此本文選擇8kHz的采樣頻率。在對語音信號進行數(shù)字化之前,由于信號中可能存在一些在信號頻率之后的的背景噪聲,因此為了防止噪聲干擾,需要對信號進行帶通濾波處理,濾除信號中的背景噪聲,以保證信號的有效性。預加重當人發(fā)濁音時,聲門振蕩產(chǎn)生的是準周期性的脈沖串,而這樣的脈沖形狀和理想的占脈沖性比,會導致信號在高頻局部產(chǎn)生一12db/oct的衰減作用。由于輻射模型可以看做是一個一階的差分方程,它會引起語音的高頻局部產(chǎn)生6db/oct的提升作用,因此總的來說語音信號的高頻有一6db/oct的衰減,即頻率每增加一倍信號的功率就會減少1/4,因此,為了抵消這種影響,就要在預處理中對語音信號進行預加重。預加重的可以提升語音的高頻局部,使信號的頻譜變得平坦,這樣就能消除聲道模型中的極點帶來的影響預加重可以放在模數(shù)轉(zhuǎn)換之后進行,用具有與6db/otc。相當?shù)念A加重數(shù)字濾波器實現(xiàn),一般來說,用一階數(shù)字濾波器濾波器,即來實現(xiàn)。分幀加窗在對語音信號進行分析的過程中,信號流的處理通常是以分幀的前提來實現(xiàn)的。也就是以一定的長度對信號進行截取,這個長度就是幀長。從時域上來分析,信號具有短時平穩(wěn)的特性,也就是說在10到2Oms這么短的一段時間內(nèi),可以將信號看作是平穩(wěn)的。在本系統(tǒng)中,將幀長取為2Oms。在對信號進行分幀時,常采用交疊分段的方法,這樣可以使幀和幀之間的過度更加的平滑,可以保證數(shù)據(jù)的連續(xù)性。在交疊分段中,前一幀和后一幀的交疊局部稱為幀移,如圖1-1所示。幀移和幀長之比一般取O到0.5。本文對音頻信號進行8kHz的采樣,以160個采樣點為一幀,步長為80個采樣點。圖1-3步長幀移示意圖根據(jù)傅里葉變換的原理,在計算信號的頻譜之時,所觀測信號的長度應是無限的,在現(xiàn)實中對語音信號采用分幀截斷的方法對信號進行處理。1.2.2線性預測系數(shù)LPC1947年維納首次提出了線性預測分析(LinearPrediction)方法,之后,線性預測就應用于許多領(lǐng)域中。1967年,板倉等人最先將線性預測技術(shù)應用到語音分析與合成中。目前,線性預測作為一種工具,幾乎普遍地應用于語音信號處理的各個方面,是最有效和最流行的語音分析技術(shù)之一,線性預測能用極少的參數(shù),有效正確的表現(xiàn)出語音信號的波形及其頻譜特性,而且參數(shù)計算簡單、快速,己被成功用于語音識別、合成、編碼、說話人識別等方面[4]。線性預測根本原理:線性分析的根本原理將被分析的信號用模型來表示,即將信號看作是某一個模型或系統(tǒng)的輸出。這樣,就可以用模型參數(shù)來描述信號。模型的系統(tǒng)函數(shù)可以寫成有理分式的形式:(1-2)信號可以用有限數(shù)目的參數(shù)構(gòu)成的模型來表示。線性預測倒譜系數(shù)(LPCC)在語音識別系統(tǒng)中很少直接使用LPC系數(shù),而是由LPC系數(shù)推導出參數(shù)線性預測倒譜系數(shù)LPCC。倒譜特征的實質(zhì)就是將信號作適當?shù)耐瑧B(tài)濾波,將信號中的卷積關(guān)系變?yōu)槌朔e關(guān)系,隨之作對數(shù)處理使之化為可別離的相加成分,標準的倒譜系數(shù)計算流程需要進行FFT變換、對數(shù)操作和相位校正等步驟,運算比擬復雜。在實際計算中,當序列x(n)為最小相位的情況下,可利用序列x(n)及其復倒譜c(n)的遞推關(guān)系來簡化運算。1.3基于DTW的語音識別1.3.1DTW算法原理模板匹配法是多維模式識別系統(tǒng)中最常用的一種相似度計算方法,是最早用于語音識別的方法。這種方法采用某種非線性時間對準算法,解決了發(fā)音長短不一的問題。常用的是基于最近鄰原那么的動態(tài)時間規(guī)整方法,簡稱DTW,是效果最好的一種非線性時間規(guī)整模板匹配算法,在孤立詞語音識別中獲得了成功的應用[5]。DTW就是將發(fā)音在時間軸進行彎曲,以使兩次發(fā)音能夠更好的匹配。假設(shè)己存入的參考模板為:R(1,2,...,M),測試模板為:T(1,2,...,N),其相似度用距離D=[T,R]來表示,假設(shè)n和m分別是T和R中任意選擇的幀號,D=T(n),R(m)]表示兩幀之間的距離。在DTW算法中通常采用歐式距離,距離越小相似度越高。假設(shè)N=M那么可以直接計算,否那么要考慮將T(n),R(m)對齊,對齊采用線性擴張的方法,如果N<M可以將T線性映射為一個M幀的序列,再計算它與R{R(l),R(2),,,R(M)}之間的距離,但這樣的計算沒有考慮語音中各個段在不同情況下的持續(xù)時間會產(chǎn)生的變化,因此識別效果不好,更多情況下是采用動態(tài)規(guī)劃(DP)的方法。DP算法就是要尋找一個最正確的時間規(guī)整函數(shù),使被測語音模板的時間軸M非線性地映射到參考模板的時間軸N,使總的累積失真量最小。1.3.2DTW算法的改良傳統(tǒng)的DTW算法的缺點是模板匹配的運算量太大,當兩個模板的長度較大時,訓練和識別算法的運算量就相當大。實際上,在匹配的路徑中限定了規(guī)整路徑的斜率,因此許多網(wǎng)格點是達不到,所以平行四邊形外的網(wǎng)格點是不需要計算的,另外也沒必要保存所有幀的匹配距離矩陣和累積距離矩陣[6]。改良型DTW算法大大提高了運算效率,它把實際路徑分為三段:(1-3)其中=1/3(2M-N),=2/3(2N一M),和都取最相近的整數(shù)。如圖1-4所示由此也得出了對M和N長度的限制條件2M-N≥3,2N-M≥2,當限制條件不滿足時,即說明語音和模板的長度相差太大,匹配意義不大,不進行動態(tài)規(guī)劃匹配,在x坐標軸上的每一幀與Y坐標軸上間的幀做比擬,的計算公式如下:(1-4)圖1-4匹配路徑約束示意圖1.3.3匹配模板的訓練方法偶然訓練法當待識別詞表不太大且系統(tǒng)為特定人設(shè)計時,可以采用一種簡單的多模板訓練方法。即每個詞的每一遍讀音形成一個模板,在識別時,待識別矢量序列用DTW算法分別求得與每個模扳的累計失真,然后判別它屬于哪一個。但由于語音的偶然性很大,且訓練時讀音可能存在錯誤,比方不正確的音聯(lián)。錯誤發(fā)音亦得不到糾正,故這種方法形成的模板魯棒性不好,這也是這種方法被稱為偶然訓練法的原因。魯棒性訓練法團魯棒性訓練是一種串行訓練法。將每一詞重復說多遍直到得到一對一致性較好的特征矢量序列。最終得到的模板是在一致性較好的特征矢量序列對在沿DTW的路徑上求平均。其訓練過程可描述如下:假定只考慮某個特定的詞。令X1={X11,X12,...,X1r,}為第一遍的特征矢量序列,X2={X21,X22,...,X2r,}為另一遍的特征矢量序列,通過DTW算法計算這兩個模板的失真d(xl,x2),如果d(xl,x2)小于某個門限,便認為這兩遍特征矢量序列一致性較好,便可求xl和的時間彎折平均而得到一個新模板。具體求法如下:令T為DTW算法的最優(yōu)路徑長度,最終得到最優(yōu)路徑序列。(1-5)新模板Y可通過下式求得:(1-6)非特定人識別任務(wù)的模板訓練算法一聚類[7]對于非特定人語音識別,要想獲得較高的識別率,就須對多組訓練數(shù)據(jù)進行聚類,以獲得可靠的案板參數(shù)。最初的孤立詞識別采用人工干預的聚類方法,這些方法盡管有效,但由于人工干預的繁瑣工作,阻礙其廣泛應用。為了解決這個問題,人們提出過一系列的聚類算法。這些聚類算法與常規(guī)的模式聚類方法的主要不同點是:語音識別模板的聚類,針對的是有時序關(guān)系的特征序列,而不是維數(shù)固定的模式,訓練方法復雜,主要用于非特定人的語音識別。第二章系統(tǒng)軟件設(shè)計2.1主程序流程語音識別系統(tǒng)在整個程序的設(shè)計中,系統(tǒng)進入主程序之后主程序采用調(diào)用子程序的方式來完成對語音模板的訓練以及識別等任務(wù)。圖2-1語音識別主程序流程圖2-1為系統(tǒng)的主程序流程。系統(tǒng)運行之后,有按鍵按下之時,判斷為何種命令,如果是模板訓練命令那么進行模板訓練的算法操作,語音識別命令那么執(zhí)行語音識別子程序。2.2模板的訓練與識別程序模板的訓練程序主要完成從開始采集語音信號到最終生成語音參考模板的全過程,而識別子程序那么完成采集待識別語音信號到最終通過模式匹配得出識別結(jié)果。在模板的訓練中,對每個詞進行三次錄音,將信號進行處理之后,根據(jù)DTW匹配計算這三個詞之間的相互距離,并找到距離最短的兩段信號,采用平均模板的算法將這兩段信號進行平均,得到新的矢量作為最終模板。模板訓練的流程如圖3-2所示。圖2-2模板訓練流程圖2-3為進行語音識別時的流程圖,其大致過程與模板訓練的過程相似圖2-3識別子程序流程從圖2-2和2-3可以看出,在進行模板訓練和語音識別的時候,需要反復調(diào)用很多子程序,這其中包括預處理、端點檢測、特征參數(shù)的提取等。這些算法的原理和方法在第一章中已經(jīng)有了詳細的介紹,在下面幾節(jié)中將距離給出這些算法的流程圖。2.3端點檢測子程序本系統(tǒng)對于語音信號采用8kHz的頻率進行采樣,之后對語音信號進行預加重和加窗處理。本文采用的是一階高通數(shù)字濾波器1-z-1,實現(xiàn)預加重,采用漢明窗對數(shù)字信號進行加窗,其中0.91.0,取u=0.94。預加重流程如圖2-4,其中N為采樣點數(shù)。圖2一4預加重流程通過預加重處理之后的信號通過矩形窗進行加窗分幀。本系統(tǒng)語音信號處理的幀長度取20ms,因此,每幀有160個采樣點,幀移和幀長之比選為0.5,因幀移選擇為80。2.4特征提取子程序本系統(tǒng)在對語音信號進行特征提取時,采用LPCC作為特征矢量。LPC階數(shù)的選取決定了語音識別過程中的計算量,也決定了語音模型的階數(shù),對語音識別系統(tǒng)的性能有著重要影響。當階數(shù)選擇在8到32之間的時候,LPC一般可以較好地表征聲學特性[10]。而且隨著LPC的階數(shù)的增加,語音識別率并不是一直升高,這是由于階數(shù)增加的時候,預測系數(shù)受語音信號中的隨機信息的影響也越來越大,以及有限字長等一系列效應,都會導致系統(tǒng)識別率的降低[11]而且隨著階數(shù)的增加,由1.2節(jié)的算法原理可知,系統(tǒng)的計算量也會隨著特征模型階數(shù)的增加以幾何倍數(shù)而增加,這樣也并不利于系統(tǒng)在單片機上的實現(xiàn)。因此,必須合理的選擇階數(shù)才能讓系統(tǒng)的性能到達最高。本系統(tǒng)所采用8kHz的頻率語音信號進行采樣,而8kHz的采樣信號通常有4個共振峰[12],因此取p=8。此外為了彌補鼻音中存在的零點以及其他因素引起的偏差,通常在上述階數(shù)的根底上再增加兩個極點,p=10。在對LPCC的提取之前,首先要對語音信號進行LPC特征參數(shù)的提取,之后再對其進行倒譜計算,定義變量i來表示當前處理到的幀數(shù),N來表示經(jīng)過端點檢測之后所保存的幀數(shù),即N=I_End-1start+1,定義E來存放最小誤差能量.本系統(tǒng)使用矩陣c[]J[p+2]來存放語音信號的LPCC參數(shù)以語音信號的第i幀為例,其計算流程如圖2-5所示。圖2-5LPCC參數(shù)計算流程第三章實驗與分析3.1系統(tǒng)實驗平臺介紹本文在對系統(tǒng)的實驗研究中,針對上文所分析的各種算法采用MATLAB構(gòu)建了一個語音識別系統(tǒng)。在錄制音頻信號時,通過調(diào)用wavrecord函數(shù),以8kHz的采樣率對語音信號進行8位采樣,之后將信號進行歸一化。對于歸一化之后的數(shù)字信號,采用巴特沃斯數(shù)字濾波器對信號進行濾波,然后對信號分別進行預處理、端點檢測、特征提取、模板訓練、語音識別等操。系統(tǒng)在運行時,首先需要對語音模板進行訓練。調(diào)用wavrecord函數(shù)對每個信號進行三次錄制,通過預處理、端點檢測、特征提取之后,找到距離最近的段音頻信號,采用平均模板的方法生成新的向量作為語音模板。在語音識別之時,同樣采用wavrecord函數(shù)對語音信號進行錄制,提取出相應的特征模板,與已存的模板進行匹配,找到與已存模板DTW距離最小的那個模板,也就是對應的識別結(jié)果。本系統(tǒng)在研究語音識別的相關(guān)算法之時,采用MATLABGUIDE結(jié)合代碼設(shè)計了一個語音信號處理系統(tǒng),系統(tǒng)界面如圖3-1所示。圖3-1語音信號處理界面圖3-1所示的系統(tǒng)中,包含預處理、平均幅度、過零率、端點檢測、DTW路徑計算等多種功能。讀取兩端音頻信號之后就可進行相應的算法實驗。通過點擊相應的按鈕以完成不同的子函數(shù)調(diào)用來實現(xiàn)不同功能。3.2實驗方案設(shè)計由于本系統(tǒng)的定位是特定人孤立詞的語音識別,因此在實驗過程中,為了能夠表達系統(tǒng)對特定人以及孤立詞的識別效果,為以后的研究做參考,共設(shè)計了以下4種方案:1.對于同一特定人,在安靜在安靜的環(huán)境下對數(shù)據(jù)1到10及“黑〞、“龍〞、“江〞、“大〞、“學〞共15個孤立字語音模版進行訓練后,分別在安靜條件、信噪比分別為40db30db、25db的環(huán)境下對每個信號進行20次的識別實驗,記錄下系統(tǒng)在這些環(huán)境下的識別率作為實驗結(jié)果。2.對同一個特定人,在安靜的環(huán)境下分別采集“前進〞、“后退〞、“確認〞、“停止〞、“取消〞、“關(guān)閉〞六條孤立詞的語音命令作為訓練模板,采用與第一種實驗相同的方案進行實驗,記錄下實驗結(jié)果。3.對于同一特定人,在安靜情況下采用“黑龍江大學〞、“信息學院〞、“端點檢測〞、“特定提取〞、“動態(tài)規(guī)劃〞、“模板訓練〞、“語音識別〞共七段語音信號作為識別對象,經(jīng)訓練后在多種噪聲環(huán)境下進行一系列的實驗。4.為了反映算法對于不同的特定人語音的識別率,增加對于非特定人之間的識別方案"在安靜條件下對總共三位特定人共采集1到10共10個數(shù)字聲音信號以及“黑〞、“龍〞、“江〞、“大〞、“學〞05個孤立字信號,每位特定人14段音頻信號,共51段語音信號,將這些信號作為參考模板庫。之后,對三位特定人在不同的信噪比環(huán)境下采用傳統(tǒng)的DTW方法以及簡化的DTW算法進行屢次識別實驗,并記錄下實驗結(jié)果。在以上所設(shè)計的四種實驗方案中,實驗方案1和方案2主要用于檢驗系統(tǒng)對特定人孤立詞的識別能力,以及系統(tǒng)在不同的噪聲環(huán)境中識別率的規(guī)律所在。通過這兩次實驗,找出系統(tǒng)所適用的信噪比范圍;方案3那么主要用于在系統(tǒng)所適用的背景噪聲范圍內(nèi)對于較長詞匯的識別率;方案4側(cè)重于研究系統(tǒng)對于不同的特定人的區(qū)分能力。3.3實驗結(jié)果與分析表3-1為第二種實驗方案的識別結(jié)果。從表中可以看出,識別率隨著信噪比的減小而越來越小。同時,這是因為采用詞語作為識別對象的時候,語音信號的隨機性更高,語速過快或者過慢時,所生成的特征向量的維數(shù)會發(fā)生變化,導致匹配過程中的距離增大,從而影響到系統(tǒng)的識別率。表3-1雙字詞匯識別結(jié)果表識別對象安靜條件識別率40db識別率30db識別率25db識別率前進90%80%60%50%后退100%80%80%70%確認95%90%60%55%停止100%100%100%100%取消100%90%85%80%關(guān)閉95%90%80%60%平均識別率96.7%88.3%77.5%69.2%通過前兩次的實驗可以看出,本系統(tǒng)所設(shè)計的算法并不適用于有較大外部噪聲的情況,也就是說信噪比應在30db以上才能保證一定的識別率,當信噪比低于30db之時,在很多詞匯上,尤其是相近以及輕易比擬明顯的語音上,識別率都會大大下降。表3-2四字詞匯識別結(jié)果識別對象安靜條件識別率40db識別率30db識別率黑龍江大學80%60%45%信息學院100%90%80%端點檢測70%65%70%特征提取95%95%90%動態(tài)規(guī)那么90%80%65%模板訓練95%95%85%語音識別100%80%85%平均識別率90%80.7%74.3%表3-2為方案3的實驗結(jié)果。由于前兩種方案己經(jīng)得出系統(tǒng)只適合在信噪比為3Odb以上的環(huán)境中進行實驗,因而只采用了三種背景作為實驗環(huán)境。通過實驗數(shù)據(jù)可以看出,系統(tǒng)對于較長詞匯的識別率相比于短小詞匯來說有一定下降,這是由于詞語較長,當特定人進行發(fā)音之時,語速的快慢變得尤為明顯。而較快的語音對應著較大的模板,較短的語音對應著較小的模板"就算是同一位特定人,對于四字詞匯的發(fā)音時間也會有較大變化,從而導致了語音信號的長短不一。另外,對于長詞匯的語音信號來說,如果語速過慢就會導致端點檢測時出現(xiàn)問題,導致識別率降低,并最終導致識別率的下降。表3-3非特定人孤立詞識別結(jié)果安靜條件識別率40db識別率30db識別率語音正確率92.6%91.3%83.9%信息學院93.9%92.6%85.2%端點檢測90.9%88.2%78.2%表3-3為第4種實驗方案的實驗結(jié)果。從表上可以看出,相比于特定人孤立字來說,系統(tǒng)的識別成功率有所下降,但是在很安靜的情況下系統(tǒng)的識別率仍然保持在了90%以上,說明本算法對于對于不同的特定人有一定的區(qū)分能力。由于本實驗主要采用MATLAB進行算法仿真,因此為了研究此系統(tǒng)在單片機上運行的可行性,錄制了多個.wav音頻文件,并進行大量的語音信號處理和模板匹配的實驗,記錄下總的運行時間。由于實驗時間受到孤立詞長度等因素的影響,不同的詞長對應的運行時間不一樣,因此采用孤立字作為研究對象。另外,為了計算匹配時的計算速度,選取兩組孤立詞音頻,每組10段,其中一組作為模板,另外一組每個音頻信號與模板中的10個進行匹配實驗,總共100次匹配,記錄下總時間。實驗說明,總共100次匹配的平均時間為475ms,每次的匹配平均時間為4.75ms,因此10段模板,那么待識別信號與所有模板匹配所需的時間為47.5ms??梢酝茢?一段孤立字信號從錄制完畢,到提取出特征向量,一直到與已存的10段模板信號進行模式匹配找到最正確匹配結(jié)果需要100ms左右。而本實驗系統(tǒng)的主頻為1.8GHz,采用的犯位操作系統(tǒng),因此,如果將系統(tǒng)移植到8位單片機之上,計算時間會大大增加,基于這些原因,還需要對系統(tǒng)的算法進行進一步的簡化處理。通過以上的實驗,大致可以得出以下結(jié)論:(l)本系統(tǒng)在安靜條件下的條件下對于孤立詞能夠到達一定的識別率。(2)隨著信噪比的降低,系統(tǒng)的識別率也會下降。在信噪比大于30曲的環(huán)境下時系統(tǒng)能保證較高的識別率。(3)詞長度的增加,系統(tǒng)的識別率會下降。(4)對于不同的特定人有一定的區(qū)分能力,但是識別率會比同一位特定人要低。(5)假設(shè)要將系統(tǒng)移植到單片機之上,還需要進一步的簡化。結(jié)論語音識別在未來的通信領(lǐng)域有著廣闊的開展前景。本文主要研究基于C805IF040單片機的語音識別系統(tǒng)。算法上采用動態(tài)時間規(guī)整DTW理論和方法,進行特定人、短小詞匯的嵌入式語音系統(tǒng)。本文研究的主要內(nèi)容包括:(l)討論了語音信號處理中的主要技術(shù),包括預處理、端點檢測、特征提取等一系列算法,并針對本系統(tǒng)的目的對各類算法進行了選取并對其中的一些環(huán)節(jié)作了改良。(2)對語音識別中的DTW算法進行了原理性介紹,通過對算法的分析,總結(jié)出傳統(tǒng)的DTW算法在很多地方的缺乏,采用一種全局限制的DTW算法,大大減少了系統(tǒng)的計算量,經(jīng)過實驗證明了這種算法的有效性。在進行模板匹配的過程中,采用平均模板的方法,增強了系統(tǒng)的魯棒性。(3)對系統(tǒng)的硬件組成局部進行了設(shè)計和研究,包括方案的設(shè)計、功能子程序的設(shè)計、芯片的選型以及硬件外圍電路的設(shè)計。(4)對系統(tǒng)軟件進行了開發(fā)研究,包括了主程序的設(shè)計、語音識別中所采用的一系列算法的設(shè)計。(5)對系統(tǒng)的算法進行了仿真研究,采用了四種實驗方案,對系統(tǒng)在不同的背景噪聲環(huán)境下、不同長度的孤立詞、不同的特定人進行了全面的實驗,最終實驗結(jié)果說明系統(tǒng)對于特定人孤立詞有較好的識別效果。本文對特定人孤立詞語音識別系統(tǒng)作了一定的研究,對語音識別技術(shù)的研究與使用有一定的借
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 魯京津瓊專用2025版高考數(shù)學大一輪復習第九章平面解析幾何高考專題突破五高考中的圓錐曲線問題第2課時定點與定值問題教案含解析
- 江蘇省2025版高考語文大三輪復習特色專項訓練四語言文字運用+小說+詩歌+名句含解析
- 浙江鴨2025版高中生物考前特訓選擇題快練考點4遺傳的細胞學基礎(chǔ)含解析
- 汽車寄存保管合同范本
- 部編版道德與法治四年級上冊全冊教案教學設(shè)計
- 足球賽事籌備與組織管理技巧
- 質(zhì)量管理體系在醫(yī)藥企業(yè)的實施與效果評估
- 爭做環(huán)保小衛(wèi)士演講稿
- 跨學科視角下的學校安全管理研究進展
- 江蘇2025年02月無錫市衛(wèi)生健康委員會直屬事業(yè)單位公開招考198名高端類專技人才(長期)筆試歷年典型考題(歷年真題考點)解題思路附帶答案詳解
- 統(tǒng)編版小學語文六年級下冊第四單元《理想和信念》作業(yè)設(shè)計
- 2025年春季學期學校工作計劃及安排表
- 化驗班組安全培訓
- 英語-廣東省大灣區(qū)2025屆高三第一次模擬試卷和答案
- 丹佛斯變頻器培訓經(jīng)典課件
- 2024年06月日照銀行社會招聘筆試歷年參考題庫附帶答案詳解
- 烤房租賃合同范例
- 建筑地暖系統(tǒng)工程安裝考核試卷
- 專題四 指數(shù)函數(shù)與對數(shù)函數(shù)【中職專用】2025春季對口高考數(shù)學專題復習(河南適用)(解析版)
- 江蘇卷2024年高考語文第一次模擬考試一(原卷版+解析版)
- 2024解析:第十六章電壓和電阻-講核心(解析版)
評論
0/150
提交評論