語音識別基本知識及單元模塊專項方案設(shè)計_第1頁
語音識別基本知識及單元模塊專項方案設(shè)計_第2頁
語音識別基本知識及單元模塊專項方案設(shè)計_第3頁
語音識別基本知識及單元模塊專項方案設(shè)計_第4頁
語音識別基本知識及單元模塊專項方案設(shè)計_第5頁
已閱讀5頁,還剩3頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

語音識別是以語音為研究對象,經(jīng)過語音信號處理和模式識別讓機(jī)器自動識別和了解人類口述語言。語音識別技術(shù)就是讓機(jī)器經(jīng)過識別和了解過程把語音信號轉(zhuǎn)變?yōu)閷?yīng)文本或命令高技術(shù)。語音識別是一門包含面很廣交叉學(xué)科,它和聲學(xué)、語音學(xué)、語言學(xué)、信息理論、模式識別理論和神經(jīng)生物學(xué)等學(xué)科全部有很親密關(guān)系。語音識別技術(shù)正逐步成為計算機(jī)信息處理技術(shù)中關(guān)鍵技術(shù),語音技術(shù)應(yīng)用已經(jīng)成為一個含有競爭性新興高技術(shù)產(chǎn)業(yè)。1語音識別基礎(chǔ)原理語音識別系統(tǒng)本質(zhì)上是一個模式識別系統(tǒng),包含特征提取、模式匹配、參考模式庫等三個基礎(chǔ)單元,它基礎(chǔ)結(jié)構(gòu)以下圖所表示:未知語音經(jīng)過話筒變換成電信號后加在識別系統(tǒng)輸入端,首先經(jīng)過預(yù)處理,再依據(jù)人語音特點建立語音模型,對輸入語音信號進(jìn)行分析,并抽取所需特征,在此基礎(chǔ)上建立語音識別所需模板。而計算機(jī)在識別過程中要依據(jù)語音識別模型,將計算機(jī)中存放語音模板和輸入語音信號特征進(jìn)行比較,依據(jù)一定搜索和匹配策略,找出一系列最優(yōu)和輸入語音匹配模板。然后依據(jù)此模板定義,經(jīng)過查表就能夠給出計算機(jī)識別結(jié)果。顯然,這種最優(yōu)結(jié)果和特征選擇、語音模型好壞、模板是否正確全部有直接關(guān)系。2語音識別方法現(xiàn)在含有代表性語音識別方法關(guān)鍵有動態(tài)時間規(guī)整技術(shù)(DTW)、隱馬爾可夫模型(HMM)、矢量量化(VQ)、人工神經(jīng)網(wǎng)絡(luò)(ANN)、支持向量機(jī)(SVM)等方法。動態(tài)時間規(guī)整算法(DynamicTimeWarping,DTW)是在非特定人語音識別中一個簡單有效方法,該算法基于動態(tài)計劃思想,處理了發(fā)音長短不一模板匹配問題,是語音識別技術(shù)中出現(xiàn)較早、較常見一個算法。在應(yīng)用DTW算法進(jìn)行語音識別時,就是將已經(jīng)預(yù)處理和分幀過語音測試信號和參考語音模板進(jìn)行比較以獲取她們之間相同度,按照某種距離測度得出兩模板間相同程度并選擇最好路徑。隱馬爾可夫模型(HMM)是語音信號處理中一個統(tǒng)計模型,是由Markov鏈演變來,所以它是基于參數(shù)模型統(tǒng)計識別方法。因為其模式庫是經(jīng)過反復(fù)訓(xùn)練形成和訓(xùn)練輸出信號吻合概率最大最好模型參數(shù)而不是預(yù)先儲存好模式樣本,且其識別過程中利用待識別語音序列和HMM參數(shù)之間似然概率達(dá)成最大值所對應(yīng)最好狀態(tài)序列作為識別輸出,所以是較理想語音識別模型。矢量量化(VectorQuantization)是一個關(guān)鍵信號壓縮方法。和HMM相比,矢量量化關(guān)鍵適適用于小詞匯量、孤立詞語音識別中。其過程是將若干個語音信號波形或特征參數(shù)標(biāo)量數(shù)據(jù)組成一個矢量在多維空間進(jìn)行整體量化。把矢量空間分成若干個小區(qū)域,每個小區(qū)域?qū)で笠粋€代表矢量,量化時落入小區(qū)域矢量就用這個代表矢量替換。矢量量化器設(shè)計就是從大量信號樣本中訓(xùn)練出好碼書,從實際效果出發(fā)尋求到好失真測度定義公式,設(shè)計出最好矢量量化系統(tǒng),用最少搜索和計算失真運算量實現(xiàn)最大可能平均信噪比。在實際應(yīng)用過程中,大家還研究了多個降低復(fù)雜度方法,包含無記憶矢量量化、有記憶矢量量化和模糊矢量量化方法。人工神經(jīng)網(wǎng)絡(luò)(ANN)是20世紀(jì)80年代末期提出一個新語音識別方法。其本質(zhì)上是一個自適應(yīng)非線性動力學(xué)系統(tǒng),模擬了人類神經(jīng)活動原理,含有自適應(yīng)性、并行性、魯棒性、容錯性和學(xué)習(xí)特征,其強(qiáng)大分類能力和輸入—輸出映射能力在語音識別中全部很有吸引力。其方法是模擬人腦思維機(jī)制工程模型,它和HMM恰好相反,其分類決議能力和對不確定信息描述能力得到舉世公認(rèn),但它對動態(tài)時間信號描述能力尚不盡如人意,通常MLP分類器只能處理靜態(tài)模式分類問題,并不包含時間序列處理。盡管學(xué)者們提出了很多含反饋結(jié)構(gòu),但它們?nèi)圆蛔阋钥坍嬛T如語音信號這種時間序列動態(tài)特征。因為ANN不能很好地描述語音信號時間動態(tài)特征,所以常把ANN和傳統(tǒng)識別方法結(jié)合,分別利用各自優(yōu)點來進(jìn)行語音識別而克服HMM和ANN各自缺點。多年來結(jié)合神經(jīng)網(wǎng)絡(luò)和隱含馬爾可夫模型識別算法研究取得了顯著進(jìn)展,其識別率已經(jīng)靠近隱含馬爾可夫模型識別系統(tǒng),深入提升了語音識別魯棒性和正確率。支持向量機(jī)(Supportvectormachine)是應(yīng)用統(tǒng)計學(xué)理論一個新學(xué)習(xí)機(jī)模型,采取結(jié)構(gòu)風(fēng)險最小化原理(StructuralRiskMinimization,SRM),有效克服了傳統(tǒng)經(jīng)驗風(fēng)險最小化方法缺點。兼顧訓(xùn)練誤差和泛化能力,在處理小樣本、非線性及高維模式識別方面有很多優(yōu)越性能,已經(jīng)被廣泛地應(yīng)用到模式識別領(lǐng)域。3語音識別系統(tǒng)分類語音識別系統(tǒng)能夠依據(jù)對輸入語音限制加以分類。假如從說話者和識別系統(tǒng)相關(guān)性考慮,能夠?qū)⒆R別系統(tǒng)分為三類:(1)特定人語音識別系統(tǒng)。僅考慮對于專員話音進(jìn)行識別。(2)非特定人語音系統(tǒng)。識別語音和人無關(guān),通常要用大量不一樣人語音數(shù)據(jù)庫對識別系統(tǒng)進(jìn)行學(xué)習(xí)。(3)多人識別系統(tǒng)。通常能識別一組人語音,或成為特定組語音識別系統(tǒng),該系統(tǒng)僅要求對要識別那組人語音進(jìn)行訓(xùn)練。假如從說話方法考慮,也能夠?qū)⒆R別系統(tǒng)分為三類:(1)孤立詞語音識別系統(tǒng)。孤立詞識別系統(tǒng)要求輸入每個詞后要停頓。(2)連接詞語音識別系統(tǒng)。連接詞輸入系統(tǒng)要求對每個詞全部清楚發(fā)音,部分連音現(xiàn)象開始出現(xiàn)。(3)連續(xù)語音識別系統(tǒng)。連續(xù)語音輸入是自然流利連續(xù)語音輸入,大量連音和變音會出現(xiàn)。假如從識別系統(tǒng)詞匯量大小考慮,也可以將識別系統(tǒng)分為三類:(1)小詞匯量語音識別系統(tǒng)。通常包含幾十個詞語音識別系統(tǒng)。(2)中等詞匯量語音識別系統(tǒng)。通常包含幾百個詞到上千個詞識別系統(tǒng)。(3)大詞匯量語音識別系統(tǒng)。通常包含幾千到幾萬個詞語音識別系統(tǒng)。伴隨計算機(jī)和數(shù)字信號處理器運算能力和識別系統(tǒng)精度提升,識別系統(tǒng)依據(jù)詞匯量大小進(jìn)行分類也不停進(jìn)行改變?,F(xiàn)在是中等詞匯量識別系統(tǒng),未來可能就是小詞匯量語音識別系統(tǒng)。這些不一樣限制也確定了語音識別系統(tǒng)困難度。4語音識別概述語音識別技術(shù),AutomaticSpeechRecognition,簡稱ASR,是一個讓機(jī)器聽懂人類語言技術(shù)。語言是人類進(jìn)行信息交流最關(guān)鍵、最長用、最直接方法。語音識別技術(shù)是實現(xiàn)人機(jī)對話一項重大突破,在國外多年來發(fā)展十分快速,其應(yīng)用也逐步得到推廣。近幾年逐步普及IVR(自動電話應(yīng)答)處理了不少簡單而又反復(fù)咨詢工作,節(jié)省了不少人力,但這種按鍵式語音自動應(yīng)答卻讓用戶花費很多時間按指導(dǎo)來完成簡單查詢,令用戶倍感不便。語音識別無疑能夠處理該方面問題。語音識別系統(tǒng)開發(fā)成功,充足發(fā)揮了計算機(jī)技術(shù)和網(wǎng)絡(luò)技術(shù)優(yōu)勢,采取優(yōu)異人機(jī)對話方法,擺脫電話按鍵束縛,大家只要象日常一樣對著電話簡單說出所需服務(wù)項目,即可輕松獲取自動系統(tǒng)提供所需信息。5語音識別應(yīng)用Nuance企業(yè)是自然語音接口軟件佼佼者。使用自然語音接口軟件,大家能夠經(jīng)過電話方便安全地獲取信息、服務(wù)并進(jìn)行交易。天天,千千萬萬人經(jīng)過撥打運行Nuance企業(yè)語音識別、語言了解和聲紋判別軟件電話,進(jìn)行出游預(yù)訂、股票交易、和其它通訊媒體、企業(yè)和互聯(lián)網(wǎng)系統(tǒng)進(jìn)行交往等活動。NUANCE應(yīng)用:美國航空、BellAtlantic、CharlesSchwab、家庭購物網(wǎng)絡(luò)、LloydsTSB、Sears、UPS。NUANCE語音識別特點(1)海量詞匯、獨立于講話者健壯識別功效Nuance系統(tǒng)能可靠地對多個語言進(jìn)行大詞匯量識別,并可提供識別結(jié)果置信度。該系統(tǒng)對商業(yè)上使用大量詞匯提供最正確語音識別技術(shù)。利用Nuance系統(tǒng)開發(fā)應(yīng)用程序,在市場上含有最高正確率。生產(chǎn)中應(yīng)用程序經(jīng)測試,正確性超出96%。(2)基于主機(jī)用戶/服務(wù)機(jī)結(jié)構(gòu)Nuance系統(tǒng)基于開放式用戶/服務(wù)機(jī)結(jié)構(gòu),尤其為大型應(yīng)用程序所需健壯性和可伸縮性而設(shè)計。呼叫者講話由用戶端搜集,而識別和判別處理負(fù)載被平均分配到網(wǎng)絡(luò)上多個分開服務(wù)器上。(3)N-Best處理對于有些應(yīng)用程序,可能需要識別引擎產(chǎn)生可能識別結(jié)果集,而不是一個最好結(jié)果。Nuance系統(tǒng)N-best識別處理方法便有這個功效,它提供了可能識別結(jié)果列表,并按可能性從高到低排列。(4)語法概率Nuance系統(tǒng)許可對呼叫者所講特定詞語或短語在語法中概率進(jìn)行指定。當(dāng)被講詞語或短語概率可依據(jù)實際使用進(jìn)行估量時,很有用。對語法增加概率可提升識別正確率和速度。(5)降低噪音當(dāng)進(jìn)來呼叫包含穩(wěn)定背景噪音時,Nuance系統(tǒng)經(jīng)過一個機(jī)制,使識別服務(wù)器更正確地進(jìn)行識別。識別服務(wù)器將進(jìn)來話語進(jìn)行增強(qiáng),以有效地將語氣、嗡嗡聲、哼叫聲、噓噓聲等噪聲過濾。假如相當(dāng)數(shù)量電話均含有穩(wěn)定背景噪聲,比如在汽車上免提打電話時,這個機(jī)制效果較理想。6.基于識別應(yīng)用語音短信本身業(yè)務(wù)、企業(yè)電話簿、個人電話簿、智能點歌、股票查詢和交易、智能信息點播、列車時刻查詢企業(yè)電話簿特點?系統(tǒng)支持電話接入方法用戶可經(jīng)過電話修改個人密碼,個人上班電話和非上班電話?系統(tǒng)支持WEB接入方法?系統(tǒng)管理員可修改全部信息?各企業(yè)管理員可增加,刪除,修改本企業(yè)電話信息7語音識別單元設(shè)計現(xiàn)在,語音識別技術(shù)發(fā)展十分快速,根據(jù)識別對象類型能夠分為特定人和非特定人語音識別。特定人是指識別對象為專門人,非特定人是指識別對象是針對大多數(shù)用戶,通常需要采集多個人語音進(jìn)行錄音和訓(xùn)練,經(jīng)過學(xué)習(xí),從而達(dá)成較高識別率。本文采取LD3320語音識別芯片是一顆基于非特定人語音識別技術(shù)芯片。該芯片上集成了高精度A/D和D/A接口,不再需要外接輔助FLASH和RAM,即能夠?qū)崿F(xiàn)語音識別、聲控、人機(jī)對話功效,提供了真正單芯片語音識別處理方案。而且,識別關(guān)鍵詞語列表是能夠動態(tài)編輯。其語音識別過程如圖2所表示。語音識別單元采取ATmega168作為MCU,負(fù)責(zé)控制LD3320完成全部和語音識別相關(guān)工作,并將識別結(jié)果經(jīng)過串口上傳至Arduinomega2560控制器。對LD3320芯片多種操作,全部必需經(jīng)過寄存器操作來完成,寄存器讀寫操作有2種方法(標(biāo)準(zhǔn)并行方法和串行SPI方法)。在此采取并行方法,將LD3320數(shù)據(jù)端口和MCUI/O口相連。其硬件連接圖圖3所表示。語音識別步驟采取中止方法工作,其工作步驟分為初始化、寫入關(guān)鍵詞、開始識別和響應(yīng)中止等。MCU程序采取ARDUINOIDE編寫[5],調(diào)試完成后經(jīng)過串口進(jìn)行燒錄,控制LD3320完成語音識別,并將識別結(jié)果上傳至Arduinomega2560控制器。其軟件步驟圖4所表示。8系統(tǒng)軟件設(shè)計示教和回放系統(tǒng)軟件設(shè)計包含測控計算機(jī)軟件設(shè)計和各從設(shè)備Arduinomega260控制器軟件設(shè)計。測控計算機(jī)是整個系統(tǒng)控制關(guān)鍵,其軟件采取C#進(jìn)行編寫,在示教和回放系統(tǒng)中關(guān)鍵是對操作數(shù)據(jù)統(tǒng)計方便依據(jù)所統(tǒng)計數(shù)據(jù)對操作過程進(jìn)行正確回放,需要統(tǒng)計數(shù)據(jù)包含:各從設(shè)備操作人員操作口令,操作動作,口令及動作時間,各操作對應(yīng)操作現(xiàn)象。為簡化統(tǒng)計數(shù)據(jù),事先編制好各事件代碼,統(tǒng)計過程只記錄代碼,大大提升程序效率。建立結(jié)構(gòu)體以下:在操作訓(xùn)練過程中測控計算機(jī)每隔50ms對下位機(jī)進(jìn)行控制及輪詢,并統(tǒng)計反饋數(shù)據(jù),在數(shù)據(jù)統(tǒng)計時以50ms為一個單位。采取定時器對時間進(jìn)行控制。在回放過程中首先比對目前時間和所統(tǒng)計時間,當(dāng)所統(tǒng)計時間和目前時間吻合時測控計算機(jī)控制下位機(jī)實施該事件,完成事件回放。Arduinomega2560控制器負(fù)責(zé)接收測控計算機(jī)控制指令并實施指令,讀取

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論