語音識別基本知識及單元模塊專項方案設(shè)計

上傳人：1*** IP屬地：湖北上傳時間：2024-04-27 格式：DOCX 頁數(shù)：8 大小：114.73KB 積分：6 舉報 版權(quán)申訴

已閱讀5頁，還剩3頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

語音識別是以語音為研究對象，經(jīng)過語音信號處理和模式識別讓機(jī)器自動識別和了解人類口述語言。語音識別技術(shù)就是讓機(jī)器經(jīng)過識別和了解過程把語音信號轉(zhuǎn)變?yōu)閷?yīng)文本或命令高技術(shù)。語音識別是一門包含面很廣交叉學(xué)科，它和聲學(xué)、語音學(xué)、語言學(xué)、信息理論、模式識別理論和神經(jīng)生物學(xué)等學(xué)科全部有很親密關(guān)系。語音識別技術(shù)正逐步成為計算機(jī)信息處理技術(shù)中關(guān)鍵技術(shù)，語音技術(shù)應(yīng)用已經(jīng)成為一個含有競爭性新興高技術(shù)產(chǎn)業(yè)。1語音識別基礎(chǔ)原理語音識別系統(tǒng)本質(zhì)上是一個模式識別系統(tǒng)，包含特征提取、模式匹配、參考模式庫等三個基礎(chǔ)單元，它基礎(chǔ)結(jié)構(gòu)以下圖所表示：未知語音經(jīng)過話筒變換成電信號后加在識別系統(tǒng)輸入端，首先經(jīng)過預(yù)處理，再依據(jù)人語音特點建立語音模型，對輸入語音信號進(jìn)行分析，并抽取所需特征，在此基礎(chǔ)上建立語音識別所需模板。而計算機(jī)在識別過程中要依據(jù)語音識別模型，將計算機(jī)中存放語音模板和輸入語音信號特征進(jìn)行比較，依據(jù)一定搜索和匹配策略，找出一系列最優(yōu)和輸入語音匹配模板。然后依據(jù)此模板定義，經(jīng)過查表就能夠給出計算機(jī)識別結(jié)果。顯然，這種最優(yōu)結(jié)果和特征選擇、語音模型好壞、模板是否正確全部有直接關(guān)系。2語音識別方法現(xiàn)在含有代表性語音識別方法關(guān)鍵有動態(tài)時間規(guī)整技術(shù)（DTW）、隱馬爾可夫模型（HMM）、矢量量化（VQ）、人工神經(jīng)網(wǎng)絡(luò)（ANN）、支持向量機(jī)（SVM）等方法。動態(tài)時間規(guī)整算法（DynamicTimeWarping，DTW）是在非特定人語音識別中一個簡單有效方法，該算法基于動態(tài)計劃思想，處理了發(fā)音長短不一模板匹配問題，是語音識別技術(shù)中出現(xiàn)較早、較常見一個算法。在應(yīng)用DTW算法進(jìn)行語音識別時，就是將已經(jīng)預(yù)處理和分幀過語音測試信號和參考語音模板進(jìn)行比較以獲取她們之間相同度，按照某種距離測度得出兩模板間相同程度并選擇最好路徑。隱馬爾可夫模型（HMM）是語音信號處理中一個統(tǒng)計模型，是由Markov鏈演變來，所以它是基于參數(shù)模型統(tǒng)計識別方法。因為其模式庫是經(jīng)過反復(fù)訓(xùn)練形成和訓(xùn)練輸出信號吻合概率最大最好模型參數(shù)而不是預(yù)先儲存好模式樣本，且其識別過程中利用待識別語音序列和HMM參數(shù)之間似然概率達(dá)成最大值所對應(yīng)最好狀態(tài)序列作為識別輸出，所以是較理想語音識別模型。矢量量化（VectorQuantization）是一個關(guān)鍵信號壓縮方法。和HMM相比，矢量量化關(guān)鍵適適用于小詞匯量、孤立詞語音識別中。其過程是將若干個語音信號波形或特征參數(shù)標(biāo)量數(shù)據(jù)組成一個矢量在多維空間進(jìn)行整體量化。把矢量空間分成若干個小區(qū)域，每個小區(qū)域?qū)で笠粋€代表矢量，量化時落入小區(qū)域矢量就用這個代表矢量替換。矢量量化器設(shè)計就是從大量信號樣本中訓(xùn)練出好碼書，從實際效果出發(fā)尋求到好失真測度定義公式，設(shè)計出最好矢量量化系統(tǒng)，用最少搜索和計算失真運算量實現(xiàn)最大可能平均信噪比。在實際應(yīng)用過程中，大家還研究了多個降低復(fù)雜度方法，包含無記憶矢量量化、有記憶矢量量化和模糊矢量量化方法。人工神經(jīng)網(wǎng)絡(luò)（ANN）是20世紀(jì)80年代末期提出一個新語音識別方法。其本質(zhì)上是一個自適應(yīng)非線性動力學(xué)系統(tǒng)，模擬了人類神經(jīng)活動原理，含有自適應(yīng)性、并行性、魯棒性、容錯性和學(xué)習(xí)特征，其強(qiáng)大分類能力和輸入—輸出映射能力在語音識別中全部很有吸引力。其方法是模擬人腦思維機(jī)制工程模型，它和HMM恰好相反，其分類決議能力和對不確定信息描述能力得到舉世公認(rèn)，但它對動態(tài)時間信號描述能力尚不盡如人意，通常MLP分類器只能處理靜態(tài)模式分類問題，并不包含時間序列處理。盡管學(xué)者們提出了很多含反饋結(jié)構(gòu)，但它們?nèi)圆蛔阋钥坍嬛T如語音信號這種時間序列動態(tài)特征。因為ANN不能很好地描述語音信號時間動態(tài)特征，所以常把ANN和傳統(tǒng)識別方法結(jié)合，分別利用各自優(yōu)點來進(jìn)行語音識別而克服HMM和ANN各自缺點。多年來結(jié)合神經(jīng)網(wǎng)絡(luò)和隱含馬爾可夫模型識別算法研究取得了顯著進(jìn)展，其識別率已經(jīng)靠近隱含馬爾可夫模型識別系統(tǒng)，深入提升了語音識別魯棒性和正確率。支持向量機(jī)（Supportvectormachine）是應(yīng)用統(tǒng)計學(xué)理論一個新學(xué)習(xí)機(jī)模型，采取結(jié)構(gòu)風(fēng)險最小化原理（StructuralRiskMinimization，SRM），有效克服了傳統(tǒng)經(jīng)驗風(fēng)險最小化方法缺點。兼顧訓(xùn)練誤差和泛化能力，在處理小樣本、非線性及高維模式識別方面有很多優(yōu)越性能，已經(jīng)被廣泛地應(yīng)用到模式識別領(lǐng)域。3語音識別系統(tǒng)分類語音識別系統(tǒng)能夠依據(jù)對輸入語音限制加以分類。假如從說話者和識別系統(tǒng)相關(guān)性考慮，能夠?qū)⒆R別系統(tǒng)分為三類：（1）特定人語音識別系統(tǒng)。僅考慮對于專員話音進(jìn)行識別。（2）非特定人語音系統(tǒng)。識別語音和人無關(guān)，通常要用大量不一樣人語音數(shù)據(jù)庫對識別系統(tǒng)進(jìn)行學(xué)習(xí)。（3）多人識別系統(tǒng)。通常能識別一組人語音，或成為特定組語音識別系統(tǒng)，該系統(tǒng)僅要求對要識別那組人語音進(jìn)行訓(xùn)練。假如從說話方法考慮，也能夠?qū)⒆R別系統(tǒng)分為三類：（1）孤立詞語音識別系統(tǒng)。孤立詞識別系統(tǒng)要求輸入每個詞后要停頓。（2）連接詞語音識別系統(tǒng)。連接詞輸入系統(tǒng)要求對每個詞全部清楚發(fā)音，部分連音現(xiàn)象開始出現(xiàn)。（3）連續(xù)語音識別系統(tǒng)。連續(xù)語音輸入是自然流利連續(xù)語音輸入，大量連音和變音會出現(xiàn)。假如從識別系統(tǒng)詞匯量大小考慮，也可以將識別系統(tǒng)分為三類：（1）小詞匯量語音識別系統(tǒng)。通常包含幾十個詞語音識別系統(tǒng)。（2）中等詞匯量語音識別系統(tǒng)。通常包含幾百個詞到上千個詞識別系統(tǒng)。（3）大詞匯量語音識別系統(tǒng)。通常包含幾千到幾萬個詞語音識別系統(tǒng)。伴隨計算機(jī)和數(shù)字信號處理器運算能力和識別系統(tǒng)精度提升，識別系統(tǒng)依據(jù)詞匯量大小進(jìn)行分類也不停進(jìn)行改變?，F(xiàn)在是中等詞匯量識別系統(tǒng)，未來可能就是小詞匯量語音識別系統(tǒng)。這些不一樣限制也確定了語音識別系統(tǒng)困難度。4語音識別概述語音識別技術(shù)，AutomaticSpeechRecognition，簡稱ASR，是一個讓機(jī)器聽懂人類語言技術(shù)。語言是人類進(jìn)行信息交流最關(guān)鍵、最長用、最直接方法。語音識別技術(shù)是實現(xiàn)人機(jī)對話一項重大突破，在國外多年來發(fā)展十分快速，其應(yīng)用也逐步得到推廣。近幾年逐步普及IVR（自動電話應(yīng)答）處理了不少簡單而又反復(fù)咨詢工作，節(jié)省了不少人力，但這種按鍵式語音自動應(yīng)答卻讓用戶花費很多時間按指導(dǎo)來完成簡單查詢，令用戶倍感不便。語音識別無疑能夠處理該方面問題。語音識別系統(tǒng)開發(fā)成功，充足發(fā)揮了計算機(jī)技術(shù)和網(wǎng)絡(luò)技術(shù)優(yōu)勢，采取優(yōu)異人機(jī)對話方法，擺脫電話按鍵束縛，大家只要象日常一樣對著電話簡單說出所需服務(wù)項目，即可輕松獲取自動系統(tǒng)提供所需信息。5語音識別應(yīng)用Nuance企業(yè)是自然語音接口軟件佼佼者。使用自然語音接口軟件，大家能夠經(jīng)過電話方便安全地獲取信息、服務(wù)并進(jìn)行交易。天天，千千萬萬人經(jīng)過撥打運行Nuance企業(yè)語音識別、語言了解和聲紋判別軟件電話，進(jìn)行出游預(yù)訂、股票交易、和其它通訊媒體、企業(yè)和互聯(lián)網(wǎng)系統(tǒng)進(jìn)行交往等活動。NUANCE應(yīng)用：美國航空、BellAtlantic、CharlesSchwab、家庭購物網(wǎng)絡(luò)、LloydsTSB、Sears、UPS。NUANCE語音識別特點（1）海量詞匯、獨立于講話者健壯識別功效Nuance系統(tǒng)能可靠地對多個語言進(jìn)行大詞匯量識別，并可提供識別結(jié)果置信度。該系統(tǒng)對商業(yè)上使用大量詞匯提供最正確語音識別技術(shù)。利用Nuance系統(tǒng)開發(fā)應(yīng)用程序，在市場上含有最高正確率。生產(chǎn)中應(yīng)用程序經(jīng)測試，正確性超出96%。（2）基于主機(jī)用戶/服務(wù)機(jī)結(jié)構(gòu)Nuance系統(tǒng)基于開放式用戶/服務(wù)機(jī)結(jié)構(gòu)，尤其為大型應(yīng)用程序所需健壯性和可伸縮性而設(shè)計。呼叫者講話由用戶端搜集，而識別和判別處理負(fù)載被平均分配到網(wǎng)絡(luò)上多個分開服務(wù)器上。（3）N-Best處理對于有些應(yīng)用程序，可能需要識別引擎產(chǎn)生可能識別結(jié)果集，而不是一個最好結(jié)果。Nuance系統(tǒng)N-best識別處理方法便有這個功效，它提供了可能識別結(jié)果列表，并按可能性從高到低排列。（4）語法概率Nuance系統(tǒng)許可對呼叫者所講特定詞語或短語在語法中概率進(jìn)行指定。當(dāng)被講詞語或短語概率可依據(jù)實際使用進(jìn)行估量時，很有用。對語法增加概率可提升識別正確率和速度。（5）降低噪音當(dāng)進(jìn)來呼叫包含穩(wěn)定背景噪音時，Nuance系統(tǒng)經(jīng)過一個機(jī)制，使識別服務(wù)器更正確地進(jìn)行識別。識別服務(wù)器將進(jìn)來話語進(jìn)行增強(qiáng)，以有效地將語氣、嗡嗡聲、哼叫聲、噓噓聲等噪聲過濾。假如相當(dāng)數(shù)量電話均含有穩(wěn)定背景噪聲，比如在汽車上免提打電話時，這個機(jī)制效果較理想。6.基于識別應(yīng)用語音短信本身業(yè)務(wù)、企業(yè)電話簿、個人電話簿、智能點歌、股票查詢和交易、智能信息點播、列車時刻查詢企業(yè)電話簿特點?系統(tǒng)支持電話接入方法用戶可經(jīng)過電話修改個人密碼，個人上班電話和非上班電話?系統(tǒng)支持WEB接入方法?系統(tǒng)管理員可修改全部信息?各企業(yè)管理員可增加，刪除，修改本企業(yè)電話信息7語音識別單元設(shè)計現(xiàn)在，語音識別技術(shù)發(fā)展十分快速，根據(jù)識別對象類型能夠分為特定人和非特定人語音識別。特定人是指識別對象為專門人，非特定人是指識別對象是針對大多數(shù)用戶，通常需要采集多個人語音進(jìn)行錄音和訓(xùn)練，經(jīng)過學(xué)習(xí)，從而達(dá)成較高識別率。本文采取LD3320語音識別芯片是一顆基于非特定人語音識別技術(shù)芯片。該芯片上集成了高精度A/D和D/A接口，不再需要外接輔助FLASH和RAM，即能夠?qū)崿F(xiàn)語音識別、聲控、人機(jī)對話功效，提供了真正單芯片語音識別處理方案。而且，識別關(guān)鍵詞語列表是能夠動態(tài)編輯。其語音識別過程如圖2所表示。語音識別單元采取ATmega168作為MCU，負(fù)責(zé)控制LD3320完成全部和語音識別相關(guān)工作，并將識別結(jié)果經(jīng)過串口上傳至Arduinomega2560控制器。對LD3320芯片多種操作，全部必需經(jīng)過寄存器操作來完成，寄存器讀寫操作有2種方法（標(biāo)準(zhǔn)并行方法和串行SPI方法）。在此采取并行方法，將LD3320數(shù)據(jù)端口和MCUI/O口相連。其硬件連接圖圖3所表示。語音識別步驟采取中止方法工作，其工作步驟分為初始化、寫入關(guān)鍵詞、開始識別和響應(yīng)中止等。MCU程序采取ARDUINOIDE編寫［5］，調(diào)試完成后經(jīng)過串口進(jìn)行燒錄，控制LD3320完成語音識別，并將識別結(jié)果上傳至Arduinomega2560控制器。其軟件步驟圖4所表示。8系統(tǒng)軟件設(shè)計示教和回放系統(tǒng)軟件設(shè)計包含測控計算機(jī)軟件設(shè)計和各從設(shè)備Arduinomega260控制器軟件設(shè)計。測控計算機(jī)是整個系統(tǒng)控制關(guān)鍵，其軟件采取C#進(jìn)行編寫，在示教和回放系統(tǒng)中關(guān)鍵是對操作數(shù)據(jù)統(tǒng)計方便依據(jù)所統(tǒng)計數(shù)據(jù)對操作過程進(jìn)行正確回放，需要統(tǒng)計數(shù)據(jù)包含：各從設(shè)備操作人員操作口令，操作動作，口令及動作時間，各操作對應(yīng)操作現(xiàn)象。為簡化統(tǒng)計數(shù)據(jù)，事先編制好各事件代碼，統(tǒng)計過程只記錄代碼，大大提升程序效率。建立結(jié)構(gòu)體以下：在操作訓(xùn)練過程中測控計算機(jī)每隔50ms對下位機(jī)進(jìn)行控制及輪詢，并統(tǒng)計反饋數(shù)據(jù)，在數(shù)據(jù)統(tǒng)計時以50ms為一個單位。采取定時器對時間進(jìn)行控制。在回放過程中首先比對目前時間和所統(tǒng)計時間，當(dāng)所統(tǒng)計時間和目前時間吻合時測控計算機(jī)控制下位機(jī)實施該事件，完成事件回放。Arduinomega2560控制器負(fù)責(zé)接收測控計算機(jī)控制指令并實施指令，讀取

人人文庫> 全部分類> 應(yīng)用文書 > 作業(yè)報告

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

語音識別基本知識及單元模塊專項方案設(shè)計

文檔簡介

溫馨提示

最新文檔

評論

語音識別基本知識及單元模塊專項方案設(shè)計

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔