![智能機(jī)器人語音識(shí)別技術(shù)_第1頁](http://file2.renrendoc.com/fileroot_temp3/2021-10/23/8cc1d3bd-a2a4-4f2e-a8c3-4d4fb369cc4e/8cc1d3bd-a2a4-4f2e-a8c3-4d4fb369cc4e1.gif)
![智能機(jī)器人語音識(shí)別技術(shù)_第2頁](http://file2.renrendoc.com/fileroot_temp3/2021-10/23/8cc1d3bd-a2a4-4f2e-a8c3-4d4fb369cc4e/8cc1d3bd-a2a4-4f2e-a8c3-4d4fb369cc4e2.gif)
![智能機(jī)器人語音識(shí)別技術(shù)_第3頁](http://file2.renrendoc.com/fileroot_temp3/2021-10/23/8cc1d3bd-a2a4-4f2e-a8c3-4d4fb369cc4e/8cc1d3bd-a2a4-4f2e-a8c3-4d4fb369cc4e3.gif)
![智能機(jī)器人語音識(shí)別技術(shù)_第4頁](http://file2.renrendoc.com/fileroot_temp3/2021-10/23/8cc1d3bd-a2a4-4f2e-a8c3-4d4fb369cc4e/8cc1d3bd-a2a4-4f2e-a8c3-4d4fb369cc4e4.gif)
![智能機(jī)器人語音識(shí)別技術(shù)_第5頁](http://file2.renrendoc.com/fileroot_temp3/2021-10/23/8cc1d3bd-a2a4-4f2e-a8c3-4d4fb369cc4e/8cc1d3bd-a2a4-4f2e-a8c3-4d4fb369cc4e5.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、-作者xxxx-日期xxxx智能機(jī)器人語音識(shí)別技術(shù)【精品文檔】智能機(jī)器人語音識(shí)別技術(shù)姓名: 李占博 學(xué)號(hào): 201215715 關(guān)鍵詞:智能機(jī)器人;語音識(shí)別;隱馬爾可夫模型DSP摘要:給出了一種由說話者說出控制命令,機(jī)器人進(jìn)行識(shí)別理解,并執(zhí)行相應(yīng)動(dòng)作的實(shí)現(xiàn)技術(shù)。在此,提出了一種高準(zhǔn)確率端點(diǎn)檢測(cè)算法、高精度定點(diǎn)DSP動(dòng)態(tài)指數(shù)定標(biāo)算法,以解決定點(diǎn)DSP實(shí)現(xiàn)連續(xù)隱馬爾科夫模型CHMM識(shí)別算法時(shí)所涉及的大量浮點(diǎn)小數(shù)運(yùn)算問題,提高了定點(diǎn)DSP實(shí)現(xiàn)的實(shí)時(shí)性、精度,及其識(shí)別率。關(guān)鍵詞:智能機(jī)器人;語音識(shí)別;隱馬爾可夫模型;DSP1 語音識(shí)別概述 語音識(shí)別技術(shù)最早可以追溯到20世紀(jì)50年代,是試圖使機(jī)器能“聽
2、懂”人類語音的技術(shù)。按照目前主流的研究方法,連續(xù)語音識(shí)別和孤立詞語音識(shí)別采用的聲學(xué)模型一般不同。孤立詞語音識(shí)別一般采用DTW動(dòng)態(tài)時(shí)間規(guī)整算法。連續(xù)語音識(shí)別一般采用HMM模型或者HMM與人工神經(jīng)網(wǎng)絡(luò)ANN相結(jié)合。 語音的能量來源于正常呼氣時(shí)肺部呼出的穩(wěn)定氣流,喉部的聲帶既是閥門,又是振動(dòng)部件。語音信號(hào)可以看作是一個(gè)時(shí)間序列,可以由隱馬爾可夫模型(HMM)進(jìn)行表征。語音信號(hào)經(jīng)過數(shù)字化及濾噪處理之后,進(jìn)行端點(diǎn)檢測(cè)得到語音段。對(duì)語音段數(shù)據(jù)進(jìn)行特征提取,語音信號(hào)就被轉(zhuǎn)換成為了一個(gè)向量序列,作為觀察值。在訓(xùn)練過程中,觀察值用于估計(jì)HMM的參數(shù)。這些參數(shù)包括觀察值的概率密度函數(shù),及其對(duì)應(yīng)的狀態(tài),狀態(tài)轉(zhuǎn)移概率
3、等。當(dāng)參數(shù)估計(jì)完成后,估計(jì)出的參數(shù)即用于識(shí)別。此時(shí)經(jīng)過特征提取后的觀察值作為測(cè)試數(shù)據(jù)進(jìn)行識(shí)別,由此進(jìn)行識(shí)別準(zhǔn)確率的結(jié)果統(tǒng)計(jì)。訓(xùn)練及識(shí)別的結(jié)構(gòu)框圖如圖1所示。1. 1 端點(diǎn)檢測(cè) 找到語音信號(hào)的起止點(diǎn),從而減小語音信號(hào)處理過程中的計(jì)算量,是語音識(shí)別過程中一個(gè)基本而且重要的問題。端點(diǎn)作為語音分割的重要特征,其準(zhǔn)確性在很大程度上影響系統(tǒng)識(shí)別的性能。 能零積定義:一幀時(shí)間范圍內(nèi)的信號(hào)能量與該段時(shí)間內(nèi)信號(hào)過零率的乘積。 能零積門限檢測(cè)算法可以在不丟失語音信息的情況下,對(duì)語音進(jìn)行準(zhǔn)確的端點(diǎn)檢測(cè),經(jīng)過450個(gè)孤立詞(數(shù)字“09”)測(cè)試準(zhǔn)確率為98以上,經(jīng)該方法進(jìn)行語音分割后的語音,在進(jìn)入識(shí)別模塊時(shí)識(shí)別正確率達(dá)
4、95。 當(dāng)話者帶有呼吸噪聲,或周圍環(huán)境出現(xiàn)持續(xù)時(shí)間較短能量較高的噪聲,或者持續(xù)時(shí)間長而能量較弱的噪聲時(shí),能零積門限檢測(cè)算法就不能對(duì)這些噪聲進(jìn)行濾除,進(jìn)而被判作語音進(jìn)入識(shí)別模塊,導(dǎo)致誤識(shí)。圖2(a)所示為室內(nèi)環(huán)境,正常情況下采集到的帶有呼氣噪聲的數(shù)字“09”的語音信號(hào),利用能零積門限檢測(cè)算法得到的效果示意圖。最前面一段信號(hào)為呼氣噪聲,之后為數(shù)字“09”的語音。 從圖2(a)直觀的顯示出能零積算法在對(duì)付能量較弱,但持續(xù)時(shí)間長的噪音無能為力。由此引出了雙門限能零積檢測(cè)算法。 所謂的雙門限能零積算法指的是進(jìn)行兩次門限判斷。第一門限采用能零積,第二門限為單詞能零積平均值。也即在前面介紹的能零積檢測(cè)算法的
5、基礎(chǔ)上再進(jìn)行一次能零積平均值的判決。其中,第二門限的設(shè)定依據(jù)取決于所有實(shí)驗(yàn)樣本中呼氣噪聲的平均能零積及最小的語音單詞能零積之間的一個(gè)常數(shù)。如圖2(b)所示,即為圖2(a)中所示的語音文件經(jīng)過雙門限能零積檢測(cè)算法得到的檢測(cè)結(jié)果??梢悦黠@看到,最前一段信號(hào),即呼氣噪聲已經(jīng)被視為噪音濾除。12 隱馬爾可夫模型HMM 隱馬爾可夫模型,即HMM是一種基于概率方法的模式匹配方法。它的應(yīng)用是20世紀(jì)80年代以來語音識(shí)別領(lǐng)域取得的重要成果。 一個(gè)HMM模型可以表示為: 式中:為初始狀態(tài)概率分布,i=P(q1=i),1iN,表示初始狀態(tài)處于i的概率;A為狀態(tài)轉(zhuǎn)移概率矩陣,(aij)NN,aij=P(qt+1 =
6、j|qt=i),1i,jN;B為觀察值概率矩陣,B=bj(ot),j=1,2,N,表示觀察值輸出概率分布,也就是觀察值ot處于狀態(tài)j的概率。13 模型訓(xùn)練 HMM有多種結(jié)構(gòu)類型,并且有不同的分類方法。根據(jù)狀態(tài)轉(zhuǎn)移矩陣(A參數(shù))和觀察值輸出矩陣(B參數(shù))的不同有不同類型的HMM。 對(duì)于CHMM模型,當(dāng)有多個(gè)觀察值序列時(shí),其重估公式由參考文檔給出,此處不再贅述。14 概率計(jì)算 利用HMM的定義可以得出P(O|)的直接求取公式: 式(2)計(jì)算量巨大,是不能接受的。Rabiner提出了前向后向算法,計(jì)算量大大減小。定義前向概率: 式(2)表示的是初始前向概率,其中bi(o1)為觀察值序列處于t=1時(shí)刻
7、在狀態(tài)i時(shí)的輸出概率,由于它服從連續(xù)高斯混合分布,故此值往往極小。根據(jù)大量實(shí)驗(yàn)觀察,通常小于10-10,此值在定點(diǎn)DSP中已不能用Q格式表示。分析式(3)可以發(fā)現(xiàn),隨著時(shí)間t的增加,還會(huì)有大量的小數(shù)之間的乘法加法運(yùn)算,使得新的前向概率值at+1更小,逐漸趨向于0,定點(diǎn)DSP采用普通的Q格式進(jìn)行計(jì)算時(shí)便會(huì)負(fù)溢出,即便不發(fā)生負(fù)溢出也會(huì)大大丟失精度。因此必須尋找一種解決方法,在不影響DSP實(shí)時(shí)性的前提下,既不發(fā)生負(fù)溢出,又能提高精度。2 DSP實(shí)現(xiàn)語音識(shí)別 孤立詞語音識(shí)別一般采用DTW動(dòng)態(tài)時(shí)間規(guī)整算法。連續(xù)語音識(shí)別一般采用HMM模型或者HMM與人工神經(jīng)網(wǎng)絡(luò)ANN相結(jié)合。 為了能實(shí)時(shí)控制機(jī)器人,首先需
8、要考慮的是能夠?qū)崿F(xiàn)實(shí)時(shí)地語音識(shí)別。而考慮到CHMM的巨大計(jì)算量以及成本因素,采用了數(shù)據(jù)處理能力強(qiáng)大,成本相對(duì)較低的定點(diǎn)數(shù)字信號(hào)處理器,即定點(diǎn)DSP。本實(shí)驗(yàn)采用的是TI公司多媒體芯片TMS320DM642。定點(diǎn)DSP要能準(zhǔn)確、實(shí)時(shí)的實(shí)現(xiàn)語音識(shí)別,必須考慮2點(diǎn)問題:精度問題和實(shí)時(shí)性問題。 精度問題的產(chǎn)生原因已經(jīng)由14節(jié)詳細(xì)闡述,這里不再贅述。因此必須找出一種可以提高精度,而又不會(huì)對(duì)實(shí)時(shí)性造成影響的解決方法?;谝陨峡紤],本文提出了一種動(dòng)態(tài)指數(shù)定標(biāo)方法。這種方法類似于科學(xué)計(jì)數(shù)法,用2個(gè)32 b單元,一個(gè)單元表示指數(shù)部分EXP,另一個(gè)單元表示小數(shù)部分Frac。首先將待計(jì)算的數(shù)據(jù)按照指數(shù)定標(biāo)格式歸一化,
9、再進(jìn)行運(yùn)算。這樣當(dāng)數(shù)據(jù)進(jìn)行運(yùn)算時(shí),仍然是定點(diǎn)進(jìn)行,從而避開浮點(diǎn)算法,從而使精度可以達(dá)到要求。 對(duì)于實(shí)時(shí)性問題,通常,語音的頻率范圍大約是3003 400 Hz左右,因而本實(shí)驗(yàn)采樣率取8 kHz,16 b量化??紤]識(shí)別的實(shí)現(xiàn),必須將語音進(jìn)行分幀處理。研究表明,大約在1030 ms內(nèi),人的發(fā)音模型是相對(duì)穩(wěn)定的,所以本實(shí)驗(yàn)中取32 ms為一幀,16 ms為幀移的時(shí)間間隔。 解決實(shí)時(shí)性問題必須充分利用DSP芯片的片上資源。利用EDMA進(jìn)行音頻數(shù)據(jù)的搬移,提高CPU利用率。采用PINGPONG緩沖區(qū)進(jìn)行數(shù)據(jù)的緩存,以保證不丟失數(shù)據(jù)。CHMM訓(xùn)練的模板放于外部存儲(chǔ)器,由于外部存儲(chǔ)器較片內(nèi)存儲(chǔ)器的速度更慢,
10、因此開啟CACHE。建立DSPBIOS任務(wù),充分利用BIOS進(jìn)行任務(wù)之間的調(diào)度,實(shí)時(shí)處理新到的語音數(shù)據(jù),檢測(cè)語音的起止點(diǎn),當(dāng)有語音數(shù)據(jù)時(shí)再進(jìn)入下一任務(wù)進(jìn)行特征提取及識(shí)別。將識(shí)別結(jié)果用揚(yáng)聲器播放,并送入到機(jī)器人的控制模塊。 實(shí)驗(yàn)中,采用如圖3的程序架構(gòu)。3 機(jī)器人控制 機(jī)器人由自然條件下的語句進(jìn)行控制。這些語句描述了動(dòng)作的方向,以及動(dòng)作的幅度。為了簡單起見,讓機(jī)器人只執(zhí)行簡單命令。由手機(jī)進(jìn)行遙控,DSP模塊識(shí)別出語音命令,送控制命令到ARM模塊,驅(qū)動(dòng)左右機(jī)械輪執(zhí)行相應(yīng)動(dòng)作。31 硬件結(jié)構(gòu) 機(jī)器人的硬件結(jié)構(gòu)如圖4所示。 機(jī)器人主要有2大模塊,一個(gè)是基于DSP的語音識(shí)別模塊;另一個(gè)是基于ARM的控制
11、模塊,其機(jī)械足為兩滑輪。由語音識(shí)別模塊識(shí)別語音,由控制模塊控制機(jī)器人動(dòng)作。32 語音控制 首先根據(jù)需要,設(shè)置了如下幾個(gè)簡單命令:前、后、左、右。機(jī)器人各狀態(tài)之間的轉(zhuǎn)移關(guān)系如圖5所示。其中,等待狀態(tài)為默認(rèn)狀態(tài),當(dāng)每次執(zhí)行前后或左右轉(zhuǎn)命令后停止,即回到等待狀態(tài),此時(shí)為靜止?fàn)顟B(tài)。 語音的訓(xùn)練模板庫由4個(gè)命令加10個(gè)阿拉伯?dāng)?shù)字共14個(gè)組成,如下所示。 命令:“前”、“后”、“左”、“右”; 數(shù)字:“09”。 命令代表動(dòng)作的方向,數(shù)字代表動(dòng)作的幅度。當(dāng)執(zhí)行前后命令時(shí),數(shù)字的單位為dm,執(zhí)行左右轉(zhuǎn)彎命令時(shí),數(shù)字的單位為角度單位的20。每句命令句法為命令+數(shù)字。例如,語音“左2”表示的含義為向左轉(zhuǎn)彎40,“前4”表示向前直行4 dm。 機(jī)器人語音控制的關(guān)鍵在于語音識(shí)別的準(zhǔn)確率。表1給出了5個(gè)男聲樣本的識(shí)別統(tǒng)計(jì)結(jié)果。4 結(jié)語 工作中,成功地將CHMM模型
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 經(jīng)營酒吧合同
- 股份制改革流程文書模板與指導(dǎo)
- 汽車美容店合作協(xié)議書年
- 委托培訓(xùn)協(xié)議書
- 質(zhì)量管理體系培訓(xùn)指導(dǎo)書
- 2025年青海貨運(yùn)從業(yè)資證孝試模似題庫
- 小學(xué)三年級(jí)數(shù)學(xué)加減乘除混合口算
- 2025年黔東南道路貨運(yùn)駕駛員從業(yè)資格證考試題庫
- 2025年上海貨車叢業(yè)資格證考試題
- 2025年汕頭貨運(yùn)從業(yè)資格證怎么考試
- DL-T-692-2018電力行業(yè)緊急救護(hù)技術(shù)規(guī)范
- 2024年杭州錢塘新區(qū)建設(shè)投資集團(tuán)有限公司招聘筆試沖刺題(帶答案解析)
- 2023年四川省綿陽市中考數(shù)學(xué)試卷
- 《電力系統(tǒng)自動(dòng)化運(yùn)維綜合實(shí)》課件-SDH設(shè)備尾纖連接
- 安裝工程危險(xiǎn)源
- 愛國主義教育法 講座
- 小區(qū)監(jiān)控改造方案
- 建設(shè)施工安全風(fēng)險(xiǎn)辨識(shí)和管控清單
- GA/T 2016-2023公安視頻圖像信息系統(tǒng)運(yùn)維管理規(guī)范
- 第1課+古代亞非(教學(xué)設(shè)計(jì))【中職專用】《世界歷史》(高教版2023基礎(chǔ)模塊)
- 老年人誤吸的預(yù)防
評(píng)論
0/150
提交評(píng)論