LD3320的嵌入式語音識別系統(tǒng)的應(yīng)用-設(shè)計(jì)應(yīng)用

上傳人：1*** IP屬地：甘肅上傳時間：2023-04-18 格式：DOCX 頁數(shù)：10 大?。?47.78KB 積分：12 舉報(bào) 版權(quán)申訴

LD3320的嵌入式語音識別系統(tǒng)的應(yīng)用-設(shè)計(jì)應(yīng)用_第2頁

LD3320的嵌入式語音識別系統(tǒng)的應(yīng)用-設(shè)計(jì)應(yīng)用_第3頁

LD3320的嵌入式語音識別系統(tǒng)的應(yīng)用-設(shè)計(jì)應(yīng)用_第4頁

LD3320的嵌入式語音識別系統(tǒng)的應(yīng)用-設(shè)計(jì)應(yīng)用_第5頁

已閱讀5頁，還剩5頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

精品文檔-下載后可編輯LD3320的嵌入式語音識別系統(tǒng)的應(yīng)用-設(shè)計(jì)應(yīng)用摘要：語音交互系統(tǒng)是比較人性化的人機(jī)操作界面，它需要語音識別系統(tǒng)的支持。LD3320就是這樣一款語音識別芯片。介紹了該芯片的工作原理及應(yīng)用，給出了LD3320與微處理器的硬件接口電路及軟件程序。隨著MCU的不斷出現(xiàn)，以MCU為的嵌入式語音交互系統(tǒng)會有非常好的應(yīng)用前景。

1概述

在現(xiàn)代社會，"懶人科技"大行其道。當(dāng)面臨眾多繁瑣的按鍵操作和菜單選擇的時候，簡單地說出指令，是有人情味的人機(jī)操作界面。讓身邊的各種電子設(shè)備可"聽從"人類的語音，是從電影"星球大戰(zhàn)"就開始的科技發(fā)展目標(biāo)。雖然目前的科技還不能做到讓計(jì)算機(jī)完全理解人類的所有自然語音，但是可以在一定程度上實(shí)現(xiàn)這個夢想。

2特定人語音識別技術(shù)及原理

特定人語音識別（ASR,AutoSpeechRecognition）技術(shù)是基于"關(guān)鍵詞語列表"的識別技術(shù)，它是對大量的語音數(shù)據(jù)（相當(dāng)于對數(shù)千人采集的數(shù)萬小時的有效聲音數(shù)據(jù)）經(jīng)語言學(xué)家語音模型分析，建立數(shù)學(xué)模型，并經(jīng)過反復(fù)訓(xùn)練提取基元語音的細(xì)節(jié)特征，以及提取各基元間的特征差異，得到在統(tǒng)計(jì)概率化意義上的各個基元語音特征，才由資深工程師將算法以及語音模型轉(zhuǎn)換成硬件芯片并應(yīng)用在嵌入式系統(tǒng)中。

ASR技術(shù)每次識別的過程就是把用戶說出的語音內(nèi)容，通過頻譜轉(zhuǎn)換為語音特征，再將這個轉(zhuǎn)換后的語音特征和"關(guān)鍵詞語列表"中的條目一一進(jìn)行匹配，匹配的一條即作為識別結(jié)果。比如ASR技術(shù)在語音控制的手機(jī)應(yīng)用中，這個"關(guān)鍵詞語列表"的內(nèi)容就是電話本中的人名、手機(jī)的菜單命令或手機(jī)存儲卡中的歌曲名字。不論這個列表的條目內(nèi)容是什么，只需要用戶設(shè)置相關(guān)的寄存器，就可以把相應(yīng)的待識別條目內(nèi)容以字符形式傳遞給識別引擎。

由此可見，語音識別芯片完成的工作就是：把MIC（麥克風(fēng)）輸入的聲音進(jìn)行頻譜分析后提取語音特征，再和關(guān)鍵詞語列表中的關(guān)鍵詞語進(jìn)行對比匹配，找出得分的關(guān)鍵詞語作為識別結(jié)果輸出。

通?；贏SR技術(shù)的語音識別芯片能在兩種情況下給出識別結(jié)果：

①外部送入預(yù)定時間的語音數(shù)據(jù)（比如5s的語音數(shù)據(jù)），芯片對這些語音數(shù)據(jù)運(yùn)算分析后，給出識別結(jié)果。

②外部送入語音數(shù)據(jù)流，語音識別芯片通過端點(diǎn)檢測（VAD,VoiceActivityDetection）技術(shù)檢測出用戶停止說話，把用戶開始說話到停止說話之間的語音數(shù)據(jù)進(jìn)行運(yùn)算分析后，給出識別結(jié)果。

對于種情況，可以理解為設(shè)定了一個定時錄音（如5s的語音數(shù)據(jù)），芯片在5s后會停止把聲音送入識別引擎，并且根據(jù)已送入引擎的語音數(shù)據(jù)計(jì)算出識別結(jié)果。

對于第二種情況，需要了解VAD的工作原理：VAD技術(shù)是在一段語音數(shù)據(jù)流中，判斷出哪個時間點(diǎn)是人聲音的開始，哪個時間點(diǎn)是人聲音的結(jié)束。判斷的依據(jù)是，在背景聲音的基礎(chǔ)上有了語音發(fā)音，則視為聲音的開始。而后，檢測到一段持續(xù)時間的背景音（比如600ms），則視為人聲說話結(jié)束。通過VAD判斷出人聲說話的區(qū)域后，語音識別芯片會把這期間的聲音數(shù)據(jù)進(jìn)行識別處理，計(jì)算出識別結(jié)果。

除了以上兩種情況外，語音識別算法無法"主動"地判斷出是否識別出了一個結(jié)果。這是因?yàn)椋谟?jì)算過程中的任何時刻，語音識別器都會對已送人識別芯片的聲音數(shù)據(jù)進(jìn)行分析，并根據(jù)匹配程度為識別列表中的關(guān)鍵詞語進(jìn)行打分，匹配的打分。但是，由于識別算法不知道用戶后面是否還繼續(xù)說話，所以無法主動地判斷已經(jīng)識別出的結(jié)果。

3語音識別芯片LD3320的工作原理

3.1語音識別系統(tǒng)原理結(jié)構(gòu)

LD3320語音識別芯片采用的就是ASR技術(shù)，圖1就是由LD3320和單片機(jī)（或嵌入式系統(tǒng)）組成的語音識別系統(tǒng)原理框圖。圖中給出了LD3320的內(nèi)部原理結(jié)構(gòu)，本文中選用的MCU是STC10L08XE單片機(jī)。

圖1語音識別系統(tǒng)原理框圖

語音識別芯片LD3320是ICRoute公司的產(chǎn)品，它采用ASR技術(shù)，提供了一種脫離按鍵、鍵盤、鼠標(biāo)、觸摸屏等GUI操作方式且基于語音的用戶界面VUI（VoiceUserInterface），使得用戶對該系統(tǒng)的操作更簡單、快速和自然。

用戶只需要把識別的關(guān)鍵詞語以字符串的形式傳送進(jìn)芯片，即可以在下次識別中立即生效。比如，用戶在51等主控MCU的編程中，簡單地通過設(shè)置芯片的寄存器，把諸如"你好"這樣的識別關(guān)鍵詞語的內(nèi)容動態(tài)地傳入芯片中，芯片就可以識別所設(shè)定的關(guān)鍵詞語了。每個關(guān)鍵詞語可以是單字、詞組、短句或者任何的中文發(fā)音的組合?；贚D3320的語音識別系統(tǒng)可以隨著使用流程，在運(yùn)行時動態(tài)地更改關(guān)鍵詞語列表的內(nèi)容，這樣可以用一個系統(tǒng)支持多種不同的場景，同時也不需要用戶作任何的錄音訓(xùn)練。

3.2LD3320的用戶使用模式

LD3320有兩種用戶使用模式，即"觸發(fā)識別模式"和"循環(huán)識別模式".用戶可以通過編程，設(shè)置兩種不同的用戶使用模式。

觸發(fā)識別模式：系統(tǒng)的主控MCU在接收到外界一個觸發(fā)后（比如用戶按動某個按鍵），啟動LD3320芯片的一個定時識別過程（比如5s），要求用戶在這個定時過程中說出要識別的語音關(guān)鍵詞語。這個過程結(jié)束后，需要用戶再次觸發(fā)才能再次啟動一個識別過程。

循環(huán)識別模式：系統(tǒng)的主控MCU反復(fù)啟動識別過程。如果沒有人說話就沒有識別結(jié)果，則每次識別過程的定時到時后再啟動一個識別過程；如果有識別結(jié)果，則根據(jù)識別作相應(yīng)處理后（比如播放某個聲音作為回答）再啟動一個識別過程。

4語音識別系統(tǒng)軟硬件設(shè)計(jì)

4.1硬件系統(tǒng)設(shè)計(jì)

由圖l可知，由LD3320組成的語音識別系統(tǒng)硬件有單片機(jī)（或嵌入式系統(tǒng)）及LD33202.圖2和圖3分別是由單片機(jī)STC10L08XE構(gòu)成的主控芯片和由LD3320A構(gòu)成的語音識別主系統(tǒng)。

圖2STC10L08XE構(gòu)成的主控芯片

圖3LD3320A構(gòu)成的語音識別主系統(tǒng)

4.2軟件系統(tǒng)設(shè)計(jì)

語音識別的操作順序是：先進(jìn)行語音識別的初始化，然后寫入識別列表，系統(tǒng)即開始進(jìn)行語音識別，并準(zhǔn)備好中斷響應(yīng)函數(shù)，打開中斷允許位。這里如果不用中斷方式，也可以通過查詢方式工作。在"開始識別"后，讀取寄存器B2H的值，如果為21H就表示有識別結(jié)果產(chǎn)生。

下面是語音識別的初始化程序段，按照以下序列來設(shè)置寄存器：

初始化后是寫入識別列表。識別列表的規(guī)則是：每個識別條目對應(yīng)一個特定的編號（1個字節(jié)），不同識別條目的編號可以相同，而且不用連續(xù)。LD3320芯片多支持50個識別條目，每個識別條目是標(biāo)準(zhǔn)普通話的漢語拼音（小寫），每2個字（漢語拼音）之間用1個空格間隔。表1是一個簡單的例子。

圖4是由LD3320組成的語音識別系統(tǒng)主程序流程，圖5是語音識別系統(tǒng)中斷服務(wù)程序流程。

圖4語音識別系統(tǒng)主程序流程圖

圖5語音識別系統(tǒng)中斷程序流程

5聲控電視遙控器

聲控電視遙控器有用的地方是，在更換頻道時可以直接說出頻道名稱，而不是去記憶頻道名稱和頻道數(shù)字的聯(lián)系。同時，在使用電視遙控器時，遙控器是用電池工作，不能讓識別芯片一直處于工作狀態(tài)。因此在設(shè)計(jì)時，可以在遙控器上設(shè)置一個大一點(diǎn)的按鍵，用戶在使用時，按一下這個按鍵，啟動LD3320語音識別芯片，此時可以播放一聲"嘀"的提示音，然后在限定的時間內(nèi)（如5s），接收用戶的語音命令，并給出識別結(jié)果。比如用戶說"體育臺",識別芯片把識別結(jié)果提供給遙控器的主控MCU.隨后遙控器的主控MCU就根據(jù)事先設(shè)定好的對應(yīng)關(guān)系，發(fā)出對應(yīng)頻道的紅外編碼，實(shí)現(xiàn)換臺?？梢圆患哟_認(rèn)過程直接換臺。圖6為聲控電視遙控器工作流程。

圖6聲控電視遙控器工作流程

結(jié)語

這種語音識別系統(tǒng)也容易引起誤

人人文庫> 全部分類> 專業(yè)文獻(xiàn) > 通信電子

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

LD3320的嵌入式語音識別系統(tǒng)的應(yīng)用-設(shè)計(jì)應(yīng)用

文檔簡介

溫馨提示

最新文檔

評論

LD3320的嵌入式語音識別系統(tǒng)的應(yīng)用-設(shè)計(jì)應(yīng)用

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔