孤立詞語音識(shí)別中期報(bào)告.doc_第1頁(yè)
孤立詞語音識(shí)別中期報(bào)告.doc_第2頁(yè)
孤立詞語音識(shí)別中期報(bào)告.doc_第3頁(yè)
孤立詞語音識(shí)別中期報(bào)告.doc_第4頁(yè)
孤立詞語音識(shí)別中期報(bào)告.doc_第5頁(yè)
已閱讀5頁(yè),還剩7頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1課題研究的背景及意義國(guó)外的語音識(shí)別研究工作可以追溯到20世紀(jì)50年代AT&T貝爾實(shí)驗(yàn)室開發(fā)的第一個(gè)能實(shí)現(xiàn)十個(gè)英文數(shù)字的語音識(shí)別系統(tǒng)。我國(guó)的語音識(shí)別研究起始于1958年,由中國(guó)科學(xué)院聲學(xué)所利用電子管電路識(shí)別十個(gè)元音。直至1973年才由中國(guó)科學(xué)院聲學(xué)所開始計(jì)算機(jī)語音識(shí)別。1986年3月我國(guó)高科技發(fā)展計(jì)劃(863計(jì)劃)啟動(dòng),國(guó)家863智能計(jì)算機(jī)專家組為語音識(shí)別技術(shù)研究專門立項(xiàng),每?jī)赡昱e行一次專題會(huì)議。現(xiàn)在我國(guó)語音識(shí)別技術(shù)的研究水平已經(jīng)基本上與國(guó)外同步,在漢語語音識(shí)別技術(shù)上還有自己的特點(diǎn)與優(yōu)勢(shì)。國(guó)內(nèi)有不少語音識(shí)別系統(tǒng)已研制成功。在孤立字大詞匯量語音識(shí)別方面,最具代表性的要數(shù)92年清華大學(xué)電子工程系與中國(guó)電子器件公司合作研制成功的THED-919特定人語音識(shí)別與理解實(shí)時(shí)系統(tǒng)。在連續(xù)語音識(shí)別方面,91年12月四川大學(xué)計(jì)算機(jī)中心在微機(jī)上實(shí)現(xiàn)了一個(gè)主題受限的特定人連續(xù)英語-漢語語音翻譯演示系統(tǒng)。在非特定人語音識(shí)別方面,有清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系在87年研制的聲控電話查號(hào)系統(tǒng)并投入實(shí)際使用。隨著信息產(chǎn)業(yè)的迅速發(fā)展,人們傾向于使用高效,快捷,方便的電子產(chǎn)品。語音識(shí)別作為人機(jī)交互的一項(xiàng)關(guān)鍵領(lǐng)域,具備了實(shí)時(shí),方便,快速等特點(diǎn),在當(dāng)今科學(xué)技術(shù)的發(fā)展上也有著日益重要的地位。在一些特定的環(huán)境或是對(duì)于一些特定的人,語音識(shí)別可以帶來很大的方便。例如,駕駛員在高速行駛的汽車內(nèi)電話撥號(hào),飛行員在飛行過程中發(fā)出必要的命令等,都需要語音識(shí)別系統(tǒng),另外語音識(shí)別也給失明者帶來很大的幫助。課題任務(wù)探討基于MATLAB的多個(gè)特定人孤立詞語音識(shí)別的方法,期望在進(jìn)行端點(diǎn)檢測(cè)時(shí),能進(jìn)一步提高識(shí)別率。該設(shè)計(jì)要求采用TW算法。主要任務(wù):1、 理論分析,提出設(shè)計(jì)方案;2、 語音采集;3、 特征提取,形成訓(xùn)練集;4、 特定人孤立詞語音識(shí)別算法的程序?qū)崿F(xiàn)?;驹?.1語音識(shí)別的基本原理語音識(shí)別系統(tǒng)本質(zhì)上是一種模式識(shí)別系統(tǒng),因此它的基本結(jié)構(gòu)與常規(guī)模式識(shí)別系統(tǒng)一樣,包含有特征提取、模式匹配、參考模式庫(kù)等三個(gè)基本單元。圖1為語音識(shí)別系統(tǒng)的原理框圖。失真測(cè)度識(shí)別識(shí)別結(jié)果訓(xùn)練模式匹配模型庫(kù)逐幀特征提取預(yù)處理語音信號(hào)圖1 語音識(shí)別系統(tǒng)的原理框圖根據(jù)對(duì)說話人發(fā)音方式的不同,語音識(shí)別研究的內(nèi)容可以分為孤立詞識(shí)別系統(tǒng)、連續(xù)字語音識(shí)別系統(tǒng)及連續(xù)語音識(shí)別系統(tǒng)。本次畢設(shè)研究的是孤立詞語音識(shí)別。3.2孤立詞語音識(shí)別系統(tǒng)的設(shè)計(jì)孤立詞語音識(shí)別系統(tǒng)指人在發(fā)音時(shí),以單字的發(fā)音方式向語音識(shí)別系統(tǒng)輸入語音,詞語詞之間要有足夠的時(shí)間間隙,以便系統(tǒng)能夠檢測(cè)到始末點(diǎn)。采用這種方式的語音識(shí)別系統(tǒng)可以做到很高的識(shí)別率。圖2為孤立詞有語音識(shí)別系統(tǒng)的原理框圖:預(yù)處理特征提取超音段特征提取參考模式庫(kù)模式識(shí)別 訓(xùn)練后處理器識(shí)別結(jié)果 輸入語音圖2 孤立詞語音識(shí)別系統(tǒng)3.2.1語音信號(hào)的采集Windows 自帶了一個(gè)錄音機(jī)程序(簡(jiǎn)稱錄音機(jī)),通過它可以驅(qū)動(dòng)聲卡采集、播放和簡(jiǎn)單處理語音信號(hào)。語音信號(hào)的采集可以用麥克風(fēng)直接錄制人的語音,也可以通過音頻線或者M(jìn)IDI 線將收音機(jī)、電視機(jī)或磁帶錄機(jī)中的語音信號(hào)采集到計(jì)算機(jī)中。在錄音機(jī)中可以進(jìn)行簡(jiǎn)單的聲音處理,如加大或降低音量,加速或減速,聲音的反轉(zhuǎn)或添加回音效果等。加速或減速的改變可以完成變音功能,反轉(zhuǎn)可以達(dá)到對(duì)聲音文件保密的功能。通過windows自帶的錄音器,分別由我和同學(xué)錄入了2組數(shù)據(jù)(1人1組),每組10個(gè)音頻文件,分別為從“零”到“九”的漢語發(fā)音。其中一組為參考模板,另外一組為測(cè)試模板。3.2.2端點(diǎn)檢測(cè)語音信號(hào)錄制進(jìn)來后,不論是識(shí)別孤立詞還是識(shí)別連續(xù)詞都必須做語音分段,即語音端點(diǎn)檢測(cè),找出語音段的開始和結(jié)尾,這可借助于語音信號(hào)的短時(shí)能量和過零率。有聲音段的能量值較大,無聲音段的過零率較高,因此可以通過計(jì)算短時(shí)能量大致判斷語音的端點(diǎn),然后使用過零率找到語音端點(diǎn)的相對(duì)精確位置,分解出每一個(gè)語音段。整個(gè)語音信號(hào)的端點(diǎn)檢測(cè)可以分為四段:靜音、過渡段、語音段、結(jié)束。系統(tǒng)中使用一個(gè)變量來表示當(dāng)前所處的狀態(tài),在靜音段,如能量或過零率超過了低門限,則開始標(biāo)記起始點(diǎn),進(jìn)入過渡段。在過渡段,由于參數(shù)的數(shù)值比較小,不能確信是否處于真正的語音段,因此只要兩個(gè)參數(shù)的數(shù)值都回落到低門限以下,就將當(dāng)前狀態(tài)恢復(fù)到靜音狀態(tài)。如果在過渡段中兩個(gè)參數(shù)的任意一個(gè)超過了高門限,就可以確信進(jìn)入語音段了。端點(diǎn)檢測(cè)時(shí),首先根據(jù)短時(shí)能量進(jìn)行初步判斷,此時(shí)對(duì)終點(diǎn)的檢測(cè)已比較準(zhǔn)確,但由于大多數(shù)聲母是清聲母,它的能量相當(dāng)弱,依靠能量無法將其與無聲段區(qū)分開,所以在進(jìn)行起點(diǎn)檢測(cè)時(shí),很難僅僅通過短時(shí)能量進(jìn)行判斷,但對(duì)于清輔音而言,它的過零率明顯高于無聲段,所以可以根據(jù)短時(shí)過零率進(jìn)一步準(zhǔn)確檢測(cè)。圖3為端點(diǎn)檢測(cè)的流程圖:否否是是否發(fā)現(xiàn)終點(diǎn)?是否發(fā)現(xiàn)起點(diǎn)?開始自適應(yīng)能量預(yù)加重、加窗、計(jì)算每幀能量能量狀態(tài)跳轉(zhuǎn)是結(jié)束圖3 端點(diǎn)檢測(cè)的流程圖圖3 端點(diǎn)檢測(cè)程序流程圖3.2.3特征提取由于直接采集得到的語音信號(hào)的數(shù)據(jù)量巨大,同時(shí)原始語音信號(hào)包含了許多隨機(jī)因素,所以原始信號(hào)不能直接用來進(jìn)行語音識(shí)別。因此需要從語音信號(hào)中提取合適的、有代表性的特征參數(shù)。特征提取就是通過對(duì)語音信號(hào)的分析,去除其中的冗余信息,得到影響語音識(shí)別的有用信息,語音信號(hào)的時(shí)域參數(shù)有短時(shí)平均能量、短時(shí)平均過零率、短時(shí)自相關(guān)函數(shù)和短時(shí)平均幅度差函數(shù)等。這是語音信號(hào)的一組最基本的短時(shí)參數(shù),在各種語音信號(hào)數(shù)字處理技術(shù)中都要應(yīng)用,下面分別討論:短時(shí)平均能量清音段的幅度一般比濁音段的幅度小的很多。語音信號(hào)的短時(shí)能量給出了反映這些幅度變化的一個(gè)合適的描述方法。圖4為短時(shí)平均能量的方框圖如下表示: 圖4 短時(shí)平均能量的方框圖表示短時(shí)過零率過零率分析是語音時(shí)域分析中最基本的一種。對(duì)于連續(xù)信號(hào),過零率意味著時(shí)域波形通過時(shí)間軸。在離散時(shí)間信號(hào)情況下,當(dāng)相鄰的兩次抽樣具有不同的代數(shù)符號(hào)時(shí)就稱為發(fā)生了過零。過零率是指單位時(shí)間內(nèi)信號(hào)由正變負(fù)、由負(fù)變正的總次數(shù)。圖5為短時(shí)平均過零率的方框圖如下表示:低通濾波器一階差分圖5 短時(shí)平均過零數(shù)的實(shí)現(xiàn)框圖3.2.4模式匹配語音識(shí)別過程是根據(jù)模式匹配原則,計(jì)算未知語音模式與語音模板庫(kù)中的每一個(gè)模板的距離測(cè)度,從而得到最佳的匹配模式。語音識(shí)別所應(yīng)用的模板匹配方法主要基于動(dòng)態(tài)時(shí)間規(guī)整匹配的(DTW)識(shí)別算法、基于統(tǒng)計(jì)的隱含馬爾可夫模型(HMM)識(shí)別算法和基于神經(jīng)網(wǎng)絡(luò)的識(shí)別算法。本次畢設(shè)我采用的是動(dòng)態(tài)時(shí)間彎折(DTW)。DTW(dynamic time warping)動(dòng)態(tài)時(shí)間規(guī)整匹配,是基于動(dòng)態(tài)規(guī)劃的思想,解決了發(fā)音長(zhǎng)短不一的匹配問題,是語音識(shí)別中出現(xiàn)較早、較為經(jīng)典的一種算法。動(dòng)態(tài)時(shí)間規(guī)整是把時(shí)間規(guī)整和距離測(cè)度計(jì)算結(jié)合起來的一種非線性規(guī)整技術(shù)。假設(shè)測(cè)試和參考模板分別用T和R表示,為了比較它們之間的相似度,可以計(jì)算它們之間的距離DT,R ,距離越小則相似度越高。為了計(jì)算這一失真距離,應(yīng)對(duì)T和R中各個(gè)對(duì)應(yīng)幀之間的距離算起。在DTW算法中通常采用歐式距離,設(shè)n和m分別是T和R中任意選擇的幀號(hào),則有: 因?yàn)橐话闱闆r下參考模板和待匹配模板的長(zhǎng)度不相等,即MN,因此要考慮將T和R對(duì)齊。對(duì)齊主要采用的是動(dòng)態(tài)規(guī)劃(DP)的方法。將測(cè)試模板的各個(gè)幀號(hào)n=1N在一個(gè)二維直角坐標(biāo)系中的橫軸上標(biāo)出,把參考模板的各個(gè)幀號(hào)m=1M在縱軸上標(biāo)出,通過這些表示幀號(hào)的整數(shù)坐標(biāo)畫出一些縱橫線即可形成一個(gè)網(wǎng)格,網(wǎng)格中的每一個(gè)交叉點(diǎn)(n,m)表示測(cè)試模塊中某一幀與訓(xùn)練模式中某一幀的交匯點(diǎn)。4仿真結(jié)果與分析本次畢設(shè)到現(xiàn)在為止,我已經(jīng)完成了語音采集和端點(diǎn)檢測(cè)這兩項(xiàng)任務(wù),端點(diǎn)檢測(cè)時(shí)采用短時(shí)能量和短時(shí)過零率這兩個(gè)特征參數(shù),根據(jù)端點(diǎn)檢測(cè)的程序得到如下圖形:圖6 語音信號(hào)波形圖6顯示了語音信號(hào)波形,從波形中可以看出,音頻前后都有噪音,這是由于說話的短暫停留引起的。在語音信號(hào)的起始位置,從圖中可以看出其幅值為零,在語音信號(hào)的結(jié)束位置可以看出信號(hào)波形做周期性的變化,可以判定其為濁音。圖7 初始語音的端點(diǎn)檢測(cè)結(jié)果分析上圖可知,在語音的起始位置和結(jié)束位置,短時(shí)過零率較高,短時(shí)能量也較大。這與短時(shí)能量大時(shí)是濁音、能量小時(shí)是清音,短時(shí)過零率高時(shí)是清音、過零率低時(shí)是濁音相矛盾。故可知輸入的原始語音有噪聲干擾。在語音的結(jié)束位置,這兩項(xiàng)參數(shù)都趨向于零。圖8 語音“00”的雙門限端點(diǎn)檢測(cè)結(jié)果Vad函數(shù)的功能就是通過端點(diǎn)檢測(cè)功能甄別出語音信號(hào)的起始點(diǎn)與結(jié)束點(diǎn),圖中的紅線就是標(biāo)記的語音信號(hào)始末點(diǎn),可以看出,雜音基本被排除,效果是非常明顯的。5總結(jié)作為一項(xiàng)具有實(shí)用性的技術(shù),孤立詞語音識(shí)別的應(yīng)用越來越廣。為了滿足實(shí)際需求人們一直在致力于不斷完善孤立詞語音識(shí)別系統(tǒng)。語音具有便捷性、高效性、隨機(jī)性、交互性等顯著特點(diǎn),是實(shí)現(xiàn)人機(jī)交互的一種重要通信方式,進(jìn)一步提高社會(huì)的信息化和自動(dòng)化程度。根據(jù)本次畢業(yè)設(shè)計(jì)的要求,探討基于MATLAB的多個(gè)特定人孤立詞語音識(shí)別的方法,期望在進(jìn)行端點(diǎn)檢測(cè)時(shí),能進(jìn)一步提高識(shí)別率。該設(shè)計(jì)要求的設(shè)計(jì)為主采用DTW算法。大部分內(nèi)容要通過程序的編寫來完成,不過主要的操作是對(duì)函數(shù)的調(diào)用,這就要求我熟悉MATLAB的一些函數(shù)的基本功能以及它們的基本語句。通過這次設(shè)計(jì)能夠使我掌握大量關(guān)于語音信號(hào)分析的知識(shí)技能,對(duì)這門課程有深入的了解和認(rèn)識(shí),為將來的工作提供了資料,積累寶貴的經(jīng)驗(yàn)。6參考文獻(xiàn) 1 趙力,語音信號(hào)處理M第一版,北京:機(jī)械工業(yè)出版社,2003 2 王炳錫,屈丹,彭煊實(shí)用語音識(shí)別基礎(chǔ)M.北京:國(guó)防工業(yè)出版社,2005 3 易克初,田斌,付強(qiáng)等語音信號(hào)處理M.北京:國(guó)防工業(yè)出版社,2000 4 高成華,聾兒康復(fù)事業(yè)的歷史、現(xiàn)狀和展望J,中國(guó)聽力語言康復(fù)科學(xué)雜志,2003 5 楊行竣,遲惠生等,語音信號(hào)數(shù)字處理M.第一版,北京:電子工業(yè)出版社,1995 6 彭昭,呂冠中,梁潔,等. 基于P2P 的流媒體點(diǎn)播技術(shù)研究與展望J. 計(jì)算機(jī)科學(xué),2008. 7 莊雷,常玉存,董西廣. 一種P2P 文件共享系統(tǒng)中的激勵(lì)機(jī)制J . 計(jì)算機(jī)應(yīng)用研究,2009, (01) :266-26 8 孫衛(wèi)琴. JAVA 面向?qū)ο缶幊蘉 . 北京:電子工業(yè)出版社, 2006, 8 9 莊雷,常玉存,董西廣. 一種P2P 文件共享系統(tǒng)中的激勵(lì)機(jī)制J . 計(jì)算機(jī)應(yīng)用研究,2009, (01) :266-268.10 周輝,董正宏.數(shù)字信號(hào)處理基礎(chǔ)及MATLAB實(shí)現(xiàn)M.北京:北京希望電子 出版社,2006.11 鄒理和.語音信號(hào)處理M.北京:國(guó)防工業(yè)出版社,1985.12 梁曉輝, 周權(quán).語音信號(hào)處理方法的可靠性研究J.電聲技術(shù),2010年04期. 13 吳艷花.語言短時(shí)幅度和短時(shí)過零率分析與應(yīng)用J.電腦知識(shí)與技術(shù).2009年33期.14 胡航.語音信號(hào)處理M.哈爾濱:哈爾濱工業(yè)大學(xué)出版社,2009.7.15 孫燕.語音頻譜分析與應(yīng)用J.計(jì)算機(jī)與現(xiàn)代化,2010年04期.16 孫衛(wèi)琴. JAVA 面向?qū)ο缶幊蘉. 北京:電子工業(yè)出版社, 2006, 817 黃文梅,熊桂林,楊勇. 信號(hào)分析與處理MMATLAB語言及應(yīng)用.長(zhǎng)沙:國(guó)防科技大學(xué)出版社,2010年2月.18劉江華,程君實(shí),陳佳品支持向量機(jī)訓(xùn)練算法綜述J信息與控制,2002,31(1):45-49.19ZENG Qingning.Speech enhancement by array crosstalk resistantANC and spectrumSubtraction. 聲學(xué)學(xué)報(bào):英文版,2008年,27卷1期.20 GUAN Tian,GONG Qin,YE Datian.Effective use of the spectral information in speech processing of cochlear implant. 自然科學(xué)進(jìn)展,2007年17卷3期.21侯風(fēng)雷,王炳錫基于支持向量機(jī)的說話人辨認(rèn)研究J.通信學(xué)報(bào),2002,23(6):61-67.22周志杰.MLP語音信號(hào)非線性預(yù)測(cè)器J.解放軍理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2001,2(5):1-4.23RIZVI A.Residu

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論