




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、本科學(xué)生畢業(yè)論文(設(shè)計(jì))題目(中 文):特定人孤立詞語(yǔ)音識(shí)別的研究(英 文):Research Of Speaker-dependent Isolated-word Speech recognition姓 名學(xué) 號(hào)院 (系)專(zhuān)業(yè)、年級(jí)指導(dǎo)教師畢業(yè)設(shè)計(jì)(論文)原創(chuàng)性聲明和使用授權(quán)說(shuō)明原創(chuàng)性聲明本人鄭重承諾:所呈交的畢業(yè)設(shè)計(jì)(論文),是我個(gè)人在指導(dǎo)教師的指導(dǎo)下進(jìn)行的研究工作及取得的成果。盡我所知,除文中特別加以標(biāo)注和致謝的地方外,不包含其他人或組織已經(jīng)發(fā)表或公布過(guò)的研究成果,也不包含我為獲得 及其它教育機(jī)構(gòu)的學(xué)位或?qū)W歷而使用過(guò)的材料。對(duì)本研究提供過(guò)幫助和做出過(guò)貢獻(xiàn)的個(gè)人或集體,均已在文中作了明確的
2、說(shuō)明并表示了謝意。作 者 簽 名: 日 期: 指導(dǎo)教師簽名: 日期: 使用授權(quán)說(shuō)明本人完全了解 大學(xué)關(guān)于收集、保存、使用畢業(yè)設(shè)計(jì)(論文)的規(guī)定,即:按照學(xué)校要求提交畢業(yè)設(shè)計(jì)(論文)的印刷本和電子版本;學(xué)校有權(quán)保存畢業(yè)設(shè)計(jì)(論文)的印刷本和電子版,并提供目錄檢索與閱覽服務(wù);學(xué)??梢圆捎糜坝 ⒖s印、數(shù)字化或其它復(fù)制手段保存論文;在不以贏利為目的前提下,學(xué)校可以公布論文的部分或全部?jī)?nèi)容。作者簽名: 日 期: 湖南科技學(xué)院本科畢業(yè)論文(設(shè)計(jì))誠(chéng)信聲明本人鄭重聲明:所呈交的本科畢業(yè)論文(設(shè)計(jì)),是本人在指導(dǎo)老師的指導(dǎo)下,獨(dú)立進(jìn)行研究工作所取得的成果,成果不存在知識(shí)產(chǎn)權(quán)爭(zhēng)議,除文中已經(jīng)注明引用的內(nèi)容外,本
3、論文不含任何其他個(gè)人或集體已經(jīng)發(fā)表或撰寫(xiě)過(guò)的作品成果。對(duì)本文的研究做出重要貢獻(xiàn)的個(gè)人和集體均已在文中以明確方式標(biāo)明。本人完全意識(shí)到本聲明的法律結(jié)果由本人承擔(dān)。 本科畢業(yè)論文(設(shè)計(jì))作者簽名: 二八 年 月 日30 畢業(yè)論文(設(shè)計(jì))任務(wù)書(shū)課題名稱(chēng):特定人孤立詞語(yǔ)音識(shí)別的研究學(xué)生姓名:系 別:物理與電子工程系專(zhuān) 業(yè):電子信息工程指導(dǎo)教師:湖南科技學(xué)院本科畢業(yè)論文(設(shè)計(jì))任務(wù)書(shū)1、主題詞、關(guān)鍵詞: 語(yǔ)音識(shí)別、孤立詞、特定人、DTW 2、畢業(yè)論文(設(shè)計(jì))內(nèi)容要求:對(duì)語(yǔ)音識(shí)別的概念、分類(lèi)、發(fā)展過(guò)程及發(fā)展趨勢(shì)要有所介紹;設(shè)計(jì)一個(gè)基于特定人的語(yǔ)音識(shí)別系統(tǒng),給出實(shí)現(xiàn)方案。對(duì)特定人語(yǔ)音識(shí)別系統(tǒng)中牽涉到的有關(guān)識(shí)別
4、算法要進(jìn)行編程,并在MATLAB6.5環(huán)境下進(jìn)行仿真調(diào)試,給出具體仿真結(jié)果。3、文獻(xiàn)查閱指引:1 趙力語(yǔ)音信號(hào)處理第一版,北京:機(jī)械工業(yè)出版社.2 陳立萬(wàn)基于語(yǔ)音識(shí)別系統(tǒng)中DTW算法改進(jìn)技術(shù)研究微計(jì)算機(jī)信息,2006,2(2).3 何強(qiáng),何英MATLAB擴(kuò)展編程第一版,北京:清華大學(xué)出版社.4 李瀟,王大堃基于MATLAB的孤立字語(yǔ)音識(shí)別試驗(yàn)平臺(tái)四川理工學(xué)院學(xué)報(bào)(自然科學(xué)版),19(3).4、畢業(yè)論文(設(shè)計(jì))進(jìn)度安排:12007.12月-1月 論文資料收集和整理,完成開(kāi)題報(bào)告。22008.2月-3月 查找資料,給出系統(tǒng)實(shí)現(xiàn)方案,對(duì)算法進(jìn)行編程和調(diào)試并完成畢業(yè)論文初稿。32008.3月-4月 完
5、成畢業(yè)論文修改并定稿。42008年5月 準(zhǔn)備答辯。教研室意見(jiàn): 負(fù)責(zé)人簽名: 注:本任務(wù)書(shū)一式三份,由指導(dǎo)教師填寫(xiě),經(jīng)教研室審批后一份下達(dá)給學(xué)生,一份交指導(dǎo)教師,一份留系里存檔。湖南科技學(xué)院本科畢業(yè)論文(設(shè)計(jì))開(kāi)題報(bào)告書(shū)論文(設(shè)計(jì))題目特定人孤立詞語(yǔ)音識(shí)別的研究作 者 姓 名周 剛所屬系、專(zhuān)業(yè)、年級(jí) 物理與電子工程系 電子信息工程專(zhuān)業(yè) 2004年級(jí)指導(dǎo)教師姓名、職稱(chēng)楊 熙預(yù)計(jì)字?jǐn)?shù)10000開(kāi)題日期2008.1.15選題的根據(jù):1)說(shuō)明本選題的理論、實(shí)際意義2)綜述國(guó)內(nèi)外有關(guān)本選題的研究動(dòng)態(tài)和自己的見(jiàn)解一個(gè)完整特定人孤立詞語(yǔ)音識(shí)別系統(tǒng)通常包括語(yǔ)音的輸入、語(yǔ)音的預(yù)處理(預(yù)加重、加窗分幀、端點(diǎn)檢測(cè)等
6、)、特征提取、訓(xùn)練與識(shí)別等幾個(gè)環(huán)節(jié)。語(yǔ)音識(shí)別的過(guò)程可以被看作模式匹配的過(guò)程。本文介紹的DTW是采用一種最優(yōu)化的算法動(dòng)態(tài)規(guī)整法,通過(guò)將待識(shí)別語(yǔ)音信號(hào)的時(shí)間軸進(jìn)行不均勻地扭曲和彎曲,使其特征與模板特征對(duì)齊,并在兩者之間不斷地進(jìn)行兩個(gè)矢量距離最小的匹配路徑計(jì)算,從而獲得兩個(gè)矢量匹配時(shí)累積距離最小的規(guī)整函數(shù)。這是一個(gè)將時(shí)間規(guī)整和距離測(cè)度有機(jī)結(jié)合在一起的非線(xiàn)性規(guī)整技術(shù),保證了待識(shí)別特征與模板特征之間最大的聲學(xué)相似特性和最小的時(shí)差失真。DTW解決了發(fā)音長(zhǎng)短不一的模板匹配問(wèn)題,是語(yǔ)音識(shí)別中出現(xiàn)較早,較為經(jīng)典的一種算法。語(yǔ)音識(shí)別研究從二十世紀(jì)50年代開(kāi)始到現(xiàn)在已經(jīng)歷半個(gè)多世紀(jì)的蓬勃發(fā)展,在這期間獲得了巨大的進(jìn)
7、展。但語(yǔ)音識(shí)別ASR(Automatic Speech Recognition)系統(tǒng)的實(shí)用化研究仍是近十年語(yǔ)音識(shí)別研究的一個(gè)主要方向。語(yǔ)音識(shí)別系統(tǒng)包含的知識(shí)面非常廣,對(duì)其進(jìn)行研究對(duì)自己各方面知識(shí)的應(yīng)用能力會(huì)有很大的提高。并且語(yǔ)音識(shí)別作為一門(mén)正火熱發(fā)展的技術(shù),其發(fā)展前景相當(dāng)可觀,對(duì)其進(jìn)行深入了解,研究是非常必要的。主要內(nèi)容:(1)語(yǔ)音識(shí)別的概念、分類(lèi)、發(fā)展過(guò)程及發(fā)展趨勢(shì);(2)語(yǔ)音識(shí)別系統(tǒng)的實(shí)現(xiàn)方案與語(yǔ)音識(shí)別中需要的語(yǔ)音信號(hào)處理理論;(3)傳統(tǒng)DTW算法及改進(jìn)后的快速DTW算法的實(shí)現(xiàn)與比較;(4)在Matlab6.5環(huán)境下進(jìn)行特定人語(yǔ)音識(shí)別的仿真。研究方法:(1)閱讀文獻(xiàn),進(jìn)行理論分析;(2)把
8、整個(gè)識(shí)別過(guò)程分成幾個(gè)子過(guò)程,逐步分析;(3)對(duì)整個(gè)系統(tǒng)程序的測(cè)試采用分模塊調(diào)試,然后進(jìn)行整體調(diào)試;完成期限和采取的主要措施:完成期限:2007年12月 到2008年5月 主要措施:嚴(yán)格遵照湖南科技學(xué)院畢業(yè)論文(設(shè)計(jì))工作管理辦法的指示精神,結(jié)合個(gè)人的實(shí)際情況,我完成這項(xiàng)設(shè)計(jì)所采取的主要措施有兩條:一是密切聯(lián)系。聯(lián)系本組設(shè)計(jì)成員及畢業(yè)設(shè)計(jì)指導(dǎo)師,尋求有關(guān)畢業(yè)設(shè)計(jì)信息,確定設(shè)計(jì)課題方向與設(shè)計(jì)內(nèi)容;二是虛心學(xué)習(xí)。利用課余時(shí)間到圖書(shū)館和網(wǎng)絡(luò)上查閱資料,并虛心向老師請(qǐng)教和同學(xué)進(jìn)行學(xué)習(xí)交流,保障畢業(yè)設(shè)計(jì)的順利完成。主要參考資料:1 鐘林,劉加,劉潤(rùn)生多層前向感知機(jī)漢語(yǔ)孤立數(shù)碼語(yǔ)音識(shí)別J電路與系統(tǒng)學(xué)報(bào),5(
9、2)。2 何強(qiáng),何英MATLAB擴(kuò)展編程M第一版,北京:清華大學(xué)出版社.3 徐文盛,戴蓓倩,方紹武,陸偉特定人漢語(yǔ)數(shù)碼語(yǔ)音抗噪識(shí)別方法J電路與系統(tǒng)學(xué)報(bào), 5(2).4 陳立萬(wàn)基于語(yǔ)音識(shí)別系統(tǒng)中DTW 算法改進(jìn)技術(shù)研究J.微計(jì)算機(jī)信息(嵌入式與SOC),2006,22(2).5 李瀟,王大堃基于MATLAB 的孤立字語(yǔ)音識(shí)別試驗(yàn)平臺(tái)J四川理工學(xué)院學(xué)報(bào)(自然科學(xué)版),2006,19(3).6 黃文梅,楊勇,熊桂林,成曉明系統(tǒng)仿真分析與設(shè)計(jì)Matlab語(yǔ)音工程應(yīng)用M長(zhǎng)沙:國(guó)防科技大學(xué)出版社.7 林波,呂明基于DTW改進(jìn)算法的孤立詞識(shí)別系統(tǒng)的仿真與分析J信息技術(shù),2006年第4期.指導(dǎo)教師意見(jiàn): 指導(dǎo)
10、教師簽名: 教研室意見(jiàn):簽 名: 年 月 日開(kāi) 題 報(bào) 告 會(huì) 紀(jì) 要時(shí)間2008年1月15日地點(diǎn)第三教學(xué)樓317與會(huì)人員姓 名職務(wù)(職稱(chēng))姓 名職務(wù)(職稱(chēng))姓 名職務(wù)(職稱(chēng))李春樹(shù)副教授楊熙助教李艷芳副教授周玲助教廖朝陽(yáng)講師譚永宏講師盧卯旺教授會(huì)議記錄摘要:會(huì)議主持人:記 錄 人:年 月 日指導(dǎo)小組意見(jiàn)負(fù)責(zé)人簽名: 年 月 日系部 意 見(jiàn)負(fù)責(zé)人簽名:年月日注:此表由學(xué)生本人填寫(xiě),一式三份,一份留系里存檔,指導(dǎo)老師和本人各保存一份湖南科技學(xué)院畢業(yè)論文(設(shè)計(jì))中期檢查表畢業(yè)論文(設(shè)計(jì))題 目特定人孤立詞語(yǔ)音識(shí)別的研究學(xué)生姓名周 剛學(xué) 號(hào)2004010099系 別物理與電子工程專(zhuān) 業(yè)電子信息工程指
11、導(dǎo)教師楊 熙檢查日期2008.3.26指導(dǎo)教師檢查情況記載及修改意見(jiàn):已經(jīng)完成的工作:1、完成了語(yǔ)音的采集。2、初步完成特定人語(yǔ)音識(shí)別系統(tǒng)中的端點(diǎn)檢測(cè)、特征提取、傳統(tǒng)DTW算法和改進(jìn)型DTW算法的比較和編程。3、進(jìn)行資料的整理。4、論文大部分內(nèi)容已經(jīng)完成。 下一步的工作: 1、對(duì)整個(gè)系統(tǒng)在MATLAB下進(jìn)行仿真測(cè)試。2、同時(shí)繼續(xù)論文的寫(xiě)作工作。3、參考文獻(xiàn)要按照學(xué)校的規(guī)范寫(xiě),要在正文出現(xiàn)的位置標(biāo)出。4、仔細(xì)修改摘要。5、進(jìn)一步優(yōu)化程序,提高識(shí)別速度。 簽名: 簽名: 注:此表用于指導(dǎo)教師在學(xué)生畢業(yè)論文(設(shè)計(jì))初稿完成后對(duì)學(xué)生執(zhí)行任務(wù)書(shū)情況進(jìn)行中期檢查時(shí)用,由指導(dǎo)教師填寫(xiě)。湖南科技學(xué)院畢業(yè)設(shè)計(jì)(
12、論文)指導(dǎo)過(guò)程記錄表畢業(yè)論文(設(shè)計(jì))題目特定人孤立詞語(yǔ)音識(shí)別的研究學(xué)生姓名周剛學(xué)號(hào)2004010099專(zhuān)業(yè)班級(jí)電信0401指導(dǎo)教師楊熙職稱(chēng)助教系(教研室)電子科學(xué)與技術(shù)指導(dǎo)過(guò)程記錄指導(dǎo)內(nèi)容記錄(一)建議畢業(yè)設(shè)計(jì)的選題方向,并提供一些參考課題及如何查閱資料。學(xué) 生 簽 名: 200 年 月 日 指導(dǎo)教師簽名: 200 年 月 日指導(dǎo)內(nèi)容記錄(二)確定畢業(yè)設(shè)計(jì)題目,給出畢業(yè)論文設(shè)計(jì)要求,指導(dǎo)開(kāi)題報(bào)告,并推薦一些參考文獻(xiàn)、書(shū)籍和網(wǎng)站。學(xué) 生 簽 名: 200 年 月 日 指導(dǎo)教師簽名: 200 年 月 日指導(dǎo)內(nèi)容記錄(三)特定人語(yǔ)音識(shí)別系統(tǒng)所需的語(yǔ)音處理理論知識(shí)及核心算法DTW算法。學(xué) 生 簽 名:
13、 200 年 月 日 指導(dǎo)教師簽名: 200 年 月 日指導(dǎo)內(nèi)容記錄(四)語(yǔ)音樣本的采集,樣本語(yǔ)音庫(kù)和測(cè)試語(yǔ)音庫(kù)的建立。學(xué) 生 簽 名: 200 年 月 日 指導(dǎo)教師簽名: 200 年 月 日指導(dǎo)過(guò)程記錄指導(dǎo)內(nèi)容記錄(五)對(duì)采集到的樣本進(jìn)行處理,端點(diǎn)檢測(cè)算法的選擇和特征參數(shù)的選擇。學(xué) 生 簽 名: 200 年 月 日 指導(dǎo)教師簽名: 200 年 月 日指導(dǎo)內(nèi)容記錄(六)傳統(tǒng)型DTW算法和快速DTW算法的編程實(shí)現(xiàn)。學(xué) 生 簽 名: 200 年 月 日 指導(dǎo)教師簽名: 200 年 月 日指導(dǎo)內(nèi)容記錄(七)在MATLAB下對(duì)程序進(jìn)行編譯和調(diào)試,對(duì)DTW算法和快速DTW算法進(jìn)行比較。學(xué) 生 簽 名:
14、200 年 月 日 指導(dǎo)教師簽名: 200 年 月 日指導(dǎo)內(nèi)容記錄(八)修改論文初稿,摘要的修改,章節(jié)的調(diào)節(jié),對(duì)仿真結(jié)果要分析,圖表的標(biāo)注和引用的參考文獻(xiàn)要規(guī)范。學(xué) 生 簽 名: 200 年 月 日 指導(dǎo)教師簽名: 200 年 月 日答辯小組組長(zhǎng)意見(jiàn)組長(zhǎng)(簽名): 200 年 月 日注:本表與畢業(yè)論文一起裝訂存檔。湖南科技學(xué)院本科畢業(yè)論文(設(shè)計(jì))評(píng)審表論文題目特定人孤立詞語(yǔ)音識(shí)別的研究作者姓名周 剛所屬系、專(zhuān)業(yè)、年級(jí)物理與電子工程 系 電子信息工程 專(zhuān)業(yè) 2004年級(jí)指導(dǎo)教師姓名、職稱(chēng)楊 熙字 數(shù)10000定稿日期2008.5.10中文摘要論文中首先介紹了孤立詞語(yǔ)音識(shí)別系統(tǒng)的基本理論,分析了孤
15、立詞語(yǔ)音識(shí)別的基本工作過(guò)程。接著介紹了常用的孤立詞語(yǔ)音識(shí)別算法:DTW(Dynamic Time Warping,動(dòng)態(tài)時(shí)間彎折)以及改進(jìn)的DTW,對(duì)兩種算法進(jìn)行了比較,根據(jù)比較結(jié)果,采用比較高效的改進(jìn)型DTW,以提高識(shí)別效率。提出了基于動(dòng)態(tài)噪聲的四狀態(tài)端點(diǎn)檢測(cè)算法,給出了詳細(xì)的算法流程圖以及具體參數(shù)的設(shè)置。用MATLAB6.5仿真了在有噪聲和無(wú)噪聲的情況下,利用這些算法對(duì)孤立詞的端點(diǎn)檢測(cè)效果,實(shí)驗(yàn)結(jié)果表明,些算法具有抗噪聲能力。關(guān)鍵詞(3-5個(gè))語(yǔ)音識(shí)別,孤立詞,特定人,DTW英文摘要The thesis first introduces the elementary theory of is
16、olated word speech recognition system and analyses the basic work process of isolated word speech recognition.Then it introduces two kinds of isolated word speech recognition algorithms in common use,Dynamic Time Warping(DTW) and advanced DTW,carrying on the comparison to the both.According to the c
17、omparison results and considering this systems characteristic,it adopts advanced DTW at present to improve recognition rate.In this paper,it proposes a four-state endpoint detection algorithm based on dynamic noise and gives the detailed algorithm flow chart as well as the concrete parameters establ
18、ishment.It also gives the isolated-word endpoint detection effect using the algorithm in noise and non-noise situation with the MATLAB6.5 software simulation.The experimental results indicate that this algorithm has the anti-noise ability.關(guān)鍵詞(3-5個(gè))speech recognition;isolated word;speaker-dependent;D
19、TW指導(dǎo)教師評(píng)定成績(jī)?cè)u(píng)審基元評(píng)審要素評(píng)審內(nèi)涵滿(mǎn)分指導(dǎo)教師實(shí)評(píng)分選題質(zhì)量25%目的明確符合要求選題符合專(zhuān)業(yè)培養(yǎng)目標(biāo),體現(xiàn)學(xué)科、專(zhuān)業(yè)特點(diǎn)和教學(xué)計(jì)劃的基本要求,達(dá)到畢業(yè)論文(設(shè)計(jì))綜合訓(xùn)練的目的。10理論意義或?qū)嶋H價(jià)值符合本學(xué)科的理論發(fā)展,有一定的學(xué)術(shù)意義;對(duì)經(jīng)濟(jì)建設(shè)和社會(huì)發(fā)展的應(yīng)用性研究中的某個(gè)理論或方法問(wèn)題進(jìn)行研究,具有一定的實(shí)際價(jià)值。10選題恰當(dāng)題目規(guī)模適當(dāng),難易度適中;有一定的科學(xué)性。5能力水平40%查閱文獻(xiàn)資料能力能獨(dú)立查閱相關(guān)文獻(xiàn)資料,歸納總結(jié)本論文所涉及的有關(guān)研究狀況及成果。10綜合運(yùn)用知識(shí)能力能運(yùn)用所學(xué)專(zhuān)業(yè)知識(shí)闡述問(wèn)題;能對(duì)查閱的資料進(jìn)行整理和運(yùn)用;能對(duì)其科學(xué)論點(diǎn)進(jìn)行論證。10研究方
20、案的設(shè)計(jì)能力整體思路清晰;研究方案合理可行。5研究方法和手段的運(yùn)用能力能運(yùn)用本學(xué)科常規(guī)研究方法及相關(guān)研究手段(如計(jì)算機(jī)、實(shí)驗(yàn)儀器設(shè)備等)進(jìn)行實(shí)驗(yàn)、實(shí)踐并加工處理、總結(jié)信息。10外文應(yīng)用能力能閱讀、翻譯一定量的本專(zhuān)業(yè)外文資料、外文摘要和外文參考書(shū)目(特殊專(zhuān)業(yè)除外)體現(xiàn)一定的外語(yǔ)水平。5論文質(zhì)量35%文題相符較好地完成論文選題的目的要求。5寫(xiě)作水平論點(diǎn)鮮明;論據(jù)充分;條理清晰;語(yǔ)言流暢。15寫(xiě)作規(guī)范符合學(xué)術(shù)論文的基本要求。用語(yǔ)、格式、圖表、數(shù)據(jù)、量和單位、各種資料引用規(guī)范化、符合標(biāo)準(zhǔn)。10論文篇幅10000字左右。5實(shí)評(píng)總分 成績(jī)等級(jí) 指導(dǎo)教師評(píng)審意見(jiàn): 指導(dǎo)教師簽名: 說(shuō)明:評(píng)定成績(jī)分為優(yōu)秀、良
21、好、中等、及格、不及格五個(gè)等級(jí),實(shí)評(píng)總分90100分記為優(yōu)秀,8089分記為良好,7079分記為中等,6069分記為及格,60分以下記為不及格。評(píng)閱教師評(píng)定成績(jī)?cè)u(píng)審基元評(píng)審要素評(píng)審內(nèi)涵滿(mǎn)分評(píng)閱教師實(shí)評(píng)分選題質(zhì)量25%目的明確符合要求選題符合專(zhuān)業(yè)培養(yǎng)目標(biāo),體現(xiàn)學(xué)科、專(zhuān)業(yè)特點(diǎn)和教學(xué)計(jì)劃的基本要求,達(dá)到畢業(yè)論文(設(shè)計(jì))綜合訓(xùn)練的目的。10理論意義或?qū)嶋H價(jià)值符合本學(xué)科的理論發(fā)展,有一定的學(xué)術(shù)意義;對(duì)經(jīng)濟(jì)建設(shè)和社會(huì)發(fā)展的應(yīng)用性研究中的某個(gè)理論或方法問(wèn)題進(jìn)行研究,具有一定的實(shí)際價(jià)值。10選題恰當(dāng)題目規(guī)模適當(dāng),難易度適中;有一定的科學(xué)性。5能力水平40%查閱文獻(xiàn)資料能力能獨(dú)立查閱相關(guān)文獻(xiàn)資料,歸納總結(jié)本論文
22、所涉及的有關(guān)研究狀況及成果。10綜合運(yùn)用知識(shí)能力能運(yùn)用所學(xué)專(zhuān)業(yè)知識(shí)闡述問(wèn)題;能對(duì)查閱的資料進(jìn)行整理和運(yùn)用;能對(duì)其科學(xué)論點(diǎn)進(jìn)行論證。10研究方案的設(shè)計(jì)能力整體思路清晰;研究方案合理可行。5研究方法和手段的運(yùn)用能力能運(yùn)用本學(xué)科常規(guī)研究方法及相關(guān)研究手段(如計(jì)算機(jī)、實(shí)驗(yàn)儀器設(shè)備等)進(jìn)行實(shí)驗(yàn)、實(shí)踐并加工處理、總結(jié)信息。10外文應(yīng)用能力能閱讀、翻譯一定量的本專(zhuān)業(yè)外文資料、外文摘要和外文參考書(shū)目(特殊專(zhuān)業(yè)除外)體現(xiàn)一定的外語(yǔ)水平。5論文質(zhì)量35%文題相符較好地完成論文選題的目的要求。5寫(xiě)作水平論點(diǎn)鮮明;論據(jù)充分;條理清晰;語(yǔ)言流暢。15寫(xiě)作規(guī)范符合學(xué)術(shù)論文的基本要求。用語(yǔ)、格式、圖表、數(shù)據(jù)、量和單位、各種
23、資料引用規(guī)范化、符合標(biāo)準(zhǔn)。10論文篇幅10000字左右。5實(shí)評(píng)總分 成績(jī)等級(jí) 評(píng)閱教師評(píng)審意見(jiàn): 評(píng)閱教師簽名: 說(shuō)明:評(píng)定成績(jī)分為優(yōu)秀、良好、中等、及格、不及格五個(gè)等級(jí),實(shí)評(píng)總分90100分記為優(yōu)秀,8089分記為良好,7079分記為中等,6069分記為及格,60分以下記為不及格。湖南科技學(xué)院本科畢業(yè)論文(設(shè)計(jì))答辯記錄表論文題目特定人孤立詞語(yǔ)音識(shí)別的研究作者姓名周 剛所屬系、專(zhuān)業(yè)、年級(jí)物理與電子工程系 電子信息工程專(zhuān)業(yè) 2004年級(jí)指導(dǎo)教師姓名、職稱(chēng)楊 熙答 辯 會(huì) 紀(jì) 要時(shí)間2008年5月15日地點(diǎn)第三教學(xué)樓317答辯小組成員姓 名職務(wù)(職稱(chēng))姓 名職務(wù)(職稱(chēng))姓 名職務(wù)(職稱(chēng))李春樹(shù)副
24、教授楊熙助教李艷芳副教授周玲助教廖朝陽(yáng)講師譚永宏講師盧卯旺教授答辯中提出的主要問(wèn)題及回答的簡(jiǎn)要情況記錄:1、 論文中改進(jìn)的DTW算法較傳統(tǒng)DTW算法有何優(yōu)點(diǎn)?答:由論文中圖6可看出,改進(jìn)的DTW算法更進(jìn)一步約束了搜索范圍,從而減少了數(shù)據(jù)計(jì)算量,加快識(shí)別速度并提高了計(jì)算準(zhǔn)確度,在仿真結(jié)果中能清楚的看出其改進(jìn)效果。2、 論文中用到的端點(diǎn)檢測(cè)算法為何能抗噪聲?答:論文中的端點(diǎn)檢測(cè)算法設(shè)定了高低短時(shí)能量、高低過(guò)零率、最大靜音時(shí)間、最小語(yǔ)音長(zhǎng)度六個(gè)門(mén)限值,其中短時(shí)能量是用于抗噪聲設(shè)計(jì)的,由于語(yǔ)音序列的前10幀一般都為噪聲,而端點(diǎn)檢測(cè)算法中的高低能量門(mén)限是以前10幀的平均能量值作為參考依據(jù),這樣我們的算法
25、就是基于動(dòng)態(tài)背景噪聲的。一般要根據(jù)實(shí)際情況選取,本系統(tǒng)取前10幀平均能量值的3倍和1.5倍分別作為高低能量門(mén)限。3、 論文中只提到了對(duì)單個(gè)字的識(shí)別,能否實(shí)現(xiàn)對(duì)多字詞的識(shí)別?答:DTW能實(shí)現(xiàn)對(duì)多字詞的識(shí)別,但本文中的四端點(diǎn)檢測(cè)法是針對(duì)單字詞設(shè)計(jì)的,不過(guò)根據(jù)本文中四端點(diǎn)檢測(cè)法的方法進(jìn)行擴(kuò)展,便能輕易實(shí)現(xiàn)對(duì)多字詞的識(shí)別。會(huì)議主持人:記 錄 人:年 月 日答辯小組意見(jiàn)評(píng)語(yǔ):評(píng)定等級(jí): 負(fù)責(zé)人(簽名): 年 月 日系學(xué)位委員會(huì)意見(jiàn)評(píng)語(yǔ):論文(設(shè)計(jì))最終評(píng)定等級(jí):負(fù)責(zé)人(簽名): 系部(公章) 年月 日校學(xué)位委員會(huì)意見(jiàn)評(píng)語(yǔ):評(píng)定等級(jí): 負(fù)責(zé)人(簽名): 年月 日目 錄緒 論11 語(yǔ)音識(shí)別系統(tǒng)基本理論31.
26、1 語(yǔ)音識(shí)別系統(tǒng)的組成31.2 預(yù)處理31.3 特征參數(shù)的提取41.3.1 MFCC參數(shù)計(jì)算流程51.3.2 差分倒譜參數(shù)52 Dynamic Time Warping算法72.1 DTW算法原理72.2 改進(jìn)的DTW算法83 系統(tǒng)的軟件設(shè)計(jì)與仿真123.1 語(yǔ)音預(yù)處理123.2 改進(jìn)的端點(diǎn)檢測(cè)算法及仿真123.2.1 改進(jìn)的端點(diǎn)檢測(cè)算法123.2.2 端點(diǎn)檢測(cè)算法子程序流程圖143.2.3 端點(diǎn)檢測(cè)仿真153.3 特征參數(shù)提取子程序及仿真163.4 DTW算法仿真163.5 語(yǔ)音識(shí)別仿真18結(jié) 論19參 考 文 獻(xiàn)20附錄A 部分程序21致 謝28插圖索引圖1 一般語(yǔ)音識(shí)別系統(tǒng)框圖3圖2 用
27、能量和過(guò)零率進(jìn)行端點(diǎn)檢測(cè)4圖3 線(xiàn)性頻率上 fm 和 f 關(guān)系5圖4 動(dòng)態(tài)時(shí)間彎曲(DTW)算法求最小失真7圖5 DTW算法搜索路徑8圖6 匹配路徑約束示意圖9圖7 對(duì)角線(xiàn)附近的帶狀區(qū)域圖10圖8 放寬端點(diǎn)后的區(qū)域限制11圖9 預(yù)加重后的語(yǔ)音效果12圖10 四狀態(tài)轉(zhuǎn)移的端點(diǎn)檢測(cè)13圖11 “停止”的短時(shí)能量和過(guò)零率13圖12 基于四狀態(tài)轉(zhuǎn)移的端點(diǎn)檢測(cè)流程圖14圖13 無(wú)噪聲環(huán)境下的端點(diǎn)檢測(cè)15圖14 有噪聲環(huán)境下的端點(diǎn)檢測(cè)15圖15 24維特征參數(shù)部分值16圖16 數(shù)字16在MATLAB環(huán)境下的識(shí)別結(jié)果顯示18附表索引表1 實(shí)驗(yàn)一在傳統(tǒng)DTW算法下的失真測(cè)度16表2 實(shí)驗(yàn)一在改進(jìn)DTW算法下的
28、失真測(cè)度17表3 實(shí)驗(yàn)二在傳統(tǒng)DTW算法下的失真測(cè)度17表4 實(shí)驗(yàn)二在改進(jìn)DTW算法下的失真測(cè)度17表5 實(shí)驗(yàn)一傳統(tǒng)DTW算法和改進(jìn)DTW算法的用時(shí)比較18表6 實(shí)驗(yàn)二傳統(tǒng)DTW算法和改進(jìn)DTW算法的用時(shí)比較18特定人孤立詞語(yǔ)音識(shí)別的研究摘 要語(yǔ)音是人類(lèi)進(jìn)行交流的手段,因此,使用語(yǔ)音作為人機(jī)交互的途徑對(duì)于使用者來(lái)說(shuō)是最自然的一種方式,同時(shí)設(shè)備的小型化也要求省略鍵盤(pán)以節(jié)省體積。近年來(lái),語(yǔ)音識(shí)別技術(shù)被廣泛應(yīng)用于工業(yè)控制、消費(fèi)類(lèi)產(chǎn)品及移動(dòng)通信中,是高科技應(yīng)用領(lǐng)域的研究熱點(diǎn)。本文就是在這種情況下對(duì)特定人孤立詞語(yǔ)音識(shí)別系統(tǒng)做了一些探討。論文中首先介紹了孤立詞語(yǔ)音識(shí)別系統(tǒng)的基本理論,分析了孤立詞語(yǔ)音識(shí)別的
29、基本工作過(guò)程。接著介紹了常用的孤立詞語(yǔ)音識(shí)別算法:DTW(Dynamic Time Warping,動(dòng)態(tài)時(shí)間彎折)以及改進(jìn)的DTW,對(duì)兩種算法進(jìn)行了比較,根據(jù)比較結(jié)果,采用比較高效的改進(jìn)型DTW,以提高識(shí)別效率。提出了基于動(dòng)態(tài)噪聲的四狀態(tài)端點(diǎn)檢測(cè)算法,給出了詳細(xì)的算法流程圖以及具體參數(shù)的設(shè)置。用MATLAB6.5仿真了在有噪聲和無(wú)噪聲的情況下,利用這些算法對(duì)孤立詞的端點(diǎn)檢測(cè)效果,實(shí)驗(yàn)結(jié)果表明,些算法具有抗噪聲能力?!娟P(guān)鍵詞】語(yǔ)音識(shí)別孤立詞特定人DTWResearch Of Speaker-dependent Isolated-word Speech RecognitionAbstractSpe
30、ech is the means that human being carries on communication.Therefore,using speech as a human-computer interaction approach is the most natural way for the user.At the same time,equipment miniaturization also demands omitting the keyboard to economize volume.In recent years,the speech recognition tec
31、hnology has been widely applied to industrial control,consuming product and mobile communication.It is a hot research spot in high technology application field.This thesis makes some discussions on speaker-independent isolated word speech recognition system in this case.The thesis first introduces t
32、he elementary theory of isolated word speech recognition system and analyses the basic work process of isolated word speech recognition.Then it introduces two kinds of isolated word speech recognition algorithms in common use,Dynamic Time Warping(DTW) and advanced DTW,carrying on the comparison to t
33、he both.According to the comparison results and considering this systems characteristic,it adopts advanced DTW at present to improve recognition rate.In this paper,it proposes a four-state endpoint detection algorithm based on dynamic noise and gives the detailed algorithm flow chart as well as the
34、concrete parameters establishment.It also gives the isolated-word endpoint detection effect using the algorithm in noise and non-noise situation with the MATLAB6.5 software simulation.The experimental results indicate that this algorithm has the anti-noise ability.【Key words】speech recognition isola
35、ted word speaker-dependent DTW緒 論語(yǔ)音識(shí)別(Speech Recognition)是機(jī)器通過(guò)識(shí)別和理解過(guò)程把語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本文件或命令的高技術(shù)。作為專(zhuān)門(mén)的研究領(lǐng)域,語(yǔ)音識(shí)別又是一門(mén)交叉學(xué)科,它與聲學(xué)、語(yǔ)音學(xué)、語(yǔ)言學(xué)、數(shù)字信號(hào)處理理論、信息論、計(jì)算機(jī)科學(xué)、人工智能、數(shù)理統(tǒng)計(jì)等眾多學(xué)科緊密相連。語(yǔ)音識(shí)別經(jīng)過(guò)四十多年的發(fā)展,已經(jīng)顯示出巨大的應(yīng)用前景1。隨著計(jì)算機(jī)技術(shù)、模式識(shí)別和信號(hào)處理技術(shù)以及聲學(xué)技術(shù)等的發(fā)展,使得語(yǔ)音識(shí)別技術(shù)取得顯著進(jìn)步,開(kāi)始從實(shí)驗(yàn)室走向市場(chǎng)。近二三十年來(lái),語(yǔ)音識(shí)別技術(shù)在工業(yè)、家電、通信、汽車(chē)電子、醫(yī)療、家庭服務(wù)、消費(fèi)電子產(chǎn)品等領(lǐng)域有著廣泛應(yīng)
36、用。當(dāng)今,語(yǔ)音識(shí)別產(chǎn)品在人機(jī)交互應(yīng)用中,已經(jīng)占到了越來(lái)越大的比例。其主要應(yīng)用在語(yǔ)音命令、應(yīng)用于電信增值業(yè)務(wù)、數(shù)據(jù)庫(kù)檢索等方面。語(yǔ)音識(shí)別系統(tǒng)從不同角度、不同的應(yīng)用范圍等都會(huì)有不同的分類(lèi)。一般語(yǔ)音識(shí)別系統(tǒng)按不同的角度有下面幾種分類(lèi):1按說(shuō)話(huà)人的講話(huà)方式可以分為孤立詞(Isolated Word)識(shí)別連續(xù)語(yǔ)音(Continuous Speech)識(shí)別。孤立詞識(shí)別是指說(shuō)話(huà)人每次只說(shuō)一個(gè)詞或短語(yǔ),每個(gè)詞或短語(yǔ)在詞匯表中都算作一個(gè)孤立詞條。因此,可以用來(lái)實(shí)現(xiàn)簡(jiǎn)單的家用電器控制。連續(xù)語(yǔ)音識(shí)別是指對(duì)說(shuō)話(huà)人以日常自然的方式發(fā)音,通常特指用于語(yǔ)音錄入的聽(tīng)寫(xiě)機(jī)。2按識(shí)別對(duì)象的類(lèi)型可以分為特定人(Speaker De
37、pendent)語(yǔ)音識(shí)別和非特定人(Speaker Independent)語(yǔ)音識(shí)別。特定人是指定只針對(duì)一個(gè)用戶(hù)的語(yǔ)音識(shí)別,比較簡(jiǎn)單,能得到較高的識(shí)別率,但使用前必須由特定人的用戶(hù)輸入大量的發(fā)音數(shù)據(jù)對(duì)其進(jìn)行訓(xùn)練。非特定人則可用于不同的用戶(hù),這種識(shí)別系統(tǒng)的通用性好,應(yīng)用面廣,但難度也較大,不容易得到高的識(shí)別率,它的實(shí)用化將會(huì)有很高的經(jīng)濟(jì)價(jià)值和深遠(yuǎn)的社會(huì)意義。3按識(shí)別的詞匯量可以分為小詞匯、中詞匯和大詞匯量語(yǔ)音識(shí)別。一般來(lái)講,120個(gè)詞匯屬于小詞匯量語(yǔ)音識(shí)別系統(tǒng)、201000個(gè)詞匯屬于中詞匯量語(yǔ)音識(shí)別系統(tǒng)、大于1000個(gè)詞匯屬于大詞匯量語(yǔ)音識(shí)別系統(tǒng)。語(yǔ)音識(shí)別研究從二十世紀(jì)50年代開(kāi)始到現(xiàn)在已經(jīng)歷半
38、個(gè)多世紀(jì)的蓬勃發(fā)展,在這期間獲得了巨大的進(jìn)展。這里僅僅按照一些重要方法的出現(xiàn)和發(fā)展為線(xiàn)索進(jìn)行簡(jiǎn)要回顧。50年代,AT& T Bell實(shí)驗(yàn)室實(shí)現(xiàn)了第一個(gè)可識(shí)別十個(gè)英文數(shù)字的語(yǔ)音識(shí)別系統(tǒng)Audry系統(tǒng)。60年代,提出了動(dòng)態(tài)規(guī)劃(DP)和線(xiàn)性預(yù)測(cè)分析技術(shù)(LP),其中后者較好地解決了語(yǔ)音信號(hào)產(chǎn)生模型的問(wèn)題,對(duì)語(yǔ)音識(shí)別的發(fā)展產(chǎn)生了深遠(yuǎn)影響。70年代,在模式識(shí)別思想、動(dòng)態(tài)規(guī)劃方法、線(xiàn)性預(yù)測(cè)思想等基礎(chǔ)研究的成功應(yīng)用的支撐下,孤立詞發(fā)音和孤立語(yǔ)句發(fā)音的識(shí)別成為了可行的有用技術(shù)。80年代,的最大特點(diǎn)是從基于模板的方法向統(tǒng)計(jì)模型方法的轉(zhuǎn)變,特別是轉(zhuǎn)向研究隱馬爾柯夫模型HMM的理論、方法和實(shí)現(xiàn)問(wèn)題。90年代,語(yǔ)音
39、識(shí)別研究的重點(diǎn)轉(zhuǎn)向自然語(yǔ)言的識(shí)別處理,任務(wù)轉(zhuǎn)移到航空旅行信息的索取。同時(shí),語(yǔ)音識(shí)別技術(shù)不斷應(yīng)用于電話(huà)網(wǎng)絡(luò),增強(qiáng)話(huà)務(wù)員服務(wù)和自動(dòng)化。2000年以來(lái),人機(jī)語(yǔ)音交互成為研究的焦點(diǎn)。研究重點(diǎn)包括即興口語(yǔ)的識(shí)別和理解,自然口語(yǔ)對(duì)話(huà),以及多語(yǔ)種的語(yǔ)音同聲翻譯5。語(yǔ)音識(shí)別技術(shù)經(jīng)過(guò)全球半個(gè)多世紀(jì)的研究,目前已經(jīng)發(fā)展到了接近實(shí)用的階段。在實(shí)驗(yàn)室環(huán)境下,大詞匯量的朗讀式連續(xù)說(shuō)話(huà)的寬帶語(yǔ)音信號(hào)的平均識(shí)別率可以達(dá)到90%以上。在這樣的水平基礎(chǔ)上,語(yǔ)音識(shí)別技術(shù)開(kāi)始嘗試從實(shí)驗(yàn)室演示系統(tǒng)走向?qū)嵱没唐?。但語(yǔ)音識(shí)別技術(shù)要進(jìn)入成熟的商業(yè)運(yùn)用還有一段艱難的路程,還必須在很多方面取得突破性進(jìn)展。主要包括高可靠性;增加詞匯量;應(yīng)用拓
40、展;降低成本減小體積四個(gè)方面。語(yǔ)音識(shí)別ASR(Automatic Speech Recognition)系統(tǒng)的實(shí)用化研究是近十年語(yǔ)音識(shí)別研究的一個(gè)主要方向。近年來(lái),消費(fèi)類(lèi)電子產(chǎn)品對(duì)低成本、高穩(wěn)健性的語(yǔ)音識(shí)別片上系統(tǒng)的需要快速增加,語(yǔ)音識(shí)別系統(tǒng)大量地從實(shí)驗(yàn)室的PC平臺(tái)轉(zhuǎn)移到嵌入式設(shè)備中。本文主要是針對(duì)普通控制命令詞,小詞匯量的特定人孤立詞語(yǔ)音識(shí)別的研究。全文共分章,具體的研究?jī)?nèi)容如下:第章:介紹了語(yǔ)音識(shí)別系統(tǒng)的實(shí)現(xiàn)方案,給出了孤立詞識(shí)別中需要的語(yǔ)音信號(hào)處理理論,如預(yù)加重、端點(diǎn)檢測(cè)和特征參數(shù)提取等。第章:介紹了基于動(dòng)態(tài)規(guī)劃(DP)思想的DTW算法,并在此算法的基礎(chǔ)上,討論了快速DTW算法的實(shí)現(xiàn)。最
41、后給出了兩者的對(duì)比仿真。第章:針對(duì)本文采集的語(yǔ)音樣本,對(duì)預(yù)處理后的語(yǔ)音提出了基于動(dòng)態(tài)噪聲有四狀態(tài)端點(diǎn)檢測(cè)法。闡述了系統(tǒng)的軟件設(shè)計(jì)過(guò)程,對(duì)各部分給出了相應(yīng)的軟件流程圖,并且對(duì)具體算法進(jìn)行了MATLAB仿真論證。1 語(yǔ)音識(shí)別系統(tǒng)基本理論1.1 語(yǔ)音識(shí)別系統(tǒng)的組成語(yǔ)音識(shí)別系統(tǒng)的典型實(shí)現(xiàn)方案如框圖1所示。預(yù)處理特征提取輸入語(yǔ)音測(cè)度估計(jì)識(shí)別判決參考模板識(shí)別結(jié)果模板庫(kù)識(shí)別訓(xùn)練圖1 一般語(yǔ)音識(shí)別系統(tǒng)框圖一個(gè)完整特定人孤立詞語(yǔ)音識(shí)別系統(tǒng)通常包括語(yǔ)音的輸入、語(yǔ)音的預(yù)處理(預(yù)加重、加窗分幀、端點(diǎn)檢測(cè)等)、特征提取、訓(xùn)練與識(shí)別等幾個(gè)環(huán)節(jié),基本構(gòu)成如圖1所示。語(yǔ)音識(shí)別的過(guò)程可以被看作模式匹配的過(guò)程,模式匹配是指根據(jù)一
42、定的準(zhǔn)則,使未知模式與模型庫(kù)中的某一個(gè)模型獲得最佳匹配的過(guò)程。 模式匹配中需要用到的參考模板通過(guò)模板訓(xùn)練獲得。 在訓(xùn)練階段,用戶(hù)將詞匯表中的每個(gè)詞依次說(shuō)一遍作為模板保存為模板庫(kù)。 在識(shí)別階段,語(yǔ)音信號(hào)經(jīng)過(guò)相同的通道得到語(yǔ)音特征參數(shù),生成測(cè)試模板并與參考模板進(jìn)行匹配,將匹配分?jǐn)?shù)最高的參考模板作為識(shí)別結(jié)果。同時(shí),還可以在一些先驗(yàn)知識(shí)的幫助下,提高識(shí)別的準(zhǔn)確率3。1.2 預(yù)處理由于語(yǔ)音信號(hào)的平均功率譜受聲門(mén)激勵(lì)和口鼻輻射影響,高頻端大約在800Hz以上按6dB/倍頻程跌落,所以在語(yǔ)音信號(hào)頻譜時(shí),頻率越高相應(yīng)的成分越小,高頻部分的頻譜比低頻部分的難求,為此要在預(yù)處理中進(jìn)行預(yù)加重(Pre-emphasi
43、s)處理。預(yù)加重通過(guò)濾波提升高頻分量并消除50Hz或60Hz的工頻干擾,使信號(hào)的頻譜變得平坦,保持在低頻到高頻的整個(gè)頻帶中,能用同樣的信噪比求頻譜,以便于頻譜分析或聲道參數(shù)分析。通常用一階FIR數(shù)字濾波器來(lái)實(shí)現(xiàn),系統(tǒng)函數(shù)為:H(z)= 1 a z 1 (a 接近于1) (1-1)進(jìn)行預(yù)加重?cái)?shù)字濾波處理后,接下來(lái)就要進(jìn)行加窗分幀處理。分幀采用可移動(dòng)的有限窗口進(jìn)行加權(quán)的方法實(shí)現(xiàn),即用窗函數(shù)(n)來(lái)乘X(n),從而形成加窗語(yǔ)音信號(hào)X(n)=X(n)* (n)。在語(yǔ)音信號(hào)處理中,常用的窗函數(shù)是矩形窗和漢明窗。本文中,8kHz采樣,幀長(zhǎng)為256,幀移為80的漢明窗。端點(diǎn)檢測(cè)的目的是從包含語(yǔ)音的一般信號(hào)中
44、確定出語(yǔ)音的起點(diǎn)以及終點(diǎn), 有效的端點(diǎn)檢測(cè)不僅能使處理時(shí)間最小, 而且能排除無(wú)聲段的噪聲干擾, 從而使識(shí)別系統(tǒng)具有良好的識(shí)別性能, 端點(diǎn)檢測(cè)的成功與否甚至在某種程度上直接決定了整個(gè)語(yǔ)音識(shí)別系統(tǒng)的成敗。在實(shí)際應(yīng)用中,通常是利用過(guò)零率來(lái)檢測(cè)清音,用短時(shí)能量來(lái)檢測(cè)濁音,兩者配合實(shí)現(xiàn)可靠的端點(diǎn)檢測(cè)。用得比較多的是經(jīng)典的雙門(mén)限端點(diǎn)檢測(cè)算法。如圖2所示。幅值amp2amp10N0N1N2n過(guò)零率ZCR00N0N1N2n圖2 用能量和過(guò)零率進(jìn)行端點(diǎn)檢測(cè)輸入的語(yǔ)音信號(hào)X(l),加窗分幀處理后得到的第n幀的語(yǔ)音信號(hào)為Xn(m),則:Xn(m)= (m)X(n+m) m=0 (N-1) (1-2)其中,n=0,1
45、T,2T,并且N為幀長(zhǎng),T為幀移。第n幀語(yǔ)音信號(hào)Xn(m)的短時(shí)能量En為:En = |Xn(m)|N -1m=0 (1-3)這里定義短時(shí)能量即短時(shí)幅值,它的主要作用:區(qū)分濁音和清音,因?yàn)闈嵋舻亩虝r(shí)能量比清音大得多。區(qū)分聲母與韻母的邊界,無(wú)聲和有聲的分界,連字的分界等。作為一種超音段信息,用于語(yǔ)音識(shí)別中。一幀信號(hào)中波形穿越零電平的次數(shù),稱(chēng)為過(guò)零率。定義Xn(m)的短時(shí)過(guò)零率Zn為:Zn = |sgn Xn(m)-sgnXn(m-1)|N -1m=012 (1-4)上式中,sgn 是符號(hào)函數(shù)??紤]到開(kāi)始以后總會(huì)出現(xiàn)能量較大的濁音,設(shè)一個(gè)較高的門(mén)限amp1用以確定語(yǔ)音已開(kāi)始,再取一比amp1稍低的
46、門(mén)限amp2,用以確定語(yǔ)音的起始點(diǎn)N1,和結(jié)束點(diǎn)N2,由于語(yǔ)音起始段往往存在著能量很弱的清輔音(如s、f等),只用能量去判斷,很難把它們和無(wú)聲區(qū)分開(kāi),但發(fā)現(xiàn)它們的過(guò)零率明顯高于無(wú)聲段,因此可以用過(guò)零率來(lái)精確起點(diǎn)。第四將仔細(xì)介紹端點(diǎn)檢測(cè)算法。1.3 特征參數(shù)的提取特征參數(shù)提取的目的是抽取語(yǔ)音特征,以使在語(yǔ)音識(shí)別時(shí)類(lèi)內(nèi)距離盡量小,類(lèi)間距離盡量大。語(yǔ)音特征參數(shù)提取是語(yǔ)音識(shí)別的關(guān)鍵問(wèn)題,特征參數(shù)的好壞對(duì)于語(yǔ)音識(shí)別精度和識(shí)別時(shí)間有很大影響。常用的參數(shù)有線(xiàn)性預(yù)測(cè)的倒譜系數(shù)(LPCC)和Mel頻率的倒譜系數(shù)(MFCC)。全極點(diǎn)線(xiàn)性預(yù)測(cè)模型(LPC)是基于發(fā)音模型建立的,并假設(shè)語(yǔ)音信號(hào)為自回歸信號(hào),利用線(xiàn)性預(yù)
47、測(cè)分析獲得倒譜參數(shù)。因此,LPCC系數(shù)也是基于合成的參數(shù),沒(méi)有充分利用人耳的聽(tīng)覺(jué)特性,對(duì)輔音的描述能力較差,抗噪聲性能較差。實(shí)際上,人的聽(tīng)覺(jué)系統(tǒng)是一個(gè)特殊的非線(xiàn)性系統(tǒng),它響應(yīng)不同頻率信號(hào)的靈敏度是不同的,基本上是一個(gè)對(duì)數(shù)的關(guān)系。由于充分模擬了人的聽(tīng)覺(jué)特性,而且沒(méi)有任何前提假設(shè),因此MFCC參數(shù)具有很好的識(shí)別性能和抗噪能力。研究表明, Mel頻率的倒譜參數(shù)所含的信息量比其它參數(shù)多,能較好的表現(xiàn)語(yǔ)音信號(hào),并且比較充分利用人耳特殊感知特性,性能優(yōu)于LPCC參數(shù)。因此,本文中用到的Voicebox工具箱中的mfcc.m函數(shù)就是采用采用MFCC參數(shù)。1.3.1 MFCC參數(shù)計(jì)算流程MFCC參數(shù)計(jì)算的要點(diǎn)
48、是將線(xiàn)性功率譜S ( n)轉(zhuǎn)換成為mel頻率下的功率譜, 這需要在計(jì)算之前先在語(yǔ)音的頻譜范圍內(nèi)設(shè)置若干個(gè)帶通濾波器:Hm ( n) ,m = 0 Y 1,n = 0 H /2 1Y為濾波器個(gè)數(shù),H為一幀語(yǔ)音信號(hào)的點(diǎn)數(shù)。每個(gè)濾波器具有三角形特性,其中心頻率為fm,它們?cè)?Mel 頻率軸上是均勻分布的。在線(xiàn)性頻率上,當(dāng) m 較小時(shí),相鄰的 fm 間隔很小,隨著 m 的增加相鄰的 fm 間隔逐漸拉開(kāi)。另外在頻率較低的區(qū)域,fm 和 f 之間有一段是線(xiàn)性的。如圖3所示:m圖3 線(xiàn)性頻率上 fm 和 f 關(guān)系MFCC參數(shù)的計(jì)算是以“bark”為頻率基準(zhǔn)的,Mel頻率與線(xiàn)性頻率的轉(zhuǎn)換關(guān)系為:f mel = 2595 log10 (1+ )f700 (1-5)其中,線(xiàn)性
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- ESG體系下的AI研究:多維投資增效防范倫理風(fēng)險(xiǎn)
- 冷鏈物流溫控技術(shù)在冷鏈?zhǔn)称防滏溑渌椭械馁|(zhì)量保障體系優(yōu)化與提升報(bào)告
- 2025年醫(yī)藥行業(yè)CRO模式下的供應(yīng)鏈管理與物流優(yōu)化報(bào)告
- 短視頻平臺(tái)內(nèi)容版權(quán)糾紛處理與行業(yè)規(guī)范報(bào)告
- 綠色金融產(chǎn)品創(chuàng)新與綠色金融市場(chǎng)創(chuàng)新產(chǎn)品創(chuàng)新政策效應(yīng)分析報(bào)告
- 民辦教育機(jī)構(gòu)2025年合規(guī)運(yùn)營(yíng)與品牌形象升級(jí)研究報(bào)告
- 文明校園廣播稿(范本14篇)
- 快遞行業(yè)Presentation:需求韌性持續(xù)、價(jià)格波動(dòng)加劇
- 縣級(jí)網(wǎng)格化監(jiān)督管理制度
- 景區(qū)巡查安全管理制度
- 廣東省廣州市增城區(qū)2023-2024學(xué)年八年級(jí)下學(xué)期期末數(shù)學(xué)試題(含答案)
- 廣東省廣州市番禺區(qū)2022-2023學(xué)年三年級(jí)下學(xué)期數(shù)學(xué)期末試卷(含答案)
- 分包安全生產(chǎn)管理制度
- 南充中考理綜試題及答案
- 廠(chǎng)區(qū)衛(wèi)生清潔管理制度
- 養(yǎng)老項(xiàng)目商業(yè)計(jì)劃書(shū)
- 2025年新高考1卷(新課標(biāo)Ⅰ)數(shù)學(xué)試卷
- 2025北京初三一模英語(yǔ)匯編:材料作文
- 2024-2025 學(xué)年八年級(jí)英語(yǔ)下學(xué)期期末模擬卷 (南通專(zhuān)用)原卷
- 日本動(dòng)畫(huà)產(chǎn)業(yè)發(fā)展特征與趨勢(shì)分析
- 2025河南中考:歷史必背知識(shí)點(diǎn)
評(píng)論
0/150
提交評(píng)論