模式識(shí)別導(dǎo)論課程論文_第1頁
模式識(shí)別導(dǎo)論課程論文_第2頁
模式識(shí)別導(dǎo)論課程論文_第3頁
模式識(shí)別導(dǎo)論課程論文_第4頁
模式識(shí)別導(dǎo)論課程論文_第5頁
已閱讀5頁,還剩41頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、模式識(shí)別導(dǎo)論課程論文題 目 基于Matlab的語音識(shí)別系統(tǒng) 院(系) 專業(yè)學(xué)生名單 指導(dǎo)教師 指導(dǎo)教師工作單位 起訖日期 年 月 至 月 摘 要語音是人的自然屬性之一,是人類信息交流的基本手段。語音中包含有多種信息,如語義信息、語言信息、說話人信息、情感信息等。語音識(shí)別就是從語音信號(hào)中識(shí)別出這些信息。按照任務(wù)的不同,語音識(shí)別可以分為四個(gè)方面:說話人識(shí)別、語種識(shí)別、關(guān)鍵詞識(shí)別和連續(xù)語音識(shí)別。語音識(shí)別是以聲音作為研究對(duì)象,它是語音信號(hào)處理的一個(gè)重要研究方向,是模式識(shí)別的一個(gè)分支涉及到生理學(xué)、心理學(xué)、語言學(xué)、計(jì)算機(jī)科學(xué)以及信號(hào)處理等諸多領(lǐng)域,甚至還涉及到人的體態(tài)語言(如人在說話時(shí)的表情、手勢(shì)等行為動(dòng)

2、作可幫助對(duì)方理解),其最終目標(biāo)是實(shí)現(xiàn)人與機(jī)器進(jìn)行自然語言通信。語音識(shí)別作為一門兼具理論價(jià)值與應(yīng)用價(jià)值的研究課題,得到越來越多研究者的興趣和關(guān)注,各種各樣的語音識(shí)別方法層出不窮。本次課程論文通過分析MFCC系數(shù)和語音識(shí)別的基本原理,應(yīng)用Matlab 設(shè)計(jì)實(shí)驗(yàn)程序并結(jié)合VQ矢量量化模型完成語音識(shí)別的VQ實(shí)現(xiàn)。本次課程論文通過語音識(shí)別的相關(guān)的背景、步驟以及原理,設(shè)計(jì)了三個(gè)matlab語音識(shí)別實(shí)驗(yàn),并包含了實(shí)驗(yàn)的流程和結(jié)果。在附錄中附有程序代碼,以供參考。關(guān)鍵詞:語音識(shí)別;MatlabABSTRACTVoice is one of the peoples natural attribute, whic

3、h is the basic means of communication.Voice contains many information, such as semantic information, language information, the speaker, effective information and so on. Voice recognition is to recognize these information from the voice signal. According to the different roles, voice recognition can

4、be divided to four floor, including the speaker recognition, the type of voice recognition, the key words recognition and the recognition of continuous voice.The voice recognition bases on the voice as a research object, is an important direction for the voice recognition process, which is a branch

5、of model recognition involving physiology, psychology, philology, computer science, signal process and other fields, even involving body language. The final target is to make the machine communicate with human beings.In recent years, face recognition research topics, which have both theoretical valu

6、e and application value, attracted more and more researchers. A wide variety of face recognition methods emerge in an endless stream.This thesis analyzes the basic principle of the VQ and voice recognition. And the experimental procedure is designed with matlab for completing new methods in voice re

7、cognition based on VQ.This paper describes the analysis and design background, steps as well as the principle of the process and design three matlab experiments for the voice recognition, which contains experiment process and results. With program code in the appendix for reference.Key words:Voice r

8、ecognition; Matlab; 目 錄1.緒論11.1課題研究的目的11.2課題研究的意義11.3國內(nèi)外研究概況2原理分析52.1語音識(shí)別系統(tǒng)的特征提取52.2語音識(shí)別系統(tǒng)的分類模型8語音識(shí)別的整體過程113.1 語音識(shí)別系統(tǒng)的結(jié)構(gòu)113.2語音信號(hào)預(yù)處理113.3語音信號(hào)的特征提取153.4用矢量量化聚類法生成碼本163.5VQ的說話人識(shí)別174.實(shí)驗(yàn)設(shè)計(jì)184.1實(shí)驗(yàn)一184.2實(shí)驗(yàn)二184.3實(shí)驗(yàn)三19實(shí)驗(yàn)結(jié)果215.1實(shí)驗(yàn)一215.2實(shí)驗(yàn)二235.3實(shí)驗(yàn)三26總結(jié)277.程序代碼28致謝45參考文獻(xiàn)45 1.緒論1.1課題研究的目的近年來,語音識(shí)別作為一門兼具理論價(jià)值與應(yīng)用價(jià)值

9、的研究課題,得到越來越多研究者的興趣和關(guān)注,各種各樣的語音識(shí)別方法層出不窮。 本次課程論文通過語音識(shí)別的基本原理,應(yīng)用Matlab 設(shè)計(jì)實(shí)驗(yàn)程序。1.2課題研究的意義語音識(shí)別是以聲音作為研究對(duì)象它是語音信號(hào)處理的一個(gè)重要研究方向,是模式識(shí)別的一個(gè)分支涉及到生理學(xué)、心理學(xué)、語言學(xué)、計(jì)算機(jī)科學(xué)以及信號(hào)處理等諸多領(lǐng)域,甚至還涉及到人的體態(tài)語言(如人在說話時(shí)的表情、手勢(shì)等行為動(dòng)作可幫助對(duì)方理解),其最終目標(biāo)是實(shí)現(xiàn)人與機(jī)器進(jìn)行自然語言通信。語音識(shí)別是近年來十分活躍的一個(gè)研究領(lǐng)域。語音識(shí)別技術(shù)作為一種重要的人機(jī)交互手段,輔助甚至取代傳統(tǒng)的鍵盤、鼠標(biāo)等輸入設(shè)備,在個(gè)人計(jì)算機(jī)和手機(jī)等數(shù)碼產(chǎn)品上進(jìn)行文字錄入和操

10、作控制。同時(shí)在手持式PDA、智能家電、工業(yè)現(xiàn)場(chǎng)控制等應(yīng)用場(chǎng)合,語音識(shí)別技術(shù)則有更為廣闊的發(fā)展前景。由于計(jì)算機(jī)功能的日益強(qiáng)大,存儲(chǔ)技術(shù)、語音算法技術(shù)和信號(hào)處理技術(shù)的長(zhǎng)足進(jìn)步,以及軟件編程水平的提高,語音識(shí)別技術(shù)已經(jīng)取得突破性的進(jìn)展。語音識(shí)別技術(shù)的應(yīng)用主要有以下兩個(gè)方面。一是用于人機(jī)交流。語音識(shí)別技術(shù)的采用,改變了人與計(jì)算機(jī)的互動(dòng)模式,人們只需動(dòng)動(dòng)口,就能打開或關(guān)閉程序,改變工作界面。這種使電腦人性化的結(jié)果是使人的雙手得到解放,使每個(gè)人都能操作和應(yīng)用計(jì)算機(jī)。語音識(shí)別技術(shù)的另一方面應(yīng)用便是語音輸入和合成語音輸出?,F(xiàn)在,已經(jīng)出現(xiàn)能將口述的文稿輸入計(jì)算機(jī)并按指定格式編排的語音軟件,它比通過鍵盤輸入在速度

11、上要提高24倍。裝有語音軟件的電腦還能通過語音合成把計(jì)算機(jī)里的文件用各種語言“讀”出來,這將大大推進(jìn)遠(yuǎn)程通信和網(wǎng)絡(luò)電話的發(fā)展。在現(xiàn)階段,語音技術(shù)主要用于電子商務(wù)、客戶服務(wù)和教育培訓(xùn)等領(lǐng)域,它對(duì)于節(jié)省人力、時(shí)間,提高工作效率將起到明顯的作用。能實(shí)現(xiàn)自動(dòng)翻譯的語音識(shí)別系統(tǒng)目前也正在研究、完善之中。語音識(shí)別是一門交叉學(xué)科。近二十年來,語音識(shí)別技術(shù)取得顯著進(jìn)步,開始從實(shí)驗(yàn)室走向市場(chǎng)。人們預(yù)計(jì),未來 10 年內(nèi),語音識(shí)別技術(shù)將進(jìn)入工業(yè)、家電、通信、汽車電子、醫(yī)療、家庭服務(wù)、消費(fèi)電子產(chǎn)品等各個(gè)領(lǐng)域。1.3國內(nèi)外研究概況20世紀(jì)50代,就有人提出“口授打印機(jī)”的設(shè)恕??梢哉f,這是有關(guān)語音識(shí)別技術(shù)最早構(gòu)想。語

12、音識(shí)別技術(shù)經(jīng)歷了語音識(shí)別、語音合成以及自然語音合成3個(gè)階段。從原理上講,似乎讓計(jì)算機(jī)識(shí)別人的語言并不難,其實(shí)困難還是不少的。例如,不同的人讀同一個(gè)詞所發(fā)出的音在聲學(xué)特征上卻不完全相同;即便是同一個(gè)人,右不同情況下對(duì)同一個(gè)字的發(fā)音也不相同。加上人們講話時(shí)常有不合語法規(guī)律的情況,有時(shí)還夾雜些俗語,或省略一些詞語,而且語速變化不定。所有這些,在我們聽別人講話時(shí)似乎都不成為問題,但讓機(jī)器理解則很是困難。按照任務(wù)的不同,語音識(shí)別可以分為四個(gè)方面:說話人識(shí)別、語種識(shí)別、關(guān)鍵詞識(shí)別和連續(xù)語音識(shí)別。1952年貝爾研究所Davis等人研究成功了世界上第一個(gè)能識(shí)別10個(gè)英文數(shù)字發(fā)音的實(shí)驗(yàn)系統(tǒng)。1960年英國的De

13、nes等人研究成功了第一個(gè)計(jì)算機(jī)語音識(shí)別系統(tǒng)。大規(guī)模的語音識(shí)別3 研究是在進(jìn)入了70年代以后,在小詞匯量、孤立詞的識(shí)別方面取得了實(shí)質(zhì)性的進(jìn)展。進(jìn)入80年代以后,研究的重點(diǎn)逐漸轉(zhuǎn)向大詞匯量、非特定人連續(xù)語音識(shí)別。在研究思路上也發(fā)生了重大變化,即由傳統(tǒng)的基于標(biāo)準(zhǔn)模板匹配的技術(shù)思路開始轉(zhuǎn)向基于統(tǒng)計(jì)模型 (HMM)的技術(shù)思路。此外,再次提出了將神經(jīng)網(wǎng)絡(luò)技術(shù)引入語音識(shí)別問題的技術(shù)思路。進(jìn)入90年代以后,在語音識(shí)別的系統(tǒng)框架方面并沒有什么重大突破。但是,在語音識(shí)別技術(shù)的應(yīng)用及產(chǎn)品化方面出現(xiàn)了很大的進(jìn)展。DARPA(Defense Advanced Research Projects Agency)是在70

14、年代由美國國防部遠(yuǎn)景研究計(jì)劃局資助的一項(xiàng)10年計(jì)劃,其旨在支持語言理解系統(tǒng)的研究開發(fā)工作。到了80年代,美國國防部遠(yuǎn)景研究計(jì)劃局又資助了一項(xiàng)為期10年的DARPA戰(zhàn)略計(jì)劃,其中包括噪聲下的語音識(shí)別和會(huì)話(口語)識(shí)別系統(tǒng),識(shí)別任務(wù)設(shè)定為“(1000單詞)連續(xù)語音數(shù)據(jù)庫管理”。到了90年代,這一DARPA計(jì)劃仍在持續(xù)進(jìn)行中。其研究重點(diǎn)已轉(zhuǎn)向識(shí)別裝置中的自然語言處理部分,識(shí)別任務(wù)設(shè)定為“航空旅行信息檢索”。日本也在1981年的第五代計(jì)算機(jī)計(jì)劃中提出了有關(guān)語音識(shí)別輸入-輸出自然語言的宏偉目標(biāo),雖然沒能實(shí)現(xiàn)預(yù)期目標(biāo),但是有關(guān)語音識(shí)別技術(shù)的研究有了大幅度的加強(qiáng)和進(jìn)展。1987年起,日本又?jǐn)M出新的國家項(xiàng)目高

15、級(jí)人機(jī)口語接口和自動(dòng)電話翻譯系統(tǒng)。中國發(fā)展中國的語音識(shí)別研究起始于1958年,由中國科學(xué)院聲學(xué)所利用電子管電路識(shí)別10個(gè)元音。直至1973年才由中國科學(xué)院聲學(xué)所開始計(jì)算機(jī)語音識(shí)別。由于當(dāng)時(shí)條件的限制,中國的語音識(shí)別研究工作一直處于緩慢發(fā)展的階段。進(jìn)入80年代以后,隨著計(jì)算機(jī)應(yīng)用技術(shù)在中國逐漸普及和應(yīng)用以及數(shù)字信號(hào)技術(shù)的進(jìn)一步發(fā)展,國內(nèi)許多單位具備了研究語音技術(shù)的基本條件。與此同時(shí),國際上語音識(shí)別技術(shù)在經(jīng)過了多年的沉寂之后重又成為研究的熱點(diǎn),發(fā)展迅速。就在這種形式下,國內(nèi)許多單位紛紛投入到這項(xiàng)研究工作中去。1986年3月中國高科技發(fā)展計(jì)劃(863計(jì)劃)啟動(dòng),語音識(shí)別作為智能計(jì)算機(jī)系統(tǒng)研究的一個(gè)重

16、要組成部分而被專門列為研究課題。在863計(jì)劃的支持下,中國開始了有組織的語音識(shí)別技術(shù)的研究,并決定了每隔兩年召開一次語音識(shí)別的專題會(huì)議。從此中國的語音識(shí)別技術(shù)進(jìn)入了一個(gè)前所未有的發(fā)展階段。目前在大詞匯語音識(shí)別方面處于領(lǐng)先地位的IBM語音研究小組,就是在70年代開始了它的大詞匯語音識(shí)別研究工作的。AT&T的貝爾研究所也開始了一系列有關(guān)非特定人語音識(shí)別的實(shí)驗(yàn)。這一研究歷經(jīng)10年,其成果是確立了如何制作用于非特定人語音識(shí)別的標(biāo)準(zhǔn)模板的方法。這一時(shí)期所取得的重大進(jìn)展有:隱式馬爾科夫模型(HMM)技術(shù)的成熟和不斷完善成為語音識(shí)別的主流方法。以知識(shí)為基礎(chǔ)的語音識(shí)別的研究日益受到重視。在進(jìn)行連續(xù)語音識(shí)別的時(shí)

17、候,除了識(shí)別聲學(xué)信息外,更多地利用各種語言知識(shí),諸如構(gòu)詞、句法、語義、對(duì)話背景方面等的知識(shí)來幫助進(jìn)一步對(duì)語音作出識(shí)別和理解。同時(shí)在語音識(shí)別研究領(lǐng)域,還產(chǎn)生了基于統(tǒng)計(jì)概率的語言模型。人工神經(jīng)網(wǎng)絡(luò)在語音識(shí)別中的應(yīng)用研究的興起。在這些研究中,大部分采用基于反向傳播算法(BP算法)的多層感知網(wǎng)絡(luò)。人工神經(jīng)網(wǎng)絡(luò)具有區(qū)分復(fù)雜的分類邊界的能力,顯然它十分有助于模式劃分。特別是在電話語音識(shí)別方面,由于其有著廣泛的應(yīng)用前景,成了當(dāng)前語音識(shí)別應(yīng)用的一個(gè)熱點(diǎn)。另外,面向個(gè)人用途的連續(xù)語音聽寫機(jī)技術(shù)也日趨完善。這方面,最具代表性的是IBM的ViaVoice和Dragon公司的Dragon Dictate系統(tǒng)。這些系統(tǒng)

18、具有說話人自適應(yīng)能力,新用戶不需要對(duì)全部詞匯進(jìn)行訓(xùn)練,便可在使用中不斷提高識(shí)別率。中國的語音識(shí)別技術(shù)的發(fā)展 :在北京有中科院聲學(xué)所、自動(dòng)化所、清華大學(xué)、北方交通大學(xué)等科研機(jī)構(gòu)和高等院校。另外,還有哈爾濱工業(yè)大學(xué)、中國科技大學(xué)、四川大學(xué)等也紛紛行動(dòng)起來?,F(xiàn)在,國內(nèi)有不少語音識(shí)別系統(tǒng)已研制成功。這些系統(tǒng)的性能各具特色。 = 1 * GB3 * MERGEFORMAT 在孤立字大詞匯量語音識(shí)別方面,最具代表性的要數(shù)92年清華大學(xué)電子工程系與中國電子器件公司合作研制成功的THED-919特定人語音識(shí)別與理解實(shí)時(shí)系統(tǒng)。 = 2 * GB3 * MERGEFORMAT 在連續(xù)語音識(shí)別方面,91年12月四川

19、大學(xué)計(jì)算機(jī)中心在微機(jī)上實(shí)現(xiàn)了一個(gè)主題受限的特定人連續(xù)英語漢語語音翻譯演示系統(tǒng)。 = 3 * GB3 * MERGEFORMAT 在非特定人語音識(shí)別方面,有清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系在87年研制的聲控電話查號(hào)系統(tǒng)并投入實(shí)際使用。2.原理分析2.1 語音識(shí)別系統(tǒng)的特征提取語音識(shí)別系統(tǒng)中的特征提取即提出適合分類的某些信息特征(如說話人,或語言特征,或關(guān)鍵詞特征),次特征應(yīng)能有效地區(qū)分不同的模式,而且對(duì)同種方式的變化保持相對(duì)穩(wěn)定。目前的語音識(shí)別系統(tǒng)主要依靠較低層次的聲學(xué)特征進(jìn)行識(shí)別。語音識(shí)別特征大致可以分為3類:(1)線性預(yù)測(cè)系數(shù)及其派生參數(shù),如線性預(yù)測(cè)系數(shù)(LPC)、線譜對(duì)系數(shù)、線性預(yù)測(cè)倒譜系數(shù)(L

20、PCC)及其組合參數(shù)。(2)由語音頻譜直接導(dǎo)出的參數(shù),如基音(Pitch)及其輪廓、美爾頻率倒譜系數(shù)(MFCC)、感知線性預(yù)測(cè)(PLP)參數(shù)、口音敏感倒譜系數(shù)(ASCC)。(3)混合參數(shù)。混合參數(shù)由以上不同的參數(shù)組成的矢量。語音識(shí)別中幾種常用的參數(shù):線性預(yù)測(cè)系數(shù)(LPC)語音產(chǎn)生的線性預(yù)測(cè)模型是20世紀(jì)50年代提出的,其中,聲道和嘴唇的聲輻射以及聲門激勵(lì)的組合譜效應(yīng)被模型化為一個(gè)時(shí)變數(shù)字濾波器,其穩(wěn)態(tài)系統(tǒng)傳輸函數(shù)為 ,該式子把語音信號(hào)s(n)建模成一個(gè)P階的AR過程。對(duì)于濁音段,此系統(tǒng)受準(zhǔn)周期沖激串激勵(lì);對(duì)于清音段,該系統(tǒng)則受隨機(jī)噪聲序列激勵(lì)。此模型的參數(shù)有濁音/清音判決、濁音語音的基音周期、

21、增益常數(shù)G及數(shù)字濾波器參數(shù)。利用該傳輸函數(shù)可得到語音信號(hào)s(n)合成的差分方程為,可以看出,s(n)是前P個(gè)語音信號(hào)采樣值s(n-1),s(n-2),s(n-P)的線性組合,因此該語音產(chǎn)生模型通常被稱為線性預(yù)測(cè)(LP)模型或自回歸(AR)模型。(k=1,2,P)為線性預(yù)測(cè)系數(shù),是從語音信號(hào)中提取出來的。聲道形狀在時(shí)間上是變化的,所以預(yù)測(cè)系數(shù)也是時(shí)變的。根據(jù)語音信號(hào)的短時(shí)平穩(wěn)性,可認(rèn)為語音在每一個(gè)分析幀(1030ms)上是非時(shí)變的,從而計(jì)算得到一組預(yù)測(cè)系數(shù)。計(jì)算預(yù)測(cè)系數(shù)的常用方法是自相關(guān)法,其思想為使預(yù)測(cè)誤差e(n)的均方值最小。,其中:,稱做s(n)的預(yù)測(cè)值或估計(jì)值。計(jì)算的準(zhǔn)則是使極小,故令得

22、到一個(gè)線性方程組: 其中稱為語音短時(shí)自相關(guān)系數(shù),N為語音幀的樣點(diǎn)數(shù),P為預(yù)測(cè)器階數(shù),用德賓(Durbin)算法解方程式即可得(k=1,2,P)。Levinson-Durbin遞推算法求解過程:采用Durbin算法遞推時(shí),從零階預(yù)測(cè)開始,此時(shí)P=0,可以逐步遞推出一直到。最后用確定增益G值。其中各階預(yù)測(cè)系數(shù)的最后一個(gè)值被定義為偏相關(guān)系數(shù),整個(gè)遞推過程為(1)(2)(3)(4)(5)如果iP則轉(zhuǎn)到(2),如果i=P則終止計(jì)算。最終解為,其中代表第n幀的自相關(guān)函數(shù),表示第i階預(yù)測(cè)器的第j個(gè)預(yù)測(cè)系數(shù),計(jì)算結(jié)束后會(huì)得到各階預(yù)測(cè)器的預(yù)測(cè)系數(shù)、反射系數(shù)和各階預(yù)測(cè)誤差功率。線性預(yù)測(cè)倒譜系數(shù)(LPCC)同態(tài)信號(hào)

23、處理就是將非線性問題轉(zhuǎn)化為線性問題來進(jìn)行處理的一種方法。對(duì)語音信號(hào)產(chǎn)生過程建模成一個(gè)激勵(lì)信號(hào)通過時(shí)變系統(tǒng)的過程,即一個(gè)卷積的過程,卷積作為一個(gè)非線性問題可使用同臺(tái)處理來解決。LPC系數(shù)可以用來估計(jì)語音信號(hào)的倒譜,這也是語音信號(hào)短時(shí)倒譜分析中一種特殊的處理方法。聲道傳輸函數(shù)H(z)的沖激響應(yīng)為h(n),首先求序列h(n)的倒譜。因?yàn)镠(z)是最小相位的,所以可以求出和之間的遞推關(guān)系為 由上式可以直接從預(yù)測(cè)系數(shù)推得倒譜,由于這個(gè)倒譜是從線性預(yù)測(cè)系數(shù)得到的,因此又稱之為L(zhǎng)PC倒譜(LPCC)。由于LPCC利用了線性預(yù)測(cè)中聲道傳輸函數(shù)H(z)的最小相位特性,因此避免了一般同態(tài)處理中求復(fù)對(duì)數(shù)而帶來的相位

24、卷繞的問題。美爾頻率倒譜系數(shù)(MFCC)MFCC不同于LPCC,它是在頻譜上采用濾波器組的方法計(jì)算出來的,這組濾波器在頻率的美爾(Mel)坐標(biāo)上是等帶寬的。這是因?yàn)槿祟愒趯?duì)1000Hz以下的聲音頻率范圍的感知遵循近似線性關(guān)系。美爾刻度與頻率的關(guān)系式為 MFCC正是基于這個(gè)現(xiàn)象提出的,它的計(jì)算過程如下圖所示圖2 MFCC的計(jì)算過程語音信號(hào)在經(jīng)過加窗處理后變?yōu)槎虝r(shí)信號(hào),用FFT計(jì)算它的能量譜之后,通過一個(gè)具有40個(gè)濾波器的濾波器組,前13個(gè)濾波器在1000Hz以下是線性劃分的,后27個(gè)濾波器在1000Hz以上是在美爾坐標(biāo)上線性劃分的。如果表示第k個(gè)濾波器的輸出能量,則美爾頻率倒譜在美爾刻度譜上可以

25、采用修改的離散余弦變換(DCT)求得,其中,P為MFCC參數(shù)的階數(shù)。2.2 語音識(shí)別系統(tǒng)的分類模型 模型建立是指在訓(xùn)練階段用合適的模型來表征這些參數(shù),使得模型能夠代表該語言的語音特性。對(duì)模型的選擇主要應(yīng)從語音的類型、所期望的性能、訓(xùn)練和更新的難易程度以及計(jì)算量和存儲(chǔ)量等方面綜合考慮。可分為以下四類:模板匹配模型:從每種模型的訓(xùn)練語句中提取相應(yīng)的特征矢量,這些特征矢量稱為模板。識(shí)別時(shí),從語音信號(hào)中按同樣的處理法提取測(cè)試模板,并且與其相應(yīng)的參考模板相比較。模板匹配模型的不足之處在于不能全面地反映樣本分布及統(tǒng)計(jì)特性,適應(yīng)性較差。典型的模板匹配模型有最鄰近(NN)模型、動(dòng)態(tài)時(shí)間規(guī)整(DTW)模型和矢量

26、量化(VQ)模型。概率統(tǒng)計(jì)生成模型(又稱參數(shù)模型):語音信號(hào)具有短時(shí)平穩(wěn)性,通過對(duì)穩(wěn)態(tài)特征如基音、聲門增益、低階反射系數(shù)的統(tǒng)計(jì)分析,可以利用均值、方差等統(tǒng)計(jì)量和概率密度函數(shù)進(jìn)行分類判決。概率統(tǒng)計(jì)生成模型采用某種概率密度函數(shù)來描述語音特性在特性空間的分布情況,并以該概率密度函數(shù)的一組參數(shù)作為語音模型。概率統(tǒng)計(jì)生成模型由于考慮了語音的統(tǒng)計(jì)特性,能較全面地反映語音的統(tǒng)計(jì)信息,其優(yōu)點(diǎn)是不用對(duì)特征參量在時(shí)域上進(jìn)行規(guī)整。典型的概率統(tǒng)計(jì)生成模型有隱馬爾可夫模型(HMM)和高斯混合模型(GMM)。神經(jīng)網(wǎng)絡(luò)模型(ANN):人工神經(jīng)網(wǎng)絡(luò)在某種程度上模擬了生物的感知特性,它是一種分布式并行處理結(jié)構(gòu)的網(wǎng)絡(luò)模型,具有自

27、組織和自學(xué)習(xí)能力、很強(qiáng)的復(fù)雜分類邊界區(qū)分能力以及對(duì)不完全信息的穩(wěn)健性,其性能近似理想的分類器。其缺點(diǎn)是訓(xùn)練時(shí)間長(zhǎng),動(dòng)態(tài)時(shí)間規(guī)整哪里弱。目前常用的神經(jīng)網(wǎng)絡(luò)模型有多層次感知器(MLP)、徑向基函數(shù)(RBF)網(wǎng)絡(luò)、自組織映射(SOM)網(wǎng)絡(luò)和支持向量機(jī)(SVM)網(wǎng)絡(luò)等。融合模型:把以上分類方法與不同特征進(jìn)行有機(jī)組合可顯著提高語音識(shí)別的性能。動(dòng)態(tài)時(shí)間規(guī)整(DTW)模型:由于語速、語調(diào)、重音和韻律的變化,語音信息存在時(shí)變因素,從而使得測(cè)試模板和參考模板在時(shí)間尺度上可能不完全一致。因此,需要將識(shí)別模板和參考模板進(jìn)行時(shí)間對(duì)齊,按照某種距離測(cè)度計(jì)算兩模板間的相似程度。模板序列與輸入序列不均勻匹配得分z定義為 ,

28、其中,模板標(biāo)記j(i)是由基于最鄰近原則的動(dòng)態(tài)時(shí)間規(guī)整法(DTW)給出的。DTW算法使z最小化,將兩個(gè)信號(hào)進(jìn)行時(shí)間上的對(duì)齊。在時(shí)間對(duì)齊后,最終的距離和是匹配得分基礎(chǔ)。矢量量化(VQ)模型:一般采用LBG算法把訓(xùn)練數(shù)據(jù)進(jìn)行聚類生成碼本,即參考模板的集合。識(shí)別時(shí),對(duì)輸入矢量進(jìn)行矢量量化,以量化產(chǎn)生的失真度作為判決標(biāo)準(zhǔn)。L幀測(cè)試語音矢量的匹配得分為 ,其中,C是參考模板的集合。VQ模型不需對(duì)要時(shí)間進(jìn)行對(duì)齊,具有復(fù)雜度低、精度較高以及判斷速度快的優(yōu)點(diǎn)。3、隱馬爾可夫模型(HMM):隱馬爾可夫模型把語音建模成由可觀察的符號(hào)序列組成的隨機(jī)過程,符號(hào)序列是發(fā)聲系統(tǒng)狀態(tài)序列的輸出。HMM為有限狀態(tài)的隨機(jī)過程,

29、從狀態(tài)到狀態(tài)的轉(zhuǎn)移概率為;對(duì)應(yīng)于狀態(tài),語音特征x(隨機(jī)向量)的概率密度函數(shù)為。由給定模型M產(chǎn)生具有L幀語音特征向量(連續(xù))的似然值為,其中,表示所有可能狀態(tài)的集合。對(duì)于離散的語音特征向量,和為相應(yīng)的概率。在使用HMM識(shí)別時(shí),為每個(gè)說話人建立發(fā)聲模型,通過訓(xùn)練得到狀態(tài)轉(zhuǎn)移概率矩陣和語音特征向量的概率密度矩陣。識(shí)別時(shí)計(jì)算未知語音在狀態(tài)轉(zhuǎn)移過程中的最大似然值或概率,根據(jù)最大似然值或概率的模型進(jìn)行判決。高斯混合模型(GMM):高斯混合模型本質(zhì)上是一種多維概率密度函數(shù),可以用來表示語音特征矢量的分布。一個(gè)具有M個(gè)混合數(shù)的D維GMM,其概率密度函數(shù)用M個(gè)高斯分量的加權(quán)和來表示,即 ,其中,x是一個(gè)D維德觀

30、測(cè)矢量;為混合權(quán)值,滿足 ;為D維高斯密度函數(shù),即其中,為均值矢量;為協(xié)方差矩陣;D是參數(shù)的維數(shù)高斯混合模型可由各均值矢量、協(xié)方差矩陣及混合權(quán)值來描述,可表示為三元式 在GMM模型中,首先對(duì)特征矢量進(jìn)行聚類,把每一類看做是一個(gè)多維高斯分布函數(shù);然后,求出每一類的均值、協(xié)方差矩陣和出現(xiàn)的概率,得到每種模式的訓(xùn)練模板;最后,將觀測(cè)序列代入每個(gè)模板,對(duì)應(yīng)于最大的后驗(yàn)概率的模板作為所識(shí)別的對(duì)象。3.語音識(shí)別的整體過程3.1 語音識(shí)別系統(tǒng)的結(jié)構(gòu)典型的語音識(shí)別系統(tǒng)結(jié)構(gòu)框圖如下圖所示,一個(gè)完整的語音識(shí)別系統(tǒng)包括預(yù)處理、特征提取、模型建立、模式匹配和判決規(guī)則等5個(gè)部分。圖1 語音識(shí)別系統(tǒng)的結(jié)構(gòu)框圖 語音識(shí)別是

31、屬于人工智能領(lǐng)域中的一項(xiàng)技術(shù),從本質(zhì)上講,語音識(shí)別技術(shù)是一個(gè)語音信號(hào)模式識(shí)別問題,它由訓(xùn)練(或注冊(cè))和識(shí)別(或測(cè)試)兩個(gè)階段完成。從訓(xùn)練語音中提取語音特征、建立參考模型并儲(chǔ)存的過程稱為訓(xùn)練階段;從待識(shí)別語音中提取語音特征,依據(jù)參考模型進(jìn)行比較和判決的過程稱為識(shí)別階段。3.2 語音信號(hào)預(yù)處理 實(shí)際的語音信號(hào)是模擬信號(hào),因此在對(duì)語音信號(hào)進(jìn)行數(shù)字處理之前,首先要將模擬語音信號(hào)s(t)以采樣周期T采樣,將其離散化為s(n),采樣周期的選取應(yīng)根據(jù)模擬語音信號(hào)的帶寬來確定,以避免信號(hào)的頻域混疊失真。在對(duì)離散后的語音信號(hào)進(jìn)行量化處理過程中會(huì)帶來一定的量化噪聲和失真。語音信號(hào)的預(yù)處理包括預(yù)加重和加窗分幀處理。

32、3.2.1 語音信號(hào)預(yù)加重處理 預(yù)加重的目的是提升高頻部分,使信號(hào)的頻譜變得平坦,保持在低頻到高頻的整個(gè)頻帶中,能用同樣的信噪比求頻譜,以便于頻譜分析或聲道參數(shù)分析。用預(yù)加重?cái)?shù)字濾波器來實(shí)現(xiàn),它一般是一階的數(shù)字濾波器:,其中,為預(yù)加重系數(shù),一般3.2.2 語音信號(hào)分幀處理進(jìn)行預(yù)加重?cái)?shù)字濾波器處理之后,接下來就要進(jìn)行加窗分幀處理。分幀是用可移動(dòng)的有限長(zhǎng)度窗口進(jìn)行加權(quán)的方法來實(shí)現(xiàn)的,即用一定的窗函數(shù)w(n)來乘以s(n),從而形成加窗語音信號(hào)在語音信號(hào)數(shù)字處理中常用的窗函數(shù)有兩種,一種是矩形窗,另一種是漢明窗。矩形窗 ,其中,N為幀長(zhǎng)clear all;x=linspace(0,100,1000)

33、; %在0到100的橫坐標(biāo)間取10000個(gè)點(diǎn)h=zeros(10000,1); %為矩陣h賦0值h(1001:8000)=1; %矩形窗長(zhǎng),窗內(nèi)取值為1subplot(211);plot(h); %畫時(shí)域波形title(矩形窗時(shí)域波形,fontsize,18);xlabel(樣點(diǎn)數(shù),fontsize,18);ylabel(幅度,fontsize,18);axis(0,10000,-1,2);w=h(1001:1060); %取窗長(zhǎng)內(nèi)的60個(gè)數(shù)據(jù)點(diǎn)W=fft(w,1024); %對(duì)時(shí)域信號(hào)進(jìn)行1024點(diǎn)的傅里葉變換W2=W/W(1); %幅度歸一化W3=20*log10(abs(W2); %對(duì)歸

34、一化幅度取對(duì)數(shù)W4=2*0:511/1024; %頻率歸一化subplot(212);plot(W4,W3(1:512); %畫幅頻特性圖title(矩形窗幅頻特性,fontsize,18);xlabel(歸一化頻率,fontsize,18);ylabel(幅度/dB,fontsize,18);漢明窗 在確定了窗函數(shù)以后,對(duì)語音信號(hào)的分幀處理,實(shí)際上就是對(duì)各幀進(jìn)行某種變換或運(yùn)算。設(shè)這種變化或運(yùn)算用T表示,x(n)為輸入語音信號(hào),w(n)為窗序列,h(n)是與w(n)有關(guān)的濾波器,則各幀經(jīng)處理后的輸出可以表示為,這樣經(jīng)過上述處理過程,語音信號(hào)就已經(jīng)被分割成一幀一幀的加過窗函數(shù)的短時(shí)信號(hào),然后再把

35、每一個(gè)短時(shí)語音信號(hào)幀看成平穩(wěn)的隨機(jī)信號(hào),利用數(shù)字信號(hào)處理技術(shù)來提取語音特征參數(shù)。在進(jìn)行處理時(shí),按幀從數(shù)據(jù)區(qū)中取出數(shù)據(jù),處理完成后再取下一幀,等等,最后得到由每一幀參數(shù)組成的語音特征參數(shù)的時(shí)間序列。clear all;h=hamming(60); %取60個(gè)點(diǎn)的漢明窗值subplot(211);plot(h); %畫時(shí)域波形title(漢明窗時(shí)域波形,fontsize,18);xlabel(樣點(diǎn)數(shù),fontsize,18);ylabel(幅度,fontsize,18);H=fft(h,1024); %對(duì)時(shí)域信號(hào)進(jìn)行1024點(diǎn)的傅里葉變換H1=H/H(1);H2=20*log10(abs(H1);

36、H3=2*0:511/1024;subplot(212);plot(H3,H2(1:512); %畫幅頻特性圖title(漢明窗幅頻特性,fontsize,18);xlabel(歸一化頻率,fontsize,18);ylabel(幅度/dB,fontsize,18);3.2.3 端點(diǎn)檢測(cè)語音信號(hào)起止點(diǎn)的判別式任何一個(gè)語音識(shí)別系統(tǒng)必不可少的組成部分。因?yàn)橹挥袦?zhǔn)確地找出語音段的起始點(diǎn)和終止點(diǎn),才有可能使采集到的數(shù)據(jù)是真正要分析的語音信號(hào),這樣不但減少了數(shù)據(jù)量、運(yùn)算量和處理時(shí)間,同時(shí)也有利于系統(tǒng)識(shí)別率的改善。常用的端點(diǎn)檢測(cè)方法有兩種:短時(shí)平均幅度 端點(diǎn)檢測(cè)中需要計(jì)算信號(hào)的短時(shí)能量,由于短時(shí)能量的計(jì)算

37、涉及到平方運(yùn)算,而平方運(yùn)算擴(kuò)大了振幅不等的任何相鄰取樣值之間的幅度差別,給窗的寬度選擇帶來了困難,因?yàn)楸仨氂幂^寬的窗才能對(duì)取樣間的平方幅度起伏有較好的平滑效果,然而又可能導(dǎo)致短時(shí)能量反映不出語音能量的時(shí)變特點(diǎn)。而用短時(shí)平均幅度來表示語音能量,在一定程度上可以克服這個(gè)弊端。短時(shí)平均過零率 當(dāng)離散信號(hào)的相鄰兩個(gè)取樣值具有不同的符號(hào)時(shí),便出現(xiàn)過零現(xiàn)象,單位時(shí)間內(nèi)過零的次數(shù)叫做過零率。如果離散時(shí)間的包絡(luò)是窄帶信號(hào),那么過零率可以比較準(zhǔn)確地反映該信號(hào)的頻率。在寬帶信號(hào)情況下,過零率只能粗略地反映信號(hào)的頻譜特性。端點(diǎn)檢測(cè)系統(tǒng)包括語音預(yù)處理模塊、能量和過零率參數(shù)提取模塊、端點(diǎn)檢測(cè)模塊,下圖為基于能量和過零率

38、的兩級(jí)三門限判決的語音端點(diǎn)檢測(cè)系統(tǒng)的框架?;谀芰亢瓦^零率的語音端點(diǎn)檢測(cè)算法步驟如下: = 1 * GB3 * MERGEFORMAT 語音信號(hào)進(jìn)行預(yù)加重和分幀處理,對(duì)語音的高頻部分進(jìn)行了加重,增加了語音的高頻分辨率,同時(shí)將分幀后的信號(hào)記為,n為離散語音信號(hào)時(shí)間序列,N為幀長(zhǎng) = 2 * GB3 * MERGEFORMAT 計(jì)算每一幀語音信號(hào)的短時(shí)能量和短時(shí)過零率 = 3 * GB3 * MERGEFORMAT 考察語音的平均能量設(shè)置一個(gè)較高的門限,用以確定語音開始;然后再根據(jù)背景噪聲平均能量確定一個(gè)稍低門限,用以確定第一級(jí)中的語音結(jié)束點(diǎn)。完成第一級(jí)判決,然后根據(jù)背景噪聲的平均過零率來設(shè)置第三

39、個(gè)門限,最終判斷出語音的準(zhǔn)確的邊界點(diǎn)。3.3 語音識(shí)別的特征提取 語音線性預(yù)測(cè)的基本思想是:由于語言樣點(diǎn)之間存在相關(guān)性,所以可以用過去的樣點(diǎn)值來預(yù)測(cè)現(xiàn)在或未來的樣點(diǎn)值,即一個(gè)語音信號(hào)的抽樣值可以用過去若干個(gè)取樣值得線性組合來逼近。通過使實(shí)際語音抽樣和線性預(yù)測(cè)抽樣之間的誤差在某個(gè)準(zhǔn)則下達(dá)到最小值來決定唯一的一組預(yù)測(cè)系數(shù)。3.3.1 LPC譜估計(jì) 根據(jù)語音信號(hào)產(chǎn)生的模型,語音的功率譜等于激勵(lì)源功率譜與各極點(diǎn)線性濾波器頻率特性的模的平方的乘積。由于激勵(lì)源是準(zhǔn)周期沖擊序列或白噪聲,其功率是平坦的,因此,語音的功率譜主要由全極點(diǎn)線性濾波器頻率特性決定。所以,LPC可以看作是對(duì)語音信號(hào)的短時(shí)譜進(jìn)行估計(jì)的一

40、種有效方法。3.3.2 LPC倒譜估計(jì)語音信號(hào)的倒譜分析就是求取語音倒譜特征系數(shù)的過程,它可以通過同態(tài)處理來實(shí)現(xiàn)。同態(tài)信號(hào)處理也稱為同態(tài)濾波,它實(shí)現(xiàn)了將卷積關(guān)系變換為求和關(guān)系的分離處理,即解卷。對(duì)語音信號(hào)進(jìn)行解卷,可將語音信號(hào)的聲門激勵(lì)信息及聲道響應(yīng)信息分離出來,從而求得聲道共振特征和基音周期。當(dāng)預(yù)測(cè)階數(shù)很大時(shí),語音信號(hào)的短時(shí)譜滿足,因此可以認(rèn)為包含了語音信號(hào)譜的包絡(luò)信息,即可近似認(rèn)為等價(jià)于原始信號(hào)x(n)的短時(shí)譜,通過對(duì)倒譜的分析,可以分別估計(jì)語音信號(hào)短時(shí)譜包絡(luò)和聲門激勵(lì)參數(shù),實(shí)現(xiàn)方法如下:直接從LPC系數(shù)估計(jì)語音信號(hào)的短時(shí)譜包絡(luò)先通過信號(hào)做FFT、對(duì)數(shù)變換運(yùn)算,然后再求得逆FFT以及選用適

41、當(dāng)?shù)妮o助因子獲得倒譜,并用低時(shí)窗取出譜包絡(luò)信息經(jīng)線性預(yù)測(cè)分析取得H(z),然后遞推出LPC倒譜,從而求得短時(shí)譜包絡(luò)。3.3.2 MFCC參數(shù)MFCC參數(shù)的提取過程如下:對(duì)語音信號(hào)進(jìn)行分幀、加窗,然后作離散時(shí)間傅里葉變換,獲得頻譜分布信息。設(shè)語音信號(hào)為,其中,x(n)為語音信號(hào),N為傅里葉變換的點(diǎn)數(shù)。求頻譜幅度的平方,得到能量譜將能量譜通過一組Mel尺度的三角形濾波器組。定義一個(gè)有M個(gè)濾波器的濾波器組(濾波器的個(gè)數(shù)和臨界帶的個(gè)數(shù)相近),采用的濾波器為三角濾波器,中心頻率為f(m),m=1,2,3,M(本系統(tǒng)取M=100)計(jì)算每個(gè)濾波器組輸出的對(duì)數(shù)能量 ,其中,為三角濾波器的頻率響應(yīng)經(jīng)過離散弦變換

42、(DCT)得到MFCC系數(shù) ,MFCC系數(shù)個(gè)數(shù)通常取20-30,一般不用0階倒譜系數(shù),所以,在一般識(shí)別系統(tǒng)中,將其稱為能量系數(shù),并不作為倒譜系數(shù),本系統(tǒng)選取20階倒譜系數(shù)。3.4 用矢量量化聚類法生成碼本將每個(gè)待識(shí)別的說話人看作是一個(gè)信源,用一個(gè)碼本來表征。碼本是從該說話人的訓(xùn)練序列中提取的MFCC特征矢量聚類而生成。只要訓(xùn)練的序列足夠長(zhǎng),可認(rèn)為這個(gè)碼本有效地包含了說話人的個(gè)人特征,而與講話的內(nèi)容無關(guān)。本系統(tǒng)采用基于分裂的LBG算法設(shè)計(jì)VQ碼本,為訓(xùn)練序列,B為碼本。具體實(shí)現(xiàn)過程如下:取提取出來的所有幀的特征矢量的均值作為第一個(gè)碼字矢量B1;將當(dāng)前的碼本Bm根據(jù)以下規(guī)則分裂,形成2m個(gè)碼字,其

43、中,m從1變化到當(dāng)前碼本的碼字?jǐn)?shù),為分裂時(shí)的參數(shù),(3)根據(jù)得到的碼本把所有的訓(xùn)練序列(特征矢量)進(jìn)行分類,然后按照下面兩個(gè)公式計(jì)算訓(xùn)練矢量量化失真量的總和D以及相對(duì)失真(n為迭代次數(shù),初始n=0,B為當(dāng)前的碼書),若相對(duì)失真小于某一閾值,迭代結(jié)束,當(dāng)前的碼書就是設(shè)計(jì)好的2m個(gè)碼字的碼書,轉(zhuǎn)到(5),否則,轉(zhuǎn)到下一步(4)重新計(jì)算各個(gè)區(qū)域的新型心,得到新的碼書,轉(zhuǎn)到(3)(5)重復(fù)(2)、(3)和(4)步,直到形成有M個(gè)碼字的碼書,其中D0=100003.5 VQ的說話人識(shí)別 設(shè)未知的說話人的特征矢量,共有T幀是訓(xùn)練階段形成的碼書,表示第i個(gè)碼書第m個(gè)碼字,共有N個(gè)碼書(即N個(gè)說話人),每個(gè)碼

44、書有M個(gè)碼字。則對(duì)于說話人識(shí)別用來計(jì)算第i個(gè)說話人的平均量化失真Di,然后用同樣的方法求出,則最終的識(shí)別結(jié)果就是Di最小者所對(duì)應(yīng)的那個(gè)i,即是所識(shí)別的那個(gè)人。4.實(shí)驗(yàn)設(shè)計(jì)4.1 實(shí)驗(yàn)一 先讀入原始語音信號(hào),顯示其波形,然后通過預(yù)加重濾波器,即可得到預(yù)加重語音信號(hào),之后就可以對(duì)語音信號(hào)進(jìn)行短時(shí)平均幅度和平均過零率分析,同時(shí),也可以通過相應(yīng)的計(jì)算得到語音信號(hào)的部分特征參數(shù)(LPC譜和LPC倒譜)4.2 實(shí)驗(yàn)二主程序:MFCC函數(shù):分幀函數(shù)blockFrames:LBG算法的具體實(shí)現(xiàn)過程詳見3.3用矢量量化聚類法生成碼本訓(xùn)練函數(shù)train:識(shí)別函數(shù)test:4.3 實(shí)驗(yàn)三 本次實(shí)驗(yàn)用到的錄音為5個(gè)不

45、同男聲,均為男歌手,各截取一段10秒鐘的音頻,實(shí)驗(yàn)過程如下:打開matlab,使當(dāng)前工作目錄為錄音及程序所在的文件夾(F:C盤文件DocumentsMATLAB)進(jìn)行訓(xùn)練:在命令行窗口中輸入:train:(F:C盤文件DocumentsMATLAB,5),回車進(jìn)行測(cè)試:在命令行窗口中輸入:test:(F:C盤文件DocumentsMATLAB,5,ans),回車由運(yùn)行結(jié)果可知,5個(gè)人的識(shí)別中,全部都識(shí)別正確,成功率達(dá)到了100%,所以,可以認(rèn)為是實(shí)現(xiàn)了語音識(shí)別的功能。5.實(shí)驗(yàn)結(jié)果5.1 實(shí)驗(yàn)一原始語音信號(hào)及其預(yù)加重處理后的波形如下圖所示不同矩形窗長(zhǎng)對(duì)應(yīng)的短時(shí)平均幅度如下圖所示原始語音信號(hào)及其短

46、時(shí)平均過零率如下圖所示語音信號(hào)的短時(shí)譜和LPC譜估計(jì)如下圖所示語音信號(hào)的短時(shí)譜和LPC倒譜估計(jì)如下圖所示5.2 實(shí)驗(yàn)二運(yùn)行主函數(shù)后,命令行窗口截圖如下原始語音信號(hào)s1的波形如下圖所示線性能量譜及其對(duì)數(shù)能量譜如下圖所示不同幀長(zhǎng)的對(duì)數(shù)能量譜如下圖所示Mel尺度濾波器組如下圖所示原始信號(hào)能量譜和Mel倒譜修正后的能量譜如下圖所示說話人1和說話人2的二維聲學(xué)向量圖如下圖所示說話人1和說話人2的二維聲學(xué)向量圖及其碼本如下圖所示5.3 實(shí)驗(yàn)三命令行窗口輸入訓(xùn)練命令train后的截圖如下圖所示命令行窗口輸入識(shí)別命令test后的截圖如下圖所示由運(yùn)行結(jié)果可知,5個(gè)人的識(shí)別中,全部都識(shí)別正確,成功率達(dá)到了100%

47、,所以,可以認(rèn)為是實(shí)現(xiàn)了語音識(shí)別的功能。6.總結(jié)經(jīng)過本次課程論文學(xué)習(xí),我已對(duì)語音識(shí)別有了一定的研究,并對(duì)matlab軟件更加熟悉。本次設(shè)計(jì)中主要涉及到了語音識(shí)別的基本原理、MFCC系數(shù)的算法、矢量量化聚類法、VQ的說話人識(shí)別技術(shù)以及matlab編程知識(shí)。本實(shí)驗(yàn)在matlab平臺(tái)上基本實(shí)現(xiàn)了說話人的語音識(shí)別,從實(shí)驗(yàn)結(jié)果來看,基本上實(shí)現(xiàn)了預(yù)定的目的。本實(shí)驗(yàn)的程序代碼參考了部分參考書籍和網(wǎng)上資料,但它們的代碼在matlab上運(yùn)行均會(huì)出現(xiàn)一些錯(cuò)誤,無法正常運(yùn)行,本人通過多次修改調(diào)試并改進(jìn),終于使程序成功運(yùn)行,并得到較為理想的結(jié)果。當(dāng)然,在這個(gè)過程中也碰到過很多各種各樣的問題,一開始語音錄入的時(shí)候,打算

48、叫幾個(gè)人來錄音,但是后來覺得太麻煩了,直接用一段音頻(mp3音樂)就算了,但是問題來了,有時(shí)因?yàn)橐纛l時(shí)間可能太長(zhǎng)了導(dǎo)致程序運(yùn)行的時(shí)間很長(zhǎng),或者電腦直接就死機(jī)了,后來想起kugou有個(gè)制作鈴聲的工具,然后就用這個(gè)工具將比較長(zhǎng)的音頻截成一段時(shí)間很短的音頻,大概就是10秒鐘,這樣的話,我就只需找?guī)讉€(gè)不同的歌手就可以達(dá)到不同說話人的目的了,還挺方便的。用matlab程序?qū)崿F(xiàn)相應(yīng)的功能其實(shí)難度還是挺大的,語音識(shí)別的大概流程和理論算法我都有一定的了解,但是用matlab語言描述出來,用matlab實(shí)現(xiàn)的話很多時(shí)候都是無從下手,尤其是涉及比較多的函數(shù)的時(shí)候,不過經(jīng)過這次實(shí)驗(yàn),我的matlab編程實(shí)現(xiàn)能力又得

49、到了一定的提高。調(diào)程序的時(shí)候也真的很需要耐心,因?yàn)檫@個(gè)問題解決了,再運(yùn)行的時(shí)候,也繼續(xù)會(huì)有下一個(gè)問題的出現(xiàn),最怕的就是要驗(yàn)證問題是否解決的時(shí)候,程序需要運(yùn)行很長(zhǎng)的時(shí)間,程序運(yùn)行完了,問題還沒有解決,不斷地修改,不斷的等待,可能有時(shí)候真的會(huì)不耐煩,所以調(diào)程序需要耐心,我在調(diào)試生成碼本那個(gè)程序的時(shí)候就是這樣的,還好最終都能實(shí)現(xiàn)了。雖然本次實(shí)驗(yàn)的結(jié)果比較理想,但是語音識(shí)別還有很多的模型、方法和技術(shù)。本次實(shí)驗(yàn)只是模擬了說話人的識(shí)別,但是語音識(shí)別其實(shí)還有其它方面的任務(wù),仍然有很大的空間值得去學(xué)習(xí)和提高。7.程序代碼7.1 實(shí)驗(yàn)一原始語音信號(hào)及其預(yù)加重處理:clear all; %清空內(nèi)容signal,f

50、s,bits=wavread(s1.wav); %讀入語音x=double(signal); x=filter(1,-0.9375,1,x); %預(yù)加重濾波器subplot(211);plot(signal); %顯示原始語音信號(hào)波形title(原始語音信號(hào),fontsize,18);subplot(212);plot(x); %顯示預(yù)加重語音信號(hào)波形title(預(yù)加重語音信號(hào),fontsize,18);不同矩形窗長(zhǎng)對(duì)應(yīng)的短時(shí)平均幅度:clear all;signal,fs,bits=wavread(s1.wav); %讀入語音framelength=50; %設(shè)定幀長(zhǎng)framenumber=

51、fix(length(signal)/framelength); %獲取語音幀數(shù)for i=1:framenumber; %分幀處理 framesignal=signal(i-1)*framelength+1:i*framelength);%獲取每幀的數(shù)據(jù) M(i)=0; %每幀短時(shí)平均幅度置零 for j=1:framelength; M(i)=M(i)+abs(framesignal(j); %計(jì)算每幀信號(hào)的短時(shí)平均幅度 end;end;subplot(221);plot(M);xlabel(幀數(shù),fontsize,18);ylabel(短時(shí)平均幅度,fontsize,18);legend

52、(N=50);clear M;framelength=100;framenumber=fix(length(signal)/framelength);for i=1:framenumber; framesignal=signal(i-1)*framelength+1:i*framelength); M(i)=0; for j=1:framelength; M(i)=M(i)+abs(framesignal(j); end;end;subplot(222);plot(M);xlabel(幀數(shù),fontsize,18);ylabel(短時(shí)平均幅度,fontsize,18);legend(N=200

53、);clear M;framelength=200;framenumber=fix(length(signal)/framelength);for i=1:framenumber; framesignal=signal(i-1)*framelength+1:i*framelength); M(i)=0; for j=1:framelength; M(i)=M(i)+abs(framesignal(j); end;end;subplot(223);plot(M);xlabel(幀數(shù),fontsize,18);ylabel(短時(shí)平均幅度,fontsize,18);legend(N=200);cle

54、ar M;framelength=400;framenumber=fix(length(signal)/framelength);for i=1:framenumber; framesignal=signal(i-1)*framelength+1:i*framelength); M(i)=0; for j=1:framelength; M(i)=M(i)+abs(framesignal(j); end;end;subplot(224);plot(M);xlabel(幀數(shù),fontsize,18);ylabel(短時(shí)平均幅度,fontsize,18);legend(N=400);語音信號(hào)的短時(shí)譜

55、和LPC譜估計(jì):clear all; %清空內(nèi)容signal,fs,bits=wavread(s1.wav); %讀入語音framelength=200; %設(shè)定幀長(zhǎng)frameshift=80; %設(shè)定幀交疊部分的長(zhǎng)度xn=enframe(signal,framelength,frameshift);%按照指定的要求分幀data=xn(:,70); %取第70幀語音進(jìn)行分析rank=40; %設(shè)定階數(shù)num=512; %設(shè)定頻譜的點(diǎn)數(shù)a=lpc_coefficients(data,rank); %求預(yù)測(cè)系數(shù)b=1,-a,zeros(1,num-rank-1); %對(duì)1-a1-a2,.,-ap進(jìn)

56、行補(bǔ)0處理Hw=abs(ones(1,num)./fft(b);Hw=abs(Hw); %取模求幅值Sw=abs(fft(data,num); %求語音信號(hào)的短時(shí)譜plot(Sw/max(Sw);axis(0,256,0,1);hold on;plot(Hw/max(Hw),r);title(語音信號(hào)的短時(shí)譜和LPC譜估計(jì),fontsize,18);legend(語音信號(hào)的短時(shí)譜,lpc譜估計(jì));enframe函數(shù):function f=enframe(x,win,inc)%F = ENFRAME(X,LEN) splits the vector X(:) up into frames. %E

57、ach frame is of length LEN and occupies one row of the output matrix. %The last few frames of X will be ignored if its length is not divisible by %LEN.It is an error if X is shorter than LEN.nx=length(x(:);nwin=length(win);if (nwin = 1) len = win;else len = nwin;endif (nargin 1) w = win(:); f = f .*

58、 w(ones(nf,1),:);Endlpc_coefficients函數(shù):function c=lpc_coefficients(s,p)%此函數(shù)的功能是用自相關(guān)法求信號(hào)s使均方預(yù)測(cè)誤差為最小的預(yù)測(cè)系數(shù)%算法為Durbin快速遞推算法%注:s必須是一維向量 p為聲道模型的階數(shù)n=length(s); %獲得信號(hào)長(zhǎng)度 for i=1:p %測(cè)試向量 Rp(i)=sum(s(i+1:n).*s(1:n-i); %求向量的自相關(guān)函數(shù) endRp_0=s*s; %即Rn(0)Ep=zeros(p,1); %Ep為p階最佳線性預(yù)測(cè)反濾波能量k=zeros(p,1); %k為偏相關(guān)系數(shù)a=zeros(

59、p,p); %以上為初始化 %i=1的情況需要特殊處理,也是對(duì)p=1進(jìn)行處理Ep_0=Rp_0;k(1)=Rp(1)/Rp_0;a(1,1)=k(1);Ep(1)=(1-k(1)2)*Ep_0;%i=2起使用遞歸算法if p1 for i=2:p k(i)=(Rp(i)-sum( a(1:i-1,i-1).*Rp(i-1:-1:1)/Ep(i-1); a(i,i)=k(i); Ep(i)=(1-k(i)2)*Ep(i-1); for j=1:i-1 a(j,i)=a(j,i-1)-k(i)*a(i-j,i-1); end endend c=a(:,p); %c(j)=a(j,p)語音信號(hào)的短時(shí)

60、譜和LPC倒譜估計(jì):clear all; %清空內(nèi)容signal,fs,bits=wavread(s1.wav); %讀入語音framelength=200; %設(shè)定幀長(zhǎng)frameshift=80; %設(shè)定幀交疊部分的長(zhǎng)度xn=enframe(signal,framelength,frameshift);%按照指定的要求分幀data=xn(:,70); %取第70幀語音進(jìn)行分析rank=20; %設(shè)定階數(shù)num=512; %設(shè)定頻譜的點(diǎn)數(shù)a=lpc_coefficients(data,rank); %求預(yù)測(cè)系數(shù)h_c=lpc_cepstrum(data,rank); %求lpc倒譜Hc=abs

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論