【畢業(yè)學(xué)位論文】面向嵌入式系統(tǒng)的文本無關(guān)說話人識(shí)別技術(shù)研究-計(jì)算機(jī)科學(xué)與技術(shù)系_第1頁
【畢業(yè)學(xué)位論文】面向嵌入式系統(tǒng)的文本無關(guān)說話人識(shí)別技術(shù)研究-計(jì)算機(jī)科學(xué)與技術(shù)系_第2頁
【畢業(yè)學(xué)位論文】面向嵌入式系統(tǒng)的文本無關(guān)說話人識(shí)別技術(shù)研究-計(jì)算機(jī)科學(xué)與技術(shù)系_第3頁
【畢業(yè)學(xué)位論文】面向嵌入式系統(tǒng)的文本無關(guān)說話人識(shí)別技術(shù)研究-計(jì)算機(jī)科學(xué)與技術(shù)系_第4頁
【畢業(yè)學(xué)位論文】面向嵌入式系統(tǒng)的文本無關(guān)說話人識(shí)別技術(shù)研究-計(jì)算機(jī)科學(xué)與技術(shù)系_第5頁
已閱讀5頁,還剩59頁未讀, 繼續(xù)免費(fèi)閱讀

【畢業(yè)學(xué)位論文】面向嵌入式系統(tǒng)的文本無關(guān)說話人識(shí)別技術(shù)研究-計(jì)算機(jī)科學(xué)與技術(shù)系.pdf 免費(fèi)下載

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

重慶郵電大學(xué)碩士論文 摘 要 I 摘 要 隨著信息技術(shù)的迅速發(fā)展,人機(jī)交互技術(shù)的不斷普及,說話人識(shí)別 ( 以其獨(dú)特的方便性、經(jīng)濟(jì) 性 和安全性等優(yōu)勢(shì)受到了越來越多人的關(guān)注,在信息安全等領(lǐng)域的應(yīng)用也逐漸增加。同時(shí),隨著嵌入式系統(tǒng)在處 理速度、存儲(chǔ)能力、功耗和體積等方面取得突破性的進(jìn)展,嵌入式說話人識(shí)別系統(tǒng)逐漸成為語音識(shí)別技術(shù)面向?qū)嶋H應(yīng)用的一個(gè)重要發(fā)展趨勢(shì)。然而將與文本無關(guān)的說話人識(shí)別系統(tǒng)應(yīng)用到嵌入式設(shè)備上,依舊面臨著嵌入式設(shè)備計(jì)算速度、存儲(chǔ)能力等資源受限問題和背景噪聲、跨信道等算法魯棒性問題,影響嵌入式說話人識(shí)別系統(tǒng)的精度和實(shí)際應(yīng)用效果。 針對(duì)上述問題, 本文在嵌入式說話人識(shí)別系統(tǒng)的運(yùn)行效率和識(shí)別性能兩方面進(jìn)行了研究和改進(jìn)。主要內(nèi)容包括: 為了提高系統(tǒng)的運(yùn)行效率使其能在嵌入式設(shè)備上得以應(yīng)用 , 引入 了一種快速算法 非線性分段 ( 算法 。由于該算法 基于距離累積的分段規(guī)則對(duì)語音中的微小干擾魯棒性較差, 本文 引入 了 改進(jìn)的 法 , 采用絕對(duì)值距離替代平方和距離,并引入馬氏距離作為新的分段規(guī)則。實(shí)驗(yàn)證明,改進(jìn)后的 法使得分段的結(jié)果更加穩(wěn)定 。 實(shí)驗(yàn)結(jié)果表明,采用改進(jìn)的 法相對(duì)基線系統(tǒng)整體性能提升 為了提高系統(tǒng)的識(shí)別性能以及增強(qiáng)系統(tǒng)魯棒性 , 針對(duì)不同的人發(fā)音習(xí)慣不同的現(xiàn)象, 采用了一種基于基頻曲線的特征來著重捕捉說話人較長(zhǎng)時(shí)間的韻律信息。通過研究現(xiàn)有的一些融合方案, 在基線系統(tǒng)的框架上進(jìn)行改進(jìn) , 提出了一種在分?jǐn)?shù)層上 進(jìn)行分類器融合的方法。該方法更加充分地利用訓(xùn)練用的語料,使得訓(xùn)練用的語料除了用來訓(xùn)練前端數(shù)學(xué)模型之外,還用來調(diào)整后端模型(支持向量機(jī))的超參數(shù),且獲得了好的整體辨識(shí)結(jié)果。提出的多重特征融合的方法得到了最高的辨識(shí)率,相對(duì)基線 系統(tǒng) 整體性能提升了 關(guān)鍵詞: 嵌入式平臺(tái), 說話人識(shí)別,文本無關(guān),支持向量機(jī),分類器融 合重慶郵電大學(xué)碩士論文 I o f to in of an of in of in in as in of To in a to of of on on in it of of as as a to LP to to of to of a of to on on in to of We a of so of on to to be in on in to of a to to to 慶郵電大學(xué)碩士論文 II of 重慶郵電大學(xué)碩士論文 目 錄 錄 摘 要 I 1 章 緒論 1 言 1 題背景和研究意義 1 話人識(shí)別發(fā)展及現(xiàn)狀 2 話人識(shí)別應(yīng)用領(lǐng)域 3 話人識(shí)別概述 3 話人識(shí)別基 本原理 3 話人識(shí)別系統(tǒng)的分類 4 話人識(shí)別技術(shù)難點(diǎn) 6 文研究工作和論文結(jié)構(gòu) 7 究思路和主要工作 7 文的章節(jié)結(jié)構(gòu) 9 第 2 章 文本無關(guān)的說話人識(shí)別技術(shù)基礎(chǔ) 10 言 10 話人識(shí)別系統(tǒng)基本結(jié)構(gòu) 10 端處理 11 樣和量化 11 處理 11 點(diǎn)檢測(cè) 12 話人特征參數(shù)提取技術(shù) 13 爾頻率倒譜系數(shù) 14 于基頻曲線多項(xiàng)式擬合 16 話人建模方法 20 量量化 20 含馬爾科夫模型 20 斯混合模型 20 工神經(jīng)網(wǎng)絡(luò) 24 持向量機(jī) 24 重慶郵電大學(xué)碩士論文 目 錄 V 話人識(shí)別系統(tǒng)的評(píng)價(jià)指標(biāo) 29 章小結(jié) 30 第 3 章 語音數(shù)據(jù)庫(kù)和基線系統(tǒng)設(shè)計(jì) 31 言 31 驗(yàn)數(shù)據(jù)庫(kù)及參數(shù)設(shè)定 31 驗(yàn)數(shù)據(jù)庫(kù) 31 音前端信號(hào)處理參數(shù)設(shè)定 31 驗(yàn)評(píng)價(jià)指標(biāo) 32 線系統(tǒng) 32 線系統(tǒng)結(jié)構(gòu) 32 斯混合數(shù)選定 33 驗(yàn)結(jié)果 34 章小結(jié) 34 第 4 章 文本無關(guān)的說話人識(shí)別快速算法研究 35 言 35 于非線性分段的文本無關(guān)說話人識(shí)別 35 思想和概念 35 法存在的問題 36 進(jìn)的 法 37 于 文本無關(guān)說話人識(shí)別系統(tǒng) 39 真實(shí)驗(yàn)和分析 40 段數(shù)及高斯混合數(shù)的選定 40 驗(yàn)結(jié)果 41 驗(yàn)分析 43 章小結(jié) 43 第 5 章 文本無關(guān)的說話人識(shí)別多特征融合技術(shù)研究 44 言 44 類器融合研究思路 44 特征融合系統(tǒng)設(shè)計(jì) 45 統(tǒng)整體框架 45 統(tǒng)訓(xùn)練流程 46 統(tǒng)識(shí)別流程 47 真實(shí)驗(yàn)和分析 48 重慶郵電大學(xué)碩士論文 目 錄 不同種類單一特征的對(duì)比 49 特征融合的說話人識(shí)別系統(tǒng) 49 驗(yàn)分析 50 章小結(jié) 51 第 6 章 總結(jié)和展望 52 文工作總結(jié) 52 作展望 52 致 謝 54 攻讀碩士期間從事的研究工作 錯(cuò)誤!未定義書簽。 參考文獻(xiàn) 55 重慶郵電大學(xué)碩士論文 第 1 章 緒論 1 第 1章 緒論 言 說話人識(shí)別又稱聲紋識(shí)別 , 是利用人體生物特征進(jìn)行身份認(rèn)證的一種技術(shù),是目前最為方便與直接的一種識(shí)別技術(shù) 1。 當(dāng) 前,對(duì)說話人識(shí)別技術(shù)的研究大多是基于 平臺(tái)上 、 安靜的實(shí)驗(yàn)室環(huán)境下進(jìn)行的 。然而, 隨著移動(dòng)通信的蓬勃發(fā)展和便攜式設(shè)備的推陳出新,說話人識(shí)別技術(shù)今后將更多應(yīng)用于嵌入式設(shè)備上。 目前嵌入式設(shè)備上實(shí)現(xiàn)的說話人識(shí)別系統(tǒng)大多是 基于 文本相關(guān)的簡(jiǎn)單命令詞識(shí)別,實(shí)用性差和靈活性低等特點(diǎn) 制約了其在實(shí)際應(yīng)用中的推廣。 本文 通過對(duì)現(xiàn)有的 面向 嵌入式系統(tǒng) 的 文本無關(guān)的說話人識(shí)別技術(shù) 進(jìn)行研究 ,分析影響嵌入式說話人識(shí)別系統(tǒng)性能的主要原因 。從 提高系統(tǒng)運(yùn)行效率 的方面考慮而引入了 法,從提高 系統(tǒng)魯棒性 的方面考慮而采用了多特征融合的方法。并選取說話人識(shí)別技術(shù)中常用的等錯(cuò)誤率( 系統(tǒng)性能進(jìn)行評(píng)價(jià),證明了本文方法的合理性和有效性。 題背景 和研究意義 語言是人與人交流最為自然和方便的工具。隨著信息時(shí)代的步入,人類和機(jī)器的交互越來越頻繁和迫切,要求機(jī)器也能聽懂人類的語言 ,并能自然地同人類進(jìn)行交流 。 說話人識(shí)別 技術(shù)作為機(jī)器理解和識(shí)別人類語言的一個(gè)分支學(xué)科,旨在能從人類的語音 信息里找到能 表征說話人身份的信息,能對(duì)說話人自身的身份進(jìn)行準(zhǔn)確的辨認(rèn)或確認(rèn), 它具有語音 獲取 方便 、 成本低廉 、準(zhǔn)確性高等特點(diǎn)。 近年來,計(jì)算機(jī)軟硬件技術(shù)、通訊技術(shù)、網(wǎng)絡(luò)技術(shù)、半導(dǎo)體技術(shù)和電子技術(shù)等的飛速發(fā)展不僅拓展了說話人識(shí)別技術(shù)的應(yīng)用前景,也對(duì)其的發(fā)展提出了嚴(yán)峻的考驗(yàn)。如今,在安靜的實(shí)驗(yàn)室環(huán)境下,說話人識(shí)別的正確率達(dá)到了 99%以上,然而在實(shí)際應(yīng)用中,由于跨信道,背景噪聲,聲音的時(shí)變性,短語音等問題使得說話人識(shí) 別技術(shù)的應(yīng)用推廣受到了嚴(yán)重的制約。 隨著嵌入式時(shí)代的來臨,智能設(shè)備逐漸終端化,移動(dòng)化,小型化,隨處可見嵌入式設(shè)備的身影,如 機(jī)等。如今,人類越來越廣泛的同智能設(shè)備進(jìn)行交互,其交互形式多樣化。但是依靠自然語言進(jìn)行人機(jī)交互顯然是最方便的。說話人識(shí)別系統(tǒng)從理論設(shè)想走向智能終端(如微型計(jì)算機(jī)、智能手機(jī)、其他嵌入式平臺(tái)等)是發(fā)展的必然結(jié)果。該課題也是目前的一個(gè)研究熱點(diǎn),具有很高的商用重慶郵電大學(xué)碩士論文 第 1 章 緒論 2 價(jià)值。 將說話人識(shí)別技術(shù)應(yīng)用于嵌入式設(shè)備上有以下意義: 說話人識(shí)別系統(tǒng)作為一種聲紋加密工具,使用聲音作為密碼,安全簡(jiǎn)單可靠。將說話 人識(shí)別應(yīng)用于嵌入式平臺(tái),使得嵌入式產(chǎn)品能準(zhǔn)確識(shí)別出主人身份,防止產(chǎn)品被沒有授權(quán)的人使用,且方便移動(dòng)作業(yè),使得產(chǎn)品具有很好的市場(chǎng)競(jìng)爭(zhēng)力。 同時(shí), 嵌入式技術(shù)的發(fā)展反過來促進(jìn)說話人識(shí)別技術(shù)的發(fā)展。隨著嵌入式技術(shù)的發(fā)展,說話人識(shí)別技術(shù)也在不斷地調(diào)整更新自己以便更好的適應(yīng)嵌入式平臺(tái)的發(fā)展。 總之,說話人識(shí)別系統(tǒng)應(yīng)用于嵌入式設(shè)備上能進(jìn)一步增強(qiáng)人們對(duì)說話人識(shí)別技術(shù)的關(guān)注,反過來,嵌入式設(shè)備上有了說話人識(shí)別系統(tǒng)的加入,功能更加多樣化,安全性更高,具有更好的市場(chǎng)競(jìng)爭(zhēng)力。 話人識(shí)別發(fā)展及現(xiàn)狀 說話人識(shí)別技術(shù)的發(fā)展經(jīng)歷了以下三個(gè) 階段: 1 技術(shù)啟蒙階段,即 20 世紀(jì) 30年代,研究工作主要集中在人耳的聽辨實(shí)驗(yàn)和探討聽音識(shí)別的可能性方面 2。 2 技術(shù)突破階段,即 20 世紀(jì) 60 到 70 年代,研究的重點(diǎn)為各種識(shí)別參數(shù)的提取、選擇和實(shí)驗(yàn)上,并將倒譜比較和線性預(yù)測(cè)分析等線性處理和簡(jiǎn)單的模式匹配方法應(yīng)用于說話人識(shí)別中 3。 3 技術(shù)發(fā)展階段,即從 20 世紀(jì) 70 年代末開始至今,說話人識(shí)別的研究轉(zhuǎn)向?qū)Ω鞣N聲學(xué)特征參數(shù)的非線性處理和新的模式匹配方法上 4。 在說話人識(shí)別技術(shù) 發(fā)展的三個(gè)階段里,出現(xiàn)了許多具有標(biāo)志性意義的成果。在理論方面, 60 年代提出了動(dòng)態(tài)規(guī)劃 (線性預(yù)測(cè)分析技術(shù) ( ,成為語音信號(hào)分析處理的強(qiáng)有力工具5; 70 年代,線性預(yù)測(cè)技術(shù)進(jìn)一步發(fā)展,動(dòng)態(tài)時(shí)間彎折技術(shù) ( 67 基本成熟; 80 年代,語音識(shí)別技術(shù)進(jìn)一步深入,矢量量化 ( 8和 隱馬爾科夫模型( 9的提出標(biāo)志著說話人識(shí)別技術(shù)的一個(gè)重大里程碑;此后人工神經(jīng)網(wǎng)絡(luò)( 1011,支持向量機(jī)( 12等理論不斷被提出。 在應(yīng)用方法, 說話人識(shí)別技術(shù)已出現(xiàn)了一些比較成功的商用系統(tǒng), 50 年代,驗(yàn)室實(shí)現(xiàn)了第一個(gè)可以識(shí)別是個(gè)英文數(shù)字的說話人識(shí)別系統(tǒng) 統(tǒng); 80 年代 至今 ,歐洲電信聯(lián)盟開啟完成的 劃,實(shí)現(xiàn)了在電信與金融結(jié)合領(lǐng)域應(yīng)用說話人識(shí)別 技術(shù)、 司的 現(xiàn)了電話聲音的說話人確認(rèn)等。在我國(guó),由于漢語語音是一種聲調(diào)語言,因此國(guó)外現(xiàn)有的一些技術(shù)成果無法直接使用。國(guó)內(nèi)的說話人識(shí)別技術(shù)并沒有特別廣泛的商用性推廣。 目前國(guó)內(nèi)較重慶郵電大學(xué)碩士論文 第 1 章 緒論 3 成功的商用系統(tǒng)主要有:中科院自動(dòng)化的 紋識(shí)別和電話認(rèn)證系統(tǒng);科大訊飛語音實(shí)驗(yàn)室的 統(tǒng)等。 話人識(shí)別應(yīng)用領(lǐng)域 隨著時(shí)代的進(jìn)步,說話人識(shí)別技術(shù)在國(guó)外已廣泛的應(yīng)用到諸多的領(lǐng)域,但是在國(guó)內(nèi),尚處于啟動(dòng)階段,因此說話人識(shí)別技術(shù)在國(guó)內(nèi)的發(fā)展空間更為廣闊,在金融、證券、銀行、公安、軍隊(duì)以及 其他民用安全認(rèn)證等行業(yè)和部門都有著廣泛的需求 13。目前,說話人識(shí)別主要應(yīng)用于以下幾個(gè)領(lǐng)域 14: 民用領(lǐng)域:目前,常用的民用業(yè)務(wù)對(duì)用戶的身份認(rèn)證大多都是采用的數(shù)字密碼,雖然方便簡(jiǎn)單但是安全性較低。在該領(lǐng)域?qū)⒄f話人識(shí)別技術(shù)同數(shù)字密碼結(jié)合的方式可以更加安全有效地實(shí)現(xiàn)對(duì)用戶身份的認(rèn)證,且附加語音密碼后還可以實(shí)現(xiàn)遠(yuǎn)程作業(yè),這對(duì)用戶來說更加安全便利。比如,電話服務(wù)中,以用戶的聲音完成查詢、繳費(fèi)等業(yè)務(wù);用特定人的聲音實(shí)現(xiàn)機(jī)密場(chǎng)所的出入人員檢查,等等。 通信領(lǐng)域:在通信領(lǐng)域,說話人識(shí)別技術(shù)可以用于聲音撥號(hào)、語音 算機(jī)遠(yuǎn)程登錄、電話購(gòu)物、信息服務(wù)、數(shù)據(jù)庫(kù)訪問、安全控制等。 司法領(lǐng)域:在司法領(lǐng)域,說話人識(shí)別技術(shù)可以對(duì)各種電話勒索、綁架等案件提供技術(shù)支持,可以根據(jù)錄音查找出嫌疑人,幫助對(duì)嫌疑人的查證。 醫(yī)學(xué)領(lǐng)域:說話人識(shí)別系統(tǒng)可以用于對(duì)特定患者的命令做出響應(yīng),如對(duì)假肢的控制等。 軍事領(lǐng)域:說話人識(shí)別技術(shù)可以辨認(rèn)出電話交談過程中是否出現(xiàn)關(guān)鍵說話人,并對(duì)其交談內(nèi)容進(jìn)行處理。另外,在對(duì)外發(fā)出軍事指令時(shí),可以實(shí)現(xiàn)對(duì)發(fā)出命令的人的身份進(jìn)行確認(rèn)。 話人識(shí)別概述 話人識(shí)別基本原理 說話人識(shí)別它同人類其他的生物特征(指紋、語 音、虹膜等)一樣,都具有普遍性,唯一性等特點(diǎn)。這些生物特征都能體現(xiàn)特定人與其他人的區(qū)別,且不容易被仿冒,可靠性高。鑒于說話人識(shí)別的研究對(duì)象是說話人的語音信號(hào),且語音信號(hào)具有獲取方便,成本低廉等特點(diǎn),它比其他的生物特征更具有優(yōu)勢(shì) 15。 說話人識(shí)別是指利用說話人語音中的能反應(yīng)其獨(dú)有的生理和行為特征的參數(shù),來進(jìn)行身份認(rèn)證的一種技術(shù)。說話人識(shí)別技術(shù)分為訓(xùn)練(注冊(cè))和識(shí)別兩個(gè)部分。所謂訓(xùn)練,是指對(duì)特定說話人的輸入語音采取一系列的處理計(jì)算后提取能重慶郵電大學(xué)碩士論文 第 1 章 緒論 4 表征說話人特點(diǎn)的特征信息,并對(duì)該特征進(jìn)行建模的過程。識(shí)別,是指將待測(cè)說話 人的語音特征同說話人模型進(jìn)行比對(duì),判斷該語音是否對(duì)應(yīng)為某個(gè)特定說話人16。圖 示為一個(gè)典型的說話人識(shí)別系統(tǒng)的框圖。其由前端處理,模型訓(xùn)練,模式匹配和判決 4 個(gè)部分組成 13。 預(yù) 處 理 端 點(diǎn) 檢 測(cè) 特 征 提 取前 端 處 理訓(xùn) 練 語 音預(yù) 處 理 端 點(diǎn) 檢 測(cè) 特 征 提 取前 端 處 理測(cè) 試 語 音特 征 序 列特 征 序 列訓(xùn) 練 模 型識(shí) 別 識(shí) 別 結(jié) 果圖 型的說話人識(shí)別系統(tǒng)框圖 由圖 以看出,無論是訓(xùn)練還是識(shí)別,都需要對(duì)輸入的原始語音信號(hào)進(jìn)行預(yù)處理,包括采用、量化、預(yù)加重、分幀和加窗等處理過程,以實(shí)現(xiàn)對(duì)語音信號(hào)進(jìn) 行特征提取。 話人識(shí)別 系統(tǒng)的分類 說話人識(shí)別系統(tǒng)依據(jù)不同的準(zhǔn)則可以分為不同的種類 23: 1 根據(jù)識(shí)別語音的內(nèi)容,可以分為文本無關(guān)( 說話人識(shí)別、文本相關(guān)( 說話人識(shí)別和指定文本( 話人識(shí)別。文本無關(guān)是指測(cè)試語音同訓(xùn)練語音的內(nèi)容不需要相同;文本相關(guān)是指測(cè)試的語音同訓(xùn)練的語音內(nèi)容必須相同;指定文本是指 要求測(cè)試語音內(nèi)容為系統(tǒng)指定的文本內(nèi)容,不一定與訓(xùn)練語音內(nèi)容完全一致。 對(duì)一個(gè)文本無關(guān)的說話人識(shí)別系統(tǒng)而言,只要說話人相同,無需考慮測(cè)試文本內(nèi)容是否同訓(xùn)練文本內(nèi)容一致,系統(tǒng)也會(huì)予以“接受”。而對(duì)一個(gè)文本相關(guān)的說話人確認(rèn)系統(tǒng)而言,在訓(xùn)練階段,說話人需要對(duì)特定文本進(jìn)行發(fā)音和建模,在識(shí)別階段,只有說話人相同且發(fā)音的文本內(nèi)容也相同,系統(tǒng)才會(huì)予以“接受”。由此可以看出文本無關(guān)的說話人識(shí)別系統(tǒng)相較與文本相關(guān)對(duì)用戶更加友好,靈活性也更強(qiáng),應(yīng)用領(lǐng)域也更加廣泛。雖然前者在實(shí)現(xiàn)難度上要大于后者,但是由于其具有很好的應(yīng)用前景和實(shí)用價(jià) 值,目前已經(jīng)成為嵌入式開發(fā)的一個(gè)重要的研究領(lǐng)域。 重慶郵電大學(xué)碩士論文 第 1 章 緒論 5 2 根據(jù)實(shí)際應(yīng)用的范疇,可以分為說話人確認(rèn)( 說話人辨認(rèn)( 說話人確認(rèn)指待識(shí)別的說話人語音只需同所申明的說話人模型進(jìn)行匹配打分,最后由閾值來判定該測(cè)試語音是否通過,它的輸出只有“接受”和“拒絕”兩類,是一對(duì)一的問題;說話人辨認(rèn)是指待識(shí)別的說話人語音同系統(tǒng)里所有說話人模型進(jìn)行模型匹配打分,最后比較得分得出該語音是屬于哪一個(gè)說話人,是多選一的問題。 圖 別為說話人辨認(rèn)和說話人確認(rèn)系統(tǒng)框圖。 訓(xùn) 練 語 音特 征 序 列前 端 處 理 模 型 訓(xùn) 練 說 話 人 模 型測(cè) 試 語 音特 征 序 列前 端 處 理 模 型 匹 配識(shí) 別結(jié) 果圖 話人辨認(rèn)系統(tǒng)框圖 由圖 示,說話人辨認(rèn)系統(tǒng)是 指 對(duì)測(cè)試語音同模型庫(kù)里的所有說話人模型分別進(jìn)行比較,最終選擇得分最高的作為識(shí)別結(jié)果。 訓(xùn) 練 語 音特 征 序 列前 端 處 理 模 型 訓(xùn) 練說 話 人 模 型 人 聲 稱 為 序 列前 端 處 理 模 型 匹 配 閾 值分 數(shù)驗(yàn) 證 拒 絕否驗(yàn) 證 通 過是圖 話人確認(rèn)系統(tǒng)框圖 而圖 示,說話人確認(rèn)系統(tǒng)則只是對(duì)測(cè)試語音同其所聲稱的說話人模型進(jìn)比較,然后由閾值與得分進(jìn)行比較得到識(shí)別結(jié)果。說話人辨認(rèn)由于需要同各個(gè)模型進(jìn)行逐個(gè)比對(duì), 因此計(jì)算量要遠(yuǎn)大于說話人確認(rèn)。另外,說話人確認(rèn)實(shí)現(xiàn)的是對(duì)說話人身份實(shí)現(xiàn)“接受”或者“拒絕”,安全性要高于說話人辨認(rèn),經(jīng)濟(jì)領(lǐng)域的應(yīng)用也更廣泛。 基于以上兩個(gè)因素考慮,本文將著重對(duì)文本無關(guān)的說話人確認(rèn)技術(shù)進(jìn)行研究。 3 根據(jù)測(cè)試說話人身份的不同,可以分為開集( 說話人識(shí)別和閉集( 說話人識(shí)別。開集說話人識(shí)別要求測(cè)試的說話人集合沒有訓(xùn)練集的限制;閉集說話人識(shí)別要求測(cè)試的說話人集合局限在訓(xùn)練集內(nèi)的說話人內(nèi)。 重慶郵電大學(xué)碩士論文 第 1 章 緒論 6 根據(jù)說話人識(shí)別的不同應(yīng)用范疇,對(duì)說話人識(shí)別系 統(tǒng)的評(píng)價(jià)標(biāo)準(zhǔn)也不一樣。說話人辨認(rèn)系統(tǒng)常用于對(duì)一段未知的語音信息,需要在大量的參考說話人中挑選出這段語音信息是屬于參考說話人中的哪一個(gè), 常用的應(yīng)用領(lǐng)域 如刑事偵查中語音偵聽。對(duì)于說話人辨認(rèn)系統(tǒng),其性能評(píng)價(jià)指標(biāo)主要是正確識(shí)別率。即 (其中 正確識(shí)別的個(gè)數(shù), 總測(cè)試的個(gè)數(shù)。 說話人確認(rèn)系統(tǒng)中,使用者會(huì)聲稱自己是某一名說話人,由系統(tǒng)來判斷其語音是否來 自 該聲稱的說話人,如身份認(rèn)證、入境管理。對(duì)于 說 話人確認(rèn)系統(tǒng) ,其性能 評(píng)價(jià)指標(biāo)主要是 等錯(cuò)誤率( 它包括兩個(gè)參數(shù):錯(cuò)誤拒絕率 ( 以及錯(cuò)誤接受率 ( 。稱為 型錯(cuò)誤,它是將真實(shí)說話人誤認(rèn)為仿冒說話人所造成的錯(cuò)誤,而 型錯(cuò)誤,它是把仿冒說話人誤認(rèn)為是真實(shí)說話人所引起的錯(cuò)誤。 常表示著兩類錯(cuò)誤均衡時(shí)的值, 低表示系統(tǒng)的性能越好,在實(shí)際的應(yīng)用場(chǎng)合,不僅需 要考慮 ,也需要考慮 情況,這是因?yàn)椴煌瑘?chǎng)合對(duì)系統(tǒng) 安全性要求 不盡相同 。 話人識(shí)別技術(shù)難點(diǎn) 雖然目前說話人識(shí)別技術(shù)已取得了不少的成果,但是要達(dá)到成熟穩(wěn)定的實(shí)際應(yīng)用效果,仍有不少技術(shù)難點(diǎn)需待攻克 1718,主要表現(xiàn)為以下幾個(gè)方面: 1 說話人個(gè)性特征分離: 語音信號(hào)里面往往包括了說話人的身份信息和說話內(nèi)容信息,目前尚沒有很好的方法將這兩類信息從語音信號(hào)里進(jìn)行分離。 2 特征參數(shù)的自適應(yīng):說話人的發(fā)音常常與環(huán)境、情緒、健康狀況等因素有關(guān) 。如何 使選取的 特征參數(shù) 具有自適性 , 目前尚沒有找到特別有效的辦法。 3 復(fù)雜環(huán)境下的識(shí)別:目前說話人識(shí)別系統(tǒng)對(duì)環(huán)境的依賴性較強(qiáng),如何在復(fù)雜環(huán)境下增強(qiáng)系統(tǒng)的魯棒性也是說話人識(shí)別系統(tǒng)實(shí)用化前需要解決的一個(gè)技術(shù)難題。 目前的說話人識(shí)別系統(tǒng)大都是基于 的,但是隨著嵌入式時(shí)代的來臨,說話人識(shí)別系統(tǒng)從普通的 走向嵌入式平臺(tái)也是大勢(shì)所趨。 相對(duì)于 嵌入式說話人識(shí)別系統(tǒng)面臨著更大的機(jī)遇與挑戰(zhàn)。其面臨的技術(shù)難點(diǎn)主要表現(xiàn)為以下兩個(gè)方面: 1 有限運(yùn)算存儲(chǔ)資源下的運(yùn) 行效率。 嵌入式設(shè)備相對(duì)普通的 具有體積小,容易便攜的優(yōu)點(diǎn),因此單純地從能重慶郵電大學(xué)碩士論文 第 1 章 緒論 7 耗上考慮,嵌入式設(shè)備是無法忍受過高的溫度,因而在嵌入式設(shè)備上使用高頻運(yùn)算器并不合適,從而這也決定了其所具有的運(yùn)算資源遠(yuǎn)遠(yuǎn)比不上普通的 器。說話人識(shí)別在實(shí)現(xiàn)中還包含了大量的復(fù)雜浮點(diǎn)運(yùn)算,而目前大多的嵌入式設(shè)備都不具備浮點(diǎn)運(yùn)算器。因此,嵌入式設(shè)備有限的運(yùn)算存儲(chǔ)資源和說話人識(shí)別巨大而復(fù)雜的運(yùn)算處理之間的矛盾,是當(dāng)前說話人識(shí)別應(yīng)用于嵌入式平臺(tái)的主要難點(diǎn)之一。 2 更為復(fù)雜環(huán)境下的識(shí)別。 嵌入式設(shè)備便攜的優(yōu)點(diǎn) 也決定了其所處的環(huán)境多變且復(fù)雜, 同時(shí)嵌入式設(shè)備上的說話人識(shí)別系統(tǒng)還面臨著跨信道、短語音、背景噪聲等等之類的影響,這些對(duì)說話人識(shí)別系統(tǒng)的精度影響也是不容忽視的。如何在復(fù)雜的嵌入式使用環(huán)境中增強(qiáng)系統(tǒng)的魯棒性也是如今說話人識(shí)別應(yīng)用于嵌入式平臺(tái)的主要難點(diǎn)之一。 文 研究 工作 和 論文 結(jié)構(gòu) 究思路 和主要工作 目前,語音識(shí)別系統(tǒng)在嵌入式平臺(tái)中已得到了廣泛的應(yīng)用 19,如手機(jī)語音撥號(hào),能識(shí)別主人命令的智能玩具,聲控小車 20等,但是將說話人識(shí)別技術(shù)應(yīng)用于嵌入式設(shè)備上的 應(yīng)用 卻沒有如此之廣泛,目前對(duì)嵌入式說話人 識(shí)別 系統(tǒng)的研究大多集中在運(yùn)算的優(yōu)化,如定浮點(diǎn)轉(zhuǎn) 化運(yùn)算,模型搜索空間壓縮,復(fù)雜運(yùn)算函數(shù)變形等,在算法層進(jìn)行優(yōu)化的并不多 2122。 由于嵌入式說話人識(shí)別具有良好的市場(chǎng)前景,越來越多的研究者投身于這方面工作。目前嵌入式設(shè)備上實(shí)現(xiàn)的說話人識(shí)別系統(tǒng)大多是基于特定人的文本相關(guān)的簡(jiǎn)單命令詞識(shí)別,實(shí)用性差和靈活性低等特點(diǎn)制約了其在實(shí)際應(yīng)用中的推廣?;谝陨系囊蛩?,本文工作重點(diǎn)定位于對(duì)文本無關(guān)的嵌入式說話人識(shí)別系統(tǒng)進(jìn)行研究。 在 上節(jié)中 提到,嵌入式說話人識(shí)別系統(tǒng)實(shí)現(xiàn)的兩大難點(diǎn)分別是: 1 嵌入式設(shè)備運(yùn) 算 能力和存儲(chǔ) 資源有限同說話人識(shí)別系統(tǒng)復(fù)雜的運(yùn)算之間的矛盾; 2 嵌入式設(shè)備使用環(huán)境不確定同說話人識(shí)別系統(tǒng)性能對(duì)環(huán)境依賴 性強(qiáng) 之間的矛盾。 為了使得文本無關(guān)的說話人識(shí)別系統(tǒng)在嵌入式設(shè)備上得以應(yīng)用。 我們從兩個(gè)方面著手考慮: 1 提升 系統(tǒng) 的運(yùn)行效率; 2 提升 系統(tǒng)魯棒性 。 在提升系統(tǒng)的運(yùn)行效率方面可以從以下兩個(gè)方面來考慮:一是從嵌入式運(yùn)行平臺(tái)的具體情況入手,對(duì)程序中用到的復(fù)雜運(yùn)算進(jìn)行優(yōu)化,降低單次運(yùn)算的時(shí)間開銷;二是優(yōu)化程序算法結(jié)構(gòu),從根本上減少運(yùn)算 量來達(dá)到速度提升的效果。但重慶郵電大學(xué)碩士論文 第 1 章 緒論 8 是,單純的對(duì)運(yùn)算過程進(jìn)行優(yōu)化往往意味著實(shí)現(xiàn)的簡(jiǎn)單化和粗糙化,必將對(duì)運(yùn)算的精度帶來損失,因而可能會(huì)對(duì)系統(tǒng)性能產(chǎn)生不利影響;而算法層面的改進(jìn),則有可能在加快運(yùn)算速度的同時(shí),也達(dá)到提升性能的效果。因此,本研究著重于優(yōu)化算法結(jié)構(gòu)來提升系統(tǒng)的運(yùn)行效率。 在提升系統(tǒng)的魯棒性方面可以從以下兩個(gè)方面來考慮:一是 去除語音中包含的噪音;二是尋找不受跨信道、背景噪聲等因素影響的高層特征 ,將高層特征同低層特征進(jìn)行結(jié)合來增強(qiáng)系統(tǒng)性能 。 但是對(duì)語音去噪本是一個(gè)很復(fù)雜的課題, 而第二種方式相對(duì)簡(jiǎn)單,因此本研究著重對(duì) 第二種方式進(jìn)行研究與實(shí)現(xiàn)。 首先,漢語是一種聲調(diào)語言,而聲調(diào)在很大程度上反應(yīng)了說話人的一種發(fā)音習(xí)慣,因此如果能夠利用聲調(diào)或者相關(guān)方面的特征進(jìn)行辨識(shí),就可以進(jìn)一步提升系統(tǒng)的性能。 此外,說話人識(shí)別系統(tǒng)傳統(tǒng)的做法多數(shù)是基于單一特征的辨識(shí)方法,如果我們可以結(jié)合不同種類的特征,如音段特征和超音段特征,則可以起到互相補(bǔ)充的作用

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論