【畢業(yè)學位論文】面向嵌入式系統(tǒng)的文本無關說話人識別技術研究-計算機科學與技術系_第1頁
【畢業(yè)學位論文】面向嵌入式系統(tǒng)的文本無關說話人識別技術研究-計算機科學與技術系_第2頁
【畢業(yè)學位論文】面向嵌入式系統(tǒng)的文本無關說話人識別技術研究-計算機科學與技術系_第3頁
【畢業(yè)學位論文】面向嵌入式系統(tǒng)的文本無關說話人識別技術研究-計算機科學與技術系_第4頁
【畢業(yè)學位論文】面向嵌入式系統(tǒng)的文本無關說話人識別技術研究-計算機科學與技術系_第5頁
已閱讀5頁,還剩59頁未讀, 繼續(xù)免費閱讀

【畢業(yè)學位論文】面向嵌入式系統(tǒng)的文本無關說話人識別技術研究-計算機科學與技術系.pdf 免費下載

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

重慶郵電大學碩士論文 摘 要 I 摘 要 隨著信息技術的迅速發(fā)展,人機交互技術的不斷普及,說話人識別 ( 以其獨特的方便性、經(jīng)濟 性 和安全性等優(yōu)勢受到了越來越多人的關注,在信息安全等領域的應用也逐漸增加。同時,隨著嵌入式系統(tǒng)在處 理速度、存儲能力、功耗和體積等方面取得突破性的進展,嵌入式說話人識別系統(tǒng)逐漸成為語音識別技術面向?qū)嶋H應用的一個重要發(fā)展趨勢。然而將與文本無關的說話人識別系統(tǒng)應用到嵌入式設備上,依舊面臨著嵌入式設備計算速度、存儲能力等資源受限問題和背景噪聲、跨信道等算法魯棒性問題,影響嵌入式說話人識別系統(tǒng)的精度和實際應用效果。 針對上述問題, 本文在嵌入式說話人識別系統(tǒng)的運行效率和識別性能兩方面進行了研究和改進。主要內(nèi)容包括: 為了提高系統(tǒng)的運行效率使其能在嵌入式設備上得以應用 , 引入 了一種快速算法 非線性分段 ( 算法 。由于該算法 基于距離累積的分段規(guī)則對語音中的微小干擾魯棒性較差, 本文 引入 了 改進的 法 , 采用絕對值距離替代平方和距離,并引入馬氏距離作為新的分段規(guī)則。實驗證明,改進后的 法使得分段的結(jié)果更加穩(wěn)定 。 實驗結(jié)果表明,采用改進的 法相對基線系統(tǒng)整體性能提升 為了提高系統(tǒng)的識別性能以及增強系統(tǒng)魯棒性 , 針對不同的人發(fā)音習慣不同的現(xiàn)象, 采用了一種基于基頻曲線的特征來著重捕捉說話人較長時間的韻律信息。通過研究現(xiàn)有的一些融合方案, 在基線系統(tǒng)的框架上進行改進 , 提出了一種在分數(shù)層上 進行分類器融合的方法。該方法更加充分地利用訓練用的語料,使得訓練用的語料除了用來訓練前端數(shù)學模型之外,還用來調(diào)整后端模型(支持向量機)的超參數(shù),且獲得了好的整體辨識結(jié)果。提出的多重特征融合的方法得到了最高的辨識率,相對基線 系統(tǒng) 整體性能提升了 關鍵詞: 嵌入式平臺, 說話人識別,文本無關,支持向量機,分類器融 合重慶郵電大學碩士論文 I o f to in of an of in of in in as in of To in a to of of on on in it of of as as a to LP to to of to of a of to on on in to of We a of so of on to to be in on in to of a to to to 慶郵電大學碩士論文 II of 重慶郵電大學碩士論文 目 錄 錄 摘 要 I 1 章 緒論 1 言 1 題背景和研究意義 1 話人識別發(fā)展及現(xiàn)狀 2 話人識別應用領域 3 話人識別概述 3 話人識別基 本原理 3 話人識別系統(tǒng)的分類 4 話人識別技術難點 6 文研究工作和論文結(jié)構(gòu) 7 究思路和主要工作 7 文的章節(jié)結(jié)構(gòu) 9 第 2 章 文本無關的說話人識別技術基礎 10 言 10 話人識別系統(tǒng)基本結(jié)構(gòu) 10 端處理 11 樣和量化 11 處理 11 點檢測 12 話人特征參數(shù)提取技術 13 爾頻率倒譜系數(shù) 14 于基頻曲線多項式擬合 16 話人建模方法 20 量量化 20 含馬爾科夫模型 20 斯混合模型 20 工神經(jīng)網(wǎng)絡 24 持向量機 24 重慶郵電大學碩士論文 目 錄 V 話人識別系統(tǒng)的評價指標 29 章小結(jié) 30 第 3 章 語音數(shù)據(jù)庫和基線系統(tǒng)設計 31 言 31 驗數(shù)據(jù)庫及參數(shù)設定 31 驗數(shù)據(jù)庫 31 音前端信號處理參數(shù)設定 31 驗評價指標 32 線系統(tǒng) 32 線系統(tǒng)結(jié)構(gòu) 32 斯混合數(shù)選定 33 驗結(jié)果 34 章小結(jié) 34 第 4 章 文本無關的說話人識別快速算法研究 35 言 35 于非線性分段的文本無關說話人識別 35 思想和概念 35 法存在的問題 36 進的 法 37 于 文本無關說話人識別系統(tǒng) 39 真實驗和分析 40 段數(shù)及高斯混合數(shù)的選定 40 驗結(jié)果 41 驗分析 43 章小結(jié) 43 第 5 章 文本無關的說話人識別多特征融合技術研究 44 言 44 類器融合研究思路 44 特征融合系統(tǒng)設計 45 統(tǒng)整體框架 45 統(tǒng)訓練流程 46 統(tǒng)識別流程 47 真實驗和分析 48 重慶郵電大學碩士論文 目 錄 不同種類單一特征的對比 49 特征融合的說話人識別系統(tǒng) 49 驗分析 50 章小結(jié) 51 第 6 章 總結(jié)和展望 52 文工作總結(jié) 52 作展望 52 致 謝 54 攻讀碩士期間從事的研究工作 錯誤!未定義書簽。 參考文獻 55 重慶郵電大學碩士論文 第 1 章 緒論 1 第 1章 緒論 言 說話人識別又稱聲紋識別 , 是利用人體生物特征進行身份認證的一種技術,是目前最為方便與直接的一種識別技術 1。 當 前,對說話人識別技術的研究大多是基于 平臺上 、 安靜的實驗室環(huán)境下進行的 。然而, 隨著移動通信的蓬勃發(fā)展和便攜式設備的推陳出新,說話人識別技術今后將更多應用于嵌入式設備上。 目前嵌入式設備上實現(xiàn)的說話人識別系統(tǒng)大多是 基于 文本相關的簡單命令詞識別,實用性差和靈活性低等特點 制約了其在實際應用中的推廣。 本文 通過對現(xiàn)有的 面向 嵌入式系統(tǒng) 的 文本無關的說話人識別技術 進行研究 ,分析影響嵌入式說話人識別系統(tǒng)性能的主要原因 。從 提高系統(tǒng)運行效率 的方面考慮而引入了 法,從提高 系統(tǒng)魯棒性 的方面考慮而采用了多特征融合的方法。并選取說話人識別技術中常用的等錯誤率( 系統(tǒng)性能進行評價,證明了本文方法的合理性和有效性。 題背景 和研究意義 語言是人與人交流最為自然和方便的工具。隨著信息時代的步入,人類和機器的交互越來越頻繁和迫切,要求機器也能聽懂人類的語言 ,并能自然地同人類進行交流 。 說話人識別 技術作為機器理解和識別人類語言的一個分支學科,旨在能從人類的語音 信息里找到能 表征說話人身份的信息,能對說話人自身的身份進行準確的辨認或確認, 它具有語音 獲取 方便 、 成本低廉 、準確性高等特點。 近年來,計算機軟硬件技術、通訊技術、網(wǎng)絡技術、半導體技術和電子技術等的飛速發(fā)展不僅拓展了說話人識別技術的應用前景,也對其的發(fā)展提出了嚴峻的考驗。如今,在安靜的實驗室環(huán)境下,說話人識別的正確率達到了 99%以上,然而在實際應用中,由于跨信道,背景噪聲,聲音的時變性,短語音等問題使得說話人識 別技術的應用推廣受到了嚴重的制約。 隨著嵌入式時代的來臨,智能設備逐漸終端化,移動化,小型化,隨處可見嵌入式設備的身影,如 機等。如今,人類越來越廣泛的同智能設備進行交互,其交互形式多樣化。但是依靠自然語言進行人機交互顯然是最方便的。說話人識別系統(tǒng)從理論設想走向智能終端(如微型計算機、智能手機、其他嵌入式平臺等)是發(fā)展的必然結(jié)果。該課題也是目前的一個研究熱點,具有很高的商用重慶郵電大學碩士論文 第 1 章 緒論 2 價值。 將說話人識別技術應用于嵌入式設備上有以下意義: 說話人識別系統(tǒng)作為一種聲紋加密工具,使用聲音作為密碼,安全簡單可靠。將說話 人識別應用于嵌入式平臺,使得嵌入式產(chǎn)品能準確識別出主人身份,防止產(chǎn)品被沒有授權的人使用,且方便移動作業(yè),使得產(chǎn)品具有很好的市場競爭力。 同時, 嵌入式技術的發(fā)展反過來促進說話人識別技術的發(fā)展。隨著嵌入式技術的發(fā)展,說話人識別技術也在不斷地調(diào)整更新自己以便更好的適應嵌入式平臺的發(fā)展。 總之,說話人識別系統(tǒng)應用于嵌入式設備上能進一步增強人們對說話人識別技術的關注,反過來,嵌入式設備上有了說話人識別系統(tǒng)的加入,功能更加多樣化,安全性更高,具有更好的市場競爭力。 話人識別發(fā)展及現(xiàn)狀 說話人識別技術的發(fā)展經(jīng)歷了以下三個 階段: 1 技術啟蒙階段,即 20 世紀 30年代,研究工作主要集中在人耳的聽辨實驗和探討聽音識別的可能性方面 2。 2 技術突破階段,即 20 世紀 60 到 70 年代,研究的重點為各種識別參數(shù)的提取、選擇和實驗上,并將倒譜比較和線性預測分析等線性處理和簡單的模式匹配方法應用于說話人識別中 3。 3 技術發(fā)展階段,即從 20 世紀 70 年代末開始至今,說話人識別的研究轉(zhuǎn)向?qū)Ω鞣N聲學特征參數(shù)的非線性處理和新的模式匹配方法上 4。 在說話人識別技術 發(fā)展的三個階段里,出現(xiàn)了許多具有標志性意義的成果。在理論方面, 60 年代提出了動態(tài)規(guī)劃 (線性預測分析技術 ( ,成為語音信號分析處理的強有力工具5; 70 年代,線性預測技術進一步發(fā)展,動態(tài)時間彎折技術 ( 67 基本成熟; 80 年代,語音識別技術進一步深入,矢量量化 ( 8和 隱馬爾科夫模型( 9的提出標志著說話人識別技術的一個重大里程碑;此后人工神經(jīng)網(wǎng)絡( 1011,支持向量機( 12等理論不斷被提出。 在應用方法, 說話人識別技術已出現(xiàn)了一些比較成功的商用系統(tǒng), 50 年代,驗室實現(xiàn)了第一個可以識別是個英文數(shù)字的說話人識別系統(tǒng) 統(tǒng); 80 年代 至今 ,歐洲電信聯(lián)盟開啟完成的 劃,實現(xiàn)了在電信與金融結(jié)合領域應用說話人識別 技術、 司的 現(xiàn)了電話聲音的說話人確認等。在我國,由于漢語語音是一種聲調(diào)語言,因此國外現(xiàn)有的一些技術成果無法直接使用。國內(nèi)的說話人識別技術并沒有特別廣泛的商用性推廣。 目前國內(nèi)較重慶郵電大學碩士論文 第 1 章 緒論 3 成功的商用系統(tǒng)主要有:中科院自動化的 紋識別和電話認證系統(tǒng);科大訊飛語音實驗室的 統(tǒng)等。 話人識別應用領域 隨著時代的進步,說話人識別技術在國外已廣泛的應用到諸多的領域,但是在國內(nèi),尚處于啟動階段,因此說話人識別技術在國內(nèi)的發(fā)展空間更為廣闊,在金融、證券、銀行、公安、軍隊以及 其他民用安全認證等行業(yè)和部門都有著廣泛的需求 13。目前,說話人識別主要應用于以下幾個領域 14: 民用領域:目前,常用的民用業(yè)務對用戶的身份認證大多都是采用的數(shù)字密碼,雖然方便簡單但是安全性較低。在該領域?qū)⒄f話人識別技術同數(shù)字密碼結(jié)合的方式可以更加安全有效地實現(xiàn)對用戶身份的認證,且附加語音密碼后還可以實現(xiàn)遠程作業(yè),這對用戶來說更加安全便利。比如,電話服務中,以用戶的聲音完成查詢、繳費等業(yè)務;用特定人的聲音實現(xiàn)機密場所的出入人員檢查,等等。 通信領域:在通信領域,說話人識別技術可以用于聲音撥號、語音 算機遠程登錄、電話購物、信息服務、數(shù)據(jù)庫訪問、安全控制等。 司法領域:在司法領域,說話人識別技術可以對各種電話勒索、綁架等案件提供技術支持,可以根據(jù)錄音查找出嫌疑人,幫助對嫌疑人的查證。 醫(yī)學領域:說話人識別系統(tǒng)可以用于對特定患者的命令做出響應,如對假肢的控制等。 軍事領域:說話人識別技術可以辨認出電話交談過程中是否出現(xiàn)關鍵說話人,并對其交談內(nèi)容進行處理。另外,在對外發(fā)出軍事指令時,可以實現(xiàn)對發(fā)出命令的人的身份進行確認。 話人識別概述 話人識別基本原理 說話人識別它同人類其他的生物特征(指紋、語 音、虹膜等)一樣,都具有普遍性,唯一性等特點。這些生物特征都能體現(xiàn)特定人與其他人的區(qū)別,且不容易被仿冒,可靠性高。鑒于說話人識別的研究對象是說話人的語音信號,且語音信號具有獲取方便,成本低廉等特點,它比其他的生物特征更具有優(yōu)勢 15。 說話人識別是指利用說話人語音中的能反應其獨有的生理和行為特征的參數(shù),來進行身份認證的一種技術。說話人識別技術分為訓練(注冊)和識別兩個部分。所謂訓練,是指對特定說話人的輸入語音采取一系列的處理計算后提取能重慶郵電大學碩士論文 第 1 章 緒論 4 表征說話人特點的特征信息,并對該特征進行建模的過程。識別,是指將待測說話 人的語音特征同說話人模型進行比對,判斷該語音是否對應為某個特定說話人16。圖 示為一個典型的說話人識別系統(tǒng)的框圖。其由前端處理,模型訓練,模式匹配和判決 4 個部分組成 13。 預 處 理 端 點 檢 測 特 征 提 取前 端 處 理訓 練 語 音預 處 理 端 點 檢 測 特 征 提 取前 端 處 理測 試 語 音特 征 序 列特 征 序 列訓 練 模 型識 別 識 別 結(jié) 果圖 型的說話人識別系統(tǒng)框圖 由圖 以看出,無論是訓練還是識別,都需要對輸入的原始語音信號進行預處理,包括采用、量化、預加重、分幀和加窗等處理過程,以實現(xiàn)對語音信號進 行特征提取。 話人識別 系統(tǒng)的分類 說話人識別系統(tǒng)依據(jù)不同的準則可以分為不同的種類 23: 1 根據(jù)識別語音的內(nèi)容,可以分為文本無關( 說話人識別、文本相關( 說話人識別和指定文本( 話人識別。文本無關是指測試語音同訓練語音的內(nèi)容不需要相同;文本相關是指測試的語音同訓練的語音內(nèi)容必須相同;指定文本是指 要求測試語音內(nèi)容為系統(tǒng)指定的文本內(nèi)容,不一定與訓練語音內(nèi)容完全一致。 對一個文本無關的說話人識別系統(tǒng)而言,只要說話人相同,無需考慮測試文本內(nèi)容是否同訓練文本內(nèi)容一致,系統(tǒng)也會予以“接受”。而對一個文本相關的說話人確認系統(tǒng)而言,在訓練階段,說話人需要對特定文本進行發(fā)音和建模,在識別階段,只有說話人相同且發(fā)音的文本內(nèi)容也相同,系統(tǒng)才會予以“接受”。由此可以看出文本無關的說話人識別系統(tǒng)相較與文本相關對用戶更加友好,靈活性也更強,應用領域也更加廣泛。雖然前者在實現(xiàn)難度上要大于后者,但是由于其具有很好的應用前景和實用價 值,目前已經(jīng)成為嵌入式開發(fā)的一個重要的研究領域。 重慶郵電大學碩士論文 第 1 章 緒論 5 2 根據(jù)實際應用的范疇,可以分為說話人確認( 說話人辨認( 說話人確認指待識別的說話人語音只需同所申明的說話人模型進行匹配打分,最后由閾值來判定該測試語音是否通過,它的輸出只有“接受”和“拒絕”兩類,是一對一的問題;說話人辨認是指待識別的說話人語音同系統(tǒng)里所有說話人模型進行模型匹配打分,最后比較得分得出該語音是屬于哪一個說話人,是多選一的問題。 圖 別為說話人辨認和說話人確認系統(tǒng)框圖。 訓 練 語 音特 征 序 列前 端 處 理 模 型 訓 練 說 話 人 模 型測 試 語 音特 征 序 列前 端 處 理 模 型 匹 配識 別結(jié) 果圖 話人辨認系統(tǒng)框圖 由圖 示,說話人辨認系統(tǒng)是 指 對測試語音同模型庫里的所有說話人模型分別進行比較,最終選擇得分最高的作為識別結(jié)果。 訓 練 語 音特 征 序 列前 端 處 理 模 型 訓 練說 話 人 模 型 人 聲 稱 為 序 列前 端 處 理 模 型 匹 配 閾 值分 數(shù)驗 證 拒 絕否驗 證 通 過是圖 話人確認系統(tǒng)框圖 而圖 示,說話人確認系統(tǒng)則只是對測試語音同其所聲稱的說話人模型進比較,然后由閾值與得分進行比較得到識別結(jié)果。說話人辨認由于需要同各個模型進行逐個比對, 因此計算量要遠大于說話人確認。另外,說話人確認實現(xiàn)的是對說話人身份實現(xiàn)“接受”或者“拒絕”,安全性要高于說話人辨認,經(jīng)濟領域的應用也更廣泛。 基于以上兩個因素考慮,本文將著重對文本無關的說話人確認技術進行研究。 3 根據(jù)測試說話人身份的不同,可以分為開集( 說話人識別和閉集( 說話人識別。開集說話人識別要求測試的說話人集合沒有訓練集的限制;閉集說話人識別要求測試的說話人集合局限在訓練集內(nèi)的說話人內(nèi)。 重慶郵電大學碩士論文 第 1 章 緒論 6 根據(jù)說話人識別的不同應用范疇,對說話人識別系 統(tǒng)的評價標準也不一樣。說話人辨認系統(tǒng)常用于對一段未知的語音信息,需要在大量的參考說話人中挑選出這段語音信息是屬于參考說話人中的哪一個, 常用的應用領域 如刑事偵查中語音偵聽。對于說話人辨認系統(tǒng),其性能評價指標主要是正確識別率。即 (其中 正確識別的個數(shù), 總測試的個數(shù)。 說話人確認系統(tǒng)中,使用者會聲稱自己是某一名說話人,由系統(tǒng)來判斷其語音是否來 自 該聲稱的說話人,如身份認證、入境管理。對于 說 話人確認系統(tǒng) ,其性能 評價指標主要是 等錯誤率( 它包括兩個參數(shù):錯誤拒絕率 ( 以及錯誤接受率 ( 。稱為 型錯誤,它是將真實說話人誤認為仿冒說話人所造成的錯誤,而 型錯誤,它是把仿冒說話人誤認為是真實說話人所引起的錯誤。 常表示著兩類錯誤均衡時的值, 低表示系統(tǒng)的性能越好,在實際的應用場合,不僅需 要考慮 ,也需要考慮 情況,這是因為不同場合對系統(tǒng) 安全性要求 不盡相同 。 話人識別技術難點 雖然目前說話人識別技術已取得了不少的成果,但是要達到成熟穩(wěn)定的實際應用效果,仍有不少技術難點需待攻克 1718,主要表現(xiàn)為以下幾個方面: 1 說話人個性特征分離: 語音信號里面往往包括了說話人的身份信息和說話內(nèi)容信息,目前尚沒有很好的方法將這兩類信息從語音信號里進行分離。 2 特征參數(shù)的自適應:說話人的發(fā)音常常與環(huán)境、情緒、健康狀況等因素有關 。如何 使選取的 特征參數(shù) 具有自適性 , 目前尚沒有找到特別有效的辦法。 3 復雜環(huán)境下的識別:目前說話人識別系統(tǒng)對環(huán)境的依賴性較強,如何在復雜環(huán)境下增強系統(tǒng)的魯棒性也是說話人識別系統(tǒng)實用化前需要解決的一個技術難題。 目前的說話人識別系統(tǒng)大都是基于 的,但是隨著嵌入式時代的來臨,說話人識別系統(tǒng)從普通的 走向嵌入式平臺也是大勢所趨。 相對于 嵌入式說話人識別系統(tǒng)面臨著更大的機遇與挑戰(zhàn)。其面臨的技術難點主要表現(xiàn)為以下兩個方面: 1 有限運算存儲資源下的運 行效率。 嵌入式設備相對普通的 具有體積小,容易便攜的優(yōu)點,因此單純地從能重慶郵電大學碩士論文 第 1 章 緒論 7 耗上考慮,嵌入式設備是無法忍受過高的溫度,因而在嵌入式設備上使用高頻運算器并不合適,從而這也決定了其所具有的運算資源遠遠比不上普通的 器。說話人識別在實現(xiàn)中還包含了大量的復雜浮點運算,而目前大多的嵌入式設備都不具備浮點運算器。因此,嵌入式設備有限的運算存儲資源和說話人識別巨大而復雜的運算處理之間的矛盾,是當前說話人識別應用于嵌入式平臺的主要難點之一。 2 更為復雜環(huán)境下的識別。 嵌入式設備便攜的優(yōu)點 也決定了其所處的環(huán)境多變且復雜, 同時嵌入式設備上的說話人識別系統(tǒng)還面臨著跨信道、短語音、背景噪聲等等之類的影響,這些對說話人識別系統(tǒng)的精度影響也是不容忽視的。如何在復雜的嵌入式使用環(huán)境中增強系統(tǒng)的魯棒性也是如今說話人識別應用于嵌入式平臺的主要難點之一。 文 研究 工作 和 論文 結(jié)構(gòu) 究思路 和主要工作 目前,語音識別系統(tǒng)在嵌入式平臺中已得到了廣泛的應用 19,如手機語音撥號,能識別主人命令的智能玩具,聲控小車 20等,但是將說話人識別技術應用于嵌入式設備上的 應用 卻沒有如此之廣泛,目前對嵌入式說話人 識別 系統(tǒng)的研究大多集中在運算的優(yōu)化,如定浮點轉(zhuǎn) 化運算,模型搜索空間壓縮,復雜運算函數(shù)變形等,在算法層進行優(yōu)化的并不多 2122。 由于嵌入式說話人識別具有良好的市場前景,越來越多的研究者投身于這方面工作。目前嵌入式設備上實現(xiàn)的說話人識別系統(tǒng)大多是基于特定人的文本相關的簡單命令詞識別,實用性差和靈活性低等特點制約了其在實際應用中的推廣?;谝陨系囊蛩?,本文工作重點定位于對文本無關的嵌入式說話人識別系統(tǒng)進行研究。 在 上節(jié)中 提到,嵌入式說話人識別系統(tǒng)實現(xiàn)的兩大難點分別是: 1 嵌入式設備運 算 能力和存儲 資源有限同說話人識別系統(tǒng)復雜的運算之間的矛盾; 2 嵌入式設備使用環(huán)境不確定同說話人識別系統(tǒng)性能對環(huán)境依賴 性強 之間的矛盾。 為了使得文本無關的說話人識別系統(tǒng)在嵌入式設備上得以應用。 我們從兩個方面著手考慮: 1 提升 系統(tǒng) 的運行效率; 2 提升 系統(tǒng)魯棒性 。 在提升系統(tǒng)的運行效率方面可以從以下兩個方面來考慮:一是從嵌入式運行平臺的具體情況入手,對程序中用到的復雜運算進行優(yōu)化,降低單次運算的時間開銷;二是優(yōu)化程序算法結(jié)構(gòu),從根本上減少運算 量來達到速度提升的效果。但重慶郵電大學碩士論文 第 1 章 緒論 8 是,單純的對運算過程進行優(yōu)化往往意味著實現(xiàn)的簡單化和粗糙化,必將對運算的精度帶來損失,因而可能會對系統(tǒng)性能產(chǎn)生不利影響;而算法層面的改進,則有可能在加快運算速度的同時,也達到提升性能的效果。因此,本研究著重于優(yōu)化算法結(jié)構(gòu)來提升系統(tǒng)的運行效率。 在提升系統(tǒng)的魯棒性方面可以從以下兩個方面來考慮:一是 去除語音中包含的噪音;二是尋找不受跨信道、背景噪聲等因素影響的高層特征 ,將高層特征同低層特征進行結(jié)合來增強系統(tǒng)性能 。 但是對語音去噪本是一個很復雜的課題, 而第二種方式相對簡單,因此本研究著重對 第二種方式進行研究與實現(xiàn)。 首先,漢語是一種聲調(diào)語言,而聲調(diào)在很大程度上反應了說話人的一種發(fā)音習慣,因此如果能夠利用聲調(diào)或者相關方面的特征進行辨識,就可以進一步提升系統(tǒng)的性能。 此外,說話人識別系統(tǒng)傳統(tǒng)的做法多數(shù)是基于單一特征的辨識方法,如果我們可以結(jié)合不同種類的特征,如音段特征和超音段特征,則可以起到互相補充的作用

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論