【畢業(yè)學位論文】基于GFCC特征的噪聲環(huán)境下嵌入式語音識別技術(shù)研究-計算機科學與技術(shù)系_第1頁
【畢業(yè)學位論文】基于GFCC特征的噪聲環(huán)境下嵌入式語音識別技術(shù)研究-計算機科學與技術(shù)系_第2頁
【畢業(yè)學位論文】基于GFCC特征的噪聲環(huán)境下嵌入式語音識別技術(shù)研究-計算機科學與技術(shù)系_第3頁
【畢業(yè)學位論文】基于GFCC特征的噪聲環(huán)境下嵌入式語音識別技術(shù)研究-計算機科學與技術(shù)系_第4頁
【畢業(yè)學位論文】基于GFCC特征的噪聲環(huán)境下嵌入式語音識別技術(shù)研究-計算機科學與技術(shù)系_第5頁
已閱讀5頁,還剩67頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

重慶郵電大學碩士論文 摘 要 I 摘 要 目前,自動 語音識別技術(shù)已經(jīng)進入了一個由實驗室到實用化的高速發(fā)展時期,基于云 計算 技術(shù)的語音識別系統(tǒng)也在嵌入式平臺上 得到了較好的應用 。然而,大多數(shù)實際環(huán)境并不能滿足基于云的系統(tǒng)要求,如何構(gòu)建一個基于嵌入式平臺的語音識別系統(tǒng)仍是當前 語音識別技術(shù) 研究的 主要方向 之一 。 考慮 到 嵌入式平臺和 性能上的差距, 以及 不同的語音 識別系統(tǒng)對實際噪聲環(huán)境的適應要求,本文 針對嵌入式平臺語音識別系統(tǒng)的構(gòu)建需要,主要 從以下 幾個 方面 展開研究工作 : 第一,廣泛了解和分析了語音識別技術(shù)的發(fā)展過程 、技術(shù)難點, 提出了在特征的噪聲魯棒性和更快速的解碼網(wǎng)絡(luò)上展開研究工作。 第二, 對如何構(gòu)建一個完整的語音識別系統(tǒng)進行分析,對比在語音識別過程中不同層次的主要技術(shù)和方法,分析選擇最適合當前目的的技術(shù) ,并分別從信號層、特征層和模型層研究了語音識別的噪聲魯棒性和語音增強的技術(shù)及方法。 第 三 , 用基于時域的 征替代傳統(tǒng)的頻域上的 征。 這兩種特征都是基于人類聽覺感知系統(tǒng)的特征,而用時域分析取代頻域分析,用離散余弦變換( 代快速傅里葉變換( 大大減少了計算量;在同一嵌入式設(shè)備上,采用 征的識別任務(wù)的實時性更高,速度因此也更快。 同時,實驗表明,基于時域 波的 征在大多數(shù)噪音環(huán)境下,比 有更強的魯棒性。 第 四 ,構(gòu)建了基于 加權(quán) 有限狀態(tài)轉(zhuǎn)換的解碼圖來完成對識別的解碼操作。 將加權(quán)有限狀態(tài)機理論引入語音識別,用加權(quán)有限狀態(tài)轉(zhuǎn)換器構(gòu)建詞圖 ,通過對模型的平滑和壓縮處理,對詞圖的剪枝操作,更夠壓縮整個系統(tǒng)的大小,并保證識別性能維持在一個較高的水平,解碼速度也能 相應 的提高。 關(guān)鍵詞: 語音識別; 棒性;加權(quán)有限狀態(tài) 轉(zhuǎn)換器 重慶郵電大學碩士論文 I ow of a of to a of in of of so it is of to a on of C, as as to of a of a on is of of in of to a in of of we on by of on we by of ; at in on is in we on to we a By we to of to 慶郵電大學碩士論文 II at a be a 慶郵電大學碩士論文 目 錄 錄 摘 要 I 錄 1 章 緒論 1 音識別技術(shù)研究現(xiàn)狀 1 音識別系統(tǒng)類型 2 音識別技術(shù)的難點 3 題背景及意義 4 文結(jié)構(gòu)安排 5 第 2 章 語音識別技術(shù)與噪聲魯棒性技術(shù)研究 6 音識別系統(tǒng)框架 6 集和預處理 7 樣和量化 7 加重、分幀和加窗 7 音信號分析方法 9 音信號時域分析方法 9 音信號頻域分析方法 10 他分析方法 11 學特征選擇 12 性預測倒譜系數(shù) 12 率倒譜系數(shù) 13 它特征選擇和處理方法 14 學模型 15 馬爾可夫模型 15 本思想 15 型 16 練 17 碼 18 法的實現(xiàn)問題 21 言模型 21 聲魯棒性技術(shù) 22 重慶郵電大學碩士論文 目 錄 V 聲與信噪比 23 號空間噪聲魯棒技術(shù) 23 征空間噪聲魯棒技術(shù) 24 型空間噪聲魯棒技術(shù) 24 結(jié) 26 第 3 章 基于時域 波的 征 28 效矩形帶寬 28 域 波 28 波器組 28 寬和中心頻率 29 域分析 30 征提取 31 章小結(jié) 32 第 4 章 基于 語音識別解碼方法 33 權(quán)有限狀態(tài)機定義 33 權(quán)有限狀態(tài)接收器 34 權(quán)有限狀態(tài)轉(zhuǎn)換器 35 權(quán)轉(zhuǎn)換器處理 36 合( 36 定化( 38 小化( 39 識源的 示 40 言模型( G) 41 音詞典( L) 41 下文相關(guān)音素模型( C) 42 學模型( H) 43 優(yōu)化 43 定化 44 小化 44 章小節(jié) 45 第 5 章 系統(tǒng)設(shè)計和實驗結(jié)果 46 音數(shù)據(jù)庫 46 聲分析 46 驗設(shè)置 49 重慶郵電大學碩士論文 目 錄 聲學模型訓練 49 言模型訓練 49 建解碼圖 50 征提取 52 驗結(jié)果 52 凈語音對比實驗 52 噪語音對比實驗 53 同頻段抗噪對比實驗 55 第 6 章 總結(jié)與展望 59 作總結(jié) 59 來展望 59 致 謝 61 碩士期間從事的科研工作 62 參考文獻 63 重慶郵電大學碩士論文 第 1 章 緒論 1 第 1章 緒論 在文字產(chǎn)生之前,人類已經(jīng)開始用語音來進行交流,即使在文明高度發(fā)達的今天,語音交流仍然是人類交流最主要的模式。從計算機的發(fā)明開始,人們就憧憬著有一天能夠?qū)崿F(xiàn)人 與機器的語音信號交流,而不滿足于傳統(tǒng)的鼠標、鍵盤的輸入,因而語音識別技術(shù)的研究應運而生。 語音識別是一門交叉學科,它涵蓋了包括信號處理、模式識別、人工智能、生理學、概率統(tǒng)計和隨機過程等等在內(nèi)的大量研究領(lǐng)域。 近二十年來,在語音識別技術(shù)領(lǐng)域取得了大量的成果,語音識別技術(shù)開始從實驗室走向商業(yè)應用。未來十年,語音識別技術(shù)將大量應用于家電、工業(yè)生產(chǎn)、通信服務(wù)、汽車電子、消費電子產(chǎn)品、醫(yī)療等各個領(lǐng)域,語音識別技術(shù)的應用已經(jīng)成為一個具有高競爭性的高新技術(shù)產(chǎn)業(yè)。 1 語音識別的研究最早開始于 1952 年, 貝爾實驗室的的 人把語音信號的第一、第二共振峰作為特征參數(shù),實現(xiàn)了第一個可以識別十個英文數(shù)字的語音識別系統(tǒng) 。 20 世紀 50 年代末 60 年代初,隨著數(shù)字集成電路的出現(xiàn) ,語音數(shù)字信號處理也因此產(chǎn)生,這是計算機語音識別技術(shù)的開端。 快速傅里葉變換( 頻譜分析中 得到 廣泛應用,人們借此開始研究語音信號的內(nèi)部本質(zhì)。 進入 70 年代后 , 美國國防部高級研究計劃署提出了語音理解研究計劃并推動了該計劃的展開, 吸引了眾多的 工業(yè)界和學術(shù)界的研究機構(gòu),為語音識別領(lǐng)域注入了更多的新鮮血液,這全面推動了語音識別技術(shù)的發(fā)展。 人首次系統(tǒng)闡述了隱馬爾可夫模型( 并將其引入語音識別領(lǐng)域。至今為止, 法仍是語音識別領(lǐng)域最好的算法之一。在這一時期,線性預測參數(shù)( 3被提出并與動態(tài)時間規(guī)整( 4技術(shù) 和模式識別 5方法 一起,實現(xiàn)了特定人孤立詞語音識別系統(tǒng)。 80 年 代,實驗室語音識別技術(shù)的研究取得巨大突破 ,研究重點也由孤立詞向連續(xù)語音識別發(fā)展 。貝爾實驗室 6,使得基于 統(tǒng)計 概率模型的 方法開始在語音識別領(lǐng)域得到廣泛應用。 1988 年 用 現(xiàn)的 統(tǒng) 7,是第一個高性能的非特定人連續(xù)語音識別系統(tǒng)。 20 世紀 90 年代, 隨著各種規(guī)模的著名語音識別任務(wù)的發(fā)布和標準數(shù)據(jù)庫的建立, 各個研究機構(gòu)的識別技術(shù)有了一個客觀比較的平臺。 在對這些標準數(shù)據(jù)庫的測重慶郵電大學碩士論文 第 1 章 緒論 2 試比對取得較好的基礎(chǔ)上, 等都將語 音識別技術(shù)推入了商用領(lǐng)域。其中 司推出的 統(tǒng),是具有代表性的漢語大詞匯連續(xù)語音識別系統(tǒng),該技術(shù)應用于聽寫機、電話網(wǎng)和語音信息查詢服務(wù)系統(tǒng)等領(lǐng)域。 而劍橋大學推出的 具包 8,也使得研究語音識別的門檻大大降低,大量研究機構(gòu)的加入掀起了語音識別領(lǐng)域研究的又一波高潮。 進入 21 世紀后,語音識別技術(shù)已經(jīng)廣泛應用于商業(yè)用途。 在半導體技術(shù)飛速發(fā)展的前提下, 嵌入式技術(shù) 也得到了 顯著 的 發(fā)展,語音識別不再局限于計算機平臺,開始大量進入移動設(shè)備領(lǐng)域。 從早期的單片機,到后來的 專用語音識別 芯片的出現(xiàn),都為嵌入式語音識別技術(shù)的研究和發(fā)展提供了平臺;而現(xiàn)在,在小型化、高性能的微處理器的普及和 云計算服務(wù) 、 無線通信技術(shù)的支持下,手機平臺的語音識別應用已經(jīng)得到普及, 基于本地語音識別和云計算服務(wù)的 應用 方式開始推廣, 這其中最成功的例子就是 司的 統(tǒng)。而隨著圖形處理器( 能的提高和在某些領(lǐng)域?qū)?shù)字信號處理器( 替代,基于深度學習( 深度神經(jīng)網(wǎng)絡(luò)( 9也成為當前語音識別最前沿的研究方向之一。 回顧語音識別發(fā)展的幾十年, 可以用“日新月異”來形容:從最初的音素識別到當前的大詞匯連續(xù)語音識別, 各種新技術(shù)不斷涌現(xiàn), 識別性能不斷提升, 應用范圍不斷擴展 。 但是我們也要清楚的認識到,當前的語音識別技術(shù)和我們想象中的還有 一定距離, 如何真正實現(xiàn)人與機器之間暢通無比的語言交流 , 推動語音識別技術(shù)的全面實用化,將是我們需要面對的困難和研究的方向。 根據(jù)對說話人說話方式的要求,語音識別系統(tǒng)可以分為 3 大類:孤 立字(詞)識別,關(guān)鍵詞檢出以及連續(xù)語音識別系統(tǒng)。孤立字(詞)的識別對象為一個字、詞或者是一個短語,對每一個對象都訓練出一個模型,并組成詞匯表,如 “一 ”、 “二 ”、“開門 ”等等;關(guān)鍵詞檢出的識別對象為連續(xù)的語音信號,但只對該信號中的某一段或幾段信號進行識別;連續(xù)語音識別則是對任意的一句話或一段話進行識別。 根據(jù)對說話人的依賴程度,語音識別系統(tǒng)可以分為特定人和非特定人語音識別系統(tǒng)。其中,特定人語音識別的訓練模型只針對于某一個人,當其他人使用該系統(tǒng)時,需要對這個人重新訓練模型才能完成識別任務(wù),這種系統(tǒng)可以應用在某些 對安全性要求較高的領(lǐng)域。非特定人語音識別則適用于某一范疇的說話人的識別任務(wù),如英文、中文、方言等等,通過對該范疇內(nèi)的多個說話人的語音訓練出模型,識別對象包括訓練模型說話人在內(nèi)的該范疇的所有說話人。相對于特定人識別系統(tǒng),非重慶郵電大學碩士論文 第 1 章 緒論 3 特定人識別系統(tǒng)更能夠滿足實際應用的需要,但其需要的訓練時間更長、訓練資源更多、識別起來也更加的困難。 根據(jù)識別詞匯量的大小,語音識別系統(tǒng)又可以分為小詞匯量、中詞匯量、大詞匯量以及無限詞匯量語音識別系統(tǒng)。 此外,根據(jù)語音設(shè)備和通道的不同,語音識別系統(tǒng)還可以分為桌面( 音識別、電話語音識別 和嵌入式設(shè)備(手機、平板、 )語音識別。 雖然根據(jù)分類準備的不同而有各種不同類型的語音識別系統(tǒng),但是其在基本原理和技術(shù)上是相似的。一個簡單的語音識別系統(tǒng)原理圖如圖 1 所示。 圖 1 語音識別基本原理圖 語音識別的最終 目的 是讓機器能聽懂人的語言,真正的實現(xiàn)人機對話。而這卻又是十分的困難,主要原因是: 環(huán)境依賴性強,要求測試條件和訓練條件保持一致,否則系統(tǒng)性能會大大下降; 別是在車載條件下,人的發(fā)音變化大,像發(fā)音失真、發(fā)音速 度和音調(diào)的改變等等,即所謂的 應; 使在安靜的環(huán)境下,語音識別系統(tǒng)一半以上的識別錯誤來自錯誤的端點檢測; 得漢語的語言信息處理更為困難和復雜。包括漢語的字詞不分、同音字詞、語義的表述等等; 存在著大量的問題,比如識別速度、拒識問題和關(guān)鍵字(詞)檢測技術(shù)等等。 當前語音識別技術(shù)的應用可以分為兩個發(fā)展方向:一個方向是大詞匯量連續(xù)語音識別系統(tǒng),其平臺為計算機,主要應用于聽寫機以及與電話、網(wǎng)絡(luò)結(jié)合的語音 查詢服務(wù);另一個重要的發(fā)展方向是在小型化、便攜式設(shè)備上的應用,如手機、平板電腦、汽車電子設(shè)備、智能家電和玩具等等,這些都通過專門的硬件系統(tǒng)實現(xiàn)。以預處理 特征提取 模式匹配模板庫語音信號訓練識別 識別結(jié)果重慶郵電大學碩士論文 第 1 章 緒論 4 計算機為平臺的語音識別系統(tǒng)計算性能高,存儲空間大,工作環(huán)境相對安靜,系統(tǒng)的識別性能很高,而在這些方面,基于嵌入式設(shè)備的語音識別系統(tǒng)則面臨著更大的困難: 動設(shè)備對識別任務(wù)的實時性要求更高,在相對計算資源受限的情況下,要求計算量小、計算速度快的處理方法。 使當前的移動存儲技術(shù)更先進,但相對 說,嵌入式設(shè)備的存儲資源仍較小,這就需要訓練 模型占用的空間更少。 入式語音識別的應用環(huán)境五花八門,需要有很強的語音增強技術(shù),能夠減少噪音對識別性能的干擾。 音識別系統(tǒng)要讓用戶感覺到是在跟人對話,這就需要系統(tǒng)允許用戶以各種自然句式發(fā)布命令,這樣就要采用有限狀態(tài)語法網(wǎng)絡(luò)、對話管理、統(tǒng)計語言模型和關(guān)鍵詞檢出等技術(shù),來滿足用戶的自然對話需求。 括自動適應用戶的口音和說話習慣。這要求對聲學模型和語言模型有自適應技術(shù),要求優(yōu)化模型的架構(gòu)和管理程序以滿足嵌入式系統(tǒng)的需要。 近年來,以手機 等 為 代表 、基于可 移動 嵌入式設(shè)備的 語音識別技術(shù) 的研究 已經(jīng)成為一個熱點 ,并且以本地語音識別為主、輔以云計算服務(wù)的語音識別方式也進 入了市場化階段;而然,由于各種應用環(huán)境中噪聲的影響、無線通信網(wǎng)絡(luò)的限制 ,如何在性能有限的嵌入式設(shè)備上構(gòu)建一個本地的、噪聲魯棒的、高效的語音識別系統(tǒng)仍是當前研究的重中之重。 在前人對語音識別中噪聲魯棒性技術(shù)的研究基礎(chǔ)上,本文從語音特征的角度出發(fā),選取用基于 波的 征作 為語音識別中的特征。 實驗證明,與傳統(tǒng)的 征相比,模擬人類聽覺感知系統(tǒng)設(shè)計的 征對噪聲 有更強的區(qū)分性,在靜音和多種帶噪語音的環(huán)境中, 有高于 識別性能;而在時域上的 征提取與頻域上的 取方式相比,計算量更小,能夠節(jié)省設(shè)備資源,更適合于嵌入式語音識別的任務(wù)要求。 在 研究者對加權(quán)有限狀態(tài)轉(zhuǎn)換器( 先期研究工作的鋪墊下, 目前主流的大詞匯量非特定人連續(xù)語音識別系統(tǒng)均采用 架。 在該理論框架下, 語音識別中各層次的模型和知識被轉(zhuǎn)換成 形式,并通過加權(quán)有限狀態(tài)機理論中的組合 操作,將模型和知識整合成完成的解碼網(wǎng)絡(luò);而最小化操作又能去除冗余,最大程度的壓縮網(wǎng)絡(luò)的規(guī)模。 在加重慶郵電大學碩士論文 第 1 章 緒論 5 權(quán)有限狀態(tài)機的理論和操作下,我們可以得到一個完整的、高效的、單階段的 而通過將其它知識表達成 組合到解碼網(wǎng)絡(luò)中的操作,可以 解決 特定的問題或提高整個系統(tǒng)的識別性能。 國外研究結(jié)果表明, 與傳統(tǒng)的兩階段識別系統(tǒng)( 2比,在優(yōu)化后的靜態(tài)網(wǎng)絡(luò)上的單階段識別系統(tǒng)( 1具有競爭力。 綜上,本文中構(gòu)建了一個以 語音識別特征、以 理論基礎(chǔ)的語音識別系統(tǒng),實 驗測試了該系統(tǒng)在噪聲環(huán)境下的性能,并對其在嵌入式設(shè)備上的移植和應用做出分析和總結(jié)。 本論文主要內(nèi)容安排如下: 第 1 章為緒論,主要介紹了語言識別技術(shù)的發(fā)展情況、語音識別系統(tǒng)的分類和當前語音識別技術(shù)的難點,特別是在當前語音識別技術(shù)向嵌入式系統(tǒng)移植的趨勢下的研究方向。 第 2 章介紹了語音識別過程中各處理環(huán)節(jié)的一些主流技術(shù)方法,包括對語音信號的前端處理、語音信號的特征處理方法、聲學模型和語言模型的訓練與優(yōu)化處理等等 ,著重介紹了在本文中所采用的方法并和其它方法作比較分析 。 第 3 章詳細闡述了 波器組的濾波原理,以及基于 波的 征的時域提取方法。 第 4 章介紹了加權(quán)有限狀態(tài)機理論以及加權(quán)有限狀態(tài)轉(zhuǎn)換器在語音識別任務(wù)中的應用和處理方法,并描述了在 具包下用加權(quán)有限狀態(tài)轉(zhuǎn)換器構(gòu)建一個完整的語音識別解碼圖 和對本文中所采用的各層次知識源的組合優(yōu)化操作 。 第 5 章是實驗設(shè)計和結(jié)果分析,設(shè)計在 境下的一個完整的語音識別解碼過程,對 噪聲語音環(huán)境下的識別性能進行對比,研究 第 6 章是總結(jié)和展望,對論文的研究 工作和結(jié)論進 行總結(jié),點明優(yōu)勢,指出不足,并提出下一步的研究 和 工作 方向 。 重慶郵電大學碩士論文 第 2 章 語音識別技術(shù)與噪聲魯棒性技術(shù)研究 6 第 2章 語音識別 技術(shù) 與噪聲魯棒性技術(shù) 研究 語音識別是一門新興學科,它在發(fā)展的過程中不斷借鑒和融入其它學科的理論和方法,形成了一門涵蓋數(shù)字信號處理、聲學、生理學 、語言學、模式識別、通信理論、計算機科學等多門學科的綜合性學科。而在語音識別領(lǐng)域,研究者 針 對不同的側(cè)重點也進行了一系列研究; 提高語音識別系統(tǒng) 在噪音環(huán)境下 的識別性能, 增強語音識別系統(tǒng)的噪聲魯棒性,也是語音識別技術(shù) 中 一個重要 的 研究方向。 在本章中, 主要介紹了從前端處理、特征提取到識別 的整個語音識別系統(tǒng)的理論和方法;并針對大詞匯量連續(xù)語音識別任務(wù),著重介紹了本文所構(gòu)建系統(tǒng)中采用的技術(shù),及與其它技術(shù)和方法的分析比較。 對于不同的識別任務(wù),語音識別系統(tǒng)會不同,但基本技術(shù)和處理流程大致上是相同的。一個典型的語音識別系統(tǒng)框架如圖 示。 圖 語音識別系統(tǒng)框架 語音信號通過麥克風采集,經(jīng)過采樣和 A/D 轉(zhuǎn)換后由模擬信號轉(zhuǎn)變?yōu)閿?shù)字信號。然后對語音的數(shù)字信號進行預加重,分幀,加窗,端點檢測和濾波等處理。 預處理過后的語音信號將按照特定的特 征提取方法提取出最能夠表現(xiàn)這段語采 樣A / D 轉(zhuǎn) 換預 處 理 特 征 提 取 特 征 處 理解 碼聲 學模 型語 言模 型訓 練語 音 數(shù) 據(jù)庫語 言 數(shù) 據(jù)庫語 音 、 語 言 學 知 識數(shù) 據(jù) 挖 掘 技 術(shù)信 號 處 理 技 術(shù)統(tǒng) 計 建 模 方 法預 濾 波增 益編 碼. . 重分 幀 、 加 窗端 點 檢 測噪 聲 濾 波. . C C C C. . 補 償特 征 歸 一 化動 態(tài) 特 征. . 距 離馬 氏 距 離最 大 似 然 準 則. . 信 號 識 別 結(jié) 果前 端后 端重慶郵電大學碩士論文 第 2 章 語音識別技術(shù)與噪聲魯棒性技術(shù)研究 7 音信號特征的參數(shù),這些特征參數(shù)按時間序列構(gòu)成了這段語音信號的特征序列。 在訓練過程中,獲得的特征參數(shù)通過不同的訓練方法獲得模型,而后存入模板庫;在解碼過程中,新采集的語音信號經(jīng)過處理獲得特征參數(shù)后,與模板庫中的模型進行模式匹配,并結(jié)合一些專家知識得出識別結(jié)果。 在語音信號的采集過程中,麥克風將聲音從物理狀態(tài)轉(zhuǎn)化為模擬的電信號,我們需要把連續(xù)的模擬信號轉(zhuǎn)化為時間上離散、但幅值上仍連續(xù)的離散模擬信號,這一過程就是采樣。在采樣過程中,根據(jù) 采樣定理,采樣頻率 必須是聲音最高頻率的 2 倍以上。采樣頻率越高,數(shù)字化后的聲波的保真度就越高,但相應的信息的存儲量就越大。人耳所能接收到的聲音頻率范圍約為 200常在 上的采樣頻率為 16入式設(shè)備上為 8 為了便于計算機計算、傳輸和存儲,采樣后的信號還要轉(zhuǎn)化為能夠用二進制表示的離散值,這一過程就稱為 A/D 轉(zhuǎn)換。為了確保系統(tǒng)處理結(jié)果的精確度,我們必須保證 A/D 轉(zhuǎn)換具有足夠的轉(zhuǎn)換精度。通常采用的方法是均勻量化和脈沖編碼調(diào)制( 當前語音識別中常用 16化。 幀和加窗 對語音信號進行采樣處理后,還要進行一些預加重。由于受到口鼻輻射和聲門激勵的影響,語音信號的高頻部分在 800上會有 頻程的跌落,因此預加重的目的就是提升語音信號的高頻部分,使頻譜平滑。一般預加重通過一個一階高通濾波器實現(xiàn),其表達形式為: ( 其中 u 值接近于 1,典型取值范圍為 數(shù)字化的語音信號是一個不平穩(wěn)的時變信號 ,為了便于分析,通常假設(shè)語音信號在 100是短時平穩(wěn)的,我們所有的分析工作都是在這個假設(shè)基礎(chǔ)上進行的。因此,在對語音信號進行分析前,需要對其進行分幀,通常將語音信號的每幀長度設(shè)為 20鄰兩幀之間有 10重疊。 為了實現(xiàn)分幀步驟,我們要對語音信號進行加窗操作。不同的窗口選擇對語音信號分析的結(jié)果會產(chǎn)生影響。最簡單的窗函數(shù)為矩形窗,即 ( 其他, ,0 1 11 第 2 章 語音識別技術(shù)與噪聲魯棒性技術(shù)研究 8 其中 N 為幀長。通常我們選擇的窗函數(shù)為漢明窗( 其定義為: ( ( a) 漢明窗 ( b)矩形窗 圖 函數(shù)波形 選擇漢明窗能夠減小幀起始和結(jié)束處信號的不連續(xù)性,避免采用矩形窗帶來的象,因此在本文的特征提取中,均采用漢明窗。 其他,010,12c o nN 重慶郵電大學碩士論文 第 2 章 語音識別技術(shù)與噪聲魯棒性技術(shù)研究 9 在信號分析時,最自然最直接的方法就是以時間作為要分析函數(shù)的自變量。典型語音信號特征是隨時間變化的,本節(jié)簡單介紹了語音信號基于短時分析的幾種時域分析方法。 時 過零率 短時能量分析對語音信號能量的時間變化趨勢有一個合理的描述。對信號 ( 其中, 窗函數(shù) , , 為從第 n 個點開始的短時能量。 短時能量在對語音信號的分析中的作用:首先能夠區(qū)分清音和濁音,因為通常情況下濁音比清音具有明顯更大的能量;其次能夠用來進行端點檢測,區(qū)分靜音段和聲音段,或者用來判定聲、韻母或連字的分界。 由于對信號的平方運算 人為增加了高頻信號和低頻信號的差距,因此在某些場合可能會造成更大的誤差。為了解決這個問題,最簡單的方法是用短時平均幅值的變化來表示能量的變化。 短時平均過零率( 指短時間內(nèi)信號通過零值的次數(shù),具體于連續(xù)信號即其波形通過 x 軸的次數(shù),離散信號即采樣符號變化的次數(shù)。對于第 n 幀語音信號,其過零率為 ( 其中 符號函數(shù),即 ( 短時過零率在一定程度上能夠反映頻率的高低,濁音的過零 率較低,清音的過零率相對較高,因此可以用來初步分析清、濁音。短時過零率容易受到低頻的干擾,通常我們在處理中還會加入門限值,即將波形穿過零點的次數(shù)改為越過門限值的次數(shù),以此來增強抗干擾能力。 在語音信號處理中,常將短時平均能量和短時平均過零率結(jié)合起來進行語音段起始點的檢測,即端點檢測。當背景噪聲較小時,用短時平均能

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論