人工智能技術(shù) 課件 18語音標(biāo)注規(guī)范、19語音識(shí)別過程_第1頁
人工智能技術(shù) 課件 18語音標(biāo)注規(guī)范、19語音識(shí)別過程_第2頁
人工智能技術(shù) 課件 18語音標(biāo)注規(guī)范、19語音識(shí)別過程_第3頁
人工智能技術(shù) 課件 18語音標(biāo)注規(guī)范、19語音識(shí)別過程_第4頁
人工智能技術(shù) 課件 18語音標(biāo)注規(guī)范、19語音識(shí)別過程_第5頁
已閱讀5頁,還剩62頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

注標(biāo)音語規(guī)范目錄語音標(biāo)注概述語音標(biāo)注規(guī)范語音標(biāo)注管理content010203語音標(biāo)注質(zhì)量檢驗(yàn)04語音標(biāo)注概述01語音標(biāo)注概述(1)語音標(biāo)注語音標(biāo)注與我們生活的眾多方面都是息息相關(guān)的。比如,我們?cè)谑褂梦⑿艜r(shí),語音可以轉(zhuǎn)換成文字,在使用百度地圖APP上小麥克風(fēng)功能,或者京東客服里的直接說出問題,JIMI對(duì)應(yīng)解決等功能。這些都需要前期大量的人工去標(biāo)記這些“說出的話”所對(duì)應(yīng)的“文字”,采用人工的方式一點(diǎn)點(diǎn)去修正語音和文字間的誤差。這就是語音標(biāo)注。語音標(biāo)注概述(1)語音標(biāo)注隱馬爾科夫模型(HMM)統(tǒng)計(jì)模型,它用來描述一個(gè)含有隱含未知參數(shù)的馬爾可夫過程(隨機(jī)過程)。其難點(diǎn)是從可觀察的參數(shù)中確定該過程的隱含參數(shù)。然后利用這些參數(shù)來作進(jìn)一步的分析,例如語音識(shí)別、輸入法。條件隨機(jī)場(CRF)是一種鑒別式幾率模型,是隨機(jī)場的一種,常用于標(biāo)注或分析序列資料,如自然語言文字或是生物序列。語音標(biāo)注概述(2)語音標(biāo)注分類1、語義快判聽一段語音,判斷語音的意思,有點(diǎn)像選擇題,做起來也比較快。2、語音轉(zhuǎn)寫語音轉(zhuǎn)寫屬于最常見的一種語音標(biāo)注了,標(biāo)注人員需要聽一段語音然后將聽到的語音轉(zhuǎn)寫出來。根據(jù)語種可以分為中文,外文,方言等。根據(jù)時(shí)長可以分為段語音和長語音一般一分鐘以下(通常為三秒左右)的語音為短語音,其中語音的長短,聲音質(zhì)量,有無預(yù)打標(biāo)結(jié)果,是否需要切割等因素都會(huì)較大的影響語音轉(zhuǎn)寫的難度。3、語音合成語音合成,又稱文語轉(zhuǎn)換(TexttoSpeech)技術(shù),能將任意文字信息實(shí)時(shí)轉(zhuǎn)化為標(biāo)準(zhǔn)流暢的語音朗讀出來,相當(dāng)于給機(jī)器裝上了人工嘴巴。語音標(biāo)注概述(3)語音標(biāo)注工具與平臺(tái)語音標(biāo)注工具——PraatPraat是目前已經(jīng)成為比較流行也比較專業(yè)的語音處理的軟件,可以進(jìn)行語音數(shù)據(jù)標(biāo)注、語音錄制、語音合成、語音分析等等,具有免費(fèi)、占用空間小、通用性強(qiáng)、可移植性好等特點(diǎn)語音標(biāo)注概述(3)語音標(biāo)注工具與平臺(tái)語音數(shù)據(jù)標(biāo)注平臺(tái)——京東眾智京東眾智的工具是單獨(dú)開發(fā)的(好開發(fā)和復(fù)用的)操作方面簡單很多,標(biāo)注人員全部是在線上作答,也避免了數(shù)據(jù)外泄問題。語音標(biāo)注規(guī)范02語音標(biāo)注規(guī)范針對(duì)給定的語音片段,人工判斷其是否為有效語音,對(duì)于有效語音,給出其中語音的起止時(shí)間段、標(biāo)準(zhǔn)的文本標(biāo)注以及語音本身的相關(guān)屬性,對(duì)于無效語音直接拋棄。語音標(biāo)注規(guī)范:確定是否有效語音確定語音的噪聲情況確定說話人數(shù)量確定說話人性別確定是否包含口音語音內(nèi)容方面語音標(biāo)注規(guī)范1、有效語音判斷標(biāo)準(zhǔn)單個(gè)發(fā)音人的清晰普通話語音是標(biāo)注中需要處理的有效語音;對(duì)于帶有一定口音,導(dǎo)致發(fā)音不標(biāo)準(zhǔn)的普通話以及由于發(fā)音習(xí)慣,導(dǎo)致個(gè)別發(fā)音改變的普通話,都屬于有效語音;對(duì)于背景存在噪聲,但不影響說話內(nèi)容辨識(shí)的語音,也屬于有效語音;其它情況的語音都屬于無效語音,直接拋棄,無需進(jìn)行任何標(biāo)注,典型的無效語音有:1.音頻中無人說話,只有背景噪聲或音樂等。2.音頻背景噪聲過大,影響說話內(nèi)容辨識(shí)。3.語音不是普通話發(fā)音,如廣東話、唱歌、其它語言(普通話中夾雜少量英語情況除外)等。4.語音音量過小或發(fā)音模糊,無法確定語音內(nèi)容。5.語音只有嗯啊呃的語氣詞,無意義的無效。例如,音頻中只有1-2個(gè)字:對(duì)、是,這種無效。但是很明確的搜索的詞語或者有意義的是有效。例如:新浪、你好。語音標(biāo)注規(guī)范:語音標(biāo)注規(guī)范2、時(shí)間標(biāo)注規(guī)范對(duì)每個(gè)有效的音頻文件,都需要標(biāo)注語音的起始和終止時(shí)間點(diǎn),語音的文本標(biāo)注內(nèi)容需要與語音起止時(shí)間段內(nèi)的數(shù)據(jù)完全對(duì)應(yīng)。默認(rèn)情況下,以整個(gè)音頻文件的起止點(diǎn)作為有效語音的起止點(diǎn),但遇到以下情況時(shí),需要進(jìn)行人工修改:1.有效語音的開頭/結(jié)尾處出現(xiàn)了較長時(shí)間(超過0.5秒)的靜音,則需要手工調(diào)整語音的起止時(shí)間,將時(shí)間標(biāo)注點(diǎn)后移/前移,在有效語音開始前/結(jié)束后保留約500毫秒靜音段即可。2.對(duì)于音頻中有部分內(nèi)容聽不懂的情況,可以直接放棄,也可以人工選擇一段可以聽懂的部分,標(biāo)記其起始和終止時(shí)間點(diǎn),并在文本標(biāo)注中給出對(duì)應(yīng)的文本信息。(注:標(biāo)注的時(shí)間段與標(biāo)注的文本信息需要嚴(yán)格的一一對(duì)應(yīng),嚴(yán)禁文本中出現(xiàn)與標(biāo)記時(shí)間段內(nèi)語音信息不匹配的標(biāo)注)3.對(duì)于音頻中從始至終伴隨有噪音的情況,需要人工確定有效語音的起止位置,并在音頻屬性中標(biāo)注背景帶噪,有效語音開始前和結(jié)束后的背景噪聲需要被排除在語音起止時(shí)間之外。語音標(biāo)注規(guī)范3、文本轉(zhuǎn)寫規(guī)范1.文本轉(zhuǎn)寫結(jié)果以漢字表示,對(duì)于常用詞語要保證漢字正確,對(duì)于不確定的字(如人名中的漢字)可以采用常見的同音字表示,如李山/李珊。2.轉(zhuǎn)寫內(nèi)容需要與實(shí)際發(fā)音內(nèi)容完全一致,不允許出現(xiàn)修改與刪減,即使發(fā)音中出現(xiàn)了重復(fù)或者明顯的不通順,也要根據(jù)發(fā)音內(nèi)容給出準(zhǔn)確的對(duì)應(yīng)文本;但是對(duì)于因?yàn)榭谝艋騻€(gè)人習(xí)慣造成的某些漢字發(fā)音改變,則需要按照原內(nèi)容轉(zhuǎn)寫。3.遇到網(wǎng)絡(luò)用語,如實(shí)際發(fā)音為“灰?!薄昂⒓垺薄巴?,則應(yīng)該根據(jù)其發(fā)音標(biāo)注為”“灰?!薄昂⒓?“童鞋‘。4.遇到數(shù)字,根據(jù)數(shù)字具體的讀法標(biāo)注為漢字形式,不能出現(xiàn)阿拉伯?dāng)?shù)字形式的標(biāo)注。5.根據(jù)文本內(nèi)容結(jié)合發(fā)音,校對(duì)拼音行。語音標(biāo)注規(guī)范4、噪音標(biāo)注規(guī)范語音中某些特定位置出現(xiàn)短暫清晰的噪聲,如環(huán)境噪聲非發(fā)音人說話,發(fā)音人咳嗽、呼吸聲等,需要在標(biāo)注文本中的對(duì)應(yīng)位置加入相應(yīng)的代表噪聲的符號(hào),具體的噪聲分類及對(duì)應(yīng)的標(biāo)注方式如下:[n]非人類產(chǎn)生的噪聲,如:背景音樂、手機(jī)鈴聲、鍵盤敲擊聲、汽車鳴笛聲、貓狗叫聲等[nps]非說話人本人產(chǎn)生的人類噪聲,如其他人的說話、咳嗽、笑聲等[n:cough]說話人的咳嗽聲[n:throat-clear]說話人的清嗓音聲[n:sneeze]說話人的打噴嚏聲[n:laughter]說話人的笑聲[n:lipsmack]說話人的咂嘴聲[n:breath]說話人強(qiáng)烈的呼吸聲……1、無效語音的判斷,在語音標(biāo)注中,我們能清晰的聽到當(dāng)事人的對(duì)話,不過,如果有背景音樂等雜音,在一般標(biāo)注下,這些都可以當(dāng)做雜音來處理。2、在轉(zhuǎn)寫時(shí),對(duì)于模棱兩可的方言話語,我們需要用普通話標(biāo)出來,除非客戶特別要求對(duì)于要尊重方言,一般默認(rèn)情況下,都需要用普通話翻譯出來。3、語音標(biāo)注在進(jìn)行切分時(shí),電話中人聲一定要前后有一定的間距,在切分時(shí),并不能一個(gè)人剛說完,沒有時(shí)間停頓的就被接上,這不符合邏輯。語音標(biāo)注規(guī)范語音標(biāo)注注意事項(xiàng):4、語音標(biāo)注對(duì)硬件也有一定的要求,對(duì)耳機(jī)要求很大,如果我們耳機(jī)質(zhì)量不是很好,在標(biāo)注過程中,雜音很多,不利于標(biāo)注,也容易出錯(cuò)。5、在語音標(biāo)注過程中,需要給每個(gè)語音內(nèi)的主角打標(biāo)簽,比如是女客服,男客戶這類的標(biāo)清一定要描繪上。6、在語音標(biāo)注過程中,除去雜音成分外,如果突然出現(xiàn)一個(gè)人的說話聲音,那么,這些聲音也是需要標(biāo)注起來。語音標(biāo)注規(guī)范語音標(biāo)注管理03語音標(biāo)注管理語音標(biāo)注管理架構(gòu)語音采集數(shù)據(jù)清洗數(shù)據(jù)標(biāo)注語音標(biāo)注管理語音標(biāo)注管理架構(gòu)——數(shù)據(jù)采集數(shù)據(jù)采集流程語音數(shù)據(jù)采集:數(shù)據(jù)獲?。赫Z音錄制、軟件捕獲語音、已有語音采集步驟:明確采集數(shù)據(jù)的規(guī)格(數(shù)量、內(nèi)容、性別分布、錄音環(huán)境、錄音設(shè)備、有效時(shí)長、是否做內(nèi)容轉(zhuǎn)寫、存儲(chǔ)方式等),征得被采集人同意,最后對(duì)數(shù)據(jù)進(jìn)行脫敏。語音標(biāo)注管理語音標(biāo)注管理架構(gòu)——數(shù)據(jù)清理數(shù)據(jù)清洗即ETL處理(抽取Extract、轉(zhuǎn)換Transform、加載Load),將采集端的原始數(shù)據(jù)導(dǎo)入一個(gè)專門的數(shù)據(jù)庫中,以便進(jìn)行有效分析。這些原始數(shù)據(jù)大體上是不完整、不一致的臟數(shù)據(jù),無法直接進(jìn)行數(shù)據(jù)挖掘,因此需要進(jìn)行數(shù)據(jù)預(yù)處理。在導(dǎo)入的同時(shí),應(yīng)針對(duì)缺失信息、不一致信息與冗余信息等完成數(shù)據(jù)清洗和預(yù)處理工作。數(shù)據(jù)清洗的原理語音標(biāo)注管理語音標(biāo)注管理架構(gòu)——數(shù)據(jù)清理數(shù)據(jù)清洗方法1、缺失值①忽略元組:直接刪除含有缺失屬性值的對(duì)象。②數(shù)據(jù)補(bǔ)齊:使用一定的值對(duì)缺失屬性進(jìn)行填充補(bǔ)齊,從而使信息表完備化。主要有以下四種方法進(jìn)行數(shù)據(jù)補(bǔ)齊:人工填寫:適用于工作人員非常了解數(shù)據(jù)相關(guān)信息的情況,缺點(diǎn)是效率太低。特殊值填充:例如用“unknown”填充,缺點(diǎn)是會(huì)導(dǎo)致嚴(yán)重的數(shù)據(jù)偏離。平均值填充:對(duì)數(shù)值型數(shù)據(jù)取平均值填充,傾斜分布情況也可以采用中位數(shù)填充。非數(shù)值型屬性采用出現(xiàn)頻率最高值填充。可能值填充:通過推斷填充缺失值,空值對(duì)象周圍與其相似的對(duì)象值,建立回歸模型、貝葉斯模型推理、決策樹歸納確定。③不處理:適用于一些對(duì)屬性值確實(shí)方面具有良好魯棒性的數(shù)據(jù)挖掘方法,例如貝葉斯網(wǎng)絡(luò)和人工神經(jīng)網(wǎng)絡(luò)等。語音標(biāo)注管理語音標(biāo)注管理架構(gòu)——數(shù)據(jù)清理數(shù)據(jù)清洗方法2、噪聲數(shù)據(jù)噪聲數(shù)據(jù)的出現(xiàn)一般由于收集工具的問題,或數(shù)據(jù)輸入、傳輸錯(cuò)誤,或技術(shù)限制等原因,處理方法是對(duì)數(shù)值進(jìn)行平滑處理,主要使用以下技術(shù):回歸:通過函數(shù)擬合數(shù)據(jù)來光滑數(shù)據(jù)分箱(Binning):一種局部平滑方法,通過考察相鄰數(shù)據(jù)來確定最終值孤立點(diǎn)分析:通過聚類來檢測離群點(diǎn),落在簇外的數(shù)據(jù)對(duì)象被視為孤立點(diǎn)3、重復(fù)數(shù)據(jù):一般直接合并或者消除語音標(biāo)注管理語音標(biāo)注管理架構(gòu)——數(shù)據(jù)清理數(shù)據(jù)清洗流程①明確錯(cuò)誤類型手動(dòng)檢查或使用數(shù)據(jù)樣本等數(shù)據(jù)分析方式定義清洗轉(zhuǎn)換規(guī)則與工作流,根據(jù)情況決定數(shù)據(jù)轉(zhuǎn)換和清洗步驟②識(shí)別錯(cuò)誤實(shí)例人工,但耗時(shí)耗力準(zhǔn)確率低通過統(tǒng)計(jì)、聚類或關(guān)聯(lián)規(guī)則,自動(dòng)檢測③糾正發(fā)現(xiàn)錯(cuò)誤按預(yù)定義的清洗規(guī)則和工作流有序進(jìn)行應(yīng)對(duì)數(shù)據(jù)進(jìn)行分類處理在各個(gè)分類中將屬性值統(tǒng)一格式、做標(biāo)準(zhǔn)化處理處理簽對(duì)數(shù)據(jù)進(jìn)行備份④干凈數(shù)據(jù)回流替換臟數(shù)據(jù),避免重復(fù)清洗語音標(biāo)注質(zhì)量檢驗(yàn)04語音標(biāo)注質(zhì)量檢驗(yàn)1、實(shí)時(shí)檢驗(yàn)實(shí)時(shí)檢驗(yàn)是現(xiàn)場檢驗(yàn)和流動(dòng)檢驗(yàn)的一種方式,一般安排在數(shù)據(jù)標(biāo)注任務(wù)進(jìn)行過程中。①實(shí)時(shí)檢驗(yàn)方法的優(yōu)點(diǎn):能及時(shí)發(fā)現(xiàn)問題并解決問題能夠有效減少標(biāo)注過程中重復(fù)錯(cuò)誤的重復(fù)出現(xiàn)能夠保證整體標(biāo)注任務(wù)的流暢性能夠?qū)崟r(shí)掌握數(shù)據(jù)標(biāo)注的任務(wù)進(jìn)度②實(shí)時(shí)檢驗(yàn)方法的缺點(diǎn):對(duì)人員的配備及管理要求較高一般1質(zhì)檢員負(fù)責(zé)實(shí)時(shí)檢驗(yàn)5~10名標(biāo)注員③檢查內(nèi)容:標(biāo)注員的標(biāo)注方法熟練度準(zhǔn)確度檢查時(shí)間點(diǎn)為標(biāo)注員完成一個(gè)階段的標(biāo)注任務(wù)后(數(shù)據(jù)集分段標(biāo)注)實(shí)時(shí)檢驗(yàn)流程語音標(biāo)注質(zhì)量檢驗(yàn)2、全樣檢驗(yàn)全樣檢驗(yàn)是標(biāo)注任務(wù)交付前必不可少的過程數(shù)據(jù)標(biāo)注員已完成標(biāo)注數(shù)據(jù)質(zhì)檢員全樣檢查是否合格已合格數(shù)據(jù)集不合格,返工①全樣檢驗(yàn)的優(yōu)點(diǎn):能夠?qū)?shù)據(jù)集做到無遺漏檢驗(yàn)可以對(duì)數(shù)據(jù)集進(jìn)行準(zhǔn)確率評(píng)估②全樣檢驗(yàn)的缺點(diǎn):需要耗費(fèi)大量的人力精力集中進(jìn)行全樣檢驗(yàn)流程語音標(biāo)注質(zhì)量檢驗(yàn)3、抽樣檢驗(yàn)抽樣檢驗(yàn)是產(chǎn)品生產(chǎn)中一種輔助性檢驗(yàn)方法,將抽樣檢驗(yàn)方式進(jìn)行疊加,形成多重抽樣檢驗(yàn)方法。此方法可以分為輔助實(shí)時(shí)檢驗(yàn)或輔助全樣檢驗(yàn),具體如下:輔助實(shí)時(shí)檢驗(yàn)適用情況:出現(xiàn)在數(shù)據(jù)標(biāo)注任務(wù)需要采用實(shí)時(shí)檢驗(yàn),但質(zhì)檢員和標(biāo)注員比例失衡,標(biāo)注員過多的情況。方法:全樣合格就抽樣(減少50%),抽樣合格就繼續(xù)減少50%,不合格就全樣語音標(biāo)注質(zhì)量檢驗(yàn)輔助全樣檢驗(yàn)使用情況:主要作用是減少全樣檢驗(yàn)中的疏漏方法:全樣合格后,進(jìn)行抽樣,抽樣合格就減半,不合格就加倍。多輪抽樣均不合格,需要重新全樣,多輪抽樣沒有或只有一輪不合格,就認(rèn)定為合格,僅需改正抽樣發(fā)現(xiàn)的不合格標(biāo)注即可①多重抽樣檢驗(yàn)方法的優(yōu)點(diǎn):能合理調(diào)配質(zhì)檢員的工作重心有效地彌補(bǔ)其他檢驗(yàn)方法的疏漏提高數(shù)據(jù)標(biāo)注質(zhì)量檢驗(yàn)的正確性②多重抽樣加納方法的缺點(diǎn):只能輔助其他檢驗(yàn)方法,如果單獨(dú)實(shí)施,會(huì)出現(xiàn)疏漏謝謝聆聽!過的別識(shí)音語程目錄/Contents010203特征提取聲學(xué)模型語言模型04字典與解碼01特征提取一、特征提取1.1預(yù)加重1.2分幀1.3加窗1.4快速傅里葉變換FFT1.5梅爾濾波器組1.1預(yù)加重所謂語音識(shí)別,就是將一段語音信號(hào)轉(zhuǎn)換成相對(duì)應(yīng)的文本信息,系統(tǒng)主要包含特征提取、聲學(xué)模型,語言模型以及字典與解碼四大部分。1.1預(yù)加重預(yù)加重:在音頻錄制過程中,高頻信號(hào)更容易衰減,而像元音等一些因素的發(fā)音包含了較多的高頻信號(hào)的成分,高頻信號(hào)的丟失,可能會(huì)導(dǎo)致音素的共振峰并不明顯,使得聲學(xué)模型對(duì)這些音素的建模能力不強(qiáng)。預(yù)加重是個(gè)一階高通濾波器,可以提高信號(hào)高頻部分的能量。1.1預(yù)加重給定時(shí)域輸入信號(hào)

,預(yù)加重之后信號(hào)為:如下圖所示,元音音素:原始的頻譜圖(左)和經(jīng)過預(yù)加重之后的頻譜圖(右)。1.1預(yù)加重預(yù)加重是一種在發(fā)送端事先對(duì)發(fā)送信號(hào)的高頻分量進(jìn)行補(bǔ)償?shù)姆椒?。這種方法是增大信號(hào)跳變邊沿后第一個(gè)bit(跳變bit)的幅度(預(yù)加重)。比如對(duì)于一個(gè)00111的序列來說,做完預(yù)加重后序列里第一個(gè)1的幅度會(huì)比第二個(gè)和第三個(gè)1的幅度大。由于跳變bit代表了信號(hào)里的高頻分量,所以這種方法有助于提高發(fā)送信號(hào)里的高頻分量。1.2分幀語音信號(hào)是一個(gè)非穩(wěn)態(tài)的、時(shí)變的信號(hào)。但在短時(shí)間范圍內(nèi)可以認(rèn)為語音信號(hào)是穩(wěn)態(tài)的、時(shí)不變的。這個(gè)短時(shí)間一般取10-30ms,因此在進(jìn)行語音信號(hào)處理時(shí)。為減少語音信號(hào)整體的非穩(wěn)態(tài)、時(shí)變的影響,從而對(duì)語音信號(hào)進(jìn)行分段處理,其中每一段稱為一幀,幀長一般取25ms。為了使幀與幀之間平滑過渡,保持其連續(xù)性,分幀一般采用交疊分段的方法,保證相鄰兩幀相互重疊一部分。相鄰兩幀的起始位置的時(shí)間差稱為幀移,我們一般在使用中幀移取值為10ms。1.2分幀如下圖:這段語音的前三分之一和后三分之二明顯不一樣,所以整體來看語音信號(hào)不平穩(wěn)。紅框框出來的部分是一幀,在這一幀內(nèi)部的信號(hào)可以看成平穩(wěn)的。所以任何語音信號(hào)的分析和處理必須建立在“短時(shí)”的基礎(chǔ)上,即進(jìn)行“短時(shí)分析”,將語音信號(hào)分為一段一段來分析其特征參數(shù),其中每一段稱為一“幀”,幀長一般即取為10-30ms1.2分幀對(duì)于整體的語音信號(hào)而言,分析出的是由每一幀特征參數(shù)組成的特征參數(shù)時(shí)間序列。分幀示意圖如圖所示。(其中N為幀長,M為幀移)1.2分幀對(duì)于一個(gè)16000Hz采樣的音頻來說,幀長有16000*0.025=400個(gè)點(diǎn),幀移有16000*0.01=160個(gè)點(diǎn)。使用num_samples、frame_len、frame_shift分別代表音頻的數(shù)據(jù)點(diǎn)數(shù)、幀長和幀移,那么i幀的數(shù)據(jù)需要的點(diǎn)數(shù)為

,所以一個(gè)有n個(gè)點(diǎn)的音頻,總共能得幀數(shù)據(jù)。1.2分幀語音信號(hào)的分幀是采用可移動(dòng)的有限長度窗口進(jìn)行加權(quán)的方法來實(shí)現(xiàn)的。1.3加窗因?yàn)楹竺鏁?huì)對(duì)信號(hào)做FFT,而FFT變換的要求為:信號(hào)要么從-∞到+∞,要么為周期信號(hào)。現(xiàn)實(shí)世界中,不可能采集時(shí)間從-∞到+∞的信號(hào),只能是有限時(shí)間長度的信號(hào)。由于分幀后的信號(hào)是非周期的,進(jìn)行FFT變換之后會(huì)有頻率泄露的問題發(fā)生,為了將這個(gè)泄漏誤差減少到最小程度(注意我說是的減少,而不是消除),我們需要使用加權(quán)函數(shù),也叫窗函數(shù)。加窗主要是為了使時(shí)域信號(hào)似乎更好地滿足FFT處理的周期性要求,減少泄漏。1.3加窗如左圖所示,若周期截?cái)?,則FFT頻譜為單一譜線。若為非周期截?cái)?,則頻譜出現(xiàn)拖尾,如圖中部所示,可以看出泄漏很嚴(yán)重。為了減少泄漏,給信號(hào)施加一個(gè)窗函數(shù)(如圖中上部紅色曲線所示),原始截?cái)嗪蟮男盘?hào)與這個(gè)窗函數(shù)相乘之后得到的信號(hào)為上面右側(cè)的信號(hào)??梢钥闯觯藭r(shí),信號(hào)的起始時(shí)刻和結(jié)束時(shí)刻幅值都為0,也就是說在這個(gè)時(shí)間長度內(nèi),信號(hào)為周期信號(hào),但是只有一個(gè)周期。對(duì)這個(gè)信號(hào)做FFT分析,得到的頻譜如下部右側(cè)所示。相比較之前未加窗的頻譜,可以看出,泄漏已明顯改善,但并沒有完全消除。因此,窗函數(shù)只能減少泄漏,不能消除泄漏。1.4快速傅里葉變換FFT快速傅里葉變換(fastFouriertransform),即利用計(jì)算機(jī)計(jì)算離散傅里葉變換(DFT)的高效、快速計(jì)算方法的統(tǒng)稱,簡稱FFT。FT與DFT公式如左圖所示??焖俑凳献儞Q(FFT),是離散傅氏變換的快速算法,它是根據(jù)離散傅氏變換的奇、偶、虛、實(shí)等特性,對(duì)離散傅立葉變換的算法進(jìn)行改進(jìn)獲得的。它對(duì)傅氏變換的理論并沒有新的發(fā)現(xiàn),但是對(duì)于在計(jì)算機(jī)系統(tǒng)或者說數(shù)字系統(tǒng)中應(yīng)用離散傅立葉變換,可以說是進(jìn)了一大步。1.4快速傅里葉變換FFT傅立葉變換的由來:傅立葉是一位法國數(shù)學(xué)家和物理學(xué)家的名字,英語原名是JeanBaptisteJosephFourier(1768-1830),Fourier對(duì)熱傳遞很感興趣,于1807年在法國科學(xué)學(xué)會(huì)上發(fā)表了一篇論文,運(yùn)用正弦曲線來描述溫度分布,論文里有個(gè)在當(dāng)時(shí)頗具爭議性的命題:任何連續(xù)周期信號(hào)可以由一組適當(dāng)?shù)恼仪€組合而成。1.4快速傅里葉變換FFT傅里葉變換的物理意義:傅立葉原理表明:任何連續(xù)測量的時(shí)序或信號(hào),都可以表示為不同頻率的正弦波信號(hào)的無限疊加。而根據(jù)該原理創(chuàng)立的傅立葉變換算法利用直接測量到的原始信號(hào),以累加方式來計(jì)算該信號(hào)中不同正弦波信號(hào)的頻率、振幅和相位。當(dāng)然這是從數(shù)學(xué)的角度去看傅立葉變換。1.5梅爾濾波器組從FFT出來的結(jié)果是每個(gè)頻帶上面的幅值,然而人類對(duì)不同頻率語音有不同的感知能力。對(duì)1kHz以下,與頻率成線性關(guān)系,對(duì)1kHz以上,與頻率成對(duì)數(shù)關(guān)系。頻率越高,感知能力就越差。

1.5梅爾濾波器組提取Mel頻率倒譜系數(shù)(MFCC)特征的過程:1)先對(duì)語音進(jìn)行預(yù)加重、分幀和加窗;2)對(duì)每一個(gè)短時(shí)分析窗,通過FFT得到對(duì)應(yīng)的頻譜;3)將上面的頻譜通過Mel濾波器組得到Mel頻譜;4)在Mel頻譜上面進(jìn)行倒譜分析,獲得Mel頻率倒譜系數(shù)MFCC,這個(gè)MFCC就是這幀語音的特征。02聲學(xué)模型2聲學(xué)模型聲學(xué)模型是將語音信號(hào)的觀測特征與句子的語音建模單元聯(lián)系起來,即計(jì)算。我們通常使用隱馬爾科夫模型(HiddenMarkovModel,HMM)解決語音與文本的不定長關(guān)系,比如左圖的隱馬爾科夫模型。2聲學(xué)模型聲學(xué)模型是語音識(shí)別系統(tǒng)中最為重要的部分之一,主流系統(tǒng)多采用隱馬爾科夫模型進(jìn)行建模。隱馬爾可夫模型的概念是一個(gè)離散時(shí)域有限狀態(tài)自動(dòng)機(jī),隱馬爾可夫模型HMM是指這一馬爾可夫模型的內(nèi)部狀態(tài)外界不可見,外界只能看到各個(gè)時(shí)刻的輸出值。聲學(xué)模型的輸入是由特征提取模塊提取的特征(比如mfcc特征)。03語言模型3語言模型語言模型與文本處理相關(guān),比如我們使用的智能輸入法,當(dāng)我們輸入“nihao”,輸入法候選詞會(huì)出現(xiàn)“你好”而不是“尼毫”,候選詞的排列參照語言模型得分的高低順序。3語言模型3語言模型3語言模型3語言模型

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論