多媒體計(jì)算機(jī)技術(shù)-_第1頁
多媒體計(jì)算機(jī)技術(shù)-_第2頁
多媒體計(jì)算機(jī)技術(shù)-_第3頁
多媒體計(jì)算機(jī)技術(shù)-_第4頁
多媒體計(jì)算機(jī)技術(shù)-_第5頁
已閱讀5頁,還剩78頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、多媒體計(jì)算機(jī)技術(shù)魯宏偉第四講 數(shù)字語音處置技術(shù) 數(shù)字音頻緊縮技術(shù)三維音效語音識別自然言語了解語音合成 數(shù)字音頻緊縮技術(shù)音頻緊縮技術(shù)指的是對原始數(shù)字音頻信號流PCM編碼運(yùn)用適當(dāng)?shù)臄?shù)字信號處置技術(shù),在不損失有用信息量,或所引入損失可忽略的條件下,降低緊縮其碼率,也稱為緊縮編碼。它必需具有相應(yīng)的逆變換,稱為解緊縮或解碼。音頻信號在經(jīng)過一個(gè)編解碼系統(tǒng)后能夠引入大量的噪聲和一定的失真。 數(shù)字音頻緊縮技術(shù)音頻緊縮算法的分類時(shí)域緊縮算法子帶編碼MP3音頻緊縮編碼音頻緊縮算法的分類普通來講,可以將音頻緊縮技術(shù)分為無損lossless緊縮及有損lossy緊縮兩大類,而按照緊縮方案的不同,

2、又可將其劃分為時(shí)域緊縮、變換緊縮、子帶緊縮,以及多種技術(shù)相互交融的混合緊縮等等。 時(shí)域緊縮或稱為波形編碼子帶緊縮技術(shù)變換緊縮技術(shù) 數(shù)字音頻緊縮技術(shù)音頻緊縮算法的分類時(shí)域緊縮算法子帶編碼MP3音頻緊縮編碼時(shí)域緊縮算法時(shí)域緊縮技術(shù)普通多用于語音緊縮、低碼率運(yùn)用源信號帶寬小的場所。時(shí)域緊縮技術(shù)主要包括PCM、ADPCM、LPC、CELP,以及在這些技術(shù)上開展起來的塊壓擴(kuò)技術(shù)。 脈沖編碼調(diào)制(PCM) 增量調(diào)制延續(xù)可變斜率增量調(diào)制CVSD自順應(yīng)差分脈沖編碼調(diào)制ADPCM 數(shù)字電路倍增設(shè)備自順應(yīng)差分脈沖編碼調(diào)制 時(shí)域緊縮算法嵌入式自順應(yīng)差分脈沖編碼調(diào)制E-ADPCM線性預(yù)測編碼LPC 殘差鼓勵線性預(yù)測編

3、碼RELP 碼鼓勵線性預(yù)測編碼CELP低時(shí)延碼鼓勵線性預(yù)測編碼LD-CELP矢量和鼓勵線性預(yù)測編碼VSELP代數(shù)碼本鼓勵線性預(yù)測編碼(ACELP) 共扼構(gòu)造代數(shù)碼鼓勵線性預(yù)測編碼CS-ACELP 規(guī)那么脈沖鼓勵長時(shí)預(yù)測線性預(yù)測編碼RPE-LTP-LPC 脈沖編碼調(diào)制 聲音數(shù)字化有兩個(gè)步驟:第一步是采樣,就是每隔一段時(shí)間間隔讀一次聲音的幅度;第二步是量化,就是把采樣得到的聲音信號幅度轉(zhuǎn)換成數(shù)字值。 量化有好幾種方法,但可歸納成兩類:一類稱為均勻量化,另一類稱為非均勻量化。假設(shè)采用相等的量化間隔對采樣得到的信號作量化,那么這種量化稱為均勻量化。均勻量化就是采用一樣的“等分尺來度量采樣得到的幅度,也

4、稱為線性量化。這種方法稱為脈沖編碼調(diào)制,用PCM表示。 非線性量化非線性量化的根本想法是,對輸入信號進(jìn)展量化時(shí),大的輸入信號采用大的量化間隔,小的輸入信號采用小的量化間隔。在非線性量化中,采樣輸入信號幅度和量化輸出數(shù)據(jù)之間定義了兩種對應(yīng)關(guān)系,一種稱為m律壓(縮)擴(kuò)(展)算法,另一種稱為A律壓(縮)擴(kuò)(展)算法。 m律壓(縮)擴(kuò)(展)算法m律壓擴(kuò)用在北美和日本等地域的數(shù)字通訊中,按下面的式子確定量化輸入和輸出的關(guān)系:式中:x為輸入信號幅度,規(guī)格化成-1 x 1; sgn(x)為x的極性;m為確定緊縮量的參數(shù),它反映最大量化間隔和最小量化間隔之比,取100m500。 A律壓(縮)擴(kuò)(展)算法A律(

5、A-Law)壓擴(kuò)用在歐洲和中國大陸等地域的數(shù)字通訊中,按下面的式子確定量化輸入和輸出的關(guān)系:式中:x為輸入信號幅度,規(guī)格化成-1x1,sgn(x)為x的極性;A為確定緊縮量的參數(shù),它反映最大量化間隔和最小量化間隔之比。 增量調(diào)制增量調(diào)制DM(Delta Modulation)是一種預(yù)測編碼技術(shù)。 DM是對實(shí)踐的采樣信號與預(yù)測的采樣信號之差的極性進(jìn)展編碼,將極性變成“0和“1這兩種能夠的取值之一。假照實(shí)踐的采樣信號與預(yù)測的采樣信號之差的極性為“正,那么用“1表示;相反那么用“0表示。由于DM編碼只須用1比特對信號進(jìn)展編碼,所以DM編碼系統(tǒng)又稱為“1比特系統(tǒng)。 DM波形編碼的原理圖其中xi表示在i

6、點(diǎn)的編碼輸出, yi表示輸入信號的實(shí)踐值, yi表示輸入信號的預(yù)測值。假設(shè)采用均勻量化,量化階的大小為,在開場位置的輸入信號y0=0,預(yù)測值y0=0,編碼輸出x01 增量調(diào)制的缺陷一是會出現(xiàn)斜率過載,即增量調(diào)制器的輸出不能堅(jiān)持跟蹤輸入信號的快速變化 二是會產(chǎn)生粒狀噪聲。反響回路輸出信號的最大變化速率遭到量化階大小的限制,由于量化階的大小是固定的。處理方法:自順應(yīng)增量調(diào)制。根據(jù)輸入信號斜率的變化自動調(diào)整量化階的大小,以使斜率過載和粒狀噪聲都減到最小。許多研討人員研討了各種各樣的方法,而且?guī)缀跻磺械姆椒ǜ旧隙际窃跈z測到斜率過載時(shí)開場增大量化階,而在輸入信號的斜率減小時(shí)降低量化階。 自順應(yīng)差分脈沖

7、編碼調(diào)制ADPCM編碼的方法是對輸入樣值進(jìn)展自順應(yīng)預(yù)測,然后對預(yù)測誤差進(jìn)展量化編碼。它是一種預(yù)測編碼的方法。所謂預(yù)測編碼,是指編碼的對象不是原始信號的采樣量化值,而是對當(dāng)前采樣值與預(yù)測值根據(jù)前假設(shè)干個(gè)采樣值采用一定的預(yù)測方法產(chǎn)生的輸入信號的差值進(jìn)展編碼。假設(shè)采用的預(yù)測方法足夠準(zhǔn)確差值將接近于零,可以預(yù)見,這種編碼方法比直接對樣本值進(jìn)展編碼可以采用較少的比特?cái)?shù)。 CCITT的32kbit/s語音編碼規(guī)范G.721采用ADPCM編碼方式,每個(gè)語音樣值相當(dāng)于用4bit進(jìn)展編碼。自順應(yīng)差分脈沖編碼調(diào)制它的中心想法是:利用自順應(yīng)的思想改動量化階的大小,即使用小的量化階(step-size)去編碼小的差值

8、,運(yùn)用大的量化階去編碼大的差值 ;運(yùn)用過去的樣本值估算下一個(gè)輸入樣本的預(yù)測值,使實(shí)踐樣本值和預(yù)測值之間的差值總是最小。 數(shù)字電路倍增設(shè)備自順應(yīng)差分脈沖編碼調(diào)制 DCME-ADPCM是CCITT G.723語音編碼規(guī)范算法這種算法可以在40kbit/s、32kbit/s和24kbit/s三種速率中動態(tài)調(diào)整,以到達(dá)在給定的信道中添加容量的目的 線性預(yù)測編碼 LPC(Linear Predictive Coding)語音編碼是最根本的低速率語音編碼方法,LPC語音編碼的根底是語音產(chǎn)生模型,在這個(gè)模型中,語音是由鼓勵信號鼓勵一個(gè)自順應(yīng)濾波器即LPC濾波器而產(chǎn)生。LPC濾波器的參數(shù)是經(jīng)過線性預(yù)測的方法,

9、即用過去的樣值預(yù)測當(dāng)前樣值提取的。美國聯(lián)邦規(guī)范FS1015的2.4kbitsLPC-10和LPC-10e就是LPC語音編碼的典型例子,主要用于線上的窄帶語音嚴(yán)密通訊。 低時(shí)延碼鼓勵線性預(yù)測編碼 LD-CELP是CCITT G.728語音編碼規(guī)范算法,其輸出速率為16kbit/s。這種方法在CELP算法的根底上,采用后向自順應(yīng)線性預(yù)測、50階合成濾波、短鼓勵矢量5個(gè)樣值等改良方法,從而到達(dá)高質(zhì)量和低時(shí)延的目的,總的編碼時(shí)延小于2ms。 代數(shù)碼本鼓勵線性預(yù)測編碼極低速率可視規(guī)范H.324中語音編碼規(guī)范是G.723.1,采用5.27kbits和6.3kbits兩種速率,其中5.27kbits速率就是

10、以ACELP算法為根底。 共扼構(gòu)造代數(shù)碼鼓勵線性預(yù)測編碼 CS-ACELP編碼算法被ITU-T的8kbit/s語音編碼規(guī)范G.729采用 規(guī)那么脈沖鼓勵長時(shí)預(yù)測線性預(yù)測編碼這種算法是歐洲900MHz數(shù)字蜂窩挪動的語音編碼規(guī)范GSM,也為數(shù)字蜂窩系統(tǒng)DCS1800所采用。 RPE-LTP-LPC算法是MPE-LPC的改良算法,除了添加長時(shí)預(yù)測功能外,鼓勵脈沖的位置具有一定的規(guī)律。數(shù)字音頻緊縮技術(shù)音頻緊縮算法的分類時(shí)域緊縮算法子帶編碼MP3音頻緊縮編碼子帶編碼子帶編碼SBC(subband coding)的根本思想是,首先運(yùn)用一組帶通濾波器BPF(band-pass filter)把輸入音頻信號的

11、頻帶分成假設(shè)干個(gè)延續(xù)的頻段,每個(gè)頻段稱為子帶。對每個(gè)子帶中的音頻信號采用單獨(dú)的編碼方案去編碼。在信道上傳送時(shí),將每個(gè)子帶的代碼復(fù)合起來。在接納端譯碼時(shí),將每個(gè)子帶的代碼單獨(dú)譯碼,然后把它們組合起來,復(fù)原成原來的音頻信號。采用對每個(gè)子帶分別編碼的益處有二個(gè)。第一,對每個(gè)子帶信號分別進(jìn)展自順應(yīng)控制,量化階的大小(quantization step)可以按照每個(gè)子帶的能量電平加以調(diào)理。具有較高能量電平的子帶用大的量化階去量化,以減少總的量化噪聲。第二,可根據(jù)每個(gè)子帶信號在覺得上的重要性,對每個(gè)子帶分配不同的比特?cái)?shù),用來表示每個(gè)樣本值。例如,在低頻子帶中,為了維護(hù)音調(diào)和共振峰的構(gòu)造,就要求用較小的量化

12、階、較多的量化級數(shù),即分配較多的比特?cái)?shù)來表示樣本值。而話音中的摩擦音和類似噪聲的聲音,通常出如今高頻子帶中,對它分配較少的比特?cái)?shù)。 子帶編碼方塊圖子帶編碼對每個(gè)子帶分別編碼的益處是: 可以利用人耳或人眼對不同頻率信號的感知靈敏度不同的特性,在人的聽覺或視覺不敏感的頻段采用較粗糙的量化,從而到達(dá)數(shù)據(jù)緊縮的目的。 各個(gè)子帶的量化噪聲都束縛在本子帶內(nèi),這就可以防止能量較小的頻帶內(nèi)的信號被其它頻帶中量化噪聲所掩蓋 經(jīng)過頻帶分裂,各個(gè)子帶的取樣頻率可以成倍下降。 數(shù)字音頻緊縮技術(shù)音頻緊縮算法的分類時(shí)域緊縮算法子帶編碼MP3音頻緊縮編碼MP3音頻緊縮編碼 MP3是一種音頻緊縮的國際技術(shù)規(guī)范。MP3格式開場

13、于二十世紀(jì)80年代中期,是在德國夫朗和費(fèi)研討所Fraunhofer Institute開場的,研討努力于高質(zhì)量、低數(shù)據(jù)率的聲音編碼。1989年,夫朗和費(fèi)研討所在德國被獲準(zhǔn)獲得了MP3的專利權(quán),幾年后這項(xiàng)技術(shù)被提交到國際規(guī)范組織(ISO),整合進(jìn)入了MPEG-1規(guī)范。 MP3格式是一個(gè)讓音樂界產(chǎn)生宏大震動的一個(gè)聲音格式。MP3的全稱是Moving Picture Experts Group, Audio Layer 3,它所運(yùn)用的技術(shù)是在VCDMPEG-1的音頻緊縮技術(shù)上開展出的第三代,而不是MPEG-3。 MP3音頻緊縮編碼MPEG代表的是MPEG活動影音緊縮規(guī)范,MPEG音頻文件指的是MPE

14、G規(guī)范中的聲音部分即MPEG音頻層。MPEG音頻文件根據(jù)緊縮質(zhì)量和編碼復(fù)雜程度的不同可分為三層MPEG AUDIO LAYER 1/2/3分別與MP1、MP2和MP3這三種聲音文件相對應(yīng)。MPEG音頻編碼具有很高的緊縮率,MP1和MP2的緊縮率分別為4:1和6:1-8:1,而MP3的緊縮率那么高達(dá)10:112:1,也就是說一分鐘CD音質(zhì)的音樂未經(jīng)緊縮需求10MB存儲空間,而經(jīng)過MP3緊縮編碼后只需1MB左右,同時(shí)其音質(zhì)根本堅(jiān)持不失真。MP3音頻緊縮編碼音樂信號中有許多冗余成分,其中包括間隔和一些人耳分辨不出的信息如混雜在較強(qiáng)背景中的弱信號。MP3為降低聲音失真采取了名為“感官編碼技術(shù)的編碼算法

15、:編碼時(shí)先對音頻文件進(jìn)展頻譜分析,然后用過濾器濾掉噪音,接著經(jīng)過量化的方式將剩下的每一位打散陳列,最后構(gòu)成具有較高緊縮比的MP3文件,并使緊縮后的文件在回放時(shí)可以到達(dá)比較接近原音源的聲音效果。雖然它是一種有損緊縮,但是它的最大優(yōu)勢是以極小的聲音失真換來了較高的緊縮比。 音頻編碼規(guī)范 G.711 G.722 G.723.1 G.728 G.729 音頻編碼規(guī)范比較G.711 1972年CCITT為質(zhì)量和語音緊縮制定了PCM規(guī)范G.711。其速率為64kb/s,運(yùn)用律或A律的非線性量化技術(shù),主要用于公共網(wǎng)中。 G.7221988年CCITT為調(diào)幅廣播質(zhì)量的音頻信號緊縮制定了G.722規(guī)范,它運(yùn)用子

16、帶編碼(SBC)方案,其濾波器組將輸入信號分成高低兩個(gè)子帶信號,然后分別運(yùn)用ADPCM進(jìn)展編碼。G.722能將224kb/s的調(diào)幅廣播質(zhì)量的音頻信號緊縮為64kb/s,主要用于視聽多媒體和會議電視等。 G.722的主要目的是堅(jiān)持64kb/s的數(shù)據(jù)率,而音頻信號的質(zhì)量要明顯高于G.711的質(zhì)量。 G.723.11996年ITU-T經(jīng)過了G.723規(guī)范“用于多媒體傳輸?shù)?.3kb/s或6.3kb/s雙速率話音編碼。它采用多脈沖鼓勵最大似然量化(MP-MLQ)算法,此規(guī)范可運(yùn)用于可視及IP等系統(tǒng)中。 G.728為了進(jìn)一步降低緊縮的速率,CCITT于1992年制定了G.728規(guī)范,運(yùn)用基于低時(shí)延碼本鼓

17、勵線性預(yù)測編碼(LD-CELP)算法,其速率為16kb/s,主要用于公共網(wǎng)中。 G.729ITU-T于1996年3月經(jīng)過了G.729規(guī)范,它運(yùn)用8kb/s的共軛構(gòu)造代數(shù)碼鼓勵線性預(yù)測(CS-ACELP)算法,此規(guī)范將在無線挪動網(wǎng)、數(shù)字多路復(fù)用系統(tǒng)和計(jì)算機(jī)通訊系統(tǒng)中運(yùn)用。 音頻編碼規(guī)范比較 第四講 數(shù)字語音處置技術(shù) 數(shù)字音頻緊縮技術(shù)三維音效語音識別自然言語了解語音合成 三維音效人類的聽覺3D音效的分類杜比AC-3DTS 人類的聽覺人耳的根本聲音定位原理是IIDInteraural Intensity Difference,兩側(cè)聲音強(qiáng)度差別和ITDInteraural Time Differenc

18、e,兩側(cè)聲音時(shí)間延遲差別。IID指間隔音源較近的哪一邊耳朵,所收到的聲音強(qiáng)度比另一側(cè)高,感到聲音更大一些。ITD指方位的不同,使聲音到達(dá)兩耳的時(shí)間有差別,人們會覺得聲音位于到達(dá)時(shí)間早些的那一邊,IID+ITD的結(jié)果是把音源定位到以聽者兩耳這間連線為軸線的錐體范圍之內(nèi)。 人類的聽覺耳廓外耳的作用是濾波器,根據(jù)聲音的不同角度,加強(qiáng)/減弱音波能量,過濾之后傳給大腦,讓我們更準(zhǔn)確地聲源的位置。耳廓的大小有限,因此可以收到的音波范圍也有限,通常是20Hz到20KHz,即波長16米到1.6厘米的音波。換言之,低于此范圍是次聲波,高于此范圍是超聲波。 由于兩耳機(jī)的間隔約為15厘米,當(dāng)波長大于15厘米時(shí)IIT

19、和ITD將會減弱。頻率低的聲音波長大,因此我們很難判別出低音的位置,卻能隨便分辨高音的方位。實(shí)踐上,耳廓對于聲音的定位,是至關(guān)重要的一環(huán),沒有外耳的人難以判別聲音發(fā)出的位置。 人類的聽覺人類依托一種稱為HRTFHead Related Transfer Function,頭部關(guān)聯(lián)傳輸功能的系統(tǒng)來判別聲音發(fā)出的位置。每個(gè)人的HRTF都不盡一樣,還可以進(jìn)展交換。HRTF的檢測非常簡單,先在人的耳道內(nèi)放置兩個(gè)微型麥克風(fēng),再在聽者附近放一個(gè)音箱,播放確定的信號,同時(shí)記錄麥克風(fēng)收到的信號。比較源信號和麥克風(fēng)的脈沖特性曲線就可以得到其中一個(gè)濾波效果。最后于聽者附近的一切位置反復(fù)上述過程,即可獲取完好的HR

20、TF系統(tǒng)。 三維音效人類的聽覺3D音效的分類杜比AC-3DTS 3D音效的分類3D音效的兩個(gè)最重要要素是定位和交互。定位即讓人們準(zhǔn)確地判別出聲音的來源,可以經(jīng)過預(yù)選錄制聲音,再進(jìn)展特定的解碼來實(shí)現(xiàn)。實(shí)時(shí)的定位就是交互,聲音并非預(yù)選錄制好的,而是按照他的控制來決議聲音的位置。即時(shí)生成的交互式聲音對輸入設(shè)備的要求,比預(yù)選錄制音軌的放音設(shè)備如:電影要更強(qiáng)一些。 3D音效的分類擴(kuò)展式立體聲它運(yùn)用聲音延遲技術(shù)對傳統(tǒng)的立體聲進(jìn)展額外處置,擴(kuò)寬了音場的位置,使聲音延展到音箱以外的空間,讓我們覺得的3D世界更寬廣 環(huán)繞立體聲它采用音頻緊縮技術(shù)(如:杜比AC-3)把多通道音源編碼成一段程序,再以一組多揚(yáng)聲器系統(tǒng)

21、來進(jìn)展解碼,實(shí)現(xiàn)多區(qū)域環(huán)繞效果。 交互式3D音效 交互式3D盡量地復(fù)制了人耳在真實(shí)世界中聽到的聲音,并運(yùn)用一定的算法來播放出來,讓我們感到整個(gè)三維空間的一切地方都能夠產(chǎn)生聲音,并隨聽者的挪動而做出相應(yīng)改動。 三維音效人類的聽覺 3D音效的分類杜比AC-3DTS 杜比AC-3 為了提高HDTV聲音的質(zhì)量,防止模擬矩陣編碼的局限性,提出了雙通道的碼率提供多通道的編碼性能的想象,杜比AC-3就是為了實(shí)現(xiàn)這一想象而開發(fā)的。杜比AC-3可以把五個(gè)獨(dú)立的全頻帶和一個(gè)超低音通道的信號實(shí)行一致編碼,成為單一的復(fù)合數(shù)據(jù)流。 AC-3的頻響為20Hz20kHz 0.5dB(-3dB時(shí)為3Hz20.3kHz),超低

22、聲道頻率范圍是20Hz120Hz 0.5dB。可支持32kHz、44.1kHz、48kHz三種取樣頻率。數(shù)碼率可低至單聲道的32kb/s,高到多聲道640kb/s,以順應(yīng)不同需求。 杜比AC-3AC-3采用基于改良離散余弦變換MDCT的自順應(yīng)變換編碼ATC算法。ATC算法的一個(gè)重要思索是基于人耳聽覺掩蔽效應(yīng)的臨界頻帶實(shí)際,即在臨界頻帶內(nèi)一個(gè)聲音對另一個(gè)聲音信號的掩蔽效應(yīng)最明顯。因此,劃分頻帶的濾波器組要有足夠銳利的頻率呼應(yīng),以保證臨界頻帶外的噪聲衰減足夠大,使時(shí)域和頻域內(nèi)的噪聲限定在掩蔽門限以下。 三維音效人類的聽覺 3D音效的分類杜比AC-3DTS DTSDTS是“Digital Theat

23、re System的縮寫,是“數(shù)字化影院系統(tǒng)的意思。從技術(shù)上講,DTS與包括Dolby Digital在內(nèi)的其它聲音處置系統(tǒng)是完全不同的。Dolby Digital是將音效數(shù)據(jù)存儲在電影膠片的齒孔之間,由于空間的限制而必需采用大量的緊縮的方式,這樣就不得不犧牲部分音質(zhì)。DTS公司用一種簡單的方法處理了這個(gè)問題,即把音效數(shù)據(jù)存儲到另外的CD-ROM中,使其與影像數(shù)據(jù)同步。這樣不但空間得到添加,而且數(shù)據(jù)流量也可以相對變大,更可以將存儲音效數(shù)據(jù)的CD改換,來播放不同的言語版本。 DTSDTS 系統(tǒng)不僅具有 AC-3 類似功能,更加強(qiáng)了其縱深定位交叉效果。DTS 芯片容量為 1536kbps,緊縮傳輸

24、比為 4:1;而 AC-3 芯片容量為 448kbps,緊縮比為 10:1。正是由于DTS 信息容量的添加,音色更加優(yōu)美。DTS 家庭影院的中心是 DTS 解碼器,它可對 DVD,CD 的杜比數(shù)字解碼,輸出 5.1 聲道信息,也可以選擇DTS方式,輸出6 聲道信息。DTS 和杜比數(shù)字在音質(zhì)上有著明顯的不同,前者聲音力度強(qiáng)勁,聲音的上升和切入都很鋒利,音場的透明感明晰可聞,尤其是豐富的低音效果表現(xiàn)得更加猛烈火爆。后者在低音方面短少豐富的力度 第四講 數(shù)字語音處置技術(shù) 數(shù)字音頻緊縮技術(shù)三維音效語音識別自然言語了解語音合成 語音識別技術(shù)及運(yùn)用語音識別的開展歷史 語音識別技術(shù)語音識別系統(tǒng)的類型 語音識

25、別的運(yùn)用 語音識別的開展歷史語音識別技術(shù)的研討任務(wù)始于20世紀(jì)50年代,當(dāng)時(shí)AT&T Bell實(shí)驗(yàn)室實(shí)現(xiàn)了第一個(gè)可識別十個(gè)英文數(shù)字的語音識別系統(tǒng)Audry系統(tǒng)。 60年代,計(jì)算機(jī)的運(yùn)用推進(jìn)了語音識別的開展。70年代,語音識別領(lǐng)域獲得了突破。 80年代,語音識別研討進(jìn)一步走向深化,其顯著特征是HMM模型和人工神經(jīng)元網(wǎng)絡(luò)ANN在語音識別中的勝利運(yùn)用。 90年代,隨著多媒體時(shí)代的降臨,迫切要求語音識別系統(tǒng)從實(shí)驗(yàn)室走向適用。 語音識別技術(shù)的開展歷史 如圖表示了從80年代初以來語音識別技術(shù)閱歷的從孤立詞、小詞匯量、特定人到大詞匯量、非特定人、自然口語識別的開展歷程。語音識別技術(shù)及運(yùn)用語音識別的開展歷史

26、語音識別技術(shù)語音識別系統(tǒng)的類型 語音識別的運(yùn)用 語音識別技術(shù)不同的語音識別系統(tǒng),雖然詳細(xì)實(shí)現(xiàn)細(xì)節(jié)有所不同,但所采用的根本技術(shù)類似,它所涉及的領(lǐng)域包括:信號處置、方式識別、概率論和信息論、發(fā)聲機(jī)理和聽覺機(jī)理、人工智能等等。 語音識別技術(shù)主要包括特征提取技術(shù)、方式匹配準(zhǔn)那么及模型訓(xùn)練技術(shù)三個(gè)方面。此外,還涉及到語音識別單元的選取。 特征參數(shù)提取技術(shù) 語音信號中含有豐富的信息,這些信息稱為語音信號的聲學(xué)特征 特征提取是對語音信號進(jìn)展分析處置,去除對語音識別無關(guān)緊要的冗余信息,獲得影響語音識別的重要信息 由于語音信號的時(shí)變特性,特征提取必需在一小段語音信號上進(jìn)展,也即進(jìn)展短時(shí)分析 常用的一些聲學(xué)特征

27、線性預(yù)測系數(shù)LPC 倒譜系數(shù)CEP Mel倒譜系數(shù)MFCC和感知線性預(yù)測PLP 方式匹配及模型訓(xùn)練技術(shù) 模型訓(xùn)練是指按照一定的準(zhǔn)那么,從大量知方式中獲取表征該方式本質(zhì)特征的模型參數(shù),而方式匹配那么是根據(jù)一定準(zhǔn)那么,使未知方式與模型庫中的某一個(gè)模型獲得最正確匹配。 語音識別所運(yùn)用的方式匹配和模型訓(xùn)練技術(shù)主要有動態(tài)時(shí)間歸正技術(shù)DTW,又稱為動態(tài)時(shí)間彎折技術(shù)、隱馬爾可夫模型HMM和人工神經(jīng)元網(wǎng)絡(luò)ANN。 典型語音識別系統(tǒng)的實(shí)現(xiàn)過程 語音識別單元的選取 選擇識別單元是語音識別研討的第一步 語音識別單元有單詞句、音節(jié)和音素三種 單詞單元廣泛運(yùn)用于中小詞匯語音識別系統(tǒng) 音節(jié)單元多見于漢語語音識別 音素單元

28、以前多見于英語語音識別的研討中,但目前中、大詞匯量漢語語音識別系統(tǒng)也在越來越多地采用 語音識別技術(shù)及運(yùn)用語音識別的開展歷史 語音識別技術(shù)語音識別系統(tǒng)的類型 語音識別的運(yùn)用 語音識別系統(tǒng)的類型語音識別系統(tǒng)有以下幾種分類方式: 根據(jù)對說話人的依賴程度可以分為特定人和非特定人語音識別系統(tǒng) 根據(jù)對說話人說話方式的要求,可以分為孤立字詞語音識別系統(tǒng),銜接詞語音識別系統(tǒng)以及延續(xù)語音識別系統(tǒng)根據(jù)詞匯量大小,可以分為小詞匯量、中等詞匯量、大詞匯量以及無限詞匯量語音識別系統(tǒng) 特定人語音識別系統(tǒng) 特定人的識別系統(tǒng)精明得足以能了解講話者的語音特點(diǎn),它從語音簽名上就能知道講話者的身份。 只需在講話者用特定單詞組構(gòu)成的

29、詞匯表訓(xùn)練系統(tǒng)后,它才干識別 特定人系統(tǒng)的優(yōu)點(diǎn)是它是可訓(xùn)練的,系統(tǒng)很靈敏,可以訓(xùn)練它來識別新詞 特定人的系統(tǒng)的缺陷是由一個(gè)用戶訓(xùn)練的系統(tǒng)不能被另一用戶運(yùn)用 例:手機(jī)中運(yùn)用的語音撥號非特定人語音識別系統(tǒng)非持定人識別系統(tǒng)可識別任何用戶的語音。它不需求任何來自用戶的訓(xùn)練,由于它不依賴于個(gè)人的語音簽名。 為生成非特定人識別系統(tǒng)、大量的用戶訓(xùn)練了大詞匯表的識別器。 在訓(xùn)練系統(tǒng)時(shí),男聲和女聲、不同的口音和方言,以及帶有背景噪音的環(huán)境都計(jì)入了思索范圍之內(nèi)以生成參考模板。例:IBM Via Voice 孤立詞語音識別系統(tǒng)孤立詞(語音)識別系統(tǒng),一次只提供一個(gè)單一詞的識別 識別器的第一個(gè)義務(wù)是進(jìn)展幅度和噪聲歸一

30、化,下一步是參數(shù)分析 可以經(jīng)過把對應(yīng)于一個(gè)詞的大量樣本聚集為單一群來獲得非特定人孤立單詞語音識別器。 銜接詞語音識別系統(tǒng)銜接詞的語音由所說的短語組成,而短語又是由詞序列組成 識別銜接詞短語中單詞的一種方法是采用詞定位技術(shù) 類似于孤立詞語音識別,銜接詞語音識別用于命令和控制運(yùn)用 延續(xù)語音識別系統(tǒng)延續(xù)語音由在聽寫中構(gòu)成段落的完好句子組成 延續(xù)語音識別系統(tǒng)可以分成以下三部分: 第一部分包括數(shù)字化、幅度歸一化、時(shí)間歸一化和參數(shù)表示 另一部分包括分割并把語音段標(biāo)志成在基于知識或基于規(guī)那么系統(tǒng)上的符號串 最后一部分是設(shè)計(jì)用于識別詞序列而進(jìn)展語音段匹配 語音識別技術(shù)及運(yùn)用語音識別的開展歷史 語音識別技術(shù)語音

31、識別系統(tǒng)的類型 語音識別的運(yùn)用 語音識別的運(yùn)用語音郵件集成數(shù)據(jù)庫輸人和訊問運(yùn)用 語音命令和控制運(yùn)用 第四講 數(shù)字語音處置技術(shù) 數(shù)字音頻緊縮技術(shù)三維音效語音識別自然言語了解語音合成 自然言語了解 自然言語了解就是研討如何能讓計(jì)算機(jī)了解并生成人們?nèi)粘K\(yùn)用的(如漢語、英語)言語,使得計(jì)算機(jī)懂得自然言語的含義,并對人給計(jì)算機(jī)提出的問題,經(jīng)過對話的方式,用自然言語進(jìn)展回答。目的在于建立起一種人與機(jī)器之間的親密而友好的關(guān)系,使之能進(jìn)展高度的信息傳送與認(rèn)知活動。 用自然言語與計(jì)算機(jī)進(jìn)展通訊,這是人們長期以來所追求的。自然言語了解一個(gè)中文文本從方式上看是由漢字包括標(biāo)點(diǎn)符號等組成的一個(gè)字符串。由字可組成詞,由

32、詞可組成詞組,由詞組可組成句子,進(jìn)而由一些句子組成段、節(jié)、章、篇。無論在上述的各種層次:字符、詞、詞組、句子、段,還是在下一層次向上一層次轉(zhuǎn)變中都存在著歧義和多義景象,即方式上一樣的一段字符串,在不同的場景或不同的語境下,可以了解成不同的詞串、詞組串等,并有不同的意義。自然言語處置的中心技術(shù)是言語分析技術(shù),即將句子數(shù)量無限變換成由詞語數(shù)量可控及其籠統(tǒng)方式數(shù)量有限構(gòu)成的用某種數(shù)據(jù)構(gòu)造句法樹、復(fù)雜特征集或語義網(wǎng)絡(luò)表示的內(nèi)部方式數(shù)量有限。 自然言語了解言語分析技術(shù)可以分為基于規(guī)那么與基于統(tǒng)計(jì)數(shù)據(jù)兩大類。概率語法經(jīng)過語料庫統(tǒng)計(jì)給每條言語規(guī)那么加上概率值,言語規(guī)那么便有了“柔性,不再是“說一不二、“非此

33、即彼。概率語法是有機(jī)結(jié)合這兩類技術(shù)的較好實(shí)際體系。為了完成這種統(tǒng)計(jì),事先必需按照人給出的言語規(guī)那么加工語料庫至少要加工一部分訓(xùn)練語料,這闡明統(tǒng)計(jì)方法也需求規(guī)那么的指點(diǎn)。兩者之間的結(jié)合和相互利用是必然的趨勢。 自然言語了解言語分析可以劃分為詞法析、句法分析、語義分析、篇章分析等步驟。如今,詞法分析和句法分析相對成熟,語義分析逐漸成為研討重點(diǎn)。對象單元由小到大從句子向篇章開展。實(shí)踐上只需在篇章的范圍內(nèi)分析,省略、指代和句子的固有歧義等問題才能夠處理。 假設(shè)說自然言語處置技術(shù)尚未獲得艱苦突破,其含義就是完好言語分析技術(shù)尚未過關(guān)。淺層分析技術(shù)或者只提取句子中的名詞短語,或者只識別句子的謂語中心詞及其他組塊同謂語中心詞的依存關(guān)系。這樣的技術(shù)就是順該

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論