多媒體計算機(jī)技術(shù)之?dāng)?shù)字語音處理技術(shù)(ppt-84頁)課件_第1頁
多媒體計算機(jī)技術(shù)之?dāng)?shù)字語音處理技術(shù)(ppt-84頁)課件_第2頁
多媒體計算機(jī)技術(shù)之?dāng)?shù)字語音處理技術(shù)(ppt-84頁)課件_第3頁
多媒體計算機(jī)技術(shù)之?dāng)?shù)字語音處理技術(shù)(ppt-84頁)課件_第4頁
多媒體計算機(jī)技術(shù)之?dāng)?shù)字語音處理技術(shù)(ppt-84頁)課件_第5頁
已閱讀5頁,還剩79頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、多媒體計算機(jī)技術(shù)魯宏偉第四講 數(shù)字語音處理技術(shù) 數(shù)字音頻壓縮技術(shù)三維音效語音識別自然語言理解語音合成 數(shù)字音頻壓縮技術(shù)音頻壓縮技術(shù)指的是對原始數(shù)字音頻信號流(PCM編碼)運(yùn)用適當(dāng)?shù)臄?shù)字信號處理技術(shù),在不損失有用信息量,或所引入損失可忽略的條件下,降低(壓縮)其碼率,也稱為壓縮編碼。它必須具有相應(yīng)的逆變換,稱為解壓縮或解碼。音頻信號在通過一個編解碼系統(tǒng)后可能引入大量的噪聲和一定的失真。 數(shù)字音頻壓縮技術(shù)音頻壓縮算法的分類時域壓縮算法子帶編碼MP3音頻壓縮編碼音頻壓縮算法的分類一般來講,可以將音頻壓縮技術(shù)分為無損(lossless)壓縮及有損(lossy)壓縮兩大類,而按照壓縮方案的不同,又可將其

2、劃分為時域壓縮、變換壓縮、子帶壓縮,以及多種技術(shù)相互融合的混合壓縮等等。 時域壓縮(或稱為波形編碼)子帶壓縮技術(shù)變換壓縮技術(shù) 數(shù)字音頻壓縮技術(shù)音頻壓縮算法的分類時域壓縮算法子帶編碼MP3音頻壓縮編碼時域壓縮算法時域壓縮技術(shù)一般多用于語音壓縮、低碼率應(yīng)用(源信號帶寬?。┑膱龊?。時域壓縮技術(shù)主要包括PCM、ADPCM、LPC、CELP,以及在這些技術(shù)上發(fā)展起來的塊壓擴(kuò)技術(shù)。 脈沖編碼調(diào)制(PCM) 增量調(diào)制連續(xù)可變斜率增量調(diào)制(CVSD)自適應(yīng)差分脈沖編碼調(diào)制(ADPCM) 數(shù)字電路倍增設(shè)備自適應(yīng)差分脈沖編碼調(diào)制 時域壓縮算法嵌入式自適應(yīng)差分脈沖編碼調(diào)制(E-ADPCM)線性預(yù)測編碼(LPC) 殘

3、差激勵線性預(yù)測編碼(RELP) 碼激勵線性預(yù)測編碼(CELP)低時延碼激勵線性預(yù)測編碼(LD-CELP)矢量和激勵線性預(yù)測編碼(VSELP)代數(shù)碼本激勵線性預(yù)測編碼(ACELP) 共扼結(jié)構(gòu)代數(shù)碼激勵線性預(yù)測編碼(CS-ACELP) 規(guī)則脈沖激勵長時預(yù)測線性預(yù)測編碼(RPE-LTP-LPC) 脈沖編碼調(diào)制 聲音數(shù)字化有兩個步驟:第一步是采樣,就是每隔一段時間間隔讀一次聲音的幅度;第二步是量化,就是把采樣得到的聲音信號幅度轉(zhuǎn)換成數(shù)字值。 量化有好幾種方法,但可歸納成兩類:一類稱為均勻量化,另一類稱為非均勻量化。如果采用相等的量化間隔對采樣得到的信號作量化,那么這種量化稱為均勻量化。均勻量化就是采用

4、相同的“等分尺”來度量采樣得到的幅度,也稱為線性量化。這種方法稱為脈沖編碼調(diào)制,用PCM表示。 非線性量化非線性量化的基本想法是,對輸入信號進(jìn)行量化時,大的輸入信號采用大的量化間隔,小的輸入信號采用小的量化間隔。在非線性量化中,采樣輸入信號幅度和量化輸出數(shù)據(jù)之間定義了兩種對應(yīng)關(guān)系,一種稱為m律壓(縮)擴(kuò)(展)算法,另一種稱為A律壓(縮)擴(kuò)(展)算法。 m律壓(縮)擴(kuò)(展)算法m律壓擴(kuò)用在北美和日本等地區(qū)的數(shù)字電話通信中,按下面的式子確定量化輸入和輸出的關(guān)系:式中:x為輸入信號幅度,規(guī)格化成-1 x 1; sgn(x)為x的極性;m為確定壓縮量的參數(shù),它反映最大量化間隔和最小量化間隔之比,取10

5、0m500。 A律壓(縮)擴(kuò)(展)算法A律(A-Law)壓擴(kuò)用在歐洲和中國大陸等地區(qū)的數(shù)字電話通信中,按下面的式子確定量化輸入和輸出的關(guān)系:式中:x為輸入信號幅度,規(guī)格化成-1x1,sgn(x)為x的極性;A為確定壓縮量的參數(shù),它反映最大量化間隔和最小量化間隔之比。 增量調(diào)制增量調(diào)制DM(Delta Modulation)是一種預(yù)測編碼技術(shù)。 DM是對實(shí)際的采樣信號與預(yù)測的采樣信號之差的極性進(jìn)行編碼,將極性變成“0”和“1”這兩種可能的取值之一。如果實(shí)際的采樣信號與預(yù)測的采樣信號之差的極性為“正”,則用“1”表示;相反則用“0”表示。由于DM編碼只須用1比特對信號進(jìn)行編碼,所以DM編碼系統(tǒng)又稱

6、為“1比特系統(tǒng)”。 DM波形編碼的原理圖其中xi表示在i點(diǎn)的編碼輸出, yi表示輸入信號的實(shí)際值, yi表示輸入信號的預(yù)測值。假設(shè)采用均勻量化,量化階的大小為,在開始位置的輸入信號y0=0,預(yù)測值y0=0,編碼輸出x01 增量調(diào)制的缺點(diǎn)一是會出現(xiàn)斜率過載,即增量調(diào)制器的輸出不能保持跟蹤輸入信號的快速變化 二是會產(chǎn)生粒狀噪聲。反饋回路輸出信號的最大變化速率受到量化階大小的限制,因?yàn)榱炕A的大小是固定的。解決方法:自適應(yīng)增量調(diào)制。根據(jù)輸入信號斜率的變化自動調(diào)整量化階的大小,以使斜率過載和粒狀噪聲都減到最小。許多研究人員研究了各種各樣的方法,而且?guī)缀跛械姆椒ɑ旧隙际窃跈z測到斜率過載時開始增大量化

7、階,而在輸入信號的斜率減小時降低量化階。 自適應(yīng)差分脈沖編碼調(diào)制ADPCM編碼的方法是對輸入樣值進(jìn)行自適應(yīng)預(yù)測,然后對預(yù)測誤差進(jìn)行量化編碼。它是一種預(yù)測編碼的方法。所謂預(yù)測編碼,是指編碼的對象不是原始信號的采樣量化值,而是對當(dāng)前采樣值與預(yù)測值(根據(jù)前若干個采樣值采用一定的預(yù)測方法產(chǎn)生的輸入信號)的差值進(jìn)行編碼。如果采用的預(yù)測方法足夠準(zhǔn)確(差值將接近于零),可以預(yù)見,這種編碼方法比直接對樣本值進(jìn)行編碼可以采用較少的比特數(shù)。 CCITT的32kbit/s語音編碼標(biāo)準(zhǔn)G.721采用ADPCM編碼方式,每個語音樣值相當(dāng)于用4bit進(jìn)行編碼。自適應(yīng)差分脈沖編碼調(diào)制它的核心想法是:利用自適應(yīng)的思想改變量化

8、階的大小,即使用小的量化階(step-size)去編碼小的差值,使用大的量化階去編碼大的差值 ;使用過去的樣本值估算下一個輸入樣本的預(yù)測值,使實(shí)際樣本值和預(yù)測值之間的差值總是最小。 數(shù)字電路倍增設(shè)備自適應(yīng)差分脈沖編碼調(diào)制 DCME-ADPCM是CCITT G.723語音編碼標(biāo)準(zhǔn)算法這種算法可以在40kbit/s、32kbit/s和24kbit/s三種速率中動態(tài)調(diào)整,以達(dá)到在給定的信道中增加容量的目的 線性預(yù)測編碼 LPC(Linear Predictive Coding)語音編碼是最基本的低速率語音編碼方法,LPC語音編碼的基礎(chǔ)是語音產(chǎn)生模型,在這個模型中,語音是由激勵信號激勵一個自適應(yīng)濾波器

9、(即LPC濾波器)而產(chǎn)生。LPC濾波器的參數(shù)是通過線性預(yù)測的方法,即用過去的樣值預(yù)測當(dāng)前樣值提取的。美國聯(lián)邦標(biāo)準(zhǔn)FS1015的2.4kbitsLPC-10和LPC-10e就是LPC語音編碼的典型例子,主要用于電話線上的窄帶語音保密通信。 低時延碼激勵線性預(yù)測編碼 LD-CELP是CCITT G.728語音編碼標(biāo)準(zhǔn)算法,其輸出速率為16kbit/s。這種方法在CELP算法的基礎(chǔ)上,采用后向自適應(yīng)線性預(yù)測、50階合成濾波、短激勵矢量(5個樣值)等改進(jìn)方法,從而達(dá)到高質(zhì)量和低時延的目的,總的編碼時延小于2ms。 代數(shù)碼本激勵線性預(yù)測編碼極低速率可視電話標(biāo)準(zhǔn)H.324中語音編碼標(biāo)準(zhǔn)是G.723.1,采

10、用5.27kbits和6.3kbits兩種速率,其中5.27kbits速率就是以ACELP算法為基礎(chǔ)。 共扼結(jié)構(gòu)代數(shù)碼激勵線性預(yù)測編碼 CS-ACELP編碼算法被ITU-T的8kbit/s語音編碼標(biāo)準(zhǔn)G.729采用 規(guī)則脈沖激勵長時預(yù)測線性預(yù)測編碼這種算法是歐洲900MHz數(shù)字蜂窩移動電話的語音編碼標(biāo)準(zhǔn)(GSM),也為數(shù)字蜂窩系統(tǒng)DCS1800所采用。 RPE-LTP-LPC算法是MPE-LPC的改進(jìn)算法,除了增加長時預(yù)測功能外,激勵脈沖的位置具有一定的規(guī)律。數(shù)字音頻壓縮技術(shù)音頻壓縮算法的分類時域壓縮算法子帶編碼MP3音頻壓縮編碼子帶編碼子帶編碼SBC(subband coding)的基本思想

11、是,首先使用一組帶通濾波器BPF(band-pass filter)把輸入音頻信號的頻帶分成若干個連續(xù)的頻段,每個頻段稱為子帶。對每個子帶中的音頻信號采用單獨(dú)的編碼方案去編碼。在信道上傳送時,將每個子帶的代碼復(fù)合起來。在接收端譯碼時,將每個子帶的代碼單獨(dú)譯碼,然后把它們組合起來,還原成原來的音頻信號。采用對每個子帶分別編碼的好處有二個。第一,對每個子帶信號分別進(jìn)行自適應(yīng)控制,量化階的大小(quantization step)可以按照每個子帶的能量電平加以調(diào)節(jié)。具有較高能量電平的子帶用大的量化階去量化,以減少總的量化噪聲。第二,可根據(jù)每個子帶信號在感覺上的重要性,對每個子帶分配不同的比特數(shù),用來

12、表示每個樣本值。例如,在低頻子帶中,為了保護(hù)音調(diào)和共振峰的結(jié)構(gòu),就要求用較小的量化階、較多的量化級數(shù),即分配較多的比特數(shù)來表示樣本值。而話音中的摩擦音和類似噪聲的聲音,通常出現(xiàn)在高頻子帶中,對它分配較少的比特數(shù)。 子帶編碼方塊圖子帶編碼對每個子帶分別編碼的好處是: 可以利用人耳(或人眼)對不同頻率信號的感知靈敏度不同的特性,在人的聽覺(或視覺)不敏感的頻段采用較粗糙的量化,從而達(dá)到數(shù)據(jù)壓縮的目的。 各個子帶的量化噪聲都束縛在本子帶內(nèi),這就可以避免能量較小的頻帶內(nèi)的信號被其它頻帶中量化噪聲所掩蓋 通過頻帶分裂,各個子帶的取樣頻率可以成倍下降。 數(shù)字音頻壓縮技術(shù)音頻壓縮算法的分類時域壓縮算法子帶編

13、碼MP3音頻壓縮編碼MP3音頻壓縮編碼 MP3是一種音頻壓縮的國際技術(shù)標(biāo)準(zhǔn)。MP3格式開始于二十世紀(jì)80年代中期,是在德國夫朗和費(fèi)研究所(Fraunhofer Institute)開始的,研究致力于高質(zhì)量、低數(shù)據(jù)率的聲音編碼。1989年,夫朗和費(fèi)研究所在德國被獲準(zhǔn)取得了MP3的專利權(quán),幾年后這項(xiàng)技術(shù)被提交到國際標(biāo)準(zhǔn)組織(ISO),整合進(jìn)入了MPEG-1標(biāo)準(zhǔn)。 MP3格式是一個讓音樂界產(chǎn)生巨大震動的一個聲音格式。MP3的全稱是Moving Picture Experts Group, Audio Layer 3,它所使用的技術(shù)是在VCD(MPEG-1)的音頻壓縮技術(shù)上發(fā)展出的第三代,而不是MPE

14、G-3。 MP3音頻壓縮編碼MPEG代表的是MPEG活動影音壓縮標(biāo)準(zhǔn),MPEG音頻文件指的是MPEG標(biāo)準(zhǔn)中的聲音部分即MPEG音頻層。MPEG音頻文件根據(jù)壓縮質(zhì)量和編碼復(fù)雜程度的不同可分為三層(MPEG AUDIO LAYER 1/2/3分別與MP1、MP2和MP3這三種聲音文件相對應(yīng))。MPEG音頻編碼具有很高的壓縮率,MP1和MP2的壓縮率分別為4:1和6:1-8:1,而MP3的壓縮率則高達(dá)10:112:1,也就是說一分鐘CD音質(zhì)的音樂未經(jīng)壓縮需要10MB存儲空間,而經(jīng)過MP3壓縮編碼后只有1MB左右,同時其音質(zhì)基本保持不失真。MP3音頻壓縮編碼音樂信號中有許多冗余成分,其中包括間隔和一些

15、人耳分辨不出的信息(如混雜在較強(qiáng)背景中的弱信號)。MP3為降低聲音失真采取了名為“感官編碼技術(shù)”的編碼算法:編碼時先對音頻文件進(jìn)行頻譜分析,然后用過濾器濾掉噪音,接著通過量化的方式將剩下的每一位打散排列,最后形成具有較高壓縮比的MP3文件,并使壓縮后的文件在回放時能夠達(dá)到比較接近原音源的聲音效果。雖然它是一種有損壓縮,但是它的最大優(yōu)勢是以極小的聲音失真換來了較高的壓縮比。 音頻編碼標(biāo)準(zhǔn) G.711 G.722 G.723.1 G.728 G.729 音頻編碼標(biāo)準(zhǔn)比較G.711 1972年CCITT為電話質(zhì)量和語音壓縮制定了PCM標(biāo)準(zhǔn)G.711。其速率為64kb/s,使用律或A律的非線性量化技術(shù)

16、,主要用于公共電話網(wǎng)中。 G.7221988年CCITT為調(diào)幅廣播質(zhì)量的音頻信號壓縮制定了G.722標(biāo)準(zhǔn),它使用子帶編碼(SBC)方案,其濾波器組將輸入信號分成高低兩個子帶信號,然后分別使用ADPCM進(jìn)行編碼。G.722能將224kb/s的調(diào)幅廣播質(zhì)量的音頻信號壓縮為64kb/s,主要用于視聽多媒體和會議電視等。 G.722的主要目標(biāo)是保持64kb/s的數(shù)據(jù)率,而音頻信號的質(zhì)量要明顯高于G.711的質(zhì)量。 G.723.11996年ITU-T通過了G.723標(biāo)準(zhǔn)“用于多媒體傳輸?shù)?.3kb/s或6.3kb/s雙速率話音編碼”。它采用多脈沖激勵最大似然量化(MP-MLQ)算法,此標(biāo)準(zhǔn)可應(yīng)用于可視電

17、話及IP電話等系統(tǒng)中。 G.728為了進(jìn)一步降低壓縮的速率,CCITT于1992年制定了G.728標(biāo)準(zhǔn),使用基于低時延碼本激勵線性預(yù)測編碼(LD-CELP)算法,其速率為16kb/s,主要用于公共電話網(wǎng)中。 G.729ITU-T于1996年3月通過了G.729標(biāo)準(zhǔn),它使用8kb/s的共軛結(jié)構(gòu)代數(shù)碼激勵線性預(yù)測(CS-ACELP)算法,此標(biāo)準(zhǔn)將在無線移動網(wǎng)、數(shù)字多路復(fù)用系統(tǒng)和計算機(jī)通信系統(tǒng)中應(yīng)用。 音頻編碼標(biāo)準(zhǔn)比較 第四講 數(shù)字語音處理技術(shù) 數(shù)字音頻壓縮技術(shù)三維音效語音識別自然語言理解語音合成 三維音效人類的聽覺3D音效的分類杜比AC-3DTS 人類的聽覺人耳的基本聲音定位原理是IID(Inte

18、raural Intensity Difference,兩側(cè)聲音強(qiáng)度差別)和ITD(Interaural Time Difference,兩側(cè)聲音時間延遲差別)。IID指距離音源較近的哪一邊耳朵,所收到的聲音強(qiáng)度比另一側(cè)高,感到聲音更大一些。ITD指方位的不同,使聲音到達(dá)兩耳的時間有差別,人們會覺得聲音位于到達(dá)時間早些的那一邊,IID+ITD的結(jié)果是把音源定位到以聽者兩耳這間連線為軸線的錐體范圍之內(nèi)。 人類的聽覺耳廓(外耳)的作用是濾波器,根據(jù)聲音的不同角度,加強(qiáng)/減弱音波能量,過濾之后傳給大腦,讓我們更準(zhǔn)確地聲源的位置。耳廓的大小有限,因此能夠收到的音波范圍也有限,通常是20Hz到20KHz

19、,即波長16米到1.6厘米的音波。換言之,低于此范圍是次聲波,高于此范圍是超聲波。 由于兩耳機(jī)的距離約為15厘米,當(dāng)波長大于15厘米時IIT和ITD將會減弱。頻率低的聲音波長大,因此我們很難判斷出低音的位置,卻能輕易分辨高音的方位。實(shí)際上,耳廓對于聲音的定位,是至關(guān)重要的一環(huán),沒有外耳的人難以判斷聲音發(fā)出的位置。 人類的聽覺人類依靠一種稱為HRTF(Head Related Transfer Function,頭部關(guān)聯(lián)傳輸功能)的系統(tǒng)來判斷聲音發(fā)出的位置。每個人的HRTF都不盡相同,還可以進(jìn)行交換。HRTF的檢測非常簡單,先在人的耳道內(nèi)放置兩個微型麥克風(fēng),再在聽者附近放一個音箱,播放確定的信號

20、,同時記錄麥克風(fēng)收到的信號。比較源信號和麥克風(fēng)的脈沖特性曲線就可以得到其中一個濾波效果。最后于聽者附近的所有位置重復(fù)上述過程,即可獲取完整的HRTF系統(tǒng)。 三維音效人類的聽覺3D音效的分類杜比AC-3DTS 3D音效的分類3D音效的兩個最重要因素是定位和交互。定位即讓人們準(zhǔn)確地判斷出聲音的來源,可以通過預(yù)選錄制聲音,再進(jìn)行特定的解碼來實(shí)現(xiàn)。實(shí)時的定位就是交互,聲音并非預(yù)選錄制好的,而是按照你的控制來決定聲音的位置。即時生成的交互式聲音對輸入設(shè)備的要求,比預(yù)選錄制音軌的放音設(shè)備(如:電影)要更強(qiáng)一些。 3D音效的分類擴(kuò)展式立體聲它使用聲音延遲技術(shù)對傳統(tǒng)的立體聲進(jìn)行額外處理,擴(kuò)寬了音場的位置,使聲

21、音延展到音箱以外的空間,讓我們感覺的3D世界更廣闊 環(huán)繞立體聲它采用音頻壓縮技術(shù)(如:杜比AC-3)把多通道音源編碼成一段程序,再以一組多揚(yáng)聲器系統(tǒng)來進(jìn)行解碼,實(shí)現(xiàn)多區(qū)域環(huán)繞效果。 交互式3D音效 交互式3D盡量地復(fù)制了人耳在真實(shí)世界中聽到的聲音,并使用一定的算法來播放出來,讓我們感到整個三維空間的所有地方都可能產(chǎn)生聲音,并隨聽者的移動而做出相應(yīng)改變。 三維音效人類的聽覺 3D音效的分類杜比AC-3DTS 杜比AC-3 為了提高HDTV聲音的質(zhì)量,避免模擬矩陣編碼的局限性,提出了雙通道的碼率提供多通道的編碼性能的設(shè)想,杜比AC-3就是為了實(shí)現(xiàn)這一設(shè)想而開發(fā)的。杜比AC-3可以把五個獨(dú)立的全頻帶

22、和一個超低音通道的信號實(shí)行統(tǒng)一編碼,成為單一的復(fù)合數(shù)據(jù)流。 AC-3的頻響為20Hz20kHz 0.5dB(-3dB時為3Hz20.3kHz),超低聲道頻率范圍是20Hz120Hz 0.5dB??芍С?2kHz、44.1kHz、48kHz三種取樣頻率。數(shù)碼率可低至單聲道的32kb/s,高到多聲道640kb/s,以適應(yīng)不同需要。 杜比AC-3AC-3采用基于改良離散余弦變換(MDCT)的自適應(yīng)變換編碼(ATC)算法。ATC算法的一個重要考慮是基于人耳聽覺掩蔽效應(yīng)的臨界頻帶理論,即在臨界頻帶內(nèi)一個聲音對另一個聲音信號的掩蔽效應(yīng)最明顯。因此,劃分頻帶的濾波器組要有足夠銳利的頻率響應(yīng),以保證臨界頻帶外

23、的噪聲衰減足夠大,使時域和頻域內(nèi)的噪聲限定在掩蔽門限以下。 三維音效人類的聽覺 3D音效的分類杜比AC-3DTS DTSDTS是“Digital Theatre System”的縮寫,是“數(shù)字化影院系統(tǒng)”的意思。從技術(shù)上講,DTS與包括Dolby Digital在內(nèi)的其它聲音處理系統(tǒng)是完全不同的。Dolby Digital是將音效數(shù)據(jù)存儲在電影膠片的齒孔之間,因?yàn)榭臻g的限制而必須采用大量的壓縮的模式,這樣就不得不犧牲部分音質(zhì)。DTS公司用一種簡單的辦法解決了這個問題,即把音效數(shù)據(jù)存儲到另外的CD-ROM中,使其與影像數(shù)據(jù)同步。這樣不但空間得到增加,而且數(shù)據(jù)流量也可以相對變大,更可以將存儲音效數(shù)

24、據(jù)的CD更換,來播放不同的語言版本。 DTSDTS 系統(tǒng)不僅具有 AC-3 相似功能,更加強(qiáng)了其縱深定位交叉效果。DTS 芯片容量為 1536kbps,壓縮傳輸比為 4:1;而 AC-3 芯片容量為 448kbps,壓縮比為 10:1。正是由于DTS 信息容量的增加,音色更加優(yōu)美。DTS 家庭影院的核心是 DTS 解碼器,它可對 DVD,CD 的杜比數(shù)字解碼,輸出 5.1 聲道信息,也可以選擇DTS方式,輸出6 聲道信息。DTS 和杜比數(shù)字在音質(zhì)上有著明顯的不同,前者聲音力度強(qiáng)勁,聲音的上升和切入都很尖銳,音場的透明感清晰可聞,尤其是豐富的低音效果表現(xiàn)得更加激烈火爆。后者在低音方面缺少豐富的力

25、度 第四講 數(shù)字語音處理技術(shù) 數(shù)字音頻壓縮技術(shù)三維音效語音識別自然語言理解語音合成 語音識別技術(shù)及應(yīng)用語音識別的發(fā)展歷史 語音識別技術(shù)語音識別系統(tǒng)的類型 語音識別的應(yīng)用 語音識別的發(fā)展歷史語音識別技術(shù)的研究工作始于20世紀(jì)50年代,當(dāng)時AT&T Bell實(shí)驗(yàn)室實(shí)現(xiàn)了第一個可識別十個英文數(shù)字的語音識別系統(tǒng)Audry系統(tǒng)。 60年代,計算機(jī)的應(yīng)用推動了語音識別的發(fā)展。70年代,語音識別領(lǐng)域取得了突破。 80年代,語音識別研究進(jìn)一步走向深入,其顯著特征是HMM模型和人工神經(jīng)元網(wǎng)絡(luò)(ANN)在語音識別中的成功應(yīng)用。 90年代,隨著多媒體時代的來臨,迫切要求語音識別系統(tǒng)從實(shí)驗(yàn)室走向?qū)嵱谩?語音識別技術(shù)的

26、發(fā)展歷史 如圖表示了從80年代初以來語音識別技術(shù)經(jīng)歷的從孤立詞、小詞匯量、特定人到大詞匯量、非特定人、自然口語識別的發(fā)展歷程。語音識別技術(shù)及應(yīng)用語音識別的發(fā)展歷史 語音識別技術(shù)語音識別系統(tǒng)的類型 語音識別的應(yīng)用 語音識別技術(shù)不同的語音識別系統(tǒng),雖然具體實(shí)現(xiàn)細(xì)節(jié)有所不同,但所采用的基本技術(shù)相似,它所涉及的領(lǐng)域包括:信號處理、模式識別、概率論和信息論、發(fā)聲機(jī)理和聽覺機(jī)理、人工智能等等。 語音識別技術(shù)主要包括特征提取技術(shù)、模式匹配準(zhǔn)則及模型訓(xùn)練技術(shù)三個方面。此外,還涉及到語音識別單元的選取。 特征參數(shù)提取技術(shù) 語音信號中含有豐富的信息,這些信息稱為語音信號的聲學(xué)特征 特征提取是對語音信號進(jìn)行分析處理

27、,去除對語音識別無關(guān)緊要的冗余信息,獲得影響語音識別的重要信息 由于語音信號的時變特性,特征提取必須在一小段語音信號上進(jìn)行,也即進(jìn)行短時分析 常用的一些聲學(xué)特征 線性預(yù)測系數(shù)LPC 倒譜系數(shù)CEP Mel倒譜系數(shù)MFCC和感知線性預(yù)測PLP 模式匹配及模型訓(xùn)練技術(shù) 模型訓(xùn)練是指按照一定的準(zhǔn)則,從大量已知模式中獲取表征該模式本質(zhì)特征的模型參數(shù),而模式匹配則是根據(jù)一定準(zhǔn)則,使未知模式與模型庫中的某一個模型獲得最佳匹配。 語音識別所應(yīng)用的模式匹配和模型訓(xùn)練技術(shù)主要有動態(tài)時間歸正技術(shù)(DTW,又稱為動態(tài)時間彎折技術(shù))、隱馬爾可夫模型(HMM)和人工神經(jīng)元網(wǎng)絡(luò)(ANN)。 典型語音識別系統(tǒng)的實(shí)現(xiàn)過程 語

28、音識別單元的選取 選擇識別單元是語音識別研究的第一步 語音識別單元有單詞(句)、音節(jié)和音素三種 單詞單元廣泛應(yīng)用于中小詞匯語音識別系統(tǒng) 音節(jié)單元多見于漢語語音識別 音素單元以前多見于英語語音識別的研究中,但目前中、大詞匯量漢語語音識別系統(tǒng)也在越來越多地采用 語音識別技術(shù)及應(yīng)用語音識別的發(fā)展歷史 語音識別技術(shù)語音識別系統(tǒng)的類型 語音識別的應(yīng)用 語音識別系統(tǒng)的類型語音識別系統(tǒng)有以下幾種分類方式: 根據(jù)對說話人的依賴程度可以分為特定人和非特定人語音識別系統(tǒng) 根據(jù)對說話人說話方式的要求,可以分為孤立字(詞)語音識別系統(tǒng),連接詞語音識別系統(tǒng)以及連續(xù)語音識別系統(tǒng)根據(jù)詞匯量大小,可以分為小詞匯量、中等詞匯量

29、、大詞匯量以及無限詞匯量語音識別系統(tǒng) 特定人語音識別系統(tǒng) 特定人的識別系統(tǒng)精明得足以能了解講話者的語音特點(diǎn),它從語音簽名上就能知道講話者的身份。 只有在講話者用特定單詞組形成的詞匯表訓(xùn)練系統(tǒng)后,它才能識別 特定人系統(tǒng)的優(yōu)點(diǎn)是它是可訓(xùn)練的,系統(tǒng)很靈活,可以訓(xùn)練它來識別新詞 特定人的系統(tǒng)的缺點(diǎn)是由一個用戶訓(xùn)練的系統(tǒng)不能被另一用戶使用 例:手機(jī)中使用的語音撥號非特定人語音識別系統(tǒng)非持定人識別系統(tǒng)可識別任何用戶的語音。它不需要任何來自用戶的訓(xùn)練,因?yàn)樗灰蕾囉趥€人的語音簽名。 為生成非特定人識別系統(tǒng)、大量的用戶訓(xùn)練了大詞匯表的識別器。 在訓(xùn)練系統(tǒng)時,男聲和女聲、不同的口音和方言,以及帶有背景噪音的環(huán)境

30、都計入了考慮范圍之內(nèi)以生成參考模板。例:IBM Via Voice 孤立詞語音識別系統(tǒng)孤立詞(語音)識別系統(tǒng),一次只提供一個單一詞的識別 識別器的第一個任務(wù)是進(jìn)行幅度和噪聲歸一化,下一步是參數(shù)分析 可以通過把對應(yīng)于一個詞的大量樣本聚集為單一群來獲得非特定人孤立單詞語音識別器。 連接詞語音識別系統(tǒng)連接詞的語音由所說的短語組成,而短語又是由詞序列組成 識別連接詞短語中單詞的一種方法是采用詞定位技術(shù) 類似于孤立詞語音識別,連接詞語音識別用于命令和控制應(yīng)用 連續(xù)語音識別系統(tǒng)連續(xù)語音由在聽寫中形成段落的完整句子組成 連續(xù)語音識別系統(tǒng)可以分成下列三部分: 第一部分包括數(shù)字化、幅度歸一化、時間歸一化和參數(shù)表

31、示 另一部分包括分割并把語音段標(biāo)記成在基于知識或基于規(guī)則系統(tǒng)上的符號串 最后一部分是設(shè)計用于識別詞序列而進(jìn)行語音段匹配 語音識別技術(shù)及應(yīng)用語音識別的發(fā)展歷史 語音識別技術(shù)語音識別系統(tǒng)的類型 語音識別的應(yīng)用 語音識別的應(yīng)用語音郵件集成數(shù)據(jù)庫輸人和詢問應(yīng)用 語音命令和控制應(yīng)用 第四講 數(shù)字語音處理技術(shù) 數(shù)字音頻壓縮技術(shù)三維音效語音識別自然語言理解語音合成 自然語言理解 自然語言理解就是研究如何能讓計算機(jī)理解并生成人們?nèi)粘K褂玫?如漢語、英語)語言,使得計算機(jī)懂得自然語言的含義,并對人給計算機(jī)提出的問題,通過對話的方式,用自然語言進(jìn)行回答。目的在于建立起一種人與機(jī)器之間的密切而友好的關(guān)系,使之能進(jìn)

32、行高度的信息傳遞與認(rèn)知活動。 用自然語言與計算機(jī)進(jìn)行通信,這是人們長期以來所追求的。自然語言理解一個中文文本從形式上看是由漢字(包括標(biāo)點(diǎn)符號等)組成的一個字符串。由字可組成詞,由詞可組成詞組,由詞組可組成句子,進(jìn)而由一些句子組成段、節(jié)、章、篇。無論在上述的各種層次:字(符)、詞、詞組、句子、段,還是在下一層次向上一層次轉(zhuǎn)變中都存在著歧義和多義現(xiàn)象,即形式上一樣的一段字符串,在不同的場景或不同的語境下,可以理解成不同的詞串、詞組串等,并有不同的意義。自然語言處理的核心技術(shù)是語言分析技術(shù),即將句子(數(shù)量無限)變換成由詞語(數(shù)量可控)及其抽象形式(數(shù)量有限)構(gòu)成的用某種數(shù)據(jù)結(jié)構(gòu)(句法樹、復(fù)雜特征集或

33、語義網(wǎng)絡(luò))表示的內(nèi)部形式(數(shù)量有限)。 自然語言理解語言分析技術(shù)可以分為基于規(guī)則與基于統(tǒng)計數(shù)據(jù)兩大類。概率語法通過語料庫統(tǒng)計給每條語言規(guī)則加上概率值,語言規(guī)則便有了“柔性”,不再是“說一不二”、“非此即彼”。概率語法是有機(jī)結(jié)合這兩類技術(shù)的較好理論體系。為了完成這種統(tǒng)計,事先必須按照人給出的語言規(guī)則加工語料庫(至少要加工一部分訓(xùn)練語料),這說明統(tǒng)計方法也需要規(guī)則的指導(dǎo)。兩者之間的結(jié)合和互相利用是必然的趨勢。 自然語言理解語言分析可以劃分為詞法析、句法分析、語義分析、篇章分析等步驟?,F(xiàn)在,詞法分析和句法分析相對成熟,語義分析逐漸成為研究重點(diǎn)。對象單元由小到大從句子向篇章發(fā)展。實(shí)際上只有在篇章的范圍

34、內(nèi)分析,省略、指代和句子的固有歧義等問題才可能解決。 如果說自然語言處理技術(shù)尚未取得重大突破,其含義就是完整語言分析技術(shù)尚未過關(guān)。淺層分析技術(shù)或者只提取句子中的名詞短語,或者只識別句子的謂語中心詞及其他組塊同謂語中心詞的依存關(guān)系。這樣的技術(shù)就是適應(yīng)當(dāng)今大規(guī)模網(wǎng)上文本信息處理,例如,文獻(xiàn)檢索、信息提取和文本分類等的需要,吸收傳統(tǒng)的語言分析中某些局部技術(shù)而發(fā)展起來的。 第四講 數(shù)字語音處理技術(shù) 數(shù)字音頻壓縮技術(shù)三維音效語音識別自然語言理解語音合成 語音合成語音合成是以言語產(chǎn)生模型為基礎(chǔ),分析抽取激勵源,聲道的特征參數(shù);再利用這些特征參數(shù)重新綜合出語音信號的過程。 語音合成是通過一個聲學(xué)模塊來具體實(shí)

35、現(xiàn)的。語音合成早期的語音合成技術(shù)的研究,往往集中在語音合成算法本身,其研究的方法和手段與語音編碼有很多相似之處。進(jìn)入20世紀(jì)90年代以來,波形拼接(PSOLA,Pitch Synchronous OverLap Add)的算法,越來越被廣泛地應(yīng)用在語音合成系統(tǒng)中。PSOLA較好地解決了語音拼接中的問題,從而推動了波形編輯語音合成技術(shù)的發(fā)展與應(yīng)用。近年來,一些新的方法,如人工神經(jīng)網(wǎng)絡(luò)、決策樹、隱馬爾可夫模型等被廣泛地應(yīng)用于語音合成技術(shù)。 TTS TTS即文本語音轉(zhuǎn)換技術(shù)(Text To Speech),它涉及聲學(xué)、語言學(xué)、數(shù)學(xué)信號處理技術(shù)、多媒體技術(shù)等多個學(xué)科技術(shù),是中文信息處理領(lǐng)域的一項(xiàng)前沿技

36、術(shù),實(shí)現(xiàn)把計算機(jī)中任意出現(xiàn)的文字轉(zhuǎn)換成自然流暢的語音輸出。 TS系統(tǒng)是一種以文字串為輸入的規(guī)則合成系統(tǒng)。其輸入的文字串為通常的文本字符串。系統(tǒng)中的文本分析器首先根據(jù)發(fā)音字典,將輸入的文字串分節(jié)為帶有標(biāo)記的詞及其讀音符號,再根據(jù)語義規(guī)則和語音規(guī)則,為每一個詞、每一個音節(jié)確定聲音等級和語調(diào),以及各種停頓等。這樣文字串就轉(zhuǎn)換為代碼串。規(guī)則合成系統(tǒng)就可據(jù)此合成抑揚(yáng)頓挫和不同語氣的語句。 視覺語音 視覺語音是指人們在用語言交流時所表達(dá)出的面部表情和動作,它能在一定程度上傳達(dá)人們想要表達(dá)的意思,并能幫助人們加深對語言的理解。 近年來出現(xiàn)了另一種多媒體研究熱潮,即把聲音和文字、圖像集成在一起,形成直接由文本

37、到可視語音的轉(zhuǎn)換(text-to-visual speech,TTVS),使人們在聽計算機(jī)說話的同時能看到一個合成的人臉,使人機(jī)交互界面更為友好、和諧。 視覺語音TTVS的實(shí)現(xiàn)方法可分為以下兩類:基于參數(shù)控制的方法。首先對人臉建立一個網(wǎng)格模型,包括多個多邊形(一般是三角形)和頂點(diǎn)。由一組參數(shù)來控制每個頂點(diǎn)的運(yùn)動,再通過圖像變形技術(shù)實(shí)現(xiàn)人臉上各個像素點(diǎn)的運(yùn)動,來生成人們說話時的各種面部表情。 基于數(shù)據(jù)驅(qū)動的方法。類似于語音合成中的波形拼接合成法。通過對人們說話時可能出現(xiàn)的各種表情進(jìn)行錄像,從中提取大量的原始數(shù)據(jù),建立圖像數(shù)據(jù)庫。在合成時從庫中選擇合適的圖像進(jìn)行拼接,并進(jìn)行一些消除圖像邊緣效應(yīng)和抖

38、動的處理,生成動態(tài)的連續(xù)的說話者的面部表情。 (第14講)考場作文開拓文路能力分解層次(網(wǎng)友來稿)江蘇省鎮(zhèn)江中學(xué) 陳乃香說明:本系列稿共24講,20XX年1月6日開始在資源上連載【要義解說】文章主旨確立以后,就應(yīng)該恰當(dāng)?shù)胤纸鈱哟危箮讉€層次構(gòu)成一個有機(jī)的整體,形成一篇完整的文章。如何分解層次主要取決于表現(xiàn)主旨的需要?!静呗越庾x】一般說來,記人敘事的文章常按時間順序分解層次,寫景狀物的文章常按時間順序、空間順序分解層次;說明文根據(jù)說明對象的特點(diǎn),可按時間順序、空間順序或邏輯順序分解層次;議論文主要根據(jù)“提出問題分析問題解決問題”順序來分解層次。當(dāng)然,分解層次不是一層不變的固定模式,而應(yīng)該富于變化

39、。文章的層次,也常常有些外在的形式:1小標(biāo)題式。即圍繞話題把一篇文章劃分為幾個相對獨(dú)立的部分,再給它們加上一個簡潔、恰當(dāng)?shù)男?biāo)題。如世界改變了模樣四個小標(biāo)題:壽命變“長”了、世界變“小”了、勞動變“輕”了、文明變“綠”了。 2序號式。序號式作文與小標(biāo)題作文有相同的特點(diǎn)。序號可以是“一、二、三”,可以是“A、B、C”,也可以是“甲、乙、丙”從全文看,序號式干凈、明快;但從題目上看,卻看不出文章內(nèi)容,只是標(biāo)明了層次與部分。有時序號式作文,也適用于敘述性文章,為故事情節(jié)的展開,提供了明晰的層次。 3總分式。如高考佳作人生也是一張答卷。開頭:“人生就是一張答卷。它上面有選擇題、填空題、判斷題和問答題,

40、但它又不同于一般的答卷。一般的答卷用手來書寫,人生的答卷卻要用行動來書寫?!敝黧w部分每段首句分別為:選擇題是對人生進(jìn)行正確的取舍,填空題是充實(shí)自己的人生,判斷題是表明自己的人生態(tài)度,問答題是考驗(yàn)自己解決問題的能力。這份“試卷”設(shè)計得合理而且實(shí)在,每個人的人生都是不同的,這就意味著這份人生試卷的“答案是豐富多彩的”。分解層次,應(yīng)追求作文美學(xué)的三個價值取向:一要勻稱美。什么材料在前,什么材料在后,要合理安排;什么材料詳寫,什么材料略寫,要通盤考慮。自然段是構(gòu)成文章的基本單位,恰當(dāng)劃分自然段,自然就成為分解層次的基本要求。該分段處就分段,不要老是開頭、正文、結(jié)尾“三段式”,這種老套的層次顯得呆板。二

41、要波瀾美。文章內(nèi)容應(yīng)該有張有弛,有起有伏,如波如瀾。只有這樣才能使文章起伏錯落,一波三折,吸引讀者。三要圓合美。文章的開頭與結(jié)尾要遙相照應(yīng),把開頭描寫的事物或提出的問題,在結(jié)尾處用各種方式加以深化或回答,給人首尾圓合的感覺?!纠慕馄省?話題:忙忙,不亦樂乎 忙,是人生中一個個步驟,每個人所忙的事務(wù)不同,但是不能是碌碌無為地白忙,要忙就忙得精彩,忙得不亦樂乎。 忙是問號。忙看似簡單,但其中卻大有學(xué)問。忙是人生中不可缺少的一部分,但是怎么才能忙出精彩,忙得不亦樂乎,卻并不簡單。人生如同一張地圖,我們一直在自己的地圖上行走,時不時我們眼前就出現(xiàn)一個十字路口,我們該向哪兒,面對那縱軸橫軸相交的十字路口,我們該怎樣選擇?不急,靜下心來分析一下,選擇適合自己的坐標(biāo)軸才是最重要的。忙就是如此,選擇自己該忙的才能忙得有意義。忙是問號,這個問號一直提醒我們要忙得有意義,忙得不亦樂乎。 忙是省

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論