多媒體計(jì)算機(jī)技術(shù)-

上傳人：A*** IP屬地：廣東上傳時(shí)間：2022-08-29 格式：PPT 頁(yè)數(shù)：83 大?。?07KB 積分：15 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩78頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、多媒體計(jì)算機(jī)技術(shù)魯宏偉第四講數(shù)字語(yǔ)音處置技術(shù) 數(shù)字音頻緊縮技術(shù)三維音效語(yǔ)音識(shí)別自然言語(yǔ)了解語(yǔ)音合成數(shù)字音頻緊縮技術(shù)音頻緊縮技術(shù)指的是對(duì)原始數(shù)字音頻信號(hào)流PCM編碼運(yùn)用適當(dāng)?shù)臄?shù)字信號(hào)處置技術(shù)，在不損失有用信息量，或所引入損失可忽略的條件下，降低緊縮其碼率，也稱為緊縮編碼。它必需具有相應(yīng)的逆變換，稱為解緊縮或解碼。音頻信號(hào)在經(jīng)過(guò)一個(gè)編解碼系統(tǒng)后能夠引入大量的噪聲和一定的失真。數(shù)字音頻緊縮技術(shù)音頻緊縮算法的分類時(shí)域緊縮算法子帶編碼MP3音頻緊縮編碼音頻緊縮算法的分類普通來(lái)講，可以將音頻緊縮技術(shù)分為無(wú)損lossless緊縮及有損lossy緊縮兩大類，而按照緊縮方案的不同，

2、又可將其劃分為時(shí)域緊縮、變換緊縮、子帶緊縮，以及多種技術(shù)相互交融的混合緊縮等等。時(shí)域緊縮或稱為波形編碼子帶緊縮技術(shù)變換緊縮技術(shù) 數(shù)字音頻緊縮技術(shù)音頻緊縮算法的分類時(shí)域緊縮算法子帶編碼MP3音頻緊縮編碼時(shí)域緊縮算法時(shí)域緊縮技術(shù)普通多用于語(yǔ)音緊縮、低碼率運(yùn)用源信號(hào)帶寬小的場(chǎng)所。時(shí)域緊縮技術(shù)主要包括PCM、ADPCM、LPC、CELP，以及在這些技術(shù)上開展起來(lái)的塊壓擴(kuò)技術(shù)。脈沖編碼調(diào)制(PCM) 增量調(diào)制延續(xù)可變斜率增量調(diào)制CVSD自順應(yīng)差分脈沖編碼調(diào)制ADPCM 數(shù)字電路倍增設(shè)備自順應(yīng)差分脈沖編碼調(diào)制時(shí)域緊縮算法嵌入式自順應(yīng)差分脈沖編碼調(diào)制E-ADPCM線性預(yù)測(cè)編碼LPC 殘差鼓勵(lì)線性預(yù)測(cè)編

3、碼RELP 碼鼓勵(lì)線性預(yù)測(cè)編碼CELP低時(shí)延碼鼓勵(lì)線性預(yù)測(cè)編碼LD-CELP矢量和鼓勵(lì)線性預(yù)測(cè)編碼VSELP代數(shù)碼本鼓勵(lì)線性預(yù)測(cè)編碼(ACELP) 共扼構(gòu)造代數(shù)碼鼓勵(lì)線性預(yù)測(cè)編碼CS-ACELP 規(guī)那么脈沖鼓勵(lì)長(zhǎng)時(shí)預(yù)測(cè)線性預(yù)測(cè)編碼RPE-LTP-LPC 脈沖編碼調(diào)制聲音數(shù)字化有兩個(gè)步驟：第一步是采樣，就是每隔一段時(shí)間間隔讀一次聲音的幅度；第二步是量化，就是把采樣得到的聲音信號(hào)幅度轉(zhuǎn)換成數(shù)字值。量化有好幾種方法，但可歸納成兩類：一類稱為均勻量化，另一類稱為非均勻量化。假設(shè)采用相等的量化間隔對(duì)采樣得到的信號(hào)作量化，那么這種量化稱為均勻量化。均勻量化就是采用一樣的“等分尺來(lái)度量采樣得到的幅度，也

4、稱為線性量化。這種方法稱為脈沖編碼調(diào)制，用PCM表示。非線性量化非線性量化的根本想法是，對(duì)輸入信號(hào)進(jìn)展量化時(shí)，大的輸入信號(hào)采用大的量化間隔，小的輸入信號(hào)采用小的量化間隔。在非線性量化中，采樣輸入信號(hào)幅度和量化輸出數(shù)據(jù)之間定義了兩種對(duì)應(yīng)關(guān)系，一種稱為m律壓(縮)擴(kuò)(展)算法，另一種稱為A律壓(縮)擴(kuò)(展)算法。 m律壓(縮)擴(kuò)(展)算法m律壓擴(kuò)用在北美和日本等地域的數(shù)字通訊中，按下面的式子確定量化輸入和輸出的關(guān)系：式中：x為輸入信號(hào)幅度，規(guī)格化成-1 x 1; sgn(x)為x的極性；m為確定緊縮量的參數(shù)，它反映最大量化間隔和最小量化間隔之比，取100m500。 A律壓(縮)擴(kuò)(展)算法A律(

5、A-Law)壓擴(kuò)用在歐洲和中國(guó)大陸等地域的數(shù)字通訊中，按下面的式子確定量化輸入和輸出的關(guān)系：式中：x為輸入信號(hào)幅度，規(guī)格化成-1x1，sgn(x)為x的極性；A為確定緊縮量的參數(shù)，它反映最大量化間隔和最小量化間隔之比。增量調(diào)制增量調(diào)制DM(Delta Modulation)是一種預(yù)測(cè)編碼技術(shù)。 DM是對(duì)實(shí)踐的采樣信號(hào)與預(yù)測(cè)的采樣信號(hào)之差的極性進(jìn)展編碼，將極性變成“0和“1這兩種能夠的取值之一。假照實(shí)踐的采樣信號(hào)與預(yù)測(cè)的采樣信號(hào)之差的極性為“正，那么用“1表示；相反那么用“0表示。由于DM編碼只須用1比特對(duì)信號(hào)進(jìn)展編碼，所以DM編碼系統(tǒng)又稱為“1比特系統(tǒng)。 DM波形編碼的原理圖其中xi表示在i

6、點(diǎn)的編碼輸出， yi表示輸入信號(hào)的實(shí)踐值， yi表示輸入信號(hào)的預(yù)測(cè)值。假設(shè)采用均勻量化，量化階的大小為，在開場(chǎng)位置的輸入信號(hào)y0=0，預(yù)測(cè)值y0=0，編碼輸出x01 增量調(diào)制的缺陷一是會(huì)出現(xiàn)斜率過(guò)載，即增量調(diào)制器的輸出不能堅(jiān)持跟蹤輸入信號(hào)的快速變化二是會(huì)產(chǎn)生粒狀噪聲。反響回路輸出信號(hào)的最大變化速率遭到量化階大小的限制，由于量化階的大小是固定的。處理方法：自順應(yīng)增量調(diào)制。根據(jù)輸入信號(hào)斜率的變化自動(dòng)調(diào)整量化階的大小，以使斜率過(guò)載和粒狀噪聲都減到最小。許多研討人員研討了各種各樣的方法，而且?guī)缀跻磺械姆椒ǜ旧隙际窃跈z測(cè)到斜率過(guò)載時(shí)開場(chǎng)增大量化階，而在輸入信號(hào)的斜率減小時(shí)降低量化階。自順應(yīng)差分脈沖

7、編碼調(diào)制ADPCM編碼的方法是對(duì)輸入樣值進(jìn)展自順應(yīng)預(yù)測(cè)，然后對(duì)預(yù)測(cè)誤差進(jìn)展量化編碼。它是一種預(yù)測(cè)編碼的方法。所謂預(yù)測(cè)編碼，是指編碼的對(duì)象不是原始信號(hào)的采樣量化值，而是對(duì)當(dāng)前采樣值與預(yù)測(cè)值根據(jù)前假設(shè)干個(gè)采樣值采用一定的預(yù)測(cè)方法產(chǎn)生的輸入信號(hào)的差值進(jìn)展編碼。假設(shè)采用的預(yù)測(cè)方法足夠準(zhǔn)確差值將接近于零，可以預(yù)見，這種編碼方法比直接對(duì)樣本值進(jìn)展編碼可以采用較少的比特?cái)?shù)。 CCITT的32kbit/s語(yǔ)音編碼規(guī)范G.721采用ADPCM編碼方式，每個(gè)語(yǔ)音樣值相當(dāng)于用4bit進(jìn)展編碼。自順應(yīng)差分脈沖編碼調(diào)制它的中心想法是：利用自順應(yīng)的思想改動(dòng)量化階的大小，即使用小的量化階(step-size)去編碼小的差值

8、，運(yùn)用大的量化階去編碼大的差值；運(yùn)用過(guò)去的樣本值估算下一個(gè)輸入樣本的預(yù)測(cè)值，使實(shí)踐樣本值和預(yù)測(cè)值之間的差值總是最小。數(shù)字電路倍增設(shè)備自順應(yīng)差分脈沖編碼調(diào)制 DCME-ADPCM是CCITT G.723語(yǔ)音編碼規(guī)范算法這種算法可以在40kbit/s、32kbit/s和24kbit/s三種速率中動(dòng)態(tài)調(diào)整，以到達(dá)在給定的信道中添加容量的目的線性預(yù)測(cè)編碼 LPC(Linear Predictive Coding)語(yǔ)音編碼是最根本的低速率語(yǔ)音編碼方法，LPC語(yǔ)音編碼的根底是語(yǔ)音產(chǎn)生模型，在這個(gè)模型中，語(yǔ)音是由鼓勵(lì)信號(hào)鼓勵(lì)一個(gè)自順應(yīng)濾波器即LPC濾波器而產(chǎn)生。LPC濾波器的參數(shù)是經(jīng)過(guò)線性預(yù)測(cè)的方法，

9、即用過(guò)去的樣值預(yù)測(cè)當(dāng)前樣值提取的。美國(guó)聯(lián)邦規(guī)范FS1015的2.4kbitsLPC-10和LPC-10e就是LPC語(yǔ)音編碼的典型例子，主要用于線上的窄帶語(yǔ)音嚴(yán)密通訊。低時(shí)延碼鼓勵(lì)線性預(yù)測(cè)編碼 LD-CELP是CCITT G.728語(yǔ)音編碼規(guī)范算法，其輸出速率為16kbit/s。這種方法在CELP算法的根底上，采用后向自順應(yīng)線性預(yù)測(cè)、50階合成濾波、短鼓勵(lì)矢量5個(gè)樣值等改良方法，從而到達(dá)高質(zhì)量和低時(shí)延的目的，總的編碼時(shí)延小于2ms。代數(shù)碼本鼓勵(lì)線性預(yù)測(cè)編碼極低速率可視規(guī)范H.324中語(yǔ)音編碼規(guī)范是G.723.1，采用5.27kbits和6.3kbits兩種速率，其中5.27kbits速率就是

10、以ACELP算法為根底。共扼構(gòu)造代數(shù)碼鼓勵(lì)線性預(yù)測(cè)編碼 CS-ACELP編碼算法被ITU-T的8kbit/s語(yǔ)音編碼規(guī)范G.729采用規(guī)那么脈沖鼓勵(lì)長(zhǎng)時(shí)預(yù)測(cè)線性預(yù)測(cè)編碼這種算法是歐洲900MHz數(shù)字蜂窩挪動(dòng)的語(yǔ)音編碼規(guī)范GSM，也為數(shù)字蜂窩系統(tǒng)DCS1800所采用。 RPE-LTP-LPC算法是MPE-LPC的改良算法，除了添加長(zhǎng)時(shí)預(yù)測(cè)功能外，鼓勵(lì)脈沖的位置具有一定的規(guī)律。數(shù)字音頻緊縮技術(shù)音頻緊縮算法的分類時(shí)域緊縮算法子帶編碼MP3音頻緊縮編碼子帶編碼子帶編碼SBC(subband coding)的根本思想是，首先運(yùn)用一組帶通濾波器BPF(band-pass filter)把輸入音頻信號(hào)的

11、頻帶分成假設(shè)干個(gè)延續(xù)的頻段，每個(gè)頻段稱為子帶。對(duì)每個(gè)子帶中的音頻信號(hào)采用單獨(dú)的編碼方案去編碼。在信道上傳送時(shí)，將每個(gè)子帶的代碼復(fù)合起來(lái)。在接納端譯碼時(shí)，將每個(gè)子帶的代碼單獨(dú)譯碼，然后把它們組合起來(lái)，復(fù)原成原來(lái)的音頻信號(hào)。采用對(duì)每個(gè)子帶分別編碼的益處有二個(gè)。第一，對(duì)每個(gè)子帶信號(hào)分別進(jìn)展自順應(yīng)控制，量化階的大小(quantization step)可以按照每個(gè)子帶的能量電平加以調(diào)理。具有較高能量電平的子帶用大的量化階去量化，以減少總的量化噪聲。第二，可根據(jù)每個(gè)子帶信號(hào)在覺得上的重要性，對(duì)每個(gè)子帶分配不同的比特?cái)?shù)，用來(lái)表示每個(gè)樣本值。例如，在低頻子帶中，為了維護(hù)音調(diào)和共振峰的構(gòu)造，就要求用較小的量化

12、階、較多的量化級(jí)數(shù)，即分配較多的比特?cái)?shù)來(lái)表示樣本值。而話音中的摩擦音和類似噪聲的聲音，通常出如今高頻子帶中，對(duì)它分配較少的比特?cái)?shù)。子帶編碼方塊圖子帶編碼對(duì)每個(gè)子帶分別編碼的益處是：可以利用人耳或人眼對(duì)不同頻率信號(hào)的感知靈敏度不同的特性，在人的聽覺或視覺不敏感的頻段采用較粗糙的量化，從而到達(dá)數(shù)據(jù)緊縮的目的。各個(gè)子帶的量化噪聲都束縛在本子帶內(nèi)，這就可以防止能量較小的頻帶內(nèi)的信號(hào)被其它頻帶中量化噪聲所掩蓋經(jīng)過(guò)頻帶分裂，各個(gè)子帶的取樣頻率可以成倍下降。數(shù)字音頻緊縮技術(shù)音頻緊縮算法的分類時(shí)域緊縮算法子帶編碼MP3音頻緊縮編碼MP3音頻緊縮編碼 MP3是一種音頻緊縮的國(guó)際技術(shù)規(guī)范。MP3格式開場(chǎng)

13、于二十世紀(jì)80年代中期，是在德國(guó)夫朗和費(fèi)研討所Fraunhofer Institute開場(chǎng)的，研討努力于高質(zhì)量、低數(shù)據(jù)率的聲音編碼。1989年，夫朗和費(fèi)研討所在德國(guó)被獲準(zhǔn)獲得了MP3的專利權(quán)，幾年后這項(xiàng)技術(shù)被提交到國(guó)際規(guī)范組織(ISO)，整合進(jìn)入了MPEG-1規(guī)范。 MP3格式是一個(gè)讓音樂(lè)界產(chǎn)生宏大震動(dòng)的一個(gè)聲音格式。MP3的全稱是Moving Picture Experts Group, Audio Layer 3，它所運(yùn)用的技術(shù)是在VCDMPEG-1的音頻緊縮技術(shù)上開展出的第三代，而不是MPEG-3。 MP3音頻緊縮編碼MPEG代表的是MPEG活動(dòng)影音緊縮規(guī)范，MPEG音頻文件指的是MPE

14、G規(guī)范中的聲音部分即MPEG音頻層。MPEG音頻文件根據(jù)緊縮質(zhì)量和編碼復(fù)雜程度的不同可分為三層MPEG AUDIO LAYER 1/2/3分別與MP1、MP2和MP3這三種聲音文件相對(duì)應(yīng)。MPEG音頻編碼具有很高的緊縮率，MP1和MP2的緊縮率分別為4:1和6:1-8:1，而MP3的緊縮率那么高達(dá)10:112:1，也就是說(shuō)一分鐘CD音質(zhì)的音樂(lè)未經(jīng)緊縮需求10MB存儲(chǔ)空間，而經(jīng)過(guò)MP3緊縮編碼后只需1MB左右，同時(shí)其音質(zhì)根本堅(jiān)持不失真。MP3音頻緊縮編碼音樂(lè)信號(hào)中有許多冗余成分，其中包括間隔和一些人耳分辨不出的信息如混雜在較強(qiáng)背景中的弱信號(hào)。MP3為降低聲音失真采取了名為“感官編碼技術(shù)的編碼算法

15、：編碼時(shí)先對(duì)音頻文件進(jìn)展頻譜分析，然后用過(guò)濾器濾掉噪音，接著經(jīng)過(guò)量化的方式將剩下的每一位打散陳列，最后構(gòu)成具有較高緊縮比的MP3文件，并使緊縮后的文件在回放時(shí)可以到達(dá)比較接近原音源的聲音效果。雖然它是一種有損緊縮，但是它的最大優(yōu)勢(shì)是以極小的聲音失真換來(lái)了較高的緊縮比。音頻編碼規(guī)范 G.711 G.722 G.723.1 G.728 G.729 音頻編碼規(guī)范比較G.711 1972年CCITT為質(zhì)量和語(yǔ)音緊縮制定了PCM規(guī)范G.711。其速率為64kb/s，運(yùn)用律或A律的非線性量化技術(shù)，主要用于公共網(wǎng)中。 G.7221988年CCITT為調(diào)幅廣播質(zhì)量的音頻信號(hào)緊縮制定了G.722規(guī)范，它運(yùn)用子

16、帶編碼(SBC)方案，其濾波器組將輸入信號(hào)分成高低兩個(gè)子帶信號(hào)，然后分別運(yùn)用ADPCM進(jìn)展編碼。G.722能將224kb/s的調(diào)幅廣播質(zhì)量的音頻信號(hào)緊縮為64kb/s，主要用于視聽多媒體和會(huì)議電視等。 G.722的主要目的是堅(jiān)持64kb/s的數(shù)據(jù)率，而音頻信號(hào)的質(zhì)量要明顯高于G.711的質(zhì)量。 G.723.11996年ITU-T經(jīng)過(guò)了G.723規(guī)范“用于多媒體傳輸?shù)?.3kb/s或6.3kb/s雙速率話音編碼。它采用多脈沖鼓勵(lì)最大似然量化(MP-MLQ)算法，此規(guī)范可運(yùn)用于可視及IP等系統(tǒng)中。 G.728為了進(jìn)一步降低緊縮的速率，CCITT于1992年制定了G.728規(guī)范，運(yùn)用基于低時(shí)延碼本鼓

17、勵(lì)線性預(yù)測(cè)編碼(LD-CELP)算法，其速率為16kb/s，主要用于公共網(wǎng)中。 G.729ITU-T于1996年3月經(jīng)過(guò)了G.729規(guī)范，它運(yùn)用8kb/s的共軛構(gòu)造代數(shù)碼鼓勵(lì)線性預(yù)測(cè)(CS-ACELP)算法，此規(guī)范將在無(wú)線挪動(dòng)網(wǎng)、數(shù)字多路復(fù)用系統(tǒng)和計(jì)算機(jī)通訊系統(tǒng)中運(yùn)用。音頻編碼規(guī)范比較第四講數(shù)字語(yǔ)音處置技術(shù) 數(shù)字音頻緊縮技術(shù)三維音效語(yǔ)音識(shí)別自然言語(yǔ)了解語(yǔ)音合成三維音效人類的聽覺3D音效的分類杜比AC-3DTS 人類的聽覺人耳的根本聲音定位原理是IIDInteraural Intensity Difference，兩側(cè)聲音強(qiáng)度差別和ITDInteraural Time Differenc

18、e，兩側(cè)聲音時(shí)間延遲差別。IID指間隔音源較近的哪一邊耳朵，所收到的聲音強(qiáng)度比另一側(cè)高，感到聲音更大一些。ITD指方位的不同，使聲音到達(dá)兩耳的時(shí)間有差別，人們會(huì)覺得聲音位于到達(dá)時(shí)間早些的那一邊，IID+ITD的結(jié)果是把音源定位到以聽者兩耳這間連線為軸線的錐體范圍之內(nèi)。人類的聽覺耳廓外耳的作用是濾波器，根據(jù)聲音的不同角度，加強(qiáng)/減弱音波能量，過(guò)濾之后傳給大腦，讓我們更準(zhǔn)確地聲源的位置。耳廓的大小有限，因此可以收到的音波范圍也有限，通常是20Hz到20KHz，即波長(zhǎng)16米到1.6厘米的音波。換言之，低于此范圍是次聲波，高于此范圍是超聲波。由于兩耳機(jī)的間隔約為15厘米，當(dāng)波長(zhǎng)大于15厘米時(shí)IIT

19、和ITD將會(huì)減弱。頻率低的聲音波長(zhǎng)大，因此我們很難判別出低音的位置，卻能隨便分辨高音的方位。實(shí)踐上，耳廓對(duì)于聲音的定位，是至關(guān)重要的一環(huán)，沒(méi)有外耳的人難以判別聲音發(fā)出的位置。人類的聽覺人類依托一種稱為HRTFHead Related Transfer Function，頭部關(guān)聯(lián)傳輸功能的系統(tǒng)來(lái)判別聲音發(fā)出的位置。每個(gè)人的HRTF都不盡一樣，還可以進(jìn)展交換。HRTF的檢測(cè)非常簡(jiǎn)單，先在人的耳道內(nèi)放置兩個(gè)微型麥克風(fēng)，再在聽者附近放一個(gè)音箱，播放確定的信號(hào)，同時(shí)記錄麥克風(fēng)收到的信號(hào)。比較源信號(hào)和麥克風(fēng)的脈沖特性曲線就可以得到其中一個(gè)濾波效果。最后于聽者附近的一切位置反復(fù)上述過(guò)程，即可獲取完好的HR

20、TF系統(tǒng)。三維音效人類的聽覺3D音效的分類杜比AC-3DTS 3D音效的分類3D音效的兩個(gè)最重要要素是定位和交互。定位即讓人們準(zhǔn)確地判別出聲音的來(lái)源，可以經(jīng)過(guò)預(yù)選錄制聲音，再進(jìn)展特定的解碼來(lái)實(shí)現(xiàn)。實(shí)時(shí)的定位就是交互，聲音并非預(yù)選錄制好的，而是按照他的控制來(lái)決議聲音的位置。即時(shí)生成的交互式聲音對(duì)輸入設(shè)備的要求，比預(yù)選錄制音軌的放音設(shè)備如：電影要更強(qiáng)一些。 3D音效的分類擴(kuò)展式立體聲它運(yùn)用聲音延遲技術(shù)對(duì)傳統(tǒng)的立體聲進(jìn)展額外處置，擴(kuò)寬了音場(chǎng)的位置，使聲音延展到音箱以外的空間，讓我們覺得的3D世界更寬廣環(huán)繞立體聲它采用音頻緊縮技術(shù)(如：杜比AC-3)把多通道音源編碼成一段程序，再以一組多揚(yáng)聲器系統(tǒng)

21、來(lái)進(jìn)展解碼，實(shí)現(xiàn)多區(qū)域環(huán)繞效果。交互式3D音效交互式3D盡量地復(fù)制了人耳在真實(shí)世界中聽到的聲音，并運(yùn)用一定的算法來(lái)播放出來(lái)，讓我們感到整個(gè)三維空間的一切地方都能夠產(chǎn)生聲音，并隨聽者的挪動(dòng)而做出相應(yīng)改動(dòng)。三維音效人類的聽覺 3D音效的分類杜比AC-3DTS 杜比AC-3 為了提高HDTV聲音的質(zhì)量，防止模擬矩陣編碼的局限性，提出了雙通道的碼率提供多通道的編碼性能的想象，杜比AC-3就是為了實(shí)現(xiàn)這一想象而開發(fā)的。杜比AC-3可以把五個(gè)獨(dú)立的全頻帶和一個(gè)超低音通道的信號(hào)實(shí)行一致編碼，成為單一的復(fù)合數(shù)據(jù)流。 AC-3的頻響為20Hz20kHz 0.5dB(-3dB時(shí)為3Hz20.3kHz)，超低

22、聲道頻率范圍是20Hz120Hz 0.5dB?？芍С?2kHz、44.1kHz、48kHz三種取樣頻率。數(shù)碼率可低至單聲道的32kb/s,高到多聲道640kb/s，以順應(yīng)不同需求。杜比AC-3AC-3采用基于改良離散余弦變換MDCT的自順應(yīng)變換編碼ATC算法。ATC算法的一個(gè)重要思索是基于人耳聽覺掩蔽效應(yīng)的臨界頻帶實(shí)際，即在臨界頻帶內(nèi)一個(gè)聲音對(duì)另一個(gè)聲音信號(hào)的掩蔽效應(yīng)最明顯。因此,劃分頻帶的濾波器組要有足夠銳利的頻率呼應(yīng)，以保證臨界頻帶外的噪聲衰減足夠大，使時(shí)域和頻域內(nèi)的噪聲限定在掩蔽門限以下。三維音效人類的聽覺 3D音效的分類杜比AC-3DTS DTSDTS是“Digital Theat

23、re System的縮寫，是“數(shù)字化影院系統(tǒng)的意思。從技術(shù)上講，DTS與包括Dolby Digital在內(nèi)的其它聲音處置系統(tǒng)是完全不同的。Dolby Digital是將音效數(shù)據(jù)存儲(chǔ)在電影膠片的齒孔之間，由于空間的限制而必需采用大量的緊縮的方式，這樣就不得不犧牲部分音質(zhì)。DTS公司用一種簡(jiǎn)單的方法處理了這個(gè)問(wèn)題，即把音效數(shù)據(jù)存儲(chǔ)到另外的CD-ROM中，使其與影像數(shù)據(jù)同步。這樣不但空間得到添加，而且數(shù)據(jù)流量也可以相對(duì)變大，更可以將存儲(chǔ)音效數(shù)據(jù)的CD改換，來(lái)播放不同的言語(yǔ)版本。 DTSDTS 系統(tǒng)不僅具有 AC-3 類似功能，更加強(qiáng)了其縱深定位交叉效果。DTS 芯片容量為 1536kbps，緊縮傳輸

24、比為 4:1；而 AC-3 芯片容量為 448kbps，緊縮比為 10:1。正是由于DTS 信息容量的添加，音色更加優(yōu)美。DTS 家庭影院的中心是 DTS 解碼器，它可對(duì) DVD，CD 的杜比數(shù)字解碼，輸出 5.1 聲道信息，也可以選擇DTS方式，輸出6 聲道信息。DTS 和杜比數(shù)字在音質(zhì)上有著明顯的不同，前者聲音力度強(qiáng)勁，聲音的上升和切入都很鋒利，音場(chǎng)的透明感明晰可聞，尤其是豐富的低音效果表現(xiàn)得更加猛烈火爆。后者在低音方面短少豐富的力度第四講數(shù)字語(yǔ)音處置技術(shù) 數(shù)字音頻緊縮技術(shù)三維音效語(yǔ)音識(shí)別自然言語(yǔ)了解語(yǔ)音合成語(yǔ)音識(shí)別技術(shù)及運(yùn)用語(yǔ)音識(shí)別的開展歷史語(yǔ)音識(shí)別技術(shù)語(yǔ)音識(shí)別系統(tǒng)的類型語(yǔ)音識(shí)

25、別的運(yùn)用語(yǔ)音識(shí)別的開展歷史語(yǔ)音識(shí)別技術(shù)的研討任務(wù)始于20世紀(jì)50年代，當(dāng)時(shí)AT&T Bell實(shí)驗(yàn)室實(shí)現(xiàn)了第一個(gè)可識(shí)別十個(gè)英文數(shù)字的語(yǔ)音識(shí)別系統(tǒng)Audry系統(tǒng)。 60年代，計(jì)算機(jī)的運(yùn)用推進(jìn)了語(yǔ)音識(shí)別的開展。70年代，語(yǔ)音識(shí)別領(lǐng)域獲得了突破。 80年代，語(yǔ)音識(shí)別研討進(jìn)一步走向深化，其顯著特征是HMM模型和人工神經(jīng)元網(wǎng)絡(luò)ANN在語(yǔ)音識(shí)別中的勝利運(yùn)用。 90年代，隨著多媒體時(shí)代的降臨，迫切要求語(yǔ)音識(shí)別系統(tǒng)從實(shí)驗(yàn)室走向適用。語(yǔ)音識(shí)別技術(shù)的開展歷史如圖表示了從80年代初以來(lái)語(yǔ)音識(shí)別技術(shù)閱歷的從孤立詞、小詞匯量、特定人到大詞匯量、非特定人、自然口語(yǔ)識(shí)別的開展歷程。語(yǔ)音識(shí)別技術(shù)及運(yùn)用語(yǔ)音識(shí)別的開展歷史

26、語(yǔ)音識(shí)別技術(shù)語(yǔ)音識(shí)別系統(tǒng)的類型語(yǔ)音識(shí)別的運(yùn)用語(yǔ)音識(shí)別技術(shù)不同的語(yǔ)音識(shí)別系統(tǒng)，雖然詳細(xì)實(shí)現(xiàn)細(xì)節(jié)有所不同，但所采用的根本技術(shù)類似，它所涉及的領(lǐng)域包括：信號(hào)處置、方式識(shí)別、概率論和信息論、發(fā)聲機(jī)理和聽覺機(jī)理、人工智能等等。語(yǔ)音識(shí)別技術(shù)主要包括特征提取技術(shù)、方式匹配準(zhǔn)那么及模型訓(xùn)練技術(shù)三個(gè)方面。此外，還涉及到語(yǔ)音識(shí)別單元的選取。特征參數(shù)提取技術(shù) 語(yǔ)音信號(hào)中含有豐富的信息，這些信息稱為語(yǔ)音信號(hào)的聲學(xué)特征特征提取是對(duì)語(yǔ)音信號(hào)進(jìn)展分析處置，去除對(duì)語(yǔ)音識(shí)別無(wú)關(guān)緊要的冗余信息，獲得影響語(yǔ)音識(shí)別的重要信息由于語(yǔ)音信號(hào)的時(shí)變特性，特征提取必需在一小段語(yǔ)音信號(hào)上進(jìn)展，也即進(jìn)展短時(shí)分析常用的一些聲學(xué)特征

27、線性預(yù)測(cè)系數(shù)LPC 倒譜系數(shù)CEP Mel倒譜系數(shù)MFCC和感知線性預(yù)測(cè)PLP 方式匹配及模型訓(xùn)練技術(shù) 模型訓(xùn)練是指按照一定的準(zhǔn)那么，從大量知方式中獲取表征該方式本質(zhì)特征的模型參數(shù)，而方式匹配那么是根據(jù)一定準(zhǔn)那么，使未知方式與模型庫(kù)中的某一個(gè)模型獲得最正確匹配。語(yǔ)音識(shí)別所運(yùn)用的方式匹配和模型訓(xùn)練技術(shù)主要有動(dòng)態(tài)時(shí)間歸正技術(shù)DTW，又稱為動(dòng)態(tài)時(shí)間彎折技術(shù)、隱馬爾可夫模型HMM和人工神經(jīng)元網(wǎng)絡(luò)ANN。典型語(yǔ)音識(shí)別系統(tǒng)的實(shí)現(xiàn)過(guò)程語(yǔ)音識(shí)別單元的選取選擇識(shí)別單元是語(yǔ)音識(shí)別研討的第一步語(yǔ)音識(shí)別單元有單詞句、音節(jié)和音素三種單詞單元廣泛運(yùn)用于中小詞匯語(yǔ)音識(shí)別系統(tǒng) 音節(jié)單元多見于漢語(yǔ)語(yǔ)音識(shí)別音素單元

28、以前多見于英語(yǔ)語(yǔ)音識(shí)別的研討中，但目前中、大詞匯量漢語(yǔ)語(yǔ)音識(shí)別系統(tǒng)也在越來(lái)越多地采用語(yǔ)音識(shí)別技術(shù)及運(yùn)用語(yǔ)音識(shí)別的開展歷史語(yǔ)音識(shí)別技術(shù)語(yǔ)音識(shí)別系統(tǒng)的類型語(yǔ)音識(shí)別的運(yùn)用語(yǔ)音識(shí)別系統(tǒng)的類型語(yǔ)音識(shí)別系統(tǒng)有以下幾種分類方式：根據(jù)對(duì)說(shuō)話人的依賴程度可以分為特定人和非特定人語(yǔ)音識(shí)別系統(tǒng) 根據(jù)對(duì)說(shuō)話人說(shuō)話方式的要求，可以分為孤立字詞語(yǔ)音識(shí)別系統(tǒng)，銜接詞語(yǔ)音識(shí)別系統(tǒng)以及延續(xù)語(yǔ)音識(shí)別系統(tǒng)根據(jù)詞匯量大小，可以分為小詞匯量、中等詞匯量、大詞匯量以及無(wú)限詞匯量語(yǔ)音識(shí)別系統(tǒng) 特定人語(yǔ)音識(shí)別系統(tǒng) 特定人的識(shí)別系統(tǒng)精明得足以能了解講話者的語(yǔ)音特點(diǎn)，它從語(yǔ)音簽名上就能知道講話者的身份。只需在講話者用特定單詞組構(gòu)成的

29、詞匯表訓(xùn)練系統(tǒng)后，它才干識(shí)別特定人系統(tǒng)的優(yōu)點(diǎn)是它是可訓(xùn)練的，系統(tǒng)很靈敏，可以訓(xùn)練它來(lái)識(shí)別新詞特定人的系統(tǒng)的缺陷是由一個(gè)用戶訓(xùn)練的系統(tǒng)不能被另一用戶運(yùn)用例：手機(jī)中運(yùn)用的語(yǔ)音撥號(hào)非特定人語(yǔ)音識(shí)別系統(tǒng)非持定人識(shí)別系統(tǒng)可識(shí)別任何用戶的語(yǔ)音。它不需求任何來(lái)自用戶的訓(xùn)練，由于它不依賴于個(gè)人的語(yǔ)音簽名。為生成非特定人識(shí)別系統(tǒng)、大量的用戶訓(xùn)練了大詞匯表的識(shí)別器。在訓(xùn)練系統(tǒng)時(shí)，男聲和女聲、不同的口音和方言，以及帶有背景噪音的環(huán)境都計(jì)入了思索范圍之內(nèi)以生成參考模板。例：IBM Via Voice 孤立詞語(yǔ)音識(shí)別系統(tǒng)孤立詞(語(yǔ)音)識(shí)別系統(tǒng)，一次只提供一個(gè)單一詞的識(shí)別識(shí)別器的第一個(gè)義務(wù)是進(jìn)展幅度和噪聲歸一

30、化，下一步是參數(shù)分析可以經(jīng)過(guò)把對(duì)應(yīng)于一個(gè)詞的大量樣本聚集為單一群來(lái)獲得非特定人孤立單詞語(yǔ)音識(shí)別器。銜接詞語(yǔ)音識(shí)別系統(tǒng)銜接詞的語(yǔ)音由所說(shuō)的短語(yǔ)組成，而短語(yǔ)又是由詞序列組成識(shí)別銜接詞短語(yǔ)中單詞的一種方法是采用詞定位技術(shù) 類似于孤立詞語(yǔ)音識(shí)別，銜接詞語(yǔ)音識(shí)別用于命令和控制運(yùn)用延續(xù)語(yǔ)音識(shí)別系統(tǒng)延續(xù)語(yǔ)音由在聽寫中構(gòu)成段落的完好句子組成延續(xù)語(yǔ)音識(shí)別系統(tǒng)可以分成以下三部分：第一部分包括數(shù)字化、幅度歸一化、時(shí)間歸一化和參數(shù)表示另一部分包括分割并把語(yǔ)音段標(biāo)志成在基于知識(shí)或基于規(guī)那么系統(tǒng)上的符號(hào)串最后一部分是設(shè)計(jì)用于識(shí)別詞序列而進(jìn)展語(yǔ)音段匹配語(yǔ)音識(shí)別技術(shù)及運(yùn)用語(yǔ)音識(shí)別的開展歷史語(yǔ)音識(shí)別技術(shù)語(yǔ)音

31、識(shí)別系統(tǒng)的類型語(yǔ)音識(shí)別的運(yùn)用語(yǔ)音識(shí)別的運(yùn)用語(yǔ)音郵件集成數(shù)據(jù)庫(kù)輸人和訊問(wèn)運(yùn)用語(yǔ)音命令和控制運(yùn)用第四講數(shù)字語(yǔ)音處置技術(shù) 數(shù)字音頻緊縮技術(shù)三維音效語(yǔ)音識(shí)別自然言語(yǔ)了解語(yǔ)音合成自然言語(yǔ)了解自然言語(yǔ)了解就是研討如何能讓計(jì)算機(jī)了解并生成人們?nèi)粘Ｋ\(yùn)用的(如漢語(yǔ)、英語(yǔ))言語(yǔ)，使得計(jì)算機(jī)懂得自然言語(yǔ)的含義，并對(duì)人給計(jì)算機(jī)提出的問(wèn)題，經(jīng)過(guò)對(duì)話的方式，用自然言語(yǔ)進(jìn)展回答。目的在于建立起一種人與機(jī)器之間的親密而友好的關(guān)系，使之能進(jìn)展高度的信息傳送與認(rèn)知活動(dòng)。用自然言語(yǔ)與計(jì)算機(jī)進(jìn)展通訊，這是人們長(zhǎng)期以來(lái)所追求的。自然言語(yǔ)了解一個(gè)中文文本從方式上看是由漢字包括標(biāo)點(diǎn)符號(hào)等組成的一個(gè)字符串。由字可組成詞，由

32、詞可組成詞組，由詞組可組成句子，進(jìn)而由一些句子組成段、節(jié)、章、篇。無(wú)論在上述的各種層次：字符、詞、詞組、句子、段，還是在下一層次向上一層次轉(zhuǎn)變中都存在著歧義和多義景象，即方式上一樣的一段字符串，在不同的場(chǎng)景或不同的語(yǔ)境下，可以了解成不同的詞串、詞組串等，并有不同的意義。自然言語(yǔ)處置的中心技術(shù)是言語(yǔ)分析技術(shù)，即將句子數(shù)量無(wú)限變換成由詞語(yǔ)數(shù)量可控及其籠統(tǒng)方式數(shù)量有限構(gòu)成的用某種數(shù)據(jù)構(gòu)造句法樹、復(fù)雜特征集或語(yǔ)義網(wǎng)絡(luò)表示的內(nèi)部方式數(shù)量有限。自然言語(yǔ)了解言語(yǔ)分析技術(shù)可以分為基于規(guī)那么與基于統(tǒng)計(jì)數(shù)據(jù)兩大類。概率語(yǔ)法經(jīng)過(guò)語(yǔ)料庫(kù)統(tǒng)計(jì)給每條言語(yǔ)規(guī)那么加上概率值，言語(yǔ)規(guī)那么便有了“柔性，不再是“說(shuō)一不二、“非此

33、即彼。概率語(yǔ)法是有機(jī)結(jié)合這兩類技術(shù)的較好實(shí)際體系。為了完成這種統(tǒng)計(jì)，事先必需按照人給出的言語(yǔ)規(guī)那么加工語(yǔ)料庫(kù)至少要加工一部分訓(xùn)練語(yǔ)料，這闡明統(tǒng)計(jì)方法也需求規(guī)那么的指點(diǎn)。兩者之間的結(jié)合和相互利用是必然的趨勢(shì)。自然言語(yǔ)了解言語(yǔ)分析可以劃分為詞法析、句法分析、語(yǔ)義分析、篇章分析等步驟。如今，詞法分析和句法分析相對(duì)成熟，語(yǔ)義分析逐漸成為研討重點(diǎn)。對(duì)象單元由小到大從句子向篇章開展。實(shí)踐上只需在篇章的范圍內(nèi)分析，省略、指代和句子的固有歧義等問(wèn)題才能夠處理。假設(shè)說(shuō)自然言語(yǔ)處置技術(shù)尚未獲得艱苦突破，其含義就是完好言語(yǔ)分析技術(shù)尚未過(guò)關(guān)。淺層分析技術(shù)或者只提取句子中的名詞短語(yǔ)，或者只識(shí)別句子的謂語(yǔ)中心詞及其他組塊同謂語(yǔ)中心詞的依存關(guān)系。這樣的技術(shù)就是順該

人人文庫(kù)> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

多媒體計(jì)算機(jī)技術(shù)-

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

多媒體計(jì)算機(jī)技術(shù)-

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔