




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
多媒體計(jì)算機(jī)技術(shù)魯宏偉第四講數(shù)字語(yǔ)音處理技術(shù)
數(shù)字音頻壓縮技術(shù)三維音效語(yǔ)音識(shí)別自然語(yǔ)言理解語(yǔ)音合成
數(shù)字音頻壓縮技術(shù)音頻壓縮技術(shù)指的是對(duì)原始數(shù)字音頻信號(hào)流(PCM編碼)運(yùn)用適當(dāng)?shù)臄?shù)字信號(hào)處理技術(shù),在不損失有用信息量,或所引入損失可忽略的條件下,降低(壓縮)其碼率,也稱為壓縮編碼。它必須具有相應(yīng)的逆變換,稱為解壓縮或解碼。音頻信號(hào)在通過(guò)一個(gè)編解碼系統(tǒng)后可能引入大量的噪聲和一定的失真。
數(shù)字音頻壓縮技術(shù)音頻壓縮算法的分類時(shí)域壓縮算法子帶編碼MP3音頻壓縮編碼音頻壓縮算法的分類一般來(lái)講,可以將音頻壓縮技術(shù)分為無(wú)損(lossless)壓縮及有損(lossy)壓縮兩大類,而按照壓縮方案的不同,又可將其劃分為時(shí)域壓縮、變換壓縮、子帶壓縮,以及多種技術(shù)相互融合的混合壓縮等等。
時(shí)域壓縮(或稱為波形編碼)子帶壓縮技術(shù)變換壓縮技術(shù)
數(shù)字音頻壓縮技術(shù)音頻壓縮算法的分類時(shí)域壓縮算法子帶編碼MP3音頻壓縮編碼時(shí)域壓縮算法時(shí)域壓縮技術(shù)一般多用于語(yǔ)音壓縮、低碼率應(yīng)用(源信號(hào)帶寬小)的場(chǎng)合。時(shí)域壓縮技術(shù)主要包括PCM、ADPCM、LPC、CELP,以及在這些技術(shù)上發(fā)展起來(lái)的塊壓擴(kuò)技術(shù)。
脈沖編碼調(diào)制(PCM)
增量調(diào)制連續(xù)可變斜率增量調(diào)制(CVSD)自適應(yīng)差分脈沖編碼調(diào)制
(ADPCM)
數(shù)字電路倍增設(shè)備—自適應(yīng)差分脈沖編碼調(diào)制
時(shí)域壓縮算法嵌入式自適應(yīng)差分脈沖編碼調(diào)制(E-ADPCM
)線性預(yù)測(cè)編碼(LPC)殘差激勵(lì)線性預(yù)測(cè)編碼(RELP)碼激勵(lì)線性預(yù)測(cè)編碼(CELP)低時(shí)延碼激勵(lì)線性預(yù)測(cè)編碼(LD-CELP)矢量和激勵(lì)線性預(yù)測(cè)編碼(VSELP
)代數(shù)碼本激勵(lì)線性預(yù)測(cè)編碼(ACELP
)共扼結(jié)構(gòu)—代數(shù)碼激勵(lì)線性預(yù)測(cè)編碼(CS-ACELP)規(guī)則脈沖激勵(lì)—長(zhǎng)時(shí)預(yù)測(cè)—線性預(yù)測(cè)編碼(RPE-LTP-LPC)
脈沖編碼調(diào)制
聲音數(shù)字化有兩個(gè)步驟:第一步是采樣,就是每隔一段時(shí)間間隔讀一次聲音的幅度;第二步是量化,就是把采樣得到的聲音信號(hào)幅度轉(zhuǎn)換成數(shù)字值。量化有好幾種方法,但可歸納成兩類:一類稱為均勻量化,另一類稱為非均勻量化。如果采用相等的量化間隔對(duì)采樣得到的信號(hào)作量化,那么這種量化稱為均勻量化。均勻量化就是采用相同的“等分尺”來(lái)度量采樣得到的幅度,也稱為線性量化。這種方法稱為脈沖編碼調(diào)制,用PCM表示。
非線性性量化化非線性性量化化的基基本想想法是是,對(duì)對(duì)輸入入信號(hào)號(hào)進(jìn)行行量化化時(shí),,大的的輸入入信號(hào)號(hào)采用用大的的量化化間隔隔,小小的輸輸入信信號(hào)采采用小小的量量化間間隔。。在非線線性量量化中中,采采樣輸輸入信信號(hào)幅幅度和和量化化輸出出數(shù)據(jù)據(jù)之間間定義義了兩兩種對(duì)對(duì)應(yīng)關(guān)關(guān)系,,一種種稱為為m律壓(縮)擴(kuò)(展)算法法,另一一種稱稱為A律壓壓(縮縮)擴(kuò)擴(kuò)(展展)算算法。m律壓(縮)擴(kuò)(展)算法法m律壓擴(kuò)擴(kuò)用在在北美美和日日本等等地區(qū)區(qū)的數(shù)數(shù)字電電話通通信中中,按按下面面的式式子確確定量量化輸輸入和和輸出出的關(guān)關(guān)系::式中::x為輸入入信號(hào)號(hào)幅度度,規(guī)規(guī)格化化成-1x1;sgn(x)為x的極性性;m為確定定壓縮縮量的的參數(shù)數(shù),它它反映映最大大量化化間隔隔和最最小量量化間間隔之之比,,取100m500。A律壓壓(縮縮)擴(kuò)擴(kuò)(展展)算算法A律(A-Law)壓擴(kuò)用用在歐歐洲和和中國(guó)國(guó)大陸陸等地地區(qū)的的數(shù)字字電話話通信信中,,按下下面的的式子子確定定量化化輸入入和輸輸出的的關(guān)系系:式中::x為輸入入信號(hào)號(hào)幅度度,規(guī)規(guī)格化化成-1x1,sgn(x)為x的極性性;A為確定定壓縮縮量的的參數(shù)數(shù),它它反映映最大大量化化間隔隔和最最小量量化間間隔之之比。。增量調(diào)調(diào)制增量調(diào)調(diào)制DM(DeltaModulation)是一種種預(yù)測(cè)測(cè)編碼碼技術(shù)術(shù)。DM是對(duì)實(shí)實(shí)際的的采樣樣信號(hào)號(hào)與預(yù)預(yù)測(cè)的的采樣樣信號(hào)號(hào)之差差的極極性進(jìn)進(jìn)行編編碼,,將極極性變變成“0””和“1””這兩種種可能能的取取值之之一。。如果果實(shí)際際的采采樣信信號(hào)與與預(yù)測(cè)測(cè)的采采樣信信號(hào)之之差的的極性性為“正”,則用用“1””表示;;相反反則用用“0””表示。。由于DM編編碼只只須用用1比比特對(duì)對(duì)信號(hào)號(hào)進(jìn)行行編碼碼,所所以DM編編碼系系統(tǒng)又又稱為為“1比特特系統(tǒng)統(tǒng)”。。DM波形編編碼的的原理理圖其中x[i]表示在在i點(diǎn)的編編碼輸輸出,,yi表示輸輸入信信號(hào)的的實(shí)際際值,,y[i]表示輸輸入信信號(hào)的的預(yù)測(cè)測(cè)值。。假設(shè)采采用均均勻量量化,,量化化階的的大小小為△△,在在開始始位置置的輸輸入信信號(hào)y0=0,,預(yù)測(cè)測(cè)值y[0]=0,,編碼碼輸出出x[0]=1增量調(diào)調(diào)制的的缺點(diǎn)點(diǎn)一是會(huì)會(huì)出現(xiàn)現(xiàn)斜率過(guò)過(guò)載,即增增量調(diào)調(diào)制器器的輸輸出不不能保保持跟跟蹤輸輸入信信號(hào)的的快速速變化化二是會(huì)會(huì)產(chǎn)生生粒狀噪噪聲。反饋饋回路路輸出出信號(hào)號(hào)的最最大變變化速速率受受到量量化階階大小小的限限制,,因?yàn)闉榱炕A的的大小小是固固定的的。解決方方法::自適應(yīng)應(yīng)增量量調(diào)制制。根據(jù)輸輸入信信號(hào)斜斜率的的變化化自動(dòng)動(dòng)調(diào)整整量化化階ΔΔ的大大小,,以使使斜率率過(guò)載載和粒粒狀噪噪聲都都減到到最小小。許許多研研究人人員研研究了了各種種各樣樣的方方法,,而且且?guī)缀鹾跛杏械姆椒椒ɑ旧仙隙际鞘窃跈z檢測(cè)到到斜率率過(guò)載載時(shí)開開始增增大量量化階階Δ,,而在在輸入入信號(hào)號(hào)的斜斜率減減小時(shí)時(shí)降低低量化化階ΔΔ。自適應(yīng)應(yīng)差分分脈沖沖編碼碼調(diào)制制ADPCM編碼的的方法法是對(duì)對(duì)輸入入樣值值進(jìn)行行自適適應(yīng)預(yù)預(yù)測(cè),,然后后對(duì)預(yù)預(yù)測(cè)誤誤差進(jìn)進(jìn)行量量化編編碼。。它是是一種種預(yù)測(cè)測(cè)編碼碼的方方法。。所謂預(yù)預(yù)測(cè)編編碼,,是指指編碼碼的對(duì)對(duì)象不不是原原始信信號(hào)的的采樣樣量化化值,,而是是對(duì)當(dāng)當(dāng)前采采樣值值與預(yù)預(yù)測(cè)值值(根根據(jù)前前若干干個(gè)采采樣值值采用用一定定的預(yù)預(yù)測(cè)方方法產(chǎn)產(chǎn)生的的輸入入信號(hào)號(hào))的的差值值進(jìn)行行編碼碼。如如果采采用的的預(yù)測(cè)測(cè)方法法足夠夠準(zhǔn)確確(差差值將將接近近于零零),,可以以預(yù)見見,這這種編編碼方方法比比直接接對(duì)樣樣本值值進(jìn)行行編碼碼可以以采用用較少少的比比特?cái)?shù)數(shù)。CCITT的32kbit/s語(yǔ)音編編碼標(biāo)標(biāo)準(zhǔn)G.721采用ADPCM編碼方方式,,每個(gè)個(gè)語(yǔ)音音樣值值相當(dāng)當(dāng)于用用4bit進(jìn)行編碼。。自適應(yīng)差分分
脈沖編編碼調(diào)制它的核心想想法是:①利用自適應(yīng)應(yīng)的思想改改變量化階階的大小,,即使用小的的量化階(step-size)去編編碼小的差差值,使用用大的量化化階去編碼碼大的差值值;②使用過(guò)過(guò)去的樣本本值估算下下一個(gè)輸入入樣本的預(yù)預(yù)測(cè)值,使使實(shí)際樣本本值和預(yù)測(cè)測(cè)值之間的的差值總是是最小。數(shù)字電路倍倍增設(shè)備—自適應(yīng)差分分脈沖編碼碼調(diào)制DCME-ADPCM是CCITTG.723語(yǔ)音編碼標(biāo)標(biāo)準(zhǔn)算法這種算法可可以在40kbit/s、32kbit/s和24kbit/s三種速率中中動(dòng)態(tài)調(diào)整整,以達(dá)到到在給定的的信道中增增加容量的的目的線性預(yù)測(cè)編編碼LPC(LinearPredictiveCoding)語(yǔ)音編碼是是最基本的的低速率語(yǔ)語(yǔ)音編碼方方法,LPC語(yǔ)音編碼的的基礎(chǔ)是語(yǔ)語(yǔ)音產(chǎn)生模模型,在這這個(gè)模型中中,語(yǔ)音是是由激勵(lì)信信號(hào)激勵(lì)一一個(gè)自適應(yīng)應(yīng)濾波器((即LPC濾波器)而而產(chǎn)生。LPC濾波器的參參數(shù)是通過(guò)過(guò)線性預(yù)測(cè)測(cè)的方法,,即用過(guò)去去的樣值預(yù)預(yù)測(cè)當(dāng)前樣樣值提取的的。美國(guó)聯(lián)邦標(biāo)標(biāo)準(zhǔn)FS1015的2.4kbit/sLPC-10和LPC-10e就是LPC語(yǔ)音編碼的的典型例子子,主要用用于電話線線上的窄帶帶語(yǔ)音保密密通信。低時(shí)延碼激激勵(lì)線性預(yù)預(yù)測(cè)編碼LD-CELP是CCITTG.728語(yǔ)音編碼標(biāo)標(biāo)準(zhǔn)算法,,其輸出速速率為16kbit/s。這種方法在在CELP算法的基礎(chǔ)礎(chǔ)上,采用用后向自適適應(yīng)線性預(yù)預(yù)測(cè)、50階合成濾波波、短激勵(lì)勵(lì)矢量(5個(gè)樣值)等等改進(jìn)方法法,從而達(dá)達(dá)到高質(zhì)量量和低時(shí)延延的目的,,總的編碼碼時(shí)延小于于2ms。代數(shù)碼本激激勵(lì)線性預(yù)預(yù)測(cè)編碼極低速率可可視電話標(biāo)標(biāo)準(zhǔn)H.324中語(yǔ)音編碼碼標(biāo)準(zhǔn)是,采用5.27kbit/s和6.3kbit/s兩種速率,,其中5.27kbit/s速率就是以以ACELP算法為基礎(chǔ)礎(chǔ)。共扼結(jié)構(gòu)—代數(shù)碼激勵(lì)勵(lì)線性預(yù)測(cè)測(cè)編碼CS-ACELP編碼算法被被ITU-T的8kbit/s語(yǔ)音編碼標(biāo)標(biāo)準(zhǔn)G.729采用規(guī)則脈沖激激勵(lì)—長(zhǎng)時(shí)時(shí)預(yù)測(cè)—線線性預(yù)測(cè)編編碼這種算法是是歐洲900MHz數(shù)字蜂窩移移動(dòng)電話的的語(yǔ)音編碼碼標(biāo)準(zhǔn)(GSM),也為數(shù)數(shù)字蜂窩系系統(tǒng)DCS1800所采用。RPE-LTP-LPC算法是MPE-LPC的改進(jìn)算法法,除了增增加長(zhǎng)時(shí)預(yù)預(yù)測(cè)功能外外,激勵(lì)脈脈沖的位置置具有一定定的規(guī)律。。數(shù)字音頻壓壓縮技術(shù)音頻壓縮算算法的分類類時(shí)域壓縮算算法子帶編碼MP3音頻頻壓縮編碼碼子帶編碼子帶編碼SBC(subbandcoding)的基本本思想是,,首先使用用一組帶通通濾波器BPF(band-passfilter)把輸入入音頻信號(hào)號(hào)的頻帶分分成若干個(gè)個(gè)連續(xù)的頻頻段,每個(gè)個(gè)頻段稱為為子帶。對(duì)對(duì)每個(gè)子帶帶中的音頻頻信號(hào)采用用單獨(dú)的編編碼方案去去編碼。在在信道上傳傳送時(shí),將將每個(gè)子帶帶的代碼復(fù)復(fù)合起來(lái)。。在接收端端譯碼時(shí),,將每個(gè)子子帶的代碼碼單獨(dú)譯碼碼,然后把把它們組合合起來(lái),還還原成原來(lái)來(lái)的音頻信信號(hào)。采用對(duì)每個(gè)個(gè)子帶分別別編碼的好好處有二個(gè)個(gè)。第一,,對(duì)每個(gè)子子帶信號(hào)分分別進(jìn)行自自適應(yīng)控制制,量化階階的大小(quantizationstep)可以以按照每個(gè)個(gè)子帶的能能量電平加加以調(diào)節(jié)。。具有較高高能量電平平的子帶用用大的量化化階去量化化,以減少少總的量化化噪聲。第第二,可根根據(jù)每個(gè)子子帶信號(hào)在在感覺上的的重要性,,對(duì)每個(gè)子子帶分配不不同的比特特?cái)?shù),用來(lái)來(lái)表示每個(gè)個(gè)樣本值。。例如,在在低頻子帶帶中,為了了保護(hù)音調(diào)調(diào)和共振峰峰的結(jié)構(gòu),,就要求用用較小的量量化階、較較多的量化化級(jí)數(shù),即即分配較多多的比特?cái)?shù)數(shù)來(lái)表示樣樣本值。而而話音中的的摩擦音和和類似噪聲聲的聲音,,通常出現(xiàn)現(xiàn)在高頻子子帶中,對(duì)對(duì)它分配較較少的比特特?cái)?shù)。子帶編碼方方塊圖子帶編碼對(duì)每個(gè)子帶帶分別編碼碼的好處是是:可以利用人人耳(或人人眼)對(duì)不不同頻率信信號(hào)的感知知靈敏度不不同的特性性,在人的的聽覺(或或視覺)不不敏感的頻頻段采用較較粗糙的量量化,從而而達(dá)到數(shù)據(jù)據(jù)壓縮的目目的。各個(gè)子帶的的量化噪聲聲都束縛在在本子帶內(nèi)內(nèi),這就可可以避免能能量較小的的頻帶內(nèi)的的信號(hào)被其其它頻帶中中量化噪聲聲所掩蓋通過(guò)頻帶分分裂,各個(gè)個(gè)子帶的取取樣頻率可可以成倍下下降。數(shù)字音頻頻壓縮技技術(shù)音頻壓縮縮算法的的分類時(shí)域壓縮縮算法子帶編碼碼MP3音音頻壓縮縮編碼MP3音音頻壓縮縮編碼MP3是一種音音頻壓縮縮的國(guó)際際技術(shù)標(biāo)標(biāo)準(zhǔn)。MP3格式開始始于二十十世紀(jì)80年代中期期,是在在德國(guó)夫夫朗和費(fèi)費(fèi)研究所所(FraunhoferInstitute)開始的的,研究究致力于于高質(zhì)量量、低數(shù)數(shù)據(jù)率的的聲音編編碼。1989年,夫朗朗和費(fèi)研研究所在在德國(guó)被被獲準(zhǔn)取取得了MP3的專利權(quán)權(quán),幾年年后這項(xiàng)項(xiàng)技術(shù)被被提交到到國(guó)際標(biāo)標(biāo)準(zhǔn)組織織(ISO),整合進(jìn)進(jìn)入了MPEG-1標(biāo)準(zhǔn)。MP3格式是一一個(gè)讓音音樂(lè)界產(chǎn)產(chǎn)生巨大大震動(dòng)的的一個(gè)聲聲音格式式。MP3的全稱是是MovingPictureExpertsGroup,AudioLayer3,它所使使用的技技術(shù)是在在VCD(MPEG-1)的音頻頻壓縮技技術(shù)上發(fā)發(fā)展出的的第三代代,而不不是MPEG-3。MP3音音頻壓縮縮編碼MPEG代表的是是MPEG活動(dòng)影音音壓縮標(biāo)標(biāo)準(zhǔn),MPEG音頻文件件指的是是MPEG標(biāo)準(zhǔn)中的的聲音部部分即MPEG音頻層。。MPEG音頻文件件根據(jù)壓壓縮質(zhì)量量和編碼碼復(fù)雜程程度的不不同可分分為三層層(MPEGAUDIOLAYER1/2/3分別與MP1、MP2和MP3這三種聲聲音文件件相對(duì)應(yīng)應(yīng))。MPEG音頻編碼碼具有很很高的壓壓縮率,,MP1和MP2的壓縮率率分別為為4:1和6:1-8:1,而MP3的壓縮率率則高達(dá)達(dá)10:1~12:1,也就是是說(shuō)一分分鐘CD音質(zhì)的音音樂(lè)未經(jīng)經(jīng)壓縮需需要10MB存儲(chǔ)空間間,而經(jīng)經(jīng)過(guò)MP3壓縮編碼碼后只有有1MB左右,同同時(shí)其音音質(zhì)基本本保持不不失真。。MP3音音頻壓縮縮編碼音樂(lè)信號(hào)號(hào)中有許許多冗余余成分,,其中包包括間隔隔和一些些人耳分分辨不出出的信息息(如混混雜在較較強(qiáng)背景景中的弱弱信號(hào)))。MP3為降低聲聲音失真真采取了了名為““感官編編碼技術(shù)術(shù)”的編編碼算法法:編碼碼時(shí)先對(duì)對(duì)音頻文文件進(jìn)行行頻譜分分析,然然后用過(guò)過(guò)濾器濾濾掉噪音音,接著著通過(guò)量量化的方方式將剩剩下的每每一位打打散排列列,最后后形成具具有較高高壓縮比比的MP3文件,并并使壓縮縮后的文文件在回回放時(shí)能能夠達(dá)到到比較接接近原音音源的聲聲音效果果。雖然它是是一種有有損壓縮縮,但是是它的最最大優(yōu)勢(shì)勢(shì)是以極極小的聲聲音失真真換來(lái)了了較高的的壓縮比比。音頻編碼碼標(biāo)準(zhǔn)G.711G.722G.728G.729音頻編碼碼標(biāo)準(zhǔn)比比較G.7111972年CCITT為電話話質(zhì)量和和語(yǔ)音壓壓縮制定定了PCM標(biāo)準(zhǔn)準(zhǔn)G.711。。其速率率為64kb/s,使使用μ律律或A律律的非線線性量化化技術(shù),,主要用用于公共共電話網(wǎng)網(wǎng)中。G.7221988年CCITT為調(diào)幅幅廣播質(zhì)質(zhì)量的音音頻信號(hào)號(hào)壓縮制制定了G.722標(biāo)準(zhǔn)準(zhǔn),它使使用子帶帶編碼(SBC)方案案,其濾濾波器組組將輸入入信號(hào)分分成高低低兩個(gè)子子帶信號(hào)號(hào),然后后分別使使用ADPCM進(jìn)行編編碼。G.722能將將224kb/s的調(diào)調(diào)幅廣播播質(zhì)量的的音頻信信號(hào)壓縮縮為64kb/s,主主要用于于視聽多多媒體和和會(huì)議電電視等。。G.722的主主要目標(biāo)標(biāo)是保持持64kb/s的數(shù)據(jù)據(jù)率,而而音頻信信號(hào)的質(zhì)質(zhì)量要明明顯高于于G.711的的質(zhì)量。。1996年ITU-T通過(guò)了了G.723標(biāo)標(biāo)準(zhǔn)-““用于多多媒體傳傳輸?shù)?.3kb/s或6.3kb/s雙雙速率話話音編碼碼”。它它采用多多脈沖激激勵(lì)最大大似然量量化(MP-MLQ)算法,,此標(biāo)準(zhǔn)準(zhǔn)可應(yīng)用用于可視視電話及及IP電電話等系系統(tǒng)中。。G.728為了進(jìn)一一步降低低壓縮的的速率,,CCITT于于1992年制制定了G.728標(biāo)準(zhǔn)準(zhǔn),使用用基于低低時(shí)延碼碼本激勵(lì)勵(lì)線性預(yù)預(yù)測(cè)編碼碼(LD-CELP)算法,,其速率率為16kb/s,主主要用于于公共電電話網(wǎng)中中。G.729ITU-T于1996年3月月通過(guò)了了G.729標(biāo)標(biāo)準(zhǔn),它它使用8kb/s的共共軛結(jié)構(gòu)構(gòu)代數(shù)碼碼激勵(lì)線線性預(yù)測(cè)測(cè)(CS-ACELP)算法法,此標(biāo)標(biāo)準(zhǔn)將在在無(wú)線移移動(dòng)網(wǎng)、、數(shù)字多多路復(fù)用用系統(tǒng)和和計(jì)算機(jī)機(jī)通信系系統(tǒng)中應(yīng)應(yīng)用。音頻編碼碼標(biāo)準(zhǔn)比比較第四講數(shù)數(shù)字語(yǔ)語(yǔ)音處理理技術(shù)數(shù)字音頻頻壓縮技技術(shù)三維音效效語(yǔ)音識(shí)別別自然語(yǔ)言言理解語(yǔ)音合成成三維音效效人類的聽聽覺3D音效的分分類杜比AC-3DTS人類的聽聽覺人耳的基基本聲音音定位原原理是IID(InterauralIntensityDifference,兩側(cè)聲聲音強(qiáng)度度差別))和ITD(InterauralTimeDifference,兩側(cè)聲聲音時(shí)間間延遲差差別)。。IID指距離音音源較近近的哪一一邊耳朵朵,所收收到的聲聲音強(qiáng)度度比另一一側(cè)高,,感到聲聲音更大大一些。。ITD指方位的的不同,,使聲音音到達(dá)兩兩耳的時(shí)時(shí)間有差差別,人人們會(huì)覺覺得聲音音位于到到達(dá)時(shí)間間早些的的那一邊邊,IID+ITD的結(jié)果是是把音源源定位到到以聽者者兩耳這這間連線線為軸線線的錐體體范圍之之內(nèi)。人類的聽聽覺耳廓(外外耳)的的作用是是濾波器器,根據(jù)據(jù)聲音的的不同角角度,加加強(qiáng)/減弱音波波能量,,過(guò)濾之之后傳給給大腦,,讓我們們更準(zhǔn)確確地聲源源的位置置。耳廓廓的大小小有限,,因此能能夠收到到的音波波范圍也也有限,,通常是是20Hz到20KHz,即波長(zhǎng)長(zhǎng)16米到1.6厘米的音音波。換換言之,,低于此此范圍是是次聲波波,高于于此范圍圍是超聲聲波。由于兩耳耳機(jī)的距距離約為為15厘米,當(dāng)當(dāng)波長(zhǎng)大大于15厘米時(shí)IIT和ITD將會(huì)減弱弱。頻率率低的聲聲音波長(zhǎng)長(zhǎng)大,因因此我們們很難判判斷出低低音的位位置,卻卻能輕易易分辨高高音的方方位。實(shí)實(shí)際上,,耳廓對(duì)對(duì)于聲音音的定位位,是至至關(guān)重要要的一環(huán)環(huán),沒有有外耳的的人難以以判斷聲聲音發(fā)出出的位置置。人類的聽聽覺人類依靠靠一種稱稱為HRTF(HeadRelatedTransferFunction,頭部關(guān)關(guān)聯(lián)傳輸輸功能))的系統(tǒng)統(tǒng)來(lái)判斷斷聲音發(fā)發(fā)出的位位置。每每個(gè)人的的HRTF都不盡相相同,還還可以進(jìn)進(jìn)行交換換。HRTF的檢測(cè)測(cè)非常簡(jiǎn)簡(jiǎn)單,先先在人的的耳道內(nèi)內(nèi)放置兩兩個(gè)微型型麥克風(fēng)風(fēng),再在在聽者附附近放一一個(gè)音箱箱,播放放確定的的信號(hào),,同時(shí)記記錄麥克克風(fēng)收到到的信號(hào)號(hào)。比較較源信號(hào)號(hào)和麥克克風(fēng)的脈脈沖特性性曲線就就可以得得到其中中一個(gè)濾濾波效果果。最后后于聽者者附近的的所有位位置重復(fù)復(fù)上述過(guò)過(guò)程,即即可獲取取完整的的HRTF系統(tǒng)統(tǒng)。三維音效效人類的聽聽覺3D音效的分分類杜比AC-3DTS3D音效的分分類3D音效的兩兩個(gè)最重重要因素素是定位位和交互互。定位即讓讓人們準(zhǔn)準(zhǔn)確地判判斷出聲聲音的來(lái)來(lái)源,可可以通過(guò)過(guò)預(yù)選錄錄制聲音音,再進(jìn)進(jìn)行特定定的解碼碼來(lái)實(shí)現(xiàn)現(xiàn)。實(shí)時(shí)的定定位就是是交互,,聲音并并非預(yù)選選錄制好好的,而而是按照照你的控控制來(lái)決決定聲音音的位置置。即時(shí)時(shí)生成的的交互式式聲音對(duì)對(duì)輸入設(shè)設(shè)備的要要求,比比預(yù)選錄錄制音軌軌的放音音設(shè)備((如:電電影)要要更強(qiáng)一一些。3D音效的分分類擴(kuò)展式立立體聲它使用聲聲音延遲遲技術(shù)對(duì)對(duì)傳統(tǒng)的的立體聲聲進(jìn)行額額外處理理,擴(kuò)寬寬了音場(chǎng)場(chǎng)的位置置,使聲聲音延展展到音箱箱以外的的空間,,讓我們們感覺的的3D世界更廣廣闊環(huán)繞立體體聲它采用音音頻壓縮縮技術(shù)(如:杜比AC-3)把多通道音音源編碼成成一段程序序,再以一一組多揚(yáng)聲聲器系統(tǒng)來(lái)來(lái)進(jìn)行解碼碼,實(shí)現(xiàn)多多區(qū)域環(huán)繞繞效果。交互式3D音效交互式3D盡量地復(fù)制制了人耳在在真實(shí)世界界中聽到的的聲音,并并使用一定定的算法來(lái)來(lái)播放出來(lái)來(lái),讓我們們感到整個(gè)個(gè)三維空間間的所有地地方都可能能產(chǎn)生聲音音,并隨聽聽者的移動(dòng)動(dòng)而做出相相應(yīng)改變。。三維音效人類的聽覺覺3D音效的分類類杜比AC-3DTS杜比AC-3為了提高HDTV聲音的質(zhì)量量,避免模模擬矩陣編編碼的局限限性,提出出了雙通道道的碼率提提供多通道道的編碼性性能的設(shè)想想,杜比AC-3就是為了實(shí)實(shí)現(xiàn)這一設(shè)設(shè)想而開發(fā)發(fā)的。杜比比AC-3可以把五個(gè)個(gè)獨(dú)立的全全頻帶和一一個(gè)超低音音通道的信信號(hào)實(shí)行統(tǒng)統(tǒng)一編碼,,成為單一一的復(fù)合數(shù)數(shù)據(jù)流。AC-3的頻響為20Hz~20kHz±0.5dB(-3dB時(shí)為3Hz~20.3kHz),超低聲道道頻率范圍圍是20Hz~120Hz±0.5dB。可支持32kHz、44.1kHz、48kHz三種取樣頻頻率。數(shù)碼碼率可低至至單聲道的的32kb/s,高到多聲道道640kb/s,以適應(yīng)不不同需要。。杜比AC-3AC-3采用基于改改良離散余余弦變換((MDCT)的自適應(yīng)應(yīng)變換編碼碼(ATC)算法。ATC算法的一個(gè)個(gè)重要考慮慮是基于人人耳聽覺掩掩蔽效應(yīng)的的臨界頻帶帶理論,即即在臨界頻頻帶內(nèi)一個(gè)個(gè)聲音對(duì)另另一個(gè)聲音音信號(hào)的掩掩蔽效應(yīng)最最明顯。因因此,劃分頻帶的的濾波器組組要有足夠夠銳利的頻頻率響應(yīng),,以保證臨臨界頻帶外外的噪聲衰衰減足夠大大,使時(shí)域域和頻域內(nèi)內(nèi)的噪聲限限定在掩蔽蔽門限以下下。三維音效人類的聽覺覺3D音效的分類類杜比AC-3DTSDTSDTS是“DigitalTheatreSystem”的縮寫,,是“數(shù)字字化影院系系統(tǒng)”的意意思。從技術(shù)上講講,DTS與包括DolbyDigital在內(nèi)的其它它聲音處理理系統(tǒng)是完完全不同的的。DolbyDigital是將音效數(shù)數(shù)據(jù)存儲(chǔ)在在電影膠片片的齒孔之之間,因?yàn)闉榭臻g的限限制而必須須采用大量量的壓縮的的模式,這這樣就不得得不犧牲部部分音質(zhì)。。DTS公司用一種種簡(jiǎn)單的辦辦法解決了了這個(gè)問(wèn)題題,即把音音效數(shù)據(jù)存存儲(chǔ)到另外外的CD-ROM中,使其與與影像數(shù)據(jù)據(jù)同步。這這樣不但空空間得到增增加,而且且數(shù)據(jù)流量量也可以相相對(duì)變大,,更可以將將存儲(chǔ)音效效數(shù)據(jù)的CD更換,來(lái)播播放不同的的語(yǔ)言版本本。DTSDTS系統(tǒng)不僅具具有AC-3相似功能,,更加強(qiáng)了了其縱深定定位交叉效效果。DTS芯片容量為為1536kbps,壓縮傳輸輸比為4:1;而AC-3芯片容量為為448kbps,壓縮比為為10:1。正是由于于DTS信息容量的的增加,音音色更加優(yōu)優(yōu)美。DTS家庭影院的的核心是DTS解碼器,它它可對(duì)DVD,CD的杜比數(shù)字字解碼,輸輸出5.1聲道信息,,也可以選選擇DTS方式,輸出出6聲道信息。。DTS和杜比數(shù)字字在音質(zhì)上上有著明顯顯的不同,,前者聲音音力度強(qiáng)勁勁,聲音的的上升和切切入都很尖尖銳,音場(chǎng)場(chǎng)的透明感感清晰可聞聞,尤其是是豐富的低低音效果表表現(xiàn)得更加加激烈火爆爆。后者在在低音方面面缺少豐富富的力度第四講數(shù)數(shù)字語(yǔ)音處處理技術(shù)數(shù)字音頻壓壓縮技術(shù)三維音效語(yǔ)音識(shí)別自然語(yǔ)言理理解語(yǔ)音合成語(yǔ)音識(shí)別技技術(shù)及應(yīng)用用語(yǔ)音識(shí)別的的發(fā)展歷史史語(yǔ)音識(shí)別技技術(shù)語(yǔ)音識(shí)別系系統(tǒng)的類型型語(yǔ)音識(shí)別的的應(yīng)用語(yǔ)音識(shí)別的的發(fā)展歷史史語(yǔ)音識(shí)別技技術(shù)的研究究工作始于于20世紀(jì)紀(jì)50年代代,當(dāng)時(shí)AT&TBell實(shí)驗(yàn)室實(shí)實(shí)現(xiàn)了第一一個(gè)可識(shí)別別十個(gè)英文文數(shù)字的語(yǔ)語(yǔ)音識(shí)別系系統(tǒng)——Audry系統(tǒng)。60年代,,計(jì)算機(jī)的的應(yīng)用推動(dòng)動(dòng)了語(yǔ)音識(shí)識(shí)別的發(fā)展展。70年代,,語(yǔ)音識(shí)別別領(lǐng)域取得得了突破。。80年代,,語(yǔ)音識(shí)別別研究進(jìn)一一步走向深深入,其顯顯著特征是是HMM模模型和人工工神經(jīng)元網(wǎng)網(wǎng)絡(luò)(ANN)在語(yǔ)語(yǔ)音識(shí)別中中的成功應(yīng)應(yīng)用。90年代,,隨著多媒媒體時(shí)代的的來(lái)臨,迫迫切要求語(yǔ)語(yǔ)音識(shí)別系系統(tǒng)從實(shí)驗(yàn)驗(yàn)室走向?qū)崒?shí)用。語(yǔ)音識(shí)別技技術(shù)的發(fā)展展歷史如圖表示了了從80年年代初以來(lái)來(lái)語(yǔ)音識(shí)別別技術(shù)經(jīng)歷歷的從孤立立詞、小詞詞匯量、特特定人到大大詞匯量、、非特定人人、自然口口語(yǔ)識(shí)別的的發(fā)展歷程程。語(yǔ)音識(shí)別技技術(shù)及應(yīng)用用語(yǔ)音識(shí)別的的發(fā)展歷史史語(yǔ)音識(shí)別技技術(shù)語(yǔ)音音識(shí)識(shí)別別系系統(tǒng)統(tǒng)的的類類型型語(yǔ)音音識(shí)識(shí)別別的的應(yīng)應(yīng)用用語(yǔ)音音識(shí)識(shí)別別技技術(shù)術(shù)不同同的的語(yǔ)語(yǔ)音音識(shí)識(shí)別別系系統(tǒng)統(tǒng),,雖雖然然具具體體實(shí)實(shí)現(xiàn)現(xiàn)細(xì)細(xì)節(jié)節(jié)有有所所不不同同,,但但所所采采用用的的基基本本技技術(shù)術(shù)相相似似,,它它所所涉涉及及的的領(lǐng)領(lǐng)域域包包括括::信信號(hào)號(hào)處處理理、、模模式式識(shí)識(shí)別別、、概概率率論論和和信信息息論論、、發(fā)發(fā)聲聲機(jī)機(jī)理理和和聽聽覺覺機(jī)機(jī)理理、、人人工工智智能能等等等等。。語(yǔ)音音識(shí)識(shí)別別技技術(shù)術(shù)主主要要包包括括特征征提提取取技技術(shù)術(shù)、模式式匹匹配配準(zhǔn)準(zhǔn)則則及模型型訓(xùn)訓(xùn)練練技術(shù)術(shù)三三個(gè)個(gè)方方面面。。此此外外,,還還涉涉及及到到語(yǔ)語(yǔ)音音識(shí)識(shí)別別單單元元的的選選取取。。特征征參參數(shù)數(shù)提提取取技技術(shù)術(shù)語(yǔ)音音信信號(hào)號(hào)中中含含有有豐豐富富的的信信息息,,這這些些信信息息稱稱為為語(yǔ)語(yǔ)音音信信號(hào)號(hào)的的聲聲學(xué)學(xué)特特征征特征征提提取取是是對(duì)對(duì)語(yǔ)語(yǔ)音音信信號(hào)號(hào)進(jìn)進(jìn)行行分分析析處處理理,,去去除除對(duì)對(duì)語(yǔ)語(yǔ)音音識(shí)識(shí)別別無(wú)無(wú)關(guān)關(guān)緊緊要要的的冗冗余余信信息息,,獲獲得得影影響響語(yǔ)語(yǔ)音音識(shí)識(shí)別別的的重重要要信信息息由于于語(yǔ)語(yǔ)音音信信號(hào)號(hào)的的時(shí)時(shí)變變特特性性,,特特征征提提取取必必須須在在一一小小段段語(yǔ)語(yǔ)音音信信號(hào)號(hào)上上進(jìn)進(jìn)行行,,也也即即進(jìn)進(jìn)行行短短時(shí)時(shí)分分析析常用用的的一一些些聲聲學(xué)學(xué)特特征征線性性預(yù)預(yù)測(cè)測(cè)系系數(shù)數(shù)LPC倒譜譜系系數(shù)數(shù)CEPMel倒倒譜譜系系數(shù)數(shù)MFCC和和感感知知線線性性預(yù)預(yù)測(cè)測(cè)PLP模式式匹匹配配及及模模型型訓(xùn)訓(xùn)練練技技術(shù)術(shù)模型型訓(xùn)訓(xùn)練練是是指指按按照照一一定定的的準(zhǔn)準(zhǔn)則則,,從從大大量量已已知知模模式式中中獲獲取取表表征征該該模模式式本本質(zhì)質(zhì)特特征征的的模模型型參參數(shù)數(shù),,而而模模式式匹匹配配則則是是根根據(jù)據(jù)一一定定準(zhǔn)準(zhǔn)則則,,使使未未知知模模式式與與模模型型庫(kù)庫(kù)中中的的某某一一個(gè)個(gè)模模型型獲獲得得最最佳佳匹匹配配。。語(yǔ)音音識(shí)識(shí)別別所所應(yīng)應(yīng)用用的的模模式式匹匹配配和和模模型型訓(xùn)訓(xùn)練練技技術(shù)術(shù)主主要要有有動(dòng)動(dòng)態(tài)態(tài)時(shí)時(shí)間間歸歸正正技技術(shù)術(shù)((DTW,,又又稱稱為為動(dòng)動(dòng)態(tài)態(tài)時(shí)時(shí)間間彎彎折折技技術(shù)術(shù)))、、隱隱馬馬爾爾可可夫夫模模型型((HMM))和和人人工工神神經(jīng)經(jīng)元元網(wǎng)網(wǎng)絡(luò)絡(luò)((ANN))。。典型型語(yǔ)語(yǔ)音音識(shí)識(shí)別別系系統(tǒng)統(tǒng)的的實(shí)實(shí)現(xiàn)現(xiàn)過(guò)過(guò)程程語(yǔ)音音識(shí)識(shí)別別單單元元的的選選取取選擇擇識(shí)識(shí)別別單單元元是是語(yǔ)語(yǔ)音音識(shí)識(shí)別別研研究究的的第第一一步步語(yǔ)音音識(shí)識(shí)別別單單元元有有單詞詞(句句))、、音節(jié)節(jié)和音素素三種種單詞詞單單元元廣廣泛泛應(yīng)應(yīng)用用于于中中小小詞詞匯匯語(yǔ)語(yǔ)音音識(shí)識(shí)別別系系統(tǒng)統(tǒng)音節(jié)節(jié)單單元元多多見見于于漢漢語(yǔ)語(yǔ)語(yǔ)語(yǔ)音音識(shí)識(shí)別別音素素單單元元以以前前多多見見于于英英語(yǔ)語(yǔ)語(yǔ)語(yǔ)音音識(shí)識(shí)別別的的研研究究中中,,但但目目前前中中、、大大詞詞匯匯量量漢漢語(yǔ)語(yǔ)語(yǔ)語(yǔ)音音識(shí)識(shí)別別系系統(tǒng)統(tǒng)也也在在越越來(lái)來(lái)越越多多地地采采用用語(yǔ)音音識(shí)識(shí)別別技技術(shù)術(shù)及及應(yīng)應(yīng)用用語(yǔ)音音識(shí)識(shí)別別的的發(fā)發(fā)展展歷歷史史語(yǔ)音音識(shí)識(shí)別別技技術(shù)術(shù)語(yǔ)音音識(shí)識(shí)別別系系統(tǒng)統(tǒng)的的類類型型語(yǔ)音音識(shí)識(shí)別別的的應(yīng)應(yīng)用用語(yǔ)音音識(shí)識(shí)別別系系統(tǒng)統(tǒng)的的類類型型語(yǔ)音音識(shí)識(shí)別別系系統(tǒng)統(tǒng)有有以以下下幾幾種種分分類類方方式式::根據(jù)據(jù)對(duì)對(duì)說(shuō)說(shuō)話話人人的的依依賴賴程程度度可可以以分分為為特定定人人和非特特定定人人語(yǔ)音音識(shí)識(shí)別別系系統(tǒng)統(tǒng)根據(jù)據(jù)對(duì)對(duì)說(shuō)說(shuō)話話人人說(shuō)說(shuō)話話方方式式的的要要求求,,可可以以分分為為孤立立字字((詞詞))語(yǔ)音音識(shí)識(shí)別別系系統(tǒng)統(tǒng),,連接接詞詞語(yǔ)音音識(shí)識(shí)別別系系統(tǒng)統(tǒng)以以及及連續(xù)續(xù)語(yǔ)語(yǔ)音音識(shí)別別系系統(tǒng)統(tǒng)根據(jù)據(jù)詞詞匯匯量量大大小小,,可可以以分分為為小小詞詞匯匯量量、、中中等等詞詞匯匯量量、、大大詞詞匯匯量量以以及及無(wú)無(wú)限限詞詞匯匯量量語(yǔ)語(yǔ)音音識(shí)識(shí)別別系系統(tǒng)統(tǒng)特定定人人語(yǔ)語(yǔ)音音識(shí)識(shí)別別系系統(tǒng)統(tǒng)特定定人人的的識(shí)識(shí)別別系系統(tǒng)統(tǒng)精精明明得得足足以以能能了了解解講講話話者者的的語(yǔ)語(yǔ)音音特特點(diǎn)點(diǎn),,它它從從語(yǔ)語(yǔ)音音簽簽名名上上就就能能知知道道講講話話者者的的身身份份。。只有有在在講講話話者者用用特特定定單單詞詞組組形形成成的的詞詞匯匯表表訓(xùn)訓(xùn)練練系系統(tǒng)統(tǒng)后后,,它它才才能能識(shí)識(shí)別別特定定人人系系統(tǒng)統(tǒng)的的優(yōu)優(yōu)點(diǎn)點(diǎn)是是它它是是可可訓(xùn)訓(xùn)練練的的,,系系統(tǒng)統(tǒng)很很靈靈活活,,可可以以訓(xùn)訓(xùn)練練它它來(lái)來(lái)識(shí)識(shí)別別新新詞詞特定定人人的的系系統(tǒng)統(tǒng)的的缺缺點(diǎn)點(diǎn)是是由由一一個(gè)個(gè)用用戶戶訓(xùn)訓(xùn)練練的的系系統(tǒng)統(tǒng)不不能能被被另另一一用用戶戶使使用用例::手手機(jī)機(jī)中中使使用用的的語(yǔ)語(yǔ)音音撥撥號(hào)號(hào)非特定定人語(yǔ)語(yǔ)音識(shí)識(shí)別系系統(tǒng)非持定定人識(shí)識(shí)別系系統(tǒng)可可識(shí)別別任何何用戶戶的語(yǔ)語(yǔ)音。。它不不需要要任何何來(lái)自自用戶戶的訓(xùn)訓(xùn)練,,因?yàn)闉樗徊灰蕾囐囉趥€(gè)個(gè)人的的語(yǔ)音音簽名名。為生成成非特特定人人識(shí)別別系統(tǒng)統(tǒng)、大大量的的用戶戶訓(xùn)練練了大大詞匯匯表的的識(shí)別別器。。在訓(xùn)練練系統(tǒng)統(tǒng)時(shí),,男聲聲和女女聲、、不同同的口口音和和方言言,以以及帶帶有背背景噪噪音的的環(huán)境境都計(jì)計(jì)入了了考慮慮范圍圍之內(nèi)內(nèi)以生生成參參考模模板。。例:IBMViaVoice孤立詞詞語(yǔ)音音識(shí)別別系統(tǒng)統(tǒng)孤立詞詞(語(yǔ)語(yǔ)音)識(shí)別別系統(tǒng)統(tǒng),一一次只只提供供一個(gè)個(gè)單一一詞的的識(shí)別別識(shí)別器器的第第一個(gè)個(gè)任務(wù)務(wù)是進(jìn)進(jìn)行幅幅度和和噪聲聲歸一一化,,下一一步是是參數(shù)數(shù)分析析可以通通過(guò)把把對(duì)應(yīng)應(yīng)于一一個(gè)詞詞的大大量樣樣本聚聚集為為單一一群來(lái)來(lái)獲得得非特特定人人孤立立單詞詞語(yǔ)音音識(shí)別別器。。連接詞詞語(yǔ)音音識(shí)別別系統(tǒng)統(tǒng)連接詞詞的語(yǔ)語(yǔ)音由由所說(shuō)說(shuō)的短短語(yǔ)組組成,,而短短語(yǔ)又又是由由詞序序列組組成識(shí)別連連接詞詞短語(yǔ)語(yǔ)中單單詞的的一種種方法法是采采用詞詞定位位技術(shù)術(shù)類似于于孤立立詞語(yǔ)語(yǔ)音識(shí)識(shí)別,,連接接詞語(yǔ)語(yǔ)音識(shí)識(shí)別用用于命命令和和控制制應(yīng)用用連續(xù)語(yǔ)語(yǔ)音識(shí)識(shí)別系系統(tǒng)連續(xù)語(yǔ)語(yǔ)音由由在聽聽寫中中形成成段落落的完完整句句子組組成連續(xù)語(yǔ)語(yǔ)音識(shí)識(shí)別系系統(tǒng)可可以分分成下下列三三部分分:第一部部分包包括數(shù)數(shù)字化化、幅幅度歸歸一化化、時(shí)時(shí)間歸歸一化化和參參數(shù)表表示另一部部分包包括分分割并并把語(yǔ)語(yǔ)音段段標(biāo)記記成在在基于于知識(shí)識(shí)或基基于規(guī)規(guī)則系系統(tǒng)上上的符符號(hào)串串最后一一部分分是設(shè)設(shè)計(jì)用用于識(shí)識(shí)別詞詞序列列而進(jìn)進(jìn)行語(yǔ)語(yǔ)音段段匹配配語(yǔ)音識(shí)識(shí)別技技術(shù)及及應(yīng)用用語(yǔ)音識(shí)識(shí)別的的發(fā)展展歷史史語(yǔ)音識(shí)識(shí)別技技術(shù)語(yǔ)音識(shí)識(shí)別系系統(tǒng)的的類型型語(yǔ)音識(shí)識(shí)別的的應(yīng)用用語(yǔ)音識(shí)識(shí)別的的應(yīng)用用語(yǔ)音郵郵件集集成數(shù)據(jù)庫(kù)庫(kù)輸人人和詢?cè)儐?wèn)應(yīng)應(yīng)用語(yǔ)音命命令和和控制制應(yīng)用用第四講講數(shù)數(shù)字語(yǔ)語(yǔ)音處處理技技術(shù)數(shù)字音音頻壓壓縮技技術(shù)三維音音效語(yǔ)音識(shí)識(shí)別自然語(yǔ)語(yǔ)言理理解語(yǔ)音合合成自然語(yǔ)語(yǔ)言理理解自然語(yǔ)語(yǔ)言理理解就就是研研究如如何能能讓計(jì)計(jì)算機(jī)機(jī)理解解并生生成人人們?nèi)杖粘K褂糜玫?如漢語(yǔ)語(yǔ)、英英語(yǔ))語(yǔ)言,,使得得計(jì)算算機(jī)懂懂得自自然語(yǔ)語(yǔ)言的的含義義,并并對(duì)人人給計(jì)計(jì)算機(jī)機(jī)提出出的問(wèn)問(wèn)題,,通過(guò)過(guò)對(duì)話話的方方式,,用自自然語(yǔ)語(yǔ)言進(jìn)進(jìn)行回回答。。目的的在于于建立立起一一種人人與機(jī)機(jī)器之之間的的密切切而友友好的的關(guān)系系,使使之能能進(jìn)行行高度度的信信息傳傳遞與與認(rèn)知知活動(dòng)動(dòng)。用自然然語(yǔ)言言與計(jì)計(jì)算機(jī)機(jī)進(jìn)行行通信信,這這是人人們長(zhǎng)長(zhǎng)期以以來(lái)所所追求求的。。自然語(yǔ)語(yǔ)言理理解一個(gè)中中文文文本從從形式式上看看是由由漢字字(包包括標(biāo)標(biāo)點(diǎn)符符號(hào)等等)組組成的的一個(gè)個(gè)字符符串。。由字字可組組成詞詞,由由詞可可組成成詞組組,由由詞組組可組組成句句子,,進(jìn)而而由一一些句句子組組成段段、節(jié)節(jié)、章章、篇篇。無(wú)論在在上述述的各各種層層次::字((符))、詞詞、詞詞組、、句子子、段段,………還還是在在下一一層次次向上上一層層次轉(zhuǎn)轉(zhuǎn)變中中都存存在著著歧義義和多多義現(xiàn)現(xiàn)象,,即形形式上上一樣樣的一一段字字符串串,在在不同同的場(chǎng)場(chǎng)景或或不同同的語(yǔ)語(yǔ)境下下,可可以理理解成成不同同的詞詞串、、詞組組串等等,并并有不不同的的意義義。自然語(yǔ)語(yǔ)言處處理的的核心心技術(shù)術(shù)是語(yǔ)語(yǔ)言分分析技技術(shù),,即將將句子子(數(shù)數(shù)量無(wú)無(wú)限))變換換成由由詞語(yǔ)語(yǔ)(數(shù)數(shù)量可可控))及其其抽象象形式式(數(shù)數(shù)量有有限))構(gòu)成成的用用某種種數(shù)據(jù)據(jù)結(jié)構(gòu)構(gòu)(句句法樹樹、復(fù)復(fù)雜特特征集集或語(yǔ)語(yǔ)義網(wǎng)網(wǎng)絡(luò)))表示示的內(nèi)內(nèi)部形形式((數(shù)量量有限限)。。自然語(yǔ)語(yǔ)言理理解語(yǔ)言分分析技技術(shù)可可以分分為基基于規(guī)規(guī)則與與基于于統(tǒng)計(jì)計(jì)數(shù)據(jù)據(jù)兩大大類。。概率語(yǔ)語(yǔ)法通通過(guò)語(yǔ)語(yǔ)料庫(kù)庫(kù)統(tǒng)計(jì)計(jì)給每每條語(yǔ)語(yǔ)言規(guī)規(guī)則加加上概概率值值,語(yǔ)語(yǔ)言規(guī)規(guī)則便便有了了“柔性”,不再再是“說(shuō)一不不二”、“非此即即彼”。概率語(yǔ)語(yǔ)法是是有機(jī)機(jī)結(jié)合合這兩兩類技技術(shù)的的較好好理論論體系系。為為了完完成這這種統(tǒng)統(tǒng)計(jì),,事先先必須須按照照人給給出的的語(yǔ)言言規(guī)則則加工工語(yǔ)料料庫(kù)((至少少要加加工一一部分分訓(xùn)練練語(yǔ)料料),,這說(shuō)說(shuō)明統(tǒng)統(tǒng)計(jì)方方法也也需要要規(guī)則則的指指導(dǎo)。。兩者者之間間的結(jié)結(jié)合和和互相相利用用是必必然的的趨勢(shì)勢(shì)。自然語(yǔ)語(yǔ)言理理解語(yǔ)言分分析可可以劃劃分為為詞法法析、、句法法分析析、語(yǔ)語(yǔ)義分分析、、篇章章分析析等步步驟?!,F(xiàn)在在,詞詞法分分析和和句法法分析析相對(duì)對(duì)成熟熟,語(yǔ)語(yǔ)義分分析逐逐漸成成為研研究重重點(diǎn)。。對(duì)象象單元元由小小到大大從句句子向向篇章章發(fā)展展。實(shí)實(shí)際上上只有有在篇篇章的的范圍圍內(nèi)分分析,,省略略、指指代和和句子子的固固有歧歧義等等問(wèn)題題才可可能解解決。。如果說(shuō)說(shuō)自然然語(yǔ)言言處理理技術(shù)術(shù)尚未未取得得重大大突破破,其其含義義就是是完整整語(yǔ)言言分析析技術(shù)術(shù)尚未未過(guò)關(guān)關(guān)。淺層分分析技技術(shù)或或者只只提取取句子子中的的名詞詞短語(yǔ)語(yǔ),或或者只只識(shí)別別句子子的謂謂語(yǔ)中中心詞詞及其其他組組塊同同謂語(yǔ)語(yǔ)中心心詞的的依存存關(guān)系系。這這樣的的技術(shù)術(shù)就是是適應(yīng)應(yīng)當(dāng)今今大規(guī)規(guī)模網(wǎng)網(wǎng)上文文本信信息處處理,,例如如,文文獻(xiàn)檢檢索、、信息息提取取和文文本分分類等等的需需要,,吸收收傳統(tǒng)統(tǒng)的語(yǔ)語(yǔ)言分分析中中某些些局部部技術(shù)術(shù)而發(fā)發(fā)展起起來(lái)的的。第四講數(shù)數(shù)字語(yǔ)音處處理技術(shù)數(shù)字音頻壓壓縮技術(shù)三維音效語(yǔ)音識(shí)別自然語(yǔ)言理理解語(yǔ)音合成語(yǔ)音合成語(yǔ)音合成是是以言語(yǔ)產(chǎn)產(chǎn)生模型為為基礎(chǔ),分析抽取激激勵(lì)源,聲道的特征征參數(shù);再再利用這些些特征參數(shù)數(shù)重新綜合合出語(yǔ)音信信號(hào)的過(guò)程程。語(yǔ)音合成是是通過(guò)一個(gè)個(gè)聲學(xué)模塊塊來(lái)具體實(shí)實(shí)現(xiàn)的。語(yǔ)音合成早期的語(yǔ)音音合成技術(shù)術(shù)的研究,,往往集中中在語(yǔ)音合合成算法本本身,其研研究的方法法和手段與與語(yǔ)音編碼碼有很多相相似之處。。進(jìn)入20世紀(jì)90年代以來(lái),,波形拼接接(PSOLA,PitchSynchronousOverLapAdd)的算法,越越來(lái)越被廣廣泛地應(yīng)用用在語(yǔ)音合合成系統(tǒng)中中。PSOLA較好地解決決了語(yǔ)音拼拼接中的問(wèn)問(wèn)題,從而而推動(dòng)了波波形編輯語(yǔ)語(yǔ)音合成技技術(shù)的發(fā)展展與應(yīng)用。。近年來(lái),一一些新的方方法,如人人工神經(jīng)網(wǎng)網(wǎng)絡(luò)、決策策樹、隱馬馬爾可夫模模型等被廣廣泛地應(yīng)用用于語(yǔ)音合合成技術(shù)。。TTSTTS即文本語(yǔ)音音轉(zhuǎn)換技術(shù)術(shù)(TextToSpeech),它涉及聲聲學(xué)、語(yǔ)言言學(xué)、數(shù)學(xué)學(xué)信號(hào)處理理技術(shù)、多多媒體技術(shù)術(shù)等多個(gè)學(xué)學(xué)科技術(shù),,是中文信信息處理領(lǐng)領(lǐng)域的一項(xiàng)項(xiàng)前沿技術(shù)術(shù),實(shí)現(xiàn)把把計(jì)算機(jī)中中任意出現(xiàn)現(xiàn)的文字轉(zhuǎn)轉(zhuǎn)換成自然然流暢的語(yǔ)語(yǔ)音輸出。。TS系統(tǒng)是一種種以文字串串為輸入的的規(guī)則合成成系統(tǒng)。其其輸入的文文字串為通通常的文本本字符串。。系統(tǒng)中的的文本分析析器首先根根據(jù)發(fā)音字字典,將輸輸入的文字字串分節(jié)為為帶有標(biāo)記記的詞及其其讀音符號(hào)號(hào),再根據(jù)據(jù)語(yǔ)義規(guī)則則和語(yǔ)音規(guī)規(guī)則,為每每一個(gè)詞、、每一個(gè)音音節(jié)確定聲聲音等級(jí)和和語(yǔ)調(diào),以以及各種停停頓等。這這樣文字串串就轉(zhuǎn)換為為代碼串。。規(guī)則合成成系統(tǒng)就可可據(jù)此合成成抑揚(yáng)頓挫挫和不同語(yǔ)語(yǔ)氣的語(yǔ)句句。視覺語(yǔ)音視覺語(yǔ)音是是指人們?cè)谠谟谜Z(yǔ)言交交流時(shí)所表表達(dá)出的面面部表情和和動(dòng)作,它它能在一定定程度上傳傳達(dá)人們想想要表達(dá)的的意思,并并能幫助人人們加深對(duì)對(duì)語(yǔ)言的理理解。近年來(lái)出現(xiàn)現(xiàn)了另一種種多媒體研研究熱潮,,即把聲音音和文字、、圖像集成成在一起,,形成直接接由文本到到可視語(yǔ)音音的轉(zhuǎn)換(text-to-visualspeech,TTVS),使人們?cè)谠诼犛?jì)算機(jī)機(jī)說(shuō)話的同同時(shí)能看到到一個(gè)合成成的人臉,,使人機(jī)交交互界面更更為友好、、和諧。視覺語(yǔ)音TTVS的實(shí)現(xiàn)方法法可分為以以下兩類::基于參數(shù)控控制的方法法。首先對(duì)對(duì)人臉建立立一個(gè)網(wǎng)格格模型,包包括多個(gè)多多邊形(一般是三角角形)和頂點(diǎn)。由由一組參數(shù)數(shù)來(lái)控制每每個(gè)頂點(diǎn)的的運(yùn)動(dòng),再再通過(guò)圖像像變形技術(shù)術(shù)實(shí)現(xiàn)人臉臉上各個(gè)像像素點(diǎn)的運(yùn)運(yùn)動(dòng),來(lái)生生成人們說(shuō)說(shuō)話時(shí)的各各種面部表表情。基于數(shù)據(jù)據(jù)驅(qū)動(dòng)的的方法。。類似于語(yǔ)語(yǔ)音合成成中的波波形拼接接合成法法。通過(guò)過(guò)對(duì)人們們說(shuō)話時(shí)時(shí)可能出出現(xiàn)的各各種表情情進(jìn)行錄錄像,從從中提取取大量的的原始數(shù)數(shù)據(jù),建建立圖像像數(shù)據(jù)庫(kù)庫(kù)。在合合成時(shí)從從庫(kù)中選選擇合適適的圖像像進(jìn)行拼拼接,并并進(jìn)行一一些消除除圖像邊邊緣效應(yīng)應(yīng)和抖動(dòng)動(dòng)的處理理,生成成動(dòng)態(tài)的的連續(xù)的的說(shuō)話者者的面部部表情。。9、靜夜四無(wú)鄰鄰,荒居舊業(yè)業(yè)貧。。1月-231月-23Thursday,January5,2023
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度農(nóng)村土地承包經(jīng)營(yíng)權(quán)與農(nóng)村文化傳承保護(hù)合同
- 二零二五年度魚塘承包權(quán)及養(yǎng)殖技術(shù)培訓(xùn)轉(zhuǎn)讓合同
- Unit 3 Writing Home Lesson 15 Sending the Postcards同步練習(xí)(含答案含聽力原文無(wú)聽力音頻)
- Unit 1 Going to Beijing Lesson 6 Danny Is Lost!同步練習(xí)(含答案含聽力原文無(wú)音頻)
- 2025年度高端餐飲品牌區(qū)域代理權(quán)合作協(xié)議書
- 二零二五年度智能家居銷售總額提成及市場(chǎng)拓展合同
- 2025年巢湖b2貨運(yùn)上崗證模擬考試
- 在校實(shí)習(xí)生實(shí)習(xí)合同
- 2024年正規(guī)離婚協(xié)議
- 2025年遂寧年貨運(yùn)從業(yè)資格證考試題庫(kù)
- 2023年10月山東青島開放大學(xué)招考聘用工作人員(第二批)筆試歷年高頻考點(diǎn)試題含答案帶詳解
- 《計(jì)算機(jī)應(yīng)用基礎(chǔ) Win10+Office 2016》教案 模塊一 計(jì)算機(jī)基礎(chǔ)知識(shí)(二)
- 二手車交易行業(yè)行業(yè)網(wǎng)絡(luò)安全與威脅防護(hù)
- 小兒抽動(dòng)癥中西醫(yī)治療
- 一年級(jí)下冊(cè)《綜合實(shí)踐活動(dòng)》全冊(cè)教案【完整版】
- 人教版小學(xué)一年級(jí)英語(yǔ)課本上冊(cè)課件
- 電子對(duì)抗原理與技術(shù)PPT完整全套教學(xué)課件
- 烹飪美學(xué)PPT完整全套教學(xué)課件
- 金蝶云星空+V7.3-產(chǎn)品培訓(xùn)-供應(yīng)鏈-庫(kù)存管理
- 小學(xué)英語(yǔ)-PEP六下Unit1 Part B Read and write教學(xué)設(shè)計(jì)學(xué)情分析教材分析課后反思
- 五代十國(guó)的歷史故事
評(píng)論
0/150
提交評(píng)論