版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、1 國(guó)際視頻壓縮標(biāo)準(zhǔn)簡(jiǎn)介國(guó)際視頻壓縮標(biāo)準(zhǔn)簡(jiǎn)介 多媒體技術(shù) 2 主要內(nèi)容 視頻壓縮標(biāo)準(zhǔn)發(fā)展歷史 H.26X系列壓縮標(biāo)準(zhǔn)簡(jiǎn)介 MPEG系列壓縮標(biāo)準(zhǔn)簡(jiǎn)介 3 視頻壓縮標(biāo)準(zhǔn)發(fā)展歷史 ITU: ISO/IEC: H.261 H.262 H.263 H.263+ H.264 MPEG1 MPEG2MPEG4 (Part2) MPEG7 MPEG21MPEG4(Part10) 4 MPEG是什么 MPEG(Moving Picture Expert Group)是在1988年由國(guó)際標(biāo) 準(zhǔn)化組織(International Organization for Standardization, ISO)和國(guó)際電工
2、委員會(huì)(International Electrotechnical Commission,IEC)聯(lián)合成立的專(zhuān)家組,負(fù)責(zé)開(kāi)發(fā)電視圖像 數(shù)據(jù)和聲音數(shù)據(jù)的編碼、解碼和它們的同步等標(biāo)準(zhǔn)。這個(gè)專(zhuān) 家組開(kāi)發(fā)的標(biāo)準(zhǔn)稱(chēng)為MPEG標(biāo)準(zhǔn),到目前為止,已經(jīng)開(kāi)發(fā)和 正在開(kāi)發(fā)的MPEG標(biāo)準(zhǔn)有: MPEG-1:數(shù)字電視標(biāo)準(zhǔn),1992年正式發(fā)布。 MPEG-2:數(shù)字電視標(biāo)準(zhǔn)。 MPEG-3:已于1992年7月合并到高清晰度電視(High-Definition TV, HDTV)工作組。 MPEG-4:多媒體應(yīng)用標(biāo)準(zhǔn)(1999年發(fā)布)。 MPEG-5:直至1998年9月還沒(méi)有見(jiàn)到定義。 MPEG-6:直至1998年9月還
3、沒(méi)有見(jiàn)到定義。 MPEG-7:多媒體內(nèi)容描述接口標(biāo)準(zhǔn)(正在研究)。 5 MPEG-1和-2標(biāo)準(zhǔn)已經(jīng)正式發(fā)布,并且得到廣泛應(yīng)用。例如,CD-交 互系統(tǒng),在網(wǎng)絡(luò)上的數(shù)字聲音廣播、數(shù)字電視廣播和影視點(diǎn)播等。表 8-01是MPEG-1和-2的典型編碼參數(shù)。 6 MPEG文件的創(chuàng)建過(guò)程 與其他ISO標(biāo)準(zhǔn)文件一樣,MPEG標(biāo)準(zhǔn)文件的創(chuàng)建過(guò)程分 成4個(gè)階段: 工作文件(Working Draft,WD):工作組(Working Group,WG)準(zhǔn) 備的工作文件 委員會(huì)草案(Committee Draft,CD):從工作組WG準(zhǔn)備好的工作 文件WD提升上來(lái)的文件。這是ISO文檔的最初形式,它由ISO內(nèi) 部正
4、式調(diào)查研究和投票表決。 國(guó)際標(biāo)準(zhǔn)草案(Draft International Standard,DIS):投票成員國(guó)對(duì) CD的內(nèi)容和說(shuō)明滿意之后由委員會(huì)草案CD提升上來(lái)的文件。 國(guó)際標(biāo)準(zhǔn)(International Standard,IS):由投票成員國(guó)、ISO的其 他部門(mén)和其他委員會(huì)投票通過(guò)之后出版發(fā)布的文件。 7 視頻壓縮標(biāo)準(zhǔn)對(duì)比 H.261 p64k b/s視頻 編碼標(biāo) 準(zhǔn) 時(shí)間 1990年12月 輸入 176144(QCIF) 352288(CIF) 幀速率可變H.263MPEG2 壓縮算法 運(yùn)動(dòng)補(bǔ)償幀間預(yù)測(cè)(單雙向預(yù)測(cè)) DCT 局部算法改進(jìn) 可伸縮性 應(yīng)用 通用電話交換網(wǎng)、局域網(wǎng)的
5、視頻通信 11 視頻壓縮標(biāo)準(zhǔn)對(duì)比(續(xù)) MPEG 4(Part 2) MPEG 4 Visual 甚 低 碼 率 活 動(dòng) 圖 像 及 其 伴 音 編 碼 標(biāo) 準(zhǔn) 時(shí)間 1999年 輸入 176144的多種分辨率格式 輸出 4.6Kb/s64Kb/s 壓縮率 100 壓縮算法 基于對(duì)象的新一代編碼技術(shù),注重交 互性,即可包含自然對(duì)象,又可包含 人工合成對(duì)象 應(yīng)用 可應(yīng)用范圍很廣、目前多用于因特網(wǎng) 視頻傳輸、流媒體應(yīng)用 12 視頻壓縮標(biāo)準(zhǔn)對(duì)比(續(xù)) H.264 MPEG 4(Part1 0) MPEG 4 AVC 時(shí)間 2003年5月 輸入 多種分辨率格式 輸出 壓縮率 壓縮率最高的視頻壓縮標(biāo)準(zhǔn),
6、比 MPEG4 Visual節(jié)約50的碼率 壓縮算法 基于傳統(tǒng)框架的混合編碼系統(tǒng),只是 做了局部?jī)?yōu)化。更注重編碼效率和可 靠性 應(yīng)用 視頻廣播、視頻通信和存儲(chǔ)媒體(CD DVD)等多種應(yīng)用 13 MPEG-1視頻壓縮標(biāo)準(zhǔn) MPEG-1處理的是標(biāo)準(zhǔn)圖像交換格式(Standard Interchange format,SIF)或者稱(chēng)為源輸入格式(Source Input Format, SIF)的電視,即NTSC制為352像素x 240行/幀x 30幀/秒, PAL制為352像素x 288行/幀x25幀/秒,壓縮的輸出速率定 義在1.5 Mbit/s以下。這個(gè)標(biāo)準(zhǔn)主要是針對(duì)當(dāng)時(shí)具有這種數(shù) 據(jù)傳輸率
7、的CD-ROM和網(wǎng)絡(luò)而開(kāi)發(fā)的,用于在CD-ROM上 存儲(chǔ)數(shù)字影視和在網(wǎng)絡(luò)上傳輸數(shù)字影視。 MPEG-1的標(biāo)準(zhǔn)號(hào)為ISO/IEC 11172,標(biāo)準(zhǔn)名稱(chēng)為“信息技術(shù)用于數(shù) 據(jù)速率高達(dá)大約1.5 Mbit/s的數(shù)字存儲(chǔ)媒體的電視圖像和伴音編 碼”Information technology Coding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s)。 14 MPEG-1視頻壓縮標(biāo)準(zhǔn) MPEG-1已于1991年底被ISO/IEC采納,由五個(gè)部分組成: MPEG-1
8、系統(tǒng),寫(xiě)成MPEG-1 Systems,規(guī)定電視圖像數(shù)據(jù)、聲音數(shù)據(jù) 及其他相關(guān)數(shù)據(jù)的同步,標(biāo)準(zhǔn)名是ISO/IEC 11172-1:1993 Information technology Coding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s Part 1: Systems。 MPEG-1電視圖像,寫(xiě)成MPEG-1 Video, 規(guī)定電視數(shù)據(jù)的編碼和解碼, 標(biāo)準(zhǔn)名是ISO/IEC 11172-2:1993 Information technology Co
9、ding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s Part 2:Video。 MPEG-1聲音,寫(xiě)成MPEG-1 Audio, 規(guī)定聲音數(shù)據(jù)的編碼和解碼,標(biāo)準(zhǔn) 名是ISO/IEC 11172-3:1993 Information technology Coding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s Par
10、t 3:Audio。 15 MPEG-1一致性測(cè)試,寫(xiě)成MPEG-1 Conformance testing,標(biāo)準(zhǔn) 名是ISO/IEC 11172-4:1995 Information technology Coding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s Part 4:Conformance testing。 這個(gè)標(biāo)準(zhǔn)詳細(xì)說(shuō)明如何測(cè)試比特?cái)?shù)據(jù)流(bitstreams)和解碼器是否 滿足MPEG-1前3個(gè)部分(Part1,2和3)中所規(guī)定的要求。這
11、些測(cè) 試可由廠商和用戶實(shí)施。 MPEG-1軟件模擬,寫(xiě)成MPEG-1 Software simulation,標(biāo)準(zhǔn)名 是ISO/IEC TR 11172-5 Information technology Coding of moving pictures and associated audio for digital storage media up to about 1.5 Mbit/s Part 5:Software simulation。實(shí)際上, 這部分的內(nèi)容不是一個(gè)標(biāo)準(zhǔn),而是一個(gè)技術(shù)報(bào)告,給出了用軟件 執(zhí)行MPEG-1標(biāo)準(zhǔn)前3個(gè)部分的結(jié)果。 MPEG-1譯碼器方框圖 16 MPEG-
12、2數(shù)字電視標(biāo)準(zhǔn) MPEG-2標(biāo)準(zhǔn)從1990年開(kāi)始研究,1994發(fā)布DIS。 它是一個(gè)直接與數(shù)字電視廣播有關(guān)的高質(zhì)量圖像 和聲音編碼標(biāo)準(zhǔn)。 MPEG-2可以說(shuō)是MPEG-1的擴(kuò)充,因?yàn)樗鼈兊?基本編碼算法都相同。但MPEG-2增加了許多 MPEG-1所沒(méi)有的功能: 例如增加了隔行掃描電視的編碼, 提供了位速率的可變性能(scalability)功能。 MPEG-2要達(dá)到的最基本目標(biāo)是:位速率為49 Mbit/s, 最高達(dá)15 Mbit/s。 17 MPEG-2的標(biāo)準(zhǔn)號(hào)為ISO/IEC 13818,標(biāo)準(zhǔn)名稱(chēng)為“信息 技術(shù)電視圖像和伴音信息的通用編碼(Information technology G
13、eneric coding of moving pictures and associated audio information )”。MPEG-2包含10個(gè)部分: MPEG-2系統(tǒng),寫(xiě)成MPEG-2 Systems,規(guī)定電視圖像數(shù) 據(jù)、聲音數(shù)據(jù)及其他相關(guān)數(shù)據(jù)的同步,標(biāo)準(zhǔn)名是ISO/IEC 13818-1:1996 Information technology Generic coding of moving pictures and associated audio information :Systems。 18 MPEG-2的系統(tǒng)模型如圖所示。這個(gè)標(biāo)準(zhǔn)主要是用來(lái)定義電視圖 像數(shù)據(jù)、聲音
14、數(shù)據(jù)和其他數(shù)據(jù)的組合,把這些數(shù)據(jù)組合成一個(gè)或 者多個(gè)適合于存儲(chǔ)或者傳輸?shù)幕緮?shù)據(jù)流。數(shù)據(jù)流有兩種形式: 一種稱(chēng)為程序數(shù)據(jù)流(Program Stream,PS) 程序數(shù)據(jù)流是組合一個(gè)或者多個(gè)規(guī)格化的即包化基本數(shù)據(jù)流 (Packetised Elementary Streams,PES)而生成的一種數(shù)據(jù)流, 用在出現(xiàn)錯(cuò)誤相對(duì)比較少的環(huán)境下,適合使用軟件處理的應(yīng)用; 另一種稱(chēng)為傳輸數(shù)據(jù)流(Transport Stream,TS)。 傳輸數(shù)據(jù)流也是組合一個(gè)或者多個(gè)PES而生成的一種數(shù)據(jù)流, 它用在出現(xiàn)錯(cuò)誤相對(duì)比較多的環(huán)境下,例如在有損失或者有噪 聲的傳輸系統(tǒng)中。 圖MPEG-2的系統(tǒng)模型 19 MP
15、EG-2電視圖像,寫(xiě)成MPEG-2 Video,規(guī)定電視數(shù)據(jù)的編碼和解碼, 標(biāo)準(zhǔn)名是ISO/IEC 13818-2:1996 Information technology Generic coding of moving pictures and associated audio information :Video。 為了適應(yīng)各種應(yīng)用,這個(gè)標(biāo)準(zhǔn)定義了電視圖像的各種規(guī)格,稱(chēng)為配置 (profile),如表所示。表中的“X”符號(hào)表示MPEG-2支持的配置。 有些人認(rèn)為使用4:2:0子采樣格式的圖像質(zhì)量還不夠好, 因此在1996年的標(biāo)準(zhǔn)中增加了4:2:2子采樣格式的圖像。 多視角配置(Multiv
16、iew Profile,MVP)是附加的配置。 20 MPEG-2聲音,寫(xiě)成MPEG-2 Audio,規(guī)定聲音數(shù)據(jù)的編碼 和解碼,是MPEG-1 Audio的擴(kuò)充,支持多個(gè)聲道,標(biāo)準(zhǔn)名 是ISO/IEC 13818-3:1998 Information technology Generic coding of moving pictures and associated audio information Part 3:Audio。 MPEG-2一致性測(cè)試,寫(xiě)成MPEG-2 Conformance testing, 標(biāo)準(zhǔn)名是ISO/IEC DIS 13818-4 Information tec
17、hnology Generic coding of moving pictures and associated audio information Part 4:Conformance testing。 MPEG-2軟件模擬,寫(xiě)成MPEG-2 Software simulation,標(biāo) 準(zhǔn)名是ISO/IEC TR 13818-5:1997 Information technology Generic coding of moving pictures and associated audio information Part 5:Software simulation。 21 MPEG-2數(shù)
18、字存儲(chǔ)媒體命令和控制擴(kuò)展協(xié)議,寫(xiě)成MPEG-2 Extensions for DSM-CC,標(biāo)準(zhǔn)名是ISO/IEC DIS 13818-6 Information technology Generic coding of moving pictures and associated audio information Part 6:Extensions for DSM-CC。 這是一個(gè)數(shù)字存儲(chǔ)媒體命令和控制(Digital Storage Media Command and Control,DSM-CC)擴(kuò)展協(xié)議,用于管理MPEG-1和MPEG-2的數(shù) 據(jù)流,使數(shù)據(jù)流既可在單機(jī)上運(yùn)行,又可在異
19、構(gòu)網(wǎng)絡(luò)(即用類(lèi)似設(shè)備構(gòu) 造但運(yùn)行不同協(xié)議的網(wǎng)絡(luò))環(huán)境下運(yùn)行。 在DSM-CC模型中,服務(wù)器(server)和客戶器(client)都被認(rèn)為是DSM- CC網(wǎng)絡(luò)的用戶(user),DSM-CC定義了一個(gè)稱(chēng)為會(huì)話和資源管理 (Session and Resource Manager,SRM)的實(shí)體,用來(lái)集中管理網(wǎng)絡(luò) 中的會(huì)話和資源,如圖所示。 DSM-CC參考模型 22 MPEG-2先進(jìn)聲音編碼,寫(xiě)成MPEG-2 AAC,是多聲道聲音編碼算法標(biāo)準(zhǔn)。 這個(gè)標(biāo)準(zhǔn)除后向兼容MPEG-1 Audio標(biāo)準(zhǔn)之外,還有非后向兼容的聲音標(biāo) 準(zhǔn)。標(biāo)準(zhǔn)名是ISO/IEC 13818-7:1997 Informatio
20、n technology Generic coding of moving pictures and associated audio information Part 7:Advanced Audio Coding (AAC)。 MPEG-2系統(tǒng)解碼器實(shí)時(shí)接口擴(kuò)展標(biāo)準(zhǔn),標(biāo)準(zhǔn)名是ISO/IEC 13818-9: 1996 Information technology Generic coding of moving pictures and associated audio information Part 9:Extension for real time interface for sys
21、tems decoders。 這是與傳輸數(shù)據(jù)流(Transport Stream)的實(shí)時(shí)接口(real-time interface, RTI)標(biāo)準(zhǔn),它可以用來(lái)適應(yīng)來(lái)自網(wǎng)絡(luò)的傳輸數(shù)據(jù)流,如圖所示。 實(shí)時(shí)接口參考模型 23 MPEG-2 DSM-CC一致性擴(kuò)展測(cè)試,標(biāo)準(zhǔn)名是ISO/IEC DIS 13818-10 Information technology Generic coding of moving pictures and associated audio information Part 10:Conformance extensions for Digital Storage Me
22、dia Command and Control (DSM-CC)。 10 MPEG-2先進(jìn)聲音編碼標(biāo)準(zhǔn)修正版,標(biāo)準(zhǔn)名是Amendment 1 to ISO/IEC TR 13818-5:1997 Amendment 1 to ISO/IEC TR 13818-5: 1997 Advanced Audio Coding (AAA)。 最后要說(shuō)明的是,MPEG-2的Part 8原計(jì)劃用于采樣精度為10比特的 電視圖像編碼,但由于目前工業(yè)界對(duì)此興趣不大,因此該標(biāo)準(zhǔn)已暫停 開(kāi)發(fā)。 24 MPEG-4多媒體應(yīng)用標(biāo)準(zhǔn) 標(biāo)準(zhǔn)概要 MPEG-4從1994年開(kāi)始工作,它是為視聽(tīng)(audio-visual)數(shù)據(jù)的
23、編碼和 交互播放開(kāi)發(fā)算法和工具,是一個(gè)數(shù)據(jù)速率很低的多媒體通信標(biāo)準(zhǔn)。 MPEG-4的目標(biāo)是要在異構(gòu)網(wǎng)絡(luò)環(huán)境下能夠高度可靠地工作,并且具 有很強(qiáng)的交互功能。 為了達(dá)到這個(gè)目標(biāo),MPEG-4引入了對(duì)象基表達(dá)(object-based representation)的概念,用來(lái)表達(dá)視聽(tīng)對(duì)象(audio/visual objects, AVO); MPEG-4擴(kuò)充了編碼的數(shù)據(jù)類(lèi)型,由自然數(shù)據(jù)對(duì)象擴(kuò)展到計(jì)算機(jī)生成 的合成數(shù)據(jù)對(duì)象,采用合成對(duì)象/自然對(duì)象混合編碼(Synthetic/Natural Hybrid Coding,SNHC)算法; 25 在實(shí)現(xiàn)交互功能和重用對(duì)象中引入了組合、合成和編排等重要概
24、念。 MPEG-4系統(tǒng)構(gòu)造如圖8-05所示,接收端的構(gòu)造部件如圖8-06所示。 26 27 MPEG-4中制定了一個(gè)稱(chēng)為傳輸多媒體集成框架(Delivery Multimedia Integration Framework,DMIF)的會(huì)話協(xié)議,它 用來(lái)管理多媒體數(shù)據(jù)流。 該協(xié)議在原則上與文件傳輸協(xié)議FTP(File Transfer Protocol) 類(lèi)似,其差別是: FTP返回的是數(shù)據(jù), 而DMIF返回的是指向到何處獲取數(shù)據(jù)流的指針。 DMIF覆蓋了三種主要技術(shù): 廣播技術(shù), 交互網(wǎng)絡(luò)技術(shù) 光盤(pán)技術(shù), 如圖所示。 DMIF覆蓋 的三種主 要技術(shù) 28 MPEG-4將應(yīng)用在移動(dòng)通信和公用電
25、話交換 網(wǎng)(public switched telephone network, PSTN)上,并支持可視電話(videophone)、 電視郵件(video mail)、電子報(bào)紙(electronic newspapers)和其他低數(shù)據(jù)傳輸速率場(chǎng)合下 的應(yīng)用。 29 MPEG-4的標(biāo)準(zhǔn)名是Very-low bitrate audio-visual coding (甚低速率 視聽(tīng)編碼)。截止到1998年9月,已作為國(guó)際標(biāo)準(zhǔn)草案(Draft International Standard,DIS)的MPEG-4文件有6個(gè)部分,它們是: MPEG-4系統(tǒng)標(biāo)準(zhǔn),標(biāo)準(zhǔn)名是ISO/IEC DIS 1449
26、6-1 Very-low bitrate audio-visual coding Part 1: Systems。 MPEG-4電視圖像標(biāo)準(zhǔn),標(biāo)準(zhǔn)名是ISO/IEC DIS 14496-2 Very low bitrate audio-visual coding Part 2: Video。 MPEG-4聲音標(biāo)準(zhǔn),標(biāo)準(zhǔn)名是ISO/IEC DIS 14496-3 Very low bitrate audio-visual coding Part 3: Audio。 MPEG-4一致性測(cè)試標(biāo)準(zhǔn),標(biāo)準(zhǔn)名是ISO/IEC DIS 14496-4 Very- low bitrate audio-visu
27、al coding Part 4: Conformance Testing。 MPEG-4參考軟件,標(biāo)準(zhǔn)名是ISO/IEC DIS 14496-5 Very-low bitrate audio-visual coding Part 5: Reference software MPEG-4傳輸多媒體集成框架,標(biāo)準(zhǔn)名是ISO/IEC DIS 14496-6 Very-low bitrate audio-visual coding Part 6: Delivery Multimedia Integration Framework (DMIF)。 30 MPEG-7多媒體內(nèi)容描述接口 MPEG-7的工
28、作于1996年啟動(dòng),名稱(chēng)叫做多媒體內(nèi)容描述 接口(Multimedia Content Description Interface) , 目的是制定一套描述符標(biāo)準(zhǔn),用來(lái)描述各種類(lèi)型的多媒體信息及它 們之間的關(guān)系,以便更快更有效地檢索信息。 這些媒體材料可包括靜態(tài)圖像、圖形、3D模型、聲音、話音、電視 以及在多媒體演示中它們之間的組合關(guān)系。 在某些情況下,數(shù)據(jù)類(lèi)型還可包括面部特性和個(gè)人特性的表達(dá)。 與其他的MPEG標(biāo)準(zhǔn)一樣,MPEG-7是為滿足特定需求而制 定的視聽(tīng)信息標(biāo)準(zhǔn)。MPEG-7標(biāo)準(zhǔn)也是建筑在其他的標(biāo)準(zhǔn)之 上的, 例如,PCM, MPEG-1, MPEG-2和MPEG-4等等。 在MPE
29、G-7中,例如MPEG-4中使用的形狀描述符、MPEG-1和 MPEG-2中使用的移動(dòng)矢量(motion vector)等都可能在MPEG-7中用 到。 31 圖8-08表示了MPEG-7的處理鏈(processing chain), 這是高度抽象的方框圖。在這個(gè)處理鏈中包含有三 個(gè)方框: 特征抽取(feature extraction)、 標(biāo)準(zhǔn)描述(standard description) 檢索工具(search engine)。 特征的自動(dòng)分析和抽取對(duì)MPEG-7是至關(guān)重要的, 抽象程度越高,自動(dòng)抽取也越困難,而且不是都能 夠自動(dòng)抽取的,因此開(kāi)發(fā)自動(dòng)的和交互式半自動(dòng)抽 取的算法和工具都是
30、很有用的。盡管如此,特征抽 取和檢索工具都不包含在MPEG-7標(biāo)準(zhǔn)中,而是留 給大家去競(jìng)爭(zhēng),以便得到最好的算法和工具。 32 MPEG-7的應(yīng)用領(lǐng)域 數(shù)字圖書(shū)館(Digital library), 例如圖像目錄、音樂(lè)詞典等; 多媒體目錄服務(wù)(multimedia directory services), 例如黃頁(yè)(yellow pages); 廣播媒體的選擇, 例如無(wú)線電頻道,TV頻道等; 多媒體編輯, 例如個(gè)人電子新聞服務(wù),多媒體創(chuàng)作等等。 潛在應(yīng)用的應(yīng)用領(lǐng)域包括: 教育、娛樂(lè)、新聞、旅游、醫(yī)療、購(gòu)物等等。 33 MPEG聲音 與前面章節(jié)介紹的波形聲音壓縮編碼(如ADPCM) 和參數(shù)編碼(如
31、LPC)不同,MPEG-1和MPEG-2的 聲音數(shù)據(jù)壓縮編碼不是依據(jù)波形本身的相關(guān)性和 模擬人的發(fā)音器官的特性,而是利用人的聽(tīng)覺(jué)系 統(tǒng)的特性來(lái)達(dá)到壓縮聲音數(shù)據(jù)的目的,這種壓縮 編碼稱(chēng)為感知聲音編碼(perceptual audio coding)。 進(jìn)入20世紀(jì)80年代之后,尤其最近幾年,人類(lèi)在 利用自身的聽(tīng)覺(jué)系統(tǒng)的特性來(lái)壓縮聲音數(shù)據(jù)方面 取得了很大的進(jìn)展,先后制定了MPEG-1 Audio, MPEG-2 Audio和MPEG-2 AAC等標(biāo)準(zhǔn)。 34 MPEG聲音 MPEG Audio壓縮編碼算法中的三個(gè)特性: 響度、 音高 掩蔽效應(yīng)。 35 MPEG聲音 對(duì)響度的感知 聲音的響度就是聲音
32、的強(qiáng)弱。 在物理上,聲音的響度使用客觀測(cè)量單位來(lái)度量,即 dyn/cm2(達(dá)因/平方厘米)(聲壓)或W/cm2(瓦特/平方厘 米)(聲強(qiáng))。 在心理上,主觀感覺(jué)的聲音強(qiáng)弱使用響度級(jí)“方(phon)” 或者“宋(sone)”來(lái)度量。 這兩種感知聲音強(qiáng)弱的計(jì)量單位是完全不同的兩 種概念,但是它們之間又有一定的聯(lián)系。 36 MPEG聲音 當(dāng)聲音弱到人的耳朵剛剛可以聽(tīng)見(jiàn)時(shí),我們稱(chēng)此時(shí)的聲音 強(qiáng)度為“聽(tīng)閾”。 例如,1 kHz純音的聲強(qiáng)達(dá)到10-16w/cm2(定義成零dB聲強(qiáng)級(jí))時(shí), 人耳剛能聽(tīng)到,此時(shí)的主觀響度級(jí)定為零方。實(shí)驗(yàn)表明,聽(tīng)閾是 隨頻率變化的。測(cè)出的“聽(tīng)閾頻率”曲線如圖9-01所示。圖中
33、最靠下面的一根曲線叫做“零方等響度級(jí)”曲線,也稱(chēng)“絕對(duì)聽(tīng) 閾”曲線,即在安靜環(huán)境中,能被人耳聽(tīng)到的純音的最小值。 另一種極端的情況是聲音強(qiáng)到使人耳感到疼痛。 實(shí)驗(yàn)表明,如果頻率為1 kHz的純音的聲強(qiáng)級(jí)達(dá)到120 dB左右時(shí), 人的耳朵就感到疼痛,這個(gè)閾值稱(chēng)為“痛閾”。對(duì)不同的頻率進(jìn) 行測(cè)量,可以得到“痛閾頻率”曲線,如圖9-01中最靠上面所 示的一根曲線。這條曲線也就是120方等響度級(jí)曲線。 37 MPEG聲音 在“聽(tīng)閾頻率”曲線和“痛閾頻 率”曲線之間的區(qū)域就是人耳的聽(tīng)覺(jué) 范圍。這個(gè)范圍內(nèi)的等響度級(jí)曲線也 是用同樣的方法測(cè)量出來(lái)的。由圖9- 01可以看出,1 kHz的10 dB的聲音和 2
34、00 Hz的30 dB的聲音,在人耳聽(tīng)起 來(lái)具有相同的響度。 圖9-01說(shuō)明人耳對(duì)不同頻率的敏感程 度差別很大,其中對(duì)2 kHz4 kHz范 圍的信號(hào)最為敏感,幅度很低的信號(hào) 都能被人耳聽(tīng)到。而在低頻區(qū)和高頻 區(qū),能被人耳聽(tīng)到的信號(hào)幅度要高得 多。 圖9-01 “聽(tīng)閾頻率”曲線 38 MPEG聲音 對(duì)音高的感知 客觀上用頻率來(lái)表示聲音的音高,其單位是Hz。而主觀感 覺(jué)的音高單位則是“美(Mel)”,主觀音高與客觀音高的關(guān)系 是:Mel=log2(1+f),其中 的單位為Hz,這也是兩個(gè)既不相同 又有聯(lián)系的單位。 人耳對(duì)響度的感覺(jué)有一個(gè)范圍,即從聽(tīng)閾到痛閾。同樣, 人耳對(duì)頻率的感覺(jué)也有一個(gè)范圍。
35、人耳可以聽(tīng)到的最低頻 率約20 Hz,最高頻率約18000 Hz。正如測(cè)量響度時(shí)是以 1 kHz純音為基準(zhǔn)一樣,在測(cè)量音高時(shí)則以40 dB聲強(qiáng)為基 準(zhǔn),并且同樣由主觀感覺(jué)來(lái)確定。 39 MPEG聲音 測(cè)量主觀音高時(shí),讓實(shí)驗(yàn)者聽(tīng)兩個(gè)聲強(qiáng)級(jí)為40 dB的純 音,固定其中一個(gè)純音的頻率,調(diào)節(jié)另一個(gè)純音的頻 率,直到他感到后者的音高為前者的兩倍,就標(biāo)定這 兩個(gè)聲音的音高差為兩倍。實(shí)驗(yàn)表明,音高與頻率之 間也不是線性關(guān)系。測(cè)出的“音高頻率”曲線如圖 所示。 “音高頻率”曲 線 40 MPEG聲音 掩蔽效應(yīng)掩蔽效應(yīng) 一種頻率的聲音阻礙聽(tīng)覺(jué)系統(tǒng)感受另一 種頻率的聲音的現(xiàn)象稱(chēng)為掩蔽效應(yīng)。 前者稱(chēng)為掩蔽聲音(m
36、asking tone), 后者稱(chēng)為被掩蔽聲音(masked tone)。 掩蔽可分成頻域掩蔽和時(shí)域掩蔽。 41 一個(gè)強(qiáng)純音會(huì)掩蔽在其附近同時(shí)發(fā)聲的弱純音,這種特性稱(chēng)為頻域掩蔽, 也稱(chēng)同時(shí)掩蔽(simultaneous masking)。 如圖9-03所示,一個(gè)聲強(qiáng)為60 dB、頻率為1000 Hz的純音,另外還 有一個(gè)1100 Hz的純音,前者比后者高18 dB,在這種情況下我們的 耳朵就只能聽(tīng)到那個(gè)1000 Hz的強(qiáng)音。如果有一個(gè)1000 Hz的純音和 一個(gè)聲強(qiáng)比它低18 dB的2000 Hz的純音,那么我們的耳朵將會(huì)同時(shí) 聽(tīng)到這兩個(gè)聲音。要想讓2000 Hz的純音也聽(tīng)不到,則需要把它降到
37、 比1000 Hz的純音低45 dB。一般來(lái)說(shuō),弱純音離強(qiáng)純音越近就越容 易被掩蔽。 聲強(qiáng)為60 dB、頻率為1000 Hz純音的掩蔽效應(yīng) 42 在圖9-04中的一組曲線分別表示頻率為250 Hz、1 kHz、4 kHz和8 kHz純音的掩蔽效應(yīng),它們的聲強(qiáng)均為60 dB。從圖 中可以看到: 在250 Hz、1 kHz、4 kHz和8 kHz純音附近,對(duì)其他純音的掩蔽效 果最明顯, 低頻純音可以有效地掩蔽高頻純音,但高頻純音對(duì)低頻純音的掩蔽 作用則不明顯。 不同純音的掩蔽效應(yīng)曲線 43 由于聲音頻率與掩蔽曲線不是線性關(guān)系 ,為從感知上來(lái)統(tǒng)一度量聲音頻率,引 入了“臨界頻帶(critical b
38、and)”的概念 。通常認(rèn)為,在20 Hz到16 kHz范圍內(nèi) 有24個(gè)臨界頻帶,如下表所示。臨界頻 帶的單位叫Bark(巴克) 44 MPEG聲音 時(shí)域掩蔽時(shí)域掩蔽 除了同時(shí)發(fā)出的聲音之間有掩蔽現(xiàn)象之外,在時(shí)間上相鄰的聲音之間也 有掩蔽現(xiàn)象,并且稱(chēng)為時(shí)域掩蔽。 時(shí)域掩蔽又分為超前掩蔽(pre-masking)和滯后掩蔽(post-masking),如 圖所示。產(chǎn)生時(shí)域掩蔽的主要原因是人的大腦處理信息需要花費(fèi)一定的 時(shí)間。一般來(lái)說(shuō),超前掩蔽很短,只有大約520 ms,而滯后掩蔽可以 持續(xù)50200 ms。這個(gè)區(qū)別也是很容易理解的。 45 MPEG Audio與感知特性 MPEG Audio標(biāo)準(zhǔn)
39、在本書(shū)中是指MPEG-1 Audio、MPEG-2 Audio和MPEG-2 AAC, 它們處理10 Hz20000 Hz范圍里的聲音數(shù) 據(jù)。 數(shù)據(jù)壓縮的的主要依據(jù)是人耳朵的聽(tīng)覺(jué)特 性,使用“心理聲學(xué)模型(psychoacoustic model)”來(lái)達(dá)到壓縮聲音數(shù)據(jù)的目的。 46 MPEG Audio與感知特性 心理聲學(xué)模型中一個(gè)基本的概念就是聽(tīng)覺(jué)系統(tǒng)中存在一個(gè)聽(tīng)覺(jué)閾值電 平,低于這個(gè)電平的聲音信號(hào)就聽(tīng)不到,因此就可以把這部分信號(hào)去 掉。 聽(tīng)覺(jué)閾值的大小隨聲音頻率的改變而改變,各個(gè)人的聽(tīng)覺(jué)閾值也不同。 大多數(shù)人的聽(tīng)覺(jué)系統(tǒng)對(duì)2 kHz5 kHz之間的聲音最敏感。 一個(gè)人是否能聽(tīng)到聲音取決于聲音
40、的頻率,以及聲音的幅度是否高于這 種頻率下的聽(tīng)覺(jué)閾值。 心理聲學(xué)模型中的另一個(gè)概念是聽(tīng)覺(jué)掩飾特性,意思是聽(tīng)覺(jué)閾值電平 是自適應(yīng)的,即聽(tīng)覺(jué)閾值電平會(huì)隨聽(tīng)到的不同頻率的聲音而發(fā)生變化。 例如,同時(shí)有兩種頻率的聲音存在,一種是1000 Hz的聲音,另一種是 1100 Hz的聲音,但它的強(qiáng)度比前者低18分貝,在這種情況下,1100 Hz 的聲音就聽(tīng)不到。 也許你有這樣的體驗(yàn),在一安靜房間里的普通談話可以聽(tīng)得很清楚,但 在播放搖滾樂(lè)的環(huán)境下同樣的普通談話就聽(tīng)不清楚了。聲音壓縮算法也 同樣可以確立這種特性的模型來(lái)取消更多的冗余數(shù)據(jù)。 47 MPEG-1 Audio 聲音的數(shù)據(jù)量由兩方面決定: 采樣頻率和樣
41、本精度。 對(duì)單聲道信號(hào)而言,每秒鐘的數(shù)據(jù)量(位數(shù))=采樣頻率 x 樣本精度。 要減小數(shù)據(jù)量,就需要降低采樣頻率或者降低樣本精度。 但是人耳可聽(tīng)到的頻率范圍大約是20 Hz20 kHz。根據(jù)奈奎斯特 理論,要想不失真地重構(gòu)信號(hào),采樣頻率不能低于40 kHz。 再考慮到實(shí)際中使用的濾波器都不可能是理想濾波器,以及考慮 各國(guó)所用的交流電源的頻率,為保證聲音頻帶的寬度,所以采樣 頻率一般不能低于44.1 kHz。 這樣,壓縮就必須從降低樣本精度這個(gè)角度出發(fā),即減少每位樣 本所需要的位數(shù)。 48 MPEG-1 Audio 前面介紹了線性預(yù)測(cè)編碼(linear predictive coding,LPC)
42、 的方法,這種方法主要是針對(duì)話音的編碼,這種編碼方法 稱(chēng)為音源特定編碼法(source specific methods)。 MPEG-1和MPEG-2的聲音壓縮采用了另一種方法,稱(chēng)為 子帶編碼(sub-band coding,SBC)方法,這也是一種功 能很強(qiáng)而且很有效的聲音信號(hào)編碼方法。 與音源特定編碼法不同,SBC不局限于只對(duì)話音進(jìn)行編碼,也不 局限于哪一種聲源。 這種方法的具體思想是首先把時(shí)域中的聲音數(shù)據(jù)變換到頻域,對(duì) 頻域內(nèi)的子帶分量分別進(jìn)行量化和編碼,然后根據(jù)心理聲學(xué)模型 確定樣本的精度,從而達(dá)到壓縮數(shù)據(jù)量的目的。 49 MPEG-1 Audio MPEG聲音數(shù)據(jù)壓縮的基礎(chǔ)是量化。
43、 雖然量化會(huì)帶來(lái)失真,但MPEG標(biāo)準(zhǔn)要求量化失真對(duì)于人耳來(lái)說(shuō) 是感覺(jué)不到的。在MPEG標(biāo)準(zhǔn)的制定過(guò)程中,MPEG-Audio委員 會(huì)作了大量的主觀測(cè)試實(shí)驗(yàn)。實(shí)驗(yàn)表明,采樣頻率為48 kHz、樣 本精度為16比特的聲音數(shù)據(jù)壓縮到256 kb/s時(shí),即在6:1的壓縮 率下,即使是專(zhuān)業(yè)測(cè)試員也很難分辨出是原始聲音還是編碼壓縮 后的聲音。 MPEG Audio是一個(gè)子帶編碼系統(tǒng)。 聲音數(shù)據(jù)壓縮算法的根據(jù)是心理聲學(xué)模型,心理聲學(xué)模型中一個(gè) 最基本的概念是聽(tīng)覺(jué)系統(tǒng)中存在一個(gè)聽(tīng)覺(jué)閾值電平,低于這個(gè)電 平的聲音信號(hào)就聽(tīng)不到。 聽(tīng)覺(jué)閾值的大小隨聲音頻率的改變而改變,各個(gè)人的聽(tīng)覺(jué)閾值也 不同。大多數(shù)人的聽(tīng)覺(jué)系統(tǒng)對(duì)
44、2 kHz5 kHz之間的聲音最敏感。 一個(gè)人是否能聽(tīng)到聲音取決于聲音的頻率,以及聲音的幅度是否 高于這種頻率下的聽(tīng)覺(jué)閾值。 50 MPEG-1 Audio 心理聲學(xué)模型中的另一個(gè)概念是聽(tīng)覺(jué)掩飾特性,意思是聽(tīng)覺(jué)閾值 電平是自適應(yīng)的,即聽(tīng)覺(jué)閾值電平會(huì)隨聽(tīng)到的頻率不同的聲音而 發(fā)生變化。 例如,在一般環(huán)境下房間里的普通談話可以聽(tīng)得很清楚,但 在搖滾樂(lè)環(huán)境下同樣的普通談話就聽(tīng)不清楚了。聲音壓縮算 法也同樣可以確立這種特性的模型,根據(jù)這個(gè)模型可取消冗 余的聲音數(shù)據(jù)。MPEG Audio的壓縮算法框圖如圖所示。 51 而MPEG聲音(ISO/IEC 11172-3)壓縮算法是世界上第一個(gè)高 保真聲音數(shù)據(jù)
45、壓縮國(guó)際標(biāo)準(zhǔn),并且得到了極其廣泛的應(yīng)用。 雖然MPEG聲音標(biāo)準(zhǔn)是MPEG標(biāo)準(zhǔn)的一部分,但它也完全可 以獨(dú)立應(yīng)用。 MPEG-1聲音標(biāo)準(zhǔn)的主要性能如下: (1) 如圖所示,MPEG編碼器的輸入信號(hào)為線性PCM信號(hào), 采樣率為32, 44.1或48 kHz,輸出為32 kb/s384 kb/s。 MPEG編碼器的輸入/輸出 52 (2) MPEG聲音標(biāo)準(zhǔn)提供三個(gè)獨(dú)立的壓縮層次:層1(Layer 1)、層2(Layer 2)和層3(Layer 3),用戶對(duì)層次的選擇可在 復(fù)雜性和聲音質(zhì)量之間進(jìn)行權(quán)衡。 層1的編碼器最為簡(jiǎn)單,編碼器的輸出數(shù)據(jù)率為384 kb/s,主要用 于小型數(shù)字盒式磁帶(digit
46、al compact cassette,DCC)。 層2的編碼器的復(fù)雜程度屬中等,編碼器的輸出數(shù)據(jù)率為256 kb/s192 kb/s,其應(yīng)用包括數(shù)字廣播聲音(digital broadcast audio,DBA)、數(shù)字音樂(lè)、CD-I(compact disc-interactive)和 VCD(video compact disc)等。 層3的編碼器最為復(fù)雜,編碼器的輸出數(shù)據(jù)率為64 kb/s,主要應(yīng) 用于ISDN上的聲音傳輸。 53 在盡可能保持CD音質(zhì)為前提的條件下,MPEG聲音標(biāo)準(zhǔn)一般 所能達(dá)到的壓縮率如表9-02所示,從編碼器的輸入到輸出的 延遲時(shí)間如表9-03所示。 表9-02
47、MPEG聲音的壓縮率 表9-03 MPEG編碼解碼器的延遲時(shí)間 54 (3) 可預(yù)先定義壓縮后的數(shù)據(jù)率,如表9-04所示。另外,MPEG 聲音標(biāo)準(zhǔn)也支持用戶預(yù)定義的數(shù)據(jù)率。 (4) 編碼后的數(shù)據(jù)流支持循環(huán)冗余校驗(yàn)CRC(cyclic redundancy check)。 (5) MPEG聲音標(biāo)準(zhǔn)還支持在數(shù)據(jù)流中添加附加信息。 表9-04 MPEG層3在各種數(shù)據(jù)率下的性能: 55 子帶編碼 MPEG-1使用子帶編碼來(lái)達(dá)到既壓縮聲音數(shù)據(jù)又 盡可能保留聲音原有質(zhì)量的目的。 聽(tīng)覺(jué)系統(tǒng)有許多特性,子帶編碼的理論根據(jù)是聽(tīng)覺(jué)系 統(tǒng)的掩蔽特性,并且主要是利用頻域掩蔽特性。 SBC的基本想法就是在編碼過(guò)程中保留
48、信號(hào)的帶寬而 扔掉被掩蔽的信號(hào),其結(jié)果是編碼之后還原的聲音, 也就是解碼或者叫做重構(gòu)的聲音信號(hào)與編碼之前的聲 音信號(hào)不相同,但人的聽(tīng)覺(jué)系統(tǒng)很難感覺(jué)到它們之間 的差別。 這也就是說(shuō),對(duì)聽(tīng)覺(jué)系統(tǒng)來(lái)說(shuō)這種壓縮是“無(wú)損壓 縮”。 56 子帶編碼 大多數(shù)SBC編碼器都使用如圖9-09所示的結(jié)構(gòu),這也 是MPEG-1聲音編碼器的結(jié)構(gòu)圖。 輸入聲音信號(hào)經(jīng)過(guò)一個(gè)“時(shí)間-頻率多相濾波器組”變換到頻 域里的多個(gè)子帶中。 輸入聲音信號(hào)同時(shí)經(jīng)過(guò)“心理聲學(xué)模型(計(jì)算掩蔽特性)”,該 模型計(jì)算以頻率為自變量的噪聲掩蔽閾值(masking threshold), 查看輸入信號(hào)和子帶中的信號(hào)以確定每個(gè)子帶里的信號(hào)能量 與掩蔽
49、閾值的比率。 “量化和編碼”部分用信掩比(signal-to-mask ratio,SMR)來(lái) 決定分配給子帶信號(hào)的量化位數(shù),使量化噪聲低于掩蔽閾值。 最后通過(guò)“數(shù)據(jù)流幀包裝”將量化的子帶樣本和其他數(shù)據(jù)按 照規(guī)定的稱(chēng)為“幀(frame)”的格式組裝成位數(shù)據(jù)流。 57 子帶編碼 信掩比是指最大的信號(hào)功率與全局掩蔽閾值之比,下 圖表示了某個(gè)子帶中的信掩比。 SNR(signal noise ratio) 信號(hào)噪聲比 SMR(signal-to-mask ratio) 信號(hào)掩蔽比 NMR(noise-to-mask ratio) 噪聲掩蔽比 58 子帶編碼 圖9-11是MPEG-1聲音解碼器的結(jié)構(gòu)圖
50、。解碼器對(duì)位數(shù) 據(jù)流進(jìn)行解碼,恢復(fù)被量化的子帶樣本值以重建聲音 信號(hào)。由于解碼器無(wú)需心理聲學(xué)模型,只需拆包、重 構(gòu)子帶樣本和把它們變換回聲音信號(hào),因此解碼器就 比編碼器簡(jiǎn)單得多。 圖9-11 MPEG聲音解碼器結(jié)構(gòu)圖 59 多相濾波器組 用來(lái)分割子帶也就是時(shí)間-頻率變換部件是一個(gè)多相濾波器組。 在MPEG-1中,多相濾波器組是MPEG聲音壓縮的關(guān)鍵部分部件之一, 它把輸入信號(hào)變換到32個(gè)頻域子帶中去。 子帶的劃分方法有兩種,一種是線性劃分,另一種是非線性劃分。如 果把聲音頻帶劃分成帶寬相等的子帶,這種劃分就不能精確地反映人 耳的聽(tīng)覺(jué)特性,因?yàn)槿硕穆?tīng)覺(jué)特性是以“臨界頻帶”來(lái)劃分的,在 一個(gè)臨界
51、頻帶之內(nèi),很多心理聲學(xué)特性都是一樣的。 在低頻區(qū)域,一個(gè)子帶覆蓋好幾個(gè)臨界頻帶。在這種情況下,某個(gè)子 帶中量化器的比特分配就不能根據(jù)每個(gè)臨界頻帶的掩蔽閾值進(jìn)行分配, 而要以其中最低的掩蔽閾值為準(zhǔn)。 60 編碼層 MPEG聲音壓縮定義了3個(gè)分明的層次,它們的基 本模型是相同的。 層1是最基礎(chǔ)的,層2和層3都在層1的基礎(chǔ)上有所提高。 每個(gè)后繼的層次都有更高的壓縮比,但需要更復(fù)雜的編 碼解碼器。 MPEG聲音的每一個(gè)層都自含SBC編碼器,其中包含如 圖9-09所示的“時(shí)間-頻率多相濾波器組”、“心理聲學(xué) 模型(計(jì)算掩蔽特性)”、“量化和編碼”和“數(shù)據(jù)流幀包 裝”,而高層SBC可使用低層SBC編碼的聲
52、音數(shù)據(jù)。 61 MPEG的聲音數(shù)據(jù)分成幀(frame),層1每幀包含384個(gè)樣本 的數(shù)據(jù),每幀由32個(gè)子帶分別輸出的12個(gè)樣本組成。層2和 層3每幀為1152個(gè)樣本,如圖9-13所示。 圖9-13 層1、2和層3的子帶樣本 62 MPEG-2 Audio MPEG-2標(biāo)準(zhǔn)委員會(huì)定義了兩種聲音數(shù)據(jù)壓縮格 式: 一種稱(chēng)為MPEG-2 Audio,或者稱(chēng)為MPEG-2多通道 (Multichannel)聲音,因?yàn)樗cMPEG-1 Audio是兼容的, 所以又稱(chēng)為MPEG-2 BC (Backward Compatible)。 另一種稱(chēng)為MPEG-2 AAC (Advanced Audio Codin
53、g), 因?yàn)樗cMPEG-1聲音格式不兼容,因此通常稱(chēng)為非后 向兼容MPEG-2 NBC(Non-Backward-Compatible)標(biāo)準(zhǔn)。 這節(jié)先介紹MPEG-2 Audio。 63 MPEG-2 Audio(ISO/IEC 13818-3)和MPEG-1 Audio(ISO/IEC 1117-3)標(biāo) 準(zhǔn)都使用相同種類(lèi)的編譯碼器,層-1, -2和-3的結(jié)構(gòu)也相同。 MPEG-2聲音標(biāo)準(zhǔn)與MPEG-1標(biāo)準(zhǔn)相比,MPEG-2做了如下擴(kuò)充: 增加了16 kHz, 22.05 kHz和24 kHz采樣頻率, 擴(kuò)展了編碼器的輸出速率范圍,由32384 kb/s擴(kuò)展到8640 kb/s, 增加了聲道
54、數(shù),支持5.1聲道和7.1聲道的環(huán)繞聲。 此外MPEG-2還支持Linear PCM(線性PCM)和Dolby AC-3(Audio Code Number 3)編碼。它們的差別如表9-05所示。 MPEG-1和-2的聲音數(shù)據(jù)規(guī)格 64 MPEG-2 Audio的“5.1環(huán)繞聲”也稱(chēng)為“3/2-立體聲加LFE”,其中的“.1” 就是指LFE聲道。它的含義是播音現(xiàn)場(chǎng)的前面可有3個(gè)喇叭聲道(左、中、 右),后面可有2個(gè)環(huán)繞聲喇叭聲道,LFE(low frequency effects)是低頻音 效的加強(qiáng)聲道,如圖9-19(a)所示。 7.1聲道環(huán)繞立體聲與5.1類(lèi)似,如圖9-19(b)所示。 圖9
55、-19(a) 5.1聲道立體環(huán)繞聲 圖9-19(b) 7.1聲道立體環(huán)繞聲 65 MPEG-2聲音標(biāo)準(zhǔn)的第3部分(Part 3)是MPEG-1聲音標(biāo)準(zhǔn)的擴(kuò)展,擴(kuò)展部 分就是多聲道擴(kuò)展(multichannel extension),如圖9-20所示。這個(gè)標(biāo)準(zhǔn)稱(chēng) 為MPEG-2后向兼容多聲道聲音編碼(MPEG-2 backwards compatible multichannel audio coding)標(biāo)準(zhǔn),簡(jiǎn)稱(chēng)為MPEG-2 BC。 66 MPEG-2 AAC MPEG-2 AAC是MPEG-2標(biāo)準(zhǔn)中的一種非常靈活的聲音感知編碼標(biāo)準(zhǔn)。 就像所有感知編碼一樣,MPEG-2 AAC主要使用聽(tīng)覺(jué)
56、系統(tǒng)的掩蔽特性 來(lái)減少聲音的數(shù)據(jù)量,并且通過(guò)把量化噪聲分散到各個(gè)子帶中,用全 局信號(hào)把噪聲掩蔽掉。 AAC支持的采用頻率可從8 kHz到96 kHz, AAC編碼器的音源可以是單聲道的、立體聲的和多聲道的聲音。 AAC標(biāo)準(zhǔn)可支持48個(gè)主聲道、16個(gè)低頻音效加強(qiáng)通道LFE (low frequency effects)、16個(gè)配音聲道(overdub channel)或者叫做多語(yǔ)言聲 道(multilingual channel)和16個(gè)數(shù)據(jù)流。 MPEG-2 AAC在壓縮比為11:1,即每個(gè)聲道的數(shù)據(jù)率為 (44.116 )/11=64 kb/s,而5個(gè)聲道的總數(shù)據(jù)率為320 kb/s的情況下
57、,很 難區(qū)分還原后的聲音與原始聲音之間的差別。與MPEG的層2相比, MPEG-2 AAC的壓縮率可提高1倍,而且質(zhì)量更高,與MPEG的層3相比, 在質(zhì)量相同的條件下數(shù)據(jù)率是它的70。 67 MPEG-2 AAC的配置 開(kāi)發(fā)MPEG-2 AAC標(biāo)準(zhǔn)采用的方法與開(kāi)發(fā) MPEG Audio標(biāo)準(zhǔn)采用的方法不同。 后者采用的方法是對(duì)整個(gè)系統(tǒng)進(jìn)行標(biāo)準(zhǔn)化, 前者采用的方法是模塊化的方法,把整個(gè)AAC 系統(tǒng)分解成一系列模塊,用標(biāo)準(zhǔn)化的AAC工具 (advanced audio coding tools)對(duì)模塊進(jìn)行定義。 68 MPEG-2 AAC的配置 AAC標(biāo)準(zhǔn)定義了三種配置: 基本配置基本配置(Main
58、 Profile): 在這種配置中,除了“增益控制(Gain Control)”模塊之外,AAC系統(tǒng)使用了圖中所示的所有模塊,在三種 配置中提供最好的聲音質(zhì)量,而且AAC的解碼器可以對(duì)低復(fù)雜性配 置編碼的聲音數(shù)據(jù)進(jìn)行解碼,但對(duì)計(jì)算機(jī)的存儲(chǔ)器和處理能力的要 求方面,基本配置比低復(fù)雜性配置的要求高。 低復(fù)雜性配置低復(fù)雜性配置(Low Complexity Profile): 在這種配置中,不使用 預(yù)測(cè)模塊和預(yù)處理模塊,瞬時(shí)噪聲定形(temporal noise shaping, TNS)濾波器的級(jí)數(shù)也有限,這就使聲音質(zhì)量比基本配置的聲音質(zhì)量 低,但對(duì)計(jì)算機(jī)的存儲(chǔ)器和處理能力的要求可明顯減少。 可變
59、采樣率配置可變采樣率配置(Scalable Sampling Rate Profile): 在這種配置中, 使用增益控制對(duì)信號(hào)作預(yù)處理,不使用預(yù)測(cè)模塊,TNS濾波器的級(jí) 數(shù)和帶寬也都有限制,因此它比基本配置和低復(fù)雜性配置更簡(jiǎn)單, 可用來(lái)提供可變采樣頻率信號(hào)。 69 MPEG-2 AAC的基本模塊 增益控制增益控制(Gain control) 增益控制模塊用在可變采樣率配置中,它由多相正交濾波器增益控制模塊用在可變采樣率配置中,它由多相正交濾波器 PQF(polyphase quadrature filter)、增益檢測(cè)器、增益檢測(cè)器(gain detector)和增和增 益修正器益修正器(ga
60、in modifier)組成。這個(gè)模塊把輸入信號(hào)分離到組成。這個(gè)模塊把輸入信號(hào)分離到4個(gè)相等帶個(gè)相等帶 寬的頻帶中。在解碼器中也有增益控制模塊,通過(guò)忽略寬的頻帶中。在解碼器中也有增益控制模塊,通過(guò)忽略PQF的高子帶信的高子帶信 號(hào)獲得低采樣率輸出信號(hào)。號(hào)獲得低采樣率輸出信號(hào)。 濾波器組濾波器組(Filter Bank) 濾波器組是把輸入信號(hào)從時(shí)域變換到頻域的轉(zhuǎn)換模塊,它是濾波器組是把輸入信號(hào)從時(shí)域變換到頻域的轉(zhuǎn)換模塊,它是MPEG-2 AAC系統(tǒng)的基本模塊。這個(gè)模塊采用了改進(jìn)離散余弦變換系統(tǒng)的基本模塊。這個(gè)模塊采用了改進(jìn)離散余弦變換MDCT,它是,它是 一種線性正交交迭變換,使用了一種稱(chēng)為時(shí)域
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年離婚快速和解合同指南版B版
- 自控課程設(shè)計(jì)0型系統(tǒng)
- 私教體態(tài)調(diào)整課程設(shè)計(jì)
- 2025年高中生禁毒教案二
- 2024招聘計(jì)劃書(shū)(32篇)
- 2024年用電客戶受理員(二級(jí)技術(shù)師)理論考試題庫(kù)(B卷)
- 網(wǎng)上購(gòu)物系統(tǒng)web課程設(shè)計(jì)
- 舞蹈新鞋子課程設(shè)計(jì)
- 市場(chǎng)行業(yè)助理職責(zé)概述
- 三年高考地理(全國(guó)乙卷21-23)真題知識(shí)點(diǎn)-工業(yè)及其區(qū)位因素
- 社會(huì)消防安全教育培訓(xùn)題庫(kù)及答案
- 部編人教版語(yǔ)文八年級(jí)上冊(cè)文言文課下注釋
- 蘇教版譯林三年級(jí)上下冊(cè)單詞表
- 腫瘤病例隨訪調(diào)查表
- 游樂(lè)園、滑雪場(chǎng)、冰雪樂(lè)園建設(shè)合作協(xié)議
- 粉末涂料有限公司檢維修作業(yè)安全風(fēng)險(xiǎn)分級(jí)清單
- 【蘇教版】2022-2023學(xué)年六年級(jí)數(shù)學(xué)上冊(cè)期末試卷(及答案)
- 2023-2024學(xué)年連云港市灌云縣四年級(jí)數(shù)學(xué)第一學(xué)期期末學(xué)業(yè)水平測(cè)試模擬試題含答案
- 湖南省懷化市鶴城區(qū)2023年數(shù)學(xué)三下期末監(jiān)測(cè)試題含解析
- 項(xiàng)目工程安全管理責(zé)任區(qū)域劃分表
- 2023年學(xué)校食堂審計(jì)發(fā)現(xiàn)問(wèn)題整改報(bào)告3篇
評(píng)論
0/150
提交評(píng)論