多媒體通信技術(shù)

上傳人：卓*** IP屬地：廣東上傳時(shí)間：2024-04-24 格式：PPT 頁(yè)數(shù)：393 大小：12.32MB 積分：28 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩388頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

關(guān)于多媒體通信技術(shù)第一章多媒體通信技術(shù)概述第二章音頻技術(shù)基礎(chǔ)第三章圖像技術(shù)基礎(chǔ)第四章視頻信息壓縮與處理第五章多媒體通信系統(tǒng)中的關(guān)鍵技術(shù)第六章多媒體通信網(wǎng)絡(luò)技術(shù)第七章多媒體數(shù)據(jù)的分布式處理第八章多媒體通信應(yīng)用系統(tǒng)本書章節(jié)第2頁(yè),共393頁(yè)，2024年2月25日，星期天第一章多媒體通信技術(shù)概述多媒體技術(shù)的概念多媒體通信系統(tǒng)的概念及主要特征多媒體通信中的關(guān)鍵技術(shù)多媒體通信的應(yīng)用多媒體通信技術(shù)的發(fā)展趨勢(shì)第3頁(yè),共393頁(yè)，2024年2月25日，星期天1.1多媒體通信的基本概念1．媒體

“媒體”是指信息傳遞和存儲(chǔ)的最基本的技術(shù)和手段，即信息的載體。媒體可劃分為5大類：

(1)感覺(jué)媒體（perceptionmedium）

感覺(jué)媒體是指人類通過(guò)其感覺(jué)器官，如聽(tīng)覺(jué)、視覺(jué)、嗅覺(jué)、味覺(jué)和觸覺(jué)器官等直接產(chǎn)生感覺(jué)（感知信息內(nèi)容）的一類媒體，包括：聲音、文字、圖像、氣味、冷熱等。

(2)表示媒體（representationmedium）

表示媒體是指用于數(shù)據(jù)交換的編碼表示，包括：圖像編碼、文本編碼、聲音編碼等。其目的是為了能有效地加工、處理、存儲(chǔ)和傳輸感覺(jué)媒體。

(3)顯示媒體（presentationmedium）

顯示媒體是指進(jìn)行信息輸入和輸出的媒體。輸入媒體包括：鏈盤、鼠標(biāo)、攝像頭、話筒、掃描儀、觸摸屏等，輸出媒體包括：顯示屏、打印機(jī)、揚(yáng)聲器等。

第4頁(yè),共393頁(yè)，2024年2月25日，星期天

(4)

存儲(chǔ)媒體（storagemedium）

存儲(chǔ)媒體是指進(jìn)行信息存儲(chǔ)的媒體。包括：硬盤、光盤、軟盤、磁帶、ROM、RAM等。

(5)傳輸媒體（transmissionmedium）

傳輸媒體是指承載信息，將信息進(jìn)行傳輸?shù)拿襟w。包括：雙絞線、同軸電纜、光纜、無(wú)線電鏈路等。在多媒體技術(shù)中的“多媒體”通常是指感覺(jué)媒體的組合，即聲音、文字、圖像、數(shù)據(jù)等各種媒體的組合。

2．多媒體（Multimedia）

“多媒體技術(shù)”的定義：所謂多媒體技術(shù)就是計(jì)算機(jī)交互式綜合處理多媒體媒體信息——文本、圖形、圖像和聲音，使多種信息建立邏輯連接，集成為一個(gè)系統(tǒng)并具有交互性。簡(jiǎn)而言之，多媒體技術(shù)就是計(jì)算機(jī)綜合處理聲、文、圖信息的技術(shù)，具有集成性、實(shí)時(shí)性和交互性的特點(diǎn)。第5頁(yè),共393頁(yè)，2024年2月25日，星期天

多媒體技術(shù)最簡(jiǎn)單的表現(xiàn)形式就是多媒體計(jì)算機(jī)。多媒體計(jì)算機(jī)相對(duì)于普通計(jì)算機(jī)的一個(gè)根本不同點(diǎn)在于在多媒體計(jì)算機(jī)中增加了對(duì)活動(dòng)圖像（包括伴音在內(nèi)）的處理、存儲(chǔ)和顯示的能力，其硬件配以聲卡、視頻采集卡等。其主要特征體現(xiàn)在它能夠有效地對(duì)電視圖像數(shù)據(jù)進(jìn)行實(shí)時(shí)的壓縮和解壓縮，并能夠使在時(shí)間上有相關(guān)性的多種媒體保持同步。

3．多媒體通信

多媒體通信技術(shù)是多媒體技術(shù)、計(jì)算機(jī)技術(shù)、通信技術(shù)和網(wǎng)絡(luò)技術(shù)等相互結(jié)合和發(fā)展的產(chǎn)物。多媒體通信系統(tǒng)同時(shí)具有以下三個(gè)特征：集成性交互性同步性第6頁(yè),共393頁(yè)，2024年2月25日，星期天集成性：主要是對(duì)各類信息進(jìn)行存儲(chǔ)、傳輸、處理、顯現(xiàn)的能力。

1）內(nèi)容數(shù)據(jù)信息：文本、圖形、靜止圖像與二值圖像、聲音、運(yùn)動(dòng)圖像。

2）多媒體和超媒體信息：是結(jié)構(gòu)化信息，由結(jié)構(gòu)框架+內(nèi)容數(shù)據(jù)組成。

3）腳本信息

4）特定的應(yīng)用信息第7頁(yè),共393頁(yè)，2024年2月25日，星期天交互性：指的是在通信中使用者與系統(tǒng)之間的相互溝通的特性，它使用戶可以更有效地控制和使用信息，增加對(duì)信息的注釋和理解。

交互性有兩個(gè)方面的內(nèi)容：人機(jī)接口：也就是人在使用系統(tǒng)的終端時(shí)，系統(tǒng)向用戶提供的操作界面。通信協(xié)議：用戶終端與系統(tǒng)之間的應(yīng)用層通信協(xié)議。第8頁(yè),共393頁(yè)，2024年2月25日，星期天同步性：多媒體通信終端上顯現(xiàn)的圖象、聲音和文字等信息是以同步方式工作。檢索“劉謙春晚”，顯示多媒體信息，各信息同步顯示。第9頁(yè),共393頁(yè)，2024年2月25日，星期天1．多媒體數(shù)據(jù)壓縮技術(shù)

數(shù)據(jù)壓縮的必要性和可能性。1.2多媒體通信中的關(guān)鍵技術(shù)第10頁(yè),共393頁(yè)，2024年2月25日，星期天多媒體信息的特點(diǎn)1.多媒體信息的類型

文本、圖形、圖像、動(dòng)畫、聲音、視頻2.常用多媒體處理軟件

CorelDrawIllustrator圖形類圖像類photoshopACDSee

第11頁(yè),共393頁(yè)，2024年2月25日，星期天多媒體信息的特點(diǎn)

動(dòng)畫類·二維動(dòng)畫FlashANIMO·三維動(dòng)畫3dsmaxmayaCooleditproVEGAS聲音類影視編輯類交互演示類AuthorwaredirectorflashPremiereaftereffect編程類VbVCDelphiJava第12頁(yè),共393頁(yè)，2024年2月25日，星期天3.多媒體信息的特點(diǎn)多媒體數(shù)據(jù)類型復(fù)雜（多樣性）

多媒體數(shù)據(jù)種類繁多也決定了多媒體數(shù)據(jù)表示的復(fù)雜性多媒體數(shù)據(jù)的實(shí)時(shí)性由于在多媒體技術(shù)中新引入的復(fù)雜媒體類型大部份都含有與時(shí)間有關(guān)的信息，因此在許多場(chǎng)合都要求實(shí)時(shí)處理第13頁(yè),共393頁(yè)，2024年2月25日，星期天3.多媒體信息的特點(diǎn)多媒體數(shù)據(jù)的同步性另一由于引入與時(shí)間有關(guān)的媒體而形成的重要特點(diǎn)數(shù)據(jù)量大多媒體系統(tǒng)需要大量的存儲(chǔ)空間來(lái)存放復(fù)雜類型的數(shù)據(jù)多媒體數(shù)據(jù)的交互性碼率可變、突發(fā)性強(qiáng)人們講話時(shí)的停頓、所傳場(chǎng)景圖像中物體的運(yùn)動(dòng)等都會(huì)形成碼流速率的波動(dòng)，而且這種波動(dòng)往往呈現(xiàn)出極強(qiáng)的突發(fā)性。第14頁(yè),共393頁(yè)，2024年2月25日，星期天信息壓縮的必要性由于多媒體數(shù)據(jù)量非常大，造成計(jì)算機(jī)的存儲(chǔ)和網(wǎng)絡(luò)傳輸負(fù)擔(dān)若幀速率為25幀／秒，則1s的數(shù)據(jù)量大約為25MB，一個(gè)640MB的光盤只能存放大約25s的動(dòng)態(tài)圖像一幅640×480分辨率的24位真彩色圖像的數(shù)據(jù)量約為900KB；一個(gè)100MB的硬盤只能存儲(chǔ)約100幅靜止圖像畫面解決辦法之一就是進(jìn)行數(shù)據(jù)壓縮，壓縮后再進(jìn)行存儲(chǔ)和傳輸，到需要時(shí)再解壓、還原。第15頁(yè),共393頁(yè)，2024年2月25日，星期天表1各種信號(hào)的特性和未壓縮速率第16頁(yè),共393頁(yè)，2024年2月25日，星期天信息壓縮的必要性

從上圖可以看出：未進(jìn)行任何形式編碼和壓縮的窄帶語(yǔ)音信號(hào)需要128kb/s的速率，即兩倍于普通電話的速率。信號(hào)未被壓縮的寬帶話音需要256kb/s的速率，未壓縮的雙聲道立體聲CD音頻需要1.41Mb/s的速率。在保持原始信號(hào)質(zhì)量的前提下，窄帶語(yǔ)音可以壓縮到4kb/s（30∶1的壓縮比），寬帶話音可以壓縮到約16kb/s（15∶1的壓縮比），CD音頻可以壓縮到64kb/s（22∶1的壓縮比）。顯然，多媒體信號(hào)在進(jìn)行有效的存儲(chǔ)和傳輸之前，必須進(jìn)行處理，而最關(guān)鍵的處理方法是進(jìn)行數(shù)據(jù)壓縮。第17頁(yè),共393頁(yè)，2024年2月25日，星期天信息壓縮的可行性

研究表明，一個(gè)文件所包含的數(shù)據(jù)量并不等于它所包含的信息量，數(shù)據(jù)中通常包含很大的冗余，其關(guān)系如：

D=I+r

其中D為數(shù)據(jù)量，I為信息量，r為冗余量。壓縮：在多媒體信息中包含大量冗余的信息，把這些冗余的信息去掉的過(guò)程。

第18頁(yè),共393頁(yè)，2024年2月25日，星期天信息壓縮的可行性音頻、圖像和視頻數(shù)據(jù)中存在的冗余主要有以下幾種：（1）空間冗余圖象本身的數(shù)據(jù)冗余在任何一幅圖像中，均有許多灰度或顏色都相同的鄰近像素組成的局部區(qū)域，它們形成了一個(gè)性質(zhì)相同的集合塊，即它們之間具有空間（或空域）上的強(qiáng)相關(guān)性，在圖像中就表現(xiàn)為空間冗余?？臻g冗余的壓縮方法：把這種局部區(qū)域集合塊當(dāng)作一個(gè)整體，用極少的數(shù)據(jù)量來(lái)表示，從而節(jié)省存儲(chǔ)空間。這種壓縮方法叫空間壓縮或幀內(nèi)壓縮，它的基本點(diǎn)就在于減少鄰近像素之間的空間（或空域）相關(guān)性。第19頁(yè),共393頁(yè)，2024年2月25日，星期天信息壓縮的可行性該圖為一張俯視圖，圖中央的黑色是一塊表面均勻的積木塊，在圖中，黑色區(qū)域所有點(diǎn)的表示數(shù)據(jù)差不多都是相同的，因而黑色區(qū)域的數(shù)據(jù)表達(dá)有很大的冗余。第20頁(yè),共393頁(yè)，2024年2月25日，星期天信息壓縮的可行性（2）時(shí)間冗余序列圖像和語(yǔ)音數(shù)據(jù)中包含的冗余?；顒?dòng)圖像（視頻）中的兩幅相鄰圖像之間存在的相關(guān)性或一段時(shí)間內(nèi)連續(xù)音頻存在的相關(guān)性。第21頁(yè),共393頁(yè)，2024年2月25日，星期天信息壓縮的可行性（3）信息熵冗余信息熵冗余也稱為編碼冗余，它是指一塊數(shù)據(jù)所攜帶的信息量少于數(shù)據(jù)本身所產(chǎn)生的冗余。例如，利用等長(zhǎng)碼表示信息就比不等長(zhǎng)碼如Huffman編碼表示信息量存在冗余。（4）結(jié)構(gòu)冗余指圖象各部分結(jié)構(gòu)上的類似性所產(chǎn)生的冗余，例如物體表面圖象上的紋理結(jié)構(gòu)。第22頁(yè),共393頁(yè)，2024年2月25日，星期天信息壓縮的可行性（5）知識(shí)冗余指某些圖象的結(jié)構(gòu)可由這些圖象的先驗(yàn)知識(shí)和背景知識(shí)獲得。例：汽車圖象的結(jié)構(gòu)可由汽車的先驗(yàn)知識(shí)和背景知識(shí)得到。這種冗余稱為知識(shí)冗余。例：人臉的圖像有固定的結(jié)構(gòu)，嘴的上方有鼻子，鼻子的上方有眼睛，鼻子位于正臉圖像的中線上等等。這類規(guī)律的結(jié)構(gòu)可由先驗(yàn)知識(shí)和背景知識(shí)得到，因此這類信息對(duì)一般人來(lái)說(shuō)是冗余信息。第23頁(yè),共393頁(yè)，2024年2月25日，星期天信息壓縮的可行性（6）視覺(jué)聽(tīng)覺(jué)冗余視覺(jué)聽(tīng)覺(jué)冗余是指人的視覺(jué)、聽(tīng)覺(jué)分辨率低于實(shí)際圖象、音頻的分辨率所產(chǎn)生的冗余。例如，人的視覺(jué)對(duì)灰度等級(jí)的分辨率是2個(gè)等級(jí)，而一般圖象量化所采用灰度等級(jí)是2等級(jí)。例如，人的視覺(jué)對(duì)于圖像邊緣的急劇變化不敏感，對(duì)圖像的亮度信息敏感，對(duì)顏色的分辨率較弱等。因此，如果圖像經(jīng)壓縮或量化發(fā)生的變化（或稱引入了噪聲）不能被視覺(jué)所感覺(jué)，則認(rèn)為圖像質(zhì)量是完好的或是夠好的，即圖像壓縮并恢復(fù)后仍有滿意的主觀圖像質(zhì)量。（7）其他冗余第24頁(yè),共393頁(yè)，2024年2月25日，星期天4.壓縮的種類無(wú)損壓縮也稱為冗余壓縮或無(wú)失真壓縮。冗余壓縮法去掉或者減少了數(shù)據(jù)中的冗余，但這些冗余數(shù)據(jù)是用特定的方法重新插入到數(shù)據(jù)中。冗余壓縮是可逆的，它能保證百分之百地恢復(fù)原始數(shù)據(jù)。在多媒體技術(shù)中，一般用于文本的壓縮。但這種方法壓縮比較低。常用的壓縮編碼方法有LZW編碼、行程編碼、霍夫曼（Huffman）編碼等，壓縮比一般在2：1~5：1之間。第25頁(yè),共393頁(yè)，2024年2月25日，星期天有損壓縮也稱為有失真壓縮或熵壓縮法。壓縮了熵，會(huì)減少信息量，而損失的信息量是不能恢復(fù)的，因此這種壓縮方法是不可逆的。這種方法適合對(duì)圖像、聲音、動(dòng)態(tài)視頻等數(shù)據(jù)進(jìn)行壓縮，對(duì)動(dòng)態(tài)視頻的壓縮比可達(dá)到50：1~200：1。當(dāng)然，對(duì)多媒體數(shù)據(jù)進(jìn)行有損壓縮后，就涉及到壓縮質(zhì)量的問(wèn)題，一般的要求是壓縮后的內(nèi)容不應(yīng)該影響人們對(duì)信息的理解。第26頁(yè),共393頁(yè)，2024年2月25日，星期天數(shù)據(jù)壓縮的主要指標(biāo)

有較高的壓縮比、壓縮和解壓縮時(shí)間短、解壓縮后信息恢復(fù)質(zhì)量高是評(píng)價(jià)壓縮好壞的主要方面。1.有較高的壓縮比

即壓縮前后的數(shù)據(jù)量之比，如果文件的大小為1MB，經(jīng)過(guò)壓縮處理后變成0.5MB，那么壓縮比為2:1。高的壓縮比是數(shù)據(jù)壓縮的根本目的，無(wú)論從哪個(gè)角度看，在同樣壓縮效果的前提下，數(shù)據(jù)壓縮得越小越好。當(dāng)然還要考慮多媒體數(shù)據(jù)壓縮后的輸入和輸出表示方式。第27頁(yè),共393頁(yè)，2024年2月25日，星期天數(shù)據(jù)壓縮的主要指標(biāo)2.解壓縮后信息恢復(fù)質(zhì)量高

對(duì)于文本等文件，特別是是程序文件，是不允許在壓縮和解壓縮過(guò)程中丟失信息的。因此需要采用無(wú)損壓縮，不存在壓縮后恢復(fù)質(zhì)量的問(wèn)題。對(duì)于圖像、聲音和視頻影像，數(shù)據(jù)經(jīng)過(guò)壓縮后允許信息的部分丟失。在這種情況下，信息經(jīng)解壓縮后不可能完全恢復(fù)，壓縮和解壓縮質(zhì)量就不能不考慮。因此，是否具有好的恢復(fù)質(zhì)量是數(shù)據(jù)壓縮的另一個(gè)重要指標(biāo)。第28頁(yè),共393頁(yè)，2024年2月25日，星期天表2圖像主觀評(píng)價(jià)性能表

主觀評(píng)價(jià)分

質(zhì)量尺度

妨礙觀看尺度5

非常好

絲毫看不出圖像質(zhì)量變壞4

好

能看出圖像質(zhì)量變化，但不妨礙觀看3

一般

清楚地看出圖像質(zhì)量變壞，對(duì)觀看稍有妨礙2

差

對(duì)觀看有妨礙1

非常差

非常嚴(yán)重地妨礙觀看第29頁(yè),共393頁(yè)，2024年2月25日，星期天數(shù)據(jù)壓縮的主要指標(biāo)3.壓縮和解壓縮時(shí)間短

數(shù)據(jù)的壓縮和解壓縮是在一定數(shù)學(xué)模型的基礎(chǔ)上，通過(guò)一系列數(shù)學(xué)運(yùn)算實(shí)現(xiàn)的。計(jì)算方法的好壞直接關(guān)系到壓縮和解壓縮過(guò)程所需要的時(shí)間。第30頁(yè),共393頁(yè)，2024年2月25日，星期天數(shù)據(jù)壓縮的主要指標(biāo)

有較高的壓縮比、壓縮和解壓縮時(shí)間短、解壓縮后信息恢復(fù)質(zhì)量高是評(píng)價(jià)壓縮好壞的主要方面。1.有較高的壓縮比

即壓縮前后的數(shù)據(jù)量之比，如果文件的大小為1MB，經(jīng)過(guò)壓縮處理后變成0.5MB，那么壓縮比為2:1。高的壓縮比是數(shù)據(jù)壓縮的根本目的，無(wú)論從哪個(gè)角度看，在同樣壓縮效果的前提下，數(shù)據(jù)壓縮得越小越好。當(dāng)然還要考慮多媒體數(shù)據(jù)壓縮后的輸入和輸出表示方式。第31頁(yè),共393頁(yè)，2024年2月25日，星期天1.2多媒體通信中的關(guān)鍵技術(shù)視頻壓縮

從圖像壓縮編碼的發(fā)展過(guò)程看，可以分為三個(gè)階段，即第一代、第二代、第三代圖像壓縮編碼方法。第一代圖像壓縮編碼方法以仙農(nóng)信息論為基礎(chǔ)，考慮圖像信源的統(tǒng)計(jì)特性，采用預(yù)測(cè)編碼、變換編碼、矢量量化編碼、子帶編碼、小波變換編碼、神經(jīng)網(wǎng)絡(luò)編碼等方法。第一代圖像壓縮編碼方法于80年代初已趨于成熟，目前利用第一代技術(shù)對(duì)視頻圖像的壓縮可以得到8～48Kb/s的最低碼率。第二代圖像壓縮編碼方法充分考慮了人眼的視覺(jué)特性，從人類的主觀特性出發(fā)，采用基于方向?yàn)V波的圖像編碼方法和基于圖像輪廓－紋理的編碼方法，利用第二代圖像壓縮編碼方法可以獲得極低碼率的圖像數(shù)據(jù)，目前第二代技術(shù)尚未發(fā)展到成熟的階段。第三代圖像壓縮編碼方法考慮到了圖像傳遞的景物特征，采用分形編碼方法和基于模型的編碼方法，其中基于模型的壓縮編碼方法是目前最活躍的研究領(lǐng)域，代表著新一代的壓縮編碼方向。

第32頁(yè),共393頁(yè)，2024年2月25日，星期天

有關(guān)圖像壓縮編碼的國(guó)際標(biāo)準(zhǔn)主要有：JPEG、H.261、H.263、MPEG-1、MPEG-2/H.262、MPEG-4等。MPEG-7和MPEG-21是MPEG系列標(biāo)準(zhǔn)中的新成員，MPEG-7的正式名稱為“多媒體內(nèi)容描述接口”，用于描述多媒體內(nèi)容數(shù)據(jù)。MPEG-21即“多媒體框架”，這一概念是在1999年10月的MPEG會(huì)議上提出的，它是一種用于協(xié)調(diào)處于不同地點(diǎn)、與不同類型的網(wǎng)絡(luò)相聯(lián)接的各種設(shè)備間進(jìn)行多媒體信息交互的綜合性標(biāo)準(zhǔn)。音頻壓縮基本上與圖像壓縮編碼技術(shù)相同，不同之處在于圖像信號(hào)是二維信號(hào)，而音頻信號(hào)是一維信號(hào)。相比較而言，其數(shù)據(jù)壓縮難度較低。涉及的聲音壓縮編碼的國(guó)際標(biāo)準(zhǔn)主要有：G.711、G.721、G.722、G.728、G.729、G.723.1等。第33頁(yè),共393頁(yè)，2024年2月25日，星期天2．多媒體數(shù)據(jù)的獲取與顯示技術(shù) 多媒體數(shù)據(jù)的獲取與顯示主要指人機(jī)交互的界面，它介于用戶和計(jì)算機(jī)系統(tǒng)之間。用戶通過(guò)人機(jī)界面向系統(tǒng)提供命令、數(shù)據(jù)等輸入信息，系統(tǒng)則將輸出信息通過(guò)人機(jī)界面呈現(xiàn)給用戶。

字符界面，輸入工具是鍵盤

圖形化界面，輸入工具是鼠標(biāo)、跟蹤球、電子筆、觸摸屏、攝像頭和視音頻采集卡等；輸出手段可采用聲音、圖形圖像以及活動(dòng)視頻作為信息的顯示形式。文字識(shí)別技術(shù)語(yǔ)音識(shí)別技術(shù)第34頁(yè),共393頁(yè)，2024年2月25日，星期天

3．多媒體數(shù)據(jù)庫(kù)及其檢索技術(shù)

傳統(tǒng)的數(shù)據(jù)庫(kù)管理系統(tǒng)管理多媒體數(shù)據(jù)的方法的局限性，集中表現(xiàn)在以下三個(gè)方面。第一，多媒體數(shù)據(jù)所包含的信息量非常大，用人工注釋難以準(zhǔn)確描述；第二，多媒體數(shù)據(jù)隨時(shí)變化，因而難以統(tǒng)計(jì)及預(yù)測(cè)；第三，多媒體數(shù)據(jù)內(nèi)部有各種復(fù)雜的時(shí)域、空域以及基于內(nèi)容的約束關(guān)系，傳統(tǒng)的數(shù)據(jù)庫(kù)系統(tǒng)未曾涉及到這些方面。由此開(kāi)發(fā)出新的多媒體數(shù)據(jù)庫(kù)系統(tǒng)，同時(shí)基于內(nèi)容的多媒體信息檢索研究方案也應(yīng)運(yùn)而生。第35頁(yè),共393頁(yè)，2024年2月25日，星期天

多媒體數(shù)據(jù)的內(nèi)容包括概念級(jí)內(nèi)容、感知特性（例如圖像的顏色、紋理，聲音的音色、音質(zhì)等）、邏輯關(guān)系（例如音視頻對(duì)象的時(shí)空關(guān)系等）、信號(hào)特征（通過(guò)信號(hào)處理方法例如小波變換獲得的媒體特征）、特定領(lǐng)域的特征（與應(yīng)用相關(guān)，例如人的面部特征、指紋特征）等。4．多媒體通信網(wǎng)絡(luò)技術(shù)

隨著視頻會(huì)議、視頻點(diǎn)播、遠(yuǎn)程教育等多媒體網(wǎng)絡(luò)應(yīng)用的開(kāi)展，能夠滿足多媒體應(yīng)用需要的通信網(wǎng)絡(luò)必須具有高帶寬、可提供服務(wù)質(zhì)量的保證、實(shí)現(xiàn)媒體同步等特點(diǎn)。

第36頁(yè),共393頁(yè)，2024年2月25日，星期天

目前的多媒體網(wǎng)絡(luò)應(yīng)用主要涉及到網(wǎng)絡(luò)傳輸、服務(wù)質(zhì)量、服務(wù)模式等方面的技術(shù)。因?yàn)閭鹘y(tǒng)的基于分組交換的IP網(wǎng)絡(luò)只提供盡力而為型的服務(wù)，要在IP網(wǎng)上得到QoS的保證需要額外的協(xié)議或標(biāo)準(zhǔn)，目前有綜合服務(wù)模型（IntServ）/RSVP、區(qū)分服務(wù)模型（DiffServ）、多協(xié)議標(biāo)簽交換MPLS等，而IETF新公布的IPv6協(xié)議則在一定程度上滿足了QoS的服務(wù)質(zhì)量要求。對(duì)于電路交換網(wǎng)，則通過(guò)已有的ITU-TH.32X和T.120等相關(guān)的系列標(biāo)準(zhǔn)來(lái)獲得有保證的服務(wù)質(zhì)量。而ATM網(wǎng)從協(xié)議本身就考慮了對(duì)多媒體應(yīng)用的支持，可以為多媒體應(yīng)用預(yù)留資源。多媒體應(yīng)用還需要組播服務(wù)，其發(fā)展是多媒體應(yīng)用的趨勢(shì)。目前，應(yīng)用在傳統(tǒng)IP分組網(wǎng)上的組播技術(shù)正在得到進(jìn)一步的研究和推廣，相關(guān)的協(xié)議有因特網(wǎng)組管理協(xié)議IGMP（InternetGroupManagementProtocol），組播路由協(xié)議DVMRP、MOSPF、PIM和CBT等。ATM網(wǎng)的組播技術(shù)也是研究的一個(gè)重要內(nèi)容，其信令控制已經(jīng)可以采用組播技術(shù)，但是數(shù)據(jù)分發(fā)的組播技術(shù)還沒(méi)有成熟。以軟交換為核心的NGN網(wǎng)絡(luò)為多媒體通信開(kāi)辟了更廣闊的天地。第37頁(yè),共393頁(yè)，2024年2月25日，星期天5．多媒體信息存儲(chǔ)技術(shù)

既要保證存儲(chǔ)設(shè)備的存儲(chǔ)容量足夠大，還要保證存儲(chǔ)設(shè)備的速度要足夠快，帶寬要足夠?qū)?。滿足上述要求的存儲(chǔ)設(shè)備有多種，包括硬盤、光盤、磁帶、冗余磁盤陣列和存儲(chǔ)區(qū)域網(wǎng)絡(luò)等。6．多媒體數(shù)據(jù)的分布式處理技術(shù)

用于分布式多媒體系統(tǒng)的業(yè)務(wù)多種多樣，不同業(yè)務(wù)所用的多媒體終端也各不相同。目前常用的多媒體終端有多媒體計(jì)算機(jī)終端以及針對(duì)某種特定應(yīng)用的專用設(shè)備，如機(jī)頂盒、可視電話終端設(shè)備等。終端的軟件平臺(tái)則包括系統(tǒng)軟件以及各種應(yīng)用軟件，其中操作系統(tǒng)是軟件的核心。多媒體操作系統(tǒng)有Apple公司的QuickTime、微軟公司的WindowsXP等。微軟公司于2004年推出的WindowsXPMediaCenterEdition2004操作系統(tǒng)是專為多媒體個(gè)人電腦設(shè)計(jì)的。流媒體技術(shù)也是一種分布式多媒體技術(shù)，它主要解決了在多媒體數(shù)據(jù)流傳輸過(guò)程中所占帶寬寬，用戶下載數(shù)據(jù)等待時(shí)間長(zhǎng)的問(wèn)題。第38頁(yè),共393頁(yè)，2024年2月25日，星期天1.3多媒體通信的應(yīng)用

多媒體通信系統(tǒng)的應(yīng)用非常廣泛，可以提供VOD視頻點(diǎn)播，遠(yuǎn)程教學(xué)、遠(yuǎn)程辦公、遠(yuǎn)程醫(yī)療、多媒體電子郵件、可視電話、桌面視頻會(huì)議，數(shù)字圖書館、電子百科書等多種多樣的業(yè)務(wù)。第39頁(yè),共393頁(yè)，2024年2月25日，星期天

多媒體通信的體系結(jié)構(gòu)

傳輸網(wǎng)絡(luò)：它是體系結(jié)構(gòu)的最低層，它為多媒體通信的實(shí)現(xiàn)提供了最基本的物理環(huán)境。網(wǎng)絡(luò)服務(wù)平臺(tái)：該層主要提供各類網(wǎng)絡(luò)服務(wù)，是用戶能直接使用這些服務(wù)內(nèi)容，而無(wú)需知道底層傳輸網(wǎng)絡(luò)是怎么提供這些服務(wù)的，即網(wǎng)絡(luò)服務(wù)平臺(tái)的創(chuàng)建使傳輸網(wǎng)絡(luò)對(duì)用戶來(lái)說(shuō)是透明的。多媒體通信平臺(tái)：該層主要提供其通信支援（如多媒體信息處理），并支持各類多媒體的應(yīng)用。一般應(yīng)用：指人們常見(jiàn)的一些多媒體應(yīng)用。如多媒體文本檢索。特殊應(yīng)用：指業(yè)務(wù)性較強(qiáng)的某些多媒體應(yīng)用。如電子郵件。第40頁(yè),共393頁(yè)，2024年2月25日，星期天多媒體通信的體系結(jié)構(gòu)

第41頁(yè),共393頁(yè)，2024年2月25日，星期天作業(yè)1、什么是媒體？根據(jù)原CCITT的定義，媒體可劃分為哪幾大類？它們是如何描述的？2、多媒體通信系統(tǒng)如何構(gòu)成的？簡(jiǎn)述其主要特征。3、試舉出一兩種多媒體通信系統(tǒng)的具體應(yīng)用，并從中分析多媒體通信技術(shù)對(duì)人類社會(huì)的影響。第42頁(yè),共393頁(yè)，2024年2月25日，星期天第二章音頻技術(shù)基礎(chǔ)

音頻信息涉及人耳所能聽(tīng)到的聲音信息，包括語(yǔ)聲和樂(lè)聲。據(jù)統(tǒng)計(jì)，人類從外界獲得的信息大約有16%是從耳朵得到的，由此可見(jiàn)音頻信息在人類獲得信息方面的重要性。第43頁(yè),共393頁(yè)，2024年2月25日，星期天2.1聲學(xué)基礎(chǔ)知識(shí)2.1.1音頻信號(hào)特性

頻域特性是指的聲音信號(hào)是由很多的正弦分量組成的。從頻譜分析來(lái)看，大多數(shù)聲音都是由線狀譜和連續(xù)譜組成的。從幅度來(lái)看，連續(xù)譜相比于線狀譜來(lái)說(shuō)比較弱，使整個(gè)聲音在人耳的聽(tīng)覺(jué)來(lái)看是表現(xiàn)出有明確音高的有調(diào)音的特性。但這些很弱的連續(xù)譜還是不能一概忽略的。正是有了這些連續(xù)頻譜成分，使聲音顯得生動(dòng)、活潑、真實(shí)。常用聲波頻率、聲壓、聲強(qiáng)等參數(shù)來(lái)描述聲音。

聲波頻率是常用的描述聲音的參量。人耳對(duì)聲波頻率的感覺(jué)是有界限的。從人耳的聽(tīng)覺(jué)特性我們知道，人耳所能感受到的聲音的頻率范圍在20～20范圍內(nèi)。低于20和高于20的聲音，人耳是聽(tīng)不到的。

聲壓及聲壓級(jí)SPL（SoundPressureLevel）也是常用的聲音描述參量。簡(jiǎn)單來(lái)說(shuō)，聲壓就是聲音的壓力。聲壓級(jí)SPL是為了很好的描述人耳對(duì)聲音的感覺(jué)所使用的物理量。研究人耳對(duì)聲音強(qiáng)弱的感覺(jué)是用聲壓及聲壓級(jí)來(lái)說(shuō)明的。它是用來(lái)說(shuō)明當(dāng)聲音的強(qiáng)弱出現(xiàn)線性的變化時(shí)，人耳對(duì)這種聲音強(qiáng)弱線性的變化感覺(jué)是否也是線性的。

第44頁(yè),共393頁(yè)，2024年2月25日，星期天

能引起人耳聽(tīng)到聲音時(shí)的聲壓稱為聽(tīng)閾，頻率1kHz時(shí)的聽(tīng)閾為2×10-5；將引起人耳疼痛的聲壓稱為痛閾，約為20。人耳對(duì)聲壓強(qiáng)弱變化的感覺(jué)并不是呈線性的。大體上來(lái)說(shuō)，人耳對(duì)聲音強(qiáng)弱的感覺(jué)是與聲壓有效值的對(duì)數(shù)成比例的。為適應(yīng)人耳的這一特性，就對(duì)聲壓有效值取對(duì)數(shù)，用此對(duì)數(shù)值來(lái)表示聲音的強(qiáng)弱。這種表示聲音強(qiáng)弱的對(duì)數(shù)值就叫做聲壓級(jí)。人耳的聽(tīng)閾和痛閾分別對(duì)應(yīng)的聲壓級(jí)為0dB和120dB。第45頁(yè),共393頁(yè)，2024年2月25日，星期天2.1.2人耳聽(tīng)覺(jué)特性響度、音調(diào)和音色稱為人耳聽(tīng)覺(jué)特性的三要素。一般來(lái)說(shuō)，客觀物理量的聲壓或聲強(qiáng)、頻率、波形（頻譜結(jié)構(gòu)）和主觀感覺(jué)的三要素響度、音調(diào)、音色相對(duì)應(yīng)。

1、人耳對(duì)聲音強(qiáng)弱的感覺(jué)特性人耳對(duì)聲音強(qiáng)弱的感覺(jué)不是與聲壓成正比，而是與聲壓級(jí)成正比關(guān)系。

2、響度、響度級(jí) 響度是聽(tīng)覺(jué)判斷聲音強(qiáng)弱的屬性。響度主要與引起聽(tīng)覺(jué)的聲壓有關(guān)，也與聲音的頻率和聲音的波形有關(guān)。聲壓（級(jí)）是從客觀的角度來(lái)描述聲波的強(qiáng)弱的，而響度是從主觀的角度來(lái)描述人耳對(duì)聲音強(qiáng)弱的感覺(jué)。一般來(lái)說(shuō)，聲壓（級(jí)）大的聲音其響度也會(huì)較大，它們之間是有一定的關(guān)系，但并不完全一致。也就是說(shuō)聲壓（級(jí)）大的聲音人耳的感覺(jué)不一定響。描述響度、聲壓以及聲音頻率之間關(guān)系的曲線稱為等響度曲線，也叫響度的靈敏度曲線。第46頁(yè),共393頁(yè)，2024年2月25日，星期天圖2-1等響曲線第47頁(yè),共393頁(yè)，2024年2月25日，星期天

3、人耳聽(tīng)覺(jué)的掩蔽效應(yīng)

一個(gè)頻率聲音的聽(tīng)閾由于另一個(gè)聲音的存在而上升的現(xiàn)象稱為掩蔽。當(dāng)我們聽(tīng)兩個(gè)頻率的聲音的時(shí)候，其中一個(gè)頻率的聲音很響，而另一個(gè)頻率的聲音較弱，盡管從聲強(qiáng)來(lái)說(shuō)都超過(guò)了聽(tīng)閾，但此時(shí)，我們只能聽(tīng)到很響的那個(gè)頻率的聲音，不很響的頻率的聲音是聽(tīng)不到的，也就是說(shuō)弱聲被強(qiáng)聲掩蔽掉了。對(duì)于純音來(lái)說(shuō)，一般會(huì)有這樣的現(xiàn)象出現(xiàn)：頻率低的純音比較容易掩蔽頻率高純音，而頻率高的純音比較來(lái)說(shuō)難掩蔽低頻率的純音。利用人耳對(duì)聲音的掩蔽效應(yīng)，可以用有用的聲音信號(hào)去掩蔽那些無(wú)用的聲音信號(hào)。第48頁(yè),共393頁(yè)，2024年2月25日，星期天4、聲音質(zhì)量評(píng)價(jià)

在采用等級(jí)法MOS(MeanOpinionScore)進(jìn)行評(píng)價(jià)時(shí)，通常設(shè)優(yōu)，良，中，差，劣五個(gè)等級(jí)：5分表示質(zhì)量極好，十分滿意；4分表示質(zhì)量好，比較滿意；3分表示質(zhì)量一般尚可接受；2分表示質(zhì)量差勉強(qiáng)能聽(tīng)；1分表示質(zhì)量低劣無(wú)法忍受。圖2-3中心頻率為1200Hz的帶有噪聲的掩蔽譜第49頁(yè),共393頁(yè)，2024年2月25日，星期天2.2音頻信息編碼分類

1．波形編碼

波形編碼是基于對(duì)語(yǔ)音信號(hào)波形的數(shù)字化處理，試圖使處理后重建的語(yǔ)音信號(hào)波形與原語(yǔ)音信號(hào)波形保持一致。

優(yōu)點(diǎn)是實(shí)現(xiàn)簡(jiǎn)單、語(yǔ)音質(zhì)量較好、適應(yīng)性強(qiáng)等。缺點(diǎn)是話音信號(hào)的壓縮程度不是很高，實(shí)現(xiàn)的碼速率比較高。常見(jiàn)的波形壓縮編碼方法有：脈沖編碼調(diào)制PCM、增量調(diào)制編碼DM、差值脈沖編碼調(diào)制DPCM、自適應(yīng)差分脈沖編碼調(diào)制（ADPCM）、子帶編碼（SBC）和矢量量化編碼（VQ）等。波形編碼的比特率一般在16至64之間，它有較好的話音質(zhì)量與成熟的技術(shù)實(shí)現(xiàn)方法。當(dāng)數(shù)碼率低于32的時(shí)候音質(zhì)明顯降低，16時(shí)音質(zhì)就非常差了。

編碼速率＝采樣頻率×編碼比特?cái)?shù)

計(jì)算播放某個(gè)音頻信號(hào)所需要的存儲(chǔ)容量，公式為：

存儲(chǔ)容量＝播放時(shí)間×速率÷8（字節(jié)）第50頁(yè),共393頁(yè)，2024年2月25日，星期天

2、參數(shù)編碼

參數(shù)編碼又稱聲源編碼，它是通過(guò)構(gòu)造一個(gè)人發(fā)聲的模型，以發(fā)音機(jī)制的模型作為基礎(chǔ)，用一套模擬聲帶頻譜特性的濾波器系數(shù)和若干聲源參數(shù)來(lái)描述這個(gè)模型，在發(fā)送端從模擬語(yǔ)音信號(hào)中提取各個(gè)特征參量并對(duì)這些參量進(jìn)行量化編碼，以實(shí)現(xiàn)語(yǔ)音信息的數(shù)字化。

特點(diǎn)是語(yǔ)音編碼速率較低，基本上在2kbit／s～9.6kbit／s之間。在模型圖中，周期信號(hào)源表示濁音激勵(lì)源，隨機(jī)信號(hào)表示清音激勵(lì)源；u(n)表示波形產(chǎn)生的激勵(lì)參數(shù)，可以用清/濁音判決（u/v）來(lái)表示；G是增益控制，代表語(yǔ)聲信號(hào)的強(qiáng)度；線性時(shí)變?yōu)V波器可以看作是聲道特性；ai是線性時(shí)變?yōu)V波器的系統(tǒng)參數(shù)；C(n)是合成的語(yǔ)聲輸出。第51頁(yè),共393頁(yè)，2024年2月25日，星期天參數(shù)編碼的典型代表是線性預(yù)測(cè)編碼LPC。第52頁(yè),共393頁(yè)，2024年2月25日，星期天

3、混和編碼

混和編碼將波形編碼和參量編碼結(jié)合起來(lái)，力圖保持波形編碼話音的高質(zhì)量與參量編碼的低速率。采用混合編碼的編碼器有：多脈沖激勵(lì)線性預(yù)測(cè)編碼器（MPE-LPC），規(guī)則脈沖激勵(lì)線性預(yù)測(cè)編碼器（RPE-LPC），碼激勵(lì)線性預(yù)測(cè)編碼器(CELP)，矢量和激勵(lì)線性預(yù)測(cè)編碼器(VSELP)和多帶激勵(lì)線性預(yù)測(cè)編碼器。以上三種壓縮編碼的性能比較可以用下圖來(lái)表示：第53頁(yè),共393頁(yè)，2024年2月25日，星期天圖2-5合成分析原理簡(jiǎn)化框圖第54頁(yè),共393頁(yè)，2024年2月25日，星期天2.3常用壓縮編碼方法

速率低于64kb/的語(yǔ)聲數(shù)字化處理方法稱為音頻信息壓縮編碼。2.3.1差值脈沖編碼調(diào)制DPCM和自適應(yīng)差值脈沖編碼調(diào)制ADPCM

差值脈沖編碼調(diào)制(DPCM)的基本出發(fā)點(diǎn)就是對(duì)相鄰樣值的差值進(jìn)行量化編碼。由于此差值比較小，可以為其分配較少的比特?cái)?shù)，進(jìn)而起到了壓縮數(shù)碼率的目的。在具體的實(shí)現(xiàn)過(guò)程中，是對(duì)樣值與其對(duì)應(yīng)的預(yù)測(cè)值的差值進(jìn)行量化編碼的。對(duì)一個(gè)話音信號(hào)的樣值序列，當(dāng)前樣值的預(yù)測(cè)值可以由其前面的若干個(gè)樣值來(lái)進(jìn)行預(yù)測(cè)，若樣值序列表示為：為當(dāng)前值，則對(duì)當(dāng)前樣值完整的預(yù)測(cè)表達(dá)式由下式表示：第55頁(yè),共393頁(yè)，2024年2月25日，星期天

式中為當(dāng)前值的預(yù)測(cè)值，為當(dāng)前值前面的N-1個(gè)樣值。為預(yù)測(cè)系數(shù)，若預(yù)測(cè)系數(shù)隨輸入信號(hào)而變化時(shí)就是自適應(yīng)預(yù)測(cè)。則當(dāng)前值與預(yù)測(cè)值的差值表示為：可以由一系列預(yù)測(cè)值得到其對(duì)應(yīng)的差值。差分脈沖編碼調(diào)制就是對(duì)上面的一系列差值進(jìn)行量化編碼，再進(jìn)行存儲(chǔ)或傳輸。由于話音信號(hào)相鄰樣值之間有很強(qiáng)的相關(guān)性，所以預(yù)測(cè)值與實(shí)際值是很接近的，其差值也是很小，也就可以用比較少的比特?cái)?shù)來(lái)進(jìn)行編碼表示，這樣就減少了編碼的比特?cái)?shù)。在接收端或在對(duì)數(shù)據(jù)進(jìn)行回放時(shí)，可用類似的過(guò)程重建原始數(shù)據(jù)。第56頁(yè),共393頁(yè)，2024年2月25日，星期天實(shí)現(xiàn)差分脈沖編碼調(diào)制的系統(tǒng)方框圖如圖2－7所示：第57頁(yè),共393頁(yè)，2024年2月25日，星期天

預(yù)測(cè)系數(shù)的求法是預(yù)測(cè)估值的均方差為最小的預(yù)測(cè)系數(shù)。為了進(jìn)一步提高編碼的性能，將自適應(yīng)量化技術(shù)和自適應(yīng)預(yù)測(cè)技術(shù)結(jié)合在一起用于差分脈沖編碼調(diào)制DPCM中，從而實(shí)現(xiàn)了自適應(yīng)差分脈沖編碼調(diào)制ADPCM。ADPCM的簡(jiǎn)化原理框圖如圖所示。第58頁(yè),共393頁(yè)，2024年2月25日，星期天

2.3.2線性預(yù)測(cè)編碼LPC

如下圖所示。在線性預(yù)測(cè)編碼LPC中，將語(yǔ)聲信號(hào)劃分為濁音信號(hào)和清音信號(hào)。清音信號(hào)可以用白色隨機(jī)噪聲激勵(lì)信號(hào)來(lái)表示，濁音信號(hào)可以用準(zhǔn)周期脈沖序列激勵(lì)信號(hào)來(lái)表示。由于語(yǔ)聲信號(hào)是短時(shí)平穩(wěn)的，根據(jù)語(yǔ)聲信號(hào)的短時(shí)分析和基音提取方法，可以用若干的樣值對(duì)應(yīng)的一幀來(lái)表示短時(shí)語(yǔ)聲信號(hào)。這樣，逐幀將語(yǔ)聲信號(hào)用基音周期Tp，清/濁音(u/v)判決，聲道模型參數(shù)ai和增益G來(lái)表示。對(duì)這些參進(jìn)數(shù)行量化編碼，在接收端再進(jìn)行語(yǔ)聲的合成。第59頁(yè),共393頁(yè)，2024年2月25日，星期天

在LPC原理框圖的發(fā)送端，原始話音信號(hào)送入A/D變換器，以8kHz速率抽樣變成數(shù)字化語(yǔ)聲信號(hào)。以180個(gè)抽樣樣值為一幀，對(duì)應(yīng)幀周期為22.5ms，以一幀為處理單元進(jìn)行逐幀處理。完成每一幀的線性預(yù)測(cè)系數(shù)分析，并作相應(yīng)的清/濁音（u/v）處理、基音(Tp)提取，再對(duì)這些參量進(jìn)行量化、編碼并送入信道傳送。在接收端，經(jīng)參量譯碼分出參量ai、G、Tp、u/v，以這些參數(shù)作為合成語(yǔ)聲信號(hào)的參量，最后將合成產(chǎn)生的數(shù)字化語(yǔ)聲信號(hào)經(jīng)D/A變換還原為語(yǔ)聲信號(hào)。第60頁(yè),共393頁(yè)，2024年2月25日，星期天2.3.3矢量量化VQ(VectorQuantization)編碼

對(duì)單個(gè)采樣的樣值進(jìn)行量化被稱為標(biāo)量量化。所謂矢量量化VQ，是將輸入的信號(hào)樣值按照某種方式進(jìn)行分組，把每個(gè)分組看作是一個(gè)矢量，并對(duì)該矢量進(jìn)行量化。

矢量量化編碼原理：在發(fā)送端，先將語(yǔ)音信號(hào)的樣值數(shù)據(jù)序列按某種方式進(jìn)行分組，每個(gè)組假定有k個(gè)數(shù)據(jù)。這樣的一組數(shù)據(jù)就構(gòu)成了一個(gè)k維矢量。每個(gè)矢量有對(duì)應(yīng)的下標(biāo)，下標(biāo)是用二進(jìn)制數(shù)來(lái)表示的。把每個(gè)數(shù)據(jù)組所形成的矢量看作是一個(gè)碼字；這樣，語(yǔ)音數(shù)據(jù)所分成的組就形成了各自對(duì)應(yīng)的碼字。把所有這些碼字進(jìn)行排列，可以形成一個(gè)表，這樣的表就叫作碼本或碼書。在矢量量化編碼方法中，所傳輸?shù)牟皇菍?duì)應(yīng)的矢量，而是對(duì)應(yīng)每個(gè)矢量的下標(biāo)。由于下標(biāo)的數(shù)據(jù)相比于矢量本身來(lái)說(shuō)，要小的多，所以這種方式就實(shí)現(xiàn)了數(shù)據(jù)的壓縮。第61頁(yè),共393頁(yè)，2024年2月25日，星期天

在對(duì)碼本的描述中，構(gòu)成碼本的碼字的數(shù)量稱為碼本的長(zhǎng)度，用來(lái)表示這個(gè)長(zhǎng)度，則每個(gè)碼字的位置即其下標(biāo)可以用的二進(jìn)制位來(lái)表示，每個(gè)碼字是由個(gè)原始數(shù)據(jù)構(gòu)成的。所以，矢量量化編碼的編碼速率可以低到假設(shè)，表示是有16個(gè)樣值數(shù)據(jù)構(gòu)成的一個(gè)矢量；，表示碼本的長(zhǎng)度是256，碼本的下標(biāo)用二進(jìn)制來(lái)表示共有bit，由于對(duì)每組數(shù)據(jù)只需要傳送下標(biāo)，假定此時(shí)碼本已經(jīng)構(gòu)造好，則比特率為：。

實(shí)現(xiàn)矢量量化的關(guān)鍵技術(shù)有兩個(gè)：一個(gè)是如何設(shè)計(jì)一個(gè)優(yōu)良的碼本，另一個(gè)是量化編碼準(zhǔn)則。第62頁(yè),共393頁(yè)，2024年2月25日，星期天2.3.4子帶編碼第63頁(yè),共393頁(yè)，2024年2月25日，星期天

圖中發(fā)送端的n個(gè)帶通濾波器將輸入信號(hào)分為n個(gè)子頻帶，對(duì)各個(gè)對(duì)應(yīng)的子帶帶通信號(hào)進(jìn)行調(diào)制，將n個(gè)帶通信號(hào)經(jīng)過(guò)頻譜搬移變?yōu)榈屯ㄐ盘?hào)；對(duì)低通信號(hào)進(jìn)行采樣、量化和編碼，得到對(duì)應(yīng)各個(gè)子帶的數(shù)字流；再經(jīng)復(fù)接器合成為完整的數(shù)字流。經(jīng)過(guò)信道傳輸?shù)竭_(dá)接收端。在接收端，由分配器將各個(gè)子帶的數(shù)字流分開(kāi)，由譯碼器完成各個(gè)子帶數(shù)字流的譯碼；由解調(diào)器完成信號(hào)的頻移，將個(gè)子帶搬移到原始頻率的位置上。各子帶相加就可以恢復(fù)出原來(lái)的語(yǔ)聲信號(hào)。

子帶編碼有幾個(gè)突出的優(yōu)點(diǎn)：對(duì)不同的子帶分配不同的比特?cái)?shù)可以很好控制各個(gè)子帶的量化電平數(shù)及重建信號(hào)時(shí)的量化誤差方差值，進(jìn)而獲得更好的主觀聽(tīng)音質(zhì)量。由于各個(gè)子帶相互隔開(kāi)，使各個(gè)子帶的量化噪聲也相互獨(dú)立，互不影響，量化噪聲被束縛在各自的子帶內(nèi)。這樣，某些輸入電平比較低的子帶信號(hào)不會(huì)被其它子帶的量化噪聲所淹沒(méi)。子帶劃分的結(jié)果，使各個(gè)子帶的采樣頻率大大的降低。第64頁(yè),共393頁(yè)，2024年2月25日，星期天2.3.5感知編碼

感知編碼（PerceptualCoding）是利用人耳聽(tīng)覺(jué)的心理聲學(xué)特性（包括頻域掩蔽特性和時(shí)域掩蔽特性）。感知編碼是建立在人類聽(tīng)覺(jué)系統(tǒng)的心理聲學(xué)基礎(chǔ)上的，只記錄那些能夠被人耳感覺(jué)到的聲音，從而達(dá)到壓縮數(shù)據(jù)量的目的。

感知編碼的理論基礎(chǔ)是基于人耳的聞?dòng)?、臨界頻段和掩蔽效應(yīng)。臨界頻段反應(yīng)了人耳對(duì)不同頻段聲音的反應(yīng)靈敏度是有差異的：在低頻段對(duì)幾赫茲的聲音差異都能分辨，而在高頻段的差異要達(dá)到幾百赫茲才能分辨。試驗(yàn)表明，低頻段的臨界頻段寬度有100Hz到200Hz，在大于5kHz后的高頻段的臨界頻段寬度有1000Hz到幾萬(wàn)Hz。近3/4的臨界頻段低于5kHz。因此在編碼時(shí)要對(duì)低頻段進(jìn)行精細(xì)的劃分，而對(duì)高頻段的劃分不必精細(xì)。掩蔽包括頻域掩蔽和時(shí)域掩蔽。在頻域，一個(gè)強(qiáng)音會(huì)掩蔽掉與之接近的弱音，掩蔽特性與掩蔽音的強(qiáng)弱、掩蔽音的中心頻率以及掩蔽音與被掩蔽音的頻率相對(duì)位置有關(guān)。時(shí)域掩蔽是指掩蔽效應(yīng)發(fā)生在掩蔽音與被掩蔽音不同時(shí)出現(xiàn)時(shí)，也稱為異時(shí)掩蔽。在編碼時(shí)，對(duì)被掩蔽的弱音不必進(jìn)行編碼，從而達(dá)到數(shù)據(jù)壓縮的目的。在感知編碼中使用了心理模型。第65頁(yè),共393頁(yè)，2024年2月25日，星期天下圖是感知編碼的MPEG通用音頻編碼系統(tǒng)的結(jié)構(gòu)框架：第66頁(yè),共393頁(yè)，2024年2月25日，星期天

圖中的時(shí)間/頻率映射完成將輸入的時(shí)間域音頻信號(hào)轉(zhuǎn)變?yōu)閬喨拥念l率分量，使用不同的濾波器組來(lái)實(shí)現(xiàn)，其輸出的頻率分量也叫做子帶值或者頻率線。

心理聲學(xué)模型利用利用濾波器組的輸出和輸入的數(shù)字聲音信號(hào)計(jì)算出隨輸入信號(hào)而變化的掩蔽門限估值。

量化和編碼按照量化噪聲不超過(guò)掩蔽門限的原則對(duì)濾波器組輸出的子帶值（或頻率線）進(jìn)行量化、編碼，目的是使量化的噪聲不會(huì)被人耳感覺(jué)到。

按幀打包來(lái)完成最后的編碼碼流。編碼碼流中除了要包括量化和編碼映射后的樣值外，還包括如比特分配等信息。

第67頁(yè),共393頁(yè)，2024年2月25日，星期天2.4音頻信息壓縮編碼標(biāo)準(zhǔn)

2.4.1波形編碼標(biāo)準(zhǔn)

1、G.711標(biāo)準(zhǔn)

G.711標(biāo)準(zhǔn)是為脈沖編碼調(diào)制(PCM)制定的標(biāo)準(zhǔn)．語(yǔ)音質(zhì)量最好，但壓縮率很有限。

2、G.721標(biāo)準(zhǔn)

G.721標(biāo)準(zhǔn)是用于速率是64kb/s的PCM語(yǔ)音信號(hào)與速率是32kb/s的ADPCM語(yǔ)音信號(hào)之間的轉(zhuǎn)換。

3、G.722標(biāo)準(zhǔn)

G.722標(biāo)準(zhǔn)是針對(duì)調(diào)幅廣播質(zhì)量的音頻信號(hào)制定的壓縮標(biāo)準(zhǔn)，質(zhì)量高于G.711標(biāo)準(zhǔn)和G.721標(biāo)準(zhǔn)。第68頁(yè),共393頁(yè)，2024年2月25日，星期天2.4.2混和編碼標(biāo)準(zhǔn)

1、G.728標(biāo)準(zhǔn)

G.728標(biāo)準(zhǔn)所涉及的音頻信息主要是應(yīng)用于公共電話網(wǎng)中。采用的壓縮算法是低延時(shí)碼激勵(lì)線性預(yù)測(cè)（LD-CELP，CodeExcitationLinearPrediction）技術(shù)。G.729標(biāo)準(zhǔn)的碼率只有16kb/s。

2、G.729標(biāo)準(zhǔn)

G.729就是ITU-T為低碼率應(yīng)用而制訂的語(yǔ)音壓縮標(biāo)準(zhǔn)。G.729標(biāo)準(zhǔn)的碼率只有8kb/s，其壓縮算法相比其它算法來(lái)說(shuō)比較復(fù)雜，采用的基本算法仍然是碼激勵(lì)線性預(yù)測(cè)（CELP，CodeExcitationLinearPrediction）技術(shù)。

3、G.723.1標(biāo)準(zhǔn)

G.723.1標(biāo)準(zhǔn)是ITU-T制定的多媒體通信標(biāo)準(zhǔn)中的一個(gè)組成部分，可應(yīng)用于IP電話、H.623會(huì)議電視系統(tǒng)等通信系統(tǒng)中，碼率較低，分別為5.3kb/s和6.3kb/s。第69頁(yè),共393頁(yè)，2024年2月25日，星期天G.72132kbit/sADPCM原理第70頁(yè),共393頁(yè)，2024年2月25日，星期天圖2-14G.728編碼器結(jié)構(gòu)第71頁(yè),共393頁(yè)，2024年2月25日，星期天G.723.1標(biāo)準(zhǔn)語(yǔ)音編碼器原理第72頁(yè),共393頁(yè)，2024年2月25日，星期天G732.1解碼器原理第73頁(yè),共393頁(yè)，2024年2月25日，星期天2.4.3MPEG音頻編碼標(biāo)準(zhǔn)

本章所描述的MPEG音頻是MPEG-1音頻、MPEG-2音頻和MPEG-2AAC音頻。MPEG音頻編碼是國(guó)際上公認(rèn)的高保真立體聲音頻壓縮標(biāo)準(zhǔn)。為了實(shí)現(xiàn)高保真，它的音頻信號(hào)的采樣頻率有了很大的提高，音頻信號(hào)的頻率范圍也大大的增加。MPEG-1聲音標(biāo)準(zhǔn)規(guī)定其音頻信號(hào)采樣頻率可以有32kHz、44.1kHz或48kHz三種，音頻信號(hào)的帶寬可以選擇15kHz和20kHz。其音頻編碼分為3層：Laer-1、Layer-2和Layer-3。Laer-1的壓縮比為1:4，編碼速率為384kb/s；Layer2的壓縮比為1:6～1:8之間，編碼速率為192～256kb/s；Layer3的壓縮比為1:10～1:12，壓縮碼率可以達(dá)到64kb/s。

1．MPEG-1聲音標(biāo)準(zhǔn)

MPEG-1音頻編碼的信號(hào)頻帶是20～20kHz，取樣頻率使用的是32kHz、44.1kHz和48kHz，采用的編碼算法是感知子帶編碼。Laer-1的編碼器最為簡(jiǎn)單，主要用于小型數(shù)字盒式磁帶；Layer-2編碼器的復(fù)雜程度是中等，主要用于數(shù)字廣播音頻、數(shù)字音樂(lè)、只讀光盤交互系統(tǒng)和視盤；Layer-3的編碼器最為復(fù)雜，主要用于ISDN上的聲音傳輸。第74頁(yè),共393頁(yè)，2024年2月25日，星期天

MPEG音頻編碼采用了子帶編碼，共分為32個(gè)子帶。MPEG編碼的音頻數(shù)據(jù)是按幀安排的。Layer-1的每幀包含32×12＝384個(gè)樣本數(shù)據(jù)，Layer-2和Layer-3每幀包含有32×3×12＝1152個(gè)樣本數(shù)據(jù)，是Layer-1的3倍。Layer-1的編碼

Layer-1的子帶劃分采用等帶寬劃分，分為32個(gè)子帶，每個(gè)子帶有12個(gè)樣本，心理聲學(xué)模型只使用頻域掩蔽特性。

Layer1和Layer2編碼器的結(jié)構(gòu)基本類似，其差別在于濾波器子帶的劃分不同和FFT的運(yùn)算點(diǎn)數(shù)不同。第75頁(yè),共393頁(yè)，2024年2月25日，星期天

幀頭：由每幀開(kāi)始的前32個(gè)比特組成，這32個(gè)比特包含同步信息和狀態(tài)信息，同步碼由12個(gè)全1碼組成。所有的三層音頻信息編碼在這部分都是一樣的。幀校驗(yàn)碼：幀校驗(yàn)碼占16比特，用來(lái)檢測(cè)傳輸后比特流的差錯(cuò)，其多項(xiàng)式表達(dá)式為：。所有三層的這一部分也都是相同的。音頻數(shù)據(jù)：由比特分配表、比例因子選擇信息、比例因子和子帶樣值組成。其中子帶樣值是音頻數(shù)據(jù)的最大部分，不同層的音頻數(shù)據(jù)是不同的。輔助數(shù)據(jù)：用來(lái)傳輸相關(guān)的輔助信息。Layer-2編碼

Layer-2編碼在Layer-1的基礎(chǔ)上作了改進(jìn)。32個(gè)子帶的劃分是不等劃分，其劃分依據(jù)是臨界頻段。每個(gè)子帶分為3個(gè)12樣本組，這樣每幀共有1152個(gè)樣本。在掩蔽特性方面除保留原有的頻域掩蔽外還增加了時(shí)域掩蔽。另外在低頻、中頻和高頻段對(duì)位分配作了重新安排，低頻段使用4位，中頻段使用3位，高頻段使用2位。其幀格式見(jiàn)下圖第76頁(yè),共393頁(yè)，2024年2月25日，星期天Layer-1和layer-2的編解碼器方框圖第77頁(yè),共393頁(yè)，2024年2月25日，星期天Layer-3編碼（MP3）

Layer-3仍然使用不等長(zhǎng)子帶劃分。心理聲學(xué)模型在使用頻域掩蔽和時(shí)域掩蔽特性之外又考慮到了立體聲信息數(shù)據(jù)的冗余，還增加了霍夫曼編碼器。濾波器組在原有的基礎(chǔ)上增加了改進(jìn)離散余弦MDCT特性，可以部分消除由多相濾波器組引入的混疊效應(yīng)。第78頁(yè),共393頁(yè)，2024年2月25日，星期天Layer-3編碼器和解碼器結(jié)構(gòu)第79頁(yè),共393頁(yè)，2024年2月25日，星期天2、MPEG-2BC聲音壓縮標(biāo)準(zhǔn)

MPEG-2BC聲音標(biāo)準(zhǔn)是在MPEG-1的基礎(chǔ)上發(fā)展來(lái)的，是MPEG為多聲道聲音開(kāi)發(fā)的低碼率編碼方案，并與MPEG-1的聲音標(biāo)準(zhǔn)保持后向兼容。與MPEG-1相比主要增加了下面幾個(gè)方面的內(nèi)容：支持5.1多路環(huán)繞立體聲：可以提供5個(gè)全帶寬聲道，分為左、右、中、和兩個(gè)環(huán)繞聲道，另加一個(gè)低頻效果增強(qiáng)聲道，稱為5.1聲道。擴(kuò)展了編碼器的輸出范圍，從32～384kb/s擴(kuò)展到8～640kb/s。增加了更低的取樣頻率和低碼率：在保持MPEG-1原有的取樣頻率的基礎(chǔ)上，又增加了三種取樣頻率，新增的取樣頻率為16kHz、22.05kHz和24kHz，是將原有MPEG-1的取樣頻率降低了一半，以便提高碼率低于64kb/s時(shí)的每個(gè)聲道的聲音質(zhì)量。第80頁(yè),共393頁(yè)，2024年2月25日，星期天

MPEG-2對(duì)多聲道的擴(kuò)展方式是通過(guò)可分級(jí)的方式來(lái)實(shí)現(xiàn)的。在編碼器端，5個(gè)輸入的聲道信號(hào)別向下混合為一路兼容立體聲信號(hào)，再按照MPEG-1的編碼標(biāo)準(zhǔn)進(jìn)行編碼；用于在解碼端恢復(fù)原來(lái)5個(gè)聲道的相關(guān)信息都被安置在MPEG-1的附加數(shù)據(jù)區(qū)里，MPEG-1在進(jìn)行解碼的時(shí)候可忽略此區(qū)的數(shù)據(jù)。這些附加信息在在聲道T2、T3和T4以及在低音效果增強(qiáng)LFE聲道中傳輸。MPEG-2多聲道解碼器除了對(duì)MPEG-1的部分進(jìn)行解碼外，還對(duì)附加的信道T2、T3和T4以及LFE聲道進(jìn)行解碼，根據(jù)這些信息來(lái)恢復(fù)原來(lái)的5.1聲道，編碼解碼框圖見(jiàn)下圖。第81頁(yè),共393頁(yè)，2024年2月25日，星期天MPEG-2的數(shù)據(jù)幀結(jié)構(gòu)如下圖所示。

2.4.4MPEG-2AAC編碼標(biāo)準(zhǔn)

MPEG-2AAC(AdvancedAudioCoding)是MPEG-2標(biāo)準(zhǔn)中一種非常靈活的編碼標(biāo)準(zhǔn)，采用感知編碼方法，主要是利用聽(tīng)覺(jué)系統(tǒng)的掩蔽特性來(lái)減少聲音編碼的數(shù)據(jù)量；并且通過(guò)子帶編碼將量化噪聲分散到各個(gè)子帶中，用全局的聲音信號(hào)將噪聲掩蔽掉。

MPEG-2AAC采用模塊化的編碼方法，把整個(gè)ACC系統(tǒng)分成一系列模塊，用標(biāo)準(zhǔn)化的ACC工具對(duì)模塊進(jìn)行定義。在文獻(xiàn)資料中是通常將模塊和工具同等對(duì)待。AAC定義的編碼和解碼的基本結(jié)構(gòu)圖如下圖所示。第82頁(yè),共393頁(yè)，2024年2月25日，星期天

AAC的編碼方法與前面介紹的編碼方法不同，AAC采用了模塊化的方法，將整個(gè)AAC系統(tǒng)分解成一系列模塊，用標(biāo)準(zhǔn)化的AAC編碼工具對(duì)模塊進(jìn)行定義。AAC定義了3種配置：基本配置、低復(fù)雜性配置和可變采樣率配置。基本配置在三種配置中提供最好的聲音質(zhì)量，除沒(méi)有使用增益控制模塊外，其余模塊都使用。低復(fù)雜性配置沒(méi)有使用預(yù)測(cè)模塊和預(yù)處理模塊，使用的瞬時(shí)噪聲定形濾波器模塊的級(jí)數(shù)也有限，聲音質(zhì)量低于基本配置。可變采用率配置使用增益控制作預(yù)處理，沒(méi)有使用預(yù)測(cè)模塊，對(duì)TNS濾波器的級(jí)數(shù)和帶寬也有限制，是最簡(jiǎn)單的一種配置。第83頁(yè),共393頁(yè)，2024年2月25日，星期天AAC定義的編碼和界面的基本結(jié)構(gòu)圖第84頁(yè),共393頁(yè)，2024年2月25日，星期天2.4.5MPEG-4音頻標(biāo)準(zhǔn)

作為一種新的音頻標(biāo)準(zhǔn)，MPEG-4音頻編碼綜合了多種類型的音頻編碼。MPEG-4音頻編碼標(biāo)準(zhǔn)集成了從話音到高質(zhì)量的多聲道聲音，從自然聲音到合成聲音。采用的編碼方法有多種，包括參數(shù)編碼、碼激勵(lì)線性預(yù)測(cè)編碼CELP、時(shí)間/頻率編碼、結(jié)構(gòu)化聲音SA編碼和文-語(yǔ)系統(tǒng)TTS的合成聲音。其編碼方框圖如下圖。第85頁(yè),共393頁(yè)，2024年2月25日，星期天

參數(shù)編碼器使用參數(shù)編碼技術(shù)。對(duì)于8kHz采樣頻率的話音信號(hào)，編碼器輸出的碼流速率是2～4kb/s；對(duì)于采樣頻率位8kHz或16kHz的話音信號(hào)，編碼器的輸出速率為4～16kb/s。第86頁(yè),共393頁(yè)，2024年2月25日，星期天

使用碼激勵(lì)線性預(yù)測(cè)編碼器，對(duì)于采樣頻率為8kHz或16kHz的話音信號(hào)，輸出速率為6～24kb/s。矢量量化和線性預(yù)測(cè)的編碼器使用了時(shí)間－頻率T/S技術(shù)，對(duì)于采樣頻率為8kHz的話音信號(hào)，編碼輸出速率大于16kb/s。第87頁(yè),共393頁(yè)，2024年2月25日，星期天2．5多媒體音頻信號(hào)文件格式

自從PC機(jī)可以支持多媒體應(yīng)用以來(lái)，很多公司在利用計(jì)算機(jī)處理音頻信息方面下了很大的氣力，從而先后出現(xiàn)了許多的音頻文件格式。Wave

（WaveAudioFiles）文件，其擴(kuò)展名為WAV。Wave格式是Microsoft公司開(kāi)發(fā)的一種聲音文件格式，它來(lái)源于對(duì)聲音模擬信號(hào)波形的采樣。AIFF文件，其擴(kuò)展名為AIF或AIFF。AIFF是音頻交換文件格式(AudioInterchangeFileFormat)的英文縮寫，這種聲音文件格式是由蘋果計(jì)算機(jī)公司開(kāi)發(fā)的，被Macintosh平臺(tái)及其應(yīng)用程序所支持。Audio文件，其擴(kuò)展名為AU。Audio文件是SunMicrosystems公司推出的一種經(jīng)過(guò)壓縮的數(shù)字聲音格式，是Internet中常用的聲音文件格式，NetscapeNavigator瀏覽器中的LiveAudio也支持Audio格式的聲音文件。Sound文件，其擴(kuò)展名為SND。Sound文件是NeXTComputer公司推出的數(shù)字聲音文件格式，支持壓縮。第88頁(yè),共393頁(yè)，2024年2月25日，星期天VQF:就是TwinVQFiles是由NipponTelegraphandTelephone(NTT)開(kāi)發(fā)的一種音頻壓縮技術(shù)。無(wú)論在音頻壓縮率還是在音質(zhì)上，VQF比MP3都有較大的優(yōu)勢(shì)。當(dāng)然技術(shù)上的優(yōu)勢(shì)并不代表市場(chǎng)上的優(yōu)勢(shì)。Voice文件，其擴(kuò)展名為VOC。Voice文件是CreativeLabs(創(chuàng)新公司)開(kāi)發(fā)的聲音文件格式，多用于保存CreativeSoundBlaster(創(chuàng)新聲霸)系列聲卡所采集的聲音數(shù)據(jù)，被Windows平臺(tái)和DOS平臺(tái)所支持，支持CCITTA

Law和CCITTμ

Law等壓縮算法。每個(gè)VOC文件由文件頭塊（headerblock）和音頻數(shù)據(jù)塊（datablock）組成。文件頭包含一個(gè)標(biāo)識(shí)版本號(hào)和一個(gè)指向數(shù)據(jù)塊起始的指針。數(shù)據(jù)塊分成各種類型的子塊。如聲音數(shù)據(jù)靜音標(biāo)識(shí)、ASCII碼文件重復(fù)的結(jié)果重復(fù)以及終止標(biāo)志、擴(kuò)展塊等。MPEG音頻文件，擴(kuò)展名為MP1/MP2/MP3。RealAudio文件，其擴(kuò)展名為RA/RM/RAM。RealAudio文件是RealNetworks公司開(kāi)發(fā)的一種新型流式音頻(StreamingAudio)文件格式，它包含在RealNetworks公司所制定的音頻、視頻壓縮規(guī)范RealMedia中。第89頁(yè),共393頁(yè)，2024年2月25日，星期天第三章圖像技術(shù)基礎(chǔ)無(wú)論是電視系統(tǒng)，還是電影，其最終的目的都是為接收者提供視覺(jué)圖像，因此圖像質(zhì)量與人眼的視覺(jué)特性有關(guān)。為了能夠掌握?qǐng)D像通信的基礎(chǔ)理論，因此本章將對(duì)人眼的視覺(jué)特性、圖像的數(shù)字化過(guò)程、電視技術(shù)基礎(chǔ)以及圖像質(zhì)量的評(píng)估等問(wèn)題進(jìn)行詳細(xì)的介紹。第90頁(yè),共393頁(yè)，2024年2月25日，星期天3.1視覺(jué)特性一、視覺(jué)靈敏度人眼對(duì)不同波長(zhǎng)的光所呈現(xiàn)的視覺(jué)感知是不同的，而且因人而異。為了了解人眼的視覺(jué)特性，因此國(guó)際照明委員會(huì)（CIE）特推薦標(biāo)準(zhǔn)視度曲線（人眼視覺(jué)光譜靈敏度曲線），如圖3-1所示。二、光度測(cè)量參數(shù) 當(dāng)描述光源的照明效果時(shí)，由于無(wú)法直接用輻射光功率來(lái)描述，因此實(shí)際中是使用兩套參數(shù)來(lái)分別描述輻射光和照明光。前者與人眼的視覺(jué)特性無(wú)關(guān)，而后者則考慮了人眼的視覺(jué)特性。

1、輻射功率和輻射強(qiáng)度

2、發(fā)光強(qiáng)度、亮度和照度（1）光通量與發(fā)光強(qiáng)度（2）亮度與照度三、彩色視覺(jué)和立體視覺(jué)

1、彩色的概念

在自然界中，當(dāng)陽(yáng)光照射到不同的景物上時(shí)，所呈現(xiàn)的色彩不同，這是因?yàn)椴煌木拔镌谔?yáng)光的照射下，反射（或透射）了可見(jiàn)光譜中的不同成分而吸收了其余部分，從而引起人眼的不同彩色視覺(jué)。第91頁(yè),共393頁(yè)，2024年2月25日，星期天2、彩色視覺(jué) 從視覺(jué)的角度描述彩色的過(guò)程中會(huì)用到亮度、色度和飽和度三個(gè)術(shù)語(yǔ)。亮度表示光的強(qiáng)弱；色度是指彩色的類別，如黃色、綠色、藍(lán)色等；飽和度則代表顏色的深淺程度，如淺紫色、粉紅色。

色調(diào)與飽和度又合稱為色度，可見(jiàn)它既表示彩色光的顏色類別，又表示顏色的深淺程度。盡管不同波長(zhǎng)的光波所呈現(xiàn)的顏色不同，但我們會(huì)經(jīng)常觀察到這樣的現(xiàn)象。由適當(dāng)比例的紅光和綠光混合起來(lái)，可以產(chǎn)生與黃單色光相同的彩色視覺(jué)效果。又如日光也可以由紅、綠、藍(lán)三種不同波長(zhǎng)的單色光以適當(dāng)?shù)谋壤M合而成。實(shí)際上自然界中的任何一種顏色都能由這三種單色光混合而成，因而人們稱紅、綠、藍(lán)為三基色。經(jīng)過(guò)大量的驗(yàn)證測(cè)試，人們認(rèn)識(shí)到視網(wǎng)膜上有三種類型的錐狀細(xì)胞，它們各自的光譜靈敏度曲線，如圖3-3所示。3、立體視覺(jué) 立體視覺(jué)一般分為雙眼視覺(jué)和單眼視覺(jué)。四、人眼的分辨力與空間頻率人眼的分辨景物細(xì)節(jié)的能力是有限的。人們通常稱這種分辨景物細(xì)節(jié)的能力為人眼的分辨力。第92頁(yè),共393頁(yè)，2024年2月25日，星期天

經(jīng)過(guò)長(zhǎng)期的研究發(fā)現(xiàn)，將人眼等效為一個(gè)空間頻率濾波器，這樣在考慮到分辨力與照度、對(duì)比度和噪音等方面影響的同時(shí)，便可以利用濾波器的頻率特性來(lái)表示人眼的分辨力。可見(jiàn)空間頻率的概念在圖像技術(shù)中具有很重要的地位。1、空間頻率時(shí)間頻率是用單位時(shí)間內(nèi)的某物理量（如電壓、電流）周期性變化的次數(shù)來(lái)定義的，單位為周/秒，其自變量為時(shí)間。而空間頻率則是某物理量（如亮度、發(fā)光強(qiáng)度）在單位空間距離內(nèi)周期性變化的次數(shù)，單位為周/米。2、人眼的空間頻率響應(yīng) 實(shí)驗(yàn)研究發(fā)現(xiàn)，人眼對(duì)不同空間細(xì)節(jié)的分辨力是變化的，可用視覺(jué)空間頻率響應(yīng)曲線表示，如圖3-4所示。圖中橫坐標(biāo)為空間頻率，即單位視角（1°）內(nèi)所含黑白條數(shù)，而縱坐標(biāo)則表示空間頻率的傳輸特性（MTF）。從圖中可以看出，人眼對(duì)彩色細(xì)節(jié)的分辨能力遠(yuǎn)比對(duì)亮度細(xì)節(jié)的分辨能力低。例如原有黑白相同的條紋，當(dāng)它們距人眼一定距離時(shí)，仍能分辨出其黑白間的差別，但如果仍保持其條紋間的距離，只是將黑白條紋換成彩色條紋，此時(shí)便無(wú)法做出分辨。據(jù)資料顯示，人眼分辨景物彩色細(xì)節(jié)的能力很差。因此彩色電視系統(tǒng)在傳輸彩色圖像時(shí)，細(xì)節(jié)部分可以不傳送彩色信息，而只傳送黑白信息，以此來(lái)節(jié)約傳輸頻帶資源。第93頁(yè),共393頁(yè)，2024年2月25日，星期天三種錐狀細(xì)胞的光譜靈敏度曲線第94頁(yè),共393頁(yè)，2024年2月25日，星期天色調(diào)和飽和度分辨閾與波長(zhǎng)的關(guān)系第95頁(yè),共393頁(yè)，2024年2月25日，星期天五、人眼的對(duì)比度特性

1、圖像的對(duì)比度與灰度對(duì)比度是指景物或重現(xiàn)圖像的最大亮度Lmax與最小亮度Lmin之比，用符號(hào)C表示，即（3-1）而畫面的最大亮度與最小亮度之間所能分辨的亮度感覺(jué)級(jí)數(shù)稱為亮度層次，也稱為灰度。由于人眼的亮度感覺(jué)是相對(duì)的，即同一亮度在不同的環(huán)境亮度下給人的亮度感覺(jué)是不同的，因此當(dāng)人們看電視時(shí)，在考慮到環(huán)境亮度后，電視圖像的對(duì)比度為（3-2）其中為環(huán)境亮度。第96頁(yè),共393頁(yè)，2024年2月25日，星期天

2、人眼的對(duì)比度靈敏度特性

（1）亮度感覺(jué) 在定義亮度時(shí)雖然考慮了人眼的光譜靈敏度，但實(shí)際觀察景物時(shí)所獲得的亮度感覺(jué)，并不僅由景物的亮度決定，而且與其所處的周圍環(huán)境亮度有關(guān)。亮度感覺(jué)是指能分辨出不同的亮度層次。

（2）人眼視覺(jué)的對(duì)比度靈敏度人眼區(qū)分某一給定空間頻率的正弦光柵（如圖3-6所示）明暗差別所需的最低對(duì)比度，稱為分辨這一空間頻率的臨界對(duì)比度，用Cr表示。臨界對(duì)比度的倒數(shù)1/Cr被稱為人眼對(duì)于這一空間頻率對(duì)比度靈敏度。由以上定義可知，臨界對(duì)比度表示人眼在給定的亮度環(huán)境下所能區(qū)分景物的最小亮度差別，通常稱這一最小亮度差別為一個(gè)亮度級(jí)（或灰度級(jí)）。第97頁(yè),共393頁(yè)，2024年2月25日，星期天圖3-6定義臨界對(duì)比度的正弦光柵第98頁(yè),共393頁(yè)，2024年2月25日，星期天六、視覺(jué)惰性與閃爍的概念

1、視覺(jué)惰性當(dāng)一個(gè)景物突然出現(xiàn)在眼前時(shí)，需經(jīng)過(guò)一定的時(shí)間才能形成一個(gè)穩(wěn)定的主觀亮度感覺(jué)；同樣當(dāng)一個(gè)實(shí)際景物從眼前消失后，所看到的印象都不會(huì)立即消失，還會(huì)暫留一段時(shí)間，由此可見(jiàn)人眼亮度感覺(jué)的建立與消失都滯后于實(shí)際的光刺激，而且此過(guò)程是逐步的，這種現(xiàn)象就是視覺(jué)惰性。

2、閃爍如果觀察者觀察到一個(gè)具有周期性的光脈沖，當(dāng)其重復(fù)頻率不夠高時(shí)，便會(huì)產(chǎn)生一明一暗的感覺(jué)，這種感覺(jué)就是閃爍，但當(dāng)重復(fù)頻率足夠高時(shí)，閃爍感覺(jué)將消失，隨之看到的是一個(gè)恒定的亮點(diǎn)。臨界閃爍頻率就是指閃爍感覺(jué)剛剛消失時(shí)的頻率。它與脈沖亮度有關(guān)，脈沖的亮度越高，臨界閃爍頻率也相應(yīng)地增高。第99頁(yè),共393頁(yè)，2024年2月25日，星期天3.2圖像質(zhì)量的評(píng)價(jià)圖像質(zhì)量的評(píng)價(jià)方法有兩種，即主觀評(píng)價(jià)和客觀評(píng)價(jià)。第100頁(yè),共393頁(yè)，2024年2月25日，星期天3.3圖像信號(hào)數(shù)字化3.3.1圖像信號(hào)的表述圖像信號(hào)的時(shí)域分析由于人眼所感覺(jué)的景物是連續(xù)的，所形成的圖像為連續(xù)圖像，而連續(xù)圖像信號(hào)是無(wú)法直接在數(shù)字系統(tǒng)中實(shí)現(xiàn)傳輸或存儲(chǔ)的，因此需要將連續(xù)圖像信號(hào)轉(zhuǎn)化為離散數(shù)字信號(hào)。通常我們稱此過(guò)程為圖像信號(hào)的數(shù)字化，主要包括三大部分，即取樣、量化和編碼。取樣又稱為抽樣，它是指圖像信號(hào)空間離散化的過(guò)程。這時(shí)所選取的點(diǎn)就是取樣點(diǎn)、抽樣點(diǎn)或樣點(diǎn)，也被稱為像素。由此可見(jiàn)，一幅圖像是由許多大小有限的像素組成，而且每個(gè)像素既是時(shí)間、空間的函數(shù)，同時(shí)又有其光學(xué)特性，因此圖像中的任何一個(gè)像素P通常可用8個(gè)物理量表示，即（3-2）

其中（x,y,z）表示像素的空間變量，L,H,S分別代表像素的亮度、色調(diào)和飽和度，R則表示圖像的分辨率（即每一個(gè)像素面積在圖像總面積中的比例，t是該像素產(chǎn)生上述物理量的時(shí)間。第101頁(yè),共393頁(yè)，2024年2月25日，星期天圖像信號(hào)的頻譜圖像通信系統(tǒng)是一個(gè)二維信息系統(tǒng)，因此可以進(jìn)行類似的定義，二維函數(shù)f（x,y）與其頻譜

F(μ,ν)的關(guān)系：

（3-5）

(3-6)

據(jù)分析顯示，圖像中景物的復(fù)雜程度是有限的。通常其中的大部分區(qū)域內(nèi)的內(nèi)容變化不大，而且人眼對(duì)空間頻率上的復(fù)雜程度（頻率）的分辨能力有一定的局限性，因而從頻率域上來(lái)觀察圖像時(shí)，大多數(shù)情況下其頻譜多局限在一定的范圍之內(nèi)，如圖3-7所示，其中錐形區(qū)域代表二維圖像信號(hào)f(x,y)在頻率域上的有效成分，Um,Vm分別代表水平和垂直方向上的最大空間頻率，可見(jiàn)F(μ,ν)所表示的是二維圖像信號(hào)與空間頻率之間的關(guān)系，這種關(guān)系對(duì)圖像的數(shù)字化以及數(shù)字處理具有非常重要的意義。第102頁(yè),共393頁(yè)，2024年2月25日，星期天3.3.2取樣和二維取樣定理對(duì)于一個(gè)圖像信號(hào)每隔一定的距離抽取一個(gè)樣值，然后進(jìn)行樣值量化、編碼和傳輸。二維取樣定理從圖3-7中可以看出，一個(gè)模擬信號(hào)f（x,y）的傅氏頻譜為F(μ,ν),如果其水平方向的截止頻率為Um,而垂直方向的截止頻率為Vm，那么只要水平和垂直方向的取樣頻率分別為U0≥2Um和V0≥2Vm（水平間隔Δx≤1/(2Um),垂直間隔Δy≤1/(2Vm),就可以精確地恢復(fù)出原圖像，這就是二維取樣定理。

=（3-11）可見(jiàn)，。如果圖像信號(hào)為有限帶寬的信號(hào)，那么根據(jù)上式可以看出，抽樣后的圖像信號(hào)fp(x,y)的頻譜是原頻譜F(μ,ν)沿μ軸和ν軸分別以，為間隔無(wú)限地周期重復(fù)的結(jié)果，如圖3-7（c）所示。第103頁(yè),共393頁(yè)，2024年2月25日，星期天圖3-7取樣圖像的頻譜第104頁(yè),共393頁(yè)，2024年2月25日，星期天

從圖中可以看出

人人文庫(kù)> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

多媒體通信技術(shù)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

多媒體通信技術(shù)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔