多媒體通信技術(shù)_第1頁(yè)
多媒體通信技術(shù)_第2頁(yè)
多媒體通信技術(shù)_第3頁(yè)
多媒體通信技術(shù)_第4頁(yè)
多媒體通信技術(shù)_第5頁(yè)
已閱讀5頁(yè),還剩388頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

關(guān)于多媒體通信技術(shù)第一章多媒體通信技術(shù)概述第二章音頻技術(shù)基礎(chǔ)第三章圖像技術(shù)基礎(chǔ)第四章視頻信息壓縮與處理第五章多媒體通信系統(tǒng)中的關(guān)鍵技術(shù)第六章多媒體通信網(wǎng)絡(luò)技術(shù)第七章多媒體數(shù)據(jù)的分布式處理第八章多媒體通信應(yīng)用系統(tǒng)本書章節(jié)第2頁(yè),共393頁(yè),2024年2月25日,星期天第一章多媒體通信技術(shù)概述多媒體技術(shù)的概念多媒體通信系統(tǒng)的概念及主要特征多媒體通信中的關(guān)鍵技術(shù)多媒體通信的應(yīng)用多媒體通信技術(shù)的發(fā)展趨勢(shì)第3頁(yè),共393頁(yè),2024年2月25日,星期天1.1多媒體通信的基本概念1.媒體

“媒體”是指信息傳遞和存儲(chǔ)的最基本的技術(shù)和手段,即信息的載體。媒體可劃分為5大類:

(1)感覺(jué)媒體(perceptionmedium)

感覺(jué)媒體是指人類通過(guò)其感覺(jué)器官,如聽(tīng)覺(jué)、視覺(jué)、嗅覺(jué)、味覺(jué)和觸覺(jué)器官等直接產(chǎn)生感覺(jué)(感知信息內(nèi)容)的一類媒體,包括:聲音、文字、圖像、氣味、冷熱等。

(2)表示媒體(representationmedium)

表示媒體是指用于數(shù)據(jù)交換的編碼表示,包括:圖像編碼、文本編碼、聲音編碼等。其目的是為了能有效地加工、處理、存儲(chǔ)和傳輸感覺(jué)媒體。

(3)顯示媒體(presentationmedium)

顯示媒體是指進(jìn)行信息輸入和輸出的媒體。輸入媒體包括:鏈盤、鼠標(biāo)、攝像頭、話筒、掃描儀、觸摸屏等,輸出媒體包括:顯示屏、打印機(jī)、揚(yáng)聲器等。

第4頁(yè),共393頁(yè),2024年2月25日,星期天

(4)

存儲(chǔ)媒體(storagemedium)

存儲(chǔ)媒體是指進(jìn)行信息存儲(chǔ)的媒體。包括:硬盤、光盤、軟盤、磁帶、ROM、RAM等。

(5)傳輸媒體(transmissionmedium)

傳輸媒體是指承載信息,將信息進(jìn)行傳輸?shù)拿襟w。包括:雙絞線、同軸電纜、光纜、無(wú)線電鏈路等。 在多媒體技術(shù)中的“多媒體”通常是指感覺(jué)媒體的組合,即聲音、文字、圖像、數(shù)據(jù)等各種媒體的組合。

2.多媒體(Multimedia)

“多媒體技術(shù)”的定義:所謂多媒體技術(shù)就是計(jì)算機(jī)交互式綜合處理多媒體媒體信息——文本、圖形、圖像和聲音,使多種信息建立邏輯連接,集成為一個(gè)系統(tǒng)并具有交互性。簡(jiǎn)而言之,多媒體技術(shù)就是計(jì)算機(jī)綜合處理聲、文、圖信息的技術(shù),具有集成性、實(shí)時(shí)性和交互性的特點(diǎn)。第5頁(yè),共393頁(yè),2024年2月25日,星期天

多媒體技術(shù)最簡(jiǎn)單的表現(xiàn)形式就是多媒體計(jì)算機(jī)。多媒體計(jì)算機(jī)相對(duì)于普通計(jì)算機(jī)的一個(gè)根本不同點(diǎn)在于在多媒體計(jì)算機(jī)中增加了對(duì)活動(dòng)圖像(包括伴音在內(nèi))的處理、存儲(chǔ)和顯示的能力,其硬件配以聲卡、視頻采集卡等。其主要特征體現(xiàn)在它能夠有效地對(duì)電視圖像數(shù)據(jù)進(jìn)行實(shí)時(shí)的壓縮和解壓縮,并能夠使在時(shí)間上有相關(guān)性的多種媒體保持同步。

3.多媒體通信

多媒體通信技術(shù)是多媒體技術(shù)、計(jì)算機(jī)技術(shù)、通信技術(shù)和網(wǎng)絡(luò)技術(shù)等相互結(jié)合和發(fā)展的產(chǎn)物。 多媒體通信系統(tǒng)同時(shí)具有以下三個(gè)特征:集成性交互性同步性第6頁(yè),共393頁(yè),2024年2月25日,星期天集成性:主要是對(duì)各類信息進(jìn)行存儲(chǔ)、傳輸、處理、顯現(xiàn)的能力。

1)內(nèi)容數(shù)據(jù)信息:文本、圖形、靜止圖像與二值圖像、聲音、運(yùn)動(dòng)圖像。

2)多媒體和超媒體信息:是結(jié)構(gòu)化信息,由結(jié)構(gòu)框架+內(nèi)容數(shù)據(jù)組成。

3)腳本信息

4)特定的應(yīng)用信息第7頁(yè),共393頁(yè),2024年2月25日,星期天交互性:指的是在通信中使用者與系統(tǒng)之間的相互溝通的特性,它使用戶可以更有效地控制和使用信息,增加對(duì)信息的注釋和理解。

交互性有兩個(gè)方面的內(nèi)容:人機(jī)接口:也就是人在使用系統(tǒng)的終端時(shí),系統(tǒng)向用戶提供的操作界面。通信協(xié)議:用戶終端與系統(tǒng)之間的應(yīng)用層通信協(xié)議。第8頁(yè),共393頁(yè),2024年2月25日,星期天同步性:多媒體通信終端上顯現(xiàn)的圖象、聲音和文字等信息是以同步方式工作。檢索“劉謙春晚”,顯示多媒體信息,各信息同步顯示。第9頁(yè),共393頁(yè),2024年2月25日,星期天1.多媒體數(shù)據(jù)壓縮技術(shù)

數(shù)據(jù)壓縮的必要性和可能性。1.2多媒體通信中的關(guān)鍵技術(shù)第10頁(yè),共393頁(yè),2024年2月25日,星期天多媒體信息的特點(diǎn)1.多媒體信息的類型

文本、圖形、圖像、動(dòng)畫、聲音、視頻2.常用多媒體處理軟件

CorelDrawIllustrator圖形類圖像類photoshopACDSee

第11頁(yè),共393頁(yè),2024年2月25日,星期天多媒體信息的特點(diǎn)

動(dòng)畫類·二維動(dòng)畫FlashANIMO·三維動(dòng)畫3dsmaxmayaCooleditproVEGAS聲音類影視編輯類交互演示類AuthorwaredirectorflashPremiereaftereffect編程類VbVCDelphiJava第12頁(yè),共393頁(yè),2024年2月25日,星期天3.多媒體信息的特點(diǎn)多媒體數(shù)據(jù)類型復(fù)雜(多樣性)

多媒體數(shù)據(jù)種類繁多也決定了多媒體數(shù)據(jù)表示的復(fù)雜性多媒體數(shù)據(jù)的實(shí)時(shí)性由于在多媒體技術(shù)中新引入的復(fù)雜媒體類型大部份都含有與時(shí)間有關(guān)的信息,因此在許多場(chǎng)合都要求實(shí)時(shí)處理第13頁(yè),共393頁(yè),2024年2月25日,星期天3.多媒體信息的特點(diǎn)多媒體數(shù)據(jù)的同步性另一由于引入與時(shí)間有關(guān)的媒體而形成的重要特點(diǎn)數(shù)據(jù)量大多媒體系統(tǒng)需要大量的存儲(chǔ)空間來(lái)存放復(fù)雜類型的數(shù)據(jù)多媒體數(shù)據(jù)的交互性碼率可變、突發(fā)性強(qiáng)人們講話時(shí)的停頓、所傳場(chǎng)景圖像中物體的運(yùn)動(dòng)等都會(huì)形成碼流速率的波動(dòng),而且這種波動(dòng)往往呈現(xiàn)出極強(qiáng)的突發(fā)性。第14頁(yè),共393頁(yè),2024年2月25日,星期天信息壓縮的必要性由于多媒體數(shù)據(jù)量非常大,造成計(jì)算機(jī)的存儲(chǔ)和網(wǎng)絡(luò)傳輸負(fù)擔(dān)若幀速率為25幀/秒,則1s的數(shù)據(jù)量大約為25MB,一個(gè)640MB的光盤只能存放大約25s的動(dòng)態(tài)圖像一幅640×480分辨率的24位真彩色圖像的數(shù)據(jù)量約為900KB;一個(gè)100MB的硬盤只能存儲(chǔ)約100幅靜止圖像畫面解決辦法之一就是進(jìn)行數(shù)據(jù)壓縮,壓縮后再進(jìn)行存儲(chǔ)和傳輸,到需要時(shí)再解壓、還原。第15頁(yè),共393頁(yè),2024年2月25日,星期天表1各種信號(hào)的特性和未壓縮速率第16頁(yè),共393頁(yè),2024年2月25日,星期天信息壓縮的必要性

從上圖可以看出:未進(jìn)行任何形式編碼和壓縮的窄帶語(yǔ)音信號(hào)需要128kb/s的速率,即兩倍于普通電話的速率。信號(hào)未被壓縮的寬帶話音需要256kb/s的速率,未壓縮的雙聲道立體聲CD音頻需要1.41Mb/s的速率。在保持原始信號(hào)質(zhì)量的前提下,窄帶語(yǔ)音可以壓縮到4kb/s(30∶1的壓縮比),寬帶話音可以壓縮到約16kb/s(15∶1的壓縮比),CD音頻可以壓縮到64kb/s(22∶1的壓縮比)。顯然,多媒體信號(hào)在進(jìn)行有效的存儲(chǔ)和傳輸之前,必須進(jìn)行處理,而最關(guān)鍵的處理方法是進(jìn)行數(shù)據(jù)壓縮。第17頁(yè),共393頁(yè),2024年2月25日,星期天信息壓縮的可行性

研究表明,一個(gè)文件所包含的數(shù)據(jù)量并不等于它所包含的信息量,數(shù)據(jù)中通常包含很大的冗余,其關(guān)系如:

D=I+r

其中D為數(shù)據(jù)量,I為信息量,r為冗余量。壓縮:在多媒體信息中包含大量冗余的信息,把這些冗余的信息去掉的過(guò)程。

第18頁(yè),共393頁(yè),2024年2月25日,星期天信息壓縮的可行性音頻、圖像和視頻數(shù)據(jù)中存在的冗余主要有以下幾種:(1)空間冗余圖象本身的數(shù)據(jù)冗余在任何一幅圖像中,均有許多灰度或顏色都相同的鄰近像素組成的局部區(qū)域,它們形成了一個(gè)性質(zhì)相同的集合塊,即它們之間具有空間(或空域)上的強(qiáng)相關(guān)性,在圖像中就表現(xiàn)為空間冗余??臻g冗余的壓縮方法:把這種局部區(qū)域集合塊當(dāng)作一個(gè)整體,用極少的數(shù)據(jù)量來(lái)表示,從而節(jié)省存儲(chǔ)空間。這種壓縮方法叫空間壓縮或幀內(nèi)壓縮,它的基本點(diǎn)就在于減少鄰近像素之間的空間(或空域)相關(guān)性。第19頁(yè),共393頁(yè),2024年2月25日,星期天信息壓縮的可行性該圖為一張俯視圖,圖中央的黑色是一塊表面均勻的積木塊,在圖中,黑色區(qū)域所有點(diǎn)的表示數(shù)據(jù)差不多都是相同的,因而黑色區(qū)域的數(shù)據(jù)表達(dá)有很大的冗余。第20頁(yè),共393頁(yè),2024年2月25日,星期天信息壓縮的可行性(2)時(shí)間冗余序列圖像和語(yǔ)音數(shù)據(jù)中包含的冗余?;顒?dòng)圖像(視頻)中的兩幅相鄰圖像之間存在的相關(guān)性或一段時(shí)間內(nèi)連續(xù)音頻存在的相關(guān)性。第21頁(yè),共393頁(yè),2024年2月25日,星期天信息壓縮的可行性(3)信息熵冗余信息熵冗余也稱為編碼冗余,它是指一塊數(shù)據(jù)所攜帶的信息量少于數(shù)據(jù)本身所產(chǎn)生的冗余。例如,利用等長(zhǎng)碼表示信息就比不等長(zhǎng)碼如Huffman編碼表示信息量存在冗余。(4)結(jié)構(gòu)冗余指圖象各部分結(jié)構(gòu)上的類似性所產(chǎn)生的冗余,例如物體表面圖象上的紋理結(jié)構(gòu)。第22頁(yè),共393頁(yè),2024年2月25日,星期天信息壓縮的可行性(5)知識(shí)冗余指某些圖象的結(jié)構(gòu)可由這些圖象的先驗(yàn)知識(shí)和背景知識(shí)獲得。例:汽車圖象的結(jié)構(gòu)可由汽車的先驗(yàn)知識(shí)和背景知識(shí)得到。這種冗余稱為知識(shí)冗余。例:人臉的圖像有固定的結(jié)構(gòu),嘴的上方有鼻子,鼻子的上方有眼睛,鼻子位于正臉圖像的中線上等等。這類規(guī)律的結(jié)構(gòu)可由先驗(yàn)知識(shí)和背景知識(shí)得到,因此這類信息對(duì)一般人來(lái)說(shuō)是冗余信息。第23頁(yè),共393頁(yè),2024年2月25日,星期天信息壓縮的可行性(6)視覺(jué)聽(tīng)覺(jué)冗余視覺(jué)聽(tīng)覺(jué)冗余是指人的視覺(jué)、聽(tīng)覺(jué)分辨率低于實(shí)際圖象、音頻的分辨率所產(chǎn)生的冗余。例如,人的視覺(jué)對(duì)灰度等級(jí)的分辨率是2個(gè)等級(jí),而一般圖象量化所采用灰度等級(jí)是2等級(jí)。例如,人的視覺(jué)對(duì)于圖像邊緣的急劇變化不敏感,對(duì)圖像的亮度信息敏感,對(duì)顏色的分辨率較弱等。因此,如果圖像經(jīng)壓縮或量化發(fā)生的變化(或稱引入了噪聲)不能被視覺(jué)所感覺(jué),則認(rèn)為圖像質(zhì)量是完好的或是夠好的,即圖像壓縮并恢復(fù)后仍有滿意的主觀圖像質(zhì)量。(7)其他冗余第24頁(yè),共393頁(yè),2024年2月25日,星期天4.壓縮的種類無(wú)損壓縮也稱為冗余壓縮或無(wú)失真壓縮。冗余壓縮法去掉或者減少了數(shù)據(jù)中的冗余,但這些冗余數(shù)據(jù)是用特定的方法重新插入到數(shù)據(jù)中。冗余壓縮是可逆的,它能保證百分之百地恢復(fù)原始數(shù)據(jù)。在多媒體技術(shù)中,一般用于文本的壓縮。但這種方法壓縮比較低。常用的壓縮編碼方法有LZW編碼、行程編碼、霍夫曼(Huffman)編碼等,壓縮比一般在2:1~5:1之間。第25頁(yè),共393頁(yè),2024年2月25日,星期天有損壓縮也稱為有失真壓縮或熵壓縮法。壓縮了熵,會(huì)減少信息量,而損失的信息量是不能恢復(fù)的,因此這種壓縮方法是不可逆的。這種方法適合對(duì)圖像、聲音、動(dòng)態(tài)視頻等數(shù)據(jù)進(jìn)行壓縮,對(duì)動(dòng)態(tài)視頻的壓縮比可達(dá)到50:1~200:1。當(dāng)然,對(duì)多媒體數(shù)據(jù)進(jìn)行有損壓縮后,就涉及到壓縮質(zhì)量的問(wèn)題,一般的要求是壓縮后的內(nèi)容不應(yīng)該影響人們對(duì)信息的理解。第26頁(yè),共393頁(yè),2024年2月25日,星期天數(shù)據(jù)壓縮的主要指標(biāo)

有較高的壓縮比、壓縮和解壓縮時(shí)間短、解壓縮后信息恢復(fù)質(zhì)量高是評(píng)價(jià)壓縮好壞的主要方面。1.有較高的壓縮比

即壓縮前后的數(shù)據(jù)量之比,如果文件的大小為1MB,經(jīng)過(guò)壓縮處理后變成0.5MB,那么壓縮比為2:1。高的壓縮比是數(shù)據(jù)壓縮的根本目的,無(wú)論從哪個(gè)角度看,在同樣壓縮效果的前提下,數(shù)據(jù)壓縮得越小越好。當(dāng)然還要考慮多媒體數(shù)據(jù)壓縮后的輸入和輸出表示方式。第27頁(yè),共393頁(yè),2024年2月25日,星期天數(shù)據(jù)壓縮的主要指標(biāo)2.解壓縮后信息恢復(fù)質(zhì)量高

對(duì)于文本等文件,特別是是程序文件,是不允許在壓縮和解壓縮過(guò)程中丟失信息的。因此需要采用無(wú)損壓縮,不存在壓縮后恢復(fù)質(zhì)量的問(wèn)題。對(duì)于圖像、聲音和視頻影像,數(shù)據(jù)經(jīng)過(guò)壓縮后允許信息的部分丟失。在這種情況下,信息經(jīng)解壓縮后不可能完全恢復(fù),壓縮和解壓縮質(zhì)量就不能不考慮。因此,是否具有好的恢復(fù)質(zhì)量是數(shù)據(jù)壓縮的另一個(gè)重要指標(biāo)。第28頁(yè),共393頁(yè),2024年2月25日,星期天表2圖像主觀評(píng)價(jià)性能表

主觀評(píng)價(jià)分

質(zhì)量尺度

妨礙觀看尺度5

非常好

絲毫看不出圖像質(zhì)量變壞4

能看出圖像質(zhì)量變化,但不妨礙觀看3

一般

清楚地看出圖像質(zhì)量變壞,對(duì)觀看稍有妨礙2

對(duì)觀看有妨礙1

非常差

非常嚴(yán)重地妨礙觀看第29頁(yè),共393頁(yè),2024年2月25日,星期天數(shù)據(jù)壓縮的主要指標(biāo)3.壓縮和解壓縮時(shí)間短

數(shù)據(jù)的壓縮和解壓縮是在一定數(shù)學(xué)模型的基礎(chǔ)上,通過(guò)一系列數(shù)學(xué)運(yùn)算實(shí)現(xiàn)的。計(jì)算方法的好壞直接關(guān)系到壓縮和解壓縮過(guò)程所需要的時(shí)間。第30頁(yè),共393頁(yè),2024年2月25日,星期天數(shù)據(jù)壓縮的主要指標(biāo)

有較高的壓縮比、壓縮和解壓縮時(shí)間短、解壓縮后信息恢復(fù)質(zhì)量高是評(píng)價(jià)壓縮好壞的主要方面。1.有較高的壓縮比

即壓縮前后的數(shù)據(jù)量之比,如果文件的大小為1MB,經(jīng)過(guò)壓縮處理后變成0.5MB,那么壓縮比為2:1。高的壓縮比是數(shù)據(jù)壓縮的根本目的,無(wú)論從哪個(gè)角度看,在同樣壓縮效果的前提下,數(shù)據(jù)壓縮得越小越好。當(dāng)然還要考慮多媒體數(shù)據(jù)壓縮后的輸入和輸出表示方式。第31頁(yè),共393頁(yè),2024年2月25日,星期天1.2多媒體通信中的關(guān)鍵技術(shù)視頻壓縮

從圖像壓縮編碼的發(fā)展過(guò)程看,可以分為三個(gè)階段,即第一代、第二代、第三代圖像壓縮編碼方法。 第一代圖像壓縮編碼方法以仙農(nóng)信息論為基礎(chǔ),考慮圖像信源的統(tǒng)計(jì)特性,采用預(yù)測(cè)編碼、變換編碼、矢量量化編碼、子帶編碼、小波變換編碼、神經(jīng)網(wǎng)絡(luò)編碼等方法。第一代圖像壓縮編碼方法于80年代初已趨于成熟,目前利用第一代技術(shù)對(duì)視頻圖像的壓縮可以得到8~48Kb/s的最低碼率。第二代圖像壓縮編碼方法充分考慮了人眼的視覺(jué)特性,從人類的主觀特性出發(fā),采用基于方向?yàn)V波的圖像編碼方法和基于圖像輪廓-紋理的編碼方法,利用第二代圖像壓縮編碼方法可以獲得極低碼率的圖像數(shù)據(jù),目前第二代技術(shù)尚未發(fā)展到成熟的階段。第三代圖像壓縮編碼方法考慮到了圖像傳遞的景物特征,采用分形編碼方法和基于模型的編碼方法,其中基于模型的壓縮編碼方法是目前最活躍的研究領(lǐng)域,代表著新一代的壓縮編碼方向。

第32頁(yè),共393頁(yè),2024年2月25日,星期天

有關(guān)圖像壓縮編碼的國(guó)際標(biāo)準(zhǔn)主要有:JPEG、H.261、H.263、MPEG-1、MPEG-2/H.262、MPEG-4等。MPEG-7和MPEG-21是MPEG系列標(biāo)準(zhǔn)中的新成員,MPEG-7的正式名稱為“多媒體內(nèi)容描述接口”,用于描述多媒體內(nèi)容數(shù)據(jù)。MPEG-21即“多媒體框架”,這一概念是在1999年10月的MPEG會(huì)議上提出的,它是一種用于協(xié)調(diào)處于不同地點(diǎn)、與不同類型的網(wǎng)絡(luò)相聯(lián)接的各種設(shè)備間進(jìn)行多媒體信息交互的綜合性標(biāo)準(zhǔn)。音頻壓縮基本上與圖像壓縮編碼技術(shù)相同,不同之處在于圖像信號(hào)是二維信號(hào),而音頻信號(hào)是一維信號(hào)。相比較而言,其數(shù)據(jù)壓縮難度較低。涉及的聲音壓縮編碼的國(guó)際標(biāo)準(zhǔn)主要有:G.711、G.721、G.722、G.728、G.729、G.723.1等。第33頁(yè),共393頁(yè),2024年2月25日,星期天2.多媒體數(shù)據(jù)的獲取與顯示技術(shù) 多媒體數(shù)據(jù)的獲取與顯示主要指人機(jī)交互的界面,它介于用戶和計(jì)算機(jī)系統(tǒng)之間。用戶通過(guò)人機(jī)界面向系統(tǒng)提供命令、數(shù)據(jù)等輸入信息,系統(tǒng)則將輸出信息通過(guò)人機(jī)界面呈現(xiàn)給用戶。

字符界面,輸入工具是鍵盤

圖形化界面,輸入工具是鼠標(biāo)、跟蹤球、電子筆、觸摸屏、攝像頭和視音頻采集卡等;輸出手段可采用聲音、圖形圖像以及活動(dòng)視頻作為信息的顯示形式。文字識(shí)別技術(shù)語(yǔ)音識(shí)別技術(shù)第34頁(yè),共393頁(yè),2024年2月25日,星期天

3.多媒體數(shù)據(jù)庫(kù)及其檢索技術(shù)

傳統(tǒng)的數(shù)據(jù)庫(kù)管理系統(tǒng)管理多媒體數(shù)據(jù)的方法的局限性,集中表現(xiàn)在以下三個(gè)方面。第一,多媒體數(shù)據(jù)所包含的信息量非常大,用人工注釋難以準(zhǔn)確描述;第二,多媒體數(shù)據(jù)隨時(shí)變化,因而難以統(tǒng)計(jì)及預(yù)測(cè);第三,多媒體數(shù)據(jù)內(nèi)部有各種復(fù)雜的時(shí)域、空域以及基于內(nèi)容的約束關(guān)系,傳統(tǒng)的數(shù)據(jù)庫(kù)系統(tǒng)未曾涉及到這些方面。由此開(kāi)發(fā)出新的多媒體數(shù)據(jù)庫(kù)系統(tǒng),同時(shí)基于內(nèi)容的多媒體信息檢索研究方案也應(yīng)運(yùn)而生。第35頁(yè),共393頁(yè),2024年2月25日,星期天

多媒體數(shù)據(jù)的內(nèi)容包括概念級(jí)內(nèi)容、感知特性(例如圖像的顏色、紋理,聲音的音色、音質(zhì)等)、邏輯關(guān)系(例如音視頻對(duì)象的時(shí)空關(guān)系等)、信號(hào)特征(通過(guò)信號(hào)處理方法例如小波變換獲得的媒體特征)、特定領(lǐng)域的特征(與應(yīng)用相關(guān),例如人的面部特征、指紋特征)等。4.多媒體通信網(wǎng)絡(luò)技術(shù)

隨著視頻會(huì)議、視頻點(diǎn)播、遠(yuǎn)程教育等多媒體網(wǎng)絡(luò)應(yīng)用的開(kāi)展,能夠滿足多媒體應(yīng)用需要的通信網(wǎng)絡(luò)必須具有高帶寬、可提供服務(wù)質(zhì)量的保證、實(shí)現(xiàn)媒體同步等特點(diǎn)。

第36頁(yè),共393頁(yè),2024年2月25日,星期天

目前的多媒體網(wǎng)絡(luò)應(yīng)用主要涉及到網(wǎng)絡(luò)傳輸、服務(wù)質(zhì)量、服務(wù)模式等方面的技術(shù)。因?yàn)閭鹘y(tǒng)的基于分組交換的IP網(wǎng)絡(luò)只提供盡力而為型的服務(wù),要在IP網(wǎng)上得到QoS的保證需要額外的協(xié)議或標(biāo)準(zhǔn),目前有綜合服務(wù)模型(IntServ)/RSVP、區(qū)分服務(wù)模型(DiffServ)、多協(xié)議標(biāo)簽交換MPLS等,而IETF新公布的IPv6協(xié)議則在一定程度上滿足了QoS的服務(wù)質(zhì)量要求。對(duì)于電路交換網(wǎng),則通過(guò)已有的ITU-TH.32X和T.120等相關(guān)的系列標(biāo)準(zhǔn)來(lái)獲得有保證的服務(wù)質(zhì)量。而ATM網(wǎng)從協(xié)議本身就考慮了對(duì)多媒體應(yīng)用的支持,可以為多媒體應(yīng)用預(yù)留資源。 多媒體應(yīng)用還需要組播服務(wù),其發(fā)展是多媒體應(yīng)用的趨勢(shì)。目前,應(yīng)用在傳統(tǒng)IP分組網(wǎng)上的組播技術(shù)正在得到進(jìn)一步的研究和推廣,相關(guān)的協(xié)議有因特網(wǎng)組管理協(xié)議IGMP(InternetGroupManagementProtocol),組播路由協(xié)議DVMRP、MOSPF、PIM和CBT等。ATM網(wǎng)的組播技術(shù)也是研究的一個(gè)重要內(nèi)容,其信令控制已經(jīng)可以采用組播技術(shù),但是數(shù)據(jù)分發(fā)的組播技術(shù)還沒(méi)有成熟。 以軟交換為核心的NGN網(wǎng)絡(luò)為多媒體通信開(kāi)辟了更廣闊的天地。第37頁(yè),共393頁(yè),2024年2月25日,星期天5.多媒體信息存儲(chǔ)技術(shù)

既要保證存儲(chǔ)設(shè)備的存儲(chǔ)容量足夠大,還要保證存儲(chǔ)設(shè)備的速度要足夠快,帶寬要足夠?qū)?。滿足上述要求的存儲(chǔ)設(shè)備有多種,包括硬盤、光盤、磁帶、冗余磁盤陣列和存儲(chǔ)區(qū)域網(wǎng)絡(luò)等。6.多媒體數(shù)據(jù)的分布式處理技術(shù)

用于分布式多媒體系統(tǒng)的業(yè)務(wù)多種多樣,不同業(yè)務(wù)所用的多媒體終端也各不相同。目前常用的多媒體終端有多媒體計(jì)算機(jī)終端以及針對(duì)某種特定應(yīng)用的專用設(shè)備,如機(jī)頂盒、可視電話終端設(shè)備等。終端的軟件平臺(tái)則包括系統(tǒng)軟件以及各種應(yīng)用軟件,其中操作系統(tǒng)是軟件的核心。多媒體操作系統(tǒng)有Apple公司的QuickTime、微軟公司的WindowsXP等。微軟公司于2004年推出的WindowsXPMediaCenterEdition2004操作系統(tǒng)是專為多媒體個(gè)人電腦設(shè)計(jì)的。流媒體技術(shù)也是一種分布式多媒體技術(shù),它主要解決了在多媒體數(shù)據(jù)流傳輸過(guò)程中所占帶寬寬,用戶下載數(shù)據(jù)等待時(shí)間長(zhǎng)的問(wèn)題。第38頁(yè),共393頁(yè),2024年2月25日,星期天1.3多媒體通信的應(yīng)用

多媒體通信系統(tǒng)的應(yīng)用非常廣泛,可以提供VOD視頻點(diǎn)播,遠(yuǎn)程教學(xué)、遠(yuǎn)程辦公、遠(yuǎn)程醫(yī)療、多媒體電子郵件、可視電話、桌面視頻會(huì)議,數(shù)字圖書館、電子百科書等多種多樣的業(yè)務(wù)。第39頁(yè),共393頁(yè),2024年2月25日,星期天

多媒體通信的體系結(jié)構(gòu)

傳輸網(wǎng)絡(luò):它是體系結(jié)構(gòu)的最低層,它為多媒體通信的實(shí)現(xiàn)提供了最基本的物理環(huán)境。網(wǎng)絡(luò)服務(wù)平臺(tái):該層主要提供各類網(wǎng)絡(luò)服務(wù),是用戶能直接使用這些服務(wù)內(nèi)容,而無(wú)需知道底層傳輸網(wǎng)絡(luò)是怎么提供這些服務(wù)的,即網(wǎng)絡(luò)服務(wù)平臺(tái)的創(chuàng)建使傳輸網(wǎng)絡(luò)對(duì)用戶來(lái)說(shuō)是透明的。多媒體通信平臺(tái):該層主要提供其通信支援(如多媒體信息處理),并支持各類多媒體的應(yīng)用。一般應(yīng)用:指人們常見(jiàn)的一些多媒體應(yīng)用。如多媒體文本檢索。特殊應(yīng)用:指業(yè)務(wù)性較強(qiáng)的某些多媒體應(yīng)用。如電子郵件。第40頁(yè),共393頁(yè),2024年2月25日,星期天多媒體通信的體系結(jié)構(gòu)

第41頁(yè),共393頁(yè),2024年2月25日,星期天作業(yè)1、什么是媒體?根據(jù)原CCITT的定義,媒體可劃分為哪幾大類?它們是如何描述的?2、多媒體通信系統(tǒng)如何構(gòu)成的?簡(jiǎn)述其主要特征。3、試舉出一兩種多媒體通信系統(tǒng)的具體應(yīng)用,并從中分析多媒體通信技術(shù)對(duì)人類社會(huì)的影響。第42頁(yè),共393頁(yè),2024年2月25日,星期天第二章音頻技術(shù)基礎(chǔ)

音頻信息涉及人耳所能聽(tīng)到的聲音信息,包括語(yǔ)聲和樂(lè)聲。據(jù)統(tǒng)計(jì),人類從外界獲得的信息大約有16%是從耳朵得到的,由此可見(jiàn)音頻信息在人類獲得信息方面的重要性。第43頁(yè),共393頁(yè),2024年2月25日,星期天2.1聲學(xué)基礎(chǔ)知識(shí)2.1.1音頻信號(hào)特性

頻域特性是指的聲音信號(hào)是由很多的正弦分量組成的。 從頻譜分析來(lái)看,大多數(shù)聲音都是由線狀譜和連續(xù)譜組成的。從幅度來(lái)看,連續(xù)譜相比于線狀譜來(lái)說(shuō)比較弱,使整個(gè)聲音在人耳的聽(tīng)覺(jué)來(lái)看是表現(xiàn)出有明確音高的有調(diào)音的特性。但這些很弱的連續(xù)譜還是不能一概忽略的。正是有了這些連續(xù)頻譜成分,使聲音顯得生動(dòng)、活潑、真實(shí)。 常用聲波頻率、聲壓、聲強(qiáng)等參數(shù)來(lái)描述聲音。

聲波頻率是常用的描述聲音的參量。人耳對(duì)聲波頻率的感覺(jué)是有界限的。從人耳的聽(tīng)覺(jué)特性我們知道,人耳所能感受到的聲音的頻率范圍在20~20范圍內(nèi)。低于20和高于20的聲音,人耳是聽(tīng)不到的。

聲壓及聲壓級(jí)SPL(SoundPressureLevel)也是常用的聲音描述參量。簡(jiǎn)單來(lái)說(shuō),聲壓就是聲音的壓力。聲壓級(jí)SPL是為了很好的描述人耳對(duì)聲音的感覺(jué)所使用的物理量。研究人耳對(duì)聲音強(qiáng)弱的感覺(jué)是用聲壓及聲壓級(jí)來(lái)說(shuō)明的。它是用來(lái)說(shuō)明當(dāng)聲音的強(qiáng)弱出現(xiàn)線性的變化時(shí),人耳對(duì)這種聲音強(qiáng)弱線性的變化感覺(jué)是否也是線性的。

第44頁(yè),共393頁(yè),2024年2月25日,星期天

能引起人耳聽(tīng)到聲音時(shí)的聲壓稱為聽(tīng)閾,頻率1kHz時(shí)的聽(tīng)閾為2×10-5;將引起人耳疼痛的聲壓稱為痛閾,約為20。人耳對(duì)聲壓強(qiáng)弱變化的感覺(jué)并不是呈線性的。大體上來(lái)說(shuō),人耳對(duì)聲音強(qiáng)弱的感覺(jué)是與聲壓有效值的對(duì)數(shù)成比例的。為適應(yīng)人耳的這一特性,就對(duì)聲壓有效值取對(duì)數(shù),用此對(duì)數(shù)值來(lái)表示聲音的強(qiáng)弱。這種表示聲音強(qiáng)弱的對(duì)數(shù)值就叫做聲壓級(jí)。人耳的聽(tīng)閾和痛閾分別對(duì)應(yīng)的聲壓級(jí)為0dB和120dB。第45頁(yè),共393頁(yè),2024年2月25日,星期天2.1.2人耳聽(tīng)覺(jué)特性 響度、音調(diào)和音色稱為人耳聽(tīng)覺(jué)特性的三要素。一般來(lái)說(shuō),客觀物理量的聲壓或聲強(qiáng)、頻率、波形(頻譜結(jié)構(gòu))和主觀感覺(jué)的三要素響度、音調(diào)、音色相對(duì)應(yīng)。

1、人耳對(duì)聲音強(qiáng)弱的感覺(jué)特性 人耳對(duì)聲音強(qiáng)弱的感覺(jué)不是與聲壓成正比,而是與聲壓級(jí)成正比關(guān)系。

2、響度、響度級(jí) 響度是聽(tīng)覺(jué)判斷聲音強(qiáng)弱的屬性。響度主要與引起聽(tīng)覺(jué)的聲壓有關(guān),也與聲音的頻率和聲音的波形有關(guān)。 聲壓(級(jí))是從客觀的角度來(lái)描述聲波的強(qiáng)弱的,而響度是從主觀的角度來(lái)描述人耳對(duì)聲音強(qiáng)弱的感覺(jué)。一般來(lái)說(shuō),聲壓(級(jí))大的聲音其響度也會(huì)較大,它們之間是有一定的關(guān)系,但并不完全一致。也就是說(shuō)聲壓(級(jí))大的聲音人耳的感覺(jué)不一定響。 描述響度、聲壓以及聲音頻率之間關(guān)系的曲線稱為等響度曲線,也叫響度的靈敏度曲線。第46頁(yè),共393頁(yè),2024年2月25日,星期天圖2-1等響曲線第47頁(yè),共393頁(yè),2024年2月25日,星期天

3、人耳聽(tīng)覺(jué)的掩蔽效應(yīng)

一個(gè)頻率聲音的聽(tīng)閾由于另一個(gè)聲音的存在而上升的現(xiàn)象稱為掩蔽。當(dāng)我們聽(tīng)兩個(gè)頻率的聲音的時(shí)候,其中一個(gè)頻率的聲音很響,而另一個(gè)頻率的聲音較弱,盡管從聲強(qiáng)來(lái)說(shuō)都超過(guò)了聽(tīng)閾,但此時(shí),我們只能聽(tīng)到很響的那個(gè)頻率的聲音,不很響的頻率的聲音是聽(tīng)不到的,也就是說(shuō)弱聲被強(qiáng)聲掩蔽掉了。 對(duì)于純音來(lái)說(shuō),一般會(huì)有這樣的現(xiàn)象出現(xiàn):頻率低的純音比較容易掩蔽頻率高純音,而頻率高的純音比較來(lái)說(shuō)難掩蔽低頻率的純音。 利用人耳對(duì)聲音的掩蔽效應(yīng),可以用有用的聲音信號(hào)去掩蔽那些無(wú)用的聲音信號(hào)。 第48頁(yè),共393頁(yè),2024年2月25日,星期天4、聲音質(zhì)量評(píng)價(jià)

在采用等級(jí)法MOS(MeanOpinionScore)進(jìn)行評(píng)價(jià)時(shí),通常設(shè)優(yōu),良,中,差,劣五個(gè)等級(jí):5分表示質(zhì)量極好,十分滿意;4分表示質(zhì)量好,比較滿意;3分表示質(zhì)量一般尚可接受;2分表示質(zhì)量差勉強(qiáng)能聽(tīng);1分表示質(zhì)量低劣無(wú)法忍受。圖2-3中心頻率為1200Hz的帶有噪聲的掩蔽譜第49頁(yè),共393頁(yè),2024年2月25日,星期天2.2音頻信息編碼分類

1.波形編碼

波形編碼是基于對(duì)語(yǔ)音信號(hào)波形的數(shù)字化處理,試圖使處理后重建的語(yǔ)音信號(hào)波形與原語(yǔ)音信號(hào)波形保持一致。

優(yōu)點(diǎn)是實(shí)現(xiàn)簡(jiǎn)單、語(yǔ)音質(zhì)量較好、適應(yīng)性強(qiáng)等。缺點(diǎn)是話音信號(hào)的壓縮程度不是很高,實(shí)現(xiàn)的碼速率比較高。常見(jiàn)的波形壓縮編碼方法有:脈沖編碼調(diào)制PCM、增量調(diào)制編碼DM、差值脈沖編碼調(diào)制DPCM、自適應(yīng)差分脈沖編碼調(diào)制(ADPCM)、子帶編碼(SBC)和矢量量化編碼(VQ)等。波形編碼的比特率一般在16至64之間,它有較好的話音質(zhì)量與成熟的技術(shù)實(shí)現(xiàn)方法。當(dāng)數(shù)碼率低于32的時(shí)候音質(zhì)明顯降低,16時(shí)音質(zhì)就非常差了。

編碼速率=采樣頻率×編碼比特?cái)?shù)

計(jì)算播放某個(gè)音頻信號(hào)所需要的存儲(chǔ)容量,公式為:

存儲(chǔ)容量=播放時(shí)間×速率÷8(字節(jié))第50頁(yè),共393頁(yè),2024年2月25日,星期天

2、參數(shù)編碼

參數(shù)編碼又稱聲源編碼,它是通過(guò)構(gòu)造一個(gè)人發(fā)聲的模型,以發(fā)音機(jī)制的模型作為基礎(chǔ),用一套模擬聲帶頻譜特性的濾波器系數(shù)和若干聲源參數(shù)來(lái)描述這個(gè)模型,在發(fā)送端從模擬語(yǔ)音信號(hào)中提取各個(gè)特征參量并對(duì)這些參量進(jìn)行量化編碼,以實(shí)現(xiàn)語(yǔ)音信息的數(shù)字化。

特點(diǎn)是語(yǔ)音編碼速率較低,基本上在2kbit/s~9.6kbit/s之間。 在模型圖中,周期信號(hào)源表示濁音激勵(lì)源,隨機(jī)信號(hào)表示清音激勵(lì)源;u(n)表示波形產(chǎn)生的激勵(lì)參數(shù),可以用清/濁音判決(u/v)來(lái)表示;G是增益控制,代表語(yǔ)聲信號(hào)的強(qiáng)度;線性時(shí)變?yōu)V波器可以看作是聲道特性;ai是線性時(shí)變?yōu)V波器的系統(tǒng)參數(shù);C(n)是合成的語(yǔ)聲輸出。第51頁(yè),共393頁(yè),2024年2月25日,星期天參數(shù)編碼的典型代表是線性預(yù)測(cè)編碼LPC。第52頁(yè),共393頁(yè),2024年2月25日,星期天

3、混和編碼

混和編碼將波形編碼和參量編碼結(jié)合起來(lái),力圖保持波形編碼話音的高質(zhì)量與參量編碼的低速率。采用混合編碼的編碼器有:多脈沖激勵(lì)線性預(yù)測(cè)編碼器(MPE-LPC),規(guī)則脈沖激勵(lì)線性預(yù)測(cè)編碼器(RPE-LPC),碼激勵(lì)線性預(yù)測(cè)編碼器(CELP),矢量和激勵(lì)線性預(yù)測(cè)編碼器(VSELP)和多帶激勵(lì)線性預(yù)測(cè)編碼器。 以上三種壓縮編碼的性能比較可以用下圖來(lái)表示:第53頁(yè),共393頁(yè),2024年2月25日,星期天圖2-5合成分析原理簡(jiǎn)化框圖第54頁(yè),共393頁(yè),2024年2月25日,星期天2.3常用壓縮編碼方法

速率低于64kb/的語(yǔ)聲數(shù)字化處理方法稱為音頻信息壓縮編碼。2.3.1差值脈沖編碼調(diào)制DPCM和自適應(yīng)差值脈沖編碼調(diào)制ADPCM

差值脈沖編碼調(diào)制(DPCM)的基本出發(fā)點(diǎn)就是對(duì)相鄰樣值的差值進(jìn)行量化編碼。由于此差值比較小,可以為其分配較少的比特?cái)?shù),進(jìn)而起到了壓縮數(shù)碼率的目的。在具體的實(shí)現(xiàn)過(guò)程中,是對(duì)樣值與其對(duì)應(yīng)的預(yù)測(cè)值的差值進(jìn)行量化編碼的。 對(duì)一個(gè)話音信號(hào)的樣值序列,當(dāng)前樣值的預(yù)測(cè)值可以由其前面的若干個(gè)樣值來(lái)進(jìn)行預(yù)測(cè),若樣值序列表示為:為當(dāng)前值,則對(duì)當(dāng)前樣值完整的預(yù)測(cè)表達(dá)式由下式表示:第55頁(yè),共393頁(yè),2024年2月25日,星期天

式中為當(dāng)前值的預(yù)測(cè)值,為當(dāng)前值前面的N-1個(gè)樣值。為預(yù)測(cè)系數(shù),若預(yù)測(cè)系數(shù)隨輸入信號(hào)而變化時(shí)就是自適應(yīng)預(yù)測(cè)。則當(dāng)前值與預(yù)測(cè)值的差值表示為:可以由一系列預(yù)測(cè)值得到其對(duì)應(yīng)的差值。差分脈沖編碼調(diào)制就是對(duì)上面的一系列差值進(jìn)行量化編碼,再進(jìn)行存儲(chǔ)或傳輸。由于話音信號(hào)相鄰樣值之間有很強(qiáng)的相關(guān)性,所以預(yù)測(cè)值與實(shí)際值是很接近的,其差值也是很小,也就可以用比較少的比特?cái)?shù)來(lái)進(jìn)行編碼表示,這樣就減少了編碼的比特?cái)?shù)。在接收端或在對(duì)數(shù)據(jù)進(jìn)行回放時(shí),可用類似的過(guò)程重建原始數(shù)據(jù)。第56頁(yè),共393頁(yè),2024年2月25日,星期天實(shí)現(xiàn)差分脈沖編碼調(diào)制的系統(tǒng)方框圖如圖2-7所示:第57頁(yè),共393頁(yè),2024年2月25日,星期天

預(yù)測(cè)系數(shù)的求法是預(yù)測(cè)估值的均方差為最小的預(yù)測(cè)系數(shù)。 為了進(jìn)一步提高編碼的性能,將自適應(yīng)量化技術(shù)和自適應(yīng)預(yù)測(cè)技術(shù)結(jié)合在一起用于差分脈沖編碼調(diào)制DPCM中,從而實(shí)現(xiàn)了自適應(yīng)差分脈沖編碼調(diào)制ADPCM。ADPCM的簡(jiǎn)化原理框圖如圖所示。第58頁(yè),共393頁(yè),2024年2月25日,星期天

2.3.2線性預(yù)測(cè)編碼LPC

如下圖所示。在線性預(yù)測(cè)編碼LPC中,將語(yǔ)聲信號(hào)劃分為濁音信號(hào)和清音信號(hào)。清音信號(hào)可以用白色隨機(jī)噪聲激勵(lì)信號(hào)來(lái)表示,濁音信號(hào)可以用準(zhǔn)周期脈沖序列激勵(lì)信號(hào)來(lái)表示。由于語(yǔ)聲信號(hào)是短時(shí)平穩(wěn)的,根據(jù)語(yǔ)聲信號(hào)的短時(shí)分析和基音提取方法,可以用若干的樣值對(duì)應(yīng)的一幀來(lái)表示短時(shí)語(yǔ)聲信號(hào)。這樣,逐幀將語(yǔ)聲信號(hào)用基音周期Tp,清/濁音(u/v)判決,聲道模型參數(shù)ai和增益G來(lái)表示。對(duì)這些參進(jìn)數(shù)行量化編碼,在接收端再進(jìn)行語(yǔ)聲的合成。第59頁(yè),共393頁(yè),2024年2月25日,星期天

在LPC原理框圖的發(fā)送端,原始話音信號(hào)送入A/D變換器,以8kHz速率抽樣變成數(shù)字化語(yǔ)聲信號(hào)。以180個(gè)抽樣樣值為一幀,對(duì)應(yīng)幀周期為22.5ms,以一幀為處理單元進(jìn)行逐幀處理。完成每一幀的線性預(yù)測(cè)系數(shù)分析,并作相應(yīng)的清/濁音(u/v)處理、基音(Tp)提取,再對(duì)這些參量進(jìn)行量化、編碼并送入信道傳送。在接收端,經(jīng)參量譯碼分出參量ai、G、Tp、u/v,以這些參數(shù)作為合成語(yǔ)聲信號(hào)的參量,最后將合成產(chǎn)生的數(shù)字化語(yǔ)聲信號(hào)經(jīng)D/A變換還原為語(yǔ)聲信號(hào)。第60頁(yè),共393頁(yè),2024年2月25日,星期天2.3.3矢量量化VQ(VectorQuantization)編碼

對(duì)單個(gè)采樣的樣值進(jìn)行量化被稱為標(biāo)量量化。所謂矢量量化VQ,是將輸入的信號(hào)樣值按照某種方式進(jìn)行分組,把每個(gè)分組看作是一個(gè)矢量,并對(duì)該矢量進(jìn)行量化。

矢量量化編碼原理:在發(fā)送端,先將語(yǔ)音信號(hào)的樣值數(shù)據(jù)序列按某種方式進(jìn)行分組,每個(gè)組假定有k個(gè)數(shù)據(jù)。這樣的一組數(shù)據(jù)就構(gòu)成了一個(gè)k維矢量。每個(gè)矢量有對(duì)應(yīng)的下標(biāo),下標(biāo)是用二進(jìn)制數(shù)來(lái)表示的。把每個(gè)數(shù)據(jù)組所形成的矢量看作是一個(gè)碼字;這樣,語(yǔ)音數(shù)據(jù)所分成的組就形成了各自對(duì)應(yīng)的碼字。把所有這些碼字進(jìn)行排列,可以形成一個(gè)表,這樣的表就叫作碼本或碼書。在矢量量化編碼方法中,所傳輸?shù)牟皇菍?duì)應(yīng)的矢量,而是對(duì)應(yīng)每個(gè)矢量的下標(biāo)。由于下標(biāo)的數(shù)據(jù)相比于矢量本身來(lái)說(shuō),要小的多,所以這種方式就實(shí)現(xiàn)了數(shù)據(jù)的壓縮。第61頁(yè),共393頁(yè),2024年2月25日,星期天

在對(duì)碼本的描述中,構(gòu)成碼本的碼字的數(shù)量稱為碼本的長(zhǎng)度,用來(lái)表示這個(gè)長(zhǎng)度,則每個(gè)碼字的位置即其下標(biāo)可以用的二進(jìn)制位來(lái)表示,每個(gè)碼字是由個(gè)原始數(shù)據(jù)構(gòu)成的。所以,矢量量化編碼的編碼速率可以低到假設(shè),表示是有16個(gè)樣值數(shù)據(jù)構(gòu)成的一個(gè)矢量;,表示碼本的長(zhǎng)度是256,碼本的下標(biāo)用二進(jìn)制來(lái)表示共有bit,由于對(duì)每組數(shù)據(jù)只需要傳送下標(biāo),假定此時(shí)碼本已經(jīng)構(gòu)造好,則比特率為:。

實(shí)現(xiàn)矢量量化的關(guān)鍵技術(shù)有兩個(gè):一個(gè)是如何設(shè)計(jì)一個(gè)優(yōu)良的碼本,另一個(gè)是量化編碼準(zhǔn)則。第62頁(yè),共393頁(yè),2024年2月25日,星期天2.3.4子帶編碼第63頁(yè),共393頁(yè),2024年2月25日,星期天

圖中發(fā)送端的n個(gè)帶通濾波器將輸入信號(hào)分為n個(gè)子頻帶,對(duì)各個(gè)對(duì)應(yīng)的子帶帶通信號(hào)進(jìn)行調(diào)制,將n個(gè)帶通信號(hào)經(jīng)過(guò)頻譜搬移變?yōu)榈屯ㄐ盘?hào);對(duì)低通信號(hào)進(jìn)行采樣、量化和編碼,得到對(duì)應(yīng)各個(gè)子帶的數(shù)字流;再經(jīng)復(fù)接器合成為完整的數(shù)字流。經(jīng)過(guò)信道傳輸?shù)竭_(dá)接收端。在接收端,由分配器將各個(gè)子帶的數(shù)字流分開(kāi),由譯碼器完成各個(gè)子帶數(shù)字流的譯碼;由解調(diào)器完成信號(hào)的頻移,將個(gè)子帶搬移到原始頻率的位置上。各子帶相加就可以恢復(fù)出原來(lái)的語(yǔ)聲信號(hào)。

子帶編碼有幾個(gè)突出的優(yōu)點(diǎn):對(duì)不同的子帶分配不同的比特?cái)?shù)可以很好控制各個(gè)子帶的量化電平數(shù)及重建信號(hào)時(shí)的量化誤差方差值,進(jìn)而獲得更好的主觀聽(tīng)音質(zhì)量。由于各個(gè)子帶相互隔開(kāi),使各個(gè)子帶的量化噪聲也相互獨(dú)立,互不影響,量化噪聲被束縛在各自的子帶內(nèi)。這樣,某些輸入電平比較低的子帶信號(hào)不會(huì)被其它子帶的量化噪聲所淹沒(méi)。子帶劃分的結(jié)果,使各個(gè)子帶的采樣頻率大大的降低。第64頁(yè),共393頁(yè),2024年2月25日,星期天2.3.5感知編碼

感知編碼(PerceptualCoding)是利用人耳聽(tīng)覺(jué)的心理聲學(xué)特性(包括頻域掩蔽特性和時(shí)域掩蔽特性)。感知編碼是建立在人類聽(tīng)覺(jué)系統(tǒng)的心理聲學(xué)基礎(chǔ)上的,只記錄那些能夠被人耳感覺(jué)到的聲音,從而達(dá)到壓縮數(shù)據(jù)量的目的。

感知編碼的理論基礎(chǔ)是基于人耳的聞?dòng)?、臨界頻段和掩蔽效應(yīng)。 臨界頻段反應(yīng)了人耳對(duì)不同頻段聲音的反應(yīng)靈敏度是有差異的:在低頻段對(duì)幾赫茲的聲音差異都能分辨,而在高頻段的差異要達(dá)到幾百赫茲才能分辨。試驗(yàn)表明,低頻段的臨界頻段寬度有100Hz到200Hz,在大于5kHz后的高頻段的臨界頻段寬度有1000Hz到幾萬(wàn)Hz。近3/4的臨界頻段低于5kHz。因此在編碼時(shí)要對(duì)低頻段進(jìn)行精細(xì)的劃分,而對(duì)高頻段的劃分不必精細(xì)。 掩蔽包括頻域掩蔽和時(shí)域掩蔽。在頻域,一個(gè)強(qiáng)音會(huì)掩蔽掉與之接近的弱音,掩蔽特性與掩蔽音的強(qiáng)弱、掩蔽音的中心頻率以及掩蔽音與被掩蔽音的頻率相對(duì)位置有關(guān)。時(shí)域掩蔽是指掩蔽效應(yīng)發(fā)生在掩蔽音與被掩蔽音不同時(shí)出現(xiàn)時(shí),也稱為異時(shí)掩蔽。在編碼時(shí),對(duì)被掩蔽的弱音不必進(jìn)行編碼,從而達(dá)到數(shù)據(jù)壓縮的目的。在感知編碼中使用了心理模型。第65頁(yè),共393頁(yè),2024年2月25日,星期天下圖是感知編碼的MPEG通用音頻編碼系統(tǒng)的結(jié)構(gòu)框架:第66頁(yè),共393頁(yè),2024年2月25日,星期天

圖中的時(shí)間/頻率映射完成將輸入的時(shí)間域音頻信號(hào)轉(zhuǎn)變?yōu)閬喨拥念l率分量,使用不同的濾波器組來(lái)實(shí)現(xiàn),其輸出的頻率分量也叫做子帶值或者頻率線。

心理聲學(xué)模型利用利用濾波器組的輸出和輸入的數(shù)字聲音信號(hào)計(jì)算出隨輸入信號(hào)而變化的掩蔽門限估值。

量化和編碼按照量化噪聲不超過(guò)掩蔽門限的原則對(duì)濾波器組輸出的子帶值(或頻率線)進(jìn)行量化、編碼,目的是使量化的噪聲不會(huì)被人耳感覺(jué)到。

按幀打包來(lái)完成最后的編碼碼流。編碼碼流中除了要包括量化和編碼映射后的樣值外,還包括如比特分配等信息。

第67頁(yè),共393頁(yè),2024年2月25日,星期天2.4音頻信息壓縮編碼標(biāo)準(zhǔn)

2.4.1波形編碼標(biāo)準(zhǔn)

1、G.711標(biāo)準(zhǔn)

G.711標(biāo)準(zhǔn)是為脈沖編碼調(diào)制(PCM)制定的標(biāo)準(zhǔn).語(yǔ)音質(zhì)量最好,但壓縮率很有限。

2、G.721標(biāo)準(zhǔn)

G.721標(biāo)準(zhǔn)是用于速率是64kb/s的PCM語(yǔ)音信號(hào)與速率是32kb/s的ADPCM語(yǔ)音信號(hào)之間的轉(zhuǎn)換。

3、G.722標(biāo)準(zhǔn)

G.722標(biāo)準(zhǔn)是針對(duì)調(diào)幅廣播質(zhì)量的音頻信號(hào)制定的壓縮標(biāo)準(zhǔn),質(zhì)量高于G.711標(biāo)準(zhǔn)和G.721標(biāo)準(zhǔn)。第68頁(yè),共393頁(yè),2024年2月25日,星期天2.4.2混和編碼標(biāo)準(zhǔn)

1、G.728標(biāo)準(zhǔn)

G.728標(biāo)準(zhǔn)所涉及的音頻信息主要是應(yīng)用于公共電話網(wǎng)中。采用的壓縮算法是低延時(shí)碼激勵(lì)線性預(yù)測(cè)(LD-CELP,CodeExcitationLinearPrediction)技術(shù)。G.729標(biāo)準(zhǔn)的碼率只有16kb/s。

2、G.729標(biāo)準(zhǔn)

G.729就是ITU-T為低碼率應(yīng)用而制訂的語(yǔ)音壓縮標(biāo)準(zhǔn)。G.729標(biāo)準(zhǔn)的碼率只有8kb/s,其壓縮算法相比其它算法來(lái)說(shuō)比較復(fù)雜,采用的基本算法仍然是碼激勵(lì)線性預(yù)測(cè)(CELP,CodeExcitationLinearPrediction)技術(shù)。

3、G.723.1標(biāo)準(zhǔn)

G.723.1標(biāo)準(zhǔn)是ITU-T制定的多媒體通信標(biāo)準(zhǔn)中的一個(gè)組成部分,可應(yīng)用于IP電話、H.623會(huì)議電視系統(tǒng)等通信系統(tǒng)中,碼率較低,分別為5.3kb/s和6.3kb/s。第69頁(yè),共393頁(yè),2024年2月25日,星期天G.72132kbit/sADPCM原理第70頁(yè),共393頁(yè),2024年2月25日,星期天圖2-14G.728編碼器結(jié)構(gòu)第71頁(yè),共393頁(yè),2024年2月25日,星期天G.723.1標(biāo)準(zhǔn)語(yǔ)音編碼器原理第72頁(yè),共393頁(yè),2024年2月25日,星期天G732.1解碼器原理第73頁(yè),共393頁(yè),2024年2月25日,星期天2.4.3MPEG音頻編碼標(biāo)準(zhǔn)

本章所描述的MPEG音頻是MPEG-1音頻、MPEG-2音頻和MPEG-2AAC音頻。MPEG音頻編碼是國(guó)際上公認(rèn)的高保真立體聲音頻壓縮標(biāo)準(zhǔn)。為了實(shí)現(xiàn)高保真,它的音頻信號(hào)的采樣頻率有了很大的提高,音頻信號(hào)的頻率范圍也大大的增加。MPEG-1聲音標(biāo)準(zhǔn)規(guī)定其音頻信號(hào)采樣頻率可以有32kHz、44.1kHz或48kHz三種,音頻信號(hào)的帶寬可以選擇15kHz和20kHz。其音頻編碼分為3層:Laer-1、Layer-2和Layer-3。Laer-1的壓縮比為1:4,編碼速率為384kb/s;Layer2的壓縮比為1:6~1:8之間,編碼速率為192~256kb/s;Layer3的壓縮比為1:10~1:12,壓縮碼率可以達(dá)到64kb/s。

1.MPEG-1聲音標(biāo)準(zhǔn)

MPEG-1音頻編碼的信號(hào)頻帶是20~20kHz,取樣頻率使用的是32kHz、44.1kHz和48kHz,采用的編碼算法是感知子帶編碼。Laer-1的編碼器最為簡(jiǎn)單,主要用于小型數(shù)字盒式磁帶;Layer-2編碼器的復(fù)雜程度是中等,主要用于數(shù)字廣播音頻、數(shù)字音樂(lè)、只讀光盤交互系統(tǒng)和視盤;Layer-3的編碼器最為復(fù)雜,主要用于ISDN上的聲音傳輸。第74頁(yè),共393頁(yè),2024年2月25日,星期天

MPEG音頻編碼采用了子帶編碼,共分為32個(gè)子帶。MPEG編碼的音頻數(shù)據(jù)是按幀安排的。Layer-1的每幀包含32×12=384個(gè)樣本數(shù)據(jù),Layer-2和Layer-3每幀包含有32×3×12=1152個(gè)樣本數(shù)據(jù),是Layer-1的3倍。Layer-1的編碼

Layer-1的子帶劃分采用等帶寬劃分,分為32個(gè)子帶,每個(gè)子帶有12個(gè)樣本,心理聲學(xué)模型只使用頻域掩蔽特性。

Layer1和Layer2編碼器的結(jié)構(gòu)基本類似,其差別在于濾波器子帶的劃分不同和FFT的運(yùn)算點(diǎn)數(shù)不同。第75頁(yè),共393頁(yè),2024年2月25日,星期天

幀頭:由每幀開(kāi)始的前32個(gè)比特組成,這32個(gè)比特包含同步信息和狀態(tài)信息,同步碼由12個(gè)全1碼組成。所有的三層音頻信息編碼在這部分都是一樣的。 幀校驗(yàn)碼:幀校驗(yàn)碼占16比特,用來(lái)檢測(cè)傳輸后比特流的差錯(cuò),其多項(xiàng)式表達(dá)式為:。所有三層的這一部分也都是相同的。 音頻數(shù)據(jù):由比特分配表、比例因子選擇信息、比例因子和子帶樣值組成。其中子帶樣值是音頻數(shù)據(jù)的最大部分,不同層的音頻數(shù)據(jù)是不同的。 輔助數(shù)據(jù):用來(lái)傳輸相關(guān)的輔助信息。Layer-2編碼

Layer-2編碼在Layer-1的基礎(chǔ)上作了改進(jìn)。32個(gè)子帶的劃分是不等劃分,其劃分依據(jù)是臨界頻段。每個(gè)子帶分為3個(gè)12樣本組,這樣每幀共有1152個(gè)樣本。在掩蔽特性方面除保留原有的頻域掩蔽外還增加了時(shí)域掩蔽。另外在低頻、中頻和高頻段對(duì)位分配作了重新安排,低頻段使用4位,中頻段使用3位,高頻段使用2位。其幀格式見(jiàn)下圖第76頁(yè),共393頁(yè),2024年2月25日,星期天Layer-1和layer-2的編解碼器方框圖第77頁(yè),共393頁(yè),2024年2月25日,星期天Layer-3編碼(MP3)

Layer-3仍然使用不等長(zhǎng)子帶劃分。心理聲學(xué)模型在使用頻域掩蔽和時(shí)域掩蔽特性之外又考慮到了立體聲信息數(shù)據(jù)的冗余,還增加了霍夫曼編碼器。濾波器組在原有的基礎(chǔ)上增加了改進(jìn)離散余弦MDCT特性,可以部分消除由多相濾波器組引入的混疊效應(yīng)。第78頁(yè),共393頁(yè),2024年2月25日,星期天Layer-3編碼器和解碼器結(jié)構(gòu)第79頁(yè),共393頁(yè),2024年2月25日,星期天2、MPEG-2BC聲音壓縮標(biāo)準(zhǔn)

MPEG-2BC聲音標(biāo)準(zhǔn)是在MPEG-1的基礎(chǔ)上發(fā)展來(lái)的,是MPEG為多聲道聲音開(kāi)發(fā)的低碼率編碼方案,并與MPEG-1的聲音標(biāo)準(zhǔn)保持后向兼容。與MPEG-1相比主要增加了下面幾個(gè)方面的內(nèi)容:支持5.1多路環(huán)繞立體聲:可以提供5個(gè)全帶寬聲道,分為左、右、中、和兩個(gè)環(huán)繞聲道,另加一個(gè)低頻效果增強(qiáng)聲道,稱為5.1聲道。擴(kuò)展了編碼器的輸出范圍,從32~384kb/s擴(kuò)展到8~640kb/s。增加了更低的取樣頻率和低碼率:在保持MPEG-1原有的取樣頻率的基礎(chǔ)上,又增加了三種取樣頻率,新增的取樣頻率為16kHz、22.05kHz和24kHz,是將原有MPEG-1的取樣頻率降低了一半,以便提高碼率低于64kb/s時(shí)的每個(gè)聲道的聲音質(zhì)量。第80頁(yè),共393頁(yè),2024年2月25日,星期天

MPEG-2對(duì)多聲道的擴(kuò)展方式是通過(guò)可分級(jí)的方式來(lái)實(shí)現(xiàn)的。在編碼器端,5個(gè)輸入的聲道信號(hào)別向下混合為一路兼容立體聲信號(hào),再按照MPEG-1的編碼標(biāo)準(zhǔn)進(jìn)行編碼;用于在解碼端恢復(fù)原來(lái)5個(gè)聲道的相關(guān)信息都被安置在MPEG-1的附加數(shù)據(jù)區(qū)里,MPEG-1在進(jìn)行解碼的時(shí)候可忽略此區(qū)的數(shù)據(jù)。這些附加信息在在聲道T2、T3和T4以及在低音效果增強(qiáng)LFE聲道中傳輸。MPEG-2多聲道解碼器除了對(duì)MPEG-1的部分進(jìn)行解碼外,還對(duì)附加的信道T2、T3和T4以及LFE聲道進(jìn)行解碼,根據(jù)這些信息來(lái)恢復(fù)原來(lái)的5.1聲道,編碼解碼框圖見(jiàn)下圖。第81頁(yè),共393頁(yè),2024年2月25日,星期天MPEG-2的數(shù)據(jù)幀結(jié)構(gòu)如下圖所示。

2.4.4MPEG-2AAC編碼標(biāo)準(zhǔn)

MPEG-2AAC(AdvancedAudioCoding)是MPEG-2標(biāo)準(zhǔn)中一種非常靈活的編碼標(biāo)準(zhǔn),采用感知編碼方法,主要是利用聽(tīng)覺(jué)系統(tǒng)的掩蔽特性來(lái)減少聲音編碼的數(shù)據(jù)量;并且通過(guò)子帶編碼將量化噪聲分散到各個(gè)子帶中,用全局的聲音信號(hào)將噪聲掩蔽掉。

MPEG-2AAC采用模塊化的編碼方法,把整個(gè)ACC系統(tǒng)分成一系列模塊,用標(biāo)準(zhǔn)化的ACC工具對(duì)模塊進(jìn)行定義。在文獻(xiàn)資料中是通常將模塊和工具同等對(duì)待。AAC定義的編碼和解碼的基本結(jié)構(gòu)圖如下圖所示。第82頁(yè),共393頁(yè),2024年2月25日,星期天

AAC的編碼方法與前面介紹的編碼方法不同,AAC采用了模塊化的方法,將整個(gè)AAC系統(tǒng)分解成一系列模塊,用標(biāo)準(zhǔn)化的AAC編碼工具對(duì)模塊進(jìn)行定義。AAC定義了3種配置:基本配置、低復(fù)雜性配置和可變采樣率配置。 基本配置在三種配置中提供最好的聲音質(zhì)量,除沒(méi)有使用增益控制模塊外,其余模塊都使用。低復(fù)雜性配置沒(méi)有使用預(yù)測(cè)模塊和預(yù)處理模塊,使用的瞬時(shí)噪聲定形濾波器模塊的級(jí)數(shù)也有限,聲音質(zhì)量低于基本配置。可變采用率配置使用增益控制作預(yù)處理,沒(méi)有使用預(yù)測(cè)模塊,對(duì)TNS濾波器的級(jí)數(shù)和帶寬也有限制,是最簡(jiǎn)單的一種配置。第83頁(yè),共393頁(yè),2024年2月25日,星期天AAC定義的編碼和界面的基本結(jié)構(gòu)圖第84頁(yè),共393頁(yè),2024年2月25日,星期天2.4.5MPEG-4音頻標(biāo)準(zhǔn)

作為一種新的音頻標(biāo)準(zhǔn),MPEG-4音頻編碼綜合了多種類型的音頻編碼。MPEG-4音頻編碼標(biāo)準(zhǔn)集成了從話音到高質(zhì)量的多聲道聲音,從自然聲音到合成聲音。采用的編碼方法有多種,包括參數(shù)編碼、碼激勵(lì)線性預(yù)測(cè)編碼CELP、時(shí)間/頻率編碼、結(jié)構(gòu)化聲音SA編碼和文-語(yǔ)系統(tǒng)TTS的合成聲音。其編碼方框圖如下圖。第85頁(yè),共393頁(yè),2024年2月25日,星期天

參數(shù)編碼器使用參數(shù)編碼技術(shù)。對(duì)于8kHz采樣頻率的話音信號(hào),編碼器輸出的碼流速率是2~4kb/s;對(duì)于采樣頻率位8kHz或16kHz的話音信號(hào),編碼器的輸出速率為4~16kb/s。第86頁(yè),共393頁(yè),2024年2月25日,星期天

使用碼激勵(lì)線性預(yù)測(cè)編碼器,對(duì)于采樣頻率為8kHz或16kHz的話音信號(hào),輸出速率為6~24kb/s。 矢量量化和線性預(yù)測(cè)的編碼器使用了時(shí)間-頻率T/S技術(shù),對(duì)于采樣頻率為8kHz的話音信號(hào),編碼輸出速率大于16kb/s。第87頁(yè),共393頁(yè),2024年2月25日,星期天2.5多媒體音頻信號(hào)文件格式

自從PC機(jī)可以支持多媒體應(yīng)用以來(lái),很多公司在利用計(jì)算機(jī)處理音頻信息方面下了很大的氣力,從而先后出現(xiàn)了許多的音頻文件格式。Wave

(WaveAudioFiles)文件,其擴(kuò)展名為WAV。Wave格式是Microsoft公司開(kāi)發(fā)的一種聲音文件格式,它來(lái)源于對(duì)聲音模擬信號(hào)波形的采樣。AIFF文件,其擴(kuò)展名為AIF或AIFF。AIFF是音頻交換文件格式(AudioInterchangeFileFormat)的英文縮寫,這種聲音文件格式是由蘋果計(jì)算機(jī)公司開(kāi)發(fā)的,被Macintosh平臺(tái)及其應(yīng)用程序所支持。Audio文件,其擴(kuò)展名為AU。Audio文件是SunMicrosystems公司推出的一種經(jīng)過(guò)壓縮的數(shù)字聲音格式,是Internet中常用的聲音文件格式,NetscapeNavigator瀏覽器中的LiveAudio也支持Audio格式的聲音文件。Sound文件,其擴(kuò)展名為SND。Sound文件是NeXTComputer公司推出的數(shù)字聲音文件格式,支持壓縮。第88頁(yè),共393頁(yè),2024年2月25日,星期天VQF:就是TwinVQFiles是由NipponTelegraphandTelephone(NTT)開(kāi)發(fā)的一種音頻壓縮技術(shù)。無(wú)論在音頻壓縮率還是在音質(zhì)上,VQF比MP3都有較大的優(yōu)勢(shì)。當(dāng)然技術(shù)上的優(yōu)勢(shì)并不代表市場(chǎng)上的優(yōu)勢(shì)。Voice文件,其擴(kuò)展名為VOC。Voice文件是CreativeLabs(創(chuàng)新公司)開(kāi)發(fā)的聲音文件格式,多用于保存CreativeSoundBlaster(創(chuàng)新聲霸)系列聲卡所采集的聲音數(shù)據(jù),被Windows平臺(tái)和DOS平臺(tái)所支持,支持CCITTA

Law和CCITTμ

Law等壓縮算法。每個(gè)VOC文件由文件頭塊(headerblock)和音頻數(shù)據(jù)塊(datablock)組成。文件頭包含一個(gè)標(biāo)識(shí)版本號(hào)和一個(gè)指向數(shù)據(jù)塊起始的指針。數(shù)據(jù)塊分成各種類型的子塊。如聲音數(shù)據(jù)靜音標(biāo)識(shí)、ASCII碼文件重復(fù)的結(jié)果重復(fù)以及終止標(biāo)志、擴(kuò)展塊等。MPEG音頻文件,擴(kuò)展名為MP1/MP2/MP3。RealAudio文件,其擴(kuò)展名為RA/RM/RAM。RealAudio文件是RealNetworks公司開(kāi)發(fā)的一種新型流式音頻(StreamingAudio)文件格式,它包含在RealNetworks公司所制定的音頻、視頻壓縮規(guī)范RealMedia中。第89頁(yè),共393頁(yè),2024年2月25日,星期天第三章圖像技術(shù)基礎(chǔ)無(wú)論是電視系統(tǒng),還是電影,其最終的目的都是為接收者提供視覺(jué)圖像,因此圖像質(zhì)量與人眼的視覺(jué)特性有關(guān)。為了能夠掌握?qǐng)D像通信的基礎(chǔ)理論,因此本章將對(duì)人眼的視覺(jué)特性、圖像的數(shù)字化過(guò)程、電視技術(shù)基礎(chǔ)以及圖像質(zhì)量的評(píng)估等問(wèn)題進(jìn)行詳細(xì)的介紹。第90頁(yè),共393頁(yè),2024年2月25日,星期天3.1視覺(jué)特性一、視覺(jué)靈敏度 人眼對(duì)不同波長(zhǎng)的光所呈現(xiàn)的視覺(jué)感知是不同的,而且因人而異。為了了解人眼的視覺(jué)特性,因此國(guó)際照明委員會(huì)(CIE)特推薦標(biāo)準(zhǔn)視度曲線(人眼視覺(jué)光譜靈敏度曲線),如圖3-1所示。二、光度測(cè)量參數(shù) 當(dāng)描述光源的照明效果時(shí),由于無(wú)法直接用輻射光功率來(lái)描述,因此實(shí)際中是使用兩套參數(shù)來(lái)分別描述輻射光和照明光。前者與人眼的視覺(jué)特性無(wú)關(guān),而后者則考慮了人眼的視覺(jué)特性。

1、輻射功率和輻射強(qiáng)度

2、發(fā)光強(qiáng)度、亮度和照度 (1)光通量與發(fā)光強(qiáng)度 (2)亮度與照度三、彩色視覺(jué)和立體視覺(jué)

1、彩色的概念

在自然界中,當(dāng)陽(yáng)光照射到不同的景物上時(shí),所呈現(xiàn)的色彩不同,這是因?yàn)椴煌木拔镌谔?yáng)光的照射下,反射(或透射)了可見(jiàn)光譜中的不同成分而吸收了其余部分,從而引起人眼的不同彩色視覺(jué)。第91頁(yè),共393頁(yè),2024年2月25日,星期天2、彩色視覺(jué) 從視覺(jué)的角度描述彩色的過(guò)程中會(huì)用到亮度、色度和飽和度三個(gè)術(shù)語(yǔ)。亮度表示光的強(qiáng)弱;色度是指彩色的類別,如黃色、綠色、藍(lán)色等;飽和度則代表顏色的深淺程度,如淺紫色、粉紅色。

色調(diào)與飽和度又合稱為色度,可見(jiàn)它既表示彩色光的顏色類別,又表示顏色的深淺程度。 盡管不同波長(zhǎng)的光波所呈現(xiàn)的顏色不同,但我們會(huì)經(jīng)常觀察到這樣的現(xiàn)象。由適當(dāng)比例的紅光和綠光混合起來(lái),可以產(chǎn)生與黃單色光相同的彩色視覺(jué)效果。又如日光也可以由紅、綠、藍(lán)三種不同波長(zhǎng)的單色光以適當(dāng)?shù)谋壤M合而成。實(shí)際上自然界中的任何一種顏色都能由這三種單色光混合而成,因而人們稱紅、綠、藍(lán)為三基色。 經(jīng)過(guò)大量的驗(yàn)證測(cè)試,人們認(rèn)識(shí)到視網(wǎng)膜上有三種類型的錐狀細(xì)胞,它們各自的光譜靈敏度曲線,如圖3-3所示。3、立體視覺(jué) 立體視覺(jué)一般分為雙眼視覺(jué)和單眼視覺(jué)。四、人眼的分辨力與空間頻率 人眼的分辨景物細(xì)節(jié)的能力是有限的。人們通常稱這種分辨景物細(xì)節(jié)的能力為人眼的分辨力。第92頁(yè),共393頁(yè),2024年2月25日,星期天

經(jīng)過(guò)長(zhǎng)期的研究發(fā)現(xiàn),將人眼等效為一個(gè)空間頻率濾波器,這樣在考慮到分辨力與照度、對(duì)比度和噪音等方面影響的同時(shí),便可以利用濾波器的頻率特性來(lái)表示人眼的分辨力。可見(jiàn)空間頻率的概念在圖像技術(shù)中具有很重要的地位。1、空間頻率 時(shí)間頻率是用單位時(shí)間內(nèi)的某物理量(如電壓、電流)周期性變化的次數(shù)來(lái)定義的,單位為周/秒,其自變量為時(shí)間。而空間頻率則是某物理量(如亮度、發(fā)光強(qiáng)度)在單位空間距離內(nèi)周期性變化的次數(shù),單位為周/米。2、人眼的空間頻率響應(yīng) 實(shí)驗(yàn)研究發(fā)現(xiàn),人眼對(duì)不同空間細(xì)節(jié)的分辨力是變化的,可用視覺(jué)空間頻率響應(yīng)曲線表示,如圖3-4所示。圖中橫坐標(biāo)為空間頻率,即單位視角(1°)內(nèi)所含黑白條數(shù),而縱坐標(biāo)則表示空間頻率的傳輸特性(MTF)。 從圖中可以看出,人眼對(duì)彩色細(xì)節(jié)的分辨能力遠(yuǎn)比對(duì)亮度細(xì)節(jié)的分辨能力低。例如原有黑白相同的條紋,當(dāng)它們距人眼一定距離時(shí),仍能分辨出其黑白間的差別,但如果仍保持其條紋間的距離,只是將黑白條紋換成彩色條紋,此時(shí)便無(wú)法做出分辨。 據(jù)資料顯示,人眼分辨景物彩色細(xì)節(jié)的能力很差。因此彩色電視系統(tǒng)在傳輸彩色圖像時(shí),細(xì)節(jié)部分可以不傳送彩色信息,而只傳送黑白信息,以此來(lái)節(jié)約傳輸頻帶資源。第93頁(yè),共393頁(yè),2024年2月25日,星期天三種錐狀細(xì)胞的光譜靈敏度曲線第94頁(yè),共393頁(yè),2024年2月25日,星期天色調(diào)和飽和度分辨閾與波長(zhǎng)的關(guān)系第95頁(yè),共393頁(yè),2024年2月25日,星期天五、人眼的對(duì)比度特性

1、圖像的對(duì)比度與灰度 對(duì)比度是指景物或重現(xiàn)圖像的最大亮度Lmax與最小亮度Lmin之比,用符號(hào)C表示,即(3-1) 而畫面的最大亮度與最小亮度之間所能分辨的亮度感覺(jué)級(jí)數(shù)稱為亮度層次,也稱為灰度。 由于人眼的亮度感覺(jué)是相對(duì)的,即同一亮度在不同的環(huán)境亮度下給人的亮度感覺(jué)是不同的,因此當(dāng)人們看電視時(shí),在考慮到環(huán)境亮度后,電視圖像的對(duì)比度為 (3-2)其中為環(huán)境亮度。第96頁(yè),共393頁(yè),2024年2月25日,星期天

2、人眼的對(duì)比度靈敏度特性

(1)亮度感覺(jué) 在定義亮度時(shí)雖然考慮了人眼的光譜靈敏度,但實(shí)際觀察景物時(shí)所獲得的亮度感覺(jué),并不僅由景物的亮度決定,而且與其所處的周圍環(huán)境亮度有關(guān)。亮度感覺(jué)是指能分辨出不同的亮度層次。

(2)人眼視覺(jué)的對(duì)比度靈敏度 人眼區(qū)分某一給定空間頻率的正弦光柵(如圖3-6所示)明暗差別所需的最低對(duì)比度,稱為分辨這一空間頻率的臨界對(duì)比度,用Cr表示。臨界對(duì)比度的倒數(shù)1/Cr被稱為人眼對(duì)于這一空間頻率對(duì)比度靈敏度。 由以上定義可知,臨界對(duì)比度表示人眼在給定的亮度環(huán)境下所能區(qū)分景物的最小亮度差別,通常稱這一最小亮度差別為一個(gè)亮度級(jí)(或灰度級(jí))。第97頁(yè),共393頁(yè),2024年2月25日,星期天圖3-6定義臨界對(duì)比度的正弦光柵第98頁(yè),共393頁(yè),2024年2月25日,星期天六、視覺(jué)惰性與閃爍的概念

1、視覺(jué)惰性 當(dāng)一個(gè)景物突然出現(xiàn)在眼前時(shí),需經(jīng)過(guò)一定的時(shí)間才能形成一個(gè)穩(wěn)定的主觀亮度感覺(jué);同樣當(dāng)一個(gè)實(shí)際景物從眼前消失后,所看到的印象都不會(huì)立即消失,還會(huì)暫留一段時(shí)間,由此可見(jiàn)人眼亮度感覺(jué)的建立與消失都滯后于實(shí)際的光刺激,而且此過(guò)程是逐步的,這種現(xiàn)象就是視覺(jué)惰性。

2、閃爍 如果觀察者觀察到一個(gè)具有周期性的光脈沖,當(dāng)其重復(fù)頻率不夠高時(shí),便會(huì)產(chǎn)生一明一暗的感覺(jué),這種感覺(jué)就是閃爍,但當(dāng)重復(fù)頻率足夠高時(shí),閃爍感覺(jué)將消失,隨之看到的是一個(gè)恒定的亮點(diǎn)。臨界閃爍頻率就是指閃爍感覺(jué)剛剛消失時(shí)的頻率。它與脈沖亮度有關(guān),脈沖的亮度越高,臨界閃爍頻率也相應(yīng)地增高。第99頁(yè),共393頁(yè),2024年2月25日,星期天3.2圖像質(zhì)量的評(píng)價(jià)圖像質(zhì)量的評(píng)價(jià)方法有兩種,即主觀評(píng)價(jià)和客觀評(píng)價(jià)。第100頁(yè),共393頁(yè),2024年2月25日,星期天3.3圖像信號(hào)數(shù)字化3.3.1圖像信號(hào)的表述圖像信號(hào)的時(shí)域分析 由于人眼所感覺(jué)的景物是連續(xù)的,所形成的圖像為連續(xù)圖像,而連續(xù)圖像信號(hào)是無(wú)法直接在數(shù)字系統(tǒng)中實(shí)現(xiàn)傳輸或存儲(chǔ)的,因此需要將連續(xù)圖像信號(hào)轉(zhuǎn)化為離散數(shù)字信號(hào)。通常我們稱此過(guò)程為圖像信號(hào)的數(shù)字化,主要包括三大部分,即取樣、量化和編碼。 取樣又稱為抽樣,它是指圖像信號(hào)空間離散化的過(guò)程。這時(shí)所選取的點(diǎn)就是取樣點(diǎn)、抽樣點(diǎn)或樣點(diǎn),也被稱為像素。由此可見(jiàn),一幅圖像是由許多大小有限的像素組成,而且每個(gè)像素既是時(shí)間、空間的函數(shù),同時(shí)又有其光學(xué)特性,因此圖像中的任何一個(gè)像素P通常可用8個(gè)物理量表示,即 (3-2)

其中(x,y,z)表示像素的空間變量,L,H,S分別代表像素的亮度、色調(diào)和飽和度,R則表示圖像的分辨率(即每一個(gè)像素面積在圖像總面積中的比例,t是該像素產(chǎn)生上述物理量的時(shí)間。第101頁(yè),共393頁(yè),2024年2月25日,星期天圖像信號(hào)的頻譜 圖像通信系統(tǒng)是一個(gè)二維信息系統(tǒng),因此可以進(jìn)行類似的定義,二維函數(shù)f(x,y)與其頻譜

F(μ,ν)的關(guān)系:

(3-5)

(3-6)

據(jù)分析顯示,圖像中景物的復(fù)雜程度是有限的。通常其中的大部分區(qū)域內(nèi)的內(nèi)容變化不大,而且人眼對(duì)空間頻率上的復(fù)雜程度(頻率)的分辨能力有一定的局限性,因而從頻率域上來(lái)觀察圖像時(shí),大多數(shù)情況下其頻譜多局限在一定的范圍之內(nèi),如圖3-7所示,其中錐形區(qū)域代表二維圖像信號(hào)f(x,y)在頻率域上的有效成分,Um,Vm分別代表水平和垂直方向上的最大空間頻率,可見(jiàn)F(μ,ν)所表示的是二維圖像信號(hào)與空間頻率之間的關(guān)系,這種關(guān)系對(duì)圖像的數(shù)字化以及數(shù)字處理具有非常重要的意義。第102頁(yè),共393頁(yè),2024年2月25日,星期天3.3.2取樣和二維取樣定理 對(duì)于一個(gè)圖像信號(hào)每隔一定的距離抽取一個(gè)樣值,然后進(jìn)行樣值量化、編碼和傳輸。二維取樣定理 從圖3-7中可以看出,一個(gè)模擬信號(hào)f(x,y)的傅氏頻譜為F(μ,ν),如果其水平方向的截止頻率為Um,而垂直方向的截止頻率為Vm,那么只要水平和垂直方向的取樣頻率分別為U0≥2Um和V0≥2Vm(水平間隔Δx≤1/(2Um),垂直間隔Δy≤1/(2Vm),就可以精確地恢復(fù)出原圖像,這就是二維取樣定理。

=(3-11) 可見(jiàn),。 如果圖像信號(hào)為有限帶寬的信號(hào),那么根據(jù)上式可以看出,抽樣后的圖像信號(hào)fp(x,y)的頻譜是原頻譜F(μ,ν)沿μ軸和ν軸分別以,為間隔無(wú)限地周期重復(fù)的結(jié)果,如圖3-7(c)所示。第103頁(yè),共393頁(yè),2024年2月25日,星期天圖3-7取樣圖像的頻譜第104頁(yè),共393頁(yè),2024年2月25日,星期天

從圖中可以看出

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論