內(nèi)蒙古工業(yè)大學 多媒體技術(第2章)_第1頁
內(nèi)蒙古工業(yè)大學 多媒體技術(第2章)_第2頁
內(nèi)蒙古工業(yè)大學 多媒體技術(第2章)_第3頁
內(nèi)蒙古工業(yè)大學 多媒體技術(第2章)_第4頁
內(nèi)蒙古工業(yè)大學 多媒體技術(第2章)_第5頁
已閱讀5頁,還剩64頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

第二章

多媒體數(shù)據(jù)編碼基礎

數(shù)字音頻編碼

數(shù)字圖像編碼數(shù)字視頻編碼多媒體數(shù)據(jù)轉換2.1

數(shù)字音頻編碼聲音的種類

聲音是攜帶信息的極其重要的媒體,是多媒體技術研究中的一個重要內(nèi)容。聲音的種類繁多,如人的話音、樂器聲、動物發(fā)出的聲音、及其產(chǎn)生的聲音以及自然界的雷電、風聲、雨聲、閃電聲等等。聲波聲音是通過空氣傳播的一種連續(xù)的波,叫聲波。聲音的強弱體現(xiàn)在聲波壓力的大小上,音調(diào)的高低體現(xiàn)在聲音的頻率上。聲音用電表示時,聲音信號在時間和幅度上都是連續(xù)的模擬信號。聲波具有普通波所具有的特性,例如反射(reflection)、折射(refraction)、和衍射(diffraction)等。音頻的基本特性

聲音是由振動的聲波所組成,在任一時刻t,聲波可分解為一系列正弦波線性疊加:f(t)=ΣAnsin(nωt+φn)其中,ω稱為基頻或基音,它決定聲音的高低;nω稱為ω的n次諧波分量或稱為泛音,與聲音的音色有關;An是振幅,表示聲音的強弱;φn是n次諧波的初相位。音頻數(shù)字化

波形音頻是以數(shù)字方式表示音波。它是用聲卡(包含ADC和DAC)來錄制與執(zhí)行播出聲音的。計算機對聲音表示主要通過采樣產(chǎn)生一系列聲音數(shù)據(jù)。事實上,聲波按頻率可分為4類,其中多媒體系統(tǒng)僅處理人類的聽力所接受的頻率范圍的聲音,我們稱之為音頻,這個頻率范圍的音波稱之為聲音信號。

聲音的頻率分類聲音分類頻率范圍亞聲波0~20Hz人類的聽力所接受的頻率20Hz~20kHz超聲波20kHz~1GHz超高聲波1GHz~10THz聲音信號數(shù)字化從模擬過渡到數(shù)字:回顧歷史,大多數(shù)電信號的處理一直是用模擬元器件對模擬信號進行處理。但是,模擬信號處理元部件相當困難的,而且成本高。用數(shù)字來表示模擬量,對數(shù)字信號進行計算處理,那么難點就發(fā)生了轉移。把開發(fā)模擬運算部件的問題轉變成開發(fā)數(shù)字運算部件的問題,這就出現(xiàn)了數(shù)字信號處理器(digitalsignalprocessor,DSP)。在數(shù)字域做信號處理的主要優(yōu)點:首先,數(shù)字信號計算是一種精確的運算方法,它不受時間和環(huán)境的影響;其次,表示部件功能的數(shù)學運算不是物理上實現(xiàn)的功能部件,而是僅用數(shù)學運算去模擬,其中的數(shù)學運算也相對容易實現(xiàn);此外,可以對數(shù)字運算部件進行編程。模擬信號與數(shù)字信號: 我們把在時間和幅度上都是連續(xù)的信號稱為模擬信號。 在某些特定的時刻對這種模擬信號進行測量叫做采樣(sampling),由這些特定時刻采樣得到的信號稱為離散時間信號。 采樣得到的幅值還是連續(xù)的。如果把信號幅度取值的數(shù)目加以限定,這種由有限個數(shù)值組成的信號就稱為離散幅度信號。 我們把時間和幅度都用離散的數(shù)字表示的信號稱為數(shù)字信號。通過規(guī)則時間間隔測出音波振動幅度從而產(chǎn)生一系列聲音數(shù)據(jù)。這種測出數(shù)據(jù)方法稱之為采樣,一秒內(nèi)采樣次數(shù)叫采樣率。采樣的離散音頻數(shù)據(jù)要轉換成計算機能夠表示的數(shù)據(jù)范圍,這個過程稱之為量化。量化后數(shù)字音頻存儲量計算公式

音頻數(shù)據(jù)存儲量(字節(jié))=采樣率(Hz)×量化位數(shù)(位)×聲道數(shù)×音頻長度(秒)/8MIDI

(MussicalInstrumentDigitalInterface)

1980年制定一項工業(yè)標準,目的是讓音樂及合成音可以經(jīng)由一串消息在不同的設備上交流傳輸。MIDI提供電子樂器與計算機之間的連接器接口。定義物理連接與電子樂器溝通的協(xié)議。MIDI也定義音頻的形態(tài)與存儲的方法。MIDI音頻是以消息的方式而非波形的方式組成。MIDI有三種連接器(In、Out、Thru)。In為輸入,Out為輸出,而Thru是用來擴充MIDI與其它設備連接用的。

音序器可以將音樂等聲音以一種序列來儲存。所謂序列便是一連串的音符加上系統(tǒng)事件的命令。

MIDI適配器是用來改變頻道、路徑與按鍵的。當電子琴的鍵盤與一般的MIDI規(guī)格不一致時可以經(jīng)由適配器來修正使兩者一致。MIDI音頻文件

MIDI音頻文件是一串時序命令,它記錄音樂的行為。命令消息分為頻道消息(頻道聲音消息、頻道模式消息)和系統(tǒng)消息(系統(tǒng)實時消息、系統(tǒng)通用消息與系統(tǒng)專用消息)。它的文件占用很少存儲器空間。MIDI不適合編制口語旁白的音頻。數(shù)字音頻可從麥克風、錄音帶、CD、電視及其它來源獲取。它把聲音轉換成儲存體中數(shù)字信息。數(shù)字音頻較為穩(wěn)定,容易保持一致性,音頻品質也較易獲得保證。缺點是記錄非常詳盡,數(shù)據(jù)量極大,文件較MIDI音頻大出200倍以上。它可以適合任何一種音響。

數(shù)字音頻3D音頻3D音效可分為以下幾類:(1)擴展式立體聲。(2)環(huán)繞立體聲。(3)交互式音效。支持3D音頻API種類:DirectXDirectSound3D;Aureal3D;

EAX;

Sensaura;Qsound;杜比AC-3;數(shù)字化影院系統(tǒng)DTS

2.2

數(shù)字圖像編碼圖像是重要的媒體

圖像是多媒體中攜帶信息的極其重要的媒體。 有統(tǒng)計資料表明,人們獲取的信息的70%來自視覺系統(tǒng)。 圖像數(shù)字化后的數(shù)據(jù)量非常大,必須對圖像數(shù)據(jù)進行壓縮。圖像數(shù)據(jù)壓縮

圖像數(shù)據(jù)壓縮主要是根據(jù)下面兩個基本事實來實現(xiàn)的:一個是圖像數(shù)據(jù)中有很多重復的數(shù)據(jù),使用數(shù)學方法來表示這些重復數(shù)據(jù)(無損壓縮);另一個是人的眼睛對圖像細節(jié)和顏色的分辨有一個極限,把超過極限的部分去掉,(有損壓縮)。 實際的圖像數(shù)據(jù)壓縮技術是綜合使用各種有損和無損數(shù)據(jù)壓縮技術來實現(xiàn)的。2.2.1

色彩的基本概念顏色是視覺系統(tǒng)對可見光的感知結果??梢姽馐遣ㄩL在380nm~780nm之間的電磁波大多數(shù)光不是一種波長的光,而是由許多不同波長的光組合成的。三種錐體細胞 人們在研究眼睛對顏色的感知過程中普遍認為,人的視網(wǎng)膜有對紅綠藍顏色敏感程度不同的三種錐體細胞 另外還有一種在光功率極端低的條件下才起作用的桿狀體細胞 顏色只存在于眼睛和大腦。人的視覺系統(tǒng)對顏色的感知特性:⑴眼睛本質上是一個照相機。⑵紅綠藍三種錐體細胞對不同頻率的光的感知程度不同。⑶自然界中的任何一種顏色都可以由R,G,B這3種顏色值之和來確定,它們構成一個三維的RGB矢量空間。圖像的顏色模型 顏色模型(colormodel)使用簡單方法描述所有顏色的一套規(guī)則和定義。 例如,RGB,CMY,YCrCb都是表示顏色的顏色模型。RGB相加混色模型 顯示彩色圖像用RGB相加混色模型 一個能發(fā)出光波的物體稱為有源物體,它的顏色由該物體發(fā)出的光波決定,并且使用RGB相加模型。HSL模型從人的視覺系統(tǒng)來看,色彩可用色調(diào)、飽和度和亮度三要素來描述。在多媒體計算機中,除用RGB來表示圖像外,還用HSL模型。H定義顏色的波長,稱為色調(diào);S定義顏色的強度,表示顏色的深淺程度,稱為飽和度;L定義摻入的白光量,稱為量度。可打印彩色圖像用CMY相減混色模型 一個不發(fā)光波的物體稱為無源物體,它的顏色由該物體吸收或者反射哪些光波決定,用CMY相減混色模型。

CMY是指青色(cyan)、品紅(magenta)和黃色(yellow)。多媒體系統(tǒng)主要采用數(shù)字化方式對聲音、文字、圖形、圖像、視頻等媒體進行處理。數(shù)字化處理面臨的主要問題是巨大的數(shù)據(jù)量。彩色電視信號原始數(shù)據(jù) 例如:在彩色電視信號表示時,設代表光強、色彩和色飽和度的YIQ色彩空間中各分量的帶寬分別為4.2MHz、1.5MHz、0.5MHz。根據(jù)采樣定理,采樣頻率≧2倍原始信號頻率。再設各分量信號均被數(shù)字化8比特。則一秒鐘電視信號的數(shù)據(jù)量為:(4.2+1.5+0.5)*2*8=99.2M(bit) 650MB的CD-ROM僅能存約1分鐘的原始電視數(shù)據(jù)。圖像的三個基本屬性 描述一幅圖像需要使用圖像的屬性。圖像的屬性包含分辨率、像素深度、真/偽彩色、圖像的表示法和種類等。分辨率 有兩種:顯示分辨率和圖像分辨率。像素深度 指存儲每個像素所用的位數(shù)。 在用32位表示一個像素時,若R,G,B分別用8位表示,剩下8位常稱為a通道(alpha)。真彩色、偽彩色與直接色

真彩色指每個像素用RGB的值直接確定。 偽彩色指通過查表。 直接色指分別用RGB分量分別查表。圖像的種類矢量圖與點位圖灰度圖與彩色圖γ(伽馬)校正γ的概念 目前幾乎所有的CRT顯示設備、攝影膠片和許多電子照相機的光電轉換特性都是非線性的。這些非線性部件都有一個能夠反映各自特性的冪函數(shù),它的一般形式是:

y=xγ

?輸出=(輸入)γγ校正 這些環(huán)節(jié)至少有5個地方可有非線性轉換函數(shù)存在并可引入γ值。2.2.2顏色的度量體系

顏色是一門很復雜的學科,它涉及到物理學、生物學、心理學和材料學等多種學科。顏色是人的大腦對物體的一種反映,是人的一種感覺,帶有極端的主觀性,用數(shù)學的方法來描述這種感覺可能是一件很困難的事。現(xiàn)在已經(jīng)有許多有關顏色的理論、測量技術和顏色標準。顏色科學簡史在1666年,IsaacNewton(1642-1727)就開始研究顏色。牛頓色圓為揭示RGB相加混色奠定了基礎。在1802年,ThomasYoung(1773-1829)認為人的眼睛有三種不同類型的顏色感知接收器。19世紀60年代,Maxwell,JamesClerk(1831-1879)探索了三種基色的關系,被認為是現(xiàn)代色度學的基礎。其后,HermannvonHelmholtz(1821-1894)進行了定量研究。在1931年,國際照明委員會(CommissionInternationaledel’clairage/InternationalCommissiononIllumination,CIE)定義標準顏色體系,為大多數(shù)定量的顏色度量方法奠定了基礎。

1965年前后人們才做詳細的生理學實驗驗證在眼睛中的確存在三種不同類型的錐體。顏色的度量體系顏色度量體系(colorsystem),也叫做顏色制或者顏色體制,實際上就是人們組織和表示顏色的方法。AlbertH.Munsell(1858~1919)是美國杰出的一位藝術家和教授。1905年提出并在1943年修改的Munsell顏色系統(tǒng)使用色調(diào)、飽和度和明度表示顏色的3種屬性。德國化學家WilhelmOstwald(1853~1932)的Ostwald制是根據(jù)對顏色起作用的波長、純度和亮度來反映色調(diào)、飽和度和明度的值。CIE顏色系統(tǒng)國際照明委員會的顏色科學家們企圖在RGB模型的基礎上,用數(shù)學的方法從真實的基色推到出理論的三基色,創(chuàng)建一個新的顏色系統(tǒng),使顏料、染料和印刷等工業(yè)能夠明確指定產(chǎn)品的顏色。1931年9月,國際照明委員會在英國的劍橋市召開了具有歷史意義的會議。1931的CIE系統(tǒng)規(guī)范使用三基色刺激值和色度圖描述顏色空間。其后,國際照明委員會的專家們對該系統(tǒng)做了許多改進,包括1964年根據(jù)10度視野的實驗數(shù)據(jù),添加了補充標準觀察者的定義。CIEXYZ是國際照明委員會在1931年開發(fā)并在1964年修改的CIE顏色系統(tǒng)(CIEColorSystem),該系統(tǒng)是其他顏色系統(tǒng)的基礎。1976年國際照明委員會召開了一次又具有歷史意義的會議。為了解決顏色空間的感知一致性問題,專家們對CIE1931XYZ系統(tǒng)進行了非線性變換,制定了CIE1976L*a*b*顏色空間的規(guī)范。事實上,1976年CIE規(guī)定了兩種顏色空間:一種用于自照明的顏色空間,叫做CIELUV;另一種是用于非自照明的顏色空間,叫做CIE1976L*a*b*,或者叫CIELAB。這兩個顏色空間與顏色的感知更均勻,并且給了人們評價兩種顏色近似程度的一種方法,允許使用數(shù)字量ΔE表示兩種顏色之差。2.2.3

彩色空間及其變換常見模型:

RGB彩色空間

HSI彩色空間

YUV彩色空間

YIQ彩色空間RGB彩色空間R、G、B是彩色最基本表示模型,也是計算機系統(tǒng)中所使用的彩色模型。

RGB5:5:5方式用2個字節(jié)表示一個象素,具體位分配。RGB5:5:5方式RGB8:8:8方式R、G、B三個分量各占一個字節(jié)。T(1b)R(5b)G(5b)B(5b)HSI彩色空間這種模型中,用H(Hue,色調(diào))、S(Saturation,飽和度)、I(Intensity,光強度)3個分量來表示一種顏色,這種表示更適合人的視覺特性。YUV彩色空間Y為亮度信號,U、V是色差信號(B-Y,R-Y)。

PAL制式彩色空間即為YUV。優(yōu)點是亮度和色差信號分離,容易使彩色電視系統(tǒng)與黑白電視信號兼容。國際無線電咨詢委員會根據(jù)實驗認為采用雙倍度采樣4:2:2方案效果較好,提出CCIR601標準。變換公式(YUV<--->RGB)Y=0.299*R+0.587*G+0.114*B;U=-0.169*R-0.332*G+0.500*B;V=0.500*R+0.419*G-0.081*BYIQ彩色空間廣播電視系統(tǒng)另一種常用的亮度與色差分離的模型。NTSC制式彩色空間即為YIQ。這里Y是亮度,I和Q共同描述圖象的色調(diào)和飽和度。變換公式(YIQ<--->RGB)

Y=0.299*R+0.587*G+0.114*B;I=0.211*R-0.523*G+0.312*B;Q=0.596*R-0.275*G-0.322*B2.2.4數(shù)字圖象文件格式

TIFPCXGIF、TGA、BMP、DVI、JPEG等

BMP文件格式位圖文件(bitmap-file,BMP)格式是Windows采用的圖像文件存儲格式。BMP圖像文件結構位圖文件的組成結構名稱位圖文件頭(bitmap-fileheader)BITMAPFILEHEADER位圖信息頭(bitmap-informationheader)BITMAPINFORMATIONHEADER彩色表(colortable)RGBQUAD圖像數(shù)據(jù)陣列字節(jié)BYTE位圖文件頭包含有關文件類型、文件大小和存放位置等信息。 位圖信息頭包含有位圖文件的大小、壓縮類型和顏色格式。BMP位圖可以是沒有壓縮的位圖,或者采用RLE進行壓縮的位圖。顏色格式說明位圖所用的顏色數(shù)目,2/16/256/16777216種顏色。 彩色表中的元素與位圖所有的顏色相同。對于24位真彩色就不使用彩色表。 圖像數(shù)據(jù)陣列字節(jié)是緊跟在彩色表后的圖像數(shù)據(jù)字節(jié)陣列。TIF文件格式由美國AldusDeveloper’sDesk和Microsoft制定結構文件頭(8B)參數(shù)指針表參數(shù)數(shù)據(jù)表圖象數(shù)據(jù)

文件頭含字節(jié)順序(2B,表示存貯格式:II-Intel格式;MM—Motorola格式);標記號(2B,版本信息);指向第一個參數(shù)指針表的編碼(4B)。參數(shù)指針表由每個長為12B參數(shù)塊構成,描述壓縮種類、長寬、彩色數(shù)、掃描密度等參數(shù)。較長參數(shù)(如調(diào)色板)只給出指針,參數(shù)放在參數(shù)數(shù)據(jù)表中。其結構定義如下:

typedef

struct{

inttag-type;

intnumber-size;longlength;longoffset;}TIF-FIELD;圖象數(shù)據(jù)按參數(shù)表中描述的形式按行排列PCX文件格式由ZSoft公司最初制定結構文件頭(128字節(jié))數(shù)據(jù)部分(采用行程長度編碼)文件頭結構定義

typedef

struct{charmanufacture;/*always0xa0*/charversion;charencoding;/*always1*/charbits-per-pixel;/*colorbits*/

int

Xmin,Ymin;/*imageorigin*/

int

Xmax,Ymax;/*imagedimension*/

int

hres;/*resolutionvalues*/

int

vres;charpalette[48];/*colorpalette*/charreserved;charcolor-planes;/*colorplanes*/

intbytes-per-line;/*linebuffersize*/

intpalette-type;/*greyorcolorpalette*/charfiller[58];}PCXHEAD;

其中Version若為5,文件內(nèi)有個256色調(diào)色板,數(shù)據(jù)768字節(jié),在文件最后。

文件體對象素數(shù)據(jù)采用行程長度編碼,由包含Keybyte和Databyte的包組成。分2種情況:

(1)若Keybyte最高位為11,則低6位為重復次數(shù)。但最多重復63次,若再長重建一個包.PCX數(shù)據(jù)包的結構

(2)若Keybyte最高位不是11,那么該Databyte按原樣寫入圖象文件。對一個字符的表示用長度為1的包。11IndexDatabyte111Databyte2.3

數(shù)字視頻編碼電視是當代信息傳播工具 電視是20世紀20年代的偉大發(fā)明。在50年代開發(fā)電視技術時,電視技術一直沿著模擬信號處理技術的方向發(fā)展,自到70年代才開始開發(fā)數(shù)字電視。 由于數(shù)字技術具有許多優(yōu)越件,而且數(shù)字技術發(fā)展到足以使模擬電視向數(shù)字電視過渡的水平,電視和計算機才開始融合在一起。數(shù)字視頻的結構

基本單位是幀。若干同一場景的幀構成鏡頭若干鏡頭構成情節(jié)若干情節(jié)構成故事(節(jié)目)國際視頻標準

NTSC

美國研制,是目前廣泛使用的電視制式。它以525條橫掃描線來組成一個屏幕幀,每秒30幀。PAL

中國、英國等國采用制式,W.Bruch1963年發(fā)明的,其基本原理類似于NTSC制式。以625條掃描線,每秒25幀。SECAM

法國、俄羅斯等國采用制式。同樣采用625條線和25幀,但與NTSC和PAL相比,其基礎技術是采用頻率調(diào)制。數(shù)字視頻CCIR601編碼標準數(shù)字視頻CCIR601編碼標準是國際無線電咨詢委員會(CCIR)制定的廣播級質量的數(shù)字視頻編碼標準。采樣頻率:為了保證信號的同步,采樣頻率必須是電視信號行頻的倍數(shù),fs=13.5MHz是PAL、SECAM

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論