版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第4章多媒體技術(shù)應(yīng)用
學(xué)習(xí)目標(biāo)學(xué)完本章后,您應(yīng)該能夠:理解多媒體技術(shù)的基本概念了解多媒體計(jì)算機(jī)系統(tǒng)的基本組成理解和掌握音頻信號的處理的基本方法了解語音合成與識別基本知識第4章多媒體技術(shù)應(yīng)用目錄4.1多媒體技術(shù)的基本概念4.1.1名詞定義
信息及其載體;它的修飾定語“多”是“Multimedia”一詞的詞前綴“multi”,是兩種或兩種以上的意思。“多媒體”一詞最初是由廣告界造出的,意思是指在電視上,收音機(jī)里,戶外招貼的,印刷的廣告。上世紀(jì)90年代,計(jì)算機(jī)工業(yè)界借用這個(gè)詞,代表有聲卡,CD光盤驅(qū)動(dòng)器和較高性能的顯卡的個(gè)人電腦——多媒體個(gè)人電腦(MPC)。在這里,“多媒體”一詞中的“媒體”是存儲和傳遞的硬件實(shí)體。多媒體個(gè)人電腦優(yōu)于普通電腦之處是:它具有有更強(qiáng)的聲頻、視頻功能,能給用戶帶來聽覺及視覺的享受。它的出現(xiàn)得到個(gè)人用戶的追捧。4.1.2多媒體基本元素圖像是自然空間的靜止照片,是從實(shí)際場景中拍攝下來的有關(guān)人物,景物等靜止畫面。圖形是圖像一種抽象,是由計(jì)算機(jī)生成的各種畫面。各種文字是圖形的一種再抽象,是指由計(jì)算機(jī)產(chǎn)生的各種風(fēng)格的文字或藝術(shù)字。動(dòng)畫是指將一系列靜止的畫面,按一定時(shí)間及空間順序展示,而產(chǎn)生的活動(dòng)畫面。
視頻是指攝像機(jī)、攝影機(jī)等從實(shí)際場景中拍攝的活動(dòng)畫面。聲音包括人類語音,音樂以及自然界中的各種聲響。
4.1.2多媒體基本元素
圖4-1多媒體基本元素:圖像、圖形、音頻、視頻剪輯
4.1.3多媒體計(jì)算機(jī)技術(shù)的特征集成性這個(gè)系統(tǒng)以計(jì)算機(jī)為中心,集成多種多媒體外部設(shè)備、多種軟件,實(shí)現(xiàn)對形式多樣的媒體信息進(jìn)行輸入、處理、輸出和存儲交互性多媒體計(jì)算機(jī)技術(shù)給用戶提供對信息進(jìn)行控制的手段,提供人在上述過程中與計(jì)算機(jī)的交互的機(jī)制,以增加用戶對信息的理解實(shí)時(shí)性多媒體的音頻、視頻信號具有實(shí)時(shí)性,多媒體計(jì)算機(jī)技術(shù)必須支持實(shí)時(shí)處理,如視頻會議處理方式多樣化多媒體計(jì)算機(jī)技術(shù)綜合處理這些多媒體信息。4.1.4多媒體技術(shù)的應(yīng)用
家庭多媒體娛樂中心多媒體視頻會議系統(tǒng)多媒體遠(yuǎn)程醫(yī)療系統(tǒng)多媒體遠(yuǎn)程教育多媒體電子出版物多媒體數(shù)據(jù)庫4.2多媒體計(jì)算機(jī)系統(tǒng)的基本組成多媒體計(jì)算機(jī)系統(tǒng)多媒體計(jì)算機(jī)軟件系統(tǒng)多媒體操作系統(tǒng)、多媒體的編輯創(chuàng)作軟件和多媒體的應(yīng)用軟件多媒體計(jì)算機(jī)硬件系統(tǒng)計(jì)算機(jī)的基本部件多媒體設(shè)備聲卡(AudioCard)音箱CD-ROM麥克風(fēng)視頻捕獲卡攝像機(jī)照相機(jī)掃描儀圖4.2.1-1多媒體計(jì)算機(jī)4.2.2多媒體計(jì)算機(jī)的主要硬件設(shè)備1.多媒體與CPU芯片
采用國際標(biāo)準(zhǔn),把多媒體和通信技術(shù)融合到CPU芯片中。在原有計(jì)算機(jī)體系結(jié)構(gòu)結(jié)構(gòu)中,增加下述新的功能:多媒體數(shù)據(jù)的獲取多媒體數(shù)據(jù)的壓縮和解壓縮多媒體數(shù)據(jù)的實(shí)時(shí)處理和特技多媒體數(shù)據(jù)的輸出和多媒體通信1996年,Intel推出了PentiumMMX,為CPU指令集增加了57條MMX指令外,當(dāng)時(shí)采用MMXCPU的PC在出售時(shí)被稱為“多媒體計(jì)算機(jī)”。圖4.2.2-1IntelPentiumMMXCPU。4.2.2多媒體計(jì)算機(jī)的主要硬件設(shè)備2.聲卡(SoundCard)實(shí)現(xiàn)聲波/數(shù)字信號相互轉(zhuǎn)換的硬件把來自話筒、磁帶、光盤的原始聲音信號加以轉(zhuǎn)換,形成計(jì)算機(jī)可以接受的數(shù)字信將計(jì)算機(jī)存儲或處理的信號輸出到耳機(jī)、揚(yáng)聲器、擴(kuò)音機(jī)、錄音機(jī)等聲響設(shè)備,通過音樂設(shè)備數(shù)字接口(MIDI)使樂器發(fā)出美妙的聲音。配合相應(yīng)的軟件,聲卡可以用來實(shí)現(xiàn)以下功能:錄制、編輯和回放數(shù)字音頻文件控制各聲源的音量并加以混合在記錄和回放數(shù)字音頻文件時(shí)進(jìn)行壓縮和解壓縮采用語音合成技術(shù)讓計(jì)算機(jī)朗讀文本具有初步的語音識別功能。 圖4.2.2-2創(chuàng)新X-FiXtremeGamer聲卡
4.2.2多媒體計(jì)算機(jī)的主要硬件設(shè)備3.視頻采集卡(VideoCaptureCard)它是我們進(jìn)行視頻處理必不可少的硬件設(shè)備,又稱視頻捕捉卡。功能:將視頻信號采集到計(jì)算機(jī)中,以數(shù)據(jù)文件的形式保存在硬盤上模擬采集卡,通過AV或S端子將模擬視頻信號采集到PC中,使模擬信號轉(zhuǎn)化為數(shù)字信號,其視頻信號源可來自模擬攝像機(jī)、電視信號、模擬錄像機(jī)等;數(shù)字采集卡通過IEEE1394數(shù)字接口,以數(shù)字對數(shù)字的形式,將數(shù)字視頻信號無損地采集到了PC中,其視頻信號源主要來自DV(數(shù)碼攝像機(jī))及其它一些數(shù)字化設(shè)備。模擬采集卡與數(shù)字采集卡的一個(gè)重要區(qū)別就是:使用數(shù)字采集卡,在采集過程中視頻信號沒有損失,可以保證得到與原始視頻源一模一樣的效果,而使用模擬采集卡則視頻信號會有一定程度的損失。圖4.2.2-3視頻采集卡4.2.2多媒體計(jì)算機(jī)的主要硬件設(shè)備4.光盤存儲器光盤體積小,存儲容量大,一張光盤容量高達(dá)650MB以上。光盤成本低廉,易于大批量生產(chǎn)和復(fù)制;光盤對使用環(huán)境要求不高,無需用特殊的防震和防塵措施。光盤直徑有120MM,中心有一個(gè)15MM直徑的孔,環(huán)繞中心孔的13.5MM內(nèi)環(huán)也不存放任何數(shù)據(jù),盤片外沿有一個(gè)1MM寬的無數(shù)據(jù)環(huán),盤片上真正存放數(shù)據(jù)的空間只有38MM寬。光盤基片一般采用聚碳酸脂晶片制成,一種耐熱的有機(jī)玻璃。4.光盤存儲器(1)CD-ROM(CompactDiskReadOnlyMemory)光盤由生產(chǎn)廠家預(yù)先寫入內(nèi)容,使用時(shí)只能讀出,不能修改或?qū)懭胄聝?nèi)容。采用母盤灌制的方法批量生產(chǎn)的:先用預(yù)先編制好的程序控制激光刻片機(jī)對一張玻璃基板進(jìn)行蝕刻,將要存儲的數(shù)據(jù)內(nèi)容在玻璃基板上形成一個(gè)個(gè)數(shù)據(jù)凹痕,這個(gè)制作完成的玻璃基板就是大量壓制CD-ROM光盤的模具。模具制造完成后,用聚碳酸脂熔液倒入模具中,冷卻后便變成具有同玻璃基板相應(yīng)凹槽的基片,在其表面噴涂一層厚度約為50nm的鋁質(zhì)反光涂料,通常稱之為反射層。作用是將讀取數(shù)據(jù)的激光反射給接收裝置;最后一道工序是覆蓋一層起保護(hù)作用的透明基片。4.光盤存儲器(1)CD-ROM(CompactDiskReadOnlyMemory)光盤光道:一條1.6MM寬,從內(nèi)向外的、由凹坑和平坦表面互相交替而組成的連續(xù)的螺旋線軌道。寫入數(shù)據(jù):數(shù)據(jù)在光盤控制器內(nèi)變成相應(yīng)的記錄脈沖信號。該脈沖信號在電流驅(qū)動(dòng)電路內(nèi)變成電流,送到激光器。激光器,激光對刻錄層的一個(gè)微小的區(qū)域加熱,燒透刻錄層的染料使其不透明,即打出大小為微米(μm)級的永久性的凹坑,以代表寫入1,無凹坑處代表寫入0。讀出數(shù)據(jù):低功率的激光連續(xù)照射在光盤上,有凹坑處的反射光弱,無凹坑處的反射光強(qiáng),由光檢測器就可把反射光的強(qiáng)弱變成電信號。因讀出光束的功率只有寫入光束功率的1/10,故不會融出新的凹坑4.光盤存儲器(2)CD-R光盤又稱只寫一次型光盤,采用WORM(WriteOneReadMany)標(biāo)準(zhǔn),光盤由用戶寫入信息,可多次讀出,但只能寫一次,信息寫入后不能再修改。只讀光盤CD-ROM的存儲容量一般為650MB。(3)CD-RW光盤CD-RW光盤又稱可擦型光盤,是可寫入、擦除、重寫的可逆記錄系統(tǒng)。類似于磁盤,可重復(fù)讀寫.利用激光照射引起記錄介質(zhì)的可逆物理變化來進(jìn)行讀寫的。4.光盤存儲器(4)DVD光盤通用數(shù)字光盤(DigitalVersatileDisk),有人稱它為“數(shù)字激光視盤”(DigitalVideoDisc),簡稱高容量CD。任何DVD-ROM光驅(qū)都是CD-ROM光驅(qū),即這類光驅(qū)既能讀CD光盤,也能讀DVD光盤。DVD除了密度較高以外,其他技術(shù)與CD-ROM完全相同。DVD不但能單層單面儲存,它還具有單面雙層、雙面單層及雙面雙層等儲存模式,依容量分別區(qū)分為DVD-5(4.7GB)、DVD-9(8.5GB)、DVD-10(9.4GB)、DVD-18(17GB)等。DVD光盤分如下幾種:DVD-ROM:DVD-ROM是俗稱的DVD只讀光盤。DVD-Audio:DVD-Audio是用來讀取數(shù)字音樂資料的DVD光盤片,大多著重于超高音質(zhì)的表現(xiàn),主要是應(yīng)用在消費(fèi)性電子的領(lǐng)域。DVD-R:DVD-R是可以寫入一次數(shù)字資料的DVD規(guī)格。DVD-RAM:DVD-RAM在目前用到的范圍很廣,可以重復(fù)讀寫數(shù)字資料的DVD規(guī)格。DVD±RW:繼DVD-RAM之后的第二種可以重復(fù)讀寫數(shù)字資料的DVD規(guī)格。4.光盤存儲器光盤驅(qū)動(dòng)器有內(nèi)置式與外置式光盤驅(qū)動(dòng)器通常我們是以多少倍速來描述CD-ROM的速度的。在制定CD-ROM標(biāo)準(zhǔn)時(shí),把150K字節(jié)/秒的傳輸率定為標(biāo)準(zhǔn),后來驅(qū)動(dòng)器的傳輸速率越來越快,就出現(xiàn)了倍速、四倍速直至現(xiàn)在的32倍速、40倍速或者更高。對于50倍速的CD-ROM驅(qū)動(dòng)器理論上的數(shù)據(jù)傳輸率應(yīng)為:150×50=7500K字節(jié)/秒.平均讀取時(shí)間也稱平均搜尋時(shí)間(Average
Seek
Time)。它也是衡量光驅(qū)性能的一個(gè)重要標(biāo)準(zhǔn)。它指的是從檢測光頭定位到開始讀盤這個(gè)過程所需要的時(shí)間,單位是ms。該參數(shù)與數(shù)據(jù)傳輸率有關(guān)。數(shù)據(jù)傳輸率相同的光驅(qū),由于采用不同的控制系統(tǒng),其平均讀取時(shí)間可能有很大的差別。一般來說,該指標(biāo)越小越好。圖4.2.2-7內(nèi)置式與外置式光盤驅(qū)動(dòng)器4.2.4多媒體計(jì)算機(jī)的軟件系統(tǒng)
多媒體軟件系統(tǒng)包括具有多媒體功能的操作系統(tǒng)和多媒體應(yīng)用軟件。
(1)MicrosoftDirectX技術(shù)Microsoft2000中的MicrosoftDirectX技術(shù)提供了一整套多媒體接口方案,為使用這一技術(shù)的游戲和其他多媒體軟件程序提供更高性能,它是多媒體計(jì)算機(jī)中的游戲與顯卡之間的橋梁。MicrosoftDirectX技術(shù)所支持的2D動(dòng)態(tài)效果、3D特效圖形,霧化效果、渲染技術(shù)、紋理壓縮技術(shù)使Windows操作系下的游戲開始流行起來。圖4.2.4-1所示3D游戲《古墓麗影Ⅲ》就是基于MicrosoftDirectX的,它具有很強(qiáng)的空間感。圖4.2.4-2所示的一個(gè)電子游戲中的虛擬場景顯示了非常真實(shí)的水面效果。圖4.2.4-13D游戲
圖4.2.4-2電子游戲中的虛擬場景
4.2.4多媒體計(jì)算機(jī)的軟件系統(tǒng)(2)高速IEEE1394IEEE1394總線,也稱火線,是一種目前最快的高速串行總線用來連接如數(shù)碼相機(jī)、數(shù)字?jǐn)z錄機(jī),MP3及DVD驅(qū)動(dòng)器等對速度要求高的多媒體外部設(shè)備現(xiàn)在的WIN98、WIN2000、WINXP都對IEEE1394有很好的支持在這些操作系統(tǒng)中用戶不用再安裝驅(qū)動(dòng)程序,可即插即用地連接外備。4.2.4多媒體計(jì)算機(jī)的軟件系統(tǒng)(3)多媒體硬件設(shè)置界面在windows操作系統(tǒng)中,用戶可以對用戶使用Windows過程設(shè)置各種聲音;可以對音頻方面進(jìn)行設(shè)置,如設(shè)置揚(yáng)聲器,麥克風(fēng),MIDI設(shè)備硬件及屬性;還可進(jìn)行多媒體硬件的設(shè)置圖4.2.4-3“控制面板”對話框圖4.2.4-4”聲音和多媒體屬性“對話框4.2.4多媒體計(jì)算機(jī)的軟件系統(tǒng)(4)多媒體工具在windows操作系統(tǒng)中有操作系統(tǒng)提供的一些多媒體工具,如CD播放器,錄音機(jī),音量控制及多媒體播放器等。(a)CD播放器在用戶使用其它軟件的同時(shí),用CD播放器可播放CD光盤上的音頻文件,它具有如下功能:啟動(dòng)、播放&暫停CD光盤的播放。以任意的次序播放CD上的音軌從Internet上下載并存儲有關(guān)音軌及CD標(biāo)題的信息顯示或隱藏已播放時(shí)間、音軌或光盤中還未播放的時(shí)間。如圖4.2.4-5所示4.2.4多媒體計(jì)算機(jī)的軟件系統(tǒng)(b)錄音機(jī)用錄音機(jī)軟件(如圖4.2.4-6所示)可以進(jìn)行混音、錄音、播放和編輯聲音還可以在其它的文檔中插入或鏈接聲音。通過下列方式,可以對未經(jīng)壓縮的聲音文件進(jìn)行修改:在文件中加入聲音刪除部分聲音文件改變回放速度改變回放音量改變回放音量改變回放方向改變或轉(zhuǎn)換聲音文件的格式(只適用于windows的格式)添加回響4.2.4多媒體計(jì)算機(jī)的軟件系統(tǒng)(c)多媒體播放器使用多媒體播放器(MicrosoftWindowsMedia?Player),如圖4.2.4-7所示,可以播放和管理計(jì)算機(jī)及英特網(wǎng)上的數(shù)字媒體文件、收聽全世界的電臺廣播、播放和復(fù)制CD、創(chuàng)建自己的CD、播放DVD,并能將音樂或視頻復(fù)制到便攜設(shè)備,如MP3或MP4中。在多媒體播放器中可以打開擴(kuò)展名為.wma、.wmv、.asf或.mp3的文件。使用多媒體播放器中的常規(guī)播放控件,可以實(shí)現(xiàn)播放和快進(jìn)文件、更改音量、查看文件屬性和統(tǒng)計(jì)信息以及查看有關(guān)內(nèi)容的信息。4.2.4多媒體計(jì)算機(jī)的軟件系統(tǒng)2.多媒體編輯創(chuàng)作軟件多媒體的編輯創(chuàng)作軟件為多媒體創(chuàng)作人員提供了制作及集成的工具。主要有如下:圖像處理軟件:如AdobePhotoshop、CorelDraw、Frehand、Illustrator等。動(dòng)畫制作軟件:如Flash、3DS、Maya、3DSMAX等。錄音和編輯軟件:如CoolEdit、Creative錄音大師、UleadAudioEdit等。視頻采集和編輯軟件:UleadVideoEdit、AdobePremier、會聲會影等。4.3音頻信號的處理4.3.1Wave音頻文件是錄音時(shí)用的標(biāo)準(zhǔn)的Windows文件格式文件的擴(kuò)展名為“.wav”。文件最大,但回放音質(zhì)最好通常以麥克風(fēng)、立體聲錄音機(jī)或CD光盤為聲音信號的輸入源,通過聲卡的采樣后,不經(jīng)壓縮,直接存儲大多數(shù)的壓縮格式聲音都是在Wave格式基礎(chǔ)上實(shí)現(xiàn)的,回放時(shí)還是還原成Wave格式。4.3.1Wave音頻文件用三個(gè)參數(shù)來表示聲音:采樣位數(shù):一般有8位和16位之分采樣頻率:一般有11025HZ(11KHz),2050HZ(22KHz)、44100Hz(44KHz)三種。聲道數(shù)采樣的頻率越大則音質(zhì)越有保證;采樣的位數(shù)越大越有利于音質(zhì)的提高。44KHz,16BIT的聲音稱作CD音質(zhì);22KHz、16Bit的聲音效果近似于立體聲(FMStereo)廣播,稱作廣播音質(zhì);11kHz、8Bit的聲音,稱作電話音質(zhì)。wave文件所占容量的公式:存儲量=(采樣頻率*采樣位數(shù)*聲道)*時(shí)間/8(單位:字節(jié)數(shù))。4.3.2MIDI合成音樂1.MIDI定義MIDI(MusicalInstrumentDataInterface)是音樂設(shè)備數(shù)字接口標(biāo)準(zhǔn)的簡稱。是一種電子樂器之間以及電子樂器與電腦之間的統(tǒng)一交流協(xié)議。從80年代初問世至今,它經(jīng)歷了長時(shí)間的發(fā)展,現(xiàn)已成為電腦音樂的代名詞。我們可以從廣義上將其理解為電子合成器、計(jì)算機(jī)音樂的統(tǒng)稱,包括協(xié)議、設(shè)備等等相關(guān)的含義。4.3.2MIDI合成音樂2.MIDI合成音樂的特性是一種描述性的“音樂語言”,只表述所要演奏的樂曲信息,如“在某一時(shí)刻,使用什么樂器,以什么音符開始,以什么音調(diào)結(jié)束,加以什么伴奏”等。樂譜的一種數(shù)字式描述電腦上最為常用的MIDI格式:MID、RMI為擴(kuò)展名的音樂文件一首4分鐘左右長度的MIDI,其容量可能只有百余K字節(jié)。而同樣長度的波形音樂文件(*.WAV)則高達(dá)40MB左右,即使是經(jīng)高比例壓縮處理的MP3也有4MB大小。4.3.2MIDI合成音樂3.MIDI音樂文件的產(chǎn)生將MIDI樂器演奏的音樂聲音通過其MIDI處理器轉(zhuǎn)為MIDI消息,再已MIDI通信協(xié)議傳給計(jì)算機(jī),就產(chǎn)生了MIDI文件,存儲在計(jì)算機(jī)硬盤里。
MIDI標(biāo)準(zhǔn)規(guī)定了不同廠家的電子樂器與計(jì)算機(jī)連接的電纜和硬件,以及連接的數(shù)據(jù)通信協(xié)議。任何一個(gè)電子樂器,只要有MIDI處理器和硬件接口,就是一個(gè)MIDI樂器。計(jì)算機(jī)作曲:即通過計(jì)算機(jī)的MIDI作曲軟件,如CakeWalk等,在非常友好的界面中,產(chǎn)生MIDI文件,此文件可在MIDI設(shè)備上播放.圖4.2.4-54.3.2MIDI合成音樂4.MIDI文件的回放合成技術(shù)MIDI文件是一種對樂曲的描述,本身不含任何可供回放的聲音信息計(jì)算機(jī)音樂由聲卡中的合成器通過形式多樣的合成手段,將MIDI文件翻譯成相應(yīng)的聲音信號,再由聲卡上的混音器混合,生成聲波,驅(qū)動(dòng)音響設(shè)備,如揚(yáng)聲器,播放出音樂。
(1)FM合成FM是“頻率調(diào)變”的英文縮寫通過多個(gè)頻率的聲音混合來模擬樂器的聲音效果離實(shí)際的高級樂器的聲音還是有差距的。(2)波表合成將樂器的真實(shí)的聲音樣本存儲在聲卡的ROM波形表中MIDI合成器隨時(shí)查表,用有限個(gè)真實(shí)的采樣,通過一定的算法,如升調(diào),降調(diào),增益(提高音量)或衰減(減少音量)的處理,來模擬無限種采樣的效果——即真實(shí)樂器的效果然后輸出處理后的波形播放用波表合成能產(chǎn)生非常接近實(shí)際樂器的聲音效果。4.3.4音頻處理音頻的處理主要包括以下方面:錄音:捕捉聲音,轉(zhuǎn)為數(shù)字音頻片段。格式轉(zhuǎn)換:改變源聲音文件的格式。重新采樣或降低采樣率:壓縮文件的大小。剪輯:復(fù)制、剪切、粘貼和刪除數(shù)字音頻的片段,或把不同文件的音頻片斷組合在一起。音量調(diào)整:提高或降低音量,也可以用來柔化或消除失真。淡入淡出:一段音頻數(shù)據(jù)中音量的增加和減少。均衡:通過削減音頻數(shù)據(jù)流中的尖峰處和水平處來消除噪聲。拉伸時(shí)間:通過在信號中刪除或增加數(shù)據(jù)來放慢或加速聲音。倒時(shí)序的聲音:反向播放數(shù)據(jù)流。數(shù)字信號處理:數(shù)字化地增加聲音的效果,如混響、回聲、插入靜音,以及其他特殊效果。4.3.4音頻處理CoolEdit2.0功能強(qiáng)大的音樂編輯軟件可以運(yùn)行于Windows平臺下,能高質(zhì)量地完成錄音、編輯、合成及添加特效等多種任務(wù)。只要擁有它和一臺配備了聲卡的計(jì)算機(jī),也就等于同時(shí)擁有了一臺多軌數(shù)碼錄音機(jī)、一臺音樂編輯機(jī)和一臺專業(yè)合成器。CoolEdit2.0不僅適合于專業(yè)人員,也適合普通音樂愛好者。常規(guī)編輯功能,如剪切、粘貼、移動(dòng)等,跟在字處理器中編輯文本一樣簡單。4.3.5音頻數(shù)據(jù)壓縮統(tǒng)計(jì)分析表明,聲音信號中存在多種冗余度,當(dāng)我們存儲、傳播音頻數(shù)據(jù)時(shí),需要在不影響音質(zhì)的前提下,減少數(shù)據(jù)量??茖W(xué)家發(fā)現(xiàn),利用人耳聽覺的心理聲學(xué)特性(頻譜掩蔽特性和時(shí)間掩蔽特性)、人耳對信號幅度、頻率、時(shí)間的有限分辨能力,不編碼和傳送那些對人耳辨別聲音信號的強(qiáng)度、音調(diào)、方位沒有貢獻(xiàn)的部分(稱為不相關(guān)部分或無關(guān)部分),只對感覺到的部分進(jìn)行編碼。以這種方法去除音頻信號冗余。4.3.5音頻數(shù)據(jù)壓縮MPEGMPEG是運(yùn)動(dòng)圖像專家組(Moving
Picture
Experts
Group)的簡寫,該專家組隸屬于國際標(biāo)準(zhǔn)化組織(ISO),主要負(fù)責(zé)為音頻和視頻的傳送制定國。由該專家組所制定的MPEG標(biāo)準(zhǔn),目前常見的有MPEG-1、MPEG-2、MPEG-4、MPEG-7及MPEG-21等。今天,當(dāng)我們提及“MP3”,更多時(shí)候指的是“MP3播放器”,但真正意義上的“MP3”,應(yīng)該是一種數(shù)字音樂格式。MPEG-1音頻壓縮標(biāo)準(zhǔn)是第一個(gè)高保真音頻數(shù)據(jù)壓縮標(biāo)準(zhǔn),廣泛地應(yīng)用在VCD的制作和一些視頻片段下載的網(wǎng)絡(luò)應(yīng)用上。對人耳而言,MPEG-1音頻壓縮是不失真的。MPEG-1音頻壓縮標(biāo)準(zhǔn)提供了三個(gè)獨(dú)立的壓縮層次,使用戶可在復(fù)雜性和壓縮質(zhì)量之間權(quán)衡選擇。其中第3層最為復(fù)雜,但是音質(zhì)卻是最好的。4.3.5音頻數(shù)據(jù)壓縮MP3是MPEG-1中第3層音頻壓縮模式,即MPEG-1層-3,并非MPEG-3。MPEG-1層-3壓縮模式將音樂文件以1:10甚至1:12的壓縮率,壓縮成容量較小的文件。MP3體積小,音質(zhì)高的特點(diǎn)使得MP3幾乎成為網(wǎng)上音樂的代名詞。每分鐘音樂的MP3格式只有1MB左右大小,這樣每首歌的大小只有3-4兆字節(jié)。而MP3播放器則用以對MP3進(jìn)行實(shí)時(shí)的解壓縮(解碼),這樣,高品質(zhì)的MP3音樂就播放出來了。隨著技術(shù)的快速更新,功能也將更為強(qiáng)大,MP3早以從當(dāng)初的單單的MP3播放發(fā)展到現(xiàn)在錄音,收音,電子書,復(fù)讀,電子詞典等集一身的PDA模式。MP3的制作和播放目前有許多音頻應(yīng)用軟件提供將其他格式的音頻文件轉(zhuǎn)為MP3文件的功能。其中比較流行的有MP3壓縮大師,CoolEdit等。目前也有很多軟件可以播放MP3文件,如CoolEdit,Windows媒體播放器等。4.3.6聲音文件的格式1.音頻軌道格式*.cda格式文件,它是CD唱片音軌格式文件,它在CDROM出現(xiàn)之前就已存在。這種文件很大,但音質(zhì)好。在應(yīng)用中,可以根據(jù)實(shí)際要求將它壓縮為*.mp3文件,但音質(zhì)有所損失。用MicrosoftMediaPlayer就可實(shí)現(xiàn)將CD上的*.cda文件轉(zhuǎn)換為其他格式的文件,這就是所謂“抓音軌”。2.*.wav格式Wave是波形的意思。Wave音頻文件記錄對實(shí)際聲音進(jìn)行采樣的數(shù)據(jù),直接反映了一個(gè)聲音在每個(gè)時(shí)刻的大小值。1分鐘44khz采樣率的WAV文件就會占用10M硬盤空間!Wave音頻文件與MIDI或MP3這類多媒體聲音文件比較起來,所占的硬盤空間要大得多,但因沒經(jīng)壓縮,其回放效果是最好的。4.3.6聲音文件的格式3.*.mp3格式:是VCD的孿生兄弟。相同長度的音樂文件,用*.mp3格式來儲存的話,一般只有*.wav文件的1/10,而音質(zhì)大體接近CD的水平。由于其文件尺寸小,音質(zhì)好而且在它問世之初還沒有別種格式可與之匹敵,因而為*.mp3格式的發(fā)展非常順利,至今,這種格式還是風(fēng)靡一時(shí),作為主流音頻格式的地位難以被撼動(dòng)。*.mp3文件可以從網(wǎng)上下載,可以從CD唱片或*.wav轉(zhuǎn)換而來,也可以購買mp3歌曲光盤。*.mp3文件可被儲存在各種介質(zhì)中??梢栽谟?jì)算機(jī)中播放*.mp3軟件有很多種。*.mp3文件也可以用專門的mp3隨身聽來播放。有些多功能的臺式VCD也可用來播放*.mp3文件。4.3.6聲音文件的格式4.*.wma格式微軟公司推出了具有微軟特色的*.wma格式。這種格式在錄制時(shí)可以對音質(zhì)進(jìn)行調(diào)節(jié)。同一格式,音質(zhì)好的可與CD媲美,壓縮率較高的可用于網(wǎng)絡(luò)廣播。由于微軟的大力推廣,這種格式在高音質(zhì)領(lǐng)域直逼*.mp3,在網(wǎng)絡(luò)廣播方面,正在瓜分Real市場。*.wma格式的文件,可以通過微軟媒體播放器,直接從CD錄制。也能通過媒體播放器收聽網(wǎng)上的廣播節(jié)目。5.RealAudio(*.ra、*.ram)andRealPlayer(*.rpm)格式Real音頻公司早先專攻網(wǎng)絡(luò)廣播,創(chuàng)造了音頻文件格式:*.ra、*.ram、*.rpm等.Z這些格式可以一邊下載一邊收聽,其特點(diǎn)是可以隨網(wǎng)絡(luò)帶寬的不同而改變聲音的質(zhì)量,在保證大多數(shù)人聽到流暢聲音的前提下,令帶寬較富裕的聽眾獲得較好的音質(zhì)。近來隨著網(wǎng)絡(luò)帶寬的普遍改善,Real公司正推出用于網(wǎng)絡(luò)廣播的、達(dá)到CD音質(zhì)的格式。Real音頻公司的網(wǎng)絡(luò)廣播系統(tǒng)被廣泛采用,用最新的RealPlayer8.0可以找到2500多個(gè)網(wǎng)上電臺,節(jié)目源十分豐富。也可以用Real公司的壓縮軟件自行制造節(jié)目。以前的Real文件著眼于追求高壓縮率,故音質(zhì)較差。4.3.6聲音文件的格式6.*.mid格式*.mid格式記錄了一段音樂,但是*.mid文件不是聲音的“模樣”,而是告訴電腦里的聲卡如何發(fā)音,所以音質(zhì)的好壞全在聲卡的檔次。*.mid格式的主要應(yīng)用于計(jì)算機(jī)作曲領(lǐng)域。*.mid文件可以用作曲軟件寫出,也可以通過聲卡的MIDI口把外接音序器演奏的樂曲輸入電腦里,制成*.mid文件。4.3.7語音合成與識別1.語音合成:用以下兩種方式實(shí)現(xiàn)一是計(jì)算機(jī)將預(yù)先存在存儲器中的單音或詞組拼接起來,像錄音機(jī)似地“開口說話”,但它是“一字一字地蹦”,機(jī)器味十足,人們很難接受。采用波形拼接的語音合成方法,采用恰當(dāng)?shù)募夹g(shù)手段挑選出所需的語音單元拼接起來,也有可能生成高自然度的語句。這種方法對為了節(jié)省存儲容量,在存入機(jī)器之前還可以對語音信號先進(jìn)行數(shù)據(jù)壓縮。另一種方法是用數(shù)字信號處理的方法,創(chuàng)造數(shù)字模型來模擬發(fā)音器官的振動(dòng)、形狀,位置,通過參數(shù)的改變,這個(gè)模型就能靈活地合成出各種語句來,故又稱作為參數(shù)合成法。語言合成也可分成三個(gè)層次:從文字到語音的合成(Text-To-Speech);從概念到語音的合成(Concept-To-Speech);目前國內(nèi)外大多數(shù)語音合成研究是針對文語轉(zhuǎn)換系統(tǒng),且只能解決以某種朗讀風(fēng)格將書面語言轉(zhuǎn)換成口語輸出,缺乏不同年齡、性別特征及語氣、語速的表現(xiàn),更不用說賦予個(gè)人的感情色彩,多語種文語合成。4.3.7語音合成與識別1.語音識別語音識別技術(shù)就是讓機(jī)器通過識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的高技術(shù)。一個(gè)完整的語音識別系統(tǒng)可大致分為三部分:
(1)語音特征提?。耗康氖菑恼Z音波形中提取隨時(shí)間變化的語音特征序列。
(2)聲學(xué)模型與模式匹配(識別算法):聲學(xué)模型通常由獲取的語音特征通過訓(xùn)練產(chǎn)生,目的是為每個(gè)發(fā)音建立發(fā)音模板。在識別時(shí)將未知的語音特征同聲學(xué)模型(模式)進(jìn)行匹配與比較,計(jì)算未知語音的特征矢量序列和每個(gè)發(fā)音模板之間的距離。聲學(xué)模型的設(shè)計(jì)和語言發(fā)音特點(diǎn)密切相關(guān)。
(3)語義理解:計(jì)算機(jī)對識別結(jié)果進(jìn)行語法、語義分析。通常是通過語言模型來實(shí)現(xiàn)。WindowsXP中已包含可靠的語音識別技術(shù),如果已成功做好必要的設(shè)置,就可以在MicrosoftWord中,啟用語音識別功能。在WindowsVista中已部署八個(gè)語種版本的語音識別軟件,這是微軟首次將語音識別嵌入操作系統(tǒng),Vista用戶可以用語音控制系統(tǒng)命令和輸入文本。WindowsVista可引導(dǎo)用戶進(jìn)行語音適應(yīng)性訓(xùn)練,以幫助計(jì)算機(jī)優(yōu)化識別用戶口音。
4.4圖像信息的處理
4.4.1數(shù)字圖形、圖像文件的格式數(shù)字圖像按照圖面元素的組成可以分為兩類,即矢量式圖像(VectorImage)和點(diǎn)陣式圖像(RasterImage)。矢量式圖像就是利用數(shù)學(xué)的矢量方式來記錄圖像內(nèi)容,因此它的文件所占的容量較小,處理時(shí)需要的內(nèi)存也少,另外在放大縮小或者旋轉(zhuǎn)以后不失真,所以適合于制作3D圖像以及以線條和色塊為主的圖像。點(diǎn)陣式圖像的圖面由許多小點(diǎn)即像素組成,每一個(gè)像素都有自己的色彩。
4.4.1數(shù)字圖形、圖像文件的格式常見的圖形文件格式:BMP、DIB、PCP、DIF、WMF、GIF、JPG、TIF、EPS、PSD、CDR、IFF、TGA、PCD、MPT等。數(shù)字圖像數(shù)據(jù)壓縮類型數(shù)字圖像中的數(shù)據(jù)相關(guān)性很強(qiáng),冗余度大;人眼視覺有一定局限性,即使壓縮圖像有失真,只要限制在人眼允許的誤差范圍之內(nèi),也是允許的。數(shù)據(jù)壓縮可分為兩種類型:一種叫做無損壓縮;另一種叫做有損壓縮。
數(shù)字圖像數(shù)據(jù)壓縮類型無損壓縮是指使用壓縮后的數(shù)據(jù)進(jìn)行重構(gòu)(或者叫做還原,解壓縮)。重構(gòu)后的數(shù)據(jù)與原來的數(shù)據(jù)完全相同;無損壓縮用于要求重構(gòu)的信號與原始信號完全一致的場合。一個(gè)常見的例子就是磁盤文件的壓縮。根據(jù)目前的技術(shù)水平,無損壓縮算法一般可以把普通文件的數(shù)據(jù)壓縮到原來的1/2—1/4。一些常見的無損壓縮算法有霍夫曼(Huffman)算法和LZW(Lempel-Ziv&Welch)算法。數(shù)字圖像數(shù)據(jù)壓縮類型有損壓縮是指使用壓縮后的數(shù)據(jù)進(jìn)行重構(gòu),重構(gòu)后的數(shù)據(jù)與原來的數(shù)據(jù)有所不同,但是不影響人對原始資料表達(dá)的信息造成誤解。有損壓縮適用于重構(gòu)信號不一定非要和原始信號完全相同的場合。例如,圖象和聲音的壓縮就可以采用有損壓縮,因?yàn)槠渲邪臄?shù)據(jù)往往多于我們的視覺系統(tǒng)和聽覺系統(tǒng)所能接收的信息,丟掉一些數(shù)據(jù)而不至于對聲音或者圖像所表達(dá)的意思產(chǎn)生誤解,但可大大提高壓縮比。數(shù)字圖像數(shù)據(jù)壓縮類型JPEG標(biāo)準(zhǔn)——多灰度靜止圖像的數(shù)字壓縮編碼,這是一個(gè)適用于彩色和單色多灰度或連續(xù)色調(diào)靜止數(shù)字圖像的壓縮標(biāo)準(zhǔn)。它包含兩部分:第一部分是無損壓縮,即基于空間線性預(yù)測技術(shù)的無失真壓縮算法,這種算法的壓縮比很低;第二部分是有損壓縮,這是基于離散余弦變換(DCT)和霍夫曼編碼的有損壓縮,也是目前主要應(yīng)用的一種算法。這后一種算法進(jìn)行圖像壓縮信息雖然有所損失,但是壓縮比可以很大,例如壓縮比在20:1時(shí),眼睛基本上看不出失真。4.4.3數(shù)字圖像的獲取多媒體應(yīng)用中所需的數(shù)字圖像的獲取過程也就是從現(xiàn)實(shí)世界中獲得數(shù)字圖像的過程。這種模擬信號的數(shù)字化轉(zhuǎn)化過程可以通過多種途徑獲取,如購置存儲在CD-ROM或DVD-ROM光盤上的數(shù)字化圖像庫;利用圖像編輯軟件進(jìn)行自由創(chuàng)建;采用彩色掃描儀將照片或藝術(shù)作品掃描后得到數(shù)字圖像;利用電視攝像機(jī)捕捉實(shí)時(shí)圖像等。4.4.4數(shù)字圖像處理軟件---PhotoshopCSPhotoshop是Adobe公司開發(fā)的平面圖形圖像處理軟件,它集圖像的采集、編輯和特效處理于一身,并能在位圖圖像中合成可編輯的矢量圖形,是多媒體圖形圖像重要的處理工具之一。自Photoshop7.0之后,新版本的軟件被命名為AdobephotoshopCS。這是因?yàn)閜hotoshopCS除了作為一個(gè)單獨(dú)的產(chǎn)品外,還可以作為新的AdobeCreativeSuite的一部分。1.Photoshop的功能與特點(diǎn)
AdobephotoshopCS被譽(yù)為目前最強(qiáng)大的圖像處理軟件之一,具有十分強(qiáng)大的圖像處理功能。Photoshop具有廣泛的兼容性,采用開放式結(jié)構(gòu),能外掛其他處理軟件和圖像輸入輸出設(shè)備。Adobe公司給設(shè)計(jì)師們帶來了很大的驚喜,PhotoshopCS新增了許多強(qiáng)有力的功能:能夠支持多種圖像格式以及多種色彩模式;提供了強(qiáng)大的選取圖像范圍的功能;可以對圖像進(jìn)行色調(diào)和色彩的調(diào)整,使色相、飽和度、亮度、對比度的調(diào)整成為舉手之勞;提供了自由馳騁的繪畫功能;PhotoshopCS
完善了圖層、通道、蒙版功能和強(qiáng)大的濾鏡功能;特別是對于攝影師來講,這次它大大突破了以往Photoshop系列產(chǎn)品更注重平面設(shè)計(jì)的局限性,對數(shù)碼暗房的支持功能有了極大的加強(qiáng)和突破。2.PhotoshopCS的工作環(huán)境與界面在Windows“開始”菜單的程序中選擇“AdobePhotoshopCS”,就可以啟動(dòng)Photoshop程序,屏幕顯示Photoshop主界面,如圖所示。界面中包括標(biāo)題欄、菜單欄、工具選項(xiàng)欄、工具欄、控制面板、圖像編輯窗口和狀態(tài)欄等幾部分。控制面板標(biāo)題欄菜單欄工具選項(xiàng)欄工具箱狀態(tài)欄圖像編輯窗口菜單欄組成PhotoshopCS主窗口中的菜單欄為整個(gè)環(huán)境下的所有窗口提供菜單控制。這些菜單可以方便地管理整個(gè)主窗口的布局,配置PhotoshopCS環(huán)境,進(jìn)行圖像屬性設(shè)置,執(zhí)行圖像處理命令,獲得在線幫助等??旖莶藛?/p>
工具箱組成
工具箱是PhotoshopCS的強(qiáng)力武器,隨著其版本的不斷提高,工具箱的工具都有很大調(diào)整。工具越來越多,操作越來越簡潔,功能不斷提高。工具箱中包含了Photoshop中所有的畫圖和編輯工具(如圖所示)把鼠標(biāo)放在工具圖標(biāo)上停留片刻,就會自動(dòng)顯示出該工具的名稱和對應(yīng)的快捷鍵。工具箱中的一個(gè)工具的選項(xiàng)顯示在上下文相關(guān)的工
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度BIM在歷史文化遺址保護(hù)合同范本3篇
- 專項(xiàng)2024民用爆破器材供應(yīng)及服務(wù)協(xié)議版
- 個(gè)人工程承包合同(2024版)版B版
- 2024年節(jié)能減排服務(wù)協(xié)議
- 2025年度劇本改編權(quán)授權(quán)合同3篇
- 2024音樂噴泉景區(qū)旅游紀(jì)念品開發(fā)與銷售合同3篇
- 二零二五年度線上線下整合營銷方案合作協(xié)議2篇
- 2025年度廠房裝修工程臨時(shí)用電及安全管理合同4篇
- 2025年現(xiàn)代化廠房購置及安裝服務(wù)合同范本二3篇
- 2025年度新能源設(shè)備買賣合同規(guī)范范本4篇
- 高考詩歌鑒賞專題復(fù)習(xí):題畫抒懷詩、干謁言志詩
- 2023年遼寧省交通高等??茖W(xué)校高職單招(英語)試題庫含答案解析
- GB/T 33688-2017選煤磁選設(shè)備工藝效果評定方法
- GB/T 304.3-2002關(guān)節(jié)軸承配合
- 漆畫漆藝 第三章
- CB/T 615-1995船底吸入格柵
- 光伏逆變器一課件
- 貨物供應(yīng)、運(yùn)輸、包裝說明方案
- (完整版)英語高頻詞匯800詞
- 《基礎(chǔ)馬來語》課程標(biāo)準(zhǔn)(高職)
- IEC61850研討交流之四-服務(wù)影射
評論
0/150
提交評論