多媒體通信技術_第1頁
多媒體通信技術_第2頁
多媒體通信技術_第3頁
多媒體通信技術_第4頁
多媒體通信技術_第5頁
已閱讀5頁,還剩388頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、關于多媒體通信技術第一張,PPT共三百九十三頁,創(chuàng)作于2022年6月第一章 多媒體通信技術概述第二章 音頻技術基礎第三章 圖像技術基礎第四章 視頻信息壓縮與處理 第五章 多媒體通信系統(tǒng)中的關鍵技術 第六章 多媒體通信網絡技術 第七章 多媒體數據的分布式處理 第八章 多媒體通信應用系統(tǒng) 本書章節(jié)第二張,PPT共三百九十三頁,創(chuàng)作于2022年6月第一章 多媒體通信技術概述多媒體技術的概念多媒體通信系統(tǒng)的概念及主要特征多媒體通信中的關鍵技術多媒體通信的應用多媒體通信技術的發(fā)展趨勢第三張,PPT共三百九十三頁,創(chuàng)作于2022年6月1.1 多媒體通信的基本概念1媒體 “媒體”是指信息傳遞和存儲的最基本的

2、技術和手段,即信息的載體。媒體可劃分為5大類:(1) 感覺媒體(perception medium)感覺媒體是指人類通過其感覺器官,如聽覺、視覺、嗅覺、味覺和觸覺器官等直接產生感覺(感知信息內容)的一類媒體,包括:聲音、文字、圖像、氣味、冷熱等。 (2) 表示媒體(representation medium) 表示媒體是指用于數據交換的編碼表示,包括:圖像編碼、文本編碼、聲音編碼等。其目的是為了能有效地加工、處理、存儲和傳輸感覺媒體。(3) 顯示媒體(presentation medium) 顯示媒體是指進行信息輸入和輸出的媒體。輸入媒體包括:鏈盤、鼠標、攝像頭、話筒、掃描儀、觸摸屏等,輸出媒

3、體包括:顯示屏、打印機、揚聲器等。 第四張,PPT共三百九十三頁,創(chuàng)作于2022年6月(4) 存儲媒體(storage medium) 存儲媒體是指進行信息存儲的媒體。包括:硬盤、光盤、軟盤、磁帶、ROM、RAM等。(5) 傳輸媒體(transmission medium) 傳輸媒體是指承載信息,將信息進行傳輸的媒體。包括:雙絞線、同軸電纜、光纜、無線電鏈路等。 在多媒體技術中的“多媒體”通常是指感覺媒體的組合,即聲音、文字、圖像、數據等各種媒體的組合。2多媒體(Multimedia) “多媒體技術”的定義:所謂多媒體技術就是計算機交互式綜合處理多媒體媒體信息文本、圖形、圖像和聲音,使多種信息

4、建立邏輯連接,集成為一個系統(tǒng)并具有交互性。簡而言之,多媒體技術就是計算機綜合處理聲、文、圖 信息的技術,具有集成性、實時性和交互性的特點。第五張,PPT共三百九十三頁,創(chuàng)作于2022年6月多媒體技術最簡單的表現形式就是多媒體計算機。多媒體計算機相對于普通計算機的一個根本不同點在于在多媒體計算機中增加了對活動圖像(包括伴音在內)的處理、存儲和顯示的能力,其硬件配以聲卡、視頻采集卡等。其主要特征體現在它能夠有效地對電視圖像數據進行實時的壓縮和解壓縮,并能夠使在時間上有相關性的多種媒體保持同步。 3多媒體通信 多媒體通信技術是多媒體技術、計算機技術、通信技術和網絡技術等相互結合和發(fā)展的產物。 多媒體

5、通信系統(tǒng)同時具有以下三個特征:集成性交互性同步性第六張,PPT共三百九十三頁,創(chuàng)作于2022年6月集成性:主要是對各類信息進行存儲、傳輸、處理、顯現的能力。 1)內容數據信息:文本、圖形、靜止圖像與二值圖像、聲音、運動圖像 。 2)多媒體和超媒體信息:是結構化信息,由結構框架+內容數據組成。 3)腳本信息 4)特定的應用信息第七張,PPT共三百九十三頁,創(chuàng)作于2022年6月交互性:指的是在通信中使用者與系統(tǒng)之間的相互溝通的特性,它使用戶可以更有效地控制和使用信息,增加對信息的注釋和理解。 交互性有兩個方面的內容:人機接口:也就是人在使用系統(tǒng)的終端時,系統(tǒng)向用戶提供的操作界面。通信協(xié)議:用戶終端

6、與系統(tǒng)之間的應用層通信協(xié)議。第八張,PPT共三百九十三頁,創(chuàng)作于2022年6月同步性:多媒體通信終端上顯現的圖象、聲音和文字等信息是以同步方式工作。檢索“劉謙 春晚”,顯示多媒體信息,各信息同步顯示。第九張,PPT共三百九十三頁,創(chuàng)作于2022年6月1多媒體數據壓縮技術 數據壓縮的必要性和可能性。1.2 多媒體通信中的關鍵技術第十張,PPT共三百九十三頁,創(chuàng)作于2022年6月多媒體信息的特點1.多媒體信息的類型 文本、圖形、圖像、動畫、聲音、視頻2. 常用多媒體處理軟件 CorelDraw Illustrator 圖形類圖像類photoshop ACDSee 第十一張,PPT共三百九十三頁,創(chuàng)

7、作于2022年6月多媒體信息的特點 動畫類二維動畫Flash ANIMO 三維動畫3ds max mayaCooledit pro VEGAS 聲音類影視編輯類交互演示類Authorware director flashPremiere after effect 編程類Vb VC Delphi Java第十二張,PPT共三百九十三頁,創(chuàng)作于2022年6月3. 多媒體信息的特點多媒體數據類型復雜(多樣性) 多媒體數據種類繁多也決定了多媒體數據表示的復雜性多媒體數據的實時性 由于在多媒體技術中新引入的復雜媒體類型大部份都含有與時間有關的信息,因此在許多場合都要求實時處理第十三張,PPT共三百九十三

8、頁,創(chuàng)作于2022年6月3. 多媒體信息的特點多媒體數據的同步性 另一由于引入與時間有關的媒體而形成的重要特點數據量大 多媒體系統(tǒng)需要大量的存儲空間來存放復雜類型的數據多媒體數據的交互性碼率可變、突發(fā)性強 人們講話時的停頓、 所傳場景圖像中物體的運動等都會形成碼流速率的波動, 而且這種波動往往呈現出極強的突發(fā)性。第十四張,PPT共三百九十三頁,創(chuàng)作于2022年6月信息壓縮的必要性由于多媒體數據量非常大,造成計算機的存儲和網絡傳輸負擔若幀速率為25幀秒,則1s的數據量大約為25MB,一個640MB的光盤只能存放大約25s的動態(tài)圖像一幅640480分辨率的24位真彩色圖像的數據量約為900KB;一

9、個100MB的硬盤只能存儲約100幅靜止圖像畫面解決辦法之一就是進行數據壓縮,壓縮后再進行存儲和傳輸,到需要時再解壓、還原。第十五張,PPT共三百九十三頁,創(chuàng)作于2022年6月表1 各種信號的特性和未壓縮速率第十六張,PPT共三百九十三頁,創(chuàng)作于2022年6月信息壓縮的必要性 從上圖可以看出: 未進行任何形式編碼和壓縮的窄帶語音信號需要128 kb/s的速率, 即兩倍于普通電話的速率。 信號未被壓縮的寬帶話音需要256 kb/s的速率, 未壓縮的雙聲道立體聲CD音頻需要1.41 Mb/s的速率。 在保持原始信號質量的前提下, 窄帶語音可以壓縮到4 kb/s(301的壓縮比), 寬帶話音可以壓縮

10、到約16 kb/s(151的壓縮比), CD音頻可以壓縮到64 kb/s(221的壓縮比)。顯然, 多媒體信號在進行有效的存儲和傳輸之前, 必須進行處理, 而最關鍵的處理方法是進行數據壓縮。第十七張,PPT共三百九十三頁,創(chuàng)作于2022年6月信息壓縮的可行性 研究表明,一個文件所包含的數據量并不等于它所包含的信息量,數據中通常包含很大的冗余,其關系如: D=I+r 其中D為數據量, I為信息量,r為冗余量。壓縮:在多媒體信息中包含大量冗余的信息,把這些冗余的信息去掉的過程。 第十八張,PPT共三百九十三頁,創(chuàng)作于2022年6月信息壓縮的可行性音頻、圖像和視頻數據中存在的冗余主要有以下幾種:(1

11、)空間冗余 圖象本身的數據冗余 在任何一幅圖像中, 均有許多灰度或顏色都相同的鄰近像素組成的局部區(qū)域, 它們形成了一個性質相同的集合塊, 即它們之間具有空間(或空域)上的強相關性, 在圖像中就表現為空間冗余??臻g冗余的壓縮方法:把這種局部區(qū)域集合塊當作一個整體, 用極少的數據量來表示, 從而節(jié)省存儲空間。 這種壓縮方法叫空間壓縮或幀內壓縮, 它的基本點就在于減少鄰近像素之間的空間(或空域)相關性。第十九張,PPT共三百九十三頁,創(chuàng)作于2022年6月信息壓縮的可行性該圖為一張俯視圖, 圖中央的黑色是一塊表面均勻的積木塊, 在圖中, 黑色區(qū)域所有點的表示數據差不多都是相同的, 因而黑色區(qū)域的數據表

12、達有很大的冗余。第二十張,PPT共三百九十三頁,創(chuàng)作于2022年6月信息壓縮的可行性(2)時間冗余 序列圖像和語音數據中包含的冗余。 活動圖像(視頻)中的兩幅相鄰圖像之間存在的相關性或一段時間內連續(xù)音頻存在的相關性。第二十一張,PPT共三百九十三頁,創(chuàng)作于2022年6月信息壓縮的可行性(3)信息熵冗余 信息熵冗余也稱為編碼冗余,它是指一塊數據所攜帶的信息量少于數據本身所產生的冗余。例如,利用等長碼表示信息就比不等長碼如Huffman編碼表示信息量存在冗余。(4)結構冗余 指圖象各部分結構上的類似性所產生的冗余,例如物體表面圖象上的紋理結構。 第二十二張,PPT共三百九十三頁,創(chuàng)作于2022年6

13、月信息壓縮的可行性(5)知識冗余 指某些圖象的結構可由這些圖象的先驗知識和背景知識獲得。 例:汽車圖象的結構可由汽車的先驗知識和背景知識得到。這種冗余稱為知識冗余。 例: 人臉的圖像有固定的結構, 嘴的上方有鼻子, 鼻子的上方有眼睛, 鼻子位于正臉圖像的中線上等等。 這類規(guī)律的結構可由先驗知識和背景知識得到, 因此這類信息對一般人來說是冗余信息。第二十三張,PPT共三百九十三頁,創(chuàng)作于2022年6月信息壓縮的可行性(6)視覺聽覺冗余 視覺聽覺冗余是指人的視覺、聽覺分辨率低于實際圖象、音頻的分辨率所產生的冗余。例如,人的視覺對灰度等級的分辨率是2個等級,而一般圖象量化所采用灰度等級是2等級。 例

14、如, 人的視覺對于圖像邊緣的急劇變化不敏感, 對圖像的亮度信息敏感, 對顏色的分辨率較弱等。 因此, 如果圖像經壓縮或量化發(fā)生的變化(或稱引入了噪聲)不能被視覺所感覺, 則認為圖像質量是完好的或是夠好的, 即圖像壓縮并恢復后仍有滿意的主觀圖像質量。(7) 其他冗余第二十四張,PPT共三百九十三頁,創(chuàng)作于2022年6月4. 壓縮的種類無損壓縮 也稱為冗余壓縮或無失真壓縮。冗余壓縮法去掉或者減少了數據中的冗余,但這些冗余數據是用特定的方法重新插入到數據中。冗余壓縮是可逆的,它能保證百分之百地恢復原始數據。 在多媒體技術中,一般用于文本的壓縮。但這種方法壓縮比較低。常用的壓縮編碼方法有LZW編碼、行

15、程編碼、霍夫曼(Huffman)編碼等,壓縮比一般在2:15:1之間。第二十五張,PPT共三百九十三頁,創(chuàng)作于2022年6月有損壓縮 也稱為有失真壓縮或熵壓縮法。壓縮了熵,會減少信息量,而損失的信息量是不能恢復的,因此這種壓縮方法是不可逆的。 這種方法適合對圖像、聲音、動態(tài)視頻等數據進行壓縮,對動態(tài)視頻的壓縮比可達到50:1200:1。當然,對多媒體數據進行有損壓縮后,就涉及到壓縮質量的問題,一般的要求是壓縮后的內容不應該影響人們對信息的理解。第二十六張,PPT共三百九十三頁,創(chuàng)作于2022年6月數據壓縮的主要指標 有較高的壓縮比、壓縮和解壓縮時間短、解壓縮后信息恢復質量高是評價壓縮好壞的主要

16、方面。1. 有較高的壓縮比 即壓縮前后的數據量之比,如果文件的大小為1MB,經過壓縮處理后變成0.5MB,那么壓縮比為2:1。高的壓縮比是數據壓縮的根本目的,無論從哪個角度看,在同樣壓縮效果的前提下,數據壓縮得越小越好。當然還要考慮多媒體數據壓縮后的輸入和輸出表示方式。第二十七張,PPT共三百九十三頁,創(chuàng)作于2022年6月數據壓縮的主要指標2. 解壓縮后信息恢復質量高 對于文本等文件,特別是是程序文件,是不允許在壓縮和解壓縮過程中丟失信息的。因此需要采用無損壓縮,不存在壓縮后恢復質量的問題。對于圖像、聲音和視頻影像,數據經過壓縮后允許信息的部分丟失。在這種情況下,信息經解壓縮后不可能完全恢復,

17、壓縮和解壓縮質量就不能不考慮。因此,是否具有好的恢復質量是數據壓縮的另一個重要指標。第二十八張,PPT共三百九十三頁,創(chuàng)作于2022年6月表2 圖像主觀評價性能表 主觀評價分 質量尺度 妨礙觀看尺度 5 非常好 絲毫看不出圖像質量變壞 4 好 能看出圖像質量變化,但不妨礙觀看 3 一般 清楚地看出圖像質量變壞,對觀看稍有妨礙 2 差 對觀看有妨礙 1 非常差 非常嚴重地妨礙觀看第二十九張,PPT共三百九十三頁,創(chuàng)作于2022年6月數據壓縮的主要指標3. 壓縮和解壓縮時間短 數據的壓縮和解壓縮是在一定數學模型的基礎上,通過一系列數學運算實現的。計算方法的好壞直接關系到壓縮和解壓縮過程所需要的時間

18、。第三十張,PPT共三百九十三頁,創(chuàng)作于2022年6月數據壓縮的主要指標 有較高的壓縮比、壓縮和解壓縮時間短、解壓縮后信息恢復質量高是評價壓縮好壞的主要方面。1. 有較高的壓縮比 即壓縮前后的數據量之比,如果文件的大小為1MB,經過壓縮處理后變成0.5MB,那么壓縮比為2:1。高的壓縮比是數據壓縮的根本目的,無論從哪個角度看,在同樣壓縮效果的前提下,數據壓縮得越小越好。當然還要考慮多媒體數據壓縮后的輸入和輸出表示方式。第三十一張,PPT共三百九十三頁,創(chuàng)作于2022年6月1.2 多媒體通信中的關鍵技術視頻壓縮 從圖像壓縮編碼的發(fā)展過程看,可以分為三個階段,即第一代、第二代、第三代圖像壓縮編碼方

19、法。第一代圖像壓縮編碼方法以仙農信息論為基礎,考慮圖像信源的統(tǒng)計特性,采用預測編碼、變換編碼、矢量量化編碼、子帶編碼、小波變換編碼、神經網絡編碼等方法。第一代圖像壓縮編碼方法于80年代初已趨于成熟,目前利用第一代技術對視頻圖像的壓縮可以得到848Kb/s的最低碼率。 第二代圖像壓縮編碼方法充分考慮了人眼的視覺特性,從人類的主觀特性出發(fā),采用基于方向濾波的圖像編碼方法和基于圖像輪廓紋理的編碼方法,利用第二代圖像壓縮編碼方法可以獲得極低碼率的圖像數據,目前第二代技術尚未發(fā)展到成熟的階段。 第三代圖像壓縮編碼方法考慮到了圖像傳遞的景物特征,采用分形編碼方法和基于模型的編碼方法,其中基于模型的壓縮編碼

20、方法是目前最活躍的研究領域,代表著新一代的壓縮編碼方向。第三十二張,PPT共三百九十三頁,創(chuàng)作于2022年6月有關圖像壓縮編碼的國際標準主要有:JPEG、H.261、H.263、MPEG-1、MPEG-2/H.262、MPEG-4等。MPEG-7和MPEG-21是MPEG系列標準中的新成員,MPEG-7的正式名稱為“多媒體內容描述接口”,用于描述多媒體內容數據。MPEG-21即“多媒體框架”,這一概念是在1999年10月的MPEG會議上提出的,它是一種用于協(xié)調處于不同地點、與不同類型的網絡相聯接的各種設備間進行多媒體信息交互的綜合性標準。音頻壓縮 基本上與圖像壓縮編碼技術相同,不同之處在于圖像

21、信號是二維信號,而音頻信號是一維信號。相比較而言,其數據壓縮難度較低。涉及的聲音壓縮編碼的國際標準主要有:G. 711、G. 721、G. 722、G. 728、G. 729、G. 723.1等。第三十三張,PPT共三百九十三頁,創(chuàng)作于2022年6月2多媒體數據的獲取與顯示技術 多媒體數據的獲取與顯示主要指人機交互的界面,它介于用戶和計算機系統(tǒng)之間。用戶通過人機界面向系統(tǒng)提供命令、數據等輸入信息,系統(tǒng)則將輸出信息通過人機界面呈現給用戶。 字符界面,輸入工具是鍵盤 圖形化界面,輸入工具是鼠標、跟蹤球、電子筆、觸摸屏、攝像頭和視音頻采集卡等;輸出手段可采用聲音、圖形圖像以及活動視頻作為信息的顯示形

22、式。 文字識別技術 語音識別技術第三十四張,PPT共三百九十三頁,創(chuàng)作于2022年6月3多媒體數據庫及其檢索技術傳統(tǒng)的數據庫管理系統(tǒng)管理多媒體數據的方法的局限性,集中表現在以下三個方面。 第一,多媒體數據所包含的信息量非常大,用人工注釋難以準確描述; 第二,多媒體數據隨時變化,因而難以統(tǒng)計及預測; 第三,多媒體數據內部有各種復雜的時域、空域以及基于內容的約束關系,傳統(tǒng)的數據庫系統(tǒng)未曾涉及到這些方面。由此開發(fā)出新的多媒體數據庫系統(tǒng),同時基于內容的多媒體信息檢索研究方案也應運而生。第三十五張,PPT共三百九十三頁,創(chuàng)作于2022年6月多媒體數據的內容包括概念級內容、感知特性(例如圖像的顏色、紋理,

23、聲音的音色、音質等)、邏輯關系(例如音視頻對象的時空關系等)、信號特征(通過信號處理方法例如小波變換獲得的媒體特征)、特定領域的特征(與應用相關,例如人的面部特征、指紋特征)等。4多媒體通信網絡技術隨著視頻會議、視頻點播、遠程教育等多媒體網絡應用的開展,能夠滿足多媒體應用需要的通信網絡必須具有高帶寬、可提供服務質量的保證、實現媒體同步等特點。第三十六張,PPT共三百九十三頁,創(chuàng)作于2022年6月目前的多媒體網絡應用主要涉及到網絡傳輸、服務質量、服務模式等方面的技術。因為傳統(tǒng)的基于分組交換的IP網絡只提供盡力而為型的服務,要在IP網上得到QoS的保證需要額外的協(xié)議或標準,目前有綜合服務模型(In

24、tServ)/RSVP、區(qū)分服務模型(DiffServ)、多協(xié)議標簽交換MPLS等,而IETF新公布的IPv6協(xié)議則在一定程度上滿足了QoS的服務質量要求。對于電路交換網,則通過已有的ITU-T H.32X和T.120等相關的系列標準來獲得有保證的服務質量。而ATM網從協(xié)議本身就考慮了對多媒體應用的支持,可以為多媒體應用預留資源。多媒體應用還需要組播服務,其發(fā)展是多媒體應用的趨勢。目前,應用在傳統(tǒng)IP分組網上的組播技術正在得到進一步的研究和推廣,相關的協(xié)議有因特網組管理協(xié)議IGMP(Internet Group Management Protocol),組播路由協(xié)議DVMRP、MOSPF、PI

25、M和CBT等。ATM網的組播技術也是研究的一個重要內容,其信令控制已經可以采用組播技術,但是數據分發(fā)的組播技術還沒有成熟。以軟交換為核心的NGN網絡為多媒體通信開辟了更廣闊的天地。 第三十七張,PPT共三百九十三頁,創(chuàng)作于2022年6月5多媒體信息存儲技術 既要保證存儲設備的存儲容量足夠大,還要保證存儲設備的速度要足夠快,帶寬要足夠寬。滿足上述要求的存儲設備有多種,包括硬盤、光盤、磁帶、冗余磁盤陣列和存儲區(qū)域網絡等。6多媒體數據的分布式處理技術 用于分布式多媒體系統(tǒng)的業(yè)務多種多樣,不同業(yè)務所用的多媒體終端也各不相同。目前常用的多媒體終端有多媒體計算機終端以及針對某種特定應用的專用設備,如機頂盒

26、、可視電話終端設備等。終端的軟件平臺則包括系統(tǒng)軟件以及各種應用軟件,其中操作系統(tǒng)是軟件的核心。 多媒體操作系統(tǒng)有Apple公司的QuickTime、微軟公司的Windows XP等。微軟公司于2004年推出的Windows XP Media Center Edition 2004操作系統(tǒng)是專為多媒體個人電腦設計的。 流媒體技術也是一種分布式多媒體技術,它主要解決了在多媒體數據流傳輸過程中所占帶寬寬,用戶下載數據等待時間長的問題。 第三十八張,PPT共三百九十三頁,創(chuàng)作于2022年6月1.3 多媒體通信的應用多媒體通信系統(tǒng)的應用非常廣泛,可以提供VOD視頻點播,遠程教學、遠程辦公、遠程醫(yī)療、多媒

27、體電子郵件、可視電話、桌面視頻會議,數字圖書館、電子百科書等多種多樣的業(yè)務。第三十九張,PPT共三百九十三頁,創(chuàng)作于2022年6月 多媒體通信的體系結構 傳輸網絡:它是體系結構的最低層,它為多媒體通信的實現提供了最基本的物理環(huán)境。 網絡服務平臺:該層主要提供各類網絡服務,是用戶能直接使用這些服務內容,而無需知道底層傳輸網絡是怎么提供這些服務的,即網絡服務平臺的創(chuàng)建使傳輸網絡對用戶來說是透明的。 多媒體通信平臺:該層主要提供其通信支援(如多媒體信息處理),并支持各類多媒體的應用。 一般應用:指人們常見的一些多媒體應用。如多媒體文本檢索。 特殊應用:指業(yè)務性較強的某些多媒體應用。如電子郵件。第四十

28、張,PPT共三百九十三頁,創(chuàng)作于2022年6月多媒體通信的體系結構 第四十一張,PPT共三百九十三頁,創(chuàng)作于2022年6月作業(yè)1、什么是媒體?根據原CCITT的定義,媒體可劃分為哪幾大類?它們是如何描述的?2、多媒體通信系統(tǒng)如何構成的?簡述其主要特征。3、試舉出一兩種多媒體通信系統(tǒng)的具體應用,并從中分析多媒體通信技術對人類社會的影響。第四十二張,PPT共三百九十三頁,創(chuàng)作于2022年6月第二章 音頻技術基礎音頻信息涉及人耳所能聽到的聲音信息,包括語聲和樂聲。據統(tǒng)計,人類從外界獲得的信息大約有16%是從耳朵得到的,由此可見音頻信息在人類獲得信息方面的重要性。第四十三張,PPT共三百九十三頁,創(chuàng)作

29、于2022年6月2.1 聲學基礎知識2.1.1 音頻信號特性頻域特性是指的聲音信號是由很多的正弦分量組成的。從頻譜分析來看,大多數聲音都是由線狀譜和連續(xù)譜組成的。從幅度來看,連續(xù)譜相比于線狀譜來說比較弱,使整個聲音在人耳的聽覺來看是表現出有明確音高的有調音的特性。但這些很弱的連續(xù)譜還是不能一概忽略的。正是有了這些連續(xù)頻譜成分,使聲音顯得生動、活潑、真實。常用聲波頻率、聲壓、聲強等參數來描述聲音。聲波頻率是常用的描述聲音的參量。人耳對聲波頻率的感覺是有界限的。從人耳的聽覺特性我們知道,人耳所能感受到的聲音的頻率范圍在2020范圍內。低于20和高于20的聲音,人耳是聽不到的。 聲壓及聲壓級SPL(

30、Sound Pressure Level)也是常用的聲音描述參量。簡單來說,聲壓就是聲音的壓力。聲壓級SPL是為了很好的描述人耳對聲音的感覺所使用的物理量。研究人耳對聲音強弱的感覺是用聲壓及聲壓級來說明的。它是用來說明當聲音的強弱出現線性的變化時,人耳對這種聲音強弱線性的變化感覺是否也是線性的。第四十四張,PPT共三百九十三頁,創(chuàng)作于2022年6月能引起人耳聽到聲音時的聲壓稱為聽閾,頻率1kHz時的聽閾為210-5;將引起人耳疼痛的聲壓稱為痛閾,約為20。人耳對聲壓強弱變化的感覺并不是呈線性的。大體上來說,人耳對聲音強弱的感覺是與聲壓有效值的對數成比例的。為適應人耳的這一特性,就對聲壓有效值取

31、對數,用此對數值來表示聲音的強弱。這種表示聲音強弱的對數值就叫做聲壓級。人耳的聽閾和痛閾分別對應的聲壓級為0dB和120dB。 第四十五張,PPT共三百九十三頁,創(chuàng)作于2022年6月2.1.2 人耳聽覺特性響度、音調和音色稱為人耳聽覺特性的三要素。一般來說,客觀物理量的聲壓或聲強、頻率、波形(頻譜結構)和主觀感覺的三要素響度、音調、音色相對應。1、人耳對聲音強弱的感覺特性人耳對聲音強弱的感覺不是與聲壓成正比,而是與聲壓級成正比關系。2、響度、響度級響度是聽覺判斷聲音強弱的屬性。響度主要與引起聽覺的聲壓有關,也與聲音的頻率和聲音的波形有關。聲壓(級)是從客觀的角度來描述聲波的強弱的,而響度是從主

32、觀的角度來描述人耳對聲音強弱的感覺。一般來說,聲壓(級)大的聲音其響度也會較大,它們之間是有一定的關系,但并不完全一致。也就是說聲壓(級)大的聲音人耳的感覺不一定響。描述響度、聲壓以及聲音頻率之間關系的曲線稱為等響度曲線,也叫響度的靈敏度曲線。第四十六張,PPT共三百九十三頁,創(chuàng)作于2022年6月圖2-1 等響曲線第四十七張,PPT共三百九十三頁,創(chuàng)作于2022年6月3、人耳聽覺的掩蔽效應一個頻率聲音的聽閾由于另一個聲音的存在而上升的現象稱為掩蔽。當我們聽兩個頻率的聲音的時候,其中一個頻率的聲音很響,而另一個頻率的聲音較弱,盡管從聲強來說都超過了聽閾,但此時,我們只能聽到很響的那個頻率的聲音,

33、不很響的頻率的聲音是聽不到的,也就是說弱聲被強聲掩蔽掉了。對于純音來說,一般會有這樣的現象出現:頻率低的純音比較容易掩蔽頻率高純音,而頻率高的純音比較來說難掩蔽低頻率的純音。利用人耳對聲音的掩蔽效應,可以用有用的聲音信號去掩蔽那些無用的聲音信號。第四十八張,PPT共三百九十三頁,創(chuàng)作于2022年6月4、聲音質量評價在采用等級法MOS(Mean Opinion Score)進行評價時,通常設優(yōu),良,中,差,劣五個等級:5分表示質量極好,十分滿意;4分表示質量好,比較滿意;3分表示質量一般尚可接受;2分表示質量差勉強能聽;1分表示質量低劣無法忍受。圖2-3 中心頻率為1200Hz的帶有噪聲的掩蔽譜

34、第四十九張,PPT共三百九十三頁,創(chuàng)作于2022年6月2.2 音頻信息編碼分類1波形編碼波形編碼是基于對語音信號波形的數字化處理,試圖使處理后重建的語音信號波形與原語音信號波形保持一致。優(yōu)點是實現簡單、語音質量較好、適應性強等。缺點是話音信號的壓縮程度不是很高,實現的碼速率比較高。 常見的波形壓縮編碼方法有:脈沖編碼調制PCM、增量調制編碼DM、差值脈沖編碼調制DPCM、自適應差分脈沖編碼調制(ADPCM)、子帶編碼(SBC)和矢量量化編碼(VQ)等。 波形編碼的比特率一般在16至64之間,它有較好的話音質量與成熟的技術實現方法。當數碼率低于32的時候音質明顯降低,16 時音質就非常差了。 編

35、碼速率采樣頻率 編碼比特數 計算播放某個音頻信號所需要的存儲容量,公式為: 存儲容量播放時間速率8(字節(jié))第五十張,PPT共三百九十三頁,創(chuàng)作于2022年6月2、參數編碼參數編碼又稱聲源編碼,它是通過構造一個人發(fā)聲的模型,以發(fā)音機制的模型作為基礎,用一套模擬聲帶頻譜特性的濾波器系數和若干聲源參數來描述這個模型,在發(fā)送端從模擬語音信號中提取各個特征參量并對這些參量進行量化編碼,以實現語音信息的數字化。 特點是語音編碼速率較低,基本上在2kbits9.6kbits之間。在模型圖中,周期信號源表示濁音激勵源,隨機信號表示清音激勵源;u(n)表示波形產生的激勵參數,可以用清/濁音判決(u/v)來表示;

36、G是增益控制,代表語聲信號的強度;線性時變?yōu)V波器可以看作是聲道特性;ai是線性時變?yōu)V波器的系統(tǒng)參數;C(n) 是合成的語聲輸出。 第五十一張,PPT共三百九十三頁,創(chuàng)作于2022年6月參數編碼的典型代表是線性預測編碼LPC。第五十二張,PPT共三百九十三頁,創(chuàng)作于2022年6月3、混和編碼混和編碼將波形編碼和參量編碼結合起來,力圖保持波形編碼話音的高質量與參量編碼的低速率。采用混合編碼的編碼器有:多脈沖激勵線性預測編碼器(MPE-LPC),規(guī)則脈沖激勵線性預測編碼器(RPE-LPC),碼激勵線性預測編碼器(CELP),矢量和激勵線性預測編碼器(VSELP)和多帶激勵線性預測編碼器。以上三種壓縮

37、編碼的性能比較可以用下圖來表示:第五十三張,PPT共三百九十三頁,創(chuàng)作于2022年6月圖2-5 合成分析原理簡化框圖第五十四張,PPT共三百九十三頁,創(chuàng)作于2022年6月 2.3 常用壓縮編碼方法 速率低于64kb/的語聲數字化處理方法稱為音頻信息壓縮編碼。2.3.1 差值脈沖編碼調制DPCM和自適應差值脈沖編碼調制ADPCM差值脈沖編碼調制(DPCM)的基本出發(fā)點就是對相鄰樣值的差值進行量化編碼。由于此差值比較小,可以為其分配較少的比特數,進而起到了壓縮數碼率的目的。在具體的實現過程中,是對樣值與其對應的預測值的差值進行量化編碼的。對一個話音信號的樣值序列,當前樣值的預測值可以由其前面的若干

38、個樣值來進行預測,若樣值序列表示為: 為當前值,則對當前樣值完整的預測表達式由下式表示:第五十五張,PPT共三百九十三頁,創(chuàng)作于2022年6月 式中 為當前值 的預測值, 為當前值前面的N-1個樣值。 為預測系數,若預測系數隨輸入信號而變化時就是自適應預測。則當前值 與 預測值的差值表示為: 可以由一系列預測值得到其對應的差值。差分脈沖編碼調制就是對上面的一系列差值進行量化編碼,再進行存儲或傳輸。由于話音信號相鄰樣值之間有很強的相關性,所以預測值與實際值是很接近的,其差值也是很小,也就可以用比較少的比特數來進行編碼表示,這樣就減少了編碼的比特數。在接收端或在對數據進行回放時,可用類似的過程重建

39、原始數據。 第五十六張,PPT共三百九十三頁,創(chuàng)作于2022年6月實現差分脈沖編碼調制的系統(tǒng)方框圖如圖27所示: 第五十七張,PPT共三百九十三頁,創(chuàng)作于2022年6月預測系數的求法是預測估值的均方差為最小的預測系數 。為了進一步提高編碼的性能,將自適應量化技術和自適應預測技術結合在一起用于差分脈沖編碼調制DPCM中,從而實現了自適應差分脈沖編碼調制ADPCM。ADPCM的簡化原理框圖如圖所示。第五十八張,PPT共三百九十三頁,創(chuàng)作于2022年6月 2.3.2線性預測編碼 LPC如下圖所示。在線性預測編碼LPC中,將語聲信號劃分為濁音信號和清音信號。清音信號可以用白色隨機噪聲激勵信號來表示,濁

40、音信號可以用準周期脈沖序列激勵信號來表示。由于語聲信號是短時平穩(wěn)的,根據語聲信號的短時分析和基音提取方法,可以用若干的樣值對應的一幀來表示短時語聲信號。這樣,逐幀將語聲信號用基音周期Tp,清/濁音(u/v)判決,聲道模型參數ai和增益G來表示。對這些參進數行量化編碼,在接收端再進行語聲的合成。第五十九張,PPT共三百九十三頁,創(chuàng)作于2022年6月在LPC原理框圖的發(fā)送端,原始話音信號送入A/D變換器,以8kHz速率抽樣變成數字化語聲信號。以180個抽樣樣值為一幀,對應幀周期為22.5ms,以一幀為處理單元進行逐幀處理。完成每一幀的線性預測系數分析,并作相應的清/濁音(u/v)處理、基音(Tp)

41、提取,再對這些參量進行量化、編碼并送入信道傳送。在接收端,經參量譯碼分出參量ai、G、Tp、u/v,以這些參數作為合成語聲信號的參量,最后將合成產生的數字化語聲信號經D/A變換還原為語聲信號。第六十張,PPT共三百九十三頁,創(chuàng)作于2022年6月2.3.3 矢量量化VQ(Vector Quantization)編碼對單個采樣的樣值進行量化被稱為標量量化。所謂矢量量化VQ,是將輸入的信號樣值按照某種方式進行分組,把每個分組看作是一個矢量,并對該矢量進行量化。矢量量化編碼原理:在發(fā)送端,先將語音信號的樣值數據序列按某種方式進行分組,每個組假定有k個數據。這樣的一組數據就構成了一個k維矢量。每個矢量有

42、對應的下標,下標是用二進制數來表示的。把每個數據組所形成的矢量看作是一個碼字;這樣,語音數據所分成的組就形成了各自對應的碼字。把所有這些碼字進行排列,可以形成一個表,這樣的表就叫作碼本或碼書。在矢量量化編碼方法中,所傳輸的不是對應的矢量,而是對應每個矢量的下標。由于下標的數據相比于矢量本身來說,要小的多,所以這種方式就實現了數據的壓縮。第六十一張,PPT共三百九十三頁,創(chuàng)作于2022年6月在對碼本的描述中,構成碼本的碼字的數量稱為碼本的長度,用 來表示這個長度,則每個碼字的位置即其下標可以用 的二進制位來表示,每個碼字是由 個原始數據構成的。所以,矢量量化編碼的編碼速率可以低到 假設 ,表示是

43、有16個樣值數據構成的一個矢量; ,表示碼本的長度是256,碼本的下標用二進制來表示共有 bit,由于對每組數據只需要傳送下標,假定此時碼本已經構造好,則比特率為: 。 實現矢量量化的關鍵技術有兩個:一個是如何設計一個優(yōu)良的碼本,另一個是量化編碼準則。第六十二張,PPT共三百九十三頁,創(chuàng)作于2022年6月2.3.4 子帶編碼第六十三張,PPT共三百九十三頁,創(chuàng)作于2022年6月圖中發(fā)送端的n個帶通濾波器將輸入信號分為n個子頻帶,對各個對應的子帶帶通信號進行調制,將n個帶通信號經過頻譜搬移變?yōu)榈屯ㄐ盘?;對低通信號進行采樣、量化和編碼,得到對應各個子帶的數字流;再經復接器合成為完整的數字流。經過信

44、道傳輸到達接收端。在接收端,由分配器將各個子帶的數字流分開,由譯碼器完成各個子帶數字流的譯碼;由解調器完成信號的頻移,將個子帶搬移到原始頻率的位置上。各子帶相加就可以恢復出原來的語聲信號。 子帶編碼有幾個突出的優(yōu)點: 對不同的子帶分配不同的比特數可以很好控制各個子帶的量化電平數及重建信號時的量化誤差方差值,進而獲得更好的主觀聽音質量。 由于各個子帶相互隔開,使各個子帶的量化噪聲也相互獨立,互不影響,量化噪聲被束縛在各自的子帶內。這樣,某些輸入電平比較低的子帶信號不會被其它子帶的量化噪聲所淹沒。 子帶劃分的結果,使各個子帶的采樣頻率大大的降低。第六十四張,PPT共三百九十三頁,創(chuàng)作于2022年6

45、月2.3.5 感知編碼感知編碼(Perceptual Coding)是利用人耳聽覺的心理聲學特性(包括頻域掩蔽特性和時域掩蔽特性)。感知編碼是建立在人類聽覺系統(tǒng)的心理聲學基礎上的,只記錄那些能夠被人耳感覺到的聲音,從而達到壓縮數據量的目的。感知編碼的理論基礎是基于人耳的聞域、臨界頻段和掩蔽效應。臨界頻段反應了人耳對不同頻段聲音的反應靈敏度是有差異的:在低頻段對幾赫茲的聲音差異都能分辨,而在高頻段的差異要達到幾百赫茲才能分辨。試驗表明,低頻段的臨界頻段寬度有100Hz到200Hz,在大于5kHz后的高頻段的臨界頻段寬度有1000Hz到幾萬Hz。近3/4的臨界頻段低于5kHz。因此在編碼時要對低頻

46、段進行精細的劃分,而對高頻段的劃分不必精細。掩蔽包括頻域掩蔽和時域掩蔽。在頻域,一個強音會掩蔽掉與之接近的弱音,掩蔽特性與掩蔽音的強弱、掩蔽音的中心頻率以及掩蔽音與被掩蔽音的頻率相對位置有關。時域掩蔽是指掩蔽效應發(fā)生在掩蔽音與被掩蔽音不同時出現時,也稱為異時掩蔽。在編碼時,對被掩蔽的弱音不必進行編碼,從而達到數據壓縮的目的。在感知編碼中使用了心理模型。第六十五張,PPT共三百九十三頁,創(chuàng)作于2022年6月下圖是感知編碼的MPEG通用音頻編碼系統(tǒng)的結構框架:第六十六張,PPT共三百九十三頁,創(chuàng)作于2022年6月 圖中的時間/頻率映射完成將輸入的時間域音頻信號轉變?yōu)閬喨拥念l率分量,使用不同的濾波

47、器組來實現,其輸出的頻率分量也叫做子帶值或者頻率線。 心理聲學模型利用利用濾波器組的輸出和輸入的數字聲音信號計算出隨輸入信號而變化的掩蔽門限估值。 量化和編碼按照量化噪聲不超過掩蔽門限的原則對濾波器組輸出的子帶值(或頻率線)進行量化、編碼,目的是使量化的噪聲不會被人耳感覺到。 按幀打包來完成最后的編碼碼流。編碼碼流中除了要包括量化和編碼映射后的樣值外,還包括如比特分配等信息。 第六十七張,PPT共三百九十三頁,創(chuàng)作于2022年6月2.4音頻信息壓縮編碼標準2.4.1 波形編碼標準1、G.711標準 G.711標準是為脈沖編碼調制(PCM)制定的標準語音質量最好,但壓縮率很有限。2、G.721標

48、準 G.721標準是用于速率是64kb/s的PCM語音信號與速率是32kb/s的ADPCM語音信號之間的轉換。3、G.722標準 G.722標準是針對調幅廣播質量的音頻信號制定的壓縮標準,質量高于G.711標準和G.721標準。第六十八張,PPT共三百九十三頁,創(chuàng)作于2022年6月2.4.2 混和編碼標準1、G.728標準 G.728標準所涉及的音頻信息主要是應用于公共電話網中。采用的壓縮算法是低延時碼激勵線性預測(LD-CELP,Code Excitation Linear Prediction)技術。 G.729標準的碼率只有16kb/s。2、 G.729標準 G.729 就是ITU-T為

49、低碼率應用而制訂的語音壓縮標準。G.729標準的碼率只有8kb/s,其壓縮算法相比其它算法來說比較復雜,采用的基本算法仍然是碼激勵線性預測(CELP,Code Excitation Linear Prediction)技術。 3、G.723.1標準 G.723.1標準是ITU-T制定的多媒體通信標準中的一個組成部分,可應用于IP電話、H.623會議電視系統(tǒng)等通信系統(tǒng)中,碼率較低,分別為5.3kb/s和6.3kb/s。第六十九張,PPT共三百九十三頁,創(chuàng)作于2022年6月G.721 32kbit/s ADPCM原理第七十張,PPT共三百九十三頁,創(chuàng)作于2022年6月圖 2-14 G.728編碼器

50、結構第七十一張,PPT共三百九十三頁,創(chuàng)作于2022年6月G.723.1 標準語音編碼器原理第七十二張,PPT共三百九十三頁,創(chuàng)作于2022年6月G732.1 解碼器原理第七十三張,PPT共三百九十三頁,創(chuàng)作于2022年6月2.4.3 MPEG音頻編碼標準本章所描述的MPEG音頻是MPEG-1音頻、MPEG-2音頻和MPEG-2AAC音頻。MPEG音頻編碼是國際上公認的高保真立體聲音頻壓縮標準。為了實現高保真,它的音頻信號的采樣頻率有了很大的提高,音頻信號的頻率范圍也大大的增加。MPEG-1聲音標準規(guī)定其音頻信號采樣頻率可以有32kHz、44.1kHz或48kHz三種,音頻信號的帶寬可以選擇1

51、5kHz和20kHz。其音頻編碼分為3層:Laer-1、Layer-2和Layer-3。Laer-1的壓縮比為1:4,編碼速率為384kb/s;Layer 2的壓縮比為1:61:8之間,編碼速率為192256kb/s;Layer 3的壓縮比為1:101:12,壓縮碼率可以達到64kb/s。1MPEG-1聲音標準MPEG-1音頻編碼的信號頻帶是2020kHz,取樣頻率使用的是32kHz、44.1kHz和48kHz,采用的編碼算法是感知子帶編碼。Laer-1的編碼器最為簡單,主要用于小型數字盒式磁帶;Layer-2編碼器的復雜程度是中等,主要用于數字廣播音頻、數字音樂、只讀光盤交互系統(tǒng)和視盤;La

52、yer-3的編碼器最為復雜,主要用于ISDN上的聲音傳輸。第七十四張,PPT共三百九十三頁,創(chuàng)作于2022年6月MPEG音頻編碼采用了子帶編碼,共分為32個子帶。MPEG編碼的音頻數據是按幀安排的。Layer-1的每幀包含3212384個樣本數據,Layer-2和Layer-3每幀包含有323121152個樣本數據,是Layer-1的3倍。Layer-1的編碼Layer-1的子帶劃分采用等帶寬劃分,分為32個子帶,每個子帶有12個樣本,心理聲學模型只使用頻域掩蔽特性。Layer 1和Layer 2編碼器的結構基本類似,其差別在于濾波器子帶的劃分不同和FFT的運算點數不同。第七十五張,PPT共三

53、百九十三頁,創(chuàng)作于2022年6月幀頭:由每幀開始的前32個比特組成,這32個比特包含同步信息和狀態(tài)信息,同步碼由12個全1碼組成。所有的三層音頻信息編碼在這部分都是一樣的。幀校驗碼:幀校驗碼占16比特,用來檢測傳輸后比特流的差錯,其多項式表達式為:。所有三層的這一部分也都是相同的。音頻數據:由比特分配表、比例因子選擇信息、比例因子和子帶樣值組成。其中子帶樣值是音頻數據的最大部分,不同層的音頻數據是不同的。輔助數據:用來傳輸相關的輔助信息。Layer-2編碼Layer-2編碼在Layer-1的基礎上作了改進。32個子帶的劃分是不等劃分,其劃分依據是臨界頻段。每個子帶分為3個12樣本組,這樣每幀共

54、有1152個樣本。在掩蔽特性方面除保留原有的頻域掩蔽外還增加了時域掩蔽。另外在低頻、中頻和高頻段對位分配作了重新安排,低頻段使用4位,中頻段使用3位,高頻段使用2位。其幀格式見下圖第七十六張,PPT共三百九十三頁,創(chuàng)作于2022年6月Layer-1和layer-2的編解碼器方框圖第七十七張,PPT共三百九十三頁,創(chuàng)作于2022年6月Layer-3編碼(MP3)Layer-3仍然使用不等長子帶劃分。心理聲學模型在使用頻域掩蔽和時域掩蔽特性之外又考慮到了立體聲信息數據的冗余,還增加了霍夫曼編碼器。濾波器組在原有的基礎上增加了改進離散余弦MDCT特性,可以部分消除由多相濾波器組引入的混疊效應。第七十

55、八張,PPT共三百九十三頁,創(chuàng)作于2022年6月Layer-3編碼器和解碼器結構第七十九張,PPT共三百九十三頁,創(chuàng)作于2022年6月2、MPEG-2 BC聲音壓縮標準MPEG-2 BC聲音標準是在MPEG-1的基礎上發(fā)展來的,是MPEG為多聲道聲音開發(fā)的低碼率編碼方案,并與MPEG-1的聲音標準保持后向兼容。與MPEG-1相比主要增加了下面幾個方面的內容:支持5.1多路環(huán)繞立體聲:可以提供5個全帶寬聲道,分為左、右、中、和兩個環(huán)繞聲道,另加一個低頻效果增強聲道,稱為5.1聲道。擴展了編碼器的輸出范圍,從32384kb/s擴展到8640kb/s。增加了更低的取樣頻率和低碼率:在保持MPEG-1

56、原有的取樣頻率的基礎上,又增加了三種取樣頻率,新增的取樣頻率為16kHz、22.05kHz和24kHz,是將原有MPEG-1的取樣頻率降低了一半,以便提高碼率低于64kb/s時的每個聲道的聲音質量。第八十張,PPT共三百九十三頁,創(chuàng)作于2022年6月MPEG-2對多聲道的擴展方式是通過可分級的方式來實現的。在編碼器端,5個輸入的聲道信號別向下混合為一路兼容立體聲信號,再按照MPEG-1的編碼標準進行編碼;用于在解碼端恢復原來5個聲道的相關信息都被安置在MPEG-1的附加數據區(qū)里,MPEG-1在進行解碼的時候可忽略此區(qū)的數據。這些附加信息在在聲道T2、T3和T4以及在低音效果增強LFE聲道中傳輸

57、。MPEG-2多聲道解碼器除了對MPEG-1的部分進行解碼外,還對附加的信道T2、T3和T4以及LFE聲道進行解碼,根據這些信息來恢復原來的5.1聲道,編碼解碼框圖見下圖。第八十一張,PPT共三百九十三頁,創(chuàng)作于2022年6月MPEG-2的數據幀結構如下圖所示。 2.4.4 MPEG-2 AAC編碼標準MPEG-2 AAC(Advanced Audio Coding)是MPEG-2標準中一種非常靈活的編碼標準,采用感知編碼方法,主要是利用聽覺系統(tǒng)的掩蔽特性來減少聲音編碼的數據量;并且通過子帶編碼將量化噪聲分散到各個子帶中,用全局的聲音信號將噪聲掩蔽掉。MPEG-2 AAC 采用模塊化的編碼方法

58、,把整個ACC系統(tǒng)分成一系列模塊,用標準化的ACC工具對模塊進行定義。在文獻資料中是通常將模塊和工具同等對待。AAC定義的編碼和解碼的基本結構圖如下圖所示。第八十二張,PPT共三百九十三頁,創(chuàng)作于2022年6月AAC的編碼方法與前面介紹的編碼方法不同,AAC采用了模塊化的方法,將整個AAC系統(tǒng)分解成一系列模塊,用標準化的AAC編碼工具對模塊進行定義。AAC定義了3種配置:基本配置、低復雜性配置和可變采樣率配置?;九渲迷谌N配置中提供最好的聲音質量,除沒有使用增益控制模塊外,其余模塊都使用。低復雜性配置沒有使用預測模塊和預處理模塊,使用的瞬時噪聲定形濾波器模塊的級數也有限,聲音質量低于基本配置

59、??勺儾捎寐逝渲檬褂迷鲆婵刂谱黝A處理,沒有使用預測模塊,對TNS濾波器的級數和帶寬也有限制,是最簡單的一種配置。第八十三張,PPT共三百九十三頁,創(chuàng)作于2022年6月AAC定義的編碼和界面的基本結構圖第八十四張,PPT共三百九十三頁,創(chuàng)作于2022年6月2.4.5 MPEG-4音頻標準作為一種新的音頻標準,MPEG-4音頻編碼綜合了多種類型的音頻編碼。MPEG-4音頻編碼標準集成了從話音到高質量的多聲道聲音,從自然聲音到合成聲音。采用的編碼方法有多種,包括參數編碼、碼激勵線性預測編碼CELP、時間/頻率編碼、結構化聲音SA編碼和文-語系統(tǒng)TTS的合成聲音。其編碼方框圖如下圖。第八十五張,PPT

60、共三百九十三頁,創(chuàng)作于2022年6月 參數編碼器使用參數編碼技術。對于8kHz采樣頻率的話音信號,編碼器輸出的碼流速率是24kb/s;對于采樣頻率位8kHz或16kHz的話音信號,編碼器的輸出速率為416kb/s。第八十六張,PPT共三百九十三頁,創(chuàng)作于2022年6月使用碼激勵線性預測編碼器,對于采樣頻率為8kHz或16kHz的話音信號,輸出速率為624kb/s。矢量量化和線性預測的編碼器使用了時間頻率T/S技術,對于采樣頻率為8kHz的話音信號,編碼輸出速率大于16kb/s。第八十七張,PPT共三百九十三頁,創(chuàng)作于2022年6月25多媒體音頻信號文件格式自從PC機可以支持多媒體應用以來,很多

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論