




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第四章數(shù)字音頻
(二)2023/2/6故事
講個故事。至于故事與各位的關聯(lián),那就請諸位見仁見智吧。2023/2/6故事---草坪上的路
有一位建筑設計師在設計一幢很大的辦公大樓時,設計的三個出入口都沒有標明連通的道路。大樓竣工之后,他要求工人把大樓四周的空地上都種上草,任人去踩。幾個月后,草坪上就分明出現(xiàn)了幾條道,有粗有細……
于是建筑設計師便要求工人沿著人們踩出的路,鋪就了通向大樓的道路,也有粗有細……2023/2/6故事---草坪上的路
建筑設計師的做法可謂獨具匠心,他懂得這其中的一個重要道理:那就是順其自然。假如一開始就設計好了通道,規(guī)定了人們行走的路線,或許會給人們帶來不便。最終,草地上仍然會被踩出一條條小道。2023/2/6故事---草坪上的路
在開始的時候,你可以沒有明確的目標,只要張開你的所有觸角,去看,去讀,去感受,你會不自覺地愛看一些東西,那是你的興趣,也是你的知識結構決定的,日子久了,也會出現(xiàn)幾條路,這些路也都可以通向你要追求的目標。學會傾聽心音,讓心來告訴你如何走,就不會被別人的價值觀、流行的熱點牽著跑。2023/2/6故事---草坪上的路
同學們在選題過程中可能遇到的幾種情況:
1、學生所選擇的領域是導師所不熟悉的:這種情況居多,因為通常老師有10多個(有的有三四十個)學生,每個人都是一個領域,導師就很難顧過來,更難給出專家級的指點——更多的是給予方法論或同同學們的討論。2023/2/6故事---草坪上的路2、老師有現(xiàn)成的項目,學生做力所能及的工作:如果您碰巧遇到了這種情況,祝賀您——您很幸運。您避免了選擇研究方向的痛苦。但您會遇到新的問題:首先您很難在短期內深入進去,其次老師對項目的認識在短期內也很難傳給您,因此也有可能出現(xiàn)不得要領、畢業(yè)時感覺學沒有學到任何東西的現(xiàn)象。2023/2/6故事---草坪上的路3、學生根據(jù)自己的知識結構選擇研究方向,并在此基礎上發(fā)展。學生自由發(fā)揮后,往往有出人意外的結果,師生都會因此欣喜。這是一種較好的方式。2023/2/6故事---草坪上的路需要強調的一點,由于我們國家研究生培養(yǎng)體制及導師只身能力的問題,研究生期間一般采用寬松管理,導師除了幾個重要的時間點以外,其余時間都需要學生自我管理。所以,學生就需要自強自立……2023/2/6故事---草坪上的路研究生期間我們應該做什么1)建立盡可能合理的知識結構:盡量廣地涉獵學科基本知識,盡量深地了解所研究領域的方方面面、過去和現(xiàn)在。2)掌握獨立研究的方法和技能:盡量多的培養(yǎng)做事、學習及研究的正確方法,熟練掌握研究過程和步驟。2023/2/6故事---草坪上的路研究生期間我們應該做什么3)學會寫論文:寫論文不僅是訓練表達能力,更是訓練思維的邏輯性。論文體例雖是八股,但卻是整理思路、與他人溝通的有效結構,不可不尊重。
2023/2/6故事——從窗口望見的別人的生活從窗口望見的別人的生活2023/2/6上節(jié)回顧我們都知道,計算機數(shù)據(jù)的存儲是以0、1的形式存取的。語音信號是模擬信號。那么首先將這些電平信號轉化成二進制數(shù)據(jù)保存,這就是數(shù)字音頻。播放的時候就把這些數(shù)據(jù)轉換為模擬的電平信號再送到喇叭播出。相比而言,數(shù)字音頻具有存儲方便、存儲成本低廉、存儲和傳輸?shù)倪^程中失真小、編輯和處理非常方便等特點。2023/2/6模擬音頻量化數(shù)字音頻01100011001···編碼采樣音頻的數(shù)字化過程上節(jié)回顧(二)2023/2/6采樣頻率量化位數(shù)聲道數(shù)每秒鐘抽取聲波幅度樣本的次數(shù)每個采樣點用多少二進制位表示數(shù)據(jù)范圍使用聲音通道的個數(shù)采樣頻率越高聲音質量越好數(shù)據(jù)量也越大量化位數(shù)越多音質越好數(shù)據(jù)量也越大立體聲比單聲道的表現(xiàn)力豐富,但數(shù)據(jù)量翻倍8kHz22.05kHz44.1kHz8位=256個值12位=4096個值16位=65536個值單聲道立體聲上節(jié)回顧(三)2023/2/6上節(jié)回顧(四)數(shù)字音頻文件的存儲量(假定未經壓縮)為:存儲量=采樣頻率×量化位數(shù)/8×聲道數(shù)×時間
例如,用44.1KHz的采樣頻率進行采樣,量化位數(shù)選用16位,則錄制1秒的立體聲節(jié)目,其波形文件所需的存儲量為多少?
44100×16/8×2×1=176400(B)每分鐘數(shù)據(jù)存儲量為:176400(B)×60=10.09MB2023/2/6本章內容MIDI基本原理語音編碼的基本概念語音編碼算法的性能評價指標語音編碼的分類數(shù)字音頻的文件格式作業(yè)2023/2/6MIDI基本原理
MIDI是英語MusicInstrumentDigitalInterface的縮寫,翻譯過來就是“數(shù)字化樂器接口”。也就是說它的真正涵義是一個供不同設備進行信號傳輸?shù)慕涌诘拿Q。我們如今的MIDI音樂制作全都要靠這個接口,在這個接口之間傳送的信息也叫MIDI信息。
2023/2/62023/2/62023/2/6所以,所謂MIDI文件實質上是指計算機中記錄的MIDI信息的數(shù)據(jù),MIDI文件的擴展名是*.mid。它和另外一種計算機中常用的聲音波形文件(*.wav文件)有什么不同呢?表面上,兩種文件都可以產生聲響效果或音樂,但它們的本質是完全不同的。普通的聲音文件(*.wav文件)是計算機直接把聲音信號的模擬信號經過取樣——量化處理,變成與聲音波形對應的數(shù)字信號,記錄在計算機的儲存介質(硬盤或光盤)中。2023/2/6通常,聲音文件都比較大,如記錄一分鐘的聲音(立體聲、CD音質),大概需要10M的儲存空間。一首幾分鐘的歌曲需要幾十兆的硬盤,一張CD光盤只能容納十來首歌曲。為了減少聲音文件儲存的空間,近年來在計算機技術上采用了壓縮技術,把聲音文件經過處理,在不太影響播放質量的前提下,把文件的大小壓縮到原來的10—12分之一,這就是近年流行的Mp3文件格式。2023/2/6而MIDI文件則不是直接記錄樂器的發(fā)音,而是記錄了演奏樂器的各種信息或指令,如用哪一種樂器,什么時候按某個鍵,力度怎么樣等等,至于播放時發(fā)出的聲音,那是通過播放軟件或者音源的轉換而成的。因此MIDI文件通常比聲音文件小得多,一首樂曲,只有十幾K或幾十K,只有聲音文件的千分之一左右,便于儲存和攜帶。2023/2/6
MIDI信號是如何傳送的?MIDI信號無論從哪兒傳到哪兒都是有時間先后的,就象音樂一樣,隨時間的推移,音符一一“流”出才能聽到完整的曲子,我們稱為“MIDI數(shù)據(jù)流”。每一組MIDI數(shù)據(jù)都包含自己的時間碼,并且所有的時間碼都是相對的,只表示誰先走、誰后走,MIDI設備接受、處理時也會絕對遵守“先來后到”的原則。2023/2/6
MIDI設備在接收到MIDI數(shù)據(jù)時,首先會判斷:哪些數(shù)據(jù)是給“自己”的,然后收下,交給內部其它程序處理;如果不是的,就通過MIDIThru或MIDI輸出口送出,交給下一臺設備......2023/2/6對音頻文件進行編碼是為了()。A、解決字符信息的交互問題B、使聲音更動聽C、讓聲音不失真D、解決可靠性問題E、減少存儲、處理和傳輸?shù)某杀疽陨夏莻€是最根本的出發(fā)點?2023/2/6?What?Why?How
為什么要進行語音編碼?如何進行語音編碼?
什么是語音編碼?語音編碼的基本概念2023/2/6“編碼”是將源對象內容按照一定方法轉換為一種標準格式內容的技術。
“解碼”是和“編碼”對應的,它使用和編碼相同的方法將編碼內容還原為最初的對象內容。
1、什么是“編碼”什么是語音編碼?(一)2023/2/6
“編碼”大體上分兩類,字符編碼和數(shù)據(jù)編碼。字符編碼:解決字符信息的交互問題,如:加密信息——經過加密的內容,不知道編碼標準的人很難識別,已經有數(shù)千年歷史了。如:電報碼。信息交換——如郵政編碼、身份證編碼等。通過計算機處理和傳輸——如輸入編碼、多媒體編碼等。2、“編碼”的分類什么是語音編碼?(二)2023/2/6數(shù)據(jù)編碼包括:信源編碼信道編碼信源編碼:是指將信號源中多余的信息除去,形成一個適合用來傳輸?shù)男盘?,主要解決有效性問題。信道編碼:為了使處理過的信號在傳輸過程中不出錯或少出錯,以及即使出了錯也能自動檢錯或盡量糾錯而進行的編碼,主要解決可靠性問題。什么是語音編碼?(三)語音編碼屬于“信源編碼”2023/2/6語音編碼是按照某種數(shù)學方法,對原始數(shù)字音頻信號流,在不損失有用信息量,或所引入損失可忽略的條件下,降低(壓縮)其碼率的一種數(shù)字處理技術⑤實體②對象③條件①手段④目標返回什么是語音編碼?(四)2023/2/6
語音編碼的目的在于壓縮數(shù)據(jù)。在多媒體語音數(shù)據(jù)的存儲和傳輸中,數(shù)據(jù)壓縮是必須的。
為什么要進行語音編碼?(一)2023/2/6
數(shù)字音頻的優(yōu)勢是顯而易見的。而它也有自身相應的缺點,即存儲容量需求的增加及傳輸時信道容量要求的增加。例如,用44.1KHz的采樣頻率進行采樣,量化位數(shù)選用16位,則傳輸該立體聲節(jié)目所需的數(shù)據(jù)率為多少?
44100×16×2=1411200(bps)1411200(bps)=1411.2kbps為什么要進行語音編碼?(二)2023/2/6是不是所有這些比特都是必需的呢?
答案是:否為什么要進行語音編碼?(三)2023/2/6
如:播音員的播音語速一般為每分鐘180字,由于計算機中用兩個字節(jié)表示一個漢字,因此,播音員一分鐘閱讀的漢字共占用360個字節(jié)。為了把播音員的聲音數(shù)字化,需要以高出播音員聲音頻率一倍的頻率進行采樣。這就是說,一般播音員的播音頻率為3.4KHz,采樣頻率即為8KHz。為什么要進行語音編碼?(四)2023/2/6當采用8bit的采樣精度進行采樣時,得到的一秒鐘數(shù)字音頻信號的數(shù)據(jù)量為:8KHz×8bit=64kb/s
則一分鐘的數(shù)據(jù)量為:64kb/s×60s/min=3840kb/min(480KB)
比較一下,播音員一分鐘閱讀的漢字共占用360個字節(jié),兩者的數(shù)據(jù)量相差一千余倍,可見數(shù)據(jù)冗余現(xiàn)象的嚴重。為什么要進行語音編碼?(五)2023/2/6為什么要進行語音編碼?(六)靜止系數(shù):語音本身就是一種冗余。
空間冗余:幅度的非均勻分布——統(tǒng)計表明,語音中的小幅度樣本比大幅度樣本出現(xiàn)的概率要高。時間冗余:樣本間的關聯(lián)——從語音波形的分析中可以看出,在相鄰樣本之間取樣數(shù)據(jù)存在最大的相關性。如果語音信號取樣速率提高,樣本間相關性更強。
2023/2/6為什么要進行語音編碼?(七)人的聽覺感知機理
人的聽覺具有掩蔽效應人耳對不同頻段的聲音的敏感程度不同,對低頻端的比高頻端的更敏感。人耳對語音信號的相位變化不敏感。返回語音編碼不僅必要,而且可行。2023/2/6如何進行語音編碼?(一)
通過對數(shù)字語音趨勢的預測和冗余信息處理,進行語音數(shù)據(jù)的壓縮,這樣就可以使我們用較少的資源建立更多的信息。I=D-duI—信息量D—數(shù)據(jù)量du—冗余量,包含在D中信息量與冗余的關系2023/2/6●
找出數(shù)據(jù)中存在的冗余(重復數(shù)據(jù)、可忽略數(shù)據(jù))■
45.1kHz/Stereo1.3MB■
22.0kHz/Nomo0.3MB■Stop如何進行語音編碼?(二)●
找出不敏感因素返回2023/2/6音頻編碼的主要技術指標(一)
對數(shù)字音頻信息進行編碼的目的是在不影響人們使用的情況下使數(shù)字音頻信息的數(shù)據(jù)量最少。通常用如下5個屬性來衡量:
—編碼速率(比特率)——小;
—語音質量——高;
—計算復雜度——低;
—延遲——少;
—適應能力(堅韌性,Robustness)——強。2023/2/6編碼速率語音質量計算復雜度延遲Robustness音頻編碼的主要技術指標(二)2023/2/6音頻編碼的分類(一)2023/2/6無損壓縮編碼
無損壓縮編碼(Losslesscompressioncoding):又稱可逆編碼(ReversibleCoding),是無損壓縮形成的編碼,具有可恢復性和可逆性,不存在任何誤差。典型的無損壓縮編碼(可逆編碼)有:霍夫曼編碼、算術編碼、行程編碼、LZW編碼等。返回2023/2/6
有損壓縮編碼(Losscompressioncoding):又叫不可逆編碼(nonreversiblecoding),是指在壓縮過程中有信息的丟失,具有不可恢復性和不可逆性。有損壓縮編碼種類較多,主要的編碼類型有:波形編碼、參數(shù)編碼、混合編碼、感知編碼。
有損壓縮編碼返回2023/2/6從語音信號的波形出發(fā),對波形的抽樣值、預測值、預測誤差進行編碼,它以重建語音波形為目的,力圖使重建波形接近原信號波形。類型:脈沖編碼調制PCM自適應增量調制(ADM)自適應差分編碼調制(ADPCM)自適應預測編碼APC波形編碼返回2023/2/6
提取語音的一些特征信息進行編碼,在收端利用這些特征參數(shù)合成語音。類型:LPC線性預測編碼參數(shù)編碼返回2023/2/6即在參數(shù)編碼的基礎上引入了波形編碼的一些特征?;旌暇幋a=波形編碼+參數(shù)編碼類型:碼激勵線性預測CELPC向量和激勵VSELP規(guī)則碼激勵長時預測RPE-LTP混合編碼返回2023/2/6
感知編碼是利用人的聽覺系統(tǒng)的特性,通過分析心理聲學原理來達到壓縮聲音數(shù)據(jù)、實現(xiàn)音頻壓縮的目的。類型:MPEG系列DolbyAC-3感知編碼返回2023/2/6數(shù)字音頻的文件格式自從數(shù)字音頻產生以來,陸陸續(xù)續(xù)地出現(xiàn)了許多音頻格式。這些格式既有流行的也有不那么流行的,有存在長久的也有曇花一現(xiàn)的,正是它們構成了五彩繽紛的數(shù)字音頻世界,本節(jié)一一介紹。2023/2/6目前的主流音頻格式不少,不同的格式有自己的用途。主流音頻格式Real
Media
MIDI
Windows
Media
WAV
MP3
MP3PRO
Ogg
Vorbis
VQF
2023/2/6WAV——存在便是永恒
WAV是MicrosoftWindows本身提供的音頻格式,由于Windows本身的影響力,這個格式已經成為了事實上的通用音頻格式。 通常我們使用WAV格式都是用來保存一些沒有壓縮的音頻。2023/2/6MP3——老當益壯
由Fraunhofer-IIS研究所開發(fā),第一個實用的有損音頻壓縮編碼。
MP3利用了知覺音頻編碼技術,也就是利用了人耳的特性,削減音樂中人耳聽不到的成分,同時嘗試盡可能地維持原來的聲音質量。
2023/2/6MP3PRO——老樹發(fā)新花
由德國Fraunhofer-IIS研究所、瑞典CodingTechnologies公司、法國Thomsonmultimedia公司共同推出。 在原來MP3技術的基礎上專門針對原來技術中損失了的音頻細節(jié)進行獨立編碼處理并捆綁在原來的MP3數(shù)據(jù)上,在播放的時候通過再合成而達到良好的音質效果。
2023/2/6RealMedia——網絡流媒體鼻祖它的文件格式是RA、RMA,由RealNetworks公司發(fā)明,特點是可以在非常低的帶寬(28.8kbps)下,提供足夠好的音質讓用戶能在線聆聽。用途主要是在線聆聽,并不適于編輯,所以相應的處理軟件并不多。
2023/2/6WindowsMedia——霸氣十足由Microsoft公司推出,一種網絡流媒體技術,唯一一個能提供全部種類音頻壓縮技術(無失真、有失真、語音)的解決方案。在64kbps的碼率情況下,WMA可以達到接近CD的音質。由于是微軟的杰作,具有微軟的一切特征。
2023/2/6MIDI–電腦與電子樂器的橋梁是MusicInstrumentDigitalInterface的縮寫,意思是:音樂設備的數(shù)字化界面(或連接)。
MIDI是數(shù)碼音樂文件,由曲譜、時序、樂器編號、音高等信息組成,告訴一個MIDI播放器何時用何種音高去演奏何種樂器,附帶演奏一些效果比如顫音、混響等。 2023/2/6
VQF–生不逢時
VQF實際指的是日本NipponTelegraphandTelephone(NTT)與YAMAHA公司開發(fā)的一種比較先進的音頻壓縮技術,通常認為96kbpsVQF與128kbpsMP3質量相同。
VQF在YAMAHA公司的大力推動下也曾有相當?shù)氖袌龇蓊~。不過時至今日,VQF已經在逐步淡出舞臺。2023/2/6Ogg
Vorbis–開放、免費
Ogg
Vorbis
是一種音頻壓縮格式,類似于MP3等現(xiàn)有的通過有損壓縮算法進行音頻壓縮的音樂格式。但有一點不同的是,Ogg
Vorbis格式是完全免費、開放源碼且沒有專利限制的。
Ogg
Vorbis可以在相對較低的數(shù)據(jù)速率下實現(xiàn)比MP3更好的音質! 2023/2/6Monkey'saudio
MOD
VOXVOC
au
aiff
非主流音頻格式2023/2/6
MOD–最熱門的非主流與MIDI有點相似,Module(簡稱mod)是數(shù)碼音樂文件,由一組samples(樂器的聲音采樣)、曲譜和時序信息組成,告訴一個mod播放器何時以何種音高去演奏在某條音軌的某個樣本,附帶演奏一些效果等。這使得mod成為一種介乎于象WAV或VOC那樣的純正樣本數(shù)據(jù)文件和象MIDI那樣的純正時序信息文件之間的混合體,成為一種比較靈活的音頻格式。2023/2/6
Monkey'saudio–一個也不能少是一種無損壓縮技術,也就是說對壓縮數(shù)據(jù)進行還原之后得到的數(shù)據(jù)與原來的數(shù)據(jù)是完全相同的。這種格式的壓縮比遠低于其他格式,但能夠做到真正無損,因此獲得了不少發(fā)燒用戶的青睞。
2023/2/6aiff–蘋果專用是Apple蘋果電腦的標準音頻格式,屬于QuickTime技術的一部分。
AIFF雖然是一種很優(yōu)秀的文件格式,但由于它是蘋果電腦上的格式,因此在PC平臺上并沒有得到很大的流行。不過,Microsoft公司的W
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 病理學試題及答案
- 森林管護考試題及答案
- 教學反思在教師職業(yè)發(fā)展的價值試題及答案
- 理論知識運用的樂理試題及答案
- 舞蹈考試測試題及答案
- 施工現(xiàn)場的法律責任與管理試題及答案
- 建筑材料管理與應用試題及答案
- 手機測試面試題及答案
- 新能源汽車材料科學試題及答案
- 查詢商務英語考試資料試題及答案
- 鑄就數(shù)字堅盾網絡安全技術知到課后答案智慧樹章節(jié)測試答案2025年春青島工學院
- 中國歷史地理智慧樹知到期末考試答案章節(jié)答案2024年北京大學
- MOOC 跨文化交際通識通論-揚州大學 中國大學慕課答案
- 新媒體文案寫作完整全套教學課件
- 六安市人民醫(yī)院招聘考試真題2022
- API520-安全閥計算PART1(中文版)
- 閩教版五年級下冊信息技術教案帶反思
- 蘇科版二年級下冊勞動第8課《杯套》課件
- GB/T 28799.2-2020冷熱水用耐熱聚乙烯(PE-RT)管道系統(tǒng)第2部分:管材
- GA 53-2015爆破作業(yè)人員資格條件和管理要求
- 新部編版四年級語文下冊課件(精美版)習作6
評論
0/150
提交評論