《大學(xué)計算機(jī)基礎(chǔ)》課件第5章5.3 數(shù)字音頻及應(yīng)用_第1頁
《大學(xué)計算機(jī)基礎(chǔ)》課件第5章5.3 數(shù)字音頻及應(yīng)用_第2頁
《大學(xué)計算機(jī)基礎(chǔ)》課件第5章5.3 數(shù)字音頻及應(yīng)用_第3頁
《大學(xué)計算機(jī)基礎(chǔ)》課件第5章5.3 數(shù)字音頻及應(yīng)用_第4頁
《大學(xué)計算機(jī)基礎(chǔ)》課件第5章5.3 數(shù)字音頻及應(yīng)用_第5頁
已閱讀5頁,還剩22頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

5.3數(shù)字音頻及應(yīng)用5.3.1數(shù)字音頻的獲取5.3.2數(shù)字音頻的表示與應(yīng)用5.3.3數(shù)字音頻的編輯與播放5.3.4語音識別與語音合成5.3.1數(shù)字音頻的獲取聲音/音頻的特性和類型聲音(sound)由振動產(chǎn)生,通過空氣等介質(zhì)進(jìn)行傳播聲音是一種波,它由許多不同頻率的諧波組成,諧波的頻率范圍稱為聲音的“帶寬”兩種音頻:話音或語音(speech),專指人的說話聲音,帶寬僅為300~3400Hz全頻帶聲音(如音樂聲、風(fēng)雨聲、汽車聲等),其帶寬可達(dá)到20Hz~20kHz人耳可聽見的聲音(20Hz~20kHz)在信息技術(shù)中稱為音頻信號,簡稱音頻(audio)數(shù)字音頻的獲取步驟:2.量化(quantization,模數(shù)轉(zhuǎn)換)3.編碼(encoding)1.取樣(sampling)取樣模擬聲音信號取樣的目的是把時間上連續(xù)的信號轉(zhuǎn)換成時間上離散的信號量化量化是把每個樣本從模擬量轉(zhuǎn)換成為數(shù)字量(8位或16位整數(shù)表示)數(shù)字音頻01100011001···編碼將所有樣本的二進(jìn)制代碼組織在一起,并進(jìn)行數(shù)據(jù)壓縮時間上離散的一組樣本一組二進(jìn)制整數(shù)數(shù)字音頻的獲取設(shè)備音頻的聯(lián)機(jī)獲取設(shè)備(聲卡)聲波轉(zhuǎn)換為電信號音頻的獲取設(shè)備:手機(jī)、數(shù)碼錄音筆麥克風(fēng)(microphone)聲音卡(soundcard)模擬音頻數(shù)字音頻取樣、量化和編碼音頻的重建與播放計算機(jī)輸出聲音分為兩步:1重建:把音頻信號從數(shù)字形式轉(zhuǎn)換成模擬信號形式,由聲卡完成2播放:將模擬音頻信號經(jīng)處理和放大后送到音箱(揚聲器)關(guān)于音箱:普通音箱接收的是重建的模擬聲音信號數(shù)字音箱直接接收數(shù)字聲音信號,失真更小數(shù)字音頻011010011101…插值數(shù)模轉(zhuǎn)換解碼把壓縮編碼的數(shù)字音頻恢復(fù)為壓縮編碼前的狀態(tài)把聲音樣本從數(shù)字量轉(zhuǎn)換為模擬量把時間上離散的一組樣本轉(zhuǎn)換成在時間上連續(xù)的模擬音頻信號重建的模擬音頻信號聲卡的功能與邏輯組成音頻的獲取與編碼音頻的重建與播放MIDI消息的輸入MIDI音樂的合成DSPDMA接口PC總線取樣,量化D/A重建,濾波聲音輸出聲音輸入音樂合成器mixerMIDI接口聲卡的主要功能選講:

聲卡的物理實現(xiàn)

聲卡主要由2塊芯片組成:主處理芯片:包括數(shù)字信號處理器、MIDI控制、I/O控制等

CODEC芯片:負(fù)責(zé)多聲道取樣、A/D與D/A轉(zhuǎn)換、混音處理等音頻主芯片音頻混合芯片運算放大器功率放大器MIDI/joystickMIC輸入/線路輸入PCI總線線路輸出揚聲器AudioCODEC芯片當(dāng)前PC機(jī)的聲卡大多已不再做成獨立的插卡形式,而是與主板集成在一起,稱為集成聲卡2種音頻技術(shù)規(guī)范:

-AC’97音頻技術(shù)規(guī)范

-HDAudio選講:

聲卡的幾種類型硬聲卡:除CODEC芯片外,主板上還有1塊音頻主處理芯片,很多音效處理任務(wù)無需CPU參與就可獨立完成

聲卡的類型獨立聲卡:以擴(kuò)展卡形式插在機(jī)箱中使用集成聲卡軟聲卡:主板上僅1塊CODEC芯片,負(fù)責(zé)取樣與量化處理,I/O控制器部分集成在主板上的南橋芯片中,DSP的功能需由CPU協(xié)助完成

聲卡的組成部分均集成在主板或SOC芯片上5.3.2數(shù)字音頻的

表示與應(yīng)用數(shù)字音頻的表示及其參數(shù)數(shù)字音頻是使用二進(jìn)位表示的一種串行比特流,其數(shù)據(jù)按時間順序進(jìn)行組織數(shù)字音頻的主要參數(shù)有:取樣頻率:語音的取樣頻率低,一般為8k~16kHz全頻帶聲音(如音樂)取樣頻率高,一般為44.1k~48kHz量化位數(shù):通常為8位、12位或16位聲道數(shù)目:單聲道為1,雙聲道為2碼率(比特率),即每秒鐘的數(shù)據(jù)量未經(jīng)壓縮的數(shù)字音頻最常用的文件擴(kuò)展名為“.wav”數(shù)字音頻碼率的計算未壓縮時數(shù)字音頻的碼率計算公式碼率=取樣頻率

×

量化位數(shù)

×

聲道數(shù)(單位:bit/s)例:聲音類型信號帶寬(Hz)取樣頻率(kHz)量化位數(shù)(bits)聲道數(shù)未壓縮時的碼率數(shù)字語音300~340088164kb/sCD立體聲20~2000044.11621411.2kb/s壓縮編碼之后數(shù)字音頻的碼率為:壓縮后的碼率=未壓縮時的碼率/壓縮比例:上面CD唱片的立體聲音樂壓縮為MP3后,若壓縮比是12,則該MP3音樂的碼率是:1411.2/12≈118kb/s左右數(shù)字音頻的數(shù)據(jù)壓縮數(shù)據(jù)壓縮的必要性:為了降低存儲成本和提高在網(wǎng)絡(luò)上的傳輸效率數(shù)據(jù)壓縮的可能性:聲音中包含有大量冗余信息;人耳靈敏度有限,允許有一定失真而不易察覺數(shù)字音頻壓縮編碼的方法:全頻帶聲音:國際標(biāo)準(zhǔn)MPEG;工業(yè)標(biāo)準(zhǔn)DolbyAC-3數(shù)字語音:固定電話使用ADPCM編碼手機(jī)使用高效率的混合編碼技術(shù)所謂“MP3音樂”,它是一種采用MPEG-1層3編碼的高質(zhì)量數(shù)字音頻,壓縮比大約10~12倍,使一張普通CD光盤上可以存儲大約100首MP3歌曲,可連續(xù)播放10小時。數(shù)字音頻的文件類型及其應(yīng)用音頻格式文件擴(kuò)展名編碼類型效果主要應(yīng)用開發(fā)者WAV.wav未壓縮聲音達(dá)到CD品質(zhì)支持多種采樣頻率和量化位數(shù),獲得廣泛支持微軟公司FLAC.flac無損壓縮壓縮比為2:1左右高品質(zhì)數(shù)字音樂Xiph.Org基金會APE.ape無損壓縮壓縮比為2:1左右高品質(zhì)數(shù)字音樂MatthewT.AshlandM4A.m4a無損壓縮壓縮比為2:1左右QuickTime,iTunes,iPod,RealPlayer蘋果公司MP3.mp3有損壓縮MPEG-1audio層3壓縮比為8:1~12:1因特網(wǎng),MP3音樂ISOWMA.wma有損壓縮壓縮比高于MP3使用數(shù)字版權(quán)保護(hù)因特網(wǎng),音樂微軟公司AC3.ac3有損壓縮壓縮比可調(diào),支持5.1、7.1聲道DVD,數(shù)字電視,家庭影院等美國Dolby公司AAC.aac有損壓縮壓縮比可調(diào),支持5.1、7.1聲道DVD,數(shù)字電視,家庭影院等ISOMPEG-2/MPEG-4什么是流媒體?在因特網(wǎng)上收聽(看)音(視)頻節(jié)目的2種方式:下載存儲方式:先下載存儲在計算機(jī)中,下載完畢后再播放(缺點:需要等待較長時間,并需要較大的存儲容量)流式傳輸方式:邊下載、邊播放(優(yōu)點:只需要下載一部分?jǐn)?shù)據(jù)之后,就可以開始一邊播放一邊下載,等待時間短、存儲需求小)流媒體就是一種允許在網(wǎng)絡(luò)上讓用戶一邊下載一邊收看(聽)音視頻媒體的媒體分發(fā)(delivery)技術(shù)例如:RealNetworks公司的RealMedia(RealAudio和RealVideo)微軟公司的WindowsMediaServices(WMA、WMV和ASF)蘋果公司的QuickTime選講:

流媒體是如何工作的?流媒體播放軟件

Web服務(wù)器Web瀏覽器流媒體專用服務(wù)器

音頻(視頻)流媒體文件

網(wǎng)頁

(客戶計算機(jī))http協(xié)議3點擊流媒體節(jié)目,啟動流媒體播放程序RTSP/TCPRTP/UDP6播放器可以邊播放邊接收數(shù)據(jù),并可以控制播放、暫停、快進(jìn)、快倒等5將音(視)頻節(jié)目傳輸給客戶計算機(jī)RTCP/UDPHTML網(wǎng)頁1請求網(wǎng)頁2服務(wù)器送回網(wǎng)頁4向流媒體服務(wù)器發(fā)出請求5.3.3數(shù)字音頻的編輯數(shù)字音頻編輯軟件的功能主要功能:1

編輯音頻:如聲音剪輯、復(fù)制、調(diào)節(jié)音量2

效果處理:如混響、回聲、淡入、淡出等3

錄音4

音頻的格式轉(zhuǎn)換5播放聲音數(shù)字音頻的參數(shù)左聲道信號波形右聲道信號波形淡入淡出時間刻度播放標(biāo)尺音頻編輯軟件的典型用戶界面5.3.4語音識別與語音合成什么是語音識別什么是語音識別?將人的說話聲音轉(zhuǎn)換成相應(yīng)的文字,這需要計算機(jī)自動識別出語音信號中的單詞和語匯,甚至理解其語義(內(nèi)容)。應(yīng)用:語音撥號、語音導(dǎo)航、設(shè)備操作控制、語音文檔檢索、聽寫數(shù)據(jù)錄入、計算機(jī)同聲翻譯等。幾種不同復(fù)雜程度的語音識別技術(shù):孤立語音/連續(xù)語音識別小詞匯量/大詞匯量語音識別特定人/非特定人語音識別語音識別是人工智能領(lǐng)域的一個重要研究課題語音識別進(jìn)展近幾年在GPU平臺、大數(shù)據(jù)訓(xùn)練和深度學(xué)習(xí)算法的支持下,電話語音數(shù)據(jù)Switchboard基準(zhǔn)測試的詞錯率已經(jīng)降低至6%以下,達(dá)到了與人工語音識別差不多的水準(zhǔn)。安靜背景、標(biāo)準(zhǔn)口音、常見詞匯上的語音識別已經(jīng)達(dá)到可用狀態(tài)中科大訊飛公司在國際最高水平的語音合成比賽BlizzardChallenge(暴風(fēng)雪競賽)中7項指標(biāo)全部第一,參加第4屆CHiMEChallenge國際多通道語音分離和識別大賽也獲取了全部3項賽事的第一名,中文語音識別系統(tǒng)保持絕對領(lǐng)先,英語語音識別同樣也達(dá)到了國際領(lǐng)先水平

應(yīng)用舉例iPhone手機(jī)的Siri

使用語音完成查找資料、查詢天氣、設(shè)定手機(jī)日歷、設(shè)定鬧鈴等中科大訊飛公司開發(fā)的“訊飛輸入法”集語音輸入、手寫輸入和軟鍵盤輸入于一體;微信中口述自動轉(zhuǎn)文字微軟公司的全自動同聲傳譯系統(tǒng),講演者用英文演講,后臺的計算機(jī)一氣呵成自動完成語音識別、英中翻譯以及中文語音合成訊飛公司開發(fā)的便攜式實時翻譯機(jī)“訊飛·譯唄”,解決了方言、俚語和背景噪聲的干擾問題,可在中文和其他十多種語言之間進(jìn)行精準(zhǔn)的同聲互譯,并可充當(dāng)速記員進(jìn)行記錄并顯示

什么是計算機(jī)合成音頻?計算機(jī)合成音頻就是計算機(jī)模仿人說話或演奏音樂計算機(jī)合成音頻有兩類:計算機(jī)合成話音(語音):計算機(jī)模仿人把一段文字朗讀出來,即把文字轉(zhuǎn)換為說話聲音(簡稱為TTS)應(yīng)用:有聲查詢、文稿校對、語言學(xué)習(xí)、語音秘書、自動報警、殘疾人服務(wù)等計算機(jī)合成音樂(MIDI):計算機(jī)模擬各種樂器發(fā)聲并按照樂譜演奏音樂應(yīng)用:計算機(jī)作曲、配器等文語轉(zhuǎn)換(TTS)文本分析韻律處理語音合成文本合成語音詞典,發(fā)音規(guī)則庫語音庫韻律規(guī)則庫1對文本進(jìn)行分析,判斷每一個字的正確讀音,將文字序列轉(zhuǎn)換成一串發(fā)音符號(如國際音標(biāo)或漢語拼音)2根據(jù)文句的結(jié)構(gòu)、位置、使用的標(biāo)點符號以及上下文等,確定發(fā)音時語氣的變換以及讀音的輕重緩急,這些都由一組韻律控制參數(shù)來進(jìn)行控制3根據(jù)發(fā)音標(biāo)注,從語音庫中取出相應(yīng)的語音基元,按照韻律控制參數(shù)的要求,利用特定的語音合成技術(shù)對語音基元進(jìn)行調(diào)整和修改,最終合成出符合要求的流暢自然的語音計算機(jī)合成音樂(MIDI)音樂合成器音樂MIDI文件媒體播放器MIDI消息計算機(jī)合成音樂需要三個要素:樂器、樂譜和“演奏員”聲卡上的音樂合成器能像電子琴一樣模仿幾十種不同的樂器發(fā)出聲音,它按照MIDI消息合成出不同音色和音調(diào)的音符,通過揚聲器播放出音樂來

樂譜在計算機(jī)中使用一種叫做MIDI的音樂描述語言來表示。使用MIDI描述的音樂稱為MIDI音樂。一首樂曲對應(yīng)一個MIDI文件,其文件擴(kuò)展名為.MID或.MIDI媒體播放器軟件相當(dāng)于“演奏員”。播放MIDI音樂時,它先從磁盤上讀入.MID文件,解釋其內(nèi)容,然后以MIDI消息的形式向聲卡上的音樂合成器發(fā)出各種指令選講:

音樂合成器PC機(jī)聲卡一般都帶有MIDI音源(音樂合成器)MIDI音源有兩種:調(diào)頻合成器(一種受控的電子振蕩器)。音色單調(diào),效果較差,已很少使用波表合成器。音色豐富,效果很好,可擴(kuò)展,現(xiàn)廣泛使用波表合成器的原理預(yù)先將真實樂器演奏的各個音符的波形數(shù)字化,把它們組織成一個個波表文件存放在存儲器中播放時合成器軟件根據(jù)樂器類型和音符參數(shù)等將相應(yīng)的波形數(shù)據(jù)修飾成所要求的音強(qiáng)和時長,然后合成、加工后播放低通濾波采樣、量化加工處理樂器演奏

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論