




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
識音頻,懂聲音圖像和聲音作為人機(jī)智能交互領(lǐng)域的兩個最重要媒介,正在吸引著全世界的科學(xué)家開展各類的相關(guān)算法研究和產(chǎn)品應(yīng)用開發(fā)。由于二者的數(shù)據(jù)結(jié)構(gòu)存在重大差異導(dǎo)致相應(yīng)的研究工作主要分為圖像和聲音兩個基本的發(fā)展方向。前者主要是指和圖片處理相關(guān)的工作,關(guān)注圖片內(nèi)部元素的空間排列;后者主要是指處理與音頻信號相關(guān)的工作,注重音頻信號內(nèi)部元素的時間關(guān)聯(lián)性。音頻信號的范圍廣泛,它除了包括語音研究外,還包含其他很多重要而有趣的研究方向,如聲音場景分析、音樂風(fēng)格分類和語音情緒識別等。因此,我們可以將音頻視作為傳遞信息、主觀意向、情緒表達(dá)的重要溝通工具,它是人類最為熟悉和運(yùn)作最為有效的消息傳遞方式之一。隨著多媒體信息處理技術(shù)的發(fā)展、計(jì)算機(jī)數(shù)據(jù)處理能力的增強(qiáng),音頻處理技術(shù)及其相關(guān)現(xiàn)實(shí)場景的開發(fā)應(yīng)用正受到越來越多的關(guān)注。聲波、聲音、語音和音樂認(rèn)識音頻之前,我們先弄清楚幾個概念——聲波、聲音、語音和音樂。從物理學(xué)范疇來定義聲波。介質(zhì)是一系列相互聯(lián)系、相互作用的粒子,由于聲波的傳播需要粒子與粒子之間的相互作用,所以聲波被定義為一種機(jī)械波。一切聲音的產(chǎn)生都源于發(fā)音體的振動,發(fā)音體振動時,會擾動周圍的空氣或其他媒介,使之產(chǎn)生波動,這樣就形成了聲波。聲波是一種典型的縱波,橫波的傳播方向垂直于振動粒子,而縱波則與振動粒子的傳播方向相同。在空氣傳播過程中,聲波由分別稱為壓縮和稀疏的高壓和低壓區(qū)域組成。圖1為空氣傳播過程中聲波波形的一種可視化表現(xiàn),較亮的區(qū)域是低壓,而較暗的區(qū)域是高壓。和其他波相同,我們用速度、頻率和波長這三項(xiàng)指標(biāo)來描述聲波的性質(zhì)。波長、頻率和速度的關(guān)系為:速度=頻率×波長。振源和介質(zhì)決定了波長,聲波的速度取決于傳播介質(zhì)的性質(zhì)。聲速在固體材料中傳播較快,在液體或氣體中較慢,這是因?yàn)椴牧系拿芏群蛷椥孕阅艿牟煌?。固體材料之間粒子的相互作用最強(qiáng),其次是液體,然后是氣體。介質(zhì)的這種性質(zhì)被稱作彈性性質(zhì),它是影響聲速的重要因素之一。彈性性能被視為決定材料在外力作用下保持其形狀而不變形的能力。介質(zhì)密度是影響聲速的另一個重要的因素,介質(zhì)密度越大,聲音傳播的速度就越快,這兩個因素相比較而言,彈性性能比密度對聲速有更大的影響。眾所周知,在標(biāo)準(zhǔn)大氣壓和溫度下,聲波以每秒343米的速度在空氣中傳播,下頁表1列出了同一振源在不同介質(zhì)條件下的聲波傳播速度。聲音是指可被人耳聽到的,其振動頻率在20Hz~20kHz之間的聲波。我們把低于這個范圍的聲音稱為次聲波,高于這個范圍的聲波稱為超聲波。由此可見,聲音是聲波的一個子集,二者的關(guān)系如同可見光和光的關(guān)系。自然界包含各種各樣的聲音,如風(fēng)聲、雷聲、樂器聲等。許多動物的聽力范圍要比人類的更廣,如狗可以檢測到低至約50Hz~45kHz的聲波;貓可以檢測到大約45Hz~85kHz的聲波;蝙蝠則可以檢測出高達(dá)120kHz的聲波,這主要是由于蝙蝠是夜間活動的生物,它必須依靠聲音回聲定位來進(jìn)行導(dǎo)航和狩獵,所以它對聲波的檢測范圍更寬廣;海豚檢測出的聲波頻率可以達(dá)到200kHz。自然界是否存在次聲波檢測的高手呢?有,它就是大象,它的可聽范圍約為5Hz~10kHz。那么,語音是如何產(chǎn)生的?首先要明確語音是聲音的一個子集。語音是由人體的發(fā)音器官在大腦的控制下做生理運(yùn)動產(chǎn)生的、有一定的語法和意義的聲音,它的頻率通常在80~1.1kHz,最高可達(dá)1.5kHz。人體發(fā)音器官主要由肺和氣管、喉、聲道組成。肺是語音產(chǎn)生的能源所在;氣管連接著肺部和喉部,它是肺部與聲道的聯(lián)系通道;喉是由一個軟骨和肌肉組成的復(fù)雜系統(tǒng),其中包含著重要的發(fā)音器官——聲帶,聲帶為產(chǎn)生語音提供了主要的激勵源;聲道是指聲門(喉)至嘴唇的所有發(fā)音器官,包括咽喉、口腔和鼻腔,如圖2所示。聲音經(jīng)過氣流通道所形成的共鳴系統(tǒng)或經(jīng)過濾波器以后,頻譜發(fā)生改變,再經(jīng)過口唇和鼻腔時頻譜又發(fā)生了改變。不同音位之間的差別可以是由發(fā)聲源引起的,也可以是由聲道的形狀和空氣柱的長度不同所引起的。聲波發(fā)生后經(jīng)過一個共鳴系統(tǒng)后,其頻譜可以發(fā)生變化。這樣的共鳴系統(tǒng)就相當(dāng)于一個聲學(xué)濾波器,濾波器的作用可以用頻響曲線,即各個頻率的增益或輸出來表達(dá)??梢哉f,濾波在言語的產(chǎn)生過程中起到重要的作用。咽喉、口腔、牙齒、口唇、鼻腔組成了一個聲道,此聲道即為一共鳴腔,對從氣管或聲帶發(fā)出的聲波進(jìn)行濾波。之后,通過外部空氣的傳導(dǎo),到達(dá)人的耳朵里,就產(chǎn)生了語音的感覺。音樂是一種人造聲音,它有節(jié)拍和旋律,被視為一種聲音藝術(shù)。人們用音程來描述音樂,音程與聲音的頻率有關(guān),頻率比為2:1的聲音稱為八度音,5:4的聲音被稱為三度音,4:3的聲音稱為四度音,3:2的聲音稱為五度音。任何音符都有一個獨(dú)特的頻率,任何物體都有一個可以振動的固有頻率。音樂家使用的樂器能夠以特定的頻率振動。以弦樂器為例,弦樂器通過振動的琴弦發(fā)出聲音,并且音高會因琴弦的粗細(xì)、張力和長度而改變。弦樂器可以以多種方式演奏,并且可以有多種變化。弦樂器的種類繁多,如七弦琴、吉他、小提琴和鋼琴等。所有的弦樂器都會用張緊的琴弦發(fā)出聲音,較長的弦相比較短的弦產(chǎn)生較低的音調(diào),較緊的弦相比較松的弦產(chǎn)生更高的聲音,較粗的琴弦相比較細(xì)的琴弦產(chǎn)生的聲音更低,這就是為什么即使吉他上的所有弦長都相同但它們的音色卻不同。弦樂器必須通過擰緊或放松樂器上的弦來進(jìn)行完美調(diào)音。弦樂器以不同的方式產(chǎn)生不同的音符,如古箏、豎琴和鋼琴之類的樂器具有一組平行的弦,每個音符對應(yīng)一個弦,可以單獨(dú)聽起來,也可以一起發(fā)音以制作和弦。聽覺的主觀感受:樂音三要素生活中的各種聲音能夠給人的聽覺帶來不同的主觀感受,有的悅耳動聽,有的刺耳難耐。聲音由于振動的不同可分為樂音和噪音。在音樂中所使用的音也既有樂音又有噪音。樂音的振動比較有規(guī)律,聽起來音高很明顯,如果在示波器上則能顯示為規(guī)則的正弦曲線。在音樂中所使用的有固定頻率的音一般都是樂音,如小提琴、二胡、鋼琴等樂器發(fā)出的聲音。而噪音的振動比較雜亂,聽起來音高不很明顯,在示波器上顯示為十分復(fù)雜的曲線。當(dāng)然,音樂所用的噪音是經(jīng)過挑選的打擊樂器,如鑼、鼓、梆子、木魚等。在物理學(xué)上,把聲源有規(guī)律振動時發(fā)出的聲音叫做樂音,用響度、音調(diào)和音色來描述它,即稱為樂音三要素。②音調(diào)是指聲音頻率的高低,主要由聲音的頻率決定,同時也與聲音強(qiáng)度有關(guān)。它表示人的聽覺分辨一個聲音的調(diào)子高低的程度。人類感知音調(diào)的能力與撞擊在耳朵上的聲波頻率有關(guān)。由于通過空氣傳播的聲波是縱波,會在給定頻率下對空氣顆粒產(chǎn)生高壓和低壓擾動,因此,耳朵具有檢測此類頻率并將其與音調(diào)關(guān)聯(lián)的能力。對一定強(qiáng)度的純音,音調(diào)隨頻率的升降而升降;對一定頻率的純音、低頻純音的音調(diào)隨聲強(qiáng)增加而下降,高頻純音的音調(diào)卻隨強(qiáng)度增加而上升。經(jīng)過音樂訓(xùn)練的人,能夠檢測到兩種單獨(dú)的聲音之間的頻率差僅為2Hz。當(dāng)同時播放兩個頻率差大于7Hz的聲音時,大多數(shù)人都能夠檢測到由于兩個聲波的干擾和疊加而導(dǎo)致的復(fù)雜波型的存在。當(dāng)同時播放(和聽到)某些聲波時,聽到時會產(chǎn)生特別令人愉悅的感覺。例如,頻率為2:1的任何兩種聲音被說成是用八度音程分開的,聽到時會讓人產(chǎn)生特別愉悅的感覺。也就是說,如果一種聲音的頻率是另一種聲音的兩倍,則兩個聲波一起播放時聽起來不錯。類似地,頻率比率為5:4的兩種聲音間隔三分之一,這樣的聲波一起演奏時聽起來也不錯。③音色也稱音質(zhì)。樂器和聲帶在振動時發(fā)出的聲音都是由一系列頻率、振幅各不相同的振動復(fù)合而成的。發(fā)音體整體振動產(chǎn)生的音,叫做基音,決定音調(diào);發(fā)音體部分振動產(chǎn)生的音,叫做泛音,決定音色;基音和泛音結(jié)合在一起而形成的音,叫做復(fù)合音。日常我們所聽到的聲音多為復(fù)合音。所以,除了音調(diào)所對應(yīng)的頻率f外,還伴隨著一些高頻的泛音成分(2f、3f……),這些泛音成分幅度各不相同,所以造就了獨(dú)特的聽覺感受,如下頁圖3所示。對語音而言,男聲基音頻率在64~523Hz左右,泛音可擴(kuò)展到7~9kHz;女聲基音頻率在160Hz~1.2kHz左右,泛音可擴(kuò)展到9~10kHz。音頻信號的處理方法說完人們是如何描述聲音的,接下來談?wù)剻C(jī)器是如何識別聲波的。我們把有關(guān)聲波的信號稱為音頻信號。①時域與頻域。時域是描述數(shù)學(xué)函數(shù)或物理信號對時間的關(guān)系。例如,一個信號的時域波形可以表達(dá)信號隨著時間的變化。時域是真實(shí)世界,因?yàn)槲覀兊慕?jīng)歷都是在時域中發(fā)展和驗(yàn)證的,已經(jīng)習(xí)慣于事件按時間的先后順序發(fā)生。以信號為例,信號在時域下的圖形可以顯示信號如何隨著時間變化,如圖4a所示。頻域是指在對函數(shù)或信號進(jìn)行分析時,分析其和頻率有關(guān)的部分,而不是和時間有關(guān)的部分,和時域一詞相對。通過傅里葉變換將一個復(fù)雜的信號分解為更簡單的部分,將復(fù)雜信號描述為多個單頻率分量的總和,進(jìn)而確定復(fù)雜信號由哪些頻率組成。傅里葉變換是一種線性積分變換,用于信號在時域和頻域之間的變換,在物理學(xué)和工程學(xué)中有許多應(yīng)用。因其基本思想首先由法國學(xué)者傅里葉系統(tǒng)地提出,所以,以其名字來命名以示紀(jì)念。光學(xué)里,棱鏡可以根據(jù)波長(頻率)將光分解為不同的顏色。傅里葉變換其實(shí)就是數(shù)學(xué)中的棱鏡,其可以將函數(shù)基于頻率分解為不同的成分。函數(shù)或信號可以透過傅里葉變換在時域及頻域之間轉(zhuǎn)換。信號在頻域下的圖形一般稱為頻譜,可以顯示信號分布在哪些頻率及其比例,如圖4b所示。②時頻分析。一般來說,時域的表示較為形象與直觀,頻域分析則更為簡練,剖析問題更為深刻和方便。信號分析的趨勢是從時域向頻域發(fā)展。時域分析是以時間軸為坐標(biāo)表示動態(tài)信號的關(guān)系。以語音信號為例,語音信號為非平穩(wěn)信號,不能直接應(yīng)用于傅里葉變換,但由于語音信號隨時間變化緩慢,故可以將語音切分成有限長度,應(yīng)用短時傅里葉變換,從而得到聲譜圖。聲譜圖是時序相關(guān)的傅里葉分析的顯示圖像,可以反映音樂信號頻譜隨時間改變而變換,聲譜圖的橫坐標(biāo)是時間,縱坐標(biāo)是頻率,坐標(biāo)點(diǎn)值為語音數(shù)據(jù)能量。由于是采用二維平面表達(dá)三維信息,所以,能量值的大小是通過顏色來表示的,顏色深,表示該點(diǎn)的語音能量越強(qiáng),如圖5所示。聲譜圖中顯示了大量與聲音信號特性相關(guān)的信息,如共振峰、能量等頻域參數(shù)隨時間的變化情況,它同時具有時域波形與頻譜圖的特點(diǎn)。聲譜圖本身包含了聲音信號的所有的頻譜信息。聲譜圖中的花紋有橫線、亂紋和豎直條等,橫線是與時間軸平行的亮顏色帶紋,它們是共振峰,從橫線對應(yīng)的頻率可以確定相應(yīng)的共振峰頻率,在一段音頻的聲譜圖中有沒有橫線出現(xiàn)是判斷它是不是濁音的重要標(biāo)志;豎直條是與時間軸垂直的條紋,每個豎直條相當(dāng)于一個基音,條紋的起點(diǎn)相當(dāng)于聲紋脈沖的起點(diǎn),條紋之間的距離表示基音,條紋越密表示基音頻率越高。③梅爾頻譜圖(Mel-Spectrogram)與梅爾頻率倒譜系數(shù)(MFCC)。音調(diào)與頻率有關(guān),頻率低的聲音聽起來音調(diào)低,頻率高的聲音聽起來音調(diào)高。但音調(diào)與頻率不成正比,而近似為對數(shù)關(guān)系,如圖6所示。音調(diào)還與聲音強(qiáng)度及波形有關(guān)。客觀上用頻率(Hz)表示音調(diào),主觀感覺上的音調(diào)單位為美(mel),它是音調(diào)的度量單位。通過對原始聲音每一幀的短時傅里葉變換,我們捕獲了每一幀頻譜包絡(luò)線,即連接所有共振峰的曲線,如圖7a所示。但實(shí)驗(yàn)表明,人耳只專注于某些區(qū)域,而不是使用整個頻譜?;谌祟惛兄獙?shí)驗(yàn)觀察到人耳僅感知某些頻率分量,類似濾波器的作用。梅爾濾波器組在
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025至2031年中國PVC硬質(zhì)墊塊行業(yè)投資前景及策略咨詢研究報(bào)告
- 2025至2030年圓瓶站立貼標(biāo)機(jī)項(xiàng)目投資價值分析報(bào)告
- 2025年電商培訓(xùn)項(xiàng)目發(fā)展計(jì)劃
- 2025年金膚美白滋養(yǎng)溶角質(zhì)露項(xiàng)目可行性研究報(bào)告
- 2025至2030年中國直列螺桿式注塑機(jī)數(shù)據(jù)監(jiān)測研究報(bào)告
- 2025年鑲骨架紫竹插口巴烏項(xiàng)目可行性研究報(bào)告
- 2025年自粘裝訂夾項(xiàng)目可行性研究報(bào)告
- 粒化高爐礦渣粉行業(yè)深度研究報(bào)告
- 2025至2030年中國迷你中性筆數(shù)據(jù)監(jiān)測研究報(bào)告
- 2025至2030年中國立式畫架數(shù)據(jù)監(jiān)測研究報(bào)告
- 衛(wèi)生院基本藥物采購供應(yīng)管理制度
- 抽水蓄能輔助洞室施工方案
- 數(shù)據(jù)結(jié)構(gòu)英文教學(xué)課件:chapter7 Searching
- 護(hù)理核心制度及重點(diǎn)環(huán)節(jié)-PPT課件
- 夾套管現(xiàn)場施工方法
- 部編版語文五年級下冊形近字組詞參考
- 第三章走向混沌的道路
- 化探野外工作方法及要求
- 2006年事業(yè)單位工資改革工資標(biāo)準(zhǔn)表及套改表2
- 江蘇省特種設(shè)備安全條例2021
- 青島海洋地質(zhì)研究所公開招聘面試答辯PPT課件
評論
0/150
提交評論