




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
感受聲音的世界楊磊邱元陽劉宗凡金琦倪俊杰楊磊
天津市第五中學邱元陽
河南省安陽縣職業(yè)中專劉宗凡
廣東省四會市四會中學金
琦
浙江師范大學附屬中學倪俊杰
浙江省桐鄉(xiāng)市鳳鳴高中聲音分類的應(yīng)用領(lǐng)域楊磊:利用機器對采集到的聲音進行分析,從而判斷有關(guān)聲音的來源、變化等重要信息的智能聲音分析系統(tǒng)逐步走入人們的生活。隨著人工智能應(yīng)用的不斷發(fā)展與進步,依靠機器學習算法對場景、環(huán)境等進行判斷從而輔助決策、音樂檢索和語音情感分析等成為新的技術(shù)發(fā)展方向,得到了廣泛的關(guān)注。倪俊杰:聲音事件檢測是指對采集到的聲音數(shù)據(jù)進行分類與檢測,從而對當前發(fā)生的事件或發(fā)聲的物體進行判斷,目前主要是針對特定的應(yīng)用領(lǐng)域?qū)φ鎸嵣瞽h(huán)境中的聲音事件進行分類。由于聲音是全向傳播的,相比于圖像或者視頻,基于聲音的事件檢測不會受到光線以及被遮擋等問題的影響;同時,聲音信號的采集過程簡單且存儲需求較小,計算復(fù)雜度低,因此,基于聲音的事件檢測系統(tǒng)具備體積小、功耗低、易部署等優(yōu)勢,在智慧城市、智能家居及無人駕駛等領(lǐng)域有著極為廣闊的應(yīng)用前景。聲音事件檢測主要包括單聲音事件檢測和多聲音事件檢測兩個研究方向。單聲音事件檢測用于檢測每個時間最突出的聲音事件,而多聲音事件檢測則識別場景中重疊的聲音事件以及單個聲音事件。與單聲音事件識別相比,由于多聲音事件識別的錄音在同一時間存在大量重疊聲音事件,因此,多聲音事件識別呈現(xiàn)更多挑戰(zhàn)。而現(xiàn)實生活中,由于天氣、環(huán)境等原因,聲音的出現(xiàn)往往不是單獨的,在判斷場景時也需要綜合考慮多種聲音,因此,研究中更多地關(guān)注多聲音事件檢測。邱元陽:在生物識別技術(shù)專題中,我們提到過聲紋識別技術(shù),即依靠每個人發(fā)音的獨特個性特點來準確識別發(fā)音者。人的發(fā)聲器官的各個組成部分的形態(tài)和物理特點各不相同,如果用電聲學儀器記錄下發(fā)音者語言信息的聲波頻譜,會發(fā)現(xiàn)每個人的聲紋圖譜都有差異,但又有相對穩(wěn)定性,這就使得聲紋具有生物識別的基礎(chǔ)和價值。聲紋識別的可能性來自人對聲音辨識的實踐感受。對于熟悉的人來說,他不需要看到說話人,就能準確地判斷說話人是誰,這就為聲紋識別提供了可能。從物理學的角度來看,不同的人說話聲音之所以不同,是因為聲音的頻率和音色等各不相同。尤其是音色,因為有豐富的泛音和諧波,可以形成千萬種各不相同的音色,不同的樂器具有不同的音色,不同的人聲也具有不同的音色。但在實際的聲音特征采集中,會考慮到非常多的個性化特征,如聲學層面的頻譜、倒頻譜、共振峰等,解剖學層面的鼻音、呼吸音、沙啞音,以及生物學和心理學層面的韻律、節(jié)奏、速度、語調(diào)、音量,甚至社會學層面的方言、修辭、發(fā)音、言語習慣等。由此可見,聲紋識別與語音識別完全不同,后者考慮的是概括出共性的識別,前者考慮的是區(qū)別出個性的識別。聲紋識別的優(yōu)勢主要有語音獲取方便、識別成本低廉、使用簡單等。這些優(yōu)勢使得聲紋識別的應(yīng)用越來越廣,成為僅次于指紋和掌紋的生物特征識別。目前,在信息、銀行證券系統(tǒng)、公安司法等領(lǐng)域能應(yīng)用聲紋識別。但是聲紋識別也有缺陷,如身體狀況和情緒造成的聲紋特征變化、采集設(shè)備和信道對識別性能的影響、環(huán)境噪聲對識別的干擾、多人說話場景下的說話人識別(誰在說話)和說話人辨認(是誰的話)難度較大等,這些缺陷都會影響識別的結(jié)果。聲紋識別技術(shù)還需要進一步發(fā)展和完善。聲音數(shù)據(jù)集與特征提取庫介紹楊磊:算法、數(shù)據(jù)、算力是人工智能底層的三要素。深度學習算法本身是建構(gòu)在大樣本數(shù)據(jù)基礎(chǔ)上的,而且數(shù)據(jù)越多,數(shù)據(jù)質(zhì)量越好,算法結(jié)果表現(xiàn)越好。這意味著對數(shù)據(jù)的需求將會持續(xù)增加,尤其對細分場景數(shù)據(jù)的獲取和標注難度不斷增高。那么,聲音分類領(lǐng)域有哪些公開的數(shù)據(jù)集呢?劉宗凡:環(huán)境聲音分類數(shù)據(jù)集(ESC)是在一個統(tǒng)一的格式下提供短環(huán)境記錄的集合(5秒長的片段,44.1千赫)。所有剪輯均摘自F項目提供的公共現(xiàn)場記錄。根據(jù)知識共享許可條款,可以使用該數(shù)據(jù)集。該數(shù)據(jù)集包括三個子部分:①ESC-50。帶有標簽的2000個環(huán)境聲音記錄集,包含50個聲音類別,每一類別含有40個剪輯。②ESC-10。帶有標簽的400個環(huán)境聲音記錄集,包含10個聲音類別,每一類別有40個剪輯,它實際上是ESC-50的子集,最初創(chuàng)建為概念證明/標準化選擇的簡單記錄。③ESC-US。250000個不帶有標簽的環(huán)境聲音記錄(5秒長的剪輯)數(shù)據(jù)集,它適用于無監(jiān)督的預(yù)訓(xùn)練。ESC-US數(shù)據(jù)集雖然沒有人為手動標注,但它包含一些原始用戶上傳音樂時提交的有關(guān)音樂流派的信息標簽,這些標簽可能會用于弱監(jiān)督學習(嘈雜和/或丟失標簽)。ESC-10和ESC-50數(shù)據(jù)集中的所有數(shù)據(jù)已被劃分到五個大小均一的文件中,而且從同一原始聲音源中提取的剪輯始終被安排放在同一個文件中。CASIA漢語情感語料庫由中國科學院自動化所在純凈的錄音環(huán)境下選取錄音人男聲、女聲各兩人,每人按照不同的情感朗讀文本2500句,共9600句,以16khz采樣率、16bit、pcm格式存儲。錄制四個專業(yè)發(fā)音人的音頻文件(有相同文本和不同文本)。通常選取7200條發(fā)音文件,其中每個人的每一種情感的300條是相同文本,也就是說對相同的文本賦予不同的情感來閱讀,用來對比分析相同話語在不同情感狀態(tài)下的聲學特征以及韻律表現(xiàn)。其中每個人都包含六種不同的情緒情感狀態(tài):生氣、害怕、快樂、中性、悲傷和驚訝。另外,還有百萬歌曲數(shù)據(jù)集、AudioSet等大型的聲音數(shù)據(jù)集,這些聲音數(shù)據(jù)集為深度神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練提供了數(shù)據(jù)支持,使得訓(xùn)練出有效的網(wǎng)絡(luò)成為可能。楊磊:數(shù)據(jù)集中包含的數(shù)據(jù)都是音頻原始數(shù)據(jù),而音頻所包含的數(shù)據(jù)信息太多,一般無法直接將原始數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)使用。因此,從音頻數(shù)據(jù)中提取出具有代表性的音樂特征成為必要手段。那么,是否有這方面的相關(guān)工具可以使用呢?金琦:在聲音信號處理領(lǐng)域中,一些現(xiàn)有程序可用于聲音信號特征參數(shù)的提取。下面給出幾種常用的語音特征參數(shù)提取工具:①openSMILE是一個可用于語音信號處理的特征提取器,且具有高度模塊化和靈活性等特點。它是一款以命令行形式運行的工具,通過配置config文件,主要用于提取音頻特征,下載網(wǎng)址:http:///technology/opensmile/。②VOICEBOX是一個語音處理工具箱,它由英國倫敦帝國理工學院電氣與電子工程系的MikeBrookes維護并編寫,工具箱包含了MATLAB環(huán)境下語音處理的常用函數(shù),下載網(wǎng)址http://www.ee.ic.ac.uk/hp/staff/dmb/voicebox/voicebox.html。③Praat是一款跨平臺的多功能語音學專業(yè)軟件,主要用于對數(shù)字化的語音信號進行分析、標注、處理及合成等實驗,同時生成各種語圖和文字報表。下載網(wǎng)址:http://www.fon.hum.uva.nl/praat/。當然,除應(yīng)用軟件和工具箱外,Python也有一些很好用的音頻處理庫,如Librosa和PyAudio。另外,還有一些基本的音頻功能的內(nèi)置模塊。下面筆者以Librosa庫為例演示提取音頻信號梅爾聲譜圖的過程。提取過程如上頁圖1所示。步驟1:安裝,代碼如上頁圖2所示。步驟2:導(dǎo)入音頻文件并顯示,如上頁圖3所示,代碼如上頁圖4所示。步驟3:提取并顯示梅爾聲譜圖,如圖5所示,代碼如圖6所示。以上演示表明,盡管提取梅爾聲譜圖的原理和過程相對復(fù)雜,但是利用Librosa庫提取非常方便,每個庫函數(shù)都有一些參數(shù)設(shè)置,這需要查看相關(guān)文檔。人工智能算法實現(xiàn)楊磊:基于人工智能算法的聲音分類系統(tǒng)由三個基本部分組成:信號預(yù)處理、特征提取和分類。首先進行聲音預(yù)處理,如去噪和分割,以確定信號的有意義的單元;然后進行特征提取,用于識別信號中可用的相關(guān)特征;最后將提取的特征向量通過分類器進行分類處理。用于聲音分類的簡化系統(tǒng)如圖7所示。在基于聲音的信號處理的第一階段,進行聲音增強,去除噪聲成分。第二階段包括兩個部分,即特征提取和特征選擇。從預(yù)處理的信號中提取所需的特征,并從所提取的特征中進行選擇,這種特征提取和選擇通?;跁r域和頻域中語音信號的分析。在第三階段,各種分類器,如神經(jīng)網(wǎng)絡(luò)、支持向量機、決策樹等被用來對這些特征進行分類。下面,利用tensorflow2.0和UrbanSound8K數(shù)據(jù)集簡單介紹一下利用卷積神經(jīng)網(wǎng)絡(luò)實現(xiàn)環(huán)境音分類的過程。利用Librosa庫提取梅爾聲譜圖,得到特征矩陣(64,174,1),如下頁圖8所示。訓(xùn)練過程中訓(xùn)練集的準確率和測試集上的準確率隨迭代次數(shù)的變化如上頁圖11所示。最終利用混淆矩陣查看各個類別的訓(xùn)練效果,如圖12所示。音頻編輯的原理和難度邱元陽:音頻的編輯比較特殊,在聲音的處理上,我們無法做到隨心所欲。音頻的編輯不同于圖像和視頻,因為圖像和視頻本身是可以看到的,進行可視化操作是理所當然的,而聲音是不可見的,需要將用耳朵感受的現(xiàn)象變成可視化的操作,這樣就使難度大了很多。在音頻編輯軟件中可以很方便地添加音效,對聲音進行合成、疊加,粗略地去除音樂中的人聲,甚至通過不同的聲道來形成環(huán)繞立體聲。在AI的加持下,Adobe的音頻編輯已經(jīng)能做到直接修改語音內(nèi)容。但是很基本的聲音操作,我們往往無法實現(xiàn),如可視化地對聲音本身進行編輯修改、對每個聲音元素進行單獨處理、剔除混亂場景中的某種聲音、提取需要的聲音元素等。視頻的編輯難度也會大于圖像編輯,但是因為視頻可以看作圖像在時間軸上的排列,復(fù)雜和很難完成的處理至少還有對逐幀圖片進行編輯的可能。音頻雖然也是各種聲音元素在時間軸上的排列,卻無法逐幀處理。因為我們對聲音的認識還有所欠缺,對聲音的直觀可視表達還無能為力。目前對聲音的物理學認識還停留在聲音三要素即響度、音調(diào)和音色層面,對聲音的可視化表達還停留在“波形”上。因此,音頻編輯的界面往往就是波形的顯示和編輯。圖像是通過視覺經(jīng)視網(wǎng)膜轉(zhuǎn)換后在大腦形成的映像,而聲音則是通過聽覺經(jīng)鼓膜傳遞給聽覺神經(jīng)在大腦形成的映像。不同的人和不同的動物,對聲音的辨別都有差異,如海豚和蝙蝠能感受到超聲波,老鼠能感受到次聲波,而人卻感覺不到。聲音三要素中的響度一般認為取決于聲波的振幅,音調(diào)取決于聲波的頻率,但這些感受是主觀的,實際上與物理原理相差較大。例如,音調(diào)主要由聲音的頻率決定,但同時也與聲音強度有關(guān)。對一定強度的純音,音調(diào)隨頻率的升降而升降;對一定頻率的純音,2000Hz以下低頻純音的音調(diào)隨聲強增加而下降,3000Hz以上高頻純音的音調(diào)卻隨強度增加而上升。最終人耳感覺到的聲音是否好聽,還取決于音色,即音頻的泛音或諧波成分。相對于某一頻段的音高是否具有一定的強度,在頻率范圍內(nèi)的同一音量下各頻點的幅度是否均衡飽滿、頻率響應(yīng)曲線是否平直、音準是否穩(wěn)定、頻率的畸變和相移是否明顯、泛音是否適中、諧波是否豐富等,都決定了聲音是否優(yōu)美動聽。有這么多的物理特性之外的生理感覺,使得聲音效果的控制和處理難度更大,而在聲音處理之前,還要對聲音進行數(shù)字化,又涉及各種采樣、量化和壓縮處理。音頻的量化過程就是將聲音數(shù)字化,也就是模擬音頻的數(shù)字化過程,包括采樣、量化、編碼等。因為聲音具有時間延續(xù)性,音頻編輯也需要在時間軸上進行。自然的聲音是連續(xù)的,數(shù)字化的聲音則是離散的,這就需要確定間隔多少時間采樣,即采樣頻率。采樣頻率越高越能真實地反映音頻信號隨時間的變化,聲音的還原就越真實越自然,但存儲體積也越大。為了復(fù)原波形,一次振動中必須有2個點的采樣,人耳能夠感覺到的最高頻率為20kHz,因此要滿足人耳的聽覺要求,則需要至少每秒進行40k次采樣,即40kHz的采樣率,因此,CD的采樣率確定為44.1kHz。一般8000Hz可用于電話通話,11025Hz能用于AM調(diào)幅廣播,而22050Hz和24000HZ用于FM調(diào)頻廣播,44100Hz是CD音質(zhì),48000Hz則是更加高精的高清晰音質(zhì),一些藍光音軌甚至采用了96000Hz或192000Hz的高采樣頻率。音頻編輯軟件在處理不同采樣頻率的素材時,往往需要先進行采樣頻率統(tǒng)一。除了在時間軸上采樣,還需要量化音頻信號的幅度變化,即位深或位寬。量化位數(shù)越多,越能細化音頻信號的幅度變化。量化之后,還需要編碼,也就是按一定格式記錄采樣和量化后的數(shù)據(jù)。對記錄音頻的文件進行播放,就是解碼的過程,音頻編輯軟件還要識別和適應(yīng)不同的編碼。為了更好地跟傳輸線路匹配,編碼之后的數(shù)據(jù)會用音頻碼率的形式來描述所需要的最低傳輸速度,這就是碼率,也就是1秒內(nèi)編碼或傳輸?shù)囊纛l數(shù)據(jù)量。采樣率、位寬、聲道數(shù)相乘,就得到碼率。音頻數(shù)據(jù)本身是流式的,沒有明確的“幀”概念,在音頻編輯軟件中為了方便,一般取2.5ms~60ms為單位的數(shù)據(jù)量為一幀音頻。所以,音頻的幀跟視頻的幀不同,也不像視頻幀那樣可以單幀編輯。像視頻處理一樣,處理好的音頻在存儲時也需要壓縮體積。當一個頻率的聲音能量小于某個閾值(最小可聞閾)時,人耳就聽不到,這就是信號的掩蔽效應(yīng)。而當能量較大的聲音出現(xiàn)時,其頻率附近的閾值會提高很多,即頻域掩蔽效應(yīng)。如果強音信號和弱音信號同時出現(xiàn),也會發(fā)生掩蔽效應(yīng),即時域掩蔽效應(yīng)。這些特點就是聲音壓縮的原理和依據(jù)。在音頻處理中,根據(jù)噪聲的特點,可以用濾波器進行過濾,達到回聲消除(AEC)、噪聲抑制(ANS)等目的。將聲音的時域信號轉(zhuǎn)成頻域信號進行分析,從頻域的角度看,濾波器就是刪除一些不需要的頻率,達到過濾效果。在自然聲音中,當眾人同時講話時,采集進來的語音信號就包含了遠端的回聲和近端的語音,兩者混合在一起,出現(xiàn)回聲,就會有漏尾和切字,這個回聲的消除就十分困難,因為既要保護近端的語音信號,又要盡量把混合進來的遠端回聲消除干凈。音頻編輯軟件一般會根據(jù)參考信號與遠端回聲信號的相關(guān)性,盡量將遠端回聲信號進行消除(線性處理),同時根據(jù)殘留量進行殘留回聲抑制和剪切(非線性處理)。當環(huán)境噪音太大時,可以對帶噪語音進行VAD判斷、噪
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 延遲還款合同范本
- 2025年中國讀書軟件行業(yè)市場深度分析及投資戰(zhàn)略規(guī)劃報告
- 勞保物品合同范本
- 2025年美寶曲咪新乳膏行業(yè)深度研究分析報告
- 中國金屬鉑類抗藥行業(yè)市場全景監(jiān)測及投資前景展望報告
- 2025年羧甲基纖維素鈉鹽項目可行性研究報告
- 人教版七年級歷史與社會上冊3-1《家住平原》教學設(shè)計
- 2025年度新媒體運營管理合作協(xié)議書
- 2025年度戶外通訊基站臨時搭建承包合同
- 2025年廣東河源市企業(yè)全景分析報告
- 光伏電站小EPC規(guī)定合同范本
- 2024年01月江蘇2024年昆山鹿城村鎮(zhèn)銀行第三期校園招考筆試歷年參考題庫附帶答案詳解
- 建筑工程安全與管理
- 2025年內(nèi)蒙古機電職業(yè)技術(shù)學院高職單招職業(yè)技能測試近5年??及鎱⒖碱}庫含答案解析
- 2024年05月齊魯銀行總行2024年社會招考筆試歷年參考題庫附帶答案詳解
- 浙江省紹興市2024-2025學年高一上學期期末調(diào)測英語試題(無答案)
- 幼兒園開學教師安全知識培訓(xùn)
- 《會展經(jīng)濟與策劃》課件
- 工廠廠區(qū)道路拆除實施方案
- 公寓管家培訓(xùn)課件
- 新大象版科學四年級下冊全冊教學設(shè)計
評論
0/150
提交評論