




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
圖14所示。也就是說,除了當(dāng)前幀之外,每個輸入都需要輸入當(dāng)前幀的前幾幀和后幾幀。因為語音具有短時相關(guān)性,多輸入幾幀可以體現(xiàn)這種相關(guān)性。本實(shí)驗采用的網(wǎng)絡(luò)包括三層隱藏層,不同的隱藏層具備節(jié)點(diǎn)數(shù)量約為2050個,利用LeakyReLU當(dāng)作隱藏層的激活函數(shù),并且選擇線性函數(shù)當(dāng)作網(wǎng)絡(luò)輸出層的激活函數(shù)。而且在不同層的輸出適當(dāng)融入Batch-Normalization改進(jìn)操作過程,不同隱藏層的Dropout參數(shù)皆為0.1,也就是說訓(xùn)練中期間保留九成的神經(jīng)元。反向傳播期間利用Adam方法調(diào)整梯度,進(jìn)而在一定程度上提升收斂效率。圖SEQ圖\*ARABIC14深度神經(jīng)網(wǎng)絡(luò)各層標(biāo)簽:數(shù)據(jù)的標(biāo)簽為純語音信號的幅度譜,這里需要一幀。損失函數(shù):學(xué)習(xí)噪聲和純語音信號的幅度頻譜類似于回歸問題,因此損失函數(shù)用于返回常見的損失函數(shù),例如均方誤差(MSE)。最后一層激活函數(shù):由于是回歸問題,最后一層使用線性激活函數(shù)。其他:對輸入幅度譜進(jìn)行歸一化處理可以加快學(xué)習(xí)過程,提高收斂速度。如果不使用振幅譜,則可以使用功率譜。如果功率譜的單位是dB,則需要對數(shù)據(jù)進(jìn)行預(yù)處理。因為log的定義字段不能為0,所以在取對數(shù)之前,將小于0的數(shù)字添加到功率譜中。4.4.2增強(qiáng)階段:輸入:輸入是噪聲信號的幅度譜,也需要幀擴(kuò)展。對輸入數(shù)據(jù)進(jìn)行處理可以在語音信號加上值為0的語音幀,或者舍棄首尾的幾幀。如果訓(xùn)練過程對輸入進(jìn)行了歸一化,這里也需要進(jìn)行歸一化。輸出:輸入為估計的純凈語音幅度譜重構(gòu)波形:在計算輸入信號幅度譜的時候需要保存每一幀的相位信息,然后用保存好的相位信息和模型輸出的幅度譜重構(gòu)語音波形,代碼如下所示:spectrum=magnitude*np.exp(1.0j*phase);4.5基于掩蔽的語音增強(qiáng)還存在方法是利用掩蔽的方法實(shí)現(xiàn)更好的語音增強(qiáng)效果,將掩蔽作為基礎(chǔ)的方法基于這樣的假設(shè),在噪聲譜中既存在噪聲信號又存在語音信號,因此將噪聲信號掩蔽掉剩下的就是語音信號。目前常用的掩蔽方法有兩種,即理想二元掩蔽和理想比率掩蔽。計算方法是指基于掩碼的語音分離。理想二進(jìn)制掩碼(IdealBinaryMask,IBM)中的分離任務(wù)變成了一個二進(jìn)制分類問題。這種方法根據(jù)聽覺感知的特性將音頻信號劃分為不同的子帶。根據(jù)每個時頻單元的信噪比,將相應(yīng)的時頻單元的能量設(shè)置為0(當(dāng)噪聲占優(yōu)時)或保持不變(當(dāng)目標(biāo)語音占優(yōu)時)。理想比率掩碼(IdealRatioMask,IRM),也計算每個時頻單位,與IBM的二進(jìn)制分類不同。在IRM中,計算語音信號和噪聲之間的能量比,得到一個介于0和1之間的數(shù)字。然后時頻單位的能量也隨之變化。IRM是IBM的進(jìn)化,它反映了每個時頻單元的噪聲抑制程度,可以進(jìn)一步提高分離語音的質(zhì)量和可懂度?;谘诒蔚恼Z音增強(qiáng)模型的訓(xùn)練和增強(qiáng)過程與基于映射的語音增強(qiáng)模型相似。標(biāo)簽:數(shù)據(jù)的標(biāo)簽為根據(jù)信噪比計算的IBM或者IRM,這里采用一幀。損失函數(shù):IBM的損失函數(shù)可以用交叉熵,IRM的損失函數(shù)還是用均方差。最后一層的激活函數(shù):IBM只有0和1兩個值,IRM范圍為[0,1],因此采用sigmoid激活函數(shù)。波形重建:首先,將噪聲幅度譜乘以計算出的掩模值的相應(yīng)位置。代碼如下,然后根據(jù)相位信息重構(gòu)語音波形。enhance_magnitude=np.multiply(magnitude,mask);4.6代碼運(yùn)行結(jié)果示意圖圖SEQ圖\*ARABIC15基于映射的語音增強(qiáng)效果圖SEQ圖\*ARABIC16基于IBM的語音增強(qiáng)效果圖SEQ圖\*ARABIC17基于IRM的語音增強(qiáng)效果本實(shí)驗采樣單位時間采取8000個采樣點(diǎn),第一幅圖是噪聲和原語音的混合波形圖。通過波峰的振幅可見IRM要大于IBM,也就是將IRM作為基礎(chǔ)的語音增強(qiáng)效果明顯比將映射和IRM的作為基礎(chǔ)的語音增強(qiáng)效果較好,而且將IBM作為基礎(chǔ)的語音增強(qiáng)效果明顯優(yōu)于將映射作為基礎(chǔ)的語音增強(qiáng)效果。5總結(jié)與展望本文首先從數(shù)字語音信號處理的角度探討了傳統(tǒng)單聲道語音增強(qiáng)方法的優(yōu)缺點(diǎn),并對其進(jìn)行了仿真。本文研究了現(xiàn)有的網(wǎng)絡(luò)模型和方法原理,針對當(dāng)前模型噪聲魯棒性差、增強(qiáng)語音信號(如音樂噪聲)的語音失真等問題,對算法和模型性能進(jìn)行了改進(jìn)。最后通過比較基于映射、IBM、IRM的語音增強(qiáng)效果得出了基于IRM的語音增強(qiáng)效果較好的結(jié)論。卷積神經(jīng)網(wǎng)絡(luò)比深度神經(jīng)網(wǎng)絡(luò)的效果可能更好一些,因為它需要的參數(shù)更少,提取的特征更多,之后會繼續(xù)研究卷積神經(jīng)網(wǎng)絡(luò)對語音增強(qiáng)效果的影響。參考文獻(xiàn)HanW,WuC,ZhangX,etal.SpeechEnhancementBasedonImprovedDeepNeuralNetworkswithMMSEPretreatmentFeatures[C]//InternationalConferenceonSignalProcessing,Chennai,India,2016:1140-1145.魏泉水.基于深度神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)算法研究[D].南京大學(xué),2016.張馨.基于深度神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)算法研究[D].哈爾濱工業(yè)大學(xué),2019.LimJS,OppenheimAV.Enhancementandbandwidthcompressionofnoisyspeech[J].ProceedingsoftheIEEE,1979,67(12):1586-1604.JeonKM,ParkNI,KimHK,etal.Multi-bandspectralsubtractionbasedzoom-noisesuppressionfordigitalcameras[C].IEEEInternationalConferenceonConsumerElectronics.2013:401-402.EphraimY,MalahD.Speechenhancementusingaminimum-meansquareerrorshort-timespectralamplitudeestimator[J].IEEETransactionsonAcoustics,SpeechandSignalProcessing,1984,32(6):1109-1121.譚喬來.語音增強(qiáng)方法研究及應(yīng)用[D]:[碩士學(xué)位論文].湖南:湖南師大學(xué),2008.CohenI.NoiseSpectrumEstimationinAdverseEnvironments:ImprovedMinimaControlledRecursiveAveraging[J].IEEETransactionsonSpeechandAudioProcessing,2003,11(5):466-475.KangTG,KwonK,ShinJW,etal.NMF-BasedSpeechEnhancementIncorporatingDeepNeuralNetwork[C]//AnnualConferenceoftheInternationalSpeechCommunicationAssociation,Singapore,2014:2843-2846.E.Hinton,SOsindero,YWTeh.AFastLearningAlgorithmforDeepBeliefNets[J].NeuralComputation,2006,18(7):1527-1554.XuY,DuJ,DaiL,etal.AnExperimentalStudyonSpeechEnhancementBasedonDeepNeuralNetworks[J].IEEESignalProcessLetters,2014,21(1):65-68.韓偉,張雄偉,閔剛等.基于感知掩蔽深度神經(jīng)網(wǎng)絡(luò)的單通道語音增強(qiáng)方法[J].自動化學(xué)報,2017,43(2):248-258.XugangLu,YuTsao,ShigekiMatsuda,etal.SpeechEnhancementBasedonDeepDenoisingAutoencoder[C]//InternationalConferenceonInterspeech.Lyon:SpeechCommunicationPress,2013:436-440.彭川.基于深度學(xué)習(xí)的語音增強(qiáng)算法研究與實(shí)現(xiàn)[D].電子科技大學(xué),2020.李湑.單聲道語音增強(qiáng)關(guān)鍵技術(shù)研究[D].重慶郵電大學(xué),2019.KounovskyT,MalekJ.Singlechannelspeechenhancementusingconvolutionalneuralnetwork[C].Electronics,Control,Measurement,Signals&TheirApplicationtoMechatronics.IEEE,2017./leixiaohua1020/article/details/47276353陳歡,邱曉暉.改進(jìn)譜減法語音增強(qiáng)算法的研究[J].計算機(jī)技術(shù)與發(fā)展,2014,24(4):75-77./yhcwjh/article/details/112598893HyvarienA.FastandRobustFixedpointAlgorithmsforIndependentComponentAnalysis.IEEETrans.OnNeuralNetwork.1999,10(3):626~634.HyvarienA.“FastandRobustFixedpointAlgorithmsforIndependentComponentAnalysis.”NeuralComputa
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 三年級數(shù)學(xué)故事解讀
- 小王子書中純真之愛讀后感
- 自然資源開發(fā)與保護(hù)合作協(xié)議
- 智能家電銷售與保修協(xié)議
- 初中生歷史故事解讀
- 運(yùn)輸合同運(yùn)輸補(bǔ)充協(xié)議
- 辦公區(qū)域布局調(diào)研報告
- 環(huán)保咨詢服務(wù)協(xié)議
- 電子設(shè)備銷售及安裝維護(hù)合同
- 物流行業(yè)運(yùn)輸損壞物品賠償協(xié)議
- 解讀 國家數(shù)據(jù)局首批20個“數(shù)據(jù)要素x”典型案例-31正式版-WN8
- 《跨境直播運(yùn)營》課件-跨境直播的意義和要素
- 3 學(xué)會反思(教學(xué)設(shè)計)部編版道德與法治六年級下冊
- 第一單元 歌唱祖國-《 中華人民共和國國歌》課件 2023-2024學(xué)年人音版初中音樂七年級上冊
- 2024-2030年中國腎性貧血療法行業(yè)市場發(fā)展趨勢與前景展望戰(zhàn)略分析報告
- DL∕T 1281-2013 燃煤電廠固體廢物貯存處置場污染控制技術(shù)規(guī)范
- 辦公家具采購項目質(zhì)量保證售后服務(wù)承諾書
- 2024年時政試題庫(b卷)
- 2024助貸委托服務(wù)協(xié)議合同模板
- 廣東省住院病歷評分標(biāo)準(zhǔn)
- 關(guān)于315食品安全
評論
0/150
提交評論