《基于卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的單通道語音增強(qiáng)算法設(shè)計》15000字（論文）

上傳人：E*** IP屬地：湖北上傳時間：2025-02-28 格式：DOCX 頁數(shù)：32 大?。?.27MB 積分：27 舉報 版權(quán)申訴

《基于卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的單通道語音增強(qiáng)算法設(shè)計》15000字（論文）_第2頁

《基于卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的單通道語音增強(qiáng)算法設(shè)計》15000字（論文）_第3頁

《基于卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的單通道語音增強(qiáng)算法設(shè)計》15000字（論文）_第4頁

《基于卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的單通道語音增強(qiáng)算法設(shè)計》15000字（論文）_第5頁

已閱讀5頁，還剩27頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

圖14所示。也就是說，除了當(dāng)前幀之外，每個輸入都需要輸入當(dāng)前幀的前幾幀和后幾幀。因為語音具有短時相關(guān)性，多輸入幾幀可以體現(xiàn)這種相關(guān)性。本實(shí)驗采用的網(wǎng)絡(luò)包括三層隱藏層，不同的隱藏層具備節(jié)點(diǎn)數(shù)量約為2050個，利用LeakyReLU當(dāng)作隱藏層的激活函數(shù)，并且選擇線性函數(shù)當(dāng)作網(wǎng)絡(luò)輸出層的激活函數(shù)。而且在不同層的輸出適當(dāng)融入Batch-Normalization改進(jìn)操作過程，不同隱藏層的Dropout參數(shù)皆為0.1，也就是說訓(xùn)練中期間保留九成的神經(jīng)元。反向傳播期間利用Adam方法調(diào)整梯度，進(jìn)而在一定程度上提升收斂效率。圖SEQ圖\*ARABIC14深度神經(jīng)網(wǎng)絡(luò)各層標(biāo)簽：數(shù)據(jù)的標(biāo)簽為純語音信號的幅度譜，這里需要一幀。損失函數(shù):學(xué)習(xí)噪聲和純語音信號的幅度頻譜類似于回歸問題，因此損失函數(shù)用于返回常見的損失函數(shù)，例如均方誤差(MSE)。最后一層激活函數(shù)：由于是回歸問題，最后一層使用線性激活函數(shù)。其他：對輸入幅度譜進(jìn)行歸一化處理可以加快學(xué)習(xí)過程，提高收斂速度。如果不使用振幅譜，則可以使用功率譜。如果功率譜的單位是dB，則需要對數(shù)據(jù)進(jìn)行預(yù)處理。因為log的定義字段不能為0，所以在取對數(shù)之前，將小于0的數(shù)字添加到功率譜中。4.4.2增強(qiáng)階段：輸入：輸入是噪聲信號的幅度譜，也需要幀擴(kuò)展。對輸入數(shù)據(jù)進(jìn)行處理可以在語音信號加上值為0的語音幀，或者舍棄首尾的幾幀。如果訓(xùn)練過程對輸入進(jìn)行了歸一化，這里也需要進(jìn)行歸一化。輸出：輸入為估計的純凈語音幅度譜重構(gòu)波形：在計算輸入信號幅度譜的時候需要保存每一幀的相位信息，然后用保存好的相位信息和模型輸出的幅度譜重構(gòu)語音波形，代碼如下所示：spectrum=magnitude*np.exp(1.0j*phase)；4.5基于掩蔽的語音增強(qiáng)還存在方法是利用掩蔽的方法實(shí)現(xiàn)更好的語音增強(qiáng)效果，將掩蔽作為基礎(chǔ)的方法基于這樣的假設(shè)，在噪聲譜中既存在噪聲信號又存在語音信號，因此將噪聲信號掩蔽掉剩下的就是語音信號。目前常用的掩蔽方法有兩種，即理想二元掩蔽和理想比率掩蔽。計算方法是指基于掩碼的語音分離。理想二進(jìn)制掩碼（IdealBinaryMask，IBM）中的分離任務(wù)變成了一個二進(jìn)制分類問題。這種方法根據(jù)聽覺感知的特性將音頻信號劃分為不同的子帶。根據(jù)每個時頻單元的信噪比，將相應(yīng)的時頻單元的能量設(shè)置為0(當(dāng)噪聲占優(yōu)時)或保持不變(當(dāng)目標(biāo)語音占優(yōu)時)。理想比率掩碼（IdealRatioMask，IRM），也計算每個時頻單位，與IBM的二進(jìn)制分類不同。在IRM中，計算語音信號和噪聲之間的能量比，得到一個介于0和1之間的數(shù)字。然后時頻單位的能量也隨之變化。IRM是IBM的進(jìn)化，它反映了每個時頻單元的噪聲抑制程度，可以進(jìn)一步提高分離語音的質(zhì)量和可懂度?；谘诒蔚恼Z音增強(qiáng)模型的訓(xùn)練和增強(qiáng)過程與基于映射的語音增強(qiáng)模型相似。標(biāo)簽：數(shù)據(jù)的標(biāo)簽為根據(jù)信噪比計算的IBM或者IRM，這里采用一幀。損失函數(shù)：IBM的損失函數(shù)可以用交叉熵，IRM的損失函數(shù)還是用均方差。最后一層的激活函數(shù)：IBM只有0和1兩個值，IRM范圍為[0,1]，因此采用sigmoid激活函數(shù)。波形重建：首先，將噪聲幅度譜乘以計算出的掩模值的相應(yīng)位置。代碼如下，然后根據(jù)相位信息重構(gòu)語音波形。enhance_magnitude=np.multiply(magnitude,mask)；4.6代碼運(yùn)行結(jié)果示意圖圖SEQ圖\*ARABIC15基于映射的語音增強(qiáng)效果圖SEQ圖\*ARABIC16基于IBM的語音增強(qiáng)效果圖SEQ圖\*ARABIC17基于IRM的語音增強(qiáng)效果本實(shí)驗采樣單位時間采取8000個采樣點(diǎn)，第一幅圖是噪聲和原語音的混合波形圖。通過波峰的振幅可見IRM要大于IBM，也就是將IRM作為基礎(chǔ)的語音增強(qiáng)效果明顯比將映射和IRM的作為基礎(chǔ)的語音增強(qiáng)效果較好，而且將IBM作為基礎(chǔ)的語音增強(qiáng)效果明顯優(yōu)于將映射作為基礎(chǔ)的語音增強(qiáng)效果。5總結(jié)與展望本文首先從數(shù)字語音信號處理的角度探討了傳統(tǒng)單聲道語音增強(qiáng)方法的優(yōu)缺點(diǎn)，并對其進(jìn)行了仿真。本文研究了現(xiàn)有的網(wǎng)絡(luò)模型和方法原理，針對當(dāng)前模型噪聲魯棒性差、增強(qiáng)語音信號（如音樂噪聲）的語音失真等問題，對算法和模型性能進(jìn)行了改進(jìn)。最后通過比較基于映射、IBM、IRM的語音增強(qiáng)效果得出了基于IRM的語音增強(qiáng)效果較好的結(jié)論。卷積神經(jīng)網(wǎng)絡(luò)比深度神經(jīng)網(wǎng)絡(luò)的效果可能更好一些，因為它需要的參數(shù)更少，提取的特征更多，之后會繼續(xù)研究卷積神經(jīng)網(wǎng)絡(luò)對語音增強(qiáng)效果的影響。參考文獻(xiàn)HanW,WuC,ZhangX,etal.SpeechEnhancementBasedonImprovedDeepNeuralNetworkswithMMSEPretreatmentFeatures[C]//InternationalConferenceonSignalProcessing,Chennai,India,2016:1140-1145.魏泉水.基于深度神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)算法研究[D].南京大學(xué),2016.張馨.基于深度神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)算法研究[D].哈爾濱工業(yè)大學(xué),2019.LimJS,OppenheimAV.Enhancementandbandwidthcompressionofnoisyspeech[J].ProceedingsoftheIEEE,1979,67(12):1586-1604.JeonKM,ParkNI,KimHK,etal.Multi-bandspectralsubtractionbasedzoom-noisesuppressionfordigitalcameras[C].IEEEInternationalConferenceonConsumerElectronics.2013:401-402.EphraimY,MalahD.Speechenhancementusingaminimum-meansquareerrorshort-timespectralamplitudeestimator[J].IEEETransactionsonAcoustics,SpeechandSignalProcessing,1984,32(6):1109-1121.譚喬來．語音增強(qiáng)方法研究及應(yīng)用[D]:[碩士學(xué)位論文].湖南:湖南師大學(xué)，2008．CohenI.NoiseSpectrumEstimationinAdverseEnvironments:ImprovedMinimaControlledRecursiveAveraging[J].IEEETransactionsonSpeechandAudioProcessing,2003,11(5):466-475.KangTG,KwonK,ShinJW,etal.NMF-BasedSpeechEnhancementIncorporatingDeepNeuralNetwork[C]//AnnualConferenceoftheInternationalSpeechCommunicationAssociation,Singapore,2014:2843-2846.E.Hinton,SOsindero,YWTeh.AFastLearningAlgorithmforDeepBeliefNets[J].NeuralComputation,2006,18(7):1527-1554.XuY,DuJ,DaiL,etal.AnExperimentalStudyonSpeechEnhancementBasedonDeepNeuralNetworks[J].IEEESignalProcessLetters,2014,21(1):65-68.韓偉,張雄偉,閔剛等.基于感知掩蔽深度神經(jīng)網(wǎng)絡(luò)的單通道語音增強(qiáng)方法[J].自動化學(xué)報,2017,43(2):248-258.XugangLu,YuTsao,ShigekiMatsuda,etal.SpeechEnhancementBasedonDeepDenoisingAutoencoder[C]//InternationalConferenceonInterspeech.Lyon:SpeechCommunicationPress,2013:436-440.彭川.基于深度學(xué)習(xí)的語音增強(qiáng)算法研究與實(shí)現(xiàn)[D].電子科技大學(xué),2020.李湑.單聲道語音增強(qiáng)關(guān)鍵技術(shù)研究[D].重慶郵電大學(xué),2019.KounovskyT,MalekJ.Singlechannelspeechenhancementusingconvolutionalneuralnetwork[C].Electronics,Control,Measurement,Signals&TheirApplicationtoMechatronics.IEEE,2017./leixiaohua1020/article/details/47276353陳歡，邱曉暉.改進(jìn)譜減法語音增強(qiáng)算法的研究[J].計算機(jī)技術(shù)與發(fā)展,2014，24（4）：75-77./yhcwjh/article/details/112598893HyvarienA.FastandRobustFixedpointAlgorithmsforIndependentComponentAnalysis.IEEETrans.OnNeuralNetwork.1999,10(3):626~634.HyvarienA.“FastandRobustFixedpointAlgorithmsforIndependentComponentAnalysis.”NeuralComputa

人人文庫> 全部分類> 行業(yè)資料 > 工業(yè)設(shè)計

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

《基于卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的單通道語音增強(qiáng)算法設(shè)計》15000字（論文）

文檔簡介

溫馨提示

最新文檔

評論

《基于卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的單通道語音增強(qiáng)算法設(shè)計》15000字（論文）

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔