(信號(hào)與信息處理專(zhuān)業(yè)論文)混合樂(lè)音信號(hào)分離方法研究.pdf_第1頁(yè)
(信號(hào)與信息處理專(zhuān)業(yè)論文)混合樂(lè)音信號(hào)分離方法研究.pdf_第2頁(yè)
(信號(hào)與信息處理專(zhuān)業(yè)論文)混合樂(lè)音信號(hào)分離方法研究.pdf_第3頁(yè)
(信號(hào)與信息處理專(zhuān)業(yè)論文)混合樂(lè)音信號(hào)分離方法研究.pdf_第4頁(yè)
(信號(hào)與信息處理專(zhuān)業(yè)論文)混合樂(lè)音信號(hào)分離方法研究.pdf_第5頁(yè)
已閱讀5頁(yè),還剩52頁(yè)未讀 繼續(xù)免費(fèi)閱讀

(信號(hào)與信息處理專(zhuān)業(yè)論文)混合樂(lè)音信號(hào)分離方法研究.pdf.pdf 免費(fèi)下載

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

原創(chuàng)性聲明 本人鄭重聲明:所呈交的學(xué)位論文,是本人在導(dǎo)師的指導(dǎo)下,獨(dú) 立進(jìn)行研究所取得的成果。除文中已經(jīng)注明引用的內(nèi)容外,本論文不 包含任何其他個(gè)人或集體已經(jīng)發(fā)表或撰寫(xiě)過(guò)的科研成果。對(duì)本文的研 究作出重要貢獻(xiàn)的個(gè)人和集體,均已在文中以明確方式標(biāo)明。本聲明 的法律責(zé)任由本人承擔(dān)。 論文作者簽名:簽童芏日期:彬羅 關(guān)于學(xué)位論文使用授權(quán)的聲明 本人完全了解山東大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定,同意學(xué) 校保留或向國(guó)家有關(guān)部門(mén)或機(jī)構(gòu)送交論文的復(fù)印件和電子版,允許論 文被查閱和借閱;本人授權(quán)山東大學(xué)可以將本學(xué)位論文的全部或部分 內(nèi)容編入有關(guān)數(shù)據(jù)庫(kù)進(jìn)行檢索,可以采用影印、縮印或其他復(fù)制手段 保存論文和匯編本學(xué)位論文。 ( 保密論文在解密后應(yīng)遵守此規(guī)定) 論文作者簽名:盥導(dǎo)師簽名:弛日 期:絲:蘭絲 7 山東人學(xué)碩士學(xué)位論文 目錄 摘要i a b s t r a c t i i i 第一章緒論1 1 1 研究背景及意義1 1 2 研究現(xiàn)狀及趨勢(shì)1 1 3 混合樂(lè)音分離的概念2 1 4 論文安排3 第二章技術(shù)基礎(chǔ)和理論4 2 1 樂(lè)音基礎(chǔ)知識(shí)4 2 2 聽(tīng)覺(jué)的掩蔽效應(yīng)4 2 3 疊接相加法一5 2 4 正弦分析與綜合6 2 4 1 正弦分析7 2 4 2 正弦綜合7 2 5 分離技術(shù)的評(píng)價(jià)標(biāo)準(zhǔn)8 2 6 本章小結(jié)1 0 第三章樂(lè)音信號(hào)分離的典型技術(shù)1 1 3 1 基于正弦模型的樂(lè)音分離1 1 3 1 1 傳統(tǒng)算法的樂(lè)音分離1 1 3 1 2 改進(jìn)算法的樂(lè)音分離1 2 3 2 計(jì)算聽(tīng)覺(jué)場(chǎng)景分析的樂(lè)音分離1 2 31 3 基于k n n 聚類(lèi)的樂(lè)音分離1 3 3 4 頻譜域?yàn)V波分解算法1 4 3 4 1 頻譜抽取的分離算法1 4 3 4 2 時(shí)域?yàn)V波的分離算法1 4 3 5 非負(fù)矩陣分解算法1 4 3 6 本章小結(jié)l5 第四章算法性能比較1 7 l, 山東大學(xué)碩十學(xué)位論文 4 1 基于正弦模型的樂(lè)音分離1 7 4 1 1 算法描述17 4 1 2 試驗(yàn)結(jié)果分析2 1 4 2 計(jì)算聽(tīng)覺(jué)場(chǎng)景分析的樂(lè)音分離2 5 4 2 1 算法描述2 5 4 2 2 試驗(yàn)結(jié)果分析2 6 4 3 基于k n n 的樂(lè)音分離2 7 4 3 1 算法描述2 7 4 3 2 試驗(yàn)結(jié)果分析2 8 4 4 基于頻譜濾波的樂(lè)音分離2 8 4 4 1 算法描述2 8 4 4 2 試驗(yàn)結(jié)果分析2 9 4 5 非負(fù)矩陣分解的樂(lè)音分離3 2 4 5 1 算法描述3 2 4 5 2 試驗(yàn)結(jié)果分析3 4 4 6 分離算法性能評(píng)價(jià)3 5 4 6 1 測(cè)試評(píng)估3 6 4 6 2 總體評(píng)價(jià)3 9 第五章總結(jié)4 l 參考文獻(xiàn)4 4 致謝4 7 攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文4 8 - 1 刀 、 山東大學(xué)碩上學(xué)位論文 c o n t e n t s a b s t r a c ti nc h i n e s e i a b s t r a c ti ne n g l i s h i i i c h a p t e r1 i n t r o d u c t i o n 1 1 1b a c k g r o u n da n dm e a n i n go fs u b j e c t 1 1 2s t a t u sa n dt r e n d 1 1 3p r o b l e md e f i n i t i o n 。2 1 4c o n t e n t sa n df r a m e 3 c h a p t e r2t e c h n o l o g ya n db a s i ct h e o r y 。4 2 1b a s i ck n o w l e d g eo f m u s i ca c o u s t i c 4 2 2a u d i t o r ym a s k i n ge f f e c t 4 2 3o v e r l a p a d d 5 2 4s i n u s o i d a la n a l y s i s & s y n t h e s i s 6 :! 4 1s i n u s o i d a l a n a l y s i s 7 2 4 2s i n u s o i d a ls y n t h e s i s 7 2 5e v a l u a t i o no fs o u r c es e p a r a t i o n 8 2 6c h a p t e rs u m m a r y 1 0 c h a p t e r3s t r e a m i n gm e t h o d s 11 3 1s i n u s o i d a lm o d e l i n gb a s e d m u s i cs o u r c es e p a r a t i o n 11 :;1 1t r a d i t i o n a ls i n u s o i d a lm o d e l i n g 11 3 1 2i m p r o v e ds i n u s o i d a lm o d e l i n g 1 2 3 2c a s ab a s e dm u s i cs o u r c es e p a r a t i o n 1 2 3 3k n nb a s e dm u s i cs o u r c es e p a r a t i o n 1 3 3 4s p e c t r a lf i l t e r i n gb a s e dm u s i cs o u r c es e p a r a t i o n 1 4 :;4 1s p e c t r u me x t r a c t o n 1 4 :;4 2t i m e - d o m a t i o nf i l t e r i n g 1 4 3 5n m fb a s e dm u s i cs o u r c es e p a r a t i o n 1 4 3 6c h a p t e rs u m m a r y 1 5 c h a p t e r4s y s t e mp e r f o r m a n c e s 17 l 哆 山東大學(xué)碩上學(xué)位論文 4 1s i n u s o i d a lm o d e l i n ga l g o r i t h m 1 7 4 1 1a l g o r i t h md e s c r i p t i o n 17 4 1 2r e s u l t sa n a l y s i so fe x p e r i m e n t 21 4 2c a s a a l g o r i t h m 2 5 4 2 1a l g o r i t h md e s c r i p t i o n 2 5 4 2 2r e s u l t sa n a l y s i so f e x p e r i m e n t 2 6 4 3k n n a l g o r i t h m 2 7 4 3 1a l g o r i t h md e s c r i p t i o n 2 7 4 3 2r e s u l t sa n a l y s i so fe x p e r i m e n t 2 8 4 4s p e c t r a lf i l t e r i n ga l g o r i t h m :2 9 4 4 1a l g o r i t h md e s c r i p t i o n 2 9 4 4 2r e s u l t sa n a l y s i so fe x p e r i m e n t 2 9 4 5n m fa l g o r i t h m 3 2 4 5 1a l g o r i t h md e s c r i p t i o n 3 2 4 5 2r e s u l t sa n a l y s i so f e x p e r i m e n t 3 4 4 6e v a l u a t i o no fm u s i cs o u r c es e p a r a t i o ns y s t e m s 3 7 4 6 1s u b j e c t i v et e s ta n do b j e c t i v et e s t 3 6 4 6 2o v e r a l lr a t i n g 3 9 c h a p t e r5s u m m a r y a n ds c o p e 4 1 r e f e r e n c e s 4 4 a c k n o w l e d g e m e n t 4 7 p u b l i s h e dp a p e r s 4 8 山東大學(xué)碩十學(xué)位論文 摘要 本文要研究的混合樂(lè)音信號(hào)分離是指從多音混合音樂(lè)信號(hào)中分離得 到參與演奏的各個(gè)樂(lè)器或某個(gè)特定樂(lè)器的聲音。樂(lè)音分離系統(tǒng)在很多領(lǐng)域 都有其應(yīng)用,如樂(lè)器辨認(rèn)、旋律提取、樂(lè)音信息檢索、自動(dòng)樂(lè)音分離及樂(lè) 音轉(zhuǎn)錄等,混合樂(lè)音分離在近幾年越來(lái)越受到人們的關(guān)注。 本文簡(jiǎn)要介紹了混合樂(lè)音分離相關(guān)的基礎(chǔ)知識(shí),傳統(tǒng)的分析和綜合技 術(shù)及分離技術(shù)評(píng)價(jià)標(biāo)準(zhǔn)等。本文將混合樂(lè)音分離技術(shù)分成分流法和分解法 兩大類(lèi),并在文中介紹了各類(lèi)算法的思想。分流算法中介紹了三種分離技 術(shù),包括基于正弦模型的樂(lè)音分離、基于聽(tīng)覺(jué)場(chǎng)景分析的樂(lè)音分離和基于 k n n 聚類(lèi)算法的樂(lè)音分離。分解算法中介紹了兩種分離技術(shù),包括基于 頻譜濾波的樂(lè)音分離和基于非負(fù)矩陣分解的樂(lè)音分離。 本文中采用的正弦模型技術(shù)是較為傳統(tǒng)的一種方法,峰值匹配同時(shí)采 用了基于音高的諧波軌跡曲線(xiàn)算法和綜合考慮音高和幅度信息的改進(jìn)算 法。其中,改進(jìn)算法得到了更好的分離效果。計(jì)算聽(tīng)覺(jué)場(chǎng)景分析采用了 g a m m a t o n e 濾波器和掩蔽濾波來(lái)分離信號(hào)。k 最近鄰的信號(hào)分離算法中, 較多地采用了樂(lè)音信號(hào)的先驗(yàn)信息,一定程度上可實(shí)現(xiàn)信號(hào)分離。 分解算法中的濾波分離方法基于樂(lè)音信號(hào)的諧波性設(shè)計(jì)濾波器組,分 別從頻域抽取和時(shí)域?yàn)V波兩個(gè)層面實(shí)現(xiàn)信號(hào)分離。非負(fù)矩陣分解采用梯度 下降算法得到的基譜在音色空間上并不是完全獨(dú)立的,容易造成分離信號(hào) 失真。本文提出了基于音高修正基譜的方法,一定程度上改善了分離效果。 本文對(duì)上述五種分離算法進(jìn)行了仿真實(shí)驗(yàn),并分別從主觀評(píng)價(jià)、客觀 評(píng)價(jià)和總體評(píng)價(jià)幾個(gè)方面對(duì)比分析了各算法的分離性能。本文中,主觀評(píng) 價(jià)方法采用的是平均意見(jiàn)得分法,客觀評(píng)價(jià)方法采用了信噪比、相關(guān)系數(shù) 和峭度三個(gè)指標(biāo)。 關(guān)鍵詞:樂(lè)音分離;分流法;分解法 l哆 山東大學(xué)碩上學(xué)位論文 , 山東大學(xué)碩士學(xué)位論文 a b s t r a c t m u s i cs o u r c es e p a r a t i o nr e f e r st ot h ep r o b l e mo fe x t r a c t i n ge a c hs i n g l e i n s t r u m e n ts o u n do rs o m es p e c i f i ci n s t r u m e n ts o u n d sf r o mt h em i x t u r e i t a r o u s e sm o r ea n dm o r ei n t e r e s t si nr e c e n ty e a r ss i n c em u s i cs o u r c e s e p a r a t i o nt e c h n o l o g yp l a y s s u c has i g n i f i c a n tr o l ei nm u s i ci n s t r u m e n t r e c o g n i t i o n ,m u s i cm e l o d ye x t r a c t i o n ,c o n t e n t r e l a t e dm u s i c i n d e x i n g , a u t o m a t i cm u s i cs e p a r a t i o n ,a u t o m a t i cm u s i ct r a n s c r i p t i o n ,e t c t h i s p a p e rb r i e f l y i n t r o d u c e sm u s i cs o u r c e s e p a r a t i o n r e l a t i v e f o u n d a t i o nt h e o r i e s s i n u s o i d a l a n a l y s i s & s y n t h e s i st e c h n o l o g y a n d s e p a r a t i o np e r f o r m a n c ea s s e s s m e n tm e t h o d sa tt h eb e g i n n i n g i nt h i sp a p e r , t h em u s i cs o u r c es e p a r a t i o nt e c h n i q u e sa r ec l a s s i f i e di n t o 。t w oc a t e g o r i e s : s t r e a m i n ga l g o r i t h m sa n dd e m i x i n ga l g o r i t h m s ,w h i c ha r ef o l l o w e db ya n i n t r o d u c t i o no ft h em a i ni d e a so fe a c hc a t e g o r yr e s p e c t i v e l y f o rs t r e a m i n g a l g o r i t h m s ,s i n u s o i d a lm o d e lb a s e da l g o r i t h m ,c a s a ( c o m p u t e ra u d i t o r y s e n s ea n a l y s i s ) ,a n dk n n ( kn e a r e s tn e i g h b o r ) a r ed i s c u s s e di nd e t a i l w h e r e a sf o rt h ed e m i x i n ga l g o r i t h m s ,t h i sp a p e rf o c u s e so ns p e c t r a lf i l t e r i n g b a s e dm u s i cs o u r c es e p a r a t i o na n dn m fb a s e dm u s i cs o u r c es e p a r a t i o n s i n u s o i d a lm o d e lb a s e da l g o r i t h md i s c u s s e dh e r ei s at r a d i t i o n a l a p p r o a c h p e a k sm a t c h i n gm o d u l ec o m b i n e st h ei n t e g e rm u l t i p l eh a r m o n i c t r a c k sw i t ha ni m p r o v e da lg o r i t h mc o n s i d e r i n gb o t ht h ep i t c ha n dt h e a m p l i t u d e t h ee x p e r i m e n tr e s u l t sd e m o n s t r a t et h a tt h ei m p r o v e ds i n u s o i d a l a l g o r i t h mh a sb e t t e rp e r f o r m a n c et h a nt h et r a d i t i o n a l s i n u s o i d a la l g o r i t h m c a s ab a s e dm u s i cs o u r c es e p a r a t i o na l g o r i t h mu t i l i z e sg a m m a t o n ef i l t e ra n d m a s k i n ge f f e c t t o s e p a r a t em u s i cs i g n a l t h ek n nb a s e d m u s i cs o u r c e s e p a r a t i o na l g o r i t h mu t i l i z e sp r i o ri n f o r m a t i o no fm u s i cs o u r c ew h i c hc a na l s o a c h i e v em u s i cs o u r c es e p a r a t i o n s p e c t r a lf i l t e r i n gb a s e ds e p a r a t i o na l g o r i t h m d i s c u s s e di nt h i s p a p e r d e s i g n sf i l t e rb a s e do nm u l t i p i t c hd e t e c t i o n ,a i m i n gt os e p a r a t em u s i cs i g n a l f r o mt w oa s p e c t s ,n a m e l y ,d e c i m a t i o n i n f r e q u e n c ya n dt i m e - d o m a i nf i l t e r i n g t h et y p i c a ln m f ( n o n n e g a t i v em a t r i xf a c t o r i z a t i o n ) a l g o r i t h mc a n te n s u r e t h ei n d e p e n d e n c yo fb a s i ss p e c t r a lw h i c ha r o u s e st h ed i s t o r t i o no fs e p a r a t e d m u s i cs o u r c e t os o l v et h i sp r o b l e mt os o m ed e g r e e ,t h i sp a p e rp u r p o s e sa n i m p r o v e dn m fa l g o r i t h m i l l , 山東人學(xué)碩+ 學(xué)位論文 t h i sp a p e rs i m u l a t e st h ef i v es e p a r a t i o na l g o r i t h m sd i s c u s s e da b o v ea n d a s s e s s e st h e i rp e r f o r m a n c e sf r o ms u b j e c t i v ee v a l u a t i o n ,o b j e c t i v ee v a l u a t i o n a n do v e r a l le v a l u a t i o nr e s p e c t i v e l y t h i sp a p e ru t i l i z e sm o s ( m e a n o p i n i o n s c o r e ) a st h es u b j e c t i v ee v a l u a t i o n t h et h r e eo b j e c t i v ee v a l u a t i o ni n d i c a t o r s a r es n r ( s i g n a l - t o - n o i s er a t i o ) ,c c ( c o r r e l a t i o nc o e f f i c i e n t ) ,a n dk u r t o s i s k e yw o r d s :m u s i cs o u r c es e p a r a t i o n ;s t r e a m i n gm e t h o d s ;d e m i x i n gm e t h o d s 1j1 山東大學(xué)碩上學(xué)位論文 1 1 研究背景及意義 第一章緒論 通常,音頻信號(hào)是幾個(gè)不同聲源同時(shí)起作用的。例如,語(yǔ)音錄音在“雞 尾酒會(huì)”環(huán)境下得到的是不同的語(yǔ)者同時(shí)講話(huà)的混合聲音信號(hào),樂(lè)音c d 是樂(lè)器演奏的樂(lè)音和歌者的混合體,電影原聲是語(yǔ)音、樂(lè)音和環(huán)境聲音的 混合體。由此可見(jiàn),在現(xiàn)實(shí)生活中音頻信號(hào)的混合現(xiàn)象隨處可見(jiàn),非常普 遍,音頻信號(hào)分離就是指從混合信號(hào)中抽取、分離得到原始的音頻信源。 樂(lè)音信號(hào)分離是指從多音混合音樂(lè)信號(hào)中分離得到參與演奏的各個(gè) 樂(lè)器或某個(gè)樂(lè)器的聲音。近年來(lái),隨著對(duì)網(wǎng)絡(luò)在線(xiàn)樂(lè)音音頻信號(hào)的自動(dòng)分 析、重組、自動(dòng)檢索等技術(shù)的需求r 增,樂(lè)音分離技術(shù)得到越來(lái)越多的關(guān) 注。該問(wèn)題的解決有益于更加有效的音頻編碼、更為精確的音頻信息分析 同時(shí)也利于對(duì)信號(hào)進(jìn)行更加復(fù)雜的操作控制。而且,樂(lè)音分離系統(tǒng)在某 些領(lǐng)域有它的應(yīng)用。如樂(lè)器辨認(rèn)、旋律提取、音樂(lè)信息檢索、自動(dòng)樂(lè)音分 離及樂(lè)音轉(zhuǎn)錄等。隨著分離技術(shù)的改進(jìn),分離樂(lè)音質(zhì)量的提高,應(yīng)用領(lǐng)域 也會(huì)越來(lái)越廣。 1 2 研究現(xiàn)狀及趨勢(shì) 近年來(lái),信號(hào)分離技術(shù)得到了越來(lái)越多的關(guān)注。國(guó)內(nèi)外許多在不同應(yīng) 用技術(shù)領(lǐng)域的專(zhuān)家學(xué)者紛紛就這一技術(shù)提出了自己的見(jiàn)解,取得了不同的 效果?;旌闲盘?hào)分離算法主要包括如下幾種技術(shù):正弦模型技術(shù)2 巧】、計(jì) 算聽(tīng)覺(jué)場(chǎng)景分析技術(shù)【6 。1 1 】、模式識(shí)別技術(shù)【12 1 、頻譜濾波技術(shù)【1 3 州1 和非負(fù)矩 陣分解技術(shù)【1 5 1 等。然而,樂(lè)音信號(hào)的分離技術(shù)涉及得較少。 雖然樂(lè)音信號(hào)分離的研究已取得了一些進(jìn)步,然而該課題仍然是個(gè)未 解決的問(wèn)題,已存在的分離方法存在一些缺點(diǎn)。例如:盲源分離算法一般 假設(shè)信號(hào)間是統(tǒng)計(jì)獨(dú)立的,并要求信源數(shù)大于通道數(shù),通常地這些限制條 件對(duì)于某些信號(hào)來(lái)講是不太合理的;對(duì)于基于模型的非監(jiān)督分離算法來(lái) 講,已存在的算法只能限定信號(hào)的基頻,確保在各次泛音頻率處信號(hào)的能 量不為零,但是卻又無(wú)法保證被分離信號(hào)的諧波特性,而這會(huì)導(dǎo)致分離效 r l 山東大學(xué)碩士學(xué)位論文 果對(duì)于沒(méi)有明顯音高的樂(lè)器不理想;基于正弦模型的分離算法對(duì)基頻估計(jì) 精確性的依賴(lài)過(guò)大,如果信號(hào)基頻提取的不夠理想,分離效果也不會(huì)特別 的理想;時(shí)頻分析的信號(hào)分離多采用改進(jìn)的時(shí)頻分析方法,而這些算法普 遍存在交叉項(xiàng)的問(wèn)題,它們不僅給混合信源的分析帶來(lái)誤差,還給信號(hào)的 分離重構(gòu)帶來(lái)難題,造成最終的分離效果不理想。 各類(lèi)分離算法,多少都涉及到樂(lè)音音高信息,分離效果與基頻檢測(cè)相 關(guān)聯(lián),而多基頻檢測(cè)本身就是個(gè)未充分解決的問(wèn)題。因此,將來(lái)的研究應(yīng) 是在提高多基頻檢測(cè)精度的同時(shí)關(guān)注其它樂(lè)音音色空間,同時(shí)采用多個(gè)音 色特征,提高分離效果。其次,也可以考慮多種算法的綜合運(yùn)用,充分發(fā) 揮各類(lèi)算法的優(yōu)點(diǎn),進(jìn)而提高分離效果。例如多參數(shù)混合模型是近年來(lái)研 究較多的一個(gè)方向。 1 3 混合樂(lè)音分離的概念 當(dāng)幾個(gè)樂(lè)音信號(hào)同時(shí)存在時(shí),觀測(cè)到的音頻信號(hào)是幾個(gè)不同聲源的混 合體【1 1 。一些算法側(cè)重于單個(gè)聲源的分離,也有些算法嘗試分離出所有的 聲源信號(hào)。 目前,對(duì)于聲源的定義主要有兩種思路。一種思路是考慮每種振動(dòng) 物理實(shí)體,例如每個(gè)樂(lè)器作為一個(gè)聲源。另外一種思路是結(jié)合人耳對(duì)于聲 音的感知。通常,混合樂(lè)音信號(hào)分離的具體定義是與特定算法相關(guān)的,一 定程度上是由設(shè)計(jì)者的應(yīng)用領(lǐng)域決定的。 混合樂(lè)音信號(hào)分離的一大類(lèi)算法稱(chēng)為分流法,該類(lèi)算法可以追溯到計(jì) 算聽(tīng)覺(jué)場(chǎng)景分析。當(dāng)聲音經(jīng)外耳道傳入中耳時(shí),鐙骨的運(yùn)動(dòng)引起耳蝸內(nèi)流 體壓強(qiáng)變化,從而引起行波沿基底膜的傳播。在每一聲音頻率上,隨著強(qiáng) 度的增加,基底膜運(yùn)動(dòng)得幅度增大,不同聲音頻率沿著基底膜的分布是對(duì) 數(shù)型的【他】。計(jì)算聽(tīng)覺(jué)場(chǎng)景分析算法根據(jù)人耳的聽(tīng)覺(jué)感知效應(yīng)將各感知聽(tīng)覺(jué) 對(duì)象分為各不相同的組,據(jù)此實(shí)現(xiàn)混合信號(hào)的分離。另外一大類(lèi)樂(lè)音信號(hào) 分離算法定義為分解法,該類(lèi)算法很大程度上是依賴(lài)于混合信號(hào)間的結(jié) 構(gòu),獨(dú)立成分分析i 協(xié)2 1 】和主成份分析是兩種常用的分析方法。 2 山東人學(xué)碩上學(xué)位論文 1 4 論文安排 本文主要從原理、分離性能及客觀和主觀試聽(tīng)效果幾個(gè)方面研究幾種 典型分離算法,取得了一定的成果。全文分六章,各章節(jié)安排如下: 第一章,介紹了混合信號(hào)分離的起源和發(fā)展及相關(guān)問(wèn)題的研究現(xiàn)狀和 存在的問(wèn)題,繼而確定了本文的研究?jī)?nèi)容和方向。 第二章,介紹了混合樂(lè)音分離相關(guān)的基礎(chǔ)知識(shí),包括樂(lè)音基礎(chǔ)知識(shí)、 聽(tīng)覺(jué)掩蔽效應(yīng)、疊接相加法、較為傳統(tǒng)的j 下弦分析和正弦綜合技術(shù)以及分 離技術(shù)評(píng)價(jià)標(biāo)準(zhǔn)。 第三章,介紹了分流算法中的三種分離技術(shù),包括基于正弦模型的樂(lè) 音分離、基于聽(tīng)覺(jué)場(chǎng)景分析的樂(lè)音分離和基于k n n 聚類(lèi)算法的樂(lè)音分離。 第四章,介紹了分解算法中的兩種分離技術(shù),包括基于頻譜濾波的樂(lè) 音分離和基于非負(fù)矩陣分解的樂(lè)音分離。 第五章,針對(duì)上述五種分離技術(shù)完成了仿真試驗(yàn),分析了試驗(yàn)結(jié)果并 分別從主觀評(píng)價(jià)、客觀評(píng)價(jià)和分離效果總體評(píng)估方面做了系統(tǒng)性能比較。 第六章,對(duì)本文所做工作進(jìn)行了總結(jié)。 山東大學(xué)碩士學(xué)位論文 2 1 樂(lè)音基礎(chǔ)知識(shí) 第二章技術(shù)基礎(chǔ)和理論 音樂(lè)聲學(xué)是研究樂(lè)音和樂(lè)律的物理問(wèn)題的科學(xué)。樂(lè)器基本由三個(gè)部分 組成:振動(dòng)體,激發(fā)體,共振體。振動(dòng)體是主要聲源,它與激發(fā)體共同決 定基音頻率和基本音色。激發(fā)體用以激發(fā)主要聲源,它決定激發(fā)的強(qiáng)度和 頻率,共振體則給樂(lè)器的音色以具體的感知特征【2 2 1 。 樂(lè)音信號(hào)是一種典型的非平穩(wěn)信號(hào)。但是,由于樂(lè)音信號(hào)通常具有較 為明顯的音高、周期性明顯,因此樂(lè)音信號(hào)通??杀徽J(rèn)為是短時(shí)平穩(wěn)的音 頻信號(hào),其譜特性和某些物理特征參量可被近似地看作不變。這樣,就可 以用平穩(wěn)過(guò)程的分析方法處理。 樂(lè)音信號(hào)參數(shù)分析是樂(lè)音信號(hào)處理的前提和基礎(chǔ)。特征參數(shù)是為了便 于信號(hào)的處理,從信號(hào)中抽取出來(lái)的能表征信號(hào)某一或者某些屬性的參 數(shù)。樂(lè)音信號(hào)的特征參數(shù)有很多,分別表征了音頻信號(hào)的感知屬性和物理 屬性。在音頻自動(dòng)分類(lèi)中,所選取的特征應(yīng)該能夠充分表示音頻的重要分 類(lèi)特性,對(duì)環(huán)境的改變具有魯棒性。樂(lè)音參數(shù)可以分為感知屬性參數(shù)和物 理屬性參數(shù)兩大類(lèi)。 音高表示聲音的高低,由聲音信號(hào)的頻率決定,可通過(guò)頻譜對(duì)其進(jìn)行 估計(jì)。音高提取方法依據(jù)分離準(zhǔn)則主要分為三類(lèi),即時(shí)域方法、頻域方法 和人耳感知域方法。 時(shí)域方法主要有過(guò)零率法、自相關(guān)法、最大似然法。頻域方法有諧波 峰值法、倒譜法。人耳感知域方法與自相關(guān)法很接近,不同之處在于感知 域方法在自相關(guān)運(yùn)算前將信號(hào)通過(guò)模擬人的聽(tīng)感知系統(tǒng)的耳蝸濾波器進(jìn) 行濾波處理。 2 2 聽(tīng)覺(jué)的掩蔽效應(yīng) 掩蔽現(xiàn)象2 3 2 4 】是種常見(jiàn)的心理聲學(xué)現(xiàn)象,它是由人耳對(duì)聲音的頻率分 辨機(jī)制決定的。當(dāng)兩個(gè)響度不等的聲音作用于人耳時(shí),則響度較高的頻率 成分的存在就會(huì)影響到人耳對(duì)響度較低頻率成分的感受,使其變得不易察 4 山東人學(xué)碩+ 學(xué)位論文 覺(jué),這種現(xiàn)象稱(chēng)為掩蔽效應(yīng)。 由于頻率較低的聲音在內(nèi)耳耳蝸基底膜上行波傳遞的距離遠(yuǎn)于頻率 較高的聲音,故一般來(lái)說(shuō),低音容易掩蔽高音,而高音掩蔽低音較難。掩 蔽會(huì)造成因一個(gè)聲音的存在,而使得另一個(gè)聲音的聽(tīng)閾上升。 噪聲的存在也會(huì)影響到純音的接受,即對(duì)純音產(chǎn)生掩蔽。為了描述掩 蔽效應(yīng),引入臨界帶寬( c r i t i c a lb a n d ) 的概念。一個(gè)純音可以被以它為 中心頻率且具有一定帶寬的連續(xù)噪聲所掩蔽。如果在這一頻帶內(nèi)噪聲功率 等于該純音功率,此時(shí)該純音處于剛好能被聽(tīng)到的臨界狀態(tài),即稱(chēng)這一帶 寬為臨界帶寬。實(shí)驗(yàn)表明,人類(lèi)在對(duì)1 0 0 0 h z 以上的聲音頻率范圍的感知 遵循在對(duì)數(shù)坐標(biāo)上的近似線(xiàn)性關(guān)系,b a r k 刻度是根據(jù)主觀音高均勻劃分的 頻率刻度。 這種掩蔽效應(yīng)可以從聽(tīng)覺(jué)生理上找到依據(jù),人耳的基底膜具有與頻譜 分析儀相似的作用。頻率群的劃分相應(yīng)地將基底膜分成許多小的部分,每 一部分對(duì)應(yīng)一個(gè)頻率群。掩蔽效應(yīng)就是在這些頻率群內(nèi)發(fā)生,這是因?yàn)橥?一頻率群的聲音作用于基底膜的相同部分,它們?cè)诖竽X中似乎是可以疊加 在一起來(lái)評(píng)價(jià)的。如果這時(shí)同時(shí)發(fā)聲,可以互相掩蔽。劃分后的b a r k 域 與耳蝸中基底膜的長(zhǎng)度是線(xiàn)性關(guān)系,而與聲音頻率呈近似對(duì)數(shù)關(guān)系。 2 3 疊接相加法 在疊接相加法中,對(duì)每個(gè)固定時(shí)刻的離散s t f t 做逆d f t ,得到對(duì)應(yīng) 的時(shí)域信號(hào),然后在各短時(shí)段之間采用重疊相加的方式處理。 假設(shè)輸入信號(hào)工被窗函數(shù)分割為多個(gè)幀,則第m 個(gè)窗函數(shù)所表示的數(shù) 據(jù)幀可表示為: x m ( n ) - - x ( n ) w g m r ) ,n ( - ,o 。) ( 2 1 ) 其中,r 為幀長(zhǎng),m 為幀索引值。信號(hào)是分幀處理的,那么,若是想要從 各幀信號(hào)中重構(gòu)得到原始信號(hào),則需要進(jìn)行如下處理步驟: j ,g ) = o ) ( 2 - 2 ) 將x 。帶入上述式子,則為: 山東大學(xué)碩十學(xué)位論文 y g ) = x ( n ) w ( n - m r ) 將上式中的x g ) 提到求和號(hào)的前面,則: 若是y g ) = x 0 ) ,則需要: 少0 ) = x ( n ) zw ( n - m r ) w ( n - m r ) = 1 ( 2 - 3 ) ( 2 4 ) ( 2 5 ) 上式( 2 - 5 ) 是o l a 對(duì)分析窗的約束條件,只要滿(mǎn)足上述條件則對(duì)于任何 窗函數(shù)都可以實(shí)現(xiàn)原始信號(hào)的重構(gòu)。 一些常見(jiàn)窗函數(shù)的定義如下: 漢明窗 w ( 聆) :1 0 5 4 - 0 4 6 c o s ( - 等) ,。門(mén)洲 。2 6 , 10 ,其它 漢寧窗 w g ) :i o s _ o s c o s ( 等) ,。門(mén)洲。2 7 , l0 , 其它 w g ) :i o 4 2os c o s l 等l + o o s c o s ( 等) ,。門(mén)洲。2 8 , 1 0 , 其它 2 4 正弦分析與綜合 樂(lè)音信號(hào)諧波分量豐富,和諧性強(qiáng),且具有短時(shí)平穩(wěn)性。大多數(shù)樂(lè)音 信號(hào)都有一定的音高范圍,并具有較明顯的泛音結(jié)構(gòu)。本文就是在充分利 用樂(lè)音信號(hào)這一特性的基礎(chǔ)上,進(jìn)采用正弦模型分析樂(lè)音信號(hào)。 信號(hào)序列的傅立葉理論表明任何周期波形信號(hào)都可模擬為一系列具 有不同頻率及不同幅度的正弦信號(hào)的和。加性正弦模型是較早應(yīng)用在信號(hào) 重構(gòu)領(lǐng)域內(nèi)的技術(shù)。實(shí)際上,很早之前在計(jì)算機(jī)音樂(lè)雜志上就曾較為詳細(xì) 地闡述過(guò)該技術(shù)。早在2 0 世紀(jì)7 0 年代,a n d ym o o r e 就寫(xiě)程序?qū)崿F(xiàn)并證 6 明了加性正弦重構(gòu)技術(shù)。 2 4 1 正弦分析 正弦分析技術(shù)就是將音頻信號(hào)看作一系列正弦信號(hào)的疊加,通過(guò)分析 給定樂(lè)音信號(hào)的頻譜得到其泛音信息,即幅度、頻率和相位三個(gè)參數(shù)。 j 下弦信號(hào)模型表示為: m x o ) = 0 ) ,z = 1 ,2 ,n( 2 9 ) m = l mh 。 x ( 玎) = 口聊。c o s ( 2 , , f 。,。n + o 。) ,? = 1 ,2 ,n( 2 1 0 ) - x 是由m 個(gè)聲源混合得到的樂(lè)音信號(hào),( 玎) 是第朋個(gè)聲源。饑是聲源歷的 諧波次數(shù),a m ,。、無(wú)礦吃。分別是第h 次諧波的幅度、頻率和相位。通常 認(rèn)為,厶,。= 毗 1 ,其中厶。是第聊個(gè)聲源的基本頻率。 2 4 2 正弦綜合 正弦綜合就是利用正弦分析得到的正弦參數(shù)幅度、頻率及相位合成信 號(hào)。假設(shè)某泛音的瞬時(shí)幅度通過(guò)線(xiàn)性?xún)?nèi)插得到,如下: 伽m h + 竿m ( 2 - 1 1 ) 瞬時(shí)相位是瞬時(shí)頻率的積分,由線(xiàn)性?xún)?nèi)插得到,如下: w ( 聊) = 一1 + 丁w i _ _ w 1 - 1 歷 ( 2 1 2 ) 第廠個(gè)泛音的瞬時(shí)相位為: b ( 聊) = g ( ,一1 ) + ,”( 聊) ,砌。( 2 1 3 ) 第,幀其時(shí)刻m 的重構(gòu)方程可表示為: d ( 聊) = ( 咖:。s e o ! ( m ) ( 2 1 4 ) 公式( 2 1 4 ) 表示重構(gòu)得到的第,幀其時(shí)刻聊的信號(hào),依據(jù)上式重構(gòu)得到 各幀任意時(shí)刻的信號(hào)后即可得到所需的樂(lè)音信號(hào)。 7 山東大學(xué)碩士學(xué)位論文 2 5 分離技術(shù)的評(píng)價(jià)標(biāo)準(zhǔn) 樂(lè)器主要分弦樂(lè)器、管樂(lè)器和打擊樂(lè)器等,各種樂(lè)器的音色是各不相 同的。樂(lè)音是具有短時(shí)平穩(wěn)性和明顯周期性的音頻信號(hào),頻譜分析是觀測(cè)、 了解樂(lè)音信號(hào)的常用方法,并且樂(lè)音信號(hào)的譜圖很大程度上展現(xiàn)了樂(lè)音信 號(hào)的相關(guān)信息。 目前,常用的音頻混合信號(hào)分離技術(shù)評(píng)價(jià)方法主要包括主觀評(píng)價(jià)方法 和客觀評(píng)價(jià)方法。 主觀評(píng)價(jià)方法 平均意見(jiàn)得分( m o s :m e a no p i n i o ns c o r e ) 法用于對(duì)音頻整體滿(mǎn)意 度或語(yǔ)音通信系統(tǒng)質(zhì)量的評(píng)價(jià)。m o s 采用5 級(jí)評(píng)分標(biāo)準(zhǔn),其中1 對(duì)應(yīng)最 差的感知質(zhì)量,5 對(duì)應(yīng)最高的感知質(zhì)量,如表2 1 所示。參加測(cè)試的評(píng)聽(tīng) 人首先聽(tīng)完被測(cè)試音頻,然后從這5 個(gè)等級(jí)中選擇其中某一級(jí)作為他對(duì)所 測(cè)音頻質(zhì)量的評(píng)價(jià)。全體試驗(yàn)者的平均分就是所測(cè)音頻質(zhì)量的m o s 。由 于主觀上和客觀上的種種原因,不同試驗(yàn)者對(duì)同一音頻的評(píng)價(jià)是不盡相 同。為了消除主觀和客觀的因素,保證對(duì)被測(cè)音頻有一個(gè)中肯的評(píng)價(jià),所 測(cè)音頻材料應(yīng)足夠豐富,測(cè)試環(huán)境也要盡量保持相同。 在數(shù)字語(yǔ)音通信中,通常認(rèn)為m o s 在4 o 分以上為高質(zhì)量的語(yǔ)音, 也常稱(chēng)之為網(wǎng)絡(luò)質(zhì)量或長(zhǎng)途質(zhì)量。m o s 在3 5 分左右稱(chēng)作通信質(zhì)量,這時(shí) 會(huì)感到重建話(huà)音質(zhì)量下降,但不妨礙正常通話(huà)。m o s 在3 0 分以下常稱(chēng)合 成語(yǔ)音質(zhì)量,一般具有足夠的可懂度,但自然度及說(shuō)話(huà)人的確認(rèn)等方面不 夠好。本文分離樂(lè)音信號(hào)質(zhì)量的評(píng)價(jià)也參照了上述語(yǔ)音質(zhì)量的評(píng)價(jià)標(biāo)準(zhǔn)。 表2 1m o s 評(píng)價(jià)標(biāo)準(zhǔn) m o s 質(zhì)量損害程度 5 完美不可感知的 4 很好 可覺(jué)察但可忽略 3 較好的輕微干擾 2 差感知干擾 1 很差干擾明顯 目前所用的客觀評(píng)價(jià)方法主要包括時(shí)域客觀評(píng)價(jià)方法和頻域客觀評(píng) 價(jià)方法,下面簡(jiǎn)要介紹這兩類(lèi)評(píng)價(jià)方法。 8 山東人學(xué)碩十學(xué)位論文 時(shí)域客觀評(píng)價(jià)方法 ( 1 ) 信噪比( s n r :s i g n a l t o n o i s er a t i o ) 信噪比是時(shí)域客觀評(píng)價(jià)方法中最常用的。如果把分離后的樂(lè)音信號(hào)看 作是比對(duì)于原始音頻信號(hào)上的噪聲,那么,可以通過(guò)計(jì)算信噪比來(lái)衡量分 離樂(lè)音信號(hào)的質(zhì)量。這是一種最簡(jiǎn)單的時(shí)域客觀評(píng)價(jià)失真測(cè)度。設(shè)為音 頻數(shù)據(jù)段長(zhǎng)度,分離后樂(lè)音信號(hào)為x ( 甩) 和原始純凈樂(lè)音信號(hào)為x ( n ) ,則信 噪比定義如下: , x ( 聆) s n r ( x ,x ) = 2 0 l o g 可l 一 ( 2 15 ) z i x ( n ) - x ( 行) 】 ( 2 ) 相關(guān)系數(shù)( c c :c o r r e l a t i o nc o e f f i c i e n t ) 為檢驗(yàn)分離后信號(hào)與原始純凈樂(lè)音信號(hào)之間的相似性,還可通過(guò)計(jì)算 它們的歸一化相關(guān)系數(shù)來(lái)判定。設(shè)為音頻數(shù)據(jù)段長(zhǎng)度,分離后樂(lè)音信號(hào) 為x 7 ( ,z ) 和原始純凈樂(lè)音信號(hào)為x ( n ) ,則歸一化相關(guān)系數(shù)可表示為: p ( x ,x 7 ) = x ( n ) x ( 刀) ( 2 1 6 ) ( 3 ) 峭度( k u r t o s i s ) 描述了隨機(jī)變量的概率分布集中于均值的程度,或者隨機(jī)變量的增加 速度,即分布函數(shù)的變化陡度。假設(shè)一個(gè)零均值的實(shí)隨機(jī)信號(hào)x ( f ) 的概率 密度函數(shù)為p ( x ) ,那么其峭度定義為: k p ( x ) l = c u m 。伍) = e k 4 ) 一

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論