基于內(nèi)容的音樂檢索技術(shù)研究 定稿_第1頁
基于內(nèi)容的音樂檢索技術(shù)研究 定稿_第2頁
基于內(nèi)容的音樂檢索技術(shù)研究 定稿_第3頁
基于內(nèi)容的音樂檢索技術(shù)研究 定稿_第4頁
基于內(nèi)容的音樂檢索技術(shù)研究 定稿_第5頁
已閱讀5頁,還剩31頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、江西科技師范學(xué)院畢業(yè)設(shè)計(論文)畢業(yè)設(shè)計(論文)題 目(中文): 基于內(nèi)容的音樂檢索技術(shù)研究 (外文): Research on Content-Based Music Retrieval Technology 系(院): 專 業(yè): 學(xué)生姓名: 學(xué) 號: 指導(dǎo)教師: 2011 年 5 月 6 日成 績: 目錄目錄1.緒論.11.1 課題研究的目的和意義.11.2 國內(nèi)外研究狀況 .21.3 核心問題和關(guān)鍵技術(shù).32.基于內(nèi)容的音樂檢索基礎(chǔ).42.1 音樂樂理基礎(chǔ).42.2 音樂信號的特征 .62.3 音樂旋律的表示方法 .92.4 音樂信息檢索.123.MP3 音樂格式分析和旋律特征抽取 .1

2、43.1 MP3 的音樂格式分析及編解碼算法.143.2 旋律特征提取 .224.單聲部音樂檢索.264.1 類簡譜 .264.2 單聲部查詢音樂的類簡譜表示 .274.3 檢索和匹配過程.274.4 簡單舉例.275.多聲部音樂檢索.305.1 MARKOV模型和隱 MARKOV模型簡介 .305.2 和弦特征 .315.3 HMM 和聲模型.326.總結(jié).33參考文獻.34基于內(nèi)容的音樂檢索技術(shù)研究基于內(nèi)容的音樂檢索技術(shù)研究摘要摘要:音樂是一類重要的音頻數(shù)據(jù),傳統(tǒng)的音樂檢索都是基于關(guān)鍵詞的檢索,使用受限。隨著互聯(lián)網(wǎng)的快速發(fā)展及數(shù)字化設(shè)備的普及,基于內(nèi)容的音樂檢索研究得到廣泛的關(guān)注?;趦?nèi)容

3、的音樂檢索就是把音樂本身的內(nèi)涵,如節(jié)奏、旋律、和弦、伴奏音型、音色等,作為查詢條件,對一個由不同格式的音頻媒體(如MIDI、MP3或其它格式的波形音樂)所構(gòu)成的音樂數(shù)據(jù)庫實施查詢檢索以獲取數(shù)據(jù)庫中滿足查詢條件或包含相同或相似音樂片段的音樂資源。這些表征不同音樂內(nèi)涵的查詢條件可以通過哼唱或借助現(xiàn)有的樂譜輸入工具輸入到檢索系統(tǒng)中以實施檢索。本論文對基于內(nèi)容的MP3音樂檢索技術(shù)進行了研究,并實現(xiàn)了一個靈活的具有多種查詢音樂輸入方式的MP3音樂檢索原型系統(tǒng)。關(guān)鍵詞關(guān)鍵詞:音樂檢索; 計算機音樂; MP3; 特征提取; 近似匹配1.1.緒論緒論1.11.1 課題研究的目的和意義課題研究的目的和意義 音樂

4、是一類重要的音頻數(shù)據(jù),傳統(tǒng)的音樂檢索都是基于關(guān)鍵詞的檢索,使用非常受限。隨著多媒體和 Internet 的廣泛應(yīng)用和深入普及,多媒體數(shù)據(jù)的數(shù)量正在呈指數(shù)增長。音頻數(shù)據(jù)作為多媒體數(shù)據(jù)的重要組成部分,其信息量也在迅速膨脹。面對如此海量的音頻數(shù)據(jù),如何快速、準確地檢索到所需的音頻已成為音頻檢索領(lǐng)域的一個熱點。傳統(tǒng)的音頻檢索采用文本檢索技術(shù),它們使用基于標題或文件名的文本標注方式,允許用戶通過音頻名稱等關(guān)鍵字進行檢索。諸如我們生活中接觸到的 Google 和 baidu 這樣的搜索引擎。但是,基于文本標注的音頻檢索方式具有其固有的局限性:(1)對音頻信號的文本描述具有不完整性和主觀性;(2)音頻信息的

5、數(shù)量龐大并增長迅速,人工標注需要花費比較高的成本,并且根本無法完成對如此大規(guī)模音頻數(shù)據(jù)的標注;(3)不能支持實時音頻數(shù)據(jù)流的檢索;(4)無法檢索出與指定音頻數(shù)據(jù)相同的信息等。為了解決上述問題,基于內(nèi)容的音樂檢索技術(shù)應(yīng)運而生。所謂基于內(nèi)容的音頻檢索,是指通過音頻特征分析,對不同音頻數(shù)據(jù)賦以不同的語義,使具有相同語義的音頻在聽覺上保持相似。其中,基于內(nèi)容的音樂檢索是具有較高實用價值的一部分?;趦?nèi)容的音樂檢索是根據(jù)音樂的內(nèi)容特征,如音樂的旋律、節(jié)奏等進行檢索。目前的音樂檢索方式大多是基于文本的,即根據(jù)歌名、演唱者、歌詞等關(guān)鍵字進行檢索。人們想查找到某首歌曲時,只有通過這首歌曲的這些文字性信息才能進

6、行檢索,如果忘記了這些文字性信息,就無法找到自己想要的歌曲,這顯然不能滿足人們的搜索需要。另外,基于文本描述的音樂檢索還需要人們對大量的音樂文件進行標注,這種工作費時又費力,并且音樂CD層出不窮,完成對如此大規(guī)模音樂的標注幾乎是不可能的。最重要的是,音樂的旋律、節(jié)奏等重要特性無法用文本表達清楚。為了解決以上問題,就需要尋找其它的檢索方式,使得用戶可以方便、快捷地找到想要的音樂。假如我們能通過這樣一種檢索方式使得用戶在不知道某首歌曲的名字或演唱者等文字信息,但是對這首歌的旋律和風格等非常熟悉的情況下,對著麥克風將他熟悉的旋律“ 哼”或“ 唱”出來,然后通過計算機就可以檢索出與哼唱旋律類似的歌曲該

7、有多好。這種新穎的檢索方式稱為哼唱檢索。哼唱檢索是一種基于內(nèi)容的音樂檢索方式,它通過用戶哼唱進行檢索,使得用戶只需哼唱一個歌曲片段,系統(tǒng)便能根據(jù)用戶哼唱的旋律在音樂數(shù)據(jù)庫中搜索出與之相似的歌曲。相對于傳統(tǒng)的基于關(guān)鍵字形式的用戶接口,哼唱檢索給用戶提供了更便捷、更自然、更人性化的檢索方式,并且給用戶帶來更佳的搜索體驗6。1.21.2 國內(nèi)外研究狀況國內(nèi)外研究狀況 相對于文本和圖像檢索,基于內(nèi)容的音樂信息檢索技術(shù)的研究起步較晚,成果也比較有限。但自上個世紀90年代以來,研究工作取得較大進展。在該研究領(lǐng)域中,比較重要的期刊和會議包括IEEE Transaction on Speech and Aud

8、io Proeessing,IEEE Transaetion on Multimedia,IEEE Transaction on signal Proeessing,IEEE Intemational Conference on Acousties,Speech and Signal proeessing(ICASSP), Intemational symposium on Music Information Retrieval(IsMIR)等?;趦?nèi)容的音樂信息檢索最早可以追溯到上世紀60年代中期,美國康奈爾大學(xué)Cornell University的Micheal Kassler和他的同事1

9、966,1970己著手開始研究,之后直到1995年,同一所大學(xué)的Ghias1995等人開發(fā)了第一個哼唱檢索QBH系統(tǒng),重新開啟了這方面的研究工作。近些年,隨著個人計算機和互聯(lián)網(wǎng)的普及、數(shù)字音樂產(chǎn)業(yè)的快速發(fā)展及人們對搜索技術(shù)的日益重視,基于內(nèi)容的音樂檢索得到了迅猛發(fā)展。2006年,COMMUNICA TIONS OF THE ACM雜志對音樂信息檢索等相關(guān)內(nèi)容進行了專題探討B(tài)P 2006:RD,2006;AW,2006。在國外,包括Midomi(http:/ (http:/www.songtap 和TuneSpotting(http:/ 等基于內(nèi)容的音樂搜索引擎已經(jīng)推向?qū)嵱?。在國?nèi),中科院、上海

10、交通大學(xué)李揚等,2003、西安交通大學(xué)、浙江大學(xué)馮等,2004、西北大學(xué)趙,2005;郭,2006等院校開展了相關(guān)的研究工作。清華大學(xué)、中科院自動化所、臺灣清華大學(xué)、上海交通大學(xué)、西安電子科技大學(xué)、北京師范大學(xué)、西北大學(xué)等多家單位也開展了相關(guān)的研究工作,也取得了一定的進展?;趦?nèi)容的音樂檢索經(jīng)過十多年的發(fā)展,雖然取得了不小的成就,但是,在應(yīng)用方面,成果有限,研究的重心還只是停留在理論的層面上。目前,可供用戶使用的哼唱檢索系統(tǒng)很少,哼唱檢索的應(yīng)用仍停留在初始階段。而另一方面,音樂產(chǎn)業(yè)發(fā)展迅猛,新的音樂不斷大量涌現(xiàn),音樂愛好群體的需求旺盛。雖然取得了很大的成就,但是在應(yīng)用方面還不是很完善,可供用戶

11、使用的哼唱檢索系統(tǒng)也不多。因此,哼唱檢索還有廣闊的發(fā)展前景,基于內(nèi)容的音樂檢索存在廣闊的發(fā)展空間。1.31.3 核心問題和關(guān)鍵技術(shù)核心問題和關(guān)鍵技術(shù)從已有的研究可以總結(jié)出哼唱是輸入的基于內(nèi)容的音樂檢索的核心問題和關(guān)鍵技術(shù)。旋律是樂曲相似性的決定性依據(jù)已經(jīng)成為不爭的事實 于是圍繞著樂曲旋律的相似匹配,我們總結(jié)出哼唱檢索的三個核心問題: 旋律的表示形式:提取得到的特征值以怎樣數(shù)據(jù)結(jié)構(gòu)存儲。 旋律的特征提取:特征提取是指在輸入音頻經(jīng)過基本信號處理后,如何從中量化和提取描述了旋律特征的參數(shù)值(比如音高、節(jié)奏)。 旋律的匹配算法:如何評價和計算(數(shù)字化的)旋律之間的相似性。其中旋律的匹配算法處于主導(dǎo)和決

12、定性的位置。圍繞著如何解決這三個核心問題,已有的研究提出了多種不同的方案,每一種方案都涉及了一系列關(guān)鍵技術(shù)。其中有些技術(shù)相對更通用一些,比如語音信號處理,在所有的方案中都有出現(xiàn),而另一些技術(shù)則針對性比較強,往往是某種方案所特有的。下面試對前人已經(jīng)提出的各種方案和關(guān)鍵技術(shù)作一小結(jié)。 基于近似符號匹配的檢索方案這大概是被研究和運用得最為廣泛的一種方案,它基于旋律是由音符組成這一觀點。一般先對輸入語音作能量分析,提取出音符,再作基音檢測,提取出每個音符的音高,從而將哼唱信號轉(zhuǎn)換成一個音符序列。然后運用傳統(tǒng)的近似符號匹配算法與音樂庫中的已知旋律的音符序列逐一匹配,得到檢索結(jié)果。 基于音高曲線匹配的檢索

13、方案這種方案認為旋律是音高隨時間的起伏。一般把輸入語音作短時分幀后,對每一幀作基音提取,然后相連構(gòu)成音高隨時間的變化曲線,與音樂庫中已知旋律的音高曲線比較,計算誤差,得到檢索結(jié)果。 基于統(tǒng)計模型的檢索方案該方案依據(jù)的是旋律頻譜特征值在統(tǒng)計上的規(guī)律。對旋律信號作短時分幀,從每幀的頻譜提取特征向量,考察這些特征向量序列在統(tǒng)計上的規(guī)律。多采用Markov 統(tǒng)計模型。在檢索前要對每首已知旋律分別訓(xùn)練建模,然后計算待測旋律在這些模型上的概率,挑選概率最大的作為檢索結(jié)果15。2.2.基于內(nèi)容的音樂檢索基礎(chǔ)基于內(nèi)容的音樂檢索基礎(chǔ) 音樂與人的聽覺感知密切相關(guān),它更多地表達了一種感情,是一種很難量化的情緒。傳統(tǒng)

14、的音樂檢索使用歌名等關(guān)鍵字來進行,而基于內(nèi)容的音樂檢索則是根據(jù)音樂的內(nèi)容特征,如音高、節(jié)奏等音樂特征進行檢索。本章在研究音樂樂理相關(guān)知識、音樂信號特征以及音樂旋律表示方法的基礎(chǔ)上,給出了哼唱檢索的特征表示形式及基于內(nèi)容哼唱檢索的基本框架。2.12.1 音樂樂理基礎(chǔ)音樂樂理基礎(chǔ)音是一種物理現(xiàn)象,是由發(fā)音體發(fā)出的一系列頻率、振幅各不相同的振動復(fù)合而成的。其中,整體振動所產(chǎn)生的音叫做基音,各個部分振動所產(chǎn)生的音叫做泛音。基音決定了音高。在自然界中,人的聽覺能感受到的音很多,但并不是所有的音都可以作為音樂的材料。在音樂中使用的音是人們在長期的生活實踐中為了表現(xiàn)人們的生活或思想感情而特意挑選出來的。一般

15、只限于每秒振動27-4100次的范圍內(nèi)。這些音被組成一個固定的體系,用來表達音樂思想和塑造音樂形象。在音樂中使用的、有固定音高的音的總和,叫做樂音體系。樂音體系中的各音叫做音級。音級有基本音級和變化音級兩種。其中,七個具有獨立名稱的音級叫做基本音級。樂音體系中的各音級都有各自的名稱,叫做音名。七個基本音級的音名用拉丁字母標記為:C、D、E、F、G、A、B。演唱時將它們唱成:do、re、mi、fa、sol、la、si,在簡譜中記為1234567。如圖2.l所示。升高或降低基本音級而得來的音,叫做變化音級8。圖圖2.12.1 基本音級、音名及唱名基本音級、音名及唱名樂音體系中的音,按照上行或下行次

16、序排列起來,叫做音列。兩個相鄰的具有同樣名稱的音叫做八度。半音是音高的最小單位,將一個八度音分成十二等份每一份為半音,全音由兩個半音組成。音程是指兩個音級在音高上的相互關(guān)系,是兩個音符之間相差幾個自然音音名的數(shù)量單位,其度量單位是度。度數(shù)并沒有顯示兩個音符之間的實際距離,實際距離是兩個音符之間相差的半音個數(shù)。因此,度數(shù)相同的兩個音符,其實際距離未必相同。如do和fa之間的度數(shù)是四度,實際距離是5個半音;fa和si之間的度數(shù)也是四度,實際距離卻是6個半音。音樂的基本要素是指構(gòu)成音樂的各種元素,包括音高、音長、音量和音色。音高即聲音的高低,它由發(fā)聲體振動頻率(次數(shù))的高低(多少)所決定。發(fā)聲體的振

17、動頻率越低(振動次數(shù)越少),音調(diào)越低:發(fā)聲體的振動頻率越高(振動次數(shù)越多),音調(diào)越高。例如,男性唱歌時聲帶振動頻率較低,而女性唱歌時聲帶振動頻率較高,因此,女性的音調(diào)比男性的音調(diào)高。音長即聲音的長短,它由發(fā)聲體振動延續(xù)時間的長短所決定。延續(xù)時間越短,音長越短;延續(xù)時間越長,音長也就越長。具有不同長短的音相互結(jié)合起來就產(chǎn)生了音樂的節(jié)拍、節(jié)奏,從而構(gòu)成了旋律的骨架。因此,音長在音樂中占有十分重要的位置。音量即聲音的強弱,它由發(fā)聲體振動幅度的大小所決定。一般來說,發(fā)聲體振動的幅度越大,音量就越強:發(fā)聲體振動的幅度越小,音量也就越弱。例如,在音樂中,音量的強弱會形成有規(guī)律的節(jié)奏、節(jié)拍重音,產(chǎn)生音樂的基

18、本律動,不同的音樂風格就有不同的強弱規(guī)律。同樣,音樂情感的表達也離不開音樂強弱的變化。音色即聲音的色彩,它由發(fā)聲體產(chǎn)生的泛音的多少和各個泛音的強弱所決定。主要是由發(fā)音體的發(fā)音方式、結(jié)構(gòu)形狀、泛音的多少及其材料性質(zhì)等不同因素來決定的。例如,不同的樂器以同樣響度演奏同一首曲子,人耳的感覺卻是不一樣的,其原因主要是因為樂器的音色不同。而每種樂器都有自己獨特的音色,就是因為它們之間的和弦不同。一個聲音的基音和泛音共同組成了這個聲音的和弦。旋律指經(jīng)過藝術(shù)構(gòu)思而形成的若干樂音的有組織、有節(jié)奏的和諧運動。它建立在一定的調(diào)式和節(jié)拍的基礎(chǔ)上,按一定的音高、時長和音量構(gòu)成的、具有邏輯因素的單聲部進行。旋律的兩個必

19、不可少的基本要素是音高和節(jié)奏。它是音樂的靈魂和基礎(chǔ),音樂的思想感情都是通過旋律表現(xiàn)出來的。音樂的四個基本要素在音樂的表現(xiàn)中都是非常重要的,但音高和音長則具有更為重大的意義。以北京歡迎你這首歌為例,不管你用小聲哼唱或是大聲演唱,用人聲演唱或者用樂器演奏,雖然音的強弱及音色都發(fā)生了變化,人們?nèi)匀荒軌蚝苋菀椎乇嬲J出這支旋律。但是,假如我們改變這首歌的音高或音長的話,則音樂形象就會立即受到嚴重的破壞。可見,音高和音長對一段旋律來說是極其重要的。2.22.2 音樂信號的特征音樂信號的特征音樂信號的特征指的是尋找音樂信號的表達形式,提取能代表原始音樂信號的數(shù)據(jù)。常用的音樂信號特征大致可以分為三類:時域特征

20、、頻域特征和倒譜特征。.1 音樂信號的時域特征音樂信號的時域特征音樂信號的時域特征是指通過對音樂信號的時域波形進行分析所提取出的時域參數(shù)。時域特征僅利用了音樂信號在時域上的信息,在提取時不需要進行特別的轉(zhuǎn)換,并且具有實現(xiàn)起來比較簡單、計算量小以及物理意義明確的優(yōu)點。常見的時域特征包括短時能量、短時平均幅度、短時平均過零率、短時自相關(guān)函數(shù)和短時平均幅度差函數(shù)等。 短時能量和短時平均幅度音樂信號的短時能量分析給出了反映其能量隨時間變化的一個合適的描述方法。對于信號x(m),其短時能量的定義如下: (2.1)mnmnwmxE2)()(由于短時能量是對信號進行平方運算,因而人為地增加了

21、高低信號之間的差距,在一些應(yīng)用場合不太適用。為了解決這個問題,通常采用短時平均幅度來表示能量的變化,信號x(m)的短時平均幅度定義為: (2.2)()(mnwmxMmn短時能量和短時平均幅度可以有效地判斷信號幅度的大小,并可用于有聲、無聲的判定。 短時平均過零率短時平均過零率是指每幀內(nèi)信號通過零值的次數(shù)。對于連續(xù)的音樂信號,可以通過計算其短時平均過零率來考察其時域波形通過時間軸的情況。對于離散的音樂信號,其短時平均過零率實質(zhì)上就是信號采樣點符號變化的次數(shù)。信號x(m)的短時平均過零率定義為: (2.3)1)1(sgn)(sgn21NnnmnnnmxmxZ其中,表示經(jīng)過加窗處理后的信號,窗函數(shù)的

22、長度為N。)(mxn)(mx短時能量和短時平均過零率結(jié)合起來可以用來判斷音樂信號起止點的位置,即進行端點檢測。在背景噪聲較大的情況下,短時平均過零率比較準確;在背景噪聲較小的情況下,使用短時能量可以獲得較好的檢測結(jié)果。另外,短時平均過零率可以在一定程度上反映音頻信號的頻譜性質(zhì),因此可以通過它來獲得譜特性的一種粗略估計。.2 音樂信號的頻域特征音樂信號的頻域特征音樂信號的頻域特征是指先把音樂信號進行傅立葉變換,將原始信號轉(zhuǎn)換到頻域后,對頻域內(nèi)的數(shù)據(jù)進行分析所提取出的頻域參數(shù)。 短時傅立葉變換 音樂信號的短時傅立葉變換定義為:)(mx (2.4)mmjjnemnwmxeX)()()

23、(其中,為窗函數(shù)。)(n 短時傅里葉變換實際上就是窗選音樂信號的標準傅里葉變換。它建立了信號從時域到頻域的交換橋梁。 線性預(yù)測分析(LPC) 對音樂信號進行線性預(yù)測分析的基本思想是:音樂信號的采樣可以用過去若干個音樂信號采樣的線性組合來逼近,通過使用線性預(yù)測到的采樣在最小均方誤差意義上逼近實際音樂信號采樣,可以求取一組唯一的預(yù)測系數(shù)。該預(yù)測系數(shù)也即線性組合里使用的加權(quán)系數(shù),通常被稱為LPC(Linear Prediction Coding)。簡而言之,即是用信號的前P個樣點值來預(yù)測現(xiàn)在或未來的樣點值:)( nx (2.5)()( 1inxanxpij預(yù)測誤差為:)(n (2.6)pijinxa

24、nxnxnxn1)()()( )()(這樣就可以通過在某個準則下使預(yù)測誤差達到最小值的方法來唯一的確定一組線)(n性預(yù)測系數(shù),稱為預(yù)測階數(shù)。), 2 , 1(Piai P.3 音樂信號的倒譜特征音樂信號的倒譜特征音樂信號的倒譜特征是指對音樂信號進行倒譜分析所得到的倒譜參數(shù)。音樂信號典型的倒譜特征有線性預(yù)測倒譜系數(shù)、Mel頻率倒譜系數(shù)等。 線性預(yù)測倒譜系數(shù)(LPCC)LPCC倒譜系數(shù)可以由LPC系數(shù)按照遞推公式直接推得,其遞推過程如下:通過線性預(yù)測分析得到的合成濾波器的系統(tǒng)函數(shù)為,其沖激響應(yīng)為piiizazH111)(。為求得沖激響應(yīng)的倒譜,首先根據(jù)同態(tài)處理方法,有:)(nh)(

25、nh)(nh (2.7)1)()(log)(nnznhzHzH 設(shè),將(2.7)式兩邊同時對z-1求導(dǎo),即:0)(nh (2.8)1111)(11lognnpiijznhzzaz從而得到: (2.9)11111)()1 (ipiipinniiziaznhnza將(29)左右的常數(shù)項和z-1各次冪的系數(shù)分別相等,得到倒譜和之間的遞推關(guān)系)(nhia為: (2.10)pijnijnipninhaninhpninhanianhah111),()1 ()(1),()1 ()() 1 (按式(2.10)可直接從預(yù)測系數(shù)求得LPC倒譜。這個倒譜是根據(jù)線性預(yù)測模型ia)(nh得到的,因此被稱為LPC倒譜。

26、Mel頻率倒譜參數(shù)(MFCC)由于MFCC(Mel Frequency Cepstrum Coefficient)是將人耳的聽覺感知特性和語音的產(chǎn)生機制相結(jié)合,因此目前大多數(shù)語音識別系統(tǒng)中都廣泛使用了這種特征。它也同樣可以應(yīng)用于音頻信息處理中。Mel頻率可以用公式表達為:Mel frequency= (2.11)7001lg(2959f在實際應(yīng)用中,MFCC倒譜系數(shù)計算過程如下:將原始音樂信號進行分幀、加窗處理,然后進行短時傅立葉變換得到其頻譜;求出頻譜平方,即能量譜,并用M個Mel帶通濾波器進行濾波,然后將每個濾波頻帶內(nèi)的能量進行疊加,這時第k個濾波器的輸出功率為;)(kX將每個濾波器的輸出

27、取對數(shù),得到相應(yīng)頻帶的對數(shù)功率譜;并進行反離散余弦變換,得到L(一般為1216左右)個MFCC系數(shù),如下式所示: n=1,2,L (2.12)5 . 0(cos)(log1MknMnkkxC這種直接得到的MFCC特征為靜態(tài)特征。對靜態(tài)特征做一階和二階差分,可以得到相應(yīng)的動態(tài)特征。2.32.3 音樂旋律的表示方法音樂旋律的表示方法旋律是音樂的基礎(chǔ)和靈魂。音樂的主要特征就是旋律。旋律的一個簡單定義是單音調(diào)的連續(xù)的音階序列。相同的旋律可以映射到不同的音階上。比如,對于同一首歌,不管你用高音唱,還是低音唱,是用鋼琴彈奏還是薩克絲演奏,人們都能很明顯地聽出是同一首歌曲。這主要是因為它們的旋律是相同的。旋

28、律最主要的信息是音高和音長,音高的變化反映了旋律的起伏,而音長則表達了旋律的節(jié)奏信息。在本課題中,用戶的哼唱輸入是以WAVE文件的形式保存下來的,因此,本文的目標就是從WAVE文件中提取相應(yīng)的旋律特征,通過它們與音樂數(shù)據(jù)庫中存儲的歌曲的旋律特征進行檢索匹配,從而找到最相似的歌曲。.1 音樂旋律的表示方法音樂旋律的表示方法要研究基于內(nèi)容的音樂檢索,就必須首先定義可以有效反映音樂旋律特征的表達方式,即定義一個合適的旋廓。旋律輪廓的表達有多種不同的方式,常見的有以下四種13:(1)絕對音高表示法旋律的絕對音高序列是一種最簡單的旋律輪廓。絕對音高序列包含了旋律的準確音高,可以對音樂旋律

29、進行完全精確的檢索。絕對音高序列盡管可以非常精確地檢索出相似的歌曲,但也有明顯的不足之處。一方面,這種表示方法要求檢索者必須非常準確地把握旋律的音高信息,這對于大部分檢索者來說是比較困難的。另一方面,在一些音樂旋律中存在大量的不確定性、即興性因素。比如,對于一些民族音樂來說,它的音調(diào)是不固定的,不同的樂器、不同的演奏者在演奏時它的調(diào)號都可能會發(fā)生改變,盡管此時音樂的旋律是一樣的,但由于其音調(diào)不同,所以對應(yīng)的絕對音高序列就會不一樣,顯然這將導(dǎo)致檢索失敗。因此,絕對音高序列在實際中應(yīng)用很少。(2)相對音高表示法 相對音高序列是基于音樂的旋律輪廓出發(fā)的,沒有絕對音高序列那樣精準,但它可以有效地解決絕

30、對音高序列旋律輪廓的不足,在實際中應(yīng)用非常廣泛。通常采用如下的方式來建立相對音高序列:對樂曲中第一個音符之后的每一個音,使用字符來表示每個音符與前一個音符之間的相對音高關(guān)系:用D表示該音符的音調(diào)比前一個音符的音調(diào)低,用U表示該音符的音調(diào)比前一個音符的音調(diào)高,用S表示該音符的音調(diào)與前一個音符的音調(diào)相等,這樣整個樂曲就可以轉(zhuǎn)化為只包含D、U、S的字符序列。如對于北京歡迎你開頭部分的旋律輪廓(如圖2.2所示)可以表示為:UDDUDUSDDUUD。這種旋律輪廓表示法在很多音樂檢索系統(tǒng)中都有所應(yīng)用。 3 5 3 2 3 2 3 3 . 2 6 . 1 3 2 - 迎接 另一 個晨 曦 帶 來 全 新 空

31、 氣 圖圖2.22.2 北京歡迎你第一句歌譜北京歡迎你第一句歌譜相對音高表示法的優(yōu)點是允許用戶不必記住每個音符的準確音高,只需記住音高的方向就可以進行檢索,該方法雖然彌補了絕對音高的不足,但同時也使搜索變得不精確,對于大型數(shù)據(jù)庫來說檢索到的結(jié)果過多,不利于找到要搜索的目標。(3)音程表示法旋律的音程表示法是指對歌曲使用音程方向或者是使用具體的音程來表示音樂旋律。Downie等提出了三種對旋律分辨能力比較強的音程表示法,在這種表示方法中,上升用大寫字母來表示,下降用小寫字母來表示,重復(fù)的音符用小寫字母“a”表示。第一種表示方法是用“b”、“c”、“d”來分別表示下降l、2、3個半音的音程,下降超

32、過3個半音的音程用“d”來表示;用B、C、D分別表示上升1、2、3個半音的音程,上升超過3個半音的音程用D來表示。第二種表示法是用B到H來分別表示上升1到7個半音的音程,上升超過7個半音的音程用H來表示;用從“b”到“h”分別表示下降1到7個半音的音程,下降超過7個半音的音程用“h”來表示。第三種表示法是直接使用音程的準確數(shù)值來表示音樂的旋律。例如,對于圖3所示的音樂旋律,使用第三種表示法可以表示為:3-3-22-220-2-433-2。音程表示法在一些哼唱檢索系統(tǒng)中也有應(yīng)用38。音程表示法要求用戶在提交查詢時必須要記住部分或全部旋律的準確音程,這無疑增加了用戶的負擔。另外,與絕對音高序列、相

33、對音高序列一樣,這三種表示方法只能反映音符的音高特征,而忽略了音符的節(jié)奏特征。對于一段旋律來說,音高和音長都是非常重要的,如果忽略了音長信息,將不能較好地描述一段旋律。例如,對于同樣的一個音高序列,有音長信息和沒有音長信息,演奏時將大相徑庭。.2 哼唱檢索的特征表示哼唱檢索的特征表示對于哼唱來說,同一首音樂的節(jié)奏可快可慢,音長序列可長可短。節(jié)奏快,音長變短;節(jié)奏慢,音長變長,但所有音符的音長序列都是以同樣比例變化的。即每個人在哼唱時,音長序列可能不同,但音長序列之間的比例一般是不變的。也就是說歌曲旋律的節(jié)奏在時間上具有可伸縮的性質(zhì)。同樣,一首歌曲可以用低8度哼唱,也可以用高8度

34、哼唱,或者任意起調(diào),而聽歌者總能夠聽出是同一首歌曲。即每個人在哼唱時,音高序列可能不同,但相鄰音高序列之間的差值一般是不變的。也就是說歌曲旋律在音高上具有可平移的性質(zhì)。對于一個較好的哼唱檢索系統(tǒng)來說,必須解決這兩個問題才能具有較強的適應(yīng)能力。因此,為了解決這兩個問題,本文給出如下的解決方案:(1)對提取的歌曲音高特征序列,采用相鄰音高之間的半音差值作為音高特征。即對于一個長度為n的音高特征序列P=P1,P2,Pn,定義它的音高半音差值特征序列為: P=P1,P2,Pi其中Pi為Pi和Pi-1之間相差的半音,l=n-1為P的長度。通過采用音高半音差值序列作為音高特征進行匹配,可以解決音樂旋律在音

35、高上的可平移性問題,也使得用戶可以任意起調(diào)。 (2)對提取的歌曲音長特征序列,采用相鄰音長之間的比值作為節(jié)奏特征。即對于一個長度為n的音長特征序列R=r1,r2,rn,定義它的節(jié)奏特征序列為: R=r1,r2,ri,其中ri= (2in), l=n-1為R的長度。1iirr通過采用音長比值序列作為節(jié)奏特征進行匹配,可以解決音樂旋律的節(jié)奏在時間上的可伸縮性問題,也使得用戶能夠以任意的節(jié)奏哼唱。2.42.4 音樂信息檢索音樂信息檢索信息檢索的核心目標是滿足用戶的信息需求。而一般用戶對于音樂信息的需求要體現(xiàn)在查找某個(某類)特定的音樂作品、建立自己的音樂集、核對比較音樂作品三方面。根據(jù)這三種不同需求

36、,廣義的 MIR 可以分為搜索(searching),過濾(filtering),瀏覽(browsing)等三個主要方向。.1 音樂搜索音樂搜索狹義的音樂檢索指的就是音樂搜索,即由用戶給出音樂的某種或某幾種維度的描述符作為查詢輸入,經(jīng)過 MIR 系統(tǒng)的處理,輸出用戶想要的音樂。盡管理論上可以采用任何維度作為查詢輸入,但實際系統(tǒng)大多而且只采用“旋律”這個維度特征?;谝魳沸傻臋z索需要計算查詢輸入與音樂庫中各個文件的相似度。根據(jù)相似度計算方法的不同,我們可以將其分為三類:基于索引、基于序列匹配和基于幾何圖形。(1)基于索引該方法主要是借鑒文本信息檢索的技術(shù)。建立索引可以大大提高檢

37、索效率,但是對于音樂檢索,我們提取什么作為索引項(index term)以及怎樣提取,都不是一個簡單的問題。對于符號格式的音樂文件,通常利用自動提取旋律內(nèi)容描述符的方法,將得到的類似于文本檢索中的音樂“詞匯單元”(lexical unit)作為索引項,然后利用特征向量空間模型,用 tfid 計算權(quán)重。首先出現(xiàn)的是一種利用 N-gram 建立索引的音樂檢索方法,此后又出現(xiàn)一些基于 N-gram 的改進方法可以對復(fù)調(diào)音樂建立索引進行檢索的方法,而最終將具有音樂相關(guān)性的不定長音符序列作為索引項,并稱之為 musical phrase 來實現(xiàn)音樂檢索。(2)基于序列匹配該方法的一個典型應(yīng)用是通過輸入某

38、個音樂作品的部分摘引從而得到準確完整的音樂。對于每一次查詢,都要對查詢序列與音樂庫中所有的文件進行比對計算。該方法優(yōu)點是:通過利用已有的近似字符串匹配技術(shù),可以對查詢與文件可能出現(xiàn)的誤匹配現(xiàn)象建模。利用計算生物學(xué)中的模式發(fā)現(xiàn)(pattemdiscovery)技術(shù)來尋找音樂庫中查詢的音高輪廓線的簡化描述。還有其他一些類似的基于序列匹配的方法可以在中找到,除了利用近似字符串匹配技術(shù),統(tǒng)計模型也被引入到序列匹配的方法中,對音樂庫中提取的音樂主題集合用馬爾科夫鏈建模的方法,文獻13提出用隱馬爾科夫模型(HiddenMarkovmodels,HMM)對哼唱查詢中可能出現(xiàn)的錯誤建模。序列匹配技術(shù)的計算效率

39、很高,對于一個大小為 n 的音樂庫,輸入一個長度為 m的查詢,其計算復(fù)雜度為(m+n)。然而由于每次查詢都要與庫中所有文件進行比對,計算代價與庫的大小成正比,這也就意味著利用該方法的查詢具有很低的可擴展性。文獻14提出利用剪枝技術(shù)(pruning techniques)解決這個問題。(3)基于幾何圖形如果我們用橫軸表示時間,縱軸表示音高,那么音樂就可以用幾何圖形來表示。同樣我們也可以將查詢轉(zhuǎn)化為幾何圖形的形式,于是只要比較這些圖形之間的相似性就可以得到我們需要查找的音樂。這種方法的優(yōu)點主要體現(xiàn)在處理復(fù)調(diào)音樂上,即無需提取其主旋律。上海交通大學(xué)的李揚提出的 LAM(Linear Alignmen

40、t Matching)算法就是基于旋律線的一種幾何圖形方法的改進。.2 音樂過濾音樂過濾由于網(wǎng)上購物的不斷發(fā)展,越來越多的人選擇通過互聯(lián)網(wǎng)購買音樂專輯。音樂自動推薦系統(tǒng)(automatic recommender systems)可以代替音樂專家,根據(jù)用戶自己的興趣特點提供音樂推薦。協(xié)同過率(collaborative filtering)是推薦系統(tǒng)最常用的技術(shù),但是存在“新添項”(new item)和“冷啟動”(cold start)問題。因此,研究人員提出了一些基于內(nèi)容的音樂推薦系統(tǒng)。這些系統(tǒng)的設(shè)計思想是利用用戶已經(jīng)評定的項的集合,去推薦那些與其元素相似度接近的新項,而音樂

41、特征的選擇取決于哪些音樂維度與用戶更為相關(guān)。音樂播放列表的自動生成是 MIR 里的特有任務(wù)。它與音樂推薦有所不同,音樂播放列表里的音樂通常是用戶己知的音樂而且其排列順序通常是相關(guān)的。文獻15將播放列表的生成看作是在結(jié)點為歌曲、邊為相似歌曲的連線的圖(graph)上尋找一條路徑(Path)的過程。.3 音樂瀏覽、分類音樂瀏覽、分類前面提到的音樂搜索只是對音樂庫進行訪問的方式之一。我們還可以像訪問文本文件或其它多媒體文件那樣,用瀏覽音樂庫、查看音樂文件分類目錄或者利用相關(guān)視覺線索等更有效的方式去訪問音樂庫。(1)音樂庫瀏覽對音樂庫的瀏覽是一種自然而可行的訪問方式。而且音樂庫的導(dǎo)(n

42、avigation)時常與基于內(nèi)容的音樂檢索結(jié)合在一起。音樂的瀏覽與導(dǎo)航都是基于音樂文件“相似性”這一概念的。原則上講“相似性”是用戶獨立(user-dependent)的,而且是隨時間變化的。但是大多數(shù)音樂瀏覽方法都是基于預(yù)先設(shè)定好的音樂維度的靜態(tài)相似性計算。(2)音樂瀏覽分類音樂分類通常是指將音樂按照流派、風格進行分類。音樂分類與不同的音樂文化有關(guān)。比如在國內(nèi),通??梢詫⒏枨譃榱餍?、民族、美聲、原生態(tài)四類。而對于西方音樂,又有另外一套分類體系。對用戶而言,只對樂曲進行一個簡單的分類用處不大,因為每個類別里都有成百上千首樂曲。而另一方面用戶對樂曲的類別信息又十分關(guān)心,這些信息可以作為用戶的

43、個性檔案資料來為 MIR 系統(tǒng)服務(wù)。最早介紹音樂分類的論文之一是文獻16。音樂分類系統(tǒng)主要基于三個特征:節(jié)奏、音高、音色,而且研究結(jié)果表明節(jié)奏在音樂分類中起到的作用最大。3.MP33.MP3 音樂格式分析和旋律特征抽取音樂格式分析和旋律特征抽取本論文所研究的基于內(nèi)容的音樂檢索系統(tǒng)將涉及兩種類型的MP3音樂。其一是單音色、單聲部的MP3音樂。它可以通過用戶哼唱并以MP3格式或wav格式錄制而成,也可以是用戶手里已有的或通過其它途徑錄制的單音色、單聲部的MP3查詢音樂。其二是多聲部的MP3音樂。它可以是被查詢數(shù)據(jù)庫中的整首MP3音樂,也可以是其中的某一多聲部MP3音樂片段。無論是哪種類型的MP3音

44、樂,本論文所采取的策略都是先將其解壓成原始數(shù)字音頻信號流PCM,而后再作進一步的分析處理。3.13.1 MP3MP3的音樂格式分析及編解碼算法的音樂格式分析及編解碼算法.1 MPEGMPEG 概述概述MPEG(Moving Picture Experts Group)是動態(tài)圖像專家組織的英文縮寫,是一個致力于數(shù)字視頻、音頻技術(shù)發(fā)展及標準化的杰出組織。該組織于1992年正式推出了具有1.5Mbit /s數(shù)據(jù)傳輸率的數(shù)字存儲媒體運動圖像及其伴音的MPEG-1的標準草案,并于1993年正式通過。該標準規(guī)定了數(shù)字音視頻編碼的國際標準,主要包括系統(tǒng)、視頻和音頻三個方面。視頻壓縮僅僅包含畫

45、面信息,音頻壓縮包含聲音信息,系統(tǒng)實現(xiàn)音頻和視頻的同步。所有播放音頻壓縮數(shù)據(jù)所需的時鐘信息包含在系統(tǒng)流中,其中音頻編碼可以獨立使用。MPEG-1音頻編碼標準可以把CD音質(zhì)的兩個通道共同包含的1.4Mbit/s數(shù)據(jù)流壓縮到128lKMbit/s,且仍保持高保真的聲音,很快得到了國際認可。MPEG-1和MPEG-2音頻編碼都提供了三個壓縮層。Layerl是簡單壓縮,它是一種聽覺心理聲學(xué)模型下的亞抽樣編碼;Layer2加入了更高的精度;Layer3就是現(xiàn)在流行的MP3音樂格式,加入了非線性量化、哈夫曼編碼和其它實現(xiàn)低速率高保真音質(zhì)的先進技術(shù),可以把一個1.4Mbit/s的立體聲雙聲道數(shù)據(jù)流壓縮為32

46、Kbit /s-384Kbit/s,且保持高保真的音質(zhì)。.2 MP3MP3 編碼原理編碼原理 圖圖 3.13.1 MP3MP3 編碼過程編碼過程MP3編碼主要由七部分組成,其基本原理是將聲音信號由時間域轉(zhuǎn)換成頻率域,且僅保留人耳聽覺范圍20-20kHz的聲音信號,因此也可以將這種編碼方法稱為聽覺心理的演算法(Psychoacoustic Algorithm)。編碼過程如圖3.1所示。(1) 多相濾波器組。使用MPEG-Audio的演算法提供時間域與頻率域的對應(yīng)轉(zhuǎn)換,將每幀的PCM樣值分解到32個等寬的子帶內(nèi),每個子帶內(nèi)包含36個樣值。(2)MDCT。將每個多相濾波器組輸出的每個

47、子帶的36個信號轉(zhuǎn)換到頻域,并增強每個子帶的頻譜分辨率。同時定義了四種窗函數(shù)類型,分別為長窗(1ong window)、短窗(short win dow)、開始窗(start window)和結(jié)束窗(end window)。(3)心理聲學(xué)模型。以聽覺心理學(xué)的原理為依據(jù),用來模擬人的聽覺特性,決定當前聲音中的哪些特性是和聽覺相關(guān)的,哪些特性是和聽覺無關(guān)的,針對多相濾波器組的每個子帶進行聲音信號的掩蔽。在MPEG-1音頻標準中定義了兩種可以在MP3編碼器中使用的心理聲學(xué)模型,這兩種模型都先將信號經(jīng)過傅立葉頻譜轉(zhuǎn)換,再映射到臨界頻帶(Critical Bands),并根據(jù)頻譜的分析結(jié)果進行窗函數(shù)的選

48、擇。(4)非線性量化和比特率控制。采用非線性量化方法,根據(jù)聲學(xué)模型提供的信掩比,動態(tài)分配比特,以滿足碼流速率和量化噪音要在臨界頻帶中聽不到的要求。(5)Huffinan編碼。由于Huffman編碼是一種無損壓縮算法,因此在解碼端可以完全恢復(fù)量化后的頻率線。(6)邊信息。傳遞編碼過程中用到的所有相關(guān)參數(shù),如Hufrman編碼表的選擇、量化因子和MDCT中應(yīng)用的窗函數(shù)類型等。(7)碼流格式化。將Huffman編碼后的頻率線、量化參數(shù)、邊信息、幀頭信息、輔助信息等封裝成一定格式的幀,根據(jù)需要還可以加入CRC校驗。.3 MP3MP3 幀格式幀格式幀是MP3文件最小組成單位,由幀頭信息、

49、CRC校驗字、邊信息、附加信息和聲音數(shù)據(jù)等部分組成。每幀的播放時間是0.026秒,其長度隨位率的不同而不等。經(jīng)過壓縮后的MP3文件數(shù)據(jù)由多個幀組成。下面簡單介紹MPEG-1標準中規(guī)定的標準的MP3幀格式。(1) 幀頭信息(Header)MP3的幀頭包含32個比特,對于固定位率的MP3文件,所有幀的幀頭格式都是一樣的,其數(shù)據(jù)結(jié)構(gòu)如下:Class FrameHeaderunmgned int sync: /同步信息ullslgnlxl int version: /版本unmgned int layer: /層unmgned hat protection; /CRC校驗unmgn伽i int bit

50、rate: /位率unmgned int frequency; /頻率unmgned int padding; /幀長調(diào)節(jié)unmgned int private: /保留位unmgned int mode; /聲道模式unmgned hat modeextension;/模式擴展unmgned hat copyright: /版權(quán)unmgnod hat original: /音源類型unmgned int emphasis: /強調(diào)方式其中每個字節(jié)的使用說明見表3.1。(2)CRC校驗字。這個CRC校驗字是可選的,長度為16比特用來給解碼器提供一定的檢錯能力。每一幀中,只有那些解碼器最敏感的信

51、息(如邊帶信息)才被包含在CRC校驗之列。若有一幀發(fā)現(xiàn)錯誤,則必須采取相應(yīng)的措施進行糾錯,如重復(fù)前一幀或該幀不發(fā)聲等。(3)邊信息。邊信息記錄的是壓縮音頻在解碼時所要參考到的相關(guān)信息。對于單聲道模式,邊信息占用17字節(jié)的長度,其它模式中邊信息占用32個字節(jié)。邊信息主要包含Main_data_ end指針、兩個粒度(Grannul)的共用邊信息(Scfsi band)、grannul0的邊信息及grannull的邊信息4個方面內(nèi)容。在MP3中,主數(shù)據(jù)并不一定跟隨在邊信息的后面。Main_data_end是一個9比特長的指針,用來標志當前幀主數(shù)據(jù)的結(jié)束,在其后的主數(shù)據(jù)就是下一個幀主數(shù)據(jù)的開始(Ma

52、in_data_ begin)。共用邊信息用來確定幀數(shù)據(jù)中的比例因子是兩個粒度共用的還是針對單個粒度的。在MP3標準中,根據(jù)心理聲學(xué)特性將20Hz-20KHz的頻帶分為21個(長窗)或12個(短窗)頻率子帶。這21個或12個頻率子帶又分為2個群,每個頻率子帶或群里的音頻數(shù)據(jù)具有相似的特性,不僅給處理帶來了方便,也提高了壓縮質(zhì)量。在壓縮時,每個群都有一個比例因子,但對于雙聲道音頻,比例因子可能是一樣的。因此,為了節(jié)省比特空間,提供了比例因子選擇 表表3.13.1 幀頭幀頭4 4字節(jié)使用說明字節(jié)使用說明信息。該數(shù)據(jù)段每聲道占用4比特,每個比特對應(yīng)一個比例因子群?!?表示此幀在該群的比例因子是獨立的

53、,“l(fā)表示比例因子是兩個粒度共用的,只有粒度為0的比例因子被發(fā)送。(4)主數(shù)據(jù)。主數(shù)據(jù)包括比例因子(Scale Factors)和Huffman編碼數(shù)據(jù)兩部分。在MP3數(shù)據(jù)中,比例因子以比例因子帶為單位,即比例因子帶中的每個樣點具有相同的比例因子。這些比例因子是否為兩個粒度共用由Scfsi band變量決定。在處理MP3數(shù)據(jù)的時候,把每個粒度中的576個樣點分成3個區(qū)域(Big_values,Countl,Rzero)。Rzero區(qū)域的數(shù)據(jù)不進行Huff rnan編碼:Big_values區(qū)域中的樣點,又被分成3個子區(qū)域,并對兩個樣點進行統(tǒng)一編碼;在Countl區(qū)域中,對4個樣點進行統(tǒng)一的Hu

54、ffman編碼。(5)附加信息。附加信息是可選的,用戶可以自己定義想要記錄的信息,比如可以記錄音樂的標題、演唱者、專輯名稱等一些額外的信息。.4 MP3MP3 解碼算法解碼算法MP3解碼算法大致可以分為兩部分。第一部分和MP3碼流的格式密切相關(guān),包括同步、解幀頭信息、CRC校驗、解邊信息、解比例因子和Huffman解碼等:第二部分著重于數(shù)值計算,包括反量化、順序重排、混疊重建、IMDCT和子帶綜合濾波等。如圖3.2所示。圖圖3.23.2 MP3MP3解碼算法解碼算法(1)同步和CRC校驗。同步和CRC校驗對輸入的比特流進行識別并將信息傳送給后續(xù)的模塊。同步模塊通過搜索同步字識別

55、每一幀的位置,進而和比特流同步。只有知道了各幀的位置,解碼器中的后續(xù)模塊才有可以根據(jù)MPEG-1音頻標準獲得該幀中的所有信息。如果當前幀有CRC字,CRC校驗?zāi)K將檢查受保護的數(shù)據(jù)有沒有錯誤。(2)邊信息解碼。邊信息的長度只有兩種可能,對于單聲道,邊信息的長度為136比特,而對于雙聲道為256比特。所以邊信息解碼相對來說比較簡單,按照MPEG.1音頻比特流的格式解碼就可以了。(3)比例因子解碼。比例因子是主數(shù)據(jù)的一部分,對比例因子進行編碼的信息包含在邊信息中,比例因子解碼時要用到這些信息。每一幀中的邊信息在組織時基本是相同的,唯一的不同在于所包含的信息是與所對應(yīng)的某一個粒度中的某一個聲道相關(guān)。

56、每一個傳送的比例因子作用于一個比例因子帶。比例因子帶的數(shù)目也就是傳送的比例因子的數(shù)目,決定于編碼器中MDCT模塊使用的窗函數(shù)類型。在一個粒度中,一個聲道傳送的比例因子的最大數(shù)目是36,在進行MDCT之前應(yīng)用短窗時會達到這個最大值。在解碼操作進行前,必須確定某一聲道實際的比例因子數(shù)目。對于比例因子,可以采用兩種壓縮方式,邊信息則包含了在特定的比例因子帶中所使用的壓縮方式的選擇信息,因此在比例因子解碼時必須用到邊信息。此外,MP3各幀傳送的比例因子數(shù)目可以各不相同,其數(shù)目較少的情況發(fā)生在第一個粒度中某個聲道的比例因子被第二個粒度中相應(yīng)聲道重用時。(4)Huffxnan解碼。Huffinan編碼是將

57、576個經(jīng)過余弦變換且量化后的量化值,按照頻率的大小做升冪排序。Huffmaa編碼器在進行編碼前會先將頻率值重新編排,并將排序過的頻率值分成幾個不同的編碼區(qū),使編碼器在對每個不同的Huffinan表編碼時,變成對這幾個區(qū)域的統(tǒng)計。(5)反量化。經(jīng)過Huffman解碼之后的值需要經(jīng)過反量化的過程,進行時必須根據(jù)量化時所使用的窗函數(shù)類型使用不同的反量化公式。對于長窗使用公式(3.1): (3.1)22)(4143iiiisissignxr其中: 210_grgainglobal _sfbpreflabgrpreflagsfbchgrlscalefacmultiplierscalefac對于短窗使用

58、公式(3.2): (3.2)22)(4134iiiisissignxr其中: _8210_grwindowgainsubblockgrgainglobal _sfbchgrsscalefacmultiplierscalefacIsi表示第i個解完Huffmaa解碼后的頻率線,然后將完成Huffinan解碼后的頻率線開4/3次方加以還原:global_gain的參數(shù)值可以從邊信息中取得;當邊信息中的Sealefae_scale =0時,scalefac_multiplier=0.5,scalefae_scale=l時,scalefac_multiplier=l;scalef ac_l及scale

59、fac_s是從scale factor所解出來的量化因子的值;preflag則是MP3標準規(guī)定中所設(shè)定的常數(shù)值,而210是系統(tǒng)中需要用來衡量的一個標準值。(6)順序重排。順序重排模塊的作用是檢測是否有子帶使用短窗,如果有,則將這些子帶內(nèi)的頻率線的順序重新按照MDCT輸出的順序進行排列。通過邊信息中的變量Window_sw_fl ag和Block_type可以檢測到是否需要重新排序。(7)立體聲處理。MP3除了提供單聲道及雙聲道之外,同時還提供強化立體聲(Intensity stereo)和MS立體聲(MS Stereo)這兩種立體聲的編碼方式。后面兩種編碼方式的左右聲道就不是單純的反量化處理后

60、得到的值,還需要通過立體聲處理將編碼過程的立體聲信號還原為左右立體聲信號。強化立體聲模式是將較高頻的子頻帶信號編碼為一個單個的總和信號,而不是分別獨立的傳送左右子帶信號,左右聲道的平衡可以通過比例因子來傳輸。解碼器通過單個信號來重構(gòu)左右兩個聲道的信號,右聲道的平衡比例因子用is_possfb來表示。解碼時利用公式(3.3)和公式(3.4)解出左右聲道信號: (3.3)12(_tan(_sfbsfbposisratiois 和 (3.4)_1/(_(sfbsfbiiratioisratioisLL)_1/(1 (sfbiiratioisLRMS立體聲模式是將左右兩聲道的信號分別相加及相減產(chǎn)生的,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論