北郵郭軍web搜索chapter4_第1頁
北郵郭軍web搜索chapter4_第2頁
北郵郭軍web搜索chapter4_第3頁
北郵郭軍web搜索chapter4_第4頁
北郵郭軍web搜索chapter4_第5頁
已閱讀5頁,還剩47頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

Web搜索

郭軍

北京郵電大學(xué)

第4章音頻檢索聲學(xué)特征提取

HMM模型連續(xù)語音識(shí)別系統(tǒng)語音關(guān)鍵詞發(fā)現(xiàn)技術(shù)語音詞匯檢測技術(shù)非語音音頻檢索音樂檢索音頻檢索的策略音頻檢索起步較晚,但目前已經(jīng)成為一個(gè)新熱點(diǎn)語音類音頻檢索的一個(gè)自然策略是語音識(shí)別文本檢索全文的轉(zhuǎn)換或關(guān)鍵詞的轉(zhuǎn)換直接基于聲學(xué)特征進(jìn)行檢索的策略越來越受到重視音頻檢索也有兩種基本模式基于示例/基于查詢詞音頻檢索的困難音頻信號(hào)種類繁多,環(huán)境噪聲差異性大聲學(xué)特征提取音頻信號(hào)常具有高度的時(shí)變性,只有在一個(gè)較短的時(shí)間段內(nèi)才可視為平穩(wěn)的分幀操作:語音信號(hào),一般以20ms左右為一幀為去除邊界效應(yīng),相鄰幀要相互重疊,常用的比例是1/2時(shí)域特征第n幀信號(hào)的短時(shí)能量第n幀信號(hào)的短時(shí)平均幅度第n幀信號(hào)的短時(shí)過零率頻域特征—LPC參數(shù)頻域上的語音譜S(z)是激勵(lì)譜E(z)通過傳遞函數(shù)為V(z)的線性系統(tǒng)后產(chǎn)生的輸出語音信號(hào)產(chǎn)生模型把實(shí)際聲道近似為P段不同截面積的短聲管的串聯(lián),采用全極點(diǎn)模型將上式右側(cè)第二項(xiàng)看作s(n)的線性預(yù)測值s‘(n),將Ge(n)看作誤差項(xiàng),則聲道參數(shù)ai可以通過求解線性預(yù)測參數(shù)的最小均方誤差準(zhǔn)則求得轉(zhuǎn)換到時(shí)域,語音信號(hào)s(n)和激勵(lì)信號(hào)e(n)之間的關(guān)系為Mel倒譜系數(shù)MFCC人耳對臨界帶寬內(nèi)的音調(diào)具有掩蔽效應(yīng)當(dāng)兩個(gè)頻率相近的音調(diào)同時(shí)發(fā)出時(shí)只能聽到一個(gè)音調(diào)MFCC的提取過程通過Mel頻率濾波器組得到信號(hào)的Mel頻率HMM模型Markov模型可用離散時(shí)域有限狀態(tài)機(jī)FSM描述FSM有N種狀態(tài),用1~N表示,在時(shí)刻t所處的狀態(tài)用qt表示每個(gè)狀態(tài)下可能的輸出值的為O={o1,…,oM}FSM初始化時(shí)可位于N個(gè)狀態(tài)中的任何一個(gè),其初始狀態(tài)分布為πi

=P(q1=i),i=1,…,NFSM在當(dāng)前狀態(tài)以某種概率向任意的狀態(tài)跳轉(zhuǎn),狀態(tài)轉(zhuǎn)移概率矩陣用A表示,A={aij}如果在任意時(shí)刻t,外界都看不到FSM的內(nèi)部狀態(tài)qt,只能得到一個(gè)觀測值ot,而ot與qt之間的關(guān)系可用條件概率P(ot|qt=j)來描述,則稱此Markov模型HMMHMM的描述HMM可用符號(hào)λ={A,B,π}來描述A為狀態(tài)轉(zhuǎn)移概率矩陣A={aij}N×NB為觀測值概率矩陣B={bj(ot)}N×Tπ為初始狀態(tài)分布π={πi}前向HMM的示意圖HMM的三個(gè)基本問題識(shí)別問題對于給定的觀測序列O=(o1,…,oT)和模型λ={A,B,π},計(jì)算由λ產(chǎn)生O的概率P(O|λ),常用前向和后向算法譯碼問題對于給定的O

和λ,求λ對應(yīng)于O的最佳狀態(tài)序列Q*,即尋找使P(O|λ)達(dá)到最大時(shí),O所對應(yīng)的狀態(tài)序列,一般采用Viterbi算法求解訓(xùn)練問題對于給定的O,如何獲得產(chǎn)生O的概率最大的模型λ,一般采用Baum-Welch算法求解HMM的基本問題的經(jīng)典算法識(shí)別問題前向、后向算法:從入口狀態(tài)或出口狀態(tài)開始遞推的方法。兩種算法可以單獨(dú)使用,也可結(jié)合使用譯碼問題Viterbi算法:基于動(dòng)態(tài)規(guī)劃的方法搜索HMM模型中對應(yīng)觀測序列O的可能性最大的狀態(tài)序列X*訓(xùn)練問題Baum-Welch算法是一種廣義的EM算法,利用R個(gè)觀測序列迭代估計(jì)HMM的參數(shù)λ基于HMM的語音識(shí)別統(tǒng)一框架大詞匯量連續(xù)語音識(shí)別系統(tǒng)語音關(guān)鍵詞發(fā)現(xiàn)(SKS)技術(shù)最初用在人機(jī)口語對話系統(tǒng),現(xiàn)開始在音頻檢索中應(yīng)用自底向上法:先將語音識(shí)別為一串串音素,然后再檢測音素串中是否包含關(guān)鍵詞自頂向下法:以關(guān)鍵詞的聲學(xué)模型為基礎(chǔ)進(jìn)行檢測基于垃圾(fillerorgarbage)模型的關(guān)鍵詞發(fā)現(xiàn)

垃圾模型的建立理想的垃圾模型應(yīng)有足夠的能力匹配所有非關(guān)鍵詞的語音特征,同時(shí)與關(guān)鍵詞模型之間有足夠遠(yuǎn)的距離垃圾模型的實(shí)現(xiàn)有顯式和在線兩種方法顯式垃圾模型有子詞垃圾和集外垃圾兩種實(shí)現(xiàn)方法子詞垃圾方法:Filler與Keyword共享一套子詞模型,Keyword是子詞的串接,F(xiàn)iller也是子詞的串接集外垃圾方法為Filler建立專門的聲學(xué)模型,與Keyword的聲學(xué)模型相獨(dú)立在線垃圾模型將每個(gè)語音幀與所有關(guān)鍵詞模型匹配最佳的N個(gè)單元的平均分作為該幀的在線垃圾模型得分,來衡量該幀是否與某個(gè)關(guān)鍵詞模型匹配

一個(gè)側(cè)重確認(rèn)的SKS系統(tǒng)以基于HMM的連續(xù)語音識(shí)別技術(shù)為核心采用I型搜索網(wǎng)絡(luò)高性能的檢出關(guān)鍵詞確認(rèn)聲學(xué)模型以擴(kuò)展的聲韻母單元為識(shí)別單元搜索網(wǎng)絡(luò)權(quán)值的設(shè)定減小垃圾模型組的權(quán)重/加大關(guān)鍵詞模型組的權(quán)重關(guān)鍵詞KWi的權(quán)重設(shè)為

基于似然比的檢出關(guān)鍵詞確認(rèn)假設(shè)檢驗(yàn):假定某段語音特征向量O被識(shí)別成某個(gè)詞W原假設(shè)H0:O的識(shí)別結(jié)果為W備擇假設(shè)H1:O的識(shí)別結(jié)果為非W則兩個(gè)假設(shè)成立的概率對數(shù)似然比

當(dāng)LR大于閾值t時(shí)選擇H0,否則選擇H1詞是由子詞串接而成時(shí),可將LR的計(jì)算下移到子詞層,子詞層的似然比可以表示為(λ為目標(biāo)子詞對應(yīng)的HMM)

反詞概率密度的建模(1/2)訓(xùn)練顯式反詞模型把反詞模型分為兩部分稱為背景模型,用所有的訓(xùn)練樣本生成稱為冒充模型,用來對混淆音建模。利用與目標(biāo)子詞最容易混淆的前N個(gè)子詞的樣本訓(xùn)練得到。反詞概率密度的建模(2/2)利用目標(biāo)模型外的其它模型構(gòu)造反詞模型假定模型空間中除目標(biāo)模型λ之外的其它模型為{λi}簡單的方法是在{λi}中找一個(gè)得分最高的模型與目標(biāo)模型比較,獲得目標(biāo)模型的得分這相當(dāng)于用1-Best競爭模型表示反詞模型。如果取前M個(gè)競爭模型的平均,則:一個(gè)通用的計(jì)算公式是:語音詞匯檢測STDSKS事先確定目標(biāo)詞的集合STD每次要檢測的詞是可變的STD系統(tǒng)一般由索引和搜索器組成索引利用語音識(shí)別對語音文檔中包含的音素串建立地址和長度標(biāo)記搜索器根據(jù)用戶的查詢詞對索引進(jìn)行訪問索引詞是語音識(shí)別系統(tǒng)的詞匯集中的詞加上音素串所能生成的集外詞查詢詞是用戶所關(guān)心的任意詞2006年NIST組織了第一次STD評(píng)測,引起了廣泛的關(guān)注基于Lattice建立索引的方法被多家采用

Lattice與混淆網(wǎng)絡(luò)音節(jié)Lattice:用“網(wǎng)格”的形式保留HMM搜索空間中各種可能的音節(jié)路徑

混淆網(wǎng)絡(luò):將Lattice中不同長度的詞序列進(jìn)行時(shí)間對齊,將Lattice簡化為一種線性結(jié)構(gòu)

混淆網(wǎng)絡(luò)的生成算法及定義1:在Lattice上利用前向-后向算法計(jì)算弧的后驗(yàn)概率2:剪枝:剪去后驗(yàn)概率小于指定閾值的弧3:詞內(nèi)聚類:合并對應(yīng)同一個(gè)詞的弧,并對它們的后驗(yàn)概率求和4:詞間聚類:將那些競爭相同時(shí)間段并且具有類似語音學(xué)特性的詞組成一組,不同的時(shí)間段形成不同的組,形成一個(gè)個(gè)混淆集混淆網(wǎng)絡(luò)的格式定義alignsliceIDsliceIDword1starttimedurationascoregscorephonesphonedurs

基于音節(jié)混淆網(wǎng)絡(luò)的STD系統(tǒng)STD的索引建立利用語音識(shí)別完成語音-文本轉(zhuǎn)換STT,生成音節(jié)Lattice將Lattice轉(zhuǎn)化為音節(jié)混淆網(wǎng)絡(luò)基于音節(jié)混淆網(wǎng)絡(luò)建立音節(jié)索引通過重疊的N-gram音節(jié)語法建立前向索引將前向索引倒排,獲得反向索引前向索引例(1~3元模型)tianPr:1Starttime:0.40Endtime:0.52SliceID:4tiancanPr:0.7Starttime:0.40Endtime:0.63SliceID:45tiansanPr:0.8Starttime:0.40Endtime:0.63SliceID:45tiancanxiePr:0.85Starttime:0.40Endtime:0.74SliceID:456tiancanyePr:0.95Starttime:0.40Endtime:0.74SliceID:456tiancanbiePr:0.80Starttime:0.40Endtime:0.74SliceID:456canPr:0.4Starttime:0.52Endtime:0.63SliceID:5canxiePr:0.35Starttime:0.52Endtime:0.74SliceID:56……反向索引及檢索將所有語音文件的前向索引按照音節(jié)串ID(詞ID)和置信度大小排序就可構(gòu)成用于檢索的音節(jié)串的反向索引兩個(gè)反向索引I:WordIDPrStarttimeEndtimeSliceIDII:SliceIDWordID-Ptr索引I是詞反向索引索引II是混淆集反向索引檢索音節(jié)串時(shí)兩個(gè)索引交替使用例如搜索“八達(dá)嶺長城(badalingchangcheng)”時(shí)用“badaling”搜索索引I,根據(jù)返回結(jié)果得到結(jié)束SliceID序號(hào)將該SliceID加1后搜索索引II,得到一個(gè)指向索引I的入口WordID-Ptr,看從中是否可查到“changcheng”非語音音頻檢索非語音音頻,如音樂、鳥鳴、狗叫、虎嘯、馬達(dá)聲等無法通過語音識(shí)別的方法進(jìn)行文本標(biāo)注其檢索問題需要采取與語音檢索不同的技術(shù)來解決,可用機(jī)器學(xué)習(xí)的方法建立聲學(xué)模型與語義模型之間的聯(lián)系相關(guān)的研究主要有音頻分類、音頻檢索以及圖像視頻檢索音頻分類的性能主要取決于聲學(xué)特征的選取MFCC比LPC更有效音頻檢索研究重點(diǎn)QBE:哼唱查詢(QuerybyHumming)QBK:研究的重點(diǎn)在聲音的語義建模,[Buchanan05]提出了一個(gè)完整的聲學(xué)—語義框架和一套建模方法Buchanan的聲學(xué)—語義框架分別建立聲音的聲學(xué)空間和語義空間在聲學(xué)空間中,對實(shí)際的音頻內(nèi)容進(jìn)行建模在語義空間中,對描述聲音的詞匯進(jìn)行建模兩個(gè)空間均采用統(tǒng)計(jì)方法建模,將實(shí)例表示為特征向量在聲學(xué)空間對不同聲音的相似性進(jìn)行推算在語義空間對不同聲音的文本描述間的相似性進(jìn)行推算兩個(gè)空間之間的聯(lián)系依靠已知聲音及其文本描述來建立這種聯(lián)系(對應(yīng)關(guān)系)形成了兩個(gè)空間分布之間的相互映射聲學(xué)模型—特征抽取建立聲學(xué)模型的第一步是確定采用的特征MFCC特征被證明是有效的幀尺寸應(yīng)小于20ms系數(shù)的數(shù)量可在8、12、16中間選擇外加能量項(xiàng)為捕捉聲音的時(shí)變特性,需加入Delta倒譜特征,設(shè)靜態(tài)倒譜為x(t),Delta倒譜定義為必要時(shí),還可以Delta倒譜為基礎(chǔ)計(jì)算二階差分,即DoubleDelta倒譜,以此反映靜態(tài)倒譜變化的加速性質(zhì)利用上述特征,每段聲音就會(huì)被映射為特征空間中大量的點(diǎn),形成一個(gè)點(diǎn)分布聲學(xué)模型—點(diǎn)分布的概率建模GMM是對上述點(diǎn)分布進(jìn)行建模的理想方法將特征空間中的樣本當(dāng)作一個(gè)整體來建模,而不去區(qū)分它們在時(shí)間上的先后順序盡管一段聲音不一定在聲學(xué)空間形成明顯的分布簇,但通過足夠的混合分量,它的分布能夠得到近似描述一個(gè)D維的聲學(xué)特征向量x,其概率密度函數(shù)p(x)的GMMGMM的參數(shù)常用EM算法進(jìn)行估計(jì),一個(gè)訓(xùn)練任務(wù)需要估計(jì)混合權(quán)重πi和分布參數(shù)θi={μi,Σi}兩套參數(shù),混合度K是一個(gè)需要預(yù)先確定的值GMM參數(shù)估計(jì)的EM算法E-step:估計(jì)各個(gè)樣本屬于各個(gè)混合分量的概率,令wij為在當(dāng)前的參數(shù)估計(jì)條件下數(shù)據(jù)xi屬于第j個(gè)混合分量的概率,則:M-step:利用所有訓(xùn)練數(shù)據(jù)計(jì)算新的權(quán)重、均值和協(xié)方差矩陣語義模型—VSM語義特征空間由各個(gè)聲音的描述文檔中的詞匯支撐VSM用m×n的詞—文檔矩陣對于包含詞匯t1,t2,…tm和文檔d1,d2,…dn的聲音描述文檔集合建模每一列代表一個(gè)文檔,每一行代表一個(gè)詞詞在各個(gè)文檔以及整個(gè)集合中的權(quán)重用TF-IDF表示TF取fij的二值形式bij,IDF取熵加權(quán)的方式pij=(fij/gi),gi為ti在集合中出現(xiàn)的次數(shù),n為集合中的文檔數(shù)語義模型—LSI通過將詞—文檔矩陣A向低維空間映射來獲取詞匯之間潛在的關(guān)系采用SVD的方法A=USVT只取前k個(gè)特征值關(guān)于LSI的維數(shù)k的實(shí)驗(yàn)當(dāng)k升至50左右時(shí),LSI的效果已經(jīng)趕上VSM在k等于70左右達(dá)到最大,分類錯(cuò)誤率在VSM基礎(chǔ)上降低50%左右在k等于70到100之間,性能基本保持穩(wěn)定超過100后,性能開始緩慢下降聲學(xué)空間與語義空間的聯(lián)系雙向檢索(聲音語義/語義聲音)需要建立聲學(xué)模型和語義模型之間的映射關(guān)系依賴于訓(xùn)練集合中已知的聲音及其語義描述之間的關(guān)系在聲學(xué)空間中,n個(gè)訓(xùn)練樣本(聲音)各有一個(gè)GMM,每個(gè)GMM對每個(gè)訓(xùn)練樣本都有一個(gè)似然度,構(gòu)成n×n的似然度矩陣在語義空間中,每個(gè)聲音的描述文檔有一個(gè)LSI(或VSM)模型。這n個(gè)模型之間的相似度也可以用n×n的矩陣來表示觀察發(fā)現(xiàn)上述似然度矩陣和相似度矩陣盡管有相似之處,但卻是不同的,不能相互代替需分別建立聲學(xué)語義和語義聲學(xué)的聯(lián)系聲學(xué)語義的聯(lián)系基本原理:利用聲學(xué)模型計(jì)算測試聲音與各已知聲音的相似度,根據(jù)最相似的已知聲音的語義文檔來描述測試聲音具體過程:測試聲音MFCC各GMM對該MFCC的似然度似然度最高的語義文檔可將已知的n種聲音聚類以建立測試聲音與混合聲音語義間的聯(lián)系采用匯合聚類策略歸一化的相似度側(cè)度聚類結(jié)束后,對所產(chǎn)生的層次結(jié)構(gòu)中的所有非葉子節(jié)點(diǎn),都要利用其中包含的所有聲音訓(xùn)練一個(gè)GMM聚合類用在所含子類的描述中出現(xiàn)頻度最高的k個(gè)詞描述語義聲學(xué)的聯(lián)系基本原理:與輸入的語義查詢最相關(guān)的描述所對應(yīng)的聲音是最可能的查詢結(jié)果查詢和描述之間的語義相似度可以通過LSI來計(jì)算對未標(biāo)注的聲音數(shù)據(jù)庫進(jìn)行語義查詢的兩種方法利用與語義查詢最匹配的k個(gè)已知聲學(xué)模型GMM計(jì)算未標(biāo)注聲音X的似然度直接利用MFCC的點(diǎn)分布進(jìn)行計(jì)算在MFCC聲學(xué)空間中,一段聲音是一個(gè)點(diǎn)分布??梢灾苯永酶鱾€(gè)點(diǎn)分布的質(zhì)心之間的距離來估測它們之間的相似性,減小計(jì)算量質(zhì)心之間的距離可用馬氏距離度量音樂檢索是非語音音頻檢索的典型代表,社會(huì)需求十分旺盛哼唱檢索研究較早,已有一些系統(tǒng)推向了商用語義檢索是新興的一種音樂檢索形式音樂中相關(guān)的基本概念(音樂語言的維度)音高(Pitch):聲音的振蕩頻率,將440Hz的聲音定為“A"音強(qiáng)(Intensity):與振動(dòng)的幅度(能量)成正比,也叫響度音色(Timbre):人們能夠感知的與發(fā)音器官或器具的物理性質(zhì)有關(guān),獨(dú)立于音高和音強(qiáng)的聲音特性音長(Duration):一個(gè)音所持續(xù)的時(shí)間長度和聲(Harmony):兩個(gè)以上的聲音按照一定規(guī)律同時(shí)發(fā)生形成的組合節(jié)奏(Rhythm):一個(gè)聲音序列的長短和強(qiáng)弱的變化旋律(Melody):經(jīng)過藝術(shù)構(gòu)思而形成的若干聲音和諧的有節(jié)奏的結(jié)構(gòu),也叫“曲調(diào)”音樂的表現(xiàn)形式及文件格式音樂的表現(xiàn)有創(chuàng)作和表演兩種形式樂譜是音樂作品的基本表現(xiàn)形式,是去除了表演風(fēng)格和方法的“純凈”版本對于同一個(gè)作品,不同的演奏(唱)者存在著風(fēng)格和方法上的差異音樂文件格式符號(hào)格式(Symbolicformat):面向樂譜的表示音頻格式(Audioformat):用于音樂演出的數(shù)字化記錄,常見的格式包括CD、AIFF、WAVE、AU、MP3等樂器數(shù)字接口MIDI(MusicalInstrumentDigitalInterface):是符號(hào)和音頻兩種格式的折衷,主要用于數(shù)字樂器之間的數(shù)據(jù)交換音樂檢索的特征表示旋律和節(jié)奏是最常用的音樂檢索特征旋律的表示絕對法:用字符或數(shù)字對音符的絕對音高、音長進(jìn)行表示相對法:用后一個(gè)音符與前一個(gè)音符的音高之差作為音高的特征向量,而用后一個(gè)音符與前一個(gè)音符的音長的比值作為音長的特征向量輪廓法:常用S(same)、U(up)和D(down)表示一段樂曲中當(dāng)前音符與其前面的音符的相對高低節(jié)奏的表示排除樂曲的旋律,有多種簡單的表示方法。例如分別用a,b,c,d,e,f.?表示八分之一音符、八分之二音符等等音樂檢索的特征提取旋律的提取符號(hào)文件十分易于提取旋律要獲得音頻文件的旋律需要獲得每一幀的音高幀內(nèi)音高提取可分別在時(shí)域和頻域進(jìn)行,時(shí)域有自相關(guān)函數(shù)法、平均幅度差分法等,頻域有和聲乘積頻譜法、倒譜法等節(jié)奏的提取對于絕大多數(shù)流行和搖滾音樂,通常采用“節(jié)拍跟蹤”技術(shù)進(jìn)行節(jié)奏識(shí)別從信號(hào)處理的角度,可以利用信號(hào)幅度包絡(luò)線的周期變化得到相應(yīng)的節(jié)奏信息,具體可通過自相似矩陣或者自相關(guān)函數(shù)得以實(shí)現(xiàn)哼唱檢索通過接收用戶哼唱的一段音樂(歌曲或樂曲)片段來對數(shù)據(jù)庫中的音樂進(jìn)行檢索是一種以聲學(xué)信號(hào)查詢聲學(xué)文檔的檢索,屬于QBE系統(tǒng)哼唱一段旋律或曲調(diào)來查詢音樂是一種自然的易于被用戶理解和接受的檢索方式需解決的關(guān)鍵問題哼唱中旋律、節(jié)奏等關(guān)鍵特征的提取音樂文檔和查詢之間的相似度的計(jì)算對用戶不準(zhǔn)確的哼唱的“容錯(cuò)”提高系統(tǒng)的計(jì)算效率以使檢索可以面對大量音樂文檔若干代表系統(tǒng)MELDEX(新西蘭人開發(fā))面向1萬首民間流行的歌曲采用3級(jí)音高輪廓和節(jié)奏信息表示旋律利用哼唱的前20個(gè)音符進(jìn)行動(dòng)態(tài)規(guī)劃查詢Tunesever(德國人開發(fā))面向1萬首經(jīng)典音樂,1百首流行音樂,1萬5千首民間歌曲和1百首國歌采用3級(jí)音高輪廓表示旋律用口哨查詢MiDiLib(德國人開發(fā))面向2千首MIDI文檔采用大于3級(jí)的音高加節(jié)奏的方式表示旋律用口哨查詢旋律的表示和提取用3級(jí)或5級(jí)音高輪廓線表示旋律3級(jí)表示:U/D/S5級(jí)表示:++/+/0/-/--旋律提取方法將查詢信號(hào)或音樂文檔信號(hào)分割為不同的音符給每個(gè)音符賦予一個(gè)用頻率表示的音高比較相鄰音符的音高,獲得信號(hào)的U/D/S等序列查詢信號(hào)的旋律提取是一個(gè)有難度的問題常要求用戶按限定的方式輸入查詢?nèi)缈谏?、da音、ta音等聲學(xué)信號(hào)的音高提取常采用自相關(guān)函數(shù)法

因?yàn)镽(τ)在基頻的整數(shù)倍處存在較大的峰值查詢與索引的匹配索引:音樂文檔中顯著的容易被人記憶的多個(gè)段落的旋律由于用戶的哼唱常包含錯(cuò)誤,因此查詢與索引的匹配需采用有彈性的方法基于最小編輯距離的動(dòng)態(tài)規(guī)劃方法被普遍應(yīng)用面向3級(jí)輪廓線的遞歸式最小編輯距離計(jì)算方法設(shè)旋律A和B的輪廓線分別為(a1,…,am)和(b1,…,bn),則A和B的子串(a1,…,ai)和(b1,…,bj)之間最小編輯距離為查詢提交及結(jié)果反饋用戶查詢的提交在客戶端錄制用戶的查詢,將其傳到服務(wù)器后進(jìn)行旋律提取在客戶端就完成旋律提取,只向服務(wù)器提交表示旋律的字符序列檢索結(jié)果的反饋按照匹配度從高到低的順序反饋,為了提高用戶的感受度,應(yīng)當(dāng)設(shè)置匹配度閾值基于語義描述的音樂標(biāo)注及檢索CAL500(ComputerAuditionLab500-Song)[Turnbull07]包含500首不同年代不同風(fēng)格的西方流行歌曲每首歌曲至少得到了3個(gè)人的標(biāo)注使用備選的詞匯描述歌曲的風(fēng)格、情感、樂器、音質(zhì)等備選的描述詞237個(gè),標(biāo)注完成后,只取了159個(gè)至少被使用了8次的描述詞構(gòu)成CAL500的詞匯表Turnbull借鑒SML進(jìn)行基于語義描述的音樂標(biāo)注及檢索將CAL500詞匯表中的每個(gè)詞作為一個(gè)類通過包含該詞的歌曲的音頻特征學(xué)習(xí)類模型GMM基于SML的音樂標(biāo)注及檢索系統(tǒng)元素的描述詞匯表用集合V={w1,…,w|V|}表示,其中包含|V|個(gè)描述音樂特征的語義詞,如“喜悅(happy)”、“藍(lán)調(diào)(blues)”“電吉他(electricguitar)”、“假聲(falsetto)”等。標(biāo)注過程:尋找一個(gè)詞的集合A={a1,…,a|A|},ai∈V,來描述一首新歌sq檢索過程:給定一個(gè)查詢詞的集合Q={q1,…,q|Q|},qi∈V,按相關(guān)度由高到低的順序排列r個(gè)歌曲S={s1,…,sr}歌曲的文本描述:y=(y1,…,yi,…,y|v|),如果語義詞wi與被標(biāo)注的歌曲有聯(lián)系,則0<yi≤1,否則yi=0,yi被稱為語義權(quán)重,用來表示語義詞與歌曲之間的聯(lián)系強(qiáng)度一首歌的音頻內(nèi)容:X={x1,…,xi,…,xT},其中xi為從歌曲的一個(gè)片段中抽取的特征向量(MFCCs),T取決于歌曲的長度歌曲標(biāo)注系統(tǒng)詞匯表中的每個(gè)語義詞被看作一個(gè)類,一首歌將被詞匯表中多個(gè)詞賦予標(biāo)簽標(biāo)注的根據(jù)是歌曲音頻特征與語義詞之間的聯(lián)系,這種聯(lián)系可以通過音頻特征的詞似然度函數(shù)P(X|wi),wi∈V來建模利用樸素Ba

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論