版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、基于說話人聚類的說話人自適應(yīng)摘要本文提出一種改良的基于模型差異度量的說話人聚類(Speakerlustering)方法,并將該說話人聚類算法結(jié)合最大似然線性回歸算法(axiuLikelihdLinearRegressin,LLR)構(gòu)成整體的說話人自適應(yīng)框架。將該方法應(yīng)用于以音素為識別基元的漢語連續(xù)語音識別系統(tǒng)中,可可以進(jìn)步系統(tǒng)的識別率,較好的滿足快速性和漸進(jìn)性。實(shí)驗(yàn)結(jié)果說明,該方法可以在僅有一句自適應(yīng)數(shù)據(jù)的情況下,使系統(tǒng)字正識率由40.43%進(jìn)步到50.86%。關(guān)鍵詞說話人聚類;說話人自適應(yīng)近年來,語音識別1技術(shù)已經(jīng)日趨成熟,尤其對于特定人的語音識別非常準(zhǔn)確。大量實(shí)驗(yàn)結(jié)果說明,在訓(xùn)練數(shù)據(jù)都很充
2、分而且各方面的條件都一樣時(shí),特定人(SpeakerDependent,SD)識別系統(tǒng)的性能通常好于非特定人(SpeakerIndependent,SI)系統(tǒng)。然而,當(dāng)某個(gè)特定人的訓(xùn)練數(shù)據(jù)受限時(shí),由于缺少可靠估計(jì)模型所需要的足夠多的數(shù)據(jù),SD系統(tǒng)的這種優(yōu)越性就不能得到保證。說話人自適應(yīng)就是在一個(gè)針對原說話人充分訓(xùn)練的SD系統(tǒng)中,或是一個(gè)對許多說話者充分訓(xùn)練的SI系統(tǒng)中參加少量新說話人的訓(xùn)練語音數(shù)據(jù),通過一定的算法使新老數(shù)據(jù)結(jié)合,從而使系統(tǒng)的識別率接近于對新說話人經(jīng)過充分訓(xùn)練的SD系統(tǒng)的程度?;谡f話人聚類的說話人自適應(yīng)是說話人自適應(yīng)技術(shù)的一種2,就是將原有的訓(xùn)練數(shù)據(jù)按照一定的算法聚類,識別時(shí)選取
3、待識別語音所屬類別的模板進(jìn)展匹配,可以擴(kuò)大適用人群,進(jìn)步系統(tǒng)性能。2主要自適應(yīng)算法說話人聚類是直接根據(jù)說話人的某種特性或者根據(jù)某種度量,將訓(xùn)練集中的說話人根據(jù)其語音特性分成假設(shè)干個(gè)子集,每一個(gè)子集內(nèi)的說話人都具有某種度量意義下的相似性,然后專門為每個(gè)子集訓(xùn)練聲學(xué)模型,從而得到一組離散度和混疊度較小的說話人聚類Speakerlustering,S模型;測試時(shí),先判斷待測試的語音屬于哪一個(gè)說話人子集,然后用這個(gè)子集的聲學(xué)模型來進(jìn)展測試3。應(yīng)用較為廣泛的是基于說話人特性的和基于模型間隔 的聚類方法:說話人特性包括說話人的性別、年齡、口音等。這種方法利用先驗(yàn)的說話人的特性,在滿足模型訓(xùn)練量的條件下,將
4、說話人分到更小的子集合中。一個(gè)最常用的例子就是按性別將說話人進(jìn)展分類。這種方法通常需要先驗(yàn)知識,也就通常離不開人工干預(yù)。的說話人聚類方法直接根據(jù)不同說話人對應(yīng)的聲學(xué)模型間的間隔 來進(jìn)展聚類。首先根據(jù)某種模型間隔 度量方法,建立模型間的間隔 矩陣,然后完成基于間隔 矩陣的聚類,其中的關(guān)鍵是聲學(xué)模型間間隔 的度量方法。高斯混合模型Gaussianixturedel,G是基于模型間隔 說話人聚類常用的模型,G的概率密度分布函數(shù)是由個(gè)高斯概率密度函數(shù)加權(quán)求和而得到的,如式(1)所示:1其中是觀測值x在某個(gè)G模型下的概率密度函數(shù)。x是k維的隨機(jī)向量,是高斯混元的權(quán)值。是第i個(gè)單高斯分布概率密度函數(shù),如(
5、2)式:2對高斯混合模型而言,模型間隔 的定義最終可以歸入分布間的間隔 衡量。其中常用的有如下幾種:歐式間隔 (EulideanDistane):3馬氏間隔 ahalanbisDistane4巴特查里亞間隔 BhattaharyyaDistane5其中,表示兩個(gè)多維高斯分布,為兩個(gè)分布的均值向量,表示兩個(gè)分布的協(xié)方差矩陣。最大似然線性回歸法(axiuLikelihdLinearRegressin,LLR)是一種基于變換的方法,它采用一組變換描繪從初始模型到說話人自適應(yīng)(SpeakerAdaptatin,SA)后模型的變換關(guān)系,另外LLR還能對不同的信道及附加噪聲有一定補(bǔ)償作用。一般認(rèn)為不同說話
6、人之間的差異主要表如今均值矢量上,式(6)為均值轉(zhuǎn)換的估計(jì)式。6其中是混合成份s的轉(zhuǎn)移矩陣,是自適應(yīng)后的均值后的均值向量,是混合成分s的擴(kuò)展均值向量,其定義如下:7可以將一個(gè)G的參數(shù)看作一組語音特征,考察這組特征在另一個(gè)G中的輸出概率。用輸出概率來衡量兩個(gè)模型間的間隔 4。其方法如下:把GA的個(gè)混元的均值向量當(dāng)作個(gè)觀測向量,計(jì)算這個(gè)觀測矢量在GB下的概率。類似地,計(jì)算GB的個(gè)混元的均值向量在GA下的概率。定義GA和GB的單邊加權(quán)似然度為:8其中,Ai表示GA第i個(gè)混元的權(quán)值,Ai表示第i個(gè)混元的均值向量,表示GA第i個(gè)混元的均值向量在GB下的概率,同理可得GB和GA的單邊加權(quán)似然度:考慮到對稱
7、的因素,本文進(jìn)一步定義GA和GB的加權(quán)穿插似然比為:9選擇好聚類測度后,一般采用自底向上的方法對備選說話人G進(jìn)展聚類,合并的過程為選擇間隔 最小的兩個(gè)進(jìn)展合并,直到得到需要的類數(shù)為止。4實(shí)驗(yàn)內(nèi)容及結(jié)果分析4.1實(shí)驗(yàn)系統(tǒng)構(gòu)成實(shí)驗(yàn)基于漢語大詞匯量連續(xù)語音識別系統(tǒng),在聲學(xué)層上進(jìn)展。語音特征參數(shù)采用梅爾頻標(biāo)倒譜參數(shù)(elfrequenyepstrueffiient,F(xiàn)),共16維。聲學(xué)模型建立有調(diào)的三元音子模型,識別時(shí)測試每句話的漢字識別正確性。實(shí)驗(yàn)系統(tǒng)所用到的訓(xùn)練語音庫是中科院訓(xùn)練語音庫,其中女性說話人有148位,每位100句話;相應(yīng)的測試語音庫分別包含女說話人20位,每個(gè)說話人都是20句測試語音。
8、測試語音庫都同其對應(yīng)的訓(xùn)練語音庫是環(huán)境匹配的,這樣可以排除因?yàn)榄h(huán)境差異帶來的自適應(yīng)性能提升,更加準(zhǔn)確地反映說話人聚類的算法效果。全部實(shí)驗(yàn)的自適應(yīng)訓(xùn)練和測試語音長度約為2到3s,實(shí)驗(yàn)以這148位說話人語音訓(xùn)練的SI模型作為基線系統(tǒng)。實(shí)驗(yàn)的根本流程為:首先,對訓(xùn)練語音庫中的所有說話人訓(xùn)練出一個(gè)基于H的SI整體模型,再對庫中每位參考說話人進(jìn)展單個(gè)的G模型訓(xùn)練,然后用訓(xùn)練出的所有G模型進(jìn)展說話人聚類,利用聚類后的語料重新訓(xùn)練每一類的G模型。對這些新說話人的自適應(yīng)語音數(shù)據(jù)作相似性判決,從中選出與每個(gè)新說話人最為近似的參考類,最后根據(jù)這些參考類的語音特征運(yùn)用一定的自適應(yīng)算法對SI模型的部分參數(shù)進(jìn)展修正,合
9、成出新說話人的自適應(yīng)模型。實(shí)驗(yàn)流程如圖1所示。圖1基于差異度量的的說話人自適應(yīng)SA系統(tǒng)實(shí)現(xiàn)流程圖4.2實(shí)驗(yàn)數(shù)據(jù)及結(jié)果分析表1參考類別數(shù)量對識別的影響漢字正識率SI3類5類7類9類SDP140.4350.8652.4356.9846.2458.46P244.4354.8650.2757.4851.1460.87P342.3548.8650.9652.3748.5658.43P446.7850.8653.2956.9951.3659.77P541.2950.8952.7655.9846.7459.23P641.6647.7651.4952.9846.1461.23實(shí)驗(yàn)一:對于不同的測試說話人,考察
10、似然判決選出的參考類數(shù)量對最后識別結(jié)果的影響,P1等分別表示不同的測試說話人,自適應(yīng)語料都為三句。實(shí)驗(yàn)結(jié)果如表1所示。從表1中可以看出,隨著參考說話人數(shù)量的增加,對于不同的測試說話人,其識別性能都有明顯進(jìn)步。但也可以發(fā)現(xiàn),當(dāng)參考說話人數(shù)量超過7類時(shí),其識別性能反而有所下降。其原因是:隨著參考類的增加,說話人之間的差異也會(huì)明顯增加,這種差異有可能抵消根據(jù)相似性選擇出來的類之間對于特定的測試說話人的近似性。表2新說話人自適應(yīng)數(shù)據(jù)量的不同對識別效果的影響漢字正識率3句5句10句P156.9857.4557.64P257.4857.4358.02P352.3753.4453.67P456.9957.5
11、657.74P555.9856.2356.43P652.9853.4353.60實(shí)驗(yàn)二:選擇的類的數(shù)據(jù)量的不同對識別效果的影響。參考類固定在7類。從表2中可以看出,隨著新說話人自適應(yīng)語料數(shù)量的增加,識別率有一定的上升,但增長不大,其原因可歸結(jié)為,用于類選擇的G模型在充分訓(xùn)練的根底上具有一定的穩(wěn)健性.本文主要研究了在構(gòu)建說話人自適應(yīng)模型的過程中參加基于差異度量的說話人聚類后的識別效果。可以得出以下結(jié)論:1G模型雖然具有計(jì)算量小,速度快等優(yōu)點(diǎn),但它不能準(zhǔn)確地描繪說話人語音信號的產(chǎn)生過程,因此在構(gòu)建SA模型中不能被用于合成新說話人的語音模型,只能在挑選近似說話人時(shí)起到充分的作用。2似然判決后選出的參考類的數(shù)量對自適應(yīng)模型的性能有相當(dāng)?shù)挠绊懀弘S著這個(gè)數(shù)量的加大,我們可以看到SA的識別性能在逐漸向SD系統(tǒng)靠攏,這說明在各方面條件一樣的情況下,供選擇的參考類數(shù)量的多少是決定SA系統(tǒng)性能的一個(gè)因素,但同時(shí)我們也可以看到,并不是說這個(gè)數(shù)量越大識別性能就越好,因?yàn)檎f話人之間的差異也是
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度能源項(xiàng)目合同財(cái)產(chǎn)保全擔(dān)保書范本3篇
- 2025年度個(gè)人裝修貸款協(xié)議書3篇
- 二零二五年度60歲以上人員社區(qū)教育輔導(dǎo)勞動(dòng)合同模板3篇
- 2024-2025學(xué)年新教材高中政治第3單元就業(yè)與創(chuàng)業(yè)單元綜合提升教案新人教版選擇性必修2
- 2025版智能交通管理系統(tǒng)建設(shè)運(yùn)營履約擔(dān)保合同4篇
- 2025年度噴灌系統(tǒng)節(jié)能改造技術(shù)合同4篇
- 2025年度在線教育平臺兼職外教遠(yuǎn)程教學(xué)合同4篇
- 2025年度宿舍管理員職業(yè)發(fā)展規(guī)劃聘用合同
- 二零二五年度駕校教練員職業(yè)發(fā)展承包合同3篇
- 2025年度馬賽克材料研發(fā)與應(yīng)用采購合同4篇
- C及C++程序設(shè)計(jì)課件
- 帶狀皰疹護(hù)理查房
- 公路路基路面現(xiàn)場測試隨機(jī)選點(diǎn)記錄
- 平衡計(jì)分卡-化戰(zhàn)略為行動(dòng)
- 國家自然科學(xué)基金(NSFC)申請書樣本
- 幼兒教師干預(yù)幼兒同伴沖突的行為研究 論文
- 湖南省省級溫室氣體排放清單土地利用變化和林業(yè)部分
- 材料設(shè)備驗(yàn)收管理流程圖
- 培訓(xùn)機(jī)構(gòu)消防安全承諾書范文(通用5篇)
- (完整版)建筑業(yè)10項(xiàng)新技術(shù)(2017年最新版)
- 第8期監(jiān)理月報(bào)(江蘇版)
評論
0/150
提交評論