神經(jīng)網(wǎng)絡(luò)與話者識(shí)別_第1頁
神經(jīng)網(wǎng)絡(luò)與話者識(shí)別_第2頁
神經(jīng)網(wǎng)絡(luò)與話者識(shí)別_第3頁
神經(jīng)網(wǎng)絡(luò)與話者識(shí)別_第4頁
神經(jīng)網(wǎng)絡(luò)與話者識(shí)別_第5頁
已閱讀5頁,還剩24頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

神經(jīng)網(wǎng)絡(luò)與話者識(shí)別第1頁/共29頁話者識(shí)別人工神經(jīng)網(wǎng)絡(luò)BP網(wǎng)絡(luò)RBF網(wǎng)絡(luò)第2頁/共29頁TextTextText話者識(shí)別話者識(shí)別屬于生物特征識(shí)別技術(shù)的一種,是一項(xiàng)根據(jù)語音信號(hào)中反映說話人生理和行為特征的語音參數(shù),自動(dòng)識(shí)別說話人身份的技術(shù)。與語音識(shí)別不同的是,聲紋識(shí)別利用的是語音信號(hào)中的說話人信息,而不考慮語音中的字詞意思,它強(qiáng)調(diào)說話人的個(gè)性;而語音識(shí)別的目的是識(shí)別出語音信號(hào)中的言語內(nèi)容,并不考慮說話人是誰,它強(qiáng)調(diào)共性。話者識(shí)別系統(tǒng)主要包括兩部分,即特征檢測(cè)和模式匹配。特征檢測(cè)的任務(wù)是選取唯一表現(xiàn)說話人身份的有效且穩(wěn)定可靠的特征,模式匹配的任務(wù)是對(duì)訓(xùn)練和識(shí)別時(shí)的特征模式做相似性匹配。第3頁/共29頁話者識(shí)別分類話者識(shí)別話者辨認(rèn)話者確認(rèn)固定文本系統(tǒng)自由文本系統(tǒng)第4頁/共29頁話者辨認(rèn)語音特征提取相似度參考模型(話者#1)最大選擇辨識(shí)結(jié)果(話者ID)相似度參考模型(話者#2)相似度參考模型(話者#N)第5頁/共29頁話者確認(rèn)語音特征提取相似度參考模型(話者#M)相似度閾值話者ID(#M)確認(rèn)結(jié)果(接受或拒絕)第6頁/共29頁模式匹配welcometousethesePowerPointtemplates,NewContentdesign,10yearsexperience模式匹配的方法目前說話人識(shí)別技術(shù)主流方法大致有:1)基于模板模型的方法(動(dòng)態(tài)時(shí)間歸正法DTW和矢量量化法VQ);2)基于概率模型的方法(隱馬爾可夫模型法HMM和高斯混合模型法GMM);3)基于人工神經(jīng)網(wǎng)絡(luò)(ArtificialNeuralNetwork,ANN)的方法;4)基于支持向量機(jī)(SupportVectorMachine,SVM)的方法;5)融合方法(利用各種方法的優(yōu)點(diǎn)進(jìn)行融合)。第7頁/共29頁人工神經(jīng)網(wǎng)絡(luò)基于ANN的語音識(shí)別系統(tǒng)通常由神經(jīng)元、訓(xùn)練算法及網(wǎng)絡(luò)結(jié)構(gòu)等三大要素構(gòu)成。ANN采用了并行處理機(jī)制、非線性信息處理機(jī)制和信息分布存貯機(jī)制等多方面的現(xiàn)代信息技術(shù)成果,因此,具有高速的信息處理能力,并且有著較強(qiáng)的適應(yīng)和自動(dòng)調(diào)節(jié)能力,在訓(xùn)練過程中能不斷調(diào)整自身的參數(shù)權(quán)值和拓?fù)浣Y(jié)構(gòu),以適應(yīng)環(huán)境的和系統(tǒng)性能優(yōu)化的需求,在模式識(shí)別中有著速度快、識(shí)別率高等顯著特點(diǎn),第8頁/共29頁人工神經(jīng)網(wǎng)絡(luò)的發(fā)展人工神經(jīng)網(wǎng)絡(luò)的研究始于40年代初。半個(gè)世紀(jì)以來,經(jīng)歷了興起、高潮與蕭條、高潮及穩(wěn)步發(fā)展的遠(yuǎn)為曲折的道路。1943年,心理學(xué)家W.S.Mcculloch和數(shù)理邏輯學(xué)家W.Pitts提出了M—P模型。1949年,心理學(xué)家D.O.Hebb提出突觸聯(lián)系可變的假設(shè),根據(jù)這一假設(shè)提出的學(xué)習(xí)規(guī)律為神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)算法奠定了基礎(chǔ)。1957年,計(jì)算機(jī)科學(xué)家Rosenblatt提出了著名的感知機(jī)模型。1960年,B.Windrow和E.Hoff提出了自適應(yīng)線性單元,它可用于自適應(yīng)濾波、預(yù)測(cè)和模式識(shí)別。1968年一本名為《感知機(jī)》的著作中指出線性感知機(jī)功能是有限的,它不能解決如異或這樣的基本問題,而且多層網(wǎng)絡(luò)還不能找到有效的計(jì)算方法。60年代末期,人工神經(jīng)網(wǎng)絡(luò)的研究進(jìn)入了低潮。80年代初期,模擬與數(shù)字混合的超大規(guī)模集成電路制作技術(shù)提高到新的水平,完全付諸實(shí)用化,美國的物理學(xué)家Hopfield于1982年、1984年在美國科學(xué)院院刊上發(fā)表了兩篇關(guān)于人工神經(jīng)網(wǎng)絡(luò)研究的論文,引起了巨大的反響。人們重新認(rèn)識(shí)到神經(jīng)網(wǎng)絡(luò)的威力以及付諸應(yīng)用的現(xiàn)實(shí)性。第9頁/共29頁神經(jīng)網(wǎng)絡(luò)模型神經(jīng)元神經(jīng)元是神經(jīng)網(wǎng)絡(luò)的基本計(jì)算單元,一般是一種多個(gè)輸入和一個(gè)輸出的非線性單元,可以有反饋輸入和閉值參數(shù)神經(jīng)網(wǎng)絡(luò)連接方式前饋型網(wǎng)絡(luò)反饋性網(wǎng)絡(luò)第10頁/共29頁神經(jīng)網(wǎng)絡(luò)的連接方式在前饋型網(wǎng)絡(luò)中,各神經(jīng)元接受前一層的輸入,并輸出給下一層,沒有反饋。連接點(diǎn)分為兩類,即輸入單元和計(jì)算單元。每一個(gè)計(jì)算單元可以有任意n個(gè)輸入但只有一個(gè)輸出,它可禍合到任意多個(gè)其它結(jié)點(diǎn)作為輸入。通常前饋網(wǎng)絡(luò)分為不同的層,第l層的輸入只與第卜l層的輸出相連,輸入和輸出結(jié)點(diǎn)與外界相連,而其它中間層則稱之為隱層。根據(jù)隱層的層數(shù),還可以再分為單層連接方式、多層連接方式。第11頁/共29頁神經(jīng)網(wǎng)絡(luò)的連接方式

在反饋型網(wǎng)絡(luò)中,可以看成包含一個(gè)單層的神經(jīng)元,所有神經(jīng)元結(jié)點(diǎn)都是計(jì)算單元,同時(shí)也可接受輸入,并向外界輸出。這種網(wǎng)絡(luò)可以畫成一個(gè)無向圖,其中每條連接線都是雙向的。反饋型網(wǎng)絡(luò)的輸出由當(dāng)前輸入和先前的輸出,以及網(wǎng)絡(luò)參數(shù)和結(jié)構(gòu)決定,因此顯示出短期一記憶的性質(zhì)。HoPfield網(wǎng)絡(luò)就是反饋型網(wǎng)絡(luò)的代表。第12頁/共29頁典型神經(jīng)網(wǎng)絡(luò)模型1)感知機(jī)2)線性神經(jīng)網(wǎng)絡(luò)3)BP網(wǎng)絡(luò)4)徑向基函數(shù)網(wǎng)絡(luò)5)自組織網(wǎng)絡(luò)6)反饋網(wǎng)絡(luò)第13頁/共29頁BP神經(jīng)網(wǎng)絡(luò)BP(BackPropagation)網(wǎng)絡(luò)是1986年由Rumelhart和McCelland為首的科學(xué)家小組提出,是一種按誤差逆?zhèn)鞑ニ惴ㄓ?xùn)練的多層前饋網(wǎng)絡(luò),是目前應(yīng)用最廣泛的神經(jīng)網(wǎng)絡(luò)模型之一。多層BP神經(jīng)網(wǎng)絡(luò)模型的拓?fù)浣Y(jié)構(gòu)如圖所示。由圖可見,它由輸入層、中間層和輸出層組成。其中,中間層也叫隱含層,它可以是一層或多層。。第14頁/共29頁BP網(wǎng)絡(luò)標(biāo)準(zhǔn)學(xué)習(xí)算法網(wǎng)絡(luò)結(jié)構(gòu):輸入層有n個(gè)神經(jīng)元,隱含層有p個(gè)神經(jīng)元,輸出層有q個(gè)神經(jīng)元。輸入向量:隱含層輸入向量隱含層輸出向量輸出層輸入向量輸出層輸出向量期望輸出向量輸入層與中間層的連接權(quán)值隱含層個(gè)神經(jīng)元的閾值隱含層與輸出層的連接權(quán)值輸出層個(gè)神經(jīng)元的閾值樣本數(shù)據(jù)個(gè)數(shù)K=1,2,...,m激活函數(shù)f(.)s型函數(shù)誤差函數(shù)第15頁/共29頁BP算法基本流程初始化網(wǎng)絡(luò)權(quán)值和神經(jīng)元的閾值(最簡單的辦法就是隨機(jī)初始化)。前向傳播:按照公式一層一層的計(jì)算隱層神經(jīng)元和輸出層神經(jīng)元的輸入和輸出。后向傳播:根據(jù)公式修正權(quán)值和閾值。第16頁/共29頁BP網(wǎng)絡(luò)標(biāo)準(zhǔn)學(xué)習(xí)算法第一步,網(wǎng)絡(luò)初始化給各連接權(quán)值分別賦一個(gè)區(qū)間(-1,1)內(nèi)地隨機(jī)數(shù),設(shè)定誤差函數(shù)e,給定計(jì)算精度值和最大學(xué)習(xí)次數(shù)M第二步,隨機(jī)選取第k個(gè)輸入樣本及對(duì)應(yīng)期望輸出第三步,計(jì)算隱含層各神經(jīng)網(wǎng)絡(luò)的輸入和輸出h=1,...,po=1,...,q第17頁/共29頁BP網(wǎng)絡(luò)標(biāo)準(zhǔn)學(xué)習(xí)算法第四步,利用網(wǎng)絡(luò)期望輸出和實(shí)際輸出,計(jì)算誤差函數(shù)對(duì)輸出層的個(gè)神經(jīng)元的偏導(dǎo)數(shù)第五步,利用隱含層到輸出層的連接權(quán)值、輸出層的和隱含層的輸出計(jì)算誤差函數(shù)對(duì)隱含層個(gè)神經(jīng)元的偏導(dǎo)數(shù)第六步,利用輸出層各神經(jīng)元的和隱含層個(gè)神經(jīng)元的輸出來修正連接權(quán)值第18頁/共29頁BP網(wǎng)絡(luò)標(biāo)準(zhǔn)學(xué)習(xí)算法第七步,利用隱含層個(gè)神經(jīng)元的和輸入層個(gè)神經(jīng)元的輸入修正連結(jié)權(quán)。第八步,計(jì)算全局誤差第19頁/共29頁BP網(wǎng)絡(luò)標(biāo)準(zhǔn)學(xué)習(xí)算法第九步,判斷網(wǎng)絡(luò)誤差是否滿足要求。當(dāng)誤差達(dá)到預(yù)設(shè)精度或?qū)W習(xí)次數(shù)大于設(shè)定的最大次數(shù),則結(jié)束算法。否則,選取下一個(gè)學(xué)習(xí)樣本及對(duì)應(yīng)的期望輸出,返回到第三步,進(jìn)入下一輪學(xué)習(xí)。第20頁/共29頁BP網(wǎng)絡(luò)的優(yōu)點(diǎn)1)非線性映射能力:神經(jīng)網(wǎng)絡(luò)能以任意精度逼近任何非線性連續(xù)函數(shù)2)并行分布處理方式:信息存儲(chǔ)在神經(jīng)元之間的連接上,從單個(gè)權(quán)值中看不出存儲(chǔ)信息的內(nèi)容,這種分布儲(chǔ)存和并行處理使它具有很強(qiáng)的容錯(cuò)性和很快的處理速度。3)自學(xué)習(xí)和自適應(yīng)能力:神經(jīng)網(wǎng)絡(luò)在訓(xùn)練時(shí),能從輸入、輸出的數(shù)據(jù)中提取出規(guī)律性的知識(shí),一記憶于網(wǎng)絡(luò)的權(quán)值中,并具有泛化能力,即將這組權(quán)值應(yīng)用于一般情形的能力.5)容錯(cuò)能力:由于信息被分布存放在幾乎整個(gè)網(wǎng)絡(luò)中,當(dāng)其中的某一個(gè)點(diǎn)或者某幾個(gè)點(diǎn)被破壞時(shí)信息仍然可以被存取。系統(tǒng)在受到局部損傷時(shí)還可以正常工作。第21頁/共29頁BP網(wǎng)絡(luò)的缺點(diǎn)1)BP網(wǎng)絡(luò)是一個(gè)非線性優(yōu)化問題,這不可避免地存在局部極小問題。網(wǎng)絡(luò)的極值通過沿局部改善的方向一步一步進(jìn)行調(diào)整,力圖達(dá)到使誤差函數(shù)E最小化的全局解,但實(shí)際上常得到的是局部極小點(diǎn)。2)BP算法收斂速度很慢。學(xué)習(xí)過程中,下降慢,學(xué)習(xí)速度緩,易出現(xiàn)一個(gè)長時(shí)間的誤差平坦區(qū),即出現(xiàn)平臺(tái)。(3)BP網(wǎng)絡(luò)結(jié)構(gòu)選擇不一,網(wǎng)絡(luò)過大,在訓(xùn)練中效率不高,而月.還有可能由于過擬合造成網(wǎng)絡(luò)性能脆弱,容錯(cuò)性下降,浮點(diǎn)溢出,而太小的網(wǎng)絡(luò)可能根本不收斂。第22頁/共29頁RBF神經(jīng)網(wǎng)絡(luò)

徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)是由J.Moody和C.Darken在80年代末提出的一種神經(jīng)網(wǎng)絡(luò),它是一種具有單隱層的三層前饋網(wǎng)絡(luò),它模擬了人腦中局部調(diào)整,相互覆蓋接受域的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),因此,RBF是一種局部逼近網(wǎng)絡(luò),它能夠以任意精度逼近任意連續(xù)函數(shù),特別適用于解決分類問題。全局逼近網(wǎng)絡(luò):當(dāng)神經(jīng)網(wǎng)絡(luò)的一個(gè)或多個(gè)可調(diào)參數(shù)(權(quán)值或閾值)對(duì)任何一個(gè)輸出都有影響。局部逼近網(wǎng)絡(luò):對(duì)網(wǎng)絡(luò)輸入空間的某個(gè)局部區(qū)域只有少數(shù)幾個(gè)連接權(quán)影響網(wǎng)絡(luò)的輸出。第23頁/共29頁RBF神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

RBF網(wǎng)絡(luò)的結(jié)構(gòu)與多層前向網(wǎng)絡(luò)相似,它是一種三層前向網(wǎng)絡(luò)。第一層即輸入層有信號(hào)源節(jié)點(diǎn)組成;第二層為隱含層,隱單元數(shù)視所描述的問題的需要而定,隱單元的變換函數(shù)為徑向基函數(shù),它是對(duì)稱中心徑向?qū)ΨQ且衰減的非線性函數(shù);第三層為輸出層,節(jié)點(diǎn)激活函數(shù)為線性函數(shù)。它對(duì)輸入模式的作用作出響應(yīng)。由于輸入到輸出的映射是非線性的,而隱含層空間到輸出空間的映射是線性的,從而可以大大加快學(xué)習(xí)速度并避免局部極小問題第24頁/共29頁RBF網(wǎng)絡(luò)工作原理函數(shù)逼近:以任意精度逼近任一連續(xù)函數(shù)。一般函數(shù)都可以表示成一組基函數(shù)的線性組合。RBF網(wǎng)絡(luò)相當(dāng)于用隱層單元的輸出構(gòu)成一組基函數(shù),然后用輸出層來進(jìn)行線性組合,完成逼近功能。分類:解決非線性可分問題,RBF網(wǎng)絡(luò)用隱層單元先將非線性可分的輸入空間變換到線性可分的特征空間,然后用輸出層來進(jìn)行線性劃分,完成分類功能。第25頁/共29頁RBF的特點(diǎn)1)前向網(wǎng)絡(luò);2)RBF網(wǎng)絡(luò)的作用函數(shù)為高斯函數(shù),是局部的,BP網(wǎng)絡(luò)的作用函數(shù)是S函數(shù),是全局的。3)如何確定RBF網(wǎng)絡(luò)隱層節(jié)點(diǎn)的中心及基寬度參數(shù)是一個(gè)困難問題4)RBF網(wǎng)絡(luò)具有唯一最佳逼近的特性,且無局部極小。第26頁/共29頁神經(jīng)網(wǎng)絡(luò)在話者識(shí)別中存在的問題

用于說話人識(shí)別的人工神經(jīng)網(wǎng)絡(luò)大部分集中在多層感知器結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)上,如反向傳播人工神經(jīng)網(wǎng)絡(luò)、人工神經(jīng)預(yù)測(cè)網(wǎng)絡(luò)、徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)、時(shí)間延遲人工神經(jīng)網(wǎng)絡(luò)等。說話人識(shí)別中,待識(shí)人群往往很大。隨著待識(shí)人群數(shù)目的增加。說話人特征分布間重疊區(qū)域增加,說話人識(shí)別率將降低。換句話說,在識(shí)別過程中不可避免地存在著說話人特征參數(shù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論