語音信號處理 第4版 課件 第8章:說話人識別_第1頁
語音信號處理 第4版 課件 第8章:說話人識別_第2頁
語音信號處理 第4版 課件 第8章:說話人識別_第3頁
語音信號處理 第4版 課件 第8章:說話人識別_第4頁
語音信號處理 第4版 課件 第8章:說話人識別_第5頁
已閱讀5頁,還剩27頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

南京郵電大學(xué)

通信與信息工程學(xué)院

第8章說話人識別說話人識別方法和系統(tǒng)結(jié)構(gòu)基于矢量量化的說話人識別系統(tǒng)基于動態(tài)時(shí)間規(guī)整的說話人確認(rèn)系統(tǒng)基于高斯混合模型的說話人識別系統(tǒng)基于深度學(xué)習(xí)的說話人識別系統(tǒng)8.1說話人識別方法和系統(tǒng)結(jié)構(gòu)—概述自動說話人識別(AutomaticSpeakerRecognition,ASR):是一種自動識別說話人的過程,和語音識別的區(qū)別在于,它不注重包含在語音信號中的文字符號以及語義內(nèi)容信息,而是著眼于包含在語音信號中的個(gè)人特征。目的:從說話人的一段語音中提取出說話人的個(gè)性特征,通過對這些個(gè)人特征的分析和識別,從而達(dá)到對說話人進(jìn)行辨認(rèn)或者確認(rèn)的目的。兩類任務(wù):(1)自動說話人確認(rèn)(AutomaticSpeakerVerification,ASV),系統(tǒng)確認(rèn)是否為一個(gè)人的身份。(2)自動說話人辨認(rèn)(AutomaticSpeakerIdentification,ASI),系統(tǒng)必須辨認(rèn)出識別語音是來自待考察的N個(gè)人中的哪一個(gè)。特點(diǎn):(1)語音按說話人劃分,因而特征空間的界限也應(yīng)按說話人劃分;(2)應(yīng)選用對說話人區(qū)分度大,而對語音內(nèi)容不敏感的特征參量;(3)由于說話人識別的目的是識別出說話人而不是所發(fā)的語音內(nèi)容,故采取的方法也有所不同,包括用以比較的幀和幀長的選定、識別邏輯的制定等。8.1說話人識別方法和系統(tǒng)結(jié)構(gòu)—概述說話人識別系統(tǒng)的結(jié)構(gòu)框如圖所示,主要由預(yù)處理、特征提取、模式匹配和判決等幾大部分組成。建立系統(tǒng)的兩個(gè)階段

·訓(xùn)練階段:系統(tǒng)的每一個(gè)使用者說出若干訓(xùn)練語料,系統(tǒng)根據(jù)這些訓(xùn)練語料,通過訓(xùn)練學(xué)習(xí)建立每個(gè)使用者的模板或模型參數(shù)參考集。

·識別階段:把從待識別說話人說出的語音信號中提取的特征參數(shù),與在訓(xùn)練過程中得到的參考參量集或模型模板加以比較,并且根據(jù)一定的相似性準(zhǔn)則進(jìn)行判定。8.1說話人識別方法和系統(tǒng)結(jié)構(gòu)—說話人識別特征的選取特征選取的準(zhǔn)則:(1)能夠有效地區(qū)分不同的說話人,但又能在同一說話人的語音發(fā)生變化時(shí)相對保持穩(wěn)定。(2)易于從語音信號中提取。(3)不易被模仿。(4)盡量不隨時(shí)間和空間變化。說話人識別中常用的參數(shù):(1)線性預(yù)測參數(shù)及其派生參數(shù)通過對線性預(yù)測參數(shù)進(jìn)行正交變換得到的參量,其中階數(shù)較高的幾個(gè)方差較小,這說明它們實(shí)質(zhì)上與語句的內(nèi)容相關(guān)性小,而反映了說話人的信息。另外,由于這些參數(shù)是對整個(gè)語句平均得到的,所以不需要進(jìn)行時(shí)間上的歸一化,因此可用于與文本無關(guān)的說話人識別。目前,由它推導(dǎo)出的LPC倒譜系數(shù)和差值倒譜系數(shù)是最常用的短時(shí)譜參數(shù),并獲得了較好的識別效果。8.1說話人識別方法和系統(tǒng)結(jié)構(gòu)—說話人識別特征的選?。?)語音頻譜直接導(dǎo)出的參數(shù)語音短時(shí)譜中包含有激勵(lì)源和聲道的特性,因而可以反映說話人生理上的差別。而短時(shí)譜隨時(shí)間變化,又在一定程度上反映了說話人的發(fā)音習(xí)慣,因此,由語音短時(shí)譜中導(dǎo)出的參數(shù)可以有效地用于說話人識別中。常用的參數(shù)包括功率譜、基音輪廓、共振峰及其帶寬、語音強(qiáng)度及其變化等?,F(xiàn)已證實(shí)基音周期及其派生參數(shù)攜帶有較多的個(gè)人信息,但基音容易被模仿,且不穩(wěn)定,最好與其他參數(shù)組合使用。(3)混合參數(shù)為了提高系統(tǒng)的識別率,或是在沒有把握辨明關(guān)鍵參量的情況下,相當(dāng)多的系統(tǒng)采用了混合參量構(gòu)成的矢量。如將“動態(tài)”參量(對數(shù)面積比與基頻隨時(shí)間的變化)與“統(tǒng)計(jì)”分量(由長時(shí)間平均譜導(dǎo)出)相結(jié)合,還有將逆濾波器譜與帶通濾波器譜結(jié)合,或者將線性預(yù)測參數(shù)與基音輪廓結(jié)合等參量組合方法。如果組成矢量的各參量之間的相關(guān)性不大,則效果會很好,因?yàn)樗鼈兎謩e反映了語音信號中不同的特征。8.1說話人識別方法和系統(tǒng)結(jié)構(gòu)—說話人識別特征的選?。?)其他魯棒性參數(shù)包括Mel頻率倒譜系數(shù),以及經(jīng)過噪聲譜減或者信道譜減的去噪倒譜系數(shù)等。綜上所述,常用于說話人識別的特征參數(shù)有:語音短時(shí)能量、基音周期(現(xiàn)已證實(shí)基音周期及其派生參數(shù)攜帶有較多的個(gè)人信息)、語音短時(shí)譜或BPFG特征(包括14~16個(gè)BPF)、線性預(yù)測系數(shù)LPC、共振峰頻率及帶寬、LPC倒譜等,以及反映這些特征動態(tài)變化的線性回歸系數(shù)等,其他的特征參數(shù)還包括鼻音聯(lián)合特征、譜相關(guān)特征、相對發(fā)音速率特征、基音輪廓特征等,另外,也可以對這些特征進(jìn)行變換加工,如K-L變換等,而得到加工后的二次特征。其中,倒譜特征和基音特征是較常用的特征,并獲得了較好的識別效果。8.1說話人識別方法和系統(tǒng)結(jié)構(gòu)—特征參量評價(jià)方法F比原理:識別的效果主要取決于特征參數(shù)的選取,同一說話人的不同的語音會在參數(shù)空間映射出不同的點(diǎn),若對同一說話人這些點(diǎn)分布比較集中,而對不同說話人的分布相距較遠(yuǎn),則選取的參數(shù)就是有效的。因此可以選取兩種分布的方差之比(F

比)作為有效性準(zhǔn)則。F

越大表示越有效,即不同說話人特征量的均值分布越離散越好;而同一說話人的越集中越好。式中,

是指對說話人作平均;是指對某說話人各次的某語音特征作平均;為第i個(gè)說話人的第a

次語音特征;識別是第i個(gè)說話人的各次特征的估計(jì)平均值;而是將所有說話人的平均所得的均值。8.1說話人識別方法和系統(tǒng)結(jié)構(gòu)—特征參量評價(jià)方法多維特征參量有效性評價(jià)(F比推廣):說話人內(nèi)(WithinSpeaker)特征矢量的協(xié)方差矩陣W和說話人間(BetweenSpeakers)特征矢量的協(xié)方差矩陣B分別為其中,和的定義同上,只是對于多維特征得到的是矢量。這樣,我們就可以得到可分性測度(或D

比)的定義所以利用D

比可以評價(jià)多維特征矢量的有效性。8.1說話人識別方法和系統(tǒng)結(jié)構(gòu)—模式匹配方法模式匹配方法:(1)概率統(tǒng)計(jì)方法——利用均值、方差等統(tǒng)計(jì)量和概率密度函數(shù)對穩(wěn)態(tài)特征(基音、聲門增益、低階反射系數(shù))進(jìn)行分類判決。(2)動態(tài)時(shí)間規(guī)整方法(DTW)——基于說話人信息的時(shí)變因素,將識別模板與參考模板進(jìn)行時(shí)間對比,按照某種距離測度得出相似程度。(3)矢量量化方法(VQ)——將每個(gè)人的特定文本訓(xùn)練成碼本,識別時(shí)將測試文本進(jìn)行編碼,以量化產(chǎn)生的失真度作為判決標(biāo)準(zhǔn)。(4)隱馬爾可夫模型方法(HMM)——為每個(gè)說話人建立發(fā)聲模型,通過訓(xùn)練得到狀態(tài)轉(zhuǎn)移概率矩陣和符號輸出概率矩陣。識別時(shí)計(jì)算未知語音在狀態(tài)轉(zhuǎn)移過程中的最大概率,根據(jù)最大概率對應(yīng)的模型進(jìn)行判決。(5)人工神經(jīng)網(wǎng)絡(luò)方法(ANN)——是一種分布式并行處理結(jié)構(gòu)的網(wǎng)絡(luò)模型,在某種程度上模擬生物的感知特性,它具有自組織和自學(xué)習(xí)能力、很強(qiáng)的復(fù)雜分類邊界區(qū)分能力以及對不完全信息的魯棒性,其性能近似理想的分類器。8.1說話人識別方法和系統(tǒng)結(jié)構(gòu)—判別方法和閾值的選擇判別方法:(1)多門限判決使用多個(gè)門限來做出接受還是拒絕的判決,如,用兩個(gè)門限把距離分為三段:如果測試語音與模板的距離低于第一門限,則接受;高于第二門限,則拒絕;若距離處于這兩個(gè)門限之間,則系統(tǒng)要求補(bǔ)充更多的輸入語句再進(jìn)行更精細(xì)的判決。(2)預(yù)分類技術(shù)在說話人辨認(rèn)時(shí),按照某些特征參數(shù)預(yù)先地將待識別的人聚成幾類(如:以平均音調(diào)周期的長短來分類等),在識別時(shí)根據(jù)測試語音的類別,只要用該類的一組候選人的模板參數(shù)匹配,而無需對每個(gè)人的模板進(jìn)行檢查,大大減少了模板匹配所需的次數(shù)和時(shí)間。8.1說話人識別方法和系統(tǒng)結(jié)構(gòu)—判別方法和閾值的選擇門限設(shè)定:在說話人確認(rèn)系統(tǒng)中,確認(rèn)錯(cuò)誤由誤拒率(FalseRejection,F(xiàn)R)和誤受率(FalseAcceptance,F(xiàn)A)來表示,前者是拒絕真實(shí)的聲言者而造成的錯(cuò)誤,又稱Ⅰ型錯(cuò)誤,后者則是把冒名頂替者錯(cuò)認(rèn)為其聲言者引起的錯(cuò)誤,又稱Ⅱ型錯(cuò)誤。門限一般由FR和FA的相等點(diǎn)附近來確定。這兩種錯(cuò)誤率與接受門限的關(guān)系,如圖所示。注:如果FR和FA測試點(diǎn)相等時(shí),會在某一點(diǎn)相交,而實(shí)際實(shí)驗(yàn)中假冒者比真實(shí)者要多,F(xiàn)R和FA往往不會相交,但會接近。此時(shí),可以將此接近點(diǎn)當(dāng)作門限。8.1說話人識別方法和系統(tǒng)結(jié)構(gòu)—說話人識別系統(tǒng)的評價(jià)影響系統(tǒng)性能的因素:(1)FR、FA對于說話人確認(rèn)系統(tǒng)來說,表征其系統(tǒng)性能最重要的兩個(gè)參數(shù)是錯(cuò)誤拒絕率FR和錯(cuò)誤接受率FA。而根據(jù)使用場合的不同,這兩類差錯(cuò)造成的影響也不同。比如,在非常機(jī)密場所的進(jìn)入控制下,應(yīng)該使FA盡量低,以免非法進(jìn)入者造成嚴(yán)重的后果。一般要求FA在0.1%以下,這樣FR就會有所上升,但這可以通過一些輔助手段彌補(bǔ)。在大量使用者利用電話訪問公共數(shù)據(jù)庫的情況下,由于缺少對使用者環(huán)境的控制,F(xiàn)R過高會造成用戶的不滿,但錯(cuò)誤的接受還不至于引起嚴(yán)重的后果,這時(shí)可以把FR定在1%以下,相應(yīng)地FA要略有上升。(2)用戶數(shù)說話人辨認(rèn)與說話人確認(rèn)系統(tǒng)的不同還在于其性能與用戶數(shù)有關(guān)。因?yàn)樗峭ㄟ^把輸入語音的特征與所存儲的每個(gè)合法使用者的參考模型相比較,所以當(dāng)用戶數(shù)增多時(shí),不僅處理時(shí)間變長,而且各用戶之間變得難以區(qū)分,即差錯(cuò)率變大。而對于說話人確認(rèn)系統(tǒng)差錯(cuò)率不隨用戶數(shù)的增加而變化,對它來說,能夠容納的用戶數(shù)是由存儲量決定的。8.1說話人識別方法和系統(tǒng)結(jié)構(gòu)—說話人識別系統(tǒng)的評價(jià)影響系統(tǒng)性能的因素:(3)訓(xùn)練時(shí)間與使用時(shí)間的間隔人的語音會隨著時(shí)間的變化而變化,而且會受到健康和感情等因素的影響,因此隨著訓(xùn)練時(shí)間與使用時(shí)間間隔的加長,系統(tǒng)性能會有所下降,解決方法如下:方法1

在訓(xùn)練時(shí)所取得語音樣本來自不同的時(shí)間,比如相隔幾天或幾周,但這樣會加長訓(xùn)練時(shí)間而且很難要求用戶這樣安排。方法2

在使用過程中不斷更新參考模型,比如在每次成功地識別以后,即把當(dāng)時(shí)說話人的語音提取得到的特征按一定比例加入到原來的參考模板中去,以保證對使用者說話狀態(tài)的跟蹤。說話人識別方法和系統(tǒng)結(jié)構(gòu)基于矢量量化的說話人識別系統(tǒng)基于動態(tài)時(shí)間規(guī)整的說話人確認(rèn)系統(tǒng)基于高斯混合模型的說話人識別系統(tǒng)基于深度學(xué)習(xí)的說話人識別系統(tǒng)8.2基于矢量量化的說話人識別系統(tǒng)系統(tǒng)框圖:實(shí)現(xiàn)該系統(tǒng)的兩個(gè)步驟:一是利用每個(gè)說話人的訓(xùn)練語音,建立參考模型碼本;二是對待識別話者的語音的每一幀和碼本碼字之間進(jìn)行匹配。特點(diǎn):(1)使用VQ碼本保存了說話人個(gè)人特性。(2)在VQ法中模型匹配不依賴于參數(shù)的時(shí)間順序,匹配過程中無須采用DTW技術(shù);而且這種方法比應(yīng)用DTW方法的參考模型存儲量小,即碼本碼字小。8.2基于矢量量化的說話人識別系統(tǒng)基于VQ的說話人識別過程的步驟:(1)訓(xùn)練過程Step1:從訓(xùn)練語音提取特征矢量,得到特征矢量集。Step2:通過LBG算法生成碼本。Step3:重復(fù)訓(xùn)練修正優(yōu)化碼本。Step4:存儲碼本。(2)識別過程Step1:從測試語音提取特征矢量序列Step2:由每個(gè)模板依次對特征矢量序列進(jìn)行矢量量化,計(jì)算各自的平均量化誤差式中,是第i

個(gè)碼本中第l

個(gè)碼本矢量而是待測矢量和碼矢量之間的距離。Step3:選擇平均量化誤差最小的碼本所對應(yīng)的說話人作為系統(tǒng)的識別結(jié)果。說話人識別方法和系統(tǒng)結(jié)構(gòu)基于矢量量化的說話人識別系統(tǒng)基于動態(tài)時(shí)間規(guī)整的說話人確認(rèn)系統(tǒng)基于高斯混合模型的說話人識別系統(tǒng)基于深度學(xué)習(xí)的說話人識別系統(tǒng)8.3基于動態(tài)時(shí)間規(guī)整的說話人確認(rèn)系統(tǒng)系統(tǒng)框圖:特點(diǎn):(1)在結(jié)構(gòu)上基本沿用語音識別的系統(tǒng);(2)利用使用過程中的數(shù)據(jù)修正原模板,即當(dāng)在某次使用過程中某說話人被正確確認(rèn)時(shí)使用此時(shí)的輸入特征對原模板作加權(quán)修改(一般用

1/10加權(quán)),這樣可使模板逐次趨于完善。8.3基于動態(tài)時(shí)間規(guī)整的說話人確認(rèn)系統(tǒng)具體過程:(1)采樣時(shí)間間隔為25ms,所存的字音模板數(shù)為15×16,即15個(gè)說話人各自的16個(gè)規(guī)定音。(2)建立模板時(shí),每個(gè)說話人對各字音各發(fā)音10次再經(jīng)適當(dāng)平均得到上述的各模板。(3)在確認(rèn)過程中,要求待確認(rèn)者在他已知的116個(gè)字音中任選2~4個(gè)。先任選2個(gè)字,將2個(gè)字所得的“計(jì)分”(距離的倒數(shù))相加,若已超過判決邏輯中所設(shè)定的閾值則予以肯定。否則,令待確認(rèn)者另選16個(gè)字中其他字音并將計(jì)分加權(quán)累計(jì),直到共發(fā)4個(gè)字音。若仍未達(dá)到閾值,則給以拒絕。說話人識別方法和系統(tǒng)結(jié)構(gòu)基于矢量量化的說話人識別系統(tǒng)基于動態(tài)時(shí)間規(guī)整的說話人確認(rèn)系統(tǒng)基于高斯混合模型的說話人識別系統(tǒng)基于深度學(xué)習(xí)的說話人識別系統(tǒng)8.4基于高斯混合模型(GMM)的說話人識別系統(tǒng)基本概念高斯混合模型(GaussianMixtureModel,GMM)可以看作一種狀態(tài)數(shù)為1的連續(xù)分布隱馬爾可夫模型。一個(gè)M階混合高斯模型的概率密度函數(shù)是由M個(gè)高斯概率密度函數(shù)加權(quán)求和得到的,所示如下式中,X是一個(gè)D維隨機(jī)向量;是子分布;是混合權(quán)重。每個(gè)子分布是D維的聯(lián)合高斯概率分布,可表示為式中,

是均值向量;

是協(xié)方差矩陣,混合權(quán)重值滿足以下條件:完整的混合高斯模型由參數(shù)均值向量、協(xié)方差矩陣和混合權(quán)重組成,表示為對于給定的時(shí)間序列,利用GMM模型求得的對數(shù)似然度可定義如下:8.4基于高斯混合模型(GMM)的說話人識別系統(tǒng)GMM的參數(shù)估計(jì)方法:最大似然(MaximumLikelihood,ML)估計(jì)對于一組長度為T的訓(xùn)練矢量序列,GMM似然度可表示為由于上式為λ

的非線性函數(shù),難以求出該式的最大值。因此,常常采用

EM(ExpectationMaximization)算法估計(jì)參數(shù)λ

。求最大似然的迭代過程:從參數(shù)λ的一個(gè)初值開始,采用EM算法估計(jì)出一個(gè)新的參數(shù)λ,使得新的模型參數(shù)下的似然度。新的模型參數(shù)再作為當(dāng)前參數(shù)進(jìn)行訓(xùn)練,這樣迭代運(yùn)算直到模型收斂。8.4基于高斯混合模型(GMM)的說話人識別系統(tǒng)GMM的參數(shù)估計(jì)EM算法重估公式:(1)混合權(quán)值的重估公式(2)均值的重估公式(3)協(xié)方差的重估公式其中,分量i的后驗(yàn)概率為8.4基于高斯混合模型(GMM)的說話人識別系統(tǒng)存在問題:在實(shí)驗(yàn)應(yīng)用中,往往得不到大量充分的訓(xùn)練數(shù)據(jù)對模型參數(shù)進(jìn)行訓(xùn)練。由于訓(xùn)練數(shù)據(jù)的不充分,GMM模型的協(xié)方差矩陣的一些分量可能會很小,這些很小的值對模型參數(shù)的似然度函數(shù)影響很大,嚴(yán)重影響系統(tǒng)的性能。解決方法:在EM算法的迭代計(jì)算中,對協(xié)方差的值設(shè)置一個(gè)門限值,在訓(xùn)練過程中令協(xié)方差的值不小于設(shè)定的門限值,否則用設(shè)置的門限值代替。門限值設(shè)置可通過觀察協(xié)方差矩陣來定。8.4基于高斯混合模型(GMM)的說話人識別系統(tǒng)GMM的識別問題在一個(gè)封閉的說話人集合里,說話人辨認(rèn)只需要確認(rèn)該語音屬于語音庫中的哪一個(gè)說話人。在辨認(rèn)任務(wù)中,目的是找到一個(gè)說話者,他對應(yīng)的模型

使得待識別語音特征矢量組X具有最大后驗(yàn)概率。基于GMM的說話人辨認(rèn)系統(tǒng)結(jié)構(gòu)框圖如圖所示。8.4基于高斯混合模型(GMM)的說話人識別系統(tǒng)GMM的識別問題根據(jù)Bayes理論,最大后驗(yàn)概率可表示為在這里其對數(shù)形式為因?yàn)?/p>

的先驗(yàn)概率未知,我們假定該語音信號出自封閉集里的每個(gè)人的可能性相等,也就是說對于一個(gè)確定的觀察值矢量X,P(X)是一個(gè)確定的常數(shù)值,對所有說話人都相等。因此,求取后驗(yàn)概率的最大值可以通過求取

獲得,這樣,辨認(rèn)該語音屬于語音庫中的哪一個(gè)說話人可以表示為其中,為識別出的說話人。說話人識別方法和系統(tǒng)結(jié)構(gòu)基于矢量量化的說話人識別系統(tǒng)基于動態(tài)時(shí)間規(guī)整的說話人確認(rèn)系統(tǒng)基于高斯混合模型的說話人識別系統(tǒng)基于深度學(xué)習(xí)的說話人識別系統(tǒng)8.5基于深度學(xué)習(xí)的說話人識別系統(tǒng)模型結(jié)構(gòu):以百度DeepSpeaker為例,其結(jié)構(gòu)如圖所示。實(shí)現(xiàn)流程:(1)原始語音信號通過基于濾波器組的預(yù)處理,得到語譜圖。(2)將語譜圖輸入深度神經(jīng)網(wǎng)絡(luò)(基于ResCNN搭建,可以緩解非常深的CNN訓(xùn)練)進(jìn)行特征提取,然后通過句子歸一化層(SentenceAverage)、仿射層(Affine)以及長度標(biāo)準(zhǔn)化層(LengthNormalization),將特征映射成說話人的嵌入表征(3)通過三元組(Triplet)損失層,最大化相同說話人間的余弦相似度,同時(shí)最小化不同說話人之間的余弦相似度。8.5基于深度學(xué)習(xí)的說話人識別系統(tǒng)ResCNN結(jié)構(gòu):·每個(gè)殘差塊包含了兩個(gè)卷積核大小為3×3,步長為1的卷積層,每個(gè)塊有一個(gè)恒等結(jié)構(gòu),它是一個(gè)恒等映射?!?個(gè)殘差塊通常被堆疊在一起。當(dāng)通道數(shù)增加時(shí),通過使用一個(gè)單獨(dú)的卷積核大小為5×5,步長為2×2的卷積層,保持頻率的維度始終不變?!ぜせ詈瘮?shù)一般選擇Relu函數(shù)。·ResCNN的輸出被送到句子均值化層,在時(shí)間維度計(jì)算平均:其中,T是語音幀的數(shù)量。·經(jīng)過一個(gè)仿射層將句子特征投影到一個(gè)512維的嵌入表征,并進(jìn)行歸一化,最終計(jì)算出嵌入表征之間的余弦相似度,來判定說話人歸屬。8.5基于深度學(xué)習(xí)的說話人識別系統(tǒng)優(yōu)化目標(biāo):選擇三元組損失作為模型的優(yōu)化目標(biāo)。即將三個(gè)樣本作為輸入:anchor點(diǎn)(來自特定說話人的一句話)、positive點(diǎn)(同一個(gè)說話人說的另一句話)、negative點(diǎn)(不同說話人說的話)。不斷更新anchor點(diǎn)與positive點(diǎn)(anchor-positive,AP)、anchor點(diǎn)與negative點(diǎn)(anchor-negative,AN)之間的余弦相似度,使AP的余弦相似度

大于AN

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論