一種基于機(jī)器視覺的種族識(shí)別系統(tǒng)算法分析

上傳人：1*** IP屬地：廣東上傳時(shí)間：2023-09-01 格式：DOCX 頁數(shù)：4 大小：40.08KB 積分：12 舉報(bào) 版權(quán)申訴

全文預(yù)覽已結(jié)束

 下載本文檔

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

一種基于機(jī)器視覺的種族識(shí)別系統(tǒng)算法分析

電信網(wǎng)絡(luò)下的語言識(shí)別系統(tǒng)需要時(shí)間需求。現(xiàn)在，基于實(shí)驗(yàn)室環(huán)境的通用系統(tǒng)平臺(tái)不足，因此很難滿足體積和大規(guī)模處理的需求。1gsv的測(cè)試基于GSV-SVM的語種識(shí)別系統(tǒng)a)前段特征提取。它包括語音信號(hào)預(yù)處理和特征參數(shù)提取兩個(gè)階段b)后端分類識(shí)別。它包括模型訓(xùn)練和待測(cè)語音分類判決兩個(gè)階段。訓(xùn)練階段需訓(xùn)練用于產(chǎn)生GMM模型的通用背景模型(universalbackgroundmodel,UBM)測(cè)試時(shí),按上述相同方法得到測(cè)試語音段的GSV,然后將其輸入到已訓(xùn)練好的SVM中進(jìn)行分類判決。SVM的核函數(shù)采用度量GMM距離的Kullback-Leibler核函數(shù)(K-L核)其中:根據(jù)上述描述可知,2單片再生過程設(shè)計(jì)由于語種模型訓(xùn)練可由訓(xùn)練語料離線進(jìn)行,因此本文提出的多路實(shí)時(shí)語種識(shí)別系統(tǒng)是針對(duì)測(cè)試階段的實(shí)際應(yīng)用場(chǎng)景提出的。此系統(tǒng)的總體架構(gòu)如圖3所示。其中,DSP選用TI公司提供的TMS320C6455如圖3所示,本系統(tǒng)設(shè)計(jì)可分為前端DSP處理部分和后端FPGA設(shè)計(jì)部分。其中,系統(tǒng)前端特征提取部分采用浮點(diǎn)DSP實(shí)現(xiàn),輸出的是45維語音特征參數(shù),而后端部分采用FPGA定點(diǎn)設(shè)計(jì)實(shí)現(xiàn)。各個(gè)模塊之間相互關(guān)系如下:在系統(tǒng)初始化階段,UBM、SVM、轉(zhuǎn)換矩陣及錨超矩陣等相關(guān)模型參數(shù)在訓(xùn)練階段得到,均由計(jì)算機(jī)離線完成,并首先存儲(chǔ)于計(jì)算機(jī)上。在測(cè)試時(shí),由于這些參數(shù)需要的模板數(shù)目較大,難以在FPGA片上進(jìn)行存儲(chǔ),因此將其選擇存儲(chǔ)于片外的DDR2上。這樣就需要對(duì)DDR2的接口時(shí)序和訪問機(jī)制進(jìn)行研究和設(shè)計(jì)。基于此,本文引入一種基于MicroBlaze接口核MPMC(multi-portmemorycontroller)在對(duì)一段語音進(jìn)行測(cè)試時(shí),其測(cè)試流程如下:a)從電信網(wǎng)中獲取該語料,將該段語料送入到前端特征提取模塊進(jìn)行浮點(diǎn)DSP運(yùn)算,得到該語料的聲學(xué)特征參數(shù),并將得到的聲學(xué)特征參數(shù)由EMIF接口送入FPGA的外部通信單元;b)外部通信單元?jiǎng)t根據(jù)總線復(fù)用情況,將這些特征送入GSV生成模塊以計(jì)算GSV;c)將其經(jīng)由總線管理單元和DDR2接口存儲(chǔ)于DDR2的制定位置中;d)特征轉(zhuǎn)換、空間投影模塊和SVM分類模塊從DDR2中讀取該路測(cè)試語音的GSV和存儲(chǔ)好模型參數(shù),分別進(jìn)行SCV的計(jì)算和SVM的分類判決;e)將SVM輸出結(jié)果由外部通信單元反饋給DSP并輸出。根據(jù)FPGA設(shè)計(jì)特點(diǎn),系統(tǒng)在設(shè)計(jì)中采用各模塊間及模塊內(nèi)部均為流水線設(shè)計(jì)的結(jié)構(gòu),采用這種架構(gòu)能最大限度地提高其并行處理的能力。由于每個(gè)語音幀幀長(zhǎng)為25ms,幀偏移為10ms,因此,為了達(dá)到模塊間的流水處理,GSV生成模塊必須在10ms內(nèi)計(jì)算完一幀,以完成下一幀數(shù)據(jù)的運(yùn)算。之后的模塊是針對(duì)一定時(shí)長(zhǎng)語音得到的GSV進(jìn)行處理,因此,GSV生成后面的模塊實(shí)時(shí)性則取決于語音段的時(shí)長(zhǎng)。在電信網(wǎng)絡(luò)轉(zhuǎn)接系統(tǒng)中,需要在盡量短的時(shí)間內(nèi)進(jìn)行語種類別的判斷,而本文的語料庫是針對(duì)時(shí)長(zhǎng)為10s和30s的語音段進(jìn)行測(cè)試,故GSV之后的模塊設(shè)計(jì)實(shí)時(shí)性要求為最低10s內(nèi)處理完一路語音。3多實(shí)時(shí)語言識(shí)別系統(tǒng)的模擬結(jié)果分析3.1實(shí)驗(yàn)設(shè)施3.1.1語音時(shí)長(zhǎng)的選取語料庫為實(shí)驗(yàn)室采集的電話信道下的通話語音,采樣頻率為8KHz,并經(jīng)過16bit量化處理。語料庫包含漢語普通話、英語和日語共三個(gè)語種,共有1500段時(shí)長(zhǎng)10s左右的語音段、3000段時(shí)長(zhǎng)30s左右的語音段和1500段時(shí)長(zhǎng)3min左右的語音段。其中10s語音段中,每個(gè)語種各有500段,男、女各250段;30s語音段中,每個(gè)語種各有1000段,男、女各500段;3min時(shí)長(zhǎng)語音段中,每個(gè)語種各有500段,男、女各250段。本文的時(shí)長(zhǎng)指實(shí)際話音內(nèi)容所占用的時(shí)長(zhǎng)。上述語音段均按照不同的說話人進(jìn)行采集,各個(gè)語音段為單向通話語音,即每段語音僅含一個(gè)說話人的通話內(nèi)容。語料庫可分為訓(xùn)練集和測(cè)試集兩個(gè)部分。其中用于訓(xùn)練UBM的語料選擇為30s時(shí)長(zhǎng)的語音段,挑選方式為:首先從每個(gè)語種中挑選400段(男、女各200段),共1200段,用于訓(xùn)練GMM-UBM模型;然后從30s中剩余的語音段中,按語種各自挑選400段(男、女各200段),共1200段,用于訓(xùn)練SVM的語種模型參數(shù)。測(cè)試階段的語料包括兩種時(shí)長(zhǎng):一種是30s時(shí)長(zhǎng),即除去用于訓(xùn)練UBM和SVM后所剩余的語音段,即每個(gè)語種為200段(男、女各100段),共600段語料;另一種是上述的1500段10s時(shí)長(zhǎng)的語料。3.1.2fpga模塊的編寫按照系統(tǒng)算法的實(shí)現(xiàn)流程,在Xilinx公司的ISEDesignSuite11.2平臺(tái)下,使用VerilogHDL語言進(jìn)行FPGA模塊的編寫,并結(jié)合DSP工具對(duì)結(jié)果進(jìn)行驗(yàn)證。如前所述,DSP選用TI公司的TMS320C6455,FPGA為Xilinx公司Virtex5系列的XC5VLX110T(speed-1)。開發(fā)所用的計(jì)算機(jī)配置為IntelCore(TM)s,CPU主頻為1.86GHz,內(nèi)存為0.99GB。3.2模塊模塊運(yùn)算時(shí)延約實(shí)時(shí)性是FPGA設(shè)計(jì)與實(shí)現(xiàn)的重要性能指標(biāo)之一,是設(shè)計(jì)能否滿足需求的標(biāo)志。若能夠滿足應(yīng)用需求,可將其直接應(yīng)用于實(shí)際系統(tǒng)中;否則需要對(duì)設(shè)計(jì)進(jìn)行優(yōu)化,提高其實(shí)時(shí)性。例如增大系統(tǒng)設(shè)計(jì)為全并行處理,模塊間為全流水處理。但增大實(shí)時(shí)性的代價(jià)是會(huì)增加FPGA的資源占用率?？臻g變換模塊算法既要進(jìn)行大量的乘累加運(yùn)算,還需由DDR2控制器從DDR2內(nèi)存中讀取數(shù)據(jù),是后端部分模塊中耗時(shí)最大的部分,是實(shí)時(shí)性瓶頸。由于DDR2內(nèi)存的最低工作頻率為125MHz,因此,本次設(shè)計(jì)時(shí)采用此最低頻率。表1給出了后端部分三個(gè)子模塊的運(yùn)算處理時(shí)間。由表1可見,當(dāng)FPGA工作頻率為125MHz時(shí),從開始讀取第一個(gè)GSV數(shù)據(jù)到輸出后驗(yàn)概率矢量,三個(gè)子單元計(jì)算時(shí)間之和約為69.332ms。考慮到各子單元之間的數(shù)據(jù)及控制信號(hào)交互等因素,可以認(rèn)為,從讀取第一個(gè)GSV數(shù)據(jù)到最后輸出后驗(yàn)概率得分矢量的時(shí)延約為70ms。結(jié)合第三部分給出的后端模塊的實(shí)時(shí)要求針對(duì)10s的語音段,由于各個(gè)模塊之間為流水線結(jié)構(gòu),故后端部分所有模塊中的最大時(shí)延代表了系統(tǒng)的處理能力,其中空間轉(zhuǎn)換模塊時(shí)延最大,為69.332ms,則FPGA實(shí)現(xiàn)的后端分類部分能夠?qū)崟r(shí)處理的話音路數(shù)為3.3ise綜合工具的測(cè)試結(jié)果在FPGA實(shí)現(xiàn)中,資源占用率也是一個(gè)很重要的評(píng)價(jià)指標(biāo),主要用于評(píng)估系統(tǒng)的有效性和可擴(kuò)展性。由于本文的語種設(shè)計(jì)是基于三種語言之上,隨著識(shí)別語種數(shù)的增加,勢(shì)必會(huì)增加資源占用率,為后續(xù)發(fā)展考慮,需要對(duì)FPGA設(shè)計(jì)的資源占用情況進(jìn)行評(píng)估。在ISE綜合工具下對(duì)FPGA進(jìn)行綜合的結(jié)果如表2所示。其中SliceRegisters為寄存器資源,SliceLUTs為查找表資源,BlockRAM為塊RAM存儲(chǔ)資源,DSP48E是Virtex5FPGA中的DSP塊,用于實(shí)現(xiàn)快速乘累加運(yùn)算。由表2可見,FPGA設(shè)計(jì)中占用的片上存儲(chǔ)資源和邏輯資源比例較小,這為下一步處理更多路的語種識(shí)別系統(tǒng)開發(fā)打下了基礎(chǔ)。分析可知,Slice和塊RAM資源占用非常少,這是因?yàn)樾枰鎯?chǔ)的模板數(shù)據(jù)均存儲(chǔ)于片外DDR2中,對(duì)于FPGA內(nèi)部存儲(chǔ)資源占用較少;而DSP48E資源占用偏多,分析原因是默認(rèn)情況下,ISE設(shè)計(jì)會(huì)采用DSP48E來實(shí)現(xiàn)乘累加運(yùn)算,可考慮進(jìn)一步的優(yōu)化為將乘法器改為L(zhǎng)UT實(shí)現(xiàn)。綜上所述,資源整體占用較為合理,這也驗(yàn)證了本文中設(shè)計(jì)的可擴(kuò)展性。3.4多路實(shí)時(shí)系統(tǒng)對(duì)比前兩小節(jié)測(cè)試了語種識(shí)別系統(tǒng)的實(shí)時(shí)性能和資源占用情況,本節(jié)針對(duì)基于DSP+FPGA實(shí)現(xiàn)平臺(tái)下系統(tǒng)的識(shí)別性能進(jìn)行驗(yàn)證。本節(jié)中對(duì)比了通用機(jī)上VC++6.0平臺(tái)基線系統(tǒng)與該平臺(tái)下多路實(shí)時(shí)系統(tǒng)的識(shí)別性能。這兩個(gè)系統(tǒng)的驗(yàn)證平臺(tái)采用同樣的訓(xùn)練和測(cè)試集語音,實(shí)驗(yàn)設(shè)置一致,都是進(jìn)行語種確認(rèn)實(shí)驗(yàn)。表3給出了此兩個(gè)不同平臺(tái)下的系統(tǒng)EER。實(shí)驗(yàn)結(jié)果表明,本文的基于DSP+FPGA平臺(tái)的系統(tǒng)EER與VC++6.0平臺(tái)的系統(tǒng)EER基本一致,這驗(yàn)證了多路實(shí)時(shí)語種識(shí)別系統(tǒng)的正確性。4實(shí)驗(yàn)結(jié)果及分析本文首先提出了一種基于DSP+FPGA的多路實(shí)時(shí)語種識(shí)別系統(tǒng)總體架構(gòu),并對(duì)空間變換子模塊進(jìn)行了優(yōu)化和實(shí)現(xiàn);然后針對(duì)算法中需要頻繁訪問大容量模板的問題,設(shè)計(jì)了一種基于嵌入式下的內(nèi)存訪問管理模塊;最后從實(shí)時(shí)性能、資源性能及識(shí)別性能三個(gè)方

人人文庫> 全部分類> 專業(yè)文獻(xiàn) > 學(xué)術(shù)論文

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

一種基于機(jī)器視覺的種族識(shí)別系統(tǒng)算法分析

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

一種基于機(jī)器視覺的種族識(shí)別系統(tǒng)算法分析

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔