![基于dsp的語音識別與合成技術(shù)_第1頁](http://file4.renrendoc.com/view/c35402a8b1003a0cddd04645d09ecb72/c35402a8b1003a0cddd04645d09ecb721.gif)
![基于dsp的語音識別與合成技術(shù)_第2頁](http://file4.renrendoc.com/view/c35402a8b1003a0cddd04645d09ecb72/c35402a8b1003a0cddd04645d09ecb722.gif)
![基于dsp的語音識別與合成技術(shù)_第3頁](http://file4.renrendoc.com/view/c35402a8b1003a0cddd04645d09ecb72/c35402a8b1003a0cddd04645d09ecb723.gif)
![基于dsp的語音識別與合成技術(shù)_第4頁](http://file4.renrendoc.com/view/c35402a8b1003a0cddd04645d09ecb72/c35402a8b1003a0cddd04645d09ecb724.gif)
![基于dsp的語音識別與合成技術(shù)_第5頁](http://file4.renrendoc.com/view/c35402a8b1003a0cddd04645d09ecb72/c35402a8b1003a0cddd04645d09ecb725.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
基于DSF的語音識別與合成技術(shù)學號:201116022106班級: 姓名: 2014年6月13日#一?概述1.語音識別語音識別是試圖使機器能“聽懂”人類語音的技術(shù)。語音識別的作用是將語音轉(zhuǎn)換成等價的書面信息,也就是讓計算機聽懂人說話。作為一門交叉學科,語音識別又是以語音為研究對象,是語音信號處理的一個重要研究方向,是模式識別的一個分支,涉及到計算機、信號處理、生理學、語言學、神經(jīng)心理學、人工智能等諸多領(lǐng)域,還涉及到人的體態(tài)語言,其最終目標是實現(xiàn)人與機器進行自然語言通信。2■語音合成語音合成是通過機械的、電子的方法產(chǎn)生人造語音的技術(shù)。TTS技術(shù)(又稱文語轉(zhuǎn)換技術(shù))隸屬于語音合成,它是將計算機自己產(chǎn)生的、或外部輸入的文字信息轉(zhuǎn)變?yōu)榭梢月牭枚?、流利的漢語口語輸出的技術(shù)。國內(nèi)研究歷史及現(xiàn)狀我國在語音識別研究上也投入了很大的精力, 國內(nèi)中科院的自動化所、聲學所以及清華大學等科研機構(gòu)和高校都在從事語音識別領(lǐng)域的研究和開發(fā)。國家 863智能計算機專家組為語音識別技術(shù)研究專門立項,我國語音識別技術(shù)的研究水平已經(jīng)基本上與國外同步。語音識別的流程根據(jù)對輸出觀測值概率的不同描述, HMM(隱式馬爾可夫鏈)可分為離散HMM(DHMM)和連續(xù)HMM(CHMM),在基于DHMM的非特定人語音識別過程中語音信號先被分成若干音框(幀),每個音框用一個特征向量參數(shù)表示,然后將語音特征參數(shù)向量的時間序列矢量化,此時每一個音框的語音信號變成 VQ碼本,用碼本訓(xùn)練HMM,最后測試識別率。語音信號分析方法分類時域特征頻域及倒譜域特征由時域信號進行頻譜變換得到,反映語音信號的頻域特性包括傅里葉頻譜、倒譜以及利用了語音信號的時序信息的時頻譜。聽覺特征指不直接對聲道模型進行研究,而是從人類聽覺系統(tǒng)對語音的感知特性來刻畫語音信號的特征?;贛el頻率的倒譜MFCC在語音識別(SpeechRecognition)和語者辨識(SpeakerRecognition)方面,最常用到的語音特征就是[梅爾倒頻譜系數(shù)](Mel-scaleFrequencyCepstralCoefficients,簡稱MFCC),此參數(shù)考慮到人耳對不同頻率的感受程度,因此特別適合用在語音識別。音框化(Frameblocking)先將N個取樣點集合成一個觀測單位,稱為音框(Frame),通常N的值256或512,涵蓋的時間約為20~30ms左右。為了避免相鄰兩音框的變化過大,所以我們會讓兩相鄰因框之間有一段重迭區(qū)域,此重迭區(qū)域包含了 M個取樣點,通常M的值約是N的一半或1/3。通常語音識別所用的音頻的取樣頻率為 8KHz或16KHz,8KHz來說,若音框長度為256個取樣點,則對應(yīng)的時間長度是256/8000*1000=32ms。漢明窗(HammingwindoW將每一個音框乘上漢明窗,以增加音框左端和右端的連續(xù)性(請見下一個步驟的說明)。假設(shè)音框化的訊號為S(n),n=0,--N-10那么乘上漢明窗后為S'(n)=S(n)*W(n),此W(n)形式如下快速傅利葉轉(zhuǎn)換(FFT由于訊號在時域(Timedomain)上的變化通常很難看出訊號的特性,所以通常將它轉(zhuǎn)換成頻域(Frequencydomain)上的能量分布來觀察,不同的能量分布,就能代表不同語音的特性。所以在乘上漢明窗后,每個音框還必需再經(jīng)過FFT以得到在頻譜上的能量分布。三角帶通濾波器組(TriangularBandpassFilters )將能量頻譜能量乘以一組20個三角帶通濾波器,求得每一個濾波器輸出的對數(shù)能量(LogEnergy)。必須注意的是:這20個三角帶通濾波器在梅爾頻率(MelFrequency)上是平均分布的,而梅爾頻率和一般頻率 f的關(guān)系式如下:Mel(F)=2595*log10(1 —)700梅爾頻率代表一般人耳對于頻率的感受度,由此也可以看出人耳對于頻率f的感受是呈對數(shù)變化的:在低頻部分,人耳感受是比較敏銳。在高頻部分,人耳的感受就會越來越粗糙。
芯片概況介紹TMS320C54XX系列簡介TMS320C54芯片采用先進的修正哈佛結(jié)構(gòu)和8條4組總線結(jié)構(gòu)使處理器的性能有極大的提高。它的獨立的程序和數(shù)據(jù)總線允許同時訪問程序存儲器和數(shù)據(jù)存儲器,實現(xiàn)高度并行操作,例如可以在一條指令中,同時執(zhí)行 3次讀操作和1次寫操作。還可以在數(shù)據(jù)總線和程序總線之間相互傳送數(shù)據(jù),從而使處理器具有在單個周期內(nèi)同時執(zhí)行算術(shù)運算、邏輯運算、移位操作、乘法累加運算以及訪問程序和數(shù)據(jù)存儲器的強大功能。采用模塊化設(shè)計現(xiàn)金的集成電路設(shè)計以及先進的集成電路技術(shù),芯片的功耗小,成本低的強大好處。集成電路設(shè)計以及先進的集成電路技術(shù),芯片的功耗小,成本低的強大好處。程序/數(shù)據(jù)ROM程序/數(shù)據(jù)RAMJTAGZ測試仿真控制D(15-0)乜 ?A(15程序/數(shù)據(jù)ROM程序/數(shù)據(jù)RAMJTAGZ測試仿真控制D(15-0)乜 ?A(15-0)色——片17X17乘法器40bit加法器CPUALU程序/數(shù)據(jù)總線40bitALU比較選擇單元(Viterbi)指數(shù)編碼器移位器 累加器 40bit桶形移位寄存器(-16?31)40bitACCA40bitACCB尋扯單元8個輔助寄存器2個地址產(chǎn)生單元電源管理C54XX功能結(jié)構(gòu)框圖!??E?rI"wyIT-rvgirHiwr■■■■?a,i,'#1!??E?rI"wyIT-rvgirHiwr■■■■?a,i,'#1rrI ^1Tx1TJ ITH?rr*l!*hlti?r;s嚴:z常"探i-ia**u口匚Mrnr*!」AfieocMraTUElACDTMS320C54XDSP內(nèi)部硬件組成框圖三.系統(tǒng)總體設(shè)計3.1語音識別系統(tǒng)結(jié)構(gòu)示意圖語音輸入方式省去了大量的輸入時間,降低了信息檢索的復(fù)雜度,該芯片可存放數(shù)百張語音名片,每張名片包含四條信息:姓名、電話號碼、工作單位、備注;聲控查找語音名片信息,用戶只需口述所要查找人的姓名,即可獲得電話號碼、工作單位、備注等信息,同時電話號碼顯示在液晶屏上 ⑷系統(tǒng)結(jié)構(gòu)示意圖3.2 內(nèi)部系統(tǒng)構(gòu)成用于“錄音”功能的ACELP算法是該碼率下性能優(yōu)異的解碼算法,雖然算法復(fù)雜度較高,但共重建語音素質(zhì)的平均主觀評測分數(shù)( MOS分)達到如圖1所示,系統(tǒng)由MCU實現(xiàn)總線控制,接收外部鍵盤輸入,并在液晶屏上顯示信息。在本系統(tǒng)中,語音充當大部分人機界面的角色,盡管省去復(fù)雜的鍵盤操作,而且用語音提示或語音操作回放代替一部分液晶文字提示。由于語音要經(jīng)過DSP處理,所以MCU需要與DSP經(jīng)常交換信息,一邊實現(xiàn)友好的操作界面。系統(tǒng)由MCU實現(xiàn)總線控制,接收外部鍵盤輸入,并在液晶屏上顯示信息。本系統(tǒng)中,語音充當大部分人機界面的角色, 盡量減去復(fù)雜的鍵盤操作,而且用語音提示或語音回放代替一部分的液晶文字提示。由于語音要經(jīng)過 DSP處理,所以MCU需要與DSP經(jīng)常交換信息,以便實現(xiàn)又友好的操作界面[5]換信息,以便實現(xiàn)又友好的操作界面[5]321DSPDSP(TMS320C541是整個硬件系統(tǒng)的信號處理中心,完成語音識別、訓(xùn)練、編解碼,進行片內(nèi)RAM及外部FLASH存儲芯片的數(shù)據(jù)管理與調(diào)度,并向主控芯片 MCU提供簡潔的命令與反饋信息。TMS32054X系列的產(chǎn)品。其主要性能指標如下:116位定點的DSP采用改進的哈佛結(jié)構(gòu),供電呀3.3V;2提供了64Kbyte的片內(nèi)ROM;3由一個時分復(fù)用串口TDMffi2個帶緩沖區(qū)的標準串口BSP;4具有HPI是實現(xiàn)DSP與MCU接口的應(yīng)用;5指令周期為10ns,即運算速度高達100MIPS;6具有管理中斷、循環(huán)運算和功能調(diào)用的控制結(jié)構(gòu)。MCUMCU是Intel生產(chǎn)的性價比較高的一種HMO類型的8位單片機,可以一次性編程,適于小批量生產(chǎn),被廣泛地應(yīng)用于家用電器的控制,他具有強大的 I/O功能。其主要指標如下:片內(nèi)RAM為128*8bit;片外為64K*8bit片外EPROM64K*8bi;40個引腳,其中由32個I/O口,5個中斷源,2個16位定時器/計數(shù)器;3需求電壓為5V這些性能保證了系統(tǒng)主控能力,而且能夠提供靈活的外部接口,適于做進一步的改進能力和改進。計算器等附加功能可以直接由 MCI完成。3.2.3數(shù)據(jù)FLASH存儲器數(shù)據(jù)FLASH存儲器KM29U6400是SAMSUN公司的產(chǎn)品,它可在3V電壓下低功耗工作,存貯量大、價位低、速度快、存儲數(shù)據(jù)掉電后可保持而不會丟失。3.3系統(tǒng)內(nèi)主要芯片的互聯(lián)互控3.3.1MCU與DSPMCI與DSP采用串行口相連,通過HPI實現(xiàn)MCI與DSP的傳送互聯(lián)MCU寸DSP的命令字與DSP對MCU勺反鎖字。DSP串口1用于語音輸入和輸出,串口2用于與MCI相連。由于DSP的串口收發(fā)方式和MCU勺串口不一致,所以MCI用I/O口模擬串口與DSP相連。為了保證數(shù)據(jù)傳送的穩(wěn)定性,MCU采用中斷方式接收。每次數(shù)據(jù)傳送一般不止一個人字節(jié),所以采用打包方式傳送。332DSP與數(shù)據(jù)FLASH鎖存器DSP的數(shù)據(jù)總線中的8位練到FLASH存儲器的總線上,用DSP的讀寫控制線WRffiRD控制FLASH控制的CE端,以保證DSP在進行其他總線操作時不會對該FLASH芯片的“閑/忙”信號線上,監(jiān)視其股票那工作狀態(tài);分別把兩個地址線A8和A9連到FLASH芯片的兩個鎖存控制CLE和ALE上,以便控制總線的狀態(tài)。DSP與數(shù)據(jù)FLASH存儲器TMS320C541的Byte存儲區(qū)就是一個8位寬的外部雙向存儲空間,可用于存儲程序與數(shù)據(jù)。整個Byte存儲空間由256個16K*8的頁面組成,Byte存儲區(qū)只能通過BDMA進行訪問。在使用BDMA&式工作時用A0-A13作為低端地址,用D16-D18作為擴展的高端地址,聯(lián)合使用實現(xiàn)4Mbyte的外部尋址能力。D8-D15作為數(shù)據(jù)總線,BMSRDWF分別用于控制存儲的片選以及讀寫操作信號。四.結(jié)論基于DSP的語音識別與合成技術(shù)的實驗,是未來SPDA語音個人數(shù)字助理的前型。它集成了語音識別、語音壓縮編碼、語音信號處理器 DSF和大容量FLASH在存儲的數(shù)據(jù)管理等技術(shù)、該系統(tǒng)所應(yīng)用的技術(shù)可應(yīng)用于語音八號電話 +語音錄音電話機、電話機伴侶、PDA隨身聽、語音玩具、語音門戶。經(jīng)過這次數(shù)字信號處理基于DSP的語音識別與合成系統(tǒng)的研究,我知道了利用DSP處理信號是很有優(yōu)勢的,處理方法多種多樣,適合不同的信號,我了解了一般電子語音處理的方法,怎么樣識別,并對識別到的語音信號合成,達到人機交流的目的,這樣對研究機器人或是其他跟語音有關(guān)的東西,都可以采用 DSP的處理方法,經(jīng)過這次學習,我感到受益匪淺。參考文獻:王華奎編,《數(shù)字信號處理與運用》,高等教育出版社,2013.吳大正編,《信號與線性系統(tǒng)》,高等教育出版社,2012.王念旭等,《DSP基礎(chǔ)與應(yīng)用系統(tǒng)設(shè)計》,北京航空航天大學出版社.[4易克初,《語音信號處理》,國防工業(yè)出版社.⑸關(guān)華,《DigitalSpeechProcessing 》,黃河出版社.⑹宋知用,《MATLAB在語音信號分析與合成中的應(yīng)用》,北京航空航天大學出版社;第1版(2013年11月1日)六.課程總結(jié):第一章:離散時間信號與系統(tǒng)主要介紹了模擬信號數(shù)字處理方法,時域離散信號的表示方法和典型信號、線性時不變的因果性和穩(wěn)定性、系統(tǒng)的輸入輸出描述法。重點學習了離散時間福利葉變換和Z變換,在頻域中的運用。通過學習,自己明白了什么是奈奎斯特采樣定理,明白了 A/D轉(zhuǎn)換和D/A轉(zhuǎn)換,這是在數(shù)字信號處理中不可或缺的關(guān)鍵轉(zhuǎn)換。 會根據(jù)不同的采樣頻率用傅里葉變換求采樣后的頻譜。知道了各種序列,會用Matlab寫程序畫出序列圖來,會根據(jù)程序調(diào)用函數(shù),感覺很實用。學了線性系統(tǒng)和時不變系統(tǒng),因果關(guān)系,知道了級聯(lián)、單位脈沖響應(yīng)還有系統(tǒng)的差分方程。學了霸氣的 Z變換,會求簡單的收斂域,知道了Z變換的許多性質(zhì),Z變換注重零點與極點的分布,利用卷積積分使離散函數(shù)分析,求解過程變的簡單而方便,最后終于知道了 Z變換、傅里葉變換、拉普拉斯變換之間的關(guān)系,了解了離散時間 LTI系統(tǒng)的線性差分方程,從而具有無限長的單位沖擊響應(yīng)(IIR)、(FIR系統(tǒng)。總之學了第一章,把之間學的知識都加強鞏固了一遍,知道數(shù)字信號處理的各種數(shù)學模型。第二章離散傅里葉變換(DFT主要講了信號分析與處理的重要基礎(chǔ)理論,傅里葉變換的性質(zhì)及在頻譜中的應(yīng)用??偟膩碚f,這一章專業(yè)性有點強,學著理論有點吃力,初步了解了離散傅里葉的形式,明白什么是離散傅里葉級數(shù)(DFS和DFS的性質(zhì)、推導(dǎo),學了DFT,知道了傅里葉級數(shù)到傅里葉變換間的關(guān)系,會計算有限長序列的DFT,明白了傅里葉變換與Z變換及DTFT間的關(guān)系,學會用圓周卷積,最后學了DFT進行頻譜分析,應(yīng)合理選擇參數(shù),以避免各類誤差現(xiàn)象。說實話,這個分析對于我來說是挺糾結(jié)的,不怎么會用。第三章快速傅里葉變換DFT在數(shù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 胸外科護士工作心得
- 2025年全球及中國單擺銑頭行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報告
- 2025-2030全球倒置行星滾柱絲杠行業(yè)調(diào)研及趨勢分析報告
- 2025年全球及中國虛擬試穿平臺行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報告
- 2025年全球及中國汽車天線定位器行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報告
- 2025年全球及中國重載有軌穿梭小車(RGV)行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報告
- 2025年全球及中國絲素蛋白敷料行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報告
- 2025-2030全球直線式桁架機器人行業(yè)調(diào)研及趨勢分析報告
- 2025-2030全球裝運前檢驗(PSI)服務(wù)行業(yè)調(diào)研及趨勢分析報告
- 2025年全球及中國電子鑰匙柜行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報告
- 江西省部分學校2024-2025學年高三上學期1月期末英語試題(含解析無聽力音頻有聽力原文)
- GA/T 2145-2024法庭科學涉火案件物證檢驗實驗室建設(shè)技術(shù)規(guī)范
- 2024年中考語文試題分類匯編:非連續(xù)性文本閱讀(學生版)
- 2024年度窯爐施工協(xié)議詳例細則版B版
- 第一屆山東省職業(yè)能力大賽濟南市選拔賽制造團隊挑戰(zhàn)賽項目技術(shù)工作文件(含樣題)
- 尿毒癥替代治療
- 【課件】2025屆高考英語一輪復(fù)習小作文講解課件
- 基底節(jié)腦出血護理查房
- 工程公司總經(jīng)理年終總結(jié)
- 2024年海南省高考地理試卷(含答案)
- 【企業(yè)盈利能力探析的國內(nèi)外文獻綜述2400字】
評論
0/150
提交評論