




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
唇形唇唇唇位于口腔的最前端,分上唇和下唇,兩唇共同圍成口裂,口裂兩端稱口角。唇是言語器官中唯一可以從外部被觀察到的部分,因此在發(fā)音過程中唇形的變化被聾啞人用來作為識別對方講話的依據(jù)。唇由口輪匝肌組成。輪匝肌又稱為唇內(nèi)肌,它的作用在于關(guān)閉雙唇,發(fā)出唇音p、b、m等;唇外肌中上唇肌和顴肌司提升上唇;下唇肌和三角肌管降低下唇,而笑肌和頰肌主繃緊雙唇??诖浇馄蕡D基本知識基本知識下唇與上齒接近能產(chǎn)生唇齒音f、v。在元音發(fā)音中,圓唇的結(jié)果能發(fā)出圓唇元音。此外,舌尖元音加上圓唇的作用,能發(fā)出【?】等圓唇舌尖元音。元音:和唇形的關(guān)系,區(qū)別特征,圓唇和展唇,共振峰的關(guān)系輔音:主要的發(fā)音部位之一。國際音標(biāo)表
唇讀(lip-reading/speech-reading),是指通過觀察說話者的口型變化,“讀出”或“部分讀出”其所說的內(nèi)容.研究唇讀目的是利用視覺信道信息補充聽覺信道的信息,以提高計算機系統(tǒng)的理解力.
唇讀計算機唇讀計算機唇讀是指通過建立口型模型和分析運動參數(shù),定量地處理唇動信息輔助進行語音識別,或者是直接對序列圖像進行分類和識別,以提高語音識別技術(shù)的準(zhǔn)確率和魯棒性。
魯棒性就是系統(tǒng)的健壯性。它是在異常和危險情況下系統(tǒng)生存的關(guān)鍵。比如說,計算機軟件在輸入錯誤、磁盤故障、網(wǎng)絡(luò)過載或有意攻擊情況下,能否不死機、不崩潰,就是該軟件的魯棒性。所謂“魯棒性”,是指控制系統(tǒng)在一定(結(jié)構(gòu),大?。┑膮?shù)攝動下,維持某些性能的特性。根據(jù)對性能的不同定義,可分為穩(wěn)定魯棒性和性能魯棒性。以閉環(huán)系統(tǒng)的魯棒性作為目標(biāo)設(shè)計得到的固定控制器稱為魯棒控制器。唇讀的識別方法★唇讀識別中較常使用的方法是基于特征向量法
把提取的特征作為向量進行HMM的狀態(tài)匹配。這樣做的缺點是狀態(tài)不確定,搜索的時間和空間規(guī)模較大,很難做到識別的實時性?!锪硪环N方法是基于口型分類法
人在發(fā)相同的音時,口型是基本不變的,發(fā)相似的音時口型上也存在很大的相似性,所以將漢語發(fā)音的變化口型進行聚類是可行的。明確了口型的種類也就明確了發(fā)音時的狀態(tài),在這些狀態(tài)的基礎(chǔ)上進行唇讀的識別,就可以去掉直接使用特征向量識別時狀態(tài)變化的不確定性,縮小狀態(tài)空間,提高最佳狀態(tài)匹配的收斂速度。交叉學(xué)科唇形研究是對語音研究和圖像處理的交叉學(xué)科的探索,內(nèi)容涉及語言學(xué)、圖像處理、模式識別、計算機視覺、自然語言理解等多個領(lǐng)域,他的進步可以促進許多學(xué)科的進步。國外研究現(xiàn)狀
國際上目前語音學(xué)基礎(chǔ)理論研究的前沿正從過去單一的語音學(xué)轉(zhuǎn)向語音學(xué)科的整體研究,這種多學(xué)科整體研究的集中體現(xiàn)就是“語音多模態(tài)(multi-modalofspeech)”研究。由于語音多模態(tài)研究的基礎(chǔ)理論成果能夠促進相關(guān)信息科學(xué)的發(fā)展,因而許多國家都將語音多模態(tài)研究作為支持的重點,著名的研究機構(gòu)有瑞典皇家理工學(xué)院(KTH)、美國哈斯金斯語音實驗室(Haskins)、加州大學(xué)洛杉磯分校語音實驗室(UCLAPhoneticsLab)、日本東京大學(xué)言語生理系等,并在英語和日語的言語產(chǎn)生和多模態(tài)人機交互方面取得了大量的研究成果。應(yīng)用語言學(xué)就是通過各種現(xiàn)代技術(shù)著重解決現(xiàn)實當(dāng)中的語言問題,是把理論語言學(xué)和現(xiàn)代應(yīng)用技術(shù)有機結(jié)合的學(xué)科,其中人機的語言情感交互研究是近幾年的研究熱點。其研究內(nèi)容從最早的機器翻譯到現(xiàn)今的多模態(tài)之一的視位研究。而唇位研究正是可視化研究的重要組成部分。國外的研究現(xiàn)狀最早的唇讀系統(tǒng)是1984年由(伊利諾伊大學(xué))UIUC大學(xué)patajan構(gòu)建,系統(tǒng)中采用的方法是對每一個詞對應(yīng)一個特征矢量序列,識別時,將輸入唇讀序列圖中得到特征矢量序列依存與詞庫中的每一個詞模板進行相似度距離測度計算。將相似度最高的作為結(jié)果輸出。由于它沒有使用自動時間歸正處理,因此方法有訓(xùn)練時的語速與識別時語速完全一致這一不可能的苛刻要。后來Mase和Pentland采用了線性時間歸正技術(shù)(LTW)改進了效果,Patajan也加入了動態(tài)時間歸正算法(DTW)對原系統(tǒng)做了改進。加利福利亞大學(xué)UCSC的Michael.M.Cohen博士也是最早從事唇讀模擬和研究的研究者之一,他所在的實驗室PerceptualScienceLab完成了多項唇語模擬的項目,為聾啞人創(chuàng)造了良好的人機交互環(huán)境,一種虛擬語言模擬系統(tǒng)為聾啞兒童提供學(xué)習(xí)和交互的環(huán)境。MIT媒體實驗室的學(xué)術(shù)帶頭人Pentland教授將光流技術(shù)引入唇讀特征的提取工作。福羅里達中心大學(xué)計算機系的GlennA.Martin也于1992年采用光流技術(shù)解決唇讀問題,對光流序列進行了時間歸正,提出了相關(guān)匹配算法。
各種唇讀系統(tǒng)比較各種唇讀系統(tǒng)比較
國內(nèi)言語工程方面比較關(guān)注多模態(tài)的人機交互研究,包括語音和情感的合成識別等相關(guān)方面的研究。做的比較好的有:清華大學(xué)電子工程系和計算機系、北京大學(xué)言語聽覺研究中心,中科院自動化所、科大訊飛、微軟亞洲研究院等。國內(nèi)的進展唇讀流程圖像采集檢測與定位特征提取識別方法圖像采集1)正面采集在拍攝獲取發(fā)音者的口型圖像序列時,通過在緊靠面部側(cè)面放置一面鏡子的方法,同步記錄發(fā)音時的正面和側(cè)面圖像。但是在實際應(yīng)用中放置鏡子的方法有時帶來不便。2)不規(guī)則人臉對稱模型
獲取人臉圖像時,攝像頭從人臉正面轉(zhuǎn)過一個角度θ,這樣既能保證一半正面嘴唇輪廓的圖像,又能反映出嘴唇突出度和下腭突出度的投影信息。既有人臉正面圖像中嘴唇的內(nèi)外輪廓動態(tài)變化信息,又包含人臉側(cè)面圖像反映出來的嘴唇突在出度和下腭突出度動態(tài)變化信息。3)正面、側(cè)面采集采用兩個攝像裝置采集圖像,圖像序列間的同步會帶來很大的問題
檢測與定位降低圖像處理的難度,檢測唇的邊緣設(shè)計平臺矩形框第一列是表示原始唇區(qū)域,第二列表示別分類出的唇區(qū)域和非唇區(qū)域,第三列代表根據(jù)唇模型畫出的唇線邊緣。特征提取基于模型方法混合特征基于像素基于模型1)主動輪廓模型(Snake算法):Snake是一條變形的曲線,主要靠兩個函數(shù)來提取特征。2)可變模型:特定的主動輪廓模型特點:數(shù)據(jù)量小、較為準(zhǔn)確基于像素1)直接像素法2)矢量量化3)主成分分析4)基于光流:臉部采集、光的速度看唇動基于像素優(yōu)點:可以采集到所有的數(shù)據(jù)缺點:數(shù)據(jù)量大、運算量大、收到光線的影響混合特征目前有以下的結(jié)合方法:1)主成分+snake2)多尺度空間分析3)主動面模型識別方法1)模板匹配2)隱馬爾科夫模型(HMM):通過概率,尋找近似性匹配3)TDNN(延遲神經(jīng)網(wǎng)絡(luò))德國的斯圖加特大學(xué)和美國的CMU合作對唇形研究內(nèi)容分為四個部分:1)建立語音多模態(tài)庫;語音、唇位、采集圖片、語音(資源庫)2)建立唇形處理平臺;矩形框、邊緣、修改3)對語音、唇位參數(shù)提取和數(shù)據(jù)分析,建立統(tǒng)計模型;4)研究不同生理信號之間的關(guān)系,進行語音產(chǎn)生各相關(guān)層面的理論與方法研究,并建立語音驅(qū)動的唇型模型合成。(長遠目標(biāo))用參數(shù)驅(qū)動合成研究內(nèi)容研究內(nèi)容(1)建立語音、唇型數(shù)據(jù)庫模態(tài)數(shù)據(jù)庫包括:音位、單音節(jié)(解決協(xié)同發(fā)音)的語音和視頻信號。1)文本設(shè)計:音位、單音節(jié)和雙音節(jié)文本設(shè)計。2)使用兩架攝像機進行信號的同步采集,以保證人臉正面和側(cè)面信號被同時采集,最終獲得包含三種單位的語音和唇型參數(shù)數(shù)據(jù)庫。研究內(nèi)容(2)建立信號處理平臺 生理信號的采集設(shè)備一般都不帶有分析功能,需要根據(jù)不同的信號類型編寫各自的信號處理和分析程序,包括信號的讀取、剪切、保存、擬定參數(shù)的自動提取、數(shù)據(jù)的自動保存和統(tǒng)計分析等功能。該平臺主要完成內(nèi)外唇線及唇線參數(shù)的設(shè)定與自動提取和批量分析等,主要包括以下功能: ①手動框出包含唇的矩形區(qū)。 ②利用支持向量機對唇區(qū)域和非唇區(qū)域進行分類。 ③對分類出的唇區(qū)域利用EILAN提出的唇邊緣檢測模型自動標(biāo)記出唇邊緣,對自動標(biāo)記錯誤處具有手動修改功能。研究內(nèi)容(3)對語音、唇型的參數(shù)提取和數(shù)據(jù)分析 根據(jù)不同的信號庫和研究目的,選擇適當(dāng)?shù)膮?shù),設(shè)計提取算法,進行數(shù)據(jù)分析建立統(tǒng)計模型,并進行相關(guān)理論領(lǐng)域的探討。 ①語音主要的參數(shù)有:時長、基頻(F0)、輔音強頻區(qū)、振幅、譜傾斜率、共振峰的音軌、輔音和元音之間共振鋒的過度段、VOT等等。在技術(shù)上,提取聲學(xué)參數(shù)是采用比較經(jīng)典和成熟的算法,共振峰和帶寬用基音同步協(xié)方差(co-variance)LPC提取,基頻用倒譜的方法提取。 ②唇型信號參數(shù):內(nèi)外唇線、唇寬度、唇高度、唇突度等。唇線特征提取主要是對已經(jīng)提取的矩形區(qū)域進行唇區(qū)域和非唇區(qū)域的分割,然后對唇區(qū)域用已有唇模型分別檢測出唇邊緣。(13個參數(shù)) ③總結(jié)語音學(xué)唇位,根據(jù)每一個音的唇型變化(根據(jù)關(guān)鍵點運動軌跡描述唇線的變化),基于統(tǒng)計學(xué)上的歸納和分類,建立唇形數(shù)據(jù)庫,從而得出唇位的類型。研究內(nèi)容(4)建立語音驅(qū)動的唇位模型 根據(jù)統(tǒng)計數(shù)據(jù)建立語音和唇型之間的關(guān)聯(lián)模型,建立語音驅(qū)動的唇位模型。首先對文本進行國際音標(biāo)的轉(zhuǎn)換,使其成為音位序列,然后按音節(jié)為單位,聲韻母分別調(diào)用各自對應(yīng)的唇位圖像組進行拼接,可用內(nèi)插法解決語音和唇位的時間對應(yīng)。對每一個視頻文件,使用非線性編輯器對采集的圖像進行分幀(每秒24幀),對每一幀建立唇線自動匹
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 江蘇省泰州市2025屆高三第一次調(diào)研測試語文試題及答案解析
- 2025年黨章黨紀(jì)黨史黨建知識競賽多項選擇題庫及答案(共180道題)
- 應(yīng)聘銷售簡歷個人
- 長租房委托協(xié)議
- 山西省2024-2025學(xué)年高三下學(xué)期2月開學(xué)摸底考試物理試題(原卷版+解析版)
- 2025年度按揭購車信用保險合作協(xié)議范本
- 物流行業(yè)智能調(diào)度與配送優(yōu)化方案
- 品牌推廣策略實施指南
- 生態(tài)旅游開發(fā)居間合同
- 中醫(yī)護理學(xué)(第5版)課件 第4章 病因
- 骨科常見疾病術(shù)后功能鍛煉指導(dǎo)
- 體育館燈具更換施工方案
- 標(biāo)準(zhǔn)作業(yè)指導(dǎo)書模板(SOP)
- 傳統(tǒng)文化寫作課件高中英語人教新課標(biāo)必修三
- 變壓器產(chǎn)權(quán)移交單協(xié)議書
- 教師師德考核表
- 歐派終端培訓(xùn)銷售篇
- 《式微》課件完整版
- 甘蔗種植技術(shù)
- 第11課《核舟記》-部編版語文八年級下冊
- 護理基礎(chǔ)知識1000題
評論
0/150
提交評論