




免費(fèi)預(yù)覽已結(jié)束,剩余1頁可下載查看
下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
具有視覺跟蹤的中英文語音動(dòng)畫系統(tǒng)1呂玉生 寧波大學(xué)信息科學(xué)與工程學(xué)院,寧波 (315211) e-mail:11007118摘要:本文給出了一個(gè)具有視覺跟蹤的中英文語音動(dòng)畫系統(tǒng)的實(shí)現(xiàn)過程。該文介紹了該系 統(tǒng)的設(shè)計(jì)過程以及所需的技術(shù),包括可視音素、三維人頭模型的制作與顯示、語音與動(dòng)畫的同步、動(dòng)畫的平滑自然的過渡、眼睛的跟蹤與隨機(jī)眨眼、與外部程序接口的設(shè)計(jì)等。該語音動(dòng)畫系統(tǒng)具有人臉表情真實(shí)自然等特點(diǎn),在普通 pc 機(jī)上能夠產(chǎn)生高質(zhì)量的語音動(dòng)畫。關(guān)鍵詞:語音動(dòng)畫 可視語音合成 可視音素 人機(jī)交互 視覺跟蹤中圖分類號(hào):tp391.411引言隨著多媒體技術(shù)的迅速發(fā)展,多種媒體之間的信息融合也日益受到人們的重視。人臉和 語音是人類相互交流的兩種最重要的渠道,將人臉動(dòng)畫技術(shù)(facial animation)與語音處理 技術(shù)(speech processing)相結(jié)合、用計(jì)算機(jī)生成語音與口形同步動(dòng)畫的技術(shù),稱作語音動(dòng) 畫技術(shù),也被稱為“說話的人頭”(talking head)。在人機(jī)交互等應(yīng)用環(huán)境中,如果人們面對(duì)的是這樣一個(gè)會(huì)說話的人物形象,則會(huì)使計(jì)算 機(jī)界面更為友好,人機(jī)之間的交流更加自然。研究表明,在環(huán)境噪聲較大的情況下,如果在 給出聲音信息的同時(shí)能給出一個(gè)“說話的人頭”,則可使信噪比提高約8-12db1。本文結(jié)合了幾款優(yōu)秀軟件的強(qiáng)大功能,開發(fā)出了一款支持中英文語音的人臉動(dòng)畫系統(tǒng)。 該動(dòng)畫系統(tǒng)具有表情表現(xiàn)自然真實(shí)等特點(diǎn),并且為了方便后續(xù)程序開發(fā)的工作,我們還設(shè)計(jì)了與外部程序交互的接口。2語音動(dòng)畫系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)如圖 1 所示,整個(gè)系統(tǒng)的界面分為三個(gè)部分。左上部為三維人頭的顯示區(qū)域,可以對(duì)三 維人頭進(jìn)行旋轉(zhuǎn)、縮放等操作;左下部為文本輸入以及語音控制部分,可以選擇男女聲、調(diào) 節(jié)音量和語速等;右面部分為模型變形的控制部分,包括控制 7 種表情、15 種調(diào)節(jié)器和 16 種可視音素對(duì)應(yīng)模型的變形程度,并且可以通過組合產(chǎn)生出各種新的表情。1本課題得到國家科技部 973 重大基礎(chǔ)前期專項(xiàng)(2005cca04400)、國家自然科學(xué)基金項(xiàng)目(60672071)的資助 。-6-2.1 三維人頭模型的制作與顯示圖 1 系統(tǒng)界面在三維人頭模型的制作軟件中,facegen2是一款非常優(yōu)秀的制作參數(shù)化人頭的工具軟 件,操作簡單,全部實(shí)時(shí)交互調(diào)節(jié),可調(diào)節(jié)的參數(shù)達(dá)上百個(gè),可對(duì)頭部 60 多個(gè)區(qū)域進(jìn)行調(diào) 節(jié)。調(diào)節(jié)內(nèi)容包括人種、性別、年齡等。此外,還可以調(diào)節(jié)幾十種表情和口型。(a)正面人頭照片(b)合成的三維人頭正面截圖圖 2 原圖與合成圖同時(shí),我們還可以通過提供一張正面人頭照片,讓 facegen 合成出非常逼真的三維人頭模型。如圖 2 所示,我們提供一張正面人頭照片,通過 facegen,合成了一個(gè)逼真的三維人 頭模型。三維人頭模型制作完成以后,就可以導(dǎo)出為數(shù)種流行的 3d 文件格式,如 obj、3ds、vrml 等。因?yàn)?open inventor3(以下簡稱 oiv)可以完美支持 vrml97 格式,所以我們導(dǎo)出包 括中性和其他所有目標(biāo)動(dòng)畫人臉模型在內(nèi)的 vrml97 文件。oiv 是目前世界上應(yīng)用最為廣泛的面向?qū)ο蠛徒换ナ降娜S圖形軟件開發(fā)包。它是在opengl 的基本上開發(fā)而成的,因而也是一種相對(duì)獨(dú)立的圖形系統(tǒng),并可方便地移植到不同操作系統(tǒng)的硬件平臺(tái)上。由于 oiv 在構(gòu)造復(fù)雜的三維場景時(shí)采用了“搭積木”的靈活方式, 這使得用戶只需花費(fèi)較少的時(shí)間就可構(gòu)造出復(fù)雜、優(yōu)美的三維場景。另外,oiv 還能夠完美 支持三維音效、三維紋理和多處理器的并行渲染技術(shù)。但是 vrml 與 oiv 在紋理處理方式上是有不同的4。對(duì)于 rgb 和 argb 構(gòu)成的紋理 文件,在 vrml 中直接用紋理的顏色替換物體的顏色。這樣,要想得到我們想要的在眼球 上有一個(gè)高光反射的亮點(diǎn)的效果就變得非常麻煩。眼睛是心靈的窗口,如果在模型的顯示中 , 眼球上有一個(gè)高光反射的亮點(diǎn),那么必然會(huì)使顯示效果看起來更加逼真生動(dòng)。相反,使用 ovi 的相應(yīng)節(jié)點(diǎn)可以相對(duì)容易的做到這樣的效果。我們使用 oiv 3d 開發(fā)包讀取 vrml 人 臉模型文件,并把 vrml 節(jié)點(diǎn)轉(zhuǎn)化為 oiv 相應(yīng)的節(jié)點(diǎn),再重新調(diào)節(jié)材質(zhì)、光線和攝像機(jī)等 節(jié)點(diǎn)的參數(shù),顯示出了具有較高真實(shí)感的效果。圖 3(b)的效果明顯要比圖 3(a)的效果要好的 多。2.2 可視音素(a)使用 vrml 節(jié)點(diǎn)(b)轉(zhuǎn)化成 ovi 的節(jié)點(diǎn)圖 3 眼球上的高光反射microsoft 公司的 sapi 5.15是微軟 windows 環(huán)境下的語音開發(fā)工具包,提供了包括中 英文在內(nèi)的數(shù)種語音開發(fā)的接口,使語音系統(tǒng)的開發(fā)變得非常方便。但是使用它本身提供的 幾種語音包合成的語音,聽起來不夠自然,而且沒有定義中文的可視音素,不能直接得到中 文可視音素及其持續(xù)時(shí)間。文獻(xiàn)6中給出了中文可視音素的獲取和估計(jì)其持續(xù)時(shí)間的方法。 neospeech7是當(dāng)前最好的語音合成軟件之一,它的效果幾乎可以亂真。neospeech 提供了 中英日韓四種語音包,并且實(shí)現(xiàn)了 sapi 語音接口,以統(tǒng)一的方式提供了這四種語言的可視 音素。這種就可以使用 sapi 調(diào)用 neospeech,合成出高質(zhì)量的語音。facegen 提供 16 種可視音素,而 sapi 5.1 定義了 22 種可視音素。經(jīng)過反復(fù)試驗(yàn)后, 我們定義了它們之間的對(duì)應(yīng)關(guān)系。有了可視音素以及表情等模型,下面要做的就是怎么樣讓這些模型與語音同步并且平滑 地動(dòng)起來。(a) aa (b) d,s,t圖 4 可視音素 aa 和 d,s,t2.3 語音與動(dòng)畫的同步、動(dòng)畫的平滑自然的過渡在人說話的時(shí)候,一個(gè)口型到另一個(gè)口型的轉(zhuǎn)化是平滑的。所以我們要想得到比較自然 的過渡效果,那么在前一個(gè)可視音素對(duì)應(yīng)的口型與下一個(gè)可視音素對(duì)應(yīng)的口型過渡的時(shí)候, 必須產(chǎn)生幾幀中間的口形動(dòng)畫。我們?cè)诋惒椒绞较抡{(diào)用 sapi 的 speak 函數(shù)朗讀文本,然后處理 spei_tts_viseme 事 件,得到可視音素及其相應(yīng)的持續(xù)時(shí)間。接著進(jìn)行可視音素的過渡,得到與輸出語音對(duì)應(yīng)的 同步的人臉動(dòng)畫,進(jìn)而生成語音動(dòng)畫。我們對(duì)此的處理過程如下:(1) 在異步方式下調(diào)用 sapi 的 speak 函數(shù)朗讀輸入的文本;(2) 處理 spei_tts_viseme 事件,得到可視音素及其持續(xù)時(shí)間;(3) 計(jì)算從前一個(gè)可視音素對(duì)應(yīng)的人臉動(dòng)畫到當(dāng)前得到的可視音素對(duì)應(yīng)的目標(biāo)人臉動(dòng) 畫平滑過渡所需要的幀數(shù)。幀數(shù)可視音素的持續(xù)時(shí)間(毫秒)/30;持續(xù)時(shí)間長的可視音素將 對(duì)應(yīng)較多的幀數(shù)。將可視音素的編號(hào)與計(jì)算出的幀數(shù)放入一個(gè)可視音素隊(duì)列中;(4) 在一個(gè)每秒鐘響應(yīng) 30 次的定時(shí)器響應(yīng)函數(shù)中讀取這個(gè)可視音素隊(duì)列,根據(jù)過渡所 需要的幀數(shù)在前一可視音素與讀取的可視音素對(duì)應(yīng)的人臉動(dòng)畫之間進(jìn)行線性插值,顯示出多 幀平滑的過渡動(dòng)畫。2.4 眼睛的跟蹤與隨機(jī)眨動(dòng)在人與人的自然交互中,在說話的同時(shí),一般眼睛都會(huì)盯著對(duì)方,并且伴隨著隨機(jī)性的 眨眼動(dòng)作。同樣,在具有逼真效果的人臉語音動(dòng)畫系統(tǒng)中,眼睛的跟蹤與隨機(jī)眨動(dòng)也是非常 必要的。我們使用 camshift8,9方法對(duì)視頻中的人臉進(jìn)行檢測,根據(jù)檢測結(jié)果設(shè)定虛擬人 的眼球轉(zhuǎn)動(dòng)的方向與程度,即實(shí)現(xiàn)三維虛擬人 “盯著人看”的效果。 camshift 是 “continuously adaptive mean-shift”的簡稱,意為連續(xù)自適應(yīng)均值移動(dòng)算法。它是一種實(shí) 時(shí)性和魯棒性良好的跟蹤算法,能夠根據(jù)前一幀圖像中目標(biāo)物的顏色分布自動(dòng)調(diào)整搜索窗口 的大小,在下一幀中找到目標(biāo)物體所在區(qū)域的中心及目標(biāo)物的大小。對(duì)于每一幀視頻圖像, 它首先根據(jù)目標(biāo)物的顏色直方圖模型將圖像轉(zhuǎn)化為顏色概率分布圖。對(duì)于人臉跟蹤來說,就 是根 據(jù)人臉的膚色信息建立顏色 直方 圖,然后在轉(zhuǎn)化后的顏色概率分布圖中利用 camshift 算法找到人臉的中心和大小。重復(fù)這個(gè)過程就實(shí)現(xiàn)了對(duì)人臉的連續(xù)跟蹤了。圖 5 顯示眼睛的跟蹤效果。(a)、(b)、(c)為 camshift 對(duì)攝像頭前人臉的跟蹤效果,(b)、(d)、 (f)為相應(yīng)的眼睛跟蹤結(jié)果。我們?cè)O(shè)定一個(gè)時(shí)間值,讓虛擬人的眼睛在這個(gè)值附近隨機(jī)眨動(dòng)。這就為用戶提供了一個(gè)生動(dòng)有趣的交互環(huán)境,使虛擬人顯得活靈活現(xiàn),更加逼真生動(dòng)。而且,加入了視覺跟蹤以后,以后我們可以根據(jù)不同的情境來產(chǎn)生不同的表情。(a)(b)(c)(d)2.5 提供給外部程序的接口(e)(f)圖 5 視覺跟蹤為了方便后續(xù)程序開發(fā)的工作,我們?cè)O(shè)計(jì)了與外部程序交互的接口。我們通過 wm_copydata10消息來在外部程序與本系統(tǒng)之間傳送數(shù)據(jù)。外部程序只需先找到本系統(tǒng) 的窗口句柄,然后向這個(gè)窗口句柄發(fā)送事先設(shè)計(jì)好的格式的數(shù)據(jù)即可。本系統(tǒng)一旦接收到 wm_copydata 消息,先對(duì)數(shù)據(jù)進(jìn)行驗(yàn)證,然后再讓模型產(chǎn)生相應(yīng)的變形,顯示相應(yīng)的效 果。3總結(jié)目前已有很多產(chǎn)生具有真實(shí)感的三維人臉模型和人臉動(dòng)畫的方法,但是在具有高真實(shí)感 模型的制作、人臉動(dòng)畫與語音同步等方面都還不夠理想。我們采用 facegen 定制出高度真實(shí) 感的人臉模型,并導(dǎo)出成 vrml 這種通用的 3d 文件格式。oiv 能夠完美支持 vrml97 和 多處理器的并行渲染技術(shù)。得到模型后,我們使用 oiv 3d 開發(fā)包讀取人臉模型,并把 vrml 節(jié)點(diǎn)轉(zhuǎn)化為 oiv 相應(yīng)的節(jié)點(diǎn),再重新設(shè)置材質(zhì)、光線和攝像機(jī)等參數(shù),顯示出了具有較高 真實(shí)感的效果。在人臉動(dòng)畫與語音同步方面,我們采用線性插值方法。在當(dāng)前表情與目標(biāo)表情的模型之 間進(jìn)行插值,得到的結(jié)果更新當(dāng)前表情模型;由 sapi 5.1 產(chǎn)生的、與目標(biāo)表情模型對(duì)應(yīng)的 可視音素以及這個(gè)可視音素的持續(xù)時(shí)間,計(jì)算出這個(gè)可視音素需要的幀數(shù),生成平滑過度的與中英文語音同步的人臉動(dòng)畫。為了方便后續(xù)的開發(fā)工作,我們還設(shè)計(jì)了一個(gè)與外部程序交互的接口。 最終我們實(shí)現(xiàn)了一個(gè)比較令人滿意的人臉語音動(dòng)畫系統(tǒng)。參考文獻(xiàn)1 王志明, 蔡蓮紅, 吳志勇, 陶建華漢語文本-可視語音轉(zhuǎn)換的研究j小型微型計(jì)算機(jī)系統(tǒng), 2002(04):9194.2 /modeller31_help.htmeb/ol.3 閻鋒欣,侯增選,張定華等.open inventor 程序設(shè)計(jì)從入門到精通m.北京:清華大學(xué)出版社,2007.4 open inventor 6.0 for vc+ .net 2003. users guideeb/ dk.5 ruibird.windows 語音編程初步eb/ol. /ruibird/archive/2007/04/05/1552380.aspx.6 王洵, 張道義, 董蘭芳, 萬壽紅.一個(gè)基于 sapi5.0 的中文語音動(dòng)畫系統(tǒng)j.計(jì)算機(jī)工程, 2003(04): 5254, 57.7 eb/ol.8 bradski g r. computer vision face tracking for use in a perceptual user interfacej. intel technology journal,1998, 2: 214 219.9 eb/ol.10 明日科技. visual c+ 開發(fā)經(jīng)驗(yàn)技巧寶典m.北京:人民郵電出版社,2007.a chinese and english speech animation system with visualtrackinglv yushenginstitute of computer science & technology, ningbo university, ningbo zhejiang(315211)abstractthe article gives a chinese and english speech animation system with visual tracking. this paper describes the systems design process and the necessary technology, including viseme, production and display of the three-dimensional heads model , voice and animation simultaneously, smooth natural transition of the animation, the eyes tracking and random blink, and the program interfaces design with the outside program. the systems facia
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 相對(duì)于半對(duì)偶模的半Gorenstein同調(diào)模
- 課題開題報(bào)告:鄉(xiāng)村學(xué)校學(xué)生個(gè)性化發(fā)展的校本特色課程研究
- 縣域內(nèi)小學(xué)語文教學(xué)生活化的實(shí)踐研究
- 基于“教-學(xué)-評(píng)”一體化框架的高中英語寫作教學(xué)研究
- 學(xué)科座談會(huì)老師發(fā)言稿
- 民間面塑在小學(xué)美術(shù)教學(xué)中的實(shí)踐研究
- 課題開題報(bào)告:提升區(qū)域?qū)W前教育教研質(zhì)量的研究
- 2025年單克隆抗體診斷試劑項(xiàng)目經(jīng)濟(jì)效益評(píng)估報(bào)告
- 物流行業(yè)軟件管理及效率提升措施
- 地暖系統(tǒng)冬季維護(hù)措施
- 2025內(nèi)蒙古西部新能源開發(fā)有限公司招聘工作人員20人筆試參考題庫附帶答案詳解
- GB/T 45236-2025化工園區(qū)危險(xiǎn)品運(yùn)輸車輛停車場建設(shè)規(guī)范
- 2025湖北日?qǐng)?bào)傳媒集團(tuán)招聘45人筆試參考題庫附帶答案詳解
- 2025年南京信息職業(yè)技術(shù)學(xué)院單招職業(yè)技能測試題庫匯編
- 2025春教科版(2024)小學(xué)一年級(jí)下冊(cè)科學(xué)全冊(cè)教案
- 第10章 浮力較難2 難題練習(xí) 2021年初中物理培優(yōu)(重點(diǎn)高中自主招生 競賽)
- 計(jì)算機(jī)一級(jí)測試題(附參考答案)
- 教學(xué)課件-液壓與氣壓傳動(dòng)項(xiàng)目教程(侯守軍)
- 2024年中考語文試題分類匯編:小說閱讀(第02期)含答案及解析
- GB∕T 2518-2019 連續(xù)熱鍍鋅和鋅合金鍍層鋼板及鋼帶
- 第五章新聞評(píng)論的嬗變
評(píng)論
0/150
提交評(píng)論