具有視覺跟蹤的中英文語音動(dòng)畫系統(tǒng)1.doc

上傳人：伐*** IP屬地：寧夏上傳時(shí)間：2019-07-11 格式：DOC 頁數(shù)：6 大小：1.62MB 積分：10.8 舉報(bào) 版權(quán)申訴

免費(fèi)預(yù)覽已結(jié)束，剩余1頁可下載查看

 下載本文檔

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

具有視覺跟蹤的中英文語音動(dòng)畫系統(tǒng)1呂玉生寧波大學(xué)信息科學(xué)與工程學(xué)院，寧波 (315211) e-mail：11007118摘要：本文給出了一個(gè)具有視覺跟蹤的中英文語音動(dòng)畫系統(tǒng)的實(shí)現(xiàn)過程。該文介紹了該系統(tǒng)的設(shè)計(jì)過程以及所需的技術(shù)，包括可視音素、三維人頭模型的制作與顯示、語音與動(dòng)畫的同步、動(dòng)畫的平滑自然的過渡、眼睛的跟蹤與隨機(jī)眨眼、與外部程序接口的設(shè)計(jì)等。該語音動(dòng)畫系統(tǒng)具有人臉表情真實(shí)自然等特點(diǎn)，在普通 pc 機(jī)上能夠產(chǎn)生高質(zhì)量的語音動(dòng)畫。關(guān)鍵詞：語音動(dòng)畫可視語音合成可視音素人機(jī)交互視覺跟蹤中圖分類號(hào)：tp391.411引言隨著多媒體技術(shù)的迅速發(fā)展，多種媒體之間的信息融合也日益受到人們的重視。人臉和語音是人類相互交流的兩種最重要的渠道，將人臉動(dòng)畫技術(shù)（facial animation）與語音處理技術(shù)（speech processing）相結(jié)合、用計(jì)算機(jī)生成語音與口形同步動(dòng)畫的技術(shù)，稱作語音動(dòng) 畫技術(shù)，也被稱為“說話的人頭”（talking head）。在人機(jī)交互等應(yīng)用環(huán)境中，如果人們面對(duì)的是這樣一個(gè)會(huì)說話的人物形象，則會(huì)使計(jì)算機(jī)界面更為友好，人機(jī)之間的交流更加自然。研究表明，在環(huán)境噪聲較大的情況下，如果在給出聲音信息的同時(shí)能給出一個(gè)“說話的人頭”，則可使信噪比提高約8-12db1。本文結(jié)合了幾款優(yōu)秀軟件的強(qiáng)大功能，開發(fā)出了一款支持中英文語音的人臉動(dòng)畫系統(tǒng)。該動(dòng)畫系統(tǒng)具有表情表現(xiàn)自然真實(shí)等特點(diǎn)，并且為了方便后續(xù)程序開發(fā)的工作，我們還設(shè)計(jì)了與外部程序交互的接口。2語音動(dòng)畫系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)如圖 1 所示，整個(gè)系統(tǒng)的界面分為三個(gè)部分。左上部為三維人頭的顯示區(qū)域，可以對(duì)三維人頭進(jìn)行旋轉(zhuǎn)、縮放等操作；左下部為文本輸入以及語音控制部分，可以選擇男女聲、調(diào) 節(jié)音量和語速等；右面部分為模型變形的控制部分，包括控制 7 種表情、15 種調(diào)節(jié)器和 16 種可視音素對(duì)應(yīng)模型的變形程度，并且可以通過組合產(chǎn)生出各種新的表情。1本課題得到國家科技部 973 重大基礎(chǔ)前期專項(xiàng)(2005cca04400)、國家自然科學(xué)基金項(xiàng)目(60672071)的資助。-6-2.1 三維人頭模型的制作與顯示圖 1 系統(tǒng)界面在三維人頭模型的制作軟件中，facegen2是一款非常優(yōu)秀的制作參數(shù)化人頭的工具軟件，操作簡單，全部實(shí)時(shí)交互調(diào)節(jié)，可調(diào)節(jié)的參數(shù)達(dá)上百個(gè)，可對(duì)頭部 60 多個(gè)區(qū)域進(jìn)行調(diào) 節(jié)。調(diào)節(jié)內(nèi)容包括人種、性別、年齡等。此外，還可以調(diào)節(jié)幾十種表情和口型。(a)正面人頭照片(b)合成的三維人頭正面截圖圖 2 原圖與合成圖同時(shí)，我們還可以通過提供一張正面人頭照片，讓 facegen 合成出非常逼真的三維人頭模型。如圖 2 所示，我們提供一張正面人頭照片，通過 facegen，合成了一個(gè)逼真的三維人頭模型。三維人頭模型制作完成以后，就可以導(dǎo)出為數(shù)種流行的 3d 文件格式，如 obj、3ds、vrml 等。因?yàn)?open inventor3（以下簡稱 oiv）可以完美支持 vrml97 格式，所以我們導(dǎo)出包括中性和其他所有目標(biāo)動(dòng)畫人臉模型在內(nèi)的 vrml97 文件。oiv 是目前世界上應(yīng)用最為廣泛的面向?qū)ο蠛徒换ナ降娜S圖形軟件開發(fā)包。它是在opengl 的基本上開發(fā)而成的，因而也是一種相對(duì)獨(dú)立的圖形系統(tǒng)，并可方便地移植到不同操作系統(tǒng)的硬件平臺(tái)上。由于 oiv 在構(gòu)造復(fù)雜的三維場景時(shí)采用了“搭積木”的靈活方式，這使得用戶只需花費(fèi)較少的時(shí)間就可構(gòu)造出復(fù)雜、優(yōu)美的三維場景。另外，oiv 還能夠完美支持三維音效、三維紋理和多處理器的并行渲染技術(shù)。但是 vrml 與 oiv 在紋理處理方式上是有不同的4。對(duì)于 rgb 和 argb 構(gòu)成的紋理文件，在 vrml 中直接用紋理的顏色替換物體的顏色。這樣，要想得到我們想要的在眼球上有一個(gè)高光反射的亮點(diǎn)的效果就變得非常麻煩。眼睛是心靈的窗口，如果在模型的顯示中，眼球上有一個(gè)高光反射的亮點(diǎn)，那么必然會(huì)使顯示效果看起來更加逼真生動(dòng)。相反，使用 ovi 的相應(yīng)節(jié)點(diǎn)可以相對(duì)容易的做到這樣的效果。我們使用 oiv 3d 開發(fā)包讀取 vrml 人臉模型文件，并把 vrml 節(jié)點(diǎn)轉(zhuǎn)化為 oiv 相應(yīng)的節(jié)點(diǎn)，再重新調(diào)節(jié)材質(zhì)、光線和攝像機(jī)等節(jié)點(diǎn)的參數(shù)，顯示出了具有較高真實(shí)感的效果。圖 3(b)的效果明顯要比圖 3(a)的效果要好的多。2.2 可視音素（a）使用 vrml 節(jié)點(diǎn)（b）轉(zhuǎn)化成 ovi 的節(jié)點(diǎn)圖 3 眼球上的高光反射microsoft 公司的 sapi 5.15是微軟 windows 環(huán)境下的語音開發(fā)工具包，提供了包括中英文在內(nèi)的數(shù)種語音開發(fā)的接口，使語音系統(tǒng)的開發(fā)變得非常方便。但是使用它本身提供的幾種語音包合成的語音，聽起來不夠自然，而且沒有定義中文的可視音素，不能直接得到中文可視音素及其持續(xù)時(shí)間。文獻(xiàn)6中給出了中文可視音素的獲取和估計(jì)其持續(xù)時(shí)間的方法。 neospeech7是當(dāng)前最好的語音合成軟件之一，它的效果幾乎可以亂真。neospeech 提供了中英日韓四種語音包，并且實(shí)現(xiàn)了 sapi 語音接口，以統(tǒng)一的方式提供了這四種語言的可視音素。這種就可以使用 sapi 調(diào)用 neospeech，合成出高質(zhì)量的語音。facegen 提供 16 種可視音素，而 sapi 5.1 定義了 22 種可視音素。經(jīng)過反復(fù)試驗(yàn)后，我們定義了它們之間的對(duì)應(yīng)關(guān)系。有了可視音素以及表情等模型，下面要做的就是怎么樣讓這些模型與語音同步并且平滑地動(dòng)起來。(a) aa (b) d,s,t圖 4 可視音素 aa 和 d,s,t2.3 語音與動(dòng)畫的同步、動(dòng)畫的平滑自然的過渡在人說話的時(shí)候，一個(gè)口型到另一個(gè)口型的轉(zhuǎn)化是平滑的。所以我們要想得到比較自然的過渡效果，那么在前一個(gè)可視音素對(duì)應(yīng)的口型與下一個(gè)可視音素對(duì)應(yīng)的口型過渡的時(shí)候，必須產(chǎn)生幾幀中間的口形動(dòng)畫。我們?cè)诋惒椒绞较抡{(diào)用 sapi 的 speak 函數(shù)朗讀文本，然后處理 spei_tts_viseme 事件，得到可視音素及其相應(yīng)的持續(xù)時(shí)間。接著進(jìn)行可視音素的過渡，得到與輸出語音對(duì)應(yīng)的同步的人臉動(dòng)畫，進(jìn)而生成語音動(dòng)畫。我們對(duì)此的處理過程如下：(1) 在異步方式下調(diào)用 sapi 的 speak 函數(shù)朗讀輸入的文本；(2) 處理 spei_tts_viseme 事件，得到可視音素及其持續(xù)時(shí)間；(3) 計(jì)算從前一個(gè)可視音素對(duì)應(yīng)的人臉動(dòng)畫到當(dāng)前得到的可視音素對(duì)應(yīng)的目標(biāo)人臉動(dòng) 畫平滑過渡所需要的幀數(shù)。幀數(shù)可視音素的持續(xù)時(shí)間(毫秒)/30；持續(xù)時(shí)間長的可視音素將對(duì)應(yīng)較多的幀數(shù)。將可視音素的編號(hào)與計(jì)算出的幀數(shù)放入一個(gè)可視音素隊(duì)列中；(4) 在一個(gè)每秒鐘響應(yīng) 30 次的定時(shí)器響應(yīng)函數(shù)中讀取這個(gè)可視音素隊(duì)列，根據(jù)過渡所需要的幀數(shù)在前一可視音素與讀取的可視音素對(duì)應(yīng)的人臉動(dòng)畫之間進(jìn)行線性插值，顯示出多幀平滑的過渡動(dòng)畫。2.4 眼睛的跟蹤與隨機(jī)眨動(dòng)在人與人的自然交互中，在說話的同時(shí)，一般眼睛都會(huì)盯著對(duì)方，并且伴隨著隨機(jī)性的眨眼動(dòng)作。同樣，在具有逼真效果的人臉語音動(dòng)畫系統(tǒng)中，眼睛的跟蹤與隨機(jī)眨動(dòng)也是非常必要的。我們使用 camshift8,9方法對(duì)視頻中的人臉進(jìn)行檢測，根據(jù)檢測結(jié)果設(shè)定虛擬人的眼球轉(zhuǎn)動(dòng)的方向與程度，即實(shí)現(xiàn)三維虛擬人 “盯著人看”的效果。 camshift 是 “continuously adaptive mean-shift”的簡稱，意為連續(xù)自適應(yīng)均值移動(dòng)算法。它是一種實(shí) 時(shí)性和魯棒性良好的跟蹤算法，能夠根據(jù)前一幀圖像中目標(biāo)物的顏色分布自動(dòng)調(diào)整搜索窗口的大小，在下一幀中找到目標(biāo)物體所在區(qū)域的中心及目標(biāo)物的大小。對(duì)于每一幀視頻圖像，它首先根據(jù)目標(biāo)物的顏色直方圖模型將圖像轉(zhuǎn)化為顏色概率分布圖。對(duì)于人臉跟蹤來說，就是根據(jù)人臉的膚色信息建立顏色直方圖，然后在轉(zhuǎn)化后的顏色概率分布圖中利用 camshift 算法找到人臉的中心和大小。重復(fù)這個(gè)過程就實(shí)現(xiàn)了對(duì)人臉的連續(xù)跟蹤了。圖 5 顯示眼睛的跟蹤效果。(a)、(b)、(c)為 camshift 對(duì)攝像頭前人臉的跟蹤效果，(b)、(d)、 (f)為相應(yīng)的眼睛跟蹤結(jié)果。我們?cè)O(shè)定一個(gè)時(shí)間值，讓虛擬人的眼睛在這個(gè)值附近隨機(jī)眨動(dòng)。這就為用戶提供了一個(gè)生動(dòng)有趣的交互環(huán)境，使虛擬人顯得活靈活現(xiàn)，更加逼真生動(dòng)。而且，加入了視覺跟蹤以后，以后我們可以根據(jù)不同的情境來產(chǎn)生不同的表情。(a)(b)(c)(d)2.5 提供給外部程序的接口(e)(f)圖 5 視覺跟蹤為了方便后續(xù)程序開發(fā)的工作，我們?cè)O(shè)計(jì)了與外部程序交互的接口。我們通過 wm_copydata10消息來在外部程序與本系統(tǒng)之間傳送數(shù)據(jù)。外部程序只需先找到本系統(tǒng) 的窗口句柄，然后向這個(gè)窗口句柄發(fā)送事先設(shè)計(jì)好的格式的數(shù)據(jù)即可。本系統(tǒng)一旦接收到 wm_copydata 消息，先對(duì)數(shù)據(jù)進(jìn)行驗(yàn)證，然后再讓模型產(chǎn)生相應(yīng)的變形，顯示相應(yīng)的效果。3總結(jié)目前已有很多產(chǎn)生具有真實(shí)感的三維人臉模型和人臉動(dòng)畫的方法，但是在具有高真實(shí)感模型的制作、人臉動(dòng)畫與語音同步等方面都還不夠理想。我們采用 facegen 定制出高度真實(shí) 感的人臉模型，并導(dǎo)出成 vrml 這種通用的 3d 文件格式。oiv 能夠完美支持 vrml97 和多處理器的并行渲染技術(shù)。得到模型后，我們使用 oiv 3d 開發(fā)包讀取人臉模型，并把 vrml 節(jié)點(diǎn)轉(zhuǎn)化為 oiv 相應(yīng)的節(jié)點(diǎn)，再重新設(shè)置材質(zhì)、光線和攝像機(jī)等參數(shù)，顯示出了具有較高真實(shí)感的效果。在人臉動(dòng)畫與語音同步方面，我們采用線性插值方法。在當(dāng)前表情與目標(biāo)表情的模型之間進(jìn)行插值，得到的結(jié)果更新當(dāng)前表情模型；由 sapi 5.1 產(chǎn)生的、與目標(biāo)表情模型對(duì)應(yīng)的可視音素以及這個(gè)可視音素的持續(xù)時(shí)間，計(jì)算出這個(gè)可視音素需要的幀數(shù)，生成平滑過度的與中英文語音同步的人臉動(dòng)畫。為了方便后續(xù)的開發(fā)工作，我們還設(shè)計(jì)了一個(gè)與外部程序交互的接口。最終我們實(shí)現(xiàn)了一個(gè)比較令人滿意的人臉語音動(dòng)畫系統(tǒng)。參考文獻(xiàn)1 王志明, 蔡蓮紅, 吳志勇, 陶建華漢語文本-可視語音轉(zhuǎn)換的研究j小型微型計(jì)算機(jī)系統(tǒng), 2002(04)：9194.2 /modeller31_help.htmeb/ol.3 閻鋒欣，侯增選，張定華等.open inventor 程序設(shè)計(jì)從入門到精通m.北京：清華大學(xué)出版社，2007.4 open inventor 6.0 for vc+ .net 2003. users guideeb/ dk.5 ruibird.windows 語音編程初步eb/ol. /ruibird/archive/2007/04/05/1552380.aspx.6 王洵, 張道義, 董蘭芳, 萬壽紅.一個(gè)基于 sapi5.0 的中文語音動(dòng)畫系統(tǒng)j.計(jì)算機(jī)工程, 2003(04): 5254, 57.7 eb/ol.8 bradski g r. computer vision face tracking for use in a perceptual user interfacej. intel technology journal,1998, 2: 214 219.9 eb/ol.10 明日科技. visual c+ 開發(fā)經(jīng)驗(yàn)技巧寶典m.北京：人民郵電出版社，2007.a chinese and english speech animation system with visualtrackinglv yushenginstitute of computer science & technology, ningbo university, ningbo zhejiang(315211)abstractthe article gives a chinese and english speech animation system with visual tracking. this paper describes the systems design process and the necessary technology, including viseme, production and display of the three-dimensional heads model , voice and animation simultaneously, smooth natural transition of the animation, the eyes tracking and random blink, and the program interfaces design with the outside program. the systems facia

人人文庫> 全部分類> 專業(yè)文獻(xiàn) > 工程機(jī)械

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

具有視覺跟蹤的中英文語音動(dòng)畫系統(tǒng)1.doc

文檔簡介

溫馨提示

最新文檔

評(píng)論

具有視覺跟蹤的中英文語音動(dòng)畫系統(tǒng)1.doc

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔