T-CTSA 0015-2023 虛擬數(shù)字人能力技術(shù)要求 第1部分:通用技術(shù)要求_第1頁
T-CTSA 0015-2023 虛擬數(shù)字人能力技術(shù)要求 第1部分:通用技術(shù)要求_第2頁
T-CTSA 0015-2023 虛擬數(shù)字人能力技術(shù)要求 第1部分:通用技術(shù)要求_第3頁
T-CTSA 0015-2023 虛擬數(shù)字人能力技術(shù)要求 第1部分:通用技術(shù)要求_第4頁
T-CTSA 0015-2023 虛擬數(shù)字人能力技術(shù)要求 第1部分:通用技術(shù)要求_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

ICS

03.080.01A10 T/CTSA

0015-2023

Technical

Requirements

for

Capabilities

Technical

Requirements2023-03-31

2023-03-31

0015-2023

3.1

3.2

3.3

5.1 5.2 5.3 5.4 7.1 7.2 7.3 7.4 8.1 8.2 8.3 8.4 8.5 8.6 8.7 0015-2023

本文件由中關(guān)村中恒文化科技創(chuàng)新服務(wù)聯(lián)盟和中國公共關(guān)系協(xié)會文化大數(shù)據(jù)產(chǎn)業(yè)委員會共同本文件起草單位:中央戲劇學(xué)院、快手科技有限公司、北京理工大學(xué)、中科院自動化所、北京藍(lán)色光標(biāo)數(shù)據(jù)科技股份有限公司、海信視像科技股份有限公司、北京素鱗科技產(chǎn)業(yè)有限公司、廣州玖的數(shù)碼科技有限公司、廣州龍聯(lián)科技文化發(fā)展有限公司、伏羲云(北京)文化科技有限公海南大學(xué)、中關(guān)村中恒文化科技融合創(chuàng)新中心、清研千訊(北京)科技有限公司、廈門理工學(xué)院影視與傳播學(xué)院、廈門理工學(xué)院設(shè)計(jì)藝術(shù)學(xué)院、福建網(wǎng)龍計(jì)算機(jī)網(wǎng)絡(luò)信息技術(shù)有限公司、上海東本文件主要起草人:宋震、徐夢露、鄭屹、劉文超、翁冬冬、包儀華、劉杰、劉復(fù)昌、潘志庚、郭曉喆、楊善松、劉德建、吳立素、高楠、蔣耀琳、付愛國、葛巖、許經(jīng)捷、龐博、閆喆、樸經(jīng)緯、蘇彥聰、李建勛、張勇、謝生文、黃夢醒、劉兵、高凱、亓峰、何雪萍、王競?cè)?、薛曉II0015-2023

部分:

通用技術(shù)要求范圍本文件規(guī)定了虛擬數(shù)字人基礎(chǔ)術(shù)語、虛擬數(shù)字人分類、虛擬數(shù)字人系統(tǒng)、虛擬數(shù)字人資產(chǎn)和 規(guī)范性引用文件下列文件中內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,僅該日期對應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包含所有的修改

human

human

術(shù)語和定義3.1

通用術(shù)語3.1.1 虛擬數(shù)字人

是指集成了計(jì)算機(jī)圖形學(xué)、計(jì)算機(jī)視覺、智能語音、自然語言處理技術(shù)的計(jì)算機(jī)應(yīng)用程序,

3.1.2虛擬數(shù)字人系統(tǒng)

是指利用人機(jī)界面、通信設(shè)施和數(shù)據(jù)管理系統(tǒng)等資源提供的服務(wù)來實(shí)現(xiàn)虛擬數(shù)字人能力的應(yīng)3.1.3虛擬數(shù)字人資產(chǎn)

digital

human

assets是指虛擬數(shù)字人開發(fā)過程中所涉及到的數(shù)字資源,通常以可存儲的數(shù)據(jù)、文本等信息為載體和表現(xiàn)形式,能夠持續(xù)用于支持虛擬數(shù)字人應(yīng)用系統(tǒng)運(yùn)行并能夠帶來一定的經(jīng)濟(jì)效益,主要包括0015-20233.1.4虛擬數(shù)字人角色

character是指基于虛擬數(shù)字人系統(tǒng),以虛擬數(shù)字人資產(chǎn)為支撐、以人形外貌為表征、以人機(jī)交互為主要方式、具有多重人類特征的數(shù)字孿生產(chǎn)物,其對外可呈現(xiàn)出相應(yīng)的服務(wù)能力,主要表現(xiàn)為形象3.2

技術(shù)術(shù)語3.2.1紋理

是指經(jīng)過正射糾正和統(tǒng)一勻光處理,用于表示物體色調(diào)、飽和度、明度等特征來反應(yīng)模型表

3.2.2 材質(zhì)

是指賦予模型表面色彩、紋理、光滑度、透明度、反射率、折射率、發(fā)光度等可視屬性的過

3.2.3 渲染

本文件中特指經(jīng)由虛擬數(shù)字人模型數(shù)據(jù)生成一張或多張二維圖像的技術(shù),可具體分為實(shí)時渲GB/T3.2.4 骨骼節(jié)點(diǎn)

是指為了實(shí)現(xiàn)虛擬數(shù)字人表情、動作變化所創(chuàng)建的一系列與虛擬數(shù)字人模型相互關(guān)聯(lián)的可控3.2.5蒙皮

是指把虛擬數(shù)字人模型上的三維頂點(diǎn)關(guān)聯(lián)到骨骼節(jié)點(diǎn)上的技術(shù),使虛擬數(shù)字人模型可以通過3.2.6 綁定

本文件中特指為模型添加骨骼和控制器的制作過程,使模型物體有層次地被相關(guān)聯(lián)的骨骼控3.2.7模型

0015-2023本文件中特指利用三維建模和重建技術(shù),仿照實(shí)際人體外形或設(shè)計(jì)圖樣(不局限于平面與立

3.2.8模型數(shù)據(jù)

3.2.9 三維建模和重建

3.2.10 圖像分辨率

image

3.2.11交互

3.2.12文本驅(qū)動

text

3.2.13音頻驅(qū)動

3.2.14視頻驅(qū)動

3.2.15 動作捕捉驅(qū)動

3.2.16 完備度

描述虛擬數(shù)字人的模型組件、紋理貼圖等構(gòu)成要素是否能夠充分支撐渲染需求,是否用分離0015-20233.2.17精細(xì)度

3.2.18 風(fēng)格貼合度

3.3

應(yīng)用術(shù)語3.3.1數(shù)字人美術(shù)風(fēng)格

art

是指虛擬數(shù)字人渲染的美術(shù)風(fēng)格,可根據(jù)與真人的相似程度可分為卡通、半寫實(shí)、寫實(shí)等

3.3.2 形象呈現(xiàn)能力

image

3.3.3語音生成能力

3.3.4 動作驅(qū)動能力

3.3.5交互表達(dá)能力

interactive

3.3.6 內(nèi)容供給能力

是指虛擬數(shù)字人能夠?qū)崿F(xiàn)知識表達(dá)的服務(wù)技能,具有用語言、面部表情和肢體動作等多模態(tài)3.3.7整體表現(xiàn)能力

縮略語

Dimension)虛擬數(shù)字人分類0015-20235.1

概述

5.2

按照圖像資產(chǎn)分類

——

虛擬數(shù)字人是指所構(gòu)建的虛擬數(shù)字人兼具高度、寬度和深度三個層次信息的立體形——卡通虛擬數(shù)字人是指以夸張變形為主要特點(diǎn),依據(jù)生產(chǎn)者的創(chuàng)造力和想象力,通過造型手段使虛擬數(shù)字人視覺特征更加鮮明,有意識地將虛擬數(shù)字人的臉型、五官形狀與位置、軀干造——半寫實(shí)虛擬數(shù)字人是指虛擬數(shù)字人的臉型、五官形狀與位置、軀干造型及比例等參數(shù)參照真人的生理解剖結(jié)構(gòu),但是會在一定程度上運(yùn)用恰當(dāng)?shù)母爬?、提煉等手法對現(xiàn)實(shí)中的人進(jìn)行再5.3

按照互動形式分類——實(shí)時交互虛擬數(shù)字人是指以三維實(shí)時引擎為技術(shù)途徑進(jìn)行構(gòu)建,可利用不同的驅(qū)動方式

——非實(shí)時交互虛擬數(shù)字人是指以傳統(tǒng)影視技術(shù)為基礎(chǔ)進(jìn)行構(gòu)建,其運(yùn)作流程主要依據(jù)目標(biāo)文本對應(yīng)生成虛擬數(shù)字人語音和動畫,并合成呈現(xiàn)給用戶,但無法進(jìn)行實(shí)時驅(qū)動,主要驅(qū)動方式

與實(shí)時交互虛擬數(shù)字人相比,非實(shí)時交互虛擬數(shù)字人更加關(guān)注資產(chǎn)質(zhì)量的維度,如生成的圖像質(zhì)量、——智能驅(qū)動虛擬數(shù)字人是指通過前置性對聲音、動作等內(nèi)容數(shù)據(jù)進(jìn)行標(biāo)樣、整理和學(xué)習(xí),使虛擬數(shù)字人智能系統(tǒng)對外界輸入的多模態(tài)信息能夠進(jìn)行自動讀取、解析及識別,實(shí)現(xiàn)虛擬數(shù)字人智能化信息處理與傳輸,從而決策后續(xù)的輸出文本、驅(qū)動模型生成相應(yīng)的語音與動作,完成與0015-2023——真人驅(qū)動虛擬數(shù)字人是指在實(shí)現(xiàn)虛擬數(shù)字人從靜態(tài)到動態(tài)的轉(zhuǎn)變過程中,需要通過視頻監(jiān)控、動作捕捉等系統(tǒng)提取真人的關(guān)鍵數(shù)據(jù)信息,將真人的表情、動作實(shí)時呈現(xiàn)在虛擬數(shù)字人形5.4

按照應(yīng)用模式分類——替身類虛擬數(shù)字人是指可代替真人從事一種或多種服務(wù)型工作,以提供標(biāo)準(zhǔn)化服務(wù)的數(shù)——分身型虛擬數(shù)字人是指其在真實(shí)世界中有客觀實(shí)在的對應(yīng)用戶,是基于真實(shí)用戶數(shù)據(jù)信——偶像型虛擬數(shù)字人是指其在真實(shí)世界中沒有客觀實(shí)在的對應(yīng)用戶,是基于創(chuàng)作者對現(xiàn)代虛擬數(shù)字人系統(tǒng)

個模塊與虛擬數(shù)字人角色本身密切相關(guān),

個模塊用以支撐虛擬數(shù)字人驅(qū)動與合成顯示,如

虛擬數(shù)字人系統(tǒng)框架0015-2023——交互模塊:可使虛擬數(shù)字人能夠感知、識別、理解和決策的模塊,即基于智能感知與識別、智能分析與決策等技術(shù)識別用戶輸入的信息,同時通過理解其意圖做出后續(xù)決策,以驅(qū)動虛

虛擬數(shù)字人資產(chǎn)7.1

概述虛擬數(shù)字人資產(chǎn)主要包括圖形圖像資產(chǎn)、驅(qū)動數(shù)據(jù)資產(chǎn)、系統(tǒng)技術(shù)資產(chǎn)等

個類別,支撐虛7.2

圖形圖像資產(chǎn)圖形圖像資產(chǎn)用于支撐虛擬數(shù)字人模型的視覺化呈現(xiàn),可按照空間維度分為二維圖形圖像資

7.2.1二維圖形圖像資產(chǎn)

位圖圖像以數(shù)字化的形式描述和存儲圖像上每一點(diǎn)的顏色、亮度等相關(guān)視覺信息,一般指代由數(shù)碼相

7.2.2 三維圖形圖像資產(chǎn)

紋理和圖像能夠在虛擬數(shù)字人交互和應(yīng)用中提供顏色和可視化細(xì)節(jié)。紋理連同形狀的表示形式(通常是三維模型)來呈現(xiàn)整個對象或場景,而圖像通常是對象或場景的獨(dú)立表示形式。常見的紋理包括紋理圖、法線0015-2023

三維模型能夠在虛擬數(shù)字人創(chuàng)建和應(yīng)用中提供空間、形狀等信息,一般將三維空間中點(diǎn)的位置(稱為

7.3

動態(tài)數(shù)據(jù)資產(chǎn)動態(tài)數(shù)據(jù)資產(chǎn)用于支撐虛擬數(shù)字人肢體動作、面部神情等動態(tài)效果呈現(xiàn),可按照數(shù)據(jù)模態(tài)的

7.3.1 動作數(shù)據(jù)資產(chǎn)動作數(shù)據(jù)資產(chǎn)用于驅(qū)動虛擬數(shù)字人肢體動作和面部表情,包括但不限于面部表情數(shù)據(jù)、肢體

面部表情數(shù)據(jù)用于驅(qū)動虛擬數(shù)字人面部表情,包括但不限于面部表情采集和捕捉數(shù)據(jù)、面部圖像處理

肢體動作數(shù)據(jù)用于驅(qū)動虛擬數(shù)字人的肢體動作,包括但不限于動作采集和捕捉數(shù)據(jù)、動作處理和驅(qū)動7.3.2 語音數(shù)據(jù)資產(chǎn)語音數(shù)據(jù)資產(chǎn)用于合成虛擬數(shù)字人的語音,以支撐實(shí)現(xiàn)語音播放、交互等聽覺效果,包括但

7.4系統(tǒng)技術(shù)資產(chǎn)系統(tǒng)技術(shù)資產(chǎn)用于支持虛擬數(shù)字人底層功能的開發(fā)實(shí)現(xiàn)。通常以整合的技術(shù)路徑及方法為內(nèi)容,通過一定的技術(shù)載體進(jìn)行表現(xiàn),不具有獨(dú)立實(shí)體,可按照技術(shù)路徑的整合性形式進(jìn)行拆分,包括但不限于形象技術(shù)資產(chǎn)、語音技術(shù)資產(chǎn)、動畫生成技術(shù)資產(chǎn)、音視頻合成技術(shù)資產(chǎn)、交互技0015-20237.4.1形象技術(shù)資產(chǎn)形象技術(shù)資產(chǎn)用于支持虛擬數(shù)字人角色的性格、外觀等視覺特征的生成、裝扮等功能,應(yīng)具7.4.2 語音技術(shù)資產(chǎn)語音技術(shù)資產(chǎn)用于支持虛擬數(shù)字人語音合成、編輯、轉(zhuǎn)換、定制等功能,應(yīng)具備但不限于如7.4.3動畫生成技術(shù)資產(chǎn)動畫生成技術(shù)資產(chǎn)用于支持虛擬數(shù)字人在圖形圖像數(shù)據(jù)等信息文本的基礎(chǔ)上實(shí)現(xiàn)動畫呈現(xiàn)功7.4.4 音視頻合成技術(shù)資產(chǎn)0015-20237.4.5交互技術(shù)資產(chǎn)交互技術(shù)資產(chǎn)用于支持虛擬數(shù)字人通過即時傳遞反饋信息實(shí)現(xiàn)與用戶互動等功能,應(yīng)具備但

該類型的技術(shù)資產(chǎn)是擴(kuò)展項(xiàng),不同類型的虛擬數(shù)字人會設(shè)置有不同技術(shù)方法和路徑,需根據(jù)現(xiàn)實(shí)使用虛擬數(shù)字人角色的能力8.1

概述虛擬數(shù)字人的能力包括但不限于形象呈現(xiàn)能力、語音生成能力、動作驅(qū)動能力、交互表達(dá)能

8.2

形象呈現(xiàn)能力形象是虛擬數(shù)字人進(jìn)行視覺表達(dá)的載

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論