《文旅2D數(shù)字人技術規(guī)范》_第1頁
《文旅2D數(shù)字人技術規(guī)范》_第2頁
《文旅2D數(shù)字人技術規(guī)范》_第3頁
《文旅2D數(shù)字人技術規(guī)范》_第4頁
《文旅2D數(shù)字人技術規(guī)范》_第5頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

ICS03.200

CCSA01

團體標準

T/WLLXXXX—XXXX

文旅2D數(shù)字人技術規(guī)范

CulturalandTourism2DDigitalHumanTechnicalSpecifications

(征求意見稿)

XXXX-XX-XX發(fā)布XXXX-XX-XX實施

溫州市科學技術情報學會發(fā)布

T/WLLXXXX—XXXX

文旅2D數(shù)字人技術規(guī)范

1范圍

本文件規(guī)定了文旅2D數(shù)字人的術語和定義、制作要求、技術能力、應用場景、文旅數(shù)字資源庫。

本文件適用于文旅2D數(shù)字人的技術要求。

2規(guī)范性引用文件

下列文件中的內容通過文中的規(guī)范性引用而構成本文件必不可少的條款。其中,注日期的引用文件,

僅該日期對應的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本

文件。

3縮略語、術語和定義

下列縮略語、術語和定義適用于本文件。

文旅CulturalandTourism

文化和旅游。

文旅行業(yè)相關場所CulturalandTourismIndustry-relatedVenues

文旅景區(qū)、博物館、文旅場所。

2D數(shù)字人2DDigitalHuman

形象為平面圖像,其圖形內容僅包含水平和垂直維度信息的,通過從真人視頻中提取語音、唇

形、面部表情和其他特征,并使用語音、唇形、面部表情合成和深度學習技術進行訓練的數(shù)字人。

文旅2D數(shù)字人CulturalandTourism2DDigitalHuman

文旅行業(yè)相關場所的虛擬共生服務角色,與游客實現(xiàn)面對面實時互動交流,為游客提供路線規(guī)

劃、信息查詢、導覽講解等智能服務,打造沉浸式的交互體驗。

4使用場景

文旅2D數(shù)字人的使用場景分為:視頻播報、智能互動、智能導覽、數(shù)字講解。

5文旅2D數(shù)字人應用系統(tǒng)框架

1

T/WLLXXXX—XXXX

將文旅2D數(shù)字人系統(tǒng)分為六個部分:圖像;語音;動畫;技術能力;多模態(tài)輸入和多模態(tài)輸出。

前四個部分與數(shù)字人角色本身密切相關,而最后兩個部分是數(shù)字人需要具備的用于呈現(xiàn)或與多模態(tài)輸

入輸出設備進行交互的屬性,如圖1所示。

圖1-文旅2D數(shù)字人應用系統(tǒng)框架

圖像模塊:提供文旅2D數(shù)字人的圖像;

語音模塊:可以根據(jù)文本生成與之對應的角色語音;

動畫模塊:可以根據(jù)文本生成角色動畫,包括面部表情和身體動作。動畫模塊由智能驅動;

交互處理模塊:使文旅2D數(shù)字人能夠感知、識別、理解和做出決策,即通過語音識別和語義識別等智

能技術識別用戶輸入信息,基于此理解用戶意圖,并根據(jù)用戶當前意圖決定文旅2D數(shù)字人的后續(xù)語音

和動畫,從而驅動文旅2D數(shù)字人啟動新的互動;

多模態(tài)輸入模塊:用于接收用戶的輸入;

多模態(tài)輸出模塊:用于向用戶呈現(xiàn)輸出。

指標和規(guī)范描述

5.1.1圖像

5.1.1.1人像錄制時應保持面部完整出現(xiàn)在視頻畫面內,任何肢體動作(如揮手等手勢)不遮擋臉部與

頸部;全身數(shù)字人使用4K分辨率以上拍攝,半身數(shù)字人使用2K分辨率以上拍攝,并讓人物在畫面中占

較大比例。

2

T/WLLXXXX—XXXX

5.1.1.2拍攝環(huán)境應保證光線充足且均勻,以防止視頻出現(xiàn)過亮過暗或明暗不均;使用專業(yè)綠幕;使用

綠幕時需離綠幕3-5m遠,防止人物身上出現(xiàn)綠光影響效果。

5.1.1.3文旅2D數(shù)字人應當保持良好聲屏形象,表演、服飾、妝容、語言、行為、肢體動作及畫面展

示等要文明得體,符合大眾審美情趣和欣賞習慣。

5.1.1.4文旅2D數(shù)字人形圖像需要沒有以下缺陷:嚴重的扭曲;嚴重的馬賽克;明顯的幀跳躍;其他

損傷。

5.1.1.5文旅2D數(shù)字人不能侵犯公民和法人的名譽權、榮譽權、個人隱私權、肖像權以及其他合法權

益。

5.1.2語音

5.1.2.1避免雜音和干擾,語音發(fā)音需要清晰準確,自然流暢;需要錄制不同的語音風格;錄制時需要

使用高質量的麥克風和錄音設備。

5.1.2.2要求環(huán)境底噪<35dBSPL,混響時間<150ms,采樣率48KHZ;樣長16bit。語音平穩(wěn),語音振幅

不高于-3dBFS,不低于-9BFS,不能出現(xiàn)截幅,噴麥現(xiàn)象。

5.1.2.3從文本合成語音的準確性應達到95%。不應有包括缺失聲音、過度發(fā)音、語調錯誤等語音錯誤。

5.1.3動畫

5.1.3.1數(shù)字人能夠根據(jù)通過語音或者文字進行動畫的輸出,包括唇部可以根據(jù)輸入的語言信息自動

生成唇部動畫參數(shù),頭部旋轉要符合語音的時間序列節(jié)奏特征,整體身體協(xié)調多模式運動。

5.1.3.2能夠在語音輸入時快速生成對應的2D人像動作和表情,驅動延遲小于50毫秒;生成的2D人

像動作和表情需要自然流暢,能夠與語音輸入形成良好的協(xié)調性。

6技術能力

播報視頻輸出能力

文旅2D數(shù)字人擁有輸入文字和上傳語音生成播報視頻的能力。

語音互動能力

文旅2D數(shù)字人語音識別準確度應達98%,語義識別準確率達95%,以確保數(shù)字人能夠正確地理解用戶

的語音指令和問題。

多語言溝通

文旅2D數(shù)字人宜具備包括各地方言在內的多語言溝通能力,以適應不同的用戶需求和語言環(huán)境。

多模態(tài)輸入

該模塊用于接收用戶輸入信息,支持文本、語音、圖像和觸摸控制等各種輸入方式。

多模態(tài)輸出

多模態(tài)輸出:該模塊用于通過語音、動畫或其他形式輸出交互結果。

7文旅數(shù)字資源庫

文化旅游資源數(shù)字化

3

T/WLLXXXX—XXXX

宜對文化旅游資源進行收集、整理、上傳、數(shù)字化,在充分尊重和保護版權的基礎上,提供各類數(shù)

字文化資源的存儲、管理、展示、推廣等服務。

特色檔案庫

對A級景區(qū)、風景名勝區(qū)、名人著作、地方特色、地方方言、數(shù)字文獻、非物質文化

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論