CRSS-T-2023-009-服務機器人 中文語音交互系統(tǒng)性能測評方法_第1頁
CRSS-T-2023-009-服務機器人 中文語音交互系統(tǒng)性能測評方法_第2頁
CRSS-T-2023-009-服務機器人 中文語音交互系統(tǒng)性能測評方法_第3頁
CRSS-T-2023-009-服務機器人 中文語音交互系統(tǒng)性能測評方法_第4頁
CRSS-T-2023-009-服務機器人 中文語音交互系統(tǒng)性能測評方法_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

ICS35.240.01

CCSJ28

CRSS

重慶市機器人學會團體標準

T/CRSSXXXX—XXXX

服務機器人中文語音交互系統(tǒng)

性能測評方法

Servicerobots-Chinesesspeechinteractivesystem-Testingassessmentapproaches

(征求意見稿)

在提交反饋意見時,請將您知道的相關專利連同支持性文件一并附上。

-XX-XX發(fā)布XXXX-XX-XX實施

重慶市機器人學會發(fā)布

T/CRSSXXXX—XXXX

服務機器人中文語音交互系統(tǒng)

性能測評方法

1范圍

本文件規(guī)范了服務機器人中文語音交互系統(tǒng)性能測評方法的術語定義、技術要求、試驗條件、試驗

方法、等級評價指標。

本文件適用于服務機器人中文語音交互系統(tǒng)。

2規(guī)范性引用文件

下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,

僅該日期對應的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本

文件。

GB3096-2008聲環(huán)境質(zhì)量標準

GB/T17696-1999聲學測聽方法第3部分:語言測聽

GB/T21023-2007中文語音識別系統(tǒng)通用技術規(guī)范

GB/T21024-2007中文語音合成系統(tǒng)通用技術規(guī)范

GB/T36464.2-2018信息技術智能語音交互系統(tǒng)第2部分:智能家居

GB/T36464.4-2018信息技術智能語音交互系統(tǒng)第4部分:移動終端術語和定義

3術語和定義

下列術語和定義適用于本標準。

語音交互speechinteraction

人類和功能單元之間通過語音進行的信息傳遞和交流活動。

[來源:GB/T36464.2-2018,3.1]

語音交互系統(tǒng)speechinteractionsystem

由功能單元(或其組合)、數(shù)據(jù)資源等組成的能夠?qū)崿F(xiàn)與人類之間進行語音交互的系統(tǒng)。

[來源:GB/T36464.2-2018,3.2]

語音合成speechsynthesis

通過機械的、電子的方法合成人類語言的過程。

[來源:GB/T21024-2007,3.1]

在線online

處于跟互聯(lián)網(wǎng)相連接的狀態(tài)。

[來源:GB/T36464.2-2018,3.3]

脈沖編碼調(diào)制PCMpulsecodemodulation

對連續(xù)變化的模擬信號進行抽樣、量化和編碼產(chǎn)生的數(shù)字信號。

語音識別準確率speechrecognitionaccuracy

將人類的語音信號轉(zhuǎn)化為正確文本的概率。

3

T/CRSSXXXX—XXXX

任務驅(qū)動的多輪對話task-orientedspokendialoguesystems

滿足人類特定目的的持續(xù)對話。

問答Q&A

直接根據(jù)問題給出答案。

3.9

開放域聊天open-domainchat

不局限話題的聊天。

3.10

響應時間responsetime

從語音例句播放完成至系統(tǒng)做出語音反饋開始而所用的時間。

3.11

語音喚醒speechwakeup;voicetrigger

處于音頻流監(jiān)聽狀態(tài)的語音交互系統(tǒng),在檢測到特定的特征或事件出現(xiàn)后,切換到命令字識別、連

續(xù)語音識別等其他處理狀態(tài)的過程。

[來源:GB/T36464.2-2018,3.13]

3.12

誤喚醒falsewakeup

語音喚醒過程中出現(xiàn)的,無音頻流或者音頻流中沒有出現(xiàn)喚醒所需的特征或事件時,語音喚醒系統(tǒng)

被喚醒的現(xiàn)象。

3.13

穩(wěn)定性stability

語音交互系統(tǒng)在正常網(wǎng)絡條件下穩(wěn)定工作的能力。

4創(chuàng)建測評語音材料數(shù)據(jù)庫

測評語料設計

測評語料應從句型覆蓋、詞匯量覆蓋、語義覆蓋以及詞域覆蓋等加以設計。評測集文本分為若干組,

每組可以由若干人發(fā)音組成。設計要求如下:

a)應針對被測評的服務機器人產(chǎn)品的自身特性進行設計;

注:如針對兒童陪護的服務機器人產(chǎn)品應加入相關語料,如兒歌、故事等對話語料內(nèi)容。

b)應從不同領域、不同環(huán)境的語料中隨機選擇,同時考慮發(fā)音現(xiàn)象的覆蓋性;

c)應充分考慮句型、詞匯、語義等的覆蓋性;

d)應根據(jù)不同測試項目的試驗目的進行測試句的內(nèi)容設計;

e)測評語料除了核心主句,還應配備核心主句的相似變形句進行測評。

注:語料基礎話題類別可參考:新聞、天氣、時間日程、股票、體育、科技、日歷、美食、旅行、音樂點播、電影、購

物、花藝、家居、服裝、美妝、養(yǎng)老、醫(yī)療、游戲等多種類別方向。

語音錄制要求

4.2.1錄制設備及環(huán)境

為了清晰地錄制說話者的聲音,應考慮如下事項:

a)錄音場所要選擇隔音效果好的,且能夠隔絕反射音及外部噪聲的地方,如消音室;

b)需要選擇中音帶域和高音帶域的頻率響應特性好的測量麥克風;

c)調(diào)整說話者的嘴和麥克風至合適的距離,如圖1所示,建議為15~20cm,不要超過聲音等級的

最大許容值,以免形成不正確的發(fā)音;

4

T/CRSSXXXX—XXXX

圖1錄音距離示意圖

d)會受到事先錄制的聲音音壓影響的說話者,其嗓音、講話語速和理想聲譜宜依照ISO/TR4870-

1991的2.24~2.26中的規(guī)定;

e)錯誤的發(fā)聲、波形截斷、無法理解的聲音、舌短音、感嘆詞等都屬于錯誤的,需要讓發(fā)聲者再

次發(fā)聲;

f)錄制音頻時,使音頻信號等級的平均最大振幅保持在16bit左右(動態(tài)范圍96dB),音頻信號

的采樣頻率可設置為44.1kHz,參見附錄B;

g)音頻信號以44.1kHz的16bit線型PCM數(shù)據(jù)進行存儲,再將音頻文件壓縮為MP3的格式進行

使用;

h)錄音過程至少包括錄音、標注和確認三個步驟,保證測評數(shù)據(jù)庫的正確性。

注1:男:低音82~392Hz,基準音區(qū)64~523Hz;中音123~493Hz,高音164~698Hz。

注2:女:低音82~392Hz,基準音區(qū)160~1200Hz;中音123~493Hz,高音220~1.1kHz。

4.2.2發(fā)音人員

測評語音錄制時對發(fā)音人員的要求如下:

a)發(fā)音人員應持有國家普通話水平測試等級二級乙等(含)以上證書;

b)發(fā)音人員的選擇應在符合系統(tǒng)對發(fā)音人員限制的條件下,盡可能選擇具有代表性和統(tǒng)計分布

規(guī)律的發(fā)音人員,特別是考慮不同口音、不同年齡、不同語速、不同教育背景、不同說話韻律

等因素;

c)無論是特定人還是非特定人的中文語音交互系統(tǒng),進行測試的發(fā)音人員至少為20個人以上;

每人需對測試語料中的一組或多組發(fā)音;

d)不同發(fā)音人盡量采用不同語料組;

e)對于非特定人的中文語音交互系統(tǒng),特別應強調(diào)對有一定口音的中文適應能力和中文語調(diào)問

題。

5創(chuàng)建背景噪聲數(shù)據(jù)庫

噪聲種類

考慮到在機器人的服務環(huán)境中可能存在的主要噪聲,應準備能夠模擬此種環(huán)境的噪聲。環(huán)境噪聲選

定為如下兩個范疇:

a)白噪聲;

b)不同場所的生活噪聲。

家庭:TV、電話鈴聲、吸塵器、冰箱、空調(diào)、洗碗的聲音;

教育場所:教室中存在持續(xù)吵鬧和討論的聲音、老師講課的聲音;

公共場所:飯店、醫(yī)院、電影院、銀行、機場、火車站、商場、超市的聲音。

注:在測試過程中,以上所列舉的噪聲需持續(xù)發(fā)聲5s以上。

噪聲采集環(huán)境

為了錄制噪聲,應根據(jù)實際情況采取以下建議進行噪聲采集:

a)需要在實際生活的噪聲環(huán)境中進行錄音;

b)需要選擇中音帶域和高音帶域的頻率響應特性好的測量麥克風;

c)將噪聲源和麥克風調(diào)整到合適的距離,不要超過噪聲等級的最大許容值;

d)在一段噪音區(qū)間內(nèi)的停頓時間要短于0.3s;

5

T/CRSSXXXX—XXXX

e)發(fā)出并收集5.1中所定義的噪音;

f)噪聲錄制格式為16bit,48kHz采樣的WAV格式,錄制的噪聲幅度最大值不能超過30000(單

位:樣本值),以免噪聲幅度銷頂;

g)要區(qū)分擴散場的背景噪聲和點聲源干擾噪聲錄制的區(qū)別;

h)擴散場的背景噪聲錄制應在不同位置設置麥克風進行錄制,便于還原真實噪聲場景;

i)點源干擾噪聲的錄制只需要一個麥克風在距離發(fā)聲源較近的地方錄制。

6測試環(huán)境搭建

生活場景

可用一些實物搭建被測設備實際工作時的使用場景或?qū)⒈粶y設備置于實際工作時的使用場景中進

行測試。

注1:常見家用服務機器人使用場景為客廳,模擬家居客廳環(huán)境參考:正常標準白墻房間(無異形,最好不超過30

平方米)內(nèi)布置大小方桌各一個,常見規(guī)整尺寸的沙發(fā)、電視柜、電視、落地空調(diào)、落地燈、裝飾隔板、窗

簾等等家具,家具大小尺寸樣式無具體要求,盡量貼合真實客廳場景,房間所處位置的實際生活噪聲不超過

7.3.5的要求即可,無需再次疊加新的背景噪聲。當被測設備帶有智能家居控制功能時,應為其配置可被控制

的家電產(chǎn)品。

注2:常見商用服務機器人使用場景為辦事大廳、展覽廳、會場等,可將待測機器人及測試設備帶入實際場景中進

行試驗展開。

消音室內(nèi)場景

6.2.1背景噪聲還原

為了模擬真實的待測設備使用場景,推薦以下噪聲播放要求:

a)一個點聲源干擾只能用一個音箱設備播放,要考慮點聲源干擾的距離和角度,以及點聲源的個

數(shù);

b)擴散場的背景噪聲一定要用多個音箱設備同時播放,比如房間的四個墻角,分別放置音箱,并

且音箱的出聲口對著墻,讓聲音經(jīng)過墻面反射;

c)戶外場景的噪聲和室內(nèi)場景的噪聲應考慮混響,比如要在消音室模擬戶外的噪聲場景,且要在

不同混響時間的房間模擬室內(nèi)的噪聲場景;

d)要設置不同的背景噪聲和點源干擾等級,比如絕對安靜,較安靜(40dB-50dB),嘈雜(60-70dB),

很嘈雜(80dB以上),此聲壓為機器人麥克風陣列處測量的聲壓;

e)回聲場景(機器人本身揚聲器播放而又被麥克風接收到的回聲)要考慮機器人本身播放語音聲

壓大小等級(比如50dB以下,50dB-70dB,80dB-最大聲),此聲壓為機器人麥克風陣列出測

量的聲壓,且需考慮機器人所處環(huán)境的混響、是否同時有點源干擾或者背景噪聲等變量。

6.2.2語料聲源位置

a)按照實際具體使用場景下,使用設備與聲源的相對距離、相對高度進行聲源的擺放;

注1:部分被測產(chǎn)品可參考如下,教育機器人多為桌面級產(chǎn)品,可設定語料發(fā)聲口距離機器人中心點30cm±5cm,設

定其他產(chǎn)品的距離時最好不超過40cm;語料聲源設備模擬使用者(成人)狀態(tài)站姿高度或者坐姿高度時時,

根據(jù)生活常見社交距離及機器人拾音情況,可設定語料發(fā)聲口距離機器人中心點50cm~100cm。

注2:GB/T36464系列標準中規(guī)定,小于1m為近場距離,大于1m(含)為遠場距離。

b)語料聲源設備數(shù)量定為1個。

6.2.3待測設備的位置

考慮到實際情況中,待測設備的使用情況,設備的位置會明顯影響收音的質(zhì)量,應該對待測設備的

位置做以下考慮:

a)是否靠墻;

b)是否在墻角;

c)靠墻的距離;

d)按照實際使用場景下,使用者和待測設備常見的距離設置發(fā)聲設備與待測設備的距離。

6

T/CRSSXXXX—XXXX

7測試方法

概述

為保證中文語音交互系統(tǒng)評測的再現(xiàn)性,評測應盡量采用基于語音材料數(shù)據(jù)庫的測試方法。無法采

用基于語音材料數(shù)據(jù)庫測試的,可采用基于現(xiàn)場口呼的測試方法。評測語料的設計與測評語音材料數(shù)據(jù)

庫的錄制應保證與實際使用場景的一致性,測試的結(jié)果以滿足規(guī)范的評測報告形式給出。

基于語音材料數(shù)據(jù)庫的測試方法說明

基于語音交互標準庫的測評過程采用錄制的語音數(shù)據(jù)對被測系統(tǒng)進行間接測試。方法說明如下:

a)間接測試指利用高保真播放設備(或者人工嘴)把語音交互標準庫中語音輸出到被測系統(tǒng);

b)在測試過程中,適時調(diào)整高保真播放設備與被測系統(tǒng)之間的距離(詳見6.2.2)及其擺放高度,

以滿足日常使用環(huán)境的實際需求;

c)設備播放方向正對被測樣品正面。

基于現(xiàn)場口呼的測試方法說明

現(xiàn)場口呼評測基本情況的要求與對測試語料的錄制要求類同,如下:

a)需要有兩個以上識別結(jié)果記錄者,記錄被測系統(tǒng)對當前發(fā)音的輸出結(jié)果;

b)記錄表應包括發(fā)音人、記錄人、操作人、監(jiān)督人、發(fā)音內(nèi)容、語音交互結(jié)果等內(nèi)容;

c)全部發(fā)音者測試結(jié)束后,統(tǒng)一按照性能標準進行指標評估,評估至少有兩個人以上參與;

d)對于交互結(jié)果能以文件形式給出的,被測系統(tǒng)對發(fā)音人的響應還應給出文件形式的輸出結(jié)果,

以便測評工作參考內(nèi)容充分。

一般要求

7.4.1人員要求

a)試驗人員應具備熟練操作被試品、測試設備并具有相應的技術和能力;

b)口呼測試人員應額外符合條款4.2.2的要求。

7.4.2試驗要求

除本標準或詳細規(guī)范另有規(guī)定外,所有試驗應在下列條件下進行:

a)溫度:室內(nèi)0℃~40℃;

b)相對濕度:10%RH~90%RH;

c)背景音/環(huán)境噪聲音量:50dB~70dB;

d)測試語音播放音量應保持在75(±5)dB;

e)被測設備電量充足,可正常使用,并且應確保被測設備具有語音拾音功能,可通過對話方式對

其進行控制和交互;

f)測試所需網(wǎng)絡滿足上行帶寬不低于100kbit/s、下行帶寬不低于50kbit/s,并保持穩(wěn)定的連通

狀態(tài);

g)混響時間:用于播放語料的揚聲器處混響時間不超過0.65s。

7.4.3數(shù)據(jù)記錄及處理

除個別項目有單獨的規(guī)定外,一般用揚聲器或人工嘴播放測試語料3次,在此過程中,測試人員可

依據(jù)情況靈活選擇口呼形式,測試次數(shù)也應為3次,最后以最優(yōu)數(shù)據(jù)進行原始記錄。

試驗項目

7.5.1問答

7.5.1.1試驗目的

測試語音交互系統(tǒng)在執(zhí)行一問一答任務時的“答案準確度”。

7.5.1.2試驗方法

7

T/CRSSXXXX—XXXX

語音交互系統(tǒng)在正常工作的狀態(tài)下,根據(jù)被測系統(tǒng)語音交互類別特性,有選擇性地通過測評語音材

料數(shù)據(jù)庫中的問答句進行提問,當?shù)玫酱鸢负鬁y試人員記錄該反饋答案(如果答案過長,測試員可簡潔

匯總記錄),并依照系統(tǒng)反饋結(jié)果是否能解答對應問題為標準,以打分方式進行記錄,打分規(guī)則應符合

本標準附錄A表A.1語義解析評分標準中的規(guī)定進行。

注:機器人用本地或者云端固定答復用戶時,如你這樣問還能愉快地玩耍嗎等等,可簡要記錄為固定不相關。

7.5.2任務驅(qū)動的多輪對話

7.5.2.1試驗目的

對被語音交互系統(tǒng)進行連續(xù)、有關聯(lián)且伴有明確任務目的的對話,測試其對語義的處理深度。

注:該對話分為弱相關性多輪對話和強相關性多輪對話,在設計相應語料時應注意。

7.5.2.2試驗方法

語音交互系統(tǒng)在正常工作的狀態(tài)下,根據(jù)被測系統(tǒng)的語音交互類別特性,有選擇性地播放測評語音

材料數(shù)據(jù)庫中具有針對性的內(nèi)容類型(如天氣、股市、時間日程等)來進行測試,每一類每一組下的多

輪對話例句均應進行測試。測試人員通過系統(tǒng)反饋結(jié)果,以是否完成相關任務為標準,記錄成功完成的

“有效對話輪數(shù)”,并計算該項目的任務完成率,詳見條款8.1。

注:建議每組多輪對話設置為五輪。

7.5.3開放域聊天

7.5.3.1試驗目的

測試語音交互系統(tǒng)在隨機的語音對話中穩(wěn)定保持話題延續(xù)性的能力。

7.5.3.2試驗方法

語音交互系統(tǒng)在正常工作的狀態(tài)下,根據(jù)被測系統(tǒng)語音交互類別特性,有選擇性地通過測評語音材

料數(shù)據(jù)庫中的開放域測試例句作為開始,進行聊天,之后根據(jù)被測系統(tǒng)的反饋結(jié)果,以測試人員口呼為

主,口呼語料與被測結(jié)果相關且隨機。測試人員記錄被測樣品的話題延續(xù)輪數(shù),并對該項目進行打分,

打分規(guī)則應符合條款8.2中的規(guī)定進行。

注:建議記錄截止輪數(shù)為5輪,并以5輪判定其聊天時長為滿分參考值。

7.5.4在線平均響應時間

7.5.4.1試驗目的

從用戶角度出發(fā),測試語音交互系統(tǒng)在執(zhí)行對話任務時,提供反饋所需要的時間。

7.5.4.2試驗方法

自語音例句播放完成的瞬間起測試人員開始計時,至被測產(chǎn)品做出語音反饋的開始瞬間完成計

時。記錄時間,每一個響應的時間總和除以總共測試次數(shù)即為在線平均響應時間,并將實際測試結(jié)果記

錄在原始記錄中。

7.5.5語音識別準確率

7.5.5.1試驗目的

測試語音交互系統(tǒng)對接收到的語音,正確識別語音中文字的能力。

7.5.5.2試驗方法

語音交互系統(tǒng)在正常工作的狀態(tài)下,根據(jù)被測系統(tǒng)語音交互類別特性,有選擇性地通過測評語音材

料數(shù)據(jù)庫中的每一類下的每一句語料進行測試,測試人員對照相應例句的識別結(jié)果記錄每一句測試例

句準確識別的字數(shù),計算語音交互系統(tǒng)對聲源例句中文字的“識別準確度”,詳見7.5.5.3,將計算結(jié)

果及相應得分填寫在原始記錄表中,打分規(guī)則應符合條款8.3中的規(guī)定進行。

注:測試例句的識別結(jié)果大多數(shù)時候可通過從有顯示屏(若有)的被測系統(tǒng)觀察實時獲得,或從系統(tǒng)輔助APP云端獲得,

或從系統(tǒng)提供商后臺調(diào)出被測系統(tǒng)語音識別的文字數(shù)據(jù)記錄等等。

7.5.5.3識別準確率計算方法

8

T/CRSSXXXX—XXXX

參見式(1)和式(2)。

........................(1)

........................(2)

式(1)~(2)中:

N——語音文本總字數(shù);

Mc——識別結(jié)果中正確識別字數(shù);

Me——錯誤識別字數(shù);

WER——語音識別的字錯誤率;

WCR——語音識別的字正確率。

7.5.6語音喚醒正確率

7.5.6.1試驗目的

測試語音交互系統(tǒng)在使用過程中被喚醒詞正確喚醒的能力。

7.5.6.2試驗方法

統(tǒng)計其他項目所有測試語料進行前,按照下式(3)計算語音喚醒正確率,記錄在原始記錄中。

式中:

........................(3)

B——語音喚醒正確率;

C——喚醒詞正確喚醒語音交互系統(tǒng)的次數(shù);

D——總呼喚次數(shù)。

7.5.7語音誤喚醒頻度

7.5.7.1試驗目的

測試語音交互系統(tǒng)在不使用待機時或者使用過程中被誤喚醒的情況。

7.5.7.2試驗方法

將被測產(chǎn)品放于試驗室環(huán)境中最可能受影響的一處并調(diào)至待命狀態(tài),在不主動喚醒產(chǎn)品的情況下,

循環(huán)播放預錄制的環(huán)境背景噪音,并通過攝像機記錄產(chǎn)品狀態(tài),測試時間持續(xù)幾個小時后,測試人員通

過視頻統(tǒng)計被試品自動喚醒的次數(shù),并記錄在原始記錄中,計算頻度方法見下式(4)。

........................(4)

式中:

θ——語音誤喚醒頻度;

E——被誤喚醒的次數(shù);

h——測試時間,小時。

7.5.8使用穩(wěn)定性

7.5.8.1試驗目的

綜合考察語音交互系統(tǒng)在使用過程中的性能穩(wěn)定性,如非法操作、死機頻率、語音反饋突然中斷等

各類情況。

7.5.8.2試驗方法

9

T/CRSSXXXX—XXXX

a)此項目測試人員應全程參與過被測語音交互系統(tǒng)的其他所有項目測試,并具備服務機器人測

試經(jīng)驗,方可參與主觀評價;

b)在其他所有項目測試完畢后,多名測試人員進行綜合判定,以文字描述的方式體現(xiàn)在原始記錄

中。

7.5.9語音合成

7.5.9.1測試目的

綜合主觀評價被測語音交互系統(tǒng)所反饋的語音質(zhì)量和用戶接受度。

7.5.9.2試驗方法

男女測試人員各2人,通過其他項目的語音反饋結(jié)果,測聽合成語音同真人語音在音質(zhì)、可懂度、

自然度和流暢度等方面的差異,并以平均意見得分對主觀測評進行量化,并將文字描述結(jié)果及相應得分

填寫在原始記錄表中,打分規(guī)則應符合條款8.4中的規(guī)定進行。

8評價標準

任務驅(qū)動的多輪對話

a)“有效對話輪數(shù)”為測試五輪全部語料后,采用遞進方式判斷記錄,按照其前面的最優(yōu)結(jié)果進

行有效輪數(shù)的記錄,如單輪對話記1,能連續(xù)進行到相鄰二輪對話記2,能連續(xù)進行到相鄰三

輪對話記3;

b)計算該測試項目的任務完成率并記錄,總有效對話輪數(shù)(N)與總預設對話輪數(shù)(M)的比值,

N/M×100%為任務完成率(C)。

開放域聊天

a)5分:優(yōu)(聊天內(nèi)容種類豐富且持續(xù)輪數(shù)多),4分:良(聊天持續(xù)輪數(shù)多),2~3分中(聊

天有一定內(nèi)容但持續(xù)輪數(shù)短),1分:及格(能進行聊天但持續(xù)輪數(shù)極短),0分:差(不能

進行響應聊天);

b)該項目以聊天話題的延續(xù)性作為評判標準,如被試品能成功延續(xù)話題或完成用戶的相關需求,

則視為測試成功,記錄話題延續(xù)輪數(shù)。

語音識別準確率

識別準確率90%以上5分,識別準確率85%-90%之間4分,識別準確率70%-85%之間3分,識別準確

率60%-70%之間2分,識別準確率60%以下1分。

語音合成

該項僅針對被測產(chǎn)品做出的回復中所包含的語音合成部分(直接播放歌曲、錄音內(nèi)容,及無應答均

不在打分范圍內(nèi))進行打分,5分:優(yōu)(接近人類自然語音狀態(tài));4分:良(機械合成感不明顯);3

分:中(機械合成感較明顯),0~2分:差(有明顯機械合成感)。記錄平均結(jié)果,語音合成平均意見

分為總分/打分人數(shù)。

10

T/CRSSXXXX—XXXX

A

A

附錄A

(規(guī)范性)

語義解析評分標準表

表A.1語義解析評分標準表及示例

評分標準要求解釋舉例

5分回答正確+內(nèi)容精準。全部理解語義,并給出了精準的回答。Q:泰山多高?A:1545米。

A:泰山坐落在山東省中

正確理解語義,并用有效的語料進行回部,為中國五岳之首,主峰

4分回答正確+有多余內(nèi)容。Q:泰山多高?

答,但句式上有多余內(nèi)容。玉皇頂,海拔1545米,高度

居五岳第三位。

A:泰山又名岱山,坐落在

山東省中部,為中國五岳

基本回答正確+多余數(shù)據(jù)+基本理解語義,但句子內(nèi)容錯誤包括:錯

之首,古稱“,主峰玉x頂,海

3分句式內(nèi)容有錯誤+答案啰別字、缺漏字、內(nèi)容有誤,答案長度過于Q:泰山多高?

拔1545米,世界自然與文

嗦(長度超過60字)。啰嗦。

化遺產(chǎn),世界地質(zhì)公園,國

家5A級景區(qū)......

基本理解語義+無數(shù)據(jù)支系統(tǒng)基本理解語義,但數(shù)據(jù)庫不支持回A:我不知道泰山多高,但

2分Q:泰山多高?

持而無法回答。答,或者對用戶進行提示性回復。我知道泰山在山東泰安。

沒有全部理

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論