版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
信息技術(shù)智能語音交互測試方法2022-10-12發(fā)布IGB/T41813.1—2022前言 2規(guī)范性引用文件 13術(shù)語和定義 14概述 25測試準(zhǔn)備和執(zhí)行 25.1測試數(shù)據(jù)集 25.2測試工具 35.3測試設(shè)備 35.4測試環(huán)境 45.5測試執(zhí)行 45.6測試結(jié)果 46功能測試方法 46.1語音信號采集 46.2語音轉(zhuǎn)文字 56.3語音喚醒 56.4前端信號處理 56.5說話人分離 56.6語言信息識別 66.7語音識別后處理 67性能測試方法 67.1語音識別效果 67.2語音識別效率 77.3語音喚醒效果 87.4前端信號處理效果 97.5說話人分離效果 7.6語言信息識別效果 7.7系統(tǒng)穩(wěn)定性 參考文獻 Ⅲ本文件按照GB/T1.1—2020《標(biāo)準(zhǔn)化工作導(dǎo)則第1部分:標(biāo)準(zhǔn)化文件的結(jié)構(gòu)和起草規(guī)則》的規(guī)定起草。本文件是GB/T41813《信息技術(shù)智能語音交互測試方法》的第1部分。GB/T41813已經(jīng)發(fā)布了以下部分:——第1部分:語音識別;——第2部分:語義理解。請注意本文件的某些內(nèi)容可能涉及專利。本文件的發(fā)布機構(gòu)不承擔(dān)識別專利的責(zé)任。本文件由全國信息技術(shù)標(biāo)準(zhǔn)化技術(shù)委員會(SAC/TC28)提出并歸口。本文件起草單位:中國電子技術(shù)標(biāo)準(zhǔn)化研究院、科大訊飛股份有限公司、小米通訊技術(shù)有限公司、華為終端有限公司、深圳市優(yōu)必選科技股份有限公司、中國電信集團有限公司、思必馳科技股份有限公司、中國科學(xué)院自動化研究所、中國醫(yī)學(xué)科學(xué)院生物醫(yī)學(xué)工程研究所、哈爾濱工業(yè)大學(xué)、海信視像科技股份有限公司、馬上消費金融股份有限公司、騰訊科技(北京)有限公司、沈陽新松機器人自動化股份有限公司、深圳市人馬互動科技有限公司、平安科技(深圳)有限公司、安徽咪鼠科技有限公司、涇豐科技(深圳)有限公司、北京捷通華聲科技股份有限公司、北京百度網(wǎng)訊科技有限公司、深圳市北科瑞聲科技股份有限公司、阿里云計算有限公司、云從科技集團股份有限公司、網(wǎng)易(杭州)網(wǎng)絡(luò)有限公司、南京云問網(wǎng)絡(luò)技術(shù)有限公司、聯(lián)想(北京)有限公司、福州數(shù)據(jù)技術(shù)研究院有限公司、國家網(wǎng)絡(luò)軟件產(chǎn)品質(zhì)量監(jiān)督檢驗中心(濟南)、中汽研(天津)汽車工程研究院有限公司、華南理工大學(xué)、山東省計算中心(國家超級計算濟南中心)、中科極限元(杭州)智能科技股份有限公司、神思電子技術(shù)股份有限公司、鄭州中業(yè)科技股份有限公司、中汽數(shù)據(jù)(天津)有限公司、中國電器科學(xué)研究院有限公司、上海計算機軟件技術(shù)開發(fā)中心、北京愛數(shù)智慧科技有限公司。本文件主要起草人:董建、徐洋、吳國綱、馬萬鐘、朱亞軍、賈一君、周立君、宋文林、袁杰、楊震、機器人等諸多領(lǐng)域應(yīng)用廣泛,已成為當(dāng)前人機交互的重要方式之一。隨著智能語音交互越來越深入到生產(chǎn)生活的方方面面,需要對智能語音交互的系統(tǒng)參考框架、基礎(chǔ)技術(shù)要求、互聯(lián)網(wǎng)接口要求等進行統(tǒng)一規(guī)范。在這方面,國家已制定了支撐智能語音交互系統(tǒng)的基礎(chǔ)性國家標(biāo)準(zhǔn)。在此基礎(chǔ)上,也需要用統(tǒng)一的測試方法和評價標(biāo)準(zhǔn)來對智能語音交互系統(tǒng)的能力進行評測,為智能語音交互相關(guān)的產(chǎn)品和服務(wù)提供評測的基礎(chǔ)方法和依據(jù)。GB/T41813《信息技術(shù)智能語音交互測試方法》為GB/T36464(所有部分)《信息技術(shù)智能語音交互系統(tǒng)》提供基礎(chǔ)通用的測試方法。智能語音交互包括語音識別、語義理解和語音合成三個基本環(huán)節(jié),各環(huán)節(jié)所涉及的測試對象、測試項目、測試環(huán)境和測試方法均有所不同。GB/T41813《信息技術(shù)智能語音交互測試方法》旨在確立和描述適用于智能語音交互各環(huán)節(jié)的通用測試項和通用測試方法,擬由三個部分構(gòu)成。——第1部分:語音識別。目的在于為智能語音交互應(yīng)用中的語音識別環(huán)節(jié)提供通用測試項和通用測試方法?!?部分:語義理解。目的在于為智能語音交互應(yīng)用中的語義理解環(huán)節(jié)提供通用測試項和通用測試方法。——第3部分:語音合成。目的在于為智能語音交互應(yīng)用中的語音合成環(huán)節(jié)提供通用測試項和通用測試方法。1信息技術(shù)智能語音交互測試方法1范圍本文件描述了智能語音交互測試中語音識別系統(tǒng)的通用測試項和通用測試方法。本文件適用于智能語音服務(wù)提供商、用戶和第三方檢測機構(gòu)對智能語音交互應(yīng)用的語音識別系統(tǒng)測試的設(shè)計和實施。2規(guī)范性引用文件下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,僅該日期對應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GB/T21023中文語音識別系統(tǒng)通用技術(shù)規(guī)范GB/T36464(所有部分)信息技術(shù)智能語音交互系統(tǒng)3術(shù)語和定義GB/T36464(所有部分)界定的以及下列術(shù)語和定義適用于本文件。語音識別speechrecognition將人類的聲音信號轉(zhuǎn)化為文字或者指令的過程。說話人分離speakerdiarization對包含有效語音信號的音頻流中的多個說話人進行說話人分割和說話人聚類的過程。注:說話人分離的目的一般是對空間中存在的多個說話人進行分類和追蹤。說話人分割speakersegmentation在多個說話人中找出說話人改變的時間邊界,并根據(jù)這些邊界將音頻流切分成多個語音片段。將屬于同一個說話人的一個或多個語音片段進行歸類。語音編碼speechcoding;speechencoding語音波形編碼speechwaveformcoding按照一組能合理重構(gòu)語音信號的規(guī)劃,由經(jīng)數(shù)字化的語音信號到離散的數(shù)據(jù)元序列的轉(zhuǎn)換。注:語音數(shù)字化可與用于語音壓縮的某一編碼相結(jié)合。因此,“語音編碼”這一術(shù)語常指這種組合運算。2漢語中跟普通話有區(qū)別,只在特定地區(qū)使用的語言。智能語音交互測試中的語音識別測試主要包括功能測試與性能測試,具體如下:——功能測試用于檢查被測系統(tǒng)是否提供了語音識別相關(guān)的各項功能,具體包括:語音信號采集、語音轉(zhuǎn)文字、語音喚醒、前端信號處理、說話人分離、語言信息識別及語音識別后處理;——性能測試用于檢測被測系統(tǒng)中語音識別相關(guān)的各項性能,具體包括:語音識別效果、語音識別效率、語音喚醒效果、前端信號處理效果、說話人分離效果、語言信息識別效果,及系統(tǒng)穩(wěn)定性。測試過程中,依據(jù)被測系統(tǒng)技術(shù)規(guī)范進行在線/離線的功能和性能測試。本文件所列測試項可用于對GB/T36464(所有部分)中語音識別相關(guān)的功能和性能要求進行測試。注:本文件對所列出的功能測試項選擇不做要求,測試方根據(jù)被測系統(tǒng)的功能要求和測試需求選擇測試項。5測試準(zhǔn)備和執(zhí)行5.1測試數(shù)據(jù)集在測試開始前,應(yīng)通過提前錄制或采集的方式制作測試數(shù)據(jù)集??筛鶕?jù)不同測試項劃分出多個測試數(shù)據(jù)集,在實際測試時可根據(jù)需要選擇測試數(shù)據(jù)集。測試數(shù)據(jù)集類型和要求應(yīng)符合表1的要求。表1測試數(shù)據(jù)集類型和要求語音音頻類型語音種類男聲普通話女聲普通話兒童普通話老人普通話男聲漢語方言女聲漢語方言無有效語音內(nèi)容語音系統(tǒng)支持的語言信息類型語音混合語言信息類型語音空音頻無噪聲正常A類A類A類A類B類B類C類C類D類D類弱噪聲正常A類A類B類B類B類B類D類強噪聲正常B類B類C類C類C類C類D類大音量°B類B類B類B類D類D類D類快語速B類B類C類C類D類D類D類截斷音頻C類C類—————測試數(shù)據(jù)滿足以下要求。a)測試語音應(yīng)至少2000條,其中,各類測試語音數(shù)量要求如下:1)A類的總量不宜小于測試總量的70%;2)B類的總量不宜小于測試總量的15%,不宜大于測試總量的20%;3)C類的總量不宜小于測試總量的5%,不宜大于測試總量的10%;4)D類為可選,總量不宜大于測試總量的5%。b)各種語音種類的發(fā)音人,不應(yīng)少于30名。c)3s~5s時長的測試語音應(yīng)占測試總量的80%以上。d)測試語音可包括中文和外文等,測試方可根據(jù)系統(tǒng)任務(wù)和應(yīng)用場景設(shè)定測試語音內(nèi)容。語音信噪比大于或等于20dB?!闭Z音信噪比小于5dB。在16bit量化比特下,波形采樣點數(shù)值大于或等于10000。語音輸入速度大于每秒5字。35.2測試工具語音識別測試工具包括可編程測試工具、測試統(tǒng)計工具和資源監(jiān)測工具符合下列要求。a)可編程測試工具要求如下:●應(yīng)能調(diào)用被測系統(tǒng)開放接口;●應(yīng)能對工具配置文件進行定制;●應(yīng)能接收語音數(shù)據(jù)并將其輸入至被測系統(tǒng);●應(yīng)能進行功能測試及其相應(yīng)的性能測試;●應(yīng)能以文本形式獲取被測系統(tǒng)運行結(jié)果。b)測試統(tǒng)計工具要求如下:●應(yīng)能自動對不同測試項的系統(tǒng)運行結(jié)果進行統(tǒng)計和分析;●應(yīng)能自動對系統(tǒng)運行結(jié)果和標(biāo)準(zhǔn)結(jié)果對比文件進行比對。c)資源監(jiān)測工具應(yīng)能監(jiān)測內(nèi)存、中央處理單元(CPU)、圖形處理單元(GPU)、句柄數(shù)等系統(tǒng)資源參數(shù)。5.3測試設(shè)備音頻采樣設(shè)備:音頻采樣設(shè)備參數(shù)應(yīng)符合表2的要求。表2音頻采樣設(shè)備參數(shù)要求設(shè)備名稱參數(shù)要求可移動的聲卡支持44.1kHz及以上的采樣頻率,16bit及以上的模數(shù)轉(zhuǎn)換器和數(shù)模轉(zhuǎn)換器錄音軟件支持16bit量化比特下的波形采樣計算機支持錄音軟件的安裝和使用聲壓計支持環(huán)境聲壓確認傳聲器設(shè)備:傳聲器設(shè)備參數(shù)應(yīng)符合表3的要求。表3傳聲器設(shè)備參數(shù)要求參數(shù)名稱符號和單位測試條件最小值典型值最大值靈敏度信噪比—輸出阻抗總諧波失真1指向性全指向性回放設(shè)備:回放設(shè)備參數(shù)應(yīng)符合表4的要求。4表4回放設(shè)備參數(shù)要求設(shè)備名稱參數(shù)要求其他要求計算機支持音頻播放軟件的安裝和使用回放外部環(huán)境外界噪聲不超過55dB(A)情況下,室內(nèi)本底噪聲小于或等于20dB(A)(周圍無明顯振動源,關(guān)閉通風(fēng)) 播放器頻率響應(yīng)(士2.5dB):74Hz~18kHz最大聲壓級:102dB(A)可在無人工嘴的條件下使用功率放大器和人工嘴信噪比:90dB(A)增益控制:0dB~25dB功率放大器頻率響應(yīng):20Hz~20kHz,人工嘴頻率響應(yīng):100Hz~10kHz最大聲壓級:110dB(A)具體場景按照GB/T36464(所有部分)執(zhí)行噪聲播放音箱功率:70W(峰值125W)頻率響應(yīng):50Hz~21kHz聲壓:≤113dBSPL@1m(對)輸入阻抗:10kΩ最大輸入電平:22dBu背景噪聲播放音箱應(yīng)經(jīng)過頻率響應(yīng)均衡處理,被測系統(tǒng)麥克風(fēng)(陣列)位置的回放噪聲與原始噪聲頻率響應(yīng)差異滿足+3dB(100Hz~10kHz)仿真人體根據(jù)播放器或人工嘴的尺寸和安裝位置定制5.4測試環(huán)境應(yīng)根據(jù)被測系統(tǒng)的功能和性能要求,以及應(yīng)用場景配置相應(yīng)的軟硬件環(huán)境。5.5測試執(zhí)行應(yīng)使用可編程測試工具和測試統(tǒng)計工具將測試數(shù)據(jù)集輸入到在線/離線狀態(tài)的被測系統(tǒng)中并獲取運行結(jié)果。5.6測試結(jié)果應(yīng)根據(jù)被測系統(tǒng)技術(shù)要求對系統(tǒng)在各測試項上的運行結(jié)果進行記錄和分析,形成測試結(jié)果。6功能測試方法6.1語音信號采集測試內(nèi)容:檢查被測系統(tǒng)是否提供給定拾音距離下的語音信號采集功能。測試方法:按照表1的要求和測試功能制作測試數(shù)據(jù)集,按照給定的拾音距離,放置被測系統(tǒng)和回放設(shè)備(播放器或人工嘴),使用可編程測試工具和測試統(tǒng)計工具將測試數(shù)據(jù)集輸入到被測系統(tǒng)并獲取運行結(jié)果。拾音距離應(yīng)根據(jù)被測系統(tǒng)的主要用途和應(yīng)用場景進行設(shè)置,在實際測試中可根據(jù)需要進行區(qū)間劃分,例如,按照1m、3m和5m劃分為4個區(qū)間。56.2語音轉(zhuǎn)文字測試內(nèi)容:檢查被測系統(tǒng)是否提供將所接收到的有效語音信號轉(zhuǎn)化為與語音內(nèi)容相符的文字結(jié)果,并將其輸出的功能。測試方法:按照表1的要求和測試功能制作測試數(shù)據(jù)集,使用可編程測試工具和測試統(tǒng)計工具將測試數(shù)據(jù)集輸入到被測系統(tǒng)并獲取運行結(jié)果。6.3語音喚醒測試內(nèi)容:檢查被測系統(tǒng)是否提供語音喚醒的功能,包括但不限于以下具體功能。a)命令字(詞)喚醒:能使用預(yù)定義喚醒命令字(詞)喚醒被測系統(tǒng)。b)自定義喚醒命令字(詞):能自定義喚醒命令字(詞)。c)多命令字(詞)喚醒:能使用不同的喚醒命令字(詞)喚醒被測系統(tǒng)。d)多音頻流監(jiān)聽:被測系統(tǒng)在執(zhí)行語音喚醒的同時能監(jiān)聽多個音頻流。e)語音打斷喚醒:能使用語音打斷的方式喚醒被測系統(tǒng)。f)協(xié)同喚醒:使用相同命令字(詞)的多個設(shè)備在同一場景中出現(xiàn),一次喚醒操作有且僅有一個設(shè)備應(yīng)答。測試方法:按照表1的要求和測試功能制作包含預(yù)定義喚醒命令字(詞)、非喚醒命令字(詞)、自定義喚醒命令字(詞)、多個喚醒命令字(詞)和語音打斷喚醒命令字(詞)的測試數(shù)據(jù)集,使用可編程測試工具和測試統(tǒng)計工具將測試數(shù)據(jù)集輸入到被測系統(tǒng)并獲取運行結(jié)果。6.4前端信號處理測試內(nèi)容:檢查被測系統(tǒng)是否提供前端信號處理的功能,包括但不限于以下具體功能。a)語音編解碼:被測系統(tǒng)能設(shè)置語音編碼算法的壓縮等級,能支持不同音頻編碼格式下的語音音頻的壓縮和解壓縮,并確保語音內(nèi)容不變。b)端點檢測:被測系統(tǒng)能從連續(xù)音頻流中檢測出第一個或多個語音片段的起始點和結(jié)束點,能設(shè)置端點檢測靈敏度,即設(shè)置語音等待超時時長和尾部靜音長度。c)語音增強:被測系統(tǒng)能自動對輸入語音的信噪比進行改善,能對輸入語音中的背景噪聲和晚期混響進行抑制。d)聲源定位:被測系統(tǒng)能自動對發(fā)聲源的空間位置進行定位。e)格式轉(zhuǎn)換:被測系統(tǒng)能自動對輸入音頻的格式進行轉(zhuǎn)換,并確保語音內(nèi)容不變。f)重采樣:被測系統(tǒng)能改變數(shù)字語音信號的采樣率,并確保語音內(nèi)容不變。g)音頻質(zhì)量判斷:被測系統(tǒng)能對輸入音頻質(zhì)量進行自動判斷。h)聲學(xué)回聲消除:被測系統(tǒng)能對輸入音頻進行回聲消除。測試方法:按照表1的要求和測試功能制作包含多種音頻質(zhì)量的測試數(shù)據(jù)集,包括前截斷音頻、后截斷音頻、音量小音頻、信噪比低音頻等,使用可編程測試工具和測試統(tǒng)計工具將測試數(shù)據(jù)集輸入到被測系統(tǒng)并獲取運行結(jié)果。6.5說話人分離測試內(nèi)容:檢查被測系統(tǒng)是否提供說話人分離的功能,包括但不限于以下具體功能。a)說話人分割:被測系統(tǒng)能自動進行說話人分割,分割后的語音片段只包含一個說話人的語音內(nèi)容。b)說話人聚類:被測系統(tǒng)能自動進行說話人聚類,聚類后的語音片段分別對應(yīng)不同的說話人。6測試方法:按照表1的要求和測試功能制作包含多個說話人交替對話的測試數(shù)據(jù)集,對話時長宜20min,使用可編程測試工具和測試統(tǒng)計工具將測試數(shù)據(jù)集輸入到被測系統(tǒng)并獲取運行結(jié)果。6.6語言信息識別測試內(nèi)容:檢查被測系統(tǒng)是否提供語言信息識別的功能,包括但不限于以下具體功能。a)(多)語種識別:被測系統(tǒng)能自動對輸入語音所屬的某個或多個(2個及以上)語種進行判斷并輸出(多)語種識別結(jié)果。b)多語種混讀識別:在多個語種混讀的情況下,被測系統(tǒng)能自動對不同語種進行判斷并輸出多語種混讀識別結(jié)果。c)(多)漢語方言識別:被測系統(tǒng)能自動對輸入語音所屬的某個或多個(2個及以上)漢語方言進行判斷并輸出(多)漢語方言識別結(jié)果。d)語言信息端點識別:被測系統(tǒng)能自動對不同的語種、漢語方言的音頻片段端點進行判斷并輸出語言信息端點識別結(jié)果。測試方法:按照表1的要求和測試功能制作包含一個或多個語音信息的測試數(shù)據(jù)集,使用可編程測試工具和測試統(tǒng)計工具將測試數(shù)據(jù)集輸入到被測系統(tǒng)并獲取運行結(jié)果。6.7語音識別后處理測試內(nèi)容:檢查被測系統(tǒng)是否提供對語音識別結(jié)果進行后處理的功能,包括但不限于以下具體功能。a)數(shù)字規(guī)整:按照需求將漢字表示的數(shù)字規(guī)整為符合閱讀習(xí)慣的格式。b)字母規(guī)整:按照需求將識別結(jié)果規(guī)整為更易閱讀的格式。示例2:對“三W點”進行字母規(guī)整后的結(jié)果為“www.”。c)繁簡體規(guī)整:按照需求將識別結(jié)果規(guī)整為繁體或簡體。d)標(biāo)點預(yù)測:根據(jù)語音內(nèi)容對識別結(jié)果添加中文或者英文標(biāo)點。e)文本順滑:根據(jù)語音內(nèi)容過濾識別結(jié)果文本中無意義的字或詞。f)文本替換:根據(jù)語音內(nèi)容動態(tài)替換或修改識別結(jié)果文本中的某些字或詞。示例6:對“它們做出了很大的犧牲”進行文本替換后的結(jié)果為“他們作出了很大的犧牲”。測試方法:按照表1的要求和測試功能制作測試數(shù)據(jù)集,使用可編程測試工具和測試統(tǒng)計工具將測試數(shù)據(jù)集輸入到被測系統(tǒng)并獲取運行結(jié)果。7性能測試方法7.1語音識別效果測試內(nèi)容:語音識別效果測試項包括對字識別效果和句識別正確率的測試。a)字識別效果:字識別效果由字匹配率等參數(shù)表征,它們共同顯示被測系統(tǒng)的字識別能力。參數(shù)值按GB/T21023描述的方法計算:77GB/T41813.1—2022b)句識別正確率:此參數(shù)顯示被測系統(tǒng)的句識別能力,參數(shù)值計算方法為被測系統(tǒng)正確識別的句子數(shù)量除以標(biāo)注的總句子數(shù)量。——測試數(shù)據(jù):按照表1的要求制作測試數(shù)據(jù)集,對各測試數(shù)據(jù)集所有的語音內(nèi)容進行人工標(biāo)注,并制作成標(biāo)準(zhǔn)結(jié)果對比文件。——測試工具:符合5.2的要求。——測試環(huán)境:符合5.4的要求?!獪y試執(zhí)行:按照5.5的要求對被測系統(tǒng)進行測試。——測試結(jié)果:按照測試內(nèi)容描述的方法得出系統(tǒng)運行結(jié)果并生成結(jié)果文件,包括測試數(shù)據(jù)集名7.2語音識別效率測試內(nèi)容:語音識別效率測試項用語音識別平均響應(yīng)時間、語音識別平均子句響應(yīng)時間、語音識別響應(yīng)時間分布和語音識別吞吐率等參數(shù)表征。a)語音識別平均響應(yīng)時間:語音識別響應(yīng)時間指的是接收到一條語音后,被測系統(tǒng)給出該條語音識別結(jié)果的時間;語音識別平均響應(yīng)時間是測試數(shù)據(jù)集上所有語音識別響應(yīng)時間與輸入語音總條數(shù)的比值。參數(shù)值計算方法見公式(1): (1)式中:Tw——語音識別平均響應(yīng)時間;t——得到第i條語音識別結(jié)果的時刻;t?!趇條語音輸入結(jié)束的時刻;N——輸入語音總條數(shù)。b)語音識別平均子句響應(yīng)時間:語音識別子句響應(yīng)時間指的是接收到一條語音后,被測系統(tǒng)給出該條語音中某一子句識別結(jié)果的時間;語音識別平均子句響應(yīng)時間是測試數(shù)據(jù)集上所有語音識別子句響應(yīng)時間與輸入語音總條數(shù)的比值。參數(shù)值計算方法見公式(2): (2)t?——得到第i條語音中第j個子句識別結(jié)果的時刻;t——第i條語音中第j個子句輸入結(jié)束的時刻;N——輸入語音總條數(shù)。c)語音識別響應(yīng)時間分布:此參數(shù)顯示測試數(shù)據(jù)集上所有語音識別響應(yīng)時間分布及其占比情況。實際測試時可根據(jù)需要劃分不同響應(yīng)時間區(qū)間。8d)語音識別吞吐率:此參數(shù)描述一次性輸入包含錄制好的(長時間)語音并一次性給出整體語音識別結(jié)果的效率,即被測系統(tǒng)在單位響應(yīng)時間內(nèi)識別語音音頻的時間長度。參數(shù)值計算方法為測試數(shù)據(jù)集上語音音頻總時長除以測試數(shù)據(jù)集上語音識別響應(yīng)時間總時長。測試方法:語音識別效率測試方法如下。——測試數(shù)據(jù):按照表1的要求制作測試數(shù)據(jù)集,此外,制作語音時長為10s±0.1s、語音結(jié)束后無靜音的測試數(shù)據(jù)集用于語音識別平均響應(yīng)時間和語音識別響應(yīng)時間分布測試;制作語音時長大于10h的測試數(shù)據(jù)集用于語音識別吞吐率測試。 ——測試設(shè)備:符合5.3的要求?!獪y試環(huán)境:符合5.4的要求?!獪y試執(zhí)行:按照5.5的要求對被測系統(tǒng)進行測試。——測試結(jié)果:按照測試內(nèi)容描述的方法得出系統(tǒng)運行結(jié)果并生成結(jié)果文件,包括測試數(shù)據(jù)集名稱、測試數(shù)據(jù)集數(shù)量、測試項結(jié)果等。系統(tǒng)運行結(jié)果符合被測系統(tǒng)技術(shù)要求或相關(guān)標(biāo)準(zhǔn)規(guī)范則7.3語音喚醒效果測試內(nèi)容:語音喚醒效果測試項包括喚醒率、誤喚醒頻度、語音打斷成功率、語音打斷喚醒率、語音打斷誤喚醒頻度、協(xié)同喚醒成功率和協(xié)同喚醒正確率等參數(shù),具體參數(shù)描述如下。a)喚醒率:檢測被測系統(tǒng)的語音喚醒能力,即某段時間內(nèi)的語音喚醒操作中,成功喚醒被測系統(tǒng)的比率。參數(shù)值計算方法為成功語音喚醒次數(shù)除以語音喚醒操作總次數(shù)。b)誤喚醒頻度:檢測被測系統(tǒng)的語音喚醒能力,即單位時間內(nèi)被測系統(tǒng)被誤喚醒的次數(shù)。參數(shù)值計算方法為誤喚醒次數(shù)除以測試總時長。c)語音打斷成功率:檢測被測系統(tǒng)的語音打斷能力,即被測系統(tǒng)成功被語音打斷的比率。參數(shù)值計算方法為語音打斷成功次數(shù)除以語音打斷操作總次數(shù)。d)語音打斷喚醒率:檢測被測系統(tǒng)的語音喚醒能力,即某段時間內(nèi)的語音喚醒操作中,成功打斷并喚醒被測系統(tǒng)的比率。參數(shù)值計算方法為成功打斷喚醒次數(shù)除以語音打斷喚醒操作總e)語音打斷誤喚醒頻度:檢測被測系統(tǒng)的語音喚醒能力,即單位時間內(nèi)被測系統(tǒng)語音打斷誤喚醒的次數(shù)。參數(shù)值計算方法為語音打斷誤喚醒次數(shù)除以測試總時長。f)協(xié)同喚醒成功率:檢測同一場景多個設(shè)備的語音喚醒能力,即對多個設(shè)備進行喚醒操作,有且僅有一個設(shè)備被成功喚醒的比率。參數(shù)值計算方法為有且僅有一個設(shè)備被成功喚醒的次數(shù)除以語音喚醒操作總次數(shù)。g)協(xié)同喚醒正確率:檢測同一場景多個設(shè)備的語音喚醒能力,即對多個設(shè)備進行喚醒操作,用戶意圖中的設(shè)備被正確喚醒的比率。參數(shù)值計算方法為用戶意圖中的設(shè)備被正確喚醒的次數(shù)除以語音喚醒操作總次數(shù)。測試方法:語音喚醒效果測試方法如下?!獪y試數(shù)據(jù):按照表1的要求制作包含預(yù)定義喚醒命令字(詞)、非喚醒命令字(詞)、自定義喚醒命令字(詞)、多個喚醒命令字(詞)和語音打斷喚醒命令字(詞)的測試數(shù)據(jù)集,宜選取不少于200條測試語音。 ——測試設(shè)備:符合5.3的要求?!獪y試環(huán)境:符合5.4的要求,其中,測試場景類型見表5。9表5語音喚醒效果測試場景場景編號場景描述信噪比場景1安靜場景場景2低噪場景場景3高噪場景場景4自定義噪聲場景具體場景按照GB/T36464(所有部分)執(zhí)行——測試執(zhí)行:按照5.5的要求對被測系統(tǒng)進行測試?!獪y試結(jié)果:按照測試內(nèi)容描述的方法得出系統(tǒng)運行結(jié)果并生成結(jié)果文件,包括測試數(shù)據(jù)集名稱、測試數(shù)據(jù)集數(shù)量、測試項結(jié)果等。系統(tǒng)運行結(jié)果符合被測系統(tǒng)技術(shù)要求或相關(guān)標(biāo)準(zhǔn)規(guī)范則測試通過,否則不通過。7.4前端信號處理效果測試內(nèi)容:前端信號處理效果測試項包括語音編解壓縮率、端點檢測準(zhǔn)確率、信噪比改善率、噪聲抑制量、聲源定位正確率和回聲返回衰減增益等參數(shù),具體參數(shù)描述如下。a)語音編解壓縮率:檢測被測系統(tǒng)的語音編解碼能力,參數(shù)值計算方法為語音編碼后輸出的壓縮音頻碼流率除以語音編碼前音頻碼流率。b)端點檢測準(zhǔn)確率:檢測被測系統(tǒng)的端點檢測能力,參數(shù)值計算方法見公式(3): 式中:Av?p——端點檢測準(zhǔn)確率;Talia——有效語音音頻時長;Tsitne——無效音頻時長;Tay——檢測誤差音頻時長。c)信噪比改善率:檢測被測系統(tǒng)的語音增強能力,參數(shù)值計算方法為輸出語音的信噪比除以輸入語音的信噪比。d)噪聲抑制量:檢測被測系統(tǒng)的語音增強能力,即被測系統(tǒng)輸出信號的噪聲振幅相對于輸入信號的噪聲振幅的減少量。參數(shù)值計算方法見公式(4):式中:Dxr——噪聲抑制量;N——輸入信號頻譜頻率分量的總數(shù)量;Vn(n)——輸入信號中第n個噪聲信號的振幅;Vou(n)——輸出信號中第n個噪聲信號的振幅。e)聲源定位正確率:檢測被測系統(tǒng)的聲源定位能力,參數(shù)值計算方法為聲源定位正確次數(shù)除以聲源定位請求總次數(shù)。f)回聲返回衰減增益:檢測被測系統(tǒng)的回聲消除能力,參數(shù)值計算方法見公式(5):式中:ERLE——回聲返回衰減增益,單位為分貝[dB(A)];y(n)——期望回聲信號;e(n)——誤差信號。測試方法:前端信號處理效果測試方法如下。——測試數(shù)據(jù):按照表1的要求制作測試數(shù)據(jù)集,此外,制作前、后靜音段時長不少于3s的測試數(shù)據(jù)集,宜不少于200條測試語音,用于端點檢測準(zhǔn)確率測試?!獪y試工具:符合5.2的要求。——測試設(shè)備:符合5.3的要求。——測試環(huán)境:符合5.4的要求。——測試執(zhí)行:按照5.5的要求對被測系統(tǒng)進行測試?!獪y試結(jié)果:按照測試內(nèi)容描述的方法得出系統(tǒng)運行結(jié)果并生成結(jié)果文件,包括測試數(shù)據(jù)集名稱、測試數(shù)據(jù)集數(shù)量、測試項結(jié)果等。系統(tǒng)運行結(jié)果符合被測系統(tǒng)技術(shù)要求或相關(guān)標(biāo)準(zhǔn)規(guī)范則7.5說話人分離效果測試內(nèi)容:說話人分離效果測試項包括分離錯誤率參數(shù),檢測被測系統(tǒng)的說話人分離能力,即被測系統(tǒng)分離錯誤的語音片段時長占整個有效語音片段時長的比率。參數(shù)值計算方法見公式(6):式中:DER——分離錯誤率;S——實際結(jié)果和系統(tǒng)輸出結(jié)果都包含同一個說話人(對)的說話人片段數(shù)量;dur(s)—-片段s的時長;Nre(s)——片段s中實際結(jié)果的數(shù)量;Nhyp(s)——片段s中系統(tǒng)輸出結(jié)果的數(shù)量;Norree(s)——片段s中系統(tǒng)輸出結(jié)果與實際結(jié)果正確對應(yīng)的數(shù)量。測試方法:說
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年昭通貨運上崗證考試題答案
- 《市場營銷腳本課程》課件
- 定積分與微積分基本定理(理)課件
- 2024年手機回收再利用處理合同3篇
- 2024年版?zhèn)€人汽車托掛管理協(xié)議版B版
- 2024雙方共建智慧城市合作協(xié)議書3篇
- 2025專業(yè)版上海市勞動合同范本
- 2024年數(shù)據(jù)中心冷卻系統(tǒng)改造項目信托貸款合同3篇
- 《礦井扇風(fēng)機》課件
- 2025勞務(wù)合同與承攬合同的比較
- 2024-2025學(xué)年高一【數(shù)學(xué)(人教A版)】數(shù)學(xué)建?;顒?1)-教學(xué)設(shè)計
- 2025年小學(xué)五年級數(shù)學(xué)(北京版)-分數(shù)的意義(三)-3學(xué)習(xí)任務(wù)單
- 網(wǎng)絡(luò)信息安全工程師招聘面試題及回答建議(某大型央企)2025年
- 生物人教版(2024版)生物七年級上冊復(fù)習(xí)材料
- 中華人民共和國野生動物保護法
- 數(shù)字化轉(zhuǎn)型成熟度模型與評估(DTMM)國家標(biāo)準(zhǔn)解讀 2024
- 河南省名校八校聯(lián)考2024-2025學(xué)年高二上學(xué)期期中模擬考試語文試題(含答案解析)
- 第五單元觀察物體(一) (單元測試)-2024-2025學(xué)年二年級上冊數(shù)學(xué) 人教版
- 【初中生物】脊椎動物(魚)課件-2024-2025學(xué)年人教版(2024)生物七年級上冊
- 聘請專家的協(xié)議書(2篇)
- 辦公環(huán)境家具成品保護方案
評論
0/150
提交評論