




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1T/XXXXXXX—XXXX人工智能自動語音識別系統(tǒng)技術(shù)規(guī)范本文件規(guī)定了人工智能自動語音識別系統(tǒng)的術(shù)語和定義、語音服務(wù)、基本要求、環(huán)境要求和測試方法技術(shù)要求。本文件適用于人工智能自動語音識別系統(tǒng)的建設(shè)、測試和評價(jià)。2規(guī)范性引用文件下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,僅該日期對應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GB3096聲環(huán)境質(zhì)量標(biāo)準(zhǔn)GB/T22239信息安全技術(shù)網(wǎng)絡(luò)安全等級保護(hù)基本要求GB/T36464.1信息技術(shù)智能語音交互系統(tǒng)第1部分:通用規(guī)范3術(shù)語和定義下列術(shù)語和定義適用于本文件。3.1自動語音識別系統(tǒng)automaticspeechrecognitionsystem具有語音識別功能的開發(fā)工具、軟件、裝置或應(yīng)用。3.2語音識別speechrecognition將人類的聲音信號轉(zhuǎn)化為文字或指令的過程。3.3詞匯表vocabularylist語音識別系統(tǒng)所包含和處理的所有詞匯。3.4語音采集voiceacquisition通過傳聲器或麥克風(fēng)陣列等拾音設(shè)備對語音進(jìn)行采集。3.5語音服務(wù)voiceservice人機(jī)之間通過自然語言對話來獲取信息的服務(wù)。3.6語音合成speechsynthesis通過機(jī)械的、電子的方法合成人類語言的過程。3.7噪聲noise語音采集過程中,采集到的由非有效語音信源發(fā)出的,能干擾、影響對有效語音信號的理解或處理的聲音信號。3.8平均意見得分meanopinionscore(MOS)語音質(zhì)量的一種主觀度量。3.9脈沖編碼調(diào)制pulsecodemodulation(PCM)2T/XXXXXXX—XXXX是對連續(xù)變化的模擬信號進(jìn)行抽樣、量化和編碼產(chǎn)生的數(shù)字信號。3.10等效聲級equivalentcontinuousA-weightedsoundpressurelevel在聲場中的某個位置上,用某一段時間內(nèi)能量平均的方法,將間歇暴露的幾個不同噪聲,用這樣一個聲級來表示該段時間的噪聲大小。3.11語音喚醒speechwakeup處于音頻流監(jiān)聽狀態(tài)的語音交互系統(tǒng),在檢測到特定的特征或事件出現(xiàn)后,切換到命令詞識別、連續(xù)語音識別等其他處理狀態(tài)的過程。4語音服務(wù)4.1語音服務(wù)的組成由語音采集與識別、語義理解、語音合成與播放、語音技能四個部分組成。4.2語音服務(wù)能力等級劃分語音服務(wù)能力根據(jù)成熟度劃分為五個等級,見表1。表1語音服務(wù)能力等級ⅤⅣ動Ⅲ--Ⅱ成--Ⅰ--5基本要求5.1語音采集與識別5.1.1語音采集人工智能語音服務(wù)使用智能語音終端進(jìn)行語音采集,應(yīng)能通過傳聲器或麥克風(fēng)陣列等具備語音采集能力的拾音設(shè)備對語音、連續(xù)語音進(jìn)行單聲道或多聲道的采集。語音采集應(yīng)滿足以下要求:a)支持8kHz或16kHz采樣率,16bit及以上的采樣精度;b)音頻文件編碼支持PCM或Opus或Speex格式;c)對于連續(xù)性音頻,支持30s或60s為時間單位進(jìn)行切片分割。注:Opus是有損音頻的一種編碼格式,Speex是一套針對語音音頻的壓縮格式。5.1.2端點(diǎn)檢測人工智能語音服務(wù)在進(jìn)行語音采集時,應(yīng)對采集的音頻進(jìn)行端點(diǎn)檢測,以區(qū)分用戶說話的自然停頓和主觀停止。5.1.3語音識別語音識別應(yīng)滿足以下要求:a)支持場景下關(guān)鍵詞語音識別能力;3T/XXXXXXX—XXXXb)支持簡單中英文混合識別;c)支持?jǐn)?shù)字、電話號碼;d)支持普通話、帶有方言口音的普通話;e)宜支持國內(nèi)主流方言;f)語音識別句識別率應(yīng)滿足表2要求。表2語音識別句識別率要求5.2語義理解語義理解應(yīng)滿足以下要求:a)支持簡稱、別名、代碼、數(shù)字的理解;b)具有用戶表達(dá)存在錯字、缺字、模糊時的容錯理解能力;c)支持多輪、全雙工對話的人機(jī)交互方式;d)語義理解正確率應(yīng)滿足表3要求。表3語義理解等級表5.3語音播放與合成5.3.1語音播放具備聲音外放功能的智能語音終端,晝間播放的語音提醒以及其它音頻,外放聲音應(yīng)不低于60dB。5.3.2語音合成應(yīng)滿足以下要求:a)支持在線或離線方式合成近似人類的語音;b)支持普通話和英語,宜支持國內(nèi)主流方言;c)支持中英文數(shù)字等各種混合音,宜支持多音色合成和個性化合成;d)MOS應(yīng)大于或等于4,MOS量化分值見表4。表4MOS量化分值5非常接近播音員真人發(fā)聲,達(dá)到以假亂真的程度,總體4發(fā)音清晰、可懂,總體聽感好、流暢,聽測人),32語音吐字不清晰,字詞之間有較為嚴(yán)重的頓挫感,體驗(yàn)性不好,15.4語音喚醒5.4.1夜間喚醒具備語音喚醒功能的智能語音終端在夜間的喚醒率應(yīng)滿足表5要求。表5夜間不同噪聲環(huán)境下的喚醒率要求4T/XXXXXXX—XXXX5.4.2晝間喚醒具備語音喚醒功能的智能語音終端在晝間的喚醒率應(yīng)滿足表6要求。表6晝間不同噪聲環(huán)境下的喚醒率要求5.4.3誤喚醒次數(shù)具備語音喚醒功能的智能語音終端誤喚醒次數(shù)應(yīng)滿足表7要求。表7誤喚醒次數(shù)要求5.5語音技能5.5.1通用技能5.5.1.1響應(yīng)時間因調(diào)用網(wǎng)絡(luò)資源的不同,音頻端點(diǎn)檢測方式的不同,語音技能的響應(yīng)時間也會有所不同,但最長響應(yīng)時間應(yīng)小于或等于2s。5.5.1.2交互反饋應(yīng)滿足以下要求:a)支持查詢類技能通過語音播報(bào)加信息展示的形式向用戶反饋;b)支持媒資檢索類技能通過語音播報(bào)加搜索結(jié)果展示的形式向用戶反饋;c)支持技能處理遇到異常情況時通過語音或者文本展示的形式向用戶反饋。5.5.1.3反饋語設(shè)計(jì)宜滿足以下要求:a)準(zhǔn)確:實(shí)事求是,清楚明了傳達(dá)信息,避免歧義;5T/XXXXXXX—XXXXb)簡潔:用最少的話傳達(dá)最重要的信息;c)自然:口語化不生硬,容易理解,有停頓,符合正常說話節(jié)奏;d)明晰:明確、具體完成任務(wù),并傳達(dá)理解程度;e)親和:遇到出錯情況,主動推薦并引導(dǎo)用戶。5.5.2應(yīng)用喚起5.5.2.1單說指令喚起應(yīng)支持按應(yīng)用名稱喚起應(yīng)用。5.5.2.2指定句式喚起a)應(yīng)支持按固定的句式進(jìn)行應(yīng)用的喚起,句式為:前綴詞+應(yīng)用名稱+后綴詞。b)前綴詞至少包括:打開、啟動、開啟。c)后綴詞至少包括:應(yīng)用、軟件。5.5.2.3關(guān)聯(lián)語義喚起宜支持根據(jù)語音指令的語義理解,抽取出用戶的意圖所屬的語義范圍,然后根據(jù)該語義范圍將相匹配的應(yīng)用喚起。5.6涉屏語音服務(wù)技能5.6.1媒資管理應(yīng)支持媒資的欄目管理、索引建立、審核、發(fā)布功能。媒資信息應(yīng)滿足以下要求:a)影視媒資信息包括:名稱、主演、上映時間、類型,宜包括季集、導(dǎo)演、簡介、評分、熱度等信息;b)音樂媒資信息包括:名稱、歌手、音樂來源、類型,宜包括地區(qū)、簡介、評分、熱度等信息;c)游戲媒資信息包括:名稱、類型,宜包括簡介、評分、上架時間、熱度等信息;d)應(yīng)用媒資信息包括:名稱、類型,宜包括簡介、評分、上架時間、熱度等信息。5.6.2媒資檢索5.6.2.1標(biāo)簽檢索應(yīng)滿足以下要求:a)支持根據(jù)媒資庫中的1個標(biāo)簽進(jìn)行檢索;b)支持根據(jù)媒資庫中的任意2個或2個以上標(biāo)簽進(jìn)行檢索。5.6.2.2容錯處理當(dāng)用戶所說的檢索條件出現(xiàn)多音字、同義字、多字少字情況時,應(yīng)能夠正確處理并搜索出對應(yīng)的結(jié)5.6.2.3關(guān)聯(lián)推薦宜支持基于內(nèi)容及用戶喜好的關(guān)聯(lián)推薦檢索。關(guān)聯(lián)推薦計(jì)算維度應(yīng)包括物品關(guān)聯(lián)度以及權(quán)重,其中影視媒資關(guān)聯(lián)維度宜包括類型、導(dǎo)演、演員信5.6.3頁面操控5.6.3.1頁面基礎(chǔ)操控應(yīng)滿足以下要求:a)支持通過語音控制,實(shí)現(xiàn)返回上級頁面和退出當(dāng)前應(yīng)用等基本操作;b)支持通過語音喚起當(dāng)前頁面上所列欄目。5.6.3.2搜索頁操控6T/XXXXXXX—XXXX搜索頁應(yīng)支持語音的翻頁及選擇指令,具體指令見表8。表8搜索頁操控指令跳到下一頁NEXT-跳到上一頁-5.6.3.3播放頁面操控播放頁面應(yīng)支持語音的播控操作指令,播控操作相關(guān)指令見表9。表9播放操控指令----position位置(整數(shù)值型,單位:秒)5.6.4涉屏終端控制應(yīng)支持對帶屏類智能語音終端設(shè)備的基礎(chǔ)控制指令,如音量控制、打開設(shè)置頁面、關(guān)機(jī)。5.7服務(wù)安全5.7.1基礎(chǔ)服務(wù)安全按照GB/T22239中8.1.2規(guī)定的執(zhí)行。5.7.2隱私保護(hù)5.7.2.1麥克風(fēng)隱私保護(hù)具有語音喚醒功能的智能語音終端應(yīng)具備關(guān)閉麥克風(fēng)的功能,用戶可通過手工關(guān)閉麥克風(fēng)。宜支持一鍵禁麥。5.7.2.2攝像頭隱私保護(hù)具有攝像頭的智能語音終端應(yīng)具備關(guān)閉攝像頭的功能,用戶可通過手工關(guān)閉攝像頭。宜具備物理遮擋開關(guān)。6環(huán)境要求6.1自然環(huán)境人工智能自動語音識別系統(tǒng)主要在室內(nèi)環(huán)境下使用,在表3所示自然環(huán)境條件下應(yīng)正常工作。表10自然環(huán)境要求6.2網(wǎng)絡(luò)環(huán)境7T/XXXXXXX—XXXX人工智能自動語音識別系統(tǒng)或與之相連的智能設(shè)備應(yīng)支持無線或有線網(wǎng)絡(luò)接入互聯(lián)網(wǎng),網(wǎng)絡(luò)接入速度應(yīng)不低于128kbit/s。6.3噪聲環(huán)境人工智能自動語音識別系統(tǒng)主要在室內(nèi)環(huán)境下使用,室內(nèi)噪聲環(huán)境具體要求按照GB3096第4章中0、1、2類聲環(huán)境功能區(qū)的規(guī)定執(zhí)行。7測試方法7.1測試準(zhǔn)備7.1.1測試語料7.1.1.1文本測試集應(yīng)滿足以下要求:a)覆蓋影視、音樂、醫(yī)療、教育等領(lǐng)域;b)b包含智能語音終端的喚醒詞、操控指令、多音字、頻道別名等常用性語句。7.1.1.2語音測試集應(yīng)滿足以下要求:a)至少由50名發(fā)音人進(jìn)行錄制;b)由不同年齡段發(fā)音人參與錄制,其中男女比例為1:1,年齡段在9~12歲、20~50歲、60~75歲的人員比例為1:4:1;c)測試文本滿足7.1.1.1的要求;d)發(fā)音人以普通話錄制;e)宜包含國內(nèi)主流方言;f)語音測試集錄音質(zhì)量要求應(yīng)符合相關(guān)的規(guī)定。7.1.2測試用設(shè)備7.1.2.1錄音棚要求應(yīng)滿足以下要求:a)本底噪聲小于25dB(A);b)混響時間小于0.3s。注1:本底噪聲又稱為等效噪聲電平,是話筒注2:混響時間指聲源停止發(fā)聲后,聲壓級減少60dB所需要的時間,單位為秒(s)。7.1.2.2音頻錄制要求錄音語料(喚醒詞、命令詞)應(yīng)提前準(zhǔn)備,語音測試集音頻應(yīng)在要求的錄音棚中進(jìn)行錄制,音頻應(yīng)滿足以下要求:a)音頻波形采樣范圍在5000smpl~20000smpl;b)音頻采樣率為44.1kHz,16bit,單聲道;c)音頻時長至少在2s~3s;d)音頻底噪波形采樣范圍控制在100smpl以內(nèi);e)錄制音頻時需檢查、確定不能存在固定頻率現(xiàn)象。7.2語音采集測試使用測試用回放設(shè)備播放任意語音測試集,使用被測設(shè)備進(jìn)行錄音,由被測設(shè)備提供錄音音頻記錄數(shù)據(jù),查看數(shù)據(jù)的編碼格式和采樣率。7.3端點(diǎn)檢測測試8T/XXXXXXX—XXXX使用測試用回放設(shè)備連續(xù)播放語音測試集,被測設(shè)備可以遠(yuǎn)場進(jìn)行語句端點(diǎn)檢測,并正確理解用戶意圖,進(jìn)行多個指令操作。7.4語音識別測試使用測試用回放設(shè)備播放語音測試集,被測設(shè)備進(jìn)行錄音,記錄各場景下被測系統(tǒng)的識別結(jié)果,與預(yù)期結(jié)果進(jìn)行比對,計(jì)算出句識別率。7.5語義理解測試采用機(jī)器和人工的方式輸入文本測試集,統(tǒng)計(jì)系統(tǒng)反饋的文本信息,統(tǒng)計(jì)正確次數(shù),計(jì)算出語義理解正確率。7.6語音播放測試在晝間2類噪聲環(huán)境中觸發(fā)被測設(shè)備語音播放場景,使用聲壓計(jì)在距離設(shè)備0.1m范圍內(nèi)測試聲音分貝值,記錄分貝數(shù)據(jù)。7.7語音合成測試選取10個體驗(yàn)人員,男女各5人,年齡在20~50歲之間,通過對被測設(shè)備人為的喚醒或識別命令反饋,測聽合成語音與真人語音在音質(zhì)、可懂度和自然度方面的差異,并按表5給出MOS量化分值,記錄平均結(jié)果。7.8語音喚醒測試7.8.1喚醒率測試按7.12.4的測試場景要求,將被測設(shè)備調(diào)至待命狀態(tài),使用測試用回放設(shè)備在遠(yuǎn)場距離播放喚醒語音測試集不少于50條,統(tǒng)計(jì)岀正確響應(yīng)次數(shù),計(jì)算出喚醒正確率。測試喚醒率時,應(yīng)確保環(huán)境噪音聲壓比被測設(shè)備聲壓低15dB,確保測試用播放設(shè)備正對被測設(shè)備,從前后左右四個方位播放喚醒詞各50次。7.8.2誤喚醒測試語音技能測試7.9按7.12.4誤喚醒測試場景要求,將測試用回放設(shè)備連續(xù)播放12h,統(tǒng)計(jì)被測設(shè)備給出的響應(yīng)次數(shù)。語音技能測試7.9.1響應(yīng)時間測試按8.3.3語音識別測試方法,從拾音設(shè)備拾音結(jié)束到語音交互系統(tǒng)顯示正確的反饋,計(jì)為一個交互響應(yīng)時間。對被測設(shè)備的基本交互時間進(jìn)行統(tǒng)計(jì)、分析,給出在線響應(yīng)時間。7.9.2交互反饋測試在被測設(shè)備支持的業(yè)務(wù)場景范圍內(nèi),選擇不少于5個業(yè)務(wù)場景,由測試人員發(fā)出操控指令,記錄被測設(shè)備交互反饋情況。7.9.3應(yīng)用喚起測試測試人員對被測設(shè)備說,“我要玩游戲”、“我要聽音樂”??梢詥颖粶y設(shè)備上已安裝的游戲、音樂應(yīng)用,即為通過。7.10涉屏語音服務(wù)技能測試7.10.1媒資管理和媒資檢索測試在被測試設(shè)備支持的媒資領(lǐng)域,選擇不少于10個媒資,由測試人員根據(jù)媒資的任意1個或任意2個標(biāo)簽發(fā)出搜索指令,記錄檢索結(jié)果情況。7.10.2關(guān)聯(lián)推薦測試9T/XXXXXXX—XXXX測試人員連續(xù)觀看同類影片,當(dāng)搜索無結(jié)果時,被測設(shè)備給出與用戶搜索語相關(guān)的影視推薦。7.10.3頁面操
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度直播平臺主播培訓(xùn)及管理合同
- 2025年度新能源汽車產(chǎn)業(yè)投資合作合同
- 二零二五年度商標(biāo)共營協(xié)議及跨國品牌合作合同
- 二零二五年度超市商品陳列與文化氛圍營造合同
- 2025年度民宿租賃合同終止及服務(wù)質(zhì)量協(xié)議
- 二零二五年度集體合同簽訂與新型學(xué)徒制實(shí)施
- 二零二五年度個人對個人科技成果轉(zhuǎn)化借款合同
- 2025年度機(jī)關(guān)炊事員食品安全培訓(xùn)聘用協(xié)議
- 日常行政管理事務(wù)處理指導(dǎo)書
- 日化用品行業(yè)供應(yīng)鏈優(yōu)化與市場拓展策略研究計(jì)劃
- 2025年湖南大眾傳媒職業(yè)技術(shù)學(xué)院單招職業(yè)技能測試題庫新版
- 北京房屋租賃合同電子版7篇
- 《園林機(jī)械使用與維修》課件-任務(wù)3.園林養(yǎng)護(hù)機(jī)械
- deepseek-r1論文-中文翻譯版
- 項(xiàng)目式學(xué)習(xí)在小學(xué)數(shù)學(xué)教學(xué)中的應(yīng)用
- 2025年中遠(yuǎn)海運(yùn)物流有限公司招聘筆試參考題庫含答案解析
- 2025中智集團(tuán)下屬單位公開招聘41人高頻重點(diǎn)提升(共500題)附帶答案詳解
- 設(shè)備維修的基本技能培訓(xùn)
- 產(chǎn)后腹直肌分離治療
- 2025年中國郵政招聘筆試參考題庫含答案解析
- 人教版(2024)七年級英語上冊新教材的變化及教學(xué)建議課件
評論
0/150
提交評論