




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、建設(shè)方案2017 年 1 月項目概述 TOC o 1-5 h z ? 1.1. 建設(shè)背景1? 1.2. 建設(shè)重要性1建設(shè)內(nèi)容及目標 2產(chǎn)品施工條件 3建設(shè)方案 7? 4.1. 系統(tǒng)概述7 ? 4.2. 軟件詳細配置中 文語音轉(zhuǎn)寫引擎9應(yīng) 用系統(tǒng)基本功能11用 戶管理錯誤!未定義書簽。音 頻采集處理錯誤!未定義書簽。實 時語音轉(zhuǎn)寫11歷 史語音轉(zhuǎn)寫12內(nèi) 容編輯12效 果優(yōu)化14內(nèi) 容展示15. 容管理4.2.2.16全 文檢索錯誤 !未定義書簽。硬件設(shè)備配置17一 體式智能會議主機錯誤!未定義書簽。應(yīng) 用端主控電腦5.錯誤!未定義書簽。項目報價19項目概述建 設(shè)背景隨著信息時代的到來,海量語音
2、的獲取和存儲能力愈發(fā)強大,基于會議辦公的實際場景, 會存在需要大量的人力投入、工作效率不高的情況、語音技術(shù)在會議場景中的應(yīng)用質(zhì)量和效果不高。因此, 結(jié)合會議會務(wù)場景對語音技術(shù)的實際應(yīng)用需求,開展了基于會議場景下的語音技術(shù)應(yīng)用關(guān)鍵技術(shù)研究,突破語音合成、語音識別、 語音轉(zhuǎn)寫等核心技術(shù),提升語音技術(shù)在會議會務(wù)場景中的應(yīng)用水平,切實提升日常會議辦公的工作效率和效果。建 設(shè)重要性語音識別(Speech Recognize )技術(shù),是讓機器通過識別和理解過程使之聽懂人類語言的技術(shù)。語音識別技術(shù)是信息技術(shù)中人機交互的關(guān)鍵技術(shù),目前已經(jīng)在呼叫中心、電信增值業(yè)務(wù)、企業(yè)信息化系統(tǒng)中有了廣泛的應(yīng)用。 隨著語音識別
3、在語音搜索、語音控制等全新應(yīng)用領(lǐng)域的深入應(yīng)用,語音識別第 1頁第 頁技術(shù)被業(yè)界權(quán)威人士譽為有可能引發(fā)人機界面領(lǐng)域革命的關(guān)鍵技術(shù)。近年來, 語音識別技術(shù)取得了長足的進步。智能會議系統(tǒng)是基于語音識別技術(shù)所研發(fā),可滿足會議演講、 會議研討、溝通交流、大型會議等一系列需要進行實時文字轉(zhuǎn)寫的場景。此部分項目的實施主要解決會議記要整理時間長、會議中心思想因記錄人員的理解而可能出現(xiàn)的偏差、會議錄音及關(guān)鍵點難以查找等問題。項目建成后當天即可完成所有相關(guān)會議記要的整理工作,同時, 每一個人的發(fā)言均可記錄在紀要當中,可有效減少因不同原因造成的會議中心內(nèi)容理解的偏差,提升紀要整理的效率。建設(shè)內(nèi)容及目標本項目計劃選取
4、1 個 會議室分別部署單機版聽見智能會議系統(tǒng),進行基于會議場景下的新型語音轉(zhuǎn)寫技術(shù)的應(yīng)用,實現(xiàn)會議過程中音頻實時轉(zhuǎn)寫成文字,輔助會議記錄人員進行紀要的整理與校正,實現(xiàn)快速成稿,在整體上打造樣板化智能語音轉(zhuǎn)寫會議室。產(chǎn)品施工條件聽見智能會議系統(tǒng)的部署環(huán)境整體要求如下:環(huán) 境 指 標 要 求電源機柜要求音頻接口麥克風(fēng)視頻接口1.5KW高度:6U深度:500MM 對應(yīng)機 柜托盤一個需提供 一路音頻接 口,支 持卡儂 公或大 三芯或 雙蓮花需配置麥 克風(fēng)對每個說 話人聲音 進行采集如需上屏,需提供投屏接口,支 持HDMI 或VGA詳細說明如下:環(huán)境要求智能會議系統(tǒng)采用專業(yè)定制一體機的硬件形態(tài),一體機的
5、安裝機柜需要6U 空間,安裝于正常室外室內(nèi)即可,設(shè)備深度為500MM ,系統(tǒng)本身局域網(wǎng)組建自帶,網(wǎng)絡(luò)帶寬在100M 以上,主控PC需要連接局域網(wǎng)下使用,整套設(shè)備局域網(wǎng)下運行即可。同時需要1.5KW 電源。音視頻需求該系統(tǒng)是基于音頻基礎(chǔ)上實現(xiàn)語音轉(zhuǎn)寫,麥克風(fēng)等音響設(shè)備利用會議室現(xiàn)有環(huán)境。為實現(xiàn)對現(xiàn)場音頻的采集,需要現(xiàn)場音響設(shè)備 (調(diào)音臺或相關(guān)音頻設(shè)備)提供會議話筒音頻供轉(zhuǎn)寫,同時設(shè)備接口支持卡儂公、大三芯(6.5) 、雙蓮花輸入。如有展板上屏需求,需要會議室內(nèi)配有投影儀或者電視機,且具備VGA 或者 HDMI接口任意一種,展板通過連接投影儀或者電視機進行投屏展示。系統(tǒng)連線圖聽見智能會議系統(tǒng)的配套
6、硬件設(shè)備,其形態(tài)為:通過國家CCC 認證和專業(yè)定制一體機 +應(yīng)用端主控電腦。一體式智能會議主機為訊飛聽見專業(yè)定制設(shè)備,集成了包括服務(wù)節(jié)點、應(yīng)用節(jié)點、聲卡、顯示器、路由器等部件, 用于部署引擎等核心能力軟件,并提數(shù)據(jù)傳遞等能力;主控端控制提供軟件各個功能的操一體機支持顯示輸出,主控一體機整體外觀圖示意圖及背后面板圖整套產(chǎn)品即可參數(shù)說明:? 整 機電源:AC 100-240V 700W;? 服 務(wù)器節(jié)點:XEON 2.6G 20M 2011PCORE,E5-2620 V3*2; 32G DDR4REG/ECC;接口2*千網(wǎng)口(IntelI210AT ) , 1* RS232, GPIO, Watc
7、h dog,VGA- 切換器;USB: 6*USB(前置1*USB2.0+后置(2*USB 2.0/2*USB3.0) ;? 應(yīng) 用節(jié)點:CORE 3.2G 6M 1151P 4CORE I5-6500; 8G DDR4, 2*千兆網(wǎng)口( Intel 82579V ) 1*千兆網(wǎng)口(Intel2579V ) , 1*RS 232, 1*VGA, 1*PS2,DVI 轉(zhuǎn) HDMI ;? 坦 克聲卡: 一個麥克風(fēng)輸入并自帶音量增益旋鈕,XLR/6.3mm混合式接頭一個樂器輸入并自帶音量增益旋鈕,6.3mm接頭4個模擬輸入(RCA接頭) 一組唱盤輸入并內(nèi)建RIAA等化放大及自帶音量增益旋鈕6個模擬輸
8、出(RCA接頭 )一個耳機接孔(6.3mm接頭)并自帶音量增益旋鈕一個光纖數(shù)字輸出/輸入一個同軸數(shù)字輸出/輸入 一組 MIDI I/O產(chǎn)品連線說明:本產(chǎn)品為一體機形態(tài),只需要接通一根電一根音頻線、一根視頻線,并通過一 聽、 重點標記等功能方便快速整理出會議材建設(shè)方案5.5.1. 系 統(tǒng)概述聽見智能會議系統(tǒng)由軟件、硬件共同構(gòu)實現(xiàn)在會議場景下的實時音頻或錄音采料; 并且通過系統(tǒng)提供的語氣詞過濾、自動分段等功能自動優(yōu)化文字結(jié)果;同時, 用戶可以使用全文檢索功能方便檢索歷史音頻。系統(tǒng)具備會議音頻管理、即時校對編輯、敏感詞屏蔽、轉(zhuǎn)寫文字實時直播等基本功能。麥克風(fēng)一體機主控電腦實時字幕性 能參數(shù)系統(tǒng)關(guān)鍵性
9、能指標如下:轉(zhuǎn) 寫結(jié)果能夠?qū)崟r上屏展示;2)轉(zhuǎn) 寫結(jié)果能夠音字對照、編輯校正;3)普 通話轉(zhuǎn)寫指標:安靜環(huán)境下的標準普通話轉(zhuǎn)寫正確率90%;4)系 統(tǒng)響應(yīng)指標:常規(guī)頁面操作的響應(yīng)時間 5 秒;5)轉(zhuǎn) 寫效率指標:實時語音轉(zhuǎn)寫效率500 毫秒。軟 件功能配置中文語音轉(zhuǎn)寫引擎聽見智能會議系統(tǒng)需要解決語音轉(zhuǎn)換成文字的問題。機器語音識別技術(shù)是一種實現(xiàn)從“聲音”到“文字”轉(zhuǎn)換的技術(shù),通過將人的語音直接轉(zhuǎn)換成相應(yīng)的文本。語音識別技術(shù)的研究工作開始于上世紀五十年代。Bell 實驗室的研究人員利用模擬元器件提取了語音信號元音共振峰頻率變化的信息,有史以來第一次實現(xiàn)了識別十個英文數(shù)字的語音識別系統(tǒng)-Audry
10、系統(tǒng)。八十年代,Bell 實驗室的Rabiner等科學(xué)家將原本艱澀難懂的隱馬爾科夫模型(Hidden MarkovModel-HMM )理論工程化,形成了較為完善的概率統(tǒng)計模型體系,識別性能也得到了很大的提高。2006 年以來 Deep Learning理論和技術(shù)成為了模式識別領(lǐng)域的一個熱門研究方向,G. E. Hinton 等深入研究了深度置信網(wǎng)絡(luò) ( Deep Belief Network-DBN ) 以及深度神經(jīng)網(wǎng)絡(luò)( Deep Neural Network-DNN)等模型結(jié)構(gòu),微軟通過與Hinton 合作率先將 DNN 應(yīng)用于語音識別任務(wù),識別性能取得了顯著提升。此后谷歌、蒙特利爾,以
11、及IBM 又將循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent NeuralNetwok-RNN )成功應(yīng)用于語音識別領(lǐng)域,特 別 是 長 短 時 記 憶 ( Long-Short Term Memory)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),取得非常出色的語音識別性能。加上目前圖形處理器( GPU)計算能力的提升,以及互聯(lián)網(wǎng)時代大規(guī)模標注數(shù)據(jù)獲取成為可能,基于深度學(xué)習(xí)的語音識別技術(shù)已經(jīng)在多個領(lǐng)域達到實用水平。傳統(tǒng)的語音識別技術(shù)主要用于解決人與機器的交互問題。而在會議場景需要需要轉(zhuǎn)成文字的音頻內(nèi)容是人與人之間交互,聽見智能會議系統(tǒng)需要基于機器語音識別技術(shù)構(gòu)建語音轉(zhuǎn)寫引擎。聽見智能會議系統(tǒng)構(gòu)建的語音轉(zhuǎn)寫引擎需要能夠?qū)崟r、高效的把人與人
12、之間交流的語音轉(zhuǎn)換為文字的能力,具體包括中文語音轉(zhuǎn)寫引擎與英文語音轉(zhuǎn)寫引擎, 本系統(tǒng)需要完成中文語音轉(zhuǎn)寫引擎的建設(shè)。應(yīng)用系統(tǒng)基本功能 TOC o 1-5 h z 聽見智能會議系統(tǒng),可以實現(xiàn)在會議、教學(xué)、演講等場景下的實時音頻或錄音采集,并通過語音識別技術(shù)實時轉(zhuǎn)化為文字。用戶可以通過系統(tǒng)提供延時播放、按句回聽、重點標記等功能方便快速整理出會議材料;并且通過系統(tǒng)提供的語氣詞過濾、自動分段等功能自動優(yōu)化文字結(jié)果,可人工進行角色分離; 同時, 用戶可以使用全文檢索功能方便檢索歷史音頻。實時語音轉(zhuǎn)寫聽見智能會議系統(tǒng)需要通過對實時音頻流信號的處理完成從信號獲取、轉(zhuǎn)換、 處理、識別、 輸出、 展示等一整套流
13、程動作,需要由強大的音頻采集處理模塊。系統(tǒng)講通過使用特定的錄音服務(wù),通過麥克風(fēng)收集后,送達后臺服務(wù)端完成編碼工作,實時上傳到系統(tǒng), 供后續(xù)的轉(zhuǎn)寫文字等功能使用,同時保存到內(nèi)容管理模塊中。系統(tǒng)通過專業(yè)麥克風(fēng)對會議全程進行高保真錄音,并針對連續(xù)中文語流進行實時語音轉(zhuǎn)寫識別,并持續(xù)進行轉(zhuǎn)寫結(jié)果文本內(nèi)容的輸出。歷史語音轉(zhuǎn)寫相比于實時語音轉(zhuǎn)寫模塊,歷史語音轉(zhuǎn)寫模塊提供對于已經(jīng)錄制好的歷史音頻需要轉(zhuǎn)寫情況下的解決能力;用戶可以通過系統(tǒng)提供的功能按鈕,導(dǎo)入歷史音頻并實現(xiàn)快速離線轉(zhuǎn)寫;支持音頻批量導(dǎo)入。圖:歷史音頻轉(zhuǎn)寫編輯效果圖內(nèi)容編輯在實時語音轉(zhuǎn)寫過程中用戶可以實時對轉(zhuǎn)寫出的文本結(jié)果進行編輯,并進行重點內(nèi)容
14、標記。在實時編輯的過程中采用延時播放的策略,用戶可以在查看到轉(zhuǎn)寫文本之后及時根據(jù)聽到的音頻進行文本校對編輯。用戶也可不戴耳機直接聽現(xiàn)場的實時音頻。支持第 12頁第 頁選擇查看原始結(jié)果,對比修改,方便快捷,會議結(jié)束后即可直接成稿,并根據(jù)重點內(nèi)容,整理導(dǎo)出會議紀要。具體功能包括:延時播放:在實時語音轉(zhuǎn)寫過程中,識別結(jié)果展現(xiàn)之后再開始連續(xù)播放音頻,即用戶在看到轉(zhuǎn)寫文本的時候,同步聽到對應(yīng)的音頻 ,使得校對和編輯更加便利。重點內(nèi)容標記:在實時語音轉(zhuǎn)寫過程中或者暫停和結(jié)束時,用戶均可以選中文本來進行重點內(nèi)容的標記,已標記的文本也可以進行修改和標記取消,方便整理會議紀要,會議結(jié)束會后即可或直接成稿。音字對
15、照:在實時語音轉(zhuǎn)寫暫停的時候,用戶如果對于有些內(nèi)容沒有聽清,對于文本內(nèi)容不確定的情況下,雙擊原始結(jié)果即可聽到文本對應(yīng)的音頻,方便用戶對寫結(jié)果進行編輯, 尤其是不小心誤刪除了編輯文本,可以通過回聽原始結(jié)果來進行回溯。實時語音轉(zhuǎn)寫結(jié)束狀態(tài)時,原始結(jié)果及編輯結(jié)果均可雙擊進行音頻回聽。圖:實時語音轉(zhuǎn)寫效果圖效果優(yōu)化在實時語音轉(zhuǎn)寫過程中,聽見智能會議系統(tǒng)通過提供語氣詞過濾、自動分段等功能自動優(yōu)化文字轉(zhuǎn)寫和顯示結(jié)果。具體包括:自動分段:在會議內(nèi)容實時語音轉(zhuǎn)寫成文字的過程中,為了方便用戶編輯何查看,系統(tǒng)提供根據(jù)VAD+ 固定字數(shù)和VAD+ 固定關(guān)鍵詞兩種自動分段方式。系統(tǒng)提供最佳的默認自動分段方式,用戶也可
16、根據(jù)實際情況進行設(shè)置。語氣詞過濾:用戶可以在實時語音轉(zhuǎn)寫開始前或者進行文稿整理時可以根據(jù)需要選擇是否開啟語氣詞過濾按鈕,若開啟按鈕可將語氣詞和多余的詞匯去除,以保證文稿的規(guī)整。 語氣詞過濾只針對新轉(zhuǎn)寫的結(jié)果,已經(jīng)修改過的內(nèi)容不支持過濾。關(guān)鍵詞優(yōu)化:用戶可通過關(guān)鍵詞優(yōu)化功能將此次會議相關(guān)的關(guān)鍵詞進行添加,能有效提升該關(guān)鍵詞的識別準確率。實時轉(zhuǎn)寫過程中用戶也可添加關(guān)鍵詞,并且可以實時生效,后續(xù)識別結(jié)果可得到有效優(yōu)化。內(nèi)容展示系統(tǒng)通過提供展板上屏等形式進行實時語音轉(zhuǎn)寫結(jié)果的展示。具體功能包括:實時上屏:通過展板上屏展示中實時語音轉(zhuǎn)寫結(jié)果。并且, 字體顏色和展板背景顏色可以根據(jù)實際情況需要進行調(diào)整。上
17、屏后臺修改:如果在實時轉(zhuǎn)寫過程中使用了實時上屏功能,希望保障上屏效果,那么可以使用上屏后臺修改功能進行展板端的結(jié)果糾正。在開始時點擊展板按鈕,調(diào)出展板,此時該展板端會同步出現(xiàn)識別文字。如果在轉(zhuǎn)寫過程中出現(xiàn)明顯錯誤或不適宜展示的詞語,則可以在主控端進行展板編輯,可以修改或刪除,修改之后按Enter 鍵則修改的內(nèi)容會同步到現(xiàn)場的投影屏幕上。內(nèi)容管理所有通過聽見智能會議系統(tǒng)轉(zhuǎn)寫的實時錄制的音頻文本數(shù)據(jù)和本地上傳的音頻文本數(shù)據(jù)系統(tǒng)都會以列表形式進行管理,后臺通過分布式存儲集群實現(xiàn)高效安全存儲,整個過程用戶無感知。用戶可以通過內(nèi)容管理模塊隨時查看和編輯,并且可以根據(jù)名稱等信息快速檢索。此外, 編輯后的全
18、文本、重點文本以及音頻、某一角色的文本,用戶都可以快速導(dǎo)出,方便快捷。系統(tǒng)通過自然語言理解、語音識別和語義分析技術(shù)理解用戶意圖,執(zhí)行用戶的檢索指令(包括語音、文本等),實現(xiàn)資源文本內(nèi)容的語音搜索服務(wù)能力,不僅能檢索文本資源,也能根據(jù)文件名對音視頻內(nèi)容進行搜索。 該服務(wù)在傳統(tǒng)的文字輸入搜索方式基礎(chǔ)上,不僅能支持搜索語音時的相對自由表述, 也應(yīng)當能夠支持傳統(tǒng)文字檢索時的相對自由表述。硬 件參數(shù)配置聽見智能會議系統(tǒng)的配套硬件設(shè)備,具體包括: 一體式智能會議主機、應(yīng)用端主控電腦。產(chǎn)品參數(shù)如下:名 稱參數(shù)配置數(shù)單 量位定制一體機訊飛聽見專業(yè)定制一體式智能會議主機,提供4U 設(shè)備形態(tài),集成了包括服務(wù)節(jié)點、
19、應(yīng)用節(jié)點、聲卡、顯示器、路由器等部件。? 服 務(wù) 節(jié) 點 配 置 : 2*E5-2620V32.6GHZ/32G/900G*3SAS10KRPM+raid5/1*USBkey+3*USB2.0/1000M NIC;1 臺?應(yīng) 用 節(jié) 點 配 置i5/8G/500GIntel CoreSATA7200RPM/VGA+HDMIDVIDP/3*USB2.0/1000M NIC ;? KVM 控制器:二路信號切換,支持一鍵切換服務(wù)端、應(yīng)用端信號源; 鍵鼠支持切換使用二切一。? 聲 音采集 工作站 : DMX 6FireUSB,單路聲卡? 支 持路由功能,提供三個連接外網(wǎng)標準網(wǎng)絡(luò)LAN 接口、 1 個標準主 控 電 腦網(wǎng) WAN 口,配備1 個加密狗。i5-6200U 2.3GHz,內(nèi)存:G,硬華碩PRO453U。 cpu: Intel Core盤: 500GB SATA,顯卡:2GB 獨顯(滿足同等配置均可)本產(chǎn)品為軟硬件一體的離線式單機產(chǎn)品,主機采
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 計算機二級MySQL數(shù)據(jù)庫體系結(jié)構(gòu)試題及答案
- 邏輯推理技巧在財務(wù)成本管理中的應(yīng)用試題及答案
- 法律專業(yè)基礎(chǔ)試題及答案
- 針對2025年MySQL試題及答案的準備
- 法律援助類面試題及答案
- 法律文言文試題及答案
- MySQL考試高頻考點與試題及答案剖析
- 法律考試題庫及答案信訪
- C++編程技術(shù)的前瞻性研究與實踐探索試題及答案
- 2025年計算機二級MySQL索引失效分析試題及答案
- 《鳳凰大視野》變局1962-七千人大會真相-(全集)
- 公園維修施工組織設(shè)計方案方案
- 樹立正確就業(yè)觀課件
- 2024年百聯(lián)集團有限公司招聘筆試沖刺題(帶答案解析)
- 血氣分析詳解
- ISO TR 15608-2017-中英文版完整
- 家政保潔培訓(xùn)課件
- 《在馬克思墓前的講話》課件+2023-2024學(xué)年統(tǒng)編版高中語文必修下冊
- 安防監(jiān)控系統(tǒng)維保表格完整
- 第24屆世界奧林匹克數(shù)學(xué)競賽WMO省級測評五年級試卷【含答案】
- 服飾項目經(jīng)濟效益分析報告
評論
0/150
提交評論