版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
...wd......wd......wd...聽見智能會議系統(tǒng)建設方案安徽聽見科技2016年10月目錄TOC\o"1-4"\h\z\u1.工程概述11.1.建設背景11.2.建設重要性12.建設內容及目標13.產(chǎn)品施工條件24.系統(tǒng)連線圖25.建設方案45.1.系統(tǒng)概述45.2.軟件詳細配置65.2.1.中文語音轉寫引擎65.2.2.應用系統(tǒng)基本功能75.2.2.1.用戶管理75.2.2.2.音頻采集處理75.2.2.3.實時語音轉寫75.2.2.4.歷史語音轉寫75.2.2.5.內容編輯85.2.2.6.效果優(yōu)化95.2.2.7.內容展示95.2.2.8.內容管理105.2.2.9.全文檢索105.3.硬件設備配置115.3.1.一體式智能會議主機115.3.2.應用端主控電腦126.工程報價12工程概述建設背景隨著信息時代的到來,海量語音的獲取和存儲能力愈發(fā)強大,基于會議辦公的實際場景,會存在需要大量的人力投入、工作效率不高的情況、語音技術在會議場景中的應用質量和效果不高。因此,結合會議會務場景對語音技術的實際應用需求,開展了基于會議場景下的語音技術應用關鍵技術研究,突破語音合成、語音識別、語音轉寫等核心技術,提升語音技術在會議會務場景中的應用水平,切實提升日常會議辦公的工作效率和效果。建設重要性語音識別〔SpeechRecognize〕技術,是讓機器通過識別和理解過程使之聽懂人類語言的技術。語音識別技術是信息技術中人機交互的關鍵技術,目前已經(jīng)在呼叫中心、電信增值業(yè)務、企業(yè)信息化系統(tǒng)中有了廣泛的應用。隨著語音識別在語音搜索、語音控制等全新應用領域的深入應用,語音識別技術被業(yè)界權威人士譽為有可能引發(fā)人機界面領域革命的關鍵技術。近年來,語音識別技術取得了長足的進步。智能會議系統(tǒng)是基于語音識別技術所研發(fā),可滿足會議演講、會議研討、溝通交流、大型會議等一系列需要進展實時文字轉寫的場景。此局部工程的實施主要解決會議記要整理時間長、會議中心思想因記錄人員的理解而可能出現(xiàn)的偏差、會議錄音及關鍵點難以查找等問題。工程建成后當天即可完成所有相關會議記要的整理工作,同時,每一個人的發(fā)言均可記錄在紀要當中,可有效減少因不同原因造成的會議中心內容理解的偏差,提升紀要整理的效率。建設內容及目標本工程方案選取1個會議室分別部署單機版聽見智能會議系統(tǒng),進展基于會議場景下的新型語音轉寫技術的應用,實現(xiàn)會議過程中音頻實時轉寫成文字,輔助會議記錄人員進展紀要的整理與校正,實現(xiàn)快速成稿,在整體上打造樣板化智能語音轉寫會議室。產(chǎn)品施工條件環(huán)境要求單機版智能會議系統(tǒng)采用專業(yè)定制一體機的硬件形態(tài),一體機的安裝機柜需要6U空間,安裝于正常室外室內即可,設備深度為500MM,系統(tǒng)本身局域網(wǎng)組建自帶,網(wǎng)絡帶寬在100M以上,主控PC需要連接局域網(wǎng)下使用,整套設備局域網(wǎng)下運行即可。同時需要1.5KW電源。音視頻需求該系統(tǒng)是基于音頻根基上實現(xiàn)語音轉寫,麥克風等音響設備利用會議室現(xiàn)有環(huán)境。為實現(xiàn)對現(xiàn)場音頻的采集,需要現(xiàn)場音響設備〔調音臺或相關音頻設備〕提供會議話筒音頻供轉寫,同時設備接口支持卡儂公、大三芯〔6.5〕、雙蓮花輸入;如需單獨外接顯示,支持接口為HDMI或VGA。如有展板上屏需求,需要會議室內配有投影儀或者電視機,且具備VGA或者HDMI接口任意一種,展板通過連接投影儀或者電視機進展投屏展示。系統(tǒng)連線圖本工程擬購的一體式智能會議系統(tǒng),其硬件形態(tài)為:通過國家CCC認證和專業(yè)定制一體機+編輯段主控電腦。教室現(xiàn)場的發(fā)言音頻輸出給一體機,同時如需顯示,一體機支持顯示輸出,主控電腦通過網(wǎng)線與一體機連接,整套產(chǎn)品即可使用。一體機整體外觀圖示意如下:一體機機器后面板及接口圖示意如下:參數(shù)說明:整機電源:AC100-240V700W;服務器節(jié)點:XEON2.6G20M2011P8CORE,E5-2620V3*2;32GDDR4REG/ECC;接口2*千網(wǎng)口〔IntelI210AT〕,1*RS232,GPIO,Watchdog,VGA->切換器;USB:6*USB(前置1*USB2.0+后置〔2*USB2.0/2*USB3.0〕;應用節(jié)點:CORE3.2G6M1151P4COREI5-6500;8GDDR4,2*千兆網(wǎng)口〔Intel82579V〕1*千兆網(wǎng)口〔Intel82579V〕,1*RS232,1*VGA,1*PS2,外接:DVI轉HDMI;坦克聲卡:一個麥克風輸入并自帶音量增益旋鈕,XLR/6.3mm混合式接頭一個樂器輸入并自帶音量增益旋鈕,6.3mm接頭4個模擬輸入(RCA接頭)一組唱盤輸入并內建RIAA等化放大及自帶音量增益旋鈕6個模擬輸出(RCA接頭)一個耳機接孔(6.3mm接頭)并自帶音量增益旋鈕一個光纖數(shù)字輸出/輸入一個同軸數(shù)字輸出/輸入一組MIDII/O連線說明:本產(chǎn)品為一體機形態(tài),只需要接通一根電源線、一根音頻線、一根視頻線,并通過一根網(wǎng)線連接主控,就可使用。建設方案系統(tǒng)概述聽見智能會議系統(tǒng)由軟件、硬件共同構成,實現(xiàn)在會議場景下的實時音頻或錄音采集,并通過語音識別技術實時轉化為文字。用戶可以通過系統(tǒng)提供延時播放、按句回聽、重點標記等功能方便快速整理出會議材料;并且通過系統(tǒng)提供的語氣詞過濾、自動分段等功能自動優(yōu)化文字結果;同時,用戶可以使用全文檢索功能方便檢索歷史音頻。系統(tǒng)具備會議音頻管理、即時校對編輯、敏感詞屏蔽、轉寫文字實時直播等基本功能。系統(tǒng)整體配置清單如下:類別描述數(shù)量單位軟件語音識別轉寫引擎智能中文連續(xù)語音識別轉寫引擎,實現(xiàn)對普通話連續(xù)語音的實時轉寫,并提供對已轉寫文字的后處理及字音同步對齊能力1套會議管理系統(tǒng)智能會議管理系統(tǒng)應用軟件,實現(xiàn)歷史音頻轉寫、實時編輯、自動分段、關鍵詞優(yōu)化、禁忌詞屏蔽、語氣詞過濾、全文檢索、重點內容標記、按句回聽、用戶權限管理、會議信息管理、內容導出等功能1套硬件一體機專業(yè)定制一體式會議主機。NODE1:2*E5-2620V32.6GHZ/32G/800G*3SATA10Krpm+raid5/1*USBkey+3*USB2.0/1000MNIC;NODE2:IntelCorei5/8G內存/500GSATA7200rpm/VGA+HDMI\DVI\DP/3*USB2.0/1000MNIC;DMX6FireUSB\FastTrackUltra8RUSB音頻接口Route:3*LAN接口+1*WAN1臺套應用端主控電腦華碩PRO453U,Intel?Core?i5-6200U2.3GHz/8GB/Intel500GBSATA/Intel?HDGraphics520集顯+NvidiaGeForce920M2GB獨顯1臺服務1、提供首次上門安裝、調試;2、提供系統(tǒng)使用培訓;3、兩次通過軟件升級的方式提供效果優(yōu)化;4、提供大會服務和移機安裝服務。1年/套軟件詳細配置中文語音轉寫引擎聽見智能會議系統(tǒng)需要解決語音轉換成文字的問題。機器語音識別技術是一種實現(xiàn)從“聲音〞到“文字〞轉換的技術,通過將人的語音直接轉換成相應的文本。語音識別技術的研究工作開場于上世紀五十年代。Bell實驗室的研究人員利用模擬元器件提取了語音信號元音共振峰頻率變化的信息,有史以來第一次實現(xiàn)了識別十個英文數(shù)字的語音識別系統(tǒng)-Audry系統(tǒng)。八十年代,Bell實驗室的Rabiner等科學家將原本晦澀難懂的隱馬爾科夫模型〔HiddenMarkovModel-HMM〕理論工程化,形成了較為完善的概率統(tǒng)計模型體系,識別性能也得到了很大的提高。2006年以來DeepLearning理論和技術成為了模式識別領域的一個熱門研究方向,G.E.Hinton等深入研究了深度置信網(wǎng)絡〔DeepBeliefNetwork-DBN〕以及深度神經(jīng)網(wǎng)絡〔DeepNeuralNetwork-DNN〕等模型構造,微軟通過與Hinton合作率先將DNN應用于語音識別任務,識別性能取得了顯著提升。此后谷歌、蒙特利爾,以及IBM又將循環(huán)神經(jīng)網(wǎng)絡〔RecurrentNeuralNetwok-RNN〕成功應用于語音識別領域,特別是長短時記憶〔Long-ShortTermMemory〕神經(jīng)網(wǎng)絡構造,取得非常出色的語音識別性能。加上目前圖形處理器〔GPU〕計算能力的提升,以及互聯(lián)網(wǎng)時代大規(guī)模標注數(shù)據(jù)獲取成為可能,基于深度學習的語音識別技術已經(jīng)在多個領域到達實用水平。傳統(tǒng)的語音識別技術主要用于解決人與機器的交互問題。而在會議場景需要需要轉成文字的音頻內容是人與人之間交互,聽見智能會議系統(tǒng)需要基于機器語音識別技術構建語音轉寫引擎。聽見智能會議系統(tǒng)構建的語音轉寫引擎需要能夠實時、高效的把人與人之間交流的語音轉換為文字的能力,具體包括中文語音轉寫引擎與英文語音轉寫引擎,本系統(tǒng)需要完成中文語音轉寫引擎的建設。應用系統(tǒng)基本功能聽見智能會議系統(tǒng),可以實現(xiàn)在會議、教學、演講等場景下的實時音頻或錄音采集,并通過語音識別技術實時轉化為文字。用戶可以通過系統(tǒng)提供延時播放、按句回聽、重點標記等功能方便快速整理出會議材料;并且通過系統(tǒng)提供的語氣詞過濾、自動分段等功能自動優(yōu)化文字結果,可人工進展角色別離;同時,用戶可以使用全文檢索功能方便檢索歷史音頻。用戶管理聽見智能會議系統(tǒng)采用賬號密碼登錄,在提升用戶安全體驗的同時,分賬號進展管理;系統(tǒng)可根據(jù)需要配置提供管理員賬號和普通賬號,管理員賬號可查看全部列表內容,普通賬號僅支持查看當前賬號下的內容。不同賬號間的數(shù)據(jù)進展邏輯和物理隔離,保證數(shù)據(jù)安全性和私密性;滿足用戶不同用戶、不同權限的管理需求。音頻采集處理聽見智能會議系統(tǒng)需要通過對實時音頻流信號的處理完成從信號獲取、轉換、處理、識別、輸出、展示等一整套流程動作,需要由強大的音頻采集處理模塊。系統(tǒng)講通過使用特定的錄音服務,通過麥克風收集后,送達后臺服務端完成編碼工作,實時上傳到系統(tǒng),供后續(xù)的轉寫文字等功能使用,同時保存到內容管理模塊中。實時語音轉寫系統(tǒng)通過專業(yè)麥克風對會議全程進展高保真錄音,并針對連續(xù)中文語流進展實時語音轉寫識別,并持續(xù)進展轉寫結果文本內容的輸出。歷史語音轉寫相比于實時語音轉寫模塊,歷史語音轉寫模塊提供對于已經(jīng)錄制好的歷史音頻需要轉寫情況下的解決能力;用戶可以通過系統(tǒng)提供的功能按鈕,導入歷史音頻并實現(xiàn)快速離線轉寫;支持音頻批量導入。圖:歷史音頻轉寫編輯效果圖內容編輯在實時語音轉寫過程中用戶可以實時對轉寫出的文本結果進展編輯,并進展重點內容標記。在實時編輯的過程中采用延時播放的策略,用戶可以在查看到轉寫文本之后及時根據(jù)聽到的音頻進展文本校對編輯。用戶也可不戴耳機直接聽現(xiàn)場的實時音頻。支持選擇查看原始結果,比照修改,方便快捷,會議完畢后即可直接成稿,并根據(jù)重點內容,整理導出會議紀要。具體功能包括:延時播放:在實時語音轉寫過程中,識別結果展現(xiàn)之后再開場連續(xù)播放音頻,即用戶在看到轉寫文本的時候,同步聽到對應的音頻,使得校對和編輯更加便利。重點內容標記:在實時語音轉寫過程中或者暫停和完畢時,用戶均可以選中文本來進展重點內容的標記,已標記的文本也可以進展修改和標記取消,方便整理會議紀要,會議完畢會后即可或直接成稿。音字對照:在實時語音轉寫暫停的時候,用戶如果對于有些內容沒有聽清,對于文本內容不確定的情況下,雙擊原始結果即可聽到文本對應的音頻,方便用戶對寫結果進展編輯,尤其是不小心誤刪除了編輯文本,可以通過回聽原始結果來進展回溯。實時語音轉寫完畢狀態(tài)時,原始結果及編輯結果均可雙擊進展音頻回聽。圖:實時語音轉寫效果圖效果優(yōu)化在實時語音轉寫過程中,聽見智能會議系統(tǒng)通過提供語氣詞過濾、自動分段等功能自動優(yōu)化文字轉寫和顯示結果。具體包括:自動分段:在會議內容實時語音轉寫成文字的過程中,為了方便用戶編輯何查看,系統(tǒng)提供根據(jù)VAD+固定字數(shù)和VAD+固定關鍵詞兩種自動分段方式。系統(tǒng)提供最正確的默認自動分段方式,用戶也可根據(jù)實際情況進展設置。語氣詞過濾:用戶可以在實時語音轉寫開場前或者進展文稿整理時可以根據(jù)需要選擇是否開啟語氣詞過濾按鈕,假設開啟按鈕可將語氣詞和多余的詞匯去除,以保證文稿的規(guī)整。語氣詞過濾只針對新轉寫的結果,已經(jīng)修改正的內容不支持過濾。關鍵詞優(yōu)化:用戶可通過關鍵詞優(yōu)化功能將此次會議相關的關鍵詞進展添加,能有效提升該關鍵詞的識別準確率。實時轉寫過程中用戶也可添加關鍵詞,并且可以實時生效,后續(xù)識別結果可得到有效優(yōu)化。內容展示系統(tǒng)通過提供展板上屏等形式進展實時語音轉寫結果的展示。具體功能包括:實時上屏:通過展板上屏展示中實時語音轉寫結果。并且,字體顏色和展板背景顏色可以根據(jù)實際情況需要進展調整。圖:展板效果圖上屏后臺修改:如果在實時轉寫過程中使用了實時上屏功能,希望保障上屏效果,那么可以使用上屏后臺修改功能進展展板端的結果糾正。在開場時點擊展板按鈕,調出展板,此時該展板端會同步出現(xiàn)識別文字。如果在轉寫過程中出現(xiàn)明顯錯誤或不適宜展示的詞語,那么可以在主控端進展展板編輯,可以修改或刪除,修改之后按Enter鍵那么修改的內容會同步到現(xiàn)場的投影屏幕上。內容管理所有通過聽見智能會議系統(tǒng)轉寫的實時錄制的音頻文本數(shù)據(jù)和本地上傳的音頻文本數(shù)據(jù)系統(tǒng)都會以列表形式進展管理,后臺通過分布式存儲集群實現(xiàn)高效安全存儲,整個過程用戶無感知。用戶可以通過內容管理模塊隨時查看和編輯,并且可以根據(jù)名稱等信息快速檢索。此外,編輯后的全文本、重點文本以及音頻、某一角色的文本,用戶都可以快速導出,方便快捷。全文檢索系統(tǒng)通過自然語言理解、語音識別和語義分析技術理解用戶意圖,執(zhí)行用戶的檢索指令〔包括語音、文本等〕,實現(xiàn)資源文本內容的語音搜索服務能力,不僅能檢索文本資源,也能根據(jù)文件名對音視頻內容進展搜索。該服務在傳統(tǒng)的文字輸入搜索方式根基上,不僅能支持搜索語音時的相對自由表述,也應當能夠支持傳統(tǒng)文字檢索時的相對自由表述。硬件設備配置聽見智能會議系統(tǒng)的配套硬件設備,具體包括:一體式智能會議主機、應用端主控電腦。一體式智能會議主機專業(yè)定制一體式智能會議主機,提供4U設備形態(tài),集成了包括服務節(jié)點、應用節(jié)點、聲卡、顯示器、路由器等部件。產(chǎn)品型號:訊飛聽見產(chǎn)品參數(shù):NODE1:2*E5-2620V32.6GHZ/32G/800G*3SATA10Krpm+raid5/1*USBkey+3*USB2.0/1000MNIC;NODE2:IntelCorei5/8G內存/500GSATA7200rpm/VGA+HDMI\DVI\DP/3*USB2.0/1000MNIC;DMX6FireUSB\FastTrackUltra8RUSB音頻接口Route:3*LAN接口+1*WAN產(chǎn)品尺寸:整機箱尺寸:426mm*477.4mm*177mm鍵盤托架尺寸:426mm*480mm*47mm產(chǎn)品圖片:應用端主控電腦與一體機配合展示轉寫結果,接收主控臺的音頻轉寫結果,通過投影儀將轉寫結果展示在大屏幕上,提供實時及離線會議語音轉寫功能。產(chǎn)品型號:華碩PRO453U產(chǎn)品參數(shù):In
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 喬遷新居賀詞(集錦15篇)
- 雪話題作文(15篇)
- 初一滿分作文800字范文5篇
- 簡歷的自我評價匯編15篇
- 升學宴學生演講稿合集15篇
- 特鋼企業(yè)突發(fā)環(huán)境事件應急預案
- 公交站亭基礎及鋪裝施工合同(2篇)
- 商場場地租賃協(xié)議書范本
- 貨車租賃協(xié)議書樣書
- 公租房協(xié)議范本
- 湖北省武漢市青山區(qū)2022-2023學年五年級上學期數(shù)學期末試卷(含答案)
- 《入侵檢測與防御原理及實踐(微課版)》全套教學課件
- IT企業(yè)安全生產(chǎn)管理制度范本
- 工業(yè)傳感器行業(yè)市場調研分析報告
- 小學生心理健康講座5
- 上海市市轄區(qū)(2024年-2025年小學五年級語文)部編版期末考試((上下)學期)試卷及答案
- 國家職業(yè)技術技能標準 X2-10-07-18 陶瓷工藝師(試行)勞社廳發(fā)200633號
- 人教版八年級上冊生物全冊教案(完整版)教學設計含教學反思
- 2024年銀行考試-銀行間本幣市場交易員資格考試近5年真題附答案
- 人教版小學四年級數(shù)學上冊期末復習解答題應用題大全50題及答案
- 冀教版五年級上冊脫式計算題100道及答案
評論
0/150
提交評論