科技成果信息征集表“科創(chuàng)中國(guó)”平臺(tái)科技成果產(chǎn)業(yè)化方案_第1頁(yè)
科技成果信息征集表“科創(chuàng)中國(guó)”平臺(tái)科技成果產(chǎn)業(yè)化方案_第2頁(yè)
科技成果信息征集表“科創(chuàng)中國(guó)”平臺(tái)科技成果產(chǎn)業(yè)化方案_第3頁(yè)
科技成果信息征集表“科創(chuàng)中國(guó)”平臺(tái)科技成果產(chǎn)業(yè)化方案_第4頁(yè)
科技成果信息征集表“科創(chuàng)中國(guó)”平臺(tái)科技成果產(chǎn)業(yè)化方案_第5頁(yè)
已閱讀5頁(yè),還剩8頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

附件:科技成果信息征集表成果簡(jiǎn)介本項(xiàng)目突破了遠(yuǎn)場(chǎng)復(fù)雜聲學(xué)場(chǎng)景下語(yǔ)音交互的聲學(xué)感知和語(yǔ)義理解關(guān)鍵技術(shù),融合了基于經(jīng)典陣列信號(hào)處理的模型驅(qū)動(dòng)算法和基于深度學(xué)習(xí)的數(shù)據(jù)驅(qū)動(dòng)算法,開發(fā)出具有自主知識(shí)產(chǎn)能技術(shù)在聲學(xué)信息交互領(lǐng)域的落地。本項(xiàng)目的推廣應(yīng)用多萬用戶,產(chǎn)生直接經(jīng)濟(jì)效益超1.6億。項(xiàng)目成果應(yīng)用于冬奧會(huì)和冬殘奧會(huì)、冬奧測(cè)試賽、聯(lián)合國(guó)COP15大會(huì)、建黨100周年、中國(guó)服貿(mào)會(huì)、中國(guó)科博會(huì)和中關(guān)村論壇等北京市和國(guó)家重點(diǎn)項(xiàng)目,為抗擊新冠疫情作出了突出貢獻(xiàn),獲得工信部突出貢獻(xiàn)企業(yè)表彰,入選工信部AI助力疫情防控展和應(yīng)用前景,潛在經(jīng)濟(jì)效益巨大,并在公共安全、疫情防控、金融域示范應(yīng)用。技術(shù)亮點(diǎn)聲學(xué)信息人機(jī)交互對(duì)人工智能產(chǎn)業(yè)發(fā)展具有重要戰(zhàn)略意義,遠(yuǎn)場(chǎng)交互是聲學(xué)信息人機(jī)交互產(chǎn)業(yè)的創(chuàng)新升級(jí)方向。從近場(chǎng)交互到遠(yuǎn)場(chǎng)交互,噪聲、混響、回聲等干擾帶來了語(yǔ)音識(shí)別、語(yǔ)義理解等難題,亟需攻克。本項(xiàng)目面向聲學(xué)信息人機(jī)交互產(chǎn)業(yè)落地的重大需求,突破了多項(xiàng)遠(yuǎn)場(chǎng)語(yǔ)音交互的聲學(xué)感知和語(yǔ)義理解關(guān)鍵技術(shù),構(gòu)建了陣列信號(hào)處理融合深度學(xué)習(xí)的先進(jìn)聲學(xué)模型和通用語(yǔ)義理解模型,形成了涵蓋麥克風(fēng)陣列、前端聲學(xué)處理、語(yǔ)音喚醒、語(yǔ)音識(shí)別、語(yǔ)義理解、語(yǔ)音合成等技術(shù)深度融合的端+云一體化系統(tǒng),大幅提高了系統(tǒng)泛化能力和識(shí)別精度,促使我國(guó)智能產(chǎn)品萬物互聯(lián)現(xiàn)象級(jí)產(chǎn)業(yè)直接對(duì)標(biāo)超越歐1.提出了不同場(chǎng)景下低復(fù)雜度穩(wěn)健的時(shí)頻域自適應(yīng)濾波算法,解決了高度依賴雙端對(duì)講檢測(cè)、收斂速度慢等難題,實(shí)現(xiàn)了單通道和多通道回聲抵2.提出了基于麥克風(fēng)陣列噪聲消除和盲源分離等方法,建立了帶噪語(yǔ)音的特征修復(fù)技術(shù),去除了人聲及背景噪聲干擾,大幅提升了系統(tǒng)3.提出了抗混響、抗干擾的低復(fù)雜度聲源定位方法,有效解決了復(fù)雜聲學(xué)環(huán)境特別是電梯、4.提出了加權(quán)有限狀態(tài)轉(zhuǎn)換機(jī)解碼圖喚醒算法,實(shí)現(xiàn)了多個(gè)聲學(xué)模型深別引擎,提高了系統(tǒng)在各種環(huán)境下語(yǔ)音識(shí)別、5.提出了基于用戶對(duì)話交互歷史的詞匯-領(lǐng)域詞庫(kù)映射算法、領(lǐng)域感知的詞向量訓(xùn)練算法,提高了領(lǐng)域識(shí)別精度,提升了信息交互的流暢應(yīng)用前景本項(xiàng)目在國(guó)家科技支撐計(jì)劃等課題支持下,開發(fā)出具有自主知識(shí)產(chǎn)權(quán)的全球領(lǐng)先的遠(yuǎn)場(chǎng)聲學(xué)信息人機(jī)交互系統(tǒng),技術(shù)成果形成了智能音箱、AI數(shù)字人紅外測(cè)溫與監(jiān)管系統(tǒng)、智慧電梯與安全監(jiān)管平臺(tái)等產(chǎn)品在多個(gè)領(lǐng)域落地應(yīng)用,占據(jù)了全球70%以上的中文遠(yuǎn)場(chǎng)智能語(yǔ)音市場(chǎng)。本項(xiàng)目獲授權(quán)發(fā)明專利44項(xiàng)、實(shí)用新型專利37項(xiàng)、軟件著作權(quán)6與制定國(guó)家標(biāo)準(zhǔn)15項(xiàng)、團(tuán)體標(biāo)準(zhǔn)15項(xiàng),產(chǎn)生直接經(jīng)濟(jì)效益超1.6億。本項(xiàng)目促進(jìn)了人工智能技術(shù)的推廣應(yīng)用,產(chǎn)品覆蓋家居、會(huì)議、軍工、醫(yī)療、交通等行業(yè),服務(wù)120多家企業(yè),擁有4000多萬用戶,數(shù)十億次人機(jī)交互真實(shí)場(chǎng)景的規(guī)模驗(yàn)證,服務(wù)海內(nèi)外客戶包括中國(guó)移動(dòng)、華為、百度、小米、阿里、騰訊等。實(shí)現(xiàn)了先進(jìn)的智能交互體驗(yàn),有球影響力的科技創(chuàng)新中心。本項(xiàng)目產(chǎn)品在抗擊新冠疫情期間作出了突出貢獻(xiàn),獲得工信部突出貢獻(xiàn)企業(yè)表彰,入選工信部AI助力疫情防控重團(tuán)隊(duì)概括聲智是第二批國(guó)家級(jí)“專精特新”小巨人企業(yè)、北京市中關(guān)村瞪羚企業(yè)、工信部抗疫突出貢獻(xiàn)人工智能企業(yè)、國(guó)家高新和“雙軟”技術(shù)企業(yè)、中關(guān)村前沿技術(shù)和中關(guān)村高新企業(yè)、北京市知識(shí)產(chǎn)權(quán)示范和試點(diǎn)企業(yè)、人工智能知識(shí)產(chǎn)權(quán)百?gòu)?qiáng)企業(yè)、人工智能百?gòu)?qiáng)企業(yè)、AI最佳聲智核心團(tuán)隊(duì)以智能聽覺技術(shù)為特色,建立了聲學(xué)與人工智能兩個(gè)核心研發(fā)團(tuán)隊(duì),在聲學(xué)信號(hào)處理與深度學(xué)習(xí)融合研究方面具有深厚積累,形成了以遠(yuǎn)場(chǎng)聲學(xué)信息交互技術(shù)為核心的全球競(jìng)爭(zhēng)優(yōu)勢(shì),入選“科創(chuàng)中國(guó)”先導(dǎo)技術(shù)榜1項(xiàng),榮獲北京市科技進(jìn)步獎(jiǎng)和吳文俊人工智能獎(jiǎng),獲得2項(xiàng)中國(guó)發(fā)明專利優(yōu)秀獎(jiǎng)和3項(xiàng)地區(qū)陳孝良,CEO,研究員,中科院聲學(xué)所博士,聲學(xué)和人工智李良斌,CTO,負(fù)責(zé)核心技術(shù)研究,中科院聲學(xué)所博士,語(yǔ)音與常樂,CKO,負(fù)責(zé)知識(shí)產(chǎn)權(quán)建設(shè),中科院聲學(xué)所碩士。2017/2018福布斯亞洲302017/2018胡潤(rùn)30X30創(chuàng)業(yè)領(lǐng)袖李智勇,CDO,負(fù)責(zé)開發(fā)框架研發(fā)與運(yùn)營(yíng),北京大學(xué)碩士,曾任聯(lián)想資古擘,CGO,負(fù)責(zé)商務(wù)合作與市場(chǎng)開拓,北京大學(xué)碩士,曾任杜比實(shí)驗(yàn)室大(一)陳孝良陳孝良,工學(xué)博士,研究員,男,漢族,出生于1980年6月,曾任中國(guó)科學(xué)院聲學(xué)研究所副研究員和信息辦主任,上海高等研究院客座副教授?,F(xiàn)任北京聲智科技有限公司創(chuàng)始人、董事長(zhǎng)兼CEO。現(xiàn)擔(dān)任計(jì)算機(jī)學(xué)會(huì)語(yǔ)音對(duì)話與聽覺專委會(huì)常務(wù)委員,中國(guó)聲學(xué)學(xué)會(huì)聲頻工程分會(huì)委員,中國(guó)人工智能和大數(shù)據(jù)專家委員,計(jì)算機(jī)學(xué)會(huì)高級(jí)會(huì)員/IEEE/ACM/ASA/AES會(huì)員。榮獲自然科學(xué)獎(jiǎng)勵(lì)2項(xiàng),發(fā)表文章35篇,主持或參與標(biāo)準(zhǔn)利105件。2010年度獲得中國(guó)科學(xué)院院長(zhǎng)優(yōu)秀獎(jiǎng),2017年度獲得中關(guān)村高端年進(jìn)入中國(guó)商業(yè)最具創(chuàng)意人物100榜單。目前研究興趣主要是結(jié)合聲學(xué)、人工智能和計(jì)算機(jī)通信等交叉學(xué)科的成果和進(jìn)展,開展多模態(tài)和多技能人工智能技術(shù)的研究縮感知、聲紋語(yǔ)音識(shí)別和多技能語(yǔ)言理解等交叉學(xué)科的融合技術(shù)研究。目前共主持研究項(xiàng)目5項(xiàng),曾參加海軍某重大項(xiàng)目、中科院重大創(chuàng)新項(xiàng)目、863課題、中國(guó)電科院重大項(xiàng)目等數(shù)項(xiàng)研(二)李良斌技術(shù)骨干,AI算法團(tuán)隊(duì)主管,中科院聲學(xué)所博士,主要研究方向?qū)W習(xí)算法、以及分布式大數(shù)據(jù)計(jì)算框架。曾任阿里巴巴機(jī)器學(xué)習(xí)平臺(tái)(PAI)及iDST團(tuán)隊(duì)核心開發(fā)工程師,所研產(chǎn)品服務(wù)于阿里集團(tuán)廣告、搜索、推薦等數(shù)十個(gè)核心應(yīng)用。曾參與國(guó)家863課題、國(guó)家自然科學(xué)基金青年基金項(xiàng)目等,發(fā)表SCI、EI論文2篇,申請(qǐng)產(chǎn)生的效益聲智科技是國(guó)內(nèi)自主原創(chuàng)遠(yuǎn)場(chǎng)語(yǔ)音技術(shù)的開拓者,作為全球領(lǐng)先的遠(yuǎn)場(chǎng)智能交互平臺(tái)提供商,其基于遠(yuǎn)場(chǎng)聲學(xué)信息人機(jī)交互技術(shù)開發(fā)的產(chǎn)品及解決方案,已廣泛運(yùn)用于智慧城市、智能家居、智慧金融、智慧安防、智慧金融、智慧醫(yī)療、智慧零售、智慧教育、智已經(jīng)過千億次人機(jī)交互真實(shí)場(chǎng)景的規(guī)模驗(yàn)證,支持智能音箱、智慧電梯、智能耳機(jī)、智能屏、交互和智能決策能力,實(shí)現(xiàn)體現(xiàn)技術(shù)創(chuàng)新和管理創(chuàng)新在智能家居領(lǐng)域,累計(jì)裝機(jī)2000多萬臺(tái)產(chǎn)品,系統(tǒng)調(diào)用近2億次,占據(jù)全球70%以上中文遠(yuǎn)場(chǎng)語(yǔ)音交互系統(tǒng),促使我國(guó)在智能音箱這一未來萬物互聯(lián)現(xiàn)象級(jí)360、萬科、寶潔、中央人民廣播電臺(tái)、聯(lián)想、創(chuàng)維、金蝶、浪潮、國(guó)美等數(shù)百家國(guó)內(nèi)外知名客戶,推動(dòng)了國(guó)內(nèi)智能家居智能產(chǎn)品的爆發(fā)。StrategyAnalytics和Canalys統(tǒng)計(jì)數(shù)據(jù)顯示2019年,全球智能音箱市場(chǎng)達(dá)到1.469億臺(tái),較2018年增長(zhǎng)70%??倲?shù)據(jù),2020年一季度中國(guó)智能音箱市場(chǎng)銷量為884.4萬臺(tái),同比增長(zhǎng)23.0%;銷額為16.7米AI音箱、小愛音箱mini、小愛音箱HD、阿里巴巴天貓精靈魔盒、在行業(yè)應(yīng)用領(lǐng)域,該技術(shù)成果已形成了AI數(shù)字人紅外測(cè)溫與監(jiān)管系監(jiān)管平臺(tái)、多屏語(yǔ)音搜索與智能調(diào)度系統(tǒng)、AI外呼機(jī)器人、跟隨式智能擴(kuò)聲機(jī)器人、智慧辦公/醫(yī)療屏多數(shù)十種行業(yè)解決方案。該技術(shù)成果憑借在拓展性和架構(gòu)上的優(yōu)勢(shì),快速實(shí)現(xiàn)了測(cè)溫系統(tǒng)的場(chǎng)景落地,形成了以智能語(yǔ)音為核心的AI數(shù)字人紅外測(cè)溫系統(tǒng),可通過語(yǔ)音實(shí)現(xiàn)對(duì)話、通話、內(nèi)容服務(wù)和IoT控制,支并且支持多臺(tái)設(shè)備聯(lián)網(wǎng)組成更大規(guī)模在線防疫系統(tǒng),可廣泛應(yīng)用于閘機(jī)、考勤、前臺(tái)、大廈、機(jī)場(chǎng)、車站和港口等公共場(chǎng)所場(chǎng)景。該成果還與疫情期間快速形成了智慧電梯系統(tǒng),提供完整的AI語(yǔ)音模組開發(fā)板,內(nèi)置針對(duì)電梯封閉場(chǎng)景的優(yōu)化語(yǔ)音算法,簡(jiǎn)單連接開發(fā)即可與電梯系統(tǒng)形成聯(lián)動(dòng),乘客無需觸摸按鍵,即可語(yǔ)音呼叫、控制電梯。AI泛化算法支持乘客使用方言及任意說法語(yǔ)音,呼叫與控制電梯升降樓層,且支持語(yǔ)音播報(bào)提醒、免喚醒多輪對(duì)話等功能,即使殘障人士、老年人也能轉(zhuǎn)化方式該項(xiàng)目的聯(lián)合創(chuàng)新和商業(yè)化布局使得聲智科技迅速在行業(yè)內(nèi)占據(jù)領(lǐng)先地位,成為全球最大的遠(yuǎn)場(chǎng)語(yǔ)音智能技術(shù)和平臺(tái)服務(wù)商之一。在聲學(xué)感知技術(shù)方面,項(xiàng)目團(tuán)隊(duì)擁有數(shù)十年的深耕和積累,面向新興行業(yè)的智能化升級(jí),針對(duì)實(shí)際應(yīng)用場(chǎng)景快速升級(jí)優(yōu)化關(guān)鍵技術(shù),收集、存儲(chǔ)數(shù)據(jù),逐漸形成了極具優(yōu)勢(shì)的技術(shù)與數(shù)據(jù)壁壘。并通過制定合理的R&D資源配置體系,使得在人工智能關(guān)鍵源頭技術(shù)領(lǐng)域可以早布局、早落地,完善遠(yuǎn)場(chǎng)聲學(xué)人機(jī)信息交互技術(shù)產(chǎn)業(yè)鏈上下游協(xié)作,形成完整的技術(shù)系統(tǒng)與產(chǎn)學(xué)研閉環(huán)生態(tài)鏈條,面向全球逐步構(gòu)筑人工智能原創(chuàng)技術(shù)核心競(jìng)爭(zhēng)力,支撐北京國(guó)家新一代人工智能創(chuàng)新發(fā)展試驗(yàn)區(qū)建設(shè),累計(jì)帶動(dòng)產(chǎn)業(yè)鏈條經(jīng)濟(jì)效益超過百億元。該項(xiàng)目促進(jìn)在京科研院所與高科技獨(dú)角獸企業(yè)聯(lián)合科研攻關(guān)卡脖子技術(shù);為小米、百度等北京市行業(yè)巨頭提供了前沿技術(shù)研發(fā)支撐,帶動(dòng)北京市眾多下游人工智能領(lǐng)域中小企業(yè)發(fā)展,對(duì)加強(qiáng)建設(shè)北京市全國(guó)科技創(chuàng)新中心作出人才培養(yǎng)方面,中國(guó)科學(xué)院聲學(xué)研究所與聲智科技聯(lián)合成立的“聲學(xué)與人工智能聯(lián)合實(shí)驗(yàn)室”,培養(yǎng)了一批在多傳感器融合、深度學(xué)習(xí)、大數(shù)據(jù)、自然語(yǔ)音理解、聲學(xué)等人工智能和物理聲學(xué)交叉學(xué)科融合的高端技術(shù)專業(yè)人才。聲智科技與百度聯(lián)合推出的遠(yuǎn)場(chǎng)語(yǔ)音交互開發(fā)板SoundAI,已與清華大學(xué)等高校合作,提供《智能硬件》課程的教具,培養(yǎng)聲學(xué)領(lǐng)域和人工智能領(lǐng)域的關(guān)鍵人才。北京建筑大學(xué)的“建筑全過程”國(guó)家級(jí)虛擬仿真實(shí)驗(yàn)教學(xué)中心,推動(dòng)研發(fā)“廳堂混響時(shí)間互動(dòng)”等建筑環(huán)境虛擬互動(dòng)教學(xué)程序共計(jì)7項(xiàng)人次/年,協(xié)助各類線上教學(xué)平臺(tái)教授超2200人次/年,在建筑相關(guān)專業(yè)教育領(lǐng)域中起到了互關(guān)鍵技術(shù)及其應(yīng)用分類北京市聲智科技有限公司聯(lián)系人潘貝貝電話成果簡(jiǎn)介本項(xiàng)目突破了遠(yuǎn)場(chǎng)復(fù)雜聲學(xué)場(chǎng)景下語(yǔ)音交互關(guān)鍵技術(shù),融合了基于經(jīng)典陣列信號(hào)處理的模型驅(qū)動(dòng)算法和基于深度學(xué)習(xí)的數(shù)據(jù)驅(qū)動(dòng)算法,開發(fā)出具有自主知識(shí)產(chǎn)權(quán)的遠(yuǎn)場(chǎng)聲學(xué)信息人機(jī)交互術(shù)在聲學(xué)信息交互領(lǐng)域的落地。本項(xiàng)目的推廣益和社會(huì)效益,技術(shù)成果在智能音箱、AI數(shù)字人紅外測(cè)溫與監(jiān)管系統(tǒng)、智慧電梯與安全監(jiān)管平臺(tái)等多個(gè)領(lǐng)域獲得成功應(yīng)用,服務(wù)海內(nèi)外包括中國(guó)移動(dòng)、華為、百度、小米、阿里、騰訊等120家企業(yè),擁有4000多萬用產(chǎn)生直接經(jīng)濟(jì)效益超1.6億。項(xiàng)目成果應(yīng)用于冬奧會(huì)和冬殘奧會(huì)、冬奧測(cè)試賽、聯(lián)合國(guó)COP15大會(huì)、建黨100周年、中國(guó)服貿(mào)會(huì)、中國(guó)科博會(huì)和中關(guān)村論壇等北京市和國(guó)家重點(diǎn)項(xiàng)目,為抗擊新冠疫情作出了突出貢獻(xiàn),獲得工信部突出貢獻(xiàn)企業(yè)表彰,入選工信部AI助力疫情防控重點(diǎn)物資清單,有廣景,潛在經(jīng)濟(jì)效益巨大,并在公共安全、疫情防控、金融、教育等國(guó)計(jì)民生重要領(lǐng)域示范應(yīng)用。創(chuàng)新水平關(guān)鍵共性技術(shù)○前沿引領(lǐng)技術(shù)v現(xiàn)代工程技術(shù)O技術(shù)進(jìn)度新設(shè)備或新裝置原理樣機(jī)O工程樣機(jī)○中試原型機(jī)○產(chǎn)業(yè)化√新材料或新技術(shù)實(shí)驗(yàn)室階段○工程化階段○產(chǎn)業(yè)化階段v技術(shù)成果國(guó)際專利口國(guó)家專利?專利編號(hào)1.基于回聲頻譜估計(jì)和語(yǔ)音存在概率的立體聲回聲抵消方法ZL.72.一種非平穩(wěn)噪聲環(huán)境下傳聲器陣列的語(yǔ)音增強(qiáng)方法ZL.2結(jié)構(gòu)的慣性式激振器ZL.75.一種用于抑制嘯叫的揚(yáng)聲器陣列擴(kuò)聲系統(tǒng)及方法ZL.37.語(yǔ)音喚醒方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)ZL.9取詞庫(kù)領(lǐng)域的方法及系ZL.610.一種智能設(shè)備的詞向量訓(xùn)練方國(guó)際獎(jiǎng)項(xiàng)口國(guó)家獎(jiǎng)項(xiàng)?獎(jiǎng)項(xiàng)名稱北京市科學(xué)進(jìn)步獎(jiǎng)中國(guó)專利優(yōu)秀獎(jiǎng)產(chǎn)品方向沒有應(yīng)用方向○無法判斷○市場(chǎng)空間需求前景巨大√需求前景一般O需求前景較大○無法判斷○成本競(jìng)爭(zhēng)政策影響市場(chǎng)周期O轉(zhuǎn)化周期很難轉(zhuǎn)化(3年起)O無法判斷○陳孝良博士在2016年創(chuàng)建了聲智科技,近三年?duì)I業(yè)收入復(fù)合增長(zhǎng)率達(dá)到244.85%,納稅復(fù)合增長(zhǎng)率達(dá)到316.58%,2021年凈利7631萬,近兩年累計(jì)凈利超過1千萬,成為人工智能行業(yè)中的盈利企業(yè)。陳孝良博士是聲學(xué)研究員和人工智能行業(yè)專家,主要研究領(lǐng)域是聲信號(hào)處理、聲視頻壓縮感知、陣列并行計(jì)算、聲與人工智能融合,在國(guó)內(nèi)較早提出基于GPU的聲學(xué)信號(hào)并行計(jì)算研究方向,解決了遠(yuǎn)場(chǎng)聲學(xué)信息交互技術(shù)在真實(shí)場(chǎng)景中的語(yǔ)音交互技術(shù)在機(jī)器人和智能音箱的大規(guī)模商用。陳孝良博士帶隊(duì)突破了端邊云高性能數(shù)據(jù)匯聚和異構(gòu)數(shù)據(jù)融合計(jì)算技術(shù),主導(dǎo)了多模態(tài)與多技能奧會(huì)和冬殘奧會(huì)、北京環(huán)球影城等國(guó)家重大項(xiàng)目,獲得15封感謝信,同時(shí)支持了北京新冠抗疫和流調(diào)等平臺(tái),獲得18面錦旗。陳孝良博士是中關(guān)村高等領(lǐng)軍人才,獲得中國(guó)科學(xué)院院長(zhǎng)優(yōu)秀獎(jiǎng)、北京市科技進(jìn)步獎(jiǎng)、中國(guó)發(fā)明專利優(yōu)秀獎(jiǎng)、中國(guó)人工智能金雁獎(jiǎng)等榮譽(yù),帶領(lǐng)公司入選科創(chuàng)中國(guó)先導(dǎo)技術(shù)榜單,獲得吳文俊人工智能獎(jiǎng)。陳孝良博士擔(dān)任計(jì)算機(jī)學(xué)會(huì)、聲學(xué)學(xué)會(huì)、聲智是第二批國(guó)家級(jí)“專精特新”小巨人企業(yè)、北京市中貢獻(xiàn)人工智能企業(yè)、國(guó)家高新和“雙軟”技術(shù)企業(yè)、中關(guān)村前沿技市知識(shí)產(chǎn)權(quán)示范和試點(diǎn)企業(yè)、人工智能知識(shí)產(chǎn)權(quán)百?gòu)?qiáng)企業(yè)、人工智能百?gòu)?qiáng)企業(yè)、AI最佳雇主聲智核心團(tuán)隊(duì)以智能聽覺技術(shù)為特色,建立了聲學(xué)與人工智能兩個(gè)核心研發(fā)團(tuán)隊(duì),在聲學(xué)信號(hào)處理與深度學(xué)習(xí)融合研究方面具有深厚積累,形成了以遠(yuǎn)場(chǎng)聲學(xué)信息交互技術(shù)為核心的全球競(jìng)爭(zhēng)優(yōu)勢(shì),入選“科創(chuàng)中國(guó)”先導(dǎo)技術(shù)榜1項(xiàng),榮獲北京市科技進(jìn)步獎(jiǎng)和吳文俊人工智能獎(jiǎng),獲得2項(xiàng)中國(guó)發(fā)明專利優(yōu)秀獎(jiǎng)和3項(xiàng)地區(qū)發(fā)明專利獎(jiǎng)。常樂,CKO,負(fù)責(zé)知識(shí)產(chǎn)權(quán)建設(shè),中科院聲學(xué)所碩士。2017/2018福布斯亞洲30U30精英,2017/2018胡潤(rùn)30X30創(chuàng)業(yè)領(lǐng)袖。李智勇,CDO,負(fù)責(zé)開發(fā)框架研發(fā)與運(yùn)營(yíng),北京大學(xué)碩士,曾任聯(lián)想資深戰(zhàn)略專家,奇虎360古擘,CGO,負(fù)責(zé)商務(wù)合作與市場(chǎng)開拓,北京大學(xué)碩士,科技成果的技術(shù)亮點(diǎn)評(píng)價(jià)(不少于150字)創(chuàng)新點(diǎn)1:針對(duì)單通道和多通道回聲抵消的不同應(yīng)用場(chǎng)景,提出了一系列低復(fù)雜度穩(wěn)健的時(shí)在人機(jī)交互和語(yǔ)音通信的應(yīng)用中,回聲的存在嚴(yán)重影響了通話質(zhì)量和人機(jī)交互的能力,因此回聲抵消是必須要解決的首要問題。盡管回聲抵消已經(jīng)進(jìn)行了多年的研究,但是現(xiàn)在的人機(jī)交互和語(yǔ)音通信的應(yīng)用場(chǎng)景越來越多,現(xiàn)有的回聲抵消算法不能滿足這些新的需求和挑戰(zhàn)。例如現(xiàn)有的人機(jī)交互設(shè)備中使用的揚(yáng)聲器體積越來越小,引起了嚴(yán)重的非線性回聲;我國(guó)家庭和會(huì)議室的混響時(shí)間都比國(guó)際慣例的標(biāo)準(zhǔn)要長(zhǎng),導(dǎo)致現(xiàn)有算法收斂速度慢、復(fù)雜度高等新的難題。因此必須針對(duì)這些新的場(chǎng)景開發(fā)新的回的復(fù)雜度和較好的收斂性能,已經(jīng)成為聲學(xué)回聲抵消系統(tǒng)的標(biāo)準(zhǔn)解決方案。已有很多的變步長(zhǎng)頻域算法被提出來解決收斂速度和穩(wěn)態(tài)失調(diào)之間的矛盾,但是這些算法需要雙端對(duì)講檢測(cè)。如果雙端對(duì)講檢測(cè)不準(zhǔn),算法會(huì)很快發(fā)散,而雙端對(duì)講檢測(cè)是業(yè)界的難題,目前沒有成熟的解決方案。針對(duì)這個(gè)問題,提出了無需雙端對(duì)講檢測(cè)的頻域自適應(yīng)算法的最優(yōu)步長(zhǎng)控制策略。所提變步長(zhǎng)算法在收斂速度、穩(wěn)態(tài)失調(diào)、跟蹤速度和對(duì)外界干擾的穩(wěn)健性之間取得了很好的平衡,解決了以往的算法高度依賴雙端對(duì)講檢測(cè)的難題。該方法已經(jīng)成功的應(yīng)用在智能音箱、法通過把信號(hào)分成不同的子帶,每個(gè)子帶用單獨(dú)的濾波器更新,從而該算法比全帶的自適應(yīng)算法具有更低的計(jì)算復(fù)雜度。但傳統(tǒng)的子帶自適應(yīng)算法由于受到子帶混疊的影響而具有較差的收斂性能。提出了一種新的子帶權(quán)重控制更新機(jī)制,該方法利用子帶信號(hào)更新全帶濾波器系數(shù)從而避免了分析濾波器帶來的混疊影響。還開發(fā)了一系列低復(fù)雜度的實(shí)現(xiàn)算法。這些工作為新型子帶自適應(yīng)濾波在回聲抵消中的應(yīng)用奠定了基礎(chǔ)。相對(duì)頻域自適應(yīng)算法,所提的子帶自適應(yīng)算法具有頻繁的更新速率,非常適合解決非線性回聲嚴(yán)重的小型揚(yáng)聲器設(shè)備(如電視機(jī))的回聲抵提出了基于維納濾波的快速收斂的立體聲回聲抵消方法。由于立體聲信號(hào)之間存在相關(guān),導(dǎo)致立體聲回聲抵消系統(tǒng)的最優(yōu)解可能不是唯一的。即使維納解接近奇異,使得傳統(tǒng)的自適應(yīng)濾波算法收斂速度極慢。目前一般采用去相關(guān)技術(shù)在立體聲信號(hào)輸出至揚(yáng)聲器前進(jìn)行預(yù)處理,但這些去相關(guān)技術(shù)會(huì)導(dǎo)致語(yǔ)音質(zhì)量的下降,反而降低了語(yǔ)音識(shí)別率。我們?cè)趪?guó)際上首次提出利用語(yǔ)音增強(qiáng)的思路來消除回聲,依據(jù)揚(yáng)聲器信號(hào)與麥克風(fēng)信號(hào)之間的相關(guān)性設(shè)計(jì)了級(jí)聯(lián)的兩個(gè)權(quán)函數(shù)估計(jì)回聲信號(hào)頻譜。該算法收斂速度快,穩(wěn)健性好,對(duì)近端干擾不敏感,不需要對(duì)立體聲信號(hào)進(jìn)行非線性預(yù)處理從而保證了語(yǔ)音質(zhì)量,并且克服了傳統(tǒng)創(chuàng)新點(diǎn)2:提出了基于麥克風(fēng)陣列噪聲消除和獨(dú)立成分分析盲源分離等方法,建立了單通道帶噪語(yǔ)音的特征修復(fù)技術(shù),去除了語(yǔ)音交互受到的人聲及背景噪聲干擾,大幅提升了系統(tǒng)的隨著智能設(shè)備的大量應(yīng)用,語(yǔ)音系統(tǒng)作為重要的交互接口,語(yǔ)音識(shí)別及其前端處理技術(shù)受到背景噪聲、非目標(biāo)說話人的語(yǔ)音和后期混響聲的干擾。這些干擾信號(hào)的存在嚴(yán)重影響語(yǔ)音通信的語(yǔ)音質(zhì)量和人機(jī)交互的語(yǔ)音識(shí)別率,因此開發(fā)高性能的語(yǔ)音增強(qiáng)方法是前端信號(hào)處理的重要環(huán)節(jié),也是后端語(yǔ)音識(shí)別和自然語(yǔ)音處理成功提出了低復(fù)雜度的基于獨(dú)立成分分析的盲源分離算法。如何從嘈雜的環(huán)境中分離出目標(biāo)語(yǔ)音是一個(gè)亟待解決的問題,這也被稱為著名的“雞尾酒會(huì)問題”。有效解決這個(gè)問題的方法之一是通過盲源分離從僅有的混合觀測(cè)信號(hào)中分離出原始聲源。但是獨(dú)立成分分析方法固有的順序模糊性會(huì)導(dǎo)致頻間信號(hào)順序混疊,分離后的信號(hào)需要進(jìn)行順序調(diào)整。針對(duì)這個(gè)難題,提出一種低復(fù)雜度的頻域順序模糊性的排序方法,解決了基于獨(dú)立成分分析的盲源分離的關(guān)鍵技術(shù)問排結(jié)果傳播,對(duì)可信度低的頻點(diǎn)參照局部中心點(diǎn)進(jìn)行順序調(diào)整。新提出的方法計(jì)算復(fù)雜度要遠(yuǎn)低于其他排序方法,且隨著聲源個(gè)數(shù)的增加,所提算法的計(jì)算復(fù)雜度降低出方法不僅具有很好的分離性能,還極大地降低了計(jì)算復(fù)雜度,便于在小型聲具有較好的效果,但在實(shí)際使用環(huán)境下,干擾噪聲通常是突發(fā)非平穩(wěn)的,在這種情況下,目前大部分的語(yǔ)音增強(qiáng)技術(shù)性能有限。針對(duì)目前技術(shù)的不足,項(xiàng)目組提供一種在非平穩(wěn)噪聲環(huán)境下麥克風(fēng)陣列的語(yǔ)音增強(qiáng)方法。該方法首先根據(jù)麥克風(fēng)陣列的輸入信號(hào)估計(jì)出噪聲參考信號(hào);而后采用自適應(yīng)算法初步濾除各通道的輸入信號(hào)中所含的噪聲信號(hào);對(duì)各通道中自適應(yīng)濾波器的輸出信號(hào)進(jìn)行分幀加窗,再采用快速傅立葉轉(zhuǎn)換變換至頻域;估計(jì)背景噪聲功率譜,并由此得到當(dāng)前幀的信噪比;利用各通道之間的相位信息,再進(jìn)一步根據(jù)和值與預(yù)定義門限的關(guān)系得到有效語(yǔ)音信號(hào)存在概;估計(jì)出當(dāng)前幀是有效語(yǔ)音幀的概率;計(jì)算出輸出信號(hào)在各個(gè)頻率點(diǎn)增益;把處理后的頻譜信號(hào)通過反傅里葉變換變換到時(shí)間域,作為輸出信號(hào)。實(shí)際實(shí)驗(yàn)測(cè)試提出了一種單通道帶噪語(yǔ)音的特征修復(fù)技術(shù)。在單通道語(yǔ)音的語(yǔ)音識(shí)別及聲紋識(shí)別應(yīng)用中,噪聲對(duì)語(yǔ)音的影響通常難以通過語(yǔ)音增強(qiáng)的方法來處理。本方法創(chuàng)新性的通過帶噪語(yǔ)音在時(shí)間上接近的相鄰幀,對(duì)被噪聲影響的聲學(xué)特征進(jìn)行修復(fù),使其盡可能恢復(fù)到干消除噪聲的影響。該方法在單通道語(yǔ)音的聲紋識(shí)別中應(yīng)用,使噪聲環(huán)境下的聲紋識(shí)別錯(cuò)誤率大創(chuàng)新點(diǎn)3:聲源定位旨在使用麥克風(fēng)陣列捕獲到的聲源到達(dá)各個(gè)麥克風(fēng)的時(shí)間延遲信息來確定出算法可以有效解決復(fù)雜環(huán)境,特別是強(qiáng)混響場(chǎng)合下的聲源定位在語(yǔ)音信號(hào)的前端處理中,需要預(yù)先估計(jì)出說話者所在方位,后續(xù)才能根據(jù)目標(biāo)方位,采用語(yǔ)音增強(qiáng)等相關(guān)技術(shù)提高目標(biāo)信號(hào)。如果聲源定位發(fā)生錯(cuò)誤,有效信號(hào)會(huì)被當(dāng)成干擾信號(hào),極大影響后續(xù)語(yǔ)音質(zhì)量和人機(jī)交互的語(yǔ)音識(shí)別率。對(duì)于遠(yuǎn)場(chǎng)聲源定位來說,其最主要的難點(diǎn)在于混響環(huán)境和干擾噪聲會(huì)對(duì)聲源定位造成極大的影響。解決復(fù)雜環(huán)境下的聲源定位問題也是后設(shè)計(jì)同心多環(huán)陣列的補(bǔ)償濾波器,利用環(huán)諧波展開解耦頻率與方位角相關(guān)性的特點(diǎn),把所有頻率點(diǎn)的自相關(guān)矩陣合并后進(jìn)行定位,減小混響影響。同時(shí)基于信息熵的準(zhǔn)則,根據(jù)模態(tài)域空間相關(guān)矩陣特征值分布特性,自動(dòng)挑選出直達(dá)聲占主要成份的時(shí)頻區(qū)域。最后根據(jù)挑選出的時(shí)頻點(diǎn),采用模態(tài)域多重信號(hào)分類聲源定位方法進(jìn)行聲源定位。仿真和實(shí)驗(yàn)結(jié)果顯示,該方法可以更加準(zhǔn)確的定位聲源位置,尤其適合小空間等強(qiáng)混響條件的場(chǎng)合,如電梯的應(yīng)用場(chǎng)合。向,這會(huì)導(dǎo)致后面的波束形成誤將說話人的聲音當(dāng)做噪聲消除掉,從而造成設(shè)備無法聽懂說話人的指令。項(xiàng)目組提出了一種在現(xiàn)有框架下,不增加額外計(jì)算量的一種波達(dá)方向估計(jì)方法,可有效解決反射條件下的波達(dá)方向估計(jì)問題。在智能語(yǔ)音交互設(shè)備在播放音樂的情況下,為了能夠?qū)ζ浯驍啵芈曄到y(tǒng)會(huì)一直估計(jì)回聲通道。而回聲通道中會(huì)包含有房間的參數(shù)信息。當(dāng)設(shè)備距離墻面較近時(shí),回聲通道會(huì)出現(xiàn)兩個(gè)不同的峰值。離墻壁越高,說明反射越強(qiáng)烈;同時(shí)第二個(gè)峰值和第一個(gè)峰值的距離代表的是麥克風(fēng)離墻的遠(yuǎn)近。根據(jù)這些信息可以估計(jì)出墻面的位置,進(jìn)而排除這些方位反射聲對(duì)聲源定位的干擾。創(chuàng)新點(diǎn)4:為快速適配各種使用場(chǎng)景,提出了基于智能家居的分布式網(wǎng)絡(luò)化遠(yuǎn)場(chǎng)語(yǔ)音采集技別系統(tǒng)的魯棒性和可擴(kuò)展性,提出了多個(gè)聲學(xué)模型深度融合的在線語(yǔ)音識(shí)別引擎方語(yǔ)音識(shí)別中的聲學(xué)模型需要大量標(biāo)注的語(yǔ)音數(shù)據(jù)進(jìn)行訓(xùn)練,語(yǔ)音識(shí)別的性能與標(biāo)注語(yǔ)音數(shù)據(jù)量直接相關(guān)。為了在新場(chǎng)景下快速獲取大量遠(yuǎn)場(chǎng)語(yǔ)音數(shù)據(jù),我們首次提出了一種利用同步信號(hào)一次錄音獲取多份遠(yuǎn)場(chǎng)語(yǔ)音數(shù)據(jù)方法,為聲學(xué)模型訓(xùn)練提供更加多樣化的數(shù)據(jù)。遠(yuǎn)場(chǎng)喚醒是智能產(chǎn)品語(yǔ)音交互的第一步,其性能好壞直接影響用戶體驗(yàn),為了提升喚醒性能,提出了加權(quán)有限狀態(tài)轉(zhuǎn)換機(jī)解碼圖的喚醒算法。隨著新場(chǎng)景遠(yuǎn)場(chǎng)語(yǔ)音數(shù)據(jù)的增加,聲學(xué)模型要不斷的迭代更新,這導(dǎo)致訓(xùn)練、維護(hù)成本增加,為了降低成本,提出了一種新的聲學(xué)模型結(jié)構(gòu),可以在不改變?cè)新晫W(xué)模型的基礎(chǔ)上添加新的聲學(xué)模型實(shí)現(xiàn)對(duì)新場(chǎng)景新數(shù)據(jù)的覆蓋。在錄音開始以及結(jié)束時(shí),利用發(fā)聲單元分別發(fā)出一段同步信號(hào),獲取錄音數(shù)據(jù)后,利用匹配濾波器方法可以將多臺(tái)設(shè)備的錄音數(shù)據(jù)進(jìn)行對(duì)齊,從而實(shí)現(xiàn)標(biāo)注一路語(yǔ)音數(shù)據(jù)同時(shí)獲得房間多個(gè)低了人工標(biāo)注成本;(2)由于所有錄音設(shè)備錄取的語(yǔ)音都是時(shí)間對(duì)齊的,因此可以利用聲學(xué)模型對(duì)距離聲源最近的錄音設(shè)備錄取的語(yǔ)音進(jìn)行強(qiáng)制對(duì)齊獲得狀態(tài)標(biāo)簽,其他錄音設(shè)備可以共享這個(gè)標(biāo)簽,這樣也可以避免噪聲、混響等因素造成狀態(tài)對(duì)不齊的情況;(3)這種錄音方法提出了加權(quán)有限狀態(tài)轉(zhuǎn)換機(jī)解碼圖的喚醒算法有限狀態(tài)轉(zhuǎn)換機(jī)框架,構(gòu)建喚醒詞的解碼圖,根據(jù)每幀語(yǔ)音的前向計(jì)算結(jié)果,在加權(quán)有限狀態(tài)轉(zhuǎn)換機(jī)的解碼圖中搜索獲得最優(yōu)解碼路徑與喚醒詞解碼路徑的分?jǐn)?shù)差值作為第一得分,同時(shí)喚醒后對(duì)整個(gè)喚醒詞路徑進(jìn)行回溯獲得喚醒詞每個(gè)字得分的幾何平均值作為第二得分,通過兩個(gè)得分來最終確定是否進(jìn)入喚醒狀態(tài)。該方法的優(yōu)點(diǎn)包括:(1)兩個(gè)得分的機(jī)制是從不同的角式還可以便捷實(shí)現(xiàn)對(duì)多個(gè)喚醒詞的支持,且只需通過更換配置文件就可以實(shí)現(xiàn)更改喚醒詞的用新獲取的語(yǔ)音數(shù)據(jù)對(duì)聲學(xué)模型進(jìn)行迭代訓(xùn)練,采用這種方式模型訓(xùn)練、效果回歸測(cè)試的代價(jià)很大。針對(duì)這一問題,我們使用一個(gè)循環(huán)深度神經(jīng)元網(wǎng)絡(luò)將多個(gè)聲學(xué)模型進(jìn)行融合,這樣可以僅利用新增數(shù)據(jù)訓(xùn)練一個(gè)新的聲學(xué)模型,將新模型插入原來的聲學(xué)模型結(jié)構(gòu)中就可以實(shí)現(xiàn)對(duì)新對(duì)以前場(chǎng)景的完全覆蓋;(2)多個(gè)聲學(xué)模型可以進(jìn)行自由組合,快速實(shí)現(xiàn)對(duì)某些場(chǎng)景的適配創(chuàng)新點(diǎn)5:針對(duì)開發(fā)領(lǐng)域?qū)υ挼膽?yīng)用場(chǎng)景,項(xiàng)目組提出了基于用戶的對(duì)話歷史將詞匯映射至領(lǐng)域詞庫(kù)的算法,提高了領(lǐng)域識(shí)別的精度;同時(shí)提出一種領(lǐng)域感知的詞向量訓(xùn)練算法,可以的領(lǐng)域中會(huì)有不同的含義解釋。尤其在智能家居、個(gè)人助理等交互應(yīng)用中,用戶的在交互過程中的輸入內(nèi)容往往比較短,因此難以有效的界定用戶具體表述內(nèi)容。此外隨著神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型在自然語(yǔ)言處理領(lǐng)域的應(yīng)用日益廣泛,精準(zhǔn)的詞向量獲取成為影響下游自然語(yǔ)言理解任務(wù)精度的關(guān)鍵,優(yōu)秀的詞向量算法,需要能夠?qū)崿F(xiàn)對(duì)于同領(lǐng)域相關(guān)詞匯所表示的細(xì)節(jié)語(yǔ)義進(jìn)行區(qū)分。因此針對(duì)開放領(lǐng)域的交互場(chǎng)景,研究高效的領(lǐng)域詞庫(kù)映射及詞向量表達(dá)技術(shù),具有重要的提出基于用戶交互歷史的自適應(yīng)領(lǐng)域詞庫(kù)映射算法。領(lǐng)域詞庫(kù)用于在語(yǔ)義理解過原始文字表達(dá)的詞匯,映射到具體領(lǐng)域中有實(shí)際含義的實(shí)體?,F(xiàn)有的技術(shù)方案通常要求開發(fā)者靜態(tài)指定領(lǐng)域詞庫(kù),在面對(duì)開放域交互場(chǎng)景時(shí)缺乏靈活性。針對(duì)這個(gè)問題,項(xiàng)目組提出了一種自適應(yīng)的領(lǐng)域詞庫(kù)映射算法。首先對(duì)于原始文本進(jìn)行語(yǔ)義平面的句模分類,找到動(dòng)核以及與其基于獲得的數(shù)個(gè)領(lǐng)域詞庫(kù),采用N-最短路徑方法進(jìn)行句法平面的分詞;對(duì)數(shù)個(gè)領(lǐng)域詞庫(kù)對(duì)應(yīng)的句法平面分詞結(jié)果進(jìn)行評(píng)估,考量詞與詞之間的關(guān)聯(lián)程度以及最短路徑計(jì)算結(jié)果,取評(píng)估分值最高的數(shù)據(jù)作為最終的領(lǐng)域詞庫(kù)映射結(jié)果。該算法在自然語(yǔ)言理解過程中將用戶的交互偏好納入了判決依據(jù),避免了靜態(tài)指定領(lǐng)域詞庫(kù)的局限性,同時(shí)提升了領(lǐng)域識(shí)別的準(zhǔn)確性。提出一種領(lǐng)域感知的詞向量訓(xùn)練方法。詞向量是自然語(yǔ)言處理中一的統(tǒng)稱,詞向量是神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型的基礎(chǔ),只有獲得準(zhǔn)確的詞向量表達(dá),才能保障下游的自然語(yǔ)言處理任務(wù)的精度。典型的詞向量訓(xùn)練方法中,算法被建模為一個(gè)分類問題,用當(dāng)前詞匯去預(yù)測(cè)目標(biāo)詞匯,正確的目標(biāo)詞匯被視作正樣本,而負(fù)樣本往往通過負(fù)采樣

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論