




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
..人工智能與語(yǔ)音識(shí)別行業(yè)分析報(bào)告序言人工智能的發(fā)展近50年來(lái)得到了明顯的提高,其交融了諸多學(xué)科。人工智能的研究在歷史上分為結(jié)構(gòu)派和功能派。結(jié)構(gòu)派也成為仿生學(xué)派或者生理學(xué)派,他們認(rèn)為人工智能既然是使機(jī)器具有人的智能,就應(yīng)基于人的大腦模型的研究,至今仍處于研究階段。功能派也稱計(jì)算機(jī)派或者心理學(xué)派,他們認(rèn)為計(jì)算機(jī)本身就具有數(shù)學(xué)邏輯演繹功能,表明了可以應(yīng)用計(jì)算機(jī)研究人的思維活動(dòng),模擬人類智能活動(dòng)。功能派的研究分析將作為本文對(duì)人工智能分析的重點(diǎn)。人工智能所涉獵的應(yīng)用領(lǐng)域是非常廣泛的,主要有以下幾個(gè)方面:1、問(wèn)題求解;2、邏輯推理與定理證明;3、自然語(yǔ)言理解;4、自動(dòng)程序設(shè)計(jì);5、專家系統(tǒng);6、機(jī)器人學(xué)。除上述這些研究領(lǐng)域之外,人工智能還有許多方面的應(yīng)用研究,如機(jī)器學(xué)習(xí)、模式識(shí)別、智能控制及檢索、機(jī)器學(xué)習(xí)及視覺(jué)、智能調(diào)度與指揮等等。語(yǔ)音識(shí)別的研究工作主要開始于二十世紀(jì)五十年代,從智能語(yǔ)音技術(shù)的發(fā)展歷程來(lái)看,應(yīng)用的技術(shù)推動(dòng)力主要是語(yǔ)音技術(shù)核心算法和計(jì)算機(jī)芯片技術(shù)。語(yǔ)音合成技術(shù)在20XX時(shí)已達(dá)到用戶基本可接受的準(zhǔn)實(shí)用水平,20XX開始獲得了較為廣泛的應(yīng)用。未來(lái)語(yǔ)音合成技術(shù)將從清晰度和自然度的要求上升至對(duì)個(gè)性化合成的要求,如對(duì)語(yǔ)音、語(yǔ)調(diào)、情緒的豐富性要求等。語(yǔ)音識(shí)別技術(shù)主要包括語(yǔ)意識(shí)別和聲紋識(shí)別。語(yǔ)音識(shí)別在技術(shù)原理上主要采取匹配識(shí)別和檢測(cè)識(shí)別兩種識(shí)別方式,關(guān)鍵技術(shù)包括選擇識(shí)別單元、特征參數(shù)提取、聲學(xué)模型及語(yǔ)言模型的建立等。語(yǔ)音識(shí)別技術(shù)目前在桌面系統(tǒng)、移動(dòng)設(shè)備和嵌入式領(lǐng)域均有一定程度的應(yīng)用,未來(lái)的發(fā)展方向應(yīng)是無(wú)限詞匯量連續(xù)語(yǔ)句非特定人語(yǔ)音識(shí)別系統(tǒng)。綜合考慮目前的人工智能和語(yǔ)音識(shí)別與語(yǔ)音合成技術(shù)的能力和客戶接受度,目前企業(yè)級(jí)市場(chǎng)、車載語(yǔ)音市場(chǎng)、移動(dòng)終端市場(chǎng)及教育娛樂(lè)市場(chǎng)有望在未來(lái)率先實(shí)現(xiàn)突破。我國(guó)目前呼叫中心語(yǔ)音市場(chǎng)剛剛啟動(dòng),市場(chǎng)規(guī)模在其后有快速增長(zhǎng);車載語(yǔ)音識(shí)別系統(tǒng)市場(chǎng)出現(xiàn)快速增長(zhǎng),市場(chǎng)規(guī)模有望從20XX的6430萬(wàn)美元提升至20XX的2.1億美元,年均復(fù)合增長(zhǎng)率約為26.7%;而移動(dòng)終端語(yǔ)音市場(chǎng)和教育娛樂(lè)語(yǔ)音市場(chǎng)也同樣有較大發(fā)展?jié)摿?。目?高技術(shù)壁壘形成寡頭壟斷競(jìng)爭(zhēng)格局。智能語(yǔ)音技術(shù)是人工智能的研究領(lǐng)域之一,其技術(shù)原理涉及聲學(xué)、語(yǔ)言學(xué)、數(shù)字信號(hào)處理、計(jì)算機(jī)科學(xué)等多個(gè)學(xué)科,同時(shí)智能語(yǔ)音技術(shù)的研究周期長(zhǎng)、投入大,使得智能語(yǔ)音行業(yè)具有較高的進(jìn)入壁壘。在全球范圍內(nèi),目前已形成寡頭壟斷競(jìng)爭(zhēng)格局,僅有Nuance、IBM、微軟、Google、科大訊飛等少數(shù)廠商具備較強(qiáng)競(jìng)爭(zhēng)力。目錄TOC\o"1-3"\h\u13863第一章人工智能的概述 -3-56631.1人工智能發(fā)展史 -3-254041.2人工智能的分類 -5-76211.3人工智能應(yīng)用與發(fā)展 -6-3516第二章人工智能的應(yīng)用 -7-39862.1人工智能技術(shù)在網(wǎng)絡(luò)電腦中的應(yīng)用 -7-172942.2因特網(wǎng)上的人工智能教育資源 -9-120532.3人工智能在虛擬克隆人方面的發(fā)展 -12-31294第三章語(yǔ)音識(shí)別行業(yè)概述 -14-171433.1語(yǔ)音識(shí)別技術(shù)的發(fā)展史 -14-3.2語(yǔ)音識(shí)別技術(shù)的概述 -15-122533.3語(yǔ)音識(shí)別面臨的問(wèn)題與未來(lái)發(fā)展 -16-748第四章智能語(yǔ)音技術(shù)概述 -18-121984.1智能語(yǔ)音技術(shù)簡(jiǎn)介 -18-77334.2語(yǔ)音合成技術(shù)簡(jiǎn)介 -19-260第五章智能語(yǔ)音市場(chǎng)分析 -23-263835.1企業(yè)級(jí)語(yǔ)音市場(chǎng)加速發(fā)展 -24-5.2車載語(yǔ)音市場(chǎng)規(guī)模大幅提升-25-316745.3移動(dòng)終端市場(chǎng)分析 -26-211895.4教育和娛樂(lè)市場(chǎng)分析 -27-4654第六章智能語(yǔ)音行業(yè)競(jìng)爭(zhēng)分析 -30-151756.1市場(chǎng)競(jìng)爭(zhēng)格局分析 -30-110496.2競(jìng)爭(zhēng)產(chǎn)品舉例--SIRI〔IPHONE4S -31-第一章人工智能的概述1.1人工智能發(fā)展史人工智能〔ArtificialIntelligence,英文縮寫為AI,是一門綜合了計(jì)算機(jī)科學(xué)、生理學(xué)、哲學(xué)的交叉學(xué)科。人類之所以能夠有智慧是由于數(shù)十億個(gè)腦細(xì)胞不同的組織在一起工作,它們每一個(gè)都有不同的分工,這是天生的,而對(duì)于人工智能來(lái)說(shuō),我們需要讓組成機(jī)器的電線像我們的腦細(xì)胞一樣學(xué)會(huì)自己分工。1950年,英國(guó)科學(xué)家圖靈曾在一篇名為《計(jì)算機(jī)器與智能》的論文中提出一個(gè)簡(jiǎn)單的判斷標(biāo)準(zhǔn),這就是著名的圖靈測(cè)試:讓人和機(jī)器分別位于兩個(gè)房間,他們只可通話,不能相互看見(jiàn)。通過(guò)對(duì)話,如果人無(wú)法判斷另一方是人還是機(jī)器,那么這臺(tái)機(jī)器就可認(rèn)為是有智能的。
世界各地對(duì)人工智能的研究很早就開始了,但對(duì)人工智能的真正實(shí)現(xiàn)要從計(jì)算機(jī)的誕生開始算起,這時(shí)人類才有可能以機(jī)器的實(shí)現(xiàn)人類的智能。AI這個(gè)英文單詞最早是在1956年的一次會(huì)議上提出的。經(jīng)過(guò)這幾十年的發(fā)展,人工智能正在以它巨大的力量影響著人們的生活。1941年由美國(guó)和德國(guó)兩國(guó)共同研制的第一臺(tái)計(jì)算機(jī)誕生了,從此以后人類存儲(chǔ)和處理信息的方法開始發(fā)生革命性的變化,計(jì)算機(jī)編程變得十分簡(jiǎn)單,計(jì)算機(jī)理論的發(fā)展終于導(dǎo)致了人工智能理論的產(chǎn)生,解決了存儲(chǔ)信息和自動(dòng)處理信息的方法。在1955的時(shí)候,香農(nóng)與人一起開發(fā)了TheLogicTheorist程序,它是一種采用樹形結(jié)構(gòu)的程序,在程序運(yùn)行時(shí),尋找與可能答案最接近的樹的分枝進(jìn)行探索,以得到正確的答案。這個(gè)程序在人工智能的歷史上可以說(shuō)是有重要地位的,它在學(xué)術(shù)上和社會(huì)上帶來(lái)的巨大的影響,以至于現(xiàn)在所采用的方法思想方法有許多還是來(lái)自于這個(gè)50年代的程序。1956年,作為人工智能領(lǐng)域另一位著名科學(xué)家的麥卡希召集了一次會(huì)議來(lái)討論人工智能未來(lái)的發(fā)展方向,從此人工智能的名字才正式確立,這次會(huì)議在人工智能歷史上不是巨大的成功,但是這次會(huì)議給人工智能奠基人相互交流的機(jī)會(huì),并為未來(lái)人工智能的發(fā)展起了鋪墊的作用。在此以后,人工智能的重點(diǎn)開始變?yōu)榻?shí)用的能夠自行解決問(wèn)題的系統(tǒng),并要求系統(tǒng)有自學(xué)習(xí)能力。在1957年,香農(nóng)和另一些人又開發(fā)了一個(gè)程序稱為GeneralProblemSolver<GPS>,它對(duì)Wiener的反饋理論有一個(gè)擴(kuò)展,并能夠解決一些比較普遍的問(wèn)題。別的科學(xué)家在努力開發(fā)系統(tǒng)時(shí),某位<我記不清楚名字了,畢竟是外國(guó)人>科學(xué)家作出了一項(xiàng)重大的貢獻(xiàn),他創(chuàng)建了表處理語(yǔ)言LISP,直到現(xiàn)在許多人工智能程序還在使用這種語(yǔ)言,它幾乎成了人工智能的代名詞,到了今天,LISP仍然在發(fā)展。
在1963年,麻省理工學(xué)院受到了美國(guó)政府和國(guó)防部的支持進(jìn)行人工智能的研究,其后發(fā)展出的許多程序十分引人注目,麻省理工大學(xué)開發(fā)出了SHRDLU。在這個(gè)大發(fā)展的60年代,STUDENT系統(tǒng)可以解決代數(shù)問(wèn)題,而SIR系統(tǒng)則開始理解簡(jiǎn)單的英文句子了,SIR的出現(xiàn)導(dǎo)致了新學(xué)科的出現(xiàn):自然語(yǔ)言處理。在70年代出現(xiàn)的專家系統(tǒng)成了一個(gè)巨大的進(jìn)步,他頭一次讓人知道計(jì)算機(jī)可以代替人類專家進(jìn)行一些工作了,由于計(jì)算機(jī)硬件性能的提高,人工智能得以進(jìn)行一系列重要的活動(dòng),如統(tǒng)計(jì)分析數(shù)據(jù),參與醫(yī)療診斷等等,它作為生活的重要方面開始改變?nèi)祟惿盍?。在理論方?70年代也是大發(fā)展的一個(gè)時(shí)期,計(jì)算機(jī)開始有了簡(jiǎn)單的思維和視覺(jué),同時(shí)在70年代,另一個(gè)人工智能語(yǔ)言Prolog語(yǔ)言誕生了,它和LISP一起幾乎成了人工智能工作者不可缺少的工具。一直到70年代末形成的各種理論和相應(yīng)的技術(shù)奠定了人工智能的基礎(chǔ)。1.2人工智能的分類人工智能的研究在歷史上大致分為兩大派別:結(jié)構(gòu)派和功能派。結(jié)構(gòu)派也稱仿生學(xué)派或者生理學(xué)派,他們認(rèn)為人工智能既然是使機(jī)器具有人的智能,就應(yīng)基于人的大腦模型的研究。他們依據(jù)1943年由生理專家McCulloch和數(shù)理邏輯學(xué)家Pitts創(chuàng)立的腦模型,即MP模型,開創(chuàng)了用電子裝置模仿人腦結(jié)構(gòu)和功能的新途徑。這一研究方法也叫做"白箱",即從對(duì)結(jié)構(gòu)的了解出發(fā),從大腦的神經(jīng)元開始,進(jìn)而研究神經(jīng)網(wǎng)絡(luò)模型和腦模型,提出用計(jì)算機(jī)硬件模擬神經(jīng)網(wǎng)絡(luò),并提出多層網(wǎng)絡(luò)中的反向傳播算法,由此,從模型到算法,從理論分析到工程實(shí)現(xiàn),為神經(jīng)網(wǎng)絡(luò)計(jì)算機(jī)〔第六代計(jì)算機(jī)的研制打下了基礎(chǔ),開辟了人工智能的又一發(fā)展道路。這一派別的研究工作面臨的問(wèn)題在于如何制作具有人腦模型的計(jì)算機(jī),而人腦結(jié)構(gòu)本身就非常復(fù)雜,至今生理學(xué)界、醫(yī)學(xué)界還無(wú)法徹底搞清,建立腦模型是一項(xiàng)非常復(fù)雜而艱巨的工作,至今仍處于研究階段。但是,這一派別的指導(dǎo)思想是從問(wèn)題的本質(zhì)出發(fā),因此它決定了今后人工智能的研究和發(fā)展方向。功能派也稱計(jì)算機(jī)派或者心理學(xué)派,他們認(rèn)為計(jì)算機(jī)本身就具有數(shù)學(xué)邏輯演繹功能,表明了可以應(yīng)用計(jì)算機(jī)研究人的思維活動(dòng),模擬人類智能活動(dòng)。他們不像結(jié)構(gòu)派那樣絞盡腦汁去研究腦模型,而是利用目前的計(jì)算機(jī),從解決具體問(wèn)題出發(fā),只要能夠獲得問(wèn)題的正確求解。這一研究方法也叫做"黑箱",即只基于考查外部的輸入和輸出,只關(guān)心最后得出的結(jié)論正確與否。他們研究人工智能的領(lǐng)域是非常廣泛而且是行之有效的,從啟發(fā)式算法到專家系統(tǒng)再到知識(shí)工程理論與技術(shù)等等,并在80年代取得很大發(fā)展。1.3人工智能應(yīng)用與發(fā)展人工智能所涉獵的應(yīng)用領(lǐng)域是非常廣泛的,主要有以下幾個(gè)方面:?jiǎn)栴}求解。如不斷開發(fā)了能夠求解難題的下棋程序,如國(guó)際象棋。在下棋程序中應(yīng)用的某些技術(shù),如向前看幾步,把復(fù)雜的問(wèn)題分解成一些比較容易的子問(wèn)題等等,均發(fā)展演變?yōu)樗阉骱蛦?wèn)題歸納這樣的人工智能基本技術(shù)。目前,該項(xiàng)目技術(shù)發(fā)展很快并且驚人,美國(guó)IBM公司的一臺(tái)名為"深藍(lán)"的計(jì)算機(jī)與國(guó)際象棋大師卡斯帕羅夫?qū)墨@得了勝利。這一事件,使世人驚呼"機(jī)器智能是否已達(dá)到或超過(guò)了人類智能。邏輯推理與定理證明。邏輯推理與定理證明是指不斷開發(fā)能夠?qū)δ承﹩?wèn)題或事物進(jìn)行推理證明的程序,就如同證明或推導(dǎo)數(shù)學(xué)公式一樣,這些程序能夠借助于對(duì)事實(shí)數(shù)據(jù)庫(kù)的操作來(lái)證明和作推理判斷。自然語(yǔ)言理解。目前已經(jīng)開發(fā)出能夠從內(nèi)部數(shù)據(jù)庫(kù)回答語(yǔ)音提出的問(wèn)題的程序,這些程序通過(guò)閱讀文本材料,還能夠把其中的句子從一種語(yǔ)言翻譯為另一種語(yǔ)言,執(zhí)行用語(yǔ)音給出的指令和獲取知識(shí)等等。自動(dòng)程序設(shè)計(jì)。自動(dòng)程序設(shè)計(jì)這項(xiàng)研究的目的在于,使計(jì)算機(jī)自身,能夠根據(jù)各種不同目的和要求來(lái)自動(dòng)編寫計(jì)算機(jī)程序,即可用高級(jí)語(yǔ)言編程,還可用英語(yǔ)描述算法。目前已經(jīng)可以自動(dòng)編寫出一些簡(jiǎn)單的程序。五、專家系統(tǒng)。一般來(lái)說(shuō),專家系統(tǒng)是一個(gè)智能計(jì)算機(jī)程序系統(tǒng),其內(nèi)部具有大量專家水平的某個(gè)領(lǐng)域知識(shí)與經(jīng)驗(yàn),能夠利用人類專家的知識(shí)和解決問(wèn)題的方法來(lái)解決該領(lǐng)域的問(wèn)題。換而言之,專家系統(tǒng)是一個(gè)具有大量專門知識(shí)和經(jīng)驗(yàn)的程序系統(tǒng),它應(yīng)用人工智能技術(shù),根據(jù)某個(gè)領(lǐng)域一個(gè)或多個(gè)人類專家提供的知識(shí)和經(jīng)驗(yàn)進(jìn)行推理和判斷,模擬人類專家的決策過(guò)程,以解決那些需要專家決定的復(fù)雜問(wèn)題。目前,這一領(lǐng)域的應(yīng)用是相當(dāng)廣泛的,如醫(yī)療診斷,建筑工程設(shè)計(jì),化學(xué)和地質(zhì)數(shù)據(jù)分析等等,其質(zhì)量已達(dá)到很高水平。機(jī)器人學(xué)。機(jī)器人學(xué)是人工智能研究的一重要領(lǐng)域,其中包括對(duì)操作機(jī)器人裝置程序的研究。這個(gè)領(lǐng)域所研究的問(wèn)題,包括從機(jī)器人手臂的最佳移動(dòng)到實(shí)現(xiàn)機(jī)器人的目標(biāo)動(dòng)作序列的規(guī)劃方法等等。目前,已經(jīng)制造出成千上萬(wàn)個(gè)機(jī)器人,主要用于工業(yè)生產(chǎn)和軍事用途上。在工業(yè)生產(chǎn)方面,其智能水平普遍不高,如順利地通過(guò)周圍環(huán)境,操作電燈開關(guān)、玩具積木及餐具等物品,一個(gè)小孩就能很容易的做到,但設(shè)計(jì)一個(gè)能完成上述操作任務(wù)的機(jī)器人則很難。因此開發(fā)高智能機(jī)器人是一個(gè)重要研究方面。除上述這些研究領(lǐng)域之外,人工智能還有許多方面的應(yīng)用研究,如機(jī)器學(xué)習(xí)、模式識(shí)別、智能控制及檢索、機(jī)器學(xué)習(xí)及視覺(jué)、智能調(diào)度與指揮等等。這些領(lǐng)域的研究成果輝煌,使人嘆驚,相信隨著全球性高科技的不斷飛速發(fā)展,人工智能這一學(xué)科會(huì)更加日臻完善。然而,任何新生事物的成長(zhǎng)都不是一帆風(fēng)順的。人工智能自1956年問(wèn)世以來(lái),就引起人們的爭(zhēng)議,在社會(huì)上對(duì)人工智能的科學(xué)性有所懷疑,對(duì)人工智能的發(fā)展產(chǎn)生恐懼心理。甚至還有些人把人工智能視為異端邪說(shuō),因此,人工智能也是在比較艱難的環(huán)境中頑強(qiáng)地拼搏與成長(zhǎng)的。盡管如此,真正的科學(xué)與任何其它真理一樣,是永遠(yuǎn)無(wú)法壓制的。40多年來(lái),人工智能獲得很大發(fā)展,它引起眾多科學(xué)的日益重視,已成為一門廣泛的交叉和前沿科學(xué)。第二章人工智能的應(yīng)用2.1人工智能技術(shù)在網(wǎng)絡(luò)電腦中的應(yīng)用人工智能在網(wǎng)絡(luò)電腦應(yīng)用的基本特征就是參與、互動(dòng)、分享;參與是指網(wǎng)站的內(nèi)容由大家提供,互動(dòng)是指網(wǎng)站會(huì)員之間的互動(dòng)、會(huì)員與公眾的互動(dòng),其基本形態(tài)是朋友圈、文章評(píng)注等;分享是指大家收藏的內(nèi)容進(jìn)行各種形式的輸出、交換,使內(nèi)容的價(jià)值最大化。音樂(lè)、圖片、文章等都是大家有收藏需要的內(nèi)容,這些內(nèi)容和大家的生活、工作、愛(ài)好、回憶等息息相關(guān)。如何將這些內(nèi)容有效地組織管理起來(lái),使之成為真正的社會(huì)知識(shí)財(cái)富是人工智能的應(yīng)用一個(gè)方面。目前,對(duì)內(nèi)容的組織管理手段主要就是分類,一是目錄分類,二是tag分類〔標(biāo)簽分類。要解決信息獲取的準(zhǔn)確性問(wèn)題,只在宏觀和中觀層面進(jìn)行分類思考是不行的,必須進(jìn)入語(yǔ)義理解層面才行,做到這一點(diǎn),資料庫(kù)才能真正變成知識(shí)庫(kù),也才能對(duì)后續(xù)的互動(dòng)、分享提供更智能化的支持?;?dòng),常規(guī)的交友、評(píng)注完全是人工行為,基本效果是不錯(cuò)的,但在很多情況下卻不能解決問(wèn)題。如果使用上述的宏觀語(yǔ)義理解技術(shù),這個(gè)問(wèn)題就可以得到很大程度上的解決;每個(gè)人的收藏興趣是通過(guò)你已經(jīng)收藏的內(nèi)容體現(xiàn)的,特別是收藏的內(nèi)容達(dá)到一定量級(jí)后這種體現(xiàn)就會(huì)非常準(zhǔn)確;要找自己的"志同道合"者前提是自己要收藏一定數(shù)量的內(nèi)容,然后以自己的收藏興趣為條件讓系統(tǒng)自動(dòng)為你查找和你的收藏興趣最接近的人就行了。有了這個(gè)功能,當(dāng)你想建一個(gè)朋友圈時(shí),當(dāng)你想認(rèn)識(shí)一些好朋友時(shí),你就可以方便地找到大量的同興趣的候選者,有效解決互動(dòng)對(duì)象的選擇問(wèn)題?,F(xiàn)在的分享手段和途徑主要有:內(nèi)容訂閱〔帶tag過(guò)濾、人工推薦、Tag標(biāo)記、RSS輸出、JavaScript輸出、API調(diào)用等,除tag手段外,其它的手段都和內(nèi)容本身無(wú)關(guān),只是提供了一種純碎的技術(shù)手段,而tag方式在前面也說(shuō)過(guò),僅僅解決了粗粒度的宏觀和中觀內(nèi)容過(guò)濾,準(zhǔn)確性不夠。如果使用上述的宏觀語(yǔ)義理解技術(shù),內(nèi)容分享的準(zhǔn)確性就會(huì)得到極大提高,基本應(yīng)用思路是根據(jù)每個(gè)人的自動(dòng)收藏興趣由網(wǎng)站自動(dòng)為其推薦新文章,實(shí)現(xiàn)個(gè)性化的自動(dòng)按需推薦,使大家之間的內(nèi)容分享活動(dòng)自動(dòng)"跑"起來(lái),并徹底解決垃圾推薦的難題。人工智能技術(shù)及其應(yīng)用方式和傳統(tǒng)的Web2.0技術(shù)及應(yīng)用方式是很好的補(bǔ)充關(guān)系,只有將兩者有效地結(jié)合在一起才能創(chuàng)造更大的應(yīng)用價(jià)值,才能給網(wǎng)民大眾帶來(lái)更好的應(yīng)用體驗(yàn)。目前所知,只有一個(gè)叫[360doc個(gè)人圖書館]〔的Web2.0網(wǎng)站應(yīng)用了這項(xiàng)人工智能技術(shù),主要在4個(gè)方面進(jìn)行了應(yīng)用:1、自動(dòng)給文章生成簡(jiǎn)潔、準(zhǔn)確的摘要;2、自動(dòng)在文章之間建立基于內(nèi)容的相關(guān)性連接;3、自動(dòng)根據(jù)個(gè)人的收藏興趣為其推薦新文章;4、根據(jù)自己的收藏興趣查找"志同道合"者。上述所說(shuō)的人工智能主要部分是語(yǔ)義理解這一部分,與這一部分有最大關(guān)聯(lián)的主要是搜索服務(wù)的提供商,google的論壇部分在一定程度上正在采用這種思路運(yùn)作,只是現(xiàn)有的服務(wù)提供可能在便利程度上還不能達(dá)到,特別是針對(duì)中文系統(tǒng)的輻射更加薄弱。目前,有一個(gè)比較明朗的方向就是能夠提供一個(gè)基于興趣愛(ài)好的內(nèi)容豐富的可定制的平臺(tái)。一個(gè)以個(gè)人主頁(yè)<博客、微博、facebook等>為基底的可以便捷的尋找到個(gè)人興趣的操作平面,顯然在這一點(diǎn)上無(wú)論社區(qū)還是門戶網(wǎng)站的現(xiàn)有結(jié)構(gòu)和操作界面都不能適應(yīng)這一要求,隨身瀏覽的功能被實(shí)際的情況抑制。同時(shí)我們看到個(gè)人主頁(yè)這樣比較"規(guī)范"的界面可以很好的充當(dāng)操作平面的功能,只是現(xiàn)在個(gè)人主頁(yè)本身結(jié)構(gòu)功能還比較簡(jiǎn)單,只要針對(duì)個(gè)人主頁(yè)現(xiàn)在的界面進(jìn)行部分改造就可以逐步向這個(gè)方面過(guò)渡。針對(duì)于社區(qū)本身具有的優(yōu)勢(shì)是論壇欄目分類本身已經(jīng)對(duì)于信息進(jìn)行了一種分撿,各欄目?jī)?nèi)部又有一定的分類,這對(duì)于內(nèi)容檢索來(lái)說(shuō)具有相當(dāng)?shù)暮锰?事實(shí)上如樓主所說(shuō)的圖書網(wǎng)站為什么能夠比較好的應(yīng)用這種"人工智能"技術(shù)的一個(gè)主要原因就是"圖書"行業(yè)本身就具有比較好的分類檢索系統(tǒng),這對(duì)于語(yǔ)義識(shí)別是具有相當(dāng)幫助的,相當(dāng)于給語(yǔ)義識(shí)別檢索加上了一個(gè)很好的輔助檢索標(biāo)準(zhǔn),這是具有相當(dāng)意義的。2.2因特網(wǎng)上的人工智能教育資源因特網(wǎng)上豐富的人工智能教育資源為我國(guó)高中人工智能教育的開展提供了一個(gè)強(qiáng)有力的學(xué)習(xí)支持。雖然大多以國(guó)外網(wǎng)站居多,但教師若能結(jié)合本校實(shí)際情況和學(xué)生的特點(diǎn)對(duì)其合理利用,使之本土化、校本化,無(wú)疑能夠有效地促進(jìn)人工智能教育的順利開展。課程標(biāo)準(zhǔn)中規(guī)定"人工智能初步模塊"由3部分內(nèi)容組成:知識(shí)及其表達(dá),推理與專家系統(tǒng),人工智能語(yǔ)言與問(wèn)題求解。下面將主要圍繞這三個(gè)主題,列舉幾個(gè)與人工智能教育相關(guān)的有代表性的資源網(wǎng)站。人工智能研究者俱樂(lè)部〔網(wǎng)址:ht這是為人工智能研究者提供的一個(gè)適合思想交流,技術(shù)切磋和資源互享的虛擬空間,主要由綜合討論、興趣小組〔當(dāng)前包括機(jī)器人制作和語(yǔ)音識(shí)別兩個(gè)方面、資源共享、分類討論〔針對(duì)人工智能的不同組成模塊開辟獨(dú)立的討論組和網(wǎng)站聯(lián)盟幾個(gè)模塊組成。內(nèi)容更新快,資源豐富,可為開展人工智能教育的教師和學(xué)生提供該領(lǐng)域的實(shí)時(shí)發(fā)展動(dòng)態(tài)和教學(xué)參考信息。XX大學(xué)遠(yuǎn)程教育網(wǎng)絡(luò)課程《人工智能基礎(chǔ)》〔網(wǎng)址這是國(guó)內(nèi)教育資源的最大提供者——高等教育出版社,在全國(guó)抗擊"非典"時(shí)期,為了更好地服務(wù)于高等學(xué)校的教育,向高校師生提供的一門優(yōu)質(zhì)的網(wǎng)絡(luò)教學(xué)課程。它從工程應(yīng)用的角度系統(tǒng)地介紹了人工智能的基本原理、方法及其應(yīng)用技術(shù),并全面反映了國(guó)內(nèi)外研究和應(yīng)用的最新進(jìn)展。全課程分三個(gè)部分:緒論,基礎(chǔ)篇和提高篇,分別適合不同學(xué)習(xí)階段的學(xué)生使用。美國(guó)人工智能協(xié)會(huì)<AmericanAssociationforArtificialIntelligence網(wǎng)址:美國(guó)人工智能協(xié)會(huì)〔AAAI成立于1979年,是個(gè)非盈利性的科學(xué)社團(tuán)組織,主要致力于讓機(jī)器產(chǎn)生智慧思考和智能行為的研究。此外,提升公眾對(duì)人工智能的理解,對(duì)人工智能實(shí)踐人員的教學(xué)和培訓(xùn),為人工智能領(lǐng)域的研究者和投資者提供指導(dǎo)等也都是AAAI的實(shí)踐內(nèi)容。AAAI主要活動(dòng)包括組織和創(chuàng)辦研討會(huì),座談會(huì)和主題論壇;為所有會(huì)員發(fā)行季刊雜志,出版著作,會(huì)議錄和技術(shù)報(bào)告;為在人工智能領(lǐng)域作出貢獻(xiàn)的會(huì)員及有發(fā)展?jié)摿Φ膶W(xué)生授予榮譽(yù)和獎(jiǎng)學(xué)金等。美國(guó)計(jì)算機(jī)協(xié)會(huì)學(xué)生雜志《十字路口》<ACMCrossroadsStudentMagazin網(wǎng)址:這是美國(guó)計(jì)算機(jī)協(xié)會(huì)的第一個(gè)電子出版物,主要為學(xué)生服務(wù)。讀者可以通過(guò)不同的索引方式來(lái)查找網(wǎng)站內(nèi)的所有文章和作品,例如,通過(guò)作者姓名,出版期號(hào),專欄名稱,文章主題,相關(guān)圖片,專題評(píng)論,每周民意調(diào)查等。該網(wǎng)站鼓勵(lì)世界上所有的學(xué)生都能主動(dòng)參與到這個(gè)網(wǎng)站的建設(shè)中來(lái),積極擔(dān)任每期的學(xué)生作者、藝術(shù)設(shè)計(jì),評(píng)論員或?qū)W生聯(lián)絡(luò)員,以共同推動(dòng)《十字路口》電子雜志的發(fā)展。人工智能教育知識(shí)庫(kù)<AIEducationRepository網(wǎng)址:/~manaris/ai-education-repository/index.html該網(wǎng)站收錄了關(guān)于人工智能教材、教學(xué)大綱和教學(xué)設(shè)計(jì)范例等方面的信息,并且提供了與人工智能相關(guān)的教育論文,各主題的在線教程,適合課堂或?qū)嶒?yàn)室教學(xué)的工具軟件和環(huán)境,以及方便用戶相互交流人工智能教育心得與經(jīng)驗(yàn)的虛擬空間。該網(wǎng)站的所有資源通過(guò)兩種方式來(lái)組織,第一種把資源從總體上分類,由人工智能教材信息、人工智能課程教學(xué)大綱、適合課堂或?qū)嶒?yàn)室教學(xué)的人工智能教育工具、其他相關(guān)資源四大部分構(gòu)成。第二種把資源按照特定主題來(lái)分類,包括專家系統(tǒng),模糊邏輯、知識(shí)表示、邏輯與推理、自然語(yǔ)言處理、神經(jīng)網(wǎng)絡(luò)、機(jī)器人、搜索和博弈、計(jì)算機(jī)視覺(jué)及其他相關(guān)主題,每一個(gè)主題都由概要、教程、工具和資源四個(gè)模塊組成。專家系統(tǒng)eXpertise2Go網(wǎng)站〔網(wǎng)址:專家系統(tǒng)是人工智能課程的重要組成內(nèi)容。高中階段對(duì)專家系統(tǒng)掌握的要求僅限于能演示或使用簡(jiǎn)單的產(chǎn)生式專家系統(tǒng)軟件,以對(duì)專家系統(tǒng)有個(gè)感性認(rèn)識(shí);能使用一個(gè)簡(jiǎn)易的專家系統(tǒng)外殼來(lái)自行開發(fā)簡(jiǎn)單的專家系統(tǒng)。eXpertise2Go是個(gè)基于網(wǎng)絡(luò)的專家系統(tǒng)網(wǎng)站,它提供了多個(gè)面向用戶基于規(guī)則的專家系統(tǒng)實(shí)例,諸如,在線"PC產(chǎn)品顧問(wèn)",汽車故障自動(dòng)診斷助理,銀行放貸決策助理,數(shù)據(jù)分析技術(shù)助理等。此外,該網(wǎng)站還提供免費(fèi)的e2gLite專家系統(tǒng)外殼下載,并且有在線教程,通過(guò)介紹專家系統(tǒng)的基本概念,基于規(guī)則的推理,對(duì)不確定事實(shí)的表示和處理及對(duì)什么是知識(shí)引擎的介紹到引導(dǎo)用戶設(shè)計(jì)并創(chuàng)建自己的知識(shí)庫(kù),最后利用e2gLite專家系統(tǒng)外殼開發(fā)自己的專家系統(tǒng)。人工智能語(yǔ)言VisualProlog學(xué)習(xí)網(wǎng)站〔網(wǎng)址:VisualProlog是一種功能強(qiáng)大的人工智能邏輯編程語(yǔ)言,由Prolog開發(fā)中心設(shè)計(jì),至今已發(fā)展到6.0版本。VisualProlog網(wǎng)站更新速度快,資源豐富。目前該網(wǎng)站提供了由VisualProlog開發(fā)的實(shí)例演示,VisualProlog個(gè)人版的軟件下載,在線教程,知識(shí)庫(kù),常見(jiàn)問(wèn)題解答等欄目。2.3人工智能在虛擬克隆人方面的發(fā)展人們花了大量的時(shí)間希望可以將人性搬到網(wǎng)絡(luò)上去,它是對(duì)未來(lái)發(fā)展的一種嘗試。當(dāng)你不在線的時(shí)候,聊天機(jī)器人可以自動(dòng)回答關(guān)于你的問(wèn)題。說(shuō)起人工智能就肯定要談到上個(gè)世紀(jì)六十年代的第一個(gè)虛擬人物Eliza中采用的人工智能技術(shù)。Eliza是麻省理工學(xué)院人工智能專家約瑟夫韋珍鮑姆在1966年模仿羅杰斯精神治療醫(yī)師而編寫的一個(gè)文字聊天程序。如果你對(duì)Eliza說(shuō):"我今天感覺(jué)有些不舒服。"那么她很快就會(huì)回應(yīng)你:"你是否樂(lè)意今天感到不舒服?"對(duì)于現(xiàn)代人來(lái)說(shuō),這個(gè)回應(yīng)顯然會(huì)立即讓對(duì)方掉頭而去。然而,使用Eliza軟件的許多人都相信或者至少暫時(shí)相信他們是在與真人對(duì)話?,F(xiàn)在,有一種新服務(wù)可以讓你自己設(shè)置Eliza并訓(xùn)練它,讓它模仿你自己的個(gè)性。沒(méi)有人會(huì)誤以為它就是你,但是近年推出的MyCyberTwin卻可以在你不在的時(shí)候幫你做很多事情。如果你將cybertwin內(nèi)置到博客、網(wǎng)站或者M(jìn)ySpace檔案中,訪問(wèn)者就可以通過(guò)會(huì)話了解你。你可以將各種實(shí)際資料和個(gè)性資料設(shè)置到你的cybertwin中。如果你認(rèn)為訪問(wèn)者可能會(huì)問(wèn)你"星期六你打算做什么?"這樣的問(wèn)題時(shí),你可以訓(xùn)練它回答"我打算與朋友一起去看哈里波特,你也一起來(lái)吧。目前MyCyberTwin還是一項(xiàng)免費(fèi)的服務(wù),它是由澳大利亞悉尼的一家名為RelevanceNow的公司推出的,雖然現(xiàn)在它還處于測(cè)試階段,但是已經(jīng)擁有1.05萬(wàn)余名用戶。當(dāng)然,這個(gè)概念還是一個(gè)全新的概念。你的cybertwin與Eliza一樣,其核心中并沒(méi)有真正的智能,如果你沒(méi)有設(shè)定好各種問(wèn)題的回答,它自己是不會(huì)回答的。然而,MyCyberTwin網(wǎng)站還提供了許多擴(kuò)展工具來(lái)幫你預(yù)測(cè)各種可能的提問(wèn),比如人格測(cè)試、你對(duì)性、政治和宗教的觀點(diǎn)等。那些工具也都是免費(fèi)的。RelevanceNow打算通過(guò)向會(huì)話使用量很大的用戶比如商業(yè)公司收取會(huì)話費(fèi)的方式來(lái)營(yíng)利,將MyCyberTwin授權(quán)給社群網(wǎng)站后,也許以后可以通過(guò)它為用戶提供有針對(duì)性的網(wǎng)絡(luò)廣告。3.4HCI人機(jī)交互
人機(jī)交互CHI<ComputerHumanInteraction>,國(guó)際上也稱<HCI,HumanComputerInteraction>是一門跨學(xué)科的研究,它的研究?jī)?nèi)容很廣,包括心理學(xué)領(lǐng)域的認(rèn)知科學(xué),心理學(xué);軟件工程領(lǐng)域的系統(tǒng)構(gòu)架技術(shù);信息處理領(lǐng)域的語(yǔ)音處理技術(shù)和圖像處理技術(shù);人工智能領(lǐng)域的智能控制技術(shù)等。總的來(lái)說(shuō),人機(jī)交互本質(zhì)上是認(rèn)知過(guò)程,人機(jī)交互理論是以認(rèn)知科學(xué)為理論基礎(chǔ);人機(jī)交互系統(tǒng)是一個(gè)閉環(huán)系統(tǒng),人機(jī)交互研究是以系統(tǒng)科學(xué)作為人機(jī)交互研究的框架的方法學(xué);同時(shí),人機(jī)交互是以信息技術(shù)作為用戶界面的技術(shù)基礎(chǔ),通過(guò)信息系統(tǒng)的建模、形式化描述、整合算法、評(píng)估方法以及軟件框架等信息技術(shù)最終實(shí)現(xiàn)和應(yīng)用人機(jī)交互理論。HCI主要包含五個(gè)方面的主題:人機(jī)交互的特性;計(jì)算機(jī)的相關(guān)性;人的特性;計(jì)算機(jī)系統(tǒng)和界面架構(gòu);系統(tǒng)開發(fā)的規(guī)范和過(guò)程。
第三章語(yǔ)音識(shí)別行業(yè)概述3.1語(yǔ)音識(shí)別技術(shù)的發(fā)展史語(yǔ)音識(shí)別的研究工作大約開始于20世紀(jì)50年代,當(dāng)時(shí)AT&TBell實(shí)驗(yàn)室基于共振峰提取技術(shù)實(shí)現(xiàn)了第一個(gè)可識(shí)別十個(gè)英文數(shù)字的語(yǔ)音識(shí)別系統(tǒng)——Audry系統(tǒng)。
60年代,計(jì)算機(jī)的應(yīng)用推動(dòng)了語(yǔ)音識(shí)別的發(fā)展。這時(shí)期的重要成果是提出了動(dòng)態(tài)時(shí)間規(guī)劃〔DP和線性預(yù)測(cè)分析技術(shù)〔LPC,其中后者較好地解決了語(yǔ)音信號(hào)產(chǎn)生模型的問(wèn)題,對(duì)語(yǔ)音識(shí)別的發(fā)展產(chǎn)生了深遠(yuǎn)影響。
70年代,語(yǔ)音識(shí)別領(lǐng)域取得了較大進(jìn)展。在理論上,LP技術(shù)得到進(jìn)一步發(fā)展,動(dòng)態(tài)時(shí)間歸正技術(shù)〔DTW基本成熟,特別是提出了矢量量化〔VQ和隱馬爾可夫模型〔HMM理論。在實(shí)踐上,實(shí)現(xiàn)了基于線性預(yù)測(cè)倒譜和DTW技術(shù)的特定人孤立語(yǔ)音識(shí)別系統(tǒng)。
80年代,MFCC的參數(shù)提取技術(shù)和HMM模型的深入使用使得語(yǔ)音識(shí)別技術(shù)得到進(jìn)一步的發(fā)展,語(yǔ)音識(shí)別的問(wèn)題逐步在理論體系上得到了比較完整和準(zhǔn)確的描述,同時(shí)在實(shí)踐上又逐步研發(fā)出效率較高的解決算法。進(jìn)入90年代后,語(yǔ)音識(shí)別技術(shù)進(jìn)一步成熟,并開始向市場(chǎng)提供產(chǎn)品。許多發(fā)達(dá)國(guó)家如美國(guó)、日本、韓國(guó)以及IBM、Apple、AT&T、Microsoft等公司都為語(yǔ)音識(shí)別系統(tǒng)的實(shí)用化開發(fā)研究投以巨資。同時(shí)漢語(yǔ)語(yǔ)音識(shí)別也越來(lái)越受到重視。IBM開發(fā)的ViaVoice和Microsoft開發(fā)的中文識(shí)別引擎都具有了相當(dāng)高的漢語(yǔ)語(yǔ)音識(shí)別水平。進(jìn)入21世紀(jì),隨著消費(fèi)類電子產(chǎn)品的普及,嵌入式語(yǔ)音處理技術(shù)發(fā)展迅速[2]?;谡Z(yǔ)音識(shí)別芯片的嵌入式產(chǎn)品也越來(lái)越多,如Sensory公司的RSC系列語(yǔ)音識(shí)別芯片、Infineon公司的Unispeech和Unilite語(yǔ)音芯片等,這些芯片在嵌入式硬件開發(fā)中得到了廣泛的應(yīng)用。在軟件上,目前比較成功的語(yǔ)音識(shí)別軟件有:Nuance、IBM的Viavoice和Microsoft的SAPI以及開源軟件HTK,這些軟件都是面向非特定人、大詞匯量的連續(xù)語(yǔ)音識(shí)別系統(tǒng)。我國(guó)語(yǔ)音識(shí)別研究一直緊跟國(guó)際水平,國(guó)家也很重視。國(guó)內(nèi)中科院的自動(dòng)化所、聲學(xué)所以及清華大學(xué)等科研機(jī)構(gòu)和高校都在從事語(yǔ)音識(shí)別領(lǐng)域的研究和開發(fā)。國(guó)家863智能計(jì)算機(jī)專家組為語(yǔ)音識(shí)別技術(shù)研究專門立項(xiàng),并取得了高水平的科研成果。我國(guó)中科院自動(dòng)化所研制的非特定人、連續(xù)語(yǔ)音聽(tīng)寫系統(tǒng)和漢語(yǔ)語(yǔ)音人機(jī)對(duì)話系統(tǒng),其準(zhǔn)確率和系統(tǒng)響應(yīng)率均可達(dá)90%以上。3.2語(yǔ)音識(shí)別技術(shù)概述
語(yǔ)音識(shí)別是解決機(jī)器"聽(tīng)懂"人類語(yǔ)言的一項(xiàng)技術(shù)。作為智能計(jì)算機(jī)研究的主導(dǎo)方向和人機(jī)語(yǔ)音通信的關(guān)鍵技術(shù),語(yǔ)音識(shí)別技術(shù)一直受到各國(guó)科學(xué)界的廣泛關(guān)注。如今,隨著語(yǔ)音識(shí)別技術(shù)研究的突破,其對(duì)計(jì)算機(jī)發(fā)展和社會(huì)生活的重要性日益凸現(xiàn)出來(lái)。以語(yǔ)音識(shí)別技術(shù)開發(fā)出的產(chǎn)品應(yīng)用領(lǐng)域非常廣泛,如聲控電話交換、信息網(wǎng)絡(luò)查詢、家庭服務(wù)、賓館服務(wù)、醫(yī)療服務(wù)、銀行服務(wù)、工業(yè)控制、語(yǔ)音通信系統(tǒng)等,幾乎深入到社會(huì)的每個(gè)行業(yè)和每個(gè)方面。
廣泛意義上的語(yǔ)音識(shí)別按照任務(wù)的不同可以分為4個(gè)方向:說(shuō)話人識(shí)別、關(guān)鍵詞檢出、語(yǔ)言辨識(shí)和語(yǔ)音識(shí)別。說(shuō)話人識(shí)別技術(shù)是以話音對(duì)說(shuō)話人進(jìn)行區(qū)別,從而進(jìn)行身份鑒別和認(rèn)證的技術(shù)。關(guān)鍵詞檢出技術(shù)應(yīng)用于一些具有特定要求的場(chǎng)合,只關(guān)注那些包含特定詞的句子,例如對(duì)一些特殊人名、地名的電話監(jiān)聽(tīng)等。語(yǔ)言辨識(shí)技術(shù)是通過(guò)分析處理一個(gè)語(yǔ)音片斷以判別其所屬語(yǔ)言種類的技術(shù),本質(zhì)上也是語(yǔ)音識(shí)別技術(shù)的一個(gè)方面。語(yǔ)音識(shí)別就是通常人們所說(shuō)的以說(shuō)話的內(nèi)容作為識(shí)別對(duì)象的技術(shù),它是4個(gè)方面中最重要和研究最廣泛的一個(gè)方向。從語(yǔ)音識(shí)別的流程處理來(lái)看,語(yǔ)音識(shí)別系統(tǒng)同樣可以分成前端和后端兩部分:前端處理音頻流,從而分隔出可能的發(fā)聲聲音片段,并將它們轉(zhuǎn)換成一系列能夠用計(jì)算機(jī)表示的數(shù)值;后端是一個(gè)專用的搜索引擎,它獲取前端產(chǎn)生的輸出并對(duì)三個(gè)數(shù)據(jù)庫(kù)〔聲學(xué)模型、語(yǔ)言模型和詞典進(jìn)行搜索解碼,并給出最終的識(shí)別結(jié)果。語(yǔ)音識(shí)別的步驟可分為三步:第一步是根據(jù)識(shí)別系統(tǒng)的類型選擇識(shí)別方法,分析出所需要的語(yǔ)音特征參數(shù),并將這些參數(shù)作為標(biāo)準(zhǔn)模式由機(jī)器存儲(chǔ)起來(lái),形成參考模式庫(kù);第二步是語(yǔ)音識(shí)別的核心,采用選擇的語(yǔ)音識(shí)別方法進(jìn)行模式匹配,具體內(nèi)容又可分別表現(xiàn)為模型的建立、訓(xùn)練和識(shí)別三個(gè)部分;第三步,語(yǔ)音識(shí)別系統(tǒng)可以進(jìn)行識(shí)別后處理,識(shí)別后處理通常是一個(gè)音字轉(zhuǎn)換過(guò)程,有可能包括更高層次的詞法、句法和文法處理,另外也可以作為某個(gè)具體任務(wù)的語(yǔ)法輸入。語(yǔ)音識(shí)別主要的技術(shù)評(píng)價(jià)指標(biāo)包括:識(shí)別內(nèi)容限制〔連續(xù)語(yǔ)句還是命令詞、識(shí)別詞語(yǔ)容量〔孤立詞還是大詞匯量、識(shí)別正確率、識(shí)別使用人員限制〔針對(duì)特定人還是不限定使用者、魯棒性〔使用者口音適應(yīng)能力、抗環(huán)境噪聲能力。按照最為重要的指標(biāo)識(shí)別內(nèi)容限制進(jìn)行劃分,語(yǔ)音識(shí)別技術(shù)可分為大詞匯量連續(xù)語(yǔ)流識(shí)別技術(shù)和命令詞語(yǔ)音識(shí)別技術(shù)。命令詞語(yǔ)音識(shí)別技術(shù)作為現(xiàn)在應(yīng)用最為廣泛的語(yǔ)音識(shí)別技術(shù),按照應(yīng)用場(chǎng)景和核心性能可分為電話命令詞語(yǔ)音識(shí)別技術(shù)和嵌入式命令詞語(yǔ)音識(shí)別技術(shù)。中小詞匯量非特定人語(yǔ)音識(shí)別系統(tǒng)識(shí)別精度已經(jīng)大于98%,對(duì)特定人語(yǔ)音識(shí)別系統(tǒng)的識(shí)別精度就更高,這些技術(shù)已經(jīng)能夠滿足通常應(yīng)用的需要。3.3語(yǔ)音識(shí)別面臨的問(wèn)題與未來(lái)發(fā)展目前的語(yǔ)音識(shí)別技術(shù)并不完美,其主要局限有:〔1語(yǔ)音識(shí)別對(duì)環(huán)境依賴性較強(qiáng),在某種環(huán)境下采集到的語(yǔ)音訓(xùn)練系統(tǒng)只能在該環(huán)境下應(yīng)用,否則系統(tǒng)性能將急劇下降;〔2Lombard效應(yīng)導(dǎo)致高噪聲環(huán)境下的語(yǔ)音識(shí)別困難,由于高噪音環(huán)境下人的發(fā)音變化很大,如聲音變高、語(yǔ)速變慢等,這些變化導(dǎo)致音調(diào)及共振峰的變化,從而使得語(yǔ)音識(shí)別的準(zhǔn)確度顯著降低;〔3系統(tǒng)的適應(yīng)性差,主要表現(xiàn)在語(yǔ)音識(shí)別系統(tǒng)的性能受許多因素影響,如不同的說(shuō)話人、說(shuō)話方式、環(huán)境噪音、傳輸信道等,由于訓(xùn)練與識(shí)別環(huán)境的差異,同一個(gè)識(shí)別系統(tǒng)對(duì)于不同的用戶、不同的使用需求、不同的聲學(xué)環(huán)境下性能差異可以達(dá)到30%,使得語(yǔ)音識(shí)別技術(shù)的應(yīng)用范圍受到很大限制。語(yǔ)音識(shí)別技術(shù)未來(lái)可能的發(fā)展方向有兩個(gè):〔1語(yǔ)言模型從概率模型向以語(yǔ)言學(xué)為基礎(chǔ)的文法模型轉(zhuǎn)變,要使計(jì)算機(jī)真正理解人類的自然語(yǔ)言,就必須在這一點(diǎn)上取得進(jìn)展,同時(shí)隨著硬件資源的不斷發(fā)展,一些核心算法如特征提取、搜索算法、自適應(yīng)算法等將有進(jìn)一步改進(jìn)的可能;〔2人工神經(jīng)網(wǎng)絡(luò)〔ANN技術(shù)在語(yǔ)音識(shí)別領(lǐng)域有可能實(shí)現(xiàn)突破,人工神經(jīng)網(wǎng)絡(luò)是由結(jié)點(diǎn)互連組成的計(jì)算網(wǎng)絡(luò),本質(zhì)上是對(duì)人類大腦神經(jīng)元活動(dòng)的模擬,具有自學(xué)習(xí)能力、記憶、聯(lián)想、推理、概括能力和快速并行實(shí)現(xiàn)的特點(diǎn),同時(shí)還具備自組織、自適應(yīng)的功能。人工神經(jīng)網(wǎng)絡(luò)技術(shù)的這些特點(diǎn)是HMM模型所不具備的,適合用于處理一些環(huán)境信息復(fù)雜、背景知識(shí)模糊、推理規(guī)則不明確的問(wèn)題,因此對(duì)于噪聲環(huán)境下非特定人的語(yǔ)音識(shí)別問(wèn)題來(lái)說(shuō)是一種很好的解決方案,目前基于人工神經(jīng)網(wǎng)絡(luò)技術(shù)的語(yǔ)音識(shí)別系統(tǒng)仍處于實(shí)驗(yàn)室研究階段。語(yǔ)音作為當(dāng)前通信系統(tǒng)中最自然的通信媒介,語(yǔ)音識(shí)別技術(shù)是非常重要的人機(jī)交互技術(shù)。隨著計(jì)算機(jī)和語(yǔ)音處理技術(shù)的發(fā)展,語(yǔ)音識(shí)別系統(tǒng)的實(shí)用性將進(jìn)一步提高。應(yīng)用語(yǔ)音的自動(dòng)理解和翻譯,可消除人類相互交往的語(yǔ)言障礙。國(guó)外已有多種基于語(yǔ)音識(shí)別產(chǎn)品<如聲控?fù)芴?hào)電話、語(yǔ)音記事本等>的應(yīng)用,基于特定任務(wù)和環(huán)境的聽(tīng)寫機(jī)也已經(jīng)進(jìn)入應(yīng)用階段。這預(yù)示著語(yǔ)音識(shí)別技術(shù)有著非常廣泛的應(yīng)用領(lǐng)域和市場(chǎng)前景。隨著語(yǔ)音技術(shù)的進(jìn)步和通信技術(shù)的飛速發(fā)展,語(yǔ)音識(shí)別技術(shù)將為網(wǎng)上會(huì)議、商業(yè)管理、醫(yī)藥衛(wèi)生、教育培訓(xùn)等各個(gè)領(lǐng)域帶來(lái)極大的便利,其應(yīng)用和經(jīng)濟(jì)、社會(huì)效益前景非常良好。第四章智能語(yǔ)音技術(shù)概述4.1智能語(yǔ)音技術(shù)簡(jiǎn)介核心算法和芯片技術(shù)共同推動(dòng)語(yǔ)音技術(shù)應(yīng)用深化語(yǔ)音識(shí)別應(yīng)用決定智能語(yǔ)音行業(yè)未來(lái)成長(zhǎng)。從智能語(yǔ)音技術(shù)的發(fā)展歷程來(lái)看,應(yīng)用的技術(shù)推動(dòng)力主要是語(yǔ)音技術(shù)核心算法和計(jì)算機(jī)芯片技術(shù)。二十世紀(jì)末,建立在統(tǒng)計(jì)建模和機(jī)器學(xué)習(xí)理念基礎(chǔ)上的語(yǔ)音技術(shù)核心算法逐步成熟,基于HMM〔隱馬爾可夫模型的語(yǔ)音合成及識(shí)別技術(shù)在實(shí)用中占據(jù)了主導(dǎo)地位。計(jì)算機(jī)芯片技術(shù)則遵照摩爾定律,每18個(gè)月性能提升1倍,芯片運(yùn)算能力的持續(xù)增長(zhǎng)使得更為復(fù)雜的語(yǔ)音技術(shù)算法不斷得以實(shí)現(xiàn)。嵌入式芯片技術(shù)特別是SOC技術(shù)的發(fā)展及芯片成本的下降,有力推動(dòng)了智能語(yǔ)音技術(shù)在移動(dòng)設(shè)備中的應(yīng)用。智能語(yǔ)音技術(shù)是人工智能的研究領(lǐng)域之一,其技術(shù)原理涉及聲學(xué)、語(yǔ)言學(xué)、數(shù)字信號(hào)處理、計(jì)算機(jī)科學(xué)等多個(gè)學(xué)科。智能語(yǔ)音技術(shù)主要研究人機(jī)之間語(yǔ)音信息的處理問(wèn)題,按機(jī)器在其中所發(fā)揮作用的不同,可分為語(yǔ)音合成和語(yǔ)音識(shí)別兩大類人機(jī)語(yǔ)音通信問(wèn)題,如圖所示。從智能語(yǔ)音技術(shù)的發(fā)展歷程來(lái)看,其應(yīng)用的主要推動(dòng)力之一是語(yǔ)音技術(shù)核心算法的不斷進(jìn)步。上世紀(jì)九十年代,建立在統(tǒng)計(jì)建模和機(jī)器學(xué)習(xí)理念基礎(chǔ)之上的語(yǔ)音技術(shù)核心算法逐步成熟,基于HMM〔隱馬爾可夫模型的語(yǔ)音合成及識(shí)別技術(shù)在實(shí)用中逐漸占據(jù)了主導(dǎo)地位。如果未來(lái)核心算法能在自然語(yǔ)言理解上取得突破,則有望通過(guò)智能語(yǔ)音技術(shù)真正實(shí)現(xiàn)人機(jī)智能交互,從而使語(yǔ)音技術(shù)得到更加廣泛的應(yīng)用。推動(dòng)智能語(yǔ)音技術(shù)進(jìn)入實(shí)用的另一主要?jiǎng)恿t是計(jì)算機(jī)芯片技術(shù)的不斷進(jìn)步。摩爾定律是計(jì)算機(jī)芯片技術(shù)發(fā)展的經(jīng)驗(yàn)性規(guī)律,其主要內(nèi)容是:在相同面積集成電路上可容納的晶體管數(shù)目,約每隔18個(gè)月便會(huì)增加一倍,即芯片性能將提升一倍,而價(jià)格則基本保持不變。摩爾定律從1975年提出至今,準(zhǔn)確地預(yù)測(cè)了芯片技術(shù)的發(fā)展速度,以MIPS〔MillionInstructionsPerSecond,每秒百萬(wàn)條指令為單位進(jìn)行估算,IntelX86芯片的計(jì)算能力從1987年至今增長(zhǎng)了約1600倍,而以ARM架構(gòu)為代表的嵌入式芯片計(jì)算能力從1987年至今也已增長(zhǎng)了約500倍。隨著芯片運(yùn)算能力的不斷增長(zhǎng),更為復(fù)雜的語(yǔ)音技術(shù)算法不斷得以實(shí)現(xiàn)。由于晶體管尺寸受量子效應(yīng)的制約,近年來(lái)摩爾定律的有效性開始減弱,但I(xiàn)C業(yè)界仍普遍預(yù)期摩爾定律至少在2015年之前將保持有效,特別是嵌入式芯片的計(jì)算能力仍將保持快速增長(zhǎng)。嵌入式芯片技術(shù)特別是SOC技術(shù)的發(fā)展及芯片價(jià)格的不斷下降,將有力推動(dòng)智能語(yǔ)音技術(shù)在移動(dòng)設(shè)備市場(chǎng)的應(yīng)用。因此,我們認(rèn)為即使短期內(nèi)智能語(yǔ)音技術(shù)核心算法不能有革命性突破,計(jì)算機(jī)芯片技術(shù)的發(fā)展也將推動(dòng)語(yǔ)音技術(shù)的應(yīng)用進(jìn)一步深化。由于語(yǔ)音合成技術(shù)和語(yǔ)音識(shí)別技術(shù)在技術(shù)原理和實(shí)現(xiàn)方法上存在較大差異,我們將分別針對(duì)這兩種技術(shù)進(jìn)行介紹。4.2語(yǔ)音合成技術(shù)簡(jiǎn)介語(yǔ)音合成技術(shù)是指利用機(jī)器生成語(yǔ)音,按照技術(shù)實(shí)現(xiàn)難度的高低,廣義的語(yǔ)音合成技術(shù)可以分為三個(gè)層次:〔1從文字到語(yǔ)音的合成〔TexttoSpeech,即TTS;〔2從概念到語(yǔ)音的合成〔ConcepttoSpeech;〔3從意圖到語(yǔ)音的合成〔IntentiontoSpeech。狹義的語(yǔ)音合成技術(shù)則是指文本語(yǔ)音轉(zhuǎn)化技術(shù)〔TTS,目前主流的語(yǔ)音合成技術(shù)主要是指TTS,我們?cè)谶@里只針對(duì)狹義的語(yǔ)音合成技術(shù)進(jìn)行討論。4.2.1語(yǔ)音合成技術(shù)發(fā)展史從語(yǔ)音合成技術(shù)的發(fā)展歷程來(lái)看,可大致分為三個(gè)階段,第一階段為上世紀(jì)三十年代至八十年代,以參數(shù)合成方法為主;第二階段為上世紀(jì)八十年代至九十年代,以波形拼接方法為主;第三階段則為上世紀(jì)末至現(xiàn)在,進(jìn)一步發(fā)展出可訓(xùn)練的TTS方法。圖3語(yǔ)音合成技術(shù)發(fā)展的三階段:語(yǔ)音合成技術(shù)研究起步于二十世紀(jì)三十年代。1939年,貝爾實(shí)驗(yàn)室利用共振峰原理制作出第一個(gè)電子語(yǔ)音合成器,用一些類似白噪音的激勵(lì)產(chǎn)生非濁音信號(hào),以周期性的激勵(lì)產(chǎn)生濁音信號(hào),從而實(shí)現(xiàn)了用機(jī)器合成聲音,這被普遍視為語(yǔ)音合成技術(shù)的開端。1960年,G.Fant系統(tǒng)地闡述了語(yǔ)音產(chǎn)生的理論,推動(dòng)了語(yǔ)音合成技術(shù)的進(jìn)步。第一個(gè)完整的TTS系統(tǒng)得以實(shí)現(xiàn)。1980年,D.Klatt設(shè)計(jì)出串/并聯(lián)混合型共振峰合成器,使用串聯(lián)通道產(chǎn)生元音和濁輔音,并聯(lián)通道產(chǎn)生清輔音,還可以對(duì)聲源做各種選擇和調(diào)整以模擬不同的嗓音,是早期較為先進(jìn)的語(yǔ)音合成系統(tǒng)。線性預(yù)測(cè)編碼技術(shù)〔LinearPredictionCoding,LPC成為這一階段最有效的語(yǔ)音分析技術(shù)之一,利用LPC技術(shù)可以對(duì)語(yǔ)音產(chǎn)生模型的參數(shù)進(jìn)行準(zhǔn)確估計(jì)。這一階段主要的技術(shù)思路是從模仿人體發(fā)聲機(jī)理入手進(jìn)行語(yǔ)音合成,合成效果的清晰度和自然度都不高。二十世紀(jì)八十年代,語(yǔ)音合成技術(shù)進(jìn)入了波形拼接方法階段,基音同步疊加的波形拼接方法PSOLA〔PitchSynchronousOverlapandAdd被提出,較好地解決了不同語(yǔ)音片段之間的拼接問(wèn)題,從而有力的推動(dòng)了波形拼接語(yǔ)音合成技術(shù)的發(fā)展。隨著計(jì)算機(jī)運(yùn)算能力和存儲(chǔ)能力的迅猛發(fā)展,利用計(jì)算機(jī)合成語(yǔ)音越來(lái)越普遍,波形拼接方法逐漸發(fā)展成為基于大語(yǔ)料庫(kù)的單元挑選與波形拼接合成方法,其基本思想是根據(jù)輸入的文本分析信息,根據(jù)相關(guān)信息從預(yù)先錄制好的語(yǔ)音庫(kù)中挑選合適的單元,進(jìn)行少量的調(diào)整后拼接得到最終的合成語(yǔ)音。由于最終的合成單元都是直接從音庫(kù)中復(fù)制過(guò)來(lái)的,PSOLA方法的最大優(yōu)勢(shì)就在于保持了原始發(fā)音人的音質(zhì),自然度有了明顯提高。從二十世紀(jì)末開始,統(tǒng)計(jì)建模方法引入到語(yǔ)音合成技術(shù)的研究當(dāng)中,從而提出了可訓(xùn)練的語(yǔ)音合成方法。該方法的基本思想是采用統(tǒng)計(jì)建模和機(jī)器學(xué)習(xí)的理念,通過(guò)給定的原始語(yǔ)音數(shù)據(jù)進(jìn)行訓(xùn)練并根據(jù)訓(xùn)練結(jié)果來(lái)構(gòu)建語(yǔ)音合成系統(tǒng)。隨著聲學(xué)合成器性能的不斷提高,在原有訓(xùn)練方法的基礎(chǔ)上進(jìn)一步發(fā)展出了統(tǒng)計(jì)參數(shù)語(yǔ)音合成方法——基于HMM模型〔HiddenMarkovModel,隱馬爾可夫模型的語(yǔ)音合成方法?;贖MM模型的合成方法可以在不需要人工干預(yù)的情況下,構(gòu)建較小尺寸的合成系統(tǒng),而且對(duì)于不同的發(fā)音人和發(fā)音風(fēng)格的依賴性也非常小,很適合應(yīng)用于嵌入式設(shè)備以及滿足多樣化語(yǔ)音合成需求,因此這種方法逐漸發(fā)展成為和大語(yǔ)料庫(kù)波形拼接方法相并列的主流合成方法。語(yǔ)音合成的具體實(shí)現(xiàn)過(guò)程可以劃分為前端文本分析和后端語(yǔ)音合成兩個(gè)步驟。前端文本分析主要包括兩項(xiàng)任務(wù):〔1進(jìn)行文本的標(biāo)準(zhǔn)化,把原始文本中的數(shù)字、縮略語(yǔ)等轉(zhuǎn)換為對(duì)應(yīng)的標(biāo)準(zhǔn)詞;〔2進(jìn)行語(yǔ)言處理即TTP〔texttophoneme轉(zhuǎn)換,為每一個(gè)字詞賦予一個(gè)語(yǔ)音腳本,初步定義其發(fā)音,并依據(jù)辭典規(guī)則對(duì)文本進(jìn)行分割標(biāo)記。后端則是通常意義上的合成器,負(fù)責(zé)將前端處理后的結(jié)果轉(zhuǎn)換成實(shí)際的聲音輸出,韻律處理可以作為其中一個(gè)模塊,集成到語(yǔ)音合成過(guò)程中。后端合成器是語(yǔ)音合成系統(tǒng)的核心部分,可以采用多種不同算法加以實(shí)現(xiàn),常見(jiàn)的語(yǔ)音合成方法主要有三種:〔1基于參數(shù)合成方法進(jìn)行語(yǔ)音合成;〔2基于波形拼接技術(shù)進(jìn)行語(yǔ)音合成;〔3基于HMM模型進(jìn)行語(yǔ)音合成。圖4典型的語(yǔ)音合成流程圖:4.2.2語(yǔ)音合成技術(shù)的應(yīng)用語(yǔ)音合成技術(shù)在20XX時(shí)已達(dá)到用戶基本可接受的準(zhǔn)實(shí)用水平,主要用于簡(jiǎn)單信息〔如時(shí)間、金額、航班等的播報(bào)。伴隨著大語(yǔ)料庫(kù)合成技術(shù)的流行,20XX以來(lái)語(yǔ)音合成技術(shù)已發(fā)展到逼近自然人甚至播音員發(fā)音的水平,并從單一的廣播風(fēng)格發(fā)展到多種語(yǔ)氣和語(yǔ)調(diào)的合成能力。隨著HMM語(yǔ)音合成技術(shù)的發(fā)展,嵌入式語(yǔ)音合成技術(shù)也逐步突破了對(duì)運(yùn)算和存儲(chǔ)要求苛刻的嵌入式使用門檻,目前已經(jīng)可以在小資源環(huán)境〔1MB存儲(chǔ)資源和10MIPS運(yùn)算資源下產(chǎn)生出清晰流暢的語(yǔ)音效果,從而使語(yǔ)音技術(shù)在車載導(dǎo)航、移動(dòng)終端、教具等設(shè)備中的應(yīng)用門檻有效降低。未來(lái)語(yǔ)音合成技術(shù)將從清晰度和自然度的要求上升至對(duì)個(gè)性化合成的要求,如對(duì)語(yǔ)音、語(yǔ)調(diào)、情緒的豐富性要求等。第五章智能語(yǔ)音市場(chǎng)分析智能語(yǔ)音技術(shù)作為最自然的人機(jī)交互方法,其用途非常廣泛,從最終應(yīng)用前景來(lái)看,未來(lái)隨著技術(shù)進(jìn)步和機(jī)器對(duì)人工替代程度的提高,只要是需要機(jī)器與人進(jìn)行交互的場(chǎng)合均可運(yùn)用智能語(yǔ)音技術(shù)。從全球市場(chǎng)來(lái)看,目前語(yǔ)音合成市場(chǎng)已較為成熟,滲透率較高;而語(yǔ)音識(shí)別市場(chǎng)則處于快速成長(zhǎng)期,20XX首次突破了10億美元,Datamonitor估計(jì)20XX語(yǔ)音識(shí)別技術(shù)市場(chǎng)規(guī)模為26億美元。從地域分布來(lái)看,北美一直是全球最大的智能語(yǔ)音技術(shù)市場(chǎng),20XX占據(jù)全球超過(guò)70%的市場(chǎng)份額,北美語(yǔ)音技術(shù)的采用也遠(yuǎn)高于其他地區(qū),其中企業(yè)級(jí)語(yǔ)音市場(chǎng)約占語(yǔ)音市場(chǎng)79%的份額。嵌入式語(yǔ)音系統(tǒng)市場(chǎng)增長(zhǎng)較快,根據(jù)Datamonitor的調(diào)查,20XX嵌入式語(yǔ)音技術(shù)市場(chǎng)規(guī)模為1.3億美元,預(yù)計(jì)20XX為5.0億美元左右,年均復(fù)合增長(zhǎng)率約為40%。綜合考慮目前的技術(shù)能力〔語(yǔ)音技術(shù)核心算法和計(jì)算機(jī)芯片計(jì)算能力和客戶接受度,我們認(rèn)為在未來(lái)幾年有望實(shí)現(xiàn)突破的主要有三大細(xì)分市場(chǎng):企業(yè)級(jí)市場(chǎng)、車載語(yǔ)音市場(chǎng)及移動(dòng)終端市場(chǎng)。主要智能語(yǔ)音技術(shù)應(yīng)用領(lǐng)域市場(chǎng)潛力和技術(shù)難度評(píng)估:5.1企業(yè)級(jí)語(yǔ)音市場(chǎng)加速發(fā)展智能語(yǔ)音技術(shù)在企業(yè)級(jí)市場(chǎng)主要是應(yīng)用于呼叫中心〔CallCenter,具體的應(yīng)用包括語(yǔ)音導(dǎo)航和聲紋識(shí)別兩種方式。呼叫中心又稱為客戶服務(wù)中心,是把計(jì)算機(jī)和電信技術(shù)集成在一起,形成的用電話與用戶溝通的手段。美國(guó)是全球呼叫中心產(chǎn)業(yè)最為成熟的國(guó)家,截至20XX底美國(guó)擁有超過(guò)290萬(wàn)的呼叫中心座席,金融行業(yè)是呼叫中心應(yīng)用規(guī)模最大的行業(yè),座席數(shù)量達(dá)到了50萬(wàn)以上。中國(guó)呼叫中心產(chǎn)業(yè)從20XX開始快速增長(zhǎng),截至20XX底,呼叫中心座席總數(shù)已超過(guò)50萬(wàn)個(gè),累計(jì)投資規(guī)模達(dá)超過(guò)500億元。從坐席數(shù)量的增長(zhǎng)速度來(lái)看,20XX的座席增長(zhǎng)速度明顯較20XX同比明顯上升。呼叫中心投資明顯回暖,為智能語(yǔ)音技術(shù)的引入打下良好基礎(chǔ)。呼叫中心市場(chǎng)采用語(yǔ)音技術(shù)的驅(qū)動(dòng)力主要來(lái)自于四個(gè)方面:〔1語(yǔ)音技術(shù)可作為IVR系統(tǒng)的補(bǔ)充手段,彌補(bǔ)其在實(shí)際應(yīng)用中的缺陷;〔2語(yǔ)音技術(shù)可減少人工服務(wù)量,從而降低對(duì)客戶代表的需求,降低運(yùn)營(yíng)成本;〔3語(yǔ)音技術(shù)特別是語(yǔ)音導(dǎo)航技術(shù)的使用能有效改善客戶的用戶體驗(yàn);〔4聲紋識(shí)別技術(shù)的使用將顯著增強(qiáng)客戶賬戶的安全性。根據(jù)Oppenheimer&Co.的預(yù)測(cè),受金融危機(jī)影響,未來(lái)3年全球呼叫中心語(yǔ)音識(shí)別市場(chǎng)將保持平穩(wěn)增長(zhǎng),增速約在5%-6%之間。從地域結(jié)構(gòu)來(lái)看增速則很不均衡,北美地區(qū)語(yǔ)音技術(shù)滲透率較高,目前約為30%,因此增速平穩(wěn);而中國(guó)市場(chǎng)幾乎是空白,仍處于市場(chǎng)培育和客戶習(xí)慣培養(yǎng)時(shí)期,未來(lái)將呈現(xiàn)快速增長(zhǎng)態(tài)勢(shì),主流廠商N(yùn)uance和科大訊飛均已開始加大這一市場(chǎng)的開拓力度。我們預(yù)計(jì)國(guó)內(nèi)呼叫中心的語(yǔ)音導(dǎo)航和聲紋識(shí)別市場(chǎng)有望于未來(lái)兩年內(nèi)啟動(dòng),市場(chǎng)規(guī)模在其后有快速增長(zhǎng)至億元量級(jí)的可能。全球企業(yè)級(jí)語(yǔ)音識(shí)別市場(chǎng)規(guī)模保持平穩(wěn)增長(zhǎng)圖:5.2車載語(yǔ)音市場(chǎng)規(guī)模大幅提升目前語(yǔ)音識(shí)別技術(shù)在車載語(yǔ)音市場(chǎng)主要應(yīng)用于汽車導(dǎo)航設(shè)備,可以通過(guò)避免手動(dòng)操作導(dǎo)航設(shè)備而增強(qiáng)行駛過(guò)程中的安全性,未來(lái)語(yǔ)音技術(shù)可進(jìn)一步滲透至其他汽車輔助電子設(shè)備中,如對(duì)汽車空調(diào)、車窗、影音系統(tǒng)等進(jìn)行語(yǔ)音控制。汽車導(dǎo)航設(shè)備通??煞譃榍把b車載導(dǎo)航設(shè)備和PND導(dǎo)航設(shè)備。國(guó)內(nèi)前裝車載導(dǎo)航設(shè)備仍處于市場(chǎng)發(fā)展初期,從滲透率來(lái)看,20XX前裝車載導(dǎo)航系統(tǒng)的裝配率在日本已經(jīng)達(dá)到79%,在西歐約為13%,在北美約為10.2%,而在國(guó)內(nèi)2008年新車裝配率僅為3.7%,未來(lái)滲透率仍有較大提升空間。PND導(dǎo)航設(shè)備經(jīng)過(guò)過(guò)去幾年的高速發(fā)展,目前已進(jìn)入相對(duì)平穩(wěn)增長(zhǎng)階段,增速約為40%。汽車前裝導(dǎo)航設(shè)備市場(chǎng)仍有較大增長(zhǎng)空間圖目前,語(yǔ)音合成技術(shù)在車載導(dǎo)航系統(tǒng)的使用已較為普遍,而語(yǔ)音識(shí)別技術(shù)的滲透率則相對(duì)較低。以Nuance為例,雖然全球前十大汽車制造商均已使用了Nuance的語(yǔ)音產(chǎn)品,但Nuance估計(jì)語(yǔ)音識(shí)別技術(shù)在汽車電子市場(chǎng)的滲透率仍不足10%。未來(lái)伴隨著前裝導(dǎo)航滲透率的大幅提高及語(yǔ)音識(shí)別技術(shù)的滲透率快速增長(zhǎng),車載語(yǔ)音市場(chǎng)規(guī)模有望顯著提升。根據(jù)Datamonitor的預(yù)計(jì),車載語(yǔ)音識(shí)別系統(tǒng)市場(chǎng)從20XX開始出現(xiàn)快速增長(zhǎng),市場(chǎng)規(guī)模有望從20XX的6430萬(wàn)美元提升至20XX的2.1億美元,五年年均復(fù)合增長(zhǎng)率約為26.7%。5.3移動(dòng)終端市場(chǎng)分析智能手機(jī)和平板電腦市場(chǎng)啟動(dòng)提升語(yǔ)音技術(shù)滲透率。在最近幾年里,移動(dòng)通信和互聯(lián)網(wǎng)是發(fā)展最快、市場(chǎng)潛力最大的兩大電信類業(yè)務(wù),隨著移動(dòng)互聯(lián)網(wǎng)的逐漸成型,智能手機(jī)和平板電腦將成為移動(dòng)互聯(lián)網(wǎng)的主要終端形式。20XX全球智能手機(jī)和平板電腦銷量同時(shí)啟動(dòng),未來(lái)3年仍將保持高速增長(zhǎng)態(tài)勢(shì)。Google預(yù)計(jì)目前最新的Android設(shè)備大約有25%的搜索是通過(guò)語(yǔ)音進(jìn)行的,而Datamonitor預(yù)計(jì)到20XX語(yǔ)音識(shí)別系統(tǒng)在全球移動(dòng)終端市場(chǎng)的份額將是20XX的3倍,移動(dòng)終端市場(chǎng)有望成為智能語(yǔ)音技術(shù)的又一快速增長(zhǎng)市場(chǎng)。未來(lái)移動(dòng)終端語(yǔ)音市場(chǎng)的增長(zhǎng)動(dòng)力主要來(lái)自于兩方面:一是作為觸摸屏和鍵盤等輸入設(shè)備的補(bǔ)充和完善,由于設(shè)備尺寸和重量的限制,觸摸屏是目前智能手機(jī)和平板電腦的主要輸入設(shè)備,但觸摸屏也存在輸入精確度不高、容易產(chǎn)生觸摸漂移等缺點(diǎn),這為智能語(yǔ)音技術(shù)的應(yīng)用創(chuàng)造了空間;二是移動(dòng)終端語(yǔ)音技術(shù)新應(yīng)用的不斷出現(xiàn),如語(yǔ)音秘書、語(yǔ)音播報(bào)、語(yǔ)音輸入法、語(yǔ)音聽(tīng)寫系統(tǒng)等,國(guó)外市場(chǎng)上Nuance已推出了針對(duì)iPhone和iPad的語(yǔ)音識(shí)別軟件,Google也于20XX8月推出了基于Android系統(tǒng)的語(yǔ)音識(shí)別技術(shù),用戶可通過(guò)語(yǔ)音指令實(shí)現(xiàn)發(fā)送電子郵件、短信、撥打電話和獲得駕駛導(dǎo)航信息等功能,國(guó)內(nèi)市場(chǎng)上科大訊飛于20XX10月推出了基于Android系統(tǒng)的語(yǔ)音輸入法,近期有望進(jìn)一步推出基于云計(jì)算技術(shù)的語(yǔ)音短信輸入產(chǎn)品,新應(yīng)用的不斷出現(xiàn)有助于提升語(yǔ)音技術(shù)在移動(dòng)終端市場(chǎng)的滲透率。中國(guó)智能手機(jī)銷量有望保持快速增長(zhǎng)圖:5.4教育和娛樂(lè)市場(chǎng)分析5.4.1教育市場(chǎng)語(yǔ)音教具與語(yǔ)音評(píng)測(cè)市場(chǎng)發(fā)展?jié)摿^大。根據(jù)國(guó)家統(tǒng)計(jì)局的數(shù)據(jù),截至20XX底,我國(guó)共有普通中學(xué)教師494.4萬(wàn)人,其中英語(yǔ)教師人數(shù)約為120萬(wàn)人。假定最終市場(chǎng)滲透率為40%,每套教具售價(jià)為2000元,則總體市場(chǎng)規(guī)模約為9.6億元,若考慮到語(yǔ)文教學(xué)及少數(shù)民族語(yǔ)言教學(xué)的需要,總體市場(chǎng)規(guī)模有望超過(guò)10億元。若語(yǔ)音教具進(jìn)一步擴(kuò)展至學(xué)生市場(chǎng),根據(jù)教育部2009年底公布的統(tǒng)計(jì)數(shù)據(jù),全國(guó)共有中小學(xué)校35萬(wàn)所、班級(jí)380萬(wàn)個(gè),按40%市場(chǎng)滲透率進(jìn)行估算,"暢言"智能課堂教學(xué)機(jī)和智能語(yǔ)言教學(xué)平臺(tái)的市場(chǎng)總潛力將超過(guò)22億元。由于教具的采購(gòu)需要由政府主管部門推動(dòng),受限于政府采購(gòu)的決策鏈較長(zhǎng),教具市場(chǎng)的開拓周期較長(zhǎng),目前僅有XX、XX、XX等省有較大規(guī)模的應(yīng)用。語(yǔ)音評(píng)測(cè)技術(shù)是通過(guò)機(jī)器自動(dòng)對(duì)語(yǔ)音進(jìn)行發(fā)音水平評(píng)價(jià)、檢錯(cuò),并給出糾正指導(dǎo)的技術(shù),主要應(yīng)用于普通話和英語(yǔ)的教學(xué)及測(cè)試。國(guó)內(nèi)從20XX初開始進(jìn)行語(yǔ)音評(píng)測(cè)技術(shù)的跟蹤和探索性研究,目前已經(jīng)可以很好的實(shí)現(xiàn)對(duì)文本朗讀的普通話評(píng)測(cè)工作,對(duì)于自由發(fā)言的發(fā)音評(píng)測(cè)是下一階段評(píng)測(cè)技術(shù)發(fā)展的一個(gè)方向。20XX9月,科大訊飛的計(jì)算機(jī)口語(yǔ)測(cè)試系統(tǒng)準(zhǔn)確程度已經(jīng)達(dá)到了省級(jí)測(cè)試員的測(cè)試水平。針對(duì)中國(guó)人學(xué)習(xí)英語(yǔ)的評(píng)測(cè)技術(shù),也是近年來(lái)研究界和產(chǎn)業(yè)界關(guān)注的重點(diǎn),科大訊飛和中科院自動(dòng)化所均已取得了較好的研究成果,初步達(dá)到了對(duì)中小學(xué)生英語(yǔ)口語(yǔ)評(píng)價(jià)的需要。科大訊飛目前在語(yǔ)音教具市場(chǎng)和語(yǔ)音評(píng)測(cè)市場(chǎng)占據(jù)主導(dǎo)地位,面向中小學(xué)英語(yǔ)和普通話教學(xué)的"暢言智能有聲教具"業(yè)務(wù)穩(wěn)步拓展,并在多個(gè)省份開展試點(diǎn);其普通話口語(yǔ)評(píng)測(cè)業(yè)務(wù)已進(jìn)入20個(gè)省份,并在XX、XX、上海等7省份全面實(shí)施了計(jì)算機(jī)測(cè)試。5.4.2成本和設(shè)計(jì)制約語(yǔ)音技術(shù)在玩具市場(chǎng)的應(yīng)用我國(guó)是世界上最大的玩具制造國(guó)和出口國(guó),現(xiàn)有玩具企業(yè)2萬(wàn)余家,產(chǎn)量占世界總產(chǎn)量的70%以上。大中城市的消費(fèi)者普遍可接受的玩具價(jià)格在100元以下,一些售價(jià)在1000元以上的高檔玩具同樣有市場(chǎng)。在中國(guó)玩具市場(chǎng),毛絨玩具和兒童車最為暢銷,模型玩具、遙控玩具和塑膠玩具的銷量持續(xù)看好。有34%的城市消費(fèi)者選購(gòu)電子玩具,31%選擇智能型玩具,23%選擇高檔毛絨、布制玩具。農(nóng)村消費(fèi)者以傳統(tǒng)的玩具類型為主,48%的農(nóng)村消費(fèi)者愿意購(gòu)買電動(dòng)玩具,28%愿意購(gòu)買拼裝玩具,24%愿意購(gòu)買中、低檔毛絨、布制玩具。據(jù)中國(guó)玩具協(xié)會(huì)統(tǒng)計(jì),約64%的成人消費(fèi)者表示有興趣購(gòu)買適合自己的玩具,估計(jì)成人休閑益智玩具市場(chǎng)每年約值500億元人民幣。傳統(tǒng)玩具的市場(chǎng)日趨下滑,而益智類、成人類玩具則呈現(xiàn)持續(xù)增長(zhǎng)趨勢(shì)。我國(guó)玩具產(chǎn)業(yè)規(guī)模龐大語(yǔ)音識(shí)別技術(shù)以嵌入式芯片的方式應(yīng)用于各類玩具,會(huì)有很大的發(fā)展前景。據(jù)美國(guó)玩具研究所的報(bào)告分析,應(yīng)用于高科技電子玩具的核心技術(shù)往往能給該產(chǎn)品帶來(lái)5-6倍的利潤(rùn)。缺乏有吸引力的玩具設(shè)計(jì)與成本較高是目前制約智能語(yǔ)音玩具大規(guī)模推廣的主要原因。目前市場(chǎng)上銷售的語(yǔ)音玩具多數(shù)是在毛絨玩具基礎(chǔ)上簡(jiǎn)單植入語(yǔ)音芯片,娛樂(lè)性和益智性均較差,售價(jià)卻高達(dá)300元-700元,相比普通毛絨玩具數(shù)十元的售價(jià)價(jià)格較為昂貴,使得智能語(yǔ)音玩具對(duì)普通消費(fèi)者的吸引力不足。我們預(yù)計(jì)隨著語(yǔ)音芯片成本的不斷下降和專業(yè)玩具設(shè)計(jì)廠商的加入,智能語(yǔ)音玩具市場(chǎng)有望出現(xiàn)快速增長(zhǎng)。第六章智能語(yǔ)音行業(yè)競(jìng)爭(zhēng)分析6.1市場(chǎng)競(jìng)爭(zhēng)格局分析智能語(yǔ)音行業(yè)通過(guò)高技術(shù)壁壘形成寡頭壟斷的格局,智能語(yǔ)音技術(shù)的技術(shù)壁壘很高,需要企業(yè)在統(tǒng)計(jì)學(xué)、聲學(xué)、語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)等多個(gè)領(lǐng)域具有較強(qiáng)的綜合實(shí)力,同時(shí)智能語(yǔ)音技術(shù)的研究周期長(zhǎng)、投入大,如IBM已在語(yǔ)音技術(shù)領(lǐng)域持續(xù)研發(fā)了近30年。20XX全球語(yǔ)音識(shí)別市場(chǎng)份額:國(guó)內(nèi)語(yǔ)音技術(shù)市場(chǎng)目前仍以語(yǔ)音合成為主,語(yǔ)音識(shí)別技術(shù)則處于市場(chǎng)導(dǎo)入期。國(guó)內(nèi)語(yǔ)音合成技術(shù)廠商主要有科大訊飛和捷通華聲,其中科大訊飛占據(jù)主導(dǎo)地位;語(yǔ)音識(shí)別技術(shù)廠商則主要有中科信利〔中科院聲學(xué)所、中科模識(shí)〔中科院自動(dòng)化所和科大訊飛。Nuance以前對(duì)中國(guó)市場(chǎng)重視度不高,主要通過(guò)代理商進(jìn)行產(chǎn)品銷售,目前已開始加大對(duì)中國(guó)語(yǔ)音市場(chǎng)的開拓力度,其投入重點(diǎn)集中于企業(yè)級(jí)市場(chǎng)和導(dǎo)航設(shè)備市場(chǎng)??拼笥嶏w在語(yǔ)音合成技術(shù)上具有世界領(lǐng)先地位,在語(yǔ)音識(shí)別技術(shù)上與N
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- HY/T 0457-2024藍(lán)碳生態(tài)系統(tǒng)碳儲(chǔ)量調(diào)查與評(píng)估技術(shù)規(guī)程海草床
- 福建福州金山中學(xué)2024~2025學(xué)年高一下冊(cè)期末考試數(shù)學(xué)試題學(xué)生卷
- 福建福州第一中學(xué)2024~2025學(xué)年下冊(cè)高一數(shù)冊(cè)末試題
- 口碑營(yíng)銷在互聯(lián)網(wǎng)廣告中的互動(dòng)營(yíng)銷策略考核試卷
- 供應(yīng)鏈風(fēng)險(xiǎn)預(yù)警與供應(yīng)鏈風(fēng)險(xiǎn)管理人才培養(yǎng)研究考核試卷
- 糖廠生產(chǎn)過(guò)程智能化維護(hù)與預(yù)測(cè)性維護(hù)技術(shù)考核試卷
- 升降機(jī)操作界面與人性化設(shè)計(jì)檢查考核試卷
- 服裝標(biāo)簽設(shè)計(jì)中的印刷材料選擇考核試卷
- 2025年中國(guó)PE啞光透明面漆數(shù)據(jù)監(jiān)測(cè)研究報(bào)告
- 2025年中國(guó)lcd電路板數(shù)據(jù)監(jiān)測(cè)報(bào)告
- 實(shí)驗(yàn)室安全應(yīng)急預(yù)案及應(yīng)急措施
- 靜脈輸液管理與患者滿意度提升方案
- 北師大版八年級(jí)下冊(cè)數(shù)學(xué)期末考試試題帶答案
- 【MOOC】組織行為學(xué)-對(duì)外經(jīng)濟(jì)貿(mào)易大學(xué) 中國(guó)大學(xué)慕課MOOC答案
- 【MOOC】食品微生物學(xué)-北京林業(yè)大學(xué) 中國(guó)大學(xué)慕課MOOC答案
- 【MOOC】生物化學(xué)實(shí)驗(yàn)-南京大學(xué) 中國(guó)大學(xué)慕課MOOC答案
- 《中華人民共和國(guó)學(xué)前教育法》專題培訓(xùn)
- 國(guó)開(四川)2024年秋《社會(huì)學(xué)概論》形考任務(wù)1-2答案終結(jié)性考核答案
- 電商平臺(tái)供應(yīng)鏈管理技術(shù)分析
- 燃油燃燒器常見(jiàn)故障現(xiàn)象的原因分析及排除方法
- 北京匯文中學(xué)初一新生分班(摸底)語(yǔ)文考試模擬試卷(10套試卷帶答案解析)
評(píng)論
0/150
提交評(píng)論