中國(guó)自然語言處理白皮書_第1頁
中國(guó)自然語言處理白皮書_第2頁
中國(guó)自然語言處理白皮書_第3頁
中國(guó)自然語言處理白皮書_第4頁
中國(guó)自然語言處理白皮書_第5頁
已閱讀5頁,還剩16頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、中國(guó)自然語言處理白皮書中國(guó)自然語言處理白皮書中國(guó)人工智能學(xué)會(huì)二一五年十一月18中國(guó)人工智能系列白皮書編委會(huì)主任:李德毅執(zhí)行主任:王國(guó)胤副 主 任:楊放春譚鐵牛黃河燕焦李成馬少平劉宏蔣昌俊任福繼楊強(qiáng)委員:陳杰董振江杜軍平桂衛(wèi)華韓力群何清黃心漢賈英民李斌劉民劉成林劉增良魯華祥馬華東馬世龍苗奪謙樸松昊喬俊飛任友群孫富春孫長(zhǎng)銀王軒王飛躍王捍貧王萬森王衛(wèi)寧王小捷王亞杰王志良吳朝暉吳曉蓓夏桂華嚴(yán)新平楊春燕余凱余有成張學(xué)工趙春江周志華祝烈煌莊越挺中國(guó)自然語言處理白皮書編寫組任福繼王小捷黃河燕孫茂松靳光謹(jǐn)周國(guó)棟王明文蔡?hào)|風(fēng)何婷婷黃萱菁常寶寶王曉龍黃德根胡海青于 浩朱靖波古麗拉·阿東別克昝紅英吳 華

2、晉耀紅 王厚峰 張玉潔 張桂平 譚詠梅 張克亮 全昌勤 孫 曉 陳清財(cái) 王榮波 衛(wèi)志華 鐘茂生 徐睿峰 邱錫鵬 沈李斌 張仰森 李 蕾 袁彩霞目 錄第1章 引言1第2章 漢語切分22.1漢語切分的性能22.2漢語切分的問題52.3小結(jié)6第3章 人機(jī)對(duì)話83.1 人機(jī)對(duì)話系統(tǒng)83.2 對(duì)話管理技術(shù)103.3 小結(jié)13第4章 總結(jié)14第5章 參考文獻(xiàn)17第1章 引言近年來,隨著自然語言處理技術(shù)的迅速發(fā)展,出現(xiàn)了一批基于自然語言處理技術(shù)的應(yīng)用系統(tǒng),這些系統(tǒng)引起了大眾的熱議。例如,IBM的Watson在電視問答節(jié)目中戰(zhàn)勝人類冠軍,蘋果公司的Siri個(gè)人助理被大眾廣為測(cè)試,谷歌、微軟、百度等公司紛紛發(fā)布

3、個(gè)人智能助理,科大訊飛牽頭研發(fā)高考機(jī)器人。這些應(yīng)用的出現(xiàn)使自然語言處理一時(shí)成為熱點(diǎn)話題,人們對(duì)這些應(yīng)用乃至應(yīng)用背后的技術(shù)進(jìn)行了各種各樣的評(píng)論。有的充滿期待,希望未來自然語言處理技術(shù)能產(chǎn)生越來越多有價(jià)值的應(yīng)用系統(tǒng);也有的表示擔(dān)心,擔(dān)心技術(shù)的發(fā)展會(huì)對(duì)人們自身的工作機(jī)會(huì)造成沖擊。那么,自然語言處理當(dāng)前的技術(shù)和應(yīng)用狀況究竟如何,已經(jīng)取得了什么進(jìn)展、未來的發(fā)展會(huì)如何?人們的什么期待可能變成現(xiàn)實(shí),什么擔(dān)心其實(shí)還沒有必要呢?本白皮書力圖對(duì)這兩個(gè)問題作出部分回應(yīng)。本白皮書首先對(duì)目前研究人員在自然語言處理技術(shù)及應(yīng)用方面主要做了什么、做得怎么樣進(jìn)行一些介紹。但是,本白皮書并不準(zhǔn)備也不可能做成一個(gè)自然語言處理領(lǐng)域的

4、全面技術(shù)綜述,而只是分別選擇自然語言處理領(lǐng)域的一個(gè)典型技術(shù)和一個(gè)典型應(yīng)用進(jìn)行介紹和分析。之后,就如何認(rèn)識(shí)當(dāng)前以及未來的自然語言處理技術(shù)和系統(tǒng)給出我們的觀點(diǎn)。白皮書力求不用太多的專業(yè)術(shù)語,而是以較為淺顯的語言進(jìn)行闡述。全書的內(nèi)容安排如下:在第二章是漢語切分技術(shù)的發(fā)展介紹和現(xiàn)狀分析,第三章是人機(jī)對(duì)話系統(tǒng)的發(fā)展介紹和現(xiàn)狀分析,第四章是總結(jié),給出我們的觀點(diǎn)。第2章 漢語切分自然語言處理領(lǐng)域有許多重要的基礎(chǔ)技術(shù),這些技術(shù)對(duì)自然語言處理應(yīng)用系統(tǒng)的性能具有重大的影響,漢語切分就是其中之一。不同于英語,漢語是以字串的形式出現(xiàn),詞與詞之間沒有空格,自動(dòng)識(shí)別字串中的詞即為漢語切分。至少在當(dāng)前,漢語切分是漢語信息處

5、理的基礎(chǔ),大多數(shù)其他漢語信息處理技術(shù)和應(yīng)用都會(huì)在漢語切分的基礎(chǔ)上進(jìn)行。本章在第一節(jié)基于漢語切分的評(píng)測(cè)結(jié)果概要介紹當(dāng)前漢語切分技術(shù)的總體性能,在第二節(jié)通過實(shí)例具體介紹其中的主要難點(diǎn)問題,最后是小結(jié)。2.1漢語切分的性能漢語切分是漢語語言信息處理技術(shù)中開展得最早的研究主題之一。不僅僅是在國(guó)內(nèi)、在國(guó)際上也有很多學(xué)者加入到這個(gè)主題的研究中。國(guó)際上最有影響的計(jì)算語言學(xué)聯(lián)合會(huì)ACL (Association of Computational Linguistics)下設(shè)的特殊興趣小組SIGHAN(Special Interest Group of HAN)從2003年開始組織漢語切分技術(shù)的國(guó)際評(píng)測(cè),一直持

6、續(xù)到現(xiàn)在。從該系列評(píng)測(cè)的結(jié)果我們可以大致了解當(dāng)前漢語切分技術(shù)的現(xiàn)狀。表2-1到2-3列出了SIGHAN漢語切分技術(shù)評(píng)測(cè)的部分結(jié)果數(shù)據(jù)1-4。由于沒有一個(gè)評(píng)測(cè)數(shù)據(jù)在各屆評(píng)測(cè)中都一直被使用,而不同評(píng)測(cè)數(shù)據(jù)之間的結(jié)果難以直接比較。因此,這些表是按不同評(píng)測(cè)數(shù)據(jù)分別列出的。表中列出的都是歷年參加評(píng)測(cè)的所有系統(tǒng)中取得的最好成績(jī)。性能指標(biāo)一般包括準(zhǔn)確率P(Precision)、召回率R(Recall)、F測(cè)度(F-measure)、詞典內(nèi)詞的召回率Rin以及未登錄詞的召回率Roov。這些指標(biāo)從不同側(cè)面反映技術(shù)的性能,所有指標(biāo)都是值越高越好。表2-1 2003和2005年北京大學(xué)評(píng)測(cè)數(shù)據(jù)上的最好成績(jī)PRFRi

7、nRoov2003 0.9560.9630.9590.9750.7992005 0.9690.9680.9690.9760.838表2-2 2005和2006年微軟亞洲研究院評(píng)測(cè)數(shù)據(jù)上的最好成績(jī)PRFRinRoov2005 0.9650.980.9720.990.592006 0.9780.980.9790.9850.839表2-3 2003、2005和2006年香港城市大學(xué)評(píng)測(cè)數(shù)據(jù)上的最好成績(jī)PRFRinRoov2003 0.9560.9630.9590.9750.7992005 0.9560.9670.9620.980.80620060.9770.9780.9770.9840.840表2-

8、4 2010年SIGHAN評(píng)測(cè)中系統(tǒng)A在各領(lǐng)域的成績(jī)領(lǐng)域PRFRinRoov文學(xué)0.9530.9580.9550.9810.655計(jì)算機(jī)0.9290.9480.9290.9860.735醫(yī)藥0.920.9510.9350.9860.67財(cái)經(jīng)0.950.9640.9570.9830.7632010年SIGHAN漢語切分技術(shù)評(píng)測(cè)的評(píng)測(cè)數(shù)據(jù)來自四個(gè)領(lǐng)域:文學(xué)、計(jì)算機(jī)、醫(yī)藥和財(cái)經(jīng)。表2-4列出了該年某個(gè)參賽系統(tǒng)A的成績(jī)5。系統(tǒng)A在文學(xué)領(lǐng)域的數(shù)據(jù)上取得了所有參賽隊(duì)伍中的最佳成績(jī),但是該系統(tǒng)在其他三個(gè)領(lǐng)域的成績(jī)均非最佳,在計(jì)算機(jī)領(lǐng)域取得最好成績(jī)的是另一個(gè)系統(tǒng),性能為P=0.95,R=0.95,F(xiàn)=0.95

9、。也就是說沒有一個(gè)隊(duì)在所有不同領(lǐng)域都取得最好成績(jī)。2012年的SIGHAN漢語切分技術(shù)評(píng)測(cè)的評(píng)測(cè)數(shù)據(jù)來自微博6。性能最好的系統(tǒng)取得了P=0.946、R=0.9496和F=0.9478的成績(jī)。但是,整句完全切分正確的比例只有44.88%。2014年的SIGHAN漢語切分技術(shù)評(píng)測(cè)的評(píng)測(cè)數(shù)據(jù)采用的是多領(lǐng)域混合數(shù)據(jù)7。性能最好的系統(tǒng)取得了P=0.9681、R=0.9779和F=0.9730的成績(jī)。上述性能的取得多采用基于字的序列標(biāo)注模型,如條件隨機(jī)場(chǎng)CRF(Conditional Random Field)。2014年之后,出現(xiàn)了一些基于深層神經(jīng)網(wǎng)絡(luò)DNN(Deep Neural Network)技術(shù)

10、的漢語切分模型8910。不過,從目前的情況來看,基于DNN的技術(shù)與之前的技術(shù)相比,尚未取得很顯著的性能提高。例如,在NLPCC2015數(shù)據(jù)集上的評(píng)測(cè)結(jié)果如表2-5所示10??梢钥吹剑贒NN模型的漢語切分技術(shù)的性能與之前的CRF模型相比有所提高,但與DNN在圖像、語音信息處理上取得的重大進(jìn)展相比,還是比較小的。表2-5 CRF模型與DNN模型在NLPCC2015數(shù)據(jù)集上的性能比較模型PRFFDNLP(CRF)94.193.994.0GRNN(一種DNN模型)94.794.894.82.2漢語切分的問題上面一節(jié)給出了一些漢語切分技術(shù)的宏觀結(jié)果數(shù)據(jù),本節(jié)介紹一些在進(jìn)行漢語切分時(shí)具體會(huì)遇到的問題。

11、目前已知的漢語切分難點(diǎn)問題主要存在于兩個(gè)方面:切分歧義和未登錄詞。切分歧義主要分為兩類:交集歧義和組合歧義。在簡(jiǎn)單情況下,交集歧義是指連續(xù)出現(xiàn)的三個(gè)字中,中間的字既可以和前面的字組成詞,也可以和后面的字組成詞,如(s1)和(s2)中的三個(gè)字“地面積”。城區(qū)地面積水已消除。 (s1)我國(guó)多數(shù)濕地面積無明顯變化。 (s2)在(s1)中,“地面積”三個(gè)字中間的“面”字與前面的“地”組成一個(gè)詞“地面”;而在(s2)中,“面”字與后面的“積”組成一個(gè)詞“面積”。中間的字和前后哪個(gè)字組合成詞,需要依據(jù)上下文來確定。組合歧義是指連續(xù)出現(xiàn)的兩個(gè)字可能是兩個(gè)詞,也可能是一個(gè)詞,如(s3)和(s4)中的“把手”。

12、馴獸師把手伸進(jìn)鱷魚嘴里。 (s3)為您找到最新的門把手報(bào)價(jià)。 (s4)在(s3)中,“把手”兩個(gè)字是兩個(gè)詞;而在(s4)中,“把手”兩個(gè)字組成一個(gè)詞。同樣,這兩個(gè)字究竟是一個(gè)詞還是兩個(gè)詞,需要依據(jù)上下文才能確定。目前,對(duì)于上述兩類歧義問題,研究人員已經(jīng)提出了諸多解決辦法。大部分有效的解決方法都是基于統(tǒng)計(jì)技術(shù)的,雖然有的技術(shù)已經(jīng)獲得很好的性能,但是,迄今為止,還并不存在一種能保證在任何情況下都取得正確結(jié)果的技術(shù)。未登錄詞指的是未在詞典中出現(xiàn)過的詞。比如,隨著新事物的不斷出現(xiàn),產(chǎn)生了“博客”、“微博”、“滬港通”等等原來并不存在的新詞;也由于人們?cè)谡Z言上的不斷創(chuàng)造,出現(xiàn)了“給力”、“喜大普奔”、“

13、人艱不拆”等網(wǎng)絡(luò)流行語。為處理這類問題出現(xiàn)了諸多的新詞發(fā)現(xiàn)技術(shù)。更大量的未登錄詞來源于各種專有名詞(通常稱為命名實(shí)體),如人名(包括中國(guó)人名、外國(guó)人名、網(wǎng)名等等)、地名、組織機(jī)構(gòu)名、商品名、書名、電影名等等。這些未登錄詞在不斷產(chǎn)生,且在使用中也可能伴隨切分歧義,導(dǎo)致切分任務(wù)變得更為復(fù)雜。例如:“他沉浸在世博園滿眼的綠色中”中,出現(xiàn)了“世博園”這個(gè)新的專用名詞,而且該詞的第一個(gè)字“世”與前一個(gè)字“在”可以組成一個(gè)詞“在世”,最后一個(gè)字“園”與后一個(gè)字“滿”也可以組成一個(gè)詞“園滿”。為處理這類問題出現(xiàn)了諸多的命名實(shí)體識(shí)別技術(shù)。相比切分歧義,未登錄詞是當(dāng)前切分技術(shù)中面臨的更主要、更困難的挑戰(zhàn)。2.3

14、小結(jié)從上述介紹至少可以得到如下幾點(diǎn)結(jié)論:1漢語切分的性能在穩(wěn)步提高。隨著研究人員不斷地研究各種語言現(xiàn)象,探索新的機(jī)器學(xué)習(xí)技術(shù)和新的特征,對(duì)漢語切分中的一些基本的難點(diǎn)問題,如交集歧義、組合歧義等,得到了比較清楚的認(rèn)識(shí),有一些較好的解決辦法。2新語言現(xiàn)象的出現(xiàn)導(dǎo)致切分性能的下降。微博等社交媒體上產(chǎn)生的大量新詞語、新命名實(shí)體以及新語言組織方式,對(duì)已有技術(shù)產(chǎn)生了較大的沖擊。隨著社交媒體的日益廣泛使用,新語言現(xiàn)象出現(xiàn)的范圍也越來越廣,不斷給漢語切分任務(wù)帶來新的挑戰(zhàn)。3跨領(lǐng)域、跨風(fēng)格文本帶來的漢語切分困難。同一切分系統(tǒng)如何能在較小訓(xùn)練代價(jià)下對(duì)跨領(lǐng)域、跨風(fēng)格文本上均取得較穩(wěn)定的性能還是一個(gè)尚需要進(jìn)一步探索解

15、決的問題。4最后幾個(gè)百分點(diǎn)的困難。機(jī)器自動(dòng)切分的結(jié)果的確在不斷逼近人類的切分結(jié)果。但是,可以看到,越到后面,性能提高的代價(jià)越大,迄今為止,似乎還沒有看到能跨越最后幾個(gè)百分點(diǎn)的技術(shù)方向。第3章 人機(jī)對(duì)話人類自然語言的主要功能之一是交際,雙人或多人的對(duì)話是最常見的語言使用場(chǎng)合,因此,人機(jī)對(duì)話是自然語言處理技術(shù)最為典型的應(yīng)用之一。圖靈早年提出的測(cè)試機(jī)器是否具有智能的圖靈測(cè)試正是以人與機(jī)器進(jìn)行對(duì)話為判定依據(jù)的。近年來,隨著智能設(shè)備深入人們的日常生活和工作中,各大公司紛紛推出具有一定人機(jī)對(duì)話能力的個(gè)人助理,使得人機(jī)對(duì)話應(yīng)用一度成為熱點(diǎn)話題。本章在第一節(jié)介紹人機(jī)對(duì)話系統(tǒng)的概況,在第二節(jié)介紹作為其核心技術(shù)之

16、一的對(duì)話管理技術(shù),最后是小結(jié)。3.1 人機(jī)對(duì)話系統(tǒng)目前的人機(jī)對(duì)話系統(tǒng)大致可以分為兩大類:一類是面向特定任務(wù)的;另一類是開放性的,系統(tǒng)沒有特定的任務(wù)要求。面向特定任務(wù)的人機(jī)對(duì)話系統(tǒng)通過與用戶進(jìn)行對(duì)話來獲取特定信息,從而完成特定任務(wù)。例如,在早期MIT計(jì)算機(jī)科學(xué)實(shí)驗(yàn)室研制的用于機(jī)票預(yù)定的對(duì)話系統(tǒng)ATIS (Air Traffic Information System)中,機(jī)器需要在與用戶的對(duì)話過程中獲取用戶的機(jī)票預(yù)定信息,如出發(fā)地、出發(fā)日期、航班號(hào)等;在最近北京郵電大學(xué)智能科學(xué)與技術(shù)中心研制的會(huì)議室預(yù)定系統(tǒng)MRBS(Meeting Room Booking System)中,機(jī)器通過與用戶對(duì)話獲取

17、用戶要預(yù)定的會(huì)議室的時(shí)間、大小、人數(shù)、價(jià)格等信息。目前,僅從對(duì)話系統(tǒng)獲取任務(wù)相關(guān)信息的角度來看,針對(duì)特定任務(wù)的對(duì)話系統(tǒng)可以到達(dá)較好的性能。圖3-1是ATIS系統(tǒng)的一個(gè)工作記錄片斷。圖3-2是MRBS系統(tǒng)的一個(gè)工作記錄片斷??梢钥吹?,系統(tǒng)都能在對(duì)話中逐步獲取相關(guān)的任務(wù)信息。User: I'd like to fly from Philadelphia to San Francisco.ATIS: What data will you be travelling on?User: Next Tuesday.ATIS: These are the flights from Philadelp

18、hia to San Francisco on Tuesday January 16.User: Do any stop in Dallas?ATIS: I'm sorry I got stuck just before the word stop in.User: IS there a flight which stops in Dallas?ATIS: This is the with-stop flight from Philadelphia to San Francisco stopping in Dallas on Tuesday January 16.圖3-1 ATIS人機(jī)

19、對(duì)話系統(tǒng)的對(duì)話片段User:我想在北京找一個(gè)300人的會(huì)議室MRBS:有300人在北京開的會(huì)議,對(duì)嗎?User:恩,對(duì)的MRBS:還有其他需求嗎?User:下周三開會(huì)MRBS:日期初步定在下周三,要開多長(zhǎng)時(shí)間呢?User:還是下周五吧,開兩天。MRBS:是下周五開,開兩天,您預(yù)算多少呢?圖3-2 MRBS人機(jī)對(duì)話系統(tǒng)的對(duì)話片段而開放性的人機(jī)對(duì)話系統(tǒng)沒有在對(duì)話過程中獲取特定任務(wù)信息的要求,更多的是對(duì)用戶輸入進(jìn)行響應(yīng),自由交互,具有某種聊天的性質(zhì),因此也常稱為聊天系統(tǒng)。早期的ELIZA系統(tǒng)、最近的Siri、小黃雞等都屬于此類系統(tǒng)。這類系統(tǒng)可以對(duì)用戶的各種話語進(jìn)行響應(yīng),包括回答關(guān)于天氣狀況的問題(此

20、時(shí)類似于問答系統(tǒng))、進(jìn)行沒有目標(biāo)限定的閑聊等等。Siri、小黃雞系統(tǒng)都曾經(jīng)成為熱點(diǎn)話題,有很多用戶測(cè)試的記錄。從已有的記錄來看,完全開放的聊天系統(tǒng)需要面對(duì)的任務(wù)是非常具有挑戰(zhàn)性的,目前的系統(tǒng)還難以達(dá)到人們的預(yù)期。人機(jī)對(duì)話系統(tǒng)的基本結(jié)構(gòu)如圖3-3所示。其中包括三個(gè)主要的部分。語言理解、對(duì)話管理和語言生成。語言理解部分理解用戶的語言輸入,語言生成部分產(chǎn)生系統(tǒng)的語言輸出,這兩部分在自然語言處理的許多其他應(yīng)用中都是不可缺少的,也同樣直接影響對(duì)話系統(tǒng)的性能。但是對(duì)于人機(jī)對(duì)話系統(tǒng)而言,最為獨(dú)特的是對(duì)話管理部分。是否有對(duì)話管理可用于區(qū)分對(duì)話系統(tǒng)和問答系統(tǒng)。下一節(jié)介紹對(duì)話管理技術(shù)。圖3-3 人機(jī)對(duì)話系統(tǒng)的基本

21、結(jié)構(gòu)3.2 對(duì)話管理技術(shù)對(duì)話管理從語言理解部分獲取輸入信息,維護(hù)對(duì)話過程中的系統(tǒng)內(nèi)部狀態(tài),并基于狀態(tài)生成對(duì)話策略,為產(chǎn)生對(duì)話言語提供依據(jù)。好的對(duì)話管理需要自然地控制對(duì)話流程,帶來良好的用戶體驗(yàn)。在簡(jiǎn)單的對(duì)話系統(tǒng)中,如不限定領(lǐng)域的聊天系統(tǒng)ELIZA,系統(tǒng)不維護(hù)任何內(nèi)部狀態(tài),也沒有顯式的對(duì)話管理模塊,系統(tǒng)只是檢測(cè)當(dāng)前的外部輸入,并依據(jù)一些轉(zhuǎn)換規(guī)則對(duì)輸入進(jìn)行轉(zhuǎn)換產(chǎn)生輸出。例如,可以設(shè)計(jì)形如I am à You are的規(guī)則,當(dāng)檢測(cè)到用戶輸入為 I am John時(shí),用規(guī)則進(jìn)行替換,生成輸出You are John。這種系統(tǒng)一般不能用于完成特定的信息獲取任務(wù)。研究人員迄今已經(jīng)探索不少對(duì)話管理

22、技術(shù),包括基于有限狀態(tài)自動(dòng)機(jī)的方法、基于語義框架的方法、基于代理的方法和基于統(tǒng)計(jì)的方法等?;谟邢逘顟B(tài)自動(dòng)機(jī)的方法適用于結(jié)構(gòu)化較好的任務(wù)。其對(duì)話進(jìn)程是預(yù)先設(shè)定好的,用戶只能按預(yù)定的順序回答系統(tǒng)的提問,以提供任務(wù)信息。這種對(duì)話管理技術(shù)不能處理語言理解的不確定性,靈活性較差,用戶體驗(yàn)不好?;谡Z義框架的方法允許用戶以較為靈活的方式進(jìn)行對(duì)話。系統(tǒng)能根據(jù)當(dāng)前語義框架的狀態(tài)來提出下一個(gè)問題,也可以處理一些語言理解部分的不確定性輸入,但是系統(tǒng)的控制算法通常較復(fù)雜?;诖淼姆椒▽?duì)話建模成兩個(gè)代理通過協(xié)作來完成任務(wù)。代理具有推理能力,可以進(jìn)行錯(cuò)誤檢測(cè)和糾正,可以實(shí)現(xiàn)混合主導(dǎo)型對(duì)話。但是這種系統(tǒng)需要大量專家

23、知識(shí)來構(gòu)建邏輯推理系統(tǒng),構(gòu)建成本高?;诮y(tǒng)計(jì)的方法,主要指的是基于馬爾可夫決策過程MDP(Markov Decision Process)的方法。MDP需要狀態(tài)完全可觀測(cè),而在狀態(tài)不完全可觀測(cè)時(shí),可以采用部分可觀測(cè)馬爾可夫決策過程POMDP(Partially observable Markov decision process)。POMDP模型將人機(jī)對(duì)話建模成一個(gè)在不確定狀態(tài)序列下取得最大長(zhǎng)期回報(bào)的決策問題。因此,它具有建模語音識(shí)別和語義理解中存在的不確定性的能力,也可以建模系統(tǒng)產(chǎn)生的對(duì)話語言給對(duì)話帶來的長(zhǎng)期影響。POMDP模型從數(shù)據(jù)中學(xué)習(xí)模型參數(shù),進(jìn)行策略求解,其求解算法的復(fù)雜性較高。目前

24、,簡(jiǎn)單的應(yīng)用系統(tǒng)多采用基于有限狀態(tài)自動(dòng)機(jī)的方法,而基于POMDP的方法得到更多的研究關(guān)注。雖然有上述多種對(duì)話管理技術(shù),但是由于對(duì)話系統(tǒng)的復(fù)雜性,對(duì)話管理不僅要通過對(duì)話獲取任務(wù)信息,還要有效地引導(dǎo)整個(gè)對(duì)話過程,為用戶帶來好的用戶體驗(yàn)。同時(shí),考慮到對(duì)話還處于語音識(shí)別和語言理解技術(shù)目前仍不完美的條件下,因此,對(duì)話管理需要處理的難點(diǎn)問題還比較多,以下僅列出其中幾個(gè)。輪次交替問題:對(duì)話的一個(gè)典型特點(diǎn)是存在對(duì)話雙方或多方的交替發(fā)言,交替形式也多種多樣。比如,雙發(fā)對(duì)話時(shí)可能一方輪流說一句,也可能出現(xiàn)某方連續(xù)說幾句的情況。因此,在口語對(duì)話時(shí),很重要的一個(gè)問題就是要決定機(jī)器在何時(shí)開始說話。簡(jiǎn)單的基于物理信號(hào),如

25、設(shè)置靜默等待時(shí)間等方式,在很多預(yù)訂信息服務(wù)中是不可行的。因?yàn)?,在這些服務(wù)中,用戶經(jīng)常需要進(jìn)行現(xiàn)場(chǎng)考慮。如果設(shè)置的等待時(shí)間過短,用戶可能還正在考慮,并沒有完成表述;而等待時(shí)間過長(zhǎng),用戶會(huì)覺得對(duì)話不流暢,用戶體驗(yàn)不好。而基于內(nèi)容的輪次交替還依賴語音識(shí)別和語言理解的性能。主題轉(zhuǎn)換問題:即使在面向特定任務(wù)的對(duì)話中,一次完整的對(duì)話也很可能需要涉及多個(gè)不同的主題。例如,在預(yù)訂會(huì)議室的對(duì)話中,雙方至少需要涉及到會(huì)議召開的時(shí)間、地點(diǎn)、人數(shù)、預(yù)算等若干不同主題的內(nèi)容。對(duì)話管理需要能隨著對(duì)話的進(jìn)行完成各個(gè)主題中相應(yīng)信息的獲取任務(wù)。在對(duì)話時(shí),無論不同主題間是否存在依賴關(guān)系,對(duì)話都需要在不同的主題間跨越。因此,在對(duì)話

26、時(shí),決定何時(shí)從一個(gè)主題轉(zhuǎn)換到另一個(gè)的主題,是用戶管理需要完成的一個(gè)重要任務(wù)。進(jìn)而,友好的人機(jī)交互在允許機(jī)器主導(dǎo)主題轉(zhuǎn)換的同時(shí),也應(yīng)該允許用戶自主進(jìn)行主題轉(zhuǎn)換,而此時(shí),對(duì)話管理需要依據(jù)其狀態(tài)決定是否跟隨進(jìn)行主題的轉(zhuǎn)換。任務(wù)變化問題:目前的任務(wù)型對(duì)話管理大多是針對(duì)特定(類型)任務(wù)的,構(gòu)建對(duì)話管理模型時(shí)需要對(duì)任務(wù)需求進(jìn)行明確的定義,以使任務(wù)中可能涉及的主題在規(guī)定的范圍中變化。但是,現(xiàn)實(shí)世界的任務(wù)有無窮多種(類型),如何使一個(gè)對(duì)話管理模型能快速適應(yīng)新的任務(wù)(類型),是一個(gè)需要進(jìn)一步探索的問題,這個(gè)問題與漢語切分中語料領(lǐng)域和風(fēng)格發(fā)生變化時(shí)如何保持系統(tǒng)性能穩(wěn)定類似。3.3 小結(jié)從上面的介紹可以看到,面向特

27、定任務(wù)的人機(jī)對(duì)話系統(tǒng)在任務(wù)明確定義時(shí)可以較好地完成獲取信息的任務(wù)。但是,對(duì)話過程的管理還有很多需要提高的,尤其在語音識(shí)別和語義理解還存在不確定性的條件下。因此,目前情況下,希望得到在大范圍內(nèi)具有人-人對(duì)話體驗(yàn)的人-機(jī)對(duì)話系統(tǒng)還是不太現(xiàn)實(shí)的。第4章 總結(jié)前面兩章分別介紹了漢語切分技術(shù)和人機(jī)對(duì)話系統(tǒng)的現(xiàn)狀,并進(jìn)行了一些分析,本書不打算也不可能逐一對(duì)各種技術(shù)和應(yīng)用都進(jìn)行單獨(dú)的分析。總體而言,自然語言處理的研究和應(yīng)用在各個(gè)方面都處于持續(xù)發(fā)展中,這種發(fā)展的趨勢(shì)在近幾年尤為有力。因?yàn)樽匀徽Z言處理領(lǐng)域在近幾年出現(xiàn)了一個(gè)非常好的發(fā)展時(shí)期。具體表現(xiàn)在如下幾個(gè)方面。由于來自互聯(lián)網(wǎng)產(chǎn)業(yè)和傳統(tǒng)產(chǎn)業(yè)信息化的各種應(yīng)用需求

28、的推動(dòng),更多的研究人員和更多的經(jīng)費(fèi)支持進(jìn)入了該領(lǐng)域,有力地促進(jìn)了自然語言處理技術(shù)和應(yīng)用的發(fā)展。語言數(shù)據(jù)的不斷增長(zhǎng)、可用的語言資源的持續(xù)增加、語言資源加工能力的穩(wěn)步提高,為研究人員提供了發(fā)展更多語言處理技術(shù)、開發(fā)更多應(yīng)用、進(jìn)行更豐富評(píng)測(cè)的平臺(tái)。機(jī)器學(xué)習(xí)技術(shù),尤其是近年來深度學(xué)習(xí)技術(shù)的飛速發(fā)展,刺激了對(duì)新的自然語言處理技術(shù)的探索。同時(shí),來自其他相近學(xué)科背景、來自工業(yè)界的人員的不斷加入,也為自然語言處理技術(shù)的發(fā)展帶來了一些新思路。計(jì)算和存儲(chǔ)設(shè)備的飛速發(fā)展,提供了越來越強(qiáng)大的計(jì)算和存儲(chǔ)能力,使得研究人員有可能構(gòu)建更為復(fù)雜精巧的計(jì)算模型,處理更為大規(guī)模的真實(shí)語言數(shù)據(jù)。在這些有利條件的支持下,我們相信自然

29、語言處理技術(shù)在未來會(huì)繼續(xù)取得更多地成果,相信自然語言處理技術(shù)是值得大家期待的技術(shù)、能產(chǎn)生不斷滿足大家期待的新應(yīng)用。但是,另一方面,我們也希望大家在看到自然語言處理技術(shù)的進(jìn)展時(shí)有一個(gè)清醒的認(rèn)識(shí)。以下以語義分析為例闡述這點(diǎn)。語義分析是當(dāng)前自然語言處理研究的一個(gè)核心。研究人員在詞匯、句子和篇章等多個(gè)層次都開展了語義研究。以詞匯語義計(jì)算為例,詞義消歧是其中的一個(gè)重要的主題。例如,“打”至少有十幾個(gè)不同的義項(xiàng)。表4-1列出了幾個(gè)示例。詞義消歧的任務(wù)就是為給定上下文的“打”選擇合適的義項(xiàng)。例如,在句子“打他的人打車走了”這句話中為兩個(gè)“打”選擇正確的義項(xiàng)。義項(xiàng)解釋例句1毆打打人、打架2攻打打敵人、打仗3編

30、織打毛衣4攪拌打蛋5標(biāo)記打標(biāo)簽表4-1 “打”的幾個(gè)義項(xiàng)示例在已有的英語詞義消歧國(guó)際評(píng)測(cè)中,如果義項(xiàng)是粗粒度的(例如,上述“打”的第1個(gè)和第2個(gè)義項(xiàng)合并為一個(gè),不加區(qū)分),那么平均性能可以達(dá)到90%以上。大家如果據(jù)此數(shù)據(jù)認(rèn)為詞義消歧技術(shù)已經(jīng)比較成熟了,那么就可能會(huì)誤解為何還有那么多的研究人員持續(xù)開展詞義消歧任務(wù)的研究,就可能會(huì)誤解為何有些任務(wù)中還不把詞義消歧技術(shù)加入進(jìn)去提高系統(tǒng)性能。而實(shí)際上,如果義項(xiàng)不是粗粒度的,而是細(xì)顆粒度的(比如上述“打”的第1個(gè)和第2個(gè)義項(xiàng)是需要區(qū)分的),那么在已有的英語詞義消歧國(guó)際評(píng)測(cè)中取得的平均性能不超過70%!基于這個(gè)數(shù)據(jù),大家應(yīng)該就不會(huì)認(rèn)為詞義消歧技術(shù)已經(jīng)成熟了

31、,而是還有很長(zhǎng)的路要走。進(jìn)一步,如果我們按人的標(biāo)準(zhǔn)來評(píng)價(jià)計(jì)算機(jī)程序的消歧性能,要求計(jì)算機(jī)程序在消歧的同時(shí)能解釋各個(gè)義項(xiàng)間的微妙差別,能解釋這種義項(xiàng)選擇背后發(fā)生了什么。那么,其性能會(huì)更差。因此,大家在關(guān)注自然語言處理技術(shù)進(jìn)展的時(shí)候一定需要對(duì)技術(shù)任務(wù)有更多的理解,否則,很有可能產(chǎn)生不同程度的誤解?;诖耍覀兿MM(jìn)一步指出的是:自然語言處理技術(shù)雖然在不斷發(fā)展中,但是,在未來很長(zhǎng)一段時(shí)間中,它還只能作為一種技術(shù)工具在有限深度上對(duì)語言進(jìn)行處理,還不可能完全達(dá)到人類理解自然語言的水平。因此,當(dāng)前我們對(duì)于自然語言處理技術(shù)和應(yīng)用的合適態(tài)度可能是:既不要期待它能很快就像人一樣地去完成各種自然語言處理和理解的任

32、務(wù),也不用害怕它會(huì)完全取代人的工作。第5章 參考文獻(xiàn)1 Richard Sproat,Thomas Emerson. The First International Chinese Word Segmentation Bakeoff. In Proceedings of the Second SIGHAN Workshop on Chinese Language Processing. 2003.2 Thomas Emerson. The Second International Chinese Word Segmentation Bakeoff. In Proceedings of the

33、Fourth SIGHAN Workshop on Chinese Language Processing. 2005.3 Gina-Anne Levow. The Third International Chinese Language Processing Bakeoff: Word Segmentation and Named Entity Recognition. In Proceedings of the Fifth SIGHAN Workshop on Chinese Language Processing. 2006.4 Guangjin Jin, Xiao Chen. The

34、Fourth International Chinese Language Processing Bakeoff: Chinese Word Segmentation, Named Entity Recognition and Chinese POS Tagging. In Proceedings of the Sixth SIGHAN Workshop on Chinese Language Processing. 2008. 5 Hongmei Zhao, Qun Liu. The CIPS-SIGHAN CLP 2010 Chinese Word Segmentation Bakeoff. In Proceedings of CIPS-SIGHAN Joint Conference on Chinese Language Processing. 2010.6 Huiming Duan, Zhifang Sui, Ye Tian, Wenjie Li. The CIPS-SIGHAN CLP 2012 Chinese Word Segmentation on MicroBlog Corpora Bakeo

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論