版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第2版人工智能通識(shí)教程第11章周蘇教授QQ:81505050自然語(yǔ)言處理導(dǎo)讀案例:機(jī)器翻譯:大數(shù)據(jù)簡(jiǎn)單算法與小數(shù)據(jù)復(fù)雜算法2006年,谷歌公司開(kāi)始涉足機(jī)器翻譯。這被當(dāng)作實(shí)現(xiàn)“收集全世界的數(shù)據(jù)資源,并讓人人都可享受這些資源”這個(gè)目標(biāo)的一個(gè)步驟。谷歌翻譯開(kāi)始利用一個(gè)更大更繁雜的數(shù)據(jù)庫(kù),也就是全球的互聯(lián)網(wǎng),而不再只利用兩種語(yǔ)言之間的文本翻譯。01語(yǔ)言的問(wèn)題和可能性02什么是自然語(yǔ)言處理03語(yǔ)法類型與語(yǔ)義分析04處理數(shù)據(jù)與處理工具目錄/CONTENTS05語(yǔ)音處理自然語(yǔ)言處理(NaturalLanguageProcessing,NLP)是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向。它研究能實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語(yǔ)言進(jìn)行有效通信的各種理論和方法。自然語(yǔ)言處理是一門(mén)融語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué)于一體的科學(xué)。自然語(yǔ)言處理并不是一般地研究自然語(yǔ)言,而在于研制能有效地實(shí)現(xiàn)自然語(yǔ)言通信的計(jì)算機(jī)系統(tǒng),特別是其中的軟件系統(tǒng)。第11章自然語(yǔ)言處理PART01語(yǔ)言的問(wèn)題和可能性人類大約在10萬(wàn)年前學(xué)會(huì)了如何說(shuō)話,大約5千年前學(xué)會(huì)了如何寫(xiě)字。人類語(yǔ)言的復(fù)雜性和多樣性使得智人區(qū)別于其他所有物種。當(dāng)然,人類還有一些其他的特有屬性:沒(méi)有任何其他物種像人類那樣穿衣服,進(jìn)行藝術(shù)創(chuàng)作,或者每天花兩小時(shí)在社交媒體上交流。但是,圖靈提出的智能測(cè)試是基于語(yǔ)言的,而非藝術(shù)或服飾,也許是因?yàn)檎Z(yǔ)言具有普適性,并且捕捉到了如此多的智能行為:一個(gè)演講者演講(或作家寫(xiě)作)的目標(biāo)是交流知識(shí),他組織語(yǔ)言來(lái)表示這些知識(shí),然后采取行動(dòng)以實(shí)現(xiàn)這一目標(biāo)。聽(tīng)眾(或讀者)感知他們的語(yǔ)言并推斷其中的含義。11.1語(yǔ)言的問(wèn)題和可能性這種通過(guò)語(yǔ)言的交流促進(jìn)了文明的發(fā)展,是我們傳播文化、法律、科學(xué)和技術(shù)知識(shí)的主要方式。語(yǔ)言是人類區(qū)別于其他動(dòng)物的本質(zhì)特性。在所有生物中,只有人類才具有語(yǔ)言能力,人類的智能與語(yǔ)言密切相關(guān)。人類的邏輯思維以語(yǔ)言為形式,人類的絕大部分知識(shí)也是以語(yǔ)言文字的形式記載和流傳下來(lái)的。11.1語(yǔ)言的問(wèn)題和可能性口語(yǔ)是人類之間最常見(jiàn)、最古老的語(yǔ)言交流形式,使我們能夠進(jìn)行同步對(duì)話——可以與一個(gè)或多個(gè)人進(jìn)行交互式交流,讓我們變得更具表現(xiàn)力,最重要的是,也可以讓我們彼此傾聽(tīng)。雖然語(yǔ)言有其精確性,卻很少有人會(huì)非常精確地使用語(yǔ)言。兩方或多方說(shuō)的不是同一種語(yǔ)言,對(duì)語(yǔ)言有不同的解釋,詞語(yǔ)沒(méi)有被正確理解,聲音可能聽(tīng)不清或很含糊,又或者受到地方方言的影響,此時(shí),口語(yǔ)就會(huì)導(dǎo)致誤解。11.1語(yǔ)言的問(wèn)題和可能性試思考下列一些通信方式,思考這些方式在正常使用的情況下怎么會(huì)導(dǎo)致溝通不暢:電話——聲音可能聽(tīng)不清楚,一個(gè)人的話可能被誤解,雙方對(duì)語(yǔ)言理解構(gòu)成了其獨(dú)特的問(wèn)題集,存在錯(cuò)誤解釋、錯(cuò)誤理解、錯(cuò)誤回顧等許多可能性。手寫(xiě)信——可能難以辨認(rèn),容易發(fā)生各種書(shū)寫(xiě)錯(cuò)誤;郵局可能會(huì)丟失信件:發(fā)信人和日期可以省略。11.1語(yǔ)言的問(wèn)題和可能性打字信——速度不夠快,信件的來(lái)源及其背后的真實(shí)含義可能被誤解,可能不夠正式。電子郵件——需要上網(wǎng),容易造成上下文理解錯(cuò)誤和誤解其意圖。微信消息——精確、快速,可能同步但仍然不像說(shuō)話那樣流暢。記錄可以得到保存。短信——需要手機(jī),長(zhǎng)度有限,可能難以編寫(xiě)(如鍵盤(pán)小,有時(shí)不能發(fā)短信等)。11.1語(yǔ)言的問(wèn)題和可能性語(yǔ)言既是精確也是模糊的。在法律或科學(xué)事務(wù)中,語(yǔ)言需要得到精確使用;又或者它可以有意地以“藝術(shù)”的方式(例如詩(shī)歌或小說(shuō))使用。作為交流的一種形式,書(shū)面語(yǔ)或口語(yǔ)又可能是模糊的。11.1語(yǔ)言的問(wèn)題和可能性示例11-1“音樂(lè)會(huì)結(jié)束后,我要在酒吧見(jiàn)到你?!北M管很多缺失的細(xì)節(jié)使得這個(gè)約會(huì)可能不會(huì)成功,但是這句話的意圖是明確的。如果音樂(lè)廳里有多個(gè)酒吧怎么辦?音樂(lè)會(huì)可能就在酒吧里,我們音樂(lè)會(huì)后相見(jiàn)嗎?相見(jiàn)的確切時(shí)間是什么?你愿意等待多久?語(yǔ)句“音樂(lè)會(huì)結(jié)束后”表明了意圖,但是不明確。經(jīng)過(guò)一段時(shí)間后,雙方將會(huì)做什么呢?他們遇到對(duì)方了嗎?11.1語(yǔ)言的問(wèn)題和可能性示例11-2“在第三盞燈那里右轉(zhuǎn)?!边@句話的意圖是明確的,但是省略了很多細(xì)節(jié)。燈有多遠(yuǎn)?它們可能會(huì)相隔幾個(gè)街區(qū)或者相距幾公里。當(dāng)方向給出后,提供更精確的信息(如距離、地標(biāo)等)將有助于駕駛指導(dǎo)。11.1語(yǔ)言的問(wèn)題和可能性可以看到,語(yǔ)言中有許多含糊之處,可以想象語(yǔ)言理解可能會(huì)給機(jī)器帶來(lái)的問(wèn)題。對(duì)計(jì)算機(jī)而言,理解語(yǔ)音無(wú)比困難,但理解文本就簡(jiǎn)單得多。文本語(yǔ)言可以提供記錄(無(wú)論是書(shū)、文檔、電子郵件還是其他形式),這是明顯的優(yōu)勢(shì),但是文本語(yǔ)言缺乏口語(yǔ)所能提供的自發(fā)性、流動(dòng)性和交互性。11.1語(yǔ)言的問(wèn)題和可能性PART02什么是自然語(yǔ)言處理使用自然語(yǔ)言與計(jì)算機(jī)進(jìn)行通信,這是人們長(zhǎng)期以來(lái)所追求的。因?yàn)樗扔忻黠@的實(shí)際意義,同時(shí)也有重要的理論意義:人們可以用自己最習(xí)慣的語(yǔ)言來(lái)使用計(jì)算機(jī),而無(wú)需再花大量的時(shí)間和精力去學(xué)習(xí)不很自然和不習(xí)慣的各種計(jì)算機(jī)語(yǔ)言;人們也可以通過(guò)它進(jìn)一步了解人類的語(yǔ)言能力和智能的機(jī)制。11.2什么是自然語(yǔ)言處理自然語(yǔ)言會(huì)話是人工智能發(fā)展史上從早期開(kāi)始就被關(guān)注的主題之一。開(kāi)發(fā)智能系統(tǒng)的任何嘗試,最終似乎都必須解決一個(gè)問(wèn)題,即使用何種形式的標(biāo)準(zhǔn)進(jìn)行交流,比起使用圖形系統(tǒng)或基于數(shù)據(jù)系統(tǒng)的交流,語(yǔ)言交流通常是首選。11.2.1自然語(yǔ)言處理的原因計(jì)算機(jī)進(jìn)行自然語(yǔ)言處理有以下3個(gè)主要原因。(1)與人類交流。很多情況下,人類使用語(yǔ)音與計(jì)算機(jī)進(jìn)行交互很方便,而且在大多數(shù)情況下,使用自然語(yǔ)言要比使用形式語(yǔ)言更加方便。(2)學(xué)習(xí)。人類已經(jīng)用自然語(yǔ)言記錄了很多知識(shí)。例如某個(gè)百科網(wǎng)站就有3000萬(wàn)頁(yè)事實(shí)知識(shí),例如“嬰猴是一種夜間活動(dòng)的小型靈長(zhǎng)類動(dòng)物”,然而幾乎沒(méi)有任何一個(gè)這樣的知識(shí)來(lái)源是用形式邏輯寫(xiě)成的。如果我們想讓計(jì)算機(jī)系統(tǒng)知道很多知識(shí),它最好能理解自然語(yǔ)言。(3)使用人工智能工具有助于結(jié)合語(yǔ)言學(xué)、認(rèn)知心理學(xué)和神經(jīng)科學(xué),促進(jìn)對(duì)語(yǔ)言和語(yǔ)言使用的科學(xué)理解。11.2.1自然語(yǔ)言處理的原因?qū)崿F(xiàn)人機(jī)間自然語(yǔ)言通信意味著要使計(jì)算機(jī)既能理解自然語(yǔ)言文本的意義,也能以自然語(yǔ)言文本來(lái)表達(dá)給定的意圖、思想等。前者稱為自然語(yǔ)言理解,后者稱為自然語(yǔ)言生成,因此,自然語(yǔ)言處理大體包括了這兩個(gè)部分。11.2.2自然語(yǔ)言處理的方法從現(xiàn)有的理論和技術(shù)現(xiàn)狀看,通用的、高質(zhì)量的自然語(yǔ)言處理系統(tǒng)仍然是較長(zhǎng)期的努力目標(biāo),但是針對(duì)一定應(yīng)用,具有相當(dāng)自然語(yǔ)言處理能力的實(shí)用系統(tǒng)已經(jīng)出現(xiàn),有些已商品化甚至產(chǎn)業(yè)化。典型的例子有:多語(yǔ)種數(shù)據(jù)庫(kù)和專家系統(tǒng)的自然語(yǔ)言接口、各種機(jī)器翻譯系統(tǒng)、全文信息檢索系統(tǒng)、自動(dòng)文摘系統(tǒng)等。11.2.2自然語(yǔ)言處理的方法造成自然語(yǔ)言處理困難的根本原因是自然語(yǔ)言文本和對(duì)話的各個(gè)層次上廣泛存在的各種各樣的歧義性或多義性。一個(gè)中文文本從形式上看是由漢字(包括標(biāo)點(diǎn)符號(hào)等)組成的一個(gè)字符串。由字組成詞,由詞組成詞組,由詞組組成句子,進(jìn)而由一些句子組成段、節(jié)、章、篇。無(wú)論在字(符)、詞、詞組、句子、段各種層次,還是在下一層次向上一層次轉(zhuǎn)變中,都存在著歧義和多義現(xiàn)象,即形式上一樣的一段字符串,在不同的場(chǎng)景或不同的語(yǔ)境下,可以理解成不同的詞串、詞組串等,并有不同的意義。11.2.2自然語(yǔ)言處理的方法反過(guò)來(lái),一個(gè)相同或相近的意義同樣也可以用多個(gè)文本或多個(gè)字串來(lái)表示。一般情況下,它們中的大多數(shù)都可以根據(jù)相應(yīng)的語(yǔ)境和場(chǎng)景的規(guī)定而得到解決的。也就是說(shuō),從總體上說(shuō),并不存在歧義。這也就是我們平時(shí)并不感到自然語(yǔ)言歧義,和能用自然語(yǔ)言進(jìn)行正確交流的原因。我們也看到,為了消解歧義,需要大量的知識(shí)和進(jìn)行推理。如何將這些知識(shí)較完整地加以收集和整理出來(lái);又如何找到合適的形式,將它們存入計(jì)算機(jī)系統(tǒng)中去;以及如何有效地利用它們來(lái)消除歧義,都是工作量極大且十分困難的工作。11.2.2自然語(yǔ)言處理的方法自然語(yǔ)言的形式(字符串)與其意義之間是一種多對(duì)多的關(guān)系,其實(shí)這也正是自然語(yǔ)言的魅力所在。但從計(jì)算機(jī)處理的角度看,人們必須消除歧義,要把帶有潛在歧義的自然語(yǔ)言輸入轉(zhuǎn)換成某種無(wú)歧義的計(jì)算機(jī)內(nèi)部表示。11.2.2自然語(yǔ)言處理的方法以基于語(yǔ)言學(xué)的方法、基于知識(shí)的方法為主流的自然語(yǔ)言處理研究所存在的問(wèn)題主要有兩個(gè)方面:一方面,迄今為止的語(yǔ)法都限于分析一個(gè)孤立的句子,上下文關(guān)系和談話環(huán)境對(duì)本句的約束和影響還缺乏系統(tǒng)的研究,因此分析歧義、詞語(yǔ)省略、代詞所指、同一句話在不同場(chǎng)合或由不同的人說(shuō)出來(lái)所具有的不同含義等問(wèn)題,尚無(wú)明確規(guī)律可循,需要加強(qiáng)語(yǔ)用學(xué)的研究才能逐步解決。11.2.2自然語(yǔ)言處理的方法另一方面,人理解一個(gè)句子不是單憑語(yǔ)法,還運(yùn)用了大量的有關(guān)知識(shí),包括生活知識(shí)和專門(mén)知識(shí),這些知識(shí)無(wú)法全部貯存在計(jì)算機(jī)里。因此一個(gè)書(shū)面理解系統(tǒng)只能建立在有限的詞匯、句型和特定的主題范圍內(nèi);計(jì)算機(jī)的貯存量和運(yùn)轉(zhuǎn)速度大大提高之后,才有可能適當(dāng)擴(kuò)大范圍。11.2.2自然語(yǔ)言處理的方法自然語(yǔ)言處理是一個(gè)非常大的領(lǐng)域,它的一些主要任務(wù)包括如下。(1)語(yǔ)音識(shí)別。是將語(yǔ)音轉(zhuǎn)換為文本的任務(wù)。之后我們可以對(duì)生成的文本執(zhí)行進(jìn)一步的任務(wù)(如問(wèn)答)。取決于測(cè)試集的具體情況,語(yǔ)音識(shí)別系統(tǒng)的單詞錯(cuò)誤率大約為3%~5%,與人工轉(zhuǎn)錄員的錯(cuò)誤率相近。語(yǔ)音識(shí)別系統(tǒng)面臨的挑戰(zhàn)是即使個(gè)別單詞有錯(cuò)誤,也要做出適當(dāng)?shù)捻憫?yīng)。11.2.3自然語(yǔ)言處理的任務(wù)頂級(jí)語(yǔ)音識(shí)別系統(tǒng)結(jié)合了循環(huán)神經(jīng)網(wǎng)絡(luò)和隱馬爾可夫模型。2011年,語(yǔ)音領(lǐng)域引入深度神經(jīng)網(wǎng)絡(luò),錯(cuò)誤率立即顯著改進(jìn)了約30%——這一領(lǐng)域似乎已經(jīng)成熟,之前每年的改進(jìn)只有幾個(gè)百分點(diǎn)。語(yǔ)音識(shí)別問(wèn)題具有自然的成分分解,所以非常適合使用深度神經(jīng)網(wǎng)絡(luò):從波形到音素再到單詞最后到句子。11.2.3自然語(yǔ)言處理的任務(wù)(2)文本-語(yǔ)音合成。是與語(yǔ)音識(shí)別相反的過(guò)程——將文本轉(zhuǎn)換為聲音。文本-語(yǔ)音合成面臨的挑戰(zhàn)是如何對(duì)每個(gè)單詞正確發(fā)音,同時(shí)通過(guò)適當(dāng)?shù)耐nD和強(qiáng)調(diào)讓每個(gè)句子聽(tīng)起來(lái)自然流暢。另一個(gè)發(fā)展領(lǐng)域是合成不同的聲音——從普通男性或女性的聲音開(kāi)始,接著可以合成地方方言,甚至模仿名人的聲音。與語(yǔ)音識(shí)別一樣,深層循環(huán)神經(jīng)網(wǎng)絡(luò)的引入為文本-語(yǔ)音合成帶來(lái)了巨大的進(jìn)步,大約2/3的聽(tīng)者認(rèn)為,采用神經(jīng)網(wǎng)絡(luò)的語(yǔ)音處理系統(tǒng)比之前的非神經(jīng)網(wǎng)絡(luò)系統(tǒng)聽(tīng)起來(lái)更自然。11.2.3自然語(yǔ)言處理的任務(wù)(3)機(jī)器翻譯。將文本從一種語(yǔ)言轉(zhuǎn)換到另一種語(yǔ)言,其發(fā)展態(tài)勢(shì)如圖11-5所示。系統(tǒng)通常使用雙語(yǔ)語(yǔ)料庫(kù)進(jìn)行訓(xùn)練。例如,一組成對(duì)的文檔,每對(duì)文檔的其中一個(gè)使用英語(yǔ),而另一個(gè)使用中文。不需要以任何方式對(duì)文檔進(jìn)行標(biāo)記;機(jī)器翻譯系統(tǒng)學(xué)習(xí)如何對(duì)齊句子和短語(yǔ),然后當(dāng)遇到其中一種語(yǔ)言的新語(yǔ)句時(shí),可以生成另一種語(yǔ)言的翻譯。
圖11-5機(jī)器翻譯發(fā)展歷程11.2.3自然語(yǔ)言處理的任務(wù)21世紀(jì)早期的機(jī)器翻譯系統(tǒng)使用n元模型,系統(tǒng)通常能夠理解文本的含義,但大多數(shù)句子都包含文法錯(cuò)誤。一個(gè)問(wèn)題是n元的長(zhǎng)度限制:即使將限制放大到7,信息也很難從句子的一端傳遞到另一端。另一個(gè)問(wèn)題是,一個(gè)n元模型中的所有信息都位于單個(gè)單詞的層級(jí)。這樣的系統(tǒng)可以學(xué)習(xí)將“blackcat(英語(yǔ):黑貓)”翻譯成“chatnoir(法語(yǔ):黑貓)”,但是卻不能學(xué)到英語(yǔ)中形容詞通常在名詞之前而法語(yǔ)中形容詞通常在名詞之后這樣的規(guī)則。11.2.3自然語(yǔ)言處理的任務(wù)序列到序列循環(huán)神經(jīng)網(wǎng)絡(luò)模型解決了這一問(wèn)題。它們可以更好地泛化,并且可以在整個(gè)深度網(wǎng)絡(luò)的不同層級(jí)上形成組合模型,從而有效地傳遞信息。之后的工作使用Transformer(“變壓器”)模型的注意力機(jī)制,提高了翻譯性能,對(duì)這兩種模型各方面進(jìn)行結(jié)合的混合模型則進(jìn)一步提升了效果,在某些語(yǔ)言對(duì)上達(dá)到了人類水平的表現(xiàn)。11.2.3自然語(yǔ)言處理的任務(wù)(4)信息提取。是通過(guò)瀏覽文本并查找文本中特定類別的對(duì)象及其關(guān)系來(lái)獲取知識(shí)的過(guò)程。典型的任務(wù)包括,從網(wǎng)頁(yè)中提取地址實(shí)例獲取街道名、城市名、地區(qū)名以及郵政編碼等數(shù)據(jù)庫(kù)字段;從天氣預(yù)報(bào)中提取暴風(fēng)雨信息,獲取溫度、風(fēng)速以及降水量等字段。如果源文本具有很好的結(jié)構(gòu)(如以表格的形式),那么像正則表達(dá)式之類的簡(jiǎn)單技術(shù)就可以進(jìn)行信息提取。11.2.3自然語(yǔ)言處理的任務(wù)如果我們?cè)噲D提取所有事實(shí),而不僅是特定類型(如天氣預(yù)報(bào)),那么提取會(huì)變得更加困難;TextRunner(文本運(yùn)行程序)系統(tǒng)在一個(gè)開(kāi)放的不斷擴(kuò)展的關(guān)系集上進(jìn)行信息提取。對(duì)于自由格式的文本,可以使用隱馬爾可夫模型和基于規(guī)則的學(xué)習(xí)系統(tǒng)。如今的系統(tǒng)使用循環(huán)神經(jīng)網(wǎng)絡(luò),以利用詞嵌入的靈活性。11.2.3自然語(yǔ)言處理的任務(wù)(5)信息檢索。其任務(wù)是查找與給定查詢相關(guān)且重要的文檔。百度和谷歌等互聯(lián)網(wǎng)搜索引擎每天都會(huì)執(zhí)行數(shù)十億次這樣的任務(wù)。(6)問(wèn)答。與信息檢索不同,它的查詢其實(shí)是一個(gè)問(wèn)題,如“誰(shuí)創(chuàng)立了美國(guó)海岸警衛(wèi)隊(duì)”,查詢結(jié)果也不是一個(gè)排好序的文檔列表,而是一個(gè)實(shí)際答案:“AlexanderHamilton.(亞歷山大·漢密爾頓)”。自20世紀(jì)60年代以來(lái),就已經(jīng)出現(xiàn)了依賴于句法分析的問(wèn)答系統(tǒng),但是直到2001年,這類系統(tǒng)才開(kāi)始使用網(wǎng)頁(yè)信息檢索,從根本上增加了系統(tǒng)的覆蓋范圍。11.2.3自然語(yǔ)言處理的任務(wù)在數(shù)學(xué)、邏輯和計(jì)算機(jī)科學(xué)中,所謂“形式語(yǔ)言”是用精確的數(shù)學(xué)或機(jī)器可處理的公式定義的語(yǔ)言。形式語(yǔ)言一般有兩個(gè)方面:語(yǔ)法和語(yǔ)義。專門(mén)研究語(yǔ)言語(yǔ)法的數(shù)學(xué)和計(jì)算機(jī)科學(xué)分支叫做形式語(yǔ)言理論,其中的形式語(yǔ)言就是一個(gè)字母表上的某些有限長(zhǎng)字符串的集合。一個(gè)形式語(yǔ)言可以包含無(wú)限多個(gè)字符串,然而自然語(yǔ)言(如英語(yǔ)或漢語(yǔ))就無(wú)法如此清晰地表示。11.2.4語(yǔ)言模型我們將語(yǔ)言模型定義為描述任意字符串可能性的概率分布。通過(guò)語(yǔ)言模型可以預(yù)測(cè)文本中接下來(lái)可能出現(xiàn)的單詞,從而為電子郵件或短信息提供補(bǔ)全建議。可以計(jì)算出對(duì)文本進(jìn)行哪些更改會(huì)使其具有更高的概率,從而提供拼寫(xiě)或文法更正建議。通過(guò)一對(duì)語(yǔ)言模型,可以計(jì)算出一個(gè)句子最可能的翻譯。用一些示例“問(wèn)題-答案”對(duì)作為訓(xùn)練數(shù)據(jù),可以計(jì)算出針對(duì)某一問(wèn)題的最可能的答案。因此,語(yǔ)言模型是各種自然語(yǔ)言任務(wù)的核心。語(yǔ)言建模任務(wù)本身也可以作為衡量語(yǔ)言理解進(jìn)度的通用基準(zhǔn)。11.2.4語(yǔ)言模型自然語(yǔ)言是復(fù)雜的,因此任何語(yǔ)言模型充其量只能是自然語(yǔ)言的一個(gè)近似。語(yǔ)言學(xué)家愛(ài)德華·薩丕爾曾說(shuō)“沒(méi)有一種語(yǔ)言是絕對(duì)一成不變的,任何文法都會(huì)有所遺漏”。哲學(xué)家唐納德·戴維森曾經(jīng)表達(dá)過(guò)這樣的意思:沒(méi)有一種像Python3.8那樣的確定性的自然語(yǔ)言模型,人們有不同的模型,但人類仍然設(shè)法應(yīng)對(duì)過(guò)去了,并進(jìn)行交流。11.2.4語(yǔ)言模型傳統(tǒng)情況下,CNN(卷積神經(jīng)網(wǎng)絡(luò))和RNN(遞歸神經(jīng)網(wǎng)絡(luò))幾乎占據(jù)著深度學(xué)習(xí)的半壁江山。而如今,人們正越來(lái)越關(guān)注Transformer模型結(jié)構(gòu)(圖11-6)。Transformer一開(kāi)始就是為語(yǔ)言任務(wù)而設(shè)計(jì)的,但它在模仿大腦方面也有著很大的潛力,它是一個(gè)利用注意力機(jī)制來(lái)提高模型訓(xùn)練速度的深度學(xué)習(xí)模型。它適用于并行計(jì)算,其本身模型的復(fù)雜程度使得它在精度和性能上都要高于傳統(tǒng)的CNN和RNN,它完全由Self-attention(自我關(guān)注)機(jī)制組成,它不僅賦予各種AI應(yīng)用模型寫(xiě)文作詩(shī)的功能,而且在多模態(tài)方面也大放異彩。11.2.4語(yǔ)言模型圖11-6Transformer模型結(jié)構(gòu)11.2.4語(yǔ)言模型PART03語(yǔ)法類型與語(yǔ)義分析自然語(yǔ)言理解的研究工作最早的是機(jī)器翻譯。1949年,美國(guó)人威弗首先提出了機(jī)器翻譯設(shè)計(jì)方案,此后,自然語(yǔ)言處理歷史大致分為6個(gè)時(shí)期(表11-1)。11.3語(yǔ)法類型與語(yǔ)義分析表11-1NLP的6個(gè)時(shí)期11.3語(yǔ)法類型與語(yǔ)義分析自然語(yǔ)言處理的歷史可追溯到以圖靈的計(jì)算算法模型為基礎(chǔ)的計(jì)算機(jī)科學(xué)發(fā)展之初。在奠定了初步基礎(chǔ)后,該領(lǐng)域出現(xiàn)了許多子領(lǐng)域,每個(gè)子領(lǐng)域都為計(jì)算機(jī)進(jìn)一步的研究提供了沃土。隨著計(jì)算機(jī)的速度和內(nèi)存的不斷增加,可用的高性能計(jì)算系統(tǒng)加速了發(fā)展。隨著大量用戶可用更多的計(jì)算能力,語(yǔ)音和語(yǔ)言處理技術(shù)可以應(yīng)用于商業(yè)領(lǐng)域。特別是在各種環(huán)境中,具有拼寫(xiě)/語(yǔ)法校正工具的語(yǔ)音識(shí)別變得更加常用。由于信息檢索和信息提取成了Web應(yīng)用的關(guān)鍵部分,因此Web是這些應(yīng)用的另一個(gè)主要推動(dòng)力。11.3語(yǔ)法類型與語(yǔ)義分析近年來(lái),無(wú)監(jiān)督的統(tǒng)計(jì)方法重新得到關(guān)注。這些方法有效地應(yīng)用到了對(duì)單獨(dú)、未加注釋的數(shù)據(jù)進(jìn)行機(jī)器翻譯方面。可靠、已注釋的語(yǔ)料庫(kù)的開(kāi)發(fā)成本成了監(jiān)督學(xué)習(xí)方法使用的限制因素。11.3語(yǔ)法類型與語(yǔ)義分析在自然語(yǔ)言處理中,我們可以在一些不同結(jié)構(gòu)層次上對(duì)語(yǔ)言進(jìn)行分析,如句法、詞法和語(yǔ)義等,所涉及到的一些關(guān)鍵術(shù)語(yǔ)簡(jiǎn)單介紹如下:詞法——對(duì)單詞的形式和結(jié)構(gòu)的研究,還研究詞與詞根以及詞的衍生形式之間的關(guān)系。句法——將單詞放在一起形成短語(yǔ)和句子的方式,通常關(guān)注句子結(jié)構(gòu)的形成。語(yǔ)義學(xué)——語(yǔ)言中對(duì)意義進(jìn)行研究的科學(xué)。11.3.1語(yǔ)法類型解析——將句子分解成語(yǔ)言組成部分,并對(duì)每個(gè)部分的形式、功能和語(yǔ)法關(guān)系進(jìn)行解釋。語(yǔ)法規(guī)則決定了解析方式。詞匯——與語(yǔ)言的詞匯、單詞或語(yǔ)素(原子)有關(guān)。詞匯源自詞典。語(yǔ)用學(xué)——在語(yǔ)境中運(yùn)用語(yǔ)言的研究。省略——省略了在句法上所需的句子部分,但是,從上下文而言,句子在語(yǔ)義上是清晰的。11.3.1語(yǔ)法類型學(xué)習(xí)語(yǔ)法是學(xué)習(xí)語(yǔ)言和教授計(jì)算機(jī)語(yǔ)言的一種好方法。費(fèi)根鮑姆等人將語(yǔ)言的語(yǔ)法定義為“指定在語(yǔ)言中所允許語(yǔ)句的格式,指出將單詞組合成形式完整的短語(yǔ)和子句的句法規(guī)則?!甭槭±砉W(xué)院的語(yǔ)言學(xué)家諾姆·喬姆斯基在對(duì)語(yǔ)言語(yǔ)法進(jìn)行數(shù)學(xué)式的系統(tǒng)研究中做出了開(kāi)創(chuàng)性的工作,為計(jì)算語(yǔ)言學(xué)領(lǐng)域的誕生奠定了基礎(chǔ)。他將形式語(yǔ)言定義為一組由符號(hào)詞匯組成的字符串,這些字符串符合語(yǔ)法規(guī)則。字符串集對(duì)應(yīng)于所有可能句子的集合,其數(shù)量可能無(wú)限大。符號(hào)的詞匯表對(duì)應(yīng)于有限的字母或單詞詞典。11.3.1語(yǔ)法類型喬姆斯基非常了解形式語(yǔ)法的局限性,提出語(yǔ)言必須在兩個(gè)層面上進(jìn)行分析:表面結(jié)構(gòu),進(jìn)行語(yǔ)法上的分析和解析;基礎(chǔ)結(jié)構(gòu)(深層結(jié)構(gòu)),保留句子的語(yǔ)義信息。關(guān)于復(fù)雜的計(jì)算機(jī)系統(tǒng),通過(guò)與醫(yī)學(xué)示例的類比,道江教授總結(jié)了表面理解和深層理解之間的區(qū)別:“一位患者的臀部有一個(gè)膿腫,通過(guò)穿刺可以除去這個(gè)膿腫。但是,如果他患的是會(huì)迅速擴(kuò)散的癌癥(一個(gè)深層次的問(wèn)題),那么任何次數(shù)的穿刺都不能解決這個(gè)問(wèn)題。”11.3.2語(yǔ)義分析研究人員解決這個(gè)問(wèn)題的方法是增加更多的知識(shí),如關(guān)于句子的更深層結(jié)構(gòu)的知識(shí)、關(guān)于句子目的的知識(shí)、關(guān)于詞語(yǔ)的知識(shí),甚至詳盡地列舉句子或短語(yǔ)的所有可能含義的知識(shí)。在過(guò)去幾十年中,隨著計(jì)算機(jī)速度和內(nèi)存的成倍增長(zhǎng),這種完全枚舉的可能性變得更如現(xiàn)實(shí)。11.3.2語(yǔ)義分析在早些時(shí)候,機(jī)器翻譯主要是通過(guò)非統(tǒng)計(jì)學(xué)方法進(jìn)行的。翻譯的3種主要方法是:①直接翻譯,即對(duì)源文本的逐字翻譯。②使用結(jié)構(gòu)知識(shí)和句法解析的轉(zhuǎn)換法。③中間語(yǔ)言方法,即將源語(yǔ)句翻譯成一般的意義表示,然后將這種表示翻譯成目標(biāo)語(yǔ)言。這些方法都不是非常成功。圖11-7機(jī)器翻譯11.3.3IBM機(jī)器翻譯系統(tǒng)隨著IBMCandide系統(tǒng)的發(fā)展,20世紀(jì)90年代初,機(jī)器翻譯開(kāi)始向統(tǒng)計(jì)方法過(guò)渡。這個(gè)項(xiàng)目對(duì)隨后的機(jī)器翻譯研究形成了巨大的影響,統(tǒng)計(jì)方法在接下來(lái)的幾年中開(kāi)始占據(jù)主導(dǎo)地位。在語(yǔ)音識(shí)別的上下文中己經(jīng)開(kāi)發(fā)了概率算法,IBM將此概率算法應(yīng)用于機(jī)器翻譯研究。概率統(tǒng)計(jì)方法是過(guò)去幾十年中自然語(yǔ)言處理的準(zhǔn)則,NLP研究以統(tǒng)計(jì)作為主要方法,解決在這個(gè)領(lǐng)域中長(zhǎng)期存在的問(wèn)題,被稱之為“統(tǒng)計(jì)革命”。11.3.3IBM機(jī)器翻譯系統(tǒng)PART04處理數(shù)據(jù)與處理工具現(xiàn)代NLP算法是基于機(jī)器學(xué)習(xí),特別是統(tǒng)計(jì)機(jī)器學(xué)習(xí)的,它不同于早期的嘗試語(yǔ)言處理,通常涉及大量的規(guī)則編碼。11.4處理數(shù)據(jù)與處理工具統(tǒng)計(jì)方法需要大量數(shù)據(jù)才能訓(xùn)練概率模型。出于這個(gè)目的,在語(yǔ)言處理應(yīng)用中,使用了大量的文本和口語(yǔ)集。這些集由大量句子組成,人類注釋者對(duì)這些句子進(jìn)行了語(yǔ)法和語(yǔ)義信息的標(biāo)記。自然語(yǔ)言處理中的一些典型的自然語(yǔ)言處理數(shù)據(jù)集包括:tc-corpus-train(語(yǔ)料庫(kù)訓(xùn)練集)、面向文本分類研究的中英文新聞分類語(yǔ)料、以IG卡方等特征詞選擇方法生成的多維度ARFF格式中文VSM模型、萬(wàn)篇隨機(jī)抽取論文中文DBLP資源、用于非監(jiān)督中文分詞算法的中文分詞詞庫(kù)、UCI評(píng)價(jià)排序數(shù)據(jù)、帶有初始化說(shuō)明的情感分析數(shù)據(jù)集等。11.4.1統(tǒng)計(jì)自然語(yǔ)言處理數(shù)據(jù)集許多不同類型的機(jī)器學(xué)習(xí)算法已應(yīng)用于自然語(yǔ)言處理任務(wù),這些算法的輸入是一大組從輸入數(shù)據(jù)生成的“特征”。一些最早使用的算法,如決策樹(shù),產(chǎn)生類似于手寫(xiě)的if-then規(guī)則。隨著越來(lái)越多的研究集中于統(tǒng)計(jì)模型,人們愈加重視基于附加實(shí)數(shù)值的權(quán)重,每個(gè)輸入要素的可適應(yīng)性,概率的決策性等。此類模型能夠表達(dá)許多不同的可能答案,而不是只有一個(gè)相對(duì)的確定性,這種模型被包括作為較大系統(tǒng)的一個(gè)組成部分。11.4.2自然語(yǔ)言處理工具(1)OpenNLP:是一個(gè)基于Java機(jī)器學(xué)習(xí)工具包,用于處理自然語(yǔ)言文本。支持大多數(shù)常用的NLP任務(wù),例如:標(biāo)識(shí)化、句子切分、部分詞性標(biāo)注、名稱抽取、組塊、解析等。11.4.2自然語(yǔ)言處理工具(2)FudanNLP:主要是為中文自然語(yǔ)言處理而開(kāi)發(fā)的工具包,也包含為實(shí)現(xiàn)這些任務(wù)的機(jī)器學(xué)習(xí)算法和數(shù)據(jù)集。本工具包及其包含數(shù)據(jù)集使用LGPL3.0許可證,其開(kāi)發(fā)語(yǔ)言為Java,主要功能是:·文本分類:新聞聚類;·中文分詞:詞性標(biāo)注、實(shí)體名識(shí)別、關(guān)鍵詞抽取、依存句法分析、時(shí)間短語(yǔ)識(shí)別;·結(jié)構(gòu)化學(xué)習(xí):在線學(xué)習(xí)、層次分類、聚類、精確推理。11.4.2自然語(yǔ)言處理工具(3)語(yǔ)言技術(shù)平臺(tái):是哈工大社會(huì)計(jì)算與信息檢索研究中心歷時(shí)十年開(kāi)發(fā)的一整套中文語(yǔ)言處理系統(tǒng),系統(tǒng)制定了基于XML的語(yǔ)言處理結(jié)果表示,并在此基礎(chǔ)上提供了一整套自底向上的豐富而且高效的中文語(yǔ)言處理模塊(包括詞法、句法、語(yǔ)義等6項(xiàng)中文處理核心技術(shù)),以及基于動(dòng)態(tài)鏈接庫(kù)的應(yīng)用程序接口,可視化工具,并且能夠以網(wǎng)絡(luò)服務(wù)的形式進(jìn)行使用。11.4.2自然語(yǔ)言處理工具自然語(yǔ)言處理的技術(shù)難點(diǎn)一般有:(1)單詞的邊界界定。在口語(yǔ)中,詞與詞之間通常是連貫的,而界定字詞邊界通常使用的辦法是取用能讓給定的上下文最為通順且在文法上無(wú)誤的一種最佳組合。在書(shū)寫(xiě)上,漢語(yǔ)也沒(méi)有詞與詞之間的邊界。(2)詞義的消歧。許多字詞不單只有一個(gè)意思,因而我們必須選出使句意最為通順的解釋。11.4.3自然語(yǔ)言處理技術(shù)難點(diǎn)(3)句法的模糊性。自然語(yǔ)言的文法通常是模棱兩可的,針對(duì)一個(gè)句子通??赡軙?huì)剖析出多棵剖析樹(shù),而我們必須要仰賴語(yǔ)意及前后文的信息才能在其中選擇一棵最為適合的剖析樹(shù)。(4)有瑕疵的或不規(guī)范的輸入。例如語(yǔ)音處理時(shí)遇到外國(guó)口音或地方口音,或者在文本的處理中處理拼寫(xiě),語(yǔ)法或者光學(xué)字符識(shí)別(OCR)的錯(cuò)誤。11.4.3自然語(yǔ)言處理技術(shù)難點(diǎn)(5)語(yǔ)言行為與計(jì)劃。句子常常并不只是字面上的意思;例如,“你能把鹽遞過(guò)來(lái)嗎”,一個(gè)好的回答應(yīng)當(dāng)是把鹽遞過(guò)去;在大多數(shù)上下文環(huán)境中,“能”將是糟糕的回答,雖說(shuō)回答“不”或者“太遠(yuǎn)了我拿不到”也是可以接受的。再者,如果一門(mén)課程上一年沒(méi)開(kāi)設(shè),對(duì)于提問(wèn)“這門(mén)課程去年有多少學(xué)生沒(méi)通過(guò)?”回答“去年沒(méi)開(kāi)這門(mén)課”要比回答“沒(méi)人沒(méi)通過(guò)”好。11.4.3自然語(yǔ)言處理技術(shù)難點(diǎn)PART05語(yǔ)音處理語(yǔ)音處理是研究語(yǔ)音發(fā)聲過(guò)程、語(yǔ)音信號(hào)的統(tǒng)計(jì)特性、語(yǔ)音的自動(dòng)識(shí)別、機(jī)器合成以及語(yǔ)音感知等各種處理技術(shù)的總稱。由于現(xiàn)代的語(yǔ)音處理技術(shù)都以數(shù)字計(jì)算為基礎(chǔ),并借助微處理器、信號(hào)處理器或通用計(jì)算機(jī)加以實(shí)現(xiàn),因此也稱數(shù)字語(yǔ)音信號(hào)處理。語(yǔ)音信號(hào)處理是一門(mén)多學(xué)科的綜合技術(shù)。它以生理、心理、語(yǔ)言以及聲學(xué)等基本實(shí)驗(yàn)為基礎(chǔ),以信息論、控制論、系統(tǒng)論的理論作指導(dǎo),通過(guò)應(yīng)用信號(hào)處理、統(tǒng)計(jì)分析、模式識(shí)別等現(xiàn)代技術(shù)手段,發(fā)展成為新的學(xué)科。11.5語(yǔ)音處理語(yǔ)音信號(hào)處理的研究起源于對(duì)發(fā)音器官的模擬。1939年美國(guó)H.杜德萊展示了一個(gè)簡(jiǎn)單的發(fā)音過(guò)程模擬系統(tǒng),以后發(fā)展為聲道的數(shù)字模型。利用該模型可以對(duì)語(yǔ)音信號(hào)進(jìn)行各種頻譜及參數(shù)的分析,進(jìn)行通信編碼或數(shù)據(jù)壓縮的研究,同時(shí)也可根據(jù)分析獲得的頻譜特征或參數(shù)變化規(guī)律,合成語(yǔ)音信號(hào),實(shí)現(xiàn)機(jī)器的語(yǔ)音合成。利用語(yǔ)音分析技術(shù),還可以實(shí)現(xiàn)對(duì)語(yǔ)音的自動(dòng)識(shí)別,發(fā)音人的自動(dòng)辨識(shí),如果與人工智能技術(shù)結(jié)合,還可以實(shí)現(xiàn)各種語(yǔ)句的自動(dòng)識(shí)別以至語(yǔ)言的自動(dòng)理解,從而實(shí)現(xiàn)人機(jī)語(yǔ)音交互應(yīng)答系統(tǒng),真正賦予計(jì)算機(jī)以聽(tīng)覺(jué)的功能。11.5.1語(yǔ)音處理的發(fā)展語(yǔ)言信息主要包含在語(yǔ)音信號(hào)的參數(shù)之中,因此準(zhǔn)確而迅速地提取語(yǔ)言信號(hào)的參數(shù)是進(jìn)行語(yǔ)音信號(hào)處理的關(guān)鍵。常用的語(yǔ)音信號(hào)參數(shù)有:共振峰幅度、頻率與帶寬、音調(diào)和噪音、噪音的判別等。后來(lái)又提出了線性預(yù)測(cè)系數(shù)、聲道反射系數(shù)和倒譜參數(shù)等參數(shù)。這些參數(shù)僅僅反映了發(fā)音過(guò)程中的一些平均特性,而實(shí)際語(yǔ)言的發(fā)音變化相當(dāng)迅速,需要用非平穩(wěn)隨機(jī)過(guò)程來(lái)描述,因此,20世紀(jì)80年代之后,研究語(yǔ)音信號(hào)非平穩(wěn)參數(shù)分析方法迅速發(fā)展,人們提出了一整套快速的算法,還有利用優(yōu)化規(guī)律實(shí)現(xiàn)以合成信號(hào)統(tǒng)計(jì)分析參數(shù)的新算法,取得了很好的效果。11.5.1語(yǔ)音處理的發(fā)展當(dāng)語(yǔ)音處理向?qū)嵱没l(fā)展時(shí),人們發(fā)現(xiàn)許多算法的抗環(huán)境干擾能力較差。因此,在噪聲環(huán)境下保持語(yǔ)音信號(hào)處理能力成為了一個(gè)重要課題。這促進(jìn)了語(yǔ)音增強(qiáng)的研究。一些具有抗干擾性的算法相繼出現(xiàn)。當(dāng)前,語(yǔ)音信號(hào)處理日益同智能計(jì)算技術(shù)和智能機(jī)器人的研究緊密結(jié)合,成為智能信息技術(shù)中的一個(gè)重要分支。11.5.1語(yǔ)音處理的發(fā)展語(yǔ)音信號(hào)處理在通信、國(guó)防等部門(mén)中有著廣闊的應(yīng)用領(lǐng)域。為了改善通信中語(yǔ)言信號(hào)的質(zhì)量而研究的各種頻響修正和補(bǔ)償技術(shù),為了提髙效率而研究的數(shù)據(jù)編碼壓縮技術(shù),以及為了改善通信條件而研究的噪聲抵消及干擾抑制技術(shù),都與語(yǔ)音處理密切相關(guān)。在金融部門(mén)應(yīng)用語(yǔ)音處理,開(kāi)始利用說(shuō)話人識(shí)別和語(yǔ)音識(shí)別實(shí)現(xiàn)根據(jù)用戶語(yǔ)音自動(dòng)存款、取款的業(yè)務(wù)。在儀器儀表和控制自動(dòng)化生產(chǎn)中,利用語(yǔ)音合成讀出測(cè)量數(shù)據(jù)和故障警告。隨著語(yǔ)音處理技術(shù)的發(fā)展,可以預(yù)期它將在更多部門(mén)得到應(yīng)用。11.5.1語(yǔ)音處理的發(fā)展人們通常更方便說(shuō)話而不是打字,因此語(yǔ)音識(shí)別軟件非常受歡迎??谑雒畋扔檬髽?biāo)或觸摸板點(diǎn)擊按鈕更快。要在Windows中打開(kāi)如“記事本”這樣的程序,需要單擊開(kāi)始、程序、附件,最后點(diǎn)擊記事本,最輕松也需要點(diǎn)擊四到五次。語(yǔ)音識(shí)別軟件允許用戶簡(jiǎn)單地說(shuō)“打開(kāi)記事本”,就可以打開(kāi)程序,節(jié)省了時(shí)間,有時(shí)也改善了心情。11.5.2語(yǔ)音理解語(yǔ)音理解是指利用知識(shí)表達(dá)和組織等人工智能技術(shù)進(jìn)行語(yǔ)句自動(dòng)識(shí)別和語(yǔ)意理解。同語(yǔ)音識(shí)別的主要不同點(diǎn)是對(duì)語(yǔ)法和語(yǔ)義知識(shí)的充分利用程度。語(yǔ)音理解起源于1971年美國(guó)遠(yuǎn)景研究計(jì)劃局(ARPA)資助的一個(gè)龐大研究項(xiàng)目,該項(xiàng)目要達(dá)到的目標(biāo)叫做語(yǔ)音理解系統(tǒng)。由于人對(duì)語(yǔ)音有廣泛的知識(shí),可以對(duì)要說(shuō)的話有一定的預(yù)見(jiàn)性,所以人對(duì)語(yǔ)音具有感知和分析能力。依靠人對(duì)語(yǔ)言和談?wù)摰膬?nèi)容所具有的廣泛知識(shí),利用知識(shí)提高計(jì)算機(jī)理解語(yǔ)言的能力,就是語(yǔ)音理解研究的核心。11.5.2語(yǔ)音理解利用理解能力,可以使系統(tǒng)提高性能:①能排除噪聲和嘈雜聲;②能理解上下文的意思并能用它來(lái)糾正錯(cuò)誤,澄清不確定的語(yǔ)義;③能夠處理不合語(yǔ)法或不完整的語(yǔ)句。因此,研究語(yǔ)音理解的目的,可以說(shuō)是與其研究系統(tǒng)仔細(xì)地去識(shí)別每一個(gè)單詞,倒不如去研究系統(tǒng)能抓住說(shuō)話的要旨更為有效。11.5.2語(yǔ)音理解一個(gè)語(yǔ)音理解系統(tǒng)除了包括原語(yǔ)音識(shí)別所要求的部分之外,還須添入知識(shí)處理部分。知識(shí)處理包括知識(shí)的自動(dòng)收集、知識(shí)庫(kù)的形成,知識(shí)的推理與檢驗(yàn)等。當(dāng)然還希望能有自動(dòng)地作知識(shí)修正的能力。因此語(yǔ)音理解可以認(rèn)為是信號(hào)處理與知識(shí)處理結(jié)合的產(chǎn)物。語(yǔ)音知識(shí)包括音位知識(shí)、音變知識(shí)、韻律知識(shí)、詞法知識(shí)、句法知識(shí),語(yǔ)義知識(shí)以及語(yǔ)用知識(shí)。這些知識(shí)涉及實(shí)驗(yàn)語(yǔ)音學(xué)、漢語(yǔ)語(yǔ)法、自然語(yǔ)言理解、以及知識(shí)搜索等許多交叉學(xué)科。11.5.2語(yǔ)音理解語(yǔ)音識(shí)別是指利用計(jì)算機(jī)自動(dòng)對(duì)語(yǔ)音信號(hào)的音素、音節(jié)或詞進(jìn)行識(shí)別的技術(shù)總稱。語(yǔ)音識(shí)別是實(shí)現(xiàn)語(yǔ)音自動(dòng)控制的基礎(chǔ)。語(yǔ)音識(shí)別起源于20世紀(jì)50年代的“口授打字機(jī)”夢(mèng)想,科學(xué)家在掌握了元音的共振峰變遷問(wèn)題和輔音的聲學(xué)特性之后,相信從語(yǔ)音到文字的過(guò)程是可以用機(jī)器實(shí)現(xiàn)的,即可以把普通的讀音轉(zhuǎn)換成書(shū)寫(xiě)的文字。語(yǔ)音識(shí)別的理論研究已經(jīng)有40多年,但是轉(zhuǎn)入實(shí)際應(yīng)用卻是在數(shù)字技術(shù)、集成電路技術(shù)發(fā)展之后,現(xiàn)在已經(jīng)取得了許多實(shí)用的成果。11.5.3語(yǔ)音識(shí)別語(yǔ)音識(shí)別一般要經(jīng)過(guò)以下幾個(gè)步驟:
圖11-8語(yǔ)音識(shí)別系統(tǒng)框架11.5.3語(yǔ)音識(shí)別(1)語(yǔ)音預(yù)處理,包括對(duì)語(yǔ)音幅度標(biāo)稱化、頻響校正、分幀、加窗和始末端點(diǎn)檢測(cè)等內(nèi)容。(2)語(yǔ)音聲學(xué)參數(shù)分析,包括對(duì)語(yǔ)音共振峰頻率、幅度等參數(shù),以及對(duì)語(yǔ)音的線性預(yù)測(cè)參數(shù)、倒譜參數(shù)等的分析。(3)參數(shù)標(biāo)稱化,主要是時(shí)間軸上的標(biāo)稱化,常用的方法有動(dòng)態(tài)時(shí)間規(guī)整(DTW),或動(dòng)態(tài)規(guī)劃方法(DP)。(4)模式匹配,可以采用距離準(zhǔn)則或概率規(guī)則,也可以采用句法分類等。(5)識(shí)別判決,通過(guò)最后的判別函數(shù)給出識(shí)別的結(jié)果。11.5.3語(yǔ)音識(shí)別語(yǔ)音識(shí)別可按不同的識(shí)別內(nèi)容進(jìn)行分類:有音素識(shí)別、音節(jié)識(shí)別、詞或詞組識(shí)別;也可以按詞匯量分類:有小詞匯量(50個(gè)詞以下)、中詞量(50~500個(gè)詞)、大詞量(500個(gè)詞以上)及超大詞量(幾十至幾萬(wàn)個(gè)詞)。按照發(fā)音特點(diǎn)分類:可以分為孤立音、連接音及連續(xù)音的識(shí)別。按照對(duì)發(fā)音人的要求分類:有認(rèn)人識(shí)別,即只對(duì)特定的發(fā)話人識(shí)別,和不認(rèn)人識(shí)別,即不分發(fā)話人是誰(shuí)都能識(shí)別。顯然,最困難的語(yǔ)音識(shí)別是大詞量、連續(xù)音和不識(shí)人同時(shí)滿足的語(yǔ)音識(shí)別。11.5.3語(yǔ)音識(shí)別如今,幾乎每個(gè)人都擁有一臺(tái)帶有蘋(píng)果或安卓操作系統(tǒng)的智能手機(jī)。這些設(shè)備具有語(yǔ)音識(shí)別功能,使用戶能夠說(shuō)出自己的短信而無(wú)須輸入字母。導(dǎo)航設(shè)備也增加了語(yǔ)音識(shí)別功能,用戶無(wú)須打字,只需說(shuō)出目的地址或“家”,就可以導(dǎo)航回家。如果有人由于拼寫(xiě)困難或存在視力問(wèn)題,無(wú)法在小窗口中使用小鍵盤(pán),那么語(yǔ)音識(shí)別功能是非常有幫助的。11.5.3語(yǔ)音識(shí)別第2版人工智能通識(shí)教程第12章周蘇教授QQ:81505050GPT——大語(yǔ)言模型崛起導(dǎo)讀案例:2023國(guó)內(nèi)大模型匯總大模型領(lǐng)域在國(guó)內(nèi)外都取得了顯著的成就,各個(gè)國(guó)家和地區(qū)的企業(yè)、機(jī)構(gòu)以及學(xué)術(shù)界都在積極投入資源和努力,推動(dòng)大模型技術(shù)的發(fā)展。01自然語(yǔ)言處理的進(jìn)步02科普AI大語(yǔ)言模型03ChatGPT的模仿秀04傳統(tǒng)行業(yè)的下崗目錄/CONTENTS自然語(yǔ)言處理主要應(yīng)用于機(jī)器翻譯、輿情監(jiān)測(cè)、自動(dòng)摘要、觀點(diǎn)提取、文本分類、問(wèn)題回答、文本語(yǔ)義對(duì)比、語(yǔ)音識(shí)別、中文OCR等方面?;诰浞ǚ治龊驼Z(yǔ)義分析的自然語(yǔ)言處理系統(tǒng)已經(jīng)在許多任務(wù)上獲得了成功,但是它們的性能受到實(shí)際文本中極度復(fù)雜的語(yǔ)言現(xiàn)象的限制。由于存在大量機(jī)器可讀形式的可用文本,因此,可以考慮基于數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)方法應(yīng)用于自然語(yǔ)言處理。第12章GPT——大語(yǔ)言模型崛起PART01自然語(yǔ)言處理的進(jìn)步在2012年的ImageNet(圖12-2)比賽中,深度學(xué)習(xí)系統(tǒng)取得的令人驚嘆的優(yōu)秀表現(xiàn)帶動(dòng)計(jì)算機(jī)視覺(jué)出現(xiàn)了一個(gè)發(fā)展的轉(zhuǎn)折點(diǎn)。而到2018年,自然語(yǔ)言處理也出現(xiàn)了一個(gè)轉(zhuǎn)折點(diǎn),它的主要推動(dòng)力是,深度學(xué)習(xí)和遷移學(xué)習(xí)顯著提高了自然語(yǔ)言處理的技術(shù)水平:可以下載通用語(yǔ)言模型,并針對(duì)特定任務(wù)進(jìn)行微調(diào),以至于研究者為此斷言“自然語(yǔ)言處理的ImageNet時(shí)刻已經(jīng)到來(lái)”。12.1自然語(yǔ)言處理的進(jìn)步
圖12-2ImageNet是一種數(shù)據(jù)集12.1自然語(yǔ)言處理的進(jìn)步ImageNet是斯坦福大學(xué)教授李飛飛為了解決機(jī)器學(xué)習(xí)中過(guò)擬合和泛化的問(wèn)題而牽頭構(gòu)建的一種數(shù)據(jù)集。該數(shù)據(jù)集從2007年開(kāi)始建立,2009年作為論文的形式在CVPR2009上發(fā)布。直到目前,該數(shù)據(jù)集仍然是深度學(xué)習(xí)領(lǐng)域中圖像分類、檢測(cè)、定位的最常用數(shù)據(jù)集之一。基于ImageNet有一個(gè)比賽,稱為ILSVRC(ImageNet大規(guī)模視覺(jué)識(shí)別挑戰(zhàn)賽),從2010年開(kāi)始舉行,到2017年最后一屆結(jié)束,每年舉辦一次,每次從ImageNet數(shù)據(jù)集中抽取部分樣本作為比賽的數(shù)據(jù)集。12.1.1關(guān)于ImageNetILSVRC比賽包括:圖像分類、目標(biāo)定位、目標(biāo)檢測(cè)、視頻目標(biāo)檢測(cè)、場(chǎng)景分類。在該比賽的歷年優(yōu)勝者中,誕生了AlexNet(2012)、VGG(2014)、GoogLeNet(2014)、ResNet(2015)等著名的深度學(xué)習(xí)網(wǎng)絡(luò)模型。“ILSVRC”一詞有時(shí)也被用來(lái)特指該比賽使用的數(shù)據(jù)集,即ImageNet的一個(gè)子集,其中最常用的是2012年的數(shù)據(jù)集,記為ILSVRC2012。因此,有時(shí)候提到ImageNet,很可能是指ImageNet中的ILSVRC2012子集。ILSVRC2012數(shù)據(jù)集擁有1000個(gè)分類(這意味著面向ImageNet圖片識(shí)別的神經(jīng)網(wǎng)絡(luò)的輸出是1000個(gè)),每個(gè)分類約有1000張圖片。12.1.1關(guān)于ImageNet這些用于訓(xùn)練的圖片總數(shù)約為120萬(wàn)張,此外還有一些圖片作為驗(yàn)證集和測(cè)試集。ILSVRC2012含有5萬(wàn)張圖片作為驗(yàn)證集,10萬(wàn)張圖片作為測(cè)試集。測(cè)試集沒(méi)有標(biāo)簽,驗(yàn)證集的標(biāo)簽在另外的文檔給出。ImageNet本身有1400多萬(wàn)張圖片,2萬(wàn)多的分類。其中有超過(guò)100萬(wàn)張圖片有明確類別標(biāo)注和物體位置標(biāo)注。對(duì)于基于ImageNet的圖像識(shí)別的結(jié)果評(píng)估,往往用到兩個(gè)準(zhǔn)確率的指標(biāo),一個(gè)是top-1準(zhǔn)確率,一個(gè)是top-5準(zhǔn)確率。top-1準(zhǔn)確率指的是輸出概率中最大的那一個(gè)對(duì)應(yīng)正確類別的概率;top-5準(zhǔn)確率指的是輸出概率中最大的5個(gè)對(duì)應(yīng)類別中包含正確類別的概率。12.1.1關(guān)于ImageNet自然語(yǔ)言處理的ImageNet轉(zhuǎn)折點(diǎn)始于2013年word2vec和2014年GloVe等系統(tǒng)生成的簡(jiǎn)單詞嵌入。研究人員可以下載這樣的模型,或者在不使用超級(jí)計(jì)算機(jī)的情況下,相對(duì)快速地訓(xùn)練他們自己的模型。另外,預(yù)訓(xùn)練上下文表示的開(kāi)銷要高出幾個(gè)量級(jí)。12.1.2自然語(yǔ)言處理的ImageNet時(shí)刻只有在硬件(GPU圖形處理器和TPU谷歌張量處理單元)進(jìn)步普及之后,這些模型才是可行的,在這種情況下,研究人員能夠直接下載模型,而不需要花費(fèi)資源訓(xùn)練自己的模型。Transformer模型(谷歌云TPU推薦的參考模型)允許使用者高效地訓(xùn)練比之前更大更深的神經(jīng)網(wǎng)絡(luò)(這一次是因?yàn)檐浖倪M(jìn)步,而不是硬件的進(jìn)步)。自2018年以來(lái),新的自然語(yǔ)言處理項(xiàng)目通常從一個(gè)預(yù)先訓(xùn)練好的Transformer模型開(kāi)始。12.1.2自然語(yǔ)言處理的ImageNet時(shí)刻雖然這些Transformer模型被訓(xùn)練用來(lái)預(yù)測(cè)文本中的下一個(gè)單詞,但它們?cè)谄渌Z(yǔ)言任務(wù)中的表現(xiàn)也出奇地好。經(jīng)過(guò)一些微調(diào)后,RoBERTa模型在問(wèn)答和閱讀理解測(cè)試中取得了最高水平的成績(jī)。GPT-2是一種類似于Transformer的語(yǔ)言模型,它有15億個(gè)參數(shù),在40GB的因特網(wǎng)文本上訓(xùn)練。它在法英翻譯、查找遠(yuǎn)距離依賴的指代對(duì)象以及一般知識(shí)問(wèn)答等任務(wù)中都取得了良好的成績(jī),并且所有這些成績(jī)都沒(méi)有針對(duì)特定任務(wù)進(jìn)行微調(diào)。例如在僅給定幾個(gè)單詞作為提示時(shí),GPT-2依然可以生成相當(dāng)令人信服的文本。12.1.2自然語(yǔ)言處理的ImageNet時(shí)刻作為一個(gè)高水平的自然語(yǔ)言處理系統(tǒng)示例,Aristo在八年級(jí)科學(xué)選擇題考試中獲得了91.6%的分?jǐn)?shù)。Aristo由一系列求解器組成:一些使用信息檢索(類似于一個(gè)網(wǎng)絡(luò)搜索引擎),一些使用文本蘊(yùn)涵和定性推理,還有一些使用大規(guī)模Transformer語(yǔ)言模型。結(jié)果表明,RoBERTa的測(cè)試成績(jī)是88.2%。Aristo在12年級(jí)考試中也取得了83%的成績(jī)(65%表示“達(dá)到標(biāo)準(zhǔn)”,85%表示“出色地達(dá)到標(biāo)準(zhǔn)”)。Aristo也有其局限性。它只能處理選擇題,不能處理論述題,而且它既不能閱讀也不能生成圖表。12.1.2自然語(yǔ)言處理的ImageNet時(shí)刻使用更多的訓(xùn)練數(shù)據(jù)可以得到更好的模型,例如,RoBERTa在訓(xùn)練了2.2萬(wàn)億個(gè)單詞后獲得了最高水平的成績(jī),如果使用更多的文本數(shù)據(jù)會(huì)更好。那么,如果進(jìn)一步使用其他類型的數(shù)據(jù)——結(jié)構(gòu)化數(shù)據(jù)庫(kù)、數(shù)值數(shù)據(jù)、圖像和視頻會(huì)怎么樣呢?當(dāng)然,需要在硬件處理速度上取得突破,才能對(duì)大量視頻進(jìn)行訓(xùn)練,此外,可能還需要在人工智能方面取得一些突破。12.1.2自然語(yǔ)言處理的ImageNet時(shí)刻讀者可能會(huì)問(wèn):“為什么我們學(xué)習(xí)了文法、句法分析和語(yǔ)義解釋,現(xiàn)在卻舍棄了這些概念,轉(zhuǎn)而使用純粹的數(shù)據(jù)驅(qū)動(dòng)模型?”答案很簡(jiǎn)單,數(shù)據(jù)驅(qū)動(dòng)的模型更容易開(kāi)發(fā)和維護(hù),并且在標(biāo)準(zhǔn)的基準(zhǔn)測(cè)試中得分更高??赡苁荰ransformer及其相關(guān)模型學(xué)習(xí)到了潛在的表征,這些表征捕捉到與語(yǔ)法和語(yǔ)義信息相同的基本思想,也可能是在這些大模型中發(fā)生了完全不同的事情。但我們只知道,使用文本數(shù)據(jù)訓(xùn)練的系統(tǒng)比依賴手工創(chuàng)建特征的系統(tǒng)更容易維護(hù),更容易適應(yīng)新的領(lǐng)域和新的自然語(yǔ)言。12.1.2自然語(yǔ)言處理的ImageNet時(shí)刻未來(lái)在顯式語(yǔ)法語(yǔ)義建模方面的突破也有可能會(huì)導(dǎo)致研究的重點(diǎn)回?cái)[。更有可能出現(xiàn)的是混合方法。例如,基塔夫和克菜因使用注意力機(jī)制改進(jìn)了傳統(tǒng)的成分句法分析器,從而獲得了PennTreebank(賓夕法尼亞樹(shù)銀行)測(cè)試集記錄的最佳結(jié)果。類似地,林高等人演示了如何通過(guò)詞嵌入和循環(huán)神經(jīng)網(wǎng)絡(luò)改進(jìn)依存句法分析器。他們的系統(tǒng)SLING直接解析為一個(gè)語(yǔ)義框架表示,緩解了傳統(tǒng)管道系統(tǒng)中錯(cuò)誤累積的問(wèn)題。12.1.2自然語(yǔ)言處理的ImageNet時(shí)刻當(dāng)然還有改進(jìn)的空間。自然語(yǔ)言處理系統(tǒng)不僅在許多任務(wù)上仍然落后于人類,而且在處理了人類一輩子都無(wú)法閱讀的數(shù)千倍的文本之后,它們?nèi)匀宦浜笥谌祟?。這表明,語(yǔ)言學(xué)家、心理學(xué)家和自然語(yǔ)言處理研究人員要研究的東西還有很多。12.1.2自然語(yǔ)言處理的ImageNet時(shí)刻GPT(GenerativePre-trainedTransformer,衍生式預(yù)訓(xùn)練變壓器)是一種基于互聯(lián)網(wǎng)可用數(shù)據(jù)訓(xùn)練的文本生成深度學(xué)習(xí)模型,它主要用于問(wèn)答、文本摘要生成、機(jī)器翻譯、分類、代碼生成和對(duì)話AI。12.1.3從GPT-1到GPT-32018年GPT-1誕生,這一年也是NLP(自然語(yǔ)言處理)的預(yù)訓(xùn)練模型元年。在性能方面,GPT-1有一定的泛化能力,能夠用于和監(jiān)督任務(wù)無(wú)關(guān)的NLP任務(wù)中。其常用任務(wù)包括:·自然語(yǔ)言推理:判斷兩個(gè)句子的關(guān)系(包含、矛盾、中立)·問(wèn)答與常識(shí)推理:輸入文章及若干答案,輸出答案的準(zhǔn)確率·語(yǔ)義相似度識(shí)別:判斷兩個(gè)句子語(yǔ)義是否相關(guān)·分類:判斷輸入文本是指定的哪個(gè)類別12.1.3從GPT-1到GPT-3雖然GPT-1在未經(jīng)調(diào)試的任務(wù)上有一些效果,但其泛化能力遠(yuǎn)低于經(jīng)過(guò)微調(diào)的有監(jiān)督任務(wù),因此,它只能算得上是一個(gè)還不錯(cuò)的語(yǔ)言理解工具而非對(duì)話式AI。12.1.3從GPT-1到GPT-3GPT-2于2019年如期而至,不過(guò)它并沒(méi)有對(duì)原有的網(wǎng)絡(luò)進(jìn)行過(guò)多的結(jié)構(gòu)創(chuàng)新與設(shè)計(jì),只使用了更多的網(wǎng)絡(luò)參數(shù)與更大的數(shù)據(jù)集:最大模型共計(jì)48層,參數(shù)量達(dá)15億,學(xué)習(xí)目標(biāo)則使用無(wú)監(jiān)督預(yù)訓(xùn)練模型來(lái)完成有監(jiān)督任務(wù)。在性能方面,除了理解能力外,GPT-2在生成方面第一次表現(xiàn)出了強(qiáng)大的天賦:閱讀摘要、聊天、續(xù)寫(xiě)、編故事,甚至生成假新聞、釣魚(yú)郵件或在網(wǎng)上進(jìn)行角色扮演等,通通不在話下。在“變得更大”之后,GPT-2的確展現(xiàn)出了普適而強(qiáng)大的能力,并在多個(gè)特定的語(yǔ)言建模任務(wù)上實(shí)現(xiàn)了彼時(shí)的最佳性能。12.1.3從GPT-1到GPT-3之后,GPT-3出現(xiàn)了,作為一個(gè)無(wú)監(jiān)督模型(現(xiàn)在經(jīng)常被稱為自監(jiān)督模型),它幾乎可以完成自然語(yǔ)言處理的絕大部分任務(wù),例如面向問(wèn)題搜索、閱讀理解、語(yǔ)義推斷、機(jī)器翻譯、文章生成和自動(dòng)問(wèn)答等等。而且,該模型在諸多任務(wù)上表現(xiàn)卓越,例如在法語(yǔ)-英語(yǔ)和德語(yǔ)-英語(yǔ)機(jī)器翻譯任務(wù)上達(dá)到當(dāng)前最佳水平,自動(dòng)產(chǎn)生的文章幾乎讓人無(wú)法辨別是出自人還是機(jī)器(52%的正確率,與隨機(jī)猜測(cè)相當(dāng)),更令人驚訝的,是在兩位數(shù)的加減運(yùn)算任務(wù)上達(dá)到幾乎100%的正確率,甚至還可以依據(jù)任務(wù)描述自動(dòng)生成代碼。12.1.3從GPT-1到GPT-3一個(gè)無(wú)監(jiān)督模型功能多效果好,似乎讓人們看到了通用人工智能的希望,可能這就是GPT-3影響如此之大的主要原因。12.1.3從GPT-1到GPT-3ChatGPT是由人工智能研究實(shí)驗(yàn)室OpenAI在2022年11月30日發(fā)布的全新聊天機(jī)器人模型,一款人工智能技術(shù)驅(qū)動(dòng)的自然語(yǔ)言處理工具。ChatGPT使用了Transformer神經(jīng)網(wǎng)絡(luò)架構(gòu),也是GPT-3.5架構(gòu)的主力模型,這是一種用于處理序列數(shù)據(jù),優(yōu)化對(duì)話的語(yǔ)言模型,擁有語(yǔ)言理解和文本生成能力,尤其是它會(huì)通過(guò)連接大量語(yǔ)料庫(kù)來(lái)訓(xùn)練模型,這些語(yǔ)料庫(kù)包含了真實(shí)世界中的對(duì)話,使得ChatGPT具備上知天文下知地理,還能根據(jù)聊天的上下文進(jìn)行互動(dòng)的能力,做到與人類幾乎無(wú)異的聊天場(chǎng)景進(jìn)行交流。12.1.4ChatGPT聊天機(jī)器人模型與對(duì)策ChatGPT不單是聊天機(jī)器人,它還能夠通過(guò)學(xué)習(xí)和理解人類的語(yǔ)言來(lái)進(jìn)行對(duì)話,甚至能完成撰寫(xiě)郵件、視頻腳本、文案、翻譯、代碼等任務(wù),同時(shí)也引起無(wú)數(shù)網(wǎng)友沉迷與ChatGPT聊天,成為大家討論的火爆話題。12.1.4ChatGPT聊天機(jī)器人模型與對(duì)策ChatGPT是一個(gè)免費(fèi)程序,它具有同類產(chǎn)品具備的一些特性,例如對(duì)話能力,能夠在同一個(gè)會(huì)話期間內(nèi)回答上下文相關(guān)的后續(xù)問(wèn)題。然而,在短時(shí)間內(nèi)引爆全球的原因還在于,在網(wǎng)友們曬出的截圖中,ChatGPT不僅能流暢地與用戶對(duì)話,甚至可根據(jù)提示生成幾乎任何主題的原始文本,包括文章、論文、笑話、編碼甚至詩(shī)歌。。由于ChatGPT太“聰明”,無(wú)數(shù)網(wǎng)友與它聊天,有人讓它幫忙改作業(yè),有人讓它扮演虛擬女友、有人讓它編寫(xiě)請(qǐng)假理由、有人用它來(lái)補(bǔ)習(xí)外語(yǔ),更有人讓ChatGPT陪自己演戲。無(wú)論是生成小說(shuō)、疑難解答或者是哲學(xué)的問(wèn)題,ChatGPT都交上幾乎完美的答案,令人驚嘆不已。12.1.4ChatGPT聊天機(jī)器人模型與對(duì)策ChatGPT采用了注重道德水平的訓(xùn)練方式,按照預(yù)先設(shè)計(jì)的道德準(zhǔn)則,對(duì)不懷好意的提問(wèn)和請(qǐng)求“說(shuō)不”。一旦發(fā)現(xiàn)用戶給出的文字提示里面含有惡意,包括但不限于暴力、歧視、犯罪等意圖,都會(huì)拒絕提供有效答案。不過(guò),ChatGPT的強(qiáng)大功能引起學(xué)術(shù)界的擔(dān)憂。頂級(jí)科學(xué)雜志《自然》宣布,將人工智能工具列為作者的論文不能在該雜志上發(fā)表。2023年1月27日巴黎政治大學(xué)宣布,該校已向所有學(xué)生和教師發(fā)送電子郵件,要求禁止使用ChatGPT等一切基于AI的工具,旨在防止學(xué)術(shù)欺詐和剽竊。12.1.4ChatGPT聊天機(jī)器人模型與對(duì)策2023年初,谷歌發(fā)布了從文本生成高保真音樂(lè)的AI模型MusicLM的研究,該系統(tǒng)可以從文本描述中生成任何類型的高保真音樂(lè)。但因擔(dān)心風(fēng)險(xiǎn),谷歌并沒(méi)有立即發(fā)布該產(chǎn)品?!拔覀儚?qiáng)調(diào),需要在未來(lái)開(kāi)展更多工作,來(lái)應(yīng)對(duì)這些與音樂(lè)生成相關(guān)的風(fēng)險(xiǎn)——目前沒(méi)有發(fā)布模型的計(jì)劃?!惫雀璋l(fā)布的論文寫(xiě)道。12.1.5從文本生成音樂(lè)的MusicLM模型據(jù)了解,谷歌自己的AudioML和人工智能研究機(jī)構(gòu)OpenAI的Jukebox等項(xiàng)目都可以從文字生成音樂(lè)。然而,MusicLM模型和龐大的訓(xùn)練數(shù)據(jù)庫(kù)(280000小時(shí)的音樂(lè))使其能制作出特別復(fù)雜或保真度特別高的歌曲。MusicLM不僅可以結(jié)合流派和樂(lè)器,還可以使用計(jì)算機(jī)通常難以掌握的抽象概念來(lái)編寫(xiě)曲目。比如“一種舞曲和雷鬼音樂(lè)的混合體,其曲調(diào)空曠、超凡脫俗,能喚起驚奇和敬畏之感”,MusicLM就可以實(shí)現(xiàn)。12.1.5從文本生成音樂(lè)的MusicLM模型谷歌研究人員表明,該系統(tǒng)可以建立在現(xiàn)有旋律的基礎(chǔ)上,無(wú)論是哼唱、演唱、吹口哨還是在樂(lè)器基礎(chǔ)上演奏。此外,MusicLM有一個(gè)“故事模式”來(lái)編程特定時(shí)間的風(fēng)格、氛圍和節(jié)奏的轉(zhuǎn)變,比如可以采用幾個(gè)按順序編寫(xiě)的描述“冥想時(shí)間”“醒來(lái)時(shí)間”“跑步時(shí)間”來(lái)創(chuàng)建一種“故事”敘事旋律。12.1.5從文本生成音樂(lè)的MusicLM模型ChatGPT以其強(qiáng)大的信息整合和對(duì)話能力驚艷了全球,一項(xiàng)調(diào)查顯示,美國(guó)89%的大學(xué)生都是用ChatGPT做作業(yè),學(xué)生們已經(jīng)在用ChatGPT肆無(wú)忌憚地作弊了。于是,紐約的教育系統(tǒng)試圖全面封殺ChatGPT,老師們防ChatGPT如洪水猛獸,卻還是屢禁不止。很多教授在擔(dān)心,AI聊天機(jī)器人會(huì)對(duì)教育產(chǎn)生災(zāi)難性影響,會(huì)讓學(xué)生的大腦“萎縮”。12.1.6檢測(cè)AI文本的DetectGPT算法當(dāng)然,有攻就有防,斯坦福大學(xué)的研究團(tuán)隊(duì)就提出了一種用于檢測(cè)AI生成文本的全新算法——DetectGPT。這個(gè)算法可以用于判斷文本是否是機(jī)器生成,并且不需要訓(xùn)練人工智能或收集大型數(shù)據(jù)集來(lái)比較文本。研究團(tuán)隊(duì)聲稱新算法檢測(cè)的準(zhǔn)確性能有了實(shí)質(zhì)性的提高,并表明該技術(shù)可對(duì)未來(lái)越來(lái)越普遍的人工智能寫(xiě)作論文事件起到很好的反制作用。雖然ChatGPT引發(fā)了學(xué)術(shù)誠(chéng)信的風(fēng)暴,但也有不少專家認(rèn)為,這項(xiàng)技術(shù)只是一個(gè)新學(xué)習(xí)時(shí)代的開(kāi)始,AI寫(xiě)作工具是學(xué)習(xí)的未來(lái)。12.1.6檢測(cè)AI文本的DetectGPT算法PART02科普AI大語(yǔ)言模型人工智能大語(yǔ)言模型(AI-LLM)已經(jīng)引起社會(huì)各界關(guān)注。從知識(shí)中來(lái),大模型的能力來(lái)源于人類的龐大知識(shí)庫(kù);到知識(shí)中去,大模型也將重新塑造人類知識(shí)應(yīng)用、創(chuàng)造和轉(zhuǎn)化的模式,在經(jīng)濟(jì)社會(huì)發(fā)展中產(chǎn)生巨大價(jià)值。12.2科普AI大語(yǔ)言模型大模型擁有豐富的各學(xué)科知識(shí),并表現(xiàn)出一定的邏輯能力,這是因?yàn)榭茖W(xué)家利用海量的人類語(yǔ)言數(shù)據(jù)和大規(guī)模的GPU(圖形處理器)算力,對(duì)大模型進(jìn)行了預(yù)訓(xùn)練,為其精心挑選的預(yù)訓(xùn)練知識(shí)數(shù)據(jù)量達(dá)到13萬(wàn)億“字”,相當(dāng)于500萬(wàn)套四大名著的規(guī)模;而通過(guò)訓(xùn)練提取的“知識(shí)片段”,即模型的參數(shù),有1.8萬(wàn)億個(gè)。無(wú)論訓(xùn)練量和參數(shù)量都遠(yuǎn)超以往人工智能模型的規(guī)模,這也是人工智能大語(yǔ)言模型這個(gè)名字的由來(lái)。12.2科普AI大語(yǔ)言模型這種利用龐大語(yǔ)料庫(kù)對(duì)人類知識(shí)進(jìn)行建模的方式,可理解為對(duì)現(xiàn)實(shí)世界的一種“模糊壓縮”。通過(guò)訓(xùn)練好的大模型來(lái)解答問(wèn)題,相當(dāng)于對(duì)世界的“模糊還原”?!澳:笨赡軐?dǎo)致問(wèn)題解答不準(zhǔn)確,但也因?yàn)槟:?,大模型可以解答原有知識(shí)解答不了的新問(wèn)題。12.2科普AI大語(yǔ)言模型“壓縮”和“還原”的過(guò)程中,大模型都在反復(fù)預(yù)測(cè)文本中可能出現(xiàn)的下一個(gè)字。它用這樣的方式來(lái)理解人類語(yǔ)言和知識(shí)的規(guī)律,并在遇到問(wèn)題時(shí),利用模型學(xué)到的規(guī)律,一個(gè)字一個(gè)字地生成連貫而有意義的內(nèi)容。由于使用自然語(yǔ)言(而非程序語(yǔ)言)與人類進(jìn)行交互,大模型可以靈活地接收并完成人類下達(dá)的各種知識(shí)型任務(wù),這就打開(kāi)了大模型跨學(xué)科跨行業(yè)應(yīng)用的廣闊空間。大模型具有強(qiáng)大的應(yīng)用前景。12.2科普AI大語(yǔ)言模型利用訓(xùn)練中積累的知識(shí),輔以專業(yè)領(lǐng)域的知識(shí)庫(kù)和流程邏輯,大模型可以充當(dāng)行業(yè)專家的人工智能助手,甚至直接為客戶提供一對(duì)一的知識(shí)服務(wù)。例如,面向鄉(xiāng)村教師的人工智能助教,可以幫助教師進(jìn)行課程設(shè)計(jì)和作業(yè)輔導(dǎo),顯著提高鄉(xiāng)村教育質(zhì)量。通過(guò)一對(duì)一的知識(shí)定制應(yīng)用,大模型能大大降低專業(yè)服務(wù)的交付成本,打破以往服務(wù)個(gè)性化和普惠化之間的矛盾,讓更多人享受到教育、醫(yī)療和法律等領(lǐng)域既個(gè)性化又普惠的專業(yè)服務(wù)。12.2科普AI大語(yǔ)言模型大模型還能通過(guò)知識(shí)的跨界關(guān)聯(lián),推動(dòng)人類新知識(shí)的發(fā)現(xiàn)和創(chuàng)造。20世紀(jì)80年代,科研人員開(kāi)始通過(guò)計(jì)算機(jī)技術(shù)分析科學(xué)文獻(xiàn),尋找新的關(guān)聯(lián)協(xié)作機(jī)會(huì)點(diǎn),比如利用這一方法發(fā)現(xiàn)魚(yú)油跟雷諾氏綜合征的關(guān)聯(lián)性,據(jù)此提出的療效假設(shè)得到了驗(yàn)證。在跨學(xué)科研究成為大勢(shì)所趨的今天,化學(xué)及材料科學(xué)等領(lǐng)域的研究顯示,人工智能能實(shí)現(xiàn)更靈活、更深度的知識(shí)理解和挖掘,可將不同學(xué)科、不同語(yǔ)言的知識(shí)關(guān)聯(lián)到一起,幫助科學(xué)家發(fā)現(xiàn)創(chuàng)新盲點(diǎn),提出新假設(shè),給出跨學(xué)科研究路徑甚至合作對(duì)象的建議,從而推動(dòng)人類知識(shí)發(fā)展到全新水平。12.2科普AI大語(yǔ)言模型工業(yè)制造未來(lái)也將是大模型的用武之地。大模型通過(guò)推動(dòng)人類知識(shí)向物理機(jī)器轉(zhuǎn)移,實(shí)現(xiàn)更復(fù)雜的工業(yè)人機(jī)協(xié)作。在以往的工業(yè)制造自動(dòng)化領(lǐng)域,機(jī)器人依據(jù)嚴(yán)謹(jǐn)?shù)念A(yù)定義編程指令來(lái)執(zhí)行操作,執(zhí)行任務(wù)的能力受到一定限制,因?yàn)榇蟛糠值娜祟愔R(shí)存在模糊性,對(duì)這些知識(shí)的理解和應(yīng)用依賴于環(huán)境和常識(shí)。比如對(duì)機(jī)器人說(shuō):“我要一個(gè)蘋(píng)果?!睓C(jī)器人不知道該去拿還是去買(mǎi),不知道去哪拿、怎么買(mǎi)。12.2科普AI大語(yǔ)言模型而大模型可通過(guò)自然語(yǔ)言的交互,理解人類任務(wù),借助自身訓(xùn)練獲取的知識(shí)和外接的環(huán)境感知能力——知道冰箱在哪,猜測(cè)冰箱冷藏區(qū)可能有蘋(píng)果,正確拆解任務(wù)并轉(zhuǎn)譯為機(jī)器指令——找到并打開(kāi)冰箱,取出蘋(píng)果,如果沒(méi)有,則通過(guò)網(wǎng)絡(luò)下單購(gòu)買(mǎi)蘋(píng)果。這樣,大模型就在人類與機(jī)器人之間建立了復(fù)雜的、實(shí)時(shí)動(dòng)態(tài)的協(xié)作機(jī)制,完成之前無(wú)法實(shí)現(xiàn)的、更高難度的工業(yè)制造任務(wù)。12.2科普AI大語(yǔ)言模型未來(lái),知識(shí)的應(yīng)用、創(chuàng)造和轉(zhuǎn)化將提升到一個(gè)新的高度。從老百姓可感知的民生普惠服務(wù)落地,同時(shí)進(jìn)行更多方向探索——推動(dòng)工業(yè)制造升級(jí)和科研手段演進(jìn),人工智能大模型對(duì)經(jīng)濟(jì)社會(huì)的影響將逐步往深層次發(fā)展,從而創(chuàng)造更大的社會(huì)價(jià)值。12.2科普AI大語(yǔ)言模型PART03ChatGPT的模仿秀現(xiàn)在是成為一家搜索初創(chuàng)公司的好時(shí)機(jī)。微軟和谷歌連續(xù)公布了它們各自對(duì)搜索引擎未來(lái)的看法,展示了可以用流暢的句子而不是鏈接列表來(lái)回答查詢的聊天機(jī)器人。微軟公司升級(jí)其必應(yīng)搜索引擎,也使用爆紅聊天機(jī)器人ChatGPT背后的人工智能技術(shù);谷歌則開(kāi)發(fā)一個(gè)名為Bard的產(chǎn)品,以作為ChatGPT的競(jìng)爭(zhēng)對(duì)手。12.3ChatGPT的模仿秀盡管微軟和谷歌這樣的巨頭將繼續(xù)占據(jù)主導(dǎo)地位,但對(duì)于任何想要尋找其他選擇的人來(lái)說(shuō),搜索領(lǐng)域?qū)?huì)涌入更多的參與者,并變得更加多樣化。在這種大背景下,一段時(shí)間以來(lái)涌現(xiàn)出來(lái)的一大波初創(chuàng)公司,已經(jīng)開(kāi)發(fā)出了許多類似的聊天機(jī)器人輔助搜索工具。Y在2022年12月推出了一款搜索聊天機(jī)器人,此后一直在推出更新的功能。許多其他公司比如Perplexity、Andi和Metaphor,也在將聊天機(jī)器人應(yīng)用與其他功能結(jié)合起來(lái),例如圖像搜索、社交信息保存或搜索、以及快速搜索信息等。12.3.1舊的守衛(wèi),新的想法ChatGPT的成功引發(fā)了一場(chǎng)熱潮,因?yàn)榭萍季揞^和初創(chuàng)公司都在試圖找出答案——如何以人們意想不到的方式給他們想要的東西。谷歌多年來(lái)一直主導(dǎo)著搜索引擎市場(chǎng)。在美國(guó)華盛頓大學(xué)研究搜索技術(shù)的奇拉格·沙阿說(shuō):“這種局面已經(jīng)持續(xù)了很長(zhǎng)時(shí)間了?!薄氨M管有很多創(chuàng)新,但情況并沒(méi)有發(fā)生太大的變化?!?2.3.1舊的守衛(wèi),新的想法隨著2022年11月ChatGPT的推出,情況發(fā)生了改變。突然間,通過(guò)輸入一串不連貫的單詞來(lái)搜索目標(biāo)的想法已經(jīng)變得過(guò)時(shí)了,為什么不直接問(wèn)你想要什么呢?谷歌探索大型語(yǔ)言模型(例如ChatGPT和Bard等聊天機(jī)器人背后的技術(shù))的用途已經(jīng)有一段時(shí)間了。當(dāng)ChatGPT成為主流熱門(mén)產(chǎn)品時(shí),谷歌和微軟立即采取了行動(dòng),其他人也是如此。12.3.1舊的守衛(wèi),新的想法如今,現(xiàn)成的軟件使得構(gòu)建一個(gè)搜索引擎并結(jié)合一個(gè)大型語(yǔ)言模型比以往任何時(shí)候都更容易。你可以依靠少數(shù)幾個(gè)工程師在幾個(gè)月內(nèi)大肆開(kāi)發(fā)由數(shù)千名工程師在十余年間開(kāi)發(fā)的技術(shù)庫(kù)。12.3.2搜索引擎結(jié)合LLM創(chuàng)立于2020年的Y網(wǎng)站為尋找谷歌替代品的網(wǎng)絡(luò)搜索高級(jí)用戶提供一站式服務(wù),它旨在為人們提供各種格式的不同類型的答案,比如從電影推薦到代碼片段等。Y引入多模式搜索——它的聊天機(jī)器人可以使用來(lái)自附屬應(yīng)用程序的圖像或嵌入式小部件而不是文本來(lái)響應(yīng)查詢,它還具備一項(xiàng)讓人們與聊天機(jī)器人分享交流內(nèi)容的功能。Y推出的一項(xiàng)升級(jí)計(jì)劃,解決了有關(guān)現(xiàn)場(chǎng)體育賽事的問(wèn)題,比如老鷹隊(duì)是否能在比賽還剩8分鐘的時(shí)間里贏得超級(jí)碗。12.3.2搜索引擎結(jié)合LLMPerplexity是一家由OpenAI、Meta和Quora的前員工建立的公司。這家初創(chuàng)公司將OpenAI的大型語(yǔ)言模型GPT-3與必應(yīng)結(jié)合在一起,并于2022年12月推出了搜索聊天機(jī)器人,他們?cè)O(shè)想要抓住人們的興趣,并圍繞著它建立一個(gè)社區(qū)。這家公司希望重新創(chuàng)建基于社區(qū)的信息存儲(chǔ)庫(kù),如Quora或維基百科,使用聊天機(jī)器人來(lái)生成條目,而不是人們自行編輯。當(dāng)人們問(wèn)Perplexity的聊天機(jī)器人問(wèn)題時(shí),問(wèn)答環(huán)節(jié)會(huì)被保存下來(lái),并可以被其他人瀏覽。用戶還可以對(duì)聊天機(jī)器人生成的響應(yīng)投贊成票或反對(duì)票,并添加自己的見(jiàn)解到正在進(jìn)行的線程中。這就像Reddit一樣,不過(guò)是人類在提問(wèn)、人工智能做回答。12.3.2搜索引擎結(jié)合LLM曾經(jīng)有一次,當(dāng)谷歌尚未發(fā)布的聊天機(jī)器人Bard被發(fā)現(xiàn)在一個(gè)匆忙發(fā)布的宣傳片中給出了錯(cuò)誤答案的第二天(一個(gè)可能讓公司損失數(shù)十億美元的錯(cuò)誤),Perplexity宣布了一個(gè)新的插件,它可以結(jié)合谷歌的網(wǎng)絡(luò)瀏覽器Chrome。對(duì)于相同的問(wèn)題,后者給出了正確答案。12.3.2搜索引擎結(jié)合LLM總部位于美國(guó)邁阿密的搜索公司Andi的CEO兼聯(lián)合創(chuàng)始人安吉拉·胡佛成立了自己的公司,此前她對(duì)不得不篩選廣告和垃圾郵件以在谷歌中找到相關(guān)鏈接感到沮喪。與許多玩過(guò)ChatGPT等聊天機(jī)器人的人一樣,她的搜索靈感受到科幻小說(shuō)中“萬(wàn)事通”之類角色的啟發(fā),例如《鋼鐵俠》中的賈維斯或《她》中的薩曼莎。當(dāng)然,我們還沒(méi)有這樣的東西?!拔覀儾徽J(rèn)為Andi什么都知道,”她說(shuō),“Andi只是在尋找人們放在互聯(lián)網(wǎng)上的信息,然后以一種漂亮的、包裝好的形式帶給你?!?2.3.2搜索引擎結(jié)合LLMAndi在搜索方面的創(chuàng)新,涉及到使用大型語(yǔ)言模型來(lái)選擇最佳結(jié)果并進(jìn)行總結(jié),她讓模型學(xué)習(xí)從普利策獲獎(jiǎng)文章到SEO垃圾郵件的所有內(nèi)容,以讓搜索引擎更好地支持一些結(jié)果。最終,搜索之戰(zhàn)將不會(huì)局限于網(wǎng)絡(luò)——人們還需要使用工具來(lái)搜索更多的個(gè)人信息,比如電子郵件和短信?!芭c世界上其他數(shù)據(jù)相比,網(wǎng)絡(luò)很小,”有大量使用聊天機(jī)器人進(jìn)行搜索的公司并未尋求與微軟和谷歌競(jìng)爭(zhēng),例如他們提供軟件以方便地將大語(yǔ)言模型與小型的、定制的搜索引擎相結(jié)合,可以為用戶手冊(cè)、醫(yī)療數(shù)據(jù)庫(kù)和播客文本構(gòu)建定制的搜索工具。12.3.2搜索引擎結(jié)合LLM也有一些人認(rèn)為用聊天機(jī)器人進(jìn)行搜索是一個(gè)糟糕的想法,驅(qū)動(dòng)它們的大語(yǔ)言模型充斥著偏見(jiàn)、偏見(jiàn)和錯(cuò)誤信息。為搜索開(kāi)發(fā)聊天機(jī)器人的公司,試圖通過(guò)將大語(yǔ)言模型嵌入到現(xiàn)有的搜索引擎,讓它們總結(jié)相關(guān)結(jié)果,而不是從零開(kāi)始創(chuàng)造句子來(lái)回答問(wèn)題。大多數(shù)人還會(huì)讓聊天機(jī)器人引用它們正在總結(jié)的網(wǎng)頁(yè)或文件。但這些策略并非是萬(wàn)無(wú)一失的。例如自從微軟向一些試用用戶開(kāi)放新版必應(yīng)以來(lái),社交媒體上充斥著一些截圖,顯示聊天機(jī)器人流暢的聊天演示也是錯(cuò)誤百出。12.3.3克服簡(jiǎn)單編造與重復(fù)為此,Andi避免簡(jiǎn)單地重復(fù)搜索結(jié)果中的文本,“它不像其他聊天機(jī)器人那樣編造東西”。人們可以自己決定這是否屬實(shí),在收集以往的用戶反饋之后,該公司的聊天機(jī)器人有時(shí)會(huì)坦言對(duì)于某些答案沒(méi)有信心。“它會(huì)說(shuō),‘我不確定,但根據(jù)維基百科……’”無(wú)論哪種方式,這個(gè)新的搜索時(shí)代可能都不會(huì)完全地放棄鏈接列表,這是網(wǎng)絡(luò)的重要組成部分。12.3.3克服簡(jiǎn)單編造與重復(fù)但隨著聊天機(jī)器人變得越來(lái)越有說(shuō)服力,我們是否會(huì)越來(lái)越不愿意核實(shí)它們的答案?“值得注意的不是大語(yǔ)言模型會(huì)產(chǎn)生虛假信息,而是它們正在關(guān)閉人們的批判性推理能力。”華盛頓大學(xué)的沙阿就有同樣的擔(dān)憂,在微軟必應(yīng)的聊天演示中,強(qiáng)調(diào)使用聊天機(jī)器人進(jìn)行搜索可以節(jié)省時(shí)間。但多年來(lái)微軟一直在做的一個(gè)鮮為人知的項(xiàng)目叫“搜索教練”,旨在引導(dǎo)人們停下來(lái)思考?!八阉鹘叹毷恰畮в?xùn)練輪的搜索引擎’,搜索教練幫助人們特別是幫助學(xué)生和老師學(xué)習(xí)有效地編寫(xiě)搜索問(wèn)題,并識(shí)別消息源是否可靠。與ChatGPT相比,‘搜索教練’鼓勵(lì)人們放慢時(shí)間,而不是節(jié)省時(shí)間?!?2.3.3克服簡(jiǎn)單編造與重復(fù)PART04傳統(tǒng)行業(yè)的下崗2023年3月初,OpenAI公司正式宣布開(kāi)放ChatGPT的API(應(yīng)用編程接口),這意味著第三方的開(kāi)發(fā)者也能將ChatGPT集成到他們的應(yīng)用程序里去。此消息一出,再次向全世界投放了一個(gè)“炸彈”:“可以預(yù)見(jiàn),以后客服不會(huì)有真人了”,有網(wǎng)友評(píng)論道。12.4傳統(tǒng)行業(yè)的下崗盡管OpenAI宣布的ChatGPT先行應(yīng)用案例里還沒(méi)有多少關(guān)于替代傳統(tǒng)客服的例子,但基于其應(yīng)用特性,這被很多人視為是在不遠(yuǎn)的未來(lái)將發(fā)生的事。12.4傳統(tǒng)行業(yè)的下崗一方面,在ChatGPT出現(xiàn)之前,各大企業(yè)為了降低成本,已經(jīng)在廣泛使用智能客服替代人工客服,有的行業(yè)比如金融領(lǐng)域,滲透率已經(jīng)接近100%。另一方面,現(xiàn)在的智能客服還不夠智能,ChatGPT所具備的能力,正是產(chǎn)業(yè)所需要的。12.4.1客服市場(chǎng),AI本來(lái)就很卷ChatGPT來(lái)了,客服是離風(fēng)暴最近的崗位之一。短短時(shí)間里,多位智能客服從業(yè)者有的已經(jīng)推出運(yùn)用“類ChatGPT”技術(shù)的AIGC(人工智能生成)產(chǎn)品,有的已經(jīng)在做“類ChatGPT”產(chǎn)品的合作測(cè)試,有的在探索更合適的落地方式及應(yīng)用場(chǎng)景??傊荚跔?zhēng)分奪秒的趕上這趟列車(chē)。它從誕生起,人們就或害怕它,或期待它,或無(wú)視它。一方面,的確有越來(lái)越多的案例佐證,它正在取代人力,但另一方面,ChatGPT的訓(xùn)練成本高昂,也出現(xiàn)了落地應(yīng)用不容易,取代人力沒(méi)那么簡(jiǎn)單的聲音。12.4.1客服市場(chǎng),AI本來(lái)就很卷以客服行業(yè)為切入口,我們?cè)噲D來(lái)探索,對(duì)一個(gè)具體行業(yè)來(lái)說(shuō),ChatGPT能取代的崗位到底是什么,能取代到什么程度?產(chǎn)業(yè)化落地的應(yīng)用空間到底有多大?12.4.1客服市場(chǎng),AI本來(lái)就很卷這個(gè)行業(yè)里,AI客服已經(jīng)在廣泛使用。例如一家酒店的客服會(huì)接到旅行社用AI客服打來(lái)的電話,核對(duì)顧客信息。AI客服先問(wèn),“客人離店了嗎?”再問(wèn),“客人是幾月幾號(hào)退房的?”當(dāng)聽(tīng)到第一個(gè)問(wèn)題的時(shí)候,酒店客服會(huì)回答“某某日,客人已經(jīng)退房了”,于是AI客服就不會(huì)再接著問(wèn)了。幾年前,智能客服還只能聽(tīng)懂她回答“是”和“不是”,或者得按照流程,聽(tīng)懂某個(gè)固定的答案,但現(xiàn)在她用像跟真人對(duì)話一樣的語(yǔ)氣回答,對(duì)方也能聽(tīng)懂。12.4.1客服市場(chǎng),AI本來(lái)就很卷2017年以來(lái),人工智能技術(shù)引進(jìn),智能客服已滲透到企業(yè)各個(gè)環(huán)節(jié)。根據(jù)2020年研究發(fā)布的《智能客服趨勢(shì)發(fā)展白皮書(shū)》,國(guó)內(nèi)市場(chǎng)88.6%的企業(yè)擁有客服業(yè)務(wù),22.1%的企業(yè)基于云的方式構(gòu)建了智能客服。咨詢機(jī)構(gòu)高德納在2020年曾經(jīng)預(yù)測(cè),智能客服的滲透率將從2018年的15%增至2022年的80%,目前來(lái)看,這個(gè)預(yù)測(cè)是比較準(zhǔn)確的。12.4.1客服市場(chǎng),AI本來(lái)就很卷現(xiàn)在智能客服應(yīng)用的對(duì)話技術(shù),大致可以分為三種。(1)基于知識(shí)庫(kù)的知識(shí)問(wèn)答,主要解決用戶對(duì)知識(shí)信息的獲取問(wèn)題。即基于用戶的提問(wèn),在知識(shí)庫(kù)中尋找最匹配的答案。這項(xiàng)技術(shù)和傳統(tǒng)的搜索技術(shù)有點(diǎn)相似,典型的應(yīng)用場(chǎng)景,如用戶對(duì)政策法規(guī)的咨詢。(2)面向任務(wù)問(wèn)答,主要幫助用戶解決限定任務(wù),一般采用流程管理的對(duì)話技術(shù),以一定的步驟和順序,通過(guò)多輪對(duì)話幫助用戶解決問(wèn)題。聽(tīng)歌、查詢天氣、訂票、下單都屬于這類場(chǎng)景。12.4.1客服市場(chǎng),AI本來(lái)就很卷(3)無(wú)特定目標(biāo)的閑聊。這種主要模擬人們?nèi)粘ie聊的場(chǎng)景,技術(shù)路線上有采用大規(guī)模知識(shí)庫(kù)的,也有使用AIGC的。通常在實(shí)際場(chǎng)景中,作為前兩種對(duì)話形式的補(bǔ)充配合使用。在行業(yè)里,AI之所以應(yīng)用如此廣泛,主要是為了節(jié)省成本。例如,應(yīng)用機(jī)器人作為客服后,相比原來(lái)的人力成本整體降低了200萬(wàn)元,人效提升了220%。12.4.1客服市場(chǎng),AI本來(lái)就很卷目前智能客服應(yīng)用場(chǎng)景主要有兩個(gè),第一個(gè)是在人工客服介入之前,通過(guò)機(jī)器人幫助客戶解決規(guī)范、明確的問(wèn)題,“絕大部分智能客服廠商都具備這樣的能力”。第二個(gè)是輔助人工。比如客服行業(yè)流動(dòng)性大,企業(yè)培訓(xùn)成本高,通過(guò)人工智能,客服可以通過(guò)智庫(kù)、問(wèn)答提示來(lái)輔助,降低上手成本。之前他們特地和客戶聊過(guò),如果沒(méi)有這些輔助工具,培訓(xùn)一個(gè)合格的在線坐席,需要1-2個(gè)月時(shí)間,使用這套輔助,時(shí)間可以縮短到兩周。12.4.1客服市場(chǎng),AI本來(lái)就很卷根據(jù)《客服中心智能化技術(shù)和應(yīng)用研究報(bào)告》,當(dāng)前智能機(jī)器人客服處理咨詢量普遍達(dá)到300-500萬(wàn)人次/日,企業(yè)平均節(jié)約人力成本42.6%,提升人力資源利用率39.3%。不過(guò),同時(shí)行業(yè)也面臨著AI不夠智能的問(wèn)題?,F(xiàn)在的客服市場(chǎng),把簡(jiǎn)單、重復(fù)、流程性的問(wèn)題,交給機(jī)器人處理,復(fù)雜的、需要情感關(guān)懷的問(wèn)題,交由人工客服處理。能否處理復(fù)雜問(wèn)題,行業(yè)有一個(gè)通用的指標(biāo),即意圖識(shí)別的準(zhǔn)確率。12.4.1客服市場(chǎng),AI本來(lái)就很卷傳統(tǒng)機(jī)器人語(yǔ)義理解能力還是比較弱的。首先是擬人化方面,還有所欠缺,其次是更復(fù)雜的需求,還不具備處理能力。智能客服只需要公式化處理問(wèn)題,處理原本就有解決辦法的問(wèn)題,對(duì)于真人客服來(lái)說(shuō),算是很輕松的工作內(nèi)容了。在《2021年中國(guó)智能客服市場(chǎng)報(bào)告》中,僅30%企業(yè)使用智能客服感受整體服務(wù)效率提升。中國(guó)青年報(bào)社會(huì)調(diào)查中心2022年對(duì)2018名受訪者進(jìn)行的調(diào)查顯示,95.7%的受訪者使用過(guò)智能客服,其中僅41.3%的受訪者覺(jué)得智能客服好用。12.4.1客服市場(chǎng),AI本來(lái)就很卷技術(shù)提不上去,行業(yè)門(mén)檻不高,讓這個(gè)市場(chǎng)很內(nèi)卷。電商剛興起時(shí),很多電商平臺(tái)的智能客服都是外包,現(xiàn)在很多大平臺(tái)都是自研了?!靶袠I(yè)純粹的技術(shù)壁壘沒(méi)有那么高,一些功能你家能實(shí)現(xiàn),我家也能實(shí)現(xiàn),大家都在打價(jià)格戰(zhàn)”?,F(xiàn)在,ChatGPT出現(xiàn)了,情況發(fā)生了變化。12.4.1客服市場(chǎng),AI本來(lái)就很卷針對(duì)ChatGPT曾經(jīng)進(jìn)行了這樣一次智能客服的試驗(yàn):先用一個(gè)長(zhǎng)句告訴ChatGPT是牙科客服,目標(biāo)是要獲得顧客的電話號(hào)碼,它很快進(jìn)入角色,先安撫顧客,并適當(dāng)?shù)慕o出了需要對(duì)方聯(lián)系方式的原因,邏輯清晰(圖12-6)。12.4.2“伐木場(chǎng)迎來(lái)工業(yè)革命”
圖12-6一次ChatGPT的測(cè)試12.4.2“伐木場(chǎng)迎來(lái)工業(yè)革命”問(wèn)題中包含了復(fù)雜的意圖,從它的回答來(lái)看,準(zhǔn)確地理解了所有意圖。這對(duì)以前的NLP(自然語(yǔ)言處理)技術(shù)來(lái)說(shuō),是一個(gè)很大的挑戰(zhàn)。這意味著,傳統(tǒng)人機(jī)對(duì)話技術(shù)需要使用十多個(gè)單功能自然語(yǔ)言處理模塊組裝構(gòu)建的機(jī)器人,對(duì)于ChatGPT來(lái)講,一個(gè)角色扮演的命令,加少量的信息設(shè)定,即可實(shí)現(xiàn)。這還只是一個(gè)非常簡(jiǎn)單的例子。綜合行業(yè)人士的說(shuō)法,ChatGPT的技術(shù)應(yīng)用對(duì)客服行業(yè)的影響,可以分為幾類。12.4.2“伐木場(chǎng)迎來(lái)工業(yè)革命”首先是人機(jī)交互上。傳統(tǒng)機(jī)器人對(duì)復(fù)雜場(chǎng)景的應(yīng)變能力不夠,一旦用戶問(wèn)的問(wèn)題在知識(shí)庫(kù)里沒(méi)有,或者超出了預(yù)設(shè)的流程,機(jī)器人就無(wú)法很好地應(yīng)對(duì)了。現(xiàn)在,ChatGPT大
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024至2030年可調(diào)三足移動(dòng)花盆架項(xiàng)目投資價(jià)值分析報(bào)告
- 2024至2030年下裝料真空熱處理爐項(xiàng)目投資價(jià)值分析報(bào)告
- 2024年花粉項(xiàng)目可行性研究報(bào)告
- 2024年推拉式餐桌項(xiàng)目可行性研究報(bào)告
- 2024版高檔酒店窗簾定制及安裝服務(wù)合同范本3篇
- 2024版動(dòng)作電影聯(lián)合拍攝合同3篇
- 2024年度事業(yè)單位實(shí)驗(yàn)員勞動(dòng)合同書(shū)(含實(shí)驗(yàn)材料管理)2篇
- 2024年度廣告投放合作合同標(biāo)的及廣告服務(wù)詳細(xì)規(guī)定3篇
- 2024版管道燃?xì)獍惭b與安全檢查合同3篇
- 2024年度工業(yè)設(shè)備采購(gòu)合同標(biāo)的及服務(wù)細(xì)節(jié)3篇
- 《反滲透系統(tǒng)簡(jiǎn)介》課件
- 醫(yī)療安全不良事件警示教育課件
- illustrator練習(xí)試題附答案
- 華為公司管理決策流程
- 車(chē)輛理賠權(quán)益轉(zhuǎn)讓協(xié)議
- 《我的家鄉(xiāng)天津》課件
- 部編版四年級(jí)上冊(cè)《麻雀》說(shuō)課課件
- 操作規(guī)程倉(cāng)管員發(fā)貨員安全操作規(guī)程
- 監(jiān)理分包合同協(xié)議書(shū)
- 小學(xué)數(shù)學(xué)(2023版)五年級(jí)上冊(cè)課后習(xí)題月末綜合訓(xùn)練二(含答案)【可編輯可打印】
- 代辦身份證委托書(shū)海外
評(píng)論
0/150
提交評(píng)論