《人工智能導(dǎo)論》第2版 第12章 自然語言與語音處理_第1頁
《人工智能導(dǎo)論》第2版 第12章 自然語言與語音處理_第2頁
《人工智能導(dǎo)論》第2版 第12章 自然語言與語音處理_第3頁
《人工智能導(dǎo)論》第2版 第12章 自然語言與語音處理_第4頁
《人工智能導(dǎo)論》第2版 第12章 自然語言與語音處理_第5頁
已閱讀5頁,還剩71頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第2版周蘇教授QQ:81505050人工智能導(dǎo)論第12章周蘇教授QQ:81505050自然語言與語音處理導(dǎo)讀案例:機器翻譯:大數(shù)據(jù)簡單算法與小數(shù)據(jù)復(fù)雜算法2006年,谷歌公司開始涉足機器翻譯。這被當(dāng)作實現(xiàn)“收集全世界的數(shù)據(jù)資源,并讓人人都可享受這些資源”這個目標的一個步驟。谷歌翻譯開始利用一個更大更繁雜的數(shù)據(jù)庫,也就是全球的互聯(lián)網(wǎng),而不再只利用兩種語言之間的文本翻譯。01語言的問題和可能性02什么是自然語言處理03語法類型與語義分析04處理數(shù)據(jù)與處理工具目錄/CONTENTS05語音處理自然語言處理(NaturalLanguageProcessing,NLP)是計算機科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個重要方向。它研究能實現(xiàn)人與計算機之間用自然語言進行有效通信的各種理論和方法。自然語言處理是一門融語言學(xué)、計算機科學(xué)、數(shù)學(xué)于一體的科學(xué)。自然語言處理并不是一般地研究自然語言,而在于研制能有效地實現(xiàn)自然語言通信的計算機系統(tǒng),特別是其中的軟件系統(tǒng)。第11章自然語言處理PART01語言的問題和可能性人類大約在10萬年前學(xué)會了如何說話,大約5千年前學(xué)會了如何寫字。人類語言的復(fù)雜性和多樣性使得智人區(qū)別于其他所有物種。當(dāng)然,人類還有一些其他的特有屬性:沒有任何其他物種像人類那樣穿衣服,進行藝術(shù)創(chuàng)作,或者每天花兩小時在社交媒體上交流。但是,圖靈提出的智能測試是基于語言的,而非藝術(shù)或服飾,也許是因為語言具有普適性,并且捕捉到了如此多的智能行為:一個演講者演講(或作家寫作)的目標是交流知識,他組織語言來表示這些知識,然后采取行動以實現(xiàn)這一目標。聽眾(或讀者)感知他們的語言并推斷其中的含義。12.1語言的問題和可能性這種通過語言的交流促進了文明的發(fā)展,是我們傳播文化、法律、科學(xué)和技術(shù)知識的主要方式。語言是人類區(qū)別于其他動物的本質(zhì)特性。在所有生物中,只有人類才具有語言能力,人類的智能與語言密切相關(guān)。人類的邏輯思維以語言為形式,人類的絕大部分知識也是以語言文字的形式記載和流傳下來的。12.1語言的問題和可能性口語是人類之間最常見、最古老的語言交流形式,使我們能夠進行同步對話——可以與一個或多個人進行交互式交流,讓我們變得更具表現(xiàn)力,最重要的是,也可以讓我們彼此傾聽。雖然語言有其精確性,卻很少有人會非常精確地使用語言。兩方或多方說的不是同一種語言,對語言有不同的解釋,詞語沒有被正確理解,聲音可能聽不清或很含糊,又或者受到地方方言的影響,此時,口語就會導(dǎo)致誤解。12.1語言的問題和可能性試思考下列一些通信方式,思考這些方式在正常使用的情況下怎么會導(dǎo)致溝通不暢:電話——聲音可能聽不清楚,一個人的話可能被誤解,雙方對語言理解構(gòu)成了其獨特的問題集,存在錯誤解釋、錯誤理解、錯誤回顧等許多可能性。手寫信——可能難以辨認,容易發(fā)生各種書寫錯誤;郵局可能會丟失信件:發(fā)信人和日期可以省略。12.1語言的問題和可能性打字信——速度不夠快,信件的來源及其背后的真實含義可能被誤解,可能不夠正式。電子郵件——需要上網(wǎng),容易造成上下文理解錯誤和誤解其意圖。微信消息——精確、快速,可能同步但仍然不像說話那樣流暢。記錄可以得到保存。短信——需要手機,長度有限,可能難以編寫(如鍵盤小,有時不能發(fā)短信等)。12.1語言的問題和可能性語言既是精確也是模糊的。在法律或科學(xué)事務(wù)中,語言需要得到精確使用;又或者它可以有意地以“藝術(shù)”的方式(例如詩歌或小說)使用。作為交流的一種形式,書面語或口語又可能是模糊的。12.1語言的問題和可能性示例12-1“音樂會結(jié)束后,我要在酒吧見到你?!北M管很多缺失的細節(jié)使得這個約會可能不會成功,但是這句話的意圖是明確的。如果音樂廳里有多個酒吧怎么辦?音樂會可能就在酒吧里,我們音樂會后相見嗎?相見的確切時間是什么?你愿意等待多久?語句“音樂會結(jié)束后”表明了意圖,但是不明確。經(jīng)過一段時間后,雙方將會做什么呢?他們遇到對方了嗎?12.1語言的問題和可能性示例12-2“在第三盞燈那里右轉(zhuǎn)?!边@句話的意圖是明確的,但是省略了很多細節(jié)。燈有多遠?它們可能會相隔幾個街區(qū)或者相距幾公里。當(dāng)方向給出后,提供更精確的信息(如距離、地標等)將有助于駕駛指導(dǎo)。12.1語言的問題和可能性可以看到,語言中有許多含糊之處,可以想象語言理解可能會給機器帶來的問題。對計算機而言,理解語音無比困難,但理解文本就簡單得多。文本語言可以提供記錄(無論是書、文檔、電子郵件還是其他形式),這是明顯的優(yōu)勢,但是文本語言缺乏口語所能提供的自發(fā)性、流動性和交互性。12.1語言的問題和可能性PART02什么是自然語言處理使用自然語言與計算機進行通信,這是人們長期以來所追求的。因為它既有明顯的實際意義,同時也有重要的理論意義:人們可以用自己最習(xí)慣的語言來使用計算機,而無需再花大量的時間和精力去學(xué)習(xí)不很自然和不習(xí)慣的各種計算機語言;人們也可以通過它進一步了解人類的語言能力和智能的機制。12.2什么是自然語言處理自然語言會話是人工智能發(fā)展史上從早期開始就被關(guān)注的主題之一。開發(fā)智能系統(tǒng)的任何嘗試,最終似乎都必須解決一個問題,即使用何種形式的標準進行交流,比起使用圖形系統(tǒng)或基于數(shù)據(jù)系統(tǒng)的交流,語言交流通常是首選。12.2.1自然語言處理的原因計算機進行自然語言處理有以下3個主要原因。(1)與人類交流。很多情況下,人類使用語音與計算機進行交互很方便,而且在大多數(shù)情況下,使用自然語言要比使用形式語言更加方便。(2)學(xué)習(xí)。人類已經(jīng)用自然語言記錄了很多知識。例如某個百科網(wǎng)站就有3000萬頁事實知識,例如“嬰猴是一種夜間活動的小型靈長類動物”,然而幾乎沒有任何一個這樣的知識來源是用形式邏輯寫成的。如果我們想讓計算機系統(tǒng)知道很多知識,它最好能理解自然語言。(3)使用人工智能工具有助于結(jié)合語言學(xué)、認知心理學(xué)和神經(jīng)科學(xué),促進對語言和語言使用的科學(xué)理解。12.2.1自然語言處理的原因?qū)崿F(xiàn)人機間自然語言通信意味著要使計算機既能理解自然語言文本的意義,也能以自然語言文本來表達給定的意圖、思想等。前者稱為自然語言理解,后者稱為自然語言生成,因此,自然語言處理大體包括了這兩個部分。12.2.2自然語言處理的方法從現(xiàn)有的理論和技術(shù)現(xiàn)狀看,通用的、高質(zhì)量的自然語言處理系統(tǒng)仍然是較長期的努力目標,但是針對一定應(yīng)用,具有相當(dāng)自然語言處理能力的實用系統(tǒng)已經(jīng)出現(xiàn),有些已商品化甚至產(chǎn)業(yè)化。典型的例子有:多語種數(shù)據(jù)庫和專家系統(tǒng)的自然語言接口、各種機器翻譯系統(tǒng)、全文信息檢索系統(tǒng)、自動文摘系統(tǒng)等。12.2.2自然語言處理的方法造成自然語言處理困難的根本原因是自然語言文本和對話的各個層次上廣泛存在的各種各樣的歧義性或多義性。一個中文文本從形式上看是由漢字(包括標點符號等)組成的一個字符串。由字組成詞,由詞組成詞組,由詞組組成句子,進而由一些句子組成段、節(jié)、章、篇。無論在字(符)、詞、詞組、句子、段各種層次,還是在下一層次向上一層次轉(zhuǎn)變中,都存在著歧義和多義現(xiàn)象,即形式上一樣的一段字符串,在不同的場景或不同的語境下,可以理解成不同的詞串、詞組串等,并有不同的意義。12.2.2自然語言處理的方法反過來,一個相同或相近的意義同樣也可以用多個文本或多個字串來表示。一般情況下,它們中的大多數(shù)都可以根據(jù)相應(yīng)的語境和場景的規(guī)定而得到解決的。也就是說,從總體上說,并不存在歧義。這也就是我們平時并不感到自然語言歧義,和能用自然語言進行正確交流的原因。我們也看到,為了消解歧義,需要大量的知識和進行推理。如何將這些知識較完整地加以收集和整理出來;又如何找到合適的形式,將它們存入計算機系統(tǒng)中去;以及如何有效地利用它們來消除歧義,都是工作量極大且十分困難的工作。12.2.2自然語言處理的方法自然語言的形式(字符串)與其意義之間是一種多對多的關(guān)系,其實這也正是自然語言的魅力所在。但從計算機處理的角度看,人們必須消除歧義,要把帶有潛在歧義的自然語言輸入轉(zhuǎn)換成某種無歧義的計算機內(nèi)部表示。12.2.2自然語言處理的方法以基于語言學(xué)的方法、基于知識的方法為主流的自然語言處理研究所存在的問題主要有兩個方面:一方面,迄今為止的語法都限于分析一個孤立的句子,上下文關(guān)系和談話環(huán)境對本句的約束和影響還缺乏系統(tǒng)的研究,因此分析歧義、詞語省略、代詞所指、同一句話在不同場合或由不同的人說出來所具有的不同含義等問題,尚無明確規(guī)律可循,需要加強語用學(xué)的研究才能逐步解決。12.2.2自然語言處理的方法另一方面,人理解一個句子不是單憑語法,還運用了大量的有關(guān)知識,包括生活知識和專門知識,這些知識無法全部貯存在計算機里。因此一個書面理解系統(tǒng)只能建立在有限的詞匯、句型和特定的主題范圍內(nèi);計算機的貯存量和運轉(zhuǎn)速度大大提高之后,才有可能適當(dāng)擴大范圍。12.2.2自然語言處理的方法自然語言處理是一個非常大的領(lǐng)域,它的一些主要任務(wù)包括如下。(1)語音識別。是將語音轉(zhuǎn)換為文本的任務(wù)。之后我們可以對生成的文本執(zhí)行進一步的任務(wù)(如問答)。取決于測試集的具體情況,語音識別系統(tǒng)的單詞錯誤率大約為3%~5%,與人工轉(zhuǎn)錄員的錯誤率相近。語音識別系統(tǒng)面臨的挑戰(zhàn)是即使個別單詞有錯誤,也要做出適當(dāng)?shù)捻憫?yīng)。12.2.3自然語言處理的任務(wù)頂級語音識別系統(tǒng)結(jié)合了循環(huán)神經(jīng)網(wǎng)絡(luò)和隱馬爾可夫模型。2011年,語音領(lǐng)域引入深度神經(jīng)網(wǎng)絡(luò),錯誤率立即顯著改進了約30%——這一領(lǐng)域似乎已經(jīng)成熟,之前每年的改進只有幾個百分點。語音識別問題具有自然的成分分解,所以非常適合使用深度神經(jīng)網(wǎng)絡(luò):從波形到音素再到單詞最后到句子。12.2.3自然語言處理的任務(wù)(2)文本-語音合成。是與語音識別相反的過程——將文本轉(zhuǎn)換為聲音。文本-語音合成面臨的挑戰(zhàn)是如何對每個單詞正確發(fā)音,同時通過適當(dāng)?shù)耐nD和強調(diào)讓每個句子聽起來自然流暢。另一個發(fā)展領(lǐng)域是合成不同的聲音——從普通男性或女性的聲音開始,接著可以合成地方方言,甚至模仿名人的聲音。與語音識別一樣,深層循環(huán)神經(jīng)網(wǎng)絡(luò)的引入為文本-語音合成帶來了巨大的進步,大約2/3的聽者認為,采用神經(jīng)網(wǎng)絡(luò)的語音處理系統(tǒng)比之前的非神經(jīng)網(wǎng)絡(luò)系統(tǒng)聽起來更自然。12.2.3自然語言處理的任務(wù)(3)機器翻譯。將文本從一種語言轉(zhuǎn)換到另一種語言,其發(fā)展態(tài)勢如圖12-5所示。系統(tǒng)通常使用雙語語料庫進行訓(xùn)練。例如,一組成對的文檔,每對文檔的其中一個使用英語,而另一個使用中文。不需要以任何方式對文檔進行標記;機器翻譯系統(tǒng)學(xué)習(xí)如何對齊句子和短語,然后當(dāng)遇到其中一種語言的新語句時,可以生成另一種語言的翻譯。

圖12-5機器翻譯發(fā)展歷程12.2.3自然語言處理的任務(wù)21世紀早期的機器翻譯系統(tǒng)使用n元模型,系統(tǒng)通常能夠理解文本的含義,但大多數(shù)句子都包含文法錯誤。一個問題是n元的長度限制:即使將限制放大到7,信息也很難從句子的一端傳遞到另一端。另一個問題是,一個n元模型中的所有信息都位于單個單詞的層級。這樣的系統(tǒng)可以學(xué)習(xí)將“blackcat(英語:黑貓)”翻譯成“chatnoir(法語:黑貓)”,但是卻不能學(xué)到英語中形容詞通常在名詞之前而法語中形容詞通常在名詞之后這樣的規(guī)則。12.2.3自然語言處理的任務(wù)序列到序列循環(huán)神經(jīng)網(wǎng)絡(luò)模型解決了這一問題。它們可以更好地泛化,并且可以在整個深度網(wǎng)絡(luò)的不同層級上形成組合模型,從而有效地傳遞信息。之后的工作使用Transformer(“變壓器”)模型的注意力機制,提高了翻譯性能,對這兩種模型各方面進行結(jié)合的混合模型則進一步提升了效果,在某些語言對上達到了人類水平的表現(xiàn)。12.2.3自然語言處理的任務(wù)(4)信息提取。是通過瀏覽文本并查找文本中特定類別的對象及其關(guān)系來獲取知識的過程。典型的任務(wù)包括,從網(wǎng)頁中提取地址實例獲取街道名、城市名、地區(qū)名以及郵政編碼等數(shù)據(jù)庫字段;從天氣預(yù)報中提取暴風(fēng)雨信息,獲取溫度、風(fēng)速以及降水量等字段。如果源文本具有很好的結(jié)構(gòu)(如以表格的形式),那么像正則表達式之類的簡單技術(shù)就可以進行信息提取。12.2.3自然語言處理的任務(wù)如果我們試圖提取所有事實,而不僅是特定類型(如天氣預(yù)報),那么提取會變得更加困難;TextRunner(文本運行程序)系統(tǒng)在一個開放的不斷擴展的關(guān)系集上進行信息提取。對于自由格式的文本,可以使用隱馬爾可夫模型和基于規(guī)則的學(xué)習(xí)系統(tǒng)。如今的系統(tǒng)使用循環(huán)神經(jīng)網(wǎng)絡(luò),以利用詞嵌入的靈活性。12.2.3自然語言處理的任務(wù)(5)信息檢索。其任務(wù)是查找與給定查詢相關(guān)且重要的文檔。百度和谷歌等互聯(lián)網(wǎng)搜索引擎每天都會執(zhí)行數(shù)十億次這樣的任務(wù)。(6)問答。與信息檢索不同,它的查詢其實是一個問題,如“誰創(chuàng)立了美國海岸警衛(wèi)隊”,查詢結(jié)果也不是一個排好序的文檔列表,而是一個實際答案:“AlexanderHamilton.(亞歷山大·漢密爾頓)”。自20世紀60年代以來,就已經(jīng)出現(xiàn)了依賴于句法分析的問答系統(tǒng),但是直到2001年,這類系統(tǒng)才開始使用網(wǎng)頁信息檢索,從根本上增加了系統(tǒng)的覆蓋范圍。12.2.3自然語言處理的任務(wù)在數(shù)學(xué)、邏輯和計算機科學(xué)中,所謂“形式語言”是用精確的數(shù)學(xué)或機器可處理的公式定義的語言。形式語言一般有兩個方面:語法和語義。專門研究語言語法的數(shù)學(xué)和計算機科學(xué)分支叫做形式語言理論,其中的形式語言就是一個字母表上的某些有限長字符串的集合。一個形式語言可以包含無限多個字符串,然而自然語言(如英語或漢語)就無法如此清晰地表示。12.2.4語言模型我們將語言模型定義為描述任意字符串可能性的概率分布。通過語言模型可以預(yù)測文本中接下來可能出現(xiàn)的單詞,從而為電子郵件或短信息提供補全建議??梢杂嬎愠鰧ξ谋具M行哪些更改會使其具有更高的概率,從而提供拼寫或文法更正建議。通過一對語言模型,可以計算出一個句子最可能的翻譯。用一些示例“問題-答案”對作為訓(xùn)練數(shù)據(jù),可以計算出針對某一問題的最可能的答案。因此,語言模型是各種自然語言任務(wù)的核心。語言建模任務(wù)本身也可以作為衡量語言理解進度的通用基準。12.2.4語言模型自然語言是復(fù)雜的,因此任何語言模型充其量只能是自然語言的一個近似。語言學(xué)家愛德華·薩丕爾曾說“沒有一種語言是絕對一成不變的,任何文法都會有所遺漏”。哲學(xué)家唐納德·戴維森曾經(jīng)表達過這樣的意思:沒有一種像Python3.8那樣的確定性的自然語言模型,人們有不同的模型,但人類仍然設(shè)法應(yīng)對過去了,并進行交流。12.2.4語言模型傳統(tǒng)情況下,CNN(卷積神經(jīng)網(wǎng)絡(luò))和RNN(遞歸神經(jīng)網(wǎng)絡(luò))幾乎占據(jù)著深度學(xué)習(xí)的半壁江山。而如今,人們正越來越關(guān)注Transformer模型結(jié)構(gòu)(圖12-6)。Transformer一開始就是為語言任務(wù)而設(shè)計的,但它在模仿大腦方面也有著很大的潛力,它是一個利用注意力機制來提高模型訓(xùn)練速度的深度學(xué)習(xí)模型。它適用于并行計算,其本身模型的復(fù)雜程度使得它在精度和性能上都要高于傳統(tǒng)的CNN和RNN,它完全由Self-attention(自我關(guān)注)機制組成,它不僅賦予各種AI應(yīng)用模型寫文作詩的功能,而且在多模態(tài)方面也大放異彩。12.2.4語言模型圖12-6Transformer模型結(jié)構(gòu)12.2.4語言模型PART03語法類型與語義分析自然語言理解的研究工作最早的是機器翻譯。1949年,美國人威弗首先提出了機器翻譯設(shè)計方案,此后,自然語言處理歷史大致分為6個時期(表12-1)。12.3語法類型與語義分析表12-1NLP的6個時期12.3語法類型與語義分析自然語言處理的歷史可追溯到以圖靈的計算算法模型為基礎(chǔ)的計算機科學(xué)發(fā)展之初。在奠定了初步基礎(chǔ)后,該領(lǐng)域出現(xiàn)了許多子領(lǐng)域,每個子領(lǐng)域都為計算機進一步的研究提供了沃土。隨著計算機的速度和內(nèi)存的不斷增加,可用的高性能計算系統(tǒng)加速了發(fā)展。隨著大量用戶可用更多的計算能力,語音和語言處理技術(shù)可以應(yīng)用于商業(yè)領(lǐng)域。特別是在各種環(huán)境中,具有拼寫/語法校正工具的語音識別變得更加常用。由于信息檢索和信息提取成了Web應(yīng)用的關(guān)鍵部分,因此Web是這些應(yīng)用的另一個主要推動力。12.3語法類型與語義分析近年來,無監(jiān)督的統(tǒng)計方法重新得到關(guān)注。這些方法有效地應(yīng)用到了對單獨、未加注釋的數(shù)據(jù)進行機器翻譯方面??煽?、已注釋的語料庫的開發(fā)成本成了監(jiān)督學(xué)習(xí)方法使用的限制因素。12.3語法類型與語義分析在自然語言處理中,我們可以在一些不同結(jié)構(gòu)層次上對語言進行分析,如句法、詞法和語義等,所涉及到的一些關(guān)鍵術(shù)語簡單介紹如下:詞法——對單詞的形式和結(jié)構(gòu)的研究,還研究詞與詞根以及詞的衍生形式之間的關(guān)系。句法——將單詞放在一起形成短語和句子的方式,通常關(guān)注句子結(jié)構(gòu)的形成。語義學(xué)——語言中對意義進行研究的科學(xué)。12.3.1語法類型解析——將句子分解成語言組成部分,并對每個部分的形式、功能和語法關(guān)系進行解釋。語法規(guī)則決定了解析方式。詞匯——與語言的詞匯、單詞或語素(原子)有關(guān)。詞匯源自詞典。語用學(xué)——在語境中運用語言的研究。省略——省略了在句法上所需的句子部分,但是,從上下文而言,句子在語義上是清晰的。12.3.1語法類型學(xué)習(xí)語法是學(xué)習(xí)語言和教授計算機語言的一種好方法。費根鮑姆等人將語言的語法定義為“指定在語言中所允許語句的格式,指出將單詞組合成形式完整的短語和子句的句法規(guī)則?!甭槭±砉W(xué)院的語言學(xué)家諾姆·喬姆斯基在對語言語法進行數(shù)學(xué)式的系統(tǒng)研究中做出了開創(chuàng)性的工作,為計算語言學(xué)領(lǐng)域的誕生奠定了基礎(chǔ)。他將形式語言定義為一組由符號詞匯組成的字符串,這些字符串符合語法規(guī)則。字符串集對應(yīng)于所有可能句子的集合,其數(shù)量可能無限大。符號的詞匯表對應(yīng)于有限的字母或單詞詞典。12.3.1語法類型喬姆斯基非常了解形式語法的局限性,提出語言必須在兩個層面上進行分析:表面結(jié)構(gòu),進行語法上的分析和解析;基礎(chǔ)結(jié)構(gòu)(深層結(jié)構(gòu)),保留句子的語義信息。關(guān)于復(fù)雜的計算機系統(tǒng),通過與醫(yī)學(xué)示例的類比,道江教授總結(jié)了表面理解和深層理解之間的區(qū)別:“一位患者的臀部有一個膿腫,通過穿刺可以除去這個膿腫。但是,如果他患的是會迅速擴散的癌癥(一個深層次的問題),那么任何次數(shù)的穿刺都不能解決這個問題。”12.3.2語義分析研究人員解決這個問題的方法是增加更多的知識,如關(guān)于句子的更深層結(jié)構(gòu)的知識、關(guān)于句子目的的知識、關(guān)于詞語的知識,甚至詳盡地列舉句子或短語的所有可能含義的知識。在過去幾十年中,隨著計算機速度和內(nèi)存的成倍增長,這種完全枚舉的可能性變得更如現(xiàn)實。12.3.2語義分析PART04處理數(shù)據(jù)與處理工具現(xiàn)代NLP算法是基于機器學(xué)習(xí),特別是統(tǒng)計機器學(xué)習(xí)的,它不同于早期的嘗試語言處理,通常涉及大量的規(guī)則編碼。12.4處理數(shù)據(jù)與處理工具統(tǒng)計方法需要大量數(shù)據(jù)才能訓(xùn)練概率模型。出于這個目的,在語言處理應(yīng)用中,使用了大量的文本和口語集。這些集由大量句子組成,人類注釋者對這些句子進行了語法和語義信息的標記。自然語言處理中的一些典型的自然語言處理數(shù)據(jù)集包括:tc-corpus-train(語料庫訓(xùn)練集)、面向文本分類研究的中英文新聞分類語料、以IG卡方等特征詞選擇方法生成的多維度ARFF格式中文VSM模型、萬篇隨機抽取論文中文DBLP資源、用于非監(jiān)督中文分詞算法的中文分詞詞庫、UCI評價排序數(shù)據(jù)、帶有初始化說明的情感分析數(shù)據(jù)集等。12.4.1統(tǒng)計自然語言處理數(shù)據(jù)集許多不同類型的機器學(xué)習(xí)算法已應(yīng)用于自然語言處理任務(wù),這些算法的輸入是一大組從輸入數(shù)據(jù)生成的“特征”。一些最早使用的算法,如決策樹,產(chǎn)生類似于手寫的if-then規(guī)則。隨著越來越多的研究集中于統(tǒng)計模型,人們愈加重視基于附加實數(shù)值的權(quán)重,每個輸入要素的可適應(yīng)性,概率的決策性等。此類模型能夠表達許多不同的可能答案,而不是只有一個相對的確定性,這種模型被包括作為較大系統(tǒng)的一個組成部分。12.4.2自然語言處理工具(1)OpenNLP:是一個基于Java機器學(xué)習(xí)工具包,用于處理自然語言文本。支持大多數(shù)常用的NLP任務(wù),例如:標識化、句子切分、部分詞性標注、名稱抽取、組塊、解析等。12.4.2自然語言處理工具(2)FudanNLP:主要是為中文自然語言處理而開發(fā)的工具包,也包含為實現(xiàn)這些任務(wù)的機器學(xué)習(xí)算法和數(shù)據(jù)集。本工具包及其包含數(shù)據(jù)集使用LGPL3.0許可證,其開發(fā)語言為Java,主要功能是:·文本分類:新聞聚類;·中文分詞:詞性標注、實體名識別、關(guān)鍵詞抽取、依存句法分析、時間短語識別;·結(jié)構(gòu)化學(xué)習(xí):在線學(xué)習(xí)、層次分類、聚類、精確推理。12.4.2自然語言處理工具(3)語言技術(shù)平臺:是哈工大社會計算與信息檢索研究中心歷時十年開發(fā)的一整套中文語言處理系統(tǒng),系統(tǒng)制定了基于XML的語言處理結(jié)果表示,并在此基礎(chǔ)上提供了一整套自底向上的豐富而且高效的中文語言處理模塊(包括詞法、句法、語義等6項中文處理核心技術(shù)),以及基于動態(tài)鏈接庫的應(yīng)用程序接口,可視化工具,并且能夠以網(wǎng)絡(luò)服務(wù)的形式進行使用。12.4.2自然語言處理工具自然語言處理的技術(shù)難點一般有:(1)單詞的邊界界定。在口語中,詞與詞之間通常是連貫的,而界定字詞邊界通常使用的辦法是取用能讓給定的上下文最為通順且在文法上無誤的一種最佳組合。在書寫上,漢語也沒有詞與詞之間的邊界。(2)詞義的消歧。許多字詞不單只有一個意思,因而我們必須選出使句意最為通順的解釋。12.4.3自然語言處理技術(shù)難點(3)句法的模糊性。自然語言的文法通常是模棱兩可的,針對一個句子通常可能會剖析出多棵剖析樹,而我們必須要仰賴語意及前后文的信息才能在其中選擇一棵最為適合的剖析樹。(4)有瑕疵的或不規(guī)范的輸入。例如語音處理時遇到外國口音或地方口音,或者在文本的處理中處理拼寫,語法或者光學(xué)字符識別(OCR)的錯誤。12.4.3自然語言處理技術(shù)難點(5)語言行為與計劃。句子常常并不只是字面上的意思;例如,“你能把鹽遞過來嗎”,一個好的回答應(yīng)當(dāng)是把鹽遞過去;在大多數(shù)上下文環(huán)境中,“能”將是糟糕的回答,雖說回答“不”或者“太遠了我拿不到”也是可以接受的。再者,如果一門課程上一年沒開設(shè),對于提問“這門課程去年有多少學(xué)生沒通過?”回答“去年沒開這門課”要比回答“沒人沒通過”好。12.4.3自然語言處理技術(shù)難點PART05語音處理語音處理是研究語音發(fā)聲過程、語音信號的統(tǒng)計特性、語音的自動識別、機器合成以及語音感知等各種處理技術(shù)的總稱。由于現(xiàn)代的語音處理技術(shù)都以數(shù)字計算為基礎(chǔ),并借助微處理器、信號處理器或通用計算機加以實現(xiàn),因此也稱數(shù)字語音信號處理。語音信號處理是一門多學(xué)科的綜合技術(shù)。它以生理、心理、語言以及聲學(xué)等基本實驗為基礎(chǔ),以信息論、控制論、系統(tǒng)論的理論作指導(dǎo),通過應(yīng)用信號處理、統(tǒng)計分析、模式識別等現(xiàn)代技術(shù)手段,發(fā)展成為新的學(xué)科。12.5語音處理語音信號處理的研究起源于對發(fā)音器官的模擬。1939年美國H.杜德萊展示了一個簡單的發(fā)音過程模擬系統(tǒng),以后發(fā)展為聲道的數(shù)字模型。利用該模型可以對語音信號進行各種頻譜及參數(shù)的分析,進行通信編碼或數(shù)據(jù)壓縮的研究,同時也可根據(jù)分析獲得的頻譜特征或參數(shù)變化規(guī)律,合成語音信號,實現(xiàn)機器的語音合成。利用語音分析技術(shù),還可以實現(xiàn)對語音的自動識別,發(fā)音人的自動辨識,如果與人工智能技術(shù)結(jié)合,還可以實現(xiàn)各種語句的自動識別以至語言的自動理解,從而實現(xiàn)人機語音交互應(yīng)答系統(tǒng),真正賦予計算機以聽覺的功能。12.5.1語音處理的發(fā)展語言信息主要包含在語音信號的參數(shù)之中,因此準確而迅速地提取語言信號的參數(shù)是進行語音信號處理的關(guān)鍵。常用的語音信號參數(shù)有:共振峰幅度、頻率與帶寬、音調(diào)和噪音、噪音的判別等。后來又提出了線性預(yù)測系數(shù)、聲道反射系數(shù)和倒譜參數(shù)等參數(shù)。這些參數(shù)僅僅反映了發(fā)音過程中的一些平均特性,而實際語言的發(fā)音變化相當(dāng)迅速,需要用非平穩(wěn)隨機過程來描述,因此,20世紀80年代之后,研究語音信號非平穩(wěn)參數(shù)分析方法迅速發(fā)展,人們提出了一整套快速的算法,還有利用優(yōu)化規(guī)律實現(xiàn)以合成信號統(tǒng)計分析參數(shù)的新算法,取得了很好的效果。12.5.1語音處理的發(fā)展當(dāng)語音處理向?qū)嵱没l(fā)展時,人們發(fā)現(xiàn)許多算法的抗環(huán)境干擾能力較差。因此,在噪聲環(huán)境下保持語音信號處理能力成為了一個重要課題。這促進了語音增強的研究。一些具有抗干擾性的算法相繼出現(xiàn)。當(dāng)前,語音信號處理日益同智能計算技術(shù)和智能機器人的研究緊密結(jié)合,成為智能信息技術(shù)中的一個重要分支。12.5.1語音處理的發(fā)展語音信號處理在通信、國防等部門中有著廣闊的應(yīng)用領(lǐng)域。為了改善通信中語言信號的質(zhì)量而研究的各種頻響修正和補償技術(shù),為了提髙效率而研究的數(shù)據(jù)編碼壓縮技術(shù),以及為了改善通信條件而研究的噪聲抵消及干擾抑制技術(shù),都與語音處理密切相關(guān)。在金融部門應(yīng)用語音處理,開始利用說話人識別和語音識別實現(xiàn)根據(jù)用戶語音自動存款、取款的業(yè)務(wù)。在儀器儀表和控制自動化生產(chǎn)中,利用語音合成讀出測量數(shù)據(jù)和故障警告。隨著語音處理技術(shù)的發(fā)展,可以預(yù)期它將在更多部門得到應(yīng)用。12.5.1語音處理的發(fā)展人們通常更方便說話而不是打字,因此語音識別軟件非常受歡迎。口述命令比用鼠標或觸摸板點擊按鈕更快。要在Windows中打開如“記事本”這樣的程序,需要單擊開始、程序、附件,最后點擊記事本,最輕松也需要點擊四到五次。語音識別軟件允許用戶簡單地說“打開記事本”,就可以打開程序,節(jié)省了時間,有時也改善了心情。12.5.2語音理解語音理解是指利用知識表達和組織等人工智能技術(shù)進行語句自動識別和語意理解。同語音識別的主要不同點是對語法和語義知識的充分利用程度。語音理解起源于1971年美國遠景研究計劃局(ARPA)資助的一個龐大研究項目,該項目要達到的目標叫做語音理解系統(tǒng)。由于人對語音有廣泛的知識,可以對要說的話有一定的預(yù)見性,所以人對語音具有感知和分析能力。依靠人對語言和談?wù)摰膬?nèi)容所具有的廣泛知識,利用知識提高計算機理解語言的能力,就是語音理解研究的核心。12.5.2語音理解利用理解能力,可以使系統(tǒng)提高性能:①能排除噪聲和嘈雜聲;②能理解上下文的意思并能用它來糾正錯誤,澄清不確定的語義;③

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論