自然語言理解技術(shù)_第1頁
自然語言理解技術(shù)_第2頁
自然語言理解技術(shù)_第3頁
自然語言理解技術(shù)_第4頁
自然語言理解技術(shù)_第5頁
已閱讀5頁,還剩1頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、自然語言理解技術(shù),未來人工智能的核動力摘要:自然語言理解是人工智能研究重要的領(lǐng)域之一,同時也是目前前沿的難題之一。它研究能實(shí)現(xiàn)人與 計(jì)算機(jī)之間用自然語言進(jìn)行有效通信的各種理論和方法,是未來人工智能的核動力。因此理解自然語言理 解以及自然語言理解技術(shù)的含義,闡述自然語言理解的研究及其相關(guān)應(yīng)用,綜述自然語言理解技術(shù)研究方 向變化并對自然語言理解的發(fā)展前景進(jìn)行分析和展望,是十分有意義的。關(guān)鍵詞:自然語言理解技術(shù);智能信息服務(wù);引言:隨著計(jì)算機(jī)科學(xué)的不斷發(fā)展和成熟,計(jì)算機(jī)應(yīng)用開始邁人知識處理、語言理解階段,人 們對計(jì)算機(jī)的智能提出了新的要求隨著社會的日益信息化,人們越來越強(qiáng)烈地希望能更好地 同計(jì)算機(jī)交

2、流。自然語言就是這樣一個媒介。1自然語言理解的含義:廣義的“語言”是任何一種有結(jié)構(gòu)的符號系統(tǒng)。其中,最重要的兩類語言,自然語言和 形式語言。而狹義的“語言”是人類在社會?;钪邪l(fā)展出來的用來互相交際的聲音符號系統(tǒng), 是“自然語言”?!白匀徽Z言理解”即Natural Language Understanding俗稱人機(jī)對話,指的就是使計(jì) 算機(jī)來按照這種語言所表達(dá)的意義做出相應(yīng)反應(yīng)的機(jī)制。它主要研究用電子計(jì)算機(jī)模擬人的 語言交際過程,使計(jì)算機(jī)能理解和運(yùn)用人類社會的自然語言如漢語、英語等,實(shí)現(xiàn)人機(jī)之間 的自然語言通信,以代替人的部分腦力勞動,包括查詢資料、解答問題、摘錄文獻(xiàn)、匯編資 料以及一切有關(guān)自然

3、語言信息的加工處理。這在當(dāng)前新技術(shù)革命的浪潮中占有十分重要的地 位。自然語言理解是計(jì)算機(jī)科學(xué)中的一個引人入勝的、富有挑戰(zhàn)性的課題。從計(jì)算機(jī)科學(xué)特 別是從人工智能的觀點(diǎn)看,自然語言理解的任務(wù)是建立一種計(jì)算機(jī)模型,這種計(jì)算機(jī)模型能 夠給出象人那樣理解、分析并回答自然語言(即人們?nèi)粘J褂玫母鞣N通俗語言)的結(jié)果。2. 1自然語言理解技術(shù)的含義:首先,自然語言是極其復(fù)雜的符號系統(tǒng)。一個人盡管可以對自己的母語運(yùn)用自如,但卻 無法把自己母語的構(gòu)成規(guī)律、意義的表達(dá)規(guī)律和語言使用的規(guī)律用計(jì)算機(jī)可以接受的方式徹 底說清楚。傳統(tǒng)的語言學(xué)是在沒有計(jì)算機(jī)參照的條件下發(fā)展起來的,雖然為自然語言理解積 累了寶貴的財(cái)富,但那

4、是講給人的,真正要讓語言學(xué)知識變成計(jì)算機(jī)上可操作的,絕不是 那么簡單,也不能那么模糊。這個目標(biāo)的實(shí)現(xiàn),需要大量又懂語言學(xué)又懂計(jì)算機(jī)的人在正確 的技術(shù)路線的指導(dǎo)下一起做非常大規(guī)模的基本建設(shè),絕不是一拍腦袋想出個“絕招”就能 解決的。其次,自然語言的各個層次上都含有巨大的不確定性。在語音和文字層次上,有一字多 音、一音多字的問題;在詞法和句法層次上,有詞類詞性、詞邊界、句法結(jié)構(gòu)的不確定性問 題;在語義和語用層次上,也有大量的因種種原因造成的內(nèi)涵、外延、指代、言外之義的不 確定性。語言學(xué)上把這些不確定性叫做“歧義”。歧義一般不能通過發(fā)生歧義的語言單位自 身獲得解決,而必須借助于更大的語言單位乃至非語

5、言的環(huán)境背景因素和常識來解決。人類 有很強(qiáng)的依靠整體消除局部不確定性的能力和常識推理能力,體現(xiàn)在語言上就是利用語境 信息和常識消除歧義的能力。使計(jì)算機(jī)獲得同樣強(qiáng)大的能力,是從事自然語言理解的學(xué)者夢 寐以求的目標(biāo)。另外,自然語言不是一成不變的死的語言,它在社會生活中發(fā)展,在操不同語言和同 一語言的不同變體的人們之間的相互影響中變化。一個詞、一個說法可能在一夜之間突然流 行起來;特殊的人群結(jié)構(gòu)變化會導(dǎo)致新的語言或新的語言變體(如方言)的出現(xiàn)。這些都要 求理解自然語言的計(jì)算機(jī)程序要具有對外界語言環(huán)境的應(yīng)變能力。最后一點(diǎn),自然語言是人們交流思想的工具。既然交流的是思想,那思想本身在計(jì)算機(jī) 里的組織結(jié)構(gòu)

6、就顯得格外重要。在人工智能里,這就是“知識表示”的問題。可以說,在知 識表示問題上的突破,對于自然語言理解的進(jìn)展將產(chǎn)生決定性的影響。在上述四個方面,都有許多學(xué)者在勇敢地迎接挑戰(zhàn),使計(jì)算機(jī)程序一步步地朝著不限 領(lǐng)域的自然語言理解的遠(yuǎn)大目標(biāo)前進(jìn)。3.1自然語言處理的層次語音分析根據(jù)音位規(guī)則,從語音流中區(qū)分出一個個獨(dú)立的音素,再根據(jù)音位形態(tài)規(guī)則找出一個 個音節(jié)及其對應(yīng)的詞素或詞。詞法分析分析目的是找出詞匯的各個詞素,從中獲得語言學(xué)的信息。句法分析對句子和短語的結(jié)構(gòu)進(jìn)行分析,目的是找出詞、短語等的相互關(guān)系以及各自在句中的 作用。語義分析分析目的是找出詞義、結(jié)構(gòu)意義及其結(jié)合意義,從而確定語言所表達(dá)的真正

7、含義或概 念。語用分析研究語言所存在的外界環(huán)境對語言使用者所產(chǎn)生的影響。3.2自然語言理解的主要思想:認(rèn)知學(xué)觀點(diǎn)將人類視為一種高級信息處理系統(tǒng),強(qiáng)調(diào)對于人類智能活動的研究以及在計(jì)算機(jī)上的模 擬和實(shí)現(xiàn)。語用學(xué)觀點(diǎn)將語言視為人與人之間的通信媒介,任何對于話語的理解或生成都不能脫離該話語存 在的前后語境和該話語使用者的心理背景。語言學(xué)觀點(diǎn)對自然語言進(jìn)行研究的最初也是最基本的方法,強(qiáng)調(diào)對于句子結(jié)構(gòu)和語法的研究,重點(diǎn) 在于描述語言,尋找或構(gòu)造一組能包含盡可能多的語言現(xiàn)象的普遍適用的語法規(guī)則。4.1自然語言理解技術(shù)研究方向變化:大約90年代開始,自然語言處理領(lǐng)域發(fā)生了巨大的變化。這種變化的兩個明顯的特征

8、是:(1)對系統(tǒng)輸入,要求研制的自然語言處理系統(tǒng)能處理大規(guī)模的真實(shí)文本,而不是如 以前的研究性系統(tǒng)那樣,只能處理很少的詞條和典型句子。只有這樣,研制的系統(tǒng)才有真正 的實(shí)用價(jià)值。(2)對系統(tǒng)的輸出,鑒于真實(shí)地理解自然語言是十分困難的,對系統(tǒng)并不要求能對自 然語言文本進(jìn)行深層的理解,但要能從中抽取有用的信息。例如,對自然語言文本進(jìn)行自動 地提取索引詞,過濾,檢索,自動提取重要信息,進(jìn)行自動摘要等等。同時,由于強(qiáng)調(diào)了 “大規(guī)模”,強(qiáng)調(diào)了 “真實(shí)文本”,下面兩方面的基礎(chǔ)性工作也得到 了重視和加強(qiáng)。(1)大規(guī)模真實(shí)語料庫的研制。大規(guī)模的經(jīng)過不同深度加工的真實(shí)文本的語料庫,是 研究自然語言統(tǒng)計(jì)性質(zhì)的基礎(chǔ)。

9、沒有它們,統(tǒng)計(jì)方法只能是無源之水。(2)大規(guī)模、信息豐富的詞典的編制工作。規(guī)模為幾萬,十幾萬,甚至幾十萬詞,含 有豐富的信息(如包含詞的搭配信息)的計(jì)算機(jī)可用詞典對自然語言處理的重要性是很明顯 的。雖然上述新趨勢給自然語言處理領(lǐng)域帶來了成果,但從理論方法的角度看,由于采集、 整理、表示和有效應(yīng)用大量知識的困難,這些系統(tǒng)更依賴于統(tǒng)計(jì)學(xué)的方法和其他“簡單”的 方法或技巧。而這些統(tǒng)計(jì)學(xué)的方法和其他“簡單”的方法似乎也快達(dá)到它們的極限了,因此, 目前在自然語言處理界廣泛爭論的一個問題便是:要取得新的更大的進(jìn)展,主要有待于理論 上的突破呢,還是可由目前已有的方法的完善和優(yōu)化實(shí)現(xiàn)?答案還不清楚。大致上,更

10、多的 語言學(xué)家傾向于前一種意見,而更多的工程師則傾向于后一種意見?;卮鸹蛟S在“中間”, 即應(yīng)將基于知識和推理的深層方法與基于統(tǒng)計(jì)等“淺層”方法結(jié)合起來。4.2發(fā)展歷程:現(xiàn)在的計(jì)算機(jī)的智能還遠(yuǎn)遠(yuǎn)沒有達(dá)到能夠象人一樣理解自然語言的水平,而且在可預(yù)見 的將來也達(dá)不到這樣的水平。因此,關(guān)于計(jì)算機(jī)對自然語言的理解一般是從實(shí)用的角度進(jìn)行 評判的。如果計(jì)算機(jī)實(shí)現(xiàn)了人機(jī)會話,或機(jī)器翻譯,或自動文摘等語言信息處理功能,則認(rèn) 為計(jì)算機(jī)具備了自然語言理解的能力。目前存在的問題有兩個方面:一方面,迄今為止的語法都限于分析一個孤立的句子,上 下文關(guān)系和談話環(huán)境對本句的約束和影響還缺乏系統(tǒng)的研究,因此分析歧義、詞語省略、

11、代 詞所指、同一句話在不同場合或由不同的人說出來所具有的不同含義等問題,尚無明確規(guī)律 可循,需要加強(qiáng)語用學(xué)的研究才能逐步解決。另一方面,人理解一個句子不是單憑語法,還 運(yùn)用了大量的有關(guān)知識,包括生活知識和專門知識,這些知識無法全部貯存在計(jì)算機(jī)里。因 此一個書面理解系統(tǒng)只能建立在有限的詞匯、句型和特定的主題范圍內(nèi);計(jì)算機(jī)的貯存量和 運(yùn)轉(zhuǎn)速度大大提高之后,才有可能適當(dāng)擴(kuò)大范圍.4.2.1我國的發(fā)展?fàn)顩r:我國自然語言理解的研究起步較晚,比國外晚了 17年。國外在1963年就建成了早期的 自然語言理解系統(tǒng),而我國直到1980年才建成了兩個漢語自然語言理解模型,都以人機(jī)對 話的方式來實(shí)現(xiàn)。八十年代中期,

12、在國際新一代計(jì)算機(jī)激烈競爭的影響下,自然語言理解的研究在國內(nèi)得 到了更多的重視,自然語言理解和人機(jī)接口列入了新一代計(jì)算機(jī)的研制規(guī)劃,研究單位增 多了,研究隊(duì)伍也壯大了。自然語言處理研究在電子計(jì)算機(jī)問世之初就開始了,并于50年代初開展了機(jī)器翻譯試 驗(yàn)。當(dāng)時的研究方法還不能稱作帶有智能氣到了 60年代喬姆斯基的轉(zhuǎn)換生成語法得到廣 泛的認(rèn)可,生成語法的核心是短語結(jié)構(gòu)規(guī)則,分析句子結(jié)構(gòu)的過程就是利用規(guī)則自頂向下或 自底向上的句法樹生成過程。60年代至70年代初期,研究工作一直停留在單詞的語音識別上,進(jìn)展不大。直到70 年代中期才有所突破,建立了一些實(shí)驗(yàn)系統(tǒng),能夠理解連續(xù)語音的內(nèi)容,但是還限于少數(shù)簡單

13、的語句大約90年代開始,自然語言處理領(lǐng)域發(fā)生了巨大的變化。這種變化的兩個明顯的特征是:(1)對系統(tǒng)輸入,要求研制的自然語言處理系統(tǒng)能處理大規(guī)模的真實(shí)文本,而不是如 以前的研究性系統(tǒng)那樣,只能處理很少的詞條和典型句子。只有這樣,研制的系統(tǒng)才有真正 的實(shí)用價(jià)值。(2)對系統(tǒng)的輸出,鑒于真實(shí)地理解自然語言是十分困難的,對系統(tǒng)并不要求能對自 然語言文本進(jìn)行深層的理解,但要能從中抽取有用的信息。例如,對自然語言文本進(jìn)行自動 地提取索引詞,過濾,檢索,自動提取重要信息,進(jìn)行自動摘要等等。同時,由于強(qiáng)調(diào)了 “大規(guī)?!保瑥?qiáng)調(diào)了 “真實(shí)文本”,下面兩方面的基礎(chǔ)性工作也得到 了重視和加強(qiáng)。(1)大規(guī)模真實(shí)語料庫的

14、研制。大規(guī)模的經(jīng)過不同深度加工的真實(shí)文本的語料庫,是 研究自然語言統(tǒng)計(jì)性質(zhì)的基礎(chǔ)。沒有它們,統(tǒng)計(jì)方法只能是無源之水。(2)大規(guī)模、信息豐富的詞典的編制工作。規(guī)模為幾萬,十幾萬,甚至幾十萬詞,含 有豐富的信息(如包含詞的搭配信息)的計(jì)算機(jī)可用詞典對自然語言處理的重要性是很明顯 的。5結(jié)論:自然語言處理意義在于:一方面,如果計(jì)算機(jī)能夠理解、處理自然語言,將是計(jì)算機(jī)技 術(shù)的一項(xiàng)重大突破;另一方面,自然語言處理有助于揭開人類高度智能的奧秘,深化對語言 能力和思維本質(zhì)的認(rèn)識。和人類進(jìn)步過程中其他任何一種技術(shù)的發(fā)展歷程一樣,自然語言理解技術(shù)在任何一個不 同的成熟階段都有一個不同的應(yīng)用形式和不同的市場定位。在這種技術(shù)到市場再到技術(shù)的螺 旋式上升的過程中,技術(shù)越來越成熟,市場也越來越成熟,從而讓技術(shù)更好地為人類服務(wù)。 自然語言理解技術(shù)給人工智能服務(wù)提供了威力巨大的核動力,智能信息服務(wù)給人類更自然、 自主的信息交流手段,將創(chuàng)造出全新的產(chǎn)業(yè)空間。人們渴望發(fā)展自然語言理解技術(shù)以加速信 息、知識與文化的交流,促進(jìn)社會、經(jīng)濟(jì)、科學(xué)的進(jìn)步,這是自然語言理解技術(shù)新的強(qiáng)大的 推動力量,也是每一個國家都面臨的新的挑戰(zhàn)。參考文獻(xiàn):1黃培紅.基于自然語言理解的認(rèn)知系統(tǒng)算法初探

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論