自然語言理解NLP_第1頁
自然語言理解NLP_第2頁
自然語言理解NLP_第3頁
自然語言理解NLP_第4頁
自然語言理解NLP_第5頁
已閱讀5頁,還剩18頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、自然語言理解 1.自然語言理解概述 2.自然語言的特點 3.自然語言理解過程 4.自然語言理解的研究層次 5.相關(guān)技術(shù)與應(yīng)用 6.NLP主要難點歧義問題 1.自然語言理解概述 v自然語言理解NLP(NLP,Nature Language Processing):(或者更一般地稱為自然語言處理 )俗稱“人機對話”,是一種使機器能理解人類語 言(像中文、英文等人類語言稱為自然語言)的技 術(shù)。 v是計算機科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個重要方 向。它研究能實現(xiàn)人與計算機之間用自然語言進行 有效通信的各種理論和方法。 v包括查詢資料、解答問題、摘錄文獻、匯編資料以 及一切有關(guān)自然語言信息的加工處理。 v

2、例如,如果有一臺機器既能理解中文又能理解英文 ,那么,這臺機器就可以為人類充當(dāng)翻譯;如果電 視能理解中文,那么,用戶就可以不用按鈕,而是 通過說話來遙控電視 v語言究竟是怎樣組織起來傳輸信息的?人又是怎樣 從一連串的語言符號中獲取信息的? 2.自然語言的特點自然語言的特點 v由詞構(gòu)成,中文構(gòu)詞以兩個為主。 v 有一定結(jié)構(gòu),如:主謂賓,特殊句型。 v 由“名詞塊”與“動詞塊”組成。 v 有復(fù)雜性:本身復(fù)雜、缺省、習(xí)慣用語 v 允許歧義,上下文排除 v 非歧義的句子含義也較多(有多個結(jié)果,有些在某 領(lǐng)域有用)。 3.自然語言理解過程自然語言理解過程 1 拆分過程: 詞法分析。 2 合并過程: 句法

3、及語義分析,每一次語義分析, 涉及若干個詞,一般是(動詞名詞)對,符合語 義(一個簡單句算分析成功),若干詞生成一個事 件,事件轉(zhuǎn)換為名詞,參與新的合并。 例句: 2加3等于5。 2加3是簡單句;生成23 23是新名詞, 23等于5又是簡單句; 生成 23 5 3 程序結(jié)束(理解完): 所有詞,經(jīng)過句法和語義分 析,最終生成一個詞,即:生成一個事件。 4 理解的意義: 在合并過程中,根據(jù)詞義搭配,生 成相應(yīng)的內(nèi)容,數(shù)學(xué)中主要是運算關(guān)系。 例如:延長線段AB至D; 給出關(guān)系命令:AB+BD=AD 給出繪圖命令:沿AB方向,延長線段AB至點D。 4.自然語言理解的研究層次 語用學(xué): 語法學(xué): 語義

4、學(xué): 形態(tài)學(xué): 5.相關(guān)技術(shù)與應(yīng)用 1.信息抽取(Information Extraction,IE):其目的是 將非結(jié)構(gòu)化或半結(jié)構(gòu)化的自然語言描述文本轉(zhuǎn)化結(jié)構(gòu) 化的數(shù)據(jù)。 例如:自動根據(jù)郵件內(nèi)容生成Calendar; 2.自動問答(Question Answering,QA):它是一套 可以理解復(fù)雜問題,并以充分的準(zhǔn)確度、可信度和速 度給出答案的計算系統(tǒng),以IBMs Waston為代表; 3.情感分析(Sentiment Analysis,SA):又稱傾向 性分析和意見挖掘,它是對帶有情感色彩的主觀性文 本進行分析、處理、歸納和推理的過程,如從大量網(wǎng) 頁文本中分析用戶對“數(shù)碼相機”的“變焦、

5、價格、 大小、重量、閃光、易用性”等屬性的情感傾向; 4.機器翻譯(Machine Translation,MT):將文本從 一種語言轉(zhuǎn)成另一種語言,如中英機器翻譯。 NLP技術(shù)有非常廣泛的應(yīng)用。但是針對一定應(yīng)用,具 有相當(dāng)自然語言處理能力的實用系統(tǒng)已經(jīng)出現(xiàn),有些 已商品化,甚至開始產(chǎn)業(yè)化。 例如: 各種數(shù)據(jù)庫和專家系統(tǒng)的自然語言接口 各種機器翻譯系統(tǒng) 全文信息檢索系統(tǒng) 自動文摘系統(tǒng)等 Coreference resolution Question answering (QA) Part-of-speech (POS) tagging Word sense disambiguation (WS

6、D) Paraphrase Named entity recognition (NER) Parsing Summarization Information extraction (IE) Machine translation (MT) Dialog Sentiment analysis mostly solved making good progress still really hard Spam detection Lets go to Agra! Buy V1AGRA Colorless green ideas sleep furiously. ADJ ADJ NOUN VERB A

7、DV Einstein met with UN officials in Princeton PERSON ORG LOC Youre invited to our dinner party, Friday May 27 at 8:30 Party May 27 add Best roast chicken in San Francisco! The waiter ignored us for 20 minutes. Carter told Mubarak he shouldnt run again. I need new batteries for my mouse. The 13th Sh

8、anghai International Film Festival 第13屆上海國際電影節(jié)開幕 The Dow Jones is up Housing prices rose Economy is good Q. How effective is ibuprofen in reducing fever in patients with acute febrile illness? I can see Alcatraz from the window! XYZ acquired ABC yesterday ABC has been taken over by XYZ Where is Citi

9、zen Kane playing in SF? Castro Theatre at 7:30. Do you want a ticket? The S&P500 jumped 5.NLP的發(fā)展現(xiàn)狀 v基本解決:詞性標(biāo)注、命名實體識別、Spam識別 v取得長足進展:情感分析Sentiment analysis、共指消 解Coreference resolution、詞義消歧Word sense disambiguation 、句法分析Parsing、機器翻譯Machine translation (MT )、信息抽取Information extraction (IE) v挑戰(zhàn):自動問答、復(fù)述、

10、文摘、會話機器人 6.NLP主要難點歧義問題 1.詞法分析歧義: v分詞: 例如:“嚴(yán)守一把手機關(guān)了” 可能的分詞結(jié)果: “嚴(yán)守一/ 把/ 手機/ 關(guān)/ 了” “嚴(yán)守/ 一把手/ 機關(guān)/ 了” v詞性標(biāo)注: 例如“計劃”在不同上下文中有不同的詞性: “我/ 計劃/考/ 研/” “我/ 完成/ 了/ 計劃/” 2.語法分析歧義: “那只狼咬死了獵人的狗” “咬死了獵人的狗失蹤了” 3.語義分析歧義: 機器翻譯句子 “At last, a computer that understands you like your mother” 可以有多種含義,如下: “計算機會像你的母親那樣很好的理解你(的語言) ” “計算機理解你喜歡你的母親” “計算機會像很好的理解你的母親那樣理解你” 4.NLP應(yīng)用中的歧義音字轉(zhuǎn)換: 例如:拼音串 “ji qi fan yi ji qi ying yong ji qi le ren men ji qi nong hou de xing qu” (機器翻譯及其應(yīng)用激起了人們極其濃厚的興趣) 中的“ji qi”如何轉(zhuǎn)換成正確的詞條 為什么自然語言理解如此困難? v用戶生成內(nèi)容中存在大量口語化、成語、方言等非 標(biāo)準(zhǔn)的語言描述 v分詞問題 v新詞不斷產(chǎn)生 v基本常識與上下文知識 v各式各樣的實體詞 如何解決? 掌握較多的語言學(xué)知識,構(gòu)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論