




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
自然語言理解孫曉合肥工業(yè)大學計算機與信息學院情感計算與先進智能機器安徽省重點實驗室安徽省合肥市屯溪路193號郵編:230009電話:
安徽省重點實驗室
(斛兵樓313房間)《自然語言理解》講義,第
1
章2/121第1章
緒
論宗成慶:《自然語言理解》講義,第
1
章3/121宗成慶:《自然語言理解》講義,第
1
章5/121
1.1
問題的提出
自然語言是指人類日常使用的語言,如漢語、
英語、法語,德語,等等
語言是思維的載體,是人類交流思想、表達情
感最自然、最直接、最方便的工具
人類歷史上以語言文字形式記載和流傳的知識
占知識總量的80%以上
2008年1月中國互聯(lián)網(wǎng)絡信息中心
(CNNIC)
發(fā)
布的《第21次中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告》
表明,中國互聯(lián)網(wǎng)上有87.8%的網(wǎng)頁內(nèi)容是文本
表示的。1.1
問題的提出宗成慶:《自然語言理解》講義,第
1
章6/1211.1
問題的提出
無處不在的網(wǎng)絡、無處不在的通訊和
堆積如山的文檔,構(gòu)成了當今社會信息爆
炸的基本特征。當現(xiàn)代化的信息傳播手段
給人們的生活和工作帶來極大便利的同時,
也使人們面臨許多難以克服的困難和障礙。
有關(guān)專家指出,語言障礙是21世紀社會全
球化所面臨的主要困難之一。宗成慶:《自然語言理解》講義,第
1
章7/121122306120000
1.1
問題的提出
網(wǎng)絡信息檢索市場前景廣闊
全世界網(wǎng)頁數(shù)量正以指數(shù)速率增長
GB
140000網(wǎng)頁字節(jié)總量
指數(shù)
(網(wǎng)頁字節(jié)總量)100000
80000
67300
60000
40000
20537
2000031592878605902001年2002年2003年2004年2005年2006年
中文網(wǎng)頁檢索的最高準確率不足
40%宗成慶:《自然語言理解》講義,第
1
章8/121
1.1
問題的提出機器翻譯市場潛力巨大文化商貿(mào)旅游體育
……跨語言通訊與信息獲取具有重要的用途宗成慶:《自然語言理解》講義,第
1
章11/121
1.1
問題的提出利用網(wǎng)絡組織犯罪,已成為恐怖活動的新特點
印尼巴厘島爆炸宗成慶:《自然語言理解》講義,第
1
章12/121
1.1
問題的提出如何讓計算機實現(xiàn)自動的或人機互助的
語言處理功能?如何讓計算機實現(xiàn)海量語言信息的自動
處理、知識挖掘和有效利用?
自然語言理解
Natural
Language
Understanding,
NLU宗成慶:《自然語言理解》講義,第
1
章14/1211.2
基本概念宗成慶:《自然語言理解》講義,第
1
章15/121
1.2
基本概念
語言
vs.
自然語言
語言學
vs.
語音學
自然語言理解
vs.
自然語言處理
vs.
計算語言學
vs.
中文信息處理宗成慶:《自然語言理解》講義,第
1
章16/121
1.2
基本概念
定義1-1:語言
(language)
人類所特有的用來表達意思、交流思想的工具,
是一種特殊的社會現(xiàn)象,由語音、詞匯和語法構(gòu)成
一定的系統(tǒng)?!罢Z言”一般包括它的書面形式,但
在與“文字”并舉時只指口語。
-商務印書館,《現(xiàn)代漢語詞典》,
1996
自然語言指人類社會發(fā)展過程中自然產(chǎn)生的語言,
而不是人為編造的語言,如程序語言等。宗成慶:《自然語言理解》講義,第
1
章17/121
1.2
基本概念
定義1-2:語言學
(linguistics)
語言學是指對語言的科學研究。
-戴維?克里斯特爾,《現(xiàn)代語言學詞典》,1997
研究語言的本質(zhì)、結(jié)構(gòu)和發(fā)展規(guī)律的科學。
-商務印書館,《現(xiàn)代漢語詞典》,1996
語音和文字是語言的兩個基本屬性。宗成慶:《自然語言理解》講義,第
1
章18/121括:
1.2
基本概念
定義1-3:語音學
(phonetics)
研究人類發(fā)音特點,特別是語音發(fā)音特點,并提出各種語音描述、分類和轉(zhuǎn)寫方法的科學。
包括
(1)發(fā)音語音學(articulatory
phonetics),研究發(fā)音器官如何產(chǎn)生語音;(2)聲學語音學(acousticphonetics),研究口耳之間傳遞語音的物理屬性;(3)聽覺語音學(auditory
phonetics),
研究人通過耳、聽覺神經(jīng)和大腦對語音的知覺反應。
-戴維?克里斯特爾,《現(xiàn)代語言學詞典》,1997宗成慶:《自然語言理解》講義,第
1
章20/121
1.2
基本概念根據(jù)不同的研究方法,語音學又分為:(a)
一般語音學(general
phonetics):
對語音發(fā)音、聲學或知覺的一般研究。
-與語言學的分析目的沒有什么關(guān)系。(b)
實驗語音學(experimental
phonetics):
對具體語言語音特點的研究。
-是語言學研究的一部分,有人甚至認為是語言學不可或缺的基礎(chǔ)。宗成慶:《自然語言理解》講義,第
1
章21/121
1.2
基本概念定義1-4:自然語言理解
(Natural
Language
Understanding,
NLU))
自然語言理解是人工智能早期的研究領(lǐng)域之一。
從微觀上講,語言理解是指從自然語言到機器(計算機
系統(tǒng))內(nèi)部之間的一種映射。從宏觀上講,語言理解是
指機器能夠執(zhí)行人類所期望的某些語言功能。這些功
能包括回答有關(guān)提問、提取材料摘要、不同詞語敘述、
不同語言翻譯。
-蔡自興、徐光佑,《人工智能及其應用》
清華大學出版社,2004宗成慶:《自然語言理解》講義,第
1
章23/121宗成慶:《自然語言理解》講義,第
1
章24/121
1.2
基本概念
關(guān)于“理解”的標準
如何判斷計算機系統(tǒng)的智能?
計算機系統(tǒng)的表現(xiàn)(act)如何?
反應(react)如何?
相互作用(interact
)如何?
與有意識的個體(人)比較如何?圖靈設計的“模仿游戲”
-
圖靈實驗(Turing
g
test)
)
1.2
基本概念定義1-5
5:
自然語言處理
(Natural
Language
Processing,
NLP)
NLP為研究在人與人交際中以及在人與計算機交際中的
語言問題的一門學科。自然語言處理要研制表示語言能力
(linguistic
competence)和語言應用(linguistic
performance)的模
型,建立計算框架來實現(xiàn)這樣的語言模型,提出相應的方
法來不斷地完善這樣的語言模型,根據(jù)這樣的語言模型設
計各種實用系統(tǒng),并探討這些實用系統(tǒng)的評測技術(shù)
。
-馬納瑞斯(Bill
Manaris),《從人-機交互的角度看
自然語言處理》宗成慶:《自然語言理解》講義,第
1
章26/121
1.2
基本概念
自然語言處理就是利用計算機為工具對人類特有的書面形式和口頭形式的自然語言的信息進行各種類型處理和加工的技術(shù)。
-馮志偉,《自然語言的計算機處理》
上海外語教育出版社,1996宗成慶:《自然語言理解》講義,第
1
章27/121
1.2
基本概念
定義1-6:計算語言學
(Computational
Linguistics)
計算語言學是利用電子數(shù)字計算機進行的語言分析。雖然許多其他類型的語言分析也可以運用計算機,計算分析最常用于處理基本的語言數(shù)據(jù)-例如,建立語音、詞、詞元素的搭配以及統(tǒng)計它們的頻率。
-《大不列顛百科全書》
最早出現(xiàn)于1966年美國科學院的
ALPAC
報告。宗成慶:《自然語言理解》講義,第
1
章28/121
1.2
基本概念不同語言之間各有差異
三個不同的語系
孤立語(分析語):
形態(tài)變化少,語法關(guān)系靠詞序
和虛詞表示,如漢語。
曲折語:
用詞的形態(tài)變化表示語法關(guān)系,如英語、
法語等。
黏著語:
詞內(nèi)有專門表示語法意義的附加成分,
詞根或詞干與附加成分的結(jié)合不緊密,如日語。宗成慶:《自然語言理解》講義,第
1
章30/121
1.2
基本概念漢語:漢族的語言,是我國的主要語言。中文:中國的語言文字,特指漢族的語言文字。
-《現(xiàn)代漢語詞典》,1996
定義1-5:中文信息處理
(Chinese
Information
Processing)
針對中文的自然語言處理技術(shù)。宗成慶:《自然語言理解》講義,第
1
章31/1211.2
基本概念Chinese(Million)
1000SpanishEnglishArabicHindi/Urdu
Portuguese500300JapaneseF
French
h(Year)100
0195019701990201020302050宗成慶:《自然語言理解》講義,第
1
章32/1211.2
基本概念Chinese(Million)
漢語已經(jīng)不再只是中國人自己使用和關(guān)
1000但沒有人敢藐視她!針對漢語的處理技術(shù)早
Spanish
Hindi/Urdu
300
Arabic
100
Japanese
F
French(Year)195019701990201020302050宗成慶:《自然語言理解》講義,第
1
章33/121
1.2
基本概念
近幾年來,自然語言處理技術(shù)迅速發(fā)展成為一門相對獨立的學科,倍受關(guān)注,而且該技術(shù)不斷與語音技術(shù)相互滲透和結(jié)合形成新的研究分支,因此,很多人在談到“計算語言學”、“自然語言處理”或“自然語言理解”這些術(shù)語時,往往默認為同一個概念。甚至有專著[劉穎,2002]干脆直接解釋為:計算語言學也稱自然語言處理或自然語言理解。
人類語言技術(shù)宗成慶:《自然語言理解》講義,第
1
章34/1211.3
NLP的產(chǎn)生與發(fā)展宗成慶:《自然語言理解》講義,第
1
章35/121
1.3
NLP的產(chǎn)生與發(fā)展
源自機器翻譯
(Machine
Translation,
MT)
1946年
UPenn
的J.
P.
Eckert
和
J.
W.
Mauchly
設計了世界上第一臺電子計算機
ENIAC
英國工程師
Andrew
Donald
Booth
和美國洛克
菲勒基金會
(Rockefeller
Foundation)
副總裁
W.
Weaver
提出機器翻譯的概念宗成慶:《自然語言理解》講義,第
1
章36/1211.3
NLP的產(chǎn)生與發(fā)展
A
A.
D
D.
Booth
數(shù)學物理學家,曾研
究利用X
射線確定晶體結(jié)構(gòu),二
戰(zhàn)中參與計算機研制,在程序化
計算機研究中成績卓著;
1947年3月至9月,曾在普林斯頓
大學參與
John
von
Neumann
研究
組,后來曾在倫敦大學工作。
信息論先驅(qū)
1920至1932年曾在Wisconsin
大學
教授數(shù)學;
1932至1955年擔任
Rockefeller
Institute自然科學部主任。宗成慶:《自然語言理解》講義,第
1
章37/121
1.3
NLP的產(chǎn)生與發(fā)展
美國和英國的學術(shù)界對機器翻譯產(chǎn)生了濃厚的興趣,并
得到了實業(yè)界的支持
1954年
Georgetown
大學在
IBM
協(xié)助下,用IBM-701計算機
實現(xiàn)了世界上第一個
MT
系統(tǒng),實現(xiàn)俄譯英翻譯,1954
年1月該系統(tǒng)在紐約公開演示
在隨后10
多年里,
MT
研究在國際上出現(xiàn)熱潮,
一批自然
語言人機接口系統(tǒng)和對話系統(tǒng)相繼出現(xiàn)
隨著機器翻譯研究的進展,各種自然語言處理技術(shù)應運而生,并逐漸發(fā)展壯大,形成了這一語言學與計算機技術(shù)相結(jié)合的新興學科。宗成慶:《自然語言理解》講義,第
1
章38/121
1.3
NLP的產(chǎn)生與發(fā)展曲折的發(fā)展歷程:
1960S
中期之前:萌芽期
1960S
中期到1970S
中后期:步履維艱
-
1966年美國科學院發(fā)表
ALPAC報告
1970S
中后期到1980S
后期:復蘇
1980S
后期至今:蓬勃發(fā)展宗成慶:《自然語言理解》講義,第
1
章39/1211.4
研究內(nèi)容宗成慶:《自然語言理解》講義,第
1
章40/121
1.4
研究內(nèi)容
按照應用目標劃分,廣義上包括:
機器翻譯
(Machine
translation,
MT):實現(xiàn)一種語
言到另一種語言的自動翻譯。
應用:文獻翻譯、網(wǎng)頁輔助瀏覽等。
代表系統(tǒng):Google:
(64
種語言)Systran:
(15
種語言)百度:
/
(漢英、漢日)有道:
/
(英,日,韓,法漢)宗成慶:《自然語言理解》講義,第
1
章41/121宗成慶:《自然語言理解》講義,第
1
章42/121
1.4
研究內(nèi)容機器翻譯研究現(xiàn)狀和對機器翻譯的認識
機器翻譯研究在過去五十多年的曲折發(fā)展經(jīng)歷中,無論是它給人們帶來的希望還是失望我們都必須客觀地看到,機器翻譯作為一個科學問題在被學術(shù)界不斷深入研究的同時,企業(yè)家們已經(jīng)從市場上獲得了相應的利潤。
在機器翻譯研究中實現(xiàn)人機共生(man-machine
symbiosis)和人機互助,比追求完全自動的高質(zhì)量的翻
譯(FullAutomatic
High
Quality
Translation,
FAHQT)
更現(xiàn)實、
更切合實際[Hutchins,
1995]
1.4
研究內(nèi)容
用機器翻譯的個別例子來批評甚至詆毀機器翻譯研究是不適當?shù)摹@?:
The
spirit
is
willing,
but
the
flesh
is
weak.(心有余,而力不足。)Systran:精神是愿意的,
但骨肉是微弱的。English->Russian->English
:
The
wine
is
good,
but
the
meat
is
spoiled.
(酒是好的,肉是餿的。)宗成慶:《自然語言理解》講義,第
1
章43/121
1.4
研究內(nèi)容例2:
Out
of
sight,
out
of
mind.
(眼不見,心不煩。)Systran:出于視域,
在頭腦外面。FromEnglishtoRussian:又瞎又瘋。宗成慶:《自然語言理解》講義,第
1
章44/121
1.4
研究內(nèi)容例2:
Out
of
sight,
out
of
mind.
(眼不見,
Kouwenhoven
編造的故事!Systran:出于視域,
在頭腦外面。JohnA
A.
心不煩。)FromEnglishtoRussian:又瞎又瘋。JohnA.
Kouwenhoven
的文章
“翻譯的困擾
(Thetrouble
with
translation)”發(fā)表于1962年8月號《哈潑雜志》(Harper’s
Magazine)
。宗成慶:《自然語言理解》講義,第
1
章45/121
1.4
研究內(nèi)容這一情況已有較大的改觀,如有原文:我們黨對長期執(zhí)政條件下滋生腐敗的嚴重性和危險性的認識是清醒的,反對腐敗的態(tài)度是堅決的,治理腐敗的措施是有力的。Our
party's
long-ruling
under
the
conditions
of
theseriousness
of
the
corruption
and
awareness
ofthe
dangers
is
a
clear
attitude
against
corruptionis
firm,
controlling
corruption
measures
is
strong.翻成英文:再翻回去:我們黨在長期執(zhí)政條件下的腐敗現(xiàn)象的嚴重性和危害性的認識,是反腐敗的明確的態(tài)度是堅定的,治理腐敗的宗成慶:《自然語言理解》講義,第
1
章46/121措施是強有力的。Google
translator
1.4
研究內(nèi)容
信息檢索
(Information
retrieval)
信息檢索也稱情報檢索,就是利用計算機系統(tǒng)從大量文檔中找到符合用戶需要的相關(guān)信息。
代表系統(tǒng):Google:
百度:
/
目前至少有300多億個網(wǎng)頁,每天數(shù)以萬計地增加,只有1%的信息被有效地利用。宗成慶:《自然語言理解》講義,第
1
章47/121
1.4
研究內(nèi)容自動文摘
(Automatic
summarization
/Automatic
abstracting)
將原文檔的主要內(nèi)容或某方面的信息自動提取出來,并形成原文檔的摘要或縮寫。
觀點挖掘
(Opinion
mining)
。
應用:電子圖書管理、情報獲取等。宗成慶:《自然語言理解》講義,第
1
章48/121
1.4
研究內(nèi)容
問答系統(tǒng)
(Question-answering
system)
通過計算機系統(tǒng)對人提出的問題的理解,利用自動推理等手段,在有關(guān)知識資源中自動求解答案并做出相應的回答。問答技術(shù)有時與語音技術(shù)和多模態(tài)輸入/輸出技術(shù),以及人機交互技術(shù)等相結(jié)合,構(gòu)成人機對話系統(tǒng)
(man-computer
dialogue
system)。
社區(qū)問答(Community
QuestionAnswering,
CQA)宗成慶:《自然語言理解》講義,第
1
章49/121
1.4
研究內(nèi)容
信息過濾
(Information
filtering)
通過計算機系統(tǒng)自動識別和過濾那些滿足特定條件的文檔信息。
信息抽取
(Information
extraction)
從指定文檔中或者海量文本中抽取出用戶感興趣的
信息。
實體關(guān)系抽取
(entity
relation
extraction)。
社會網(wǎng)絡
(social
network)宗成慶:《自然語言理解》講義,第
1
章50/121
1.4
研究內(nèi)容
文檔分類
(Document
categorization)
文檔分類也叫文本自動分類
(Text
categorization
/classification)
或信息分類(Information
categorization
/classification),其目的就是利用計算機系統(tǒng)對大量的文檔按照一定的分類標準(例如,根據(jù)主題或內(nèi)容劃分等)實現(xiàn)自動歸類。
情感文本分類(Sentimental
text
classification)。
應用:圖書管理、情報獲取、網(wǎng)絡內(nèi)容監(jiān)控等。宗成慶:《自然語言理解》講義,第
1
章51/121
1.4
研究內(nèi)容
文字編輯和自動校對(Automatic
proofreading)
對文字拼寫、用詞、甚至語法、文檔格式等進行自動檢查、校對和編排。
應用:排版、印刷和書籍編撰等。
語言教學
(Language
teaching)
文字識別
(Character
recognition)
……宗成慶:《自然語言理解》講義,第
1
章52/121
1.4
研究內(nèi)容
語音識別
(speech
recognition/
automatic
speech
recognition,ASR)
將輸入語音信號自動轉(zhuǎn)換成書面文字。
應用:文字錄入、人機通訊、語音翻譯等等。
困難:大量存在的同音詞、近音詞、集外詞、口
音等等。宗成慶:《自然語言理解》講義,第
1
章53/121
1.4
研究內(nèi)容
文語轉(zhuǎn)換/
語音合成
(text-to-speech
synthesis)
將書面文本自動轉(zhuǎn)換成對應的語音表征。
應用:朗讀系統(tǒng)、人機語音接口等等。
說話人識別/認同/驗證
(speaker
recognition/
identification/
verification)
對一言語樣品做聲學分析,依此推斷(確定或
驗證)說話人的身份。
應用:信息安全、防偽等等。宗成慶:《自然語言理解》講義,第
1
章54/121本(
1.4
研究內(nèi)容說明
由于不同的研究方向所關(guān)注的側(cè)重點不同,因此,很多人愿意將語音識別、語音合成和說話人識別等以語音信號為主要研究對象的語音技術(shù)獨立出來,而其他以文本(詞匯//句子//篇章等))為主要處理對象的研究內(nèi)容作為自然語言處理的主體。
文字識別更多地涉及圖像識別與理解的問題。信息檢索與自然語言處理之間既有密切關(guān)聯(lián),又各自相對獨立,我們暫且回避它們之間關(guān)系的爭論。宗成慶:《自然語言理解》講義,第
1
章55/121
1.4
研究內(nèi)容各研究方向之間的關(guān)系以文字為處理對象
語音識別:聲音到文字
說話人識別/驗證
語音合成:文字到聲音機器翻譯文本文摘文本理解……語音翻譯人機對話多媒體檢索……
人
類語
言
技術(shù)自然語言
處理
語音
技術(shù)情感信息處理、人機交互技術(shù)、多媒體技術(shù)宗成慶:《自然語言理解》講義,第
1
章56/1211.5
基本問題和主要困難宗成慶:《自然語言理解》講義,第
1
章57/121
1.5
基本問題和主要困難
基本問題之一:形態(tài)學
(Morphology)
問題
研究詞(word)
由有意義的基本單位-詞素(morphemes)的構(gòu)成問題。
單詞的識別/
漢語的分詞問題。
詞素:詞根、前綴、后綴、詞尾例如:人,蜈蚣;老虎
老
+
虎圖書館
圖
+
書
+
館
re
+
ex
+
port
reexport宗成慶:《自然語言理解》講義,第
1
章58/121
1.5
基本問題和主要困難
基本問題之二:語法學
(Syntax)
問題
研究句子結(jié)構(gòu)成分之間的相互關(guān)系和組成句子序列的規(guī)則
。
為什么一句話可以這么說也可以那么說?
如何建立快速有效的句子結(jié)構(gòu)分析方法?
蘋果,我吃了。
我吃了蘋果。
蘋果吃了我。宗成慶:《自然語言理解》講義,第
1
章59/121
1.5
基本問題和主要困難
基本問題之三:語義學
(Semantics)
問題
研究如何從一個語句中詞的意義,以及這些詞在該語句中句法結(jié)構(gòu)中的作用來推導出該語句的意義。
這句話說了什么?(
(1)
)(2)(3)(4)蘋果不吃了這個人真牛這個人眼下沒些什么火燒圓明園/火燒驢肉宗成慶:《自然語言理解》講義,第
1
章60/121
1.5
基本問題和主要困難
基本問題之四:語用學(Pragmatics)
問題
研究在不同上下文中語句的應用,以及上下文對語句理解所產(chǎn)生的影響。從狹隘的語言學觀點看,語用學處理的是語言結(jié)構(gòu)中有形式體現(xiàn)的那些語境。相反,語用學最寬泛的定義是研究語義學未能涵蓋的那些意義。
為什么要說這句話?
(1)火,火!
(2)看看魚怎么樣了?宗成慶:《自然語言理解》講義,第
1
章61/121
1.5
基本問題和主要困難
基本問題之五:語音學(Phonetics)
問題
研究語音特性、語音描述、分類及轉(zhuǎn)寫方法等宗成慶:《自然語言理解》講義,第
1
章62/121
1.5
基本問題和主要困難
困難之一:大量歧義(ambiguity)現(xiàn)象
詞法歧義
例如:
(1)
I’ll
see
Prof.
Zhang
home.
(2)
自動化研究所取得的成就。
自動化/研究所/取得/的/成就/。
自動化/研究/所/取得/的/成就/。宗成慶:《自然語言理解》講義,第
1
章63/121
1.5
基本問題和主要困難(3)
門把手弄壞了。?
門/
把/
手/
弄/
壞/
了/
。
門把手/
弄/
壞/
了/
。(4)
打掃平板罰款10元。
打[掃平板]罰款10元。
宗成慶:《自然語言理解》講義,第
1
章64/121
1.5
基本問題和主要困難文章標題中的歧義比比皆是:
上大學子燭光追思錢偉長
(新浪網(wǎng):/,
2010.8.8)
教育部長跑活動負責人與商家總經(jīng)理被曝系師生
(科學網(wǎng):/,2010-11-14)宗成慶:《自然語言理解》講義,第
1
章65/1211.5
基本問題和主要困難
詞性歧義①介詞:像,好似;②動詞:喜歡(1)
Time
flies
like
an
arrow.
①動詞:飛,飛翔,飛馳
②名詞:蒼蠅,飛蟲
時間像箭一樣飛馳(光陰似箭)。
時間蒼蠅喜歡箭(有一種蒼蠅叫“時間”)。
(2)
“動物保護警察”明年上崗
(《環(huán)球時報》2010年9月25日,第10版)宗成慶:《自然語言理解》講義,第
1
章66/121
1.5
基本問題和主要困難
結(jié)構(gòu)歧義
(1)
喜歡鄉(xiāng)下的孩子。
(2)
關(guān)于魯迅的文章。
(3)
今天中午吃饅頭。
(4)
今天中午吃食堂。
(5)
今天中午吃大碗。
(6)
今天中午吃了閉門羹。宗成慶:《自然語言理解》講義,第
1
章67/121
1.5
基本問題和主要困難(7)
這座碑是為紀念反對共產(chǎn)主義者叛亂中犧
牲的英雄而建立的。
…
反對[共產(chǎn)主義者叛亂]
…
…
[反對共產(chǎn)主義者]叛亂
…宗成慶:《自然語言理解》講義,第
1
章68/1211.5
基本問題和主要困難(8)
Who
has
seen
John?(9)
Who
has
John
seen?主語賓語
(10)
I
saw
a
man
with
a
telescope.
I
saw
[a
man
with
a
telescope].
I
[saw
a
man]
with
a
telescope.
I
saw
a
man
with
a
telescope
in
the
park.
?宗成慶:《自然語言理解》講義,第
1
章69/121
1.5
基本問題和主要困難
我們將歧義組合數(shù)稱為開塔蘭數(shù)(Catalan
Numbers),記作
Cn:
2n
1
n
n
1(2n)!
n!n!其中:
2n
n
n
為句子中介詞短語的個數(shù)。宗成慶:《自然語言理解》講義,第
1
章70/121宗成慶:《自然語言理解》講義,第
1
章71/121
1.5
基本問題和主要困難
語義歧義
他說:“她這個人真有意思(funny)”。她說:“他這個人怪有意思的(funny)”。于是人們以為他們有了意思(wish),并讓他向她意思意思(express)。他火了:“我根本沒有那個意思(thought)”!她也生氣了:“你們這么說是什么意思(intention)”?事后有人說:“真有意思(funny)”。也有人說:“真沒意思(nonsense)”。
-《生活報》1994.
11.
13.
第六版
1.5
基本問題和主要困難
語音歧義
同音字(詞)現(xiàn)象-
施氏食獅史
(趙元任)
石室詩士施氏,嗜獅,誓食十獅。氏時時適市視獅,十時,適十獅適市,是時,適施氏適市,施氏視是十獅,拭矢試,使是十獅逝世,適石室,石室濕,氏使侍拭石室,石室拭,始食是十獅尸,始識是十獅尸,實十石獅尸,試釋是事。宗成慶:《自然語言理解》講義,第
1
章72/1211.5
基本問題和主要困難趙元任(1892-1982):字宣仲,江蘇五進人,1892年11月3日生于天津。1910年赴康奈爾大學學習數(shù)學,1914年獲理學士學位。1918年獲哈佛大學哲學博士學位。1919年任康奈爾大學物理學講師。1920年回國任清華學校心理學及物理學教授。1921年再入哈佛大學研習語音學,繼而任哈佛大學哲學系講師、中文系教授。
1925年6月應聘到清華國學院任導師,指導范圍包括“現(xiàn)代方言學”、“中國音韻學”、“普通語言學”等。1929年6月底國學研究院結(jié)束后,被中央研究院聘為歷史語言研究所研究員兼語言組主任,同時兼任清華大學中國文學系講師,授“音韻學”等課程。他與梁啟超、王國維、陳寅恪一起被稱為清華“四大導師”。1938-1941年先后執(zhí)教于夏威夷大學、耶魯大學,之后任教于哈佛大學。1947-1962,任教于伯克利加州大學,講授中國語文和語言學。1973、1981年兩次回國。1982慶:《自然語言理解》講義,第諸塞州坎布里奇,享年9073/121宗成年2月24日逝世于美國馬薩
1
章
歲。
1.5
基本問題和主要困難
多音字及韻律等歧義
-
語音合成面臨的諸多問題
(1)
一字多音
例如:尾巴、親家、削鉛筆、一行
(2)
韻律、聲調(diào)、語氣、重音
例如:藥材好藥才好。
他的錢包被偷了。宗成慶:《自然語言理解》講義,第
1
章74/121
1.5
基本問題和主要困難
困難之二:大量未知語言現(xiàn)象
新詞、人名、地名、術(shù)語等,如:
裸退、蝸居、
夏天、高山、溫馨、不來梅、非典、甲流布萊爾新含義
如:窗口、奔騰、農(nóng)民、同志、小姐,樓歪歪等新用法和新句型等,尤其在口語中或部分網(wǎng)絡語
言中,不斷出現(xiàn)一些“非規(guī)范的”新的語句結(jié)構(gòu)。
如:被長工資,很中國宗成慶:《自然語言理解》講義,第
1
章75/121
1.5
基本問題和主要困難
歸納起來,NLU
所面臨的挑戰(zhàn):
普遍存在的不確定性:詞法、句法、語義、語用
和語音各個層面
未知語言現(xiàn)象的不可預測性:新的詞匯、新的術(shù)
語、新的語義和語法無處不在
始終面臨的數(shù)據(jù)不充分性:有限的語言集合永遠
無法涵蓋開放的語言現(xiàn)象
語言知識表達的復雜性:語義知識的模糊性和錯
綜復雜的關(guān)聯(lián)性難以用常規(guī)方法有效地描述,為
語義計算帶來了極大的困難宗成慶:《自然語言理解》講義,第
1
章76/121
1.5
基本問題和主要困難機器翻譯中映射單元的不對等性:詞法表達不相同、
句法結(jié)構(gòu)不一致、語義概念不對等
從大量復雜多樣的不確
定性中尋找確定性結(jié)論宗成慶:《自然語言理解》講義,第
1
章77/121
1.5
基本問題和主要困難
人腦理解語言是一個復雜的思維過程
-
語言學、心理學語言-
邏輯學、認知科學-
計算機科學-
統(tǒng)計學-
背景知識、常識等
……現(xiàn)實世界思維宗成慶:《自然語言理解》講義,第
1
章78/1211.5
基本問題和主要困難
?
爸爸在說什么?
?
什么意思?宗成慶:《自然語言理解》講義,第
1
章79/1211.5
基本問題和主要困難
?
爸爸在說什么?
過程到底怎樣?
?
什么意思?宗成慶:《自然語言理解》講義,第
1
章80/1211.6
基本研究方法宗成慶:《自然語言理解》講義,第
1
章81/121
1.6
基本研究方法理性主義與經(jīng)驗主義方法的哲學分野
-之一:對語言知識來源的不同認識
理性主義認為:人的很大一部分語言知識
是與生俱來的,由遺傳決定的。
諾姆喬姆斯基
(Noam
Chomsky)
的內(nèi)在語言官能(innate
language
faculty)
理論被廣泛接受。
1960s
–
1980s中期宗成慶:《自然語言理解》講義,第
1
章82/121
1.6
基本研究方法
諾姆喬姆斯基
-
1928年12月生于美國費城
-
1944年(16歲)
進入UPenn
學習
哲學、語言學和數(shù)學
-
1949年獲學士學位、1951年獲
碩士學位
-
1952
起在哈佛認知研究中心研究員,后來獲
UPenn博士學位;1957年(29歲)
MIT副教授,32
歲現(xiàn)代語言學教授、47歲終生教授。宗成慶:《自然語言理解》講義,第
1
章83/121
1.6
基本研究方法經(jīng)驗主義認為:人的語言知識是通過感觀輸入,經(jīng)過一些簡單的聯(lián)想(association)與通用化(泛化)(generalization)的操作而得到的。
大量的語言數(shù)據(jù)中獲得語言的知識結(jié)構(gòu)。
1920s-1950s,1980s中期-宗成慶:《自然語言理解》講義,第
1
章84/121
1.6
基本研究方法理性主義與經(jīng)驗主義方法的哲學分野
-之二:研究對象的差異
理性主義方法:研究人的語言知識結(jié)構(gòu)
(語
言能力,language
competence),實際的語言數(shù)
據(jù)(語言行為,language
performance)只提供了
這種內(nèi)在知識的間接證據(jù)。
經(jīng)驗主義方法:直接研究實際的語言數(shù)據(jù)。宗成慶:《自然語言理解》講義,第
1
章85/121
1.6
基本研究方法理性主義與經(jīng)驗主義方法的哲學分野
-之三:運用不同的理論理性主義:通常基于
Chomsky
y
的語言原則
(principles),通過語言所必須遵守的一系列原則
來描述語言。經(jīng)驗主義:通?;?/p>
香濃(Shannon)的信息論。宗成慶:《自然語言理解》講義,第
1
章86/121
1.6
基本研究方法理性主義與經(jīng)驗主義方法的哲學分野
-之四:采用不同的處理方法理性主義:通常通過一些特殊的語句或語言
現(xiàn)象的研究來得到對人的語言能力的認識,
而這些語句和語言現(xiàn)象在實際的應用中并不
常見。經(jīng)驗主義:偏重于對大規(guī)模語言數(shù)據(jù)中人們
所實際使用的普通語句的統(tǒng)計。宗成慶:《自然語言理解》講義,第
1
章87/121
1.6
基本研究方法理性主義的問題求解方法:
基于規(guī)則的分析方法,建立符號處理系統(tǒng)
規(guī)則庫開發(fā):N
+
N
NP
詞典標注:
#工作,N(uc);V;
推導算法設計:歸約?推導?歧義消解方
法?……
知識庫
+
推理系統(tǒng)
NLP
系統(tǒng)
理論基礎(chǔ):Chomsky
的文法理論宗成慶:《自然語言理解》講義,第
1
章88/121
1.6
基本研究方法經(jīng)驗主義的問題求解方法:
基于大規(guī)模真實語料(語言數(shù)據(jù))的計算方法
大規(guī)模真實數(shù)據(jù)的收集、標注:真實性、代表性、
標注信息
……
統(tǒng)計模型建立:模型的復雜性、有效性、參數(shù)訓
練方法
……
語料庫
+
統(tǒng)計模型
NLP
系統(tǒng)
理論基礎(chǔ):統(tǒng)計學、信息論、機器學習宗成慶:《自然語言理解》講義,第
1
章89/121
1.6
基本研究方法
以機器翻譯為例
給定英語句子:
There
is
a
book
on
the
desk.
將其翻譯成漢語。宗成慶:《自然語言理解》講義,第
1
章90/121
1.6
基本研究方法基于規(guī)則的方法
對英語句子進行詞法分析
There/Ad
is/Vbe
a/Det
book/N
on/Pthe/Det
desk/N
./Puc
對英語句子進行句法結(jié)構(gòu)分析
S
CS
CS
PPVPNPNPN91/121
Ad
Vbe
Det
N
P
Det宗成慶:《自然語言理解》講義,第
1
章Puc1.6
基本研究方法S利用轉(zhuǎn)換規(guī)則將英語
句子結(jié)構(gòu)轉(zhuǎn)換成漢語
句子結(jié)構(gòu)
CSCS
PPVP
NP
NPAd
Vbe
Det
N
P
DetNPucPPuc
NP
VP
NPPP
CS
CS
S宗成慶:《自然語言理解》講義,第
1
章92/1211.6
基本研究方法S利用轉(zhuǎn)換規(guī)則將英語
句子結(jié)構(gòu)轉(zhuǎn)換成漢語
句子結(jié)構(gòu)
CSCS
PPVP
NP
NPAd
Vbe
Det
N
P
DetNPucPPuc
NP
VP
NPPP
CS
CS
S宗成慶:《自然語言理解》講義,第
1
章93/1211.6
基本研究方法S利用轉(zhuǎn)換規(guī)則將英語
句子結(jié)構(gòu)轉(zhuǎn)換成漢語
句子結(jié)構(gòu)
CSCS
PPVP
NP
NPAd
Vbe
Det
N
P
DetNPucPPuc
NP
VP
NPPP
CS
CS
S宗成慶:《自然語言理解》講義,第
1
章94/1211.6
基本研究方法S利用轉(zhuǎn)換規(guī)則將英語
句子結(jié)構(gòu)轉(zhuǎn)換成漢語
句子結(jié)構(gòu)
CSCS
PPVP
NP
NPAd
Vbe
Det
N
P
DetNPucPPuc
NP
VP
NPPP
CS
CS
S宗成慶:《自然語言理解》講義,第
1
章95/1211.6
基本研究方法S利用轉(zhuǎn)換規(guī)則將英語
句子結(jié)構(gòu)轉(zhuǎn)換成漢語
句子結(jié)構(gòu)
CSCS
PPVP
NP
NPAd
Vbe
Det
N
P
DetNPucPPuc
NP
VP
NPPP
CS
CS
S宗成慶:《自然語言理解》講義,第
1
章96/121
1.6
基本研究方法根據(jù)轉(zhuǎn)換后的句子結(jié)PPuc
NP
VP
NPPP
CS
CS構(gòu),利用詞典和生成規(guī)則生成翻譯的結(jié)果句子
S輸出譯文:
在桌子上有一本書。宗成慶:《自然語言理解》講義,第
1
章97/121#a,
Det,
一#book,
N,
書;
V,
預訂#desk,
N,
桌子#on,
P,
在
X
上#There
be,
,
V,
,
有
1.6
基本研究方法基于統(tǒng)計的方法E
e1
m
e1e2emC
c1
l
c1c2clP(C|
E)
貝葉斯公式:P(C)P(E|C)
P(E)C
?
argmaxP(C)P(E|C)
C翻譯模型(Translation
model,
TM)語言模型(Language
model,
LM)宗成慶:《自然語言理解》講義,第
1
章98/121
1.6
基本研究方法主要工作
-
收集大規(guī)模雙語句子對、目標語言句子
-
參數(shù)訓練與模型優(yōu)化宗成慶:《自然語言理解》講義,第
1
章99/1211.6
基本研究方法基于統(tǒng)計的方法
?
語言模型
?
HMM基于規(guī)則的方法
?
形式語言
?
語法理論?
機器學習?
搜索算法?
詞法理論?
推理方法知識庫?
……?…………
……宗成慶:《自然語言理解》講義,第
1
章100/1211.6
基本研究方法基于統(tǒng)計的方法
?
語言模型
?
HMM基于規(guī)則的方法
?
形式語言
?
語法理論?
機器學習?
搜索算法?
詞法理論?
推理方法知識庫?
……?…………宗成慶:《自然語言理解》講義,第
1
章101/121
理性主義與經(jīng)驗主義的合謀
……
符號智能
+
計算智能,建立融合方法1.7
研究現(xiàn)狀宗成慶:《自然語言理解》講義,第
1
章102/121
1.7
研究現(xiàn)狀
各種理論問題:
從詞法(漢語分詞)到語義
……
各種應用系統(tǒng):
從機器翻譯到信息抽取
……宗成慶:《自然語言理解》講義,第
1
章103/121哪徹徹底解決決!
1.7
研究現(xiàn)狀
各種理論問題:
從詞法(漢語分詞)到語義
……
各種應用系統(tǒng):
從機器翻譯到信息抽取
……
哪個問題已
經(jīng)解決了?宗成慶:《自然語言理解》講義,第
1
章104/121哪個問題都沒沒
1.7
研究現(xiàn)狀
基本現(xiàn)狀
部分問題得到了解決,可以為人們提供輔助性
幫助,如:專業(yè)領(lǐng)域文檔翻譯,電子詞典,搜
索引擎,文字錄入等;
基礎(chǔ)問題研究仍任重而道遠,如:語義表示和
計算、高質(zhì)量的自動翻譯等;
社會需求日益迫切:信息服務、通訊、網(wǎng)絡內(nèi)
容管理、情報處理、國家安全等等。宗成慶:《自然語言理解》講義,第
1
章105/121
1.7
研究現(xiàn)狀
許多技術(shù)離真正實用的目標還有相當?shù)?/p>
距離,若干理論問題有待更深入的研究
-現(xiàn)有模型和方法的改進
-在不成熟技術(shù)的基礎(chǔ)上開發(fā)實用系統(tǒng)
-期待更有效的理論體系宗成慶:《自然語言理解》講義,第
1
章106/1211.7
研究現(xiàn)狀
自然語言理解
Chomsky
Rule-based
LM宗成慶:《自然語言理解》講義,第
1
章107/1211.8
國內(nèi)外研究機構(gòu)宗成慶:《自然語言理解》講義,第
1
章108/121
1.8
國內(nèi)外研究機構(gòu)國外
Standford
University,
MIT,
CMU,
JHU,
ISI,
UPenn
…
IBM
/
Microsoft
/
/
Yahoo
/
…
Aachen
University
(RWTH),
DFKI,
Germany
…
ITC-irst,
Italy
…
UPC,
Spanish
…
東京大學,
京都大學,奈良先端大學,北海道大學,
德島大學,NICT
、富士通、東芝
…
新加坡國立大學,I2R
……宗成慶:《自然語言理解》講義,第
1
章109/121
1.8
國內(nèi)外研究機構(gòu)國內(nèi)
一大批大學的計算機系
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 咖啡豆與茶葉知識培訓
- 大學生校園歌手大賽觀后感
- 湖北省武漢市常青聯(lián)合體2024-2025學年高二上學期期末聯(lián)考地理試題 含解析
- 商務往來文件處理規(guī)范
- 活動現(xiàn)場照片登記表
- 小學生思維導圖征文
- 供應鏈采購協(xié)議細則
- 人才需求及就業(yè)前景分析表
- 貝雷片租賃合同
- 年度項目工作計劃與執(zhí)行監(jiān)控報告
- 雙新背景下小學英語單元整體作業(yè)設計與優(yōu)化探索 論文
- 大學生勞動教育教程全套PPT完整教學課件
- GB/T 985.1-2008氣焊、焊條電弧焊、氣體保護焊和高能束焊的推薦坡口
- GB/T 15970.7-2000金屬和合金的腐蝕應力腐蝕試驗第7部分:慢應變速率試驗
- 中共一大會址
- 制度經(jīng)濟學:05團隊生產(chǎn)理論
- 作文格子紙(1000字)
- 刻度尺讀數(shù)練習(自制)課件
- 四年級下冊美術(shù)課件 4紙卷魔術(shù)|蘇少版
- 七年級數(shù)學蘇科版下冊 101 二元一次方程 課件
- ZL50裝載機工作裝置設計
評論
0/150
提交評論