




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
一些語言現(xiàn)象:“差點(diǎn)兒摔了一跤”與“差點(diǎn)兒沒摔一跤”“差點(diǎn)兒考上大學(xué)”與“差點(diǎn)兒沒考上大學(xué)”語言學(xué)理論具有解釋性可以為自然語言處理提供規(guī)則。緒論語言學(xué)理論具有層次性我們觀察下面的一個(gè)多項(xiàng)定語的例子:(1)國家、集體和個(gè)人的利益(2)北京大學(xué)中文系三年級(jí)的小張同學(xué)盡管這兩個(gè)例子的句法層次并不相同,但是都可以很明確地總結(jié)出一條規(guī)則來:漢語定語的順序總是按外延從大到小的排列。如果僅僅總結(jié)到這一步,這個(gè)理論雖然有用,但并沒有上升到更為普遍的規(guī)則上去。陸丙甫(1993:94-7)提出定語順序“從外到內(nèi)”排列的理論。近年來他將其發(fā)展為“可別度領(lǐng)前原理”“大塊前移原理”并將它們和以往的“語義靠近原理”結(jié)合起來解釋世界語言的普遍傾向。請(qǐng)看下面的例子:
漢語:國家、集體和個(gè)人的利益相應(yīng)英語的順序是:利益?zhèn)€人集體國家(theadvantagesofindividual,collectivityandcountry)相應(yīng)泰國語的順序是:??????????
????????????
??????????利益
的
個(gè)人
、集體
和
國家表面看起來,漢語的順序和英語、泰語正好相反,并且形成鏡像。而實(shí)際上,他們都遵守一個(gè)共同的規(guī)律,那就是越靠近核心的成分越小、越反映核心的本質(zhì)特征(語義靠近原理)。
更高層次上的語言學(xué)理論應(yīng)該能夠?qū)で蟛煌Z言現(xiàn)象背后所蘊(yùn)含的更為深刻的共性和一致性。在千差萬別的世界背后建立統(tǒng)一的解釋模型。
對(duì)于我們從事自然語言處理的人來說,多學(xué)習(xí)些語言學(xué)相關(guān)理論就能掌握些語言規(guī)律,從而是計(jì)算機(jī)利用相應(yīng)的規(guī)則去分析和生成語言。第一講:中文詞法分析理論與應(yīng)用大綱:1.字符和詞2.文本分詞遇到的問題3.文本分詞的方法1.字符和詞基本概念的了解:字符(Character)(人類語言最小的表義符號(hào))、字、語素(語音與語義結(jié)合的最小語言單位)、詞(最小的能夠獨(dú)立運(yùn)用的語言單位)一些例子:B,D\,好,撲克,葡,萄,妖,伶俐,撲克,牛肉,貓頭鷹肉,布爾斯維克,人,家,啤酒關(guān)于漢語中詞的一些問題:是否一個(gè)漢字表示的就是一個(gè)詞?一個(gè)詞是不是就是一個(gè)語素?人們眼中的詞應(yīng)該是什么樣?語法學(xué)定義:能夠獨(dú)立運(yùn)用的最小的音義結(jié)合體
詞表定義:枚舉“詞型”(type)
語料庫定義:枚舉“詞例”(token)參考:黃昌寧、趙海,2007,中文分詞十年回顧,《中文信息學(xué)報(bào)》2007年第3期,8-19頁。
待分詞文本示例分詞首先要把字符串切分成詞串學(xué)生人數(shù)多又能保證質(zhì)量的才是好學(xué)校。字符串學(xué)生\人數(shù)\多\又\能\保證\質(zhì)量\的\才\是\好\學(xué)校。詞串關(guān)于中文分詞的形式化定義,可參看馬晏,1991,基于評(píng)價(jià)的漢語自動(dòng)分詞系統(tǒng)的研究與實(shí)現(xiàn),載黃昌寧、夏瑩編《語言信息處理專論》,清華大學(xué)出版社1996年版將字符串轉(zhuǎn)換到詞串的意義文本分詞是各個(gè)層次的自然語言處理任務(wù)的基礎(chǔ)1.簡繁轉(zhuǎn)換
AutomaticConversionbetweentraditionalandsimplifiedChinese
2.文語轉(zhuǎn)換Text-to-speech
3.文本校對(duì)ChineseTextCorrection
4.文本檢索Informationretrieval
5.詞頻統(tǒng)計(jì)、句法分析、機(jī)器翻譯、……簡繁轉(zhuǎn)換示例:
每個(gè)戰(zhàn)斗單位只有一斗米
每個(gè)戰(zhàn)鬥單位只有一斗米明成皇后,她是一個(gè)世紀(jì)前北韓王朝的最后一位皇后。
明成皇后,她是一個(gè)世紀(jì)前北韓王朝的最後一位皇后。負(fù)離子陶瓷燙發(fā)機(jī),內(nèi)置負(fù)離子發(fā)射器。
負(fù)離子陶瓷燙髮機(jī),內(nèi)置負(fù)離子發(fā)射器。
文語轉(zhuǎn)換示例:(1)為達(dá)到贏球的目的,一定要注意比賽時(shí)的情緒調(diào)動(dòng)與心理調(diào)節(jié)
···(2)
他們村有三百多人種樹
·
2文本分詞面對(duì)的問題1.分詞歧義
2.未登錄詞識(shí)別2.1文本分詞中的歧義交集型歧義組合型歧義混合型歧義是指形為ABC的漢字串既可以切分分成AB/C,又可切分成A/BC是指形為AB的漢字串既可切分成AB,又可切分成A/B交集型歧義的鏈長交集型歧義字段中含有交集字段的個(gè)數(shù),稱為鏈長。鏈長為1:離合成
鏈長為2:結(jié)合成分
鏈長為3:為人民工作
鏈長為4:中國產(chǎn)品質(zhì)量
鏈長為5:鞭炮聲響徹夜空
鏈長為6:努力學(xué)習(xí)語法規(guī)則
鏈長為7:中國企業(yè)主要求解決
鏈長為8:治理解放大道路面積水
……真實(shí)文本中分詞歧義的分布情況真歧義
確實(shí)能在真實(shí)語料中發(fā)現(xiàn)多種切分形式
比如“應(yīng)用于”、“地面積”、“解除了”
偽歧義
雖然有多種切分可能性,但在真實(shí)語料中往往取其
中一種切分形式
比如“挨批評(píng)”、“市政府”、“太平淡”實(shí)際真?zhèn)纹缌x分布劉開瑛,2000,《中文文本自動(dòng)分詞和標(biāo)注》,商務(wù)印書館,66-67頁。實(shí)際真?zhèn)纹缌x分布在一個(gè)1億字真實(shí)漢語語料庫中抽取出的前4,619個(gè)高頻交集型歧義切分覆蓋了該語料庫中全部交集型歧義切分的59.20%,其中4279個(gè)屬偽歧義,占92.63%,如“充分發(fā)揮”、“情不自禁地”,這部分偽歧義類型的實(shí)例對(duì)語料的覆蓋率高達(dá)53.35%。
(孫茂松等,1999,《高頻最大交集型歧義切分字段在漢語自動(dòng)分詞中的作用》,載《中文信息學(xué)報(bào)》1999年第1期。)分詞歧義的四個(gè)層級(jí)(語料規(guī)模:50883字)
詞法歧義:84.1%(“用方塊圖形式加以描述”)
句法歧義:10.8%(“他一陣風(fēng)似的跑了”)
語義歧義:3.4%(“學(xué)生會(huì)寫文章”)
語用歧義:1.7%(“美國會(huì)采取措施制裁伊拉克”)2.2未登錄詞識(shí)別未登錄詞的策略1)盡可能多地收集詞匯,以降低碰到未登錄詞的機(jī)會(huì);2)通過構(gòu)詞規(guī)則和上下文特征規(guī)則來識(shí)別;“雪村先生創(chuàng)作了很多歌曲”3)通過統(tǒng)計(jì)的方法來猜測(cè)經(jīng)過一般的分詞過程后剩下的“連續(xù)單字詞碎片”是人名、地名等的可能性,從而識(shí)別出未登錄詞。4)分而治之:對(duì)不同類的未登錄詞采用不同的辦法識(shí)別不同類別未登錄詞識(shí)別難度的差異較成熟
中國人名、譯名中國地名較困難
商標(biāo)字號(hào)機(jī)構(gòu)名很困難
專業(yè)術(shù)語縮略語【王厚峰漢語縮略語自動(dòng)處理研究現(xiàn)狀,中文信息學(xué)報(bào),11年(5)】新詞語中國人名的內(nèi)部構(gòu)成規(guī)律1在漢語的未定義詞中,中國人名是規(guī)律性最強(qiáng),也是最
容易識(shí)別的一類;
中國人名一般由以下部分組合而成:
姓:張、王、李、劉、諸葛、西門、范徐麗泰
名:李素麗,張華平,王杰、諸葛亮
前綴:老王,小李
后綴:王老,趙總
中國人名各組成部分用字比較有規(guī)律中國人名的內(nèi)部構(gòu)成規(guī)律2根據(jù)統(tǒng)計(jì),漢語姓氏大約有1000多個(gè),
姓氏中使用頻度最高的是“王”姓;
“王,陳,李,張,劉”等5個(gè)大姓覆蓋率達(dá)32%;
姓氏頻度表中的前14個(gè)高頻度的姓氏覆蓋率為50%;
前400個(gè)姓氏覆蓋率達(dá)99%。
人名的用字也比較集中。
頻度最高的前6個(gè)字覆蓋率達(dá)10.35%;
前10個(gè)字的覆蓋率達(dá)14.936%;
前15個(gè)字的覆蓋率達(dá)19.695%;
前400個(gè)字的覆蓋率達(dá)90%。中國人名的內(nèi)部構(gòu)成規(guī)律3中國人名內(nèi)部各組成部分的組合規(guī)律
姓+名
姓
名
前綴+姓
姓+后綴
姓+姓+名(海外已婚婦女)
中國人名的上下文構(gòu)成規(guī)律中國人名識(shí)別的難點(diǎn)機(jī)構(gòu)名的內(nèi)部構(gòu)成規(guī)律機(jī)構(gòu)名一般都是定中結(jié)構(gòu)(如:教育部語信司)
機(jī)構(gòu)名的后綴一般比較集中,識(shí)別相對(duì)容易
機(jī)構(gòu)名左邊界識(shí)別非常困難
機(jī)構(gòu)名中含有大量的人名、地名、企業(yè)字號(hào)等
專有名稱。在這些專有名稱中,地名所占的比
例最大,其中未登錄地名又占了相當(dāng)一部分的
比例。所以機(jī)構(gòu)名識(shí)別應(yīng)在人名、地名等其他
專名識(shí)別之后進(jìn)行,其他專名識(shí)別的正確率對(duì)
機(jī)構(gòu)名識(shí)別正確率有較大影響機(jī)構(gòu)名識(shí)別的難點(diǎn)中文機(jī)構(gòu)名用詞非常廣泛。通過對(duì)人民日?qǐng)?bào)1998年1月中的10817個(gè)機(jī)構(gòu)名所含的19986個(gè)
詞進(jìn)行統(tǒng)計(jì),共計(jì)27種詞,其中名詞最多
(9941個(gè)),地名其次(5023個(gè)),以下依次
為簡稱(1169個(gè))、專有名詞(1125個(gè))、動(dòng)
詞(848個(gè))以及機(jī)構(gòu)名(714個(gè))等
機(jī)構(gòu)名長度極其不固定機(jī)構(gòu)名很不穩(wěn)定。隨著社會(huì)發(fā)展,新機(jī)構(gòu)不斷
涌現(xiàn),舊機(jī)構(gòu)不斷被淘汰、改組或更名縮略語內(nèi)部構(gòu)成規(guī)律(1)人名縮略語:如果一個(gè)姓后面跟了一個(gè)職
頭銜,則認(rèn)為此字符序列為一個(gè)人名縮略語。例:左/校長(2)地名縮略語:如果兩個(gè)地名縮寫(有一個(gè)名縮寫表用來識(shí)別地名縮寫)連續(xù)出現(xiàn),則認(rèn)為此字符序列在總體上也是一個(gè)地名縮寫。例如,“中/日/關(guān)系”中的/中/日。(3)機(jī)構(gòu)名縮略語:如果機(jī)構(gòu)名縮寫(有一個(gè)機(jī)構(gòu)名縮寫表用來識(shí)別機(jī)構(gòu)名縮寫)后面跟了一個(gè)地名,然后又跟了一個(gè)機(jī)構(gòu)名關(guān)鍵詞,則認(rèn)為這三個(gè)部分在總體上形成了一個(gè)機(jī)構(gòu)名縮略語。例如,/中共/北京/市委。縮略語處理的困難1.一詞多義現(xiàn)象比較多,兩者之間并不總是一對(duì)一的關(guān)系例:“人大”可以是/人民代表大會(huì),也可以是/中國人民大學(xué)再如:CIA除了表示美國中央情報(bào)局(Central
IntelligenceAgency)以外,還可以表示很多其他的
完整形式,2010年8月初通過英語縮略語網(wǎng)站ht-
tp://查詢縮略語/CIA,結(jié)果
返回了110個(gè)完整形式。2.同一個(gè)事物縮略形式可能不同。如:“清華大學(xué)”,在大陸縮略成“清華”,而在臺(tái)灣縮略成“清大”一些術(shù)語NLP(NaturalLanguageProcessing)(NonlinearProgramming非線性規(guī)劃)WordSegmentation分詞WordTokenizationWordStemming/Lemmatization
Tokenization:把字符串變?yōu)樵~串
I’mastudent->I’mastudent
Lemmatization:對(duì)詞進(jìn)行內(nèi)部結(jié)構(gòu)和形式分析
took->take+ed(pasttense)3.文本分詞的方法參考文獻(xiàn):漢語自動(dòng)分詞方法殷建平《計(jì)算機(jī)工程與科學(xué)》1998,3黃昌寧、趙海,中文分詞十年回顧,《中文信息學(xué)報(bào)》2007,3機(jī)械匹配法基本思想:事先建立一詞庫,其中包含所有可能出現(xiàn)的詞。對(duì)給定的待分詞的漢字串S,按照某種確定的原則切取S的子串,若該子串與詞庫中的某詞條相匹配,則該子串是詞,繼續(xù)分割剩余的部分,直到剩余部分為空;否則,該子串不是詞,轉(zhuǎn)上重新切取S的子串進(jìn)行匹配。問題:詞庫如何建立?如何評(píng)價(jià)詞庫的好壞。
機(jī)械匹配法包括:1.最大匹配法(根據(jù)切取字串的方向:正向/逆向)2.最短路徑分詞法機(jī)械匹配法最大匹配法正向匹配逆向匹配最短路徑法最大匹配法長詞優(yōu)先原則FMM(正向最大匹配)實(shí)例:輸入:
S1="計(jì)算語言學(xué)課程是三個(gè)課時(shí)"輸出:S2=""設(shè)定最大詞長MaxLen=5正向最大匹配法存在的問題1.無法發(fā)現(xiàn)組合型歧義,如:事情/學(xué)生會(huì)/處理的2.面對(duì)交集型歧義時(shí),有時(shí)無法正確劃分,如愛人/民/英雄/解決辦法:1.可以利用“回溯法”,通過查詞典知道“民”不在詞典中,于是進(jìn)行回溯,將“愛人”的尾字“人”取出與后面的“民”組成“人民”,再查詞典,看“愛”,“人民”是否在詞典中,如果在,就將分詞結(jié)果調(diào)整為:“愛/人民/英雄/”2.建立歧義詞表,例如:“愛人民”統(tǒng)一處理為“愛/人民”逆向最大匹配法(BMM)例如:有意見分歧愛人民英雄BMM:有/意見/分歧/
愛/人民/英雄/實(shí)驗(yàn)表明:逆向最大匹配法的正確率略高于正向匹配法最大匹配法缺點(diǎn)無論是正向還是逆向,有時(shí)還是無法發(fā)現(xiàn)分詞歧義。FMM&BMM原子/結(jié)合/成分/子時(shí)/最短路徑分詞法基本思想:在詞圖上選擇一條詞數(shù)最少的路徑,路徑最短意味著切分后詞的數(shù)量最少。優(yōu)點(diǎn):好于單向的最大匹配方法最大匹配:獨(dú)立自主和平等互利的原則(6words)最短路徑:獨(dú)立自主和平等互利的原則(5words)
缺點(diǎn):同樣無法解決大部分交集型歧義結(jié)合成分子時(shí)他說的確實(shí)在理(都是最短路徑)
他說的確實(shí)在理
他說的確實(shí)在理特征詞庫法基本思想是:事先建立一個(gè)特征詞庫,其中包含各種具有切分特征的詞。對(duì)給定的待分詞的漢字串S,首先根據(jù)特征詞庫將S分割成若干個(gè)較短的子串,然后對(duì)每個(gè)子串分別采用機(jī)械匹配法進(jìn)行切分。實(shí)際上這是一種“分而治之”的辦法。實(shí)例:老師們今天對(duì)學(xué)生講了解二次方程的方法。語法分析法基本思想:事先建立一套漢語語法規(guī)則,其中的規(guī)則不但給出某成份的結(jié)構(gòu)(即它由哪些子成份構(gòu)成),而且還給出它的子成份之間必須滿足的約束條件。
另外,事先還要建立一個(gè)詞庫,其中包含所有可能出現(xiàn)的詞和它們的各種可能的詞類。對(duì)給定的待分詞的漢語句子S,按照某種確定的原則切取S的子串,若該子串與詞庫中的某詞條相匹配,則從詞庫中取出該詞的所有詞類,然后根據(jù)語法規(guī)則進(jìn)行語法分析(包括語法分析樹的構(gòu)造和約束條件的檢查,這時(shí)不但要使用該詞的所有詞類,而且還要使用前面已分析部分的結(jié)果)。若分析正確,則該子串是詞,記下語法分析的結(jié)果作為后繼切分的基礎(chǔ),繼續(xù)分割剩余的部分,直到剩余部分為空;否則,該子串不是詞,轉(zhuǎn)上重新切取S的子串進(jìn)行匹配?!八谟?jì)算機(jī)房基建投資”機(jī)械匹配法:他/在/計(jì)算機(jī)/房/基建/投資他/在/計(jì)算/機(jī)房/基建/投資語法分析,就不難發(fā)現(xiàn)前者不合漢語語法,后者符合漢語語法。所以應(yīng)以后者作為切分結(jié)果。最大概率法分詞分詞方法的演進(jìn)最大匹配(正向、逆向、雙向)局部改進(jìn)(回溯、歧義詞表)最優(yōu)路徑(節(jié)點(diǎn)最少、概率最大)1.判斷詞性的標(biāo)準(zhǔn)1.1詞性(詞類)的劃分為什么要進(jìn)行詞類劃分?比如:金銀銅鐵錫是一家子嗎?(1)給他一塊金給他一塊金子(2)給他一塊銀給他一塊銀子(3)給他一塊銅給他一塊銅子(4)給他一塊鐵給他一塊鐵子(5)給他一塊錫給他一塊錫子詞類判定標(biāo)準(zhǔn)意義物、動(dòng)作行為、性質(zhì)狀態(tài)、數(shù)量形式很+,第+,+(著、了、過),“A沒A”功能充當(dāng)或不能充當(dāng)一些句法成分代詞是個(gè)例外代詞的立類,具有特殊性,根據(jù)的是其“游移泛代性”,不同的代詞,可以分別起到名詞、動(dòng)詞、形容詞、數(shù)詞、量詞和副詞的作用。比如,“這么、那么”是作用上相當(dāng)于副詞的指示代詞,但詞典上不宜標(biāo)注為副詞。再如:他什么都好,就是沒有錢。1.2現(xiàn)代漢語的詞類系統(tǒng)常見詞類的判別碰到一個(gè)能受體詞性數(shù)量詞的修飾、不能受副詞修飾的詞,可以斷定為名詞;碰到一個(gè)能帶賓語的詞,可以斷定為動(dòng)詞;碰到一個(gè)能受程度副詞的修飾但不能帶賓語的詞,可以斷定為形容詞;碰到一個(gè)表示數(shù)字的詞和后邊出現(xiàn)一個(gè)表示記數(shù)單位的詞,可以斷定為數(shù)詞和量詞;碰到一個(gè)只具有修飾動(dòng)詞或形容詞的功能的詞,可以斷定為副詞。這些帶規(guī)律性的特征盡管并非絕對(duì)化地普遍適用,但基本上是可以成為標(biāo)準(zhǔn)的。2.漢語詞類劃分的方法1.入句法(入句顯類)2.排他法3.類比法4.構(gòu)式法討論“各”的詞性?各人回各人的家三種辦法各有優(yōu)點(diǎn)邢福義,詞典的詞類標(biāo)注:“各”字詞性辨,《語言研究》,2013(1)詞類的典型成員和非典型成員詞類劃分無法做到嚴(yán)格的集合劃分的要求:對(duì)內(nèi)一致性,對(duì)外排他性A.電腦風(fēng)衣風(fēng)水文筆戰(zhàn)爭看法B.般配一樣矮小安全耐煩方便A組中不大典型的名詞是____________B組中不大典型的形容詞是___________詞性自動(dòng)標(biāo)注的方法對(duì)于單性詞,即非兼類詞的詞性標(biāo)注比較簡單,計(jì)算機(jī)只需根據(jù)電子詞典進(jìn)行機(jī)械配對(duì)即可。詞性標(biāo)注最大的難點(diǎn),也是詞性標(biāo)注技術(shù)研究的重點(diǎn),是對(duì)兼類詞的處理。詞性標(biāo)注精細(xì)度不一漢語中兼類詞的比例兼類詞在實(shí)際語料中分布示例兼類詞的判定1.語義應(yīng)該不同語義完全相同的一個(gè)詞,不得分成兩個(gè)語法類。比如,“漂亮的辦法”和“漂亮地完成了任務(wù)”中的“漂亮”語義未變,都是形容詞,不能分別判定為形容詞和副詞。2.語法功能應(yīng)該不同語法學(xué)是一門科學(xué)。(名)這種工作方法很不科學(xué)。(形)兼類詞的自動(dòng)標(biāo)注一、基于規(guī)則的方法核心思想:計(jì)算機(jī)根據(jù)具體的上下文結(jié)構(gòu)框架,套用語言學(xué)家總結(jié)的語言學(xué)規(guī)律來判定兼類詞詞性。例:研究理論VS理論研究二、基于統(tǒng)計(jì)的方法核心思想:先制定詞性標(biāo)志集,選取部分自然語料進(jìn)行人工詞性標(biāo)注,再利用統(tǒng)計(jì)理論進(jìn)行運(yùn)算得出統(tǒng)計(jì)規(guī)律,然后依據(jù)統(tǒng)計(jì)規(guī)律建立統(tǒng)計(jì)模型,機(jī)器根據(jù)統(tǒng)計(jì)模型進(jìn)行詞性標(biāo)注。與基于規(guī)則方法的最大的區(qū)別在于:在規(guī)則的方法中計(jì)算機(jī)依據(jù)的是人工制定的語言學(xué)規(guī)則,而在統(tǒng)計(jì)的方法中計(jì)算機(jī)是依據(jù)大量自然語料的統(tǒng)計(jì)數(shù)據(jù)自行生成規(guī)則三、兩者結(jié)合詞性標(biāo)注問題:尋找最優(yōu)路徑詞性頻度表小結(jié)語法學(xué)界對(duì)漢語詞類的認(rèn)識(shí)還有不夠清晰的地方。漢語詞類的劃分標(biāo)準(zhǔn),詞類數(shù)量的多寡,詞類之間的關(guān)系,等等,都還存在爭議。而且詞類成員還存在交叉關(guān)系,包括典型成員和非典型成員。1.句子的判定和類型什么樣的詞語組合才是句子?一個(gè)句子之所以成為句子的判定標(biāo)準(zhǔn)有哪些?句子類型有哪些?紅豆生南國,春來發(fā)幾枝?愿君多采擷,此物最相思!為什么需要進(jìn)行句法分析例句:這份報(bào)告我寫不好.計(jì)算機(jī)通過詞庫分詞:這份報(bào)告我寫不好計(jì)算機(jī)進(jìn)行詞性標(biāo)注:rqnrvda2.句法結(jié)構(gòu)分析相關(guān)理論一些常用的句法分析思路與方法思路:1.分析句法結(jié)構(gòu)內(nèi)部的構(gòu)造特點(diǎn)2.觀察句法結(jié)構(gòu)間的聯(lián)系方法:1、中心詞分析法2、層次分析法3、變換分析法一、中心詞分析法(成分分析法)
1.中心詞分析法的內(nèi)涵2.中心詞分析法圖解方法⑴
劃線分析法
比較通用的符號(hào)是:主語=謂語—兼語~~~賓語~~~補(bǔ)語<>
定語()狀語[]
(淘氣的)弟弟[已經(jīng)]做<完>了(今天的)作業(yè)
~~~⑵關(guān)系式圖解法有關(guān)句法成分的問題我把他給打了。他被我打了一頓。我把鋼筆弄壞了。這個(gè)問題我不知道。這場(chǎng)火,幸虧消防員來的及時(shí)。中心詞分析法的作用及局限中心詞分析法的優(yōu)點(diǎn)是:
⑴方法簡便,易于操作。
⑵有利于歸納句型。
⑶有利于修改病句。如:
三年當(dāng)中,這個(gè)縣的糧食總產(chǎn)量,以平均每年遞增百分之二十的速度,大踏步地向前發(fā)展。
中心詞分析法的局限:
⑴只適用于句法,不適用于詞法,即不能用來分析合成詞的內(nèi)部構(gòu)造。如:圖書館
⑵只適用于對(duì)單句的分析,不適用于對(duì)復(fù)句的分析。⑶即使是對(duì)單句的分析,也有很大的局限性。A、中心詞分析法認(rèn)為主語、謂語是句子的主干,但漢語中有相當(dāng)多的句子,“主干”離開了“枝葉”就站不起來。如:
他從小貪圖安逸。(*他貪圖)
他的想法都合乎事實(shí)。(*想法合乎)
封建思想必須清除。(*思想清除)
合格產(chǎn)品占百分之九十。(*產(chǎn)品占)B、有的句子“主干”雖成立,但并不表示句子的基本意思,甚至表示跟原意相反的意思。如:
我弟弟不喜歡京劇。(≠弟弟喜歡)他死了爺爺。(≠他死)北京隊(duì)大敗天津隊(duì)。(≠北京隊(duì)?。┠憧杀阋怂?。(≠你便宜)無原則的團(tuán)結(jié)對(duì)革命事業(yè)有害。(≠團(tuán)結(jié)有害)
C、再有,一般句子也很難完全按中心詞分析法所構(gòu)想的句子結(jié)構(gòu)模式去理解。如:
張老師講得很生動(dòng)。張老師給我們講故事。張老師早講完了。張老師講累了。張老師講了二十分鐘注意事項(xiàng)。張老師講清楚了。⑷
忽視句法構(gòu)造的層次性。這張照片放大了一點(diǎn)兒。A、原來的太小了,現(xiàn)在放大了一點(diǎn)兒,合適了。(我上次來覺得這張照片放在這里顯得挺小氣的,怎么現(xiàn)在看起來順眼了?——這張照片放大了一點(diǎn)兒。)B、放得比預(yù)定尺寸大了。(我是按尺寸定做的鏡框,怎么裝不進(jìn)去了呢?——這張照片放大了一點(diǎn)兒。)按A:(這張照片)放大了/一點(diǎn)兒(“一點(diǎn)兒”是賓語)按B:(這張照片)放/大了一點(diǎn)兒(“大了一點(diǎn)兒”是補(bǔ)語)二、層次分析法(一)層次分析法的由來與內(nèi)涵層次分析法,是由美國描寫語言學(xué)方法借鑒而來。層次分析,美國描寫語言學(xué)稱之為直接成分分析(ImmediateConstituentAnalysis分析)簡稱IC分析法。最早是由美國描寫語言學(xué)家布龍菲爾德(L·Bloomfield1887-1949)提出來的。代表作《語言論》
美國描寫語言學(xué)運(yùn)用層次分析,只講切分,不講定性,即只要求指明每一層面上的直接組成成分即可;漢語中運(yùn)用層次分析則不但講切分,還要講定性,要指明直接組成成分之間的語法關(guān)系,因?yàn)椋涸谟W語里,詞類與句法成分基本是一一對(duì)應(yīng)的,標(biāo)明一個(gè)句法結(jié)構(gòu)的直接組成成分的詞性,也就間接地表明了它們之間的句法關(guān)系。如:
NP+VP=主語—謂語
VP+NP=述語—賓語而漢語詞類和句法成分之間的關(guān)系是錯(cuò)綜復(fù)雜的。
詞類與句子成分對(duì)應(yīng)情況
漢語中,一個(gè)句子成分可以由多種詞類來充當(dāng),所以光標(biāo)明一個(gè)句法結(jié)構(gòu)的直接組成成分的詞性,并不能表明它們之間的句法關(guān)系。例如:
NP+VP:哥哥學(xué)習(xí)(主謂關(guān)系)農(nóng)村調(diào)查(定中關(guān)系)
VP+NP:吃蘋果、學(xué)習(xí)文化(述賓關(guān)系)駕駛技術(shù)、比賽場(chǎng)地(定中關(guān)系)對(duì)漢語來說,光是分出層次,遠(yuǎn)遠(yuǎn)不足以說明某一語言片斷的特征。因此,漢語語法分析中運(yùn)用層次分析不僅要講切分,還必須講定性,把層次和關(guān)系都標(biāo)出來,一個(gè)語言片斷的面貌才清楚了。(二)層次分析法的圖解方法1.組合層次圖解法(從小到大)提高分析問題和解決問題的能力
2.分析層次圖解法(從大到小)提高分析問題和解決問題的能力5個(gè)結(jié)構(gòu)體,4個(gè)層次(三)層次分析法切分的原則衡量層次分析是否正確有三道關(guān)卡1.結(jié)構(gòu)原則。按結(jié)構(gòu)原則切分開來的每一個(gè)成分都必須成為一個(gè)獨(dú)立的結(jié)構(gòu)體。如果不成立,那這個(gè)切分就是錯(cuò)誤的。如:
一個(gè)可愛的小/男孩
小王很/高××2.功能原則。切分后的結(jié)構(gòu)單位按照漢語語法的規(guī)律應(yīng)該可以重新組合起來,否則就是錯(cuò)誤的。例如:不/少年不少/年
3.意義原則A、切分出來的IC都必須有意義。如:我才來小河潺潺的流水B、切分出來的IC在意義上必須符合語言習(xí)慣,不能相悖。
如:一位小偷的辯護(hù)律師C、切分出來的IC在意義上的搭配必須等于該組合的原意如:咬死了獵人的狗打死了小王的貓
(四)層次分析法的作用與局限作用:1.適用面廣,從音節(jié)、詞組、單句、復(fù)句乃至篇章,一以貫之,都可以用。2.能更好地分化歧義句式。比如:安排好工作
3.能幫助我們?nèi)グl(fā)現(xiàn)許多新的語法現(xiàn)象,揭示新的語法規(guī)則,引導(dǎo)我們將語法研究引向深入。
這種錯(cuò)誤避免(可以)一場(chǎng)無謂的爭吵避免(了)我避免(跟他接觸)他們避免(了一場(chǎng)事故)你們避免(在工作中要)(主觀、片面性)局限:層次分析只能揭示構(gòu)造層次和顯性的語法關(guān)系(語法結(jié)構(gòu)關(guān)系),不能揭示句法結(jié)構(gòu)內(nèi)部隱性的語法關(guān)系(語義結(jié)構(gòu)關(guān)系),如:又如:縣里來了一位胸外科大夫?qū)哟畏治鰺o法劃分歧義,這就要求我們?nèi)ヌ角笮碌姆治鍪侄巍儞Q分析。變換分析法變換分析法是指按照一定的語法規(guī)則把一種結(jié)構(gòu)的短語或句子變?yōu)榱硪环N結(jié)構(gòu)的分析方法。為什么要變換?⑴臺(tái)上坐著主席團(tuán)。⑵臺(tái)上演著梆子戲。⑶山上架著炮。從格式上看,都是:NPL+V+著+NP,運(yùn)用層次分析,所得結(jié)構(gòu)相同。利用變換分析這幾個(gè)句子差別就顯現(xiàn)出來了。⑴臺(tái)上坐著主席團(tuán)⑵臺(tái)上演著梆子戲⑶山上架著炮主席團(tuán)坐在臺(tái)上*梆子戲演在臺(tái)上炮架在山上*臺(tái)上正在坐主席團(tuán)臺(tái)上正在演梆子戲山上正在架炮什么是變換(transformation)1.從深層結(jié)構(gòu)到表層結(jié)構(gòu)的轉(zhuǎn)換。2.不同句式的變換變換規(guī)則有移位、添加、替換、刪除和分合等1、移位:三個(gè)人吃一鍋飯→一鍋飯吃三個(gè)人2、添加:寫信→寫(一封)信
3、替換:他說漢語說得好→他的漢語說得好4、刪除:他寫的信→他寫信5、分合:我和小張是湖北人→我是湖北人,小張是湖北人實(shí)際的變換大都是以上各種方法的綜合運(yùn)用。變換分析法的客觀依據(jù)和基本精神(一)變換分析法的客觀依據(jù)1.語言中存在大量的同義句式。例如:弟弟打破了我的玻璃杯。a.弟弟打破了我的玻璃杯。b.弟弟把我的玻璃杯打破了。c.我的玻璃杯被弟弟打破了。d.我的玻璃杯給弟弟打破了。e.我的玻璃杯弟弟打破了。2.語言中存在著大量的同形格式。省略可以形成同形格式。例如:反對(duì)的是他張三反對(duì)的人是他[受事]。張三反對(duì)的是他[受事]。反對(duì)的是他[受事]。反對(duì)分配方案的人是他[施事]。反對(duì)分配方案的是他[施事]。反對(duì)的是他[施事]。結(jié)構(gòu)和意義的不平衡性產(chǎn)生同形格式。例如:VP+去既可以表示:(甲)“VP是動(dòng)作者位移的方式”,如:“騎自行車去”、“走著去”。(乙)“VP是動(dòng)作者位移的目的性行為”,如:“買菜去”、“看電影去”。乘火車去既可以表示(甲)的意思,用來回答“怎么去?”也可以表示(乙)的意思,用來回答“干嗎去?”3.同義句式之間存在著一定的聯(lián)系。同義句式之間具有相同的語義結(jié)構(gòu)和語義內(nèi)容。如上文中a、b、c、d、e這五個(gè)句子:a.弟弟打破了我的玻璃杯。b.弟弟把我的玻璃杯打破了。c.我的玻璃杯被弟弟打破了。d.我的玻璃杯給弟弟打破了。e.我的玻璃杯弟弟打破了。盡管格式不一樣,但它們內(nèi)部詞語之間的語義結(jié)構(gòu)關(guān)系都是相同的。正由于這樣,包含相同語義結(jié)構(gòu)關(guān)系的不同句法結(jié)構(gòu)之間總是存在著某種內(nèi)在的聯(lián)系。變換分析正是利用這內(nèi)在的結(jié)構(gòu)聯(lián)系來揭示歧義格式各自所聯(lián)系的同義格式,以達(dá)到分化歧義句法格式的目的。層次分析法通過細(xì)致分析一個(gè)句子的構(gòu)造層次和內(nèi)部的句法結(jié)構(gòu)關(guān)系來認(rèn)識(shí)所分析句子的特點(diǎn);變換分析法通過分析了解所分析句子的結(jié)構(gòu)跟他種句子結(jié)構(gòu)之間的不同聯(lián)系來深入認(rèn)識(shí)所分析的句子的特點(diǎn)。(二)變換分析法的基本精神變換是指句式的變換不是指某個(gè)具體句子的變換,因此作為一個(gè)合法的變換一定要形成一個(gè)變換矩陣:模型矩陣?變換式矩陣
set(A)=>set(B)S1=>s1‘S2=>s2‘S3=>s3‘
……
……原式=>
變換式小王吃完了饅頭=>小王把饅頭吃完了小李看完書=>小李把書看完了小張賣完了菜=>小張把菜賣完了王華洗完了衣服=>王華把衣服洗完了……=>……再來看一下開始的那個(gè)例句:縣里來了一位胸外科大夫[A]縣里來了一位胸外科大夫
===>[C]從縣里來了一位胸外科大夫[B]縣里來了一位胸外科大夫
===>[D]有一位胸外科大夫來到了縣里
嚴(yán)格說來,[A]變換為[C],[B]變換為[D],都是屬于句式的變換。變換是指句式的變換,而不是指具體某個(gè)句子的變換。
[A]NPL+VP+NPQ[NPL理解為起點(diǎn)]
[B]NPL+VP+NPQ[NPL理解為到達(dá)點(diǎn)]
[C]從+NPL+VP+NPQ
[D]有+NPQ+VP+到+NPL
[A]、[B]、[C]、[D]都分別代表一種句式,其中[A]和[B]是語法意義不同的同形句式。每一種句式都可以舉出許多實(shí)例,因此實(shí)際的變換分別形成不同的變換矩陣。所謂[A]變換為[C]實(shí)際的變換情況是[A]式變換為[C]式,請(qǐng)看:
NPL+VP+NPQ=>從
+NPL+VP+NPQ
[A]
=>
[C]前面走來一個(gè)老太太=>從前面走來一個(gè)老太太草叢里跳出一只蛐蛐兒=>從草叢里跳出一只蛐蛐兒水底下躥出一條小白魚=>從水底下躥出一條小白魚窗戶口探出一個(gè)小腦袋=>從窗戶口探出一個(gè)小腦袋
……=>
……[B]變換為[D]實(shí)際的變換情況是[B]式變換為[D]式,請(qǐng)看:
NPL+VP+NPQ=>有+NPQ+VP+到+NPL
[B]
=>
[D]咱村里調(diào)來了一位女干部=>有一位女干部調(diào)到咱村里屋里飛來幾只蒼蠅=>有幾只蒼蠅飛到屋里小張那里送去了兩袋面粉=>有兩袋面粉送到小張那里他們村來了一位首長=>有一位首長來到他們村
……=>
……變換分析法的基本原則1、平行性原則先看下面的例子:
AB黑板上寫著字===>字寫在黑板上手絹上繡著花===>花繡在手絹上桌子上放著書===>書放在桌子上
…………從豎行看,A、B的句例在句法結(jié)構(gòu)上分別都是NPL+V+著+NP、NP+V+在+NPL第一、A行的語法意義表示“某處以何種方式存在某物”,B行的語法意義是“通過動(dòng)作,事物存在于某處”。這種意義稱為“高層次語義”。第二、A變換為B后,A中的句例與變換后B中句例比較起來,意義上會(huì)有某種差別,但這種差別A、B中相應(yīng)的句例是相同的。第三、A變?yōu)锽后,句中各成分之間的語義關(guān)系沒有發(fā)生變化。比如:NPL+V+著+NP和NP+V+在+NPL中,NP始終是“受事”,V始終是動(dòng)作或存在的方式,NPL始終是NP存在的處所。這種意義稱為“低層次語義”。這樣,在變換矩陣中,不論是豎行的句例、橫行的句例,還是變換前后的句例都保持著一種平行性,由此形成一個(gè)整齊而平行的變換矩陣。變換分析中的平行性原則可以表述如下:(1)變換以前,豎行的句子在形式上和高層次語義關(guān)系一致。(2)變換以后,豎行的句子在形式上和高層次語義關(guān)系上一致。(3)所有橫行左右兩側(cè)的句子在高層次語義關(guān)系上的差別一致。(4)每一橫行左右兩側(cè)的句子在低層次的語義關(guān)系上一致。只有遵守平行性原則的變換才是正確的變換。例如:(1)病人在床上躺著=>病人躺在床上(2)衣服在外頭晾著=>衣服晾在外頭(3)畫兒在墻上掛著=>畫兒掛在墻上(4)水在溝里流著=>水流在溝里例(4)與前面3個(gè)變換不同,高層次語義與前三個(gè)不同,不是同一個(gè)變換。再看下面的兩個(gè)變換:(5)我借給你一只筆使=>我借一支筆給你使(6)我借給你一支筆寫=>我借一支筆給你寫例(5)(6)低層次語義不同,不是同一個(gè)變換,算兩個(gè)不同的變換。平行性原則可以鑒定不同的句法結(jié)構(gòu):在黑板上寫字在池子里養(yǎng)魚在食堂里吃飯?jiān)谄嚿峡磿诤诎迳蠈懽?>把在寫在黑板上在池子里養(yǎng)魚=>把魚養(yǎng)在池子里在食堂里吃飯=>*把飯吃在食堂里在汽車上看書=>*把書看在汽車上2、約束性原則變換會(huì)受到句法、語義、語用和音節(jié)的限制。他把文章改好了==>他改好了文章他把文章改通順了==>*他改通順了文章他累彎了腰==>*他累彎曲了腰他關(guān)嚴(yán)了門==>*他關(guān)嚴(yán)實(shí)了門小紅哭啞了嗓子==>*小紅哭嘶啞了嗓子張三打碎了杯子==>*張三打粉碎了杯子上述例句不能變換是受到了音節(jié)的限制。拿了那本書===>把那本書拿來了拿來了一本書===>*把一本書拿來了走來了一個(gè)人===>*一個(gè)人走來了上述例句不能變換受到的句法、語義的制約。變換分析法的作用1、給句法結(jié)構(gòu)定性現(xiàn)代漢語中的“v+數(shù)量”結(jié)構(gòu)有如下三種:
ABC
買一本洗一次看一天吃一碗敲一下干一年寫一篇說一遍站一小時(shí)買一本===>買了/過一本吃一碗===>吃了/過一碗寫一篇===>寫了/過一篇洗一次===>洗了/過一次敲一下===>敲了/過一下說一遍===>說了/過一遍看一天===>看了/過一天干一年===>干了/過一年站一小時(shí)===>站了/過一小時(shí)買一本===>一本也沒有買吃一碗===>一碗也沒有吃寫一篇===>一篇也沒有寫洗一次===>一次也沒有洗敲一下===>一下也沒有敲說一遍===>一遍也沒有說看一天===>一天也沒有看干一年===>一年也沒有干站一小時(shí)===>一小時(shí)也沒有干再如:臺(tái)上坐著主席團(tuán)現(xiàn)代漢語句子的主語有兩個(gè)典型特性:一是可以用“是不是”提問;一是可以出現(xiàn)在連詞之前。小王吃著蘋果=>小王是不是吃著蘋果臺(tái)上坐著主席團(tuán)=>臺(tái)上是不是坐著主席團(tuán)小王吃著蘋果=>小王如果吃著蘋果,……臺(tái)上坐著主席團(tuán)=>臺(tái)上如果坐著主席團(tuán),……
臺(tái)上坐著主席團(tuán)=>臺(tái)上是不是坐著主席團(tuán)滿滿地坐著主席團(tuán)=>*滿滿地是不是坐著主席團(tuán)臺(tái)上坐著主席團(tuán)=>臺(tái)上如果坐著主席團(tuán),……滿滿地坐著主席團(tuán)=>*滿滿地如果坐著主席團(tuán),……2、更有效地分化歧義句式。例如:山上架著炮這個(gè)語言單位有以下兩個(gè)意思:(a)山上正在架炮(動(dòng)態(tài))(b)山上有炮(靜態(tài))層次切分是相同的,這個(gè)例句對(duì)應(yīng)著下面兩個(gè)格式:
(1)戲臺(tái)上放著鮮花。
(2)戲臺(tái)上演著京戲。
例(1)表示存在,表靜態(tài),(A)義;例(2)表示活動(dòng),表動(dòng)態(tài),(B)義。兩句的差異由句法結(jié)構(gòu)內(nèi)部實(shí)詞與實(shí)詞之間不同的語義結(jié)構(gòu)關(guān)系造成的。例(1)里作為NPL的“戲臺(tái)上”是指明NP“鮮花”存在的處所;例(2)里作為NPL的“戲臺(tái)上”是指明“V+NP”“演著京戲”這一活動(dòng)進(jìn)行的場(chǎng)所。假設(shè)表示(A)義的“NPL+V+著+NP”為[A]式;表示(B)義的“NPL+V+著+NP”為[B]式。[A]式可以跟“NP+V+在+NPL”句式(假設(shè)為[C]式)相聯(lián)系,即[A]式可以變換為[C]式。NPL+V+著+NP=>NP+V+在+NPL[A]====>[C]
黑板上寫著字
====>字寫在黑板上大門上貼著對(duì)聯(lián)
====>對(duì)聯(lián)貼在大門上墻上掛著畫
====>畫掛在墻上左胸上別著?;?/p>
====>?;談e在左胸上門口站著人
====>人站在門口床上躺著病人
====>病人躺在床上戲臺(tái)上放著鮮花
====>鮮花放在戲臺(tái)上
山上架著炮====>炮架在山上[B]式跟“NPL+正在+V+NP”[D]式發(fā)生聯(lián)系,[B]式可以變換為[D]式。NPL+V+著+NP=>NPL+正在+V+NP[B]
====>
[D]
戲臺(tái)上演著京戲
====>戲臺(tái)上正在演京戲門外敲著鑼鼓
====>門外正在敲鑼鼓外面下著大雨
====>外面正在下大雨大廳里跳著舞
====>大廳里正在跳舞教室里上著課
====>教室里正在上課爐子上熬著粥
====>爐子上正在熬粥山上架著炮====>山上正在架著炮
3、變換分析有助于將語法研究引向深入。(1)我和王老師是教員。(2)我和王老師是同鄉(xiāng)。抽象形式:NP1+和+NP2+是+NP3”內(nèi)部構(gòu)造層次和結(jié)構(gòu)關(guān)系也相同。從變換的角度看,二者是不同的。假設(shè)例(1)的“NP1+和+NP2+是+NP3”為[A]式;例(2)的“NP1+和+NP2+是+NP3”為[B]式。NP1+和+NP2+是+NP3=>NP1+是+NP3,NP2+是+NP3[A]=>[C]我和王老師是教員
=>我是教員,王老師是教員張三和李四是上海人
=>張三是上海人,李四是上海人大蔥和生姜是調(diào)料=>大蔥是調(diào)料,生姜是調(diào)料約翰和貝利是英國人=>約翰是英國人,貝利是英國人紙張和筆硯是文具=>紙張是文具,筆硯是文具
NP1+和+NP2+是+NP3=>*NP1+是+NP3,NP2+是+NP3[B][C]我和王老師是同鄉(xiāng)=>*我是同鄉(xiāng),王老師是同鄉(xiāng)小紅和小玲是親姐妹=>*小紅是親姐妹,小玲是親姐妹李瑞和楊民是夫妻=>*李瑞是夫妻,楊民是夫妻老王和老蕭是老戰(zhàn)友=>*老王是老戰(zhàn)友,老蕭是老戰(zhàn)友
這種變換的區(qū)別,啟迪我們認(rèn)識(shí)到:“NP1+和+NP2”如果在“是”字句中作主語,有時(shí)以表示兩種語法意義:一種是表示“加而不合”的關(guān)系,如例(1)一種是表示“加而且合”的關(guān)系,如例(2)區(qū)別取決于充任“是”的賓語的名詞的性質(zhì):凡屬于親屬或師友稱謂的集合名詞,“NP1+和+NP2”表示“加而且合”的關(guān)系;屬于一般非集合名詞,則“NP1+和+NP2”表示“加而不合”的關(guān)系。
從句子成分分析法到層次分析法,從層次分析法到變換分析法,這不是簡單的代替,而是發(fā)展,是研究的深化我們運(yùn)用句子成分分析法就行了,有時(shí)得用層次分析法,而有時(shí)句子成分分析法或?qū)哟畏治龇ń鉀Q不了問題,那就還需要運(yùn)用變換分析法。因此,決不能認(rèn)為有了變換分析法就可以拋棄或廢除句子成分分析法或?qū)哟畏治龇?。變換分析法很好,但也不要認(rèn)為這是萬能的分析法,不要認(rèn)為它能解決一切語法問題。比如,變換分析法能夠分化歧義句式,但不能解釋造成歧義的原因。隨著語法研究的深入與發(fā)展,還將會(huì)不斷創(chuàng)建新的分析手段。
下列短語的結(jié)構(gòu)是否相同?試用變換分析法進(jìn)行說明。一碗飯、一口袋面、一筐菠菜、一壇子酒一杯茶、一池子水、一桶水、一桶汽油、一瓶醋、一盆洗澡水、一盤兒點(diǎn)心、一腿泥、一桌子土、一院子樹葉、一臉麻子、一肚子學(xué)問、一身雪、一頭白發(fā)、一鼻子灰、一嘴粗話、一床被子、一屋子書、一鐵锨泥、一架子報(bào)紙2、用變換分析法分化下面的歧義句連我也不認(rèn)識(shí)了。他在桌子上寫字。a.弟弟打破了我的玻璃杯。b.弟弟把我的玻璃杯打破了。c.我的玻璃杯被弟弟打破了。d.我的玻璃杯給弟弟打破了。e.我的玻璃杯弟弟打破了。自動(dòng)句法分析1.喬姆斯基范式(ChomskyNormalForm,CNF)2.自頂向下(top-down)
3.自底向上(bottom-up)喬姆斯基(Chomsky)與轉(zhuǎn)化生成語法(TransformationalGenerativeGrammar)1928年12月7日出生于美國賓夕法尼亞州的費(fèi)城。1947年,在哈里斯(Harris)的影響下他開始研究語言學(xué)。1955年寫出他最有名的著作《句法結(jié)構(gòu)》(SyntacticStructures)。轉(zhuǎn)化生成語法學(xué)的創(chuàng)始人,被《紐約時(shí)報(bào)》稱為“至今還健在的可能是最重要的知識(shí)分子”?!毒浞ńY(jié)構(gòu)》有一半篇幅用于英語語法的形式化。非經(jīng)驗(yàn)主義和形式化是轉(zhuǎn)換生成語法的首要標(biāo)志。把句法關(guān)系作為語言結(jié)構(gòu)的中心并以此說明語句的生成是這場(chǎng)革命的又一表現(xiàn)。為了描寫和解釋語言現(xiàn)象,喬姆斯基在《句法結(jié)構(gòu)》中論證了語法的生成能力,認(rèn)為應(yīng)該把語法看成是能生成無限句子的有限規(guī)則系統(tǒng)。它以"核心句"為基礎(chǔ),通過轉(zhuǎn)換規(guī)則描寫和分析不同句式之間的內(nèi)在聯(lián)系。該書分析了以"馬爾可夫過程"為基礎(chǔ)的通訊理論,認(rèn)為它只能生成有限狀態(tài)的語法,而這種"有限狀態(tài)的語法"不能生成象英語這種語言里含有不連續(xù)結(jié)構(gòu)的所有合乎語法的句子。基于此,喬姆斯基提出了轉(zhuǎn)換語法模式,認(rèn)為它才能生成所有合乎語法的句子而不會(huì)生成不合乎語法的句子。轉(zhuǎn)換語法模式由短語結(jié)構(gòu)規(guī)則、轉(zhuǎn)換規(guī)則、語素音位規(guī)則三套規(guī)則構(gòu)成。短語結(jié)構(gòu)規(guī)則有三種:合并、遞歸、推導(dǎo)式,其基本形式是x→y?!x作"改寫",這個(gè)公式就是將x改寫成y。短語結(jié)構(gòu)規(guī)則生成的是"核心語符列",不經(jīng)過轉(zhuǎn)換直接由這種語符列得出的基本句型叫"核心句"。轉(zhuǎn)換規(guī)則包括:移位、刪略、添加。最后運(yùn)用語素音位規(guī)則得出實(shí)際說出的句子。這三套規(guī)則中,最引人注目的是轉(zhuǎn)換規(guī)則,因?yàn)槎陶Z結(jié)構(gòu)規(guī)則和語素音位規(guī)則實(shí)際上繼承了描寫語言學(xué)的"直接成分分析"和語素音位的分析,轉(zhuǎn)換是一種創(chuàng)新,它使語法具有更強(qiáng)的解釋力?!毒浞ńY(jié)構(gòu)》把語義排除在語法之外,這一時(shí)期的理論框架不包括語義部分。喬姆斯基認(rèn)為,語法理論不應(yīng)該建立在語義的基礎(chǔ)上,而應(yīng)該用某種嚴(yán)格的、客觀的方法去代替對(duì)于模糊的語義的依賴。不過這一理論在后來的發(fā)展中做了重大的修正?!毒浞ńY(jié)構(gòu)》是轉(zhuǎn)換生成語法第一階段--古典理論的代表作,它的出版被人們認(rèn)為是"喬姆斯基革命"開始的標(biāo)志,也標(biāo)志著轉(zhuǎn)換生成語法的誕生。他在書中所提出了句法三大原則:短語結(jié)構(gòu)規(guī)則、轉(zhuǎn)換規(guī)則、語素音位規(guī)則。其中短語結(jié)構(gòu)規(guī)則是為了生成句子而創(chuàng)立的,其基本觀點(diǎn)是利用短語主要功能是構(gòu)造句子,來得出一個(gè)句子都可以分析為一個(gè)名詞短語和動(dòng)詞短語的互動(dòng),基本上可以用:“S→NP+VP;V+NP”表示。這一規(guī)則雖然確定了短語的功能,但是其構(gòu)成正確句子的目的還沒有達(dá)到。按照上面的短語結(jié)構(gòu)規(guī)則“張三喝酒”和“酒喝張三”這兩個(gè)句子從形式看一模一樣,而且符合短語規(guī)則,但是顯然后者這個(gè)句子不能存在。為了避免這些錯(cuò)句的產(chǎn)生,我們應(yīng)該將動(dòng)詞和名詞的語義關(guān)系進(jìn)行區(qū)分,或者是位置情況予以區(qū)分。比如“酒”很顯然后面不能直接接“喝”,而“喝”前面應(yīng)該是有生命的,不能是無生命的。因?yàn)椤昂取边@個(gè)動(dòng)詞本身就是一種有生命的物體產(chǎn)生的行為,這其實(shí)就涉及到語義的問題了。為此喬姆斯基又接著在1965年出版了《句法理論的若干原理》(《AspectsoftheTheoryofsyntax》),針對(duì)前一本書引起的一些問題做了補(bǔ)充,而且主要是在語義角度來對(duì)前一本書做了一個(gè)完善。為了區(qū)分形式和語義這兩個(gè)層次。他又提出了兩種概念,一種是關(guān)系概念(relationalnotions)一種是范疇概念(categorialnotions)。前者指主語、謂語、賓語的各種關(guān)系,涉及到語義關(guān)系;后者指語法范疇,比如一些動(dòng)詞短語、名詞短語等等,也就是前本書中短語規(guī)則成立的前提。但是這本書出版不到一年的時(shí)間,又引起了眾多反對(duì)的聲音。這其中最具有代表的就是他的學(xué)生菲爾墨(C.J.Fillmore)。他認(rèn)為,范疇概念不能包括一切語言現(xiàn)象,必須用關(guān)系概念才能解釋清楚。依據(jù)喬姆斯基的說法,下面如果用范疇概念分析的話,都是介詞短語:bythetailor(裁縫做的)bytrain(乘火車)withaknife(用把刀)inamonth(一月之內(nèi))foryourfriend(為你的朋友)towardsthemoon(朝向月亮)onthestreet(在街上)onthebus(在汽車上)但是這些短語很顯然在句子中的作用沒有體現(xiàn),而且他們作為介詞短語都沒有本質(zhì)區(qū)別,但是如果用關(guān)系概念分析,它們各自的特色就凸現(xiàn)出來了。它們分別為實(shí)施者(agent),工具(instrument),持續(xù)時(shí)間(duration),方向(direction),受益者(benefactor),地點(diǎn)(location)
[1]轉(zhuǎn)引自劉潤清,西方語言學(xué)流派,外語教學(xué)與研究出版社,2002年版喬姆斯基范式1.為了用上下文無關(guān)語法來描述和生成自然語言,Chomsky提出了Chomsky范式(CNF)。2.Chomsky證明了,任何的由上下文無關(guān)語法生成的語言,均可由重寫規(guī)則為A(S)→B(NP)C(VP)或A→a的語法生成,其中,A,B,C是非終極符號(hào),a是終極符號(hào)。3.具有這樣的重寫規(guī)則的上下文無關(guān)語法,它的推導(dǎo)樹均可簡化為二元形式,這樣,就可以采用二分法來分析自然語言,采用二叉樹來表示自然語言的句子結(jié)構(gòu)。因此,上下文無關(guān)的重寫規(guī)則A→BC或A→a便叫做Chomsky范式先要了解漢語一些轉(zhuǎn)換組合規(guī)則S→NP+VPNP→N+N/N/CS的/VP→V+NP/V+V/PP+VCS→NP+V'…..一般常規(guī)自動(dòng)分析步驟1.設(shè)立詞庫和組合規(guī)則庫2.根據(jù)組合規(guī)則,找到對(duì)應(yīng)詞庫的詞進(jìn)行層級(jí)劃分。3.如沒有符合規(guī)則庫的句法結(jié)構(gòu),則回溯,直到完全按照規(guī)則庫的法則處理句中的每一個(gè)語法成分。從上到下簡單句法分析算法示例張三是縣長派來的。1.查詞典(進(jìn)行詞性標(biāo)注)2.進(jìn)行句法分析
句法樹擴(kuò)展完畢
恰好句子匹配完成
分析成功自底向上的分析法所謂“理性主義”,就是指以生成語言學(xué)為基礎(chǔ)的方法。所謂“經(jīng)驗(yàn)主義”,就是指以大規(guī)模語料庫的分析為基礎(chǔ)的方法自然語言處理的經(jīng)驗(yàn)主義和理性主義的方法
格語法(CaseGrammar)理論背景:喬姆斯基早期理論基本上屬于形式語法,其短語結(jié)構(gòu)規(guī)則(S→NP+VP;V+NP)的目標(biāo)是生成所有的句子。結(jié)果,生成所有句子的目標(biāo)雖然達(dá)到了,但是在生成正確句子(“約翰喝酒”)的同時(shí),也生成出錯(cuò)誤的句子(“灑喝約翰”)。這說明動(dòng)詞和名詞之間要有一種語義限制。為了從語義的角度彌補(bǔ)轉(zhuǎn)換生成語法的不足,喬姆斯基的學(xué)生菲爾墨1966年發(fā)表了《關(guān)于現(xiàn)代的格理論》(TowardaModernTheoryofCase),1968年發(fā)表了《格辨》(TheCaseforCase),1971年發(fā)表了《格語法的某些問題》(SomeProblemforCaseGrammar),1977年發(fā)表了《再論格辨》(TheCaseforCaseReopened)。菲爾墨以上這些系列論文形成了一個(gè)語法學(xué)派,即所謂格語法,它實(shí)際上是轉(zhuǎn)換生成語法發(fā)展出來的一個(gè)分支。什么是格?在拉丁文中,單詞在句子中的作用或與其他單詞的關(guān)系是通過詞尾形式的變化反映出來的。這些特定的詞尾形式被賦予了特定的意義,我們把這些特定的詞尾變化模式稱為單詞的格(case)。拉丁文中有六種格:主格(nominative)受格(accusative)屬格(genitive)與格(dative)奪格(ablative)呼格(vocative傳統(tǒng)語法中的“格”“格”一直是指通過名詞、代詞的形態(tài)變化表示出來的名詞、代詞與句中其他詞的語法關(guān)系。如俄語中有六個(gè)格:主格、屬格、與格、賓格、工具格、前置格;德語中有四種格:主格、賓格、與格、所有格;英語中I.he.she是主格,me.him.her是賓格,my.his.her是所有格。這種格一般稱為句法格,是某些屈折語所特有的句法現(xiàn)象菲爾墨格語法中的“格”是深層格。反映動(dòng)詞和名詞間的關(guān)系。不管名詞在表層結(jié)構(gòu)中處于什么位置,與動(dòng)詞間的關(guān)系固定不變。格的數(shù)量最早期理論中提到的格:A:施事(agentive)(有生命的動(dòng)作發(fā)出者);I:工具(instrumental)(造成動(dòng)作或狀態(tài)的無生命的力量或客體);O:受事(objective)(動(dòng)作或狀態(tài)所影響的事物);F:結(jié)果(factitive)(動(dòng)作或狀態(tài)所造成的結(jié)果);D:與格(dative)(動(dòng)作或狀態(tài)所影響的有生命者);L:處所(locative)(動(dòng)作或狀態(tài)的空間位置);B:受益(benefactive)(動(dòng)作或狀態(tài)的受益者)。標(biāo)注舉例砍樹砍斧子砍了個(gè)口子語義格的復(fù)雜性格語法理論基本內(nèi)容句子生成的三條基本規(guī)則:1.S→M+P2.P→V+C1+C23.C→K+NP主語的選擇原則(SubjectSelectionPrinciples):如有A,A為主語;如無A有I,I為主語;如無A和I,O為主語。例如:
open(+[__O(I)(A)])→Thedooropened.[__O]→Johnopenedthedoor.[__O+A]→Thewindopenedthedoor.[__O+I]→Johnopenedthedoorwithakey.[__O+I+A]一句一例原則(one-instance-per-clauseprinciple)每一個(gè)小句中,任何一個(gè)格最多由一個(gè)名詞短語(可以是并列短語)充當(dāng)。并列結(jié)構(gòu)、復(fù)指、反身代詞除外使用格語法進(jìn)行語言分析前提:詞典中要記錄動(dòng)詞的格框架和名詞的語義信息。在格框架中,不僅可以有語法信息,而且還有許多語義信息,語言信息是整個(gè)格框架的最基本的部分。步驟:1)判斷待分析詞序列中主要?jiǎng)釉~在動(dòng)詞詞典中找出該詞的格框架2)識(shí)別必備格3)按照與(2)相似的方法識(shí)別可選格4)根據(jù)句子中出現(xiàn)的標(biāo)志判斷句子的情態(tài)語義格理論的應(yīng)用對(duì)句子進(jìn)行語義角色標(biāo)注,可以避免一些因句法形式變化所產(chǎn)生的問題。例如:委員會(huì)明天將要通過此議案這些句子句法形式不同,其句法分析的結(jié)果自然不同,但是句子含義是一樣的,也就是說謂詞“通過”的語義角色相同,這種特點(diǎn)可以成功的運(yùn)用到問答系統(tǒng)中。比如,語義角色標(biāo)注可以注明活動(dòng)發(fā)生的時(shí)間、場(chǎng)所等語義角色,自然可以對(duì)詞類問題進(jìn)行針對(duì)性的回答。格語法與FrameNetFrameNet是美國加州大學(xué)伯克利分校于1997年開始構(gòu)建的基于真實(shí)語料庫支持的計(jì)算機(jī)詞典編撰寫工程。目前已構(gòu)建800個(gè)語義框架,包括10000個(gè)詞匯,其中6000多個(gè)詞匯已被完全標(biāo)注,例句13500多個(gè)。FrameNet的理論基礎(chǔ)來源于菲爾默的格框架理論。主張用語義框架(semanticframe)來描寫語義,不同的詞語義項(xiàng)與該詞所參與的不同語義框架相聯(lián)系。當(dāng)一個(gè)詞的詞義基于某一特定的框架時(shí),我們則說該詞激活了一個(gè)框架。例如:“hit”一詞既可表示“擊中”,又可表示“產(chǎn)生意外或不良影響”,如何區(qū)分?我們可以根據(jù)在一定的上下文環(huán)境中激活一個(gè)“擊中目標(biāo)(hit_target)”框架,也可能在另外的上下文環(huán)境中激活一個(gè)具體的“引起傷害(cause_harm)”框架。利用格框的選擇性限制(selectionalrestriction)可以分析一些句法歧義動(dòng)詞的各個(gè)語義角色在語義上滿足什么樣的約束條件即是選擇性限制條件。格語法在句法分析的應(yīng)用修理{[施事:人][受事:人工物]}尋找{[施事:人][受事:具體事物]}工人[語義類:人]汽車[語義類:交通工具]遺物[語義類:具體事物]烈士[語義類:人]漢語的一些流水句、無動(dòng)句。連動(dòng)、緊縮、動(dòng)補(bǔ)、省略等結(jié)構(gòu),無法或不必用一個(gè)動(dòng)詞統(tǒng)率一個(gè)句子的模式來描述。其中連動(dòng)句和兼語句尤為突出。格語法存在的問題1.沒有形成一個(gè)完備的語義格系統(tǒng),其語義角色的多少?zèng)]有定論。2.語義格角色間有交叉語義格劃分的精細(xì)度語義格核心格主體客體外圍格憑借環(huán)境漢語實(shí)際語義角色的復(fù)雜性1.我飛了你的馬。2.一下午就敲了兩百多字。3.今天老張干嘛去了?—蹬煤去了。4.他這回總算游了一個(gè)冠軍。5.他晚上又要來催稿子。6.他剛拖了地板,窗戶還沒有擦。結(jié)構(gòu)壓縮與論元新增思考如何判定一個(gè)動(dòng)詞所接的語義角色?配價(jià)語法(ValenceGrammar)比較:(1)“喝啤酒的學(xué)生”(2)“喝啤酒的方式”兩者無論是詞類序列還是內(nèi)部構(gòu)造層次,似乎沒有什么區(qū)別。但是,有時(shí)候“學(xué)生”可以省略,比如“喝啤酒的(學(xué)生)請(qǐng)舉手”。而“方式”在任何時(shí)候都不能省。這種差別利用層次分析法不能分析,利用變換分析法倒是可以證明“V+NP1+的+NP2”可以分化為兩種格式。例如:(1)喝啤酒的學(xué)生→那學(xué)生喝啤酒看電影的那個(gè)人→那個(gè)人看電影(2)喝啤酒的方式→那方式喝啤酒*看電影的情節(jié)→那情景看電影*但不能解釋“喝啤酒的(學(xué)生)”的中心語“學(xué)生”可省,而“喝啤酒的方式”的中心語“方式”不可省。配價(jià)語法的理論背景法國語言學(xué)家泰尼埃爾(Luc
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- Module 8 Sports Life Unit 1 教學(xué)設(shè)計(jì) 2024-2025學(xué)年外研版九年級(jí)英語上冊(cè)
- 副會(huì)長聘用合同范本
- 前置物業(yè)合同范本
- 勞務(wù)分包泥工合同范本
- 公墓bot項(xiàng)目合同范本
- gps銷售合同范本
- 2024年新疆格瑞汀新材料科技有限公司招聘考試真題
- 七人合同范本
- 勞務(wù)裝修合同范本
- 2024年黑龍江省選調(diào)考試真題
- 中藥貼敷療法
- 2024年江蘇農(nóng)牧科技職業(yè)學(xué)院單招職業(yè)適應(yīng)性測(cè)試題庫各版本
- DZ∕T 0054-2014 定向鉆探技術(shù)規(guī)程(正式版)
- 《研學(xué)旅行市場(chǎng)營銷》課件-研學(xué)旅行市場(chǎng)營銷之內(nèi)容營銷
- 間質(zhì)性腎炎課件
- 院感基礎(chǔ)知識(shí)培訓(xùn)
- 安全生產(chǎn)責(zé)任制考核制度和考核表(完整版)
- 19J102-1 19G613混凝土小型空心砌塊墻體建筑與結(jié)構(gòu)構(gòu)造
- 2024年常州信息職業(yè)技術(shù)學(xué)院單招職業(yè)技能測(cè)試題庫及答案解析
- 《中國陶瓷史》課件-1-中國陶瓷史概述
- 英語教師課堂提問省公開課一等獎(jiǎng)全國示范課微課金獎(jiǎng)?wù)n件
評(píng)論
0/150
提交評(píng)論