版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
基于語義類的漢語句法分析研究李輝2013.04.01句法分析的困難句法分析的最主要的困難有兩點:
第一個難點是歧義“自然語言區(qū)別于人工語言的一個顯著特點就是它存在大量的歧義現象”人類可以依靠大量的先驗知識有效地消除各種歧義現象,而機器由于在知識表示和知識獲取方面的不足還難以像人類那樣進行句法分析。
第二個難點是搜索空間巨大“同一般的分類問題相比,句法分析是一個更為復雜的問題”因為分類問題只需要在預先指定好的數目確定的若干種類型中做出一個選擇就可以了,而在進行句法分析時,不同的句子會有不同的候選分析樹“給定一個長度為n個詞的句子,其可能的候選句法分析樹的個數高達n的指數級”因此在設計句法分析
模型時不僅僅要加強模型消除歧義的能力,還必須要控制好模型的復雜度,從而保證解碼器能夠在可接受的時間內搜索到最優(yōu)的句法分析樹?;谡Z義類的漢語句法分析一般情況下,訓練數據的規(guī)模越小,句法分析模型的性能就越低“主要原因有兩個:第
一個原因是數據稀疏問題,參數估計得不準確;第二個原因是訓練數據缺乏容易引起過擬合(overtfinig)現象,使模型的泛化能力降低”針對這兩個問題,本章將以最小描述長度原則為基礎,探索基于語義類的漢語句法分析模型“在基于詞類的漢語句法分析模
型中,我們用語義類來代替詞匯信息”這種方法?;谡Z義類模型的輸入是一個由詞匯,詞性和語義類組成的三元組序列:<W,POS,SC>
其中W(w1,,,wn)為詞序列,wi表示第i個詞;SC=(sc1,,,scn)為語義類序列,sci表示第i個詞的語義類;POS=(t1,,,tn)為詞性序列,ti表示第i個詞的詞性。
給定<W,POS,SC>,我們仍然是用統(tǒng)計方法來消除句法歧義,認為條件概率最大的句法分析樹是最好的,即根據貝葉斯公式并略掉常數項,我們有:為了簡化模型,我們假設詞序列砰的產生僅僅依賴于SC。
在做句法分析時,W,sc都是給定的,因此,常數,我們有:是一個可以被省略的
模型總是先產生詞性,然后以詞性為基礎再產生語義類"因此,只有詞性相同的詞語被劃分在同一個語義類中才有意義"根據語料庫中的數據,我們?yōu)槊恳粋€詞性都建立一棵七層的語義分類樹,樹的根節(jié)點為詞性,葉節(jié)點為詞匯,中間的五層為語義類代碼"例如:詞性NR(專有名詞)的語義分類樹的一部分如圖所示:
為每一個詞性都劃分好這樣的語義分類樹之后,就可以應用文獻所提出的方法,把詞語的聚類問題簡化為語義分類樹的剪枝問題"語義分類樹的每一種剪枝方式都對應著一種詞匯聚類結果"例如,在圖中,靠近根節(jié)點的剪枝方式把所有的詞匯分成了如下的3類:第一類(A):{克林頓尼克松毛澤東鄧小平}第二類(D):{中國美國意大利安徽省福建省中科院鞍鋼}第三類(B):{長城白宮}類似地,在圖中,靠近葉節(jié)點的剪枝方式把所有的詞語分成了如下7類:第一類(Afloc12):{克林頓尼克松}第二類(Afloe13):{毛澤東鄧小平}第三類(oioZAo3):{中國}第四類(Di02C):{美國意大利安徽省福建省}第五類(omolB):{中科院}第六類(omO3C):{鞍鋼}第七類(BnolC):{長城白宮}
我們可以用兩個極端方式對語義分類樹進行剪枝:第一種剪枝方式是只保留根節(jié)點(詞性信息),其它節(jié)點全部剪掉,這相當于回到了
PCFG模型。第二種剪枝方式是不剪枝,保留所有葉子節(jié)點(詞匯信
息),這相當于是詞匯化模型。我們知道PCFG模型過于簡單,消歧
能力差;而詞匯化模型使用詞匯信息卻引起數據稀疏。因此,上述兩種方式都是不可取的,比較合理的剪枝應該是介于兩個極端方式之間的。本文采用最小描述長度(MniimumDescriptinoLnegth,MDL)原則,自動地為句法分析模型在兩個極端方式之間尋找一個平衡點。對于一棵剪枝后的語義分類樹,其描述長度為:
其中,lGl為所有候選剪枝方式數目;lSl為樣本數,即該分類樹下的所有詞語出現次數之和;k為剪枝后的語義分類樹的自由參數的個數。
語義分類樹的參數個數為其葉節(jié)點數目。每個葉節(jié)點對應著一個概率值,由于所有概率之和必須為1,則此約束限定了一個參數。因此自由參數的個數為葉節(jié)點數目減一。
其中,sc為w所屬的語義類,f(sc)是其出現的次數,lscl偽語義類sc中所包含的詞語數目。上式的基本思想是把某個語義類sc的概率平
均分配給該語義類所包含的詞,也就是說語義類sc所包含的詞的各
種統(tǒng)計量將被融合在一起并在每個詞之間平均分配,正是借助這種
泛化手段我們才可以從較小的語料庫當中獲得比較智能化的參數估
計。
為了搜索到能夠使L(M)、L(DlM)兩項之和最小的剪枝方式,理論上要窮舉所有可能的情況。在實際操作時,我們可以采用動態(tài)規(guī)劃的方法遞歸地搜索最優(yōu)的剪枝方式,算法如下:
我們看到該算法在對節(jié)點N剪枝之前,首先要對其所有子節(jié)點調用該算法進行剪枝。我們在實際操作時,只需要把每個詞性的語義分類樹的根節(jié)點作為參數傳遞給該算法即可。實驗與分析
實驗是在規(guī)模較小的第一版賓州中文樹庫(CTB)上進行的。CTB由325篇文章組成,根據以往研究的慣例,我們把前270篇文章作為訓練集,后25篇文章作為調試集,其余的30篇文章作為測試集。訓練集和測試集的特性如表5一1所示。實驗的目標是在小語料庫上利用語義類信息來提高句法分析器的性能。
我們設計了如下的3組實驗:)(1)基于詞匯的句法分析,作為其他方法的比較基準。(2)基于固定層次語義類的句法分析。如前所述,每個詞匯都有五層語義類代碼,因此分別進行了5個實驗來驗證語義信息的作用,即所有詞匯都分別采用第一層、第二層、第三層、第四層、第五層語義類代碼。(3)基于最優(yōu)層次語義類的句法分析,即應用MDL原則為每一個詞匯自動確定采用哪一層語義類代碼。
基于第三層、第四層、第五層語義類代碼的句法分析的性能都超過了基于詞匯模型的方法,這在一定程度上說明了語義類在漢語句法分析模型中的重要作用。但是,基于第一層、第二層語義類的方法的性能不如基于詞匯的方法好。導致這一結果的原因是語義類的數目過小,例如,第一層語義類只有12種(即把近萬個詞語聚成12類),而這12個語義類不足以描述眾多詞語之間在句法語義功能上的細微區(qū)別,因此使句法分析模型的判別能力下降。
在第3組實驗中,語義信息的作用得到了更加充分的發(fā)揮。與第二組實驗相比,用MDL原則剪枝的方式取得的性能提升更為顯著。這是因為第二組的每個實驗中所有的詞匯都是采用相同層次的語義類,這種不考慮訓練數據的實際分布情況而僅僅根據語義詞典中的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年商標保護義務協(xié)議
- 2025年健身房特選設備訓練服務協(xié)議
- 2025年基層金融質押協(xié)議
- 2025年連帶責任保證合同(借款)
- 中小企業(yè)2024年期限勞動合同3篇
- 正規(guī)2025年度藝人經紀合同3篇
- 二零二五年度足療技師外出服務安全協(xié)議范本
- 2025年度度假酒店委托運營管理服務合同
- 二零二五年度汽車牌照租賃與車輛抵押貸款服務協(xié)議
- 2025年度門窗行業(yè)產品召回與質量追溯合同電子版
- 江蘇省南京市協(xié)同體七校2024-2025學年高三上學期期中聯合考試英語試題答案
- 青島版二年級下冊三位數加減三位數豎式計算題200道及答案
- GB/T 12723-2024單位產品能源消耗限額編制通則
- GB/T 16288-2024塑料制品的標志
- 麻風病防治知識課件
- 干部職級晉升積分制管理辦法
- TSG ZF003-2011《爆破片裝置安全技術監(jiān)察規(guī)程》
- 2024年代理記賬工作總結6篇
- 電氣工程預算實例:清單與計價樣本
- VOC廢氣治理工程中電化學氧化技術的研究與應用
- 煤礦機電設備培訓課件
評論
0/150
提交評論