




已閱讀5頁,還剩3頁未讀, 繼續(xù)免費閱讀
版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
林業(yè)古籍斷句模式語料庫建設方案探討以樹藝篇為訓練文本 趙陽 (南京林業(yè)大學人文學院,江蘇南京210036) 【摘要】隨著中文信息處理技術的不斷提高,古籍自動化標點的研究也日益趨向成熟。但是現(xiàn)有的模式并不太適合林業(yè)類古籍。林業(yè)古籍有其獨特的表達和術語,與一般性質(zhì)的古籍存在區(qū)別的。本文以樹藝篇為訓練文本,對林業(yè)古籍斷句語料庫的建設問題進行探討。 關鍵詞林業(yè)古籍;斷句;語料庫;樹藝篇 ThisPaperProbesintotheCorpusConstructionSchemeofForestryAncientBooks intheShuYiPianforTrainingText ZHAOYang (NanjingForestryUniversityCollegeofHumanities,NanjingJiangsu2100036,China) 【Abstract】WiththeconstantimprovementoftheChineseinformationprocessingtechnology,thestudyofancientbooksautomationpunctuationalsoincreasinglymature.Buttheexistingmodelsarenotsuitableforforestrykindofancientbooks.Forestryancientbookshasitsuniqueexpressionandterminology,differencewithgeneralqualitativeancientbooks.Inthispaperwiththetreeartpaperfortrainingtext,discussestheproblemsonconstructionofforestryancientpunctuatecorpus. 【Keywords】Forestryancientbooks;Thepausing;Corpus;ShuYiPian 古籍斷句,是古籍實踐中重要的組成部分。通過標點原文,能夠區(qū)分出原文字句段落,厘清上下文關聯(lián),從而引導讀者理解內(nèi)容。這是非常有助于古籍的傳播和閱讀的。中國林業(yè)類古籍的主要功在收集,但其中僅有少量的文獻被標點。那么如果希望更多的林業(yè)古籍被有效利用,就必須加大古籍的力度。中文信息處理技術的介入,提高了該領域的工作效率,這其中尤以自動化標點的實現(xiàn)最為緊要。目前已有不少這樣的研究成果:有古籍斷句的系統(tǒng)結構圖以及基于模式匹配的斷句方法;有基于前后n-gram模型的古漢語斷句算法和一種可用于古文自動斷句的以兩個統(tǒng)計量互信息和測試差為特征的條件隨機場模型;另外xx年國學網(wǎng)還開放了一個古籍斷句評測系統(tǒng)。但是林業(yè)古籍有其專業(yè)性,有該領域獨特的表達和術語,與一般的古籍是存在區(qū)別的。這就需要我們對林業(yè)古籍自動化斷句方式進行研究。而這其中的關鍵,就是建立斷句模式語料庫。 1斷句模式語料庫建設的必要及文本對象的選擇 斷句模式語料庫,是實現(xiàn)林業(yè)古籍自動化斷句的基礎,是建立識別特征的規(guī)則、數(shù)量、質(zhì)量的關鍵所在。這里對斷句模式語料庫的研究,特別強調(diào)林業(yè)古籍本身特征的提取,而不完全依賴于計算機識別程序的運用。因為計算機識別程序,有其基本的功能模塊,也能進行專門的文本處理,但是如上所述,林業(yè)古籍與一般古籍的確實存在區(qū)別,所以應該設置出更具針對性的模式語料庫,然后再結合計算機模式識別程序進行操作。這里語料庫建設不是古籍原文的整體輸入,而是從事理邏輯、敘事層次、語義層次、語詞特征等性質(zhì)入手,建立起識別規(guī)則和模式,同時要兼顧古籍標點中的諸多規(guī)定和限制,最終形成一套可以按照一定規(guī)則進行優(yōu)化、合并,歸類的體系。這對林業(yè)古籍自動點校的實現(xiàn)是非常重要的。 在文本對象的選擇上,本文選擇樹藝篇為實驗對象。樹藝篇被列入子部農(nóng)家類,共33卷。整部書先列總目,后分列谷部、蔬部、草部、草藥部,木部、果部共六類。本論文主要以木部為研究對象,其中木部包含有合歡、榆楊柳、綿柳、白楊、黃楊等14種中國常見的樹種。木部的資料收集時間上跨越性較大,上及漢代,下迄明代。從材料性質(zhì)上看,不僅涉及到樹木的基本介紹、還有技術性指導,甚至還有文學材料的介入;因此,選擇本書作為研究個案,具有較好的代表性。另外這部書到目前為止,沒有任何單行本或者合集的方式做過點校,相對選擇已有過點校本的古籍來說難度更大,從語料學角度看,具有代表性,從實踐意義來說,具有較大的開拓價值。 2林業(yè)古籍斷句模式語料庫建設的難點 斷句模式語料庫的建設,必須結合林業(yè)古籍本身特點來設計,這里提出以下幾點難點問題:第一,重視林業(yè)古籍中的專門詞匯的分割。詞匯的分割一直也是人工古籍標點的難點之一,有語言學者提出“語言中存在大量的復音詞語。它們無論是合成詞、聯(lián)綿詞還是短語,都作為一個造句單位使用,不容許割裂。如果在中間加上標點,就把它們一分為二,也就是點破了詞語,從而破壞了意義的完整,改變了整段乃至全篇文字的意旨。這也是句讀標點中常見的錯誤?!倍偶械脑~匯由于時代的變遷,詞匯的含義及使用都發(fā)生了變化。這樣的特征,再加上林業(yè)類詞匯有其專業(yè)性,所以詞匯的分割正確與否,直接關系到全文的連貫性。第二,注意詞句位置及歸屬。詞句的位置及歸屬判斷直接影響到閱讀者對文章的理解。一般古籍,可以借助上下文理解,或者借助史料背景去解決詞句歸屬的難點,而林業(yè)古籍,從現(xiàn)代圖書分類來看,屬于技術類文本,所以出現(xiàn)詞句位置判斷失誤或者誤判歸屬的問題會更多。這其中必須加強對關鍵詞的判斷,如若關鍵詞判斷失誤,那么接下里的斷句也會產(chǎn)生較大的偏差。第三,注意林業(yè)古籍中的引文、補遺、注釋等文字。這類文字是引自各種方志類書,不同朝代,不同性質(zhì),甚至有些引用文獻都已亡佚。以樹藝篇為例,書后有章鈺手寫目錄,統(tǒng)計193種文獻。如木部榆這一條的論述中,所引各種文獻若干條,涉及到爾雅、廣志、云山志、九華志、武夷志、九江府志、興化府志、松江府志等等,這其中涉及到很豐富的背景知識,有典章制度,官制,地理、風俗習慣,典故等等,所以這是一個非常值得關注的問題。 3林業(yè)古籍斷句語料庫的標注識別規(guī)則 傳統(tǒng)計算語言學基本離不開語料統(tǒng)計,但是面對復雜的文本,還需要有針對性地結合一些規(guī)則。這里結合林業(yè)古籍的特征以及上述難點,在古籍人工點校和計算機處理的雙重技術支撐下,考慮在普通古籍語料庫模式類型基礎上,著重以下幾條識別規(guī)則。識別規(guī)則實際上與標注方式有關,關鍵是將林業(yè)古籍文本的特色融合到標注過程中,在此基礎上取得最優(yōu)的標注效果。 3.1詞匯特征識別規(guī)則 在林業(yè)詞匯中,不少專業(yè)詞匯與普通古籍中的詞匯可能字面一樣,但是卻有獨特的含義。所以在林業(yè)古籍文獻的語料庫中,有必要將專業(yè)詞匯列入分詞識別規(guī)則中,否則會大大增加標點的誤差率。目前有關命名實體化的方法日漸成熟,這里在技術上借鑒半監(jiān)督的中文信息處理手段,來實現(xiàn)林業(yè)專業(yè)術語的標注。林業(yè)類詞匯可以分為直接表述性詞匯和簡介表述性詞匯。直接表述性詞匯包括植物類,植物部位詞,加工模式詞等,而間接表述性詞匯包括色彩詞、形狀詞、時間詞、地點詞等。林業(yè)類專業(yè)詞匯的特別處理,有助于標注的效率。如樹藝篇中有一段文字:“圖經(jīng)曰合歡夜合也生益州山谷今近京雍洛間皆有之人家多植于庭除間木似梧桐枝甚柔弱葉似皂莢槐等極細而繁密互相交結每一風來輒似相解了不相牽綴其葉至暮而合古一名合昏五月花發(fā)紅白色瓣上至秋而實作莢子極薄細采皮及藥用不抱時月。”這段話中,“合歡”、“梧桐”、“皂莢”、“槐”、“合昏”、等是直接表述性詞匯中的植物類名稱(簡稱ZM),“花”、“枝”、“葉”、“瓣”、“莢子”、“皮“等屬于植物部位詞(簡稱ZB)?!敝病?、”交結“、”牽綴“、”采“為加工模式詞等(簡稱JG)。這些專業(yè)詞匯可以作為斷句的輔助依據(jù)。一般來說,如果ZM(ZB)后面是JG,那么考慮在ZM(ZB)前面做斷句;如果JG后面是ZM(ZB),一般在ZM(ZB)后面做斷句。 3.2事理邏輯斷句模式 林業(yè)古籍中的語言敘述的事理邏輯,與現(xiàn)代語言中的科技語體有部分相似。他的描述基本無贅語,簡約而規(guī)范。以樹藝篇中的“柳”為例。柳樹是中國傳統(tǒng)的樹種,早在先秦時期就有相關記錄。樹藝篇中有關于柳樹栽培技術的敘述:“種柳正月二月中取弱柳枝大如臂長一尺半燒下頭二三寸埋之令沒常足水以澆之必數(shù)條俱生留一根茂者余悉掐去別豎一柱以為依主每一尺以長繩柱欄之若不欄必為風所摧不能自立一年中即高一丈余其旁生枝葉即掐去令直聳上高下任人取足便掐去正心即四散下垂婀娜可愛若不掐心則枝不四散或斜或曲生亦不佳也”。這里有一些關鍵性的詞語“種”、“取”、“燒”、“埋”、“澆”、“留”、“掐”、“豎”等詞,還有數(shù)量單位“尺”、“寸”、“條”、“根”、“柱”、“丈”等。這里主要依賴于概念分類和概念之間的關系的判斷,在一大段話中,根據(jù)動詞出現(xiàn)的位置,在前后考慮這里有可分割的片段,以此形成邏輯子語言來提供判定。比如在動詞前或者后是否存在某相關概念,而關鍵詞語概念之間是否存在一定的關系。這樣的片段邏輯模式積累到一定程序,可以去歸納類型,最終在此基礎上構造邏輯模型。 引文識別規(guī)則 在古籍文本中有豐富的引文資料存在,衡中青等學者針對引文的標點問題構建了一種引書挖掘系統(tǒng)。他提出若是作者直接稱引的可以將文本生成電子文本后,計算機直接抽?。蝗羰菦]有任何標注的引文,可以使用模式識別方法加n-gram分詞法。這種方法并不是針對斷句功能建立的,他主要是用于后期的文獻計量分析,不過對斷句模式有一定的啟發(fā)。我們可以建立引文識別的邏輯語言模式:如“某某曰”、“某某記”、“某某志”,那么在此前或者此后,就應該考慮斷句。這里特別注意的是,因為林業(yè)古籍中有時候會重復引用同一部文獻,那么在上面已經(jīng)引用過的情況下,后面的書名可能是簡稱。樹藝篇中引文俯拾皆是,尤其要注意。 4結束語 需要注意的是,這幾種模式是相輔相成,不可偏缺的。以樹藝篇作為訓練文本對象,有其代表意義和價值,但是也有局限性。雖然書中涉及文獻約有200篇,但是與浩如煙海的林業(yè)古籍總數(shù)相比,還是相去甚遠。另外林業(yè)古籍還有其他一些特征有待挖掘,這是在后面的研究中亟待補充的。 參考文獻
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 電力檢修合同范本
- 手機 經(jīng)銷合同范本
- 勞務塔吊司機合同范本
- 加工非標制作合同范本
- 農(nóng)村產(chǎn)業(yè)外包合同范本
- 入職家政合同范本
- 公路承包轉讓合同范本
- 公司加班裝修合同范本
- 產(chǎn)品推廣協(xié)議合同范本
- 冷庫維修合同范本正規(guī)合同
- ABO血型鑒定及交叉配血
- 消防水箱安裝施工方案
- 【重慶長安汽車公司績效管理現(xiàn)狀、問題及優(yōu)化對策(7600字論文)】
- 家鄉(xiāng)-延安課件
- 孔軸的極限偏差表
- 熱軋鋼板和鋼帶尺寸允許偏差
- BBC-商務英語會話
- 中等職業(yè)學校畢業(yè)生就業(yè)推薦表
- 鋼結構設計原理全套PPT完整教學課件
- 2023年浙江首考讀后續(xù)寫真題講評課件 高三英語二輪復習寫作專項+
- 各期前列腺癌治療的指南推薦
評論
0/150
提交評論