



免費預(yù)覽已結(jié)束,剩余1頁可下載查看
下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
論古籍整理自動化北京大學(xué)中文系 李鐸信息科技在古代典籍的整理方面,經(jīng)歷著三個階段。一是數(shù)據(jù)文獻的錄入。八十年代,臺灣中央研究院率先錄入整理重要的古代典籍。由于大陸較早使用的GB2312漢字系統(tǒng)僅支持6763個漢字,且不支持繁體,所以,大陸在文獻的整理上僅限于現(xiàn)當(dāng)代文學(xué)作品、大型報刊等。自96年WIN95支持CJK以來,大陸纔開始啟動這方面的工作,但大多數(shù)仍處于計算器加手工作坊的階段,即人工錄入。九十年代末香港迪志公司與北京書同文公司聯(lián)合開發(fā)四庫全書,使用非特定人手寫識別系統(tǒng),極大的節(jié)約了人力物力。僅兩年多的時間,我們就可以使用四庫全書這部近八億漢字的叢書了,后來書同文公司又開發(fā)了四部叢刊近一億漢字的古籍?dāng)?shù)據(jù)庫,目前該公司又著手四部叢刊的四編整理。二是文獻的檢索。一旦整理出古籍文獻,它就進入了使用階段,對于小量的文檔,就可以直接在自己的WORD中使用檢索,查找需要字詞,如果會使用VBA,還可以編輯引得、關(guān)聯(lián)相關(guān)的數(shù)據(jù)庫等等。如果是海量數(shù)據(jù),可以使用特定的檢索平臺,甚至可以直接對數(shù)據(jù)庫操作。還有多種的搜索引擎用來搜索互聯(lián)網(wǎng)上的學(xué)術(shù)資源,這使古代文學(xué)、古代漢語的研究有了突破性的進展。三是古籍文獻的自動化整理、多維數(shù)據(jù)庫建設(shè)、智能分析階段。它是在積累了一定的文本數(shù)據(jù)后的更高級的數(shù)據(jù)整理與多任務(wù)的應(yīng)用開發(fā),這一階段的特征是,數(shù)據(jù)整理與學(xué)術(shù)研究相互促進,數(shù)據(jù)整理帶有學(xué)術(shù)性,學(xué)術(shù)研究對數(shù)據(jù)庫建設(shè)提出更精細的要求。也就是我們目前所處的階段。我想以我們近期的工作及設(shè)想來說明之。全宋詩的自動化分析過程一、文字整理大陸的出版機構(gòu)在九十年代初就比較廣泛得使用了北大方正的排版系統(tǒng),今天還有80%以上出版商仍在使用著,迄今出版了數(shù)萬種圖書。當(dāng)初這一系統(tǒng)僅是為出版紙介而開發(fā)設(shè)計的,并未考慮到已輸入到計算器的數(shù)據(jù)以后可以更進一步開發(fā)利用。如繁體字文獻,該系統(tǒng)仍使用簡體字內(nèi)碼,只是在輸出照排時改變字型輸出繁體字,而且此內(nèi)碼字庫太少,亦無法適應(yīng)古代文獻的輸出,所以北大方正又自行設(shè)計了一套擴充字庫,用來補充那6763漢字,而這擴充字庫未使用通用的標(biāo)準(zhǔn)系統(tǒng),在內(nèi)碼上與后來的GBK中的繁體字完全不兼容,這在轉(zhuǎn)換上造成了一定的困難,如文獻中的“風(fēng)B7E7”字,我們?nèi)绻麑⒅D(zhuǎn)換為繁體的“風(fēng)”字(EF4C),就會發(fā)現(xiàn),“風(fēng)”字的數(shù)量增大了,因為在轉(zhuǎn)換前,文獻中已有“風(fēng)(EF4C)”,相對GBK而言,它則應(yīng)是字庫中的“鹙”字,如果先將繁體的“風(fēng)”(實際上是“鹙”字)轉(zhuǎn)換為“鹙”,則與文獻中另一位置的“鹙”(另外一個字)沖突,又多出了很多個“鹙”字。所以北大方正排版系統(tǒng)為排版而制作的數(shù)據(jù)需要經(jīng)過復(fù)雜的轉(zhuǎn)換過程,北京大學(xué)中文系語言學(xué)實驗室開發(fā)了一套北大方正內(nèi)碼向GBK代碼的轉(zhuǎn)換系統(tǒng),除人工實時造字外,基本上可以完整轉(zhuǎn)換。全宋詩的整理便是基于這一轉(zhuǎn)換系統(tǒng),加人工補字來完成的。最初我們也曾考慮到使用錄入、掃描識別等手段,但是由于當(dāng)時掃描識別率較低,工作量過大,僅校對一項就要花費掉該項目的全部費用。二、格律詩的標(biāo)注我們在錄入整理全唐詩時還是使用手工作坊的方式:雙機錄入,單機校對。在全唐詩上網(wǎng)前,我想,我們不是一般的公司開發(fā)軟件,我們應(yīng)盡可能地利用我們的學(xué)術(shù)資源,在數(shù)據(jù)中融入一些商業(yè)公司無法操作的學(xué)術(shù)內(nèi)容。所以,首先想到的是將全唐詩標(biāo)注出格律來,這對我們這個項目組(我和一些研究生們)來說,是一項比較繁重的工作,由于有211項目的資助,我們還是決定人工加標(biāo)識。可是,有很多作品我們無法判定其格律,所以請了袁行霈、蔣紹愚兩位先生為我們的顧問,我們凡遇到無法判定的詩作就求教于這二位先生。僅此一項標(biāo)注工作,就占去了全唐詩開發(fā)工作總量的四分之一。全宋詩有二十五萬余首詩,是全唐詩的五倍,其格律詩的比例也遠遠大于全唐詩,如果一首一首標(biāo)注,恐怕需要若干年的時間。如果使用計算器自動標(biāo)注,會不會出現(xiàn)過大誤差,我們實驗性地開始此項工作。首先,我們依據(jù)佩文韻府建設(shè)了詩韻庫,又根據(jù)詩的格律特征,依據(jù)王漁洋的律詩定體建設(shè)了二十八種格律詩模型庫。然后,就由計算器對全宋詩掃描分析,使用加權(quán)重算法,使相當(dāng)一部分的拗體詩(不符合二十八種格律的)也能被檢索到,標(biāo)識出十六萬余首格律詩。經(jīng)過分析對比,這種標(biāo)識方法比我們原來整理唐詩時人工標(biāo)注的更為準(zhǔn)確。由于佩文韻府所定義的漢字,有太多的多音字,且分屬不同韻部,尤其是同時分布在平聲字和仄聲字中。而在建宋詩平仄庫時,由于沒有宋詩的詞語庫(我們正在考慮建設(shè)),那么計算器在識別判斷平仄時便遇到了困難,如“相”字,在“相思”詞中,是平聲,在“宰相”中則是仄聲,如果有語詞庫,我們將語詞權(quán)重加上,會比較容易地解決這個問題。現(xiàn)在的問題是:我們雖然可以根據(jù)詩的格律來判定當(dāng)平當(dāng)仄,可是這格律又是在建庫時就要確定的,為解決這一問題,我們引入了層次分析算法,即第一步先將固定平仄的字標(biāo)識出來,使用“向量空間模型”,允許有一定量的誤差,做第一層的格律詩數(shù)據(jù)庫,然后在第二個層面上,使用另一音韻庫二次判別詩的平仄。結(jié)果定為:非格律詩,我們保留了原來多音字的信息,而格律詩,則以比較準(zhǔn)確的形式顯示詩的格律,這一做法是比較成功的,以后對語料庫做深加工時,仍有必要使用這種算法。三、重出詩的自動提取臺灣林枚儀教授率先使用計算器研究全宋詞的重出問題。她對重出詞的初步提取,主要是依據(jù)詞的句長特征,而我們面對宋詩,則無法使用這種方法。所以我們認(rèn)為使用格律詩的“向量空間模型”可以幫助解決這個問題?,F(xiàn)在,我們提取出全部五千余首重出詩,而且這些重出詩并不是指文字完全相同,而且指達到了一定的相似度。四、信息檢索模型的建設(shè)我們在1998年開發(fā)的全唐詩檢索系統(tǒng)并不是單一模式的全文檢索,我們使用了新西蘭國家圖書館的布爾模型(Boolean Model),這一模型突破了原布爾模型檢索結(jié)果的無序性,使我們在檢索相關(guān)信息時,可以得到特定序列的數(shù)據(jù),如在詩內(nèi)容中輸入“酒”字,同時選擇“部分匹配”,返回的結(jié)果,第一首詩是李白的月下獨酌之二“天若不愛酒,酒星不在天。地若不愛酒,地應(yīng)無酒泉”這首含“酒”字最多的詩,如果使用“完全匹配”,則使用一般全文檢索的規(guī)則,并返回原書順序。這種檢索方法目前在互聯(lián)網(wǎng)上相當(dāng)普遍。在全宋詩的開發(fā)中,我們需要檢索出重出詩,需要標(biāo)識詞的格律,需要檢索出內(nèi)容相似的詩作,需要檢索形式相近的詩作,Boolean Model已不能滿足這方面需要。所以,我們參考Cornell大學(xué)Salton教授開發(fā)的“向量空間模型”(Vector Space Model),它與Boolean Model不同,它把查詢項和數(shù)據(jù)庫中的信息顯示為檢索構(gòu)成的向量空間中的點。這樣,我們可以通過計算向量之間的距離來判斷原數(shù)據(jù)與檢索項的相似度,這便是“格律詩標(biāo)識”和“相似詩檢索”的基礎(chǔ)。如果達到一定的“相似度”,也就是根據(jù)向量夾角的余弦值,就可以確定這是一首重出詩或僅是一定程度上的相似詩。這一算法在宋詩的運用中比較成功,然而在未來海量的數(shù)據(jù)處理中,面對不同類型的數(shù)據(jù),這種模型還要進一步完善。我們相信在未來唐宋詩的自動切分語詞或語料庫的整理中,這種模型會發(fā)揮更大的作用。查詢擴展功能在全宋詩中的實現(xiàn)。依據(jù)作者檢索宋詩,如果輸入的是“王安石”,自然應(yīng)當(dāng)找到王安石的全部作品,可是如果輸入“王荊公”或者“王介甫”呢?我們在作者項里加入了擴展項的查詢。目前還僅限于作者,在全文檢索中還沒有實現(xiàn)這樣的擴展功能,因為這需要我們擴充語詞的相關(guān)內(nèi)容,它的基礎(chǔ)是建設(shè)語詞庫。如果擴展功能應(yīng)用到全文檢索,當(dāng)您輸入了“李白”,它同時能檢索到“太白”“青蓮居士”等等相關(guān)詩作。目前我們開發(fā)的全宋詩檢索系統(tǒng),今年九月將由北京大學(xué)出版社出版發(fā)行。我們希望以后出版的這類檢索能融入更多的科研成果,有更高的學(xué)術(shù)價值。古籍自動化整理中的學(xué)術(shù)研究一、高深度的數(shù)據(jù)庫建設(shè)現(xiàn)在世界各地所整理的文獻從數(shù)量上看,已達到一定的規(guī)模,但是,許多文獻庫質(zhì)量不高,而且深度不夠。因此,我們下一步的工作,將把重點放到文獻庫的精加工上面。我們已經(jīng)完成了詩經(jīng)楚辭先秦兩漢魏晉南北朝詩樂府詩集全唐詩全宋詩等,下一步的工作不是去開發(fā)全明詩全清詩,而是擬對宋及宋前的詩詞進行深加工整理。它包括:(一)建設(shè)詩歌語詞歷史庫,即將已有的文獻做分詞整理,在這方面,我們已經(jīng)擬定了工作的流程及基本算法,如在分詞的同時,記錄保留原文獻位置等信息。這樣,我們對中國古代詩人詩作的研究并不是簡單基于字頻、用韻等,而且加上了語詞特征分析及歷史沿習(xí)特征分析,在建設(shè)宋詩的語詞庫時,關(guān)聯(lián)到宋前作品,如同對用典的分析一樣,這樣可以推出詩歌語詞的流變過程。(二)建設(shè)二十五史的人名地名關(guān)系庫,這是一項極其龐大但又十分有意義的工作。(三)依據(jù)袁先生主編的中國文學(xué)史,建設(shè)“數(shù)字中國文學(xué)史”,將中國文學(xué)史相關(guān)的文獻進行精加工整理,建成一個內(nèi)容豐富的中國文學(xué)科研與教學(xué)的輔助系統(tǒng)。二、帶著課題做數(shù)據(jù)很多文獻庫的整理,都有一定的商業(yè)性,所以,它所面對的是一般使用者,其功能往往是定義過的,數(shù)據(jù)本身也是封裝的。我們在進一步的開發(fā)中,則是面向?qū)W術(shù)研究的,例如,我們通過對唐宋詩詞的整理,我們將單獨為釋家、女詩人、流派、家族等建庫,這樣結(jié)合歷史文獻的研究,可以析出女性詩作的用韻、格律、字頻、詞頻等相關(guān)曲線,可以對佛教文化對中國詩歌發(fā)展的影響進行研究,可以分析宋代家族文學(xué)興起發(fā)展的過程,可以進一步江西詩派及其影響做更深入的分析。通過地名人名關(guān)系庫,我們可以分析歷代文學(xué)家在地理上的分布及發(fā)展過程,有利于研究中國文學(xué)的興衰因素。在精加工數(shù)據(jù)的同時,自然會要求錄入新的文獻數(shù)據(jù),我們也要將之學(xué)術(shù)化,將學(xué)術(shù)研究課題融入建庫的過程中。三、自然語言的查詢我們在開發(fā)全宋詩的查詢模型時,曾考慮過使用“概率檢索模型”(Probabilistic Model),而非“向量空間模型”,如果這樣的話,可以讓使用者使用自然語言來查詢分析數(shù)據(jù),如使用者可以輸入“宋代和尚中用酒字最多的詩”。但是,后來我們認(rèn)為由于詩歌的數(shù)據(jù)類型比較統(tǒng)一,檢索要求也往往一致,數(shù)據(jù)建庫者又往往是熟悉計算器的人員。所以,使用了“向量空間模型”并加了擴展功能,將底層分析過的數(shù)據(jù)二次建庫,這樣可以節(jié)省數(shù)據(jù)庫使用者的大量時間。在我們目前準(zhǔn)備開始開發(fā)的新系統(tǒng)數(shù)字中國文學(xué)史中,我們便決定使用概率檢索模型,因為,該項目的數(shù)據(jù)量大,而且數(shù)據(jù)類型復(fù)雜,除文本數(shù)據(jù)外,還有大量的超文本(音頻、視頻文獻)。如果給出一個復(fù)雜的接口,一方面很難做到適合多種需求的查詢,另一方面,使用者會在學(xué)習(xí)使用該界面上耗費大量時間。我們設(shè)想,使用者在一檢索對話框中輸入“李白曾到過哪些地方”,就可以調(diào)出李白游蹤表和地理圖;輸入“唐代河南有哪些著名詩人”,就可以顯示出“杜甫、李賀、李商隱”等詩人;在讀到琵琶行時,雙擊“琵琶”,就可以看到“琵琶”的圖形,甚至聽一首琵琶曲。目前我們所面臨的難題,一是現(xiàn)有的數(shù)據(jù)庫模型對西方語言支持度高,對中文支持度低。需要自己重新搭建適合漢語的平臺,一是目前的數(shù)據(jù)庫主要是面向商業(yè)管理的,在數(shù)據(jù)更新方面功能強大,而我們的數(shù)據(jù)多是靜態(tài)的,需要的是查詢功能的強大,這也需要自己動手開發(fā)。四、選擇適合計算器的大型課題計算器進入文科研究領(lǐng)域后,會出現(xiàn)許許多多新的課題,如全宋詩的重出問題,可以說沒有計算器,這種工作幾乎是不可能的。我們利用全宋詩數(shù)據(jù)庫查出了全部的重出詩,進一步需要將重出的詩作整理定位,依舊利用全宋詩的數(shù)據(jù)庫可以定位約三分之一的詩作。另外考慮到使用其它數(shù)據(jù),如四庫全書、四部叢刊、二十五史等,當(dāng)然也要進行大量的人工分析,手工檢索大量數(shù)據(jù),這樣,我們將用一年的時間整理出一部全
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 項目管理第4章教學(xué)
- 荊門污水頂管施工方案
- 糖尿病腎病護理教學(xué)查房
- 數(shù)碼相機的基礎(chǔ)知識
- 中山職業(yè)技術(shù)學(xué)院《幼兒園活動設(shè)計與指導(dǎo)藝術(shù)》2023-2024學(xué)年第一學(xué)期期末試卷
- 濮陽醫(yī)學(xué)高等??茖W(xué)?!镀胀ㄔ捳Z音》2023-2024學(xué)年第二學(xué)期期末試卷
- 天府新區(qū)航空旅游職業(yè)學(xué)院《中學(xué)綜合實踐》2023-2024學(xué)年第二學(xué)期期末試卷
- 岳陽職業(yè)技術(shù)學(xué)院《營銷工程》2023-2024學(xué)年第二學(xué)期期末試卷
- 玻璃門衣柜施工方案
- 重慶經(jīng)貿(mào)職業(yè)學(xué)院《大學(xué)物理B》2023-2024學(xué)年第二學(xué)期期末試卷
- 中國成人醫(yī)院獲得性肺炎與呼吸機相關(guān)肺炎診斷和治療指南(2018版)
- 測量不確定度評定和表示培訓(xùn)
- 城市供水系統(tǒng)管理
- 檢查電線線路的安全隱患
- 軟件需求評審檢查表模板
- 2025年創(chuàng)業(yè)方案市場拓展計劃
- 檔案防火知識培訓(xùn)課件
- 【八年級下冊地理中圖北京版】期中真題必刷卷A-【期中真題必刷卷】(北京專用)(原卷版)
- 工程造價咨詢合同范本
- 2025年全國總工會部分在京直屬事業(yè)單位招聘13人高頻重點提升(共500題)附帶答案詳解
- 110kVXX變電站預(yù)試定檢施工方案試卷教案
評論
0/150
提交評論