基于XML的清人小學注疏五種詞源研究 語料庫的研制和應用_第1頁
基于XML的清人小學注疏五種詞源研究 語料庫的研制和應用_第2頁
基于XML的清人小學注疏五種詞源研究 語料庫的研制和應用_第3頁
基于XML的清人小學注疏五種詞源研究 語料庫的研制和應用_第4頁
基于XML的清人小學注疏五種詞源研究 語料庫的研制和應用_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

基于XML的清人小學注疏五種詞源研究語料庫的研制和應用基于XML的清人小學注疏五種詞源研究語料庫的研制和應用

?廣雅疏證》?說文解字注》?爾雅義疏》?方言箋疏》?釋名疏證補》這五部清代小學注疏作品,不僅保留了歷代探索字詞源流豐盛的詁訓資料,而且能以“因聲求義〞之法疏解詞義、補證理據(jù)、說解詞源,堪稱傳統(tǒng)詞源研究的一座寶庫?,F(xiàn)代先進的信息技術,為我們利用這些古籍發(fā)展現(xiàn)代詞源學研究提供了有力撐持。

我們利用XML標注技術[1]建成了清人小學注疏五種詞源研究語料庫,該語料庫對清代五部小學注疏詞源研究成果的諸多方面有著準確的反映。通過檢索該語料庫,研究者可以及時而分明地了解:1.各家對某組語詞是否同源的判斷;2.各家論證某組語詞同源關系所征引的文獻證據(jù)和語音證據(jù);3.各家研究古今字、通假字、異體字的情況。下文將對該語料庫的建設作詳細介紹。

二、電子文本的生產(chǎn)

清人小學注疏五種的電子文本由吾師尉遲治平教授及門下弟子共同完成,筆者為主要參與者之一。

五種文本均系手工錄入,所用底本之版本信息如下:

?廣雅疏證》(中華書局,王氏家刻本影印,1983年版)

?說文解字注》(上海古籍出版社,經(jīng)韻樓本影印,1981年版)

?爾雅義疏》(上海古籍出版社,郝氏家刻本影印,1983年版)

?方言箋疏》〔上海古籍出版社,仁和王文韶紅蝠山房??居坝?,1983年版〕

?釋名疏證補》〔上海古籍出版社,光緒丙申刊本影印,1984年版〕

我們在制作以上電子文本的過程中,以“存真〞為根本原那么,盡量保持典籍原貌。

所有文本文件均采用支持超大字符集的“UTF-8編碼〞?!癠TF-8編碼〞是國際規(guī)范超大字符集統(tǒng)一碼“Unicode〞的一種變長字符編碼,又稱“萬國碼〞。用在網(wǎng)頁上,可以在同一頁面顯示簡體中文、繁體中文及其他語言,其顯示范圍遠大于“ANSI〞。[2]在字體選擇上,我們選擇了“宋體-方正超大字符集〞和“PMingLiU-ExtB〞字體,以保證絕大多數(shù)古籍漢字的正確錄入與顯示。即便如此,清人小學注疏五種中依然有少數(shù)古文字、俗字、別字、冷僻字等無法正常錄入和顯示。針對此問題,我們對古籍文本在堅持“存真〞的根本原那么下,用既有的漢字字形來組字造字,其組字規(guī)那么及例如如下:

表1:

所用符號字形結構表明例如

*左右結構明:日*月

/高低結構皇:白/王

@包含結構虎:虍@幾

《《增減部件虔:虎-幾+文

所有文本均系繁體字純文本,能夠進行字符串的全文檢索,并能夠供諸位學人根據(jù)自己需要作進一步加工或標注。

三、清人小學注疏五種的數(shù)據(jù)建模

〔一〕構建樹形結構圖

清人小學注疏五種橫跨雅學、說文學兩大領域,性質不同,體例不一,具體文檔結構更是紛繁復雜?,F(xiàn)要匯合五種注疏,綜合利用,惟有求同存異,小而統(tǒng)之,粗分大類。

大致而言,五種注疏皆包含了序言、正文、附錄三個局部。正文局部包含了大量我們需要分析的語言學屬性。初步分析,五種注疏的正文局部都是篇目名和逐條小學注疏循環(huán)構成的一個整體。

由小學原文和清人注疏構成的單條小學注疏的內部情況雖復雜多樣,但各個研究者都可以根據(jù)自己的研究目的,對其內容作出自己的分析。因我們的研究主要關乎詞源研究,所以我們將單條小學注疏下面細分出一條條分析聲義同源的字詞關系斷語,字詞關系斷語下面又可以析分出數(shù)個聲義同源的同源字。

基于詞源學的研究初衷,我們畫出了清人小學注疏五種文檔的樹形結構圖,如圖1:

圖1:文檔結構樹形圖

〔二〕使用XSDSchema進行數(shù)據(jù)建模

1.設計標記名

鑒于我們需要提取分析的語言屬性、語言知識都存儲在清人小學注疏五種文檔中的正文局部,為了文檔結構層次的簡潔、經(jīng)濟,我們擬直接以清人小學注疏五種正文作為我們的根元素,序言、附錄等暫時被剝離,這不會影響我們工作的發(fā)展。另外,由于目前大量主流軟件尚不支持漢字標記,我們便采用漢語拼音作為標記。對根元素及各節(jié)點子元素的標記分別定義如下:

清人小學注疏五種正文:qingrenxiaoxuezhushu

篇目名:pianmuming

疏證語段:zhushuquanwen

字詞關系斷語:ziciguanxiduanyu

同源字:tongyuanzi

2.編寫擴展名為“xsd〞的文件

Schema是強大而靈活的數(shù)據(jù)建模工具。XMLSchema的W3C的推薦規(guī)范叫作XSD,它可以準確地描述文檔結構,即定義XML文件中允許哪些元素和屬性、哪些元素和屬性是必需的、哪些是可選的、允許的數(shù)據(jù)種類以及XML文件內容和結構的其他方面。使用XSD建模的成品是擴展名為“xsd〞的源文件。[3]該文件代表了上面我們對清人小學注疏五種文檔結構分析的成果,既能夠鏈接到已有的XML文檔中,以驗證其文檔的有效性,也可以作為模式架構,添加到文本編輯器中,以實現(xiàn)XML標記的自動標注。其源代碼本文暫略。

四、清人小學注疏五種的標注辦法

〔一〕添加架構

Office2022聲稱全面支持XML,我們使用其組件Word2022中文版作為XML文檔的編輯器。雖然目前還有大量的處理XML文檔的專門軟件,但它們遠不及Word2022通用易得;特別是Word2022對超大字符集的支持功能在很多軟件中還未實現(xiàn),也促使我們選擇它作為我們工作的軟件平臺。[4]

首先,我們用Word2022翻開我們制作的清人小學注疏五種電子純文本。然后在“工具〞菜單上,單擊“模板和加載項〞,然后單擊“XML架構〞選項卡。單擊“添加架構〞,瀏覽并找到要添加到架構庫中的XML架構文件〔xsd文件〕,然后單擊“翻開〞。在“架構設置〞對話框中,選擇所需的選項,在“別名〞框中鍵入架構的名稱,最后點擊“確定〞完成。如圖2:

圖2:添加架構的辦法

〔二〕半自動標注

添加架構后,Word2022編輯框右邊會出現(xiàn)如下“XML結構〞任務窗格。我們可以依次在清人小學注疏五種文檔當選擇相應元素,然后在“XML結構〞任務窗格的“選擇一種元素并應用于當前的選定內容〞框中單擊一個元素,完成對該元素的標注,已標注的元素被圖3所示紅色光帶嵌套。標注中或完成標注后,如文檔結構不合乎架構規(guī)那么,將會在文檔中以紫色波浪線標記出來,并在“XML結構〞任務窗格中報告此違規(guī)錯誤。整個標注界面如圖3所示:

圖3:標注的辦法

〔三〕生成XML文檔

完成標注,且通過架構驗證的文檔可選擇“文件〞菜單上的“另存為〞命令,保留為“qingrenxiaoxuezhushu.xml〞文檔。為保證其他XML的軟件也能閱讀并處理我們保留為XML格式的文檔數(shù)據(jù),我們選擇“僅保留數(shù)據(jù)〞備選項。如圖4:

圖4:生成xml文檔

五、清人小學注疏五種的屬性提取辦法

〔一〕XML與XSL的整合

XML文檔中事先標注過的元素和信息,都可利用XML的可擴展樣式表技術加以提取。現(xiàn)欲提取“qingrenxiaoxuezhushu.xml〞文檔中的“字詞關系斷語〞和“同源字〞兩元素,可編寫“tongyuanzi.xsl〞文檔,其源代碼如下:

清人小學注疏同源字研究資料

清人小學注疏同源字研究資料

已標注的“qingrenxiaoxuezhushu.xml〞在鏈接上述“tongyuanzi.xsl〞文檔后,經(jīng)IE瀏覽器解析,可直接轉換成我們需要的詞源研究資料,包括我們教學中常用的各種同族詞、古今字、通假字、異體字等方面的珍貴材料。其轉換結果如圖5:

圖5:樣式表轉換結果

〔二〕HTML對XML的整合

超級文本標記語言〔即HTML〕是一種超文本鏈接標記語言,依據(jù)該規(guī)范創(chuàng)立的HTML文件具有極強的描述和鏈接下級文本的功能。

為此,我們創(chuàng)立了“清人小學注疏五種詞源研究語料庫.html〞文件。該文件可以順利地整合我們標注好的五種清人小學注疏的XML文檔,并為瀏覽整個語料庫提供一個初始界面,該語料庫初始界面如圖6:

圖6:清人小學注疏五種詞源研究語料庫

六、結語

長期以來,在古漢語研究領域,人們最常用的計算機功能僅僅是能提高閱讀速度的全文檢索,但這無助于增進對古籍文本的理解。關系數(shù)據(jù)庫技術出現(xiàn)后,人們又將古籍文本的內容分析為字段和記錄的形式以存儲,從而為人們獲得較系統(tǒng)的語言學知識開辟了新的途徑。但是關系數(shù)據(jù)庫往往會肢解原古籍文檔內容的整體性,從而降低語言學典籍的可讀性。

XML有效防止了這些缺陷,它奉行數(shù)據(jù)存儲與數(shù)據(jù)顯示相別離

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論