版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
基于漢字切分技術(shù)的unicorn系統(tǒng)檢索機(jī)制
1998年2月,北京大學(xué)圖書館與美國空姐簽訂了自動收集合同,并簽署了由斯隆納科學(xué)和文化公司的合同。系統(tǒng)引進(jìn)及漢化的主要工作包括系統(tǒng)內(nèi)碼體系的選擇和字符集平臺的漢化處理,中文檢索機(jī)制的確定和實(shí)現(xiàn),系統(tǒng)界面、手冊和聯(lián)機(jī)幫助文件的翻譯,系統(tǒng)參數(shù)的準(zhǔn)備和設(shè)置,書目及館藏等數(shù)據(jù)的轉(zhuǎn)換,系統(tǒng)漢化的測試等。在相繼完成了館藏書目數(shù)據(jù)的轉(zhuǎn)換、參數(shù)設(shè)置、用戶數(shù)據(jù)裝載、新借書證的發(fā)放和系統(tǒng)培訓(xùn)等前期準(zhǔn)備工作后,U-nicorn系統(tǒng)中文版于1999年7月19日正式在北大圖書館啟用。Unicorn系統(tǒng)中文版與西文版比較,在界面、檢索機(jī)制、數(shù)據(jù)格式、工作模板等各個方面都具有很多本地化特色。其中尤為突出的是系統(tǒng)在引入切分后所采用的中文檢索機(jī)制。本文將就此進(jìn)行重點(diǎn)介紹。1Unicorn系統(tǒng)中文檢索機(jī)制1.1Unicorn系統(tǒng)中英文版檢索/索引機(jī)制比較Unicorn系統(tǒng)在英文版中提供了三種基本的檢索方式:關(guān)鍵詞、瀏覽和精確匹配。這三種方式都可以針對題名、著者、主題索引或全部索引進(jìn)行檢索在高級檢索中這三種手段還可以與各種運(yùn)算符配合使用,如布爾邏輯運(yùn)算符、位置運(yùn)算符和關(guān)系運(yùn)算符等。通過對不同的檢索方式及各種運(yùn)算符的靈活運(yùn)用,Unicorn系統(tǒng)在西文檢索時對各種需求都可以駕馭,顯得游刃有余。那么,如何將西文版的成功做法在中文環(huán)境下實(shí)現(xiàn),是漢化的重要問題之一。在確定中文檢索機(jī)制時,以下兩個方面被列為重點(diǎn)考慮的因素:中、英文本身在語言結(jié)構(gòu)上的差異和引入切分機(jī)制所帶來的影響。中、英文的差異可以簡單地歸納為索引機(jī)制不同和分詞的實(shí)現(xiàn)不同。英文以詞為單位建立索引,詞與詞之間有空格可以區(qū)分;而中文以字為最小單位,其基本語義單位(或稱詞素)之間沒有明顯的間隔,也就是說漢語詞的集合與漢語字的集合構(gòu)成一種交叉關(guān)系,一個詞可以就是一個字,也可以由兩個或多個字組成。在分詞的實(shí)現(xiàn)上,英語以空格為詞界,漢語則沒有明顯的分界符來標(biāo)定詞界??紤]到這些因素,同時又考慮到Unicorn系統(tǒng)已有的英文檢索機(jī)制的特點(diǎn),Unicorn中文版采用“字索引”和“詞索引”混合使用的索引機(jī)制———根據(jù)不同的檢索需求使用不同的索引,從而避免了使用單一索引顧此失彼的片面性,為提高檢索的查全率和查準(zhǔn)率提供了技術(shù)保障。下面將對具體的中文檢索手段逐一進(jìn)行討論1.2關(guān)鍵詞檢索(KeywordSearching):Unicorn中文版仍然沿用英文版中的“關(guān)鍵詞”、“瀏覽”和“精確匹配”這三種檢索方式。關(guān)鍵詞檢索是這三種基本檢索手段中唯一引入切分機(jī)制的一種,具有顯著的不同于英文檢索的特點(diǎn)。首先,關(guān)鍵詞檢索對輸入的檢索詞按照一個分詞字典由系統(tǒng)自動進(jìn)行切分。切分的結(jié)果得到的是一個個最小的詞素單元。需要注意的是,對錄入書目數(shù)據(jù)庫記錄中的信息進(jìn)行切分時所使用的分詞字典及調(diào)用的切分程序必須與對檢索式所使用的分詞字典及調(diào)用的切分程序遵循同一原則。因?yàn)橹挥斜3謱烧咛幚砩系囊恢滦?才能保證檢索結(jié)果的正確。其次,根據(jù)中文的具體情況,對切分后的檢索詞語按照特定的中文關(guān)鍵詞檢索判斷處理表達(dá)式(見后),利用Unicorn系統(tǒng)的關(guān)系運(yùn)算符(如ADJ)、布爾邏輯運(yùn)算符(如AND、OR等)進(jìn)行后臺處理,或斷或連,以便完善切分后的詞語在表意上的準(zhǔn)確性和完整性。ADJ(英文adjacent的縮略形式)是Unicorn系統(tǒng)采用的位置運(yùn)算符之一,表示兩個詞素單元間沒有間隔(不插入任何字符或空格),緊密相連。當(dāng)使用ADJ時,Unicorn系統(tǒng)查找相關(guān)字段中包括全部檢索詞,并且其出現(xiàn)順序也與檢索式中所表達(dá)的完全一致的記錄。再次,如上所述,Unicorn系統(tǒng)根據(jù)不同的檢索對象和檢索需求,使用兩種不同的索引。這兩種索引分別是:按切分后的詞為單位所建的索引(稱分詞索引)和按單個的字所建的索引(稱單字索引)。關(guān)鍵詞檢索的對象是以切分后的詞為單位所建的分詞索引。中文關(guān)鍵詞檢索判斷處理表達(dá)式:設(shè)對輸入檢索詞語根據(jù)分詞字典進(jìn)行切分后所生成的單位為X和Y。X=1表示切分后得到的單元長度為1個漢字,X=2表示切分后得到的單元長度為2個漢字,以次類推。1.如果X=1,則XADJY例如:中國,飯碗,頭發(fā),華人…大中國,大字典,紅太陽…1ADJ2,3,4…2.如果X=2,或X>2,Y=1,則XADJY例如:中國人、電視迷、電影節(jié)、微波爐…2,3,4…ADJ1說明:以上兩種情況的處理保證了在中文中占很大一部分的兩個或三個字組成的詞能夠被作為可表達(dá)確切含義的一個詞進(jìn)行檢索,從而提高了檢索的查準(zhǔn)率,減少了檢索噪音。例如,使用關(guān)鍵詞/全面檢索檢索“大中國”時,不會檢中題名為“我觀北大:中國作家談北大”及在附注項(xiàng)中出現(xiàn)“華東師大中國行政區(qū)劃研究中心”字樣的不相關(guān)記錄,檢索“華人”時,不會檢中“中華人民共和國”之類的不相關(guān)記錄。使用分詞索引的優(yōu)勢是單字索引檢索機(jī)制所不能比擬的。3.如果X=2,或X>2,Y=2,或Y>2,則即XY,X….Y,YX,Y….X等組合均可檢中,與英文的關(guān)鍵詞檢索的唯一區(qū)別是,切分后的每一個單元相當(dāng)于英文中的一個Word。例1:輸入檢索詞“計算機(jī)技術(shù)”,“編目手冊”,“手冊編目”等,均可檢中記錄“計算機(jī)編目技術(shù)手冊”。例2:輸入檢索詞“北京大學(xué)”,檢中記錄中將包括“北京大學(xué)”,“北京師范大學(xué)”和“大學(xué)在北京”等。這種處理的優(yōu)點(diǎn)是,只要記錄中出現(xiàn)檢索詞串中所包含的任何一個或幾個詞素(或稱切分得到的單元),無論其位置如何,都可以被檢中,保證不漏檢相關(guān)記錄,提高檢索的查全率。但這種處理也有明顯的缺點(diǎn),就是雖然保證了較高的查全率,但檢索結(jié)果中可能包括大量的不相關(guān)記錄。例如:輸入“北京大學(xué)”時,“北京師范大學(xué)”和“大學(xué)在北京”等記錄也被檢中。這一缺點(diǎn)在英文環(huán)境中不明顯,因?yàn)橛⑽脑~序的顛倒通常不改變詞義(如ComputerScience=ScienceofComputer)。但在中文環(huán)境中,詞序往往決定詞義,同樣的兩個或多個詞素,如果按不同的詞序組合,它們表達(dá)的意義往往相差甚遠(yuǎn),可謂風(fēng)馬牛不相及。例如:“職業(yè)教育”不同于“教育職業(yè)”,“計算機(jī)病毒”不同于“病毒計算機(jī)”等等。詞組的長度越長,詞組中各詞素的詞序?qū)τ诖_定詞組的意義而言就越重要。因而,在檢索中,尤其是對較長的詞組進(jìn)行檢索時,限定詞序?qū)⒈WC命中記錄具有較高的相關(guān)性和準(zhǔn)確性。為了彌補(bǔ)關(guān)鍵詞檢索在處理長詞或詞組時的不足,Unicorn中文版在“精確匹配”檢索中使用單字索引,并對檢索詞進(jìn)行ADJ處理,參見“精確匹配”檢索。4.需要補(bǔ)充說明的是,對于由多個漢字組成的最小詞素(一般是外來語的音譯形式),切分時不予以分割,因此仍能保持其作為獨(dú)立的最小語義單位的特點(diǎn)。例如:沙發(fā),巧克力,厄爾尼諾,布爾什維克等。1.3精確匹配(Exact)精確匹配檢索的命中結(jié)果將包括含有與輸入的檢索詞及其詞序完全一致的字串記錄。當(dāng)用戶對檢索的內(nèi)容很明確,需要通過詞組或字符串的檢索來排除不必要的噪音干擾時就可使用精確匹配檢索。但必須說明的是,精確匹配檢索使用的是單字索引,并未對詞串進(jìn)行切分處理,其實(shí)現(xiàn)方法是:對切分后的檢索詞串的每個單元均使用ADJ連接,如:XADJYADJZADJ…..其中X,Y,Z為字或詞素。因而,在對某些詞界模糊的檢索詞進(jìn)行檢索時,檢索結(jié)果中會含有不相關(guān)記錄。例1:輸入檢索詞“北京大學(xué)”檢中記錄中包括:北京大學(xué),北京大學(xué)圖書館,百年的北京大學(xué)….檢中記錄不包括:北京師范大學(xué),大學(xué)在北京例2:輸入檢索詞“中國人”檢索記錄中包括:中國人,中國人大,中國人民大學(xué)等。1.4瀏覽(Browse)Unicorn中文版的瀏覽功能與英文版相同,即命中前方一致的匹配記錄。例如:用“多媒體”檢索,可命中“多媒體百科全書”,“多媒體技術(shù)”,“多媒體制作”等,但不命中“網(wǎng)絡(luò)環(huán)境下的多媒體觸摸屏”?!盀g覽”在本地化方面最突出的特色當(dāng)推“索書號瀏覽”。Unicorn系統(tǒng)通過限定分類法體系(即指明排序規(guī)則)和館藏單位(即指定排序范圍),實(shí)現(xiàn)了通過一次檢索就能瀏覽某一特定館藏址內(nèi)所有不同文種同類書的要求。例1:用戶輸入“B84”,選擇分類體系為“中圖法-C”,圖書館為“北大中心館”,就可以瀏覽北大中心館各閱覽室所收藏的中西文心理學(xué)方面的圖書。例2:輸入“H316”,選“中圖法-C”,圖書館為“英語系”,文獻(xiàn)類型為“工具書”,就可瀏覽英語系資料室所藏的全部英語詞典。2Unicorn漢化系統(tǒng)的檢索界面雖然系統(tǒng)內(nèi)部遵循一致的檢索機(jī)制,但根據(jù)不同的使用對象和不同的實(shí)現(xiàn)環(huán)境,Unicorn系統(tǒng)中文版采用了兩種不同的界面設(shè)計:供工作人員使用的WorkFlows中的“工作人員檢索”界面和供公共用戶使用的WWW環(huán)境下的WebCat檢索界面。2.1WorkFlows中的“工作人員檢索”界面設(shè)計在Workflows界面中有8項(xiàng)與檢索密切相關(guān)的要素需要介紹,它們是:(1)“望遠(yuǎn)鏡”圖標(biāo):該圖標(biāo)的作用是針對檢索、顯示和瀏覽進(jìn)行限定。如:針對檢索可以通過出版年、MARC格式、文獻(xiàn)類型、正文語種以及命中結(jié)果以什么方式排序等參數(shù)進(jìn)行限定。針對顯示的限制渠道,有館藏范圍(全部或部分),記錄格式(詳細(xì)或簡短)等。(2)檢索(Search):包括分類檢索(題名、著者、主題等)和全面檢索,使用分詞索引。(3)瀏覽(Browse):包括一般瀏覽和索書號瀏覽。(4)精確(Exact):等同于詞語檢索,使用單字索引和ADJ機(jī)制。(5)當(dāng)前(Current):這是WebCat中沒有的,專為編目員提供的功能。通過它可以直接調(diào)出上次檢索或操作過的記錄,但首次檢索時不會出現(xiàn)Current選項(xiàng)。(6)檢索點(diǎn)選項(xiàng):點(diǎn)擊下拉式菜單,可以看到如下選項(xiàng):·全面檢索:提供了對ISBN、ISSN等號碼以及題名、著者、主題和提要附注項(xiàng)中信息的檢索途徑·題名鍵:可檢索本館記錄唯一識別號·文獻(xiàn)標(biāo)識:可檢索條形碼號·題名:可檢索正題名、各種變異題名、叢編題名、期刊題名等·叢編:專門檢索叢書題名·期刊題名:專門檢索期刊題名·索書號:按不同分類體系的索書號瀏覽館藏(7)分館館址:可供限定文獻(xiàn)的收藏館,所有館址均已通過參數(shù)設(shè)置列在此選項(xiàng)的下拉式菜單中。(8)拼音選項(xiàng)按鈕:缺省為不標(biāo)記,用戶輸入的字母按英文字母處理。選中該按鈕時,輸入的字母按拼音處理。“拼音檢索”不進(jìn)行切分。用戶可以進(jìn)行全拼和簡拼查詢,但不能進(jìn)行混拼查詢。比如:“北京大學(xué)”可以按“beijingdaxue”檢索,也可以按“bjdx”檢索,但不能按“BJingDXue”來檢索全拼和簡拼的輸入既可以在拼音之間加空格,也可以不加空格而連起來輸入.例如:“北京大學(xué)”可以按“Beijingdaxue”,”BeiJingDaXue”,“BJDX”,和“BJDX”來檢索。拼音檢索屬于高一層次的檢索,供有需求的用戶學(xué)習(xí)使用。2.2WebCat界面設(shè)計檢索過程中有三個要素直接關(guān)系到檢索的結(jié)果,它們是:·檢索方式(匹配模式)·檢索詞(檢索關(guān)于什么主題的資料)·檢索途徑(如何檢,檢索與記錄中的哪個字段/子字段相關(guān))各種檢索方式的特點(diǎn)如下:(1)快速檢索:相當(dāng)于Workflows中的關(guān)鍵詞檢索。命中記錄中包含所輸入的詞語,按切分得到的最小表意單位,采用“關(guān)鍵詞檢索處理表達(dá)式”進(jìn)行檢索。例如:用“北京大學(xué)”進(jìn)行著者檢索,命中1012條記錄,其中包括“北京科技大學(xué)”“北京農(nóng)業(yè)大學(xué)”“北京中國大學(xué)”“北京師范大學(xué)”等。(2)詞組短語:相當(dāng)于Workflows中的精確檢索。命中記錄中包含和所輸入的檢索詞完全一致的詞語,采用ADJ機(jī)制實(shí)現(xiàn)。當(dāng)切分結(jié)果不符合人們的檢索習(xí)慣時,它可以彌補(bǔ)關(guān)鍵詞檢索的遺漏或誤差。例如:用“北京大學(xué)”進(jìn)行著者檢索,命中755條,這時“北京科技大學(xué)”,“北京農(nóng)業(yè)大學(xué)”,“北京中國大學(xué)”,“北京師范大學(xué)”等都被排除在外,只有“北京大學(xué)”及其下屬機(jī)構(gòu)作為責(zé)任者的記錄可以命中。(3)瀏覽:相當(dāng)于Workflows中的瀏覽。即前方一致,后方截斷的檢索。命中標(biāo)目的入口詞等于所輸入的檢索詞。例如:采用“魯迅”一詞作題名瀏覽,命中的記錄題名全部以“魯迅”開頭而外國友人憶魯迅人間魯迅關(guān)于魯迅》等書均不出現(xiàn)。(4)索書號瀏覽:相當(dāng)于Workflows中的索書號瀏覽。(5)拼音檢索:相當(dāng)于Workf
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 鋼結(jié)構(gòu)施工專項(xiàng)安全方案
- 農(nóng)業(yè)設(shè)施消防水罐安全方案
- 海外留學(xué)生租房合同協(xié)議書
- 2024至2030年鋁釬焊料項(xiàng)目投資價值分析報告
- 2024至2030年雙鏈?zhǔn)饺詣映暡ㄇ逑聪到y(tǒng)項(xiàng)目投資價值分析報告
- 供暖委托運(yùn)營管理協(xié)議書
- 全球化時代的跨境電商與國際貿(mào)易趨勢考核試卷
- 中等教育的學(xué)生健康教育考核試卷
- 服飾品牌的文化營銷與情感傳達(dá)考核試卷
- 一年級數(shù)學(xué)老師發(fā)言稿
- 化工項(xiàng)目國民經(jīng)濟(jì)分析 化工項(xiàng)目技術(shù)經(jīng)濟(jì)
- 計算與人工智能概論智慧樹知到課后章節(jié)答案2023年下湖南大學(xué)
- 小學(xué)一年級下冊數(shù)學(xué)期末考試質(zhì)量分析及試卷分析
- 原材料情況說明范本
- 疲勞駕駛安全教育內(nèi)容
- ICH技術(shù)指導(dǎo)原則概述
- 15D503利用建筑物金屬體做防雷及接地裝置安裝圖集
- 牛津譯林版 時態(tài)專項(xiàng)練習(xí)選擇題50題(含答案)
- 人音版一年級上冊《其多列》課件PPT
- 人教版初中英語說課省一等獎?wù)n件(全英文)
- 報紙先生的故事
評論
0/150
提交評論