版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
計(jì)算機(jī)信息檢索
計(jì)算機(jī)信息檢索的過(guò)程結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化信息資源檢索系統(tǒng)專題數(shù)據(jù)庫(kù)、OPAC、一般和多元搜索引擎、智能代理、國(guó)際聯(lián)機(jī)系統(tǒng),多媒體檢索系統(tǒng)
第一章信息概述信息的特征客觀性:信息是客觀事物運(yùn)動(dòng)與狀態(tài)的反映。動(dòng)態(tài)性:客觀事物的變化是永恒的,持續(xù)斷的。相對(duì)性:信息對(duì)于信息用戶永遠(yuǎn)是相對(duì)的。依存性:必須依附于一定的物質(zhì)形式(聲波、物質(zhì)載體等)??蓚鬟f可干擾:可跨越時(shí)空傳遞,但是傳遞過(guò)程中時(shí)刻被干擾??杉庸ば裕嚎梢员环治?、綜合、擴(kuò)充和濃縮。共享性:信息可以被一個(gè)用戶反復(fù)使用、或多個(gè)用戶同時(shí)使用。信息的類型(按信息表達(dá)形式劃分)文字信息:用文字表達(dá)其內(nèi)容的信息資料,如各種書(shū)刊讀物;聲像信息:通過(guò)聲頻信號(hào)負(fù)載和傳遞的信息,如電影、廣播等;實(shí)物信息:通過(guò)實(shí)物來(lái)傳遞的信息,如樣品等;機(jī)讀信息:通過(guò)計(jì)算機(jī)閱讀的信息,如磁盤(pán)、光盤(pán)等;信息的類型(按信息加工的層次劃分)一次信息:以信息制作者的研究成果為依據(jù)創(chuàng)作(撰寫(xiě))的,未經(jīng)信息加工的原始信息,如圖書(shū)、期刊論文、學(xué)位論文等二次信息:匯集大量的信息,用科學(xué)的方法整序,以簡(jiǎn)練的語(yǔ)言揭示信息的內(nèi)容和外部特征,并提供一定的檢索途徑的檢索系統(tǒng),如目錄、索引、文摘、數(shù)據(jù)庫(kù)、搜索引擎等三次信息:將大量的一次信息全面系統(tǒng)的再度選擇、分析和綜合,編制成使用目的更明確,效果更理想的檢索系統(tǒng)。如綜述、百科全書(shū)、年鑒。零次信息:未經(jīng)記錄或未公開(kāi)發(fā)表的最原始信息,其本身無(wú)法通過(guò)載體在較大范圍內(nèi)傳播的信息。如口頭交流、會(huì)議文獻(xiàn)、學(xué)位論文、手稿等。一次、零次信息是知識(shí)的創(chuàng)造,是信息檢索的對(duì)象;二次、三次信息是知識(shí)的重組,是信息檢索的工具。信息的價(jià)值和作用信息是使人原有的知識(shí)結(jié)構(gòu)發(fā)生變化的那一小部分知識(shí):
K(S)+
I=K(S+
S)
一個(gè)人原有的知識(shí)結(jié)構(gòu)(K[S])在受到某些信息增量(
I)的作用后,便可形成新的知識(shí)結(jié)構(gòu)(K[S+
S])信息動(dòng)機(jī)的形成與轉(zhuǎn)化內(nèi)在條件:在生活、學(xué)習(xí)和工作過(guò)程中遇到問(wèn)題時(shí)感到缺乏信息的狀態(tài),一旦達(dá)到較強(qiáng)的程度,被用戶意識(shí)到,就會(huì)轉(zhuǎn)化為信息動(dòng)機(jī)外在條件:施加于個(gè)體之上的各種有形或無(wú)形的刺激,其中尤以信息環(huán)境和信息意識(shí)的影響最為顯著。用戶的信息行為從用戶的角度出發(fā),人的信息行為主要表現(xiàn)為信息查詢行為、信息選擇行為和信息使用行為。穆?tīng)査苟桑阂子眯院涂山浴P畔⒌倪x擇行為信息選擇是從某一信息集合中把符合用戶需要的一部分(子集合)挑選出來(lái)?!胺嫌脩粜枰笔切畔⑦x擇的基本原則。其核心是:
1)相關(guān)性:(和查全率有關(guān))信息交流過(guò)程中來(lái)源與終點(diǎn)之間接觸效率的量度,凡是論述同一主題或?qū)儆谕活I(lǐng)域的文獻(xiàn)信息都可以認(rèn)為是相關(guān)的,而不考慮其水平高低;
2)適用性:(和查準(zhǔn)率有關(guān))用戶對(duì)查詢結(jié)果的價(jià)值判定,它反映了特定時(shí)間查詢結(jié)果滿足用戶客觀信息需要的程度,它受選擇順序和時(shí)間推移等多種因素作用,其判斷的有效范圍是非常短暫的。計(jì)算機(jī)信息檢索的原理廣義的信息檢索是指將大量信息進(jìn)行人工、或機(jī)器的概念分析,通過(guò)標(biāo)引(分類、主題、題名、作者、代碼、字段等),依據(jù)標(biāo)引組織成計(jì)算機(jī)信息系統(tǒng);信息用戶則利用計(jì)算機(jī),依據(jù)標(biāo)引在信息系統(tǒng)中檢索有關(guān)信息。所以它通常被稱為“信息存貯與檢索”。狹義的信息檢索指廣義的信息檢索的后半個(gè)過(guò)程。如果用最簡(jiǎn)潔的文字表達(dá),那么就是信息的“存”和“取”。計(jì)算機(jī)信息檢索的本質(zhì)就是用戶的信息需求與存儲(chǔ)在計(jì)算機(jī)檢索系統(tǒng)中的信息進(jìn)行比較和選擇,即匹配(Match)的過(guò)程。也就是對(duì)計(jì)算機(jī)信息集合體(系統(tǒng))采用一定的技術(shù)手段,根據(jù)一定的線索與準(zhǔn)確找出(命中)相關(guān)信息。計(jì)算機(jī)信息檢索的必備條件1物質(zhì)條件從檢索的過(guò)程來(lái)看,計(jì)算機(jī)信息檢索的物質(zhì)條件由數(shù)據(jù)庫(kù)、通信系統(tǒng)和檢索終端三部分組成。2人員條件
1)對(duì)檢索課題的了解的程度;
2)對(duì)檢索系統(tǒng)(包括計(jì)算機(jī)和數(shù)據(jù)庫(kù))的掌握程度;
3)語(yǔ)言(檢索語(yǔ)言、檢索策略調(diào)整以及外語(yǔ)水平)的掌握程度。計(jì)算機(jī)信息檢索系統(tǒng)的構(gòu)成
1)信息數(shù)據(jù)的選擇、處理、錄入、維護(hù)子系統(tǒng)
2)詞表和標(biāo)引子系統(tǒng)
3)檢索子系統(tǒng)
4)系統(tǒng)用戶接口子系統(tǒng)
計(jì)算機(jī)信息檢索的類型1根據(jù)檢索的內(nèi)容可以劃分為:
1)數(shù)據(jù)檢索:其檢索結(jié)果為數(shù)據(jù),例如,從統(tǒng)計(jì)數(shù)據(jù)庫(kù)中檢索人口增長(zhǎng)率
2)
事實(shí)檢索:其檢索結(jié)果為事實(shí)。例如,從《中國(guó)科技名人數(shù)據(jù)庫(kù)》中查詢某一位科學(xué)家的生平與業(yè)績(jī)。
3)文獻(xiàn)檢索:其檢索結(jié)果是能夠滿足用戶需求的文獻(xiàn)線索或全文,例如,從《中國(guó)學(xué)位論文數(shù)據(jù)庫(kù)(CDDB)》中檢索學(xué)位論文。檢索類型的綜合分析:檢索課題:循證醫(yī)學(xué)信息管理系統(tǒng)的實(shí)踐運(yùn)用分析關(guān)鍵詞:循證醫(yī)學(xué)信息系統(tǒng)循證醫(yī)學(xué)(運(yùn)用)實(shí)踐
1)利用“中國(guó)大百科全書(shū)”數(shù)據(jù)庫(kù),查詢“循證醫(yī)學(xué)”的概念;
2)利用美國(guó)著名的醫(yī)學(xué)數(shù)據(jù)庫(kù)(Medline)檢索“循證醫(yī)學(xué)”和傳統(tǒng)醫(yī)學(xué)在治愈率上的比較;
3)利用SpringerLink數(shù)據(jù)庫(kù)檢索“循證醫(yī)學(xué)”的論文情況。
手工檢索和計(jì)算機(jī)檢索的比較信息檢索的本質(zhì)沒(méi)有變化,變化的只是檢索手段、檢索對(duì)象、信息表示的方式、存儲(chǔ)信息的結(jié)構(gòu)和匹配的方法手工檢索:檢索點(diǎn)少、費(fèi)時(shí)、效率低,但查準(zhǔn)率高,經(jīng)濟(jì)等。計(jì)算機(jī)檢索:檢索點(diǎn)多、省時(shí)、效率高,但查準(zhǔn)率低,費(fèi)用高等。
計(jì)算機(jī)信息系統(tǒng)的組織
定義:按計(jì)算機(jī)信息存儲(chǔ)的方法建立起來(lái)的、供用戶檢索信息的一種有層次的體系,是表征有序信息特征的集合體。在這個(gè)集合體中,對(duì)所收錄的信息的外部特征和內(nèi)容特征都按需要有著詳略不同的描述,每條描述記錄(即款目)都標(biāo)明有可供檢索用的標(biāo)識(shí),按一定序列編排,科學(xué)地組織成一個(gè)有機(jī)的整體,同時(shí)應(yīng)具有多種必要的檢索手段。特征:信息集合、信息描述、概念標(biāo)識(shí)科學(xué)編排、多檢索途徑類型:OPAC、各類專題、網(wǎng)絡(luò)數(shù)據(jù)庫(kù)、搜索引擎、國(guó)際聯(lián)機(jī)系統(tǒng)等職能:報(bào)道信息、存儲(chǔ)信息和檢索信息評(píng)估指標(biāo):信息的收錄范圍;信息特征標(biāo)識(shí)的詳略;摘錄及標(biāo)引的質(zhì)量;信息報(bào)道的時(shí)效;檢索功能的完善。信息系統(tǒng)的組織方法字順組織:
音序:根據(jù)漢字的讀音及讀音的符號(hào)的順序組織信息;形序:根據(jù)漢字的形體結(jié)構(gòu)的某些共同之處加以排序;號(hào)碼組織:按照信息被賦予的號(hào)碼次序或大小順序排列的方法;如專利號(hào);自然組織:
時(shí)序組織:按信息發(fā)生的時(shí)間順序組織信息;
地域組織:按信息發(fā)生的地域、區(qū)劃等地理順序組織信息字段組織:由若干數(shù)據(jù)項(xiàng)組成的記錄來(lái)構(gòu)成數(shù)據(jù)庫(kù)的文檔,通常可分為基本字段和輔助字段,每個(gè)字段都可以作為檢索入口。超文本組織:非線性的、聯(lián)想的、跳躍式的、多角度多層次的信息組織方法通過(guò)基本機(jī)構(gòu)由結(jié)點(diǎn)的鏈組成,把信息中產(chǎn)生聯(lián)想的內(nèi)容組合起來(lái)。元數(shù)據(jù)組織:通過(guò)對(duì)網(wǎng)絡(luò)信息(Web頁(yè)面)外部特征和內(nèi)容特征的描述,并按照某一特征的規(guī)則組織信息的方法。
數(shù)據(jù)庫(kù)的字段組織
數(shù)據(jù)庫(kù)組成:符合某一目的需要的若干文檔的集合
文檔:若干個(gè)邏輯記錄構(gòu)成的信息組合
字段:用來(lái)描述實(shí)體的具體屬性
記錄:對(duì)某一實(shí)體的全部屬性進(jìn)行描述的結(jié)果
數(shù)據(jù):對(duì)具體屬性的表達(dá)
元數(shù)據(jù)信息組織實(shí)例:
<html><head><metahttp-equiv=“Content-Type”content=“text/html;charset=gb_2310-80”><metaname=“beginpackage”
content=“DublinCore”><metaname=“DC.Title”
content=“DigitalLibraries:ResourcesandProjects”><metaname=“DC.Creator.Name”
content=“上??莆墓ぷ魇摇?gt;<metaname=“Email”
content=“shuzic@”><metaname=“DC.Subject”
content=“digitallibraries,digitallibrary,virtuallibrary,electroniclibrary,librarie”><metaname=“DC.Publisher”
content=“IFLANETAdministration”><metaname=“DC.Contributors”
content><metaname=“DC.Date”
content=“Beginning:1998-periodicallyupdated”><metaname=“DC.Type”
content=“Bibliography-FindingAid-ElectronicResourceListing”><metaname=“DC.Format”
content=“text/html”><metaname=“DC.Identifier”
content=“http://www./dlib”><metaname=“DC.Source”
content><metaname=“DC.Language”
content=“cn”><metaname=“DC.Relation”
content=“/digilib/”><metaname=“DC.Coverage”
content><metaname=“DC.Right”
content><metaname=“GENERATOR”
content=“MicrosoftFrontPageExpress2.0”><title>元數(shù)據(jù)</title><linkrel=“SCHEMA.dc”
href=“/metadata/dublin_core”></head><body>…[頁(yè)面體信息省略]…</body></html>
元數(shù)據(jù)概述即關(guān)于數(shù)據(jù)的數(shù)據(jù),它是對(duì)數(shù)據(jù)內(nèi)容的描述。都柏林核心集(DublinCore)通過(guò)電子資源提供者對(duì)WEB資源屬性信息的描述,依據(jù)規(guī)范的款項(xiàng)對(duì)網(wǎng)絡(luò)信息資源內(nèi)容進(jìn)行標(biāo)引,依此提高網(wǎng)絡(luò)資源的檢索效率。
特點(diǎn):簡(jiǎn)易:只有15個(gè)元素且都具有一個(gè)能夠普遍理解的語(yǔ)義。通用:不針對(duì)某個(gè)特定的學(xué)科或領(lǐng)域,支持對(duì)任何內(nèi)容的資源進(jìn)行描述,增加了跨學(xué)科的語(yǔ)義互操作性的可能兼容:通過(guò)內(nèi)嵌在HTML語(yǔ)言中來(lái)實(shí)現(xiàn)其對(duì)Web資源的描述??蓴U(kuò)展:提供能夠擴(kuò)展描述的方法,即限定詞的使用。:模式體系(SCHEME)、語(yǔ)言種類(LANG)、類型(TYPE),即所謂的“堪培拉限定詞”。
計(jì)算機(jī)信息檢索語(yǔ)言定義:精選于自然語(yǔ)言并加以規(guī)范化的詞匯符號(hào),用以對(duì)信息內(nèi)容進(jìn)行概括其內(nèi)容或外在特征的概念及其相互關(guān)系的概念標(biāo)識(shí)體系。在信息的存儲(chǔ)和檢索過(guò)程中,它起著重要的語(yǔ)言保障作用。它既是溝通信息存儲(chǔ)和檢索過(guò)程信息標(biāo)引和信息利用橋梁,又是檢索系統(tǒng)表達(dá)信息主題概念和檢索課題概念的人工語(yǔ)言。概念:
1)等同關(guān)系:同義:自行車和腳踏車、單車;斯里蘭卡和錫蘭;準(zhǔn)同義(近義):實(shí)驗(yàn)和試驗(yàn);法律制度和司法制度;
2)從屬關(guān)系:經(jīng)濟(jì)和工業(yè)、農(nóng)業(yè)經(jīng)濟(jì);文學(xué)和中國(guó)文學(xué);
3)相關(guān)關(guān)系:交叉:概念的一部分外延相重合,如市場(chǎng)文化學(xué);
矛盾:概念外延上的互相排斥,它們的外延之和等于其共同上位概念外延的關(guān)系,如女性與男性;
對(duì)立:概念外延上的互相排斥,而它們的外延之和不等于其上位概念外延的關(guān)系,如法制和犯罪;并列:是同一上位概念下的幾個(gè)下位概念間的關(guān)系檢索語(yǔ)言在表達(dá)各種概念及相互關(guān)系時(shí),普遍地應(yīng)用了上述概念邏輯的原理,并且利用了概念的劃分與概括,概念的分析與綜合這兩種邏輯方法來(lái)建立自身的結(jié)構(gòu)體系。檢索語(yǔ)言的類型:分類語(yǔ)言(C912、F715)
反映信息內(nèi)容特征
主題語(yǔ)言(關(guān)鍵詞、敘詞等)
題名、篇名
著者、團(tuán)體著者
反映信息外部特征出版事項(xiàng)(出版單位、時(shí)間等)
代碼、序號(hào)(ISBN、專利號(hào)等)
其他(區(qū)域、時(shí)代、年代等)分類語(yǔ)言定義:建立在科學(xué)分類的基礎(chǔ)上,運(yùn)用概念劃分與概括的方法,將概念進(jìn)行層層劃分,逐級(jí)劃分就產(chǎn)生許多級(jí)別的下位類目,層層隸屬,形成一個(gè)嚴(yán)格有序、層次分明的知識(shí)門(mén)類等級(jí)體系。每個(gè)類目分別以不同的符號(hào)作標(biāo)志,每個(gè)分類號(hào)都是表達(dá)特定知識(shí)概念的語(yǔ)詞,即分類語(yǔ)言的語(yǔ)詞,如:
C910社會(huì)學(xué)理論C913.1家庭婚姻
C8統(tǒng)計(jì)學(xué)C912社會(huì)關(guān)系C913.2老年問(wèn)題
C社科總論C91社會(huì)學(xué)C913社會(huì)問(wèn)題
C913.3酗酒
C92人口學(xué)C915社會(huì)工作C913.4性問(wèn)題
C93管理學(xué)C917社會(huì)保障C013,5青少年犯罪分
C913.9其他社會(huì)問(wèn)題使用分類語(yǔ)言的檢索步驟1)分析研究所需要查找信息的內(nèi)容主題。
2)判斷該主題在分類法中屬于哪一大類,然后再?gòu)拇箢愐患?jí)一級(jí)往下尋找,直到查到具體類目(或有關(guān)類目),記下類號(hào)為止。
3)根據(jù)檢索到的類號(hào)在檢索工具中檢索,便可查得所需信息。例如,欲查有關(guān)稅收理論方面的信息。先進(jìn)行分析得出主題是“稅收”。由于專業(yè)范圍窄,概念內(nèi)涵較深,可概括為財(cái)政,財(cái)政又可概括為經(jīng)濟(jì),然后再層層往下演繹。如:經(jīng)濟(jì)
財(cái)政金融財(cái)政財(cái)政理論財(cái)政收入與支出稅收,分類號(hào)為F810.42。按此號(hào)到檢索系統(tǒng)中去查找即得。主題語(yǔ)言定義:用自然語(yǔ)言中的名詞、名詞性詞組描述事物概念的中心語(yǔ)義。也就是說(shuō),它以語(yǔ)言文字為基礎(chǔ),以反映特定事物為中心,不論學(xué)科分野和科學(xué)技術(shù)的邏輯序列,直接借助于自然語(yǔ)言的形式,作為信息內(nèi)容的標(biāo)識(shí)和檢索依據(jù)的一種以主題字順體系為基本結(jié)構(gòu)的檢索語(yǔ)言。包括關(guān)鍵詞語(yǔ)言、敘詞語(yǔ)言和標(biāo)題詞語(yǔ)言。例如:網(wǎng)絡(luò)資源利用中知識(shí)產(chǎn)權(quán)的法律思考主題詞:知識(shí)產(chǎn)權(quán)資源利用網(wǎng)絡(luò)資源
監(jiān)獄管理中心理學(xué)實(shí)踐的理論分析
主題詞:心理學(xué)實(shí)踐(運(yùn)用)監(jiān)獄管理主題語(yǔ)言包含兩個(gè)內(nèi)容:
1)指表達(dá)信息內(nèi)容特征的、經(jīng)過(guò)規(guī)范化的名詞術(shù)語(yǔ);
2)指把這些名詞術(shù)語(yǔ)按字順排列成主題記號(hào)表或標(biāo)題詞表,以此作為規(guī)范語(yǔ)詞標(biāo)引和檢索信息的工具。
使用主題語(yǔ)言的檢索步驟
1)對(duì)檢索課題進(jìn)行主題分析。如,中國(guó)稅收理論方面的信息,其主題概念是中國(guó)稅收理論,轉(zhuǎn)換成主題詞:稅收、中國(guó)。
2)將所得出的主題概念轉(zhuǎn)換成主題詞;
3)再按查出的主題詞字順去翻檢目錄、索引或輸入計(jì)算機(jī)數(shù)據(jù)庫(kù)
4)注意選取最專指的主題詞,再利用主題詞找出相應(yīng)的主題詞。因?yàn)檫x取上位類,范圍過(guò)寬,缺乏查準(zhǔn)率,反之選取下位類,范圍過(guò)窄,缺乏查全率。
5)應(yīng)將主標(biāo)題與副標(biāo)題、說(shuō)明語(yǔ)聯(lián)系起來(lái),如“社會(huì)主義空想”,應(yīng)逆讀為“空想社會(huì)主義”,“《資本論》傳播”,應(yīng)順讀為“《資本論》的傳播”。
6)使用主題詞檢索信息時(shí),還應(yīng)充分考慮和選擇該詞的同義詞、近義詞作為檢索入口,這樣才能保證查全率。計(jì)算機(jī)信息檢索的一般技術(shù)1布爾邏輯算符指通過(guò)標(biāo)準(zhǔn)的布爾邏輯關(guān)系詞來(lái)表達(dá)檢索詞與檢索詞之間邏輯關(guān)系的檢索方法,也是現(xiàn)代信息檢索系統(tǒng)中最常用使用的一種方法。常用的布爾邏輯算符有三種:
邏輯與:算符AND*
示例:刑事犯罪*女性
computerAND
law
釋例:同時(shí)含有*前后兩者概念的信息
作用:縮小檢索范圍,提高檢索的查準(zhǔn)率邏輯或:算符OR+
示例:WTO+世貿(mào)組織+世界貿(mào)易組織
carORautomobile
釋例:符合+前后概念其中之一即可
作用:擴(kuò)大檢索范圍,提高檢索的查全率
邏輯非:算符NOT—示例:知識(shí)產(chǎn)權(quán)—
版權(quán)
automobileNOTtruck釋例:滿足前者概念,同時(shí)必須剔除后者作用:縮小檢索范圍,提高檢索的查準(zhǔn)率2截詞符(truncation)截詞是指檢索者將檢索詞在合適的地方截?cái)?局部進(jìn)行檢索的一種方法,即凡滿足這個(gè)詞截?cái)嗖糠种械乃凶址ù┑男畔?,都為命中信息。在西文中,使用截詞方法可以解決一個(gè)詞的單復(fù)數(shù)問(wèn)題,詞干相同而詞尾不同的問(wèn)題(例如,由同一詞根派生出來(lái)的名詞、動(dòng)名詞、形容詞和副詞等)以及英美單詞拼寫(xiě)差異等問(wèn)題。
截詞必須適可而止,截去部分過(guò)多會(huì)大大增加誤檢率。絕大多數(shù)的檢索工具都支持截詞功能。有的是自動(dòng)截詞(如Lycos),有的是在一定條件下才能截詞(如Altavista)。使用最多的是右截詞(如comput*),部分支持中截詞(如wom*n),左截詞則少見(jiàn)(如*physics)。后截詞:edit*、computer*
可以檢索到:edit、editing、edition、editor和computerized、computerization等前截詞:*market*physics
可以檢索到:supermarket、internet-market等*physics,可以檢索到astrophysics、biophysics、chemo-physics、geophysics等中截詞:wom*n,可以檢索到:woman、women等。需要注意的是:
按截?cái)嗟淖址麛?shù)量來(lái)分開(kāi)分為有限截?cái)嗪蜔o(wú)限截?cái)鄡煞N類型。在不同的檢索系統(tǒng)中對(duì)截?cái)喾?hào)的表示具有不同的規(guī)定,例如,Dialog系統(tǒng)使用“?”,而B(niǎo)RS系統(tǒng)使用“$”,Orbit系統(tǒng)使用“#”等。
使用布爾算符需要注意的是:
1)表達(dá)方式有異:
符號(hào)型:“
+”、“*”、“
-”;
字母型:“and”、“or”、“andnot(not)”;
菜單型:“matchallterms”、“matchanyterm”;
文字型:“MUSTcontain”、“MUSTNOTcontain”2)部分支持布爾算符如Yahoo!不支持邏輯非、如HotBot、Infoseek等不支持復(fù)合布爾算符,卻允許用戶根據(jù)自己意愿組配布爾算符。3)布爾算符的局限性顯而易見(jiàn)。匹配標(biāo)準(zhǔn)僵化、相關(guān)度難以描述、輸出信息不排序、難以構(gòu)建理想的提問(wèn)式等。尤其是公共檢索系統(tǒng)更難以面對(duì)最終用戶。所以各類系統(tǒng)均出現(xiàn)一系列方法來(lái)部分彌補(bǔ)其不足。如英國(guó)的Okapi系統(tǒng)采用詞頻加權(quán)模式,部分地彌補(bǔ)布爾算符的不足。3限制檢索:限定檢索的條件多種多樣,主要和常用的是字段限制,它是限定檢索詞必須在數(shù)據(jù)庫(kù)記錄中規(guī)定的字段范圍內(nèi)出現(xiàn)。如
Computer/AB(后綴:基本字段使用)、
LA=English(前綴:輔助字段使用)等。其余可以限定的有:
1)限定范圍,即限定關(guān)鍵詞必須是處于頁(yè)面中的某個(gè)字范圍內(nèi)的。如限定在標(biāo)題、URL、鏈點(diǎn)文字、網(wǎng)頁(yè)文字、特定站點(diǎn)等部分;
2)限定網(wǎng)頁(yè)深度(即網(wǎng)頁(yè)層次);
3)限定在某一專題內(nèi)。如新聞組、黃頁(yè)、電郵地址、股票等;
4)限定在某一分類類目?jī)?nèi);如經(jīng)濟(jì)、文學(xué)、藝術(shù)、軍事等
5)限定首先在5%最優(yōu)站點(diǎn)范圍內(nèi)檢索;
6)限定網(wǎng)絡(luò)資源類型(網(wǎng)站類型)。如個(gè)人網(wǎng)頁(yè)、商業(yè)、教育等;
7)限定網(wǎng)絡(luò)資源類型。如文件、聲音、圖像、HTML、編程語(yǔ)句等;
8)限定日期。如特定日期前、后、最近某段時(shí)間內(nèi)建立等等;
9)限定地區(qū)或域名。4鄰近檢索
(nW):要求所連接的兩個(gè)檢索詞在結(jié)果中相互距離不超過(guò)n個(gè)詞(中文則不超過(guò)n個(gè)字),而且前后順序不能顛倒。如:檢索式second(W)world(W)war就只能檢索出那些包含詞組“secondworldwar”的結(jié)果,而不會(huì)檢索到包含“secondwarintheworld”
(nN):用途略遜一籌。作用相同,但前后順序可以變換。如:Environment(2N)protection就可檢索出包含
“environmentprotection”
“protectionofforestenvironment”
“protectionoftheenvironment”
“protectionofwaterenvironment”
總的來(lái)說(shuō),(W)和(N)關(guān)系對(duì)提高檢索的查準(zhǔn)率有著不可低估的功用。如果SE能支持更多其他鄰近檢索關(guān)系,如DIALOG的(L)和(F)關(guān)系,查準(zhǔn)率可進(jìn)一步提高。
檢索效果的分析和評(píng)估檢索效果:是指計(jì)算機(jī)信息系統(tǒng)檢索信息的有效程度,反映了數(shù)據(jù)庫(kù)系統(tǒng)的檢索能力。檢索效果包括檢索的技術(shù)效果和經(jīng)濟(jì)效果。技術(shù)效果:信息系統(tǒng)完成其功能的能力,主要指性能和質(zhì)量。經(jīng)濟(jì)效果:信息系統(tǒng)完成其功能的價(jià)值確定,主要指成本和時(shí)間。查全率:是衡量系統(tǒng)檢索出與課題相關(guān)信息的能力;查準(zhǔn)率:是衡量系統(tǒng)拒絕非相關(guān)信息的能力。兩者結(jié)合起來(lái),即表示信息系統(tǒng)的檢索效率。查全率查準(zhǔn)率
一系列實(shí)驗(yàn)表明:查全和查準(zhǔn)之間存在互逆關(guān)系。同時(shí)提高查全率和查準(zhǔn)率是有難度的,對(duì)任何一個(gè)檢索系統(tǒng),在兩者間存在一個(gè)最佳的比例關(guān)系,即查全率在60-70%,查準(zhǔn)率在40-50%。關(guān)于檢索步驟
檢索課題檢索結(jié)果分析研究課題選擇檢索系統(tǒng)確定檢索途徑調(diào)整檢索策略選定檢索方法初步檢索結(jié)果獲取原始文獻(xiàn)制定檢索策略NY關(guān)于檢索詞和關(guān)鍵詞關(guān)鍵詞:就是從檢索課題的題目、摘要和內(nèi)容中抽取出來(lái),能夠充分表達(dá)信息主題內(nèi)容的具有檢索意義的關(guān)鍵性詞匯。例如:檢索課題:計(jì)算機(jī)領(lǐng)域犯罪心理的剖析關(guān)鍵詞:計(jì)算機(jī)犯罪犯罪心理(學(xué))
computercrime;criminalpsychology
檢索課題:家庭破裂和社會(huì)問(wèn)題的內(nèi)在聯(lián)系關(guān)鍵詞:離婚社會(huì)問(wèn)題
divorcesocialproblem
檢索課題:監(jiān)獄管理中的社會(huì)學(xué)原理運(yùn)用關(guān)鍵詞:社會(huì)學(xué)(原理)監(jiān)獄管理
sociology;prisonmanagement檢索課題關(guān)鍵詞的概念分析1)一般關(guān)鍵詞的分析關(guān)鍵詞分析就是分析出課題所涉及的主要概念,并選擇能代表這些概念的若干個(gè)詞或詞組,進(jìn)而分析概念之間的上、下、左、右關(guān)系。尤其值得注意的是對(duì)于新學(xué)科、交叉學(xué)科和邊緣學(xué)科的課題,清楚概念關(guān)系就顯得尤為重要。概念分析的結(jié)果應(yīng)以概念組為單元的詞或詞組形式列出,以便制訂檢索策略。例如,檢索課題:網(wǎng)絡(luò)資源的知識(shí)產(chǎn)權(quán)保護(hù)關(guān)鍵詞:知識(shí)產(chǎn)權(quán)保護(hù)網(wǎng)絡(luò)資源2)隱含關(guān)鍵詞的分析有些課題的實(shí)質(zhì)性內(nèi)容往往很難從課題的名稱上反映出來(lái),課題所隱含的概念和相關(guān)的內(nèi)容需要從課題所屬的專業(yè)角度作深入分析,才能提煉出能夠確切反映課題內(nèi)容的關(guān)鍵詞。例如“知識(shí)產(chǎn)權(quán)保護(hù)”的概念中就隱含著“版權(quán)”、“著作權(quán)”等概念。3)核心概念的選取有些關(guān)鍵詞已經(jīng)含有的某些概念,在概念分析中應(yīng)予以排除。例如?!吧鐣?huì)保障”包含“養(yǎng)老保險(xiǎn)”、“失業(yè)保險(xiǎn)”、“醫(yī)療保險(xiǎn)”、和“社會(huì)救濟(jì)”等下位概念及同位概念“社會(huì)保險(xiǎn)”。所以,如果需要檢索“養(yǎng)老保險(xiǎn)”方面的信息,應(yīng)直接使用養(yǎng)老保險(xiǎn)做關(guān)鍵詞最確切。如果有些檢索概念已經(jīng)體現(xiàn)在所使用數(shù)據(jù)庫(kù)中,這些概念也應(yīng)該予以排除。例如,在使用法律文摘數(shù)據(jù)庫(kù)(lawabstracts)時(shí),“法律(law)”這一概念一般可以排除;而computer一詞在計(jì)算機(jī)數(shù)據(jù)庫(kù)(TheComputerDatabase)中一般也應(yīng)予以排除。另外有一些比較泛指、檢索意義不大的概念,如“發(fā)展”、“趨勢(shì)”、“現(xiàn)狀”等在不是專門(mén)查找綜述類信息時(shí)也予以排除。關(guān)鍵詞的判斷和選擇關(guān)鍵詞是表達(dá)用戶信息需求和檢索課題內(nèi)容的基本元素,也是計(jì)算機(jī)檢索系統(tǒng)進(jìn)行匹配基本單元。正確的主題分析是制定檢索策略的保證,它決定了檢索策略的質(zhì)量和檢索效果的好壞。1)使用通用性的術(shù)語(yǔ)切忌使用國(guó)際上并不通用的術(shù)語(yǔ),例如,“第三世界”、“下崗”等查找國(guó)外數(shù)據(jù)庫(kù)。要盡量使用本學(xué)科在國(guó)際上通用的、國(guó)外文獻(xiàn)上出現(xiàn)過(guò)的術(shù)語(yǔ),避免使用冷僻詞和自選詞2)選擇概念表達(dá)最確切的詞語(yǔ)關(guān)鍵詞的選擇不僅從課題名稱中分析,更要從學(xué)科專業(yè)和檢索目的的角度,概括出能夠反映課題實(shí)質(zhì)內(nèi)容的檢索詞,以便提高檢索的切題程度。3)從相應(yīng)的規(guī)范詞表中選定所需的關(guān)鍵詞很多數(shù)據(jù)庫(kù)都有自己的主題詞表,所以應(yīng)該優(yōu)先選用詞表中的規(guī)范詞,以便能使檢索獲得最佳的效果。在計(jì)算機(jī)檢索系統(tǒng)中一般都備有聯(lián)機(jī)查詢指令供檢索者聯(lián)機(jī)確定關(guān)鍵詞使用。關(guān)鍵詞的擴(kuò)展處理在確定關(guān)鍵詞時(shí),除了要考慮到被選用關(guān)鍵詞的縮寫(xiě)詞及不同拼法的詞,還要考慮反映主題概念的同義詞、近義詞等相關(guān)詞,以便在編制檢索式時(shí)考慮到這些因素,避免漏檢有關(guān)的信息。
1)同義詞的判斷和選擇如:學(xué)名和俗名:激光(鐳射)、馬鈴薯(土豆)、簡(jiǎn)稱和全稱:TV(television)、澳州(澳大利亞)、WT
英美方式:“catalog”(catalogue)、“color”(colour)。2)近義詞的判斷和選擇如:合同糾紛(合同爭(zhēng)議)、國(guó)際矛盾(國(guó)際沖突)跨國(guó)公司(跨國(guó)企業(yè))、法律監(jiān)督(司法監(jiān)督)等。3)概念為單位,構(gòu)成組面關(guān)鍵詞例如:檢索課題:經(jīng)濟(jì)領(lǐng)域犯罪的心理分析關(guān)鍵詞:經(jīng)濟(jì)犯罪犯罪心理心理分析關(guān)鍵詞的選取應(yīng)該考慮一些其他因素:例如:關(guān)于經(jīng)濟(jì)領(lǐng)域的詐騙行為的心理剖析關(guān)鍵詞:經(jīng)濟(jì)詐騙詐騙心理(分析)這里有個(gè)概念的重疊和拆分的問(wèn)題,如果關(guān)鍵詞為“經(jīng)濟(jì)領(lǐng)域詐騙行為心理剖析”,顯然沒(méi)有達(dá)到簡(jiǎn)潔、切題的要求。例如:家庭、婚姻裂變和青少年犯罪的內(nèi)在聯(lián)系關(guān)鍵詞:離婚(單親家庭)青少年(未成年人)犯罪這里有個(gè)常用概念、相近概念需要考慮,如果關(guān)鍵詞標(biāo)引為“婚姻裂變青少年犯罪”,檢索結(jié)果的查全率一定將大大降低。檢索點(diǎn)的確認(rèn)課題名稱:1998-2000年度鄧偉志先生在報(bào)刊上發(fā)表的有關(guān)社會(huì)學(xué)家庭婚姻的論文有多少?檢索點(diǎn):
1998-2000報(bào)刊論文鄧偉志社會(huì)學(xué)家庭婚姻(時(shí)間)(范圍)(人物)(學(xué)科)(主題)檢索課題的分析和研究
這是指在著手查找信息前對(duì)課題進(jìn)行分析,明確學(xué)科或?qū)I(yè)的范圍,弄清檢索的真正意圖及實(shí)質(zhì)。它包括了解課題的內(nèi)涵概念范圍和外延概念范圍,以便確定檢索標(biāo)識(shí)(檢索詞、分類等);明確課題所需信息的內(nèi)容、出版國(guó)別、語(yǔ)種和年限;同時(shí)還要在分析的基礎(chǔ)上形成主題概念,包括所需信息的主題概念有幾個(gè)?概念的專指度是否合適?哪些是主要的?哪些是次要的等。1)專業(yè)范圍:確定該課題涉及哪些專業(yè)及其相關(guān)的學(xué)科。2)時(shí)間范圍:確定該課題需要檢索信息的年代范圍。3)地理范圍:了解課題在哪個(gè)國(guó)家處于領(lǐng)先地位。4)語(yǔ)種范圍:該課題在哪國(guó)占優(yōu)勢(shì),選擇該國(guó)母語(yǔ)的檢索工具。5)信息類型:選擇與課題有關(guān)的、針對(duì)性強(qiáng)的檢索工具。檢索策略的制定檢索策略,即將課題的提問(wèn)及其檢索詞與檢索工具的收錄內(nèi)容、編排特點(diǎn)相匹配而確定的檢索方案或程序。制定檢索策略的主要內(nèi)容是,在分析檢索課題的基礎(chǔ)上,確定要利用哪些檢索工具,確定查找年限和專業(yè)范圍的選擇,確定檢索用詞并判明各詞之間的邏輯關(guān)系與查找步驟等事項(xiàng)的科學(xué)安排。如C913.5*G=青少年犯罪*E=2001制定檢索策略的關(guān)鍵環(huán)節(jié)1)對(duì)檢索課題的標(biāo)引要準(zhǔn)確。2)選擇收錄全面、年限長(zhǎng)、地域廣,學(xué)術(shù)權(quán)威性高,編排方法科學(xué),功能較多,易于使用的檢索系統(tǒng),這樣才能提高檢索效果。3)全面、綜合地考慮選擇檢索途徑,取長(zhǎng)補(bǔ)短;
綜上所述,詳盡分析檢索課題,從而確定檢索目標(biāo),是制定良好檢索策略的基礎(chǔ);選擇適當(dāng)?shù)臋z索工具,是使合理的檢索策略得以實(shí)施的前提條件;檢索途徑的確定和檢索詞的調(diào)節(jié),是檢索過(guò)程的關(guān)鍵環(huán)節(jié)。只有使這些環(huán)節(jié)達(dá)到最優(yōu)化,才能優(yōu)化檢索策略。
選擇檢索系統(tǒng)
要根據(jù)課題要求,選擇與所查課題相適應(yīng)、質(zhì)量較高、檢索手段比較完善的檢索系統(tǒng)須了解和掌握其適用范圍、收錄特點(diǎn),然后可通過(guò)三次信息的選擇和檢索,如“SubjectGuidetoDialogDatabase”、《數(shù)據(jù)庫(kù)目錄》等工具指引到二次信息檢索工具。例如,美國(guó)E.P.Sheehy編著的《GuidetotheReferenceBooks》,它介紹多種工具書(shū),是目前世界上主要的指導(dǎo)使用工具書(shū)的工具書(shū)。
在選擇檢索工具時(shí),要考慮的主要問(wèn)題如下:1)內(nèi)容和時(shí)間上,考慮數(shù)據(jù)庫(kù)內(nèi)容對(duì)課題內(nèi)容的覆蓋面和一致性2)手段和技術(shù)上,機(jī)檢具有較高的檢索效率,但查準(zhǔn)率低,缺乏回溯性,選擇時(shí)需掌握其收錄信息的年代范圍,才能獲得滿意的結(jié)果;手檢效率低,卻具有良好的查準(zhǔn)率。3)考慮價(jià)格和可獲得性,應(yīng)選擇就近容易獲得的檢索系統(tǒng)。
檢索途徑是進(jìn)入檢索的入口。1)反映信息內(nèi)容特征的(主題、分類)途徑:2)反映信息外部特征的(著者、題名、代碼等)途徑。上述兩類途徑構(gòu)成了信息檢索的整個(gè)檢索途徑體系。在計(jì)算機(jī)信息系統(tǒng)中,檢索途徑還有很多,幾乎信息的每一個(gè)特征(如出版社、出版年代等)都可作為檢索途徑。顯然,檢索途徑的多少直接關(guān)系到檢索的便利。
每種檢索途徑各有特色,不可偏廢。應(yīng)根據(jù)檢索要求、已知條件、設(shè)備是否齊全等因素,盡量綜合利用各種途徑,取長(zhǎng)補(bǔ)短,進(jìn)行優(yōu)化選擇,以提高檢索效果。例如:為了解某一學(xué)科的發(fā)展歷史、研究現(xiàn)狀和發(fā)展趨勢(shì),為了制定戰(zhàn)略決策和進(jìn)行預(yù)測(cè)而搜集有關(guān)信息,應(yīng)以分類途徑為主,輔以主題檢索途徑;為研究解決某一具體問(wèn)題或攻克某一技術(shù)難關(guān),應(yīng)以主題途徑為主,輔以分類途徑;如果已知檢索課題的外部特征,則應(yīng)選擇題名、著者、代碼等檢索途徑;如果已知檢索課題的內(nèi)容特征,則應(yīng)選擇主題途徑或分類途徑。選擇檢索方法(1)追溯法:1)傳統(tǒng)追溯法;2)引文追溯法工具法:1)順查法;2)倒查法;3)抽查法交替法:1)直接交替法;2)間隔交替法檢索方法的選擇原則:1)檢索條件在沒(méi)有檢索工具可供利用的前提下,采用追溯法較為實(shí)際。雖檢索效率不高,費(fèi)時(shí)費(fèi)力,但比逐期或逐年翻查原始信息要快得多。在原始信息收藏比較豐富的前提下,可查得一批有用信息;在有檢索工具可利用時(shí),以采用工具法為佳。其檢出率要比追溯法高,所以工具法是最常用的檢索方法。2)檢索要求信息檢索的一般要求是:廣、快、精、準(zhǔn)。若課題檢索的目的在于系統(tǒng)收集信息,進(jìn)行綜合分析和研究,這樣就需要評(píng)論性、戰(zhàn)略性信息,以便供決策某一問(wèn)題參考,即“普查”型檢索。對(duì)信息的選擇檢索方法(2)
系統(tǒng)性、全面性要求較高,一般不能有重大遺漏。在檢索時(shí)間比較寬裕時(shí),可以采用順查法,利用檢索工具進(jìn)行檢索。如果檢索的目的是解決與某一課題有關(guān)的關(guān)鍵性技術(shù)問(wèn)題,即“攻關(guān)”型檢索。這種情況要求既“快”,又“準(zhǔn)”地提供關(guān)鍵性信息。由于時(shí)間緊迫,無(wú)疑不能采用順查法,而宜用倒查法迅速查得最新技術(shù)信息。3)學(xué)科特點(diǎn)要考慮檢索課題的學(xué)科發(fā)展特點(diǎn)。新興學(xué)科,起點(diǎn)年代不長(zhǎng),又有準(zhǔn)確的可供查考的起始年代,可采用順查法,也可采用倒查法;年代久遠(yuǎn)的學(xué)科,只能采用倒查法。但是歷史悠久的傳統(tǒng)學(xué)科,其發(fā)展過(guò)程總是波浪起伏地發(fā)展,在興旺時(shí)期,信息量多,反之亦然檢索信息時(shí),可重點(diǎn)抽查學(xué)科發(fā)展的高峰時(shí)期,當(dāng)然,這種考慮、學(xué)科特點(diǎn)的檢索原則同樣地適用于專業(yè)特點(diǎn)、行業(yè)特點(diǎn)或技術(shù)特點(diǎn)的情況。檢索策略的調(diào)整
檢索過(guò)程是一個(gè)動(dòng)態(tài)的隨機(jī)過(guò)程,在某些檢索環(huán)節(jié)中,會(huì)不可避免地產(chǎn)生一些和檢索目標(biāo)相差甚遠(yuǎn)的現(xiàn)象。檢索詞過(guò)寬泛或偏窄而造成擴(kuò)檢和漏檢,檢索詞不規(guī)范而引起的誤檢等。所以有必要在評(píng)價(jià)檢索效果的基礎(chǔ)上,對(duì)檢索效果進(jìn)行信息反饋,便于重新修正檢索策略,調(diào)整檢索手段,進(jìn)行新一輪的循環(huán)檢索,從而實(shí)現(xiàn)檢索目標(biāo)的完善。
以SKBK為例:C913.5*G=青少年犯罪*E=2001C913.5*(G=青少年犯罪+G=未成年人犯罪)*(E=2001+E=2002)C913.5*(G=青少年犯罪+G=未成年人犯罪+B=青少年犯罪+B=未成年人犯罪)*(E=2001+E=2002)《SKBK》數(shù)據(jù)庫(kù)檢索舉例學(xué)號(hào):123456姓名:XXX檢索課題:現(xiàn)階段青少年犯罪的現(xiàn)象分析關(guān)鍵詞:青少年犯罪(未成年人犯罪)檢索對(duì)象:《SKBK》數(shù)據(jù)庫(kù)檢索對(duì)象簡(jiǎn)介:SKBK是《全國(guó)報(bào)刊索引》電子版。收錄了全國(guó)社科期刊,報(bào)紙,內(nèi)容涉及社會(huì)科學(xué)各個(gè)學(xué)科。收錄原則為核心期刊全收、非核心期刊選收的原則,年更新量約20余萬(wàn)條,為目前國(guó)內(nèi)特大型文獻(xiàn)數(shù)據(jù)庫(kù)之一。檢索步驟:1)C913.5234(篇)2)C913.5+D917675(篇)3)C913.5+D17+D697.51455(篇)
………………(作業(yè)不能省略)N)(C913.5+D17+D697.5)*(G=青少年犯罪+G=未成年人犯罪)*E=1997–D=北京法制報(bào)67(篇)
【序號(hào)】1382【分類】D669.5【題名】市場(chǎng)經(jīng)濟(jì)的負(fù)效應(yīng)與青少年犯罪【著者】魯雪英【出處】安徽大學(xué)學(xué)報(bào):哲社版.-1997.(3).-61-64【年份】1997【主題】青少年犯罪;市場(chǎng)經(jīng)濟(jì)【序號(hào)】16962【分類】D669.5【題名】對(duì)25名青少年吸毒引發(fā)犯罪的分析【著者】王循【出處】北京檢察.-1997.(5).-31-32【年份】1997【主題】青少年犯罪;吸毒;案例分析
【序號(hào)】18343【分類】D669.5【題名】對(duì)門(mén)頭溝區(qū)未成年人犯罪情況的調(diào)查及預(yù)防對(duì)策【著者】吳世芳【出處】北京警院學(xué)報(bào).-1997.(2).-31-35【年份】1997【主題】青少年犯罪;預(yù)防犯罪;調(diào)查報(bào)告;北京市
檢索結(jié)果復(fù)制五條打開(kāi)數(shù)據(jù)庫(kù)輸入檢索表達(dá)式在索引詞典文檔中比較和匹配從記錄號(hào)倒排文檔中調(diào)取記錄號(hào)集合記錄號(hào)集合之間的邏輯運(yùn)算從順排文檔中調(diào)取記錄輸出命中信息結(jié)束檢索另選數(shù)據(jù)庫(kù)重新輸入檢索標(biāo)識(shí)結(jié)果不匹配篇數(shù)不合要求重新調(diào)整檢索策略記錄內(nèi)容不合要求數(shù)據(jù)庫(kù)檢索原理數(shù)據(jù)庫(kù)的檢索原理注釋:在輸入檢索詞后,系統(tǒng)主要操作的對(duì)象是順排、倒排文檔在輸入單個(gè)檢索詞的情況下(如“軟件”),系統(tǒng)首先查找索引詞典倒排文檔,并在顯示器上響應(yīng),給出含有“軟件”一詞的記錄數(shù),同時(shí)將這些記錄的地址調(diào)入內(nèi)存。在系統(tǒng)接到用戶顯示命中記錄的指令后,調(diào)用記錄號(hào)倒排文檔,根據(jù)記錄號(hào)從順序文檔中讀取并顯示記錄。有的系統(tǒng)則在接受用戶檢索詞后,順次搜索索引詞典文檔、記錄號(hào)文檔和順排文檔,用戶可同時(shí)看到命中的記錄數(shù)和首記錄的全部?jī)?nèi)容。在輸入兩個(gè)以上檢索詞的情況下,系統(tǒng)除了進(jìn)行上述操作外,還要對(duì)記錄號(hào)集合之間進(jìn)行布爾邏輯運(yùn)算。
以下三種情況,可以通過(guò)或者換用其他數(shù)據(jù)庫(kù),或者重新輸入檢索詞,或者調(diào)整檢索策略的辦法予以解決。
1)
對(duì)輸入的檢索詞,系統(tǒng)響應(yīng)為“0”,即檢索詞與索引詞典中標(biāo)識(shí)詞不匹配;
2)
對(duì)輸入的檢索詞,系統(tǒng)響應(yīng)的篇數(shù)或者太多,或者太少;
3)
對(duì)輸入的檢索詞,系統(tǒng)最后給出的記錄并不合乎課題要求。數(shù)據(jù)庫(kù)檢索的過(guò)程介紹例如,檢索課題:計(jì)算機(jī)在監(jiān)獄事務(wù)方面的運(yùn)用數(shù)據(jù)庫(kù)檢索的具體過(guò)程:
1)先把課題編制成檢索策略輸入系統(tǒng),系統(tǒng)中的索引文檔對(duì)檢索策略中的“計(jì)算機(jī)”和“監(jiān)獄事務(wù)”分別與存儲(chǔ)標(biāo)識(shí)進(jìn)行匹配,顯示出“計(jì)算機(jī)”的信息有1299條,“監(jiān)獄事務(wù)”的信息有392條。
2)系統(tǒng)分別到存取號(hào)倒排文檔中找出這兩個(gè)詞對(duì)應(yīng)的地址號(hào)(如12和90),同時(shí)找到了含有“計(jì)算機(jī)”和含有“監(jiān)獄事務(wù)”的所有信息的存取號(hào),并把它們調(diào)入內(nèi)存單元進(jìn)行組配運(yùn)算。
3)組配運(yùn)算的結(jié)果,有23條信息符合要求,顯示各自的存取號(hào)。
4)系統(tǒng)到順排文檔中按存取號(hào)調(diào)取命中的三篇記錄,并將記錄打印輸出給用戶。
數(shù)據(jù)庫(kù)分類可以將信息數(shù)據(jù)庫(kù)劃分為二大類。
1)參考數(shù)據(jù)庫(kù)(ReferenceDatabase)還需要進(jìn)一步查找原文或其他資料的一類數(shù)據(jù)庫(kù)。它包括書(shū)目數(shù)據(jù)庫(kù):向用戶提供信息線索,只能檢索出信息的標(biāo)題、出處、著者、主題等??煞譃槲恼退饕龜?shù)據(jù)庫(kù)指南型數(shù)據(jù)庫(kù):能提供用戶參考、指南的各類信息,如企業(yè)、機(jī)構(gòu)等名稱、地址電話、人物、出版物、項(xiàng)目、活動(dòng)等簡(jiǎn)要描述信息
2)源數(shù)據(jù)庫(kù)(SourceDatabase)數(shù)值型數(shù)據(jù)庫(kù):提供數(shù)據(jù)或數(shù)值類信息。術(shù)語(yǔ)數(shù)據(jù)庫(kù):存儲(chǔ)和檢索名詞術(shù)語(yǔ)信息,如電子詞典等;圖像數(shù)據(jù)庫(kù):存儲(chǔ)和檢索各種圖像或圖形信息及文字說(shuō)明資料;全文數(shù)據(jù)庫(kù):存儲(chǔ)和檢索文獻(xiàn)全文或其中主要部分的信息;超文本數(shù)據(jù)庫(kù):存儲(chǔ)內(nèi)容分割為若干獨(dú)立利用的結(jié)點(diǎn),使用鏈路連結(jié)點(diǎn)等方式進(jìn)行存取,形成了特殊的存取模式;
高級(jí)檢索功能
1加權(quán)檢索
1)類似布爾,即用“+”號(hào)或選擇“mustcontain”表示某檢索詞“一定要出現(xiàn)”在檢索結(jié)果中,如“+亞洲+金融風(fēng)暴”,即檢索結(jié)果中必須同時(shí)含有“亞洲”和“金融風(fēng)暴”這兩個(gè)詞)。即用“-”號(hào)或選擇“mustnotcontain”表示某檢索詞“一定不能出現(xiàn)”在檢索結(jié)果中。不加符號(hào)或選擇“shouldcontain”表示某個(gè)檢索詞“可以出現(xiàn)”在檢索結(jié)果中。
2)加權(quán)(閾值),即對(duì)每個(gè)檢索詞根據(jù)其重要程度賦予一定的權(quán)值,設(shè)定某閾值,檢索結(jié)果的權(quán)值超越該閾值就算命中如,檢索詞計(jì)算機(jī)、用戶、軟件,權(quán)值分別為5、8、4。閾值為9。計(jì)算機(jī)、用戶、軟件權(quán)值和=17大于9,命中。計(jì)算機(jī)、用戶權(quán)值和=13大于9,命中。計(jì)算機(jī)、軟件權(quán)值和=9等于9,命中。用戶、軟件權(quán)值和=12大于9,命中。用戶權(quán)值和=8小于9,不命中。2自然語(yǔ)言檢索系統(tǒng)利用非用詞詞表排除非關(guān)鍵詞后檢索。如pleasefindformesomethingaboutautomobilesaleinNewYorkstate,系統(tǒng)會(huì)排除“禁用詞”、“檢索提問(wèn)詞”后將“NewYorkstate”、“automobilesale”作為關(guān)鍵詞進(jìn)行檢索。3相關(guān)信息反饋檢索希望得到類似檢索結(jié)果中某一結(jié)果而采取的方法,如Google中的“類似網(wǎng)頁(yè)”,Excite中的“searchformoredocumentslikethisone”,Lycos中的“MoreLikeThis”.4模糊檢索允許被檢索信息和檢索詞之間存在一定的差異。如監(jiān)獄管理、管理監(jiān)獄、監(jiān)獄的管理等。也包括用戶的輸入錯(cuò)誤,以及格某些詞匯在不同國(guó)家的不同形式,例如“catalog”、“catalogue”.5概念檢索借助于一個(gè)同義詞表對(duì)輸入的檢索詞自動(dòng)添加同一概念的詞匯集合(同義、近義、廣義和狹義詞等),有助于提高查全率,但不會(huì)降低查準(zhǔn)率。例如檢索“automobile”、能同時(shí)包含“van”“bus”、“automobile”、“car”、“truck”,等任一詞匯的結(jié)果。又如在檢索“公共交通”這一概念時(shí),有關(guān)“公共汽車”或“地鐵”的信息也能隨之檢索到。例如Excite.需要指出的是:
1)檢索技術(shù)的逐步改善能在一定程度上提高查準(zhǔn)率,卻減弱了檢、索詞的易用性。
2)上述技術(shù)中,布爾檢索、加權(quán)檢索、限制檢索和按相關(guān)度排列檢索結(jié)果是主要的檢索技術(shù)。
3)選擇一定數(shù)量、質(zhì)量高的檢索工具,在各自的檢索結(jié)果中選定10%(結(jié)果羅列前面的),整理去重,無(wú)疑是一個(gè)提高檢索效果的好辦法。聯(lián)機(jī)公共書(shū)目檢索(OPAC)聯(lián)機(jī)公共書(shū)目檢索系統(tǒng)是供讀者查詢館藏?cái)?shù)據(jù)的聯(lián)機(jī)檢索系統(tǒng)。特點(diǎn):數(shù)據(jù)豐富、界面友好、檢索方式靈活、服務(wù)周到。檢索字段選擇檢索字段選擇布爾邏輯舉例檢索符號(hào)說(shuō)明檢索模式選擇搜索引擎概述
隨著因特網(wǎng)的迅猛發(fā)展、WEB信息的增加,用戶要在信息海洋里查找信息,就象大海撈針一樣,搜索引擎技術(shù)恰好解決了這一難題。搜索引擎以一定的策略在互聯(lián)網(wǎng)中搜集、發(fā)現(xiàn)信息,對(duì)信息進(jìn)行理解、提取、組織和處理,并為用戶提供檢索服務(wù),從而起到信息導(dǎo)航的目的。搜索引擎提供的導(dǎo)航服務(wù)已經(jīng)成為互聯(lián)網(wǎng)上非常重要的網(wǎng)絡(luò)服務(wù),搜索引擎站點(diǎn)也被美譽(yù)為“網(wǎng)絡(luò)門(mén)戶”。因特網(wǎng)數(shù)據(jù)庫(kù)信息用戶搜索引擎搜索引擎的工作原理:雙向的服務(wù)器結(jié)構(gòu)檢索結(jié)果檢索詞檢索軟件搜索所有的網(wǎng)頁(yè)搜索相關(guān)的網(wǎng)頁(yè)編制進(jìn)數(shù)據(jù)庫(kù)RobotSpider
按照信息搜集方法和服務(wù)提供方式的不同,搜索引擎系統(tǒng)可以分為三大類:1.目錄式搜索引擎:以人工方式或半自動(dòng)方式搜集信息,由編輯員查看信息之后,人工形成信息摘要,并將信息置于事先確定的分類框架中。信息大多面向網(wǎng)站,提供目錄瀏覽服務(wù)和直接檢索服務(wù)。該類搜索引擎因?yàn)榧尤肓巳说闹悄?,所以信息?zhǔn)確、導(dǎo)航質(zhì)量高,缺點(diǎn)是需要人工介入、維護(hù)量大、信息量少、信息更新不及時(shí)。這類搜索引擎的代表是:Yahoo、LookSmart、OpenDirectory、GoGuide等。2.機(jī)器人搜索引擎:由一個(gè)稱為蜘蛛(Spider)的機(jī)器人程序以某種策略自動(dòng)地在互聯(lián)網(wǎng)中搜集和發(fā)現(xiàn)信息,由索引器為搜集到的信息建立索引,由檢索器根據(jù)用戶的查詢輸入檢索索引庫(kù),并將查詢結(jié)果返回給用戶。服務(wù)方式是面向網(wǎng)頁(yè)的全文檢索服務(wù)。該類搜索引擎的優(yōu)點(diǎn)是信息量大、更新及時(shí)、毋需人工干預(yù),缺點(diǎn)是返回信息過(guò)多,有很多無(wú)關(guān)信息,用戶必須從結(jié)果中進(jìn)行篩選。這類搜索引擎的代表是:AltaVista、NorthernLight、Excite、Infoseek、Inktomi、FAST、Lycos、Google;國(guó)內(nèi)代表為:“天網(wǎng)”、悠游、OpenFind等。多元搜索引擎的信息檢索
用戶在實(shí)際使用中,為了滿足搜索的查全率,往往需要同時(shí)使用多個(gè)具有不同數(shù)據(jù)收集范圍、具有不同搜索特色的搜索引擎。此外,每個(gè)搜索引擎都有自己的搜索規(guī)則和使用不同的檢索符號(hào),使得信息用戶必須記住那些繁瑣的檢索符號(hào),為此人們往往只是使用自己最熟悉的搜索引擎。正是在這樣的背景下,為了便于用戶在各個(gè)搜索引擎間進(jìn)行靈活快捷的切換,產(chǎn)生了多元搜索引擎。多元搜索引擎沒(méi)有自己的網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù),只提供一個(gè)集成的查詢界面,用戶的查詢要求經(jīng)它加工處理后轉(zhuǎn)發(fā)給相應(yīng)的多個(gè)相關(guān)的獨(dú)立搜索引擎完成(這個(gè)過(guò)程可以是自動(dòng)完成,也可以是由用戶個(gè)性化選擇來(lái)完成),返回的檢索結(jié)果經(jīng)它處理后以統(tǒng)一的顯示格式提供給用戶。常用的國(guó)外多元搜索引擎有:
Mamma、AskJeeves、Search、Profusion、ByteSearchMetaGrawler、SavvySearch等。搜索引擎的選擇對(duì)搜索過(guò)程的分析展示單個(gè)搜索引擎A多元搜索引擎的主頁(yè)單個(gè)搜索引擎B單個(gè)搜索引擎C……單個(gè)搜索引擎N
把多個(gè)搜索引擎的檢索結(jié)果綜合起來(lái),從中選取與用戶查詢相關(guān)度較大的,排除掉重復(fù)的和相關(guān)度較低的檢索結(jié)果,并將檢索結(jié)果以統(tǒng)一的界面呈現(xiàn)給用戶。
哈!我再以不必為每種搜索引擎不同的搜索規(guī)則而頭痛了!多元搜索引擎的工作原理特點(diǎn):
1)無(wú)需數(shù)據(jù)庫(kù)的建立和維護(hù),集中精力投入檢索結(jié)果的處理;
2)避免在多個(gè)系統(tǒng)之間的切換、重復(fù)輸入檢索要求;
3)省略各搜索引擎在檢索語(yǔ)法、規(guī)則、顯示格式上的差異;
4)可以根據(jù)自己的檢索習(xí)慣配置成具有個(gè)人風(fēng)格的Web檢索工具
5)實(shí)現(xiàn)了檢索系統(tǒng)和索引數(shù)據(jù)庫(kù)的分離類型:
1)并行處理:將用戶的查詢要求同時(shí)轉(zhuǎn)送給它鏈接的多個(gè)獨(dú)立搜索引擎進(jìn)行查詢處理,可以提高查詢的效率,是主要的模式。
2)串行處理:它將用戶的查詢要求依次轉(zhuǎn)送給所鏈接的每一個(gè)獨(dú)立的搜索引擎進(jìn)查詢處理。人工智能技術(shù)在信息檢索上的運(yùn)用引言:信息檢索的基本原理就是要完成對(duì)信息集合和需求集合的匹配與選擇。一個(gè)完整的信息檢索系統(tǒng),其基礎(chǔ)工作是:1)對(duì)信息進(jìn)行采集、標(biāo)引、存貯、處理,形成信息集合體,如數(shù)據(jù)庫(kù)等(見(jiàn)圖中“信息處理部分”);2)提供能表達(dá)用戶信息需求的檢索模型機(jī)制,便于用戶清楚、準(zhǔn)確地以此來(lái)描述自己的信息需求,進(jìn)而形成需求集合,如提供布爾邏輯算符、截詞符、權(quán)值等(見(jiàn)圖中“信息庫(kù)部分”);3)
以優(yōu)良的匹配選擇算法完成信息和信息需求的匹配,選擇與匹配機(jī)制是信息檢索系統(tǒng)中匹配與查找技術(shù)的集合,經(jīng)過(guò)匹配后的結(jié)果提供給用戶(見(jiàn)圖中“選擇與匹配機(jī)制部分”);4)表達(dá)用戶信息需求,形成提問(wèn)模型;把檢索結(jié)果進(jìn)行適當(dāng)加工后送給用戶;用戶對(duì)檢出的結(jié)果進(jìn)行相關(guān)性判斷,調(diào)整或修改檢索策略,返回反饋信息,重新檢索,直到檢出滿意的結(jié)果為止(見(jiàn)圖中“人—機(jī)接口部分”)。信息處理部分信息源信息標(biāo)引
信息庫(kù)部分?jǐn)?shù)據(jù)庫(kù)管理系統(tǒng)數(shù)據(jù)庫(kù)選擇與匹配機(jī)制人—機(jī)接口部分構(gòu)造提問(wèn)模型構(gòu)造提問(wèn)模型
檢索結(jié)果加工
數(shù)據(jù)庫(kù)從以上結(jié)構(gòu)分析中,可以看出傳統(tǒng)信息檢索系統(tǒng)的功能特點(diǎn)1)在文本處理部分所采用的語(yǔ)言是人工標(biāo)引語(yǔ)言,對(duì)文本信息也只是特征描述,沒(méi)有涉及到語(yǔ)義層次;2)在人—機(jī)接口部分,用戶也不能使用自然語(yǔ)言來(lái)表達(dá)自己的信息需求,而是使用與所用標(biāo)引語(yǔ)言相符的表達(dá)方式;3)用戶需求的表達(dá)完全依靠用戶本身對(duì)自己需求的描述,系統(tǒng)只是被動(dòng)地、僵硬地執(zhí)行命令;4)在選擇與匹配部分,系統(tǒng)只是機(jī)械地把用戶需求與信息集合進(jìn)行相符性比較,無(wú)任何創(chuàng)意、變通。反饋
人工智能實(shí)質(zhì)上是模仿人的大腦而展開(kāi)的,其特色在于知識(shí)的邏輯推理,即以較完整的推理系統(tǒng)為核心,對(duì)知識(shí)進(jìn)行組織、再生和利用?;谝?guī)則的推理思想是人工智能的本質(zhì)特征。以人工智能方法所建立的系統(tǒng)的特色就在于對(duì)知識(shí)的邏輯推理。它以較完整的推理體系為核心,實(shí)現(xiàn)對(duì)知識(shí)的組織、再生和利用?;谝?guī)則的推理思想就是其中的一個(gè)典型。兩者的共同點(diǎn):
檢索系統(tǒng)目前還沒(méi)有達(dá)到在知識(shí)層次上進(jìn)行加工、處理,但它至少也是在通過(guò)間接的途徑實(shí)現(xiàn)對(duì)知識(shí)的處理。兩者在對(duì)知識(shí)的處理中均以知識(shí)的獲取、存儲(chǔ)、利用為其主要研究?jī)?nèi)容,這就為構(gòu)造人工智能技術(shù)與信息檢索技術(shù)相融合提供了結(jié)合點(diǎn)。兩者的差異:主要表現(xiàn)在對(duì)知識(shí)處理的理論方法和側(cè)重點(diǎn)有所不同。對(duì)于信息檢索而言,信息檢索系統(tǒng)具有智能特性,對(duì)完成信息檢索系統(tǒng)的最終目標(biāo)——最好地滿足用戶信息需求,將無(wú)疑具有質(zhì)的幫助,這也是信息檢索系統(tǒng)的發(fā)展趨勢(shì)——智能信息檢索系統(tǒng)。l
智能檢索系統(tǒng)與傳統(tǒng)檢索系統(tǒng)的比較
1)傳統(tǒng)的信息檢索系統(tǒng)要求用戶將其信息需求用規(guī)范化的語(yǔ)言來(lái)表達(dá),并以嚴(yán)格的格式輸入系統(tǒng);
而智能信息檢索系統(tǒng)能理解、分析用戶的自然語(yǔ)言提問(wèn),并產(chǎn)生合適的提問(wèn)模型,用戶與系統(tǒng)間可以進(jìn)行自由、充分的反饋交流,直到獲得滿意的結(jié)果。
2)傳統(tǒng)的信息檢索系統(tǒng)中,信息標(biāo)識(shí)是根據(jù)詞頻統(tǒng)計(jì)得出的,標(biāo)引時(shí)只利用了信息的字符形式,未涉及信息的內(nèi)容本身,所以標(biāo)識(shí)往往不能反映信息的真實(shí)內(nèi)容;
而智能信息檢索系統(tǒng)具有處理自然語(yǔ)言文本的能力,它利用知識(shí)庫(kù)中的有關(guān)知識(shí)進(jìn)行語(yǔ)法、語(yǔ)義分析,從內(nèi)容上真正理解并準(zhǔn)確描述信息所論述的主題。
3)傳統(tǒng)的信息檢索系統(tǒng)不能夠很好地處理主題概念、標(biāo)識(shí)之間的各種聯(lián)系和因果關(guān)系;
而智能信息檢索系統(tǒng)則可以在知識(shí)庫(kù)中使用語(yǔ)義網(wǎng)絡(luò)、框架等各種知識(shí)表示方法來(lái)充分體現(xiàn)這些關(guān)系。
4)傳統(tǒng)的信息檢索系統(tǒng)的檢索結(jié)果只是一些信息線索,指引用戶去獲得原始信息,
而智能信息檢索系統(tǒng)可以將部分信息內(nèi)容以知識(shí)形態(tài)存放于目標(biāo)知識(shí)庫(kù)中,通過(guò)對(duì)知識(shí)庫(kù)的搜索和推理,得出用戶能夠直接加以利用的信息。
5)傳統(tǒng)的信息檢索系統(tǒng)缺乏適當(dāng)?shù)娜藱C(jī)交互。這種交互只限于“YES”、“NO”或“菜單式”。信息檢索實(shí)質(zhì)上是用戶詢問(wèn)和信息集合之間的匹配,用戶的參與應(yīng)該是整個(gè)信息檢索過(guò)程的中心,只有用戶充分地參與了信息檢索過(guò)程,才能取得滿意的效果。
而智能信息檢索系統(tǒng)采用自然語(yǔ)言實(shí)現(xiàn)人機(jī)通訊,檢索過(guò)程中用戶和計(jì)算機(jī)之間可以不斷地進(jìn)行自由、充分、多方面的反饋交流,具有較高的人機(jī)交互水平。l
智能信息檢索系統(tǒng)的類型
1)智能接口檢索系統(tǒng)利用人工智能技術(shù),改善現(xiàn)行檢索系統(tǒng)的接口,建立智能接口系統(tǒng)或稱智能中間人系統(tǒng)(見(jiàn)下圖)。對(duì)用戶來(lái)說(shuō),使人—機(jī)界面友好,可以主動(dòng)地幫助用戶選詞、選庫(kù),構(gòu)造提問(wèn)模型,優(yōu)化檢索策略,并進(jìn)一步根據(jù)用戶的反饋信息調(diào)整檢索策略,以獲得更優(yōu)的檢索效果;對(duì)系統(tǒng)標(biāo)引人員來(lái)說(shuō),可以通過(guò)智能接口對(duì)原始信息進(jìn)行加工處理,保證信息的質(zhì)量,使其充足且不失真。而完全基于知識(shí)表示的智能信息系統(tǒng)則完全拋棄原有的存儲(chǔ)方式,而建立起一種用知識(shí)表示為集合的知識(shí)庫(kù),系統(tǒng)的服務(wù)項(xiàng)目也不再是間接的知識(shí)服務(wù)而是直接的、針對(duì)問(wèn)題或任務(wù)的服務(wù)。該知識(shí)庫(kù)以其特有的知識(shí)庫(kù)管理系統(tǒng)作為支持,對(duì)它的利用可以是直接的,也可以通過(guò)一定的推理來(lái)間接地利用。
智能接口檢索系統(tǒng)主要由三部分組成:
①
智能接口部分智能接口是用戶與系統(tǒng)之間的通道。它的主要功能是對(duì)自然語(yǔ)言查詢的處理;作為智能終端建立用戶興趣檔案;加工檢索結(jié)果。
②
知識(shí)庫(kù)部分知識(shí)庫(kù)是智能檢索系統(tǒng)的核心。它也由三個(gè)子系統(tǒng)構(gòu)成、知識(shí)庫(kù)系統(tǒng)、數(shù)據(jù)庫(kù)系統(tǒng)、檢索推理系統(tǒng)。
③信息處理部分信息處理系統(tǒng)就是利用計(jì)算機(jī)自動(dòng)處理自然語(yǔ)言形式的信息輸入。它利用知識(shí)庫(kù)中的語(yǔ)言學(xué)知識(shí)、科學(xué)知識(shí)和其他知識(shí),對(duì)信息進(jìn)行語(yǔ)法、語(yǔ)義分析,從內(nèi)容上理解信息所論述的主題,并把它們表示成知識(shí)庫(kù)中的知識(shí)和數(shù)據(jù)庫(kù)中的數(shù)據(jù)元素,不斷地豐富目標(biāo)知識(shí)庫(kù)和數(shù)據(jù)庫(kù)。信息處理部分信息源自然語(yǔ)言標(biāo)引
數(shù)據(jù)庫(kù)部分?jǐn)?shù)據(jù)庫(kù)管理系統(tǒng)數(shù)據(jù)庫(kù)推理與檢索機(jī)制人機(jī)接口部分
數(shù)據(jù)庫(kù)
知識(shí)庫(kù)部分知識(shí)庫(kù)管理系統(tǒng)數(shù)據(jù)庫(kù)知識(shí)庫(kù)構(gòu)造提問(wèn)模型檢索結(jié)果加工自然語(yǔ)言反饋人工智能與檢索系統(tǒng)的結(jié)合智能接口系統(tǒng):CANSEARCH系統(tǒng)案例分析這是連接于聯(lián)機(jī)檢索系統(tǒng)MEDLINE的中間人系統(tǒng)。它不要求用戶具有特定的知識(shí)或經(jīng)過(guò)特殊訓(xùn)練,也不需要任何中間人(如圖書(shū)館員)的幫助,可供醫(yī)生描述提問(wèn),檢索有關(guān)癌癥方面的文獻(xiàn)。
它采用專家系統(tǒng)技術(shù)和抽詞空間原理,應(yīng)用規(guī)則表示法,利用觸感終端與菜單選擇的交互方式,使用PROLOG邏輯程序設(shè)計(jì)語(yǔ)言的編程方法,在美國(guó)利茲大學(xué)醫(yī)學(xué)圖書(shū)館的腫瘤信息服務(wù)部實(shí)現(xiàn)。它具有良好的檢索專家的檢索經(jīng)驗(yàn)與技術(shù),將之納入檢索系統(tǒng),可使具有專業(yè)知識(shí)的人無(wú)須為檢索知識(shí)與技巧而鎖眉,從而使檢索具有高度的友好性與易用性。比如,它能模式化人類專家的查找處理過(guò)程,實(shí)現(xiàn)許多人類輔助功能,諸如提供主題專門(mén)知識(shí)、輔助用戶選擇檢索詞、消除檢索詞間的不一致性及其它錯(cuò)誤,根據(jù)用戶的要求形成查找描述,基于部分結(jié)果和評(píng)價(jià),修改查找描述,等等。智能接口系統(tǒng):CANSEARCH系統(tǒng)評(píng)價(jià)
由于無(wú)須改變?cè)行畔⑾到y(tǒng)的存貯方式及結(jié)構(gòu)方式,而只是在原有系統(tǒng)的基礎(chǔ)上,加入一個(gè)知識(shí)庫(kù)及其管理系統(tǒng),通過(guò)該知識(shí)庫(kù)中的檢索專家的知識(shí),并依此展開(kāi)推理,從而使信息檢索系統(tǒng)具有智能接口的性質(zhì),因此,簡(jiǎn)便易行,開(kāi)發(fā)費(fèi)用不大,而且能充分利用現(xiàn)有檢索系統(tǒng)的資源,這是其優(yōu)點(diǎn)所在。另一方面,由于這種結(jié)合方式的數(shù)據(jù)來(lái)源仍是原有數(shù)據(jù)庫(kù),而這種庫(kù)又非智能數(shù)據(jù)庫(kù),故提供給用戶的數(shù)據(jù)也只能是現(xiàn)有數(shù)據(jù)庫(kù)中固有的數(shù)據(jù),不可能創(chuàng)造出新數(shù)據(jù)供用戶使用,所以這種信息檢索系統(tǒng)的智能因素是非常有限的。GeneCards-Web網(wǎng)上智能檢索系統(tǒng)案例分析包含有HUGO/GDB(HumanGenomeOrganization/GenomeDatabase)人類基因有關(guān)數(shù)據(jù)的Web網(wǎng)上智能檢索系統(tǒng),由以色列的Weizmann研究所基因組研究中心和生物信息學(xué)中心共同開(kāi)發(fā),到2002年止,共收錄了近萬(wàn)種基因的有關(guān)數(shù)據(jù),其特點(diǎn)有以下幾個(gè)方面:1)智能檢索接口系統(tǒng)它直接向用戶提供檢索策略的咨詢和檢索后的反饋調(diào)節(jié)如系統(tǒng)在你開(kāi)始進(jìn)行檢索前,提供檢索示例幫助你確定檢索策略;如你輸入一條檢索條目,在系統(tǒng)中檢索不到任何結(jié)果,系統(tǒng)將進(jìn)一步提供改進(jìn)檢索策略的方案,和/或直接鏈接到其他與你檢索有關(guān)的數(shù)據(jù)庫(kù)的檢索引擎,并提供有關(guān)數(shù)據(jù)庫(kù)相關(guān)數(shù)據(jù)的簡(jiǎn)要說(shuō)明。例如你檢索有關(guān)乳腺癌(Breastcancer)基因的研究情況,用戶將得到如下服務(wù):1)提供檢索策略示例,供用戶參考當(dāng)用戶進(jìn)入系統(tǒng)(可從http://bioinfor.weizmann.ac.il/cards進(jìn)入)時(shí),系統(tǒng)提供關(guān)于檢索策略的各種示例,供用戶參考,如TP54和BRCA1基因的標(biāo)準(zhǔn)檢索示例,以及“apolipoproteinANDmRNAediting”和“Stupidity”等多種示例供用戶參考;2)輔助用戶選詞、選庫(kù)、選擇檢索途徑和構(gòu)造檢索式等例如,當(dāng)用戶輸入“breastcancer”進(jìn)行檢索時(shí),系統(tǒng)將返回該查詢的零匹配的結(jié)果,“GuidanceSystem”提供建議:檢查“cancer”的拼寫(xiě)方法,并提供相關(guān)的可供擴(kuò)檢的詞,如“caorcan”等等;系統(tǒng)建議你修改檢索策略后,再進(jìn)一步查詢;3)提供與其它數(shù)據(jù)庫(kù)的動(dòng)態(tài)鏈接如檢索“stupidity”,系統(tǒng)提示GeneCards未檢索到有關(guān)數(shù)據(jù),但它提供了與其它數(shù)據(jù)庫(kù)的鏈接,如與NCBI’SMEDLINE的鏈接,如選擇相應(yīng)的項(xiàng)目,將立刻檢索出相應(yīng)的文獻(xiàn),現(xiàn)可檢索到文獻(xiàn)15篇。使用戶在利用多個(gè)數(shù)據(jù)庫(kù)時(shí),如同使用一個(gè)數(shù)據(jù)庫(kù)一樣。2)直接提供有關(guān)的知識(shí)信息,而不是簡(jiǎn)單讓用戶獲得文獻(xiàn)源它利用其具有處理自然語(yǔ)言文本的能力,對(duì)從其它數(shù)據(jù)庫(kù)中自動(dòng)提取的文本自動(dòng)地進(jìn)行語(yǔ)法和語(yǔ)義分析,對(duì)有關(guān)基因和相應(yīng)疾病的各個(gè)方面進(jìn)行概括性描述,為用戶提供相應(yīng)的知識(shí)信息。如你檢索“BRCA1”基因,你將得到有關(guān)該基因的功能和亞細(xì)胞位置,以及該基因相應(yīng)疾病的描述,同時(shí)提供該基因的染色體位點(diǎn),并提供該基因在臨床方面的應(yīng)用介紹。這樣用戶就象翻閱百科全書(shū)一樣,可以直接獲得大量的知識(shí)信息,而其內(nèi)容又是最新的。3)Web網(wǎng)上多數(shù)據(jù)庫(kù)的動(dòng)態(tài)鏈接當(dāng)用戶進(jìn)行檢索時(shí),該系統(tǒng)自動(dòng)地與這些數(shù)據(jù)庫(kù)進(jìn)行鏈接,同時(shí)從這些數(shù)據(jù)庫(kù)中提取與檢索提問(wèn)相匹配的數(shù)據(jù),返回相應(yīng)各種數(shù)據(jù)的概要說(shuō)明,用戶只需選擇相應(yīng)的說(shuō)明項(xiàng),便可獲得
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 無(wú)人機(jī)在工程測(cè)量中的應(yīng)用
- 沈陽(yáng)理工大學(xué)《中國(guó)文化概論》2022-2023學(xué)年第一學(xué)期期末試卷
- 百貨公司平整施工合同
- 攝影棚租賃合同自行布置指南
- 污水處理工程規(guī)劃合同
- 智能化交通監(jiān)控施工合同
- 耐干燥木地板施工合同
- 汽車制造保溫施工合同
- 網(wǎng)絡(luò)加速服務(wù)器租賃合同范本
- 石墨礦開(kāi)采土方施工合同
- 二年級(jí)排球教案
- 小數(shù)乘除法豎式計(jì)算專項(xiàng)練習(xí)題大全(每日一練共15份)
- 天津市和平區(qū)2024-2025學(xué)年九年級(jí)上學(xué)期期中考試英語(yǔ)試題
- 2024版抗菌藥物DDD值速查表
- 小學(xué)二年級(jí)數(shù)學(xué)上冊(cè)期中試卷(全套)
- DB11T 1580-2018 生產(chǎn)經(jīng)營(yíng)單位安全生產(chǎn)應(yīng)急資源調(diào)查規(guī)范
- 各省中國(guó)鐵路限公司2024招聘(目前38183人)高頻難、易錯(cuò)點(diǎn)500題模擬試題附帶答案詳解
- 猜想04整式的乘法與因式分解(易錯(cuò)必刷30題10種題型專項(xiàng)訓(xùn)練)
- 大學(xué)實(shí)訓(xùn)室虛擬仿真平臺(tái)網(wǎng)絡(luò)VR實(shí)訓(xùn)室方案(建筑學(xué)科)
- 體育賽事組織與執(zhí)行手冊(cè)
- 北師大版(2024新版)七年級(jí)上冊(cè)數(shù)學(xué)期中學(xué)情評(píng)估檢測(cè)試卷(含答案解析)
評(píng)論
0/150
提交評(píng)論