版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第三章計算機(jī)檢索基礎(chǔ)知識中國民航大學(xué)圖書館主要內(nèi)容一、計算機(jī)檢索概述二、信息存儲與數(shù)據(jù)庫結(jié)構(gòu)三、檢索語言與檢索技術(shù)四、檢索的基本程序1.計算機(jī)檢索概述計算機(jī)檢索原理計算機(jī)檢索系統(tǒng)的組成計算機(jī)信息檢索的發(fā)展檢索系統(tǒng)的類型檢索原理廣義的文獻(xiàn)信息檢索,包括文獻(xiàn)信息存儲和文獻(xiàn)信息檢索兩個過程。在存儲信息時,信息著錄和標(biāo)引人員首先對原始信息進(jìn)行主題分析,把原始信息中包含的信息內(nèi)容分析出來,形成若干能代表該原始信息主題的概念,并用檢索語言的語詞(即,標(biāo)引標(biāo)識,包括主題詞和分類號等)把這些概念標(biāo)識出來,然后按照一定規(guī)則存入檢索工具或檢索系統(tǒng)。用戶檢索時,首先要對檢索課題進(jìn)行主題內(nèi)容分析,明確所涉及的學(xué)科范疇、檢索要求及檢索范圍,并形成若干代表檢索課題需要的概念,把這些概念轉(zhuǎn)換成檢索語言的語詞(即,檢索標(biāo)識,包括主題詞和分類號等),然后從檢索工具或檢索系統(tǒng)中查找含有該檢索標(biāo)識的信息,從而獲得所需的信息。什么是著錄?什么是標(biāo)引?著錄是對信息的外表特征和內(nèi)容特征加以簡單明確的描述標(biāo)引是對信息的內(nèi)容給出分類號和主題詞主題詞分類號主題詞分類號檢
索
原
理
示
意
圖信息檢索原理簡言之,信息檢索原理就是將檢索標(biāo)識與存儲在檢索工具或檢索系統(tǒng)中的標(biāo)引標(biāo)引標(biāo)識進(jìn)行比較,兩者一致或者信息標(biāo)引的標(biāo)識包含著檢索標(biāo)識,則含有該標(biāo)識的信息就從檢索工具或系統(tǒng)輸出。計算機(jī)檢索是計算機(jī)代替人工檢索的匹配過程。計算機(jī)一方面接受檢索提問表達(dá)式,另一方面從數(shù)據(jù)庫中讀取信息記錄,然后在兩者之間進(jìn)行匹配運(yùn)算,如果比較的結(jié)果一致,那么這條信息就算命中,如果比較的結(jié)果不一致,則這條信息就不被輸出。計算機(jī)信息檢索特點速度快、效率高檢索范圍廣不受時空的限制數(shù)據(jù)更新頻率高輔助功能完善計算機(jī)信息檢索系統(tǒng)組成計算機(jī)(服務(wù)器和終端):是檢索系統(tǒng)的核心部分,包括軟件和硬件。通過一定的檢索軟件,它們能夠進(jìn)行信息的存儲、處理、檢索以及整個系統(tǒng)的運(yùn)行和管理。通訊網(wǎng)絡(luò):通信網(wǎng)絡(luò)是聯(lián)系計算機(jī)系統(tǒng)和檢索終端設(shè)備的橋梁,起著傳遞信息的作用。檢索網(wǎng)絡(luò)所用的通信線路,一般是公用電話線或?qū)S镁€,國際聯(lián)機(jī)檢索系統(tǒng)則是由通信衛(wèi)星和海底電纜構(gòu)成的通信網(wǎng)絡(luò)。數(shù)據(jù)庫:是在計算機(jī)存儲設(shè)備上按一定方式存儲的相互關(guān)聯(lián)的數(shù)據(jù)集合。是檢索系統(tǒng)的信息源,也是用戶檢索的對象。計算機(jī)信息檢索的發(fā)展階段脫機(jī)批處理檢索階段(1954-1964)聯(lián)機(jī)檢索階段(1965-)光盤檢索階段(1980-)網(wǎng)絡(luò)化檢索階段(1995-)脫機(jī)檢索(off-lineretrieval)在利用計算機(jī)進(jìn)行信息檢索的早期,人們只是用單臺計算機(jī)的輸入輸出裝置進(jìn)行檢索,用磁帶作存儲介質(zhì),一般為連續(xù)的順序檢索方式。檢索部門把許多用戶的檢索提問匯總到一起,進(jìn)行批量檢索,然后把檢索結(jié)果通知各個用戶,用戶不直接接觸計算機(jī)。聯(lián)機(jī)檢索(on-lineretrieval)60年代末,由于計算機(jī)軟硬件技術(shù)的不斷提高,出現(xiàn)了一臺主機(jī)帶多個終端的聯(lián)機(jī)信息檢索系統(tǒng)。聯(lián)機(jī)檢索是用戶利用終端設(shè)備,通過通信網(wǎng)絡(luò)或通信線路與檢索系統(tǒng)聯(lián)機(jī),進(jìn)行“人機(jī)對話”,從檢索中心的數(shù)據(jù)庫及時查找所需要的文獻(xiàn)信息過程。80年代,發(fā)達(dá)國家的一些計算機(jī)信息聯(lián)機(jī)檢索系統(tǒng),通過衛(wèi)星通信網(wǎng)絡(luò)和計算機(jī)專用終端,在世界范圍內(nèi)提供聯(lián)機(jī)信息檢索服務(wù),形成國際聯(lián)機(jī)檢索服務(wù)業(yè),聯(lián)機(jī)檢索服務(wù)是計算機(jī)檢索走向?qū)嵱没⒁?guī)?;a(chǎn)業(yè)化的重要的標(biāo)志。光盤數(shù)據(jù)庫檢索光盤
是80年代發(fā)展起來的激光存儲載體,繼紙張感光材料、磁性載體之后問世的又一種新型的信息存儲介質(zhì)。能存儲數(shù)據(jù)、文字、圖形、圖像、聲音、動畫等各種信息。一張普通的光盤、信息存儲量約為550兆。按照光盤讀取數(shù)據(jù)的性能來劃分,有以下三種類型:只讀光盤(CD-ROM)
一次性寫入光盤(CD-WORM)
可擦寫光盤(CD-ERM)網(wǎng)絡(luò)化檢索(internationalon-lineretrieval)網(wǎng)絡(luò)信息檢索的特征
存取范圍覆蓋Internet上的幾乎所有資源
傳統(tǒng)檢索方法與全新檢索技術(shù)相結(jié)合
用戶界面友好且操作方便
具備良好的導(dǎo)航和編輯功能
網(wǎng)絡(luò)透明度高
國內(nèi)計算機(jī)信息檢索發(fā)展階段1975年,從國外引進(jìn)數(shù)據(jù)庫開展機(jī)檢服務(wù);1980年,建立國際聯(lián)機(jī)終端開展檢索服務(wù);20世紀(jì)80年代中后期,自建數(shù)據(jù)庫;90年代初,發(fā)展光盤檢索;90年代中期,Internet網(wǎng)絡(luò)化檢索階段。2.信息存儲與數(shù)據(jù)庫結(jié)構(gòu)
信息源收集標(biāo)引與著錄數(shù)據(jù)庫及其編排結(jié)構(gòu)信息源收集1)確定入選信息的專業(yè)范圍。信息的專業(yè)性體現(xiàn)了數(shù)據(jù)庫的特色與權(quán)威性。2)確定信息的文獻(xiàn)類型。如期刊、會議記錄、學(xué)位論文、標(biāo)準(zhǔn)等。3)確定信息的載體。如縮微制品、光盤、磁帶、磁盤的信息。4)確定信息的加工深度。對于文獻(xiàn)數(shù)據(jù)庫而言,加工深度表現(xiàn)為三個層次:題錄、文摘、全文。5)確定信息的起始時間。收集的信息時間跨越范圍需要根據(jù)信息的特點合理選擇,回溯年限長,信息時效性就差,但歷史性就越強(qiáng)。標(biāo)引與著錄標(biāo)引:指對信息內(nèi)容特征進(jìn)行分析,賦予信息以檢索標(biāo)識的過程。標(biāo)引一般包括主題標(biāo)引和分類標(biāo)引。著錄:對信息外部特征(如文獻(xiàn)的篇名、著者、出處、出版時間等)進(jìn)行分析、選擇與記錄的過程。
對信息內(nèi)容特征進(jìn)行標(biāo)引和對信息外部特征進(jìn)行著錄,形成一條信息題錄,并根據(jù)信息內(nèi)容作出摘要,然后將上述檢索標(biāo)識與著錄項目一并填入工作單,就完成了數(shù)據(jù)庫建設(shè)的“數(shù)據(jù)前處理”工作。數(shù)據(jù)庫及其編排結(jié)構(gòu)數(shù)據(jù)庫的類型數(shù)據(jù)庫的構(gòu)成數(shù)據(jù)庫的記錄格式數(shù)據(jù)庫的編排結(jié)構(gòu)數(shù)據(jù)庫的類型按照信息處理層次劃分:書目數(shù)據(jù)庫(BibliographicDatabase)存儲對文獻(xiàn)信息進(jìn)行加工后的書目數(shù)據(jù)。如:圖書館館藏目錄或聯(lián)機(jī)公共檢索目錄等。文摘數(shù)據(jù)庫(AbstractDatabase)存儲原文經(jīng)過濃縮后得到的文摘、索引等信息。
–主要提供各種文獻(xiàn)信息的提名、責(zé)任者、原文出處、主題詞及文摘,一般不提供全文。
–如WebofScience等。全文數(shù)據(jù)庫(FullTextDatabase)存儲的是原始文獻(xiàn)的全文,如雜志論文、報紙新聞、法院案例等。全文檢索可直接獲取原始資料,而不是書目檢索時的線索,提高了用戶的檢索效率。如,萬方數(shù)據(jù)庫、維普數(shù)據(jù)庫等全文數(shù)據(jù)庫。數(shù)據(jù)庫的構(gòu)成記錄(Record)是構(gòu)成數(shù)據(jù)庫的一個完整的信息單元,每條記錄描述了原始信息的外部和內(nèi)部特征。書目數(shù)據(jù)庫中的一條記錄通常代表一篇文獻(xiàn),其它類型數(shù)據(jù)庫中的記錄則是某種信息單元。字段(Field)
–
比記錄更小的單位是字段,是組成記錄的數(shù)據(jù)項目。
–
例如在書目數(shù)據(jù)庫CBMdisc中一條記錄代表某一篇文獻(xiàn),在這條記錄中有中文題名(TI)、著者(AU)、出處(SO)、主題詞(MH)等字段。數(shù)據(jù)庫的編排結(jié)構(gòu)數(shù)據(jù)庫的編排結(jié)構(gòu),就是計算機(jī)檢索系統(tǒng)中數(shù)據(jù)庫的每條記錄數(shù)據(jù)項的編排方式,有順排文檔和倒排文檔兩種。1)順排文檔以記錄為單位,按記錄的入藏順序號從小到大排列。2)倒排文檔是從順排文檔中抽取有檢索意義的檢索標(biāo)識,如主題詞、著者姓名、篇名等,并按某種順序排列,同時在檢索標(biāo)識后注明入藏順序號。順排文檔與倒排文檔配合使用示意圖檢索“反坦克導(dǎo)彈發(fā)展趨勢”方面的文獻(xiàn)檢索式:反坦克導(dǎo)彈and發(fā)展趨勢數(shù)據(jù)庫的結(jié)構(gòu)若干個記錄構(gòu)成的信息集合稱為文檔。大型的數(shù)據(jù)庫分割成若干文檔。記錄是構(gòu)成數(shù)據(jù)庫的完整的信息單元,每條記錄描述了原始信息的外部特征和內(nèi)部特征。組成記錄的數(shù)據(jù)項目檢索語言與檢索技術(shù)檢索語言
檢索語言就是為溝通文獻(xiàn)標(biāo)引與文獻(xiàn)檢索而編制的人工語言,也是連接信息存儲和檢索兩個過程中標(biāo)引人員與檢索人員雙方思路的渠道,是用于文獻(xiàn)標(biāo)引和檢索提問的約定語言。檢索語言類型示意圖檢索技術(shù)1.布爾邏輯檢索2.位置運(yùn)算檢索3.截詞檢索4.字段限定檢索布爾邏輯檢索(Booleansearching)
在檢索過程中用于表達(dá)詞與詞之間的邏輯關(guān)系的算符,稱為布爾邏輯運(yùn)算符。算符有三種邏輯關(guān)系:邏輯與(AND)、邏輯或(OR)、邏輯非(NOT)。
邏輯與(AND)AANDB:檢索詞A和檢索詞B同時出現(xiàn)在一條記錄中。其作用是縮小檢索范圍,提高查準(zhǔn)率。例如:查有關(guān)“人口控制”的文獻(xiàn),檢索式可寫成:
人口AND控制邏輯或(OR)例如:查有關(guān)計算機(jī)的資料,檢索式可寫成:
計算機(jī)OR電腦AORB:記錄中出現(xiàn)檢索詞A或檢索詞B或兩詞同時出現(xiàn)在一條記錄中。其作用是擴(kuò)大檢索范圍,提高查全率。邏輯非(NOT)ANOTB:記錄必須包含檢索詞A但不能包含檢索詞B。即在含有A檢索詞的文獻(xiàn)中去除含有B檢索詞的文獻(xiàn)。其作用是縮小檢索范圍,提高查準(zhǔn)率。例如:檢索有關(guān)能源方面的文獻(xiàn)信息,但不包括核能,檢索式為:
energyNOTnuclear運(yùn)算順序布爾邏輯算符的運(yùn)算次序:NOT>AND>OR()號里的部分運(yùn)算優(yōu)先例如:(AORD)ANDB表示先執(zhí)行“AORD”的檢索,再與B進(jìn)行AND運(yùn)算。位置檢索使用位置算符是為了表達(dá)各個檢索詞之間的順序與相對位置關(guān)系。位置運(yùn)算符有:(W)、(nW)、(N)、(nN)。
(W)是with的縮寫,(W)算符兩側(cè)的檢索詞之間不得有其他任何字或詞,而且順序不能顛倒,但允許有空格或一個標(biāo)點符號。American()literature。(nW)表示兩側(cè)的檢索詞中間允許插入的詞最多只能有n個,且檢索詞位置不能顛倒。knowledge(1W)economy,會命中knowledgeeconomy或者knowledge-basedeconomy。
(N)是near的縮寫,(N)算符兩側(cè)的檢索詞必須相連,不得插入其他詞,但詞序可以顛倒。chemistry(N)physics,會命中chemistryphysics或者physicschemistry。
(nN)表示允許在此算符兩側(cè)的檢索詞之間最多插入n個詞,但詞序可以顛倒。注意:這是一種可以不依賴主題詞表而直接使用自由詞進(jìn)行檢索的技術(shù)方法。不同的檢索系統(tǒng)其位置算符的表示方法不盡相同。截詞檢索
截詞檢索就是把檢索詞截斷,取其中的一部分,在加上截詞符號一起進(jìn)行檢索。主要用于檢索詞的單復(fù)數(shù)、詞性的詞尾變化、詞根相同的一類詞,以及同一詞的拼法變異等。從本質(zhì)上說,截詞算符是一種邏輯“或”的關(guān)系。
通用的截詞符有:?和*
?代表一個字母,叫做有限截斷;*代表兩個或兩個以上字母,叫做無限截斷。截詞檢索例如:child*,可查到child,children,childish,childhood等所有以child開頭的單詞。按截斷的位置不同,截詞檢索又分為左截斷、右截斷和中間截斷。字段限制限制符in對特定字段進(jìn)行限制檢索,如年份限制檢索、語種限制檢索、文獻(xiàn)類型限制檢索等。如:EnglishinLA要求檢索的文獻(xiàn)為英文文獻(xiàn)。禁用詞(非關(guān)鍵詞)主要有:介詞、冠詞、連接詞、感嘆詞、某些形容詞或副詞以及不能反映文獻(xiàn)的實質(zhì)內(nèi)容,而且在一般文章中非常通用的某些詞。如:方法、問題、報告、研究、探討等。4.檢索的基本程序1.分析檢索課題2.選擇檢索系統(tǒng)及數(shù)據(jù)庫3.確定檢索詞4.構(gòu)建檢索提問式5.上機(jī)檢索并調(diào)整檢索策略6.輸出檢索結(jié)果。1.分析檢索課題(1)弄清用戶信息需求的目的和意圖。(2)分析課題涉及的學(xué)科范圍、主題要求。(3)課題所需信息的內(nèi)容及其特征。(4)課題所需信息的類型,包括文獻(xiàn)類型、出版類型、年代范圍、語種、著者、機(jī)構(gòu)等。(5)課題對查新、查準(zhǔn)、查全的指標(biāo)要求。
2.選擇檢索系統(tǒng)和數(shù)據(jù)庫
在全面分析檢索課題的基礎(chǔ)上,根據(jù)用戶要求得到的信息類型、時間范圍、課題檢索經(jīng)費(fèi)支持等因素綜合考慮后,選擇檢索系統(tǒng)和數(shù)據(jù)庫。
正確選擇數(shù)據(jù)庫,是保證檢索成功的基礎(chǔ)。選擇數(shù)據(jù)庫時必須從以下幾個方面考慮:(1)數(shù)據(jù)庫收錄的信息內(nèi)容所涉及的學(xué)科范圍;(2)數(shù)據(jù)庫收錄的文獻(xiàn)類型、數(shù)量、時間范圍以及更新周期;(3)數(shù)據(jù)庫所提供的檢索途徑、檢索功能和服務(wù)方式。3.確定檢索詞
(1)先選用主題詞。(2)選用數(shù)據(jù)庫規(guī)定的代碼。(3)選用常用的專業(yè)術(shù)語。(4)選用同義詞與相關(guān)詞。4.構(gòu)建檢索提問式
檢索提問式是計算機(jī)信息檢索中用來表達(dá)用戶檢索提問的邏輯表達(dá)式,由檢索詞和各種布爾邏輯算符、位置算符、截詞符以及系統(tǒng)規(guī)定的其他組配連接符號組成。
5.上機(jī)檢索并調(diào)整檢索策略
檢索時,應(yīng)及時分析檢索結(jié)果是否與檢索要求一致,根據(jù)檢索結(jié)果對檢索提問式作相應(yīng)的修改和調(diào)整,直至得到比較滿意的結(jié)果。(1)檢索結(jié)果信息量過多(2)檢索結(jié)果信息量過少檢索結(jié)果信息量過多
產(chǎn)生檢索結(jié)果信息量過多的原因可能有:主題詞本身的多義性導(dǎo)致誤檢;對所選的檢索詞的截詞截得太短等。在這種情況下,就要考慮縮小檢索范圍,提高檢索結(jié)果的查準(zhǔn)率。調(diào)整檢索策略的方法主要有:
(1)減少同義詞與同族相關(guān)詞;
(2)增加限制概念,采用邏輯“與”連接檢索詞;
(3)使用字段限定,將檢索詞限定在某個或某些字段范圍;
(4)使用邏輯”非”算符,排除無關(guān)概念;
(5)調(diào)整位置算符,由松變嚴(yán)。檢索結(jié)果信息量過少
造成檢索結(jié)果信息量少的原因有:(1)選用了不規(guī)范的主題詞或某些產(chǎn)品的俗稱,商品名稱作為檢索詞;(2)同義詞、相關(guān)詞、近義詞沒有運(yùn)用全;(3)上位概念或下位概念沒有完整運(yùn)用。針對這種情況,就要考慮擴(kuò)大檢索范圍,提高檢索結(jié)果的查全率。調(diào)整檢索策略的方法如下:
(1)選全同義詞與相關(guān)詞并用邏輯“或”將它們連接起來,增加網(wǎng)羅度;(2)減少邏輯“與”的運(yùn)算,丟掉一些次要的或者太專指的概念;
(3)去除某些字段限制;(4)調(diào)整位置算符,由嚴(yán)變松。上位詞:白熾燈上位概念:電燈谷氨酸上位概念:氨基酸相關(guān)詞:(1)同一事物的學(xué)名、俗名、商品名
學(xué)名俗名商品名乙醇酒精NaCl鹽計算機(jī)電腦聚二甲基硅氧烷硅油(2)同一事物的簡稱、全稱、音譯和意譯簡稱全稱音譯意譯
wwwworldwidewebCADcomputeraideddesigninternet因特網(wǎng)互聯(lián)網(wǎng)
motor馬達(dá)電動機(jī)
laser鐳射激光器(3)同一事物名稱的反義詞污水處理與水凈化光潔度與粗糙度(4)同一事物名詞的單復(fù)數(shù)、不同詞性、英美語的不同形式
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年版離婚雙方撫養(yǎng)子女權(quán)益保障合同版B版
- 2024年種子包裝與運(yùn)輸服務(wù)合同模板3篇
- 2024年石油產(chǎn)品國際貿(mào)易結(jié)算與支付合同范本3篇
- 2024-2025學(xué)年桂林市永福縣數(shù)學(xué)三上期末學(xué)業(yè)水平測試試題含解析
- 2025中國鐵塔集團(tuán)上海分公司招聘8人高頻重點提升(共500題)附帶答案詳解
- 2025中國葛洲壩集團(tuán)股份限公司紀(jì)檢崗位招聘2人高頻重點提升(共500題)附帶答案詳解
- 2025中國移動廣西公司招聘高頻重點提升(共500題)附帶答案詳解
- 2025中國電信集團(tuán)限公司政企信息服務(wù)事業(yè)群招聘高頻重點提升(共500題)附帶答案詳解
- 2025中國電信山東聊城分公司校園招聘高頻重點提升(共500題)附帶答案詳解
- 2025中國農(nóng)業(yè)科學(xué)院植物保護(hù)研究所農(nóng)藥應(yīng)用風(fēng)險控制團(tuán)隊科研助理公開招聘3人高頻重點提升(共500題)附帶答案詳解
- 《海上漁業(yè)養(yǎng)殖設(shè)施指南》2024
- 【發(fā)動機(jī)曲軸數(shù)控加工工藝過程卡片的設(shè)計7800字(論文)】
- 店鋪(初級)營銷師認(rèn)證考試題庫附有答案
- 飛機(jī)儀電與飛控系統(tǒng)原理智慧樹知到期末考試答案章節(jié)答案2024年中國人民解放軍海軍航空大學(xué)
- JG197-2006 預(yù)應(yīng)力混凝土空心方樁
- 口腔潰瘍的表觀遺傳調(diào)控與治療靶點
- 醫(yī)院護(hù)理培訓(xùn)課件:《安全注射》
- 礦山開采合股協(xié)議書
- 11304+《管理案例分析》紙考2023.12
- 《勇敢面對挫折和困難》參考課件
- 現(xiàn)代通信技術(shù)導(dǎo)論智慧樹知到期末考試答案章節(jié)答案2024年北京科技大學(xué)
評論
0/150
提交評論