版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
檢索原理與檢索語言主講梁煒武漢東湖學(xué)院圖書館
TEL:8193161513995544895課程交流群:214939523一、計算機信息檢索概述(分為存儲和檢索兩個部分)計算機信息檢索系統(tǒng)是信息檢索所用的硬件資源(如計算機,網(wǎng)絡(luò))、系統(tǒng)軟件(如windows系列軟件)以及信息資源數(shù)據(jù)庫的總和,它能存儲大量的信息,并對信息條目分類、編目或編制索引;并進行檢索。
2信息檢索的原理3計算機信息檢索的主要環(huán)節(jié)包括:
信息分析(確定輸入系統(tǒng)的信息條目的格式和內(nèi)容,為建立索引作準備)信息存儲(建立信息庫,以備檢索)
信息檢索(脫機檢索和聯(lián)機檢索兩種方式4二、計算機檢索系統(tǒng)的構(gòu)成
1計算機硬件:系統(tǒng)中采用的各種硬件設(shè)備的總稱,包括具有一定性能的計算機主機、外圍設(shè)備以及與數(shù)據(jù)處理或數(shù)據(jù)傳輸有關(guān)的其他設(shè)備。主機,是計算機檢索系統(tǒng)的中樞。外圍設(shè)備包括外部存儲器,輸入輸出設(shè)備如鍵盤、光筆、鼠標、光學(xué)字符識別裝置,顯示終端、打印機等。
2軟件:系統(tǒng)中有關(guān)的程序和各種文件資料的總稱,包括系統(tǒng)軟件(如操作系統(tǒng),輸入輸出控制程序)和應(yīng)用軟件。
3數(shù)據(jù)庫:“一組文件的集合”5三計算機信息檢索中常用的服務(wù)方式計算機信息檢索系統(tǒng)輸出檢索結(jié)果并向用戶提供的過程叫信息提供。根據(jù)用戶的要求,可有多種提供方式。61、定題情報服務(wù):即SDI服務(wù)(SelectiveDisseminationofInformation。常用的服務(wù)方式。過程一般是:用戶需求――編寫檢索提問式――存貯在計算機中――每隔一段時間讓計算機將其調(diào)出――對新記錄進行檢索――最后將命中的記錄輸出并提供給相應(yīng)的用戶――保證他們及時了解研究課題的最新情況。它是一種追蹤學(xué)科發(fā)展動態(tài)的有效方式。7其特點如下:1)服務(wù)針對性強,能根據(jù)檢索課題提供專門服務(wù);2)定期向用戶分發(fā)結(jié)果,保證用戶總能及時了解最新情況;3)保證數(shù)據(jù)庫中的資料能全面、準確地滿足用戶要求。82、回溯性情報服務(wù):也稱為RS(RetrospectiveSearching),通常是針對某一課題,對情報數(shù)據(jù)庫進行若干年的回溯性檢索。檢索內(nèi)容不一定要最新。適于課題調(diào)研、對某一問題作全面了解、編制專題資料等。3、問答式檢索服務(wù):(QuestionandAnsweringService)是一種實時性檢索服務(wù)。用戶當場,隨時提問,隨時得到結(jié)果。9四計算機信息檢索語言1、什么是檢索語言:
檢索語言是檢索系統(tǒng)存儲與檢索運用的共同語言。換言之,描述信息系統(tǒng)中信息的內(nèi)容特征及外表特征和表達用戶信息提問的一種共同語言。102、功能:簡單明了而又比較專指的描述文獻的主題概念;容易將概念進行系統(tǒng)排列;檢索時便于將標引用語和檢索用語進行相符性比較等。是標引文獻的依據(jù),檢索文獻的條件,是溝通情報人員與用戶思想的橋梁。
113、檢索語言的類型
按文獻內(nèi)容特征
1主題法語言
標題詞語言
(較準確,具體到點)
關(guān)鍵詞語言
單元詞語言
敘詞語言
2分類語言
(較全面,具體到面)體系分類語言
組配分類語言
混合分類語言
3代碼語言針對事物的某一方面,用代碼系統(tǒng)來加以標引排列。如:化學(xué)分子式、結(jié)構(gòu)式、索引系統(tǒng)等124、分類語言:將各種概念按學(xué)科性質(zhì)進行分類和系統(tǒng)排列,并用分類號來表達各種概念的一種先組式語言。從學(xué)科門類的角度,強調(diào)面的作用,泛指度高,查全率高,滿足族性檢索。
134.1《中圖法》是為統(tǒng)一全國文獻分類編目創(chuàng)造條件而編制和發(fā)展的。1957年文化部主持編制了《中小型法》,在此基礎(chǔ)上一些圖書館陸續(xù)把它擴充為大型分類法。1975年正式出版了《中圖法》第一版。
特點:(1)《中圖法》采用拉丁字母與阿拉伯數(shù)字相結(jié)合的混合制標記符號,以拉丁字母標記基本大類。(2)分為五大部類,22基本大類,51881個類目
。屬于五分法
14A馬克思主義、列寧主義、毛澤東思想、鄧小平理論B哲學(xué)、宗教C社會科學(xué)總論D政治、法律E軍事社會科學(xué)F經(jīng)濟G文化、科學(xué)、教育、體育H語言、文字I文學(xué)、藝術(shù)K歷史、地理15N自然科學(xué)總論
O數(shù)理科學(xué)和化學(xué)
P天文學(xué)、地球科學(xué)
Q生物科
R醫(yī)藥、衛(wèi)生
S農(nóng)業(yè)科學(xué)
T工業(yè)技術(shù)
U交通運輸
V航空、航天
X環(huán)境科學(xué)、安全科學(xué)
Z綜合性圖書
自然科學(xué)綜合類圖書1617《中圖法》是典型的體系分類語言,是以學(xué)科為基礎(chǔ),運用邏輯劃分的原理,以文獻內(nèi)容、所屬學(xué)科、專業(yè)性質(zhì)及特征對文獻進行系統(tǒng)化組織。即從總到分,從一般到具體,從簡單到復(fù)雜,從低級到高級,層層隸屬,層層劃分,形成一個嚴格有序的直線性知識門類的層累制體系。這種體系能體現(xiàn)學(xué)科的系統(tǒng)性,清楚的反映出事物的派生、隸屬與平行關(guān)系,便于用戶從學(xué)科專業(yè)的角度查找文獻資料。18例如:要查找“軸承”方面的文獻,首先必須確定它所屬的大類類別為[T]工業(yè)技術(shù),其次按照隸屬關(guān)系可以依次推斷為[TH]機械、儀表——[TH13]機械零件及傳動裝置——[TH133]轉(zhuǎn)動機件——[TH133.3]軸承,最后確定“軸承”方面的文獻在《中圖法》中的分類號為TH133.3194.2《中國科學(xué)院圖書館圖書分類法》
(1)發(fā)展歷程:根據(jù)中科院圖書館綜合性藏書范圍,以及中國科學(xué)院所屬各研究單位圖書館不同專業(yè)的特點而編制的一部體系分類法。于1954年開始編制,1958年完成,并于同年出版第一版。
20(2)《科圖法》的體系結(jié)構(gòu):
首先,分類表分成5大部,25大類。
其次,層層劃分,詳細展開,形成等級分明的類目體系。
最后,采用純阿拉伯數(shù)字的標記符號。
21如:00馬克思列寧主義、毛澤東思想
10哲學(xué)
20社會科學(xué)
21歷史、歷史學(xué)
27經(jīng)濟、經(jīng)濟學(xué)
31政治、社會生活
34法律、法學(xué)
36軍事、軍事學(xué)
37文化、科學(xué)、教育、體育
41文學(xué)
48藝術(shù)
49無神論
2250自然科學(xué)
51數(shù)學(xué)
52力學(xué)
53物理學(xué)
53.6電學(xué)與電磁學(xué)
53.61電子原理
53.611電子說
90綜合性圖書
91書目、索引
92百科全書、類書
93詞典
94年鑒、年刊23
《科圖法》與《中圖法》都屬于體系分類語言,在國內(nèi)圖書館界均有著較大的影響力。各個圖書館都是根據(jù)自己的館藏特點和服務(wù)范圍采用不同的分類法進行圖書的分類排架。圖書采購進館后,工作人員對每本圖書均會賦予一個獨特的排架號。
所謂排架號就是指圖書在架上的特定位置,也稱索取號。不同類型圖書館的索取號有所不同。
有些是采用分類號+順序號,有些是采用分類號+著者號+區(qū)分號(區(qū)分號可以表示圖書的卷冊、出版時間或者種次號等)。
24索取號是圖書館圖書排架和讀者獲取圖書的依據(jù)。圖書書脊所貼書標上的號碼就是索取號的直接體現(xiàn)。一般在書標上分多行居中顯示,第一行一般為分類號,第二行則為順序號或著者號等,各個館采用的方式不一樣。圖書在書庫和閱覽室的排列,就是按照索取號來排列的,即圖書先按分類號順序排架,同類圖書再按著者號進一步區(qū)分,依數(shù)字或字母從小至大,從前到后排列。25例如:我校圖書館對燕今偉主編的
《信息素質(zhì)教程》一書賦予的索取號為G252.7/Y147,“/”前的G252.7為該書的中圖法分類號,“/”后的Y147為該書的著者號和區(qū)分號。因此,查到索取號,就可以很容易地在書庫或閱覽室找到對應(yīng)的書刊。26TP391.41/3TP391.41/7TP391.41/X538aI247.58/J523a2G/N61/G417/(1)
G/N61/G417/(3)
275、主題法語言:
直接選用代表事物、問題和現(xiàn)象的術(shù)語作為表達文獻主題內(nèi)容的檢索標識。特點:從主題概念入手,強調(diào)點的作用,具體準確,專指度、查準率都比較高,滿足特性檢索
285.1標題詞(SubjectHeading)
從科技工作者熟悉的大量科技名詞中選出的具有實質(zhì)意義,并能準確表達文獻主題內(nèi)容,經(jīng)規(guī)范化處理的科技名詞術(shù)語。(代表文獻實質(zhì)意義經(jīng)規(guī)范化的詞語)295.2關(guān)鍵詞(keyword)
出現(xiàn)在文獻標題、文摘及正文中,對表達文獻主題內(nèi)容具有實質(zhì)性意義的詞語,即在揭示與描述文獻主題內(nèi)容中起關(guān)鍵性作用的科技名詞術(shù)語。(直接使用的自然詞語)。一般是現(xiàn)成的詞匯305.3單元詞(Uniterm)
屬于后組式語言。將多元概念分解為不能再分的單元概念。(代表文獻實質(zhì)意義、可以獨立存在的最小概念單元)
如“大學(xué)”和“研究”都是單元詞,因為它們都不能再分。把“大學(xué)”分為“大”和“學(xué)”都不再是具有獨立和明確的意義。
但“大學(xué)教育”和“科學(xué)研究”卻可以進一步分解。如分解為“大學(xué)”和“教育”,或“科學(xué)”和“研究”都具有獨立的意義。
315.4
敘詞(DescriptororThesaurus):
以概念為基礎(chǔ),經(jīng)規(guī)范化處理,具有組配性能并能顯示詞間語義關(guān)系的科技名詞術(shù)語。(經(jīng)規(guī)范化的可以獨立表達主題概念的詞語)
特點
(1)它不僅適用于手工檢索,更適用于計算機檢索。
(2)不僅在于拆詞,更在于拆義。
敘詞語言綜合了各種語言的優(yōu)點,因此在表達文獻主題內(nèi)容上更為準確、全面,是目前計算機檢索中用的最普遍的一種語言,科學(xué)實用。32如:遙感和地理信息系統(tǒng)用于監(jiān)測熱帶雨林關(guān)鍵詞:熱帶雨林遙感監(jiān)測GIS
主題詞:環(huán)境遙感環(huán)境監(jiān)測森林遙感
GIS-應(yīng)用遙感-應(yīng)用33例如:城市生活污染研究關(guān)鍵詞:城市(都市、城區(qū))生活污染(生活污水、生活垃圾、電磁輻射污染等34有關(guān)室內(nèi)裝修污染方面的研究關(guān)鍵詞:室內(nèi)、裝修、污染同義詞或近義詞:室內(nèi)(住宅、居室、房屋)污染(放射性、化學(xué)、氡氣、甲醛、苯等)35五、數(shù)據(jù)庫
數(shù)據(jù)庫是“至少由一個文檔組成,并能滿足某一特定目的或某一特定數(shù)據(jù)處理系統(tǒng)需要的一種數(shù)據(jù)集合”。通俗地說,數(shù)據(jù)庫就是在計算機存儲設(shè)備上按一定方式存儲的相互關(guān)聯(lián)的數(shù)據(jù)集合。數(shù)據(jù)庫是計算機技術(shù)與信息檢索技術(shù)相結(jié)合的產(chǎn)物,是信息檢索的重要資料來源。
36檢索效果的評價查全率與查準率是檢索質(zhì)量的兩個重要的評價指標。查全率(recallratio)=檢出的相關(guān)文獻量/檢索系統(tǒng)中相關(guān)文獻總量
即檢出文獻中合乎需要的文獻數(shù)量占數(shù)據(jù)庫中存在的合乎該需要的所有文獻的比例。查全率高說明有用的東西都被你檢中了,但對于數(shù)量巨大的數(shù)據(jù)庫而言,要達到100%的查全率是不可能的,在網(wǎng)絡(luò)條件下尤其如此。
37查準率(precisionratio)=檢出的相關(guān)文獻量/檢出的文獻總量。指檢出文獻中合乎需要的文獻數(shù)量占檢出文獻全部數(shù)量的比例。
準確率高說明你檢出的東西都是有用的東西。一般地說,很少能達到100%的查準率。在查全與查準兩個方面一般難以兩全,為了獲得很多有用的東西(達到高的查全率),需要較少的限制檢索條件,但這樣檢出的無用的東西就會很多(查準率不高),反之亦然。在計算機檢索中,一般認為查準率為60—70%、查全率為40—60%是較為理想的。
38
n為檢索系統(tǒng)中文獻總量,m為檢索輸出的文獻量,a為n中與檢索課題有關(guān)的文獻量,b為m中與檢索課題有關(guān)的文獻量(檢準文獻量),則n、m、a、b之間的關(guān)系如圖所示。
文獻總量與檢出文獻之間的關(guān)系39文獻總量與檢出文獻之間的關(guān)系令R表示查全率、P表示查準率、M表示漏檢率、N表示誤檢率,則R、P、M、N定義如下:
R=b/a*100%P=b/m*100%M=(1-b/a)*100%=100%-RN=(1-b/m)*100%=100%-P
40在一個具有1000篇文獻的試驗性機檢系統(tǒng)中檢索某課題,用一特定檢索策略查該課題時輸出文獻60篇。經(jīng)分析評估,發(fā)現(xiàn)該系統(tǒng)中共有該課題相關(guān)文獻50篇,檢出的文獻中實際相關(guān)文獻只有30篇,求查全率、查準率、誤檢率和漏檢率。查全率=30/50*100%=60%
查準率=30/60*100%=50%
誤檢率=(60-30)/60*100%=50%
漏檢率=(50-30)/50*100%=40%41計算機信息檢索的基本技術(shù)與方法42一、計算機信息檢索的基本技術(shù):
布爾邏輯、截詞檢索、字段檢索,位置算符等。
在進行計算機檢索時,有時有一些比較復(fù)雜的課題,如:“GPS在建筑中的應(yīng)用”,既涉及GPS,又涉及建筑,還有“應(yīng)用”,這時候就要編制出滿足要求的計算機檢索式,它是機檢的基礎(chǔ)。431、布爾邏輯檢索(BooleanLogicRetrieval)
布爾邏輯檢索是指通過標準的布爾邏輯關(guān)系算符來表達檢索詞與檢索詞間的邏輯關(guān)系的檢索方法。
邏輯檢索的基礎(chǔ)是邏輯運算,邏輯運算中最常用的是布爾邏輯運算符(BooleanLogicOperators),即與、或、非三種運算符號,用它們可以表示概念之間的邏輯關(guān)系。44邏輯與“and”或“*”表示組配方式:A*B或者AandB表示兩個概念的交叉和限定關(guān)系,只有同時含有這兩個概念的記錄才算命中信息作用:增加限制條件,即增加檢索的專指性,以縮小提問范圍,減少文獻輸出量,提高查準率。
45邏輯或用“or”、“+”表示組配方式:AORB或者A+B,表示檢索含有A詞,或含有B詞,或同時包含A、B兩詞的文章。作用:放寬提問范圍,增加檢索結(jié)果,起擴檢作用,提高查全率。
46邏輯非用“not”、“-”表示組配方式:A-B,表示檢索出含有A詞而不含有B詞的文章。作用:邏輯非用于排除不希望出現(xiàn)的檢索詞,它和“*”的作用相似,能夠縮小命中文獻范圍,增強檢索的準確性。47例如檢索:“打印機驅(qū)動程序”查詢關(guān)鍵詞:打印機、驅(qū)動程序檢索表達式:打印機AND驅(qū)動程序例如檢索:“微型計算機”方面的有關(guān)信息查詢關(guān)鍵詞:微型計算機、微機檢索表達式:微型計算機OR微機布爾邏輯檢索舉例48布爾邏輯運算符優(yōu)先級布爾運算符優(yōu)先級比較有括號時:括號內(nèi)的先執(zhí)行;無括號時:NOT>AND>OR49例:檢索“唐宋詩歌”的有關(guān)信息。關(guān)鍵詞:唐、宋、詩歌;檢索表達式:(唐OR宋)AND
詩歌;唐AND詩歌OR
宋AND
詩歌;錯誤表達式:
唐OR宋AND詩歌;唐AND宋AND詩歌;唐OR宋OR詩歌;唐AND宋OR詩歌;50布爾邏輯算符具體使用在不同的數(shù)據(jù)庫中,所使用的邏輯符號可能是不同的,有的用“and、or、not”有的用“*、+、-”。一些檢索工具會完全省略任何符號和關(guān)系,直接把布爾邏輯關(guān)系隱含在菜單中。一些網(wǎng)絡(luò)檢索工具如搜索引擎甚至用“︺、,、-”(即空格、逗號、減號)來表示。5152二、短語檢索短語檢索(phrasesearch)即精確檢索
用“”表示,檢索出與“”內(nèi)形式完全相同的的短語。例如:在Google中直接輸入中國國家圖書館檢索,可命中類似中國科學(xué)院國家科學(xué)圖書館的結(jié)果,而輸入“中國國家圖書館”,得到的結(jié)果是與中國國家圖書館完全匹配的結(jié)果。多用于機構(gòu)、人名、專有名詞的檢索可提高檢索的精確度和準確度53三、字段限制檢索字段檢索是限定檢索詞在記錄中出現(xiàn)的字段范圍,檢索時,計算機只對限定字段進行查找。54數(shù)據(jù)庫中的常用字段篇(題)名(TitleField,/TI)文摘(AbstractField,/AB)著者(作者、責任者)(Author,AU)關(guān)鍵詞(IdentifiedField,/ID;KeywordField,/KW;UncontrolledtermField)主題詞(DestriptorField,/DE;或ControlledtermField-SU)55機構(gòu)(單位)(corporatesource,CS或Affiliationsource,AF)刊名(來源)jour
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 福建省南平市渭田中學(xué)2021年高二生物模擬試題含解析
- 福建省南平市太平中學(xué)高三數(shù)學(xué)文聯(lián)考試題含解析
- 2 《燭之武退秦師》(說課稿)-2024-2025學(xué)年高一語文下學(xué)期同步教學(xué)說課稿專輯(統(tǒng)編版必修下冊)
- 美術(shù)教育之光
- 解密清明節(jié)氣
- 填分家協(xié)議書(2篇)
- 25王戎不取道旁李 說課稿-2024-2025學(xué)年四年級上冊語文統(tǒng)編版
- 有償使用場地租賃合同
- 租賃山地合同
- 建筑工程公司借用資質(zhì)協(xié)議書
- 2024年廣東省公務(wù)員考試《行測》真題及答案解析
- 2024年氫工藝作業(yè)考試題庫及答案(700題)
- 2025屆重慶南開中學(xué)數(shù)學(xué)高二上期末教學(xué)質(zhì)量檢測試題含解析
- 常見癥狀腹痛課件
- 《生活垃圾的回收與利用》(教案)-2024-2025學(xué)年四年級上冊綜合實踐活動教科版
- 2024年二級建造師繼續(xù)教育考核題及答案
- 2024年化工儀表維修工職業(yè)技能競賽理論考試題庫500題(含答案)
- 2024-2030年全球及中國用于防御的紅外反狙擊手探測系統(tǒng)行業(yè)市場現(xiàn)狀供需分析及市場深度研究發(fā)展前景及規(guī)劃可行性分析研究報告
- 2024年中考英語閱讀理解D篇真題匯編(附答案)0117
- 智能屋面狀況監(jiān)測與診斷
- 2024-2030年中國玻璃體切除術(shù)行業(yè)市場發(fā)展趨勢與前景展望戰(zhàn)略分析報告
評論
0/150
提交評論