版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
第三講信息檢索技術(shù)1本章重點信息的特征與檢索語言和檢索途徑的關(guān)系檢索詞的確定方法常用的計算機檢索技術(shù)如何分析檢索需求23.1信息特征、檢索語言與檢索途徑
檢索語言是用于描述文獻特征、用于標(biāo)引和檢索的人工語言。創(chuàng)建檢索語言的目的,是建立溝通標(biāo)引與檢索的橋梁。檢索語言按不同標(biāo)識系統(tǒng)組織文獻,以適于不同檢索需求,聚集相同學(xué)科門類和主題內(nèi)容的文獻,從而使雜亂無序的文獻便得有序。33.1.1檢索語言與信息特征
一篇文章、一本書、一份報告等一般都有以下特征:一、外表特征:題目、作者、作者工作單位,專利和科技報告還有專利號或報告號等,這些可以表征一篇特定文獻的特征可以在文獻的封面或扉頁,即不打開書本,或不看文獻的具體內(nèi)容就可以確定一篇文獻。二、內(nèi)部特征:假如我們深入到文獻內(nèi)容中間,則可以發(fā)現(xiàn)還可用另外兩種方法來表征它:4a.一般,一篇文獻都是論及某一方面的特定問題的,也就是說,與論題相關(guān)的詞出現(xiàn)的頻率較大。以前的研究表明,無論哪一種類型的文獻,若對文獻中出現(xiàn)的詞進行頻率統(tǒng)計的話,會發(fā)現(xiàn)所有的詞可分為三類i.文獻中出現(xiàn)頻率最高的詞是冠詞、介詞和連詞等,即其本身沒有具體含義的詞,如a、an、the、this、that、or、and、in、on、with等;ii.絕大部分詞在文獻中出現(xiàn)的頻率較低;iii.在文獻中出現(xiàn)的頻率既不高也不低的詞,在文獻中約3-20個之間,這些詞恰恰是與文獻的主題相關(guān)度較大的詞,我們稱之為文獻的主題詞或關(guān)鍵詞。5b.另外,一篇文獻還可以按照各種自然科學(xué)和社會科學(xué)的分類方法進行歸類,如《中圖法》:O數(shù)、理、化O1數(shù)學(xué)O12初等數(shù)學(xué)O123初等幾何6特征外表特征主題特征內(nèi)容特征分類特征標(biāo)識標(biāo)題、作者、作者工作單位主題詞、關(guān)鍵詞文摘、說明、全文分類號對應(yīng)精確對應(yīng)模糊對應(yīng)模糊(精確)對應(yīng)模糊對應(yīng)特征對應(yīng)關(guān)系73.1.2檢索語言語言是一種人們用以交流溝通的重要工具。人與計算機對話,需要有計算機語言,人與檢索系統(tǒng)對話來實施檢索,則需要有檢索語言(retrievallanguage)。檢索語言是用于描述檢索系統(tǒng)中信息的內(nèi)部及外部特征和表達用戶信息提問的一種專門語言,檢索的匹配正是通過語言的比較匹配來實現(xiàn)的。檢索語言也稱索引語言,后者是從檢索系統(tǒng)的標(biāo)引角度出發(fā)的,而前者是從用戶的信息檢索角度出發(fā)的。8不同的檢索語言構(gòu)成不同的標(biāo)目及其索引系統(tǒng),提供各種檢索點。
9人工語言(規(guī)范語言)和自然語言(非規(guī)范語言)artificiallanguage:受信息檢索的控制,使用控制、規(guī)范詞(controlledterm)。人工語言的規(guī)范處理重在兩個方面:一是使一個概念只用一個詞匯來表達,這樣就避免了多詞一義的情況;二是使一個標(biāo)引詞只能表達一個概念,這樣就排除了一詞多義現(xiàn)象。naturallanguage
:自然語言是取其自然形態(tài),不受控,使用非規(guī)范詞(uncontrolledterm)或稱自由詞(freeterm)。自然語言極其豐富、復(fù)雜和多樣,存在著一詞多義、多詞一義及詞義交叉的現(xiàn)象。常見的有同義詞、近義詞、同型異義詞等。10分類語言和主題語言分類語言也屬于主題語言。分類語言是按學(xué)科范疇劃分而構(gòu)成的一種語言體系,它集中反映學(xué)科的系統(tǒng)性、反映它們的相關(guān)、從屬、派生等關(guān)系,從總體到局部分層、分面展開,形成分類體系。由類目號碼及名稱作為檢索語言,構(gòu)成分類類目表,如前述圖書分類表、專利分類表用的都是分類語言。主題詞語言包括:關(guān)鍵詞語言、單元詞語言、標(biāo)題詞語言、敘詞語言等,它們有不同的主題詞表。主題詞表達概念本身,在主題詞表中通過參照系統(tǒng)來指示詞匯之間的關(guān)系。11它是用分類號來表達各種概念,將各種概念按學(xué)科性質(zhì)進行分類和系統(tǒng)排列,包括它等級體系分類語言,又稱等級列舉式分類法或體系分類法。體系分類法主要應(yīng)用概念劃分與概括的方法,具有列舉式類目、分類符號(標(biāo)識)、等級制結(jié)構(gòu)、直線性序列等特點。
等級體系分類法的表現(xiàn)形式為分類表分類文獻及其索引系統(tǒng),是根據(jù)一定的觀點,以科學(xué)分類為基礎(chǔ),運用概念劃分和概括的方法,按照知識門類的邏輯次序,從總到分,從簡單到復(fù)雜,層層進行概念劃分,則產(chǎn)生許多不同等級的類目。上位類包括下位類的總合,下位類隸屬于其上位類,同級類互不相容,構(gòu)成一個嚴(yán)格有序的層磊式結(jié)構(gòu)系。12國內(nèi)外常用的分類法有:(1)、人民大學(xué)圖書館圖書分類法(人大法)該分類法從1953起陸續(xù)在全國各圖書館試用,后經(jīng)過多次修訂再版,目前仍有許多圖書館采用該分類法。(2)、中國科學(xué)院圖書館圖書分類法(科圖法)該分類法目前主要用于中國科學(xué)院圖書館及其所屬各科研單位的圖書館(室)的文獻分類。(3)、杜威十進制分類法(DecimalClassification)簡稱為杜威法該分類法是目前世界上使用最廣泛、影響最大的圖書分類法,已用于130多個國家的圖書館,許多分類法均是借鑒于杜威分類法產(chǎn)生的。(4)、美國國會圖書館圖書分類法(LibraryofCongressclassification)簡稱為LC分類法目前美國大多數(shù)圖書館采用的分類法。(5)、國際十進分類法(UniversalDecimalClassification)簡稱UDC分類法等。(6)、國際專利分類法(InternationalPatentClassification)簡稱IPC13(1)體系分類語言
《中國圖書館分類法》:分五大部22大類。
A馬克思主義、列寧主義、毛澤東思想、鄧小平理論
B哲學(xué)、宗教
C社會科學(xué)總論
D-K社會科學(xué)各學(xué)科
N自然科學(xué)總論
O-X自然科學(xué)各學(xué)科
Z綜合性圖書14其中文學(xué)類類目展開情況如下:I文學(xué)I2中國文學(xué)I24小說I247建國后作品I247.4章回小說I247.5新體長篇、中篇小說I247.7新體短篇小說I247.8故事、微型小說I25報告文學(xué)I313日本文學(xué)15分類標(biāo)引方法:崔文風(fēng)著1.心理與人生-發(fā)展心理教子成長2.心理與人生-完善心理事事成功3.心理與人生-調(diào)節(jié)心理強身治病分類好分別分:
G78、
B848.4R395.6
分類號是依據(jù)內(nèi)容來確定的,而不是名稱16(2)關(guān)鍵詞語言:關(guān)鍵詞是從文題、文摘或正文中抽出,具有實質(zhì)意義,能夠代表文獻內(nèi)容主題的名詞術(shù)語。關(guān)鍵詞可直接用于文獻標(biāo)引。(3)主題詞語言:主題詞是表達一定概念主題的規(guī)范化的名詞術(shù)語。主題標(biāo)引須有專門的主題詞表。17主題詞表:①字順表computerizedindustrialcontrolUSEindustrialcomputercontrolComputerizedinstrumentationUFcomputerizedinstrumentsNTautomatictestequipmentcomputerizedmonitoringcomputerizedspectroscopycomputerizedtomographyBTcomputerapplicationsTTcomputerapplicationsRTastronomycomputingastrophysicscomputingbiologycomputingchemicalengineeringcomputing18②詞族表computerapplications
.a(chǎn)dministrativedataprocessing
..distributivedataprocessing
.computerizedsignalprocessing
..computerizedpatternrecognition
..computerizedpictureprocessing
...computer-generatedholography19檢索點(accesspoint)是檢索的出發(fā)點,以前常用“檢索途徑”(approach)這一術(shù)語。每件文獻均有內(nèi)部的(信息內(nèi)容)特征及其相關(guān)的外部特征,在檢索系統(tǒng)中檢索點是標(biāo)目的總稱。從文獻的特征出發(fā),將其特征值與檢索系統(tǒng)中標(biāo)目數(shù)據(jù)進行計算比較,通過匹配達到檢索目的。反映文獻信息內(nèi)容特征:分類檢索和主題檢索;反映文獻外部特征:作者、名稱和號碼檢索等。
3.1.3常用檢索途徑201分類檢索(classification)
分類檢索是從文獻內(nèi)容所屬的學(xué)科類別出發(fā)來檢索文獻,它依據(jù)的是一個可參照的分類體系(classificationsystem)。
分類體系按文獻內(nèi)容特征的相互關(guān)系加以組織,并以一定的標(biāo)記(類號)作排序工具,它能反映類目之間的內(nèi)在聯(lián)系,包括從屬、并列、交替、相關(guān)等。
21
主題(subject)檢索是從反映文獻內(nèi)容的有關(guān)主題詞出發(fā)來檢索文獻,主題是檢索點,它對應(yīng)文獻主題概念。檢索按主題詞的音或形的字順進行,其方式如查字典、詞典。主題詞有多種類型:有規(guī)范詞和自由詞,有單元詞和多元詞,有先組結(jié)構(gòu)和后組結(jié)構(gòu)等。主題詞的合理選擇與使用對檢索結(jié)果的優(yōu)劣直接相關(guān)。2主題檢索22
主題詞表的字順表用標(biāo)識符號將非主題詞指引到其主題詞,如:義務(wù)教育用普及教育。對于無法利用字順表確定檢索用主題詞時,可采取如下辦法:A將檢索者自擬的標(biāo)題倒置,再試查。B利用擬定概念詞的同義詞試查。C利用擬訂概念詞的上位詞試查。D利用詞表范疇表,由上向下逐級試查。(2)調(diào)整檢索范圍A利用字順表的相關(guān)參照提示,擴大檢索范圍。B利用范疇表(詞表分類表)調(diào)整檢索范圍。233作者檢索
作者(author)檢索是從文獻的作者姓名出發(fā)來檢索其文獻。“作者”廣義上還應(yīng)包括:匯編者(compiler)、編者(editor)、主辦者(sponsoringbody)、譯者(translator)等此外,還有代表機構(gòu)、單位的團體作者(corporateauthor),包括作者所在單位(author'saffiliation)。
244號碼檢索
號碼包括文獻的編號(number)、代碼(code)等,它們是文獻信息的一些特有的外部標(biāo)識,號碼檢索點以號碼特征來檢索文獻信息。號碼多種多樣,通常用數(shù)字、字母或用它們結(jié)合的形式或以分段的方式來表示其各部分的含義。比如科技報告有報告號,還有其合同號、撥款號等,比如專利文獻有專利號、入藏號、公司代碼等;比如分類號也是號碼(特殊的號碼檢索),等等。它們各自按號碼順序,或以數(shù)序、或以字序、或以混合序列檢索。25附錄:學(xué)術(shù)論文的基本格式1.題名(Title,Topic)題名即題目或標(biāo)題,是以最恰當(dāng)、最簡明的詞語反映論文最重要的特定思想內(nèi)容的邏輯組合。題名(1)簡潔明了:所謂簡潔,就是指用語要簡明、潔凈、雅致和精當(dāng),惜字如金,用最少的文字精當(dāng)?shù)馗爬ㄕ撐膬?nèi)容。有人根據(jù)人們對語言的一般記憶特點,提出標(biāo)題最好控制在12個字以內(nèi)(題名規(guī)范的要求是一般不超過20字,必要時可加副題名)。261.題名(Title,Topic)(2)準(zhǔn)確恰當(dāng):所謂準(zhǔn)確,就是指標(biāo)題能準(zhǔn)確概括論文內(nèi)容,能恰當(dāng)?shù)叵薅ㄕ撐姆秶?,能實事求是表達論文中心內(nèi)容的深度和廣度,達到文題相符。論文標(biāo)題提倡“宜小不宜大,宜近不宜遠,宜今不宜古,宜實不宜虛”
(3)新穎多樣:標(biāo)題新穎醒目會直接吸引讀者的閱讀興趣。所以論文標(biāo)題不僅要準(zhǔn)確、精練,而且還要新穎。272.署名
給論文署名不僅是對著者的尊重和應(yīng)有的榮譽,而且還表示文責(zé)自負(fù)。按其對研究和論文撰寫的貢獻大小排序,貢獻最大者列為第一著者,次之列為第二著者,余者類推。283.摘要(Abstract)
摘要或提要是對全文的高度濃縮。為了國際交流,一些期刊還要求提供外文摘要。摘要是論文內(nèi)容不加注釋和評論的簡短陳述,具有獨立性和自含性。其內(nèi)容包括:研究的對象和主要目的、主要觀點、主要成果及意義等。一般200-300字,外文不超過250個實詞.294.關(guān)鍵詞(KeyWord)
關(guān)鍵詞是為了配合文獻標(biāo)引工作而給出的能反映文章最主要內(nèi)容的單詞或術(shù)語,對編制檢索工具和文獻檢索有重要作用。關(guān)鍵詞一般3-8個30題名作者作者單位31摘要32關(guān)鍵詞33中圖分類號文獻標(biāo)示碼345.文獻標(biāo)識碼、中圖分類號凡具有文獻標(biāo)識碼的文章均應(yīng)標(biāo)識分類號。文章分類號采用《中國圖書館分類法》(第四版)進行分類。一般文章標(biāo)識1個分類號,多個主題的文章可標(biāo)識2個或3個分類號;主分類號排在第一位,多個分類號之間應(yīng)以分號分隔。中圖分類號著錄格式為:中圖分類號:TK730.2;O357.535文獻類型及載體類型標(biāo)識366.正文(Mainbody)
這是學(xué)術(shù)論文的主體部分,是作者研究成果的具體表述。要求層次清楚,概念準(zhǔn)確,判斷真實,推理符合邏輯,要形成一個完整的邏輯系統(tǒng)。內(nèi)容周詳嚴(yán)謹(jǐn),論證嚴(yán)密有力。正文一般由引言、本論和結(jié)語三段式組成。(1)引言:屬于論文的引論部分。作者應(yīng)在這部分簡要交代研究工作的緣起、說明這一論題研究的目的、背景、前人已有的工作和現(xiàn)在研究的理論依據(jù)、實踐基礎(chǔ)、預(yù)期結(jié)果及在相關(guān)領(lǐng)域的地位、作用和意義等。
376.正文(Mainbody)(2)本論:是論文的核心部分。作者在這一部分要詳細闡述所研究的新成果,特別要實事求是地清晰闡明自己所提出的新的獨創(chuàng)性見解。(3)結(jié)論:是論文最終的、總體的結(jié)論,也就是整篇論文經(jīng)過研究分析和討論而形成的最終觀點,是對正文中各分論點經(jīng)過辨證分析后綜合而成的總觀點,而不是各分論點的簡單重復(fù)和相加。387.附注(Annotation)
論文的引文必須用附注注明出處,便于檢索利用。期刊論文可采用夾注、頁下注(腳注)和篇末注(即整篇論文寫完后對全文的引文統(tǒng)一作注)等方式。39注釋40注釋418.參考文獻(Reference)注意:參考文獻主要來源不應(yīng)該是網(wǎng)頁在正文之后列出本篇論文在研究和寫作中所參考或引證的主要文獻資料。其著錄依據(jù)是:國家標(biāo)準(zhǔn)局制定的《文后參考文獻著錄規(guī)則》(GB7714—87)。參考文獻的主要著錄項目有:①主要責(zé)任者。多個責(zé)任者之間以“,”分隔。②文獻題名及版本③文獻類型及載體類型標(biāo)識。
42參考文獻439.各類參考文獻著錄格式①專著、論文集、學(xué)位論文、報告[序號]主要責(zé)任者.文獻題名[文獻類型標(biāo)識].出版地:出版者,出版年.起止頁碼(任選).[1]劉國鈞,陳紹業(yè),王鳳翥.圖書館目錄[M].北京:高等教育出版社,1957.15-18.449.各類參考文獻著錄格式②期刊論文[序號]主要責(zé)任者.文獻題名[J].刊名,年,卷(期):起止頁碼.[3]何齡修.讀顧城《南明史》[J].中國史研究,1998,(3):167-173.[4]金顯賀,王昌長,王忠東,等.一種用于在線檢測局部放電的數(shù)字濾波技術(shù)[J].清華大學(xué)學(xué)報(自然科學(xué)版),1993,33(4):62-67.459.各類參考文獻著錄格式③論文集的析出文獻[序號]析出文獻主要責(zé)任者.析出文獻題名[A].原文獻主要責(zé)任者(任選).原文獻題名[C].出版地:出版者,出版年.析出文獻起止頁碼.[5]鐘文發(fā).非線性規(guī)劃在可燃毒物配置中的應(yīng)用[A].趙瑋.運籌學(xué)的理論與應(yīng)用——中國運籌學(xué)會第五屆大會論文集[C].西安:西安電子科技大學(xué)出版社,1996.468-471.469.各類參考文獻著錄格式④報紙文章[序號]主要責(zé)任者.文獻題名[N].報紙名,出版日期(版次).[6]謝希德.創(chuàng)造學(xué)習(xí)的新思路[N].人民日報,1998-12-25(10).473.2檢索工具、數(shù)據(jù)庫與檢索系統(tǒng)
檢索工具是人們用來報道、存儲和查找各類信息的工具。傳統(tǒng)的檢索工具是指目錄、索引、文摘等二次文獻,現(xiàn)在的檢索工具不僅包括傳統(tǒng)的二次文獻,還包括基于Internet的網(wǎng)絡(luò)信息檢索系統(tǒng)(如數(shù)據(jù)庫)、網(wǎng)上工具書、搜索引擎等各種信息檢索工具和檢索系統(tǒng)。其中網(wǎng)絡(luò)數(shù)據(jù)庫和搜索引擎是目前最主要的檢索工具。
483.2.1檢索工具每一個檢索工具,都有其特定的文獻信息收錄范圍、檢索途徑與檢索方法。檢索工具的選擇,對檢索詞的確定以及檢索提問式的編制起主導(dǎo)作用。文獻收錄范圍是檢索工具的最基本特點,其出版時間和所概括的內(nèi)容范圍是否包括檢索課題的內(nèi)容,以及質(zhì)量和權(quán)威性如何,是在使用檢索工具前必須了解的基礎(chǔ)知識49
傳統(tǒng)檢索工具是以文獻線索為檢索對象。檢索系統(tǒng)存貯的是二次文獻,信息用戶通過檢索獲得的是與檢索課題有關(guān)的一系列文獻線索。書目檢索工具是根據(jù)這些條目著錄的內(nèi)容和揭示文獻的深度不同而形成四種檢索工具:目錄檢索工具題錄檢索工具文摘檢索工具索引檢索工具50檢索工具也是隨著信息檢索技術(shù)的不斷發(fā)展而發(fā)展的。隨著時間的推移,有些檢索工具現(xiàn)在不再使用了;而一些知名的檢索工具如工程索引(EI)、科學(xué)引文索引(SCI)等,則隨著時代和主流技術(shù)的變化,分別提供印刷版(print)、光盤版(CD-ROM)、網(wǎng)絡(luò)版(web)、聯(lián)機版(online)等多種方式。513.2.2數(shù)據(jù)庫信息檢索系統(tǒng)中的數(shù)據(jù)庫,是指由計算機處理的一定數(shù)量同類信息的有序集合,既是信息源,又是檢索對象。信息對象為文獻信息的數(shù)據(jù)庫,則稱為文獻信息數(shù)據(jù)庫;能夠在互聯(lián)網(wǎng)上提供web查尋、檢索的數(shù)據(jù)庫,則稱為在線數(shù)據(jù)庫或網(wǎng)絡(luò)數(shù)據(jù)庫。52(1)按收錄文件類型可分為:圖書數(shù)據(jù)庫、期刊數(shù)據(jù)庫、會議論文數(shù)據(jù)庫、學(xué)位論文數(shù)據(jù)庫、專利數(shù)據(jù)庫、標(biāo)準(zhǔn)數(shù)據(jù)庫、產(chǎn)品數(shù)據(jù)庫、報刊數(shù)據(jù)庫等(2)按收錄的內(nèi)容劃分為書目數(shù)據(jù)庫、文摘型數(shù)據(jù)庫、全文數(shù)據(jù)庫、數(shù)值數(shù)據(jù)庫、事實數(shù)據(jù)庫等。(3)按數(shù)據(jù)庫收錄的學(xué)科范圍劃分為:專業(yè)性數(shù)據(jù)庫和綜合性數(shù)據(jù)庫。532.數(shù)據(jù)庫的結(jié)構(gòu)數(shù)據(jù)庫一般由記錄、字段、文檔組成。字段:是對實體的具體屬性進行描述的結(jié)果,是比記錄更小的單位,是組成記錄的數(shù)據(jù)項目。記錄:描述一篇文獻的所有字段(field)組成一條記錄(record)文檔(file):一段時間或某一主題范圍內(nèi)的記錄集合構(gòu)成數(shù)據(jù)庫文檔543.如何了解一個數(shù)據(jù)庫服務(wù)形式涵蓋范圍數(shù)據(jù)量可使用數(shù)據(jù)量文獻類型收錄年代文種更新頻率(詳細分析見教材53頁)553.2.3信息檢索系統(tǒng)信息檢索系統(tǒng)是指根據(jù)特定的信息需求而建立起來的一種有關(guān)信息搜集、加工、存儲和檢索的程序化系統(tǒng),其主要目的是為人們提供信息服務(wù)。計算機信息檢索系統(tǒng)包括計算機、數(shù)據(jù)庫、管理軟件和通信網(wǎng)絡(luò)檢索終端,數(shù)據(jù)庫是其核心。
56檢索系統(tǒng)一般提供了三種檢索方式,即:①瀏覽式、超文本式、超媒體檢索(browse);②菜單式檢索;③命令式檢索(commandsearch)。57在菜單檢索中一般有基本檢索、高級檢索功能,有的檢索系統(tǒng)還提供專家(專業(yè))檢索。檢索時,需要在顯示頁面上的檢索框中鍵入恰當(dāng)?shù)臋z索詞,每個檢索框?qū)?yīng)一個字段。有的字段設(shè)有可展開的索引詞典,提供檢索詞的選擇,有的檢索頁面上還可有某些限定項(如年代、文獻類型、學(xué)科范圍等)可供選擇。583.2.4常用數(shù)據(jù)庫與檢索系統(tǒng)1.“三大”檢索工具美國的SCI(科學(xué)引文索引)、EI(工程索引)、ISTP(科技會議錄索引)2、.“三大”中文期刊檢索工具其它見教材60-61593.3計算機檢索技術(shù)檢索技術(shù),是指利用光盤數(shù)據(jù)庫、聯(lián)機數(shù)據(jù)庫、網(wǎng)絡(luò)數(shù)據(jù)庫、搜索引擎等進行信息檢索,采用的相關(guān)技術(shù),主要包括布爾檢索、截詞檢索、字段檢索、詞位置檢索、加權(quán)檢索等603.3.1布爾邏輯檢索
邏輯算符是表達檢索提問的各概念之間的邏輯關(guān)系。邏輯算符有三種:AND(與)、OR(或)、NOT(非)。三種算符可同時在一個檢索式中使用,也可單獨使用。使用邏輯算符時應(yīng)注意的事項:①邏輯算符的優(yōu)先級為:NOT、AND、OR,可用括號來改變優(yōu)先順序。②在邏輯組配時,算符的兩側(cè)必須各留有一個空格。61邏輯與AND用于交叉概念或限定關(guān)系的組配,可以縮小檢索范圍,提高查準(zhǔn)率。可使用“*”或“&”來表示。其檢索表達式為:“AANDB”或“A*B”,即檢索記錄中必須同時包含A詞與B詞才算命中。例如:“中國*對外貿(mào)易”。
62邏輯或OR用于并列概念的組配,可以擴大檢索范圍,提高查全率,可使用“+”或“|”來表示。其檢索表達式為:“AorB”或“A+B”,即檢索記錄中含有A詞或者B詞中的任何一詞即可。例如:“高清晰電視+HDTV”63邏輯非NOT
用于從原來的檢索范圍中排除不需要的概念,或影響檢索結(jié)果的概念??墒褂谩?”來表示,其檢索表達式為:“ANOTB”或“A-B”,即檢索記錄中包含A詞但不含有B詞。例如:“能源-太陽能”
643.3.2截詞檢索截詞檢索,是指用給定的詞干做檢索詞,用以檢索出含有該詞干的全部檢索詞的記錄。它可以起到擴大檢索范圍、提高查全率、減少檢索詞的輸入量、節(jié)省檢索時間等作用。檢索時,若遇到名詞的單復(fù)數(shù)形式、詞的不同拼寫法、詞的前綴或后綴變化時均可采用此方法。65又稱通配符,不同的檢索系統(tǒng)中使用的符號不同,通常用“*”、“?”來表示。無限截詞符??Computer可檢出Computer,Microcomputer
有限截詞符.??
PROCESS???可檢出PROCESS,PROCESSES中間屏蔽WOM?N可檢出WOMAN,WOMEN663.3.3字段檢索字段檢索是指將檢索詞限定(
Within
)在某個或某些字段中,用以檢索某個或某些字段含有該檢索詞的記錄。限制檢索字段通常有兩種方式:其一,通過下拉菜單選擇檢索字段。此時,字段名一般用全稱表示,如:題名、摘要、Title、Abstract等。其二,輸入檢索字段符限定檢索字段。
67
字段后綴代碼
Abstract文摘…/ABDescriptors敘詞…/DETitle題目…/TIIdentifiers標(biāo)引的自由詞…/IDFullDescriptors完整的敘詞(單元詞)…/DF后綴代碼用于指定記錄的基本索引的某個字段進行檢索
68輔助索引用于前綴代碼。相同的字段在不同的數(shù)據(jù)庫,代碼可能不同,檢索時需要參閱數(shù)據(jù)庫蘭頁。
前綴代碼名稱例子
AU=Author(作者)?SAU=MIRO,R?CS=CorporateSource(機構(gòu)名稱)?SCS=HARVARDANDMEDICINECO=CompanyName(公司名稱)?SCO=FORDMOTOR?JN=JournalName(期刊名稱)?SJN=ScientiaScincaLA=Language(文種)?SLA=ENGLISHPY=PublicationYear(出版年代)?SPY=1999
注:使用輔助索引時“=”后不留空格。693.3.4詞位置檢索詞級位置算符包括(W)、(N)算符,表示檢索詞之間的順序關(guān)系
(W):W是with的縮寫,表示兩個詞必須緊挨著,且詞序不可顛倒,(W)算符也可用空括號()代替。例:?Ssolar()energy
(nw):表示兩個詞之間可插入n個詞,且詞序不可顛倒。例:?Ssolar(3w)energy(N):N是near的縮寫,表示兩個詞之間必須緊挨著,但詞序任意。例:?Sfiber(N)optic(nN)表示兩個詞之間最多可插入n個詞,詞序任意。例:?Sfiber(4N)optic70
(S):S為subfield或sentence的縮寫,表示兩個詞必須在記錄中的同一個句子或同一個子字段中出現(xiàn),且詞序可變。子字段含義由數(shù)據(jù)庫定義。例:?Scolor(S)pigment(F):F為field的縮寫,表示兩個詞必須在記錄中的同一個字段中出現(xiàn),且詞序可有了邏輯算符和位置算符,即可編制較為完整的檢索提問。在檢索時應(yīng)注意:①位置算符優(yōu)先于邏輯算符②位置算符的執(zhí)行順序是按語句中位置算符的輸入秩序從左至右執(zhí)行的。如有括號,則優(yōu)先執(zhí)行括號內(nèi)的位置算符。713.3.5加權(quán)檢索加權(quán)檢索是指根據(jù)檢索詞對檢索課題的重要程度,事先指定不同的權(quán)值。檢索時,系統(tǒng)先查找這些檢索詞在數(shù)據(jù)庫記錄中是否存在,再對存在的檢索詞計算它們的權(quán)值總和。凡是在用戶指定的臨界值(閾值)之上者作為命中記錄輸出。臨界值可視命中記錄的多少而靈活地調(diào)整。臨界值越高,命中記錄越少。搜索引擎通常以“+”、“-”來表示檢索詞一定在檢索結(jié)果中出現(xiàn),或一定不在檢索結(jié)果中出現(xiàn),這相當(dāng)于加權(quán)檢索。723.3.6檢索式檢索式是指,將各檢索單元(其中最多的是表達主題內(nèi)容的檢索詞)之間的邏輯關(guān)系、位置關(guān)系等,用檢索系統(tǒng)規(guī)定的各種組配符(也稱算符)連接起來,成為計算機可識別和執(zhí)行的命令形式。檢索式是檢索策略的具體體現(xiàn),它控制著檢索過程。檢索式是否合理關(guān)系到能否檢索到最相關(guān)的信息。73禁用詞在數(shù)據(jù)庫中,下列九個詞不能作為檢索詞使用,這些詞稱為禁用詞。禁用詞有:
AN、AND、BY、FOR、FROM、OF、TO、THE、WITH743.4檢索詞的選取
在檢索過程中,最基本同時也是最有效的檢索技巧,就是選擇合適的檢索詞。確定檢索詞,從廣義的角度來看,不僅是“詞”,還應(yīng)包括不同檢索途徑的檢索輸入用語。如作者途徑的作者名,作者單位途徑的機構(gòu)名,分類途徑的分類號753.4.1檢索詞的選取原則a、反映信息概念的準(zhǔn)確性古代語言演變=古代語言+語言演變=古代語言+演變(X)b、反映信息內(nèi)容的全面性協(xié)同設(shè)計+協(xié)同工作Collaborativedesign+cooperativedesignCollaborativework+cooperativeworkc、注意檢索詞的多樣性軌道鐵軌過程和規(guī)律微型計算機微機電腦d、簡練性763.4.2檢索詞的選取方法檢索者需要根據(jù)檢索需求,形成若干個既能代表信息需求又具有檢索意義的概念。諸如包括所需的概念有幾個,概念的專指度是否合適,哪些是主要的,哪些是次要的,力求使確定的概念能反映檢索的需要。771.主題分析法檢索詞的選取是用戶分析、識別、提煉和歸納信息需求主題的過程。首先將檢索主題分為數(shù)個概念,并確定反映主題實質(zhì)內(nèi)容的主要概念,去掉無檢索意義的次要概念,然后歸納可代表每個概念的檢索詞,同時尋找檢索詞之同義詞與上下位詞,最后將不同概念檢索詞以布爾邏輯加以連結(jié)。78主題詞的四種變化分別是同義詞、上位詞、下位詞、相關(guān)詞。同義詞是指意義完全相同的詞,如GIS與地理信息系統(tǒng);上位詞,指概念上外延更廣的主題詞,如水是海水的上位詞,液體是海水的上位詞,音樂是mp3的上位詞;下位詞,指概念上內(nèi)涵更窄的主題詞,如尾氣污染、廢氣污染是大氣污染的下位詞;幼兒教育、初等教育、高等教育是教育的下位詞,相關(guān)詞是指意義相關(guān)的詞,如出口和外貿(mào)。792.切分法切分法就是指將用戶的信息需求語句分割為一個一個的詞。例如“計算機情報檢索方法”可切分為:|計算機|情報|檢索|方法|。
刪除從語句切分出來的詞中刪除那些(1)不具有檢索意義的虛詞(包括介詞、連詞、助詞、副詞等)及其他非關(guān)鍵詞;(2)過分寬泛和過分具體的不必要的限定詞,過分寬泛難以觸及問題實質(zhì),太狹義具體的限制詞則會掛一漏萬;(3)存在蘊涵關(guān)系的可合并詞?!盎赪eb的數(shù)據(jù)庫”,經(jīng)刪除后,Web|數(shù)據(jù)庫稀土材料的研究現(xiàn)狀及發(fā)展趨勢稀土材料稀土材料釹鐵硼的研究釹鐵硼電磁波教學(xué)用的多媒體課件電磁波多媒體課件80替換從課題語句中得來的詞也許偏于模糊、寬泛、狹窄或不可行,不能取得所希望的結(jié)果,這時可以引入更明確、更具體、更本質(zhì)、更可行的概念詞來替換原詞,或作為原詞的同義詞和相關(guān)詞一并見面所。稀土材料的研制釤鈷(用戶實際上是研究釤鈷材料)空氣中細菌的計算方法空氣污染的計算方法聚類即把切分、刪除、替換后所得出的單元詞按語義概念進行同類合并,將那些可以相互等效、相互替換、相互補充的同(近)義詞、相關(guān)詞歸成一組。聚類的實質(zhì)是進行組面分析,將語句和詞轉(zhuǎn)換成概念(組面)的集合。81補充包括(1)補充來源詞,即找出縮略詞的來源詞組,將兩者一并作為檢索詞;(2)補充同義詞和相關(guān)詞(包括上位詞、下位詞和同位詞等)。模擬計算機模擬計算機+模擬系統(tǒng)*計算機liradlirad+laserradar“毫米波”:“millimeterwave”與“millimetrewave”限定針對一詞多義導(dǎo)致誤檢的問題,需采取限定措施,即增加”限定詞“。具體方法有兩種,一是邏輯乘,一是邏輯非。線路線路*(電子+無線電+)線路線路-(道路+車輛+)823.主題詞表法借鑒相關(guān)文獻的主題詞(受控詞),使用主題詞進行檢索。主題詞表,又稱敘詞表、檢索表或詞庫。它是文獻與情報檢索中用以標(biāo)引主題的一種檢索工具,更是一些規(guī)范化的、有組織的、體現(xiàn)主題內(nèi)容的、已定義的名次術(shù)語的集合體,通常由主表、類目表、族性表、輪排表、多種語言對照表、特殊詞匯表、語法予以關(guān)系表、主題詞字順表及主題詞屬分關(guān)系的詞族表等構(gòu)成。(1)漢語主題詞表(2)工程標(biāo)題詞表(3)INSPEC敘詞表834.試查相關(guān)數(shù)據(jù)庫進行初步檢索,借鑒相關(guān)文獻的用詞為使用戶檢索更加方便快捷,很多數(shù)據(jù)庫提供了檢索詞的擴展詞、同義詞、修正與提示功能。試查相關(guān)數(shù)據(jù)庫,可以順藤摸瓜地擴展、變更檢索詞。843.4.3檢索詞的選詞要點及技巧1.同義詞的選取,檢索詞的全稱、簡稱、俗稱、英文縮寫及不同拼寫方式,可以統(tǒng)稱為檢索詞的“同義詞”。查全同義詞和近義詞是我們提高查全率的關(guān)鍵。
2.隱含概念與隱含詞的選取3.英文檢索詞的選擇4.采用截詞符或截短處理5.如果詞匯涉及面太廣,難以一一枚舉,最好用分類號6.在檢索中逐漸優(yōu)化檢索詞7.在不同的檢索環(huán)境選用不同的檢索詞(具體技巧見教材69-71)85鐵路貨車197726軸承保持架裂損分析及對策研究保持架滾動軸承鐵路車輛斷裂殘余應(yīng)力動應(yīng)力Cage,ballbearing,railvehicle,fracture,remainsstress,dynamicstress工程制圖CAI系列課件的研制工程制圖機械制圖畫法幾何計算機輔助教學(xué)教學(xué)軟件課件成德綿產(chǎn)業(yè)帶現(xiàn)代集成制造系統(tǒng)發(fā)展戰(zhàn)略和關(guān)鍵應(yīng)用技術(shù)研究區(qū)域產(chǎn)業(yè)帶集成制造電子商務(wù)Regional,Intergrate,industuryorenterpriseorcorporationelectroniccommerce,manufacturingorprojectorproduct附錄:檢索詞選取案例86隧道用變基氰凝及聚浮超細復(fù)合水泥基灌漿治理滲漏材料
灌漿氰凝聚氨基甲酸酯超細水泥抗?jié)B堵漏groutingLow-polymerpolyurethaneSuperfinecement調(diào)度集中仿真系統(tǒng)研究調(diào)度集中行車指揮仿真計算機網(wǎng)絡(luò)
CentralizedtrafficcontrolTrafficcommandsimulationComputernetwork基于WEB平臺的動態(tài)擴展ERP系統(tǒng)研究
企業(yè)資源計劃(ERP)供應(yīng)鏈客戶關(guān)系擴展開放結(jié)構(gòu)Interpriseresourceplanning(ERP)SupplychainCustomerrelationOpenarchitecture873.5信息需求分析
只有對信息需求真正了解,才能獲得正確的檢索結(jié)果。需求分析是在問題及其最終解決方案之間架設(shè)橋梁的第一步。分析清楚需求間的邏輯關(guān)系包括因果關(guān)系、依賴關(guān)系、主次關(guān)系等,需求優(yōu)先級的排列,就能探索出描述這些需求的多種解決方案883.5.1信息需求所涉及的通用問題893.5.2用戶特征所導(dǎo)致信息需求差異
每個人的知識結(jié)構(gòu)、所處環(huán)境和面臨的問題都有所不同,由此而產(chǎn)生的信息需求也千差萬別的。即使面對同一課題,不同身份的人需求的內(nèi)容也不相同。903.5.3不同階段的信息需求差異
在學(xué)術(shù)研究過程中,研究人員在課題設(shè)計、課題實驗(試驗)、成果發(fā)表、論文寫作等不同階段的信息需求也會不同913.5.4信息需求類型和文獻類型的對應(yīng)關(guān)系923.6檢索流程
檢索流程是從確立信息需求到信息需求滿足的全過程。對于不同的檢索系統(tǒng)、不同的課題、不同的用戶來說,其具體檢索流程有所不同。通用信息檢索流程一般包括:分析檢索課題、選擇檢索工具、確定檢索策略、調(diào)整檢索策略及獲取原始文獻等流程93943.6.1分析檢索課題,進行信息需求分析課題分析確定檢索主題確定檢索的范圍:地理、時間段、文獻類型等預(yù)期所需文獻信息數(shù)量951、分析課題的主題內(nèi)容分析課題的主題內(nèi)容、所屬學(xué)科性質(zhì),明確研究課題所需的信息內(nèi)容,從而提出能準(zhǔn)確反映課題核心內(nèi)容的主題概念。2、確定檢索時間范圍根據(jù)課題研究的起始年代和研究的高峰期確定檢索的時間范圍。963、確定課題的文獻類型通過對課題進行主題分析后,確定所需信息的文獻類型。如果屬于基礎(chǔ)理論性探討,要側(cè)重于查找期刊論文、會議論文。如果是尖端技術(shù),應(yīng)側(cè)重于科技報告。如屬于發(fā)明創(chuàng)造,技術(shù)革新,則應(yīng)側(cè)重于專利文獻。如為產(chǎn)品定型設(shè)計,則需利用標(biāo)準(zhǔn)文獻及產(chǎn)品樣本。明確課題對檢索深度的要求,弄清用戶是需要提供題錄、文摘還是原始文獻。974、分析用戶的檢索評價要求分析用戶對檢索評介指標(biāo)是查新、查準(zhǔn)還是查全。一般來說,若要了解某學(xué)科、理論、課題、工藝過程等最新進展和動態(tài),則要檢索最近的文獻信息,強調(diào)一個“新”字,若要解決研究中某具體問題,找出技術(shù)方案,則要檢索有針對性、能解決實際問題的文獻信息,強調(diào)一個“準(zhǔn)”字;若要撰寫綜述、述評或?qū)V?,強調(diào)一個“全”字。985、分析用戶的檢索是否有特殊要求是否對特定的研究機構(gòu)感興趣?
是否對特定的作者的研究感興趣?
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《室內(nèi)設(shè)計空間組織》課件
- 《電源系統(tǒng)的建?!氛n件
- 《病理心理學(xué)》課件
- 通史版2025屆高考歷史二輪總復(fù)習(xí)第二編考前突破突破一史學(xué)入門與史料研讀課件
- 大學(xué)生網(wǎng)絡(luò)安全教育
- 單位管理制度集合大合集人員管理十篇
- 單位管理制度合并選集【職員管理篇】十篇
- 單位管理制度分享匯編職員管理篇
- 單位管理制度分享大全職工管理
- 單位管理制度范例選集職工管理篇十篇
- 數(shù)學(xué)-2025年高考綜合改革適應(yīng)性演練(八省聯(lián)考)
- ISO 56001-2024《創(chuàng)新管理體系-要求》專業(yè)解讀與應(yīng)用實踐指導(dǎo)材料之10:“5領(lǐng)導(dǎo)作用-5.4創(chuàng)新文化”(雷澤佳編制-2025B0)
- 2024版定制家具生產(chǎn)與知識產(chǎn)權(quán)保護合同范本2篇
- 智能制造能力成熟度模型(-CMMM-)介紹及評估方法分享
- 2024年個人總結(jié)、公司規(guī)劃與目標(biāo)
- 市場營銷試題(含參考答案)
- 信用評級機構(gòu)的責(zé)任與風(fēng)險管理考核試卷
- 中小學(xué)教師家訪記錄內(nèi)容三(共18篇)
- 英語趣味課堂課件
- 景區(qū)旅游安全風(fēng)險評估報告
- 2023年新高考(新課標(biāo))全國2卷數(shù)學(xué)試題真題(含答案解析)
評論
0/150
提交評論