![計算機(jī)信息檢索基本知識_第1頁](http://file4.renrendoc.com/view/42fd2d5d9fe292fa90f0a0fcad3e9393/42fd2d5d9fe292fa90f0a0fcad3e93931.gif)
![計算機(jī)信息檢索基本知識_第2頁](http://file4.renrendoc.com/view/42fd2d5d9fe292fa90f0a0fcad3e9393/42fd2d5d9fe292fa90f0a0fcad3e93932.gif)
![計算機(jī)信息檢索基本知識_第3頁](http://file4.renrendoc.com/view/42fd2d5d9fe292fa90f0a0fcad3e9393/42fd2d5d9fe292fa90f0a0fcad3e93933.gif)
![計算機(jī)信息檢索基本知識_第4頁](http://file4.renrendoc.com/view/42fd2d5d9fe292fa90f0a0fcad3e9393/42fd2d5d9fe292fa90f0a0fcad3e93934.gif)
![計算機(jī)信息檢索基本知識_第5頁](http://file4.renrendoc.com/view/42fd2d5d9fe292fa90f0a0fcad3e9393/42fd2d5d9fe292fa90f0a0fcad3e93935.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
計算機(jī)信息檢索基本知識第一頁,共七十三頁,編輯于2023年,星期五信息化社會生存策略
一、現(xiàn)代人應(yīng)具備信息素質(zhì)
信息素質(zhì)包括兩個方面:(1)信息意識信息意識是指對知識信息重要性的認(rèn)識和對知識信息的敏感性。(2)信息能力信息能力是指獲取、加工、利用和創(chuàng)新知識信息的能力,其重點(diǎn)和基礎(chǔ)是信息檢索能力。第二頁,共七十三頁,編輯于2023年,星期五信息化社會生存策略二、現(xiàn)代人信息化生存策略
●信息化生存包括數(shù)字化生存、網(wǎng)絡(luò)化生存和智能化生存。數(shù)字化、網(wǎng)絡(luò)化構(gòu)成了人們生存的信息環(huán)境,而智能化是有效發(fā)揮知識信息的功能、解決問題、克服危機(jī)和創(chuàng)造財富的最佳方式。
●全球數(shù)字化信息近年來增長迅猛,據(jù)一項(xiàng)最新研究結(jié)果稱,2006年全球產(chǎn)生的數(shù)字化信息總量達(dá)1610億吉比特,其中原創(chuàng)信息為400億吉比特。而到2010年,全球產(chǎn)生的數(shù)字化信息總量有望達(dá)到9880億吉比特。
●具有較高信息素質(zhì)的人,就應(yīng)表現(xiàn)出有良好的信息意識、敏捷的信息思維以及較強(qiáng)的信息能力。(1)培養(yǎng)良好的信息意識(2)注重提高信息檢索能力第三頁,共七十三頁,編輯于2023年,星期五信息知識情報文獻(xiàn)信息是世界上一切事物的運(yùn)動狀態(tài)、特征及其反映。它與事物同在,與事物共存,不以人的意志而改變。信息是人類認(rèn)識世界,改造世界的重要資源。了解和掌握各種信息的獲取途徑和方法,及時獲得所需信息,對于個人、團(tuán)體、企業(yè)、事業(yè),乃至國家來說都至關(guān)重要。計算機(jī)信息檢索基礎(chǔ)知識第四頁,共七十三頁,編輯于2023年,星期五知識是人類對客觀事物規(guī)律的認(rèn)識。人類通過實(shí)踐,認(rèn)識和掌握自然和社會運(yùn)動形態(tài)及其規(guī)律,同時對在實(shí)踐中積累起來的經(jīng)驗(yàn)進(jìn)行概括、總結(jié)、升華,有選擇地收入到人類的思維系統(tǒng),形成知識。知識是信息的一部分,是人類認(rèn)識和改造世界的武器。把信息轉(zhuǎn)化為知識,再把知識轉(zhuǎn)化為智慧,智慧可以轉(zhuǎn)化為新的知識,新知識又可轉(zhuǎn)化為新的信息,這是一種動態(tài)的開拓過程。信息知識情報文獻(xiàn)第五頁,共七十三頁,編輯于2023年,星期五情報是為解決某一特定問題所需要的知識。只有將特定的知識傳遞給特定需要的人,特定的知識才被稱之為情報。因此,知識性、傳遞性和效用性是情報的三個基本屬性。信息知識情報文獻(xiàn)第六頁,共七十三頁,編輯于2023年,星期五文獻(xiàn)是記錄有知識的一切載體。凡是用文字、圖形、符號、聲像等手段記錄下來,印在紙上或攝制在膠片上,錄在唱片或磁帶上,存儲在計算機(jī)磁帶、磁盤或光盤等物質(zhì)載體之上的知識或信息統(tǒng)稱為文獻(xiàn)。知識性、記錄性和物質(zhì)性是文獻(xiàn)的三個基本屬性。信息知識情報文獻(xiàn)第七頁,共七十三頁,編輯于2023年,星期五信息的類型
1.按產(chǎn)生信息的客體性質(zhì)來劃分(1)自然信息是指自然界中的各種信息,包括瞬時發(fā)生的聲、光、熱、電、形形色色的天氣變化、緩慢的地殼運(yùn)動、天體演化等等。(2)生物信息是指生物為繁衍生存而表現(xiàn)出來的各種形態(tài)和行為,如遺傳信息、生物體內(nèi)信息交流、動物種群內(nèi)的信息交流等。(3)社會信息是指人類各種活動所產(chǎn)生、傳遞與利用的信息,包括人與人之間交流的信息,人與機(jī)器之間作用的信息。按照人類活動領(lǐng)域,社會信息又可分為科技信息、經(jīng)濟(jì)信息、政治信息、軍事信息、文化信息等。
第八頁,共七十三頁,編輯于2023年,星期五信息的類型2.按信息的內(nèi)容加工層次來劃分(1)零次信息是指記錄在非正規(guī)物理載體上的、未經(jīng)加工整理的信息,如書信、筆記、手稿、考察記錄、實(shí)驗(yàn)記錄等。這類信息往往呈現(xiàn)為零星的、分散的和無規(guī)則的狀態(tài),具有原始性、新穎性、分散性和不可檢索性等特征。(2)一次信息一次信息是指記錄在正規(guī)載體上的、經(jīng)過一定加工整理的信息,即以作者本人的生產(chǎn)和科研工作為依據(jù)而創(chuàng)作的原始信息,如專著、論文、研究報告、專利說明書、技術(shù)標(biāo)準(zhǔn)等。一次信息具有創(chuàng)造性、系統(tǒng)性和新穎性等特征。(3)二次信息二次信息是指將分散的、無序的一次信息進(jìn)行加工整理后,使之成為系統(tǒng)有序的信息,如書目、題錄、文摘、索引等,就是通常所指的檢索工具。二次信息具有濃縮性、匯集性和有序性等特點(diǎn)。(4)三次信息三次信息是根據(jù)二次信息提供的線索,利用一次信息,經(jīng)過調(diào)研、分析、綜合后而形成的信息,如述評、綜述、進(jìn)展報告、數(shù)據(jù)手冊和年鑒等。三次信息具有較強(qiáng)的概括性,成為人們研究新事物的具體結(jié)論和成果。第九頁,共七十三頁,編輯于2023年,星期五信息的類型3.按信息所依附的載體來劃分
(1)口語信息
是指存在于人腦記憶中,通過交談、討論、報告等方式交流傳播的信息。它反映了人們的思考、見解、看法和觀點(diǎn),是推動研究的最初起源??谡Z信息具有出現(xiàn)早、傳遞快、偶發(fā)性強(qiáng)的特點(diǎn),但缺乏完整性和系統(tǒng)性,大部分轉(zhuǎn)瞬即逝,一部分通過文獻(xiàn)保存,一部分留存在人類的記憶中,代代相傳而稱為口述回憶或口碑資料。作為信息留存的一種形式,口語信息無時不在,無處不有,承載著人類的知識、經(jīng)驗(yàn)和史實(shí),是一種需要重視和開發(fā)的極為豐富的資源。(2)實(shí)物信息
是指固化在實(shí)物中的信息,實(shí)物包括自然實(shí)物和人工實(shí)物(如文物、產(chǎn)品樣本、模型、碑刻、雕塑等)。其特點(diǎn)是直觀性強(qiáng)、感覺實(shí)在、信息量大,但需要通過知識、智慧、經(jīng)驗(yàn)和工具來挖掘其隱含的大量信息。第十頁,共七十三頁,編輯于2023年,星期五信息的類型(3)文獻(xiàn)信息
是指以文獻(xiàn)作為載體形式所表達(dá)的內(nèi)載信息,即以文字、圖形、符號、聲頻、視頻等方式記錄在各種載體上的信息。文獻(xiàn)信息也是一種相對固化的信息,一經(jīng)“固定”在某種載體上就不能隨外界的變化而變化。這種性質(zhì)的優(yōu)點(diǎn)是,易識別、易保存、易傳播;缺點(diǎn)是不能隨外界的變化而變化,固態(tài)化是文獻(xiàn)信息老化的原因。
(4)數(shù)字信息
亦可稱為電子信息,是指以數(shù)字代碼方式將文字、圖形、圖像、聲音、動畫等存儲在磁帶、磁盤、光盤等介質(zhì)上,以電信號、光信號的形式傳輸,并通過網(wǎng)絡(luò)通信、計算機(jī)及其終端設(shè)備再現(xiàn)出來的一種信息。數(shù)字信息是計算機(jī)技術(shù)、通信技術(shù)、多媒體技術(shù)和高密度存儲技術(shù)迅速發(fā)展的產(chǎn)物。它需要用計算機(jī)才能讀取信息,具有存儲容量大、存取速度快、體積小、可共享等特點(diǎn)。這是當(dāng)今發(fā)展最快、最具應(yīng)用價值和發(fā)展前景的新型信息。第十一頁,共七十三頁,編輯于2023年,星期五信息資源的概念
信息作為一種客觀存在的自然和社會財富,其來源稱為信息資源。信息資源是指一切能夠產(chǎn)生信息或?yàn)榱藗鬟f而存有信息的系統(tǒng)。它包括信息生成源和加工整理后的再生源。凡是產(chǎn)生和持有信息,并能傳遞或透露信息的人、物體和機(jī)構(gòu),都可稱之為信息資源。信息資源可分為自然信息資源和社會信息資源。前者廣泛存在于自然界中,是事物運(yùn)動和生物生存活動的結(jié)果,人們通過自然信息資源的利用來認(rèn)識世界,例如,科學(xué)技術(shù)信息;后者則存在于人類活動之中,是社會的直接產(chǎn)物,使人類從事各種活動的基礎(chǔ),例如,政策法規(guī)信息、社會發(fā)展信息、市場信息、金融信息等。第十二頁,共七十三頁,編輯于2023年,星期五信息資源類型
1.口語信息資源
口語信息資源是人類以口頭語言所表述出來而未被記錄下來的信息資源,它們在特定的場合被信息接收方直接消費(fèi)并且能夠輾轉(zhuǎn)相傳而為更多的人們所利用,如談話、聊天、授課、講演、討論、唱歌、打電話、聽廣播、看電視等活動都是以口語信息資源的交流和利用為核心的。第十三頁,共七十三頁,編輯于2023年,星期五信息資源類型2.實(shí)物信息資源
●實(shí)物信息資源是指由實(shí)物本身來存儲和表現(xiàn)知識信息的信息資源,人類傳承的知識有許多被物化在各類物體之中,如工具、設(shè)備、武器、產(chǎn)品樣本、模型、碑刻、雕塑、建筑物等。
●通過實(shí)物信息資源往往可以獲取直接為生產(chǎn)服務(wù)的技術(shù)信息,如關(guān)于物體的生產(chǎn)、結(jié)構(gòu)、成分、功能、用途、發(fā)展等方面的情況。
●實(shí)物信息獲取的主要目標(biāo)首先是高技術(shù)實(shí)物,實(shí)物的技術(shù)水平越高,則所含信息價值越大,從中獲取的信息質(zhì)量就高。其次是實(shí)物樣品,實(shí)物樣品的原始程度越高,所含信息就越真實(shí),如采集植物標(biāo)本、礦物樣品、產(chǎn)品樣本等可以獲取可靠的信息。第十四頁,共七十三頁,編輯于2023年,星期五信息資源類型
3.文獻(xiàn)信息資源
文獻(xiàn)信息資源以記錄方式和載體材料為依據(jù)可劃分為:書寫型、印刷型、縮微型、機(jī)讀型和聲像型五大類。
(1)書寫型文獻(xiàn)信息資源:一般以紙張為載體,記錄方式為人工抄寫,包括手稿、信件、日記、原始檔案等。
(2)印刷型文獻(xiàn)信息資源:主要以紙張為載體,記錄方式主要是印刷技術(shù),包括油印、鉛印、膠印、木板印刷、復(fù)印、激光打印等。
(3)縮微型文獻(xiàn)信息資源:以感光材料為載體,記錄方式主要是光學(xué)記錄技術(shù),主要類型有縮微膠卷、縮微平片、縮微卡片等。
(4)機(jī)讀型文獻(xiàn)信息資源:以磁性材料為載體,記錄方式為磁錄技術(shù),主要類型有磁帶、磁盤、軟盤、光盤等。
(5)聲像型文獻(xiàn)信息資源:以感光材料和磁性材料為載體,記錄方式為光錄技術(shù)和磁錄技術(shù),主要類型有唱片、錄音錄像帶、電影膠卷、膠片、幻燈片等。第十五頁,共七十三頁,編輯于2023年,星期五信息資源類型這里著重介紹一些主要的文獻(xiàn)信息源:(1)圖書圖書是指論述或介紹某一學(xué)科或領(lǐng)域知識的出版物。圖書往往是作者對已經(jīng)發(fā)表的科研成果及其知識體系進(jìn)行概括和總結(jié),即具有獨(dú)立的內(nèi)容體系、相當(dāng)篇幅和完整裝幀形式的文獻(xiàn)。
其特點(diǎn):內(nèi)容比較成熟,所提供的知識系統(tǒng)、全面,出版形式也較固定,是系統(tǒng)掌握各學(xué)科知識的基本資料。但出版周期較長,傳遞報道速度較慢。
(2)期刊期刊是指有固定名稱、統(tǒng)一出版形式和一定出版規(guī)律的定期或不定期的連續(xù)出版物。期刊最突出的特點(diǎn):出版迅速、內(nèi)容新穎、能迅速反映科學(xué)技術(shù)研究成果的新信息。期刊還具有連續(xù)性的特點(diǎn),因而能為報導(dǎo)不斷發(fā)展著的知識提供良好的條件。這一特點(diǎn),使期刊成為人們尋找研究上的新發(fā)現(xiàn)、新思想、新見解、新問題的首要信息源。第十六頁,共七十三頁,編輯于2023年,星期五信息資源類型
(3)會議文獻(xiàn)
會議文獻(xiàn)是指在各種會議上宣讀和交流的論文、報告和其他有關(guān)資料。
會議文獻(xiàn)的特點(diǎn):專業(yè)性強(qiáng)、內(nèi)容新穎、學(xué)術(shù)水平高、出版發(fā)行較快。會議文獻(xiàn)往往能代表某一學(xué)科領(lǐng)域的最新的研究成果及水平,從中可了解國內(nèi)外科技發(fā)展趨勢,有較大的參考價值,是重要的信息來源之一。
(4)專利文獻(xiàn)
專利文獻(xiàn)是記錄有關(guān)發(fā)明創(chuàng)造信息的文獻(xiàn),蘊(yùn)含著技術(shù)信息、法律信息和經(jīng)濟(jì)信息。廣義的專利包括專利申請書、專利說明書、專利公報和專利檢索工具,以及與專利有關(guān)的一切資料;狹義的專利僅指各國專利局出版的專利說明書。專利說明書是指專利申請人向?qū)@诌f交的有發(fā)明目的、構(gòu)成和效果的技術(shù)文件。它經(jīng)專利局審核后,向全世界出版發(fā)行。專利說明書內(nèi)容比較具體,有的還有附圖,通過它可以了解該項(xiàng)專利的主要技術(shù)內(nèi)容。構(gòu)成專利要符合新穎性、創(chuàng)造性和實(shí)用性三個基本條件。
第十七頁,共七十三頁,編輯于2023年,星期五信息資源類型
(5)科技報告
科技報告是指國家政府部門或科研生產(chǎn)單位關(guān)于某項(xiàng)研究成果的總結(jié)報告,或是研究過程中的階段進(jìn)展報告。
報告的出版特點(diǎn):各篇單獨(dú)成冊,統(tǒng)一編號,由主管機(jī)構(gòu)連續(xù)出版。在內(nèi)容方面,報告比期刊論文新穎專深、詳盡、可靠,出版周期短,報道速度快,能反映一個國家或某一學(xué)科領(lǐng)域的科研水平,是一種不可多得的信息源??萍紙蟾姘窗l(fā)行范圍可分為絕密報告、機(jī)密報告、秘密報告、非密報告、解密報告。
(6)標(biāo)準(zhǔn)文獻(xiàn)
標(biāo)準(zhǔn)文獻(xiàn)指標(biāo)準(zhǔn)化工作的文件,是經(jīng)過公認(rèn)的權(quán)威當(dāng)局批準(zhǔn)的標(biāo)準(zhǔn)化工作成果。其中主要為有關(guān)工業(yè)產(chǎn)品和工程建設(shè)的質(zhì)量、規(guī)格和檢驗(yàn)方法的技術(shù)規(guī)定文件。一個國家的標(biāo)準(zhǔn)文獻(xiàn)反映該國的生產(chǎn)工藝水平和技術(shù)經(jīng)濟(jì)政策,而國際現(xiàn)行標(biāo)準(zhǔn)則代表了當(dāng)前世界水平。國際標(biāo)準(zhǔn)和工業(yè)先進(jìn)國家的標(biāo)準(zhǔn)常是科研生產(chǎn)活動的重要依據(jù)和信息來源。
第十八頁,共七十三頁,編輯于2023年,星期五信息資源類型
(7)學(xué)位論文
學(xué)位論文是指高等院校、科研單位的研究生為申請碩士、博士等學(xué)位,在導(dǎo)師指導(dǎo)下完成的科學(xué)研究、科學(xué)試驗(yàn)成果的學(xué)術(shù)論文。碩士論文一般能表明作者在某門學(xué)科上掌握了堅實(shí)的基本理論和系統(tǒng)的專門知識,并對所研究的課題有新的見解,有從事科學(xué)研究工作的能力。博士論文一般能表明作者在某門學(xué)科上掌握了堅實(shí)寬廣的基本理論和系統(tǒng)深入的專門知識,并具有獨(dú)立從事科學(xué)研究工作的能力,在科學(xué)研究或?qū)iT學(xué)術(shù)領(lǐng)域具有創(chuàng)造性成果。
(8)產(chǎn)品資料
產(chǎn)品資料指產(chǎn)品目錄、產(chǎn)品樣本和產(chǎn)品說明書一類的廠商為向客戶宣傳和推銷其產(chǎn)品而印發(fā)的介紹產(chǎn)品情況的文獻(xiàn)。產(chǎn)品目錄介紹廠家業(yè)務(wù)范圍、列出產(chǎn)品名稱型號、并附有產(chǎn)品外型、規(guī)格、用途的簡單介紹。產(chǎn)品樣本多以活頁形式印發(fā),是對定型產(chǎn)品的型號、技術(shù)規(guī)格、原理性能、技術(shù)參數(shù)所作的具體介紹,也附有結(jié)構(gòu)圖和照片。產(chǎn)品說明書的內(nèi)容更詳盡,往往還列出產(chǎn)品的工作原理、用途、效率、結(jié)構(gòu)特點(diǎn)、操作規(guī)程、使用、保養(yǎng)和維修方法等。第十九頁,共七十三頁,編輯于2023年,星期五信息資源類型
(9)檔案文獻(xiàn)
檔案是國家機(jī)構(gòu)、社會組織以及個人從事政治、軍事、經(jīng)濟(jì)、科學(xué)、技術(shù)、文化、宗教等活動形成的具有保存價值的歷史記錄文獻(xiàn)。檔案是在人們的社會實(shí)踐活動中形成的,它的內(nèi)容也反映了人們所進(jìn)行的政治活動、生產(chǎn)活動和科學(xué)技術(shù)活動,所以檔案的內(nèi)容廣泛、形式多樣、材料來源龐雜。經(jīng)過整理后它們分別成為:文書檔案、人事檔案、會計檔案、技術(shù)檔案等等。技術(shù)檔案指科研生產(chǎn)活動中形成的,有具體事物對象的技術(shù)文件、圖紙、圖表、照片和原始記錄等的總稱。
(10)政府出版物
政府出版物是指各國政府部門及其設(shè)立的專門機(jī)構(gòu)出版的文獻(xiàn)。政府出版物的內(nèi)容十分廣泛,既有科學(xué)技術(shù)方面的,也有社會經(jīng)濟(jì)方面的,大致上可分兩類:行政性文獻(xiàn)(包括憲法、司法文獻(xiàn)),主要涉及政府法律、經(jīng)濟(jì)方面的國會和議會記錄、議案、決議、司法資料、聽證記錄、法律、法令、規(guī)章制度、政策、調(diào)查統(tǒng)計資料等??茖W(xué)技術(shù)文獻(xiàn),主要指政府部門出版的科技報告、標(biāo)準(zhǔn)、專利文獻(xiàn)、科技政策文件,公開后的科技檔案、經(jīng)濟(jì)規(guī)劃、氣象資料等。第二十頁,共七十三頁,編輯于2023年,星期五信息資源類型4.?dāng)?shù)字信息資源
●
數(shù)字信息資源是在計算機(jī)技術(shù)、通信技術(shù)和高密度存貯技術(shù)的迅速發(fā)展并在各個領(lǐng)域里得到廣泛應(yīng)用的環(huán)境下產(chǎn)生的一種信息資源形式。
●它是指經(jīng)過數(shù)字化處理的,可通過計算機(jī)系統(tǒng)或通信網(wǎng)絡(luò)等識別、傳遞、瀏覽的信息資源。第二十一頁,共七十三頁,編輯于2023年,星期五計算機(jī)信息檢索基礎(chǔ)知識
“檢索”的英文是“Retrieval”,其涵義是“查找”。將信息按一定的方式和規(guī)律排列存儲,并針對用戶特定需求查找出所需信息的過程稱為信息檢索。信息檢索是從任何信息集合中識別和獲取所需信息的過程及其所采取的一系列方法和策略。從廣義來說,信息檢索包括存儲過程和檢索過程;對信息用戶而言,往往是指查找所需信息的檢索過程。信息檢索根據(jù)其檢索對象和結(jié)果的不同可分為:
數(shù)據(jù)檢索、文獻(xiàn)檢索、事實(shí)檢索由于信息大多來源于文獻(xiàn),離不開文獻(xiàn)這一范疇,國內(nèi)外對信息檢索和文獻(xiàn)檢索往住不作嚴(yán)格區(qū)分。
第二十二頁,共七十三頁,編輯于2023年,星期五計算機(jī)信息檢索基礎(chǔ)知識●文獻(xiàn)信息檢索
●是以文獻(xiàn)(包括題錄、文摘和全文)為檢索對象的信息檢索。即利用相應(yīng)的方式與手段,在存貯文獻(xiàn)的檢索工具或文獻(xiàn)數(shù)據(jù)庫中,查尋用戶在特定的時間和條件下所需文獻(xiàn)的過程。
●凡是查找某一主題、時代、地區(qū)、著者、文種的有關(guān)文獻(xiàn),以及回答這些文獻(xiàn)的出處和收藏處所等,都屬于文獻(xiàn)型信息檢索的范疇。
●它為用戶提供的是與用戶的信息需求相關(guān)的文獻(xiàn)信息。這些文獻(xiàn)可以是涉及某一主題、學(xué)科、著者、文種、年代的文獻(xiàn);文獻(xiàn)的收藏范圍可以是一館、一地、一國直至全世界。
●文獻(xiàn)檢索的結(jié)果提供與課題相關(guān)的數(shù)篇文獻(xiàn)的線索或原文供用戶參考,這些相關(guān)文獻(xiàn)的相關(guān)程度隨檢索系統(tǒng)和檢索技術(shù)的優(yōu)劣可以有很大區(qū)別。
●完成文獻(xiàn)信息檢索主要借助于各種書目數(shù)據(jù)庫和全文數(shù)據(jù)庫。第二十三頁,共七十三頁,編輯于2023年,星期五計算機(jī)信息檢索基礎(chǔ)知識●數(shù)據(jù)信息檢索
●是以數(shù)值或圖表形式表示的數(shù)據(jù)為檢索對象的信息檢索,又稱“數(shù)值檢索”。即檢索系統(tǒng)中存貯的是大量的數(shù)據(jù),它包括物質(zhì)的各種參數(shù)、電話號碼、銀行賬號、觀測數(shù)據(jù)、統(tǒng)計數(shù)據(jù)等數(shù)字?jǐn)?shù)據(jù),也包括圖表、圖譜、市場行情、化學(xué)分子式、物質(zhì)的各種特性等非數(shù)字?jǐn)?shù)據(jù),并提供一定的運(yùn)算推導(dǎo)能力。
●數(shù)據(jù)檢索是一種確定性檢索,信息用戶檢索到的各種數(shù)據(jù)是經(jīng)過專家測試、評價、篩選過的,可直接用來進(jìn)行定量分析。數(shù)據(jù)檢索與文獻(xiàn)檢索有許多共同之處,文獻(xiàn)檢索的許多方法也適用于數(shù)據(jù)檢索。
●完成數(shù)據(jù)信息檢索主要借助于各種數(shù)值數(shù)據(jù)庫。
第二十四頁,共七十三頁,編輯于2023年,星期五計算機(jī)信息檢索基礎(chǔ)知識●事實(shí)信息檢索
●是以從文獻(xiàn)中抽取的事項(xiàng)為檢索內(nèi)容的信息檢索,又稱
“事項(xiàng)檢索”。其檢索對象既包括事實(shí)、概念、思想、知識等非數(shù)值信息,也包括一些數(shù)據(jù)信息,但要針對查詢要求,由檢索系統(tǒng)進(jìn)行分析、推理后,再輸出最終結(jié)果。
●事實(shí)檢索是信息檢索中最復(fù)雜的一種,要求檢索系統(tǒng)必須有一定的邏輯推理能力和自然語言理解功能。
●事實(shí)檢索也是一種確定性檢索,用戶獲得的是有關(guān)某一事物的具體答案。
●完成事實(shí)信息檢索主要借助于各種指南數(shù)據(jù)庫和全文數(shù)據(jù)庫。第二十五頁,共七十三頁,編輯于2023年,星期五
計算機(jī)信息檢索基礎(chǔ)知識
隨著計算機(jī)技術(shù)、通信技術(shù)和高密度存儲技術(shù)的迅猛發(fā)展,利用計算機(jī)進(jìn)行信息檢索已成為人們獲取文獻(xiàn)信息的重要手段。計算機(jī)信息檢索能夠跨越時空,在短時間內(nèi)查閱各種數(shù)據(jù)庫,還能快速地對幾十年前的文獻(xiàn)資料進(jìn)行回溯檢索,而且大多數(shù)檢索系統(tǒng)數(shù)據(jù)庫中的信息更新速度很快,檢索者隨時可以檢索到所需的最新信息資源??茖W(xué)研究工作過程中的課題立項(xiàng)論證、技術(shù)難題攻關(guān)、跟蹤前沿技術(shù)、成果鑒定和專利申請的科技查新等都離不開查詢大量的相關(guān)信息。計算機(jī)信息檢索是目前最快速、最省力、最經(jīng)濟(jì)的信息檢索方法。第二十六頁,共七十三頁,編輯于2023年,星期五計算機(jī)信息檢索基礎(chǔ)知識●計算機(jī)信息檢索原理
●計算機(jī)信息檢索是指利用計算機(jī)存儲和檢索信息。
●具體地說,就是指人們在計算機(jī)或計算機(jī)檢索網(wǎng)絡(luò)的終端機(jī)上,使用特定的檢索指令、檢索詞和檢索策略,從計算機(jī)檢索系統(tǒng)的數(shù)據(jù)庫中檢索出所需的信息,繼而再由終端設(shè)備顯示或打印的過程。
●為實(shí)現(xiàn)計算機(jī)信息檢索,必須事先將大量的原始信息加工處理、以數(shù)據(jù)庫的形式存儲在計算機(jī)中,所以計算機(jī)信息檢索廣義上講包括信息的存儲和檢索兩個方面。第二十七頁,共七十三頁,編輯于2023年,星期五計算機(jī)信息檢索基礎(chǔ)知識●計算機(jī)信息存儲過程:
●用手工或者自動方式將大量的原始信息進(jìn)行加工,具體做法是將收集到的原始文獻(xiàn)進(jìn)行主題概念分析,根據(jù)一定的檢索語言抽取出主題詞、分類號以及文獻(xiàn)的其他特征進(jìn)行標(biāo)識或者寫出文獻(xiàn)的內(nèi)容摘要。
●然后再把這些經(jīng)過“前處理”的數(shù)據(jù)按一定格式輸入計算機(jī)存儲起來,計算機(jī)在程序指令的控制下對數(shù)據(jù)進(jìn)行處理,形成機(jī)讀數(shù)據(jù)庫,存儲在存儲介質(zhì)(如磁帶、磁盤或光盤)上,完成信息的加工存儲過程。第二十八頁,共七十三頁,編輯于2023年,星期五計算機(jī)信息檢索基礎(chǔ)知識●計算機(jī)信息檢索過程:
●用戶對檢索課題加以分析,明確檢索范圍,弄清主題概念,然后用系統(tǒng)檢索語言來表示主題概念,形成檢索標(biāo)識及檢索策略,輸入到計算機(jī)進(jìn)行檢索。計算機(jī)按照用戶的要求將檢索策略轉(zhuǎn)換成一系列提問,在專用程序的控制下進(jìn)行高速邏輯運(yùn)算,選出符合要求的信息輸出。
●計算機(jī)檢索的過程實(shí)際上是一個比較、匹配的過程,檢索提問只要與數(shù)據(jù)庫中的信息的特征標(biāo)識及其邏輯組配關(guān)系相一致,則屬“命中”,即找到了符合要求的信息。第二十九頁,共七十三頁,編輯于2023年,星期五計算機(jī)信息檢索基本原理第三十頁,共七十三頁,編輯于2023年,星期五計算機(jī)信息檢索系統(tǒng)的組成
1.計算機(jī)
計算機(jī)是檢索系統(tǒng)的核心部分,通過一定的檢索軟件,進(jìn)行信息的存儲、處理、檢索以及整個系統(tǒng)的運(yùn)行和管理。2.通信網(wǎng)絡(luò)
通信網(wǎng)絡(luò)是聯(lián)系計算機(jī)系統(tǒng)和檢索終端設(shè)備的橋梁,起著遠(yuǎn)距離、高速度、無差錯傳遞信息的作用。檢索網(wǎng)絡(luò)所用的通信線路,一般是公用電話線或?qū)S镁€,國際聯(lián)機(jī)檢索系統(tǒng)則是由通信衛(wèi)星和海底電纜構(gòu)成的通信網(wǎng)絡(luò)。第三十一頁,共七十三頁,編輯于2023年,星期五3.檢索終端設(shè)備檢索終端設(shè)備是用戶與檢索系統(tǒng)相互傳遞信息,進(jìn)行
“人—機(jī)對話”的裝置,現(xiàn)在基本上都是PC機(jī)終端,通常由計算機(jī)、調(diào)制解調(diào)器和打印機(jī)組成。4.數(shù)據(jù)庫
數(shù)據(jù)庫就是在計算機(jī)存儲設(shè)備上按一定方式存儲的相互關(guān)聯(lián)的數(shù)據(jù)集合。是檢索系統(tǒng)的信息源,也是用戶檢索的對象。數(shù)據(jù)庫可以隨時按不同的目的提供各種組合信息,以滿足檢索者的需求。檢索系統(tǒng)(檢索平臺)中的數(shù)據(jù)庫一般由各個數(shù)據(jù)庫生產(chǎn)商提供,也有一些是系統(tǒng)本身建的。第三十二頁,共七十三頁,編輯于2023年,星期五計算機(jī)信息檢索的發(fā)展
1.脫機(jī)批處理檢索階段在利用計算機(jī)進(jìn)行信息檢索的早期,人們只是用單臺計算機(jī)的輸入輸出裝置進(jìn)行檢索,用磁帶作存儲介質(zhì),一般為連續(xù)的順序檢索方式。檢索部門把許多用戶的檢索提問匯總到一起,進(jìn)行批量檢索,然后把檢索結(jié)果通知各個用戶,用戶不直接接觸計算機(jī)。2.聯(lián)機(jī)檢索階段
20世紀(jì)60年代末,由于計算機(jī)軟硬件技術(shù)的不斷提高,出現(xiàn)了一臺主機(jī)帶多個終端的聯(lián)機(jī)信息檢索系統(tǒng)。這種系統(tǒng)具有分時的操作能力,能夠使許多相互獨(dú)立的終端同時進(jìn)行檢索。這種系統(tǒng)采用實(shí)時操作技術(shù),所以用戶可以使用終端設(shè)備直接與計算機(jī)進(jìn)行“人—機(jī)對話”,計算機(jī)對用戶的提問能及時處理并顯示出結(jié)果。第三十三頁,共七十三頁,編輯于2023年,星期五3.光盤檢索階段
光盤是一種用激光記錄和讀取信息的盤片,具有信息存取密度高、容量大、讀取速度快、信息類型多、保存時間長、成本低等優(yōu)點(diǎn)。它是80年代在計算機(jī)技術(shù)、激光技術(shù)和精密伺服電機(jī)技術(shù)等現(xiàn)代科學(xué)技術(shù)成果的基礎(chǔ)上發(fā)展起來的新型電子出版物。光盤數(shù)據(jù)庫的類型不斷豐富,除了最初的書目數(shù)據(jù)庫外,又增加了文摘數(shù)據(jù)庫、數(shù)值事實(shí)參考數(shù)據(jù)庫、全文數(shù)據(jù)庫等等,并且還出現(xiàn)了圖像型、音頻型、軟件型和多媒體型等多種形式的CD-ROM產(chǎn)品。4.網(wǎng)絡(luò)化檢索階段
進(jìn)入20世紀(jì)90年代,圖書館、信息服務(wù)機(jī)構(gòu)和科研機(jī)構(gòu)以及一些大的數(shù)據(jù)庫生產(chǎn)商紛紛加入到因特網(wǎng)上,為信息需求者提供各種各樣的信息服務(wù),構(gòu)成極其豐富的網(wǎng)絡(luò)信息資源。第三十四頁,共七十三頁,編輯于2023年,星期五數(shù)據(jù)庫的類型1.文獻(xiàn)書目數(shù)據(jù)庫(BibliographicDatabases)
文獻(xiàn)書目數(shù)據(jù)庫是存儲某個領(lǐng)域原始文獻(xiàn)的書目,即二次文獻(xiàn)數(shù)據(jù)庫,記錄內(nèi)容包括文獻(xiàn)的題目、著者、原文出處、文摘、主題詞等。大多數(shù)是印刷本檢索工具的機(jī)讀版,如美國工程索引數(shù)據(jù)庫(EiCompendex)等。2.信息指南數(shù)據(jù)庫(DictionaryDatabases)
信息指南數(shù)據(jù)庫主要是記錄一些機(jī)構(gòu)、人物、產(chǎn)品、項(xiàng)目簡述等事實(shí)數(shù)據(jù),通過該類數(shù)據(jù)庫可以查到公司、機(jī)構(gòu)的地址、電話、產(chǎn)品目錄、研究項(xiàng)目或名人簡歷等信息。這類數(shù)據(jù)庫也稱為事實(shí)數(shù)據(jù)庫。第三十五頁,共七十三頁,編輯于2023年,星期五3.數(shù)值型數(shù)據(jù)庫(NumericDatabases)數(shù)值數(shù)據(jù)庫是專門提供以數(shù)據(jù)形式表示信息的一種源數(shù)據(jù)庫。主要記錄科學(xué)研究中試驗(yàn)、測量、計算、工程設(shè)計、經(jīng)濟(jì)分析和工業(yè)規(guī)劃等方面的數(shù)據(jù)。這類數(shù)據(jù)庫主要包含數(shù)值數(shù)據(jù),有的也包含文字,文字是用來定義數(shù)據(jù)所需的最小量的文字。4.全文數(shù)據(jù)庫(CompleteTextDatabases)全文數(shù)據(jù)庫是存儲文獻(xiàn)內(nèi)容全文或其中主要部分的數(shù)據(jù)庫,簡稱全文庫。它是將經(jīng)典著作、學(xué)術(shù)期刊、重要的會議錄、法律法規(guī)、新聞報道以及百科全書、手冊、年鑒等的全部文字和非文字內(nèi)容轉(zhuǎn)換成計算機(jī)可讀形式。全文數(shù)據(jù)庫可以解決用戶獲取一次文獻(xiàn)所遇到的困難,能向用戶提供一步到位的查找原始文獻(xiàn)的信息服務(wù)。
第三十六頁,共七十三頁,編輯于2023年,星期五數(shù)據(jù)庫的記錄格式
數(shù)據(jù)庫的記錄是構(gòu)成數(shù)據(jù)庫順排文檔(主文檔)的基本單元,是對某一實(shí)體屬性進(jìn)行描述的結(jié)果。在書目數(shù)據(jù)庫中,被描述的實(shí)體是某一特定的文獻(xiàn),通常被稱作文獻(xiàn)記錄。一條記錄又包含若干個數(shù)據(jù)字段。這些數(shù)據(jù)字段就是原始文獻(xiàn)的篇名、著者、文獻(xiàn)出處、出版時間、文摘、主題詞、語種等。為了方便計算機(jī)檢索,每一個字段都有自己特定的標(biāo)識符,稱為字段名或字段代碼,如AB代表文摘字段、TI代表篇名字段、AU代表著者字段等。數(shù)據(jù)庫記錄的字段往往都是提供對該文獻(xiàn)的檢索途徑。
第三十七頁,共七十三頁,編輯于2023年,星期五
Accessionnumber:06209880131
Title:Practicalmethodstodefinescatteringcoefficientsinaroomacousticscomputermodel
Authors:Zeng,Xiangyang;Christensen,ClausLynge;Rindel,JensHolger
Authoraffiliation:InstituteofEnvironmentalEngineering,NorthwesternPolytechnicalUniversity,Xi'an,710072,China
Serialtitle:AppliedAcoustics
Abbreviatedserialtitle:ApplAcoust
Volume:v67
Issue:n8
Issuedate:August2006
Publicationyear:2006
Pages:p771-786
Language:English
ISSN:0003-682X
CODEN:AACOBL
Documenttype:Journalarticle(JA)
Publisher:ElsevierLtd,Oxford,OX51GB,UnitedKingdom
Abstract:Topredictacousticsofroomsusingcomputerprogramsbasedongeometricalassumptions,itisimportantthatscatteringisincludedinthecalculations.Thereforescatteringisusuallyincludedintermsofscatteringcoefficientswhichareassignedtoeachsurfacetellingthesoftwaretheratiobetweenthepartofthereflectedenergywhichisnotbeingreflectedspecularilyandthetotalreflectedenergy.Howevertheeffectivescatteringcoefficientofasurfacedependsnotonlyontheroughnessofthesurfacematerialindeeddiffractioncausedbylimiteddimensionsofthesurfaceaswellasedgediffractionalsocausesscattering.
Numberofreferences:24
Eimainheading:Acoustics
Eicontrolledterms:Computersimulation-Acousticwavescattering-Computationalgeometry-Surfaceroughness-Acousticwavediffraction
Uncontrolledterms:Scatteringcoefficient-Roomacoustics-Computermodel
Eiclassificationcodes:751Acoustics,Noise.Sound-723.5ComputerApplications-751.1AcousticWaves-921.4CombinatorialMathematics,IncludesGraphTheory,SetTheory-931.2PhysicalPropertiesofGases,Liquids&Solids
Treatment:Theoretical(THR)第三十八頁,共七十三頁,編輯于2023年,星期五記錄中的字段標(biāo)識及對應(yīng)名稱說明如下:AN:(DIALOGAccessionNumber),DIALOG存取號,在一個數(shù)據(jù)庫中,每篇記錄只有一個存取號,每個號只配給一條記錄,兩者一一對應(yīng)。DIALOG存取號后常跟各數(shù)據(jù)庫的文摘號,與相應(yīng)的檢索刊物一致。TI:(Title)篇名字段AU:(Author)著者字段CS:(CorporateSource)著者所在單位字段SO:(SourcePublication)文獻(xiàn)出處字段,對于期刊文獻(xiàn)包括期刊名稱、卷、期頁等;對于會議文獻(xiàn)包括會議名稱、屆次、時間、地點(diǎn)等PY:(PublicationYear)出版年代字段。CO,SN:(CODEN),(ISSN)期刊代碼,國際連續(xù)出版物標(biāo)準(zhǔn)號LA:(Language)語種字段指原文語種DT:(DocumentType)文獻(xiàn)類型字段TC:(TreatmentCode)處理碼字段,表示論文研究的性質(zhì),A表示應(yīng)用,X表示實(shí)驗(yàn),T表示理論,等等AB:(Abstract)文摘字段DE:(Descriptor)敘詞字段,主題詞表中的詞ID:(Identifier)自由標(biāo)引詞字段,非受控詞表中的詞,由標(biāo)引人員根據(jù)文獻(xiàn)內(nèi)容確定CC:(ClassficationCode)分類代碼字段第三十九頁,共七十三頁,編輯于2023年,星期五檢索語言計算機(jī)檢索的基本原理是,將用戶的檢索提問詞與數(shù)據(jù)庫文獻(xiàn)記錄中的標(biāo)引詞進(jìn)行對比,當(dāng)提問詞與標(biāo)引詞匹配一致時,即為命中,檢索成功。用戶所選用的檢索詞必須與數(shù)據(jù)庫中標(biāo)引文獻(xiàn)記錄所用的標(biāo)引詞相一致。檢索語言就是為溝通文獻(xiàn)標(biāo)引與文獻(xiàn)檢索而編制的人工語言,也是用于文獻(xiàn)標(biāo)引和檢索提問的約定語言。如果沒有檢索語言作為標(biāo)引人員和檢索人員的共同語言,就很難使得標(biāo)引人員對文獻(xiàn)信息內(nèi)容的表達(dá)和檢索人員對相同文獻(xiàn)信息內(nèi)容需求時的表達(dá)取得一致,信息檢索也就不可能順利實(shí)現(xiàn)。因此,編制檢索語言的目的就是能夠保證檢索提問詞與文獻(xiàn)標(biāo)引詞的一致性。檢索語言所表達(dá)的概念應(yīng)該是唯一的,盡量減少一詞多義或多詞一義的現(xiàn)象,要使其在檢索系統(tǒng)中具有單義性。第四十頁,共七十三頁,編輯于2023年,星期五1.分類語言
分類語言是以學(xué)科體系為基礎(chǔ),用號碼作為概念標(biāo)識,按分類編排的檢索語言。國內(nèi)外比較重要的分類語言表有《國際專利分類表》、《杜威十進(jìn)分類法》、《中國圖書館圖書分類法》等。2.主題語言
主題語言是以語詞作為概念標(biāo)識,按字順編排的檢索語言。主題語言包括標(biāo)題詞語言、單元詞語言、敘詞語言和關(guān)鍵詞語言。(1)標(biāo)題詞語言—最早使用的一種主題語言。它以規(guī)范化的自然語義作為標(biāo)識,來表達(dá)文獻(xiàn)涉及的主題概念,并將全部標(biāo)識按字母順序排列。表達(dá)主題的詞語稱為標(biāo)題詞。(2)單元詞語言—是從文獻(xiàn)內(nèi)容中抽選出來的最基本的詞匯,將代表最一般、最基本的、不可再分割的概念單元的詞作為單獨(dú)標(biāo)引文獻(xiàn)的單位。(3)敘詞語言—從自然語言中優(yōu)選出來并經(jīng)過規(guī)范化處理的名詞術(shù)語。敘詞語言是采用表示單元概念的規(guī)范化語詞的組配來對文獻(xiàn)內(nèi)容主題進(jìn)行描述的檢索語言,也是目前使用最廣泛的主題語言。(4)關(guān)鍵詞語言—直接從文獻(xiàn)題名、文摘或正文中抽取出來的未經(jīng)規(guī)范化處理的詞。是一種用自然語言做標(biāo)識的檢索語言。第四十一頁,共七十三頁,編輯于2023年,星期五計算機(jī)信息檢索技術(shù)1.布爾邏輯檢索
在檢索實(shí)際中,檢索提問涉及的概念往往不止一個,而同一個概念又往往涉及多個同義詞或相關(guān)詞。為了正確地表達(dá)檢索提問,系統(tǒng)中采用布爾邏輯運(yùn)算符將不同的檢索詞組配起來,使一些具有簡單概念的檢索單元通過組配成為一個具有復(fù)雜概念的檢索式。(1)邏輯“與”邏輯“與”(用and或*表示)是一種用于交叉概念或限定關(guān)系的組配,它可以縮小檢索范圍,有利于提高檢索的專指性。如欲查同時含有概念A(yù)和概念B的文獻(xiàn),可表示為:“AandB”或“A*B”。第四十二頁,共七十三頁,編輯于2023年,星期五(2)邏輯“或”邏輯“或”(用OR或“+”表示)是用于具有并列概念關(guān)系的組配。這種組配可以擴(kuò)大檢索范圍,提高查全率。例如,檢索含有檢索項(xiàng)A或檢索項(xiàng)B的文獻(xiàn),可表示為:“AORB”或“A+B”。檢索結(jié)果是將含有檢索項(xiàng)A的文獻(xiàn)集合與含有檢索項(xiàng)B的文獻(xiàn)集合相加,形成一個新的集合。檢索結(jié)果如圖中陰影部分即為包含A或B的命中文獻(xiàn)。圖中兩者共同的部分只計一次,故避免了命中文獻(xiàn)的重復(fù)出現(xiàn)。(3)邏輯“非”邏輯“非”(用“NOT”或“-”表示)是用于從某一檢索范圍中排除不需要的概念。這種組配可以縮小檢索范圍。例如,在含有概念A(yù)的文獻(xiàn)集合中,排除同時含有概念B的文獻(xiàn),可表示為:“ANOTB”或“A-B”。檢索結(jié)果如圖中陰影部分即為包含A且排除B的命中文獻(xiàn)。第四十三頁,共七十三頁,編輯于2023年,星期五第四十四頁,共七十三頁,編輯于2023年,星期五
2.位置檢索
位置檢索也叫全文檢索、鄰近檢索。所謂全文檢索,就是利用記錄中的自然語言(關(guān)鍵詞)進(jìn)行檢索,詞與詞之間的邏輯關(guān)系用位置算符組配,對檢索詞之間的相對位置進(jìn)行限制。(1)(W)—With
(W)表示該算符兩側(cè)的檢索詞相鄰,且兩者之間只允許只有一個空格或標(biāo)點(diǎn)符號,不允許有任何字母或詞,順序不能顛倒。例如:Aircraft(W)design可檢索出含有“Aircraftdesign”的文獻(xiàn)記錄。
Computer(W)aided(W)design可檢索出含有“Computeraideddesign”的文獻(xiàn)記錄。(2)(nW)—nWords(nW)表示在此算符兩側(cè)的檢索詞之間最多允許間隔n個詞(實(shí)詞或虛詞),且兩者的相對位置不能顛倒。例如:laser(1w)printer可檢出含有l(wèi)aserprinter和lasercolorprinter的文獻(xiàn)記錄。第四十五頁,共七十三頁,編輯于2023年,星期五(3)(N)—Near(N)表示該算符兩側(cè)的檢索詞相鄰,但兩者的相對位置可以顛倒。例如:computer(N)network可檢出含有computernetwork,networkcomputer形式的文獻(xiàn)記錄。(4)(nN)—nNear(nN)表示此算符兩側(cè)的檢索詞之間允許間隔最多n個詞,且兩者的順序可以顛倒。例如computer(2N)system可檢出含有
computersystemcomputercodesystemcomputeraideddesignsystemsystemusingmoderncomputer等形式的文獻(xiàn)記錄。第四十六頁,共七十三頁,編輯于2023年,星期五(5)(S)—Subfield(S)表示其兩側(cè)的檢索詞必須是在文獻(xiàn)記錄的同一子字段中,而不限定它們在該子字段中的相對次序和相對位置的距離。在文摘字段中,一個句子就是一個子字段。例如computer(w)control(s)system可檢出文摘中含有
“Thispaperisconcernedwithanapplicationofthe
computercontroltechniqueinaintelligentsystem
fortestinginnerwallsofpipes.”
這樣一句話的文獻(xiàn)。(6)(F)—Field(F)表示其兩側(cè)的檢索詞必須在文獻(xiàn)記錄的同一字段中,而它們在該字段中的相對次序和相對位置的距離不限。例如:water(w)pollution(F)control表示在同一個字段中(如篇名、文摘、敘詞等)同時含有waterpollution和control的文獻(xiàn)記錄均可檢索出來。第四十七頁,共七十三頁,編輯于2023年,星期五不同的檢索系統(tǒng)其位置檢索的表示方式是不同的
例如:EiVillage中的位置算符僅采用Near一種形式,表示兩個檢索詞彼此接近且兩詞之間最多不超過5個詞,前后順序不限。CSAIllumina中的位置檢索為:①詞間無算符,即表示將檢索詞作為一個詞組來檢索。②WITHIN“x”,表示在指定的半徑內(nèi)(x個詞)查找輸入詞,詞序不限。③NEAR,在相距不大于10個詞的范圍內(nèi)查找輸入詞,相當(dāng)于within10。④BEFORE,按照輸入檢索詞相應(yīng)的順序查找。⑤AFTER,按照第1個詞在第2個詞之后的相應(yīng)順序查找。第四十八頁,共七十三頁,編輯于2023年,星期五IEL中的位置檢索采用以下算符:①<paragraph>,表示算符兩邊的檢索詞必須出現(xiàn)在同一段落內(nèi),兩個檢索詞的順序可以前后顛倒;②<sentence>,表示算符兩邊的檢索詞必須出現(xiàn)在同一句子內(nèi),兩個檢索詞的順序可以前后顛倒;③<phrase>,表示算符兩邊的檢索詞必須出現(xiàn)在同一短語內(nèi),兩個檢索詞的順序可以前后顛倒;④<near/n>,表示兩個檢索詞相鄰,中間相隔最多n個詞,兩個檢索詞的順序可以前后顛倒。第四十九頁,共七十三頁,編輯于2023年,星期五3.截詞檢索
●截詞檢索是計算機(jī)檢索系統(tǒng)中應(yīng)用非常普遍的一種技術(shù)。由于西文的構(gòu)詞特性,在檢索中經(jīng)常會遇到名詞的單、復(fù)數(shù)形式不一致;同一個意思的詞,英美拼法不一致;詞干加上不同性質(zhì)的前綴和后綴就可以派生出許多意義相近的詞等等。
●為了保證查全,就得在檢索式中加上這些具有各種變化形式的相關(guān)意義的檢索詞,這樣就會出現(xiàn)檢索式過于冗長,輸入檢索詞的時間太久,同時也占太多機(jī)時。截詞檢索就是為了解決這個問題而設(shè)計的,它既可保證不漏檢,又可節(jié)約輸入檢索式的時間。
●所謂截詞,就是指對輸入的檢索詞在適當(dāng)位置截斷。第五十頁,共七十三頁,編輯于2023年,星期五美國Dialog系統(tǒng)用“?”表示截詞符,并有以下截詞方式:1.后方截詞它是將截詞符放在一串字符的后面,用以表示以相同字符串開頭,而結(jié)尾不同的所有詞。后方截詞又分為詞尾的有限截斷和詞尾的無限截斷兩種情況:(1)詞尾的有限截斷相同字符串后可能變化一個字符時,則在其后使用一個“?”、空格、再加一個“?”,常用來表示檢索詞的單復(fù)數(shù)變化。例如用system??可以查出system和systems的文獻(xiàn)。相同字符串后可能變化兩個以上字符時,則在其后連續(xù)使用若干個“?”代替可能變化的字符。例如,??表示兩個字符,???表示三個字符,以此類推。
(2)詞尾的無限截斷相同字符串后可能變化任何字符串時,則在其后使用一個“?”。這種方法可以查找出含有相同字符串的所有檢索詞。例如,comput?可查出compute,computer,computing,computation,computerisation等等。第五十一頁,共七十三頁,編輯于2023年,星期五2.中間截詞中間截詞又稱中間屏蔽,是一種用截詞符屏蔽詞中不同字符的方法。例如woman和women,可用wom?n代替;defence和defense可用
defen?e代替。截詞符具有“OR”運(yùn)算符的功能,如wom?n等同于womanorwomen,能夠擴(kuò)大檢索范圍,而且減少了輸入檢索詞的時間,節(jié)約了機(jī)時。第五十二頁,共七十三頁,編輯于2023年,星期五
常用的截詞符有“?”、“*”、“?!?、“$”等多種表示形式,不同的檢索系統(tǒng)其截詞符的表示形式和截詞檢索的方式是不同的例如:EiVillage中的截詞符為:“*”用于詞中或詞后表示可以代替多個字符,檢索出相同詞干的任意多個變化的詞,例如,輸入optic*可檢索出optic,optics,optical等“?”用于詞中表示可以代替一個字符,例如,輸入wom?n可檢索出
woman,womenOCLC中的截詞符為:
+用于詞尾,表示同時檢索該詞的單數(shù)和復(fù)數(shù)(僅限于s和es形式)*用于詞尾,表示可檢索相同詞根的所有詞,但詞根不得少于3個字符
#用于單詞當(dāng)中,只代表一個字符?用于單詞當(dāng)中,可代表一串字符第五十三頁,共七十三頁,編輯于2023年,星期五4.字段限定檢索
字段限定檢索是指限定檢索詞在數(shù)據(jù)庫記錄中的一個或幾個字段范圍內(nèi)查找的一種檢索方法。在檢索系統(tǒng)中可供檢索的字段通常有兩種:
(1)基本字段包括篇名、文摘、敘詞、自由標(biāo)引詞(TI,AB,DE,ID)四個字段。基本字段用后綴表示,例如:
computerandnetwork/TI,DE表示將檢索式限定在篇名字段(TI)和敘詞字段(DE)中。
(2)輔助字段包括除基本字段以外的所有字段。輔助字段用前綴表示,要查找著者
SmithD.發(fā)表的文獻(xiàn),檢索式可表示為
AU=Smith,D.第五十四頁,共七十三頁,編輯于2023年,星期五
不同的檢索系統(tǒng)其字段限定檢索的表示方法亦不盡相同EIVillage中的限定字段檢索采用within命令(簡寫為wn),其限定字段檢索的輸入格式為:檢索詞wn字段代碼,如computerwnTI。ISIWebofKnowledge中的字段限定檢索格式為:字段代碼=檢索詞,如ti=computer。USPTO中的字段限定檢索輸入格式為:字段代碼/檢索詞,如TTL/computer。PQDD中的字段限定檢索規(guī)則是:字段名或字段代碼后跟用括號括起來的檢索詞,如title(biology),au(Smith,Robert)。IEL中的字段限定檢索采用<in>算符,其格式為:檢索詞<in>字段代碼,如(fiberoptic<and>network)<in>ti。第五十五頁,共七十三頁,編輯于2023年,星期五信息檢索途徑
信息檢索途徑也叫信息檢索入口或檢索點(diǎn)。信息檢索系統(tǒng)是用來報道、存儲和查找各類信息的工具,是對各種類型的信息進(jìn)行采集、標(biāo)引、著錄和組織后形成的一個有序的信息集合。事實(shí)上,每一種檢索系統(tǒng)都為檢索者提供了多種檢索途徑,這些途徑就是信息集合體——數(shù)據(jù)庫用以標(biāo)引和著錄各種信息時選取的標(biāo)識,即數(shù)據(jù)庫記錄的字段。選擇一定的檢索途徑就是把所需信息的某種特征標(biāo)識轉(zhuǎn)換為檢索標(biāo)識(即字段)。
第五十六頁,共七十三頁,編輯于2023年,星期五信息檢索途徑1.著者途徑
是通過已知著者的名稱查找信息的途徑。從著者途徑檢索信息是一個重要的外部檢索途徑,著者包括個人著者、團(tuán)體著者等。方法是選擇“著者”字段(Authors)來檢索出與著者相關(guān)的信息內(nèi)容。由于同一著者的作品往往具有特定的關(guān)聯(lián),特別是一些知名的著者,其作品常常代表本人所在學(xué)科領(lǐng)域的發(fā)展方向,因此從著者途徑檢索相關(guān)信息具有較強(qiáng)的實(shí)用性。第五十七頁,共七十三頁,編輯于2023年,星期五信息檢索途徑2.題名途徑
題名途徑是通過文獻(xiàn)的題名查找信息的方法。題名包括文獻(xiàn)標(biāo)題名(或稱篇名)、書名、刊名、標(biāo)準(zhǔn)名、會議名等,檢索時可以利用“題名”字段(Title)來進(jìn)行。題名途徑較多應(yīng)用于查找圖書、期刊、單篇文獻(xiàn)等,在計算機(jī)檢索系統(tǒng)中應(yīng)用題名途徑也比較多。第五十八頁,共七十三頁,編輯于2023年,星期五信息檢索途徑3.機(jī)構(gòu)途徑
機(jī)構(gòu)途徑是通過機(jī)構(gòu)名稱獲取相關(guān)信息的方法。如果已知與所需信息相關(guān)的機(jī)構(gòu)名稱(如個人著者所在機(jī)構(gòu)、出版社或發(fā)行單位名稱等),可以利用“機(jī)構(gòu)”字段(Authoraffiliation)獲取相關(guān)信息。第五十九頁,共七十三頁,編輯于2023年,星期五信息檢索途徑4.代碼途徑
是通過信息的某種代碼來檢索信息的途徑。例如,國際標(biāo)準(zhǔn)書號(ISBN)、國際標(biāo)準(zhǔn)連續(xù)出版物號(ISSN)、專利號、報告號、標(biāo)準(zhǔn)號、合同號等。在已知信息代碼的前提下,用此檢索途徑檢索信息資源比較方便、快速。第六十頁,共七十三頁,編輯于2023年,星期五信息檢索途徑5.分類途徑
分類途徑是按文獻(xiàn)所屬學(xué)科類別進(jìn)行檢索的途徑,是以文獻(xiàn)所屬學(xué)科專業(yè)的分類號為特征標(biāo)識的檢索方法。檢索時根據(jù)所需信息內(nèi)容的學(xué)科屬性以及檢索系統(tǒng)所采用的分類表來確定分類號,再利用“分類代碼”字段(Classficationcode)來檢索所需信息。利用分類途徑能查到有關(guān)某一學(xué)科或相關(guān)領(lǐng)域的全部文獻(xiàn),有利于族性檢索的需求和查全率的提高,因而是通過信息內(nèi)容特征標(biāo)識獲取信息的主要檢索途徑之一。其缺點(diǎn)是專指度較差,對新興學(xué)科、邊緣學(xué)科的查找不便,且檢索者需要對分類語言較熟悉。
第六十一頁,共七十三頁,編輯于2023年,星期五信息檢索途徑6.主題途徑
主題途徑是根據(jù)信息的主題概念來檢索信息的一種方法,即利用從信息資源中抽象出來的并經(jīng)過人工規(guī)范化處理的、能夠代表信息資源內(nèi)容的主題詞來檢索。檢索時以能反映信息主題概
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 個人發(fā)包合同范本
- 化妝品融資合同范例
- 供電部門保潔合同范例
- Unit1《Greetings》(說課稿)-2024-2025學(xué)年滬教版(五四制)(2024)英語一年級上冊
- 出資合股合同范例
- 二手車9折回購合同范本
- 上海婚慶合同范例
- 公寓承包轉(zhuǎn)租合同范例
- 醫(yī)院等級評定咨詢合同范例
- 個人承包弱電項(xiàng)目合同范例
- 2025年熱管換熱氣行業(yè)深度研究分析報告
- 2025年陜西西安市經(jīng)濟(jì)技術(shù)開發(fā)區(qū)管委會招聘30人歷年高頻重點(diǎn)提升(共500題)附帶答案詳解
- 2025山東能源集團(tuán)中級人才庫選拔高頻重點(diǎn)提升(共500題)附帶答案詳解
- 《安利蛋白質(zhì)粉》課件
- 【可行性報告】2024年數(shù)據(jù)標(biāo)注與審核項(xiàng)目可行性研究分析報告
- 2024-2025學(xué)年滬科版數(shù)學(xué)七年級上冊期末綜合測試卷(一)(含答案)
- 2025門診護(hù)理工作計劃
- 《針法灸法》課件-溫灸器灸
- 電氣領(lǐng)域知識培訓(xùn)課件
- 山東省部分學(xué)校2024-2025學(xué)年高一上學(xué)期12月選科指導(dǎo)聯(lián)合測試地理試題( 含答案)
- 針對老年人的交通安全宣傳
評論
0/150
提交評論