第4課 計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論課件_第1頁
第4課 計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論課件_第2頁
第4課 計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論課件_第3頁
第4課 計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論課件_第4頁
第4課 計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論課件_第5頁
已閱讀5頁,還剩74頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論內(nèi)容:教材1章6節(jié)(P18)+8章1-3節(jié)(P161)目的與要求:了解計(jì)算機(jī)及網(wǎng)絡(luò)在信息檢索的應(yīng)用;掌握數(shù)據(jù)庫的結(jié)構(gòu)及檢索原理的實(shí)現(xiàn),數(shù)據(jù)庫的類型;機(jī)檢基本技術(shù)與方法;擴(kuò)檢與縮檢;網(wǎng)絡(luò)檢索及搜索引擎的使用。教學(xué)重、難點(diǎn):計(jì)算機(jī)信息檢索的概念;數(shù)據(jù)庫的類型與結(jié)構(gòu);布爾邏輯檢索;字段限定檢索;截詞檢索;搜索引擎的分類,簡單檢索及高級(jí)檢索。1第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論4.1.1計(jì)算機(jī)在檢索中的利用

一.計(jì)算機(jī)的特點(diǎn)滿足檢索的要求:用戶對(duì)檢索的主要要求:準(zhǔn):要求檢出的文獻(xiàn)有針對(duì)性,能解決研究中的具體問題。全:全面了解某一特定領(lǐng)域(問題)的發(fā)生、發(fā)展和現(xiàn)狀。新:掌握最新動(dòng)態(tài)或進(jìn)展??欤鹤疃虝r(shí)間內(nèi)獲得結(jié)果。2第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論4.1.1計(jì)算機(jī)在檢索中的利用計(jì)算機(jī)檢索的優(yōu)點(diǎn):1)檢索速度快、效益高。2)使用方便,實(shí)現(xiàn)資源共享。3)檢索內(nèi)容新、范圍廣、數(shù)量大。4)檢索手段靈活,檢索途徑繁多。5)計(jì)算機(jī)不會(huì)象人那樣因產(chǎn)生疲勞而致錯(cuò)。6)多樣化的結(jié)果提供方式.可將檢索結(jié)果按用戶要求的進(jìn)行排序,整理后的文獻(xiàn)可以采取顯示、打印和軟盤拷貝等多種方式提供。必要時(shí),還可以聯(lián)機(jī)訂購原文。計(jì)算機(jī)具有準(zhǔn)、快、存儲(chǔ)容量大的特點(diǎn)。符合現(xiàn)時(shí)期從海量數(shù)據(jù)中快速、準(zhǔn)確獲取信息的檢索要求。3第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論1.(國外)早期應(yīng)用情況:1951年人們首次利用計(jì)算機(jī)進(jìn)行信息檢索實(shí)驗(yàn)。自1954年美國海軍兵器中心使用IBM701型電子管計(jì)算機(jī)建立了世界上第一個(gè)計(jì)算機(jī)檢索系統(tǒng),存入文獻(xiàn)14000篇。1964年,在使用計(jì)算機(jī)排版《IM》時(shí)產(chǎn)生一副產(chǎn)品:MEDLARS數(shù)據(jù)庫(醫(yī)學(xué)文獻(xiàn)分析與檢索系統(tǒng))。相應(yīng)發(fā)展出4種機(jī)檢類型:脫機(jī)檢索階段(20世紀(jì)50年代中至60年代中)聯(lián)機(jī)檢索階段(20世紀(jì)60年代中至70年代)光盤檢索階段(20世紀(jì)80年代中期-)網(wǎng)絡(luò)化聯(lián)機(jī)檢索階段(20世紀(jì)90年代-)二.計(jì)算機(jī)信息檢索的發(fā)展:4第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論2.(國內(nèi))計(jì)算機(jī)信息檢索發(fā)展:研究始于20世紀(jì)70年代中期(1975年,首次引進(jìn)國外文獻(xiàn)數(shù)據(jù)庫進(jìn)行機(jī)檢實(shí)驗(yàn))。1978年開始由中國科技情報(bào)所試建文獻(xiàn)數(shù)據(jù)庫和檢索服務(wù)系統(tǒng)。1980年,國際聯(lián)機(jī)檢索目前,……5第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論4.1.2計(jì)算機(jī)信息檢索及類型一.計(jì)算機(jī)信息檢索的定義

檢索終端特定信息用戶利用計(jì)算機(jī)信息檢索系統(tǒng),使用特定的指令、檢索詞或檢索策略,從數(shù)據(jù)庫中檢索出與用戶特定需求相一致的信息的過程。用戶檢索指令、檢索詞、檢索策略6第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論二.計(jì)算機(jī)信息檢索原理本質(zhì)上與手工檢索原理相同,均為匹配方式,但略有區(qū)別。手檢:具有概念思維性、隨機(jī)應(yīng)變性,可隨時(shí)修改的意義匹配。檢索策略人腦記憶,對(duì)工具書手翻、眼看、大腦不停思考與判斷來完成。機(jī)檢:高速、機(jī)械的邏輯匹配。優(yōu)點(diǎn):高速、精確。缺陷:①誤檢率高②查全率低。7第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論三.計(jì)算機(jī)信息檢索服務(wù)種類:1.回溯檢索查找過去某一時(shí)間段內(nèi)所有符合要求的信息。一次掌握比較全面的資料??萍疾樾?.定題檢索定期提供某一指定課題的最新資料。適合掌握最新動(dòng)態(tài),以及已進(jìn)行項(xiàng)目的情報(bào)保障。8第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論4.2數(shù)據(jù)庫的類型與結(jié)構(gòu)4.2.1數(shù)據(jù)庫的概念數(shù)據(jù)庫是計(jì)算機(jī)存儲(chǔ)設(shè)備上按一定方式存儲(chǔ)的相互關(guān)聯(lián)的數(shù)據(jù)集合。數(shù)據(jù)庫是檢索系統(tǒng)的信息源和核心。同時(shí)又反作用于信息檢索。9第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論1、文獻(xiàn)型數(shù)據(jù)庫:書目型數(shù)據(jù)庫:文獻(xiàn)外表特征和內(nèi)容特征的描述與記載。全文數(shù)據(jù)庫:存儲(chǔ)文獻(xiàn)全文或節(jié)選其中主要部分的數(shù)據(jù)庫??梢灾苯荧@取原始資料。2、數(shù)值型數(shù)據(jù)庫:3、事實(shí)型數(shù)據(jù)庫:4、圖像型數(shù)據(jù)庫:5、多媒體型數(shù)據(jù)庫:4.2.2數(shù)據(jù)庫的類型10第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論不同的數(shù)據(jù)庫,雖然利用原理相同,但由于數(shù)據(jù)內(nèi)容和利用目的的不同,使得其數(shù)據(jù)結(jié)構(gòu)和文獻(xiàn)記錄標(biāo)引方式也有一定的差異,因而在利用也會(huì)各有特點(diǎn),并不存在普遍適用的方法。利用一個(gè)數(shù)據(jù)庫,首先要了解其結(jié)構(gòu)。數(shù)據(jù)庫可分為字段、記錄、文檔3個(gè)層次的構(gòu)成。4.2.3數(shù)據(jù)庫的結(jié)構(gòu)11第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論

數(shù)據(jù)庫文檔記錄字段

若干個(gè)記錄構(gòu)成的信息集合稱為文檔。大型的數(shù)據(jù)庫分割成若干文檔。記錄是構(gòu)成數(shù)據(jù)庫的完整的信息單元,每條記錄描述了原始信息的外部特征和內(nèi)部特征。組成記錄的數(shù)據(jù)項(xiàng)目12第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論文章號(hào)篇名作者文摘全文001asdLiXxx……..002bysWangYyy……..……vcadengzzz……..篇名文章號(hào)Asd001Bys002vca……作者文章號(hào)Deng……Li001Wang002索引文檔1:篇名索引索引文檔2:作者索引主文檔(順排文檔)檢索篇名檢索作者當(dāng)你要在篇名中查找時(shí),搜索指令將在篇名索引中進(jìn)行搜索,然后將主文檔中對(duì)應(yīng)的記錄調(diào)出來各項(xiàng)數(shù)據(jù)以構(gòu)成一張橫豎對(duì)齊的二維表格形式存放于數(shù)據(jù)庫文件(庫文件)中。文章號(hào)唯一,且索引文檔與主文檔的文章號(hào)一一對(duì)應(yīng)索引文檔(倒排文檔)文檔(File)由眾多記錄按一定方式組織在一起形成。13第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論常用的外文生物醫(yī)學(xué)數(shù)據(jù)庫:MEDLINE數(shù)據(jù)庫荷蘭《醫(yī)學(xué)文摘》數(shù)據(jù)庫(EM)《生物學(xué)文摘》數(shù)據(jù)庫(BA)化學(xué)文摘數(shù)據(jù)庫(CA)《科學(xué)引文索引》數(shù)據(jù)庫(SCI)常見的中文生物醫(yī)學(xué)數(shù)據(jù)庫:中國生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫(CBMdisc)中文生物醫(yī)學(xué)期刊數(shù)據(jù)庫(CMCC)中國學(xué)術(shù)期刊數(shù)據(jù)庫萬方數(shù)據(jù)庫中醫(yī)藥文獻(xiàn)數(shù)據(jù)庫14第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論4.3計(jì)算機(jī)信息檢索技術(shù)與方法常用計(jì)算機(jī)算符大致可分為4類:4.3.1布爾邏輯算符4.3.2字段限定符4.3.3截詞符4.3.4位置算符4.3.5其他檢索技術(shù)15第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論4.3.1布爾邏輯運(yùn)算符:來源:(布爾代數(shù))邏輯與、邏輯或、邏輯非。作用:布爾邏輯運(yùn)算符用來表示兩個(gè)檢索詞之間的邏輯關(guān)系,用以形成一個(gè)邏輯表達(dá)式。計(jì)算機(jī)根據(jù)邏輯表達(dá)式查找符合限定條件的文獻(xiàn)信息。

算符表示形式(3種):邏輯與(AND)、邏輯或(OR)、邏輯非(NOT)。16第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論布爾邏輯算符1、邏輯“與”用AND表示,表達(dá)概念間交叉或限定關(guān)系的一種組配,作用是縮小檢索范圍,描述更為準(zhǔn)確,提高查準(zhǔn)率。檢索式“AandB”表示文獻(xiàn)中同時(shí)包含檢索詞A和檢索詞B的文獻(xiàn)才是命中文獻(xiàn)。(如右圖)

如:查找“胰島素治療糖尿病”的檢索式為insulin(胰島素)anddiabetes(糖尿?。?。17第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論布爾邏輯算符

2、邏輯“或”用OR表示,表達(dá)概念間并列關(guān)系的一種組配。作用:擴(kuò)大檢索范圍,提高查全率。

檢索式“AorB”表示包含檢索詞A的文獻(xiàn)或者包含檢索詞B的文獻(xiàn)或者同時(shí)包含檢索詞A和B的文獻(xiàn)為命中文獻(xiàn)。

如:查找“腫瘤”的檢索式為cancer(癌)

ortumor(瘤)orcarcinoma(癌)orneoplasm(新生物)。使用注意:處理好整體與部分的關(guān)系,避免漏檢。18第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論布爾邏輯算符3、邏輯“非”用NOT、AND

NOT表示,表達(dá)概念間不包含關(guān)系的一種組配。作用:縮小檢索范圍,提高查準(zhǔn)率。檢索式“AnotB”表示包含檢索詞A同時(shí)不包含檢索詞B的文獻(xiàn)為命中文獻(xiàn)。如:查“動(dòng)物的乙肝病毒(不要人的)”的文獻(xiàn)的檢索式為hepatitisBvirus(乙肝病毒)nothuman(人類)。使用注意:處理好交叉關(guān)系,避免漏檢。如:(亞洲AND禽流感)NOT歐洲19第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論4、運(yùn)算次序與注意事項(xiàng)運(yùn)算次序在一個(gè)檢索式中,可以同時(shí)使用多個(gè)邏輯運(yùn)算符,構(gòu)成一個(gè)復(fù)合邏輯檢索式。一般情況下,運(yùn)算優(yōu)先級(jí)別如下所示(可以使用括號(hào)改變運(yùn)算次序)。

()>NOT>AND>OR例:檢索厚樸或檳榔對(duì)兔離體腸平滑肌運(yùn)動(dòng)功能的影響.(厚樸OR檳榔)AND平滑肌實(shí)際使用中,不同數(shù)據(jù)庫對(duì)運(yùn)算次序解釋不同。20第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論檢索實(shí)例:例:查找有關(guān)腫瘤引起的貧血的非英文文獻(xiàn)

neoplasms(腫瘤)/complications(并發(fā)癥)

anemia(貧血)/etiology(病因?qū)W)

English

#11687NEOPLASMS/complications#2179ANEMIA/etiology#323867EnglishinLA(LA=English)#420(#1and#2)not#321第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論4.3.2字段限定符(1)“in”表示將“in”左側(cè)檢索詞限定在某個(gè)字段名內(nèi)查找。如:HypertensioninTI_(2)“=”、“<”、“>”、“>=”、“<=”符號(hào)主要用于限定查找年代。如:PY=2000,表示要求檢出2000年出版的文獻(xiàn)。22第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論也稱通配符,通常用“*”代表無限多的字符組合,而用“?”代表任意一個(gè)字符。截詞檢索:是用截?cái)嗟脑~的一個(gè)局部進(jìn)行檢索,并認(rèn)為凡滿足這個(gè)詞局部中的所有字符(串)的文獻(xiàn),都為命中文獻(xiàn)。實(shí)質(zhì)是用邏輯OR對(duì)具有相同的詞頭或詞尾的詞匯進(jìn)行檢索。

4.3.3截詞符23第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論(一)后截?cái)啵簩⒔卦~符號(hào)放在一個(gè)字符串的右方,以表示其右的有限或無限個(gè)字符不影響該字符串的檢索。后截?cái)鄼z索技術(shù)最常用,其主要用途有:詞的單復(fù)數(shù),如book?同根詞,例如biolog*,physic*年代,例如199?,19??作者,例如:Lancaster*例如:

hyperthyr*可查到hyperthyre、hyperthyreosis、hyperthyroid、hyperthyroidosis、hyperthyroidism等。

hypertensi??可查到hypertension、hypertensive。

24第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論

(二)前截?cái)啵簩⒔卦~符號(hào)放在一個(gè)字符串的左方,以表示其左方有有限或無限個(gè)字符。前截?cái)嘁驗(yàn)閷?shí)現(xiàn)技術(shù)上較困難,在檢索系統(tǒng)中比較少見。其主要用途在于:進(jìn)行一個(gè)學(xué)科的不同應(yīng)用領(lǐng)域的檢索,常用于檢索化學(xué)化工文獻(xiàn)與復(fù)合詞較多的文獻(xiàn)。如:例1:*magnetic,可檢索出magnetic(有磁性的)、electro-magnetic(電磁的)、patamagnetic(順磁的)、thermo-magnetic(熱磁的)thermomagnetic等詞的文獻(xiàn)。例2:*sighted,可查到farsighted與nearsighted。

25第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論

(三)中截?cái)啵簩⒔卦~符號(hào)放在一個(gè)檢索詞的中間的一種截詞方式。只允許有限截?cái)?,用于檢索詞的單復(fù)數(shù)或英美式不同拚法。例如:

wom?n,可查到Woman,Women。

defen?e,可查到defense,defence。26第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論截詞檢索實(shí)際上是防止漏檢的有力手段。作為后控制措施,目前在大多數(shù)檢索系統(tǒng)中得到了實(shí)現(xiàn)。運(yùn)用截詞檢索,不僅能擴(kuò)大檢索范圍,提高查全率,而且還可以減少檢索詞的輸入量,簡化檢索步驟(不需要用OR進(jìn)行同義詞的組配)。但并不是所有用截詞符產(chǎn)生的單詞與你的檢索意圖相一致。27第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論4.3.4位置算符又稱鄰近檢索,是用來規(guī)定概念相互間的鄰近關(guān)系,包括在記錄中出現(xiàn)的順序和相對(duì)位置。運(yùn)算符都用“()”括起,前后不留空格。要求原始記錄中檢索詞之間的相互位置滿足某些條件時(shí)要使用位置算符,常用的位置算符有with、near等。

28第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論(1)with算符(W)與(nW)表示此算符兩側(cè)的檢索詞在命中記錄中必須出現(xiàn)在同一字段中,即同時(shí)出現(xiàn)于篇名或文摘中等,且位置相鄰,前后位置不可以顛倒。(W)表示相鄰,且詞序不變。(nW)要求它所連接的兩個(gè)詞在檢索結(jié)果中出現(xiàn)時(shí),相互距離不超過n個(gè)詞(或漢字)。N的取值范圍一般在1-25。如智能機(jī)器人(3w)控制,可檢出“智能機(jī)器人控制”,“智能機(jī)器人行為控制”等。

29第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論(2)near算符(N)與(nN)

AnearB表示命中記錄中左右兩個(gè)檢索詞出現(xiàn)在同一句子中。A(nN)B

的檢索結(jié)果是A與B必須同時(shí)出現(xiàn)在一句話中,無論語序,二者之間最多可相隔n-1個(gè)單詞。N的取值范圍一般在1-25。如智能機(jī)器人(3n)控制,可檢出“智能機(jī)器人控制”,“..控制算法對(duì)智能機(jī)器人的影響”

、“智能機(jī)器人行為控制”等30第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論4.3.5其他檢索技術(shù)(一)加權(quán)檢索(WeightingSearching

是一種定量檢索的技術(shù)。從量的方面對(duì)檢索詞之間的組配關(guān)系加以限制和表示。在每個(gè)提問詞后面給定一個(gè)數(shù)值表示其重要程度,這個(gè)數(shù)值稱為權(quán)(Weight),在檢索時(shí),先查找這些檢索詞在數(shù)據(jù)庫記錄中是否存在,然后計(jì)算存在的檢索詞的權(quán)值總和。權(quán)值之和超過閾值,該記錄為命中文獻(xiàn)縮小檢索范圍,提高檢準(zhǔn)率的有效方法31第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論(二)聚類檢索:計(jì)算文獻(xiàn)的相似度,并把相似度較高的文獻(xiàn)集中在一起,形成一個(gè)個(gè)的文獻(xiàn)類。根據(jù)不同的聚類水平的要求,可以形成不同聚類層次的類目體系。主題相近、內(nèi)容相關(guān)的文獻(xiàn)聚在一起,相異的被區(qū)分開來。32第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論4.4.1Internet的歷史與發(fā)展一.

Internet的歷史1969年,ARPANET(阿帕網(wǎng)),73年正式運(yùn)行1983年,用于異種網(wǎng)絡(luò)連接的TCP/IP協(xié)議研制成功(實(shí)驗(yàn)網(wǎng)絡(luò)向?qū)嵱镁W(wǎng)絡(luò)的轉(zhuǎn)變)1986年,NSFNET,事實(shí)上的INTERNET主干網(wǎng)1989年,CERN開發(fā)成功WWW(超媒體信息)1991年,INTERNET實(shí)現(xiàn)商業(yè)入網(wǎng)1993年,Mosaic發(fā)表(圖形用戶界面)4.4

Internet檢索33第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論二.我國Internet的發(fā)展我國正式加入因特網(wǎng)的歷史較短,主要經(jīng)歷了兩個(gè)階段:

第一階段:1987-1993年,以通過撥號(hào)實(shí)現(xiàn)電子郵件轉(zhuǎn)發(fā)為特征。

第二階段:1994年至今,實(shí)現(xiàn)了TCP/IP連接,開通了因特網(wǎng)的全功能服務(wù)。34第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論中國互聯(lián)網(wǎng)絡(luò)信息中心統(tǒng)計(jì)數(shù)據(jù)網(wǎng)民上網(wǎng)計(jì)算機(jī)數(shù)域名網(wǎng)站國際出口帶寬20051.11億4950萬2,592,410694,20082,617M20061.37億5940萬4,109,020843,000256,696M20072.1億1193萬150萬368,927Mbps20082.98億1682萬287萬640,286Mbps年增長率41.9%41%91.4%73.6%35第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論全球部分國家互聯(lián)網(wǎng)普及率截至2008年底,中國網(wǎng)民規(guī)模達(dá)到2.98億人,較2007年增長41.9%,互聯(lián)網(wǎng)普及率達(dá)到22.6%,略高于全球平均水平(21.9%[1])。繼2008年6月中國網(wǎng)民規(guī)模超過美國,成為全球第一之后,中國的互聯(lián)網(wǎng)普及再次實(shí)現(xiàn)飛躍,趕上并超過了全球平均水平。

[1]

數(shù)據(jù)來源:;對(duì)比的其他國家和地區(qū)互聯(lián)網(wǎng)普及率為2008年6月底數(shù)據(jù)。36第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論4.4.2教育、科研與因特網(wǎng)存儲(chǔ)與查詢信息了解學(xué)科動(dòng)態(tài)快速交流信息提供科研條件37第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論4.4.3網(wǎng)絡(luò)信息的特點(diǎn)及查詢“每個(gè)人都能在網(wǎng)上找到對(duì)自己有用的信息?!碧攸c(diǎn):松散管理;微觀有序,宏觀無序;網(wǎng)絡(luò)信息包羅萬象;信息內(nèi)容深度跨度很大;網(wǎng)絡(luò)信息質(zhì)量高下有別。最常用的途徑就是借助搜索引擎。38第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論4.5搜索引擎搜索引擎通常指的是基于整個(gè)互聯(lián)網(wǎng)的搜索引擎,它最大可能地收集互聯(lián)網(wǎng)上網(wǎng)頁信息,并對(duì)其中重要的內(nèi)容建立索引和鏈接。網(wǎng)站目錄不等于搜索引擎因特網(wǎng)的淺表信息和深層信息39第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論4.5.1搜索引擎的工作原理搜索引擎的數(shù)據(jù)采集、數(shù)據(jù)組織和數(shù)據(jù)檢索功能主要通過各種軟件來實(shí)現(xiàn)數(shù)據(jù)采集:采用機(jī)器人、蜘蛛、爬蟲等網(wǎng)絡(luò)搜索軟件進(jìn)行的數(shù)據(jù)組織:利用索引軟件將采集的網(wǎng)頁進(jìn)行標(biāo)引、整序、組織,并建立索引數(shù)據(jù)庫數(shù)據(jù)檢索:根據(jù)用戶提出的要求,應(yīng)用查詢軟件將其轉(zhuǎn)換為計(jì)算機(jī)執(zhí)行命令,在索引數(shù)據(jù)庫是檢索符合條件的網(wǎng)頁記錄40第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論1、按檢索功能分有:基于關(guān)鍵詞的搜索引擎與分類目錄型搜索引擎2、按檢索內(nèi)容分有:通用型搜索引擎與專業(yè)型搜索引擎3、按組合方式分有:獨(dú)立搜索引擎與元搜索引擎4.5.2搜索引擎的類型41第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論分類目錄型搜索引擎的代表:YAHOO42第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論43第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論基于關(guān)鍵詞或自由詞的搜索引擎44第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論4.5.3

通用搜索引擎使用舉例一.google

1998年9月由斯坦福大學(xué)博士生LarryPage與SergeyBrin創(chuàng)建。Google非常注重技術(shù)創(chuàng)新世界對(duì)其評(píng)價(jià)很高。98年至今,已經(jīng)獲得30多項(xiàng)業(yè)界大獎(jiǎng),如美國《時(shí)代》雜志評(píng)選的“1999年度十大網(wǎng)絡(luò)技術(shù)”,《個(gè)人電腦》雜志授予的“最佳技術(shù)獎(jiǎng)”,TheNet授予的“最佳搜索引擎獎(jiǎng)”等等。45第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論搜索功能介紹(參見幫助文件)一般功能(1)自動(dòng)使用“AND”進(jìn)行查詢(2)忽略詞(3)短語搜索(4)高級(jí)搜索特殊功能(1)查找Flash文件(2)按鏈接搜索(3)指定網(wǎng)域(4)手氣不錯(cuò)(5)貨幣轉(zhuǎn)換(6)計(jì)算器(7)錯(cuò)別字改正(8)中英文字典(9)定義……46第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論一.Google基本檢索語法(1)只搜索完全一樣的字詞,不使用“詞干法”,也不支持"通配符"(*)搜索;(2)不區(qū)分大小寫;(3)在多個(gè)關(guān)鍵詞之間自動(dòng)添加“AND“(4)不支持“OR“運(yùn)算符(5)專用語查詢:只要在專用詞語上加上雙引號(hào),就可以進(jìn)行準(zhǔn)確查詢。(6)加號(hào)“+”:后面的詞必須出現(xiàn)(7)用減號(hào)“-”刪除無關(guān)網(wǎng)頁。47第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論二.如何利用Google檢索專業(yè)信息資料?

以及

如何根據(jù)需要調(diào)整檢索策略?例:如何查找有關(guān)“肺癌”的網(wǎng)絡(luò)信息?48第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論Google主頁(中文界面)49第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論GOOGLE檢索結(jié)果界面50第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論檢索策略調(diào)整技巧(1)1.限定語種:所有中文1,360,000——920,0002.選擇更專業(yè)的提問詞:肺癌——肺腫瘤1,360,000——21,1003.利用精選的網(wǎng)頁目錄51第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論檢索策略調(diào)整之一:限定語種52第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論檢索策略調(diào)整之二:利用更專業(yè)的詞匯53第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論檢索策略調(diào)整之三:利用網(wǎng)頁目錄54第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論檢索策略調(diào)整技巧(2)4.利用搜索引擎的高級(jí)檢索模式限定提問詞在“搜索結(jié)果”中出現(xiàn)的形式指定檢索以某一語言編寫的網(wǎng)頁限定要查詢的網(wǎng)頁更新的日期指定查詢字詞位置(網(wǎng)頁中的任何地方、網(wǎng)頁的標(biāo)題、網(wǎng)頁的內(nèi)文、網(wǎng)頁的鏈接上)限定搜索某一網(wǎng)域的網(wǎng)頁(gov、edu、com)“類似網(wǎng)頁”:自動(dòng)搜索某一網(wǎng)頁的類似網(wǎng)頁“鏈接”:搜索與某一網(wǎng)址建立了鏈接的網(wǎng)頁55第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論Google高級(jí)檢索模式56第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論文件類型限定:在一般檢索及高級(jí)檢索中可限定檢索結(jié)果的文獻(xiàn)類型,多用于在互聯(lián)網(wǎng)上獲取原始文獻(xiàn).支持13種非HTML文件的搜索。格式:“關(guān)鍵詞”將文獻(xiàn)類型限定為“pdf”,可獲取免費(fèi)全文提問式“

肺癌”或“taxollungcancer“獲取WORD文檔提問式“

肺癌”PPT:Powerpoint文檔XLS:EXCEL文檔SWF:FLASH動(dòng)畫RTF:RichTextFile57第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論檢索策略調(diào)整技巧之獲取PDF格式全文58第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論獲取PDF格式的論文全文59第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論檢索策略調(diào)整技巧之獲取WORD文檔60第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論檢索策略調(diào)整技巧(3)5增加查詢條件查找泰素治療肺癌的網(wǎng)頁文章泰素肺癌:2,2406使用雙引號(hào),實(shí)現(xiàn)精確短語匹配“泰素治療肺癌”:1,88061第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論檢索策略調(diào)整后結(jié)果比較:

提問詞獲取網(wǎng)頁數(shù)肺癌(所有語種)244,000肺癌(所有中文)98,300肺腫瘤(所有中文)1,650肺癌(網(wǎng)頁標(biāo)題,所有中文)2,550肺癌(網(wǎng)域限制為)2,500

肺癌

1,120taxollungcancer(所有網(wǎng)站)19,100taxollungcancer3,370肺癌泰素(所有中文)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論