版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論內(nèi)容:教材1章6節(jié)(P18)+8章1-3節(jié)(P161)目的與要求:了解計(jì)算機(jī)及網(wǎng)絡(luò)在信息檢索的應(yīng)用;掌握數(shù)據(jù)庫的結(jié)構(gòu)及檢索原理的實(shí)現(xiàn),數(shù)據(jù)庫的類型;機(jī)檢基本技術(shù)與方法;擴(kuò)檢與縮檢;網(wǎng)絡(luò)檢索及搜索引擎的使用。教學(xué)重、難點(diǎn):計(jì)算機(jī)信息檢索的概念;數(shù)據(jù)庫的類型與結(jié)構(gòu);布爾邏輯檢索;字段限定檢索;截詞檢索;搜索引擎的分類,簡單檢索及高級(jí)檢索。1第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論4.1.1計(jì)算機(jī)在檢索中的利用
一.計(jì)算機(jī)的特點(diǎn)滿足檢索的要求:用戶對(duì)檢索的主要要求:準(zhǔn):要求檢出的文獻(xiàn)有針對(duì)性,能解決研究中的具體問題。全:全面了解某一特定領(lǐng)域(問題)的發(fā)生、發(fā)展和現(xiàn)狀。新:掌握最新動(dòng)態(tài)或進(jìn)展??欤鹤疃虝r(shí)間內(nèi)獲得結(jié)果。2第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論4.1.1計(jì)算機(jī)在檢索中的利用計(jì)算機(jī)檢索的優(yōu)點(diǎn):1)檢索速度快、效益高。2)使用方便,實(shí)現(xiàn)資源共享。3)檢索內(nèi)容新、范圍廣、數(shù)量大。4)檢索手段靈活,檢索途徑繁多。5)計(jì)算機(jī)不會(huì)象人那樣因產(chǎn)生疲勞而致錯(cuò)。6)多樣化的結(jié)果提供方式.可將檢索結(jié)果按用戶要求的進(jìn)行排序,整理后的文獻(xiàn)可以采取顯示、打印和軟盤拷貝等多種方式提供。必要時(shí),還可以聯(lián)機(jī)訂購原文。計(jì)算機(jī)具有準(zhǔn)、快、存儲(chǔ)容量大的特點(diǎn)。符合現(xiàn)時(shí)期從海量數(shù)據(jù)中快速、準(zhǔn)確獲取信息的檢索要求。3第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論1.(國外)早期應(yīng)用情況:1951年人們首次利用計(jì)算機(jī)進(jìn)行信息檢索實(shí)驗(yàn)。自1954年美國海軍兵器中心使用IBM701型電子管計(jì)算機(jī)建立了世界上第一個(gè)計(jì)算機(jī)檢索系統(tǒng),存入文獻(xiàn)14000篇。1964年,在使用計(jì)算機(jī)排版《IM》時(shí)產(chǎn)生一副產(chǎn)品:MEDLARS數(shù)據(jù)庫(醫(yī)學(xué)文獻(xiàn)分析與檢索系統(tǒng))。相應(yīng)發(fā)展出4種機(jī)檢類型:脫機(jī)檢索階段(20世紀(jì)50年代中至60年代中)聯(lián)機(jī)檢索階段(20世紀(jì)60年代中至70年代)光盤檢索階段(20世紀(jì)80年代中期-)網(wǎng)絡(luò)化聯(lián)機(jī)檢索階段(20世紀(jì)90年代-)二.計(jì)算機(jī)信息檢索的發(fā)展:4第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論2.(國內(nèi))計(jì)算機(jī)信息檢索發(fā)展:研究始于20世紀(jì)70年代中期(1975年,首次引進(jìn)國外文獻(xiàn)數(shù)據(jù)庫進(jìn)行機(jī)檢實(shí)驗(yàn))。1978年開始由中國科技情報(bào)所試建文獻(xiàn)數(shù)據(jù)庫和檢索服務(wù)系統(tǒng)。1980年,國際聯(lián)機(jī)檢索目前,……5第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論4.1.2計(jì)算機(jī)信息檢索及類型一.計(jì)算機(jī)信息檢索的定義
檢索終端特定信息用戶利用計(jì)算機(jī)信息檢索系統(tǒng),使用特定的指令、檢索詞或檢索策略,從數(shù)據(jù)庫中檢索出與用戶特定需求相一致的信息的過程。用戶檢索指令、檢索詞、檢索策略6第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論二.計(jì)算機(jī)信息檢索原理本質(zhì)上與手工檢索原理相同,均為匹配方式,但略有區(qū)別。手檢:具有概念思維性、隨機(jī)應(yīng)變性,可隨時(shí)修改的意義匹配。檢索策略人腦記憶,對(duì)工具書手翻、眼看、大腦不停思考與判斷來完成。機(jī)檢:高速、機(jī)械的邏輯匹配。優(yōu)點(diǎn):高速、精確。缺陷:①誤檢率高②查全率低。7第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論三.計(jì)算機(jī)信息檢索服務(wù)種類:1.回溯檢索查找過去某一時(shí)間段內(nèi)所有符合要求的信息。一次掌握比較全面的資料??萍疾樾?.定題檢索定期提供某一指定課題的最新資料。適合掌握最新動(dòng)態(tài),以及已進(jìn)行項(xiàng)目的情報(bào)保障。8第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論4.2數(shù)據(jù)庫的類型與結(jié)構(gòu)4.2.1數(shù)據(jù)庫的概念數(shù)據(jù)庫是計(jì)算機(jī)存儲(chǔ)設(shè)備上按一定方式存儲(chǔ)的相互關(guān)聯(lián)的數(shù)據(jù)集合。數(shù)據(jù)庫是檢索系統(tǒng)的信息源和核心。同時(shí)又反作用于信息檢索。9第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論1、文獻(xiàn)型數(shù)據(jù)庫:書目型數(shù)據(jù)庫:文獻(xiàn)外表特征和內(nèi)容特征的描述與記載。全文數(shù)據(jù)庫:存儲(chǔ)文獻(xiàn)全文或節(jié)選其中主要部分的數(shù)據(jù)庫??梢灾苯荧@取原始資料。2、數(shù)值型數(shù)據(jù)庫:3、事實(shí)型數(shù)據(jù)庫:4、圖像型數(shù)據(jù)庫:5、多媒體型數(shù)據(jù)庫:4.2.2數(shù)據(jù)庫的類型10第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論不同的數(shù)據(jù)庫,雖然利用原理相同,但由于數(shù)據(jù)內(nèi)容和利用目的的不同,使得其數(shù)據(jù)結(jié)構(gòu)和文獻(xiàn)記錄標(biāo)引方式也有一定的差異,因而在利用也會(huì)各有特點(diǎn),并不存在普遍適用的方法。利用一個(gè)數(shù)據(jù)庫,首先要了解其結(jié)構(gòu)。數(shù)據(jù)庫可分為字段、記錄、文檔3個(gè)層次的構(gòu)成。4.2.3數(shù)據(jù)庫的結(jié)構(gòu)11第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論
數(shù)據(jù)庫文檔記錄字段
若干個(gè)記錄構(gòu)成的信息集合稱為文檔。大型的數(shù)據(jù)庫分割成若干文檔。記錄是構(gòu)成數(shù)據(jù)庫的完整的信息單元,每條記錄描述了原始信息的外部特征和內(nèi)部特征。組成記錄的數(shù)據(jù)項(xiàng)目12第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論文章號(hào)篇名作者文摘全文001asdLiXxx……..002bysWangYyy……..……vcadengzzz……..篇名文章號(hào)Asd001Bys002vca……作者文章號(hào)Deng……Li001Wang002索引文檔1:篇名索引索引文檔2:作者索引主文檔(順排文檔)檢索篇名檢索作者當(dāng)你要在篇名中查找時(shí),搜索指令將在篇名索引中進(jìn)行搜索,然后將主文檔中對(duì)應(yīng)的記錄調(diào)出來各項(xiàng)數(shù)據(jù)以構(gòu)成一張橫豎對(duì)齊的二維表格形式存放于數(shù)據(jù)庫文件(庫文件)中。文章號(hào)唯一,且索引文檔與主文檔的文章號(hào)一一對(duì)應(yīng)索引文檔(倒排文檔)文檔(File)由眾多記錄按一定方式組織在一起形成。13第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論常用的外文生物醫(yī)學(xué)數(shù)據(jù)庫:MEDLINE數(shù)據(jù)庫荷蘭《醫(yī)學(xué)文摘》數(shù)據(jù)庫(EM)《生物學(xué)文摘》數(shù)據(jù)庫(BA)化學(xué)文摘數(shù)據(jù)庫(CA)《科學(xué)引文索引》數(shù)據(jù)庫(SCI)常見的中文生物醫(yī)學(xué)數(shù)據(jù)庫:中國生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫(CBMdisc)中文生物醫(yī)學(xué)期刊數(shù)據(jù)庫(CMCC)中國學(xué)術(shù)期刊數(shù)據(jù)庫萬方數(shù)據(jù)庫中醫(yī)藥文獻(xiàn)數(shù)據(jù)庫14第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論4.3計(jì)算機(jī)信息檢索技術(shù)與方法常用計(jì)算機(jī)算符大致可分為4類:4.3.1布爾邏輯算符4.3.2字段限定符4.3.3截詞符4.3.4位置算符4.3.5其他檢索技術(shù)15第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論4.3.1布爾邏輯運(yùn)算符:來源:(布爾代數(shù))邏輯與、邏輯或、邏輯非。作用:布爾邏輯運(yùn)算符用來表示兩個(gè)檢索詞之間的邏輯關(guān)系,用以形成一個(gè)邏輯表達(dá)式。計(jì)算機(jī)根據(jù)邏輯表達(dá)式查找符合限定條件的文獻(xiàn)信息。
算符表示形式(3種):邏輯與(AND)、邏輯或(OR)、邏輯非(NOT)。16第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論布爾邏輯算符1、邏輯“與”用AND表示,表達(dá)概念間交叉或限定關(guān)系的一種組配,作用是縮小檢索范圍,描述更為準(zhǔn)確,提高查準(zhǔn)率。檢索式“AandB”表示文獻(xiàn)中同時(shí)包含檢索詞A和檢索詞B的文獻(xiàn)才是命中文獻(xiàn)。(如右圖)
如:查找“胰島素治療糖尿病”的檢索式為insulin(胰島素)anddiabetes(糖尿?。?。17第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論布爾邏輯算符
2、邏輯“或”用OR表示,表達(dá)概念間并列關(guān)系的一種組配。作用:擴(kuò)大檢索范圍,提高查全率。
檢索式“AorB”表示包含檢索詞A的文獻(xiàn)或者包含檢索詞B的文獻(xiàn)或者同時(shí)包含檢索詞A和B的文獻(xiàn)為命中文獻(xiàn)。
如:查找“腫瘤”的檢索式為cancer(癌)
ortumor(瘤)orcarcinoma(癌)orneoplasm(新生物)。使用注意:處理好整體與部分的關(guān)系,避免漏檢。18第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論布爾邏輯算符3、邏輯“非”用NOT、AND
NOT表示,表達(dá)概念間不包含關(guān)系的一種組配。作用:縮小檢索范圍,提高查準(zhǔn)率。檢索式“AnotB”表示包含檢索詞A同時(shí)不包含檢索詞B的文獻(xiàn)為命中文獻(xiàn)。如:查“動(dòng)物的乙肝病毒(不要人的)”的文獻(xiàn)的檢索式為hepatitisBvirus(乙肝病毒)nothuman(人類)。使用注意:處理好交叉關(guān)系,避免漏檢。如:(亞洲AND禽流感)NOT歐洲19第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論4、運(yùn)算次序與注意事項(xiàng)運(yùn)算次序在一個(gè)檢索式中,可以同時(shí)使用多個(gè)邏輯運(yùn)算符,構(gòu)成一個(gè)復(fù)合邏輯檢索式。一般情況下,運(yùn)算優(yōu)先級(jí)別如下所示(可以使用括號(hào)改變運(yùn)算次序)。
()>NOT>AND>OR例:檢索厚樸或檳榔對(duì)兔離體腸平滑肌運(yùn)動(dòng)功能的影響.(厚樸OR檳榔)AND平滑肌實(shí)際使用中,不同數(shù)據(jù)庫對(duì)運(yùn)算次序解釋不同。20第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論檢索實(shí)例:例:查找有關(guān)腫瘤引起的貧血的非英文文獻(xiàn)
neoplasms(腫瘤)/complications(并發(fā)癥)
anemia(貧血)/etiology(病因?qū)W)
English
#11687NEOPLASMS/complications#2179ANEMIA/etiology#323867EnglishinLA(LA=English)#420(#1and#2)not#321第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論4.3.2字段限定符(1)“in”表示將“in”左側(cè)檢索詞限定在某個(gè)字段名內(nèi)查找。如:HypertensioninTI_(2)“=”、“<”、“>”、“>=”、“<=”符號(hào)主要用于限定查找年代。如:PY=2000,表示要求檢出2000年出版的文獻(xiàn)。22第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論也稱通配符,通常用“*”代表無限多的字符組合,而用“?”代表任意一個(gè)字符。截詞檢索:是用截?cái)嗟脑~的一個(gè)局部進(jìn)行檢索,并認(rèn)為凡滿足這個(gè)詞局部中的所有字符(串)的文獻(xiàn),都為命中文獻(xiàn)。實(shí)質(zhì)是用邏輯OR對(duì)具有相同的詞頭或詞尾的詞匯進(jìn)行檢索。
4.3.3截詞符23第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論(一)后截?cái)啵簩⒔卦~符號(hào)放在一個(gè)字符串的右方,以表示其右的有限或無限個(gè)字符不影響該字符串的檢索。后截?cái)鄼z索技術(shù)最常用,其主要用途有:詞的單復(fù)數(shù),如book?同根詞,例如biolog*,physic*年代,例如199?,19??作者,例如:Lancaster*例如:
hyperthyr*可查到hyperthyre、hyperthyreosis、hyperthyroid、hyperthyroidosis、hyperthyroidism等。
hypertensi??可查到hypertension、hypertensive。
24第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論
(二)前截?cái)啵簩⒔卦~符號(hào)放在一個(gè)字符串的左方,以表示其左方有有限或無限個(gè)字符。前截?cái)嘁驗(yàn)閷?shí)現(xiàn)技術(shù)上較困難,在檢索系統(tǒng)中比較少見。其主要用途在于:進(jìn)行一個(gè)學(xué)科的不同應(yīng)用領(lǐng)域的檢索,常用于檢索化學(xué)化工文獻(xiàn)與復(fù)合詞較多的文獻(xiàn)。如:例1:*magnetic,可檢索出magnetic(有磁性的)、electro-magnetic(電磁的)、patamagnetic(順磁的)、thermo-magnetic(熱磁的)thermomagnetic等詞的文獻(xiàn)。例2:*sighted,可查到farsighted與nearsighted。
25第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論
(三)中截?cái)啵簩⒔卦~符號(hào)放在一個(gè)檢索詞的中間的一種截詞方式。只允許有限截?cái)?,用于檢索詞的單復(fù)數(shù)或英美式不同拚法。例如:
wom?n,可查到Woman,Women。
defen?e,可查到defense,defence。26第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論截詞檢索實(shí)際上是防止漏檢的有力手段。作為后控制措施,目前在大多數(shù)檢索系統(tǒng)中得到了實(shí)現(xiàn)。運(yùn)用截詞檢索,不僅能擴(kuò)大檢索范圍,提高查全率,而且還可以減少檢索詞的輸入量,簡化檢索步驟(不需要用OR進(jìn)行同義詞的組配)。但并不是所有用截詞符產(chǎn)生的單詞與你的檢索意圖相一致。27第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論4.3.4位置算符又稱鄰近檢索,是用來規(guī)定概念相互間的鄰近關(guān)系,包括在記錄中出現(xiàn)的順序和相對(duì)位置。運(yùn)算符都用“()”括起,前后不留空格。要求原始記錄中檢索詞之間的相互位置滿足某些條件時(shí)要使用位置算符,常用的位置算符有with、near等。
28第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論(1)with算符(W)與(nW)表示此算符兩側(cè)的檢索詞在命中記錄中必須出現(xiàn)在同一字段中,即同時(shí)出現(xiàn)于篇名或文摘中等,且位置相鄰,前后位置不可以顛倒。(W)表示相鄰,且詞序不變。(nW)要求它所連接的兩個(gè)詞在檢索結(jié)果中出現(xiàn)時(shí),相互距離不超過n個(gè)詞(或漢字)。N的取值范圍一般在1-25。如智能機(jī)器人(3w)控制,可檢出“智能機(jī)器人控制”,“智能機(jī)器人行為控制”等。
29第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論(2)near算符(N)與(nN)
AnearB表示命中記錄中左右兩個(gè)檢索詞出現(xiàn)在同一句子中。A(nN)B
的檢索結(jié)果是A與B必須同時(shí)出現(xiàn)在一句話中,無論語序,二者之間最多可相隔n-1個(gè)單詞。N的取值范圍一般在1-25。如智能機(jī)器人(3n)控制,可檢出“智能機(jī)器人控制”,“..控制算法對(duì)智能機(jī)器人的影響”
、“智能機(jī)器人行為控制”等30第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論4.3.5其他檢索技術(shù)(一)加權(quán)檢索(WeightingSearching
)
是一種定量檢索的技術(shù)。從量的方面對(duì)檢索詞之間的組配關(guān)系加以限制和表示。在每個(gè)提問詞后面給定一個(gè)數(shù)值表示其重要程度,這個(gè)數(shù)值稱為權(quán)(Weight),在檢索時(shí),先查找這些檢索詞在數(shù)據(jù)庫記錄中是否存在,然后計(jì)算存在的檢索詞的權(quán)值總和。權(quán)值之和超過閾值,該記錄為命中文獻(xiàn)縮小檢索范圍,提高檢準(zhǔn)率的有效方法31第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論(二)聚類檢索:計(jì)算文獻(xiàn)的相似度,并把相似度較高的文獻(xiàn)集中在一起,形成一個(gè)個(gè)的文獻(xiàn)類。根據(jù)不同的聚類水平的要求,可以形成不同聚類層次的類目體系。主題相近、內(nèi)容相關(guān)的文獻(xiàn)聚在一起,相異的被區(qū)分開來。32第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論4.4.1Internet的歷史與發(fā)展一.
Internet的歷史1969年,ARPANET(阿帕網(wǎng)),73年正式運(yùn)行1983年,用于異種網(wǎng)絡(luò)連接的TCP/IP協(xié)議研制成功(實(shí)驗(yàn)網(wǎng)絡(luò)向?qū)嵱镁W(wǎng)絡(luò)的轉(zhuǎn)變)1986年,NSFNET,事實(shí)上的INTERNET主干網(wǎng)1989年,CERN開發(fā)成功WWW(超媒體信息)1991年,INTERNET實(shí)現(xiàn)商業(yè)入網(wǎng)1993年,Mosaic發(fā)表(圖形用戶界面)4.4
Internet檢索33第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論二.我國Internet的發(fā)展我國正式加入因特網(wǎng)的歷史較短,主要經(jīng)歷了兩個(gè)階段:
第一階段:1987-1993年,以通過撥號(hào)實(shí)現(xiàn)電子郵件轉(zhuǎn)發(fā)為特征。
第二階段:1994年至今,實(shí)現(xiàn)了TCP/IP連接,開通了因特網(wǎng)的全功能服務(wù)。34第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論中國互聯(lián)網(wǎng)絡(luò)信息中心統(tǒng)計(jì)數(shù)據(jù)網(wǎng)民上網(wǎng)計(jì)算機(jī)數(shù)域名網(wǎng)站國際出口帶寬20051.11億4950萬2,592,410694,20082,617M20061.37億5940萬4,109,020843,000256,696M20072.1億1193萬150萬368,927Mbps20082.98億1682萬287萬640,286Mbps年增長率41.9%41%91.4%73.6%35第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論全球部分國家互聯(lián)網(wǎng)普及率截至2008年底,中國網(wǎng)民規(guī)模達(dá)到2.98億人,較2007年增長41.9%,互聯(lián)網(wǎng)普及率達(dá)到22.6%,略高于全球平均水平(21.9%[1])。繼2008年6月中國網(wǎng)民規(guī)模超過美國,成為全球第一之后,中國的互聯(lián)網(wǎng)普及再次實(shí)現(xiàn)飛躍,趕上并超過了全球平均水平。
[1]
數(shù)據(jù)來源:;對(duì)比的其他國家和地區(qū)互聯(lián)網(wǎng)普及率為2008年6月底數(shù)據(jù)。36第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論4.4.2教育、科研與因特網(wǎng)存儲(chǔ)與查詢信息了解學(xué)科動(dòng)態(tài)快速交流信息提供科研條件37第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論4.4.3網(wǎng)絡(luò)信息的特點(diǎn)及查詢“每個(gè)人都能在網(wǎng)上找到對(duì)自己有用的信息?!碧攸c(diǎn):松散管理;微觀有序,宏觀無序;網(wǎng)絡(luò)信息包羅萬象;信息內(nèi)容深度跨度很大;網(wǎng)絡(luò)信息質(zhì)量高下有別。最常用的途徑就是借助搜索引擎。38第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論4.5搜索引擎搜索引擎通常指的是基于整個(gè)互聯(lián)網(wǎng)的搜索引擎,它最大可能地收集互聯(lián)網(wǎng)上網(wǎng)頁信息,并對(duì)其中重要的內(nèi)容建立索引和鏈接。網(wǎng)站目錄不等于搜索引擎因特網(wǎng)的淺表信息和深層信息39第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論4.5.1搜索引擎的工作原理搜索引擎的數(shù)據(jù)采集、數(shù)據(jù)組織和數(shù)據(jù)檢索功能主要通過各種軟件來實(shí)現(xiàn)數(shù)據(jù)采集:采用機(jī)器人、蜘蛛、爬蟲等網(wǎng)絡(luò)搜索軟件進(jìn)行的數(shù)據(jù)組織:利用索引軟件將采集的網(wǎng)頁進(jìn)行標(biāo)引、整序、組織,并建立索引數(shù)據(jù)庫數(shù)據(jù)檢索:根據(jù)用戶提出的要求,應(yīng)用查詢軟件將其轉(zhuǎn)換為計(jì)算機(jī)執(zhí)行命令,在索引數(shù)據(jù)庫是檢索符合條件的網(wǎng)頁記錄40第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論1、按檢索功能分有:基于關(guān)鍵詞的搜索引擎與分類目錄型搜索引擎2、按檢索內(nèi)容分有:通用型搜索引擎與專業(yè)型搜索引擎3、按組合方式分有:獨(dú)立搜索引擎與元搜索引擎4.5.2搜索引擎的類型41第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論分類目錄型搜索引擎的代表:YAHOO42第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論43第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論基于關(guān)鍵詞或自由詞的搜索引擎44第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論4.5.3
通用搜索引擎使用舉例一.google
1998年9月由斯坦福大學(xué)博士生LarryPage與SergeyBrin創(chuàng)建。Google非常注重技術(shù)創(chuàng)新世界對(duì)其評(píng)價(jià)很高。98年至今,已經(jīng)獲得30多項(xiàng)業(yè)界大獎(jiǎng),如美國《時(shí)代》雜志評(píng)選的“1999年度十大網(wǎng)絡(luò)技術(shù)”,《個(gè)人電腦》雜志授予的“最佳技術(shù)獎(jiǎng)”,TheNet授予的“最佳搜索引擎獎(jiǎng)”等等。45第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論搜索功能介紹(參見幫助文件)一般功能(1)自動(dòng)使用“AND”進(jìn)行查詢(2)忽略詞(3)短語搜索(4)高級(jí)搜索特殊功能(1)查找Flash文件(2)按鏈接搜索(3)指定網(wǎng)域(4)手氣不錯(cuò)(5)貨幣轉(zhuǎn)換(6)計(jì)算器(7)錯(cuò)別字改正(8)中英文字典(9)定義……46第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論一.Google基本檢索語法(1)只搜索完全一樣的字詞,不使用“詞干法”,也不支持"通配符"(*)搜索;(2)不區(qū)分大小寫;(3)在多個(gè)關(guān)鍵詞之間自動(dòng)添加“AND“(4)不支持“OR“運(yùn)算符(5)專用語查詢:只要在專用詞語上加上雙引號(hào),就可以進(jìn)行準(zhǔn)確查詢。(6)加號(hào)“+”:后面的詞必須出現(xiàn)(7)用減號(hào)“-”刪除無關(guān)網(wǎng)頁。47第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論二.如何利用Google檢索專業(yè)信息資料?
以及
如何根據(jù)需要調(diào)整檢索策略?例:如何查找有關(guān)“肺癌”的網(wǎng)絡(luò)信息?48第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論Google主頁(中文界面)49第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論GOOGLE檢索結(jié)果界面50第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論檢索策略調(diào)整技巧(1)1.限定語種:所有中文1,360,000——920,0002.選擇更專業(yè)的提問詞:肺癌——肺腫瘤1,360,000——21,1003.利用精選的網(wǎng)頁目錄51第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論檢索策略調(diào)整之一:限定語種52第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論檢索策略調(diào)整之二:利用更專業(yè)的詞匯53第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論檢索策略調(diào)整之三:利用網(wǎng)頁目錄54第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論檢索策略調(diào)整技巧(2)4.利用搜索引擎的高級(jí)檢索模式限定提問詞在“搜索結(jié)果”中出現(xiàn)的形式指定檢索以某一語言編寫的網(wǎng)頁限定要查詢的網(wǎng)頁更新的日期指定查詢字詞位置(網(wǎng)頁中的任何地方、網(wǎng)頁的標(biāo)題、網(wǎng)頁的內(nèi)文、網(wǎng)頁的鏈接上)限定搜索某一網(wǎng)域的網(wǎng)頁(gov、edu、com)“類似網(wǎng)頁”:自動(dòng)搜索某一網(wǎng)頁的類似網(wǎng)頁“鏈接”:搜索與某一網(wǎng)址建立了鏈接的網(wǎng)頁55第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論Google高級(jí)檢索模式56第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論文件類型限定:在一般檢索及高級(jí)檢索中可限定檢索結(jié)果的文獻(xiàn)類型,多用于在互聯(lián)網(wǎng)上獲取原始文獻(xiàn).支持13種非HTML文件的搜索。格式:“關(guān)鍵詞”將文獻(xiàn)類型限定為“pdf”,可獲取免費(fèi)全文提問式“
肺癌”或“taxollungcancer“獲取WORD文檔提問式“
肺癌”PPT:Powerpoint文檔XLS:EXCEL文檔SWF:FLASH動(dòng)畫RTF:RichTextFile57第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論檢索策略調(diào)整技巧之獲取PDF格式全文58第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論獲取PDF格式的論文全文59第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論檢索策略調(diào)整技巧之獲取WORD文檔60第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論檢索策略調(diào)整技巧(3)5增加查詢條件查找泰素治療肺癌的網(wǎng)頁文章泰素肺癌:2,2406使用雙引號(hào),實(shí)現(xiàn)精確短語匹配“泰素治療肺癌”:1,88061第4課計(jì)算機(jī)及網(wǎng)絡(luò)檢索概論檢索策略調(diào)整后結(jié)果比較:
提問詞獲取網(wǎng)頁數(shù)肺癌(所有語種)244,000肺癌(所有中文)98,300肺腫瘤(所有中文)1,650肺癌(網(wǎng)頁標(biāo)題,所有中文)2,550肺癌(網(wǎng)域限制為)2,500
肺癌
1,120taxollungcancer(所有網(wǎng)站)19,100taxollungcancer3,370肺癌泰素(所有中文)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024-2030年中國靜脈產(chǎn)業(yè)園行業(yè)發(fā)展模式規(guī)劃分析報(bào)告權(quán)威版
- 2024-2030年中國陶瓷減水劑行業(yè)市場(chǎng)運(yùn)營模式及未來發(fā)展動(dòng)向預(yù)測(cè)報(bào)告
- 2024-2030年中國阿奇霉素行業(yè)發(fā)展?fàn)顩r及投資價(jià)值研究報(bào)告
- 2024-2030年中國鈾資源行業(yè)發(fā)展展望及投資規(guī)模分析報(bào)告
- 2024年供應(yīng)鏈合作協(xié)議:攜手共進(jìn)互利雙贏
- 2024年拍賣師臨時(shí)聘用協(xié)議書
- 2024年式機(jī)器設(shè)備租賃期滿解約協(xié)議
- 2024年度教育合作協(xié)議
- 離婚協(xié)議書的文化差異與影響
- 語文教研組教師培訓(xùn)方案
- 專題13 原電池 化學(xué)電源-五年(2020-2024)高考化學(xué)真題分類匯編(原卷版)
- 國家開放大學(xué)《Web開發(fā)基礎(chǔ)》形考任務(wù)實(shí)驗(yàn)1-5參考答案
- 2023-2024學(xué)年教科版三年級(jí)上學(xué)期科學(xué)期中檢測(cè)試卷(含答案)
- 2024年北京京能清潔能源電力股份有限公司招聘筆試參考題庫含答案解析
- THL520電話交換機(jī)說明書
- 職工食堂承包投標(biāo)書范本
- 色譜柱Agilent安捷倫化色譜柱介紹
- 不動(dòng)產(chǎn)登記表.doc
- 醫(yī)療器械生產(chǎn)場(chǎng)地的相關(guān)要求
- 《產(chǎn)品合格證》(通用格式模板)
- 電梯控制器DP30使用手冊(cè)應(yīng)用篇
評(píng)論
0/150
提交評(píng)論