第4課 計算機及網絡檢索概論課件_第1頁
第4課 計算機及網絡檢索概論課件_第2頁
第4課 計算機及網絡檢索概論課件_第3頁
第4課 計算機及網絡檢索概論課件_第4頁
第4課 計算機及網絡檢索概論課件_第5頁
已閱讀5頁,還剩74頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第4課計算機及網絡檢索概論內容:教材1章6節(jié)(P18)+8章1-3節(jié)(P161)目的與要求:了解計算機及網絡在信息檢索的應用;掌握數據庫的結構及檢索原理的實現,數據庫的類型;機檢基本技術與方法;擴檢與縮檢;網絡檢索及搜索引擎的使用。教學重、難點:計算機信息檢索的概念;數據庫的類型與結構;布爾邏輯檢索;字段限定檢索;截詞檢索;搜索引擎的分類,簡單檢索及高級檢索。1第4課計算機及網絡檢索概論4.1.1計算機在檢索中的利用

一.計算機的特點滿足檢索的要求:用戶對檢索的主要要求:準:要求檢出的文獻有針對性,能解決研究中的具體問題。全:全面了解某一特定領域(問題)的發(fā)生、發(fā)展和現狀。新:掌握最新動態(tài)或進展??欤鹤疃虝r間內獲得結果。2第4課計算機及網絡檢索概論4.1.1計算機在檢索中的利用計算機檢索的優(yōu)點:1)檢索速度快、效益高。2)使用方便,實現資源共享。3)檢索內容新、范圍廣、數量大。4)檢索手段靈活,檢索途徑繁多。5)計算機不會象人那樣因產生疲勞而致錯。6)多樣化的結果提供方式.可將檢索結果按用戶要求的進行排序,整理后的文獻可以采取顯示、打印和軟盤拷貝等多種方式提供。必要時,還可以聯機訂購原文。計算機具有準、快、存儲容量大的特點。符合現時期從海量數據中快速、準確獲取信息的檢索要求。3第4課計算機及網絡檢索概論1.(國外)早期應用情況:1951年人們首次利用計算機進行信息檢索實驗。自1954年美國海軍兵器中心使用IBM701型電子管計算機建立了世界上第一個計算機檢索系統(tǒng),存入文獻14000篇。1964年,在使用計算機排版《IM》時產生一副產品:MEDLARS數據庫(醫(yī)學文獻分析與檢索系統(tǒng))。相應發(fā)展出4種機檢類型:脫機檢索階段(20世紀50年代中至60年代中)聯機檢索階段(20世紀60年代中至70年代)光盤檢索階段(20世紀80年代中期-)網絡化聯機檢索階段(20世紀90年代-)二.計算機信息檢索的發(fā)展:4第4課計算機及網絡檢索概論2.(國內)計算機信息檢索發(fā)展:研究始于20世紀70年代中期(1975年,首次引進國外文獻數據庫進行機檢實驗)。1978年開始由中國科技情報所試建文獻數據庫和檢索服務系統(tǒng)。1980年,國際聯機檢索目前,……5第4課計算機及網絡檢索概論4.1.2計算機信息檢索及類型一.計算機信息檢索的定義

檢索終端特定信息用戶利用計算機信息檢索系統(tǒng),使用特定的指令、檢索詞或檢索策略,從數據庫中檢索出與用戶特定需求相一致的信息的過程。用戶檢索指令、檢索詞、檢索策略6第4課計算機及網絡檢索概論二.計算機信息檢索原理本質上與手工檢索原理相同,均為匹配方式,但略有區(qū)別。手檢:具有概念思維性、隨機應變性,可隨時修改的意義匹配。檢索策略人腦記憶,對工具書手翻、眼看、大腦不停思考與判斷來完成。機檢:高速、機械的邏輯匹配。優(yōu)點:高速、精確。缺陷:①誤檢率高②查全率低。7第4課計算機及網絡檢索概論三.計算機信息檢索服務種類:1.回溯檢索查找過去某一時間段內所有符合要求的信息。一次掌握比較全面的資料??萍疾樾?.定題檢索定期提供某一指定課題的最新資料。適合掌握最新動態(tài),以及已進行項目的情報保障。8第4課計算機及網絡檢索概論4.2數據庫的類型與結構4.2.1數據庫的概念數據庫是計算機存儲設備上按一定方式存儲的相互關聯的數據集合。數據庫是檢索系統(tǒng)的信息源和核心。同時又反作用于信息檢索。9第4課計算機及網絡檢索概論1、文獻型數據庫:書目型數據庫:文獻外表特征和內容特征的描述與記載。全文數據庫:存儲文獻全文或節(jié)選其中主要部分的數據庫??梢灾苯荧@取原始資料。2、數值型數據庫:3、事實型數據庫:4、圖像型數據庫:5、多媒體型數據庫:4.2.2數據庫的類型10第4課計算機及網絡檢索概論不同的數據庫,雖然利用原理相同,但由于數據內容和利用目的的不同,使得其數據結構和文獻記錄標引方式也有一定的差異,因而在利用也會各有特點,并不存在普遍適用的方法。利用一個數據庫,首先要了解其結構。數據庫可分為字段、記錄、文檔3個層次的構成。4.2.3數據庫的結構11第4課計算機及網絡檢索概論

數據庫文檔記錄字段

若干個記錄構成的信息集合稱為文檔。大型的數據庫分割成若干文檔。記錄是構成數據庫的完整的信息單元,每條記錄描述了原始信息的外部特征和內部特征。組成記錄的數據項目12第4課計算機及網絡檢索概論文章號篇名作者文摘全文001asdLiXxx……..002bysWangYyy……..……vcadengzzz……..篇名文章號Asd001Bys002vca……作者文章號Deng……Li001Wang002索引文檔1:篇名索引索引文檔2:作者索引主文檔(順排文檔)檢索篇名檢索作者當你要在篇名中查找時,搜索指令將在篇名索引中進行搜索,然后將主文檔中對應的記錄調出來各項數據以構成一張橫豎對齊的二維表格形式存放于數據庫文件(庫文件)中。文章號唯一,且索引文檔與主文檔的文章號一一對應索引文檔(倒排文檔)文檔(File)由眾多記錄按一定方式組織在一起形成。13第4課計算機及網絡檢索概論常用的外文生物醫(yī)學數據庫:MEDLINE數據庫荷蘭《醫(yī)學文摘》數據庫(EM)《生物學文摘》數據庫(BA)化學文摘數據庫(CA)《科學引文索引》數據庫(SCI)常見的中文生物醫(yī)學數據庫:中國生物醫(yī)學文獻數據庫(CBMdisc)中文生物醫(yī)學期刊數據庫(CMCC)中國學術期刊數據庫萬方數據庫中醫(yī)藥文獻數據庫14第4課計算機及網絡檢索概論4.3計算機信息檢索技術與方法常用計算機算符大致可分為4類:4.3.1布爾邏輯算符4.3.2字段限定符4.3.3截詞符4.3.4位置算符4.3.5其他檢索技術15第4課計算機及網絡檢索概論4.3.1布爾邏輯運算符:來源:(布爾代數)邏輯與、邏輯或、邏輯非。作用:布爾邏輯運算符用來表示兩個檢索詞之間的邏輯關系,用以形成一個邏輯表達式。計算機根據邏輯表達式查找符合限定條件的文獻信息。

算符表示形式(3種):邏輯與(AND)、邏輯或(OR)、邏輯非(NOT)。16第4課計算機及網絡檢索概論布爾邏輯算符1、邏輯“與”用AND表示,表達概念間交叉或限定關系的一種組配,作用是縮小檢索范圍,描述更為準確,提高查準率。檢索式“AandB”表示文獻中同時包含檢索詞A和檢索詞B的文獻才是命中文獻。(如右圖)

如:查找“胰島素治療糖尿病”的檢索式為insulin(胰島素)anddiabetes(糖尿?。?。17第4課計算機及網絡檢索概論布爾邏輯算符

2、邏輯“或”用OR表示,表達概念間并列關系的一種組配。作用:擴大檢索范圍,提高查全率。

檢索式“AorB”表示包含檢索詞A的文獻或者包含檢索詞B的文獻或者同時包含檢索詞A和B的文獻為命中文獻。

如:查找“腫瘤”的檢索式為cancer(癌)

ortumor(瘤)orcarcinoma(癌)orneoplasm(新生物)。使用注意:處理好整體與部分的關系,避免漏檢。18第4課計算機及網絡檢索概論布爾邏輯算符3、邏輯“非”用NOT、AND

NOT表示,表達概念間不包含關系的一種組配。作用:縮小檢索范圍,提高查準率。檢索式“AnotB”表示包含檢索詞A同時不包含檢索詞B的文獻為命中文獻。如:查“動物的乙肝病毒(不要人的)”的文獻的檢索式為hepatitisBvirus(乙肝病毒)nothuman(人類)。使用注意:處理好交叉關系,避免漏檢。如:(亞洲AND禽流感)NOT歐洲19第4課計算機及網絡檢索概論4、運算次序與注意事項運算次序在一個檢索式中,可以同時使用多個邏輯運算符,構成一個復合邏輯檢索式。一般情況下,運算優(yōu)先級別如下所示(可以使用括號改變運算次序)。

()>NOT>AND>OR例:檢索厚樸或檳榔對兔離體腸平滑肌運動功能的影響.(厚樸OR檳榔)AND平滑肌實際使用中,不同數據庫對運算次序解釋不同。20第4課計算機及網絡檢索概論檢索實例:例:查找有關腫瘤引起的貧血的非英文文獻

neoplasms(腫瘤)/complications(并發(fā)癥)

anemia(貧血)/etiology(病因學)

English

#11687NEOPLASMS/complications#2179ANEMIA/etiology#323867EnglishinLA(LA=English)#420(#1and#2)not#321第4課計算機及網絡檢索概論4.3.2字段限定符(1)“in”表示將“in”左側檢索詞限定在某個字段名內查找。如:HypertensioninTI_(2)“=”、“<”、“>”、“>=”、“<=”符號主要用于限定查找年代。如:PY=2000,表示要求檢出2000年出版的文獻。22第4課計算機及網絡檢索概論也稱通配符,通常用“*”代表無限多的字符組合,而用“?”代表任意一個字符。截詞檢索:是用截斷的詞的一個局部進行檢索,并認為凡滿足這個詞局部中的所有字符(串)的文獻,都為命中文獻。實質是用邏輯OR對具有相同的詞頭或詞尾的詞匯進行檢索。

4.3.3截詞符23第4課計算機及網絡檢索概論(一)后截斷:將截詞符號放在一個字符串的右方,以表示其右的有限或無限個字符不影響該字符串的檢索。后截斷檢索技術最常用,其主要用途有:詞的單復數,如book?同根詞,例如biolog*,physic*年代,例如199?,19??作者,例如:Lancaster*例如:

hyperthyr*可查到hyperthyre、hyperthyreosis、hyperthyroid、hyperthyroidosis、hyperthyroidism等。

hypertensi??可查到hypertension、hypertensive。

24第4課計算機及網絡檢索概論

(二)前截斷:將截詞符號放在一個字符串的左方,以表示其左方有有限或無限個字符。前截斷因為實現技術上較困難,在檢索系統(tǒng)中比較少見。其主要用途在于:進行一個學科的不同應用領域的檢索,常用于檢索化學化工文獻與復合詞較多的文獻。如:例1:*magnetic,可檢索出magnetic(有磁性的)、electro-magnetic(電磁的)、patamagnetic(順磁的)、thermo-magnetic(熱磁的)thermomagnetic等詞的文獻。例2:*sighted,可查到farsighted與nearsighted。

25第4課計算機及網絡檢索概論

(三)中截斷:將截詞符號放在一個檢索詞的中間的一種截詞方式。只允許有限截斷,用于檢索詞的單復數或英美式不同拚法。例如:

wom?n,可查到Woman,Women。

defen?e,可查到defense,defence。26第4課計算機及網絡檢索概論截詞檢索實際上是防止漏檢的有力手段。作為后控制措施,目前在大多數檢索系統(tǒng)中得到了實現。運用截詞檢索,不僅能擴大檢索范圍,提高查全率,而且還可以減少檢索詞的輸入量,簡化檢索步驟(不需要用OR進行同義詞的組配)。但并不是所有用截詞符產生的單詞與你的檢索意圖相一致。27第4課計算機及網絡檢索概論4.3.4位置算符又稱鄰近檢索,是用來規(guī)定概念相互間的鄰近關系,包括在記錄中出現的順序和相對位置。運算符都用“()”括起,前后不留空格。要求原始記錄中檢索詞之間的相互位置滿足某些條件時要使用位置算符,常用的位置算符有with、near等。

28第4課計算機及網絡檢索概論(1)with算符(W)與(nW)表示此算符兩側的檢索詞在命中記錄中必須出現在同一字段中,即同時出現于篇名或文摘中等,且位置相鄰,前后位置不可以顛倒。(W)表示相鄰,且詞序不變。(nW)要求它所連接的兩個詞在檢索結果中出現時,相互距離不超過n個詞(或漢字)。N的取值范圍一般在1-25。如智能機器人(3w)控制,可檢出“智能機器人控制”,“智能機器人行為控制”等。

29第4課計算機及網絡檢索概論(2)near算符(N)與(nN)

AnearB表示命中記錄中左右兩個檢索詞出現在同一句子中。A(nN)B

的檢索結果是A與B必須同時出現在一句話中,無論語序,二者之間最多可相隔n-1個單詞。N的取值范圍一般在1-25。如智能機器人(3n)控制,可檢出“智能機器人控制”,“..控制算法對智能機器人的影響”

、“智能機器人行為控制”等30第4課計算機及網絡檢索概論4.3.5其他檢索技術(一)加權檢索(WeightingSearching

是一種定量檢索的技術。從量的方面對檢索詞之間的組配關系加以限制和表示。在每個提問詞后面給定一個數值表示其重要程度,這個數值稱為權(Weight),在檢索時,先查找這些檢索詞在數據庫記錄中是否存在,然后計算存在的檢索詞的權值總和。權值之和超過閾值,該記錄為命中文獻縮小檢索范圍,提高檢準率的有效方法31第4課計算機及網絡檢索概論(二)聚類檢索:計算文獻的相似度,并把相似度較高的文獻集中在一起,形成一個個的文獻類。根據不同的聚類水平的要求,可以形成不同聚類層次的類目體系。主題相近、內容相關的文獻聚在一起,相異的被區(qū)分開來。32第4課計算機及網絡檢索概論4.4.1Internet的歷史與發(fā)展一.

Internet的歷史1969年,ARPANET(阿帕網),73年正式運行1983年,用于異種網絡連接的TCP/IP協(xié)議研制成功(實驗網絡向實用網絡的轉變)1986年,NSFNET,事實上的INTERNET主干網1989年,CERN開發(fā)成功WWW(超媒體信息)1991年,INTERNET實現商業(yè)入網1993年,Mosaic發(fā)表(圖形用戶界面)4.4

Internet檢索33第4課計算機及網絡檢索概論二.我國Internet的發(fā)展我國正式加入因特網的歷史較短,主要經歷了兩個階段:

第一階段:1987-1993年,以通過撥號實現電子郵件轉發(fā)為特征。

第二階段:1994年至今,實現了TCP/IP連接,開通了因特網的全功能服務。34第4課計算機及網絡檢索概論中國互聯網絡信息中心統(tǒng)計數據網民上網計算機數域名網站國際出口帶寬20051.11億4950萬2,592,410694,20082,617M20061.37億5940萬4,109,020843,000256,696M20072.1億1193萬150萬368,927Mbps20082.98億1682萬287萬640,286Mbps年增長率41.9%41%91.4%73.6%35第4課計算機及網絡檢索概論全球部分國家互聯網普及率截至2008年底,中國網民規(guī)模達到2.98億人,較2007年增長41.9%,互聯網普及率達到22.6%,略高于全球平均水平(21.9%[1])。繼2008年6月中國網民規(guī)模超過美國,成為全球第一之后,中國的互聯網普及再次實現飛躍,趕上并超過了全球平均水平。

[1]

數據來源:;對比的其他國家和地區(qū)互聯網普及率為2008年6月底數據。36第4課計算機及網絡檢索概論4.4.2教育、科研與因特網存儲與查詢信息了解學科動態(tài)快速交流信息提供科研條件37第4課計算機及網絡檢索概論4.4.3網絡信息的特點及查詢“每個人都能在網上找到對自己有用的信息?!碧攸c:松散管理;微觀有序,宏觀無序;網絡信息包羅萬象;信息內容深度跨度很大;網絡信息質量高下有別。最常用的途徑就是借助搜索引擎。38第4課計算機及網絡檢索概論4.5搜索引擎搜索引擎通常指的是基于整個互聯網的搜索引擎,它最大可能地收集互聯網上網頁信息,并對其中重要的內容建立索引和鏈接。網站目錄不等于搜索引擎因特網的淺表信息和深層信息39第4課計算機及網絡檢索概論4.5.1搜索引擎的工作原理搜索引擎的數據采集、數據組織和數據檢索功能主要通過各種軟件來實現數據采集:采用機器人、蜘蛛、爬蟲等網絡搜索軟件進行的數據組織:利用索引軟件將采集的網頁進行標引、整序、組織,并建立索引數據庫數據檢索:根據用戶提出的要求,應用查詢軟件將其轉換為計算機執(zhí)行命令,在索引數據庫是檢索符合條件的網頁記錄40第4課計算機及網絡檢索概論1、按檢索功能分有:基于關鍵詞的搜索引擎與分類目錄型搜索引擎2、按檢索內容分有:通用型搜索引擎與專業(yè)型搜索引擎3、按組合方式分有:獨立搜索引擎與元搜索引擎4.5.2搜索引擎的類型41第4課計算機及網絡檢索概論分類目錄型搜索引擎的代表:YAHOO42第4課計算機及網絡檢索概論43第4課計算機及網絡檢索概論基于關鍵詞或自由詞的搜索引擎44第4課計算機及網絡檢索概論4.5.3

通用搜索引擎使用舉例一.google

1998年9月由斯坦福大學博士生LarryPage與SergeyBrin創(chuàng)建。Google非常注重技術創(chuàng)新世界對其評價很高。98年至今,已經獲得30多項業(yè)界大獎,如美國《時代》雜志評選的“1999年度十大網絡技術”,《個人電腦》雜志授予的“最佳技術獎”,TheNet授予的“最佳搜索引擎獎”等等。45第4課計算機及網絡檢索概論搜索功能介紹(參見幫助文件)一般功能(1)自動使用“AND”進行查詢(2)忽略詞(3)短語搜索(4)高級搜索特殊功能(1)查找Flash文件(2)按鏈接搜索(3)指定網域(4)手氣不錯(5)貨幣轉換(6)計算器(7)錯別字改正(8)中英文字典(9)定義……46第4課計算機及網絡檢索概論一.Google基本檢索語法(1)只搜索完全一樣的字詞,不使用“詞干法”,也不支持"通配符"(*)搜索;(2)不區(qū)分大小寫;(3)在多個關鍵詞之間自動添加“AND“(4)不支持“OR“運算符(5)專用語查詢:只要在專用詞語上加上雙引號,就可以進行準確查詢。(6)加號“+”:后面的詞必須出現(7)用減號“-”刪除無關網頁。47第4課計算機及網絡檢索概論二.如何利用Google檢索專業(yè)信息資料?

以及

如何根據需要調整檢索策略?例:如何查找有關“肺癌”的網絡信息?48第4課計算機及網絡檢索概論Google主頁(中文界面)49第4課計算機及網絡檢索概論GOOGLE檢索結果界面50第4課計算機及網絡檢索概論檢索策略調整技巧(1)1.限定語種:所有中文1,360,000——920,0002.選擇更專業(yè)的提問詞:肺癌——肺腫瘤1,360,000——21,1003.利用精選的網頁目錄51第4課計算機及網絡檢索概論檢索策略調整之一:限定語種52第4課計算機及網絡檢索概論檢索策略調整之二:利用更專業(yè)的詞匯53第4課計算機及網絡檢索概論檢索策略調整之三:利用網頁目錄54第4課計算機及網絡檢索概論檢索策略調整技巧(2)4.利用搜索引擎的高級檢索模式限定提問詞在“搜索結果”中出現的形式指定檢索以某一語言編寫的網頁限定要查詢的網頁更新的日期指定查詢字詞位置(網頁中的任何地方、網頁的標題、網頁的內文、網頁的鏈接上)限定搜索某一網域的網頁(gov、edu、com)“類似網頁”:自動搜索某一網頁的類似網頁“鏈接”:搜索與某一網址建立了鏈接的網頁55第4課計算機及網絡檢索概論Google高級檢索模式56第4課計算機及網絡檢索概論文件類型限定:在一般檢索及高級檢索中可限定檢索結果的文獻類型,多用于在互聯網上獲取原始文獻.支持13種非HTML文件的搜索。格式:“關鍵詞”將文獻類型限定為“pdf”,可獲取免費全文提問式“

肺癌”或“taxollungcancer“獲取WORD文檔提問式“

肺癌”PPT:Powerpoint文檔XLS:EXCEL文檔SWF:FLASH動畫RTF:RichTextFile57第4課計算機及網絡檢索概論檢索策略調整技巧之獲取PDF格式全文58第4課計算機及網絡檢索概論獲取PDF格式的論文全文59第4課計算機及網絡檢索概論檢索策略調整技巧之獲取WORD文檔60第4課計算機及網絡檢索概論檢索策略調整技巧(3)5增加查詢條件查找泰素治療肺癌的網頁文章泰素肺癌:2,2406使用雙引號,實現精確短語匹配“泰素治療肺癌”:1,88061第4課計算機及網絡檢索概論檢索策略調整后結果比較:

提問詞獲取網頁數肺癌(所有語種)244,000肺癌(所有中文)98,300肺腫瘤(所有中文)1,650肺癌(網頁標題,所有中文)2,550肺癌(網域限制為)2,500

肺癌

1,120taxollungcancer(所有網站)19,100taxollungcancer3,370肺癌泰素(所有中文)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論