版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、打開網(wǎng)絡(luò)知識寶庫的鑰匙,網(wǎng)絡(luò)信息的檢索和利用,第三章搜索引擎3.1搜索引擎的含義和類型(p36 ) 3.2搜索引擎的工作原理3.3搜索引擎的搜索功能3.4常用搜索引擎及其使用3.4.2中文常用搜索引擎及其使用3.4.3專業(yè)第三章網(wǎng)絡(luò)搜索引擎(search engines) 3.1搜索引擎的含義和類型(p37 )搜索引擎的收集整理網(wǎng)上的信息資源,向用戶提供查詢的系統(tǒng),包括信息收集、信息整理、用戶檢索(查詢)。 搜索引擎是利用網(wǎng)絡(luò)自動檢索技術(shù)等對網(wǎng)絡(luò)信息資源進(jìn)行指標(biāo)、組織和檢索的檢索工具。 類型: 1 )搜索引擎機(jī)制: (1)純技術(shù)型全文搜索引擎,如:google、AltaVista等;(2)分類
2、目錄型搜索引擎,如yahoo等。 2 )不同的搜索引擎操作方式:獨(dú)立搜索引擎多元搜索引擎網(wǎng)絡(luò)搜索軟件,多元搜索引擎與源搜索引擎的主要區(qū)別在于,不像全文搜索引擎那樣具有自己的索引數(shù)據(jù)庫,而是在用戶提交搜索申請時(shí)綜合多個(gè)獨(dú)立搜索引擎由美國專業(yè)搜索引擎咨詢網(wǎng)站評估的2003年最優(yōu)多重搜索引擎集成了多個(gè)獨(dú)立的搜索引擎,提供統(tǒng)一的搜索界面,將一個(gè)搜索問題同時(shí)發(fā)送到多個(gè)搜索引擎,同時(shí)搜索、聚合和重用多個(gè)數(shù)據(jù)庫、(1)Dogpile ()、(2)Vivisimo ()、3.2搜索引擎的工作原理:網(wǎng)絡(luò)自動索引軟件被稱為Robots、Spiders或Worm等,實(shí)際上它們在國內(nèi)通常被解釋為“網(wǎng)絡(luò)機(jī)器人” 由收集
3、器、建筑設(shè)備、索引區(qū)域、備用復(fù)制器構(gòu)成的機(jī)制主要有(3)M ()、1 )。 信息的收集和存儲:搜索引擎一般自動地收集和存儲網(wǎng)絡(luò)上的信息資源,即使用“網(wǎng)絡(luò)機(jī)器人”自動運(yùn)行的軟件,追蹤網(wǎng)絡(luò)上的鏈接,找到網(wǎng)頁,收集它們,將發(fā)現(xiàn)的網(wǎng)頁信息通過網(wǎng)絡(luò)信息索引的建立:搜索引擎分析收集到的頁面信息,從中提取有搜索價(jià)值的信息內(nèi)容頁面中的關(guān)鍵詞,對關(guān)鍵詞進(jìn)行數(shù)值修正。 該模塊建立了索引查詢系統(tǒng),是該數(shù)據(jù)庫系統(tǒng)建立的子系統(tǒng),確定索引布爾邏輯操作、公式匹配、結(jié)構(gòu)化和非結(jié)構(gòu)化文件處理、語言匹配、匹配關(guān)聯(lián)排序等。 建立信息索引是制作文章信息的特征記錄(標(biāo)題、負(fù)責(zé)人、關(guān)鍵詞、期刊名等),使用戶能夠迅速檢索必要的信息。 建立
4、索引時(shí),需要進(jìn)行yahoo (1)信息語切分和語法解析(2)詞性標(biāo)注以及相關(guān)的自然語言處理(3)檢索工具索引(標(biāo)題、負(fù)責(zé)人、主題、刊行名等的索引),3 ) 檢索界面的制作:檢索引擎檢索界面接受用戶提出的詢問要求(詢問內(nèi)容和邏輯關(guān)系),檢索引擎根據(jù)用戶輸入的關(guān)鍵詞檢索其索引,找到一致的網(wǎng)頁地址。 搜索接口是將用戶與搜索引擎、相關(guān)網(wǎng)頁地址連接起來的中介,需要強(qiáng)烈的易用性。 /谷歌的搜索界面。 搜索結(jié)果的相關(guān)處理:搜索引擎可以按文件的相關(guān)度排序,最相關(guān)的文件通常排在上面,用戶可以快速查詢相關(guān)信息。正如百度搜索網(wǎng)頁上的“google個(gè)人簡介”一樣,搜索引擎確定關(guān)聯(lián)性的方法:概率方法根據(jù)關(guān)鍵詞在文章中出
5、現(xiàn)的頻率來判定文章的關(guān)聯(lián)性。 位置方法根據(jù)關(guān)鍵字出現(xiàn)在句子中的位置判定文檔的相關(guān)性。 關(guān)鍵字越上位,文檔的關(guān)聯(lián)度越高。 摘要方法是搜索引擎為每個(gè)文件自動生成摘要,以便用戶可以自己選擇和確定結(jié)果的關(guān)聯(lián)性。分類或聚類方法是指搜索引擎采用分類或聚類技術(shù),并將查詢結(jié)果自動分類到不同的類中。 (并用幾種方法):例如,在“yahoo”上點(diǎn)擊“知識”獲取知識分類:3.3搜索引擎的搜索功能(p38 )許多搜索引擎提供布爾邏輯搜索、模糊搜索、切片搜索功能(結(jié)合第2章網(wǎng)絡(luò)信息搜索技術(shù)進(jìn)行論述) 邏輯積:假設(shè)a和b是兩個(gè)檢索詞,A*B表示a和b必須同時(shí)存在。 檢索的文獻(xiàn)很少。 利用百度檢索關(guān)于教育心理學(xué)的信息檢索詞
6、:教育心理學(xué)教育心理學(xué)檢索式:教育學(xué)and心理學(xué)檢索式:教育心理學(xué)檢索結(jié)果分別為177,000篇872,000篇,(2)邏輯“or:a或b的任何一個(gè)詞都可以存在,A B是a或b的任何一個(gè)詞“邏輯和”式有助于提高調(diào)查率。搜索的文獻(xiàn)很多。 例如,檢索關(guān)于“教育學(xué)和心理學(xué)”兩方面的論文檢索詞:教育學(xué)心理學(xué); 教育心理學(xué)檢索式:教育學(xué)or心理學(xué)or教育心理學(xué)檢索式:教育學(xué)or心理學(xué)檢索結(jié)果分別為9,520篇43,400篇,(3)邏輯“非”: a必須存在,但b不能存在。 邏輯否定式A-B主要用于排除與檢索意圖無關(guān)的文獻(xiàn)檢測文獻(xiàn)的信息量較少。 采用邏輯“and”、邏輯“not”通過縮小檢索范圍提高專業(yè)性、
7、提高對照率的邏輯“or”擴(kuò)大檢索范圍、提高全檢查率。 例如,“從教育心理學(xué)中排除關(guān)于心理學(xué)的信息檢索詞:教育心理學(xué)檢索式:教育心理學(xué)not心理學(xué)檢索結(jié)果分別為9,650篇、2 )切片檢索:是為了文獻(xiàn)檢索的效率化而發(fā)展的檢索技術(shù),利用檢索詞的詞干或不完整的詞進(jìn)行檢索。 有后截詞檢索(前方一致)、前截詞檢索(后方一致)、中截詞檢索(前后一致)、前后截詞檢索(中間一致)四個(gè)基本模式。 截距符號的使用能夠減少檢索詞的輸入量,簡化檢索步驟,提高檢查效率的同時(shí),還能夠節(jié)約機(jī)器,提高檢索效率。 (1)后切斷例: motor? 什么? (馬達(dá))可以同時(shí)檢索包含motor和motors的文獻(xiàn)。 由此,可以避免檢
8、索詞的單復(fù)變化引起的漏檢。 (2)前截止前截止表示在檢索詞的左側(cè)放置截距符號,在其左側(cè)可以存在多個(gè)字符的變化。 例: 計(jì)算機(jī)可以同時(shí)檢測包括計(jì)算機(jī)、微型計(jì)算機(jī)(小型校正計(jì)算機(jī))的文獻(xiàn)。 (3)前后同時(shí)在截?cái)鄼z索詞的兩側(cè)放置截面記號,允許詞干兩側(cè)有限個(gè)或無限個(gè)文字的變化。 例: wave? 關(guān)于wave、waves、小波、微波、波長等的文獻(xiàn)。 中途截?cái)嗟慕財(cái)嗍窃跈z索詞的中間放置截?cái)喾枴?檢索時(shí),如果截尾符號兩側(cè)的文字相同,包含該詞的文獻(xiàn)就會命中。 這種方法可以解決英美的不同拼法和不規(guī)則的單個(gè)復(fù)數(shù)變化。 analy? s相尋找analysis (分析)和analyses (調(diào)查)。 其他還有“位
9、置詞”等方法。 3 )全文檢索(1)全文檢索系統(tǒng)概念全文檢索是通過利用全文檢索系統(tǒng)來實(shí)現(xiàn)的。 全文檢索系統(tǒng)由全文數(shù)據(jù)庫、全文檢索技術(shù)兩部分組成。用戶可以利用自然語言檢索全文檢索系統(tǒng),并且可以直接取得有關(guān)原文的章、節(jié)、段、句等信息。 全文數(shù)據(jù)庫是指使用全文檢索技術(shù),將文獻(xiàn)信息全文存儲在數(shù)據(jù)庫中,提供多條檢索路徑,實(shí)現(xiàn)超鏈接原始文獻(xiàn)信息的檢索。 全文檢索是指對文獻(xiàn)信息的全文內(nèi)容進(jìn)行字符串匹配檢索,包括字符串檢索、切片檢索、同義詞等控制和后控表等技術(shù)。 (3)全文檢索系統(tǒng)的特點(diǎn)(與以往的檢索系統(tǒng)相比):(1)檢索結(jié)果的直接性、原始性、可靠性直接面向最終用戶。 (2)系統(tǒng)的制作效率高:一個(gè)是不需要控制
10、指標(biāo),另一個(gè)是縮短出版時(shí)間(3)檢索的詳細(xì)性,徹底性,3.4常用檢索引擎及其使用(P39.-40.) 3.4.1西文常用檢索引擎及其使用 Yahoo (, Yahoo,3.4 )。 是www上最著名的目錄搜索引擎之一,也是目前最常用的網(wǎng)絡(luò)搜索工具。 1994年4月,美國斯坦福大學(xué)的電子工程博士研究生David Filo和Jerry yang (楊致遠(yuǎn))開發(fā)。 現(xiàn)在,除了母站(Wother Yahoo ),還有美國的城市子站(Yahoo Cities,例如芝加哥子站)、國別子站(例如Yahoo中國)、國際地區(qū)子站(例如Yahoo Asia )。 無論是形式上還是內(nèi)容上
11、質(zhì)量都非常高。 1998年5月4日,雅虎! 公司首次正式發(fā)布了在中文網(wǎng)上搜索的網(wǎng)站Yahoo (),成為網(wǎng)上搜索中文信息的重要搜索工具。 搜索功能和方法:雅虎! 提供“分類”和“關(guān)鍵詞”的搜索分類搜索:Yahoo是目錄式的綜合搜索引擎,將收錄的內(nèi)容分為29種: 360(360度)健康和醫(yī)藥Music (音樂) Travel (旅行) Answers (回答) 金融; 本地新聞,房地產(chǎn),y! 國際體育運(yùn)動Games地圖購物消息發(fā)件人體育班成年男子健康健康健康健康健康健康健康健康健康關(guān)于“婦女更年期”的信息檢索課題:婦女更年期(woman ),如體重減少膽固醇、緊張、消化系統(tǒng)健康等(更多的話題)
12、更年期婦女更年期婦女更年期更年期更年期更年期. 搜索結(jié)果: 13條相關(guān)信息中國的“可用”和“與”、“進(jìn)行邏輯”和“運(yùn)算,OR“進(jìn)行邏輯”或“運(yùn)算,NOT”、“NOT”邏輯的搜索語法:標(biāo)識符語法語義說明“ ” 短語完全匹配查詢包含與關(guān)鍵字列完全匹配的網(wǎng)站, 空格“and”或“and”的前后兩個(gè)詞是“and”的邏輯關(guān)系“not”的前后兩個(gè)詞是“not”的邏輯關(guān)系t: Title的檢索課題: woman climacteric檢索結(jié)果:全文:點(diǎn)擊、2 )搜索規(guī)則:如果可以執(zhí)行嚴(yán)格匹配的查詢,則可以使用“”,但是默認(rèn)情況下,AltaVista在不使用“”的情況下也會以嚴(yán)格匹配的方式執(zhí)行查詢。雖然不支持
13、自動連字查詢,但是可以使用通配符“*” 區(qū)分大小寫。 在執(zhí)行大寫查詢時(shí),默認(rèn)值是完全匹配的。 也就是說,如果查詢結(jié)果不包含小寫關(guān)鍵字,則搜索時(shí)會同時(shí)搜索大小寫。 搜索課題: woman climacteric :點(diǎn)擊: Menopause Relief,點(diǎn)擊:“All Products”按鈕:“5 -”2000年被西班牙的因特網(wǎng)集團(tuán)收購,網(wǎng)站的評論和圖像, Lycos還提供了包含許多內(nèi)容的主題搜索,允許用戶限制要搜索的對象。 所謂的“對內(nèi)容敏感的檢索”。 2 )檢索功能和方法: (1)關(guān)鍵詞檢索: (2)分類檢索:檢索功能:詞組檢索,用“”括住檢索詞。 可以使用問題搜索、自然語言搜索進(jìn)行任意或正確的搜索??梢允褂猛ㄅ浞啊焙途涮枴?”替換和限制單詞字符。默認(rèn)情況下,在布爾邏輯and關(guān)系中進(jìn)行搜索(如果在正常搜索時(shí)沒有特別限制)。 支持“”和“-”號碼。 檢索課題: woman climacteric檢索: 20295件women climacteric檢索: 35426件“women climacteric”檢索: 1593件、3.4.4標(biāo)準(zhǔn)剛大學(xué)畢業(yè)的6名學(xué)生決定開發(fā)能夠管理互聯(lián)網(wǎng)上信息資源的軟件,經(jīng)過3年的努力,他們開發(fā)了將超文本檢索技術(shù)和自動提取文摘技術(shù)一體化的Architext軟件。 1995年10月Excite成立,開始在互聯(lián)網(wǎng)上提供
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 飼料行業(yè)安全管理工作總結(jié)
- 2025年高考?xì)v史一輪復(fù)習(xí)之人民當(dāng)家作主
- 醫(yī)療器械行業(yè)市場推廣活動總結(jié)
- 兒科門診護(hù)理工作總結(jié)
- 網(wǎng)絡(luò)行業(yè)運(yùn)營員培訓(xùn)心得
- 音樂行業(yè)客服工作總結(jié)
- 美容美發(fā)店前臺服務(wù)感悟
- 2024年美術(shù)教案(匯編9篇)
- 力瓦工程合同(2篇)
- 沖刺班協(xié)議書(2篇)
- 試驗(yàn)前準(zhǔn)備狀態(tài)檢查報(bào)告
- 理正深基坑之鋼板樁受力計(jì)算
- 員工入職培訓(xùn)
- 國家開放大學(xué)電大??啤吨袊?dāng)代文學(xué)》期末試題及答案
- 廣東話粵語姓名拼音大全
- 閘門及啟閉機(jī)安裝專項(xiàng)施工方案
- 應(yīng)征公民體格檢查表(征兵)
- 鋼筋位置及保護(hù)層厚度檢測ppt課件
- 巖石堅(jiān)固性和穩(wěn)定性分級表
- CNC程序控制管理辦法
- 案例思念休閑吧
評論
0/150
提交評論