因特網(wǎng)信息檢索與應用.ppt_第1頁
因特網(wǎng)信息檢索與應用.ppt_第2頁
因特網(wǎng)信息檢索與應用.ppt_第3頁
因特網(wǎng)信息檢索與應用.ppt_第4頁
因特網(wǎng)信息檢索與應用.ppt_第5頁
已閱讀5頁,還剩24頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、Web信息檢索,搜索引擎的應用現(xiàn)狀,從用戶使用的角度,國外的調(diào)查發(fā)現(xiàn): 網(wǎng)上搜索信息的人很少考慮如何找到他們所需要的信息,因此搜索信息時象動物獵食般盲目; 只有18%的用戶表示總能在網(wǎng)上搜索到需要的信息。68%的用戶說他們對搜索引擎很失望; 平均每個搜搜者在12分鐘的徒勞搜索后就感到惱火和受挫。 46%的人只會用同一個關鍵詞搜啊搜啊,而且是在同一個搜索引擎。,國外的應用狀況,那些每周平均花5個小時以上時間上網(wǎng)的人,將其上網(wǎng)時間的71%都花在了搜索引擎上; 人機界面高手nielsen(google的設計者)研究表明: 略超過1/2的互聯(lián)網(wǎng)用戶屬于search-dominant, 約1/5用戶屬于

2、 link-dominant, 其它用戶的搜索傾向?qū)儆诨旌闲袨樾汀?search- dominant在到達一個網(wǎng)站后直接就奔向搜索按鈕,他們對瀏覽網(wǎng)站不感興趣,他們有明確的目的,傾向于以最快速度找到信息。 相反,link-dominant喜歡點擊瀏覽一個網(wǎng)站,即使他們想找特殊信息時也是這樣,只有在他們用點擊超鏈的方法已經(jīng)實在找不到了,才會想起搜索按鈕。,國內(nèi)的應用狀況,國內(nèi)的調(diào)查發(fā)現(xiàn): cnnic2004年1月的調(diào)查: 61.6%的中國互聯(lián)網(wǎng)用戶經(jīng)常使用搜索引擎(僅次于E-mail)。 83.4%的中國互聯(lián)網(wǎng)用戶得知新網(wǎng)站的主要途徑是搜索引擎。 賽迪咨詢的搜索引擎調(diào)查:截止2000年8月,92

3、.9%的網(wǎng)民使用過搜索引擎,同時有六成左右的網(wǎng)民將搜索引擎列為經(jīng)常使用的網(wǎng)絡服務。 新浪搜索的統(tǒng)計表明:第1條搜索結果獲得的點擊量,是第2頁第1條的150倍。,信息檢索工具及其分類,1.目錄型檢索工具 由信息管理專業(yè)人員廣泛搜集網(wǎng)絡資源,并進行加工整理的基礎上,按照某種主題分類體系編制的一種可供檢索的等級結構式目錄。典型:yahoo!搜狐 2.搜索引擎 使用自動檢索軟件來發(fā)現(xiàn)、收集并標引網(wǎng)頁,建立數(shù)據(jù)庫,以web頁形式提供給用戶一個檢索界面,供用戶輸入關鍵詞、詞組或短語等檢索項,代替用戶在數(shù)據(jù)庫中查找出與其提問匹配的記錄并返回結果,且按其相關度順訊輸出。典型:Google,Baidu,搜索引擎

4、的基本功能,1.一般檢索功能 Boolean(布爾邏輯檢索)+、- Phrase(詞組檢索)“” Truncation(截詞檢索)* ? Fields(字段檢索) 2.特殊檢索功能 自然語言檢索 多語種檢索 區(qū)分大小寫的檢索,值得推薦的幾個中文搜索引擎,全文搜索 衡量搜索引擎的指標: 查全率 查準率 速度 Google: 新浪使用了它的全文搜索引擎服務 百度: 21CN使用了它的全文搜索引擎服務 中國搜索(原來的慧聰搜索) 網(wǎng)易、搜狐、263使用了它的搜索引擎。 北大天網(wǎng): 大量教育網(wǎng)內(nèi)的資源,提供FTP搜索 幾大門戶網(wǎng)站也有自己的搜索引擎,有時也能發(fā)揮作用。,推薦的搜索引擎,網(wǎng)站分類目錄搜索

5、 新浪:其網(wǎng)站搜索最好 搜狐:網(wǎng)站的分類目錄整理最好,最適合于瀏覽 網(wǎng)易:開放式目錄,有許多網(wǎng)上高手加盟 中文Yahoo 另類:網(wǎng)絡實名 新浪圖片搜索: 新視科技:www.VisionN,提供多媒體搜索 找地圖 城市通: 圖行天下: ,使用Google進行搜索,Google簡介 Google是一個搜索引擎,由兩個斯坦福大學博士生Larry Page與Sergey Brin于1998年9月發(fā)明,Google Inc. 于1999年創(chuàng)立。2000年7月份,Google替代Inktomi成為Yahoo公司的搜索引擎,同年9月份,Google成為中國網(wǎng)易公司的搜索引擎。1998年至今,Google已經(jīng)

6、獲得30多項業(yè)界大獎。 Google支持多達132種語言,包括簡體中文和繁體中文; Google網(wǎng)站只提供搜索引擎功能,沒有花里胡哨的累贅; Google速度極快,據(jù)說有15000多臺服務器,200多條T3級寬帶; Google的專利網(wǎng)頁級別技術PageRank能夠提供高命中率的搜索結果; Google智能化的“手氣不錯”功能,提供可能最符合要求的網(wǎng)站; Google的“網(wǎng)頁快照”功能,能從GOOGLE服務器里直接取出緩存的網(wǎng)頁。,福布斯富豪榜所有排名 1 William Gates (比爾-蓋茨) 2 Warren Buffett(沃倫-巴菲特) 3 Sheldon Adelson(謝爾登-

7、阿德爾森) 4 Lawrence Ellison(勞倫斯-埃里森) 5 Sergey Brin(謝爾蓋-布林) 6 Larry Page(拉里-佩奇) 7 Kirk Kerkorian(柯克-科克萊恩) 8 Michael Dell(邁克爾-戴爾) 9 Charles Koch(查爾斯-科赫) 10 David Koch(戴維-科赫),文本搜索,文本搜索 目前Google已經(jīng)收集索引了40多億張網(wǎng)頁 使用單個關鍵詞進行搜索 理解什么是“關鍵詞”,跟普通意義上的關鍵詞不同。 想象目標網(wǎng)頁上應該有的若干個詞。 網(wǎng)頁的排名問題 使用兩個及兩個以上關鍵詞進行搜索 直接輸入多個關鍵詞,關鍵詞之間用空格,

8、這樣就表示“AND”關系; 用減號“-”表示“非”,用于表示要求搜索結果不包含某些特定信息; Google的幫助網(wǎng)頁上說,不支持OR關系,實際上是支持得不好; 使用一句話進行搜索 加上雙引號。這在查找名言警句或?qū)S忻~時顯得格外有用。 Google對網(wǎng)絡上常見得英文單詞及一些標點符號作忽略處理,圖象搜索,目前Google可搜索8.8億張圖片,自稱為“因特網(wǎng)上最好用的圖像搜索工具” I或點擊Google主頁上的“圖象搜索”鏈接。 目前的圖象搜索主要是基于文件名的搜索,不是基于圖象內(nèi)容的。 用法: 關鍵詞的輸入方法同文字搜索,不過搜索圖象一般不會用太長、太復雜的關鍵詞。 圖象搜索中,使用英文作關鍵

9、詞可以搜到許多準確的結果,使用中文,效果較差,但有時Google會自動轉換為英文或中文的拼音去搜索(有時欠穩(wěn)定,其他內(nèi)容的搜索也有此現(xiàn)象)。 可以指定圖片文件的類型:JPG或GIF 如 panda filetype:jpg,搜索特殊格式的文件,目前可搜索的文件格式: DOC、PPT、XLS、RTF、PS、TXT、Lotus文件; PDF格式 最精彩的,可搜索Flash文件: SWF文件 方法: 關鍵詞 filetype:* 搜索包含關鍵詞的文檔(但又不盡然)。搜索到后,可點擊打開,也可右鍵快捷菜單用“另存為”。對于Office文檔,還可以用HTML方式打開,以避免病毒的襲擊。,其他特殊的搜索,

10、搜索的關鍵詞包含在URL鏈接中 Inurl:mp3 yesterday once more 可用于搜索MIDI、MP3等文件 搜索的關鍵詞包含在網(wǎng)頁標題中 Intitle:Foshan University 搜索指定的網(wǎng)站范圍 在圖象搜索中,用:Panda site: 搜索有多少鏈接到某個地址的網(wǎng)頁 Link:,Google的高級搜索,Google的高級搜索可實現(xiàn)前面所說的各種特殊的搜索,免除用戶記憶語法結構。 在Google的網(wǎng)頁上,點擊“高級搜索”即可。 推薦大家使用英文版的Google,以及英文版的幫助文檔。,天網(wǎng)的FTP搜索,地址: 缺點:死鏈接太多,許多是學生的服務器,運行不穩(wěn)定 簡

11、單搜索 輸入要查詢的文件名, 可以包含“*”號(通配所有字符)、“?”號(通配一個字符)、空格(表示幾個查詢的并)。 按類別搜索文件 點擊“分類搜索”下的各種類型,如“圖像”、“聲音”、“視頻”、“壓縮”、“文檔”、“程序”、“目錄”、“源代碼”,則搜索引擎在指定的類型里搜索文件。比如點擊“圖象”,則在所有的圖象文件里查找與匹配串相符的文件。 使用快捷方式(已經(jīng)做好的分類) 天網(wǎng)搜索引擎為用戶常用的搜索提供了快捷方式,使用起來極為簡單,直接點擊快捷方式下所要的內(nèi)容即可。,天網(wǎng)FTP,FTP復雜搜索: 從FTP檢索頁面里點擊“FTP復雜選項”進入“FTP復雜搜索”頁面。在復雜搜索頁面里,如果沒有

12、填寫或者沒有選擇,表示使用缺省值。 文件大小過濾: 文件日期過濾: 頁面顯示個數(shù): 文件類型: 限定搜索的站點范圍 結果顯示: 每個結果前的圖標是該文件的文件類型圖片, 表示“圖像”、“聲音”、“視頻”、“壓縮”、“文檔”、“程序”、“目錄”、“源代碼”或者 表示搜索引擎系統(tǒng)未定義的文件類型; 圖標后是文件名,點擊可以打開文件;文件名后是文件的創(chuàng)建時間和文件的大?。?文件名下方是該文件所在的目錄,點擊可以在新的窗口里打開該目錄。,關于軟件的搜索,軟件下載網(wǎng)站主要有三類: 大型軟件下載網(wǎng)站 主要提供普通的免費和共享軟件。如: 軟件主頁 一些最新版本的共享軟件以及軟件的補丁,或者軟件公司推出的免費

13、軟件。如:Microsfot、Adobe、Lotus等公司的站點 個人主頁下載 可以找到正式網(wǎng)站找不到的內(nèi)容。 在教育網(wǎng)內(nèi),許多情況下可以用天網(wǎng)的FTP搜索。 如果用搜索引擎,則選擇關鍵詞很重要。通??捎靡韵玛P鍵詞:軟件名 下載 版本 cdkey 軟件大小,使用網(wǎng)絡實名,登陸, 為自己的電腦開啟網(wǎng)絡實名功能。 “3721網(wǎng)絡實名”是新一代的網(wǎng)絡訪問技術,它具有十大功能,其中智能推測、拼音使用等功能可以幫助我們搜索那些名稱不確切的網(wǎng)址。 訪問新浪,只要在地址欄打入“新浪”或“xinlang”即可 例如:在瀏覽器地址欄中輸入上市公司股票代碼,就可以獲取實時行情,為什么搜索引擎搜不到?,有些內(nèi)容,網(wǎng)

14、上明明存在,但是用搜索引擎搜不到。如果事先理解搜索引擎能做的和不能做的,就可以設計更佳的搜索策略。而搜索之前思考一下搜索策略,是搜索成功最關鍵的一步。 這樣的內(nèi)容,主要有3類: 1、網(wǎng)上有,但是搜索引擎庫里沒有 spider未能正確處理的網(wǎng)頁性質(zhì)及文件類型 (如某些動態(tài)網(wǎng)頁及frame、數(shù)據(jù)庫) 沒有指向鏈接的孤島網(wǎng)頁 spider訪問時因為某些原因正好是死鏈接 被認為是劣質(zhì)網(wǎng)頁而不抓 因為/色情/反動/spam/等問題而不抓的非法網(wǎng)頁 需要輸入用戶名、密碼方可打開的網(wǎng)頁 網(wǎng)站用robots協(xié)議拒絕搜索引擎抓取的網(wǎng)頁 搜索引擎還未來得及抓取的新網(wǎng)頁,為什么搜不到?-之二,2、搜索引擎庫里有,但

15、是未能正確索引網(wǎng)頁中信息 分詞引起誤差 圖型中的文字信息你看得懂但搜索引擎看不懂 停用詞等搜索引擎故意不索引的信息 搜索引擎對某些網(wǎng)頁有選擇的索引,未索引全部網(wǎng)頁信息 3、搜索引擎正確索引了網(wǎng)頁中信息,但和你用的關鍵詞不同 你用的搜索關鍵詞中含有錯別字 網(wǎng)頁作者用了錯別字 沒有錯別字,但網(wǎng)頁作者用的詞匯和你的關鍵詞不同,畢竟,文字的特性,允許有n種方式表達同一種信息 簡體繁體不同編碼,用戶自己的錯誤,初學者搜索時容易犯的6個低級錯誤和解決方法 常見錯誤1:錯別字 經(jīng)常發(fā)生的一種錯誤是,你輸入的關鍵詞含有錯別字,改正了就好。 常見錯誤2:關健詞太常見 搜索引擎對常見詞的搜索存在缺陷,因為這些詞曝

16、光率太高了,以至于出現(xiàn)在成百萬網(wǎng)頁中,使得它們事實上不能被用來幫你找到什么有用的內(nèi)容。比如說搜索“電話”。 常見錯誤3:多義詞 要小心使用多義詞,比如搜索“java”,你要找的信息究竟是太平洋上的一個島、一種著名的咖啡、還是一種計算機語言。,用戶自己的錯誤,常見錯誤4:不會輸關鍵詞,想要什么輸什么 搜索失敗的另一個常見原因是類似這樣的搜索:“現(xiàn)代愛情故事歌詞” 常見錯誤5:在錯誤的地方搜索 有些信息不適合搜索,應該直接到網(wǎng)站瀏覽,如論壇的內(nèi)容。 常見錯誤6:停用詞 停用詞主要見于英文搜索引擎中,指的是使用過于頻繁的單詞,如“is”、“i”、“what”、“it”等。一些搜索引擎在它的網(wǎng)頁庫里碰

17、到這些詞時不會搜,優(yōu)秀的電子信息資源,查找論文等,就不需要使用普通的搜索引擎了。 中國期刊網(wǎng)(CNKI): 萬方數(shù)據(jù): 各個專業(yè)都有自己的專業(yè)信息資源 如中文的新聞類: 中新社 新華社 外交部各國資料:,如何才能有效地搜索?,理解搜索引擎的原理和基本的使用技術 對于中文,要理解“分詞”。 勤奮:大量實踐,仔細體會每個搜索引擎的特色和功能。搜索時的堅持不懈。 積累:平時多注意積累優(yōu)秀的專業(yè)網(wǎng)站和數(shù)據(jù)庫 學問:要博學多聞 天資:主要是想象力、判斷力,搜索引擎的分類及原理,按照信息搜集方法和服務提供方式的不同,搜索引擎系統(tǒng)可以分為三大類: 1目錄式搜索引擎:以人工方式或半自動方式搜集信息,由編輯員查

18、看信息之后,人工形成信息摘要,并將信息置于事先確定的分類框架中。信息大多面向網(wǎng)站,提供目錄瀏覽服務和直接檢索服務。該類搜索引擎因為加入了人的智能,所以信息準確、導航質(zhì)量高,缺點是需要人工介入、維護量大、信息量少、信息更新不及時。這類搜索引擎的代表是:Yahoo、LookSmart、Open Directory、Go Guide等。,搜索引擎分類,2機器人搜索引擎:由一個稱為蜘蛛(Spider)的機器人程序以某種策略自動地在互聯(lián)網(wǎng)中搜集和發(fā)現(xiàn)信息,由索引器為搜集到的信息建立索引,由檢索器根據(jù)用戶的查詢輸入檢索索引庫,并將查詢結果返回給用戶。服務方式是面向網(wǎng)頁的全文檢索服務。該類搜索引擎的優(yōu)點是信息量大、更新及時、毋需人工干預,缺點是返回信息過多,有很多無關信息,用戶必須從結果中進行篩選。這類搜索引擎的代表是:AltaVista、Northern Li

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論