




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、Web信息檢索,搜索引擎的應(yīng)用現(xiàn)狀,從用戶使用的角度,國外的調(diào)查發(fā)現(xiàn): 網(wǎng)上搜索信息的人很少考慮如何找到他們所需要的信息,因此搜索信息時象動物獵食般盲目; 只有18%的用戶表示總能在網(wǎng)上搜索到需要的信息。68%的用戶說他們對搜索引擎很失望; 平均每個搜搜者在12分鐘的徒勞搜索后就感到惱火和受挫。 46%的人只會用同一個關(guān)鍵詞搜啊搜啊,而且是在同一個搜索引擎。,國外的應(yīng)用狀況,那些每周平均花5個小時以上時間上網(wǎng)的人,將其上網(wǎng)時間的71%都花在了搜索引擎上; 人機(jī)界面高手nielsen(google的設(shè)計者)研究表明: 略超過1/2的互聯(lián)網(wǎng)用戶屬于search-dominant, 約1/5用戶屬于
2、 link-dominant, 其它用戶的搜索傾向?qū)儆诨旌闲袨樾汀?search- dominant在到達(dá)一個網(wǎng)站后直接就奔向搜索按鈕,他們對瀏覽網(wǎng)站不感興趣,他們有明確的目的,傾向于以最快速度找到信息。 相反,link-dominant喜歡點(diǎn)擊瀏覽一個網(wǎng)站,即使他們想找特殊信息時也是這樣,只有在他們用點(diǎn)擊超鏈的方法已經(jīng)實(shí)在找不到了,才會想起搜索按鈕。,國內(nèi)的應(yīng)用狀況,國內(nèi)的調(diào)查發(fā)現(xiàn): cnnic2004年1月的調(diào)查: 61.6%的中國互聯(lián)網(wǎng)用戶經(jīng)常使用搜索引擎(僅次于E-mail)。 83.4%的中國互聯(lián)網(wǎng)用戶得知新網(wǎng)站的主要途徑是搜索引擎。 賽迪咨詢的搜索引擎調(diào)查:截止2000年8月,92
3、.9%的網(wǎng)民使用過搜索引擎,同時有六成左右的網(wǎng)民將搜索引擎列為經(jīng)常使用的網(wǎng)絡(luò)服務(wù)。 新浪搜索的統(tǒng)計表明:第1條搜索結(jié)果獲得的點(diǎn)擊量,是第2頁第1條的150倍。,信息檢索工具及其分類,1.目錄型檢索工具 由信息管理專業(yè)人員廣泛搜集網(wǎng)絡(luò)資源,并進(jìn)行加工整理的基礎(chǔ)上,按照某種主題分類體系編制的一種可供檢索的等級結(jié)構(gòu)式目錄。典型:yahoo!搜狐 2.搜索引擎 使用自動檢索軟件來發(fā)現(xiàn)、收集并標(biāo)引網(wǎng)頁,建立數(shù)據(jù)庫,以web頁形式提供給用戶一個檢索界面,供用戶輸入關(guān)鍵詞、詞組或短語等檢索項(xiàng),代替用戶在數(shù)據(jù)庫中查找出與其提問匹配的記錄并返回結(jié)果,且按其相關(guān)度順訊輸出。典型:Google,Baidu,搜索引擎
4、的基本功能,1.一般檢索功能 Boolean(布爾邏輯檢索)+、- Phrase(詞組檢索)“” Truncation(截詞檢索)* ? Fields(字段檢索) 2.特殊檢索功能 自然語言檢索 多語種檢索 區(qū)分大小寫的檢索,值得推薦的幾個中文搜索引擎,全文搜索 衡量搜索引擎的指標(biāo): 查全率 查準(zhǔn)率 速度 Google: 新浪使用了它的全文搜索引擎服務(wù) 百度: 21CN使用了它的全文搜索引擎服務(wù) 中國搜索(原來的慧聰搜索) 網(wǎng)易、搜狐、263使用了它的搜索引擎。 北大天網(wǎng): 大量教育網(wǎng)內(nèi)的資源,提供FTP搜索 幾大門戶網(wǎng)站也有自己的搜索引擎,有時也能發(fā)揮作用。,推薦的搜索引擎,網(wǎng)站分類目錄搜索
5、 新浪:其網(wǎng)站搜索最好 搜狐:網(wǎng)站的分類目錄整理最好,最適合于瀏覽 網(wǎng)易:開放式目錄,有許多網(wǎng)上高手加盟 中文Yahoo 另類:網(wǎng)絡(luò)實(shí)名 新浪圖片搜索: 新視科技:www.VisionN,提供多媒體搜索 找地圖 城市通: 圖行天下: ,使用Google進(jìn)行搜索,Google簡介 Google是一個搜索引擎,由兩個斯坦福大學(xué)博士生Larry Page與Sergey Brin于1998年9月發(fā)明,Google Inc. 于1999年創(chuàng)立。2000年7月份,Google替代Inktomi成為Yahoo公司的搜索引擎,同年9月份,Google成為中國網(wǎng)易公司的搜索引擎。1998年至今,Google已經(jīng)
6、獲得30多項(xiàng)業(yè)界大獎。 Google支持多達(dá)132種語言,包括簡體中文和繁體中文; Google網(wǎng)站只提供搜索引擎功能,沒有花里胡哨的累贅; Google速度極快,據(jù)說有15000多臺服務(wù)器,200多條T3級寬帶; Google的專利網(wǎng)頁級別技術(shù)PageRank能夠提供高命中率的搜索結(jié)果; Google智能化的“手氣不錯”功能,提供可能最符合要求的網(wǎng)站; Google的“網(wǎng)頁快照”功能,能從GOOGLE服務(wù)器里直接取出緩存的網(wǎng)頁。,福布斯富豪榜所有排名 1 William Gates (比爾-蓋茨) 2 Warren Buffett(沃倫-巴菲特) 3 Sheldon Adelson(謝爾登-
7、阿德爾森) 4 Lawrence Ellison(勞倫斯-埃里森) 5 Sergey Brin(謝爾蓋-布林) 6 Larry Page(拉里-佩奇) 7 Kirk Kerkorian(柯克-科克萊恩) 8 Michael Dell(邁克爾-戴爾) 9 Charles Koch(查爾斯-科赫) 10 David Koch(戴維-科赫),文本搜索,文本搜索 目前Google已經(jīng)收集索引了40多億張網(wǎng)頁 使用單個關(guān)鍵詞進(jìn)行搜索 理解什么是“關(guān)鍵詞”,跟普通意義上的關(guān)鍵詞不同。 想象目標(biāo)網(wǎng)頁上應(yīng)該有的若干個詞。 網(wǎng)頁的排名問題 使用兩個及兩個以上關(guān)鍵詞進(jìn)行搜索 直接輸入多個關(guān)鍵詞,關(guān)鍵詞之間用空格,
8、這樣就表示“AND”關(guān)系; 用減號“-”表示“非”,用于表示要求搜索結(jié)果不包含某些特定信息; Google的幫助網(wǎng)頁上說,不支持OR關(guān)系,實(shí)際上是支持得不好; 使用一句話進(jìn)行搜索 加上雙引號。這在查找名言警句或?qū)S忻~時顯得格外有用。 Google對網(wǎng)絡(luò)上常見得英文單詞及一些標(biāo)點(diǎn)符號作忽略處理,圖象搜索,目前Google可搜索8.8億張圖片,自稱為“因特網(wǎng)上最好用的圖像搜索工具” I或點(diǎn)擊Google主頁上的“圖象搜索”鏈接。 目前的圖象搜索主要是基于文件名的搜索,不是基于圖象內(nèi)容的。 用法: 關(guān)鍵詞的輸入方法同文字搜索,不過搜索圖象一般不會用太長、太復(fù)雜的關(guān)鍵詞。 圖象搜索中,使用英文作關(guān)鍵
9、詞可以搜到許多準(zhǔn)確的結(jié)果,使用中文,效果較差,但有時Google會自動轉(zhuǎn)換為英文或中文的拼音去搜索(有時欠穩(wěn)定,其他內(nèi)容的搜索也有此現(xiàn)象)。 可以指定圖片文件的類型:JPG或GIF 如 panda filetype:jpg,搜索特殊格式的文件,目前可搜索的文件格式: DOC、PPT、XLS、RTF、PS、TXT、Lotus文件; PDF格式 最精彩的,可搜索Flash文件: SWF文件 方法: 關(guān)鍵詞 filetype:* 搜索包含關(guān)鍵詞的文檔(但又不盡然)。搜索到后,可點(diǎn)擊打開,也可右鍵快捷菜單用“另存為”。對于Office文檔,還可以用HTML方式打開,以避免病毒的襲擊。,其他特殊的搜索,
10、搜索的關(guān)鍵詞包含在URL鏈接中 Inurl:mp3 yesterday once more 可用于搜索MIDI、MP3等文件 搜索的關(guān)鍵詞包含在網(wǎng)頁標(biāo)題中 Intitle:Foshan University 搜索指定的網(wǎng)站范圍 在圖象搜索中,用:Panda site: 搜索有多少鏈接到某個地址的網(wǎng)頁 Link:,Google的高級搜索,Google的高級搜索可實(shí)現(xiàn)前面所說的各種特殊的搜索,免除用戶記憶語法結(jié)構(gòu)。 在Google的網(wǎng)頁上,點(diǎn)擊“高級搜索”即可。 推薦大家使用英文版的Google,以及英文版的幫助文檔。,天網(wǎng)的FTP搜索,地址: 缺點(diǎn):死鏈接太多,許多是學(xué)生的服務(wù)器,運(yùn)行不穩(wěn)定 簡
11、單搜索 輸入要查詢的文件名, 可以包含“*”號(通配所有字符)、“?”號(通配一個字符)、空格(表示幾個查詢的并)。 按類別搜索文件 點(diǎn)擊“分類搜索”下的各種類型,如“圖像”、“聲音”、“視頻”、“壓縮”、“文檔”、“程序”、“目錄”、“源代碼”,則搜索引擎在指定的類型里搜索文件。比如點(diǎn)擊“圖象”,則在所有的圖象文件里查找與匹配串相符的文件。 使用快捷方式(已經(jīng)做好的分類) 天網(wǎng)搜索引擎為用戶常用的搜索提供了快捷方式,使用起來極為簡單,直接點(diǎn)擊快捷方式下所要的內(nèi)容即可。,天網(wǎng)FTP,FTP復(fù)雜搜索: 從FTP檢索頁面里點(diǎn)擊“FTP復(fù)雜選項(xiàng)”進(jìn)入“FTP復(fù)雜搜索”頁面。在復(fù)雜搜索頁面里,如果沒有
12、填寫或者沒有選擇,表示使用缺省值。 文件大小過濾: 文件日期過濾: 頁面顯示個數(shù): 文件類型: 限定搜索的站點(diǎn)范圍 結(jié)果顯示: 每個結(jié)果前的圖標(biāo)是該文件的文件類型圖片, 表示“圖像”、“聲音”、“視頻”、“壓縮”、“文檔”、“程序”、“目錄”、“源代碼”或者 表示搜索引擎系統(tǒng)未定義的文件類型; 圖標(biāo)后是文件名,點(diǎn)擊可以打開文件;文件名后是文件的創(chuàng)建時間和文件的大??; 文件名下方是該文件所在的目錄,點(diǎn)擊可以在新的窗口里打開該目錄。,關(guān)于軟件的搜索,軟件下載網(wǎng)站主要有三類: 大型軟件下載網(wǎng)站 主要提供普通的免費(fèi)和共享軟件。如: 軟件主頁 一些最新版本的共享軟件以及軟件的補(bǔ)丁,或者軟件公司推出的免費(fèi)
13、軟件。如:Microsfot、Adobe、Lotus等公司的站點(diǎn) 個人主頁下載 可以找到正式網(wǎng)站找不到的內(nèi)容。 在教育網(wǎng)內(nèi),許多情況下可以用天網(wǎng)的FTP搜索。 如果用搜索引擎,則選擇關(guān)鍵詞很重要。通??捎靡韵玛P(guān)鍵詞:軟件名 下載 版本 cdkey 軟件大小,使用網(wǎng)絡(luò)實(shí)名,登陸, 為自己的電腦開啟網(wǎng)絡(luò)實(shí)名功能。 “3721網(wǎng)絡(luò)實(shí)名”是新一代的網(wǎng)絡(luò)訪問技術(shù),它具有十大功能,其中智能推測、拼音使用等功能可以幫助我們搜索那些名稱不確切的網(wǎng)址。 訪問新浪,只要在地址欄打入“新浪”或“xinlang”即可 例如:在瀏覽器地址欄中輸入上市公司股票代碼,就可以獲取實(shí)時行情,為什么搜索引擎搜不到?,有些內(nèi)容,網(wǎng)
14、上明明存在,但是用搜索引擎搜不到。如果事先理解搜索引擎能做的和不能做的,就可以設(shè)計更佳的搜索策略。而搜索之前思考一下搜索策略,是搜索成功最關(guān)鍵的一步。 這樣的內(nèi)容,主要有3類: 1、網(wǎng)上有,但是搜索引擎庫里沒有 spider未能正確處理的網(wǎng)頁性質(zhì)及文件類型 (如某些動態(tài)網(wǎng)頁及frame、數(shù)據(jù)庫) 沒有指向鏈接的孤島網(wǎng)頁 spider訪問時因?yàn)槟承┰蛘檬撬梨溄?被認(rèn)為是劣質(zhì)網(wǎng)頁而不抓 因?yàn)?色情/反動/spam/等問題而不抓的非法網(wǎng)頁 需要輸入用戶名、密碼方可打開的網(wǎng)頁 網(wǎng)站用robots協(xié)議拒絕搜索引擎抓取的網(wǎng)頁 搜索引擎還未來得及抓取的新網(wǎng)頁,為什么搜不到?-之二,2、搜索引擎庫里有,但
15、是未能正確索引網(wǎng)頁中信息 分詞引起誤差 圖型中的文字信息你看得懂但搜索引擎看不懂 停用詞等搜索引擎故意不索引的信息 搜索引擎對某些網(wǎng)頁有選擇的索引,未索引全部網(wǎng)頁信息 3、搜索引擎正確索引了網(wǎng)頁中信息,但和你用的關(guān)鍵詞不同 你用的搜索關(guān)鍵詞中含有錯別字 網(wǎng)頁作者用了錯別字 沒有錯別字,但網(wǎng)頁作者用的詞匯和你的關(guān)鍵詞不同,畢竟,文字的特性,允許有n種方式表達(dá)同一種信息 簡體繁體不同編碼,用戶自己的錯誤,初學(xué)者搜索時容易犯的6個低級錯誤和解決方法 常見錯誤1:錯別字 經(jīng)常發(fā)生的一種錯誤是,你輸入的關(guān)鍵詞含有錯別字,改正了就好。 常見錯誤2:關(guān)健詞太常見 搜索引擎對常見詞的搜索存在缺陷,因?yàn)檫@些詞曝
16、光率太高了,以至于出現(xiàn)在成百萬網(wǎng)頁中,使得它們事實(shí)上不能被用來幫你找到什么有用的內(nèi)容。比如說搜索“電話”。 常見錯誤3:多義詞 要小心使用多義詞,比如搜索“java”,你要找的信息究竟是太平洋上的一個島、一種著名的咖啡、還是一種計算機(jī)語言。,用戶自己的錯誤,常見錯誤4:不會輸關(guān)鍵詞,想要什么輸什么 搜索失敗的另一個常見原因是類似這樣的搜索:“現(xiàn)代愛情故事歌詞” 常見錯誤5:在錯誤的地方搜索 有些信息不適合搜索,應(yīng)該直接到網(wǎng)站瀏覽,如論壇的內(nèi)容。 常見錯誤6:停用詞 停用詞主要見于英文搜索引擎中,指的是使用過于頻繁的單詞,如“is”、“i”、“what”、“it”等。一些搜索引擎在它的網(wǎng)頁庫里碰
17、到這些詞時不會搜,優(yōu)秀的電子信息資源,查找論文等,就不需要使用普通的搜索引擎了。 中國期刊網(wǎng)(CNKI): 萬方數(shù)據(jù): 各個專業(yè)都有自己的專業(yè)信息資源 如中文的新聞類: 中新社 新華社 外交部各國資料:,如何才能有效地搜索?,理解搜索引擎的原理和基本的使用技術(shù) 對于中文,要理解“分詞”。 勤奮:大量實(shí)踐,仔細(xì)體會每個搜索引擎的特色和功能。搜索時的堅持不懈。 積累:平時多注意積累優(yōu)秀的專業(yè)網(wǎng)站和數(shù)據(jù)庫 學(xué)問:要博學(xué)多聞 天資:主要是想象力、判斷力,搜索引擎的分類及原理,按照信息搜集方法和服務(wù)提供方式的不同,搜索引擎系統(tǒng)可以分為三大類: 1目錄式搜索引擎:以人工方式或半自動方式搜集信息,由編輯員查
18、看信息之后,人工形成信息摘要,并將信息置于事先確定的分類框架中。信息大多面向網(wǎng)站,提供目錄瀏覽服務(wù)和直接檢索服務(wù)。該類搜索引擎因?yàn)榧尤肓巳说闹悄?,所以信息?zhǔn)確、導(dǎo)航質(zhì)量高,缺點(diǎn)是需要人工介入、維護(hù)量大、信息量少、信息更新不及時。這類搜索引擎的代表是:Yahoo、LookSmart、Open Directory、Go Guide等。,搜索引擎分類,2機(jī)器人搜索引擎:由一個稱為蜘蛛(Spider)的機(jī)器人程序以某種策略自動地在互聯(lián)網(wǎng)中搜集和發(fā)現(xiàn)信息,由索引器為搜集到的信息建立索引,由檢索器根據(jù)用戶的查詢輸入檢索索引庫,并將查詢結(jié)果返回給用戶。服務(wù)方式是面向網(wǎng)頁的全文檢索服務(wù)。該類搜索引擎的優(yōu)點(diǎn)是信息量大、更新及時、毋需人工干預(yù),缺點(diǎn)是返回信息過多,有很多無關(guān)信息,用戶必須從結(jié)果中進(jìn)行篩選。這類搜索引擎的代表是:AltaVista、Northern Li
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- pvc輕質(zhì)隔墻施工方案
- 的日記300字左右
- 2025年惠州城市職業(yè)學(xué)院單招職業(yè)傾向性測試題庫及參考答案
- 2025年共青團(tuán)知識競賽試題(附答案)
- 2025年江西司法警官職業(yè)學(xué)院單招職業(yè)適應(yīng)性測試題庫帶答案
- 2025年湖南理工職業(yè)技術(shù)學(xué)院單招職業(yè)適應(yīng)性測試題庫附答案
- 2025年泉州經(jīng)貿(mào)職業(yè)技術(shù)學(xué)院單招職業(yè)技能測試題庫新版
- 2025年青島港灣職業(yè)技術(shù)學(xué)院單招職業(yè)傾向性測試題庫參考答案
- 2024-2025學(xué)年高中化學(xué) 第二單元 化學(xué)與資源開發(fā)利用 2.3 石油、煤和天然氣的綜合利用教學(xué)實(shí)錄1 新人教版選修2
- 7火山噴發(fā)(教學(xué)設(shè)計)-2023-2024學(xué)年科學(xué)六年級下冊人教鄂教版
- 小區(qū)物業(yè)收支明細(xì)公告范本
- 火龍罐聯(lián)合耳穴壓豆治療失眠個案護(hù)理
- 湘教版科學(xué)四年級下冊 教師用書(PDF版)
- 500kV變電站監(jiān)控后臺施工調(diào)試方案
- 關(guān)于“短視頻與防沉迷”為主題的閱讀(2021貴州遵義中考語文非連續(xù)性文本閱讀試題及答案)
- 病理切片制作技術(shù)-課件
- 心肺復(fù)蘇及AED的使用
- 初中數(shù)學(xué) 二元一次方程組集體備課
- 2023年星海音樂學(xué)院樂理試題A卷
- GB/T 3808-2002擺錘式?jīng)_擊試驗(yàn)機(jī)的檢驗(yàn)
- GB/T 2965-2007鈦及鈦合金棒材
評論
0/150
提交評論