淺析各類搜索引擎之間的聯(lián)系和區(qū)別.doc_第1頁
淺析各類搜索引擎之間的聯(lián)系和區(qū)別.doc_第2頁
淺析各類搜索引擎之間的聯(lián)系和區(qū)別.doc_第3頁
淺析各類搜索引擎之間的聯(lián)系和區(qū)別.doc_第4頁
淺析各類搜索引擎之間的聯(lián)系和區(qū)別.doc_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

淺析各類搜索引擎之間的聯(lián)系與區(qū)別摘要 internet上蘊(yùn)藏著非常豐富的信息資源,但是要從浩如煙海的信息中準(zhǔn)確、及時(shí)、方便、迅速的找到自己所需要的信息,卻并不是一件容易的事情.為此應(yīng)對重點(diǎn)網(wǎng)絡(luò)搜索引擎的檢索技術(shù)與功能作一全面的介紹.使學(xué)生在網(wǎng)絡(luò)信息檢索中選擇了好的搜索引擎,才能快速、準(zhǔn)確地找到所需要信息.本文主要對百度與google兩個(gè)典型搜索引擎之間的檢索技術(shù)、各自特點(diǎn)進(jìn)行全面的比較與分析,從而得出各類搜索引擎之間的聯(lián)系與區(qū)別。關(guān)鍵字 google 百度 搜索引擎 比較分析 Google是世界上最大的搜索引擎,通過對200多億網(wǎng)頁信息的整理,每天為世界各地提供1.5億次以上的網(wǎng)上信息查詢服務(wù)。百度是全球最大的中文搜索引擎, 擁有超過10多億的中文網(wǎng)頁數(shù)據(jù)庫, 每天響應(yīng)超過億次的網(wǎng)絡(luò)信息搜索請求。在這兩大搜索引擎之間, 搜索的結(jié)果平均有85%的不同,因此,有網(wǎng)站把兩者結(jié)合建立了百Google度。然而,這兩大搜索引擎之間究竟有什么特點(diǎn)與區(qū)別,本文將根據(jù)數(shù)據(jù)加以分析、比較研究。Google與百度的特點(diǎn) Google的特點(diǎn) google秉持著開發(fā)“ 確解用戶之意, 切返用戶之需” 的“ 完美的搜索引擎” , 使得搜索方式發(fā)生了根本性變化, 在業(yè)界獨(dú)樹一幟, 其強(qiáng)大的功能與獨(dú)到的特點(diǎn)就在于:(1) “ 網(wǎng)頁快照” 功能。能從google服務(wù)器里直接取出緩存的網(wǎng)頁。如果原地址打開很慢, 那么可以直接查看google緩存頁面, 因?yàn)間oogle服務(wù)器速度極快;如果原鏈接已經(jīng)死掉或者因?yàn)榫W(wǎng)絡(luò)的原因暫時(shí)鏈接不通, 那么可以通過google快照看到該頁面信息;如果打開的頁面信息量巨大, 一下子找不到關(guān)鍵詞所在位置, 那么可以通過google快照, 因?yàn)榭煺罩術(shù)oogle用黃色表明關(guān)鍵字位置。(2) “ 單詞英文解釋” 功能。寫英文文章的時(shí)候, 最頭疼的事情就是對某個(gè)英文單詞的用法不確定。現(xiàn)在有了google, 一切就迎刃而解了!無論你是想查找某個(gè)生詞的意思還是想了解某個(gè)單詞的用法, 均可使用在線詞典。(3) “ 網(wǎng)頁翻譯” 功能。google提供了網(wǎng)頁翻譯功能, 雖然目前只支持有限的拉丁語、法語、西班牙語、德語與葡萄牙文, 但是不得不承認(rèn), 這是個(gè)杰出功能, 只要你點(diǎn)擊“Translate this page ” 按鈕, google為你提供了人工智能的機(jī)器翻譯, 翻譯出來的結(jié)果讓你大致能夠看得明白。(4) “ 搜索結(jié)果過濾” 功能。網(wǎng)絡(luò)上的成人信息浩如煙海, 而且很多站點(diǎn)具有欺騙或者其他不良企圖, 瀏覽者很容易掉入其中的陷阱。為此google新設(shè)立了成人內(nèi)容過濾功能, 見google的設(shè)置頁面,不過, 中文狀態(tài)下的尚沒有這個(gè)功能。(5) “ 超文本匹配分析” 功能。google的搜索引擎, 同時(shí)也分析網(wǎng)頁內(nèi)容, 它并不采用單純掃描基于網(wǎng)頁的文本的方式, 而是分析網(wǎng)頁的全部內(nèi)容以及字體、分區(qū)及每個(gè)文字精確位置等因素, 同時(shí)還會(huì)分析相鄰網(wǎng)頁的內(nèi)容, 以確保返回與用戶查詢最相關(guān)的結(jié)果。(6) “ PageRank,” 技術(shù)。通過對由超過5000萬個(gè)變量與20億個(gè)詞匯組成的方程進(jìn)行計(jì)算,PageRank能夠?qū)W(wǎng)頁的重要性做出客觀的評價(jià), 它并不計(jì)算直接鏈接的數(shù)量, 而是將從網(wǎng)頁A指向網(wǎng)頁B的鏈接解釋為由網(wǎng)頁A對網(wǎng)頁B所投的一票, 這樣會(huì)根據(jù)網(wǎng)頁B所收到的投票數(shù)量評估該頁的重要性, 提供準(zhǔn)確率極高的搜索結(jié)果。(7)“ 圖片搜索” 功能。google可以檢索390000000張圖片, 并稱為“ 互聯(lián)網(wǎng)上最好用的圖像搜索工具” , 對中國用戶而言, google的圖片搜索引擎是最好的圖像搜索工具。(8)“ 新聞組搜索” 功能。新聞組有詳盡的分類主題, 某些主題還有專人管理與編輯, 具有大量的有價(jià)值信息。由于新聞組包含的信息實(shí)在是海量, 因此不利用工具進(jìn)行檢索是不大可能的。2001年google將DEJA收購并提供了所有DEJA的功能?,F(xiàn)在, 除了搜索之外, google還支持新聞組的WEB方式瀏覽與張貼功能。(9) “ 目錄檢索” 功能, 如果不想搜索廣泛的網(wǎng)頁, 而是想找某些專題網(wǎng)站, 你可以訪問google的分類目錄。分類的網(wǎng)站目錄一般由專人負(fù)責(zé), 分類明確, 信息集中。(10) 其他功能。google的其他功能還包括查詢電話號碼、查找PDF文件、股票報(bào)價(jià)、找找誰與你鏈接、查找站點(diǎn)、查找字典釋意, 等等。 百度的特點(diǎn) 百度致力于傾聽、挖掘與滿足中國網(wǎng)民的需求, 秉承“ 用戶體驗(yàn)至上” 的理念, 除網(wǎng)頁搜索外, 還提供MP3、文檔、地圖、傳情、影視等多樣化的搜索服務(wù), 將無數(shù)網(wǎng)民頭腦中的智慧融人了搜索, 使“百度一下” 已經(jīng)成為了人們進(jìn)行搜索的新動(dòng)詞。其獨(dú)有的功能與特點(diǎn)就在于:(1)“ 百度快照” 功能。如果無法打開某個(gè)搜索結(jié)果, 或者打開速度特別慢, “ 百度快照” 能幫您解決。每個(gè)被收錄的網(wǎng)頁, 在百度上都存有一個(gè)純文本的備份, 稱為“ 百度快照” 。由于百度速度較快, 您可以通過“ 快照” 快速瀏覽頁面內(nèi)容。(2)“ 相關(guān)搜索” 功能。搜索的結(jié)果不佳, 有時(shí)候是因選擇的查詢詞不妥當(dāng)。您可以通過參考別人的做法來獲得一些啟發(fā)。百度的“ 相關(guān)搜索” ,就是與您的搜索很相似的一系列查詢詞。(3)“ 拼音提示” 功能。如果只知道某個(gè)詞的發(fā)音, 卻不知道怎么寫, 或者嫌某個(gè)詞拼寫輸入麻煩, 這時(shí)百度拼音的提示能夠幫您解決。只要您輸人查詢詞的漢語拼音, 百度就能把最符合要求的對應(yīng)漢字提示出來。它事實(shí)上是一個(gè)無比強(qiáng)大的拼音輸人法。(4)“ 錯(cuò)別字提示” 功能。由于漢字輸人法的局限性, 在搜索時(shí)經(jīng)常會(huì)輸人一些錯(cuò)別字, 導(dǎo)致搜索結(jié)果不佳, 這是百度會(huì)給出錯(cuò)別字糾正提示。錯(cuò)別字提示顯示在搜索結(jié)果上方。(5)“ 英漢互譯詞典” 功能。百度在線英漢互譯詞典, 你隨便輸人一個(gè)英語單詞, 或者輸人一個(gè)漢字詞語, 點(diǎn)擊結(jié)果頁上的“ 詞典” 鏈接, 就可以得到高質(zhì)量的翻譯結(jié)果。百度在線詞典不但能翻譯普通的英語單詞、詞組、漢字詞語, 甚至還能翻譯常見的成語, 具有直接使用英漢互譯功能。(6)“ 計(jì)算器與度量衡轉(zhuǎn)換” 功能。百度網(wǎng)頁搜索內(nèi)嵌的計(jì)算器功能, 則能快速高效解決你的計(jì)算需求, 你只需簡單的在搜索框內(nèi)輸人計(jì)算式,回車即可看到計(jì)算式的結(jié)果。百度的搜索框中, 你也可以做度量衡轉(zhuǎn)換, 當(dāng)你輸人:換算數(shù)量換算前單位=?換算后單位, 回車即可得到換算的結(jié)果。(7)“ 專業(yè)文檔搜索” 功能。百度具有很好的office文檔、Adobe PDF文檔、RTF文檔進(jìn)行了全文搜索。只要你在普通的查詢詞后面, 加一個(gè)“ filetype” 與文檔類型限定。就可快速查看該文檔的網(wǎng)頁格式內(nèi)容。你也可以通過百度文檔搜索界面而功, 直接使用專業(yè)文檔搜索功能。(8)“ 股票、列車時(shí)刻表與飛機(jī)航班查詢”功能。你在百度搜索框中輸人股票代碼、列車車次或者飛機(jī)航班號, 就能直接獲得相關(guān)信息。例如, 輸人股票代碼“ 600001” , 搜索結(jié)果上方, 就顯示邯鄲鋼鐵的股票實(shí)時(shí)行情。(9)“ 天氣查詢” 功能。百度可以隨時(shí)查詢天氣預(yù)報(bào), 只要你在百度搜索框中輸人你要查詢的城市名稱加上天氣這個(gè)詞, 您就能獲得該城市當(dāng)天的天氣情況。百度支持全國多達(dá)400多個(gè)城市與近百個(gè)國外著名城市的天氣查詢。(10)“ 超鏈分析” 技術(shù)。百度將傳統(tǒng)情報(bào)學(xué)中的引文索引技術(shù)同web中最基本的鏈接技術(shù)相結(jié)合, 通過分析鏈接網(wǎng)站的多少來評價(jià)被鏈接的網(wǎng)站質(zhì)量, 使得在百度搜索時(shí), 越受用戶歡迎的內(nèi)容排名越靠前. 兩大搜索引擎的相關(guān)特點(diǎn)折射出各類搜索引擎的聯(lián)系。它們都有自己服務(wù)理念與目標(biāo),都有強(qiáng)大的功能為用戶服務(wù),并打造自身的技術(shù)特點(diǎn)與專長。為用戶不斷提供優(yōu)秀的服務(wù)質(zhì)量,并完善自身的技術(shù)與不足,吸引用戶的使用與得到信賴,不斷發(fā)展。google與百度檢索技術(shù)分析評價(jià)一個(gè)搜索引擎的質(zhì)量, 就需要對檢索結(jié)果進(jìn)行比較分析, 為此有必要對google與百度從更新時(shí)間、響應(yīng)速度、查全率、檢準(zhǔn)率、文檔搜索等方面進(jìn)行比較分析。(1) 規(guī)模、內(nèi)容及更新時(shí)間 google多為月更新, 有部分日更新或時(shí)更新,搜索范圍涵蓋了世界各地的網(wǎng)頁, 網(wǎng)頁數(shù)達(dá)200多億。百度平均為周更新, 中文信息大部分時(shí)更新,有超過10多億中文網(wǎng)頁, 9千萬張圖片, 擁有目前世界上最大的中文信息庫, 并且還在以每天幾十萬頁的速度快速增長, 涵蓋了中國內(nèi)地、港澳臺(tái)、新加坡等華語地區(qū)及北美、歐洲部分網(wǎng)站。(2)搜索響應(yīng)的速度 google有1.5萬臺(tái)服務(wù)器, 200多條T3級寬帶, 索引功能通過索引庫 與排序器來實(shí)現(xiàn)。百度在中國各地與美國均設(shè)有服務(wù)器, 高效的搜索算法與本地服務(wù)器保證最快的響應(yīng)速度。 為了測試google與百度的響應(yīng)速度, 筆者任意抽取了5個(gè)搜索詞進(jìn)行檢索, 其結(jié)果是google的平均響應(yīng)時(shí)間小于0.13秒, 百度的平均響應(yīng)時(shí)間小于0.06秒(參見:搜索響應(yīng)時(shí)間統(tǒng)計(jì)表), 百度的搜索響應(yīng)的速度要快于google。 搜索響應(yīng)時(shí)間統(tǒng)計(jì)衰 搜索詞 google 百度 李文紅 393000條 0.23秒 888000 0.001秒 信息組織學(xué) 1160條 0.05秒 308000 0.089秒 美對臺(tái)軍售 770000條 0.22秒 88300條 0.082秒 新農(nóng)村文化建設(shè) 4560000條 0.07秒 525000條 0.001秒 網(wǎng)絡(luò)信息資源檢索 3850000條 0.06秒 27300條 0.125秒 平均響應(yīng)時(shí)間 0.13秒 0.06秒 (3)資源查全率 google收取了大概200億的英文搜索頁面,互聯(lián)網(wǎng)上總的英文網(wǎng)頁的數(shù)量大概在300億左右,google已經(jīng)覆蓋了英文網(wǎng)頁數(shù)據(jù)量的60%到70%,在這個(gè)條件下, 所以它的用戶滿意度能達(dá)到60%到70%?;ヂ?lián)網(wǎng)上中文網(wǎng)頁有效數(shù)量大致在100到150億之間, 而百度與收錄的文網(wǎng)頁量都在40億到50億之間, 因而, 百度與google的中文網(wǎng)絡(luò)資源查全率一般只能達(dá)到任30一40%。對西方網(wǎng)絡(luò)信息資源查全率進(jìn)行研究, 百度與google同樣無與倫比。(4)網(wǎng)絡(luò)信息資源檢準(zhǔn)率 檢準(zhǔn)率是衡量網(wǎng)絡(luò)信息檢索質(zhì)量的標(biāo)準(zhǔn), 也是網(wǎng)絡(luò)信息檢索的一個(gè)突出問題。搜索引擎的檢準(zhǔn)率體現(xiàn)在兩個(gè)方面, 一是搜索引擎對垃圾網(wǎng)頁的抗干擾能力, 二是搜索引擎對檢索結(jié)果的排序能力, 它主要取決與搜索引擎采用的排序算法的優(yōu)劣。(5) 文檔搜索應(yīng)用 在互聯(lián)網(wǎng)上除了網(wǎng)頁資源外, 還如PDF,DOC,RTF,xls,PPT(S)等文檔文件, 這些文檔通常會(huì)包含一些重要的資料, 所以對這一部分網(wǎng)絡(luò)信息資源的挖掘與利用, 也是搜索引擎的一個(gè)重要功能, 它也是衡量一個(gè)搜索引擎完整與否, 成熟與否的重要指標(biāo)。 Google綜合起來看是比百度要強(qiáng)大一些,各類搜索引擎之間的技術(shù)決定了搜索引擎公司的強(qiáng)大與否。結(jié)語通過google與百度二個(gè)無論從搜索的質(zhì)量與數(shù)量都是世界一流的搜索引擎,能看出各類搜索引擎速度都非常迅速,它們在更新時(shí)間與搜索的速度上有著差別,在數(shù)據(jù)庫規(guī)模、涵蓋范圍與檢準(zhǔn)率, 以及網(wǎng)絡(luò)信息查全率上因各自的技術(shù)不同也有著差別。但是

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論