



下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
捜索引華分類和原理“搜索引擎”這個術(shù)語一般統(tǒng)指真正意義上的搜索引擎(也就是全文檢索搜索引擎)和目錄(即目錄式分類搜索引擎),其實他們是不一樣的,其區(qū)別主要在于返回的搜索結(jié)果列表是如何編排的。一、 搜索引擎的分類獲得網(wǎng)站網(wǎng)頁資料,能夠建立數(shù)據(jù)庫并提供查詢的系統(tǒng),我們都可以把它叫做搜索引擎。按照工作原理的不同,可以把它們分為兩個基本類別:全文搜索引擎(FullTextSearchEngine)和分類目錄(Directory)。全文搜索引擎的數(shù)據(jù)庫是依靠一個叫“網(wǎng)絡(luò)機器人(Spider)”或叫“網(wǎng)絡(luò)蜘蛛(crawlers)”的軟件,通過網(wǎng)絡(luò)上的各種鏈接自動獲取大量網(wǎng)頁信息內(nèi)容,并按以定的規(guī)則分析整理形成的。Google、百度都是比較典型的全文搜索引擎系統(tǒng)。分類目錄則是通過人工的方式收集整理網(wǎng)站資料形成數(shù)據(jù)庫的,比如雅虎中國以及國內(nèi)的搜狐、新浪、網(wǎng)易分類目錄。另外,在網(wǎng)上的一些導(dǎo)航站點,也可以歸屬為原始的分類目錄,比如“銀行之家”(/)。全文搜索引擎和分類目錄在使用上各有長短。全文搜索引擎因為依靠軟件進行,所以數(shù)據(jù)庫的容量非常龐大,但是,它的查詢結(jié)果往往不夠準(zhǔn)確;分類目錄依靠人工收集和整理網(wǎng)站,能夠提供更為準(zhǔn)確的查詢結(jié)果,但收集的內(nèi)容卻非常有限。為了取長補短,現(xiàn)在的很多搜索引擎,都同時提供這兩類查詢,一般對全文搜索引擎的查詢稱為搜索“所有網(wǎng)站”或“全部網(wǎng)站”,比如Google的全文搜索(/intl/zh-CN/);把對分類目錄的查詢稱為搜索“分類目錄”或搜索“分類網(wǎng)站”,比如新浪搜索(/)和雅虎中國搜索(/dirsrch/)。在網(wǎng)上,對這兩類搜索引擎進行整合,還產(chǎn)生了其它的搜索服務(wù),在這里,我們權(quán)且也把它們稱作搜索引擎,主要有這兩類:1?元搜索引擎(METASearchEngine)。這類搜索引擎一般都沒有自己網(wǎng)絡(luò)機器人及數(shù)據(jù)庫,它們的搜索結(jié)果是通過調(diào)用、控制和優(yōu)化其它多個獨立搜索引擎的搜索結(jié)果并以統(tǒng)一的格式在同一界面集中顯示。元搜索引擎雖沒有“網(wǎng)絡(luò)機器人”或“網(wǎng)絡(luò)蜘蛛”,也無獨立的索引數(shù)據(jù)庫,但在檢索請求提交、檢索接口代理和檢索結(jié)果顯示等方面,均有自己研發(fā)的特色元搜索技術(shù)。比如“metaFisher元搜索引擎”(),它就調(diào)用和整合了Google、Yahoo、AlltheWeb.百度和OpenFind等多家搜索引擎的數(shù)據(jù)。集成搜索引擎(All-in-OneSearchPage)。集成搜索引擎是通過網(wǎng)絡(luò)技術(shù),在一個網(wǎng)頁上鏈接很多個獨立搜索引擎,查詢時,點選或指定搜索引擎,一次輸入,多個搜索引擎同時查詢,搜索結(jié)果由各搜索引擎分別以不同頁面顯示,比如“網(wǎng)際瑞士軍刀”(/%7Efree/search1.htm)。二、 搜索引擎的工作原理全文搜索引擎的“網(wǎng)絡(luò)機器人”或“網(wǎng)絡(luò)蜘蛛”是一種網(wǎng)絡(luò)上的軟件,它遍歷Web空間,能夠掃描一定IP地址范圍內(nèi)的網(wǎng)站,并沿著網(wǎng)絡(luò)上的鏈接從一個網(wǎng)頁到另一個網(wǎng)頁,從一個網(wǎng)站到另一個網(wǎng)站采集網(wǎng)頁資料。它為保證釆集的資料最新,還會回訪己抓取過的網(wǎng)頁。網(wǎng)絡(luò)機器人或網(wǎng)絡(luò)蜘蛛釆集的網(wǎng)頁,還要有其它程序進行分析,根據(jù)一定的相關(guān)度算法進行大量的計算建立網(wǎng)頁索引,才能添
加到索引數(shù)據(jù)庫中。我們平時看到的全文搜索引擎,實際上只是一個搜索引擎系統(tǒng)的檢索界面,當(dāng)你輸入關(guān)鍵詞進行查詢時,搜索引擎會從龐大的數(shù)據(jù)庫中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁的索引,并按一定的排名規(guī)則呈現(xiàn)給我們。不同的搜索引擎,網(wǎng)頁索引數(shù)據(jù)庫不同,排名規(guī)則也不盡相同,所以,當(dāng)我們以同一關(guān)鍵詞用不同的搜索引擎查詢時,搜索結(jié)果也就不盡相同?!觥?▼血H取r文如1 ■—*▼血H取r文如1 引曲訶v >1?■甲a和全文搜索引擎一樣,分類目錄的整個工作過程也同樣分為收集信息、分析信息和查詢信息三部分,只不過分類目錄的收集、分析信息兩部分主要依靠人工完成。分類目錄一般都有專門的編輯人員,負(fù)責(zé)收集網(wǎng)站的信息。隨著收錄站點的增多,現(xiàn)在一般都是由站點管理者遞交自己的網(wǎng)站信息給分類目錄,然后由分類目錄的編輯人員審核遞交的網(wǎng)站,以決定是否收錄該站點。如果該站點審核通過,分類目錄的編輯人員還需要分析該站點的內(nèi)容,并將該站點放在相應(yīng)的類別和目錄中。所有這些收錄的站點同樣被存放在一個“索引數(shù)據(jù)庫”中。用戶在查詢信息時,可以選擇按照關(guān)鍵詞搜索,也可按分類目錄逐層查找。如以關(guān)鍵詞搜索,返回的結(jié)果跟全文搜索引擎一樣,也是根據(jù)信息關(guān)聯(lián)程度排列網(wǎng)站。需要注意的是,分類目錄的關(guān)鍵詞查詢只能在網(wǎng)站的名稱、網(wǎng)址、簡介等內(nèi)容中進行,它的查詢結(jié)果也只是被收錄網(wǎng)站首頁的URL地址,而不是具體的頁面。分類目錄就像一個電話號碼薄一樣,按照各個網(wǎng)站的性質(zhì),把其網(wǎng)址分門別類排在一起,大類下面套著小類,一直到各個網(wǎng)站的詳細(xì)地址,一般還會提供各個網(wǎng)站的內(nèi)容簡介,用戶不使用關(guān)鍵詞也可進行查詢,只要找到相關(guān)目錄,就完全可以找到相關(guān)的網(wǎng)站(注意:是相關(guān)的網(wǎng)站,而不是這個網(wǎng)站上某個網(wǎng)頁的內(nèi)容,某一目錄中網(wǎng)站的排名一般是按照標(biāo)題字母的先后順序或者收錄的時間順序決定的)。一個好的搜索引擎,不僅數(shù)據(jù)庫容量要大,更新頻率、檢索速度要快,支持對多語言的搜索,而且隨著數(shù)據(jù)庫容量的不斷膨脹,還要能從龐大的資料庫中精確地找到正確的資料。1?提高搜索引擎對用戶檢索提問的理解。為了提高搜索引擎對用戶檢索提問的理解,就必須有一個好的檢索提問語言。為了克服關(guān)鍵詞檢索和目錄查詢的缺點,現(xiàn)在已經(jīng)出現(xiàn)了自然語言智能答詢。用戶可以輸入簡單的疑問句,比如“如何能殺死計算機中的病毒”,搜索引擎在對提問進行結(jié)構(gòu)和內(nèi)容的分析之后,或直接給出提問的答案,或引導(dǎo)用戶從兒個可選擇的問題中進行再選擇。自然語言的優(yōu)勢在于,一是使網(wǎng)絡(luò)交流更加人性化,二是使查詢變得更加方便、直接、有效。就以上面的例子來講,如果用關(guān)鍵詞查詢,多半人會用“病毒”這個詞來檢索,結(jié)果中必然會包括各類病毒的介紹,病毒是怎樣產(chǎn)生的等等許多無用信息,而用“如何能殺死計算機中的病毒”檢索,搜索引擎會將怎樣殺死病毒的信息提供給用戶,提高了檢索效率。垂直主題搜索引擎有著極大的發(fā)展空間。網(wǎng)上的信息浩如煙海,網(wǎng)絡(luò)資源以驚人的速度增長,一個搜索引擎很難收集全所有主題的網(wǎng)絡(luò)信息,即使信息主題收集得比較全面,由于主題范圍太寬,很難將各主題都做得精確而乂專業(yè),使得檢索結(jié)果垃圾太多。這樣以來,垂直主題的搜索引擎以其高度的目標(biāo)化和專業(yè)化在各類搜索引擎中占據(jù)了一席之地。目前,一些主要的搜索引擎,都提供了新聞、Mp3、圖片、Flash等的搜索,加強了檢索的針對性。元搜索引擎,能夠提供全面且較為準(zhǔn)確的查詢結(jié)果。現(xiàn)在的許多搜索引擎,其收集信息的范圍、索引方法、排名規(guī)則等都各不相同,每個搜索引擎平均只能涉及到整個Web資源的30-50%,這樣導(dǎo)致同一個搜索請求在不同搜索引擎中獲得的查詢結(jié)果的重復(fù)率不足34%,而每一個搜索引擎的查準(zhǔn)率不到45%。元搜索引擎(METASearchEngine)是將用戶提交的檢索請求發(fā)送到多個獨立的搜索引擎上去搜索,并將檢索結(jié)果集中統(tǒng)一處理,以統(tǒng)一的格式提供給用戶,因此有搜索引擎之上的搜索引擎之稱。它的主要精力放在提高搜索速度、智能化處理搜索結(jié)果、個性化搜索功能的設(shè)置和用戶檢索界面的友好性上,查全率和查準(zhǔn)率都比較高。三、 主要的搜索引擎介紹這里介紹的是在國內(nèi)外影響比較大的主要的一些搜索引擎和分類目錄站點,由于現(xiàn)在的站點一般都同時提供全文搜索和分類目錄兩種服務(wù),所以我們按照其自有的技術(shù)進行分類和介紹。中文搜索引擎及目錄百度(/)<,百度是國內(nèi)最早的商業(yè)化(早期為其它門戶網(wǎng)站提供搜索服務(wù),現(xiàn)在的競價排名更是日進斗金)全文搜索引擎,擁有自己的網(wǎng)絡(luò)機器人和索引數(shù)據(jù)庫,專注于中文的搜索引擎市場,除有網(wǎng)頁搜索外,白度還有新聞、MP3、圖片等搜索,并在2003年底推出“貼吧”、按地域搜索等功能。白度公司是中國互聯(lián)網(wǎng)領(lǐng)先的軟件技術(shù)提供商和平臺運營商。中國提供搜索引擎的主要網(wǎng)站中,超過80%由百度提供。百度搜索引擎由四部分組成:蜘蛛程序、監(jiān)控程序、索引數(shù)據(jù)庫、檢索程序。門戶網(wǎng)站只需將用戶查詢內(nèi)容和一些相關(guān)參數(shù)傳遞到白度搜索引擎服務(wù)器上,后臺程序就會自動工作并將最終結(jié)果返回給網(wǎng)站。百度搜索引擎使用了高性能的“網(wǎng)絡(luò)蜘蛛”程序自動的在互聯(lián)網(wǎng)中搜索信息,可定制、高擴展性的調(diào)度算法使得搜索器能在極短的時間內(nèi)收集到最大數(shù)量的互聯(lián)網(wǎng)信息。百度在中國各地和美國均設(shè)有服務(wù)器,搜索范圍涵蓋了中國大陸、香港、臺灣、澳門、新加坡等華語地區(qū)以及北美、歐洲的部分站點。百度搜索引擎擁有目前世界上最大的中文信息庫,總量達到6000萬頁以上,并且還在以每天兒十萬頁的速度快速增長。百度搜索引擎的特點:基于字詞結(jié)合的信息處理方式。巧妙解決了中文信息的理解問題,極大地提高了搜索的準(zhǔn)確性和查全率。支持主流的中文編碼標(biāo)準(zhǔn)。包括GBK(漢字內(nèi)碼擴展規(guī)范)、GB2312(簡體)、BIG5(繁體),并且能夠在不同的編碼之間轉(zhuǎn)換。智能相關(guān)度算法。釆用了基于內(nèi)容和基于超鏈分析相結(jié)合的方法進行相關(guān)度評價,能夠客觀分析網(wǎng)頁所包含的信息,從而最大限度保證了檢索結(jié)果相關(guān)性。檢索結(jié)果能標(biāo)示豐富的網(wǎng)頁屬性(如標(biāo)題、網(wǎng)址、時間、大小、編碼、摘要等),并突出用戶的查詢串,便于用戶判斷是否閱讀原文。白度搜索支持二次檢索(乂稱漸進檢索或逼進檢索)??稍谏洗螜z索結(jié)果中繼續(xù)檢索,逐步縮小查找范圍,直至達到最小、最準(zhǔn)確的結(jié)果集。利于用戶更加方便地在海量信息中找到自己真正感興趣的內(nèi)容。相關(guān)檢索詞智能推薦技術(shù)。在用戶第一次檢索后,會提示相關(guān)的檢索詞,幫助用戶查找更相關(guān)的結(jié)果,統(tǒng)計表明可以促進檢索量提升10-20%。運用多線程技術(shù)、高效的搜索算法、穩(wěn)定的UNIX平臺、和本地化的服務(wù)器,保證了最快的響應(yīng)速度。百度搜索引擎在中國境內(nèi)提供搜索服務(wù),可大大縮短檢索的響應(yīng)時間(一個檢索的平均響應(yīng)時間小于0.5秒)。&可以提供一周、二周、四周等多種服務(wù)方式??梢栽?天之內(nèi)完成網(wǎng)頁的更新,是目前更新時間最快、數(shù)據(jù)量最大的中文搜索引擎。9.檢索結(jié)果輸出支持內(nèi)容類聚、網(wǎng)站類聚、內(nèi)容類聚十網(wǎng)站類聚等多種方式。支持用戶選擇時間范圍,提高用戶檢索效率。10?智能性、可擴展的搜索技術(shù)保證最快最多的收集互聯(lián)網(wǎng)信息。擁有目前世界上最大的中文信息庫,為用戶提供最準(zhǔn)確、最廣泛、最具時效性的信息提供了堅實基礎(chǔ)。11?分布式結(jié)構(gòu)、精心設(shè)計的優(yōu)化算法、容錯設(shè)計保證系統(tǒng)在大訪問量下的高可用性、高擴展性、高性能和高穩(wěn)定性。每個部分均采用N+1的冗余設(shè)計,1臺服務(wù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 負(fù)壓設(shè)備行業(yè)月個人工作計劃
- 班級科技參與與實踐計劃
- 《柔性可穿戴傳感技術(shù)》課程教學(xué)大綱
- 學(xué)期總結(jié)與反思計劃
- 個人社區(qū)貢獻的評估標(biāo)準(zhǔn)計劃
- 搭建員工意見反饋渠道的方案計劃
- 推動企業(yè)信息化進程計劃
- 第四章籃球-原地雙手胸前傳球 教學(xué)設(shè)計
- 2024年高中物理新教材選擇性必修第一冊 第2章 章末檢測試卷(二)
- 提高美術(shù)教學(xué)全面素質(zhì)教育的工作計劃
- 辦公樓招商知識培訓(xùn)課件
- 2025年阜陽科技職業(yè)學(xué)院單招職業(yè)技能測試題庫及答案1套
- 開啟新征程??點亮新學(xué)期+課件=2024-2025學(xué)年高一下學(xué)期開學(xué)家長會
- 2025內(nèi)蒙古烏審旗圖克鎮(zhèn)圖克工業(yè)園區(qū)中天合創(chuàng)化工分公司招聘20人易考易錯模擬試題(共500題)試卷后附參考答案
- 2.3品味美好情感 課件 -2024-2025學(xué)年統(tǒng)編版道德與法治七年級下冊
- 七年級道法下冊 第一單元 綜合測試卷(人教海南版 2025年春)
- 海洋自主無人系統(tǒng)跨域協(xié)同任務(wù)規(guī)劃模型與技術(shù)發(fā)展研究
- GB/T 18851.2-2024無損檢測滲透檢測第2部分:滲透材料的檢驗
- 正弦穩(wěn)態(tài)電路分析
- 辦公用品、耗材采購服務(wù)投標(biāo)方案
- 新人教版高中數(shù)學(xué)必修第二冊全冊教案
評論
0/150
提交評論