搜索引擎分類及工作原理_第1頁
搜索引擎分類及工作原理_第2頁
搜索引擎分類及工作原理_第3頁
搜索引擎分類及工作原理_第4頁
搜索引擎分類及工作原理_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、搜索引擎的分類及工作原理姓名:XXX班級:XXX摘要:這篇論文是關(guān)于搜索引擎的分類及原理的分析。在浩瀚的網(wǎng)絡(luò)資源中,搜索引擎(SearchEngine)是一種網(wǎng)上信息檢索工具,它能幫助用戶迅速而全面地找到所需要的信息。它是一個集中了千千萬萬個站點的地方,主要功能是給人們搜索這些站點。它還會分門別類的把一些好的站點列出來,以方便人們查找資料,有了搜索引擎你就能很容易的找到你想要的內(nèi)容或站點,因此掌握好使用搜索引擎對于任何上網(wǎng)的用戶至關(guān)重要。一個好的搜索引擎,不僅數(shù)據(jù)庫容量要大,更新頻率、檢索速度要快,支持對多語言的搜索,而且隨著數(shù)據(jù)庫容量的不斷膨脹,還要能從龐大的資料庫中精確地找到正確的資料。關(guān)

2、鍵詞:搜索引擎工作原理分類蜘蛛搜集網(wǎng)站1 .前言獲得網(wǎng)站網(wǎng)頁資料,能夠建立數(shù)據(jù)庫并提供查詢的系統(tǒng),我們都可以把它叫做搜索引擎。搜索引擎并不真正搜索互聯(lián)網(wǎng),它搜索的實際上是預(yù)先整理好的網(wǎng)頁索引數(shù)據(jù)庫。真正意義上的搜索引擎,通常指的是收集了因特網(wǎng)上幾千萬到幾十億個網(wǎng)頁并對網(wǎng)頁中的每一個詞(即關(guān)鍵詞)進行索引,建立索引數(shù)據(jù)庫的全文搜索引擎。當(dāng)用戶查找某個關(guān)鍵詞的時候,所有在頁面內(nèi)容中包含了該關(guān)鍵詞的網(wǎng)頁都將作為搜索結(jié)果被搜出來。在經(jīng)過復(fù)雜的算法進行排序后,這些結(jié)果將按照與搜索關(guān)鍵詞的相關(guān)度高低,依次排列。2 .搜索引擎分類搜索引擎按其工作方式主要可分為三種,分別是全文搜索引擎(FullTextSea

3、rchEngine)、目錄索引類搜索引擎(SearchIndex/Directory)和元搜索引擎(MetaSearchEngine)。2.1 全文搜索引擎全文搜索引擎是從網(wǎng)站提取信息建立網(wǎng)頁數(shù)據(jù)庫。搜索引擎的自動信息搜集功能分兩種。一種是定期搜索,即每隔一段時間搜索引擎主動派出“蜘蛛”程序,對一定IP地址范圍內(nèi)的互聯(lián)網(wǎng)站進行檢索,一旦發(fā)現(xiàn)新的網(wǎng)站,它會自動提取網(wǎng)站的信息和網(wǎng)址加入自己的數(shù)據(jù)庫。另一種是提交網(wǎng)站搜索,即網(wǎng)站擁有者主動向搜索引擎提交網(wǎng)址,它在一定時間內(nèi)(2天到數(shù)月不等)定向向你的網(wǎng)站派出“蜘蛛”程序,掃描你的網(wǎng)站并將有關(guān)信息存入數(shù)據(jù)庫,以備用戶查詢。由于近年來搜索引擎索引規(guī)則發(fā)生

4、了很大變化,主動提交網(wǎng)址并不保證你的網(wǎng)站能進入搜索引擎數(shù)據(jù)庫,因此目前最好的辦法是多獲得一些外部鏈接,讓搜索引擎有更多機會找到你并自動將你的網(wǎng)站收錄。當(dāng)用戶以關(guān)鍵詞查找信息時,搜索引擎會在數(shù)據(jù)庫中進行搜尋,如果找到與用戶要求內(nèi)容相符的網(wǎng)站,便采用特殊的算法一一通常根據(jù)網(wǎng)頁中關(guān)鍵詞的匹配程度,出現(xiàn)的位置/頻次,鏈接質(zhì)量等一一計算出各網(wǎng)頁的相關(guān)度及排名等級,然后根據(jù)關(guān)聯(lián)度高低,按順序?qū)⑦@些網(wǎng)頁鏈接返回給用戶。2.2 目錄索引首先,搜索引擎屬于自動網(wǎng)站檢索,而目錄索引則完全依賴手工操作。用戶提交網(wǎng)站后,目錄編輯人員會親自瀏覽你的網(wǎng)站,然后根據(jù)一套自定的評判標(biāo)準(zhǔn)甚至編輯人員的主觀印象,決定是否接納你的

5、網(wǎng)站。其次,搜索引擎收錄網(wǎng)站時,只要網(wǎng)站本身沒有違反有關(guān)的規(guī)則,一般都能登錄成功。此外,在登錄搜索引擎時,我們一般不用考慮網(wǎng)站的分類問題,而登錄目錄索引時則必須將網(wǎng)站放在一個最合適的目錄。最后,搜索引擎中各網(wǎng)站的有關(guān)信息都是從用戶網(wǎng)頁中自動提取的,所以用戶的角度看,我們擁有更多的自主權(quán);而目錄索引則要求必須手工另外填寫網(wǎng)站信息,而且還有各種各樣的限制。更有甚者,如果工作人員認(rèn)為你提交網(wǎng)站的目錄、網(wǎng)站信息不合適,他可以隨時對其進行調(diào)整,當(dāng)然事先是不會和你商量的。2.3 元搜索引擎(METASearchEngine)元搜索引擎在接受用戶查詢請求時,同時在其他多個引擎上進行搜索,并將結(jié)果返回給用戶。

6、著名的元搜索引擎有InfoSpace>Dogpile、Vivisimo等,中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索結(jié)果排列方面,有的直接按來源引擎排列搜索結(jié)果,如Dogpile,有的則按自定的規(guī)則將結(jié)果重新排列組合,如Vivisimo3搜索引擎的原理全文搜索引擎的“網(wǎng)絡(luò)機器人”或“網(wǎng)絡(luò)蜘蛛”是一種網(wǎng)絡(luò)上的軟件,它遍歷Web空間,能夠掃描一定IP地址范圍內(nèi)的網(wǎng)站,并沿著網(wǎng)絡(luò)上的鏈接從一個網(wǎng)頁到另一個網(wǎng)頁,從一個網(wǎng)站到另一個網(wǎng)站采集網(wǎng)頁資料。它為保證采集的資料最新,還會回訪已抓取過的網(wǎng)頁。網(wǎng)絡(luò)機器人或網(wǎng)絡(luò)蜘蛛采集的網(wǎng)頁,還要有其它程序進行分析,根據(jù)一定的相關(guān)度算法進行大量的計算建立網(wǎng)

7、頁索引,才能添加到索引數(shù)據(jù)庫中。我們平時看到的全文搜索引擎,實際上只是一個搜索引擎系統(tǒng)的檢索界面,當(dāng)你輸入關(guān)鍵詞進行查詢時,搜索引擎會從龐大的數(shù)據(jù)庫中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁的索引,并按一定的排名規(guī)則呈現(xiàn)給我們。不同的搜索引擎,網(wǎng)頁索引數(shù)據(jù)庫不同,排名規(guī)則也不盡相同,所以,當(dāng)我們以同一關(guān)鍵詞用不同的搜索引擎查詢時,搜索結(jié)果也就不盡相同。和全文搜索引擎一樣,分類目錄的整個工作過程也同樣分為收集信息、分析信息和查詢信息三部分,只不過分類目錄的收集、分析信息兩部分主要依靠人工完成。分類目錄一般都有專門的編輯人員,負(fù)責(zé)收集網(wǎng)站的信息。隨著收錄站點的增多,現(xiàn)在一般都是由站點管理者遞交自己的網(wǎng)站信息

8、給分類目錄,然后由分類目錄的編輯人員審核遞交的網(wǎng)站,以決定是否收錄該站點。如果該站點審核通過,分類目錄的編輯人員還需要分析該站點的內(nèi)容,并將該站點放在相應(yīng)的類別和目錄中。所有這些收錄的站點同樣被存放在一個“索引數(shù)據(jù)庫”中。用戶在查詢信息時,可以選擇按照關(guān)鍵詞搜索,也可按分類目錄逐層查找。如以關(guān)鍵詞搜索,返回的結(jié)果跟全文搜索引擎一樣,也是根據(jù)信息關(guān)聯(lián)程度排列網(wǎng)站。需要注意的是,分類目錄的關(guān)鍵詞查詢只能在網(wǎng)站的名稱、網(wǎng)址、簡介等內(nèi)容中進行,它的查詢結(jié)果也只是被收錄網(wǎng)站首頁的URL地址,而不是具體的頁面。分類目錄就像一個電話號碼薄一樣,按照各個網(wǎng)站的性質(zhì),把其網(wǎng)址分門別類排在一起,大類下面套著小類,

9、一直到各個網(wǎng)站的詳細(xì)地址,一般還會提供各個網(wǎng)站的內(nèi)容簡介,用戶不使用關(guān)鍵詞也可進行查詢,只要找到相關(guān)目錄,就完全可以找到相關(guān)的網(wǎng)站(注意:是相關(guān)的網(wǎng)站,而不是這個網(wǎng)站上某個網(wǎng)頁的內(nèi)容,某一目錄中網(wǎng)站的排名一般是按照標(biāo)題字母的先后順序或者收錄的時間順序決定的)?,F(xiàn)在的搜索引擎已普遍使用超鏈分析技術(shù),除了分析索引網(wǎng)頁本身的內(nèi)容,還分析索引所有指向該網(wǎng)頁的鏈接的URLAnchorText、甚至鏈接周圍的文字。所以,有時候,即使某個網(wǎng)頁A中并沒有某個詞比如“惡魔撒旦”,但如果有別的網(wǎng)頁B用鏈接“惡魔撒旦”指向這個網(wǎng)頁A,那么用戶搜索“惡魔撒旦”時也能找到網(wǎng)頁Ao而且,如果有越多網(wǎng)頁(C、DE、F,)用

10、名為“惡魔撒旦”的鏈接指向這個網(wǎng)頁A,或者給出這個鏈接的源網(wǎng)頁(B、CDEF,)越優(yōu)秀,那么網(wǎng)頁A在用戶搜索“惡魔撒旦”時也會被認(rèn)為更相關(guān),排序也會越靠前搜索引擎的工作原理可以看做三步:從互聯(lián)網(wǎng)上抓取網(wǎng)頁-建立索引數(shù)據(jù)庫-在索引數(shù)據(jù)庫中搜索排序。從互聯(lián)網(wǎng)上抓取網(wǎng)頁利用能夠從互聯(lián)網(wǎng)上自動收集網(wǎng)頁的Spider系統(tǒng)程序,自動訪問互聯(lián)網(wǎng),并沿著任何網(wǎng)頁中的所有URL到其它網(wǎng)頁,重復(fù)這過程,并把爬過的所有網(wǎng)頁收集回來。建立索引數(shù)據(jù)庫由分析索引系統(tǒng)程序?qū)κ占貋淼木W(wǎng)頁進行分析,提取相關(guān)網(wǎng)頁信息(包括網(wǎng)頁所在URL網(wǎng)頁的鏈接關(guān)系等),根據(jù)一定的相關(guān)度算法進行大量復(fù)雜計算,得到每一個網(wǎng)頁針對頁面內(nèi)容中及超鏈

11、中每一個關(guān)鍵詞的相關(guān)度(或重要性),然后用這些相關(guān)信息建立網(wǎng)頁索引數(shù)據(jù)庫。在索引數(shù)據(jù)庫中搜索排序當(dāng)用戶輸入關(guān)鍵詞搜索后,由搜索系統(tǒng)程序從網(wǎng)頁索引數(shù)據(jù)庫中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁。因為所有相關(guān)網(wǎng)頁針對該關(guān)鍵詞的相關(guān)度早已算好,所以只需按照現(xiàn)成的相關(guān)度數(shù)值排序,相關(guān)度越高,排名越靠前。最后,由頁面生成系統(tǒng)將搜索結(jié)果的鏈接地址和頁面內(nèi)容摘要等內(nèi)容組織起來返回給用戶。搜索引擎的Spider一般要定期重新訪問所有網(wǎng)頁(各搜索引擎的周期不同,可能是幾天、幾周或幾月,也可能對不同重要性的網(wǎng)頁有不同的更新頻率),更新網(wǎng)頁索引數(shù)據(jù)庫,以反映出網(wǎng)頁內(nèi)容的更新情況,增加新的網(wǎng)頁信息,去除死鏈接,并根據(jù)網(wǎng)頁內(nèi)容

12、和鏈接關(guān)系的變化重新排序。這樣,網(wǎng)頁的具體內(nèi)容和變化情況就會反映到用戶查詢的結(jié)果中?;ヂ?lián)網(wǎng)雖然只有一個,但各搜索引擎的能力和偏好不同,所以抓取的網(wǎng)頁各不相同,排序算法也各不相同。大型搜索引擎的數(shù)據(jù)庫儲存了互聯(lián)網(wǎng)上幾億至幾十億的網(wǎng)頁索引,數(shù)據(jù)量達到幾千G甚至幾萬G但即使最大的搜索引擎建立超過二十億網(wǎng)頁的索引數(shù)據(jù)庫,也只能占到互聯(lián)網(wǎng)上普通網(wǎng)頁的不到30%不同搜索引擎之間的網(wǎng)頁數(shù)據(jù)重疊率一般在70犯下。我們使用不同搜索引擎的重要原因,就是因為它們能分別搜索到不同的內(nèi)容。而互聯(lián)網(wǎng)上有更大量的內(nèi)容,是搜索引擎無法抓取索引的,也是我們無法用搜索引擎搜索到的。在做網(wǎng)頁的提取過程中詳細(xì)的原理如下關(guān)鍵詞的提取所

13、謂“目標(biāo)網(wǎng)頁”指的是搜索引擎設(shè)計覆蓋的網(wǎng)頁范圍.例如Google是全球,天網(wǎng)是全中國.隨便取一篇網(wǎng)頁的源文件(例如通過瀏覽器的“查看源文件”功能),我們可以看到其中的情況紛亂繁雜.除了我們從瀏覽器中能夠正??吹降奈淖謨?nèi)容外,還有大量的HTM曲記.據(jù)統(tǒng)計,網(wǎng)頁文檔源文件的大?。ㄗ止?jié)量)通常大約是其中內(nèi)容大小的4倍.另外,由于HTM及檔產(chǎn)生來源的多樣性,許多網(wǎng)頁在內(nèi)容上比較隨意,不僅文字不講究規(guī)范、完整,而且還可能包含許多和主要內(nèi)容無關(guān)的信息.這些情況既給有效的信息查詢帶來了挑戰(zhàn),也帶來了一些新的機遇,這里我們只是指出,為了支持后面的查詢服務(wù),需要從網(wǎng)頁源文件中提取出能夠代表它的內(nèi)容的一些特征.從

14、人們現(xiàn)在的認(rèn)識和實踐來看,所含的關(guān)鍵詞即為這種特征最好的代表.于是,作為預(yù)處理階段的一個基本任務(wù),就是要提取出網(wǎng)頁源文件的內(nèi)容部分所含的關(guān)鍵詞.對于中文來說,就是要根據(jù)一個詞典2,用一個所謂“切詞軟件”,從網(wǎng)頁文字中切出2所含的t語來.在那之后,一篇網(wǎng)頁主要就由一組詞來近似代表了,p=t1,t2,tn).一般來講,我們可能得到很多詞,同一個詞可能在一篇網(wǎng)頁中多次出現(xiàn).從效果和效率考慮,不應(yīng)該讓所有的詞都出現(xiàn)在網(wǎng)頁的表示中,要去掉諸如“的”,"在"等沒有內(nèi)容指示意義的詞,稱為“停用詞”.這樣,對一篇網(wǎng)頁來說,有效的詞語數(shù)量大約在200個左右.重復(fù)或轉(zhuǎn)載網(wǎng)頁的消除與生俱來的數(shù)字

15、化和網(wǎng)絡(luò)化給網(wǎng)頁的復(fù)制以及轉(zhuǎn)載和修改再發(fā)表帶來了便利,因此我們看到Web上的信息存在大量的重復(fù)現(xiàn)象.據(jù)統(tǒng)計,網(wǎng)頁的重復(fù)率平均大約為4.也就是說,當(dāng)你通過一個URL在網(wǎng)上看到一篇網(wǎng)頁的時候,平均還有另外3個不同的UR他給出相同或者基本相似的內(nèi)容.這種現(xiàn)象對于廣大的網(wǎng)民來說是有正面意義的,因為有了更多的信息訪問機會.但對于搜索引擎來說,則主要是負(fù)面的;它不僅在搜集網(wǎng)頁時要消耗機器時間和網(wǎng)絡(luò)帶寬資源,而且如果在查詢結(jié)果中出現(xiàn),無意義地消耗了計算機顯示屏資源,也會引來用戶的抱怨,“這么多重復(fù)的,給我一個就夠了”.因此,消除內(nèi)容重復(fù)或主題內(nèi)容重復(fù)的網(wǎng)頁是預(yù)處理階段的一個重要任務(wù).3.4.3鏈接分析前面提

16、到,大量的HTM標(biāo)記既給網(wǎng)頁的預(yù)處理造成了一些麻煩,也帶來了一些新的機遇.從信息檢索的角度講,如果系統(tǒng)面對的僅僅是內(nèi)容的文字,我們能依據(jù)的就是“共有詞匯假設(shè)”,即內(nèi)容所包含的關(guān)鍵詞集合,最多加上詞頻(termfrequency或tf、TF)和詞在文檔集合中出現(xiàn)的文檔頻率(documentfrequency或df、DF)之類的統(tǒng)計量.而TF和DF這樣的頻率信息能在一定程度上指示詞語在一篇文檔中的相對重要性或者和某些內(nèi)容的相關(guān)性,這是有意義的.有了HTM而記后,情況還可能進一步改善,例如在同一篇文檔中,H1#k/H1之間的信息很可能就比在H4環(huán)k/H4之間的信息更重要.特別地,HTML文檔中所含的

17、指向其他文檔的鏈接信息是人們近幾年來特別關(guān)注的對象,認(rèn)為它們不僅給出了網(wǎng)頁之間的關(guān)系,而且還對判斷網(wǎng)頁的內(nèi)容有很重要的作用.例如“傳世群英傳外掛”這幾個字在傳奇歸來外掛的主頁上是沒有的,因此一個僅靠內(nèi)容文字分析的搜索引擎就不可能返回該主頁作為結(jié)果.3.4.4網(wǎng)頁重要程度的計算搜索引擎返回給用戶的,是一個和用戶查詢相關(guān)的結(jié)果列表.列表中條目的順序是很重要的一個問題.由于面對各種各樣的用戶,加之查詢的自然語言風(fēng)格,對同樣的q0返回相同的列表肯定是不能使所有提交q0的用戶都滿意的(或者都達到最高的滿意度).因此搜索引擎實際上追求的是一種統(tǒng)計意義上的滿意.人們認(rèn)為Google目前比百度好,是因為在多數(shù)

18、情況下前者返回的內(nèi)容要更符合用戶的需要,而不是所有情況下都如此.如何對查詢結(jié)果進行排序有很多因素需要考慮,后面將有深入的討論.這里只是概要解釋在預(yù)處理階段可能形成的所謂“重要性”因素.顧名思義,既然是在預(yù)處理階段形成的,就是和用戶查詢無關(guān)的.如何講一篇網(wǎng)頁比另外一篇網(wǎng)頁重要?人們參照科技文獻重要性的評估方式,核心想法就是“被引用多的就是重要的”.“引用”這個概念恰好可以通過HTM用鏈在網(wǎng)頁之間體現(xiàn)得非常好,作為Google創(chuàng)立核心技術(shù)的PageRan僦是這種思路的成功體現(xiàn).除此以外,人們還注意到網(wǎng)頁和文獻的不同特點,即一些網(wǎng)頁主要是大量對外的鏈接,其本身基本沒有一個明確的主題內(nèi)容,而另外有些網(wǎng)頁則被大

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論