搜索引擎分類及工作原理_第1頁
搜索引擎分類及工作原理_第2頁
搜索引擎分類及工作原理_第3頁
搜索引擎分類及工作原理_第4頁
搜索引擎分類及工作原理_第5頁
已閱讀5頁,還剩3頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、搜索引擎的分類及工作原理XX:XXX班級:XXX摘要:這篇論文是關于搜索引擎的分類及原理的分析。在浩瀚的網(wǎng)絡資源中,搜索引擎Search Engine是一種網(wǎng)上信息檢索工具,它能幫助用戶迅速而全面地找到所 需要的信息。它是一個集中了千千萬萬個站點的地方,主要功能是給人們搜索這些站點。 它還會分門別類的把一些好的站點列出來,以方便人們查找資料,有了搜索引擎你就能 很容易的找到你想要的內(nèi)容或站點,因此掌握好使用搜索引擎對于任何上網(wǎng)的用戶至關 重要。一個好的搜索引擎,不僅數(shù)據(jù)庫容量要大,更新頻率、檢索速度要快,支持對多 語言的搜索,而且隨著數(shù)據(jù)庫容量的不斷膨脹,還要能從龐大的資料庫中準確地找到正 確

2、的資料。關鍵詞:搜索引擎工作原理分類蜘蛛搜集1前言獲得網(wǎng)頁資料,能夠建立數(shù)據(jù)庫并提供查詢的系統(tǒng),我們都可以把它叫做搜索引擎。 搜索引擎并不真正搜索互聯(lián)網(wǎng),它搜索的實際上是預先整理好的網(wǎng)頁索引數(shù)據(jù)庫。真正意義上的搜索引擎,通常指的是收集了因特網(wǎng)上幾千萬到幾十億個網(wǎng)頁并對網(wǎng) 頁中的每一個詞即關鍵詞進展索引,建立索引數(shù)據(jù)庫的全文搜索引擎。當用戶 查找某個關鍵詞的時候,所有在頁面內(nèi)容中包含了該關鍵詞的網(wǎng)頁都將作為搜索結(jié) 果被搜出來。在經(jīng)過復雜的算法進展排序后,這些結(jié)果將按照與搜索關鍵詞的相關 度上下,依次排列。2搜索引擎分類Full Text Search搜索引擎按其工作方式主要可分為三種,分別是全文

3、搜索引擎Engine、目錄索引類搜索引擎Search Index/Directory和元搜索弓I擎Meta Search Engine。2.1 全文搜索引擎全文搜索引擎是從提取信息建立網(wǎng)頁數(shù)據(jù)庫。搜索引擎的自動信息搜集功能分兩種。一種是定期搜索,即每隔一段時間搜索引擎主動派出“蜘蛛程序,對一定IP地址X圍內(nèi)的互聯(lián)進展檢索,一旦發(fā)現(xiàn)新的,它會自動提取的信息和網(wǎng)址參加自己的數(shù)據(jù)庫。另一種是提交搜索,即擁有者主動向搜索引擎提交網(wǎng)址,它在一定時間內(nèi)2天到數(shù)月不等定向向你的派出“蜘蛛程序,掃描你的并將有關信息存入數(shù)據(jù)庫,以備用戶查詢。由于近年來搜索引擎索引規(guī)那么發(fā)生了很大變化,主動提交網(wǎng)址并不保證你的能

4、進入搜索引擎數(shù)據(jù)庫,因此目前最好的方法是多獲得一些外部,讓搜索引擎有更多時機找到你并自動將你的收錄。當用戶以關鍵詞查找信息時,搜索引擎會在數(shù)據(jù)庫中進展搜尋,如果找到與用戶要求內(nèi)容相符的,便采用特殊的算法一一通常根據(jù)網(wǎng)頁中關鍵詞的匹配程度,出現(xiàn)的位置/頻次,質(zhì)量等一一計算出各網(wǎng)頁的相關度及排名等級,然后根據(jù)關聯(lián)度上下,按順序?qū)⑦@些網(wǎng)頁返回給用戶。2.2 目錄索引首先,搜索引擎屬于自動檢索,而目錄索引那么完全依賴手工操作。用戶提交后,目錄編輯人員會親自瀏覽你的,然后根據(jù)一套自定的評判標準甚至編輯人員的主觀印象,決定是否接納你的。其次,搜索引擎收錄時,只要本身沒有違反有關的規(guī)那么,一般都能登錄 成功

5、。此外,在登錄搜索引擎時,我們一般不用考慮的分類問題,而登錄目錄 索引時那么必須將放在一個最適宜的目錄。最后,搜索引擎中各的有關信息都是從用戶網(wǎng)頁中自動提取的,所以用戶 的角度看,我們擁有更多的自主權(quán);而目錄索引那么要求必須手工另外填寫信 息,而且還有各種各樣的限制。更有甚者,如果工作人員認為你提交的目錄、 信息不適宜,他可以隨時對其進展調(diào)整,當然事先是不會和你商量的。2.3 元搜索引擎(META Search Engine)元搜索引擎在承受用戶查詢請求時,同時在其他多個引擎上進展搜索,并將結(jié)果返 回給用戶。著名的元搜索引擎有InfoSpace Dogpile、Vivisimo等,中文元搜索引

6、擎 中具代表性的有搜星搜索引擎。在搜索結(jié)果排列方面,有的直接按來源引擎排列搜 索結(jié)果,如Dogpile,有的那么按自定的規(guī)那么將結(jié)果重新排列組合,如 Vivisimo3搜索引擎的原理全文搜索引擎的“網(wǎng)絡機器人或“網(wǎng)絡蜘蛛是一種網(wǎng)絡上的軟件,它遍歷 Web空間,能夠掃描一定IP地址X圍內(nèi)的,并沿著網(wǎng)絡上的從一個網(wǎng)頁到另一個網(wǎng) 頁,從一個到另一個采集網(wǎng)頁資料。它為保證采集的資料最新,還會回訪已抓取過 的網(wǎng)頁。網(wǎng)絡機器人或網(wǎng)絡蜘蛛采集的網(wǎng)頁,還要有其它程序進展分析,根據(jù)一定 的相關度算法進展大量的計算建立網(wǎng)頁索引,才能添加到索引數(shù)據(jù)庫中。我們平時 看到的全文搜索引擎,實際上只是一個搜索引擎系統(tǒng)的檢索

7、界面,當你輸入關鍵詞 進展查詢時,搜索引擎會從龐大的數(shù)據(jù)庫中找到符合該關鍵詞的所有相關網(wǎng)頁的索 引,并按一定的排名規(guī)那么呈現(xiàn)給我們。不同的搜索引擎,網(wǎng)頁索引數(shù)據(jù)庫不同,排名規(guī)那么也不盡一樣,所以,當我們以同一關鍵詞用不同的搜索引擎查詢時,搜 索結(jié)果也就不盡一樣。和全文搜索引擎一樣,分類目錄的整個工作過程也同樣分為 收集信息、分析信息和查詢信息三局部,只不過分類目錄的收集、分析信息兩局部 主要依靠人工完成。分類目錄一般都有專門的編輯人員,負責收集的信息。隨著收 錄站點的增多,現(xiàn)在一般都是由站點管理者遞交自己的信息給分類目錄,然后由分 類目錄的編輯人員審核遞交的,以決定是否收錄該站點。如果該站點審

8、核通過,分 類目錄的編輯人員還需要分析該站點的內(nèi)容,并將該站點放在相應的類別和目錄中。 所有這些收錄的站點同樣被存放在一個“索引數(shù)據(jù)庫中。用戶在查詢信息時,可 以選擇按照關鍵詞搜索,也可按分類目錄逐層查找。如以關鍵詞搜索,返回的結(jié)果 跟全文搜索引擎一樣,也是根據(jù)信息關聯(lián)程度排列。需要注意的是,分類目錄的關 鍵詞查詢只能在的名稱、網(wǎng)址、簡介等內(nèi)容中進展,它的查詢結(jié)果也只是被收錄首 頁的URL地址,而不是具體的頁面。分類目錄就像一個薄一樣,按照各個的性質(zhì), 把其網(wǎng)址分門別類排在一起,大類下面套著小類,一直到各個的詳細地址,一般還 會提供各個的內(nèi)容簡介,用戶不使用關鍵詞也可進展查詢,只要找到相關目錄

9、,就 完全可以找到相關的注意:是相關的,而不是這個上某個網(wǎng)頁的內(nèi)容,某一目錄中的排名一般是按照標題字母的先后順序或者收錄的時間順序決定的?,F(xiàn)在的搜索引擎已普遍使用超鏈分析技術(shù),除了分析索引網(wǎng)頁本身的內(nèi)容,還分析索引所有指向該網(wǎng)頁的的URL、AnchorText、甚至周圍的文字。所以,有時候,即使某個網(wǎng)頁A中并沒有某個詞比方“惡魔撒旦,但如果有別的網(wǎng)頁B用“惡魔撒旦指向這個網(wǎng)頁A,那么用戶搜索“惡魔撒旦時也能找到網(wǎng)頁 Ao而且,如果有越多網(wǎng)頁(C、 D、E、F)用名為“惡魔撒旦的指向這個網(wǎng)頁A,或者給出這個的源網(wǎng)頁(B、C、 D、E、F)越優(yōu)秀,那么網(wǎng)頁A在用戶搜索“惡魔撒旦時也會被認為更相關,

10、排序也會越靠前搜索引擎的工作原理可以看做三步:從互聯(lián)網(wǎng)上抓取網(wǎng)頁-建立索引數(shù)據(jù)庫-在索引數(shù)據(jù)庫中搜索排序。3.1 從互聯(lián)網(wǎng)上抓取網(wǎng)頁利用能夠從互聯(lián)網(wǎng)上自動收集網(wǎng)頁的 Spider系統(tǒng)程序,自動訪問互聯(lián)網(wǎng),并沿著任何 網(wǎng)頁中的所有URL爬到其它網(wǎng)頁,重復這過程,并把爬過的所有網(wǎng)頁收集回來。3.2 建立索引數(shù)據(jù)庫由分析索引系統(tǒng)程序?qū)κ占貋淼木W(wǎng)頁進展分析,提取相關網(wǎng)頁信息包括網(wǎng)頁所在URL、編碼類型、頁面內(nèi)容包含的關鍵詞、關鍵詞位置、生成時間、大些 與其它網(wǎng)頁的關系等,根據(jù)一定的相關度算法進展大量復雜計算,得到每一個網(wǎng)頁針對頁面內(nèi)容中及超鏈中每一個關鍵詞的相關度或重要性,然后用這些相關信息建立 網(wǎng)

11、頁索引數(shù)據(jù)庫。3.3 在索引數(shù)據(jù)庫中搜索排序當用戶輸入關鍵詞搜索后,由搜索系統(tǒng)程序從網(wǎng)頁索引數(shù)據(jù)庫中找到符合該關鍵詞 的所有相關網(wǎng)頁。因為所有相關網(wǎng)頁針對該關鍵詞的相關度早已算好,所以只需按 照現(xiàn)成的相關度數(shù)值排序,相關度越高,排名越靠前。最后,由頁面生成系統(tǒng)將搜索結(jié)果的地址和頁面內(nèi)容摘要等內(nèi)容組織起來返回給用戶。搜索引擎的Spider一般要定期重新訪問所有網(wǎng)頁各搜索引擎的周期不同,可能是幾天、幾周或幾月,也可能對不同重要性的網(wǎng)頁有不同的更新頻率,更新網(wǎng)頁索引數(shù)據(jù)庫,以反映出網(wǎng)頁內(nèi)容的更新情況,增加新的網(wǎng)頁信息,去除死,并根據(jù)網(wǎng)頁內(nèi) 容和關系的變化重新排序。這樣,網(wǎng)頁的具體內(nèi)容和變化情況就會反

12、映到用戶查詢 的結(jié)果中?;ヂ?lián)網(wǎng)雖然只有一個,但各搜索引擎的能力和偏好不同,所以抓取的網(wǎng)頁各不一樣, 排序算法也各不一樣。大型搜索引擎的數(shù)據(jù)庫儲存了互聯(lián)網(wǎng)上幾億至幾十億的網(wǎng)頁 索引,數(shù)據(jù)量到達幾千 G甚至幾萬Go但即使最大的搜索引擎建立超過二十億網(wǎng)頁 的索引數(shù)據(jù)庫,也只能占到互聯(lián)網(wǎng)上普通網(wǎng)頁的不到30%,不同搜索引擎之間的網(wǎng)頁數(shù)據(jù)重疊率一般在70%以下。我們使用不同搜索引擎的重要原因,就是因為它們 能分別搜索到不同的內(nèi)容。而互聯(lián)網(wǎng)上有更大量的內(nèi)容,是搜索引擎無法抓取索引 的,也是我們無法用搜索引擎搜索到的。3.4 在做網(wǎng)頁的提取過程中詳細的原理如下3.4.1 關鍵詞的提取所謂“目標網(wǎng)頁指的是搜索

13、引擎設計覆蓋的網(wǎng)頁X圍.例如Google是全球,天網(wǎng)是全中國.隨便取一篇網(wǎng)頁的源文件例如通過瀏覽器的“查看源文件功能,我們可以看到其中的情況紛亂繁雜.除了我們從瀏覽器中能夠正??吹降奈淖謨?nèi)容外,還有 大量的HTML標記.據(jù)統(tǒng)計,網(wǎng)頁文檔源文件的大小字節(jié)量通常大約是其中內(nèi)容大 小的4倍.另外,由于HTML文檔產(chǎn)生來源的多樣性,許多網(wǎng)頁在內(nèi)容上比擬隨意,不僅 文字不講究規(guī)X、完整,而且還可能包含許多和主要內(nèi)容無關的信息.這些情況既給有 效的信息查詢帶來了挑戰(zhàn),也帶來了一些新的機遇,這里我們只是指出,為了支持后面的查詢效勞,需要從網(wǎng)頁源文件中提取出能夠代表它的內(nèi)容的一些特征.從人們現(xiàn)在的 認識和實踐

14、來看,所含的關鍵詞即為這種特征最好的代表.于是,作為預處理階段的一 個根本任務,就是要提取出網(wǎng)頁源文件的內(nèi)容局部所含的關鍵詞.對于中文來說,就是要根據(jù)一個詞典2 ,用一個所謂“切詞軟件,從網(wǎng)頁文字中切出2所含的t語來.在那 之后,一篇網(wǎng)頁主要就由一組詞來近似代表了,p = t1, t2,,我陽可育好!般來講到很多詞,同一個詞可能在一篇網(wǎng)頁中屢次出現(xiàn).從效果和效率考慮,不應該讓所有的 詞都出現(xiàn)在網(wǎng)頁的表示中,要去掉諸如“的 在”等沒有內(nèi)容指示意義的詞,稱為“停 用詞.這樣,對一篇網(wǎng)頁來說,有效的詞語數(shù)量大約在200個左右.3.4.2 重復或網(wǎng)頁的消除與生俱來的數(shù)字化和網(wǎng)絡化給網(wǎng)頁的復制以及和修改

15、再發(fā)表帶來了便利,因此我們看到Web上的信息存在大量的重復現(xiàn)象.據(jù)統(tǒng)計,網(wǎng)頁的重復率平均大約為4.也就是說, 當你通過一個URL在網(wǎng)上看到一篇網(wǎng)頁的時候,平均還有另外3個不同的URL也給 出一樣或者根本相似的內(nèi)容.這種現(xiàn)象對于廣闊的網(wǎng)民來說是有正面意義的,因為有了 更多的信息訪問時機.但對于搜索引擎來說,那么主要是負面的;它不僅在搜集網(wǎng)頁時 要消耗機器時間和網(wǎng)絡帶寬資源,而且如果在查詢結(jié)果中出現(xiàn),無意義地消耗了計算機 顯示屏資源 也會引來用戶的抱怨,“這么多重復箍我一個就夠了 .因此,消除內(nèi)容重復或主題內(nèi)容重復的網(wǎng)頁是預處理階段的一個重要任務.3.4.3分析前面提到,大量的HTML標記既給網(wǎng)頁

16、的預處理造成了一些麻煩,也帶來了一些新的機 遇.從信息檢索的角度講,如果系統(tǒng)面對的僅僅是內(nèi)容的文字,我們能依據(jù)的就是“共 有詞匯假設",即內(nèi)容所包含的關鍵詞集合,最多加上詞頻term frequency或tf、TF 和詞在文檔集合中出現(xiàn)的文檔頻率document frequency或df、DF之類的統(tǒng)計量.而TF和DF這樣的頻率信息能在一定程度上指示詞語在一篇文檔中的相對重要性或者和某些內(nèi)容的相關性,這是有意義的.有了 HTML標記后,情況還可能進一步改善,例如在同一篇文檔中,+和/巾 之間的信息很可能就比在 *4和小4之間的信息更重要.特別地,HTML文檔中所含的指向其他文檔的信息

17、是人們近幾年來特別關注 的對象,認為它們不僅給出了網(wǎng)頁之間的關系,而且還對判斷網(wǎng)頁的內(nèi)容有很重要的作 用.例如“傳世群英傳外掛這幾個字在傳奇歸來外掛的主頁上是沒有的,因此一個僅靠內(nèi)容文字分析的搜索引擎就不可能返回該主頁作為結(jié)果.3.4.4網(wǎng)頁重要程度的計算搜索引擎返回給用戶的,是一個和用戶查詢相關的結(jié)果列表.列表中條目的順序是很重要的一個問題.由于面對各種各樣的用戶,加之查詢的自然語言風格,對同樣的q0返回 一樣的列表肯定是不能使所有提交 q0的用戶都滿意的或者都到達最高的滿意度.因此搜索引擎實際上追求的是一種統(tǒng)計意義上的滿意.人們認為Google目前比百度好,是因為在多數(shù)情況下前者返回的內(nèi)容

18、要更符合用戶的需要,而不是所有情況下都如此.如何對查詢結(jié)果進展排序有很多因素需要考慮,后面將有深入的討論.這里只是概要解釋在預處理階段可能形成的所謂“重要性因素.顧名思義,既然是在預處理階段形成的,就是和用戶查詢無關的.如何講一篇網(wǎng)頁比另外一篇網(wǎng)頁重要?A們參照科技文獻重要性的評估方式,核心想法就是“被引用多的就是重要的.“引用這個概念恰好可以通過HTML超鏈在網(wǎng)頁之間表達得非常好,作為Google創(chuàng)立核心技術(shù)的PageRank 就是這種思路的成功表達.除此以外,人們還注意到網(wǎng)頁和文獻的不同特點,即一些網(wǎng) 頁主要是大量對外的,其本身根本沒有一個明確的主題內(nèi)容,而另外有些網(wǎng)頁那么被大 量的其他網(wǎng)頁.從某種意義上講,這形成了一種對偶的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論