版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、搜索引擎的工作原理1.什么是搜索引擎?搜索引擎(Search Engine)是指根據(jù)一定的策略、運用特定的計算機程序從互聯(lián)網上搜集信息,在對信息進行組織和處理后,為用戶提供檢索服務,將用戶檢索相關的信息展示給用戶的系統(tǒng)。搜索引擎包括全文索引、目錄索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、門戶搜索引擎與免費鏈接列表等一個搜索引擎由搜索器 、索引器 、檢索器 和用戶接口四個部分組成。搜索器的功能是在互聯(lián)網中漫游,發(fā)現(xiàn)和搜集信息。索引器的功能是理解搜索器所搜索的信息,從中抽取出索引項,用于表示文檔 以及生成文檔庫的索引表。檢索器的功能是根據(jù)用戶的查詢在索引庫中快速檢出文檔,進行文檔與查詢的相關
2、度評價,對將要輸出的結果進行排序,并實現(xiàn)某種用戶相關性反饋機制。用戶接口的作用是輸入用戶查詢、顯示查詢結果、提供用戶相關性反饋機制。 維基百科2.搜索引擎的基本分類全文索引目錄索引元索引3.搜索引擎的基本組成4.搜索引擎的工作原理基本原理1、找到網站的URL并下載頁面。2、判斷頁面質量是否達到收錄標準收錄頁面,否則刪除。3、判斷收錄頁面是否更新,更新頁面快照。1.通過網絡爬蟲獲取信息網絡爬蟲是搜索引擎的下載系統(tǒng),它的作用是內容的獲取,手段就是在萬維網中通過鏈接不斷爬取收集各類網頁。但是互聯(lián)網的頁面浩如煙海,而且每天不斷有新的內容產生,根據(jù)爬取目標和范圍,可以將爬蟲簡單分為以下幾類: 批量性爬蟲
3、:明確的抓取目標和范圍,達到即停止增量型爬蟲:應對網頁不斷更新的狀態(tài),爬蟲需要及時反應。通用商業(yè)引擎一般都是這類垂直型爬蟲:只針對某個特定領域的爬蟲,根據(jù)主題過濾。爬蟲在爬取網頁的時候,應該怎樣確定下一步的目標呢?主要有以下策略:寬度優(yōu)先:最簡單的方式,即將某個頁面中的鏈接依次加入待爬取隊列局部PageRank:PageRank是一種網頁重要性指標,這種方式根據(jù)一定時期內的局部PageRank值決定下一步爬取目標OPIC:當下載當前網頁后,將其重要性平均分給包含的鏈接,每次選取最重要的頁面,不用迭代計算,速度較快大站優(yōu)先:思想很簡單,以網站為單位衡量頁面重要性。簡要說明蜘蛛(網絡爬蟲)在整個互
4、聯(lián)網上爬行遇見你網站的一個URL,首先把URL提取出來根據(jù)網站權重和相關性插入到URL隊列中,然后是判斷你網站的這條URL是否能夠解析成功,如果能解析成功,蜘蛛會爬到你網站,這里需要說一下,蜘蛛并不是直接去分析你網頁的內容,而是去尋找你網站robots文件,根據(jù)你網站的robots規(guī)則判斷是否抓取你這個頁面,如果robots文件不存在,則會返回一個404錯誤,但是搜索引擎已經會繼續(xù)抓取你的網站內容。搜索引擎抓取了網頁內容之后會對網頁進行一個簡單的判斷是否達到了收錄標準,如果不符合則繼續(xù)把URL加入到URL隊列中,如果符合收錄就會下載網頁內容。2. 建立索引建立索引對于搜索引擎,索引更是其中最重
5、要的核心技術之一,面對海量的網頁內容,如何快速找到包含用戶查詢詞的所有網頁?倒排索引在其中扮演了關鍵的角色。對于一個網頁,我們把它看做一個文檔,其中的內容由一個個單詞組成。為了對于用戶的搜索詞快速給出文檔結果,我們要建立一個單詞-文檔的存儲結構。倒排索引倒排索引是實現(xiàn)單詞文檔矩陣的一種具體存儲形式。通過倒排索引,可以根據(jù)單詞快速獲取包含這個單詞的文檔列表。倒排索引主要由兩個部分組成:單詞詞典和倒排文件。 單詞詞典主要是兩種存儲方式:哈希加鏈接和樹形結構。索引建立方法:索引建立方法:(1)兩遍文檔遍歷在第一遍掃描文檔集合時,該方法并沒有立即開始建立索引,而是收集一些全局的統(tǒng)計信息。比如文檔集合包
6、含的文檔個數(shù)N,文檔集合內所包含的不同單詞個數(shù)M,每個單詞在多少個文檔中出現(xiàn)過的信息DF。在獲得了上述3 類信息后,就可以知道最終索引的大小,于是在內存中分配足夠大的空間,用來存儲倒排索引內容。在第二遍掃描的時候,開始真正建立每個單詞的倒排列表信息,即對某個單詞來說,獲得包含這個單詞的每個文檔的文檔ID,以及這個單詞在文檔中的出現(xiàn)次數(shù)TF(2)排序法排序法對此做出了改進,該方法在建立索引的過程中,始終在內存中分配固定大小的空間,用來存放詞典信息和索引的中間結果,當分配的空間被消耗光的時候,把中間結果寫入磁盤,清空內存里中間結果所占空間,以用做下一輪存放索引中間結果的存儲區(qū)。這種方法由于只需要固
7、定大小的內存,所以可以對任意大小的文檔集合建立索引。(3)歸并法在分配的內存定額被消耗光時,排序法只是將中間結果寫入磁盤,而詞典信息一直在內存中進行維護,隨著處理的文檔越來越多,詞典里包含的詞典項越來越多,所以占用內存越來越大,導致后期中間結果可用內存越來越少。歸并法對此做出了改進,即每次將內存中數(shù)據(jù)寫入磁盤時,包括詞典在內的所有中間結果信息都被寫入磁盤,這樣內存所有內容都可以被清空,后續(xù)建立索引可以使用全部的定額內存。索引的更新策略完全重建再合并策略原地更新策略混合策略3. 內容檢索內容檢索內容檢索模型是搜索引擎排序的理論基礎,用來計算網頁與查詢的相關性。A.常用的檢索模型布爾模型向量空間模
8、型概率模型語言模型機器學習排序檢索系統(tǒng)評價指標精確率:搜索結果中相關文檔的比例 A/(A+B)召回率:結果中相關文檔占所有相關文檔的比例 A/(A+C)P10 : 前10個結果中相關查詢的數(shù)目MAP指標 :對返回結果按次序加權,權值為排名的倒數(shù)查詢相關查詢相關查詢無關查詢無關在搜索結果內AB不在搜索結果CD4. 鏈接分析鏈接分析搜索引擎在查找能夠滿足用戶請求的網頁時,主要考慮兩方面的因素:一方面是用戶發(fā)出的查詢與網頁內容的內容相似性得分,即網頁和查詢的相關性;另一方面就是通過鏈接分析方法計算獲得的得分,即網頁的重要性。鏈接分析就是通過網絡的鏈接結構去獲取網頁重要性的一類方法。鏈接分析算法很多,
9、從模型上看,主要分為兩類:隨機游走:從某個網頁以一定的概率跳轉到它所包含的鏈接子集傳播:給予某個子集一定的傳播,按照特定的條件,將權值傳給其他網頁5.搜索結果的改善優(yōu)化5.1 作弊分析作弊分析作弊方法內容作弊:設置無關關鍵字,內容農場 (大量低質量內容)鏈接作弊:鏈接農場,互相鏈接.頁面隱藏作弊:欺騙爬蟲,隱藏無關關鍵字,重定向。WEB2.0作弊反作弊整體思路信任傳播不信傳播異常發(fā)現(xiàn)A.信任傳播模型在海量的網頁數(shù)據(jù)中,通過一定的技術手段或者人工半人工手段,從中篩選出部分完全值得信任的頁面,也就是肯定不會作弊的頁面(可以理解為白名單),算法以這些白名單內的頁面作為出發(fā)點,賦予白名單內的頁面節(jié)點較
10、高的信任度分值,其他頁面是否作弊,要根據(jù)其和白名單內節(jié)點的鏈接關系來確定。白名單內節(jié)點通過鏈接關系將信任度分值向外擴散傳播,如果某個節(jié)點最后得到的信任度分值高于一定閾值,則認為沒有問題,而低于這一閾值的網頁則會被認為是作弊網頁。 B.不信任模型不信任傳播模型不信任傳播模型從框架上來講,其和信任傳播模型是相似的,最大的區(qū)別在于:初始的頁面子集合不是值得信任的頁面節(jié)點,而是確認存在作弊行為的頁面集合,即不值得信任的頁面集合(可以理解為黑名單)。賦予黑名單內頁面節(jié)點不信任分值,通過鏈接關系將這種不信任關系傳播出去,如果最后頁面節(jié)點的不信任分值大于設定的閾值,則會被認為是作弊網頁。 C.異常發(fā)現(xiàn)模型異
11、常發(fā)現(xiàn)模型異常發(fā)現(xiàn)模型也是一個高度抽象化的算法框架模型,其基本假設認為:作弊網頁必然存在有異于正常網頁的特征,這種特征有可能是內容方面的,也有可能是鏈接關系方面的。而制定具體算法的流程往往是先找到一些作弊的網頁集合,分析出其異常特征有哪些,然后利用這些異常特征來識別作弊網頁。5.2 分析用戶意圖準確分析用戶的搜索意圖是目前搜索引擎的重點研究方向。用戶的意圖可以初略分為導航型,信息型,事物型搜索日志是挖掘用戶意圖的重要數(shù)據(jù)來源點擊圖:用戶在查詢結果出來后點擊的鏈接可能更是他希望的結果查詢回話:用戶在短時間的連續(xù)查詢詞存在相關性查詢圖:構建用戶查詢之間的結構關系用戶在搜索時可能想不到合適的搜索詞,或者關鍵詞輸入錯誤,這時候就需要幫助用戶澄清搜索意圖。常見的方法是:相關搜索,查詢糾錯5.3 網頁去重網頁去重經過統(tǒng)計,網絡中有相當比例的網頁是近似相同或者完全相同的,高達29%。如果搜索返回大量相似網頁,顯然降低了搜索結果質量。針對這一現(xiàn)象,網頁去重就顯得十分必要。網頁去重一般是在爬蟲抓取到網頁后,對其
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025屆江西省宜春市上高縣二中生物高一第一學期期末經典模擬試題含解析
- 2025屆山東省青島第三中學高一上數(shù)學期末綜合測試試題含解析
- 雙鴨山市重點中學2025屆高二生物第一學期期末學業(yè)質量監(jiān)測模擬試題含解析
- 四川省普通高中2025屆生物高三上期末調研試題含解析
- 2025屆廣東二師學院番禺附學英語高三第一學期期末聯(lián)考模擬試題含解析
- 2025屆青海省互助縣第一中學數(shù)學高一上期末學業(yè)質量監(jiān)測試題含解析
- 天津市一中2025屆生物高二上期末聯(lián)考模擬試題含解析
- 山西省朔州市第二中學2025屆高二上數(shù)學期末學業(yè)質量監(jiān)測試題含解析
- 浙江省杭州七縣2025屆數(shù)學高二上期末調研模擬試題含解析
- 湖南省古丈縣第一中學2025屆生物高二上期末預測試題含解析
- 人才引進考核評分表
- 壓力管道安裝許可規(guī)則-TSG D3001-2021
- 煤氣中毒事故應急演練預案方案
- 體檢科醫(yī)療質量控制工作計劃
- 國有公司總部禮品管理辦法 模版
- 口腔頜面部檢查課件
- 2020年重癥醫(yī)學科病人呼吸心跳驟停演練方案及腳本
- 平衡記分卡應用流程
- 呼吸道感染病毒培訓課件
- 重癥超聲課件
- 物聯(lián)網信息安全知識考核試題與答案
評論
0/150
提交評論