版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、搜索引擎的算法及工作原理搜索引擎算法及工作原理(Google)C1爬行和抓?。核阉饕嬷┲胪ㄟ^跟蹤鏈接訪問頁面,獲取頁面HTML代碼存入數(shù)據(jù)庫。2預(yù)處理:搜索引擎對抓取來的頁面數(shù)據(jù)文字進行文字提取、中文分詞、索引等處理,以備排名程序調(diào)用。3排名:用戶輸入關(guān)鍵字后,排名調(diào)用索引庫數(shù)據(jù),計算相關(guān)性,然后按一定格式生成搜索結(jié)果頁面。 ONTENTS搜索引擎算法及工作原理(Google)C搜索引擎的工作的過程非常復(fù)雜,而簡單的講搜索引擎的工作過程大體可以分成三個階段。爬行和抓取爬行和抓取 完成數(shù)據(jù)收集任務(wù)。搜索引擎用來爬行和訪問頁面的程序被稱為蜘蛛(spider),也稱為機器人(bot)。跟蹤鏈接為了
2、抓取網(wǎng)上盡量多的頁面,搜索引擎蜘蛛會跟蹤頁面上的鏈接,從一個頁面爬到下一個頁面,就好像蜘蛛在蜘蛛網(wǎng)上爬行那樣,這也就是搜索引擎蜘蛛這個名稱的由來。最簡單的爬行遍歷策略分為兩種,一是深度優(yōu)先,二是廣度優(yōu)先。深度優(yōu)先搜索深度優(yōu)先搜索就是在搜索樹的每一層始終先只擴展一個子節(jié)點,不斷地向縱深前進直到不能再前進(到達(dá)葉子節(jié)點或受到深度限制)時,才從當(dāng)前節(jié)點返回到上一級節(jié)點,沿另一方向又繼續(xù)前進。這種方法的搜索樹是從樹根開始一枝一枝逐漸形成的。深度優(yōu)先搜索亦稱為縱向搜索。由于一個有解的問題樹可能含有無窮分枝,深度優(yōu)先搜索如果誤入無窮分枝(即深度無限),則不可能找到目標(biāo)節(jié)點。所以,深度優(yōu)先搜索策略是不完備的
3、。另外,應(yīng)用此策略得到的解不一定是最佳解(最短路徑)。廣度優(yōu)先搜索在深度優(yōu)先搜索算法中,是深度越大的結(jié)點越先得到擴展。如果在搜索中把算法改為按結(jié)點的層次進行搜索, 本層的結(jié)點沒有搜索處理完時,不能對下層結(jié)點進行處理,即深度越小的結(jié)點越先得到擴展,也就是說先產(chǎn)生 的結(jié)點先得以擴展處理,這種搜索算法稱為廣度優(yōu)先搜索法。預(yù)處理 “預(yù)處理”也被簡稱為“索引”,因為索引是預(yù)處理最主要的步驟。 搜索引擎蜘蛛抓取的原始頁面,并不能直接用于查詢排名處理。搜索引擎數(shù)據(jù)庫中的頁面數(shù)都在數(shù)萬億級別以上,用戶輸入搜索詞后,靠排名程序?qū)崟r對這么多頁面分析相關(guān)性,計算量太大,不可能在一兩秒內(nèi)返回排名結(jié)果。因此抓取來的頁面
4、必須經(jīng)過預(yù)處理,為最后的查詢排名做好準(zhǔn)備。 和爬行抓取一樣,預(yù)處理也是在后臺提前完成的,用戶搜索時感覺不到這個過程。 1.提取文字:搜索引擎預(yù)處理首先要做的就是從HTML文件中去除標(biāo)簽、程序,提取出可以用于排名處理的網(wǎng)頁面文字內(nèi)容。 2.中文分詞:搜索引擎存儲和處理頁面及用戶搜索都是以詞為基礎(chǔ)的。中文詞與詞之間沒有任何分隔符,搜索引擎必須首先分辨哪幾個字組成一個詞,哪些字本身就是一 個詞。比如“減肥方法”將被分詞為“減肥”和“方法”兩個詞。 3.去停止詞:無論是英文還是中文,頁面內(nèi)容中都會有一些出現(xiàn)頻率很 高,卻對內(nèi)容沒有任何影響的詞,助詞,感嘆詞,副詞或介詞。 這些詞被稱為停止詞,因為它們對
5、頁面的主要意思沒什么影響。英文中的常見停止詞有the,a,an,to,of等。 4.消除噪聲:絕 大部分頁面上還有一部分內(nèi)容對頁面主題也沒有什么貢獻,比如導(dǎo)航條、廣告等。這些區(qū)塊都屬于噪聲。搜索引擎需要識別并消除這些噪聲,排名時不使用噪聲內(nèi)容。 5.去重:在進行索引前還需要識別和刪除重復(fù)內(nèi)容,這個過程就稱為“去 重”。 6.正向索引 7.倒排索引 8.鏈接關(guān)系計算:Google PR值就是這種鏈接關(guān)系的最主要體現(xiàn)之一。 9.特殊文件處理:目前的搜索引擎還不能處理圖片、視頻、Flash這類非文字內(nèi)容,也不能執(zhí)行腳本和程序。對圖片、視頻內(nèi)容的排名還往往是依據(jù)與之相關(guān)的文字內(nèi)容。PR的兩個比喻模型P
6、R值全稱為PageRank(網(wǎng)頁級別),PR值是Google用于標(biāo)識網(wǎng)頁的等級、重要性、網(wǎng)站的好壞的重要標(biāo)準(zhǔn)之一。級別從0到10級為滿分。PR值越高說明該網(wǎng)頁越受歡迎。關(guān)于PR有兩個著名的比喻。一個比喻是投票。鏈接就像民主投票一樣,A頁面鏈接到B頁面,就意味著A頁面對B頁面投了一票,使得B頁面的重要性提高。同時,A頁面本身的PR。值決定了A所能投出去的投票力,PR值越高的頁面,投出的票也更重要。在這個意義上,傳統(tǒng)基于關(guān)鍵詞匹配的算法是看頁面自己說頁面內(nèi)容是什么,基于鏈接的PR則是看別人怎么評價一個頁面。第二個比喻是隨機沖浪比喻。假設(shè)一個訪問者從一個頁面開始,不停地隨機點擊鏈接,訪問下一個頁面。有時候這個用戶感到無聊了,不再點擊鏈接,就隨機跳到了另外一個網(wǎng)址,再次開始不停地向下點擊。所謂PR。值也就是一個頁面在這種隨機沖浪訪問中被訪問到的概率。一個頁面導(dǎo)入鏈接越多,被訪問到的概率也越高,因此PR值也越高。 排名 經(jīng)過搜索
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025版新型建筑項目施工安全免責(zé)協(xié)議書3篇
- 2025版智慧物流合作投資項目協(xié)議書范本3篇
- 2025年新型環(huán)保材料應(yīng)用個人住宅裝修合同
- 2025年項目合作商業(yè)機密保密協(xié)議書2篇
- 2025年全球及中國低溫硅導(dǎo)熱液行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報告
- 2025年全球及中國核電蒸發(fā)器U型管行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報告
- 2025-2030全球經(jīng)典拉線驅(qū)動探頭行業(yè)調(diào)研及趨勢分析報告
- 2025-2030全球氧化鋯蒸發(fā)材料行業(yè)調(diào)研及趨勢分析報告
- 2025年度個人住房借款合同模板(含二次抵押)3篇
- 2025年度個人二手房交易合同范本解析
- 廣東省茂名市電白區(qū)2024-2025學(xué)年七年級上學(xué)期期末質(zhì)量監(jiān)測生物學(xué)試卷(含答案)
- 2024版?zhèn)€人私有房屋購買合同
- 2024爆炸物運輸安全保障協(xié)議版B版
- 2025年度軍人軍事秘密保護保密協(xié)議與信息安全風(fēng)險評估合同3篇
- 《食品與食品》課件
- 讀書分享會《白夜行》
- 中國服裝零售行業(yè)發(fā)展環(huán)境、市場運行格局及前景研究報告-智研咨詢(2025版)
- 光伏工程施工組織設(shè)計
- DB4101-T 121-2024 類家庭社會工作服務(wù)規(guī)范
- 化學(xué)纖維的鑒別與測試方法考核試卷
- 2024-2025學(xué)年全國中學(xué)生天文知識競賽考試題庫(含答案)
評論
0/150
提交評論