搜索引擎工作原理_第1頁
搜索引擎工作原理_第2頁
搜索引擎工作原理_第3頁
搜索引擎工作原理_第4頁
搜索引擎工作原理_第5頁
已閱讀5頁,還剩12頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第2章搜索引擎工作原理2.1搜索引擎開展歷史搜索引擎歷史11994年-1997年雅虎誕生與SEO開始早起搜索引擎MSN,Lycos,AltaVista,Hotbot和InfoSeek。AltaVista最早提出自然語言搜索,具備了網(wǎng)站內(nèi)容分析、智能處理的能力。這段時間尋找網(wǎng)站就上Yahoo。提供人工歸類。SEO有了雛形,分為黑白兩道?!俺鲩T找地圖,上網(wǎng)找搜狐〞另個聰明的學(xué)生孕育著一個新型的搜索引擎。搜索引擎歷史21998年-1999年Google出現(xiàn)和SEO理論的浮現(xiàn)1998年,Google收到10萬美元的風(fēng)頭,走出了斯坦福校園,成立Google公司。域名為google。并首次將鏈接流行度作為排名的標(biāo)準(zhǔn)之一。其他搜索引擎也飛速開展。1999年,Google獲得兩千五百萬的資金,全面開展。搜索引擎歷史32000-2001年百度的出現(xiàn)和搜索引擎的革新大多搜索引擎都染上了金錢。而Google的精確搜索開始穩(wěn)固它在搜索引擎中的地位。首先出局的是InfoSeek,98年被迪士尼買下,變?yōu)間o,自那以后InfoSeek被拋棄。1999年,InfoSeek的一位華人工程師離開駛向北京。由于一句中國古詞“眾里尋他千百度,暮然回首,那人卻在燈火闌珊處〞的啟發(fā),創(chuàng)立了搜索引擎“百度〞,這就是百度的創(chuàng)始人李彥宏搜索引擎歷史4搜索專業(yè)人才即便在硅谷也是鳳毛麟角,所以中文搜索引擎的開展速度趕不上引文搜索引擎。李彥宏本省是一位搜索專家,他在96年就解決了基于網(wǎng)站質(zhì)量的排序與基于相關(guān)性排序完美結(jié)合的問題。百度搜索巧妙地解決了數(shù)據(jù)更新的瓶頸。中文搜索開始開展。2001年收費(fèi)登錄大為紅火,搜索引擎市場大清洗,許多搜索引擎被yahoo收購。歡送來到Google時代!這個時代,“有了Google,就有了一切〞。搜索引擎歷史52002-2004年,GoogleDance和SEO不眠夜Google開始定期更新它的索引。網(wǎng)站排名發(fā)生劇烈變化。這種現(xiàn)象幾乎每月一次,SEO實(shí)踐者稱為GoogleDance。2002年是SEO濫用的一年,SEO實(shí)踐者采用大量門戶網(wǎng)頁,重復(fù)網(wǎng)站,偽裝網(wǎng)站,隱藏鏈接來欺騙Google。Google不斷增加鑒別技術(shù)。2003年Google的〞佛羅里達(dá)更新“2004年Google的〞AustinUpdate“搜索引擎歷史62005年之后,搜索引擎的戰(zhàn)國時代Googleupdate不再是定期活動,而是每天的遞進(jìn)更新。SEO實(shí)踐者能夠很快看到自己的成果。比爾蓋茨看不下去了,于是MSN發(fā)布搜索引擎。從此美國成了三足鼎力,Google、Yahoo和MSN的〞三國演義“。在中國,Google和Yahoo始終不能在市場份額上和百度相爭。Yahoo中國交給了馬云。Google啟用中文域名google和中文譯名〞谷歌〞尚奇?zhèn)饔嵉牡絹?,揭示搜索引擎的?zhàn)場從美國開辟到了中國。2.2搜索引擎分類全文搜索引擎目錄搜索引擎元搜索引擎2.3搜索引擎工作原理頁面收錄頁面分析頁面排序關(guān)鍵字查詢搜索引擎三段式工作流程搜集批量搜集,增量式搜集;搜集目標(biāo),搜集策略預(yù)處理關(guān)鍵詞提取;重復(fù)網(wǎng)頁消除;鏈接分析;索引效勞查詢方式和匹配;結(jié)果排序;文檔摘要搜集整理效勞搜索引擎系統(tǒng)的體系結(jié)構(gòu)搜索引擎對頁面的收錄頁面收錄流程頁面收錄原理頁面收錄方式廣度優(yōu)先深度優(yōu)先用戶提交防止重復(fù)收錄轉(zhuǎn)載頁面鏡像頁面頁面維護(hù)方式定期抓取增量抓取分類定位抓取頁面存儲頁面分析頁面索引頁面分析分詞:字符串匹配分詞,統(tǒng)計分詞關(guān)鍵字索引:關(guān)鍵字列表,頁面與關(guān)鍵字對應(yīng)關(guān)系關(guān)鍵字重組:關(guān)鍵字反向索引表頁面排序W(page)=W(relevance)+W(link)+W(user)頁面相關(guān)性關(guān)鍵字匹配關(guān)鍵字密度關(guān)鍵字位置分布關(guān)鍵字標(biāo)簽權(quán)重鏈接權(quán)重內(nèi)部鏈接外部鏈接默認(rèn)權(quán)重用戶行為關(guān)鍵字查詢查詢流程分詞對查詢短語進(jìn)行分詞匹配

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論