seo教程:搜索引擎優(yōu)化入門與進(jìn)階筆記_第1頁
seo教程:搜索引擎優(yōu)化入門與進(jìn)階筆記_第2頁
seo教程:搜索引擎優(yōu)化入門與進(jìn)階筆記_第3頁
seo教程:搜索引擎優(yōu)化入門與進(jìn)階筆記_第4頁
seo教程:搜索引擎優(yōu)化入門與進(jìn)階筆記_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、Sctou .com 歡迎訪問搜索引擎工作原理收錄流程1、提交url是一個(gè)被動(dòng)且費(fèi)時(shí)間的行為。2、建立外鏈,外鏈的數(shù)量、質(zhì)量及相關(guān)性左右著錄入時(shí)間,是主動(dòng)的。頁面收錄方式頁面收錄使用的策略,目的是從互聯(lián)網(wǎng)篩選出相對重要的信息。若使用相同抓取策略, 在同一站中抓取頁面資源更具效率,那么則會(huì)再網(wǎng)站上停留更長的時(shí)間,收錄的頁面數(shù)自然也就愛更多。廣度優(yōu)先。優(yōu)點(diǎn):優(yōu)先抓取重要的頁面。應(yīng)對策略:將重要信息設(shè)計(jì)在較淺層次的頁面上。深度優(yōu)先。優(yōu)點(diǎn):頁面需求的長尾,抓取更多冷門、隱藏的頁面,滿足更多用戶的需求。應(yīng)對策略:重要信息放置在多層次的頁面上。用戶提交。優(yōu)點(diǎn):大大提高頁面收錄效率、數(shù)量和收錄頁面的質(zhì)量。如

2、何避免重復(fù)收錄(頁面重復(fù)、內(nèi)容重復(fù))網(wǎng)站中的重復(fù)信息:轉(zhuǎn)載內(nèi)容、鏡像內(nèi)容。重復(fù)信息的影響:占用硬盤、延長用戶搜素時(shí)間權(quán)重:原創(chuàng) 轉(zhuǎn)載 鏡像(幾乎完全被忽略)轉(zhuǎn)載頁面比較多個(gè)被劃分為 N個(gè)區(qū)域頁面的M個(gè)區(qū)域。若MA (某閥值),則互為轉(zhuǎn)載。 通過比較最后修改時(shí)間、頁面權(quán)重等因素判斷哪個(gè)是原創(chuàng)。鏡像頁面比較多個(gè)被劃分為 N 個(gè)區(qū)域的頁面,若 N 個(gè)區(qū)域內(nèi)容完全一樣,則認(rèn)為這些頁面互為鏡像 頁面。判斷原創(chuàng)如轉(zhuǎn)載一樣。鏡像網(wǎng)站狹義的鏡像網(wǎng)站是指內(nèi)容完全相同的網(wǎng)站。形成原因:1、多個(gè)域名或IP指向同一服務(wù)器的同一個(gè)物理目錄;2、整個(gè)網(wǎng)站內(nèi)容被復(fù)制到使用不同域名或IP的服務(wù)器上。識(shí)別源網(wǎng)站是通過判斷這些網(wǎng)

3、站的首頁以及首頁直接鏈接的頁面是否互為鏡像頁面。 綜合多項(xiàng)因素(如網(wǎng)站權(quán)重值、建立時(shí)間等)識(shí)別。鏡像網(wǎng)站只收錄極少頁面,甚至不收錄頁面。頁面維護(hù)方式為讓搜索引擎適應(yīng)網(wǎng)站的不斷變化和缺錄。定期抓取周期性針對全部已收錄頁面進(jìn)行維護(hù)。頁面權(quán)重的再分配也是與頁面維護(hù)同步進(jìn)行。適用于頁面較少,內(nèi)容更新慢的網(wǎng)站。缺點(diǎn):由于維護(hù)周期長,是的不能及時(shí)向用戶反映更新期間頁面的變化情況。增量抓取對已抓取的頁面進(jìn)行定時(shí)監(jiān)控,實(shí)現(xiàn)對頁面的更新及維護(hù)。(不現(xiàn)實(shí))基于80/20法則,搜索引擎只針對某些重要頁面網(wǎng)站中部分重要頁面進(jìn)行定時(shí)監(jiān)控,即可獲取網(wǎng)站中相對重要的信息。優(yōu)點(diǎn):對重要頁面的內(nèi)容更新會(huì)及時(shí)發(fā)現(xiàn)新內(nèi)容、新鏈接、

4、并刪除不存在的信息。分類定位抓取根據(jù)頁面的類別或性質(zhì)而制定相應(yīng)更新周期的頁面監(jiān)控方式。新聞資訊周期小于資源下載的周期。大型門戶網(wǎng)站內(nèi)容更新速度比小型快。優(yōu)點(diǎn):大大提高頁面抓取的靈活性和實(shí)時(shí)性。補(bǔ)充:各種抓取方式組合抓取頁面。頁面存儲(chǔ)搜索引擎能否在抓取頁面的過程中獲取到更多有價(jià)值的信息會(huì)直接影響搜索引擎的工作效率及排序結(jié)果的質(zhì)量。所以搜索引擎除了存儲(chǔ)原始頁面外,還會(huì)附加一系列的信息(如文件類型、文件大小、最后修改時(shí)間、rul、ip地址、抓取時(shí)間等),再把這些作為開展某項(xiàng)工作的依據(jù)。網(wǎng)頁分析對原始頁面進(jìn)行一系列的分析、處理,以迎合用戶信息查詢的習(xí)慣。建立關(guān)鍵字索引與反向索引,分配權(quán)值。如陽卜7聽示

5、.獨(dú)索引華汗先燉存蘭的原苗頁面建上嘯引再過淸煉始帕頁的彌竇信息*從 中提取出網(wǎng)蟲中的iE文內(nèi)機(jī)然后.對呷姑幽仙ifcn#餐立關(guān)煉字鑽引,霍到蟲商與關(guān) 鏈字聞的時(shí)應(yīng)關(guān)果:后對僑關(guān)1學(xué)HE杼輪;就而IE立關(guān)字勾頁面閶的對應(yīng)關(guān)系網(wǎng)頁索引為提高頁面檢索的效率,而對頁面url建立索引。網(wǎng)頁分析朝貞分析是整個(gè)網(wǎng)弱處理中杲岷藝的環(huán)節(jié)*電括了網(wǎng)頁正丈宿息的提取、也詞、堡立關(guān)犍字 蕭引列我及只證字更組兒亍帀懾的步Uh對應(yīng)裳個(gè)原姒頁而的關(guān)系,即帑成了與用戶傳詢習(xí)預(yù)相符合的償息第形正文信息提取過濾非正文信息(HTML標(biāo)簽、JS標(biāo)簽、PHP標(biāo)簽)。分詞/切詞通過對過濾出的正文內(nèi)容進(jìn)行切分(該行為就是分詞/切詞),從而

6、形成與用戶查詢條件相匹配的以關(guān)鍵字為單位的信息列表。分詞算法:1、字符串匹配分詞2、統(tǒng)計(jì)分詞。3、關(guān)鍵字索引。記錄了該關(guān)鍵字所在的網(wǎng)頁編號(hào)、關(guān)鍵字編號(hào)、關(guān)鍵字出現(xiàn)次 數(shù)以及關(guān)鍵字在文檔中的位置信息。«2-1婁磴字列炭其字1握關(guān)字A B!値 111KIJAL A5+ A721K2hftpiflwiw jimiBC'Qii"丁陽A91貼JAL M3. A1041K4JA2例如.迥剝中的關(guān)f釁劃在頁91屮出現(xiàn)3次燉應(yīng)皿面的A】、A5、A7慣域,MU4HM4、關(guān)鍵字重組。建立以關(guān)鍵字對應(yīng)多個(gè)網(wǎng)頁的方向索引。頁面排序頁面相關(guān)性頁面柑戔惟圧指頁哪內(nèi)簾打用戶所件洶的關(guān)德字的接近楓

7、 F嗨由黃械字匹配度”黃鈕字 懈度、關(guān)龍字分布及關(guān)鍵字的權(quán)重標(biāo)簽零決定1、關(guān)鍵字匹配度關(guān)纜字匹配度旻捷字匹配虞足指如河p中的內(nèi)容與用戶所提交的X97KM的匹配程度k哩也兩個(gè)因柔 抉定=頁面P中足占存在與竹詢羌鍵字瓷堆1匹配的內(nèi)畀* Wlft lft內(nèi)雅中足否包舎先掘字K關(guān)aiKft頁面卩中ih現(xiàn)了事少伙.即頁面卩中有賞少個(gè)關(guān)儻字K*為了計(jì)彝關(guān)憾字匹配度r H!索引華為澤個(gè)頁面分配”牛關(guān)豐字匹££.該值由關(guān)昆字也廿川】 中出現(xiàn)的次數(shù)決定.假WXXttT在貝囪中出現(xiàn) *.關(guān)鍵字匹配値為1S那么,如果菓 關(guān)猊 字在頁面中出理10次則關(guān)檯字匹配31=10*10缺點(diǎn):易被網(wǎng)站所有者操

8、控。還需要結(jié)合關(guān)鍵字密度、關(guān)鍵字分布及關(guān)鍵字的權(quán)重標(biāo)簽 等多方面來決定。2、關(guān)鍵字密度關(guān)鍵字密度是關(guān)鍵字詞頻與網(wǎng)頁總詞量的比例。不同密度對應(yīng)不同密度值。們設(shè)!K而申某舅儲(chǔ)字的瞎桂為50%.該皿而的關(guān)世字簾度值2九舸如.在內(nèi)cmiKorJer battery的頁面中* ouncordcr的關(guān)tt字密度號(hào)亠呂:材該關(guān)慎字.諸貞面的關(guān)鍵幵度值就冬 20.3、關(guān)鍵字分布依據(jù)關(guān)鍵字位置對應(yīng)不同的分布值。4、關(guān)鍵字的權(quán)重標(biāo)簽在網(wǎng)庫中*網(wǎng)貞制作看利用不同的HTML標(biāo)零便頁面中相關(guān)的內(nèi)容實(shí)現(xiàn)不同的視覚效果f如 字怵的樣式、字吁、頓色答h靈活地運(yùn)用X種1汀ML標(biāo)簽還仃助于提簡貢而ffiXtt o鏈接權(quán)重入度與出度,及其權(quán)值分配。1、內(nèi)部鏈接2、外部鏈接3、默認(rèn)權(quán)重分配用戶行為點(diǎn)擊率關(guān)鍵字查詢在計(jì)算完所有頁面的權(quán)帀丁二攫斎引肇就可以向用戶提伏信息存詢啟務(wù)搜聿引皐齋詢功能 的實(shí)現(xiàn)非常廈雜,用戶對返回結(jié)景的時(shí)IW*也菲常高I帶是秒級).裂衣這么対的時(shí)制內(nèi)進(jìn) 擰這么復(fù)雜的計(jì)算是不現(xiàn)實(shí)的.所以1 Mt引的機(jī)制處理*白用八的件詢匚 主嬰包括j在用戶笈出IHHftMllt克成就晝詢關(guān)慷于的反向寮引畫黠畫更需匝訃祁彎匸作j為那庇箕詢最頻儀的關(guān)鍵字対昵的捉面拮洋列我建證緩"""用札Xtt?的反向囊引.頁面權(quán)礦幷配箱工作已鋰戀術(shù)血進(jìn)荷了詳如的說朗揍*來向 讀若介紹搜索引莘如何建立信忌會(huì)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論