版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、 搜索引擎優(yōu)化搜索引擎優(yōu)化Search Engine Optimization 主講:狄冬豐 任務(wù)任務(wù)1-1 認(rèn)識神秘搜索引擎認(rèn)識神秘搜索引擎搜索引擎發(fā)展簡史1990年,加拿大麥吉爾大學(xué)的Alan Emtage等開發(fā)出Archie,這是所有搜索引擎的鼻祖1993年,內(nèi)華達(dá)州高教系統(tǒng)能檢索文件和網(wǎng)頁的搜索工具1993年,Excite(2002年被InfoSpace收購),對字詞關(guān)系進(jìn)行分析1994年,Lycos,除了相關(guān)性排序外,Lycos還提供了前綴匹配等功能,Lycos第一個(gè)在搜索結(jié)果中使用了網(wǎng)頁自動摘要1994年,Infoseek,以友善的界面和附加服務(wù)著稱。95年和netscape達(dá)成合
2、作,在netscape瀏覽器中嵌入其搜索()1994年,Yahoo誕生搜索引擎發(fā)展簡史1995年,元搜索引擎(Meta Search Engine)出現(xiàn)。這種搜索引擎本身并沒有相關(guān)的搜索能力,只是將搜索需求提交給其他的搜索引擎并返回集合的結(jié)果華盛頓大學(xué)學(xué)生發(fā)明的Metacrawler1995年,DEC公司AltaVista誕生。它是第一個(gè)支持自然語言搜索的搜索引擎,AltaVista是第一個(gè)實(shí)現(xiàn)高級搜索語法的搜索引擎(如AND,OR,NOT等)1995年,HotBot誕生。1996年Inktomi公司成立,負(fù)責(zé)Hotbot的商業(yè)化運(yùn)作。它聲稱每天能抓取索引1千萬頁以上,所以有遠(yuǎn)超過其它搜索引擎
3、的新內(nèi)容。HotBot也大量運(yùn)用cookie儲存用戶的個(gè)人搜索喜好設(shè)置搜索引擎發(fā)展簡史1995年,Larry Page開始學(xué)習(xí)搜索引擎技術(shù)1997年,注冊域名1997年底,Larry Page、Sergey Brin等開始提供google的前身BackRub的Demo1999年2月,Google完成了從Alpha到Beta版本的轉(zhuǎn)換Google在PageRank、動態(tài)摘要、網(wǎng)頁快照、DailyRefresh、多文檔格式支持、地圖股票詞典尋人等集成搜索、多語言支持、用戶界面等功能上的革新,象Altavista一樣,再一次永遠(yuǎn)改變了搜索引擎的定義。2000年中Google數(shù)據(jù)庫進(jìn)行了升級,并被Ya
4、hoo選作搜索引擎搜索引擎發(fā)展簡史2000年1月,超鏈分析專利發(fā)明人、前Infoseek資深工程師李彥宏與好友徐勇(加州伯克利分校博士)在北京中關(guān)村創(chuàng)立了百度(Baidu)公司。2001年8月發(fā)布B搜索引擎Beta版2001年10月22日正式發(fā)布Baidu搜索引擎搜索引擎發(fā)展簡史1997年7月,微軟與Inktomi簽訂協(xié)議,由后者為微軟的 MSN搜索引擎提供技術(shù)支持2005年1月,Google成為搜索市場的領(lǐng)頭羊,微軟也完成了自己搜索引擎的開發(fā),并推出了全新的MSN搜索,網(wǎng)址為“”2006年3月,微軟推出了 “Windows Live搜索”,地址為“”。微軟隨后在搜索引擎中拋棄了Windows
5、的品牌,將搜索引擎直接稱為“Live搜索”2009年,微軟發(fā)布新的搜索引擎品牌:Bing(必應(yīng))搜索引擎分類全文搜索引擎代表:Google、Yahoo、Bing、Baidu從互聯(lián)網(wǎng)上提取各網(wǎng)站的信息建立數(shù)據(jù)庫,再從這個(gè)數(shù)據(jù)庫中檢索與用戶查詢條件匹配的相關(guān)記錄,然后按一定的排列順序?qū)⒔Y(jié)果返回給用戶,因此他們是真正的搜索引擎。目錄搜索引擎代表:DMOZ,早期的Yahoo其實(shí)質(zhì)是按目錄分類的網(wǎng)站鏈接列表,并非真正的搜索引擎搜索引擎分類元搜索引擎代表:Dogpile、Xisoso、Vivisimo等在接受用戶查詢的時(shí)候,會同時(shí)在多個(gè)搜索引擎上進(jìn)行搜索,并將結(jié)果返回給用戶搜索引擎工作原理 搜索引擎工作主
6、要分為:頁面抓取頁面分析建立索引頁面排序搜索引擎工作原理-抓取頁面 這個(gè)工作主要由叫做“機(jī)器人(robot)”、“爬蟲(crawler)”或者“蜘蛛(spider)”的程序,根據(jù)一定規(guī)則掃描存在于互聯(lián)網(wǎng)上的網(wǎng)站,并沿著網(wǎng)頁上的鏈接從一個(gè)網(wǎng)頁到另一個(gè)網(wǎng)頁,從一個(gè)網(wǎng)站到另一個(gè)網(wǎng)站。 為保證采集的資料最新,它還會回訪已抓取過的網(wǎng)頁。 這個(gè)工作是搜索引擎所有工作的基礎(chǔ)搜索引擎工作原理-頁面收錄原理URL列表列表抓取頁面抓取頁面提取提取URL存儲原始頁面存儲原始頁面搜索引擎工作原理-用戶提交 搜索引擎還允許用戶自己提交網(wǎng)站(一般只需要提交首頁或者網(wǎng)站域名即可)Google:http:/ 搜索引擎在存儲原
7、始頁面時(shí),不單只存儲原始頁面,還會存儲其他的附加信息,例如:文件類型、文件大小、最后修改時(shí)間、URL、IP地址、抓取時(shí)間等搜索引擎工作原理-頁面分析 對頁面內(nèi)容進(jìn)行分析,提取相關(guān)網(wǎng)頁信息(包括網(wǎng)頁所在URL、編碼類型、頁面內(nèi)容包含的所有關(guān)鍵詞、關(guān)鍵詞位置、生成時(shí)間、大小、與其它網(wǎng)頁的鏈接關(guān)系等) 對頁面正文內(nèi)容進(jìn)行“切詞”,為這些詞建立索引,得到頁面和關(guān)鍵字之間的對應(yīng)關(guān)系搜索引擎工作原理-網(wǎng)頁分析 網(wǎng)頁分析主要包括:正文信息提?。褐饕菍?biāo)簽和注釋等信息的過濾切詞/分詞:對頁面內(nèi)容進(jìn)行切分,形成與用戶查詢條件相匹配的關(guān)鍵字為單位的信息列表 匹配分詞:和預(yù)設(shè)的海量詞匯的“辭典”中的詞比較,如果有
8、匹配的詞,則為命中 統(tǒng)計(jì)分詞:根據(jù)相鄰的2個(gè)或者多個(gè)字(詞)出現(xiàn)的概率判斷這2個(gè)字(詞)是否會形成一個(gè)詞。搜索引擎工作原理-建立索引 關(guān)鍵字索引:在切詞處理后,形成了關(guān)鍵字列表。關(guān)鍵字列表的每條記錄包含:關(guān)鍵字、關(guān)鍵字編號、出現(xiàn)次數(shù)、在網(wǎng)頁中的位置信息等。 根據(jù)一定的相關(guān)度算法進(jìn)行大量復(fù)雜計(jì)算,得到每一個(gè)網(wǎng)頁針對頁面文字中及超鏈中每一個(gè)關(guān)鍵詞的相關(guān)度(或重要性),然后用這些相關(guān)信息建立網(wǎng)頁索引數(shù)據(jù)庫 對抓取回來的網(wǎng)頁建立索引,以實(shí)現(xiàn)對頁面的快速定位;搜索引擎工作原理-建立索引搜索引擎工作原理-頁面排序 用戶在搜索引擎中輸入查詢條件后,搜索引擎就在數(shù)據(jù)庫中檢索相關(guān)的信息,并將檢索結(jié)果返回給用戶
9、搜索引擎在往用戶端返回?cái)?shù)據(jù)的時(shí)候,并不是隨機(jī)的,而是按照一定的計(jì)算方法進(jìn)行排序的 涉及到排序的因素主要有:頁面相關(guān)性頁面相關(guān)性鏈接權(quán)重鏈接權(quán)重用戶行為用戶行為搜索引擎工作原理-頁面排序 結(jié)合頁面的內(nèi)外因素,計(jì)算出頁面與某個(gè)關(guān)鍵字的相關(guān)程度,從而得到與該關(guān)鍵字相關(guān)的頁面索引列表頁面排序-頁面相關(guān)性 頁面相關(guān)性通過對檢索結(jié)果進(jìn)行相關(guān)性排序,搜索引擎的最終目的是將最相關(guān)的網(wǎng)絡(luò)信息盡可能地優(yōu)先顯示在搜索結(jié)果的前面部分,以改進(jìn)搜索結(jié)果的輸出。雖然各個(gè)搜索引擎中相關(guān)度排序的具體實(shí)現(xiàn)各不相同,但基本上都采用了基于網(wǎng)站內(nèi)容的分析方法,即考慮用戶所查詢的關(guān)鍵詞在文檔網(wǎng)頁中的出現(xiàn)情況,包括關(guān)鍵字匹配度、關(guān)鍵詞密度
10、、關(guān)鍵詞位置、關(guān)鍵字的關(guān)鍵字匹配度、關(guān)鍵詞密度、關(guān)鍵詞位置、關(guān)鍵字的權(quán)重標(biāo)簽權(quán)重標(biāo)簽等因素。頁面相關(guān)性關(guān)鍵字匹配度關(guān)鍵字匹配度:是指網(wǎng)頁中的內(nèi)容與用戶所查詢的關(guān)鍵字之間的匹配程度,主要是2個(gè)因素: 頁面中是否包含關(guān)鍵字 關(guān)鍵字在頁面中出現(xiàn)的次數(shù)關(guān)鍵字密度關(guān)鍵字密度: 關(guān)鍵字出現(xiàn)的次數(shù)與該網(wǎng)頁總詞匯量的比例頁面相關(guān)性關(guān)鍵字分布關(guān)鍵字分布: 關(guān)鍵字在網(wǎng)頁中出現(xiàn)的位置 關(guān)鍵字在網(wǎng)頁中出現(xiàn)的位置會影響到關(guān)鍵字的分布值關(guān)鍵字的權(quán)重標(biāo)簽關(guān)鍵字的權(quán)重標(biāo)簽 關(guān)鍵字是否使用了HTML標(biāo)簽實(shí)現(xiàn)了不同的視覺效果(如加粗、顏色變換等)頁面相關(guān)性計(jì)算公式: R(relevance)=M(match)+D(density)+P(position)+T(html Tag)鏈接 頁面之間的超鏈接反映了頁面之間的引用關(guān)系,頁面被其他站點(diǎn)或其他網(wǎng)頁
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025標(biāo)準(zhǔn)的攝影作品使用許可合同
- 二零二五年度凈水器綠色環(huán)保認(rèn)證采購合同
- 2025年度文化產(chǎn)業(yè)分紅合作協(xié)議范本(含IP授權(quán))3篇
- 2025年度公司設(shè)立前股東合作協(xié)議書(含知識產(chǎn)權(quán)保護(hù))3篇
- 2025年度公司股東間應(yīng)急事件處理合作協(xié)議書3篇
- 2025年度農(nóng)產(chǎn)品電商平臺農(nóng)產(chǎn)品物流配送優(yōu)化合同版3篇
- 2025年度農(nóng)機(jī)租賃與農(nóng)業(yè)科研合作開發(fā)合同3篇
- 二零二五年度農(nóng)村宅基地租賃及土地流轉(zhuǎn)服務(wù)協(xié)議
- 2025年度農(nóng)產(chǎn)品深加工項(xiàng)目原料供應(yīng)合同版3篇
- 二零二五年度婚慶服務(wù)市場區(qū)域保護(hù)競業(yè)禁止合同2篇
- 國外幼兒園自主游戲研究現(xiàn)狀
- 浙江大學(xué)2011–2012學(xué)年冬季學(xué)期《高級數(shù)據(jù)結(jié)構(gòu)與算法分析》課程期末考試試卷
- 職業(yè)生涯規(guī)劃-體驗(yàn)式學(xué)習(xí)智慧樹知到期末考試答案章節(jié)答案2024年華僑大學(xué)
- 手術(shù)保護(hù)性約束
- AQ4230-2013 糧食平房倉粉塵防爆安全規(guī)范
- (正式版)JBT 10437-2024 電線電纜用可交聯(lián)聚乙烯絕緣料
- 建筑節(jié)能與綠色建筑監(jiān)理細(xì)則
- 2024法務(wù)部門合規(guī)風(fēng)險(xiǎn)管理實(shí)踐模板
- 學(xué)??蒲刑幪庨L述職報(bào)告范文
- 護(hù)理文書書寫規(guī)范
- 2023-2024學(xué)年安徽省阜陽市臨泉縣八年級(上)期末數(shù)學(xué)試卷(含解析)
評論
0/150
提交評論