![認識神秘搜索引擎_第1頁](http://file3.renrendoc.com/fileroot_temp3/2022-1/12/85553737-13ee-4c68-91aa-be49a8cc7fa8/85553737-13ee-4c68-91aa-be49a8cc7fa81.gif)
![認識神秘搜索引擎_第2頁](http://file3.renrendoc.com/fileroot_temp3/2022-1/12/85553737-13ee-4c68-91aa-be49a8cc7fa8/85553737-13ee-4c68-91aa-be49a8cc7fa82.gif)
![認識神秘搜索引擎_第3頁](http://file3.renrendoc.com/fileroot_temp3/2022-1/12/85553737-13ee-4c68-91aa-be49a8cc7fa8/85553737-13ee-4c68-91aa-be49a8cc7fa83.gif)
![認識神秘搜索引擎_第4頁](http://file3.renrendoc.com/fileroot_temp3/2022-1/12/85553737-13ee-4c68-91aa-be49a8cc7fa8/85553737-13ee-4c68-91aa-be49a8cc7fa84.gif)
![認識神秘搜索引擎_第5頁](http://file3.renrendoc.com/fileroot_temp3/2022-1/12/85553737-13ee-4c68-91aa-be49a8cc7fa8/85553737-13ee-4c68-91aa-be49a8cc7fa85.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、 搜索引擎優(yōu)化搜索引擎優(yōu)化Search Engine Optimization 主講:狄冬豐 任務(wù)任務(wù)1-1 認識神秘搜索引擎認識神秘搜索引擎搜索引擎發(fā)展簡史1990年,加拿大麥吉爾大學的Alan Emtage等開發(fā)出Archie,這是所有搜索引擎的鼻祖1993年,內(nèi)華達州高教系統(tǒng)能檢索文件和網(wǎng)頁的搜索工具1993年,Excite(2002年被InfoSpace收購),對字詞關(guān)系進行分析1994年,Lycos,除了相關(guān)性排序外,Lycos還提供了前綴匹配等功能,Lycos第一個在搜索結(jié)果中使用了網(wǎng)頁自動摘要1994年,Infoseek,以友善的界面和附加服務(wù)著稱。95年和netscape達成合
2、作,在netscape瀏覽器中嵌入其搜索()1994年,Yahoo誕生搜索引擎發(fā)展簡史1995年,元搜索引擎(Meta Search Engine)出現(xiàn)。這種搜索引擎本身并沒有相關(guān)的搜索能力,只是將搜索需求提交給其他的搜索引擎并返回集合的結(jié)果華盛頓大學學生發(fā)明的Metacrawler1995年,DEC公司AltaVista誕生。它是第一個支持自然語言搜索的搜索引擎,AltaVista是第一個實現(xiàn)高級搜索語法的搜索引擎(如AND,OR,NOT等)1995年,HotBot誕生。1996年Inktomi公司成立,負責Hotbot的商業(yè)化運作。它聲稱每天能抓取索引1千萬頁以上,所以有遠超過其它搜索引擎
3、的新內(nèi)容。HotBot也大量運用cookie儲存用戶的個人搜索喜好設(shè)置搜索引擎發(fā)展簡史1995年,Larry Page開始學習搜索引擎技術(shù)1997年,注冊域名1997年底,Larry Page、Sergey Brin等開始提供google的前身BackRub的Demo1999年2月,Google完成了從Alpha到Beta版本的轉(zhuǎn)換Google在PageRank、動態(tài)摘要、網(wǎng)頁快照、DailyRefresh、多文檔格式支持、地圖股票詞典尋人等集成搜索、多語言支持、用戶界面等功能上的革新,象Altavista一樣,再一次永遠改變了搜索引擎的定義。2000年中Google數(shù)據(jù)庫進行了升級,并被Ya
4、hoo選作搜索引擎搜索引擎發(fā)展簡史2000年1月,超鏈分析專利發(fā)明人、前Infoseek資深工程師李彥宏與好友徐勇(加州伯克利分校博士)在北京中關(guān)村創(chuàng)立了百度(Baidu)公司。2001年8月發(fā)布B搜索引擎Beta版2001年10月22日正式發(fā)布Baidu搜索引擎搜索引擎發(fā)展簡史1997年7月,微軟與Inktomi簽訂協(xié)議,由后者為微軟的 MSN搜索引擎提供技術(shù)支持2005年1月,Google成為搜索市場的領(lǐng)頭羊,微軟也完成了自己搜索引擎的開發(fā),并推出了全新的MSN搜索,網(wǎng)址為“”2006年3月,微軟推出了 “Windows Live搜索”,地址為“”。微軟隨后在搜索引擎中拋棄了Windows
5、的品牌,將搜索引擎直接稱為“Live搜索”2009年,微軟發(fā)布新的搜索引擎品牌:Bing(必應(yīng))搜索引擎分類全文搜索引擎代表:Google、Yahoo、Bing、Baidu從互聯(lián)網(wǎng)上提取各網(wǎng)站的信息建立數(shù)據(jù)庫,再從這個數(shù)據(jù)庫中檢索與用戶查詢條件匹配的相關(guān)記錄,然后按一定的排列順序?qū)⒔Y(jié)果返回給用戶,因此他們是真正的搜索引擎。目錄搜索引擎代表:DMOZ,早期的Yahoo其實質(zhì)是按目錄分類的網(wǎng)站鏈接列表,并非真正的搜索引擎搜索引擎分類元搜索引擎代表:Dogpile、Xisoso、Vivisimo等在接受用戶查詢的時候,會同時在多個搜索引擎上進行搜索,并將結(jié)果返回給用戶搜索引擎工作原理 搜索引擎工作主
6、要分為:頁面抓取頁面分析建立索引頁面排序搜索引擎工作原理-抓取頁面 這個工作主要由叫做“機器人(robot)”、“爬蟲(crawler)”或者“蜘蛛(spider)”的程序,根據(jù)一定規(guī)則掃描存在于互聯(lián)網(wǎng)上的網(wǎng)站,并沿著網(wǎng)頁上的鏈接從一個網(wǎng)頁到另一個網(wǎng)頁,從一個網(wǎng)站到另一個網(wǎng)站。 為保證采集的資料最新,它還會回訪已抓取過的網(wǎng)頁。 這個工作是搜索引擎所有工作的基礎(chǔ)搜索引擎工作原理-頁面收錄原理URL列表列表抓取頁面抓取頁面提取提取URL存儲原始頁面存儲原始頁面搜索引擎工作原理-用戶提交 搜索引擎還允許用戶自己提交網(wǎng)站(一般只需要提交首頁或者網(wǎng)站域名即可)Google:http:/ 搜索引擎在存儲原
7、始頁面時,不單只存儲原始頁面,還會存儲其他的附加信息,例如:文件類型、文件大小、最后修改時間、URL、IP地址、抓取時間等搜索引擎工作原理-頁面分析 對頁面內(nèi)容進行分析,提取相關(guān)網(wǎng)頁信息(包括網(wǎng)頁所在URL、編碼類型、頁面內(nèi)容包含的所有關(guān)鍵詞、關(guān)鍵詞位置、生成時間、大小、與其它網(wǎng)頁的鏈接關(guān)系等) 對頁面正文內(nèi)容進行“切詞”,為這些詞建立索引,得到頁面和關(guān)鍵字之間的對應(yīng)關(guān)系搜索引擎工作原理-網(wǎng)頁分析 網(wǎng)頁分析主要包括:正文信息提?。褐饕菍撕灪妥⑨尩刃畔⒌倪^濾切詞/分詞:對頁面內(nèi)容進行切分,形成與用戶查詢條件相匹配的關(guān)鍵字為單位的信息列表 匹配分詞:和預(yù)設(shè)的海量詞匯的“辭典”中的詞比較,如果有
8、匹配的詞,則為命中 統(tǒng)計分詞:根據(jù)相鄰的2個或者多個字(詞)出現(xiàn)的概率判斷這2個字(詞)是否會形成一個詞。搜索引擎工作原理-建立索引 關(guān)鍵字索引:在切詞處理后,形成了關(guān)鍵字列表。關(guān)鍵字列表的每條記錄包含:關(guān)鍵字、關(guān)鍵字編號、出現(xiàn)次數(shù)、在網(wǎng)頁中的位置信息等。 根據(jù)一定的相關(guān)度算法進行大量復(fù)雜計算,得到每一個網(wǎng)頁針對頁面文字中及超鏈中每一個關(guān)鍵詞的相關(guān)度(或重要性),然后用這些相關(guān)信息建立網(wǎng)頁索引數(shù)據(jù)庫 對抓取回來的網(wǎng)頁建立索引,以實現(xiàn)對頁面的快速定位;搜索引擎工作原理-建立索引搜索引擎工作原理-頁面排序 用戶在搜索引擎中輸入查詢條件后,搜索引擎就在數(shù)據(jù)庫中檢索相關(guān)的信息,并將檢索結(jié)果返回給用戶
9、搜索引擎在往用戶端返回數(shù)據(jù)的時候,并不是隨機的,而是按照一定的計算方法進行排序的 涉及到排序的因素主要有:頁面相關(guān)性頁面相關(guān)性鏈接權(quán)重鏈接權(quán)重用戶行為用戶行為搜索引擎工作原理-頁面排序 結(jié)合頁面的內(nèi)外因素,計算出頁面與某個關(guān)鍵字的相關(guān)程度,從而得到與該關(guān)鍵字相關(guān)的頁面索引列表頁面排序-頁面相關(guān)性 頁面相關(guān)性通過對檢索結(jié)果進行相關(guān)性排序,搜索引擎的最終目的是將最相關(guān)的網(wǎng)絡(luò)信息盡可能地優(yōu)先顯示在搜索結(jié)果的前面部分,以改進搜索結(jié)果的輸出。雖然各個搜索引擎中相關(guān)度排序的具體實現(xiàn)各不相同,但基本上都采用了基于網(wǎng)站內(nèi)容的分析方法,即考慮用戶所查詢的關(guān)鍵詞在文檔網(wǎng)頁中的出現(xiàn)情況,包括關(guān)鍵字匹配度、關(guān)鍵詞密度
10、、關(guān)鍵詞位置、關(guān)鍵字的關(guān)鍵字匹配度、關(guān)鍵詞密度、關(guān)鍵詞位置、關(guān)鍵字的權(quán)重標簽權(quán)重標簽等因素。頁面相關(guān)性關(guān)鍵字匹配度關(guān)鍵字匹配度:是指網(wǎng)頁中的內(nèi)容與用戶所查詢的關(guān)鍵字之間的匹配程度,主要是2個因素: 頁面中是否包含關(guān)鍵字 關(guān)鍵字在頁面中出現(xiàn)的次數(shù)關(guān)鍵字密度關(guān)鍵字密度: 關(guān)鍵字出現(xiàn)的次數(shù)與該網(wǎng)頁總詞匯量的比例頁面相關(guān)性關(guān)鍵字分布關(guān)鍵字分布: 關(guān)鍵字在網(wǎng)頁中出現(xiàn)的位置 關(guān)鍵字在網(wǎng)頁中出現(xiàn)的位置會影響到關(guān)鍵字的分布值關(guān)鍵字的權(quán)重標簽關(guān)鍵字的權(quán)重標簽 關(guān)鍵字是否使用了HTML標簽實現(xiàn)了不同的視覺效果(如加粗、顏色變換等)頁面相關(guān)性計算公式: R(relevance)=M(match)+D(density)+P(position)+T(html Tag)鏈接 頁面之間的超鏈接反映了頁面之間的引用關(guān)系,頁面被其他站點或其他網(wǎng)頁
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 人教版數(shù)學七年級下冊第41課時《用加減法解二元一次方程組(三)》聽評課記錄
- 湘教版數(shù)學八年級上冊2.5《第6課時 全等三角形的性質(zhì)和判定的應(yīng)用》聽評課記錄1
- 聽評課記錄英語九年級
- 人教版(廣西版)九年級數(shù)學上冊聽評課記錄21.2 解一元二次方程
- 生態(tài)自然保護游合同
- 狂犬疫苗打完免責協(xié)議書(2篇)
- 蘇科版數(shù)學八年級下冊《10.2 分式的基本性質(zhì)》聽評課記錄
- 部編版道德與法治七年級上冊第三單元第七課《親情之愛第三框讓家更美好》聽課評課記錄
- 【2022年新課標】部編版七年級上冊道德與法治第三單元師長情誼6-7課共5課時聽課評課記錄
- 五年級數(shù)學上冊蘇教版《認識平方千米》聽評課記錄
- 2025年個人學習領(lǐng)導講話心得體會和工作措施例文(6篇)
- 2025大連機場招聘109人易考易錯模擬試題(共500題)試卷后附參考答案
- 2020-2025年中國中小企業(yè)行業(yè)市場調(diào)研分析及投資戰(zhàn)略咨詢報告
- 2025-2030年中國電動高爾夫球車市場運行狀況及未來發(fā)展趨勢分析報告
- 物流中心原材料入庫流程
- 河南省濮陽市2024-2025學年高一上學期1月期末考試語文試題(含答案)
- 長沙市2025屆中考生物押題試卷含解析
- 2024年08月北京中信銀行北京分行社會招考(826)筆試歷年參考題庫附帶答案詳解
- 2024年芽苗菜市場調(diào)查報告
- 蘇教版二年級數(shù)學下冊全冊教學設(shè)計
- 職業(yè)技術(shù)學院教學質(zhì)量監(jiān)控與評估處2025年教學質(zhì)量監(jiān)控督導工作計劃
評論
0/150
提交評論