




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第1章 搜索引擎概述主要內(nèi)容1.1 搜索引擎的概念搜索引擎的概念1.2 搜索引擎的發(fā)展史搜索引擎的發(fā)展史1.3 搜索引擎的分類(lèi)搜索引擎的分類(lèi)1.4 搜索引擎的信息檢索模型搜索引擎的信息檢索模型1.5 建立搜索引擎的關(guān)鍵技術(shù)建立搜索引擎的關(guān)鍵技術(shù)1.6中文搜索引擎的發(fā)展趨勢(shì)中文搜索引擎的發(fā)展趨勢(shì)1.1 1.1 搜索引擎的概念搜索引擎的概念基本知識(shí)搜索引擎并不真正搜索互聯(lián)網(wǎng),它搜索的實(shí)際上是預(yù)先整理好的網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)。真正意義上的搜索引擎,通常指的是收集了Internet上幾千萬(wàn)到幾十億個(gè)網(wǎng)頁(yè)并對(duì)網(wǎng)頁(yè)中的每一個(gè)詞(即關(guān)鍵詞)進(jìn)行索引,建立索引數(shù)據(jù)庫(kù)的全文搜索引擎。當(dāng)用戶(hù)查找某個(gè)關(guān)鍵詞的時(shí)候,所有在
2、頁(yè)面內(nèi)容中包含了該關(guān)鍵詞的網(wǎng)頁(yè)都將作為搜索結(jié)果被搜出來(lái)。 搜索引擎的原理 可以分為四步:從互聯(lián)網(wǎng)上抓取網(wǎng)頁(yè)、建立索引數(shù)據(jù)庫(kù)、在索引數(shù)據(jù)庫(kù)中搜索排序、對(duì)搜索結(jié)果進(jìn)行處理和排序。從互聯(lián)網(wǎng)上抓取網(wǎng)頁(yè)利用能夠從互聯(lián)網(wǎng)上自動(dòng)收集網(wǎng)頁(yè)的Spider系統(tǒng)程序,自動(dòng)訪問(wèn)互聯(lián)網(wǎng),并沿著任何網(wǎng)頁(yè)中的所有URL爬到其它網(wǎng)頁(yè),重復(fù)這過(guò)程,并把爬過(guò)的所有網(wǎng)頁(yè)收集回來(lái)。搜索引擎的原理建立索引數(shù)據(jù)庫(kù)由分析索引系統(tǒng)程序?qū)κ占貋?lái)的網(wǎng)頁(yè)進(jìn)行分析,提取相關(guān)網(wǎng)頁(yè)信息(包括網(wǎng)頁(yè)所在URL、編碼類(lèi)型、頁(yè)面內(nèi)容包含的關(guān)鍵詞、關(guān)鍵詞位置、生成時(shí)間、大小、與其它網(wǎng)頁(yè)的鏈接關(guān)系等),根據(jù)一定的相關(guān)度算法進(jìn)行大量復(fù)雜計(jì)算,得到每一個(gè)網(wǎng)頁(yè)針對(duì)頁(yè)面
3、內(nèi)容中及超鏈中每一個(gè)關(guān)鍵詞的相關(guān)度(或重要性),然后用這些相關(guān)信息建立網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)。搜索引擎的原理在索引數(shù)據(jù)庫(kù)中搜索排序當(dāng)用戶(hù)輸入關(guān)鍵詞搜索后,由搜索系統(tǒng)程序從網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁(yè)。因?yàn)樗邢嚓P(guān)網(wǎng)頁(yè)針對(duì)該關(guān)鍵詞的相關(guān)度早已計(jì)算好,所以只需按照現(xiàn)成的相關(guān)度數(shù)值排序,相關(guān)度越高,排名越靠前。最后,由頁(yè)面生成系統(tǒng)將搜索結(jié)果的鏈接地址和頁(yè)面內(nèi)容摘要等內(nèi)容組織起來(lái)返回給用戶(hù)。搜索引擎的原理對(duì)搜索結(jié)果進(jìn)行處理排序所有相關(guān)網(wǎng)頁(yè)針對(duì)該關(guān)鍵詞的相關(guān)信息在索引庫(kù)中都有記錄,只需綜合相關(guān)信息和網(wǎng)頁(yè)級(jí)別形成相關(guān)度數(shù)值,然后進(jìn)行排序,相關(guān)度越高,排名越靠前。最后由頁(yè)面生成系統(tǒng)將搜索結(jié)果的鏈接
4、地址和頁(yè)面內(nèi)容摘要等內(nèi)容組織起來(lái)返回給用戶(hù)。1.21.2搜索引擎的發(fā)展史搜索引擎的發(fā)展史1994年初,Washington大學(xué)的學(xué)生 Brian Pinkerton 開(kāi)始了他的小項(xiàng)目 WebCrawler ( Brian Pinkerton Announces the Availability of WebCrawler )。 1994年1月,第一個(gè)既可搜索又可瀏覽的分類(lèi)目錄EINet Galaxy(Tradewave Galaxy)上線。除了網(wǎng)站搜索,它還支持Gopher和Telnet搜索。1994年4月,Stanford University的兩名博士生,美籍華人Jerry Yang(楊致
5、遠(yuǎn))和David Filo共同創(chuàng)辦了Yahoo!。 1994年7月20日,數(shù)據(jù)量為54000的Lycos正式發(fā)布。除了相關(guān)性排序外,Lycos還提供了前綴匹配和字符相近限制,Lycos第一個(gè)在搜索結(jié)果中使用了網(wǎng)頁(yè)自動(dòng)摘要 。Infoseek(Steve Kirsch Announces Free Demos Of the Infoseek Search Engine)是另一個(gè)重要的搜索引擎。Infoseek沿襲Yahoo!和Lycos的概念,它具有友善的用戶(hù)界面和大量的附加服務(wù),而使它成為一個(gè)強(qiáng)勢(shì)搜索引擎。 1995年,第一個(gè)元搜索引擎出現(xiàn)。用戶(hù)只需提交一次搜索請(qǐng)求,由元搜索引擎負(fù)責(zé)轉(zhuǎn)換處理后
6、提交給多個(gè)預(yù)先選定的獨(dú)立搜索引擎,并將從各獨(dú)立搜索引擎返回的所有查詢(xún)結(jié)果,集中起來(lái)處理后再返回給用戶(hù)。1995年12月DEC的 AltaVista登場(chǎng)亮相,大量的創(chuàng)新功能使它迅速到達(dá)當(dāng)時(shí)搜索引擎的頂峰。AltaVista是第一個(gè)支持自然語(yǔ)言搜索的搜索引擎,AltaVista是第一個(gè)實(shí)現(xiàn)高級(jí)搜索語(yǔ)法的搜索引擎。1995年9月26日,加州伯克利分校CS助教Eric Brewer 、博士生Paul Gauthier創(chuàng)立了Inktomi。 1998年10月之前,Google只是Stanford大學(xué)的一個(gè)小項(xiàng)目BackRub。1995年博士生 Larry Page開(kāi)始學(xué)習(xí)搜索引擎設(shè)計(jì),于1997年9月1
7、5日注冊(cè)了的域名,1997年底,在Sergey Brin和Scott Hassan、Alan Steremberg的共同參與下,BachRub開(kāi)始提供 Demo。1999年2月,Google完成了從Alpha版到Beta版的蛻變。 1999年5月,挪威科技大學(xué)的Fast公司發(fā)布了自己的搜索引擎AllTheWeb。Fast創(chuàng)立的目標(biāo)是做世界上最大和最快的搜索引擎,F(xiàn)ast(Alltheweb)的網(wǎng)頁(yè)搜索可利用ODP 自動(dòng)分類(lèi),支持Flash和pdf搜索,支持多語(yǔ)言搜索 北大天網(wǎng)是國(guó)家“九五”重點(diǎn)科技攻關(guān)項(xiàng)目“中文編碼和分布式中英文信息發(fā)現(xiàn)”的研究成果,由北大計(jì)算機(jī)系網(wǎng)絡(luò)與分布式系統(tǒng)研究室開(kāi)發(fā),于
8、1997年10月29日正式在CERNet上提供服務(wù)。 2000年1月,前Infoseek資深工程師李彥宏與好友徐勇在北京中關(guān)村創(chuàng)立了百度(Baidu)公司。2001年8月發(fā)布B搜索引擎Beta版,2001年10月22日正式發(fā)布Baidu搜索引擎,專(zhuān)注于中文搜索。1.3 1.3 搜索引擎的分類(lèi)搜索引擎的分類(lèi)搜索引擎按其工作方式主要可分為3種:全文搜索引擎(Full Text Search Engine)目錄索引類(lèi)搜索引擎(Search Index/Directory)元搜索引擎(Meta Search Engine)。全文搜索引擎通過(guò)從互聯(lián)網(wǎng)上提取的各個(gè)網(wǎng)站的信息(以網(wǎng)頁(yè)文字為主)而建立的數(shù)據(jù)庫(kù)
9、中,檢索與用戶(hù)查詢(xún)條件匹配的相關(guān)記錄,然后按一定的排列順序?qū)⒔Y(jié)果返回給用戶(hù)。 目錄索引搜索引擎目錄索引雖然有搜索功能,但在嚴(yán)格意義上算不上是真正的搜索引擎,僅僅是按目錄分類(lèi)的網(wǎng)站鏈接列表而已。用戶(hù)完全可以不用進(jìn)行關(guān)鍵詞(Keywords)查詢(xún),僅靠分類(lèi)目錄也可找到需要的信息。 與全文搜索引擎的區(qū)別在于它是由人工建立的,通過(guò)“人工方式”將站點(diǎn)進(jìn)行了分類(lèi),不像全文搜索引擎那樣,將網(wǎng)站上的所有文章和信息都收錄進(jìn)去,而是首先將該網(wǎng)站劃分到某個(gè)分類(lèi)下,再記錄一些摘要信息。 元搜索引擎元搜索引擎在接受用戶(hù)查詢(xún)請(qǐng)求時(shí),同時(shí)在其他多個(gè)引擎上進(jìn)行搜索,并將結(jié)果返回給用戶(hù)。著名的元搜索引擎有InfoSpace、D
10、ogpile、Vivisimo等,中文元搜索引擎中具代表性的有北斗搜索。在搜索結(jié)果排列方面,有的直接按來(lái)源引擎排列搜索結(jié)果,如Dogpile,有的則按自定的規(guī)則將結(jié)果重新排列組合,如Vivisimo。1.4 1.4 搜索引擎的信息檢索模型搜索引擎的信息檢索模型布爾邏輯模型布爾邏輯模型 布爾型信息檢索是最簡(jiǎn)單的信息檢索模型,用戶(hù)利用布爾邏輯關(guān)系構(gòu)造查詢(xún)并提交,搜索引擎根據(jù)事先建立的倒排文件確定查詢(xún)結(jié)果。標(biāo)準(zhǔn)布爾邏輯模型為二元邏輯,并可用邏輯符“and”、“or”、“not”來(lái)組織關(guān)鍵詞表達(dá)式。布爾型信息檢索模型的查全率高,查準(zhǔn)率低。目前大多搜索引擎均使用布爾邏輯檢索模型,查詢(xún)結(jié)果一般不進(jìn)行相關(guān)性
11、排序。模糊邏輯模型這種模型在查詢(xún)結(jié)果處理中加入模糊邏輯運(yùn)算,將檢索的數(shù)據(jù)庫(kù)文檔信息與用戶(hù)的查詢(xún)要求進(jìn)行模糊邏輯比較,按照相關(guān)的優(yōu)先次序排列查詢(xún)結(jié)果。模糊邏輯模型可以克服布爾型信息檢索模型在查詢(xún)中其結(jié)果具有無(wú)序性的問(wèn)題。例如,查詢(xún)“搜索引擎”,則出現(xiàn)關(guān)鍵詞“搜索引擎”多的文檔將排列在較前的位置上。向量空間模型向量空間模型用檢索項(xiàng)的向量空間來(lái)表示用戶(hù)的查詢(xún)要求和數(shù)據(jù)庫(kù)文檔信息。查詢(xún)結(jié)果是根據(jù)向量空間的相似性而排列的。向量空間模型可方便地產(chǎn)生有效的查詢(xún)結(jié)果,能提供相關(guān)文檔的文摘,并對(duì)查詢(xún)結(jié)果進(jìn)行分類(lèi),為用戶(hù)提供準(zhǔn)確的信息。概率模型基于貝葉斯概率論原理的概率模型利用相關(guān)反饋的歸納學(xué)習(xí)方法,獲取匹配函數(shù)
12、,這是一種較復(fù)雜的檢索模型。1.5 1.5 建立搜索引擎的關(guān)鍵技術(shù)建立搜索引擎的關(guān)鍵技術(shù)信息收集和存儲(chǔ)技術(shù)信息收集和存儲(chǔ)技術(shù) 信息收集和存儲(chǔ)一般分為人工和自動(dòng)兩種方式。人工方式采用傳統(tǒng)信息收集、分類(lèi)、存儲(chǔ)、組織和檢索的方法。研究人員對(duì)網(wǎng)站進(jìn)行調(diào)查、篩選、分類(lèi)、存儲(chǔ)。由專(zhuān)業(yè)人員手工建立關(guān)鍵字索引,再將索引信息存入計(jì)算機(jī)相應(yīng)的數(shù)據(jù)庫(kù)中。自動(dòng)方式通常是由網(wǎng)絡(luò)機(jī)器人來(lái)完成的?!熬W(wǎng)絡(luò)機(jī)器人”是一種自動(dòng)運(yùn)行的軟件,其功能是搜索因特網(wǎng)上的網(wǎng)站或網(wǎng)頁(yè)。 信息預(yù)處理技術(shù)信息預(yù)處理包括信息格式支持與轉(zhuǎn)換以及信息過(guò)濾。目前,因特網(wǎng)上的信息發(fā)布格式多種多樣,這就要求搜索引擎支持多種文件格式。從實(shí)際情況看,所有的搜索引
13、擎都支持HTML格式,而對(duì)于其他文件格式的支持則不同的搜索引擎有不同的規(guī)定,最多的能支持200多種文件格式。 信息索引技術(shù)信息索引就是創(chuàng)建文檔信息的特征記錄,以使用戶(hù)能夠快速地檢索到所需信息。建立索引主要涉及到幾個(gè)以下問(wèn)題: 信息語(yǔ)詞切分和語(yǔ)詞詞法分析 進(jìn)行詞性標(biāo)注及相關(guān)的自然語(yǔ)言處理 建立檢索項(xiàng)索引 檢索結(jié)果處理技術(shù)1.6 1.6 中文搜索引擎的發(fā)展趨勢(shì)中文搜索引擎的發(fā)展趨勢(shì)中文搜索引擎的發(fā)展趨勢(shì)1支持目錄式分類(lèi)結(jié)構(gòu)和全文檢索支持目錄式分類(lèi)結(jié)構(gòu)和全文檢索2檢索方法多樣、查找手段完備檢索方法多樣、查找手段完備3不僅提供受控語(yǔ)言檢索,還支持自然語(yǔ)言檢索不僅提供受控語(yǔ)言檢索,還支持自然語(yǔ)言檢索4提
14、供自動(dòng)換庫(kù)檢索提供自動(dòng)換庫(kù)檢索5提供多媒體檢索功能提供多媒體檢索功能6自動(dòng)識(shí)別多種漢字編碼自動(dòng)識(shí)別多種漢字編碼7能夠區(qū)分搜索結(jié)果的相關(guān)性能夠區(qū)分搜索結(jié)果的相關(guān)性8增加服務(wù)功能,提供全方位的信息服務(wù)增加服務(wù)功能,提供全方位的信息服務(wù)1.7 1.7 主要搜索引擎介紹主要搜索引擎介紹谷歌(Google)搜索 1Google的功能與特點(diǎn)的功能與特點(diǎn)(1)界面簡(jiǎn)潔(2)資源豐富、內(nèi)容廣泛(3)相關(guān)性高(4)技術(shù)先進(jìn)、搜索結(jié)果精確、排序公正(5)搜索快速(6)使用方便(7)功能齊全谷歌(Google)搜索2Google的檢索方式的檢索方式(1)簡(jiǎn)單搜索(2)高級(jí)搜索(3)查詢(xún)結(jié)果谷歌(Google)搜索3
15、Google的不足的不足(1)其數(shù)據(jù)的更新速度無(wú)法進(jìn)一步提高(2)無(wú)法搜索動(dòng)態(tài)生成的網(wǎng)頁(yè)(3)中文狀態(tài)下的Google沒(méi)有成人內(nèi)容過(guò)濾功能(4)目前對(duì)中國(guó)的用戶(hù)還不支持“OR”和“”等符號(hào)的使用雅虎(Yahoo!)搜索 Yahoo!的特點(diǎn):(1)界面簡(jiǎn)潔。雅虎的網(wǎng)站簡(jiǎn)介相當(dāng)簡(jiǎn)練、嚴(yán)格,一般用很少的文字做客觀描述,沒(méi)有主觀評(píng)論和類(lèi)似于廣告的夸張語(yǔ)言。網(wǎng)站界面友好,并且很人性化。(2)分類(lèi)目錄準(zhǔn)確、合理。中文 Yahoo!提供了一份規(guī)范、科學(xué)、層次豐富的中文網(wǎng)站分類(lèi)目錄,并且是通過(guò)一大批工程師手工編制的,使得在歸類(lèi)方面較其他網(wǎng)站更為準(zhǔn)確、合理。雅虎(Yahoo!)搜索(3)數(shù)據(jù)量大,內(nèi)容豐富。(4
16、)反應(yīng)速度快、查準(zhǔn)率高。由于分類(lèi)是通過(guò)計(jì)算機(jī)專(zhuān)家手工完成的,因此所收錄的網(wǎng)頁(yè)經(jīng)過(guò)篩選和系統(tǒng)組織,質(zhì)量較高,條理性較強(qiáng),檢索結(jié)果接近用戶(hù)的信息需求。 (5)功能齊全。Yahoo!提供了不同的查詢(xún)功能。用戶(hù)可以單擊“目錄”按鈕,進(jìn)入按目錄查詢(xún)的方式,在輸入關(guān)鍵詞后,單擊“搜索”按鈕,即刻就會(huì)得到全部相關(guān)網(wǎng)站的目錄。百度(baidu)搜索1核心技術(shù):超鏈分析核心技術(shù):超鏈分析超鏈分析技術(shù),是新一代搜索引擎的關(guān)鍵技術(shù),已為世界各大搜索引擎普遍采用。在學(xué)術(shù)界,一篇論文被引用得越多就說(shuō)明其越好,學(xué)術(shù)價(jià)值就越高。超鏈分析就是通過(guò)分析鏈接網(wǎng)站的多少來(lái)評(píng)價(jià)被鏈接的網(wǎng)站質(zhì)量,這保證了用戶(hù)在百度搜索時(shí),越受用戶(hù)歡迎的內(nèi)容排名越靠前。百度(baidu)搜索2搜索速度更大、更新、更快搜索速度更大、更新、更快百度在中文互聯(lián)網(wǎng)中,支持搜索8億中文網(wǎng)頁(yè),是世界上最大的中文搜索引擎。3為中文用戶(hù)度身定做為中文用戶(hù)度身定做關(guān)鍵詞自動(dòng)提示:用戶(hù)輸入拼音,就能獲得中文關(guān)鍵詞正確提示。中文搜索自動(dòng)糾錯(cuò);如果用戶(hù)誤輸入錯(cuò)別字,可以
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 中獸醫(yī)學(xué)知到課后答案智慧樹(shù)章節(jié)測(cè)試答案2025年春甘肅農(nóng)業(yè)大學(xué)
- 通遼職業(yè)學(xué)院《微型飛行器設(shè)計(jì)導(dǎo)論》2023-2024學(xué)年第二學(xué)期期末試卷
- 上海工程技術(shù)大學(xué)《道橋施工技術(shù)1》2023-2024學(xué)年第一學(xué)期期末試卷
- 陜西鐵路工程職業(yè)技術(shù)學(xué)院《土木工程制圖D》2023-2024學(xué)年第一學(xué)期期末試卷
- 山西同文職業(yè)技術(shù)學(xué)院《建設(shè)項(xiàng)目檔案管理》2023-2024學(xué)年第二學(xué)期期末試卷
- 2024-2025學(xué)年湖南省岳陽(yáng)市高中名校普通高考第二次適應(yīng)性檢測(cè)試題英語(yǔ)試題含解析
- 湖南司法警官職業(yè)學(xué)院《植物醫(yī)學(xué)概論》2023-2024學(xué)年第二學(xué)期期末試卷
- 濰坊科技學(xué)院《電路原理實(shí)驗(yàn)》2023-2024學(xué)年第二學(xué)期期末試卷
- 湖南省常德市武陵區(qū)芷蘭實(shí)驗(yàn)學(xué)校歷史班2024-2025學(xué)年下學(xué)期高三語(yǔ)文試題1月階段測(cè)試考試試卷含解析
- 公司訴訟制度優(yōu)化建議
- 鹽城市殘疾人康復(fù)機(jī)構(gòu)認(rèn)定暫行辦法
- 鐵路建設(shè)項(xiàng)目質(zhì)量安全紅線管理(課件01)
- C語(yǔ)言上機(jī)考試題目
- 大學(xué)生心理健康教育-大學(xué)生心理健康導(dǎo)論
- 《玩偶之家》說(shuō)課課件
- 土建主要檢測(cè)設(shè)備及試驗(yàn)設(shè)備、儀器配備表
- 房地產(chǎn)公司各崗位職責(zé)及組織結(jié)構(gòu)圖
- 蘇少版四年級(jí)下冊(cè)《綜合實(shí)踐活動(dòng)》全一冊(cè)全部教案(定稿)
- 七夕節(jié)傳統(tǒng)文化習(xí)俗主題教育PPT
- 第二章網(wǎng)絡(luò)輿情的發(fā)生機(jī)制 (周蔚華《網(wǎng)絡(luò)輿情概論》第2章)
- GB/T 1263-2006化學(xué)試劑十二水合磷酸氫二鈉(磷酸氫二鈉)
評(píng)論
0/150
提交評(píng)論