網(wǎng)絡(luò)信息檢索檢索原理和搜索引擎A課件_第1頁(yè)
網(wǎng)絡(luò)信息檢索檢索原理和搜索引擎A課件_第2頁(yè)
網(wǎng)絡(luò)信息檢索檢索原理和搜索引擎A課件_第3頁(yè)
網(wǎng)絡(luò)信息檢索檢索原理和搜索引擎A課件_第4頁(yè)
網(wǎng)絡(luò)信息檢索檢索原理和搜索引擎A課件_第5頁(yè)
已閱讀5頁(yè),還剩111頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第二章檢索原理和搜索引擎第二章2本章內(nèi)容搜索引擎原理和概況2門(mén)戶網(wǎng)站和看不見(jiàn)的網(wǎng)站6網(wǎng)絡(luò)信息檢索原理31網(wǎng)頁(yè)搜索引擎簡(jiǎn)介33網(wǎng)頁(yè)搜索引擎使用方法34P2P搜索引擎使用方法352本章內(nèi)容搜索引擎原理和概況2門(mén)戶網(wǎng)站和看不見(jiàn)的網(wǎng)站6網(wǎng)絡(luò)信第一節(jié)

信息檢索原理:

關(guān)鍵詞匹配原則第一節(jié)

信息檢索原理:

關(guān)鍵詞匹配原則41、從“圖靈實(shí)驗(yàn)”說(shuō)起大家都知道,計(jì)算機(jī)發(fā)展史上有一個(gè)重要人物圖靈,他在上世紀(jì)50年代曾經(jīng)提出了一個(gè)假想的實(shí)驗(yàn),認(rèn)為計(jì)算機(jī)可以具有人類的思維能力,被稱為“圖靈實(shí)驗(yàn)”。他并且預(yù)言,在20世紀(jì)末,具有人工智能的計(jì)算機(jī)將會(huì)出現(xiàn)。但時(shí)至今日,仍未有任何一臺(tái)計(jì)算機(jī)能通過(guò)“圖靈實(shí)驗(yàn)”。41、從“圖靈實(shí)驗(yàn)”說(shuō)起大家都知道,計(jì)算機(jī)發(fā)展史52、計(jì)算機(jī)檢索的奧妙:關(guān)鍵詞匹配計(jì)算機(jī)既然如此“無(wú)能”,連三歲小孩的智能都不具有,那么為什么人們要在網(wǎng)上查找信息,卻總要通過(guò)計(jì)算機(jī)幫忙呢?計(jì)算機(jī)檢索的奧妙在哪里呢?

原來(lái),計(jì)算機(jī)實(shí)現(xiàn)檢索的奧妙,就在于它能把你輸入的檢索詞,與它后臺(tái)數(shù)據(jù)庫(kù)中存儲(chǔ)的文件關(guān)鍵詞進(jìn)行比對(duì),如果能夠匹配,就認(rèn)為這條信息是你需要的,立刻輸出給你。52、計(jì)算機(jī)檢索的奧妙:關(guān)鍵詞匹配計(jì)算機(jī)既然如此“無(wú)6廣義的信息檢索:是指將信息按一定的方式組織和存儲(chǔ)起來(lái),并根據(jù)用戶的需要找出相關(guān)信息的過(guò)程。

狹義的信息檢索:一個(gè)匹配(Match)過(guò)程

即用戶使用檢索語(yǔ)言對(duì)自己的信息需求予以描述,并在一定的信息資源系統(tǒng)中進(jìn)行描述匹配的過(guò)程。3、什么是信息檢索?6廣義的信息檢索:是指將信息按一定的方式組織和存儲(chǔ)起來(lái),并根7存儲(chǔ)檢索原始文獻(xiàn)加工整理數(shù)據(jù)庫(kù)提問(wèn)檢索輸出“愛(ài)因斯坦論文”“論文”“愛(ài)因斯坦”“論文”“愛(ài)因斯坦”7存儲(chǔ)檢索原始文獻(xiàn)加工整理數(shù)據(jù)庫(kù)提問(wèn)檢索輸出“愛(ài)因84、信息檢索原理檢索提問(wèn)式信息的選擇與收集信息特征標(biāo)識(shí)語(yǔ)言檢索工具匹配檢索結(jié)果信息源用戶信息需求檢索提問(wèn)數(shù)據(jù)庫(kù)84、信息檢索原理檢索信息信息標(biāo)檢索工具檢信用信檢索數(shù)據(jù)庫(kù)9What?

Where?

How?5、信息檢索的要領(lǐng)9What?5、信息檢索的要領(lǐng)106、信息檢索類型依信息存儲(chǔ)和檢索的方式手工檢索(ManualRetrieval)

也叫傳統(tǒng)信息檢索,是利用各種印刷型檢索工具來(lái)查找文獻(xiàn)的一種方法。計(jì)算機(jī)檢索(Camputer-basedRetrieval)

也叫現(xiàn)代信息檢索,是指利用計(jì)算機(jī)和網(wǎng)絡(luò)來(lái)處理和查找文獻(xiàn)信息的檢索方式。106、信息檢索類型依信息存儲(chǔ)和檢索的方式117、主要計(jì)算機(jī)檢索系統(tǒng)類型

檢索系統(tǒng)由一定的檢索設(shè)備(計(jì)算機(jī))和經(jīng)過(guò)加工整理并存儲(chǔ)在相應(yīng)載體上的信息集合及其他設(shè)備共同構(gòu)成的具有存儲(chǔ)和檢索功能的信息服務(wù)系統(tǒng)。聯(lián)機(jī)檢索(onlinesearch)脫機(jī)檢索(offlinesearch)光盤(pán)檢索(CDsearch)網(wǎng)絡(luò)檢索(Internet/Websearch)全球數(shù)字圖書(shū)館系統(tǒng)(digitalglobalsystem)117、主要計(jì)算機(jī)檢索系統(tǒng)類型檢索系統(tǒng)由一定的檢索設(shè)備(128、“關(guān)鍵詞原則”是信息檢索的根本原則四次文獻(xiàn)三大系列中文網(wǎng)站兩類搜索引擎Keyword原則128、“關(guān)鍵詞原則”是信息檢索的根本原則四次文獻(xiàn)三大系列中第二節(jié)

搜索引擎的原理和發(fā)展概況第二節(jié)

搜索引擎的原理和發(fā)展概況141、網(wǎng)絡(luò)信息資源種類WWW信息資源:web網(wǎng)頁(yè)FTP信息資源:遠(yuǎn)程計(jì)算機(jī)上的文件夾Blog信息資源:博客、播客等等信息資源Telenet信息資源:直接調(diào)用遠(yuǎn)程主機(jī)BBS、新聞組信息資源:相當(dāng)于論壇信息P2P信息資源:私人計(jì)算機(jī)上的信息資源數(shù)據(jù)庫(kù)和收費(fèi)網(wǎng)站:如三大庫(kù)三大館141、網(wǎng)絡(luò)信息資源種類WWW信息資源:web網(wǎng)頁(yè)百度VSGoogleGoogle目前被公認(rèn)為萬(wàn)維網(wǎng)上最大的搜索引擎,它提供了簡(jiǎn)單易用的免費(fèi)服務(wù),使用戶能夠訪問(wèn)一個(gè)包含超過(guò)80億個(gè)網(wǎng)址的索引。2、百度(baidu)AlanEmtage等想到了開(kāi)發(fā)一個(gè)可以用文件名查找文件的系統(tǒng),于是便有了Archie。注意用“”與*功能就是由Page在斯坦福大學(xué)發(fā)起的研究項(xiàng)目轉(zhuǎn)變而來(lái)的。1、從“圖靈實(shí)驗(yàn)”說(shuō)起已取得斯坦福大學(xué)計(jì)算機(jī)專業(yè)碩士學(xué)位,目前暫時(shí)從博士班休學(xué)。因?yàn)樗邢嚓P(guān)網(wǎng)頁(yè)針對(duì)該關(guān)鍵詞的相關(guān)度早已算好,所以只需按照現(xiàn)成的相關(guān)度數(shù)值排序,相關(guān)度越高,排名越靠前。1995年,一種新的搜索引擎形式出現(xiàn)了——元搜索引擎(MetaSearchEngine)。BBS、新聞組信息資源:相當(dāng)于論壇信息全球數(shù)字圖書(shū)館系統(tǒng)(digitalglobalsystem)門(mén)戶網(wǎng)站和看不見(jiàn)的網(wǎng)站不是互聯(lián)網(wǎng)上所有的信息都能被搜索引擎搜集。1、從“圖靈實(shí)驗(yàn)”說(shuō)起152、網(wǎng)絡(luò)信息資源的特點(diǎn)信息量大、傳播廣泛信息類型多樣、內(nèi)容豐富信息時(shí)效性強(qiáng)、變化頻繁信息分散無(wú)序、但關(guān)聯(lián)程度高信息缺乏管理、良莠不齊所以在網(wǎng)絡(luò)信息檢索中,我們常常要借助于搜索引擎來(lái)幫助我們“大海里撈針”。百度VSGoogle152、網(wǎng)絡(luò)信息資源的特點(diǎn)信息量大、16搜索引擎SearchEngineInternet網(wǎng)絡(luò)信息檢索工具3、搜索引擎的概念16搜索引擎3、搜索引擎的概念174、搜索引擎的發(fā)展歷史174、搜索引擎的發(fā)展歷史18搜索引擎發(fā)展歷史元搜索引擎1995Yahoo!1994Gopher1993Archie1990第二代搜索目錄搜索Google1996Baidu1999……第三代搜索網(wǎng)頁(yè)搜索18搜索引擎發(fā)展歷史元搜索Yahoo!GopherArchi19搜索引擎的起源——Archie所有搜索引擎的祖先,是1990年由蒙特利爾的McGillUniversity三名學(xué)生發(fā)明的Archie(ArchieFAQ)。AlanEmtage等想到了開(kāi)發(fā)一個(gè)可以用文件名查找文件的系統(tǒng),于是便有了Archie。Archie是第一個(gè)自動(dòng)索引互聯(lián)網(wǎng)上匿名FTP網(wǎng)站文件的程序,但它還不是真正的搜索引擎。Archie是一個(gè)可搜索的FTP文件名列表,用戶必須輸入精確的文件名搜索,然后Archie會(huì)告訴用戶哪一個(gè)FTP地址可以下載該文件。19搜索引擎的起源——Archie所有搜索引擎的祖先20由于Archie深受歡迎,受其啟發(fā),NevadaSystemComputingServices大學(xué)于1993年開(kāi)發(fā)了一個(gè)Gopher(GopherFAQ)搜索工具Veronica(VeronicaFAQ)。Jughead是后來(lái)另一個(gè)Gopher搜索工具?,F(xiàn)在這個(gè)工具主要用在國(guó)外大型圖書(shū)館的信息檢索上。早期的另一個(gè)搜索工具Gopher20由于Archie深受歡迎,受其啟發(fā),Nevad211994年4月,斯坦福大學(xué)的兩名博士生,美籍華人楊致遠(yuǎn)和DavidFilo共同創(chuàng)辦了Yahoo)。隨著訪問(wèn)量和收錄鏈接數(shù)的增長(zhǎng),Yahoo目錄開(kāi)始支持簡(jiǎn)單的數(shù)據(jù)庫(kù)搜索。因?yàn)閅ahoo!的數(shù)據(jù)是手工輸入的,所以不能真正被歸為搜索引擎,事實(shí)上只是一個(gè)可搜索的目錄。Yahoo!中收錄的網(wǎng)站,因?yàn)槎几接泻?jiǎn)介信息,所以搜索效率明顯提高。Yahoo!幾乎成為20世紀(jì)90年代的因特網(wǎng)的代名詞。第二代搜索:目錄式搜索Yahoo!211994年4月,斯坦福大學(xué)的兩名博士生,美籍221995年,一種新的搜索引擎形式出現(xiàn)了——元搜索引擎(MetaSearchEngine)。用戶只需提交一次搜索請(qǐng)求,由元搜索引擎負(fù)責(zé)轉(zhuǎn)換處理后提交給多個(gè)預(yù)先選定的獨(dú)立搜索引擎,并將從各獨(dú)立搜索引擎返回的所有查詢結(jié)果,集中起來(lái)處理后再返回給用戶。第一個(gè)元搜索引擎,是Washington大學(xué)碩士生EricSelberg

和OrenEtzioni的Metacrawler。元搜索引擎概念上好聽(tīng),但搜索效果始終不理想,所以沒(méi)有哪個(gè)元搜索引擎有過(guò)強(qiáng)勢(shì)地位。好聽(tīng)不好用的元搜索引擎221995年,一種新的搜索引擎形式出現(xiàn)了——元23第三代搜索:網(wǎng)頁(yè)搜索它們都屬于網(wǎng)頁(yè)自動(dòng)搜索引擎,有的還帶有智能分析或FTP、P2P搜索功能23第三代搜索:網(wǎng)頁(yè)搜索它們都屬于網(wǎng)頁(yè)自動(dòng)搜索引擎,有的還帶245、搜索引擎的工作原理245、搜索引擎的工作原理手工檢索(ManualRetrieval)爬行器(即機(jī)器人、蜘蛛等搜索程序)不是互聯(lián)網(wǎng)上所有的信息都能被搜索引擎搜集。How?搜索引擎并不真正搜索互聯(lián)網(wǎng),它搜索的實(shí)際上是預(yù)先整理好的網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)。他們于1998年

共同創(chuàng)立了Google。LarryPage,創(chuàng)始人之一,主管產(chǎn)品因?yàn)樗邢嚓P(guān)網(wǎng)頁(yè)針對(duì)該關(guān)鍵詞的相關(guān)度早已算好,所以只需按照現(xiàn)成的相關(guān)度數(shù)值排序,相關(guān)度越高,排名越靠前。3、點(diǎn)擊IE瀏覽器文件菜單上的“另存為…”命令,將該頁(yè)面下載到你的作業(yè)文件夾中保存。檢索系統(tǒng)由一定的檢索設(shè)備(計(jì)算機(jī))和經(jīng)過(guò)加工整理并存儲(chǔ)在相應(yīng)載體上的信息集合及其他設(shè)備共同構(gòu)成的具有存儲(chǔ)和檢索功能的信息服務(wù)系統(tǒng)。計(jì)算機(jī)既然如此“無(wú)能”,連三歲小孩的智能都不具有,那么為什么人們要在網(wǎng)上查找信息,卻總要通過(guò)計(jì)算機(jī)幫忙呢?計(jì)算機(jī)檢索的奧妙在哪里呢?第一類搜索引擎:

網(wǎng)頁(yè)搜索引擎

以谷歌和百度為代表如果能找到一套適合自己需要的漂亮的PPT模板,則制作各類演示課件就會(huì)事半功倍。隨著搜索引擎的發(fā)展,許多搜索引擎在此基礎(chǔ)上增加特色功能。一個(gè)匹配(Match)過(guò)程25手工檢索(ManualRetrieval)2526搜索引擎并不真正搜索互聯(lián)網(wǎng),它搜索的實(shí)際上是預(yù)先整理好的網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)。搜索引擎至少由三部分組成:

爬行器(即機(jī)器人、蜘蛛等搜索程序)索引生成器(即網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù))查詢檢索器(即用戶檢索界面)隨著搜索引擎的發(fā)展,許多搜索引擎在此基礎(chǔ)上增加特色功能。如百度增加了監(jiān)控程序。26搜索引擎并不真正搜索互聯(lián)網(wǎng),它搜索的實(shí)際上是27搜索引擎的工作原理就像超市索引生成器(網(wǎng)頁(yè)數(shù)據(jù)庫(kù))爬行器(蜘蛛)查詢檢索器(用戶查詢)因特網(wǎng)27搜索引擎的工作原理就像超市索引生成器爬行器查詢檢索器因特28利用能夠從互聯(lián)網(wǎng)上自動(dòng)收集網(wǎng)頁(yè)的Spider系統(tǒng)程序,自動(dòng)訪問(wèn)互聯(lián)網(wǎng),并沿著任何網(wǎng)頁(yè)中的所有URL爬到其它網(wǎng)頁(yè),重復(fù)這過(guò)程,并把爬過(guò)的所有網(wǎng)頁(yè)收集回來(lái)。

第一步:從互聯(lián)網(wǎng)上抓取網(wǎng)頁(yè)因特網(wǎng)28利用能夠從互聯(lián)網(wǎng)上自動(dòng)收集網(wǎng)頁(yè)的Spider29第二步:建立索引數(shù)據(jù)庫(kù)由分析索引系統(tǒng)程序?qū)κ占貋?lái)的網(wǎng)頁(yè)進(jìn)行分析,提取相關(guān)網(wǎng)頁(yè)信息(包括網(wǎng)頁(yè)所在URL、編碼類型、頁(yè)面內(nèi)容包含的關(guān)鍵詞、關(guān)鍵詞位置、生成時(shí)間、大小、與其它網(wǎng)頁(yè)的鏈接關(guān)系等),根據(jù)一定的相關(guān)度算法進(jìn)行大量復(fù)雜計(jì)算,得到每一個(gè)網(wǎng)頁(yè)針對(duì)頁(yè)面內(nèi)容中及超鏈中每一個(gè)關(guān)鍵詞的相關(guān)度(或重要性),然后用這些相關(guān)信息建立網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)。29第二步:建立索引數(shù)據(jù)庫(kù)由分析索引系統(tǒng)程序?qū)κ占?0搜索引擎的Spider一般要定期重新訪問(wèn)所有網(wǎng)頁(yè)(各搜索引擎的周期不同,可能是幾天、幾周或幾月,也可能對(duì)不同重要性的網(wǎng)頁(yè)有不同的更新頻率),更新網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù),以反映出網(wǎng)頁(yè)內(nèi)容的更新情況,增加新的網(wǎng)頁(yè)信息,去除死鏈接,并根據(jù)網(wǎng)頁(yè)內(nèi)容和鏈接關(guān)系的變化重新排序。這樣,網(wǎng)頁(yè)的具體內(nèi)容和變化情況就會(huì)反映到用戶查詢的結(jié)果中。30搜索引擎的Spider一般要定期重新訪問(wèn)所有31第三步:檢索界面的建立當(dāng)用戶輸入關(guān)鍵詞搜索后,由搜索系統(tǒng)程序從網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁(yè)。因?yàn)樗邢嚓P(guān)網(wǎng)頁(yè)針對(duì)該關(guān)鍵詞的相關(guān)度早已算好,所以只需按照現(xiàn)成的相關(guān)度數(shù)值排序,相關(guān)度越高,排名越靠前。

最后,由頁(yè)面生成系統(tǒng)將搜索結(jié)果的鏈接地址和頁(yè)面內(nèi)容摘要等內(nèi)容組織起來(lái)返回給用戶。31第三步:檢索界面的建立當(dāng)用戶輸入關(guān)鍵詞搜索后32每個(gè)搜索引擎都必須向用戶提供一個(gè)良好的信息查詢界面,一般包括分類目錄及關(guān)鍵詞兩種信息查詢途徑。32每個(gè)搜索引擎都必須向用戶提供一個(gè)良好的信息查詢界33333434所以在網(wǎng)絡(luò)信息檢索中,我們常常要借助于搜索引擎來(lái)幫助我們“大海里撈針”。第三步:檢索界面的建立P2P信息資源:私人計(jì)算機(jī)上的信息資源爬行器(即機(jī)器人、蜘蛛等搜索程序)門(mén)戶網(wǎng)站和看不見(jiàn)的網(wǎng)站用戶只需提交一次搜索請(qǐng)求,由元搜索引擎負(fù)責(zé)轉(zhuǎn)換處理后提交給多個(gè)預(yù)先選定的獨(dú)立搜索引擎,并將從各獨(dú)立搜索引擎返回的所有查詢結(jié)果,集中起來(lái)處理后再返回給用戶。索引生成器(即網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù))一個(gè)匹配(Match)過(guò)程WWW信息資源:web網(wǎng)頁(yè)爬行器(即機(jī)器人、蜘蛛等搜索程序)因?yàn)閅ahoo!的數(shù)據(jù)是手工輸入的,所以不能真正被歸為搜索引擎,事實(shí)上只是一個(gè)可搜索的目錄。提示:可試用以下檢索詞:MonaLisaLouvremuseumstolen蒙娜麗莎500歲蒙娜麗莎被偷盧浮宮全球最大中文搜索引擎。信息時(shí)效性強(qiáng)、變化頻繁Archie是一個(gè)可搜索的FTP文件名列表,用戶必須輸入精確的文件名搜索,然后Archie會(huì)告訴用戶哪一個(gè)FTP地址可以下載該文件。第三節(jié)

兩類搜索引擎及

網(wǎng)頁(yè)搜索引擎所以在網(wǎng)絡(luò)信息檢索中,我們常常要借助于搜索引擎來(lái)幫助我們“大36兩類搜索引擎的代表2以FTP和P2P資源搜索為主的搜索引擎1以網(wǎng)頁(yè)搜索為主的搜索引擎百度、Google、Yahoo等迅雷、天網(wǎng)Maze等36兩類搜索引擎的代表2以FTP和P2P資源搜索為主的搜索引37第一類搜索引擎:

網(wǎng)頁(yè)搜索引擎

以谷歌和百度為代表37第一類搜索引擎:

網(wǎng)頁(yè)搜索引擎

以谷歌和百度為代表381、Google搜索引擎

Google搜索引擎誕生于斯坦福大學(xué)的一個(gè)學(xué)生宿舍里,然后迅速傳播到全球的信息搜索者。

Google目前被公認(rèn)為萬(wàn)維網(wǎng)上最大的搜索引擎,它提供了簡(jiǎn)單易用的免費(fèi)服務(wù),使用戶能夠訪問(wèn)一個(gè)包含超過(guò)80億個(gè)網(wǎng)址的索引。

“Google”來(lái)自于數(shù)學(xué)名詞“Googol”,Googol表示一個(gè)1后面跟著100個(gè)零。GoogleInt.使用這一術(shù)語(yǔ)體現(xiàn)了公司整合網(wǎng)上海量信息的遠(yuǎn)大目標(biāo)。地址:381、Google搜索引擎Google搜索39Google簡(jiǎn)介:LarryPage,創(chuàng)始人之一,主管產(chǎn)品的總裁。密西根安娜堡大學(xué)的榮譽(yù)畢業(yè)生,擁有理工科學(xué)士學(xué)位。他還因其出色的領(lǐng)導(dǎo)才能獲得過(guò)多項(xiàng)榮譽(yù),以獎(jiǎng)勵(lì)他對(duì)工學(xué)院的貢獻(xiàn)。他曾擔(dān)任密西根大學(xué)EtaKappaNu榮譽(yù)學(xué)會(huì)的會(huì)長(zhǎng)。目前他暫時(shí)從斯坦福大學(xué)計(jì)算機(jī)研究所博士班休學(xué),其指導(dǎo)教授是TerryWinograd博士。Google就是由Page在斯坦福大學(xué)發(fā)起的研究項(xiàng)目轉(zhuǎn)變而來(lái)的。39Google簡(jiǎn)介:LarryPage,創(chuàng)始人之一,主40Google簡(jiǎn)介:SergeyBrin,創(chuàng)始人之一,主管技術(shù)的總裁。出生于莫斯科,是馬里蘭大學(xué)校本部的榮譽(yù)畢業(yè)生,擁有數(shù)學(xué)專業(yè)和計(jì)算機(jī)專業(yè)的理學(xué)士學(xué)位。已取得斯坦福大學(xué)計(jì)算機(jī)專業(yè)碩士學(xué)位,目前暫時(shí)從博士班休學(xué)。29歲的Sergey是美國(guó)國(guó)家科學(xué)基金會(huì)的獎(jiǎng)學(xué)金得主。他在斯坦福

遇到了LarryPage并參與了后來(lái)成為

Google的研究項(xiàng)目。他們于1998年

共同創(chuàng)立了Google。40Google簡(jiǎn)介:SergeyBrin,創(chuàng)始人之一,41注意用“

”與*功能41注意用“”與*功能424243谷歌其他功能43谷歌其他功能442、百度(baidu)全球最大中文搜索引擎。提供網(wǎng)頁(yè)快照、網(wǎng)頁(yè)預(yù)覽/預(yù)覽全部網(wǎng)頁(yè)、相關(guān)搜索詞、錯(cuò)別字糾正提示、新聞搜索、Flash搜索、信息快遞搜索、百度搜霸、搜索援助中心。地址:442、百度(baidu)全球最大中文搜索引擎。45452、網(wǎng)絡(luò)信息資源的特點(diǎn)也叫現(xiàn)代信息檢索,是指利用計(jì)算機(jī)和網(wǎng)絡(luò)來(lái)處理和查找文獻(xiàn)信息的檢索方式。文獻(xiàn)檢索課程作業(yè)3

下載PPT模板最后,由頁(yè)面生成系統(tǒng)將搜索結(jié)果的鏈接地址和頁(yè)面內(nèi)容摘要等內(nèi)容組織起來(lái)返回給用戶。GoogleInt.全球最大中文搜索引擎。不是互聯(lián)網(wǎng)上所有的信息都能被搜索引擎搜集。2、在搜索引擎對(duì)話框中反復(fù)輸入不同的檢索詞,搜索給定的目標(biāo)文獻(xiàn)網(wǎng)頁(yè)。3、點(diǎn)擊IE瀏覽器文件菜單上的“另存為…”命令,將該頁(yè)面下載到你的作業(yè)文件夾中保存。文獻(xiàn)檢索課程作業(yè)3

下載PPT模板SearchEngineBlog信息資源:博客、播客等等信息資源Powerpoint是目前應(yīng)用最廣泛的多媒體制作工具。他在斯坦福

遇到了LarryPage并參與了后來(lái)成為

Google的研究項(xiàng)目。光盤(pán)檢索(CDsearch)46一、概況百度(B,Inc)于1999年底成立于美國(guó)硅谷,2000年,落戶中國(guó)。

2001年8月,發(fā)布B搜索引擎Beta版,從后臺(tái)服務(wù)轉(zhuǎn)向獨(dú)立提供搜索服務(wù),并且在中國(guó)首創(chuàng)了競(jìng)價(jià)排名商業(yè)模式。

2001年10月22日正式發(fā)布Baidu搜索引擎。

2005年8月5日,百度在美國(guó)納斯達(dá)克上市。李彥宏2、網(wǎng)絡(luò)信息資源的特點(diǎn)46一、概況李彥宏47

“百度”二字取自辛棄疾的《青玉案》“眾里尋她千百度”?,F(xiàn)在百度已成為世界上最大的中文搜索引擎。用戶能夠訪問(wèn)超過(guò)6億的中文網(wǎng)頁(yè),5000多萬(wàn)張圖片、500多萬(wàn)首中文mp3及各種格式的音樂(lè)。47“百度”二字取自辛棄疾的《青玉案》“眾里尋484849?

北京正望咨詢有限公司49?北京正望咨詢有限公司50百度VSGoogle50百度VSGoogle一個(gè)匹配(Match)過(guò)程信息時(shí)效性強(qiáng)、變化頻繁休學(xué),其指導(dǎo)教授是TerryWinograd博士。2005年8月5日,百度在美國(guó)納斯達(dá)克上市。P2P搜索引擎使用方法一個(gè)匹配(Match)過(guò)程如果能找到一套適合自己需要的漂亮的PPT模板,則制作各類演示課件就會(huì)事半功倍。Google目前被公認(rèn)為萬(wàn)維網(wǎng)上最大的搜索引擎,它提供了簡(jiǎn)單易用的免費(fèi)服務(wù),使用戶能夠訪問(wèn)一個(gè)包含超過(guò)80億個(gè)網(wǎng)址的索引。注意用“”與*功能FTP信息資源:遠(yuǎn)程計(jì)算機(jī)上的文件夾1995年,一種新的搜索引擎形式出現(xiàn)了——元搜索引擎(MetaSearchEngine)。GoogleTutorial搜索引擎的工作原理就像超市FTP信息資源:遠(yuǎn)程計(jì)算機(jī)上的文件夾如果能找到一套適合自己需要的漂亮的PPT模板,則制作各類演示課件就會(huì)事半功倍。51目標(biāo)信息一定含有的關(guān)鍵字:用雙引號(hào)連起來(lái)目標(biāo)信息不能含有的關(guān)鍵字:用“

-”去掉目標(biāo)信息可能含有的關(guān)鍵字:用“OR”或空格連起來(lái)重要提示一個(gè)匹配(Match)過(guò)程51目標(biāo)信息一定含有的關(guān)鍵字:52關(guān)于搜索的一些思想不是互聯(lián)網(wǎng)上所有的信息都能被搜索引擎搜集。動(dòng)手前多動(dòng)腦。不要盲目信任搜索得到的信息。不要期望一次搜索解決問(wèn)題。互聯(lián)網(wǎng)上并沒(méi)有所有的東西!52關(guān)于搜索的一些思想互聯(lián)網(wǎng)上并沒(méi)有所有的東西!53附加資料Baidu幫助中心Google幫助中心搜索引擎列表GoogleTutorial中文搜索引擎指南網(wǎng)53附加資料Baidu幫助中心54文獻(xiàn)檢索課程作業(yè)3

下載PPT模板

Powerpoint是目前應(yīng)用最廣泛的多媒體制作工具。如果能找到一套適合自己需要的漂亮的PPT模板,則制作各類演示課件就會(huì)事半功倍。

本作業(yè)要求你從網(wǎng)上找到至少三套適合做課堂教學(xué)和畢業(yè)論文匯報(bào)將沿用的PPT模版,要求每套模版至少要有30張以上的不同版面設(shè)計(jì)幻燈片,如本幻燈片所示。54文獻(xiàn)檢索課程作業(yè)3

下載PPT模板

Powerp55作業(yè)提示

請(qǐng)使用各種搜索引擎,輸入合適的檢索詞后尋找,將你認(rèn)為滿意的模版發(fā)送到局域網(wǎng)服務(wù)器上。55作業(yè)提示

請(qǐng)使用各種搜索引擎,輸入合適的檢索詞后尋找,56文獻(xiàn)檢索課程作業(yè)4

尋找蒙娜麗莎

1、請(qǐng)?jiān)诰W(wǎng)上尋找如下圖所示世界名畫(huà)《蒙娜麗莎》的指定圖片和介紹她被偷的文章。注意,如不是指定圖片則此題不給分!提示:可試用以下檢索詞:MonaLisa

Louvremuseum

stolen蒙娜麗莎500歲蒙娜麗莎被偷盧浮宮56文獻(xiàn)檢索課程作業(yè)4

尋找蒙娜麗莎

1、請(qǐng)?jiān)诰W(wǎng)上尋572、請(qǐng)?jiān)诰W(wǎng)上尋找盧浮宮三件“鎮(zhèn)館之寶”的另外兩件--維納斯和勝利女神的雕像圖片,把有關(guān)圖片下載到你的作業(yè)文件夾中,作業(yè)文件名必須是圖片的主題,否則不給分。572、請(qǐng)?jiān)诰W(wǎng)上尋找盧浮宮三件“鎮(zhèn)館之寶”的另外兩件--維納58【操作步驟提示】1、打開(kāi)IE瀏覽器,在地址欄中輸入百度或Google搜索引擎的網(wǎng)址2、在搜索引擎對(duì)話框中反復(fù)輸入不同的檢索詞,搜索給定的目標(biāo)文獻(xiàn)網(wǎng)頁(yè)。3、點(diǎn)擊IE瀏覽器文件菜單上的“另存為…”命令,將該頁(yè)面下載到你的作業(yè)文件夾中保存。4、此作業(yè)全部完成后,將作業(yè)文件夾中保存的全部文件,通過(guò)局域網(wǎng)作業(yè)提交系統(tǒng),傳輸?shù)綄?shí)驗(yàn)室服務(wù)器中,作為評(píng)分依據(jù)。58【操作步驟提示】1、打開(kāi)IE瀏覽器,在地址欄中輸入百度591、從“圖靈實(shí)驗(yàn)”說(shuō)起大家都知道,計(jì)算機(jī)發(fā)展史上有一個(gè)重要人物圖靈,他在上世紀(jì)50年代曾經(jīng)提出了一個(gè)假想的實(shí)驗(yàn),認(rèn)為計(jì)算機(jī)可以具有人類的思維能力,被稱為“圖靈實(shí)驗(yàn)”。他并且預(yù)言,在20世紀(jì)末,具有人工智能的計(jì)算機(jī)將會(huì)出現(xiàn)。但時(shí)至今日,仍未有任何一臺(tái)計(jì)算機(jī)能通過(guò)“圖靈實(shí)驗(yàn)”。591、從“圖靈實(shí)驗(yàn)”說(shuō)起大家都知道,計(jì)算機(jī)發(fā)展601、網(wǎng)絡(luò)信息資源種類WWW信息資源:web網(wǎng)頁(yè)FTP信息資源:遠(yuǎn)程計(jì)算機(jī)上的文件夾Blog信息資源:博客、播客等等信息資源Telenet信息資源:直接調(diào)用遠(yuǎn)程主機(jī)BBS、新聞組信息資源:相當(dāng)于論壇信息P2P信息資源:私人計(jì)算機(jī)上的信息資源數(shù)據(jù)庫(kù)和收費(fèi)網(wǎng)站:如三大庫(kù)三大館601、網(wǎng)絡(luò)信息資源種類WWW信息資源:web網(wǎng)頁(yè)61搜索引擎并不真正搜索互聯(lián)網(wǎng),它搜索的實(shí)際上是預(yù)先整理好的網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)。搜索引擎至少由三部分組成:

爬行器(即機(jī)器人、蜘蛛等搜索程序)索引生成器(即網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù))查詢檢索器(即用戶檢索界面)隨著搜索引擎的發(fā)展,許多搜索引擎在此基礎(chǔ)上增加特色功能。如百度增加了監(jiān)控程序。61搜索引擎并不真正搜索互聯(lián)網(wǎng),它搜索的實(shí)際上是62搜索引擎的工作原理就像超市索引生成器(網(wǎng)頁(yè)數(shù)據(jù)庫(kù))爬行器(蜘蛛)查詢檢索器(用戶查詢)因特網(wǎng)62搜索引擎的工作原理就像超市索引生成器爬行器查詢檢索器因特63第三步:檢索界面的建立當(dāng)用戶輸入關(guān)鍵詞搜索后,由搜索系統(tǒng)程序從網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁(yè)。因?yàn)樗邢嚓P(guān)網(wǎng)頁(yè)針對(duì)該關(guān)鍵詞的相關(guān)度早已算好,所以只需按照現(xiàn)成的相關(guān)度數(shù)值排序,相關(guān)度越高,排名越靠前。

最后,由頁(yè)面生成系統(tǒng)將搜索結(jié)果的鏈接地址和頁(yè)面內(nèi)容摘要等內(nèi)容組織起來(lái)返回給用戶。63第三步:檢索界面的建立當(dāng)用戶輸入關(guān)鍵詞搜索后2、請(qǐng)?jiān)诰W(wǎng)上尋找盧浮宮三件“鎮(zhèn)館之寶”的另外兩件--維納斯和勝利女神的雕像圖片,把有關(guān)圖片下載到你的作業(yè)文件夾中,作業(yè)文件名必須是圖片的主題,否則不給分。門(mén)戶網(wǎng)站和看不見(jiàn)的網(wǎng)站提示:可試用以下檢索詞:MonaLisaLouvremuseumstolen蒙娜麗莎500歲蒙娜麗莎被偷盧浮宮如果能找到一套適合自己需要的漂亮的PPT模板,則制作各類演示課件就會(huì)事半功倍。利用能夠從互聯(lián)網(wǎng)上自動(dòng)收集網(wǎng)頁(yè)的Spider系統(tǒng)程序,自動(dòng)訪問(wèn)互聯(lián)網(wǎng),并沿著任何網(wǎng)頁(yè)中的所有URL爬到其它網(wǎng)頁(yè),重復(fù)這過(guò)程,并把爬過(guò)的所有網(wǎng)頁(yè)收集回來(lái)。“Google”來(lái)自于數(shù)學(xué)名詞“Googol”,Googol表示一個(gè)1后面跟著100個(gè)零。第二代搜索:目錄式搜索Yahoo!成立于美國(guó)硅谷,2000年,落戶中國(guó)。百度、Google、Yahoo等SergeyBrin,創(chuàng)始人之一,主管技術(shù)的總裁。門(mén)戶網(wǎng)站和看不見(jiàn)的網(wǎng)站因?yàn)樗邢嚓P(guān)網(wǎng)頁(yè)針對(duì)該關(guān)鍵詞的相關(guān)度早已算好,所以只需按照現(xiàn)成的相關(guān)度數(shù)值排序,相關(guān)度越高,排名越靠前。Where?因?yàn)樗邢嚓P(guān)網(wǎng)頁(yè)針對(duì)該關(guān)鍵詞的相關(guān)度早已算好,所以只需按照現(xiàn)成的相關(guān)度數(shù)值排序,相關(guān)度越高,排名越靠前。Google目前被公認(rèn)為萬(wàn)維網(wǎng)上最大的搜索引擎,它提供了簡(jiǎn)單易用的免費(fèi)服務(wù),使用戶能夠訪問(wèn)一個(gè)包含超過(guò)80億個(gè)網(wǎng)址的索引。642、請(qǐng)?jiān)诰W(wǎng)上尋找盧浮宮三件“鎮(zhèn)館之寶”的另外兩件--維納斯和65關(guān)于搜索的一些思想不是互聯(lián)網(wǎng)上所有的信息都能被搜索引擎搜集。動(dòng)手前多動(dòng)腦。不要盲目信任搜索得到的信息。不要期望一次搜索解決問(wèn)題?;ヂ?lián)網(wǎng)上并沒(méi)有所有的東西!65關(guān)于搜索的一些思想互聯(lián)網(wǎng)上并沒(méi)有所有的東西!66文獻(xiàn)檢索課程作業(yè)3

下載PPT模板

Powerpoint是目前應(yīng)用最廣泛的多媒體制作工具。如果能找到一套適合自己需要的漂亮的PPT模板,則制作各類演示課件就會(huì)事半功倍。

本作業(yè)要求你從網(wǎng)上找到至少三套適合做課堂教學(xué)和畢業(yè)論文匯報(bào)將沿用的PPT模版,要求每套模版至少要有30張以上的不同版面設(shè)計(jì)幻燈片,如本幻燈片所示。66文獻(xiàn)檢索課程作業(yè)3

下載PPT模板

Powerp第二章檢索原理和搜索引擎第二章68本章內(nèi)容搜索引擎原理和概況2門(mén)戶網(wǎng)站和看不見(jiàn)的網(wǎng)站6網(wǎng)絡(luò)信息檢索原理31網(wǎng)頁(yè)搜索引擎簡(jiǎn)介33網(wǎng)頁(yè)搜索引擎使用方法34P2P搜索引擎使用方法352本章內(nèi)容搜索引擎原理和概況2門(mén)戶網(wǎng)站和看不見(jiàn)的網(wǎng)站6網(wǎng)絡(luò)信第一節(jié)

信息檢索原理:

關(guān)鍵詞匹配原則第一節(jié)

信息檢索原理:

關(guān)鍵詞匹配原則701、從“圖靈實(shí)驗(yàn)”說(shuō)起大家都知道,計(jì)算機(jī)發(fā)展史上有一個(gè)重要人物圖靈,他在上世紀(jì)50年代曾經(jīng)提出了一個(gè)假想的實(shí)驗(yàn),認(rèn)為計(jì)算機(jī)可以具有人類的思維能力,被稱為“圖靈實(shí)驗(yàn)”。他并且預(yù)言,在20世紀(jì)末,具有人工智能的計(jì)算機(jī)將會(huì)出現(xiàn)。但時(shí)至今日,仍未有任何一臺(tái)計(jì)算機(jī)能通過(guò)“圖靈實(shí)驗(yàn)”。41、從“圖靈實(shí)驗(yàn)”說(shuō)起大家都知道,計(jì)算機(jī)發(fā)展史712、計(jì)算機(jī)檢索的奧妙:關(guān)鍵詞匹配計(jì)算機(jī)既然如此“無(wú)能”,連三歲小孩的智能都不具有,那么為什么人們要在網(wǎng)上查找信息,卻總要通過(guò)計(jì)算機(jī)幫忙呢?計(jì)算機(jī)檢索的奧妙在哪里呢?

原來(lái),計(jì)算機(jī)實(shí)現(xiàn)檢索的奧妙,就在于它能把你輸入的檢索詞,與它后臺(tái)數(shù)據(jù)庫(kù)中存儲(chǔ)的文件關(guān)鍵詞進(jìn)行比對(duì),如果能夠匹配,就認(rèn)為這條信息是你需要的,立刻輸出給你。52、計(jì)算機(jī)檢索的奧妙:關(guān)鍵詞匹配計(jì)算機(jī)既然如此“無(wú)72廣義的信息檢索:是指將信息按一定的方式組織和存儲(chǔ)起來(lái),并根據(jù)用戶的需要找出相關(guān)信息的過(guò)程。

狹義的信息檢索:一個(gè)匹配(Match)過(guò)程

即用戶使用檢索語(yǔ)言對(duì)自己的信息需求予以描述,并在一定的信息資源系統(tǒng)中進(jìn)行描述匹配的過(guò)程。3、什么是信息檢索?6廣義的信息檢索:是指將信息按一定的方式組織和存儲(chǔ)起來(lái),并根73存儲(chǔ)檢索原始文獻(xiàn)加工整理數(shù)據(jù)庫(kù)提問(wèn)檢索輸出“愛(ài)因斯坦論文”“論文”“愛(ài)因斯坦”“論文”“愛(ài)因斯坦”7存儲(chǔ)檢索原始文獻(xiàn)加工整理數(shù)據(jù)庫(kù)提問(wèn)檢索輸出“愛(ài)因744、信息檢索原理檢索提問(wèn)式信息的選擇與收集信息特征標(biāo)識(shí)語(yǔ)言檢索工具匹配檢索結(jié)果信息源用戶信息需求檢索提問(wèn)數(shù)據(jù)庫(kù)84、信息檢索原理檢索信息信息標(biāo)檢索工具檢信用信檢索數(shù)據(jù)庫(kù)75What?

Where?

How?5、信息檢索的要領(lǐng)9What?5、信息檢索的要領(lǐng)766、信息檢索類型依信息存儲(chǔ)和檢索的方式手工檢索(ManualRetrieval)

也叫傳統(tǒng)信息檢索,是利用各種印刷型檢索工具來(lái)查找文獻(xiàn)的一種方法。計(jì)算機(jī)檢索(Camputer-basedRetrieval)

也叫現(xiàn)代信息檢索,是指利用計(jì)算機(jī)和網(wǎng)絡(luò)來(lái)處理和查找文獻(xiàn)信息的檢索方式。106、信息檢索類型依信息存儲(chǔ)和檢索的方式777、主要計(jì)算機(jī)檢索系統(tǒng)類型

檢索系統(tǒng)由一定的檢索設(shè)備(計(jì)算機(jī))和經(jīng)過(guò)加工整理并存儲(chǔ)在相應(yīng)載體上的信息集合及其他設(shè)備共同構(gòu)成的具有存儲(chǔ)和檢索功能的信息服務(wù)系統(tǒng)。聯(lián)機(jī)檢索(onlinesearch)脫機(jī)檢索(offlinesearch)光盤(pán)檢索(CDsearch)網(wǎng)絡(luò)檢索(Internet/Websearch)全球數(shù)字圖書(shū)館系統(tǒng)(digitalglobalsystem)117、主要計(jì)算機(jī)檢索系統(tǒng)類型檢索系統(tǒng)由一定的檢索設(shè)備(788、“關(guān)鍵詞原則”是信息檢索的根本原則四次文獻(xiàn)三大系列中文網(wǎng)站兩類搜索引擎Keyword原則128、“關(guān)鍵詞原則”是信息檢索的根本原則四次文獻(xiàn)三大系列中第二節(jié)

搜索引擎的原理和發(fā)展概況第二節(jié)

搜索引擎的原理和發(fā)展概況801、網(wǎng)絡(luò)信息資源種類WWW信息資源:web網(wǎng)頁(yè)FTP信息資源:遠(yuǎn)程計(jì)算機(jī)上的文件夾Blog信息資源:博客、播客等等信息資源Telenet信息資源:直接調(diào)用遠(yuǎn)程主機(jī)BBS、新聞組信息資源:相當(dāng)于論壇信息P2P信息資源:私人計(jì)算機(jī)上的信息資源數(shù)據(jù)庫(kù)和收費(fèi)網(wǎng)站:如三大庫(kù)三大館141、網(wǎng)絡(luò)信息資源種類WWW信息資源:web網(wǎng)頁(yè)百度VSGoogleGoogle目前被公認(rèn)為萬(wàn)維網(wǎng)上最大的搜索引擎,它提供了簡(jiǎn)單易用的免費(fèi)服務(wù),使用戶能夠訪問(wèn)一個(gè)包含超過(guò)80億個(gè)網(wǎng)址的索引。2、百度(baidu)AlanEmtage等想到了開(kāi)發(fā)一個(gè)可以用文件名查找文件的系統(tǒng),于是便有了Archie。注意用“”與*功能就是由Page在斯坦福大學(xué)發(fā)起的研究項(xiàng)目轉(zhuǎn)變而來(lái)的。1、從“圖靈實(shí)驗(yàn)”說(shuō)起已取得斯坦福大學(xué)計(jì)算機(jī)專業(yè)碩士學(xué)位,目前暫時(shí)從博士班休學(xué)。因?yàn)樗邢嚓P(guān)網(wǎng)頁(yè)針對(duì)該關(guān)鍵詞的相關(guān)度早已算好,所以只需按照現(xiàn)成的相關(guān)度數(shù)值排序,相關(guān)度越高,排名越靠前。1995年,一種新的搜索引擎形式出現(xiàn)了——元搜索引擎(MetaSearchEngine)。BBS、新聞組信息資源:相當(dāng)于論壇信息全球數(shù)字圖書(shū)館系統(tǒng)(digitalglobalsystem)門(mén)戶網(wǎng)站和看不見(jiàn)的網(wǎng)站不是互聯(lián)網(wǎng)上所有的信息都能被搜索引擎搜集。1、從“圖靈實(shí)驗(yàn)”說(shuō)起812、網(wǎng)絡(luò)信息資源的特點(diǎn)信息量大、傳播廣泛信息類型多樣、內(nèi)容豐富信息時(shí)效性強(qiáng)、變化頻繁信息分散無(wú)序、但關(guān)聯(lián)程度高信息缺乏管理、良莠不齊所以在網(wǎng)絡(luò)信息檢索中,我們常常要借助于搜索引擎來(lái)幫助我們“大海里撈針”。百度VSGoogle152、網(wǎng)絡(luò)信息資源的特點(diǎn)信息量大、82搜索引擎SearchEngineInternet網(wǎng)絡(luò)信息檢索工具3、搜索引擎的概念16搜索引擎3、搜索引擎的概念834、搜索引擎的發(fā)展歷史174、搜索引擎的發(fā)展歷史84搜索引擎發(fā)展歷史元搜索引擎1995Yahoo!1994Gopher1993Archie1990第二代搜索目錄搜索Google1996Baidu1999……第三代搜索網(wǎng)頁(yè)搜索18搜索引擎發(fā)展歷史元搜索Yahoo!GopherArchi85搜索引擎的起源——Archie所有搜索引擎的祖先,是1990年由蒙特利爾的McGillUniversity三名學(xué)生發(fā)明的Archie(ArchieFAQ)。AlanEmtage等想到了開(kāi)發(fā)一個(gè)可以用文件名查找文件的系統(tǒng),于是便有了Archie。Archie是第一個(gè)自動(dòng)索引互聯(lián)網(wǎng)上匿名FTP網(wǎng)站文件的程序,但它還不是真正的搜索引擎。Archie是一個(gè)可搜索的FTP文件名列表,用戶必須輸入精確的文件名搜索,然后Archie會(huì)告訴用戶哪一個(gè)FTP地址可以下載該文件。19搜索引擎的起源——Archie所有搜索引擎的祖先86由于Archie深受歡迎,受其啟發(fā),NevadaSystemComputingServices大學(xué)于1993年開(kāi)發(fā)了一個(gè)Gopher(GopherFAQ)搜索工具Veronica(VeronicaFAQ)。Jughead是后來(lái)另一個(gè)Gopher搜索工具?,F(xiàn)在這個(gè)工具主要用在國(guó)外大型圖書(shū)館的信息檢索上。早期的另一個(gè)搜索工具Gopher20由于Archie深受歡迎,受其啟發(fā),Nevad871994年4月,斯坦福大學(xué)的兩名博士生,美籍華人楊致遠(yuǎn)和DavidFilo共同創(chuàng)辦了Yahoo)。隨著訪問(wèn)量和收錄鏈接數(shù)的增長(zhǎng),Yahoo目錄開(kāi)始支持簡(jiǎn)單的數(shù)據(jù)庫(kù)搜索。因?yàn)閅ahoo!的數(shù)據(jù)是手工輸入的,所以不能真正被歸為搜索引擎,事實(shí)上只是一個(gè)可搜索的目錄。Yahoo!中收錄的網(wǎng)站,因?yàn)槎几接泻?jiǎn)介信息,所以搜索效率明顯提高。Yahoo!幾乎成為20世紀(jì)90年代的因特網(wǎng)的代名詞。第二代搜索:目錄式搜索Yahoo!211994年4月,斯坦福大學(xué)的兩名博士生,美籍881995年,一種新的搜索引擎形式出現(xiàn)了——元搜索引擎(MetaSearchEngine)。用戶只需提交一次搜索請(qǐng)求,由元搜索引擎負(fù)責(zé)轉(zhuǎn)換處理后提交給多個(gè)預(yù)先選定的獨(dú)立搜索引擎,并將從各獨(dú)立搜索引擎返回的所有查詢結(jié)果,集中起來(lái)處理后再返回給用戶。第一個(gè)元搜索引擎,是Washington大學(xué)碩士生EricSelberg

和OrenEtzioni的Metacrawler。元搜索引擎概念上好聽(tīng),但搜索效果始終不理想,所以沒(méi)有哪個(gè)元搜索引擎有過(guò)強(qiáng)勢(shì)地位。好聽(tīng)不好用的元搜索引擎221995年,一種新的搜索引擎形式出現(xiàn)了——元89第三代搜索:網(wǎng)頁(yè)搜索它們都屬于網(wǎng)頁(yè)自動(dòng)搜索引擎,有的還帶有智能分析或FTP、P2P搜索功能23第三代搜索:網(wǎng)頁(yè)搜索它們都屬于網(wǎng)頁(yè)自動(dòng)搜索引擎,有的還帶905、搜索引擎的工作原理245、搜索引擎的工作原理手工檢索(ManualRetrieval)爬行器(即機(jī)器人、蜘蛛等搜索程序)不是互聯(lián)網(wǎng)上所有的信息都能被搜索引擎搜集。How?搜索引擎并不真正搜索互聯(lián)網(wǎng),它搜索的實(shí)際上是預(yù)先整理好的網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)。他們于1998年

共同創(chuàng)立了Google。LarryPage,創(chuàng)始人之一,主管產(chǎn)品因?yàn)樗邢嚓P(guān)網(wǎng)頁(yè)針對(duì)該關(guān)鍵詞的相關(guān)度早已算好,所以只需按照現(xiàn)成的相關(guān)度數(shù)值排序,相關(guān)度越高,排名越靠前。3、點(diǎn)擊IE瀏覽器文件菜單上的“另存為…”命令,將該頁(yè)面下載到你的作業(yè)文件夾中保存。檢索系統(tǒng)由一定的檢索設(shè)備(計(jì)算機(jī))和經(jīng)過(guò)加工整理并存儲(chǔ)在相應(yīng)載體上的信息集合及其他設(shè)備共同構(gòu)成的具有存儲(chǔ)和檢索功能的信息服務(wù)系統(tǒng)。計(jì)算機(jī)既然如此“無(wú)能”,連三歲小孩的智能都不具有,那么為什么人們要在網(wǎng)上查找信息,卻總要通過(guò)計(jì)算機(jī)幫忙呢?計(jì)算機(jī)檢索的奧妙在哪里呢?第一類搜索引擎:

網(wǎng)頁(yè)搜索引擎

以谷歌和百度為代表如果能找到一套適合自己需要的漂亮的PPT模板,則制作各類演示課件就會(huì)事半功倍。隨著搜索引擎的發(fā)展,許多搜索引擎在此基礎(chǔ)上增加特色功能。一個(gè)匹配(Match)過(guò)程91手工檢索(ManualRetrieval)2592搜索引擎并不真正搜索互聯(lián)網(wǎng),它搜索的實(shí)際上是預(yù)先整理好的網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)。搜索引擎至少由三部分組成:

爬行器(即機(jī)器人、蜘蛛等搜索程序)索引生成器(即網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù))查詢檢索器(即用戶檢索界面)隨著搜索引擎的發(fā)展,許多搜索引擎在此基礎(chǔ)上增加特色功能。如百度增加了監(jiān)控程序。26搜索引擎并不真正搜索互聯(lián)網(wǎng),它搜索的實(shí)際上是93搜索引擎的工作原理就像超市索引生成器(網(wǎng)頁(yè)數(shù)據(jù)庫(kù))爬行器(蜘蛛)查詢檢索器(用戶查詢)因特網(wǎng)27搜索引擎的工作原理就像超市索引生成器爬行器查詢檢索器因特94利用能夠從互聯(lián)網(wǎng)上自動(dòng)收集網(wǎng)頁(yè)的Spider系統(tǒng)程序,自動(dòng)訪問(wèn)互聯(lián)網(wǎng),并沿著任何網(wǎng)頁(yè)中的所有URL爬到其它網(wǎng)頁(yè),重復(fù)這過(guò)程,并把爬過(guò)的所有網(wǎng)頁(yè)收集回來(lái)。

第一步:從互聯(lián)網(wǎng)上抓取網(wǎng)頁(yè)因特網(wǎng)28利用能夠從互聯(lián)網(wǎng)上自動(dòng)收集網(wǎng)頁(yè)的Spider95第二步:建立索引數(shù)據(jù)庫(kù)由分析索引系統(tǒng)程序?qū)κ占貋?lái)的網(wǎng)頁(yè)進(jìn)行分析,提取相關(guān)網(wǎng)頁(yè)信息(包括網(wǎng)頁(yè)所在URL、編碼類型、頁(yè)面內(nèi)容包含的關(guān)鍵詞、關(guān)鍵詞位置、生成時(shí)間、大小、與其它網(wǎng)頁(yè)的鏈接關(guān)系等),根據(jù)一定的相關(guān)度算法進(jìn)行大量復(fù)雜計(jì)算,得到每一個(gè)網(wǎng)頁(yè)針對(duì)頁(yè)面內(nèi)容中及超鏈中每一個(gè)關(guān)鍵詞的相關(guān)度(或重要性),然后用這些相關(guān)信息建立網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)。29第二步:建立索引數(shù)據(jù)庫(kù)由分析索引系統(tǒng)程序?qū)κ占?6搜索引擎的Spider一般要定期重新訪問(wèn)所有網(wǎng)頁(yè)(各搜索引擎的周期不同,可能是幾天、幾周或幾月,也可能對(duì)不同重要性的網(wǎng)頁(yè)有不同的更新頻率),更新網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù),以反映出網(wǎng)頁(yè)內(nèi)容的更新情況,增加新的網(wǎng)頁(yè)信息,去除死鏈接,并根據(jù)網(wǎng)頁(yè)內(nèi)容和鏈接關(guān)系的變化重新排序。這樣,網(wǎng)頁(yè)的具體內(nèi)容和變化情況就會(huì)反映到用戶查詢的結(jié)果中。30搜索引擎的Spider一般要定期重新訪問(wèn)所有97第三步:檢索界面的建立當(dāng)用戶輸入關(guān)鍵詞搜索后,由搜索系統(tǒng)程序從網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁(yè)。因?yàn)樗邢嚓P(guān)網(wǎng)頁(yè)針對(duì)該關(guān)鍵詞的相關(guān)度早已算好,所以只需按照現(xiàn)成的相關(guān)度數(shù)值排序,相關(guān)度越高,排名越靠前。

最后,由頁(yè)面生成系統(tǒng)將搜索結(jié)果的鏈接地址和頁(yè)面內(nèi)容摘要等內(nèi)容組織起來(lái)返回給用戶。31第三步:檢索界面的建立當(dāng)用戶輸入關(guān)鍵詞搜索后98每個(gè)搜索引擎都必須向用戶提供一個(gè)良好的信息查詢界面,一般包括分類目錄及關(guān)鍵詞兩種信息查詢途徑。32每個(gè)搜索引擎都必須向用戶提供一個(gè)良好的信息查詢界993310034所以在網(wǎng)絡(luò)信息檢索中,我們常常要借助于搜索引擎來(lái)幫助我們“大海里撈針”。第三步:檢索界面的建立P2P信息資源:私人計(jì)算機(jī)上的信息資源爬行器(即機(jī)器人、蜘蛛等搜索程序)門(mén)戶網(wǎng)站和看不見(jiàn)的網(wǎng)站用戶只需提交一次搜索請(qǐng)求,由元搜索引擎負(fù)責(zé)轉(zhuǎn)換處理后提交給多個(gè)預(yù)先選定的獨(dú)立搜索引擎,并將從各獨(dú)立搜索引擎返回的所有查詢結(jié)果,集中起來(lái)處理后再返回給用戶。索引生成器(即網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù))一個(gè)匹配(Match)過(guò)程WWW信息資源:web網(wǎng)頁(yè)爬行器(即機(jī)器人、蜘蛛等搜索程序)因?yàn)閅ahoo!的數(shù)據(jù)是手工輸入的,所以不能真正被歸為搜索引擎,事實(shí)上只是一個(gè)可搜索的目錄。提示:可試用以下檢索詞:MonaLisaLouvremuseumstolen蒙娜麗莎500歲蒙娜麗莎被偷盧浮宮全球最大中文搜索引擎。信息時(shí)效性強(qiáng)、變化頻繁Archie是一個(gè)可搜索的FTP文件名列表,用戶必須輸入精確的文件名搜索,然后Archie會(huì)告訴用戶哪一個(gè)FTP地址可以下載該文件。第三節(jié)

兩類搜索引擎及

網(wǎng)頁(yè)搜索引擎所以在網(wǎng)絡(luò)信息檢索中,我們常常要借助于搜索引擎來(lái)幫助我們“大102兩類搜索引擎的代表2以FTP和P2P資源搜索為主的搜索引擎1以網(wǎng)頁(yè)搜索為主的搜索引擎百度、Google、Yahoo等迅雷、天網(wǎng)Maze等36兩類搜索引擎的代表2以FTP和P2P資源搜索為主的搜索引103第一類搜索引擎:

網(wǎng)頁(yè)搜索引擎

以谷歌和百度為代表37第一類搜索引擎:

網(wǎng)頁(yè)搜索引擎

以谷歌和百度為代表1041、Google搜索引擎

Google搜索引擎誕生于斯坦福大學(xué)的一個(gè)學(xué)生宿舍里,然后迅速傳播到全球的信息搜索者。

Google目前被公認(rèn)為萬(wàn)維網(wǎng)上最大的搜索引擎,它提供了簡(jiǎn)單易用的免費(fèi)服務(wù),使用戶能夠訪問(wèn)一個(gè)包含超過(guò)80億個(gè)網(wǎng)址的索引。

“Google”來(lái)自于數(shù)學(xué)名詞“Googol”,Googol表示一個(gè)1后面跟著100個(gè)零。GoogleInt.使用這一術(shù)語(yǔ)體現(xiàn)了公司整合網(wǎng)上海量信息的遠(yuǎn)大目標(biāo)。地址:381、Google搜索引擎Google搜索105Google簡(jiǎn)介:LarryPage,創(chuàng)始人之一,主管產(chǎn)品的總裁。密西根安娜堡大學(xué)的榮譽(yù)畢業(yè)生,擁有理工科學(xué)士學(xué)位。他還因其出色的領(lǐng)導(dǎo)才能獲得過(guò)多項(xiàng)榮譽(yù),以獎(jiǎng)勵(lì)他對(duì)工學(xué)院的貢獻(xiàn)。他曾擔(dān)任密西根大學(xué)EtaKappaNu榮譽(yù)學(xué)會(huì)的會(huì)長(zhǎng)。目前他暫時(shí)從斯坦福大學(xué)計(jì)算機(jī)研究所博士班休學(xué),其指導(dǎo)教授是TerryWinograd博士。Google就是由Page在斯坦福大學(xué)發(fā)起的研究項(xiàng)目轉(zhuǎn)變而來(lái)的。39Google簡(jiǎn)介:LarryPage,創(chuàng)始人之一,主106Google簡(jiǎn)介:SergeyBrin,創(chuàng)始人之一,主管技術(shù)的總裁。出生于莫斯科,是馬里蘭大學(xué)校本部的榮譽(yù)畢業(yè)生,擁有數(shù)學(xué)專業(yè)和計(jì)算機(jī)專業(yè)的理學(xué)士學(xué)位。已取得斯坦福大學(xué)計(jì)算機(jī)專業(yè)碩士學(xué)位,目前暫時(shí)從博士班休學(xué)。29歲的Sergey是美國(guó)國(guó)家科學(xué)基金會(huì)的獎(jiǎng)學(xué)金得主。他在斯坦福

遇到了LarryPage并參與了后來(lái)成為

Google的研究項(xiàng)目。他們于1998年

共同創(chuàng)立了Google。40Google簡(jiǎn)介:SergeyBrin,創(chuàng)始人之一,107注意用“

”與*功能41注意用“”與*功能10842109谷歌其他功能43谷歌其他功能1102、百度(baidu)全球最大中文搜索引擎。提供網(wǎng)頁(yè)快照、網(wǎng)頁(yè)預(yù)覽/預(yù)覽全部網(wǎng)頁(yè)、相關(guān)搜索詞、錯(cuò)別字糾正提示、新聞搜索、Flash搜索、信息快遞搜索、百度搜霸、搜索援助中心。地址:442、百度(baidu)全球最大中文搜索引擎。111452、網(wǎng)絡(luò)信息資源的特點(diǎn)也叫現(xiàn)代信息檢索,是指利用計(jì)算機(jī)和網(wǎng)絡(luò)來(lái)處理和查找文獻(xiàn)信息的檢索方式。文獻(xiàn)檢索課程作業(yè)3

下載PPT模板最后,由頁(yè)面生成系統(tǒng)將搜索結(jié)果的鏈接地址和頁(yè)面內(nèi)容摘要等內(nèi)容組織起來(lái)返回給用戶。GoogleInt.全球最大中文搜索引擎。不是互聯(lián)網(wǎng)上所有的信息都能被搜索引擎搜集。2、在搜索引擎對(duì)話框中反復(fù)輸入不同的檢索詞,搜索給定的目標(biāo)文獻(xiàn)網(wǎng)頁(yè)。3、點(diǎn)擊IE瀏覽器文件菜單上的“另存為…”命令,將該頁(yè)面下載到你的作業(yè)文件夾中保存。文獻(xiàn)檢索課程作業(yè)3

下載PPT模板SearchEngineBlog信息資源:博客、播客等等信息資源Powerpoint是目前應(yīng)用最廣泛的多媒體制作工具。他在斯坦福

遇到了LarryPage并參與了后來(lái)成為

Google的研究項(xiàng)目。光盤(pán)檢索(CDsearch)112一、概況百度(B,Inc)于1999年底成立于美國(guó)硅谷,2000年,落戶中國(guó)。

2001年8月,發(fā)布B搜索引擎Beta版,從后臺(tái)服務(wù)轉(zhuǎn)向獨(dú)立提供搜索服務(wù),并且在中國(guó)首創(chuàng)了競(jìng)價(jià)排名商業(yè)模式。

2001年10月22日正式發(fā)布Baidu搜索引擎。

2005年8月5日,百度在美國(guó)納斯達(dá)克上市。李彥宏2、網(wǎng)絡(luò)信息資源的特點(diǎn)46一、概況李彥宏113

“百度”二字取自辛棄疾的《青玉案》“眾里尋她千百度”。現(xiàn)在百度已成為世界上最大的中文搜索引擎。用戶能夠訪問(wèn)超過(guò)6億的中文網(wǎng)頁(yè),5000多萬(wàn)張圖片、500多萬(wàn)首中文mp3及各種格式的音樂(lè)。47“百度”二字取自辛棄疾的《青玉案》“眾里尋11448115?

北京正望咨詢有限公司49?北京正望咨詢有限公司116百度VSGoogle50百度VSGoogle一個(gè)匹配(Match)過(guò)程信息時(shí)效性強(qiáng)、變化頻繁休學(xué),其指導(dǎo)教授是TerryWinograd博士。2005年8月5日,百度在美國(guó)納斯達(dá)克上市。P2P搜索引擎使用方法一個(gè)匹配(Match)過(guò)程如果能找到一套適合自己需要的漂亮的PPT模板,則制作各類演示課件就會(huì)事半功倍。Google目前被公認(rèn)為萬(wàn)維網(wǎng)上最大的搜索引擎,它提供了簡(jiǎn)單易用的免費(fèi)服務(wù),使用戶能夠訪問(wèn)一個(gè)包含超過(guò)80億個(gè)網(wǎng)址的索引。注意用“”與*功能FTP信息資源:遠(yuǎn)程計(jì)算機(jī)上的文件夾1995年,一種新的搜索引擎形式出現(xiàn)了——元搜索引擎(MetaSearchEngine)。GoogleTutorial搜索引擎的工作原理就像超市FTP信息資源:遠(yuǎn)程計(jì)算機(jī)上的文件夾如果能找到一套適合自己需要的漂亮的PPT模板,則制作各類演示課件就會(huì)事半功倍。117目標(biāo)信息一定含有的關(guān)鍵字:用雙引號(hào)連起來(lái)目標(biāo)信息不能含有的關(guān)鍵字:用“

-”去掉目標(biāo)信息可能含有的關(guān)鍵字:用“OR”或空格連起來(lái)重要提示一個(gè)匹配(Match)過(guò)程51目標(biāo)信息一定含有的關(guān)鍵字:118關(guān)于搜索的一些思想不是互聯(lián)網(wǎng)上所有的信息都能被搜索引擎搜集。動(dòng)手前多動(dòng)腦。不要盲目信任搜索得到的信息。不要期望一次搜索解決問(wèn)題?;ヂ?lián)網(wǎng)上并沒(méi)有所有的東西!52關(guān)于搜索的一些思想互聯(lián)網(wǎng)上并沒(méi)有所有的東西!119附加資料Baidu幫助中心Google幫助中心搜索引擎列表GoogleTutorial中文搜索引擎指南網(wǎng)53附加資料Baidu幫助中心120文獻(xiàn)檢索課程作業(yè)3

下載PPT模板

Powerpoint是目前應(yīng)用最廣泛的多媒體制作工具。如果能找到一套適合自己需要的漂亮的PPT模板,則制作各類演示課件就會(huì)事半功倍。

本作業(yè)要求你從網(wǎng)上找到至少三套適合做課堂教學(xué)和畢業(yè)論文匯報(bào)將沿用的PPT模版,要求每套模版至少要有30張以上的不同版面設(shè)計(jì)幻燈片,如本幻燈片所示。54文獻(xiàn)檢索課程作業(yè)3

下載PPT模板

Powerp121作業(yè)提示

請(qǐng)使用各種搜索引擎,輸入合適的檢索詞后尋找,將你認(rèn)為滿意的模版發(fā)送到局域網(wǎng)服務(wù)器上。55作業(yè)提示

請(qǐng)使用各種搜索引擎,輸入合適的檢索詞后尋找,122文獻(xiàn)檢索課程作業(yè)4

尋找蒙娜麗莎

1、請(qǐng)?jiān)诰W(wǎng)上尋找如下圖所示世界名畫(huà)《蒙娜麗莎》的指定圖片和介紹她被偷的文章。注意,如不是指

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論