《 大學(xué)計算機基礎(chǔ) 》實驗報告_第1頁
《 大學(xué)計算機基礎(chǔ) 》實驗報告_第2頁
《 大學(xué)計算機基礎(chǔ) 》實驗報告_第3頁
《 大學(xué)計算機基礎(chǔ) 》實驗報告_第4頁
《 大學(xué)計算機基礎(chǔ) 》實驗報告_第5頁
已閱讀5頁,還剩11頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、題目 期末綜合實驗報告網(wǎng)絡(luò)資源和搜索引擎 姓名與學(xué)號 黃小清 3110104705 授課教師 陶黎黎 年級與專業(yè) 2011級 工學(xué)1126班 目錄摘要:3abstract3(一)什么是網(wǎng)絡(luò)資源4(二)網(wǎng)絡(luò)資源的特點4第二章 搜索引擎5(一)什么是搜索引擎5(二)搜索引擎的分類51.全文索引52.目錄索引53.元搜索引擎54.垂直搜索引擎65其他搜索引擎6(三)工作原理71.抓取網(wǎng)頁72.處理網(wǎng)頁73.提供檢索服務(wù)7第三章 常用搜索引擎91.百度 9百度產(chǎn)品92.google.hk11第四章 .網(wǎng)絡(luò)資源和搜索引擎數(shù)據(jù)統(tǒng)計分析12chapter112chapter2 全球視野13chapter3

2、搜索引擎請求量14結(jié)束語17摘要:在網(wǎng)絡(luò)信息資源檢索的研究中 ,搜索引擎的研究具有非常重要的意義。本文在基于對現(xiàn)有搜索引擎的分析的基礎(chǔ)上 ,闡述了搜索引擎的智能化發(fā)展 ,以及將會從根本上改變現(xiàn)有信息資源檢索方式和信息服務(wù)模式。關(guān)鍵詞:搜索引擎; 網(wǎng)絡(luò)信息資源; 信息檢索; abstractin the research the internet information resources retrieval, the study of search engine enjoys a great significance. it is based on the analysis of the cu

3、rrent search engine that this article expounds its intelligent development. the existing information resources retrieval method and information service pattern will be essentially altered.keywords : search engine internet information resources information retrieval一、網(wǎng)絡(luò)資源(一)什么是網(wǎng)絡(luò)資源網(wǎng)絡(luò)資源是指通過現(xiàn)代計算機和通訊技術(shù)相

4、結(jié)合構(gòu)筑起來的以超鏈接方式將文字、圖像、語言和視頻信息鏈接為超文本和超媒體系統(tǒng).它具有信息來源廣、量大、傳播速度快、內(nèi)容寵雜不一形式多樣及時等特點(二)網(wǎng)絡(luò)資源的特點 在網(wǎng)絡(luò)環(huán)境下,信息資源在數(shù)量、結(jié)構(gòu)、分布和傳播范圍、類型、控制機制和傳遞手段方面都與傳統(tǒng)的信息資源有了顯著差異,呈現(xiàn)出新的特點。 1、以網(wǎng)絡(luò)為傳播媒體 在網(wǎng)絡(luò)時代,信息的存在需要借助一種不同于以往載體的信息載體網(wǎng)絡(luò),為用戶提供的信息是來自internet的各種網(wǎng)絡(luò)服務(wù)器上的虛擬信息,而不是實實在在的實體形式的信息。信息的存儲和查詢更加方便,而且存儲信息密度高、容量大、可以無損耗地被重復(fù)利用。 2、以多媒體為內(nèi)容特征 intern

5、et上的信息資源的存儲和處理采用文本、超文本、多媒體和超媒體形式。 文本形式的信息資源的知識單元是按線性順序排列的,超文本形式的信息資源是按知識單元及其關(guān)系建立的知識結(jié)構(gòu)網(wǎng)絡(luò)。它通過網(wǎng)上各節(jié)點的鏈路把相關(guān)信息(文字信息、圖片、地圖和其他直觀信息)有機地編織在一個網(wǎng)狀結(jié)構(gòu)內(nèi),檢索用戶能夠從任何一個節(jié)點開始,從不同角度檢索到感興趣的信息。超文本信息資源是人機交互式的,可隨時調(diào)用、檢索和存儲信息。 多媒體信息資源是包括文本、圖像和聲音在內(nèi)的各種信息表達或傳播形式的總稱。它提供的信息集圖、文、聲于一體,可以為用戶提供文本、圖像、聲音信息以及它們的組合。 3、以現(xiàn)代信息技術(shù)為紀錄手段 網(wǎng)絡(luò)信息以數(shù)字形式

6、存在,可以借助網(wǎng)絡(luò)進行遠距離傳播,從而使全球信息資源的共享成為可能。 4、數(shù)據(jù)結(jié)構(gòu)具通用性、開放性和標準化 數(shù)據(jù)結(jié)構(gòu)的通用性、開放性和標準化使得信息資源易于擴充,各個系統(tǒng)之間易實現(xiàn)互連和互操作。 5、具高度的整合性,便于多種媒體一體化 易于實現(xiàn)各種網(wǎng)絡(luò)資源的相互轉(zhuǎn)化和二次開發(fā),在新的平臺上形成新的綜合性信息產(chǎn)品,便于檢索,增加了信息資源的利用價值。 6、交互性能增強 傳播方式的多樣性、交互性,從多方面貼近人們的生活,它具有潛在活力,也最具表現(xiàn)力。 第二章 搜索引擎(一)什么是搜索引擎搜索引擎(search engine)是指根據(jù)一定的策略、運用特定的計算機程序搜集互聯(lián)網(wǎng)上的網(wǎng)站網(wǎng)頁及其他信息,

7、并對收集到的信息進行相關(guān)組織和處理,建立相應(yīng)的數(shù)據(jù)庫和索引文檔,為用戶提供搜索服務(wù)的系統(tǒng)。(二)搜索引擎的分類1.全文索引全文搜索引擎是名副其實的搜索引擎,國外代表有g(shù)oogle,國內(nèi)則有著名的百度搜索。它們從互聯(lián)網(wǎng)提取各個網(wǎng)站的信息(以網(wǎng)頁文字為主),建立起數(shù)據(jù)庫,并能檢索與用戶查詢條件相匹配的記錄,按一定的排列順序返回結(jié)果。 根據(jù)搜索結(jié)果來源的不同,全文搜索引擎可分為兩類,一類擁有自己的檢索程序(indexer),俗稱“蜘蛛”(spider)程序或“機器人”(robot)程序,能自建網(wǎng)頁數(shù)據(jù)庫,搜索結(jié)果直接從自身的數(shù)據(jù)庫中調(diào)用,上面提到的google和百度就屬于此類;另一類則是租用其他搜索

8、引擎的數(shù)據(jù)庫,并按自定的格式排列搜索結(jié)果,如lycos搜索引擎。2.目錄索引 雖然有搜索功能,但嚴格意義上不能稱為真正的搜索引擎,只是按目錄分類的網(wǎng)站鏈接列表而已。用戶完全可以按照分類目錄找到所需要的信息,不依靠關(guān)鍵詞(keywords)進行查詢。目錄索引中最具代表性的莫過于大名鼎鼎的yahoo、新浪分類0目錄搜索。3.元搜索引擎元搜索引擎(meta search engine)接受用戶查詢請求后,同時在多個搜索引擎上搜索,并將結(jié)果返回給用戶。著名的元搜索引擎有infospace、dogpile、vivisimo等,中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索結(jié)果排列方面,有的直接按來源排

9、列搜索結(jié)果,如dogpile;有的則按自定的規(guī)則將結(jié)果重新排列組合,如vivisimo。4.垂直搜索引擎 垂直搜索引擎為2006年后逐步興起的一類搜索引擎。不同于通用的網(wǎng)頁搜索引擎,垂直搜索專注于特定的搜索領(lǐng)域和搜索需求(例如:機票搜索、旅游搜索、生活搜索、小說搜索、視頻搜索等等),在其特定的搜索領(lǐng)域有更好的用戶體驗。相比通用搜索動輒數(shù)千臺檢索服務(wù)器,垂直搜索需要的硬件成本低、用戶需求特定、查詢的方式多樣。5其他搜索引擎(1)集合式搜索引擎:該搜索引擎類似元搜索引擎,區(qū)別在于它并非同時調(diào)用多個搜索引擎進行搜索,而是由用戶從提供的若干搜索引擎中選擇,如hotbot在2002年底推出的搜索引擎。

10、(2)門戶搜索引擎:aolsearch、msnsearch等雖然提供搜索服務(wù),但自身既沒有分類目錄也沒有網(wǎng)頁數(shù)據(jù)庫,其搜索結(jié)果完全來自其他搜索引擎。 (3)免費鏈接列表(free for all links簡稱ffa):一般只簡單地滾動鏈接條目,少部分有簡單的分類目錄,不過規(guī)模要比yahoo!等目錄索引小很多。(三)工作原理1.抓取網(wǎng)頁每個獨立的搜索引擎都有自己的網(wǎng)頁抓取程序(spider)。spider順著網(wǎng)頁中的超鏈接,連續(xù)地抓取網(wǎng)頁。被抓取的網(wǎng)頁被稱之為網(wǎng)頁快照。由于互聯(lián)網(wǎng)中超鏈接的應(yīng)用很普遍,理論上,從一定范圍的網(wǎng)頁出發(fā),就能搜集到絕大多數(shù)的網(wǎng)頁。 2.處理網(wǎng)頁搜索引擎抓到網(wǎng)頁后,還要

11、做大量的預(yù)處理工作,才能提供檢索服務(wù)。其中,最重要的就是提取關(guān)鍵詞,建立索引文件。其他還包括去除重復(fù)網(wǎng)頁、分詞(中文)、判斷網(wǎng)頁類型、分析超鏈接、計算網(wǎng)頁的重要度/豐富度等。 3.提供檢索服務(wù)用戶輸入關(guān)鍵詞進行檢索,搜索引擎從索引數(shù)據(jù)庫中找到匹配該關(guān)鍵詞的網(wǎng)頁;為了用戶便于判斷,除了網(wǎng)頁標題和url外,還會提供一段來自網(wǎng)頁的摘要以及其他信息。第三章 常用搜索引擎1.百度 百度現(xiàn)在當之無愧是中國網(wǎng)民最鐘愛的搜索引擎,幾乎整個中國網(wǎng)絡(luò)的搜索都是在百度上,下面簡單介紹一下。百度的起名,來自于“眾里尋她千百度”的靈感,1999年底,百度由李彥宏和徐勇創(chuàng)立于美國硅谷,2000年百度公司回國發(fā)展。baid

12、u(百度)是目前全球最優(yōu)秀的中文搜索引擎。中國所有提供搜索引擎的門戶網(wǎng)站中,超過80%以上都由百度提供搜索引擎技術(shù)支持,現(xiàn)有客戶包括新浪、 chinaren、騰訊、263、21cn等。百度提供免費中文檢索代碼,任何人都可將百度搜索引擎掛接到自己的網(wǎng)站。百度是世界上第一個支持搜索動態(tài)網(wǎng)頁的搜索引擎。百度產(chǎn)品百度產(chǎn)品很多,主要提供新聞、網(wǎng)頁、貼吧、知道、百科、mp3、圖片、視頻、下吧、網(wǎng)站、網(wǎng)站、詞典、國學(xué)、黃頁和風(fēng)云榜等搜索服務(wù)。2.google.hkgoogle公司(英語:google inc.,nasdaq:goog、fwb:ggq1),是一家美國的跨國科技企業(yè),致力于互聯(lián)網(wǎng)搜索、云計算、廣

13、告技術(shù)等領(lǐng)域。google(google inc.,nasdaq:goog)是一家美國上市公司(公有股份公司),于1998年9月7日以私有股份公司的形式創(chuàng)立,以設(shè)計并管理一個互聯(lián)網(wǎng)搜索引擎。google公司的總部稱作“googleplex”,它位于加利福尼亞山景城。google 創(chuàng)始人 larry page 和 sergey brin 在斯坦福大學(xué)的學(xué)生宿舍內(nèi)共同開發(fā)了全新的在線搜索引擎,然后迅速傳播給全球的信息搜索者。google 目前被公認為是全球規(guī)模最大的搜索引擎,它提供了簡單易用的免費服務(wù)。不作惡(dont be evil)是谷歌公司的一項非正式的公司口號,最早是由gmail服務(wù)創(chuàng)始人

14、在一次會議中提出。第四章 .網(wǎng)絡(luò)資源和搜索引擎數(shù)據(jù)統(tǒng)計分析chapter1 市場份額 2011年10月28日根據(jù)易觀智庫enfodesk產(chǎn)業(yè)數(shù)據(jù)庫發(fā)布的2011年第3季度中國搜索引擎市場季度監(jiān)測數(shù)據(jù)顯示,2011年第3季度中國搜索引擎運營商市場份額中,百度占到78.2%,谷歌中國占到17.2%。chapter2 全球視野 近期我們從中國搜索類網(wǎng)站統(tǒng)計排名中了解到,百度以絕對的優(yōu)勢排名第一,其用戶覆蓋數(shù)達到了104200。而在全球的搜索引擎市場中,百度是否還能榜上有名呢?下面,和您一起關(guān)注5月份全球各搜索引擎的市場走向情況。圖1:全球各搜索引擎市場份額(2011年5月)由圖1我們看到,googl

15、e全球占了82.8%的市場份額,繼續(xù)領(lǐng)跑全球搜索引擎市場,雅虎全球則以6.42%的市場份額位居第二。而百度再次擊敗bing位居第三。另外我們看到,google、雅虎、百度、必應(yīng)四大搜索引擎在五月份占了98.02%的市場,可見這四大搜索引擎已然成為全球搜索引擎市場的主流產(chǎn)品。下面我們通過圖2來了解全球各搜索引擎的市場走向情況。圖2:全球各搜索引擎所占市場份額(2011年1月至2011年5月)chapter3 搜索引擎請求量 2009年全球搜索請求量規(guī)模為9886.1億次,年同比增長30.0%,艾瑞觀察全球搜索請求量歷年增長態(tài)勢發(fā)現(xiàn),其近三年基本維持在30%上下的增幅,全球搜索引擎流量既2004年前后50%左右的增速之后,逐步進入穩(wěn)定增長階段。自2007年中國成為全球搜索請求量最高的國家以來,其在全球市場的領(lǐng)先優(yōu)勢持續(xù)強化:2007年至2009年,中國搜索逐漸拉大與美國等其他國家的差距。數(shù)據(jù)來源:參考文獻及網(wǎng)站:【1】百度文庫【2】【3】中國知網(wǎng)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論