八個著名中文搜索引擎的特征及其評析 - 陸興-_第1頁
八個著名中文搜索引擎的特征及其評析 - 陸興-_第2頁
八個著名中文搜索引擎的特征及其評析 - 陸興-_第3頁
八個著名中文搜索引擎的特征及其評析 - 陸興-_第4頁
八個著名中文搜索引擎的特征及其評析 - 陸興-_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、陸 興(寧夏大學(xué)物理電氣信息學(xué)院,寧夏 銀川 750021八個著名中文搜索引擎的特征及其評析關(guān)鍵詞搜索引擎;中文網(wǎng)站;信息檢索;評價摘 要對八個著名中文搜索引擎(新浪、搜狐、網(wǎng)易、天網(wǎng)、悠游、FM365、古戈爾中文、雅虎中文的數(shù)據(jù)庫規(guī)模、信息采集、檢索功能、結(jié)果顯示格式、結(jié)果排列順序等方面的主要特征進行了比較和評析。中圖分類號G354.2;G250.73文獻標識碼B文章編號1005-8214(200302-0046-03Internet搜索引擎就像信息海洋中的導(dǎo)航員,能幫助人們快速找到所需的信息。然而隨著各種信息的巨量增長,人們使用搜索引擎也遇到了許多困難,相同的搜索詞在不同的搜索引擎中得出不

2、同的結(jié)果,在質(zhì)量和數(shù)量上都有所不同。產(chǎn)生這種現(xiàn)象是因為不同的搜索引擎采集信息的方法、標引的內(nèi)容以及檢索功能是有所區(qū)別的。本文對八個著名的中文搜索引擎的特征進行比較和評析,通過比較不同搜索引擎的工作方式,幫助用戶正確掌握不同搜索引擎的使用規(guī)則,輕松方便地上網(wǎng)查找信息;另一方面,還可以幫助網(wǎng)頁設(shè)計者根據(jù)搜索引擎的要求去設(shè)計網(wǎng)頁,確保自己的網(wǎng)站能被搜索引擎收錄并且在進行檢索時能得到較好的排名。1 搜索引擎的工作原理機器人搜索引擎一般由搜索軟件、索引軟件和檢索軟件三部分組成。搜索軟件通常稱為機器人(Robot、爬蟲(Crawlers或蜘蛛(Spiders,它們可以運行在WWW上,是能夠沿著網(wǎng)站的鏈接從

3、一個頁面跨越到另一個頁面,自動追尋和發(fā)掘網(wǎng)上的各種文獻信息資源,采集新出現(xiàn)的信息,確認網(wǎng)頁之間的鏈接是否有效并剔除死鏈的一種軟件。索引軟件將采集的網(wǎng)頁信息進行自動標引,建立索引數(shù)據(jù)庫。不同的索引軟件標引網(wǎng)頁的內(nèi)容是不同的,有些對網(wǎng)頁全文進行標引,有些只標引網(wǎng)頁的地址、篇名、題名、特定段落和重要的詞。不同的索引軟件建立數(shù)據(jù)庫的規(guī)模不一樣,數(shù)據(jù)規(guī)模大小決定查詢的信息是否全面和查全率的高低。查詢軟件決定搜索引擎的檢索功能和返回結(jié)果的相關(guān)性。在檢索過程中,該軟件還會利用特殊的計算機算法對文獻與檢索詞的相關(guān)性進行計算和評估。不同的搜索引擎依據(jù)各自的標準對相關(guān)度做出判斷。2 八個著名中文搜索引擎的特征及其

4、評析新浪公司于1998年底成功地并購海外最大的華人網(wǎng)站公司 華淵資訊 ,成立全球最大的華人網(wǎng)站 新浪網(wǎng) 。新浪網(wǎng)收錄了大量中文網(wǎng)址,內(nèi)容豐富,分類詳細,共分為15個大類,1萬個細目和10余萬個網(wǎng)站。在關(guān)鍵字搜索中還推出一些熱門關(guān)鍵字,如交友、聊天、股票等,用戶可直接由此進入相關(guān)網(wǎng)站。是一個在多項服務(wù)上齊頭并進的商業(yè)網(wǎng)站。新浪網(wǎng)數(shù)據(jù)庫中收錄了200多萬個網(wǎng)頁,在中文搜索引擎容量排行榜上列居第一。在查詢途徑上提供關(guān)鍵詞查詢和分類檢索兩種查詢方法,信息采集方式為網(wǎng)絡(luò)機器人自動搜索。支持簡單和高級查詢,能通過 and、or、not 等的聯(lián)系,擴大或縮小查詢結(jié)果,支持從結(jié)果中再檢索。查詢結(jié)果顯示格式包括

5、:標題、簡要描述、URL文件大小、文件索引日期等。檢索結(jié)果按相關(guān)度級別順序顯示結(jié)果,同時提供相關(guān)類目、相關(guān)站點、相關(guān)網(wǎng)頁等。評價:數(shù)據(jù)庫容量大,用戶界面友好,人性化方面做得相當出色。高級搜索方便實用,站點本身內(nèi)容豐富,是目前檢索軟件中功能最全面、查全率最高的優(yōu)秀搜索引擎之一。搜狐是由愛特信(ITC公司于1998年2月在北京隆重推出的有 中文網(wǎng)路神探 之稱的大型網(wǎng)上中文查找工具。它是以提供分類目錄為主的中文搜索引擎,其分類原則是以圖書分類為基礎(chǔ),與日常應(yīng)用習(xí)慣相結(jié)合,由編輯人員分類。它的信息抓取范圍較其它中文搜索引擎要廣,不僅有國內(nèi)站點,還包括國外的中文站點,日訪問率達上萬人次。搜狐還提供了許多

6、高質(zhì)量的內(nèi)容服務(wù),如 新聞導(dǎo)讀 、 娛樂天地 、 企業(yè)集錦 等服務(wù)項目。搜狐數(shù)據(jù)庫中收錄了200萬個網(wǎng)頁,搜索方式是通過人工建立一個結(jié)構(gòu)化的分類目錄體系,將網(wǎng)絡(luò)機器人 抓 回來的網(wǎng)站劃分到各個類別及子類下,并將各個網(wǎng)址抽象為一般摘要性信息,作為該網(wǎng)站的概括介紹。各級類目下還伴有一個搜索框,用戶可輸入關(guān)鍵詞檢索,層次清楚,方便用戶簡單地查找某一方面的信息。有基本檢索和高級檢索,支持布爾邏輯檢索,用邏輯符號 AND 或 OR 連接起來。搜索結(jié)果按關(guān)鍵字串的相關(guān)程度來排列相關(guān)網(wǎng)頁或網(wǎng)站,相關(guān)度越高,排列位置越靠前。評價:系統(tǒng)反應(yīng)速度快,查詢準確性高,便于簡單查詢,界面人性化好。自從2000年改用百度

7、的搜索引擎后,搜索能力有了很大提高,但實力還有待提高。網(wǎng)易是由廣州網(wǎng)易計算機系統(tǒng)有限公司推出的一個中文搜索引擎。網(wǎng)易公司連續(xù)在中國互聯(lián)網(wǎng)歷史上創(chuàng)造了多個第一,如:中國第一家提供中文全文搜索,第一個免費賀卡站,第一個虛擬社區(qū)等。網(wǎng)易自從采用Google的搜索引擎技術(shù)后,目前實力不俗,搜索功能全面而實用, 虛擬社區(qū) 服務(wù)很有特色。網(wǎng)易提供了分類瀏覽和關(guān)鍵詞查詢兩種方式。分類瀏覽有12個大類,各大類下分若干個小類。關(guān)鍵詞檢索支46持全文檢索,支持布爾邏輯檢索,不需使用邏輯符號 AND ,搜索引擎自動在關(guān)鍵詞之間添加 AND 。檢索結(jié)果顯示包括網(wǎng)址、提要、長度、最近修改時間和相關(guān)度等。檢索結(jié)果按分類類

8、目及網(wǎng)站信息與關(guān)鍵字串的相關(guān)程度來排列。另外,網(wǎng)易還提供了一些原代碼,用戶可以將這些原代碼放到自己的主頁上,這樣就可以隨時對網(wǎng)絡(luò)資料進行查詢并得出結(jié)果。評價:檢索結(jié)果質(zhì)量相關(guān)度很高,界面友好,搜索個人主頁方便,但不支持從搜索結(jié)果中再搜索。天網(wǎng)搜索引擎是國家 九五 科技攻關(guān)重點項目 中文編碼和分布式中英文信息發(fā)現(xiàn) 的研究成果,曾被 軟件世界 雜志評為最值得關(guān)注的中文搜索引擎。它支持簡體中文、繁體中文以及英文的關(guān)鍵詞檢索,信息來源是國內(nèi)CERNE T、CHINANET、C HINAGBN、CSTE T四大網(wǎng)絡(luò)。天網(wǎng)搜索引擎數(shù)據(jù)庫目前大約收集了135萬個網(wǎng)頁和9萬新聞組文章,信息采集方式為 Robo

9、t 自動發(fā)現(xiàn)和收集信息。天網(wǎng)搜索引擎采用搜索網(wǎng)頁全文的方式,既可以提供WWW網(wǎng)頁全文的檢索,又可以檢索Newsgroup,同時還支持復(fù)雜查詢和FTP檢索。支持布爾邏輯檢索,邏輯運算符號為 & (與 - (非 | (或。檢索結(jié)果顯示格式包括網(wǎng)址、摘要、最后修改時間、長度、相關(guān)度、編碼類型等。檢索結(jié)果按關(guān)鍵字串的相關(guān)程度來排列。評價:數(shù)據(jù)庫容量較大,有中、英文兩個界面。界面友好,操作方便,支持復(fù)雜檢索,查準率高,反饋信息豐富。悠游中文搜索引擎是由美國優(yōu)聯(lián)克有限公司于1997年5月在香港推出的一個高智能的中文搜索引擎,分別在北京、上海、重慶、香港和美國設(shè)立5個分站點,由各地的優(yōu)聯(lián)克分公司進行

10、制作和維護,號稱是一個極具高度智慧的中文搜索器。由于悠游中文搜索引擎融入了人工智能技術(shù),所以它在一定程度上提高了查詢結(jié)果的準確率。同時悠游中文搜索引擎還能夠自動轉(zhuǎn)換GB碼(中文簡體和BIG5碼(中文繁體,所以可以為大陸的用戶查找港臺地區(qū)網(wǎng)站,或者為其它地區(qū)的朋友查找網(wǎng)站提供方便。悠游中文搜索引擎數(shù)據(jù)庫目前大約已收錄了8萬個網(wǎng)站以及80萬中文網(wǎng)頁的信息。信息采集方式為智能機器系統(tǒng),以兩天為周期不停地搜索全球互聯(lián)網(wǎng)網(wǎng)頁,查找新網(wǎng)頁和網(wǎng)頁中的最新資料,并能自動識別和歸類。提供了自動構(gòu)造式的概念類型查詢和關(guān)鍵詞檢索兩種查詢方式,采用布爾算符,還提供了字段限制。查詢結(jié)果顯示格式內(nèi)容豐富,有站點名稱、編碼

11、類型、相關(guān)程度、所在目錄地址、簡要介紹、最后修改日期等。檢索結(jié)果按相關(guān)度高低排列。評價:悠游中文搜索引擎同時提供了GB碼和BIG5碼兩種碼字的檢索界面,它具有漢字內(nèi)碼的自動轉(zhuǎn)換和跟蹤功能,查準率高,用戶可按書寫習(xí)慣輸入檢索請求,方便易用。FM365號稱是新三大門戶網(wǎng)站之一,是聯(lián)想與美國在線在2001年各注冊1億美元合作經(jīng)營的一個電子商務(wù)網(wǎng)站。在最近的幾次測評中,無論是搜索結(jié)果數(shù)量、相關(guān)度等硬指標,還是幫助文檔等服務(wù)性軟指標,FM365均表現(xiàn)不俗。FM365搜索引擎采用藍帆的搜索技術(shù),提供分類目錄檢索和關(guān)鍵詞檢索兩種途徑。關(guān)鍵詞檢索使用同音功能,如輸入 網(wǎng)情 時,同音字 網(wǎng)擎 也會找到,十分方便

12、。在查詢中支持基本查詢和高級查詢,支持布爾邏輯檢索,運用邏輯運算符號 and、or、not 的連接,支持從結(jié)果中再搜索。查詢結(jié)果顯示格式包括網(wǎng)址、標題、簡要介紹、相關(guān)度等。檢索結(jié)果按相關(guān)度高低排列。評價:搜索能力強,反饋信息豐富,查詢結(jié)果質(zhì)量相關(guān)度很高,界面友好。支持模糊搜索,方便靈活。Google是由美國斯坦福大學(xué)的兩位博士生Larry Page 和Sergey Brin在1998年創(chuàng)建的。自2000年正式開始商業(yè)運營以來,目前在全球范圍內(nèi)已擁有一個正在快速增長的忠實用戶群。Google中文搜索引擎是收集亞洲網(wǎng)站最多的搜索引擎之一,信息采集方式是利用蜘蛛程序(Spider以某種方法自動地在互

13、聯(lián)網(wǎng)中搜集和發(fā)現(xiàn)信息,并由索引器為搜集到的信息建立索引,從而為用戶提供面向網(wǎng)頁的全文檢索服務(wù),提供基本查詢和高級搜索兩種檢索功能?;緳z索部分最本質(zhì)的是布爾檢索功能,高級檢索功能包括: 可以將檢索結(jié)果局限在一個網(wǎng)站上; 可以排除某個特定站點的網(wǎng)頁; 可以對網(wǎng)頁以及檢索結(jié)果頁面的語言類型進行限制; 可以檢索鏈向某個網(wǎng)頁的所有頁面; 可以檢索與某個網(wǎng)頁相關(guān)的所有網(wǎng)頁。檢索結(jié)果顯示格式包括標題、網(wǎng)頁(站簡介、URL長度、附帶的全新功能等相關(guān)信息,還會根據(jù)具體情況顯示最新更新日期、類別等信息。檢索結(jié)果按相關(guān)性從大到小排序。評價:Google中文搜索引擎技術(shù)專精,實力出眾。界面很具人性化,首頁設(shè)計簡捷、

14、鮮明、大方,完全突出了檢索功能。操作簡單易用,查詢結(jié)果相關(guān)度很高。不足之處是其數(shù)據(jù)的更新速度無法進一步提高。由于數(shù)據(jù)量龐大,使Google搜索引擎的數(shù)據(jù)更新無法早于30天,在一定程度上影響了用戶對信息的時效需求。雅虎是1995年由美籍華裔楊致遠博士與其同事在斯坦福大學(xué)研制出來的搜索引擎。1997年Yahoo發(fā)布了Ya hoo中文搜索引擎,它的功能和形式與Yahoo英文保持一致。針對中文的目前狀況,分別設(shè)立了簡體中文(GB和繁體中文(BIG5兩種版本,用戶可利用繁體或簡體中文進行檢索。如果對相對內(nèi)容的英文感興趣,只要點擊鼠標,就可換成英文,速度較快。它現(xiàn)在提供的服務(wù)包括拍賣、購物、開設(shè)商店、個人

15、免費電子郵箱、聊天和新聞等多種網(wǎng)絡(luò)服務(wù)。Yahoo由人工索引的分類數(shù)據(jù)庫也保持了庫內(nèi)數(shù)據(jù)質(zhì)量較高、冗余信息較少的優(yōu)點。Yahoo中文搜索引擎收錄了全球咨詢網(wǎng)上數(shù)以萬計的中文網(wǎng)址,以14個類別排列,每個大類下面又分若干子類。信息采集方式由索引人員用人工方式建立并更新。鼓勵用戶利用聯(lián)機表格遞交自己的網(wǎng)頁地址,用人工和Ya hoo的蜘蛛軟件不定期地在Web的 What s new 網(wǎng)站上發(fā)現(xiàn)新文件。Yahoo對收集到的信息要進行嚴格的審核和分類,提供按目錄逐級搜索和輸入關(guān)鍵詞檢索兩種查檢方式,支持簡單和高級查詢功能。簡單查詢功能支持布爾邏輯的進階檢索。進階檢索提供一些特殊檢索格式;高級查47詢中,支

16、持詞語搜索等。它還提供日期限定、URL和題名限制檢索等。查詢結(jié)果顯示格式按下列順序排列:首先是滿足條件的雅虎目錄和子目錄,接著是滿足查詢條件的網(wǎng)站,最后是網(wǎng)頁。網(wǎng)頁只顯示題名、摘要和URL。查詢結(jié)果排序根據(jù)分類類目、網(wǎng)站信息與關(guān)鍵字串的相關(guān)程度排列出相關(guān)的類目和網(wǎng)站。匹配關(guān)鍵詞越多,相關(guān)性越高。檢索詞出現(xiàn)在題名中的文獻給出一個優(yōu)先的排序;出現(xiàn)在分類目錄中的級別,按目錄的級別從高到低排序。評價:系統(tǒng)反應(yīng)速度快,界面友好、人性化,通過主題指南查詢查準率高,內(nèi)容豐富,方便易用。優(yōu)點是反映了人在選擇和組織信息時的知識和智慧,收錄網(wǎng)頁經(jīng)過篩選和系統(tǒng)組織,質(zhì)量較高,條理性較強,檢索結(jié)果接近用戶的信息需求。

17、缺點是采集信息的速度遠遠比不上網(wǎng)絡(luò)資源的增長,因此檢索的數(shù)量有限。參考文獻1陳延軍,張崗.著名中文搜索引擎評析J.沈陽電子高等??茖W(xué)校學(xué)報,2002,(2.2張延蘅.漫談因特網(wǎng)中文搜索引擎J.泰安師專學(xué)報,2002,(1.3丁華.讓信息隨手可得 介紹幾個中文搜索引擎J.電腦技術(shù),2000,(3.4朱俊卿.搜索引擎Google研究J.現(xiàn)代圖書情報技術(shù),2002,(1.513家搜索引擎橫向評測 梳理紛繁的網(wǎng)絡(luò)資源J.電子計算機與外部設(shè)備,2001,(9.作者簡介陸興,男,寧夏大學(xué)物理電氣信息學(xué)院講師,發(fā)表論文數(shù)篇。收稿日期2002-12-04 責(zé)任編輯王 崗(上接第35頁的專業(yè)設(shè)置聯(lián)系密切,針對性

18、強,而且藏書系統(tǒng)完整,復(fù)本較多。這些特點是一般公共圖書館和科技圖書館所不及的。據(jù)統(tǒng)計,目前國家每年要花上億元的巨額資金,為黨校圖書館購進大批中外文書刊,我國黨校圖書館現(xiàn)已有藏書3億多冊。而這筆巨大的智力資源和寶貴財富的利用率僅為15% 25%。這種投入與產(chǎn)出極不相稱的局面,再也不能繼續(xù)下去了,必須盡快突破封閉的辦館模式,充分發(fā)揮自身的優(yōu)勢和作用,直接面向社會,面向經(jīng)濟建設(shè),提供多種形式的文獻信息服務(wù),迅速與市場經(jīng)濟接軌。黨校圖書館面向社會服務(wù),與市場經(jīng)濟接軌,必須堅持三條原則:一是要圍繞黨校圖書館的基本任務(wù),以本校師生為主要服務(wù)對象,把為教學(xué)、科研服務(wù)作為自己的工作重心,切忌本末倒置;二是要從

19、實際出發(fā),選擇適當?shù)姆?wù)方式,根據(jù)不同的服務(wù)對象,采取不同方式向社會開放;三是要正確處理社會效益和經(jīng)濟效益的關(guān)系。在以社會效益為主的前提下,實現(xiàn)兩個效益的統(tǒng)一。黨校圖書館面向社會開展服務(wù)的目的,一方面是充分開發(fā)利用圖書館的各種資源,實現(xiàn)社會范圍的資源共享,促進經(jīng)濟建設(shè)和社會發(fā)展;另一方面,也可作為創(chuàng)收的手段,從中收取合理的費用,改善辦館條件。因此,既要重視經(jīng)濟效益,更要重視社會效益。3 黨校圖書館怎樣面向社會、面向經(jīng)濟建設(shè),實現(xiàn)與市場經(jīng)濟接軌首先,面向社會和經(jīng)濟建設(shè),進一步擴展教育職能和信息職能。黨校圖書館不僅成為全校的文獻信息中心和學(xué)員的第二課堂,而且應(yīng)當充分挖掘潛力,把它的教育職能和信息職

20、能從黨校內(nèi)部擴展到社會經(jīng)濟領(lǐng)域,成為其他系統(tǒng)科研人員和一般讀者接受繼續(xù)教育的第二課堂和信息源。就當前社會讀者的需求情況看,黨校圖書館可以從三個方面開展工作。一是為各行各業(yè)的科研人員、理論工作者舉辦文獻檢索講座。黨校圖書館針對各行各業(yè)科研人員和理論工作者的不同需求,為他們開設(shè)文獻檢索講座,使他們能夠較快地掌握檢索技能;二是不定期地舉辦各種知識講座。根據(jù)經(jīng)濟發(fā)展的需要和人們普遍關(guān)注的熱點問題,黨校圖書館可以為社會讀者舉辦諸如知識經(jīng)濟、WTO、外經(jīng)外貿(mào)政策法律等專業(yè)知識講座或其它內(nèi)容的科普知識教育,增強他們的改革開放意識,提高人們的文化素質(zhì);三是為領(lǐng)導(dǎo)決策提供服務(wù)。黨校圖書館是社科情報五大系統(tǒng)之一,以收藏社科理論書刊,黨的路線、方針、政策法律等內(nèi)部和公開的文獻資料而獨具特

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論