信息檢索論文_第1頁
信息檢索論文_第2頁
信息檢索論文_第3頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、.網(wǎng)絡信息檢索摘要:本文通過對網(wǎng)絡信息檢索的基本原理、網(wǎng)絡信息檢索的技術及工具、網(wǎng)絡信息檢索的現(xiàn)狀等方面進行分析研究,并對網(wǎng)絡信息檢索的發(fā)展趨勢進行了預測,旨在尋找提高網(wǎng)絡信息檢索的手段和方法的有效途徑,并最終提高網(wǎng)絡信息的檢索效果,使得網(wǎng)絡信息資源得到充分有效地利用。關鍵詞:信息檢索;網(wǎng)絡信息;信息引言進入20世紀90年代以后,互聯(lián)網(wǎng)的發(fā)展風起云涌,人類社會的信息化、網(wǎng)絡化進程大大加快。與之相適應的信息檢索的交流平臺也迅速轉移到以WWW為核心的網(wǎng)絡應用環(huán)境中,信息檢索步入網(wǎng)絡化時代,網(wǎng)絡信息檢索已基本取代了手工檢索。1信息檢索概述什麼是信息?信息是消息,人們在學習、工作、日常生活中隨時隨地都

2、在接受和利用信息;信息是資源,它具有使用價值和價值;信息是財富,且是無價之財富;信息是生產(chǎn)力要素,更是一種不可估量的促進生產(chǎn)力發(fā)展的新動力。因此,人類社會的發(fā)展,科技技術的進步,都離不開信息資源的開發(fā)和利用。而且,信息資源的真實狀況及開發(fā)利用程度,已經(jīng)成為衡量一個國家經(jīng)濟、文化、科技以及綜合國力的重要指標。我們怎樣快速的查找信息和有序的整理信息?信息檢索是最快的途徑。信息檢索是指將信息按一定的方式組織和存儲起來,并根據(jù)信息用戶的信息需求查找所需信息的過程和技術。人們獲取信息源的方式主要有:傳統(tǒng)的信息檢索方法,通過人工查詢在圖書館等提供文獻的機構進行文獻的查詢和獲取活動;聯(lián)機信息檢索相對于前者來

3、說具有實時性、完整性、共享性、廣泛性等優(yōu)點;網(wǎng)絡信息檢索是指通過網(wǎng)絡信息檢索工具檢索存在于Internet信息空間中各種類型的網(wǎng)絡信息資源。2網(wǎng)絡信息檢索簡介隨著信息技術的飛速發(fā)展,信息已成為全社會的重要資源,對信息的占有程度及信息處理水平的先進程度已成為衡量一個國家或地區(qū)現(xiàn)代化程度的重要標志,而網(wǎng)絡上豐富的信息在更大程度上改變了人們的工作和生活的方式。Internet是當今世界上規(guī)模最大、覆蓋面最廣、信息資源最豐富、發(fā)展最為迅速的信息網(wǎng)絡,基于Internet的網(wǎng)絡信息檢索的研究,無論對研究人員還是一般用戶來說,都有著很強的現(xiàn)實性和實用性。2.1網(wǎng)絡信息檢索定義網(wǎng)絡信息檢索是指通過網(wǎng)絡信息檢

4、索工具檢索存在于Internet信息空間中各種類型的網(wǎng)絡信息資源。2.2 網(wǎng)絡信息檢索的原理網(wǎng)絡信息檢索工具是網(wǎng)絡信息檢索技術的實物體現(xiàn)。目前,常用的網(wǎng)絡信息檢索模型有布爾邏輯模型、模糊邏輯模型和概率模型等幾種方式。 布爾邏輯模型這是一種簡單而常用的嚴格匹配模型。用戶可以根據(jù)檢索項在文檔中的布爾邏輯關系提交查詢,搜索工具根據(jù)事先建立的倒排文檔結構確定查詢結果。標準的布爾邏輯模型為二元邏輯,所搜索的文檔要么與查詢相關,要么與查詢無關。利用這種模型進行查詢,其查詢結果一般沒有按照內(nèi)容的相關特性排序。 模糊邏輯模型它在查詢結果處理中引進了模糊邏輯比較,并且按照相關的優(yōu)先次序排列查詢結果,這樣就可以克

5、服布爾邏輯模型信息查詢結果的無序性。 概率模型它是基于貝葉斯概率原理而提出的,根據(jù)詞條、文檔間的內(nèi)在聯(lián)系,利用詞條間和詞條與文檔間的概率相依性來進行信息檢索。2.3 網(wǎng)絡信息檢索的特點 信息檢索的范圍不斷拓寬; 信息檢索手段更加容易; 信息檢索的途徑更加靈活。2.4網(wǎng)絡信息檢索與傳統(tǒng)信息檢索的區(qū)別 檢索方式比較方面網(wǎng)絡信息檢索傳統(tǒng)信息檢索檢索時間快慢檢索指標查全率高查準率高檢索費用相對低相對高(信息使用費、服務費、通訊費)信息內(nèi)容范圍數(shù)字化、多媒體信息紙制文獻信息檢索信息質(zhì)量查全率高查準率高3網(wǎng)絡信息檢索詳論3.1網(wǎng)絡信息檢索方式其檢索方式有:瀏覽器方式和搜索引擎方式。(l) 瀏覽器方式只要能

6、夠進入html就能夠通過瀏覽器,利用HTTP協(xié)議提供的萬維網(wǎng)服務,瀏覽接觸頁面和通過Web頁面提供的檢索方式訪問數(shù)據(jù)庫。(2) 搜索引擎方式搜索引擎是internet提供公共信息檢索服務的Web站點,它是以一定的技術和策略在internet中搜集和發(fā)現(xiàn)網(wǎng)絡信息,并對網(wǎng)絡信息進行理解、提取和處理,建立數(shù)據(jù)庫,同時以web形式提供一個檢索界面,供用戶輸入檢索關鍵詞、詞組或短語等檢索項,代替用戶在數(shù)據(jù)庫中查找出與提問相匹配的記錄,同時返回結果且按相關度排序輸出,從而起到快速查找信息的目的。搜索引擎所處理的信息資源主要包括萬維網(wǎng)服務器上的信息,另外還包括電子郵件和新聞組信息。搜索引擎服務的宗旨是為滿足

7、用戶的信息需要,所以它是面向用戶的,采用的方式是交互式的。3.2網(wǎng)絡信息檢索工具從20世紀80年代起人們就開發(fā)了諸如Archive、WAIS、Veronica等檢索工具,從90年代中期起又出現(xiàn)了檢索萬維網(wǎng)絡信息資源的搜索引擎技術,并以此構造檢索所有各類網(wǎng)絡信息資源的集成化支撐體系。據(jù)統(tǒng)計,各種各樣的Internet網(wǎng)絡信息檢索工具已有數(shù)千個,按這些工具的檢索機制、檢索內(nèi)容范圍,以及檢索工具的數(shù)量、檢索資源類型,可將它們劃分為以下各類:(l) 按檢索機制劃分根據(jù)檢索工具的數(shù)據(jù)檢索機制,可將檢索工具分為檢索型、目錄型和混合型檢索工具。(2) 按檢索內(nèi)容劃分根據(jù)檢索工具的數(shù)據(jù)內(nèi)容,檢索工具可分為綜合

8、型、專題型和特殊檢索工具書。(3) 按包含檢索工具數(shù)量劃分根據(jù)檢索工具數(shù)量劃分,檢索工具可分為單獨型和復合型檢索工具。(4) 按檢索資源類型劃分根據(jù)檢索工具針對的數(shù)據(jù)資源類型,可將檢索工具分為萬維網(wǎng)檢索工具和非萬維網(wǎng)檢索工具。3.3網(wǎng)絡信息檢索技巧目前常用的信息檢索方法有兩種:一種是利用搜索引擎進行關鍵詞、主題詞或自然語言檢索。最著名的搜索引擎有AltaVista、Excite、HotBot、Info seek等;另一種是按主題分類指南進行檢索,如Yahoo ! 就是按主題組織資源、逐次分類,供讀者按需查詞的;有的檢索工具兩種方式可以隨時切換使用, 如Info seek。相比之下, 前者信息的

9、獲取太雜亂, 魚龍混雜, 精確度太低, 需通過多次篩選才能找到所需信息。 而后者的信息組織系統(tǒng)性較強,精確度較高。但主要問題在于獲取率較低且很難反映信息之間的關聯(lián)性。由此可見, 兩種方法各有利弊, 讀者要根據(jù)檢索的目的來挑選和使用檢索工具,同時要學習一些提高檢索效果的方法和技巧。(l) 檢索關鍵詞具體化;(2) 運用詞組檢索;(3) 巧用Boolean邏輯詞:AND、OR 和NOT。4網(wǎng)絡信息檢索發(fā)展4.1網(wǎng)絡信息檢索的現(xiàn)狀與發(fā)展1990年以前,網(wǎng)絡信息檢索的現(xiàn)狀與發(fā)展沒有任何人能夠檢索互聯(lián)網(wǎng)上的信息。應該說,所有的網(wǎng)絡信息檢索工具都是從1990年的Alan Emtage等人發(fā)明的Archie

10、開始的,雖然它當時只可以實現(xiàn)簡單意義上的FTP文件檢索。隨著World Wide Web的出現(xiàn)和發(fā)展,基于網(wǎng)頁的信息檢索工具出現(xiàn)并迅速發(fā)展起來。1995年基于網(wǎng)絡信息檢索工具本身的檢索工具元搜索引擎由美國華盛頓大學的Eric Solberg 等發(fā)明。伴隨著網(wǎng)絡技術的發(fā)展,網(wǎng)絡信息檢索工具也取得了十足的發(fā)展。4.2 影響網(wǎng)絡信息檢索質(zhì)量的因素(l) 搜索引擎在檢索的實現(xiàn)過程中存在一些尚未解決的問題,影響檢索效果(本身存在的問題)。(2) 頁面的制作、組織過程中存在的欠缺會影響到被檢索的信息質(zhì)量。(3) 檢索用戶與搜索引擎的交互過程中,由于交互的背景不同,目的不同,會影響檢索效果。4.3網(wǎng)絡信息檢

11、索工具展望從最早的網(wǎng)絡信息檢索工具(如Archie)算起,它們作為一個整體只有不足十年的歷史,而基于萬維網(wǎng)的檢索工具(如Yahoo!和AltaVista),出現(xiàn)的時間則更晚。可見,網(wǎng)絡信息檢索工具尚處于發(fā)展高峰期。網(wǎng)絡信息檢索現(xiàn)今的主要問題是查準率太差。如今,人們正通過一些研究,設法使網(wǎng)絡信息檢索的空間在不影響查全率這一前提下,提高查準率,它們的未來充滿希望。在網(wǎng)絡信息檢索環(huán)境中,檢索、瀏覽和獲取這三個過程相互交融,自由轉換、合為一體,已展示出了信息檢索的新趨勢,為充分地利用網(wǎng)絡信息資源創(chuàng)造了條件。結語人類已經(jīng)進入了信息社會,信息社會化與社會信息化是當今重要的時代特征。信息檢索作為傳遞、搜索信息的手段發(fā)展愈來愈快。如果不懂得信息檢索,要在浩如煙海的各種信息中尋找自己需要的信息,就如同大海撈針一般困難,掌握了信息檢索的方法和技巧,就可以使信息的查詢過程更有條理性、計劃性,避繁就簡,事半功倍。所以,我們應充分利用信息資源,避免重復勞動??茖W研究具有繼承和創(chuàng)造兩重性,縱觀科學技術發(fā)展史,積累、繼承和借鑒前人的研究成果是科技發(fā)展的重要前提 。更新自身知識積累,適應社會發(fā)展需要。在信息社會,人們需要終生學習,不斷更新知識,才能

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論