信息檢索結(jié)課論文1_第1頁
信息檢索結(jié)課論文1_第2頁
信息檢索結(jié)課論文1_第3頁
信息檢索結(jié)課論文1_第4頁
信息檢索結(jié)課論文1_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、信息檢索結(jié)課論文題 目:基于網(wǎng)絡的信息檢索應用研究學院:計算機科學與工程學院專業(yè):軟件工程學生姓名:學 號:授課教師:基于網(wǎng)絡的信息檢索應用研究王揚波(武漢大學計算機學院電子與通信工程)摘 要:網(wǎng)絡信息檢索一般指因特網(wǎng)檢索,是通過網(wǎng)絡接口軟件,用戶可以在一終端查詢各地上網(wǎng)的信息資源。這一類檢索系統(tǒng)都是基于互聯(lián)網(wǎng)的分布式特點開發(fā)和應用的,即:數(shù)據(jù)分布式存儲,大量的數(shù)據(jù)可以 分散存儲在不同的服務器上;用戶分布式檢索,任何地方的終端用戶都可以訪問存儲數(shù)據(jù);數(shù)據(jù)分布式處 理,任何數(shù)據(jù)都可以在網(wǎng)上的任何地方進行處理。本文對基于網(wǎng)絡的信息檢索應用進行研究,并分析了其 局限。關(guān)鍵詞:信息檢索;網(wǎng)絡;分布式;

2、research on the application of information based on networkxx(xx)abstract: network information retrieval generally refers to the internet search, is through the network interface software, users can query the information resources in the internet in a terminal. this kind of retrieval system is based

3、 on the internet. that is, the data can be distributed and stored in different servers. users can access the storage data. data can be processed in any part of the internet. in this paper, we study the application of information retrieval based on network, and analyze the development trend.key words

4、: information retrieval; network; distributed;1 網(wǎng)絡信息檢索簡介隨著信息技術(shù)的飛速發(fā)展,信息已成為全社會的重要資源,對信息的占有程度及信息處理水平的先進程度已成為衡量一個國家或地區(qū)現(xiàn)代化程度的重要標志,而網(wǎng)絡上豐富的信息在更大程度上改變了人們的工作和生活的方式。internet 是當今世界上規(guī)模最大、覆蓋面最廣、信息資源最豐富、發(fā)展最為迅速的信息網(wǎng)絡,基于internet的網(wǎng)絡信息檢索的研究,無論對研究人員還是一般用戶來說,都有著很強的現(xiàn)實性和實用性。1.1信息檢索概念信息檢索是指將信息按一定的方式組織和存儲起來,并根據(jù)信息用戶的信息需求查找所需

5、信息的過程和技術(shù)。人們獲取信息源的方式主要有:傳統(tǒng)的信息檢索方法,通過人工查 詢在圖書館等提供文獻的機構(gòu)進行文獻的查詢和獲取活動;聯(lián)機信息檢索相對于前者來說具有實時性、完整性、共享性、廣泛性等優(yōu)點;網(wǎng)絡信息檢索是指通過網(wǎng)絡信息檢索工具檢索存在于internet信息空間中各種類型的網(wǎng)絡信息資源。1.2網(wǎng)絡信息檢索的原理網(wǎng)絡信息檢索工具是網(wǎng)絡信息檢索技術(shù)的實物體現(xiàn)。目前,常用的網(wǎng)絡信息檢索模型有布爾邏輯模型、模糊邏輯模型和概率模型等幾種方式。布爾邏輯模型這是一種簡單而常用的嚴格匹配模型。用戶可以根據(jù)檢索項在文檔中的布爾邏輯關(guān)系提交查詢, 搜索工具根據(jù)事先建立的倒排文檔結(jié)構(gòu)確定查詢結(jié)果。標準的布爾邏

6、輯模型為二元邏輯,所搜索的文檔要么與查詢相關(guān), 要么與查詢無關(guān)。利用這種模 型進行查詢,其查詢結(jié)果一般沒有按照內(nèi)容的相關(guān)特性排序。模糊邏輯模型它在查詢結(jié)果處理中引進了模糊邏輯比較,并且按照相關(guān)的優(yōu)先次序排列查詢結(jié)果,這樣就可以克服布爾邏輯模型信息查詢結(jié)果的無序性。 概率模型它是基于貝葉斯概率原理而提出的,根據(jù)詞條、文檔間的內(nèi)在聯(lián)系,利用詞條間和詞條與文檔間的概率相依性來進行信息檢索。2 搜索引擎搜索引擎是目前使用最為頻繁的一種網(wǎng)絡信息檢索工具。與其他工具相比,它的檢全率和檢準率都比較高,具有很強的使用價值和廣泛的應用前景。2.1 搜索引擎的工作原理作為一種www 站點資源和其它網(wǎng)絡資源進行組織

7、和檢索的檢索工具,搜索引擎的檢索機制一般包括數(shù)據(jù)采集和標引機制、數(shù)據(jù)組織機制和用戶檢索機制。 數(shù)據(jù)采集標引機制按照一定規(guī)律和方式對網(wǎng)絡上www占點進行搜索,并將搜索到的wwwm面信息存入搜索引擎的臨時數(shù)據(jù)庫中。 數(shù)據(jù)組織據(jù)組織機制白主要功能是對www頁面信息進行整理以形成規(guī)范的頁面索引,并建立相應的索引數(shù)據(jù)庫。索引數(shù)據(jù)庫是用戶進行檢索的基礎,它的數(shù)據(jù)質(zhì)量直接影響到檢索效果,而搜索引擎的數(shù)據(jù)采集標和標引機制又是決定數(shù)據(jù)庫質(zhì)量的關(guān)鍵技術(shù)。以獲得符合用戶需要的 用戶檢索機制幫助用戶以一定方式檢索引擎的索引數(shù)據(jù)庫, www占點或頁面。2.2 搜索引擎的分類按照用戶查找的途徑劃分,可將搜索引擎分為如下幾

8、種: 基于關(guān)鍵詞的搜索引擎主要通過使用自動采集軟件來對網(wǎng)絡上的數(shù)據(jù)進行采集標引,建立成索引數(shù)據(jù)庫。它主要采用自動搜索和標引方式來建立和維護其索引數(shù)據(jù)庫, 供用戶查詢使用?;诜诸惸夸浀乃阉饕嬉话阋蕾囉诎凑漳撤N分類標準進行人工編排的分類體系。 聯(lián)合式搜索引擎是基于關(guān)鍵詞的搜索引擎的另外一種表現(xiàn)形式,是后者與基于類目的搜索引擎的一種結(jié)合。2.3 搜索引擎的功能目前internet上的搜索引擎種類繁多,雖然各種搜索引擎都有自己的不同信息采集標引機制,在其他一些方面各具特色,但其基本功能卻是相似的。布爾邏輯檢索這一功能使得用戶能使用 and or和no俅進行關(guān)鍵詞的搭配檢索。 模糊檢索在用戶進行檢索

9、的過程中, 系統(tǒng)會對跟用戶提供的關(guān)鍵詞相似的詞語進行檢索,并返回包含關(guān)鍵詞或是這些相似詞的檢索結(jié)果。 截詞檢索這種檢索形式利用檢索詞的某一部分來進行檢索。在搜索引擎中,用戶提供包含”或是“ *”通配符的檢索項來進行檢索。限定詞檢索這種檢索加減號檢索,它用來規(guī)定檢索項中必須出現(xiàn)或是必須不出現(xiàn)某些關(guān)鍵詞。3大量相關(guān)信息檢索葉繼元等教授認為,信息檢索是從大量相關(guān)信息中利用人一機系統(tǒng)等各種方法加以有序識別與組織以便及時找出用戶所需部分信息的過程?!叭艘粰C系統(tǒng)”,“各種方法”是指利用關(guān)鍵詞、主題詞、概念分析方法等人工或自動將信息有序化;“及時找出用戶所需部分信息”是指一切以用戶為, 本全方位、多角度提供

10、檢索入口和檢索結(jié)果。信息檢索包括存儲與檢索兩個部分。存儲是對有關(guān)信息進行選擇、并對信息特征進行著錄標引和組織,建立信息數(shù)據(jù)庫;檢索則根據(jù)提問制定策略和表達式,利用信息數(shù)據(jù)庫。這里要理解概念分析。因此從這個意義上說,信概念分析即將概念轉(zhuǎn)化成系統(tǒng)語言,是存儲與檢索共有的過程,息存儲是信息檢索的逆過程, 兩者是不可分割的一個整體。 信息檢索的發(fā)展主要是和諧社會, 促進社會協(xié)調(diào)發(fā)展, 對社會的進步有積極地推動作用,它同時豐富了人們的視野,為社會科學研究提供了豐富的材料和強有力的說服力,使查找資料更容易方便。 索引的研究、編制與文獻流通形式變化息息相關(guān)。以計算機為主體的新技術(shù)在信息流通領(lǐng)域廣泛應用,對索

11、引理論研究及編制形成沖擊,同時也帶來變革的要求。索引理論研究和編制要適應新形勢、新情況,使索引編制更好地為社會服務。索引是利用文獻的工具,與文獻流通形式的變化息息相關(guān)。10年來在索引編制理論研究方面發(fā)生了波動,說明我們關(guān)于索引編制的理念正隨著文獻整理現(xiàn)代化進步而發(fā)生深刻地變化。以往文獻以紙質(zhì)載體為主,索引編制靠人工,編排技術(shù)百多年沒有發(fā)生多大改變, 理論研究相對穩(wěn)定。自從計算機及其相關(guān)電子技術(shù)應用于文獻 領(lǐng)域并成為新流通載體后, 索引編制手段及索引形式發(fā)生了巨大變化,對傳統(tǒng)理念產(chǎn)生很大沖擊,這是造成索引研究波動的根本原因。它的發(fā)展體現(xiàn)在以下幾個方面:3.1 智能化智能化包括網(wǎng)絡搜索軟件的智能化

12、和搜索引擎的智能化。搜索信息方法有兩種:由web站點及頁面的創(chuàng)建者在搜索引擎站點上為其頁面登記的urlm址;由網(wǎng)絡搜索軟件自動收集上新信息得到的urlm址,后一種搜索信息的方法就表現(xiàn)了搜索軟件的智能化。智能化的搜索引擎具有一定的推理能力,會考慮用戶年齡、性別、地域、文化程度等差異,根據(jù)用戶的 網(wǎng)絡行為來判斷他們的愛好, 并決定信息的取舍。智能化是網(wǎng)絡信息檢索未來發(fā)展的主要方 向。3.2 可視化可視化指的是運用計算機圖形學和圖像處理技術(shù),將數(shù)據(jù)轉(zhuǎn)換為圖形或圖像在屏幕上顯示出來,并進行交互處理的理論、方法和技術(shù)。它具有交互性、多維性、可視性等特點。信 息檢索中的可視化,就是將數(shù)據(jù)庫中不可見的語義關(guān)

13、系用圖像形式可視化顯示,并表達用戶檢索過程。3.3 多樣化信息檢索多樣化表現(xiàn)在可以檢索的信息形態(tài)有文本、聲音、圖像、動畫;檢索工具向多國化、多語種化方向發(fā)展;網(wǎng)上檢索工具的服務多樣化等。3.4 簡單化搜索引擎的發(fā)展,網(wǎng)上自動標引、自動文摘、自動跟蹤、自動漫游、機器翻譯、多媒體 等技術(shù)逐步完善,都將使信息檢索變得越來越簡便快捷。3.5 深入化信息檢索深入化包括: 提高檢索深度,即由相關(guān)性檢索向直接性檢索發(fā)展;檢索內(nèi)容向綜合化與專業(yè)化發(fā)展。 用戶可以預先選擇自己的信息源,向各種用戶滿意的信息源提問索取特定類型的信息,還可以對命中結(jié)果進行進一步限定,要求只提供權(quán)威性的可靠結(jié)果以提高查準率。3.6 友

14、好化友好化包括用戶檢索界面友好化和檢索結(jié)果提供方式友好化兩種,以方便用戶進行瀏 覽、選擇和利用。3.7 多語種化提供多種語言的檢索服務,滿足全世界各種語言用戶的需要,是信息檢索的一大發(fā)展方向。除組織學術(shù)活動外, 更應該在索引理論研究方向上起導向作用,介紹世界上先進的編制技術(shù)和索引研究動態(tài),引進成果,翻譯有影響的學術(shù)著作,加強學術(shù)交流,使社會各界了解索引的新發(fā)展。學會也應吸收工商界有關(guān)技術(shù)人員參加,使索引研究更加實用化,直接與工農(nóng)業(yè)生產(chǎn)和國家的經(jīng)濟建設掛鉤,更好地服務于國民經(jīng)濟建設。4 信息多樣化一一我國網(wǎng)絡化信息服務的發(fā)展趨勢在網(wǎng)絡環(huán)境下,用戶可獲得信息的量和種類隨著局域網(wǎng)和廣域網(wǎng)的不斷發(fā)展而

15、巨增,面對分散、無序、更選變換的信息海洋,太多數(shù)用戶不像以往那樣關(guān)心信息文獻量的問題,而 是越來越重視圖書館 (或情報中心)所提供的網(wǎng)上信息的濃度。精品化的信息服務是以信息的濃縮加工使之成為高質(zhì)量的信息產(chǎn)品為保證,使用戶一旦進入自己的業(yè)務之中,就不再尋找替代物。4.1 信息服務社會化信息服務社會化,主要是指用戶信息需求的社會化及越來越多的信息在網(wǎng)絡環(huán)境中廣泛 交流。4.2 信息服務一體化信息服務一體化,對信息用戶而言,主要是指能夠集參考咨詢功能、文獻檢索功能和文獻提供功能為一體的最理想的信息服務體系。4.3信息服務集成化其一是指提供服務的網(wǎng)絡化信息資源的全面性和豐富性;其二是指能夠滿足用戶對信

16、息類型和信息媒體多樣化的需求。4.4 信息服務精品化是指向用戶提供濃縮化、綜合化的高質(zhì)量的信息服務。5網(wǎng)絡信息檢索技巧用戶在熟練掌握網(wǎng)絡信息檢索方法和工具的同時,如果能把握住網(wǎng)絡信息檢索的技巧,就能更加游刃有余,得心應手地查找網(wǎng)絡信息了。下面介紹幾條網(wǎng)絡檢索信息的小技巧:5.1 提取合適的關(guān)鍵詞現(xiàn)在所有的搜索引擎都是以關(guān)鍵字建立倒排文檔索引來組織知識內(nèi)容的,所有的搜索也是以關(guān)鍵詞搜索為最主要的方式。許多人可能看過形形色色的搜索技巧,這些搜索技巧許多部偏重于講怎么使用各個 se支持的高級搜索語祛,這此高級語法也許有其適用和有趣的地 曲,但是大家最經(jīng)常使用的還是關(guān)鍵詞。在提煉關(guān)鍵詞時,盡量選擇專指

17、詞、特定概念詞或非常用詞,避免普通詞、泛指概念。5.2 使用兩個或多個關(guān)鍵詞搜索單一關(guān)鍵詞的搜索效果總是不太令人滿意.一般用多個關(guān)鍵詞的搜索效果比較好。檢索信息時.經(jīng)常需要結(jié)合自己的知識結(jié)構(gòu)和對所查問題的理解來確定幾個相關(guān)關(guān)鍵詞去查詢。一般而言.需要所有關(guān)鍵詞要有一定的語義聯(lián)系,但是語義聯(lián)系又不要太過明顯,這樣不同關(guān)鍵詞才有區(qū)分能力,因為我們經(jīng)常面對的是返回結(jié)果太多的情形。5.3 使用減號“-”“-”的作用是為了去除無關(guān)的搜索結(jié)果,提高搜索結(jié)果相關(guān)性。有的時候,用戶在搜索結(jié)果中見到些想要的結(jié)果.但也發(fā)現(xiàn)很多不相共的搜索結(jié)果,這時你可以找出那些不相關(guān)結(jié)果的特征關(guān)鍵詞,把它減掉。5.4 使用搜索引

18、擎的高級檢索功能利用搜索引擎為用戶提供的高級檢索功能可以縮小檢索范圍,節(jié)約瀏覽時間。例如:搜索引擎從抓取網(wǎng)頁,解析、索引到提供檢索是有一個周期的,各搜索引擎的信息滯后周期從一周到一月不等.所以找最新內(nèi)容應該去看新聞搜索。5.5 建立收藏夾用戶可以根據(jù)個人工作、 學習、生活的需要.將平時經(jīng)常瀏覽或經(jīng)典網(wǎng)站分門別類建立收藏夾,為以后瀏覽提供方便。5.6 尋求網(wǎng)上幫助用戶可以求助于網(wǎng)絡論壇、qq等.或訪問專門回答問題的網(wǎng)站,通過其他用戶或?qū)<业脑诰€解答.找到答案或解決問題的方法。6 網(wǎng)絡信息檢索的局限與展望用戶在查找網(wǎng)絡信息資源時,不可避免的用到網(wǎng)絡信息檢索工具。檢索工具的優(yōu)劣很大程度的影響了用戶的

19、檢索效率。雖然網(wǎng)絡信息檢索工具在最近幾年有了長足的發(fā)展,但是到現(xiàn)在網(wǎng)絡信息檢索仍然存在著這樣或是那樣的局限。6.1 文本信息檢索的局限網(wǎng)絡信息標引的準確度不夠檢索工具對網(wǎng)絡信息資源的標引一般都存在著柵引準確度不夠的問題, 檢索工具經(jīng)常會在返回大量垃圾信息的同時丟失有用信息。當用戶要進行特定的文獻檢索時,有時還會發(fā)現(xiàn)現(xiàn)存的檢索工具無濟于事,檢索出來的數(shù)據(jù)完全被無用信息所覆蓋。如想要通過搜索引擎查詢清朝雍正年間李衛(wèi)任浙江巡撫的資料,你只能夠查到大量李衛(wèi)當官之類無用信息。搜索引擎的查全率不高由于互聯(lián)網(wǎng)上的信息資源以爆炸性的速度不斷增長,搜索引擎采集數(shù)據(jù)的速度遠遠落后于信息資源的增長速度。單個搜索引擎

20、的數(shù)據(jù)庫所收集的web頁面大大不足,就是所有的搜索引擎所儲存的數(shù)據(jù)也只占全球web頁面的50%強。由于這方面的原因,搜索引擎的檢全率會無可避免的被降低。 搜索引擎的查準率不高一是返回的信息過多,這是現(xiàn)有搜索引擎檢索信息的普遍現(xiàn)象;二是返回重復的信息, 搜索引擎的檢索結(jié)果中還經(jīng)常重復出現(xiàn)同一信息源的不同部 分,甚至出現(xiàn)不同信息源的相同內(nèi)容信息。查詢方式有限目前大多數(shù)搜索引擎的查詢方法比較單一,一般只提供分類查詢方式和關(guān)鍵詞查詢方式。這樣,一方面檢索時不能從文獻的多個方面對檢索提問進行限制, 只能就某一關(guān)鍵詞或概念進行籠統(tǒng)的檢索;另一方面,由于查詢結(jié)果完全依賴于用戶所給出的關(guān)鍵詞,而大多數(shù)用戶對他

21、們檢索的領(lǐng)域或索引數(shù)據(jù)庫的關(guān)鍵詞不太了解,因此使最后的查詢結(jié)果相關(guān)性很差,往往是輸入一個檢索式,得到一大堆網(wǎng)址,但其中大部分是冗余信 息。檢索對象的數(shù)據(jù)結(jié)構(gòu)單一由于現(xiàn)在大多數(shù)網(wǎng)站使用的是傳統(tǒng)的關(guān)系數(shù)據(jù)庫對信息進行組織和存儲,因此其使用的搜索引擎也是基于關(guān)系數(shù)據(jù)庫的,這種傳統(tǒng)的關(guān)系數(shù)據(jù) 庫非常擅長處理結(jié)構(gòu)化的數(shù)據(jù),但其對于非結(jié)構(gòu)化的數(shù)據(jù)的處理能力則很弱。交互性不夠當前的搜索引擎與用戶的交互性不夠,與用戶間缺乏足夠的協(xié)作,不了解用戶的情況,不記錄用戶提交的查詢?nèi)蝿?,不能處理用戶的反饋信息,因而不能與用戶進行足夠好的交互以提高檢索效率。6.2 多媒體信息檢索的局限到現(xiàn)在為止,雖然單獨針對圖像、視頻、

22、聲音等媒體的檢索技術(shù)已經(jīng)出現(xiàn),但還沒有任何搜索引擎能夠充分解決多媒體信息的檢索,其主要表現(xiàn)在以下幾個方面:檢索效果不夠理想目前,幾乎所有的多媒體搜索引擎在多媒體信息的查準率方面都不能達到令人滿意的程度,用戶將在返回的幾百個甚至上千個圖像中篩選需要的那一 幅。這是很費時和令人難以忍受的,而且有時你所用的搜索引擎根本檢不出你想要的東西。歸其原因,一方面是在于查詢方式的單一,另一方面在于對圖像的標引深度不夠,這就要求完善圖像檢索和索引機制。 用戶查詢接口單一理想的多媒體檢索系統(tǒng)中, 人是主動的,用戶的查詢接口能提供豐富的交互能力,且直觀易用,使用戶能夠在主動交互過程中通過調(diào)整檢索參數(shù),表達對圖像的語

23、義感知,最終獲取滿意的結(jié)果。 這就涉及到如何把用戶的提問轉(zhuǎn)換為可以執(zhí)行檢 索的特征矢量、交互方式的設計,如何獲取用戶的內(nèi)容感知等問題。目前的多媒體搜索引擎用戶查詢接口比較單一,大多只提供描述查詢接口,即關(guān)鍵詞提問框。圖像特征信息的表示與檢索不夠完善基于內(nèi)容的圖像檢索,實質(zhì)上就是進行圖像特征相似度的比較,但目前這一技術(shù)還存在許多問題。 信息的自動加工與人工標引不夠目前文本搜索引擎在這方面的發(fā)展正日趨完善,而多媒體搜索引擎的研究剛剛起步,尤其是圖像信息的加工, 圖像不同于文本,文本自身就能說明要講的內(nèi)容,而圖像內(nèi)容卻需要加入人的理解和描述,人工干預雖能提高查準率,但一方面能被人工標引的是極其有限的;另一方面由于人工標引勞動強度大而限制了檢索的范圍,如何對圖像信息進行快速標引和準確分類是急待解決的主要問題。另外,目前基于內(nèi)容的檢索技術(shù)多應用于對靜態(tài)圖像的檢索,對動態(tài)圖像的檢索還沒有多少行之有效的方法。但隨著寬帶網(wǎng)絡的逐步實現(xiàn),動態(tài)多媒體信息在網(wǎng)絡中將會越來越多。6.3 未來的網(wǎng)絡檢索展望未來的網(wǎng)絡檢索服務將盡可能地了解用戶的真正需求并據(jù)此將檢索結(jié)果進行分門別類的處理,而不是對每一個檢索提問都一次性的輸出大量的結(jié)果。目前,許多重要的搜索引擎已開始向這方面努力, 在原先的檢索結(jié)果前面新增加了優(yōu)選過的鏈接。目前較流行的搜索引擎的全文檢索功能,由于檢索結(jié)果經(jīng)常與檢

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論