




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第1章緒論1.1網(wǎng)絡(luò)信息檢索概述1.2信息檢索的發(fā)展1.3網(wǎng)絡(luò)信息檢索的應(yīng)用思考題
1.1網(wǎng)絡(luò)信息檢索概述
1.1.1網(wǎng)絡(luò)信息
網(wǎng)絡(luò)信息是指通過互聯(lián)網(wǎng)可以利用的各種信息資源的總和。隨著互聯(lián)網(wǎng)的迅速發(fā)展,網(wǎng)絡(luò)信息作為一種新型的信息資源,發(fā)揮著越來越重要的作用。與傳統(tǒng)的非網(wǎng)絡(luò)信息資源相比,網(wǎng)絡(luò)環(huán)境下的信息資源具有以下幾個(gè)方面的特點(diǎn):
(1)網(wǎng)絡(luò)信息內(nèi)容豐富?;ヂ?lián)網(wǎng)已經(jīng)成為全球最大的信息資源基地,同時(shí)其信息資源的增長(zhǎng)十分迅速。在互聯(lián)網(wǎng)上幾乎可以獲得任何領(lǐng)域的信息,其內(nèi)容涉及政治、經(jīng)濟(jì)、文化、科學(xué)和娛樂等各個(gè)方面,涵蓋社會(huì)科學(xué)、自然科學(xué)、人文科學(xué)和工程技術(shù)等各個(gè)領(lǐng)域。
(2)網(wǎng)絡(luò)信息變化頻繁。在互聯(lián)網(wǎng)上,信息地址、信息鏈接和信息內(nèi)容經(jīng)常處于變動(dòng)之中,信息資源的更換和消亡更是無法預(yù)測(cè)。因而,網(wǎng)絡(luò)信息時(shí)時(shí)刻刻處在變化和發(fā)展之中。
(3)網(wǎng)絡(luò)信息結(jié)構(gòu)復(fù)雜?;ヂ?lián)網(wǎng)對(duì)網(wǎng)絡(luò)信息資源本身的組織管理尚未形成完全統(tǒng)一的標(biāo)準(zhǔn)和規(guī)范,網(wǎng)絡(luò)信息呈全球化分布結(jié)構(gòu),信息資源物理地存儲(chǔ)在世界不同地區(qū)各種不同類型的服務(wù)器上。因此,在信息的組織和檢索方面比較復(fù)雜。
(4)網(wǎng)絡(luò)信息格式多樣。網(wǎng)絡(luò)信息的媒體形式多種多樣,包括文本、圖形、圖像、聲音和視頻等,各種類型的媒體信息都有多種不同的信息描述格式,例如文字信息的格式有HTML、TXT、PDF、DOC等格式;圖像信息的格式有BMP、GIF、JPG等格式,因此網(wǎng)絡(luò)信息格式呈現(xiàn)多樣化。
(5)網(wǎng)絡(luò)信息價(jià)值差異。由于網(wǎng)絡(luò)信息的發(fā)布具有很大的自由度和隨意性,且缺乏必要的質(zhì)量控制和管理機(jī)制,因而,網(wǎng)絡(luò)信息資源的價(jià)值差異較大,既有較大參考價(jià)值的有用信息,也有毫無用處的垃圾信息,甚至還有不少有害的信息,可謂良莠不齊。因此,如何評(píng)價(jià)、選擇和過濾信息成為網(wǎng)絡(luò)信息組織和檢索的重要任務(wù)。1.1.2信息檢索
信息檢索(InformationRetrieval,IR)泛指用戶從包含各種信息的文檔集合中查找所需要的信息或知識(shí)的過程。信息檢索將信息按一定的方式組織和存儲(chǔ)起來,再根據(jù)用戶的需求查找所需信息,并返給用戶。信息檢索包括信息的存儲(chǔ)、組織、表現(xiàn)、查詢、存取等各個(gè)方面,一般而言,主要包括以下三個(gè)環(huán)節(jié):
(1)處理搜集:對(duì)信息內(nèi)容進(jìn)行分析與編碼,產(chǎn)生信息記錄及檢索標(biāo)識(shí);
(2)組織存儲(chǔ):將全部記錄按文件、數(shù)據(jù)庫等形式組成有序的信息集合;
(3)檢索服務(wù):對(duì)用戶提問進(jìn)行處理和輸出相應(yīng)的檢索結(jié)果。
信息檢索的關(guān)鍵部分是信息提問與信息集合的匹配和選擇,即對(duì)給定提問與集合中的記錄進(jìn)行相似性比較,根據(jù)一定的匹配標(biāo)準(zhǔn)選出有關(guān)信息。
信息檢索最初應(yīng)用于圖書館和科技信息機(jī)構(gòu),后來逐漸擴(kuò)大到其他領(lǐng)域,與信息檢索有關(guān)的理論、技術(shù)和服務(wù)構(gòu)成了一個(gè)相對(duì)獨(dú)立的知識(shí)領(lǐng)域,是信息學(xué)和計(jì)算機(jī)科學(xué)的交叉學(xué)科,這里引用1997年Kowalski對(duì)信息檢索系統(tǒng)的定義[1]:“信息檢索系統(tǒng)是對(duì)信息的存儲(chǔ)、檢索和維護(hù),信息可以是文本、圖像、音頻、視頻或其他多媒體對(duì)象”。信息檢索系統(tǒng)一般由信息收集、處理、索引、存儲(chǔ)、檢索等部分組成,信息檢索結(jié)構(gòu)可以用圖1-1表示。從圖1-1中可以總結(jié)出“兩個(gè)表示,一個(gè)比較”來概括信息檢索的精髓,所謂“兩個(gè)表示”就是通過預(yù)處理和特征提取,把信息和查詢分別表示為一定的數(shù)學(xué)形式,如向量;“一個(gè)比較”是把這兩個(gè)數(shù)學(xué)表示進(jìn)行相似性比較,以判定某信息是否可以作為該查詢的結(jié)果進(jìn)行輸出。圖1-1信息檢索系統(tǒng)結(jié)構(gòu)示意圖這里需要區(qū)分兩個(gè)概念:信息檢索和數(shù)據(jù)檢索。數(shù)據(jù)(data)和信息(information)是兩個(gè)完全不同的概念,數(shù)據(jù)是對(duì)客觀事物的數(shù)量、屬性、位置及其相互關(guān)系的抽象表示,以適合于用人工或自然的方式進(jìn)行保存、傳遞和處理。而信息是指經(jīng)過系統(tǒng)組織、整理和分析的數(shù)據(jù)。例如表1-1中的“80億+”是一個(gè)數(shù)據(jù),“被Google索引的頁面為80多億”則是信息。數(shù)據(jù)可以很容易地被組織和存儲(chǔ),對(duì)數(shù)據(jù)的檢索相對(duì)容易,也容易做到準(zhǔn)確地檢索;數(shù)據(jù)檢索如一般的數(shù)據(jù)庫檢索,處理的是結(jié)構(gòu)化數(shù)據(jù);數(shù)據(jù)檢索的條件一般具有清晰的定義,要求取得滿足特定條件的所有對(duì)象,因此它的準(zhǔn)確率可以達(dá)到百分之百;數(shù)據(jù)檢索效率的評(píng)價(jià)標(biāo)準(zhǔn)一般是響應(yīng)時(shí)間或存儲(chǔ)空間等方面的開銷。而信息檢索一般是從非結(jié)構(gòu)化或半結(jié)構(gòu)化的文檔集中找出與用戶需求相關(guān)的信息,包括新聞、科技論文等文本數(shù)據(jù),HTML和XML等網(wǎng)頁,圖像、圖形、視頻和音頻等多媒體數(shù)據(jù)。信息檢索的條件描述本身就是一個(gè)難題,一般很難做到完全準(zhǔn)確,而用戶的需求描述也可能是不準(zhǔn)確的。造成這一點(diǎn)的主要原因是,信息檢索通常是對(duì)自然語言進(jìn)行處理,而自然語言本身沒有很好的結(jié)構(gòu),語義上也存在模糊性。因此,信息檢索的評(píng)價(jià)也更難,一般使用檢索精度(Precision)和召回率(Recall)等評(píng)價(jià)標(biāo)準(zhǔn)來衡量信息檢索的效果。1.1.3網(wǎng)絡(luò)信息檢索
網(wǎng)絡(luò)信息檢索是指能夠通過網(wǎng)絡(luò)接受用戶的查詢指令,并向用戶提供符合其查詢要求的網(wǎng)絡(luò)信息資源的過程??梢园丫W(wǎng)絡(luò)信息檢索理解為檢索對(duì)象為網(wǎng)絡(luò)信息的信息檢索。網(wǎng)絡(luò)信息檢索系統(tǒng)的結(jié)構(gòu)示意圖如圖1-2所示。
可見,網(wǎng)絡(luò)信息檢索系統(tǒng)與傳統(tǒng)意義的信息檢索系統(tǒng)在總體結(jié)構(gòu)上大致相同,所不同的只是信息的來源不一樣。傳統(tǒng)信息檢索系統(tǒng)的來源一般是圖書、事先錄入的信息等,而網(wǎng)絡(luò)信息檢索的信息來源于互聯(lián)網(wǎng),大都是Web頁面、文件、圖像和音視頻媒體等。圖1-2網(wǎng)絡(luò)信息檢索系統(tǒng)結(jié)構(gòu)示意圖
1.2信息檢索的發(fā)展
信息檢索起源于圖書館的參考咨詢和文摘索引,從19世紀(jì)下半葉首先開始發(fā)展。當(dāng)時(shí),信息存儲(chǔ)和傳播主要以紙質(zhì)為載體,信息檢索活動(dòng)也圍繞著文獻(xiàn)的獲取和控制展開。至20世紀(jì)40年代,索引和檢索已成為圖書館獨(dú)立的工具和用戶服務(wù)項(xiàng)目,“文獻(xiàn)檢索”(DocumentRetrieval)一度成為信息檢索的同義詞。隨著1946年世界上第一臺(tái)電子計(jì)算機(jī)的問世,計(jì)算機(jī)技術(shù)逐步走進(jìn)信息檢索領(lǐng)域,并與信息檢索理論緊密結(jié)合起來;人們開始使用“情報(bào)檢索”這個(gè)概念,脫機(jī)批量情報(bào)檢索系統(tǒng)、聯(lián)機(jī)實(shí)時(shí)情報(bào)檢索系統(tǒng)相繼研制成功并商業(yè)化,當(dāng)時(shí)的信息檢索,是更接近于數(shù)據(jù)庫檢索的一種形式。20世紀(jì)60年代到80年代,在信息處理技術(shù)、通信技術(shù)、計(jì)算機(jī)和數(shù)據(jù)庫技術(shù)發(fā)展的推動(dòng)下,隨著信息載體類型的多元化以及傳播手段的改進(jìn),情報(bào)檢索和文獻(xiàn)檢索逐漸歸于信息檢索這一具有兼容性的概念,研究范圍也日趨擴(kuò)展,信息檢索在教育、軍事和商業(yè)等各領(lǐng)域高速發(fā)展,并得到了廣泛的應(yīng)用。目前,信息檢索已經(jīng)發(fā)展到網(wǎng)絡(luò)化和智能化的階段。信息檢索的對(duì)象從相對(duì)封閉、穩(wěn)定一致、由獨(dú)立數(shù)據(jù)庫集中管理的數(shù)據(jù)信息擴(kuò)展到開放、動(dòng)態(tài)、更新更快、分布廣泛、管理松散的網(wǎng)絡(luò)信息;信息檢索的用戶也由原來的情報(bào)專業(yè)人員擴(kuò)展到包括商務(wù)人員、管理人員、教師學(xué)生、各專業(yè)人士等在內(nèi)的普通大眾,他們對(duì)信息檢索從方式到結(jié)果提出了更高、更多樣化的要求。適應(yīng)網(wǎng)絡(luò)化、智能化以及個(gè)性化
的需要是目前信息檢索技術(shù)發(fā)展的新趨勢(shì)。
具體來說,信息檢索經(jīng)歷了從手工檢索、計(jì)算機(jī)檢索到網(wǎng)絡(luò)信息檢索的發(fā)展過程。1.2.1手工檢索
信息檢索直接發(fā)源于圖書館的參考咨詢工作和文摘索引工作。正規(guī)的參考咨詢工作是由美國(guó)的公共圖書館和大專院校圖書館于19世紀(jì)下半葉首先發(fā)展起來的。
20世紀(jì)初,多數(shù)圖書館成立了參考咨詢部門,主要利用圖書館的書目工具來幫助讀者查找圖書、期刊或現(xiàn)成的答案。隨著文獻(xiàn)的激增和讀者需求的增長(zhǎng),逐漸發(fā)展到從多種文獻(xiàn)源中查找、分析、評(píng)價(jià)和重新組織情報(bào)資料,“索引”突破了以前的狹義范疇,成為獨(dú)立的檢索工具。到20世紀(jì)40年代又進(jìn)一步包括回答事實(shí)性咨詢,編制書目、文摘,進(jìn)行專題文獻(xiàn)檢索,提供文獻(xiàn)代譯等?!皺z索”從此成為一種獨(dú)立的用戶服務(wù)工作,并逐漸從單純的經(jīng)驗(yàn)工作向科學(xué)化方向發(fā)展。1.2.2脫機(jī)批處理檢索
1946年世界上第一臺(tái)電子計(jì)算機(jī)問世之后,就有人開始研究計(jì)算機(jī)在信息檢索領(lǐng)域的應(yīng)用。20世紀(jì)50年代中期至60年代后期是信息檢索的脫機(jī)批處理階段。當(dāng)時(shí)計(jì)算機(jī)還沒有連接成網(wǎng)絡(luò),也沒有遠(yuǎn)程終端裝置,不能提供實(shí)時(shí)檢索,只能進(jìn)行現(xiàn)刊文獻(xiàn)的定題檢索(SelectiveDisseminationofInformation)和回溯性檢索(RetrospectiveSearch),同時(shí)利用計(jì)算機(jī)編輯出版檢索性刊物。1954年,美國(guó)海軍機(jī)械試驗(yàn)
中心(NavalOrdnanceTestStation,NOTS)使用IBM701型機(jī),初步建成了計(jì)算機(jī)情報(bào)檢索系統(tǒng),這標(biāo)志著以計(jì)算機(jī)檢索系統(tǒng)為代表的信息檢索自動(dòng)化時(shí)代的到來[2]。在這個(gè)時(shí)期,信息檢索系統(tǒng)面向小型的科學(xué)文摘數(shù)據(jù)庫、法律和商業(yè)文檔,檢索模型為基本的布爾模型和向量空間模型,提出向量空間模型[3]并付諸實(shí)踐的康奈爾大學(xué)(CornellUniversity)的Salton教授和他的學(xué)生成為這個(gè)領(lǐng)域的先驅(qū)。1.2.3聯(lián)機(jī)檢索
1967年,美國(guó)系統(tǒng)發(fā)展公司(SystemDevelopmentCompany,SDC)研制成功ORBIT(OnlineRetrievalofBibliographicInformationTimeshared)聯(lián)機(jī)情報(bào)檢索軟件,開始了聯(lián)機(jī)情報(bào)檢索階段[4];與此同時(shí),美國(guó)洛克希德公司成功研制了國(guó)際聯(lián)機(jī)情報(bào)檢索系統(tǒng)Dialog(http://)。20世紀(jì)70年代衛(wèi)星通信技術(shù)、微機(jī)計(jì)算機(jī)技術(shù)以及數(shù)據(jù)庫技術(shù)的同步發(fā)展,使得用戶得以沖破時(shí)間和空間的障礙,實(shí)現(xiàn)了國(guó)際聯(lián)機(jī)檢索。遠(yuǎn)程實(shí)時(shí)檢索多種數(shù)據(jù)庫是聯(lián)機(jī)檢索的主要特點(diǎn)。計(jì)算機(jī)檢索技術(shù)從脫機(jī)階段進(jìn)入聯(lián)機(jī)信息檢索時(shí)期。聯(lián)機(jī)檢索是計(jì)算機(jī)技術(shù)、信息處理技術(shù)和現(xiàn)代通信技術(shù)三者的有機(jī)結(jié)合。圖1-3所示的是美國(guó)國(guó)家醫(yī)學(xué)圖書館的MEDLINE系統(tǒng)(http:///PubMed/),Dialog系統(tǒng)作為這一時(shí)期的信息檢索領(lǐng)域的代表,至今仍是世界上最著名的信息檢索系統(tǒng)之一。圖1-3醫(yī)學(xué)信息檢索系統(tǒng)MEDLINE1.2.4網(wǎng)絡(luò)信息檢索
互聯(lián)網(wǎng)在二十世紀(jì)六七十年代初見雛形,八十年代末九十年代初迅速流行。此時(shí),單純的手工檢索和機(jī)械檢索都顯現(xiàn)出各自或多或少的缺點(diǎn),因此,極有必要發(fā)展一種新型的信息檢索方式,網(wǎng)絡(luò)信息檢索應(yīng)運(yùn)而生。網(wǎng)絡(luò)信息檢索系統(tǒng)幾乎包括了計(jì)算機(jī)在信息檢索領(lǐng)域表現(xiàn)出來的全部?jī)?yōu)點(diǎn),它是聯(lián)機(jī)檢索的高級(jí)階段,使人們可以在很短的時(shí)間里查找到分布在全球各個(gè)角落的信息。網(wǎng)絡(luò)信息環(huán)境的出現(xiàn),使得信息檢索研究的對(duì)象和范圍不斷擴(kuò)大,研究隊(duì)伍也突破了原有的以圖書情報(bào)領(lǐng)域的專家學(xué)者為主的模式,眾多的科研機(jī)構(gòu)以及商業(yè)公司加入到研究信息檢索技術(shù)的行列??梢哉f,網(wǎng)絡(luò)使計(jì)算機(jī)信息檢索技術(shù)進(jìn)入了一個(gè)嶄新的發(fā)展階段,而網(wǎng)絡(luò)信息檢索又使網(wǎng)絡(luò)信息的利用率提高,信息的組織更加有序和高效。
1.3網(wǎng)絡(luò)信息檢索的應(yīng)用
隨著網(wǎng)絡(luò)技術(shù)和信息檢索技術(shù)的發(fā)展,網(wǎng)絡(luò)信息檢索得到了廣泛的應(yīng)用。除了人們最常用的搜索引擎外,目前流行的還有多媒體信息檢索、跨語言信息檢索、主題識(shí)別和跟蹤、信息過濾、問題回答和Web數(shù)據(jù)挖掘等。1.3.1搜索引擎
網(wǎng)絡(luò)信息檢索最主要的應(yīng)用是搜索引擎(SearchEngine),或者換句話說,搜索引擎就是一個(gè)網(wǎng)絡(luò)信息檢索系統(tǒng)??梢园阉阉饕胬斫鉃橐粋€(gè)專用的WWW服務(wù)器,也可以理解為互聯(lián)網(wǎng)上的一類網(wǎng)站,這類網(wǎng)站與一般的網(wǎng)站不同,其主要工作是收集網(wǎng)絡(luò)上成千上萬的網(wǎng)站和網(wǎng)頁信息,組成龐大的索引數(shù)據(jù)庫,向用戶提供信息查詢服務(wù)。一般來說,搜索引擎主要采取兩種方式實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)信息資源的檢索,一是采用分類主題目錄形式,將網(wǎng)站進(jìn)行樹狀的分類,所鏈接的網(wǎng)站必須至少歸屬于其中一個(gè)類別,形成類似圖書館目錄一樣的分類主題目錄,用戶通過逐級(jí)瀏覽這些目錄來找尋自己需要的內(nèi)容,采用這種檢索方式的搜索引擎有Yahoo等,歸納和分類為信息導(dǎo)航帶來了極大的方便,但這種方式在分類和目錄整理中需要大量的人力;二是使用關(guān)鍵詞匹配方式,其處理對(duì)象主要是文本,它能夠?qū)Υ罅课臋n建立由字(詞)到文檔的索引庫,在此基礎(chǔ)上,用戶使用關(guān)鍵詞對(duì)網(wǎng)頁進(jìn)行搜索時(shí),系統(tǒng)將把含有該檢索用詞的所有網(wǎng)頁作為結(jié)果返回給用戶。追溯起來,第一個(gè)搜索引擎Archie誕生于1990年,由加拿大蒙麥吉爾(McGill)大學(xué)的學(xué)生PeterDeutsch、AlanEmtage和BillHeelan研發(fā)。但是,那個(gè)時(shí)候人們共享數(shù)據(jù)主要通過文件傳輸?shù)姆绞?,Archie主要為用戶查詢共享文件的名稱。
1990年出現(xiàn)了萬維網(wǎng)(WorldWideWeb,WWW),隨后三四年間,WWW得到了飛速的發(fā)展,使得Web信息的定位和檢索越來越重要。最具現(xiàn)代意義的搜索引擎出現(xiàn)于1994年7月,當(dāng)時(shí)MichaelMauldin將蜘蛛程序(spider)接入到其索引程序中,創(chuàng)建了著名的Lycos()。Lycos第一次面向公眾開放的時(shí)候擁有5.4萬個(gè)文檔,主要提供排序的相關(guān)檢索,受到了用戶的廣泛認(rèn)可。到1995年1月,Lycos索引的文檔數(shù)達(dá)到150萬個(gè),1996年達(dá)6000萬個(gè),比當(dāng)時(shí)其他任何搜索引擎能夠提供檢索的文檔都多。
1994年還發(fā)布了很多著名的搜索引擎,如1994年4月,斯坦福(Stanford)大學(xué)的兩名博士生DavidFilo和美籍華人楊致遠(yuǎn)共同創(chuàng)辦了超級(jí)目錄索引Yahoo(),并成功地使搜索引擎的概念深入人心,從此搜索引擎進(jìn)入了高速發(fā)展時(shí)期。Infoseek()和AltaVista()也誕生于1994年。之后還陸續(xù)出現(xiàn)了Looksmart()、Inkotomi(www.)、AskJeeves()等著名搜索引擎。
1998年,最具影響力的搜索引擎Google()發(fā)布,Google是由斯坦福大學(xué)兩位博士生瑟蓋·布爾(SergeyBrin)和拉里·佩奇(LarryPage)研發(fā)的。Google的名字從英文“googol”演變而來,表示10100,代表海量的信息。Google在PageRank技術(shù)、動(dòng)態(tài)摘要、網(wǎng)頁快照、多文檔格式支持、圖像搜索、多語言支持、用戶界面等方面進(jìn)行了創(chuàng)新,可支持多種語言,索引頁面多,檢索面廣,搜索信息準(zhǔn)確。同年發(fā)布的還有微軟的MSN()。1999年北大校友李彥宏和徐勇創(chuàng)辦中文搜索引擎百度(),專注于中文搜索,收錄了大部分的中文網(wǎng)頁,更新速度快,有中文搜索的自動(dòng)糾錯(cuò)和自動(dòng)提示功能,更符合中國(guó)人的使用習(xí)慣。表1-2顯示了截至2005年1月世界最大搜索引擎的比較數(shù)據(jù)[5],當(dāng)時(shí)的全部網(wǎng)頁估計(jì)在115億,可索引網(wǎng)頁為94億。搜索引擎把傳統(tǒng)的信息檢索技術(shù)應(yīng)用到網(wǎng)絡(luò)信息檢索,是典型的網(wǎng)絡(luò)信息檢索系統(tǒng)。目前,搜索引擎已成為人們找尋網(wǎng)絡(luò)信息的一條主要渠道。據(jù)中國(guó)互聯(lián)網(wǎng)絡(luò)中心(CNNIC)的互聯(lián)網(wǎng)統(tǒng)計(jì)報(bào)告[6],通過搜索引擎獲取相關(guān)信息的用戶占58.2%,直接訪問已知網(wǎng)站的占35.7%,其他還有隨意瀏覽、廣告、相關(guān)鏈接等方式,共約占6.1%??梢姡阉饕嬉呀?jīng)成為信息查詢和獲取的主要手段。2010年中國(guó)互聯(lián)網(wǎng)絡(luò)中心(CNNIC)第25次互聯(lián)網(wǎng)統(tǒng)計(jì)報(bào)告[7]稱,目前中國(guó)3.84億網(wǎng)民中使用搜索引擎的比例是73.3%,即已有近3億人從搜索引擎獲益。與其他國(guó)家相比,由于中國(guó)互聯(lián)網(wǎng)仍舊是娛樂功能占主體,總體網(wǎng)民的搜索引擎使用率偏低。在美國(guó),搜索引擎使用率已經(jīng)超過90%。搜索引擎應(yīng)用人群的特點(diǎn)決定了它在互聯(lián)網(wǎng)領(lǐng)域的高商業(yè)價(jià)值。在中國(guó)這樣一個(gè)網(wǎng)民快速增長(zhǎng)和以年輕網(wǎng)民為主的國(guó)家,搜索引擎用戶將會(huì)繼續(xù)增長(zhǎng)。然而,隨著搜索引擎數(shù)量的迅速增加,如何準(zhǔn)確選擇搜索引擎,有效地利用多個(gè)搜索引擎的集成資源與檢索能力成為重要問題。元搜索引擎(MetaSearchEngine)就是一種集成化的檢索系統(tǒng),通過多個(gè)成員搜索引擎提供的服務(wù)向用戶提供統(tǒng)一的檢索服務(wù)。元搜索引擎的主要目的是綜合各種搜索引擎的長(zhǎng)處,盡量減少用戶的檢索過程,提高檢索效率。由于元搜索引擎的結(jié)果集通常十分龐大,方便用戶快速地找到需要的信息就成為一個(gè)十分關(guān)鍵的問題。雖然通過改進(jìn)頁面排序算法,可以盡量使“重要”的頁面出現(xiàn)在返回結(jié)果的前面,但由于用戶職業(yè)、興趣、年齡等各方面的差異,很難讓所有的用戶都接受系統(tǒng)給出的重要性順序。另外,統(tǒng)計(jì)顯示,用戶一般不會(huì)在結(jié)果集中向后翻超過五頁。所以,將查詢結(jié)果以一定的類別層次進(jìn)行組織,讓用戶能方便地選擇查看類別,可以很好地縮小結(jié)果集,從而使用戶能更快地找到有用的信息。圖1-4所示的Clusty()是美國(guó)Vivisimo公司開發(fā)的一個(gè)具有對(duì)搜索結(jié)果自動(dòng)進(jìn)行聚類的元搜索引擎,它能非常快速地將不同類型的網(wǎng)站進(jìn)行聚類整理并按類別呈現(xiàn)結(jié)果。Clusty在搜索結(jié)果頁面左側(cè)增加了一個(gè)搜索分類目錄欄。該目錄的作用就是對(duì)右側(cè)窗口中的所有搜索結(jié)果進(jìn)行聚類,同時(shí)也顯示此次搜索結(jié)果的總數(shù)目。分類目錄無需預(yù)先定義,是由搜索結(jié)果決定的。圖1-4Clusty的用戶界面1.3.2多媒體信息檢索
傳統(tǒng)信息檢索技術(shù)主要是面向文本的,今天廣泛使用的Google、Yahoo和百度等搜索引擎主要采用文本檢索技術(shù),通常是利用一組關(guān)鍵字或詞組成的查詢項(xiàng)來搜索定位文本數(shù)據(jù)庫中的相關(guān)文本文檔,如果某個(gè)文檔中包含較多查詢項(xiàng),那么就認(rèn)為此文檔比其他包含較少查詢項(xiàng)的文檔更相關(guān),搜索系統(tǒng)將按照這種相關(guān)程度對(duì)查詢結(jié)果進(jìn)行排序,并依次展現(xiàn)給用戶,以便用戶瀏覽和進(jìn)一步查找。對(duì)圖像和視頻等多媒體信息集來說,目前,絕大多數(shù)檢索系統(tǒng)仍采用文本搜索技術(shù),例如Google的圖像和視頻檢索功能仍是基于文本關(guān)鍵詞的,如圖1-5所示,這些關(guān)鍵詞可能來源于圖片周圍的文本、文件名等,也可能來源于人工或自動(dòng)標(biāo)注(annotation)。然而,對(duì)于圖像和視頻等多媒體信息,一般難以用自然語言進(jìn)行有效、精確的描述,無法表達(dá)其實(shí)質(zhì)內(nèi)容和語義關(guān)系,所以這種依據(jù)文本信息檢索圖片和視頻的解決方案很難完全滿足人們的查詢需要。圖1-5Google的圖像檢索許多研究者試圖研究和實(shí)現(xiàn)基于內(nèi)容的多媒體信息查詢,以彌補(bǔ)上述多媒體信息檢索技術(shù)的缺陷,其中包括對(duì)圖像、視頻和音頻等多媒體信息的內(nèi)容處理和分析、自動(dòng)標(biāo)注、構(gòu)建索引和相似檢索等。除了可以對(duì)一般的、通用的視覺特征(如顏色、紋理、形狀、運(yùn)動(dòng)、鏡頭等)和聽覺特征(頻譜分布和變化規(guī)律、節(jié)奏、韻律、話音、說話人特征等)建立索引和實(shí)現(xiàn)檢索之外,還可以尋求更有效的高層語義特征的索引方法。例如采用各種各樣的智能處理與識(shí)別技術(shù),如通過圖像和視頻的字符識(shí)別(OpticalCharacterRecognition,OCR)翻譯圖片中出現(xiàn)的文字信息,從而得到關(guān)于圖像或視頻的文本描述;通過人臉檢測(cè)和識(shí)別技術(shù)自動(dòng)分析圖像或視頻鏡頭中出現(xiàn)的人臉,從而得到人物的身份信息;通過連續(xù)語音識(shí)別技術(shù)自動(dòng)將音頻轉(zhuǎn)換為文本,可以得到關(guān)于各個(gè)音視頻片段的文本表示;通過說話人的語音聲紋分析,就可以判斷說話人的身份等。美國(guó)卡耐基-梅隆大學(xué)(CarnegieMellonUniversity,CMU)研制的Informedia()系統(tǒng)是一個(gè)集成了語言、圖像和自然語言理解技術(shù)的數(shù)字視頻檢索系統(tǒng),如圖1-6所示,允許用戶訪問、挖掘和檢索海量的數(shù)字視頻庫。該系統(tǒng)采用了多種智能處理技術(shù),利用廣播電視節(jié)目中的腳本信息(closedcaption)構(gòu)造文本索引,通過語音識(shí)別器將伴音轉(zhuǎn)換為文本;使用視頻分析模塊提取人臉特征、疊加在屏幕上的文本和視頻鏡頭邊界等,然后將這些信息全部綁定形成最終的索引結(jié)構(gòu),支持快速多媒體相似檢索。圖1-6基于內(nèi)容的視頻檢索系統(tǒng)Informedia基于內(nèi)容的多媒體信息檢索是一種新興的網(wǎng)絡(luò)信息處理和檢索技術(shù),它包含了自然語言處理、圖像處理、視頻處理、語音識(shí)別、數(shù)據(jù)庫與數(shù)據(jù)挖掘、模式識(shí)別、人工智能、機(jī)器學(xué)習(xí)等眾多學(xué)科,是一個(gè)長(zhǎng)期的、復(fù)雜的、富有挑戰(zhàn)性的研究課題。1.3.3話題識(shí)別與跟蹤
話題識(shí)別與跟蹤(TopicDetectionandTracking,TDT),作為一項(xiàng)旨在幫助人們應(yīng)對(duì)信息過載問題的研究,以新聞專線(Newswire)、廣播和電視等媒體信息流為處理對(duì)象,將語言形式的信息流分割為不同的新聞報(bào)道(NewsStory),檢測(cè)新話題的報(bào)道,并將涉及某個(gè)話題的報(bào)道組織起來以某種方式呈現(xiàn)給用戶。其研究目標(biāo)是要實(shí)現(xiàn)按話題查找、組織和利用來自多種新聞媒體的多語言信息,這類技術(shù)在現(xiàn)實(shí)中很實(shí)用,可廣泛應(yīng)用于信息安全、證券市場(chǎng)分析等領(lǐng)域,例如用于自動(dòng)監(jiān)控各種信息源(如廣播、電視等),并從中識(shí)別出各種突發(fā)事件、新事件以及關(guān)于已知事件的新信息。另外,還可以找出有關(guān)用戶某一感興趣話題的所有報(bào)道,并研究這一話題的發(fā)展歷程等等。話題識(shí)別與跟蹤的研究始于1996年,這一方向的確立與發(fā)展是在話題識(shí)別與跟蹤(TDT)系列評(píng)測(cè)會(huì)議的推動(dòng)下進(jìn)行的[8-9]。與信息檢索、信息抽取、信息管理、文本挖掘等相關(guān)研究相比,話題識(shí)別與跟蹤更強(qiáng)調(diào)對(duì)新信息的發(fā)現(xiàn)能力,關(guān)心特定話題而不是相對(duì)廣泛的主題類別的信息。例如傳統(tǒng)的信息檢索系統(tǒng)在用戶清楚自己要查找的具體內(nèi)容時(shí)比較有效,但是對(duì)通用目的的查詢請(qǐng)求卻難以做出響應(yīng),如“最近發(fā)生了哪些事?”、“有什么新信息?”等等。另外,話題識(shí)別與跟蹤的處理對(duì)象是隨時(shí)間動(dòng)態(tài)變化的語言信息流,而不是靜態(tài)的、封閉的文本集合。話題識(shí)別與跟蹤研究目前主要集中于以下五個(gè)子任務(wù)[10-11]:
(1)新聞報(bào)道的切分(StorySegmentation):將連續(xù)的廣播、電視新聞節(jié)目的語音或文字記錄分割為不同的報(bào)道;
(2)新事件的識(shí)別(NewEventDetection):在新聞報(bào)道信息流中識(shí)別出一個(gè)新話題的首次報(bào)道;
(3)報(bào)道關(guān)系識(shí)別(StoryLinkDetection):判斷兩個(gè)隨機(jī)選擇的新聞報(bào)道是否討論同一個(gè)話題;
(4)話題識(shí)別(TopicDetection):識(shí)別出系統(tǒng)未知的話題,并將相關(guān)報(bào)道也識(shí)別出來;
(5)話題跟蹤(TopicTracking):監(jiān)控新聞報(bào)道信息流以發(fā)現(xiàn)與某一已知話題有關(guān)的新報(bào)道。
話題識(shí)別與跟蹤旨在研究自然語言信息流中基于事件的信息組織問題。話題識(shí)別與跟蹤的研究可以借用信息檢索的某些方法,通過調(diào)整某些參數(shù)來使這些方法更適合于處理話題或事件。但是,要充分考慮話題識(shí)別與跟蹤研究的某些特殊性,如面向話題、基于時(shí)間等。目前話題識(shí)別與跟蹤技術(shù)已經(jīng)應(yīng)用于商業(yè)新聞搜索引擎,如圖1-7所示。圖1-7Google新聞搜索引擎1.3.4信息過濾
互聯(lián)網(wǎng)開放式的環(huán)境,為人們檢索和利用信息提供了極大的方便,但同時(shí),網(wǎng)絡(luò)環(huán)境也為人們及時(shí)準(zhǔn)確地檢索到所需信息帶來了麻煩。這是因?yàn)?,第一,網(wǎng)絡(luò)環(huán)境中信息的來源復(fù)雜多樣,隨意性大,任何人、任何單位不管其背景和動(dòng)機(jī)如何都可以在網(wǎng)絡(luò)上發(fā)布信息,信息的產(chǎn)生和傳播沒有經(jīng)過篩選和審定,因此信息的可靠性、質(zhì)量和價(jià)值成為用戶普遍擔(dān)心的一大問題;第二,搜索引擎直接提供給用戶的檢索途徑大都是基于關(guān)鍵詞的布爾邏輯匹配,返回給用戶的就是所有包括關(guān)鍵詞的文獻(xiàn),這樣的檢索結(jié)果在數(shù)量上遠(yuǎn)遠(yuǎn)超出了用戶的吸收和使用能力,常常讓人感到束手無策。這就是所謂的“信息過載”、“信息超載”現(xiàn)象。信息過濾的目的就是讓網(wǎng)絡(luò)檢索系統(tǒng)能夠更加深入、更加細(xì)致地參與到用戶的整個(gè)檢索過程中,從關(guān)鍵詞的選擇、檢索范圍的確定到檢索結(jié)果的精煉,幫助用戶在浩如煙海的信息中找到和需求真正相關(guān)的資料。信息過濾與信息檢索不同,信息過濾是對(duì)動(dòng)態(tài)信息進(jìn)行篩選,著重排除不希望得到的信息,帶有即時(shí)性。一般說來,只有通過過濾的信息才適合進(jìn)行信息檢索和信息推送,使用戶獲得所需信息。信息過濾技術(shù)的出現(xiàn)和逐漸受到重視是源于網(wǎng)絡(luò)用戶對(duì)信息獲取在數(shù)量得到滿足后的更高的一種要求。
信息過濾的一個(gè)重要應(yīng)用是垃圾郵件過濾(Antispam)。迄今為止,垃圾郵件在國(guó)際上并沒有一個(gè)標(biāo)準(zhǔn)的定義。垃圾郵件的基本特征是“不請(qǐng)自來”(unsolicited),而且大部分垃圾郵件都帶有商業(yè)或者其他宣傳目的。同時(shí),垃圾郵件的判定和郵件的接收者有很大關(guān)系,不同用戶對(duì)同一郵件的判斷結(jié)果可能會(huì)存在差異。來自國(guó)家統(tǒng)計(jì)局的數(shù)據(jù)顯示,我國(guó)網(wǎng)民所收郵件六成以上是垃圾郵件,造成了大量網(wǎng)絡(luò)資源的浪費(fèi),并為大量病毒的迅速傳播提供了溫床,而且對(duì)用戶的正常工作造成了嚴(yán)重的干擾。垃圾郵件過濾工具中常采用黑名單—白名單或者手工制定規(guī)則的方法。黑名單給出了發(fā)送垃圾郵件的郵件地址(或者是IP地址范圍、域名等屬性)列表,凡是屬于黑名單的郵件被判定為垃圾郵件。白名單收錄了郵件接收者確信的郵件地址信息,凡是屬于白名單的郵件都被判定為合法郵件。但這些方法無法攔截全部的垃圾郵件,而且這些方法的主觀性會(huì)造成大量合法郵件的誤判和垃圾郵件的漏判。因此,需要綜合各種不同的方法,包括基于內(nèi)容的機(jī)器學(xué)習(xí)判別方法。從內(nèi)容上看,垃圾郵件過濾可以看成一個(gè)二值分類問題:垃圾郵件類和合法郵件類。因此,各種分類方法可以用于垃圾郵件的過濾。然而,垃圾郵件過濾是一個(gè)特定領(lǐng)域的分類問題,與一般的分類存在不同:
(1)通常認(rèn)為用戶寧愿接收更多的垃圾郵件,也不能接受將合法郵件錯(cuò)判成垃圾郵件。因此,與通常的分類方法相比,垃圾郵件過濾更重視正確率。
(2)垃圾郵件過濾實(shí)現(xiàn)的環(huán)境通常都有較高的性能要求,因此,要求垃圾郵件過濾的方法不僅要重視實(shí)現(xiàn)的效果,也要重視實(shí)現(xiàn)的效率。
(3)垃圾郵件過濾中的類別有別于通常分類中的類別,一方面,垃圾郵件、合法郵件在語義上并不像通常分類中的類別(如體育、軍事等)能夠被人理解;另一方面垃圾郵件的類別定義可能會(huì)因人而異,也可能會(huì)隨著時(shí)間而改變。目前基于內(nèi)容垃圾郵件判別的方法包括基于規(guī)則的方法和基于概率統(tǒng)計(jì)的方法。前者常常得出人們可以理解的顯式規(guī)則;后者往往通過某種計(jì)算表達(dá)式推出結(jié)果。不管是基于規(guī)則的方法還是基于概率統(tǒng)計(jì)的方法,在使用時(shí)都經(jīng)歷從訓(xùn)練到過濾的過程。通過已有的訓(xùn)練集合(正例+反例)訓(xùn)練出相應(yīng)的垃圾郵件規(guī)則(包括顯式規(guī)則或隱式規(guī)則),然后將規(guī)則應(yīng)用到新的郵件判定中去。在實(shí)際系統(tǒng)中可能還會(huì)加入人機(jī)交互過程,通過用戶對(duì)判定結(jié)果的認(rèn)可與否對(duì)已有的垃圾郵件規(guī)則進(jìn)行更新,如圖1-8所示。圖1-8MicrosoftWindowsMail的垃圾郵件過濾伴隨全球信息網(wǎng)絡(luò)的普及和信息化進(jìn)程的推進(jìn),網(wǎng)絡(luò)信息數(shù)量巨大,良莠并存。一方面,從這些數(shù)據(jù)中快速、準(zhǔn)確、有效地獲取所需內(nèi)容已成為服務(wù)社會(huì)、培育新興媒體的重要需求,也逐漸成為不同政治、軍事力量甚至國(guó)家之間占領(lǐng)網(wǎng)上信息制高點(diǎn)和主動(dòng)權(quán)的迫切而又長(zhǎng)期的需求。另一方面,如何有效地利用信息內(nèi)容,并對(duì)這些內(nèi)容進(jìn)行智能化管理,也是信息社會(huì)提出的一項(xiàng)重要需求。信息安全特別是網(wǎng)絡(luò)信息內(nèi)容安全受到了各國(guó)政府的高度重視。一些發(fā)達(dá)國(guó)家已把網(wǎng)絡(luò)信息內(nèi)容安全列為國(guó)家重點(diǎn)發(fā)展規(guī)劃。信息過濾技術(shù)可望在信息內(nèi)容安全領(lǐng)域發(fā)揮重大作用。1.3.5問題回答
隨著互聯(lián)網(wǎng)的普及,互聯(lián)網(wǎng)上的信息越來越豐富,現(xiàn)在人們能夠通過搜索引擎方便地得到自己想要的各種信息。無論哪方面的內(nèi)容,只要用戶輸入一些關(guān)鍵字,搜索引擎都能幫助人們快速地找到相關(guān)的網(wǎng)頁。但是,這些傳統(tǒng)的搜索引擎存在很多的不足,其中主要有三個(gè)方面:一是相關(guān)性信息太多。傳統(tǒng)的搜索引擎返回的相關(guān)網(wǎng)頁太多,用戶很難快速準(zhǔn)確地定位到所需的信息。例如,用戶在Google上輸入幾個(gè)關(guān)鍵字,它有可能返回成千上萬個(gè)網(wǎng)頁,用戶在這些網(wǎng)頁中查找自己所需要的信息會(huì)浪費(fèi)很多時(shí)間。二是以關(guān)鍵詞的邏輯組合來表達(dá)檢索需求,因?yàn)槿藗兊臋z索需求往往非常復(fù)雜而特殊,難以用幾個(gè)關(guān)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年齒輪傳動(dòng)測(cè)試題民及答案
- 2025年5歲智商測(cè)試題及答案
- 2025年教資面試試題及答案
- 2025年數(shù)字視覺設(shè)計(jì)考試題及答案
- 2025年初級(jí)社工章節(jié)試題及答案
- 2025年專注力視聽測(cè)試題及答案
- 2025年水利單招面試試題及答案
- 2025年4單元數(shù)學(xué)測(cè)試題及答案
- 保育師中級(jí)練習(xí)試題
- 急救物品制度?復(fù)習(xí)試題含答案
- 2025年合伙協(xié)議模板
- 男護(hù)士的職業(yè)生涯規(guī)劃書
- 2025年黑龍江旅游職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)技能測(cè)試題庫含答案
- 工藝技術(shù)人員工作總結(jié)
- DB61T-農(nóng)產(chǎn)品區(qū)域公用品牌管理規(guī)范
- 對(duì)外漢語綜合課教案集成
- 中央2025年中國(guó)民航大學(xué)勞動(dòng)合同制人員招聘7人筆試歷年參考題庫附帶答案詳解
- 北京市朝陽區(qū)2024-2025學(xué)年高一上學(xué)期期末質(zhì)量檢測(cè)數(shù)學(xué)試題【含答案解析】
- 高一生活指南模板
- 信息系統(tǒng)監(jiān)理師教程筆記版
- 廣州電視塔鋼結(jié)構(gòu)施工方案
評(píng)論
0/150
提交評(píng)論