現(xiàn)代信息檢索研究課件_第1頁
現(xiàn)代信息檢索研究課件_第2頁
現(xiàn)代信息檢索研究課件_第3頁
現(xiàn)代信息檢索研究課件_第4頁
現(xiàn)代信息檢索研究課件_第5頁
已閱讀5頁,還剩76頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、現(xiàn)代信息檢索陸銘66134922richard.lu/2一、 引言 課程概況 研究歷史和現(xiàn)狀 學(xué)科框架 基本概念31. 課程概況(About the course) 設(shè)課目的 市場發(fā)展的需求 用戶需要信息檢索技術(shù) 互聯(lián)網(wǎng)的信息量太大,尋找信息非常不容易 公司需要信息檢索技術(shù) 信息檢索技術(shù)可以創(chuàng)造利潤,搜索引擎改變了很多傳統(tǒng)的生活方式,Yahoo、Google、Baidu,還有一些公司如Microsoft、Sina、Sohu都加入到搜索技術(shù)的競爭 人才的競爭 搜索的技術(shù)人才出現(xiàn)缺口 2000年的網(wǎng)絡(luò)和現(xiàn)在的互聯(lián)網(wǎng)有什么不同,搜索引擎在其中占什么位置?4數(shù)字化信息量舉例 音樂作品(莫扎特):約10

2、0MB 報紙(華爾街雜志):100MB/年(文本) 卡片目錄(美國國會圖書館):17GB 廣播(WABC) :270GB/年(未經(jīng)壓縮) 網(wǎng)絡(luò)論壇(Netnews):300GB/年 地區(qū)圖書館(加州大學(xué)圖書館):1.4TB(圖書掃描版) Internet出版(WWW):1997年約4TB 電視(CNN新聞):1GB/1小時, 6TB/年(經(jīng)壓縮) 錄像帶出租(Blockbuster Video):9TB 科研圖書館(美國會圖書館):全部圖書館數(shù)字化20TB來源:美國伯克利加州大學(xué)教授Peter Lyman和Alex Internet公司總裁Brewster Kahle所著文化制品數(shù)字化存檔行動

3、綱要5信息檢索的問題 信息超載 信息太多, 需要過濾 檢索結(jié)果垃圾太多, 有害信息太多 查找非結(jié)構(gòu)信息有困難 多數(shù)數(shù)據(jù)庫在結(jié)構(gòu)化字段上工作 多數(shù)商業(yè)信息是非結(jié)構(gòu)化的. 報告、電子郵件、來往公函 . 美國商業(yè)每年產(chǎn)生4500億份文件 波音747文件比飛機重量還重 標(biāo)引是主觀的 標(biāo)引者之間不一致, 經(jīng)驗統(tǒng)計表明標(biāo)引者之間僅20% 相同 作者與標(biāo)引者之間、檢索者與用戶之間不一致6信息檢索的問題 語言問題 一詞多意 Bank: a river boundary or a savings and loans? DNA: microbiology or Digital Equipment Corporat

4、ions Network Architecture? Free Rider: Economic game theory or urban transportation systems? 一意多詞 car, automobile, vehicle, sedan, horseless carriage.71. 課程概況(About the course) 課程性質(zhì) 圖書館學(xué)研究生的必修課程 課程內(nèi)容 本課程的教學(xué)目的是培養(yǎng)學(xué)生了解信息檢索工具的基本原理和技術(shù),使學(xué)生能夠進行較深層的研究或應(yīng)用開發(fā) 本課程不是一門講授使用信息檢索方法的課程,本課程是研究信息檢索的技術(shù)實現(xiàn)的一門基礎(chǔ)課程81. 課程概況

5、課程內(nèi)容體系 引言 課程概況,研究歷史和現(xiàn)狀,學(xué)科框架,相關(guān)概念 檢索理論 IR模型的形式化表示和類型,經(jīng)典模型 檢索語言,互操作,自然語言、本體論 文本檢索 經(jīng)典、現(xiàn)代文本處理和全文文本處理,分類和聚合 網(wǎng)絡(luò)檢索 網(wǎng)絡(luò)檢索、 PageRank和HITS算法 信息自動處理和系統(tǒng)評價 可視化、自動文摘、評價 多媒體檢索 模型與語言,標(biāo)引與檢索,并行與分布式檢索 數(shù)字圖書館 OPAC,文獻模型、表達與存取,元數(shù)據(jù),云數(shù)據(jù)庫檢索技能91. 課程概況(About the course) 授課方式 自學(xué)與課堂討論相結(jié)合 課堂講述和課后練習(xí)相結(jié)合 講授內(nèi)容既包含傳統(tǒng)內(nèi)容,也注意吸收最新研究成果 既考慮入門

6、,也兼顧研究 考核方式 課程論文 按發(fā)表要求寫作,課程結(jié)束,論文錄用 成績構(gòu)成 平時成績:課堂演講討論與1篇小論文,30% 考試:1篇課程論文(約5000字),70%101. 課程概況參考書籍及文獻詳見教學(xué)大綱 Baeza-Yates, R. & B. Ribeiro-Neto. eds. Modern Information Retrieval. ACM Press, 1999 王知津等譯. 現(xiàn)代信息檢索技術(shù).機械工業(yè)出版社,2005 蘇新寧. 信息檢索理論與技術(shù). 科學(xué)技術(shù)文獻出版社,2004 焦玉英.信息檢索進展,科學(xué)出版社,2003 林培光等,面向Web的個性化語義信息檢索技術(shù),中國財

7、政經(jīng)濟出版社,2009 解虹,數(shù)字化環(huán)境下交互式信息檢索,機械工業(yè)出版社,2010 于天恩,迅速搭建全文搜索平臺,清華大學(xué)出版社,2007111. 課程概況參考書籍及文獻 第一章 引言 吳慰慈. 網(wǎng)絡(luò)環(huán)境下信息存儲與檢索技術(shù)的發(fā)展.四川圖書館學(xué)報,2003,(01) 王知津; 李明珍.十年來我國信息檢索研究述評.現(xiàn)代圖書情報技術(shù),2004,(12) 焦玉英. 網(wǎng)絡(luò)環(huán)境中信息檢索理論與實踐的發(fā)展.圖書情報知識,2001,(01)12一些重要的工具 Lemur:包含各種IR模型的實驗平臺,C+ SMART:向量空間模型工具, C編寫 Weka:分類工具,Java編寫 Lucene:開源檢索工具,各

8、種語言編寫的版本 Larbin:采集工具,C+ Firtex:檢索平臺,C+,計算所開發(fā)132. 研究歷史和現(xiàn)狀 歷史分段: 計算機出現(xiàn)以前 計算機出現(xiàn)以后 Internet出現(xiàn)以后 142. 研究歷史和現(xiàn)狀計算機出現(xiàn)以前約4000年前,人類就開始有目的地組織信息,一個典型的例子就是圖書中的目錄。隨后,逐漸出現(xiàn)索引的概念,即從一些詞和概念指向相關(guān)信息或者文檔的“指針”。計算機問世以前,人們主要通過手工方式來建立索引。 152. 研究歷史和現(xiàn)狀 計算機出現(xiàn)以后 1948年C. N. Mooers在其MIT碩士論文中第一次使用了“Information Retrieval”這個術(shù)語。 196070

9、年代在建立文摘檢索系統(tǒng)中,產(chǎn)生了布爾模型(Boolean Model)、向量空間模型(Vector Space Model)和概率檢索模型(Probabilistic Model) 1980年代出現(xiàn)商用數(shù)據(jù)庫檢索系統(tǒng):Dialog,ORBIT, MEDLINE162. 研究歷史和現(xiàn)狀I(lǐng)nternet出現(xiàn)以后1986年Internet正式形成。1990s第一個網(wǎng)絡(luò)搜索工具:1990年加拿大蒙特利爾大學(xué)開發(fā)的FTP搜索工具Archie。第一個WEB搜索引擎:1994年美國CMU開發(fā)的Lycos。1995斯坦福大學(xué)博士生開發(fā)Yahoo。1998斯坦福大學(xué)博士生開發(fā)的Google,提出PageRank

10、計算公式。1998年基于語言模型的IR模型提出。172. 研究歷史和現(xiàn)狀 1990年代的其他重要事件:推薦系統(tǒng)的出現(xiàn):Ringo,Amazon,NetPerceptions文本分類和聚類的使用:信息抽取:Whizbang 182. 研究歷史和現(xiàn)狀 2000s的重要事件文本檢索會議TREC(Text Retrieval Conference )的發(fā)展問答系統(tǒng)評測專項Q/A track(Question Answering Track)2001年,百度成立。192. 研究歷史和現(xiàn)狀 2000s以來的其他重要事件:多媒體IR,Image,Video,Audio and music,跨語言IR,DAR

11、PA Tides,文本摘要,DUC評測 202. 研究歷史和現(xiàn)狀國際著名研究機構(gòu)和代表人物康奈爾大學(xué)的Salton領(lǐng)導(dǎo)的研究小組是該領(lǐng)域研究的佼佼者。倫敦城市大學(xué)的Robertson及劍橋大學(xué)的SparckJones是概率模型的倡導(dǎo)者。美國W. B. Croft,ACM Fellow:基于統(tǒng)計語言建模IR模型的提出者和倡導(dǎo)者和CMU共同開發(fā)了Lemur工具212. 研究歷史和現(xiàn)狀 1990年代的其他重要事件:評測會議NIST:機器翻譯自動評測指標(biāo) 文本檢索會議TREC(Text Retrieval Conference ) 222. 國際著名研究機構(gòu)和代表人物 美國康奈爾大學(xué)Salton(19

12、27-1995) 現(xiàn)代信息檢索的奠基人 SMART的完成人 第一任Salton獎得主,ACM Fellow 英國劍橋大學(xué)SparckJones (1935-2007) 概率檢索模型的提出者之一 NLP和IR中的先輩 曾獲ACL終身成就獎和Salton獎232. 國際著名研究機構(gòu)和代表人物 美國UMassCIIR W. B. Croft,ACM Fellow 基于統(tǒng)計語言建模IR模型的提出者和倡導(dǎo)者 和CMU共同開發(fā)了Lemur工具 Salton獎得主 英國Glasgow大學(xué)Rijsbergen,ACM Fellow 信息檢索邏輯推理學(xué)派的提出者和倡導(dǎo)者 現(xiàn)在試圖用量子物理的方法解決IR問題 S

13、alton獎得主 英國微軟劍橋研究院、倫敦城市大學(xué)Robertson 概率檢索模型的倡導(dǎo)者 開發(fā)了OKAPI Salton獎得主242. 國際著名研究機構(gòu)和代表人物 美國CMU 美國UIUC 微軟研究院 IBM研究院 Google研究院252. 一些活躍的華裔學(xué)者 加拿大蒙特利爾大學(xué)聶建云教授 跨語言檢索 IR模型 美國UIUC ChengxiangZhai博士 IR模型 美國CMU YimingYang教授 文本分類 臺灣中研院簡立峰 號稱“中文搜索”第一人 加入Google研究院262. 研究歷史和現(xiàn)狀國內(nèi)一些活躍的研究機構(gòu) 軟件端 北京大學(xué),復(fù)旦大學(xué),清華大學(xué),哈爾濱工業(yè)大學(xué),中科院計算

14、所,中科院軟件所,中科院自動化所 應(yīng)用端 武漢大學(xué),南京大學(xué),北京大學(xué)272. 研究歷史和現(xiàn)狀國內(nèi)20002006,CNKI武漢大學(xué)信息管理學(xué)院32南京大學(xué)信息管理系21中山大學(xué)信息管理系21清華大學(xué)計算機科學(xué)與技術(shù)系17復(fù)旦大學(xué)計算機科學(xué)系16中國科學(xué)院計算技術(shù)研究所15北京大學(xué)信息管理系14南京農(nóng)業(yè)大學(xué)信息管理系11華中師范大學(xué)信息管理系10上海交通大學(xué)計算機系10282. 研究歷史和現(xiàn)狀國內(nèi)20002006武漢大學(xué)信息管理學(xué)院 網(wǎng)絡(luò)信息檢索:2002,2004 情報檢索模型理論:2001,2004,2006 信息過濾:2002,2006 文本知識的自動分類:2003焦玉英,劉偉成292.

15、 研究歷史和現(xiàn)狀國內(nèi)20002006 中山大學(xué)信息管理系 網(wǎng)絡(luò)信息過濾:2002,2003,2004,2005 黃曉斌, 邱明輝 南京大學(xué)信息管理系 文本信息檢索 楊建林 302. 研究歷史和現(xiàn)狀國內(nèi)20002006 清華大學(xué)計算機科學(xué)與技術(shù)系 文本自動分類,自動文摘:20012006 陳群秀 復(fù)旦大學(xué)計算機系 文本過濾、音頻視頻檢索 黃萱菁 312. 研究歷史和現(xiàn)狀國內(nèi)20002006中國科學(xué)院計算技術(shù)研究所 文本自動分類2001,2002 文本檢索:2002,2003,2004,2006 知識網(wǎng)格:2002,2004 白碩北京大學(xué)信息管理系 圖像檢索 文本檢索 賴茂生,黃崑,馬張華 322

16、. 研究歷史和現(xiàn)狀南京農(nóng)業(yè)大學(xué)信息管理系中文信息自動分類侯漢清332. 一些重要的會議 國際會議: SIGIR、ACL、WWW、SIGKDD CIKM、ICML TREC AIRS 國內(nèi)會議: 全國信息檢索及內(nèi)容安全學(xué)術(shù)會議(2年一屆) 全國計算語言學(xué)聯(lián)合會議(2年一屆)342. 一些重要的期刊 國際 ACM Transactions on Information Systems(TOIS) ACM Transactions on Asian Language Information Processing(TALIP) Information Processing & Management(I

17、P&M) Information Retrieval 國內(nèi) 中文信息學(xué)報 情報學(xué)報352. 國內(nèi)重要期刊2000-2006情報雜志86現(xiàn)代圖書情報技術(shù)81情報學(xué)報67情報科學(xué)64現(xiàn)代情報57圖書情報工作47情報理論與實踐49情報探索22科技情報開發(fā)與經(jīng)濟17圖書館理論與實踐16圖書館學(xué)研究15圖書情報知識15醫(yī)學(xué)情報工作15中國圖書館學(xué)報15362. 研究歷史和現(xiàn)狀國內(nèi)重要期刊2000200120022003200420052006小計計算機工程與應(yīng)用63141918171794情報雜志2541320202286現(xiàn)代圖書情報技術(shù)75111314161581計算機工程256822171272情報

18、學(xué)報8512111171367情報科學(xué)5811712111064現(xiàn)代情報013711231257圖書情報工作34781010547情報理論與實踐95521251149計算機應(yīng)用研究2215691439合計44437493136135131656372. 研究歷史和現(xiàn)狀 研究前沿數(shù)據(jù)庫知識發(fā)現(xiàn) 開發(fā)各種軟件系統(tǒng),揭示數(shù)據(jù)庫中不同領(lǐng)域知識的聯(lián)系和問題的答案,找出知識發(fā)現(xiàn)的新途徑。語義網(wǎng)研究 這方面的研究項目有面向自然語言處理的語法,語義計算機模式的研究,潛在的語義索引,復(fù)合詞的分析模型研究,自動構(gòu)成多語種詞庫,存取多語種信息,用戶自適應(yīng)集合分類法研究,知識共生現(xiàn)象研究,網(wǎng)絡(luò)知識搜尋代理等 382.

19、 研究歷史和現(xiàn)狀 研究前沿信息檢索技術(shù)前沿課題包括:元數(shù)據(jù)技術(shù)、語料庫技術(shù)、海量信息存儲與壓縮技術(shù)、信息可視化技術(shù)、圖像檢索技術(shù)、人機界面技術(shù)、多語言瀏覽器、跨語言信息檢索、自然語言理解、人工智能、大規(guī)模真實文本評測、自動抽詞、自動標(biāo)引、自動分類、自動文摘、概念分類(Ontology)、“云”檢索、信息安全和保護技術(shù)等。 當(dāng)前要著重內(nèi)容和知識開發(fā)利用的新技術(shù)和新應(yīng)用的研究和探索,以及實現(xiàn)這些技術(shù)和應(yīng)用不可或缺的基礎(chǔ)研究、基礎(chǔ)建設(shè)和標(biāo)準(zhǔn)規(guī)范的采用。393. 學(xué)科體系和相關(guān)研究領(lǐng)域內(nèi)涵 信息檢索基礎(chǔ)理論 標(biāo)引理論 檢索語言,詞頻統(tǒng)計,引文分析 檢索模型 集合論,布爾代數(shù),模糊數(shù)學(xué) 檢索結(jié)果的可視化

20、 403. 學(xué)科體系和相關(guān)研究領(lǐng)域內(nèi)涵 檢索模型 布爾模型 基于集合論和布爾代數(shù),適用于普通用戶,核心是二值相關(guān),不能進行相關(guān)性排序 向量空間模型 以向量表示提問和文檔,向量計算在后臺進行,與用戶無關(guān),優(yōu)點是可以進行相關(guān)性排序,也可產(chǎn)生文檔文摘 概率模型 基于貝葉斯概率論,更具有普遍性,適應(yīng)多媒體、語義文檔的檢索,具有邏輯推理能力 以上模型在實踐中,常?;旌鲜褂?,以達到最佳效果413. 學(xué)科體系和相關(guān)研究領(lǐng)域內(nèi)涵 信息處理與信息組織 自動標(biāo)引 自動分類與聚類 自動摘要 視頻音頻信息索引 信息的組織423. 學(xué)科體系和相關(guān)研究領(lǐng)域內(nèi)涵 自動分類 研究歷史 1964年以前,HP Luhn開創(chuàng)性工作

21、,Maron第一篇論文,解決自動分類的可行性問題 1965-1974年,試驗性研究階段 1975至今,實用化研究階段 研究內(nèi)容:聚類,類號轉(zhuǎn)換 自動文摘 語料庫技術(shù),詞法分析,句法分析,信息抽取,評價433. 學(xué)科體系和相關(guān)研究領(lǐng)域內(nèi)涵 查詢擴展與優(yōu)化 檢索詞選擇方案,控制詞表技術(shù),整體與局部分析技術(shù) 檢索相關(guān)性分析 內(nèi)涵:主題相關(guān)系統(tǒng)相關(guān) 用戶相關(guān)主觀因素 實證:1955年 kent對查全率查準(zhǔn)率的研究443. 學(xué)科體系和相關(guān)研究領(lǐng)域內(nèi)涵信息檢索技術(shù)與方法 布爾檢索 加權(quán)檢索 全文檢索 超文本檢索信息檢索技術(shù)與方法 多媒體檢索 智能檢索 跨語言檢索 跨平臺檢索453. 學(xué)科體系和相關(guān)研究領(lǐng)域

22、內(nèi)涵 信息可視化 一維信息的可視化(含有某種規(guī)律的一組數(shù)據(jù),具有與相關(guān)性排列的檢索結(jié)果) 二維信息可視化(地理信息系統(tǒng),圖形方法表示的調(diào)查統(tǒng)計數(shù)據(jù)) 三維信息可視化(將查全率、查準(zhǔn)率檢索速度等指標(biāo)進行可視化排序)46Visual Thesaurus47Hyperbolic Tree 48Aqua Browser/49X refer plus http:/www.xreferplus.co.uk/50Dewey decimal system51OCLC Dewey Browser523. 學(xué)科體系和相關(guān)研究領(lǐng)域外延相關(guān)研究領(lǐng)域 圖書情報學(xué)(Library & Info. Science) 數(shù)據(jù)庫

23、管理(Database Management) 人工智能(Artificial Intelligence) 自然語言處理(Natural Language Processing) 機器學(xué)習(xí)(Machine Learning) 關(guān)聯(lián)開放數(shù)據(jù)(Linked Open Dada, LOD)533. 學(xué)科體系和相關(guān)研究領(lǐng)域外延 圖書情報學(xué)(Library and Information Science, LIS) IR最初起源于LIS LIS主要關(guān)注IR中的用戶方(人機交互、用戶界面、可視化)、高效分類、文獻的引用分析(citation analysis)和文獻計量(bibliometrics)。 近

24、年來數(shù)字圖書館方面的工作使得LIS和IR日益融合。數(shù)據(jù)庫管理系統(tǒng)(Database Management, DM)。DM主要面向關(guān)系表中的結(jié)構(gòu)化數(shù)據(jù)而非文本。DM主要集中于高效解決形式化語言(如SQL)定義的查詢。DM中不論是查詢還是數(shù)據(jù)都具有明確的語義。近年來半結(jié)構(gòu)化的XML數(shù)據(jù)的出現(xiàn)使DM和IR逐漸融合。 543. 學(xué)科體系和相關(guān)研究領(lǐng)域外延 人工智能(Artificial Intelligence,AI) AI關(guān)注知識的表示、推理和智能行為。AI中知識的形式化表示、一階謂詞邏輯(First Order Predicate Logic)、貝葉斯網(wǎng)絡(luò)(Bayesian Networks)、以

25、及近年來的Web本體及智能信息Agent方面研究使得IR和AI相互融合。553. 學(xué)科體系和相關(guān)研究領(lǐng)域外延 自然語言理解(Natural Language Processing,NLP) NLP關(guān)注自然語言文本的語法(syntactic) 、語義(semantic)及語用(pragmatic)分析。 NLP可以分析短語結(jié)構(gòu)和語義,使得IR可以在短語上、或者從語義上進行處理,而不是僅僅基于單個關(guān)鍵詞。NLP和IR天生就是融合的。 NLP和IR融合的其他方面:通過上下文詞義消歧(word sense disambiguation)來確定一個詞在某個特定上下文的語義。通過一些NLP方法來獲得文檔中

26、的一個語言片斷(information extraction)。通過NLP方法可以從文檔集合中返回一些問題的答案(question answering)563. 學(xué)科體系和相關(guān)研究領(lǐng)域外延 機器學(xué)習(xí)(Machine Learning,ML) ML關(guān)注通過對經(jīng)驗的學(xué)習(xí)來提高計算機系統(tǒng)的性能。 從標(biāo)注好的例子中學(xué)習(xí)相關(guān)概念,然后進行自動分類(有監(jiān)督的學(xué)習(xí),supervised learning),將未標(biāo)注的例子自動聚集到有意義的不同集合中(無監(jiān)督的學(xué)習(xí),unsupervised learning)。 ML和IR融合的方面:文本分類(Text Categorization),自動層次分類 自適應(yīng)過濾

27、或推薦(Adaptive filtering/recommending),垃圾過濾(Spam filtering),文本聚類(Text Clustering),IR結(jié)果的自動聚類,層次型類別體系的自動構(gòu)建 574. 信息檢索的相關(guān)概念(IR concepts) 信息過載(Information overload) “全世界每年產(chǎn)生1到2 EB(1 EB1018B)信息,相當(dāng)于地球上每個人大概產(chǎn)生250MB信息。其中紙質(zhì)信息僅占所有信息的0.03%.”(Lyman & Vavian 2003 /research/projects/how-much-info-2003/) 靜態(tài)網(wǎng)頁有上百億,動態(tài)及

28、不可見網(wǎng)頁至少是靜態(tài)網(wǎng)頁的500倍。 Tom Landauer認(rèn)為人的大腦只能存儲200M信息量,一輩子只能接觸6G的信息量。/mlesk/ksg97/ksg.html584. 信息檢索的相關(guān)概念(IR concepts) Internet網(wǎng)站數(shù)量的增長(1996.6.2006.3.)/robert/internet/timeline/#2000s594. 信息檢索的相關(guān)概念(IR concepts) 中國大陸Internet網(wǎng)站數(shù)量的增長(19972006)604. 信息檢索的相關(guān)概念(IR concepts) 全球數(shù)字化進程加快。1998年,美國前副總統(tǒng)戈爾提出數(shù)字化地球的概念。1998年

29、,江澤民總書記提出數(shù)字中國戰(zhàn)略構(gòu)想。 世界啟動了數(shù)字圖書館、數(shù)字博物館在內(nèi)的一系列工程,另外包括虛擬博物館、數(shù)字電影、交互電視、會議電視、遠程教育、遙感、GPS等在內(nèi)的服務(wù)或應(yīng)用也產(chǎn)生大量文本和多媒體數(shù)據(jù)。 614. 信息檢索的相關(guān)概念(IR concepts) 問題:一方面,人們可以獲得的信息的來源非常廣泛。另一方面,人們?nèi)绾慰焖?、?zhǔn)確、全面地獲得自己所需要的信息非常困難!信息量太大,而且信息冗余度大、質(zhì)量良莠不齊、格式不一、位置分散、關(guān)聯(lián)復(fù)雜、語言繁多。用戶需求的表達和理解非常困難 信息的理解非常困難自然語言文本、圖片、視頻 信息檢索是研究如何解決上述問題的一門學(xué)科,理解用戶需求,提供相關(guān)

30、結(jié)果。624. 信息檢索的相關(guān)概念(IR concepts) 信息檢索(Information Retrieval) Information Retrieval這個術(shù)語產(chǎn)生于Calvin Mooers1948年在MIT的碩士論文 Information Retrieval(IR) 從文檔集合中返回滿足用戶需求的相關(guān)信息的過程 作為一門學(xué)科,是研究信息的獲取(acquisition)、表示(representation)、存儲(storage)、組織(organization)和訪問(access)的一門學(xué)問634. 信息檢索的相關(guān)概念(IR concepts) 信息檢索可以看成計算機科學(xué)(Co

31、mputer Science)和圖書情報學(xué)(Library & Info. Science)的交叉學(xué)科。以計算機為手段,處理信息對象,和語言學(xué)、認(rèn)知科學(xué)等其他學(xué)科融合。檢索來自英文單詞Retrieval,其本義是“獲得與輸入要求相匹配的輸出”。和我們平時所理解的搜索意義上的檢索不一樣。644. 信息檢索的相關(guān)概念(IR concepts) 信息檢索:IR不僅僅是搜索,IR系統(tǒng)也不僅僅是搜索引擎。 例1:返回與信息檢索相關(guān)的網(wǎng)頁搜索引擎(Search Engine, SE) 例2:毛澤東的生日是哪天問答系統(tǒng)(Question Answering, QA) 例3:返回聯(lián)想PC的型號、配置、價格等信

32、息抽取(Information Extraction, IE) 例4:訂閱有關(guān)NBA的新聞信息過濾(Information Filtering)、信息推薦(Information Recommending) 狹義的IR通常是指Information Search,而廣義的IR包含非常多的內(nèi)容(SE, QA, IE, )。本課程介紹的是廣義的IR。65Documents StreamUser 1ProfileUser 2ProfileDocs Filteredfor User 2Docs forUser 14. 信息檢索的相關(guān)概念(IR concepts) Filtering(過濾: 用戶需求不

33、變,push)664. 信息檢索的相關(guān)概念(IR concepts) 用戶需求(User Need,UN):用戶需要獲得的信息 嚴(yán)格地說,UN只存在于用戶的內(nèi)心,但是通常用文本來描述,如查找與2006世界杯相關(guān)的新聞,有時也稱為主題(Topic)。 UN提交給檢索系統(tǒng)時稱為查詢(Query),如2008奧運會,對同一個UN,不同人不同時候可以構(gòu)造出不同的Query。Query在IR系統(tǒng)中往往還有內(nèi)部表示。674. 信息檢索系統(tǒng)684.信息檢索系統(tǒng)的組成框架69DocsInformation NeedIndex TermsqueryRankingmatch4. 信息檢索的相關(guān)概念檢索流程704.

34、 信息檢索的相關(guān)概念(IR concepts) IR系統(tǒng)的組成部分 用戶接口(User Interface):用戶和IR系統(tǒng)的人機接口 輸入查詢(Query),返回排序后的結(jié)果文檔(Ranked Docs)并對其進行可視化(Visualization),支持用戶進行相關(guān)反饋(Feedback) 用戶的兩種任務(wù):retrieval 或者browsing IR的兩種模式:pull (ad hoc) 和push (filtering)。 Pull: 用戶是主動的發(fā)起請求,在一個相對穩(wěn)定的數(shù)據(jù)集合上進行查詢。 Push:用戶事先定義自己的興趣,系統(tǒng)在不斷到來的流動數(shù)據(jù)上進行操作,將滿足用戶興趣的數(shù)據(jù)推

35、送給用戶714. 信息檢索的相關(guān)概念(IR concepts) 文檔(Document):檢索的對象 可以是文本,也可以是圖像、視頻、語音等多媒體文檔,text retrieval/image retrieval/video retrieval/speech retrieval/multimedia retrieval 可以是無格式、半格式、有格式的 文檔集合(Collection):所有待檢索的文檔構(gòu)成的集合。也稱為Repository,Corpus724. 信息檢索的相關(guān)概念(IR concepts) 相關(guān)(relevant、相關(guān)度relevance) 相關(guān)取決于用戶的判斷,是一個主觀概念

36、,不同用戶做出的判斷很難保證一致,即使是同一用戶在不同時期、不同環(huán)境下做出的判斷也不盡相同。 734. 信息檢索的相關(guān)概念(IR concepts) 定義“相關(guān)性”的兩個角度 系統(tǒng)角度:系統(tǒng)輸出結(jié)果,用戶是信息的接受者。這種理解置用戶于被動的地位,基于這種理解,研究的重心落在系統(tǒng)本身。主題相關(guān)性:檢索系統(tǒng)檢出的文檔的主題即核心內(nèi)容與用戶的信息需求相匹配。系統(tǒng)角度相關(guān)并不和用戶脫節(jié)。系統(tǒng)角度定義的主題相關(guān)性可以計算 用戶角度:觀察用戶對檢索結(jié)果的反應(yīng),是系統(tǒng)輸出向用戶需求的投射。相關(guān)性被認(rèn)為是用戶方面的屬性。用戶角度定義的相關(guān)目前仍然難以計算 現(xiàn)代信息檢索研究中仍然主要采用系統(tǒng)角度定義的主題相關(guān)性概念,也強調(diào)考慮用戶的認(rèn)知因素744. 信息檢索的相關(guān)概念(IR concepts) 形式上說,信息檢索中的相關(guān)度是一個函數(shù)R,輸入是查詢Q、文檔D和文檔集合C,返回的是一個實數(shù)值R=f(Q,D,C)信息檢索就是給定一個查詢Q,從文檔集合C中計算每篇文檔D與Q的相關(guān)度并排序(Ranking)。相關(guān)度通常只有相對意義,對一個Q,不同文檔的相關(guān)度可以比較,而對于不同的Q的相關(guān)度不便比較相關(guān)度的輸入信息可以更多,比如

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論