Atitit現(xiàn)代信息檢索_第1頁(yè)
Atitit現(xiàn)代信息檢索_第2頁(yè)
Atitit現(xiàn)代信息檢索_第3頁(yè)
Atitit現(xiàn)代信息檢索_第4頁(yè)
Atitit現(xiàn)代信息檢索_第5頁(yè)
已閱讀5頁(yè),還剩9頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、Atitit 現(xiàn)代信息檢索Line 1: 第1章引言Line 22: 第2章用戶搜索界面Line 44: 第3章信息檢索建模Line 79: 第4章檢索評(píng)價(jià)Line 104: 第5章相關(guān)反饋與查詢擴(kuò)展Line 123: 第6章文檔:語(yǔ)言及屬性Line 160: 第7章查詢:語(yǔ)言及屬性Line 175: 第8章文本分類Line 210: 第9章索引和搜索Line 238: 第10章并行與分布式信息檢索Line 260: 第11章Web檢索Line 307: 第12章Web爬取Line 333: 第13章結(jié)構(gòu)化文本檢索Line 360: 第14章多媒體信息檢索Line 409: 第15章企業(yè)搜索L

2、ine 444: 第16章圖書館系統(tǒng)Line 460: 第17章數(shù)字圖書館第1章 引言1.1信息檢索1.1.1信息檢索的早期發(fā)展1.1.2圖書館和數(shù)字圖書館中的信息檢索1.1.3舞臺(tái)中央的信息檢索1.2信息檢索問(wèn)題1.2.1用戶的任務(wù)1.2.2信息檢索與數(shù)據(jù)檢索1.3信息檢索系統(tǒng)1.3.1信息檢索系統(tǒng)的軟件架構(gòu)1.3.2檢索和排序過(guò)程1.4Web1.4.1Web簡(jiǎn)史1.4.2電子出版時(shí)代1.4.3Web如何改變搜索1.4.4Web上的實(shí)際問(wèn)題1.5本書的組織結(jié)構(gòu)1.5.1本書的重點(diǎn)1.5.2本書的內(nèi)容1.6本書的教學(xué)資源網(wǎng)站1.7文獻(xiàn)討論第2章用戶搜索界面2.1介紹2.2人們?nèi)绾嗡阉?.2.1

3、信息查找與探索式搜索2.2.2信息搜尋的經(jīng)典模型與動(dòng)態(tài)模型2.2.3導(dǎo)航與搜索2.2.4對(duì)搜索過(guò)程的觀察2.3現(xiàn)今的搜索界面2.3.1啟動(dòng)搜尋2.3.2查詢描述2.3.3查詢描述界面2.3.4檢索結(jié)果顯示2.3.5查詢重構(gòu)2.3.6組織搜索結(jié)果2.4搜索界面的可視化2.4.1可視化布爾語(yǔ)法2.4.2可視化查詢結(jié)果中的查詢項(xiàng)2.4.3可視化詞語(yǔ)和文檔間的關(guān)系2.4.4文本挖掘的可視化2.5搜索界面的設(shè)計(jì)和評(píng)價(jià)2.6趨勢(shì)和研究問(wèn)題2.7文獻(xiàn)討論第3章信息檢索建模3.1信息檢索模型3.1.1建模和排序3.1.2信息檢索模型描述3.1.3信息檢索模型的分類體系3.2經(jīng)典信息檢索3.2.1基本概念3.2

4、.2布爾模型3.2.3項(xiàng)權(quán)重3.2.4TF-IDF權(quán)重3.2.5文檔長(zhǎng)度歸一化3.2.6向量模型3.2.7概率模型3.2.8經(jīng)典模型之間的簡(jiǎn)單比較3.3其他集合論模型3.3.1基于集合的模型3.3.2擴(kuò)展布爾模型3.3.3模糊集模型3.4其他代數(shù)模型3.4.1廣義向量空間模型3.4.2潛在語(yǔ)義索引模型3.4.3神經(jīng)網(wǎng)絡(luò)模型3.5其他概率模型3.5.1BM25模型3.5.2語(yǔ)言模型3.5.3隨機(jī)差異模型3.5.4貝葉斯網(wǎng)模型3.6其他模型3.6.1超文本模型3.6.2基于Web的模型3.6.3結(jié)構(gòu)化文本檢索3.6.4多媒體檢索3.6.5企業(yè)和垂直搜索3.7趨勢(shì)和研究問(wèn)題3.8文獻(xiàn)討論第4章檢索評(píng)

5、價(jià)4.1介紹4.2Cranfield范式4.2.1歷史簡(jiǎn)述4.2.2參考集4.3檢索指標(biāo)4.3.1精度和召回率4.3.2單值總結(jié):Pn,MAP,MRR,F(xiàn)4.3.3面向用戶的指標(biāo)4.3.4折扣累積增益4.3.5二元偏好4.3.6排序相關(guān)性測(cè)度4.4參考文檔集4.4.1TREC參考集4.4.2其他參考集4.4.3其他小規(guī)模測(cè)試文檔集4.5基于用戶的評(píng)價(jià)4.5.1實(shí)驗(yàn)室中的人工實(shí)驗(yàn)4.5.2并排面板4.5.3A/B測(cè)試4.5.4眾包4.5.5使用點(diǎn)擊數(shù)據(jù)的評(píng)價(jià)4.6實(shí)踐說(shuō)明4.7趨勢(shì)和研究問(wèn)題4.8文獻(xiàn)討論第5章相關(guān)反饋與查詢擴(kuò)展5.1介紹5.2反饋方法的框架5.3顯式相關(guān)反饋5.3.1向量模型的

6、相關(guān)反饋:Rocchio方法5.3.2概率模型的相關(guān)反饋5.3.3相關(guān)反饋的評(píng)價(jià)5.4基于點(diǎn)擊的顯式反饋5.4.1眼動(dòng)追蹤和相關(guān)性評(píng)價(jià)5.4.2用戶行為5.4.3點(diǎn)擊作為用戶偏好的指標(biāo)5.5通過(guò)局部分析的隱式反饋5.5.1通過(guò)局部聚類的隱式反饋5.5.2通過(guò)局部上下文分析的隱式反饋5.6通過(guò)全局分析的隱式反饋5.6.1基于相似度同義詞典的查詢擴(kuò)展5.6.2基于統(tǒng)計(jì)同義詞典的查詢擴(kuò)展5.7趨勢(shì)和研究問(wèn)題5.8文獻(xiàn)討論第6章文檔:語(yǔ)言及屬性6.1介紹6.2元數(shù)據(jù)6.3文檔格式6.3.1文本6.3.2多媒體6.3.3圖形和虛擬現(xiàn)實(shí)6.4標(biāo)記語(yǔ)言6.4.1SGML6.4.2HTML6.4.3XML6.

7、4.4RDF6.4.5HyTime6.5文本屬性6.5.1信息論6.5.2自然語(yǔ)言建模6.5.3文本相似度6.6文檔預(yù)處理6.6.1文本的詞匯分析6.6.2去除禁用詞6.6.3詞干提取6.6.4關(guān)鍵詞選擇6.6.5同義詞典6.7組織文檔6.7.1分類體系法6.7.2分眾分類法6.8文本壓縮6.8.1基本概念6.8.2統(tǒng)計(jì)方法6.8.3統(tǒng)計(jì)方法:建模6.8.4統(tǒng)計(jì)方法:編碼6.8.5字典方法6.8.6壓縮預(yù)處理6.8.7文本壓縮技術(shù)的比較6.8.8結(jié)構(gòu)化文本壓縮6.9趨勢(shì)和研究問(wèn)題6.10文獻(xiàn)討論第7章查詢:語(yǔ)言及屬性7.1查詢語(yǔ)言7.1.1基于關(guān)鍵詞的查詢7.1.2非關(guān)鍵詞查詢7.1.3結(jié)構(gòu)化

8、查詢7.1.4查詢協(xié)議7.2查詢屬性7.2.1Web查詢的特征7.2.2用戶搜索行為7.2.3查詢意圖7.2.4查詢主題7.2.5查詢會(huì)話與任務(wù)7.2.6查詢難度7.3趨勢(shì)和研究問(wèn)題7.4文獻(xiàn)討論第8章文本分類8.1介紹8.2文本分類的特性描述8.2.1機(jī)器學(xué)習(xí)8.2.2文本分類問(wèn)題8.2.3文本分類算法8.3無(wú)監(jiān)督算法8.3.1聚類8.3.2樸素文本分類8.4監(jiān)督算法8.4.1決策樹(shù)8.4.2k近鄰分類器8.4.3Rocchio分類器8.4.4概率樸素貝葉斯文檔分類8.4.5支持向量機(jī)分類器8.4.6集成分類器8.4.7關(guān)于監(jiān)督算法的結(jié)束語(yǔ)8.5特征選擇或降維8.5.1項(xiàng)-類別出現(xiàn)列聯(lián)表8.

9、5.2索引項(xiàng)文檔頻率8.5.3TF-IDF權(quán)重8.5.4互信息8.5.5信息增益8.5.6卡方檢驗(yàn)8.5.7特征選擇的作用8.6評(píng)價(jià)指標(biāo)8.6.1列聯(lián)表8.6.2準(zhǔn)確率和錯(cuò)誤率8.6.3精度和召回率8.6.4F測(cè)度和F8.6.5交叉檢驗(yàn)8.6.6標(biāo)準(zhǔn)文檔集8.7類別組織-構(gòu)建分類體系8.8趨勢(shì)和研究問(wèn)題8.9文獻(xiàn)討論第9章索引和搜索9.1介紹9.2倒排索引9.2.1基本概念9.2.2完全倒排索引9.2.3搜索9.2.4排序9.2.5構(gòu)建9.2.6壓縮的倒排索引9.2.7結(jié)構(gòu)化查詢9.3簽名文件9.4后綴樹(shù)和后綴數(shù)組9.4.1結(jié)構(gòu):trie樹(shù)和后綴樹(shù)9.4.2簡(jiǎn)單字符串搜索9.4.3復(fù)雜模式的搜

10、索9.4.4構(gòu)建9.4.5壓縮的后綴數(shù)組9.5序列搜索9.5.1簡(jiǎn)單字符串:Horspool9.5.2復(fù)雜模式:自動(dòng)機(jī)和位并行9.5.3更快的位并行算法9.5.4正則表達(dá)式9.5.5多重模式9.5.6近似搜索9.5.7搜索壓縮文本9.6多維索引9.7趨勢(shì)和研究問(wèn)題9.8文獻(xiàn)討論第10章并行與分布式信息檢索10.1介紹10.2分布式信息檢索系統(tǒng)的分類10.3數(shù)據(jù)劃分10.3.1文檔集劃分10.3.2文檔集選擇10.3.3倒排索引劃分10.3.4劃分其他索引10.4并行信息檢索10.4.1介紹10.4.2在MIMD架構(gòu)上的并行信息檢索10.4.3在SIMD架構(gòu)上的并行信息檢索10.5基于集群的信息

11、檢索10.6分布式信息檢索10.6.1介紹10.6.2索引10.6.3查詢處理10.6.4Web問(wèn)題10.7聯(lián)合搜索10.8在對(duì)等網(wǎng)絡(luò)中的檢索10.9趨勢(shì)和研究問(wèn)題10.10文獻(xiàn)討論第11章Web檢索11.1介紹11.2一個(gè)有挑戰(zhàn)性的問(wèn)題11.3Web11.3.1特性11.3.2Web圖的結(jié)構(gòu)11.3.3對(duì)Web建模11.3.4鏈接分析11.4搜索引擎架構(gòu)11.4.1基本架構(gòu)11.4.2基于集群的架構(gòu)11.4.3緩存11.4.4多級(jí)索引11.4.5分布式架構(gòu)11.5搜索引擎排序11.5.1排序信號(hào)11.5.2基于鏈接的排序11.5.3簡(jiǎn)單的排序函數(shù)11.5.4排序?qū)W習(xí)11.5.5學(xué)習(xí)排序函數(shù)1

12、1.5.6質(zhì)量評(píng)價(jià)11.5.7Web垃圾11.6管理Web數(shù)據(jù)11.6.1為文檔分配標(biāo)識(shí)符11.6.2元數(shù)據(jù)11.6.3壓縮Web圖11.6.4處理重復(fù)數(shù)據(jù)11.7搜索引擎用戶交互11.7.1搜索矩形范式11.7.2搜索引擎結(jié)果頁(yè)面11.7.3培養(yǎng)用戶11.8瀏覽11.8.1扁平瀏覽11.8.2結(jié)構(gòu)導(dǎo)向的瀏覽和Web目錄11.9瀏覽之外11.9.1超文本和Web11.9.2搜索與瀏覽相結(jié)合11.9.3Web查詢語(yǔ)言11.9.4動(dòng)態(tài)搜索11.10相關(guān)問(wèn)題11.10.1計(jì)算廣告學(xué)11.10.2Web挖掘11.10.3元搜索11.11趨勢(shì)和研究問(wèn)題11.11.1靜態(tài)文本數(shù)據(jù)之外11.11.2目前的挑

13、戰(zhàn)11.12文獻(xiàn)討論第12章Web爬取12.1介紹12.2網(wǎng)絡(luò)爬蟲的應(yīng)用12.2.1通用Web搜索12.2.2聚焦爬取12.2.3Web刻畫12.2.4鏡像12.2.5網(wǎng)站分析12.3爬蟲的分類體系12.4架構(gòu)和實(shí)現(xiàn)12.4.1爬蟲架構(gòu)12.4.2實(shí)際問(wèn)題12.4.3并行爬取12.5調(diào)度算法12.5.1選擇策略12.5.2重訪問(wèn)策略12.5.3友好策略12.5.4組合策略12.6評(píng)價(jià)12.6.1評(píng)價(jià)網(wǎng)絡(luò)使用12.6.2評(píng)價(jià)長(zhǎng)期調(diào)度12.7趨勢(shì)和研究問(wèn)題12.7.1爬取“暗網(wǎng)”12.7.2在網(wǎng)站幫助下的爬取12.7.3分布式爬取12.8文獻(xiàn)討論第13章結(jié)構(gòu)化文本檢索13.1介紹13.2結(jié)構(gòu)化能力

14、13.2.1顯式和隱式結(jié)構(gòu)對(duì)比13.2.2靜態(tài)與動(dòng)態(tài)結(jié)構(gòu)對(duì)比13.2.3單一層次結(jié)構(gòu)與多層次結(jié)構(gòu)對(duì)比13.3早期文本檢索模型13.3.1基于非覆蓋列表的模型13.3.2基于相鄰結(jié)點(diǎn)的模型13.3.3結(jié)構(gòu)化文本結(jié)果排序13.4XML檢索13.4.1XML檢索中的挑戰(zhàn)13.4.2索引策略13.4.3排序策略13.4.4去除重疊13.5XML檢索評(píng)價(jià)13.5.1文檔集13.5.2主題13.5.3檢索任務(wù)13.5.4相關(guān)性13.5.5測(cè)度13.6查詢語(yǔ)言13.6.1特性13.6.2XML查詢語(yǔ)言分類13.6.3XML查詢語(yǔ)言樣例13.7趨勢(shì)和研究問(wèn)題13.8文獻(xiàn)討論第14章多媒體信息檢索14.1介紹1

15、4.1.1什么是多媒體14.1.2多媒體檢索14.1.3文本檢索與多媒體檢索的對(duì)比14.2挑戰(zhàn)14.2.1語(yǔ)義鴻溝14.2.2特征歧義性14.2.3機(jī)器生成的數(shù)據(jù)14.3基于內(nèi)容的圖像檢索14.3.1基于顏色的檢索14.3.2紋理14.3.3顯著點(diǎn)14.4聲音和音樂(lè)檢索14.4.1指紋識(shí)別14.4.2語(yǔ)音識(shí)別14.4.3說(shuō)話人識(shí)別14.4.4語(yǔ)音文檔檢索14.4.5音頻基礎(chǔ)知識(shí)14.5檢索和瀏覽視頻14.5.1視頻摘要14.5.2靜態(tài)摘要14.5.3圖像拼接與跳躍劇照14.5.4動(dòng)態(tài)摘要14.5.5交互式摘要14.5.6視覺(jué)與聽(tīng)覺(jué)瀏覽對(duì)比14.5.7摘要評(píng)價(jià)14.6融合模型:合并所有信息14.

16、6.1人臉命名14.6.2圖像命名14.6.3音頻命名14.6.4結(jié)合音頻與視頻的音-視頻語(yǔ)音識(shí)別14.6.5結(jié)合音頻和視頻的多媒體處理14.7分割14.7.1視頻分割樣例14.7.2視頻分割方案14.7.3利用邊緣的視頻分割14.7.4語(yǔ)音分割14.7.5分割評(píng)價(jià)14.8壓縮和MPEG標(biāo)準(zhǔn)14.8.1強(qiáng)度和采樣14.8.2顏色14.8.3有損壓縮14.8.4無(wú)損壓縮14.8.5時(shí)間冗余14.8.6運(yùn)動(dòng)預(yù)測(cè)14.8.7MPEG標(biāo)準(zhǔn)14.9趨勢(shì)和研究問(wèn)題14.10文獻(xiàn)討論第15章企業(yè)搜索15.1介紹15.1.1企業(yè)搜索的特點(diǎn)和應(yīng)用15.1.2企業(yè)搜索軟件15.1.3工作場(chǎng)所搜索15.2企業(yè)搜索任

17、務(wù)15.2.1搜索支持任務(wù)的例子15.2.2搜索類型15.2.3研究企業(yè)搜索15.3企業(yè)搜索系統(tǒng)的結(jié)構(gòu)15.3.1收集15.3.2提取15.3.3索引15.3.4文本注釋的索引15.3.5查詢處理15.3.6搜索結(jié)果的展示15.3.7安全模型15.3.8聯(lián)合/元搜索15.4企業(yè)搜索評(píng)價(jià)15.4.1企業(yè)搜索的公開(kāi)測(cè)試集15.4.2企業(yè)搜索內(nèi)部評(píng)價(jià)15.4.3企業(yè)搜索調(diào)試15.4.4所能期待的是什么15.5不滿意的可能原因15.6情境化和個(gè)性化15.6.1情境化的控制和工具15.6.2情境化:本地、企業(yè)或全球15.6.3輪廓的隱私15.6.4定義、建立和維護(hù)輪廓15.6.5用戶建模15.6.6隱式

18、評(píng)價(jià)15.6.7信息過(guò)濾15.6.8社會(huì)化推薦系統(tǒng)15.7趨勢(shì)和研究問(wèn)題15.8文獻(xiàn)討論第16章圖書館系統(tǒng)16.1圖書館的信息環(huán)境16.2聯(lián)機(jī)公共檢索目錄16.2.1OPAC和書目記錄16.2.2來(lái)自ILS的信息檢索16.2.3混合圖書館的整合16.2.4OPAC和最終用戶16.2.5ILS:供應(yīng)商和產(chǎn)品16.3信息檢索系統(tǒng)與文檔數(shù)據(jù)庫(kù)16.3.1書目和全文數(shù)據(jù)庫(kù)16.3.2數(shù)據(jù)庫(kù)記錄的內(nèi)容16.3.3聯(lián)機(jī)產(chǎn)業(yè):數(shù)據(jù)庫(kù)供應(yīng)商16.3.4來(lái)自文檔數(shù)據(jù)庫(kù)的信息檢索16.4組織機(jī)構(gòu)內(nèi)部的信息檢索16.5趨勢(shì)和研究問(wèn)題16.6文獻(xiàn)討論第17章數(shù)字圖書館17.1介紹17.2定義數(shù)字圖書館17.3通用架構(gòu)17.4基本概念17.4.1數(shù)字對(duì)象和館藏17.4.2元數(shù)據(jù)和目錄17.4.3資源庫(kù)/檔案庫(kù)17.4.4服務(wù)17.5社會(huì)經(jīng)濟(jì)問(wèn)題17.5.1社會(huì)問(wèn)題17.5.2經(jīng)濟(jì)問(wèn)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論