情報(bào)檢索系統(tǒng)信息組織_第1頁(yè)
情報(bào)檢索系統(tǒng)信息組織_第2頁(yè)
情報(bào)檢索系統(tǒng)信息組織_第3頁(yè)
情報(bào)檢索系統(tǒng)信息組織_第4頁(yè)
情報(bào)檢索系統(tǒng)信息組織_第5頁(yè)
已閱讀5頁(yè),還剩13頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

情報(bào)檢索系統(tǒng)中的

信息組織第一頁(yè),共十八頁(yè)。目標(biāo)情報(bào)檢索定義:信息單元的表示、存儲(chǔ)、組織和存取旨在滿足用戶的信息需求用戶的信息需求例如:找到關(guān)于姚明在休斯敦火箭隊(duì)的所有文獻(xiàn),包含(1)他與其他幾位中國(guó)球員的交往

或(2)他與女友的交往;重點(diǎn)在查找相關(guān)信息,而不是數(shù)據(jù)第二頁(yè),共十八頁(yè)。數(shù)據(jù)檢索DataRetrieval文獻(xiàn)包含的關(guān)鍵詞是數(shù)據(jù)含義固定一點(diǎn)小錯(cuò)誤會(huì)造成查找失敗情報(bào)檢索Informationretrieval關(guān)于一個(gè)主題或話題的信息含義常常比較寬松,有一定范圍允許一些錯(cuò)誤,不影響查到相關(guān)內(nèi)容情報(bào)檢索系統(tǒng)IRsystem:對(duì)信息對(duì)象內(nèi)容的解釋排序反映了相關(guān)性相關(guān)性是最重要的概念第三頁(yè),共十八頁(yè)。情報(bào)檢索時(shí)代的來(lái)臨情報(bào)檢索已不是圖書情報(bào)領(lǐng)域關(guān)心的課題,隨著萬(wàn)維網(wǎng)的來(lái)臨,一躍成為受人關(guān)注的關(guān)鍵技術(shù)之一。第四頁(yè),共十八頁(yè)?;灸P陀脩裟繕?biāo)檢索信息或數(shù)據(jù)有目的地瀏覽隨意沖浪F1;cars,LeMans,France,tourismRetrievalBrowsingDatabase第五頁(yè),共十八頁(yè)?;靖拍钗募倪壿嬕晥D數(shù)字化文本可以用全文進(jìn)行索引,而不必只取“關(guān)鍵詞”或“分類號(hào)”結(jié)構(gòu)分詞禁用詞名詞

詞組詞干/同義詞人工標(biāo)引文件結(jié)構(gòu)提取全文索引詞第六頁(yè),共十八頁(yè)。用戶界面文本操作提問(wèn)式操作標(biāo)引檢索排序索引文本提問(wèn)用戶需求用戶反饋經(jīng)過(guò)排序文件獲取文件邏輯視圖邏輯視圖倒排檔數(shù)據(jù)庫(kù)管理模塊4,106,75828文本數(shù)據(jù)庫(kù)文本情報(bào)檢索流程第七頁(yè),共十八頁(yè)。簡(jiǎn)介情報(bào)檢索系統(tǒng)采用索引詞處理提問(wèn)(匹配)索引詞:關(guān)鍵詞或者規(guī)范詞任意詞用到切分或截詞:connect:connecting,connection,connections倒排檔用于查檢操作第八頁(yè),共十八頁(yè)。Introduction文件信息需求索引詞文件提問(wèn)排序匹配第九頁(yè),共十八頁(yè)。簡(jiǎn)介排序是檢出文獻(xiàn)對(duì)于用戶提問(wèn)的相關(guān)程度的順序以下原因造成問(wèn)題:索引詞的匹配不太精確用戶常常會(huì)不滿足由于用戶沒(méi)有經(jīng)過(guò)提問(wèn)式編寫的培訓(xùn),檢索效果會(huì)更糟Web上的情報(bào)檢索更是如此相關(guān)性的測(cè)度成為匹配與排序的關(guān)鍵問(wèn)題第十頁(yè),共十八頁(yè)。情報(bào)檢索模型非重疊列表最近節(jié)點(diǎn)結(jié)構(gòu)化模型

檢索:

實(shí)際上是信息過(guò)濾瀏覽

用戶目的傳統(tǒng)模型

布爾模型矢量模型概率模型集合論

模糊理論

擴(kuò)展的布爾邏輯概率論

推理網(wǎng)絡(luò)

信任網(wǎng)絡(luò)代數(shù)論

普通矢量

語(yǔ)義索引神經(jīng)網(wǎng)絡(luò)瀏覽

平面結(jié)構(gòu)結(jié)構(gòu)指南超文本第十一頁(yè),共十八頁(yè)。情報(bào)檢索模型情報(bào)檢索模型,文件的邏輯視圖,以及檢索任務(wù)是情報(bào)檢索的三個(gè)不同方面第十二頁(yè),共十八頁(yè)。經(jīng)典模型–基本概念每篇文獻(xiàn)用關(guān)鍵詞或索引詞來(lái)代表索引詞是特定文獻(xiàn)中有意義的或代表文獻(xiàn)主題的詞通常索引詞為名詞,因?yàn)橹挥忻~自身才有意義然而搜索引擎將所有詞都進(jìn)行索引,成為全文索引第十三頁(yè),共十八頁(yè)。但是并不是所有詞對(duì)于特定文獻(xiàn)都具有相等的代表性:低頻詞更能區(qū)分文獻(xiàn)(具有更小的命中文獻(xiàn)集合)索引詞的重要性由賦予它的權(quán)重決定如

ki為一索引詞dj為一文獻(xiàn)

wij為(ki,dj)的權(quán)重權(quán)重wij

代表了索引詞ki在文獻(xiàn)dj中的重要性經(jīng)典模型–基本概念第十四頁(yè),共十八頁(yè)。ki為一索引詞dj為一文獻(xiàn)

t是檢索系統(tǒng)中文獻(xiàn)的總數(shù)K=(k1,k2,…,kt)索引詞集合wij>=0是與(ki,dj)相關(guān)的權(quán)重wij=0表示該詞不在某篇文獻(xiàn)dj中vec(dj)=(w1j,w2j,…,wtj)是關(guān)于文獻(xiàn)dj的權(quán)重矢量gi(vec(dj))=wijis是返回關(guān)于(ki,dj)權(quán)重的函數(shù)經(jīng)典模型–基本概念第十五頁(yè),共十八頁(yè)。數(shù)字圖書館中的情報(bào)檢索一般認(rèn)為數(shù)字圖書館是:數(shù)字對(duì)象的集合所構(gòu)成的資源庫(kù);描述這些數(shù)字對(duì)象的元數(shù)據(jù)庫(kù);實(shí)用這些數(shù)字對(duì)象的目標(biāo)用戶;提供各種服務(wù)(捕捉、標(biāo)引、編目、查詢、瀏覽、檢索、傳遞、存檔、長(zhǎng)期保存等)的系統(tǒng)第十六頁(yè),共十八頁(yè)。數(shù)字圖書館與情報(bào)檢索情報(bào)檢索對(duì)于數(shù)字圖書館是至關(guān)重要的,可以使數(shù)字圖書館更為高效而且易于使用情報(bào)檢索同時(shí)是數(shù)字圖書館的一個(gè)很重要的研究領(lǐng)域和核心技術(shù)之一第十七頁(yè),共十八頁(yè)。內(nèi)容總結(jié)情報(bào)檢索系統(tǒng)中的

信息組織。情報(bào)檢索定義:信息單元的表示、存儲(chǔ)、組織和存取。connect:connecting,connection,connections。排序是檢出文獻(xiàn)對(duì)于用戶提問(wèn)的相關(guān)程度的順序。經(jīng)典模型–基本概念。經(jīng)典模型–基本概念。通常索引詞為名詞,因?yàn)橹挥忻~自身才有意義。但是并不是所有詞對(duì)于特定文獻(xiàn)都具有相等的代表性:低頻詞更能區(qū)分文獻(xiàn)(具有更小的命中文獻(xiàn)集合)。索引詞的重

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論