信息組織檢索二_第1頁(yè)
信息組織檢索二_第2頁(yè)
信息組織檢索二_第3頁(yè)
信息組織檢索二_第4頁(yè)
信息組織檢索二_第5頁(yè)
已閱讀5頁(yè),還剩59頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

2、7信息檢索(二)1、信息檢索模型(原理)2、信息檢索方法?信息組織檢索二1、信息檢索模型(information

retrieval

model)·

實(shí)現(xiàn)信息檢索,就是要實(shí)現(xiàn)用戶查詢和文檔集文檔相似性匹配。檢索系統(tǒng)采用的查詢和文檔集內(nèi)部表示、相似匹配的方式?jīng)Q定所采用的檢索策略和模式,從而引出各種不同的信息檢索模型(informationretrieval

model)。?信息組織檢索二·

一個(gè)信息檢索模型是將文檔表示、查詢以及它們之間的關(guān)系進(jìn)行建模的框架,它由一個(gè)三元組表示:F

[

D,

Q,

R

(

q

i

d

j

)

]其中,D是文檔的表示,Q是查詢的表示。

R

(q

i

d

j

)

是一個(gè)排序函數(shù),該函數(shù)輸出一個(gè)與查詢表示

q

i

Q

d

j

∈D的有關(guān)實(shí)數(shù)。這樣就在文檔之間根據(jù)查詢

q

I

定義了一個(gè)順序。?信息組織檢索二按照相似匹配度模式的不同可以分為:全文(full-text)檢索內(nèi)容(content-based)檢索全文檢索——以從文本中找出與查詢表示的字符串完全一致的部分為目的,檢索結(jié)果為包含查詢字符串的文本及其位置。內(nèi)容檢索——不必像全文檢索那樣進(jìn)行完全一致的匹配,而是著眼于找出與查詢語(yǔ)義相似的文本。?信息組織檢索二2、內(nèi)容檢索模型

提取一組描述文本內(nèi)容的詞匯,稱為索引項(xiàng)(term),用索引項(xiàng)的出現(xiàn)次數(shù)等來(lái)表示文本和查詢請(qǐng)求。

計(jì)算文本和查詢請(qǐng)求間的相似度并依據(jù)大小排序輸出檢索結(jié)果。?信息組織檢索二內(nèi)容檢索的模型有:?信息組織檢索二·

向量空間模型(vector

space

model)概率模型(probabilistic

model)網(wǎng)絡(luò)模型(network

model)向量空間模型:?信息組織檢索二向量空間模型是Gerard

Stalton等人在SMART系統(tǒng)中采用的模型,在信息檢索領(lǐng)域?yàn)槿藗兯熘囊环N傳統(tǒng)的檢索模型。向量空間模型的最大特點(diǎn)是用多維向量表示文檔和查詢,通過(guò)計(jì)算向量間的相似度實(shí)現(xiàn)文檔的相似檢索。涉及向量、矩陣、向量空間等線性代數(shù)知識(shí)?!ぴO(shè)矩陣D為索引項(xiàng)-文本矩陣。其中各列是表示文本信息的文本向量,各行是表示索引項(xiàng)信息的索引項(xiàng)向量(其中索引項(xiàng)是經(jīng)過(guò)權(quán)重處理的元素)d11

d12…

d1nD

=

[

d1

d2

…dn]

=d21

d22

d2ndm?1信息d組m織2

…檢索二dmn·

查詢語(yǔ)句與文本相同也用索引項(xiàng)權(quán)重為元素的向量表示。查詢向量

q表示如下:·q1q

=

q2q3qm?信息組織檢索二·

檢索時(shí),找出與給定的查詢語(yǔ)句相似的文本,這是通過(guò)計(jì)算查詢向量q與各個(gè)文本向量d

J

間的相似度實(shí)現(xiàn)的。?信息組織檢索二·

向量間相似度的計(jì)算方法有多種,文本檢索中最常使用的是計(jì)算余弦和內(nèi)積的相似度。計(jì)算兩個(gè)向量夾角的余弦函數(shù):?信息組織檢索二其它信息檢索數(shù)學(xué)模型?信息組織檢索二概率模型網(wǎng)絡(luò)檢索模型推理網(wǎng)絡(luò)模型信念網(wǎng)絡(luò)模型·

遺傳算法(Holland,1975):交叉、變異、選擇·

粗糙集(

Pawlak,

1980s

): 模糊性和不確定性3、其他信息檢索的相關(guān)技術(shù)?信息組織檢索二1)信息過(guò)濾:從大量的信息中提取有用的信息,去除無(wú)用的信息。當(dāng)新的文檔加入到系統(tǒng)中時(shí),只提取符合用戶需求的信息,去除不符合的信息。在信息過(guò)濾系統(tǒng)中,把檢索需求稱為用戶描述,把不斷產(chǎn)生的新信息成為信息流。過(guò)濾系統(tǒng)根據(jù)用戶描述文件選擇用戶感興趣的信息,刪除用戶不需要的信息。過(guò)濾系統(tǒng)內(nèi)部表示內(nèi)部表示內(nèi)部表示匹配內(nèi)部表示新產(chǎn)生的文檔信息流用戶描述1用戶描述2用戶描述N與用戶描述1相關(guān)的文檔與用戶描述2相關(guān)的文檔與用戶描述3相關(guān)的文檔?信息組織檢索二2)文本自動(dòng)分類:?信息組織檢索二為了對(duì)大規(guī)模的文檔進(jìn)行分類,需要由計(jì)算機(jī)進(jìn)行自動(dòng)處理,稱為文本自動(dòng)分類。大致分為兩種:一種是按照預(yù)先設(shè)定文本內(nèi)容的類別(如政治、經(jīng)濟(jì)、科學(xué)等),確定文本內(nèi)容屬于哪一類,將文本放到所屬的類別中。一種是通過(guò)將相似的文本歸為一組(聚類)的方法,把全體文檔集合分為若干類?!?/p>

文本自動(dòng)分類原理為計(jì)算兩個(gè)文本間的相似度,或文本與文本類別間的相似度,所以基本上可以采取與信息檢索相似的技術(shù)實(shí)現(xiàn)。如基于向量空間模型的方法;基于規(guī)律模型的方法;基建于規(guī)則和基于識(shí)別學(xué)習(xí)的方法等。?信息組織檢索二3)信息抽取?信息組織檢索二信息抽取系統(tǒng)的重要功能是從文檔中抽取出特定的事實(shí)信息。例如:從新聞報(bào)道中抽取恐怖時(shí)間的詳細(xì)情況,如時(shí)間、地點(diǎn)、做案者、襲擊目標(biāo)等。被抽取出來(lái)的信息以結(jié)構(gòu)化的形式描述,可以直接存入數(shù)據(jù)庫(kù)中,供用戶查詢以及進(jìn)一步分析。因此可以把信息抽取系統(tǒng)看做是把不同文檔中的信息轉(zhuǎn)換成數(shù)據(jù)庫(kù)記錄的系統(tǒng)。

近年來(lái),信息抽取的處理對(duì)象已經(jīng)擴(kuò)展到圖像、視頻、音頻等其他媒體類型的數(shù)據(jù)。

目前的研究側(cè)重于:利用機(jī)器學(xué)習(xí)技術(shù)增強(qiáng)系統(tǒng)的可移植能力、探索深層理解技術(shù)、篇章分析技術(shù)、多語(yǔ)言文本處理技術(shù)、Web信息抽取等。?信息組織檢索二·

信息抽取技術(shù)對(duì)搜索引擎、信息安全、企業(yè)智能信息系統(tǒng)等許多應(yīng)用領(lǐng)域具有相當(dāng)重要的作用。·

至今,已有不少公司以信息抽取技術(shù)產(chǎn)品為主。?信息組織檢索二四、信息檢索的主要方法常規(guī)法回溯法循環(huán)檢索法?信息組織檢索二常規(guī)檢索法——?信息組織檢索二

以主題、分類、作者等為檢索點(diǎn),利用檢索工具獲得信息的方法。利用此法要熟悉主要的檢索工具的編排體例和作用。根據(jù)檢索要求常規(guī)法又分為:順查法、倒查法、抽查法?;厮莘ā?信息組織檢索二·

又稱追溯法、引文法。以文獻(xiàn)后面所附的參考文獻(xiàn)為線索,逐一追溯查找相關(guān)文獻(xiàn)的方法。該法獲得文獻(xiàn)的針對(duì)性比較強(qiáng),尤其在沒(méi)有檢索工具或檢索工具不齊備的情況下較實(shí)用。循環(huán)檢索法——?信息組織檢索二·

又稱交替法、綜合法。即利用回溯法和常規(guī)法交替檢索的方法。先利用檢索工具查找,得出一批相關(guān)

文獻(xiàn),再利用回溯法按所附參考文獻(xiàn)擴(kuò)大檢索線索。2、文本信息檢索技術(shù)?信息組織檢索二對(duì)文本信息進(jìn)行查詢,主要技術(shù)包括:——

布爾檢索——

截詞檢索——

短語(yǔ)檢索——

限制檢索等。布爾檢索——“邏輯與”?信息組織檢索二運(yùn)算符為“AND”,常用來(lái)限定多義詞,進(jìn)行縮檢,提高查準(zhǔn)率。制定A

AND

B的檢索式,只能檢出同時(shí)含有A和B的信息資源。即連接的兩個(gè)檢索詞必須同時(shí)出現(xiàn)在結(jié)果中。幾乎所有的網(wǎng)檢工具都允許使用AND運(yùn)算符構(gòu)筑檢索式。AB?信息組織檢索二布爾檢索——“邏輯或”?信息組織檢索二

運(yùn)算符“OR”、或“+”號(hào)表示。常用來(lái)限定同義詞,擴(kuò)大檢索范圍,提高查全率。

制定“A

OR

B”檢索式,可以檢出含有A或B以及

同時(shí)含有A和B的資源。既連接的兩個(gè)詞只要其中的任何一個(gè)出現(xiàn)在檢索結(jié)果中,就算滿足檢索要求。AOR

BAB?信息組織檢索二布爾檢索——“邏輯非”?信息組織檢索二一般用“NOT”或“—”表示,常用于排除詞間的虛假聯(lián)系,進(jìn)行縮檢。幾乎所有網(wǎng)檢工具都允許使用NOT運(yùn)算符,而

LookSmart站點(diǎn)不允許使用。A

NOT

BB?信息組織檢索二布爾邏輯檢索舉例:?信息組織檢索二已有文件為:D1

full

text

searchD2

inverted

index

fileD3

sequential

search

algorithmD4

index

search

algorithmD5

information

retrieval

algorithm

當(dāng)給出查詢表達(dá)式“search

AND

algorithm”時(shí),查找出的文本為:

當(dāng)給出查詢表達(dá)式為“search

OR

algorithm”時(shí),可查出文本:

當(dāng)給出查詢表達(dá)式為“NOT

sequential”時(shí),可查找出文本:?信息組織檢索二·

對(duì)運(yùn)算符做復(fù)合運(yùn)算時(shí),可以形成更加復(fù)雜的查詢表達(dá)式。如:?信息組織檢索二“(NOT

sequential

)

AND

(search

OR

retrieval)

AND

algorithm”即“在包含search或retrieval的文本中,不存在

sequential,但必須有algorithm這一索引項(xiàng)的文本”運(yùn)用邏輯優(yōu)先級(jí)NOT的優(yōu)先級(jí)最高,其次是AND,最后是OR??梢杂美ㄌ?hào)改變運(yùn)算順序。orandnot?信息組織檢索二2、截詞(truncation)檢索?信息組織檢索二

在檢索詞的詞干上加一個(gè)截詞符,以表示對(duì)該詞的各種詞性的完整詞進(jìn)行檢索。截詞符有時(shí)又稱為通配符,用:“*”“?”

表示。右截詞檢索——又稱“前方一致檢索”,允許詞尾有一定的變化。截詞符以“*”表示。如:檢索式“brows*”,可以檢索出browse,browser,browsing等。左截詞檢索——又稱“后方一致檢索”,允許詞前端有若干變化。如: 檢索式“*magnetic”,可以檢索出

electromagnetic、paramagnetic等。?信息組織檢索二中間截詞檢索?信息組織檢索二

又稱“屏蔽”。允許檢索詞中間某個(gè)字符有變化(英美單詞拼寫差異或單復(fù)數(shù)的不同等)。如:

檢索式“organi?ation”,可以檢索出organization,organisation等。

截詞實(shí)際上是一種隱含的“邏輯或”運(yùn)算,能提高查全率,擴(kuò)大檢索結(jié)果。按截?cái)嗟淖址麛?shù)量分為有限截詞、無(wú)限截詞兩種。有限截詞——將n個(gè)“?”放在檢索詞干或詞尾可能變化的位置上,表示截詞的位數(shù)為0—n個(gè)字符。如在詞尾,在n個(gè)“?”或“*”后空一格再加一個(gè)“?”,表示停止符。無(wú)限截詞——在檢索詞干后加一個(gè)“?”或“*”,表示該詞尾允許變化的字符數(shù)不受任何限制。?信息組織檢索二3、短語(yǔ)檢索?信息組織檢索二·

單純依靠布爾邏輯組配檢索難以滿足某些檢索需求,在高查準(zhǔn)率的要求下,需要使用專門的運(yùn)算符把多

個(gè)檢索詞組成特定的短語(yǔ),或?qū)Ω鱾€(gè)檢索詞在檢索

結(jié)果中出現(xiàn)的相對(duì)位置進(jìn)行限定,才能較好地完成

檢索任務(wù)。短語(yǔ)檢索——也稱詞組檢索,或字符串檢索·

是一種固定詞組檢索。其方法是,在檢索的屏幕上選擇[短語(yǔ)檢索]或[Phrase

Search]等按鈕?;蛘呤褂靡?hào)“”作為一個(gè)獨(dú)立運(yùn)算單元,就可以實(shí)施短語(yǔ)檢索,以提高檢索準(zhǔn)確度。?信息組織檢索二·

如:檢索式“北京大學(xué)”,?信息組織檢索二要求檢索結(jié)果僅為“北京大學(xué)”這個(gè)詞組的內(nèi)容,而不包括諸如“北京工業(yè)大學(xué)”、“位于北京西郊的大學(xué)”、“北京的大學(xué)校園文化”等內(nèi)容的信息。·

幾乎所有的搜索引擎都支持詞組檢索。位置檢索?信息組織檢索二位置檢索是通過(guò)位置算符進(jìn)行的。

位置算符是指表示詞與詞之間位置關(guān)系的符號(hào)。其作用在于對(duì)復(fù)合檢索詞進(jìn)行加工修飾,限制詞與詞之間的位置關(guān)系,彌補(bǔ)了布爾邏輯算符只是定性規(guī)定檢索詞的范圍,可提高檢索結(jié)果的查準(zhǔn)率。常用的幾種位置算符:?信息組織檢索二1、(W)2、(nW)3、(N)4、(nN)5、(S)6、(F)7、(C)8、(L)(W)——with的縮寫。表示算符兩側(cè)的檢索詞按此前后順序不可變更,且兩詞之間不許有其他的詞或字母,但允許兩詞之間有空格、標(biāo)點(diǎn)符號(hào)。如:CD(W)ROM相當(dāng)于檢索CD

ROM,或CD-ROM。?信息組織檢索二·

(nW)——n

Word的縮寫。表示算符兩側(cè)的檢索詞之間允許插入n個(gè)實(shí)詞或系統(tǒng)禁用詞(通常指系統(tǒng)中出現(xiàn)頻率高而不能用來(lái)檢索的冠詞、介詞、連接詞等,如an,

and,by,

for,

form,

of,

the,

to

,wit等),兩詞詞序不可變更。?信息組織檢索二·

(N)——Near的縮寫。表示算符兩側(cè)的檢索詞必須緊密相連,兩詞詞序可變,詞間不允許插入任何其他詞或字母,但允許有空格或標(biāo)點(diǎn)符號(hào)。?信息組織檢索二·

(nN)——表示算符兩側(cè)的檢索詞之間允許插入n個(gè)實(shí)詞或系統(tǒng)禁用詞,兩詞詞序可變。如:Railway

(2N)

Bridge

表示:Railway

BridgeRailway

of

BridgeRailway of

the

Bridge等。?信息組織檢索二·

(S)——Subfield的縮寫。表示算符兩側(cè)的檢索詞必須同時(shí)出現(xiàn)在文獻(xiàn)記錄的同一子字段、句子或短語(yǔ)中,詞間允許插入n個(gè)實(shí)詞或系統(tǒng)禁用詞,詞序可變。?信息組織檢索二·

(F)——Field的縮寫。表示算符兩側(cè)的檢索詞必須同時(shí)出現(xiàn)在文獻(xiàn)記錄的同一字段中,詞間允許插入n個(gè)實(shí)詞或系統(tǒng)禁用詞,詞序可變。如無(wú)需同時(shí)出現(xiàn)在篇名字段、文摘字段、敘詞字段、關(guān)鍵詞字段等,則要加以限定。?信息組織檢索二·

(C)——Citation的縮寫。表示算符兩側(cè)的檢索詞必須同時(shí)出現(xiàn)在一條文獻(xiàn)的記錄中,詞間允許插入n個(gè)實(shí)詞或系統(tǒng)禁用詞,詞序可變,字段不限。?信息組織檢索二·

(L)——Link的縮寫。表示算符兩側(cè)的檢索詞之間有一定的從屬關(guān)系。?信息組織檢索二6、限制檢索?信息組織檢索二·

目的在于提高檢索的準(zhǔn)確率。一般是通過(guò)限制檢索詞在命中結(jié)果記錄中的出現(xiàn)位置(主要指記錄的不同字段的位置)來(lái)實(shí)現(xiàn)的,這種限制檢索技術(shù)因此又被稱為“字段檢索”。在數(shù)據(jù)庫(kù)中,一條文獻(xiàn)記錄通常設(shè)置有幾十個(gè)不同的字段,其中有表達(dá)文獻(xiàn)主題的基本檢索字段,如:標(biāo)題(Title,TI)關(guān)鍵詞(

Keyword,KY)文摘(

Abstract,AB)分類號(hào)(

Classification

Code)等,?信息組織檢索二還有表示文獻(xiàn)外部特征的輔助檢索字段,如:作者(Author,AU)使用的語(yǔ)言(Language,LA)發(fā)表時(shí)間(Time)等。檢索時(shí),可通過(guò)指定檢索詞在主題字段或非主題字段中的出現(xiàn)情況,即可實(shí)現(xiàn)“字段檢索”。如:“MBA

within

AB”,“title:北京”等。?信息組織檢索二·

限制檢索的另一種常見(jiàn)形式是“二次檢索”。即在檢索結(jié)果中再檢索。用戶可以把新一輪檢索限制在已檢得的結(jié)果中。許多檢索系統(tǒng)(包括搜索引擎)都支持這種限制檢索。?信息組織檢索二四、信息檢索效率評(píng)價(jià)?信息組織檢索二信息檢索效率是指信息檢索各項(xiàng)性能的滿意程度,主

要指標(biāo)有查全率、查準(zhǔn)率、漏查率、誤檢率4項(xiàng)指標(biāo)。這4項(xiàng)指標(biāo)于20世紀(jì)50年代由國(guó)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論