![信息組織檢索二_第1頁(yè)](http://file4.renrendoc.com/view11/M00/07/24/wKhkGWVp17yAE2oHAAKS73rVs0I191.jpg)
![信息組織檢索二_第2頁(yè)](http://file4.renrendoc.com/view11/M00/07/24/wKhkGWVp17yAE2oHAAKS73rVs0I1912.jpg)
![信息組織檢索二_第3頁(yè)](http://file4.renrendoc.com/view11/M00/07/24/wKhkGWVp17yAE2oHAAKS73rVs0I1913.jpg)
![信息組織檢索二_第4頁(yè)](http://file4.renrendoc.com/view11/M00/07/24/wKhkGWVp17yAE2oHAAKS73rVs0I1914.jpg)
![信息組織檢索二_第5頁(yè)](http://file4.renrendoc.com/view11/M00/07/24/wKhkGWVp17yAE2oHAAKS73rVs0I1915.jpg)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
2、7信息檢索(二)1、信息檢索模型(原理)2、信息檢索方法?信息組織檢索二1、信息檢索模型(information
retrieval
model)·
實(shí)現(xiàn)信息檢索,就是要實(shí)現(xiàn)用戶查詢和文檔集文檔相似性匹配。檢索系統(tǒng)采用的查詢和文檔集內(nèi)部表示、相似匹配的方式?jīng)Q定所采用的檢索策略和模式,從而引出各種不同的信息檢索模型(informationretrieval
model)。?信息組織檢索二·
一個(gè)信息檢索模型是將文檔表示、查詢以及它們之間的關(guān)系進(jìn)行建模的框架,它由一個(gè)三元組表示:F
[
D,
Q,
R
(
q
i
d
j
)
]其中,D是文檔的表示,Q是查詢的表示。
R
(q
i
d
j
)
是一個(gè)排序函數(shù),該函數(shù)輸出一個(gè)與查詢表示
q
i
∈
Q
和
d
j
∈D的有關(guān)實(shí)數(shù)。這樣就在文檔之間根據(jù)查詢
q
I
定義了一個(gè)順序。?信息組織檢索二按照相似匹配度模式的不同可以分為:全文(full-text)檢索內(nèi)容(content-based)檢索全文檢索——以從文本中找出與查詢表示的字符串完全一致的部分為目的,檢索結(jié)果為包含查詢字符串的文本及其位置。內(nèi)容檢索——不必像全文檢索那樣進(jìn)行完全一致的匹配,而是著眼于找出與查詢語(yǔ)義相似的文本。?信息組織檢索二2、內(nèi)容檢索模型
提取一組描述文本內(nèi)容的詞匯,稱為索引項(xiàng)(term),用索引項(xiàng)的出現(xiàn)次數(shù)等來(lái)表示文本和查詢請(qǐng)求。
計(jì)算文本和查詢請(qǐng)求間的相似度并依據(jù)大小排序輸出檢索結(jié)果。?信息組織檢索二內(nèi)容檢索的模型有:?信息組織檢索二·
向量空間模型(vector
space
model)概率模型(probabilistic
model)網(wǎng)絡(luò)模型(network
model)向量空間模型:?信息組織檢索二向量空間模型是Gerard
Stalton等人在SMART系統(tǒng)中采用的模型,在信息檢索領(lǐng)域?yàn)槿藗兯熘囊环N傳統(tǒng)的檢索模型。向量空間模型的最大特點(diǎn)是用多維向量表示文檔和查詢,通過(guò)計(jì)算向量間的相似度實(shí)現(xiàn)文檔的相似檢索。涉及向量、矩陣、向量空間等線性代數(shù)知識(shí)?!ぴO(shè)矩陣D為索引項(xiàng)-文本矩陣。其中各列是表示文本信息的文本向量,各行是表示索引項(xiàng)信息的索引項(xiàng)向量(其中索引項(xiàng)是經(jīng)過(guò)權(quán)重處理的元素)d11
d12…
d1nD
=
[
d1
d2
…dn]
=d21
d22
…
d2ndm?1信息d組m織2
…檢索二dmn·
查詢語(yǔ)句與文本相同也用索引項(xiàng)權(quán)重為元素的向量表示。查詢向量
q表示如下:·q1q
=
q2q3qm?信息組織檢索二·
檢索時(shí),找出與給定的查詢語(yǔ)句相似的文本,這是通過(guò)計(jì)算查詢向量q與各個(gè)文本向量d
J
間的相似度實(shí)現(xiàn)的。?信息組織檢索二·
向量間相似度的計(jì)算方法有多種,文本檢索中最常使用的是計(jì)算余弦和內(nèi)積的相似度。計(jì)算兩個(gè)向量夾角的余弦函數(shù):?信息組織檢索二其它信息檢索數(shù)學(xué)模型?信息組織檢索二概率模型網(wǎng)絡(luò)檢索模型推理網(wǎng)絡(luò)模型信念網(wǎng)絡(luò)模型·
遺傳算法(Holland,1975):交叉、變異、選擇·
粗糙集(
Pawlak,
1980s
): 模糊性和不確定性3、其他信息檢索的相關(guān)技術(shù)?信息組織檢索二1)信息過(guò)濾:從大量的信息中提取有用的信息,去除無(wú)用的信息。當(dāng)新的文檔加入到系統(tǒng)中時(shí),只提取符合用戶需求的信息,去除不符合的信息。在信息過(guò)濾系統(tǒng)中,把檢索需求稱為用戶描述,把不斷產(chǎn)生的新信息成為信息流。過(guò)濾系統(tǒng)根據(jù)用戶描述文件選擇用戶感興趣的信息,刪除用戶不需要的信息。過(guò)濾系統(tǒng)內(nèi)部表示內(nèi)部表示內(nèi)部表示匹配內(nèi)部表示新產(chǎn)生的文檔信息流用戶描述1用戶描述2用戶描述N與用戶描述1相關(guān)的文檔與用戶描述2相關(guān)的文檔與用戶描述3相關(guān)的文檔?信息組織檢索二2)文本自動(dòng)分類:?信息組織檢索二為了對(duì)大規(guī)模的文檔進(jìn)行分類,需要由計(jì)算機(jī)進(jìn)行自動(dòng)處理,稱為文本自動(dòng)分類。大致分為兩種:一種是按照預(yù)先設(shè)定文本內(nèi)容的類別(如政治、經(jīng)濟(jì)、科學(xué)等),確定文本內(nèi)容屬于哪一類,將文本放到所屬的類別中。一種是通過(guò)將相似的文本歸為一組(聚類)的方法,把全體文檔集合分為若干類?!?/p>
文本自動(dòng)分類原理為計(jì)算兩個(gè)文本間的相似度,或文本與文本類別間的相似度,所以基本上可以采取與信息檢索相似的技術(shù)實(shí)現(xiàn)。如基于向量空間模型的方法;基于規(guī)律模型的方法;基建于規(guī)則和基于識(shí)別學(xué)習(xí)的方法等。?信息組織檢索二3)信息抽取?信息組織檢索二信息抽取系統(tǒng)的重要功能是從文檔中抽取出特定的事實(shí)信息。例如:從新聞報(bào)道中抽取恐怖時(shí)間的詳細(xì)情況,如時(shí)間、地點(diǎn)、做案者、襲擊目標(biāo)等。被抽取出來(lái)的信息以結(jié)構(gòu)化的形式描述,可以直接存入數(shù)據(jù)庫(kù)中,供用戶查詢以及進(jìn)一步分析。因此可以把信息抽取系統(tǒng)看做是把不同文檔中的信息轉(zhuǎn)換成數(shù)據(jù)庫(kù)記錄的系統(tǒng)。
近年來(lái),信息抽取的處理對(duì)象已經(jīng)擴(kuò)展到圖像、視頻、音頻等其他媒體類型的數(shù)據(jù)。
目前的研究側(cè)重于:利用機(jī)器學(xué)習(xí)技術(shù)增強(qiáng)系統(tǒng)的可移植能力、探索深層理解技術(shù)、篇章分析技術(shù)、多語(yǔ)言文本處理技術(shù)、Web信息抽取等。?信息組織檢索二·
信息抽取技術(shù)對(duì)搜索引擎、信息安全、企業(yè)智能信息系統(tǒng)等許多應(yīng)用領(lǐng)域具有相當(dāng)重要的作用。·
至今,已有不少公司以信息抽取技術(shù)產(chǎn)品為主。?信息組織檢索二四、信息檢索的主要方法常規(guī)法回溯法循環(huán)檢索法?信息組織檢索二常規(guī)檢索法——?信息組織檢索二
以主題、分類、作者等為檢索點(diǎn),利用檢索工具獲得信息的方法。利用此法要熟悉主要的檢索工具的編排體例和作用。根據(jù)檢索要求常規(guī)法又分為:順查法、倒查法、抽查法?;厮莘ā?信息組織檢索二·
又稱追溯法、引文法。以文獻(xiàn)后面所附的參考文獻(xiàn)為線索,逐一追溯查找相關(guān)文獻(xiàn)的方法。該法獲得文獻(xiàn)的針對(duì)性比較強(qiáng),尤其在沒(méi)有檢索工具或檢索工具不齊備的情況下較實(shí)用。循環(huán)檢索法——?信息組織檢索二·
又稱交替法、綜合法。即利用回溯法和常規(guī)法交替檢索的方法。先利用檢索工具查找,得出一批相關(guān)
文獻(xiàn),再利用回溯法按所附參考文獻(xiàn)擴(kuò)大檢索線索。2、文本信息檢索技術(shù)?信息組織檢索二對(duì)文本信息進(jìn)行查詢,主要技術(shù)包括:——
布爾檢索——
截詞檢索——
短語(yǔ)檢索——
限制檢索等。布爾檢索——“邏輯與”?信息組織檢索二運(yùn)算符為“AND”,常用來(lái)限定多義詞,進(jìn)行縮檢,提高查準(zhǔn)率。制定A
AND
B的檢索式,只能檢出同時(shí)含有A和B的信息資源。即連接的兩個(gè)檢索詞必須同時(shí)出現(xiàn)在結(jié)果中。幾乎所有的網(wǎng)檢工具都允許使用AND運(yùn)算符構(gòu)筑檢索式。AB?信息組織檢索二布爾檢索——“邏輯或”?信息組織檢索二
運(yùn)算符“OR”、或“+”號(hào)表示。常用來(lái)限定同義詞,擴(kuò)大檢索范圍,提高查全率。
制定“A
OR
B”檢索式,可以檢出含有A或B以及
同時(shí)含有A和B的資源。既連接的兩個(gè)詞只要其中的任何一個(gè)出現(xiàn)在檢索結(jié)果中,就算滿足檢索要求。AOR
BAB?信息組織檢索二布爾檢索——“邏輯非”?信息組織檢索二一般用“NOT”或“—”表示,常用于排除詞間的虛假聯(lián)系,進(jìn)行縮檢。幾乎所有網(wǎng)檢工具都允許使用NOT運(yùn)算符,而
LookSmart站點(diǎn)不允許使用。A
NOT
BB?信息組織檢索二布爾邏輯檢索舉例:?信息組織檢索二已有文件為:D1
full
text
searchD2
inverted
index
fileD3
sequential
search
algorithmD4
index
search
algorithmD5
information
retrieval
algorithm
當(dāng)給出查詢表達(dá)式“search
AND
algorithm”時(shí),查找出的文本為:
當(dāng)給出查詢表達(dá)式為“search
OR
algorithm”時(shí),可查出文本:
當(dāng)給出查詢表達(dá)式為“NOT
sequential”時(shí),可查找出文本:?信息組織檢索二·
對(duì)運(yùn)算符做復(fù)合運(yùn)算時(shí),可以形成更加復(fù)雜的查詢表達(dá)式。如:?信息組織檢索二“(NOT
sequential
)
AND
(search
OR
retrieval)
AND
algorithm”即“在包含search或retrieval的文本中,不存在
sequential,但必須有algorithm這一索引項(xiàng)的文本”運(yùn)用邏輯優(yōu)先級(jí)NOT的優(yōu)先級(jí)最高,其次是AND,最后是OR??梢杂美ㄌ?hào)改變運(yùn)算順序。orandnot?信息組織檢索二2、截詞(truncation)檢索?信息組織檢索二
在檢索詞的詞干上加一個(gè)截詞符,以表示對(duì)該詞的各種詞性的完整詞進(jìn)行檢索。截詞符有時(shí)又稱為通配符,用:“*”“?”
表示。右截詞檢索——又稱“前方一致檢索”,允許詞尾有一定的變化。截詞符以“*”表示。如:檢索式“brows*”,可以檢索出browse,browser,browsing等。左截詞檢索——又稱“后方一致檢索”,允許詞前端有若干變化。如: 檢索式“*magnetic”,可以檢索出
electromagnetic、paramagnetic等。?信息組織檢索二中間截詞檢索?信息組織檢索二
又稱“屏蔽”。允許檢索詞中間某個(gè)字符有變化(英美單詞拼寫差異或單復(fù)數(shù)的不同等)。如:
檢索式“organi?ation”,可以檢索出organization,organisation等。
截詞實(shí)際上是一種隱含的“邏輯或”運(yùn)算,能提高查全率,擴(kuò)大檢索結(jié)果。按截?cái)嗟淖址麛?shù)量分為有限截詞、無(wú)限截詞兩種。有限截詞——將n個(gè)“?”放在檢索詞干或詞尾可能變化的位置上,表示截詞的位數(shù)為0—n個(gè)字符。如在詞尾,在n個(gè)“?”或“*”后空一格再加一個(gè)“?”,表示停止符。無(wú)限截詞——在檢索詞干后加一個(gè)“?”或“*”,表示該詞尾允許變化的字符數(shù)不受任何限制。?信息組織檢索二3、短語(yǔ)檢索?信息組織檢索二·
單純依靠布爾邏輯組配檢索難以滿足某些檢索需求,在高查準(zhǔn)率的要求下,需要使用專門的運(yùn)算符把多
個(gè)檢索詞組成特定的短語(yǔ),或?qū)Ω鱾€(gè)檢索詞在檢索
結(jié)果中出現(xiàn)的相對(duì)位置進(jìn)行限定,才能較好地完成
檢索任務(wù)。短語(yǔ)檢索——也稱詞組檢索,或字符串檢索·
是一種固定詞組檢索。其方法是,在檢索的屏幕上選擇[短語(yǔ)檢索]或[Phrase
Search]等按鈕?;蛘呤褂靡?hào)“”作為一個(gè)獨(dú)立運(yùn)算單元,就可以實(shí)施短語(yǔ)檢索,以提高檢索準(zhǔn)確度。?信息組織檢索二·
如:檢索式“北京大學(xué)”,?信息組織檢索二要求檢索結(jié)果僅為“北京大學(xué)”這個(gè)詞組的內(nèi)容,而不包括諸如“北京工業(yè)大學(xué)”、“位于北京西郊的大學(xué)”、“北京的大學(xué)校園文化”等內(nèi)容的信息。·
幾乎所有的搜索引擎都支持詞組檢索。位置檢索?信息組織檢索二位置檢索是通過(guò)位置算符進(jìn)行的。
位置算符是指表示詞與詞之間位置關(guān)系的符號(hào)。其作用在于對(duì)復(fù)合檢索詞進(jìn)行加工修飾,限制詞與詞之間的位置關(guān)系,彌補(bǔ)了布爾邏輯算符只是定性規(guī)定檢索詞的范圍,可提高檢索結(jié)果的查準(zhǔn)率。常用的幾種位置算符:?信息組織檢索二1、(W)2、(nW)3、(N)4、(nN)5、(S)6、(F)7、(C)8、(L)(W)——with的縮寫。表示算符兩側(cè)的檢索詞按此前后順序不可變更,且兩詞之間不許有其他的詞或字母,但允許兩詞之間有空格、標(biāo)點(diǎn)符號(hào)。如:CD(W)ROM相當(dāng)于檢索CD
ROM,或CD-ROM。?信息組織檢索二·
(nW)——n
Word的縮寫。表示算符兩側(cè)的檢索詞之間允許插入n個(gè)實(shí)詞或系統(tǒng)禁用詞(通常指系統(tǒng)中出現(xiàn)頻率高而不能用來(lái)檢索的冠詞、介詞、連接詞等,如an,
and,by,
for,
form,
of,
the,
to
,wit等),兩詞詞序不可變更。?信息組織檢索二·
(N)——Near的縮寫。表示算符兩側(cè)的檢索詞必須緊密相連,兩詞詞序可變,詞間不允許插入任何其他詞或字母,但允許有空格或標(biāo)點(diǎn)符號(hào)。?信息組織檢索二·
(nN)——表示算符兩側(cè)的檢索詞之間允許插入n個(gè)實(shí)詞或系統(tǒng)禁用詞,兩詞詞序可變。如:Railway
(2N)
Bridge
表示:Railway
BridgeRailway
of
BridgeRailway of
the
Bridge等。?信息組織檢索二·
(S)——Subfield的縮寫。表示算符兩側(cè)的檢索詞必須同時(shí)出現(xiàn)在文獻(xiàn)記錄的同一子字段、句子或短語(yǔ)中,詞間允許插入n個(gè)實(shí)詞或系統(tǒng)禁用詞,詞序可變。?信息組織檢索二·
(F)——Field的縮寫。表示算符兩側(cè)的檢索詞必須同時(shí)出現(xiàn)在文獻(xiàn)記錄的同一字段中,詞間允許插入n個(gè)實(shí)詞或系統(tǒng)禁用詞,詞序可變。如無(wú)需同時(shí)出現(xiàn)在篇名字段、文摘字段、敘詞字段、關(guān)鍵詞字段等,則要加以限定。?信息組織檢索二·
(C)——Citation的縮寫。表示算符兩側(cè)的檢索詞必須同時(shí)出現(xiàn)在一條文獻(xiàn)的記錄中,詞間允許插入n個(gè)實(shí)詞或系統(tǒng)禁用詞,詞序可變,字段不限。?信息組織檢索二·
(L)——Link的縮寫。表示算符兩側(cè)的檢索詞之間有一定的從屬關(guān)系。?信息組織檢索二6、限制檢索?信息組織檢索二·
目的在于提高檢索的準(zhǔn)確率。一般是通過(guò)限制檢索詞在命中結(jié)果記錄中的出現(xiàn)位置(主要指記錄的不同字段的位置)來(lái)實(shí)現(xiàn)的,這種限制檢索技術(shù)因此又被稱為“字段檢索”。在數(shù)據(jù)庫(kù)中,一條文獻(xiàn)記錄通常設(shè)置有幾十個(gè)不同的字段,其中有表達(dá)文獻(xiàn)主題的基本檢索字段,如:標(biāo)題(Title,TI)關(guān)鍵詞(
Keyword,KY)文摘(
Abstract,AB)分類號(hào)(
Classification
Code)等,?信息組織檢索二還有表示文獻(xiàn)外部特征的輔助檢索字段,如:作者(Author,AU)使用的語(yǔ)言(Language,LA)發(fā)表時(shí)間(Time)等。檢索時(shí),可通過(guò)指定檢索詞在主題字段或非主題字段中的出現(xiàn)情況,即可實(shí)現(xiàn)“字段檢索”。如:“MBA
within
AB”,“title:北京”等。?信息組織檢索二·
限制檢索的另一種常見(jiàn)形式是“二次檢索”。即在檢索結(jié)果中再檢索。用戶可以把新一輪檢索限制在已檢得的結(jié)果中。許多檢索系統(tǒng)(包括搜索引擎)都支持這種限制檢索。?信息組織檢索二四、信息檢索效率評(píng)價(jià)?信息組織檢索二信息檢索效率是指信息檢索各項(xiàng)性能的滿意程度,主
要指標(biāo)有查全率、查準(zhǔn)率、漏查率、誤檢率4項(xiàng)指標(biāo)。這4項(xiàng)指標(biāo)于20世紀(jì)50年代由國(guó)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 齊河辦公區(qū)隔斷施工方案
- 勞務(wù)合同范例 道路施工
- 國(guó)際工程所合同范例
- 合開網(wǎng)店合同范例
- 人死后土地出租合同范本
- 產(chǎn)品詳情設(shè)計(jì)合同范例
- 噴漆施工合同范例
- 農(nóng)村種植項(xiàng)目合同范例
- 農(nóng)村生活污水治理項(xiàng)目概述
- 無(wú)廢學(xué)校的廢棄物減量策略
- 《課標(biāo)教材分析》課件
- 《信號(hào)工程施工》課件 項(xiàng)目一 信號(hào)圖紙識(shí)讀
- 基礎(chǔ)護(hù)理常規(guī)制度
- 針灸治療動(dòng)眼神經(jīng)麻痹
- 傾聽幼兒馬賽克方法培訓(xùn)
- 設(shè)備日常維護(hù)及保養(yǎng)培訓(xùn)
- 鋼結(jié)構(gòu)實(shí)習(xí)報(bào)告
- 2024年建房四鄰協(xié)議范本
- FTTR-H 全光組網(wǎng)解決方案裝維理論考試復(fù)習(xí)試題
- 2024年安全生產(chǎn)月主題2024年學(xué)校安全生產(chǎn)月活動(dòng)方案
- 2024年廣東佛山市中醫(yī)院三水醫(yī)院招聘61人歷年高頻考題難、易錯(cuò)點(diǎn)模擬試題(共500題)附帶答案詳解
評(píng)論
0/150
提交評(píng)論