講稿2-索引的建立_第1頁(yè)
講稿2-索引的建立_第2頁(yè)
講稿2-索引的建立_第3頁(yè)
講稿2-索引的建立_第4頁(yè)
講稿2-索引的建立_第5頁(yè)
已閱讀5頁(yè),還剩16頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

二索引的建立1、目的、標(biāo)準(zhǔn)在大量的文檔集中(通常情況下大約為100,000個(gè)文檔以上),為了提高檢索性能和速度,需要找到文檔中比較重要的內(nèi)容并為這些內(nèi)容創(chuàng)建內(nèi)部表示,這些表示形式被稱為索引。為了找到這些內(nèi)容,必須進(jìn)行語(yǔ)義分析來(lái)確定哪些是某一文檔中的概念。對(duì)于IR來(lái)講,這種分析是非常復(fù)雜的也是很難進(jìn)行的。目前存在的技術(shù),大多限制在某一特別領(lǐng)域。建立索引的目標(biāo)是找出主要內(nèi)容,創(chuàng)建內(nèi)部表示。表示法的選擇應(yīng)考慮下面三個(gè)準(zhǔn)則:精確表示語(yǔ)義涵蓋所有內(nèi)容易于計(jì)算機(jī)處理實(shí)際上,人們更加傾向于研究概念的表示形式。概念表示形式可以是字、詞、詞組等,概念表示形式與精確度關(guān)系如圖 2-1所示。選用詞作為概念的表示形式的想法是很自然的。 事實(shí)上,詞是最容易識(shí)別的語(yǔ)言單位,并且,它們也能充分地表達(dá)語(yǔ)義。在現(xiàn)有的系統(tǒng)中,它是最常用的方法。但是,單詞經(jīng)常不能給出專一的描述。例如,“專家系統(tǒng)”,被表示為“專家”和“系統(tǒng)”, 失去了一定的精確性。因此,研究者們提出了新的方法,建議將單詞組織起來(lái)形成合成詞,文獻(xiàn)可以由詞和短語(yǔ)聯(lián)合來(lái)描述。研究表明使用中文分詞,按詞索引結(jié)合二元組(bi-gram)索引是檢索效率和效果較優(yōu)的索引綜合考慮方式,通常通過(guò)自動(dòng)分詞來(lái)選擇索引詞。在文檔索引過(guò)程中,先通過(guò)中文自動(dòng)分詞程序的處理,把文檔正文分割成為獨(dú)立的分詞單位,然后在這些分詞單位基礎(chǔ)上選擇索引詞。分詞單位是指具有確定語(yǔ)義或語(yǔ)法功能的基本單位,通常被直接選作索引詞 [7]。涵蓋率精確度(Recall)(Precision)字符串詞合成詞概念圖2-1概念表示形式與精確度關(guān)系文檔集合通常由文檔邏輯視圖來(lái)表示,可以是一組索引詞或關(guān)鍵詞。既可以自動(dòng)提取,也可以是由人主觀指定。索引詞的選取過(guò)程見圖 2-2、2-3所示。首先,對(duì)文本信息進(jìn)行預(yù)處理,預(yù)處理技術(shù)主要包括結(jié)構(gòu)提取、分詞(中文)、詞干提取等,然后選擇特征表示形式和進(jìn)行特征提取,以一定特征項(xiàng)(如詞或詞組)來(lái)代表文檔,在檢索時(shí)只需對(duì)這些特征項(xiàng)進(jìn)行處理。圖2-2 索引詞選取框圖(英文文檔)中文文檔 中文切詞 停用詞 詞或詞組 自動(dòng)或手工索引結(jié)構(gòu)識(shí)別結(jié)構(gòu) 索引詞集合圖2-3 索引詞選取框圖(中文文檔)語(yǔ)言學(xué)界、人工智能領(lǐng)域和情報(bào)檢索界的學(xué)者在漢語(yǔ)自動(dòng)分詞與索引的研究與實(shí)踐上進(jìn)行了大量的研究,找到了許多解決漢語(yǔ)分詞的方法。80年代以來(lái)見諸報(bào)端的自動(dòng)分詞方法歸納起來(lái)有:最大匹配法、逆向最大匹配法,逐詞遍歷法、設(shè)立切分標(biāo)志法、最佳匹配法、有窮多層次列舉法、二次掃描法、高頻優(yōu)先分詞法、基于期望的分詞法、聯(lián)想———回溯法、雙向掃描法、鄰接約束法、擴(kuò)棄轉(zhuǎn)移網(wǎng)絡(luò)分詞法、語(yǔ)境相關(guān)法、全自動(dòng)詞典切詞法、基于規(guī)則的分詞法、多遍掃描聯(lián)想法、部件詞典法、鏈接表法、最少分詞詞頻選擇法、專家系統(tǒng)分詞法、基于神經(jīng)網(wǎng)絡(luò)的分詞方法等 22種[3]。由于漢語(yǔ)結(jié)構(gòu)上的復(fù)雜性、切分的模糊性以及語(yǔ)法分析問題等諸多因素的影響,漢語(yǔ)自動(dòng)分詞未能取得重大的實(shí)質(zhì)性突破。這一問題的擱淺直接影響了漢語(yǔ)文獻(xiàn)的自動(dòng)索引及漢語(yǔ)的句法分析與語(yǔ)義分析研究,成為中文自動(dòng)索引研究發(fā)展的瓶頸。如何高效低成本地實(shí)現(xiàn)信息索引是信息檢索領(lǐng)域重要的研究課題。索引從原理上分抽詞索引和賦詞索引,各種方法和技術(shù)以自然語(yǔ)言的規(guī)律為基礎(chǔ),構(gòu)建在相應(yīng)的數(shù)學(xué)模型上。在這一章中,我們將介紹以單詞和合成詞為表示形式的自動(dòng)索引方法。首先,介紹自動(dòng)索引的基本原理,然后,介紹基于詞匯分布特征的索引方法: 統(tǒng)計(jì)標(biāo)引法、n-gram標(biāo)引法和概率標(biāo)引 、基于語(yǔ)言規(guī)則與內(nèi)容的索引: 句法分析標(biāo)引法、語(yǔ)義分析標(biāo)引法和基于概念的標(biāo)引法、人工智能索引法:知識(shí)產(chǎn)生式表示法、語(yǔ)義網(wǎng)絡(luò)表示法和框架表示法和漢語(yǔ)自動(dòng)索引。其中,重點(diǎn)介紹基于詞匯分布特征的索引方法,其它方法只是簡(jiǎn)單講解,同學(xué)們課后可以查閱相關(guān)的資料,對(duì)每個(gè)方法進(jìn)行總結(jié),形成介紹性的文章。2、自動(dòng)索引的基本原理2.1自動(dòng)抽詞標(biāo)引原理自動(dòng)抽詞標(biāo)引是指直接從原文中抽取詞或短語(yǔ)作為標(biāo)引詞來(lái)描述文獻(xiàn)主題內(nèi)容的過(guò)程。它涉及如何從原文中抽取能夠表達(dá)其實(shí)質(zhì)意義的詞匯,以及如何根據(jù)這些詞匯確定標(biāo)引詞。1、自動(dòng)抽詞標(biāo)引思路在手工標(biāo)引中,標(biāo)引員總是盡量選擇能較好反映文獻(xiàn)主題的原文詞語(yǔ)。他們的選擇結(jié)果可能要受到一些因素的影響, 如詞語(yǔ)在文獻(xiàn)中出現(xiàn)的頻率、 詞語(yǔ)出現(xiàn)的位置(標(biāo)題、結(jié)論、插圖說(shuō)明等)及其語(yǔ)境。假定文本以機(jī)器可讀的形式存在,計(jì)算機(jī)程序就可以模仿人,通過(guò)對(duì)文本中詞的頻率、位置和語(yǔ)境標(biāo)準(zhǔn)來(lái)實(shí)施抽詞標(biāo)引。標(biāo)引程序的基本算法是,抽取文本中的詞匯, 將詞匯與一個(gè)“禁用詞表”比較 ,除去各種非實(shí)義詞(冠詞、介詞、連詞等),然后統(tǒng)計(jì)剩下的詞匯的出現(xiàn)頻率,并按其降序排列,排在前面的一些高頻詞被選作文獻(xiàn)的“標(biāo)引詞”。選擇標(biāo)引詞的分界點(diǎn)可根據(jù)下面幾種標(biāo)準(zhǔn)來(lái)確定: 詞的絕對(duì)數(shù)、與文本長(zhǎng)度有關(guān)的數(shù)、詞頻超過(guò)一定閾值的詞數(shù) 。更復(fù)雜一些的算法可抽出在文本中經(jīng)常出現(xiàn)的重要短語(yǔ)。文獻(xiàn)因此可以由詞和短語(yǔ)聯(lián)合來(lái)描述,選擇短語(yǔ)的頻率要比選擇重要詞的頻率標(biāo)準(zhǔn)低一些。除了選擇詞和短語(yǔ),標(biāo)引程序還可以選擇詞根。因此詞根(如“ beat”)可以被選擇并存儲(chǔ),它代替了多種對(duì)應(yīng)的變體“ beat”、“beating”、和“beated”。取詞根程序可以自動(dòng)去除指定的詞尾,如“ed”、“ing”等。當(dāng)然,詞、短語(yǔ)或詞根都可以給予反映它們?cè)谖墨I(xiàn)中出現(xiàn)頻率的權(quán)重 。詞和短語(yǔ)除了根據(jù)頻率抽取之外,還可以通過(guò)與某種機(jī)內(nèi)詞典中“可接受的”詞語(yǔ)相匹配的方式從文本中抽取。2、選取標(biāo)引詞的原則在文本的計(jì)算機(jī)處理中, 計(jì)算詞在一篇文獻(xiàn)中出現(xiàn)的頻率并不是唯一的方法( tf),有時(shí)考察詞在整個(gè)文獻(xiàn)庫(kù)中出現(xiàn)的頻率可能更重要 (df,idf) 。最好的區(qū)分詞(能將一篇文獻(xiàn)與其他文獻(xiàn)區(qū)分開的詞)應(yīng)能保證在非相關(guān)的文獻(xiàn)集合中很少出現(xiàn)或不出現(xiàn),如“石棉”在圖書館學(xué)文獻(xiàn)中,“圖書館”在石棉公司數(shù)據(jù)庫(kù)中。實(shí)際上,沒有必要計(jì)算詞在整個(gè)文本數(shù)據(jù)庫(kù)中的出現(xiàn)頻數(shù),而只需計(jì)算詞在倒排文檔中的頻數(shù)即可。除了詞在文獻(xiàn)中出現(xiàn)的絕對(duì)頻率,還可使用相對(duì)頻率方法來(lái)選擇詞語(yǔ),即選擇那些在一篇文獻(xiàn)中的出現(xiàn)幾率大大高于在整個(gè)文獻(xiàn)庫(kù)中出現(xiàn)幾率的詞和短語(yǔ)。這種方法比絕對(duì)頻率法要復(fù)雜一些,因?yàn)樗枰酪粋€(gè)詞在數(shù)據(jù)庫(kù)中出現(xiàn)頻率,并將該頻率與詞在一特定文獻(xiàn)中的頻率相比較。基于相對(duì)頻率從文獻(xiàn)中抽出的詞和短語(yǔ)集合將不同于基于絕對(duì)頻率得到的集合, 但是不是完全不同,許多仍然相同。少數(shù)新詞語(yǔ)將是那些在一特定文獻(xiàn)中很少出現(xiàn),但是在整個(gè)數(shù)據(jù)庫(kù)中更少出現(xiàn)的詞語(yǔ),如果一個(gè)詞在一個(gè)有1000萬(wàn)詞的數(shù)據(jù)庫(kù)中只出現(xiàn)5次,則它盡管在一篇5000詞的期刊論文中只出現(xiàn)1次,仍然是很重要的,而那些在一篇文獻(xiàn)和整個(gè)數(shù)據(jù)庫(kù)都頻繁出現(xiàn)的詞語(yǔ)(可稱為“泛濫詞”)則要去除。頻率標(biāo)準(zhǔn)還可用其他標(biāo)準(zhǔn)來(lái)補(bǔ)充。例如,Baxendale在1985年提出了對(duì)段落主題句抽詞的思想,認(rèn)為只需對(duì)每段文本的第一個(gè)和最后一個(gè)句子進(jìn)行處理。因?yàn)橐豁?xiàng)研究表明,第一個(gè)句子是段落“主題句”的比例為85%,最后一個(gè)句子也超過(guò)7%。還有許多利用文本中“信息豐富”部分的抽詞標(biāo)引的思路被提出,如利用一下一些元素:文章各級(jí)標(biāo)題,介詞短語(yǔ)、后接入“conclusions”和“summary”的線索詞的文本等等。一般情況下,檢索系統(tǒng)普遍采用全文索引技術(shù),即網(wǎng)頁(yè)文檔中所有詞都選擇參與索引。在理想情況下,索引詞應(yīng)該是表達(dá)文檔內(nèi)容的語(yǔ)義單位,對(duì)應(yīng)著語(yǔ)言學(xué)里的詞匯詞的概念,它是專門表示含義,而其實(shí)際意義無(wú)法由組合成分相加得到的最小語(yǔ)言單位[7]。2.2 自動(dòng)賦詞標(biāo)引原理賦詞標(biāo)引是指使用預(yù)先編制的詞表中詞來(lái)代替文本中的詞匯進(jìn)行標(biāo)引的過(guò)程,即將反映文本主題內(nèi)容的關(guān)鍵詞(欲用作標(biāo)引的關(guān)鍵詞)轉(zhuǎn)換為詞表中的主題詞(或敘詞等),并用其標(biāo)引的方法。自動(dòng)賦詞標(biāo)引類型主要有以下兩種:1、基于概率的賦詞標(biāo)引Maron于1979年提出的概率標(biāo)引模型采用基于相關(guān)概率的賦詞標(biāo)引方法,其標(biāo)引過(guò)程是:選一批樣品文獻(xiàn),去掉高頻詞和低頻詞,把這些文獻(xiàn)按其主題歸入適當(dāng)?shù)念惸恐?,然后統(tǒng)計(jì)候選關(guān)鍵詞在類目中出現(xiàn)的頻率,再由人工最后確定一個(gè)詞表。標(biāo)引時(shí)用被標(biāo)引文獻(xiàn)中的詞與詞表中的詞進(jìn)行比較,將匹配成功的詞賦予該文獻(xiàn)。DIA(DarmstadtIndexingApproach) 方法則是基于決策概率(某標(biāo)引詞賦予某文獻(xiàn)這一決策事件正確性概率)的一種賦詞標(biāo)引方法。在這種方法中,加權(quán)函數(shù) r(s,t)近似等于將敘詞 s賦給含有詞條 t的文獻(xiàn)的正確性概率 P(c/s,t) 。如果詞條 t在文獻(xiàn)d中被識(shí)別出來(lái),同時(shí)也符合 r(s,t),則形成從 t 到s的敘詞指引。從文獻(xiàn) d到敘詞s的全部敘詞指引集合稱為 s與d的相關(guān)性描述 y(s,d) 。下面的過(guò)程就是用相關(guān)性描述 y(s,d) 來(lái)估算概率 P(c/y), P(c/y) 是給定相關(guān)性描述 y,敘詞s標(biāo)引文獻(xiàn)d正確的概率。信任函數(shù)模型(BeliefFunctionModel)也屬于概率標(biāo)引模型,它的標(biāo)引過(guò)程是:將被標(biāo)引文獻(xiàn)與一個(gè)具有敘詞集合的受控詞表進(jìn)行比較,對(duì)出現(xiàn)在文獻(xiàn)中的受控詞表的每一敘詞,根據(jù)其出現(xiàn)頻率以及同義詞出現(xiàn)情況定義一個(gè)基本概率數(shù)。 基本概率數(shù)大于零的敘詞, 便可用于對(duì)具有該詞的文獻(xiàn)進(jìn)行標(biāo)引。2、基于概念的賦詞標(biāo)引基于概念的賦詞標(biāo)引主要是使用概念詞表作為標(biāo)引詞的來(lái)源。 FASIT法就是一種典型的基于概念的賦詞標(biāo)引方法,F(xiàn)ASIT法的實(shí)現(xiàn)過(guò)程是:對(duì)文獻(xiàn)中與其主題相關(guān)的詞或短語(yǔ)賦予一定的句法范疇或幾個(gè)范疇的組合,并給出相應(yīng)的標(biāo)記;然后采用與上下文相關(guān)的消除歧義規(guī)則,消除多重標(biāo)記詞的歧義性;最后利用一個(gè)概念形式詞典進(jìn)行概念選擇,選出的概念經(jīng)規(guī)范化處理后,計(jì)算其與其他概念之間的關(guān)聯(lián)度,進(jìn)而將統(tǒng)一概念進(jìn)行概念歸類,最終以概念類來(lái)標(biāo)引文獻(xiàn)。自動(dòng)標(biāo)引的模型3.1 向量模型文獻(xiàn)的向量空間模型較好地描述了文獻(xiàn)之間的相關(guān)程度,由此確定了文獻(xiàn)空間密度。由于文獻(xiàn)標(biāo)引性能可以從文獻(xiàn)空間密度直接反映出來(lái),因此這種以文獻(xiàn)向量空間為基礎(chǔ)的抽象描述就構(gòu)成了自動(dòng)標(biāo)引的一種數(shù)學(xué)模型。若用X(a,b)確定二維平面上點(diǎn)X的位置,用為t維文獻(xiàn)空間,則可以用D=(di1,di2,...,ditidij為文獻(xiàn)Di的第j個(gè)標(biāo)引詞的權(quán)值。

X(a,b,c) 表示三維空間中點(diǎn) X的位置,同理,如果 D)表示,其中, Di可以看成是文獻(xiàn)空間 D的第i維向量,1)文獻(xiàn)向量的相關(guān)性有了文獻(xiàn)空間,每一篇文獻(xiàn)在其中都有一個(gè)確定的位置,文獻(xiàn)的空間位置就為我們計(jì)算它們之間的相關(guān)程度提供了途徑。從文獻(xiàn)空間上看,兩篇文獻(xiàn)相關(guān)就是指代表這兩篇文獻(xiàn)的向量靠得很近,具體講就是這兩個(gè)向量的夾角很小。根據(jù)向量代數(shù)中數(shù)量積計(jì)算公式有:a?b |a|?|b|?cos其中,|a|,|b| 分別為向量 a和b的模,=(a,b)為向量a和b的夾角,a?bcos|a|?|b|又設(shè)向量a和b的坐標(biāo)分別為 a={a1,a2,...,a t}和b={b1,b2,...,b t},則:t1aibicosit2t2i1ai?i1bi由余弦函數(shù)的性質(zhì)可知,在[0, 90]上,其余弦值隨其角度變小而增大。這一現(xiàn)象正好反映了文獻(xiàn)空間中某兩篇文獻(xiàn)的相關(guān)程度的大小,即余弦值小,夾角大,則相關(guān)度低;反之,則相關(guān)度高。若余弦值為1,則夾角為零,則兩篇文獻(xiàn)完全重合,即相等。因此,可將兩文獻(xiàn)之間的相關(guān)度 S(Di,Dj)定義為其夾角的余弦值,即S(D,D)=cos,其中,=<D,D>為文獻(xiàn)D,D之間的夾角。由于文獻(xiàn)D是ijijiji由相應(yīng)的標(biāo)引詞的權(quán)值來(lái)表示的,即Di=(di1,di2,...,dit),故文獻(xiàn)之間相關(guān)度為:t1dik?djkS(Di,DJ)kt2tk1dik?k1djk2可以設(shè)想,在一個(gè)理想的文獻(xiàn)空間中,滿足用戶情報(bào)需求的文獻(xiàn)應(yīng)是緊緊地聚集在一起。但如果對(duì)一個(gè)給定文獻(xiàn)集合的全部檢索歷史不了解,則很難產(chǎn)生出這種理想空間。因此,為了達(dá)到理想的檢索效果,應(yīng)將文獻(xiàn)空間中的點(diǎn)盡可能地分開,即對(duì)式( 2-1)求最小值。FnnS(Di,Dj)i1j1j)(2-1)(i式(2-1)的最小值表明空間中文獻(xiàn)之間的相關(guān)性將變得很小,當(dāng)某篇文獻(xiàn)與某個(gè)提問相關(guān)時(shí),只有這篇文獻(xiàn)被檢索出來(lái),從而保證了較高的查準(zhǔn)率。但這會(huì)產(chǎn)生兩個(gè)方面的問題:第一,這種將點(diǎn)分開的方式是否基于這樣一個(gè)事實(shí),即分離文獻(xiàn)空間中的點(diǎn)將導(dǎo)致高檢索效率;反之,高檢索效率必將使得文獻(xiàn)空間中的點(diǎn)彼此分開。第二,式(2-1)的計(jì)算量較大,對(duì)具有 n篇文獻(xiàn)的集合而言,共需計(jì)算 n2 n次。由于上述原因,我們考慮使用聚類文獻(xiàn)空間。在該空間中,文獻(xiàn)按類集中在一起,每個(gè)類由一個(gè)類的矩心C(Centroid)來(lái)表示。給定一個(gè)m篇文獻(xiàn)的集合構(gòu)成的文獻(xiàn)類P,其矩心Cp定義如下:Cp(Cdp1,Cdp2,...,Cdpt)1m1dik其中,Cdpkim(k=1,2,...,t)同理可求出整個(gè)文獻(xiàn)的矩心C*。在未聚類文獻(xiàn)空間中,其空間密度為所有文獻(xiàn)對(duì)相關(guān)度的總和,即式(2-1)的計(jì)算結(jié)果。而聚類文獻(xiàn)的空間密度由式(2-2)給出:nQi1S(C*,Di)*,Di)Di*S(C*其中,C為整個(gè)文獻(xiàn)集合矩心,為文獻(xiàn)與矩心C的相關(guān)度。顯然,式(2-2)只需計(jì)算n次。(2)空間密度與標(biāo)引性能的關(guān)系一個(gè)理想的文獻(xiàn)空間應(yīng)是同類中文獻(xiàn)的相關(guān)度x要大,不同類之間的相關(guān)度y要小。所以y/x可用來(lái)作為測(cè)量文獻(xiàn)空間密度的標(biāo)準(zhǔn),y/x值大,則空間密度高,反之則空間密度低。文獻(xiàn)空間密度與標(biāo)引性能之間存在著密切聯(lián)系,二者存在互逆性。標(biāo)引性能與空間密度的這種密切關(guān)系構(gòu)成了向量空間自動(dòng)標(biāo)引的理論基礎(chǔ)。3.2 信息模型人工標(biāo)引通常是通過(guò)分析文獻(xiàn)內(nèi)容本身來(lái)確定標(biāo)引詞進(jìn)行標(biāo)引,而自動(dòng)標(biāo)引是利用計(jì)算機(jī)從已有的文獻(xiàn)數(shù)據(jù)庫(kù)(信息系統(tǒng))中獲取信息來(lái)確定標(biāo)引詞的過(guò)程。兩者的區(qū)別在于從不同的對(duì)象中獲取信息,實(shí)施標(biāo)引的主體不同,但它們的目的都是為了表示信息的主題內(nèi)容。(1)標(biāo)引詞的信息量設(shè)文獻(xiàn)庫(kù)D={d,d2,...,dn}為對(duì)象庫(kù),稱為外延空間,而標(biāo)引詞庫(kù)T={t,t,...,t}為屬性集,稱112n為內(nèi)涵空間,矩陣R稱為DT上的關(guān)系數(shù)據(jù)庫(kù):x1(t1)...x1(tm).........R=xn(t1)...xn(tm)R也稱為“對(duì)象-屬性-數(shù)據(jù)”系統(tǒng),di{xi(t1),...,xi(tm)}。其中:xi(tj)1是d的標(biāo)引ji詞,xi(tj)0表示tj不是di的標(biāo)引詞(i=1,,n;j=1,...,m).數(shù)據(jù)是一種抽象的數(shù)量概念,數(shù)據(jù)所表示的含義即為信息,信息是對(duì)數(shù)據(jù)的解釋,數(shù)據(jù)是信息的載體,假若對(duì)數(shù)據(jù)賦予某種意義, 此數(shù)據(jù)即為信息, 故“對(duì)象-屬性-數(shù)據(jù)”系統(tǒng)也稱為信息系統(tǒng)。 如數(shù)據(jù):t (x1(t),...,xn(t)) (t T)表示了“文獻(xiàn)庫(kù) D中的文獻(xiàn)是否具有標(biāo)引詞 t”這樣一條信息。在計(jì)算這種信息的信息量時(shí),最樸素的思想是信息的外延越大,其內(nèi)涵越弱,信息量越??;反之,信息的外延越窄,其內(nèi)涵越強(qiáng),信息量越大。定義1:nI(t)i1(1xi(t))(tT)稱I(t)為標(biāo)引詞t的信息量。對(duì)I(t)可以直觀地理解:標(biāo)引詞標(biāo)引文獻(xiàn)的篇數(shù)越多,它的外延對(duì)象越廣,則信息量越??;反之,標(biāo)引詞標(biāo)引文獻(xiàn)的篇數(shù)月少,它的外延對(duì)象越窄,則信息量越大。定義2:1、tt'(x1(t)x1(t'),...,xn(t)xn(t')),表示“文獻(xiàn)具有標(biāo)引詞t或t’”2、tt'x1(t)x1(t'),...,xn(t)xn(t'),表示“文獻(xiàn)具有標(biāo)引詞t與t’”其中,、是取大、取小運(yùn)算。記(T)為T中元素經(jīng)、運(yùn)算后得到的所有元素的集合,顯然T(T)。稱(T)為廣義標(biāo)引詞庫(kù)。定理1:對(duì)t,t’T,有1、I(tt')I(t),I(tt')I(t')表示“文獻(xiàn)具有標(biāo)引詞t或t’”的信息量小于等于僅含有標(biāo)引詞t或t’的信息量。2、I(tt')I(t),I(tt')I(t')表示“文獻(xiàn)具有標(biāo)引詞t與t’”的信息量大于等于僅含有標(biāo)引詞t或t’的信息量。3、I(tt')I(t)I(t')I(tt')表示“文獻(xiàn)具有標(biāo)引詞t與t’”的信息量等于兩個(gè)標(biāo)引詞信息量之和減去“文獻(xiàn)具有標(biāo)引詞t或t’”的信息量。(2)推測(cè)標(biāo)引詞在已知文獻(xiàn)具有標(biāo)引詞

t的情況下,可根據(jù)信息提取的思想來(lái)推測(cè)文獻(xiàn)是否具有標(biāo)引詞

t’。I(tt')D(t'/t)(t,t'T)為由標(biāo)引詞t推測(cè)標(biāo)引詞t’的確定率。定義3:稱I(t')從定義3可以看出,在獲得t的信息時(shí),就可以從t’的信息中提取tt'的信息,故標(biāo)引詞t對(duì)t’的確定率就等于tt'的信息量在t’的信息量中所占的比例,比例越高,確定率越大;反之,比例越低,確定率越小,顯然有0D(t'/t)1成立。我們的目的是從標(biāo)引詞t出發(fā),對(duì)標(biāo)引詞t’作一推測(cè)。這種推測(cè)不可能都達(dá)到100%的準(zhǔn)確率,只需得到相對(duì)較高的確定率即可。這種推測(cè)是一種或然推理,具有或然性。當(dāng)確定率達(dá)到1時(shí),就是推斷,即通常的精確推理?;谠~匯分布特征的索引方法基于詞匯分布特征的索引方法依據(jù)下述假設(shè)來(lái)選擇索引詞:某詞在文獻(xiàn)中的出現(xiàn)頻率與該詞的文獻(xiàn)區(qū)分功能有密切關(guān)系。一個(gè)詞(實(shí)詞)在文獻(xiàn)中使用越頻繁,就越有可能是一個(gè)指示主題的詞。通過(guò)對(duì)這些詞語(yǔ)的統(tǒng)計(jì),求出其中的高頻詞、中頻詞和低頻詞,并使用中等頻率的詞語(yǔ)作為標(biāo)識(shí)文獻(xiàn)的主題詞。除此以外,還可以根據(jù)取詞的不同位置、詞語(yǔ)本身的重要性給每個(gè)詞賦予不同的權(quán)值,使得最終的加權(quán)統(tǒng)計(jì)結(jié)果更加符合實(shí)際情況,更能體現(xiàn)文章的主題 [4]。4.1 基于詞頻的基本方法大量詞頻統(tǒng)計(jì)結(jié)果表明,文章中出現(xiàn)頻率最高的詞匯往往是反映句子語(yǔ)法結(jié)構(gòu)的虛詞,作者重點(diǎn)闡述某主題時(shí)所用的核心詞,其出現(xiàn)頻率通常較高。因此,最高頻詞和低頻詞都不適宜做標(biāo)引詞,只有詞頻介于最高頻和低頻之間的這部分詞匯才適合做標(biāo)引詞。詞頻統(tǒng)計(jì)法的出發(fā)思想是:根據(jù)詞頻統(tǒng)計(jì)結(jié)果,將出現(xiàn)頻率較高并含有實(shí)質(zhì)意義的詞匯作為反映一篇文章主題的有效測(cè)度,這一測(cè)度就確定了標(biāo)引詞的選擇范圍。詞頻統(tǒng)計(jì)法的理論基礎(chǔ)是著名的齊普夫定律(Zipf’sLaw)。齊普夫定律是描述一系列實(shí)際現(xiàn)象的特點(diǎn)非常到位的經(jīng)驗(yàn)定律之一。它認(rèn)為,如果我們按照大小或者流行程度給某個(gè)大集合中的各項(xiàng)進(jìn)行排序,集合中第二項(xiàng)的比重大約是第一項(xiàng)的一半,而第三項(xiàng)的比重大約是第一項(xiàng)的三分之一,以此類推。換句話來(lái)說(shuō),一般來(lái)講,排在第k位的項(xiàng)目其比重為第一項(xiàng)的1/k。以英語(yǔ)文本的一大段典型內(nèi)容為例,最常見的單詞the通常占所有出現(xiàn)單詞的近7%。排在第二位的詞語(yǔ):of占所有出現(xiàn)單詞的3.5%,而排在第三位的單詞and占2.8%。換句話說(shuō),所占比例的順序(7.0、3.5和2.8等)與1/k順序(1/1、1/2、1/3)緊密對(duì)應(yīng)。雖然Zipf最初發(fā)明的定律只是適用于單詞出現(xiàn)頻率的這一現(xiàn)象,但科學(xué)家們發(fā)現(xiàn),它可以描述極其廣泛的一系列統(tǒng)計(jì)分布,譬如個(gè)人的財(cái)富和收入、城市人口甚至博客讀者數(shù)量[6]。Zipf 第一定律即高頻詞定律可用式( 7-3)表示:R F=C (7-3)式(7-3)中,R為詞頻等級(jí)數(shù),F(xiàn)為詞頻,C為常數(shù),例子見表 1。定律描述了文本中高頻詞的出現(xiàn)規(guī)律,而其修正定律即 Zipf 第二定律(低頻詞定律)則描述了低頻詞的出現(xiàn)情況,如式( 7-4)所示:I1/Inn(n1)/2(7-4)這兩個(gè)完全不同的定律刻畫了文本中詞分布的兩個(gè)極端情況。表1:RankWordFrequencyRank*Frequency1the69971699712of36411728223and28852865564to261491045965a232371161856in213411280467that1059576165按照這個(gè)定律,詞的分配符合下面的曲線(圖 1):FrequencyRank123圖1詞的頻率和編號(hào)曲線圖顯然,不能將所有詞頻高的詞都作為索引詞??梢远x另一個(gè)上限閾值

:

如果某個(gè)詞的頻率超過(guò)這個(gè)閾值,不被當(dāng)作索引詞。這兩個(gè)閾值的使用對(duì)應(yīng)于詞的信息量。 信息量是指對(duì)詞所蘊(yùn)含含義的質(zhì)量的測(cè)量 。這個(gè)概念在

IR

中的定義不是很精確。只是通過(guò) 直覺來(lái)使用。但是,在信息理論中,我們可以發(fā)現(xiàn)它的等價(jià)物(例如,

Shannon理論或熵)信息量和頻率之間的對(duì)應(yīng)關(guān)系如下:Frequency/Informativityfrequency informativityMax.Min.123 Rank因此,在這兩個(gè)閾值之間選擇詞的時(shí)候,希望獲得信息量被最好地展現(xiàn)出來(lái)的那些詞。早在20世紀(jì)50年代Luhn就在Zipf定律基礎(chǔ)上提出詞頻統(tǒng)計(jì)標(biāo)引方法,其主要步驟是:給定m篇文獻(xiàn)組成的一個(gè)集合,設(shè)第k個(gè)詞在第i篇文獻(xiàn)中發(fā)生的頻率fik。決定該詞在整個(gè)文獻(xiàn)集上的發(fā)生頻率:fkfik按照f(shuō)k的大小將詞降序排列,確定一個(gè)上截止閾值,去掉fk大于上截止閾值的詞,確定一個(gè)下截止閾值,去掉fk小于下截止閾值的詞。剩余的中頻詞用于文獻(xiàn)的標(biāo)引。Goffman在考察了上述兩個(gè)定律之后,認(rèn)為存在一個(gè)詞由高頻行為轉(zhuǎn)為低頻行為的臨界區(qū)(criticalregion),只有處于臨界區(qū)內(nèi)的詞才最適于描述文獻(xiàn)的主題。為確定臨界點(diǎn),設(shè)低頻詞定律具有高頻詞特征,也就是詞頻為n的詞數(shù)接近于1(In1),即每個(gè)詞具有唯一的級(jí)數(shù),則式(7-4)變?yōu)椋篒1/In(n1)/2上述整理式為一元二次方程,解此方程保留正平方根,得:n (1 1 8I1)/2求得n之后,以 n為臨界區(qū)的中點(diǎn),以最高詞頻處為臨界區(qū)的上界,取與 n到上界之間等級(jí)距離相等的另一端為臨界區(qū)的下屆,位于臨界區(qū)內(nèi)的詞經(jīng)過(guò)禁用詞表處理即可選為標(biāo)引詞。4.2 基于鑒別(區(qū)分)值的基本方法鑒別值識(shí)別是指在眾多的文檔中借助某個(gè)詞來(lái)較好地識(shí)別出某個(gè)文檔的方法。也就是說(shuō),某個(gè)有較高鑒別值的詞一定出現(xiàn)在小數(shù)量的文檔中。出現(xiàn)在大多數(shù)文檔中的詞沒有鑒別力。詞的鑒別值對(duì)于索引詞的選擇是非常重要的。想法是保留那些具有區(qū)別性的詞,淘汰那些沒有鑒別力的詞。鑒別值的計(jì)算在矢量模型中被提出。因此,我們將在下一章中詳細(xì)地介紹這個(gè)模型。在矢量模型中,每個(gè)文檔由加權(quán)的矢量來(lái)表示,例子如下:t 1d<pi1i

tp

2t3tni2pi3pin>其中,pij表示詞tj在文檔di中的權(quán)重。已知一個(gè)文檔集,就有了一個(gè)矩陣。一個(gè)詞的鑒別值的計(jì)算方法如下:1、計(jì)算文檔集的矩心Pj=ΣPij/Ni其中,Pj表示第j個(gè)詞的權(quán)重,Pij 表示在第 i個(gè)文檔中第 j個(gè)詞的權(quán)重2、計(jì)算文檔的空間密度,也就是每個(gè)文檔和文檔集的矩心的相關(guān)性的平均值U=C*

Σ

Sim(d,V)1

j

i其中,

C是標(biāo)準(zhǔn)化常量,常取

C=1/N

,Sim(d,V)

是文檔

d

和文檔集矩心

V的相關(guān)度。這i

i里,Sim是標(biāo)準(zhǔn)化的公式,它的取值是

[0

,1](在矢量模型中將給出更多的介紹)3、計(jì)算去掉第

j個(gè)詞后的文獻(xiàn)空間密度,用

U2表示4、詞

j

的鑒別值定義為:DVj=

U

-

U2

1在鑒別值的計(jì)算中,我們不能以詞的頻率為主,而是要關(guān)注詞在文檔集中的分配。在應(yīng)用鑒別值時(shí),就淘汰了功能詞,英語(yǔ)中如,“of”,“to”等。如果一個(gè)詞的區(qū)分值大于零,則用其做標(biāo)引詞會(huì)使文獻(xiàn)間的相似度減少,使文獻(xiàn)空間密度降低,從而使標(biāo)引效率提高,因而設(shè)計(jì)詞權(quán)時(shí)應(yīng)取較大的取值;如果一個(gè)詞的區(qū)分值小于零,則用其做標(biāo)引詞會(huì)使文獻(xiàn)間的相似度增加,使文獻(xiàn)空間密度增大,從而使標(biāo)引效率降低,因而設(shè)計(jì)詞權(quán)時(shí)應(yīng)取較小的權(quán)值。也就是說(shuō),標(biāo)引詞權(quán)重應(yīng)與標(biāo)引詞的區(qū)分值成正比。根據(jù)這一思想的加權(quán)函數(shù)如下:W ij =Fij*DVj詞區(qū)分值加權(quán)標(biāo)引與逆文獻(xiàn)頻率加權(quán)標(biāo)引基本上是一致的。在逆文獻(xiàn)頻率加權(quán)標(biāo)引中,詞的文獻(xiàn)頻率與詞權(quán)有互逆關(guān)系;在詞區(qū)分值加權(quán)標(biāo)引中,詞區(qū)分值與權(quán)值相一致。若詞的文獻(xiàn)頻率高,用其做標(biāo)引詞會(huì)使文獻(xiàn)密度增大,從而使詞區(qū)分值減小;若詞的文獻(xiàn)頻率低,用其做標(biāo)引詞會(huì)使文獻(xiàn)空間密度減小,從而使詞區(qū)分值增大。因此,詞的文獻(xiàn)頻率與詞區(qū)分值有互逆關(guān)系,故詞區(qū)分詞加權(quán)標(biāo)引中的詞權(quán)與文獻(xiàn)頻率存在互逆關(guān)系,或者說(shuō)逆文獻(xiàn)頻率加權(quán)標(biāo)引中的詞權(quán)與詞區(qū)分值相一致。這說(shuō)明兩種標(biāo)引方法在本質(zhì)上是一致的。4.3基于tf*idf 的基本方法tf*idf 是信息檢索中比較著名的方法。 Tf是指詞的頻率, idf 指倒置文檔頻率。通過(guò) tf, 進(jìn)行了詞對(duì)文檔的重要性的測(cè)量,只對(duì)文檔集合中某確定的文檔有意義,通常 , 這個(gè)值是由文檔中的詞的頻率確定的。通過(guò)idf, 來(lái)測(cè)量詞的鑒別性, 是對(duì)整個(gè)文檔集合而言的。 這里, 給出了一些常用的 tf 和idf公式。1、tf=f(t,d), 詞t在文檔d中出現(xiàn)的次數(shù);tf=f(t,d)/MAX[f(t,d)], 在文檔d中特征詞出現(xiàn)的最大次數(shù);tf=log(f(t,d))tf=log(f(t,d)+1)其中,a、詞頻的標(biāo)準(zhǔn)化方法,也稱為 TF的歸一化:將一篇文檔中所有 Term的TF值歸一化到[0,1] 之間。包括:TFiMaximumNormalization:MaxTFii0.5TFi0.5MaxTFiAugmentedMaximumNormalization :

iTFiTFi2CosineNormalization:ib、對(duì)TF進(jìn)行緩沖:1+log(TF),1+log(1+log(TF)),c、Log的作用:將值域拉平,使得函數(shù)的變化更平緩2、idf=log(N/n),其中,N是文檔集中的文檔數(shù),n是包含某個(gè)特征詞的文檔數(shù)。其中,1+log(N/n),是對(duì)DF進(jìn)行緩沖。3、最后,可以在值的計(jì)算中加入一些標(biāo)準(zhǔn)化的處理方式。一種形式的tf*idf的公式如下:tf*idf=[f(t,d)/MAX[f(t,d)]]*log(N/n)對(duì)tf*idf 進(jìn)行歸一化(TFC):TFij*log(N/DFi)tf*idf[TFkj*log(N/DFk)]2k降低TF的作用(LTC):tf*idflog(TFij1.0)*log(N/DFi)[log(TFkj1.0)*log(N/DFk)]2ktf*idf公式綜合考慮了兩個(gè)因素:1.文檔中詞的重要性(tf)。2.詞的鑒別性的重要性(idf).因此,有較高的tf*idf值的詞在文檔中一定是重要的,同時(shí)它一定在其它文檔中出現(xiàn)很少.這就是詞與文檔的重要特征和獨(dú)特性相對(duì)應(yīng)的情況.通過(guò)這樣的公式,可以選擇只保留tf*idf的值超過(guò)規(guī)定的閾值的那些詞作為特征詞。4.4n-gram 索引方法n-gram標(biāo)引法的基本原理是以n字符串為統(tǒng)計(jì)對(duì)象,將其統(tǒng)計(jì)得分賦予該串中心字符,然后選擇包含得分超過(guò)特定閾值字符的單詞或短語(yǔ)作為標(biāo)引詞。n-gram是指n(n 1)個(gè)相鄰字符序列,對(duì)一文本進(jìn)行 n-gram處理 ,可得到該文本所包括的 n長(zhǎng)字符串的集合。如對(duì)COMPUTER進(jìn)行3-gram處理,可得3字母集合{COM,OMP,MPU,PUT,UTE,TER}早在1951年,現(xiàn)代信息論創(chuàng)始人Shannon便用n-gram進(jìn)行文本壓縮的檢驗(yàn)。1979年Burnett、Willet等人將這種方法引入情報(bào)檢索領(lǐng)域。 1995年 Cohen用 n-gram 分析法選 擇被其稱為“最亮 點(diǎn)(Highlights )”的標(biāo)引詞。 Cohen的n-gram標(biāo)引法主要包括以下幾個(gè)步驟:過(guò)濾文獻(xiàn)。無(wú)意義字符如標(biāo)點(diǎn)符號(hào)、數(shù)字等用禁用符號(hào)替換。在過(guò)濾后的文獻(xiàn)中統(tǒng)計(jì)n-gram。考慮一個(gè)長(zhǎng)為S具有符號(hào)s,s,...,ss的文本樣本,給定正整數(shù)n12(典型的n值從3到6),則定義第j個(gè)n-gramgj如下:g=(s-(n-1)/2,sj-(n-1)/2+1,...,sj-(n-1)/2+n-1)jj抽出文本的全部n-gram之后,用一HASH表統(tǒng)計(jì)n-gram。這樣,gj便通過(guò)一容易計(jì)算的HASH函數(shù)k映射到一表地址k(gj)上。經(jīng)過(guò)大量實(shí)驗(yàn),Cohen選擇了下面的HASH函數(shù):n1k(gj)=[k0pkOrd(sj(n1)/2k)]modM其中, p0,p1,...,pn1是不同的大質(zhì)數(shù),M是HASH表規(guī)模,Ord(?)給出了相應(yīng)字符的數(shù)量值。在統(tǒng)計(jì)中如發(fā)現(xiàn)某 n-gram包含禁用符號(hào),則該 n-gram不被統(tǒng)計(jì)。對(duì)文獻(xiàn)中發(fā)現(xiàn)的每個(gè)n-gram,用其計(jì)數(shù)與在“背景文獻(xiàn)”中對(duì)應(yīng)的計(jì)數(shù)比較?!氨尘拔墨I(xiàn)”是同被標(biāo)引文獻(xiàn)有虛構(gòu)聯(lián)系的一組文獻(xiàn)。假定文本樣本由n-gramgj(j=1,2,...,S)組成,計(jì)數(shù)C(ii=1,2,...,N)是等于第i個(gè)可能的n-gram值的{gj}數(shù)。在gj相互獨(dú)立的假設(shè)下,向量C(C1,C2,...,CN)變?yōu)橄旅娴亩囗?xiàng)式:Pr{Cc}f(c|p,S)S!p1c1p2c2...pNcNc1!c2!...cN!其中f是多項(xiàng)式密度,p(p1,p2,...,pN)是潛在概率向量。類似地,“背景文獻(xiàn)”中對(duì)應(yīng)的計(jì)數(shù)B(B1,B2,...BN),總計(jì)數(shù)R=Bi,B的潛在概率向量為q,則:Pr{Bb}f(b|q,R)通過(guò)對(duì)數(shù)線形聯(lián)列表分析,第i個(gè)n-gram的得分i為:i{Ciln(CBi(SCiRBi)S)Biln(R)(SCiRBi)ln(SR)SCiRBi0SCiRBin-gram的得分越高,其特性越強(qiáng)。將n-gramzj(gj)的得分賦予其中心字符,。確定字符得分閾值m12m2,其中m11sSj1zj1sm1)2m2j1(zjS抽取文獻(xiàn)中字符得分超過(guò)閾值的單詞,如果合適的話,將鄰近的單詞抽為短語(yǔ)。這些被抽出的單詞或短語(yǔ)即為文獻(xiàn)標(biāo)引詞(最亮點(diǎn))。每個(gè)被抽出的單詞或短語(yǔ)取其所包含字符得分的平均值為其一種特例得分。將抽出的單詞或短語(yǔ)并入一詞表,累計(jì)其各個(gè)特例得分作為該單詞或短語(yǔ)的總得分。對(duì)詞表按單詞或短語(yǔ)的總分排序并適當(dāng)去除低分詞,便得到標(biāo)引文獻(xiàn)的“最亮點(diǎn)”標(biāo)引詞表。Cohen用此法不僅標(biāo)引了英文文獻(xiàn),而且還標(biāo)引了 西班牙文、德文、格魯吉亞文、俄文、日文,取得了較好的試驗(yàn)結(jié)果。其他計(jì)算方法:P(w1...wi)

P(w1)

P(w2

|w1)

...

P(wi

|w1...wi1)P(wi

|w1...wi1)

P(wi

|wi2wi

1)P(wi2wi1wi) P(wi2) P(wi1|wi2) P(wi|wi2wi1)C(wi2wi1wi)P(wi|wi2wi1)2wi1)C(wi例如:“PartyonPeterChen’sbirthday”,C(partyonPeter)P(Peter|partyon)C(partyon)4.5 統(tǒng)計(jì)學(xué)習(xí)索引法統(tǒng)計(jì)學(xué)習(xí)標(biāo)引法首先通過(guò)學(xué)習(xí)過(guò)程建立候選標(biāo)引詞與對(duì)其標(biāo)引產(chǎn)生正反不同作用的促進(jìn)詞和削弱詞集合之間的關(guān)系,然后由標(biāo)引過(guò)程根據(jù)候選標(biāo)引詞在此關(guān)系中的權(quán)值及其詞頻來(lái)確定其是否作為標(biāo)引詞。這種方法由學(xué)習(xí)和標(biāo)引兩個(gè)過(guò)程組成。4.5.1 學(xué)習(xí)過(guò)程假設(shè)存在 n個(gè)受控標(biāo)引詞 I1,I2,...,I n 和在將處理的文獻(xiàn)中可能出現(xiàn)的 m個(gè)不同的單詞w1,w2,w3,...,w m 。對(duì)一特定標(biāo)引詞 Ij,將實(shí)施由四步組成的學(xué)習(xí)過(guò)程。1)匯集肯定和否定訓(xùn)練(Training)集合對(duì)一特定標(biāo)引詞Ij,一些由Ij標(biāo)引的文獻(xiàn)被匯集起來(lái)(當(dāng)然,這些文獻(xiàn)事先由標(biāo)引員標(biāo)引),這些文獻(xiàn)稱為Ij的肯定訓(xùn)練集合。 同時(shí)一些未被 Ij標(biāo)引的文獻(xiàn)也被匯集起來(lái), 這些文獻(xiàn)稱為 Ij的否定訓(xùn)練集合。(2) 統(tǒng)計(jì)在集合中出現(xiàn)的單詞的詞頻統(tǒng)計(jì)肯定訓(xùn)練集合中的每個(gè)詞,然后將詞頻轉(zhuǎn)為相應(yīng)的 z-score。類似地,在否定集合中的每個(gè)詞亦被統(tǒng)計(jì),其 z-score 也被計(jì)算出來(lái)。通過(guò)這一步,便可得到兩個(gè) z-score 表,此表描述了在 Ij 的肯定訓(xùn)練集合和否定訓(xùn)練集合中的單詞的統(tǒng)計(jì)分布。 z-score 及其他相關(guān)的統(tǒng)計(jì)測(cè)量指標(biāo)定義如下。對(duì)于一列 n個(gè)變量:x1,x2,x3,...,x n平均值=(x1+x2+x3+...+x n)/n方差=((xi平均值)2)/(n-1)標(biāo)準(zhǔn)偏差=(方差)0.5xi的z-score=(xi-平均值)/標(biāo)準(zhǔn)偏差(3)選擇促進(jìn)詞和削弱詞如果一個(gè)詞的出現(xiàn)促進(jìn)了標(biāo)引詞Ij的標(biāo)引,則此詞稱為Ij的促進(jìn)詞。相反地,如果一個(gè)詞的出現(xiàn)削弱了Ij的標(biāo)引,則該詞稱為 Ij的削弱詞。選擇促進(jìn)詞和削弱詞的方法描述如下。促進(jìn)詞選擇IF(一個(gè)在Ij的肯定訓(xùn)練集合中的詞的z-score>閾值)AND(一個(gè)在Ij的否定訓(xùn)練集合中的詞的z-score<閾值)THEN該詞被選為Ij的促進(jìn)詞;詞權(quán)值=在肯定訓(xùn)練集合中的z-score-在否定訓(xùn)練集合中的z-score。削弱詞選擇IF(一個(gè)在Ij的否定訓(xùn)練集合中的詞的z-score>閾值)AND(一個(gè)在Ij的肯定訓(xùn)練集合中的詞的z-score<閾值)THEN該詞被選為Ij的削弱詞;詞權(quán)值=在肯定訓(xùn)練集合中的z-score-在否定訓(xùn)練集合中的z-score。在這一步之后,我們建立了標(biāo)引詞Ij和促進(jìn)詞及削弱詞集合之間的關(guān)系Rj。Rj可用加權(quán)向量描述:R={wj1,w,...,w}jj2jm其中,wjk為在關(guān)系Rj中第k個(gè)詞的權(quán)重,m為肯定及否定訓(xùn)練集合中不同單詞數(shù)。(4)確定兩個(gè)平均標(biāo)引值之間的中值測(cè)量給一文獻(xiàn)賦予標(biāo)引詞Ij的概率的標(biāo)引值計(jì)算如下:(詞在Rj中的權(quán)值)(詞在文獻(xiàn)中的頻率)標(biāo)引值=文獻(xiàn)中詞數(shù)標(biāo)引值越大,標(biāo)引詞Ij賦予文獻(xiàn)的概率越大。但我們需確定一閾值,以便將具有高標(biāo)引值的文獻(xiàn)從低標(biāo)引值文獻(xiàn)中區(qū)分出。這一步驟的目的就是為標(biāo)引詞Ij計(jì)算閾值。在前一步計(jì)算的關(guān)系R基礎(chǔ)上,我們分別計(jì)算肯定訓(xùn)練集合和否定訓(xùn)練集合中的平均標(biāo)引值。這兩個(gè)平j(luò)均標(biāo)引值的中值(表示為Mj)定義如下:肯定訓(xùn)練集合中平均標(biāo)

引值

否定訓(xùn)練集合中平均標(biāo)

引值Mj=

2Mj

將作為閾值來(lái)決定標(biāo)引詞

Ij

是否應(yīng)賦予一文獻(xiàn)。[4]。4.5.2 標(biāo)引過(guò)程經(jīng)過(guò)上述四步學(xué)習(xí)過(guò)程之后,得到關(guān)于標(biāo)引詞FOR(j=1ton)DO

Ij/*

的關(guān)系假設(shè)有

Rj和閾值Mj。標(biāo)引過(guò)程描述如下:n個(gè)可能被確定的標(biāo)引詞 */(詞在Rj中的權(quán)值)(詞在文獻(xiàn)中的頻率)IF文獻(xiàn)中詞數(shù)>MjTHEN標(biāo)引詞Ij賦予文獻(xiàn)ENDIF4.6概率索引法從概率論的角度進(jìn)行文獻(xiàn)自動(dòng)標(biāo)引的方法最初由 Maron和Kuhns于1960年提出,其基本思想事:文獻(xiàn)檢索系統(tǒng)可根據(jù)文獻(xiàn)滿足提問的概率來(lái)估計(jì)輸出文獻(xiàn)并對(duì)其分級(jí)。到目前為止,概率標(biāo)引法所依據(jù)的概率主要有相關(guān)概率,決策概率和出現(xiàn)概率?;谙嚓P(guān)概率的標(biāo)引法一是根據(jù)包含相同標(biāo)引詞的提問與文獻(xiàn)的相關(guān)概率來(lái)標(biāo)引劃分文獻(xiàn),如二值獨(dú)立性標(biāo)引模型;一是根據(jù)具有一定聯(lián)系的文獻(xiàn)之間的相關(guān)概率來(lái)標(biāo)引特定的文獻(xiàn),如基于被引用與引用文獻(xiàn)的標(biāo)引方法。基于決策概率的標(biāo)引方法主要是依據(jù)某標(biāo)引詞賦予某文獻(xiàn)這一決策事件正確的概率來(lái)標(biāo)引文獻(xiàn),如DIA標(biāo)引方法。而 RPI模型則是同時(shí)以 需求一文獻(xiàn)相關(guān)概率和敘詞標(biāo)引文獻(xiàn)正確的決策概率為基礎(chǔ)而構(gòu)造的標(biāo)引方法。基于出現(xiàn)概率的標(biāo)引方法是根據(jù)詞在文獻(xiàn)中的出現(xiàn)頻次所服從的概率分布的特征來(lái)選擇標(biāo)引詞,如2—Poisson模型。這種標(biāo)引方法目前還處于理論階段,具體的標(biāo)引工具還沒有出現(xiàn)。基于語(yǔ)言規(guī)則與內(nèi)容的索引5.1 句法分析標(biāo)引法句法分析法利用計(jì)算機(jī)自動(dòng)分析文本的句法結(jié)構(gòu),鑒別詞在句子中的語(yǔ)法作用和詞間句法關(guān)系,前蘇聯(lián)開發(fā)的自動(dòng)標(biāo)引系統(tǒng)多采用此法。它們一般都借助詞典來(lái)制定詞的語(yǔ)法范疇,以此作為句法分析的基礎(chǔ),最終抽出可做標(biāo)引詞的詞語(yǔ)。句法分析法從文獻(xiàn)的標(biāo)題出發(fā),分析其內(nèi)在結(jié)構(gòu),其假設(shè)是文章的標(biāo)題是可以基本反映文章的主要內(nèi)容。它從語(yǔ)法角度上確定句子中每個(gè)詞的作用(如主語(yǔ)還是謂語(yǔ))和詞之間的相互關(guān)系(如是修飾還是被修飾),并通過(guò)與事先準(zhǔn)備好的解析規(guī)則或語(yǔ)法相比較而實(shí)現(xiàn)。句法分析基于深層結(jié)構(gòu)的標(biāo)引法將文獻(xiàn)標(biāo)題可能反映的主題內(nèi)容歸納為有限的幾種元素基本范疇,并使用簡(jiǎn)潔的句法規(guī)則,減小了句法分析的復(fù)雜性。數(shù)字化指示符和處理碼標(biāo)識(shí)的運(yùn)用更方便了計(jì)算機(jī)的識(shí)別處理。但是這種方法在主題名稱的范疇分析及主題標(biāo)目的選擇等方面需要較多的人工干預(yù),影響了其自動(dòng)標(biāo)引效率。另外,這種方法僅以文獻(xiàn)標(biāo)題為標(biāo)引對(duì)象,雖然主題內(nèi)容容易突出,但標(biāo)題句法形式的規(guī)范性一般較差,增加了句法分析的難度,同時(shí)過(guò)窄的分析范圍容易漏標(biāo)一些相關(guān)主題5.2 語(yǔ)義分析標(biāo)引法語(yǔ)義分析標(biāo)引法通過(guò)分析文本或話語(yǔ)的語(yǔ)義結(jié)構(gòu)來(lái)識(shí)別文獻(xiàn)中那些與主題相關(guān)的詞。這種方法本身受制于語(yǔ)言學(xué)的發(fā)展,而眾所周知的是語(yǔ)言學(xué),尤其是計(jì)算語(yǔ)言學(xué)本身的研究難度,所以目前利用語(yǔ)義分析的方法進(jìn)行標(biāo)引的研究還不多,所能見到的有諸如:潛在語(yǔ)義分析標(biāo)引法、相信函數(shù)模型和語(yǔ)義矢量空間模型等。學(xué)術(shù)界對(duì)從語(yǔ)言學(xué)角度研究自動(dòng)標(biāo)引的做法頗有爭(zhēng)議,反對(duì)者的主要理由包括:語(yǔ)言法的使用限制多、語(yǔ)言學(xué)領(lǐng)域的研究成果對(duì)促進(jìn)自動(dòng)發(fā)展幫助甚微等人工智能索引法人工智能是計(jì)算機(jī)科學(xué)的一個(gè)分支,它專門研究怎樣用機(jī)器理解和模擬人類特有的智能系統(tǒng)的活動(dòng),探索人們?nèi)绾芜\(yùn)用已有的知識(shí)、經(jīng)驗(yàn)和技能去解決問題。實(shí)現(xiàn)自動(dòng)標(biāo)引的目的是讓機(jī)器從事標(biāo)引工作中的腦力勞動(dòng),即讓計(jì)算機(jī)模擬標(biāo)引員完成標(biāo)引文獻(xiàn)的工作,因此,人們把人工智能法運(yùn)用于自動(dòng)標(biāo)引研究既順應(yīng)自然,又帶來(lái)新的活力。人工智能應(yīng)用在標(biāo)引中的具體技術(shù)是專家系統(tǒng),專家系統(tǒng)的知識(shí)表示方法主要有產(chǎn)生式表示法、語(yǔ)義網(wǎng)絡(luò)表示法和框架表示法。采用人工智能法進(jìn)行自動(dòng)標(biāo)引比在相同專業(yè)領(lǐng)域中運(yùn)用其他方法要復(fù)雜,但人工智能法是真正從標(biāo)引員思維的角度模擬標(biāo)引員的標(biāo)引過(guò)程,這顯然比以被標(biāo)引文獻(xiàn)為出發(fā)點(diǎn)的其它自動(dòng)標(biāo)引方法更有希望獲得理想的標(biāo)引效果。其中具有代表性的有:基于產(chǎn)生式表示法的 JAKS系統(tǒng)、基于語(yǔ)義網(wǎng)絡(luò)表示法的 WorldViews、MedIndEx系統(tǒng)和漢語(yǔ)自動(dòng)標(biāo)引專家系統(tǒng) DIES1等。7漢語(yǔ)自動(dòng)索引我國(guó)研究人員 60年代初開始關(guān)注自動(dòng)標(biāo)引的研究動(dòng)向, 70年代末開始探索漢語(yǔ)文獻(xiàn)自動(dòng)標(biāo)引問題,他們?cè)赥K-70計(jì)算機(jī)上建立了一個(gè)試驗(yàn)系統(tǒng),借助詞典對(duì)文獻(xiàn)題名進(jìn)行切分,然后使用一套組詞規(guī)則將切出的小詞組成專指的關(guān)鍵詞輸出 2。比較有代表性的自動(dòng)標(biāo)引系統(tǒng)有基于部件詞典的啟動(dòng)標(biāo)引系統(tǒng)、規(guī)則與詞典的自動(dòng)標(biāo)方法、基于非用字后綴表法的自動(dòng)標(biāo)引等 3。

基于7.1 詞典標(biāo)引法詞典標(biāo)引法是一個(gè)傳統(tǒng)的標(biāo)引法,在目前的 國(guó)內(nèi)自動(dòng)標(biāo)引中應(yīng)用得相當(dāng)普遍。其思想是構(gòu)造 一個(gè)詞典(主題詞典、關(guān)鍵詞典、部件詞典等),然后設(shè)計(jì)各種算法用文獻(xiàn)數(shù)據(jù)去匹配詞典,抽出標(biāo)引詞。但是詞典的構(gòu)造困難,詞典的維護(hù)也需要付出相當(dāng)大的代價(jià),并且是永無(wú)盡頭的。當(dāng)今社 會(huì),經(jīng)濟(jì)和科學(xué)技術(shù)都飛速發(fā)展,新概念、新詞匯層出不窮,詞典法的明顯缺陷就在于學(xué)習(xí)新詞的能力差、設(shè)計(jì)詞1DIES(DocumentIndexingExpertSystem)是北京文獻(xiàn)服務(wù)處開發(fā)的一個(gè)試驗(yàn)系統(tǒng)。DIES系統(tǒng)定義了一些語(yǔ)義特征,如object(對(duì)象)、human(人類)、course(學(xué)科)、operate(操作)等。系統(tǒng)依據(jù)語(yǔ)義特征之間的聯(lián)系和相互作用,構(gòu)成系統(tǒng)的產(chǎn)生式規(guī)則庫(kù)。2蘇新寧.漢語(yǔ)文獻(xiàn)自動(dòng)標(biāo)引綜析.情報(bào)學(xué)報(bào),1993(2):92~993顧敏、史麗萍、李春玲.自動(dòng)標(biāo)引綜述.黑龍江水專學(xué)報(bào),2000(9):103~104善與否直接影響到標(biāo)引質(zhì)量 4。7.2 切分標(biāo)記法切分標(biāo)記法是將能夠斷開句子或表示漢字之間關(guān)系的漢字集合組成切分標(biāo)記機(jī)內(nèi)字典。切分標(biāo)記字典既有用詞首字、詞尾字、不構(gòu)詞的單字或幾種情況的組合來(lái)構(gòu)建的,也有用“非用字”、“條件用字”等來(lái)組成的。當(dāng)原文句子被切分標(biāo)記字典中的漢字構(gòu)詞屬性分割成漢語(yǔ)詞組或短語(yǔ)之后,再按一定的分解模式分割成單詞或?qū)S迷~組。該方法的關(guān)鍵在于詞語(yǔ)切分。吳蔚天、田鶴卿先生提出的實(shí)現(xiàn)漢字科技文獻(xiàn)自動(dòng)標(biāo)引的非用字后綴法是一個(gè)典型的切分標(biāo)記法。該法將漢字用與不用機(jī)械地分為四個(gè)類別:A表外用字、B表內(nèi)用字、C條件用字、D非用字,并根據(jù)這些字的屬性構(gòu)造了一個(gè)字典——非用字后綴表。實(shí)現(xiàn)時(shí),機(jī)器自左至右掃描漢字,逐字對(duì)照非用字后綴表。將用字取出,非用字舍去。切分的原則是有聯(lián)系則取,無(wú)聯(lián)系則斷。該方法在微機(jī)上實(shí)現(xiàn)標(biāo)引,證明其簡(jiǎn)單易行,并能獲得較高的準(zhǔn)確率。7.3 語(yǔ)法分析標(biāo)引法語(yǔ)法分析標(biāo)引法是通過(guò)對(duì)自然語(yǔ)言文法或句型文法的分析來(lái)抽取主題詞加以標(biāo)引由于漢語(yǔ)自然語(yǔ)言文法復(fù)雜,規(guī)則較多,目前還沒有一個(gè)形式化系統(tǒng)能對(duì)漢語(yǔ)文法進(jìn)行描述。但是句型文法分析則相對(duì)容易。如:科技文獻(xiàn)的標(biāo)題和文摘中的句型種類較為有限,如“本文討論了”等,幾乎出現(xiàn)在每一篇文獻(xiàn)中,而這些句子對(duì)自動(dòng)標(biāo)引來(lái)說(shuō)則非常重要,因?yàn)檫@些句型正是表達(dá)文獻(xiàn)主題內(nèi)容的句型。因此可以用句型文法來(lái)描述現(xiàn)代漢語(yǔ),進(jìn)而抽取主題詞進(jìn)行標(biāo)引。7.3.1 漢語(yǔ)文獻(xiàn)標(biāo)引專家系統(tǒng)漢語(yǔ)文獻(xiàn)自動(dòng)標(biāo)引專家系統(tǒng)的基本原理是,根據(jù)一定的抽詞規(guī)則、標(biāo)引規(guī)則和專門知識(shí),

以現(xiàn)有的漢語(yǔ)專業(yè)主題詞表為基礎(chǔ),構(gòu)建概念語(yǔ)義網(wǎng)絡(luò),對(duì)所處理的素材進(jìn)行分析、判斷,選擇和確定標(biāo)引主題詞。漢語(yǔ)自動(dòng)標(biāo)引專家系統(tǒng)是以漢語(yǔ)語(yǔ)義理解為特征的自動(dòng)標(biāo)引系統(tǒng)。 由于漢字構(gòu)詞具有極大的靈活性,漢語(yǔ)詞性缺乏嚴(yán)格的規(guī)定性,漢語(yǔ)詞匯沒有嚴(yán)格的形態(tài)變化,再加上漢語(yǔ)文獻(xiàn)作者使用語(yǔ)言的多樣性和不規(guī)范性,造成同一主題可以有多種表達(dá)方式,一種表達(dá)方式在不同的語(yǔ)境中可以表達(dá)多個(gè)主題。目前已提出的各種漢語(yǔ)自動(dòng)標(biāo)引方法,基本不進(jìn)行語(yǔ)義理解,只從形式上進(jìn)行機(jī)械地匹配抽詞來(lái)完成標(biāo)引,這種語(yǔ)言表層的標(biāo)引方式必然出現(xiàn)標(biāo)引素材與原文主題內(nèi)容不符的局限。 要提高標(biāo)引的準(zhǔn)確性和真實(shí)性,就必須進(jìn)行語(yǔ)義理解,在語(yǔ)言深層實(shí)現(xiàn)標(biāo)引,因此漢語(yǔ)自動(dòng)標(biāo)引專家系統(tǒng)代表了今后漢語(yǔ)自動(dòng)標(biāo)引的發(fā)展方向。但是專家系統(tǒng)中知識(shí)庫(kù)的構(gòu)造和推理機(jī)制的建立具有相當(dāng)大的難度,它的實(shí)際處理技術(shù)與已建立的語(yǔ)義形式化理論還有很大的差距。目前漢語(yǔ)自動(dòng)標(biāo)引專家系統(tǒng)只處在初期的試驗(yàn)階段,遠(yuǎn)未達(dá)到實(shí)用水平。7.3.2 單漢字標(biāo)引法單漢字標(biāo)引法吸收了西文自動(dòng)抽詞標(biāo)引的部分思想,在標(biāo)引時(shí)將概念詞拆成單漢 字,以單漢字為處理單位,利用漢字索引文件實(shí)現(xiàn)自動(dòng)標(biāo)引和邏輯檢索。它完全摒棄了人工的構(gòu)造字典,對(duì)每個(gè)漢字的標(biāo)引完全由計(jì)算機(jī)自動(dòng)進(jìn)行,保存了文獻(xiàn)文本的原貌,因此也就沒有主觀性的成分 5。由于這種方法把對(duì)“詞”的處理改為對(duì)“字”的處理,因此就繞過(guò)了漢字分詞的難題。單漢字標(biāo)引和檢索的基本過(guò)程中,標(biāo)引時(shí)計(jì)算機(jī)對(duì)處理的文本逐一抽字,經(jīng)過(guò)一些處理(如去掉無(wú)意義的虛字)后,建立索引文件。檢索時(shí)輸入的檢索字與索引文件進(jìn)行比較,并做一些邏輯組配,得出檢索結(jié)果。8特征詞的權(quán)重一個(gè)詞所擁有的權(quán)重的衡量是變化多樣的。 它可以用簡(jiǎn)單的發(fā)生頻率來(lái)表示, 或者對(duì)頻率的某種轉(zhuǎn)化 (比如標(biāo)準(zhǔn)化)來(lái)表示。它也可以是一種公式 tf*idf 。多種情況顯示只是簡(jiǎn)單地使用發(fā)生頻率來(lái)衡量詞的頻率,不能取得滿意的性能(即使去掉了功能詞)。通常情況下, tf*idf 的衡量方法取得了比較好的性能。在實(shí)際中,如果采用 tf*idf 的方法來(lái)篩選特征詞,可以將 tf*idf 值作為詞的權(quán)重。這是常用的方法。因此,特征詞的篩選和權(quán)重分配不是兩個(gè)獨(dú)立的處理過(guò)程。8.1 改善方法1:過(guò)濾功能詞某些功能詞,如“ beforehand”,“thus”等,在文章中出現(xiàn)的不是很頻繁。通過(guò)鑒別值和 idf 方法不能濾掉它們。但又不想把它們作為索引詞,因?yàn)樗鼈儧]有實(shí)際意義。為了濾掉這些詞 , 通常使用一個(gè)列表,稱為停止表,它包括不想保留的詞。這些詞通常是介詞(e.g."Of","to" ),副詞("elsewhere","now" ),形容詞( "certain","possible" )等在這個(gè)表中的某些詞不是沒有意義的(取決于領(lǐng)域,在語(yǔ)言學(xué)上它們不是沒有意義的)。只是覺得對(duì)于信息檢索系統(tǒng)它們不是很重要。系統(tǒng)所使用的列表是變化的.這取決于應(yīng)用領(lǐng)域。例如,concrete,adj.具體的n.水泥(建筑學(xué)領(lǐng)域)停止表的使用是非常簡(jiǎn)單的.將出現(xiàn)在文檔中詞,先檢查它是否出現(xiàn)在列表中。如果是,不能將它作為索引詞。8.2 改善方法2:詞形的轉(zhuǎn)換我們注意到許多詞有不同的形式,但它們的意思是相同的或相近的。比如下面的詞在意思上是相近的:transformer,transforme,transforment,transformation,transformateur,這些詞之間形式的不同對(duì)于信息檢索是不利的。對(duì)于關(guān)于“ transform ”的提問,人們希望找到含有“transformation ”的文檔。因此,必須去掉這些詞之間的不同,也就是把這些詞表示成相同的形式。5陳光祚.論單漢字檢索系統(tǒng) .情報(bào)學(xué)報(bào),1992(1):11~1我們注意到,這些詞有相同的詞根。去掉這些詞的結(jié)尾部分,保留根部,它們會(huì)有相同的形式。具體方法如下:1、觀察詞的構(gòu)成,按照詞形來(lái)推理出詞根。這種方法在 Porter算法中被采納。這個(gè)算法包括:?jiǎn)螐?fù)數(shù)的轉(zhuǎn)換,派生詞等。如,在某些形容詞后加入 -ness,happiness, 在動(dòng)詞后加入-able, adjustable 。這個(gè)算法有時(shí)將兩個(gè)不同的詞轉(zhuǎn)換成了相同的詞, 如derivate/derive, activate/active 等。但是,大多數(shù)的轉(zhuǎn)換還是有道理的。把這個(gè)算法

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論