講稿2-索引的建立

上傳人：X*** IP屬地：天津上傳時(shí)間：2023-03-27 格式：DOC 頁(yè)數(shù)：21 大?。?84.50KB 積分：36 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩16頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

二索引的建立1、目的、標(biāo)準(zhǔn)在大量的文檔集中（通常情況下大約為100，000個(gè)文檔以上），為了提高檢索性能和速度,需要找到文檔中比較重要的內(nèi)容并為這些內(nèi)容創(chuàng)建內(nèi)部表示，這些表示形式被稱為索引。為了找到這些內(nèi)容，必須進(jìn)行語(yǔ)義分析來(lái)確定哪些是某一文檔中的概念。對(duì)于IR來(lái)講，這種分析是非常復(fù)雜的也是很難進(jìn)行的。目前存在的技術(shù)，大多限制在某一特別領(lǐng)域。建立索引的目標(biāo)是找出主要內(nèi)容，創(chuàng)建內(nèi)部表示。表示法的選擇應(yīng)考慮下面三個(gè)準(zhǔn)則：精確表示語(yǔ)義涵蓋所有內(nèi)容易于計(jì)算機(jī)處理實(shí)際上，人們更加傾向于研究概念的表示形式。概念表示形式可以是字、詞、詞組等，概念表示形式與精確度關(guān)系如圖 2-1所示。選用詞作為概念的表示形式的想法是很自然的。事實(shí)上，詞是最容易識(shí)別的語(yǔ)言單位，并且，它們也能充分地表達(dá)語(yǔ)義。在現(xiàn)有的系統(tǒng)中，它是最常用的方法。但是，單詞經(jīng)常不能給出專一的描述。例如，“專家系統(tǒng)”，被表示為“專家”和“系統(tǒng)”，失去了一定的精確性。因此，研究者們提出了新的方法，建議將單詞組織起來(lái)形成合成詞，文獻(xiàn)可以由詞和短語(yǔ)聯(lián)合來(lái)描述。研究表明使用中文分詞，按詞索引結(jié)合二元組（bi-gram）索引是檢索效率和效果較優(yōu)的索引綜合考慮方式，通常通過(guò)自動(dòng)分詞來(lái)選擇索引詞。在文檔索引過(guò)程中，先通過(guò)中文自動(dòng)分詞程序的處理，把文檔正文分割成為獨(dú)立的分詞單位，然后在這些分詞單位基礎(chǔ)上選擇索引詞。分詞單位是指具有確定語(yǔ)義或語(yǔ)法功能的基本單位，通常被直接選作索引詞 [7]。涵蓋率精確度(Recall)(Precision)字符串詞合成詞概念圖2-1概念表示形式與精確度關(guān)系文檔集合通常由文檔邏輯視圖來(lái)表示，可以是一組索引詞或關(guān)鍵詞。既可以自動(dòng)提取，也可以是由人主觀指定。索引詞的選取過(guò)程見圖 2-2、2-3所示。首先，對(duì)文本信息進(jìn)行預(yù)處理，預(yù)處理技術(shù)主要包括結(jié)構(gòu)提取、分詞（中文）、詞干提取等，然后選擇特征表示形式和進(jìn)行特征提取，以一定特征項(xiàng)（如詞或詞組）來(lái)代表文檔，在檢索時(shí)只需對(duì)這些特征項(xiàng)進(jìn)行處理。圖2-2 索引詞選取框圖（英文文檔）中文文檔中文切詞停用詞詞或詞組自動(dòng)或手工索引結(jié)構(gòu)識(shí)別結(jié)構(gòu) 索引詞集合圖2-3 索引詞選取框圖（中文文檔）語(yǔ)言學(xué)界、人工智能領(lǐng)域和情報(bào)檢索界的學(xué)者在漢語(yǔ)自動(dòng)分詞與索引的研究與實(shí)踐上進(jìn)行了大量的研究，找到了許多解決漢語(yǔ)分詞的方法。80年代以來(lái)見諸報(bào)端的自動(dòng)分詞方法歸納起來(lái)有:最大匹配法、逆向最大匹配法，逐詞遍歷法、設(shè)立切分標(biāo)志法、最佳匹配法、有窮多層次列舉法、二次掃描法、高頻優(yōu)先分詞法、基于期望的分詞法、聯(lián)想———回溯法、雙向掃描法、鄰接約束法、擴(kuò)棄轉(zhuǎn)移網(wǎng)絡(luò)分詞法、語(yǔ)境相關(guān)法、全自動(dòng)詞典切詞法、基于規(guī)則的分詞法、多遍掃描聯(lián)想法、部件詞典法、鏈接表法、最少分詞詞頻選擇法、專家系統(tǒng)分詞法、基于神經(jīng)網(wǎng)絡(luò)的分詞方法等 22種[3]。由于漢語(yǔ)結(jié)構(gòu)上的復(fù)雜性、切分的模糊性以及語(yǔ)法分析問題等諸多因素的影響，漢語(yǔ)自動(dòng)分詞未能取得重大的實(shí)質(zhì)性突破。這一問題的擱淺直接影響了漢語(yǔ)文獻(xiàn)的自動(dòng)索引及漢語(yǔ)的句法分析與語(yǔ)義分析研究，成為中文自動(dòng)索引研究發(fā)展的瓶頸。如何高效低成本地實(shí)現(xiàn)信息索引是信息檢索領(lǐng)域重要的研究課題。索引從原理上分抽詞索引和賦詞索引，各種方法和技術(shù)以自然語(yǔ)言的規(guī)律為基礎(chǔ)，構(gòu)建在相應(yīng)的數(shù)學(xué)模型上。在這一章中，我們將介紹以單詞和合成詞為表示形式的自動(dòng)索引方法。首先，介紹自動(dòng)索引的基本原理，然后，介紹基于詞匯分布特征的索引方法：統(tǒng)計(jì)標(biāo)引法、n-gram標(biāo)引法和概率標(biāo)引、基于語(yǔ)言規(guī)則與內(nèi)容的索引：句法分析標(biāo)引法、語(yǔ)義分析標(biāo)引法和基于概念的標(biāo)引法、人工智能索引法：知識(shí)產(chǎn)生式表示法、語(yǔ)義網(wǎng)絡(luò)表示法和框架表示法和漢語(yǔ)自動(dòng)索引。其中，重點(diǎn)介紹基于詞匯分布特征的索引方法，其它方法只是簡(jiǎn)單講解，同學(xué)們課后可以查閱相關(guān)的資料，對(duì)每個(gè)方法進(jìn)行總結(jié)，形成介紹性的文章。2、自動(dòng)索引的基本原理2.1自動(dòng)抽詞標(biāo)引原理自動(dòng)抽詞標(biāo)引是指直接從原文中抽取詞或短語(yǔ)作為標(biāo)引詞來(lái)描述文獻(xiàn)主題內(nèi)容的過(guò)程。它涉及如何從原文中抽取能夠表達(dá)其實(shí)質(zhì)意義的詞匯，以及如何根據(jù)這些詞匯確定標(biāo)引詞。1、自動(dòng)抽詞標(biāo)引思路在手工標(biāo)引中，標(biāo)引員總是盡量選擇能較好反映文獻(xiàn)主題的原文詞語(yǔ)。他們的選擇結(jié)果可能要受到一些因素的影響，如詞語(yǔ)在文獻(xiàn)中出現(xiàn)的頻率、詞語(yǔ)出現(xiàn)的位置（標(biāo)題、結(jié)論、插圖說(shuō)明等）及其語(yǔ)境。假定文本以機(jī)器可讀的形式存在，計(jì)算機(jī)程序就可以模仿人，通過(guò)對(duì)文本中詞的頻率、位置和語(yǔ)境標(biāo)準(zhǔn)來(lái)實(shí)施抽詞標(biāo)引。標(biāo)引程序的基本算法是，抽取文本中的詞匯，將詞匯與一個(gè)“禁用詞表”比較，除去各種非實(shí)義詞（冠詞、介詞、連詞等），然后統(tǒng)計(jì)剩下的詞匯的出現(xiàn)頻率，并按其降序排列，排在前面的一些高頻詞被選作文獻(xiàn)的“標(biāo)引詞”。選擇標(biāo)引詞的分界點(diǎn)可根據(jù)下面幾種標(biāo)準(zhǔn)來(lái)確定：詞的絕對(duì)數(shù)、與文本長(zhǎng)度有關(guān)的數(shù)、詞頻超過(guò)一定閾值的詞數(shù) 。更復(fù)雜一些的算法可抽出在文本中經(jīng)常出現(xiàn)的重要短語(yǔ)。文獻(xiàn)因此可以由詞和短語(yǔ)聯(lián)合來(lái)描述，選擇短語(yǔ)的頻率要比選擇重要詞的頻率標(biāo)準(zhǔn)低一些。除了選擇詞和短語(yǔ)，標(biāo)引程序還可以選擇詞根。因此詞根（如“ beat”）可以被選擇并存儲(chǔ)，它代替了多種對(duì)應(yīng)的變體“ beat”、“beating”、和“beated”。取詞根程序可以自動(dòng)去除指定的詞尾，如“ed”、“ing”等。當(dāng)然，詞、短語(yǔ)或詞根都可以給予反映它們?cè)谖墨I(xiàn)中出現(xiàn)頻率的權(quán)重。詞和短語(yǔ)除了根據(jù)頻率抽取之外，還可以通過(guò)與某種機(jī)內(nèi)詞典中“可接受的”詞語(yǔ)相匹配的方式從文本中抽取。2、選取標(biāo)引詞的原則在文本的計(jì)算機(jī)處理中，計(jì)算詞在一篇文獻(xiàn)中出現(xiàn)的頻率并不是唯一的方法（ tf），有時(shí)考察詞在整個(gè)文獻(xiàn)庫(kù)中出現(xiàn)的頻率可能更重要 (df,idf) 。最好的區(qū)分詞（能將一篇文獻(xiàn)與其他文獻(xiàn)區(qū)分開的詞）應(yīng)能保證在非相關(guān)的文獻(xiàn)集合中很少出現(xiàn)或不出現(xiàn)，如“石棉”在圖書館學(xué)文獻(xiàn)中，“圖書館”在石棉公司數(shù)據(jù)庫(kù)中。實(shí)際上，沒有必要計(jì)算詞在整個(gè)文本數(shù)據(jù)庫(kù)中的出現(xiàn)頻數(shù)，而只需計(jì)算詞在倒排文檔中的頻數(shù)即可。除了詞在文獻(xiàn)中出現(xiàn)的絕對(duì)頻率，還可使用相對(duì)頻率方法來(lái)選擇詞語(yǔ)，即選擇那些在一篇文獻(xiàn)中的出現(xiàn)幾率大大高于在整個(gè)文獻(xiàn)庫(kù)中出現(xiàn)幾率的詞和短語(yǔ)。這種方法比絕對(duì)頻率法要復(fù)雜一些，因?yàn)樗枰酪粋€(gè)詞在數(shù)據(jù)庫(kù)中出現(xiàn)頻率，并將該頻率與詞在一特定文獻(xiàn)中的頻率相比較。基于相對(duì)頻率從文獻(xiàn)中抽出的詞和短語(yǔ)集合將不同于基于絕對(duì)頻率得到的集合，但是不是完全不同，許多仍然相同。少數(shù)新詞語(yǔ)將是那些在一特定文獻(xiàn)中很少出現(xiàn)，但是在整個(gè)數(shù)據(jù)庫(kù)中更少出現(xiàn)的詞語(yǔ)，如果一個(gè)詞在一個(gè)有１０００萬(wàn)詞的數(shù)據(jù)庫(kù)中只出現(xiàn)５次，則它盡管在一篇５０００詞的期刊論文中只出現(xiàn)１次，仍然是很重要的，而那些在一篇文獻(xiàn)和整個(gè)數(shù)據(jù)庫(kù)都頻繁出現(xiàn)的詞語(yǔ)（可稱為“泛濫詞”）則要去除。頻率標(biāo)準(zhǔn)還可用其他標(biāo)準(zhǔn)來(lái)補(bǔ)充。例如，Baxendale在１９８５年提出了對(duì)段落主題句抽詞的思想，認(rèn)為只需對(duì)每段文本的第一個(gè)和最后一個(gè)句子進(jìn)行處理。因?yàn)橐豁?xiàng)研究表明，第一個(gè)句子是段落“主題句”的比例為８５％，最后一個(gè)句子也超過(guò)７％。還有許多利用文本中“信息豐富”部分的抽詞標(biāo)引的思路被提出，如利用一下一些元素：文章各級(jí)標(biāo)題，介詞短語(yǔ)、后接入“conclusions”和“summary”的線索詞的文本等等。一般情況下，檢索系統(tǒng)普遍采用全文索引技術(shù)，即網(wǎng)頁(yè)文檔中所有詞都選擇參與索引。在理想情況下，索引詞應(yīng)該是表達(dá)文檔內(nèi)容的語(yǔ)義單位，對(duì)應(yīng)著語(yǔ)言學(xué)里的詞匯詞的概念，它是專門表示含義，而其實(shí)際意義無(wú)法由組合成分相加得到的最小語(yǔ)言單位[7]。2.2 自動(dòng)賦詞標(biāo)引原理賦詞標(biāo)引是指使用預(yù)先編制的詞表中詞來(lái)代替文本中的詞匯進(jìn)行標(biāo)引的過(guò)程，即將反映文本主題內(nèi)容的關(guān)鍵詞（欲用作標(biāo)引的關(guān)鍵詞）轉(zhuǎn)換為詞表中的主題詞（或敘詞等），并用其標(biāo)引的方法。自動(dòng)賦詞標(biāo)引類型主要有以下兩種：1、基于概率的賦詞標(biāo)引Maron于１９７９年提出的概率標(biāo)引模型采用基于相關(guān)概率的賦詞標(biāo)引方法，其標(biāo)引過(guò)程是：選一批樣品文獻(xiàn)，去掉高頻詞和低頻詞，把這些文獻(xiàn)按其主題歸入適當(dāng)?shù)念惸恐?，然后統(tǒng)計(jì)候選關(guān)鍵詞在類目中出現(xiàn)的頻率，再由人工最后確定一個(gè)詞表。標(biāo)引時(shí)用被標(biāo)引文獻(xiàn)中的詞與詞表中的詞進(jìn)行比較，將匹配成功的詞賦予該文獻(xiàn)。DIA(DarmstadtIndexingApproach) 方法則是基于決策概率（某標(biāo)引詞賦予某文獻(xiàn)這一決策事件正確性概率）的一種賦詞標(biāo)引方法。在這種方法中，加權(quán)函數(shù) r（s,t）近似等于將敘詞 s賦給含有詞條 t的文獻(xiàn)的正確性概率 P(c/s,t) 。如果詞條 t在文獻(xiàn)d中被識(shí)別出來(lái)，同時(shí)也符合 r（s,t），則形成從 t 到s的敘詞指引。從文獻(xiàn) d到敘詞s的全部敘詞指引集合稱為 s與d的相關(guān)性描述 y(s,d) 。下面的過(guò)程就是用相關(guān)性描述 y(s,d) 來(lái)估算概率 P(c/y), P(c/y) 是給定相關(guān)性描述 y，敘詞s標(biāo)引文獻(xiàn)d正確的概率。信任函數(shù)模型（BeliefFunctionModel）也屬于概率標(biāo)引模型，它的標(biāo)引過(guò)程是：將被標(biāo)引文獻(xiàn)與一個(gè)具有敘詞集合的受控詞表進(jìn)行比較，對(duì)出現(xiàn)在文獻(xiàn)中的受控詞表的每一敘詞，根據(jù)其出現(xiàn)頻率以及同義詞出現(xiàn)情況定義一個(gè)基本概率數(shù)。基本概率數(shù)大于零的敘詞，便可用于對(duì)具有該詞的文獻(xiàn)進(jìn)行標(biāo)引。2、基于概念的賦詞標(biāo)引基于概念的賦詞標(biāo)引主要是使用概念詞表作為標(biāo)引詞的來(lái)源。 FASIT法就是一種典型的基于概念的賦詞標(biāo)引方法，F(xiàn)ASIT法的實(shí)現(xiàn)過(guò)程是：對(duì)文獻(xiàn)中與其主題相關(guān)的詞或短語(yǔ)賦予一定的句法范疇或幾個(gè)范疇的組合，并給出相應(yīng)的標(biāo)記；然后采用與上下文相關(guān)的消除歧義規(guī)則，消除多重標(biāo)記詞的歧義性；最后利用一個(gè)概念形式詞典進(jìn)行概念選擇，選出的概念經(jīng)規(guī)范化處理后，計(jì)算其與其他概念之間的關(guān)聯(lián)度，進(jìn)而將統(tǒng)一概念進(jìn)行概念歸類，最終以概念類來(lái)標(biāo)引文獻(xiàn)。自動(dòng)標(biāo)引的模型3.1 向量模型文獻(xiàn)的向量空間模型較好地描述了文獻(xiàn)之間的相關(guān)程度，由此確定了文獻(xiàn)空間密度。由于文獻(xiàn)標(biāo)引性能可以從文獻(xiàn)空間密度直接反映出來(lái)，因此這種以文獻(xiàn)向量空間為基礎(chǔ)的抽象描述就構(gòu)成了自動(dòng)標(biāo)引的一種數(shù)學(xué)模型。若用X(a,b)確定二維平面上點(diǎn)X的位置，用為t維文獻(xiàn)空間，則可以用D=(di1,di2,...,ditidij為文獻(xiàn)Di的第j個(gè)標(biāo)引詞的權(quán)值。

X(a,b,c) 表示三維空間中點(diǎn) X的位置，同理，如果 D)表示，其中， Di可以看成是文獻(xiàn)空間 D的第i維向量，1）文獻(xiàn)向量的相關(guān)性有了文獻(xiàn)空間，每一篇文獻(xiàn)在其中都有一個(gè)確定的位置，文獻(xiàn)的空間位置就為我們計(jì)算它們之間的相關(guān)程度提供了途徑。從文獻(xiàn)空間上看，兩篇文獻(xiàn)相關(guān)就是指代表這兩篇文獻(xiàn)的向量靠得很近，具體講就是這兩個(gè)向量的夾角很小。根據(jù)向量代數(shù)中數(shù)量積計(jì)算公式有：a?b |a|?|b|?cos其中，｜a｜,|b| 分別為向量 a和b的模，＝(a,b)為向量a和b的夾角，a?bcos|a|?|b|又設(shè)向量a和b的坐標(biāo)分別為 a＝｛a1,a2,...,a t｝和b＝｛b1,b2,...,b t｝，則：t1aibicosit2t2i1ai?i1bi由余弦函數(shù)的性質(zhì)可知，在［０， 90］上，其余弦值隨其角度變小而增大。這一現(xiàn)象正好反映了文獻(xiàn)空間中某兩篇文獻(xiàn)的相關(guān)程度的大小，即余弦值小，夾角大，則相關(guān)度低；反之，則相關(guān)度高。若余弦值為１，則夾角為零，則兩篇文獻(xiàn)完全重合，即相等。因此，可將兩文獻(xiàn)之間的相關(guān)度 S(Di,Dj)定義為其夾角的余弦值，即S(D,D)＝cos,其中，＝<D,D>為文獻(xiàn)D,D之間的夾角。由于文獻(xiàn)D是ijijiji由相應(yīng)的標(biāo)引詞的權(quán)值來(lái)表示的，即Di=(di1,di2,...,dit),故文獻(xiàn)之間相關(guān)度為：t1dik?djkS(Di,DJ)kt2tk1dik?k1djk2可以設(shè)想，在一個(gè)理想的文獻(xiàn)空間中，滿足用戶情報(bào)需求的文獻(xiàn)應(yīng)是緊緊地聚集在一起。但如果對(duì)一個(gè)給定文獻(xiàn)集合的全部檢索歷史不了解，則很難產(chǎn)生出這種理想空間。因此，為了達(dá)到理想的檢索效果，應(yīng)將文獻(xiàn)空間中的點(diǎn)盡可能地分開，即對(duì)式（ 2-1）求最小值。FnnS(Di,Dj)i1j1j）（2-1）（i式（2-1）的最小值表明空間中文獻(xiàn)之間的相關(guān)性將變得很小，當(dāng)某篇文獻(xiàn)與某個(gè)提問相關(guān)時(shí)，只有這篇文獻(xiàn)被檢索出來(lái)，從而保證了較高的查準(zhǔn)率。但這會(huì)產(chǎn)生兩個(gè)方面的問題：第一，這種將點(diǎn)分開的方式是否基于這樣一個(gè)事實(shí)，即分離文獻(xiàn)空間中的點(diǎn)將導(dǎo)致高檢索效率；反之，高檢索效率必將使得文獻(xiàn)空間中的點(diǎn)彼此分開。第二，式（2-1）的計(jì)算量較大，對(duì)具有 n篇文獻(xiàn)的集合而言，共需計(jì)算 n2 n次。由于上述原因，我們考慮使用聚類文獻(xiàn)空間。在該空間中，文獻(xiàn)按類集中在一起，每個(gè)類由一個(gè)類的矩心C（Centroid）來(lái)表示。給定一個(gè)m篇文獻(xiàn)的集合構(gòu)成的文獻(xiàn)類P，其矩心Cp定義如下：Cp(Cdp1,Cdp2,...,Cdpt)1m1dik其中，Cdpkim（k=1，2，...,t）同理可求出整個(gè)文獻(xiàn)的矩心C*。在未聚類文獻(xiàn)空間中，其空間密度為所有文獻(xiàn)對(duì)相關(guān)度的總和，即式（2-1）的計(jì)算結(jié)果。而聚類文獻(xiàn)的空間密度由式（2-2）給出：nQi1S(C*,Di)*,Di)Di*S(C*其中，C為整個(gè)文獻(xiàn)集合矩心，為文獻(xiàn)與矩心C的相關(guān)度。顯然，式（2-2）只需計(jì)算n次。（2）空間密度與標(biāo)引性能的關(guān)系一個(gè)理想的文獻(xiàn)空間應(yīng)是同類中文獻(xiàn)的相關(guān)度x要大，不同類之間的相關(guān)度y要小。所以y/x可用來(lái)作為測(cè)量文獻(xiàn)空間密度的標(biāo)準(zhǔn)，y/x值大，則空間密度高，反之則空間密度低。文獻(xiàn)空間密度與標(biāo)引性能之間存在著密切聯(lián)系，二者存在互逆性。標(biāo)引性能與空間密度的這種密切關(guān)系構(gòu)成了向量空間自動(dòng)標(biāo)引的理論基礎(chǔ)。3.2 信息模型人工標(biāo)引通常是通過(guò)分析文獻(xiàn)內(nèi)容本身來(lái)確定標(biāo)引詞進(jìn)行標(biāo)引，而自動(dòng)標(biāo)引是利用計(jì)算機(jī)從已有的文獻(xiàn)數(shù)據(jù)庫(kù)（信息系統(tǒng)）中獲取信息來(lái)確定標(biāo)引詞的過(guò)程。兩者的區(qū)別在于從不同的對(duì)象中獲取信息，實(shí)施標(biāo)引的主體不同，但它們的目的都是為了表示信息的主題內(nèi)容。（1）標(biāo)引詞的信息量設(shè)文獻(xiàn)庫(kù)D={d,d2,...,dn}為對(duì)象庫(kù)，稱為外延空間，而標(biāo)引詞庫(kù)T={t,t,...,t}為屬性集，稱112n為內(nèi)涵空間，矩陣R稱為DT上的關(guān)系數(shù)據(jù)庫(kù)：x1(t1)...x1(tm).........R=xn(t1)...xn(tm)R也稱為“對(duì)象-屬性-數(shù)據(jù)”系統(tǒng)，di{xi(t1),...,xi(tm)}。其中：xi(tj)1是d的標(biāo)引ji詞，xi(tj)0表示tj不是di的標(biāo)引詞（i=1,,n;j=1,...,m）.數(shù)據(jù)是一種抽象的數(shù)量概念，數(shù)據(jù)所表示的含義即為信息，信息是對(duì)數(shù)據(jù)的解釋，數(shù)據(jù)是信息的載體，假若對(duì)數(shù)據(jù)賦予某種意義，此數(shù)據(jù)即為信息，故“對(duì)象-屬性-數(shù)據(jù)”系統(tǒng)也稱為信息系統(tǒng)。如數(shù)據(jù)：t (x1(t),...,xn(t)) （t T）表示了“文獻(xiàn)庫(kù) D中的文獻(xiàn)是否具有標(biāo)引詞 t”這樣一條信息。在計(jì)算這種信息的信息量時(shí)，最樸素的思想是信息的外延越大，其內(nèi)涵越弱，信息量越??；反之，信息的外延越窄，其內(nèi)涵越強(qiáng)，信息量越大。定義1：nI(t)i1(1xi(t))（tT）稱I(t)為標(biāo)引詞t的信息量。對(duì)I(t)可以直觀地理解：標(biāo)引詞標(biāo)引文獻(xiàn)的篇數(shù)越多，它的外延對(duì)象越廣，則信息量越??；反之，標(biāo)引詞標(biāo)引文獻(xiàn)的篇數(shù)月少，它的外延對(duì)象越窄，則信息量越大。定義2：1、tt'(x1(t)x1(t'),...,xn(t)xn(t'))，表示“文獻(xiàn)具有標(biāo)引詞t或t’”2、tt'x1(t)x1(t'),...,xn(t)xn(t')，表示“文獻(xiàn)具有標(biāo)引詞t與t’”其中，、是取大、取小運(yùn)算。記(T)為T中元素經(jīng)、運(yùn)算后得到的所有元素的集合，顯然T(T)。稱(T)為廣義標(biāo)引詞庫(kù)。定理1：對(duì)t,t’T，有1、I(tt')I(t),I(tt')I(t')表示“文獻(xiàn)具有標(biāo)引詞t或t’”的信息量小于等于僅含有標(biāo)引詞t或t’的信息量。2、I(tt')I(t)，I(tt')I(t')表示“文獻(xiàn)具有標(biāo)引詞t與t’”的信息量大于等于僅含有標(biāo)引詞t或t’的信息量。3、I(tt')I(t)I(t')I(tt')表示“文獻(xiàn)具有標(biāo)引詞t與t’”的信息量等于兩個(gè)標(biāo)引詞信息量之和減去“文獻(xiàn)具有標(biāo)引詞t或t’”的信息量。（2）推測(cè)標(biāo)引詞在已知文獻(xiàn)具有標(biāo)引詞

t的情況下，可根據(jù)信息提取的思想來(lái)推測(cè)文獻(xiàn)是否具有標(biāo)引詞

t’。I(tt')D(t'/t)（t,t'T）為由標(biāo)引詞t推測(cè)標(biāo)引詞t’的確定率。定義3：稱I(t')從定義3可以看出，在獲得t的信息時(shí)，就可以從t’的信息中提取tt'的信息，故標(biāo)引詞t對(duì)t’的確定率就等于tt'的信息量在t’的信息量中所占的比例，比例越高，確定率越大；反之，比例越低，確定率越小，顯然有0D(t'/t)1成立。我們的目的是從標(biāo)引詞t出發(fā)，對(duì)標(biāo)引詞t’作一推測(cè)。這種推測(cè)不可能都達(dá)到100%的準(zhǔn)確率，只需得到相對(duì)較高的確定率即可。這種推測(cè)是一種或然推理，具有或然性。當(dāng)確定率達(dá)到1時(shí)，就是推斷，即通常的精確推理?；谠~匯分布特征的索引方法基于詞匯分布特征的索引方法依據(jù)下述假設(shè)來(lái)選擇索引詞：某詞在文獻(xiàn)中的出現(xiàn)頻率與該詞的文獻(xiàn)區(qū)分功能有密切關(guān)系。一個(gè)詞（實(shí)詞）在文獻(xiàn)中使用越頻繁，就越有可能是一個(gè)指示主題的詞。通過(guò)對(duì)這些詞語(yǔ)的統(tǒng)計(jì)，求出其中的高頻詞、中頻詞和低頻詞，并使用中等頻率的詞語(yǔ)作為標(biāo)識(shí)文獻(xiàn)的主題詞。除此以外，還可以根據(jù)取詞的不同位置、詞語(yǔ)本身的重要性給每個(gè)詞賦予不同的權(quán)值，使得最終的加權(quán)統(tǒng)計(jì)結(jié)果更加符合實(shí)際情況，更能體現(xiàn)文章的主題 [4]。4.1 基于詞頻的基本方法大量詞頻統(tǒng)計(jì)結(jié)果表明，文章中出現(xiàn)頻率最高的詞匯往往是反映句子語(yǔ)法結(jié)構(gòu)的虛詞，作者重點(diǎn)闡述某主題時(shí)所用的核心詞，其出現(xiàn)頻率通常較高。因此，最高頻詞和低頻詞都不適宜做標(biāo)引詞，只有詞頻介于最高頻和低頻之間的這部分詞匯才適合做標(biāo)引詞。詞頻統(tǒng)計(jì)法的出發(fā)思想是：根據(jù)詞頻統(tǒng)計(jì)結(jié)果，將出現(xiàn)頻率較高并含有實(shí)質(zhì)意義的詞匯作為反映一篇文章主題的有效測(cè)度，這一測(cè)度就確定了標(biāo)引詞的選擇范圍。詞頻統(tǒng)計(jì)法的理論基礎(chǔ)是著名的齊普夫定律（Zipf’sLaw）。齊普夫定律是描述一系列實(shí)際現(xiàn)象的特點(diǎn)非常到位的經(jīng)驗(yàn)定律之一。它認(rèn)為，如果我們按照大小或者流行程度給某個(gè)大集合中的各項(xiàng)進(jìn)行排序，集合中第二項(xiàng)的比重大約是第一項(xiàng)的一半，而第三項(xiàng)的比重大約是第一項(xiàng)的三分之一，以此類推。換句話來(lái)說(shuō)，一般來(lái)講，排在第k位的項(xiàng)目其比重為第一項(xiàng)的1/k。以英語(yǔ)文本的一大段典型內(nèi)容為例，最常見的單詞the通常占所有出現(xiàn)單詞的近7%。排在第二位的詞語(yǔ)：of占所有出現(xiàn)單詞的3.5%，而排在第三位的單詞and占2.8%。換句話說(shuō)，所占比例的順序（7.0、3.5和2.8等）與1/k順序（1/1、1/2、1/3）緊密對(duì)應(yīng)。雖然Zipf最初發(fā)明的定律只是適用于單詞出現(xiàn)頻率的這一現(xiàn)象，但科學(xué)家們發(fā)現(xiàn)，它可以描述極其廣泛的一系列統(tǒng)計(jì)分布，譬如個(gè)人的財(cái)富和收入、城市人口甚至博客讀者數(shù)量[6]。Zipf 第一定律即高頻詞定律可用式（ 7-3）表示：R F=C （7-3）式（7-3）中，R為詞頻等級(jí)數(shù)，F(xiàn)為詞頻，C為常數(shù),例子見表 1。定律描述了文本中高頻詞的出現(xiàn)規(guī)律，而其修正定律即 Zipf 第二定律（低頻詞定律）則描述了低頻詞的出現(xiàn)情況，如式（ 7-4）所示：I1/Inn(n1)/2（7-4）這兩個(gè)完全不同的定律刻畫了文本中詞分布的兩個(gè)極端情況。表1：RankWordFrequencyRank*Frequency1the69971699712of36411728223and28852865564to261491045965a232371161856in213411280467that1059576165按照這個(gè)定律，詞的分配符合下面的曲線（圖 1）：FrequencyRank123圖1詞的頻率和編號(hào)曲線圖顯然，不能將所有詞頻高的詞都作為索引詞?？梢远x另一個(gè)上限閾值

如果某個(gè)詞的頻率超過(guò)這個(gè)閾值，不被當(dāng)作索引詞。這兩個(gè)閾值的使用對(duì)應(yīng)于詞的信息量。信息量是指對(duì)詞所蘊(yùn)含含義的質(zhì)量的測(cè)量。這個(gè)概念在

中的定義不是很精確。只是通過(guò) 直覺來(lái)使用。但是，在信息理論中，我們可以發(fā)現(xiàn)它的等價(jià)物（例如，

Shannon理論或熵）信息量和頻率之間的對(duì)應(yīng)關(guān)系如下：Frequency/Informativityfrequency informativityMax.Min.123 Rank因此，在這兩個(gè)閾值之間選擇詞的時(shí)候，希望獲得信息量被最好地展現(xiàn)出來(lái)的那些詞。早在20世紀(jì)50年代Luhn就在Zipf定律基礎(chǔ)上提出詞頻統(tǒng)計(jì)標(biāo)引方法，其主要步驟是：給定m篇文獻(xiàn)組成的一個(gè)集合，設(shè)第k個(gè)詞在第i篇文獻(xiàn)中發(fā)生的頻率fik。決定該詞在整個(gè)文獻(xiàn)集上的發(fā)生頻率：fkfik按照f(shuō)k的大小將詞降序排列，確定一個(gè)上截止閾值，去掉fk大于上截止閾值的詞，確定一個(gè)下截止閾值，去掉fk小于下截止閾值的詞。剩余的中頻詞用于文獻(xiàn)的標(biāo)引。Goffman在考察了上述兩個(gè)定律之后，認(rèn)為存在一個(gè)詞由高頻行為轉(zhuǎn)為低頻行為的臨界區(qū)（criticalregion），只有處于臨界區(qū)內(nèi)的詞才最適于描述文獻(xiàn)的主題。為確定臨界點(diǎn)，設(shè)低頻詞定律具有高頻詞特征，也就是詞頻為n的詞數(shù)接近于1（In1），即每個(gè)詞具有唯一的級(jí)數(shù)，則式（7-4）變?yōu)椋篒1/In(n1)/2上述整理式為一元二次方程，解此方程保留正平方根，得：n (1 1 8I1)/2求得n之后，以 n為臨界區(qū)的中點(diǎn)，以最高詞頻處為臨界區(qū)的上界，取與 n到上界之間等級(jí)距離相等的另一端為臨界區(qū)的下屆，位于臨界區(qū)內(nèi)的詞經(jīng)過(guò)禁用詞表處理即可選為標(biāo)引詞。4.2 基于鑒別（區(qū)分）值的基本方法鑒別值識(shí)別是指在眾多的文檔中借助某個(gè)詞來(lái)較好地識(shí)別出某個(gè)文檔的方法。也就是說(shuō)，某個(gè)有較高鑒別值的詞一定出現(xiàn)在小數(shù)量的文檔中。出現(xiàn)在大多數(shù)文檔中的詞沒有鑒別力。詞的鑒別值對(duì)于索引詞的選擇是非常重要的。想法是保留那些具有區(qū)別性的詞，淘汰那些沒有鑒別力的詞。鑒別值的計(jì)算在矢量模型中被提出。因此，我們將在下一章中詳細(xì)地介紹這個(gè)模型。在矢量模型中，每個(gè)文檔由加權(quán)的矢量來(lái)表示，例子如下：t 1d<pi1i

2t3tni2pi3pin>其中，pij表示詞tj在文檔di中的權(quán)重。已知一個(gè)文檔集，就有了一個(gè)矩陣。一個(gè)詞的鑒別值的計(jì)算方法如下：1、計(jì)算文檔集的矩心Pj=ΣPij/Ni其中，Pj表示第j個(gè)詞的權(quán)重，Pij 表示在第 i個(gè)文檔中第 j個(gè)詞的權(quán)重2、計(jì)算文檔的空間密度，也就是每個(gè)文檔和文檔集的矩心的相關(guān)性的平均值U=C*

Sim(d,V)1

i其中，

C是標(biāo)準(zhǔn)化常量，常取

C=1/N

，Sim(d,V)

是文檔

和文檔集矩心

V的相關(guān)度。這i

i里，Sim是標(biāo)準(zhǔn)化的公式，它的取值是

，1]（在矢量模型中將給出更多的介紹）3、計(jì)算去掉第

j個(gè)詞后的文獻(xiàn)空間密度，用

U2表示4、詞

的鑒別值定義為：DVj=

1在鑒別值的計(jì)算中，我們不能以詞的頻率為主，而是要關(guān)注詞在文檔集中的分配。在應(yīng)用鑒別值時(shí)，就淘汰了功能詞，英語(yǔ)中如，“of”,“to”等。如果一個(gè)詞的區(qū)分值大于零，則用其做標(biāo)引詞會(huì)使文獻(xiàn)間的相似度減少，使文獻(xiàn)空間密度降低，從而使標(biāo)引效率提高，因而設(shè)計(jì)詞權(quán)時(shí)應(yīng)取較大的取值；如果一個(gè)詞的區(qū)分值小于零，則用其做標(biāo)引詞會(huì)使文獻(xiàn)間的相似度增加，使文獻(xiàn)空間密度增大，從而使標(biāo)引效率降低，因而設(shè)計(jì)詞權(quán)時(shí)應(yīng)取較小的權(quán)值。也就是說(shuō)，標(biāo)引詞權(quán)重應(yīng)與標(biāo)引詞的區(qū)分值成正比。根據(jù)這一思想的加權(quán)函數(shù)如下：W ij =Fij*DVj詞區(qū)分值加權(quán)標(biāo)引與逆文獻(xiàn)頻率加權(quán)標(biāo)引基本上是一致的。在逆文獻(xiàn)頻率加權(quán)標(biāo)引中，詞的文獻(xiàn)頻率與詞權(quán)有互逆關(guān)系；在詞區(qū)分值加權(quán)標(biāo)引中，詞區(qū)分值與權(quán)值相一致。若詞的文獻(xiàn)頻率高，用其做標(biāo)引詞會(huì)使文獻(xiàn)密度增大，從而使詞區(qū)分值減小；若詞的文獻(xiàn)頻率低，用其做標(biāo)引詞會(huì)使文獻(xiàn)空間密度減小，從而使詞區(qū)分值增大。因此，詞的文獻(xiàn)頻率與詞區(qū)分值有互逆關(guān)系，故詞區(qū)分詞加權(quán)標(biāo)引中的詞權(quán)與文獻(xiàn)頻率存在互逆關(guān)系，或者說(shuō)逆文獻(xiàn)頻率加權(quán)標(biāo)引中的詞權(quán)與詞區(qū)分值相一致。這說(shuō)明兩種標(biāo)引方法在本質(zhì)上是一致的。4.3基于tf*idf 的基本方法tf*idf 是信息檢索中比較著名的方法。 Tf是指詞的頻率， idf 指倒置文檔頻率。通過(guò) tf, 進(jìn)行了詞對(duì)文檔的重要性的測(cè)量，只對(duì)文檔集合中某確定的文檔有意義，通常 , 這個(gè)值是由文檔中的詞的頻率確定的。通過(guò)idf, 來(lái)測(cè)量詞的鑒別性，是對(duì)整個(gè)文檔集合而言的。這里, 給出了一些常用的 tf 和idf公式。1、tf=f(t,d), 詞t在文檔d中出現(xiàn)的次數(shù)；tf=f(t,d)/MAX[f(t,d)], 在文檔d中特征詞出現(xiàn)的最大次數(shù)；tf=log(f(t,d))tf=log(f(t,d)+1)其中，a、詞頻的標(biāo)準(zhǔn)化方法，也稱為 TF的歸一化：將一篇文檔中所有 Term的TF值歸一化到[0,1] 之間。包括：TFiMaximumNormalization：MaxTFii0.5TFi0.5MaxTFiAugmentedMaximumNormalization ：

iTFiTFi2CosineNormalization：ib、對(duì)TF進(jìn)行緩沖：1+log(TF),1+log(1+log(TF))，c、Log的作用：將值域拉平，使得函數(shù)的變化更平緩2、idf=log(N/n),其中，N是文檔集中的文檔數(shù)，n是包含某個(gè)特征詞的文檔數(shù)。其中，1+log(N/n)，是對(duì)DF進(jìn)行緩沖。3、最后，可以在值的計(jì)算中加入一些標(biāo)準(zhǔn)化的處理方式。一種形式的tf*idf的公式如下：tf*idf=[f(t,d)/MAX[f(t,d)]]*log(N/n)對(duì)tf*idf 進(jìn)行歸一化（TFC）：TFij*log(N/DFi)tf*idf[TFkj*log(N/DFk)]2k降低TF的作用（LTC）：tf*idflog(TFij1.0)*log(N/DFi)[log(TFkj1.0)*log(N/DFk)]2ktf*idf公式綜合考慮了兩個(gè)因素：1.文檔中詞的重要性（tf）。2.詞的鑒別性的重要性(idf).因此,有較高的tf*idf值的詞在文檔中一定是重要的,同時(shí)它一定在其它文檔中出現(xiàn)很少.這就是詞與文檔的重要特征和獨(dú)特性相對(duì)應(yīng)的情況.通過(guò)這樣的公式,可以選擇只保留tf*idf的值超過(guò)規(guī)定的閾值的那些詞作為特征詞。4.4n-gram 索引方法n-gram標(biāo)引法的基本原理是以n字符串為統(tǒng)計(jì)對(duì)象，將其統(tǒng)計(jì)得分賦予該串中心字符，然后選擇包含得分超過(guò)特定閾值字符的單詞或短語(yǔ)作為標(biāo)引詞。n-gram是指n（n 1）個(gè)相鄰字符序列，對(duì)一文本進(jìn)行 n-gram處理，可得到該文本所包括的 n長(zhǎng)字符串的集合。如對(duì)COMPUTER進(jìn)行3-gram處理，可得3字母集合{COM，OMP，MPU，PUT，UTE，TER}早在1951年，現(xiàn)代信息論創(chuàng)始人Shannon便用n-gram進(jìn)行文本壓縮的檢驗(yàn)。1979年Burnett、Willet等人將這種方法引入情報(bào)檢索領(lǐng)域。 1995年 Cohen用 n-gram 分析法選擇被其稱為“最亮點(diǎn)（Highlights ）”的標(biāo)引詞。 Cohen的n-gram標(biāo)引法主要包括以下幾個(gè)步驟：過(guò)濾文獻(xiàn)。無(wú)意義字符如標(biāo)點(diǎn)符號(hào)、數(shù)字等用禁用符號(hào)替換。在過(guò)濾后的文獻(xiàn)中統(tǒng)計(jì)n-gram。考慮一個(gè)長(zhǎng)為S具有符號(hào)s,s,...,ss的文本樣本，給定正整數(shù)n12（典型的n值從3到6），則定義第j個(gè)n-gramgj如下：g=（s-(n-1)/2,sj-(n-1)/2+1,...,sj-(n-1)/2+n-1）jj抽出文本的全部n-gram之后，用一HASH表統(tǒng)計(jì)n-gram。這樣，gj便通過(guò)一容易計(jì)算的HASH函數(shù)k映射到一表地址k(gj)上。經(jīng)過(guò)大量實(shí)驗(yàn)，Cohen選擇了下面的HASH函數(shù)：n1k(gj)=[k0pkOrd(sj(n1)/2k)]modM其中， p0,p1,...,pn1是不同的大質(zhì)數(shù)，M是HASH表規(guī)模，Ord（?）給出了相應(yīng)字符的數(shù)量值。在統(tǒng)計(jì)中如發(fā)現(xiàn)某 n-gram包含禁用符號(hào)，則該 n-gram不被統(tǒng)計(jì)。對(duì)文獻(xiàn)中發(fā)現(xiàn)的每個(gè)n-gram，用其計(jì)數(shù)與在“背景文獻(xiàn)”中對(duì)應(yīng)的計(jì)數(shù)比較?！氨尘拔墨I(xiàn)”是同被標(biāo)引文獻(xiàn)有虛構(gòu)聯(lián)系的一組文獻(xiàn)。假定文本樣本由n-gramgj(j=1,2,...,S)組成，計(jì)數(shù)C（ii=1，2，...,N）是等于第i個(gè)可能的n-gram值的{gj}數(shù)。在gj相互獨(dú)立的假設(shè)下，向量C(C1,C2,...,CN)變?yōu)橄旅娴亩囗?xiàng)式：Pr{Cc}f(c|p,S)S!p1c1p2c2...pNcNc1!c2!...cN!其中f是多項(xiàng)式密度，p(p1,p2,...,pN)是潛在概率向量。類似地，“背景文獻(xiàn)”中對(duì)應(yīng)的計(jì)數(shù)B(B1,B2,...BN)，總計(jì)數(shù)R=Bi，B的潛在概率向量為q，則：Pr{Bb}f(b|q,R)通過(guò)對(duì)數(shù)線形聯(lián)列表分析，第i個(gè)n-gram的得分i為：i{Ciln(CBi(SCiRBi)S)Biln(R)(SCiRBi)ln(SR)SCiRBi0SCiRBin-gram的得分越高，其特性越強(qiáng)。將n-gramzj(gj)的得分賦予其中心字符，。確定字符得分閾值m12m2，其中m11sSj1zj1sm1)2m2j1(zjS抽取文獻(xiàn)中字符得分超過(guò)閾值的單詞，如果合適的話，將鄰近的單詞抽為短語(yǔ)。這些被抽出的單詞或短語(yǔ)即為文獻(xiàn)標(biāo)引詞（最亮點(diǎn)）。每個(gè)被抽出的單詞或短語(yǔ)取其所包含字符得分的平均值為其一種特例得分。將抽出的單詞或短語(yǔ)并入一詞表，累計(jì)其各個(gè)特例得分作為該單詞或短語(yǔ)的總得分。對(duì)詞表按單詞或短語(yǔ)的總分排序并適當(dāng)去除低分詞，便得到標(biāo)引文獻(xiàn)的“最亮點(diǎn)”標(biāo)引詞表。Cohen用此法不僅標(biāo)引了英文文獻(xiàn)，而且還標(biāo)引了西班牙文、德文、格魯吉亞文、俄文、日文，取得了較好的試驗(yàn)結(jié)果。其他計(jì)算方法：P(w1...wi)

P(w1)

P(w2

|w1)

...

P(wi

|w1...wi1)P(wi

|w1...wi1)

P(wi

|wi2wi

1)P(wi2wi1wi) P(wi2) P(wi1|wi2) P(wi|wi2wi1)C(wi2wi1wi)P(wi|wi2wi1)2wi1)C(wi例如：“PartyonPeterChen’sbirthday”，C(partyonPeter)P(Peter|partyon)C(partyon)4.5 統(tǒng)計(jì)學(xué)習(xí)索引法統(tǒng)計(jì)學(xué)習(xí)標(biāo)引法首先通過(guò)學(xué)習(xí)過(guò)程建立候選標(biāo)引詞與對(duì)其標(biāo)引產(chǎn)生正反不同作用的促進(jìn)詞和削弱詞集合之間的關(guān)系，然后由標(biāo)引過(guò)程根據(jù)候選標(biāo)引詞在此關(guān)系中的權(quán)值及其詞頻來(lái)確定其是否作為標(biāo)引詞。這種方法由學(xué)習(xí)和標(biāo)引兩個(gè)過(guò)程組成。4.5.1 學(xué)習(xí)過(guò)程假設(shè)存在 n個(gè)受控標(biāo)引詞 I1，I2,...,I n 和在將處理的文獻(xiàn)中可能出現(xiàn)的 m個(gè)不同的單詞w1,w2,w3,...,w m 。對(duì)一特定標(biāo)引詞 Ij，將實(shí)施由四步組成的學(xué)習(xí)過(guò)程。1）匯集肯定和否定訓(xùn)練（Training）集合對(duì)一特定標(biāo)引詞Ij,一些由Ij標(biāo)引的文獻(xiàn)被匯集起來(lái)（當(dāng)然，這些文獻(xiàn)事先由標(biāo)引員標(biāo)引），這些文獻(xiàn)稱為Ij的肯定訓(xùn)練集合。同時(shí)一些未被 Ij標(biāo)引的文獻(xiàn)也被匯集起來(lái)，這些文獻(xiàn)稱為 Ij的否定訓(xùn)練集合。（2）統(tǒng)計(jì)在集合中出現(xiàn)的單詞的詞頻統(tǒng)計(jì)肯定訓(xùn)練集合中的每個(gè)詞，然后將詞頻轉(zhuǎn)為相應(yīng)的 z-score。類似地，在否定集合中的每個(gè)詞亦被統(tǒng)計(jì)，其 z-score 也被計(jì)算出來(lái)。通過(guò)這一步，便可得到兩個(gè) z-score 表，此表描述了在 Ij 的肯定訓(xùn)練集合和否定訓(xùn)練集合中的單詞的統(tǒng)計(jì)分布。 z-score 及其他相關(guān)的統(tǒng)計(jì)測(cè)量指標(biāo)定義如下。對(duì)于一列 n個(gè)變量：x1,x2,x3,...,x n平均值=（x1+x2+x3+...+x n）/n方差=（(xi平均值)2）/（n-1）標(biāo)準(zhǔn)偏差=（方差）0.5xi的z-score=（xi-平均值）/標(biāo)準(zhǔn)偏差（3）選擇促進(jìn)詞和削弱詞如果一個(gè)詞的出現(xiàn)促進(jìn)了標(biāo)引詞Ij的標(biāo)引，則此詞稱為Ij的促進(jìn)詞。相反地，如果一個(gè)詞的出現(xiàn)削弱了Ij的標(biāo)引，則該詞稱為 Ij的削弱詞。選擇促進(jìn)詞和削弱詞的方法描述如下。促進(jìn)詞選擇IF（一個(gè)在Ij的肯定訓(xùn)練集合中的詞的z-score>閾值）AND（一個(gè)在Ij的否定訓(xùn)練集合中的詞的z-score<閾值）THEN該詞被選為Ij的促進(jìn)詞；詞權(quán)值=在肯定訓(xùn)練集合中的z-score-在否定訓(xùn)練集合中的z-score。削弱詞選擇IF（一個(gè)在Ij的否定訓(xùn)練集合中的詞的z-score>閾值）AND（一個(gè)在Ij的肯定訓(xùn)練集合中的詞的z-score<閾值）THEN該詞被選為Ij的削弱詞；詞權(quán)值=在肯定訓(xùn)練集合中的z-score-在否定訓(xùn)練集合中的z-score。在這一步之后，我們建立了標(biāo)引詞Ij和促進(jìn)詞及削弱詞集合之間的關(guān)系Rj。Rj可用加權(quán)向量描述：R={wj1,w,...,w}jj2jm其中，wjk為在關(guān)系Rj中第k個(gè)詞的權(quán)重，m為肯定及否定訓(xùn)練集合中不同單詞數(shù)。（4）確定兩個(gè)平均標(biāo)引值之間的中值測(cè)量給一文獻(xiàn)賦予標(biāo)引詞Ij的概率的標(biāo)引值計(jì)算如下：(詞在Rj中的權(quán)值)(詞在文獻(xiàn)中的頻率)標(biāo)引值=文獻(xiàn)中詞數(shù)標(biāo)引值越大，標(biāo)引詞Ij賦予文獻(xiàn)的概率越大。但我們需確定一閾值，以便將具有高標(biāo)引值的文獻(xiàn)從低標(biāo)引值文獻(xiàn)中區(qū)分出。這一步驟的目的就是為標(biāo)引詞Ij計(jì)算閾值。在前一步計(jì)算的關(guān)系R基礎(chǔ)上，我們分別計(jì)算肯定訓(xùn)練集合和否定訓(xùn)練集合中的平均標(biāo)引值。這兩個(gè)平j(luò)均標(biāo)引值的中值（表示為Mj）定義如下：肯定訓(xùn)練集合中平均標(biāo)

引值

否定訓(xùn)練集合中平均標(biāo)

引值Mj=

2Mj

將作為閾值來(lái)決定標(biāo)引詞

是否應(yīng)賦予一文獻(xiàn)。[4]。4.5.2 標(biāo)引過(guò)程經(jīng)過(guò)上述四步學(xué)習(xí)過(guò)程之后，得到關(guān)于標(biāo)引詞FOR(j=1ton)DO

Ij/*

的關(guān)系假設(shè)有

Rj和閾值Mj。標(biāo)引過(guò)程描述如下：n個(gè)可能被確定的標(biāo)引詞 */(詞在Rj中的權(quán)值)(詞在文獻(xiàn)中的頻率)IF文獻(xiàn)中詞數(shù)>MjTHEN標(biāo)引詞Ij賦予文獻(xiàn)ENDIF4.6概率索引法從概率論的角度進(jìn)行文獻(xiàn)自動(dòng)標(biāo)引的方法最初由 Maron和Kuhns于1960年提出，其基本思想事：文獻(xiàn)檢索系統(tǒng)可根據(jù)文獻(xiàn)滿足提問的概率來(lái)估計(jì)輸出文獻(xiàn)并對(duì)其分級(jí)。到目前為止，概率標(biāo)引法所依據(jù)的概率主要有相關(guān)概率，決策概率和出現(xiàn)概率?；谙嚓P(guān)概率的標(biāo)引法一是根據(jù)包含相同標(biāo)引詞的提問與文獻(xiàn)的相關(guān)概率來(lái)標(biāo)引劃分文獻(xiàn)，如二值獨(dú)立性標(biāo)引模型；一是根據(jù)具有一定聯(lián)系的文獻(xiàn)之間的相關(guān)概率來(lái)標(biāo)引特定的文獻(xiàn)，如基于被引用與引用文獻(xiàn)的標(biāo)引方法。基于決策概率的標(biāo)引方法主要是依據(jù)某標(biāo)引詞賦予某文獻(xiàn)這一決策事件正確的概率來(lái)標(biāo)引文獻(xiàn)，如DIA標(biāo)引方法。而 RPI模型則是同時(shí)以需求一文獻(xiàn)相關(guān)概率和敘詞標(biāo)引文獻(xiàn)正確的決策概率為基礎(chǔ)而構(gòu)造的標(biāo)引方法。基于出現(xiàn)概率的標(biāo)引方法是根據(jù)詞在文獻(xiàn)中的出現(xiàn)頻次所服從的概率分布的特征來(lái)選擇標(biāo)引詞，如2—Poisson模型。這種標(biāo)引方法目前還處于理論階段，具體的標(biāo)引工具還沒有出現(xiàn)。基于語(yǔ)言規(guī)則與內(nèi)容的索引5.1 句法分析標(biāo)引法句法分析法利用計(jì)算機(jī)自動(dòng)分析文本的句法結(jié)構(gòu)，鑒別詞在句子中的語(yǔ)法作用和詞間句法關(guān)系，前蘇聯(lián)開發(fā)的自動(dòng)標(biāo)引系統(tǒng)多采用此法。它們一般都借助詞典來(lái)制定詞的語(yǔ)法范疇，以此作為句法分析的基礎(chǔ)，最終抽出可做標(biāo)引詞的詞語(yǔ)。句法分析法從文獻(xiàn)的標(biāo)題出發(fā)，分析其內(nèi)在結(jié)構(gòu)，其假設(shè)是文章的標(biāo)題是可以基本反映文章的主要內(nèi)容。它從語(yǔ)法角度上確定句子中每個(gè)詞的作用(如主語(yǔ)還是謂語(yǔ))和詞之間的相互關(guān)系(如是修飾還是被修飾)，并通過(guò)與事先準(zhǔn)備好的解析規(guī)則或語(yǔ)法相比較而實(shí)現(xiàn)。句法分析基于深層結(jié)構(gòu)的標(biāo)引法將文獻(xiàn)標(biāo)題可能反映的主題內(nèi)容歸納為有限的幾種元素基本范疇，并使用簡(jiǎn)潔的句法規(guī)則，減小了句法分析的復(fù)雜性。數(shù)字化指示符和處理碼標(biāo)識(shí)的運(yùn)用更方便了計(jì)算機(jī)的識(shí)別處理。但是這種方法在主題名稱的范疇分析及主題標(biāo)目的選擇等方面需要較多的人工干預(yù)，影響了其自動(dòng)標(biāo)引效率。另外，這種方法僅以文獻(xiàn)標(biāo)題為標(biāo)引對(duì)象，雖然主題內(nèi)容容易突出，但標(biāo)題句法形式的規(guī)范性一般較差，增加了句法分析的難度，同時(shí)過(guò)窄的分析范圍容易漏標(biāo)一些相關(guān)主題5.2 語(yǔ)義分析標(biāo)引法語(yǔ)義分析標(biāo)引法通過(guò)分析文本或話語(yǔ)的語(yǔ)義結(jié)構(gòu)來(lái)識(shí)別文獻(xiàn)中那些與主題相關(guān)的詞。這種方法本身受制于語(yǔ)言學(xué)的發(fā)展，而眾所周知的是語(yǔ)言學(xué)，尤其是計(jì)算語(yǔ)言學(xué)本身的研究難度，所以目前利用語(yǔ)義分析的方法進(jìn)行標(biāo)引的研究還不多，所能見到的有諸如：潛在語(yǔ)義分析標(biāo)引法、相信函數(shù)模型和語(yǔ)義矢量空間模型等。學(xué)術(shù)界對(duì)從語(yǔ)言學(xué)角度研究自動(dòng)標(biāo)引的做法頗有爭(zhēng)議，反對(duì)者的主要理由包括：語(yǔ)言法的使用限制多、語(yǔ)言學(xué)領(lǐng)域的研究成果對(duì)促進(jìn)自動(dòng)發(fā)展幫助甚微等人工智能索引法人工智能是計(jì)算機(jī)科學(xué)的一個(gè)分支，它專門研究怎樣用機(jī)器理解和模擬人類特有的智能系統(tǒng)的活動(dòng)，探索人們?nèi)绾芜\(yùn)用已有的知識(shí)、經(jīng)驗(yàn)和技能去解決問題。實(shí)現(xiàn)自動(dòng)標(biāo)引的目的是讓機(jī)器從事標(biāo)引工作中的腦力勞動(dòng)，即讓計(jì)算機(jī)模擬標(biāo)引員完成標(biāo)引文獻(xiàn)的工作，因此，人們把人工智能法運(yùn)用于自動(dòng)標(biāo)引研究既順應(yīng)自然，又帶來(lái)新的活力。人工智能應(yīng)用在標(biāo)引中的具體技術(shù)是專家系統(tǒng)，專家系統(tǒng)的知識(shí)表示方法主要有產(chǎn)生式表示法、語(yǔ)義網(wǎng)絡(luò)表示法和框架表示法。采用人工智能法進(jìn)行自動(dòng)標(biāo)引比在相同專業(yè)領(lǐng)域中運(yùn)用其他方法要復(fù)雜，但人工智能法是真正從標(biāo)引員思維的角度模擬標(biāo)引員的標(biāo)引過(guò)程，這顯然比以被標(biāo)引文獻(xiàn)為出發(fā)點(diǎn)的其它自動(dòng)標(biāo)引方法更有希望獲得理想的標(biāo)引效果。其中具有代表性的有：基于產(chǎn)生式表示法的 JAKS系統(tǒng)、基于語(yǔ)義網(wǎng)絡(luò)表示法的 WorldViews、MedIndEx系統(tǒng)和漢語(yǔ)自動(dòng)標(biāo)引專家系統(tǒng) DIES1等。7漢語(yǔ)自動(dòng)索引我國(guó)研究人員 60年代初開始關(guān)注自動(dòng)標(biāo)引的研究動(dòng)向， 70年代末開始探索漢語(yǔ)文獻(xiàn)自動(dòng)標(biāo)引問題，他們?cè)赥K-70計(jì)算機(jī)上建立了一個(gè)試驗(yàn)系統(tǒng)，借助詞典對(duì)文獻(xiàn)題名進(jìn)行切分，然后使用一套組詞規(guī)則將切出的小詞組成專指的關(guān)鍵詞輸出 2。比較有代表性的自動(dòng)標(biāo)引系統(tǒng)有基于部件詞典的啟動(dòng)標(biāo)引系統(tǒng)、規(guī)則與詞典的自動(dòng)標(biāo)方法、基于非用字后綴表法的自動(dòng)標(biāo)引等 3。

基于7.1 詞典標(biāo)引法詞典標(biāo)引法是一個(gè)傳統(tǒng)的標(biāo)引法，在目前的國(guó)內(nèi)自動(dòng)標(biāo)引中應(yīng)用得相當(dāng)普遍。其思想是構(gòu)造一個(gè)詞典（主題詞典、關(guān)鍵詞典、部件詞典等），然后設(shè)計(jì)各種算法用文獻(xiàn)數(shù)據(jù)去匹配詞典，抽出標(biāo)引詞。但是詞典的構(gòu)造困難，詞典的維護(hù)也需要付出相當(dāng)大的代價(jià)，并且是永無(wú)盡頭的。當(dāng)今社會(huì)，經(jīng)濟(jì)和科學(xué)技術(shù)都飛速發(fā)展，新概念、新詞匯層出不窮，詞典法的明顯缺陷就在于學(xué)習(xí)新詞的能力差、設(shè)計(jì)詞1DIES(DocumentIndexingExpertSystem)是北京文獻(xiàn)服務(wù)處開發(fā)的一個(gè)試驗(yàn)系統(tǒng)。DIES系統(tǒng)定義了一些語(yǔ)義特征,如object(對(duì)象)、human(人類)、course(學(xué)科)、operate(操作)等。系統(tǒng)依據(jù)語(yǔ)義特征之間的聯(lián)系和相互作用,構(gòu)成系統(tǒng)的產(chǎn)生式規(guī)則庫(kù)。2蘇新寧.漢語(yǔ)文獻(xiàn)自動(dòng)標(biāo)引綜析.情報(bào)學(xué)報(bào)，1993（2）：92～993顧敏、史麗萍、李春玲.自動(dòng)標(biāo)引綜述.黑龍江水專學(xué)報(bào)，2000（9）：103～104善與否直接影響到標(biāo)引質(zhì)量 4。7.2 切分標(biāo)記法切分標(biāo)記法是將能夠斷開句子或表示漢字之間關(guān)系的漢字集合組成切分標(biāo)記機(jī)內(nèi)字典。切分標(biāo)記字典既有用詞首字、詞尾字、不構(gòu)詞的單字或幾種情況的組合來(lái)構(gòu)建的，也有用“非用字”、“條件用字”等來(lái)組成的。當(dāng)原文句子被切分標(biāo)記字典中的漢字構(gòu)詞屬性分割成漢語(yǔ)詞組或短語(yǔ)之后，再按一定的分解模式分割成單詞或?qū)Ｓ迷~組。該方法的關(guān)鍵在于詞語(yǔ)切分。吳蔚天、田鶴卿先生提出的實(shí)現(xiàn)漢字科技文獻(xiàn)自動(dòng)標(biāo)引的非用字后綴法是一個(gè)典型的切分標(biāo)記法。該法將漢字用與不用機(jī)械地分為四個(gè)類別：A表外用字、B表內(nèi)用字、C條件用字、D非用字，并根據(jù)這些字的屬性構(gòu)造了一個(gè)字典——非用字后綴表。實(shí)現(xiàn)時(shí)，機(jī)器自左至右掃描漢字，逐字對(duì)照非用字后綴表。將用字取出，非用字舍去。切分的原則是有聯(lián)系則取，無(wú)聯(lián)系則斷。該方法在微機(jī)上實(shí)現(xiàn)標(biāo)引，證明其簡(jiǎn)單易行，并能獲得較高的準(zhǔn)確率。7.3 語(yǔ)法分析標(biāo)引法語(yǔ)法分析標(biāo)引法是通過(guò)對(duì)自然語(yǔ)言文法或句型文法的分析來(lái)抽取主題詞加以標(biāo)引由于漢語(yǔ)自然語(yǔ)言文法復(fù)雜，規(guī)則較多，目前還沒有一個(gè)形式化系統(tǒng)能對(duì)漢語(yǔ)文法進(jìn)行描述。但是句型文法分析則相對(duì)容易。如：科技文獻(xiàn)的標(biāo)題和文摘中的句型種類較為有限，如“本文討論了”等，幾乎出現(xiàn)在每一篇文獻(xiàn)中，而這些句子對(duì)自動(dòng)標(biāo)引來(lái)說(shuō)則非常重要，因?yàn)檫@些句型正是表達(dá)文獻(xiàn)主題內(nèi)容的句型。因此可以用句型文法來(lái)描述現(xiàn)代漢語(yǔ)，進(jìn)而抽取主題詞進(jìn)行標(biāo)引。7.3.1 漢語(yǔ)文獻(xiàn)標(biāo)引專家系統(tǒng)漢語(yǔ)文獻(xiàn)自動(dòng)標(biāo)引專家系統(tǒng)的基本原理是，根據(jù)一定的抽詞規(guī)則、標(biāo)引規(guī)則和專門知識(shí)，

以現(xiàn)有的漢語(yǔ)專業(yè)主題詞表為基礎(chǔ)，構(gòu)建概念語(yǔ)義網(wǎng)絡(luò)，對(duì)所處理的素材進(jìn)行分析、判斷，選擇和確定標(biāo)引主題詞。漢語(yǔ)自動(dòng)標(biāo)引專家系統(tǒng)是以漢語(yǔ)語(yǔ)義理解為特征的自動(dòng)標(biāo)引系統(tǒng)。由于漢字構(gòu)詞具有極大的靈活性，漢語(yǔ)詞性缺乏嚴(yán)格的規(guī)定性，漢語(yǔ)詞匯沒有嚴(yán)格的形態(tài)變化，再加上漢語(yǔ)文獻(xiàn)作者使用語(yǔ)言的多樣性和不規(guī)范性，造成同一主題可以有多種表達(dá)方式，一種表達(dá)方式在不同的語(yǔ)境中可以表達(dá)多個(gè)主題。目前已提出的各種漢語(yǔ)自動(dòng)標(biāo)引方法，基本不進(jìn)行語(yǔ)義理解，只從形式上進(jìn)行機(jī)械地匹配抽詞來(lái)完成標(biāo)引，這種語(yǔ)言表層的標(biāo)引方式必然出現(xiàn)標(biāo)引素材與原文主題內(nèi)容不符的局限。要提高標(biāo)引的準(zhǔn)確性和真實(shí)性，就必須進(jìn)行語(yǔ)義理解，在語(yǔ)言深層實(shí)現(xiàn)標(biāo)引，因此漢語(yǔ)自動(dòng)標(biāo)引專家系統(tǒng)代表了今后漢語(yǔ)自動(dòng)標(biāo)引的發(fā)展方向。但是專家系統(tǒng)中知識(shí)庫(kù)的構(gòu)造和推理機(jī)制的建立具有相當(dāng)大的難度，它的實(shí)際處理技術(shù)與已建立的語(yǔ)義形式化理論還有很大的差距。目前漢語(yǔ)自動(dòng)標(biāo)引專家系統(tǒng)只處在初期的試驗(yàn)階段，遠(yuǎn)未達(dá)到實(shí)用水平。7.3.2 單漢字標(biāo)引法單漢字標(biāo)引法吸收了西文自動(dòng)抽詞標(biāo)引的部分思想，在標(biāo)引時(shí)將概念詞拆成單漢字，以單漢字為處理單位，利用漢字索引文件實(shí)現(xiàn)自動(dòng)標(biāo)引和邏輯檢索。它完全摒棄了人工的構(gòu)造字典，對(duì)每個(gè)漢字的標(biāo)引完全由計(jì)算機(jī)自動(dòng)進(jìn)行，保存了文獻(xiàn)文本的原貌，因此也就沒有主觀性的成分 5。由于這種方法把對(duì)“詞”的處理改為對(duì)“字”的處理，因此就繞過(guò)了漢字分詞的難題。單漢字標(biāo)引和檢索的基本過(guò)程中，標(biāo)引時(shí)計(jì)算機(jī)對(duì)處理的文本逐一抽字，經(jīng)過(guò)一些處理（如去掉無(wú)意義的虛字）后，建立索引文件。檢索時(shí)輸入的檢索字與索引文件進(jìn)行比較，并做一些邏輯組配，得出檢索結(jié)果。8特征詞的權(quán)重一個(gè)詞所擁有的權(quán)重的衡量是變化多樣的。它可以用簡(jiǎn)單的發(fā)生頻率來(lái)表示，或者對(duì)頻率的某種轉(zhuǎn)化（比如標(biāo)準(zhǔn)化）來(lái)表示。它也可以是一種公式 tf*idf 。多種情況顯示只是簡(jiǎn)單地使用發(fā)生頻率來(lái)衡量詞的頻率，不能取得滿意的性能（即使去掉了功能詞）。通常情況下， tf*idf 的衡量方法取得了比較好的性能。在實(shí)際中，如果采用 tf*idf 的方法來(lái)篩選特征詞，可以將 tf*idf 值作為詞的權(quán)重。這是常用的方法。因此，特征詞的篩選和權(quán)重分配不是兩個(gè)獨(dú)立的處理過(guò)程。8.1 改善方法1：過(guò)濾功能詞某些功能詞，如“ beforehand”，“thus”等，在文章中出現(xiàn)的不是很頻繁。通過(guò)鑒別值和 idf 方法不能濾掉它們。但又不想把它們作為索引詞，因?yàn)樗鼈儧]有實(shí)際意義。為了濾掉這些詞 , 通常使用一個(gè)列表，稱為停止表，它包括不想保留的詞。這些詞通常是介詞（e.g."Of","to" ），副詞（"elsewhere","now" ），形容詞（ "certain","possible" ）等在這個(gè)表中的某些詞不是沒有意義的（取決于領(lǐng)域，在語(yǔ)言學(xué)上它們不是沒有意義的）。只是覺得對(duì)于信息檢索系統(tǒng)它們不是很重要。系統(tǒng)所使用的列表是變化的.這取決于應(yīng)用領(lǐng)域。例如，concrete,adj.具體的n.水泥（建筑學(xué)領(lǐng)域）停止表的使用是非常簡(jiǎn)單的.將出現(xiàn)在文檔中詞，先檢查它是否出現(xiàn)在列表中。如果是，不能將它作為索引詞。8.2 改善方法2：詞形的轉(zhuǎn)換我們注意到許多詞有不同的形式，但它們的意思是相同的或相近的。比如下面的詞在意思上是相近的：transformer,transforme,transforment,transformation,transformateur,這些詞之間形式的不同對(duì)于信息檢索是不利的。對(duì)于關(guān)于“ transform ”的提問，人們希望找到含有“transformation ”的文檔。因此，必須去掉這些詞之間的不同，也就是把這些詞表示成相同的形式。5陳光祚.論單漢字檢索系統(tǒng) .情報(bào)學(xué)報(bào)，1992（1）：11～1我們注意到，這些詞有相同的詞根。去掉這些詞的結(jié)尾部分，保留根部，它們會(huì)有相同的形式。具體方法如下：1、觀察詞的構(gòu)成，按照詞形來(lái)推理出詞根。這種方法在 Porter算法中被采納。這個(gè)算法包括：?jiǎn)螐?fù)數(shù)的轉(zhuǎn)換，派生詞等。如，在某些形容詞后加入 -ness，happiness, 在動(dòng)詞后加入-able, adjustable 。這個(gè)算法有時(shí)將兩個(gè)不同的詞轉(zhuǎn)換成了相同的詞，如derivate/derive, activate/active 等。但是，大多數(shù)的轉(zhuǎn)換還是有道理的。把這個(gè)算法

人人文庫(kù)> 全部分類> 行業(yè)資料 > 管理策劃

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

講稿2-索引的建立

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

講稿2-索引的建立

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔