專利文獻關(guān)鍵詞提取方法研究_第1頁
專利文獻關(guān)鍵詞提取方法研究_第2頁
專利文獻關(guān)鍵詞提取方法研究_第3頁
專利文獻關(guān)鍵詞提取方法研究_第4頁
專利文獻關(guān)鍵詞提取方法研究_第5頁
已閱讀5頁,還剩1頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

專利文獻關(guān)鍵詞提取方法研究

0專利文獻關(guān)鍵詞抽取研究現(xiàn)狀知識產(chǎn)權(quán)關(guān)鍵詞對于知識產(chǎn)權(quán)文獻非常重要,是所有知識產(chǎn)權(quán)文件的高度概括。通過閱讀專利文獻的關(guān)鍵詞,可以快速地了解一篇專利文獻要表達(dá)的主旨。關(guān)鍵詞比摘要更簡練,它是專利文獻分類、聚類、索引和自動文摘的基礎(chǔ)。隨著社會的發(fā)展,人工選擇關(guān)鍵詞已經(jīng)暴露出它的不足:首先,由于標(biāo)引人員自身的知識和經(jīng)驗不同,對同一篇專利文獻不同標(biāo)引人員所標(biāo)識的關(guān)鍵詞存在不一致性;其次,隨著科技的進步和人類知識的不斷豐富,專利文獻數(shù)量急劇增長,采用人工標(biāo)引方式在速度上無法滿足標(biāo)引的需要。采用自動的方式進行關(guān)鍵詞抽取不僅提取的標(biāo)準(zhǔn)統(tǒng)一,而且標(biāo)引速度快,能夠讓人們從繁鎖的工作中得到解放。因此,研究專利文獻關(guān)鍵詞提取具有重要的應(yīng)用價值。關(guān)鍵詞抽取研究在國外起步比較早,Turney利用遺傳算法和C4.5決策樹機器學(xué)習(xí)算法設(shè)計的GenEx算法進行了關(guān)鍵短語抽取,表明GenExt算法比單純的C4.5決策樹學(xué)習(xí)算法效果要好。Written利用詞典的方法獲取候選關(guān)鍵詞,然后利用貝葉斯方法對關(guān)鍵詞進行選擇,構(gòu)建的KEA系統(tǒng)簡單、魯棒性強,具有很好的應(yīng)用性。Hulth選取語言學(xué)規(guī)則應(yīng)用到機器學(xué)習(xí)方法中,提取學(xué)術(shù)論文摘要中的關(guān)鍵詞,關(guān)鍵詞的召回率達(dá)到了66%,取得了很大進步。國內(nèi)也有大批學(xué)者聚焦于關(guān)鍵詞抽取研究。主要方法包括:基于PATTree結(jié)構(gòu)獲取新詞的方法、基于機器學(xué)習(xí)的方法、基于已標(biāo)引語料方法、基于知識庫的方法和基于統(tǒng)計的方法。其中代表性的工作有:YangWen-Feng基于PATTree結(jié)構(gòu)獲取新詞,并采用互信息等統(tǒng)計方法對文獻的關(guān)鍵詞進行標(biāo)引;李素建等設(shè)計采用最大熵模型自動抽取關(guān)鍵詞,但由于特征選擇及特征參數(shù)估計不易選定,造成關(guān)鍵詞自動抽取應(yīng)用不夠理想;王軍從已標(biāo)引的結(jié)構(gòu)化語料庫中元數(shù)據(jù)的標(biāo)題內(nèi)抽取關(guān)鍵詞,正確率較高;索紅光等提出用《知網(wǎng)》知識庫構(gòu)建詞匯鏈的方法抽取關(guān)鍵詞,但由于《知網(wǎng)》詞數(shù)的局限性,只能對《知網(wǎng)》中存在的詞條進行抽取;謝晉采用基于詞跨度的方法提取關(guān)鍵詞,但是對于部分關(guān)鍵詞出現(xiàn)比較集中的情況不太適用;李靜月等采用改進TF-IDF算法提取網(wǎng)頁關(guān)鍵詞,由于需要通過在線輸入相關(guān)文獻關(guān)鍵詞獲取與文本相關(guān)的內(nèi)容,所以提取效率相對較差;馬力等提出基于小世界模型的方法提取關(guān)鍵詞的方法,對文檔語義的理解達(dá)到了更好的層面?,F(xiàn)有的方法很少專門針對專利文獻進行關(guān)鍵詞抽取,本文從專利文獻特點出發(fā),在現(xiàn)有方法的基礎(chǔ)上,在去除公共詞后,提出綜合運用詞頻、區(qū)域特征、詞素加權(quán)和并列懲罰函數(shù)計算詞語對主題的影響度,根據(jù)影響度大小最終確定專利文獻的關(guān)鍵詞,提高了關(guān)鍵詞抽取的準(zhǔn)確率。1同構(gòu)建并列結(jié)構(gòu)的詞對不同種類的關(guān)鍵詞抽取專利文獻雖然數(shù)量眾多,但它們存在一些共同的特征:文獻中出現(xiàn)頻次較高的詞成為關(guān)鍵詞的可能性較大;出現(xiàn)在專利文獻中的“標(biāo)題”部分和“技術(shù)領(lǐng)域(摘要)”部分中的詞語,成為關(guān)鍵詞的可能性較大。專利文獻屬于科技文獻,它除了具有一般文獻的特征外,還具有其固有的特征,經(jīng)過對專利文獻的分析,其特點如下:a.專利文獻中存在著大量的并列結(jié)構(gòu),并列結(jié)構(gòu)中的詞一般是對文獻主題的側(cè)面描述,不能直接作為關(guān)鍵詞,而這類詞語出現(xiàn)的頻次較高,這會對準(zhǔn)確抽取關(guān)鍵詞產(chǎn)生較大影響。如:一種汽車防光耀眼屏,其特征在于包括分別連接在遮陽板上的表面設(shè)置遮光塊的LCD光閥陣列、LCD驅(qū)動器……所述光電傳感器、聚焦光學(xué)鏡頭和LCD光閥陣列同一朝向布置……操作鍵盤與綜合處理CPU的矩陣IN端電連接,綜合處理器CPU與LCD驅(qū)動器電連接,LCD驅(qū)動器與LCD光閥陣列電連接,電源電路包括電源插座和一個分別為感光陣列、綜合處理器CPU、LCD光閥驅(qū)動、光電傳感器和操作鍵盤供電的供電電路。在上例中,顯然“汽車”、“防光耀眼屏”是本專利的關(guān)鍵詞,而在后文的并列結(jié)構(gòu)中“LCD光閥陣列”、“LCD驅(qū)動器”等詞語出現(xiàn)的頻次遠(yuǎn)高于關(guān)鍵詞“汽車”、“防光耀眼屏”出現(xiàn)的頻次。本文通過對617篇汽車相關(guān)專利進行統(tǒng)計發(fā)現(xiàn),其中有616篇含有并列結(jié)構(gòu);在這617篇專利文獻中的總詞數(shù)是437184個,出現(xiàn)在“、”、“和”、“與”并列結(jié)構(gòu)中的總詞數(shù)為167597個,占文獻總詞數(shù)的38.33%。因此,在關(guān)鍵詞抽取的過程中,需要對并列結(jié)構(gòu)中的詞進行特殊處理,以降低出現(xiàn)在并列結(jié)構(gòu)中詞語的權(quán)值,減少并列結(jié)構(gòu)對關(guān)鍵詞抽取的影響。b.專利文獻通常會出現(xiàn)大量的自組詞,這些自組詞之間往往具有相同的詞素(意思或語法功能的最小單位。/view/377642.htm),而具有相同詞素的詞或詞組之間,絕大多數(shù)在意義上存在某種聯(lián)系。同時,自組詞都是經(jīng)過精心挑選組合的,它們成為關(guān)鍵詞的可能性相對較大。如:“外轉(zhuǎn)子直流電動機”“內(nèi)轉(zhuǎn)子直流電動機”具有相同詞素“轉(zhuǎn)子”“直流”“電動機”。在上述例子中,在同一篇文章中,如果只考慮詞本身,上述兩個詞被識別為關(guān)鍵詞的可能性將偏低。因此,在提取關(guān)鍵詞的過程中不能忽略相同詞素對不同詞之間的影響,需要在進行加權(quán)計算過程中對具有相同詞素的詞進行特殊的處理,以提高兩個詞的權(quán)值。2tf-idf相關(guān)領(lǐng)域公共詞的領(lǐng)域區(qū)分在專利文獻中,有一類詞,它在多個領(lǐng)域中都出現(xiàn),對領(lǐng)域的主題區(qū)分性不高,本文將這類詞稱為公共詞。雖然公共詞在單一領(lǐng)域內(nèi)出現(xiàn)的頻次較高,但不具有主題區(qū)分性,所以如果單純按照出現(xiàn)頻次來確定是否為關(guān)鍵詞,那么公共詞的存在會給關(guān)鍵詞抽取準(zhǔn)確性帶來影響。提取關(guān)鍵詞之前,為了減少公共詞對提取專利關(guān)鍵詞的影響,本文基于TF-IDF提出了公共詞抽取算法,并提出在去除公共詞基礎(chǔ)之上的關(guān)鍵詞提取方法。TFIDF的主要思想是:如果某個詞或短語在一篇文章中出現(xiàn)的頻率TF高,并且在其他文檔中很少出現(xiàn),則認(rèn)為該詞或該短語是關(guān)鍵詞的概率比較大,其計算方法公式為:其中,tfik為特征詞頻率;idfk稱為逆文檔頻率;nij是該特征詞在文檔dj中的出現(xiàn)次數(shù);|D|:語料庫中的所有文檔的總條數(shù);{j:termi∈dj}:包含特征詞termi的文檔數(shù)目(即nij≠0的文檔數(shù)目),weight(Tij)為特征Tij在文檔dj中的TF-IDF值。對TF-IDF算法的定義進行分析可知,對于計算某一領(lǐng)域內(nèi)TF-IDF值較低的詞語一般可劃分為兩類:一類在某一領(lǐng)域分布比較廣,但在其它領(lǐng)域內(nèi)出現(xiàn)較少或不出現(xiàn),這類詞語可以作為該領(lǐng)域的特征詞,具有一定的領(lǐng)域區(qū)分能力;另一類是各個文檔中出現(xiàn)次數(shù)均較多的詞,并且在各個領(lǐng)域里均具有較高的出現(xiàn)頻次,也即公共詞,它們的領(lǐng)域區(qū)分能力較弱。因此,去除公共詞對識別領(lǐng)域的關(guān)鍵詞具有非常重要的作用。根據(jù)以上分析,本文提出兩領(lǐng)域間公共詞計算公式:其中,a、b表示兩個領(lǐng)域;w表示目標(biāo)詞;n、k依次表示領(lǐng)域a和b中文獻總數(shù);δ表示公共詞閾值;f(w,j)表示目標(biāo)詞w在j領(lǐng)域內(nèi)TF-IDF值較低的總數(shù);ζ表示TF-IDF低值閾值;m為j領(lǐng)域內(nèi)文獻總數(shù);t(w,i,j)為詞w的TF-IDF閾值判斷函數(shù),t(w,i,j)=1表示目標(biāo)詞w在領(lǐng)域j內(nèi)第i篇文獻中TF-IDF值低于ζ;cw(w,a,b)為公共詞閾值判斷函數(shù),cw(w,a,b)=1表示詞w為公共詞;cw(w,a,b)=0表示詞w不是公共詞。3注釋中屬性加權(quán)法3.1專利文獻中加權(quán)詞的特征分析文獻[12-13]的關(guān)鍵詞提取加權(quán)公式中,只考慮了特殊位置的加權(quán),如標(biāo)題、副標(biāo)題、摘要等,特殊位置加權(quán)方法如下公式所示:其中,w表示當(dāng)前要加權(quán)的詞語;t(w)為加權(quán)詞在文章中出現(xiàn)的詞頻;title(w)為文章“標(biāo)題”部分對詞w的加權(quán);tec(w)表示文章“技術(shù)領(lǐng)域(摘要)”部分對詞w的加權(quán);f(w)為詞頻和特殊位置加權(quán)函數(shù)。雖然公式(5)在一般文獻中能夠根據(jù)詞出現(xiàn)的特殊位置關(guān)系有效抽取關(guān)鍵詞,但對于專利文獻,需要考慮專利文獻的兩個特點:第一,考慮當(dāng)前加權(quán)詞與同一篇文獻中其它詞之間的相關(guān)關(guān)系,在專利文獻中,這種詞或詞組間的相關(guān)性體現(xiàn)得尤為明顯,最直接的表現(xiàn)是專利文獻中大量出現(xiàn)的具有相同詞素的詞或詞組,當(dāng)前加權(quán)詞與其它詞相關(guān)性越大,則當(dāng)前加權(quán)詞對主題的影響越大,成為關(guān)鍵詞的概率越高;第二,專利文獻中出現(xiàn)在并列結(jié)構(gòu)中的詞,雖然出現(xiàn)的頻次較高,但這些詞只是用來對主題詞進行描述,一般不能成為關(guān)鍵詞,在加權(quán)的過程中,需要對其進行適當(dāng)?shù)慕禉?quán)。3.2加權(quán)詞的行為通過對專利文獻特征進行分析,發(fā)現(xiàn)含有相同詞素的兩個不同詞,其相關(guān)度比較大,并且含有的相同詞素越多,相關(guān)性越大。由此,基于專利文獻的詞素加權(quán)計算方法如下所示:其中,wi表示當(dāng)前加權(quán)詞;n表示一篇文章中出現(xiàn)的總詞數(shù);wj表示與加權(quán)詞wi在同一篇文章中出現(xiàn)的第j個詞;f(wi,wj)表示wj與wi擁有相同詞素的個數(shù);r(wi)為詞素加權(quán)函數(shù)。例如,假設(shè)一篇文獻中只出現(xiàn)了三個詞“外轉(zhuǎn)子直流電動機”“內(nèi)轉(zhuǎn)子直流電動機”“直流電動機”,當(dāng)w1=“外轉(zhuǎn)子直流電動機”時,w2=“內(nèi)轉(zhuǎn)子直流電動機”,此時f(w1,w2)=3;w3=“直流電動機”,此時f(w1,w3)=2,則r(w1)=3+2=5。3.3降低關(guān)鍵詞的權(quán)值專利文獻中,出現(xiàn)在并列結(jié)構(gòu)中的詞一般用來描述主題,其成為關(guān)鍵詞的可能性往往較低,然而這些詞語出現(xiàn)的頻次比較高,這類詞語在關(guān)鍵詞的提取過程中,很有可能被識別為關(guān)鍵詞。因此,應(yīng)對這類詞語進行相應(yīng)的懲罰,降低其權(quán)值。據(jù)此,基于專利文獻的并列結(jié)構(gòu)的懲罰方法如下所示:其中,wi表示當(dāng)前加權(quán)詞,k表示當(dāng)前文獻中所有并列結(jié)構(gòu)中詞語的總數(shù);pc(wi)表示詞wi出現(xiàn)在并列結(jié)構(gòu)中的次數(shù);α表示詞wi在并列結(jié)構(gòu)中出現(xiàn)的懲罰系數(shù);β表示詞wi與出現(xiàn)在并列結(jié)構(gòu)中的第j個詞wj擁有相同詞素時的懲罰系數(shù)。3.4對詞語主題影響度計算綜合以上分析,詞語的主題影響度不僅與詞頻相關(guān),還與詞語出現(xiàn)的特殊位置、含有相同詞素的個數(shù)和是否是并列結(jié)構(gòu)有關(guān),結(jié)合這些影響因素綜合運用詞頻、詞出現(xiàn)特殊位置加權(quán)、詞素相關(guān)性加權(quán)函數(shù)和并列結(jié)構(gòu)懲罰函數(shù)對詞語進行主題影響度計算,具體影響度計算公式如下:其中,w表示當(dāng)前要加權(quán)的詞語;ε為詞頻和特殊位置加權(quán)系數(shù);η為詞素加權(quán)系數(shù);λ為并列結(jié)構(gòu)加權(quán)系數(shù);wei(w)表示當(dāng)前詞經(jīng)加權(quán)后的主題影響度?;谝陨戏椒ㄓ嬎阍~語對主題的影響度,根據(jù)詞語對主題的影響度大小,確定是否為關(guān)鍵詞。4實驗與結(jié)果分析4.1tf-idf實驗本文選取了617篇汽車相關(guān)專利和131篇印刷相關(guān)專利文獻作為實驗語料。在對文本進行預(yù)處理之后,由公式(1)分別計算汽車專利領(lǐng)域和印刷專利領(lǐng)域內(nèi)相關(guān)文獻中詞語的TF-IDF權(quán)值,然后分別提取兩個領(lǐng)域內(nèi)TFIDF值較低的詞語,采用公式(2)計算判斷其是否為公共詞,經(jīng)實驗驗證,選取ζ=10,δ=0.04,再以“、”“和”“與”作為并列結(jié)構(gòu)的特征標(biāo)識詞進行提取,去除公共詞后,按照公式(10)對抽取的詞語進行加權(quán),多次實驗驗證,選取α實驗過程中采用三種方法進行關(guān)鍵詞抽取實驗:實驗1經(jīng)典TF-IDF。采用經(jīng)典的TF-IDF算法計算詞語權(quán)重抽取關(guān)鍵詞。實驗2局部加權(quán)TF-IDF。去除公共詞的基礎(chǔ)之上,對詞語采用一般文獻詞語加權(quán)方法,即公式(1)先對詞語進行加權(quán),再根據(jù)TF-IDF算法進行關(guān)鍵詞抽取。實驗3本文方法。采用去除公共詞,通過區(qū)域加權(quán)、詞素加權(quán)和并列懲罰函數(shù)相結(jié)合的方式抽取關(guān)鍵詞。4.2加權(quán)tf-idf算法局部加權(quán)后專利的表現(xiàn)性比較本文采用正確率(P)、召回率(R)兩個指標(biāo)對上述實驗的效果進行評價,具體計算公式如下:為了統(tǒng)計3種方法的實驗結(jié)果,隨機抽取了100篇汽車專利相關(guān)文獻進行結(jié)果統(tǒng)計,對于每一種方法取10組不同的結(jié)果,并將每一種方法的每一組實驗結(jié)果抽取的關(guān)鍵詞與人工標(biāo)引的結(jié)果進行對比,計算其正確率、召回率、F值。三種方法的正確率統(tǒng)計結(jié)果如圖1所示。三種方法召回率的統(tǒng)計結(jié)果如圖2所示。三種方法統(tǒng)計結(jié)果的F值如圖3所示。從正確率、召回率和F值三個統(tǒng)計圖可以明顯看出,本文所采用的加權(quán)方法在抽取關(guān)鍵詞個數(shù)大于4時,正確率和召回率都要優(yōu)于局部區(qū)域位置加權(quán)后的TF-IDF算法和經(jīng)典的TF-IDF算法;但是在抽取關(guān)鍵詞2-4個時,加權(quán)TF-IDF方法要優(yōu)于本文的方法,因為加權(quán)TF-IDF方法對“標(biāo)題”部分和“技術(shù)領(lǐng)域(摘要)”部分賦以的權(quán)重較高,導(dǎo)致前4個關(guān)鍵詞一般都是“標(biāo)題”部分和“技術(shù)領(lǐng)域(摘要)”部分的,這樣對整篇專利的主題表現(xiàn)性不夠豐富。在關(guān)鍵詞5-9個的范圍內(nèi),關(guān)鍵詞對專利文獻的表現(xiàn)性更豐富,比局部加權(quán)TF-IDF算法要好。本文所采用的加權(quán)算法可以把部分出現(xiàn)頻次較低的關(guān)鍵詞的權(quán)重提高,把部分出現(xiàn)頻次高但非關(guān)鍵詞的權(quán)重降低,說明本文提出的相同詞素加權(quán)算法和并列結(jié)構(gòu)懲罰算法可以很好地抽取關(guān)鍵詞。5算法的分類及改進針對專利文獻,本文提出了公共詞的概念并基于TF-IDF算法思想提出了提取領(lǐng)域公共詞的方法,分析了公共詞在專利文獻主題描述上的作用,將公共詞去除,使得實驗結(jié)果有了較大提高;分析傳統(tǒng)詞語加權(quán)方法的特點,根據(jù)專利文獻的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論