專利文獻(xiàn)關(guān)鍵詞提取方法研究

上傳人：1*** IP屬地：廣東上傳時(shí)間：2023-10-15 格式：DOCX 頁數(shù)：6 大?。?1.87KB 積分：12 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩1頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

專利文獻(xiàn)關(guān)鍵詞提取方法研究

0專利文獻(xiàn)關(guān)鍵詞抽取研究現(xiàn)狀知識產(chǎn)權(quán)關(guān)鍵詞對于知識產(chǎn)權(quán)文獻(xiàn)非常重要，是所有知識產(chǎn)權(quán)文件的高度概括。通過閱讀專利文獻(xiàn)的關(guān)鍵詞,可以快速地了解一篇專利文獻(xiàn)要表達(dá)的主旨。關(guān)鍵詞比摘要更簡練,它是專利文獻(xiàn)分類、聚類、索引和自動(dòng)文摘的基礎(chǔ)。隨著社會(huì)的發(fā)展,人工選擇關(guān)鍵詞已經(jīng)暴露出它的不足:首先,由于標(biāo)引人員自身的知識和經(jīng)驗(yàn)不同,對同一篇專利文獻(xiàn)不同標(biāo)引人員所標(biāo)識的關(guān)鍵詞存在不一致性;其次,隨著科技的進(jìn)步和人類知識的不斷豐富,專利文獻(xiàn)數(shù)量急劇增長,采用人工標(biāo)引方式在速度上無法滿足標(biāo)引的需要。采用自動(dòng)的方式進(jìn)行關(guān)鍵詞抽取不僅提取的標(biāo)準(zhǔn)統(tǒng)一,而且標(biāo)引速度快,能夠讓人們從繁鎖的工作中得到解放。因此,研究專利文獻(xiàn)關(guān)鍵詞提取具有重要的應(yīng)用價(jià)值。關(guān)鍵詞抽取研究在國外起步比較早,Turney利用遺傳算法和C4.5決策樹機(jī)器學(xué)習(xí)算法設(shè)計(jì)的GenEx算法進(jìn)行了關(guān)鍵短語抽取,表明GenExt算法比單純的C4.5決策樹學(xué)習(xí)算法效果要好。Written利用詞典的方法獲取候選關(guān)鍵詞,然后利用貝葉斯方法對關(guān)鍵詞進(jìn)行選擇,構(gòu)建的KEA系統(tǒng)簡單、魯棒性強(qiáng),具有很好的應(yīng)用性。Hulth選取語言學(xué)規(guī)則應(yīng)用到機(jī)器學(xué)習(xí)方法中,提取學(xué)術(shù)論文摘要中的關(guān)鍵詞,關(guān)鍵詞的召回率達(dá)到了66%,取得了很大進(jìn)步。國內(nèi)也有大批學(xué)者聚焦于關(guān)鍵詞抽取研究。主要方法包括:基于PATTree結(jié)構(gòu)獲取新詞的方法、基于機(jī)器學(xué)習(xí)的方法、基于已標(biāo)引語料方法、基于知識庫的方法和基于統(tǒng)計(jì)的方法。其中代表性的工作有:YangWen-Feng基于PATTree結(jié)構(gòu)獲取新詞,并采用互信息等統(tǒng)計(jì)方法對文獻(xiàn)的關(guān)鍵詞進(jìn)行標(biāo)引;李素建等設(shè)計(jì)采用最大熵模型自動(dòng)抽取關(guān)鍵詞,但由于特征選擇及特征參數(shù)估計(jì)不易選定,造成關(guān)鍵詞自動(dòng)抽取應(yīng)用不夠理想;王軍從已標(biāo)引的結(jié)構(gòu)化語料庫中元數(shù)據(jù)的標(biāo)題內(nèi)抽取關(guān)鍵詞,正確率較高;索紅光等提出用《知網(wǎng)》知識庫構(gòu)建詞匯鏈的方法抽取關(guān)鍵詞,但由于《知網(wǎng)》詞數(shù)的局限性,只能對《知網(wǎng)》中存在的詞條進(jìn)行抽取;謝晉采用基于詞跨度的方法提取關(guān)鍵詞,但是對于部分關(guān)鍵詞出現(xiàn)比較集中的情況不太適用;李靜月等采用改進(jìn)TF-IDF算法提取網(wǎng)頁關(guān)鍵詞,由于需要通過在線輸入相關(guān)文獻(xiàn)關(guān)鍵詞獲取與文本相關(guān)的內(nèi)容,所以提取效率相對較差;馬力等提出基于小世界模型的方法提取關(guān)鍵詞的方法,對文檔語義的理解達(dá)到了更好的層面?，F(xiàn)有的方法很少專門針對專利文獻(xiàn)進(jìn)行關(guān)鍵詞抽取,本文從專利文獻(xiàn)特點(diǎn)出發(fā),在現(xiàn)有方法的基礎(chǔ)上,在去除公共詞后,提出綜合運(yùn)用詞頻、區(qū)域特征、詞素加權(quán)和并列懲罰函數(shù)計(jì)算詞語對主題的影響度,根據(jù)影響度大小最終確定專利文獻(xiàn)的關(guān)鍵詞,提高了關(guān)鍵詞抽取的準(zhǔn)確率。1同構(gòu)建并列結(jié)構(gòu)的詞對不同種類的關(guān)鍵詞抽取專利文獻(xiàn)雖然數(shù)量眾多,但它們存在一些共同的特征:文獻(xiàn)中出現(xiàn)頻次較高的詞成為關(guān)鍵詞的可能性較大;出現(xiàn)在專利文獻(xiàn)中的“標(biāo)題”部分和“技術(shù)領(lǐng)域(摘要)”部分中的詞語,成為關(guān)鍵詞的可能性較大。專利文獻(xiàn)屬于科技文獻(xiàn),它除了具有一般文獻(xiàn)的特征外,還具有其固有的特征,經(jīng)過對專利文獻(xiàn)的分析,其特點(diǎn)如下:a.專利文獻(xiàn)中存在著大量的并列結(jié)構(gòu),并列結(jié)構(gòu)中的詞一般是對文獻(xiàn)主題的側(cè)面描述,不能直接作為關(guān)鍵詞,而這類詞語出現(xiàn)的頻次較高,這會(huì)對準(zhǔn)確抽取關(guān)鍵詞產(chǎn)生較大影響。如:一種汽車防光耀眼屏,其特征在于包括分別連接在遮陽板上的表面設(shè)置遮光塊的LCD光閥陣列、LCD驅(qū)動(dòng)器……所述光電傳感器、聚焦光學(xué)鏡頭和LCD光閥陣列同一朝向布置……操作鍵盤與綜合處理CPU的矩陣IN端電連接,綜合處理器CPU與LCD驅(qū)動(dòng)器電連接,LCD驅(qū)動(dòng)器與LCD光閥陣列電連接,電源電路包括電源插座和一個(gè)分別為感光陣列、綜合處理器CPU、LCD光閥驅(qū)動(dòng)、光電傳感器和操作鍵盤供電的供電電路。在上例中,顯然“汽車”、“防光耀眼屏”是本專利的關(guān)鍵詞,而在后文的并列結(jié)構(gòu)中“LCD光閥陣列”、“LCD驅(qū)動(dòng)器”等詞語出現(xiàn)的頻次遠(yuǎn)高于關(guān)鍵詞“汽車”、“防光耀眼屏”出現(xiàn)的頻次。本文通過對617篇汽車相關(guān)專利進(jìn)行統(tǒng)計(jì)發(fā)現(xiàn),其中有616篇含有并列結(jié)構(gòu);在這617篇專利文獻(xiàn)中的總詞數(shù)是437184個(gè),出現(xiàn)在“、”、“和”、“與”并列結(jié)構(gòu)中的總詞數(shù)為167597個(gè),占文獻(xiàn)總詞數(shù)的38.33%。因此,在關(guān)鍵詞抽取的過程中,需要對并列結(jié)構(gòu)中的詞進(jìn)行特殊處理,以降低出現(xiàn)在并列結(jié)構(gòu)中詞語的權(quán)值,減少并列結(jié)構(gòu)對關(guān)鍵詞抽取的影響。b.專利文獻(xiàn)通常會(huì)出現(xiàn)大量的自組詞,這些自組詞之間往往具有相同的詞素(意思或語法功能的最小單位。/view/377642.htm),而具有相同詞素的詞或詞組之間,絕大多數(shù)在意義上存在某種聯(lián)系。同時(shí),自組詞都是經(jīng)過精心挑選組合的,它們成為關(guān)鍵詞的可能性相對較大。如:“外轉(zhuǎn)子直流電動(dòng)機(jī)”“內(nèi)轉(zhuǎn)子直流電動(dòng)機(jī)”具有相同詞素“轉(zhuǎn)子”“直流”“電動(dòng)機(jī)”。在上述例子中,在同一篇文章中,如果只考慮詞本身,上述兩個(gè)詞被識別為關(guān)鍵詞的可能性將偏低。因此,在提取關(guān)鍵詞的過程中不能忽略相同詞素對不同詞之間的影響,需要在進(jìn)行加權(quán)計(jì)算過程中對具有相同詞素的詞進(jìn)行特殊的處理,以提高兩個(gè)詞的權(quán)值。2tf-idf相關(guān)領(lǐng)域公共詞的領(lǐng)域區(qū)分在專利文獻(xiàn)中,有一類詞,它在多個(gè)領(lǐng)域中都出現(xiàn),對領(lǐng)域的主題區(qū)分性不高,本文將這類詞稱為公共詞。雖然公共詞在單一領(lǐng)域內(nèi)出現(xiàn)的頻次較高,但不具有主題區(qū)分性,所以如果單純按照出現(xiàn)頻次來確定是否為關(guān)鍵詞,那么公共詞的存在會(huì)給關(guān)鍵詞抽取準(zhǔn)確性帶來影響。提取關(guān)鍵詞之前,為了減少公共詞對提取專利關(guān)鍵詞的影響,本文基于TF-IDF提出了公共詞抽取算法,并提出在去除公共詞基礎(chǔ)之上的關(guān)鍵詞提取方法。TFIDF的主要思想是:如果某個(gè)詞或短語在一篇文章中出現(xiàn)的頻率TF高,并且在其他文檔中很少出現(xiàn),則認(rèn)為該詞或該短語是關(guān)鍵詞的概率比較大,其計(jì)算方法公式為:其中,tfik為特征詞頻率;idfk稱為逆文檔頻率;nij是該特征詞在文檔dj中的出現(xiàn)次數(shù);|D|:語料庫中的所有文檔的總條數(shù);{j:termi∈dj}:包含特征詞termi的文檔數(shù)目(即nij≠0的文檔數(shù)目),weight(Tij)為特征Tij在文檔dj中的TF-IDF值。對TF-IDF算法的定義進(jìn)行分析可知,對于計(jì)算某一領(lǐng)域內(nèi)TF-IDF值較低的詞語一般可劃分為兩類:一類在某一領(lǐng)域分布比較廣,但在其它領(lǐng)域內(nèi)出現(xiàn)較少或不出現(xiàn),這類詞語可以作為該領(lǐng)域的特征詞,具有一定的領(lǐng)域區(qū)分能力;另一類是各個(gè)文檔中出現(xiàn)次數(shù)均較多的詞,并且在各個(gè)領(lǐng)域里均具有較高的出現(xiàn)頻次,也即公共詞,它們的領(lǐng)域區(qū)分能力較弱。因此,去除公共詞對識別領(lǐng)域的關(guān)鍵詞具有非常重要的作用。根據(jù)以上分析,本文提出兩領(lǐng)域間公共詞計(jì)算公式:其中,a、b表示兩個(gè)領(lǐng)域;w表示目標(biāo)詞;n、k依次表示領(lǐng)域a和b中文獻(xiàn)總數(shù);δ表示公共詞閾值;f(w,j)表示目標(biāo)詞w在j領(lǐng)域內(nèi)TF-IDF值較低的總數(shù);ζ表示TF-IDF低值閾值;m為j領(lǐng)域內(nèi)文獻(xiàn)總數(shù);t(w,i,j)為詞w的TF-IDF閾值判斷函數(shù),t(w,i,j)=1表示目標(biāo)詞w在領(lǐng)域j內(nèi)第i篇文獻(xiàn)中TF-IDF值低于ζ;cw(w,a,b)為公共詞閾值判斷函數(shù),cw(w,a,b)=1表示詞w為公共詞;cw(w,a,b)=0表示詞w不是公共詞。3注釋中屬性加權(quán)法3.1專利文獻(xiàn)中加權(quán)詞的特征分析文獻(xiàn)[12-13]的關(guān)鍵詞提取加權(quán)公式中,只考慮了特殊位置的加權(quán),如標(biāo)題、副標(biāo)題、摘要等,特殊位置加權(quán)方法如下公式所示:其中,w表示當(dāng)前要加權(quán)的詞語;t(w)為加權(quán)詞在文章中出現(xiàn)的詞頻;title(w)為文章“標(biāo)題”部分對詞w的加權(quán);tec(w)表示文章“技術(shù)領(lǐng)域(摘要)”部分對詞w的加權(quán);f(w)為詞頻和特殊位置加權(quán)函數(shù)。雖然公式(5)在一般文獻(xiàn)中能夠根據(jù)詞出現(xiàn)的特殊位置關(guān)系有效抽取關(guān)鍵詞,但對于專利文獻(xiàn),需要考慮專利文獻(xiàn)的兩個(gè)特點(diǎn):第一,考慮當(dāng)前加權(quán)詞與同一篇文獻(xiàn)中其它詞之間的相關(guān)關(guān)系,在專利文獻(xiàn)中,這種詞或詞組間的相關(guān)性體現(xiàn)得尤為明顯,最直接的表現(xiàn)是專利文獻(xiàn)中大量出現(xiàn)的具有相同詞素的詞或詞組,當(dāng)前加權(quán)詞與其它詞相關(guān)性越大,則當(dāng)前加權(quán)詞對主題的影響越大,成為關(guān)鍵詞的概率越高;第二,專利文獻(xiàn)中出現(xiàn)在并列結(jié)構(gòu)中的詞,雖然出現(xiàn)的頻次較高,但這些詞只是用來對主題詞進(jìn)行描述,一般不能成為關(guān)鍵詞,在加權(quán)的過程中,需要對其進(jìn)行適當(dāng)?shù)慕禉?quán)。3.2加權(quán)詞的行為通過對專利文獻(xiàn)特征進(jìn)行分析,發(fā)現(xiàn)含有相同詞素的兩個(gè)不同詞,其相關(guān)度比較大,并且含有的相同詞素越多,相關(guān)性越大。由此,基于專利文獻(xiàn)的詞素加權(quán)計(jì)算方法如下所示:其中,wi表示當(dāng)前加權(quán)詞;n表示一篇文章中出現(xiàn)的總詞數(shù);wj表示與加權(quán)詞wi在同一篇文章中出現(xiàn)的第j個(gè)詞;f(wi,wj)表示wj與wi擁有相同詞素的個(gè)數(shù);r(wi)為詞素加權(quán)函數(shù)。例如,假設(shè)一篇文獻(xiàn)中只出現(xiàn)了三個(gè)詞“外轉(zhuǎn)子直流電動(dòng)機(jī)”“內(nèi)轉(zhuǎn)子直流電動(dòng)機(jī)”“直流電動(dòng)機(jī)”,當(dāng)w1=“外轉(zhuǎn)子直流電動(dòng)機(jī)”時(shí),w2=“內(nèi)轉(zhuǎn)子直流電動(dòng)機(jī)”,此時(shí)f(w1,w2)=3;w3=“直流電動(dòng)機(jī)”,此時(shí)f(w1,w3)=2,則r(w1)=3+2=5。3.3降低關(guān)鍵詞的權(quán)值專利文獻(xiàn)中,出現(xiàn)在并列結(jié)構(gòu)中的詞一般用來描述主題,其成為關(guān)鍵詞的可能性往往較低,然而這些詞語出現(xiàn)的頻次比較高,這類詞語在關(guān)鍵詞的提取過程中,很有可能被識別為關(guān)鍵詞。因此,應(yīng)對這類詞語進(jìn)行相應(yīng)的懲罰,降低其權(quán)值。據(jù)此,基于專利文獻(xiàn)的并列結(jié)構(gòu)的懲罰方法如下所示:其中,wi表示當(dāng)前加權(quán)詞,k表示當(dāng)前文獻(xiàn)中所有并列結(jié)構(gòu)中詞語的總數(shù);pc(wi)表示詞wi出現(xiàn)在并列結(jié)構(gòu)中的次數(shù);α表示詞wi在并列結(jié)構(gòu)中出現(xiàn)的懲罰系數(shù);β表示詞wi與出現(xiàn)在并列結(jié)構(gòu)中的第j個(gè)詞wj擁有相同詞素時(shí)的懲罰系數(shù)。3.4對詞語主題影響度計(jì)算綜合以上分析,詞語的主題影響度不僅與詞頻相關(guān),還與詞語出現(xiàn)的特殊位置、含有相同詞素的個(gè)數(shù)和是否是并列結(jié)構(gòu)有關(guān),結(jié)合這些影響因素綜合運(yùn)用詞頻、詞出現(xiàn)特殊位置加權(quán)、詞素相關(guān)性加權(quán)函數(shù)和并列結(jié)構(gòu)懲罰函數(shù)對詞語進(jìn)行主題影響度計(jì)算,具體影響度計(jì)算公式如下:其中,w表示當(dāng)前要加權(quán)的詞語;ε為詞頻和特殊位置加權(quán)系數(shù);η為詞素加權(quán)系數(shù);λ為并列結(jié)構(gòu)加權(quán)系數(shù);wei(w)表示當(dāng)前詞經(jīng)加權(quán)后的主題影響度?；谝陨戏椒ㄓ?jì)算詞語對主題的影響度,根據(jù)詞語對主題的影響度大小,確定是否為關(guān)鍵詞。4實(shí)驗(yàn)與結(jié)果分析4.1tf-idf實(shí)驗(yàn)本文選取了617篇汽車相關(guān)專利和131篇印刷相關(guān)專利文獻(xiàn)作為實(shí)驗(yàn)語料。在對文本進(jìn)行預(yù)處理之后,由公式(1)分別計(jì)算汽車專利領(lǐng)域和印刷專利領(lǐng)域內(nèi)相關(guān)文獻(xiàn)中詞語的TF-IDF權(quán)值,然后分別提取兩個(gè)領(lǐng)域內(nèi)TFIDF值較低的詞語,采用公式(2)計(jì)算判斷其是否為公共詞,經(jīng)實(shí)驗(yàn)驗(yàn)證,選取ζ=10,δ=0.04,再以“、”“和”“與”作為并列結(jié)構(gòu)的特征標(biāo)識詞進(jìn)行提取,去除公共詞后,按照公式(10)對抽取的詞語進(jìn)行加權(quán),多次實(shí)驗(yàn)驗(yàn)證,選取α實(shí)驗(yàn)過程中采用三種方法進(jìn)行關(guān)鍵詞抽取實(shí)驗(yàn):實(shí)驗(yàn)1經(jīng)典TF-IDF。采用經(jīng)典的TF-IDF算法計(jì)算詞語權(quán)重抽取關(guān)鍵詞。實(shí)驗(yàn)2局部加權(quán)TF-IDF。去除公共詞的基礎(chǔ)之上,對詞語采用一般文獻(xiàn)詞語加權(quán)方法,即公式(1)先對詞語進(jìn)行加權(quán),再根據(jù)TF-IDF算法進(jìn)行關(guān)鍵詞抽取。實(shí)驗(yàn)3本文方法。采用去除公共詞,通過區(qū)域加權(quán)、詞素加權(quán)和并列懲罰函數(shù)相結(jié)合的方式抽取關(guān)鍵詞。4.2加權(quán)tf-idf算法局部加權(quán)后專利的表現(xiàn)性比較本文采用正確率(P)、召回率(R)兩個(gè)指標(biāo)對上述實(shí)驗(yàn)的效果進(jìn)行評價(jià),具體計(jì)算公式如下:為了統(tǒng)計(jì)3種方法的實(shí)驗(yàn)結(jié)果,隨機(jī)抽取了100篇汽車專利相關(guān)文獻(xiàn)進(jìn)行結(jié)果統(tǒng)計(jì),對于每一種方法取10組不同的結(jié)果,并將每一種方法的每一組實(shí)驗(yàn)結(jié)果抽取的關(guān)鍵詞與人工標(biāo)引的結(jié)果進(jìn)行對比,計(jì)算其正確率、召回率、F值。三種方法的正確率統(tǒng)計(jì)結(jié)果如圖1所示。三種方法召回率的統(tǒng)計(jì)結(jié)果如圖2所示。三種方法統(tǒng)計(jì)結(jié)果的F值如圖3所示。從正確率、召回率和F值三個(gè)統(tǒng)計(jì)圖可以明顯看出,本文所采用的加權(quán)方法在抽取關(guān)鍵詞個(gè)數(shù)大于4時(shí),正確率和召回率都要優(yōu)于局部區(qū)域位置加權(quán)后的TF-IDF算法和經(jīng)典的TF-IDF算法;但是在抽取關(guān)鍵詞2-4個(gè)時(shí),加權(quán)TF-IDF方法要優(yōu)于本文的方法,因?yàn)榧訖?quán)TF-IDF方法對“標(biāo)題”部分和“技術(shù)領(lǐng)域(摘要)”部分賦以的權(quán)重較高,導(dǎo)致前4個(gè)關(guān)鍵詞一般都是“標(biāo)題”部分和“技術(shù)領(lǐng)域(摘要)”部分的,這樣對整篇專利的主題表現(xiàn)性不夠豐富。在關(guān)鍵詞5-9個(gè)的范圍內(nèi),關(guān)鍵詞對專利文獻(xiàn)的表現(xiàn)性更豐富,比局部加權(quán)TF-IDF算法要好。本文所采用的加權(quán)算法可以把部分出現(xiàn)頻次較低的關(guān)鍵詞的權(quán)重提高,把部分出現(xiàn)頻次高但非關(guān)鍵詞的權(quán)重降低,說明本文提出的相同詞素加權(quán)算法和并列結(jié)構(gòu)懲罰算法可以很好地抽取關(guān)鍵詞。5算法的分類及改進(jìn)針對專利文獻(xiàn),本文提出了公共詞的概念并基于TF-IDF算法思想提出了提取領(lǐng)域公共詞的方法,分析了公共詞在專利文獻(xiàn)主題描述上的作用,將公共詞去除,使得實(shí)驗(yàn)結(jié)果有了較大提高;分析傳統(tǒng)詞語加權(quán)方法的特點(diǎn),根據(jù)專利文獻(xiàn)的

人人文庫> 全部分類> 專業(yè)文獻(xiàn) > 學(xué)術(shù)論文

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

專利文獻(xiàn)關(guān)鍵詞提取方法研究

文檔簡介

溫馨提示

最新文檔

評論

專利文獻(xiàn)關(guān)鍵詞提取方法研究

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔