

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
—論文發(fā)表專家—論文發(fā)表專家—基于上下文環(huán)境和句法分析的蛋白質(zhì)關(guān)系抽取摘要:針對蛋白質(zhì)交互作用關(guān)系(ppi)抽取方法中特征利用的片面性問題,提出了一種從上下文環(huán)境和句法結(jié)構(gòu)中抽取特征的方法。該方法抽取詞法特征、位置特征、距離特征、依存句法特征和深層句法特征等豐富特征構(gòu)成特征集,并且使用支持向量機(svm)分類器進行ppi抽取。方法在5個公開的ppi語料上進行了評估。實驗結(jié)果表明,豐富特征有效地利用了更為全面的信息,避免丟失重要特征的危險,得到了較好的ppi抽取性能。即在aimed語料上的實驗取得了59.2%的f值和85.6%的曲線下面積(auc)值。關(guān)鍵詞:信息抽?。蛔匀徽Z言處理;蛋白質(zhì)關(guān)系抽??;特征;支持向量機teininteractionextractionbasedoncontextualandsyntacticfeatureswangjian*,jiming.hui,linhong.fei,yangzhi.haowangjianschoolofcomputerscieneeandtechnology,dalianuniversityoftechnology,dalianliaoning116024,chinaabstract:consideringone-sidednessoffeaturesusedinmanyprotein-proteininteraction(ppi)extractionmethods.a—論文發(fā)表專家—論文發(fā)表專家—匸交發(fā)表專家一m國學朮發(fā)叢網(wǎng)www,novelapproachisproposedtoextractrichfeaturesfromcontextinformationandsyntaxstructureforppiextraction.variousfeatures,suchaslexical,position,distanee,dependencysyntaxanddeepsyntaxfeaturesareextracts,andthesupportvectormachine(svm)classifierisusedforppiextraction.experimentalevaluationonmultipleppicorporarevealsthattherichfeaturescanutilizemorecomprehensiveinformationtoreducethedangerofmissingsomeimportantfeatures.thismethodachievesstate-of-the-artperformaneewithrespecttocomparableevaluations,with59.2%f-scoreand85.6%teininteraction(ppi)extractionmethods,anewapproachwasproposedtoextractrichfeaturesfromcontextinformationandsyntaxstructureforppiextraction.variousfeatures,suchaslexicon,position,distanee,dependencysyntaxanddeepsyntaxfeaturesconstitutefeatureset,andthesupportvectormachine(svm)classifierwasusedforppiextraction.theexperimentalevaluationonmultipleppicorporarevealsthattherichfeaturescanutilizemorecomprehensiveinformationtoreducetheriskofmissingsomeimportantfeatures.thismethodachievesstate.of.the.artperformaneewithrespecttocomparableevaluations,with59.2%f.scoreand85.6%areaundercurve(auc)ontheaimedcorpus.keywords:informationextraction;naturallanguageprocessing;teininteraction(ppi)extraction;feature;supportvectormachine(svm)0引言生物醫(yī)學文獻中的蛋白質(zhì)交互作用關(guān)系(teininteraction,ppi)對于蛋白質(zhì)知識網(wǎng)絡的構(gòu)建、藥物的研制、疾病的診斷等具有重要意義。目前,生物醫(yī)學專家建立了很多有統(tǒng)一格式的蛋白質(zhì)關(guān)系數(shù)據(jù)庫來存儲這些重要信息,例如:mint[1],bind[2]和dip[3]。然而,隨著醫(yī)學文獻數(shù)量的急劇增加,很難依靠人工從海量文獻中獲取有價值的信息。因此,從生物文獻中自動地抽取蛋白質(zhì)關(guān)系成為一項重要的研究任務。從生物醫(yī)學文獻中自動抽取蛋白質(zhì)關(guān)系的方法有多種,如基于詞共現(xiàn)的方法、基于模板匹配的方法和基于機器學習的方法?;谠~共現(xiàn)的方法簡單統(tǒng)計兩個蛋白質(zhì)在句子中的共現(xiàn)次數(shù),根據(jù)統(tǒng)計學原理判斷它們是否存在關(guān)系[4]?;谀0迤ヅ涞姆椒ò汛袆e
—論文發(fā)表專家一B國學朮發(fā)叢網(wǎng)www,qikanwang.n呂t數(shù)據(jù)與已有的模板進行匹配,從而達到蛋白質(zhì)關(guān)系抽取的目的:5]。機器學習的方法近幾年來興起并且得到迅速發(fā)展,其中基于特征的方法在ppi抽取任務中得到了廣泛的應用。文獻[6]使用上下文特征進行蛋白質(zhì)關(guān)系抽取,該方法沒有使用任何句法信息,在biocreative語料上得到較高的召回率,但精確值相對較低。文獻[7]評估多個不同的句法分析器對ppi抽取的貢獻,結(jié)果表明詞與詞之間的句法關(guān)系,能夠有效地提高ppi抽取的性能。但是這些方法通常只考慮了句子及其句法結(jié)構(gòu)的部分信息,而忽略了其他方面的有用信息。機器學習領域的另一個熱點話題是核函數(shù)的研究和使用?;诤撕瘮?shù)的方法把句法結(jié)構(gòu)作為處理對象,在依存圖或句法樹上定義不同的核函數(shù)進行蛋白質(zhì)關(guān)系抽取,如圖核、樹核和路徑核等[8-11]?;诤撕瘮?shù)的方法能夠得到較好的抽取性能,但是受制于計算復雜度,該方法通常不能直接應用到實際的ppi抽取系統(tǒng)中。針對以上問題,本文提出了一種基于上下文環(huán)境和句法分析的ppi抽取方法。該方法融合了更加全面重要的信息,不僅使用了詞的上下文環(huán)境,并且考慮了蛋白質(zhì)之間的句子距離和謂詞參數(shù)結(jié)構(gòu)中不同子結(jié)構(gòu)對關(guān)系抽取的影響,同時避免了核函數(shù)的復雜計算。本文在5個公開的ppi語料上實驗,詳細分析不同特征對ppi抽取的影響,并且與其他方法的性能進行了比較?!撐陌l(fā)表專家一—論文發(fā)表專家一—論文發(fā)表專家一—論文發(fā)表專家一1基于特征的ppi抽取方法基于特征的ppi抽取任務可以看作是一個分類問題。首先,提取語料句子中的蛋白質(zhì)對,得到蛋白質(zhì)關(guān)系實例;然后從語料中提取特征,并且把每個實例都映射到一個n纟工的特征向量;接著訓練一個分類模型;最后使用分類模型判斷未標注實例所屬的類別,即判斷蛋白,質(zhì)對之間是杏存亦關(guān)系o基于特征的ppi抽取系統(tǒng)框架如圖1所示,系統(tǒng)的輸入為原始的xml文本,輸出為最終的分類結(jié)果。首先通過預處理模塊得到關(guān)系實例;接著是句法分析模塊;然后是從關(guān)系實例和句法結(jié)構(gòu)中提取特征,構(gòu)建特征向量;最后是支持向量機(supportvectormachine,svm)分類及預測模塊。本文使用的語料已經(jīng)識別出蛋白質(zhì)實體名稱,在實驗中我們主要關(guān)注至少存在兩個蛋白質(zhì)名句子,判斷該句子中的蛋白質(zhì)之間是否存在交互作用關(guān)系。如果一個句子中存在m(m>2)個蛋白質(zhì),那么這個句子中包含有c2m個小同的蛋白,質(zhì)燉::木文對行個這樣的蛋白質(zhì)對拷貝一個句子的副本,作為該蛋白質(zhì)對的一個實例。實驗使用的數(shù)據(jù)集就是由這些實例組成,例如,句子“thebindingofhtafii28p0andhtafii30plrequiresdistinetdomainsofhtafii18p2.”,表示一個存在蛋白質(zhì)關(guān)系的實例,其中“htafii30”和“htafii18”是需要判斷關(guān)系的兩個目標蛋白—論文發(fā)表專家一'm國學朮發(fā)叢網(wǎng)www,質(zhì)。2特征提取和特征向量表示基于特征的蛋白質(zhì)關(guān)系抽取方法的核心工作是特征的選取。選取特征的好壞直接影響最終的分類精度。為了發(fā)掘更多有效的特征,使用更加全面的信息,本文從上下文環(huán)境和句子的句法結(jié)構(gòu)中選取多種特征。在從上下文選擇特征的過程中不僅考慮了詞法特征,還考慮了詞距離特征,同時將詞法特征在句子中的位置信息也加入到特征向量中。此外,還有兩類句法特征也加入到特征集中,分別是依存圖上的句子距離特征和謂詞參數(shù)路徑特征。2.1上下文特征1)詞特征(bagofwords)。本文對詞特征的選取范圍進行限制,即從左起第一個蛋白質(zhì)的前n個詞,兩個蛋白質(zhì)之間的所有詞,第二個蛋白質(zhì)的后n詞為止。經(jīng)過多次實驗發(fā)現(xiàn),當n=5時效果最佳,所以在本文中將n賦值為5,把上述范圍中去掉停用詞之后的詞作為特征。位置特征(positions)。詞特征和n丿匚詞持征相對T兩個蛋勺質(zhì)的位置信息也能夠?qū)Φ鞍踪|(zhì)之間是否存在關(guān)系起作用。因此,如果這兩類特征出現(xiàn)在第一個蛋白質(zhì)之前,用“p1」eft_特征”表示;出現(xiàn)在兩個蛋白質(zhì)之間,用“p1_right_特征”,“p2_left_特征”表示;出現(xiàn)在第二個蛋白質(zhì)之后用“p2」ight_特征”表示?!撐陌l(fā)表專家—論文發(fā)表專家—論文發(fā)表專家—論文發(fā)表專家具體位置特征(specificpositions)本文把詞特征和n元詞特征相對于兩個蛋白質(zhì)的具體位置也作為特征。定義如下:sp={n1_p1_特征,n2_p2_特征|n1=i-i1,n2=i-i2,i€:i1-5,i1-1]U:i1+1,i2-1]U:i2+1,i2+5]},i1和i2分別是蛋白質(zhì)1和蛋白質(zhì)2在句子中的位置,i是當前特征在句子中的位置。詞距離特征(worddistanee)。兩個蛋白質(zhì)之間的距離越長(距離用間隔詞的個數(shù)衡量),存在關(guān)系的可能性越小,因此,蛋白質(zhì)之間的距離被加入到特征集中。2.2句法特征句法結(jié)構(gòu)能夠描述句子的句法和語義信息,不同的句法結(jié)構(gòu)反映了句子不同方面的有用信息。本文主要從依存圖和謂詞參數(shù)結(jié)構(gòu)中提取句法特征。1)句子距離特征(senteneedistanee)。依存句法結(jié)構(gòu)是句子語義關(guān)系的有效近似,并且能夠清晰地表達句子的主謂結(jié)構(gòu)。如果兩個蛋白質(zhì)名能在一個簡單句中出現(xiàn),那么它們之間就很有可能存在關(guān)系。因此,如果依存圖中兩個蛋白質(zhì)之間的最短路徑上只有一個謂語動詞出現(xiàn),表示這兩個蛋白質(zhì)之間存在關(guān)系,則該特征值設為1。本文使用gdep依存分析器[12]輸出依存圖結(jié)構(gòu),如圖2所示。圖中實線表示邊在兩個蛋白質(zhì)之間的
tn學朮發(fā)叢岡tn學朮發(fā)叢岡最短路徑上,虛線表示邊不在最短路徑上2)謂詞參數(shù)路徑(predicateargumentpath)。謂詞參數(shù)結(jié)構(gòu)以圖的形式表示,與依存分析類似,它表示詞與詞之間深層句法和語義關(guān)系。謂詞參數(shù)結(jié)構(gòu)中兩個蛋白質(zhì)之間最短路徑上的不同子結(jié)構(gòu)表達了不同的句法語義信息。因此,在最短路徑上選擇兩類walk特征,分別是v.walk和e.walk[11],加入到特征集中。從v.walk中可以直接得到兩個節(jié)點(詞/詞性)的句法和語義關(guān)系。在e.walk中描述了一個節(jié)點和兩個與它直接相鄰的關(guān)系,當這個節(jié)點是一個謂詞的時候,e.walk比v.walk更能反映句子的謂詞.參數(shù)的信息。并且v.walk和e.walk中存在連續(xù)和不連續(xù)的情況,連續(xù)的walk更能反映詞之間的直接關(guān)系。因此,在設置特征值的時候,給連續(xù)的e.walk設為3,連續(xù)的v.walk設為2,其他不連續(xù)的walk設為1。本文使用enju分析器輸出謂詞參數(shù)結(jié)構(gòu),如圖3所示。圖中實線表示邊在兩個蛋白質(zhì)之間的最短路徑上,虛線表示邊不在最短路徑上。2.3特征表示上述特征中除明確說明特征值外,其余特征值都使用布爾值,即出現(xiàn)為1,不出現(xiàn)為0。為了清楚地描述特征表示,表1詳細地描述了一個蛋白質(zhì)關(guān)系實例的特征表示,根據(jù)這個表可以很容易理解上述特征的含義。詞是語言的基本組成單位,詞特征能夠重現(xiàn)文本的語言表達信—論文發(fā)表專家一m國學朮發(fā)叢網(wǎng)www,qikan訓息,許多分類及關(guān)系抽取系統(tǒng)把它作為基本特征,能夠得到較高的召回率。n元詞特征豐富了詞特征的表達,與詞特征共同表達原文的語言描述信息。加入n元詞特征能夠仃效地提高系統(tǒng)的性能(表3的第2組實驗所示)。位置特征(f4+f5)與詞法特征(f1+f2)的組合,共同表達了詞法特征在句子中線性順序,明確了語言的組織形式,能夠有效地改善蛋白質(zhì)關(guān)系抽取的性能(表3的第4組實驗所示)。依存分析能夠表達長距離的依存關(guān)系,句子距離特征有助于判斷兩個蛋白質(zhì)在句法結(jié)構(gòu)上的距離。謂詞參數(shù)路徑特征表達詞與詞之間的深層關(guān)系,在謂詞參數(shù)路徑上選擇walk特征,并且根據(jù)不同的子結(jié)構(gòu)分配不同的權(quán)值,能夠有效利用各類子結(jié)構(gòu)的優(yōu)勢,有助于蛋白質(zhì)關(guān)系抽取性能的提高。表3中的實驗結(jié)果表明,上下文特征可以全面檢索原文的語言表達信息,得到了最高的r值64.1%,但p值相對較低。句法特征能夠更準確地表達句子的句法和語義信息,在保持r值下降不明顯的前提下,對p值仃顯若性的扌時打洽上卜戈特孤和句法特征能夠利用句子不同層次的信息,有效地改善了蛋白質(zhì)關(guān)系抽取的性能。4.2.2與其他方法的比較表4是本文方法與其他方法在aimed語料上的性能比較。文獻:13]是基于規(guī)則的方法[5],文獻[9]和文獻[11]分別是
—論文發(fā)表專家一B國學朮發(fā)叢網(wǎng)www,圖核和路徑加權(quán)子序列核的方法。從表4中可以看出,與前3種方法相比,本文方法在aimed語料上的r值、f值和auc值都有所提高,p值達到了57.6%,僅次于文獻[11]。文獻[10]使用了多核和多分析器融合的方法,獲得了較高的性能。使用本文的方法,f俏為59.2%,與文獻[10]只相差了1.6%。由此可見,本方法可以達到與核方法類似的效果,同時也避免了核函數(shù)的復雜計為了測試本文方法在生物醫(yī)學語料庫上的泛化性能,在bioinfer、hprd50、iepa和川4個ppi語料庫上用同樣的方法進行了實驗。表5顯示了本文方法與其他方法在5個語料上的性能比較。在5個語料上本文方法的性能較前3種方法有明顯的提高。在hprd50、iepa、III3個數(shù)據(jù)集上,本文方法得到的f值較文獻]10]有較大幅度的提高;在aimed和bioinfer語料上的f值較低:.原NI婁是這兩個語料存忘看衣量的套雜句,這對分析器來說是一個很大的挑戰(zhàn);另一方面,這兩個語料的正負例比例非常不平衡(如表2所示),也是導致結(jié)果較低的一個原因。5結(jié)語本文使用基于上下文信息和句法信息的豐富特征進行ppi抽取,.£0/?.£0/?J"工.£0/?.£0/?J"工—論文發(fā)表專家一m國學朮友叢網(wǎng)www,qikanwang.n呂t著重分析各類不同特征對ppi抽取的影響。上下文特征能夠有效地表達原文信息,得到較高的召回率;句法特征有助于更好地理解句子的句法和語義信息,有助于提高ppi抽取的精確度。本文以svm為分類器,在5個公開的ppi語料上實驗。結(jié)果表明,我們所選取的豐富特征有效地融合了不同層次的特征,覆蓋了更加全面的信息,在ppi抽取任務中取得了較好的性能。參老文獻:zanzonia,montecchi.palazziI,quondamm,etal.mint:amolecularinteractiondatabase[j].febsletters,2002,513(1):135-140.:2]baderg,beteld,hoguec.bind—thebiomolecularinteractionnetworkdatabase[j].nucleicacidsresearch,2003,31(1):248-250.:3]xenariosi,richdw,salwinskil,etal.dip:thedatabaseofinteractingproteins[j].nucleicacidsresearch,2000,28(1):289-291.:4]bunescur,mooneyr,egratingco.occurrencestatisticswithinformationextractionforrobustretrieval—論文發(fā)表專家一m國學朮發(fā)舌廚www,qikanwangriEtofproteininteractionsfrommedline[c]IIbionip06:proceedingsoftheworkshoponlinkingnaturallanguageprocessingandbiology:towardsdeeperbiologicalliteratureanalysis.stroudsburg:associationforcomputationallinguistics,2006:49-56.:5]fundelk,kufferr,zimmerr.relex.relationextractionusingdependencyparsetrees[j].bioinformatics,2006,23(3):365-371.:6]nielsenIteininteractionsusingsimplecontextualfeatures[c]//bionlp06:proceedingsoftheworkshoponlinkingnaturallanguageprocessingandbiology:towardsdeeperbiologicalliteratureanalysis.stroudsburg:associationforcomputationallinguistics,2006:120-121.:7]miyaoy,saetrer,sagaek,etal.task.orientedevaluationofsyntacticparsersandtheirrepresentations:eb/ol].[2011-05-01]./anthology.new/p/p08/p08-1006.pdf.
—論文發(fā)表專家一m國學朮發(fā)舌網(wǎng)www,qikanwangn砒:8]bunescurc,mooneyrj.ashortest
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 江蘇財經(jīng)職業(yè)技術(shù)學院《打印創(chuàng)新設計》2023-2024學年第二學期期末試卷
- 天津醫(yī)科大學臨床醫(yī)學院《電視節(jié)目播音主持實訓》2023-2024學年第二學期期末試卷
- 邵陽職業(yè)技術(shù)學院《結(jié)構(gòu)設計軟件應用》2023-2024學年第二學期期末試卷
- 長春職業(yè)技術(shù)學院《三維動畫MAYA》2023-2024學年第二學期期末試卷
- 內(nèi)江師范學院《SAS與統(tǒng)計分析》2023-2024學年第二學期期末試卷
- 2025年重慶市建筑安全員考試題庫附答案
- 長春師范大學《公共管理與公共政策實務》2023-2024學年第二學期期末試卷
- 西安航空學院《老年認知癥的篩查與干預》2023-2024學年第二學期期末試卷
- 南京科技職業(yè)學院《會展設計實務》2023-2024學年第二學期期末試卷
- 襄陽職業(yè)技術(shù)學院《現(xiàn)代環(huán)境分析技術(shù)與應用》2023-2024學年第二學期期末試卷
- 病歷書寫相關(guān)法律法規(guī)
- 老舊小區(qū)加裝電梯方案
- 老年人誤吸與預防-護理團標
- 輸氣場站工藝流程切換操作規(guī)程課件
- 青少年網(wǎng)絡安全教育課件
- 2021年全國統(tǒng)一高考英語試卷(新課標Ⅰ)(原卷版)
- 產(chǎn)科抗磷脂綜合征診斷與處理專家共識護理課件
- 中醫(yī)護理中藥封包課件
- 2024年中智集團及下屬單位招聘筆試參考題庫含答案解析
- 中草藥材種植基地項目申請報告
- 2022年南京鐵道職業(yè)技術(shù)學院單招職業(yè)技能題庫及答案解析
評論
0/150
提交評論