




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、本文檔下載自HYPERLINK /文檔下載網(wǎng),內(nèi)容可能不完整,您可以點(diǎn)擊以下網(wǎng)址繼續(xù)閱讀或下載:HYPERLINK /doc/29cf0ec7c296011f0ce488d5/doc/29cf0ec7c296011f0ce488d5一種新的復(fù)合核函數(shù)及在問(wèn)句檢索中的應(yīng)用第33卷第1期 電 子 與 信 息 學(xué) 報(bào) Vol.33No.1 2011年1月 Journal of Electronics & Information Technology Jan. 2011一種新的復(fù)合核函數(shù)及在問(wèn)句檢索中的應(yīng)用王 君* 李舟軍 胡 俠 胡必云(北京航空航天大學(xué)計(jì)算機(jī)學(xué)院 北京 100191)(新加坡國(guó)立大
2、學(xué)計(jì)算機(jī)學(xué)院 新加坡 117590)摘 要:?jiǎn)柧錂z索在問(wèn)答系統(tǒng)中有著重要的作用,其核心問(wèn)題在于研究查詢(xún)問(wèn)句與候選問(wèn)句之間的相似性計(jì)算問(wèn)題,實(shí)現(xiàn)問(wèn)句之間的高精度匹配。該文采用樹(shù)核函數(shù)的方法計(jì)算問(wèn)句之間的結(jié)構(gòu)相似性,并針對(duì)原有算法的不足,做了相應(yīng)的改進(jìn)。為降低句法解析器性能對(duì)樹(shù)核函數(shù)的影響,該文在改進(jìn)的樹(shù)核函數(shù)基礎(chǔ)上,將其與字符串核結(jié)合,提出了一種能同時(shí)融合問(wèn)句的句法信息,詞性信息和詞序信息的復(fù)合核函數(shù),用以計(jì)算問(wèn)句之間的綜合語(yǔ)義相似性。在社區(qū)問(wèn)答系統(tǒng)Yahoo!Answer的數(shù)據(jù)上進(jìn)行測(cè)試,相對(duì)傳統(tǒng)的基于詞頻的特征向量法,問(wèn)句檢索平均準(zhǔn)確率提高了24.02%。關(guān)鍵詞:信息檢索;問(wèn)答系統(tǒng);問(wèn)句檢索
3、;復(fù)合核函數(shù)中圖分類(lèi)號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào):1009-5896(2011)01-0129-07 DOI: 10.3724/SP.J.1146.2010.00268Novel Composite Kernel and Application to Question RetrievalJun Li Zhou-jun Hu Xia Hu Bi-yun(Sch/doc/29cf0ec7c296011f0ce488d5ool of Computer Science and Engineering, Beihang University, Beijing 100191, China)(
4、 School of Computing, National University of Singapore, Singapore 117590): Question retrieval plays important role in question and answering systems. The main problem is how to measure the similarity between candidate questions and query question. This paper presents a tree kernel based method, name
5、d weighted tree kernel, to calculate the similarity of sentences structures and proposes improvements to the original tree kernel algorithm. In order to reduce the effect on tree kernel bringing by syntactic parsing, a composite kernel is proposed based on the weighted tree kernel and two other stri
6、ng kernels, which can capture syntax, part-of-speech and lexical level information of a sentence, to calculate the semantic similarity between question sentences. Experimental results on Yahoo!Answers dataset show that the p/doc/29cf0ec7c296011f0ce488d5roposed method outperforms traditional vector s
7、pace model based methods by 24.02% in question retrieval accuacry.words: Information retrieval; Question answering system; Question retrieval; Composite kernel 引言問(wèn)答系統(tǒng)是一種自然語(yǔ)言檢索,也稱(chēng)作問(wèn)答式信息檢索。它既能夠讓用戶(hù)用自然語(yǔ)言句子提問(wèn),又能夠?yàn)橛脩?hù)返回一個(gè)簡(jiǎn)潔、準(zhǔn)確的答案,而不是一些相關(guān)的網(wǎng)頁(yè)??紤]到自然語(yǔ)言理解技術(shù)的難度和魯棒性,問(wèn)答系統(tǒng)從研究初期就提出并開(kāi)展了基于問(wèn)答對(duì)的技術(shù)路線(xiàn)的研究,即從問(wèn)答對(duì)庫(kù)中檢索出于用戶(hù)問(wèn)題最為
8、相似的問(wèn)答對(duì)并把答案部分直接反饋給用戶(hù)的技術(shù)路線(xiàn)。(Frequent Ask Questions,F(xiàn)AQ)頁(yè)面是早期獲取問(wèn)答對(duì)的主要來(lái)源。2010-03-23收到,2010-07-05改回國(guó)家973規(guī)劃項(xiàng)目( 2007CB310803)資助課題 *通信作者:王君 wangjun07061491是第1個(gè)此技術(shù)路線(xiàn)下實(shí)現(xiàn)的較大規(guī)模的自動(dòng)問(wèn)答系統(tǒng)。近年來(lái),隨著社區(qū)問(wèn)答系統(tǒng)(Community Question Answering,CQA)的急速增長(zhǎng),如百度知道、雅虎知識(shí)堂、新浪愛(ài)問(wèn)等,這些網(wǎng)站聚集了千萬(wàn)級(jí)的可直接下載的問(wèn)答對(duì),因此更多的研究開(kāi)始轉(zhuǎn)向以這些問(wèn)答對(duì)作為語(yǔ)料庫(kù)?;趩?wèn)答對(duì)的問(wèn)答系統(tǒng),即從問(wèn)
9、答對(duì)庫(kù)中搜索出與用戶(hù)問(wèn)題最為相似的已回答問(wèn)題,并把該相似問(wèn)答對(duì)的答案部分反饋給用戶(hù),其核心問(wèn)題是研究查詢(xún)問(wèn)句與候選問(wèn)句之間的相似性計(jì)算問(wèn)題,實(shí)現(xiàn)問(wèn)句之間的高精度匹配。目前針對(duì)問(wèn)句的大多數(shù)相似性計(jì)算,相關(guān)的研究有:文獻(xiàn)1,2提出向量空間模型,計(jì)算查詢(xún)問(wèn)句向量和候選問(wèn)句向量的夾角余弦。文獻(xiàn)3,4提出將 /doc/29cf0ec7c296011f0ce488d5 電 子 與 信 息 學(xué) 報(bào) 第33卷語(yǔ)言模型應(yīng)用到社區(qū)問(wèn)答系統(tǒng)問(wèn)句檢索中;文獻(xiàn)5提出了基于翻譯模型的問(wèn)答系統(tǒng)檢索模型。以上這些方法以特征向量為處理對(duì)象,難以表示結(jié)構(gòu)化的特征,存在數(shù)據(jù)稀疏的問(wèn)題。針對(duì)上述問(wèn)題,文獻(xiàn)6使用樹(shù)核7對(duì)結(jié)構(gòu)化特征進(jìn)行
10、建模并取得了不錯(cuò)的效果。文獻(xiàn)6使用問(wèn)句的句法樹(shù)(syntactic parsing tree),簡(jiǎn)稱(chēng)為句法樹(shù),表示問(wèn)句的結(jié)構(gòu)特征。在一棵句法樹(shù)中,樹(shù)中節(jié)點(diǎn)的深度越深,如葉子節(jié)點(diǎn),則該節(jié)點(diǎn)表達(dá)的信息越具體,包含的信息越多;深度越淺,如根節(jié)點(diǎn),則該節(jié)點(diǎn)表達(dá)的信息越抽象,包含的信息越少。此外,對(duì)于一個(gè)句子,根據(jù)語(yǔ)言學(xué)知識(shí),通常有主要成分(如主語(yǔ)、謂語(yǔ)、賓語(yǔ)等),和次要成分(如定語(yǔ)、狀語(yǔ)、補(bǔ)語(yǔ)等)構(gòu)成,不同的成分對(duì)于表達(dá)一個(gè)句子的語(yǔ)義起著不同的作用,因此在比較兩個(gè)句子的相似度時(shí)應(yīng)予以區(qū)別對(duì)待。文獻(xiàn)7提出的樹(shù)核,通過(guò)計(jì)算兩棵句法樹(shù)之間的相同子樹(shù)的數(shù)量來(lái)比較句法樹(shù)之間的相似度,沒(méi)有區(qū)別節(jié)點(diǎn)的深度特征和句法
11、成分特征。為此,本文在文獻(xiàn)7基礎(chǔ)上,在核函數(shù)的設(shè)計(jì)中,做了進(jìn)一步的改進(jìn),針對(duì)句法樹(shù)節(jié)點(diǎn)的成分特征和深度特征,引入加權(quán)機(jī)制,提出一種加權(quán)樹(shù)核,并在問(wèn)句檢索問(wèn)題中取得了預(yù)期的效果。基于問(wèn)答對(duì)的問(wèn)答系統(tǒng)中問(wèn)句檢索所面向的處理對(duì)象是相對(duì)簡(jiǎn)短的問(wèn)句,問(wèn)句通常包含較少的詞,因此,要使檢索性能得以提高,就需要從簡(jiǎn)短的問(wèn)句中盡可能多地提取對(duì)檢索有幫助的信息。但是,自然語(yǔ)言處理中一個(gè)不可避免的問(wèn)題是,隨著處理層次的深入,處理結(jié)果的準(zhǔn)確率越低。以英語(yǔ)的分詞、分塊和句子解析為例,其準(zhǔn)確率分別是99%,%和90%8。為充分利用問(wèn)答系統(tǒng)中問(wèn)句的各種特征,同時(shí)降低句法分析精度對(duì)問(wèn)句檢索性能的影響,本文提出一種以加權(quán)樹(shù)核和
12、字符串核為基礎(chǔ)的復(fù)合核函數(shù),通過(guò)融合問(wèn)句的結(jié)構(gòu)特征,詞性特征和詞序特征,進(jìn)一步提高問(wèn)句檢索的性能。該方法不需要構(gòu)造高維特征向量,直接計(jì)算離散對(duì)象之間的相似度。理論上,可探索隱含的高維特征空間,易于實(shí)現(xiàn)對(duì)新的特征提取以及與新的核函數(shù)的組合,具有良好的/doc/29cf0ec7c296011f0ce488d5擴(kuò)展性和適應(yīng)性。在社區(qū)問(wèn)答系統(tǒng)Yahoo!Answer的問(wèn)答對(duì)測(cè)試數(shù)據(jù)上的實(shí)驗(yàn)表明,與傳統(tǒng)的基于詞頻的特征向量法相比,本文提出的復(fù)合核函數(shù)法,顯著提高了問(wèn)答系統(tǒng)中問(wèn)句搜索的性能。 基于核函數(shù)的問(wèn)句相似性度量方法樹(shù)核函數(shù)簡(jiǎn)介樹(shù)核(tree kernel)是由文獻(xiàn)7提出的,通過(guò)計(jì)算兩句法樹(shù)之間的相
13、同樹(shù)片段的數(shù)量來(lái)比較句法樹(shù)之間的相似度。為了獲得句子中的語(yǔ)法結(jié)構(gòu)信息,文獻(xiàn)7將句法樹(shù)中的所有樹(shù)片段(Syntactic Tree Fragments,STFs)作為特征空間。每個(gè)樹(shù)片段(STF)是句法樹(shù)的一部分,至少包含一條語(yǔ)法產(chǎn)生式,并且要保證每條產(chǎn)生式的完整性。以問(wèn)句“What is an atom”為例,圖1(a)表示了該問(wèn)句的句法樹(shù),圖1(b)表示了句法樹(shù)(a)的一棵子樹(shù)以及生成該子樹(shù)的產(chǎn)生式,圖1(c)列出了子樹(shù)(b)包含的所有STFs。此處圖片未下載成功此處圖片未下載成功 圖1 句法樹(shù)、子樹(shù)及其樹(shù)片段兩棵句法樹(shù)T1, T2的樹(shù)核函數(shù)定義為(T1,T2)=C(n1,n2) (1)N1
14、n2N2其中N1, N2分別是兩棵樹(shù)T1, T2中節(jié)點(diǎn)的集合,C(n1,n2)表示分別以n1,n2為根節(jié)點(diǎn)的子樹(shù)中相同的樹(shù)片段的個(gè)數(shù),計(jì)算方法如下: 0, n1n2 1, n1=n2并且n1,n2是葉子節(jié)點(diǎn)C(n ,n2)= , n1=n2并且n1,n2是葉子節(jié)點(diǎn)(2) 的直接父節(jié)點(diǎn) nc(n 1)1 C(ch(n1,j),ch(n2,j), 其它 j=1其中nc(n)表示節(jié)點(diǎn)n 的子節(jié)點(diǎn)的個(gè)數(shù),ch(n,j)表示節(jié)點(diǎn)n 的第j個(gè)子節(jié)點(diǎn),n1=n2表示節(jié)點(diǎn)n1, n2的標(biāo)簽和產(chǎn)生式都相同,是一個(gè)權(quán)值參數(shù)。 2.2 加權(quán)樹(shù)核函數(shù)文獻(xiàn)7中提出的樹(shù)核函數(shù)是針對(duì)語(yǔ)義標(biāo)注這/doc/29cf0ec7c2
15、96011f0ce488d5一問(wèn)題提出的,沒(méi)有考慮問(wèn)題系統(tǒng)中問(wèn)句的特點(diǎn),如果直接使用,進(jìn)行問(wèn)句檢索可能并不合適。此外,文獻(xiàn)7在樹(shù)核的定義中假定,每個(gè)樹(shù)片段對(duì)句法樹(shù)的貢獻(xiàn)是相同的,沒(méi)有區(qū)分問(wèn)句中主要成分和次要成分的區(qū)別。本文針對(duì)這一問(wèn)題提出了一種改進(jìn)的加權(quán)樹(shù)核函數(shù),并將其用于比較問(wèn)句的句法樹(shù)相似性。第1期 王 君等:一種新的復(fù)合核函數(shù)及在問(wèn)句檢索中的應(yīng)用 131在一棵句法樹(shù)中,樹(shù)中節(jié)點(diǎn)的深度越深,如葉子節(jié)點(diǎn),則該節(jié)點(diǎn)表達(dá)的信息越具體,包含的信息越多;深度越淺,如根節(jié)點(diǎn),則該節(jié)點(diǎn)表達(dá)的信息越抽象,包含的信息越少。定義1 節(jié)點(diǎn)的深度:令j表示句法樹(shù)T中的一個(gè)非葉子節(jié)點(diǎn),depj表示節(jié)點(diǎn)j在T中的深度
16、,其值等于i在T中所在的層次,其中deproot=0, root 是T的根節(jié)點(diǎn)。如圖1(c)所示,這6棵STF在圖1(a)所示的句法樹(shù)中的深度分別是:2,2,2,2,3,3(按從左到右,從上到下順序)。根據(jù)語(yǔ)言學(xué)知識(shí)可知,任何句子都是由關(guān)鍵成分(主語(yǔ)、謂語(yǔ)、賓語(yǔ)等)和修飾成分(定語(yǔ)、狀語(yǔ)、補(bǔ)語(yǔ)等)構(gòu)成的。關(guān)鍵成分對(duì)句子起了主要作用,修飾成分對(duì)句子起了次要作用。在一棵句法樹(shù)中,不同的節(jié)點(diǎn)代表不同的句子成分。在通常情況下,一個(gè)句子中作為主語(yǔ)和賓語(yǔ)的多數(shù)為名詞或代詞,作為謂語(yǔ)的多為動(dòng)詞。疑問(wèn)詞在問(wèn)題檢索中也有著重要的作用。本文用節(jié)點(diǎn)的權(quán)重來(lái)表示節(jié)點(diǎn)在一棵句法樹(shù)中的重要性。定義2 節(jié)點(diǎn)的權(quán)重:令j表示
17、句法樹(shù)T中的一個(gè)非葉子節(jié)點(diǎn),j表示節(jié)點(diǎn)j在T中的權(quán)重,label(j)表示節(jié)點(diǎn)j的標(biāo)簽,如 WP, VP, NN等,節(jié)點(diǎn)j的權(quán)重等于:(1) j=Q, label(j)=W*(表示任意字母);(2) j=NV, label(j)=N*或lable(j)=V*;(3) 0.1j=,其它。其中Q表示和疑問(wèn)詞相關(guān)的節(jié)點(diǎn)的權(quán)重,NV表示和名詞或代詞相關(guān)的節(jié)點(diǎn)的權(quán)重。根據(jù)節(jié)點(diǎn)的深度和節(jié)點(diǎn)的權(quán)重的定義,定義3 為STF/doc/29cf0ec7c296011f0ce488d5的權(quán)重定義。定義3 STF的權(quán)重:令i表示句法樹(shù)T中一個(gè)STF, i表示i的權(quán)重,則此處圖片未下載成功 (i)(i)i= (3)=其
18、中d(i)表示i的根節(jié)點(diǎn)的深度,是一個(gè)常量表示i的影響因子,s(i)表示i中包含的非葉子節(jié)點(diǎn)的個(gè)數(shù),j表示每個(gè)非葉子節(jié)點(diǎn)的權(quán)重。將要處理的數(shù)據(jù)映射到一個(gè)m維空間中,令每棵句法樹(shù)T用一個(gè)m維向量表示,V(T)=(v1(T), v2(T),vm(T),其中第i個(gè)分量表示在m 維空間第i個(gè)STF在T中權(quán)重。加權(quán)樹(shù)核函數(shù)定義為(T1,T2)=V(T1),V(T2) (4) 由于m是一個(gè)很大的值,并且不容易求得具體值,用下面的方法計(jì)算WTK(T1,T2)的值。令N表示句法樹(shù)T 中所有非葉子節(jié)點(diǎn)的集合,是N中的一個(gè)節(jié)點(diǎn),i是m維空間中第i個(gè)STF,定義Ii(n)為這樣的一個(gè)指示函數(shù),= 1, i以節(jié)點(diǎn)n為
19、根節(jié)點(diǎn)(n) , 其它 (5)可推導(dǎo)出如下等式:此處圖片未下載成功此處圖片未下載成功 )(T)=(n)=(n)Ns(i)(ij=nNs(i(n)Iij=(6)則加權(quán)樹(shù)核函數(shù)WTK(T1,T2)等于(T1,T2)=V(T1) V(T2)=vi(T1)vi(T2)=d(n1) d(n2)2(n,n2)(7)N1nN2其中(i)(n1,n2)=jIi(n1)Ii(n2) /doc/29cf0ec7c296011f0ce488d5 (8)=1計(jì)算方法為 0, n1n2 n1, ,n1=n2并且n1n2是葉子節(jié)點(diǎn) (nn ,2)= 的直接父節(jié)點(diǎn) nc( n1)n11 (ch(n1,j),ch(n2,j)
20、, j=1 n1=n2且非葉子節(jié)點(diǎn)或葉子直接父節(jié)點(diǎn)(9) 其中nc(n)表示節(jié)點(diǎn)n 的子節(jié)點(diǎn)個(gè)數(shù)。如果n1和n2節(jié)點(diǎn)處有相同產(chǎn)生式則nc(n1)=nc(n2), ch(n,j)表示節(jié)點(diǎn)n 的第j個(gè)子節(jié)點(diǎn)。 2.3 字符串核和復(fù)合核樹(shù)核能有效地挖掘句子中的結(jié)構(gòu)化信息,但是樹(shù)核只捕獲了句子的語(yǔ)法信息,而對(duì)于計(jì)算句子相似度有用的詞序、詞性等信息需要另外獲取。本文用字符串核來(lái)挖掘句子中的詞序列和詞性序列信息。字符串核函數(shù)的思想是通過(guò)比較兩個(gè)字符串共同包含的子串個(gè)數(shù)和連續(xù)程度來(lái)衡量?jī)蓚€(gè)字符串的相似程度。共同的子串越多,兩個(gè)字符串就越相似。這里的子串不一定是連續(xù)的,但是它的連續(xù)程度被用來(lái)作為衡量相似度的一
21、個(gè)指標(biāo)。字符串核函數(shù)的形式化定義如文獻(xiàn)9。定義4 設(shè)是一個(gè)有限字符集合,S=S1, S2,S|S|是上的一個(gè)字母序列,其中Si, 1i|S|。設(shè)i=i1,i2,in,且1i1i20.5,則rel(qi,Cij)=1,否則rel(qi,Cij)=0。在此基礎(chǔ)上,再采用人工方法,對(duì)自動(dòng)判斷結(jié)果進(jìn)行確認(rèn)和更正,并將人工判斷的結(jié)果作為本文實(shí)驗(yàn)的標(biāo)準(zhǔn)測(cè)試集,記為Cdataset。對(duì)于每個(gè)查詢(xún)問(wèn)句qi和它的候選相似性問(wèn)句集Ci,采用不同的相似性度量方法,對(duì)候選相似性問(wèn)句集中的問(wèn)句進(jìn)行相似度判斷,并根據(jù)相似度的值按從高到低的順序進(jìn)行排序,采用MRR(Mean Reciprocal Rank),Precisi
22、onn 和MAP(Mean Average of Precision)3種評(píng)價(jià)標(biāo)準(zhǔn)對(duì)所采用的相似性度量方法進(jìn)行評(píng)價(jià)。MRR,Precisionn和MAP的計(jì)算方法分別如下:(1)MRR:=|Q r|q (13) Qrrq):/answers/V1/questionSearch.html第1期 王 君等:一種新的復(fù)合核函數(shù)及在問(wèn)句檢索中的應(yīng)用 133其中Qr表示查詢(xún)測(cè)問(wèn)句試集,rq是第一個(gè)相關(guān)問(wèn)句的順序。(2)Precisionn:n(j)n=1(14) 其中rel(j)表示第j個(gè)候選問(wèn)句和查詢(xún)問(wèn)句是否相關(guān),值域?yàn)?doc/29cf0ec7c296011f0ce488d50,1。Precisio
23、nn表示前n個(gè)候選相似問(wèn)句中相關(guān)的問(wèn)句的個(gè)數(shù)所占的比例。(3)MAP:n(r)rel(r)=1=1|Qr|qQr|R (15)|其中Qr表示查詢(xún)問(wèn)句集,Rq表示和查詢(xún)問(wèn)句相關(guān)的問(wèn)句,r是其排列次序,N是檢索的問(wèn)句的個(gè)數(shù),rel(r) 表示第r個(gè)候選問(wèn)句和查詢(xún)問(wèn)句是否相關(guān),值域?yàn)?,1, P(r)表示前r個(gè)檢索的問(wèn)句的相關(guān)問(wèn)句所占比例。加權(quán)樹(shù)核(WTK)參數(shù)設(shè)置本文提出的樹(shù)核函數(shù)WTK與文獻(xiàn)7中提出的樹(shù)核TK的區(qū)別是引入了深度影響因子,節(jié)點(diǎn)權(quán)值影響因子Q和NV,當(dāng)=1,Q=NV=0.1時(shí),WTK等價(jià)于TK。本節(jié)分析比較了上述3個(gè)因子對(duì)問(wèn)句搜索性能的影響,其中句法解析器采用stanford par
24、ser3)。(1)權(quán)重因子Q和NV 圖2(a)顯示了在UIUC數(shù)據(jù)集和Cdatasets數(shù)據(jù)集上進(jìn)行相似問(wèn)句搜索時(shí),=1,NV=0.1,Q取值從0.05-0.19時(shí)所對(duì)應(yīng)的MAP值。該實(shí)驗(yàn)測(cè)試了和疑問(wèn)詞相關(guān)的節(jié)點(diǎn)的權(quán)重因子Q對(duì)實(shí)驗(yàn)性能的影響。圖中,橫坐標(biāo)表示Q的取值,曲線(xiàn)TK表示采用未改進(jìn)的樹(shù)核作為相似性度量標(biāo)準(zhǔn)時(shí)所對(duì)應(yīng)的MAP值,曲線(xiàn)TK vQ表示采用本文提出的對(duì)和疑問(wèn)詞相關(guān)節(jié)點(diǎn)進(jìn)行權(quán)值計(jì)算的樹(shù)核函數(shù)作為相似性度量標(biāo)準(zhǔn)時(shí)所對(duì)應(yīng)的MAP值。圖2(a)顯示,隨著Q取值的增加,相應(yīng)的MAP值逐漸下降。當(dāng)Q0.05,0.07時(shí),MAP取得最大值。圖2(a)說(shuō)明,當(dāng)和疑問(wèn)詞相關(guān)的節(jié)點(diǎn)的權(quán)重小于其它節(jié)點(diǎn)
25、的權(quán)重時(shí),問(wèn)句檢索的性能得到提高。出現(xiàn)這一現(xiàn)象的原因可能是因?yàn)闄z索的數(shù)據(jù)中每個(gè)(或大多數(shù))候選問(wèn)句中都包含有查詢(xún)問(wèn)句中出現(xiàn)的疑問(wèn)詞,因此降低了疑問(wèn)詞這一特征的區(qū)分類(lèi)別能力。因此,降低和疑問(wèn)詞相關(guān)的節(jié)點(diǎn)的權(quán)重,對(duì)于提高檢索性能是有用的。圖2(b)顯示了在UIUC數(shù)據(jù)集和Cdatasets數(shù)據(jù)集上進(jìn)行相似問(wèn)句搜索時(shí),=1,Q=0.1,N/doc/29cf0ec7c296011f0ce488d5V取值從0.05-0.19時(shí)所對(duì)應(yīng)的MAP值。該實(shí)驗(yàn)測(cè)試3):/software/lex-parser.shtml了和名詞或動(dòng)詞相關(guān)的節(jié)點(diǎn)的權(quán)重因子NV對(duì)實(shí)驗(yàn)性能的影響。圖中,橫坐標(biāo)表示NV的取值,曲線(xiàn)TK表
26、示采用未改進(jìn)的樹(shù)核作為相似性度量標(biāo)準(zhǔn)時(shí)所對(duì)應(yīng)的MAP值,曲線(xiàn)TK vNV表示采用本文提出的對(duì)和名詞或動(dòng)詞相關(guān)節(jié)點(diǎn)進(jìn)行權(quán)值計(jì)算的樹(shù)核函數(shù)作為相似性度量標(biāo)準(zhǔn)時(shí)所對(duì)應(yīng)的MAP值。圖2(b)顯示,隨著Q取值的增加,相應(yīng)的MAP值逐漸下降。當(dāng)NV=0.13時(shí),MAP取得最大值。當(dāng)NV0.11或NV0.16時(shí),TK vNV曲線(xiàn)所示的樹(shù)核對(duì)應(yīng)的MAP值小于曲線(xiàn)TK所示的樹(shù)核對(duì)應(yīng)的MAP值。實(shí)驗(yàn)結(jié)果說(shuō)明適當(dāng)?shù)卦黾雍椭饕煞?如名詞、動(dòng)詞)相關(guān)的節(jié)點(diǎn)的權(quán)重有助于提高問(wèn)句檢索的性能。(2)深度影響因子 對(duì)深度影響因子,進(jìn)行了類(lèi)似實(shí)驗(yàn),實(shí)驗(yàn)表明,當(dāng)=0.9時(shí),本文提出的樹(shù)核(不考慮節(jié)點(diǎn)權(quán)重因子)取得最好的實(shí)驗(yàn)結(jié)果。
27、表2中,TK表示沒(méi)有改進(jìn)的樹(shù)核,TK 表示帶有深度影響因子的樹(shù)核。Impr.表示改進(jìn)率。該表列出了兩種樹(shù)核分別取得Precision10, MRR和MAP的值。和沒(méi)有改進(jìn)的樹(shù)核相比,改進(jìn)的樹(shù)核在3種評(píng)價(jià)標(biāo)準(zhǔn)下分別提高了21.56%,3.48% 和2.45%。這說(shuō)明句法樹(shù)中樹(shù)片段的深度及其影響因子在計(jì)算問(wèn)句相似性上是有用的,同樹(shù)核相比,帶有深度影響因子的樹(shù)核在捕獲句子的結(jié)構(gòu)信息上更加有效。表2 深度影響因子對(duì)實(shí)驗(yàn)性能的影響核函數(shù) MRR MAP 10(Impr.)(Impr.)(Impr.)0.285(N.A) 0.383(N.A) 0.364(N.A) TK ( 21.56%)( 3.48%)
28、 0.372( 2.45%)復(fù)合核函數(shù)性能評(píng)價(jià)為了測(cè)試本文提出的復(fù)合核函數(shù)在問(wèn)句搜索上的性能,本文分別采用/doc/29cf0ec7c296011f0ce488d57種獨(dú)立方法進(jìn)行比較。表3列出了這7種方法的名稱(chēng)和描述,其中帶星號(hào)(*)的為本文提出方法。每種方法參數(shù)設(shè)置如下:TKtree中 =0.9,WTKtree 中=0.9,Q=0.05,NV= 0.13,WKword 中=0.9,n=1,PKPOS中=0.9, n=3,CKword POS tree中1=0.4,2=0.4,3=0.4,其它方法均采用默認(rèn)參數(shù)設(shè)置。表4列出了實(shí)驗(yàn)結(jié)果,表中括號(hào)里的數(shù)值是相對(duì)于VSMBOW的相對(duì)提高幅度。表4
29、說(shuō)明:(1)本文提出的加權(quán)樹(shù)核WTKtree在問(wèn)句搜索性能上優(yōu)于沒(méi)有實(shí)現(xiàn)加權(quán)機(jī)制的樹(shù)核TKtree。其TKtree Precision10, MRR, MAP相比分別提高39.65%, 電 子 與 信 息 學(xué) 報(bào) 第33卷此處圖片未下載成功此處圖片未下載成功此處圖片未下載成功此處圖片未下載成功 圖2 MAP 與vQ, vNV的關(guān)系表3 實(shí)驗(yàn)方法和描述方法名稱(chēng) VSMBOW LMBOW TKtree WTKtree* WKword PKPOS CKword POS tree*方法描述基于詞袋(bag-of-words)表示的空間向量模型法基于詞袋(bag-of-words)表示的語(yǔ)言模型法 基于
30、語(yǔ)法樹(shù)的樹(shù)核函數(shù)法基于語(yǔ)法樹(shù)的加權(quán)樹(shù)核函數(shù)法(本文提出方法) 基于詞序列的詞序列核函數(shù)法 基于詞性序列的詞序列核函數(shù)法 基于詞序列,詞性序列和語(yǔ)法樹(shù)的復(fù)合 核函數(shù)法(本文提出方法)(3)詞序列核WKword和詞性序列核PKPOS性能 好于基于詞袋表示的空間向量模型VSMBOW方法和說(shuō)明基于字符串的核在計(jì)算語(yǔ)言模型LMBOW方法;:/doc/29cf0ec7c296011f0ce488d5par問(wèn)句相似性上是有效的。(4)本文提出的復(fù)合核CKword POS tree性能上明顯好于上述幾種方法,說(shuō)明混合的3種核相互補(bǔ)充,充分利用了句子的詞序,詞性序列,和句子結(jié)構(gòu)信息。 結(jié)論本文在原有樹(shù)核的基礎(chǔ)上
31、引入了加權(quán)機(jī)制,提出了一種加權(quán)樹(shù)核函數(shù),區(qū)分不同成分的節(jié)點(diǎn)在句子中的重要性,從而能更加有效捕獲句子的句法結(jié)構(gòu)信息。此外,在加權(quán)樹(shù)核,詞序列核和詞性序列核的基礎(chǔ)上,本文還提出了一種復(fù)合核,利用詞序,詞性等簡(jiǎn)單特征與句子結(jié)構(gòu)特征的融合,降低句法解析器的性能對(duì)檢索性能的影響。實(shí)驗(yàn)表明,復(fù)合核能充分利用句子的詞序、詞性、和句法信息,在計(jì)算句子相似度,用于進(jìn)行基于問(wèn)答系統(tǒng)的問(wèn)句搜索任務(wù)中,檢索性能取得了明顯改進(jìn)。本文中提到的檢索性能是針對(duì)檢索準(zhǔn)確率而言的,對(duì)于檢索時(shí)間效率沒(méi)有考慮,如何在提高檢索性能的同時(shí)提高時(shí)間效率是本文今后進(jìn)一步研究方向。%和9.07%。這說(shuō)明本文提出的加權(quán)機(jī)制是有效的,在捕獲句子的
32、結(jié)構(gòu)信息上,WTKtree比TKtree更加有效。(2)基于樹(shù)核的方法TKtree和WTKtree總體評(píng)價(jià)上性能略低于VSMBOW 和LMBOW, 出現(xiàn)這一現(xiàn)象的原因之一可能是在句法解析過(guò)程中錯(cuò)誤的解析造成的。由于本文中直接使用了Stanford Parser用于進(jìn)行問(wèn)句的句法解析,由于該解析器是離線(xiàn)解析器,訓(xùn)練集不是專(zhuān)門(mén)針對(duì)問(wèn)答系統(tǒng)的問(wèn)句,因此,降低了其解析準(zhǔn)確率,從而影響了基于句法樹(shù)的樹(shù)核方法在問(wèn)句檢索中的性能。表4 實(shí)驗(yàn)結(jié)果方法10(Impr.) MRR(Impr.)(Impr.)0.268(N.A) 0.439(N.A.) 0.403(N.A.) LMBOW( 23.12%) 0.47
33、2( 7.64%) 0.445( 10.37%)0.285( 6.20%) 0.383(-12.72%) 0.364(-9.78%) WTKtree*:/doc/29cf0ec7c296011f0ce488d5parWKword PKPOS CKword POS tree*( 48.51%) 0.394(-10.17%) 0.397(-1.36%)( 34.33%) 0.4889( 11.21%) 0.465( 15.45%) 0.350( 30.56%) 0.5189( 18.22%) 0.483( 19.76%) 0.400( 49.25%) 0.506( 15.35%) 0.499( 2
34、4.02%)第1期 王 君等:一種新的復(fù)合核函數(shù)及在問(wèn)句檢索中的應(yīng)用 135參 考 文 獻(xiàn)1R D, Hammond K J, and Kulyukin V A, et al. Question answering from frequently asked question files: experiments with the faq finder systemJ. AI Magazine, 1997, 18(2): 57-66. 2V and De Rijke M. Retrieving answers from frequently asked questions pages on t
35、he web C. In CIKM05: Proceedings of the 14th ACM international conference on Information and knowledge management, Bremen, Germany, 2005: 84-90. 3Xin, Cong Gao, and Cui Bin, et al. The use of categorization information in language models for question retrieval C. In CIKM09: Proceeding of the /doc/29
36、cf0ec7c296011f0ce488d518th ACM conference on Information and knowledge management, Hong Kong, China, 2009: 256-274. 4Hui-zhong, Cao Yun-bo, and Lin Chin-yew, et al. Searching questions by identifying questions topic and question focus C. In ACL-08: HLT: Proceeding of the 46th annual meeting of the a
37、ssociation for computational linguistics: Human Language Technologies, Columbus, OH, USA, 2008: 156-164. 5Xiao-bing, Jeon J, and Croft W B. Retrieval models for question and answer archives C. In SIGIR 08: Proceedings of the 31st annual international ACM SIGIR conference on Research and development
38、in information retrieval, New York, NY, USA, 2008: 475-482. 6Kai, Ming Zhao-yan, and Chua Tat-seng. A syntactic tree matching approach to finding similar questions in community-based QA services C. In SIGIR09: Proceedings of the 32nd international ACM SIGIR conference on Researchdevelopment in info/doc/29cf0ec7c296011f0ce488d5rmation retrieval, Boston, MA, USA, 2009: 187-194.7M and Duffy N. Convolution Kernels for Natural Language M. Advances in
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 勞務(wù)合同夫妻代簽協(xié)議書(shū)
- 廠房土地轉(zhuǎn)讓合同范本
- 徐匯橋下土方外運(yùn)協(xié)議書(shū)
- 兒童校園事故賠償協(xié)議書(shū)
- 崗位安全聯(lián)?;ケf(xié)議書(shū)
- 勞務(wù)公司工程掛靠協(xié)議書(shū)
- 工地集成房屋租賃協(xié)議書(shū)
- 煤礦掘進(jìn)工程承包協(xié)議書(shū)
- 暑期實(shí)踐活動(dòng)安全協(xié)議書(shū)
- T/CADBM 18-2019室內(nèi)空氣凈化材料凈化性能及有害物質(zhì)限量
- 2024-2025年中國(guó)家用新風(fēng)系統(tǒng)市場(chǎng)供需格局及未來(lái)發(fā)展趨勢(shì)報(bào)告
- 老年髖部骨折圍手術(shù)期護(hù)理學(xué)習(xí)資料
- 防火門(mén)監(jiān)控系統(tǒng)施工方案
- 《皮質(zhì)醇增多征荊》課件
- 2025年春新人教版生物七年級(jí)下冊(cè)課件 第四單元 人體生理與健康(一) 單元小結(jié)
- 大數(shù)據(jù)導(dǎo)論-大數(shù)據(jù)如何改變世界知到智慧樹(shù)章節(jié)測(cè)試課后答案2024年秋浙江大學(xué)
- 軟裝設(shè)計(jì)方案課件
- 動(dòng)脈硬化課件
- TDT1075-2023光伏發(fā)電站工程項(xiàng)目用地控制指標(biāo)
- 急診科運(yùn)用PDCA循環(huán)降低急診危重患者院內(nèi)轉(zhuǎn)運(yùn)風(fēng)險(xiǎn)品管圈QCC專(zhuān)案結(jié)題
- 醫(yī)院廢水管理培訓(xùn)
評(píng)論
0/150
提交評(píng)論