版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
面向任務(wù)的代碼搜索代碼搜索在軟件開(kāi)發(fā)過(guò)程中,代碼搜索能夠?yàn)殚_(kāi)發(fā)者提供參考的代碼段去輔助完成特定的編程任務(wù)。2016/7/25
/2Section基礎(chǔ)數(shù)據(jù)和One
影響力分析By
江賀基礎(chǔ)數(shù)據(jù)和影響力分析?
收集了93篇與代碼/API
推薦相關(guān)的文獻(xiàn)?
作者總計(jì)208個(gè),國(guó)家16個(gè)。?
分析回答以下問(wèn)題:?
1.
Where?作者來(lái)自哪里??
2.Who?誰(shuí)是最高產(chǎn)的作者?影響力如何??
3.
Which?那篇文章被引次數(shù)最多??
4.Co-authorship
network
合著網(wǎng)絡(luò)?4作者來(lái)自哪里?Iran,
1Switzerland,2France,1Israel,3
Singapore,
4Belgium,3USAThailand,
1India,
4ChinaGermany,4Italy,5CanadaJapanSouth
Korea,
8BrazilSouth
KoreaItalyBrazil,
9USA,
83Japan,11GermanyIndiaCanada,19BelgiumIsraelSingaporeSwitzerlandFranceIran作者總計(jì)國(guó)家16個(gè)208個(gè)China,50Thailand5誰(shuí)是最高產(chǎn)的作者?序號(hào)作者相關(guān)論文篇數(shù)
H-index國(guó)家12David
Lo10833113911201849202040SingaporeUSACollin
McMillan3
Denys
Poshyvanyk8USA45678Shaowei
WangMark
GrechanikEmily
Hill8SingaporeUSA76USATa
oXie4USAReidHolmes4CanadaUSA9
Sushil
Bajracharya10
Cristina
Lopes44USA6誰(shuí)是最高產(chǎn)的作者?序號(hào)作者相關(guān)論文篇數(shù)
H-index國(guó)家12David
Lo1083311391120SingaporeUSACollin
McMillan3
Denys
Poshyvanyk8USA45Shaowei
WangMark
Grechanik8SingaporeUSA7作者影響力?序號(hào)作者相關(guān)論文篇數(shù)
ACS指數(shù)總被引次數(shù)12345Ta
oXie4421245.3184.8165.7165.0723411350165ReidHolmesGail
C.MurphySteven
P.
ReissSureshThummalapenta231156.0121.6100.530948320167K.
Vijay-ShankerNaiyanaSahavechaphan89Kajal
ClaypoolDavid
MandelinLinXu111100.587.587.520135035010注:ACS不僅衡量了作者對(duì)文章的貢獻(xiàn)度,還衡量了對(duì)該領(lǐng)域的貢獻(xiàn)度8作者影響力?序號(hào)作者相關(guān)論文篇數(shù)
ACS指數(shù)總被引次數(shù)12345Ta
oXie4421245.3184.8165.7165.0723411350165ReidHolmesGail
C.MurphySteven
P.
ReissSuresh2156.0309哪篇文章被引數(shù)最多?序號(hào)題目被引次數(shù)NCII期刊PLDI200512Jungloid
mining:
helpingto
navigatethe
API
jungle35030631.82Parseweb:
aprogrammer
assistant
for
reusingopen
sourcecode
ontheweb34.00
ASE2007ICSE345Usingstructuralcontext
to
recommend
source
code
examplesXSnippet:
mining
Forsamplecode29420126.7320.102005OOPSLA2006Mining
API
patterns
as
partialordersfromsource
code:
fromusage
scenariosto
specifications20122.33
FSE2007Usingnatural
language
programanalysisto
locateandunderstand
action-orientedconcerns6AOSD200718218017320.2225.71ECOOP200978MAPO:
MiningandRecommending
API
Usage
PatternsExample-centric
programming:integratingweb
search
intothedevelopment
environment28.83
CHI
2010ICSE9Semantics-based
codesearch23.57165155200922.14
FSE200910
Learning
fromexamplesto
improvecode
completionsystems10哪篇文章被引數(shù)最多?序號(hào)題目被引次數(shù)NCII期刊PLDI200512Jungloid
mining:
helpingto
navigatethe
API
jungle35030631.82Parseweb:
aprogrammer
assistant
for
reusingopen
sourcecode
ontheweb34.00
ASE2007ICSE3Usingstructuralcontext
to
recommend
source
code
examplesXSnippet:
mining
Forsamplecode29420126.7320.102005OOPSLA200641.Jungloidmining:
helpingto
navigatethe
API
junglePLDI
2005.,2.Parseweb:
aprogrammer
assistant
for
reusingopensourcecodeontheweb,
ASE2007.3.Using
structuralcontexttorecommend
sourcecodeexamples,ICSE2005.作者合著網(wǎng)絡(luò)(1)12作者合著網(wǎng)絡(luò)
(2)作者合著網(wǎng)絡(luò)
(3)14Section代碼搜索的兩個(gè)嘗試TwoBy
聶黎明代碼搜索的分類按輸入類型分:自由文本作為查詢(面向任務(wù)的代碼搜索)?
Lvetal.
ASE
2015,
Keivanlooetal.ICSE
2014,
McMillanetal.
TOSEM
2013,Bajracharyaetal.FSE
2010.API作為查詢?
Subramanian
etal.ICSE2014,Ghafari
etal.ICPC2014,Moritz
ASE
2013,Wang
etal.
ASE2011.Zhong
etal.ECOOP
2009.Code(context)作為查詢?
Nguyenetal.ICSE2012,Rahman
etal.
WCRE2014.其它形式的查詢?
Stolee
etal.
TOSEM
2014,
Inoueetal.ICSE
2012,
Thummalapenta
etal.
ASE2007,
Holmes
etal.ICSE2005.自動(dòng)代碼修復(fù)?
Zhong
etal.ICSE
2015,
Peietal.ICSE
2015,
Tao
etal.FSE2014,
Kim
etal.ICSE2013.2016/7/25
/推薦粒度--代碼片段代碼片段指的是Java
的一個(gè)類(class)中的某個(gè)方法。它包含了注釋和代碼,代碼有方法名和方法體。2016/7/25
/面向任務(wù)的代碼搜索發(fā)現(xiàn)1:現(xiàn)有的代碼推薦主要借助于信息檢索的方法,匹配方式單一,效果不佳。代碼段倉(cāng)庫(kù)Solution:融合了信息檢索和監(jiān)督學(xué)習(xí)的方法。充分利用領(lǐng)域特征來(lái)構(gòu)建分類器,為新查詢推薦代碼段。不同搜索方法BM25PortfolioIman自由文本的查詢r(jià)ecordaudio
sound推薦結(jié)果自由文本作為查詢的代碼推薦方法的一般框架2016/7/25
/ROSF:
Leveraging
Information
Retrieval
andSupervisedLearningfor
Recommending
Code
Snippets(融合了信息檢索和監(jiān)督學(xué)習(xí)的代碼推薦方法)HeJiang*,LimingNie,Zeyi
Sun,
Zhilei
Ren,WeiqiangKong,
Tao
Zhang,
and
XiapuLuo,“ROSF:LeveragingInformationRetrieval
and
SupervisedLearningforRecommendingCode
Snippets”,
IEEE
Transactionson
Services
Computing,2016.2016/7/25
/背景當(dāng)開(kāi)發(fā)者輸入自由文本的查詢時(shí),推薦方法如何為開(kāi)發(fā)者提供一個(gè)相關(guān)的代碼片段列表,輔助其完成特定的編程任務(wù)?現(xiàn)有的代碼推薦主要借助于信息檢索的方法,匹配方式單一,有提升空間。如何充分利用該任務(wù)中的多種領(lǐng)域特征,并為它們自動(dòng)分派不同的權(quán)重?識(shí)別代碼搜索中的哪些特征來(lái)構(gòu)建分類器,進(jìn)而為新的查詢推薦代碼片段?2016/7/25
/方法--框架提出融合了信息檢索和監(jiān)督學(xué)習(xí)的方法
(ROSF)。ROSF算法:Step1:使用信息檢索方法(BM25)為某些查詢準(zhǔn)備對(duì)應(yīng)的代碼段候選集合。Step2:在識(shí)別一些領(lǐng)域特征并對(duì)候選集合中的代碼片段進(jìn)行標(biāo)注的基礎(chǔ)上,利用監(jiān)督學(xué)習(xí)方法構(gòu)建出預(yù)測(cè)模型。Step3:當(dāng)開(kāi)發(fā)者輸入新ROSF算法框架藍(lán)色帶箭頭的線表示訓(xùn)練的過(guò)程,橘色帶箭頭的線表示推薦的過(guò)程,黑色帶箭頭的線表示數(shù)據(jù)準(zhǔn)備過(guò)程。的查詢時(shí),預(yù)測(cè)模型為該查詢對(duì)應(yīng)的候選集合進(jìn)行重新排序,最后推薦一定數(shù)目的代碼段。2016/7/25
/實(shí)驗(yàn)?
查詢來(lái)自Stack
Overflow中真實(shí)的編程任務(wù),共35個(gè)。選擇其中的20個(gè)做為測(cè)試集。?
代碼段倉(cāng)庫(kù)921,713個(gè)代碼片段,來(lái)自1538個(gè)開(kāi)源app項(xiàng)目。?
評(píng)估4分值:高度相關(guān)(4),相關(guān)(3),一點(diǎn)相關(guān)(2),不相關(guān)(1)。人工評(píng)分2016/7/25
/實(shí)驗(yàn)?
查詢代碼段倉(cāng)庫(kù)等數(shù)據(jù)已經(jīng)公開(kāi)!2016/7/25
/實(shí)驗(yàn)設(shè)計(jì)--度量指標(biāo)?
Precision–
一個(gè)查詢的推薦結(jié)果中相關(guān)代碼片段數(shù)量所占的比例。值越大越好。|Relevance||Retrieved|Precision
=–
|Relevance|
表示推薦結(jié)果中相關(guān)代碼片段的數(shù)量,
|Retrieved|
表示推薦結(jié)果的數(shù)目。–
例如,為某個(gè)查詢推薦10個(gè)代碼片段,其中有7個(gè)是相關(guān)的,那么Precision的值為:
7/10*100%
=70%.?
NDCG–
根據(jù)代碼片段在推薦列表中的位置來(lái)評(píng)估推薦方法的效果。相關(guān)的代碼片段被排的越靠前,NDCG值越大,性能越好。???–
NDCG
=
,
?
=
?1
+
10?=2?????2?–
?
和
?
分別表示出現(xiàn)在第1個(gè)位置和第i個(gè)位置上的代碼片段對(duì)應(yīng)的相關(guān)性得分。
??表示推薦列表的1?理想排序。?
使用兩個(gè)度量指標(biāo)在多個(gè)測(cè)試查詢上的平均值作為算法性能的度量。?
實(shí)驗(yàn)平臺(tái)–
PC配置如下:3.60GHz
CPU
(Intel
i5)和
windows
8.1操作系統(tǒng).–使用Java
編程語(yǔ)言,Eclipse開(kāi)發(fā)環(huán)境。2016/7/25
/
24實(shí)驗(yàn)設(shè)計(jì)--度量指標(biāo)?
Precision–
一個(gè)查詢的推薦結(jié)果中相關(guān)代碼片段數(shù)量推薦結(jié)果中相關(guān)代碼片段數(shù)量所占的比例,值越大越好。|Relevance||Retrieved|Precision
=–
|Relevance|
表示推薦結(jié)果中相關(guān)代碼片段的數(shù)v果的數(shù)目。–
例如,為某個(gè)查詢推薦10個(gè)代碼片段,其中有7個(gè)是相關(guān)的,那么Precision的值為:
7/10*100%
=70%.?
NDCG–
根據(jù)代碼片段在推薦列表中的位置來(lái),NDCG值越大,性能越好。相關(guān)的代碼片段被排的越靠前,NDCG值越大,性能越好。???–
NDCG
=
,
?
=
?1
+
10?=2?????2–
?
和
?
分別表示出現(xiàn)在第1個(gè)位置和第i個(gè)關(guān)性得分。
??表示推薦列表的1?理想排序。?
使用兩個(gè)度量指標(biāo)在多個(gè)測(cè)試查詢上的平均值作為算法性能的度量。?
實(shí)驗(yàn)平臺(tái)–
PC配置如下:3.60GHz
CPU
(Intel
i5)和
windows
8.1操作系統(tǒng).–使用Java
編程語(yǔ)言,Eclipse開(kāi)發(fā)環(huán)境。2016/7/25
/
25研究問(wèn)題及結(jié)果-RQ1RQ1:是否參數(shù)(候選集合的規(guī)模)會(huì)影響算法的性能?70Answerto
RQ1:當(dāng)候選集合的規(guī)模遞增時(shí),算法性能(兩個(gè)指標(biāo)Precision@10
和NDCG@10)先增后降。當(dāng)候選集合中實(shí)例數(shù)量達(dá)到70時(shí),算法性能達(dá)到最好。2016/7/25
/26研究問(wèn)題及結(jié)果-RQ2RQ2:與最新的代碼推薦方法相比,本文方法(ROSF)效果如何?幾種算法的結(jié)果對(duì)比2016/7/25
/27研究問(wèn)題及結(jié)果-RQ2RQ2:與最新的代碼推薦方法相比,本文方法(ROSF)效果如何?幾種算法的結(jié)果對(duì)比Answerto
RQ2:與幾個(gè)最新的代碼推薦方法對(duì)比,本文方法在Precision@10上提升了20%-41%,在NDCG@10上提升了13-33%2016/7/25
/28研究問(wèn)題及結(jié)果-RQ2RQ2:與最新的代碼推薦方法相比,本文方法(ROSF)效果如何?為了得到統(tǒng)計(jì)意義上的結(jié)論,使用了Friedman’s
test
和two-sidedWilcoxon’s
signedrank
tests大部分P-value均小于0.05,說(shuō)明存在統(tǒng)計(jì)意義上的區(qū)別。對(duì)比算法:TOSEM,
2013.
Mcmillan
et
al.Portfolio
Searching
for
Relevant
Functions
and
TheirUsages
inMillions
of
Lines
ofCode.ICSE,2014.Keivanloo
et
al.
Spotting
Working
CodeExamples.ICSE,2010.Bajracharya
et
al.Leveraging
usage
similarity
for
effective
retrieval
of
examples
incode
repositories.2016/7/25
/29研究問(wèn)題及結(jié)果-RQ3RQ3:算法中使用到的幾個(gè)特征是如何影響算法性能的?首先,使用
Spearman‘s
rank
correlation
coefficient(Spearman’s
rho)分析了訓(xùn)練集中特征之間的相關(guān)性。特征相關(guān)性分析可以看到,大部分特征之間的相關(guān)性都低于0.6,即特征之間的相關(guān)性較低,冗余較少。2016/7/25
/30研究問(wèn)題及結(jié)果-RQ3RQ3:算法中使用到的幾個(gè)特征是如何影響算法性能的?特征對(duì)算法的影響2016/7/25
/31研究問(wèn)題及結(jié)果-RQ3RQ3:算法中使用到的幾個(gè)特征是如何影響算法性能的?特征對(duì)算法的影響Answerto
RQ3:各個(gè)特征對(duì)算法影響程度各不相同。其中影響較大的幾個(gè)特征分別是:代碼段行數(shù)(f9),查詢與代碼段內(nèi)容的文本相似度(f1),查詢與Java引入語(yǔ)句之間的文本相似度(f6),
以及查詢與代碼段內(nèi)容的主題相似度(f8)。2016/7/25
/32代碼段倉(cāng)庫(kù)抽取流程Java
源代碼代碼片段命名項(xiàng)目名類名方法名App
項(xiàng)目com.radiostudent.radiostudentstream_2_src.tar.gz@NetworkStateReceiver#onReceive.txt預(yù)處理存儲(chǔ)代碼段倉(cāng)庫(kù)代碼段索引2016/7/25
/33三類領(lǐng)域特征例子:Java
文件文本相似度(與查詢相關(guān))主題相似度(與查詢相關(guān))結(jié)構(gòu)特征(與查詢無(wú)關(guān))三類,9個(gè)特征2016/7/25
/34重排序步驟:Step1.為某個(gè)新查詢對(duì)應(yīng)侯選集合中的每個(gè)實(shí)例分別計(jì)算預(yù)測(cè)的4個(gè)分值的概率值。Step2.根據(jù)每個(gè)分值中的概率值,為實(shí)例進(jìn)行排序。Step3.推薦N個(gè)代碼片段給開(kāi)發(fā)者。2016/7/25
/35面向任務(wù)的代碼搜索發(fā)現(xiàn)1:現(xiàn)有的代碼推薦主要借助于信息檢索的方法,匹配方式單一,效果不佳。代碼段倉(cāng)庫(kù)發(fā)現(xiàn)2:查詢?cè)~過(guò)短,以及查詢和匹配內(nèi)容使用不同的語(yǔ)言而導(dǎo)致詞項(xiàng)失配問(wèn)題Solution:從Stack
Overflow的問(wèn)答對(duì)中抽取出編程相關(guān)的詞來(lái)擴(kuò)展原始查詢。BM25PortfolioIman不同搜索方法自由文本的查詢r(jià)ecordaudio
sound推薦結(jié)果自由文本作為查詢的代碼推薦方法的一般框架2016/7/25
/36QECK:QueryExpansion
Basedon
Crowd
Knowledge
forCodeSearch(基于眾智查詢擴(kuò)展的代碼推薦)LimingNie,HeJiang*,Zhilei
Ren,Zeyi
Sun,Xiaochen
Li,
“QueryExpansion
BasedonCrowdKnowledge
forCode
Search”,
IEEE
Transactionson
ServicesComputing,
2016.PrePrints,
doi:10.1109/TSC.2016.2560165.2016/7/25
/37背景當(dāng)開(kāi)發(fā)者輸入自由文本的查詢時(shí),推薦方法如何為開(kāi)發(fā)者提供一個(gè)相關(guān)的代碼片段列表,輔助其完成特定的編程任務(wù)?由于查詢語(yǔ)句過(guò)短,查詢與代碼段使用不同的語(yǔ)言,或者存在歧義造成檢索效果不好而導(dǎo)致詞項(xiàng)失配問(wèn)題。如何解決?如果查詢擴(kuò)展方法有用,那么如何找到合適的擴(kuò)展詞對(duì)原始查詢進(jìn)行擴(kuò)展?2016/7/25
/38背景--相關(guān)工作的啟發(fā)?
“Rankingcrowd
knowledge
toassistsoftware
development,”
Program
Comprehension
(PC),
2014.把質(zhì)量較高的
StackOverflow(SO)
問(wèn)答對(duì)
推薦給開(kāi)發(fā)者。?
D.
Lo,
"Query
expansionviaWordNet
for
effectivecode
search,"
Software
Analysis,
EvolutionandReengineering
(SANER),
2015.通過(guò)WordNet對(duì)查詢進(jìn)行擴(kuò)展,進(jìn)而推薦代碼片段。?
D.
Lo,“Automated
construction
ofasoftware-specific
word
similarity
database,”
SoftwareMaintenance,
Reengineeringand
Reverse
Engineering
(CSMRWCRE),
2014.?
"SWordNet:
Inferringsemanticallyrelatedwords
from
software
context,“
ESE,
2014.構(gòu)建軟件相關(guān)的近義詞列表。--------------------------------------------------------------------------------------------------------------------------------?
與本文工作同時(shí)期的其它工作:?
Lo
D.
RACK:
AutomaticAPI
Recommendation
usingCrowdsourced
Knowledge,
SANER,
2016.介紹了使用眾智進(jìn)行API推薦2016/7/25
/39背景--相關(guān)工作的啟發(fā)?
“Rankingcrowd
knowledge
toassistsoftware
development,”
Program
Comprehension
(PC),
2014.把質(zhì)量較高的
StackOverflow(SO)
問(wèn)答對(duì)
推薦給開(kāi)發(fā)者。?
D.
Lo,
"Query
expansionviaWordNet
for
effectivecode
search,"
Software
Analysis,
EvolutionandReengineering
(SANER),
2015.通過(guò)WordNet對(duì)查詢進(jìn)行擴(kuò)展,進(jìn)而推薦代碼片段。思考:是否可以從StackOverflow中抽取軟件相關(guān)的擴(kuò)展詞用于查詢的預(yù)操作,進(jìn)而推薦更好的代碼片段?--------------------------------------------------------------------------------------------------------------------------------?
與本文工作同時(shí)期的其它工作:?
Lo
D.
RACK:
AutomaticAPI
Recommendation
usingCrowdsourced
Knowledge,
SANER,
2016.介紹了使用眾智進(jìn)行API推薦2016/7/25
/40方法(QECK)利用偽相關(guān)反饋方法從Stack
Overflow的問(wèn)答對(duì)(眾智)中抽取出擴(kuò)展詞,對(duì)原始查詢進(jìn)行擴(kuò)展。步驟:1.
利用文本相似度和用戶評(píng)分的綜合得分來(lái)推薦與原始查詢最相關(guān)的問(wèn)答對(duì);2.利用偽相關(guān)反饋方法從問(wèn)答對(duì)中選出與原始查詢相關(guān)的擴(kuò)展詞;具體來(lái)說(shuō),為反饋文檔中的每個(gè)詞設(shè)定一個(gè)權(quán)重。在本文檔中出現(xiàn)的次數(shù)多,在別的文檔中出現(xiàn)的次數(shù)少,則該詞的權(quán)重值越大。基于眾智查詢擴(kuò)展的代碼推薦算法框架3.把獲取的擴(kuò)展詞加入到原始查詢中,利用擴(kuò)展后的查詢對(duì)代碼段倉(cāng)庫(kù)進(jìn)行檢索。2016/7/25
/41方法(QECK)利用偽相關(guān)反饋方法從Stack
Overflow詞,對(duì)原始查詢進(jìn)行擴(kuò)展。使用了兩種得分的平均值來(lái)獲取偽相關(guān)反饋文檔:文本相似度和用戶評(píng)分。步驟:1.
利用文本相似度和用戶評(píng)分的綜合得分來(lái)推薦與原始查詢最相關(guān)的問(wèn)答對(duì);2.利用偽相關(guān)反饋方法從問(wèn)答對(duì)中選出與原始查詢相關(guān)的擴(kuò)展詞;具體來(lái)說(shuō),為反饋文檔中的每個(gè)詞設(shè)定一個(gè)權(quán)重。在本文檔中出現(xiàn)的次數(shù)多,在別的文檔中出現(xiàn)的次數(shù)少,則該詞的權(quán)重值越大。使用TF*IDF值從偽相關(guān)反饋文檔的詞集合中抽取有代表性的詞。3.把獲取的擴(kuò)展詞加入到原始查詢中,利用擴(kuò)展后的查詢對(duì)代碼段倉(cāng)庫(kù)進(jìn)行檢索。2016/7/25
/42實(shí)驗(yàn)?
查詢20個(gè)真實(shí)的編程任務(wù),來(lái)自Stack
Overflow。?
SO問(wèn)答對(duì)倉(cāng)庫(kù)24,120,522帖子---5,108,770問(wèn)答對(duì)---312,941Android
問(wèn)答對(duì)。(屏蔽掉與查詢相同的問(wèn)答對(duì))?
代碼段倉(cāng)庫(kù)921,713個(gè)代碼片段,來(lái)自1538個(gè)app項(xiàng)目。2016/7/25
/43研究問(wèn)題及結(jié)果-RQ1RQ1:QECK是否能夠提升現(xiàn)有代碼搜索算法的性能?本方法在三個(gè)算法上都取得了明顯的提升效果,在Precision@10上分別提升了:38%,33%,64%在NDCG@10上分別提升了:20%,16%,35
%對(duì)比算法:IR:
BM25P:
Portfolio
(TOSEM
2013)VF:
Iman(ICSE2014)對(duì)比算法:TOSEM,
2013.
Portfolio
Searching
for
Relevant
Functions
and
TheirUsages
inMillions
ofLinesof
Code.ICSE,2014.
Spotting
Working
Code
Examples.2016/7/25
/
44研究問(wèn)題及結(jié)果-RQ2RQ2:參數(shù)是如何影響推薦性能的?偽相關(guān)反饋文檔數(shù)目固定為5,擴(kuò)展詞個(gè)數(shù)變化時(shí)對(duì)應(yīng)兩個(gè)度量指標(biāo)的變化情況99PrecisionNDCG擴(kuò)展詞個(gè)數(shù)固定為9,偽相關(guān)反饋文檔數(shù)目變化時(shí)對(duì)應(yīng)兩個(gè)指標(biāo)的變化情況55PrecisionNDCG2016/7/25
/45研究問(wèn)題及結(jié)果-RQ3RQ3:與最新的查詢擴(kuò)展方法相比,本文方法效果如何?與最新的查詢擴(kuò)展代碼推薦方法對(duì)比在Precision@10上提升了22%在NDCG@10上提升了16%PW:P-WordNet(SANER2015)對(duì)比算法:SANER,2015,D.
Lo,
Queryexpansion
viaWordNet
foreffective
code
search2016/7/25/46實(shí)驗(yàn)設(shè)計(jì)--SO問(wèn)答對(duì)倉(cāng)庫(kù)一個(gè)SO問(wèn)答對(duì)的處理過(guò)程?通過(guò)Tag過(guò)濾,得到Android編程相關(guān)的問(wèn)答對(duì)過(guò)濾預(yù)處理存儲(chǔ)問(wèn)答對(duì)?對(duì)問(wèn)答對(duì)進(jìn)行文本預(yù)處理,去停用詞,駝峰分詞,取詞干等操作?每個(gè)問(wèn)答對(duì)作為一個(gè)document對(duì)象保存在Lucene中。一個(gè)document有多個(gè)域?便于快速檢索SO問(wèn)答對(duì)索引Lucene
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五版設(shè)備砂石料購(gòu)銷與設(shè)備性能優(yōu)化協(xié)議3篇
- 二零二五年度人事部人才與專家工作辦公室員工福利保障合同3篇
- 二零二五年度圖書(shū)館圖書(shū)修復(fù)與保護(hù)工程合同
- 個(gè)體物流配送員勞動(dòng)協(xié)議格式(2024年版)一
- 二零二五版木材進(jìn)口關(guān)稅減免申請(qǐng)服務(wù)合同4篇
- 二零二五年度土地利用現(xiàn)狀變更測(cè)量合同
- 二零二五年度城市公共充電樁運(yùn)營(yíng)管理合同4篇
- 二零二五版大數(shù)據(jù)中心項(xiàng)目合作協(xié)議4篇
- 2025年度美容院連鎖加盟區(qū)域代理權(quán)及市場(chǎng)獨(dú)占協(xié)議
- 2025年度企業(yè)培訓(xùn)項(xiàng)目財(cái)務(wù)結(jié)算合同范本4篇
- 2024生態(tài)環(huán)境相關(guān)法律法規(guī)考試試題
- 有砟軌道施工工藝課件
- 兩辦意見(jiàn)八硬措施煤礦安全生產(chǎn)條例宣貫學(xué)習(xí)課件
- 40篇短文搞定高中英語(yǔ)3500單詞
- 人教版高中數(shù)學(xué)必修二《第九章 統(tǒng)計(jì)》同步練習(xí)及答案解析
- 兒科護(hù)理安全警示教育課件
- 三年級(jí)下冊(cè)口算天天100題
- 國(guó)家中英文名稱及代碼縮寫(xiě)(三位)
- 人員密集場(chǎng)所消防安全培訓(xùn)
- 液晶高壓芯片去保護(hù)方法
- 拜太歲科儀文檔
評(píng)論
0/150
提交評(píng)論