面向任務(wù)的代碼搜索_第1頁(yè)
面向任務(wù)的代碼搜索_第2頁(yè)
面向任務(wù)的代碼搜索_第3頁(yè)
面向任務(wù)的代碼搜索_第4頁(yè)
面向任務(wù)的代碼搜索_第5頁(yè)
已閱讀5頁(yè),還剩49頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

面向任務(wù)的代碼搜索代碼搜索在軟件開(kāi)發(fā)過(guò)程中,代碼搜索能夠?yàn)殚_(kāi)發(fā)者提供參考的代碼段去輔助完成特定的編程任務(wù)。2016/7/25

/2Section基礎(chǔ)數(shù)據(jù)和One

影響力分析By

江賀基礎(chǔ)數(shù)據(jù)和影響力分析?

收集了93篇與代碼/API

推薦相關(guān)的文獻(xiàn)?

作者總計(jì)208個(gè),國(guó)家16個(gè)。?

分析回答以下問(wèn)題:?

1.

Where?作者來(lái)自哪里??

2.Who?誰(shuí)是最高產(chǎn)的作者?影響力如何??

3.

Which?那篇文章被引次數(shù)最多??

4.Co-authorship

network

合著網(wǎng)絡(luò)?4作者來(lái)自哪里?Iran,

1Switzerland,2France,1Israel,3

Singapore,

4Belgium,3USAThailand,

1India,

4ChinaGermany,4Italy,5CanadaJapanSouth

Korea,

8BrazilSouth

KoreaItalyBrazil,

9USA,

83Japan,11GermanyIndiaCanada,19BelgiumIsraelSingaporeSwitzerlandFranceIran作者總計(jì)國(guó)家16個(gè)208個(gè)China,50Thailand5誰(shuí)是最高產(chǎn)的作者?序號(hào)作者相關(guān)論文篇數(shù)

H-index國(guó)家12David

Lo10833113911201849202040SingaporeUSACollin

McMillan3

Denys

Poshyvanyk8USA45678Shaowei

WangMark

GrechanikEmily

Hill8SingaporeUSA76USATa

oXie4USAReidHolmes4CanadaUSA9

Sushil

Bajracharya10

Cristina

Lopes44USA6誰(shuí)是最高產(chǎn)的作者?序號(hào)作者相關(guān)論文篇數(shù)

H-index國(guó)家12David

Lo1083311391120SingaporeUSACollin

McMillan3

Denys

Poshyvanyk8USA45Shaowei

WangMark

Grechanik8SingaporeUSA7作者影響力?序號(hào)作者相關(guān)論文篇數(shù)

ACS指數(shù)總被引次數(shù)12345Ta

oXie4421245.3184.8165.7165.0723411350165ReidHolmesGail

C.MurphySteven

P.

ReissSureshThummalapenta231156.0121.6100.530948320167K.

Vijay-ShankerNaiyanaSahavechaphan89Kajal

ClaypoolDavid

MandelinLinXu111100.587.587.520135035010注:ACS不僅衡量了作者對(duì)文章的貢獻(xiàn)度,還衡量了對(duì)該領(lǐng)域的貢獻(xiàn)度8作者影響力?序號(hào)作者相關(guān)論文篇數(shù)

ACS指數(shù)總被引次數(shù)12345Ta

oXie4421245.3184.8165.7165.0723411350165ReidHolmesGail

C.MurphySteven

P.

ReissSuresh2156.0309哪篇文章被引數(shù)最多?序號(hào)題目被引次數(shù)NCII期刊PLDI200512Jungloid

mining:

helpingto

navigatethe

API

jungle35030631.82Parseweb:

aprogrammer

assistant

for

reusingopen

sourcecode

ontheweb34.00

ASE2007ICSE345Usingstructuralcontext

to

recommend

source

code

examplesXSnippet:

mining

Forsamplecode29420126.7320.102005OOPSLA2006Mining

API

patterns

as

partialordersfromsource

code:

fromusage

scenariosto

specifications20122.33

FSE2007Usingnatural

language

programanalysisto

locateandunderstand

action-orientedconcerns6AOSD200718218017320.2225.71ECOOP200978MAPO:

MiningandRecommending

API

Usage

PatternsExample-centric

programming:integratingweb

search

intothedevelopment

environment28.83

CHI

2010ICSE9Semantics-based

codesearch23.57165155200922.14

FSE200910

Learning

fromexamplesto

improvecode

completionsystems10哪篇文章被引數(shù)最多?序號(hào)題目被引次數(shù)NCII期刊PLDI200512Jungloid

mining:

helpingto

navigatethe

API

jungle35030631.82Parseweb:

aprogrammer

assistant

for

reusingopen

sourcecode

ontheweb34.00

ASE2007ICSE3Usingstructuralcontext

to

recommend

source

code

examplesXSnippet:

mining

Forsamplecode29420126.7320.102005OOPSLA200641.Jungloidmining:

helpingto

navigatethe

API

junglePLDI

2005.,2.Parseweb:

aprogrammer

assistant

for

reusingopensourcecodeontheweb,

ASE2007.3.Using

structuralcontexttorecommend

sourcecodeexamples,ICSE2005.作者合著網(wǎng)絡(luò)(1)12作者合著網(wǎng)絡(luò)

(2)作者合著網(wǎng)絡(luò)

(3)14Section代碼搜索的兩個(gè)嘗試TwoBy

聶黎明代碼搜索的分類按輸入類型分:自由文本作為查詢(面向任務(wù)的代碼搜索)?

Lvetal.

ASE

2015,

Keivanlooetal.ICSE

2014,

McMillanetal.

TOSEM

2013,Bajracharyaetal.FSE

2010.API作為查詢?

Subramanian

etal.ICSE2014,Ghafari

etal.ICPC2014,Moritz

ASE

2013,Wang

etal.

ASE2011.Zhong

etal.ECOOP

2009.Code(context)作為查詢?

Nguyenetal.ICSE2012,Rahman

etal.

WCRE2014.其它形式的查詢?

Stolee

etal.

TOSEM

2014,

Inoueetal.ICSE

2012,

Thummalapenta

etal.

ASE2007,

Holmes

etal.ICSE2005.自動(dòng)代碼修復(fù)?

Zhong

etal.ICSE

2015,

Peietal.ICSE

2015,

Tao

etal.FSE2014,

Kim

etal.ICSE2013.2016/7/25

/推薦粒度--代碼片段代碼片段指的是Java

的一個(gè)類(class)中的某個(gè)方法。它包含了注釋和代碼,代碼有方法名和方法體。2016/7/25

/面向任務(wù)的代碼搜索發(fā)現(xiàn)1:現(xiàn)有的代碼推薦主要借助于信息檢索的方法,匹配方式單一,效果不佳。代碼段倉(cāng)庫(kù)Solution:融合了信息檢索和監(jiān)督學(xué)習(xí)的方法。充分利用領(lǐng)域特征來(lái)構(gòu)建分類器,為新查詢推薦代碼段。不同搜索方法BM25PortfolioIman自由文本的查詢r(jià)ecordaudio

sound推薦結(jié)果自由文本作為查詢的代碼推薦方法的一般框架2016/7/25

/ROSF:

Leveraging

Information

Retrieval

andSupervisedLearningfor

Recommending

Code

Snippets(融合了信息檢索和監(jiān)督學(xué)習(xí)的代碼推薦方法)HeJiang*,LimingNie,Zeyi

Sun,

Zhilei

Ren,WeiqiangKong,

Tao

Zhang,

and

XiapuLuo,“ROSF:LeveragingInformationRetrieval

and

SupervisedLearningforRecommendingCode

Snippets”,

IEEE

Transactionson

Services

Computing,2016.2016/7/25

/背景當(dāng)開(kāi)發(fā)者輸入自由文本的查詢時(shí),推薦方法如何為開(kāi)發(fā)者提供一個(gè)相關(guān)的代碼片段列表,輔助其完成特定的編程任務(wù)?現(xiàn)有的代碼推薦主要借助于信息檢索的方法,匹配方式單一,有提升空間。如何充分利用該任務(wù)中的多種領(lǐng)域特征,并為它們自動(dòng)分派不同的權(quán)重?識(shí)別代碼搜索中的哪些特征來(lái)構(gòu)建分類器,進(jìn)而為新的查詢推薦代碼片段?2016/7/25

/方法--框架提出融合了信息檢索和監(jiān)督學(xué)習(xí)的方法

(ROSF)。ROSF算法:Step1:使用信息檢索方法(BM25)為某些查詢準(zhǔn)備對(duì)應(yīng)的代碼段候選集合。Step2:在識(shí)別一些領(lǐng)域特征并對(duì)候選集合中的代碼片段進(jìn)行標(biāo)注的基礎(chǔ)上,利用監(jiān)督學(xué)習(xí)方法構(gòu)建出預(yù)測(cè)模型。Step3:當(dāng)開(kāi)發(fā)者輸入新ROSF算法框架藍(lán)色帶箭頭的線表示訓(xùn)練的過(guò)程,橘色帶箭頭的線表示推薦的過(guò)程,黑色帶箭頭的線表示數(shù)據(jù)準(zhǔn)備過(guò)程。的查詢時(shí),預(yù)測(cè)模型為該查詢對(duì)應(yīng)的候選集合進(jìn)行重新排序,最后推薦一定數(shù)目的代碼段。2016/7/25

/實(shí)驗(yàn)?

查詢來(lái)自Stack

Overflow中真實(shí)的編程任務(wù),共35個(gè)。選擇其中的20個(gè)做為測(cè)試集。?

代碼段倉(cāng)庫(kù)921,713個(gè)代碼片段,來(lái)自1538個(gè)開(kāi)源app項(xiàng)目。?

評(píng)估4分值:高度相關(guān)(4),相關(guān)(3),一點(diǎn)相關(guān)(2),不相關(guān)(1)。人工評(píng)分2016/7/25

/實(shí)驗(yàn)?

查詢代碼段倉(cāng)庫(kù)等數(shù)據(jù)已經(jīng)公開(kāi)!2016/7/25

/實(shí)驗(yàn)設(shè)計(jì)--度量指標(biāo)?

Precision–

一個(gè)查詢的推薦結(jié)果中相關(guān)代碼片段數(shù)量所占的比例。值越大越好。|Relevance||Retrieved|Precision

=–

|Relevance|

表示推薦結(jié)果中相關(guān)代碼片段的數(shù)量,

|Retrieved|

表示推薦結(jié)果的數(shù)目。–

例如,為某個(gè)查詢推薦10個(gè)代碼片段,其中有7個(gè)是相關(guān)的,那么Precision的值為:

7/10*100%

=70%.?

NDCG–

根據(jù)代碼片段在推薦列表中的位置來(lái)評(píng)估推薦方法的效果。相關(guān)的代碼片段被排的越靠前,NDCG值越大,性能越好。???–

NDCG

=

,

?

=

?1

+

10?=2?????2?–

?

?

分別表示出現(xiàn)在第1個(gè)位置和第i個(gè)位置上的代碼片段對(duì)應(yīng)的相關(guān)性得分。

??表示推薦列表的1?理想排序。?

使用兩個(gè)度量指標(biāo)在多個(gè)測(cè)試查詢上的平均值作為算法性能的度量。?

實(shí)驗(yàn)平臺(tái)–

PC配置如下:3.60GHz

CPU

(Intel

i5)和

windows

8.1操作系統(tǒng).–使用Java

編程語(yǔ)言,Eclipse開(kāi)發(fā)環(huán)境。2016/7/25

/

24實(shí)驗(yàn)設(shè)計(jì)--度量指標(biāo)?

Precision–

一個(gè)查詢的推薦結(jié)果中相關(guān)代碼片段數(shù)量推薦結(jié)果中相關(guān)代碼片段數(shù)量所占的比例,值越大越好。|Relevance||Retrieved|Precision

=–

|Relevance|

表示推薦結(jié)果中相關(guān)代碼片段的數(shù)v果的數(shù)目。–

例如,為某個(gè)查詢推薦10個(gè)代碼片段,其中有7個(gè)是相關(guān)的,那么Precision的值為:

7/10*100%

=70%.?

NDCG–

根據(jù)代碼片段在推薦列表中的位置來(lái),NDCG值越大,性能越好。相關(guān)的代碼片段被排的越靠前,NDCG值越大,性能越好。???–

NDCG

=

,

?

=

?1

+

10?=2?????2–

?

?

分別表示出現(xiàn)在第1個(gè)位置和第i個(gè)關(guān)性得分。

??表示推薦列表的1?理想排序。?

使用兩個(gè)度量指標(biāo)在多個(gè)測(cè)試查詢上的平均值作為算法性能的度量。?

實(shí)驗(yàn)平臺(tái)–

PC配置如下:3.60GHz

CPU

(Intel

i5)和

windows

8.1操作系統(tǒng).–使用Java

編程語(yǔ)言,Eclipse開(kāi)發(fā)環(huán)境。2016/7/25

/

25研究問(wèn)題及結(jié)果-RQ1RQ1:是否參數(shù)(候選集合的規(guī)模)會(huì)影響算法的性能?70Answerto

RQ1:當(dāng)候選集合的規(guī)模遞增時(shí),算法性能(兩個(gè)指標(biāo)Precision@10

和NDCG@10)先增后降。當(dāng)候選集合中實(shí)例數(shù)量達(dá)到70時(shí),算法性能達(dá)到最好。2016/7/25

/26研究問(wèn)題及結(jié)果-RQ2RQ2:與最新的代碼推薦方法相比,本文方法(ROSF)效果如何?幾種算法的結(jié)果對(duì)比2016/7/25

/27研究問(wèn)題及結(jié)果-RQ2RQ2:與最新的代碼推薦方法相比,本文方法(ROSF)效果如何?幾種算法的結(jié)果對(duì)比Answerto

RQ2:與幾個(gè)最新的代碼推薦方法對(duì)比,本文方法在Precision@10上提升了20%-41%,在NDCG@10上提升了13-33%2016/7/25

/28研究問(wèn)題及結(jié)果-RQ2RQ2:與最新的代碼推薦方法相比,本文方法(ROSF)效果如何?為了得到統(tǒng)計(jì)意義上的結(jié)論,使用了Friedman’s

test

和two-sidedWilcoxon’s

signedrank

tests大部分P-value均小于0.05,說(shuō)明存在統(tǒng)計(jì)意義上的區(qū)別。對(duì)比算法:TOSEM,

2013.

Mcmillan

et

al.Portfolio

Searching

for

Relevant

Functions

and

TheirUsages

inMillions

of

Lines

ofCode.ICSE,2014.Keivanloo

et

al.

Spotting

Working

CodeExamples.ICSE,2010.Bajracharya

et

al.Leveraging

usage

similarity

for

effective

retrieval

of

examples

incode

repositories.2016/7/25

/29研究問(wèn)題及結(jié)果-RQ3RQ3:算法中使用到的幾個(gè)特征是如何影響算法性能的?首先,使用

Spearman‘s

rank

correlation

coefficient(Spearman’s

rho)分析了訓(xùn)練集中特征之間的相關(guān)性。特征相關(guān)性分析可以看到,大部分特征之間的相關(guān)性都低于0.6,即特征之間的相關(guān)性較低,冗余較少。2016/7/25

/30研究問(wèn)題及結(jié)果-RQ3RQ3:算法中使用到的幾個(gè)特征是如何影響算法性能的?特征對(duì)算法的影響2016/7/25

/31研究問(wèn)題及結(jié)果-RQ3RQ3:算法中使用到的幾個(gè)特征是如何影響算法性能的?特征對(duì)算法的影響Answerto

RQ3:各個(gè)特征對(duì)算法影響程度各不相同。其中影響較大的幾個(gè)特征分別是:代碼段行數(shù)(f9),查詢與代碼段內(nèi)容的文本相似度(f1),查詢與Java引入語(yǔ)句之間的文本相似度(f6),

以及查詢與代碼段內(nèi)容的主題相似度(f8)。2016/7/25

/32代碼段倉(cāng)庫(kù)抽取流程Java

源代碼代碼片段命名項(xiàng)目名類名方法名App

項(xiàng)目com.radiostudent.radiostudentstream_2_src.tar.gz@NetworkStateReceiver#onReceive.txt預(yù)處理存儲(chǔ)代碼段倉(cāng)庫(kù)代碼段索引2016/7/25

/33三類領(lǐng)域特征例子:Java

文件文本相似度(與查詢相關(guān))主題相似度(與查詢相關(guān))結(jié)構(gòu)特征(與查詢無(wú)關(guān))三類,9個(gè)特征2016/7/25

/34重排序步驟:Step1.為某個(gè)新查詢對(duì)應(yīng)侯選集合中的每個(gè)實(shí)例分別計(jì)算預(yù)測(cè)的4個(gè)分值的概率值。Step2.根據(jù)每個(gè)分值中的概率值,為實(shí)例進(jìn)行排序。Step3.推薦N個(gè)代碼片段給開(kāi)發(fā)者。2016/7/25

/35面向任務(wù)的代碼搜索發(fā)現(xiàn)1:現(xiàn)有的代碼推薦主要借助于信息檢索的方法,匹配方式單一,效果不佳。代碼段倉(cāng)庫(kù)發(fā)現(xiàn)2:查詢?cè)~過(guò)短,以及查詢和匹配內(nèi)容使用不同的語(yǔ)言而導(dǎo)致詞項(xiàng)失配問(wèn)題Solution:從Stack

Overflow的問(wèn)答對(duì)中抽取出編程相關(guān)的詞來(lái)擴(kuò)展原始查詢。BM25PortfolioIman不同搜索方法自由文本的查詢r(jià)ecordaudio

sound推薦結(jié)果自由文本作為查詢的代碼推薦方法的一般框架2016/7/25

/36QECK:QueryExpansion

Basedon

Crowd

Knowledge

forCodeSearch(基于眾智查詢擴(kuò)展的代碼推薦)LimingNie,HeJiang*,Zhilei

Ren,Zeyi

Sun,Xiaochen

Li,

“QueryExpansion

BasedonCrowdKnowledge

forCode

Search”,

IEEE

Transactionson

ServicesComputing,

2016.PrePrints,

doi:10.1109/TSC.2016.2560165.2016/7/25

/37背景當(dāng)開(kāi)發(fā)者輸入自由文本的查詢時(shí),推薦方法如何為開(kāi)發(fā)者提供一個(gè)相關(guān)的代碼片段列表,輔助其完成特定的編程任務(wù)?由于查詢語(yǔ)句過(guò)短,查詢與代碼段使用不同的語(yǔ)言,或者存在歧義造成檢索效果不好而導(dǎo)致詞項(xiàng)失配問(wèn)題。如何解決?如果查詢擴(kuò)展方法有用,那么如何找到合適的擴(kuò)展詞對(duì)原始查詢進(jìn)行擴(kuò)展?2016/7/25

/38背景--相關(guān)工作的啟發(fā)?

“Rankingcrowd

knowledge

toassistsoftware

development,”

Program

Comprehension

(PC),

2014.把質(zhì)量較高的

StackOverflow(SO)

問(wèn)答對(duì)

推薦給開(kāi)發(fā)者。?

D.

Lo,

"Query

expansionviaWordNet

for

effectivecode

search,"

Software

Analysis,

EvolutionandReengineering

(SANER),

2015.通過(guò)WordNet對(duì)查詢進(jìn)行擴(kuò)展,進(jìn)而推薦代碼片段。?

D.

Lo,“Automated

construction

ofasoftware-specific

word

similarity

database,”

SoftwareMaintenance,

Reengineeringand

Reverse

Engineering

(CSMRWCRE),

2014.?

"SWordNet:

Inferringsemanticallyrelatedwords

from

software

context,“

ESE,

2014.構(gòu)建軟件相關(guān)的近義詞列表。--------------------------------------------------------------------------------------------------------------------------------?

與本文工作同時(shí)期的其它工作:?

Lo

D.

RACK:

AutomaticAPI

Recommendation

usingCrowdsourced

Knowledge,

SANER,

2016.介紹了使用眾智進(jìn)行API推薦2016/7/25

/39背景--相關(guān)工作的啟發(fā)?

“Rankingcrowd

knowledge

toassistsoftware

development,”

Program

Comprehension

(PC),

2014.把質(zhì)量較高的

StackOverflow(SO)

問(wèn)答對(duì)

推薦給開(kāi)發(fā)者。?

D.

Lo,

"Query

expansionviaWordNet

for

effectivecode

search,"

Software

Analysis,

EvolutionandReengineering

(SANER),

2015.通過(guò)WordNet對(duì)查詢進(jìn)行擴(kuò)展,進(jìn)而推薦代碼片段。思考:是否可以從StackOverflow中抽取軟件相關(guān)的擴(kuò)展詞用于查詢的預(yù)操作,進(jìn)而推薦更好的代碼片段?--------------------------------------------------------------------------------------------------------------------------------?

與本文工作同時(shí)期的其它工作:?

Lo

D.

RACK:

AutomaticAPI

Recommendation

usingCrowdsourced

Knowledge,

SANER,

2016.介紹了使用眾智進(jìn)行API推薦2016/7/25

/40方法(QECK)利用偽相關(guān)反饋方法從Stack

Overflow的問(wèn)答對(duì)(眾智)中抽取出擴(kuò)展詞,對(duì)原始查詢進(jìn)行擴(kuò)展。步驟:1.

利用文本相似度和用戶評(píng)分的綜合得分來(lái)推薦與原始查詢最相關(guān)的問(wèn)答對(duì);2.利用偽相關(guān)反饋方法從問(wèn)答對(duì)中選出與原始查詢相關(guān)的擴(kuò)展詞;具體來(lái)說(shuō),為反饋文檔中的每個(gè)詞設(shè)定一個(gè)權(quán)重。在本文檔中出現(xiàn)的次數(shù)多,在別的文檔中出現(xiàn)的次數(shù)少,則該詞的權(quán)重值越大。基于眾智查詢擴(kuò)展的代碼推薦算法框架3.把獲取的擴(kuò)展詞加入到原始查詢中,利用擴(kuò)展后的查詢對(duì)代碼段倉(cāng)庫(kù)進(jìn)行檢索。2016/7/25

/41方法(QECK)利用偽相關(guān)反饋方法從Stack

Overflow詞,對(duì)原始查詢進(jìn)行擴(kuò)展。使用了兩種得分的平均值來(lái)獲取偽相關(guān)反饋文檔:文本相似度和用戶評(píng)分。步驟:1.

利用文本相似度和用戶評(píng)分的綜合得分來(lái)推薦與原始查詢最相關(guān)的問(wèn)答對(duì);2.利用偽相關(guān)反饋方法從問(wèn)答對(duì)中選出與原始查詢相關(guān)的擴(kuò)展詞;具體來(lái)說(shuō),為反饋文檔中的每個(gè)詞設(shè)定一個(gè)權(quán)重。在本文檔中出現(xiàn)的次數(shù)多,在別的文檔中出現(xiàn)的次數(shù)少,則該詞的權(quán)重值越大。使用TF*IDF值從偽相關(guān)反饋文檔的詞集合中抽取有代表性的詞。3.把獲取的擴(kuò)展詞加入到原始查詢中,利用擴(kuò)展后的查詢對(duì)代碼段倉(cāng)庫(kù)進(jìn)行檢索。2016/7/25

/42實(shí)驗(yàn)?

查詢20個(gè)真實(shí)的編程任務(wù),來(lái)自Stack

Overflow。?

SO問(wèn)答對(duì)倉(cāng)庫(kù)24,120,522帖子---5,108,770問(wèn)答對(duì)---312,941Android

問(wèn)答對(duì)。(屏蔽掉與查詢相同的問(wèn)答對(duì))?

代碼段倉(cāng)庫(kù)921,713個(gè)代碼片段,來(lái)自1538個(gè)app項(xiàng)目。2016/7/25

/43研究問(wèn)題及結(jié)果-RQ1RQ1:QECK是否能夠提升現(xiàn)有代碼搜索算法的性能?本方法在三個(gè)算法上都取得了明顯的提升效果,在Precision@10上分別提升了:38%,33%,64%在NDCG@10上分別提升了:20%,16%,35

%對(duì)比算法:IR:

BM25P:

Portfolio

(TOSEM

2013)VF:

Iman(ICSE2014)對(duì)比算法:TOSEM,

2013.

Portfolio

Searching

for

Relevant

Functions

and

TheirUsages

inMillions

ofLinesof

Code.ICSE,2014.

Spotting

Working

Code

Examples.2016/7/25

/

44研究問(wèn)題及結(jié)果-RQ2RQ2:參數(shù)是如何影響推薦性能的?偽相關(guān)反饋文檔數(shù)目固定為5,擴(kuò)展詞個(gè)數(shù)變化時(shí)對(duì)應(yīng)兩個(gè)度量指標(biāo)的變化情況99PrecisionNDCG擴(kuò)展詞個(gè)數(shù)固定為9,偽相關(guān)反饋文檔數(shù)目變化時(shí)對(duì)應(yīng)兩個(gè)指標(biāo)的變化情況55PrecisionNDCG2016/7/25

/45研究問(wèn)題及結(jié)果-RQ3RQ3:與最新的查詢擴(kuò)展方法相比,本文方法效果如何?與最新的查詢擴(kuò)展代碼推薦方法對(duì)比在Precision@10上提升了22%在NDCG@10上提升了16%PW:P-WordNet(SANER2015)對(duì)比算法:SANER,2015,D.

Lo,

Queryexpansion

viaWordNet

foreffective

code

search2016/7/25/46實(shí)驗(yàn)設(shè)計(jì)--SO問(wèn)答對(duì)倉(cāng)庫(kù)一個(gè)SO問(wèn)答對(duì)的處理過(guò)程?通過(guò)Tag過(guò)濾,得到Android編程相關(guān)的問(wèn)答對(duì)過(guò)濾預(yù)處理存儲(chǔ)問(wèn)答對(duì)?對(duì)問(wèn)答對(duì)進(jìn)行文本預(yù)處理,去停用詞,駝峰分詞,取詞干等操作?每個(gè)問(wèn)答對(duì)作為一個(gè)document對(duì)象保存在Lucene中。一個(gè)document有多個(gè)域?便于快速檢索SO問(wèn)答對(duì)索引Lucene

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論