信息檢索實(shí)驗(yàn)202102-信息檢索-HW4-202102-信息檢索-HW4-沈晨玙-2019092121_第1頁(yè)
信息檢索實(shí)驗(yàn)202102-信息檢索-HW4-202102-信息檢索-HW4-沈晨玙-2019092121_第2頁(yè)
信息檢索實(shí)驗(yàn)202102-信息檢索-HW4-202102-信息檢索-HW4-沈晨玙-2019092121_第3頁(yè)
信息檢索實(shí)驗(yàn)202102-信息檢索-HW4-202102-信息檢索-HW4-沈晨玙-2019092121_第4頁(yè)
信息檢索實(shí)驗(yàn)202102-信息檢索-HW4-202102-信息檢索-HW4-沈晨玙-2019092121_第5頁(yè)
已閱讀5頁(yè),還剩9頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

實(shí)驗(yàn)項(xiàng)目名稱:文檔評(píng)分和概率檢索模型的實(shí)驗(yàn)2022年4月29日(周五)-2022年5月11日(周三)(1).用Java語(yǔ)言或其他常用語(yǔ)言計(jì)算附件“HW4_1.txt”中的80個(gè)英文文檔(每行表示一個(gè)document,文檔編號(hào)1~80)兩兩之間的相似度值,并據(jù)此為每個(gè)文檔返回相似度最大的3個(gè)文檔(實(shí)驗(yàn)報(bào)告中只需包含文檔1~10的最相似的文檔)。要求使用cosinesimilarity和TF-IDF計(jì)算文檔之間的相似度(保留小數(shù)點(diǎn)后兩位),英文單詞一律轉(zhuǎn)為請(qǐng)?jiān)趫?bào)告中附上代碼截圖(不要復(fù)制源代碼,請(qǐng)用截圖的方式)、運(yùn)行結(jié)果截圖和(2).用Java語(yǔ)言或其他常用語(yǔ)言計(jì)算附件“HW4_2.txt”中的600個(gè)中文文檔(每行表示一個(gè)document,文檔編號(hào)1~600,使用開源的中文分詞工具)兩兩之間的相似度值,并據(jù)此為每個(gè)文檔返回相似度最大的3個(gè)文檔(實(shí)驗(yàn)報(bào)告中只需包含文檔1~10的最相似的文檔)。要求使用cosinesimilarity和TF-IDF計(jì)算文檔之間的相似度(保留小數(shù)點(diǎn)后兩位)。請(qǐng)?jiān)趫?bào)告中附上代碼截圖(不要復(fù)制源代碼,請(qǐng)用截圖的方式)、運(yùn)行結(jié)果截圖和(1)本次實(shí)驗(yàn)課作業(yè)滿分為100分。(2)本次實(shí)驗(yàn)課作業(yè)截至?xí)r間2022年5月11日(周三)22:00。(3)報(bào)告正文:請(qǐng)?jiān)谥付ㄎ恢锰顚?,本次?shí)驗(yàn)需要單獨(dú)提交源程序文件(源程序單獨(dú)打包在Blackboard中上傳,不要包含外部導(dǎo)入的包)。(4)個(gè)人信息:WORD文件名中的“姓名”、“學(xué)號(hào)”,請(qǐng)改為你的姓名和學(xué)號(hào);(5)提交方式:截至?xí)r間前,請(qǐng)?jiān)贐lackboard平臺(tái)中提交。(6)發(fā)現(xiàn)抄襲(包括復(fù)制&粘貼整句話、整張圖),抄襲者和被抄襲者的成績(jī)記零(7)延遲提交,不得分;如有特殊情況,請(qǐng)于截至日期之后的48小時(shí)內(nèi)發(fā)郵件到panweike@,并在郵件中注明課程名稱、作業(yè)名稱、姓名、學(xué)號(hào)等信息,以及(8)期末考試階段補(bǔ)交無(wú)效。(1).用Java語(yǔ)言或其他常用語(yǔ)言計(jì)算附件“HW4_1.txt”中的80個(gè)英文文檔(每行表示一個(gè)document,文檔編號(hào)1~80)兩兩之間的相似度值,并據(jù)此為度最大的3個(gè)文檔(實(shí)驗(yàn)報(bào)告中只需包含文檔1~10的最相似的文檔)。similarity和TF-IDF計(jì)算文檔之間的相似度(保留小數(shù)點(diǎn)后兩位),英文單詞一律轉(zhuǎn)為請(qǐng)?jiān)趫?bào)告中附上代碼截圖(不要復(fù)制源代碼,請(qǐng)用截圖的方式)、運(yùn)行結(jié)果截圖和詳細(xì)的文字說(shuō)明。文檔中要包含與cosinesimilarity和TF-ID的代碼所在的位置。程序要有詳細(xì)的注釋。(50分)1.首先讀取文件,轉(zhuǎn)換為小寫后根據(jù)正則表達(dá)式對(duì)文本進(jìn)行切割分割原則是非字母與’_’sentences=pd.Series(t.read().splitlines()】#轉(zhuǎn)換為小寫,并使用正則表達(dá)式進(jìn)行切割docs=docs.apply(lambdax:re.split('#刪除空串結(jié)果:0[vae,variational,au2[transfer,learning,i75[fedrec,federated,r3.計(jì)算tf-idfidf的計(jì)算公式如下圖所示:需要首先統(tǒng)計(jì)df,即每個(gè)詞項(xiàng)在文檔集中的出現(xiàn)次數(shù)(每個(gè)文檔中只記一次)這里使用了python的編程技巧,wordinlineforlineindocs會(huì)返回一個(gè)l置上為False或True,只需要統(tǒng)計(jì)True的數(shù)量就可以直到出現(xiàn)次數(shù)了。代碼如下所示:fori,wordin最終可以得到每個(gè)詞項(xiàng)的最終可以得到每個(gè)詞項(xiàng)的idf值。df:[1.9030899869919433,1.90>functionvariablestern_set:{'transrec','catetern_set:{'transrec','cate5663647024:'voe'tf的計(jì)算公式如下圖所示:需要做的是統(tǒng)計(jì)每個(gè)詞項(xiàng)在每條文檔中的出現(xiàn)次數(shù)。如果出現(xiàn)過(guò),根據(jù)上述公式進(jìn)行處理;否則置為0代碼如下所示:tf=[0ifdoc.count(term)=0else1+math.log(doc.count(term),tf=[0ifdoc.count(term)=0else1+math.log(doc.count(term),最終可以得到每個(gè)文檔的詞項(xiàng)頻率(3)計(jì)算tf-idftf_idf[]=np.multipltf_idf[]=np.multipl最終可以得到每個(gè)文檔的tf-idf向量(其中包含大量0,是因?yàn)樾枰~項(xiàng)并沒(méi)有在該文檔中出現(xiàn)。如果為了節(jié)約空間,可以只記錄index與對(duì)應(yīng)的tf-idf值。但是為了后續(xù)計(jì)算余弦相似度方便,這里并沒(méi)有進(jìn)行處理。)tftf_idf:[arroy([0.>88:arry[.>e1:arrey([0.>82:array([6.>83:arrey([.>84:arrey([0.>06:arrey([0.,0.,0.75696195,0.,0.,0.,0.,0.,0.0...]),arroy([0.4.計(jì)算余弦相似度余弦相似度計(jì)算公式如下圖所示:取出需要比較的兩個(gè)文檔的tf-idf向量,根據(jù)上述公式計(jì)算出相似度這里使用了numpy的線性代數(shù)庫(kù),可以簡(jiǎn)化代碼的編寫最終可以得到所有文檔間兩兩的相似度。cosine_similarity.sort(key=lambdax:x[0],r具體實(shí)現(xiàn)代碼可以見代碼附件(只展示了核心代碼)根據(jù)余弦相似度從大到小進(jìn)行排序,展示1-10號(hào)文檔相似度最大的3個(gè)文檔文檔1:測(cè)1相低文梢的內(nèi)容為VAE+**VareiortlAtotncoterforHetarogoneeusOne-ClhssCalaborc文檔2:第2相供:文檔3:文檔4:文檔5:第1相似:文檔5和文檔38的相似度為0.79文檔6:文檔7:第3相供文檔8:文檔9:文檔10:文檔10的內(nèi)容為PAT:Preference-AwareTransferLearntngforRecommendationwithHeterogeneousFeedback文檔60的內(nèi)容為TransterLesningforHeterogensbusOne-ClsssColtboraiveFiterng文檔10的內(nèi)督為PATPraterence-AwareTransferLennthgforRecommendatonwithHaterogeneouisFesdtbsck文檔67的內(nèi)容為MikedSimllartyLeanthgforRecommendationwithImpliettFeedback(2).用Java語(yǔ)言或其他常用語(yǔ)言計(jì)算附件“HW4_2.txt”中的600個(gè)中文文檔(每行表示一個(gè)document,文檔編號(hào)1~600,使用開源的中文分詞工具)兩兩之間的相似度值,并據(jù)此為每個(gè)文檔返回相似度最大的3個(gè)文檔(實(shí)驗(yàn)報(bào)告中只需包含文檔1~10的最相似的文檔)。要求使用cosinesimilarity和TF-IDF計(jì)算文檔之間的相似度(保留小數(shù)點(diǎn)后兩位)。請(qǐng)?jiān)趫?bào)告中附上代碼截圖(不要復(fù)制源代碼,請(qǐng)用截圖的方式)、運(yùn)行結(jié)果截圖和詳細(xì)的文字說(shuō)明。程序要有詳細(xì)的注釋。(30分)核心算法與第一問(wèn)中的做法基本類似,不再重新闡釋這里展示,對(duì)于中文的分詞操作:手動(dòng)添加一些計(jì)算機(jī)專業(yè)詞匯進(jìn)入jieba。然后使用jieba的精準(zhǔn)模式進(jìn)行切割『基于,用戶,聲譽(yù),'的;"魯棒;'協(xié)同,推薦算法]『基于,用戶,聲譽(yù),'的;"魯棒;'協(xié)同,推薦算法]后續(xù)文檔相似度的計(jì)算方法與第一問(wèn)相同。展示1-10號(hào)文檔相似度最大的3個(gè)文檔文檔1:第1相似:第3相似:文檔433的內(nèi)容為:基于魯棒表示的遷移學(xué)第1相似:文檔155的內(nèi)容為:基于隨機(jī)游走和多樣性圖排序的個(gè)第3相似:文檔264的內(nèi)容為:基于超圖隨機(jī)游走標(biāo)簽擴(kuò)文檔3:文檔134的內(nèi)容為:融合SOM功能聚類與DeepFM質(zhì)量預(yù)測(cè)文檔547的內(nèi)容為:稀缺資源語(yǔ)言神經(jīng)網(wǎng)絡(luò)文檔4:第1相似:文檔4的內(nèi)容為:異質(zhì)信息網(wǎng)絡(luò)中元路徑感法第2相似:法文檔4的內(nèi)容為:異質(zhì)信息網(wǎng)絡(luò)中元路徑感文檔228的內(nèi)容為:基于評(píng)分預(yù)測(cè)與排序預(yù)測(cè)第3相似:文檔4的內(nèi)容為:異質(zhì)信息網(wǎng)絡(luò)中元路徑感第1相似:文檔5的內(nèi)容為:基于位置服務(wù)的分布式差分第2相似:文檔5的內(nèi)容為:基于位置服務(wù)的分布式差分文檔351的內(nèi)容為:基于分布式數(shù)據(jù)的隱私保持第3相似:文檔5和文檔149的相似度為0.41文檔5的內(nèi)容為:基于位置服務(wù)的分布式差分文檔6:第3相似:文檔7:文檔8:文檔9:文檔10:第1相似:文檔61的內(nèi)容為:基于多維上下文感知圖嵌入第2相

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論