2024愛奇藝搜索排序模型迭代_第1頁
2024愛奇藝搜索排序模型迭代_第2頁
2024愛奇藝搜索排序模型迭代_第3頁
2024愛奇藝搜索排序模型迭代_第4頁
2024愛奇藝搜索排序模型迭代_第5頁
已閱讀5頁,還剩15頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

愛奇藝搜索排序模型迭代時候,我們的解決方案。這次分享的ppt針對一線的開發(fā)人員,希望可以給一線的開發(fā)人app天更關(guān)注在doc層和query層是如何做這些匹配的。內(nèi)容生態(tài),愛奇藝的視頻搜索不僅僅是站內(nèi)搜索引擎,而是全網(wǎng)的視頻通過對用戶的query進行切詞,將右邊的視頻資源的文本描述信息構(gòu)建構(gòu)建倒排索引,此詞權(quán)重query1.0后的新詞與視頻做相關(guān)性計算,取top結(jié)果返回給用戶,以此來實現(xiàn)拓展詞召回。第一步query以及點擊的document生成doc-query們再從新標注一部分翻譯的groundtruth。義空間,那么該場景造成的mismatch現(xiàn)象會非常嚴重。那么此時,我們就需要把二者映具體做法:利用搜索點擊日志,來構(gòu)建一個搜索點擊二部圖。如下圖中可以看到:doc4與query2query4query6doc4但是我們已然不難看出,三個query詞之間具有較強的相關(guān)性,并且這個結(jié)論的置信度也并以次來拓展query的表達。n-gram來拆解擬合,最后用動態(tài)規(guī)劃去選擇最優(yōu)的表達向量。nlpnlp本相似性(如dssm);基于交互querydocument我們當前的策略是基于表達,如下圖所示框架:首先,抽取query下的正負樣例;之后,idf權(quán)重很高;最難點在于groundtrue構(gòu)建,嚴重影響語義模型的效果。下圖是精確匹配2.0的版本,在這個版本我們基于翻譯模型把query進行查詢詞拓展,同click-simi最后基于相關(guān)性模型去計算query和視頻內(nèi)容是否相關(guān)。界提出的,在工業(yè)界通過a/btest,不斷的嘗試后得出的比較成功的案例。用戶query的時效性(新聞資訊&老電影,游戲&電視?。?;query(新鮮度、語義召回、視頻來源、歷史點擊表現(xiàn)等)。后面當我們的特征越來越多的時候,以上四個因素已經(jīng)開始很難全面地涵蓋各種排序因子所以后面遷移到了學習系統(tǒng),基于用戶在歷史的排序結(jié)果的點擊行為收集起來構(gòu)造label,根據(jù)用戶在搜索時候給出的queryvideo與label進行join,得到groundturth,之后進入學習系統(tǒng)進行學習,訓練處一個排序模pointwise,相關(guān)不相關(guān);pairwise,A優(yōu)于B;r(iii代表i個結(jié)果的排序位置。直觀理解:ir(i)越大,ndcglistwise量化為三個等級:excllent,good,normal負樣例:skip-abovedocument后面我們發(fā)現(xiàn),id特征也是有重要意義的,在特征工程中應(yīng)該予以考慮,由于我們在提取在沒有加入稀疏類特征之前,我們的模型是mbd-mrt模型,在IR領(lǐng)域是最先進的模gbdtbotng同時有很好的學習泛化能力,樹結(jié)構(gòu)很難兼容高維稀疏特征,比方說我們的dcument是到瓶頸。但是在出來高維稀疏特征的時候,像LR、M、M可以認為是線性模型,特征LR很多情況下特征組合方式比較重要,樹模型從根節(jié)點到葉子節(jié)點的路徑其實是一種組合方第一種方式LR特征和原始特征做拼接,學習gbdt模型。稀疏特征拼接,在此基礎(chǔ)上用LR學習。dnnquerydocumentembeddingdocumentquery(兩個負樣例,所以我們自己做了點積),gbdt與embedding特征做拼接,最后經(jīng)過三個全連接層,接

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論