SOW-基于中文語義分析的產(chǎn)品搜索系統(tǒng)_第1頁
SOW-基于中文語義分析的產(chǎn)品搜索系統(tǒng)_第2頁
SOW-基于中文語義分析的產(chǎn)品搜索系統(tǒng)_第3頁
SOW-基于中文語義分析的產(chǎn)品搜索系統(tǒng)_第4頁
SOW-基于中文語義分析的產(chǎn)品搜索系統(tǒng)_第5頁
免費預(yù)覽已結(jié)束,剩余1頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、附錄C基于中文語義分析的產(chǎn)品搜索系統(tǒng)項目背景XXXX的搜索平臺是客戶對廣大消費者提供產(chǎn)品搜索服務(wù)的窗口,直接與用戶體驗以及銷售收益相關(guān)。我公司愿意將最新的認(rèn)知計算技術(shù),包括先進(jìn)的中文自然語言理解、語義分析、機(jī)器學(xué)習(xí)以及智能搜索技術(shù),助力客戶,將XXXX的搜索平臺提升到一個更高的水平。具體的合作內(nèi)容包括:改進(jìn)和優(yōu)化基于關(guān)鍵詞的產(chǎn)品搜索與排序方法,實現(xiàn)基于主題環(huán)境下的語義分析及搜索技術(shù),建立和增強(qiáng)基于用戶及商品建模的個性化搜索排序,并搭建下一代可擴(kuò)展、高性能的搜索平臺。工作內(nèi)容我公司可以根據(jù)具體的服務(wù)請求(SR)流程向客戶提供以下服務(wù)內(nèi)容。產(chǎn)品搜索優(yōu)化建設(shè)目標(biāo)為進(jìn)一步改善產(chǎn)品搜索,根據(jù)客戶搜索的現(xiàn)

2、狀和規(guī)劃,針對產(chǎn)品搜索中的以下核心問題:中文分詞切詞問題,產(chǎn)品數(shù)據(jù)標(biāo)準(zhǔn)化,搜索結(jié)果排序問題,搜索索引效率問題,進(jìn)行改進(jìn),提升現(xiàn)有的產(chǎn)品搜索方法的準(zhǔn)確度和效率。工作項建立中文分詞評估集:通過調(diào)研中文分詞在客戶搜索各階段的應(yīng)用現(xiàn)狀、中文分詞過程中英文字符串的處理方式、以及客戶搜索系統(tǒng)中文檔集的如何分類,構(gòu)建中文分詞評估數(shù)據(jù)集,提出對分詞模塊的評估指標(biāo),并制訂數(shù)據(jù)集的構(gòu)成以及構(gòu)建的方法,估算所需投入成本的規(guī)模,然后探討構(gòu)建評估數(shù)據(jù)集的實施方案,完成大規(guī)模數(shù)據(jù)集的建設(shè)及分詞模塊的評估;中文分詞算法改進(jìn):改進(jìn)現(xiàn)有的搜索系統(tǒng)的分詞算法,將新的分詞算法用中文分詞評估集進(jìn)行評測,并將改進(jìn)的方法集成到創(chuàng)建索引和

3、在線查詢中。中文分詞書寫檢查技術(shù):利用自然語言分析技術(shù),對文檔和查詢中的錯字和錯誤的詞組搭配進(jìn)行檢查并糾正。在搜索場景中,可以結(jié)合字和詞兩個層次的錯誤檢查,用于搜索引擎中對用戶的不規(guī)范查詢的查詢建議;支持用戶定義的新詞 、規(guī)范詞、同義詞、衍生詞、概念詞,從而提高檢錯的精準(zhǔn)度;通過完善中文書寫檢查技術(shù)對多種輸入法的適應(yīng)性優(yōu)化,提高查詢的規(guī)范化程度。建立完善的產(chǎn)品分類體系:可以從“聚類”出發(fā),構(gòu)造初始的分類樹。在此過程中,需要確定分類的維度,是查單一目標(biāo),還是多個目標(biāo),查什么類別的產(chǎn)品,查什么品牌等。還需要完善分類體系,包括按產(chǎn)品的屬性(比如類別,品牌,名稱,商標(biāo))的分類體系;按按促銷活動(拇指殺

4、)的分類體系。分類體系需要隨入庫的文檔統(tǒng)計新概念,進(jìn)行動態(tài)調(diào)整,并定期分析檢索日志和用戶反饋(比如點擊行為)。采用基于分類和基于順序回歸相結(jié)合的排序?qū)W習(xí),優(yōu)化查詢結(jié)果的排序:訓(xùn)練數(shù)據(jù)采用列表方式:(查詢式,文檔,排序序號) - f(q,d,w),將損失函數(shù)構(gòu)造為信息檢索結(jié)果評價函數(shù)的界限,衡量預(yù)測的排序序列與實際最佳序列之間的差異,保證損失函數(shù)的連續(xù)性和區(qū)分性,并且計算效率高。建立評估集,用機(jī)器學(xué)習(xí)的方法做訓(xùn)練:構(gòu)建查詢及其期望的正確答案,然后采用召回全部期望值時的平均準(zhǔn)確率,以及歸一化的折算累計增益指標(biāo)。知識轉(zhuǎn)移向客戶提供產(chǎn)品搜索增強(qiáng)模塊的設(shè)計和使用文檔,以及模塊的接口?;谇榫车恼Z義搜索建

5、設(shè)目標(biāo)我公司將會與客戶一起,規(guī)劃和設(shè)計基于情境的語義搜索技術(shù),充分應(yīng)用我公司的先進(jìn)的自然語言理解技術(shù),深入分析內(nèi)外部數(shù)據(jù),提供基于實時情境的語義搜索技術(shù),并與現(xiàn)有的搜索技術(shù)相結(jié)合,提升客戶的搜索體驗。工作項中文語義分析調(diào)研:調(diào)研客戶搜索系統(tǒng)的中文語義分析的需求,討論語義分析的應(yīng)用場景,確定語義分析的研究與合作計劃。構(gòu)建和完善語義分類體系和語義詞典,利用成熟的本語描述語言和應(yīng)用工具,利用行業(yè)詞庫管理、同義詞管理、聯(lián)想詞管理、熱點詞管理等功能,對文檔和用戶查詢進(jìn)行語義分析和理解,將術(shù)語整理成多層次的、明確的和規(guī)范的概念體系,達(dá)到部門間的共同認(rèn)可、共享和重用。分析大量外部數(shù)據(jù),提取實時情境信息,通過

6、多維度數(shù)據(jù)分析建立情境與搜索排序的關(guān)系,從而全面了解客戶的搜索意圖、使用體驗,優(yōu)化搜索排序,提供精準(zhǔn)有效的搜索結(jié)果,幫助客戶及時便捷地找到搜索目標(biāo);增加產(chǎn)品的擴(kuò)展屬性,建立擴(kuò)展屬性的同義詞表,建立特定關(guān)鍵字與產(chǎn)品屬性之間的映射分析,增強(qiáng)對查詢意圖的分析和理解,提供基于語義的搜索方法。利用產(chǎn)品動態(tài)屬性分析技術(shù)挖掘每個品牌及產(chǎn)品的動態(tài)屬性分布,幫助用戶通過個性化搜索快速有效地找到自己所需的產(chǎn)品;利用產(chǎn)品檔案及客戶-產(chǎn)品多維度關(guān)聯(lián)分析提供高效的個性化搜索,提供客戶瀏覽所需的產(chǎn)品。 知識轉(zhuǎn)移向客戶提供語義搜索模塊的設(shè)計和使用文檔,以及模塊的接口。個性化搜索建設(shè)目標(biāo)充分利用XXXX平臺積累的內(nèi)外部的結(jié)構(gòu)

7、化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù),例如,消費者的網(wǎng)上行為數(shù)據(jù)、人口統(tǒng)計學(xué)、社交媒體、購買歷史、位置數(shù)據(jù)等多種數(shù)據(jù),對用戶搜索偏好進(jìn)行建模,提供個性化的產(chǎn)品搜索,達(dá)到提升用戶體驗的效果。工作項對用戶及商品建模,基于用戶及商品模型對搜索結(jié)果進(jìn)行個性化排序。根據(jù)用戶的歷史交易數(shù)據(jù),對用戶性別、生命階段(畢業(yè)、工作、購房、結(jié)婚、生小孩等)進(jìn)行預(yù)測,提供個性化的搜索;基于用戶的歷史交易及行為數(shù)據(jù),對用戶的購物偏好進(jìn)行建模,提供個性化的搜索;基于用戶的評論及社交數(shù)據(jù),對用戶的購物人格進(jìn)行建模,提供個性化的搜索?;谟脩艉蜕唐返慕换?,例如對商品打標(biāo)簽建立用戶偏好模型,提供個性化的搜索。知識轉(zhuǎn)移向客戶提供個性化搜索模塊的

8、設(shè)計和使用文檔,以及模塊的接口。搭建下一代可擴(kuò)展、高性能的搜索平臺建設(shè)目標(biāo)設(shè)計與搭建下一代分布式的搜索平臺,平臺能夠?qū)崿F(xiàn)迅速的水平擴(kuò)展,自動數(shù)據(jù)分片和負(fù)載均衡等特性,提高系統(tǒng)的速度和容錯性。工作項下一代搜索平臺的需求訪談:調(diào)研客戶對下一代搜索系統(tǒng)的需求,了解現(xiàn)狀,以及對未來的搜索架構(gòu)的期望,確定下一代搜索平臺的研究與合作計劃。下一代搜索平臺的設(shè)計與實現(xiàn):主要關(guān)注以下幾個方面:1)系統(tǒng)水平擴(kuò)展,集群機(jī)器間能夠共享配置信息,可以方便的增加計算能力2)自動數(shù)據(jù)分片,提高系統(tǒng)的容錯性3)查詢時自動負(fù)載均衡,提高搜索的速度。下一代搜索平臺的評估與試運行:通過實驗環(huán)境,進(jìn)行下一代搜索平臺的測試與評估,并試

9、運行。知識轉(zhuǎn)移向客戶提供下一代搜索平臺的設(shè)計和規(guī)劃文檔,以及平臺主要功能模塊使用及接口。服務(wù)前提條件客戶硬件系統(tǒng)環(huán)境要求隨項目的開展,陸續(xù)提供如下軟硬件環(huán)境16G Mem/64bit Win or linux/500G HD/ 4 Core CPU客戶配合人員要求提供搜索相關(guān)的商品數(shù)據(jù)訪問權(quán)限提供歷史檢索日志及錯誤分析報告提供現(xiàn)有搜索系統(tǒng)的代碼訪問權(quán)限提供實施階段的軟硬環(huán)境提供系統(tǒng)集成測試的用例及測試驗收我公司的責(zé)任需求分析階段的需求設(shè)計系統(tǒng)設(shè)計及開發(fā)定制實施階段的軟件安裝部署系統(tǒng)集成測試系統(tǒng)上線培訓(xùn)客戶的責(zé)任商品數(shù)據(jù),歷史訪問日志及錯誤分析報告的準(zhǔn)備軟硬件環(huán)境的準(zhǔn)備,可能需要的平臺使用的軟件

10、許可,由客戶負(fù)責(zé)購買安排相關(guān)搜索開發(fā)人員,配合我公司的開發(fā)設(shè)計工作。安排培訓(xùn)場地用于系統(tǒng)培訓(xùn)可能的交付作品清單中文分詞評估集語義分類體系和語義詞典下一代搜索平臺的設(shè)計報告對每一個交付子系統(tǒng),包括改進(jìn)的分詞、產(chǎn)品分類以及產(chǎn)品搜索優(yōu)化算法集成,基于情境的語義搜索算法集成,個性化搜索系統(tǒng)以及下一代產(chǎn)品搜索平臺,提供相應(yīng)的設(shè)計說明書, 系統(tǒng)使用說明書 二進(jìn)制運行代碼 用戶界面源代碼 服務(wù)接口說明及源代碼工作推進(jìn)路線圖短期目標(biāo) (36個月) 利用中文分詞及書寫檢查技術(shù),建立產(chǎn)品搜索的分詞模型及算法構(gòu)建,并應(yīng)用到現(xiàn)有系統(tǒng),優(yōu)化搜索排序算法進(jìn)行語義搜索的調(diào)研,制定語義搜索的實施方案,并初步構(gòu)建和完善語義分類體系和語義詞典。中期目標(biāo)(612個月)全面展開基于情境的語義搜索,提供情境分析,以及語義搜索。根據(jù)內(nèi)外部數(shù)據(jù)進(jìn)行用戶建模,提供多維度的個性化搜索。長期目標(biāo)(12個月以上) : 搭建下一代可擴(kuò)展、高性能的搜索平臺調(diào)研下一代搜索平臺的需求,設(shè)計并搭建下一代可擴(kuò)展、高性能

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論