版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
#電商知識圖譜建設及大模型應用探索01電商知識圖譜概覽02電商知識圖譜構(gòu)建03電商知識圖譜應用04知識圖譜與大模型探索目錄
CONTENT#01電商知識圖譜概覽電商平臺為什么需要知識圖譜Product商品Buyer買家Seller賣家EcommercePlatform電商平臺賣家與買家的語言表達習慣不同,如何將意圖與商品匹配起來?不同賣家之間的語言表達習慣不同,如何將平臺上的商品統(tǒng)一管理?不同市場的語言不同,跨境電商平臺如何對齊不同市場商品,高效管理?電商平臺為什么需要知識圖譜深度學習或大模型優(yōu)點:在很多任務上效果可觀泛化能力強缺點:隱式模型,缺乏可解釋性需要海量數(shù)據(jù)和強大算力存在模型幻覺問題知識圖譜優(yōu)點將異構(gòu)數(shù)據(jù)源轉(zhuǎn)換為結(jié)構(gòu)化知識:實體,關(guān)系,屬性可解釋性好缺點:構(gòu)建難度大泛化能力有限V.S.電商平臺為什么需要知識圖譜知識圖譜優(yōu)點將異構(gòu)數(shù)據(jù)源轉(zhuǎn)換為結(jié)構(gòu)化知識可解釋性好缺點:構(gòu)建難度大泛化能力有限賣家買家電商平臺用戶體驗管理邏輯運營成本同款商品橫向比較不同商品相同維度對比不同維度補足多種維度挖掘商品商品多元表達各異數(shù)據(jù)異構(gòu)層級不同店鋪內(nèi)商品管理同市場內(nèi)同款商品對比同市場內(nèi)不同商品補足跨市場商品輸出同類商品聚合管理跨市場商品對比和輸出同類和跨類別商品效率分析品類上新、招商統(tǒng)一的商品知識圖譜電商平臺知識圖譜多維度:商品賣家買家多層級:類目標品跨信息源:市場場景商品+評論#02電商知識圖譜構(gòu)建電商知識圖譜構(gòu)建難點來源多:賣家商品信息買家搜索、評論表達方式多樣:不同賣家表述習慣不同不同語言表達方式不同商品展現(xiàn)方式不同:文本、圖片東南亞常用表達
錯誤拼寫信息缺失信息錯誤信息冗余特定類別需領(lǐng)域知識鑒定信息準確性信息多元Shopee
為例:數(shù)十億商品8個市場6種語言質(zhì)量參差不齊依賴領(lǐng)域知識數(shù)據(jù)量大保質(zhì)信息領(lǐng)域知識電商知識圖譜構(gòu)建基本框架電商知識圖譜構(gòu)建方法-數(shù)據(jù)源TitleVariationSpecificationImageDescriptionComment電商知識圖譜構(gòu)建方法-信息抽取電商知識圖譜的基石:Ontology定義和結(jié)構(gòu)構(gòu)建方法:專家領(lǐng)域知識數(shù)據(jù)主動挖掘Ontology結(jié)構(gòu):基礎(chǔ)定義層類別:L1-L5屬性:關(guān)鍵屬性,銷售屬性組合定義層:場景:多類目組合標簽:類目+屬性,或多屬性,寬松定義標品:類目+屬性,嚴格定義電商知識圖譜構(gòu)建方法-信息抽取信息抽取-類目信息質(zhì)量參差不齊:文本和圖片信息質(zhì)量檢測信息模糊、不完整:文本+圖片交叉驗證多語言適配:不同語言實體拉齊E.g.1
首圖圖片嘈雜,很難分辨商品主體,選擇商品明確的圖片作為模型輸入E.g.1
單從圖片看可能屬于樂器類目,但從標題中可以明確知道是兒童玩具Replace電商知識圖譜構(gòu)建方法-信息抽取信息抽取-類目信息質(zhì)量參差不齊:文本和圖片信息質(zhì)量檢測信息模糊、不完整:文本+圖片交叉驗證多語言適配:不同語言實體拉齊Image
Quality
ScoreImage
resolutionObject
NumberTextBackground…Text
Quality
ScoreRule-engine:
token
number
intitleMulti-task
cross
check:
classification
andkeywords
detection…Item
TitleSentence
Embedding......TrmTrmTrmTrmClassifierAttention
weightsInput
categoryInput
Keyphrase(s)電商知識圖譜構(gòu)建方法-信息抽取Li,
Junnan,
et
al.
"Align
before
fuse:
Vision
and
language
representation
learning
with
momentum
distillation."
Advances
inneural
informationprocessing
systems
34
(2021):9694-9705.Oquab,Maxime,et
al.
"Dinov2:Learningrobust
visual
featureswithoutsupervision."arXiv
preprintarXiv:2304.07193(2023).信息抽取-類目信息質(zhì)量參差不齊:文本和圖片信息質(zhì)量檢測信息模糊、不完整:文本+圖片交叉驗證多語言適配:不同語言實體拉齊Labse-DinoV2-Vit
improves
~5.9%accuracy
than
Albef
on
hard
categories,e.g.
Health,
Gaming,
Stationary,
etc.電商知識圖譜構(gòu)建方法-信息抽取信息抽取-類目信息質(zhì)量校驗:文本和圖片信息質(zhì)量檢測信息模糊、不完整:文本+圖片交叉驗證多語言適配:不同語言實體拉齊LabseLlamaFlan-T5MiniLMEncoderDecoderEncoderDecoderRaffel,
Colin,
et
al."Exploringthe
limits
of
transferlearningwith
aunifiedtext-to-texttransformer."Journalof
machinelearningresearch
21.140
(2020):
1-67.Touvron,
Hugo,
et
al.
"Llama
2:
Open
foundation
and
fine-tuned
chat
models."
arXiv
preprint
arXiv:2307.09288
(2023).Feng,Fangxiaoyu,
et
al.
"Language-agnostic
BERT
sentenceembedding."
arXivpreprint
arXiv:2007.01852(2020).Wang,
Wenhui,etal."Minilmv2:
Multi-headself-attention
relation
distillation
forcompressing
pretrained
transformers."arXivpreprint
arXiv:2012.15828
(2020).電商知識圖譜構(gòu)建方法-知識融合1.
Li,
Junnan,
et
al.
"Blip-2:
Bootstrapping
language-image
pre-training
with
frozen
image
encoders
and
largelanguage
models."
International
conference
onmachine
learning.
PMLR,2023.Text
Image
Alignment知識融合-實體消歧:類目:文本和圖片商品沖突屬性:一個屬性抽取了多個屬性值,例如e.g.,['red',Color,title],['black',Color,description]多個屬性值抽取了相同屬性值:e.g.,['gold',Color,title],['gold',Material,title]屬性值邊界跨不同屬性:e.g.,['red',Color,title],['red
mi',Brand,title]tshirt
orshort?top
->
tshirt電商知識圖譜構(gòu)建方法-知識融合/thunlp/OpenPromptRaffel,
Colin,
et
al."Exploringthe
limits
of
transfer
learningwith
a
unifiedtext-to-texttransformer."
Journalof
machine
learning
research
21.140
(2020):
1-67.Gen-T5
improve
~12%
accuracy
thanBERT-based
NER
onambiguousattribute
value
extraction.知識融合-實體消歧:類目:文本和圖片商品沖突屬性:一個屬性抽取了多個屬性值,例如e.g.,['red',Color,title],['black',Color,description]多個屬性抽取了相同屬性值:e.g.,['gold',Color,title],['gold',Material,title]屬性值邊界跨不同屬性:e.g.,['red',Color,title],['red
mi',Brand,title]電商知識圖譜構(gòu)建方法-知識融合知識融合-實體對齊:屬性:拼寫錯誤:edit
distance,semantic
similarity,common
wrong
case不同語言:multi-lingual
embedding
similarity,MTcross
validation同近義詞:e.g.color,clear
v.s.transparent不同表達:不同單位計算,e.g.50cm
v.s.0.5m標準值選擇:popularity
(item
occurrence,
query
occurrence)perplexity
(n-gram,
pretrained
multilingual
GPT)standard
score
(standard
value
model)return
the
top
one
as
the
standard
value
using
combinedstandard
score.同義詞判斷電商知識圖譜構(gòu)建方法-知識加工Model:iphone
14Model:iphone
15Model:ipad
miniBrand:
AppleModel:Galaxy
note
4Brand:
XiaomiModel:iwatch
series
3知識加工-信息推理:屬性商品信息不全:通過已有類目屬性信息做推理補全知識加工-不一致檢測:屬性商品信息錯誤:屬性值組合沖突方法:AMIEKGE
ReasoningShi,
Baoxu,
and
Tim
Weninger.
"Open-world
knowledge
graph
completion."
AAAI
2018.Yao,Zhen,
et
al.
"Analogical
inference
enhanced
knowledge
graph
embedding."
Proceedings
of
the
AAAIConference
on
Artificial
Intelligence.
Vol.
37.
No.
4.
2023.AnalogicalReasoningInductiveReasoning#03電商知識圖譜應用電商知識圖譜應用ToC:知識圖譜與流量應用結(jié)合RecommendationSearchHomepageLanding
PageVLP
Search:Query
屬性、標簽識別Item
屬性、標簽識別Query-Item
屬性、標簽對齊應用方式:補充召回提升相關(guān)性效果:轉(zhuǎn)化效率明顯提升HomepageDaily
Discovery:細粒度品類召回
細粒度品類排序打散,增加商品豐富度應用方式:補充召回提升多樣性效果:用戶興趣度明顯提升電商知識圖譜應用ToB:知識圖譜與商家、運營結(jié)合Seller
Center,CMT,Pricing
Center等商家系統(tǒng)選品系統(tǒng)知識推理做不一致檢測并推薦給賣家修改將不同類目、屬性、標簽等跟商品關(guān)聯(lián),并為大促活動等做商品篩選#04知識圖譜與大模型探索知識圖譜與大模型Pan,
Shirui,
et
al.
"Unifying
large
language
models
andknowledge
graphs:
A
roadmap."IEEE
Transactions
on
Knowledge
and
Data
Engineering
(2024).現(xiàn)狀:知識圖譜做大模型輸入大模型做知識圖譜輸入大模型和知識圖譜協(xié)同訓練問題:知識圖譜通常很難覆蓋十分全面,借助大模型根據(jù)不斷更新的知識自動補全知識圖譜仍然是個難點借助大模型自動補全的信息準確性校驗也有待研究電商知識圖譜與大模型電商知識圖譜構(gòu)建與大模型結(jié)合大模型和知識圖譜協(xié)同訓練基于RAG
及時更新LLM
以及KG推理速度優(yōu)化多模態(tài)知識圖譜Fan,
Siqi,
et
al.
"Not
all
Layers
of
LLMs
are
Necessary
during
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025民間借款合同協(xié)議書模板
- 2025深圳市全日制用工勞動合同范本
- 2025汽車駕駛員雇傭合同
- 2025股份有限公司分立合同
- 二零二五年度辦公室租賃合同(含企業(yè)國際化運營支持)3篇
- 2025年度年度監(jiān)護權(quán)爭議解決合同3篇
- 2025住宅小區(qū)物業(yè)管理合同范本
- 二零二五年度人工智能與自動駕駛公司戰(zhàn)略合作協(xié)議書3篇
- 2025年度網(wǎng)絡安全公司銷售人員二零二五年度勞動合同3篇
- 2025年度養(yǎng)殖企業(yè)產(chǎn)業(yè)鏈優(yōu)化合作協(xié)議3篇
- DL-T 1476-2023 電力安全工器具預防性試驗規(guī)程
- 通信安全員ABC證報名考試題庫及答案
- 英山縣南河鎮(zhèn)黑石寨飾面用花崗巖礦礦產(chǎn)資源開發(fā)利用與生態(tài)復綠方案
- 2023年印尼法律須知
- 20S805-1 雨水調(diào)蓄設施-鋼筋混凝土雨水調(diào)蓄池
- 《中華民族大團結(jié)》(初中)-第7課-共同創(chuàng)造科學成就-教案
- OptiXOSN3500產(chǎn)品培訓課件
- 鋼筋計量-柱鋼筋計量之框架柱基礎(chǔ)插筋
- 肌間靜脈血栓護理問題
- 合伙人協(xié)議書跨境合作
- 崗位工作指導手冊
評論
0/150
提交評論