版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
中國數(shù)據(jù)資產(chǎn)管理峰會-唯品會大數(shù)據(jù)第一頁,共38頁。CONTENT目錄關(guān)于唯品會01數(shù)據(jù)平臺建設(shè)02大數(shù)據(jù)應(yīng)用建設(shè)03一些想法04第二頁,共38頁。數(shù)據(jù)平臺實踐離線計算分析平臺演化實時計算平臺演化一些技術(shù)選型和經(jīng)驗數(shù)據(jù)應(yīng)用實踐系統(tǒng)開發(fā)和運營業(yè)務(wù)和產(chǎn)品運營惡意用戶識別/風(fēng)控系統(tǒng)商品品牌推薦個性化排序第三頁,共38頁。|產(chǎn)品|系統(tǒng)|算法數(shù)據(jù)儀表盤、數(shù)據(jù)魔方、比價系統(tǒng)、地圖服務(wù)等精準推薦基礎(chǔ)算法庫選品、分倉與預(yù)調(diào)撥數(shù)據(jù)實時接入離線計算平臺實時計算平臺VRC資源管理平臺運維監(jiān)控測試|數(shù)據(jù)細分人群用戶Lookalike唯品會用戶畫像唯品會大數(shù)據(jù)VIPBigData整體規(guī)劃第四頁,共38頁。平臺服務(wù)數(shù)據(jù)服務(wù)數(shù)坊分析師平臺對外服務(wù)VRC開發(fā)者平臺畫像計算VRESqoop/VDP/Flume/KafkaJob調(diào)度/Yarn調(diào)度運維監(jiān)控測試數(shù)據(jù)產(chǎn)品HIVEPrestoSPARKRHbaseDruidHDFSRedisClusterVRE實時算法預(yù)測MLLib實時訓(xùn)練分析統(tǒng)計任務(wù)GPStorm自助報表平臺應(yīng)用產(chǎn)品服務(wù)接入計算存儲調(diào)度
系統(tǒng)-大數(shù)據(jù)基礎(chǔ)平臺規(guī)劃自助取數(shù)平臺第五頁,共38頁。數(shù)據(jù)平臺的建設(shè)離線計算分析平臺選建設(shè)混合平臺:Hadoop+Greenplum遷移策略和計劃dailyjob,hourlyjob,
min
job
擴容,擴容,擴容離線和實時的混合開放平臺實時計算平臺的建設(shè)Binlog2KafkaVDPMySQL2KafkaSparkvsStormRedisChallenge穩(wěn)定性挑戰(zhàn)開放平臺碰到的問題第六頁,共38頁。離線平臺的演化-12012年底:CDC調(diào)度+GP10節(jié)點系統(tǒng)穩(wěn)定2013Q1:CDC調(diào)度+ETLGp+QueryGp,Tuning2013Q2:自有調(diào)度平臺開發(fā)+自有抽取系統(tǒng)+Hadoop流量開始遷移+GP交易數(shù)據(jù)+QueryGP2013Q3:自有調(diào)度平臺+抽取遷移Hadoop流量遷移結(jié)束(70),交易數(shù)據(jù)遷移開始GP交易數(shù)據(jù)+QueryGP核心數(shù)據(jù)小時級ETL2013Q4元數(shù)據(jù)管理系統(tǒng),數(shù)據(jù)質(zhì)量工具ETLGp完整遷移開始QueryGP擴容40節(jié)點2014
Q1 全部ETL@Hadoop
~200
nodes
cluster
+
40
Ad-Hoc
EDW
Hybrid
node
configuration
第七頁,共38頁。離線混合平臺-2Referene:Netflex,LinkedIn,eBayGreenPlum
+
Hadoop保護現(xiàn)有投資Hadoop海量數(shù)據(jù)分析ETL復(fù)雜計算權(quán)限打通Greenplum:GP擅長adhoc
query速度快,分析師適應(yīng)不足夠scalable長期成本Hadoop
Massive
scalable,但是單個查詢慢海量ETL計算Web查詢第八頁,共38頁。離線開放平臺-3開放平臺自助ETL開發(fā)自助報表開發(fā)和展現(xiàn)自助取數(shù)分析成本breakdown,changeback性能,實時,擴展性,成本PrestoDruid第九頁,共38頁。實時計算系統(tǒng)架構(gòu)采集推薦建模
打點日志binlog消息數(shù)據(jù)實時增量抽取計算模型訓(xùn)練效果反饋Render&RouterLayerCandidateScanLayerCalculateLayerVRC模型訓(xùn)練平臺Flume/VDP/VMSVRE應(yīng)用開發(fā):任務(wù)配置可視化編程EsperEPL平臺組件:輸入組件輸出組件UDFVRCPortal:任務(wù)發(fā)布日志查看監(jiān)控告警RuleLayer第十頁,共38頁。Hbase
vs
Redis背景:個性化user
profile,
high
QPS,
very
time
sensitive
用戶信用體系user
profile
,low
QPS,
non-critical
用戶實時瀏覽,訂單歷史,high
tps,
high
qps
都是海量數(shù)據(jù)看上去Hbase更加合適,但是不放心選擇:Critical的RedisNon-critical的Hbase積累經(jīng)驗,逐漸往Hbase
dual
write
其實Hbase也不便宜,就是scale不動系統(tǒng)Redis某種程度上也可以實現(xiàn)2023/4/1711第十一頁,共38頁。RedisStorm計算用redis保存中間和結(jié)果數(shù)據(jù)流量一直增加大促流量狂漲計算復(fù)雜度一直增加不停拆分。。。每次改代碼怎么辦?逐個模塊拆分一開始就按模塊寫不同instance一開始就Shard
Twemproxy優(yōu)化數(shù)據(jù)結(jié)構(gòu)Pipeline/Batch不求100%準確hll
logRedisCluster2023/4/1712第十二頁,共38頁。Challange實時計算作為平臺離線和實時的融合離線向?qū)崟r的遷移成本第十三頁,共38頁。應(yīng)用實踐業(yè)務(wù)應(yīng)用運營分析幫助公司買幫助公司賣技術(shù)開發(fā)和運營Telescope業(yè)務(wù)監(jiān)控(storm)Logview/Titan服務(wù)監(jiān)控(spark)Application
logging(Spark)CDN日志分析(Hive)Sitespeed分析(storm)安全審計分析(impala/storm)第十四頁,共38頁。大數(shù)據(jù)對于技術(shù)運營2023/4/1715第十五頁,共38頁。實時業(yè)務(wù)監(jiān)控7現(xiàn)有平臺訪問地址:商品展示登錄注冊訂單信息代金券信息支付模塊商品展示購物車登錄注冊訂單信息代金券信息支付模塊FDS探索號CDNNginx域B2C移動端用戶增加數(shù)移動端下單數(shù)整體下單數(shù)訂單總金額購物車增加數(shù)購物車內(nèi)貨品數(shù)量業(yè)務(wù)集合域流量集合登錄熱力地圖注冊熱力地圖訂單熱力地圖購物車訪問熱力地圖日志數(shù)據(jù)WTWHeatMap大屏幕2023/4/1716第十六頁,共38頁。實時頁面加載時間監(jiān)控第十七頁,共38頁。實時PV分布監(jiān)控第十八頁,共38頁。商業(yè)CDN質(zhì)量分析第十九頁,共38頁。AppServiceQualitySparkStreaming,30secmini-batch進去可以看到每個pool,每個服務(wù)器,每個url的請求次數(shù),響應(yīng)時間,錯誤率,在過去兩周的各個維度的統(tǒng)計數(shù)據(jù)和曲線;可以看到pool之間的互相調(diào)用關(guān)系,調(diào)用量…全無入侵,應(yīng)用上線即插即用;第二十頁,共38頁。DataServiceQuality第二十一頁,共38頁。大數(shù)據(jù)在唯品會特賣模式的業(yè)務(wù)價值第二十二頁,共38頁。大數(shù)據(jù)對于數(shù)據(jù)化運營第二十三頁,共38頁。應(yīng)用于唯品會全面客戶關(guān)系管理2023/4/1724第二十四頁,共38頁。數(shù)據(jù)化運營-數(shù)據(jù)產(chǎn)品對外:供應(yīng)商:數(shù)據(jù)魔方對內(nèi):高管:手機數(shù)據(jù)儀表盤,經(jīng)營分析商務(wù):選品,比價物流:分倉,預(yù)調(diào)撥產(chǎn)品/運營:指導(dǎo)產(chǎn)品分析和決策,經(jīng)營分析,效果評估,產(chǎn)品優(yōu)化金融:供應(yīng)商貸款,消費者:個性化推薦,唯品白條營銷:個性化EDM,個性化Push,CRM業(yè)務(wù)安全:風(fēng)控第二十五頁,共38頁。打法一:數(shù)據(jù)從按天更新向?qū)崟r化轉(zhuǎn)變豐富數(shù)據(jù)可視化交互方式數(shù)據(jù)儀表盤打法二:合規(guī)前提下,開放更多數(shù)據(jù)給供應(yīng)商豐富數(shù)據(jù)接口格式及實時性數(shù)據(jù)魔方打法三:實時比價與價高告警比價數(shù)據(jù)與銷售轉(zhuǎn)化率數(shù)據(jù)關(guān)聯(lián)分析比價系統(tǒng)數(shù)據(jù)儀表盤數(shù)據(jù)魔方比價系統(tǒng)產(chǎn)品-數(shù)據(jù)產(chǎn)品及服務(wù)第二十六頁,共38頁。PC用戶移動用戶AdapterAdapter算法模型1算法模型2算法模型3算法模型4stockdbmsdFlume->kafkaBinlog->kafkaStorm/C++ProItemredisTrainingDataBusinessRuleEPDebugPlatformhadoop系統(tǒng)架構(gòu)2023/4/1727第二十七頁,共38頁。挑戰(zhàn)用戶數(shù)據(jù)稀疏,有效反饋少長尾嚴重用戶體驗,50ms返回ITEM冷啟動特征難抽取,比如圖片素材場景缺少上下文沒有明顯意圖,不同于“搜索”28第二十八頁,共38頁。底層數(shù)據(jù)品牌歷史和實時銷售數(shù)據(jù)價格,品類,顏色尺碼風(fēng)格,季節(jié)品牌相似性商品商品profile的長期開發(fā)歷史和實時商品信息(庫存,銷售,轉(zhuǎn)化)用戶用戶點擊瀏覽,購物車,購買,收藏行為按品類,風(fēng)格,價位,性別,尺碼用戶實時行為路徑2023/4/1729第二十九頁,共38頁。我們走過的路2013Q4-2014Q1:基于人群分組和人工排序的個性化運營嘗試人群劃分首頁人工排序列表頁人工規(guī)則自動排序無效果。。。2014Q2:開始有機會在小流量新版首頁嘗試技術(shù)主導(dǎo)機器學(xué)習(xí)+業(yè)務(wù)規(guī)則首頁動態(tài)生成個性化推薦模塊首頁動態(tài)生成個性化排序頁面提高了首頁到列表頁轉(zhuǎn)化率,降低了跳出率,提高了銷售2023/4/1730第三十頁,共38頁。我們走過的路2014
Q3-Now:首頁和列表頁的個性化排序機器學(xué)習(xí)train
model
Hadoop生成user
pro
profileStorm計算實時轉(zhuǎn)化銷售數(shù)據(jù),用戶實時行為和意圖實時排序首頁和列表頁下一步更多引入個性化因子(feature)細化user/brand
profile
,更多數(shù)據(jù)引入更多其他算法,做到算法可以靈活替代不但個性化排序和推薦,還可以有更多2023/4/1731第三十一頁,共38頁。個性化推薦下一個階段實時,實時,再實時實時計算商品品牌信息,用戶profile實時推薦實時算法迭代更新實時Abtestverify個性化,個性化,個性化移動天然是個個性化的好場所更多的個性化因子更加全面的數(shù)據(jù):用戶畫像建設(shè),曝光數(shù)據(jù)的收集…第三十二頁,共38頁。個性化階段性成果PC端推薦:10%~12%PC銷售占比首頁個性化排序~4%銷售金額提升移動端(2014/12)首頁個性化排序~4%銷售金額提升列表頁排序優(yōu)化~15%銷售金額提升Overall:~17%2023/4/1733第三十三頁,共38頁。推薦關(guān)鍵點34第三十四頁,共38頁。解決之道35第三十五頁,共38頁。一些小結(jié)技術(shù)選型:業(yè)界標準bestpractice
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 學(xué)校安全工作與應(yīng)急管理計劃
- 電視設(shè)備租賃合同三篇
- 數(shù)控板料折彎機相關(guān)行業(yè)投資規(guī)劃報告
- 亞硝酸鹽中毒解毒藥行業(yè)相關(guān)投資計劃提議
- 型材:異型鋼相關(guān)項目投資計劃書
- 《液壓與氣動》課件 1齒輪泵的結(jié)構(gòu)和工作原理
- 市場管理服務(wù)相關(guān)項目投資計劃書
- 鐵路行業(yè)安全巡查的標準化計劃
- 《解除迷茫規(guī)劃人生》課件
- 普通話教程課件普通話水平測試
- 中國民俗禮儀課程
- 不同的節(jié)日與習(xí)俗
- 公積金調(diào)研報告3篇
- 英語口語 購物課件
- 自動噴水滅火系統(tǒng)聯(lián)動試驗記錄
- 設(shè)備機房出入登記表
- 車輛狀況說明書(車輛信息表)
- 附錄1職業(yè)傾向自我探索SDS匯總
- 六三制青島版三年級科學(xué)上冊第六單元《測量工具》全部課件(一共3課時)
- 腮裂囊腫的診斷及治療介紹學(xué)習(xí)ppt
- 梅花易數(shù)教學(xué)用35張幻燈片
評論
0/150
提交評論