




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
淘寶大數(shù)據(jù)量產(chǎn)品技術(shù)架構(gòu)張軒丞(朋春)淘寶網(wǎng)-數(shù)據(jù)平臺與產(chǎn)品部淘寶大數(shù)據(jù)量產(chǎn)品技術(shù)架構(gòu)張軒丞(朋春)1關(guān)于張軒丞(朋春)淘寶數(shù)據(jù)平臺與產(chǎn)品部(杭州)vi黨,腳本語言愛好者關(guān)注NodeJS,cnode社區(qū)組織者之一pengchun@:我是aleafs關(guān)于張軒丞(朋春)2數(shù)據(jù)平臺與產(chǎn)品數(shù)據(jù)產(chǎn)品用戶淘寶網(wǎng)淘寶賣家供應(yīng)商消費者搜索、瀏覽、收藏、交易、評價...數(shù)據(jù)平臺與產(chǎn)品數(shù)據(jù)產(chǎn)品用戶淘寶網(wǎng)搜索、瀏覽、收藏、交易、評價3一些數(shù)字淘寶主站:30億店鋪、寶貝瀏覽10億計的在線寶貝數(shù)千萬量級交易筆數(shù)數(shù)據(jù)產(chǎn)品:50G統(tǒng)計匯總結(jié)果千萬量級數(shù)據(jù)查詢請求平均20.8ms的響應(yīng)時間(6月1日)一些數(shù)字淘寶主站:數(shù)據(jù)產(chǎn)品:4海量數(shù)據(jù)帶來的挑戰(zhàn)計算計算的速度處理吞吐量存儲存儲是為了更方便地查詢硬盤、內(nèi)存的成本查詢“大海撈針”全“表”掃描海量數(shù)據(jù)帶來的挑戰(zhàn)計算5架構(gòu)總覽主站備庫RAC主站日志數(shù)據(jù)源MyFOXProm存儲層數(shù)據(jù)中間層/glider查詢層數(shù)據(jù)魔方淘寶指數(shù)開放API產(chǎn)品Hadoop集群/云梯計算層實時流數(shù)據(jù)DataX/DbSync/TimeTunnel1500節(jié)點,每日40000JOB,處理數(shù)據(jù)1.5PB,凌晨2點結(jié)束,結(jié)果20T架構(gòu)總覽主站備庫RAC主站日志數(shù)據(jù)源MyFOXProm存儲數(shù)6今天的話題關(guān)系型數(shù)據(jù)庫仍然是王道NoSQL是SQL的有益補(bǔ)充用中間層隔離前后端緩存是系統(tǒng)化的工程今天的話題關(guān)系型數(shù)據(jù)庫仍然是王道7關(guān)系型數(shù)據(jù)庫仍然是王道關(guān)系型數(shù)據(jù)庫仍然是王道8關(guān)系型數(shù)據(jù)庫有成熟穩(wěn)定的開源產(chǎn)品SQL有較強(qiáng)的表達(dá)能力只存儲中間狀態(tài)的數(shù)據(jù)查詢時過濾、計算、排序數(shù)據(jù)產(chǎn)品的本質(zhì)拉關(guān)系做計算SELECTIF(INSTR(f.keyword,'')>0,UPPER(TRIM(f.keyword)),CONCAT(b.brand_name,'',UPPER(TRIM(f.keyword))))ASf0,
SUM(f.search_num)ASf1,
ROUND(SUM(f.search_num)/SUM(f.uv),2)ASf3, ROUND(AVG(f.uv),2)ASf4FROMdm_fact_keyword_brand_df
INNERJOINdim_brandbONf.keyword_brand_id=b.brand_idWHEREf.keyword_type_id=1ANDf.keyword!='' ANDkeyword_cat_idIN('50002535') ANDthedate<='2011-07-09' ANDthedate>='2011-07-07'GROUPBYf0
ORDERBYSUM(f.search_num)DESCLIMIT0,100關(guān)系型數(shù)據(jù)庫有成熟穩(wěn)定的開源產(chǎn)品SELECTIF(INST9存儲在DB中的數(shù)據(jù)存儲在DB中的數(shù)據(jù)10分布式MySQL集群字段+條目數(shù)分片MyISAM引擎離線批量裝載跨機(jī)房互備云梯APPMySQL集群數(shù)據(jù)裝載數(shù)據(jù)查詢MyFOX分布式MySQL集群字段+條目數(shù)分片云梯APPMySQL數(shù)據(jù)11透明的集群中間層—MyFOX透明查詢基于NodeJS,1200QPS數(shù)據(jù)裝載路由計算數(shù)據(jù)裝入一致性校驗集群管理配置信息維護(hù)監(jiān)控報警透明的集群中間層—MyFOX透明查詢12MyFOX-數(shù)據(jù)查詢?nèi)》制瑪?shù)據(jù)(異步并發(fā))取分片結(jié)果合并(表達(dá)式求值)合并計算緩存路由SQL解析語義理解查詢路由字段改寫分片SQL計算規(guī)則APC緩存XMyFOX-數(shù)據(jù)查詢?nèi)》制瑪?shù)據(jù)(異步并發(fā))取分片結(jié)果合并(表13MyFOX-節(jié)點結(jié)構(gòu)MyFOX熱節(jié)點(MySQL)15kSAS盤,300G*12,raid10內(nèi)存:24G成本:4.5W/T冷節(jié)點(MySQL)7.2kSATA盤,1T*12,raid10內(nèi)存:24G成本:1.6W/T路由表30天無訪問的冷數(shù)據(jù)新增熱數(shù)據(jù)MyFOX-節(jié)點結(jié)構(gòu)MyFOX熱節(jié)點(MySQL)15kS14小結(jié)根據(jù)業(yè)務(wù)特點分庫分表冷熱數(shù)據(jù)分離降低成本,好鋼用在刀刃上更有效地使用內(nèi)存小結(jié)根據(jù)業(yè)務(wù)特點分庫分表15SQL雖牛,但是…如果繼續(xù)用MySQL來存儲數(shù)據(jù),你怎么建索引?SQL雖牛,但是…16NoSQL是SQL的有益補(bǔ)充NoSQL是SQL的有益補(bǔ)充17全屬性交叉運(yùn)算不同類目的商品有不同的屬性同一商品的屬性對有很多用戶查詢所選擇的屬性對不確定Prometheus定制化的存儲實時計算全屬性交叉運(yùn)算不同類目的商品有不同的屬性Prometheus18Prom—數(shù)據(jù)裝載
PromHbaseHbaseHbase……索引:交易id列表屬性對交易1(二進(jìn)制,定長)交易2Prom—數(shù)據(jù)裝載PromHbaseHbaseHbase…19Prom—數(shù)據(jù)查詢求SUM(alipay)屬性屬性值筆記本尺寸13寸筆記本定位商務(wù)定位節(jié)點11,2,3,4,5,6,
7,8,9節(jié)點21,2,3,4,5,6,7查索引求交集節(jié)點21,2,
4,6,7本地SUM運(yùn)算(Hbase擴(kuò)展)匯總計算寫入緩存Prom—數(shù)據(jù)查詢求SUM(alipay)屬性屬性值筆記本尺20Prom—數(shù)據(jù)冗余明細(xì)數(shù)據(jù)大量冗余犧牲磁盤容量,以得到:避免明細(xì)數(shù)據(jù)網(wǎng)絡(luò)傳輸變大量隨機(jī)讀為順序讀Prom—數(shù)據(jù)冗余明細(xì)數(shù)據(jù)大量冗余21小結(jié)NoSQL是SQL的有益補(bǔ)充“預(yù)算”與“現(xiàn)算”的權(quán)衡“本地”與“集中”的協(xié)同小結(jié)NoSQL是SQL的有益補(bǔ)充22其他的數(shù)據(jù)來源Prom的其他應(yīng)用(淘詞、指數(shù)等)從isearch獲取實時的店鋪、商品描述從主站搜索獲取實時的商品數(shù)…異構(gòu)數(shù)據(jù)源如何整合統(tǒng)一?其他的數(shù)據(jù)來源Prom的其他應(yīng)用(淘詞、指數(shù)等)異構(gòu)數(shù)據(jù)源如23用中間層隔離前后端用中間層隔離前后端24[pengchun]$tail~/logs/glider-rt2.log[14/Jun/2011:14:54:29+0800]"GET/glider/db/brand/brandinfo_d/get_hot_brand_top/where…HTTP/1.1"200170.065[pengchun]$tail~/logs/glider25數(shù)據(jù)中間層—Glider多數(shù)據(jù)源整合UNIONJOIN輸出格式化PERCENT/RANKOVER…JSON輸出數(shù)據(jù)中間層—Glider多數(shù)據(jù)源整合26Glider架構(gòu)DispatcherController配置解析請求解析一級緩存actionMyFOXProm二級緩存datasourceJOINUNIONfilterGlider架構(gòu)DispatcherController配置27緩存是系統(tǒng)化的工程緩存是系統(tǒng)化的工程28glider緩存系統(tǒng)前端產(chǎn)品一級緩存data二級緩存URL請求,nocache?nocache?nocache?Min(ttl)ttl,httpheaderetag,httpheaderglider緩存系統(tǒng)前端產(chǎn)品一級緩存data二級緩存URL請29小結(jié)用中間層隔離前后端底層架構(gòu)對前端透明水平可擴(kuò)展性緩存是把雙刃劍降低后端存儲壓力數(shù)據(jù)一致性問題緩存穿透與失效小結(jié)用中間層隔離前后端30回顧關(guān)系型數(shù)據(jù)庫仍然是王道
分庫分表、冷熱分離NoSQL是SQL的有益補(bǔ)充
用冗余避免網(wǎng)絡(luò)傳輸和隨機(jī)讀用中間層隔離前后端
異構(gòu)數(shù)據(jù)源的整合緩存是系統(tǒng)化的工程
數(shù)據(jù)一致性、穿透與雪崩回顧關(guān)系型數(shù)據(jù)庫仍然是王道31矛盾之美SQLNoSQL計算時機(jī)“預(yù)算”Hadoop/實時計算引擎“現(xiàn)算”MySQL+中間層Hbase+中間層計算場所本地MySQL單機(jī)Hbase
RegionServer集中MyFOX中間層Prom中間層數(shù)據(jù)存儲冷7200SATA盤HDFS熱15000SAS盤+緩存HDFS+緩存矛盾之美SQLNoSQL計算時機(jī)“預(yù)算”Hadoop/實32謝謝謝謝33淘寶大數(shù)據(jù)量產(chǎn)品技術(shù)架構(gòu)張軒丞(朋春)淘寶網(wǎng)-數(shù)據(jù)平臺與產(chǎn)品部淘寶大數(shù)據(jù)量產(chǎn)品技術(shù)架構(gòu)張軒丞(朋春)34關(guān)于張軒丞(朋春)淘寶數(shù)據(jù)平臺與產(chǎn)品部(杭州)vi黨,腳本語言愛好者關(guān)注NodeJS,cnode社區(qū)組織者之一pengchun@:我是aleafs關(guān)于張軒丞(朋春)35數(shù)據(jù)平臺與產(chǎn)品數(shù)據(jù)產(chǎn)品用戶淘寶網(wǎng)淘寶賣家供應(yīng)商消費者搜索、瀏覽、收藏、交易、評價...數(shù)據(jù)平臺與產(chǎn)品數(shù)據(jù)產(chǎn)品用戶淘寶網(wǎng)搜索、瀏覽、收藏、交易、評價36一些數(shù)字淘寶主站:30億店鋪、寶貝瀏覽10億計的在線寶貝數(shù)千萬量級交易筆數(shù)數(shù)據(jù)產(chǎn)品:50G統(tǒng)計匯總結(jié)果千萬量級數(shù)據(jù)查詢請求平均20.8ms的響應(yīng)時間(6月1日)一些數(shù)字淘寶主站:數(shù)據(jù)產(chǎn)品:37海量數(shù)據(jù)帶來的挑戰(zhàn)計算計算的速度處理吞吐量存儲存儲是為了更方便地查詢硬盤、內(nèi)存的成本查詢“大海撈針”全“表”掃描海量數(shù)據(jù)帶來的挑戰(zhàn)計算38架構(gòu)總覽主站備庫RAC主站日志數(shù)據(jù)源MyFOXProm存儲層數(shù)據(jù)中間層/glider查詢層數(shù)據(jù)魔方淘寶指數(shù)開放API產(chǎn)品Hadoop集群/云梯計算層實時流數(shù)據(jù)DataX/DbSync/TimeTunnel1500節(jié)點,每日40000JOB,處理數(shù)據(jù)1.5PB,凌晨2點結(jié)束,結(jié)果20T架構(gòu)總覽主站備庫RAC主站日志數(shù)據(jù)源MyFOXProm存儲數(shù)39今天的話題關(guān)系型數(shù)據(jù)庫仍然是王道NoSQL是SQL的有益補(bǔ)充用中間層隔離前后端緩存是系統(tǒng)化的工程今天的話題關(guān)系型數(shù)據(jù)庫仍然是王道40關(guān)系型數(shù)據(jù)庫仍然是王道關(guān)系型數(shù)據(jù)庫仍然是王道41關(guān)系型數(shù)據(jù)庫有成熟穩(wěn)定的開源產(chǎn)品SQL有較強(qiáng)的表達(dá)能力只存儲中間狀態(tài)的數(shù)據(jù)查詢時過濾、計算、排序數(shù)據(jù)產(chǎn)品的本質(zhì)拉關(guān)系做計算SELECTIF(INSTR(f.keyword,'')>0,UPPER(TRIM(f.keyword)),CONCAT(b.brand_name,'',UPPER(TRIM(f.keyword))))ASf0,
SUM(f.search_num)ASf1,
ROUND(SUM(f.search_num)/SUM(f.uv),2)ASf3, ROUND(AVG(f.uv),2)ASf4FROMdm_fact_keyword_brand_df
INNERJOINdim_brandbONf.keyword_brand_id=b.brand_idWHEREf.keyword_type_id=1ANDf.keyword!='' ANDkeyword_cat_idIN('50002535') ANDthedate<='2011-07-09' ANDthedate>='2011-07-07'GROUPBYf0
ORDERBYSUM(f.search_num)DESCLIMIT0,100關(guān)系型數(shù)據(jù)庫有成熟穩(wěn)定的開源產(chǎn)品SELECTIF(INST42存儲在DB中的數(shù)據(jù)存儲在DB中的數(shù)據(jù)43分布式MySQL集群字段+條目數(shù)分片MyISAM引擎離線批量裝載跨機(jī)房互備云梯APPMySQL集群數(shù)據(jù)裝載數(shù)據(jù)查詢MyFOX分布式MySQL集群字段+條目數(shù)分片云梯APPMySQL數(shù)據(jù)44透明的集群中間層—MyFOX透明查詢基于NodeJS,1200QPS數(shù)據(jù)裝載路由計算數(shù)據(jù)裝入一致性校驗集群管理配置信息維護(hù)監(jiān)控報警透明的集群中間層—MyFOX透明查詢45MyFOX-數(shù)據(jù)查詢?nèi)》制瑪?shù)據(jù)(異步并發(fā))取分片結(jié)果合并(表達(dá)式求值)合并計算緩存路由SQL解析語義理解查詢路由字段改寫分片SQL計算規(guī)則APC緩存XMyFOX-數(shù)據(jù)查詢?nèi)》制瑪?shù)據(jù)(異步并發(fā))取分片結(jié)果合并(表46MyFOX-節(jié)點結(jié)構(gòu)MyFOX熱節(jié)點(MySQL)15kSAS盤,300G*12,raid10內(nèi)存:24G成本:4.5W/T冷節(jié)點(MySQL)7.2kSATA盤,1T*12,raid10內(nèi)存:24G成本:1.6W/T路由表30天無訪問的冷數(shù)據(jù)新增熱數(shù)據(jù)MyFOX-節(jié)點結(jié)構(gòu)MyFOX熱節(jié)點(MySQL)15kS47小結(jié)根據(jù)業(yè)務(wù)特點分庫分表冷熱數(shù)據(jù)分離降低成本,好鋼用在刀刃上更有效地使用內(nèi)存小結(jié)根據(jù)業(yè)務(wù)特點分庫分表48SQL雖牛,但是…如果繼續(xù)用MySQL來存儲數(shù)據(jù),你怎么建索引?SQL雖牛,但是…49NoSQL是SQL的有益補(bǔ)充NoSQL是SQL的有益補(bǔ)充50全屬性交叉運(yùn)算不同類目的商品有不同的屬性同一商品的屬性對有很多用戶查詢所選擇的屬性對不確定Prometheus定制化的存儲實時計算全屬性交叉運(yùn)算不同類目的商品有不同的屬性Prometheus51Prom—數(shù)據(jù)裝載
PromHbaseHbaseHbase……索引:交易id列表屬性對交易1(二進(jìn)制,定長)交易2Prom—數(shù)據(jù)裝載PromHbaseHbaseHbase…52Prom—數(shù)據(jù)查詢求SUM(alipay)屬性屬性值筆記本尺寸13寸筆記本定位商務(wù)定位節(jié)點11,2,3,4,5,6,
7,8,9節(jié)點21,2,3,4,5,6,7查索引求交集節(jié)點21,2,
4,6,7本地SUM運(yùn)算(Hbase擴(kuò)展)匯總計算寫入緩存Prom—數(shù)據(jù)查詢求SUM(alipay)屬性屬性值筆記本尺53Prom—數(shù)據(jù)冗余明細(xì)數(shù)據(jù)大量冗余犧牲磁盤容量,以得到:避免明細(xì)數(shù)據(jù)網(wǎng)絡(luò)傳輸變大量隨機(jī)讀為順序讀Prom—數(shù)據(jù)冗余明細(xì)數(shù)據(jù)大量冗余54小結(jié)NoSQL是SQL的有益補(bǔ)充“預(yù)算”與“現(xiàn)算”的權(quán)衡“本地”與“集中”的協(xié)同小結(jié)NoSQL是SQL的有益補(bǔ)充55其他的數(shù)據(jù)來源Prom的其他應(yīng)用(淘詞、指數(shù)等)從isearch獲取實時的店鋪、商品描述從主站搜索獲取實時的商品數(shù)…異構(gòu)數(shù)據(jù)源如何整合統(tǒng)一?其他的數(shù)據(jù)來源Prom的其他應(yīng)用(淘詞、指數(shù)等)異構(gòu)數(shù)據(jù)源如56用中間層隔離前后端用中間層隔離前后端57[pengchun]$tail~/logs/glider-rt2.log[14/Jun/2011:14:54:29+0800]"GET/glider/db/brand/brandinfo_d/get_hot_brand_top/where…HTTP/1.1"200170.065[pengchun]$tail~/logs/glider58數(shù)據(jù)中間層—Glider多數(shù)據(jù)源整合UNIONJOIN輸出格式化PERCENT/RANKOVE
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 合買機(jī)械合同范本
- 制作認(rèn)購合同范本
- 勞務(wù)合同范本紙質(zhì)版
- 廠房門窗合同范本
- 募股合同范本
- 個人包果園合同范本
- 書經(jīng)銷合同范本
- 北京燈具采購合同范本
- 加拿大與美國貿(mào)易合同范本
- 航天集團(tuán)人才隊伍建設(shè)經(jīng)驗介紹
- 牙周炎-侵襲性牙周炎
- 心理委員工作記錄表
- 新教科版五下科學(xué)1-5《當(dāng)環(huán)境改變了》公開課課件
- 教師的十大轉(zhuǎn)變課件
- 焦化廠生產(chǎn)工序及工藝流程圖
- 可下載打印的公司章程
- 中藥熏洗法課件
- 本特利探頭應(yīng)用
- QMR-110-00員工手部、接觸面等微生物檢驗記錄記錄
- 外陰及陰道炎癥
評論
0/150
提交評論