阿里數(shù)據(jù)整合及數(shù)據(jù)管理體系解讀_第1頁
阿里數(shù)據(jù)整合及數(shù)據(jù)管理體系解讀_第2頁
阿里數(shù)據(jù)整合及數(shù)據(jù)管理體系解讀_第3頁
阿里數(shù)據(jù)整合及數(shù)據(jù)管理體系解讀_第4頁
阿里數(shù)據(jù)整合及數(shù)據(jù)管理體系解讀_第5頁
已閱讀5頁,還剩10頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、阿里數(shù)據(jù)整合及數(shù)據(jù)管理體系解讀前段時間給大家推薦了 大數(shù)據(jù)之路 - 阿里巴巴大數(shù)據(jù)實踐,這本書確實內(nèi)容非常詳實,全是干貨,值得反復品味。剛剛看完第 9 章,講的是數(shù)據(jù)整合及管理體系,覺得非常好, 設計得非常精妙, 只看看覺得還不能深刻理解,遂做個讀書筆記按照自己理解重構整理一遍, 同時補充上自己的解讀分享給大家, 推薦給準備搭建數(shù)據(jù)產(chǎn)品或者數(shù)據(jù)平臺的人。傳統(tǒng)企業(yè)的業(yè)務變化相對不快, 但使用一般的表格文檔來管理數(shù)據(jù)過程也已經(jīng)越來越困難, 更何況互聯(lián)網(wǎng)這樣迅速變化的業(yè)務,做好數(shù)據(jù)整理及管理的難度可想而知,但阿里的數(shù)據(jù)團隊還是形成了完成的方法體系, 并把其工具化。也只有完備方法體系下構建的工具能滿足

2、復雜的數(shù)據(jù)管理需求。第2 頁/ 共15 頁阿里大數(shù)據(jù)建設方法論的核心就是,從業(yè)務架構設計到模型設計,從數(shù)據(jù)研發(fā)到數(shù)據(jù)服務,做到數(shù)據(jù)可管理、可追溯、可規(guī)避重復建設。 目標是建設統(tǒng)一的、規(guī)范的數(shù)據(jù)接入層( ODS )和數(shù)據(jù)中間層( DWD和 DWS ),通過數(shù)據(jù)服務和數(shù)據(jù)產(chǎn)品, 完成服務于阿里巴巴的大數(shù)據(jù)系統(tǒng)建設。所以數(shù)據(jù)管理體系是包含具體的方法論以及相關的產(chǎn)品兩個部分, 通過產(chǎn)品把方法論固化為標準的流程和操作,達到數(shù)據(jù)管理的目的。數(shù)據(jù)體系架構數(shù)據(jù)管理體系包括了業(yè)務板塊劃分、數(shù)據(jù)域提煉、 業(yè)務過程梳理、 原子指標 / 度量定義、派生指標定義及管理,維度分析整理以及數(shù)據(jù)模型的設計。通過下面的體系架構

3、圖來看看數(shù)據(jù)體系建設的過程、 以及每一步做什么和如何做。另外,如何定義每個術語的涵義,準確定義術語非常3/15關鍵,有時候描述不清楚復雜的流程、 場景最根本是因為對其中的一些概念沒有非常很好的厘清。業(yè)務板塊: 根據(jù)業(yè)務的屬性劃分出相對獨立的業(yè)務板塊,業(yè)務板塊間指標和業(yè)務重疊性較低, 比如電商板塊涵蓋淘寶、天貓、天貓國際、 B2B 系,金融板塊涵蓋支付寶、花唄、螞蟻微貸等。業(yè)務板塊非常宏觀,可以想象成賈不死的 7 大生態(tài)。規(guī)范定義:結合行業(yè)的數(shù)據(jù)倉庫建設經(jīng)驗和阿里數(shù)據(jù)自身的特點,設計出的一套過程方法和數(shù)據(jù)規(guī)范命名體系,規(guī)范定義將用于模型設計中。規(guī)范定義指以維度建模4/15作為理論基礎,構建總線矩

4、陣,劃分和定義數(shù)據(jù)域、業(yè)務過程、原子指標 / 度量、修飾類型、修飾詞、時間周期、派生指標規(guī)則,下圖是它們之間的關系,以及具體實例。規(guī)范定義實例模型設計:以建模理論為基礎, 基于維度建模總線架構,構建一致性的維度和事實, 同時設計出一套表命名規(guī)范系統(tǒng)。維度建模理論很多書上都講過, 這里就不單獨整理了。5/15術語定義及說明我們重點說說數(shù)據(jù)域、 業(yè)務過程、修飾詞、原子指標、派生指標。數(shù)據(jù)域:是面向業(yè)務分析的, 將業(yè)務過程或者維度進行抽象組合的集合。 其中業(yè)務過程是一個個不可拆分的行為事件,在業(yè)務過程之下定義指標; 維度是指度量的環(huán)境,如買家下單事件,買家是維度,訂單數(shù)量是度量。數(shù)據(jù)域是抽象提煉出來

5、的, 并且不輕易變動, 既能涵蓋當前所有業(yè)務的業(yè)務需要,又能在新業(yè)務進入時無影響的分配到已有的數(shù)據(jù)域中,如果所有分類都不合適才會擴展新的數(shù)據(jù)域。數(shù)據(jù)域不同于產(chǎn)品的功能模塊和業(yè)務線, 是從分析的角度來組織數(shù)據(jù)指標、 維度,功能模塊是面向用戶功能和管理功能的分類。從下面的兩個表格能很清楚的看出不同,功能模塊和業(yè)務線是隨時擴展的。6/15那么劃分數(shù)據(jù)域有什么作用呢?主要是因為經(jīng)過抽象后數(shù)據(jù)域相對功能模塊和業(yè)務過程來說少很多,是有效歸納、組織業(yè)務過程的方式、同時方便定位指標/ 度量。業(yè)務過程:指企業(yè)的業(yè)務活動事件,如下單、支付、退款都是業(yè)務過程, 這里要注意, 業(yè)務過程是一個不可拆分的行為事件。修飾詞

6、:指除了統(tǒng)計維度以外的對指標進行限定抽象的業(yè)務場景詞語, 修飾詞隸屬于一個修飾類型, 如在日志域的訪問終端類型下,有修飾詞 PC 端、無線端,有點像7/15屬性名和具體屬性值的意思。修飾類型是為了方便管理、使用修飾詞。原子指標:和度量含義相同, 基于某一業(yè)務時間行為下的度量,不可拆分的指標,具有明確業(yè)務含義的名詞,如支付金額。原子指標有確定的字段名稱(中英文)、數(shù)據(jù)類型、算法說明、所屬的數(shù)據(jù)域和業(yè)務過程。原子指標名稱 = 動作 + 度量, 例如支付金額、注冊用戶數(shù) 。除了這些標準度量值的原子指標, 還有些是為了派生指標而建的原子指標, 后面講派生規(guī)則時會說到, 例如排名型的 top_xxx_x

7、xx 。派生指標: = 一個原子指標 + 多個修飾詞 + 時間周期 。可以理解為對原子指標業(yè)務統(tǒng)計范圍的圈定,說總支付金額是個籠統(tǒng)的高度概括的匯總指標, 其業(yè)務范圍時間并不明確。 加上修飾詞后的派生指標如: 最近 1 天北京買家支付金額(最近 1 天是時間周期、北京是修飾詞、8/15買家作為維度)。派生指標的英文名=原子指標英文名 + 時間周期修飾詞 + 序號( _002 );中文名由時間周期修飾詞 + 【其它修飾詞】 + 原子指標 。下圖是常用的時間周期修飾詞,整理的非常詳細9/15最后說說派生指標的類型和不同類型指標的生成規(guī)則,這里的規(guī)則不容易理解, 需要結合例子花些時間慢慢體會為什么有的

8、是在原子指標的基礎上派生, 有的必須新建原子指標然后再派生。 其實規(guī)則很簡單就是沒有可用的原子指標或者不是簡單增加限定條件的指標, 需要先創(chuàng)建原子指標,例如排名型, TOP10 并不能作為一個原子指標,其并無實際含義,但 ”Top_n 搜索關鍵詞“有明確的業(yè)務涵義就可作為原子指標,然后再擴展”最近 60 天天貓 Top_10 搜索關鍵詞“ 。派生指標類型及規(guī)則派生指標:分為事務型指標、 存量型指標和復合型指標。事務型指標是指對業(yè)務活動進行衡量的指標, 一般會對應一個事件。例如新發(fā)商品數(shù)、新增注冊會員數(shù)、訂單支付金額, 訂單支付金額對應訂單支付事件,這類指標在原子指標上派生。存量型指標是指對實體

9、對象(商品、10/15會員)某些狀態(tài)的統(tǒng)計,例如商品總數(shù)、注冊會員總數(shù),這類指標需維護原子指標及修飾詞, 在此基礎上創(chuàng)建派生指標,對應的時間周期一般為“歷史截至當前某時間”。復合型指標是組合事務型指標和存量型指標而成的, 例如瀏覽 UV- 下單買家數(shù)轉(zhuǎn)換率,有些創(chuàng)建新原子指標,有些在事務型或者存量型指標基礎上增加派修飾詞派生。 這里說的創(chuàng)建新原子指標, 書上并沒有講地很清楚, 理解起來也非常繞, 我理解是無法從已有的原子指標派生時, 比如計算方式不同,就需要新建原子指標,然后再派生, 也不是直接做成原子指標, 因為原子指標是無法使用限定詞的。復合型指標按照指標的計算方法又可以分為: 比率型、比

10、例型、變化量型、變化率型、統(tǒng)計型、排名型、對象集合型, 有了詳細的類型,再來考量如何派生就更容易了,而不是沒有規(guī)律的沒有方法的組合。11/15比率型:創(chuàng)建原子指標,然后在派生復合指標,先創(chuàng)建 CRT,然后再有:最近一天店鋪首頁 CTR ,原子指標為 CTR(點擊率),時間周期為“最近 1 天”,修飾類型為“頁面類型”,修飾詞為“店鋪首頁”。比例型:包含百分比、占比的都是比例型,比例型要先創(chuàng)建原子指標, 再派生。例如 ”最近 1 天無線支付金額占比“,有原子指標 ”支付金額“,但沒有原子指標 ”支付金額占比“ ,支付金額占比 和 支付金額 的算法不同,沒法從支付金額擴展,需要新創(chuàng)建。假如說可以擴

11、展, 那么在”支付金額占比“上做二次擴展,就更復雜。變化量型:不創(chuàng)建原子指標,增加修飾詞,在此基礎上創(chuàng)建派生指標, 因為派生沒有改變指標的計算規(guī)則, 只是增加了限定條件。例如:”最近 1 天訂單支付金額上一天變化量“,原子指標為”訂單金額“,時間周期為”12/15最近 1 天“, 修飾類型為”統(tǒng)計方法“,修飾詞為”上天變化量“。變化率型:創(chuàng)建原子指標,同比率型和比例型。例如,”最近 7 天海外買家支付金額上 7 天變化率“ 。統(tǒng)計型:不創(chuàng)建原子指標,一般可統(tǒng)計的指標都是數(shù)量型,所以和變化量型一樣,加修飾詞派生即可,例如:”最近 6 月月均訂單支付金額“ 。 常用的” 統(tǒng)計方法 “類修飾詞:人均、日均、商品平均、月均、 90 分位數(shù)、眾數(shù)等。排名型:創(chuàng)建原子指標, 一般為 top_xxx_xxx , 不同的排名業(yè)務涵義不同, 需要創(chuàng)建不同的原子指標。 創(chuàng)建派生指標時可選擇的修飾詞有: 統(tǒng)計方法(降序、升序),排名名次(如 TOP10 ),排名范圍(如行業(yè)、省份、一級來源等),根據(jù)什么排序(如搜索次數(shù)、 PV )13/15對象集合型:主要是指數(shù)據(jù)產(chǎn)品和應用需要展現(xiàn)數(shù)據(jù)時,將一些對象以 k-v 對的方式存儲在一個字段中, 方便前端展現(xiàn)。比如趨勢圖、 TOP 排名對象。其定義方式是,創(chuàng)建原子指標,一般為 x

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論