版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
面向行為分析的數(shù)據(jù)治理和應(yīng)用常見的數(shù)據(jù)分析場景數(shù)倉建模方法數(shù)倉建模方法的優(yōu)劣勢面向行為分析的分析方法-概念面向行為分析的分析方法-整體架構(gòu)面向行為分析的分析方法-分析舉例目錄常見的數(shù)據(jù)分析場景業(yè)務(wù)數(shù)據(jù)行為數(shù)據(jù)做了什么
-指用戶使用產(chǎn)品上的各種行為網(wǎng)站行為:瀏覽頁面、停留時(shí)長、頁面的瀏覽路徑、
點(diǎn)擊行為
等廣告行為:請(qǐng)求、曝光、點(diǎn)擊、廣告瀏覽時(shí)長
等App行為:登陸、注冊(cè)、功能使用、客服支持
等游戲行為:完成教程、過關(guān)、付費(fèi)、升級(jí)
等結(jié)果如何
-指用戶行為之后,實(shí)際產(chǎn)生的結(jié)果業(yè)務(wù)數(shù)據(jù)會(huì)落庫業(yè)務(wù)數(shù)據(jù)表。分析業(yè)務(wù)數(shù)據(jù)的意義,可以衡量商業(yè)價(jià)值,是業(yè)務(wù)最終呈現(xiàn)結(jié)果,用以推動(dòng)公司業(yè)務(wù)的發(fā)展。電商指標(biāo)
:
PV、UV、成交用戶數(shù)、成交訂單數(shù)、GMV、客單價(jià)、退款率
等廣告指標(biāo)
:
點(diǎn)擊率、轉(zhuǎn)化率、參競率、競得率
等金融指標(biāo)
:
資產(chǎn)負(fù)債率、凈利潤、流動(dòng)比率、毛利率
等游戲指標(biāo)
:
付費(fèi)金額、付費(fèi)人數(shù)、付費(fèi)率、首充人數(shù)、首充金額、ARPU、LTV
等工程實(shí)現(xiàn)
-
面向行為分析的數(shù)據(jù)加工和分析主要分析方式:漏斗分析、留存分析、Segment分析、Cohort分析、用戶會(huì)話分析、用戶行為路徑分析
等服務(wù)的團(tuán)隊(duì):增長團(tuán)隊(duì),存量經(jīng)營團(tuán)隊(duì),產(chǎn)品團(tuán)隊(duì)工程實(shí)現(xiàn):數(shù)倉建模工程關(guān)鍵詞
:
數(shù)據(jù)倉庫、數(shù)據(jù)集市、星形數(shù)據(jù)模型、雪花形數(shù)據(jù)模型、緯度表建模、多維分析、MPP數(shù)據(jù)庫
等服務(wù)的團(tuán)隊(duì):各個(gè)業(yè)務(wù)團(tuán)隊(duì)、公司決策層、產(chǎn)品團(tuán)隊(duì)數(shù)倉建模方法用戶空間點(diǎn)擊曝光請(qǐng)求…用戶ID登陸時(shí)間登陸方式用戶ID注冊(cè)時(shí)間會(huì)員等級(jí)數(shù)倉建模主題應(yīng)用廣告主題寬表用戶登陸主題寬表會(huì)員注冊(cè)主題寬表ODSDWD維度表報(bào)表建設(shè)特征挖掘機(jī)器學(xué)習(xí)OneID……增長團(tuán)隊(duì)存量經(jīng)營團(tuán)隊(duì)產(chǎn)品團(tuán)隊(duì)……數(shù)倉建模方法的優(yōu)劣勢優(yōu)勢方法論成熟
:
已經(jīng)在無數(shù)的公司中被驗(yàn)證過,更有像《阿里巴巴大數(shù)據(jù)實(shí)踐》《Building
The
Data
Warehouse》等優(yōu)秀的指導(dǎo)書籍。技術(shù)棧成熟:無論是從消息中間件、數(shù)據(jù)ETL管路,數(shù)據(jù)湖、數(shù)據(jù)倉庫、數(shù)據(jù)集市的各種選型等,工業(yè)界已經(jīng)誕生了無數(shù)優(yōu)秀的框架和數(shù)據(jù)庫。技術(shù)供應(yīng)商支持完善:Google,Amazon,Microsoft,阿里云,騰訊云均提供幾乎一站式的服務(wù)。技術(shù)人才供給:
各個(gè)互聯(lián)網(wǎng)公司都有數(shù)據(jù)倉庫建模的需求,人才供應(yīng)充分,培養(yǎng)體系完備。公司推動(dòng)阻力小: 數(shù)倉的重要性經(jīng)歷了充分的市場教育,推動(dòng)起來會(huì)比較順暢,投入產(chǎn)出比也比較好闡述。應(yīng)用場景:適合指標(biāo)類的多維分析數(shù)據(jù)運(yùn)算劣勢建設(shè)鏈條長:數(shù)據(jù)采集->ODS->DWD->DWT->數(shù)據(jù)報(bào)表和應(yīng)用。數(shù)據(jù)一致性保證有挑戰(zhàn):不同數(shù)據(jù)主題之間會(huì)有指標(biāo)和字段的重合,在工程和業(yè)務(wù)之間,不同的工程團(tuán)隊(duì)之間都可能造成理解的偏差。擴(kuò)展字段流程復(fù)雜:表結(jié)構(gòu)需要預(yù)先定義,擴(kuò)展新字段往往需要較長的開發(fā)周期和回溯數(shù)據(jù)周期。工程實(shí)現(xiàn)很難統(tǒng)一:
架構(gòu)評(píng)估往往取決于承接的工程團(tuán)隊(duì)的過往經(jīng)驗(yàn)和喜好,同樣需求的實(shí)現(xiàn)差異較大。不適合時(shí)序形的行為數(shù)據(jù)分析:因?yàn)樾枰凑沼脩艟S度shuffle和開窗,用戶行為分析往往比較耗資源。預(yù)聚合不夠靈活:當(dāng)維度不能命中預(yù)聚合的維度時(shí),查詢會(huì)退化成全表聚合。面向行為分析的分析方法
–
概念用戶空間用戶群計(jì)算用戶事件序列事件抽象活躍用戶群新增用戶群滿足X條件用戶群……一個(gè)例子
-
7日Andoird用戶的留存率行為分析的解決方案傳統(tǒng)數(shù)倉的解決方案使用數(shù)據(jù)的底表和表的字段定義中間表的創(chuàng)建邏輯(過濾條件,分組條件,指標(biāo)計(jì)算)最終結(jié)果的業(yè)務(wù)邏輯查詢優(yōu)化
(過濾前置,數(shù)據(jù)傾斜,shuffle,關(guān)聯(lián)方式…)加載Android用戶人群_A;
加載T的活躍用戶人群_B;加載T-7新增用戶人群_C(A,B,C)
用戶群求交 =
用戶人群_D(A,C)用戶群求交 =用戶人群_
E(D,
E)用戶群
計(jì)算覆蓋率整體架構(gòu)查詢接入層:負(fù)責(zé)將一個(gè)復(fù)雜查詢語句拆解成原子的子查詢語句。查詢結(jié)果聚合層:負(fù)責(zé)將用戶數(shù)據(jù)訪問層的結(jié)果聚合返回查詢緩存層:每個(gè)子查詢語句因?yàn)槠洳蛔冃?,都可以保存在緩存中?shí)時(shí)層:處理實(shí)時(shí)數(shù)據(jù)IDMapping:
設(shè)備ID和用戶ID的關(guān)聯(lián),用戶ID和用戶ID的關(guān)聯(lián)用戶數(shù)據(jù)訪問層:執(zhí)行真正的子查詢語句,并行的訪問用戶數(shù)據(jù)元數(shù)據(jù)層:記錄文件和事件事件的關(guān)系,列在文件中的偏移量列存儲(chǔ)層:列存的方式存儲(chǔ)數(shù)據(jù),通過Delta
encoding
和
Dictionary
encoding優(yōu)化體積和訪問速度一個(gè)例子
-
7日Andoird用戶的留存率將相對(duì)事件翻譯成絕對(duì)事件,查詢是否子查詢的結(jié)果已經(jīng)存儲(chǔ)在緩存中。將查詢拆解成計(jì)算以下幾個(gè)子任務(wù):T-7:的新增用戶T-7:的android活躍用戶T日的活躍用戶對(duì)于沒有命中緩存的字查詢,分布式執(zhí)行查詢計(jì)劃。根據(jù)查詢的時(shí)間范圍和查詢列,加載存儲(chǔ)文件到計(jì)算節(jié)點(diǎn)中。返回:用戶ID-用戶ID;
用戶ID-設(shè)備ID
兩種mapping關(guān)系對(duì)。匯總子查詢的返回結(jié)果和Mapping對(duì),最終返回查詢結(jié)果。(1)(2)(3)(4)(5)返回需要參與計(jì)算的數(shù)據(jù)。(6)(7)列存儲(chǔ)Metadata
HeaderBloomFilter
過濾User_IDDelta
encoding
時(shí)間戳列Dictionary–encodeduser_id
列..……..其他
Dictionary-encoded
屬性列MetadataHeader:文件頭,記錄時(shí)間的開始和結(jié)束,以及每一個(gè)列的偏移量Deltaencoding:
差分編碼,減少時(shí)間戳的存儲(chǔ)體積。BloomFilter:
布隆過濾器,快速判斷是否一個(gè)用戶在當(dāng)前文件中。Dictionary-encoded:
屬性字段用字典編碼,減少體積,提高過濾和GroupBy的查詢效率。Dictionary-encoded字典:{0:Beijing,
1:Shanghai,
2:Shenzhen}編碼后的維度值:通過編碼的方式,統(tǒng)一存儲(chǔ)大小,提高訪問效率。減少存儲(chǔ)體積。倒排索引:通過屬性值快速定位行索引,更高效的支持過濾條件和And/OR
等邏輯條件。selectcity,sum(click_cnt)from
table_twherecategory=0orcategory=1groupby
city元數(shù)據(jù)文件元數(shù)據(jù)文件保持相對(duì)固定的大小,并按照時(shí)間動(dòng)態(tài)分區(qū)。時(shí)間久遠(yuǎn),稀疏的文件按照高時(shí)間密度做聚合。時(shí)間近,但稠密的文件按照低時(shí)間密度聚合。單個(gè)文件內(nèi)部按照用戶ID和時(shí)間排序。列元數(shù)據(jù)行元素按照一般的查詢,只會(huì)訪問
8~16列屬性值減少從存儲(chǔ)層到計(jì)算層之間加載的數(shù)據(jù)量OneID追蹤用戶的設(shè)備變化,還原用戶事件的最真實(shí)狀態(tài)
一個(gè)用戶在多個(gè)設(shè)備上使用同一個(gè)應(yīng)用,需要對(duì)該用戶的唯一性進(jìn)行標(biāo)識(shí),進(jìn)而把用戶的行為歸屬到同一個(gè)用戶上。多個(gè)用戶在同一臺(tái)設(shè)備上操作同一個(gè)應(yīng)用。同一個(gè)APP內(nèi),注冊(cè)用戶前的行為
和
注冊(cè)用戶后的行為進(jìn)行關(guān)聯(lián)。不同App之間,用戶行為進(jìn)行關(guān)聯(lián)。IDMapping:User_id
:
Device_id
:
用來追蹤用戶的設(shè)備使用情況。如廣告中的排除老用戶場景Device_id:
Deivce_id:
用來追蹤同一步設(shè)備或者同一個(gè)用戶的多部設(shè)備。User_id
:
User_id
:
用來追蹤同一個(gè)用戶的ID的變化,具體場景取決于業(yè)務(wù)模式。ID
Encoding為每個(gè)OneID賦予一個(gè)bit位,用來在bit數(shù)組中唯一的標(biāo)識(shí)這個(gè)用戶。在計(jì)算人群時(shí),可以通過返回bit數(shù)組來進(jìn)行標(biāo)識(shí)。多個(gè)人群之間的集合運(yùn)算可以通過bit數(shù)組的與/或/非
進(jìn)行快速的計(jì)算。緩存層時(shí)間版本號(hào):數(shù)據(jù)可能會(huì)因?yàn)榛靥畹仍蛞胄聰?shù)據(jù),通過時(shí)間版本號(hào)的方式可以自動(dòng)刷新緩存。查詢的時(shí)間范圍:
【啟始時(shí)間、結(jié)束時(shí)間)用來表識(shí)查詢的時(shí)間范圍,
一般來說,時(shí)間越近,可支持的粒度越小。查詢過濾條件:相當(dāng)于SQL中的Where條件子句。人群分組條件:相當(dāng)于Group條件,
表示在過濾條件下,按照分組條件對(duì)人群進(jìn)行重新的劃分。用戶數(shù)據(jù)訪問層用戶請(qǐng)求:
時(shí)間范圍,過濾條件,用戶群聚合條件。請(qǐng)求元數(shù)據(jù):確定需要訪問文件的位置和列的偏移量加載數(shù)據(jù)到計(jì)算節(jié)點(diǎn):加載時(shí)序數(shù)據(jù)到計(jì)算節(jié)點(diǎn),并緩存到本地磁盤??梢圆捎肔RU的方式進(jìn)行淘汰。用戶分區(qū)計(jì)算:根據(jù)加載的用戶活躍度進(jìn)行分區(qū),并行計(jì)算符合查詢條件的用戶群。聚合計(jì)算:對(duì)每個(gè)用戶群算子的返回結(jié)果進(jìn)行二次聚合,形成最終用戶群。行為分析的應(yīng)用
–
用戶留存分析Jul29–Aug
08新增用戶群計(jì)算T-1
的每日新增用戶群和活躍用戶群,那么就可以做任意一段時(shí)間新增用戶的任意一個(gè)時(shí)間點(diǎn)的留存分析Day(行時(shí)間
+
偏移量
)的活躍用戶群Day(行時(shí)間
+
偏移量
)的活躍用戶群行為分析的應(yīng)用
–
漏斗分析播放歌曲收藏歌曲購買歌曲下載歌曲時(shí)序嚴(yán)格的轉(zhuǎn)化漏斗(水平切)同一個(gè)session內(nèi)(播放->收藏->購買->下載)用戶群同一個(gè)session內(nèi)(播放->收藏->購買)用戶群同一個(gè)session內(nèi)(播放->收藏)用戶群同一個(gè)session內(nèi)(播放)用戶群非時(shí)序嚴(yán)格的轉(zhuǎn)化漏斗(垂直切)播放歌曲用戶群收藏歌曲用戶群購買歌曲用戶群下載歌曲用戶群行為分析的應(yīng)用
–
路徑分析事件的入度:一個(gè)事件發(fā)生時(shí),其在時(shí)間軸上的前一個(gè)事件。事件的出度:一個(gè)事件發(fā)生后,其在時(shí)間軸上的后一個(gè)事件。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024知名品牌服裝銷售代理授權(quán)合同
- 《樓宇電氣控制線路》課件
- 二零二五年度海洋船舶防腐蝕涂裝項(xiàng)目承包合同4篇
- 二零二五年度金融產(chǎn)品代理銷售合同模板12篇
- 二零二五年度高端公寓承包裝修施工合同8篇
- 二零二五年度毛竹種植基地與竹炭生產(chǎn)企業(yè)合作合同4篇
- 班組“三違”行為及其危害
- 宜賓酒王二零二五年度800億控量保價(jià)進(jìn)口代理合同2篇
- 綜合機(jī)械化采煤工藝培訓(xùn)課件
- 二零二五年度公共文化設(shè)施建設(shè)承包合同補(bǔ)充協(xié)議3篇
- 02R112 拱頂油罐圖集
- GB/T 42249-2022礦產(chǎn)資源綜合利用技術(shù)指標(biāo)及其計(jì)算方法
- 扶梯吊裝方案
- GB/T 712-2011船舶及海洋工程用結(jié)構(gòu)鋼
- GB/T 26846-2011電動(dòng)自行車用電機(jī)和控制器的引出線及接插件
- GB/T 18015.1-1999數(shù)字通信用對(duì)絞或星絞多芯對(duì)稱電纜第1部分:總規(guī)范
- 院醫(yī)學(xué)實(shí)習(xí)請(qǐng)假審批表
- 2020-2021學(xué)年青島版五年級(jí)上冊(cè)期末考試數(shù)學(xué)試卷(1)1
- 導(dǎo)師指導(dǎo)記錄表
- 七年級(jí)數(shù)學(xué)家長會(huì)課件
- 陜西省安康市各縣區(qū)鄉(xiāng)鎮(zhèn)行政村村莊村名居民村民委員會(huì)明細(xì)及行政區(qū)劃代碼
評(píng)論
0/150
提交評(píng)論