![為數(shù)據(jù)賦能-敏捷高效的數(shù)據(jù)處理_第1頁](http://file4.renrendoc.com/view/8825b1f41e6d01f0c5cce2dcfadd9ad5/8825b1f41e6d01f0c5cce2dcfadd9ad51.gif)
![為數(shù)據(jù)賦能-敏捷高效的數(shù)據(jù)處理_第2頁](http://file4.renrendoc.com/view/8825b1f41e6d01f0c5cce2dcfadd9ad5/8825b1f41e6d01f0c5cce2dcfadd9ad52.gif)
![為數(shù)據(jù)賦能-敏捷高效的數(shù)據(jù)處理_第3頁](http://file4.renrendoc.com/view/8825b1f41e6d01f0c5cce2dcfadd9ad5/8825b1f41e6d01f0c5cce2dcfadd9ad53.gif)
![為數(shù)據(jù)賦能-敏捷高效的數(shù)據(jù)處理_第4頁](http://file4.renrendoc.com/view/8825b1f41e6d01f0c5cce2dcfadd9ad5/8825b1f41e6d01f0c5cce2dcfadd9ad54.gif)
![為數(shù)據(jù)賦能-敏捷高效的數(shù)據(jù)處理_第5頁](http://file4.renrendoc.com/view/8825b1f41e6d01f0c5cce2dcfadd9ad5/8825b1f41e6d01f0c5cce2dcfadd9ad55.gif)
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、為數(shù)據(jù)賦能敏捷高效的數(shù)據(jù)處理徐岷峰數(shù)據(jù)處理Data Wrangling數(shù)據(jù)處理的流程ETL:從多種數(shù)據(jù)源提取數(shù)據(jù),做清理、聚合、派生,加載到特定存儲ELT:利用存儲的計算能力做數(shù)據(jù)變換Data WranglingData WranglingTalkingData 遇到的問題需求理解不一致/不清晰 溝通成本高開發(fā)技術棧紛雜 功能重復開發(fā)預計算缺乏統(tǒng)一的標準與服務即席查詢多種異構數(shù)據(jù)元數(shù)據(jù)系統(tǒng)Meta Data SystemMeta Data System元數(shù)據(jù)是實現(xiàn)敏捷的關鍵元數(shù)據(jù)是定義數(shù)據(jù)的數(shù)據(jù) 是實現(xiàn)系統(tǒng)復用的關鍵可以直接作為系統(tǒng)的外部接口 元數(shù)據(jù)驅動元數(shù)據(jù)是對業(yè)務的高度抽象某種程度上確定了
2、系統(tǒng)的數(shù)據(jù)邊界Meta-Meta DataMeta ModelMeta DataDataData set SpecificationData setData set Definition元數(shù)據(jù)規(guī)范(meta model)數(shù)據(jù)源(Data Source)分區(qū)定義(Partition) 數(shù)據(jù)集(Data Set)模式(Schema) 數(shù)據(jù)處理過程(Recipe)算子(Operator)多維模型(Multi-Dimension) 實體關系模型(ER)模型(model)Meta Data System實現(xiàn)Meta Data System對象JSONMySql SQLite/Derby存儲檢索索引ES通
3、知MQ部署Service Process數(shù)據(jù)變換Data Transform沒有銀彈Data Transform數(shù)據(jù)處理的核心 機器學習的基礎(特征工程)不深奧的技術 卻最耗費人力 尤其是維護工作紛繁的ETL工具:PDI(Kettle) Talend Data Integration Oracle Data IntegrationDataX 適合的才是最好的共同的思路:語義抽象(Session/JOB/Operator,DAG)元數(shù)據(jù)驅動(數(shù)據(jù)源、目的地、 數(shù)據(jù)結構、依賴、過程)執(zhí)行引擎數(shù)據(jù)質量監(jiān)測流程監(jiān)測數(shù)據(jù)安全與審計Data TransformTalkingData 的解決方案 語義抽象B
4、PMNJSONDAGSequenceconditionOperatorFunctionParameterreturnASParallelismData TransformTalkingData 的解決方案 編譯器邏輯計劃(DAG)配置文件算子庫,多種語言實現(xiàn)通用特性日志審計計量安全運行時文件,Jar,.R,.so,.pyOperator LibrariesCommon AspectcompilerRun Time FilesExecute PlanConfig PlanDAGJavaPythonRC/C+Spark Flink Strom H2O.aiScikit-Learn索引服務Index
5、 ServiceIndex Service索引服務索引,是數(shù)據(jù)查找和定位的關鍵B+樹、跳表、倒排 Bitmap精準的排重統(tǒng)計集合運算,Intersect, Union, Except索引,也是一種數(shù)據(jù),可以運算生成索引檢索運算維護索引服務Index ServiceBitmap舉個例子:定義Offset為UserId 時間粒度為天,索引1(藍色)代表玩“吃雞”游戲的用戶 索引2(黃色)代表玩“王者”游戲的用戶統(tǒng)計:今天玩了“吃雞”或“王者”的用戶今天既玩了“吃雞”又玩了“王者”的用戶今天玩了“吃雞”但沒玩“王者”的用戶Index Service索引生成可適配多種執(zhí)行引擎, Storm , Fli
6、nk , Spark索引存儲支持異構存儲索引查詢查詢能力可擴展支持實時數(shù)據(jù)查詢與運算元數(shù)據(jù)驅動Zookeeper同步狀態(tài)架構SchedulerMetaDataBrokerZooKeeperWorker ManagerReal Time CacheExecute EngineCacheStorageMySQLHBaseHDFSIndex Service元數(shù)據(jù)DomainDimensionStorageImplementationuniqueKeyIndexIndex Service查詢DSL ISQLFilter,維度間的集合運算查詢類型:select,groupby,topN,timeSeri
7、es,window,subQuery返回結果:index,count,idListLogical Plan Physical Plan固定“場景”的查詢Index Service用bitmap實現(xiàn)的倒排索引 以索引維度做Key以索引標識作為Offset二級索引按時間粒度分層的多叉樹Year:2019 Bitmap:indexesMonth:3 Bitmap:indexesMonth:12 Bitmap:indexesDay:5 Bitmap:indexesDay:6 Bitmap:indexesDay:30 Bitmap:indexesDay:27 Bitmap:indexesDay:21 B
8、itmap:indexesDay:30 Bitmap:indexesMonth:7 Bitmap:indexesIndex Service處理方式:維護-金字塔模型年數(shù)據(jù)月數(shù)據(jù)天數(shù)據(jù)合并刪除導出Index Service有序漏斗- 時序索引用bitmap存儲事件的時序關系:以時間作為Offset,精度不宜太高,秒壓縮存儲:1個RoaringBitmap可以存儲1242 個用戶在一天內的20 個基準事件序列。(231/3600/24/20)掩碼不同的二級索引。配合Index Service和關系數(shù)據(jù)庫實現(xiàn)有序漏斗每日事件發(fā)生的用戶索引分群索引事件明細過濾 UID=287698:43:23Even
9、tID = 0EventID = 1EventID = 19查詢引擎Query EngineQuery Engine解決的問題ETL-ELTCustom Query異構數(shù)據(jù)不同的DSL查詢優(yōu)化解耦物理存儲和業(yè)務邏輯虛擬表,視圖Data AnalysisQuery EngineRDBNoSqlFile SystemIndex ServiceQuery Engine部署:Library(Jar)設計思路統(tǒng)一的查詢接口:SQL語義優(yōu)化的邏輯計劃按數(shù)據(jù)源轉化到對應的DSL(物理計劃)通過客戶端發(fā)送請求,獲取數(shù)據(jù)元數(shù)據(jù):DataSet,特定的轉換規(guī)則,ClientAnalytics Applicatio
10、nJDBC IinterfaceLogical Plan withSemantic optimizationPhysical Planagainst specific DSLClientMetaDataData SetQuery EngineQuery Engine實現(xiàn)Core: Apache Calcite新增或改寫Adapter: Druid,CarbonData, Kudu元數(shù)據(jù)客戶端Analytics ApplicationJDBC IinterfaceLogical Plan withSemantic optimizationPhysical Planagainst specific DSLClientMetaDataData SetQuery Engine實例Query EngineQuery EnginePitfall : 性能降低 10%-30%Cache Bypass optimization and Translation增強Analytics ApplicationJDBC IinterfaceLogical Plan with Semantic optimizationPhysical Plan against specific DSLCl
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025至2030年化妝粉項目投資價值分析報告
- 二零二五年度企業(yè)辦公場所使用權轉讓協(xié)議
- 2025年中國感應式IC卡員工考勤系統(tǒng)市場調查研究報告
- 農(nóng)業(yè)補助申請書
- 緩考怎么申請書
- 2025年度人壽保險居間代理合作協(xié)議書
- 入志愿者申請書
- 學校申請書范文
- 二零二五年度礦山爆破工程爆破作業(yè)安全責任追究合同
- 環(huán)境保護教育課程實施計劃
- 懸挑腳手架搭設要求
- 幼兒園衛(wèi)生保健十三種表格
- 勞動用工備案表
- 業(yè)務提成獎勵方案
- 四年級語文上冊第一單元單元整體教學設計
- 玩具安全標準測試培訓-(SGS)課件
- 員工工資條模板
- 病例報告表格模板CRF
- 火力發(fā)電廠節(jié)能管理制度實施細則
- 《極致挑逗:雙人共撫全圖解120招》讀書筆記模板
- 2003年版勞動合同范本
評論
0/150
提交評論