為數(shù)據(jù)賦能-敏捷高效的數(shù)據(jù)處理_第1頁
為數(shù)據(jù)賦能-敏捷高效的數(shù)據(jù)處理_第2頁
為數(shù)據(jù)賦能-敏捷高效的數(shù)據(jù)處理_第3頁
為數(shù)據(jù)賦能-敏捷高效的數(shù)據(jù)處理_第4頁
為數(shù)據(jù)賦能-敏捷高效的數(shù)據(jù)處理_第5頁
已閱讀5頁,還剩24頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、為數(shù)據(jù)賦能敏捷高效的數(shù)據(jù)處理徐岷峰數(shù)據(jù)處理Data Wrangling數(shù)據(jù)處理的流程ETL:從多種數(shù)據(jù)源提取數(shù)據(jù),做清理、聚合、派生,加載到特定存儲ELT:利用存儲的計算能力做數(shù)據(jù)變換Data WranglingData WranglingTalkingData 遇到的問題需求理解不一致/不清晰 溝通成本高開發(fā)技術棧紛雜 功能重復開發(fā)預計算缺乏統(tǒng)一的標準與服務即席查詢多種異構數(shù)據(jù)元數(shù)據(jù)系統(tǒng)Meta Data SystemMeta Data System元數(shù)據(jù)是實現(xiàn)敏捷的關鍵元數(shù)據(jù)是定義數(shù)據(jù)的數(shù)據(jù) 是實現(xiàn)系統(tǒng)復用的關鍵可以直接作為系統(tǒng)的外部接口 元數(shù)據(jù)驅動元數(shù)據(jù)是對業(yè)務的高度抽象某種程度上確定了

2、系統(tǒng)的數(shù)據(jù)邊界Meta-Meta DataMeta ModelMeta DataDataData set SpecificationData setData set Definition元數(shù)據(jù)規(guī)范(meta model)數(shù)據(jù)源(Data Source)分區(qū)定義(Partition) 數(shù)據(jù)集(Data Set)模式(Schema) 數(shù)據(jù)處理過程(Recipe)算子(Operator)多維模型(Multi-Dimension) 實體關系模型(ER)模型(model)Meta Data System實現(xiàn)Meta Data System對象JSONMySql SQLite/Derby存儲檢索索引ES通

3、知MQ部署Service Process數(shù)據(jù)變換Data Transform沒有銀彈Data Transform數(shù)據(jù)處理的核心 機器學習的基礎(特征工程)不深奧的技術 卻最耗費人力 尤其是維護工作紛繁的ETL工具:PDI(Kettle) Talend Data Integration Oracle Data IntegrationDataX 適合的才是最好的共同的思路:語義抽象(Session/JOB/Operator,DAG)元數(shù)據(jù)驅動(數(shù)據(jù)源、目的地、 數(shù)據(jù)結構、依賴、過程)執(zhí)行引擎數(shù)據(jù)質量監(jiān)測流程監(jiān)測數(shù)據(jù)安全與審計Data TransformTalkingData 的解決方案 語義抽象B

4、PMNJSONDAGSequenceconditionOperatorFunctionParameterreturnASParallelismData TransformTalkingData 的解決方案 編譯器邏輯計劃(DAG)配置文件算子庫,多種語言實現(xiàn)通用特性日志審計計量安全運行時文件,Jar,.R,.so,.pyOperator LibrariesCommon AspectcompilerRun Time FilesExecute PlanConfig PlanDAGJavaPythonRC/C+Spark Flink Strom H2O.aiScikit-Learn索引服務Index

5、 ServiceIndex Service索引服務索引,是數(shù)據(jù)查找和定位的關鍵B+樹、跳表、倒排 Bitmap精準的排重統(tǒng)計集合運算,Intersect, Union, Except索引,也是一種數(shù)據(jù),可以運算生成索引檢索運算維護索引服務Index ServiceBitmap舉個例子:定義Offset為UserId 時間粒度為天,索引1(藍色)代表玩“吃雞”游戲的用戶 索引2(黃色)代表玩“王者”游戲的用戶統(tǒng)計:今天玩了“吃雞”或“王者”的用戶今天既玩了“吃雞”又玩了“王者”的用戶今天玩了“吃雞”但沒玩“王者”的用戶Index Service索引生成可適配多種執(zhí)行引擎, Storm , Fli

6、nk , Spark索引存儲支持異構存儲索引查詢查詢能力可擴展支持實時數(shù)據(jù)查詢與運算元數(shù)據(jù)驅動Zookeeper同步狀態(tài)架構SchedulerMetaDataBrokerZooKeeperWorker ManagerReal Time CacheExecute EngineCacheStorageMySQLHBaseHDFSIndex Service元數(shù)據(jù)DomainDimensionStorageImplementationuniqueKeyIndexIndex Service查詢DSL ISQLFilter,維度間的集合運算查詢類型:select,groupby,topN,timeSeri

7、es,window,subQuery返回結果:index,count,idListLogical Plan Physical Plan固定“場景”的查詢Index Service用bitmap實現(xiàn)的倒排索引 以索引維度做Key以索引標識作為Offset二級索引按時間粒度分層的多叉樹Year:2019 Bitmap:indexesMonth:3 Bitmap:indexesMonth:12 Bitmap:indexesDay:5 Bitmap:indexesDay:6 Bitmap:indexesDay:30 Bitmap:indexesDay:27 Bitmap:indexesDay:21 B

8、itmap:indexesDay:30 Bitmap:indexesMonth:7 Bitmap:indexesIndex Service處理方式:維護-金字塔模型年數(shù)據(jù)月數(shù)據(jù)天數(shù)據(jù)合并刪除導出Index Service有序漏斗- 時序索引用bitmap存儲事件的時序關系:以時間作為Offset,精度不宜太高,秒壓縮存儲:1個RoaringBitmap可以存儲1242 個用戶在一天內的20 個基準事件序列。(231/3600/24/20)掩碼不同的二級索引。配合Index Service和關系數(shù)據(jù)庫實現(xiàn)有序漏斗每日事件發(fā)生的用戶索引分群索引事件明細過濾 UID=287698:43:23Even

9、tID = 0EventID = 1EventID = 19查詢引擎Query EngineQuery Engine解決的問題ETL-ELTCustom Query異構數(shù)據(jù)不同的DSL查詢優(yōu)化解耦物理存儲和業(yè)務邏輯虛擬表,視圖Data AnalysisQuery EngineRDBNoSqlFile SystemIndex ServiceQuery Engine部署:Library(Jar)設計思路統(tǒng)一的查詢接口:SQL語義優(yōu)化的邏輯計劃按數(shù)據(jù)源轉化到對應的DSL(物理計劃)通過客戶端發(fā)送請求,獲取數(shù)據(jù)元數(shù)據(jù):DataSet,特定的轉換規(guī)則,ClientAnalytics Applicatio

10、nJDBC IinterfaceLogical Plan withSemantic optimizationPhysical Planagainst specific DSLClientMetaDataData SetQuery EngineQuery Engine實現(xiàn)Core: Apache Calcite新增或改寫Adapter: Druid,CarbonData, Kudu元數(shù)據(jù)客戶端Analytics ApplicationJDBC IinterfaceLogical Plan withSemantic optimizationPhysical Planagainst specific DSLClientMetaDataData SetQuery Engine實例Query EngineQuery EnginePitfall : 性能降低 10%-30%Cache Bypass optimization and Translation增強Analytics ApplicationJDBC IinterfaceLogical Plan with Semantic optimizationPhysical Plan against specific DSLCl

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論