干貨:數(shù)據(jù)中臺(tái)的深度思考與總結(jié)_第1頁(yè)
干貨:數(shù)據(jù)中臺(tái)的深度思考與總結(jié)_第2頁(yè)
干貨:數(shù)據(jù)中臺(tái)的深度思考與總結(jié)_第3頁(yè)
干貨:數(shù)據(jù)中臺(tái)的深度思考與總結(jié)_第4頁(yè)
干貨:數(shù)據(jù)中臺(tái)的深度思考與總結(jié)_第5頁(yè)
已閱讀5頁(yè),還剩33頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

干貨:數(shù)據(jù)中臺(tái)的深度思考與總結(jié)

應(yīng)

數(shù)

據(jù)

臺(tái)

存儡、受胃.分析引■

RDBMSGreenPlumESHddoopSparkFilnk

I

KafkaHBaseKuduHrveTensor^lowStorm

ADSFTPMongo底

IfUTAJS網(wǎng)絡(luò)5G網(wǎng)絡(luò)多元平臺(tái)混合云為源本她機(jī)房

I數(shù)據(jù)匯聚

數(shù)據(jù)匯聚是數(shù)據(jù)中臺(tái)必須提供的核心工具,把各種異構(gòu)

網(wǎng)絡(luò)、異構(gòu)數(shù)據(jù)源的數(shù)據(jù)方便地采集到數(shù)據(jù)中臺(tái)中進(jìn)行

集中存儲(chǔ),為后續(xù)的加工建模做準(zhǔn)備。數(shù)據(jù)匯聚方式一

般有數(shù)據(jù)庫(kù)同步、埋點(diǎn)、網(wǎng)絡(luò)爬蟲(chóng)、消息隊(duì)列等;從匯

聚的時(shí)效性來(lái)分,有離線批量匯聚和實(shí)時(shí)采集。

I數(shù)據(jù)采集工具

CanaLDataX、Sqoop

|數(shù)據(jù)開(kāi)發(fā)

數(shù)據(jù)開(kāi)發(fā)模塊主要面向開(kāi)發(fā)人員、分析人員,提供離

線、實(shí)時(shí)、算法開(kāi)發(fā)工具。

|離線開(kāi)發(fā)

作業(yè)調(diào)度

?依賴(lài)調(diào)度:所有父作業(yè)運(yùn)行完成后,當(dāng)前作業(yè)才能開(kāi)始運(yùn)

行。圖64中的作業(yè)B,只有父作業(yè)A和C運(yùn)行完成后,才

能開(kāi)始被調(diào)度。?時(shí)間調(diào)度:可指定作業(yè)的調(diào)度開(kāi)始時(shí)間。

圖64中的作業(yè)B,只有到達(dá)05:00后才能開(kāi)始被調(diào)度。

基線控制

在大數(shù)據(jù)離線作業(yè)中,作業(yè)執(zhí)行時(shí)間較長(zhǎng),經(jīng)常遇到急

著用數(shù)據(jù)發(fā)現(xiàn)數(shù)據(jù)還沒(méi)出來(lái)的情況。采用算法對(duì)作業(yè)完

成時(shí)間進(jìn)行智能預(yù)測(cè),根據(jù)預(yù)測(cè),當(dāng)作業(yè)無(wú)法正常產(chǎn)出

且動(dòng)態(tài)調(diào)整無(wú)法完成時(shí),調(diào)度中心會(huì)及時(shí)通過(guò)監(jiān)控告警

通知運(yùn)維值班人員提前介入處理,為大數(shù)據(jù)作業(yè)執(zhí)行留

出充裕的時(shí)間。

異構(gòu)存儲(chǔ)

企業(yè)內(nèi)部的存儲(chǔ)計(jì)算引擎呈多元化趨勢(shì)。離線開(kāi)發(fā)中心

針對(duì)每種類(lèi)型的計(jì)算引擎會(huì)開(kāi)發(fā)不同的組件,例如,針

對(duì)Oracle開(kāi)發(fā)Oracle插件,針對(duì)Hadoop體系分別

開(kāi)發(fā)出Hive、Spark.MR等插件。用戶(hù)在界面新建各

種作業(yè)類(lèi)型,在執(zhí)行時(shí)自動(dòng)根據(jù)作業(yè)的類(lèi)型尋找相應(yīng)的

插件來(lái)運(yùn)行作業(yè)。

代碼校驗(yàn)

對(duì)于常見(jiàn)的SQL任務(wù)類(lèi)型,SQL檢查器會(huì)做好嚴(yán)格的

管控,做到事前發(fā)現(xiàn)問(wèn)題。

多環(huán)境級(jí)聯(lián)

通過(guò)環(huán)境級(jí)聯(lián)的方式靈活支持企業(yè)的各類(lèi)環(huán)境需求,方

便對(duì)資源、權(quán)限進(jìn)行控制和隔離。每個(gè)環(huán)境有獨(dú)立的

Hive數(shù)據(jù)庫(kù)、Yarn調(diào)度隊(duì)列,甚至不同的Hadoop

集群。常見(jiàn)的環(huán)境如下:

.單一環(huán)境:只有一個(gè)生產(chǎn)環(huán)境,內(nèi)部管理簡(jiǎn)單。

?經(jīng)典環(huán)境:開(kāi)發(fā)環(huán)境中存放脫敏數(shù)據(jù)、供開(kāi)發(fā)測(cè)試使用,

上生產(chǎn)環(huán)境走發(fā)布流程,用于真實(shí)數(shù)據(jù)生產(chǎn)。

?任務(wù)、資源和函數(shù)必須在開(kāi)發(fā)環(huán)境下進(jìn)行新建、修改或刪

除,再經(jīng)過(guò)提交、創(chuàng)建發(fā)布包、同意發(fā)布三個(gè)操作后,才能

同步到生產(chǎn)環(huán)境。

?復(fù)雜環(huán)境:企業(yè)有外部人員和內(nèi)部人員,會(huì)給外部人員提

供一個(gè)脫敏管控的環(huán)境,外部人員開(kāi)發(fā)完的數(shù)據(jù)模型經(jīng)過(guò)測(cè)

試后發(fā)布到內(nèi)部開(kāi)發(fā)環(huán)境。

推薦依賴(lài)

隨著業(yè)務(wù)的不斷深入,數(shù)據(jù)開(kāi)發(fā)人員需要開(kāi)發(fā)的作業(yè)會(huì)

不斷累加。既能保證準(zhǔn)確找到需要定位的上游作業(yè),又

能保證不會(huì)形成環(huán)路。

輸出表:tableD

?獲取推薦依賴(lài)的核心原理在于上下游作業(yè)輸入和輸出的表

級(jí)血緣依賴(lài)圖;

?通過(guò)血緣分析當(dāng)前作業(yè)的輸入和輸出,找到合適的上游作

業(yè);

?對(duì)合適的作業(yè)進(jìn)行環(huán)路檢測(cè),剔除存在閉環(huán)的作業(yè);?返回

合適的節(jié)點(diǎn)列表。

數(shù)據(jù)權(quán)限

企業(yè)內(nèi)部計(jì)算引擎多樣化,數(shù)據(jù)權(quán)限管理面臨如下問(wèn)

題:

?部分引擎擁有獨(dú)立的權(quán)限管理系統(tǒng)(例如Oracle.

HANA、LibrA),導(dǎo)致權(quán)限申請(qǐng)需要到每一種引擎上單獨(dú)

操作,讓使用變得復(fù)雜。

?同一種計(jì)算引擎,不同廠商的權(quán)限系統(tǒng)有多種,例如

Hadoop自身無(wú)數(shù)據(jù)權(quán)限系統(tǒng),由不同廠商各自去實(shí)現(xiàn),

目前主要有兩種策略:

?RBAC(Role-BasedAccessControl):如Cloudera

用的是Sentry,華為的FI也是類(lèi)似的機(jī)制?PBAC

(Policy-BasedAccessControl):如Hortonworks用

的Ranger

?數(shù)據(jù)權(quán)限是由大數(shù)據(jù)集群或數(shù)據(jù)庫(kù)運(yùn)維人員管理的,開(kāi)發(fā)

人員無(wú)法直接操作或者接觸,所有的權(quán)限申請(qǐng)都需要運(yùn)維人

員開(kāi)通,造成運(yùn)維人員負(fù)擔(dān)過(guò)重。在實(shí)際開(kāi)發(fā)中,一般需要

運(yùn)維人員把整個(gè)庫(kù)的權(quán)限授權(quán)給某個(gè)開(kāi)發(fā)負(fù)責(zé)人,然后庫(kù)里

面的表、字段、函數(shù)的權(quán)限管理由開(kāi)發(fā)負(fù)責(zé)人負(fù)責(zé)就行。

?數(shù)據(jù)權(quán)限管理中心提供界面化操作,數(shù)據(jù)申請(qǐng)方直接在頁(yè)

面上進(jìn)行各種權(quán)限的申請(qǐng),數(shù)據(jù)管理方在界面上審核權(quán)限,

執(zhí)行同意或拒絕操作。同時(shí),所有權(quán)限的申請(qǐng)、審批都會(huì)有

記錄,便于進(jìn)行權(quán)限審計(jì)。在統(tǒng)一數(shù)據(jù)權(quán)限服務(wù)中,會(huì)對(duì)接

底層的各種權(quán)限管理系統(tǒng),例如Sentry.Ranger.

Oracle,同時(shí)對(duì)數(shù)據(jù)權(quán)限管理中心提供服務(wù),執(zhí)行權(quán)限的

申請(qǐng)、授權(quán)、撤銷(xiāo)等操作。

|實(shí)時(shí)開(kāi)發(fā)

?元數(shù)據(jù)管理?SQL驅(qū)動(dòng)?組件化開(kāi)發(fā)

|智能運(yùn)維

任務(wù)的管理、代碼發(fā)布、運(yùn)維、監(jiān)控、告警等一系列集

成工具,方便使用,提升效率。重跑、重跑下游、補(bǔ)數(shù)

據(jù)。

|數(shù)據(jù)體系

有了數(shù)據(jù)匯聚、數(shù)據(jù)開(kāi)發(fā)模塊,中臺(tái)已經(jīng)具備傳統(tǒng)數(shù)據(jù)

倉(cāng)庫(kù)(后面簡(jiǎn)稱(chēng):數(shù)倉(cāng))平臺(tái)的基本能力,可以做數(shù)據(jù)

的匯聚以及各種數(shù)據(jù)開(kāi)發(fā),就可以建立企業(yè)的數(shù)據(jù)體

系。之前說(shuō)數(shù)據(jù)體系是中臺(tái)的血肉,開(kāi)發(fā)、管理、使用

的都是數(shù)據(jù)。

中臺(tái)數(shù)據(jù)體系應(yīng)具備以下特征:

?覆蓋全域數(shù)據(jù):數(shù)據(jù)集中建設(shè)、覆蓋所有業(yè)務(wù)過(guò)程數(shù)據(jù),

業(yè)務(wù)中臺(tái)在數(shù)據(jù)體系中總能找到需要的數(shù)據(jù)。

?結(jié)構(gòu)層次清晰:縱向的數(shù)據(jù)分層、橫向主題域、業(yè)務(wù)過(guò)程

劃分,讓整個(gè)層次結(jié)構(gòu)清晰易理解。

?數(shù)據(jù)準(zhǔn)確一致:定義一致性指標(biāo),統(tǒng)一命名、統(tǒng)一業(yè)務(wù)含

義、統(tǒng)一計(jì)算口徑,并有專(zhuān)業(yè)團(tuán)隊(duì)負(fù)責(zé)建模,保證數(shù)據(jù)的準(zhǔn)

確一致。

?性能提升:統(tǒng)一的規(guī)劃設(shè)計(jì),選用合理的數(shù)據(jù)模型,清晰

的定義并統(tǒng)一規(guī)范,并且考慮使用場(chǎng)景,使整體性能更好。

?降低成本:數(shù)據(jù)體系的建設(shè)使得數(shù)據(jù)能被業(yè)務(wù)共享,這避

免了大量煙囪式的重復(fù)建設(shè),節(jié)約了計(jì)算、存儲(chǔ)和人力成

本。

?方便易用:易用的總體原則是越往后越能方便地直接使用

數(shù)據(jù),把一些復(fù)雜的處理盡可能前置,必要時(shí)做適當(dāng)?shù)娜哂?/p>

處理。

不同行業(yè)的數(shù)據(jù)體系建設(shè):

地產(chǎn)行業(yè)

應(yīng)用數(shù)據(jù)層

精準(zhǔn)營(yíng)銷(xiāo)拿地決策供應(yīng)商評(píng)估產(chǎn)品定價(jià)…

ADS

標(biāo)簽數(shù)據(jù)層

客戶(hù)標(biāo)簽項(xiàng)目標(biāo)簽樓盤(pán)標(biāo)簽土地標(biāo)簽供應(yīng)商標(biāo)簽

TDM

統(tǒng)一數(shù)倉(cāng)層

產(chǎn)品域客戶(hù)域供應(yīng)商域財(cái)務(wù)域營(yíng)銷(xiāo)域客服與售后域

DW

貼源數(shù)據(jù)層ERPCRM售樓系統(tǒng)物業(yè)系統(tǒng)商業(yè)管理酒店系統(tǒng)客廠與統(tǒng)小溥在尋優(yōu)

數(shù)據(jù)數(shù)據(jù)數(shù)據(jù)數(shù)據(jù)數(shù)據(jù)數(shù)據(jù)數(shù)括一‘奴器

ODS

證券行業(yè)

應(yīng)用數(shù)據(jù)層

投資者行為信用業(yè)務(wù)營(yíng)銷(xiāo)客戶(hù)畫(huà)像

ADS

標(biāo)簽數(shù)據(jù)層

個(gè)人客戶(hù)標(biāo)簽機(jī)構(gòu)客戶(hù)標(biāo)簽基金產(chǎn)品標(biāo)簽交易對(duì)手標(biāo)簽

TDM

統(tǒng)一數(shù)倉(cāng)層

客戶(hù)域營(yíng)銷(xiāo)域零售經(jīng)紀(jì)域機(jī)構(gòu)經(jīng)紀(jì)域投資顧問(wèn)域管理支撐域運(yùn)營(yíng)域

DW

貼源數(shù)據(jù)層CRM集中交易融資融券網(wǎng)上交易資產(chǎn)管理風(fēng)險(xiǎn)【'V

ODS數(shù)據(jù)系統(tǒng)數(shù)據(jù)系統(tǒng)數(shù)據(jù)系統(tǒng)數(shù)據(jù)系統(tǒng)數(shù)據(jù)系統(tǒng)數(shù)據(jù)系統(tǒng)數(shù)套

零售行業(yè)

應(yīng)用數(shù)據(jù)層

紅包推送營(yíng)銷(xiāo)網(wǎng)人個(gè)性推薦

ADS

標(biāo)簽數(shù)據(jù)層

會(huì)員標(biāo)簽門(mén)店標(biāo)簽商品標(biāo)簽

TDM

統(tǒng)一數(shù)倉(cāng)層

會(huì)員域門(mén)店域供應(yīng)商域商品域訂單域財(cái)務(wù)域營(yíng)銷(xiāo)域日志域渠道域終端域

DW

貼源數(shù)據(jù)層CRM門(mén)店零售管理線上交易庫(kù)存管理線上日志J?-

ODS數(shù)據(jù)系統(tǒng)數(shù)據(jù)數(shù)據(jù)系統(tǒng)數(shù)據(jù)數(shù)據(jù)數(shù)據(jù)

制造行業(yè)

應(yīng)用數(shù)據(jù)層

阿米巴運(yùn)營(yíng)數(shù)字化決策產(chǎn)品質(zhì)量

ADS

標(biāo)簽數(shù)據(jù)層

員工標(biāo)簽供應(yīng)商標(biāo)簽原材料標(biāo)簽

TDM

統(tǒng)一數(shù)倉(cāng)層

客戶(hù)域工廠域供應(yīng)商域產(chǎn)品域訂單域財(cái)務(wù)域營(yíng)銷(xiāo)域

DW

貼源數(shù)據(jù)層CRMWMSERPMES庫(kù)存管理設(shè)備管:/zhjj?等瑟

ODS數(shù)據(jù)系統(tǒng)數(shù)據(jù)數(shù)據(jù)系統(tǒng)數(shù)據(jù)系統(tǒng)數(shù)據(jù)系統(tǒng)數(shù)據(jù)系統(tǒng)數(shù)據(jù),

傳媒行業(yè)

應(yīng)用數(shù)據(jù)層

內(nèi)容推薦精準(zhǔn)營(yíng)銷(xiāo)知識(shí)運(yùn)營(yíng)

ADS

標(biāo)簽數(shù)據(jù)層

用戶(hù)標(biāo)簽期刊標(biāo)簽營(yíng)銷(xiāo)標(biāo)簽

TDM

統(tǒng)一數(shù)倉(cāng)層

用戶(hù)域內(nèi)容域財(cái)務(wù)域

DW

貼源數(shù)據(jù)層內(nèi)容管理排版流程ERP音頻視加一圖片

ODS系統(tǒng)數(shù)據(jù)管理系統(tǒng)數(shù)據(jù)數(shù)據(jù)數(shù)據(jù)二Z“啜裙?

檢務(wù)行業(yè)

應(yīng)用數(shù)據(jù)層

公益訴訟相關(guān)表刑事檢察相關(guān)表案件業(yè)務(wù)相關(guān)表

ADS

標(biāo)簽數(shù)據(jù)層

自然人標(biāo)簽企業(yè)法人標(biāo)簽案件標(biāo)簽公益線索標(biāo)簽

TDM

統(tǒng)一數(shù)倉(cāng)層

公益訴訟域刑事檢察域民事檢察域行政檢察域案件業(yè)務(wù)域

DW

貼源數(shù)據(jù)層執(zhí)法信息法院裁判民生互聯(lián)網(wǎng)群眾舉報(bào)-%.濟(jì)而酣0

ODS系統(tǒng)數(shù)據(jù)文書(shū)熱線數(shù)據(jù)數(shù)據(jù)~"-蜓靠坡田

貼源數(shù)據(jù)層ODS

對(duì)各業(yè)務(wù)系統(tǒng)數(shù)據(jù)進(jìn)行采集、匯聚,盡可能保留原始業(yè)

務(wù)流程數(shù)據(jù),與業(yè)務(wù)系統(tǒng)基本保持一致,僅做簡(jiǎn)單整

合、非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化處理或者增加標(biāo)識(shí)數(shù)據(jù)日期描

述信息,不做深度清洗加工。

?表名:ODS_系統(tǒng)簡(jiǎn)稱(chēng)一業(yè)務(wù)系統(tǒng)表名

-字段名:與業(yè)務(wù)系統(tǒng)字段名保持一致,字段類(lèi)型也盡可能

保持一致?對(duì)于數(shù)據(jù)量比較大的業(yè)務(wù)表,采用增量同步的方

式,則要同時(shí)建立增量表和全量表,增量表命名加后綴:

ODS_系統(tǒng)簡(jiǎn)稱(chēng)一業(yè)務(wù)系統(tǒng)表名.delta。

?對(duì)于日志、文件等半結(jié)構(gòu)數(shù)據(jù),不僅要存儲(chǔ)原始數(shù)據(jù),還

要存儲(chǔ)結(jié)構(gòu)化之后的數(shù)據(jù)。

使用DataX同步數(shù)據(jù)步驟:

1)確定業(yè)務(wù)系統(tǒng)源表與貼源數(shù)據(jù)層目標(biāo)表

2)配置數(shù)據(jù)字段映射關(guān)系,目標(biāo)表可能會(huì)增加采集日

期、分區(qū)、原系統(tǒng)標(biāo)識(shí)等必要信息,業(yè)務(wù)相關(guān)內(nèi)容不做

轉(zhuǎn)換

3)如果是增量同步或著有條件的同步部分?jǐn)?shù)據(jù),則配

置數(shù)據(jù)同步條件

4)清理目標(biāo)表對(duì)應(yīng)數(shù)據(jù)

5)啟動(dòng)同步任務(wù),往貼源數(shù)據(jù)層目標(biāo)表導(dǎo)入數(shù)據(jù)

6)驗(yàn)證任務(wù)是否可以正確運(yùn)行,并且采集到準(zhǔn)確數(shù)據(jù)

7)發(fā)布采集任務(wù),加入生產(chǎn)調(diào)度,并配置相關(guān)限速、

容錯(cuò)、質(zhì)量監(jiān)控、告警機(jī)制

統(tǒng)一數(shù)倉(cāng)層DW

?明細(xì)數(shù)據(jù)層DWD?匯總數(shù)據(jù)層DWS

與傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)功能基本一致,對(duì)全歷史業(yè)務(wù)過(guò)程數(shù)據(jù)

進(jìn)行建模存儲(chǔ)。對(duì)來(lái)源于業(yè)務(wù)系統(tǒng)的數(shù)據(jù)進(jìn)行重新組

織。業(yè)務(wù)系統(tǒng)是按照業(yè)務(wù)流程方便操作的方式來(lái)組織數(shù)

據(jù)的,而統(tǒng)一數(shù)倉(cāng)層從業(yè)務(wù)易理解的視角來(lái)重新組織,

定義一致的指標(biāo)、維度,各業(yè)務(wù)板塊、業(yè)務(wù)域按照統(tǒng)一

規(guī)范獨(dú)立建設(shè),從而形成統(tǒng)一規(guī)范的標(biāo)準(zhǔn)業(yè)務(wù)數(shù)據(jù)體

系。

?標(biāo)簽數(shù)據(jù)層TDM

面向?qū)ο蠼?,?duì)跨業(yè)務(wù)板塊、跨數(shù)據(jù)域的特定對(duì)象數(shù)

據(jù)進(jìn)行整合,通過(guò)IDMapping把各個(gè)業(yè)務(wù)板塊、各個(gè)

業(yè)務(wù)過(guò)程中的同一對(duì)象的數(shù)據(jù)打通,形成對(duì)象的全域標(biāo)

簽體系,方便深度分析、挖掘、應(yīng)用。

身份信息

客戶(hù)標(biāo)簽體系

應(yīng)用數(shù)據(jù)層ADS

按照業(yè)務(wù)的需要從統(tǒng)一數(shù)倉(cāng)層、標(biāo)簽數(shù)據(jù)層抽取數(shù)據(jù),

并面向業(yè)務(wù)的特殊需要加工業(yè)務(wù)特定數(shù)據(jù),以滿(mǎn)足業(yè)務(wù)

及性能需求,向特定應(yīng)用組裝應(yīng)用數(shù)據(jù)。

數(shù)據(jù)資產(chǎn)管理

數(shù)據(jù)資產(chǎn)管理包括對(duì)數(shù)據(jù)資產(chǎn)目錄、元數(shù)據(jù)、數(shù)據(jù)質(zhì)

量、數(shù)據(jù)血緣、數(shù)據(jù)生命周期等進(jìn)行管理和展示,以一

種更直觀的方式展現(xiàn)企業(yè)的數(shù)據(jù)資產(chǎn),提升企業(yè)的數(shù)據(jù)

意識(shí)。

數(shù)據(jù)資產(chǎn)對(duì)上支持以?xún)r(jià)值挖掘和業(yè)務(wù)賦能為導(dǎo)向的數(shù)據(jù)

應(yīng)用開(kāi)發(fā),對(duì)下依托大數(shù)據(jù)平臺(tái)實(shí)現(xiàn)數(shù)據(jù)全生命周期的

管理,并對(duì)企業(yè)數(shù)據(jù)資產(chǎn)的價(jià)值、質(zhì)量進(jìn)行評(píng)估,促進(jìn)

企業(yè)數(shù)據(jù)資產(chǎn)不斷自我完善,持續(xù)向業(yè)務(wù)輸出動(dòng)力。

I數(shù)據(jù)治理

傳統(tǒng)的數(shù)據(jù)治理通常包含數(shù)據(jù)標(biāo)準(zhǔn)管理、元數(shù)據(jù)管理、

數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)安全管理、數(shù)據(jù)生命周期管理等內(nèi)

容。

I數(shù)據(jù)服務(wù)體系

前面利用數(shù)據(jù)匯聚、數(shù)據(jù)開(kāi)發(fā)建設(shè)企業(yè)的數(shù)據(jù)資產(chǎn),利

用數(shù)據(jù)管理展現(xiàn)企業(yè)的數(shù)據(jù)資產(chǎn),但是并沒(méi)有發(fā)揮數(shù)據(jù)

的價(jià)值。數(shù)據(jù)服務(wù)體系就是把數(shù)據(jù)變?yōu)橐环N服務(wù)能力,

通過(guò)數(shù)據(jù)服務(wù)讓數(shù)據(jù)參與到業(yè)務(wù),快速開(kāi)發(fā)企業(yè)的業(yè)務(wù)

中臺(tái)等。

查詢(xún)服務(wù)

輸入特定的查詢(xún)條件,返回該條件下的數(shù)據(jù),以API形

式供上層應(yīng)用調(diào)用。

1)支持配置查詢(xún)標(biāo)識(shí),底層數(shù)據(jù)組織一般會(huì)對(duì)該標(biāo)識(shí)

建立索引,以加快查詢(xún)速度

2)支持配置過(guò)濾項(xiàng)

3)支持查詢(xún)結(jié)果配置,包括數(shù)據(jù)排序規(guī)則和分頁(yè)規(guī)

則。

|分析服務(wù)

借助分析組件高效的大數(shù)據(jù)分析能力,對(duì)數(shù)據(jù)進(jìn)行關(guān)聯(lián)

分析,分析結(jié)果通過(guò)API形式供上層應(yīng)用調(diào)用。

1)支持多源數(shù)據(jù)接入:企業(yè)的數(shù)據(jù)經(jīng)過(guò)清洗加工轉(zhuǎn)換

成數(shù)據(jù)資產(chǎn)后,最終通過(guò)服務(wù)作用于業(yè)務(wù)系統(tǒng),基于企

業(yè)異構(gòu)存儲(chǔ)的現(xiàn)狀,要求分析服務(wù)能夠支持與Hive、

ES、Greenplum.MySQL、Oracle.本地文件等多

種數(shù)據(jù)源進(jìn)行連接。

2)高性能即席查詢(xún):隨著企業(yè)數(shù)據(jù)爆發(fā)式增長(zhǎng),傳統(tǒng)

的數(shù)據(jù)分析工具遇到分析能力的瓶頸,也就是對(duì)大數(shù)據(jù)

量的分析越來(lái)越乏力。因此,這就要求分析服務(wù)內(nèi)置高

速計(jì)算引擎,以對(duì)數(shù)據(jù)進(jìn)行高性能的即席計(jì)算,實(shí)現(xiàn)億

級(jí)數(shù)據(jù)毫秒級(jí)(至多秒級(jí))分析和計(jì)算,減少用戶(hù)等待

時(shí)間。

3)多維數(shù)據(jù)分析

分析服務(wù)除了支持常規(guī)的數(shù)據(jù)分析、上卷下鉆、切片切

塊之外,還應(yīng)該支持多維的數(shù)據(jù)分析以及深層次的數(shù)據(jù)

挖掘,發(fā)現(xiàn)數(shù)據(jù)背后的關(guān)聯(lián)關(guān)系。

4)靈活對(duì)接業(yè)務(wù)系統(tǒng)

|推薦服務(wù)

按約定的格式提供歷史日志行為數(shù)據(jù)和實(shí)時(shí)訪問(wèn)數(shù)據(jù),

推薦模型就會(huì)生成相應(yīng)的推薦API,從而為上層應(yīng)用提

供推薦服務(wù)。

推薦服務(wù)即所謂的千人干面,對(duì)不同的人對(duì)物的行為進(jìn)

行數(shù)據(jù)挖掘,構(gòu)建每個(gè)人與物之間的關(guān)系程度,來(lái)推薦

人、物以滿(mǎn)足用戶(hù)的興趣愛(ài)好,以提升用戶(hù)對(duì)業(yè)務(wù)的粘

性。每個(gè)人打開(kāi)手機(jī)淘寶看到的內(nèi)容都不一樣,這就是

一種基于人的興趣愛(ài)好的推薦服務(wù)能力。

1)支持不同行業(yè)的推薦:不同行業(yè)背后的推薦邏輯是

有區(qū)別的

2)支持不同場(chǎng)景的推薦:以?xún)?nèi)容資訊為例,在用戶(hù)冷

啟動(dòng)場(chǎng)景下,應(yīng)該推薦哪些資訊?在用戶(hù)已有瀏覽行為

的場(chǎng)景下,又該為其推薦哪些資訊?

3)支持推薦效果優(yōu)化:從導(dǎo)入的原始數(shù)據(jù)開(kāi)始,經(jīng)過(guò)

推薦組件生成推薦數(shù)據(jù),再根據(jù)用戶(hù)的瀏覽數(shù)據(jù)不斷修

正推薦模型,從而使推薦效果不斷優(yōu)化

|圈人服務(wù)

從全量用戶(hù)數(shù)據(jù)中,基于標(biāo)簽組合篩選符合指定特征條

件的人群,并通過(guò)API形式供上層應(yīng)用調(diào)用。

1)支持人群圈選:通過(guò)SQL代碼或標(biāo)簽取值組合等多

種方式,實(shí)現(xiàn)人員查找,幫用戶(hù)找到對(duì)的人群

2)支持人群計(jì)量:營(yíng)銷(xiāo)部門(mén)或者廣告公司使用圈人服

務(wù)圈選出目標(biāo)人群后,往往還要考慮人群量是否符合預(yù)

期,因?yàn)轭A(yù)算有限,不可能不計(jì)成本的對(duì)人群進(jìn)行營(yíng)

銷(xiāo)。

3)支持多渠道對(duì)接:將人群名單導(dǎo)出到相應(yīng)的下游系

統(tǒng)。最簡(jiǎn)單的名單導(dǎo)出方式是先下載文件,再由業(yè)務(wù)人

員導(dǎo)入相應(yīng)的業(yè)務(wù)系統(tǒng)中?;蛘咧苯訉?duì)接到短信系統(tǒng)、

微信投放接口、營(yíng)銷(xiāo)活動(dòng)系統(tǒng)等。

離線平臺(tái)

蘇寧離線平臺(tái)產(chǎn)品功能圖:

鎂開(kāi)發(fā)

新建編輯刪除圖形化可視化即時(shí)編輯實(shí)時(shí)生效資源上傳下載

復(fù)制任務(wù)導(dǎo)入導(dǎo)出大任務(wù)流自助拆分豐富彳竊參數(shù)

任務(wù)分類(lèi)管理SQL解析任務(wù)模板樣例搬豐富任務(wù)類(lèi)型

幫助手冊(cè)任務(wù)交接根據(jù)血緣信息,自動(dòng)建立任務(wù)依賴(lài)關(guān)系

____________________fE務(wù)運(yùn)維

上下線失敗重試殺死

忽略失敗,ms調(diào)度狀態(tài)自助分析操作日志崛

任務(wù)鏈依賴(lài)分析任務(wù)發(fā)布管理任務(wù)異常自助診斷知識(shí)庫(kù)建立

任務(wù)運(yùn)行分析任務(wù)優(yōu)化建議任務(wù)監(jiān)控和告警任夠腦1崛

11

蘇寧調(diào)度模塊功能圖:

調(diào)度方式調(diào)度執(zhí)行計(jì)劃工作流的敢放

定時(shí)分片DAG靜態(tài)計(jì)劃動(dòng)態(tài)計(jì)劃靜態(tài)顯式定義動(dòng)態(tài)隱式定義

、業(yè)依賴(lài)1系依賴(lài)策略

任務(wù)依賴(lài)數(shù)據(jù)依賴(lài)時(shí)間依賴(lài)

_流控策略

執(zhí)行時(shí)間任務(wù)組并發(fā)

彳鎊犧系統(tǒng)級(jí)內(nèi)部控制

任務(wù)的提交來(lái)源

調(diào)度類(lèi)型資源使用情況

調(diào)度高可靠性隔離對(duì)外API

定時(shí)領(lǐng)提前領(lǐng)ilim聯(lián)公共資源夕陪15資源狀態(tài)發(fā)布

輟級(jí)資源黑白名單幅沖峨3ng

HA主備分布式集群安全性

蘇寧離線平臺(tái)整體架構(gòu)圖:

跨任務(wù)流依賴(lài)的實(shí)現(xiàn):

FTP事件機(jī)制,即在FTP服務(wù)器上建立標(biāo)識(shí)文件,一

個(gè)事件對(duì)應(yīng)一個(gè)標(biāo)識(shí)文件地址,當(dāng)FTP服務(wù)器上的標(biāo)

識(shí)文件生成的時(shí)候,我們認(rèn)為業(yè)務(wù)系統(tǒng)已經(jīng)完成作業(yè),

需要觸發(fā)平臺(tái)任務(wù)執(zhí)行。

"華佗"平臺(tái),實(shí)施任務(wù)診斷:

2c數(shù)的:61DE若委任務(wù)設(shè)計(jì)掰霰中心運(yùn)笫中心HJREe?RBWe系箍配百頻*W>,

2018-11-0117:10^4

比歷史早均/

££??a平白運(yùn)行徉禽

ApproSOtflAOBXJWGENiAfrttS

w*atior.l53201I-U-0117:1

工博

&?ttW9154924^0.107L,2018-11-0117:11^6SUCCHDED

W88?

wesai

^18-n-oi儂

2018-11-0117J2:26SUCCEEDED

LSB

Q施作日芯599707

4p|dic?tion.lS3

運(yùn)維&?申蕾2018-11-4117:2*0

91S4928300.102018-11-01X724^?6SUCaEDED

3:52ma日本

400325

?ppIkAtion.lSJ

#154928200.10鑿…聲—awSUCCEEDED

596129

4ppJlc<ition_153

2018-11-0117J口得

WM928200.10201S-110117^3>46SUCCHDED

3:19iXaEe

M01M

?ppiicMion_153^MWWt,?>W-

2018-11-0117:1

91MW8200.102018-11-011M?C05SUCCEEDED[JW?)gwiJu*

1:22*>?產(chǎn)?專(zhuān)

5965a、Cznisneng

&中icati8」,3

201B-11-0117il____________________

9154928200.10瑞“5x-2018-lt-Ol1721:53SUCCEEDED

4Q7Qg

立即觸發(fā)的任務(wù),放入DelayQueue的隊(duì)列頭部,周

期調(diào)度的任務(wù),使用Quartz,依賴(lài)觸發(fā)的任務(wù),使用

zk,各個(gè)子節(jié)點(diǎn)監(jiān)聽(tīng)自己的父節(jié)點(diǎn),所有父節(jié)點(diǎn)執(zhí)行完

畢則可觸發(fā)執(zhí)行

|實(shí)時(shí)平臺(tái)

美團(tuán)點(diǎn)評(píng)

^01ApacheFlink

監(jiān)控報(bào)警鏈路

日志指標(biāo)收集

蜿TL集中化

解析展示

多mT式防itM合工

監(jiān)控報(bào)詈o

ApacheFhnk中文學(xué)習(xí)網(wǎng)站:eEus:(二Zhj二92ng

OApachaFlickCommuAftyOwn*產(chǎn)*Q業(yè)用途

使用了Grafana,可以?xún)?nèi)嵌到自己的平臺(tái)。

bilibili

?SQL化編程

?DAG拖拽編程

?一體化托管運(yùn)維

實(shí)時(shí)平臺(tái)由實(shí)時(shí)傳輸和實(shí)時(shí)計(jì)算兩部分組成,平臺(tái)底層

統(tǒng)一管理元數(shù)據(jù)、血緣、權(quán)限以及作業(yè)運(yùn)維等。實(shí)時(shí)傳

輸主要負(fù)責(zé)將數(shù)據(jù)傳入到大數(shù)據(jù)體系中。實(shí)時(shí)計(jì)算基于

BSQL提供各種應(yīng)用場(chǎng)景支持。

如下圖所示,實(shí)時(shí)傳輸有APP日志、數(shù)據(jù)庫(kù)Binlog.

服務(wù)端日志或系統(tǒng)日志。bilibili內(nèi)部的Lancer?系統(tǒng)

解決數(shù)據(jù)落地到或計(jì)算體系主要圍繞

KafkaHDFSO

Saber構(gòu)建一套BSQL,底層基于YARN進(jìn)行調(diào)度管

理。

上層核心基于Flink構(gòu)建運(yùn)行池。再向上一層滿(mǎn)足多種

維表場(chǎng)景,包括MySQL、Redis、HBaseo狀態(tài)

(State)部分在RocksDB基礎(chǔ)上,還擴(kuò)展了

MapDB、RedisoFlink需要10密集是很麻煩的問(wèn)

題,因?yàn)镕link的資源調(diào)度體系內(nèi)有內(nèi)存和CPU,但

10單位未做統(tǒng)一管理。當(dāng)某一個(gè)作業(yè)對(duì)10有強(qiáng)烈的需

求時(shí),需要分配很多以CPU或內(nèi)存為單位的資源,目

未必能夠很好的滿(mǎn)足I。的擴(kuò)展。所以本質(zhì)上bilibili

現(xiàn)階段是將I。密集的資源的State轉(zhuǎn)移到Redis上

做緩解。數(shù)據(jù)經(jīng)過(guò)BSQL計(jì)算完成之后傳輸?shù)綄?shí)時(shí)數(shù)

倉(cāng),如Kafka.HBase.ES或MySQL、TiDBo最終

到AI或BL報(bào)表以及日志中心。

FLINK2

FORWARD*

平臺(tái)架構(gòu)

Theplatformarchitecture

zhisheng

場(chǎng)景

?AI工程方向,解決了廣告、搜索、推薦的流式Joiner和

維表Joiner

?實(shí)時(shí)計(jì)算的特征支持,支持Player以及CDN的質(zhì)量監(jiān)

控。包括直播、PCU、卡頓率、CDN質(zhì)量等;

?用戶(hù)增長(zhǎng),即如何借助實(shí)時(shí)計(jì)算進(jìn)行渠道分析、調(diào)整渠道

投放效果;

?實(shí)時(shí)ETL,包括Boss實(shí)時(shí)播報(bào)、實(shí)時(shí)大屏、看板等。

網(wǎng)易

目前網(wǎng)易流計(jì)算覆蓋了絕大多數(shù)場(chǎng)景,包括廣告、電商

大屏、ETL、數(shù)據(jù)分析、推薦、風(fēng)控、搜索、直播等。

事件管理

對(duì)于分布式平臺(tái)的任務(wù)操作而言,當(dāng)前任務(wù)啟動(dòng)過(guò)程中

只允許一個(gè)人操作,而不允許兩個(gè)人同時(shí)操作,這就需

要以下幾個(gè)模塊來(lái)共同配合:

?Server:事件執(zhí)行的發(fā)起者,接受事件的請(qǐng)求,進(jìn)行數(shù)據(jù)

校驗(yàn),拼裝,將事件發(fā)送給Kernel執(zhí)行。

?Kernel:事件具體邏輯的執(zhí)行者,根據(jù)請(qǐng)求向集群發(fā)送指

令(Shell腳本方式)。

?Admin:事件執(zhí)行結(jié)果的確認(rèn)者,根據(jù)事件類(lèi)型,獲取事

件的最終結(jié)果,保證結(jié)果的正確性。

FLINK飛

FORWARD^

事件管理

Eventmanagement

事件包括任務(wù)的啟動(dòng)和停止兩個(gè)操作,由Server.

Kernel,Admin三個(gè)模塊共同完成

Theeventincludestwooperationsoftaskstartandstop,

whicharecompletedbythreemodules:Server,Kerneland

Admin

Server:事件執(zhí)行的發(fā)起者.接受事件的請(qǐng)求,進(jìn)

行數(shù)據(jù)校驗(yàn).拼裝,將事件發(fā)送給kernel執(zhí)行

Server:Theinitiatorofeventexecution,acceptstherequest

oftheevent,performsdataverificationandassembly,and

sendstheeventtothekernelforexecution

Kernel:事件具體邏輯的執(zhí)行者,根據(jù)請(qǐng)求向集群

發(fā)送指令(shell腳本方式)

KernekTheexecutoroftheeventspecificlogic,sends

instructionstotheclusteraccordingtotherequest(shell

scriptmode)

Admin事件執(zhí)行結(jié)果的確認(rèn)者,根據(jù)事件類(lèi)型,

獲取事件的最終結(jié)果.保證結(jié)果的正確性

AdminTheconfirmeroftheeventexecutionresult,obtains

thefinalresultoftheeventaccordingtotheeventtypeto

ensurethecorrectnessoftheresult

以啟動(dòng)場(chǎng)景為例:

首先,Server會(huì)接收到來(lái)自用戶(hù)的啟動(dòng)請(qǐng)求,之后會(huì)

創(chuàng)建一個(gè)分布式鎖,Admin會(huì)監(jiān)控這個(gè)鎖。

然后,Server向Kernel提交任務(wù),提交之后會(huì)立即

返回,返回之后就會(huì)立即更新數(shù)據(jù)庫(kù)中的狀態(tài),將狀態(tài)

更新為啟動(dòng)中,這樣在頁(yè)面上用戶(hù)就能夠看到任務(wù)是啟

動(dòng)中的狀態(tài)了。

接下來(lái),Server就會(huì)等待內(nèi)核的Shell腳本的執(zhí)行結(jié)

果,如果Shell腳本執(zhí)行成功了,就會(huì)去寫(xiě)

Zookeeper,寫(xiě)完Zookeeper之后Admin模塊就

會(huì)馬上檢測(cè)到Zookeeper節(jié)點(diǎn)有狀態(tài)發(fā)生了修改,

Admin會(huì)立即去獲取YARN上的任務(wù)狀態(tài),如果獲取

到任務(wù)狀態(tài)是運(yùn)行中,就將數(shù)據(jù)庫(kù)的任務(wù)狀態(tài)更新為運(yùn)

行中,這會(huì)在前端看到任務(wù)就已經(jīng)是運(yùn)行狀態(tài)了。

最后一步是Admin更為完數(shù)據(jù)庫(kù)之后,會(huì)釋放掉

Zookeeper上的鎖,其他人這時(shí)候就可以操作這個(gè)任

務(wù)了。

Server.Kernel和Admin這三個(gè)模塊都是不可靠

的,那么如何保證其穩(wěn)定和高可用呢?Server可以通

過(guò)部署多個(gè),水平擴(kuò)展來(lái)實(shí)現(xiàn),Kernel則會(huì)由Server

來(lái)進(jìn)行監(jiān)聽(tīng),當(dāng)發(fā)現(xiàn)Kernel掛了,可以由Server重

新拉起或者重新創(chuàng)建。而Admin的高可用則是通過(guò)熱

備來(lái)實(shí)現(xiàn)的,如果主Admin掛掉了,可以馬上遷移到

備Admin,備Admin可以迅速將元數(shù)據(jù)以及任務(wù)信

息全部加載進(jìn)來(lái)接替工作,進(jìn)而實(shí)現(xiàn)高可用。

平臺(tái)任務(wù)狀態(tài)管理

平臺(tái)的任務(wù)狀態(tài)主要由Server和Admin來(lái)控制。

Server主要控制初始狀態(tài)的執(zhí)行,Admin則主要負(fù)責(zé)

控制所有與YARN相關(guān)的狀態(tài)交互。

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論