數(shù)據(jù)治理實踐_第1頁
數(shù)據(jù)治理實踐_第2頁
數(shù)據(jù)治理實踐_第3頁
數(shù)據(jù)治理實踐_第4頁
數(shù)據(jù)治理實踐_第5頁
已閱讀5頁,還剩16頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

數(shù)據(jù)治理實踐

導讀:

本文主要介紹數(shù)據(jù)治理的歷程和實踐經(jīng)驗,以及業(yè)務(wù)發(fā)展各個階段中

數(shù)據(jù)體系遇到的問題和解決方案。最后,將探討數(shù)據(jù)治理在現(xiàn)階段的建設(shè)思

路和發(fā)展方向。

一、背景介紹

數(shù)據(jù)治理這個話題這兩年非常火熱,很多公司尤其大型互聯(lián)網(wǎng)公司都

在做一些數(shù)據(jù)治理的規(guī)劃和動作。為什么大家都要做數(shù)據(jù)治理?我個人的

理解是,從數(shù)據(jù)產(chǎn)生、采集、生產(chǎn)、存儲、應(yīng)用到銷毀的全過程中,可能在

各環(huán)節(jié)中引入各種問題。初始發(fā)展階段,這些數(shù)據(jù)問題對我們的影響不大,

大家對問題的容忍度比較高。但是,隨著業(yè)務(wù)發(fā)展數(shù)據(jù)質(zhì)量和穩(wěn)定性要求提

升,并且數(shù)據(jù)積累得越來越多,我們對一些數(shù)據(jù)的精細化要求也越來越高,

就會逐漸發(fā)現(xiàn)有很多問題需要治理。數(shù)據(jù)開發(fā)過程中會不斷引入一些問題,

而數(shù)據(jù)治理就是要不斷消除引入的問題,以高質(zhì)量、高可用、高安全的方式

為業(yè)務(wù)提供數(shù)據(jù)。

為什么要做數(shù)據(jù)治理?

數(shù)據(jù)開發(fā)

產(chǎn)生問題

1.需要治理哪些問題

數(shù)據(jù)治理過程中哪些問題需要治理?總結(jié)了有五大類問題。

需要治理哪些問題?

數(shù)據(jù)常見問題

?數(shù)據(jù)質(zhì)量

?標準規(guī)范

?成本控制

?數(shù)據(jù)安全

?研發(fā)及管理效率

?質(zhì)量問題,是最重要的問題,很多公司數(shù)據(jù)部門或者業(yè)務(wù)線組做數(shù)據(jù)

治理的一個大背景就是數(shù)據(jù)質(zhì)量存在很多問題,比如數(shù)倉的及時性、

準確性、一致性、規(guī)范性和數(shù)據(jù)應(yīng)用指標的邏輯一致性問題。

?成本問題,互聯(lián)網(wǎng)行業(yè)數(shù)據(jù)膨脹速度非??欤笮突ヂ?lián)網(wǎng)公司在大數(shù)

據(jù)基礎(chǔ)設(shè)施上的成本投入占比非常高,而且隨著數(shù)據(jù)量的增加成本也

將繼續(xù)攀升。

?安全問題,尤其是業(yè)務(wù)特別關(guān)注的用戶類數(shù)據(jù),一旦泄露,對業(yè)務(wù)的

影響非常大,甚至能影響整個業(yè)務(wù)的生死。

?標準化問題,當公司業(yè)務(wù)部門比較多的時候,各業(yè)務(wù)部門、開發(fā)團隊

的數(shù)據(jù)標準不一致,在數(shù)據(jù)打通和整合過程中會出現(xiàn)很多問題。

?效率問題,在數(shù)據(jù)開發(fā)和數(shù)據(jù)管理過程中都會遇到一些效率低的問題,

很多時候是靠堆人力在做。

2.數(shù)據(jù)現(xiàn)狀

從2014年成立為獨立業(yè)務(wù)部門,到2018年成為國內(nèi)重要的在線預(yù)訂

平臺,業(yè)務(wù)發(fā)展速度比較快,數(shù)據(jù)增長速度也非常快。2017到2018兩年

里,生產(chǎn)任務(wù)數(shù)以每年超過一倍的速度增長,數(shù)據(jù)量的增長速度每年兩倍多。

如果不做治理,按指數(shù)級增長趨勢,未來數(shù)據(jù)生產(chǎn)任務(wù)的復雜性還是成本負

擔都非常大。

針對我們當時面臨的情況,總結(jié)了五大類問題:

?標準化的規(guī)范缺失,開始建設(shè)的時候業(yè)務(wù)發(fā)展非???,但多個業(yè)務(wù)線

之間的標準化和規(guī)范化建設(shè)都只是以規(guī)范文檔的形式存在,每個人的

理解不一致,導致多個研發(fā)同學開發(fā)出來的數(shù)據(jù)標準就很難達到一致。

?數(shù)據(jù)質(zhì)量問題比較多,突出在幾個方面,第一個是數(shù)據(jù)冗余很多,從

數(shù)據(jù)任務(wù)增長的速度來看,新上線人多,下線任務(wù)少,數(shù)據(jù)表的生命

周期控制較少。第二個是在數(shù)據(jù)建設(shè)過程中很多應(yīng)用層數(shù)據(jù)都是煙囪

式建設(shè),很多指標口徑?jīng)]有統(tǒng)一的管理規(guī)范,數(shù)據(jù)一致性無法保證。

.成本增長非??欤谀承I(yè)務(wù)線大數(shù)據(jù)存儲和計算資源的機器費用占

比已經(jīng)超過了35%,如果不加以控制,大數(shù)據(jù)成本費用只會越來越

iWlo

?數(shù)據(jù)安全的控制,各業(yè)務(wù)線之間可以共用的數(shù)據(jù)比較多,而且每個業(yè)

務(wù)線沒有統(tǒng)一的數(shù)據(jù)權(quán)限管理。

?數(shù)據(jù)管理和運維效率低,數(shù)據(jù)使用和咨詢多,數(shù)據(jù)RD需要花費大量

時間解答業(yè)務(wù)用戶的問題。

二、治理實踐

2018年以前數(shù)據(jù)組也做過數(shù)據(jù)治理,從數(shù)倉建模、指標管理和應(yīng)用上

做優(yōu)化和流程規(guī)范,當時沒有做體系化的數(shù)據(jù)治理規(guī)劃。從2018年以后我

們基于上面提到的五個問題,我們做了一個整體的數(shù)據(jù)治理策略。

我們把數(shù)據(jù)治理的內(nèi)容劃分為幾大部分:組織、標準規(guī)范、技術(shù)、衡量

指標。整體數(shù)據(jù)治理的實現(xiàn)路徑是以標準化的規(guī)范和組織保障為前提,通過

做技術(shù)體系整體保證數(shù)據(jù)治理策略的實現(xiàn)。同時會做數(shù)據(jù)治理的衡量體系,

隨時觀測和監(jiān)控數(shù)據(jù)治理的效果,保障數(shù)據(jù)治理長期向好發(fā)展。

數(shù)據(jù)治理策略

數(shù)據(jù)治理的內(nèi)容數(shù)據(jù)治理的實現(xiàn)路徑

標準化規(guī)范及組織保障

技術(shù)體系

陸a淺,■成小■支主

元數(shù)據(jù)

衡量指標

1.標準化和組織保障

每個公司在做數(shù)據(jù)治理時都會提到標準化,我們總體思路也沒有太大

區(qū)別。數(shù)據(jù)標準化包括三個方面:第一是標準制定,第二是標準執(zhí)行,第三

是在標準制定和執(zhí)行過程中的組織保障,比如怎么讓標準能在數(shù)據(jù)技術(shù)部

門、業(yè)務(wù)部門和相關(guān)商業(yè)分析部門統(tǒng)一。

標準化及組織保障

制定數(shù)據(jù)管理委員會

標準化,1

執(zhí)行組織

產(chǎn)

業(yè)

務(wù)

數(shù)

業(yè)

據(jù)

發(fā)

全鏈路數(shù)據(jù)標準化建設(shè)運

S團

?數(shù)據(jù)采集部

?數(shù)倉開發(fā)

?指標管理

業(yè)務(wù)部門技術(shù)團隊

?數(shù)據(jù)應(yīng)用

?數(shù)據(jù)生命周期管理

從標準制定上,我們制定了一個全鏈路的數(shù)據(jù)標準方法,從數(shù)據(jù)采集、

數(shù)倉開發(fā)、指標管理到數(shù)據(jù)生命周期管理建立了很多標準,在標準化建立過

程中聯(lián)合組建了一個業(yè)務(wù)部門的數(shù)據(jù)管理委員會。管理委員會是一個虛擬

的組織,主要組成是技術(shù)部門和業(yè)務(wù)部門,技術(shù)部門是業(yè)務(wù)數(shù)據(jù)的開發(fā)團隊,

業(yè)務(wù)部門是業(yè)務(wù)數(shù)據(jù)的產(chǎn)品團隊,這兩個團隊作為實現(xiàn)的負責人,各自對接

技術(shù)團隊和業(yè)務(wù)團隊,比如技術(shù)團隊負責協(xié)調(diào)后臺開發(fā)團隊、大數(shù)據(jù)平臺團

隊、數(shù)據(jù)分析系統(tǒng)團隊等。業(yè)務(wù)則會協(xié)調(diào)商業(yè)分析、產(chǎn)品運營和一些業(yè)務(wù)部

門。業(yè)務(wù)各個部門分別出人把數(shù)據(jù)管理委員會運行起來,為標準制定、執(zhí)行

提供組織保障。讓大家對標準化制定能有更加統(tǒng)一的認知,執(zhí)行過程阻力也

更小,還能定期在組織內(nèi)同步信息。

2.技術(shù)體系

在執(zhí)行過程中也不希望完全通過人力和組織來推動達成,總體希望以

一些自動化的方式進行。下面介紹一下我們的技術(shù)體系。

①數(shù)據(jù)質(zhì)量,數(shù)據(jù)質(zhì)量是數(shù)據(jù)質(zhì)量中最重要的一個問題,現(xiàn)在數(shù)據(jù)治理的

大部分問題都屬于數(shù)據(jù)質(zhì)量。這里有四大問題:

.數(shù)據(jù)倉庫的綜合性比較差,雖然有一些規(guī)范文檔,但更依賴個人理解

去執(zhí)行。

?數(shù)據(jù)一致性問題多,主要表現(xiàn)在數(shù)據(jù)指標的管理上。指標管理以前在

文檔中定義指標,沒有系統(tǒng)化的統(tǒng)一管理邏輯和查詢邏輯。

?數(shù)據(jù)應(yīng)用非常多,使用數(shù)據(jù)的方式包括數(shù)據(jù)表同步、接口消息推送、

OLAP引擎查詢等,不能保證數(shù)據(jù)應(yīng)用端的數(shù)據(jù)一致性。

.產(chǎn)品非常多,業(yè)務(wù)數(shù)據(jù)產(chǎn)品入口有十多個,沒有統(tǒng)一的入口,也沒有

人對這些產(chǎn)品統(tǒng)一把關(guān),導致數(shù)據(jù)應(yīng)用和使用方式有很多分歧。

我們的技術(shù)實現(xiàn)方式是為了解決上面這四大類質(zhì)量問題,首先在數(shù)據(jù)倉庫

規(guī)范性上進行統(tǒng)一,然后統(tǒng)一指標邏輯,在此之上統(tǒng)一數(shù)據(jù)服務(wù)接口,最后

在產(chǎn)品上統(tǒng)一用戶產(chǎn)品入口。從這四大方向?qū)⒊R姷臄?shù)據(jù)質(zhì)量問題管控起

來,具體技術(shù)實現(xiàn)方式如下。

數(shù)據(jù)質(zhì)量

技術(shù)實現(xiàn)

常見問題

?數(shù)倉規(guī)范性基

-數(shù)據(jù)一致性何息多

?數(shù)據(jù)應(yīng)用無法把控

?多個產(chǎn)品中指標邏輯不同

數(shù)倉建模規(guī)范

統(tǒng)一數(shù)倉建模規(guī)范分三大部分實現(xiàn),以前我們只有事前的一些標準化

規(guī)范,大家按自己的理解去建模實現(xiàn)。在這個基礎(chǔ)上增加了事中和事后兩個

部分,針對事中開發(fā)了系統(tǒng)化工具,做數(shù)倉配置化開發(fā)。事后做規(guī)則化驗證。

事前會有標準化文檔給大家提前理解、宣貫,事中很多標準化的事項會通過

配置化自動約束規(guī)范,事后會有上線時的檢驗和上線后每周定期檢驗,檢驗

數(shù)據(jù)倉庫的建模規(guī)范是否符合標準,把不符合標準的及時提示出來、及時改

進。

統(tǒng)一數(shù)倉規(guī)范建模

事中|事后

I事前II

I標」化夜范I髭般化開發(fā)|規(guī)則?化驗證!

模型設(shè)計規(guī)范模型開發(fā)工具數(shù)倉規(guī)范監(jiān)控

?收倉分層和主題?模里多砒信息?數(shù)倉分層

?命名、矣契、詞根?抬倉主愿和分層?敬搪血緣

?公共維度、關(guān)取關(guān)系?E"代碼生成?數(shù)倉相似度

模能開發(fā)規(guī)范命名規(guī)則工具數(shù)倉規(guī)范報告

?開發(fā)流程

?模型命名標準化?數(shù)倉規(guī)范報告

?代碼編寫

?自瑞命名標用化?數(shù)相冗余報告

?注釋信息

上線規(guī)則監(jiān)測工具

?效倉規(guī)范性監(jiān)測

?依據(jù)依賴監(jiān)測

事前的標準化規(guī)范幾個方向,第一是數(shù)據(jù)倉庫的設(shè)計規(guī)范,在做一個新

業(yè)務(wù)或模塊之前,以文檔形式做一些設(shè)計規(guī)范。第二是開發(fā)規(guī)范,包括一些

開發(fā)流程、代碼編寫規(guī)范和注釋信息。

這些形成之后還想在事中以系統(tǒng)化的方式進行控制,保證不會因為每

個人的不同理解而對數(shù)倉的規(guī)范化構(gòu)成影響。這里主要包含三部分工具:

?模型開發(fā)過程中的開發(fā)工具,主要控制模型的基礎(chǔ)信息、數(shù)倉主題和

分層以及ETL代碼生成。

?命名規(guī)范工具,針對模型、表、字段、指標建了很多一些規(guī)范化的系

統(tǒng)實現(xiàn),控制這些命名的標準化。

?上線規(guī)則監(jiān)控工具,上線過程中會監(jiān)控一些數(shù)據(jù)規(guī)范,還有一些性能

監(jiān)控,有問題會及時發(fā)現(xiàn)。

事后會定期監(jiān)控,生成報告來看每個業(yè)務(wù)線、每個組、具體每個人的數(shù)

倉規(guī)范性情況。

對于具體的實現(xiàn)方案,我舉一個簡單的例子,一個數(shù)倉開發(fā)配置化的命

名規(guī)范工具。我們工具的實質(zhì)還是從規(guī)范化、標準化再到工具化,所以在前

期做了一些規(guī)范化、標準化,在通過工具化把標準化和規(guī)范化通過系統(tǒng)實現(xiàn),

有了工具之后,比如人在數(shù)倉時,都會統(tǒng)一按相同的方式來命名,即便在幾

千個ETL里都有這個字段也能非??斓剡M行定位。命名工具和數(shù)倉建模ETL

工具也進行了打通,命名審核通過后,直接點擊就能在ETL工具的平臺中

生成一段代碼,只需要將查詢邏輯補充進去就可以了。這樣就達到了控制數(shù)

倉命名規(guī)范的目的。

數(shù)倉開發(fā)配置化-命名規(guī)范工具

險財:(時間周期詞卜[修飾詞卜字段描述詞+ouj

揚康畬名概財:【閭」修飾詞卜字段描述詞?[后媚/度■卜[時間周期同j

英文詞根

近義同修

n丁

同電車

08英文修飾一

統(tǒng)一指標管理系統(tǒng)

指標在數(shù)倉中非常重要,所有數(shù)據(jù)應(yīng)用都是以指標方式使用的。指標管

理系統(tǒng)化主要做了流程管理標準化、指標定義標準化和指標使用標準化。系

統(tǒng)化分三層,第一層是物理表管理,第二層是模型管理,第三層是指標管理,

這些信息在元數(shù)據(jù)管理中統(tǒng)一進行。

統(tǒng)一指標管理系統(tǒng)

1.標準化

?流程管理標準化

?指標定義標準化

?指標使用標準化

2.系統(tǒng)化

?指標僖息管理系統(tǒng)化

?查詢解析系統(tǒng)化

?元數(shù)據(jù)管理系統(tǒng)化

統(tǒng)一規(guī)范只是指標管理的第一步,除了指標管理外,所有數(shù)據(jù)應(yīng)用還能

通過這個工具查詢數(shù)據(jù)。具體做法,一個應(yīng)用無非要查詢兩種數(shù)據(jù),一是維

度,二是指標。在查詢指標時,可能會有一些維度限制條件。在指標管理模

塊中通過指定指標定位到數(shù)倉模型,了解指標的獲取方式(是sum還是

count等)。相應(yīng)的數(shù)倉模型可是能是星型模型、寬表、循環(huán)模型,從模型

中解析出對應(yīng)的底層物理表。解析后,結(jié)合指標、維度和篩選條件,經(jīng)過不

同的存儲引擎,解析成不同的查詢語句。這樣控制好數(shù)據(jù)指標管理之后,數(shù)

據(jù)應(yīng)用可以通過指標管理模塊獲得一致性的解析。

指標一致性查詢

數(shù)據(jù)應(yīng)用

統(tǒng)一數(shù)據(jù)服務(wù)

我們的數(shù)據(jù)被很多下游系統(tǒng)使用,比如數(shù)據(jù)產(chǎn)品、業(yè)務(wù)系統(tǒng)、運營系統(tǒng)、

管理系統(tǒng)等。有些下游既需要我們提供數(shù)據(jù)表,還要提供接口,但數(shù)據(jù)組開

發(fā)和維護后臺接口難度較大,而且接口提供后很難把控數(shù)據(jù)的用途。所以我

們做了一個統(tǒng)一的數(shù)據(jù)服務(wù)平臺。平臺目標是提高效率、提高數(shù)據(jù)準確性、

提供數(shù)據(jù)監(jiān)控、將整個數(shù)據(jù)倉庫和數(shù)據(jù)應(yīng)用鏈路打通。提供的方式有兩種,

一種是對于B端應(yīng)用,提供按需使用,每天提供幾萬次的調(diào)用額度;一種

是對于C端,通過推送的方式,比如每天推送一次最新數(shù)據(jù)。以推和拉兩

種方式保證服務(wù)功能的全面性,具體實現(xiàn),大家可以參考下圖:

統(tǒng)一數(shù)據(jù)服務(wù)平臺

敷據(jù)應(yīng)用方

的售工作臺商家后臺運法索燒

應(yīng)用

數(shù)據(jù)服務(wù)平臺-Buffalo

at-

Kii?Hj

統(tǒng)一依據(jù)服務(wù)平臺

[

低據(jù)倉庫

數(shù)據(jù)倉庫

分為幾大層次:

?導入層。

?存儲層,數(shù)據(jù)根據(jù)不同的使用場景會有很多種不同的存儲方式,比如

根據(jù)條件查詢一條數(shù)據(jù)的情況KV最合適,一些對定性條件要求很高

的簡單匯總用MySQL,一些數(shù)據(jù)量非常大但頻率低的用OLAP引擎。

?服務(wù)層,對存儲引擎查詢進行一些封裝。

?控制層,進行權(quán)限管理、參數(shù)校驗和業(yè)務(wù)資源隔離。

?接口層,提供不同的查詢方式,如聚合查詢、KV查詢、詳情杳詢和

分組查詢。

統(tǒng)一用戶產(chǎn)品入口

因為數(shù)據(jù)入口非常多,我們又做了一個數(shù)據(jù)入口的統(tǒng)一,分成三大類:

?管理者和商業(yè)分析使用的分析決策產(chǎn)品

?業(yè)務(wù)銷售運營用的業(yè)務(wù)銷售數(shù)據(jù)產(chǎn)品

?數(shù)據(jù)資產(chǎn)管理產(chǎn)品

通過這種方式,某一類用戶只需要在一類入口里訪問一類產(chǎn)品,不會出

現(xiàn)同一類產(chǎn)品中的數(shù)據(jù)不一致。我們又通過數(shù)據(jù)倉庫的統(tǒng)一建模、數(shù)據(jù)指標

管理保證了三大類底層數(shù)據(jù)集市的一致,從而保證了所有數(shù)據(jù)的一致性。

統(tǒng)一用戶產(chǎn)品入口

整體系統(tǒng)架構(gòu)

整體的技術(shù)架構(gòu)分為三層,從統(tǒng)一數(shù)據(jù)建模到統(tǒng)一指標邏輯、統(tǒng)一數(shù)據(jù)

服務(wù)和統(tǒng)一產(chǎn)品入口,整體保障了數(shù)據(jù)的質(zhì)量,同時配合數(shù)據(jù)管理的組織保

障體系和流程規(guī)范,將整體數(shù)據(jù)質(zhì)量相關(guān)的架構(gòu)搭建起來。

整體系統(tǒng)架構(gòu)

②數(shù)據(jù)運營效率

作為數(shù)據(jù)提供方,我們有很多數(shù)據(jù)資產(chǎn),但數(shù)據(jù)使用方能不能快速找到、

找到怎么用、有哪些數(shù)據(jù),有三大類問題:

?找不到,不知道數(shù)據(jù)有沒有、在哪里。

?看不懂,有很多業(yè)務(wù)方不是技術(shù)研發(fā)團隊的,看不懂數(shù)據(jù)到底什么含

義、怎么關(guān)聯(lián)查詢、來源于哪個業(yè)務(wù)系統(tǒng)。

?不會用,如何寫SQL或者哪些產(chǎn)品里面能查詢到自己想要的數(shù)據(jù)指

標。

基于此有三大目標:找得到、看得懂、用得對。為了提效,我們選用一

些智能化系統(tǒng)代替人工。對于運營相關(guān)的數(shù)據(jù)問題,先提供系統(tǒng)化的數(shù)據(jù)指

南。該指南包含三大類信息:指標類、數(shù)倉模型、推薦使用方式。這個方式

能解決可能60%的問題,剩下的40%再通過答疑機器人,用一些機器的方

式替人回答問題,這又能解決其中60%的問題。最后還有一些還是沒找到

的,落到人工答疑環(huán)節(jié)就非常少了,通過自動化把需要人工做的事情降到原

來的20%以下。

數(shù)據(jù)運營效率-解決思路

用戶

具體的實現(xiàn)方式,針對數(shù)據(jù)使用指南做了一個系統(tǒng),把指標元數(shù)據(jù)、

維度元數(shù)據(jù)、數(shù)據(jù)表和各種產(chǎn)品元數(shù)據(jù)等管理起來。用戶從入口查詢能夠

快速定位,支持分類檢索和重點詞檢索,還會提供排序進行重點推薦,對

每一個主題數(shù)據(jù)分類描述。通過數(shù)據(jù)指南能解決很多問題,不能解決的就

進入答疑機器人系統(tǒng),這里主要解決一些元數(shù)據(jù)里沒有的問題。我們?nèi)粘?/p>

通訊工具上會有問答,把這些問題和答案總結(jié)成一個知識庫,進行清洗和

規(guī)則匹配。對這類問答的解析成一個問題對應(yīng)一個答案,通過一些規(guī)則和

關(guān)鍵字匹配后存起來。之后再查的時候只輸入一個問題時,根據(jù)這個解析

出來他想問的可能有幾個問題,將這幾個答案拋給他。

數(shù)據(jù)運營系統(tǒng)化

平臺元數(shù)據(jù)數(shù)據(jù)問題和答疑知識庫

③數(shù)據(jù)成本

業(yè)務(wù)的數(shù)據(jù)成本也很大,每一年的數(shù)據(jù)存儲、計算相關(guān)的成本增長非常

快。目前大概的比例是70%的計算成本、20%是存儲成本、10%為采集日

志。針對這三大類,我們也分別做了一些數(shù)據(jù)成本治理的方案。

數(shù)據(jù)成本

成本治理分類成本精細化拆分

大數(shù)據(jù)資源成本占比

無效任務(wù)治現(xiàn)

超長任務(wù)優(yōu)化

計算

提高資源滿用窣

資源統(tǒng)一曾理

?冷被據(jù)治理

?復數(shù)據(jù)管理

存儲St

?數(shù)據(jù)生命周期管理

?存儲格式壓樵

日志下的應(yīng)用監(jiān)控

日志?

?日志上接方式優(yōu)化

采集

?無效埋點優(yōu)化

-HJI?存儲日本采集

針對計算類,主要做了如下事情:

?無效任務(wù)治理

.超長任務(wù)優(yōu)化

?提高資源滿用率

?資源統(tǒng)一管理

針對存儲類:

?冷數(shù)據(jù)治理

?重復數(shù)據(jù)治理

?數(shù)據(jù)生命周期管理

?存儲格式壓縮

日志采集類:

?日志下游應(yīng)用監(jiān)控

.日志上報方式優(yōu)化

?無效埋點優(yōu)化

整體的方案策略方面做了精細化拆分,比如按租戶(每個業(yè)務(wù)線的用戶)

來看,租戶下有隊列,隊列有離線、有實時。隊列下面有計算、存儲、采集,

計算之中又分離線、實時,有些配置量、使用量。這樣可以非常容易地定位

到哪些租戶、哪些數(shù)倉是有問題的,對應(yīng)快速治理。

這方面也做了很多系統(tǒng)化的事情,比如有一個數(shù)據(jù)冗余判斷的邏輯,每

次做完數(shù)倉建模之后,會做冗余判斷。元數(shù)據(jù)生成之后進行預(yù)處理,根據(jù)現(xiàn)

有的數(shù)據(jù)做預(yù)判,看是否已存在。通過配置的對比邏輯,如果認為數(shù)據(jù)重復,

會做標記并每周推送到數(shù)據(jù)治理的看板上,及時將冗余數(shù)據(jù)治理掉。

④數(shù)據(jù)安全

數(shù)據(jù)安全我們是以事前預(yù)防、事中監(jiān)控、事后追蹤三個方式來進行的。

實踐經(jīng)驗上,通過三層系統(tǒng)控制加五個使用原則實現(xiàn)。從數(shù)據(jù)產(chǎn)生的源頭業(yè)

務(wù)系統(tǒng)里就會將一些非常敏感的用戶數(shù)據(jù)加密,數(shù)據(jù)倉庫層會對各分層的

數(shù)據(jù)進行脫敏和二次加密,第三層專門做一些數(shù)據(jù)審計,在數(shù)據(jù)使用全流程

中提供信息提示和審計報告。

安全規(guī)范及系統(tǒng)實現(xiàn)

三層系統(tǒng)控制+五個使用原則

依據(jù)使用展

全程監(jiān)控審計數(shù)據(jù)使用原則

?密文傳嫡原則

??晚壽原則

數(shù)據(jù)存儲層??小范圍提取原則

分居脫壁加及

?■少授權(quán)原則

?全程審計原則

依據(jù)源頭展

生成過程加史

數(shù)據(jù)使用過程中應(yīng)當遵循的五個原則:

?密文處置原則,所有高敏感的數(shù)據(jù)都要密文傳輸。

?最晚解密原則,在應(yīng)用層產(chǎn)品使用的話,不要在數(shù)據(jù)倉庫層解密。

?最小范圍提取原則,如果只用一萬條數(shù)據(jù)只能對一萬條數(shù)據(jù)解密。

?最小授權(quán)原則,用多少給多少。

?全程

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論