傳媒數(shù)據(jù)治理建設(shè)實(shí)踐_第1頁(yè)
傳媒數(shù)據(jù)治理建設(shè)實(shí)踐_第2頁(yè)
傳媒數(shù)據(jù)治理建設(shè)實(shí)踐_第3頁(yè)
傳媒數(shù)據(jù)治理建設(shè)實(shí)踐_第4頁(yè)
傳媒數(shù)據(jù)治理建設(shè)實(shí)踐_第5頁(yè)
已閱讀5頁(yè),還剩11頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

傳媒數(shù)據(jù)治理建設(shè)實(shí)踐1業(yè)務(wù)介紹1.1業(yè)務(wù)介紹首先介紹下傳媒的業(yè)務(wù),網(wǎng)易是從新聞門(mén)戶(hù)起家,從門(mén)戶(hù)網(wǎng)站到新聞客戶(hù)端,我們的目標(biāo)是讓用戶(hù)在短時(shí)間內(nèi),去中心化的獲取內(nèi)容信息。整體的業(yè)務(wù)流程是,內(nèi)容生產(chǎn)者生產(chǎn)內(nèi)容、平臺(tái)分發(fā)、用戶(hù)消費(fèi)。在這個(gè)過(guò)程中,我們大數(shù)據(jù)團(tuán)隊(duì)是工作職責(zé)是:支撐業(yè)務(wù)運(yùn)營(yíng)日?qǐng)?bào)等核心數(shù)據(jù)報(bào)告產(chǎn)出、支撐AB實(shí)驗(yàn)平臺(tái)、運(yùn)營(yíng)平臺(tái)、渠道分析等各個(gè)系統(tǒng)的數(shù)據(jù)產(chǎn)出、提供個(gè)性化自助報(bào)表以及數(shù)據(jù)多維分析服務(wù)、客戶(hù)端埋點(diǎn)數(shù)據(jù)采集以及埋點(diǎn)規(guī)范化建設(shè)等。1.2數(shù)據(jù)架構(gòu)我們的數(shù)據(jù)架構(gòu)體系,整體可分為4層,從下到上分別是數(shù)據(jù)接入層、數(shù)據(jù)計(jì)算層、數(shù)據(jù)服務(wù)層、數(shù)據(jù)應(yīng)用層。數(shù)據(jù)接入層:將業(yè)務(wù)數(shù)據(jù)庫(kù)的數(shù)據(jù)(內(nèi)容生產(chǎn)數(shù)據(jù)、用戶(hù)信息、網(wǎng)易號(hào)信息等)、公司數(shù)據(jù)(用戶(hù)畫(huà)像、渠道數(shù)據(jù)等)、客戶(hù)端日志、服務(wù)端日志等結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù),統(tǒng)一接入數(shù)倉(cāng)。數(shù)據(jù)計(jì)算層:目前是Lambda架構(gòu),離線計(jì)算和實(shí)時(shí)計(jì)算分離。離線側(cè)技術(shù)選型主要是SparkonHive。實(shí)時(shí)側(cè)技術(shù)選型主要是Flink。離線和實(shí)時(shí)數(shù)倉(cāng)分層統(tǒng)一,從下到上分為ODS層、DWD層、DWS層和APP層。數(shù)據(jù)服務(wù)層:數(shù)據(jù)服務(wù)層包括2部分,一部分是工具層的數(shù)據(jù)存儲(chǔ),主要包括:有數(shù)MPP數(shù)據(jù)庫(kù)、ClickHouse、HBase、MySQL、Redis等,把數(shù)據(jù)計(jì)算層產(chǎn)生的面向分析主題建設(shè)的寬表明細(xì)和匯總數(shù)據(jù)、維度主數(shù)據(jù)等數(shù)據(jù)集輸出到對(duì)應(yīng)的數(shù)據(jù)容器存儲(chǔ)。另一部分是數(shù)據(jù)標(biāo)準(zhǔn)服務(wù),我們會(huì)把數(shù)據(jù)庫(kù)中的數(shù)據(jù),通過(guò)統(tǒng)一的API接口平臺(tái)對(duì)外提供,滿(mǎn)足各類(lèi)取數(shù)需求。在數(shù)據(jù)服務(wù)層,標(biāo)準(zhǔn)化、統(tǒng)一化了數(shù)據(jù)輸出。數(shù)據(jù)應(yīng)用層:一塊兒是內(nèi)部業(yè)務(wù)數(shù)據(jù)應(yīng)用,主要包括有數(shù)BI自助取數(shù)工具,管理層日?qǐng)?bào)、推薦數(shù)字化、編輯考核等數(shù)據(jù)產(chǎn)品;另一塊兒是外部團(tuán)隊(duì)數(shù)據(jù)應(yīng)用,主要包括算法特征底層數(shù)據(jù)、新聞熱榜APP端數(shù)據(jù)、網(wǎng)易號(hào)薪資結(jié)算系統(tǒng)數(shù)據(jù)支持等。2數(shù)倉(cāng)建設(shè)演進(jìn)2.1數(shù)倉(cāng)1.0~2.0數(shù)倉(cāng)1.0,也就是15年之前。當(dāng)時(shí)的背景是,公司業(yè)務(wù)還處在門(mén)戶(hù)資訊的階段,內(nèi)容形式單一,以文章、圖文為主,數(shù)據(jù)豐富度低、數(shù)據(jù)量級(jí)小。數(shù)據(jù)需求以面向公司整體運(yùn)營(yíng)的數(shù)據(jù)報(bào)表為主。當(dāng)時(shí)沒(méi)有數(shù)據(jù)團(tuán)隊(duì),所有數(shù)據(jù)需求統(tǒng)一由平臺(tái)組支撐。隨著公司業(yè)務(wù)發(fā)展,從門(mén)戶(hù)向泛資訊轉(zhuǎn)型的過(guò)程中,內(nèi)容載體不僅僅是文章、圖文,陸續(xù)引入了視頻、直播等新的載體;內(nèi)容生產(chǎn)方也不僅僅是編輯老師,又引入了PGC和UGC,內(nèi)容生產(chǎn)多元化。平臺(tái)運(yùn)營(yíng)也朝著精細(xì)化發(fā)展,逐步衍生出了內(nèi)容運(yùn)營(yíng)平臺(tái)、編輯考核平臺(tái)等平臺(tái),數(shù)據(jù)需求得不到及時(shí)響應(yīng)。另一方面,數(shù)據(jù)統(tǒng)計(jì)邏輯也大多在app層,沒(méi)有在底層統(tǒng)一收口,導(dǎo)致數(shù)據(jù)口徑不統(tǒng)一,對(duì)數(shù)、問(wèn)題排查成本極高。

由此,我們開(kāi)啟了數(shù)倉(cāng)2.0,從0到1搭建數(shù)據(jù)團(tuán)隊(duì)。數(shù)倉(cāng)建模,采用維度建模的方法,自下而上進(jìn)行數(shù)據(jù)建設(shè),以高效支持業(yè)務(wù)需求為目的。取得如下效果,確定了清晰的數(shù)據(jù)分層,面向業(yè)務(wù)過(guò)程的數(shù)倉(cāng)主題;統(tǒng)計(jì)邏輯,底層標(biāo)簽化,影響范圍可控。數(shù)據(jù)輸出產(chǎn)品化,衍生了傳媒數(shù)據(jù)報(bào)表門(mén)戶(hù)、內(nèi)容數(shù)據(jù)運(yùn)營(yíng)平臺(tái)等數(shù)據(jù)產(chǎn)品,較好的支持了定制化的數(shù)據(jù)產(chǎn)品,支持了業(yè)務(wù)的精細(xì)化運(yùn)營(yíng)。2.2數(shù)倉(cāng)2.0~3.0隨著業(yè)務(wù)團(tuán)隊(duì)擴(kuò)張,新的業(yè)務(wù)功能在不斷探索,我們承接了大量的臨時(shí)跑數(shù)需求,業(yè)務(wù)方需要快速看到數(shù)據(jù)效果,來(lái)驗(yàn)證假設(shè)。大量的臨時(shí)取數(shù)需求提到數(shù)倉(cāng)后,需求交付效率大大降低,這是其中的一個(gè)問(wèn)題。另外一個(gè)問(wèn)題是,隨著個(gè)性化推薦場(chǎng)景的上線,我們先后接入了召回、排序、下發(fā)全鏈路日志以及用戶(hù)畫(huà)像等數(shù)據(jù),一開(kāi)始需求簡(jiǎn)單,直接引用推薦的數(shù)據(jù)表產(chǎn)出數(shù)據(jù)報(bào)告。隨著需求增多,導(dǎo)致大量的推薦側(cè)的數(shù)據(jù)表,直接擴(kuò)張到了app層數(shù)據(jù)使用。上游推薦數(shù)據(jù)一修改,導(dǎo)致我們這邊數(shù)據(jù)改動(dòng)工作量極大?;谝陨蠁?wèn)題,我們?cè)诮衲昴瓿?,開(kāi)啟了數(shù)倉(cāng)3.0。針對(duì)臨時(shí)數(shù)據(jù)需求,我們開(kāi)始進(jìn)行面向分析主題的寬表建設(shè),再將我們的寬表模型產(chǎn)品化輸出,和業(yè)務(wù)方定期宣講我們的寬表模型以及自助取數(shù)工具使用,讓業(yè)務(wù)方同學(xué)直接在產(chǎn)品層面探索、獲取想要的數(shù)據(jù),至此臨時(shí)取數(shù)需求通過(guò)自助取數(shù)工具,開(kāi)始收斂。針對(duì)外部團(tuán)隊(duì)數(shù)據(jù),在我們數(shù)倉(cāng)側(cè)app層泛濫使用的情況,在ods層,我們采用視圖將數(shù)據(jù)解耦,統(tǒng)計(jì)口徑底層標(biāo)簽化,數(shù)據(jù)影響范圍達(dá)到可控。另外我們還對(duì)數(shù)倉(cāng)層級(jí)做了簡(jiǎn)化,將之前的6個(gè)分層,簡(jiǎn)化為了標(biāo)準(zhǔn)的4層。同時(shí)還確定了面向分析的主題、面向應(yīng)用的主題。在數(shù)倉(cāng)層級(jí)劃分和數(shù)倉(cāng)主題劃分上,通過(guò)不斷宣講,保證了認(rèn)知對(duì)齊。通過(guò)指標(biāo)系統(tǒng)、數(shù)據(jù)模型設(shè)計(jì)中心,在工具層面保障規(guī)范的落地執(zhí)行。3數(shù)據(jù)管治體系3.1數(shù)據(jù)管治背景介紹在數(shù)倉(cāng)演進(jìn)的過(guò)程中,我們也遇到了數(shù)據(jù)資產(chǎn)難梳理、計(jì)算存儲(chǔ)資源超限使用等問(wèn)題,針對(duì)這些問(wèn)題,介紹一下我們數(shù)據(jù)治理做的一些工作。首先介紹下傳媒這邊開(kāi)展數(shù)據(jù)治理建設(shè)的背景,傳媒大數(shù)據(jù)團(tuán)隊(duì)是15年開(kāi)始組建,近6年的時(shí)間,在數(shù)據(jù)規(guī)模上,我們線上調(diào)度的離線任務(wù)流達(dá)到4000+,數(shù)據(jù)報(bào)表個(gè)數(shù)1200+,服務(wù)的用戶(hù)數(shù)340+,數(shù)據(jù)系統(tǒng)個(gè)數(shù)13個(gè)。隨著傳媒業(yè)務(wù)快速發(fā)展擴(kuò)張,數(shù)據(jù)團(tuán)隊(duì)也承接了大量的數(shù)據(jù)需求,同時(shí)在資源成本、數(shù)據(jù)質(zhì)量以及研發(fā)效率也面臨了很多痛點(diǎn)問(wèn)題。資源成本上有2痛點(diǎn),第一塊是資源使用負(fù)載高,比如:計(jì)算資源凌晨4~12點(diǎn)cpu使用率是100%,因?yàn)橛?jì)算資源上午是打滿(mǎn)的,數(shù)倉(cāng)RD、分析師只能等到下午才能去做一些數(shù)據(jù)源探查、臨時(shí)跑數(shù)的一些需求,這塊兒受限于資源配額限制,工作效率也是大打折扣。另外一個(gè)問(wèn)題是,資源使用不可控。因?yàn)闅v史原因再加上為了資源的最大化使用,數(shù)倉(cāng)、分析師等所有使用離線開(kāi)發(fā)功能的團(tuán)隊(duì),大家所有的離線開(kāi)發(fā)任務(wù)都是提交到一個(gè)計(jì)算隊(duì)列上的,并且大家提交任務(wù)是沒(méi)有限制的,一個(gè)占用資源大且不規(guī)范的任務(wù)提交上線后,影響核心報(bào)表的數(shù)據(jù)產(chǎn)出,是在所難免的。數(shù)據(jù)質(zhì)量層面,資源使用負(fù)載高、不可控,也使得數(shù)據(jù)SLA產(chǎn)出不穩(wěn)定。資源負(fù)載高、數(shù)據(jù)質(zhì)量不穩(wěn)定,也必然降低了研發(fā)效率,進(jìn)而導(dǎo)致數(shù)據(jù)交付周期長(zhǎng),業(yè)務(wù)滿(mǎn)意度低。從數(shù)據(jù)規(guī)模、資源成本、數(shù)據(jù)質(zhì)量、研發(fā)效率這4個(gè)方面,我們對(duì)關(guān)鍵問(wèn)題進(jìn)行了歸納梳理,也確定了開(kāi)展數(shù)據(jù)治理是必要的。3.2數(shù)據(jù)管理框架接下來(lái),介紹下傳媒這邊是如何開(kāi)展數(shù)據(jù)治理的,我們的數(shù)據(jù)治理建設(shè),是圍繞DAMA數(shù)據(jù)管理指南展開(kāi),主要包括元數(shù)據(jù)、數(shù)據(jù)建模和設(shè)計(jì)、數(shù)據(jù)成本管理、數(shù)據(jù)資產(chǎn)管理、數(shù)據(jù)質(zhì)量等10大模塊。整上以元數(shù)據(jù)驅(qū)動(dòng)數(shù)據(jù)治理。接下來(lái),重點(diǎn)介紹下數(shù)據(jù)研發(fā)流程、元數(shù)據(jù)建設(shè)、數(shù)據(jù)資產(chǎn)管理和數(shù)據(jù)成本管理在傳媒這邊的建設(shè)實(shí)踐。3.3數(shù)據(jù)研發(fā)流程這里先介紹下數(shù)據(jù)的循環(huán)流轉(zhuǎn),包括2部分。第一部分是數(shù)據(jù)化運(yùn)營(yíng),也就是用數(shù)據(jù),這個(gè)階段主要是讓用戶(hù)快速獲取想用的數(shù)據(jù),判斷、解決問(wèn)題。第二部分是運(yùn)營(yíng)數(shù)據(jù),也就是養(yǎng)數(shù)據(jù)、管數(shù)據(jù),這塊兒主要完成收集數(shù)據(jù),數(shù)據(jù)分層,面向主題建設(shè),不斷改善數(shù)據(jù)模型以及數(shù)據(jù)質(zhì)量,讓數(shù)據(jù)易用?;跀?shù)據(jù)的循環(huán)流轉(zhuǎn),我們規(guī)范化了數(shù)據(jù)研發(fā)流程,主要包括,業(yè)務(wù)方(產(chǎn)品、運(yùn)營(yíng)同學(xué)等)提出數(shù)據(jù)需求給到數(shù)據(jù)PM,數(shù)據(jù)PM接到需求后,分析需求,之后與數(shù)據(jù)RD、數(shù)據(jù)需求方三方確認(rèn)可行后,數(shù)據(jù)PM產(chǎn)出數(shù)據(jù)PRD。數(shù)據(jù)同學(xué)接收到數(shù)據(jù)PRD后,開(kāi)始數(shù)據(jù)源探查,產(chǎn)出數(shù)據(jù)探查文檔,數(shù)據(jù)探查可行后,進(jìn)行數(shù)倉(cāng)模型設(shè)計(jì)以及評(píng)審,評(píng)審?fù)ㄟ^(guò)后將PRD的指標(biāo)錄入指標(biāo)系統(tǒng),之后開(kāi)始進(jìn)行數(shù)據(jù)開(kāi)發(fā)、數(shù)據(jù)自測(cè),將數(shù)據(jù)表交付數(shù)據(jù)PM進(jìn)行測(cè)試,測(cè)試通過(guò)后,數(shù)據(jù)RD在DQC配置數(shù)據(jù)質(zhì)量監(jiān)控,任務(wù)上線,進(jìn)行數(shù)據(jù)SLA評(píng)估,核心數(shù)據(jù)報(bào)表加入基線運(yùn)維保障,最后交付需求方。以上是我們數(shù)據(jù)側(cè)的整個(gè)數(shù)據(jù)研發(fā)流程,從用數(shù)據(jù)到養(yǎng)數(shù)據(jù),再到用數(shù)據(jù),在一套規(guī)范的流程體系內(nèi)運(yùn)轉(zhuǎn),衍生了數(shù)據(jù)應(yīng)用的閉環(huán),解決了數(shù)倉(cāng)RD直接對(duì)接需求方,帶來(lái)的數(shù)據(jù)需求煙囪式開(kāi)發(fā)以及維度指標(biāo)規(guī)范不一致等問(wèn)題。3.4元數(shù)據(jù)體系建設(shè)接下來(lái)和大家介紹下我們的元數(shù)據(jù)體系建設(shè)。元數(shù)據(jù)組成我們分為4塊:第一塊是業(yè)務(wù)元數(shù)據(jù)(主要包括:數(shù)據(jù)需求管理、維度/指標(biāo)管理、數(shù)據(jù)報(bào)告管理);第二塊是技術(shù)元數(shù)據(jù)(主要包括:源數(shù)據(jù)管理、表模型管理等);第三塊是過(guò)程元數(shù)據(jù)(主要包括:任務(wù)生產(chǎn)信息、數(shù)據(jù)使用信息等);最后一塊兒是安全元數(shù)據(jù)(主要包括:安全密級(jí)、安全審計(jì)等)?;谝陨?,我們具象了一張數(shù)據(jù)表的元數(shù)據(jù)構(gòu)成,主要包括表的模型分層、數(shù)據(jù)表安全密級(jí)、生命周期、任務(wù)信息、數(shù)據(jù)任務(wù)owner、血緣關(guān)系、表存儲(chǔ)大小、表的訪問(wèn)熱度等信息。3.5數(shù)據(jù)資產(chǎn)管理有了元數(shù)據(jù),接下來(lái)我們開(kāi)始了數(shù)據(jù)資產(chǎn)管理體系建設(shè)。首先是數(shù)據(jù)資產(chǎn)等級(jí)定義,對(duì)齊了有數(shù)的任務(wù)優(yōu)先級(jí),主要包括4個(gè)等級(jí):第一是L4等級(jí),具有全局影響的數(shù)據(jù)資產(chǎn);第二是L3等級(jí),具有局部影響的數(shù)據(jù)資產(chǎn),主要包括支撐業(yè)務(wù)決策分析,某個(gè)核心業(yè)務(wù)線獨(dú)有的核心指標(biāo)和核心維度;第三是L2等級(jí),具有一般影響的數(shù)據(jù)資產(chǎn),出現(xiàn)問(wèn)題幾乎不會(huì)帶來(lái)影響或者帶來(lái)的影響極小;第四是L1等級(jí),具有未知影響的數(shù)據(jù)資產(chǎn),這些數(shù)據(jù)資產(chǎn),不能明確說(shuō)出數(shù)據(jù)的應(yīng)用場(chǎng)景。我們將L4、L3定義為核心數(shù)據(jù),我們會(huì)將該等級(jí)對(duì)應(yīng)的數(shù)據(jù)任務(wù)也納入到基線值班運(yùn)維,保障數(shù)據(jù)SLA。為了保證分級(jí)的ROI,核心資產(chǎn)的占比會(huì)控制30%內(nèi),同時(shí)會(huì)有準(zhǔn)入準(zhǔn)出的審核流程。以上數(shù)據(jù)資產(chǎn)等級(jí)的標(biāo)準(zhǔn)以及數(shù)據(jù)內(nèi)容,由分析師、數(shù)倉(cāng)、數(shù)據(jù)PM三方組成的數(shù)據(jù)管理虛擬小組統(tǒng)一審核歸納。有了數(shù)據(jù)資產(chǎn)等級(jí)的定義,接下來(lái)就是如何落地了。我們的數(shù)倉(cāng)有近4000張數(shù)據(jù)表,如何給每一份數(shù)據(jù)都打上一個(gè)等級(jí)標(biāo)簽?zāi)???shù)據(jù)是從業(yè)務(wù)系統(tǒng)中產(chǎn)生的,經(jīng)過(guò)同步工具進(jìn)入到數(shù)倉(cāng),在數(shù)倉(cāng)中進(jìn)行ETL后,再通過(guò)同步工具輸出到數(shù)據(jù)產(chǎn)品中進(jìn)行消費(fèi)??梢缘贸鼋Y(jié)論,在數(shù)據(jù)產(chǎn)品中使用的都是經(jīng)過(guò)數(shù)倉(cāng)加工后的產(chǎn)出表。可以通過(guò)不同的數(shù)據(jù)產(chǎn)品劃分?jǐn)?shù)據(jù)資產(chǎn)等級(jí),再依靠數(shù)據(jù)任務(wù)的血緣關(guān)系,就可以將整個(gè)消費(fèi)鏈路打上等級(jí)標(biāo)簽。針對(duì)不同的等級(jí),采取不同的數(shù)據(jù)保障措施。比如L4、L3等級(jí),定義為核心數(shù)據(jù),我們會(huì)將該等級(jí)對(duì)應(yīng)的數(shù)據(jù)任務(wù)納入到基線值班運(yùn)維,保障數(shù)據(jù)SLA。通過(guò)數(shù)據(jù)資產(chǎn)等級(jí)體系,我們確定了4個(gè)資產(chǎn)等級(jí),36個(gè)核心數(shù)據(jù)報(bào)表,153個(gè)核心數(shù)據(jù)生產(chǎn)任務(wù),同時(shí)也保障了核心數(shù)據(jù)資產(chǎn)的數(shù)據(jù)質(zhì)量。3.6數(shù)據(jù)成本管理對(duì)于如何進(jìn)行資源成本優(yōu)化,主要包括存儲(chǔ)成本治理、計(jì)算成本治理以及資源成本的運(yùn)營(yíng)體系。

在存儲(chǔ)成本治理上,我們通過(guò)僵尸文件清理,數(shù)據(jù)生命周期管理,存儲(chǔ)壓縮以及多個(gè)同粒度數(shù)據(jù)模型歸并優(yōu)化,近1年時(shí)間內(nèi),數(shù)據(jù)存儲(chǔ)減負(fù)25%,且當(dāng)前周期內(nèi)存儲(chǔ)占用處在穩(wěn)定值。在計(jì)算成本治理上,首先搭建了計(jì)算成本監(jiān)控體系,分析維度包括了日期維度、使用場(chǎng)景、角色等維度,指標(biāo)上包括規(guī)模類(lèi)的指標(biāo),如:當(dāng)日運(yùn)行任務(wù)數(shù),當(dāng)日消耗cpu總核數(shù)等;新增類(lèi)指標(biāo),如:近7天新增的任務(wù)數(shù)量等;最后是排行榜,如:計(jì)算資源按任務(wù)按負(fù)責(zé)人使用排行榜。通過(guò)hivemr到hiveonspark的遷移、計(jì)算資源占用top的任務(wù)優(yōu)化、僵尸任務(wù)下線以及不規(guī)范任務(wù)遷移優(yōu)化等策略的執(zhí)行,從今年2月至今,cpu使用率逐步降低并趨于穩(wěn)定,整體降低35%。資源空閑下來(lái)了,數(shù)倉(cāng)RD、分析師上午就能跑一些臨時(shí)查數(shù)需求了。另外部分核心數(shù)據(jù)報(bào)表從12點(diǎn)產(chǎn)出提升到了7點(diǎn)前,產(chǎn)品、運(yùn)營(yíng)、編輯等數(shù)據(jù)使用方,可以及時(shí)的獲取數(shù)據(jù),調(diào)整運(yùn)營(yíng)策略。針對(duì)以上成本治理策略,我們建設(shè)了資源成本治理的運(yùn)營(yíng)體系,主要分為前、中、后。事前,我們制定了《離線數(shù)據(jù)研發(fā)規(guī)范》、《數(shù)據(jù)抽取規(guī)范》等研發(fā)規(guī)范以及《SQL任務(wù)優(yōu)化指南》,定期會(huì)在團(tuán)隊(duì)內(nèi)組織串講,同時(shí)也會(huì)把常用的SQL優(yōu)化方法以及注意事項(xiàng),定期和分析師團(tuán)隊(duì)分享,主要是保障大家研發(fā)規(guī)范的認(rèn)知對(duì)齊,從而減少不規(guī)范數(shù)據(jù)任務(wù)的提交。事中,主要是對(duì)數(shù)據(jù)任務(wù)的上線審核,目前主要是圍繞數(shù)據(jù)任務(wù)占用的計(jì)算資源、存儲(chǔ)資源、SQL代碼規(guī)范以及調(diào)度信息設(shè)置這4塊兒進(jìn)行審核,避免不規(guī)范的任務(wù)上線,從而影響核心數(shù)據(jù)產(chǎn)出。舉一個(gè)我們使用過(guò)程中的真實(shí)案例,一位數(shù)據(jù)RD,需要開(kāi)發(fā)一張app層的數(shù)據(jù)表,來(lái)配置對(duì)應(yīng)的數(shù)據(jù)報(bào)表。這位同學(xué)按照我們的研發(fā)流程進(jìn)行數(shù)據(jù)表設(shè)計(jì)、開(kāi)發(fā)、測(cè)試,最后提交了一個(gè)離線數(shù)據(jù)任務(wù)到對(duì)應(yīng)的審核同學(xué),審核同學(xué)看到該任務(wù)測(cè)試執(zhí)行,消耗的cpucore大于1.5萬(wàn)核,運(yùn)行時(shí)長(zhǎng)超過(guò)1小時(shí),review了下代碼,發(fā)現(xiàn)SQL中依賴(lài)的用戶(hù)曝光日志表重復(fù)引用了10余次,導(dǎo)致數(shù)據(jù)被重復(fù)掃描計(jì)算。審核人員將工單駁回,告知相關(guān)同學(xué)優(yōu)化方式。優(yōu)化后,任務(wù)的計(jì)算資源使用是1600左右的cpucore,資源節(jié)省近10倍,同時(shí)運(yùn)行時(shí)長(zhǎng)也縮減到25min。通過(guò)事中對(duì)資源使用的審核機(jī)制,阻斷了65+占用資源大且不規(guī)范任務(wù)的提交。最后是事后的資源治理,計(jì)算資源這塊兒,我們根據(jù)cpu和內(nèi)存資源消耗,統(tǒng)計(jì)了資源使用任務(wù)排行榜,定期優(yōu)化計(jì)算資源占用top的數(shù)據(jù)任務(wù)。存儲(chǔ)資源這塊兒,我們?cè)O(shè)置了表推薦下線相關(guān)規(guī)則,中間表近30天訪問(wèn)次數(shù)、日均job引用次數(shù)等指標(biāo)為0,這些數(shù)據(jù)表會(huì)被定期推送給相關(guān)負(fù)責(zé)人,人工review后,再進(jìn)行數(shù)據(jù)表的下線清理。數(shù)據(jù)生命周期也是類(lèi)似,沒(méi)有設(shè)置生命周期、且總存儲(chǔ)占用或者單日新增存儲(chǔ)占用較大的數(shù)據(jù)表,定期推送給表的負(fù)責(zé)人,人工review后,進(jìn)行數(shù)據(jù)生命周期的合理設(shè)置。以上是我們傳媒這邊資源治理建設(shè)的介紹??偨Y(jié)下來(lái),從資源視角看,我們通過(guò)存儲(chǔ)治理策略,近1年時(shí)間內(nèi),數(shù)據(jù)存儲(chǔ)減負(fù)25%。通過(guò)計(jì)算治理策略,我們的CPU使用率降低了35%。通過(guò)建立資源成本治理的運(yùn)營(yíng)體系,使得資源使用穩(wěn)定、流程化、合理化。從業(yè)務(wù)視角看,部分核心數(shù)據(jù)報(bào)表產(chǎn)出時(shí)間從中午12點(diǎn)提升到了7點(diǎn)前,報(bào)表產(chǎn)出時(shí)間穩(wěn)定,運(yùn)營(yíng)、編輯、分析師上班前就能看

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論