政務(wù)大數(shù)據(jù)平臺-數(shù)據(jù)智能治理子平臺建設(shè)方案_第1頁
政務(wù)大數(shù)據(jù)平臺-數(shù)據(jù)智能治理子平臺建設(shè)方案_第2頁
政務(wù)大數(shù)據(jù)平臺-數(shù)據(jù)智能治理子平臺建設(shè)方案_第3頁
政務(wù)大數(shù)據(jù)平臺-數(shù)據(jù)智能治理子平臺建設(shè)方案_第4頁
政務(wù)大數(shù)據(jù)平臺-數(shù)據(jù)智能治理子平臺建設(shè)方案_第5頁
已閱讀5頁,還剩28頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、政務(wù)大數(shù)據(jù)平臺_數(shù)據(jù)智能子平臺建設(shè)方案項目概述按照S市大數(shù)據(jù)中心對市區(qū)兩級大數(shù)據(jù)資源平臺建設(shè)統(tǒng)一標(biāo)準(zhǔn)規(guī)范的要求下,以實際需求為導(dǎo)向,搭建m區(qū)大數(shù)據(jù)資源平臺,加快推進與承接S市大數(shù)據(jù)資源平臺的落地數(shù)據(jù)資源,歸集區(qū)內(nèi)各單位公共數(shù)據(jù)資源,按需實現(xiàn)共享交換,逐步構(gòu)建形成m區(qū)公共數(shù)據(jù)匯聚、整合、共享、應(yīng)用、展示、評價為“六位一體”的大數(shù)據(jù)資源體系,構(gòu)建m區(qū)數(shù)據(jù)基礎(chǔ)庫、專題庫和主題庫為核心的數(shù)據(jù)資產(chǎn),充分挖掘與發(fā)揮數(shù)據(jù)應(yīng)用價值,構(gòu)建數(shù)據(jù)集成、數(shù)據(jù)共享、數(shù)據(jù)管理、數(shù)據(jù)決策的綜合管理服務(wù)體系按照總集規(guī)劃,對m區(qū)大數(shù)據(jù)資源平臺中的數(shù)據(jù)智能子系統(tǒng)進行建設(shè),數(shù)據(jù)智能子系統(tǒng)作為大數(shù)據(jù)資源平臺的核心系統(tǒng),包括:數(shù)據(jù)資產(chǎn)

2、、數(shù)據(jù)治理2大核心管理;通過數(shù)據(jù)資產(chǎn)子模塊管控整個大數(shù)據(jù)資源平臺中的數(shù)據(jù)資產(chǎn),圍繞數(shù)據(jù)資產(chǎn)的全生命周期進行管理;數(shù)據(jù)治理作為大數(shù)據(jù)資源平臺中作為數(shù)據(jù)清洗、融合、挖掘的核心工具,對平臺內(nèi)的數(shù)據(jù)進行治理。項目概述平臺上下文2數(shù)據(jù)底座數(shù)據(jù)資產(chǎn)(自研)共享交換數(shù)據(jù)目錄委辦局?jǐn)?shù)據(jù)歸集前置機數(shù)據(jù)脫敏門戶數(shù)據(jù)治理(產(chǎn)品)12233456798101010總體架構(gòu)第三方系統(tǒng)門戶系統(tǒng)歸集系統(tǒng)編目系統(tǒng)共享交換系統(tǒng)GIS系統(tǒng)數(shù)據(jù)資產(chǎn)平臺目錄管理資產(chǎn)管理目錄分類管理目錄上報目錄瀏覽資源瀏覽組織機構(gòu)管理應(yīng)用管理數(shù)據(jù)治理平臺數(shù)據(jù)標(biāo)準(zhǔn)管理主題管理數(shù)據(jù)工廠元數(shù)據(jù)管理任務(wù)調(diào)度數(shù)據(jù)質(zhì)量數(shù)據(jù)服務(wù)控制中心存儲臨時歸集庫( GP庫)臨

3、時治理庫( PG庫)XH底座平臺應(yīng)用庫( MySQL庫)編目對接中間庫庫( MySQL庫)安全中心身份認證數(shù)據(jù)安全運維監(jiān)控監(jiān)控平臺運維平臺應(yīng)用架構(gòu)委辦局編目系統(tǒng)歸集系統(tǒng)門戶接口服務(wù)數(shù)據(jù)治理平臺XH數(shù)據(jù)湖前置機市大數(shù)據(jù)中心歸集消息通知前置機共享交換MQ數(shù)據(jù)資產(chǎn)平臺MySQL應(yīng)用庫WEB后端同步服務(wù)存儲MySQL目錄同步中間庫目錄數(shù)據(jù)同步安全身份認證同步MQ其他系統(tǒng)GIS系統(tǒng)物聯(lián)系統(tǒng)監(jiān)控系統(tǒng)系統(tǒng)跳轉(zhuǎn)目錄資源查詢歸集消息處理用戶、組織同步認證、鑒權(quán)目錄同步接口調(diào)用目錄上報數(shù)據(jù)共享資源申請審批流程驅(qū)動數(shù)據(jù)共享開發(fā)審批流程驅(qū)動數(shù)據(jù)治理開發(fā)需求單查詢門戶前端iframe訪問WEB前端目錄數(shù)據(jù)同步歸集觸發(fā)治

4、理任務(wù)數(shù)據(jù)歸集API目錄數(shù)據(jù)同步脫敏安全MySQL安全同步中間庫安全探查結(jié)果同步目錄數(shù)據(jù)流委辦局編目系統(tǒng)歸集系統(tǒng)門戶數(shù)據(jù)資產(chǎn)數(shù)據(jù)治理上報目錄目錄同步目錄同步數(shù)據(jù)湖歸集數(shù)據(jù)落地到ODS層前置機同步目錄對應(yīng)的業(yè)務(wù)數(shù)據(jù)到前置機數(shù)據(jù)歸集通知目錄歸集完成歸集完成,根據(jù)數(shù)據(jù)湖的實際表信息生成元數(shù)據(jù)的表、字段(需要對比歷史元數(shù)據(jù)的MD5,如有差異生成新版本的元數(shù)據(jù))元數(shù)據(jù)保存目錄查詢目錄瀏覽&申請元數(shù)據(jù)查詢1 根據(jù)需求單治理形成新目錄2 目錄掛載元數(shù)據(jù)市大數(shù)據(jù)中心目錄上報前置機目錄采集市級&國家級目錄下發(fā)歸集數(shù)據(jù)落地到DWD層數(shù)據(jù)歸集共享系統(tǒng)API服務(wù)目錄同步數(shù)據(jù)共享保存目錄的原始資源表、開放資源表目錄同步

5、流程數(shù)據(jù)資產(chǎn)數(shù)據(jù)治理定時把中間庫的數(shù)據(jù)同步到資產(chǎn)歸集完成,根據(jù)數(shù)據(jù)湖的實際表信息生成元數(shù)據(jù)的表、字段(需要對比歷史元數(shù)據(jù)的MD5,如有差異生成新版本的元數(shù)據(jù))元數(shù)據(jù)保存每天定時目錄同步數(shù)據(jù)湖委辦上報目錄:根據(jù)歸集消息&元數(shù)據(jù),保存目錄的原始資源表市區(qū)下發(fā)目錄:無操作;市區(qū)會級聯(lián)下發(fā)目錄的開放資源 MQMySQL同步中間庫編目系統(tǒng)歸集系統(tǒng)消費歸集消息歸集通知目錄實時更新消息目錄實時同步更新共享交換API目錄同步API目錄實時更新消息目錄分類同步目錄分類同步數(shù)據(jù)治理流程委辦局門戶數(shù)據(jù)資產(chǎn)數(shù)據(jù)治理1 目錄瀏覽&申請數(shù)據(jù)湖ODS貼源層數(shù)據(jù)DWD清洗層數(shù)據(jù)DWS融合層數(shù)據(jù)2.2 申請未治理的數(shù)據(jù):數(shù)據(jù)開

6、發(fā)人員,根據(jù)任務(wù)清單,在數(shù)據(jù)治理平臺進行開發(fā)治理任務(wù)4.1 對于新的目錄:選擇治理后的元數(shù)據(jù),創(chuàng)建目錄&目錄開放資源&目錄原始資源(可根據(jù)任務(wù)的輸入、輸出表自動生成)共享交換5 治理任務(wù)完成6.1 數(shù)據(jù)查詢6.2 數(shù)據(jù)共享3 從ODS清洗到DWD,從DWD融合到DWS,把DWD/DWS數(shù)據(jù)同步至ADS層2.1 申請已治理數(shù)據(jù):直接通過共享交換系統(tǒng),對外共享數(shù)據(jù)ADS共享層數(shù)據(jù)4.2 已有目錄:查詢元數(shù)據(jù),進行 目錄開放資源的掛載(或根據(jù)任務(wù)的輸入、輸出表自動生成)目錄、資源、元數(shù)據(jù)的關(guān)聯(lián)流程第三方系統(tǒng)數(shù)據(jù)資產(chǎn)數(shù)據(jù)治理歸集系統(tǒng)編目系統(tǒng)目錄同步服務(wù)目錄原始資源歸集同步服務(wù)同步更新委辦目錄歸集,生成

7、原始資源元數(shù)據(jù)采集XH表結(jié)構(gòu)生成數(shù)據(jù)治理平臺的元數(shù)據(jù)(需要對比歷史元數(shù)據(jù)的MD5,如有差異生成新版本的元數(shù)據(jù))開放資源市區(qū)目錄同步,更新開放資源數(shù)據(jù)開發(fā)人員根據(jù)需求單治理開發(fā)創(chuàng)建元數(shù)據(jù)治理開發(fā)完成,創(chuàng)建目錄(已有目錄的,只需要掛載資源)掛載原始資源、開放資源調(diào)度任務(wù)治理完成目錄創(chuàng)建:選擇數(shù)據(jù)治理平臺中的元數(shù)據(jù),自動創(chuàng)建目錄、開放資源(程序根據(jù)元數(shù)據(jù)生成目錄、開放資源的信息)、原始資源原始資源掛載:委辦上報的編目在歸集通知處理時創(chuàng)建;其他目錄根據(jù)治理調(diào)度任務(wù)的輸入表、輸出表的關(guān)系 自動掛載原始資源 或 手動掛載開放資源掛載:市區(qū)下發(fā)的編目在目錄同步時創(chuàng)建;其他目錄根據(jù)治理調(diào)度任務(wù)的輸入表、輸出表

8、的關(guān)系 自動掛載開放資源 或者 手動掛載關(guān)聯(lián)邏輯共享交換目錄創(chuàng)建資源掛載治理開發(fā)數(shù)據(jù)資產(chǎn)同步工程ES定時同步任務(wù)數(shù)據(jù)資產(chǎn)平臺目錄、資源全文檢索(延遲1天)開始定時每天4:30執(zhí)行創(chuàng)建表&修改max_result_window表名稱 xxxx_20200914查詢每頁的目錄數(shù)據(jù)插入最新的目錄數(shù)據(jù)產(chǎn)品庫查詢XHSearch修改最新查詢的表名為新表名建表插入配置表刪除15天前表刪除表結(jié)束ID配置key配置value備注1TDH_ES_TAB_NAMEHG_TAB_20200914TDH的ES中存儲編目的表名2.3配置表循環(huán)分頁查詢修改存儲格式接口工程數(shù)據(jù)查詢API門戶查詢最新表名通過最新表名查詢目錄

9、、資源數(shù)據(jù)數(shù)據(jù)資產(chǎn)平臺目錄、資源全文檢索(準(zhǔn)實時)接口工程數(shù)據(jù)查詢API門戶XHSearch管理后端工程數(shù)據(jù)庫目錄/資源/字段變更日志表直接更新其他系統(tǒng)推送目錄、資源通過觸發(fā)器新增變更日志首次初始化ES數(shù)據(jù)每隔1分鐘通過定時任務(wù)掃描,對新變更的數(shù)據(jù)同步更新到ES同步工程數(shù)據(jù)初始化程序目錄、資源修改更新到數(shù)據(jù)資產(chǎn)的 目錄、資源等表中數(shù)據(jù)資產(chǎn)目錄的血緣分析原始資源(目錄的原始資源)開放資源(目錄的原始資源)需求單(門戶的申請需求單)委辦目錄:原始資源為奧騰歸集后的表市區(qū)級聯(lián)目錄:無原始資源融合目錄:治理人員手動掛載原始資源 或者 創(chuàng)建目錄時根據(jù)開放資源的元數(shù)據(jù)血緣(調(diào)度任務(wù)的輸入、輸出表)自動掛載

10、原始資源委辦目錄:手動掛載 或 自動根據(jù)治理任務(wù)的 輸入表、輸出表自動掛載資源市區(qū)級聯(lián)目錄:市區(qū)級聯(lián)下發(fā)的目錄的資源融合目錄:手動掛載 或 創(chuàng)建目錄時根據(jù)選擇的元數(shù)據(jù) 自動創(chuàng)建查詢門戶的需求單目錄樣例數(shù)據(jù)的處理方式編目系統(tǒng)A.1 目錄同步歸集系統(tǒng)A.3 歸集完成通知MySQLXH庫A.2 數(shù)據(jù)歸集到XH庫A.4 獲取新歸集表的前10條,存儲到 資產(chǎn)平臺的 樣例數(shù)據(jù)表中樣例表門戶樣例數(shù)據(jù)展示注:A.x:委辦上報目錄、市區(qū)級聯(lián)目錄的樣例數(shù)據(jù)處理邏輯B.x:通過數(shù)據(jù)治理融合產(chǎn)生的新目錄的樣例數(shù)據(jù)處理邏輯樣例數(shù)據(jù)格式:以JSON方式存儲,Key為目錄項的字段英文名,Value為抽取數(shù)據(jù)的字段值樣例數(shù)據(jù)

11、維護:在目錄管理中,增加樣例數(shù)據(jù)維護功能,對樣例數(shù)據(jù)進行編輯數(shù)據(jù)資產(chǎn)數(shù)據(jù)治理B.1 治理開發(fā)B.2 目錄創(chuàng)建 & 資源掛載B.3 抽取掛載的開放資源表的前10條,存儲到樣例數(shù)據(jù)表中數(shù)據(jù)質(zhì)量檢查職責(zé)劃分質(zhì)量報告資產(chǎn)平臺對外提供治理平臺目錄規(guī)范目錄項規(guī)范命名規(guī)范長度規(guī)范完整性檢查唯一主鍵時間戳字段長度規(guī)范刪除位規(guī)范共享條件規(guī)范唯一性規(guī)范SQL方式檢查統(tǒng)計查詢SQL查詢數(shù)據(jù)規(guī)范表不為空不能有空值枚舉檢查范圍檢查格式檢查波動檢查元數(shù)據(jù)一致性產(chǎn)品配置檢查資產(chǎn)平臺職責(zé)1、質(zhì)量報告的統(tǒng)一入口2、對目錄、資源相關(guān)規(guī)范進行檢查3、匯總治理平臺的檢查結(jié)果,并向外提供治理平臺職責(zé)1、只做表的數(shù)據(jù)內(nèi)容范圍的質(zhì)量檢查2

12、、不做目錄、目錄項的質(zhì)量檢查數(shù)據(jù)質(zhì)量檢查實現(xiàn)方式定時任務(wù)規(guī)則名稱檢查表規(guī)則SQL不能為空zc_catalogselect id from zc_catalog where CATA_TITLE_ is null or TRIM(CATA_TITLE_) = ;包含中文zc_catalog_fieldselect id from zc_catalog_field where LENGTH(FIELD_NAME_) = CHAR_LENGTH(FIELD_NAME_);循環(huán)執(zhí)行每個規(guī)則SQL結(jié)果ID檢查規(guī)則ID檢查規(guī)則內(nèi)容總數(shù)異常數(shù)檢查時間11Select * from 20000102020-1

13、1-04 19:00:0021Select * from 20000102020-11-04 19:00:00明細ID結(jié)果ID業(yè)務(wù)ID111211規(guī)則配置表規(guī)則檢查結(jié)果表規(guī)則檢查結(jié)果明細表規(guī)則執(zhí)行結(jié)果規(guī)則執(zhí)行異常明細數(shù)據(jù)湖分層分庫設(shè)計貼源層清洗層融合層共享層存儲介質(zhì)InceptorInceptor、PostgreSQLInceptorSearch、PostgreSQL、HyperBase權(quán)限說明歸集系統(tǒng)讀寫市級聯(lián) 讀寫無權(quán)限無權(quán)限治理系統(tǒng)只讀市級聯(lián) 只讀區(qū)政務(wù) 讀寫圖層 只讀讀寫讀寫共享系統(tǒng)無權(quán)限無權(quán)限無權(quán)限只讀庫命名規(guī)范規(guī)范層名_庫名層名_庫名層名_庫名層名_存儲類型示例ODS_SJHDWD

14、_SJHDWS_RKKADS_SEARCH表命名規(guī)范規(guī)范數(shù)據(jù)層_委辦局縮寫_應(yīng)用縮寫_數(shù)據(jù)庫名_原表名_表類型_時間戳(增量歸集用)市級聯(lián)和區(qū)政務(wù) - 數(shù)據(jù)層_委辦局縮寫_應(yīng)用縮寫_數(shù)據(jù)庫名_原表名_表類型數(shù)據(jù)層_庫名_表名不適用,同清洗層和融合層示例ODS_ABCDE_ABCDE_ABCDE_User_TXT市級聯(lián)和區(qū)政務(wù) - DWD_ABCDE_ABCDE_ABCDE_User_TXTDWS_RKK_People不適用,同清洗層和融合層數(shù)據(jù)湖分層分庫命名規(guī)范數(shù)據(jù)權(quán)限控制數(shù)據(jù)治理平臺:用戶:由身份認證平臺同步過來,也可自行創(chuàng)建團隊:由身份認證平臺同步過來,也可自行創(chuàng)建;一個用戶默認關(guān)聯(lián)的團隊

15、為:用戶關(guān)聯(lián)的組織機構(gòu),治理組人員可在數(shù)據(jù)治理平臺中關(guān)聯(lián)多個團隊數(shù)據(jù)權(quán)限:根據(jù)當(dāng)前登錄用戶所屬的團隊,切換不同的團隊,看各個團隊及子團隊下的數(shù)據(jù);數(shù)據(jù)資產(chǎn)平臺:用戶:由身份認證平臺同步過來,也可自行創(chuàng)建團隊:使用數(shù)據(jù)治理平臺中的團隊數(shù)據(jù);可考慮后續(xù)再數(shù)據(jù)資產(chǎn)平臺中 增加團隊管理功能,方便功能改造數(shù)據(jù)權(quán)限:根據(jù)當(dāng)前登錄用戶所屬的團隊,切換不同的團隊,看各個團隊及子團隊下的數(shù)據(jù);用戶數(shù)據(jù)治理平臺團隊用戶數(shù)據(jù)資產(chǎn)平臺用戶身份認證平臺組織機構(gòu)1:N1:1用戶同步用戶同步組織機構(gòu)同步業(yè)務(wù)數(shù)據(jù)業(yè)務(wù)數(shù)據(jù)1:N1:N1:N數(shù)據(jù)資產(chǎn)身份認證集成用戶角色團隊菜單1:N1:N目錄1:N1:N自有用戶角色、菜單的關(guān)聯(lián)

16、數(shù)據(jù)來自于 數(shù)據(jù)庫(用戶-角色-團隊)通過數(shù)據(jù)庫查詢,不通過身份認證接口獲取角色菜單1:N用戶用戶操作權(quán)限來源有2種統(tǒng)一用戶角色、菜單的關(guān)聯(lián)數(shù)據(jù)來自于 身份認證角色、菜單信息,不查詢自有數(shù)據(jù)庫的數(shù)據(jù),只通過身份接口獲取1:11:N身份認證平臺數(shù)據(jù)資產(chǎn)平臺1:N數(shù)據(jù)治理平臺團隊團隊使用 數(shù)據(jù)治理平臺 中的團隊用戶與團隊的關(guān)聯(lián),使用 數(shù)據(jù)治理平臺中的用戶團隊關(guān)聯(lián)用戶1:11:N任務(wù)調(diào)度依賴歸集消息的流程數(shù)據(jù)資產(chǎn)數(shù)據(jù)治理歸集系統(tǒng)目錄原始資源歸集同步服務(wù)更新委辦目錄歸集,生成原始資源元數(shù)據(jù)采集XH表結(jié)構(gòu)生成數(shù)據(jù)治理平臺的元數(shù)據(jù)開放資源調(diào)度任務(wù)根據(jù)元數(shù)據(jù)ID,觸發(fā)執(zhí)行 輸入表是此元數(shù)據(jù)的 調(diào)度任務(wù)市區(qū)目

17、錄歸集,生成開放資源數(shù)據(jù)共享脫敏方案共享交換XH庫安全信息表門戶數(shù)據(jù)資產(chǎn)數(shù)據(jù)治理脫敏系統(tǒng)敏感數(shù)據(jù)探查探查結(jié)果實時同步目錄瀏覽&申請根據(jù)安全級別進行脫敏查詢數(shù)據(jù)對外提供查詢目錄、資產(chǎn)的安全信息查詢目錄、資產(chǎn)、表的安全信息資產(chǎn)表安全同步中間庫業(yè)務(wù)操作通過觸發(fā)器更新查詢安全信息,更新資產(chǎn)表2個安全信息更新邏輯1、觸發(fā)器更新:脫敏系統(tǒng) 探查 XH庫中 表的 安全信息后,會 通過 Otter組件,實時同步到 資產(chǎn)平臺數(shù)據(jù)庫中的 安全信息相關(guān)表中;通過安全信息表中的觸發(fā)器,更新 目錄、資源 的 探查狀態(tài)和安全標(biāo)簽2、業(yè)務(wù)操作更新:通過數(shù)據(jù)資產(chǎn)平臺,進行目錄創(chuàng)建、資源掛載時;查詢表的 探查狀態(tài)和安全標(biāo)簽;保

18、存到 目錄和資源相關(guān)表中應(yīng)用庫產(chǎn)品表資產(chǎn)表安全同步中間庫數(shù)據(jù)共享脫敏方案脫敏探查數(shù)據(jù)同步脫敏系統(tǒng)XH庫數(shù)據(jù)資產(chǎn)實時同步探查記錄表敏感數(shù)據(jù)表安全標(biāo)簽?zāi)夸涃Y產(chǎn)元數(shù)據(jù)敏感數(shù)據(jù)探查查詢觸發(fā)器更新元數(shù)據(jù):元數(shù)據(jù)相關(guān)的表,僅是關(guān)聯(lián)查詢;無需保存安全相關(guān)數(shù)據(jù)到元數(shù)據(jù)表中;關(guān)聯(lián)方式為:通過 schema + tab_name + colum_name 查詢ODS層的表:更新原始資源中zc_origin_resource. DP_META_ID_等于對應(yīng)ODS元數(shù)據(jù)tab_id的目錄的探查狀態(tài),目錄項的安全標(biāo)簽DWD層的表:更新開放資源中zc_open_resource.DP_META_ID_等于對應(yīng)DWD元數(shù)

19、據(jù)tab_id的開放資源的探查狀態(tài)、開放資源項的安全標(biāo)簽DWS層的表:更新開放資源中zc_open_resource.DP_META_ID_等于對應(yīng)DWS元數(shù)據(jù)tab_id的開放資源的探查狀態(tài)、開放資源項的安全標(biāo)簽;以及對應(yīng)目錄的 探查狀態(tài)、目錄項的安全級別ADS層表:不做處理邏輯1:通過觸發(fā)器更新只需要對探查記錄表(ais_database_record)做觸發(fā)器即可,觸發(fā)類型(On Insert/Update/Delete),其他表關(guān)聯(lián)查詢產(chǎn)品表資產(chǎn)表安全同步中間庫數(shù)據(jù)共享脫敏方案脫敏探查數(shù)據(jù)同步 數(shù)據(jù)資產(chǎn)探查記錄表敏感數(shù)據(jù)表安全標(biāo)簽?zāi)夸涃Y產(chǎn)元數(shù)據(jù)委辦上報目錄:(CATA_TYPE_ =

20、1)掛載開放資源:通過 手動掛載 或者 平臺自動掛載時,根據(jù)元數(shù)據(jù)查詢 探查狀態(tài)、字段安全標(biāo)簽;保存到 開放資源、開放資源項中掛載原始資源:通過歸集消息 自動掛載 原始資源 或 手動掛載原始資源時,根據(jù)元數(shù)據(jù)查詢 探查狀態(tài)、字段安全標(biāo)簽;保存到 目錄、目錄項中平臺新增目錄(融合目錄):(CATA_TYPE_ = 2)掛載開放資源:通過 手動掛載 或者 平臺自動掛載時,根據(jù)元數(shù)據(jù)查詢 探查狀態(tài)、字段安全標(biāo)簽;保存到 開放資源、開放資源項、目錄、目錄項中掛載原始資源:無處理市級/國家目錄:不會通過資產(chǎn)平臺操作市級目錄和國家目錄邏輯2:通過業(yè)務(wù)操作更新資產(chǎn)后端用戶操作目錄、資源查詢寫入脫敏系統(tǒng)XH庫

21、實時同步敏感數(shù)據(jù)探查查詢數(shù)據(jù)共享脫敏方案數(shù)據(jù)庫劃分安全同步中間庫ais_mid應(yīng)用庫kun_dam探查記錄表敏感數(shù)據(jù)表安全標(biāo)簽?zāi)夸涃Y產(chǎn)元數(shù)據(jù)ais 用戶脫敏系統(tǒng)數(shù)據(jù)資產(chǎn)dam 用戶觸發(fā)器用戶權(quán)限劃分:1、ais用戶:具備ais_mid庫的 所有表的 insert/update/delete/select 權(quán)限2、dam用戶:具備 kun_dam 庫的所有權(quán)限具備 ais_mid 庫的 所有表的 select/create/drop/alter/trigger/create view 的權(quán)限數(shù)據(jù)共享脫敏方案相關(guān)問題確認database_record 每個XH湖中的表,最多再此表中僅有一條記錄?而

22、且每次探查后,record_time 都會更新?每個XH湖中的表,最多在此表中僅有一條記錄;record_time都會更新。sensitive_data_database 與 database_record 表的關(guān)聯(lián)字段是什么?兩個表的關(guān)系是否為:一條 database_record對應(yīng)多條 sensitive_data_database?sensitive_data_database與database_record沒有關(guān)聯(lián)關(guān)系sensitive_data_database是關(guān)系型數(shù)據(jù)庫敏感數(shù)據(jù)表,表示探測關(guān)系型數(shù)據(jù)庫后存在敏感數(shù)據(jù)的表,并記錄此表的字段和類型等信息;database_reco

23、rd是探測記錄表,只要此表被探測過,就會記表表sensitive_data_database中字段database_model_id、table_name與表database_record中字段database_model_id、table_name是匹配的。sensitive_data_database 與 sensitive_tag 表是多對多的關(guān)系?一個字段可能有 多個標(biāo)簽? 是多對多關(guān)系,一個敏感表字段可以對應(yīng)多個標(biāo)簽。幾個表有會有一些 狀態(tài)或刪除字段,可否給一個確認的說明?我們使用時認為每個表中的哪些數(shù)據(jù)是有效的? 表database_model 字段status = enable:

24、使用中,新增數(shù)據(jù)源的狀態(tài);disable:下線,刪除時的狀態(tài),屬于邏輯刪除 表sensitive_tag 字段status = enable:使用中 disable:禁止使用,此敏感標(biāo)簽失效數(shù)據(jù)入湖小文件合并背景實時數(shù)據(jù)的場景下,數(shù)據(jù)以流式方式入湖,存儲方式方式為:hyperbase表和hive的text表;其中text表對于每一次的入湖操作都會產(chǎn)生一次小文件影響從Hive的角度看,小文件會開很多map,一個map開一個JVM去執(zhí)行,所以這些任務(wù)的初始化,啟動,執(zhí)行會浪費大量的資源,嚴(yán)重影響性能HDFS存儲太多小文件, 會導(dǎo)致namenode元數(shù)據(jù)特別大, 占用太多內(nèi)存, 制約了集群的擴展解決

25、方案將SlipStream的參數(shù)(morphling.hdfs.flush.size、erval.ms)調(diào)大,減小每次入湖的頻率Text表創(chuàng)建為分區(qū)表,如:按天分區(qū);每天凌晨對前一天分區(qū)的小文件進行合并通過Inceptor的 INSERT OVERWRITE 的方式,合并每個分區(qū)下的小文件數(shù)據(jù)入湖小文件合并INSERT OVERWRITE 的驗證驗證說明:di.test_small_file_text 共 4個字段 , 1 個分區(qū)字段Part=1分區(qū) 共: 35782656 條數(shù)據(jù),672 個 3M 小文件驗證語句:set mapred.redu

26、ce.tasks=3;INSERT OVERWRITE table di.test_small_file_text PARTITION(part = 1) select id, name, date,remark from di.test_small_file_text where part = 1 distribute by rand() ; set mapred.reduce.tasks=-1;驗證結(jié)果:執(zhí)行時間: 148.338 秒合并后小文件個數(shù):3個,每個文件大小為:700M左右其他說明:根據(jù)不同場景、小文件個數(shù)、小文件大小,來決定 mapred.reduce.tasks 的值數(shù)據(jù)入

27、湖小文件合并參考資料distribute by :用來控制map輸出結(jié)果的分發(fā),即map端如何拆分?jǐn)?shù)據(jù)給reduce端。 會根據(jù)distribute by 后邊定義的列,根據(jù)reduce的個數(shù)進行數(shù)據(jù)分發(fā),默認是采用hash算法。當(dāng) distribute by 后邊跟的列是:rand()時,即保證每個分區(qū)的數(shù)據(jù)量基本一致mapred.reduce.tasks :reduce task的數(shù)量;在本例中:決定了 最終結(jié)果產(chǎn)生文件的數(shù)據(jù)量物聯(lián)實時數(shù)據(jù)入湖ODS層方案ODS-區(qū)政務(wù)庫SlipStreamkafka物聯(lián)實時數(shù)據(jù)Idreport_timeevent_timecontent(上報內(nèi)容,json存儲)12020-12-09 12:12:122020-12-09 12:12:12“firstName”:“Brett”,“l(fā)astName”:“McLaughlin”,“email”:“aaaa”, firstName,email示例表JSON格式存儲:

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論