版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
ICS25.040.40CCSL7021遼寧省市場監(jiān)督管理局發(fā)布IDB21/T3893—2023前言 2規(guī)范性引用文件 3術(shù)語和定義 4縮略語 5清洗目的 6清洗范圍 7過程要求 7.1清洗流程 7.2數(shù)據(jù)抽取 7.3定義規(guī)則 7.4數(shù)據(jù)過濾 7.5數(shù)據(jù)校驗 7.6錯誤標識 7.7修正處理 7.8數(shù)據(jù)轉(zhuǎn)換 7.9結(jié)果檢驗 7.10數(shù)據(jù)加載 8環(huán)境要求 8.1數(shù)據(jù)脫敏 8.2數(shù)據(jù)安全 8.3人員能力 9質(zhì)量要求 參考文獻 DB21/T3893—2023本文件按照GB/T1.1-2020《標準化工作導(dǎo)則第1部分:標準化文件的結(jié)構(gòu)和起草規(guī)則》的規(guī)定起請注意本文件的某些內(nèi)容可能涉及專利。本文件的發(fā)布機構(gòu)不承擔(dān)識別專利的責(zé)任。本文件由遼寧省工業(yè)和信息化廳提出并歸口。本文件起草單位:沈陽華睿博信息技術(shù)有限公司、國家計算機網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心遼寧分中心、遼寧艾特斯智能交通技術(shù)有限公司、遼寧職業(yè)學(xué)院、東北大學(xué)、上海數(shù)據(jù)交易所、遼寧省大數(shù)據(jù)管理中心、北京賽迪時代信息產(chǎn)業(yè)股份有限公司、遼寧省先進裝備制造業(yè)基地建設(shè)工程中心。本文件主要起草人:邵華、李凱、黃書鵬、王宇飛、宋憲輝、王義剛、申翔宇、譚振華、楊成實、張翔宇、魏國偉、劉洋。本文件發(fā)布實施后,任何單位和個人如有問題和意見建議,均可以通過來電和來函等方式進行反饋,我們將及時答復(fù)并認真處理,根據(jù)實際情況依法進行評估及復(fù)審。歸口管理部門通信地址:沈陽市遼寧省沈陽市皇姑區(qū)北陵大街45-2號。歸口管理部門聯(lián)系電話文件起草單位通訊地址:遼寧省沈陽市和平區(qū)青年大街386號華陽國際大廈2396。文件起草單位聯(lián)系電話1DB21/T3893—2023工業(yè)數(shù)據(jù)流通數(shù)據(jù)清洗規(guī)范本文件規(guī)定了工業(yè)數(shù)據(jù)清洗的過程要求、環(huán)境要求和質(zhì)量要求。本文件適用于數(shù)據(jù)流通中的工業(yè)數(shù)據(jù)清洗。2規(guī)范性引用文件下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,僅該日期對應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GB/T22239-2019信息安全技術(shù)網(wǎng)絡(luò)安全等級保護基本要求GB/T35274-2017信息安全技術(shù)大數(shù)據(jù)服務(wù)安全能力要求GB/T35295-2017信息技術(shù)大數(shù)據(jù)術(shù)語GB/T37973-2019信息安全技術(shù)大數(shù)據(jù)安全管理指南GB/T39477-2020信息安全技術(shù)政務(wù)信息共享數(shù)據(jù)安全技術(shù)要求GB/T42128-2022智能制造工業(yè)數(shù)據(jù)分類原則DA/T82-2019基于文檔型非關(guān)系型數(shù)據(jù)庫的檔案數(shù)據(jù)存儲規(guī)范3術(shù)語和定義下列術(shù)語和定義適用于本文件。3.1數(shù)據(jù)清洗datacleaning運用一定方法識別并修正數(shù)據(jù)問題,提高數(shù)據(jù)質(zhì)量的過程。3.2工業(yè)數(shù)據(jù)industrialdata在工業(yè)領(lǐng)域中,涉及企業(yè)的所有生產(chǎn)活動和服務(wù)所產(chǎn)生的數(shù)據(jù)。[來源:GB/T42128-2022,3.1.1]3.3結(jié)構(gòu)化數(shù)據(jù)structureddata一種數(shù)據(jù)表示形式,按此種形式,由數(shù)據(jù)元素匯集而成的每個記錄的結(jié)構(gòu)都是一致的并且可以使用關(guān)系模型予以有效描述。[來源:GB/T35295-2017,2.2.13]3.4非結(jié)構(gòu)化數(shù)據(jù)unstructureddata不具有預(yù)定義模型或未以預(yù)定義方式組織的數(shù)據(jù)。[來源:GB/T35295-2017,2.1.25]2DB21/T3893—20233.5半結(jié)構(gòu)化數(shù)據(jù)semi-structureddata具有結(jié)構(gòu)性,但結(jié)構(gòu)變化大,且難以用結(jié)構(gòu)化數(shù)據(jù)的處理方法將其放進二維表的數(shù)據(jù)。[來源:DA/T82-2019,2.8]3.6表結(jié)構(gòu)tablestructure為主體層內(nèi)容提供表示語義的一種存儲范例。[來源:GB/T35295-2017,2.2.14]3.7敏感數(shù)據(jù)sensitivedata由權(quán)威機構(gòu)確定的受保護的信息數(shù)據(jù)。[來源:GB/T35295-2017,2.2.14]4縮略語下列縮略語適用于本文件。ETL:數(shù)據(jù)的抽取、轉(zhuǎn)換、加載(ExtractTransformLoad)5清洗目的工業(yè)數(shù)據(jù)涉及到各種傳感器、監(jiān)測設(shè)備和生產(chǎn)設(shè)備,具有多樣性和異構(gòu)性,由于傳感器和設(shè)備的不穩(wěn)定性、及環(huán)境變化等因素影響,工業(yè)數(shù)據(jù)中存在大量錯誤數(shù)據(jù)、缺失數(shù)據(jù)和異常數(shù)據(jù)。工業(yè)數(shù)據(jù)清洗目的是清除或修正錯誤數(shù)據(jù)、缺失數(shù)據(jù)、異常數(shù)據(jù)或其他有問題的數(shù)據(jù),提高工業(yè)數(shù)據(jù)在建模分析、應(yīng)用開發(fā)、資源調(diào)度和監(jiān)測管理等方面的應(yīng)用價值,保障流通的工業(yè)數(shù)據(jù)質(zhì)量。6清洗范圍清洗范圍涵蓋工業(yè)領(lǐng)域產(chǎn)品和服務(wù)全生命周期產(chǎn)生和應(yīng)用的數(shù)據(jù),包括但不限于工業(yè)企業(yè)在研發(fā)設(shè)計、生產(chǎn)制造、供應(yīng)鏈物流、營銷、運維、管理及金融等環(huán)節(jié)中生成和使用的數(shù)據(jù),以及工業(yè)互聯(lián)網(wǎng)平臺企業(yè)在設(shè)備接入、平臺運行、工業(yè)應(yīng)用程序使用等過程中生成和使用的數(shù)據(jù)。各類型數(shù)據(jù)說明如下:a)研發(fā)設(shè)計數(shù)據(jù):包括研發(fā)設(shè)計數(shù)據(jù)、開發(fā)測試數(shù)據(jù)等;b)生產(chǎn)制造數(shù)據(jù):包括控制信息、工況狀態(tài)、工藝參數(shù)、系統(tǒng)日志、生產(chǎn)質(zhì)量數(shù)據(jù)、生產(chǎn)實績數(shù)據(jù)c)供應(yīng)鏈物流數(shù)據(jù):包括供需計劃數(shù)據(jù)、倉儲物流數(shù)據(jù)等;d)營銷數(shù)據(jù):包括投標次數(shù)、訂單數(shù)量、交易金融、客戶異議數(shù)據(jù)等;e)運維數(shù)據(jù):包括產(chǎn)品運行狀況數(shù)據(jù)、產(chǎn)品售后服務(wù)數(shù)據(jù)等;f)管理數(shù)據(jù):包括客戶基本信息、業(yè)務(wù)合作數(shù)據(jù)、人事財務(wù)數(shù)據(jù)、系統(tǒng)設(shè)備資產(chǎn)信息、產(chǎn)品基本信息、項目進度數(shù)據(jù)、業(yè)務(wù)統(tǒng)計數(shù)據(jù)(如資源量數(shù)據(jù)、能耗監(jiān)測數(shù)據(jù)等g)金融數(shù)據(jù):包括信貸數(shù)據(jù)、融資租賃數(shù)據(jù)、征信數(shù)據(jù)等;3DB21/T3893—2023h)平臺運營數(shù)據(jù):接入的設(shè)備數(shù)據(jù)、工業(yè)模型數(shù)據(jù)、工業(yè)應(yīng)用程序數(shù)據(jù)、平臺運行數(shù)據(jù)等。7過程要求7.1清洗流程工業(yè)數(shù)據(jù)清洗流程包括數(shù)據(jù)抽取、定義規(guī)則、數(shù)據(jù)過濾、數(shù)據(jù)校驗、錯誤標識、修正處理、數(shù)據(jù)轉(zhuǎn)換、結(jié)果檢驗及數(shù)據(jù)加載等環(huán)節(jié)。工業(yè)數(shù)據(jù)清洗可采取ETL流程。工業(yè)數(shù)據(jù)清洗ETL流程圖見圖1。圖1工業(yè)數(shù)據(jù)清洗ETL流程圖7.2數(shù)據(jù)抽取數(shù)據(jù)抽取應(yīng)符合以下要求:a)應(yīng)具備全量抽取和增量抽取兩種方式;b)數(shù)據(jù)抽取來源應(yīng)能支撐抽取操作,使用生產(chǎn)庫,或通過前置庫等方式進行抽取;c)應(yīng)支持結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)等不同類型數(shù)據(jù)的抽?。籨)數(shù)據(jù)抽取目的地的存儲容量應(yīng)能支持數(shù)據(jù)抽取來源的數(shù)據(jù)總量,數(shù)據(jù)抽取目的地的表結(jié)構(gòu)應(yīng)與數(shù)據(jù)抽取來源的表結(jié)構(gòu)保持一致;e)增量抽取應(yīng)確定增量更新的方式,抽取的數(shù)據(jù)應(yīng)有字段可區(qū)分,如更新時間等。7.3定義規(guī)則4DB21/T3893—2023應(yīng)分析抽取目標數(shù)據(jù)的范圍、體量、類型、內(nèi)容、關(guān)系、質(zhì)量等信息,全面認識數(shù)據(jù)情況。數(shù)據(jù)清洗針對的對象主要有缺失值、異常值、重復(fù)值和無用值,針對不同對象的不同形式,結(jié)合應(yīng)用需求,確定數(shù)據(jù)清洗目標和規(guī)則,從而得到期望的數(shù)據(jù)。針對不同的清洗對象,清洗規(guī)則包括:a)缺失值清洗:按照缺失比例和缺失字段重要性,制定清洗策略;b)異常值清洗:針對取值錯誤、格式錯誤和邏輯錯誤制定不同的清洗策略;c)重復(fù)值:重復(fù)數(shù)據(jù)可以去重或作出標記;d)無用值:無用數(shù)據(jù)字段可以直接進行刪除。但在進行該過程的時候,要注意備份原始數(shù)據(jù)。7.4數(shù)據(jù)過濾數(shù)據(jù)過濾應(yīng)包括以下操作:a)將非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù);b)對噪聲數(shù)據(jù)進行刪除;c)對業(yè)務(wù)數(shù)據(jù)中不符合應(yīng)用規(guī)則的數(shù)據(jù)進行刪除;d)過濾刪除掉的數(shù)據(jù)應(yīng)存入問題數(shù)據(jù)庫表,便于后續(xù)查證或重新使用。7.5數(shù)據(jù)校驗7.5.1基本要求應(yīng)對工業(yè)數(shù)據(jù)進行非空校驗、長度校驗、數(shù)據(jù)量校驗、數(shù)據(jù)類型和值校驗。當(dāng)不滿足校驗要求時,應(yīng)進行數(shù)據(jù)錯誤標識;當(dāng)滿足校驗要求時,直接進行數(shù)據(jù)轉(zhuǎn)換。7.5.2非空校驗應(yīng)在字段為非空的情況下,對該字段數(shù)據(jù)進行校驗,數(shù)據(jù)不能為空值。7.5.3長度校驗數(shù)據(jù)長度應(yīng)滿足轉(zhuǎn)換要求的字段長度。7.5.4數(shù)據(jù)量校驗過濾后的數(shù)據(jù)總量應(yīng)與原始抽取的數(shù)據(jù)總量吻合。7.5.5數(shù)據(jù)類型和值校驗數(shù)據(jù)類型和值應(yīng)能支持后續(xù)數(shù)據(jù)轉(zhuǎn)換過程,如后續(xù)根據(jù)定義規(guī)則需要將時間字符串?dāng)?shù)據(jù)轉(zhuǎn)換成時間類型時,還需檢驗時間字符串類型的數(shù)據(jù)是否符合時間格式。7.6錯誤標識7.6.1錯誤類型工業(yè)數(shù)據(jù)的錯誤類型包括但不限于:a)殘缺數(shù)據(jù):缺一些記錄,或一條記錄里缺一些值(空值),或兩者都缺;b)錯誤數(shù)據(jù):數(shù)據(jù)沒有嚴格按照規(guī)范記錄,包括格式內(nèi)容錯誤、邏輯錯誤、不合規(guī)等;c)重復(fù)數(shù)據(jù):相同的記錄出現(xiàn)多條或多條記錄代表同一實體。7.6.2識別方法5DB21/T3893—2023可采用統(tǒng)計學(xué)方法、數(shù)據(jù)挖掘、基于聚類的方法、基于距離的方法、基于分類的方法、基于關(guān)聯(lián)規(guī)則的方法、業(yè)務(wù)區(qū)分等方式分析數(shù)據(jù),從而識別出數(shù)據(jù)的錯誤類型。7.6.3標識步驟錯誤標識步驟如下:a)按7.6.2推薦的識別方法,分析篩選出工業(yè)數(shù)據(jù)資源中存在的數(shù)據(jù)問題;b)按7.6.1給出的錯誤類型,對數(shù)據(jù)問題進行分類,標識錯誤。7.7修正處理7.7.1殘缺數(shù)據(jù)處理7.7.1.1處理策略殘缺數(shù)據(jù)按照字段缺失率和字段重要性,分別制定處理策略。殘缺數(shù)據(jù)處理策略制定應(yīng)滿足以下內(nèi)容:a)重要性高、缺失率低:通過計算進行填充;通過經(jīng)驗或業(yè)務(wù)知識估計;b)重要性高、缺失率高:嘗試從其他渠道取數(shù)補全;使用其他字段通過計算獲取;去除字段并在結(jié)果中標明;c)重要性低、缺失率低:不做處理或簡單填充;d)重要性低、缺失率高:去除該字段。7.7.1.2去除字段處理數(shù)據(jù)中如有多余字段,應(yīng)備份當(dāng)前數(shù)據(jù),直接刪除掉不需要的字段。7.7.1.3填充缺失內(nèi)容處理應(yīng)采用以下方式填充缺失內(nèi)容:a)同指標的計算結(jié)果填充:通過數(shù)據(jù)項與數(shù)據(jù)項之間的邏輯聯(lián)系,采取一定的列項拆分、列計算等方式得到缺失內(nèi)容;b)同一指標的計算結(jié)果填充:采取均值、中位數(shù)、眾數(shù)等方式進行填充;c)重新獲?。寒?dāng)缺失率高且非常重要的數(shù)據(jù)項,應(yīng)采取重新抽取不同數(shù)據(jù)源的數(shù)據(jù)進行關(guān)聯(lián)對比填7.7.1.4取數(shù)補全處理應(yīng)通過線下收集、業(yè)務(wù)知識或經(jīng)驗推測補全缺失值。7.7.2錯誤數(shù)據(jù)處理7.7.2.1格式內(nèi)容問題處理格式內(nèi)容問題數(shù)據(jù)處理應(yīng)采用以下方法:a)全、半角處理:通過正則表達式將全、半角符號按照事先定義的規(guī)則進行全、半角符號統(tǒng)一;b)有不該存在的字符:以半自動校驗結(jié)合半人工方式來找出存在的問題,自動去除不需要的字符,將數(shù)據(jù)自動化統(tǒng)一或人工修正為正確字符;c)內(nèi)容與字段不匹配:詳細識別問題類型,如人工填寫錯誤、前端沒有校驗、導(dǎo)入數(shù)據(jù)時部分或全部存在列沒有對齊、數(shù)據(jù)源端業(yè)務(wù)系統(tǒng)缺陷等,不能直接刪除,應(yīng)按照清洗規(guī)則,采取加入更多數(shù)據(jù)源進行數(shù)據(jù)關(guān)聯(lián),找到匹配的相應(yīng)字段進行填補。7.7.2.2邏輯問題處理6DB21/T3893—2023邏輯問題數(shù)據(jù)處理應(yīng)采用以下方法:a)了解數(shù)據(jù)潛在的邏輯規(guī)則,采取邏輯推理法,直接去掉一些使用簡單邏輯推理即可發(fā)現(xiàn)問題的數(shù)據(jù);b)對于不重要的不合理數(shù)據(jù)應(yīng)過濾,形成錯誤數(shù)據(jù)集由數(shù)源部門進行確認是否可刪除;c)通過字段間相互驗證的方法修正矛盾內(nèi)容,如根據(jù)字段的數(shù)據(jù)來源,判定哪個字段提供的信息更可靠,去除或重構(gòu)不可靠字段;d)通過分箱、聚類、回歸等方法識別離群值(異常值),按照經(jīng)驗和業(yè)務(wù)流程判斷其合理性,若合理,則保留該數(shù)值;若不合理,對重要性較高而無法重新采集的數(shù)值,按缺失數(shù)據(jù)處理,對重要性較低的數(shù)值,可直接刪除;e)對于復(fù)雜邏輯數(shù)據(jù)問題應(yīng)咨詢了解該數(shù)據(jù)的產(chǎn)生原因,按照協(xié)商的清洗加工規(guī)則進行處理。7.7.2.3不合規(guī)問題處理不合規(guī)問題數(shù)據(jù)處理應(yīng)采用以下方法:a)設(shè)定判定規(guī)則:設(shè)定強制合規(guī)條件,對于不在規(guī)則范圍內(nèi)的數(shù)據(jù),應(yīng)強制設(shè)置最大值及最小值,或剔除、判斷為無效字段;b)設(shè)定警告規(guī)則:對于不在規(guī)則范圍內(nèi)的數(shù)據(jù),應(yīng)進行警告及人工處理。7.7.3重復(fù)數(shù)據(jù)處理重復(fù)數(shù)據(jù)處理步驟如下:a)通過元數(shù)據(jù)血緣關(guān)系查詢到重復(fù)數(shù)據(jù)的各個來源;b)通過數(shù)據(jù)主鍵或?qū)ふ蚁嚓P(guān)信息識別重復(fù)數(shù)據(jù)的含義,不是相同含義的數(shù)據(jù)不能界定為重復(fù)數(shù)據(jù)進行去重處理,應(yīng)分別保留;c)查詢到確定的重復(fù)數(shù)據(jù),根據(jù)權(quán)威性和應(yīng)用場合,選擇最恰當(dāng)渠道來源的數(shù)據(jù),或在不影響數(shù)據(jù)保真度和完整性的情況下進行合并處理。7.8數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)轉(zhuǎn)換應(yīng)符合以下要求:a)數(shù)據(jù)轉(zhuǎn)換應(yīng)在數(shù)據(jù)校驗通過后開始;b)數(shù)據(jù)轉(zhuǎn)換開始前應(yīng)檢查需要轉(zhuǎn)換的數(shù)據(jù)規(guī)則和字段是否一致;c)應(yīng)實現(xiàn)對數(shù)據(jù)的格式、信息代碼、值的沖突進行轉(zhuǎn)換;1)將各類日期統(tǒng)一轉(zhuǎn)換為八位的字符日期,如YYYYMMDD。2)將各類時間統(tǒng)一轉(zhuǎn)換為六位的字符時間,如HHMMSS。3)將各類時序數(shù)據(jù)的時間日期統(tǒng)一轉(zhuǎn)換為十四位的字符時間日期,如YYYYMMDDHHMMSS。1)將人員性別數(shù)據(jù)統(tǒng)一轉(zhuǎn)換為國際性別信息代碼。2)將組織地址數(shù)據(jù)統(tǒng)一轉(zhuǎn)換為行政區(qū)劃代碼。3)將組織名稱統(tǒng)一轉(zhuǎn)換為統(tǒng)一社會信用代碼。d)轉(zhuǎn)換后的數(shù)據(jù)結(jié)構(gòu)應(yīng)與目標數(shù)據(jù)庫的結(jié)構(gòu)相兼容;e)數(shù)據(jù)向目標移動時,將其從源數(shù)據(jù)中移除,或數(shù)據(jù)復(fù)制到多個目標中;f)轉(zhuǎn)換失敗應(yīng)立即停止,開始查找問題;g)長時間未轉(zhuǎn)換結(jié)束,需仔細核查數(shù)據(jù)量、規(guī)則和字段是否一致,如有問題應(yīng)立即停止;h)應(yīng)在解決查找到的問題后再開始數(shù)據(jù)轉(zhuǎn)換。7.9結(jié)果檢驗7DB21/T3893—20237.9.1檢驗內(nèi)容檢驗內(nèi)容應(yīng)包括:a)主鍵重復(fù):檢驗多個業(yè)務(wù)系統(tǒng)中同類數(shù)據(jù)經(jīng)過清洗后,在統(tǒng)一保存時,主鍵的唯一性;b)非法代碼、非法值:檢查個別字段出現(xiàn)的異常信息,包括非法代碼、代碼與數(shù)據(jù)標準不一致、取值錯誤、格式錯誤、多余字符、亂碼等;c)數(shù)據(jù)格式:檢驗表中屬性值的格式是否正確,衡量其準確性,如時間格式、幣種格式、業(yè)務(wù)部門格式、物料格式等;d)記錄數(shù):檢驗各個系統(tǒng)相關(guān)數(shù)據(jù)之間的數(shù)據(jù)總數(shù)或檢驗數(shù)據(jù)表中每日數(shù)據(jù)量的波動;e)業(yè)務(wù)約束:應(yīng)從業(yè)務(wù)的角度檢驗數(shù)據(jù)的正確性、一致性、有效性等,如出(入)庫日期、客戶(供應(yīng)商)基本信息、設(shè)備運行信息等;f)標準約束:對照系統(tǒng)數(shù)據(jù)應(yīng)符合的標準進行校驗。7.9.2結(jié)果要求7.9.2.1規(guī)范性數(shù)據(jù)的質(zhì)量及存儲標準應(yīng)統(tǒng)一,源數(shù)據(jù)應(yīng)在源頭或備份表中能找到,數(shù)據(jù)在字段、記錄內(nèi)容或數(shù)據(jù)集內(nèi)不應(yīng)有重復(fù)值。7.9.2.2完整性數(shù)據(jù)集合中應(yīng)包含足夠的數(shù)據(jù)來響應(yīng)各種查詢和支持各種計算。數(shù)據(jù)完整性體現(xiàn)在以下方面:a)元數(shù)據(jù)的完整性,例如:唯一性約束完整性、參照完整性等;b)數(shù)據(jù)條目完整性,例如:數(shù)據(jù)記錄丟失或不可用會影響數(shù)據(jù)的完整性等;c)數(shù)據(jù)屬性完整性,例如:數(shù)據(jù)屬性空值情況等。7.9.2.3準確性數(shù)據(jù)所指內(nèi)容對數(shù)據(jù)所指對象的反應(yīng)、表現(xiàn)應(yīng)準確,數(shù)據(jù)形式對數(shù)據(jù)內(nèi)容的表述、表達應(yīng)準確。7.9.2.4一致性數(shù)據(jù)一致性應(yīng)符合以下要求:a)同一個數(shù)據(jù)在同一時刻在不同數(shù)據(jù)庫、應(yīng)用和系統(tǒng)中應(yīng)只有一個值;b)數(shù)據(jù)字段內(nèi)數(shù)據(jù)應(yīng)與字段描述一致;c)最終結(jié)果數(shù)據(jù)的統(tǒng)計量應(yīng)與預(yù)測一致;d)數(shù)據(jù)項應(yīng)在取值范圍、單位、精度等方面保持一致。7.9.2.5時效性不同類型的應(yīng)用對數(shù)據(jù)的時間特性有不同的要求,數(shù)據(jù)的時間特性應(yīng)滿足業(yè)務(wù)應(yīng)用的要求,數(shù)據(jù)記錄應(yīng)根據(jù)時間特性及時更新。7.9.2.6可訪問性數(shù)據(jù)來源穩(wěn)定,數(shù)據(jù)結(jié)果應(yīng)支撐后續(xù)業(yè)務(wù)。7.9.3檢驗步驟結(jié)果檢驗應(yīng)包括以下步驟:a)按7.9.1規(guī)定檢驗清洗加工后的數(shù)據(jù)資源情況;8DB21/T3893—2023b)按7.9.2要求核對數(shù)據(jù)資源達標情況;c)當(dāng)數(shù)據(jù)資源未達到7.9.2要求,應(yīng)返回再次進行數(shù)據(jù)轉(zhuǎn)換;d)當(dāng)數(shù)據(jù)資源達到7.9.2要求,應(yīng)進行數(shù)據(jù)加載或結(jié)束數(shù)據(jù)清洗。7.10數(shù)據(jù)加載數(shù)據(jù)加載應(yīng)滿足以下要求:a)數(shù)據(jù)價值方式應(yīng)匹配數(shù)據(jù)抽取方式,包含全量加載、增量加載,如海量數(shù)據(jù)、數(shù)據(jù)變化比較規(guī)律、變化數(shù)據(jù)相對總量較小、業(yè)務(wù)系統(tǒng)能直接提供增量數(shù)據(jù)時,宜使用增量加載;b)數(shù)據(jù)加載環(huán)境應(yīng)能支撐相應(yīng)數(shù)據(jù);c)數(shù)據(jù)加載工具具有高效的加載性能,應(yīng)能至少滿足業(yè)務(wù)需求;d)數(shù)據(jù)加載策略應(yīng)考慮數(shù)據(jù)加載周期和數(shù)據(jù)追加策略;e)數(shù)據(jù)加載應(yīng)記錄日志,并按相關(guān)規(guī)定留存日志文件;f)數(shù)據(jù)加載過程可根據(jù)實際操作情況,在定義規(guī)則過程前進行。8環(huán)境要求8.1數(shù)據(jù)脫敏8.1.1脫敏流程應(yīng)在保證敏感信息不被泄露的環(huán)境下進行工業(yè)數(shù)據(jù)清洗,工業(yè)數(shù)據(jù)脫敏工作流程包括發(fā)現(xiàn)敏感數(shù)據(jù)、標識敏感數(shù)據(jù)、確定脫敏方法、定義脫敏規(guī)則、執(zhí)行脫敏操作和評估脫敏效果等環(huán)節(jié)。8.1.2發(fā)現(xiàn)敏感數(shù)據(jù)基于工業(yè)數(shù)據(jù)分類分級制度,在完整的數(shù)據(jù)范圍內(nèi)查找并發(fā)現(xiàn)敏感數(shù)據(jù),并明確敏感數(shù)據(jù)結(jié)構(gòu)化或非結(jié)構(gòu)化的數(shù)據(jù)表現(xiàn)形態(tài),如敏感數(shù)據(jù)固定的字段格式。在發(fā)現(xiàn)敏感數(shù)據(jù)過程中,應(yīng)滿足以下內(nèi)容:a)定義數(shù)據(jù)脫敏工作執(zhí)行的范圍,應(yīng)在該范圍內(nèi)執(zhí)行敏感數(shù)據(jù)的發(fā)現(xiàn)工作;b)應(yīng)通過對數(shù)據(jù)表名稱、字段名稱、數(shù)據(jù)記錄內(nèi)容、數(shù)據(jù)表備注、數(shù)據(jù)文件內(nèi)容等直接匹配或正則表達式匹配發(fā)現(xiàn)敏感數(shù)據(jù);c)宜考慮數(shù)據(jù)引用的完整性,如保證數(shù)據(jù)庫的引用完整性約束;d)數(shù)據(jù)發(fā)現(xiàn)手段應(yīng)支持主流的數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)倉庫系統(tǒng)、文件系統(tǒng),同時應(yīng)支持云計算環(huán)境下的主流新型存儲系統(tǒng);e)宜利用自動識別工具執(zhí)行數(shù)據(jù)發(fā)現(xiàn)工作,并降低該過程對生產(chǎn)系統(tǒng)的影響;f)數(shù)據(jù)發(fā)現(xiàn)工具應(yīng)具有擴展機制,可根據(jù)業(yè)務(wù)需要自定義敏感數(shù)據(jù)的發(fā)現(xiàn)邏輯;g)應(yīng)固化常用的敏感數(shù)據(jù)發(fā)現(xiàn)規(guī)則,例如身份證號、手機號等敏感數(shù)據(jù)的發(fā)現(xiàn)規(guī)則,避免重復(fù)定義數(shù)據(jù)發(fā)現(xiàn)規(guī)則。8.1.3標識敏感數(shù)據(jù)在發(fā)現(xiàn)敏感數(shù)據(jù)后,應(yīng)對敏感數(shù)據(jù)進行標識,包括標識敏感數(shù)據(jù)的位置、敏感數(shù)據(jù)的格式等信息。敏感數(shù)據(jù)的標識方法應(yīng)確保敏感數(shù)據(jù)標識信息能夠隨敏感數(shù)據(jù)一起流動,并不易于刪除和篡改,從而可以對敏感數(shù)據(jù)的訪問、傳輸和處理進行跟蹤和監(jiān)督,以確保敏感數(shù)據(jù)的安全合規(guī)性。在標識敏感數(shù)據(jù)時,應(yīng)滿足以下內(nèi)容:a)應(yīng)盡早在數(shù)據(jù)的收集階段就對敏感數(shù)據(jù)進行識別和標識,這樣便于在數(shù)據(jù)的整個生命周期階段對敏感數(shù)據(jù)進行有效管理;9DB21/T3893—2023b)敏感數(shù)據(jù)的標識方法應(yīng)考慮便捷性和安全性,使得標識后的數(shù)據(jù)很容易被識別,同時,要確保敏感數(shù)據(jù)標識信息不容易被惡意攻擊者刪除和篡改;c)敏感數(shù)據(jù)的標識方法應(yīng)支持靜態(tài)數(shù)據(jù)的敏感標識及動態(tài)流數(shù)據(jù)的敏感標識。8.1.4確定脫敏方法可選的數(shù)據(jù)脫敏方法包括靜態(tài)數(shù)據(jù)脫敏和動態(tài)數(shù)據(jù)脫敏。不同的數(shù)據(jù)脫敏方法對數(shù)據(jù)源的影響不同,脫敏的時效性也不一樣。脫敏方法確定后,可選擇對應(yīng)的數(shù)據(jù)脫敏工具。在確定數(shù)據(jù)脫敏方案時,應(yīng)滿足以下內(nèi)容:a)靜態(tài)數(shù)據(jù)脫敏方法是對原始數(shù)據(jù)進行一次脫敏,脫敏后的結(jié)果數(shù)據(jù)可以多次使用,適合使用場景比較單一的場合;b)動態(tài)數(shù)據(jù)脫敏方法是在敏感數(shù)據(jù)顯示時,針對不同用戶需求,對顯示數(shù)據(jù)進行屏蔽處理的數(shù)據(jù)脫敏方式,它要求系統(tǒng)有安全措施確保用戶不能夠繞過數(shù)據(jù)脫敏層次直接接觸敏感數(shù)據(jù)。動態(tài)數(shù)據(jù)脫敏適合用戶需求不確定、使用場景復(fù)雜的情形。8.1.5定義脫敏規(guī)則在敏感數(shù)據(jù)生命周期識別的基礎(chǔ)上,應(yīng)明確存在數(shù)據(jù)脫敏需求的業(yè)務(wù)場景,并結(jié)合行業(yè)法規(guī)的要求和業(yè)務(wù)場景的需求,制定相應(yīng)業(yè)務(wù)場景下有效的數(shù)據(jù)脫敏規(guī)則。在定義脫敏規(guī)則過程中,應(yīng)滿足以下內(nèi)容:a)應(yīng)遵循的個人隱私保護、數(shù)據(jù)安全保護等關(guān)鍵領(lǐng)域的國內(nèi)外法規(guī)、行業(yè)監(jiān)管規(guī)范或標準,以此作為數(shù)據(jù)脫敏規(guī)則必須遵循的原則;b)對已識別出的敏感數(shù)據(jù)執(zhí)行全生命周期(產(chǎn)生、采集、使用、交換、銷毀)流程的梳理,應(yīng)明確在全生命周期各階段,用戶對數(shù)據(jù)的訪問需求和當(dāng)前的權(quán)限設(shè)置情況,分析整理出存在數(shù)據(jù)脫敏需求的業(yè)務(wù)場景。例如,在梳理過程中,會發(fā)現(xiàn)存在對敏感數(shù)據(jù)的訪問需求和訪問權(quán)限不匹配的情況(用戶僅需獲取敏感數(shù)據(jù)中部分內(nèi)容即可,但卻擁有對敏感數(shù)據(jù)內(nèi)容全部的訪權(quán)限),因此該業(yè)務(wù)場景存在敏感數(shù)據(jù)的脫敏需求;c)分析存在數(shù)據(jù)脫敏需求的業(yè)務(wù)場景,在“最小夠用”的原則下明確待脫敏的數(shù)據(jù)內(nèi)容、符合業(yè)務(wù)需求的脫敏方式,以及該業(yè)務(wù)的服務(wù)水平方面的要求,以便于脫敏規(guī)則的制定;d)數(shù)據(jù)脫敏工具應(yīng)提供擴展機制,從而讓用戶可根據(jù)需求自定義脫敏的方法;e)通過數(shù)據(jù)脫敏工具選擇數(shù)據(jù)脫敏方法時,脫敏工具中應(yīng)對各類方法的使用進行詳細的說明,說明應(yīng)包括但不限于規(guī)則的實現(xiàn)原理、數(shù)據(jù)引用完整性影響、數(shù)據(jù)語義完整性影響、數(shù)據(jù)分布頻率影響、約束和限制等,以支撐脫敏工具的使用者在選擇脫敏方式時做出正確的選擇;f)應(yīng)固化常用的敏感數(shù)據(jù)脫敏規(guī)則,例如身份證號、手機號等的常用脫敏規(guī)則,避免數(shù)據(jù)脫敏項目實施過程中重復(fù)定義數(shù)據(jù)脫敏規(guī)則。8.1.6執(zhí)行脫敏操作數(shù)據(jù)脫敏操作可包括條數(shù)據(jù)脫敏和塊數(shù)據(jù)脫敏。條數(shù)據(jù)脫敏是對單條數(shù)據(jù)根據(jù)脫敏規(guī)則實施脫敏,塊數(shù)據(jù)脫敏是對聚合數(shù)據(jù)實施脫敏。在日常的脫敏工作中,監(jiān)控分析數(shù)據(jù)脫敏過程的穩(wěn)定性、以及對業(yè)務(wù)的影響性,同時對脫敏工作開展定期的安全審計,已發(fā)現(xiàn)脫敏工作中存在的安全風(fēng)險。在執(zhí)行脫敏操作過程中,應(yīng)滿足以下內(nèi)容:a)支持從數(shù)據(jù)源克隆數(shù)據(jù)到新環(huán)境(例如從生產(chǎn)環(huán)境、備份庫克隆數(shù)據(jù)到新環(huán)境),并在新環(huán)境中進行脫敏過程的執(zhí)行,也支持在數(shù)據(jù)源端直接進行脫敏;b)對脫敏任務(wù)的管理,宜考慮采用自動化管理的方式提升任務(wù)管理效率,例如定時、條件設(shè)置的方式觸發(fā)脫敏任務(wù)的執(zhí)行;c)執(zhí)行對脫敏任務(wù)的運行監(jiān)控,宜考慮任務(wù)執(zhí)行的穩(wěn)定性以及脫敏任務(wù)對業(yè)務(wù)的影響;10DB21/T3893—2023d)設(shè)置專人定期對數(shù)據(jù)脫敏的相關(guān)日志記錄進行安全審計,發(fā)布審計報告,并跟進審計中發(fā)現(xiàn)的例外和異常,審計應(yīng)重點關(guān)注高權(quán)限賬號的操作日志和脫敏工作的記錄日志。8.1.7評估脫敏效果通過收集、整理數(shù)據(jù)脫敏工作執(zhí)行的數(shù)據(jù),例如相關(guān)監(jiān)控數(shù)據(jù)、審計數(shù)據(jù),對數(shù)據(jù)脫敏的前期工作開展情況進行反饋,從而優(yōu)化相關(guān)規(guī)程,明確數(shù)據(jù)脫敏過程中應(yīng)滿足的內(nèi)容。在評估脫敏效果過程中,應(yīng)滿足以下內(nèi)容:a)利用測試工具評估脫敏后數(shù)據(jù)對應(yīng)用系統(tǒng)的功能、性能影響,從而明確對整體業(yè)務(wù)服務(wù)水平的影響,測試負載宜盡量保證與生產(chǎn)環(huán)境一致,宜盡量提供從生產(chǎn)環(huán)境克隆數(shù)據(jù)訪問負載到脫敏系統(tǒng)進行回放測試的功能;b)應(yīng)根據(jù)組織業(yè)務(wù)發(fā)展的情況和脫敏工作執(zhí)行的反饋,優(yōu)化數(shù)據(jù)脫敏工作開展的規(guī)程。8.2數(shù)據(jù)安全應(yīng)在與互聯(lián)網(wǎng)隔絕的安全環(huán)境下清洗工業(yè)數(shù)據(jù),環(huán)境應(yīng)支持數(shù)據(jù)可存儲、可轉(zhuǎn)化,工業(yè)數(shù)據(jù)清洗應(yīng)符合GB/T22239-2019、GB/T35274-2017和GB/T37973-2019的相關(guān)要求,確保工業(yè)數(shù)據(jù)的保密性和完整性。8.3人員能力工業(yè)數(shù)據(jù)清洗人員應(yīng)經(jīng)過相應(yīng)的技術(shù)和安全培訓(xùn),具有數(shù)據(jù)清洗的能力,取得相關(guān)業(yè)務(wù)領(lǐng)域的數(shù)據(jù)管理認證資格,并能按照數(shù)據(jù)安全管理相關(guān)制度完成工業(yè)數(shù)據(jù)清洗工作。9質(zhì)量要求清洗后的工業(yè)數(shù)據(jù)應(yīng)符合數(shù)據(jù)流通的質(zhì)量管理要求,工業(yè)數(shù)據(jù)質(zhì)量特性包括
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年政府公共安全監(jiān)控技術(shù)合同范本3篇
- 2024年版建設(shè)項目招標協(xié)調(diào)合同
- 三年級教學(xué)計劃3篇
- 員工工作計劃
- 2024-2030年中國羥甲煙胺片行業(yè)發(fā)展?jié)摿︻A(yù)測及投資戰(zhàn)略研究報告
- 服裝銷售工作計劃
- 學(xué)習(xí)部工作計劃4篇
- 去超市實習(xí)報告范文集合7篇
- 銀行員工辭職信
- 關(guān)于教師職稱述職報告匯編5篇
- 部編版語文四年級下冊第二單元大單元教學(xué)設(shè)計核心素養(yǎng)目標
- 2024年小學(xué)教師聽課、評課制度
- 精品解析:河北省衡水市衡水中學(xué)2023-2024學(xué)年高一上學(xué)期期末數(shù)學(xué)試題(解析版)
- 2023年《鐵道概論》考試復(fù)習(xí)題庫附答案(含各題型)
- (電焊工)勞務(wù)分包合同
- 陜西省西安市西咸新區(qū)2023-2024學(xué)年七年級上學(xué)期1月期末歷史試題
- 北師大版數(shù)學(xué)三年級下冊全冊教案教學(xué)設(shè)計及教學(xué)反思
- 重難點06讀后續(xù)寫-2023年高考英語【熱點·重點·難點】(新高考專用)
- 眼科手術(shù)圍手術(shù)期的護理
- 人事行政主管打造高效團隊提升員工滿意度實現(xiàn)人力資源的優(yōu)化管理和企業(yè)文化的建設(shè)
- 《腰椎穿刺術(shù)》課件
評論
0/150
提交評論