




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、精選優(yōu)質(zhì)文檔-傾情為你奉上精選優(yōu)質(zhì)文檔-傾情為你奉上專心-專注-專業(yè)專心-專注-專業(yè)精選優(yōu)質(zhì)文檔-傾情為你奉上專心-專注-專業(yè)數(shù)據(jù)質(zhì)量管理2019年7月29日目錄 TOC o 1-3 h z u 數(shù)據(jù)質(zhì)量管理概述數(shù)據(jù)質(zhì)量管理定義數(shù)據(jù)質(zhì)量管理(Data Quality Management),是指對(duì)數(shù)據(jù)從計(jì)劃、獲取、存儲(chǔ)、共享、維護(hù)、應(yīng)用、消亡生命周期的每個(gè)階段里可能引發(fā)的各類數(shù)據(jù)質(zhì)量問(wèn)題,進(jìn)行識(shí)別、度量、監(jiān)控、預(yù)警等一系列管理活動(dòng),并通過(guò)改善和提高組織的管理水平使得數(shù)據(jù)質(zhì)量獲得進(jìn)一步提高。DAMA(國(guó)際數(shù)據(jù)管理協(xié)會(huì))中對(duì)數(shù)據(jù)質(zhì)量管理的闡述如下:數(shù)據(jù)質(zhì)量預(yù)期為定義數(shù)據(jù)質(zhì)量框架提供必要的輸入。此框
2、架包括定義需求、定義檢查策略、定義度量和定義反映數(shù)據(jù)質(zhì)量和績(jī)效變化的監(jiān)控措施。這些需求反映了業(yè)務(wù)數(shù)據(jù)預(yù)期的3個(gè)方面:以一種方式將數(shù)據(jù)預(yù)期記錄在業(yè)務(wù)規(guī)則中,以一種方式在該維度上度量數(shù)據(jù)質(zhì)量,以及一個(gè)可接受度的閾值。數(shù)據(jù)質(zhì)量管理評(píng)價(jià)標(biāo)準(zhǔn)數(shù)據(jù)質(zhì)量度量的規(guī)則有很多,一般常用的如下:一致性:一致性是指統(tǒng)一數(shù)據(jù)來(lái)源、統(tǒng)一存儲(chǔ)和統(tǒng)一數(shù)據(jù)口徑,確保一個(gè)數(shù)據(jù)集的數(shù)值和另一個(gè)數(shù)據(jù)集的數(shù)值一致,一致性主要考察的是業(yè)務(wù)約束檢查;有效性:有效性是指數(shù)據(jù)實(shí)例的存儲(chǔ)、交換或針線的格式是否與數(shù)據(jù)值域一致,是否與其他相似的屬性值一致,有效性確保了數(shù)據(jù)值遵循與數(shù)據(jù)元素的多個(gè)屬性:數(shù)據(jù)類型、精度、格式、預(yù)定義枚舉值、值域范圍及存儲(chǔ)
3、格式等,有效性主要考察的非法值檢查,數(shù)據(jù)格式校驗(yàn);準(zhǔn)確性:準(zhǔn)確性是指數(shù)據(jù)準(zhǔn)確反映其所建模的“真實(shí)世界”實(shí)體的程度,通過(guò)度量數(shù)據(jù)值與一個(gè)已確定的正確信息參照源的一致性來(lái)衡量其準(zhǔn)確性。準(zhǔn)確性主要考察碼值校驗(yàn);完整性:完整性是指一個(gè)數(shù)據(jù)集的特定屬性都被賦予了數(shù)值或者一個(gè)數(shù)據(jù)集的全部行記錄都存在。包括實(shí)體不缺失、屬性不缺失、記錄不缺失和字段值不缺失四個(gè)方面完整性,主要考察空值校驗(yàn)、記錄數(shù)校驗(yàn)等;合理性:合理性指按用戶實(shí)際情形進(jìn)行校驗(yàn)規(guī)則擴(kuò)展;唯一性:唯一性主要體現(xiàn)在一個(gè)數(shù)據(jù)集中,沒(méi)有實(shí)體多余一次出現(xiàn)。滿足實(shí)體唯一性,說(shuō)明沒(méi)有實(shí)體出現(xiàn)多余一次,并且每個(gè)唯一實(shí)體有一個(gè)鍵值,且該鍵值只指向該實(shí)體。唯一性主要
4、用于主鍵重復(fù)檢查、主外鍵校驗(yàn)、總分校驗(yàn);及時(shí)性:指數(shù)據(jù)刷新、修改和提取等操作的及時(shí)性和快速性,數(shù)據(jù)的采集和入庫(kù)要滿足業(yè)務(wù)發(fā)展和管理的時(shí)效性要求;精確性:指計(jì)量誤差、度量單位等方面的精確程度。數(shù)據(jù)管理成熟度數(shù)據(jù)質(zhì)量成熟度模型分為四個(gè)等級(jí),分別是初始級(jí)-定義級(jí)-管理級(jí)-優(yōu)化級(jí);初始級(jí):通過(guò)數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)管理;定義級(jí):通過(guò)模型管理進(jìn)行數(shù)據(jù)管理;管理級(jí):通過(guò)元數(shù)據(jù)進(jìn)行數(shù)據(jù)管理;優(yōu)化級(jí):通過(guò)企業(yè)標(biāo)準(zhǔn)數(shù)據(jù)架構(gòu)進(jìn)行數(shù)據(jù)管理;其中,初始級(jí)和定義級(jí)階段,每個(gè)系統(tǒng)都是分離的數(shù)據(jù)管理,非標(biāo)準(zhǔn)的獨(dú)立的數(shù)據(jù)管理,管理級(jí)和優(yōu)化級(jí)階段,采用企業(yè)集成數(shù)據(jù)管理和標(biāo)準(zhǔn)化元數(shù)據(jù)管理。數(shù)據(jù)質(zhì)量問(wèn)題分類數(shù)據(jù)質(zhì)量主要針對(duì)單數(shù)據(jù)源數(shù)據(jù)和多
5、數(shù)據(jù)源數(shù)據(jù)兩方面,兩種類型數(shù)據(jù)都由實(shí)例層數(shù)據(jù)和模式層數(shù)據(jù)組成。數(shù)據(jù)清洗技術(shù)是解決數(shù)據(jù)質(zhì)量問(wèn)題的一種有效方法,可以檢測(cè)和修正實(shí)例層的臟數(shù)據(jù)。但是數(shù)據(jù)清洗技術(shù)無(wú)法全面地解決數(shù)據(jù)質(zhì)量問(wèn)題中模式層的臟數(shù)據(jù),必須借助數(shù)據(jù)整合技術(shù)。數(shù)據(jù)質(zhì)量問(wèn)題的原因與實(shí)施方法數(shù)據(jù)質(zhì)量問(wèn)題的原因分析數(shù)據(jù)質(zhì)量的問(wèn)題突出表現(xiàn)在:核心問(wèn)題收入減少、成本增加、風(fēng)險(xiǎn)增高。分別從信息化標(biāo)準(zhǔn)建設(shè)、信息管理制度、數(shù)據(jù)管理流程、技術(shù)能力建設(shè)方面來(lái)看數(shù)據(jù)數(shù)據(jù)質(zhì)量問(wèn)題的原因:1)信息問(wèn)題域:缺乏統(tǒng)一的數(shù)據(jù)描述導(dǎo)致業(yè)務(wù)理解差異信息標(biāo)準(zhǔn)不統(tǒng)一產(chǎn)生低質(zhì)量的數(shù)據(jù),導(dǎo)致業(yè)務(wù)人員對(duì)數(shù)據(jù)缺乏信心2)管理問(wèn)題域?qū)?shù)據(jù)質(zhì)量的價(jià)值及其重要性認(rèn)識(shí)不足缺乏專門(mén)的數(shù)據(jù)質(zhì)
6、量管理組織與相關(guān)的管理制度3)流程問(wèn)題域需求變更、開(kāi)發(fā)測(cè)試等方面沒(méi)有流程規(guī)范和制度數(shù)據(jù)創(chuàng)建、數(shù)據(jù)使用、數(shù)據(jù)維護(hù)等方面沒(méi)有流程規(guī)范和制度4)技術(shù)問(wèn)題域系統(tǒng)建設(shè)重功能輕數(shù)據(jù)系統(tǒng)接口復(fù)雜,數(shù)據(jù)流向不清,缺乏對(duì)數(shù)據(jù)的整體規(guī)劃具體數(shù)據(jù)處理的各技術(shù)環(huán)節(jié)的異常造成的數(shù)據(jù)質(zhì)量問(wèn)題數(shù)據(jù)質(zhì)量管理的意義可靈活配置檢核規(guī)則:內(nèi)置多種數(shù)據(jù)質(zhì)量問(wèn)題的檢核規(guī)則,支持靈活的檢核規(guī)則配置。有效監(jiān)測(cè)數(shù)據(jù)質(zhì)量問(wèn)題:建立企業(yè)數(shù)據(jù)平臺(tái)的數(shù)據(jù)縱橫監(jiān)控網(wǎng),有效發(fā)現(xiàn)倉(cāng)庫(kù)內(nèi)的數(shù)據(jù)質(zhì)量問(wèn)題,并提供數(shù)據(jù)告警和質(zhì)量問(wèn)題分析報(bào)告。建立質(zhì)量評(píng)價(jià)體系:建立考核指標(biāo),量化數(shù)據(jù)質(zhì)量的整體情況,找出數(shù)據(jù)質(zhì)量的薄弱環(huán)節(jié)。提供多種系統(tǒng)接口:預(yù)留了與多種系統(tǒng)的接口,
7、系統(tǒng)間無(wú)縫集成。規(guī)范的問(wèn)題管理流程及制度,精確管理問(wèn)題每個(gè)階段,完善的質(zhì)量問(wèn)題解決共享機(jī)制,實(shí)現(xiàn)數(shù)據(jù)質(zhì)量的閉環(huán)管理數(shù)據(jù)質(zhì)量管理的方法論數(shù)據(jù)質(zhì)量管理的方法論和過(guò)程采用PDCA的問(wèn)題處理機(jī)制,具體的數(shù)據(jù)質(zhì)量提升周期包括評(píng)估認(rèn)知和行動(dòng)階段,管理策略包括:數(shù)據(jù)質(zhì)量指標(biāo)質(zhì)量檢核運(yùn)行質(zhì)量問(wèn)題報(bào)警質(zhì)量問(wèn)題分析問(wèn)題管理流程。(1)定義業(yè)務(wù)需求和方法:定義企業(yè)的數(shù)據(jù)質(zhì)量管理需求,確定數(shù)據(jù)質(zhì)量管理和評(píng)估的標(biāo)準(zhǔn);(2)分析信息環(huán)境:分析當(dāng)前的企業(yè)信息化環(huán)境和系統(tǒng)數(shù)據(jù),以及數(shù)據(jù)質(zhì)量管理制度和流程是否滿足數(shù)據(jù)質(zhì)量管理實(shí)施的條件;(3)評(píng)估數(shù)據(jù)質(zhì)量:根據(jù)選用的數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)和評(píng)估體系,對(duì)當(dāng)前系統(tǒng)的數(shù)據(jù)進(jìn)行數(shù)據(jù)質(zhì)量評(píng)估;(4
8、)評(píng)估業(yè)務(wù)影響:根據(jù)數(shù)據(jù)質(zhì)量檢測(cè)的結(jié)果,評(píng)估數(shù)據(jù)質(zhì)量問(wèn)題對(duì)業(yè)務(wù)的影響程度;(5)識(shí)別根本原因:采用魚(yú)骨圖等方式,分析探究產(chǎn)品問(wèn)題數(shù)據(jù)的根本原因;(6)制定提升方案:根據(jù)數(shù)據(jù)質(zhì)量問(wèn)題的產(chǎn)生原因和數(shù)據(jù)質(zhì)量管理標(biāo)準(zhǔn),制定提升方案;(7)預(yù)防未來(lái)數(shù)據(jù)錯(cuò)誤:制定和執(zhí)行數(shù)據(jù)質(zhì)量提升方案,強(qiáng)制要求新入庫(kù)的數(shù)據(jù)按照新的數(shù)據(jù)質(zhì)量規(guī)則進(jìn)行處理,確保未來(lái)數(shù)據(jù)滿足質(zhì)量管理要求;(8)發(fā)現(xiàn)及糾正當(dāng)前數(shù)據(jù)錯(cuò)誤:按照數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)和業(yè)務(wù)處理建議,將當(dāng)前錯(cuò)誤數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗和轉(zhuǎn)換,使得歷史數(shù)據(jù)也滿足質(zhì)量管理要求;(9)實(shí)施監(jiān)督控制:對(duì)整個(gè)數(shù)據(jù)質(zhì)量管理流程進(jìn)行全流程、全方位的監(jiān)督控制,確保數(shù)據(jù)標(biāo)準(zhǔn)定的好、落得下,數(shù)據(jù)質(zhì)量問(wèn)題抓得
9、準(zhǔn)、改的好,數(shù)據(jù)質(zhì)量能得到全面提升;(10)溝通行動(dòng)和結(jié)果:在數(shù)據(jù)質(zhì)量問(wèn)題處理過(guò)程中,數(shù)據(jù)質(zhì)量管理員收集在問(wèn)題處理過(guò)程中涉及到各種資料和方法,反饋到數(shù)據(jù)管理主管及相關(guān)人員。同時(shí)將數(shù)據(jù)質(zhì)量管理指標(biāo)和問(wèn)題處理經(jīng)驗(yàn)的知識(shí)庫(kù)沉淀。數(shù)據(jù)清洗針對(duì)數(shù)據(jù)質(zhì)量問(wèn)題,目前的主要處理方式是進(jìn)行數(shù)據(jù)清洗。數(shù)據(jù)清洗加工原則1)方法一致性數(shù)據(jù)資源清洗加工工作應(yīng)統(tǒng)一決策,同一數(shù)據(jù)庫(kù)范圍內(nèi)工作方法、技術(shù)指標(biāo)均應(yīng)當(dāng)統(tǒng)一,從而達(dá)成數(shù)據(jù)產(chǎn)品的一致性。2)數(shù)據(jù)可信性數(shù)據(jù)可信性包括精確性、完整性、一致性、有效性、唯一性。精確性:描述數(shù)據(jù)是否與其對(duì)應(yīng)的客觀實(shí)體的特征相一致。完整性:描述數(shù)據(jù)是否存在缺失記錄或缺失字段。一致性:描述同一實(shí)體
10、的同一屬性的值在不同的系統(tǒng)是否一致。有效性:描述數(shù)據(jù)是否滿足用戶定義的條件或在一定的域值范圍內(nèi)。唯一性:描述數(shù)據(jù)是否存在重復(fù)記錄。3)數(shù)據(jù)可用性數(shù)據(jù)可用性包括時(shí)間性、穩(wěn)定性等。時(shí)間性:描述數(shù)據(jù)是當(dāng)前數(shù)據(jù)還是歷史數(shù)據(jù)。穩(wěn)定性:描述數(shù)據(jù)是否是穩(wěn)定的,是否在其有效期內(nèi)。數(shù)據(jù)清洗質(zhì)量評(píng)估要求數(shù)據(jù)清洗的評(píng)估實(shí)質(zhì)上是對(duì)清洗后的數(shù)據(jù)的質(zhì)量進(jìn)行評(píng)估,而數(shù)據(jù)質(zhì)量的評(píng)估過(guò)程是一種通過(guò)測(cè)量和改善數(shù)據(jù)綜合特征來(lái)優(yōu)化數(shù)據(jù)價(jià)值的過(guò)程。數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo)和方法研究的重點(diǎn)在于數(shù)據(jù)的含義、內(nèi)容、分類、分級(jí)、質(zhì)量的評(píng)價(jià)指標(biāo)等的研究分析。數(shù)據(jù)清洗質(zhì)量評(píng)價(jià)可以歸納包含以下12個(gè)維度的基本評(píng)估指標(biāo):a)數(shù)據(jù)規(guī)范(Data specifi
11、cation):對(duì)數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)模型、業(yè)務(wù)規(guī)則、元數(shù)據(jù)和參考數(shù)據(jù)進(jìn)行有關(guān)存在性、完整性、質(zhì)量及歸檔的測(cè)量標(biāo)準(zhǔn);b)數(shù)據(jù)完整性準(zhǔn)則(Data integrity fundamentals):對(duì)數(shù)據(jù)進(jìn)行有關(guān)存在性、有效性、結(jié)構(gòu)、內(nèi)容及其他基本數(shù)據(jù)特征的測(cè)量標(biāo)準(zhǔn);c)重復(fù)(Duplication):對(duì)存在于系統(tǒng)內(nèi)或系統(tǒng)間的特定字段、記錄或數(shù)據(jù)集意外重復(fù)的測(cè)量標(biāo)準(zhǔn);d)準(zhǔn)確性(Accuracy):對(duì)數(shù)據(jù)內(nèi)容正確性進(jìn)行測(cè)量的標(biāo)準(zhǔn);e)一致性和同步(Consistency and synchronization):對(duì)各種不同的數(shù)據(jù)倉(cāng)庫(kù)、應(yīng)用和系統(tǒng)中所存儲(chǔ)或使用的信息等價(jià)程度的測(cè)量,以及使數(shù)據(jù)等價(jià)處理流程的
12、測(cè)量標(biāo)準(zhǔn);f)及時(shí)性和可用性(Timeliness and availability):在預(yù)期時(shí)段內(nèi)數(shù)據(jù)對(duì)特定應(yīng)用的及時(shí)程度和可用程度的測(cè)量標(biāo)準(zhǔn);g)易用性和可維護(hù)性(Ease of use and maintainability):對(duì)19數(shù)據(jù)可被訪問(wèn)和使用的程度,以及數(shù)據(jù)能被更新、維護(hù)和管理程度的測(cè)量標(biāo)準(zhǔn);h)數(shù)據(jù)覆蓋(Data coverage):相對(duì)于數(shù)據(jù)總體或全體相關(guān)對(duì)象數(shù)據(jù)的可用性和全面性的測(cè)量標(biāo)準(zhǔn);i)表達(dá)質(zhì)量(Presentation quality);如何進(jìn)行有效信息表達(dá)以及如何從用戶中收集信息的測(cè)量標(biāo)準(zhǔn);j)可理解性、相關(guān)性和可信度(Perception,relevance
13、and trust):數(shù)據(jù)質(zhì)量的可理解性和數(shù)據(jù)質(zhì)量中執(zhí)行度的測(cè)量標(biāo)準(zhǔn),以及對(duì)業(yè)務(wù)所需數(shù)據(jù)的重要性、實(shí)用性及相關(guān)性的測(cè)量標(biāo)準(zhǔn);k)數(shù)據(jù)衰變(Data decay):對(duì)數(shù)據(jù)負(fù)面變化率的測(cè)量標(biāo)準(zhǔn);l)效用性(Transactability):數(shù)據(jù)產(chǎn)生期望業(yè)務(wù)交易或結(jié)果程度的測(cè)量標(biāo)準(zhǔn)。在評(píng)估項(xiàng)目數(shù)據(jù)質(zhì)量過(guò)程中,需要首先選取幾個(gè)合適的數(shù)據(jù)質(zhì)量維度,再針對(duì)每個(gè)所選維度,制定評(píng)估方案,選擇合適的評(píng)估手段進(jìn)行測(cè)量,最后合并和分析所有質(zhì)量評(píng)估結(jié)果。數(shù)據(jù)清洗角色定義數(shù)據(jù)清洗管理涉及的數(shù)據(jù)管理角色有提供者和管理者。提供者負(fù)責(zé)提供清洗的業(yè)務(wù)數(shù)據(jù),管理者負(fù)責(zé)數(shù)據(jù)清洗系統(tǒng)的基本運(yùn)行管理、數(shù)據(jù)清洗規(guī)則制定、數(shù)據(jù)清洗發(fā)起等。
14、項(xiàng)目中提供者為數(shù)據(jù)接入方,管理者為項(xiàng)目建設(shè)方。具體針對(duì)特殊情況有所變化。提供者管理要求:提供者應(yīng)配合管理者根據(jù)接入數(shù)據(jù)指標(biāo)規(guī)范與接入數(shù)據(jù)內(nèi)容、接入數(shù)據(jù)流程要求,配置與部署接入服務(wù),實(shí)現(xiàn)接入數(shù)據(jù)庫(kù)的數(shù)據(jù)交換;提供者應(yīng)該提供待清洗數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu);提供者應(yīng)接收數(shù)據(jù)清洗系統(tǒng)的問(wèn)題數(shù)據(jù),及時(shí)修改,并通知管理者。管理者管理要求:管理者對(duì)數(shù)據(jù)清洗系統(tǒng)的管理要點(diǎn)應(yīng)包括:管理者應(yīng)負(fù)責(zé)協(xié)調(diào)并明確數(shù)據(jù)清洗規(guī)則;管理者應(yīng)負(fù)責(zé)構(gòu)建清洗后數(shù)據(jù)及問(wèn)題數(shù)據(jù)各自的數(shù)據(jù)庫(kù)和數(shù)據(jù)表的結(jié)構(gòu);管理者應(yīng)負(fù)責(zé)將問(wèn)題數(shù)據(jù)庫(kù)提交給提供者,并協(xié)調(diào)提供者修改完善。數(shù)據(jù)審核管理要求:數(shù)據(jù)審核的目標(biāo)是確保數(shù)據(jù)內(nèi)容與被描述對(duì)象相一致,并且質(zhì)量符合數(shù)據(jù)產(chǎn)
15、品標(biāo)準(zhǔn)要求。數(shù)據(jù)審核可以貫穿于整個(gè)數(shù)據(jù)資源加工過(guò)程之中,可以量化評(píng)價(jià)的內(nèi)容包括數(shù)據(jù)來(lái)源質(zhì)量評(píng)價(jià)、數(shù)據(jù)加工模型與算法質(zhì)量評(píng)價(jià)、數(shù)據(jù)產(chǎn)品質(zhì)量評(píng)價(jià)等。數(shù)據(jù)審核的目標(biāo)是確保數(shù)據(jù)內(nèi)容與被描述對(duì)象相一致,并且質(zhì)量符合數(shù)據(jù)產(chǎn)品標(biāo)準(zhǔn)要求。數(shù)據(jù)審核可以貫穿于整個(gè)數(shù)據(jù)資源加工過(guò)程之中,可以量化評(píng)價(jià)的內(nèi)容包括數(shù)據(jù)來(lái)源質(zhì)量評(píng)價(jià)、數(shù)據(jù)加工模型與算法質(zhì)量評(píng)價(jià)、數(shù)據(jù)產(chǎn)品質(zhì)量評(píng)價(jià)等。數(shù)據(jù)矯正處理要求:在數(shù)據(jù)階段化過(guò)程中解決問(wèn)題,對(duì)于那些同意糾正的數(shù)據(jù),應(yīng)當(dāng)由原始數(shù)據(jù)提供者和管理者一起制定正確的規(guī)則,在數(shù)據(jù)接入過(guò)程中清洗。唯一正確的結(jié)果是糾正原始加載的數(shù)據(jù)并且用當(dāng)前的數(shù)據(jù)校正歷史數(shù)據(jù)。原始數(shù)據(jù)提供者應(yīng)定期對(duì)數(shù)據(jù)源系統(tǒng)進(jìn)行檢查和
16、清洗。數(shù)據(jù)清洗的方法數(shù)據(jù)清洗的方法包括:缺失數(shù)據(jù)處理、相似重復(fù)對(duì)象監(jiān)測(cè)、異常數(shù)據(jù)處理、邏輯錯(cuò)誤監(jiān)測(cè)、數(shù)據(jù)不一致性監(jiān)測(cè)等。用不同方法清洗的數(shù)據(jù),對(duì)后續(xù)挖掘應(yīng)用工作會(huì)產(chǎn)生不同的影響。數(shù)據(jù)預(yù)處理在匯聚多個(gè)維度、多個(gè)來(lái)源、多種結(jié)構(gòu)的數(shù)據(jù)之后,需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。預(yù)處理過(guò)程中除了更正、修復(fù)系統(tǒng)中的一些錯(cuò)誤數(shù)據(jù)之外,更多的是對(duì)數(shù)據(jù)進(jìn)行歸并整理,并儲(chǔ)存到新的存儲(chǔ)介質(zhì)中。1)數(shù)據(jù)抽取數(shù)據(jù)抽取是從數(shù)據(jù)源中抽取數(shù)據(jù)的過(guò)程。數(shù)據(jù)抽取最常用的是ETL技術(shù),具體數(shù)據(jù)抽取工具種類繁多,可根據(jù)實(shí)際業(yè)務(wù)數(shù)據(jù)的特點(diǎn)進(jìn)行選擇。從數(shù)據(jù)庫(kù)中抽取數(shù)據(jù)一般有以下兩種方式。全量抽?。喝砍槿☆愃朴跀?shù)據(jù)鏡像或數(shù)據(jù)復(fù)制,它將數(shù)據(jù)源中的表或視
17、圖的數(shù)據(jù)原封不動(dòng)的從數(shù)據(jù)庫(kù)中抽取出來(lái)。該方法主要用于在系統(tǒng)數(shù)據(jù)初始化時(shí)使用。增量抽?。ǜ拢涸隽砍槿∈侵冈谏洗纬槿⊥瓿珊?,對(duì)數(shù)據(jù)庫(kù)中新增或修改的數(shù)據(jù)的抽取。2)數(shù)據(jù)過(guò)濾數(shù)據(jù)過(guò)濾要初步實(shí)現(xiàn)對(duì)業(yè)務(wù)數(shù)據(jù)中不符合應(yīng)用規(guī)則或者無(wú)效的數(shù)據(jù)進(jìn)行過(guò)濾操作,使得數(shù)據(jù)標(biāo)準(zhǔn)統(tǒng)一。3)數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)轉(zhuǎn)換要實(shí)現(xiàn)對(duì)數(shù)據(jù)的格式、信息代碼、值的沖突進(jìn)行轉(zhuǎn)換。常見(jiàn)的業(yè)務(wù)數(shù)據(jù)轉(zhuǎn)換規(guī)則詳見(jiàn)下表“業(yè)務(wù)數(shù)據(jù)轉(zhuǎn)換規(guī)則表”。4)數(shù)據(jù)加載數(shù)據(jù)加載過(guò)程進(jìn)行的主要操作是插入操作和修改操作。將干凈數(shù)據(jù)及臟數(shù)據(jù)分別插入到不同的數(shù)據(jù)表中。對(duì)于數(shù)據(jù)加載工作,一般會(huì)搭建數(shù)據(jù)庫(kù)環(huán)境,如果數(shù)據(jù)量大(千萬(wàn)級(jí)以上),可以使用文本文件存儲(chǔ)結(jié)合腳本程序處理進(jìn)行操作。
18、數(shù)據(jù)清洗數(shù)據(jù)清洗規(guī)則數(shù)據(jù)清洗規(guī)則包括:非空檢核、主鍵重復(fù)、非法代碼清洗、非法值清洗、數(shù)據(jù)格式檢核、記錄數(shù)檢核。非空檢核:要求字段為非空的情況下,需要對(duì)該字段數(shù)據(jù)進(jìn)行檢核。主鍵重復(fù):多個(gè)業(yè)務(wù)系統(tǒng)中同類數(shù)據(jù)經(jīng)過(guò)清洗后,在統(tǒng)一保存時(shí),為保證主鍵唯一性,需進(jìn)行檢核工作。非法代碼、非法值清洗:非法代碼問(wèn)題包括非法代碼、代碼與數(shù)據(jù)標(biāo)準(zhǔn)不一致等,非法值問(wèn)題包括取值錯(cuò)誤、格式錯(cuò)誤、多余字符、亂碼等,需根據(jù)具體情況進(jìn)行校核及修正。數(shù)據(jù)格式檢核:通過(guò)檢查表中屬性值的格式是否正確來(lái)衡量其準(zhǔn)確性,如時(shí)間格式、幣種格式、多余字符、亂碼。記錄數(shù)檢核:指各個(gè)系統(tǒng)相關(guān)數(shù)據(jù)之間的數(shù)據(jù)總數(shù)檢核或者數(shù)據(jù)表中每日數(shù)據(jù)量的波動(dòng)檢核。業(yè)
19、務(wù)約束檢核應(yīng)在實(shí)施過(guò)程中與業(yè)務(wù)人員共同確定,業(yè)務(wù)人員從業(yè)務(wù)的正確性、一致性、有效性等角度考慮數(shù)據(jù)的檢核規(guī)則,如:建檔日期、入學(xué)日期、民族信息等的有效性檢核。臟數(shù)據(jù)處理數(shù)據(jù)質(zhì)量中普遍存在的空缺值、離群值和不一致數(shù)據(jù)的情況,這些臟數(shù)據(jù)可以采用人工檢測(cè)、統(tǒng)計(jì)學(xué)方法、聚類、分類、基于距離、關(guān)聯(lián)規(guī)則等方法來(lái)實(shí)現(xiàn)數(shù)據(jù)清洗。根據(jù)缺陷類型分類,可以將臟數(shù)據(jù)分為缺失值數(shù)據(jù)、錯(cuò)誤數(shù)據(jù)和錯(cuò)誤關(guān)聯(lián)數(shù)據(jù)三種核心問(wèn)題數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗。(A)缺失值數(shù)據(jù)處理:不完整的、含噪聲的數(shù)據(jù)是未經(jīng)清洗的數(shù)據(jù)集的共同特點(diǎn)。在數(shù)據(jù)集中,若某記錄的屬性值被標(biāo)記為空白或“-”等,則認(rèn)為該記錄存在缺失值,是不完整的數(shù)據(jù)。缺失值是最常見(jiàn)的數(shù)據(jù)問(wèn)題
20、,處理缺失值按照以下步驟進(jìn)行:確定缺失值范圍:對(duì)每個(gè)字段都計(jì)算其缺失值比例,然后按照缺失比例和字段重要性,分別制定策略,策略制定參考下圖:對(duì)于一些重要性高,缺失率較低的缺失值數(shù)據(jù),可根據(jù)經(jīng)驗(yàn)或業(yè)務(wù)知識(shí)估計(jì),也可通過(guò)計(jì)算進(jìn)行填補(bǔ)。對(duì)于指標(biāo)重要性高,缺失率也高的缺失值數(shù)據(jù),需要和取數(shù)人員或業(yè)務(wù)人員了解,是否有其他渠道可以取到相關(guān)數(shù)據(jù),必要時(shí)進(jìn)行重新采集。若無(wú)法取得相關(guān)數(shù)據(jù),則需要對(duì)缺失值進(jìn)行填補(bǔ)。對(duì)于指標(biāo)重要性低,缺失率也低的缺失值數(shù)據(jù),可只進(jìn)行簡(jiǎn)單填充或不作處理。對(duì)于指標(biāo)重要性低,缺失率高的缺失值數(shù)據(jù),可備份當(dāng)前數(shù)據(jù),直接刪掉不需要的字段。填補(bǔ)空缺值的方法有以下三種:1)以業(yè)務(wù)知識(shí)或經(jīng)驗(yàn)推測(cè)填充
21、缺失值;2)以同一指標(biāo)的計(jì)算結(jié)果(均值、中位數(shù)、眾數(shù)等)填充缺失值;3)以不同指標(biāo)的計(jì)算結(jié)果填充缺失值。比如:年齡字段缺失,但具有公民身份證號(hào), 則可從公民身份證號(hào)提取年齡數(shù)據(jù)。(B)錯(cuò)誤數(shù)據(jù)處理錯(cuò)誤數(shù)據(jù)包含格式內(nèi)容問(wèn)題數(shù)據(jù)和邏輯問(wèn)題數(shù)據(jù)兩類。格式內(nèi)容問(wèn)題有以下三類:時(shí)間、日期、數(shù)值、全半角等顯示格式不一致,內(nèi)容中有不該存在的字符,數(shù)據(jù)內(nèi)容與該字段應(yīng)有內(nèi)容不符。時(shí)間、日期、數(shù)值、全半角等顯示格式不一致處理方法是將其處理成一致的某種格式。這種情況的數(shù)據(jù)多數(shù)由人工收集或用戶填寫(xiě)而來(lái),很大可能性在格式和內(nèi)容上會(huì)存在一些問(wèn)題。另外,在整合多來(lái)源數(shù)據(jù)時(shí)也有可能遇到。內(nèi)容中有不該存在的字符需要以半自動(dòng)校驗(yàn)
22、半人工方式來(lái)找出可能存在的問(wèn)題,并去除不需要的字符。典型問(wèn)題如數(shù)據(jù)的開(kāi)始、中間或結(jié)尾存在空格,或姓名中存在數(shù)字符號(hào)、公民身份證號(hào)中出現(xiàn)漢字等。數(shù)據(jù)內(nèi)容與該字段應(yīng)有內(nèi)容不符該問(wèn)題不能簡(jiǎn)單地以刪除來(lái)處理,因?yàn)槌梢驈?fù)雜,可能是人工填寫(xiě)錯(cuò)誤、前端沒(méi)有校驗(yàn)、導(dǎo)入數(shù)據(jù)時(shí)部分或全部存在列沒(méi)有對(duì)齊的問(wèn)題等,因此要詳細(xì)識(shí)別問(wèn)題類型。邏輯問(wèn)題數(shù)據(jù)處理一般采用邏輯推理的方法,可以去掉一些使用簡(jiǎn)單邏輯推理即可直接發(fā)現(xiàn)問(wèn)題的數(shù)據(jù),防止分析結(jié)果錯(cuò)誤。主要包含以下三個(gè)步驟:1)去重去重放在格式內(nèi)容清洗之后,原因是格式內(nèi)容清理之后才能總體發(fā)現(xiàn)重復(fù)的業(yè)務(wù)數(shù)據(jù)。在復(fù)雜工作環(huán)境中,由于數(shù)據(jù)多次上報(bào),或是其他人為因素,導(dǎo)致數(shù)據(jù)重復(fù)值
23、的出現(xiàn)是普遍的,主要使用字段相似度來(lái)識(shí)別判斷重復(fù)值。2)離群值(異常值)采集數(shù)據(jù)時(shí)可能因?yàn)榧夹g(shù)或物理原因,數(shù)據(jù)取值超過(guò)數(shù)據(jù)值域范圍。為處理離群值,第一步即為識(shí)別離群值。識(shí)別離群值的方法主要有如下兩種:數(shù)據(jù)分布特征及箱型圖方法一般情況下,對(duì)于離散程度并非非常大的數(shù)據(jù)源來(lái)說(shuō),數(shù)據(jù)自身分布將會(huì)集中在某一區(qū)域之內(nèi),所以利用數(shù)據(jù)自身分布特征來(lái)識(shí)別離群值,可采用直觀的箱型圖方法可視化識(shí)別離群值及異常值?;跉W幾里德距離的聚類方法一般情況下,利用數(shù)據(jù)分布特征或業(yè)務(wù)理解來(lái)識(shí)別單維數(shù)據(jù)集中噪聲數(shù)據(jù)是快捷有效,但對(duì)于聚合程度高,彼此相關(guān)的多維數(shù)據(jù)而言,通過(guò)數(shù)據(jù)分布特征或業(yè)務(wù)理解來(lái)識(shí)別離群值的方法會(huì)缺乏有效性。面對(duì)
24、這種情況,聚類方法提供識(shí)別多維數(shù)據(jù)集中噪聲數(shù)據(jù)的方法。識(shí)別離群值后,操作人員需要按照經(jīng)驗(yàn)和業(yè)務(wù)流程判斷其值的合理性:若此數(shù)值合理,則保留該數(shù)值;若不合理,則按照其重要性考慮是否需要重新采集。對(duì)于重要性較高而又無(wú)法重新采集的數(shù)值,按照缺失值辦法處理。對(duì)于重要性較低數(shù)值,可直接去除。3)修正矛盾內(nèi)容有些字段可以互相驗(yàn)證。需要根據(jù)字段的數(shù)據(jù)來(lái)源,來(lái)判定哪個(gè)字段提供的信息更可靠,去除或重構(gòu)不可靠字段。邏輯錯(cuò)誤除以上列舉情況,還有很多其他情況,在實(shí)際操作中需根據(jù)實(shí)際情況處理。錯(cuò)誤關(guān)聯(lián)數(shù)據(jù)處理方法如果數(shù)據(jù)有多個(gè)來(lái)源,有必要進(jìn)行關(guān)聯(lián)性驗(yàn)證。多個(gè)來(lái)源的數(shù)據(jù)整合具有復(fù)雜性,要注意數(shù)據(jù)之間的關(guān)聯(lián)性,盡量在分析過(guò)程
25、中避免出現(xiàn)數(shù)據(jù)之間互相矛盾。對(duì)于不一致數(shù)據(jù)的處理,主要體現(xiàn)為數(shù)據(jù)不滿足完整性約束。可以通過(guò)分析數(shù)據(jù)字典、元數(shù)據(jù)等,還可梳理數(shù)據(jù)之間的關(guān)系,并進(jìn)行修正。不一致數(shù)據(jù)往往是因?yàn)槿狈?shù)據(jù)標(biāo)準(zhǔn)或未依照已有標(biāo)準(zhǔn)執(zhí)行而產(chǎn)生。錯(cuò)誤關(guān)聯(lián)數(shù)據(jù)清洗方法主要有以下方法:a)統(tǒng)計(jì)學(xué)方法:將屬性當(dāng)做隨機(jī)變量,通過(guò)置信區(qū)間來(lái)判斷值的正誤。b)基于聚類的方法:根據(jù)數(shù)據(jù)相似度將數(shù)據(jù)分組,發(fā)現(xiàn)不能歸并到分組的孤立點(diǎn)。c)基于距離的方法:使用距離度量來(lái)量化數(shù)據(jù)對(duì)象之間的相似性。d)基于分類的方法:訓(xùn)練一個(gè)可以區(qū)分正常數(shù)據(jù)和異常數(shù)據(jù)的分類模型。e)基于關(guān)聯(lián)規(guī)則的方法:定義數(shù)據(jù)之間的關(guān)聯(lián)規(guī)則,不符合規(guī)則的數(shù)據(jù)被認(rèn)為是異常數(shù)據(jù)。數(shù)據(jù)質(zhì)量
26、管理系統(tǒng)系統(tǒng)定位數(shù)據(jù)質(zhì)量管理系統(tǒng)以暴露和提升系統(tǒng)數(shù)據(jù)質(zhì)量為目標(biāo)、度量規(guī)則和檢核方法為主線,持續(xù)監(jiān)控各系統(tǒng)數(shù)據(jù)質(zhì)量波動(dòng)情況及數(shù)據(jù)質(zhì)量規(guī)則占比分析,定期生成各系統(tǒng)關(guān)鍵數(shù)據(jù)質(zhì)量報(bào)告,掌握系統(tǒng)數(shù)據(jù)質(zhì)量狀況。通過(guò)自身調(diào)度模塊或者第三方調(diào)度為觸發(fā),幫助企業(yè)建立統(tǒng)一的數(shù)據(jù)質(zhì)量管理和度量管理體系。(制定標(biāo)準(zhǔn)-發(fā)現(xiàn)問(wèn)題-分析問(wèn)題-解決問(wèn)題-知識(shí)庫(kù)經(jīng)驗(yàn)沉淀)。系統(tǒng)價(jià)值1)最佳投資回報(bào)通過(guò)數(shù)據(jù)質(zhì)量管理系統(tǒng)的應(yīng)用幫助企業(yè)提升效率、降低成本、規(guī)范管理,從而提升企業(yè)數(shù)據(jù)質(zhì)量水平。2)提升質(zhì)量管理效率集中統(tǒng)一的數(shù)據(jù)質(zhì)量管理平臺(tái),基于統(tǒng)一的質(zhì)量檢核和數(shù)據(jù)質(zhì)量監(jiān)控,確保管理和業(yè)務(wù)相關(guān)人員及時(shí)獲取信息、處理相關(guān)工作。避免不同業(yè)務(wù)
27、系統(tǒng)導(dǎo)致的信息豎井,最大限度減少同一數(shù)據(jù)的重復(fù)檢核和處理。3)降低質(zhì)量管理成本數(shù)據(jù)質(zhì)量管理統(tǒng)一建設(shè)、統(tǒng)一實(shí)施,避免各系統(tǒng)各自為政進(jìn)行數(shù)據(jù)質(zhì)量功能模塊的重復(fù)建設(shè)和開(kāi)發(fā),降低建設(shè)成本、提高實(shí)施效率、有效降低企業(yè)成本。4)規(guī)范質(zhì)量管理流程基于統(tǒng)一的數(shù)據(jù)質(zhì)量檢核體系,檢核類別明確、規(guī)范可管理流程使得管理規(guī)范化。通過(guò)數(shù)據(jù)質(zhì)量問(wèn)題處理流程及相關(guān)功能實(shí)現(xiàn)與管理使問(wèn)題的發(fā)現(xiàn)和處理達(dá)到閉環(huán)管理、規(guī)范化管理提升數(shù)據(jù)質(zhì)量。5)最佳擁有成本實(shí)施成本低,相對(duì)于國(guó)外相同檔次管理軟件,實(shí)施、維護(hù)、運(yùn)營(yíng)成本低,無(wú)需依賴其他基礎(chǔ)平臺(tái)就可以快速部署。系統(tǒng)架構(gòu)邏輯架構(gòu)技術(shù)架構(gòu)功能架構(gòu)主要功能模塊數(shù)據(jù)質(zhì)量定義模塊數(shù)據(jù)質(zhì)量定義模塊是整
28、個(gè)數(shù)據(jù)質(zhì)量平臺(tái)的基礎(chǔ),它通過(guò)對(duì)質(zhì)量維度、檢核類別、度量規(guī)則以及檢核方法的定義和管理給檢核任務(wù)模塊提供必要的輸入。1)質(zhì)量維度定義通過(guò)對(duì)不同業(yè)務(wù)規(guī)則的收集、分類、抽象和概括,定義了六種數(shù)據(jù)質(zhì)量維度。質(zhì)量維度反映了數(shù)據(jù)質(zhì)量不同的規(guī)格標(biāo)準(zhǔn),也體現(xiàn)了高層次的指標(biāo)度量的特點(diǎn)。一致性:一致性主要考察的是業(yè)務(wù)約束檢查;有效性:有效性主要考察的非法值檢查,數(shù)據(jù)格式校驗(yàn);準(zhǔn)確性:準(zhǔn)確性主要考察碼值校驗(yàn);完整性:完整性主要考察空值校驗(yàn)、記錄數(shù)校驗(yàn)等;合理性:合理性指按用戶實(shí)際情形進(jìn)行校驗(yàn)規(guī)則擴(kuò)展;唯一性:唯一性主要用于主鍵重復(fù)檢查、主外鍵校驗(yàn)、總分校驗(yàn);及時(shí)性:指數(shù)據(jù)的采集和入庫(kù)要滿足業(yè)務(wù)發(fā)展和管理的時(shí)效性要求;
29、2)檢查類別管理在質(zhì)量維度的基礎(chǔ)上根據(jù)各業(yè)務(wù)規(guī)則的具體特點(diǎn)細(xì)化出了九種檢核類別,使得數(shù)據(jù)質(zhì)量問(wèn)題更具有條理性和層次感,并可以直接體現(xiàn)出問(wèn)題數(shù)據(jù)的特征。檢核類別從實(shí)施的角度對(duì)各質(zhì)量維度進(jìn)行更小粒度的劃分,并直接對(duì)度量規(guī)則的提出進(jìn)行指導(dǎo)性的定義和說(shuō)明。表級(jí)指標(biāo):提供從檢核目標(biāo)(表及字段)定義、查詢、修改、刪除檢核指標(biāo)系統(tǒng)指標(biāo):提供從指標(biāo)分類入口定義、查詢、修改、刪除檢核指標(biāo)基本信息:提供指標(biāo)名、指標(biāo)說(shuō)明、執(zhí)行頻率、調(diào)度方式等信息輸入等功能檢核目標(biāo):提供指標(biāo)的檢核目標(biāo)、管理部門(mén)、自定義SQL等操作等功能3)度量規(guī)則管理:度量規(guī)則是由業(yè)務(wù)人員根據(jù)各檢核類別對(duì)不同的業(yè)務(wù)實(shí)體提出的數(shù)據(jù)質(zhì)量的衡量標(biāo)準(zhǔn)。它是
30、各檢核類別在不同業(yè)務(wù)實(shí)體上的具體體現(xiàn)。針對(duì)不同的業(yè)務(wù)實(shí)體依據(jù)檢核類別定義出度量規(guī)則,每一個(gè)度量規(guī)則都是從業(yè)務(wù)實(shí)體的角度上對(duì)質(zhì)量問(wèn)題進(jìn)行簡(jiǎn)單的描述,都包含一個(gè)或多個(gè)信息項(xiàng),這些信息項(xiàng)就是每一個(gè)業(yè)務(wù)實(shí)體具體所要檢核的對(duì)象,這樣我們就在每一個(gè)度量規(guī)則的基礎(chǔ)上根據(jù)不同的信息項(xiàng)定義出具體的檢核方法。4)檢驗(yàn)方法管理:檢核方法是度量規(guī)則在不同信息項(xiàng)上的落地實(shí)施,也是檢核任務(wù)模塊任務(wù)執(zhí)行的主體。根據(jù)度量規(guī)則中不同的信息項(xiàng)定義出不同的檢核方法,每一個(gè)檢核方法根據(jù)其檢核對(duì)象定義各自的檢核腳本以及相關(guān)的屬性信息。檢核方法中的檢核腳本就是數(shù)據(jù)質(zhì)量系統(tǒng)在執(zhí)行檢核操作時(shí)所實(shí)際執(zhí)行的腳本,它反映了質(zhì)量問(wèn)題的檢核邏輯,根據(jù)
31、檢核類別的不同,其復(fù)雜度也不同。5)檢驗(yàn)方法審核:為了方便檢核腳本的定義,數(shù)據(jù)質(zhì)量系統(tǒng)提供了腳本配置模板,填寫(xiě)好腳本配置模板后,系統(tǒng)便可生成檢核方法各自的檢核腳本。對(duì)于腳本配置模板,系統(tǒng)提供了相應(yīng)的界面,在頁(yè)面上導(dǎo)入模板后便可由系統(tǒng)自動(dòng)生成檢核方法,然后系統(tǒng)會(huì)校驗(yàn)這些檢核方法的正確性,對(duì)于配置錯(cuò)誤的腳本會(huì)予以標(biāo)識(shí),并可在界面中查詢錯(cuò)誤信息。質(zhì)量檢查任務(wù)調(diào)度模塊檢核任務(wù)調(diào)度模塊是數(shù)據(jù)質(zhì)量平臺(tái)的核心,通過(guò)執(zhí)行檢核方法生成相應(yīng)的檢核結(jié)果問(wèn)題數(shù)據(jù)文件,檢核結(jié)果問(wèn)題數(shù)據(jù)能夠反映出用戶所關(guān)心的數(shù)據(jù)質(zhì)量問(wèn)題。任務(wù)調(diào)度模塊要支持檢核機(jī)制、檢核方法獨(dú)立調(diào)度執(zhí)行,為了不影響數(shù)據(jù)平臺(tái)的正常數(shù)據(jù)跑批處理,產(chǎn)品提供第三
32、方調(diào)度接口,無(wú)縫的支持如ETL Plus、DataStage、Power center等調(diào)度平臺(tái)的功能整合。按配置的依賴關(guān)系進(jìn)行數(shù)據(jù)質(zhì)量檢核。使數(shù)據(jù)質(zhì)量檢核時(shí)對(duì)系統(tǒng)的壓力可控。1)檢查任務(wù)生成:檢核任務(wù)調(diào)度模塊統(tǒng)一管理系統(tǒng)內(nèi)所有檢核任務(wù),在上游系統(tǒng)批處理作業(yè)結(jié)束之后會(huì)觸發(fā)執(zhí)行檢核任務(wù)生成程序,生成相應(yīng)的檢核任務(wù)列表,發(fā)現(xiàn)有待執(zhí)行的檢核任務(wù)并且當(dāng)前系統(tǒng)中沒(méi)有正在執(zhí)行的檢核任務(wù)便會(huì)啟動(dòng)檢核任務(wù)。2)檢查任務(wù)狀態(tài)監(jiān)控:檢核任務(wù)開(kāi)始后立即將此任務(wù)的狀態(tài)更改為“正在執(zhí)行”,在執(zhí)行檢核過(guò)程中發(fā)現(xiàn)錯(cuò)誤,即可將此檢核方法對(duì)應(yīng)的檢核任務(wù)狀態(tài)置為“執(zhí)行出錯(cuò)”,對(duì)于成功檢核完成的任務(wù),將其置為“檢核完成”。3)多線
33、程執(zhí)行方式:一個(gè)檢核任務(wù)通常包含很多檢核方法,為了提高檢核的效率,采用多線程方式。系統(tǒng)根據(jù)此次檢核任務(wù)的檢核方法數(shù)目來(lái)決定此次檢核任務(wù)分配的線程數(shù),同時(shí)為了避免給檢核系統(tǒng)造成過(guò)大的壓力,會(huì)有一個(gè)最大線程數(shù),這個(gè)最大值可在系統(tǒng)配置模塊中進(jìn)行配置。檢核方法會(huì)被分配給多個(gè)檢核線程(線程數(shù)目由此次執(zhí)行的檢核方法數(shù)目決定,并擁有一個(gè)最大線程數(shù)),這些檢核線程會(huì)同時(shí)啟動(dòng),并且同時(shí)啟動(dòng)一個(gè)伴隨線程。這個(gè)伴隨線程用于記錄這些檢核方法的執(zhí)行結(jié)果日志。4)檢查結(jié)果文件生成:在檢核任務(wù)執(zhí)行過(guò)程中,依次執(zhí)行各個(gè)檢核方法,檢核方法的執(zhí)行實(shí)際上就是其檢核腳本的執(zhí)行。這些檢核方法如果有查詢出的數(shù)據(jù)便會(huì)在Receive目錄中
34、生成其對(duì)應(yīng)的檢核結(jié)果文件(DAT文件),并同時(shí)生成一個(gè)同名的XML文件,作為結(jié)果文件到達(dá)的就緒標(biāo)識(shí)。所有這些文件會(huì)存放在Receive目錄中的以此次任務(wù)的檢核日期為名稱的文件夾中。檢查結(jié)果采集模塊采集程序使用Quartz作業(yè)的方式進(jìn)行輪詢采集,由于每次需要采集的文件數(shù)量不同,所包含的數(shù)據(jù)量也不同,再加之其他因素的可能性干擾,所以每一次作業(yè)所使用的時(shí)間不會(huì)相同,這樣就會(huì)使得每一次作業(yè)啟動(dòng)時(shí)上一次作業(yè)未必已經(jīng)結(jié)束。為了避免不同作業(yè)批次之間的資源爭(zhēng)用問(wèn)題,系統(tǒng)采用單作業(yè)執(zhí)行的方式,如果作業(yè)啟動(dòng)時(shí)上一次作業(yè)還沒(méi)有結(jié)束,則本次作業(yè)自動(dòng)結(jié)束,直到上次作業(yè)結(jié)束才啟動(dòng)下一次作業(yè)。檢核結(jié)果采集模塊將檢核結(jié)果文件采集入庫(kù),并在采集過(guò)程中對(duì)這些檢核結(jié)果數(shù)據(jù)進(jìn)行簡(jiǎn)單的匯總操作,并將這些明細(xì)數(shù)據(jù)和匯總數(shù)據(jù)分別存入結(jié)果明細(xì)表和匯總表。此過(guò)程中如果發(fā)生了異常則對(duì)數(shù)據(jù)庫(kù)表進(jìn)行回滾操作,以避免出現(xiàn)不完整的數(shù)據(jù)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 產(chǎn)科急救培訓(xùn)課件
- 木材加工企業(yè)的信息化建設(shè)與管理考核試卷
- 化工產(chǎn)品批發(fā)商銷售團(tuán)隊(duì)激勵(lì)與培訓(xùn)實(shí)踐考核試卷
- 冷凍飲品行業(yè)企業(yè)發(fā)展戰(zhàn)略與實(shí)施路徑考核試卷
- 半導(dǎo)體照明器件的振動(dòng)測(cè)試考核試卷
- 家具品牌形象塑造考核試卷
- 機(jī)床附件的行業(yè)競(jìng)爭(zhēng)格局與市場(chǎng)定位考核試卷
- 國(guó)際貿(mào)易中的社會(huì)責(zé)任與合規(guī)性考核試卷
- 成人高考物理電磁學(xué)綜合應(yīng)用考核試卷
- 小學(xué)生師生互動(dòng)課件
- 魚(yú)骨圖培訓(xùn)課件
- 護(hù)理禮儀與人文關(guān)懷
- 運(yùn)維服務(wù)體系建立實(shí)施方案(5篇)
- 路面基層(級(jí)配碎石)施工方案
- 2025年日歷(日程安排-可直接打印)
- 四川政采評(píng)審專家入庫(kù)考試基礎(chǔ)題復(fù)習(xí)試題及答案(一)
- 患者手術(shù)風(fēng)險(xiǎn)評(píng)估與術(shù)前準(zhǔn)備制度
- 口腔執(zhí)業(yè)醫(yī)師定期考核試題(資料)帶答案
- 2024年三八婦女節(jié)婦女權(quán)益保障法律知識(shí)競(jìng)賽題庫(kù)及答案(共260題)
- 2023年7月浙江省普通高中學(xué)業(yè)水平考試(學(xué)考)語(yǔ)文試題答案
- 2024年計(jì)算機(jī)軟件水平考試-初級(jí)信息處理技術(shù)員考試近5年真題集錦(頻考類試題)帶答案
評(píng)論
0/150
提交評(píng)論