版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、ETL 環(huán)境因素及數(shù)據(jù)質(zhì)量數(shù)據(jù)倉(cāng)庫(kù)與ETL的實(shí)現(xiàn)過(guò)程設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)的星型結(jié)構(gòu)EmployeeKeyEmployeeID.TimeKeyTheDate.ProductKeyProductIDProduceNameProductBrandProductCategory.CustomerKeyCustomerID.ShipperKeyShipperID.TimeKeyEmployeeKeyProductKeyCustomerKeyShipperKeyUnitsPrice.維度與事實(shí)一個(gè)數(shù)據(jù)倉(cāng)庫(kù)包括了 多個(gè)中央事實(shí)表 Fact Table多個(gè)維度外鍵和多個(gè)可以分析的指標(biāo)多個(gè)維度表 Dimensi
2、on Tables可以分析的角度ETL過(guò)程數(shù)據(jù)從數(shù)據(jù)源向目標(biāo)數(shù)據(jù)倉(cāng)庫(kù)抽取(Extract)、轉(zhuǎn)換(Transform)、裝載(Load)的過(guò)程ETL過(guò)程構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的重要一環(huán),用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過(guò)數(shù)據(jù)清洗,最終按照預(yù)先定義好的數(shù)據(jù)倉(cāng)庫(kù)模型,將數(shù)據(jù)加載到數(shù)據(jù)倉(cāng)庫(kù)中去。抽?。簩?shù)據(jù)從各種原始的業(yè)務(wù)系統(tǒng)中讀取出來(lái)。 轉(zhuǎn)換:按照預(yù)先設(shè)計(jì)好的規(guī)則將抽取得數(shù)據(jù)進(jìn)行轉(zhuǎn)換、清洗,以及處理一些冗余、歧義的數(shù)據(jù),使本來(lái)異構(gòu)的數(shù)據(jù)格式能統(tǒng)一起來(lái)。 裝載:將轉(zhuǎn)換完的數(shù)據(jù)導(dǎo)入到數(shù)據(jù)倉(cāng)庫(kù)中。 ETL舉例FNameLNameUnitPriceQtyBarrAdam.552ChaiSean1.13EmpKeyN
3、ame1Barr.Adam2Chai.SeanNameUnitPriceQtyBarr.Adam.552Chai.Sean1.13NameTotalSalesBarr.Adam1.1Chai.Sean3.3EmpKeyTotalSales11.123.3導(dǎo)入合并計(jì)算查找案例背景保健品銷售部門,各分部門將銷售情況記錄在各自的表中,記錄方式也是不一樣的要求計(jì)算出各種產(chǎn)品各個(gè)員工07年的銷售情況 店面 網(wǎng)售 PosDWSQLsheet1sheet2sheet3Pos部門銷售情況部門銷售情況EmployeeNameGroupNameTime ProductName ProductStyle Produ
4、ctClass Quantity InformationSource SaleAddress DimProductProductKeyProductNameProductStyleProductClass店面店面銷售情況銷售情況EmployeeNameGroupNameTime ProductName ProductStyle ProductClass Quantity CustomerEvaluation CustomerSources網(wǎng)售網(wǎng)售銷售情況銷售情況EmployeeNameGroupNameTime ProductName ProductStyle ProductClass Qua
5、ntity ProductNameProductStyleProductClassProductNameProductClassProductStyleProductNameProductClassProductClassProductNameProductStyleProductStyleDimEmpEmployKeyEmployeeNameGroupNameDeptNameGroupeNameEmployeeNameGroupeNameGroupNameEmployeeNameEmployeeNameGroupeNameEmployeeName維度表的抽取維度表的抽取源表源表源表源表源表源
6、表維度表維度表店面店面銷售情況銷售情況EmployeeNameGroupNameTime ProductName ProductStyle ProductClass Quantity DimProductProductKeyProductNameProductStyleProductClassFactSalesProductKeyProductNameProductStyleProductClassProductNameProductClassProductStyleProductNameProductClassProductStyleProductKeyProductKey事實(shí)表的抽取事實(shí)表
7、的抽取源表源表維度表維度表事實(shí)表事實(shí)表數(shù)據(jù)質(zhì)量管理數(shù)據(jù)質(zhì)量歸類Copyright 2004, Oracle. All rights reserved.數(shù)據(jù)質(zhì)量金字塔數(shù)據(jù)質(zhì)量金字塔不同數(shù)據(jù)源相同不同數(shù)據(jù)源相同實(shí)體數(shù)據(jù)不同實(shí)體數(shù)據(jù)不同已匯總數(shù)據(jù)與詳已匯總數(shù)據(jù)與詳細(xì)數(shù)據(jù)的再匯總細(xì)數(shù)據(jù)的再匯總不一致不一致處理數(shù)據(jù)超出了處理數(shù)據(jù)超出了用戶忍耐用戶忍耐結(jié)果過(guò)時(shí)結(jié)果過(guò)時(shí)業(yè)務(wù)規(guī)則業(yè)務(wù)規(guī)則統(tǒng)計(jì)口徑統(tǒng)計(jì)口徑違反唯一性約束違反唯一性約束違反主外鍵關(guān)系違反主外鍵關(guān)系丟失數(shù)據(jù)丟失數(shù)據(jù)丟失數(shù)據(jù)包含的丟失數(shù)據(jù)包含的屬性信息屬性信息數(shù)據(jù)超出值域范圍數(shù)據(jù)超出值域范圍數(shù)據(jù)類型不匹配數(shù)據(jù)類型不匹配數(shù)據(jù)日期格式錯(cuò)數(shù)據(jù)日期格式錯(cuò)準(zhǔn)確性
8、準(zhǔn)確性及時(shí)性及時(shí)性一致性一致性唯一性和參考完備性唯一性和參考完備性完整性完整性數(shù)據(jù)類型和值域數(shù)據(jù)類型和值域錯(cuò)誤的值錯(cuò)誤的值錯(cuò)誤的數(shù)據(jù)依賴錯(cuò)誤的數(shù)據(jù)依賴重復(fù)屬性重復(fù)屬性缺乏引用完整性缺乏引用完整性違反商務(wù)規(guī)則違反商務(wù)規(guī)則多種數(shù)據(jù)源中缺乏數(shù)據(jù)對(duì)應(yīng)多種數(shù)據(jù)源中缺乏數(shù)據(jù)對(duì)應(yīng)源數(shù)據(jù)和目標(biāo)缺乏同步源數(shù)據(jù)和目標(biāo)缺乏同步?jīng)]有理由的關(guān)聯(lián)沒(méi)有理由的關(guān)聯(lián)缺少數(shù)據(jù)缺少數(shù)據(jù)錯(cuò)誤的計(jì)算錯(cuò)誤的計(jì)算主鍵重復(fù)主鍵重復(fù)無(wú)標(biāo)準(zhǔn)的格式無(wú)標(biāo)準(zhǔn)的格式稀少的實(shí)體解釋稀少的實(shí)體解釋數(shù)據(jù)質(zhì)量的示例錯(cuò)誤的范圍錯(cuò)誤的范圍原因分析各專業(yè)之間的指標(biāo)體系及編碼規(guī)則不一致各專業(yè)之間的指標(biāo)體系及編碼規(guī)則不一致多個(gè)生產(chǎn)系統(tǒng)的數(shù)據(jù)源存在不一致現(xiàn)象多個(gè)生產(chǎn)系統(tǒng)的
9、數(shù)據(jù)源存在不一致現(xiàn)象 數(shù)據(jù)源本身存在臟數(shù)據(jù)噪聲數(shù)據(jù)數(shù)據(jù)源本身存在臟數(shù)據(jù)噪聲數(shù)據(jù)數(shù)據(jù)存在人工操作數(shù)據(jù)存在人工操作不同數(shù)據(jù)源由不同部門管理不同數(shù)據(jù)源由不同部門管理由于生產(chǎn)系統(tǒng)的數(shù)據(jù)由于生產(chǎn)系統(tǒng)的數(shù)據(jù)是隨生產(chǎn)而變化的,是隨生產(chǎn)而變化的,在不同的時(shí)間點(diǎn)在不同的時(shí)間點(diǎn)進(jìn)行數(shù)據(jù)抽取的數(shù)據(jù)進(jìn)行數(shù)據(jù)抽取的數(shù)據(jù)是不一致的是不一致的 生產(chǎn)系統(tǒng)的不同版本生產(chǎn)系統(tǒng)的不同版本各分公司市場(chǎng)政策的差異各分公司市場(chǎng)政策的差異同一產(chǎn)品、業(yè)務(wù)、套餐同一產(chǎn)品、業(yè)務(wù)、套餐在生產(chǎn)系統(tǒng)在生產(chǎn)系統(tǒng)業(yè)務(wù)處理規(guī)則業(yè)務(wù)處理規(guī)則編碼差異很大編碼差異很大 統(tǒng)計(jì)口徑統(tǒng)計(jì)口徑數(shù)據(jù)抽取時(shí)間點(diǎn)問(wèn)題數(shù)據(jù)抽取時(shí)間點(diǎn)問(wèn)題 業(yè)務(wù)規(guī)則問(wèn)題業(yè)務(wù)規(guī)則問(wèn)題數(shù)據(jù)源問(wèn)題數(shù)據(jù)源
10、問(wèn)題客戶關(guān)系管理操作型數(shù)據(jù)整合環(huán)境業(yè)務(wù)運(yùn)作系統(tǒng)企業(yè)數(shù)據(jù)倉(cāng)庫(kù)EDW數(shù)據(jù)集市客戶洞察BSSCRM 計(jì)費(fèi)結(jié)算OSS資源管理服務(wù)開(kāi)通綜合網(wǎng)管專業(yè)網(wǎng)管MSS/ERP人力資源財(cái)務(wù)管理工程管理數(shù)據(jù)復(fù)制EAIODS數(shù)據(jù)視圖訪問(wèn)ODS ETL數(shù)據(jù)復(fù)制EAIODS數(shù)據(jù)反饋ETLODS/EDW數(shù)據(jù)視圖訪問(wèn)EDW ETL客戶價(jià)值客戶流失數(shù)據(jù)集市決策支持 整合的前端報(bào)表查詢和分析環(huán)境多維數(shù)據(jù)訪問(wèn)ODS書(shū)籍營(yíng)銷活動(dòng)渠道管理客戶關(guān)懷客戶洞察經(jīng)營(yíng)分析績(jī)效管理KPI其他數(shù)據(jù)反饋分析數(shù)據(jù)元數(shù)據(jù)管理安全和權(quán)限管理系統(tǒng)管理收入分析業(yè)務(wù)發(fā)展分析客戶分析客戶細(xì)分營(yíng)銷分析營(yíng)銷評(píng)估監(jiān)控信用度計(jì)算渠道監(jiān)控綜合查詢綜合報(bào)表數(shù)據(jù)稽核數(shù)據(jù)質(zhì)量監(jiān)控當(dāng)
11、企業(yè)的所有系統(tǒng),包括業(yè)務(wù)系統(tǒng)、管理系統(tǒng)、EDA系統(tǒng)都結(jié)為一體的時(shí)候,系統(tǒng)監(jiān)控、 工作流、 數(shù)據(jù)流、 系統(tǒng)管理變成一個(gè)重要挑戰(zhàn)目錄數(shù)據(jù)質(zhì)量問(wèn)題分析數(shù)據(jù)質(zhì)量方法論質(zhì)量保證成功因素案例分析數(shù)據(jù)質(zhì)量管理方法論管理機(jī)制的保障是數(shù)據(jù)質(zhì)量控制的關(guān)鍵驗(yàn)證檢查是數(shù)據(jù)保障的督促和推動(dòng)嚴(yán)謹(jǐn)?shù)倪^(guò)程定義是數(shù)據(jù)質(zhì)量保障的基礎(chǔ)有效的落實(shí)是數(shù)據(jù)質(zhì)量保障的根本有效的組織機(jī)構(gòu)是管理機(jī)制的有力支持完善文檔的建立和維護(hù)是數(shù)據(jù)質(zhì)量保障各個(gè)環(huán)節(jié)以及組織之間溝通的依據(jù)建立合理的數(shù)據(jù)管理機(jī)構(gòu)、制定數(shù)據(jù)質(zhì)量管理機(jī)制、 落實(shí)人員執(zhí)行責(zé)任、保障組織間高效的溝通、持續(xù)監(jiān)控?cái)?shù)據(jù)應(yīng)用過(guò)程和領(lǐng)導(dǎo)強(qiáng)有力的督促是保證企業(yè)數(shù)據(jù)質(zhì)量的關(guān)鍵數(shù)據(jù)質(zhì)量保障流程啟動(dòng)啟動(dòng)
12、項(xiàng)目范圍定義定義里程碑制定工作計(jì)劃評(píng)估項(xiàng)目并獲取相應(yīng)資源風(fēng)險(xiǎn)評(píng)估、快速啟動(dòng)項(xiàng)目定義定義定義數(shù)據(jù)質(zhì)量焦點(diǎn)區(qū)域描述當(dāng)前數(shù)據(jù)使用狀況確定關(guān)鍵數(shù)據(jù)質(zhì)量因素定義數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)評(píng)估評(píng)估評(píng)估基礎(chǔ)框架結(jié)構(gòu)評(píng)估關(guān)鍵數(shù)據(jù)分析導(dǎo)致錯(cuò)誤的根本原因預(yù)設(shè)處理環(huán)境實(shí)現(xiàn)處理環(huán)境清洗并糾正錯(cuò)誤數(shù)據(jù)對(duì)結(jié)果進(jìn)行評(píng)估清洗清洗改進(jìn)改進(jìn)預(yù)設(shè)新的處理環(huán)境實(shí)現(xiàn)新的處理環(huán)境遷移至新的環(huán)境中對(duì)結(jié)果進(jìn)行評(píng)估工具支持工具支持識(shí)別已知的數(shù)據(jù)質(zhì)量問(wèn)題 按照制定的規(guī)范獲取相應(yīng)的項(xiàng)目資源、支撐工具以及制定工作計(jì)劃定義詳細(xì)的過(guò)程、數(shù)據(jù)、組織的劃分以及質(zhì)量元素、標(biāo)準(zhǔn)及測(cè)算方法。對(duì)現(xiàn)存數(shù)據(jù)及業(yè)務(wù)環(huán)境進(jìn)行評(píng)估,以便識(shí)別項(xiàng)目對(duì)數(shù)據(jù)、過(guò)程、系統(tǒng)以及組織架構(gòu)所造成的影響。
13、建立業(yè)務(wù)環(huán)境,改進(jìn)現(xiàn)有數(shù)據(jù)的數(shù)據(jù)質(zhì)量。目錄數(shù)據(jù)質(zhì)量問(wèn)題分析數(shù)據(jù)質(zhì)量方法論質(zhì)量保證成功因素案例分析綜述按照現(xiàn)代質(zhì)量觀念,質(zhì)量是一個(gè)過(guò)程而不是結(jié)果。數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)質(zhì)量應(yīng)當(dāng)在整個(gè)數(shù)據(jù)倉(cāng)庫(kù)規(guī)劃、設(shè)計(jì)、建設(shè)、維護(hù)中體現(xiàn)和實(shí)現(xiàn)。鑒于系統(tǒng)建設(shè)情況(業(yè)務(wù)系統(tǒng)、經(jīng)營(yíng)分析系統(tǒng)),應(yīng)該重點(diǎn)關(guān)注管理、過(guò)程評(píng)估評(píng)估評(píng)估管理管理 123質(zhì)量保證質(zhì)量保證關(guān)鍵成功因素關(guān)鍵成功因素KSFKSF質(zhì)量保證KSF組織保證設(shè)計(jì)崗位明確崗位的要求和職責(zé)制定標(biāo)準(zhǔn)制定數(shù)據(jù)上傳計(jì)劃制定統(tǒng)一編碼庫(kù)過(guò)程過(guò)程評(píng)估評(píng)估管理管理 123質(zhì)量保證質(zhì)量保證關(guān)鍵成功因素關(guān)鍵成功因素KSFKSF在數(shù)據(jù)處理的流程上進(jìn)行規(guī)范并設(shè)置相應(yīng)的控制點(diǎn)和稽核點(diǎn)規(guī)范的流程過(guò)程
14、校驗(yàn)點(diǎn)和稽核點(diǎn)異常處理措施制定數(shù)據(jù)質(zhì)量的評(píng)測(cè)標(biāo)準(zhǔn)并按所制定的標(biāo)準(zhǔn)對(duì)其進(jìn)行考核:標(biāo)準(zhǔn)q及時(shí)性、準(zhǔn)確性、及時(shí)性、準(zhǔn)確性、一致性等一致性等考核q獎(jiǎng)勵(lì)、懲罰獎(jiǎng)勵(lì)、懲罰階段評(píng)估 管理崗位經(jīng)營(yíng)分析系統(tǒng)項(xiàng)目組經(jīng)營(yíng)分析系統(tǒng)項(xiàng)目組主管副總項(xiàng)目負(fù)責(zé)人項(xiàng)目經(jīng)理數(shù)據(jù)質(zhì)量管理員經(jīng)營(yíng)分析系統(tǒng)建設(shè)單位成員經(jīng)營(yíng)分析系統(tǒng)開(kāi)發(fā)組業(yè)務(wù)系統(tǒng)接口員市場(chǎng)、網(wǎng)絡(luò)、客服、計(jì)費(fèi)、財(cái)務(wù)等數(shù)據(jù)質(zhì)量管理小組數(shù)據(jù)質(zhì)量管理小組經(jīng)營(yíng)分析系統(tǒng)需求使用單位圖4-1:組織結(jié)構(gòu)圖為經(jīng)營(yíng)分析系統(tǒng)的數(shù)據(jù)質(zhì)量管理工作提供宏觀方向指導(dǎo),并予以授權(quán) 支持?jǐn)?shù)據(jù)質(zhì)量管理小組的部門或系統(tǒng)間協(xié)調(diào)工作 全面負(fù)責(zé)經(jīng)營(yíng)分析系統(tǒng)的建設(shè)和維護(hù)領(lǐng)導(dǎo)數(shù)據(jù)質(zhì)量管理員進(jìn)行數(shù)據(jù)質(zhì)量管理工作編寫(xiě)和維護(hù)
15、數(shù)據(jù)質(zhì)量工作相關(guān)文檔,如數(shù)據(jù)質(zhì)量檢測(cè)標(biāo)準(zhǔn)、控制流程;定期組織相關(guān)力量對(duì)經(jīng)營(yíng)分析系統(tǒng)的業(yè)務(wù)和設(shè)計(jì)(包括數(shù)據(jù)模型設(shè)計(jì))的完備性進(jìn)行評(píng)估,總結(jié)問(wèn)題,及時(shí)發(fā)現(xiàn)影響數(shù)據(jù)質(zhì)量的隱患;定期、不定期地進(jìn)行質(zhì)量評(píng)估;監(jiān)控?cái)?shù)據(jù)質(zhì)量問(wèn)題解決的整個(gè)流程;數(shù)據(jù)質(zhì)量相關(guān)知識(shí)的培訓(xùn);建立、維護(hù)數(shù)據(jù)質(zhì)量問(wèn)題解決的經(jīng)驗(yàn)集負(fù)責(zé)經(jīng)營(yíng)分析系統(tǒng)與業(yè)務(wù)系統(tǒng)間的協(xié)調(diào)和工作落實(shí)參與質(zhì)量方案的評(píng)估和方案制定負(fù)責(zé)監(jiān)督和管理相應(yīng)業(yè)務(wù)系統(tǒng)建設(shè)、維護(hù)單位進(jìn)行的與經(jīng)營(yíng)分析系統(tǒng)數(shù)據(jù)質(zhì)量問(wèn)題有關(guān)的活動(dòng)管理數(shù)據(jù)上傳計(jì)劃上傳的文件上傳的內(nèi)容上傳的時(shí)間計(jì)劃JF_SERV_DISCT優(yōu)惠用戶清單每月28日20點(diǎn)JF_SERV_PRODUCT新業(yè)務(wù)資料每天22點(diǎn)JF
16、_SERV_PRODUCT新業(yè)務(wù)資料的月基量每月28日20點(diǎn)JF_TRUNK_TICKET長(zhǎng)途清單每天22點(diǎn)JF_ZERO_LIST零次戶清單每月28日20點(diǎn)JF_CARD_SERV_ITEM本地智能網(wǎng)卡清單匯總每月28日20點(diǎn)JF_PHS_SERV_ITEM小靈通預(yù)付費(fèi)清單匯總每月28日20點(diǎn)ZN_PROV_TICKET省智能網(wǎng)清單每月28日20點(diǎn)制定各個(gè)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)上傳內(nèi)容計(jì)劃,此計(jì)劃需要業(yè)務(wù)系統(tǒng)相制定各個(gè)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)上傳內(nèi)容計(jì)劃,此計(jì)劃需要業(yè)務(wù)系統(tǒng)相應(yīng)崗位人員認(rèn)真執(zhí)行:應(yīng)崗位人員認(rèn)真執(zhí)行:管理統(tǒng)一編碼庫(kù)標(biāo)準(zhǔn)代碼是指省公司統(tǒng)一各分公司的業(yè)務(wù)情況整理的標(biāo)準(zhǔn)的業(yè)務(wù)代碼,內(nèi)容是代碼、名稱及代
17、碼分類。標(biāo)準(zhǔn)代碼是數(shù)據(jù)源的主要業(yè)務(wù)代碼,所有的分析都是此代碼組合的維度基礎(chǔ)上,因此維護(hù)好代碼也是保證數(shù)據(jù)質(zhì)量的關(guān)鍵之一建立的原則維護(hù)的原則分公司應(yīng)該理解省公司編碼有代表的實(shí)際業(yè)務(wù)內(nèi)容,然后把本公司的業(yè)務(wù)對(duì)應(yīng)到省公司的標(biāo)準(zhǔn)代碼上建立的原則維護(hù)的原則質(zhì)量保證KSF在行政管理以及職能上設(shè)置相應(yīng)的人員、設(shè)立相應(yīng)的崗位進(jìn)行數(shù)據(jù)質(zhì)量管理,包含以下內(nèi)容:設(shè)計(jì)崗位;明確崗位的要求和職責(zé);制定數(shù)據(jù)上傳計(jì)劃制定統(tǒng)一編碼庫(kù)評(píng)估評(píng)估管理管理 過(guò)程過(guò)程123質(zhì)量保證質(zhì)量保證關(guān)鍵成功因素關(guān)鍵成功因素KSFKSF規(guī)范規(guī)范q規(guī)范的流程檢查點(diǎn)檢查點(diǎn)q過(guò)程校驗(yàn)點(diǎn)和稽核點(diǎn)q異常處理措施制定數(shù)據(jù)質(zhì)量的評(píng)測(cè)標(biāo)準(zhǔn)并按所制定的標(biāo)準(zhǔn)對(duì)其進(jìn)行
18、考核:標(biāo)準(zhǔn)q及時(shí)性、準(zhǔn)確性、一致性等及時(shí)性、準(zhǔn)確性、一致性等考核q獎(jiǎng)勵(lì)、懲罰獎(jiǎng)勵(lì)、懲罰階段評(píng)估 過(guò)程規(guī)范的流程定義了用于構(gòu)造一個(gè)完善的、滿足業(yè)務(wù)功能的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)定義了用于構(gòu)造一個(gè)完善的、滿足業(yè)務(wù)功能的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)所不可缺少的步驟和任務(wù)。這是一組預(yù)定義好的、在整個(gè)數(shù)所不可缺少的步驟和任務(wù)。這是一組預(yù)定義好的、在整個(gè)數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目中起指導(dǎo)作用的、可用多種方法管理的實(shí)施步驟據(jù)倉(cāng)庫(kù)項(xiàng)目中起指導(dǎo)作用的、可用多種方法管理的實(shí)施步驟 過(guò)程校驗(yàn)點(diǎn)對(duì)數(shù)據(jù)的稽核應(yīng)包括三個(gè)層面的對(duì)數(shù)據(jù)的稽核應(yīng)包括三個(gè)層面的KPIsKPIs檢查校驗(yàn),其中業(yè)務(wù)層面檢查校驗(yàn),其中業(yè)務(wù)層面對(duì)于數(shù)據(jù)質(zhì)量保證更為重要,也更為復(fù)雜對(duì)于數(shù)據(jù)質(zhì)量保
19、證更為重要,也更為復(fù)雜數(shù)據(jù)稽核 技術(shù)指標(biāo)稽核 業(yè)務(wù)指標(biāo)稽核 操作指標(biāo)稽核文件命名是否正確文件個(gè)數(shù)是否正常索引標(biāo)識(shí)是否對(duì)應(yīng)文件中記錄行數(shù)是否正常文件大小是否正常文件中各類指標(biāo)匯總值是否異常波動(dòng)根據(jù)歷史經(jīng)驗(yàn)和季節(jié)規(guī)律進(jìn)行時(shí)間序列分析數(shù)據(jù)校驗(yàn)利器在系統(tǒng)中予以固化,提供自動(dòng)異常預(yù)警,使操作人員可以方便地進(jìn)行審核確認(rèn)過(guò)程稽核點(diǎn)由于各省數(shù)據(jù)情況復(fù)雜,因此數(shù)據(jù)在上傳集團(tuán)公司的過(guò)程中,應(yīng)經(jīng)過(guò)由于各省數(shù)據(jù)情況復(fù)雜,因此數(shù)據(jù)在上傳集團(tuán)公司的過(guò)程中,應(yīng)經(jīng)過(guò)多次稽核檢驗(yàn)把關(guān),才能各環(huán)節(jié)數(shù)據(jù)的質(zhì)量多次稽核檢驗(yàn)把關(guān),才能各環(huán)節(jié)數(shù)據(jù)的質(zhì)量本地網(wǎng)生成并稽核本地網(wǎng)生成并稽核1省公司進(jìn)行稽核省公司進(jìn)行稽核2省公司生成并稽核省公司
20、生成并稽核3集團(tuán)進(jìn)行稽核集團(tuán)進(jìn)行稽核4集團(tuán)進(jìn)行處理并展現(xiàn)集團(tuán)進(jìn)行處理并展現(xiàn)5省公司省公司本地網(wǎng)本地網(wǎng)生成數(shù)據(jù)生成數(shù)據(jù)檢查通過(guò)?檢查通過(guò)?檢查通過(guò)?檢查通過(guò)?處理處理/ /生成生成檢查通過(guò)?檢查通過(guò)?檢查通過(guò)?檢查通過(guò)?處理處理/ /稽核稽核/ /展現(xiàn)展現(xiàn) 省公司管控范圍 集團(tuán)公司管控范圍 過(guò)程稽核方法1在從分公司到省公司的在從分公司到省公司的ETLETL過(guò)程中,采取總量稽核與分量稽核方法來(lái)校過(guò)程中,采取總量稽核與分量稽核方法來(lái)校驗(yàn)環(huán)節(jié)之間的數(shù)據(jù)平衡關(guān)系驗(yàn)環(huán)節(jié)之間的數(shù)據(jù)平衡關(guān)系對(duì)兩個(gè)相鄰環(huán)節(jié)中,對(duì)數(shù)據(jù)的總量進(jìn)行驗(yàn)證,總量指標(biāo)包括:總記錄數(shù),所有度量指標(biāo)的總值等??偭空_說(shuō)明數(shù)據(jù)沒(méi)有被丟棄,沒(méi)有不
21、符合裝載邏輯規(guī)則的臟數(shù)據(jù)存在??偭坎徽_,則需要檢查本環(huán)節(jié)裝載日志中是否有被拋棄的記錄,如果沒(méi)有數(shù)據(jù)丟失,則需要檢查數(shù)據(jù)運(yùn)算邏輯規(guī)則??偭炕艘獙?duì)每個(gè)度量進(jìn)行,才算完整的稽核分量稽核是指對(duì)相鄰的兩個(gè)環(huán)節(jié)中,在總量正確的前提下,對(duì)數(shù)據(jù)分布情況的稽核,在這個(gè)過(guò)程中,需要對(duì)每個(gè)維度上的分布的每個(gè)度量進(jìn)行查詢,如果數(shù)據(jù)在每個(gè)維上的分布都正確,則在組合維查詢時(shí)數(shù)據(jù)也正確,可以保證多維分析的正確性。在總量正確的基礎(chǔ)之上,做分量稽核時(shí)只需要選擇任一度量進(jìn)行稽核,可認(rèn)為在其他度量上的分量正確分量稽核分量稽核總量稽核總量稽核1過(guò)程稽核方法2本地網(wǎng):武漢本地網(wǎng) 計(jì)劃上傳總數(shù):25 其中 : 已采集: 20 處理中
22、:0 未上傳:5 計(jì)劃外:0 文件入庫(kù)入庫(kù)成功文件數(shù)入庫(kù)處理耗時(shí)(分鐘)上傳文件大小上傳文件行數(shù)實(shí)際文件大小稽核1941051867537537834105186753- 入庫(kù)失敗文件數(shù)總記錄數(shù)正確記錄數(shù)錯(cuò)誤記錄數(shù)1753783475378304平衡ODS轉(zhuǎn)換已轉(zhuǎn)換文件數(shù)轉(zhuǎn)換處理耗時(shí)(分鐘)總記錄數(shù)正確記錄數(shù)錯(cuò)誤記錄數(shù)19 5475378307537683147平衡分析加載可加載文件數(shù)需加載文件數(shù)已加載文件數(shù)未加載文件數(shù)19 1615 1 平衡列出整體的數(shù)據(jù)處理情況,包括入庫(kù)和采集及分析與渠道系統(tǒng)的列出整體的數(shù)據(jù)處理情況,包括入庫(kù)和采集及分析與渠道系統(tǒng)的使用使用 2過(guò)程稽核方法3月份08月09
23、月增加 %產(chǎn)品大類費(fèi)用(萬(wàn)元)費(fèi)用(萬(wàn)元)費(fèi)用(萬(wàn)元)1語(yǔ)音業(yè)務(wù)44,527.8045,691.602.61%2基礎(chǔ)數(shù)據(jù)961.50990.102.97%3互聯(lián)網(wǎng)4,361.304,522.603.70%4網(wǎng)元出租1,513.401,489.20-1.60%5其他產(chǎn)品8.611.330.99%9未知-481.30-432.1010.22%合計(jì)50,891.3052,272.702.71%此稽核方法可以作為總量和分量稽核的輔助,即針對(duì)某個(gè)度量而言在總量上或分量上的波動(dòng)在設(shè)定的闕值內(nèi)認(rèn)為數(shù)據(jù)時(shí)正常的,否則認(rèn)為為異常,需要檢查確認(rèn) 對(duì)比稽核對(duì)比稽核總量稽核總量稽核分量稽核分量稽核3過(guò)程稽核方法3邏輯
24、規(guī)則1月2月3月4月5月月租的次數(shù)是否為零月租的時(shí)長(zhǎng)是否為零本地市話話計(jì)費(fèi)時(shí)長(zhǎng)應(yīng)被60整除長(zhǎng)途通話計(jì)費(fèi)時(shí)長(zhǎng)應(yīng)被6整除本地市話費(fèi)計(jì)費(fèi)時(shí)長(zhǎng)應(yīng)大于通話時(shí)長(zhǎng)長(zhǎng)途通話費(fèi)計(jì)費(fèi)時(shí)長(zhǎng)應(yīng)大于通話時(shí)長(zhǎng)邏輯稽核主要對(duì)于某個(gè)度量在某個(gè)分量(維度)上的分布是否符合業(yè)務(wù)邏輯,邏輯稽核也是以自定義的方式實(shí)現(xiàn) 邏輯稽核邏輯稽核3過(guò)程稽核方法44在上傳集團(tuán)公司之前,通過(guò)稽核模板,對(duì)關(guān)鍵業(yè)務(wù)指標(biāo)等在上傳集團(tuán)公司之前,通過(guò)稽核模板,對(duì)關(guān)鍵業(yè)務(wù)指標(biāo)等KPIsKPIs進(jìn)行環(huán)進(jìn)行環(huán)比和趨勢(shì)分析審核,確認(rèn)數(shù)據(jù)在正確的范圍之內(nèi)比和趨勢(shì)分析審核,確認(rèn)數(shù)據(jù)在正確的范圍之內(nèi)過(guò)程異常處理措施對(duì)于存在的錯(cuò)誤和異常情況,本地網(wǎng)維護(hù)人員進(jìn)行原因分析和相應(yīng)
25、處對(duì)于存在的錯(cuò)誤和異常情況,本地網(wǎng)維護(hù)人員進(jìn)行原因分析和相應(yīng)處理,通過(guò)界面回收錯(cuò)誤數(shù)據(jù)理,通過(guò)界面回收錯(cuò)誤數(shù)據(jù)質(zhì)量保證KSF在行政管理以及職能上設(shè)置相應(yīng)的人員、設(shè)立相應(yīng)的崗位進(jìn)行數(shù)據(jù)質(zhì)量管理,包含以下內(nèi)容:設(shè)計(jì)崗位;明確崗位的要求和職責(zé);制定數(shù)據(jù)上傳計(jì)劃制定統(tǒng)一編碼庫(kù)評(píng)估評(píng)估管理管理 過(guò)程過(guò)程123質(zhì)量保證質(zhì)量保證關(guān)鍵成功因素關(guān)鍵成功因素KSFKSF在數(shù)據(jù)處理的流程上進(jìn)行規(guī)范并設(shè)置相應(yīng)的控制點(diǎn)和稽核點(diǎn)規(guī)范的流程過(guò)程校驗(yàn)點(diǎn)和稽核點(diǎn)異常處理措施評(píng)估標(biāo)準(zhǔn)評(píng)估標(biāo)準(zhǔn)q及時(shí)性、準(zhǔn)確性一致性等考核考核q獎(jiǎng)勵(lì)、懲罰階段評(píng)估階段評(píng)估 評(píng)估標(biāo)準(zhǔn)數(shù)據(jù)質(zhì)量分級(jí)目標(biāo)報(bào)表數(shù)據(jù)報(bào)表數(shù)據(jù)一般對(duì)于數(shù)據(jù)的準(zhǔn)確性要求比較高,特別是
26、財(cái)務(wù)方面的指標(biāo),是嚴(yán)格限定在誤差范圍內(nèi)的。對(duì)于報(bào)表的指標(biāo),即使是允許的誤差范圍,也要求給出誤差產(chǎn)生的原因,例如是小數(shù)點(diǎn)四舍五入或是由于秒轉(zhuǎn)換到分鐘算法不同等。OLAP數(shù)據(jù)分析 OLAP分析一般是總體數(shù)據(jù)的宏觀比例、趨勢(shì)等分析,對(duì)于數(shù)據(jù)總量的誤差有一定的限制,但要求數(shù)據(jù)在不同維度上的分布比例正確,能夠正確反映宏觀比例和趨勢(shì)。數(shù)據(jù)挖掘 數(shù)據(jù)挖掘一般使用比較復(fù)雜的數(shù)學(xué)算法對(duì)于數(shù)據(jù)進(jìn)行處理,因算法比較復(fù)雜,對(duì)于硬件環(huán)境要求比較高,同時(shí)也限定了使用的數(shù)據(jù)集合不能太大,一般要求對(duì)于全體數(shù)據(jù)進(jìn)行采樣,因此在這個(gè)過(guò)程中,僅關(guān)心樣本的代表性。 評(píng)估標(biāo)準(zhǔn)接口數(shù)據(jù)文件傳送完整率每日傳送至分析系統(tǒng)中的完整的接口文件百
27、分比(其中,完整的接口文件指文件的名稱、格式、時(shí)間標(biāo)識(shí)、文件大小等均符合經(jīng)營(yíng)分析系統(tǒng)接口規(guī)范規(guī)定的接口文件)文件記錄合法率接口文件記錄中各數(shù)據(jù)項(xiàng)長(zhǎng)度、類型及值域均符合接口規(guī)范定義文件傳送及時(shí)率在接口規(guī)范中規(guī)定的文件傳送時(shí)間窗口內(nèi)傳送至分析系統(tǒng)的文件個(gè)數(shù)百分比評(píng)估標(biāo)準(zhǔn)接口表數(shù)據(jù)處理及時(shí)率在文件正確到達(dá)后及時(shí)處理文件比率ODS層數(shù)據(jù)數(shù)據(jù)處理及時(shí)率轉(zhuǎn)換后的ODS層及時(shí)準(zhǔn)確情況 數(shù)據(jù)倉(cāng)庫(kù)檢查數(shù)據(jù)處理及時(shí)率數(shù)據(jù)倉(cāng)庫(kù)層處理及時(shí)準(zhǔn)確情況目錄數(shù)據(jù)質(zhì)量問(wèn)題分析數(shù)據(jù)質(zhì)量方法論質(zhì)量保證成功因素案例分析案例1某省電信源系統(tǒng)的數(shù)據(jù)質(zhì)量問(wèn)題信息不正確:數(shù)據(jù)無(wú)效或錯(cuò)誤,違反數(shù)據(jù)約束規(guī)則、業(yè)務(wù)規(guī)則等。數(shù)據(jù)無(wú)效或錯(cuò)誤,違反數(shù)據(jù)
28、約束規(guī)則、業(yè)務(wù)規(guī)則等。信息不完整:源系統(tǒng)中某些信息缺失或未填充,雖然不影響源系統(tǒng)正常運(yùn)轉(zhuǎn),但這些信息的缺失會(huì)嚴(yán)重影響數(shù)據(jù)倉(cāng)庫(kù)的應(yīng)用分析。源系統(tǒng)中某些信息缺失或未填充,雖然不影響源系統(tǒng)正常運(yùn)轉(zhuǎn),但這些信息的缺失會(huì)嚴(yán)重影響數(shù)據(jù)倉(cāng)庫(kù)的應(yīng)用分析。信息不一致:當(dāng)同一信息內(nèi)容來(lái)自多個(gè)源系統(tǒng)時(shí),存在沖突和差異,或者同一業(yè)務(wù)系統(tǒng)內(nèi)部的冗余信息之間存在沖突。當(dāng)同一信息內(nèi)容來(lái)自多個(gè)源系統(tǒng)時(shí),存在沖突和差異,或者同一業(yè)務(wù)系統(tǒng)內(nèi)部的冗余信息之間存在沖突。編碼映射問(wèn)題 標(biāo)準(zhǔn)編碼不完全、不合理 :許多本地網(wǎng)編碼不能歸類到標(biāo)準(zhǔn)編碼,導(dǎo)致許多本地網(wǎng)編碼不能歸類到標(biāo)準(zhǔn)編碼,導(dǎo)致 “未知未知”一欄的數(shù)量奇高,降低了應(yīng)用分析的價(jià)值
29、,并影響使一欄的數(shù)量奇高,降低了應(yīng)用分析的價(jià)值,并影響使用人員對(duì)系統(tǒng)的信任度。用人員對(duì)系統(tǒng)的信任度。編碼映射不合理:將本地網(wǎng)編碼歸類到標(biāo)準(zhǔn)編碼時(shí)有錯(cuò)誤或不合理,導(dǎo)致與業(yè)務(wù)系統(tǒng)形成重大差距。將本地網(wǎng)編碼歸類到標(biāo)準(zhǔn)編碼時(shí)有錯(cuò)誤或不合理,導(dǎo)致與業(yè)務(wù)系統(tǒng)形成重大差距。本地網(wǎng)編碼發(fā)生調(diào)整,數(shù)據(jù)倉(cāng)庫(kù)未同步修改:將導(dǎo)致新增編碼歸類到將導(dǎo)致新增編碼歸類到 “未知未知”一類,發(fā)生變化的編碼,歸類到錯(cuò)誤的標(biāo)準(zhǔn)編碼。一類,發(fā)生變化的編碼,歸類到錯(cuò)誤的標(biāo)準(zhǔn)編碼。指標(biāo)統(tǒng)計(jì)問(wèn)題指標(biāo)定義不一致:各本地網(wǎng)對(duì)指標(biāo)理解不一致,導(dǎo)致提供上來(lái)的數(shù)據(jù)不標(biāo)準(zhǔn)、不具可比性。各本地網(wǎng)對(duì)指標(biāo)理解不一致,導(dǎo)致提供上來(lái)的數(shù)據(jù)不標(biāo)準(zhǔn)、不具可比性。統(tǒng)
30、計(jì)口徑不一致:各本地網(wǎng)對(duì)統(tǒng)計(jì)口徑理解不一致,導(dǎo)致本系統(tǒng)可能與各本地網(wǎng)系統(tǒng)形成重大差距。各本地網(wǎng)對(duì)統(tǒng)計(jì)口徑理解不一致,導(dǎo)致本系統(tǒng)可能與各本地網(wǎng)系統(tǒng)形成重大差距。ETL數(shù)據(jù)質(zhì)量問(wèn)題技術(shù)性問(wèn)題:包括腳本未按規(guī)范編寫(xiě),存在語(yǔ)法錯(cuò)誤或邏輯錯(cuò)誤,或者沒(méi)有遵循數(shù)據(jù)約束規(guī)則(如唯一性、引用性、非空等)。包括腳本未按規(guī)范編寫(xiě),存在語(yǔ)法錯(cuò)誤或邏輯錯(cuò)誤,或者沒(méi)有遵循數(shù)據(jù)約束規(guī)則(如唯一性、引用性、非空等)。非技術(shù)性問(wèn)題:包括對(duì)業(yè)務(wù)規(guī)則理解不準(zhǔn)確、編碼規(guī)則不一致等產(chǎn)生的問(wèn)題。非技術(shù)性問(wèn)題通常需要向業(yè)務(wù)專家、統(tǒng)計(jì)專家、源系統(tǒng)維包括對(duì)業(yè)務(wù)規(guī)則理解不準(zhǔn)確、編碼規(guī)則不一致等產(chǎn)生的問(wèn)題。非技術(shù)性問(wèn)題通常需要向業(yè)務(wù)專家、統(tǒng)計(jì)專家
31、、源系統(tǒng)維護(hù)人員咨詢。護(hù)人員咨詢。數(shù)據(jù)質(zhì)量檢查的技術(shù)方法及考核指標(biāo)文件級(jí)檢查:及時(shí)性正確性:打開(kāi)正常、文件大小正常/波動(dòng)范圍內(nèi)記錄合法性:記錄數(shù)、記錄長(zhǎng)度正常 文件級(jí)檢查:文件級(jí)檢查: 數(shù)據(jù)域檢查:數(shù)據(jù)域檢查:q記錄中數(shù)值字段、日期字段是否合法 記錄級(jí)檢查:記錄級(jí)檢查:q主鍵檢查q外鍵檢查q編碼映射檢查q數(shù)據(jù)值域檢查q業(yè)務(wù)規(guī)則檢查 記錄級(jí)檢查:記錄級(jí)檢查:q業(yè)務(wù)規(guī)則檢查 業(yè)務(wù)指標(biāo)檢查:業(yè)務(wù)指標(biāo)檢查:q業(yè)務(wù)指標(biāo)平衡性檢查q同一指標(biāo)在臨時(shí)區(qū)、DW、DM/OLAP平衡檢查q客戶、用戶q業(yè)務(wù)指標(biāo)波動(dòng)性檢查q收入、詳單數(shù)q業(yè)務(wù)指標(biāo)與業(yè)務(wù)系統(tǒng)比對(duì) 文件級(jí)文件級(jí)KPIKPI:q文件及時(shí)率q文件正確率 文件級(jí)文件級(jí)KPIKPI:q文件及時(shí)率/正確率q文件處理及時(shí)率q記錄合法率
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五版國(guó)際金融風(fēng)險(xiǎn)管理合同范本3篇
- 二零二五版建筑工地勞務(wù)用工及社會(huì)保障服務(wù)合同范本3篇
- 二零二五年酒店客房協(xié)議價(jià)優(yōu)惠合作合同3篇
- 2024政府采購(gòu)合同環(huán)境與安全監(jiān)督協(xié)議3篇
- 2025年新型城鎮(zhèn)化項(xiàng)目水電設(shè)施安裝施工合同3篇
- 二零二五版板房租賃與租賃期滿資產(chǎn)評(píng)估與轉(zhuǎn)讓合同3篇
- 二零二五年度出租車司機(jī)服務(wù)規(guī)范與客戶滿意度提升合同3篇
- 二零二五年透水混凝土工程驗(yàn)收與評(píng)估合同2篇
- 二零二五年智能交通管理系統(tǒng)采購(gòu)合同3篇
- 二零二五版房屋代理租賃資產(chǎn)評(píng)估合同3篇
- 蓋洛普Q12解讀和實(shí)施完整版
- 2023年Web前端技術(shù)試題
- GB/T 20840.8-2007互感器第8部分:電子式電流互感器
- GB/T 14864-2013實(shí)心聚乙烯絕緣柔軟射頻電纜
- 品牌策劃與推廣-項(xiàng)目5-品牌推廣課件
- 信息學(xué)奧賽-計(jì)算機(jī)基礎(chǔ)知識(shí)(完整版)資料
- 發(fā)煙硫酸(CAS:8014-95-7)理化性質(zhì)及危險(xiǎn)特性表
- 數(shù)字信號(hào)處理(課件)
- 公路自然災(zāi)害防治對(duì)策課件
- 耳鳴中醫(yī)臨床路徑
- 安徽身份證號(hào)碼前6位
評(píng)論
0/150
提交評(píng)論