




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
數(shù)據(jù)質(zhì)量管理與數(shù)據(jù)清洗學習完本課程后,你將能夠:1.掌握數(shù)據(jù)質(zhì)量的定義、來源和評價維度2.學會如何識別、評估和處理數(shù)據(jù)質(zhì)量問題3.能夠根據(jù)項目和數(shù)據(jù)的具體情況,使用質(zhì)量控制的流程保證項目結(jié)果的有效性課程目標課程目錄1.數(shù)據(jù)質(zhì)量概述1.1數(shù)據(jù)質(zhì)量的定義1.2數(shù)據(jù)質(zhì)量問題的來源1.3數(shù)據(jù)質(zhì)量問題分類1.4數(shù)據(jù)質(zhì)量管理的必要性2.數(shù)據(jù)質(zhì)量管理標準3.數(shù)據(jù)清洗技術(shù)4.數(shù)據(jù)規(guī)約5.數(shù)據(jù)變換數(shù)據(jù)質(zhì)量的定義數(shù)據(jù)質(zhì)量:數(shù)據(jù)的實際狀態(tài)與期望狀態(tài)的比較數(shù)據(jù)實際狀態(tài)數(shù)據(jù)期望狀態(tài)比較高質(zhì)量
正確地反映了真實世界
達到了其在運營、決策和規(guī)劃中的期望狀態(tài)期望狀態(tài)
通常由個人或團體、標準組織、法律法規(guī)、業(yè)務要求或軟件開發(fā)要求定義課程目錄1.數(shù)據(jù)質(zhì)量概述1.1數(shù)據(jù)質(zhì)量的定義1.2數(shù)據(jù)質(zhì)量問題的來源1.3數(shù)據(jù)質(zhì)量問題分類1.4數(shù)據(jù)質(zhì)量管理的必要性2.數(shù)據(jù)質(zhì)量管理標準3.數(shù)據(jù)清洗技術(shù)4.數(shù)據(jù)規(guī)約5.數(shù)據(jù)變換數(shù)據(jù)質(zhì)量問題的來源技術(shù)問題信息問題流程問題管理問題質(zhì)量問題數(shù)據(jù)創(chuàng)建數(shù)據(jù)傳遞數(shù)據(jù)裝載數(shù)據(jù)使用元數(shù)據(jù)描述及理解數(shù)據(jù)質(zhì)量管理標準數(shù)據(jù)變化頻率創(chuàng)建流程傳遞流程使用流程維護流程裝載流程數(shù)據(jù)庫設(shè)計數(shù)據(jù)使用規(guī)范人員培訓質(zhì)量管理機構(gòu)數(shù)據(jù)質(zhì)量目標技術(shù)、流程問題采集標準缺失,或標準執(zhí)行不到位(技術(shù):數(shù)據(jù)創(chuàng)建、流程:創(chuàng)建流程)例如:注冊信息表沒有進行數(shù)據(jù)格式約束,或填寫時出現(xiàn)錯拼、漏填等現(xiàn)象源數(shù)據(jù)有問題但沒有發(fā)現(xiàn)(技術(shù):數(shù)據(jù)裝載、流程:裝載流程)例如:爬取得到的網(wǎng)頁數(shù)據(jù),下載或購買得到的數(shù)據(jù)集軟件、硬件、網(wǎng)絡問題(技術(shù):數(shù)據(jù)傳遞)例如:傳感器故障、網(wǎng)絡延遲、災害等調(diào)查問卷表BMXBNLSGSR30001女36.5’3”300002987男2717520k9527495’4”8000101女165’7”投融資數(shù)據(jù)時間公司名稱行業(yè)輪次金額投資方2019/3/11兒童周末教育Pre-A輪數(shù)百萬人民幣北塔資本2019/3/11SOMBiotech醫(yī)療健康A(chǔ)輪700萬歐元未透露2019/3/11Klaytn企業(yè)服務戰(zhàn)略投資9000萬美元未透露2019/3/11誼品生鮮本地生活B輪未透露騰訊2019/3/11常仁科技企業(yè)服務A輪1億人民幣未透露技術(shù)、流程問題SQL查詢問題(技術(shù):數(shù)據(jù)使用,流程:使用流程)例如:Join時,沒有發(fā)現(xiàn)笛卡爾積,聚合后得到錯誤結(jié)果處理手法有誤(技術(shù):數(shù)據(jù)裝載)例如:沒有使用合理的抽樣方法,造成分析結(jié)果偏差SELECT
prod_id,prod_name,
SUM(quantity)as
total_q
FROM
t1aLEFT
JOIN
t2bONd_id=d_idGROUP
BY
prod_id,prod_name信息、管理問題元數(shù)據(jù)管理水平低下(信息:技術(shù)元數(shù)據(jù))例如:血緣關(guān)系不明(表之間、屬性之間),屬性的含義不明確漏洞百出的數(shù)據(jù)模型(管理:數(shù)據(jù)庫設(shè)計、人員培訓)例如:失蹤的主鍵、時間戳等customersBMXBHFSG30001女YH5’3”2987男YH5’9”9527男WH5’4”101女YH5’7”kh兩個表的關(guān)系未知、BM和HF屬性含義未知信息、流程、管理問題源數(shù)據(jù)性質(zhì)不同或者處理不當(信息:業(yè)務元數(shù)據(jù))例如:同義不同名、同名不同義、數(shù)據(jù)截斷/刪失等業(yè)務流程中的裝載規(guī)則設(shè)置錯誤(流程:裝載流程,技術(shù):數(shù)據(jù)裝載)例如:應該使用新增(InsertInto)結(jié)果不小心覆蓋(Insert
Overwrite)數(shù)據(jù)沒有打通(管理問題)例如:各集團或部門之間的數(shù)據(jù)孤島customersBMXBHFSG30001女YH5’3”2987男YH5’9”9527男WH5’4”101女YH5’7”kh性別、身高屬性同義不同名課程目錄1.數(shù)據(jù)質(zhì)量概述1.1數(shù)據(jù)質(zhì)量的定義1.2數(shù)據(jù)質(zhì)量問題的來源1.3數(shù)據(jù)質(zhì)量問題分類1.4數(shù)據(jù)質(zhì)量管理的必要性2.數(shù)據(jù)質(zhì)量管理標準3.數(shù)據(jù)清洗技術(shù)4.數(shù)據(jù)規(guī)約5.數(shù)據(jù)變換數(shù)據(jù)質(zhì)量問題分類數(shù)據(jù)質(zhì)量問題單源問題多源問題模式級別實例級別模式級別實例級別缺乏完整性約束,糟糕的模式設(shè)計數(shù)據(jù)輸入錯誤異構(gòu)數(shù)據(jù)模型與模式設(shè)計重疊、矛盾和不一致的數(shù)據(jù)屬性依賴唯一性引用完整性…拼寫錯誤冗余/重復矛盾的值…命名沖突結(jié)構(gòu)性沖突…聚合不一致時間不一致…單源問題Table1.模式級別的單源問題示例(違反完整性約束)范圍/問題臟數(shù)據(jù)理由/備注屬性非法的值bdate=30.13.7030是域范圍之外的值記錄違反屬性依賴age=22,bdate=12.02.70不符合屬性的依賴關(guān)系,年齡=(當前日期-出生日期)記錄類型唯一性沖突emp1=(name=”JohnSmith”,SSN=”123456”)emp2=(name=”PeterMiller”,SSN=”123456”)違反了SSN(社會保險號)的唯一性來源引用完整性沖突emp=(name=”JohnSmith”,deptno=127)部門表中未定義deptno=127單源問題Table2.實例級別的單源問題示例范圍/問題臟數(shù)據(jù)理由/備注屬性缺失phone=999-999-9999數(shù)據(jù)采集失敗造成的偽值或默認值筆誤/拼寫錯誤city=”Liipzig”通常是拼寫錯誤嵌入name=”J.Smith12.02.70NewYork”在一個屬性中輸入多個值錯置city=“Germany”國家不應該放在城市字段記錄類型字符換位name1=“J.Smith”,name2=”MillerP.”通常是沒有形式約束的字段造成的重復emp1=(name=”JohnSmith”,...);emp2=(name=”J.Smith”,...)由于數(shù)據(jù)輸入錯誤,同一個雇員出現(xiàn)了兩次矛盾emp1=(name=”JohnSmith”,bdate=12.02.70);emp2=(name=”JohnSmith”,bdate=12.12.70)同一個真實世界的實體被不同的值描述來源引用錯誤emp=(name=”JohnSmith”,deptno=17)deptno=17存在,但此人不屬于這個部門多源問題當需要集成多個來源時,將會比單個來源中存在的問題會更加嚴重。每個來源都可能包含臟數(shù)據(jù),并且來源中的數(shù)據(jù)可以有不同的形式、有重疊記錄或矛盾記錄。模式級別,主要問題是命名和結(jié)構(gòu)沖突:命名沖突,相同的名稱用于不同的對象(同名),不同的名稱用于相同的對象(同義)結(jié)構(gòu)沖突,指同一對象在不同來源中的不同表示,比如屬性VS表、不同的數(shù)據(jù)類型、不同的完整性約束等。實例級別,單一來源中的所有問題都可能在多源問題中發(fā)生,另外還可能有:相同的屬性名稱和數(shù)據(jù)類型,不同的表示(婚姻狀況)或不同的含義(美元vs歐元)不同的聚合級別(每個產(chǎn)品的銷售額vs每個產(chǎn)品線的銷售額)不同的時間截點(截至昨天的銷售額vs截至上周的銷售額)
多源問題多源問題的一個主要議題是對象標識問題(objectidentityproblem)即識別重疊的數(shù)據(jù)匹配來自不同來源的同一個實體(比如客戶表)的記錄通常這些數(shù)據(jù)只是部分冗余的,而且不同的來源可以提供其他附加信息來相互補充缺失的部分為了一致并準確地反映現(xiàn)實世界的實體,需要
清除重復信息
合并補充信息多源問題Table3.模式級別和實例級別的多源問題示例CIDNameStreetCitySex11KristenSmith2HurleyPlSouthFork,MN48503024ChristianSmithHurleySt2SForkMN1CnoLastNameFirstNameGenderAddressPhone24SmithChristophM23HarleySt,ChicagoIL,60633-2394333-222-6542493SmithKrisL.F2HurleyPlace,SouthForkMN,48503-5998444-555-6666NoLNameFNameGenderStreetCityStateZIPPhoneCIDCno1SmithKristenL.F2HurleyPlaceSouthForkMN48503-5998444-555-6666114932SmithChristianM2HurleyPlaceSouthForkMN48503-5998243SmithChristophM23HarleyStreetChicagoMN60633-2394333-222-654224Cust-omerClientCust-omers課程目錄1.數(shù)據(jù)質(zhì)量概述1.1數(shù)據(jù)質(zhì)量的定義1.2數(shù)據(jù)質(zhì)量問題的來源1.3數(shù)據(jù)質(zhì)量問題分類1.4數(shù)據(jù)質(zhì)量管理的必要性2.數(shù)據(jù)質(zhì)量管理標準3.數(shù)據(jù)清洗技術(shù)4.數(shù)據(jù)規(guī)約5.數(shù)據(jù)變換數(shù)據(jù)質(zhì)量管理的必要性GIGO原則:Garbagein,
Garbageout“把劣質(zhì)的數(shù)據(jù)丟入到最好的模型中去分析處理,就像是把已經(jīng)腐爛了的桃子,用最好的卡車,走最快的路線,運輸?shù)绞袌?,但是桃子仍然是腐爛的”輸出結(jié)論的質(zhì)量很大程度上由輸入數(shù)據(jù)的質(zhì)量決定。企業(yè)的每一個商業(yè)決策、客戶關(guān)系和商業(yè)投資都是建立在數(shù)據(jù)分析的基礎(chǔ)上,由此可見,數(shù)據(jù)質(zhì)量問題開始成為影響數(shù)據(jù)分析和利用效能的“最后一公里”問題,是困擾許多大數(shù)據(jù)公司和企業(yè)在拓展其大數(shù)據(jù)戰(zhàn)略不可回避的問題。錯誤數(shù)據(jù)會給企業(yè)帶來金錢的損失錯誤數(shù)據(jù)會使員工的效率下降錯誤數(shù)據(jù)會損傷企業(yè)的名譽數(shù)據(jù)質(zhì)量管理的必要性考慮這樣一個場景:
在一次高級別會議中,兩個分析師都需要分析公司業(yè)績,結(jié)果兩份報告得到了兩個不同的收入數(shù)據(jù),那么沒有人能夠知道哪些數(shù)據(jù)是準確的,這可能會導致錯誤決策或者決策被推遲。質(zhì)量低劣的數(shù)據(jù)帶來的不僅僅是報表數(shù)據(jù)的錯誤,更危險的是它可能會導致決策的偏離。業(yè)務影響庫存不足或者過多結(jié)算錯誤財務計劃的偏差信息不及時或不準確企業(yè)損失收入損失成本增加客戶投訴市場占有率降低課程目錄1.數(shù)據(jù)質(zhì)量概述2.數(shù)據(jù)質(zhì)量管理標準2.1數(shù)據(jù)完整性2.2數(shù)據(jù)唯一性2.3數(shù)據(jù)及時性3.數(shù)據(jù)清洗技術(shù)4.數(shù)據(jù)規(guī)約5.數(shù)據(jù)變換2.4數(shù)據(jù)有效性2.5數(shù)據(jù)準確性2.6數(shù)據(jù)一致性數(shù)據(jù)質(zhì)量管理標準“數(shù)據(jù)質(zhì)量維度”這個術(shù)語已經(jīng)被廣泛用于描述數(shù)據(jù)的質(zhì)量。然而,即使是數(shù)據(jù)質(zhì)量的專業(yè)從事者中,也沒有普遍認同的數(shù)據(jù)質(zhì)量維度標準。這種狀況導致了許多混亂,蘇格拉底說,“智慧的開始是對術(shù)語的定義”。注意數(shù)據(jù)質(zhì)量管理標準是衡量和反映數(shù)據(jù)質(zhì)量的指標,而不是為了去限制數(shù)據(jù)本身所代表的含義。數(shù)據(jù)質(zhì)量管理標準不是一個規(guī)定性的標準,維度的使用將根據(jù)所涉及的業(yè)務需求和行業(yè)而有所不同。為了幫助管理標準中維度的使用和應用,每個維度都會用一個虛擬學校場景中的示例來說明。數(shù)據(jù)質(zhì)量管理標準的6個維度數(shù)據(jù)質(zhì)量維度完整性一致性唯一性有效性及時性準確性數(shù)據(jù)質(zhì)量管理標準的使用方法Q:如何使用數(shù)據(jù)質(zhì)量管理標準?A:企業(yè)根據(jù)其業(yè)務背景、要求、風險水平等,選擇相關(guān)的數(shù)據(jù)質(zhì)量維度和相關(guān)的維度閾值。請注意:每個維度可能有不同的權(quán)重,為了獲得數(shù)據(jù)質(zhì)量的準確度量,企業(yè)需要確定每個維度對整體數(shù)據(jù)質(zhì)量的貢獻程度。典型的數(shù)據(jù)質(zhì)量評估流程明確對象選擇維度定義閾值實施評估審查結(jié)果采取措施定期重復課程目錄1.數(shù)據(jù)質(zhì)量概述2.數(shù)據(jù)質(zhì)量管理標準2.1數(shù)據(jù)完整性2.2數(shù)據(jù)唯一性2.3數(shù)據(jù)及時性3.數(shù)據(jù)清洗技術(shù)4.數(shù)據(jù)規(guī)約5.數(shù)據(jù)變換2.4數(shù)據(jù)有效性2.5數(shù)據(jù)準確性2.6數(shù)據(jù)一致性完整性維度完整性定義存儲的數(shù)據(jù)中,“100%完整”的數(shù)據(jù)比例大小參照物具體業(yè)務規(guī)則定義的“100%完整”度量對非空值(null或空字符串)的度量范圍任何數(shù)據(jù)項、記錄、數(shù)據(jù)集或數(shù)據(jù)庫中,需要評估的關(guān)鍵數(shù)據(jù)度量單位百分比%相關(guān)維度有效性、準確性必要性如果某個數(shù)據(jù)項是強制性要實現(xiàn)100%的完整性,需要進行有效性和準確性檢查,以確定該數(shù)據(jù)項是否已正確完成完整性維度完整性案例學校要求新生家長填寫一份表格,里面要填寫學生的醫(yī)療狀況和緊急聯(lián)系電話,還有學生的姓名、地址和出生日期。到學期的第一周結(jié)束的時候,對表格中的“緊急聯(lián)系電話”這個字段進行完整性度量。學校有300名學生,在300個潛在記錄中有294個記錄被填寫,因此,聯(lián)系人表中的此數(shù)據(jù)項已達到294/300x100%=98%的完整性。備注首先測量關(guān)鍵數(shù)據(jù)的完整性非關(guān)鍵數(shù)據(jù)的不完整性對業(yè)務可能無關(guān)緊要課程目錄1.數(shù)據(jù)質(zhì)量概述2.數(shù)據(jù)質(zhì)量管理標準2.1數(shù)據(jù)完整性2.2數(shù)據(jù)唯一性2.3數(shù)據(jù)及時性3.數(shù)據(jù)清洗技術(shù)4.數(shù)據(jù)規(guī)約5.數(shù)據(jù)變換2.4數(shù)據(jù)有效性2.5數(shù)據(jù)準確性2.6數(shù)據(jù)一致性唯一性維度唯一性定義任何事物都不會被記錄超過一次參照物同一個數(shù)據(jù)來源中的相同數(shù)據(jù)項,或其他數(shù)據(jù)來源中的相應數(shù)據(jù)項度量對現(xiàn)實世界中的事物數(shù)量與數(shù)據(jù)集中的事物記錄數(shù)量的比較現(xiàn)實世界中的事物數(shù)量可以通過不同的、更可靠的數(shù)據(jù)來源來確定范圍單個數(shù)據(jù)集中的所有記錄度量單位百分比%相關(guān)維度一致性必要性視具體的業(yè)務情況來判斷是否需要滿足唯一性唯一性維度唯一性案例一所學校現(xiàn)有500名在校生。但學生數(shù)據(jù)庫顯示了501份不同的學生記錄。其中兩條記錄除了名字王圓圓和王源源不同外,其他字段如住址、聯(lián)系方式等全部相同,可能是將該學生使用了曾用名。這表示唯一性為500/501x100=99.8%備注唯一性評估的反面就是重復值評估課程目錄1.數(shù)據(jù)質(zhì)量概述2.數(shù)據(jù)質(zhì)量管理標準2.1數(shù)據(jù)完整性2.2數(shù)據(jù)唯一性2.3數(shù)據(jù)及時性3.數(shù)據(jù)清洗技術(shù)4.數(shù)據(jù)規(guī)約5.數(shù)據(jù)變換2.4數(shù)據(jù)有效性2.5數(shù)據(jù)準確性2.6數(shù)據(jù)一致性及時性維度及時性定義數(shù)據(jù)在所需要的時間點反映現(xiàn)實的程度參照物被記錄的事物在真實世界中發(fā)生的時間點度量時間差范圍任何數(shù)據(jù)項、記錄、數(shù)據(jù)集或數(shù)據(jù)庫度量單位時間相關(guān)維度準確性(隨時間流逝必然降低)必要性根據(jù)業(yè)務需要選擇及時性維度及時性案例在2013年6月1日,學生張小七提供了緊急聯(lián)系人的相關(guān)信息隨后學校的管理團隊于2013年6月4日將其輸入學生數(shù)據(jù)庫從提交信息到錄入數(shù)據(jù)庫,中間延遲了3天備注由于時間對靜態(tài)和動態(tài)記錄的作用不同,每個數(shù)據(jù)集的易失性和非易失性數(shù)據(jù)的比例也不同及時性緩慢漸變維度(SlowlyChangingDimension)
靜態(tài)數(shù)據(jù):比如某人的出生日期、出生地點等動態(tài)數(shù)據(jù):人的年齡、住址、體重、聯(lián)系方式,商品的價格等信息如果一個數(shù)據(jù)在t時刻是準時的,則說明該數(shù)據(jù)的值在t時刻是正確的。如果一個數(shù)據(jù)在t時刻是過期數(shù)據(jù),說明該數(shù)據(jù)的值在t時刻是不正確的,但它在t時刻之前的某一時刻是正確的。在業(yè)務數(shù)據(jù)庫中,這些變化很自然的就會修改并馬上反映到實際業(yè)務當中去。在數(shù)據(jù)倉庫中,其數(shù)據(jù)主要的特征一是靜態(tài)歷史數(shù)據(jù),二是不刪除,三是定期增長,其作用主要用來數(shù)據(jù)分析因此分析的過程中對歷史數(shù)據(jù)就提出了要求,有一些數(shù)據(jù)是需要能夠反映出在周期內(nèi)的變化歷史,有一些數(shù)據(jù)卻不需要。課程目錄1.數(shù)據(jù)質(zhì)量概述2.數(shù)據(jù)質(zhì)量管理標準2.1數(shù)據(jù)完整性2.2數(shù)據(jù)唯一性2.3數(shù)據(jù)及時性3.數(shù)據(jù)清洗技術(shù)4.數(shù)據(jù)規(guī)約5.數(shù)據(jù)變換2.4數(shù)據(jù)有效性2.5數(shù)據(jù)準確性2.6數(shù)據(jù)一致性有效性維度有效性定義如果數(shù)據(jù)符合定義的語法(格式、類型、范圍),則它是有效的參照物數(shù)據(jù)庫、元數(shù)據(jù)或文檔規(guī)則允許的數(shù)據(jù)類型(字符串、整數(shù)、浮點等)、格式(長度、位數(shù)等)和范圍(最小值、最大值或包含在一組允許值內(nèi))等度量數(shù)據(jù)與元數(shù)據(jù)或文檔之間的比較范圍所有數(shù)據(jù)通常都可以進行有效性測量度量單位百分比相關(guān)維度準確性、完整性、一致性和唯一性必要性必要有效性維度有效性案例情景1:每一個班級都有一個主鍵,由教師姓名的首字母加上班級的兩位數(shù)字組成(3個字母字符和2個數(shù)字字符)。新老師尉遲千璽姓名是4個字,需要想辦法如何表示四個首字母,否則數(shù)據(jù)庫將拒絕“YCQX09”的類標識符。決定是去掉姓中的第二個字符“C”:“YQX09”,但這可能會破壞準確性。一個更好的解決方案是修改數(shù)據(jù)庫規(guī)則,接受2或4個首字母。情景2:入學申請表上記錄了小學和初中生的入學年齡記錄,規(guī)定需要在4到11之間。假設(shè)記錄為14或N/A,將被視為違反有效性。課程目錄1.數(shù)據(jù)質(zhì)量概述2.數(shù)據(jù)質(zhì)量管理標準2.1數(shù)據(jù)完整性2.2數(shù)據(jù)唯一性2.3數(shù)據(jù)及時性3.數(shù)據(jù)清洗技術(shù)4.數(shù)據(jù)規(guī)約5.數(shù)據(jù)變換2.4數(shù)據(jù)有效性2.5數(shù)據(jù)準確性2.6數(shù)據(jù)一致性準確性維度準確性定義數(shù)據(jù)正確描述“真實世界”對象或事件的程度參照物實際情況或者權(quán)威數(shù)據(jù)度量數(shù)據(jù)在多大程度上反映了真實對象的特征范圍任何數(shù)據(jù)項、記錄、數(shù)據(jù)集或數(shù)據(jù)庫中保存的對象或事件度量單位百分比相關(guān)維度有效性(數(shù)據(jù)必須有效,才能準確)必要性必要準確性維度準確性案例一所歐洲學校正在接受每年9月入學的申請,要求學生在入學年度的8月31日前達到5歲。在這種情況下,一個美國家長在申請表上填寫出生日期(D.O.B),采用的是美國日期格式,即MM/DD/YYYY,而不是歐洲的DD/MM/YYYY格式,導致日期和月份的表示被顛倒。所以,學生的生日實際上是9月8號,在8月31日前未滿5歲。但家長填寫了09/08,而學校認為這個日期代表的是8月9號,因此學生被錄取了。雖然在美國,這個日期數(shù)據(jù)是有效的,但是在歐洲,這個數(shù)據(jù)會導致年齡的錯誤推導,因此記錄在這個申請表中是不準確的。課程目錄1.數(shù)據(jù)質(zhì)量概述2.數(shù)據(jù)質(zhì)量管理標準2.1數(shù)據(jù)完整性2.2數(shù)據(jù)唯一性2.3數(shù)據(jù)及時性3.數(shù)據(jù)清洗技術(shù)4.數(shù)據(jù)規(guī)約5.數(shù)據(jù)變換2.4數(shù)據(jù)有效性2.5數(shù)據(jù)準確性2.6數(shù)據(jù)一致性一致性維度一致性定義同一個事物的多條記錄之間是否有區(qū)別參照物同一個數(shù)據(jù)來源中的相同數(shù)據(jù)項,或其他數(shù)據(jù)來源中的相應數(shù)據(jù)項度量模式分析范圍多個數(shù)據(jù)集,評估事物的數(shù)值或格式度量單位百分比相關(guān)維度有效性、準確性和唯一性(在有效性或準確性不滿足的情況下,仍然可能滿足一致性)必要性視具體業(yè)務情況一致性維度一致性案例學生的出生日期在學校登記冊中的值和格式,與存儲在學生數(shù)據(jù)庫中的值和格式相同。數(shù)據(jù)質(zhì)量的其他維度理解和管理這六個維度至關(guān)重要,然而還有其他因素會對數(shù)據(jù)的有效使用產(chǎn)生影響。數(shù)據(jù)的可用性:它是可理解的、簡單的、相關(guān)的、可訪問的、可維護的,并且在正確的精度水平上嗎?數(shù)據(jù)的時間問題(超出及時性本身):它是否穩(wěn)定而且能對合法的更改請求作出及時響應?數(shù)據(jù)的靈活性:它是否與其他數(shù)據(jù)具有可比性和兼容性,它是否具有有用的分組和分類?它能被重新調(diào)整用途嗎?它容易操作嗎?對數(shù)據(jù)的信心:數(shù)據(jù)治理、數(shù)據(jù)保護和數(shù)據(jù)安全是否到位?數(shù)據(jù)的可靠性如何?是可驗證的,還是已經(jīng)被驗證的?數(shù)據(jù)的價值:數(shù)據(jù)是否有良好的成本/效益案例?它是最佳使用嗎?是否危及人身安全、隱私或者企業(yè)的法律責任?它是否支持或抵觸企業(yè)形象或企業(yè)信息?課程目錄1.數(shù)據(jù)質(zhì)量概述2.數(shù)據(jù)質(zhì)量管理標準3.數(shù)據(jù)清洗技術(shù)3.1重復值清洗3.2缺失值填充3.3異常值發(fā)現(xiàn)與修復4.數(shù)據(jù)規(guī)約5.數(shù)據(jù)變換數(shù)據(jù)清洗流程數(shù)據(jù)清洗數(shù)據(jù)探查問題評估實施清洗數(shù)據(jù)探查定義對數(shù)據(jù)內(nèi)容進行系統(tǒng)化的探查、統(tǒng)計和記錄。內(nèi)容獲取相關(guān)的元數(shù)據(jù)數(shù)據(jù)粒度、數(shù)據(jù)類型、值范圍、離散值及其頻率、方差、唯一性、空值的個數(shù)、典型的字符串模式(例如電話號碼的模式)和業(yè)務規(guī)則等作用描述了數(shù)據(jù)的結(jié)構(gòu)、內(nèi)容、規(guī)則和關(guān)系的概況,獲得對數(shù)據(jù)和環(huán)境的了解,是變被動為主動地改善數(shù)據(jù)質(zhì)量的第一步。問題評估假設(shè)業(yè)務部門需要了解在2016年,單身人群與結(jié)婚人群的消費金額對比缺失數(shù)據(jù)量不大的時候,通常不影響客戶畫像類型的分析,或影響輕微。假設(shè)業(yè)務部門需要為單身人群量身定做一套促銷方案缺失數(shù)據(jù)導致促銷方案中的有效客戶數(shù)量下降,對促銷有一定影響。假設(shè)業(yè)務部門需要上線一套客戶個性化推薦的服務,其中婚姻狀況是主要考量因素缺失數(shù)據(jù)導致部分顧客無法享受該服務,對業(yè)務有絕對的影響。名姓城ID省ID地址城市2016年消費郵編收入婚姻元組1小二阮44131江城路杭州¥200031001460K未婚元組3小七張01908之江路杭州¥300031000190KNULL元組5成功李01908之江路南京¥500031000150KNULL元組6建國趙04131江城路大連¥400028001280K結(jié)婚實施清洗查看表和列的設(shè)計信息,并進行統(tǒng)計分析,與元數(shù)據(jù)對比;使用正則匹配語句,探查數(shù)據(jù)取值是否符合定義好的格式。沖突解決:定義標準元數(shù)據(jù)——定義轉(zhuǎn)換規(guī)則(創(chuàng)建Map表)——轉(zhuǎn)換數(shù)據(jù)IDGENDERAGEHEIGHT1M361762F271623F491744M16165IDGENDERAGEHEIGHT1136176222716232491744116165BMXBHFSG30001女YH5’3”2987男YH5’9”9527男WH5’4”101女YH5’7”BMXBHFSG300012YH16029871YH17595271WH1631012YH170customerskhods_customersods_khSrc_valueStd_idM1F2女2男1map_gendermapheight公式round(x*12+y)*2.54,0)課程目錄1.數(shù)據(jù)質(zhì)量概述2.數(shù)據(jù)質(zhì)量管理標準3.數(shù)據(jù)清洗技術(shù)3.1重復值清洗3.2缺失值填充3.3異常值發(fā)現(xiàn)與修復4.數(shù)據(jù)規(guī)約5.數(shù)據(jù)變換重復值清洗重復值的清洗需要在沖突解決之后進行(保證有效性之后)先單源后多源重復值清洗流程匹配合并清除實例匹配問題(instance
matching)簡單情況:精確匹配 最簡單的情況是根據(jù)主鍵或者其他獨特的屬性,直接匹配重復值 稍復雜一點的情況是在單個數(shù)據(jù)集中,對主鍵或者獨特屬性進行排序,檢查相鄰記錄的其他屬性是否重復重復值清洗實例匹配問題(instance
matching)復雜情況:模糊匹配基于匹配規(guī)則:根據(jù)業(yè)務規(guī)則聲明某些屬性列相同時為重復值,或者利用自定義函數(shù)(UDF)匹配計算相似度,設(shè)置閾值:0-1,不同屬性可能對整體相似度貢獻不同的權(quán)重字符串匹配:基于通配符、字符頻率、編輯距離、鍵盤距離和語音相似性長文本匹配基準方法:簡單word2vec嵌入、GloVe嵌入詞移距離:
使用兩文本間的詞嵌入,測量其中一文本中的單詞在語義空間中移動到另一文本單詞所需要的最短距離。SIF(SmoothInverseFrequency)預訓練編碼器重復值清洗編輯距離(EditDistance),又稱Levenshtein距離,是指兩個字串之間,由一個轉(zhuǎn)成另一個所需的最少單字符編輯操作次數(shù)。編輯操作有且僅有三種,插入(Insertion)、刪除(Deletion)和替換(Substitution)。一般來說,編輯距離越小,兩個串的相似度越大。如何計算編輯距離呢?譬如,"kitten"和"sitting"這兩個單詞,由"kitten"轉(zhuǎn)換為"sitting"需要的最少單字符編輯操作有:kitten→sitten(substitutionof"s"for"k")sitten→sittin(substitutionof"i"for"e")sittin→sitting(insertionof"g"attheend)因此,"kitten"和"sitting"這兩個單詞之間的編輯距離為3。重復值清洗編輯距離(EditDistance)Python實現(xiàn)方法安裝計算編輯距離的模塊:pipinstallpython-LevenshteinimportLevenshteinprint(Levenshtein.distance("cape","cat"))texta=
u'艾倫圖靈傳'textb=
u'艾倫?圖靈傳'print(Levenshtein.distance(texta,textb))重復值清洗簡單清洗常用方法:使用distinct
/
groupby/開窗函數(shù)row_number()去除重復記錄開窗函數(shù)Row
number
():
select*,
row_number()over(partitionbynameorderbyagedesc)asrn
from${t1};
select*
from${t1}
wherern=1;課程目錄1.數(shù)據(jù)質(zhì)量概述2.數(shù)據(jù)質(zhì)量管理標準3.數(shù)據(jù)清洗技術(shù)3.1重復值清洗3.2缺失值填充3.3異常值發(fā)現(xiàn)與修復4.數(shù)據(jù)規(guī)約5.數(shù)據(jù)變換缺失值填充數(shù)據(jù)的缺失一般是指觀測的缺失和觀測中變量值的缺失,兩者都會造成分析結(jié)果的不準確。缺失的觀測會導致由樣本數(shù)據(jù)推斷出的總體數(shù)據(jù)的性質(zhì)和特點出現(xiàn)偏差。缺失的數(shù)據(jù)可能會對數(shù)據(jù)分析的結(jié)果產(chǎn)生誤差,從而使樣本數(shù)據(jù)不能很好地代表數(shù)據(jù)總體。識別缺失的數(shù)據(jù):在SQL中,缺失的數(shù)據(jù)通常以Null或空字符串表示(探查每一個列是否有空值或空字符串)識別缺失的觀測:一般可以通過數(shù)據(jù)統(tǒng)計中的記錄值和唯一值進行評估。例如,網(wǎng)站日志日訪問量平時記錄的值在1000左右,突然某一天降到100了,需要檢查一下數(shù)據(jù)是否存在缺失了。再例如,網(wǎng)站統(tǒng)計地域分布情況的每一個地區(qū)名就是一個唯一值,我國包括了32個省和直轄市,如果統(tǒng)計得到的唯一值小于32,則可以判斷數(shù)據(jù)有可能存在缺失。包括探查維表內(nèi)是否包含事實表所有主鍵。缺失值填充處理缺失值常用方法:刪除使用最可能的值填充缺失值,包括使用一個全局常量(NULL統(tǒng)一由-1代替,代表未知)使用統(tǒng)計值(均值/極值/眾數(shù)等)使用擬合值(通過模型或者規(guī)則擬合,得到“最應該”填的值
)ods_customersIDGENDERAGEHEIGHT11361762227NULL32NULL164411616551231806NULL31159…………ods_customersIDGENDERAGEHEIGHT113617622271623227164411616551231806-131159…………課程目錄1.數(shù)據(jù)質(zhì)量概述2.數(shù)據(jù)質(zhì)量管理標準3.數(shù)據(jù)清洗技術(shù)3.1重復值清洗3.2缺失值填充3.3異常值發(fā)現(xiàn)與修復4.數(shù)據(jù)規(guī)約5.數(shù)據(jù)變換異常值發(fā)現(xiàn)與修復異常值在統(tǒng)計學上的全稱是疑似異常值,也稱作離群點,異常值的分析也稱作離群點分析。異常值是指樣本中出現(xiàn)的“極端值”,數(shù)據(jù)值看起來異常大或異常小,其分布明顯偏離其余的觀測值。異常值分析是檢驗數(shù)據(jù)中是否存在不合常理的數(shù)據(jù),在數(shù)據(jù)分析中,既不能忽視異常值的存在,也不能簡單地把異常值從數(shù)據(jù)分析中剔除。重視異常值的出現(xiàn),分析其產(chǎn)生的原因,常常成為發(fā)現(xiàn)新問題進而改進決策的契機。簡單統(tǒng)計量分析3σ原則箱型圖分析異常值發(fā)現(xiàn)與修復簡單統(tǒng)計量分析:對變量做一個描述性分析,進而查看哪些數(shù)據(jù)是不合理的。常用的統(tǒng)計量是最大值和最小值,用來判斷變量的取值是否超出了合理的范圍,例如,客戶年齡的最大值是199,該取值就存在異常。3σ原則:如果數(shù)據(jù)服從正態(tài)分布,在3σ原則下,異常值被定義為一組測定值中與平均值的偏差超過三倍標準差的值。在正態(tài)分布下,距離平均值3σ之外的值出現(xiàn)的概率為P(|x-μ|>3σ)<=0.003,屬于極個別的小概率事件。如果數(shù)據(jù)不服從正態(tài)分布,也可以用遠離平均值的多少倍標準差來描述。箱型圖分析:異常值通常被定義為小于QL-l.5*IQR或者大于QU
+1.5*IQR的值,QL稱為下四分位數(shù),QU稱為上四分位數(shù),IQR稱為四分位數(shù)間距,是QU上四分位數(shù)和QL下四分位數(shù)之差,其間包括了全部觀察值的一半。異常值發(fā)現(xiàn)與修復修復案例常用方法:用業(yè)務規(guī)則制定的極值代替。例:假設(shè)已知價格的上限為1000元數(shù)據(jù)質(zhì)量的長期保持數(shù)據(jù)質(zhì)量的保證僅靠技術(shù)顯然是不行的。實際上,在整個數(shù)據(jù)質(zhì)量的控制過程中,人仍然是關(guān)鍵因素。要想真正長期保證數(shù)據(jù)的高質(zhì)量,還必須從以下5個方面著手:建立數(shù)據(jù)的標準,明確數(shù)據(jù)的定義(權(quán)衡企業(yè)內(nèi)外部因素,即習慣和質(zhì)量)。建立一個可復用的數(shù)據(jù)收集、數(shù)據(jù)預處理和數(shù)據(jù)維護流程(應對不斷變化的企業(yè)內(nèi)外部因素)。在數(shù)據(jù)預處理流程中設(shè)立多個性能監(jiān)控點(評價標準:最終用戶、同類數(shù)據(jù)、前期數(shù)據(jù)等)。對流程不斷進行改善和優(yōu)化(質(zhì)量改善非一朝一夕,而是持續(xù)過程,要靈活變通)。把責任落實到人(制定數(shù)據(jù)采集、存儲、集成、分析等各項活動的質(zhì)量指標)。課程目錄1.數(shù)據(jù)質(zhì)量概述2.數(shù)據(jù)質(zhì)量管理標準3.數(shù)據(jù)清洗技術(shù)4.數(shù)據(jù)規(guī)約5.數(shù)據(jù)變換數(shù)據(jù)規(guī)約數(shù)據(jù)規(guī)約是指在盡可能保持數(shù)據(jù)原貌的前提下,最大限度地精簡數(shù)據(jù)量,主要包括維度規(guī)約(從列的角度篩選數(shù)據(jù))和數(shù)量規(guī)約(從行的角度篩選數(shù)據(jù))兩種方法。維度規(guī)約(DimensionalityReduction):減少所需自變量的個數(shù)。小波變換(WT)、主成分分析(PCA)、特征集選擇(FSS)數(shù)量規(guī)約(NumerosityReduction):用較小的數(shù)據(jù)表示形式替換原始數(shù)據(jù)。參數(shù)化:回歸模型、對數(shù)線性模型等非參數(shù)化:直方圖、聚類、抽樣等數(shù)據(jù)規(guī)約的意義:降低無效、錯誤數(shù)據(jù)對建模的影響,提高建模的準確性少量且具代表性的數(shù)據(jù)將大幅縮減數(shù)據(jù)挖掘所需的時間降低儲存數(shù)據(jù)的成本數(shù)據(jù)規(guī)約:維度規(guī)約小波變換(WaveletTransform,WT)小波變換是由傅里葉變換(FFT)發(fā)展而來的。在數(shù)據(jù)規(guī)約中,對數(shù)據(jù)進行小波轉(zhuǎn)換后截斷數(shù)據(jù),保存最強的小波系數(shù),從而保留近似的壓縮數(shù)據(jù)。主成分分析(PrincipalComponentAnalysis,PCA)PCA通過尋找原自變量的正交向量,將原有的n個自變量重新組合為不相關(guān)的新自變量。當數(shù)據(jù)中存在的自變量個數(shù)過多,或者自變量之間存在相關(guān)性時,可以考慮使用PCA的方法重構(gòu)自變量。PCA能更好的處理離散數(shù)據(jù),而WT更適合高維度數(shù)據(jù)。數(shù)據(jù)規(guī)約:維度規(guī)約特征集選擇(FeatureSubsetSelection,F(xiàn)SS)特征選擇時通過刪除不相關(guān)或冗余的屬性來減少維度與數(shù)據(jù)量。其目的是:定位最小屬性集,使得數(shù)據(jù)的概率分布盡可能接近使用所有屬性得到的原分布,簡單說,就是從全部屬性中選取一個特征屬性子集,使構(gòu)造出來的模型更好。特征集選擇的步驟建立子集集合、構(gòu)造評價函數(shù)、構(gòu)建停止準則、驗證有效性特征集選擇的方法合并屬性、逐步向前、逐步向后、決策樹數(shù)據(jù)規(guī)約:數(shù)量規(guī)約參數(shù)化數(shù)據(jù)規(guī)約可以用回歸模型與對數(shù)線性模型來實現(xiàn)?;貧w模型:對數(shù)值型的數(shù)據(jù),可以用回歸的方法,使之擬合成直線或平面。在簡單線性回歸中,隨機變量y可以表示為另一個隨機變量x的線性函數(shù)。通過最小二乘法可以定義線性函數(shù)方程。在多元線性回歸中,隨機變量y可以用多個隨機變量表示。對數(shù)線性:如果想分析多個分類變量間的關(guān)系,對多個分類變量間的關(guān)系給出系統(tǒng)而綜合的評價,就可以采用對數(shù)線性模型。常見的邏輯回歸就是對數(shù)線性模型的一種。對數(shù)線性模型中的Logit過程如果用來分析自變量與因變量的交互項的話,其實是邏輯回歸模型的結(jié)果。只不過對數(shù)線性模型顯示的是屬性之間的相互關(guān)系,并不需區(qū)分Y與X。數(shù)據(jù)規(guī)約:數(shù)量規(guī)約非參數(shù)化數(shù)據(jù)規(guī)約可以用直方圖、聚類、抽樣來實現(xiàn)。直方圖:直使用分箱來近似數(shù)據(jù)分布,是一種流行的數(shù)據(jù)規(guī)約形式。用直方圖規(guī)約數(shù)據(jù),就是將bin的個數(shù)由觀測值的數(shù)量n減少到k個。從而使數(shù)據(jù)變成一塊一塊的呈現(xiàn)。bin的劃分可以是等寬的,也可以是等頻的。聚類:將數(shù)據(jù)元組(即記錄,數(shù)據(jù)表中的一行)視為對象,它將對象劃分為簇,使一個簇中的對象相互“相似”,而與其他簇中的對象“相異”。在數(shù)據(jù)規(guī)約中,用數(shù)據(jù)的簇替換實際數(shù)據(jù)。該技術(shù)的有效性依賴于簇的定義是否符合數(shù)據(jù)的分布性質(zhì)。數(shù)據(jù)規(guī)約:數(shù)量規(guī)約抽樣(Sampling)簡單隨機抽樣:每個樣本被抽到的概率相等,隨機從總體中獲得指定個數(shù)的樣本數(shù)據(jù)等距抽樣:也叫系統(tǒng)抽樣,樣本按某種順序排列后,隨機抽取第一個樣本,然后順序抽取其余樣本分層抽樣:總體由不同類別(層)的記錄組成,按照類別的組成比例抽取樣本的方法整群抽樣:也叫整體抽樣,將總體分成多個互不交叉的群,隨機的抽取若干個群其他抽樣方法連續(xù)抽樣:先抽樣,基于樣本分析,根據(jù)分析結(jié)果決定要不要繼續(xù)抽樣多階段抽樣:抽樣分階段進行,每個階段使用的抽樣方可以不同bootstrap重抽樣:樣本量不足時,有放回的重復抽樣課程目錄1.數(shù)據(jù)質(zhì)量概述2.數(shù)據(jù)質(zhì)量管理標準3.數(shù)據(jù)清洗技術(shù)4.數(shù)據(jù)規(guī)約5.數(shù)據(jù)變換數(shù)據(jù)變換數(shù)據(jù)變換:對數(shù)據(jù)進行變換處理,使數(shù)據(jù)更適合當前任務或者算法的需要。使用簡單函數(shù)進行變換方根和乘方對數(shù)變換和指數(shù)變換差值和比例數(shù)據(jù)規(guī)范化歸一化z-score標準化小數(shù)定標規(guī)范化數(shù)據(jù)離散化分類變量離散化連續(xù)變量離散化數(shù)據(jù)變換:簡單函數(shù)簡單函數(shù)變換:使數(shù)據(jù)符合某一分布,或使計算變簡單方根和乘方對數(shù)變換和指數(shù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 服裝批發(fā)商直播帶貨與網(wǎng)紅營銷考核試卷
- 刨花板行業(yè)綠色生產(chǎn)與可持續(xù)發(fā)展考核試卷
- 彈射玩具銷售季節(jié)性規(guī)律考核試卷
- 樂器配件精密加工技術(shù)考核試卷
- 動物用藥品銷售與市場預測分析考核試卷
- 刺繡藝術(shù)在充電寶的個性化設(shè)計考核試卷
- 創(chuàng)業(yè)項目品牌定位與市場推廣考核試卷
- 勞務合同范本遷戶口
- 學校鏟車租賃合同范本
- 淘客推廣合同范本
- 2025年春新外研版(三起)英語三年級下冊課件 Unit6第1課時Startup
- 2025江蘇蘇州高新區(qū)獅山商務創(chuàng)新區(qū)下屬國企業(yè)招聘9人高頻重點提升(共500題)附帶答案詳解
- 《蒙牛集團實施財務共享過程中存在的問題及優(yōu)化建議探析》8800字(論文)
- 平拋運動的經(jīng)典例題
- 錄井作業(yè)現(xiàn)場風險評估及控制措施
- 2025年度商會工作計劃
- 社區(qū)管理與服務專業(yè)實習總結(jié)范文
- 施工現(xiàn)場5S管理規(guī)范
- 科研方法講座模板
- 投資學基礎(chǔ)(第二版)教案全套 李博
- 【MOOC】中級財務會計-西南交通大學 中國大學慕課MOOC答案
評論
0/150
提交評論