![數(shù)據(jù)中心質(zhì)量保證方案_第1頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-3/10/57bab094-ce85-4848-9a05-acea5b8aed52/57bab094-ce85-4848-9a05-acea5b8aed521.gif)
![數(shù)據(jù)中心質(zhì)量保證方案_第2頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-3/10/57bab094-ce85-4848-9a05-acea5b8aed52/57bab094-ce85-4848-9a05-acea5b8aed522.gif)
![數(shù)據(jù)中心質(zhì)量保證方案_第3頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-3/10/57bab094-ce85-4848-9a05-acea5b8aed52/57bab094-ce85-4848-9a05-acea5b8aed523.gif)
![數(shù)據(jù)中心質(zhì)量保證方案_第4頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-3/10/57bab094-ce85-4848-9a05-acea5b8aed52/57bab094-ce85-4848-9a05-acea5b8aed524.gif)
![數(shù)據(jù)中心質(zhì)量保證方案_第5頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-3/10/57bab094-ce85-4848-9a05-acea5b8aed52/57bab094-ce85-4848-9a05-acea5b8aed525.gif)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、 數(shù)據(jù)中心質(zhì)量保證方案 廣東第二師范學(xué)院 第一章 引言高校數(shù)據(jù)中心作為校情決策分析的數(shù)據(jù)來(lái)源,為保證數(shù)據(jù)中心的質(zhì)量,通常需要進(jìn)行數(shù)據(jù)處理,主要包括以下幾個(gè)重要的步驟:數(shù)據(jù)審查、數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)驗(yàn)證四大步驟。(一)數(shù)據(jù)審查該步驟檢查數(shù)據(jù)的數(shù)量(記錄數(shù))是否滿足分析的最低要求,字段值的內(nèi)容是否與調(diào)查要求一致,是否全面;還包括利用描述性統(tǒng)計(jì)分析,檢查各個(gè)字段的字段類型、字段值的最大值、最小值、平均數(shù)、中位數(shù)等,記錄個(gè)數(shù)、缺失值或空值個(gè)數(shù)等。(二)數(shù)據(jù)清洗該步驟針對(duì)數(shù)據(jù)審查過(guò)程中發(fā)現(xiàn)的明顯錯(cuò)誤值、缺失值、異常值、可疑數(shù)據(jù),選用適當(dāng)?shù)姆椒ㄟM(jìn)行“清冼”,使“臟”數(shù)據(jù)變?yōu)椤案蓛簟睌?shù)據(jù),有利于后續(xù)的統(tǒng)
2、計(jì)分析得出可靠的結(jié)論。當(dāng)然,數(shù)據(jù)清理還包括對(duì)重復(fù)記錄進(jìn)行刪除。(三)數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)分析強(qiáng)調(diào)分析對(duì)象的可比性,但不同字段值由于計(jì)量單位等不同,往往造成數(shù)據(jù)不可比;對(duì)一些統(tǒng)計(jì)指標(biāo)進(jìn)行綜合評(píng)價(jià)時(shí),如果統(tǒng)計(jì)指標(biāo)的性質(zhì)、計(jì)量單位不同,也容易引起評(píng)價(jià)結(jié)果出現(xiàn)較大誤差,再加上分析過(guò)程中的其他一些要求,需要在分析前對(duì)數(shù)據(jù)進(jìn)行變換,包括無(wú)量綱化處理、線性變換、匯總和聚集、適度概化、規(guī)范化以及屬性構(gòu)造等。(四)數(shù)據(jù)驗(yàn)證 該步驟的目的是初步評(píng)估和判斷數(shù)據(jù)是否滿足統(tǒng)計(jì)分析的需要,決定是否需要增加或減少數(shù)據(jù)量。利用簡(jiǎn)單的線性模型,以及散點(diǎn)圖、直方圖、折線圖等圖形進(jìn)行探索性分析,利用相關(guān)分析、一致性檢驗(yàn)等方法對(duì)數(shù)據(jù)的準(zhǔn)確性
3、進(jìn)行驗(yàn)證,確保不把錯(cuò)誤和偏差的數(shù)據(jù)帶入到數(shù)據(jù)分析中去。第二章 數(shù)據(jù)質(zhì)量的基本要素首先,如何評(píng)估數(shù)據(jù)的質(zhì)量,或者說(shuō)怎么樣的數(shù)據(jù)才是符合要求的數(shù)據(jù)?可以從4個(gè)方面去考慮,這4個(gè)方面共同構(gòu)成了數(shù)據(jù)質(zhì)量的4個(gè)基本要素。2.1完整性數(shù)據(jù)的記錄和信息是否完整,是否存在缺失的情況。數(shù)據(jù)的缺失主要有記錄的缺失和記錄中某個(gè)字段信息的缺失,兩者都會(huì)造成統(tǒng)計(jì)結(jié)果的不準(zhǔn)確,所以完整性是數(shù)據(jù)質(zhì)量最基礎(chǔ)的保障,而對(duì)完整性的評(píng)估相對(duì)比較容易。2.2一致性數(shù)據(jù)的記錄是否符合規(guī)范,是否與前后及其他數(shù)據(jù)集合保持統(tǒng)一。數(shù)據(jù)的一致性主要包括數(shù)據(jù)記錄的規(guī)范和數(shù)據(jù)邏輯的一致性。數(shù)據(jù)記錄的規(guī)范主要是數(shù)據(jù)編碼和格式的問(wèn)題,比如教工號(hào)是7位的
4、數(shù)字、學(xué)號(hào)是11位的數(shù)字,性別碼包括2個(gè)類目、IP地址一定是用”.”分隔的4個(gè)0-255的數(shù)字組成,及一些定義的數(shù)據(jù)約束,比如完整性的非空約束、唯一值約束等;數(shù)據(jù)邏輯性主要是指標(biāo)統(tǒng)計(jì)和計(jì)算的一致性,比如PV>=UV,新用戶比例在0-1之間等。數(shù)據(jù)的一致性審核是數(shù)據(jù)質(zhì)量審核中比較重要也是比較復(fù)雜的一塊。2.3準(zhǔn)確性數(shù)據(jù)中記錄的信息和數(shù)據(jù)是否準(zhǔn)確,是否存在異?;蛘咤e(cuò)誤的信息。導(dǎo)致一致性問(wèn)題的原因可能是數(shù)據(jù)記錄的規(guī)則不一,但不一定存在錯(cuò)誤;而準(zhǔn)確性關(guān)注的是數(shù)據(jù)記錄中存在的錯(cuò)誤,比如字符型數(shù)據(jù)的亂碼現(xiàn)象也應(yīng)該歸到準(zhǔn)確性的考核范疇,另外就是異常的數(shù)值,異常大或者異常小的數(shù)值,不符合有效性要求的數(shù)值
5、,如學(xué)生數(shù)一定是整數(shù)、年齡一般在1-100之間、轉(zhuǎn)化率一定是介于0到1的值等。對(duì)數(shù)據(jù)準(zhǔn)確性的審核有時(shí)會(huì)遇到困難,因?yàn)閷?duì)于沒(méi)有明顯異常的錯(cuò)誤值我們很難發(fā)現(xiàn)。2.4及時(shí)性數(shù)據(jù)中心的數(shù)據(jù)及時(shí)性主要反映在數(shù)據(jù)交換和數(shù)據(jù)分析的時(shí)效性上。數(shù)據(jù)交換中部分業(yè)務(wù)數(shù)據(jù)的時(shí)效性要求極高,如人員崗位的變動(dòng)及時(shí)到OA,資產(chǎn)的賬單及時(shí)到財(cái)務(wù)等,其他及時(shí)性要求不高的數(shù)據(jù)交換也有時(shí)效的要求:如1小時(shí) 、一天、三天等。雖然說(shuō)數(shù)據(jù)分析的實(shí)時(shí)性要求并不是太高,但并不意味著就沒(méi)有要求,數(shù)據(jù)分析可以接受當(dāng)天的數(shù)據(jù)要第二天才能分析查看,但如果數(shù)據(jù)要延時(shí)兩三天才能出來(lái),或者每周的報(bào)告要兩周后才能出來(lái),那么分析的結(jié)論可能已經(jīng)失去時(shí)效性,同時(shí)
6、,某些實(shí)時(shí)分析和決策需要用到小時(shí)或者分鐘級(jí)的數(shù)據(jù),這些需求對(duì)數(shù)據(jù)的時(shí)效性要求極高。所以及時(shí)性也是數(shù)據(jù)質(zhì)量的組成要素之一。第三章 數(shù)據(jù)審查基于數(shù)據(jù)質(zhì)量的4個(gè)要素,可以對(duì)數(shù)據(jù)進(jìn)行審查,以評(píng)估數(shù)據(jù)是否滿足完整性、一致性、準(zhǔn)確性和及時(shí)性這4方面的要求,其中數(shù)據(jù)的及時(shí)性主要跟數(shù)據(jù)的同步和處理過(guò)程的效率相關(guān),更多的是通過(guò)監(jiān)控ODI任務(wù)的方式來(lái)保證數(shù)據(jù)的及時(shí)性,所以這里的數(shù)據(jù)審查主要指的是評(píng)估數(shù)據(jù)的完整性、一致性和準(zhǔn)確性。3.1完整性審查審查數(shù)據(jù)的完整性。首先是記錄的完整性,一般使用統(tǒng)計(jì)的記錄數(shù)和唯一值個(gè)數(shù)。比如圖書管的每天借閱量是相對(duì)恒定的,大概在1000本上下波動(dòng),如果某天的借閱量下降到了只有100本,
7、那很有可能記錄缺失了;或者網(wǎng)站的訪問(wèn)記錄應(yīng)該在一天的24小時(shí)均有分布,如果某個(gè)整點(diǎn)完全沒(méi)有用戶訪問(wèn)記錄,那么很有可能網(wǎng)站在當(dāng)時(shí)出了問(wèn)題或者那個(gè)時(shí)刻的日志記錄傳輸出現(xiàn)了問(wèn)題;再如統(tǒng)計(jì)教師、學(xué)生的籍貫分布時(shí),一般會(huì)包括全國(guó)的32個(gè)省份直轄市,如果統(tǒng)計(jì)的省份唯一值個(gè)數(shù)少于32,那么很有可能數(shù)據(jù)也存在缺失。完整性的另一方面,記錄中某個(gè)字段的數(shù)據(jù)缺失,可以使用統(tǒng)計(jì)信息中的空值(NULL)的個(gè)數(shù)進(jìn)行審核。如果某個(gè)字段的信息理論上必然存在,比如教師的所屬單位、學(xué)生的班級(jí)等,那么這些字段的空值個(gè)數(shù)的統(tǒng)計(jì)就應(yīng)該是0,這些字段我們可以使用非空(NOT NULL)約束來(lái)保證數(shù)據(jù)的完整性;對(duì)于某些允許空的字段,比如教
8、職工的職稱信息不一定存在,但空值的占比基本恒定,比如職稱為空的教師比例通常在10%-20%,我們同樣可以使用統(tǒng)計(jì)的空值個(gè)數(shù)來(lái)計(jì)算空值占比,如果空值的占比明顯增大,很有可能這個(gè)字段的記錄出現(xiàn)了問(wèn)題,信息出現(xiàn)缺失。3.2一致性審查如果數(shù)據(jù)記錄格式有標(biāo)準(zhǔn)的編碼規(guī)則,那么對(duì)數(shù)據(jù)記錄的一致性檢驗(yàn)比較簡(jiǎn)單,只要驗(yàn)證所有的記錄是否滿足這個(gè)編碼規(guī)則就可以,最簡(jiǎn)單的就是使用字段的長(zhǎng)度、唯一值個(gè)數(shù)這些統(tǒng)計(jì)量。比如對(duì)教職工的工號(hào)是7位數(shù)字,那么字段的最長(zhǎng)和最短字符數(shù)都應(yīng)該是7;如果字段必須保證唯一,那么字段的唯一值個(gè)數(shù)跟記錄數(shù)應(yīng)該是一致的,比如用戶的身份證號(hào)、手機(jī)號(hào);再如地域的省份直轄市一定是統(tǒng)一編碼的,記錄的一定
9、是“上海”而不是“上海市”、“浙江”而不是“浙江省”,可以把這些唯一值映射到有效的32個(gè)省市的列表,如果無(wú)法映射,那么字段通不過(guò)一致性檢驗(yàn)。一致性中邏輯規(guī)則的驗(yàn)證相對(duì)比較復(fù)雜,很多時(shí)候指標(biāo)的統(tǒng)計(jì)邏輯的一致性需要底層數(shù)據(jù)質(zhì)量的保證,同時(shí)也要有非常規(guī)范和標(biāo)準(zhǔn)的統(tǒng)計(jì)邏輯的定義,所有指標(biāo)的計(jì)算規(guī)則必須保證一致。我們經(jīng)常犯的錯(cuò)誤就是匯總數(shù)據(jù)和細(xì)分?jǐn)?shù)據(jù)加起來(lái)的結(jié)果對(duì)不上,導(dǎo)致這個(gè)問(wèn)題很有可能的原因就是數(shù)據(jù)在細(xì)分的時(shí)候把那些無(wú)法明確歸到某個(gè)細(xì)分項(xiàng)的數(shù)據(jù)給排除了,比如在細(xì)分學(xué)生畢業(yè)去向,如果我們無(wú)法將某些非直接進(jìn)入的來(lái)源明確地歸到升學(xué)、就業(yè)、出國(guó)等這些既定的來(lái)源分類,但也不應(yīng)該直接過(guò)濾掉這些數(shù)據(jù),而應(yīng)該給一個(gè)
10、“未知來(lái)源”的分類,以保證根據(jù)來(lái)源細(xì)分之后的數(shù)據(jù)加起來(lái)還是可以與總體的數(shù)據(jù)保持一致。如果需要審核這些數(shù)據(jù)邏輯的一致性,我們可以建立一些“有效性規(guī)則”,比如A>=B,如果C=B/A,那么C的值應(yīng)該在0,1的范圍內(nèi)等,數(shù)據(jù)無(wú)法滿足這些規(guī)則就無(wú)法通過(guò)一致性檢驗(yàn)。3.3準(zhǔn)確性審查數(shù)據(jù)的準(zhǔn)確性可能存在于個(gè)別記錄,也可能存在于整個(gè)數(shù)據(jù)集。如果整個(gè)數(shù)據(jù)集的某個(gè)字段的數(shù)據(jù)存在錯(cuò)誤,比如常見(jiàn)的數(shù)量級(jí)的記錄錯(cuò)誤,這種錯(cuò)誤很容易發(fā)現(xiàn),利用統(tǒng)計(jì)分析的平均數(shù)和中位數(shù)也可以發(fā)現(xiàn)這類問(wèn)題。當(dāng)數(shù)據(jù)集中存在個(gè)別的異常值時(shí),可以使用最大值和最小值的統(tǒng)計(jì)量去審核,或者使用箱線圖也可以讓異常記錄一目了然。還有幾個(gè)準(zhǔn)確性的審核問(wèn)
11、題,字符亂碼的問(wèn)題或者字符被截?cái)嗟膯?wèn)題,可以使用分布來(lái)發(fā)現(xiàn)這類問(wèn)題,一般的數(shù)據(jù)記錄基本符合正態(tài)分布或者類正態(tài)分布,那么那些占比異常小的數(shù)據(jù)項(xiàng)很可能存在問(wèn)題,比如某個(gè)字符記錄占總體的占比只有0.1%,而其他的占比都在3%以上,那么很有可能這個(gè)字符記錄有異常。對(duì)于數(shù)值范圍既定的數(shù)據(jù),也可以有效性的限制,超過(guò)數(shù)據(jù)有效的值域定義數(shù)據(jù)記錄就是錯(cuò)誤的。如果數(shù)據(jù)并沒(méi)有顯著異常,但仍然可能記錄的值是錯(cuò)誤的,只是這些值與正常的值比較接近而已,這類準(zhǔn)確性檢驗(yàn)最困難,一般只能與其他來(lái)源或者統(tǒng)計(jì)結(jié)果進(jìn)行比對(duì)來(lái)發(fā)現(xiàn)此類問(wèn)題 。第4章 數(shù)據(jù)清洗業(yè)務(wù)數(shù)據(jù)源所提供的數(shù)據(jù)內(nèi)容不可能完美,存在著“臟數(shù)據(jù)”,即數(shù)據(jù)有空缺、噪音等缺
12、陷。而且在數(shù)據(jù)中心的各數(shù)據(jù)之間,其內(nèi)容也存在著不一致的現(xiàn)象,為了減少這些“臟數(shù)據(jù)”對(duì)數(shù)據(jù)中心分析結(jié)果的影響程度,必須采取各種有效的措施對(duì)其進(jìn)行處理,這一過(guò)程稱為“數(shù)據(jù)清洗”。4.1數(shù)據(jù)抽取完成之后的數(shù)據(jù)集所存在的問(wèn)題4.1.1不完整的數(shù)據(jù)這一類數(shù)據(jù)主要是一些應(yīng)該有的信息缺失,如教職工的所屬單位、性別、編制類別;主表與明細(xì)表不能匹配等。4.1.2錯(cuò)誤的數(shù)據(jù)這一類錯(cuò)誤通常產(chǎn)生的原因有兩個(gè):一、 業(yè)務(wù)系統(tǒng)不夠健全,在接收輸入后沒(méi)有進(jìn)行判斷直接寫入后臺(tái)數(shù)據(jù)庫(kù)造成的,比如數(shù)值數(shù)據(jù)輸成全角數(shù)字字符、字符串?dāng)?shù)據(jù)后面有一個(gè)回車操作、日期格式不正確、日期越界等;二、 數(shù)據(jù)抽取的過(guò)程中產(chǎn)生的錯(cuò)誤數(shù)據(jù)。4.1.3重
13、復(fù)的數(shù)據(jù) 對(duì)于這一類數(shù)據(jù)特別是維表中會(huì)出現(xiàn)這種情況將重復(fù)數(shù)據(jù)記錄的所有字段導(dǎo)出來(lái),讓客戶確認(rèn)并整理。 “臟數(shù)據(jù)”會(huì)對(duì)建立的數(shù)據(jù)中心造成不良影響,扭曲從數(shù)據(jù)中獲得的信息,直接影響數(shù)據(jù)中心的運(yùn)行效果,進(jìn)一步影響數(shù)據(jù)挖掘及分析,最終影響決策管理。因此,為了使數(shù)據(jù)中心的記錄更準(zhǔn)確、一致,消除重復(fù)和異常記錄就變得很重要,所以數(shù)據(jù)清洗工作是相當(dāng)必要的。數(shù)據(jù)清洗作為數(shù)據(jù)處理的一個(gè)重要環(huán)節(jié),在數(shù)據(jù)中心構(gòu)建過(guò)程中占據(jù)重要位置。對(duì)于任何數(shù)據(jù)中心而言,數(shù)據(jù)清洗過(guò)程都是必不可少的。4.2數(shù)據(jù)清洗的步驟4.2.1 定義和確定錯(cuò)誤的類型4.2.1.1數(shù)據(jù)審查數(shù)據(jù)審查是數(shù)據(jù)清洗的前提與基礎(chǔ),通過(guò)詳盡的數(shù)據(jù)審查來(lái)檢測(cè)數(shù)據(jù)中的
14、錯(cuò)誤或不一致情況,除了手動(dòng)檢查數(shù)據(jù)或者數(shù)據(jù)樣本之外,還可以使用一些分析工具或程序來(lái)獲得關(guān)于數(shù)據(jù)屬性的元數(shù)據(jù),從而發(fā)現(xiàn)數(shù)據(jù)集中存在的問(wèn)題數(shù)據(jù)。4.2.1.2 定義清洗轉(zhuǎn)換規(guī)則根據(jù)上一步進(jìn)行數(shù)據(jù)分析得到的結(jié)果來(lái)定義清洗轉(zhuǎn)換規(guī)則與工作流。根據(jù)數(shù)據(jù)源的個(gè)數(shù),數(shù)據(jù)源中不一致數(shù)據(jù)和“臟數(shù)據(jù)”多少的程度,需要執(zhí)行大量的數(shù)據(jù)轉(zhuǎn)換和清洗步驟。4.2.2 搜尋并識(shí)別異常的數(shù)據(jù)4.2.2.1 檢測(cè)數(shù)據(jù)異常檢測(cè)數(shù)據(jù)集中的數(shù)據(jù)異常,需要花費(fèi)大量的人力、物力和時(shí)間,而且這個(gè)過(guò)程本身很容易出錯(cuò),盡量利用一些方法自動(dòng)檢測(cè)數(shù)據(jù)集中的數(shù)據(jù)異常,方法主要有:基于統(tǒng)計(jì)的方法,聚類方法,關(guān)聯(lián)規(guī)則的方法。4.2.2.2檢測(cè)重復(fù)記錄的算法
15、消除重復(fù)記錄可以針對(duì)兩個(gè)數(shù)據(jù)集或者一個(gè)合并后的數(shù)據(jù)集,首先需要檢測(cè)出標(biāo)識(shí)同一個(gè)現(xiàn)實(shí)實(shí)體的重復(fù)記錄,即匹配過(guò)程。檢測(cè)重復(fù)記錄的算法主要有:基本的字段匹配算法,遞歸的字段匹配算法, Cosine相似度函數(shù)。4.2.3 糾正所發(fā)現(xiàn)的錯(cuò)誤在數(shù)據(jù)源上執(zhí)行預(yù)先定義好的并且已經(jīng)得到驗(yàn)證的清洗轉(zhuǎn)換規(guī)則和工作流。當(dāng)直接在源數(shù)據(jù)上進(jìn)行清洗時(shí),需要備份源數(shù)據(jù),以防需要撤銷上一次或幾次的清洗操作。清洗時(shí)根據(jù)“臟數(shù)據(jù)”存在形式的不同,執(zhí)行一系列的轉(zhuǎn)換步驟來(lái)解決數(shù)據(jù)質(zhì)量問(wèn)題。為處理單數(shù)據(jù)源問(wèn)題并且為其與其他數(shù)據(jù)源的合并做好準(zhǔn)備,一般在各個(gè)數(shù)據(jù)源上應(yīng)該分別進(jìn)行幾種類型的轉(zhuǎn)換,主要包括:4.2.3.1 從自由格式的屬性字段中
16、抽取值(屬性分離)自由格式的屬性一般包含著很多的信息,而這些信息有時(shí)候需要細(xì)化成多個(gè)屬性,從而進(jìn)一步支持后面重復(fù)記錄的清洗。4.2.3.2 確認(rèn)和改正這一步驟處理輸入和拼寫錯(cuò)誤,并盡可能地使其自動(dòng)化。基于字典查詢的拼寫檢查對(duì)于發(fā)現(xiàn)拼寫錯(cuò)誤是很有用的。4.2.3.3標(biāo)準(zhǔn)化為了使記錄實(shí)例匹配和合并變得更方便,應(yīng)該把屬性值轉(zhuǎn)換成一個(gè)一致和統(tǒng)一的格式。4.2.4干凈數(shù)據(jù)回流當(dāng)數(shù)據(jù)被清洗后,干凈的數(shù)據(jù)應(yīng)該替換原來(lái)的“臟數(shù)據(jù)”。這樣可以提高系統(tǒng)的數(shù)據(jù)質(zhì)量,還可避免將來(lái)再次抽取數(shù)據(jù)后進(jìn)行重復(fù)的清洗工作。4.3 數(shù)據(jù)清洗的評(píng)價(jià)標(biāo)準(zhǔn)4.3.1 數(shù)據(jù)的可信性可信性包括精確性、完整性、一致性、有效性、唯一性等指標(biāo)。
17、(1)精確性:描述數(shù)據(jù)是否與其對(duì)應(yīng)的客觀實(shí)體的特征相一致。(2)完整性:描述數(shù)據(jù)是否存在缺失記錄或缺失字段。(3)一致性:描述同一實(shí)體的同一屬性的值在不同的系統(tǒng)是否一致。(4)有效性:描述數(shù)據(jù)是否滿足用戶定義的條件或在一定的域值范圍內(nèi)。(5)唯一性:描述數(shù)據(jù)是否存在重復(fù)記錄。4.3.2 數(shù)據(jù)的可用性數(shù)據(jù)的可用性考察指標(biāo)主要包括時(shí)間性和穩(wěn)定性。(1)時(shí)間性:描述數(shù)據(jù)是當(dāng)前數(shù)據(jù)還是歷史數(shù)據(jù)。(2)穩(wěn)定性:描述數(shù)據(jù)是否是穩(wěn)定的,是否在其有效期內(nèi)。4.4 常見(jiàn)的數(shù)據(jù)清洗算法4.4.1 空缺值的清洗對(duì)于空缺值的清洗可以采取忽略元組,人工填寫空缺值,使用一個(gè)全局變量填充空缺值,使用屬性的平均值、中問(wèn)值、最大值、最小值或更為復(fù)雜的概率統(tǒng)計(jì)函數(shù)值來(lái)填充空缺值。4.4.2 噪聲數(shù)據(jù)的清洗噪聲數(shù)據(jù):指無(wú)意義的數(shù)據(jù)、損壞數(shù)據(jù)。通常采用分箱(Binning)法,通過(guò)考察屬性值的周圍值來(lái)平滑屬性的值。屬性值被分布到一些等深或等寬的“箱”中,用箱中屬性值的平均值或中值來(lái)替換“箱”中的屬性值;計(jì)算機(jī)和人工檢查相結(jié)合,計(jì)算機(jī)檢測(cè)可疑數(shù)據(jù),然后對(duì)它們進(jìn)行人工判斷;使用簡(jiǎn)單規(guī)則庫(kù)檢測(cè)和修正錯(cuò)誤;使用不同屬性間的約束檢測(cè)和修正錯(cuò)誤;使用外部數(shù)據(jù)源
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 度退休人員兼職合同模板
- 2023-2024學(xué)年大連理工版小學(xué)信息技術(shù)五年級(jí)下冊(cè)奇妙的編碼(教學(xué)設(shè)計(jì))
- 2023-2024學(xué)年滬科版(2019)高中信息技術(shù)必修一3.4《分析歷史氣溫?cái)?shù)據(jù)-設(shè)計(jì)批量數(shù)據(jù)算法》教學(xué)設(shè)計(jì)
- 10青山處處埋忠骨教學(xué)設(shè)計(jì)-2024-2025學(xué)年五年級(jí)下冊(cè)語(yǔ)文統(tǒng)編版
- 餐廳股權(quán)合同范本
- 甜品批發(fā)合同范本
- 5 我愛(ài)我們班 教學(xué)設(shè)計(jì)-2024-2025學(xué)年道德與法治二年級(jí)上冊(cè)統(tǒng)編版
- 2 百分?jǐn)?shù)(二)成數(shù) 第二課時(shí)(教學(xué)設(shè)計(jì))-2023-2024學(xué)年六年級(jí)下冊(cè)數(shù)學(xué)人教版
- 24“諾曼底號(hào)”遇難記 教學(xué)設(shè)計(jì)-2023-2024學(xué)年四年級(jí)下冊(cè)語(yǔ)文統(tǒng)編版
- 店面貸款合同范本
- 保密管理工作課件
- GB/T 25924-2010在線氣體分析器試驗(yàn)方法
- GB/T 22590-2021軋鋼加熱爐用耐火澆注料
- GB 28482-2012嬰幼兒安撫奶嘴安全要求
- GA 979-2012D類干粉滅火劑
- 骨科病人健康教育處方
- 關(guān)鍵詞與有機(jī)關(guān)聯(lián)寫作課件
- 贛價(jià)協(xié)〔2023〕9號(hào)江西省建設(shè)工程造價(jià)咨詢服務(wù)收費(fèi)基準(zhǔn)價(jià)
- 小汽車掛靠協(xié)議書范本(2篇)
- 顱腦外傷(共61張PPT)
- 黃河流域生態(tài)保護(hù)與高質(zhì)量發(fā)展課件
評(píng)論
0/150
提交評(píng)論