版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
三七大數(shù)據(jù)平臺(tái)技術(shù)解決方案V
三七數(shù)據(jù)
大數(shù)據(jù)技術(shù)解決方案
北京三七數(shù)據(jù)技術(shù)有限公司
2017年7月31日
目錄
1概述6
2面臨的挑戰(zhàn)6
2.1數(shù)據(jù)采集10
2.2數(shù)據(jù)清洗10
2.3數(shù)據(jù)存儲(chǔ)12
2.4數(shù)據(jù)并行處理12
2.5數(shù)據(jù)分析12
2.6可視化12
2.7傳統(tǒng)解決方案的分析12
3有關(guān)技術(shù)的研究12
3.1參考模型框架12
3.2數(shù)據(jù)采集12
3.2.1結(jié)構(gòu)化數(shù)據(jù)的采集12
3.2.2半結(jié)構(gòu)化數(shù)據(jù)的采集12
3.2.3非結(jié)構(gòu)化文本數(shù)據(jù)中信息的抽取15
3.3數(shù)據(jù)清洗與數(shù)據(jù)質(zhì)量的保證15
3.3.1數(shù)據(jù)質(zhì)量的概念及分類15
3.3.2數(shù)據(jù)清洗的原理18
3.3.3單數(shù)據(jù)源中的數(shù)據(jù)清洗19
3.4數(shù)據(jù)的集成與融合37
3.4.1多數(shù)據(jù)源集成問(wèn)題的分類38
3.4.2數(shù)據(jù)標(biāo)準(zhǔn)化的研究40
3.4.3數(shù)據(jù)集成的流程41
3.4.4多數(shù)據(jù)源中重復(fù)實(shí)體的清理41
3.4.5數(shù)據(jù)不一致性問(wèn)題的研究43
3.5數(shù)據(jù)的存儲(chǔ)與處理43
3.5.1并行與分布式處理理論43
3.5.2并行RDBMS47
3.5.3Hadoop48
3.5.4Hadoop獷展與優(yōu)化53
3.5.5NoSQL57
3.5.6查詢優(yōu)化105
3.6大數(shù)據(jù)中的數(shù)據(jù)挖掘107
3.6.1傳統(tǒng)數(shù)據(jù)挖掘概述107
3.6.2大數(shù)據(jù)時(shí)代數(shù)據(jù)挖掘進(jìn)展新趨勢(shì)114
3.6.3WEB數(shù)據(jù)挖掘118
3.6.4超數(shù)據(jù)集成攙堀方法與技術(shù)研究146
3.6.5數(shù)據(jù)挖掘網(wǎng)格技術(shù)179
3.7大規(guī)模機(jī)器學(xué)習(xí)200
3.7.1機(jī)器學(xué)習(xí)概述201
3.7.2擴(kuò)展機(jī)器學(xué)習(xí)的必要性203
3.7.3面臨的挑戰(zhàn)206
3.7.4概率圖模型207
3.7.5集成學(xué)習(xí)208
3.8可視化與可視化分析217
3.8.1概述217
3.8.2可視化技術(shù)218
3.8.3可視化分析220
3.8.4文本的可視化分析221
3.8.5網(wǎng)絡(luò)可視化分析223
3.8.6移動(dòng)軌跡數(shù)據(jù)的可視化分析223
3.8.7交互式可視化分析223
3.9數(shù)據(jù)溯源技術(shù)的研究223
3.9.1概述223
3.9.2模式級(jí)數(shù)據(jù)的溯源225
3.9.3實(shí)例級(jí)數(shù)據(jù)的溯源225
3.9.4數(shù)據(jù)溯源應(yīng)用的分類225
3.9.5未來(lái)研究方向226
3.10同步技術(shù)的研究228
3.10.1概述228
3.10.2通信程序228
3.10.3數(shù)據(jù)庫(kù)復(fù)制技術(shù)231
3.10.4ETL技術(shù)234
3.10.5事務(wù)處理236
3.10.6XML技術(shù)238
3.11數(shù)據(jù)共享技術(shù)241
3.12安全技術(shù)的研究241
3.12.1安全風(fēng)險(xiǎn)分析241
3.12.2安全技術(shù)需求242
3.12.3身份認(rèn)證與密匙協(xié)商243
3.12.4訪問(wèn)操縱技術(shù)243
3.12.5入侵檢測(cè)技術(shù)244
3.13隱私保護(hù)技術(shù)的研究245
3.13.1概述245
3.13.2隱私保護(hù)的技術(shù)手段246
3.13.3匿名技術(shù)研究248
4總體技術(shù)解決方案250
4.1總體描述250
4.2功能框架250
4.3技術(shù)架構(gòu)250
4.3.1數(shù)據(jù)采集層250
4.3.2數(shù)據(jù)管理層250
4.3.3數(shù)據(jù)分析層250
4.3.4數(shù)據(jù)展示層250
4.3.5數(shù)據(jù)應(yīng)用層250
4.4與傳統(tǒng)數(shù)據(jù)解決方案對(duì)比250
5實(shí)施方案設(shè)計(jì)與建議250
1概述
(要緊是描述大數(shù)據(jù)的定義,大數(shù)據(jù)的特點(diǎn),大數(shù)據(jù)的來(lái)源,大數(shù)據(jù)的行業(yè)趨勢(shì),
大數(shù)據(jù)的應(yīng)用。能夠把行業(yè)研究報(bào)告的總結(jié)放在這里)
2面臨的挑戰(zhàn)
大數(shù)據(jù)分析面臨巨大的挑戰(zhàn),下列我們從5方面來(lái)討論:
?異構(gòu)性與非完整性
當(dāng)用戶使用信息時(shí),能夠容忍大量的異構(gòu)性。實(shí)際上,自然語(yǔ)言的豐富性與微妙能夠提
供有價(jià)值的深度。然而,機(jī)器分析通常希望是同構(gòu)的數(shù)據(jù),無(wú)法懂得自然語(yǔ)言的微妙之處。
因此,通過(guò)機(jī)器進(jìn)行數(shù)據(jù)分析的第一步就是務(wù)必認(rèn)真地定義數(shù)據(jù)結(jié)構(gòu)。很多的數(shù)據(jù)分析系統(tǒng)
都要求好的數(shù)據(jù)結(jié)構(gòu)。少一些的結(jié)構(gòu)化設(shè)計(jì)關(guān)于一些目的可能更加有效,但是計(jì)算機(jī)系統(tǒng)的
有效性則有賴于多個(gè)數(shù)據(jù)的大小與結(jié)構(gòu)的一致性。半結(jié)構(gòu)化數(shù)據(jù)的有效表示,訪問(wèn)與分析需
要更加進(jìn)一步的工作。即便是在數(shù)據(jù)清洗與錯(cuò)誤糾正之后,數(shù)據(jù)還可能是不完整的與錯(cuò)誤的。
在數(shù)據(jù)分析得過(guò)程中應(yīng)該有效地管理這種不完整性與這些錯(cuò)誤。這是一個(gè)非常大的挑戰(zhàn)。近
期關(guān)于概率數(shù)據(jù)或者者不痛定數(shù)據(jù)的管理也許能夠在這方面取得一些進(jìn)展。
?數(shù)據(jù)的大小
彳土可人對(duì)大數(shù)據(jù)的第一個(gè)辦法就是它的大小。多年來(lái),對(duì)大數(shù)據(jù)同時(shí)快速增長(zhǎng)的數(shù)據(jù)的
管理一直是很具有挑戰(zhàn)的問(wèn)題。在過(guò)去,這些挑戰(zhàn)都是通過(guò)更快的處理器來(lái)應(yīng)對(duì)的。但是現(xiàn)
在我們面臨的一個(gè)基本的事實(shí)是,數(shù)據(jù)量的增長(zhǎng)速度超過(guò)了CPU速率的增長(zhǎng)速度。首先,
在過(guò)去5年,處理器技術(shù)三經(jīng)有了巨大的轉(zhuǎn)變,根據(jù)摩爾定理處理器的主頻每18個(gè)月就會(huì)
翻倍,現(xiàn)在由于功率與散熱的限制,單個(gè)處理器的主頻基本上停滯不前了,業(yè)界都在通過(guò)多
核技術(shù)來(lái)生產(chǎn)處理器。在過(guò)去,大型的數(shù)據(jù)處理系統(tǒng)需要避免在計(jì)算機(jī)群中跨節(jié)點(diǎn)的并行機(jī)
制;現(xiàn)在,則需要處理在一個(gè)節(jié)點(diǎn)內(nèi)的并行機(jī)制。不幸的是,過(guò)去應(yīng)用于跨節(jié)點(diǎn)數(shù)據(jù)處理的
并行數(shù)據(jù)處理技術(shù)并不能直接用于節(jié)點(diǎn)內(nèi)的并行處理,由于架構(gòu)看上去非常不一致。比如,
在單個(gè)節(jié)點(diǎn)中多核之間通常會(huì)共享Caches與內(nèi)存通道。另外,在將來(lái)出于規(guī)律的考慮,我
們可能不可能持續(xù)使用系統(tǒng)中的硬件,數(shù)據(jù)處理系統(tǒng)可能需要主動(dòng)第管理處理器的功套。這
些變化要求我們重新思考如何設(shè)計(jì),搭建與運(yùn)行數(shù)據(jù)處理組件。
第二個(gè)巨大的轉(zhuǎn)變是向云計(jì)算的遷移,云計(jì)算將多個(gè)分離的計(jì)算任務(wù)匯聚到非常大的計(jì)
算機(jī)群中,每個(gè)計(jì)算任務(wù)具有不一致的性能目標(biāo)。在大的計(jì)算機(jī)群中的資源共享要求新的方
法來(lái)決定如何運(yùn)行與執(zhí)行數(shù)據(jù)處理工作,以便我們能夠經(jīng)濟(jì)有效地滿足每個(gè)計(jì)算任務(wù)的目
標(biāo);還要求我們能夠應(yīng)對(duì)系統(tǒng)失效,這在越來(lái)越的計(jì)算機(jī)群中發(fā)生得更加頻繁。在這種情況
下,說(shuō)明式編程方案更加有效,甚至是那些在做復(fù)雜的機(jī)器學(xué)習(xí)任務(wù)的程序,由于為了獲得
好的整體性能,跨多個(gè)用戶程序的全局優(yōu)化是是十分必要的。依靠用戶驅(qū)動(dòng)的程序優(yōu)化有可
能導(dǎo)致較差的群的整體性能。系統(tǒng)驅(qū)動(dòng)的整體優(yōu)化要求程序是足夠透明的,比如在關(guān)系型數(shù)
據(jù)庫(kù)中,說(shuō)明式的查詢語(yǔ)言就是這樣設(shè)計(jì)的。
第三個(gè)轉(zhuǎn)變是傳統(tǒng)的I/。子系統(tǒng)發(fā)生了巨大的變化,多年來(lái),永久性數(shù)據(jù)要緊是存在硬
盤上。硬盤的隨機(jī)訪問(wèn)I/O性能比順序I/O性能要慢很多,通常數(shù)據(jù)處理引擎通過(guò)格式化
數(shù)據(jù),與查詢處理方法的設(shè)計(jì)來(lái)克服這些限制。如今,硬盤正在逐步被固態(tài)驅(qū)動(dòng)器取代,其
他的技術(shù)如相變內(nèi)存正在出現(xiàn)。這些新型的存儲(chǔ)技術(shù)在隨機(jī)訪問(wèn)I/O性能比順序I/O性能
之間不存在那么大的差異,這就要求我們重新思考數(shù)據(jù)處理系統(tǒng)中存儲(chǔ)子系統(tǒng)的設(shè)計(jì)。存儲(chǔ)
子系統(tǒng)這種變化的影響基木上觸及數(shù)據(jù)處理的每個(gè)方面包含查詢處理算法,查詢排隊(duì)算法,
數(shù)據(jù)庫(kù)設(shè)計(jì),并發(fā)性操縱方法與恢復(fù)方法。
?及時(shí)性
數(shù)據(jù)大小的另一面是速度。需要處理的數(shù)據(jù)集越大,分析所需要的時(shí)間就越長(zhǎng)。設(shè)計(jì)的
系統(tǒng)假如能夠有效地處理大數(shù)據(jù),那么這樣的系統(tǒng)就能夠快速地處理一個(gè)給定大小的數(shù)據(jù)
集。但是,這里的處理速度不完全是談到大數(shù)據(jù)時(shí)通常所談到的速度,在大數(shù)據(jù)中還需要應(yīng)
對(duì)數(shù)據(jù)獲取的速度的挑戰(zhàn)。現(xiàn)實(shí)中有很多情況需要立刻得到分析得結(jié)果。比如,假如懷疑一
個(gè)欺詐性信用卡交易,在交易完成之前我們就應(yīng)該標(biāo)識(shí)出這樣的交易,這樣能夠從根本上防
止欺詐性交易的發(fā)生。很顯然,對(duì)一個(gè)用戶的消費(fèi)歷史進(jìn)行全面實(shí)時(shí)的分析是不太可行的。
我們需要預(yù)先獲得部分的結(jié)果,以便我們能夠通過(guò)在新數(shù)據(jù)上少量的漸進(jìn)式計(jì)算就能夠快速
地做決定。
給定一個(gè)大的數(shù)據(jù)集通常需要找到滿足一個(gè)特定準(zhǔn)則那些數(shù)據(jù)。在數(shù)據(jù)分析得過(guò)程中,
這種類型的搜索有可能重復(fù)地發(fā)生。為了找到適合的數(shù)據(jù),每次對(duì)整個(gè)數(shù)據(jù)集進(jìn)行搜索顯然
是不現(xiàn)實(shí)的。我們需要實(shí)現(xiàn)建立索引結(jié)構(gòu)來(lái)快速找到符合要求的數(shù)據(jù)。這里的問(wèn)題是,由于
每個(gè)索引結(jié)構(gòu)是按照一些類型的準(zhǔn)則來(lái)設(shè)計(jì)的。當(dāng)需要使用大數(shù)據(jù)時(shí),有可能定義新型的準(zhǔn)
則,這時(shí)就需要設(shè)計(jì)新的索引結(jié)構(gòu)來(lái)支持新的準(zhǔn)則。比如,考慮一個(gè)流量管理系統(tǒng),
?數(shù)據(jù)的隱私性
數(shù)據(jù)的隱私性是另外一個(gè)重要的問(wèn)題,特別是在大數(shù)據(jù)中顯得更加重要。關(guān)于電子醫(yī)療
記錄,有嚴(yán)格的法律規(guī)定能夠做什么,不能夠做什么。關(guān)于其他的數(shù)據(jù),就沒(méi)有那么硬性的
規(guī)定,特別是在美國(guó)。然而,公眾還是很擔(dān)心個(gè)人數(shù)據(jù)的不正當(dāng)使用,特別是通過(guò)鏈接多個(gè)
數(shù)據(jù)源的數(shù)據(jù)。對(duì)隱私性的管理既是技術(shù)上的問(wèn)題,也是社會(huì)學(xué)的問(wèn)題,需要從這兩個(gè)領(lǐng)域
去尋找解決方案。比如,我們考慮從基于位置的服務(wù)中收集到的數(shù)據(jù)。這些新的架構(gòu)要求用
戶把他們的位置信息共亨給業(yè)務(wù)提供商,這是一個(gè)很明顯的隱私性問(wèn)題.假如只是隱藏用戶
的身份信息,而沒(méi)有隱藏他的位置信息,這并不是一個(gè)好的解決方案。由于能夠從位置信息
推理出被查詢者的身份信息。比如,我們能夠通過(guò)幾個(gè)靜態(tài)的連接點(diǎn)(如基站)跟蹤用戶的
位置信息。一段時(shí)間后,用戶就會(huì)留下一些蹤跡,這些蹤跡能夠與特定的住所與辦公地點(diǎn)有
關(guān)聯(lián),從而能夠確定用戶的身份。其他幾種個(gè)人信息如關(guān)于個(gè)人健康(比如在癌癥治療中心
去過(guò))或者者宗教偏好(比如去過(guò)教堂)等也能夠通過(guò)觀察匿名用戶的移動(dòng)與使用模式推理
獲得。通常來(lái)說(shuō),研究結(jié)果說(shuō)明在用戶的身份與他們的移動(dòng)模式之間存在很強(qiáng)的有關(guān)性。將
用戶的位置信息隱藏起來(lái)遠(yuǎn)比隱藏用戶的身份信息要困難得多。這是由于在基于位置的服務(wù)
中,為了成功的數(shù)據(jù)訪問(wèn)與數(shù)據(jù)收集,就需要用到用戶的位置信息,而用戶的身份信息就能
夠不需要。
還有很多其他的具有挑戰(zhàn)性的研究課題。比如,我們沒(méi)有找到好的數(shù)據(jù)共享方法,如何
在限制個(gè)人信息披露的前提下,還保證在共享數(shù)據(jù)中有足夠有用的信息。目前關(guān)于差異化隱
私的研究是解決這個(gè)問(wèn)題的重要一步,但是這個(gè)研究刪除掉的信息太多了,在很多實(shí)際的情
況中無(wú)法用。另外,實(shí)際中的數(shù)據(jù)不是靜態(tài)的,而是會(huì)隨著時(shí)間的推移發(fā)生變化同時(shí)變得更
大。還有一個(gè)重要方向是重新思考在大數(shù)據(jù)中信息共享的安全性研究。今天很多的在線業(yè)務(wù)
都要求我們共享個(gè)人信息,但是除了訪問(wèn)操縱之外,關(guān)于其他的方面如共享數(shù)據(jù)意味著什么,
共享數(shù)據(jù)是如何鏈接的,與如何讓用戶對(duì)數(shù)據(jù)的共享能夠進(jìn)行更細(xì)顆粒的操縱等則一無(wú)所
知。
?人力的介入與協(xié)作
盡管機(jī)器分析取得了很大的進(jìn)展,但還是存在人能夠輕易檢測(cè)出的很多模式,計(jì)算機(jī)算
法卻很難做到。理想的方案是,大數(shù)據(jù)分析并不完全是計(jì)算機(jī)算法,而是設(shè)計(jì)成明確地把人
放到分析的環(huán)路中。新的可視化分析嘗試按照這種原理云做,至少是在整個(gè)管道中建模與分
析得環(huán)節(jié).實(shí)際上在整個(gè)管道的所有環(huán)節(jié)人力的介入都有類似的價(jià)值.在今天復(fù)雜的世界中,
通常需要來(lái)自各個(gè)不一致的領(lǐng)域的多個(gè)專家去真正懂得到底在發(fā)生什么。一個(gè)大數(shù)據(jù)分析系
統(tǒng)應(yīng)該支持來(lái)自多個(gè)專家的輸入,并共享分析的結(jié)果。這些專家有可能在空間與時(shí)間上是分
離的,數(shù)據(jù)系統(tǒng)應(yīng)該同意這種分布式的專家輸入,并支持多個(gè)專家之間的協(xié)作。
一個(gè)現(xiàn)在比較流行的利用人的聰明才智來(lái)解決問(wèn)題的新方法眾包的方式。Wikipedia
在線百科全書(shū)就是眾包數(shù)據(jù)的最著名的例子,信息時(shí)由未經(jīng)審查的陌生人提供的,通常他們
提供的信息時(shí)正確的。但是,還是存在一些個(gè)人有其他的動(dòng)機(jī)與角色,有些人出于某種原因
有意提供錯(cuò)誤的信息以誤導(dǎo)別人。盡管大部分這種錯(cuò)誤會(huì)被其他的人發(fā)現(xiàn)同時(shí)糾正,我們需
要技術(shù)來(lái)支撐。我們也需要一個(gè)框架來(lái)分析這些帶有矛盾陳述的眾包數(shù)據(jù)。作為人,我們能
夠查看關(guān)于飯店的評(píng)價(jià),有些是正面的,有些是負(fù)面的,然后我們形成一個(gè)總結(jié)性評(píng)估,基
于此評(píng)估我們能夠決定是否去這個(gè)飯店試試。我們希望計(jì)算機(jī)能夠做類似的情況。
在一種特定類型的眾包即參與感測(cè)中不確定性與錯(cuò)誤的問(wèn)題更加顯著。在這種情況下,
每個(gè)持有手機(jī)的人能夠作為一個(gè)多模的傳感器,收集各類類型的數(shù)據(jù),比如圖片,圖像,聲
音,時(shí)間,速度,方向,加速度等數(shù)據(jù)。這里比較大的挑成是數(shù)據(jù)搜集設(shè)備內(nèi)在的不確定性。
收集到的數(shù)據(jù)在時(shí)間與空間上的有關(guān)性能夠用來(lái)更好地評(píng)估數(shù)據(jù)的正確性。
2.1數(shù)據(jù)采集
2.2數(shù)據(jù)清洗
隨著信息化建設(shè)的不斷深入,企事業(yè)單位積存了大量的電子數(shù)據(jù),這些數(shù)據(jù)非常重要。
為了使信息系統(tǒng)中的數(shù)據(jù)更準(zhǔn)確、一致,能支持正確決策,就要求所管理的數(shù)據(jù)準(zhǔn)確、可靠。
因此,企業(yè)數(shù)據(jù)質(zhì)量的管理正在獲得越來(lái)越多的關(guān)注。但是,由于各類原因,如數(shù)據(jù)錄入錯(cuò)
誤、不一致來(lái)源數(shù)據(jù)弓I起的不一致表示方法、數(shù)據(jù)間的不一致等,導(dǎo)致企皿現(xiàn)有系統(tǒng)數(shù)據(jù)庫(kù)
中存在這樣或者那樣的臟數(shù)據(jù),要緊表現(xiàn)為:不正確的字段值、重復(fù)的記錄、拼寫問(wèn)題、不
合法值、空值、不一致值、縮寫詞的不一致,不遵循引用完整性等。根據(jù)"進(jìn)去的是垃圾,
出來(lái)的也是垃圾(garbagein,garbageout)"這條原理,若不進(jìn)行清理,這些臟數(shù)據(jù)會(huì)
扭曲從數(shù)據(jù)中獲得的信息,影響信息系統(tǒng)的運(yùn)行效果,也為企業(yè)構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)、建立決策支
持系統(tǒng)、應(yīng)用商務(wù)智能帶來(lái)隱患。顯見(jiàn),數(shù)據(jù)清理問(wèn)題的重要性是不言而喻的。另外,從市
場(chǎng)上眾多的有關(guān)產(chǎn)品,也能夠明白這一點(diǎn)。然而,由于數(shù)據(jù)清理本身的一些特點(diǎn),比如:
1)數(shù)據(jù)清理是具體應(yīng)用問(wèn)題,經(jīng)常要具體問(wèn)題具體分析,難于歸納出通用方法;
2)數(shù)據(jù)清理問(wèn)題的數(shù)學(xué)建模困難。
關(guān)于數(shù)據(jù)清理有很多內(nèi)容值得研究,比如:
3)在數(shù)據(jù)清理的研究中,盡管檢測(cè)相似重復(fù)記錄受到最多的關(guān)注,采取了許多措施,
但檢測(cè)效率與檢測(cè)精度并不令人滿意。特別是在數(shù)據(jù)量非常大時(shí),耗時(shí)太多,有待于更好的
方法。在相似重復(fù)記錄檢測(cè)中使用長(zhǎng)度過(guò)濾方法優(yōu)化相似檢測(cè)算法,避免了不必要的編輯距
離計(jì)算,從而提高了相似重復(fù)記錄的檢測(cè)效率;
4)在數(shù)據(jù)清理的有關(guān)研究中數(shù)據(jù)清理整體框架的研究正逐步成為研究的熱點(diǎn)。對(duì)此,
提出一個(gè)可擴(kuò)展的數(shù)據(jù)清理軟件平臺(tái),該軟件平臺(tái)具有開(kāi)放的規(guī)則庫(kù)與算法庫(kù),通過(guò)在規(guī)則
庫(kù)中定義清理規(guī)則與從算法庫(kù)中選擇合適的清理算法,可使該軟件平臺(tái)適用于不一致的數(shù)據(jù)
源,從而使其具有較強(qiáng)的通用性與習(xí)慣性;
5)目前,對(duì)數(shù)據(jù)清理的研究要緊集中在結(jié)構(gòu)化數(shù)據(jù)上。由于半結(jié)構(gòu)化數(shù)據(jù)XML
(ExtensibleMarkupLanguage,可擴(kuò)展標(biāo)識(shí)語(yǔ)言)的快速增長(zhǎng)與廣泛應(yīng)用,其在數(shù)據(jù)清
理中越來(lái)越重要。為了使XML數(shù)據(jù)源中的數(shù)據(jù)更準(zhǔn)確、一致,如何清理這些XML相似
重復(fù)數(shù)據(jù),都是值得研究的;
6)另外,關(guān)于數(shù)據(jù)清理在一些業(yè)務(wù)領(lǐng)域中的應(yīng)用也是值得研究“
當(dāng)然,對(duì)伊可現(xiàn)實(shí)世界中的數(shù)據(jù)源,人工完成數(shù)據(jù)清理是沒(méi)有問(wèn)題的。一些單位每年要
花費(fèi)上百萬(wàn)元來(lái)查找數(shù)據(jù)錯(cuò)誤,手工清理是勞累的、費(fèi)時(shí)的與易出錯(cuò)的。關(guān)于少量數(shù)據(jù)的數(shù)
據(jù)源來(lái)說(shuō),使用人工清理就能夠了,但關(guān)于規(guī)模較大的數(shù)據(jù)源,手工清理是不可行的,務(wù)必
借助信息技術(shù),使用自動(dòng)清理方法。當(dāng)然,在自動(dòng)清理的過(guò)程中,仍需要人來(lái)參與,我們要
做的就是盡可能減少人的參與。
2.3數(shù)據(jù)存儲(chǔ)
2.4數(shù)據(jù)并行處理
2.5數(shù)據(jù)分析
2.6可視化
2.7傳統(tǒng)解決方案的分析
3有關(guān)技術(shù)的研究
3.1參考模型框架
3.2數(shù)據(jù)采集
3.2.1結(jié)構(gòu)化數(shù)據(jù)的采集
3.2.2半結(jié)構(gòu)化數(shù)據(jù)的采集
Internet上的數(shù)據(jù)與傳統(tǒng)的數(shù)據(jù)庫(kù)中的數(shù)據(jù)不一致,傳統(tǒng)的數(shù)據(jù)庫(kù)都有一定的數(shù)據(jù)模
型,能夠根據(jù)模型來(lái)具體描述特定的數(shù)據(jù),同時(shí)能夠很好地定義與解釋有關(guān)的查詢語(yǔ)言。而
Internet上的數(shù)據(jù)非常復(fù)雜,沒(méi)有特定的模型描述,每一站點(diǎn)的數(shù)據(jù)都各自獨(dú)立設(shè)計(jì),同時(shí)
數(shù)據(jù)本身具有自述性與動(dòng)態(tài)可變性,其結(jié)構(gòu)也不可琢磨,是一種我們稱之為半結(jié)構(gòu)化數(shù)據(jù)。
所謂半結(jié)構(gòu)化是相關(guān)于結(jié)構(gòu)化(傳統(tǒng)數(shù)據(jù)庫(kù))與非結(jié)構(gòu)化(如一本書(shū)、一張圖片等)而言的。但
是Internet上存在的數(shù)據(jù)既不是完全結(jié)構(gòu)化的也不是完全非結(jié)構(gòu)化的,由于它的頁(yè)面也具
有一定的描述層次的,存在一定的結(jié)構(gòu),因此我們將它稱之半結(jié)構(gòu)化的數(shù)據(jù)。假如想要利用
Internet上的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,務(wù)必先要研究站點(diǎn)之間異構(gòu)數(shù)據(jù)的集成問(wèn)題,只有將這些
站點(diǎn)的數(shù)據(jù)都集成起來(lái),提供給用戶一個(gè)統(tǒng)一的視圖,才有可能從巨大的數(shù)據(jù)資源中獲取所
需的東西。其次,還要解決Web上的數(shù)據(jù)查詢問(wèn)題,由于身如所需的數(shù)據(jù)不能很有效地得
到,對(duì)這些數(shù)據(jù)進(jìn)行分析、集成、處理就無(wú)從談起。針對(duì)Internet上的數(shù)據(jù)半結(jié)構(gòu)化的特
點(diǎn),尋找一個(gè)半結(jié)構(gòu)化的數(shù)據(jù)模型則成為熟悉決上述問(wèn)題的關(guān)鍵所在。此外,除了要定義這
樣一個(gè)半結(jié)構(gòu)化數(shù)據(jù)模型外,還需要一項(xiàng)技術(shù)能夠自動(dòng)地從現(xiàn)有數(shù)據(jù)中將這個(gè)模型抽取出
來(lái),這就是所謂的模型抽取技術(shù)。因此半結(jié)構(gòu)化數(shù)據(jù)模型及其抽取技術(shù)是面向Internet的
數(shù)據(jù)挖掘技術(shù)實(shí)施的前提。
?半結(jié)構(gòu)化數(shù)據(jù)的定義
半結(jié)構(gòu)化數(shù)據(jù)有兩層含義,一種是指在物理層上缺少結(jié)構(gòu)的數(shù)據(jù),另一種是指在邏輯層
上缺少結(jié)構(gòu)的數(shù)據(jù)。有一些結(jié)構(gòu)化數(shù)據(jù),為用于web頁(yè)面的顯示而與html語(yǔ)言的標(biāo)記符
號(hào)嵌在一起,構(gòu)成了物理上的半結(jié)構(gòu)化數(shù)據(jù)。Internet中有大量豐富的數(shù)據(jù),這些數(shù)據(jù)多存
在于html文件中,沒(méi)有嚴(yán)格的結(jié)構(gòu)及類型定義,這些都是邏輯層半結(jié)構(gòu)化的數(shù)據(jù)。Internet
上的數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)庫(kù)中的數(shù)據(jù)不一致/專統(tǒng)的數(shù)據(jù)庫(kù)都有一定的數(shù)據(jù)模型,能夠根據(jù)模型
來(lái)具體描述特定的數(shù)據(jù).而上的數(shù)據(jù)非常復(fù)雜,沒(méi)有特定的模型描述,每一站點(diǎn)的數(shù)據(jù)都各
自獨(dú)立設(shè)計(jì),同時(shí)數(shù)據(jù)本身具有自述性與動(dòng)態(tài)可變性.因而,Internet上的數(shù)據(jù)具有一定的
結(jié)構(gòu)性,但因自述層次的存在,是一種非完全結(jié)構(gòu)化的數(shù)據(jù),這也被稱之半結(jié)構(gòu)化數(shù)據(jù)“半
結(jié)構(gòu)化是上數(shù)據(jù)的最大特點(diǎn)。
半結(jié)構(gòu)化數(shù)據(jù)要緊來(lái)源有3方面:
1、在WWW等對(duì)存儲(chǔ)數(shù)據(jù)無(wú)嚴(yán)格模式限制的情形下,常見(jiàn)的有HTML、XML與SGML
文件;
2、在郵件、電子商務(wù)、檢索與病歷處理中,存在著大量結(jié)構(gòu)與內(nèi)容均不固定的數(shù)據(jù)
3、異構(gòu)信息源集成情形下,由于信息源上的互操作要存取的信息源范圍很廣,包含各
類數(shù)據(jù)庫(kù)、知識(shí)庫(kù)、電子圖書(shū)館與文件系統(tǒng)等。
半結(jié)構(gòu)化數(shù)據(jù)具有如下特點(diǎn):
1、隱含的模式信息:盡管具有一定的結(jié)構(gòu),但結(jié)構(gòu)與數(shù)據(jù)混合在一起,沒(méi)有顯式的模
式定義(HMTL文件是一個(gè)典型)。
2、不規(guī)則的結(jié)構(gòu):一個(gè)數(shù)據(jù)集合可能由異構(gòu)的元素構(gòu)成,或者用不一致類型的數(shù)據(jù)表
示相同的信息。
3、沒(méi)有嚴(yán)格的類型約束:由于沒(méi)有一個(gè)預(yù)先定義的模式,與數(shù)據(jù)在結(jié)構(gòu)上的不規(guī)則性,
導(dǎo)致缺乏對(duì)數(shù)據(jù)的嚴(yán)格約束。
?半結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)模型
半結(jié)構(gòu)化數(shù)據(jù)是缺乏嚴(yán)格、完整結(jié)構(gòu)的數(shù)據(jù)。這類數(shù)據(jù)并非毫無(wú)結(jié)構(gòu),但它們的結(jié)構(gòu)可
能是隱含的、不完整的,甚至可能是需要不斷修改的。要對(duì)這樣的數(shù)據(jù)進(jìn)行查詢等處理,首
要問(wèn)題就是對(duì)半結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行描述。由于沒(méi)有強(qiáng)制性模式限制,使半結(jié)構(gòu)化數(shù)據(jù)具有很
大靈活性,能夠滿足網(wǎng)絡(luò)這種復(fù)雜分布式環(huán)境需要,但同時(shí)也給數(shù)據(jù)描述與處理帶來(lái)了很大
困難。
?半結(jié)構(gòu)化數(shù)據(jù)的表示
具體地,象WWW這種數(shù)據(jù)模型可表示成3種關(guān)系:{Obj(oid),Ref(sourceflabel,
destination),Val(oid,value)}其中Obj表示一個(gè)無(wú)限的對(duì)象集合,比如WWW上的網(wǎng)
頁(yè),網(wǎng)頁(yè)中的內(nèi)容都可看成是對(duì)象。Ref(ol,label,。2)表示從源對(duì)象ol到目標(biāo)對(duì)象o2
間存在一種聯(lián)系,這種聯(lián)系的語(yǔ)義信息用標(biāo)記label表示。在我們的實(shí)現(xiàn)中,這種聯(lián)系不僅
包含了網(wǎng)頁(yè)間存在的鏈接,而且當(dāng)某個(gè)網(wǎng)頁(yè)P(yáng)ageobj包含多個(gè)具有相同意義的對(duì)象,
o2,…,on時(shí),能夠引入一虛擬對(duì)象Vobj,這樣,網(wǎng)頁(yè)代表的對(duì)象Pageobj作為源對(duì)
象,虛擬對(duì)象Vobj作為其目標(biāo)對(duì)象,而。1,o2,…,on又作為Vobj的目標(biāo)對(duì)象,同時(shí)
Vobj與。1,。2,…,or的聯(lián)系都有相同的標(biāo)記。如,在我校圖書(shū)館的資源的網(wǎng)頁(yè)中,包
含對(duì)象期刊網(wǎng),而其具體的的題目等內(nèi)容在另一個(gè)頁(yè)面,這樣對(duì)象中國(guó)期刊網(wǎng)與鏈接所指頁(yè)
面就是源與目標(biāo)對(duì)象的關(guān)系。關(guān)系Vai(oid,value)提供了原子對(duì)象的取值信息,比如能
夠才等每一篇論文作為一個(gè)對(duì)象,它的值為論文的題目。
3.2.3非結(jié)構(gòu)化文本數(shù)據(jù)中信息的抽取
3.3數(shù)據(jù)清洗與數(shù)據(jù)質(zhì)量的保證
3.3.1數(shù)據(jù)質(zhì)量的概念及分類
數(shù)據(jù)質(zhì)量是一個(gè)相對(duì)的概念。在不一致的時(shí)期,數(shù)據(jù)質(zhì)量有著不一致的定義與評(píng)估標(biāo)準(zhǔn)。
20世紀(jì)80年代以來(lái),國(guó)際上普遍認(rèn)為,數(shù)據(jù)質(zhì)量的標(biāo)準(zhǔn)基本上是圍繞著以提高數(shù)據(jù)準(zhǔn)確
性為出發(fā)點(diǎn)與原則的。然而,隨著質(zhì)量本身的含義不斷進(jìn)行延伸,數(shù)據(jù)質(zhì)量的概念也由原先
的狹義轉(zhuǎn)變?yōu)閺V義,其中,基于實(shí)際需要,融入了許多數(shù)據(jù)質(zhì)量的考察與評(píng)判的標(biāo)準(zhǔn),準(zhǔn)確
性不再是衡量數(shù)據(jù)質(zhì)量的惟一指標(biāo)。上世紀(jì)90年代,美國(guó)的麻省理工學(xué)院開(kāi)展了全面數(shù)據(jù)
質(zhì)量管理TDQM(TotalDataQualityManagement)的活動(dòng),該活動(dòng)借鑒了物理產(chǎn)品質(zhì)
量管理體系的成功經(jīng)驗(yàn),提出了以信息生產(chǎn)系統(tǒng)生產(chǎn)的數(shù)據(jù)產(chǎn)品為基礎(chǔ)的質(zhì)量管理體系。該
活動(dòng)提出,應(yīng)充分、客觀、全面地懂得用戶的信息需求,將數(shù)據(jù)看作具有生命周期的產(chǎn)品,
并對(duì)此進(jìn)行管理,要設(shè)置數(shù)據(jù)產(chǎn)品管理員來(lái)管理數(shù)據(jù)生產(chǎn)的整個(gè)過(guò)程與結(jié)果。在數(shù)據(jù)生產(chǎn)過(guò)
程中形成的質(zhì)量維度,如準(zhǔn)確性(Accuracy)、完整性(Completeness)、一致性(Consistence)
等,已經(jīng)成為數(shù)據(jù)質(zhì)量評(píng)估的基本要求;另外,用戶對(duì)數(shù)據(jù)的滿意程度也已成為衡量數(shù)據(jù)質(zhì)
量的重要指標(biāo)之一。
目前,尚未形成系統(tǒng)化的數(shù)據(jù)質(zhì)量評(píng)估指標(biāo),數(shù)據(jù)質(zhì)量評(píng)估往往只零散地針對(duì)系統(tǒng)中比
較重要的質(zhì)量指標(biāo),如一致性問(wèn)題、復(fù)雜性問(wèn)題、完整性問(wèn)題等來(lái)進(jìn)行。在數(shù)據(jù)質(zhì)量評(píng)估領(lǐng)
域已經(jīng)得到使用的產(chǎn)品,如CRG的完整度分析器IA(IntegrityAnalyzer),能夠?qū)崿F(xiàn)對(duì)數(shù)
據(jù)完整性的嚴(yán)格檢查,這里的完整性包含實(shí)體完整性、引用完整性、域完整性與用戶自定義
的完整性。數(shù)據(jù)質(zhì)量的描述通常能夠分為不一致的層次,只是到目前為止,還沒(méi)有形成專門
用于表示這種層次性的統(tǒng)一術(shù)語(yǔ),比如,有的用類與域表示這種層次,而IS0TC211則用
數(shù)據(jù)質(zhì)量元素及子元素來(lái)表達(dá)。不一致的應(yīng)用領(lǐng)域?qū)?shù)據(jù)質(zhì)量的描述也是不一致的,因此,
建立反映應(yīng)用領(lǐng)域特點(diǎn)的數(shù)據(jù)質(zhì)量框架,是數(shù)據(jù)質(zhì)量評(píng)估所要解決的首要問(wèn)題。
數(shù)據(jù)質(zhì)量評(píng)估是面向應(yīng)用的,同樣的數(shù)據(jù)在不一致的應(yīng)用背景下的同意度是不一致的,
比如關(guān)于數(shù)據(jù)挖掘,同樣的數(shù)據(jù)在一個(gè)挖掘主題下表現(xiàn)良好,而在另一個(gè)挖掘主題下卻得不
到有意義的結(jié)果。因此,需求分析實(shí)際上是維度選擇的過(guò)程,數(shù)據(jù)質(zhì)量評(píng)估從一個(gè)或者幾個(gè)
維度出發(fā),以動(dòng)態(tài)或者靜志的方式審視數(shù)據(jù)。所謂動(dòng)態(tài)的評(píng)估方式,是指從數(shù)據(jù)產(chǎn)生機(jī)制上
對(duì)數(shù)據(jù)質(zhì)量進(jìn)行評(píng)估,而靜態(tài)方式只考慮數(shù)據(jù)本身。盡管動(dòng)態(tài)的評(píng)估方式能夠更完全全面地
對(duì)數(shù)據(jù)質(zhì)量做出評(píng)價(jià),但在很多的應(yīng)用背景下,如數(shù)據(jù)挖掘,往往受條件限制,無(wú)法得知數(shù)
據(jù)產(chǎn)生機(jī)制的信息。面向數(shù)據(jù)挖掘的數(shù)據(jù)質(zhì)量評(píng)估DM-QDA(DataMiningOriented
DataQualityAssessment)是具有實(shí)際意義的,由于數(shù)據(jù)挖掘常常是一個(gè)龐大的工程,需
要投入較多的時(shí)間、人力與物力,因此在數(shù)據(jù)挖掘工程真正開(kāi)始之前,對(duì)數(shù)據(jù)挖掘的可行性
分析顯得尤為重要,而為數(shù)據(jù)挖掘可行性提供指導(dǎo)正是數(shù)據(jù)質(zhì)量評(píng)估的意義所在.
數(shù)據(jù)質(zhì)量定義為數(shù)據(jù)的一致性(consistency)、正確性(correctness)、完整性
(completeness)與最小性(minimality)這4個(gè)指標(biāo)在信息系統(tǒng)中得到滿足的程度,
把"適合使用"作為衡量數(shù)據(jù)質(zhì)量的初步標(biāo)準(zhǔn)。
通常說(shuō)來(lái),評(píng)價(jià)數(shù)據(jù)質(zhì)量最要緊的幾個(gè)指標(biāo)是:
1)準(zhǔn)確性(Accuracy):準(zhǔn)確性是指數(shù)據(jù)源中實(shí)際數(shù)據(jù)值與假定正確數(shù)據(jù)值的一致程度;
2)完整性(Completeness)
完整性是指數(shù)據(jù)源中需要數(shù)值的字段中無(wú)值缺失的程度;
3)一致性(Consistency)
一致性是指數(shù)據(jù)源中數(shù)據(jù)對(duì)一組約束的滿足程度;
4)唯一性(Uniqueness)
唯一性是指數(shù)據(jù)源中記錄與編碼是否唯一;
5)適時(shí)性(Timeliness)
適時(shí)性是指在所要求的或者指定的時(shí)間提供一個(gè)或者多個(gè)數(shù)據(jù)項(xiàng)的程度;
6)有效性(Validity)
有效性是指保護(hù)的數(shù)據(jù)足夠嚴(yán)格以滿足分類準(zhǔn)則的同意要求。
當(dāng)建立一個(gè)信息系統(tǒng)的時(shí)候即使進(jìn)行了良好的設(shè)計(jì)與規(guī)劃,也不能保證在所有情況下,
信息系統(tǒng)中數(shù)據(jù)的質(zhì)量都能滿足用戶的要求。用戶錄入錯(cuò)誤、企業(yè)合并與企業(yè)環(huán)境隨著時(shí)間
的推移而改變,這些者B會(huì)影響所存放數(shù)據(jù)的質(zhì)量。信息系統(tǒng)中可能存在的數(shù)據(jù)質(zhì)量問(wèn)題有很
多種,總結(jié)起來(lái)要緊有下列幾種:
1)重復(fù)的記錄
重復(fù)的記錄是指在一個(gè)數(shù)據(jù)源中有指現(xiàn)實(shí)世界同一個(gè)實(shí)體的重復(fù)信息,或者在多個(gè)數(shù)據(jù)
源中有指現(xiàn)實(shí)世界同一個(gè)實(shí)體的重復(fù)信息.
2)不完整的數(shù)據(jù)
由于錄入錯(cuò)誤等原因,字段值或者記錄未被記入數(shù)據(jù)庫(kù),造成信息系統(tǒng)數(shù)據(jù)源中應(yīng)該有
的字段或者記錄缺失。
3)不正確的數(shù)據(jù)
由于錄入錯(cuò)誤,數(shù)據(jù)源中的數(shù)據(jù)未及時(shí)更新,或者不正確的計(jì)算等,導(dǎo)致數(shù)據(jù)源中數(shù)據(jù)
過(guò)時(shí),或者者一些數(shù)據(jù)與現(xiàn)實(shí)實(shí)體中字段的值不相符。
4)無(wú)法懂得的數(shù)據(jù);直
無(wú)法懂得的數(shù)據(jù)值是指由于某些原因,導(dǎo)致數(shù)據(jù)源中的一些數(shù)據(jù)難以解釋或者無(wú)法解
釋,如偽值、多用途域、古怪的格式、密碼數(shù)據(jù)等。
5)不一致的數(shù)據(jù)
數(shù)據(jù)不一致包含了多種問(wèn)題,比如,由不一致數(shù)據(jù)源來(lái)的數(shù)據(jù)很容易發(fā)生不一致;同一
數(shù)據(jù)源的數(shù)據(jù)也會(huì)因位置、單位與時(shí)間不一致產(chǎn)生不一致。
在以上這些問(wèn)題中前三種問(wèn)題在數(shù)據(jù)源中出現(xiàn)的最多。根據(jù)數(shù)據(jù)質(zhì)量問(wèn)題產(chǎn)生的原因,
數(shù)據(jù)質(zhì)量問(wèn)題可分成單數(shù)據(jù)源問(wèn)題與多數(shù)據(jù)源問(wèn)題兩個(gè)方面
3.3.2數(shù)據(jù)清洗的原理
通過(guò)以上對(duì)數(shù)據(jù)質(zhì)量問(wèn)題的分析,能夠看出:數(shù)據(jù)質(zhì)量問(wèn)題是信息化建設(shè)中的一個(gè)重要
問(wèn)題,為了提高信息系統(tǒng)的數(shù)據(jù)質(zhì)量,研究數(shù)據(jù)清理非常重要.
數(shù)據(jù)清理(datacleaning)也稱數(shù)據(jù)清洗。數(shù)據(jù)清理的三個(gè)要緊領(lǐng)域包含:數(shù)據(jù)倉(cāng)庫(kù)
)、數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(
(DataWarehouseZDWKnowledgeDiscoveryinDatabases,
KDD)與綜合數(shù)據(jù)質(zhì)量管理(TotalDataQualityManagement,TDQM)。數(shù)據(jù)清理在
不一致的應(yīng)用領(lǐng)域其要求不完全相同,如在數(shù)據(jù)倉(cāng)庫(kù)環(huán)境下,數(shù)據(jù)清理是ETL(Extraction
抽取、Transition轉(zhuǎn)換、Load加載,ETL)過(guò)程的一個(gè)重要部分,要考慮數(shù)據(jù)倉(cāng)庫(kù)的集成
性與面向主題的需要,包含數(shù)據(jù)的清理及結(jié)構(gòu)轉(zhuǎn)換;在KDD中,數(shù)據(jù)清理要緊是提高數(shù)
據(jù)的可利用性,如去除噪聲、無(wú)關(guān)數(shù)據(jù)、空值,考慮時(shí)間順序與數(shù)據(jù)的變化等,但要緊內(nèi)容
還是一樣的。
目前,關(guān)于數(shù)據(jù)清理沒(méi)有統(tǒng)一的定義。我們認(rèn)為數(shù)據(jù)清理是一個(gè)消除數(shù)據(jù)中的錯(cuò)誤與不
一致,解決對(duì)象識(shí)別問(wèn)題的過(guò)程,把數(shù)據(jù)清理定義為重復(fù)記錄的合并/清理問(wèn)題。通常來(lái)說(shuō),
從廣義上講,數(shù)據(jù)清理是將數(shù)據(jù)庫(kù)精簡(jiǎn)以除去重復(fù)記錄,并使剩余部分轉(zhuǎn)換成標(biāo)準(zhǔn)可接收格
式的過(guò)程;而狹義上的數(shù)據(jù)清理是特指在構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)與實(shí)現(xiàn)數(shù)據(jù)挖掘前對(duì)數(shù)據(jù)源進(jìn)行處
理,使數(shù)據(jù)實(shí)現(xiàn)準(zhǔn)確性、完整性、一致性、唯一性、適時(shí)性、有效性以習(xí)慣后續(xù)操作的過(guò)程。
通常說(shuō)來(lái),數(shù)據(jù)清理包含下列幾個(gè)步驟:
1)數(shù)據(jù)分析
數(shù)據(jù)分析是指從數(shù)據(jù)中發(fā)現(xiàn)操縱數(shù)據(jù)的通常規(guī)則,比如字段域、業(yè)務(wù)規(guī)則等。通過(guò)對(duì)數(shù)
據(jù)的分析,可定義出數(shù)據(jù)清理的規(guī)則,并選擇合適的清理算法。
2)數(shù)據(jù)檢測(cè)
數(shù)據(jù)檢測(cè)是指根據(jù)預(yù)定義的清理規(guī)則及有關(guān)數(shù)據(jù)清理算法,檢測(cè)數(shù)據(jù)是否正確,比如是
否滿足字段域、業(yè)務(wù)規(guī)則等,或者檢測(cè)記錄是否是重復(fù)記錄。
3)數(shù)據(jù)修正
數(shù)據(jù)修正是指手工或者自動(dòng)地修正檢測(cè)到的錯(cuò)誤數(shù)據(jù)或者處理重復(fù)的記錄。
關(guān)于數(shù)據(jù)清理應(yīng)該滿足:數(shù)據(jù)清理應(yīng)該能檢測(cè)與消除所有要緊的錯(cuò)誤與不一致,包含單
數(shù)據(jù)源與多數(shù)據(jù)源集成時(shí);數(shù)據(jù)清理方法能被這樣的工具支持,人工檢測(cè)與編程工作要盡可
能少,并具有可擴(kuò)展性。
3.3.3單數(shù)據(jù)源中的數(shù)據(jù)清洗
?單數(shù)據(jù)源中相似重復(fù)記錄的清理
由于數(shù)據(jù)輸入錯(cuò)誤、不標(biāo)準(zhǔn)的縮寫詞,或者其它原因,數(shù)據(jù)庫(kù)中可能包含關(guān)于現(xiàn)實(shí)世界
同一實(shí)體的重復(fù)記錄。盡管關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)不同意含有重復(fù)主鍵值的記錄輸入,但是由于數(shù)
據(jù)輸入錯(cuò)誤不管主鍵的值是否被這些錯(cuò)誤影響,關(guān)系數(shù)據(jù)庫(kù)不能再保證不存在重復(fù)的記錄。
因此,在數(shù)據(jù)清理中,相似重復(fù)記錄的檢測(cè)與清除是一個(gè)重要問(wèn)題。
數(shù)據(jù)源中的重復(fù)記錄可分成完全重復(fù)記錄與相似重復(fù)記錄。完全重復(fù)記錄是指在數(shù)據(jù)表
中除了主鍵外,其它各字段完全相同的記錄,或者者是在那些設(shè)計(jì)差的數(shù)據(jù)庫(kù)中,沒(méi)有主鍵,
所有字段完全相同的記錄。相似重復(fù)記錄是指那些客觀上表示現(xiàn)實(shí)世界同一實(shí)體的,但是由
于在格式、拼寫上有些差異而導(dǎo)致數(shù)據(jù)庫(kù)系統(tǒng)不能正確識(shí)別的記錄。通常情況下,對(duì)幾個(gè)記
錄可能指同一現(xiàn)實(shí)世界實(shí)體的這種情況較感興趣,而不是在語(yǔ)句構(gòu)成上相同的記錄。為了減
少數(shù)據(jù)源中的冗余信息,重復(fù)記錄的清理是一項(xiàng)重要的任務(wù)。
要想清理數(shù)據(jù)源中的相似重復(fù)記錄,務(wù)必要先通過(guò)某種方法檢測(cè)出相似重復(fù)記錄,然后
采取一定的策略清除這些重復(fù)記錄,從而達(dá)到清理的目的。在相似重復(fù)記錄的檢測(cè)方面已經(jīng)
有了一些成果。在一個(gè)數(shù)據(jù)表中,完全重復(fù)記錄的標(biāo)準(zhǔn)檢測(cè)方法是先將數(shù)據(jù)庫(kù)中的記錄排序,
然后,通過(guò)比較鄰近記錄是否相等來(lái)檢測(cè)完全重復(fù)記錄。完全重復(fù)記錄不管以記錄的哪一個(gè)
部分進(jìn)行分類,在分類排序后,都能保證互相相鄰。這種方法可被擴(kuò)展后用來(lái)檢測(cè)相似重復(fù)
記錄,研究人員在此基礎(chǔ)上提出了很多方法,比如,將整條記錄作為一個(gè)字符串進(jìn)行排序,
通過(guò)計(jì)算整個(gè)字符串的編輯距離來(lái)檢測(cè)記錄是否相似;Sorted-Neiberhood方法以用戶
定義的健作為排序鍵進(jìn)行排序,然后,通過(guò)一組規(guī)則定義的相等理論判定記錄是否相似,其
基本思想可描述如下:
按照用戶定義的排序犍對(duì)整個(gè)數(shù)據(jù)表進(jìn)行排序,將可能匹配的記錄排列在一起。當(dāng)然,
按照某個(gè)排序鍵排一次序往往是不夠的,需要按照不一致的排序鍵對(duì)數(shù)據(jù)多次排序,再將結(jié)
果結(jié)合起來(lái)。具體說(shuō)來(lái),Sorted-Neiberhood算法分為三步:
1、創(chuàng)建排序鍵:抽取記錄中重要的字段或者字段的一部分構(gòu)成每條記錄的排序鍵,排序鍵
的選擇關(guān)于檢測(cè)結(jié)果的準(zhǔn)確性至關(guān)重要。
2、記錄排序:用第一步生成的排序鍵對(duì)記錄排序。
3、合并:定義一個(gè)固定大小的窗口,在記錄列表上移動(dòng),比較窗口內(nèi)的記錄是否相似。
Sorted-Neiberhood算法的時(shí)間復(fù)雜度與定義的窗口大小有關(guān),窗口大小為2時(shí),
復(fù)雜度為0(NIogN),窗口大小為N時(shí),復(fù)雜度為0(N2)o在目前常用的相似重復(fù)記錄
清理方法中,Sorted-Neiberhood算法是較為流行的匹配與合并算法,同時(shí)該算法已被應(yīng)
用到幾個(gè)關(guān)于數(shù)據(jù)清理的軟件之中。
先計(jì)算各記錄的N-Gram值,然后以各記錄的N-Gram值為排序鍵進(jìn)行排序,再通
過(guò)使用一種高效的應(yīng)用無(wú)關(guān)的Pair-wise比較算法,通過(guò)計(jì)算兩記錄中單詞間的編輯距離
來(lái)推斷記錄的相似與否,并使用一種改進(jìn)的優(yōu)先隊(duì)列算法來(lái)準(zhǔn)確地聚類相似重復(fù)記錄,該算
法使用固定大小的優(yōu)先隊(duì)列順序掃描已排序的記錄,通過(guò)比較當(dāng)前記錄與隊(duì)列中記錄的距離
來(lái)聚類相似重復(fù)記錄;提出一種檢測(cè)多語(yǔ)言數(shù)據(jù)重復(fù)記錄的綜合方法。
上述這些方法的基本思想能夠總結(jié)為:先對(duì)數(shù)據(jù)表中的記錄排序,然后用某種方式檢測(cè)
相鄰記錄是否為重復(fù)記錄,不一致之處是所使用的排序方法與相似檢測(cè)方法不一致。本章在
對(duì)這些方法研究的基礎(chǔ)上,汲取這些方法的思想,來(lái)解戾相似重復(fù)記錄的清理問(wèn)題,并對(duì)算
法的關(guān)鍵環(huán)節(jié)進(jìn)行改進(jìn),提高了相似重復(fù)記錄的檢測(cè)效率與檢測(cè)精度。
相似重復(fù)記錄的清理方法
相似重復(fù)記錄清理方法總體描述
相似重復(fù)記錄的清理過(guò)程可總結(jié)為:記錄排序一記錄相似檢測(cè)一相似重復(fù)記錄合并/清
除。其清理過(guò)程可描述如下:
首先,把數(shù)據(jù)源中需要清理的數(shù)據(jù)通過(guò)JDBC(JavaDataBaseConnectivityjava數(shù)
據(jù)庫(kù)連接)接口調(diào)入到系統(tǒng)中來(lái);
然后,執(zhí)行數(shù)據(jù)清理,記錄排序模塊從算法庫(kù)中調(diào)用排序算法,執(zhí)行記錄之間的排序;
在記錄已排序的基礎(chǔ)上,記錄相似檢測(cè)模塊從算法庫(kù)中調(diào)用相似檢測(cè)算法,作鄰近范圍內(nèi)記
錄間的相似檢測(cè),從而計(jì)算出記錄間的相似度,并根據(jù)預(yù)定義的重復(fù)識(shí)別規(guī)則,來(lái)判定是否
為相似重復(fù)記錄。為了能檢測(cè)到更多的重復(fù)記錄,一次排序不夠,要使用多輪排序,多輪比
較,每次排序使用不一致的鍵,然后把檢測(cè)到的所有重復(fù)記錄聚類到一起,從而完成重復(fù)記
錄的檢測(cè);
最后,對(duì)所檢測(cè)出的每一組相似重復(fù)記錄根據(jù)預(yù)定義的合并/清除規(guī)則,完成相似重復(fù)
記錄的合并處理。
記錄排序
為了能查找到數(shù)據(jù)源中所有的重復(fù)記錄,務(wù)必比較每一個(gè)可能的記錄對(duì),如此以來(lái),檢
測(cè)相似重復(fù)記錄是一個(gè)很昂貴的操作,當(dāng)數(shù)據(jù)源中數(shù)據(jù)量很大時(shí),這會(huì)導(dǎo)致是一個(gè)無(wú)效與不
可行的方案。為了減少記錄之間的匕匕較次數(shù),提高檢測(cè)效率,常用的方法是僅匕匕較相互距離
在一定范圍的記錄,即先對(duì)數(shù)據(jù)表中的記錄排序,然后對(duì)鄰近記錄進(jìn)行比較。比如,在整個(gè)
分類后的數(shù)據(jù)表中通過(guò)移動(dòng)一個(gè)固定大小的窗口上匕較鄰近的記錄。一個(gè)大小為W的窗口,
在數(shù)據(jù)庫(kù)中一次移動(dòng)一個(gè)記錄,新記錄與這個(gè)窗口中的其它W-1個(gè)記錄相比較。這樣,記
錄比較的次數(shù)從o(T2)減少到0(TW),其中,T為數(shù)據(jù)庫(kù)中記錄的總數(shù)。因此,
當(dāng)數(shù)據(jù)源中數(shù)據(jù)量很大時(shí),應(yīng)該使用記錄排序方法。
關(guān)于記錄排序方法,使用某種應(yīng)用有關(guān)的鍵來(lái)將相似記錄聚類到鄰近位置.根據(jù)用戶定
義的鍵值來(lái)重排表記錄,并使用滑動(dòng)窗口來(lái)Pair-wise比較窗口內(nèi)的記錄。是先計(jì)算記錄
的N-Gram值,然后按該值進(jìn)行排序;針對(duì)多語(yǔ)言文本的情況,使用序值表的方法來(lái)進(jìn)行
排序。該方法說(shuō)明如下:
關(guān)于西文字符,排序就是按西文字符的字典序排列,但關(guān)于漢字來(lái)說(shuō),存在多種排序方
式。在國(guó)標(biāo)GB2312-80中共收集漢字6763個(gè),分成兩級(jí),一級(jí)漢字字庫(kù)包含漢字3755
個(gè),按拼音字母排序,二級(jí)漢字字庫(kù)包含漢字3008個(gè),按部首排序。由此可見(jiàn)漢字本身
的編碼不滿足任何一種統(tǒng)一的序值規(guī)則,不適合作序值使用。
為熟悉決序值不統(tǒng)一的問(wèn)題,采取建立序值文件的方式。目前,漢字通常有下列三種排
序方式:拼音序、筆劃序、部首序。關(guān)于漢字各類不一致的排序方式,分別建立對(duì)應(yīng)于
GB2312-80漢字基本集的序值表。序值表中序值的存放按對(duì)應(yīng)的漢字在漢字基本集中出現(xiàn)
的順序進(jìn)行。因此,根據(jù)漢字的內(nèi)碼(0XB0A1-0XF7FE)能夠直接計(jì)算出序值表中存放對(duì)
應(yīng)序值的入口地址,計(jì)算公式如下:
其中,cl為漢字內(nèi)碼的第一個(gè)字節(jié)(區(qū)碼);c2為漢字內(nèi)碼的第二個(gè)字節(jié)(位碼);
N為序值編碼的長(zhǎng)度,N=2(用兩個(gè)字節(jié)來(lái)存放序值);headoffset是序值表中存放第
一個(gè)漢字("啊"字的編碼OXBOA1)的位置。
序值表相當(dāng)于自定義的一種編碼,不一致的排序方式對(duì)應(yīng)各自的序值表。序值表的大小
只有幾十K,能夠存放在內(nèi)存中。根據(jù)上述公式,漢字的內(nèi)碼可直接映射為獲取序值的地
址索引,非常便于使用。
關(guān)于要排序的字段,根據(jù)以上方法把該字段中所有的字符轉(zhuǎn)換成相應(yīng)的序值,然后,采
快速排序算法能夠?qū)τ涗涍M(jìn)行排序。在此排序的基礎(chǔ)上?再使用相似重復(fù)記錄檢測(cè)算法對(duì)相
鄰記錄進(jìn)行檢測(cè),從而提高了檢測(cè)效率。
按以上方法重排記錄石,相似記錄被放在較接近的位置,從而能夠在相對(duì)集中的范圍內(nèi)
作記錄的相似檢測(cè)。但是由于排序時(shí)對(duì)錯(cuò)誤的位置非常敏感,不能保證排序后的重復(fù)記錄都
在一起。因此這種方法也有一定的局限性。此外,對(duì)整個(gè)數(shù)據(jù)庫(kù)記錄進(jìn)行重排的開(kāi)銷也很大。
因此,從有用的角度考慮,在實(shí)際應(yīng)用中,關(guān)于小批量數(shù)據(jù),如記錄總數(shù)小于5萬(wàn)時(shí),沒(méi)
有必要使用復(fù)雜的記錄排序算法,能夠直接進(jìn)行記錄的比較,從而提高相似重復(fù)記錄的查全
率。
記錄相似檢測(cè)
記錄相似檢測(cè)是相似重復(fù)記錄清理過(guò)程中的一個(gè)重要步驟,通過(guò)記錄相似檢測(cè),能夠推
斷兩條記錄是不是相似重復(fù)記錄。關(guān)于記錄相似檢測(cè),通常使用Pair-wise比較算法,它
是一種比較成熟的方法。
相似重復(fù)記錄的合并/清除
當(dāng)完成相似重復(fù)記錄的檢測(cè)之后,對(duì)檢測(cè)出的重復(fù)記錄要進(jìn)行處理。關(guān)于一組相似重復(fù)
記錄,通常有兩種處理方法:
1.第一種處理方法
第一種處理方法是把一組相似重復(fù)記錄中的一個(gè)記錄看成是正確的其它記錄看成是含
有錯(cuò)誤信息的重復(fù)記錄。因此,任務(wù)就是刪除數(shù)據(jù)庫(kù)中的重復(fù)記錄。在這種情況下,一些常
用的處理規(guī)則是:
1)人工規(guī)則
人工規(guī)則是指由人工從一組相似重復(fù)記錄中選出一條最準(zhǔn)確的記錄保留,并把其它重復(fù)
記錄從數(shù)據(jù)庫(kù)中刪除掉,這種方法最簡(jiǎn)單。
2)隨機(jī)規(guī)則
隨機(jī)規(guī)則是指從一組相似重復(fù)記錄中隨機(jī)地選出一條記錄保留,并把其它重復(fù)記錄從數(shù)
據(jù)庫(kù)中刪除掉。
3)最新規(guī)則
在很多情況下,最新的記錄能更好地代表一組相似重復(fù)記錄。比如,越接近當(dāng)前日期的
信息準(zhǔn)確性可能越高,經(jīng)常使用賬戶上的地址要比退休賬戶上的地址權(quán)威一些?;谶@種分
析,最新規(guī)則是指選擇每一組相似重復(fù)記錄中最新的一條記錄保留,并把其它重復(fù)記錄從數(shù)
據(jù)庫(kù)中刪除掉。
4)完整規(guī)則
完整規(guī)則是指從一組相似重復(fù)記錄中選擇最完整的一條記錄保留,并把其它重復(fù)記錄從
數(shù)據(jù)庫(kù)中刪除掉。
5)有用規(guī)則
由于重復(fù)率越高的信息可能越準(zhǔn)確一些,比如,假如三條記錄中兩個(gè)供應(yīng)商的電話號(hào)碼
是相同的,那么重復(fù)的電話號(hào)碼可能是正確的。基于這種分析,有用規(guī)則是指從一組相似重
復(fù)記錄中選擇與其它記錄匹配次數(shù)最多的一條記錄保留,并把其它重復(fù)記錄從數(shù)據(jù)庫(kù)中刪除
掉。
能夠把以上方法定義或規(guī)則,存放在規(guī)則庫(kù)中,供用戶根據(jù)具體的業(yè)務(wù)要求選擇使用。
2.第二種處理方法
第二種處理方法是把每一條相似重復(fù)記錄看成是信息源的一部分。因此,目的就是合并
一組重復(fù)記錄,產(chǎn)生一個(gè)具有更完整信息的新記錄。該方法通常要由人工進(jìn)行處理。
在實(shí)際執(zhí)行相似重復(fù)記錄的清理過(guò)程中使用什么樣的處理方法,要根據(jù)具體的數(shù)據(jù)源與
用戶要求來(lái)確定。
相似重復(fù)記錄檢測(cè)精度提高方法
等級(jí)法的使用
比較記錄的相似性,其過(guò)程為:先比較兩條記錄中每個(gè)字段的相似度;然后對(duì)每個(gè)字段
給予不一致的權(quán)重,計(jì)算出兩條記錄的相似度,從而判定兩條記錄是不是相似重復(fù)記錄。由
此可見(jiàn)各個(gè)字段所給予的權(quán)重對(duì)檢測(cè)精度影響很大,合適的賦值能提高記錄相似檢測(cè)的精
度。在進(jìn)行記錄比較時(shí),沒(méi)有考慮各記錄中各字段的權(quán)重;盡管考慮到了字段權(quán)重的重要性,
但沒(méi)有給出一個(gè)合適的權(quán)重選取方法。本節(jié)在對(duì)有關(guān)方法研究的基礎(chǔ)上,使用一種計(jì)算字段
權(quán)重的有效方法一等級(jí)法來(lái)計(jì)算各字段的權(quán)重。當(dāng)進(jìn)行相似重復(fù)記錄檢測(cè)時(shí),根據(jù)對(duì)具
體業(yè)務(wù)的分析,使用該方法來(lái)計(jì)算相應(yīng)字段的權(quán)重,然后,對(duì)不一致的字段使用不一致的權(quán)
重,從而提高相似重復(fù)記錄檢測(cè)的精度。
等級(jí)法是一種計(jì)算記錄字段權(quán)重的方法,它是讓用戶根據(jù)數(shù)據(jù)表中各個(gè)字段的重要程度
來(lái)劃分等級(jí),即最重要字段的等級(jí)指定為1,第二重要的字段等級(jí)指定為2,等等。然后,
根據(jù)記錄各字段的等級(jí),計(jì)算其相應(yīng)的權(quán)重。都說(shuō)明使用等級(jí)法不但效果好,而且容易使用。
利用權(quán)重提高檢測(cè)精度
在運(yùn)行相似重復(fù)記錄檢測(cè)的過(guò)程中,首先使用等級(jí)法來(lái)獲取記錄中不一致字段的等級(jí),
并使用RC方法生成各字段相應(yīng)的權(quán)重。然后,在記錄相似檢測(cè)過(guò)程中對(duì)不一致字段指定
不一致的權(quán)重,這樣可提高相似重復(fù)記錄的檢測(cè)精度,從而更好地識(shí)別重復(fù)記錄。使用等級(jí)
法生成的權(quán)重存放在規(guī)則庫(kù)中,供運(yùn)行數(shù)據(jù)清理時(shí)調(diào)用。
相似重復(fù)記錄檢測(cè)效率提高方法
提高檢測(cè)效率的方法分析
快速完成數(shù)據(jù)清理是很重要的,因此,務(wù)必提高相似重復(fù)記錄的檢測(cè)效率。在相似重復(fù)
記錄檢測(cè)過(guò)程中,記錄間的相似檢測(cè)是一個(gè)重要問(wèn)題,其關(guān)鍵步驟是記錄中各字段的相似檢
測(cè),其效率直接影響整個(gè)算法的效率,記錄中大多字段使用編輯距離算法來(lái)檢測(cè),由于編輯
距離算法的復(fù)雜度為。(mxn),當(dāng)數(shù)據(jù)量很大時(shí),如不使用一種高效的過(guò)濾方法來(lái)減少
不必要的編輯距離計(jì)算,則會(huì)導(dǎo)致相似檢測(cè)時(shí)間過(guò)長(zhǎng)。因此,為了提高相似重復(fù)記錄的檢測(cè)
效率,有一種優(yōu)化相似重復(fù)記錄檢測(cè)效率的方法,該方法使用長(zhǎng)度過(guò)濾方法減少不必要的編
輯距離計(jì)算。實(shí)驗(yàn)證明:長(zhǎng)度過(guò)濾方法能有效地減少不必要的編輯距離計(jì)算,降低相似檢測(cè)
時(shí)間,從而提高了相似重復(fù)記錄的檢測(cè)效率。
單數(shù)據(jù)源中不完整數(shù)據(jù)的清理
數(shù)據(jù)不完整是產(chǎn)生數(shù)據(jù)質(zhì)量問(wèn)題的一個(gè)重要因素,簡(jiǎn)單地說(shuō),數(shù)據(jù)不完整是指數(shù)據(jù)源中
字段值的缺失問(wèn)題。不完整數(shù)據(jù)的存在不但會(huì)影響信息系統(tǒng)的運(yùn)行效果還會(huì)引起決策錯(cuò)誤,
特別是數(shù)值數(shù)據(jù)中出現(xiàn)不完整數(shù)據(jù)。故務(wù)必要解決數(shù)據(jù)源中的數(shù)據(jù)不完整問(wèn)題。在多數(shù)情況
下,數(shù)據(jù)源之間的字段值并不是相互獨(dú)立的。因此,通過(guò)識(shí)別字段值之間的關(guān)系能夠推斷出
缺失的字段值。
基于以上分析,為了清理數(shù)據(jù)源中的不完整數(shù)據(jù),應(yīng)首先檢測(cè)記錄的可用性,然后刪除
不可用的記錄,最后,對(duì)可用記錄通過(guò)選用合適的方法來(lái)處理該記錄的缺失值,從而完成數(shù)
據(jù)源中不完整數(shù)據(jù)的清理。
不完整數(shù)據(jù)的清理方法
關(guān)于數(shù)據(jù)源中不完整數(shù)據(jù)的清理,可分成下列三步來(lái)處理:
1.檢測(cè)數(shù)據(jù)源中的不完整數(shù)據(jù)
要清理數(shù)據(jù)源中的不完整數(shù)據(jù),首先要做的就是把數(shù)據(jù)源中的不完整數(shù)據(jù)檢測(cè)出來(lái),以
便于下一步的處理。
2.推斷數(shù)據(jù)的可用性
假如一條記錄中字段道缺失的太多,或者者剩余的字段值中根本就不包含關(guān)鍵信息,就
沒(méi)有必'要花費(fèi)精力去處理該記錄。因此,關(guān)于檢測(cè)出的不完整數(shù)據(jù),要根據(jù)每一條記錄的不
完整程度與其它因素,來(lái)決定這些記錄是保留還是刪除。推斷數(shù)據(jù)的可用性就是完成這一工
作。
3.推斷缺失字段的值
推斷缺失字段的值是指對(duì)那些要保留的記錄,要采取一定的方法來(lái)處理該記錄中缺失的
字段值。
清理數(shù)據(jù)源中不完整數(shù)據(jù)的過(guò)程簡(jiǎn)要描述如下:
首先,把數(shù)據(jù)源中需要清理的數(shù)據(jù)通過(guò)JDBC接口調(diào)入到系統(tǒng)中來(lái),不完整數(shù)據(jù)檢測(cè)
模塊調(diào)用算法庫(kù)中的檢測(cè)算法,來(lái)判定每條記錄是否完整。假如記錄完整,則無(wú)須清理,直
接將該記錄通過(guò)JDBC接口導(dǎo)入到數(shù)據(jù)源中,假如記錄不完整,則把該記錄導(dǎo)入到記錄可
用性檢測(cè)模塊中來(lái);記錄可用性檢測(cè)模塊從算法庫(kù)中調(diào)月可用性檢測(cè)算法,執(zhí)行記錄的可用
性檢測(cè),然后根據(jù)規(guī)則庫(kù)中預(yù)定義的規(guī)則,來(lái)判定該記錄是否可用;假如記錄不可用,則直
接刪除該記錄,假如記錄可用,則不完整數(shù)據(jù)處理模塊從算法庫(kù)中調(diào)用有關(guān)算法來(lái)處理該記
錄中缺失的字段值;最后,處理完的數(shù)據(jù)經(jīng)JDBC接口導(dǎo)入到數(shù)據(jù)源中。
在以上這種不完整數(shù)據(jù)清理方法中,通過(guò)在規(guī)則庫(kù)中定義合適的閾值,能靈活、合理地
確定記錄的取舍;關(guān)于要保留的記錄,又能夠通過(guò)選用合適的不完整數(shù)據(jù)處理方法來(lái)處理該
記錄,可見(jiàn)這種不完整數(shù)據(jù)清理方法具有較強(qiáng)的通用性與靈活性。因此,該方法能較好地完
成不完整數(shù)據(jù)的清理工作。
不完整數(shù)據(jù)的可用性檢測(cè)
記錄的可用性檢測(cè)是不完整數(shù)據(jù)清理過(guò)程中的一個(gè)重要步驟。假如一條記錄字段值缺失
的太多,或者者剩余的字段值中根本就不包含關(guān)鍵信息就沒(méi)有必要花費(fèi)精力去處理該記錄。
因此,要解決數(shù)據(jù)的不完整問(wèn)題,推斷記錄的可用性非常重要。推斷記錄的可用性也就是根
據(jù)每一條記錄的不完整程度及其它因素,來(lái)決定該記錄是保留還是刪除。
關(guān)于記錄的可用性檢測(cè),方法是:先評(píng)估每一條記錄的不完整程度,也就是先計(jì)算每一
條記錄中缺失字段值的百分比,再考慮其它因素,如記錄剩余的字段值中關(guān)鍵信息是否存在,
然后決定記錄的取舍。由于當(dāng)一條記錄某字段取值為缺省值時(shí),意味著該字段值已缺失,因
此,把字段值為缺省值的也作為缺失值來(lái)處理。
缺失字段值的處理
在完成記錄可用性檢測(cè)之后,對(duì)那些要保留的不完整數(shù)據(jù)記錄R,要采取一定的方法
來(lái)處理該記錄中缺失的字段值,通常采取下列幾種處理方法:
1)人工處理法
對(duì)一些重要數(shù)據(jù),或者當(dāng)不完整數(shù)據(jù)的數(shù)據(jù)量不大時(shí)應(yīng)該使用這種方法。
2)常量值替代法
常量替代法就是對(duì)所有缺失的字段值用同一個(gè)常量來(lái)填充,比如用"Unknown"或者
"MissValue",這種方法最簡(jiǎn)單。但是,由于所有的缺失值都被當(dāng)成同一個(gè)值,容易導(dǎo)致
錯(cuò)誤的分析結(jié)果。
3)平均值替代法
平均值替代法就是使用一個(gè)字段的平均值來(lái)填充該字段的所有缺失值。
4)常見(jiàn)值替代法
常見(jiàn)值替代法就是使用一個(gè)字段中出現(xiàn)最多的那個(gè)值來(lái)填充該字段的所有缺失值。
5)估算值替代法
估算值替代法是最復(fù)雜,也是最科學(xué)的一種處理方法。使用這種方法處理缺失字段值的
過(guò)程為:首先使用有關(guān)算法,如回歸、判定樹(shù)歸納、K-最臨近等算法預(yù)測(cè)該字段缺失值的
可能值,然后用預(yù)測(cè)值填充缺失值。
在執(zhí)行不完整數(shù)據(jù)的清理過(guò)程中使用什么樣的處理方法,要根據(jù)具體的數(shù)據(jù)源與用戶要
求來(lái)確定.
單數(shù)據(jù)源中錯(cuò)誤數(shù)據(jù)的清理
在三種重要的數(shù)據(jù)質(zhì)量問(wèn)題上,數(shù)據(jù)錯(cuò)誤是最重要的數(shù)據(jù)質(zhì)量問(wèn)題。簡(jiǎn)單地說(shuō),數(shù)據(jù)錯(cuò)
誤是指數(shù)據(jù)源中記錄字段的值與實(shí)際的值不相符。
假如信息系統(tǒng)中包含錯(cuò)誤數(shù)據(jù),記錄重復(fù)問(wèn)題與數(shù)據(jù)不完整問(wèn)題則會(huì)更難清理。故務(wù)必
要清理數(shù)據(jù)源中的錯(cuò)誤數(shù)據(jù)。
關(guān)于錯(cuò)誤數(shù)據(jù)的清理,有兩種相聯(lián)系的方法:
1.通過(guò)檢測(cè)數(shù)據(jù)表中單個(gè)字段的值來(lái)發(fā)現(xiàn)錯(cuò)誤數(shù)據(jù)
這種方法要緊是根據(jù)數(shù)據(jù)表中單個(gè)字段值的數(shù)據(jù)類型、長(zhǎng)度、取值范圍等,來(lái)發(fā)現(xiàn)數(shù)據(jù)
表中的錯(cuò)誤數(shù)據(jù)。
2.通過(guò)檢測(cè)字段之間與記錄之間的關(guān)系來(lái)發(fā)現(xiàn)錯(cuò)誤數(shù)據(jù)
這種方法要緊是通過(guò)在大量數(shù)據(jù)中發(fā)現(xiàn)特定的數(shù)據(jù)格式,如幾個(gè)字段之間的關(guān)系,從而
得到字段之間的完整性約束,如使用函數(shù)依靠或者特定應(yīng)用的業(yè)務(wù)規(guī)則來(lái)檢測(cè)并改正數(shù)據(jù)源
中的錯(cuò)誤數(shù)據(jù)。另外,使用一個(gè)具有高置信度的關(guān)聯(lián)規(guī)則能夠檢測(cè)違反這一規(guī)則的數(shù)據(jù)質(zhì)量
問(wèn)題,比如,一個(gè)置信度為99%的關(guān)聯(lián)規(guī)則"總數(shù):數(shù)量x單價(jià)”說(shuō)明1%記錄不遵守這
一規(guī)則,需要對(duì)記錄做進(jìn)一步的檢杳。關(guān)于這一方面,一些數(shù)據(jù)挖掘工具,如WizSoft公
司的WizRule與InformationDiscovery公司的DataMiningSuite,能通過(guò)推斷字段
與它們的值之間的關(guān)系,計(jì)算出一個(gè)置信度來(lái)指示符合條件的記錄。
基于孤立點(diǎn)檢測(cè)的錯(cuò)誤數(shù)據(jù)清理
在數(shù)據(jù)源中經(jīng)常含有一定數(shù)量的特殊值,它們與數(shù)據(jù)源的其它部分不一致或者不一致,
這樣的數(shù)據(jù)常常被稱之孤立點(diǎn)(Outlier)。Hawkins給出了孤立點(diǎn)本質(zhì)性的定義:孤立點(diǎn)
是在數(shù)據(jù)源中與眾不一致的數(shù)據(jù),使人懷疑這些數(shù)據(jù)并非隨機(jī)偏差,而是產(chǎn)生于完全不一致
的機(jī)制。孤立點(diǎn)可能是度量或者執(zhí)行錯(cuò)誤所導(dǎo)致,也可能是固有的數(shù)據(jù)變異性的結(jié)果,比如,
一個(gè)人的年齡為999,可能是程序?qū)?shù)據(jù)表記錄中年齡字段的缺省設(shè)置所產(chǎn)生的;一個(gè)公
司總經(jīng)理的工資,自然遠(yuǎn)遠(yuǎn)高于公司其他雇員的工資,成為一個(gè)孤立點(diǎn);假如一個(gè)整型字段
99%的值在某一范圍內(nèi),則剩下1%的不在此范圍內(nèi)的記錄能夠認(rèn)為是特殊。
孤立點(diǎn)檢測(cè)是數(shù)據(jù)挖掘中的一個(gè)重要方面,用來(lái)發(fā)現(xiàn)數(shù)據(jù)源中顯著不一致于其它數(shù)據(jù)的
對(duì)象,它常常應(yīng)用在電信與信用卡欺騙檢測(cè)、貸款審批、氣象預(yù)報(bào)與客戶分類等領(lǐng)域中。由
于數(shù)據(jù)錯(cuò)誤往往表現(xiàn)為孤立點(diǎn),因此,通過(guò)檢測(cè)并去除數(shù)據(jù)源中的孤立點(diǎn)能夠達(dá)到數(shù)據(jù)清理
的目的,從而提高數(shù)據(jù)源的數(shù)據(jù)質(zhì)量。但是,并非所有的孤立點(diǎn)都是錯(cuò)誤的數(shù)據(jù),因此,在
檢測(cè)出孤立點(diǎn)后還應(yīng)結(jié)合領(lǐng)域知識(shí)或者所存儲(chǔ)的元數(shù)據(jù),從中找出相應(yīng)的錯(cuò)誤數(shù)據(jù)。
孤立點(diǎn)檢測(cè)的有關(guān)方法
通過(guò)分析能夠看出,婦何檢測(cè)數(shù)據(jù)源中的孤立點(diǎn)是基于孤立點(diǎn)檢測(cè)的錯(cuò)誤數(shù)據(jù)清理方法
中的一個(gè)關(guān)鍵步驟,常用的有孤立點(diǎn)檢測(cè)算法。
從20世紀(jì)80年代起,孤立點(diǎn)檢測(cè)問(wèn)題就在統(tǒng)計(jì)學(xué)領(lǐng)域里得到廣泛研究。通常用戶
用某個(gè)統(tǒng)計(jì)分布對(duì)數(shù)據(jù)點(diǎn)進(jìn)行建模,再以假定的模型,根據(jù)點(diǎn)的分布來(lái)確定是否特殊。目前,
已經(jīng)研究出若干種檢測(cè)孤立點(diǎn)的方法,大多數(shù)方法建立在統(tǒng)計(jì)學(xué)的基礎(chǔ)上,這些方法大致能
夠分為4類:基于分布的、基于深度的、基于距離的與基于密度的,每種方法都給出了相
應(yīng)的孤立點(diǎn)的定義。
1.基于分布的方法
基于分布的方法對(duì)給定的數(shù)據(jù)集合假定一個(gè)分布或者概率模型,如一個(gè)正態(tài)分布,然后
根據(jù)模型對(duì)數(shù)據(jù)集中的每個(gè)點(diǎn)進(jìn)行不一致性測(cè)試,假如與分布不符合,就認(rèn)為它是一個(gè)孤立
點(diǎn)。這種方法的缺陷是:要求明白數(shù)據(jù)集參數(shù)(如假設(shè)的數(shù)據(jù)分布)、分布參數(shù)(如平均值
與方差)與預(yù)期的孤立點(diǎn)的數(shù)目.然而,在許多情況下,用戶并不明白數(shù)據(jù)集合參數(shù)的知識(shí),
況且現(xiàn)實(shí)數(shù)據(jù)也往往不符合任何一種理想狀態(tài)的數(shù)學(xué)分布。
2.基于距離的方法
基于距離(Distance-based,DB)的孤立點(diǎn)的概念是由Knorr與Ng在1998年
提出的。他們認(rèn)為假如一個(gè)點(diǎn)與數(shù)據(jù)集中大多數(shù)點(diǎn)之間的距離都大于某個(gè)閾值,那么這個(gè)點(diǎn)
就是一個(gè)孤立點(diǎn)。也就是說(shuō),不依靠于統(tǒng)計(jì)檢驗(yàn),能夠?qū)⒒诰嚯x的孤立點(diǎn)看作是那些沒(méi)有
"足夠多"鄰居的對(duì)象,這里的鄰居是基于給定對(duì)象的距離來(lái)定義的?;诰嚯x的孤立點(diǎn)定
義如下:
假如數(shù)據(jù)集合S中對(duì)象至少有p部分與對(duì)象0的距離大于d,則對(duì)象0是一個(gè)帶
參數(shù)P與d的基于距離(DB)的孤立點(diǎn),即D
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 南陽(yáng)理工學(xué)院《中學(xué)歷史課程標(biāo)準(zhǔn)解讀》2023-2024學(xué)年第一學(xué)期期末試卷
- 2025年度特色酒店式飯店出租管理合同
- 2025年度家庭贍養(yǎng)父母財(cái)產(chǎn)繼承及管理協(xié)議
- 2025年度終止供貨協(xié)議模板:關(guān)于生物制藥原材料供應(yīng)鏈合作終止函
- 閩江學(xué)院《勞動(dòng)關(guān)系管理》2023-2024學(xué)年第一學(xué)期期末試卷
- 2025年度電子借條合同模板(含稅務(wù)合規(guī)證明)
- 二零二五年度服裝銷售合同提成協(xié)議
- 2025年度食品企業(yè)電商平臺(tái)客戶服務(wù)合同
- 二零二五年度共享辦公空間個(gè)人房屋租賃簡(jiǎn)版合同
- 2025年度二零二五年度專業(yè)炊事員服務(wù)外包合同范本
- 消防安全應(yīng)急預(yù)案下載
- 年產(chǎn)1.5萬(wàn)噸長(zhǎng)鏈二元酸工程建設(shè)項(xiàng)目可研報(bào)告
- 《北航空氣動(dòng)力學(xué)》課件
- 紡織廠消防管道安裝協(xié)議
- 【MOOC】思辨式英文寫作-南開(kāi)大學(xué) 中國(guó)大學(xué)慕課MOOC答案
- 期末測(cè)試卷(試題)-2024-2025學(xué)年五年級(jí)上冊(cè)數(shù)學(xué)北師大版
- 2024年下半年中國(guó)石油大連石化分公司招聘30人易考易錯(cuò)模擬試題(共500題)試卷后附參考答案
- 附件:財(cái)政業(yè)務(wù)基礎(chǔ)數(shù)據(jù)規(guī)范(3.0版)
- 電商公司售后服務(wù)管理制度
- 國(guó)有企業(yè)品牌建設(shè)策略方案
- 火災(zāi)應(yīng)急處理課件
評(píng)論
0/150
提交評(píng)論