大數(shù)據(jù)時(shí)代亟需強(qiáng)化數(shù)據(jù)清洗環(huán)節(jié)的規(guī)范和標(biāo)準(zhǔn)_第1頁(yè)
大數(shù)據(jù)時(shí)代亟需強(qiáng)化數(shù)據(jù)清洗環(huán)節(jié)的規(guī)范和標(biāo)準(zhǔn)_第2頁(yè)
大數(shù)據(jù)時(shí)代亟需強(qiáng)化數(shù)據(jù)清洗環(huán)節(jié)的規(guī)范和標(biāo)準(zhǔn)_第3頁(yè)
大數(shù)據(jù)時(shí)代亟需強(qiáng)化數(shù)據(jù)清洗環(huán)節(jié)的規(guī)范和標(biāo)準(zhǔn)_第4頁(yè)
大數(shù)據(jù)時(shí)代亟需強(qiáng)化數(shù)據(jù)清洗環(huán)節(jié)的規(guī)范和標(biāo)準(zhǔn)_第5頁(yè)
已閱讀5頁(yè),還剩15頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)時(shí)代亟需強(qiáng)化數(shù)據(jù)清洗環(huán)節(jié)的規(guī)范和標(biāo)準(zhǔn)大數(shù)據(jù)時(shí)代亟需強(qiáng)化數(shù)據(jù)清洗環(huán)節(jié)的規(guī)范和標(biāo)準(zhǔn)大數(shù)據(jù)時(shí)代亟需強(qiáng)化數(shù)據(jù)清洗環(huán)節(jié)的規(guī)范和標(biāo)準(zhǔn)資料僅供參考文件編號(hào):2022年4月大數(shù)據(jù)時(shí)代亟需強(qiáng)化數(shù)據(jù)清洗環(huán)節(jié)的規(guī)范和標(biāo)準(zhǔn)版本號(hào):A修改號(hào):1頁(yè)次:1.0審核:批準(zhǔn):發(fā)布日期:日期:2015-10-10

文章來(lái)源:國(guó)研網(wǎng)

文章錄入:李金金

[關(guān)閉]海量數(shù)據(jù)的不斷劇增形成大數(shù)據(jù)時(shí)代的顯著特征。而大數(shù)據(jù)的生產(chǎn)和交易的重要前提之一是數(shù)據(jù)的清洗。目前,我國(guó)已經(jīng)形成了基本的數(shù)據(jù)清洗產(chǎn)業(yè)格局,但因各自利益的追求,導(dǎo)致仍存在不少問題。因此,我國(guó)未來(lái)應(yīng)重點(diǎn)強(qiáng)化數(shù)據(jù)清洗環(huán)節(jié)的規(guī)范和標(biāo)準(zhǔn),推動(dòng)大數(shù)據(jù)產(chǎn)業(yè)的健康發(fā)展。海量數(shù)據(jù)不斷劇增是未來(lái)的發(fā)展趨勢(shì)在席卷全球的信息化浪潮中,互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)、云計(jì)算、物聯(lián)網(wǎng)等技術(shù)迅猛發(fā)展、加速創(chuàng)新,其中積淀的數(shù)據(jù)爆炸式增長(zhǎng),成為重要的生產(chǎn)要素和社會(huì)財(cái)富,堪稱信息時(shí)代的礦產(chǎn)和石油。據(jù)預(yù)測(cè),中國(guó)2015年可能突破10EB數(shù)據(jù)保有量,且每?jī)赡陼?huì)翻一番。針對(duì)這種史無(wú)前例的數(shù)據(jù)洪流,如何挖掘信息時(shí)代的“數(shù)字石油”,將大數(shù)據(jù)轉(zhuǎn)換為大智慧、大市場(chǎng)和大生態(tài),是我們這個(gè)時(shí)代的歷史機(jī)遇。2015年6月24日,國(guó)務(wù)院常務(wù)會(huì)議通過的《互聯(lián)網(wǎng)+”行動(dòng)指南意見》明確提出,要加強(qiáng)新一代信息基礎(chǔ)設(shè)施建設(shè)和云計(jì)算、大數(shù)據(jù)的應(yīng)用。此外,根據(jù)中國(guó)信息通信研究院(原工信部電信研究院)6月21日發(fā)布的《中國(guó)大數(shù)據(jù)發(fā)展調(diào)查報(bào)告》,2014年我國(guó)大數(shù)據(jù)市場(chǎng)規(guī)模達(dá)到84億元人民幣,預(yù)計(jì)2015年將達(dá)到億元人民幣,增速為38%。大數(shù)據(jù)交易顯現(xiàn)出對(duì)數(shù)據(jù)清洗的迫切需求大數(shù)據(jù)已經(jīng)滲透到各個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。數(shù)據(jù)的來(lái)源主要有政府?dāng)?shù)據(jù)、行業(yè)數(shù)據(jù)、企業(yè)數(shù)據(jù)和從數(shù)據(jù)交易所交換的數(shù)據(jù)。在數(shù)據(jù)交易方面,2014年2月20日,國(guó)內(nèi)首個(gè)面向數(shù)據(jù)交易的產(chǎn)業(yè)組織——中關(guān)村大數(shù)據(jù)交易產(chǎn)業(yè)聯(lián)盟成立。同時(shí)成立的中關(guān)村數(shù)海大數(shù)據(jù)交易平臺(tái)是國(guó)內(nèi)首個(gè)重點(diǎn)面向大數(shù)據(jù)的數(shù)據(jù)交易服務(wù)平臺(tái),目前有1203家數(shù)據(jù)提供商。2015年4月14日,全國(guó)首家以大數(shù)據(jù)命名的交易所,即貴陽(yáng)大數(shù)據(jù)交易所正式掛牌成立,并在當(dāng)日成功完成了首筆數(shù)據(jù)交易。值得注意的是,貴陽(yáng)大數(shù)據(jù)交易所交易的并不是底層數(shù)據(jù),而是基于底層數(shù)據(jù),通過數(shù)據(jù)的清洗、分析、建模、可視化出來(lái)的結(jié)果。而采取這一過程的目的,就是為了解決數(shù)據(jù)交易和使用過程中保護(hù)隱私及數(shù)據(jù)所有權(quán)的問題。以傳統(tǒng)方式構(gòu)建的基本架構(gòu)對(duì)數(shù)據(jù)進(jìn)行清洗大數(shù)據(jù)必須經(jīng)過清洗、分析、建模、可視化才能體現(xiàn)其潛在的價(jià)值。然而,由于網(wǎng)民數(shù)量的增加、業(yè)務(wù)應(yīng)用的多樣化和社交網(wǎng)絡(luò)的繁榮,單個(gè)文件(比如日志文件、音視頻文件等)變得越來(lái)越大,硬盤的讀取速度和文件的存儲(chǔ)成本越來(lái)越顯得捉襟見肘。與此同時(shí),政府、銀行和保險(xiǎn)公司等內(nèi)部存在海量的非結(jié)構(gòu)化、不規(guī)則的數(shù)據(jù);而只有將這些數(shù)據(jù)采集并清洗為結(jié)構(gòu)化、規(guī)則的數(shù)據(jù),才能提高公司決策支撐能力和政府決策服務(wù)水平,使之發(fā)揮應(yīng)有的作用。因此,目前的數(shù)據(jù)清洗主要是將數(shù)據(jù)劃分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),分別采用傳統(tǒng)的數(shù)據(jù)提取、轉(zhuǎn)換、加載(ETL)工具和分布式并行處理來(lái)實(shí)現(xiàn)。其總體架構(gòu)如圖1所示。圖1

大數(shù)據(jù)清洗總體架構(gòu)具體來(lái)講,結(jié)構(gòu)化數(shù)據(jù)可以存儲(chǔ)在傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)中。關(guān)系型數(shù)據(jù)庫(kù)在處理事務(wù)、及時(shí)響應(yīng)、保證數(shù)據(jù)的一致性方面有天然的優(yōu)勢(shì)。非結(jié)構(gòu)化數(shù)據(jù)可以存儲(chǔ)在新型的分布式存儲(chǔ)中,比如Hadoop的HDFS。分布式存儲(chǔ)在系統(tǒng)的橫向擴(kuò)展性、降低存儲(chǔ)成本、提高文件讀取速度方面有著獨(dú)特的優(yōu)勢(shì)。此外,就是結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)之間的數(shù)據(jù)遷移。如果要將傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù),例如關(guān)系型數(shù)據(jù)庫(kù)中的數(shù)據(jù)導(dǎo)入到分布式存儲(chǔ)中,可以利用sqoop等工具,先將關(guān)系型數(shù)據(jù)庫(kù)(mysql、postgresql等)的表結(jié)構(gòu)導(dǎo)入分布式數(shù)據(jù)庫(kù)(Hive),然后再向分布式數(shù)據(jù)庫(kù)的表中導(dǎo)入結(jié)構(gòu)化數(shù)據(jù)。對(duì)不同質(zhì)量的原數(shù)據(jù)進(jìn)行分類以適應(yīng)清洗工作數(shù)據(jù)清洗在匯聚多個(gè)維度、多個(gè)來(lái)源、多種結(jié)構(gòu)的數(shù)據(jù)之后,就可以對(duì)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換和集成加載。在這個(gè)過程中,除了更正、修復(fù)系統(tǒng)中的一些錯(cuò)誤數(shù)據(jù)之外,更多的是對(duì)數(shù)據(jù)進(jìn)行歸并整理,并儲(chǔ)存到新的存儲(chǔ)介質(zhì)中。其中,分清和掌握數(shù)據(jù)的質(zhì)量至關(guān)重要。常見的數(shù)據(jù)質(zhì)量問題可以根據(jù)數(shù)據(jù)源的多少和所屬層次(定義Scheme層和實(shí)例sample層)分為四類。第一類,單數(shù)據(jù)源定義層:違背字段約束條件(比如日期出現(xiàn)1月0日)、字段屬性依賴沖突(比如兩條記錄描述同一個(gè)人的某一個(gè)屬性,但數(shù)值不一致)、違反唯一性(同一個(gè)主鍵ID出現(xiàn)了多次)。第二類,單數(shù)據(jù)源實(shí)例層:?jiǎn)蝹€(gè)屬性值含有過多信息、拼寫錯(cuò)誤、空白值、噪音數(shù)據(jù)、數(shù)據(jù)重復(fù)、過時(shí)數(shù)據(jù)等。第三類,多數(shù)據(jù)源的定義層:同一個(gè)實(shí)體的不同稱呼(比如冰心和謝婉瑩,用筆名還是用真名)、同一種屬性的不同定義(比如字段長(zhǎng)度定義不一致、字段類型不一致等)。第四類,多數(shù)據(jù)源的實(shí)例層:數(shù)據(jù)的維度、粒度不一致(比如有的按GB記錄存儲(chǔ)量,有的按TB記錄存儲(chǔ)量;有的按照年度統(tǒng)計(jì),有的按照月份統(tǒng)計(jì))、數(shù)據(jù)重復(fù)、拼寫錯(cuò)誤。除此之外,還有在數(shù)據(jù)處理過程中產(chǎn)生的“二次數(shù)據(jù)”,其中也會(huì)有噪聲、重復(fù)或錯(cuò)誤的情況。數(shù)據(jù)的調(diào)整和清洗也會(huì)涉及到格式、測(cè)量單位和數(shù)據(jù)標(biāo)準(zhǔn)化與歸一化的相關(guān)事情,以致對(duì)實(shí)驗(yàn)結(jié)果產(chǎn)生比較大的影響。通常這類問題可以歸結(jié)為不確定性。不確定性有兩方面內(nèi)涵,包括各數(shù)據(jù)點(diǎn)自身存在的不確定性,以及數(shù)據(jù)點(diǎn)屬性值的不確定性。前者可用概率描述,后者有多重描述方式,如描述屬性值的概率密度函數(shù),以方差為代表的統(tǒng)計(jì)值等。對(duì)不同質(zhì)量類型的數(shù)據(jù)采用不同的清洗方法針對(duì)以上數(shù)據(jù)質(zhì)量中普遍存在的空缺值、噪音值和不一致數(shù)據(jù)的情況,可以采用人工檢測(cè)、統(tǒng)計(jì)學(xué)方法、聚類、分類、基于距離的方法、關(guān)聯(lián)規(guī)則等方法來(lái)實(shí)現(xiàn)數(shù)據(jù)清洗。以往的人工檢測(cè)方法不但要花費(fèi)大量的人力、物力和時(shí)間,也會(huì)在數(shù)據(jù)清洗過程中產(chǎn)生很多衍生錯(cuò)誤。最近,可視化作為一種有效的展示手段和交互手段,可以用來(lái)提高數(shù)據(jù)錯(cuò)誤識(shí)別和清理的效率,如圖2所示。圖2

可視化方法直接影響數(shù)據(jù)質(zhì)量的探究圖2中,a為社交網(wǎng)絡(luò)圖,無(wú)法顯示任何數(shù)據(jù)異常;b為關(guān)聯(lián)矩陣圖,可以顯示源數(shù)據(jù)的內(nèi)部結(jié)構(gòu),但不利于尋找錯(cuò)誤;c將源數(shù)據(jù)按照矩陣視圖重排,比較容易發(fā)現(xiàn)矩陣右下角的數(shù)據(jù)缺失。其他方法的優(yōu)劣對(duì)比如表1所示。表1

數(shù)據(jù)清洗方法的對(duì)比方法主要思想優(yōu)點(diǎn)缺點(diǎn)統(tǒng)計(jì)學(xué)方法將屬性當(dāng)做隨機(jī)變量,通過置信區(qū)間來(lái)判斷值的正誤??梢噪S機(jī)選取。參數(shù)模型復(fù)雜時(shí)需要多次迭代?;诰垲惖姆椒ǜ鶕?jù)數(shù)據(jù)相似度將數(shù)據(jù)分組,發(fā)現(xiàn)不能歸并到分組的孤立點(diǎn)。對(duì)多種類型的數(shù)據(jù)有效,具有普適性。有效性高度依賴于使用的聚類方法,對(duì)于大型數(shù)據(jù)集開銷較大?;诰嚯x的方法使用距離度量來(lái)量化數(shù)據(jù)對(duì)象之間的相似性。比較簡(jiǎn)單易算。如果距離都較近或平均分布,無(wú)法區(qū)分。基于分類的方法訓(xùn)練一個(gè)可以區(qū)分正常數(shù)據(jù)和異常數(shù)據(jù)的分類模型。結(jié)合了數(shù)據(jù)的偏好性。得到的分類器可能過擬合?;陉P(guān)聯(lián)規(guī)則的方法定義數(shù)據(jù)之間的關(guān)聯(lián)規(guī)則,不符合規(guī)則的數(shù)據(jù)被認(rèn)為是異常數(shù)據(jù)??梢园l(fā)現(xiàn)數(shù)據(jù)值的關(guān)聯(lián)性。強(qiáng)規(guī)則不一定是正確的規(guī)則。根據(jù)缺陷數(shù)據(jù)類型分類,可以將數(shù)據(jù)清洗分為異常記錄檢測(cè)和重復(fù)記錄檢測(cè)兩個(gè)核心問題。異常記錄檢測(cè)。包括解決空值、錯(cuò)誤值和不一致數(shù)據(jù)的方法。對(duì)于空值的處理,一般采用估算方法,例如采用均值、眾數(shù)、最大值、最小值、中位數(shù)填充。但估值方法會(huì)引入誤差,如果空值較多,會(huì)使結(jié)果偏離較大。對(duì)于錯(cuò)誤值的處理,通常采用統(tǒng)計(jì)方法來(lái)處理,例如偏差分析、回歸方程、正態(tài)分布等,也可以通過簡(jiǎn)單規(guī)則庫(kù)檢查數(shù)值范圍或基于屬性的約束關(guān)系來(lái)識(shí)別錯(cuò)誤。對(duì)于不一致數(shù)據(jù)的處理,主要體現(xiàn)為數(shù)據(jù)不滿足完整性約束??梢酝ㄟ^分析數(shù)據(jù)字典、元數(shù)據(jù)等,還可梳理數(shù)據(jù)之間的關(guān)系,并進(jìn)行修正。不一致數(shù)據(jù)往往是因?yàn)槿狈σ惶讛?shù)據(jù)標(biāo)準(zhǔn)而產(chǎn)生的,也與有關(guān)部門不貫徹落實(shí)相關(guān)標(biāo)準(zhǔn)有一定關(guān)系。重復(fù)數(shù)據(jù)的檢測(cè)。其算法可以細(xì)分為基于字段匹配的算法、遞歸的字段匹配算法、SmithWaterman算法、基于編輯距離的字段匹配算法和改進(jìn)余弦相似度函數(shù)。這些細(xì)分算法的對(duì)比如表2所示。表2

重復(fù)數(shù)據(jù)的檢測(cè)算法對(duì)比算法優(yōu)點(diǎn)缺點(diǎn)基本的字段匹配算法直接的按位比較。不能處理子字段排序的情況。遞歸的字段匹配算法可以處理子串順序顛倒及縮寫的匹配情況。時(shí)間復(fù)雜度高與具體領(lǐng)域關(guān)系密切,效率較低。Smith-Waterman算法性能好:不依賴領(lǐng)域知識(shí),允許不匹配字符的缺失,可以識(shí)別字符串縮寫的情況。不能處理子串順序顛倒的情形?;诰庉嬀嚯x的字段匹配算法可以捕獲拼寫錯(cuò)誤、短單詞的插入和刪除錯(cuò)誤。對(duì)單詞的位置交換長(zhǎng)單詞的插入和刪除錯(cuò)誤,匹配效果差。Cosine相似度函數(shù)可以解決經(jīng)常性使用單詞插入和刪除導(dǎo)致的字符串匹配問題。不能識(shí)別拼寫錯(cuò)誤。通過內(nèi)容限制和方法改進(jìn)應(yīng)對(duì)數(shù)據(jù)清洗面臨的挑戰(zhàn)隨著信息量的飛速增長(zhǎng)和智慧工具的不斷涌現(xiàn),無(wú)關(guān)、重復(fù)、錯(cuò)誤,甚至擬人的信息也將隨之增長(zhǎng),給大數(shù)據(jù)的清洗帶來(lái)極大的挑戰(zhàn)。例如,由于人工智能技術(shù),尤其是深度學(xué)習(xí)技術(shù)的迅速發(fā)展,機(jī)器人發(fā)帖、聊天、發(fā)微博、搶票等現(xiàn)象司空見慣,如微軟“小冰”和聊天機(jī)器人“wbot”在微博上頻繁互動(dòng)等。目前,判斷社交對(duì)象是否是人類已經(jīng)成為圖靈測(cè)試的范疇。而如何區(qū)分?jǐn)?shù)據(jù)是否是人類產(chǎn)生的,如何將機(jī)器人產(chǎn)生的數(shù)據(jù)清洗出去,將對(duì)用戶軌跡跟蹤、網(wǎng)絡(luò)輿情分析、生成用戶畫像等方面產(chǎn)生重大影響。針對(duì)以上問題,目前可以從兩個(gè)方面對(duì)數(shù)據(jù)進(jìn)行處理。第一,限制內(nèi)容產(chǎn)生。例如,可通過微博的實(shí)名制、論壇簽到制、發(fā)帖驗(yàn)證碼、網(wǎng)絡(luò)爬蟲的Robots協(xié)議等來(lái)完成。然而,隨著模式識(shí)別技術(shù)的快速發(fā)展,普通的驗(yàn)證碼已經(jīng)難以屏蔽機(jī)器人自動(dòng)識(shí)別驗(yàn)證碼并進(jìn)行填寫的情況。因此,驗(yàn)證碼也朝著日趨復(fù)雜的方向發(fā)展。例如12306使用一組近似圖片,需要用戶選出多個(gè)正確答案才能進(jìn)行購(gòu)票。第二,改進(jìn)數(shù)據(jù)清洗方法。依托行業(yè)規(guī)則和技術(shù)特征對(duì)機(jī)器人產(chǎn)生的數(shù)據(jù)進(jìn)行清洗。例如,基于主流搜索引擎會(huì)在用戶代理中留下其特定關(guān)鍵字、網(wǎng)絡(luò)爬蟲一般會(huì)用HEAD發(fā)起請(qǐng)求等特征,可通過識(shí)別相應(yīng)關(guān)鍵字、只保留GET請(qǐng)求等方法,過濾掉機(jī)器人產(chǎn)生的數(shù)據(jù)。此外,也可以根據(jù)用戶發(fā)帖時(shí)間、頻率、IP地址等進(jìn)行數(shù)據(jù)建模,利用機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的方法過濾掉機(jī)器人產(chǎn)生的內(nèi)容。我國(guó)數(shù)據(jù)清洗已形成基本產(chǎn)業(yè)格局在大數(shù)據(jù)時(shí)代,數(shù)據(jù)正在成為一種生產(chǎn)資料,成為一種稀有資產(chǎn)和新興產(chǎn)業(yè)。大數(shù)據(jù)產(chǎn)業(yè)已提升到國(guó)家戰(zhàn)略的高度,隨著創(chuàng)新驅(qū)動(dòng)發(fā)展戰(zhàn)略的實(shí)施,逐步帶動(dòng)產(chǎn)業(yè)鏈上下游,形成萬(wàn)眾創(chuàng)新的大數(shù)據(jù)產(chǎn)業(yè)生態(tài)環(huán)境。數(shù)據(jù)清洗屬于大數(shù)據(jù)產(chǎn)業(yè)鏈中關(guān)鍵的一環(huán),可以從文本、語(yǔ)音、視頻和地理信息對(duì)數(shù)據(jù)清洗產(chǎn)業(yè)進(jìn)行細(xì)分。文本清洗領(lǐng)域。主要基于自然語(yǔ)言處理技術(shù),通過分詞、語(yǔ)料標(biāo)注、字典構(gòu)建等技術(shù),從結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)中提取有效信息,提高數(shù)據(jù)加工的效率。除去國(guó)內(nèi)傳統(tǒng)的搜索引擎公司,例如百度、搜狗、360等,該領(lǐng)域代表公司有:拓爾思、中科點(diǎn)擊、任子行、海量等。語(yǔ)音數(shù)據(jù)加工領(lǐng)域。主要是基于語(yǔ)音信號(hào)的特征提取,利用隱馬爾可夫模型等算法進(jìn)行模式匹配,對(duì)音頻進(jìn)行加工處理。該領(lǐng)域國(guó)內(nèi)的代表公司有:科大訊飛、中科信利、云知聲、捷通華聲等。視頻圖像處理領(lǐng)域。主要是基于圖像獲取、邊緣識(shí)別、圖像分割、特征提取等環(huán)節(jié),實(shí)現(xiàn)人臉識(shí)別、車牌標(biāo)注、醫(yī)學(xué)分析等實(shí)際應(yīng)用。該領(lǐng)域國(guó)內(nèi)的代表公司有:Face++、五谷圖像、亮風(fēng)臺(tái)等。地理信息處理領(lǐng)域。主要是基于柵格圖像和矢量圖像,對(duì)地理信息數(shù)據(jù)進(jìn)行加工,實(shí)現(xiàn)可視化展現(xiàn)、區(qū)域識(shí)別、地點(diǎn)標(biāo)注等應(yīng)用。該領(lǐng)域國(guó)內(nèi)的代表公司有:高德、四維圖新、天下圖等。強(qiáng)化數(shù)據(jù)清洗環(huán)節(jié)的規(guī)范和標(biāo)準(zhǔn)推動(dòng)產(chǎn)業(yè)發(fā)展據(jù)統(tǒng)計(jì),數(shù)據(jù)清洗在大數(shù)據(jù)開發(fā)過程占用的時(shí)間比例高達(dá)60%以上。加快數(shù)據(jù)的標(biāo)準(zhǔn)化建設(shè),減少數(shù)據(jù)清洗過程中的成本開銷,已經(jīng)成為我國(guó)大數(shù)據(jù)產(chǎn)業(yè)必須跨越的一道障礙。第一,加快跨行業(yè)的數(shù)據(jù)標(biāo)準(zhǔn)統(tǒng)籌制定。行業(yè)的垂直建設(shè),形成了多個(gè)行業(yè)之間、甚至一個(gè)行業(yè)的多個(gè)部門之間條塊分割的數(shù)據(jù)資源。海量數(shù)據(jù)以各種形式分散于各行業(yè)、各部門,存在同類數(shù)據(jù)反復(fù)采集、數(shù)據(jù)標(biāo)準(zhǔn)和統(tǒng)計(jì)口徑不統(tǒng)一等問題,給大數(shù)據(jù)開發(fā)帶來(lái)了極大的挑戰(zhàn)。因此,目前亟需制定跨行業(yè)的數(shù)據(jù)標(biāo)準(zhǔn),規(guī)范數(shù)據(jù)的采集、錄入、傳輸、處理等過程,加快海量數(shù)據(jù)的融合創(chuàng)新。第二,貫徹?cái)?shù)據(jù)方面的國(guó)家和行業(yè)標(biāo)準(zhǔn)。在一些行業(yè),已經(jīng)建立了數(shù)據(jù)錄入、統(tǒng)計(jì)等國(guó)家和行業(yè)標(biāo)準(zhǔn),對(duì)數(shù)據(jù)字典進(jìn)行了規(guī)范。然而,很多企業(yè)為了維護(hù)自己的市場(chǎng)額度,開發(fā)自定義的

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論