大數(shù)據(jù)的質(zhì)量問(wèn)題分析獲獎(jiǎng)科研報(bào)告_第1頁(yè)
大數(shù)據(jù)的質(zhì)量問(wèn)題分析獲獎(jiǎng)科研報(bào)告_第2頁(yè)
大數(shù)據(jù)的質(zhì)量問(wèn)題分析獲獎(jiǎng)科研報(bào)告_第3頁(yè)
大數(shù)據(jù)的質(zhì)量問(wèn)題分析獲獎(jiǎng)科研報(bào)告_第4頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)的質(zhì)量問(wèn)題分析獲獎(jiǎng)科研報(bào)告【摘要】如今,大數(shù)據(jù)是一種不斷增長(zhǎng)的技術(shù)。大數(shù)據(jù)有很多用途;人工智能、醫(yī)療保健、商業(yè)等等。因此,有必要對(duì)所獲取的大量數(shù)據(jù)進(jìn)行預(yù)處理與分析,以確保使用和生成的數(shù)據(jù)具有更高的質(zhì)量。如果想擁有較高質(zhì)量的大數(shù)據(jù),那么它的獲取規(guī)則、管理架構(gòu)等條件必須得到滿足。本文從數(shù)據(jù)本身、數(shù)據(jù)管理、數(shù)據(jù)處理和數(shù)據(jù)用戶的角度出發(fā),提出了需要測(cè)量的主要大數(shù)據(jù)質(zhì)量因素。這項(xiàng)研究強(qiáng)調(diào)了質(zhì)量因素,這些因素在以后可能會(huì)用于創(chuàng)建不同的大數(shù)據(jù)質(zhì)量模型。

【關(guān)鍵詞】大數(shù)據(jù)、數(shù)據(jù)質(zhì)量、回歸規(guī)模

1引言

大數(shù)據(jù)概念已經(jīng)使用了這么多年,研究人員在1944年以“信息爆炸”的名義開始注意到它。在信息技術(shù)領(lǐng)域,“大數(shù)據(jù)”一詞最早是在1980年由CharlesTelly使用的。TimO'Reilly在2005年定義了我們今天所知道的術(shù)語(yǔ)“大數(shù)據(jù)”。這一術(shù)語(yǔ)將于2013年出現(xiàn)在牛津詞典中。此后,許多研究者從定義、應(yīng)用、技術(shù)、工具和質(zhì)量等方面對(duì)“大數(shù)據(jù)”進(jìn)行了討論。而現(xiàn)在的大數(shù)據(jù)是一個(gè)術(shù)語(yǔ),用來(lái)描述一個(gè)企業(yè)或系統(tǒng)日常的大量數(shù)據(jù),它可以是結(jié)構(gòu)化的、半結(jié)構(gòu)化的或非結(jié)構(gòu)化的。

軟件質(zhì)量是軟件開發(fā)的一個(gè)基本過(guò)程。它是“軟件產(chǎn)品滿足既定需求的程度;然而,質(zhì)量取決于這些既定需求準(zhǔn)確表示涉眾需求、愿望和期望的程度”。數(shù)據(jù),作為任何軟件產(chǎn)品的四大支柱之一,它必須盡可能高質(zhì)量,以確保它不會(huì)在系統(tǒng)中產(chǎn)生任何故障或失效。本文主要對(duì)大數(shù)據(jù)的質(zhì)量因素和問(wèn)題進(jìn)行了討論,以幫助大數(shù)據(jù)生產(chǎn)者,分析師和用戶衡量他們的大數(shù)據(jù)質(zhì)量。

2大數(shù)據(jù)基本特征

如今,大數(shù)據(jù)涉及許多領(lǐng)域,如社交媒體、人工智能、機(jī)器學(xué)習(xí)、醫(yī)療保健、電力和核系統(tǒng)等等。2001年,DougLaney[8]提出了大數(shù)據(jù)的三大主要特征,后來(lái)被稱為“大數(shù)據(jù)的三個(gè)V”:

1、容量(Volume):大數(shù)據(jù),顧名思義,是需要處理和存儲(chǔ)的海量數(shù)據(jù);

2、速度(Velocity):是通過(guò)系統(tǒng)移動(dòng)數(shù)據(jù)的速度。面對(duì)如此龐大的數(shù)據(jù)量,移動(dòng)數(shù)據(jù)是一個(gè)巨大的挑戰(zhàn);

3、多樣性(Variety):大數(shù)據(jù)是不同類型數(shù)據(jù)(圖像、視頻、音頻、文本等)的巨大集合。此外,收集的數(shù)據(jù)的格式和呈現(xiàn)方式也不同。

大數(shù)據(jù)的特點(diǎn)和應(yīng)用提出了大數(shù)據(jù)質(zhì)量問(wèn)題。任何將要使用它的應(yīng)用程序都必須確保數(shù)據(jù)具有高質(zhì)量標(biāo)準(zhǔn),這是生成良好質(zhì)量系統(tǒng)的強(qiáng)制性要求。主要考慮大數(shù)據(jù)的質(zhì)量因素與傳統(tǒng)數(shù)據(jù)集相同。此外,一些額外的質(zhì)量因素,處理大量的數(shù)據(jù),如數(shù)據(jù)管理和修復(fù)。

在以往的研究中,大多數(shù)研究者都討論了傳統(tǒng)數(shù)據(jù)的質(zhì)量因素。然而,傳統(tǒng)數(shù)據(jù)與大數(shù)據(jù)有許多相似的質(zhì)量因素,它們?cè)谫|(zhì)量應(yīng)用和度量上存在差異。

在文獻(xiàn)[2-3]中,研究人員描述了網(wǎng)站數(shù)據(jù)的六個(gè)質(zhì)量評(píng)估標(biāo)準(zhǔn):權(quán)威性、準(zhǔn)確性、客觀性、通用性、覆蓋率/預(yù)期受眾和交互/交易特征。另一位研究人員討論了網(wǎng)絡(luò)數(shù)據(jù)質(zhì)量,并與用戶進(jìn)行測(cè)試,以確定每種數(shù)據(jù)的重要性級(jí)別。另一位研究人員提出了六個(gè)質(zhì)量指標(biāo),包括貨幣、可用性、信息噪音比、權(quán)威性、流行性和凝聚力,以進(jìn)行調(diào)查。文獻(xiàn)[4]中引入了一個(gè)新的質(zhì)量模型,稱為IQIP(Identify,Quantify,Implement,andPerfect)。他們總結(jié)了最常見(jiàn)的不同的數(shù)據(jù)質(zhì)量/信息質(zhì)量框架。該模型作為一種管理互聯(lián)網(wǎng)爬蟲搜索引擎質(zhì)量相關(guān)算法的選擇和實(shí)現(xiàn)的方法。

3大數(shù)據(jù)質(zhì)量挑戰(zhàn)

大數(shù)據(jù)的準(zhǔn)確性、完整性、冗余性、可讀性、可訪問(wèn)性、一致性、信任度是主要的數(shù)據(jù)和大數(shù)據(jù)質(zhì)量因素。每個(gè)因素都與一個(gè)或多個(gè)必須滿足的質(zhì)量標(biāo)準(zhǔn)相關(guān)聯(lián),以滿足質(zhì)量因素。

此外,對(duì)于大數(shù)據(jù)開發(fā)人員來(lái)說(shuō),還有一些特性需要討論,這些特性是:準(zhǔn)確性;數(shù)據(jù)源的多樣性和處理的復(fù)雜性是評(píng)估大數(shù)據(jù)質(zhì)量的一個(gè)挑戰(zhàn)??勺冃?大數(shù)據(jù)類型和格式的變化可能導(dǎo)致質(zhì)量的巨大差異??赡苄枰~外的工作和資源來(lái)識(shí)別、處理和過(guò)濾低質(zhì)量的數(shù)據(jù),以減少工作量和成本增加數(shù)據(jù)的有用性。價(jià)值;大數(shù)據(jù)在處理和過(guò)濾大數(shù)據(jù)時(shí)所傳遞的價(jià)值是什么?這個(gè)問(wèn)題是大數(shù)據(jù)分析師面臨的主要挑戰(zhàn)。大數(shù)據(jù)質(zhì)量的衡量不僅僅是數(shù)據(jù)質(zhì)量,數(shù)據(jù)質(zhì)量管理(DQM)也是一個(gè)必須考慮的質(zhì)量挑戰(zhàn),DQM在大數(shù)據(jù)質(zhì)量度量中起著關(guān)鍵的作用,大數(shù)據(jù)生命周期的每個(gè)階段都必須根據(jù)一些質(zhì)量規(guī)則來(lái)衡量。

大數(shù)據(jù)的生存周期圖如圖1所示,而DQM有五個(gè)主要步驟,可總結(jié)如下:

1)人員:項(xiàng)目經(jīng)理、組織變革經(jīng)理、業(yè)務(wù)/數(shù)據(jù)分析師是任何數(shù)據(jù)質(zhì)量管理的關(guān)鍵角色;

2)數(shù)據(jù)分析:數(shù)據(jù)審查、比較、報(bào)告和統(tǒng)計(jì)分析,以檢查數(shù)據(jù)的準(zhǔn)確性或找到使用可用數(shù)據(jù)的最佳方法;

3)定義數(shù)據(jù)質(zhì)量:在此階段創(chuàng)建并定義數(shù)據(jù)的質(zhì)量規(guī)則;

4)數(shù)據(jù)報(bào)告:刪除和報(bào)告所有泄露數(shù)據(jù);

5)數(shù)據(jù)修復(fù):在這個(gè)階段,修復(fù)和更改數(shù)據(jù)的最佳方法。

大數(shù)據(jù)生命周期也引入了質(zhì)量因素和需要衡量的問(wèn)題。因此,大數(shù)據(jù)的質(zhì)量因素包括關(guān)注數(shù)據(jù)本身以及大數(shù)據(jù)管理和用戶需求的因素。

外國(guó)學(xué)者曾做過(guò)一項(xiàng)關(guān)于大數(shù)據(jù)的品質(zhì)因素研究,在這項(xiàng)研究中,這些品質(zhì)因素被分為四類,取決于他們的視角,這些類別是:

數(shù)據(jù)透視圖:關(guān)注數(shù)據(jù)質(zhì)量因素,這些與通常的數(shù)據(jù)質(zhì)量因素非常相似;

管理視角:如何從管理的角度處理數(shù)據(jù);

處理和服務(wù)視角:如何使用和分析數(shù)據(jù);

最后是用戶視角:如何將這些大數(shù)據(jù)交付給目標(biāo)用戶并使其可視化。

一個(gè)國(guó)外的研究小組曾經(jīng)也進(jìn)行了四個(gè)獨(dú)立的、特定領(lǐng)域的大數(shù)據(jù)應(yīng)用案例研究。這些案例研究是對(duì)大數(shù)據(jù)收集中遇到的數(shù)據(jù)質(zhì)量問(wèn)題是否與傳統(tǒng)規(guī)模的數(shù)據(jù)收集中遇到的數(shù)據(jù)質(zhì)量問(wèn)題在原因、表現(xiàn)形式或檢測(cè)方面有本質(zhì)不同的問(wèn)題進(jìn)行的初步調(diào)查。這項(xiàng)研究從多個(gè)層面探討了影響大數(shù)據(jù)質(zhì)量的幾個(gè)因素,包括收集、處理和存儲(chǔ)。這項(xiàng)研究的主要發(fā)現(xiàn)強(qiáng)調(diào)了影響大數(shù)據(jù)的主要因素在于在保持?jǐn)?shù)據(jù)完整性的同時(shí)處理大數(shù)據(jù)的局限性和復(fù)雜性。這些關(guān)注點(diǎn)比數(shù)據(jù)的來(lái)源、處理以及用于準(zhǔn)備、操作和存儲(chǔ)數(shù)據(jù)的工具更重要。數(shù)據(jù)質(zhì)量對(duì)于所有的數(shù)據(jù)分析問(wèn)題都非常重要。從研究結(jié)果來(lái)看,“關(guān)于大數(shù)據(jù)的真相”是在大數(shù)據(jù)分析項(xiàng)目中沒(méi)有根本上新的“數(shù)據(jù)質(zhì)量”問(wèn)題。不過(guò),一些“數(shù)據(jù)質(zhì)量”問(wèn)題表現(xiàn)出規(guī)?;貓?bào)效應(yīng),在大數(shù)據(jù)分析中或多或少變得明顯。大數(shù)據(jù)質(zhì)量因不同類型的大數(shù)據(jù)和不同的大數(shù)據(jù)技術(shù)而異。

4結(jié)論

在本文中,主要對(duì)大數(shù)據(jù)質(zhì)量因素進(jìn)行了討論。得出大數(shù)據(jù)的質(zhì)量不僅與數(shù)據(jù)本身有關(guān),而且還

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論