下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
大數(shù)據(jù)的質(zhì)量問(wèn)題分析獲獎(jiǎng)科研報(bào)告【摘要】如今,大數(shù)據(jù)是一種不斷增長(zhǎng)的技術(shù)。大數(shù)據(jù)有很多用途;人工智能、醫(yī)療保健、商業(yè)等等。因此,有必要對(duì)所獲取的大量數(shù)據(jù)進(jìn)行預(yù)處理與分析,以確保使用和生成的數(shù)據(jù)具有更高的質(zhì)量。如果想擁有較高質(zhì)量的大數(shù)據(jù),那么它的獲取規(guī)則、管理架構(gòu)等條件必須得到滿足。本文從數(shù)據(jù)本身、數(shù)據(jù)管理、數(shù)據(jù)處理和數(shù)據(jù)用戶的角度出發(fā),提出了需要測(cè)量的主要大數(shù)據(jù)質(zhì)量因素。這項(xiàng)研究強(qiáng)調(diào)了質(zhì)量因素,這些因素在以后可能會(huì)用于創(chuàng)建不同的大數(shù)據(jù)質(zhì)量模型。
【關(guān)鍵詞】大數(shù)據(jù)、數(shù)據(jù)質(zhì)量、回歸規(guī)模
1引言
大數(shù)據(jù)概念已經(jīng)使用了這么多年,研究人員在1944年以“信息爆炸”的名義開始注意到它。在信息技術(shù)領(lǐng)域,“大數(shù)據(jù)”一詞最早是在1980年由CharlesTelly使用的。TimO'Reilly在2005年定義了我們今天所知道的術(shù)語(yǔ)“大數(shù)據(jù)”。這一術(shù)語(yǔ)將于2013年出現(xiàn)在牛津詞典中。此后,許多研究者從定義、應(yīng)用、技術(shù)、工具和質(zhì)量等方面對(duì)“大數(shù)據(jù)”進(jìn)行了討論。而現(xiàn)在的大數(shù)據(jù)是一個(gè)術(shù)語(yǔ),用來(lái)描述一個(gè)企業(yè)或系統(tǒng)日常的大量數(shù)據(jù),它可以是結(jié)構(gòu)化的、半結(jié)構(gòu)化的或非結(jié)構(gòu)化的。
軟件質(zhì)量是軟件開發(fā)的一個(gè)基本過(guò)程。它是“軟件產(chǎn)品滿足既定需求的程度;然而,質(zhì)量取決于這些既定需求準(zhǔn)確表示涉眾需求、愿望和期望的程度”。數(shù)據(jù),作為任何軟件產(chǎn)品的四大支柱之一,它必須盡可能高質(zhì)量,以確保它不會(huì)在系統(tǒng)中產(chǎn)生任何故障或失效。本文主要對(duì)大數(shù)據(jù)的質(zhì)量因素和問(wèn)題進(jìn)行了討論,以幫助大數(shù)據(jù)生產(chǎn)者,分析師和用戶衡量他們的大數(shù)據(jù)質(zhì)量。
2大數(shù)據(jù)基本特征
如今,大數(shù)據(jù)涉及許多領(lǐng)域,如社交媒體、人工智能、機(jī)器學(xué)習(xí)、醫(yī)療保健、電力和核系統(tǒng)等等。2001年,DougLaney[8]提出了大數(shù)據(jù)的三大主要特征,后來(lái)被稱為“大數(shù)據(jù)的三個(gè)V”:
1、容量(Volume):大數(shù)據(jù),顧名思義,是需要處理和存儲(chǔ)的海量數(shù)據(jù);
2、速度(Velocity):是通過(guò)系統(tǒng)移動(dòng)數(shù)據(jù)的速度。面對(duì)如此龐大的數(shù)據(jù)量,移動(dòng)數(shù)據(jù)是一個(gè)巨大的挑戰(zhàn);
3、多樣性(Variety):大數(shù)據(jù)是不同類型數(shù)據(jù)(圖像、視頻、音頻、文本等)的巨大集合。此外,收集的數(shù)據(jù)的格式和呈現(xiàn)方式也不同。
大數(shù)據(jù)的特點(diǎn)和應(yīng)用提出了大數(shù)據(jù)質(zhì)量問(wèn)題。任何將要使用它的應(yīng)用程序都必須確保數(shù)據(jù)具有高質(zhì)量標(biāo)準(zhǔn),這是生成良好質(zhì)量系統(tǒng)的強(qiáng)制性要求。主要考慮大數(shù)據(jù)的質(zhì)量因素與傳統(tǒng)數(shù)據(jù)集相同。此外,一些額外的質(zhì)量因素,處理大量的數(shù)據(jù),如數(shù)據(jù)管理和修復(fù)。
在以往的研究中,大多數(shù)研究者都討論了傳統(tǒng)數(shù)據(jù)的質(zhì)量因素。然而,傳統(tǒng)數(shù)據(jù)與大數(shù)據(jù)有許多相似的質(zhì)量因素,它們?cè)谫|(zhì)量應(yīng)用和度量上存在差異。
在文獻(xiàn)[2-3]中,研究人員描述了網(wǎng)站數(shù)據(jù)的六個(gè)質(zhì)量評(píng)估標(biāo)準(zhǔn):權(quán)威性、準(zhǔn)確性、客觀性、通用性、覆蓋率/預(yù)期受眾和交互/交易特征。另一位研究人員討論了網(wǎng)絡(luò)數(shù)據(jù)質(zhì)量,并與用戶進(jìn)行測(cè)試,以確定每種數(shù)據(jù)的重要性級(jí)別。另一位研究人員提出了六個(gè)質(zhì)量指標(biāo),包括貨幣、可用性、信息噪音比、權(quán)威性、流行性和凝聚力,以進(jìn)行調(diào)查。文獻(xiàn)[4]中引入了一個(gè)新的質(zhì)量模型,稱為IQIP(Identify,Quantify,Implement,andPerfect)。他們總結(jié)了最常見(jiàn)的不同的數(shù)據(jù)質(zhì)量/信息質(zhì)量框架。該模型作為一種管理互聯(lián)網(wǎng)爬蟲搜索引擎質(zhì)量相關(guān)算法的選擇和實(shí)現(xiàn)的方法。
3大數(shù)據(jù)質(zhì)量挑戰(zhàn)
大數(shù)據(jù)的準(zhǔn)確性、完整性、冗余性、可讀性、可訪問(wèn)性、一致性、信任度是主要的數(shù)據(jù)和大數(shù)據(jù)質(zhì)量因素。每個(gè)因素都與一個(gè)或多個(gè)必須滿足的質(zhì)量標(biāo)準(zhǔn)相關(guān)聯(lián),以滿足質(zhì)量因素。
此外,對(duì)于大數(shù)據(jù)開發(fā)人員來(lái)說(shuō),還有一些特性需要討論,這些特性是:準(zhǔn)確性;數(shù)據(jù)源的多樣性和處理的復(fù)雜性是評(píng)估大數(shù)據(jù)質(zhì)量的一個(gè)挑戰(zhàn)??勺冃?大數(shù)據(jù)類型和格式的變化可能導(dǎo)致質(zhì)量的巨大差異??赡苄枰~外的工作和資源來(lái)識(shí)別、處理和過(guò)濾低質(zhì)量的數(shù)據(jù),以減少工作量和成本增加數(shù)據(jù)的有用性。價(jià)值;大數(shù)據(jù)在處理和過(guò)濾大數(shù)據(jù)時(shí)所傳遞的價(jià)值是什么?這個(gè)問(wèn)題是大數(shù)據(jù)分析師面臨的主要挑戰(zhàn)。大數(shù)據(jù)質(zhì)量的衡量不僅僅是數(shù)據(jù)質(zhì)量,數(shù)據(jù)質(zhì)量管理(DQM)也是一個(gè)必須考慮的質(zhì)量挑戰(zhàn),DQM在大數(shù)據(jù)質(zhì)量度量中起著關(guān)鍵的作用,大數(shù)據(jù)生命周期的每個(gè)階段都必須根據(jù)一些質(zhì)量規(guī)則來(lái)衡量。
大數(shù)據(jù)的生存周期圖如圖1所示,而DQM有五個(gè)主要步驟,可總結(jié)如下:
1)人員:項(xiàng)目經(jīng)理、組織變革經(jīng)理、業(yè)務(wù)/數(shù)據(jù)分析師是任何數(shù)據(jù)質(zhì)量管理的關(guān)鍵角色;
2)數(shù)據(jù)分析:數(shù)據(jù)審查、比較、報(bào)告和統(tǒng)計(jì)分析,以檢查數(shù)據(jù)的準(zhǔn)確性或找到使用可用數(shù)據(jù)的最佳方法;
3)定義數(shù)據(jù)質(zhì)量:在此階段創(chuàng)建并定義數(shù)據(jù)的質(zhì)量規(guī)則;
4)數(shù)據(jù)報(bào)告:刪除和報(bào)告所有泄露數(shù)據(jù);
5)數(shù)據(jù)修復(fù):在這個(gè)階段,修復(fù)和更改數(shù)據(jù)的最佳方法。
大數(shù)據(jù)生命周期也引入了質(zhì)量因素和需要衡量的問(wèn)題。因此,大數(shù)據(jù)的質(zhì)量因素包括關(guān)注數(shù)據(jù)本身以及大數(shù)據(jù)管理和用戶需求的因素。
外國(guó)學(xué)者曾做過(guò)一項(xiàng)關(guān)于大數(shù)據(jù)的品質(zhì)因素研究,在這項(xiàng)研究中,這些品質(zhì)因素被分為四類,取決于他們的視角,這些類別是:
數(shù)據(jù)透視圖:關(guān)注數(shù)據(jù)質(zhì)量因素,這些與通常的數(shù)據(jù)質(zhì)量因素非常相似;
管理視角:如何從管理的角度處理數(shù)據(jù);
處理和服務(wù)視角:如何使用和分析數(shù)據(jù);
最后是用戶視角:如何將這些大數(shù)據(jù)交付給目標(biāo)用戶并使其可視化。
一個(gè)國(guó)外的研究小組曾經(jīng)也進(jìn)行了四個(gè)獨(dú)立的、特定領(lǐng)域的大數(shù)據(jù)應(yīng)用案例研究。這些案例研究是對(duì)大數(shù)據(jù)收集中遇到的數(shù)據(jù)質(zhì)量問(wèn)題是否與傳統(tǒng)規(guī)模的數(shù)據(jù)收集中遇到的數(shù)據(jù)質(zhì)量問(wèn)題在原因、表現(xiàn)形式或檢測(cè)方面有本質(zhì)不同的問(wèn)題進(jìn)行的初步調(diào)查。這項(xiàng)研究從多個(gè)層面探討了影響大數(shù)據(jù)質(zhì)量的幾個(gè)因素,包括收集、處理和存儲(chǔ)。這項(xiàng)研究的主要發(fā)現(xiàn)強(qiáng)調(diào)了影響大數(shù)據(jù)的主要因素在于在保持?jǐn)?shù)據(jù)完整性的同時(shí)處理大數(shù)據(jù)的局限性和復(fù)雜性。這些關(guān)注點(diǎn)比數(shù)據(jù)的來(lái)源、處理以及用于準(zhǔn)備、操作和存儲(chǔ)數(shù)據(jù)的工具更重要。數(shù)據(jù)質(zhì)量對(duì)于所有的數(shù)據(jù)分析問(wèn)題都非常重要。從研究結(jié)果來(lái)看,“關(guān)于大數(shù)據(jù)的真相”是在大數(shù)據(jù)分析項(xiàng)目中沒(méi)有根本上新的“數(shù)據(jù)質(zhì)量”問(wèn)題。不過(guò),一些“數(shù)據(jù)質(zhì)量”問(wèn)題表現(xiàn)出規(guī)?;貓?bào)效應(yīng),在大數(shù)據(jù)分析中或多或少變得明顯。大數(shù)據(jù)質(zhì)量因不同類型的大數(shù)據(jù)和不同的大數(shù)據(jù)技術(shù)而異。
4結(jié)論
在本文中,主要對(duì)大數(shù)據(jù)質(zhì)量因素進(jìn)行了討論。得出大數(shù)據(jù)的質(zhì)量不僅與數(shù)據(jù)本身有關(guān),而且還
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 幼兒園地方樂(lè)曲課程設(shè)計(jì)
- 二零二五年度“踩踏式”混戰(zhàn)場(chǎng)地臨時(shí)設(shè)施搭建合同2篇
- 水質(zhì)污染課程設(shè)計(jì)范文
- 2025版跨境電商園區(qū)場(chǎng)地租賃及物流倉(cāng)儲(chǔ)服務(wù)合同3篇
- 二零二五年專用基坑降水勞務(wù)施工合同范本2篇
- 2023年度綠色債券運(yùn)行報(bào)告
- 北京科技大學(xué)《工程定額原理》2023-2024學(xué)年第一學(xué)期期末試卷
- 2025年度辦公設(shè)備智能化采購(gòu)與維護(hù)合同2篇
- 熱電聯(lián)產(chǎn)在工業(yè)園區(qū)能源效率提升的探索考核試卷
- 2025版辦公室裝修與室內(nèi)窗簾清洗服務(wù)合同3篇
- 2024年01月11396藥事管理與法規(guī)(本)期末試題答案
- 裝卸工安全培訓(xùn)課件
- 中成藥學(xué)完整版本
- 2024-2025學(xué)年度廣東省春季高考英語(yǔ)模擬試卷(解析版) - 副本
- 廣東省廣州市2023-2024學(xué)年三年級(jí)上學(xué)期英語(yǔ)期中試卷(含答案)
- DB11T 1282-2022 數(shù)據(jù)中心節(jié)能設(shè)計(jì)規(guī)范
- GB/T 44694-2024群眾性體育賽事活動(dòng)安全評(píng)估工作指南
- 【二年級(jí)】上冊(cè)道德與法治-14 家鄉(xiāng)物產(chǎn)養(yǎng)育我 教學(xué)設(shè)計(jì)(表格式)人教版道德與法治 二年級(jí)上冊(cè)
- 陶笛欣賞課件
- IEC60068系列標(biāo)準(zhǔn)清單
- 廣東省廣州市2023-2024學(xué)年七年級(jí)上學(xué)期期末考試數(shù)學(xué)試題(含答案)
評(píng)論
0/150
提交評(píng)論