大數(shù)據(jù)研究綜述_第1頁(yè)
大數(shù)據(jù)研究綜述_第2頁(yè)
大數(shù)據(jù)研究綜述_第3頁(yè)
大數(shù)據(jù)研究綜述_第4頁(yè)
大數(shù)據(jù)研究綜述_第5頁(yè)
已閱讀5頁(yè),還剩4頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)研究綜述摘要:從大數(shù)據(jù)基本理論,大數(shù)據(jù)存儲(chǔ)與分析處理技術(shù)和大數(shù)據(jù)應(yīng)用研究三個(gè)角度說(shuō)明當(dāng)前研究熱點(diǎn),重點(diǎn)比較當(dāng)前大數(shù)據(jù)處理工具的優(yōu)缺點(diǎn),并深入歸納總結(jié)了基于數(shù)據(jù)存儲(chǔ)大數(shù)據(jù)處理技術(shù),對(duì)未來(lái)研究進(jìn)行展望。關(guān)鍵詞:大數(shù)據(jù),綜述,數(shù)據(jù)處理,數(shù)據(jù)挖掘引言現(xiàn)代社會(huì)提到大數(shù)據(jù)大家都知道這是近幾年才形成的對(duì)于數(shù)據(jù)相關(guān)的新名詞,在1980年,,著名未來(lái)學(xué)家阿爾文·托夫勒便在《第三次浪潮》一書(shū)中,將大數(shù)據(jù)熱情地贊頌為“第三次浪潮的華彩樂(lè)章”。在20世紀(jì)80年代我國(guó)已經(jīng)有一些專(zhuān)家學(xué)者談到了海量數(shù)據(jù)的加工和管理,但是由于計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)技術(shù)的限制大數(shù)據(jù)未能引起足夠的重視,它蘊(yùn)藏的巨大信息資源也暫時(shí)隱藏了起來(lái)。隨著云計(jì)算技術(shù)的發(fā)展,互聯(lián)網(wǎng)的應(yīng)用越來(lái)越廣泛,以微博和博客為代表的新型社交網(wǎng)絡(luò)的出現(xiàn)和快速發(fā)展,以及以智能手機(jī)、平板電腦為代表的新型移動(dòng)設(shè)備的出現(xiàn),計(jì)算機(jī)應(yīng)用產(chǎn)生的數(shù)據(jù)量呈現(xiàn)了爆炸性增長(zhǎng)的趨勢(shì)。2012年末出版的《大數(shù)據(jù)時(shí)代》的作者英國(guó)牛津大學(xué)網(wǎng)絡(luò)學(xué)院互聯(lián)網(wǎng)研究所治理與監(jiān)管專(zhuān)業(yè)教授維克托·爾耶·舍恩伯格在書(shū)的引言中說(shuō),大數(shù)據(jù)正在改變?nèi)藗兊纳钜约袄斫馐澜绲姆绞?,而更多的改變正蓄?shì)待發(fā)。美國(guó)總統(tǒng)奧巴馬的成功競(jìng)選及連任的背后都有大數(shù)據(jù)挖掘的支撐,美國(guó)政府認(rèn)為,大數(shù)據(jù)是“未來(lái)的新石油”,并將對(duì)大數(shù)據(jù)的研究上升為國(guó)家意志,這對(duì)未來(lái)的科技與經(jīng)濟(jì)發(fā)展必將帶來(lái)深遠(yuǎn)影響[1]。如今,大數(shù)據(jù)已成為一項(xiàng)業(yè)務(wù)上優(yōu)先考慮的工作任務(wù),因?yàn)樗軌驅(qū)θ蛘辖?jīng)濟(jì)時(shí)代的商務(wù)產(chǎn)生深遠(yuǎn)的影響。大數(shù)據(jù)的應(yīng)用范圍如此廣泛,與大數(shù)據(jù)相關(guān)的很多問(wèn)題都引起了專(zhuān)家和學(xué)者的重視。大數(shù)據(jù)最基本的問(wèn)題-大數(shù)據(jù)的定義目前還沒(méi)有一個(gè)統(tǒng)一的定論,但大數(shù)據(jù)作為一種基礎(chǔ)性資源需要被處理才能顯現(xiàn)其潛在的價(jià)值,那么如何更好地處理大數(shù)據(jù)這種基礎(chǔ)性資源就顯得特別重要,因?yàn)檫@些問(wèn)題都關(guān)系到大數(shù)據(jù)核心價(jià)值的體現(xiàn)。為此,本文從大數(shù)據(jù)若干個(gè)版本的概念出發(fā),調(diào)查分析了大數(shù)據(jù)的研究和應(yīng)用現(xiàn)狀,重點(diǎn)分析了當(dāng)前主流的大數(shù)據(jù)處理工具和技術(shù),最后預(yù)測(cè)了大數(shù)據(jù)未來(lái)的幾個(gè)研究和發(fā)展方向。大數(shù)據(jù)的概念從學(xué)術(shù)上來(lái)講,大數(shù)據(jù)一次最貼切的概念最早出現(xiàn)在2008《Nature》雜志所設(shè)立的“BigData”專(zhuān)刊中,該專(zhuān)刊所發(fā)表的文章分別從互聯(lián)網(wǎng),數(shù)據(jù)管理及生物醫(yī)藥信息等角度介紹大數(shù)據(jù)所帶來(lái)的機(jī)遇與挑戰(zhàn)。2008年《Science》雜志出版的專(zhuān)刊中,大數(shù)據(jù)被定義為“代表著人類(lèi)認(rèn)知過(guò)程的進(jìn)步,數(shù)據(jù)集的規(guī)模是無(wú)法在可容忍的時(shí)間內(nèi)用目前的技術(shù)、方法和理論去獲取、管理、處理的數(shù)據(jù)”[2]。比較有影響力的Gartner公司也給出了大數(shù)據(jù)的定義[3],大數(shù)據(jù)是高容量、高生成速率、種類(lèi)繁多的信息價(jià)值,同時(shí)需要新的處理形式去確保判斷的作出、洞察力的發(fā)現(xiàn)和處理的優(yōu)化。這種定義不僅是數(shù)據(jù)規(guī)模大,更重要的是如何從這些動(dòng)態(tài)快速生成的數(shù)據(jù)流或數(shù)據(jù)塊中獲取有用的具有時(shí)效性?xún)r(jià)值的信息,但是這些數(shù)據(jù)類(lèi)型眾多,結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù)對(duì)已有的數(shù)據(jù)處理模式帶來(lái)了巨大的挑戰(zhàn),其中也體現(xiàn)了大數(shù)據(jù)在3V基礎(chǔ)上發(fā)展的4V定義。4V定義即volume,variety,velocity,value,關(guān)于第4個(gè)V的說(shuō)法并不統(tǒng)一,國(guó)際數(shù)據(jù)公司(InternationalDataCorporation,IDC)認(rèn)為大數(shù)據(jù)還應(yīng)當(dāng)具有價(jià)值性(value)[4],大數(shù)據(jù)的價(jià)值往往呈現(xiàn)出稀疏性的特點(diǎn);而IBM認(rèn)為大數(shù)據(jù)必然具有真實(shí)性(veracity)[5],這樣有利于建立一種信任機(jī)制,有利于領(lǐng)導(dǎo)者的決策。百度百科對(duì)大數(shù)據(jù)的定義是:大數(shù)據(jù)(bigdata),或稱(chēng)巨量資料,指的是所涉及的資料量規(guī)模巨大到無(wú)法透過(guò)目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理并整理成為幫助企業(yè)經(jīng)營(yíng)決策更積極目的的資訊。大數(shù)據(jù)的科學(xué)家Rauser提到一個(gè)簡(jiǎn)單的定義:大數(shù)據(jù)就是超過(guò)了任何一個(gè)計(jì)算機(jī)處理能力的龐大數(shù)據(jù)量。大數(shù)據(jù)的研究與應(yīng)用現(xiàn)狀雖然大數(shù)據(jù)的概念沒(méi)有一個(gè)統(tǒng)一的定論,但這對(duì)于大數(shù)據(jù)的研究而言并不是最重要的,如何使用大數(shù)據(jù)才是關(guān)鍵。研究大數(shù)據(jù)其實(shí)也就是為了更好地應(yīng)用大數(shù)據(jù),所以國(guó)內(nèi)外對(duì)大數(shù)據(jù)的研究與應(yīng)用都相當(dāng)重視。事實(shí)上,大數(shù)據(jù)的研究與應(yīng)用已經(jīng)在互聯(lián)網(wǎng)、商業(yè)智能、咨詢(xún)與服務(wù)以及醫(yī)療服務(wù)、零售業(yè)、金融業(yè)、通信等行業(yè)顯現(xiàn),并產(chǎn)生了巨大的社會(huì)價(jià)值和產(chǎn)業(yè)空間。來(lái)自麥肯錫2012年大數(shù)據(jù)報(bào)告中的一組數(shù)據(jù)顯示,大數(shù)據(jù)產(chǎn)業(yè)為美國(guó)醫(yī)療系統(tǒng)帶來(lái)每年3000交網(wǎng)絡(luò)的代表,F(xiàn)aceBook也在變革著自己原來(lái)的存儲(chǔ)技術(shù)。Facebook推出了海量小文件的文件處理系統(tǒng)Haystack,同時(shí)Facebook還結(jié)合自己的應(yīng)用場(chǎng)景提出了實(shí)時(shí)的Hadoop系統(tǒng)。為了改善MapReduce的易用性,F(xiàn)acebook提出了基于Hadoop的大型數(shù)據(jù)倉(cāng)庫(kù)Hive,它的目標(biāo)就是簡(jiǎn)化Hadoop上的數(shù)據(jù)聚集、Adhoc查詢(xún)和大數(shù)據(jù)的分析等操作?;诓樵?xún)的大數(shù)據(jù)處理技術(shù)在大數(shù)據(jù)的處理過(guò)程中,數(shù)據(jù)分析是關(guān)鍵,數(shù)據(jù)分析主要是依賴(lài)于數(shù)據(jù)分析工具。一種新奇的大數(shù)據(jù)分析方法———危險(xiǎn)理論(dangertheory),這種危險(xiǎn)理論是來(lái)源于生物免疫系統(tǒng),但又不同于傳統(tǒng)的人工免疫系統(tǒng)。在關(guān)鍵特征和屬性的選擇上引入危險(xiǎn)理論,主要是被用做數(shù)據(jù)過(guò)濾策略,可提高數(shù)據(jù)分析的效率。在危險(xiǎn)理論中關(guān)注的是潛在危險(xiǎn),捕捉危險(xiǎn)信號(hào),用數(shù)值微分法判斷危險(xiǎn)信號(hào)。這個(gè)處理模型與之前的編程處理模型相比具有自學(xué)習(xí)能力和智能性,它在數(shù)據(jù)的預(yù)處理階段有明顯的效果,更適合于快速的數(shù)據(jù)過(guò)濾。大數(shù)據(jù)的研究與發(fā)展方向盡管大數(shù)據(jù)的時(shí)代已經(jīng)到來(lái),各界也發(fā)現(xiàn)了大數(shù)據(jù)的巨大價(jià)值,但是大數(shù)據(jù)的研究還處在初始階段。隨著研究的不斷深入,大數(shù)據(jù)所面臨的問(wèn)題也越來(lái)越多,如何讓大數(shù)據(jù)朝著有利于全社會(huì)的方向發(fā)展就需要全面地研究大數(shù)據(jù),以下是幾種可能的大數(shù)據(jù)未來(lái)的研究與發(fā)展方向。關(guān)系數(shù)據(jù)庫(kù)和非關(guān)系數(shù)據(jù)庫(kù)的融合眾所周知,關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)在數(shù)據(jù)分析中占據(jù)著主要地位,但是隨著后來(lái)半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的大量涌現(xiàn),關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)就無(wú)所適從了。而類(lèi)似于MapReduce的大數(shù)據(jù)處理工具在容錯(cuò)性、可擴(kuò)展性、數(shù)據(jù)的移動(dòng)性上明顯優(yōu)于關(guān)系數(shù)據(jù)庫(kù)系統(tǒng),但在處理數(shù)據(jù)的實(shí)時(shí)性能上,MapReduce與RDBMS相比還有一定的差距。關(guān)系數(shù)據(jù)庫(kù)和非關(guān)系數(shù)據(jù)庫(kù)各有所長(zhǎng),如果在以后的大數(shù)據(jù)的研究處理過(guò)程中,能將關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)和分布式并行處理系統(tǒng)進(jìn)行有效的結(jié)合,而不是將二者明顯地區(qū)分開(kāi)來(lái),那么大數(shù)據(jù)的分析效率將在很大程度上得到提高。數(shù)據(jù)的不確定性與數(shù)據(jù)質(zhì)量大數(shù)據(jù),顧名思義是數(shù)據(jù)量非常大,如何從這些龐大的數(shù)據(jù)量中提取到盡可能多的有用信息就涉及到數(shù)據(jù)質(zhì)量的問(wèn)題。在網(wǎng)絡(luò)環(huán)境下,不確定性的數(shù)據(jù)廣泛存在,并且表現(xiàn)形式多樣,這樣大數(shù)據(jù)在演化的過(guò)程中也伴隨著不確定性。網(wǎng)絡(luò)大數(shù)據(jù)的不確定性,其實(shí)大數(shù)據(jù)的不確定性不僅僅適用于網(wǎng)絡(luò)大數(shù)據(jù),對(duì)一般大數(shù)據(jù)而言也存在這種不確定性。大數(shù)據(jù)的不確定性要求人們?cè)谔幚頂?shù)據(jù)時(shí)也要應(yīng)對(duì)這種不確定性,包括數(shù)據(jù)的收集、存儲(chǔ)、建模、分析都需要新的方法來(lái)應(yīng)對(duì)。這樣也給學(xué)習(xí)者和研究者帶來(lái)了很大的挑戰(zhàn),數(shù)據(jù)質(zhì)量就很難得到保證,況且大數(shù)據(jù)的研究領(lǐng)域尚淺,本身就有很多亟待解決的問(wèn)題。面對(duì)不斷快速產(chǎn)生的數(shù)據(jù),在數(shù)據(jù)分析的過(guò)程中很難保證有效的數(shù)據(jù)不丟失,而這種有效的數(shù)據(jù)才是大數(shù)據(jù)的價(jià)值所在,也是數(shù)據(jù)質(zhì)量的體現(xiàn)。所以需要研究出一種新的計(jì)算模式,一種高效的計(jì)算模型和方法,這樣數(shù)據(jù)的質(zhì)量和數(shù)據(jù)的時(shí)效性才能有所保證。中幾位從事大數(shù)據(jù)研究的專(zhuān)家也強(qiáng)調(diào)了數(shù)據(jù)質(zhì)量的重要性,中國(guó)工程院院士、西安交通大學(xué)教授汪應(yīng)洛認(rèn)為,在大數(shù)據(jù)產(chǎn)業(yè)發(fā)展中,數(shù)據(jù)質(zhì)量也是一大障礙,不容忽視,他說(shuō)“數(shù)據(jù)質(zhì)量是大數(shù)據(jù)產(chǎn)業(yè)這座大廈的基礎(chǔ),如果數(shù)據(jù)質(zhì)量不高,基礎(chǔ)不牢靠,大數(shù)據(jù)產(chǎn)業(yè)就可能岌岌可危,甚至根本無(wú)從發(fā)展?!彼蕴幚砗么髷?shù)據(jù)的不確定性、提高數(shù)據(jù)質(zhì)量是大數(shù)據(jù)研究中的重中之重??珙I(lǐng)域的數(shù)據(jù)處理方法的可移植性大數(shù)據(jù)自身的特點(diǎn)決定了大數(shù)據(jù)處理方法的多樣性、靈活性和廣泛性。而今幾乎每個(gè)領(lǐng)域都有涉及到大數(shù)據(jù),在分析處理大數(shù)據(jù)的建模過(guò)程中除了要考慮大數(shù)據(jù)的特點(diǎn)外還可以結(jié)合其他領(lǐng)域的一些原理模型,生物免疫系統(tǒng)的計(jì)算模型去處理大數(shù)據(jù)中的關(guān)鍵屬性的選擇。還有統(tǒng)計(jì)學(xué)中的統(tǒng)計(jì)分析模型,特別是對(duì)原始數(shù)據(jù)的統(tǒng)計(jì)和計(jì)量,音頻、視頻、照片等重要信息。廣泛吸納其他研究領(lǐng)域的原理模型,然后進(jìn)行有效的結(jié)合,從而提高大數(shù)據(jù)處理的效率,這可能會(huì)成為以后大數(shù)據(jù)分析處理的重要方法。大數(shù)據(jù)的預(yù)測(cè)性作用日益凸顯提及大數(shù)據(jù),它的作用自然是不言而喻,也有不少專(zhuān)家進(jìn)行了總結(jié),大數(shù)據(jù)有變革價(jià)值的力量、大數(shù)據(jù)有變革經(jīng)濟(jì)的潛力、大數(shù)據(jù)有變革組織的潛能。但是從很多大數(shù)據(jù)的應(yīng)用案例分析不難發(fā)現(xiàn),無(wú)論是大數(shù)據(jù)的研究者還是普通人,大數(shù)據(jù)給人們帶來(lái)的最直接的利益就是對(duì)未來(lái)的預(yù)見(jiàn)。氣象部門(mén)可以根據(jù)氣象數(shù)據(jù)預(yù)測(cè)未來(lái)的天氣變化;經(jīng)銷(xiāo)商可根據(jù)商品的銷(xiāo)量分析客戶(hù)的喜好從而制定未來(lái)的采購(gòu)計(jì)劃及時(shí)調(diào)整經(jīng)營(yíng)模式,增加利潤(rùn);通信部門(mén)通過(guò)對(duì)大數(shù)據(jù)的分析實(shí)時(shí)了解市場(chǎng)行情,從而作出合理決策。由已知推測(cè)未知,通過(guò)大數(shù)據(jù)可以提高對(duì)未知預(yù)測(cè)的可靠性和精準(zhǔn)性,這對(duì)整個(gè)人類(lèi)來(lái)說(shuō)都是一種進(jìn)步。大數(shù)據(jù)已經(jīng)涉及到生活的各個(gè)領(lǐng)域,對(duì)于大數(shù)據(jù)的研究涉及的領(lǐng)域也很廣。與人們直接利益相關(guān)的大數(shù)據(jù)的能耗、安全、隱私保護(hù)等都受到了很多企業(yè)和個(gè)人的關(guān)注,還有更多未知的領(lǐng)域也不例外。本文主要是在對(duì)大數(shù)據(jù)處理工具和處理技術(shù)對(duì)比分析的基礎(chǔ)上給出了大數(shù)據(jù)未來(lái)幾個(gè)可能的研究和發(fā)展方向:關(guān)系數(shù)據(jù)庫(kù)和非關(guān)系數(shù)據(jù)庫(kù)的融合、數(shù)據(jù)的不確定性和數(shù)據(jù)質(zhì)量、跨領(lǐng)域的數(shù)據(jù)處理方法的可移植性、大數(shù)據(jù)的預(yù)測(cè)性作用日益凸顯。大數(shù)據(jù)的發(fā)展尚在起步階段,需要人們不斷開(kāi)拓的空間很大,如何高效地處理大數(shù)據(jù)、合理地利用大數(shù)據(jù)仍需要不斷地探索發(fā)現(xiàn)。參考文獻(xiàn):[1]李國(guó)杰,程學(xué)旗.大數(shù)據(jù)研究:未來(lái)科技及經(jīng)濟(jì)社會(huì)發(fā)展的重大戰(zhàn)略領(lǐng)域———大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考[J].中國(guó)科學(xué)院院刊,2012,27(6):647-657.[2]GRAHAM-ROWED,GOLDSTOND,DOCTOROWC,etal.Bigdata:scienceinthepetabyteera[J].Nature,2008,455(7209):8-9.[3]JIChang-qing,LIYu,QIUWen-ming,etal.Bigdataprocessingincloudcomputingenvironments[C]//Procofthe12thInternationalSymposiumonPervasiveSystems,AlgorithmsandNetworks.2012:17-23.[4]BARWICKH.The“fourVs”ofbigdata[EB/OL].(2011-08-05)[2012-10-02].http:/

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論