大數(shù)據(jù)的概念、流程與關(guān)鍵技術(shù)_第1頁
大數(shù)據(jù)的概念、流程與關(guān)鍵技術(shù)_第2頁
大數(shù)據(jù)的概念、流程與關(guān)鍵技術(shù)_第3頁
大數(shù)據(jù)的概念、流程與關(guān)鍵技術(shù)_第4頁
大數(shù)據(jù)的概念、流程與關(guān)鍵技術(shù)_第5頁
已閱讀5頁,還剩10頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)的概念、流程與關(guān)鍵技術(shù)

隨著移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)和云技術(shù)的快速發(fā)展,云時(shí)代的開始也開始了,大數(shù)據(jù)也越來越受到限制。作為1982年世界預(yù)測(cè)大師和未來學(xué)者約翰納斯比特的著作《新生活》(johnnaisberbam)提到的,“我們現(xiàn)在生產(chǎn)了大量的信息,就像我們以前生產(chǎn)的汽車一樣?!薄叭藗冋噲D沉迷于信息,但他們正在厭倦知識(shí)?!钡阮A(yù)測(cè)已經(jīng)被充分證實(shí),這只表明世界處于信息爆炸的時(shí)代。Internet的出現(xiàn)縮短了人與人、人與世界之間的距離,整個(gè)世界連成一個(gè)“地球村”,人們通過網(wǎng)絡(luò)無障礙交流、交換信息和協(xié)同工作.與此同時(shí),借助Internet的高速發(fā)展、數(shù)據(jù)庫技術(shù)的成熟和普及、高內(nèi)存高性能的存儲(chǔ)設(shè)備和存儲(chǔ)介質(zhì)的出現(xiàn),人類在日常學(xué)習(xí)、生活、工作中產(chǎn)生的數(shù)據(jù)量正以指數(shù)形式增長(zhǎng),呈現(xiàn)“爆炸”狀態(tài).“大數(shù)據(jù)問題”(BigDataProblem)就是在這樣的背景下產(chǎn)生的,成為科研學(xué)術(shù)界和相關(guān)產(chǎn)業(yè)界的熱門話題,并作為信息技術(shù)領(lǐng)域的重要前沿課題之一,吸引著越來越多的科學(xué)家研究大數(shù)據(jù)帶來的相關(guān)問題.著名未來學(xué)家阿爾文·托夫勒在《第三次浪潮》一書中,將大數(shù)據(jù)熱情贊頌為“第三次浪潮的華彩樂章”.著名期刊《Nature》和《Science》針對(duì)大數(shù)據(jù)分別出版了??癇igData”和“DealingwithData”,從互聯(lián)網(wǎng)技術(shù)、互聯(lián)網(wǎng)經(jīng)濟(jì)學(xué)、超級(jí)計(jì)算、環(huán)境科學(xué)、生物醫(yī)藥等多個(gè)方面討論了大數(shù)據(jù)處理面臨的各種問題.2011年5月,全球知名咨詢公司麥肯錫(MckenseyandCompany)在美國(guó)拉斯維加斯舉辦了第11屆EMCWorld年度大會(huì),設(shè)定的主題為“云計(jì)算相遇大數(shù)據(jù)”,發(fā)布了“Bigdata:Thenextfrontierforinnovation,competitionandproductivity”的報(bào)告,首次提出“大數(shù)據(jù)”的概念,并在報(bào)告中指出:“數(shù)據(jù)已經(jīng)滲透到每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,逐漸成為重要的生產(chǎn)因素,而人們對(duì)于海量數(shù)據(jù)的運(yùn)用將預(yù)示著新一波生產(chǎn)率增長(zhǎng)和消費(fèi)者盈余浪潮的到來”.世界經(jīng)濟(jì)論壇(WorldEconomicForum)2012年發(fā)布的“Bigdata,bigimpact:Newpossibilitiesforinternationaldevelopment”報(bào)告,指出了大數(shù)據(jù)的發(fā)展為世界帶來的新機(jī)遇;美國(guó)政府在2012年3月29日發(fā)布了“大數(shù)據(jù)研究發(fā)展倡議”(Bigdataresearchanddevelopmentinitiative),正式啟動(dòng)“大數(shù)據(jù)發(fā)展計(jì)劃”,擬投資2億美元在大數(shù)據(jù)的研究上,以培養(yǎng)更多的大數(shù)據(jù)研發(fā)與應(yīng)用人才;聯(lián)合國(guó)在2012年5月公布了“Challengesandopportunitieswithbigdata”白皮書,分析了大數(shù)據(jù)的處理流程以及可能面臨的挑戰(zhàn);互聯(lián)網(wǎng)數(shù)據(jù)中心(InternetDataCenter,IDC)在2012年5月發(fā)布《中國(guó)互聯(lián)網(wǎng)市場(chǎng)洞見:互聯(lián)網(wǎng)大數(shù)據(jù)技術(shù)創(chuàng)新研究》報(bào)告,報(bào)告中指出大數(shù)據(jù)將引領(lǐng)中國(guó)互聯(lián)網(wǎng)行業(yè)新一輪技術(shù)浪潮.不僅如此,世界范圍內(nèi)對(duì)大數(shù)據(jù)的關(guān)注已從經(jīng)濟(jì)領(lǐng)域上升到了政治領(lǐng)域.美國(guó)總統(tǒng)科技顧問委員會(huì)在2010年就撰寫了一份報(bào)告給當(dāng)時(shí)的奧巴馬總統(tǒng),報(bào)告名為“Designingadigitalfuture:Federallyfundedresearchanddevelopmentinnetworkingandinformationtechnology”,報(bào)告中指出:數(shù)據(jù)正在以指數(shù)形式迅速增長(zhǎng),如何收集、管理和分析數(shù)據(jù)日漸成為網(wǎng)絡(luò)信息研究的重點(diǎn),聯(lián)邦政府的每一個(gè)機(jī)構(gòu)和部門都應(yīng)該制定應(yīng)對(duì)大數(shù)據(jù)的戰(zhàn)略計(jì)劃.同時(shí),美國(guó)聯(lián)邦政府建立統(tǒng)一的門戶開放網(wǎng)站———Data.Gov,開放政府擁有的公共數(shù)據(jù),鼓勵(lì)民眾對(duì)其進(jìn)行自由開發(fā),進(jìn)一步推進(jìn)政府?dāng)?shù)據(jù)開放;美國(guó)政府各部門也紛紛有所行動(dòng),美國(guó)國(guó)家科學(xué)基金委員會(huì)(NSF)、美國(guó)國(guó)家衛(wèi)生研究院(NIH)、美國(guó)能源部(DOE)、美國(guó)國(guó)防部(DOD)、美國(guó)國(guó)防部高級(jí)研究計(jì)劃局(DARPA)、美國(guó)地質(zhì)勘探局(USGS)等6個(gè)部門聯(lián)合推出了大數(shù)據(jù)計(jì)劃,旨在提升從大量復(fù)雜數(shù)據(jù)中獲取知識(shí)和洞見的能力.處于發(fā)展中國(guó)家前列的中國(guó),大數(shù)據(jù)的應(yīng)用處于起步階段.在工信部發(fā)布的物聯(lián)網(wǎng)“十二五”規(guī)劃中,把信息處理技術(shù)作為4項(xiàng)關(guān)鍵技術(shù)創(chuàng)新工程之一提出,其中包括了海量數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)挖掘、圖像視頻智能分析,這都是大數(shù)據(jù)的重要組成部分.而另外3項(xiàng):信息感知技術(shù)、信息傳輸技術(shù)、信息安全技術(shù),也與“大數(shù)據(jù)”密切相關(guān).同時(shí),為推動(dòng)大數(shù)據(jù)在我國(guó)的發(fā)展,2012年8月,中國(guó)科學(xué)院?jiǎn)?dòng)了“面向感知中國(guó)的新一代信息技術(shù)研究”戰(zhàn)略性先導(dǎo)科技專項(xiàng),其任務(wù)之一就是研制用于大數(shù)據(jù)采集、存儲(chǔ)、處理、分析和挖掘的未來數(shù)據(jù)系統(tǒng);同時(shí),中國(guó)計(jì)算機(jī)學(xué)會(huì)成立了大數(shù)據(jù)專家委員會(huì)(CCFBigDataTaskForce,CCFBDTF);為探討中國(guó)大數(shù)據(jù)的發(fā)展戰(zhàn)略,中科院計(jì)算機(jī)研究所舉辦了以“網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與工程———一門新興的交叉學(xué)科?”為主題的會(huì)議,與國(guó)內(nèi)外知名專家學(xué)者一起為中國(guó)大數(shù)據(jù)發(fā)展戰(zhàn)略建言獻(xiàn)計(jì);2013年,科技部正式啟動(dòng)863項(xiàng)目“面向大數(shù)據(jù)的先進(jìn)存儲(chǔ)結(jié)構(gòu)及關(guān)鍵技術(shù)”,啟動(dòng)5個(gè)大數(shù)據(jù)課題.由此可見,大數(shù)據(jù)的發(fā)展已經(jīng)得到了世界范圍內(nèi)的廣泛關(guān)注,發(fā)展趨勢(shì)勢(shì)不可擋.如何將巨大的原始數(shù)據(jù)進(jìn)行有效地利用和分析,使之轉(zhuǎn)變成可以被利用的知識(shí)和價(jià)值,解決日常生活和工作中的難題,成為國(guó)內(nèi)外共同關(guān)注的重要課題,同時(shí)也是大數(shù)據(jù)最重要的研發(fā)意義所在.1大數(shù)據(jù)的內(nèi)涵現(xiàn)在的社會(huì)是一個(gè)信息化、數(shù)字化的社會(huì),互聯(lián)網(wǎng)、物聯(lián)網(wǎng)和云計(jì)算技術(shù)的迅猛發(fā)展,使得數(shù)據(jù)充斥著整個(gè)世界,與此同時(shí),數(shù)據(jù)也成為一種新的自然資源,亟待人們對(duì)其加以合理、高效、充分的利用,使之能夠給人們的生活工作帶來更大的效益和價(jià)值.在這種背景下,數(shù)據(jù)的數(shù)量不僅以指數(shù)形式遞增,而且數(shù)據(jù)的結(jié)構(gòu)越來越趨于復(fù)雜化,這就賦予了“大數(shù)據(jù)”不同于以往普通“數(shù)據(jù)”更加深層的內(nèi)涵.1.1物聯(lián)網(wǎng)時(shí)代的大數(shù)據(jù)在科學(xué)研究(天文學(xué)、生物學(xué)、高能物理等)、計(jì)算機(jī)仿真、互聯(lián)網(wǎng)應(yīng)用、電子商務(wù)等領(lǐng)域,數(shù)據(jù)量呈現(xiàn)快速增長(zhǎng)的趨勢(shì).美國(guó)互聯(lián)網(wǎng)數(shù)據(jù)中心(IDC)指出,互聯(lián)網(wǎng)上的數(shù)據(jù)每年將增長(zhǎng)50%以上,每2年便將翻一番,而目前世界上90%以上的數(shù)據(jù)是最近幾年才產(chǎn)生的.數(shù)據(jù)并非單純指人們?cè)诨ヂ?lián)網(wǎng)上發(fā)布的信息,全世界的工業(yè)設(shè)備、汽車、電表上有著無數(shù)的數(shù)碼傳感器,隨時(shí)測(cè)量和傳遞有關(guān)位置、運(yùn)動(dòng)、震動(dòng)、溫度、濕度乃至空氣中化學(xué)物質(zhì)的變化等也產(chǎn)生了海量的數(shù)據(jù)信息.1)科學(xué)研究產(chǎn)生大數(shù)據(jù).現(xiàn)在的科研工作比以往任何時(shí)候都依賴大量的數(shù)據(jù)信息交流處理,尤其是各大科研實(shí)驗(yàn)室之間研究信息的遠(yuǎn)程傳輸.比如類似希格斯玻粒子的發(fā)現(xiàn)就需要每年36個(gè)國(guó)家的150多個(gè)計(jì)算中心之間進(jìn)行約26PB(26×1015B)的數(shù)據(jù)交流.在過去的10年間,連接超過40個(gè)國(guó)家實(shí)驗(yàn)室、超級(jí)計(jì)算中心和科學(xué)儀器的能源科學(xué)網(wǎng)(Esnet)上的流量每年以72%的速度增長(zhǎng),2012年11月Esnet將升級(jí)為100Gbps.2)物聯(lián)網(wǎng)的應(yīng)用產(chǎn)生大數(shù)據(jù).物聯(lián)網(wǎng)(theInternetofthings)是新一代信息技術(shù)的重要組成部分,解決了物與物、人與物、人與人之間的互聯(lián).本質(zhì)而言,人與機(jī)器、機(jī)器與機(jī)器的交互,大都是為了實(shí)現(xiàn)人與人之間的信息交互而產(chǎn)生的.在這種信息交互的過程中,催生了從信息傳送到信息感知再到面向分析處理的應(yīng)用.人們接受日常生活中的各種信息,將這些信息傳送到數(shù)據(jù)中心,利用數(shù)據(jù)中心的智能分析決策得出信息處理結(jié)果,再通過互聯(lián)網(wǎng)等信息通信網(wǎng)絡(luò)將這些數(shù)據(jù)信息傳遞到四面八方,而在互聯(lián)網(wǎng)終端的設(shè)備利用傳感網(wǎng)等設(shè)施接受信息并進(jìn)行有用的信息提取,得到自己想要的數(shù)據(jù)結(jié)果.目前,物聯(lián)網(wǎng)在智能工業(yè)、智能農(nóng)業(yè)、智能交通、智能電網(wǎng)、節(jié)能建筑、安全監(jiān)控等行業(yè)都有應(yīng)用.巨大連接的網(wǎng)絡(luò)使得網(wǎng)絡(luò)上流通的數(shù)據(jù)大幅度增長(zhǎng),從而催生了大數(shù)據(jù)的出現(xiàn).3)海量網(wǎng)絡(luò)信息的產(chǎn)生催生大數(shù)據(jù).移動(dòng)互聯(lián)時(shí)代,數(shù)以百億計(jì)的機(jī)器、企業(yè)、個(gè)人隨時(shí)隨地都會(huì)獲取和產(chǎn)生新的數(shù)據(jù).互聯(lián)網(wǎng)搜索的巨頭Google現(xiàn)在能夠處理的網(wǎng)頁數(shù)量是在千億以上,每月處理的數(shù)據(jù)超過400PB,并且呈繼續(xù)高速增長(zhǎng)的趨勢(shì);Youtube每天上傳7萬小時(shí)的視頻;淘寶網(wǎng)在2010年就擁有3.7億會(huì)員,在線商品8.8億件,每天交易超過數(shù)千萬筆,單日數(shù)據(jù)產(chǎn)生量超過50TB(50×1012B),存儲(chǔ)量40PB;2011年InternetWorld統(tǒng)計(jì)互聯(lián)網(wǎng)用戶近20億,Facebook注冊(cè)用戶超過8.5億,每天上傳3億張照片,每天生成300TB日志數(shù)據(jù);新浪微博每天有數(shù)十億的外部網(wǎng)頁和API接口訪問需求,每分鐘都會(huì)發(fā)出數(shù)萬條微博;百度目前數(shù)據(jù)總量接近1000PB,存儲(chǔ)網(wǎng)頁數(shù)量接近1萬億,每天大約要處理60億次搜索請(qǐng)求,幾十PB數(shù)據(jù);據(jù)IDC的研究結(jié)果,2011年創(chuàng)造的信息數(shù)量達(dá)到1800EB(1800×1018B),每年產(chǎn)生的數(shù)字信息量還在以60%的速度增長(zhǎng),到2020年,全球每年產(chǎn)生的數(shù)據(jù)信息將達(dá)到35ZB((35×1021B)……所有的這些都是海量數(shù)據(jù)的呈現(xiàn).隨著社交網(wǎng)絡(luò)的成熟、傳統(tǒng)互聯(lián)網(wǎng)到移動(dòng)互聯(lián)網(wǎng)的轉(zhuǎn)變、移動(dòng)寬帶的迅速提升,除了個(gè)人電腦、智能手機(jī)、平板電腦等常見的客戶終端之外,更多更先進(jìn)的傳感設(shè)備、智能設(shè)備,比如智能汽車、智能電視、工業(yè)設(shè)備和手持設(shè)備等都將接入網(wǎng)絡(luò),由此產(chǎn)生的數(shù)據(jù)量及其增長(zhǎng)速度比以往任何時(shí)期都要多,互聯(lián)網(wǎng)上的數(shù)據(jù)流量正在迅猛增長(zhǎng).1.2數(shù)據(jù)的研究范式1989年,GartnerGroup的HowardDresner首次提出“商業(yè)智能”(BusinessIntelligence)這一術(shù)語.商業(yè)智能通常被理解為企業(yè)中現(xiàn)有的數(shù)據(jù)轉(zhuǎn)化為知識(shí)、幫助企業(yè)做出明智的業(yè)務(wù)經(jīng)營(yíng)決策的工具,主要目標(biāo)是將企業(yè)所掌握的的信息轉(zhuǎn)換成競(jìng)爭(zhēng)優(yōu)勢(shì),提高企業(yè)決策能力、決策效率、決策準(zhǔn)確性.為了將數(shù)據(jù)轉(zhuǎn)化為知識(shí),需要利用數(shù)據(jù)倉庫、聯(lián)機(jī)分析處理(OLAP)工具和數(shù)據(jù)挖掘(DataMining)等技術(shù).隨著互聯(lián)網(wǎng)絡(luò)的發(fā)展,企業(yè)收集到的數(shù)據(jù)越來越多、數(shù)據(jù)結(jié)構(gòu)越來越復(fù)雜,一般的數(shù)據(jù)挖掘技術(shù)已經(jīng)不能滿足大型企業(yè)的需要,這就使得企業(yè)在收集數(shù)據(jù)之余,也開始有意識(shí)的尋求新的方法來解決大量數(shù)據(jù)無法存儲(chǔ)和處理分析的問題.由此,IT界誕生了一個(gè)新的名詞———“大數(shù)據(jù)”.對(duì)于“大數(shù)據(jù)”的概念目前來說并沒有一個(gè)明確的定義.經(jīng)過多個(gè)企業(yè)、機(jī)構(gòu)和數(shù)據(jù)科學(xué)家對(duì)于大數(shù)據(jù)的理解闡述,雖然描述不一,但都存在一個(gè)普遍共識(shí),即“大數(shù)據(jù)”的關(guān)鍵是在種類繁多、數(shù)量龐大的數(shù)據(jù)中,快速獲取信息.維基百科中將大數(shù)據(jù)定義為:所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理,并整理成為幫助企業(yè)經(jīng)營(yíng)決策更積極目的的資訊.IDC將大數(shù)據(jù)定義為:為更經(jīng)濟(jì)地從高頻率的、大容量的、不同結(jié)構(gòu)和類型的數(shù)據(jù)中獲取價(jià)值而設(shè)計(jì)的新一代架構(gòu)和技術(shù).信息專家涂子沛在著作《大數(shù)據(jù)》中認(rèn)為:“大數(shù)據(jù)”之“大”,并不僅僅指“容量大”,更大的意義在于通過對(duì)海量數(shù)據(jù)的交換、整合和分析,發(fā)現(xiàn)新的知識(shí),創(chuàng)造新的價(jià)值,帶來“大知識(shí)”、“大科技”、“大利潤(rùn)”和“大發(fā)展”.從“數(shù)據(jù)”到“大數(shù)據(jù)”,不僅僅是數(shù)量上的差別,更是數(shù)據(jù)質(zhì)量的提升.傳統(tǒng)意義上的數(shù)據(jù)處理方式包括數(shù)據(jù)挖掘、數(shù)據(jù)倉庫、聯(lián)機(jī)分析處理(OLAP)等,而在“大數(shù)據(jù)時(shí)代”,數(shù)據(jù)已經(jīng)不僅僅是需要分析處理的內(nèi)容,更重要的是人們需要借助專用的思想和手段從大量看似雜亂、繁復(fù)的數(shù)據(jù)中,收集、整理和分析數(shù)據(jù)足跡,以支撐社會(huì)生活的預(yù)測(cè)、規(guī)劃和商業(yè)領(lǐng)域的決策支持等.著名數(shù)據(jù)庫專家、圖靈獎(jiǎng)的獲得者JimGray博士總結(jié)出,在人類的科學(xué)研究史上,先后經(jīng)歷了實(shí)驗(yàn)(Empirical)、理論(Theoretical)和計(jì)算(Computational)3種范式,而在數(shù)據(jù)量不斷增加和數(shù)據(jù)結(jié)構(gòu)愈加復(fù)雜的今天,這3種范式已經(jīng)不足以在新的研究領(lǐng)域得到更好地運(yùn)用,所以JimGray博士提出了科學(xué)的“第4種范式”(TheFouthParadigm)這一新型的數(shù)據(jù)研究方式,即“數(shù)據(jù)探索”(DataExporation),用以指導(dǎo)和更新領(lǐng)域的科學(xué)研究.4種科學(xué)范式的比較如表1所示.1.3數(shù)據(jù)安全與交互作用在日新月異的IT業(yè)界,各個(gè)企業(yè)對(duì)大數(shù)據(jù)都有著自己不同的解讀.但大家都普遍認(rèn)為,大數(shù)據(jù)有著4“V”特征,即Volume(容量大)、Variety(種類多)、Velocity(速度快)和最重要的Value(價(jià)值密度低).Volume是指大數(shù)據(jù)巨大的數(shù)據(jù)量與數(shù)據(jù)完整性.十幾年前,由于存儲(chǔ)方式、科技手段和分析成本等的限制,使得當(dāng)時(shí)許多數(shù)據(jù)都無法得到記錄和保存.即使是可以保存的信號(hào),也大多采用模擬信號(hào)保存,當(dāng)其轉(zhuǎn)變?yōu)閿?shù)字信號(hào)的時(shí)候,由于信號(hào)的采樣和轉(zhuǎn)換,都不可避免存在數(shù)據(jù)的遺漏與丟失.那么現(xiàn)在,大數(shù)據(jù)的出現(xiàn),使得信號(hào)得以以最原始的狀態(tài)保存下來,數(shù)據(jù)量的大小已不是最重要的,數(shù)據(jù)的完整性才是最重要的.Variety意味著要在海量、種類繁多的數(shù)據(jù)間發(fā)現(xiàn)其內(nèi)在關(guān)聯(lián).在互聯(lián)網(wǎng)時(shí)代,各種設(shè)備連成一個(gè)整體,個(gè)人在這個(gè)整體中既是信息的收集者也是信息的傳播者,加速了數(shù)據(jù)量的爆炸式增長(zhǎng)和信息多樣性.這就必然促使我們要在各種各樣的數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)信息之間的相互關(guān)聯(lián),把看似無用的信息轉(zhuǎn)變?yōu)橛行У男畔?從而做出正確的判斷.Velocity可以理解為更快地滿足實(shí)時(shí)性需求.目前,對(duì)于數(shù)據(jù)智能化和實(shí)時(shí)性的要求越來越高,比如開車時(shí)會(huì)查看智能導(dǎo)航儀查詢最短路線,吃飯時(shí)會(huì)了解其他用戶對(duì)這家餐廳的評(píng)價(jià),見到可口的食物會(huì)拍照發(fā)微博等諸如此類的人與人、人與機(jī)器之間的信息交流互動(dòng),這些都不可避免帶來數(shù)據(jù)交換.而數(shù)據(jù)交換的關(guān)鍵是降低延遲,以近乎實(shí)時(shí)的方式呈獻(xiàn)給用戶.大數(shù)據(jù)特征里最關(guān)鍵的一點(diǎn),就是Value.Value的意思是指大數(shù)據(jù)的價(jià)值密度低.大數(shù)據(jù)時(shí)代數(shù)據(jù)的價(jià)值就像沙子淘金,數(shù)據(jù)量越大,里面真正有價(jià)值的東西就越少.現(xiàn)在的任務(wù)就是將這些ZB、PB級(jí)的數(shù)據(jù),利用云計(jì)算、智能化開源實(shí)現(xiàn)平臺(tái)等技術(shù),提取出有價(jià)值的信息,將信息轉(zhuǎn)化為知識(shí),發(fā)現(xiàn)規(guī)律,最終用知識(shí)促成正確的決策和行動(dòng).1.4.提升綜合競(jìng)爭(zhēng)力.有助于提高政府管制能力,提高各個(gè)領(lǐng)域運(yùn)行效率.發(fā)展大數(shù)據(jù)產(chǎn)業(yè)將推動(dòng)世界經(jīng)濟(jì)的發(fā)展方式由粗放型到集約型的轉(zhuǎn)變,這對(duì)于提升企業(yè)綜合競(jìng)爭(zhēng)力和政府的管制能力具有深遠(yuǎn)意義的影響.將大量的原始數(shù)據(jù)匯集在一起,通過智能分析、數(shù)據(jù)挖掘等技術(shù)分析數(shù)據(jù)中潛在的規(guī)律,以預(yù)測(cè)以后事物的發(fā)展趨勢(shì),有助于人們做出正確的決策,從而提高各個(gè)領(lǐng)域的運(yùn)行效率,取得更大的收益.1.4.1“啤酒與后期”的作品分析商業(yè)是大數(shù)據(jù)應(yīng)用最廣泛的領(lǐng)域.沃爾瑪(Walmart)通過對(duì)消費(fèi)者購(gòu)物行為等這種非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分析,了解顧客購(gòu)物習(xí)慣,公司從銷售數(shù)據(jù)分析適合搭配在一起買的商品,創(chuàng)造了“啤酒與尿布”的經(jīng)典商業(yè)案例;淘寶服務(wù)于賣家的大數(shù)據(jù)平臺(tái)———“淘寶數(shù)據(jù)魔方”有一個(gè)“無量神針———傾聽用戶的痛”屏幕,監(jiān)聽著幾百萬淘寶買家的心跳,收集分析買家的購(gòu)物行為,找出問題的先兆,避免“惡拍”(買家拍下產(chǎn)品但拒收)發(fā)生,淘寶還針對(duì)買家設(shè)置大數(shù)據(jù)平臺(tái),為買家量身打造完善網(wǎng)購(gòu)體驗(yàn)的產(chǎn)品.1.4.2quefax公司大數(shù)據(jù)在金融業(yè)也有著相當(dāng)重要的作用.華爾街“德溫特資本市場(chǎng)”公司分析全球3.4億微博賬戶的留言,判斷民眾情緒,人們高興的時(shí)候會(huì)買股票,而焦慮的時(shí)候會(huì)拋售股票,依此決定公司股票的買入或賣出,該公司2012年第一季度獲得了7%的收益率.Equifax公司是美國(guó)三大征信所之一,其存儲(chǔ)的財(cái)務(wù)數(shù)據(jù)覆蓋了所有美國(guó)成年人,包括全球5億個(gè)消費(fèi)者和8100萬家企業(yè).在它的數(shù)據(jù)庫中與財(cái)務(wù)有關(guān)的記錄包括貸款申請(qǐng)、租賃、房地產(chǎn)、購(gòu)買零售商品、納稅申報(bào)、費(fèi)用繳付、報(bào)紙與雜志訂閱等,看似雜亂無章的共26PB數(shù)據(jù),經(jīng)過交叉分享和索引處理,能夠得出消費(fèi)者的個(gè)人信用評(píng)分,從而推斷客戶支付意向與支付能力,發(fā)現(xiàn)潛在的欺詐.另外,為了實(shí)現(xiàn)醫(yī)院之間對(duì)病患信息的共享,2010年我國(guó)公布的“十二五”規(guī)劃中指出要重點(diǎn)建設(shè)國(guó)家級(jí)、省級(jí)和地市級(jí)三級(jí)衛(wèi)生信息平臺(tái),建設(shè)電子檔案和電子病歷兩個(gè)基礎(chǔ)數(shù)據(jù)庫等.隨著國(guó)家逐漸加大對(duì)電子病歷的投入,各級(jí)醫(yī)院也將加大在數(shù)據(jù)中心、醫(yī)療信息倉庫等領(lǐng)域的投入,醫(yī)療信息存儲(chǔ)將越來越受重視,醫(yī)療信息中心的關(guān)注點(diǎn)也將由傳統(tǒng)“計(jì)算”領(lǐng)域轉(zhuǎn)移到“存儲(chǔ)”領(lǐng)域上來.1.4.4從流程管理向流程管理轉(zhuǎn)變,建立以流程建設(shè)和全生命周期數(shù)據(jù)架構(gòu)為中國(guó)制造業(yè)的相關(guān)企業(yè)隨著ERP、PLM等信息化系統(tǒng)的部署完成,管理方式由粗放式管理逐步轉(zhuǎn)為精細(xì)化管理,新產(chǎn)品的研發(fā)速度和設(shè)計(jì)效率有了大幅提升,企業(yè)在實(shí)現(xiàn)對(duì)業(yè)務(wù)數(shù)據(jù)進(jìn)行有效管理的同時(shí),積累了大量的數(shù)據(jù)信息,產(chǎn)生了利用現(xiàn)代信息技術(shù)收集、管理和展示分析結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)和信息的訴求,企業(yè)需要信息化技術(shù)幫助決策者在儲(chǔ)存的海量信息中挖掘出需要的信息,并且對(duì)這些信息進(jìn)行分析,通過分析工具加快報(bào)表進(jìn)程從而推動(dòng)決策、規(guī)避風(fēng)險(xiǎn),并且獲取重要的信息,因此,越來越多的企業(yè)在原有的各種控制系統(tǒng)(DCS、FCS、CIPS等)和各種生產(chǎn)經(jīng)營(yíng)管理系統(tǒng)(MIS、MRPⅡ、CRM、ERP等)的基礎(chǔ)上,管理重心從以前的以流程建設(shè)為主,轉(zhuǎn)換為以流程建設(shè)和全生命周期數(shù)據(jù)架構(gòu)建設(shè)并行的模式,在關(guān)注流程的質(zhì)量和效率的同時(shí),又關(guān)注全流程上數(shù)據(jù)的質(zhì)量和效率,建立以產(chǎn)品為核心的覆蓋產(chǎn)品全生命周期的數(shù)據(jù)結(jié)構(gòu),用企業(yè)級(jí)PLM系統(tǒng)來支撐這些數(shù)據(jù)結(jié)構(gòu),有效地提高了企業(yè)滿足市場(chǎng)需求的響應(yīng)速度,更加經(jīng)濟(jì)地從多樣化的數(shù)據(jù)源中獲得更大價(jià)值.2大數(shù)據(jù)處理流程從大數(shù)據(jù)的特征和產(chǎn)生領(lǐng)域來看,大數(shù)據(jù)的來源相當(dāng)廣泛,由此產(chǎn)生的數(shù)據(jù)類型和應(yīng)用處理方法千差萬別.但是總的來說,大數(shù)據(jù)的基本處理流程大都是一致的.目前,中國(guó)人民大學(xué)網(wǎng)絡(luò)與移動(dòng)數(shù)據(jù)管理實(shí)驗(yàn)室(WAMDM)開發(fā)了一個(gè)學(xué)術(shù)空間“ScholarSpace”,從計(jì)算機(jī)領(lǐng)域收集的相關(guān)文獻(xiàn)可以總結(jié)出大數(shù)據(jù)處理的一般流程.在此基礎(chǔ)上,作者認(rèn)為大數(shù)據(jù)的處理流程基本可劃分為數(shù)據(jù)采集、數(shù)據(jù)處理與集成、數(shù)據(jù)分析和數(shù)據(jù)解釋4個(gè)階段.整個(gè)大數(shù)據(jù)處理流程如圖1所示,即經(jīng)數(shù)據(jù)源獲取的數(shù)據(jù),因?yàn)槠鋽?shù)據(jù)結(jié)構(gòu)不同(包括結(jié)構(gòu)、半結(jié)構(gòu)和非結(jié)構(gòu)數(shù)據(jù)),用特殊方法進(jìn)行數(shù)據(jù)處理和集成,將其轉(zhuǎn)變?yōu)榻y(tǒng)一標(biāo)準(zhǔn)的數(shù)據(jù)格式方便以后對(duì)其進(jìn)行處理;然后用合適的數(shù)據(jù)分析方法將這些數(shù)據(jù)進(jìn)行處理分析,并將分析的結(jié)果利用可視化等技術(shù)展現(xiàn)給用戶,這就是整個(gè)大數(shù)據(jù)處理的流程.2.1數(shù)據(jù)處理流程大數(shù)據(jù)的“大”,原本就意味著數(shù)量多、種類復(fù)雜,因此,通過各種方法獲取數(shù)據(jù)信息便顯得格外重要.數(shù)據(jù)采集是大數(shù)據(jù)處理流程中最基礎(chǔ)的一步,目前常用的數(shù)據(jù)采集手段有傳感器收取、射頻識(shí)別(RFID)、數(shù)據(jù)檢索分類工具如百度和谷歌等搜索引擎,以及條形碼技術(shù)等.并且由于移動(dòng)設(shè)備的出現(xiàn),如智能手機(jī)和平板電腦的迅速普及,使得大量移動(dòng)軟件被開發(fā)應(yīng)用,社交網(wǎng)絡(luò)逐漸龐大,這也加速了信息的流通速度和采集精度.2.2通過數(shù)據(jù)處理與集成數(shù)據(jù)的處理與集成主要是完成對(duì)于已經(jīng)采集到的數(shù)據(jù)進(jìn)行適當(dāng)?shù)奶幚?、清洗去噪以及進(jìn)一步的集成存儲(chǔ).根據(jù)前文所述,大數(shù)據(jù)特點(diǎn)之一是“Variety”,也就是大數(shù)據(jù)的多樣性.這就決定了經(jīng)過各種渠道獲取的數(shù)據(jù)種類和結(jié)構(gòu)都非常復(fù)雜,給之后的數(shù)據(jù)分析處理帶了極大的困難.通過數(shù)據(jù)處理與集成這一步驟,首先將這些結(jié)構(gòu)復(fù)雜的數(shù)據(jù)轉(zhuǎn)換為單一的或是便于處理的結(jié)構(gòu),為以后的數(shù)據(jù)分析打下良好的基礎(chǔ),因?yàn)檫@些數(shù)據(jù)里并不是所有的信息都是必需的,而是會(huì)摻雜很多噪音和干擾項(xiàng),因此,還需對(duì)這些數(shù)據(jù)進(jìn)行“去噪”和清洗,以保證數(shù)據(jù)的質(zhì)量以及可靠性.常用的方法是在數(shù)據(jù)處理的過程中設(shè)計(jì)一些數(shù)據(jù)過濾器,通過聚類或關(guān)聯(lián)分析的規(guī)則方法將無用或錯(cuò)誤的離群數(shù)據(jù)挑出來過濾掉,防止其對(duì)最終數(shù)據(jù)結(jié)果產(chǎn)生不利影響;然后將這些整理好的數(shù)據(jù)進(jìn)行集成和存儲(chǔ),這是很重要的一步,若是單純隨意的放置,則會(huì)對(duì)以后的數(shù)據(jù)取用造成影響,很容易導(dǎo)致數(shù)據(jù)訪問性的問題,現(xiàn)在一般的解決方法是針對(duì)特定種類的數(shù)據(jù)建立專門的數(shù)據(jù)庫,將這些不同種類的數(shù)據(jù)信息分門別類的放置,可以有效地減少數(shù)據(jù)查詢和訪問的時(shí)間,提高數(shù)據(jù)提取速度.2.3基于監(jiān)測(cè)數(shù)據(jù)分析的方法數(shù)據(jù)分析是整個(gè)大數(shù)據(jù)處理流程里最核心的部分,因?yàn)樵跀?shù)據(jù)分析的過程中,會(huì)發(fā)現(xiàn)數(shù)據(jù)的價(jià)值所在.經(jīng)過上一步驟數(shù)據(jù)的處理與集成后,所得的數(shù)據(jù)便成為數(shù)據(jù)分析的原始數(shù)據(jù),根據(jù)所需數(shù)據(jù)的應(yīng)用需求對(duì)數(shù)據(jù)進(jìn)行進(jìn)一步的處理和分析.傳統(tǒng)的數(shù)據(jù)處理分析方法有數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、智能算法、統(tǒng)計(jì)分析等,而這些方法已經(jīng)不能滿足大數(shù)據(jù)時(shí)代數(shù)據(jù)分析的需求.在數(shù)據(jù)分析技術(shù)方面,Google公司無疑是做得最先進(jìn)的一個(gè).Google作為互聯(lián)網(wǎng)大數(shù)據(jù)應(yīng)用最為廣泛的公司,于2006年率先提出了“云計(jì)算”的概念,其內(nèi)部各種數(shù)據(jù)的應(yīng)用都是依托Google自己內(nèi)部研發(fā)的一系列云計(jì)算技術(shù),例如分布式文件系統(tǒng)GFS、分布式數(shù)據(jù)庫BigTable、批處理技術(shù)MapReduce,以及開源實(shí)現(xiàn)平臺(tái)Hadoop等.這些技術(shù)平臺(tái)的產(chǎn)生,提供了對(duì)大數(shù)據(jù)進(jìn)行處理、分析很好的手段.2.4可視化技術(shù)向數(shù)據(jù)可視化服務(wù)對(duì)于廣大的數(shù)據(jù)信息用戶來講,最關(guān)心的并非是數(shù)據(jù)的分析處理過程,而是對(duì)大數(shù)據(jù)分析結(jié)果的解釋與展示,因此,在一個(gè)完善的數(shù)據(jù)分析流程中,數(shù)據(jù)結(jié)果的解釋步驟至關(guān)重要.若數(shù)據(jù)分析的結(jié)果不能得到恰當(dāng)?shù)娘@示,則會(huì)對(duì)數(shù)據(jù)用戶產(chǎn)生困擾,甚至?xí)`導(dǎo)用戶.傳統(tǒng)的數(shù)據(jù)顯示方式是用文本形式下載輸出或用戶個(gè)人電腦顯示處理結(jié)果.但隨著數(shù)據(jù)量的加大,數(shù)據(jù)分析結(jié)果往往也越復(fù)雜,用傳統(tǒng)的數(shù)據(jù)顯示方法已經(jīng)不足以滿足數(shù)據(jù)分析結(jié)果輸出的需求,因此,為了提升數(shù)據(jù)解釋、展示能力,現(xiàn)在大部分企業(yè)都引入了“數(shù)據(jù)可視化技術(shù)”作為解釋大數(shù)據(jù)最有力的方式.通過可視化結(jié)果分析,可以形象地向用戶展示數(shù)據(jù)分析結(jié)果,更方便用戶對(duì)結(jié)果的理解和接受.常見的可視化技術(shù)有基于集合的可視化技術(shù)、基于圖標(biāo)的技術(shù)、基于圖像的技術(shù)、面向像素的技術(shù)和分布式技術(shù),等等.3分布式數(shù)據(jù)庫的建立在大數(shù)據(jù)處理流程中,最核心的部分就是對(duì)于數(shù)據(jù)信息的分析處理,所以其中所運(yùn)用到的處理技術(shù)也就至關(guān)重要.提起大數(shù)據(jù)的處理技術(shù),就不得不提起“云計(jì)算”,這是大數(shù)據(jù)處理的基礎(chǔ),也是大數(shù)據(jù)分析的支撐技術(shù).分布式文件系統(tǒng)為整個(gè)大數(shù)據(jù)提供了底層的數(shù)據(jù)貯存支撐架構(gòu);為了方便數(shù)據(jù)管理,在分布式文件系統(tǒng)的基礎(chǔ)上建立分布式數(shù)據(jù)庫,提高數(shù)據(jù)訪問速度;在一個(gè)開源的數(shù)據(jù)實(shí)現(xiàn)平臺(tái)上利用各種大數(shù)據(jù)分析技術(shù)可以對(duì)不同種類、不同需求的數(shù)據(jù)進(jìn)行分析整理得出有益信息,最終利用各種可視化技術(shù)形象地顯示給數(shù)據(jù)用戶,滿足用戶的各種需求.3.1云計(jì)算和模糊負(fù)載3.1.1云計(jì)算設(shè)備的運(yùn)維Google作為大數(shù)據(jù)應(yīng)用最為廣泛的互聯(lián)網(wǎng)公司之一,2006年率先提出“云計(jì)算”的概念.所謂“云計(jì)算”,根據(jù)文獻(xiàn)對(duì)云計(jì)算的定義來看,云計(jì)算是一種大規(guī)模的分布式模型,通過網(wǎng)絡(luò)將抽象的、可伸縮的、便于管理的數(shù)據(jù)能源、服務(wù)、存儲(chǔ)方式等傳遞給終端用戶.根據(jù)維基百科的說法,狹義云計(jì)算是指IT基礎(chǔ)設(shè)施的交付和使用模式,指通過網(wǎng)絡(luò)以按照需求量的方式和易擴(kuò)展的方式獲得所需資源;廣義云計(jì)算指服務(wù)的交付和使用模式,指通過網(wǎng)絡(luò)以按照需求量和易擴(kuò)展的方式獲得所需服務(wù).目前,云計(jì)算可以認(rèn)為包含3個(gè)層次的內(nèi)容:服務(wù)(IaaS)、平臺(tái)即服務(wù)(PaaS)和軟件即服務(wù)(SaaS).國(guó)內(nèi)的“阿里云”與云谷公司的XenSystem,以及在國(guó)外已經(jīng)非常成熟的Intel和IBM都是“云計(jì)算”的忠實(shí)開發(fā)者和使用者.云計(jì)算是大數(shù)據(jù)分析處理技術(shù)的核心原理,也是大數(shù)據(jù)分析應(yīng)用的基礎(chǔ)平臺(tái).Google內(nèi)部的各種大數(shù)據(jù)處理技術(shù)和應(yīng)用平臺(tái)都是基于云計(jì)算,最典型的就是以分布式文件系統(tǒng)GFS、批處理技術(shù)MapReduce、分布式數(shù)據(jù)庫BigTable為代表的大數(shù)據(jù)處理技術(shù)以及在此基礎(chǔ)上產(chǎn)生的開源數(shù)據(jù)處理平臺(tái)Hadoop.3.1.2map以及rin-pcr系統(tǒng)的組成結(jié)構(gòu)MapReduce技術(shù)是Google公司于2004年提出,作為一種典型的數(shù)據(jù)批處理技術(shù)被廣泛的應(yīng)用于數(shù)據(jù)挖掘、數(shù)據(jù)分析、機(jī)器學(xué)習(xí)等領(lǐng)域,并且,MapReduce因?yàn)樗⑿惺綌?shù)據(jù)處理的方式已經(jīng)成為大數(shù)據(jù)處理的關(guān)鍵技術(shù).MapReduce的數(shù)據(jù)分析流程如圖2所示.由圖可以看出,MapReduce系統(tǒng)主要由兩個(gè)部分組成:Map和Reduce.MapReduce的核心思想在于“分而治之”,也就是說,首先將數(shù)據(jù)源分為若干部分,每個(gè)部分對(duì)應(yīng)一個(gè)初始的鍵-值(Key/Value)對(duì),并分別給不同的Map任務(wù)區(qū)處理,這時(shí)的Map對(duì)初始的鍵-值(Key/Value)對(duì)進(jìn)行處理,產(chǎn)生一系列中間結(jié)果Key/Value對(duì),MapReduce的中間過程Shuffle將所有具有相同Key值的Value值組成一個(gè)集合傳遞給Reduce環(huán)節(jié);Reduce接收這些中間結(jié)果,并將相同的Value值合并,形成最終的較小Value值的集合.MapReduce系統(tǒng)的提出簡(jiǎn)化了數(shù)據(jù)的計(jì)算過程,避免了數(shù)據(jù)傳輸過程中大量的通信開銷,使得MapReduce可以運(yùn)用到多種實(shí)際問題的解決方案里,公布之后獲得了極大的關(guān)注,在各個(gè)領(lǐng)域均有廣泛的應(yīng)用.3.2gfs體系結(jié)構(gòu)在Google之前,沒有哪一個(gè)公司曾需要處理數(shù)量如此多、種類如此繁雜的數(shù)據(jù),因此,Google公司結(jié)合自己的實(shí)際應(yīng)用情況,自行開發(fā)了一種分布式文件系統(tǒng)GFS(GoogleFileSystem).這個(gè)分布式文件系統(tǒng)是個(gè)基于分布式集群的大型分布式處理系統(tǒng),作為上層應(yīng)用的支撐,為MapReduce計(jì)算框架提供低層數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)可靠性的保障.GFS同傳統(tǒng)的分布式文件系統(tǒng)有共同之處,比如性能、可伸縮性、可用性等.然而,根據(jù)應(yīng)用負(fù)載和技術(shù)環(huán)境的影響,GFS和傳統(tǒng)的分布式文件系統(tǒng)的不同之處使其在大數(shù)據(jù)時(shí)代得到了更加廣泛的應(yīng)用.GFS采用廉價(jià)的組成硬件并將系統(tǒng)某部分出錯(cuò)作為常見情況加以處理,因此具有良好的容錯(cuò)功能.從傳統(tǒng)的數(shù)據(jù)標(biāo)準(zhǔn)來看,GFS能夠處理的文件很大,尺寸通常都是100MB以上,數(shù)GB也很常見,而且大文件在GFS中可以被有效地管理.另外,GFS主要采取主從結(jié)構(gòu)(Master-Slave),通過數(shù)據(jù)分塊、追加更新等方式實(shí)現(xiàn)海量數(shù)據(jù)的高速存儲(chǔ).GFS體系結(jié)構(gòu)圖如圖3所示.隨著數(shù)據(jù)量的逐漸加大、數(shù)據(jù)結(jié)構(gòu)的愈加復(fù)雜,最初的GFS架構(gòu)已經(jīng)無法滿足對(duì)數(shù)據(jù)分析處理的需求,Google公司在原先的基礎(chǔ)上對(duì)GFS進(jìn)行了重新設(shè)計(jì),升級(jí)為Colosuss,單點(diǎn)故障和海量小文件存儲(chǔ)的問題在這個(gè)新的系統(tǒng)里得到了很好的解決.除了Google的GFS以及Colosuss,HDFS、FastDFS和CloudStore等都是類似于GFS的開源實(shí)現(xiàn).由于GFS及其類似的文件處理系統(tǒng)主要用于處理大文件,對(duì)圖片存儲(chǔ)、文檔傳輸?shù)群A啃∥募膽?yīng)用場(chǎng)合則處理效率很低,因此,Facebook開發(fā)了專門針對(duì)海量小文件處理的文件系統(tǒng)Haystack,通過多個(gè)邏輯文件共享同一個(gè)物理文件,增加緩存層、部分元數(shù)據(jù)加載到內(nèi)存等方式有效地解決了海量小文件存儲(chǔ)的問題;此外,淘寶也推出了類似的文件系統(tǒng)TFS(TaobaoFileSystem),針對(duì)淘寶海量的非結(jié)構(gòu)化數(shù)據(jù),提供海量小文件存儲(chǔ),滿足了淘寶對(duì)小文件存儲(chǔ)的需求,被廣泛地應(yīng)用在淘寶各項(xiàng)業(yè)務(wù)中.3.3監(jiān)測(cè)數(shù)據(jù)處理由上述數(shù)據(jù)處理過程可看出,從數(shù)據(jù)源處獲得的原始數(shù)據(jù)存儲(chǔ)在分布式文件系統(tǒng)中,但是用戶的習(xí)慣是從數(shù)據(jù)庫中存取文件.傳統(tǒng)的關(guān)系型分布式數(shù)據(jù)庫已經(jīng)不能適應(yīng)大數(shù)據(jù)時(shí)代的數(shù)據(jù)存儲(chǔ)要求,主要原因如下:1)數(shù)據(jù)規(guī)模變大.大數(shù)據(jù)時(shí)代的特征之一“Volume”,就是指巨大的數(shù)據(jù)量,因此必須采用分布式存儲(chǔ)方式.傳統(tǒng)的數(shù)據(jù)庫一般采用的是縱向擴(kuò)展(scale-up)的方法,這種方法對(duì)性能的增加速度遠(yuǎn)遠(yuǎn)低于所需處理數(shù)據(jù)的增長(zhǎng)速度,因此不具有良好的擴(kuò)展性.大數(shù)據(jù)時(shí)代需要的是具備良好橫向拓展(scale-out)性能的分布式并行數(shù)據(jù)庫.2)數(shù)據(jù)種類增多.大數(shù)據(jù)時(shí)代的特征之二“Variety”,就是指數(shù)據(jù)種類的多樣化.也就是說,大數(shù)據(jù)時(shí)代的數(shù)據(jù)類型已經(jīng)不再局限于結(jié)構(gòu)化的數(shù)據(jù),各種半結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù)紛紛涌現(xiàn).如何高效地處理這些具有復(fù)雜數(shù)據(jù)類型、價(jià)值密度低的海量數(shù)據(jù),是現(xiàn)在必須面對(duì)的重大挑戰(zhàn)之一.3)設(shè)計(jì)理念的差異.傳統(tǒng)的關(guān)系型數(shù)據(jù)庫講求的是“Onesizeforall”,即用一種數(shù)據(jù)庫適用所有類型的數(shù)據(jù).但在大數(shù)據(jù)時(shí)代,由于數(shù)據(jù)類型的增多、數(shù)據(jù)應(yīng)用領(lǐng)域的擴(kuò)大,對(duì)數(shù)據(jù)處理技術(shù)的要求以及處理時(shí)間方面均存在較大差異,用一種數(shù)據(jù)存儲(chǔ)方式適用所有的數(shù)據(jù)處理場(chǎng)合明顯是不可能的,因此,很多公司已經(jīng)開始嘗試“Onesizeforone”的設(shè)計(jì)理念,并產(chǎn)生了一系列技術(shù)成果,取得了顯著成效.為了解決上述問題,Google公司無疑又走在了時(shí)代的前列,它提出了BigTable的數(shù)據(jù)庫系統(tǒng)解決方案,為用戶提供了簡(jiǎn)單的數(shù)據(jù)模型,這主要是運(yùn)用一個(gè)多維數(shù)據(jù)表,表中通過行、列關(guān)鍵字和時(shí)間戳來查詢定位,用戶可以自己動(dòng)態(tài)控制數(shù)據(jù)的分布和格式.BigTable的基本架構(gòu)如圖4所示.BigTable中的數(shù)據(jù)均以子表形式保存于子表服務(wù)器上,主服務(wù)器創(chuàng)建子表,最終將數(shù)據(jù)以GFS形式存儲(chǔ)于GFS文件系統(tǒng)中;同時(shí)客戶端直接和子表服務(wù)器通信,Chubby服務(wù)器用來對(duì)子表服務(wù)器進(jìn)行狀態(tài)監(jiān)控;主服務(wù)器可以查看Chubby服務(wù)器以觀測(cè)子表狀態(tài)檢查是否存在異常,若有異常則會(huì)終止故障的子服務(wù)器并將其任務(wù)轉(zhuǎn)移至其余服務(wù)器.除了BigTable之外,很多互聯(lián)網(wǎng)公司也紛紛研發(fā)可適用于大數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)庫系統(tǒng),比較知名的有Yahoo!的PNUTS和Amazon的Dynamo.這些數(shù)據(jù)庫的成功應(yīng)用促進(jìn)了對(duì)非關(guān)系型數(shù)據(jù)庫的開發(fā)與運(yùn)用的熱潮,這些非關(guān)系型數(shù)據(jù)庫方案現(xiàn)在被統(tǒng)稱為NoSQL(NotOnlySQL).就目前來說,對(duì)于NoSQL沒有一個(gè)確切的定義,一般普遍認(rèn)為NoSQL數(shù)據(jù)庫應(yīng)該具有以下特征:模式自由(schema-free)、支持簡(jiǎn)易備份(easyreplicationsupport)、簡(jiǎn)單的應(yīng)用程序接口(simpleAPI)、一致性、支持海量數(shù)據(jù)(hugeamountofdata).目前典型的NoSQL的分類如表2所示.3.4基于ha的大數(shù)據(jù)處理平臺(tái)大數(shù)據(jù)時(shí)代對(duì)于數(shù)據(jù)分析、管理都提出了不同程度的新要求,許多傳統(tǒng)的數(shù)據(jù)分析技術(shù)和數(shù)據(jù)庫技術(shù)已經(jīng)不足以滿足現(xiàn)代數(shù)據(jù)應(yīng)用的需求.為了給大數(shù)據(jù)處理分析提供一個(gè)性能更高、可靠性更好的平臺(tái),DougCutting模仿GFS,為MapReduce開發(fā)了一個(gè)云計(jì)算開源平臺(tái)Hadoop,用Java編寫,可移植性強(qiáng).現(xiàn)在Hadoop已經(jīng)發(fā)展為一個(gè)包括分布式文件系統(tǒng)(HadoopDistributedFileSystem,HDFS)、分布式數(shù)據(jù)庫(HBase、Cassandra)以及數(shù)據(jù)分析處理MapReduce等功能模塊在內(nèi)的完整生態(tài)系統(tǒng)(Ecosystem),現(xiàn)已經(jīng)發(fā)展成為目前最流行的大數(shù)據(jù)處理平臺(tái).Intel公司根據(jù)Hadoop的系統(tǒng)構(gòu)造,給出了一種Hadoop的實(shí)現(xiàn)結(jié)構(gòu),如圖5所示.在這個(gè)系統(tǒng)中,以MapReduce算法為計(jì)算框架,HDFS是一種類似于GFS的分布式文件系統(tǒng),可以為大規(guī)模的服務(wù)器集群提供高速度的文件讀寫訪問.HBase是一種與BigTable類似的分布式并行數(shù)據(jù)庫系統(tǒng),可以提供海量數(shù)據(jù)的存儲(chǔ)和讀寫,而且兼容各種結(jié)構(gòu)化或非結(jié)構(gòu)化的數(shù)據(jù).Mahout是ApacheSoftwareFoundation(ASF)旗下的一個(gè)開源項(xiàng)目,對(duì)海量數(shù)據(jù)進(jìn)行挖掘的一種方式,提供數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等領(lǐng)域中經(jīng)典算法的實(shí)現(xiàn).Hive是一種基于Hadoop的大數(shù)據(jù)分布式數(shù)據(jù)倉庫引擎,它使用SQL語言對(duì)海量數(shù)據(jù)信息進(jìn)行統(tǒng)計(jì)分析、查詢等操作,并且將數(shù)據(jù)存儲(chǔ)在相應(yīng)的分布式數(shù)據(jù)庫或分布式文件系統(tǒng)中.為了對(duì)大規(guī)模數(shù)據(jù)進(jìn)行分析就要用到相關(guān)的數(shù)據(jù)分析處理語言PigLatin,它借鑒了SQL和MapReduce兩者的優(yōu)點(diǎn),既可以像SQL語言那樣靈活可變,又有過程式語言數(shù)據(jù)流的特點(diǎn).Zookeeper是分布式系統(tǒng)的可靠協(xié)調(diào)系統(tǒng),可以提供包括配置維護(hù)、名字服務(wù)、分布式同步、組服務(wù)等在內(nèi)的相關(guān)功能,封裝好復(fù)雜易出錯(cuò)的關(guān)鍵服務(wù),將簡(jiǎn)單易用的接口和性能高效、功能穩(wěn)定的系統(tǒng)提供給用戶.Sqoop是一個(gè)用來將Hadoop和關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)雙向轉(zhuǎn)移的工具,可以將一個(gè)關(guān)系型數(shù)據(jù)庫(MySQL,Oracle,Postgres等)中的數(shù)據(jù)導(dǎo)入到Hadoop的HDFS中,也可以將HDFS的數(shù)據(jù)導(dǎo)入到關(guān)系型數(shù)據(jù)庫中,還可以在傳輸過程中實(shí)現(xiàn)數(shù)據(jù)轉(zhuǎn)換等功能.Flume是一種分布式日志采集系統(tǒng),特點(diǎn)是高可靠性、高可用性,它的作用是從不同的數(shù)據(jù)源系統(tǒng)中采集、集成、運(yùn)送大量的日志數(shù)據(jù)到一個(gè)集中式數(shù)據(jù)存儲(chǔ)器中.3.5大數(shù)據(jù)時(shí)代的用戶體驗(yàn)可視化技術(shù)作為解釋大數(shù)據(jù)最有效的手段之一最初是被科學(xué)與計(jì)算領(lǐng)域運(yùn)用,它對(duì)分析結(jié)果的形象化處理和顯示,在很多領(lǐng)域得到了迅速而廣泛應(yīng)用.數(shù)據(jù)可視化(DataVisualization)技術(shù)是指運(yùn)用計(jì)算機(jī)圖形學(xué)和圖像處理技術(shù),將數(shù)據(jù)轉(zhuǎn)換為圖形或圖像在屏幕上顯示出來,并進(jìn)行交互處理的理論、方法和技術(shù).由于圖形化的方式比文字更容易被用戶理解和接受,數(shù)據(jù)可視化就是借助人腦的視覺思維能力,將抽象的數(shù)據(jù)表現(xiàn)成為可見的圖形或圖像,幫助人們發(fā)現(xiàn)數(shù)據(jù)中隱藏的內(nèi)在規(guī)律.可視分析起源于2005年,它是一門通過交互可視界面來分析、推理和決策的科學(xué),通過將可視化和數(shù)據(jù)處理分析方法相結(jié)合,提高可視化質(zhì)量的同時(shí)也為用戶提供更完整的大規(guī)模數(shù)據(jù)解決方案.如今,針對(duì)可視分析的研究和應(yīng)用逐步發(fā)展,已經(jīng)覆蓋科學(xué)數(shù)據(jù)、社交網(wǎng)絡(luò)數(shù)據(jù)、電力等多個(gè)行業(yè).面對(duì)海量數(shù)據(jù)的涌現(xiàn),如何將其恰當(dāng)、清楚地展現(xiàn)給用戶是大數(shù)據(jù)時(shí)代的一個(gè)重要挑戰(zhàn).學(xué)術(shù)科研界以及工業(yè)界都在不停致力于大數(shù)據(jù)可視化的研究,已經(jīng)有了很多經(jīng)典成功的應(yīng)用案例.1)互聯(lián)網(wǎng)宇宙(TheInternetMap).為了探究互聯(lián)網(wǎng)這個(gè)龐大的宇宙,俄羅斯工程師RuslanEnikeev根據(jù)2011年底的數(shù)據(jù),將196個(gè)國(guó)家的35萬個(gè)網(wǎng)站數(shù)據(jù)整合起來,并根據(jù)這些網(wǎng)站相互之間的鏈接關(guān)系將這些“星球”聯(lián)系起來,命名為“TheInternetMap”,如圖6所示.一個(gè)“星球”代表一個(gè)網(wǎng)站,每一個(gè)“星球”的大小根據(jù)其網(wǎng)站流量來決定,而“星球之間”的距離遠(yuǎn)近則根據(jù)鏈接出現(xiàn)的頻率、強(qiáng)度和用戶跳轉(zhuǎn)時(shí)創(chuàng)建的鏈接等因素決定.2)標(biāo)簽云(TagCloud).標(biāo)簽云的本質(zhì)就是一種“標(biāo)簽”,用不同的標(biāo)簽標(biāo)示不同的對(duì)象.標(biāo)簽的排序一般按照字典的順序排列,并根據(jù)其熱門程度確定字體的顏色和大小,出現(xiàn)頻率越高的詞語字體就越大,反之越小,這就方便用戶按照字典或是該標(biāo)簽的熱門程度來尋找信息.3)歷史流圖(HistoryFlow).在文獻(xiàn)中提出了一種用于可視化文檔編輯的“歷史流圖”,這樣的一個(gè)流程,意味著這是一個(gè)面向廣大用戶的開放型文檔,用戶可以在其中自由地編輯和查閱,隨時(shí)根據(jù)自己的理解進(jìn)行增加和刪除操作.在歷史流圖中,用一個(gè)坐標(biāo)軸表示對(duì)一篇文檔做出任何修改的行為:橫坐標(biāo)表示時(shí)間,縱坐標(biāo)表示修改的人員;隨著時(shí)間的推移,橫坐標(biāo)越來越長(zhǎng),文檔內(nèi)容也隨著不斷變化,修改的人員也隨之增加,可以很容易看出每個(gè)人對(duì)這篇文檔的貢獻(xiàn).最顯著的應(yīng)用案例就是“維基百科”的注釋文檔,“歷史流圖”的效果很明顯.關(guān)于大數(shù)據(jù)可視化的研究依然在繼續(xù),比如大眾點(diǎn)評(píng)網(wǎng)上,可以輕松的根據(jù)地理信息找到附近的餐廳、KTV、商店等,用戶可以根據(jù)自己的體驗(yàn)對(duì)這些店鋪進(jìn)行評(píng)價(jià),這些反饋信息就在網(wǎng)絡(luò)上留下了痕跡,為后來的用戶使用提供了參考,這種常見的社交網(wǎng)絡(luò)或生活消費(fèi)類應(yīng)用與數(shù)字網(wǎng)絡(luò)地圖的疊加,就是多維疊加式數(shù)據(jù)可視化應(yīng)用;另外,支付寶的電子對(duì)賬單通過用戶一段時(shí)間(一般是1個(gè)月)的支付寶使用信息,自動(dòng)生成專門針對(duì)此用戶的本月消費(fèi)產(chǎn)品數(shù)據(jù)圖表,可以幫助用戶分析其自身的消費(fèi)情況,這是一種即時(shí)的關(guān)聯(lián)規(guī)則下可視化技術(shù)的應(yīng)用,通過對(duì)那些彼此間存在關(guān)聯(lián)性的數(shù)據(jù)進(jìn)行分析處理,挖掘出數(shù)據(jù)間聯(lián)系并預(yù)測(cè)出發(fā)展趨勢(shì),隨后即時(shí)生成可視化方案反饋給用戶,可以給客戶下個(gè)月的消費(fèi)管理提供參考意見.4大數(shù)據(jù)的概念及其對(duì)數(shù)據(jù)利用的意義隨著近年來大數(shù)據(jù)熱潮的不斷升溫,人們認(rèn)識(shí)到“大數(shù)據(jù)”并非是指“大規(guī)模的數(shù)據(jù)”,更加代表了其本質(zhì)含義:思維、商業(yè)和管理領(lǐng)域前所未有的大變革.在這次變革中,大數(shù)據(jù)的出現(xiàn),對(duì)產(chǎn)業(yè)界、學(xué)術(shù)界和教育界都正在產(chǎn)生巨大影響.隨著科學(xué)家們對(duì)大數(shù)據(jù)研究的不斷深入,人們?cè)絹碓揭庾R(shí)到對(duì)數(shù)據(jù)的利用可以為其生產(chǎn)生活帶來巨大便利的同時(shí),也帶來了不小的挑戰(zhàn).4.1大數(shù)據(jù)時(shí)代隱私保護(hù)的技術(shù)隨著大數(shù)據(jù)的發(fā)展,數(shù)據(jù)的來源和應(yīng)用領(lǐng)域越來越廣泛:在互聯(lián)網(wǎng)上隨意瀏覽網(wǎng)頁,就會(huì)留下一連串的瀏覽痕跡;在網(wǎng)絡(luò)中登錄相關(guān)網(wǎng)站需要輸入個(gè)人的重要信息,例如用戶名密碼、身份證號(hào)、手機(jī)號(hào)、住址、銀行卡密碼等;隨處可見的攝像頭和傳感器會(huì)記錄下個(gè)人的行為和位置信息,等等.通過相關(guān)的數(shù)據(jù)分析,數(shù)據(jù)專家就可以輕易挖掘出人們的行為習(xí)慣和個(gè)人重要信息.如果這些信息運(yùn)用得當(dāng),可以幫助相關(guān)領(lǐng)域的企業(yè)隨時(shí)了解客戶的需求和習(xí)慣,便于企業(yè)調(diào)整相應(yīng)的產(chǎn)品生產(chǎn)計(jì)劃,取得更大的經(jīng)濟(jì)效益;但若是這些重要的信息被不良分子竊取,隨之而來的就是個(gè)人信息、財(cái)產(chǎn)等的安全性問題.為了解決大數(shù)據(jù)時(shí)代的數(shù)據(jù)隱私問題,學(xué)術(shù)界和工業(yè)界紛紛提出自己的解決辦法.Lindell等提出了保護(hù)隱私的數(shù)據(jù)挖掘(PrivacyPreservingDataMining)概念;Sweeney針對(duì)位置服務(wù)的安全性問題,提出了一種k-匿名方法,即將自己與周圍的(k-1)個(gè)用戶組合成一個(gè)數(shù)據(jù)集合,從而模糊了自己的位置概念;差分隱私(DifferentialPrivacy)保護(hù)技術(shù)可能是解決大數(shù)據(jù)隱私問題的有力武器,Dwork在2006年提出了一種新的差分隱私方法,Roy等于2010年提出了一種隱私保護(hù)系統(tǒng)Airavat,將集中信息流控制和差分隱私保護(hù)技術(shù)融入云計(jì)算的數(shù)據(jù)生成與計(jì)算階段,防止MapReduce計(jì)算過程中的數(shù)據(jù)隱私泄露.此外,大數(shù)據(jù)時(shí)代數(shù)據(jù)的更新變化速度加快,而一般的數(shù)據(jù)隱私保護(hù)技術(shù)大都基于靜態(tài)數(shù)據(jù)保護(hù),這就給隱私保護(hù)帶來了新的挑戰(zhàn).在復(fù)雜變化的條件下如何實(shí)現(xiàn)數(shù)據(jù)隱私安全的保護(hù),這將是未來大數(shù)據(jù)研究的重點(diǎn)方向之一.4.2大數(shù)據(jù)時(shí)代傳統(tǒng)數(shù)據(jù)安全的“保護(hù)”與數(shù)據(jù)清洗縱觀大數(shù)據(jù)的發(fā)展歷程,大數(shù)據(jù)的來源與應(yīng)用越來越廣泛,為了把散布于不同的數(shù)據(jù)管理系統(tǒng)的數(shù)據(jù)收集起來統(tǒng)一整理,就有必要進(jìn)行數(shù)據(jù)的集成與管理.雖然對(duì)數(shù)據(jù)的集成和管理已經(jīng)有了很多的方法,但是傳統(tǒng)的數(shù)據(jù)存儲(chǔ)方法已經(jīng)不能滿足大數(shù)據(jù)時(shí)代數(shù)據(jù)的處理需求,這就面臨著新的挑戰(zhàn).1)數(shù)據(jù)存儲(chǔ).在大數(shù)據(jù)時(shí)代,大數(shù)據(jù)的特征之一就是數(shù)據(jù)類型的多樣性.數(shù)據(jù)類型由傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)逐漸轉(zhuǎn)變?yōu)榘虢Y(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù).另外,數(shù)據(jù)的來源也逐漸多樣化,傳統(tǒng)的數(shù)據(jù)大都來自于少部分軍事企業(yè)或是研究所的電腦終端;現(xiàn)在,隨著互聯(lián)網(wǎng)和移動(dòng)設(shè)備在全球的普及,平板電腦、手機(jī)、GPS等產(chǎn)生的數(shù)據(jù)呈“井噴”狀態(tài),因此,數(shù)據(jù)的存儲(chǔ)就顯得格外重要.由前文可看出,傳統(tǒng)的數(shù)據(jù)存儲(chǔ)方式已經(jīng)不足以滿足現(xiàn)在的數(shù)據(jù)存儲(chǔ)需求,為了應(yīng)對(duì)越來越多的海量數(shù)據(jù)和日漸復(fù)雜的數(shù)據(jù)結(jié)構(gòu),很多公司都著手研發(fā)適用于大數(shù)據(jù)時(shí)代的分布式文件系統(tǒng)和分布式并行數(shù)據(jù)庫,如HDFS、BigTable等.在數(shù)據(jù)存儲(chǔ)過程中,數(shù)據(jù)格式的轉(zhuǎn)換是必要的,而且是非常關(guān)鍵和復(fù)雜的,這就對(duì)數(shù)據(jù)存儲(chǔ)系統(tǒng)提出了更高的要求.2)數(shù)據(jù)清洗.大數(shù)據(jù)時(shí)代數(shù)據(jù)的特征“Value”,是大數(shù)據(jù)低價(jià)值密度的體現(xiàn).也就是說,大數(shù)據(jù)量并不意味著大信息量,很多時(shí)候它意味著冗余數(shù)據(jù)的增多、垃圾價(jià)值的泛濫,因此,對(duì)數(shù)據(jù)進(jìn)行篩選、清理是十分必要的,否則過多的干擾信息一方面會(huì)占據(jù)大量的存儲(chǔ)空間,造成存儲(chǔ)資源的浪費(fèi),另一方面這些垃圾數(shù)據(jù)會(huì)對(duì)真正有用的信息造成干擾,影響數(shù)據(jù)分析結(jié)果.大數(shù)據(jù)時(shí)代的數(shù)據(jù)清洗過程必須更加細(xì)致和專業(yè),即在數(shù)據(jù)清洗過程中,既不能清洗地過細(xì),因?yàn)檫@會(huì)增加數(shù)據(jù)清洗的復(fù)雜度,甚至有可能會(huì)把有用的信息過濾掉;也不能清洗的不細(xì)致,因?yàn)橐WC數(shù)據(jù)篩選的效果.4.3積極推進(jìn)關(guān)系型數(shù)據(jù)庫的數(shù)據(jù)融合大數(shù)據(jù)因其獨(dú)特的特征對(duì)數(shù)據(jù)分析處理系統(tǒng)提出了極高的要求,無論是存儲(chǔ)、傳輸還是計(jì)算,在大數(shù)據(jù)分析技術(shù)平臺(tái)上,將會(huì)是一個(gè)技術(shù)的激烈交鋒.因?yàn)楝F(xiàn)有的數(shù)據(jù)中心技術(shù)難以滿足大數(shù)據(jù)的處理需求,所以IT架構(gòu)的革命性重構(gòu)勢(shì)在必行.美國(guó)的6個(gè)部門共同啟動(dòng)的大數(shù)據(jù)研究計(jì)劃中,絕大部分的研究項(xiàng)目都是針對(duì)大數(shù)據(jù)帶來的技術(shù)挑戰(zhàn),主要應(yīng)對(duì)大數(shù)據(jù)分析算法和系統(tǒng)的效率問題.1)大數(shù)據(jù)分析技術(shù).目前來看,海量數(shù)據(jù)中超過85%的數(shù)據(jù)都是半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),傳統(tǒng)的關(guān)系型數(shù)據(jù)庫已經(jīng)無法處理.根據(jù)CAP理論(Consistency,Availability,Partitionstolerance),一致性、可用性和容錯(cuò)性不可兼得,因此,關(guān)系型數(shù)據(jù)庫沒有良好的可擴(kuò)展性.以MapReduce和Hadoop為代表的非關(guān)系型數(shù)據(jù)庫的非關(guān)系型分析技術(shù)因其具

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論