大數(shù)據(jù)與云計算(論文)_第1頁
大數(shù)據(jù)與云計算(論文)_第2頁
大數(shù)據(jù)與云計算(論文)_第3頁
大數(shù)據(jù)與云計算(論文)_第4頁
大數(shù)據(jù)與云計算(論文)_第5頁
已閱讀5頁,還剩11頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

大數(shù)據(jù)與云計算摘要:近年來,大數(shù)據(jù)和云計算已經(jīng)成為社會各界關(guān)注的熱點話題。秉承“按需效勞〞理念的“云計算〔Cloudcomputing〕〞正高速開展,“數(shù)據(jù)即資源〞的“大數(shù)據(jù)〔bigdata〕〞時代已經(jīng)來臨[1]。大數(shù)據(jù)利用對數(shù)據(jù)處理的實時性、有效性提出了更高要求,需要根據(jù)大數(shù)據(jù)特點對傳統(tǒng)的常規(guī)數(shù)據(jù)處理技術(shù)進行技術(shù)變革,形成適用于大數(shù)據(jù)收集、存儲、管理、處理、分析、共享和可視化的技術(shù)。如何更好地管理和利用大數(shù)據(jù)已經(jīng)成為普遍關(guān)注的話題。大數(shù)據(jù)的規(guī)模效應(yīng)給數(shù)據(jù)存儲、管理以及數(shù)據(jù)分析帶來了極大的挑戰(zhàn),數(shù)據(jù)管理方式上的變革正在醞釀和發(fā)生。本文所提到的大數(shù)據(jù)包含著云計算,因為云計算是支撐大數(shù)據(jù)的平臺。關(guān)鍵詞:大數(shù)據(jù)云計算數(shù)據(jù)分析數(shù)據(jù)挖掘引言在學術(shù)界,大數(shù)據(jù)這一概念的提出相對較早。2023年9月,《自然》雜志就推出了名為“大數(shù)據(jù)〞(bigdata)的???。2023年5月,麥肯錫全球研究院發(fā)布了名為《大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的下一個前沿》(Bigdata:Thenextfrontierforinnovation,competition,andproductivity)的研究報告,指出大數(shù)據(jù)將成為企業(yè)的核心資產(chǎn),對海量數(shù)據(jù)的有效利用將成為企業(yè)在競爭中取勝的最有力武器。2023年,聯(lián)合國發(fā)布大數(shù)據(jù)政務(wù)白皮書,指出大數(shù)據(jù)可以使用極為豐富的數(shù)據(jù)資源來對社會經(jīng)濟進行前所未有的實時分析,幫助政府更好地響應(yīng)社會和經(jīng)濟運行。2023年3月29日,奧巴馬政府發(fā)布了《大數(shù)據(jù)研究與開展方案建議》,宣布啟動對大數(shù)據(jù)的研發(fā)方案,標志著美國把大數(shù)據(jù)提高到國家戰(zhàn)略層面,將“大數(shù)據(jù)研究〞上升為國家意志,對未來的科技與經(jīng)濟開展必將帶來深遠影響。大數(shù)據(jù)應(yīng)用正在風行全球,大數(shù)據(jù)精準營銷成為企業(yè)掌舵者的口頭禪,那么大數(shù)據(jù)真的是無懈可擊嗎?答案顯然是否認的。隨著互聯(lián)網(wǎng)和移動設(shè)備的普及,大數(shù)據(jù)已經(jīng)在我們的生活中無處不在,而有關(guān)大數(shù)據(jù)與隱私的問題也日益受到關(guān)注。毫無疑問,未來可以獲得的個人數(shù)據(jù)量越多,其中的信息量就越大。只要擁有了足夠多的數(shù)據(jù),我們甚至可能發(fā)現(xiàn)有關(guān)于一個人的未來信息。另外市場是變化無常并且不可預(yù)期的,決策者的創(chuàng)造性思維并不能通過數(shù)據(jù)得以表達,相反,大數(shù)據(jù)在壓制創(chuàng)新。大數(shù)據(jù)搜集到的數(shù)據(jù)的真實性也有待檢驗。一個人獲得的數(shù)據(jù)和事實越多,預(yù)測就越有意義,人的判斷也就顯得愈發(fā)重要。人類、數(shù)據(jù)集和算法的協(xié)同進化將最終決定“大數(shù)據(jù)〞究竟是會創(chuàng)造新財富,還是會摧毀舊價值。本文首先介紹了云計算的相關(guān)概念,云計算為大數(shù)據(jù)的誕生創(chuàng)造了物質(zhì)根底,從而引出大數(shù)據(jù)的相關(guān)概念。通過大數(shù)據(jù)與云計算之間關(guān)系的比擬,使讀者對大數(shù)據(jù)與云計算有一個清晰的了解。文章介紹了大數(shù)據(jù)特征、作用以及對大數(shù)據(jù)分析的方法理論,對大數(shù)據(jù)的兩種處理模式、處理流程以及關(guān)鍵技術(shù)進行了分析,提出MapReduce與關(guān)系數(shù)據(jù)庫融合技術(shù),為未來大數(shù)據(jù)的工作提供了一個參考。云計算簡介正如維克托教授所說,大數(shù)據(jù)的真實價值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,絕大局部都隱藏在外表之下。而開掘數(shù)據(jù)價值、征服數(shù)據(jù)海洋的“動力〞就是云計算[2]。本章首先對云計算進行相關(guān)介紹。1.1云計算的概念由于云計算是由不同的企業(yè)和研究機構(gòu)同步推進的技術(shù),所以關(guān)于云計算的定義有很多,至今并沒有一個公認的定義和標準。結(jié)合國際20位專家的定義,IanFoster定義云計算為一個由規(guī)模經(jīng)濟驅(qū)動的大型分布式計算模型,在該模型中,抽象的、虛擬化的、動態(tài)可伸縮的并可管理的計算資源、存儲資源、平臺和效勞構(gòu)成了一個資源池。資源池中的資源通過互聯(lián)網(wǎng),按需提供應(yīng)池外的用戶。文獻HYPERLINK[3]歸納的云計算定義為:云是由易于使用的虛擬資源構(gòu)成的一個巨大資源池,包括硬件資源、部署平臺以及相應(yīng)的效勞。根據(jù)不同的負載,這些資源可以動態(tài)地重新配置,以到達一個最理想的資源使用狀態(tài)。資源池中的資源是按需付費的,效勞提供商通過效勞等級協(xié)議〔ServiceLevelAgreement,SLA〕保證用戶的效勞質(zhì)量。綜合其他資料,可以將云計算歸納為:云計算以虛擬化技術(shù)為核心,虛擬化技術(shù)將共享的硬件和軟件資源抽象化成一個統(tǒng)一的資源池,通過互聯(lián)網(wǎng)這個載體,向用戶按需地提供所需的資源。其特點在于多用戶共享、大數(shù)據(jù)處理與大數(shù)據(jù)存儲[8]。云計算嚴格地來說并不是一種真正新的技術(shù),而是并行計算〔ParallelComputing,PC〕等計算模式的進一步演進。由于云計算的主要標準和方案是由企業(yè)推進的,也可以說云計算是分布式計算模型的商業(yè)實現(xiàn)。1.2云計算部署及效勞模式根據(jù)云計算效勞對象范圍的不同,云計算有四種部署模式〔如REF_Ref392339250\h圖1所示〕:私有云、社區(qū)云、公有云和混合云[10]。私有云(Privatecloud):云計算出現(xiàn)之前,對于數(shù)據(jù)密集型或計算密集型任務(wù),用戶需要建立數(shù)據(jù)中心來提供效勞,以滿足其對數(shù)據(jù)存儲、計算、通信能力的要求。用戶需對數(shù)據(jù)中心進行運維和平安管理,對效勞器上的數(shù)據(jù)和應(yīng)用具有所有權(quán)和控制權(quán)。云計算出現(xiàn)后,這種傳統(tǒng)的用戶/效勞提供者模式逐漸開展成私有云模式。私有云是由一個用戶組織〔例如政府、軍隊,企業(yè)〕建立運維的云計算平臺,專供組織內(nèi)部人員使用,不提供對外效勞。私有云能夠表達云計算的局部優(yōu)勢,例如計算資源的統(tǒng)一管理和動態(tài)分配。但是,私有云仍要求組織購置根底設(shè)施,建立大型數(shù)據(jù)中心,投入人力物力來維護數(shù)據(jù)中心的正常運轉(zhuǎn),由此可見,私有云系統(tǒng)提高了組織的IT本錢,而且使云的規(guī)模受到了限制。由于私有云的開放性不高,在幾種部署模式中,私有云的平安威脅相對較少。社區(qū)云(Communitycloud):也稱為機構(gòu)云,云根底設(shè)施由多個組織共同提供,平臺由多個組織共同管理。社區(qū)云被一些組織共享,為一個有共同關(guān)注點〔例如,任務(wù)、平安需求、策略或政策準那么等〕的社區(qū)或大機構(gòu)提供效勞。顯然,社區(qū)云的規(guī)模要大于私有云,多個私有云可通過VPN連接到一起組成社區(qū)云,以滿足多個私有云組織之間整合和平安共享的需求。公有云(Publiccloud):公有云的根底設(shè)施由一個提供云計算效勞的大型運營組織建立和運維,該運營組織一般是擁有大量計算資源的IT巨頭,例如Google、微軟、Amazon、百度等大型企業(yè)。這些IT公司將云計算效勞以“按需購置〞的方式銷售給一般用戶或中小企業(yè)群體。用戶只需將請求提交給云計算系統(tǒng),付費租用所需的資源和效勞。對用戶來說,不需要再投入本錢建立數(shù)據(jù)中心,不需要進行系統(tǒng)的維護,可以專心開發(fā)核心的應(yīng)用效勞。目前,亞馬遜的EC2、GoogleAppEngine、WindowsAzure[9]、百度云等都屬于公有云計算系統(tǒng)。由于公有云的開放性較高,而用戶又失去了對數(shù)據(jù)和計算的控制權(quán),因此,與私有云相比,公有云的數(shù)據(jù)平安威脅更為突出?;旌显?Hybridcloud):云根底設(shè)施是由兩種或兩種以上的云〔私有云、社區(qū)云或公有云〕組成,每種云仍然保持獨立,但用標準的或?qū)S玫募夹g(shù)將它們組合起來,具有數(shù)據(jù)和應(yīng)用程序的可移植性,例如混合云可以在云之間通過負載均衡技術(shù)應(yīng)付突發(fā)負載。由于混合云可以是私有云和公有云的組合,某些用戶選擇將敏感數(shù)據(jù)和計算外包到私有云,而將非敏感數(shù)據(jù)和計算外包到公有云中,這種使用模式下,效勞在不同云之間的平安無縫連接較難實現(xiàn)。圖SEQ圖\*ARABIC1云計算的幾種部署模式計算就要有計算環(huán)境,一般計算環(huán)境都有硬件的一層,資源組合調(diào)度的一層〔即操作系統(tǒng)層〕,以及計算任務(wù)的應(yīng)用業(yè)務(wù)的軟件層。云計算與一般計算環(huán)境的三個層面類似,云計算提供的三種效勞模式就對應(yīng)了計算環(huán)境的三個層面。這三種效勞模式分別是根底設(shè)施即效勞IaaS(InfrastructureasaService)、平臺即效勞PaaS(PlatformasaService)以及軟件即效勞SaaS(SoftwareasaService)。云平安聯(lián)盟CSA給出了云計算平臺的體系結(jié)構(gòu),涵蓋了上述三種效勞模式〔如REF_Ref392339542\h圖2所示〕。圖SEQ圖\*ARABIC2云計算平臺的體系結(jié)構(gòu)IaaS將計算、存儲、通信資源封裝為效勞提供應(yīng)云用戶,用戶相當于使用裸機,能夠部署和運行任意軟件。IaaS提供計算資源最常用的方式是虛擬機(VirtualMachine,VM),典型效勞有Amazon的EC2等。IaaS提供存儲資源的效勞能夠為用戶提供海量數(shù)據(jù)存儲和訪問效勞,這種存儲效勞也被單獨稱為DaaS(DataasaService)。提供存儲資源的典型效勞有Amazon的S3,Google的GFS等。IaaS可以提供高速網(wǎng)絡(luò)和通信效勞,這種效勞也被稱為CaaS(CommunicationasaService),提供網(wǎng)絡(luò)和通信資源的典型效勞有OpenFlow。PaaS是在根底設(shè)施與應(yīng)用之間的重要一層,PaaS將根底設(shè)施資源進行整合,為用戶提供基于互聯(lián)網(wǎng)的應(yīng)用開發(fā)環(huán)境,包括應(yīng)用編程接口和運行平臺等,方便了應(yīng)用與根底設(shè)施之間的交互。典型的PaaS平臺有Google的MapReduce框架,應(yīng)用執(zhí)行環(huán)境GoogleAppEngine,微軟公司的MicrosoftAzureServices。SaaS即云應(yīng)用軟件,為用戶提供直接為其所用的軟件。SaaS一般面向終端用戶,特別是“瘦終端〞。終端用戶利用web瀏覽器,通過網(wǎng)絡(luò)就可以獲得所需的或定制的云應(yīng)用效勞。終端用戶不具有網(wǎng)絡(luò)、操作系統(tǒng)、存儲等底層云根底設(shè)施的控制權(quán),也不能控制應(yīng)用的執(zhí)行過程,只有非常有限的與應(yīng)用相關(guān)的配置能力。SaaS使用戶以最小的開發(fā)和管理開銷獲得定制的應(yīng)用。典型的SaaS效勞有Salesforce公司的CRM系統(tǒng),GoogleDocs等。1.3云計算的特點和優(yōu)勢云計算作為分布式計算的優(yōu)勢:分布式系統(tǒng)的最大優(yōu)勢就是因為其具有比集中式系統(tǒng)更好的性能價格比,用戶花少量的錢就能獲得高效能計算。由于“云〞的特殊容錯措施可以采用極其廉價的節(jié)點來構(gòu)成云,“云〞的自動化集中式管理使大量企業(yè)無需負擔日益高昂的數(shù)據(jù)中心管理本錢,“云〞的通用性使資源的利用率較之傳統(tǒng)系統(tǒng)大幅提升,因此用戶可以充分享受“云〞的低本錢優(yōu)勢。多數(shù)應(yīng)用本身就是分布式的。如工業(yè)企業(yè)應(yīng)用,管理部門和現(xiàn)場不在同一個地方的應(yīng)用。虛擬化。云計算支持用戶在任意位置、使用各種終端獲取應(yīng)用效勞。所請求的資源來自“云〞,而不是固定的有形的實體。應(yīng)用在“云〞中某處運行,但實際上用戶無需了解、也不用擔憂應(yīng)用運行的具體位置。只需要一臺筆記本或者一個,就可以通過網(wǎng)絡(luò)效勞來實現(xiàn)我們需要的一切,甚至包括超級計算這樣的任務(wù)。高可靠性。冗余不僅是生物進化的必要條件,而且也是信息技術(shù)。現(xiàn)代分布式系統(tǒng)具有高度容錯機制,控制核反響堆主要采用分布式來實現(xiàn)高可靠性。通用性。云計算不針對特定的應(yīng)用,在“云〞的支撐下可以構(gòu)造出千變?nèi)f化的應(yīng)用,同一個“云〞可以同時支撐不同的應(yīng)用運行??蓴U展性。添置一臺性能更高的大型機,或者添置一臺性能相同的大型機的費用都比添加幾臺PC的費用高得多。高度靈活性。能夠兼容不同硬件廠商的產(chǎn)品,兼容低配置機器和外設(shè)而獲得高性能計算。云計算在存儲領(lǐng)域的開展趨勢和優(yōu)勢:用戶不必為文件存儲硬件投入任何前期的費用。主機效勞提供商會維護用戶文件效勞器的平安和更新問題。方便的控制訪問權(quán)限和文件資源管理。大數(shù)據(jù)概述云計算的蓬勃開展,客觀上開起來大數(shù)據(jù)時代的大門。大數(shù)據(jù)是云計算的靈魂和升級方向。云計算為大數(shù)據(jù)提供的存儲的空間和訪問的渠道。圖SEQ圖\*ARABIC3各地云方案工程是大數(shù)據(jù)誕生的前提[9]微軟公司全球資深副總裁、亞太研發(fā)集團主席張亞勤博士認為“云計算和大數(shù)據(jù)是一個硬幣的兩面,云計算是大數(shù)據(jù)的IT根底,而大數(shù)據(jù)是云計算的一個殺手級應(yīng)用〞[4]。隨著物聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)、社會化網(wǎng)絡(luò)的快速開展,企業(yè)數(shù)據(jù)的增長迅速,半結(jié)構(gòu)化及非結(jié)構(gòu)化的數(shù)據(jù)呈幾何倍數(shù)增長。數(shù)據(jù)來源的渠道也逐漸增多,這不光包括了本地的文檔、音視頻,還包括了網(wǎng)絡(luò)內(nèi)容和社交媒體。大數(shù)據(jù)的時代已然來臨,并給各行各業(yè)帶來了根本性變革。2.1何謂大數(shù)據(jù)人、機、物三元世界的高度融合引發(fā)了數(shù)據(jù)規(guī)模的爆炸式增長和數(shù)據(jù)模式的高度復雜化,世界已進入網(wǎng)絡(luò)化的大數(shù)據(jù)〔BigData〕時代。以數(shù)據(jù)為中心的傳統(tǒng)學科〔如基因組學、蛋白組學,天體物理學和腦科學等〕的研究產(chǎn)生了越來越多的數(shù)據(jù)。例如,用電子顯微鏡重建大腦中的突觸網(wǎng)絡(luò),1立方毫米大腦的圖像數(shù)據(jù)就超過1PB。但近年來大數(shù)據(jù)的飆升主要還是來自日常生活,特別是互聯(lián)網(wǎng)公司的效勞。據(jù)著名咨詢公司IDC的統(tǒng)計,2023年全球被創(chuàng)立和復制的數(shù)據(jù)總量為1.8ZB〔10的21次方〕,其中75%來自于個人〔主要是圖片、視頻和音樂〕,遠遠超過人類有史以來所有印刷材料的數(shù)據(jù)總量〔200PB〕。Google公司通過大規(guī)模集群和MapReduce軟件,每月處理的數(shù)據(jù)量超過400PB;百度每天大約要處理幾十PB數(shù)據(jù);Facebook注冊用戶超過10億,每月上傳的照片超過10億張,每天生成300TB以上的日志數(shù)據(jù);淘寶網(wǎng)會員超過3.7億,在線商品超過8.8億,每天交易數(shù)千萬筆,產(chǎn)生約20TB數(shù)據(jù)。傳感網(wǎng)和物聯(lián)網(wǎng)的蓬勃開展是大數(shù)據(jù)的又一推動力,各個城市的視頻監(jiān)控每時每刻都在采集巨量的流媒體數(shù)據(jù)。工業(yè)設(shè)備的監(jiān)控也是大數(shù)據(jù)的重要來源。例如,勞斯萊斯公司對全世界數(shù)以萬計的飛機引擎進行實時監(jiān)控,每年傳送PB數(shù)量級的數(shù)據(jù)[5]。一般意義上,大數(shù)據(jù)是指無法在可容忍的時間內(nèi)用傳統(tǒng)IT技術(shù)和軟硬件工具對其進行感知、獲取、管理、處理和效勞的數(shù)據(jù)集合。大數(shù)據(jù)的特點可以總結(jié)為4個V,即Volume〔體量浩大〕、Vari-ety〔模態(tài)繁多〕、Velocity〔生成快速〕和Value〔價值巨大但密度很低〕。首先,數(shù)據(jù)集合的規(guī)模不斷擴大,已從GB到TB再到PB級,甚至開始以EB和ZB來計數(shù)。IDC的研究報告稱,未來10年全球大數(shù)據(jù)將增加50倍,管理數(shù)據(jù)倉庫的效勞器數(shù)量將增加10倍。其次,大數(shù)據(jù)類型繁多,包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)?,F(xiàn)代互聯(lián)網(wǎng)應(yīng)用呈現(xiàn)出非結(jié)構(gòu)化數(shù)據(jù)大幅增長的特點,至2023年末,非結(jié)構(gòu)化數(shù)據(jù)占有比例將到達整個數(shù)據(jù)量的75%以上。同時,由于數(shù)據(jù)顯性或隱性的網(wǎng)絡(luò)化存在,使得數(shù)據(jù)之間的復雜關(guān)聯(lián)無所不在。再次,大數(shù)據(jù)往往以數(shù)據(jù)流的形式動態(tài)、快速地產(chǎn)生,具有很強的時效性,用戶只有把握好對數(shù)據(jù)流的掌控才能有效利用這些數(shù)據(jù)。另外,數(shù)據(jù)自身的狀態(tài)與價值也往往隨時空變化而發(fā)生演變,數(shù)據(jù)的涌現(xiàn)特征明顯。最后,雖然數(shù)據(jù)的價值巨大,但是基于傳統(tǒng)思維與技術(shù),人們在實際環(huán)境中往往面臨信息泛濫而知識匱乏的窘態(tài),大數(shù)據(jù)的價值利用密度低。維克托·爾耶·舍恩伯格明確指出,大數(shù)據(jù)時代最大的轉(zhuǎn)變就是,放棄對因果關(guān)系的渴求,而取而代之關(guān)注相關(guān)關(guān)系。也就是說只要知道“是什么〞,而不需要知道“為什么〞。這顛覆了千百年來人類的思維慣例,對人類的認知和與世界交流的方式提出了全新的挑戰(zhàn)。2.2從數(shù)據(jù)庫(database,DB)到大數(shù)據(jù)(bigdata,BD)從數(shù)據(jù)庫到大數(shù)據(jù),看似只是一個簡單的技術(shù)演進,但細細考究不難發(fā)現(xiàn)兩者有著本質(zhì)上的差異。大數(shù)據(jù)的出現(xiàn)必將顛覆傳統(tǒng)的數(shù)據(jù)管理方式。在數(shù)據(jù)來源)數(shù)據(jù)處理方式和數(shù)據(jù)思維等方面都會對其帶來革命性的變化[6]。如果要用簡單的方式來比擬傳統(tǒng)的數(shù)據(jù)庫和大數(shù)據(jù)的區(qū)別,我們認為“池塘捕魚〞和“大海捕魚〞是個很好的類比?!俺靥敛遏~〞代表著傳統(tǒng)數(shù)據(jù)庫時代的數(shù)據(jù)管理方式,而“大海捕魚〞那么對應(yīng)著大數(shù)據(jù)時代的數(shù)據(jù)管理方式,“魚〞是待處理的數(shù)據(jù)。“捕魚〞環(huán)境條件的變化導致了“捕魚〞方式的根本性差異。這些差異主要表達在如下幾個方面:數(shù)據(jù)規(guī)模?!俺靥哩暫汀按蠛(曌钊菀装l(fā)現(xiàn)的區(qū)別就是規(guī)模?!俺靥哩曇?guī)模相對較小,即便是先前認為比擬大的“池塘〞,譬如CLDB〔verylargedatabase〕,和“大海〞XLDB〔extremelylargedatabase〕相比仍舊偏小?!俺靥哩暤奶幚韺ο笸ǔR訫B為根本單位,而“大海〞那么常常GB,甚至是TB,PB為根本處理單位。數(shù)據(jù)類型。過去的“池塘〞中,數(shù)據(jù)的種類單一,往往僅僅有一種或少數(shù)幾種,這些數(shù)據(jù)又以結(jié)構(gòu)化數(shù)據(jù)為主。而在“大海〞中數(shù)據(jù)的種類繁多“數(shù)以千計〞而這些數(shù)據(jù)又包含著結(jié)構(gòu)化、半結(jié)構(gòu)化以及非結(jié)構(gòu)化的數(shù)據(jù)〞并且半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)所占份額越來越大。模式〔schema〕和數(shù)據(jù)的關(guān)系。傳統(tǒng)的數(shù)據(jù)庫都是先有模式,然后才會產(chǎn)生數(shù)據(jù)。這就好比是先選好適宜的“池塘〞,然后才會向其中投放適合在該“池塘〞環(huán)境生長的“魚〞。而大數(shù)據(jù)時代很多情況下難以預(yù)先確定模式,模式只有在數(shù)據(jù)出現(xiàn)之后才能確定,且模式隨著數(shù)據(jù)量的增長處于不斷的演變之中。這就好比先有少量的魚類,隨著時間推移,魚的種類和數(shù)量都在不斷地增長。魚的變化會使大海的成分和環(huán)境處于不斷的變化之中。處理對象。在“池塘〞中捕魚,“魚〞僅僅是其捕撈對象。而在“大海〞中,“魚〞除了是捕撈對象之外,還可以通過某些“魚〞的存在來判斷其他種類的“魚〞是否存在。也就是說傳統(tǒng)數(shù)據(jù)庫中數(shù)據(jù)僅作為處理對象。而在大數(shù)據(jù)時代,要將數(shù)據(jù)作為一種資源來輔助解決其他諸多領(lǐng)域的問題。處理工具。捕撈“池塘〞中的“魚〞,一種漁網(wǎng)或少數(shù)幾種根本就可以應(yīng)對,也就是所謂的Onesizefitsall。但是在“大海〞中,不可能存在一種漁網(wǎng)能夠捕獲所有的魚類,也就是說Nosizefitsall。從“池塘〞到“大海〞"不僅僅是規(guī)模的變大。傳統(tǒng)的數(shù)據(jù)庫代表著數(shù)據(jù)工程(dataengineering)的處理方式,大數(shù)據(jù)時代的數(shù)據(jù)已不僅僅只是工程處理的對象,需要采取新的數(shù)據(jù)思維來應(yīng)對。圖靈獎獲得者、著名數(shù)據(jù)庫專家JimGray博士觀察并總結(jié)人類自古以來,在科學研究上,先后歷經(jīng)了實驗、理論和計算3種范式。當數(shù)據(jù)量不斷增長和累積到今天,傳統(tǒng)的3種范式在科學研究,特別是一些新的研究領(lǐng)域已經(jīng)無法很好地發(fā)揮作用,需要有一種全新的第4種范式來指導新形勢下的科學研究?;谶@種考慮,JimGray提出了一種新的數(shù)據(jù)探索型研究方式,被他自己稱之為科學研究的“第4種范式〞〔TheFourthParadigm〕。4種范式的比擬如REF_Ref392345145\h表1所示。第4種范式的實質(zhì)就是從以計算為中心轉(zhuǎn)變到以數(shù)據(jù)處理為中心,也就是我們所說的數(shù)據(jù)思維。這種方式需要我們從根本上轉(zhuǎn)變思維。正如前面提到的“捕魚〞,在大數(shù)據(jù)時代,數(shù)據(jù)不再僅僅是“捕撈〞的對象,而應(yīng)當轉(zhuǎn)變成一種根底資源,用數(shù)據(jù)這種資源來協(xié)同解決其他諸多領(lǐng)域的問題。計算社會科學(computationalsocialscience)基于特定社會需求,在特定的社會理論指導下,收集$整理和分析數(shù)據(jù)足跡(dataprint),以便進行社會解釋$監(jiān)控$預(yù)測與規(guī)劃的過程和活動。計算社會科學是一種典型的需要采用第4種范式來作指導的科學研究領(lǐng)域。Watts在《Nature》雜志上的文章“Atwenty-firstcenturyscience〞也指出,借助于社交網(wǎng)絡(luò)和計算機分析技術(shù),21世紀的社會科學有可能實現(xiàn)定量化的研究,從而成為一門真正的自然科學。表SEQ表\*ARABIC1科學發(fā)現(xiàn)的4中范式2.3大數(shù)據(jù)與云計算的關(guān)系近幾年來,云計算受到學術(shù)界和工業(yè)界的熱捧,隨后,大數(shù)據(jù)橫空出世,更是炙手可熱。那么,大數(shù)據(jù)和云計算之間是什么關(guān)系呢?從整體上看,大數(shù)據(jù)與云計算是相輔相成的大數(shù)據(jù)著眼于“數(shù)據(jù)〞,關(guān)注實際業(yè)務(wù),提供數(shù)據(jù)采集分析挖掘,看重的是信息積淀,即數(shù)據(jù)存儲能力。云計算著眼于“計算〞,關(guān)注

IT

解決方案,提供

IT

根底架構(gòu),看重的是計算能力,即數(shù)據(jù)處理能力。沒有大數(shù)據(jù)的信息積淀,那么云計算的計算能力再強大,也難以找到用武之地;沒有云計算的處理能力,那么大數(shù)據(jù)的信息積淀再豐富,也終究只是鏡花水月。從技術(shù)上看,大數(shù)據(jù)根植于云計算云計算關(guān)鍵技術(shù)中的海量數(shù)據(jù)存儲技術(shù)、海量數(shù)據(jù)管理技術(shù)、MapReduce編程模型,都是大數(shù)據(jù)技術(shù)的根底〔如REF_Ref392342192\h圖4所示〕。圖SEQ圖\*ARABIC4大數(shù)據(jù)的關(guān)鍵技術(shù)大數(shù)據(jù)技術(shù)與云計算有相同,也有差異〔如REF_Ref392342198\h圖5所示〕。圖SEQ圖\*ARABIC5大數(shù)據(jù)與云計算的異同云計算與大數(shù)據(jù)的不同之處在于應(yīng)用的不同,主要在兩個方面:第一,在概念上兩者有所不同,云計算改變了IT,而大數(shù)據(jù)那么改變了業(yè)務(wù)。然而大數(shù)據(jù)必須有云作為根底架構(gòu),才能得以順暢運營。第二,大數(shù)據(jù)和云計算的目標受眾不同,云計算是賣給CIO的技術(shù)和產(chǎn)品,是一個進階的IT解決方案。而大數(shù)據(jù)是賣給CEO、賣給業(yè)務(wù)層的產(chǎn)品,大數(shù)據(jù)的決策者是業(yè)務(wù)層。由于他們能直接感受到來自市場競爭的壓力,必須在業(yè)務(wù)上以更有競爭力的方式戰(zhàn)勝對手。大數(shù)據(jù)技術(shù)與云計算相結(jié)合會帶來什么?如REF_Ref392350146\h圖6所示圖SEQ圖\*ARABIC6大數(shù)據(jù)與云計算結(jié)合大數(shù)據(jù)的特征、作用及分析3.1大數(shù)據(jù)的特征一是數(shù)據(jù)體量巨大。百度資料說明,其新首頁導航每天需要提供的數(shù)據(jù)超過1.5PB〔1PB=1024TB〕,這些數(shù)據(jù)如果打印出來將超過5千億張A4紙。有資料證實,到目前為止,人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量僅為200PB。二是數(shù)據(jù)類型多樣?,F(xiàn)在的數(shù)據(jù)類型不僅是文本形式,更多的是圖片、視頻、音頻、地理位置信息等多類型的數(shù)據(jù),個性化數(shù)據(jù)占絕對多數(shù)。三是處理速度快。數(shù)據(jù)處理遵循“1秒定律〞,可從各種類型的數(shù)據(jù)中快速獲得高價值的信息。四是價值密度低。以視頻為例,一小時的視頻,在不間斷的監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅只有一兩秒。3.2大數(shù)據(jù)的作用第一,對大數(shù)據(jù)的處理分析正成為新一代信息技術(shù)融合應(yīng)用的結(jié)點。移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、社交網(wǎng)絡(luò)、數(shù)字家庭、電子商務(wù)等是新一代信息技術(shù)的應(yīng)用形態(tài),這些應(yīng)用不斷產(chǎn)生大數(shù)據(jù)。云計算為這些海量、多樣化的大數(shù)據(jù)提供存儲和運算平臺。通過對不同來源數(shù)據(jù)的管理、處理、分析與優(yōu)化,將結(jié)果反響到上述應(yīng)用中,將創(chuàng)造出巨大的經(jīng)濟和社會價值。大數(shù)據(jù)具有催生社會變革的能量。但釋放這種能量,需要嚴謹?shù)臄?shù)據(jù)治理、富有洞見的數(shù)據(jù)分析和激發(fā)管理創(chuàng)新的環(huán)境(RamayyaKrishnan,卡內(nèi)基·梅隆大學海因茲學院院長)。第二,大數(shù)據(jù)是信息產(chǎn)業(yè)持續(xù)高速增長的新引擎。面向大數(shù)據(jù)市場的新技術(shù)、新產(chǎn)品、新效勞、新業(yè)態(tài)會不斷涌現(xiàn)。在硬件與集成設(shè)備領(lǐng)域,大數(shù)據(jù)將對芯片、存儲產(chǎn)業(yè)產(chǎn)生重要影響,還將催生一體化數(shù)據(jù)存儲處理效勞器、內(nèi)存計算等市場。在軟件與效勞領(lǐng)域,大數(shù)據(jù)將引發(fā)數(shù)據(jù)快速處理分析、數(shù)據(jù)挖掘技術(shù)和軟件產(chǎn)品的開展。第三,大數(shù)據(jù)利用將成為提高核心競爭力的關(guān)鍵因素。各行各業(yè)的決策正在從“業(yè)務(wù)驅(qū)動〞轉(zhuǎn)變“數(shù)據(jù)驅(qū)動〞。對大數(shù)據(jù)的分析可以使零售商實時掌握市場動態(tài)并迅速做出應(yīng)對;可以為商家制定更加精準有效的營銷策略提供決策支持;可以幫助企業(yè)為消費者提供更加及時和個性化的效勞;在醫(yī)療領(lǐng)域,可提高診斷準確性和藥物有效性;在公共事業(yè)領(lǐng)域,大數(shù)據(jù)也開始發(fā)揮促進經(jīng)濟開展、維護社會穩(wěn)定等方面的重要作用。第四,大數(shù)據(jù)時代科學研究的方法手段將發(fā)生重大改變。例如,抽樣調(diào)查是社會科學的根本研究方法。在大數(shù)據(jù)時代,可通過實時監(jiān)測、跟蹤研究對象在互聯(lián)網(wǎng)上產(chǎn)生的海量行為數(shù)據(jù),進行挖掘分析,揭示出規(guī)律性的東西,提出研究結(jié)論和對策。3.3大數(shù)據(jù)的分析從所周知,大數(shù)據(jù)已經(jīng)不簡簡單單是數(shù)據(jù)大的事實了,而最重要的現(xiàn)實是對大數(shù)據(jù)進行分析,只有通過分析才能獲取很多智能的,深入的,有價值的信息。那么越來越多的應(yīng)用涉及到大數(shù)據(jù),而這些大數(shù)據(jù)的屬性,包括數(shù)量,速度,多樣性等等都是呈現(xiàn)了大數(shù)據(jù)不斷增長的復雜性,所以大數(shù)據(jù)的分析方法在大數(shù)據(jù)領(lǐng)域就顯得尤為重要,可以說是決定最終信息是否有價值的決定性因素。基于如此的認識,大數(shù)據(jù)分析普遍存在的方法理論有哪些呢?可視化分析。大數(shù)據(jù)分析的使用者有大數(shù)據(jù)分析專家,同時還有普通用戶,但是他們二者對于大數(shù)據(jù)分析最根本的要求就是可視化分析,因為可視化分析能夠直觀的呈現(xiàn)大數(shù)據(jù)特點,同時能夠非常容易被讀者所接受,就如同看圖說話一樣簡單明了。數(shù)據(jù)挖掘算法。大數(shù)據(jù)分析的理論核心就是數(shù)據(jù)挖掘算法,各種數(shù)據(jù)挖掘的算法基于不同的數(shù)據(jù)類型和格式才能更加科學的呈現(xiàn)出數(shù)據(jù)本身具備的特點,也正是因為這些被全世界統(tǒng)計學家所公認的各種統(tǒng)計方法〔可以稱之為真理〕才能深入數(shù)據(jù)內(nèi)部,挖掘出公認的價值。另外一個方面也是因為有這些數(shù)據(jù)挖掘的算法才能更快速的處理大數(shù)據(jù),如果一個算法得花上好幾年才能得出結(jié)論,那大數(shù)據(jù)的價值也就無從說起了。預(yù)測性分析。大數(shù)據(jù)分析最終要的應(yīng)用領(lǐng)域之一就是預(yù)測性分析,從大數(shù)據(jù)中挖掘出特點,通過科學的建立模型,之后便可以通過模型帶入新的數(shù)據(jù),從而預(yù)測未來的數(shù)據(jù)。語義引擎。非結(jié)構(gòu)化數(shù)據(jù)的多元化給數(shù)據(jù)分析帶來新的挑戰(zhàn),我們需要一套工具系統(tǒng)的去分析,提煉數(shù)據(jù)。語義引擎需要設(shè)計到有足夠的人工智能以足以從數(shù)據(jù)中主動地提取信息。數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理。大數(shù)據(jù)分析離不開數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理,高質(zhì)量的數(shù)據(jù)和有效的數(shù)據(jù)管理,無論是在學術(shù)研究還是在商業(yè)應(yīng)用領(lǐng)域,都能夠保證分析結(jié)果的真實和有價值。大數(shù)據(jù)分析的根底就是以上五個方面,當然更加深入大數(shù)據(jù)分析的話,還有很多很多更加有特點的、更加深入的、更加專業(yè)的大數(shù)據(jù)分析方法。大數(shù)據(jù)處理框架4.1大數(shù)據(jù)處理模式大數(shù)據(jù)的應(yīng)用類型有很多,主要的處理模式可以分為流處理〔streamprocess〕和批處理〔batchprocessing〕兩種。批處理是先存儲后處理〔store-then-process〕,而流處理那么是直接處理〔straight-throughprocessing〕[7]。流處理流處理的根本理念是數(shù)據(jù)的價值會隨著時間的流逝而不斷減少,因此盡可能快地對最新的數(shù)據(jù)作出分析并給出結(jié)果是所有流數(shù)據(jù)處理模式的共同目標。需要采用流數(shù)據(jù)處理的大數(shù)據(jù)應(yīng)用場景主要有網(wǎng)頁點擊數(shù)的實時統(tǒng)計、傳感器網(wǎng)絡(luò)、金融中的高頻交易等。流處理的處理模式將數(shù)據(jù)視為流,源源不斷的數(shù)據(jù)組成了數(shù)據(jù)流。當新的數(shù)據(jù)到來時就立刻處理并返回所需的結(jié)果。REF_Ref392351261\h圖7是流處理中根本的數(shù)據(jù)流模型:圖SEQ圖\*ARABIC7根本的數(shù)據(jù)流模型數(shù)據(jù)的實時處理是一個很有挑戰(zhàn)性的工作,數(shù)據(jù)流本身具有持續(xù)到達%速度快且規(guī)模巨大等特點,因此通常不會對所有的數(shù)據(jù)進行永久化存儲,而且數(shù)據(jù)環(huán)境處在不斷的變化之中,系統(tǒng)很難準確掌握整個數(shù)據(jù)的全貌。由于響應(yīng)時間的要求,流處理的過程根本在內(nèi)存中完成,其處理方式更多地依賴于在內(nèi)存中設(shè)計巧妙的概要數(shù)據(jù)結(jié)構(gòu),內(nèi)存容量是限制流處理模型的一個主要瓶頸。以PCM(相變存儲器)為代表的儲存級內(nèi)存設(shè)備的出現(xiàn)或許可以使內(nèi)存未來不再成為流處理模型的制約。數(shù)據(jù)流的理論及技術(shù)研究已經(jīng)有十幾年的歷史,目前仍舊是研究熱點。與此同時很多實際系統(tǒng)也已開發(fā)和得到廣泛的應(yīng)用,比擬代表性的開源系統(tǒng)如Twitter的Storm、Yahoo的S4以及Linkedin的Kafka等。批處理Google公司在2004年提出的MapReduce編程模型是最具代表性的批處理模式。一個完整的MapReduce過程如所示。圖SEQ圖\*ARABIC8MapReduce執(zhí)行流程圖MapReduce模型首先將用戶的原始數(shù)據(jù)源進行分塊,然后分別交給不同的Map任務(wù)區(qū)處理。Map任務(wù)從輸入中解析出鏈/值(Key/Value)對集合。然后對這些集合執(zhí)行用戶自行定義的Map函數(shù)得到中間結(jié)果,并將該結(jié)果寫入本地硬盤。Reduce任務(wù)從硬盤上讀取數(shù)據(jù)之后會根據(jù)Key值進行排序,將具有相同Key值的組織在一起。最后用戶自定義的Reduce函數(shù)會作用于這些排好序的結(jié)果并輸出最終結(jié)果。4.2大數(shù)據(jù)處理的根本流程大數(shù)據(jù)的數(shù)據(jù)來源廣泛!應(yīng)用需求和數(shù)據(jù)類型都不盡相同!但是最根本的處理流程一致。海量Web數(shù)據(jù)的處理是一類非常典型的大數(shù)據(jù)應(yīng)用,從中可以歸納出大數(shù)據(jù)處理的最根本流程。圖SEQ圖\*ARABIC9大數(shù)據(jù)處理根本流程整個大數(shù)據(jù)的處理流程可以定義為在適宜工具的輔助下,對廣泛異構(gòu)的數(shù)據(jù)源進行抽取和集成,結(jié)果按照一定的標準統(tǒng)一存儲。利用適宜的數(shù)據(jù)分析技術(shù)對存儲的數(shù)據(jù)進行分析,從中提取有益的知識并利用恰當?shù)姆绞綄⒔Y(jié)果展現(xiàn)給終端用戶。具體來說可以分為數(shù)據(jù)抽取與集成、數(shù)據(jù)分析以及數(shù)據(jù)解釋。數(shù)據(jù)抽取與集成大數(shù)據(jù)的一個重要特點就是多樣性,這就意味著數(shù)據(jù)來源極其廣泛,數(shù)據(jù)類型極為繁雜,這種復雜的數(shù)據(jù)環(huán)境給大數(shù)據(jù)的處理帶來極大的挑戰(zhàn)。要想處理大數(shù)據(jù),首先必須對所需數(shù)據(jù)源的數(shù)據(jù)進行抽取和集成,從中提取出關(guān)系和實體,經(jīng)過關(guān)聯(lián)和聚合之后采用統(tǒng)一定義的結(jié)構(gòu)來存儲這些數(shù)據(jù)。在數(shù)據(jù)集成和提取時需要對數(shù)據(jù)進行清洗,保證數(shù)據(jù)質(zhì)量及可信性。同時還要特別注意前面提及的大數(shù)據(jù)時代模式和數(shù)據(jù)的關(guān)系,大數(shù)據(jù)時代的數(shù)據(jù)往往是先有數(shù)據(jù)再有模式,且模式是在不斷的動態(tài)演化之中的。數(shù)據(jù)抽取和集成技術(shù)不是一項全新的技術(shù),傳統(tǒng)數(shù)據(jù)庫領(lǐng)域已對此問題有了比擬成熟的研究。隨著新的數(shù)據(jù)源的涌現(xiàn)"數(shù)據(jù)集成方法也在不斷的開展之中。從數(shù)據(jù)集成模型來看,現(xiàn)有的數(shù)據(jù)抽取與集成方式可以大致分為以下4種類型:基于物化或ETL方法的引擎、基于聯(lián)邦數(shù)據(jù)庫或中間件方法的引擎、基于數(shù)據(jù)流方法的引擎、及基于搜索引擎的方法數(shù)據(jù)分析數(shù)據(jù)分析是整個大數(shù)據(jù)處理流程的核心,因為大數(shù)據(jù)的價值產(chǎn)生于分析過程。從異構(gòu)數(shù)據(jù)源抽取和集成的數(shù)據(jù)構(gòu)成了數(shù)據(jù)分析的原始數(shù)據(jù)。根據(jù)不同應(yīng)用的需求可以從這些數(shù)據(jù)中選擇全部或局部進行分析。傳統(tǒng)的分析技術(shù)如數(shù)據(jù)挖掘、機器學習、統(tǒng)計分析等在大數(shù)據(jù)時代需要作出調(diào)整。大數(shù)據(jù)分析已被廣泛應(yīng)用于諸多領(lǐng)域,典型的有推薦系統(tǒng)、商業(yè)智能、決策支持等。數(shù)據(jù)解釋數(shù)據(jù)分析是大數(shù)據(jù)處理的核心,但是用戶往往更關(guān)心結(jié)果的展示。如果分析的結(jié)果正確但是沒有采用適當?shù)慕忉尫椒ǎ敲此玫降慕Y(jié)果很可能讓用戶難以理解,極端情況下甚至會誤導用戶。數(shù)據(jù)解釋的方法很多,比擬傳統(tǒng)的就是以文本形式輸出結(jié)果或者直接在電腦終端上顯示結(jié)果。這種方法在面對小數(shù)據(jù)量時是一種很好的選擇。但是大數(shù)據(jù)時代的數(shù)據(jù)分析結(jié)果往往也是海量的,同時結(jié)果之間的關(guān)聯(lián)關(guān)系極其復雜,采用傳統(tǒng)的解釋方法根本不可行??梢钥紤]引入可視化技術(shù)、讓用戶能夠在一定程度上了解和參與具體的分析過程這兩個方面提升數(shù)據(jù)解釋能力。4.3關(guān)鍵技術(shù)分析大數(shù)據(jù)價值的完整表達需要多種技術(shù)的協(xié)同。文件系統(tǒng)提供最底層存儲能力的支持。為了便于數(shù)據(jù)管理,需要在文件系統(tǒng)之上建立數(shù)據(jù)庫系統(tǒng)。通過索引等的構(gòu)建,對外提供高效的數(shù)據(jù)查詢等常用功能。最終通過數(shù)據(jù)分析技術(shù)從數(shù)據(jù)庫中的大數(shù)據(jù)提取出有益的知識。云計算:大數(shù)據(jù)的根底平臺與支撐技術(shù)如果將各種大數(shù)據(jù)的應(yīng)用比作一輛輛“汽車〞,支撐起這些“汽車〞運行的“高速公路〞就是云計算。正是云計算技術(shù)在數(shù)據(jù)存儲、管理與分析等方面的支撐,才使得大數(shù)據(jù)有用武之地。在所有的“高速公路〞中,Google無疑是技術(shù)最為先進的一個。需求推動創(chuàng)新,面對海量的Web數(shù)據(jù),Google于2006年首先提出了云計算的概念。支撐Google內(nèi)部各種大數(shù)據(jù)應(yīng)用的正是其自行研發(fā)的一系列云計算技術(shù)和工具。難能可貴的是Google并未將這些技術(shù)完全封閉,而是以論文的形式逐步公開其實現(xiàn)。正是這些公開的論文,使得以GFS,MapReduce,Bigtable為代表的一系列大數(shù)據(jù)處理技術(shù)被廣泛了解并得到應(yīng)用,同時還催生出以Hadoop為代表的一系列云計算開源工具。云計算所涉及到的技術(shù)很多,但是通過Google云計算技術(shù)的介紹能夠快速、完整地把握云計算技術(shù)的核心和精髓。根據(jù)Google已公開的論文及相關(guān)資料,結(jié)合大數(shù)據(jù)處理的需求,我們對Google的技術(shù)眼花進行了整理,如所示:圖SEQ圖\*ARABIC10Google技術(shù)演化圖大數(shù)據(jù)處理工具關(guān)系數(shù)據(jù)庫在很長的時間里成為數(shù)據(jù)管理的最正確選擇,但是在大數(shù)據(jù)時代,數(shù)據(jù)管理、分析等的需求多樣化使得關(guān)系數(shù)據(jù)庫在很多場景不再適用。本節(jié)將對現(xiàn)今主流的大數(shù)據(jù)處理工具進行一個簡單的歸納和總結(jié)。Hadoop是目前最為流行的大數(shù)據(jù)處理平臺。Hadoop最先是DougCutting模仿GFS,MapReduce實現(xiàn)的一個云計算開源平臺,后奉獻給Apeche。Hadoop已經(jīng)開展成為包括文件系統(tǒng)、數(shù)據(jù)庫、數(shù)據(jù)處理等功能模塊在內(nèi)的完整生態(tài)系統(tǒng)[11]。某種程度上可以說Hadoop已經(jīng)成為大數(shù)據(jù)處理工具事實上的標準。對Hadoop改良并將其應(yīng)用于各種場景的大數(shù)據(jù)處理已經(jīng)成為新的研究熱點。主要的研究成果集中在對Hadoop平臺性能的改良、高效的查詢處理、索引構(gòu)建和使用、在Hadoop之上構(gòu)建數(shù)據(jù)倉庫和數(shù)據(jù)庫系統(tǒng)的連接、數(shù)據(jù)挖掘、推薦系統(tǒng)等。除了Hadoop,還有很多針對大數(shù)據(jù)的處理工具。這些工具有些是完整的處理平臺、有些那么是專門針對特定的大數(shù)據(jù)處理應(yīng)用。REF_Ref392353792\h表2歸納總結(jié)了現(xiàn)今一些主流的處理平臺和工具、這些平臺和工具或是已經(jīng)投入商業(yè)使用、或是開源軟件。在已經(jīng)投入商業(yè)使用的產(chǎn)品中、絕大局部也是在Hadoop根底上進行功能擴展、或者提供與Hadoop的數(shù)據(jù)接口。表SEQ表\*ARABIC2大數(shù)據(jù)處理工具列表MapReduce和關(guān)系數(shù)據(jù)庫技術(shù)的融合當前研究大都集中于功能或特性的移植,即從一個平臺學習新的技術(shù),到另一平臺重新實現(xiàn)和集成,未涉及執(zhí)行核心,因此也沒有從根本上解決大數(shù)據(jù)分析問題。鑒于此,中國人民大學高性能數(shù)據(jù)庫實驗室的研究小組采取了另一種思路:從數(shù)據(jù)的組織和查詢的執(zhí)行兩個核心層次入手,融合關(guān)系數(shù)據(jù)庫和MapReduce兩種技術(shù),設(shè)計高性能的可擴展的抽象數(shù)據(jù)倉庫查詢處理框架。該框架在支持高度可擴展的同時,又具有關(guān)系數(shù)據(jù)庫的性能。兩個研究方向:(1)借鑒MapReduce的思想,使OLAP查詢的處理能像MapReduce一樣高度可擴展(LinearDB原型);(2)利用關(guān)系數(shù)據(jù)庫的技術(shù),使MapReduce在處理OLAP查詢時,逼近關(guān)系數(shù)據(jù)庫的性能(Dumbo原型)[8]。5.1LinearDBLinearDB原型系統(tǒng)沒有直接采用基于連接的星型模型(雪花模型),而是對其進行了改造,設(shè)計了擴展性更好的、基于掃描的無連接雪花模型JFSS(Join-FreeSnowflakeSchema)。該模型的設(shè)計借鑒了泛關(guān)系模型的思想,采用層次編碼技術(shù)[40]將維表層次信息壓縮進事實表,使得事實表可以獨立執(zhí)行維表上的謂詞判斷、聚集等操作,從而使連接的數(shù)據(jù)在大規(guī)模機群上實現(xiàn)局部性,消除了連接操作。REF_Ref392358624\h圖11是一個星型模型和無連接雪花模型的對應(yīng)示意圖。在執(zhí)行層次上,LinearDB吸取了MapReduce處理模式的設(shè)計思想,將數(shù)據(jù)倉庫查詢的處理抽象為Transform、Reduce、Merge3個操作(TRM執(zhí)行模型):(1)Transform。主節(jié)點對查詢進行預(yù)處理,將查詢中作用于維表的操作(主要是謂詞判斷,group-by聚集操作等)轉(zhuǎn)換為事實表上的操作;(2)Reduce。每個數(shù)據(jù)節(jié)點并行地掃描、聚集本地數(shù)據(jù),然后將處理結(jié)果返回給主節(jié)點;(3)Merge。主節(jié)點對各個數(shù)據(jù)節(jié)點返回的結(jié)果進行合并,并執(zhí)行后續(xù)的過濾、排序等操作。基于TRM執(zhí)行模型,查詢可以劃分為眾多獨立的子任務(wù)在大規(guī)模機群上并行執(zhí)行。執(zhí)行過程中,任何失敗子任務(wù)都可以在其備份節(jié)點重新執(zhí)行,從而獲得較好的容錯能力。LinearDB的執(zhí)行代價主要取決于對事實表的Reduce(主要是掃描)操作,因此,LinearDB可以獲得近乎線性的大規(guī)模可擴展能力。實驗說明,其性能比HadoopDB至少高出一個數(shù)量級。LinearDB的擴展能力、容錯能力和高性能在于其巧妙地結(jié)合了關(guān)系數(shù)據(jù)庫技術(shù)(層次編碼技術(shù)、泛關(guān)系模式)和MapReduce處理模式的設(shè)計思想,由此,可以看出,結(jié)合方式的不同可以導致系統(tǒng)能力的巨大差異。圖SEQ圖\*ARABIC11比照:一個典型星型模型與其對應(yīng)的無連接雪花模型5.2DumboDumbo的核心思想是根據(jù)MapReduce的“過濾->聚集〞的處理模式,對OLAP查詢的處理進行改造,使其適應(yīng)于MapReduce框架。Dumbo采用了類似于LinearDB的數(shù)據(jù)組織模式——利用層次編碼技術(shù)將維表信息壓縮進事實表,區(qū)別在于Dumbo采用了更加有效的編碼方式,并針對Hadoop分布式文件系統(tǒng)的特點對數(shù)據(jù)的存儲進行了優(yōu)化。在執(zhí)行層次上,Dumbo對MapReduce框架進行了擴展,設(shè)計了新的OLAP查詢處理框架——TMRP(Transform->Map->Reduce->Postprocess)處理框架(如REF_Ref392358624\hREF_Ref392358790\h圖12所示)。在該框架中,主節(jié)點首先對查詢進行轉(zhuǎn)換,生成一個MapReduce任務(wù)來執(zhí)行查詢。該任務(wù)在Map階段以流水線方式掃描、聚集本地數(shù)據(jù),并只將本地的聚集數(shù)據(jù)傳至Reduce階段,來進行數(shù)據(jù)的合并及聚集、排序等操作。在Postprocess階段,主節(jié)點在數(shù)據(jù)節(jié)點上傳的聚集數(shù)據(jù)之上執(zhí)行連接操作。實驗說明,Dumbo性能遠超Hadoop和HadoopDB。由此我們可以看出,復雜的OLAP查詢在MapReduce框架下也可以獲得接近甚至超越關(guān)系數(shù)據(jù)庫的性能,其關(guān)鍵在于如何有效地結(jié)合關(guān)系數(shù)據(jù)庫和MapReduce兩種技術(shù)。僅僅停留于表層的移植和集成是難以從根本上解決大數(shù)據(jù)分析問題的。我們在文獻[41]的研究中也展示了如何基于這種新的數(shù)據(jù)組織方式來實現(xiàn)復雜分析操作———百分位數(shù)的高效計算問題。LinearDB和Dumbo雖然根本可以到達預(yù)期的設(shè)計目標,但兩者都需要對數(shù)據(jù)進行預(yù)處理,其預(yù)處理代價是普通加載時間的7倍左右。因此其應(yīng)對變化的能力還較弱,這是未來的工作內(nèi)容之一。圖SEQ圖\*ARABIC12Dumbo架構(gòu)(深灰色局部是新增模塊,剩余局部是Hadoop自帶模塊)大數(shù)據(jù)時代的挑戰(zhàn)與應(yīng)對策略6.1大數(shù)據(jù)時代面臨的挑戰(zhàn)運營商帶寬能力與對數(shù)據(jù)洪流的適應(yīng)能力面臨前所未有的挑戰(zhàn),管道化壓力化解及“云-管-端〞的有效裝備也均面臨新挑戰(zhàn)。大數(shù)據(jù)的“四V〞特征在數(shù)據(jù)存儲、傳輸、分析、處理等方面均帶來本質(zhì)變化。數(shù)據(jù)量的快速增長,對存儲技術(shù)提出了挑戰(zhàn);同時,需要高速信息傳輸能力支持,與低密度有價值數(shù)據(jù)的快速分析、處理能力。海量數(shù)據(jù)洪流中,在線對話與在線交易活動日益增加,其平安威脅更為嚴峻;而且現(xiàn)今黑客的組織能力、作案工具、作案手法及隱蔽程度更上一層樓,典型的有APT〔AdvancedPersistentThreat,高級持續(xù)性平安威脅〕。大數(shù)據(jù)環(huán)境下通過對用戶數(shù)據(jù)的深度分析,很容易了解用戶行為和喜好,乃至企業(yè)用戶的商業(yè)機密,對個人隱

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論