




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
大數(shù)據(jù)與云計(jì)算摘要:近年來,大數(shù)據(jù)和云計(jì)算已經(jīng)成為社會(huì)各界關(guān)注的熱點(diǎn)話題。秉承“按需效勞〞理念的“云計(jì)算〔Cloudcomputing〕〞正高速開展,“數(shù)據(jù)即資源〞的“大數(shù)據(jù)〔bigdata〕〞時(shí)代已經(jīng)來臨[1]。大數(shù)據(jù)利用對(duì)數(shù)據(jù)處理的實(shí)時(shí)性、有效性提出了更高要求,需要根據(jù)大數(shù)據(jù)特點(diǎn)對(duì)傳統(tǒng)的常規(guī)數(shù)據(jù)處理技術(shù)進(jìn)行技術(shù)變革,形成適用于大數(shù)據(jù)收集、存儲(chǔ)、管理、處理、分析、共享和可視化的技術(shù)。如何更好地管理和利用大數(shù)據(jù)已經(jīng)成為普遍關(guān)注的話題。大數(shù)據(jù)的規(guī)模效應(yīng)給數(shù)據(jù)存儲(chǔ)、管理以及數(shù)據(jù)分析帶來了極大的挑戰(zhàn),數(shù)據(jù)管理方式上的變革正在醞釀和發(fā)生。本文所提到的大數(shù)據(jù)包含著云計(jì)算,因?yàn)樵朴?jì)算是支撐大數(shù)據(jù)的平臺(tái)。關(guān)鍵詞:大數(shù)據(jù)云計(jì)算數(shù)據(jù)分析數(shù)據(jù)挖掘引言在學(xué)術(shù)界,大數(shù)據(jù)這一概念的提出相對(duì)較早。2023年9月,《自然》雜志就推出了名為“大數(shù)據(jù)〞(bigdata)的專刊。2023年5月,麥肯錫全球研究院發(fā)布了名為《大數(shù)據(jù):創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)力的下一個(gè)前沿》(Bigdata:Thenextfrontierforinnovation,competition,andproductivity)的研究報(bào)告,指出大數(shù)據(jù)將成為企業(yè)的核心資產(chǎn),對(duì)海量數(shù)據(jù)的有效利用將成為企業(yè)在競(jìng)爭(zhēng)中取勝的最有力武器。2023年,聯(lián)合國(guó)發(fā)布大數(shù)據(jù)政務(wù)白皮書,指出大數(shù)據(jù)可以使用極為豐富的數(shù)據(jù)資源來對(duì)社會(huì)經(jīng)濟(jì)進(jìn)行前所未有的實(shí)時(shí)分析,幫助政府更好地響應(yīng)社會(huì)和經(jīng)濟(jì)運(yùn)行。2023年3月29日,奧巴馬政府發(fā)布了《大數(shù)據(jù)研究與開展方案建議》,宣布啟動(dòng)對(duì)大數(shù)據(jù)的研發(fā)方案,標(biāo)志著美國(guó)把大數(shù)據(jù)提高到國(guó)家戰(zhàn)略層面,將“大數(shù)據(jù)研究〞上升為國(guó)家意志,對(duì)未來的科技與經(jīng)濟(jì)開展必將帶來深遠(yuǎn)影響。大數(shù)據(jù)應(yīng)用正在風(fēng)行全球,大數(shù)據(jù)精準(zhǔn)營(yíng)銷成為企業(yè)掌舵者的口頭禪,那么大數(shù)據(jù)真的是無懈可擊嗎?答案顯然是否認(rèn)的。隨著互聯(lián)網(wǎng)和移動(dòng)設(shè)備的普及,大數(shù)據(jù)已經(jīng)在我們的生活中無處不在,而有關(guān)大數(shù)據(jù)與隱私的問題也日益受到關(guān)注。毫無疑問,未來可以獲得的個(gè)人數(shù)據(jù)量越多,其中的信息量就越大。只要擁有了足夠多的數(shù)據(jù),我們甚至可能發(fā)現(xiàn)有關(guān)于一個(gè)人的未來信息。另外市場(chǎng)是變化無常并且不可預(yù)期的,決策者的創(chuàng)造性思維并不能通過數(shù)據(jù)得以表達(dá),相反,大數(shù)據(jù)在壓制創(chuàng)新。大數(shù)據(jù)搜集到的數(shù)據(jù)的真實(shí)性也有待檢驗(yàn)。一個(gè)人獲得的數(shù)據(jù)和事實(shí)越多,預(yù)測(cè)就越有意義,人的判斷也就顯得愈發(fā)重要。人類、數(shù)據(jù)集和算法的協(xié)同進(jìn)化將最終決定“大數(shù)據(jù)〞究竟是會(huì)創(chuàng)造新財(cái)富,還是會(huì)摧毀舊價(jià)值。本文首先介紹了云計(jì)算的相關(guān)概念,云計(jì)算為大數(shù)據(jù)的誕生創(chuàng)造了物質(zhì)根底,從而引出大數(shù)據(jù)的相關(guān)概念。通過大數(shù)據(jù)與云計(jì)算之間關(guān)系的比擬,使讀者對(duì)大數(shù)據(jù)與云計(jì)算有一個(gè)清晰的了解。文章介紹了大數(shù)據(jù)特征、作用以及對(duì)大數(shù)據(jù)分析的方法理論,對(duì)大數(shù)據(jù)的兩種處理模式、處理流程以及關(guān)鍵技術(shù)進(jìn)行了分析,提出MapReduce與關(guān)系數(shù)據(jù)庫(kù)融合技術(shù),為未來大數(shù)據(jù)的工作提供了一個(gè)參考。云計(jì)算簡(jiǎn)介正如維克托教授所說,大數(shù)據(jù)的真實(shí)價(jià)值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,絕大局部都隱藏在外表之下。而開掘數(shù)據(jù)價(jià)值、征服數(shù)據(jù)海洋的“動(dòng)力〞就是云計(jì)算[2]。本章首先對(duì)云計(jì)算進(jìn)行相關(guān)介紹。1.1云計(jì)算的概念由于云計(jì)算是由不同的企業(yè)和研究機(jī)構(gòu)同步推進(jìn)的技術(shù),所以關(guān)于云計(jì)算的定義有很多,至今并沒有一個(gè)公認(rèn)的定義和標(biāo)準(zhǔn)。結(jié)合國(guó)際20位專家的定義,IanFoster定義云計(jì)算為一個(gè)由規(guī)模經(jīng)濟(jì)驅(qū)動(dòng)的大型分布式計(jì)算模型,在該模型中,抽象的、虛擬化的、動(dòng)態(tài)可伸縮的并可管理的計(jì)算資源、存儲(chǔ)資源、平臺(tái)和效勞構(gòu)成了一個(gè)資源池。資源池中的資源通過互聯(lián)網(wǎng),按需提供應(yīng)池外的用戶。文獻(xiàn)HYPERLINK[3]歸納的云計(jì)算定義為:云是由易于使用的虛擬資源構(gòu)成的一個(gè)巨大資源池,包括硬件資源、部署平臺(tái)以及相應(yīng)的效勞。根據(jù)不同的負(fù)載,這些資源可以動(dòng)態(tài)地重新配置,以到達(dá)一個(gè)最理想的資源使用狀態(tài)。資源池中的資源是按需付費(fèi)的,效勞提供商通過效勞等級(jí)協(xié)議〔ServiceLevelAgreement,SLA〕保證用戶的效勞質(zhì)量。綜合其他資料,可以將云計(jì)算歸納為:云計(jì)算以虛擬化技術(shù)為核心,虛擬化技術(shù)將共享的硬件和軟件資源抽象化成一個(gè)統(tǒng)一的資源池,通過互聯(lián)網(wǎng)這個(gè)載體,向用戶按需地提供所需的資源。其特點(diǎn)在于多用戶共享、大數(shù)據(jù)處理與大數(shù)據(jù)存儲(chǔ)[8]。云計(jì)算嚴(yán)格地來說并不是一種真正新的技術(shù),而是并行計(jì)算〔ParallelComputing,PC〕等計(jì)算模式的進(jìn)一步演進(jìn)。由于云計(jì)算的主要標(biāo)準(zhǔn)和方案是由企業(yè)推進(jìn)的,也可以說云計(jì)算是分布式計(jì)算模型的商業(yè)實(shí)現(xiàn)。1.2云計(jì)算部署及效勞模式根據(jù)云計(jì)算效勞對(duì)象范圍的不同,云計(jì)算有四種部署模式〔如REF_Ref392339250\h圖1所示〕:私有云、社區(qū)云、公有云和混合云[10]。私有云(Privatecloud):云計(jì)算出現(xiàn)之前,對(duì)于數(shù)據(jù)密集型或計(jì)算密集型任務(wù),用戶需要建立數(shù)據(jù)中心來提供效勞,以滿足其對(duì)數(shù)據(jù)存儲(chǔ)、計(jì)算、通信能力的要求。用戶需對(duì)數(shù)據(jù)中心進(jìn)行運(yùn)維和平安管理,對(duì)效勞器上的數(shù)據(jù)和應(yīng)用具有所有權(quán)和控制權(quán)。云計(jì)算出現(xiàn)后,這種傳統(tǒng)的用戶/效勞提供者模式逐漸開展成私有云模式。私有云是由一個(gè)用戶組織〔例如政府、軍隊(duì),企業(yè)〕建立運(yùn)維的云計(jì)算平臺(tái),專供組織內(nèi)部人員使用,不提供對(duì)外效勞。私有云能夠表達(dá)云計(jì)算的局部?jī)?yōu)勢(shì),例如計(jì)算資源的統(tǒng)一管理和動(dòng)態(tài)分配。但是,私有云仍要求組織購(gòu)置根底設(shè)施,建立大型數(shù)據(jù)中心,投入人力物力來維護(hù)數(shù)據(jù)中心的正常運(yùn)轉(zhuǎn),由此可見,私有云系統(tǒng)提高了組織的IT本錢,而且使云的規(guī)模受到了限制。由于私有云的開放性不高,在幾種部署模式中,私有云的平安威脅相對(duì)較少。社區(qū)云(Communitycloud):也稱為機(jī)構(gòu)云,云根底設(shè)施由多個(gè)組織共同提供,平臺(tái)由多個(gè)組織共同管理。社區(qū)云被一些組織共享,為一個(gè)有共同關(guān)注點(diǎn)〔例如,任務(wù)、平安需求、策略或政策準(zhǔn)那么等〕的社區(qū)或大機(jī)構(gòu)提供效勞。顯然,社區(qū)云的規(guī)模要大于私有云,多個(gè)私有云可通過VPN連接到一起組成社區(qū)云,以滿足多個(gè)私有云組織之間整合和平安共享的需求。公有云(Publiccloud):公有云的根底設(shè)施由一個(gè)提供云計(jì)算效勞的大型運(yùn)營(yíng)組織建立和運(yùn)維,該運(yùn)營(yíng)組織一般是擁有大量計(jì)算資源的IT巨頭,例如Google、微軟、Amazon、百度等大型企業(yè)。這些IT公司將云計(jì)算效勞以“按需購(gòu)置〞的方式銷售給一般用戶或中小企業(yè)群體。用戶只需將請(qǐng)求提交給云計(jì)算系統(tǒng),付費(fèi)租用所需的資源和效勞。對(duì)用戶來說,不需要再投入本錢建立數(shù)據(jù)中心,不需要進(jìn)行系統(tǒng)的維護(hù),可以專心開發(fā)核心的應(yīng)用效勞。目前,亞馬遜的EC2、GoogleAppEngine、WindowsAzure[9]、百度云等都屬于公有云計(jì)算系統(tǒng)。由于公有云的開放性較高,而用戶又失去了對(duì)數(shù)據(jù)和計(jì)算的控制權(quán),因此,與私有云相比,公有云的數(shù)據(jù)平安威脅更為突出?;旌显?Hybridcloud):云根底設(shè)施是由兩種或兩種以上的云〔私有云、社區(qū)云或公有云〕組成,每種云仍然保持獨(dú)立,但用標(biāo)準(zhǔn)的或?qū)S玫募夹g(shù)將它們組合起來,具有數(shù)據(jù)和應(yīng)用程序的可移植性,例如混合云可以在云之間通過負(fù)載均衡技術(shù)應(yīng)付突發(fā)負(fù)載。由于混合云可以是私有云和公有云的組合,某些用戶選擇將敏感數(shù)據(jù)和計(jì)算外包到私有云,而將非敏感數(shù)據(jù)和計(jì)算外包到公有云中,這種使用模式下,效勞在不同云之間的平安無縫連接較難實(shí)現(xiàn)。圖SEQ圖\*ARABIC1云計(jì)算的幾種部署模式計(jì)算就要有計(jì)算環(huán)境,一般計(jì)算環(huán)境都有硬件的一層,資源組合調(diào)度的一層〔即操作系統(tǒng)層〕,以及計(jì)算任務(wù)的應(yīng)用業(yè)務(wù)的軟件層。云計(jì)算與一般計(jì)算環(huán)境的三個(gè)層面類似,云計(jì)算提供的三種效勞模式就對(duì)應(yīng)了計(jì)算環(huán)境的三個(gè)層面。這三種效勞模式分別是根底設(shè)施即效勞IaaS(InfrastructureasaService)、平臺(tái)即效勞PaaS(PlatformasaService)以及軟件即效勞SaaS(SoftwareasaService)。云平安聯(lián)盟CSA給出了云計(jì)算平臺(tái)的體系結(jié)構(gòu),涵蓋了上述三種效勞模式〔如REF_Ref392339542\h圖2所示〕。圖SEQ圖\*ARABIC2云計(jì)算平臺(tái)的體系結(jié)構(gòu)IaaS將計(jì)算、存儲(chǔ)、通信資源封裝為效勞提供應(yīng)云用戶,用戶相當(dāng)于使用裸機(jī),能夠部署和運(yùn)行任意軟件。IaaS提供計(jì)算資源最常用的方式是虛擬機(jī)(VirtualMachine,VM),典型效勞有Amazon的EC2等。IaaS提供存儲(chǔ)資源的效勞能夠?yàn)橛脩籼峁┖A繑?shù)據(jù)存儲(chǔ)和訪問效勞,這種存儲(chǔ)效勞也被單獨(dú)稱為DaaS(DataasaService)。提供存儲(chǔ)資源的典型效勞有Amazon的S3,Google的GFS等。IaaS可以提供高速網(wǎng)絡(luò)和通信效勞,這種效勞也被稱為CaaS(CommunicationasaService),提供網(wǎng)絡(luò)和通信資源的典型效勞有OpenFlow。PaaS是在根底設(shè)施與應(yīng)用之間的重要一層,PaaS將根底設(shè)施資源進(jìn)行整合,為用戶提供基于互聯(lián)網(wǎng)的應(yīng)用開發(fā)環(huán)境,包括應(yīng)用編程接口和運(yùn)行平臺(tái)等,方便了應(yīng)用與根底設(shè)施之間的交互。典型的PaaS平臺(tái)有Google的MapReduce框架,應(yīng)用執(zhí)行環(huán)境GoogleAppEngine,微軟公司的MicrosoftAzureServices。SaaS即云應(yīng)用軟件,為用戶提供直接為其所用的軟件。SaaS一般面向終端用戶,特別是“瘦終端〞。終端用戶利用web瀏覽器,通過網(wǎng)絡(luò)就可以獲得所需的或定制的云應(yīng)用效勞。終端用戶不具有網(wǎng)絡(luò)、操作系統(tǒng)、存儲(chǔ)等底層云根底設(shè)施的控制權(quán),也不能控制應(yīng)用的執(zhí)行過程,只有非常有限的與應(yīng)用相關(guān)的配置能力。SaaS使用戶以最小的開發(fā)和管理開銷獲得定制的應(yīng)用。典型的SaaS效勞有Salesforce公司的CRM系統(tǒng),GoogleDocs等。1.3云計(jì)算的特點(diǎn)和優(yōu)勢(shì)云計(jì)算作為分布式計(jì)算的優(yōu)勢(shì):分布式系統(tǒng)的最大優(yōu)勢(shì)就是因?yàn)槠渚哂斜燃惺较到y(tǒng)更好的性能價(jià)格比,用戶花少量的錢就能獲得高效能計(jì)算。由于“云〞的特殊容錯(cuò)措施可以采用極其廉價(jià)的節(jié)點(diǎn)來構(gòu)成云,“云〞的自動(dòng)化集中式管理使大量企業(yè)無需負(fù)擔(dān)日益高昂的數(shù)據(jù)中心管理本錢,“云〞的通用性使資源的利用率較之傳統(tǒng)系統(tǒng)大幅提升,因此用戶可以充分享受“云〞的低本錢優(yōu)勢(shì)。多數(shù)應(yīng)用本身就是分布式的。如工業(yè)企業(yè)應(yīng)用,管理部門和現(xiàn)場(chǎng)不在同一個(gè)地方的應(yīng)用。虛擬化。云計(jì)算支持用戶在任意位置、使用各種終端獲取應(yīng)用效勞。所請(qǐng)求的資源來自“云〞,而不是固定的有形的實(shí)體。應(yīng)用在“云〞中某處運(yùn)行,但實(shí)際上用戶無需了解、也不用擔(dān)憂應(yīng)用運(yùn)行的具體位置。只需要一臺(tái)筆記本或者一個(gè),就可以通過網(wǎng)絡(luò)效勞來實(shí)現(xiàn)我們需要的一切,甚至包括超級(jí)計(jì)算這樣的任務(wù)。高可靠性。冗余不僅是生物進(jìn)化的必要條件,而且也是信息技術(shù)?,F(xiàn)代分布式系統(tǒng)具有高度容錯(cuò)機(jī)制,控制核反響堆主要采用分布式來實(shí)現(xiàn)高可靠性。通用性。云計(jì)算不針對(duì)特定的應(yīng)用,在“云〞的支撐下可以構(gòu)造出千變?nèi)f化的應(yīng)用,同一個(gè)“云〞可以同時(shí)支撐不同的應(yīng)用運(yùn)行。可擴(kuò)展性。添置一臺(tái)性能更高的大型機(jī),或者添置一臺(tái)性能相同的大型機(jī)的費(fèi)用都比添加幾臺(tái)PC的費(fèi)用高得多。高度靈活性。能夠兼容不同硬件廠商的產(chǎn)品,兼容低配置機(jī)器和外設(shè)而獲得高性能計(jì)算。云計(jì)算在存儲(chǔ)領(lǐng)域的開展趨勢(shì)和優(yōu)勢(shì):用戶不必為文件存儲(chǔ)硬件投入任何前期的費(fèi)用。主機(jī)效勞提供商會(huì)維護(hù)用戶文件效勞器的平安和更新問題。方便的控制訪問權(quán)限和文件資源管理。大數(shù)據(jù)概述云計(jì)算的蓬勃開展,客觀上開起來大數(shù)據(jù)時(shí)代的大門。大數(shù)據(jù)是云計(jì)算的靈魂和升級(jí)方向。云計(jì)算為大數(shù)據(jù)提供的存儲(chǔ)的空間和訪問的渠道。圖SEQ圖\*ARABIC3各地云方案工程是大數(shù)據(jù)誕生的前提[9]微軟公司全球資深副總裁、亞太研發(fā)集團(tuán)主席張亞勤博士認(rèn)為“云計(jì)算和大數(shù)據(jù)是一個(gè)硬幣的兩面,云計(jì)算是大數(shù)據(jù)的IT根底,而大數(shù)據(jù)是云計(jì)算的一個(gè)殺手級(jí)應(yīng)用〞[4]。隨著物聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)、社會(huì)化網(wǎng)絡(luò)的快速開展,企業(yè)數(shù)據(jù)的增長(zhǎng)迅速,半結(jié)構(gòu)化及非結(jié)構(gòu)化的數(shù)據(jù)呈幾何倍數(shù)增長(zhǎng)。數(shù)據(jù)來源的渠道也逐漸增多,這不光包括了本地的文檔、音視頻,還包括了網(wǎng)絡(luò)內(nèi)容和社交媒體。大數(shù)據(jù)的時(shí)代已然來臨,并給各行各業(yè)帶來了根本性變革。2.1何謂大數(shù)據(jù)人、機(jī)、物三元世界的高度融合引發(fā)了數(shù)據(jù)規(guī)模的爆炸式增長(zhǎng)和數(shù)據(jù)模式的高度復(fù)雜化,世界已進(jìn)入網(wǎng)絡(luò)化的大數(shù)據(jù)〔BigData〕時(shí)代。以數(shù)據(jù)為中心的傳統(tǒng)學(xué)科〔如基因組學(xué)、蛋白組學(xué),天體物理學(xué)和腦科學(xué)等〕的研究產(chǎn)生了越來越多的數(shù)據(jù)。例如,用電子顯微鏡重建大腦中的突觸網(wǎng)絡(luò),1立方毫米大腦的圖像數(shù)據(jù)就超過1PB。但近年來大數(shù)據(jù)的飆升主要還是來自日常生活,特別是互聯(lián)網(wǎng)公司的效勞。據(jù)著名咨詢公司IDC的統(tǒng)計(jì),2023年全球被創(chuàng)立和復(fù)制的數(shù)據(jù)總量為1.8ZB〔10的21次方〕,其中75%來自于個(gè)人〔主要是圖片、視頻和音樂〕,遠(yuǎn)遠(yuǎn)超過人類有史以來所有印刷材料的數(shù)據(jù)總量〔200PB〕。Google公司通過大規(guī)模集群和MapReduce軟件,每月處理的數(shù)據(jù)量超過400PB;百度每天大約要處理幾十PB數(shù)據(jù);Facebook注冊(cè)用戶超過10億,每月上傳的照片超過10億張,每天生成300TB以上的日志數(shù)據(jù);淘寶網(wǎng)會(huì)員超過3.7億,在線商品超過8.8億,每天交易數(shù)千萬筆,產(chǎn)生約20TB數(shù)據(jù)。傳感網(wǎng)和物聯(lián)網(wǎng)的蓬勃開展是大數(shù)據(jù)的又一推動(dòng)力,各個(gè)城市的視頻監(jiān)控每時(shí)每刻都在采集巨量的流媒體數(shù)據(jù)。工業(yè)設(shè)備的監(jiān)控也是大數(shù)據(jù)的重要來源。例如,勞斯萊斯公司對(duì)全世界數(shù)以萬計(jì)的飛機(jī)引擎進(jìn)行實(shí)時(shí)監(jiān)控,每年傳送PB數(shù)量級(jí)的數(shù)據(jù)[5]。一般意義上,大數(shù)據(jù)是指無法在可容忍的時(shí)間內(nèi)用傳統(tǒng)IT技術(shù)和軟硬件工具對(duì)其進(jìn)行感知、獲取、管理、處理和效勞的數(shù)據(jù)集合。大數(shù)據(jù)的特點(diǎn)可以總結(jié)為4個(gè)V,即Volume〔體量浩大〕、Vari-ety〔模態(tài)繁多〕、Velocity〔生成快速〕和Value〔價(jià)值巨大但密度很低〕。首先,數(shù)據(jù)集合的規(guī)模不斷擴(kuò)大,已從GB到TB再到PB級(jí),甚至開始以EB和ZB來計(jì)數(shù)。IDC的研究報(bào)告稱,未來10年全球大數(shù)據(jù)將增加50倍,管理數(shù)據(jù)倉(cāng)庫(kù)的效勞器數(shù)量將增加10倍。其次,大數(shù)據(jù)類型繁多,包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。現(xiàn)代互聯(lián)網(wǎng)應(yīng)用呈現(xiàn)出非結(jié)構(gòu)化數(shù)據(jù)大幅增長(zhǎng)的特點(diǎn),至2023年末,非結(jié)構(gòu)化數(shù)據(jù)占有比例將到達(dá)整個(gè)數(shù)據(jù)量的75%以上。同時(shí),由于數(shù)據(jù)顯性或隱性的網(wǎng)絡(luò)化存在,使得數(shù)據(jù)之間的復(fù)雜關(guān)聯(lián)無所不在。再次,大數(shù)據(jù)往往以數(shù)據(jù)流的形式動(dòng)態(tài)、快速地產(chǎn)生,具有很強(qiáng)的時(shí)效性,用戶只有把握好對(duì)數(shù)據(jù)流的掌控才能有效利用這些數(shù)據(jù)。另外,數(shù)據(jù)自身的狀態(tài)與價(jià)值也往往隨時(shí)空變化而發(fā)生演變,數(shù)據(jù)的涌現(xiàn)特征明顯。最后,雖然數(shù)據(jù)的價(jià)值巨大,但是基于傳統(tǒng)思維與技術(shù),人們?cè)趯?shí)際環(huán)境中往往面臨信息泛濫而知識(shí)匱乏的窘態(tài),大數(shù)據(jù)的價(jià)值利用密度低。維克托·爾耶·舍恩伯格明確指出,大數(shù)據(jù)時(shí)代最大的轉(zhuǎn)變就是,放棄對(duì)因果關(guān)系的渴求,而取而代之關(guān)注相關(guān)關(guān)系。也就是說只要知道“是什么〞,而不需要知道“為什么〞。這顛覆了千百年來人類的思維慣例,對(duì)人類的認(rèn)知和與世界交流的方式提出了全新的挑戰(zhàn)。2.2從數(shù)據(jù)庫(kù)(database,DB)到大數(shù)據(jù)(bigdata,BD)從數(shù)據(jù)庫(kù)到大數(shù)據(jù),看似只是一個(gè)簡(jiǎn)單的技術(shù)演進(jìn),但細(xì)細(xì)考究不難發(fā)現(xiàn)兩者有著本質(zhì)上的差異。大數(shù)據(jù)的出現(xiàn)必將顛覆傳統(tǒng)的數(shù)據(jù)管理方式。在數(shù)據(jù)來源)數(shù)據(jù)處理方式和數(shù)據(jù)思維等方面都會(huì)對(duì)其帶來革命性的變化[6]。如果要用簡(jiǎn)單的方式來比擬傳統(tǒng)的數(shù)據(jù)庫(kù)和大數(shù)據(jù)的區(qū)別,我們認(rèn)為“池塘捕魚〞和“大海捕魚〞是個(gè)很好的類比?!俺靥敛遏~〞代表著傳統(tǒng)數(shù)據(jù)庫(kù)時(shí)代的數(shù)據(jù)管理方式,而“大海捕魚〞那么對(duì)應(yīng)著大數(shù)據(jù)時(shí)代的數(shù)據(jù)管理方式,“魚〞是待處理的數(shù)據(jù)。“捕魚〞環(huán)境條件的變化導(dǎo)致了“捕魚〞方式的根本性差異。這些差異主要表達(dá)在如下幾個(gè)方面:數(shù)據(jù)規(guī)模?!俺靥哩暫汀按蠛(曌钊菀装l(fā)現(xiàn)的區(qū)別就是規(guī)模。“池塘〞規(guī)模相對(duì)較小,即便是先前認(rèn)為比擬大的“池塘〞,譬如CLDB〔verylargedatabase〕,和“大海〞XLDB〔extremelylargedatabase〕相比仍舊偏小。“池塘〞的處理對(duì)象通常以MB為根本單位,而“大海〞那么常常GB,甚至是TB,PB為根本處理單位。數(shù)據(jù)類型。過去的“池塘〞中,數(shù)據(jù)的種類單一,往往僅僅有一種或少數(shù)幾種,這些數(shù)據(jù)又以結(jié)構(gòu)化數(shù)據(jù)為主。而在“大海〞中數(shù)據(jù)的種類繁多“數(shù)以千計(jì)〞而這些數(shù)據(jù)又包含著結(jié)構(gòu)化、半結(jié)構(gòu)化以及非結(jié)構(gòu)化的數(shù)據(jù)〞并且半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)所占份額越來越大。模式〔schema〕和數(shù)據(jù)的關(guān)系。傳統(tǒng)的數(shù)據(jù)庫(kù)都是先有模式,然后才會(huì)產(chǎn)生數(shù)據(jù)。這就好比是先選好適宜的“池塘〞,然后才會(huì)向其中投放適合在該“池塘〞環(huán)境生長(zhǎng)的“魚〞。而大數(shù)據(jù)時(shí)代很多情況下難以預(yù)先確定模式,模式只有在數(shù)據(jù)出現(xiàn)之后才能確定,且模式隨著數(shù)據(jù)量的增長(zhǎng)處于不斷的演變之中。這就好比先有少量的魚類,隨著時(shí)間推移,魚的種類和數(shù)量都在不斷地增長(zhǎng)。魚的變化會(huì)使大海的成分和環(huán)境處于不斷的變化之中。處理對(duì)象。在“池塘〞中捕魚,“魚〞僅僅是其捕撈對(duì)象。而在“大海〞中,“魚〞除了是捕撈對(duì)象之外,還可以通過某些“魚〞的存在來判斷其他種類的“魚〞是否存在。也就是說傳統(tǒng)數(shù)據(jù)庫(kù)中數(shù)據(jù)僅作為處理對(duì)象。而在大數(shù)據(jù)時(shí)代,要將數(shù)據(jù)作為一種資源來輔助解決其他諸多領(lǐng)域的問題。處理工具。捕撈“池塘〞中的“魚〞,一種漁網(wǎng)或少數(shù)幾種根本就可以應(yīng)對(duì),也就是所謂的Onesizefitsall。但是在“大海〞中,不可能存在一種漁網(wǎng)能夠捕獲所有的魚類,也就是說Nosizefitsall。從“池塘〞到“大海〞"不僅僅是規(guī)模的變大。傳統(tǒng)的數(shù)據(jù)庫(kù)代表著數(shù)據(jù)工程(dataengineering)的處理方式,大數(shù)據(jù)時(shí)代的數(shù)據(jù)已不僅僅只是工程處理的對(duì)象,需要采取新的數(shù)據(jù)思維來應(yīng)對(duì)。圖靈獎(jiǎng)獲得者、著名數(shù)據(jù)庫(kù)專家JimGray博士觀察并總結(jié)人類自古以來,在科學(xué)研究上,先后歷經(jīng)了實(shí)驗(yàn)、理論和計(jì)算3種范式。當(dāng)數(shù)據(jù)量不斷增長(zhǎng)和累積到今天,傳統(tǒng)的3種范式在科學(xué)研究,特別是一些新的研究領(lǐng)域已經(jīng)無法很好地發(fā)揮作用,需要有一種全新的第4種范式來指導(dǎo)新形勢(shì)下的科學(xué)研究?;谶@種考慮,JimGray提出了一種新的數(shù)據(jù)探索型研究方式,被他自己稱之為科學(xué)研究的“第4種范式〞〔TheFourthParadigm〕。4種范式的比擬如REF_Ref392345145\h表1所示。第4種范式的實(shí)質(zhì)就是從以計(jì)算為中心轉(zhuǎn)變到以數(shù)據(jù)處理為中心,也就是我們所說的數(shù)據(jù)思維。這種方式需要我們從根本上轉(zhuǎn)變思維。正如前面提到的“捕魚〞,在大數(shù)據(jù)時(shí)代,數(shù)據(jù)不再僅僅是“捕撈〞的對(duì)象,而應(yīng)當(dāng)轉(zhuǎn)變成一種根底資源,用數(shù)據(jù)這種資源來協(xié)同解決其他諸多領(lǐng)域的問題。計(jì)算社會(huì)科學(xué)(computationalsocialscience)基于特定社會(huì)需求,在特定的社會(huì)理論指導(dǎo)下,收集$整理和分析數(shù)據(jù)足跡(dataprint),以便進(jìn)行社會(huì)解釋$監(jiān)控$預(yù)測(cè)與規(guī)劃的過程和活動(dòng)。計(jì)算社會(huì)科學(xué)是一種典型的需要采用第4種范式來作指導(dǎo)的科學(xué)研究領(lǐng)域。Watts在《Nature》雜志上的文章“Atwenty-firstcenturyscience〞也指出,借助于社交網(wǎng)絡(luò)和計(jì)算機(jī)分析技術(shù),21世紀(jì)的社會(huì)科學(xué)有可能實(shí)現(xiàn)定量化的研究,從而成為一門真正的自然科學(xué)。表SEQ表\*ARABIC1科學(xué)發(fā)現(xiàn)的4中范式2.3大數(shù)據(jù)與云計(jì)算的關(guān)系近幾年來,云計(jì)算受到學(xué)術(shù)界和工業(yè)界的熱捧,隨后,大數(shù)據(jù)橫空出世,更是炙手可熱。那么,大數(shù)據(jù)和云計(jì)算之間是什么關(guān)系呢?從整體上看,大數(shù)據(jù)與云計(jì)算是相輔相成的大數(shù)據(jù)著眼于“數(shù)據(jù)〞,關(guān)注實(shí)際業(yè)務(wù),提供數(shù)據(jù)采集分析挖掘,看重的是信息積淀,即數(shù)據(jù)存儲(chǔ)能力。云計(jì)算著眼于“計(jì)算〞,關(guān)注
IT
解決方案,提供
IT
根底架構(gòu),看重的是計(jì)算能力,即數(shù)據(jù)處理能力。沒有大數(shù)據(jù)的信息積淀,那么云計(jì)算的計(jì)算能力再?gòu)?qiáng)大,也難以找到用武之地;沒有云計(jì)算的處理能力,那么大數(shù)據(jù)的信息積淀再豐富,也終究只是鏡花水月。從技術(shù)上看,大數(shù)據(jù)根植于云計(jì)算云計(jì)算關(guān)鍵技術(shù)中的海量數(shù)據(jù)存儲(chǔ)技術(shù)、海量數(shù)據(jù)管理技術(shù)、MapReduce編程模型,都是大數(shù)據(jù)技術(shù)的根底〔如REF_Ref392342192\h圖4所示〕。圖SEQ圖\*ARABIC4大數(shù)據(jù)的關(guān)鍵技術(shù)大數(shù)據(jù)技術(shù)與云計(jì)算有相同,也有差異〔如REF_Ref392342198\h圖5所示〕。圖SEQ圖\*ARABIC5大數(shù)據(jù)與云計(jì)算的異同云計(jì)算與大數(shù)據(jù)的不同之處在于應(yīng)用的不同,主要在兩個(gè)方面:第一,在概念上兩者有所不同,云計(jì)算改變了IT,而大數(shù)據(jù)那么改變了業(yè)務(wù)。然而大數(shù)據(jù)必須有云作為根底架構(gòu),才能得以順暢運(yùn)營(yíng)。第二,大數(shù)據(jù)和云計(jì)算的目標(biāo)受眾不同,云計(jì)算是賣給CIO的技術(shù)和產(chǎn)品,是一個(gè)進(jìn)階的IT解決方案。而大數(shù)據(jù)是賣給CEO、賣給業(yè)務(wù)層的產(chǎn)品,大數(shù)據(jù)的決策者是業(yè)務(wù)層。由于他們能直接感受到來自市場(chǎng)競(jìng)爭(zhēng)的壓力,必須在業(yè)務(wù)上以更有競(jìng)爭(zhēng)力的方式戰(zhàn)勝對(duì)手。大數(shù)據(jù)技術(shù)與云計(jì)算相結(jié)合會(huì)帶來什么?如REF_Ref392350146\h圖6所示圖SEQ圖\*ARABIC6大數(shù)據(jù)與云計(jì)算結(jié)合大數(shù)據(jù)的特征、作用及分析3.1大數(shù)據(jù)的特征一是數(shù)據(jù)體量巨大。百度資料說明,其新首頁導(dǎo)航每天需要提供的數(shù)據(jù)超過1.5PB〔1PB=1024TB〕,這些數(shù)據(jù)如果打印出來將超過5千億張A4紙。有資料證實(shí),到目前為止,人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量?jī)H為200PB。二是數(shù)據(jù)類型多樣?,F(xiàn)在的數(shù)據(jù)類型不僅是文本形式,更多的是圖片、視頻、音頻、地理位置信息等多類型的數(shù)據(jù),個(gè)性化數(shù)據(jù)占絕對(duì)多數(shù)。三是處理速度快。數(shù)據(jù)處理遵循“1秒定律〞,可從各種類型的數(shù)據(jù)中快速獲得高價(jià)值的信息。四是價(jià)值密度低。以視頻為例,一小時(shí)的視頻,在不間斷的監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅只有一兩秒。3.2大數(shù)據(jù)的作用第一,對(duì)大數(shù)據(jù)的處理分析正成為新一代信息技術(shù)融合應(yīng)用的結(jié)點(diǎn)。移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、社交網(wǎng)絡(luò)、數(shù)字家庭、電子商務(wù)等是新一代信息技術(shù)的應(yīng)用形態(tài),這些應(yīng)用不斷產(chǎn)生大數(shù)據(jù)。云計(jì)算為這些海量、多樣化的大數(shù)據(jù)提供存儲(chǔ)和運(yùn)算平臺(tái)。通過對(duì)不同來源數(shù)據(jù)的管理、處理、分析與優(yōu)化,將結(jié)果反響到上述應(yīng)用中,將創(chuàng)造出巨大的經(jīng)濟(jì)和社會(huì)價(jià)值。大數(shù)據(jù)具有催生社會(huì)變革的能量。但釋放這種能量,需要嚴(yán)謹(jǐn)?shù)臄?shù)據(jù)治理、富有洞見的數(shù)據(jù)分析和激發(fā)管理創(chuàng)新的環(huán)境(RamayyaKrishnan,卡內(nèi)基·梅隆大學(xué)海因茲學(xué)院院長(zhǎng))。第二,大數(shù)據(jù)是信息產(chǎn)業(yè)持續(xù)高速增長(zhǎng)的新引擎。面向大數(shù)據(jù)市場(chǎng)的新技術(shù)、新產(chǎn)品、新效勞、新業(yè)態(tài)會(huì)不斷涌現(xiàn)。在硬件與集成設(shè)備領(lǐng)域,大數(shù)據(jù)將對(duì)芯片、存儲(chǔ)產(chǎn)業(yè)產(chǎn)生重要影響,還將催生一體化數(shù)據(jù)存儲(chǔ)處理效勞器、內(nèi)存計(jì)算等市場(chǎng)。在軟件與效勞領(lǐng)域,大數(shù)據(jù)將引發(fā)數(shù)據(jù)快速處理分析、數(shù)據(jù)挖掘技術(shù)和軟件產(chǎn)品的開展。第三,大數(shù)據(jù)利用將成為提高核心競(jìng)爭(zhēng)力的關(guān)鍵因素。各行各業(yè)的決策正在從“業(yè)務(wù)驅(qū)動(dòng)〞轉(zhuǎn)變“數(shù)據(jù)驅(qū)動(dòng)〞。對(duì)大數(shù)據(jù)的分析可以使零售商實(shí)時(shí)掌握市場(chǎng)動(dòng)態(tài)并迅速做出應(yīng)對(duì);可以為商家制定更加精準(zhǔn)有效的營(yíng)銷策略提供決策支持;可以幫助企業(yè)為消費(fèi)者提供更加及時(shí)和個(gè)性化的效勞;在醫(yī)療領(lǐng)域,可提高診斷準(zhǔn)確性和藥物有效性;在公共事業(yè)領(lǐng)域,大數(shù)據(jù)也開始發(fā)揮促進(jìn)經(jīng)濟(jì)開展、維護(hù)社會(huì)穩(wěn)定等方面的重要作用。第四,大數(shù)據(jù)時(shí)代科學(xué)研究的方法手段將發(fā)生重大改變。例如,抽樣調(diào)查是社會(huì)科學(xué)的根本研究方法。在大數(shù)據(jù)時(shí)代,可通過實(shí)時(shí)監(jiān)測(cè)、跟蹤研究對(duì)象在互聯(lián)網(wǎng)上產(chǎn)生的海量行為數(shù)據(jù),進(jìn)行挖掘分析,揭示出規(guī)律性的東西,提出研究結(jié)論和對(duì)策。3.3大數(shù)據(jù)的分析從所周知,大數(shù)據(jù)已經(jīng)不簡(jiǎn)簡(jiǎn)單單是數(shù)據(jù)大的事實(shí)了,而最重要的現(xiàn)實(shí)是對(duì)大數(shù)據(jù)進(jìn)行分析,只有通過分析才能獲取很多智能的,深入的,有價(jià)值的信息。那么越來越多的應(yīng)用涉及到大數(shù)據(jù),而這些大數(shù)據(jù)的屬性,包括數(shù)量,速度,多樣性等等都是呈現(xiàn)了大數(shù)據(jù)不斷增長(zhǎng)的復(fù)雜性,所以大數(shù)據(jù)的分析方法在大數(shù)據(jù)領(lǐng)域就顯得尤為重要,可以說是決定最終信息是否有價(jià)值的決定性因素。基于如此的認(rèn)識(shí),大數(shù)據(jù)分析普遍存在的方法理論有哪些呢?可視化分析。大數(shù)據(jù)分析的使用者有大數(shù)據(jù)分析專家,同時(shí)還有普通用戶,但是他們二者對(duì)于大數(shù)據(jù)分析最根本的要求就是可視化分析,因?yàn)榭梢暬治瞿軌蛑庇^的呈現(xiàn)大數(shù)據(jù)特點(diǎn),同時(shí)能夠非常容易被讀者所接受,就如同看圖說話一樣簡(jiǎn)單明了。數(shù)據(jù)挖掘算法。大數(shù)據(jù)分析的理論核心就是數(shù)據(jù)挖掘算法,各種數(shù)據(jù)挖掘的算法基于不同的數(shù)據(jù)類型和格式才能更加科學(xué)的呈現(xiàn)出數(shù)據(jù)本身具備的特點(diǎn),也正是因?yàn)檫@些被全世界統(tǒng)計(jì)學(xué)家所公認(rèn)的各種統(tǒng)計(jì)方法〔可以稱之為真理〕才能深入數(shù)據(jù)內(nèi)部,挖掘出公認(rèn)的價(jià)值。另外一個(gè)方面也是因?yàn)橛羞@些數(shù)據(jù)挖掘的算法才能更快速的處理大數(shù)據(jù),如果一個(gè)算法得花上好幾年才能得出結(jié)論,那大數(shù)據(jù)的價(jià)值也就無從說起了。預(yù)測(cè)性分析。大數(shù)據(jù)分析最終要的應(yīng)用領(lǐng)域之一就是預(yù)測(cè)性分析,從大數(shù)據(jù)中挖掘出特點(diǎn),通過科學(xué)的建立模型,之后便可以通過模型帶入新的數(shù)據(jù),從而預(yù)測(cè)未來的數(shù)據(jù)。語義引擎。非結(jié)構(gòu)化數(shù)據(jù)的多元化給數(shù)據(jù)分析帶來新的挑戰(zhàn),我們需要一套工具系統(tǒng)的去分析,提煉數(shù)據(jù)。語義引擎需要設(shè)計(jì)到有足夠的人工智能以足以從數(shù)據(jù)中主動(dòng)地提取信息。數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理。大數(shù)據(jù)分析離不開數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理,高質(zhì)量的數(shù)據(jù)和有效的數(shù)據(jù)管理,無論是在學(xué)術(shù)研究還是在商業(yè)應(yīng)用領(lǐng)域,都能夠保證分析結(jié)果的真實(shí)和有價(jià)值。大數(shù)據(jù)分析的根底就是以上五個(gè)方面,當(dāng)然更加深入大數(shù)據(jù)分析的話,還有很多很多更加有特點(diǎn)的、更加深入的、更加專業(yè)的大數(shù)據(jù)分析方法。大數(shù)據(jù)處理框架4.1大數(shù)據(jù)處理模式大數(shù)據(jù)的應(yīng)用類型有很多,主要的處理模式可以分為流處理〔streamprocess〕和批處理〔batchprocessing〕兩種。批處理是先存儲(chǔ)后處理〔store-then-process〕,而流處理那么是直接處理〔straight-throughprocessing〕[7]。流處理流處理的根本理念是數(shù)據(jù)的價(jià)值會(huì)隨著時(shí)間的流逝而不斷減少,因此盡可能快地對(duì)最新的數(shù)據(jù)作出分析并給出結(jié)果是所有流數(shù)據(jù)處理模式的共同目標(biāo)。需要采用流數(shù)據(jù)處理的大數(shù)據(jù)應(yīng)用場(chǎng)景主要有網(wǎng)頁點(diǎn)擊數(shù)的實(shí)時(shí)統(tǒng)計(jì)、傳感器網(wǎng)絡(luò)、金融中的高頻交易等。流處理的處理模式將數(shù)據(jù)視為流,源源不斷的數(shù)據(jù)組成了數(shù)據(jù)流。當(dāng)新的數(shù)據(jù)到來時(shí)就立刻處理并返回所需的結(jié)果。REF_Ref392351261\h圖7是流處理中根本的數(shù)據(jù)流模型:圖SEQ圖\*ARABIC7根本的數(shù)據(jù)流模型數(shù)據(jù)的實(shí)時(shí)處理是一個(gè)很有挑戰(zhàn)性的工作,數(shù)據(jù)流本身具有持續(xù)到達(dá)%速度快且規(guī)模巨大等特點(diǎn),因此通常不會(huì)對(duì)所有的數(shù)據(jù)進(jìn)行永久化存儲(chǔ),而且數(shù)據(jù)環(huán)境處在不斷的變化之中,系統(tǒng)很難準(zhǔn)確掌握整個(gè)數(shù)據(jù)的全貌。由于響應(yīng)時(shí)間的要求,流處理的過程根本在內(nèi)存中完成,其處理方式更多地依賴于在內(nèi)存中設(shè)計(jì)巧妙的概要數(shù)據(jù)結(jié)構(gòu),內(nèi)存容量是限制流處理模型的一個(gè)主要瓶頸。以PCM(相變存儲(chǔ)器)為代表的儲(chǔ)存級(jí)內(nèi)存設(shè)備的出現(xiàn)或許可以使內(nèi)存未來不再成為流處理模型的制約。數(shù)據(jù)流的理論及技術(shù)研究已經(jīng)有十幾年的歷史,目前仍舊是研究熱點(diǎn)。與此同時(shí)很多實(shí)際系統(tǒng)也已開發(fā)和得到廣泛的應(yīng)用,比擬代表性的開源系統(tǒng)如Twitter的Storm、Yahoo的S4以及Linkedin的Kafka等。批處理Google公司在2004年提出的MapReduce編程模型是最具代表性的批處理模式。一個(gè)完整的MapReduce過程如所示。圖SEQ圖\*ARABIC8MapReduce執(zhí)行流程圖MapReduce模型首先將用戶的原始數(shù)據(jù)源進(jìn)行分塊,然后分別交給不同的Map任務(wù)區(qū)處理。Map任務(wù)從輸入中解析出鏈/值(Key/Value)對(duì)集合。然后對(duì)這些集合執(zhí)行用戶自行定義的Map函數(shù)得到中間結(jié)果,并將該結(jié)果寫入本地硬盤。Reduce任務(wù)從硬盤上讀取數(shù)據(jù)之后會(huì)根據(jù)Key值進(jìn)行排序,將具有相同Key值的組織在一起。最后用戶自定義的Reduce函數(shù)會(huì)作用于這些排好序的結(jié)果并輸出最終結(jié)果。4.2大數(shù)據(jù)處理的根本流程大數(shù)據(jù)的數(shù)據(jù)來源廣泛!應(yīng)用需求和數(shù)據(jù)類型都不盡相同!但是最根本的處理流程一致。海量Web數(shù)據(jù)的處理是一類非常典型的大數(shù)據(jù)應(yīng)用,從中可以歸納出大數(shù)據(jù)處理的最根本流程。圖SEQ圖\*ARABIC9大數(shù)據(jù)處理根本流程整個(gè)大數(shù)據(jù)的處理流程可以定義為在適宜工具的輔助下,對(duì)廣泛異構(gòu)的數(shù)據(jù)源進(jìn)行抽取和集成,結(jié)果按照一定的標(biāo)準(zhǔn)統(tǒng)一存儲(chǔ)。利用適宜的數(shù)據(jù)分析技術(shù)對(duì)存儲(chǔ)的數(shù)據(jù)進(jìn)行分析,從中提取有益的知識(shí)并利用恰當(dāng)?shù)姆绞綄⒔Y(jié)果展現(xiàn)給終端用戶。具體來說可以分為數(shù)據(jù)抽取與集成、數(shù)據(jù)分析以及數(shù)據(jù)解釋。數(shù)據(jù)抽取與集成大數(shù)據(jù)的一個(gè)重要特點(diǎn)就是多樣性,這就意味著數(shù)據(jù)來源極其廣泛,數(shù)據(jù)類型極為繁雜,這種復(fù)雜的數(shù)據(jù)環(huán)境給大數(shù)據(jù)的處理帶來極大的挑戰(zhàn)。要想處理大數(shù)據(jù),首先必須對(duì)所需數(shù)據(jù)源的數(shù)據(jù)進(jìn)行抽取和集成,從中提取出關(guān)系和實(shí)體,經(jīng)過關(guān)聯(lián)和聚合之后采用統(tǒng)一定義的結(jié)構(gòu)來存儲(chǔ)這些數(shù)據(jù)。在數(shù)據(jù)集成和提取時(shí)需要對(duì)數(shù)據(jù)進(jìn)行清洗,保證數(shù)據(jù)質(zhì)量及可信性。同時(shí)還要特別注意前面提及的大數(shù)據(jù)時(shí)代模式和數(shù)據(jù)的關(guān)系,大數(shù)據(jù)時(shí)代的數(shù)據(jù)往往是先有數(shù)據(jù)再有模式,且模式是在不斷的動(dòng)態(tài)演化之中的。數(shù)據(jù)抽取和集成技術(shù)不是一項(xiàng)全新的技術(shù),傳統(tǒng)數(shù)據(jù)庫(kù)領(lǐng)域已對(duì)此問題有了比擬成熟的研究。隨著新的數(shù)據(jù)源的涌現(xiàn)"數(shù)據(jù)集成方法也在不斷的開展之中。從數(shù)據(jù)集成模型來看,現(xiàn)有的數(shù)據(jù)抽取與集成方式可以大致分為以下4種類型:基于物化或ETL方法的引擎、基于聯(lián)邦數(shù)據(jù)庫(kù)或中間件方法的引擎、基于數(shù)據(jù)流方法的引擎、及基于搜索引擎的方法數(shù)據(jù)分析數(shù)據(jù)分析是整個(gè)大數(shù)據(jù)處理流程的核心,因?yàn)榇髷?shù)據(jù)的價(jià)值產(chǎn)生于分析過程。從異構(gòu)數(shù)據(jù)源抽取和集成的數(shù)據(jù)構(gòu)成了數(shù)據(jù)分析的原始數(shù)據(jù)。根據(jù)不同應(yīng)用的需求可以從這些數(shù)據(jù)中選擇全部或局部進(jìn)行分析。傳統(tǒng)的分析技術(shù)如數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)分析等在大數(shù)據(jù)時(shí)代需要作出調(diào)整。大數(shù)據(jù)分析已被廣泛應(yīng)用于諸多領(lǐng)域,典型的有推薦系統(tǒng)、商業(yè)智能、決策支持等。數(shù)據(jù)解釋數(shù)據(jù)分析是大數(shù)據(jù)處理的核心,但是用戶往往更關(guān)心結(jié)果的展示。如果分析的結(jié)果正確但是沒有采用適當(dāng)?shù)慕忉尫椒?,那么所得到的結(jié)果很可能讓用戶難以理解,極端情況下甚至?xí)`導(dǎo)用戶。數(shù)據(jù)解釋的方法很多,比擬傳統(tǒng)的就是以文本形式輸出結(jié)果或者直接在電腦終端上顯示結(jié)果。這種方法在面對(duì)小數(shù)據(jù)量時(shí)是一種很好的選擇。但是大數(shù)據(jù)時(shí)代的數(shù)據(jù)分析結(jié)果往往也是海量的,同時(shí)結(jié)果之間的關(guān)聯(lián)關(guān)系極其復(fù)雜,采用傳統(tǒng)的解釋方法根本不可行??梢钥紤]引入可視化技術(shù)、讓用戶能夠在一定程度上了解和參與具體的分析過程這兩個(gè)方面提升數(shù)據(jù)解釋能力。4.3關(guān)鍵技術(shù)分析大數(shù)據(jù)價(jià)值的完整表達(dá)需要多種技術(shù)的協(xié)同。文件系統(tǒng)提供最底層存儲(chǔ)能力的支持。為了便于數(shù)據(jù)管理,需要在文件系統(tǒng)之上建立數(shù)據(jù)庫(kù)系統(tǒng)。通過索引等的構(gòu)建,對(duì)外提供高效的數(shù)據(jù)查詢等常用功能。最終通過數(shù)據(jù)分析技術(shù)從數(shù)據(jù)庫(kù)中的大數(shù)據(jù)提取出有益的知識(shí)。云計(jì)算:大數(shù)據(jù)的根底平臺(tái)與支撐技術(shù)如果將各種大數(shù)據(jù)的應(yīng)用比作一輛輛“汽車〞,支撐起這些“汽車〞運(yùn)行的“高速公路〞就是云計(jì)算。正是云計(jì)算技術(shù)在數(shù)據(jù)存儲(chǔ)、管理與分析等方面的支撐,才使得大數(shù)據(jù)有用武之地。在所有的“高速公路〞中,Google無疑是技術(shù)最為先進(jìn)的一個(gè)。需求推動(dòng)創(chuàng)新,面對(duì)海量的Web數(shù)據(jù),Google于2006年首先提出了云計(jì)算的概念。支撐Google內(nèi)部各種大數(shù)據(jù)應(yīng)用的正是其自行研發(fā)的一系列云計(jì)算技術(shù)和工具。難能可貴的是Google并未將這些技術(shù)完全封閉,而是以論文的形式逐步公開其實(shí)現(xiàn)。正是這些公開的論文,使得以GFS,MapReduce,Bigtable為代表的一系列大數(shù)據(jù)處理技術(shù)被廣泛了解并得到應(yīng)用,同時(shí)還催生出以Hadoop為代表的一系列云計(jì)算開源工具。云計(jì)算所涉及到的技術(shù)很多,但是通過Google云計(jì)算技術(shù)的介紹能夠快速、完整地把握云計(jì)算技術(shù)的核心和精髓。根據(jù)Google已公開的論文及相關(guān)資料,結(jié)合大數(shù)據(jù)處理的需求,我們對(duì)Google的技術(shù)眼花進(jìn)行了整理,如所示:圖SEQ圖\*ARABIC10Google技術(shù)演化圖大數(shù)據(jù)處理工具關(guān)系數(shù)據(jù)庫(kù)在很長(zhǎng)的時(shí)間里成為數(shù)據(jù)管理的最正確選擇,但是在大數(shù)據(jù)時(shí)代,數(shù)據(jù)管理、分析等的需求多樣化使得關(guān)系數(shù)據(jù)庫(kù)在很多場(chǎng)景不再適用。本節(jié)將對(duì)現(xiàn)今主流的大數(shù)據(jù)處理工具進(jìn)行一個(gè)簡(jiǎn)單的歸納和總結(jié)。Hadoop是目前最為流行的大數(shù)據(jù)處理平臺(tái)。Hadoop最先是DougCutting模仿GFS,MapReduce實(shí)現(xiàn)的一個(gè)云計(jì)算開源平臺(tái),后奉獻(xiàn)給Apeche。Hadoop已經(jīng)開展成為包括文件系統(tǒng)、數(shù)據(jù)庫(kù)、數(shù)據(jù)處理等功能模塊在內(nèi)的完整生態(tài)系統(tǒng)[11]。某種程度上可以說Hadoop已經(jīng)成為大數(shù)據(jù)處理工具事實(shí)上的標(biāo)準(zhǔn)。對(duì)Hadoop改良并將其應(yīng)用于各種場(chǎng)景的大數(shù)據(jù)處理已經(jīng)成為新的研究熱點(diǎn)。主要的研究成果集中在對(duì)Hadoop平臺(tái)性能的改良、高效的查詢處理、索引構(gòu)建和使用、在Hadoop之上構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)庫(kù)系統(tǒng)的連接、數(shù)據(jù)挖掘、推薦系統(tǒng)等。除了Hadoop,還有很多針對(duì)大數(shù)據(jù)的處理工具。這些工具有些是完整的處理平臺(tái)、有些那么是專門針對(duì)特定的大數(shù)據(jù)處理應(yīng)用。REF_Ref392353792\h表2歸納總結(jié)了現(xiàn)今一些主流的處理平臺(tái)和工具、這些平臺(tái)和工具或是已經(jīng)投入商業(yè)使用、或是開源軟件。在已經(jīng)投入商業(yè)使用的產(chǎn)品中、絕大局部也是在Hadoop根底上進(jìn)行功能擴(kuò)展、或者提供與Hadoop的數(shù)據(jù)接口。表SEQ表\*ARABIC2大數(shù)據(jù)處理工具列表MapReduce和關(guān)系數(shù)據(jù)庫(kù)技術(shù)的融合當(dāng)前研究大都集中于功能或特性的移植,即從一個(gè)平臺(tái)學(xué)習(xí)新的技術(shù),到另一平臺(tái)重新實(shí)現(xiàn)和集成,未涉及執(zhí)行核心,因此也沒有從根本上解決大數(shù)據(jù)分析問題。鑒于此,中國(guó)人民大學(xué)高性能數(shù)據(jù)庫(kù)實(shí)驗(yàn)室的研究小組采取了另一種思路:從數(shù)據(jù)的組織和查詢的執(zhí)行兩個(gè)核心層次入手,融合關(guān)系數(shù)據(jù)庫(kù)和MapReduce兩種技術(shù),設(shè)計(jì)高性能的可擴(kuò)展的抽象數(shù)據(jù)倉(cāng)庫(kù)查詢處理框架。該框架在支持高度可擴(kuò)展的同時(shí),又具有關(guān)系數(shù)據(jù)庫(kù)的性能。兩個(gè)研究方向:(1)借鑒MapReduce的思想,使OLAP查詢的處理能像MapReduce一樣高度可擴(kuò)展(LinearDB原型);(2)利用關(guān)系數(shù)據(jù)庫(kù)的技術(shù),使MapReduce在處理OLAP查詢時(shí),逼近關(guān)系數(shù)據(jù)庫(kù)的性能(Dumbo原型)[8]。5.1LinearDBLinearDB原型系統(tǒng)沒有直接采用基于連接的星型模型(雪花模型),而是對(duì)其進(jìn)行了改造,設(shè)計(jì)了擴(kuò)展性更好的、基于掃描的無連接雪花模型JFSS(Join-FreeSnowflakeSchema)。該模型的設(shè)計(jì)借鑒了泛關(guān)系模型的思想,采用層次編碼技術(shù)[40]將維表層次信息壓縮進(jìn)事實(shí)表,使得事實(shí)表可以獨(dú)立執(zhí)行維表上的謂詞判斷、聚集等操作,從而使連接的數(shù)據(jù)在大規(guī)模機(jī)群上實(shí)現(xiàn)局部性,消除了連接操作。REF_Ref392358624\h圖11是一個(gè)星型模型和無連接雪花模型的對(duì)應(yīng)示意圖。在執(zhí)行層次上,LinearDB吸取了MapReduce處理模式的設(shè)計(jì)思想,將數(shù)據(jù)倉(cāng)庫(kù)查詢的處理抽象為Transform、Reduce、Merge3個(gè)操作(TRM執(zhí)行模型):(1)Transform。主節(jié)點(diǎn)對(duì)查詢進(jìn)行預(yù)處理,將查詢中作用于維表的操作(主要是謂詞判斷,group-by聚集操作等)轉(zhuǎn)換為事實(shí)表上的操作;(2)Reduce。每個(gè)數(shù)據(jù)節(jié)點(diǎn)并行地掃描、聚集本地?cái)?shù)據(jù),然后將處理結(jié)果返回給主節(jié)點(diǎn);(3)Merge。主節(jié)點(diǎn)對(duì)各個(gè)數(shù)據(jù)節(jié)點(diǎn)返回的結(jié)果進(jìn)行合并,并執(zhí)行后續(xù)的過濾、排序等操作?;赥RM執(zhí)行模型,查詢可以劃分為眾多獨(dú)立的子任務(wù)在大規(guī)模機(jī)群上并行執(zhí)行。執(zhí)行過程中,任何失敗子任務(wù)都可以在其備份節(jié)點(diǎn)重新執(zhí)行,從而獲得較好的容錯(cuò)能力。LinearDB的執(zhí)行代價(jià)主要取決于對(duì)事實(shí)表的Reduce(主要是掃描)操作,因此,LinearDB可以獲得近乎線性的大規(guī)??蓴U(kuò)展能力。實(shí)驗(yàn)說明,其性能比HadoopDB至少高出一個(gè)數(shù)量級(jí)。LinearDB的擴(kuò)展能力、容錯(cuò)能力和高性能在于其巧妙地結(jié)合了關(guān)系數(shù)據(jù)庫(kù)技術(shù)(層次編碼技術(shù)、泛關(guān)系模式)和MapReduce處理模式的設(shè)計(jì)思想,由此,可以看出,結(jié)合方式的不同可以導(dǎo)致系統(tǒng)能力的巨大差異。圖SEQ圖\*ARABIC11比照:一個(gè)典型星型模型與其對(duì)應(yīng)的無連接雪花模型5.2DumboDumbo的核心思想是根據(jù)MapReduce的“過濾->聚集〞的處理模式,對(duì)OLAP查詢的處理進(jìn)行改造,使其適應(yīng)于MapReduce框架。Dumbo采用了類似于LinearDB的數(shù)據(jù)組織模式——利用層次編碼技術(shù)將維表信息壓縮進(jìn)事實(shí)表,區(qū)別在于Dumbo采用了更加有效的編碼方式,并針對(duì)Hadoop分布式文件系統(tǒng)的特點(diǎn)對(duì)數(shù)據(jù)的存儲(chǔ)進(jìn)行了優(yōu)化。在執(zhí)行層次上,Dumbo對(duì)MapReduce框架進(jìn)行了擴(kuò)展,設(shè)計(jì)了新的OLAP查詢處理框架——TMRP(Transform->Map->Reduce->Postprocess)處理框架(如REF_Ref392358624\hREF_Ref392358790\h圖12所示)。在該框架中,主節(jié)點(diǎn)首先對(duì)查詢進(jìn)行轉(zhuǎn)換,生成一個(gè)MapReduce任務(wù)來執(zhí)行查詢。該任務(wù)在Map階段以流水線方式掃描、聚集本地?cái)?shù)據(jù),并只將本地的聚集數(shù)據(jù)傳至Reduce階段,來進(jìn)行數(shù)據(jù)的合并及聚集、排序等操作。在Postprocess階段,主節(jié)點(diǎn)在數(shù)據(jù)節(jié)點(diǎn)上傳的聚集數(shù)據(jù)之上執(zhí)行連接操作。實(shí)驗(yàn)說明,Dumbo性能遠(yuǎn)超Hadoop和HadoopDB。由此我們可以看出,復(fù)雜的OLAP查詢?cè)贛apReduce框架下也可以獲得接近甚至超越關(guān)系數(shù)據(jù)庫(kù)的性能,其關(guān)鍵在于如何有效地結(jié)合關(guān)系數(shù)據(jù)庫(kù)和MapReduce兩種技術(shù)。僅僅停留于表層的移植和集成是難以從根本上解決大數(shù)據(jù)分析問題的。我們?cè)谖墨I(xiàn)[41]的研究中也展示了如何基于這種新的數(shù)據(jù)組織方式來實(shí)現(xiàn)復(fù)雜分析操作———百分位數(shù)的高效計(jì)算問題。LinearDB和Dumbo雖然根本可以到達(dá)預(yù)期的設(shè)計(jì)目標(biāo),但兩者都需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,其預(yù)處理代價(jià)是普通加載時(shí)間的7倍左右。因此其應(yīng)對(duì)變化的能力還較弱,這是未來的工作內(nèi)容之一。圖SEQ圖\*ARABIC12Dumbo架構(gòu)(深灰色局部是新增模塊,剩余局部是Hadoop自帶模塊)大數(shù)據(jù)時(shí)代的挑戰(zhàn)與應(yīng)對(duì)策略6.1大數(shù)據(jù)時(shí)代面臨的挑戰(zhàn)運(yùn)營(yíng)商帶寬能力與對(duì)數(shù)據(jù)洪流的適應(yīng)能力面臨前所未有的挑戰(zhàn),管道化壓力化解及“云-管-端〞的有效裝備也均面臨新挑戰(zhàn)。大數(shù)據(jù)的“四V〞特征在數(shù)據(jù)存儲(chǔ)、傳輸、分析、處理等方面均帶來本質(zhì)變化。數(shù)據(jù)量的快速增長(zhǎng),對(duì)存儲(chǔ)技術(shù)提出了挑戰(zhàn);同時(shí),需要高速信息傳輸能力支持,與低密度有價(jià)值數(shù)據(jù)的快速分析、處理能力。海量數(shù)據(jù)洪流中,在線對(duì)話與在線交易活動(dòng)日益增加,其平安威脅更為嚴(yán)峻;而且現(xiàn)今黑客的組織能力、作案工具、作案手法及隱蔽程度更上一層樓,典型的有APT〔AdvancedPersistentThreat,高級(jí)持續(xù)性平安威脅〕。大數(shù)據(jù)環(huán)境下通過對(duì)用戶數(shù)據(jù)的深度分析,很容易了解用戶行為和喜好,乃至企業(yè)用戶的商業(yè)機(jī)密,對(duì)個(gè)人隱
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 如何利用社交媒體促進(jìn)職業(yè)發(fā)展
- 中國(guó)全自動(dòng)逆變電源行業(yè)市場(chǎng)前景預(yù)測(cè)及投資價(jià)值評(píng)估分析報(bào)告
- 2025年浙江臺(tái)州仙居利昇檔案館項(xiàng)目投資有限公司招聘筆試參考題庫(kù)含答案解析
- 2025年山東棗莊山亭區(qū)山東山興控股集團(tuán)有限公司招聘筆試參考題庫(kù)含答案解析
- 2025年貴州六盤水市鐘山區(qū)涼源貴水飲業(yè)有限公司招聘筆試參考題庫(kù)含答案解析
- 安全教育說課課件
- 2025年廣東梅州市志浩電子科技有限公司招聘筆試參考題庫(kù)附帶答案詳解
- 2025年山東威海智慧谷投資運(yùn)營(yíng)有限公司招聘筆試參考題庫(kù)附帶答案詳解
- 甘肅小學(xué)二年級(jí)上冊(cè)奧數(shù)單選題110道及答案
- 四川省成都市成華區(qū)某校2023-2024學(xué)年高三上學(xué)期期中英語 無答案
- 辯論賽PPT模板模板
- 中國(guó)特色社會(huì)主義理論與實(shí)踐研究教學(xué)大綱
- GB/T 7702.7-2023煤質(zhì)顆?;钚蕴吭囼?yàn)方法第7部分:碘吸附值的測(cè)定
- 提高我們的逆商
- 2024屆一輪復(fù)習(xí)新人教版 實(shí)驗(yàn)17 測(cè)量玻璃的折射率 課件(35張)
- 起訴意見書(公安)
- 松下伺服驅(qū)動(dòng)器說明書
- 實(shí)驗(yàn):驗(yàn)證動(dòng)量守恒定律 說課課件
- 連桿加工工藝規(guī)程及夾具設(shè)計(jì)工序卡-工藝規(guī)程卡
- 2023年簡(jiǎn)明新疆地方史
- GB/T 41995-2022并網(wǎng)型微電網(wǎng)運(yùn)行特性評(píng)價(jià)技術(shù)規(guī)范
評(píng)論
0/150
提交評(píng)論