第14章-大數(shù)據(jù)管理-數(shù)據(jù)庫(kù)系統(tǒng)概論(第五版)_第1頁(yè)
第14章-大數(shù)據(jù)管理-數(shù)據(jù)庫(kù)系統(tǒng)概論(第五版)_第2頁(yè)
第14章-大數(shù)據(jù)管理-數(shù)據(jù)庫(kù)系統(tǒng)概論(第五版)_第3頁(yè)
第14章-大數(shù)據(jù)管理-數(shù)據(jù)庫(kù)系統(tǒng)概論(第五版)_第4頁(yè)
第14章-大數(shù)據(jù)管理-數(shù)據(jù)庫(kù)系統(tǒng)概論(第五版)_第5頁(yè)
已閱讀5頁(yè),還剩52頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

AnIntroductiontoDatabaseSystem數(shù)據(jù)庫(kù)系統(tǒng)概論AnIntroductiontoDatabaseSystem大數(shù)據(jù)管理引言2014年,馬云在一次演講中說(shuō)道:“人類(lèi)正從IT時(shí)代走向DT時(shí)代”。DT時(shí)代,推動(dòng)世界前進(jìn)的動(dòng)力是大數(shù)據(jù)+大算力,我們?cè)谇斑M(jìn)動(dòng)力上領(lǐng)先全球。海量的數(shù)據(jù)+5G物聯(lián)網(wǎng)+芯片技術(shù)我們正進(jìn)入DT時(shí)代,千真萬(wàn)確。AnIntroductiontoDatabaseSystem大數(shù)據(jù)管理14.1大數(shù)據(jù)概述14.2大數(shù)據(jù)的應(yīng)用14.3大數(shù)據(jù)管理系統(tǒng)14.4小結(jié)AnIntroductiontoDatabaseSystem14.1大數(shù)據(jù)概述14.1.1什么是大數(shù)據(jù)14.1.2大數(shù)據(jù)的特征AnIntroductiontoDatabaseSystem14.1.1什么是大數(shù)據(jù)超大規(guī)模數(shù)據(jù)庫(kù)(VeryLargeDatabase,VLDB)是20世紀(jì)70年代中期出現(xiàn)的詞數(shù)據(jù)庫(kù)中管理的數(shù)據(jù)集有數(shù)百萬(wàn)條記錄就是超大規(guī)模實(shí)現(xiàn)技術(shù)DBMS相關(guān)理論與技術(shù)三級(jí)模式、數(shù)據(jù)獨(dú)立性的思想(增加了DBMS的適應(yīng)性和應(yīng)用系統(tǒng)的穩(wěn)定性)、RDBMS-SQL語(yǔ)言、基于代價(jià)的優(yōu)化技術(shù),事務(wù)管理與故障恢復(fù)技術(shù)等。關(guān)系數(shù)據(jù)理論促進(jìn)了以O(shè)LTP和OLAP為標(biāo)志的商務(wù)管理與商務(wù)智能應(yīng)用的發(fā)展。其技術(shù)精華和成功經(jīng)驗(yàn)為今天大數(shù)據(jù)管理和分析奠定了基礎(chǔ)。AnIntroductiontoDatabaseSystem14.1.1什么是大數(shù)據(jù)海量數(shù)據(jù)是21世紀(jì)初出現(xiàn)的詞用來(lái)描述更大的數(shù)據(jù)集以及更加豐富的數(shù)據(jù)類(lèi)型。為了應(yīng)對(duì)“海量數(shù)據(jù)”的挑戰(zhàn),研究了半結(jié)構(gòu)化數(shù)據(jù)和各種非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)模型及對(duì)它們的有效管理、多數(shù)據(jù)源的集成問(wèn)題等。大數(shù)據(jù)并不是當(dāng)前時(shí)代所獨(dú)有的特征,而是伴隨著人類(lèi)社會(huì)的發(fā)展以及人類(lèi)科技平的提高而不斷發(fā)展演化的。AnIntroductiontoDatabaseSystem大數(shù)據(jù)的定義2008年9月,《Science》發(fā)表了一篇文章“BigData:ScienceinthePetabyteEra”數(shù)據(jù)規(guī)模超出了當(dāng)時(shí)的計(jì)算機(jī)存儲(chǔ)和處理技術(shù)水平,需要更加先進(jìn)的技術(shù),才能有效地存儲(chǔ)、管理和處理它們定義一般意義上,大數(shù)據(jù)是指無(wú)法在可容忍的時(shí)間內(nèi)用現(xiàn)有IT技術(shù)和軟硬件工具對(duì)其進(jìn)行感知、獲取、管理、處理和服務(wù)的數(shù)據(jù)集合。還有專(zhuān)家給出的定義是,大數(shù)據(jù)通常被認(rèn)為是PB(103TB)或EB(1EB=106TB)或更高數(shù)量級(jí)的數(shù)據(jù),包括結(jié)構(gòu)化的、半結(jié)構(gòu)化的和非結(jié)構(gòu)化的數(shù)據(jù)。其規(guī)?;驈?fù)雜程度超出了傳統(tǒng)數(shù)據(jù)庫(kù)和軟件技術(shù)所能管理和處理的數(shù)據(jù)集范圍。AnIntroductiontoDatabaseSystem大數(shù)據(jù)的分類(lèi)按大數(shù)據(jù)的應(yīng)用類(lèi)型將大數(shù)據(jù)分為海量交易數(shù)據(jù)(企業(yè)OLTP應(yīng)用)數(shù)據(jù)海量、讀寫(xiě)操作比較簡(jiǎn)單、訪問(wèn)和更新頻繁、一次交易的數(shù)據(jù)量不大,但要求支持事務(wù)ACID特性,對(duì)數(shù)據(jù)的完整性及安全性要求高,必須保證強(qiáng)一致性。海量交互數(shù)據(jù)(社交網(wǎng)、傳感器、GPS、Web信息)類(lèi)型多樣異構(gòu)、不完備、噪音大、數(shù)據(jù)增長(zhǎng)快,不要求具有強(qiáng)一致性。實(shí)時(shí)交互性強(qiáng),但不要求支持事務(wù)特性。海量處理數(shù)據(jù)(企業(yè)OLAP應(yīng)用)面向海量數(shù)據(jù)分析,計(jì)算復(fù)雜,往往涉及多次迭代完成,追求數(shù)據(jù)分析的高效率,但不要求支持事務(wù)特性。其數(shù)據(jù)的特點(diǎn)是同構(gòu)性(如關(guān)系、文本、列模式數(shù)據(jù))和較好的穩(wěn)定性(不存在頻繁的更新操作)。典型的應(yīng)用是采用并行與分布處理框架實(shí)現(xiàn)。AnIntroductiontoDatabaseSystem大數(shù)據(jù)的分類(lèi)有些專(zhuān)家將網(wǎng)絡(luò)空間(cyberspace)中各類(lèi)應(yīng)用引發(fā)的大數(shù)據(jù)稱(chēng)為網(wǎng)絡(luò)大數(shù)據(jù)。按數(shù)據(jù)類(lèi)型分為自媒體數(shù)據(jù)日志數(shù)據(jù)富媒體數(shù)據(jù)AnIntroductiontoDatabaseSystem14.1.2大數(shù)據(jù)的特征巨量(Volume)多樣(Variety)快變(Velocity)價(jià)值(Value)AnIntroductiontoDatabaseSystem巨量(Volume)大數(shù)據(jù)的首要特征數(shù)據(jù)量巨大,而且在持續(xù)、急劇地膨脹大規(guī)模數(shù)據(jù)的幾個(gè)主要來(lái)源如下:(1)科學(xué)研究(天文學(xué)、生物學(xué)、高能物理等)、計(jì)算機(jī)仿真領(lǐng)域。(2)互聯(lián)網(wǎng)應(yīng)用、電子商務(wù)領(lǐng)域。(3)傳感器數(shù)據(jù)(sensordata)。(4)網(wǎng)站點(diǎn)擊流數(shù)據(jù)(clickstreamdata)。(5)移動(dòng)設(shè)備數(shù)據(jù)(mobiledevicedata)。(6)無(wú)線射頻識(shí)別數(shù)據(jù)(RFIDData)(7)傳統(tǒng)的DB和DW所管理的結(jié)構(gòu)化數(shù)據(jù)。AnIntroductiontoDatabaseSystem巨量(Volume)觀點(diǎn):大是相對(duì)的,是和當(dāng)時(shí)的計(jì)算機(jī)處理能力相關(guān)的,超過(guò)了現(xiàn)有技術(shù)的能力。但是,“大規(guī)?!庇质谴髷?shù)據(jù)的基本要求。80年代,百萬(wàn)條記錄就是VERYLARGEDATA00年代,TB級(jí)別就是DATAINTENSIVE10年代,100T以上,甚至PB級(jí)才能夠算得上是大數(shù)據(jù)從現(xiàn)在起,每18個(gè)月,新增的存儲(chǔ)量等于有史以來(lái)存儲(chǔ)量之和?。?998年圖靈獎(jiǎng)獲得者JimGray)應(yīng)對(duì)大數(shù)據(jù)的措施設(shè)計(jì)新的計(jì)算機(jī)硬件以及新的系統(tǒng)架構(gòu)設(shè)計(jì)新硬件下的存儲(chǔ)子系統(tǒng)。存儲(chǔ)子系統(tǒng)的改變將影響數(shù)據(jù)管理和數(shù)據(jù)處理的各個(gè)方面,包括數(shù)據(jù)分布、數(shù)據(jù)復(fù)制、負(fù)載平衡、查詢(xún)算法、查詢(xún)調(diào)度、一致性控制、并發(fā)控制和恢復(fù)方法,等等。AnIntroductiontoDatabaseSystem多樣(Variety)數(shù)據(jù)的多樣性通常是指異構(gòu)的數(shù)據(jù)類(lèi)型、不同的數(shù)據(jù)表示和語(yǔ)義解釋。純粹的關(guān)系數(shù)據(jù)結(jié)構(gòu)化、半結(jié)構(gòu)化的數(shù)據(jù),如文本、圖形、圖像、音頻、視頻、網(wǎng)頁(yè)、推特和博客(blogs)等。針對(duì)半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的高效表達(dá)、存取和分析技術(shù),需要大量的基礎(chǔ)研究。對(duì)異構(gòu)海量數(shù)據(jù)的組織、分析、檢索、管理和建模是基礎(chǔ)性的挑戰(zhàn)。對(duì)非結(jié)構(gòu)化數(shù)據(jù)的分析在許多應(yīng)用中成為一個(gè)顯著的瓶頸。例如,圖像和視頻數(shù)據(jù)雖具有存儲(chǔ)和播放結(jié)構(gòu),但這種結(jié)構(gòu)不適合進(jìn)行上下文語(yǔ)義分析和搜索。傳統(tǒng)的數(shù)據(jù)分析算法在處理同構(gòu)數(shù)據(jù)方面比較成熟,是否將各種類(lèi)型的數(shù)據(jù)內(nèi)容轉(zhuǎn)化為同構(gòu)的格式以供日后分析?此外,考慮到當(dāng)今大多數(shù)數(shù)據(jù)是直接以數(shù)字格式生成的,是否可以干預(yù)數(shù)據(jù)的產(chǎn)生過(guò)程以方便日后的數(shù)據(jù)分析?在數(shù)據(jù)分析之前還要對(duì)數(shù)據(jù)進(jìn)行清洗和糾錯(cuò),還必須對(duì)缺失和錯(cuò)誤數(shù)據(jù)進(jìn)行處理等。AnIntroductiontoDatabaseSystem快變(Velocity)快變性也稱(chēng)為實(shí)時(shí)性一方面指數(shù)據(jù)到達(dá)的速度很快。另一方面指能夠進(jìn)行處理的時(shí)間很短,或者要求響應(yīng)速度很快,即實(shí)時(shí)響應(yīng)。許多大數(shù)據(jù)往往以數(shù)據(jù)流的形式動(dòng)態(tài)、快速地產(chǎn)生和演變,具有很強(qiáng)的時(shí)效性,要想立即得到分析結(jié)果,對(duì)流數(shù)據(jù)的采集、過(guò)濾、存儲(chǔ)和利用需要充分考慮和掌控它們的快變性。例如,在進(jìn)行信用卡交易時(shí),如果懷疑該信用卡涉嫌欺詐,應(yīng)該在交易完成之前做出判斷,以防止非法交易的產(chǎn)生。這就要求系統(tǒng)具有極強(qiáng)的處理能力和妥當(dāng)?shù)奶幚聿呗?。事先?duì)歷史交易數(shù)據(jù)進(jìn)行分析和預(yù)計(jì)算,再結(jié)合新數(shù)據(jù)進(jìn)行少量的增量計(jì)算便可迅速做出判斷。對(duì)于大數(shù)據(jù)上的實(shí)時(shí)分析處理,大數(shù)據(jù)查詢(xún)和分析中的優(yōu)化技術(shù)具有極大的挑戰(zhàn)性,需要借鑒傳統(tǒng)數(shù)據(jù)庫(kù)中非常成功的查詢(xún)優(yōu)化技術(shù)以及索引技術(shù)等。AnIntroductiontoDatabaseSystem價(jià)值(Value)大數(shù)據(jù)的價(jià)值是潛在的、巨大的。數(shù)據(jù)就是資源,數(shù)據(jù)就是財(cái)富。大數(shù)據(jù)價(jià)值的潛在性,是指數(shù)據(jù)蘊(yùn)含的巨大價(jià)值只有通過(guò)對(duì)大數(shù)據(jù)以及數(shù)據(jù)之間蘊(yùn)含的聯(lián)系進(jìn)行復(fù)雜的分析、反復(fù)深入的挖掘才能獲得。巨大潛力和目標(biāo)實(shí)現(xiàn)之間還存在著巨大的鴻溝。大數(shù)據(jù)規(guī)模巨大、異構(gòu)多樣、快變復(fù)雜,隱私等自身的問(wèn)題,以及數(shù)據(jù)孤島、信息私有、缺乏共享的客觀現(xiàn)實(shí)都阻礙了數(shù)據(jù)價(jià)值的創(chuàng)造。大數(shù)據(jù)具有巨大的經(jīng)濟(jì)價(jià)值和產(chǎn)業(yè)價(jià)值已經(jīng)開(kāi)始顯現(xiàn)。AnIntroductiontoDatabaseSystem價(jià)值(Value)大數(shù)據(jù)研究的科學(xué)價(jià)值數(shù)據(jù)科學(xué)是以大數(shù)據(jù)為研究對(duì)象,橫跨信息科學(xué)、社會(huì)科學(xué)、網(wǎng)絡(luò)科學(xué)、系統(tǒng)科學(xué)、心理學(xué)、經(jīng)濟(jì)學(xué)等諸多領(lǐng)域的新興交叉學(xué)科。大數(shù)據(jù)的研究方式(2007年1月11日J(rèn)amesGray在加州山景城召開(kāi)的NRC-CSTB上的演講提出)幾千年前的實(shí)驗(yàn)科學(xué)(第一范式)以模型和歸納為特征的理論科學(xué)(第二范式)幾十年來(lái)以模擬仿真為特征的計(jì)算科學(xué)(第三范式大數(shù)據(jù)研究的第四范式(thefourthparadigm)數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)(dataintensivescientificdiscovery)科研第四范式將不僅是研究方式的轉(zhuǎn)變,也是人們思維方式的大變化。AnIntroductiontoDatabaseSystem14.2大數(shù)據(jù)的應(yīng)用案例14.2.1感知現(xiàn)在預(yù)測(cè)未來(lái)——互聯(lián)網(wǎng)文本大數(shù)據(jù)管理與挖掘14.2.2數(shù)據(jù)服務(wù)實(shí)時(shí)推薦——基于大數(shù)據(jù)分析的用戶(hù)建模AnIntroductiontoDatabaseSystem14.2.1感知現(xiàn)在預(yù)測(cè)未來(lái)——互聯(lián)網(wǎng)文本大數(shù)據(jù)管理與挖掘互聯(lián)網(wǎng)媒體又稱(chēng)網(wǎng)絡(luò)媒體、第四媒體,是以互聯(lián)網(wǎng)為傳輸平臺(tái),以計(jì)算機(jī)、移動(dòng)電話、便攜設(shè)備等為終端,以文字、聲音、圖像等形式來(lái)傳播新聞信息的一種數(shù)字化、多媒體的傳播媒介。如何處理和分析互聯(lián)網(wǎng)媒體大數(shù)據(jù),幫助人們?cè)诤A繑?shù)據(jù)中獲取及分析真實(shí)有價(jià)值的信息,從而正確感知現(xiàn)在,迅速預(yù)測(cè)未來(lái),做好應(yīng)急事件的預(yù)案和防范是一個(gè)具有重大價(jià)值并且亟待解決的研究問(wèn)題。1.互聯(lián)網(wǎng)媒體文本大數(shù)據(jù)應(yīng)用:時(shí)事探針2.互聯(lián)網(wǎng)文本大數(shù)據(jù)管理的挑戰(zhàn)3.互聯(lián)網(wǎng)文本大數(shù)據(jù)管理系統(tǒng)AnIntroductiontoDatabaseSystem時(shí)事探針系統(tǒng)時(shí)事探針系統(tǒng)是中國(guó)人民大學(xué)研制開(kāi)發(fā)的一個(gè)互聯(lián)網(wǎng)輿情分析系統(tǒng)。該系統(tǒng)可以實(shí)時(shí)監(jiān)控、收集互聯(lián)網(wǎng)媒體數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行深入的挖掘和分析??梢杂行У貛椭脩?hù)、企業(yè)以及政府機(jī)構(gòu)對(duì)所關(guān)注的新聞話題在互聯(lián)網(wǎng)媒體中的報(bào)道進(jìn)行感知、獲取、跟蹤、預(yù)警和深入分析,具有極大的應(yīng)用價(jià)值。其主要功能包括動(dòng)態(tài)數(shù)據(jù)抓取、歷史數(shù)據(jù)保留、數(shù)據(jù)深度智能分析、數(shù)據(jù)可視化展示、敏感信息實(shí)時(shí)捕捉、預(yù)定閾值報(bào)警等。AnIntroductiontoDatabaseSystem時(shí)事探針系統(tǒng)“高考”話題進(jìn)行分析圖14.1顯示,媒體對(duì)于高考這一話題整體關(guān)注度較高,從2014年5月份開(kāi)始,隨著高考的臨近,報(bào)道量持續(xù)增加。AnIntroductiontoDatabaseSystem時(shí)事探針系統(tǒng)“高考”熱議話題的多維分析圖14.2展示了對(duì)“高考”熱議話題的多維分析。該圖顯示了與“高考”有關(guān)的主要人物、主要相關(guān)地點(diǎn)、主要相關(guān)機(jī)構(gòu)、相關(guān)話題AnIntroductiontoDatabaseSystem時(shí)事探針多維度交叉分析圖14.3顯示了有關(guān)該“英語(yǔ)退出高考”話題的正面報(bào)道、負(fù)面報(bào)道和中性報(bào)道的分布情況。相關(guān)報(bào)道集中在5月19日左右,熱門(mén)人物是顧明遠(yuǎn),討論最多的地點(diǎn)為上海和北京,核心報(bào)道內(nèi)容為顧明遠(yuǎn)和教育部否認(rèn)“英語(yǔ)退出高考”。AnIntroductiontoDatabaseSystem2.互聯(lián)網(wǎng)文本大數(shù)據(jù)管理的挑戰(zhàn)挑戰(zhàn)首先,文本數(shù)據(jù)中的主題開(kāi)放多樣且無(wú)直接關(guān)聯(lián),無(wú)法事先預(yù)定義關(guān)系模式和值域。其次,文本大數(shù)據(jù)一般由自然語(yǔ)言生成,沒(méi)有確定的結(jié)構(gòu),無(wú)法直接用關(guān)系型數(shù)據(jù)進(jìn)行存儲(chǔ)和查詢(xún)。最后,互聯(lián)網(wǎng)上的數(shù)據(jù)量巨大、變化速度快,對(duì)數(shù)據(jù)管理系統(tǒng)的可擴(kuò)展性和實(shí)時(shí)性提出了很高的要求?,F(xiàn)狀對(duì)于文本大數(shù)據(jù)處理,目前廣泛使用的互聯(lián)網(wǎng)搜索引擎(包括新聞搜索引擎)只是對(duì)文本數(shù)據(jù)的簡(jiǎn)單索引和查找,不能滿(mǎn)足用戶(hù)對(duì)所關(guān)注的話題進(jìn)行實(shí)時(shí)監(jiān)測(cè)、深入分析以及決策支持等需求。AnIntroductiontoDatabaseSystem3.互聯(lián)網(wǎng)文本大數(shù)據(jù)管理系統(tǒng)互聯(lián)網(wǎng)文本大數(shù)據(jù)管理的特點(diǎn)如下:(1)蘊(yùn)含著豐富的社會(huì)信息,可以看作是對(duì)真實(shí)社會(huì)的網(wǎng)絡(luò)映射。(2)通過(guò)實(shí)時(shí)、深入分析能幫助人們?cè)诤A繑?shù)據(jù)中獲取有價(jià)值的信息,發(fā)現(xiàn)蘊(yùn)含的規(guī)律,可以更好地感知現(xiàn)在、預(yù)測(cè)未來(lái),體現(xiàn)了第四范式數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)的研究方式和思維方式。(3)對(duì)大數(shù)據(jù)系統(tǒng)和技術(shù)的挑戰(zhàn)是全面的、跨學(xué)科跨領(lǐng)域的,需要?jiǎng)?chuàng)新,也要繼承傳統(tǒng)數(shù)據(jù)管理技術(shù)和數(shù)據(jù)倉(cāng)庫(kù)分析技術(shù)的精華。設(shè)計(jì)策略需要參考并融合傳統(tǒng)信息檢索系統(tǒng)、數(shù)據(jù)庫(kù)系統(tǒng)以及數(shù)據(jù)分析系統(tǒng)(如數(shù)據(jù)倉(cāng)庫(kù)和OLAP)的特長(zhǎng)和技術(shù)來(lái)設(shè)計(jì)數(shù)據(jù)處理的模型、存儲(chǔ)、索引、查詢(xún)等機(jī)制。同時(shí),需要吸收和借鑒分布式大數(shù)據(jù)處理系統(tǒng)(如Hadoop和NoSQL系統(tǒng))的設(shè)計(jì)和經(jīng)驗(yàn)以滿(mǎn)足可擴(kuò)展性和實(shí)時(shí)性的需求,。AnIntroductiontoDatabaseSystem時(shí)事探針系統(tǒng)結(jié)構(gòu)AnIntroductiontoDatabaseSystem時(shí)事探針系統(tǒng)核心設(shè)計(jì)理念通用的管理和分析平臺(tái)使用信息檢索技術(shù)對(duì)無(wú)結(jié)構(gòu)的互聯(lián)網(wǎng)文本數(shù)據(jù)進(jìn)行索引以滿(mǎn)足用戶(hù)查找相關(guān)新聞的需求;同時(shí),對(duì)相關(guān)文檔中包含的關(guān)鍵信息進(jìn)行挖掘和抽取以生成結(jié)構(gòu)化數(shù)據(jù),并對(duì)這些數(shù)據(jù)進(jìn)行匯總和分析,以輔助用戶(hù)對(duì)報(bào)道中包含的高階知識(shí)進(jìn)行理解。整個(gè)系統(tǒng)分為離線處理和在線處理兩個(gè)部分,其中離線部分是設(shè)計(jì)的重點(diǎn)。AnIntroductiontoDatabaseSystem時(shí)事探針系統(tǒng)-功能(1)多源異構(gòu)網(wǎng)絡(luò)大數(shù)據(jù)的感知和獲取(2)文檔理解及結(jié)構(gòu)化數(shù)據(jù)集成和抽取(3)數(shù)據(jù)存儲(chǔ)和索引(4)離線主題文本立方體建立及更新AnIntroductiontoDatabaseSystem(1)多源異構(gòu)網(wǎng)絡(luò)大數(shù)據(jù)的感知和獲取由于互聯(lián)網(wǎng)內(nèi)在的分布性和自組織性,數(shù)據(jù)的感知和獲取是網(wǎng)絡(luò)大數(shù)據(jù)處理非常重要的第一步。和傳統(tǒng)搜索引擎一樣,使用網(wǎng)絡(luò)爬蟲(chóng)對(duì)互聯(lián)網(wǎng)媒體網(wǎng)站內(nèi)容進(jìn)行抓取并存儲(chǔ)到原始文檔庫(kù)中。主要挑戰(zhàn)如何針對(duì)給定的主題實(shí)時(shí)智能地收集相關(guān)的網(wǎng)絡(luò)數(shù)據(jù),從而為后續(xù)的處理提供準(zhǔn)確豐富的數(shù)據(jù)來(lái)源。AnIntroductiontoDatabaseSystem(2)文檔理解及結(jié)構(gòu)化數(shù)據(jù)集成和抽取數(shù)據(jù)集成和抽取是指將在多個(gè)數(shù)據(jù)源中以不同的形式表示同一個(gè)實(shí)體或概念的缺乏統(tǒng)一結(jié)構(gòu)、質(zhì)量良莠不齊、“大而低質(zhì)量”的無(wú)結(jié)構(gòu)數(shù)據(jù)進(jìn)行深入分析,采用相應(yīng)數(shù)據(jù)抽取技術(shù)從中挖掘出高質(zhì)量的結(jié)構(gòu)化信息的過(guò)程。數(shù)據(jù)集成和抽取技術(shù),具體包括文檔編碼檢測(cè)及HTML文本轉(zhuǎn)換、文檔語(yǔ)言(如中文、日文或者英文)檢測(cè)、正文及相關(guān)屬性(標(biāo)題、時(shí)間、作者、主要圖片等)抽取、文檔內(nèi)容段落及句子切分、文本分詞、命名實(shí)體(時(shí)間、地點(diǎn)、人物、機(jī)構(gòu)等)識(shí)別、動(dòng)詞專(zhuān)有名詞抽取、情感分析、話題檢測(cè)、知識(shí)庫(kù)實(shí)體匹配及消歧、事件檢測(cè)及抽取等。AnIntroductiontoDatabaseSystem(3)數(shù)據(jù)存儲(chǔ)和索引原始文檔庫(kù)主要用于保存抓取下來(lái)的原始網(wǎng)頁(yè)。原始文檔庫(kù)上主要進(jìn)行文檔的寫(xiě)入和讀取,無(wú)刪除操作,并發(fā)計(jì)算和查詢(xún)的需求不大,可直接使用關(guān)系型數(shù)據(jù)庫(kù)或者NoSQL數(shù)據(jù)庫(kù)。由于原始文檔庫(kù)中的文檔在寫(xiě)入時(shí)一般按照時(shí)間順序?qū)懭?,在?duì)原始文檔庫(kù)中的文檔進(jìn)行處理時(shí),也一般按照時(shí)間順序進(jìn)行,因此需要對(duì)文檔抓取時(shí)間進(jìn)行索引。結(jié)構(gòu)化文檔庫(kù)主要存儲(chǔ)對(duì)文檔進(jìn)行深入理解后所抽取的信息,包括文檔標(biāo)題、文檔正文、文檔時(shí)間、文檔作者、主要圖片等文檔級(jí)別的信息,也包括句子級(jí)別的信息,如句子文本、情感值、句子所包含的命名實(shí)體、關(guān)鍵詞等。AnIntroductiontoDatabaseSystem(3)數(shù)據(jù)存儲(chǔ)和索引增加部分?jǐn)?shù)據(jù)冗余來(lái)降低交叉查詢(xún)的代價(jià),提高數(shù)據(jù)查詢(xún)的效率例如,冗余存儲(chǔ)“文檔正文”和句子中的“句子文本”。在傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)中,關(guān)系一般遵循范式的要求以盡可能地節(jié)省存儲(chǔ)空間并保證數(shù)據(jù)一致性。互聯(lián)網(wǎng)文本數(shù)據(jù)量巨大,若嚴(yán)格按照范式的要求進(jìn)行設(shè)計(jì),查詢(xún)時(shí)可能需要大量的連接(join)操作和隨機(jī)讀取,寫(xiě)入時(shí)也可能需要在多個(gè)表上進(jìn)行査找和加鎖,導(dǎo)致大大降低系統(tǒng)性能。結(jié)構(gòu)化文檔庫(kù)上盡量減少讀寫(xiě)鎖并采用較低的事務(wù)隔離級(jí)別在結(jié)構(gòu)化文檔庫(kù)上會(huì)有大量的并發(fā)讀寫(xiě)和查詢(xún)操作。針對(duì)互聯(lián)網(wǎng)文本數(shù)據(jù)的特點(diǎn),對(duì)數(shù)據(jù)一致性和完整性的要求可適當(dāng)放寬。在一定程度上能夠容忍丟失更新、不可重復(fù)讀和讀“臟”數(shù)據(jù)等不一致性問(wèn)題。AnIntroductiontoDatabaseSystem(4)離線主題文本立方體建立及更新文本立方體對(duì)特定主題建立的多維度數(shù)據(jù)立方體,是時(shí)事探針系統(tǒng)的主要分析模型。和傳統(tǒng)的RDW上建立的單個(gè)數(shù)據(jù)立方體不同,系統(tǒng)中每個(gè)主題都可以建立一個(gè)對(duì)應(yīng)的文本立方體以對(duì)該主題進(jìn)行分析操作。文本立方體可根據(jù)用戶(hù)查詢(xún)?cè)谄ヅ涞乃形臋n上對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行高效并行統(tǒng)計(jì)而建立。每個(gè)維度中的項(xiàng)由所有文檔中出現(xiàn)的實(shí)例構(gòu)成。和傳統(tǒng)的數(shù)據(jù)立方體不同,在文本立方體中不具有直接的度量值可以使用。如時(shí)事探針系統(tǒng)通過(guò)比較文檔(記錄)和維度值的緊密程度來(lái)計(jì)算度量值。對(duì)于相關(guān)人物A,考慮A在文檔D中出現(xiàn)的次數(shù)、位置、所在句子的長(zhǎng)短等特征,并同時(shí)考慮報(bào)道的來(lái)源來(lái)計(jì)算A在D中的度量值。在線處理部分負(fù)責(zé)接收用戶(hù)查詢(xún),檢索相關(guān)文檔及文本立方體并返回給用戶(hù)。其主要模塊包括關(guān)鍵詞分詞、倒排表文檔匹配及排序、文本立方體生成及緩存、文檔及文本立方體展示及交互等。AnIntroductiontoDatabaseSystem14.2.2數(shù)據(jù)服務(wù)實(shí)時(shí)推薦—基于大數(shù)據(jù)分析的用戶(hù)建模基于大數(shù)據(jù)分析的用戶(hù)建模是指面向大眾的信息服務(wù)類(lèi)應(yīng)用在為用戶(hù)提供信息服務(wù)的同時(shí),依托龐大的用戶(hù)群,通過(guò)用戶(hù)原創(chuàng)內(nèi)容(UserGeneratedContent,UGC)或者系統(tǒng)日志等方式不斷地收集數(shù)據(jù),利用這些與用戶(hù)的行為緊密相關(guān)的數(shù)據(jù)來(lái)分析用戶(hù)的興趣特征,創(chuàng)建用戶(hù)的描述文件(userprofile)。用戶(hù)建模的目標(biāo)是為了準(zhǔn)確把握用戶(hù)的行為特征、興趣愛(ài)好等,進(jìn)而較為精準(zhǔn)地向用戶(hù)提供個(gè)性化的信息服務(wù)或信息推薦。互聯(lián)網(wǎng)網(wǎng)站通過(guò)對(duì)用戶(hù)點(diǎn)擊日志的分析,識(shí)別用戶(hù)的偏好,以支持個(gè)性化的頁(yè)面布局、進(jìn)行精準(zhǔn)的廣告投放等;電信行業(yè)通過(guò)對(duì)用戶(hù)消費(fèi)信息、當(dāng)前位置、使用習(xí)慣等數(shù)據(jù)的分析,為用戶(hù)及時(shí)推薦符合用戶(hù)需求的服務(wù)、產(chǎn)品、內(nèi)容等。AnIntroductiontoDatabaseSystem基于大數(shù)據(jù)分析的用戶(hù)建模1.面向用戶(hù)建模的大數(shù)據(jù)系統(tǒng)架構(gòu)2.數(shù)據(jù)分析:用戶(hù)建模的基礎(chǔ)工具3.數(shù)據(jù)服務(wù):用戶(hù)建模的價(jià)值體現(xiàn)AnIntroductiontoDatabaseSystem1.面向用戶(hù)建模的大數(shù)據(jù)系統(tǒng)架構(gòu)在大數(shù)據(jù)采集和存儲(chǔ)的基礎(chǔ)上,使用在線分析和離線分析兩類(lèi)技術(shù),從大數(shù)據(jù)中發(fā)現(xiàn)用戶(hù)的興趣屬性,構(gòu)建動(dòng)態(tài)的用戶(hù)興趣模型,以數(shù)據(jù)服務(wù)的方式管理和維護(hù)用戶(hù)興趣模型中的數(shù)據(jù),支持上層的信息推薦等各種各樣的應(yīng)用。這類(lèi)系統(tǒng)中數(shù)據(jù)分析和數(shù)據(jù)服務(wù)構(gòu)成了大數(shù)據(jù)系統(tǒng)的兩類(lèi)典型的負(fù)載。AnIntroductiontoDatabaseSystem2.數(shù)據(jù)分析:用戶(hù)建模的基礎(chǔ)工具靜態(tài)的用戶(hù)建模方法系統(tǒng)在構(gòu)建之初就定義好了用戶(hù)興趣模型所包含的屬性維度。被傳統(tǒng)的信息服務(wù)類(lèi)應(yīng)用廣泛采用。動(dòng)態(tài)的用戶(hù)建模方法從用戶(hù)行為相關(guān)的實(shí)時(shí)大數(shù)據(jù)中使用數(shù)據(jù)分析和挖掘技術(shù),得到能夠反映用戶(hù)興趣和其變化的動(dòng)態(tài)用戶(hù)興趣模型。動(dòng)態(tài)性不僅包含屬性值的變化,還包含用戶(hù)興趣模型中屬性類(lèi)型、屬性數(shù)量的變化。依賴(lài)大數(shù)據(jù)的用戶(hù)建模方法通常會(huì)為每個(gè)用戶(hù)生成高維度的興趣屬性向量,維度可以達(dá)到數(shù)百甚至數(shù)千以上。可以較為細(xì)致和深入地刻畫(huà)用戶(hù)在眾多方面的興趣屬性。針對(duì)不同屬性,系統(tǒng)會(huì)運(yùn)行很多不同的用戶(hù)建模任務(wù),一個(gè)用戶(hù)建模任務(wù)為用戶(hù)或用戶(hù)群生成一部分屬性值。AnIntroductiontoDatabaseSystem2.數(shù)據(jù)分析:用戶(hù)建模的基礎(chǔ)工具用戶(hù)興趣建模方法-離線分析對(duì)結(jié)構(gòu)化或半結(jié)構(gòu)化的歷史日志數(shù)據(jù)進(jìn)行SQL分析或者使用數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的深度分析方法。特點(diǎn)數(shù)據(jù)量大、分析復(fù)雜度高、處理代價(jià)巨大,不能夠頻繁調(diào)用。適合于分析那些通過(guò)大規(guī)模數(shù)據(jù)得出的相對(duì)穩(wěn)定的用戶(hù)屬性。典型應(yīng)用Hadoop+MapReduce+SQLAnIntroductiontoDatabaseSystem2.數(shù)據(jù)分析:用戶(hù)建模的基礎(chǔ)工具用戶(hù)興趣建模方法-實(shí)時(shí)的在線分析方法數(shù)據(jù)即來(lái)即分析,更強(qiáng)調(diào)數(shù)據(jù)的實(shí)時(shí)分析處理能力和時(shí)效性。數(shù)據(jù)以流的形式持續(xù)不斷地涌入系統(tǒng),系統(tǒng)要在很短的時(shí)間內(nèi)處理完大量流數(shù)據(jù),獲取和分析用戶(hù)屬性,。數(shù)據(jù)采集、聚集計(jì)算等實(shí)時(shí)用戶(hù)建模方法并不復(fù)雜,但有時(shí)會(huì)涉及一些在線分析的方法,比如時(shí)序分析、在線回歸分析等,相應(yīng)的計(jì)算負(fù)載就會(huì)高很多。AnIntroductiontoDatabaseSystem3.數(shù)據(jù)服務(wù):用戶(hù)建模的價(jià)值體現(xiàn)數(shù)據(jù)服務(wù)是指管理維護(hù)各種數(shù)據(jù)分析任務(wù)得到的用戶(hù)建模的結(jié)果,利用這些高價(jià)值的用戶(hù)興趣模型數(shù)據(jù),為以信息推薦為代表的眾多上層應(yīng)用提供數(shù)據(jù)訪問(wèn)服務(wù),從而將大數(shù)據(jù)的價(jià)值與上層應(yīng)用需求打通。類(lèi)似于傳統(tǒng)意義上的數(shù)據(jù)管理,為下層的數(shù)據(jù)分析任務(wù)和上層的各種應(yīng)用提供高吞吐的數(shù)據(jù)讀寫(xiě)服務(wù)。AnIntroductiontoDatabaseSystem3.數(shù)據(jù)服務(wù):用戶(hù)建模的價(jià)值體現(xiàn)用戶(hù)建模背景下的數(shù)據(jù)服務(wù)VS傳統(tǒng)數(shù)據(jù)管理首先,被管理的對(duì)象是一張高維度、大規(guī)模的用戶(hù)屬性寬表,而且表中的列不是固定的:其次,很多屬性值存在空值或多值的情況:最后,這張表的數(shù)據(jù)讀寫(xiě)負(fù)載非常巨大。用戶(hù)屬性表管理解決方案采用Key/Value模型下的NoSQL數(shù)據(jù)庫(kù),以適應(yīng)高并發(fā)的讀寫(xiě)負(fù)載和可變的數(shù)據(jù)模式。犧牲了數(shù)據(jù)一致性和SQL查詢(xún)分析功能優(yōu)勢(shì)采用NewSQL數(shù)據(jù)庫(kù)技術(shù)。在內(nèi)存數(shù)據(jù)庫(kù)基礎(chǔ)上,保持事務(wù)的ACID特性,通過(guò)事務(wù)串行化和去除封鎖等技術(shù)簡(jiǎn)化事務(wù)處理過(guò)程,提高系統(tǒng)的事務(wù)吞吐能力,以應(yīng)對(duì)大規(guī)模數(shù)據(jù)并發(fā)讀寫(xiě)的挑戰(zhàn)。AnIntroductiontoDatabaseSystem基于大數(shù)據(jù)分析的用戶(hù)建模(1)模型的建立來(lái)自對(duì)大數(shù)據(jù)的分析結(jié)果,通俗地講是“用數(shù)據(jù)說(shuō)話”。建模的過(guò)程是動(dòng)態(tài)的,隨著實(shí)際對(duì)象的變化,模型也在變化。(2)數(shù)據(jù)處理既有對(duì)歷史數(shù)據(jù)的離線分析和挖掘,又有對(duì)實(shí)時(shí)流數(shù)據(jù)的在線采集和分析,體現(xiàn)了大數(shù)據(jù)上不同層次的分析:流分析、SQL分析、深度分析的需求。(3)用戶(hù)模型本身也是大數(shù)據(jù),維度高,信息稀疏,用戶(hù)模型的存儲(chǔ)、管理是數(shù)據(jù)服務(wù)的重要任務(wù),要滿(mǎn)足大規(guī)模應(yīng)用需要的高并發(fā)數(shù)據(jù)更新與讀取。AnIntroductiontoDatabaseSystem14.3大數(shù)據(jù)管理系統(tǒng)14.3.1NoSQL數(shù)據(jù)管理系統(tǒng)14.3.2NewSQL數(shù)據(jù)庫(kù)系統(tǒng)14.3.3MapReduce技術(shù)14.3.4大數(shù)據(jù)管理系統(tǒng)的新格局AnIntroductiontoDatabaseSystem14.3.1NoSQL數(shù)據(jù)管理系統(tǒng)NoSQL是以互聯(lián)網(wǎng)大數(shù)據(jù)應(yīng)用為背景發(fā)展起來(lái)的分布式數(shù)據(jù)管理系統(tǒng)。NoSQL有兩種解釋?zhuān)篘on-Relational,即非關(guān)系數(shù)據(jù)庫(kù);NotOnlySQL,即數(shù)據(jù)管理技術(shù)不僅僅是SQL。特點(diǎn)NoSQL系統(tǒng)為了提高存儲(chǔ)能力和并發(fā)讀寫(xiě)能力采用了極其簡(jiǎn)單的數(shù)據(jù)模型,支持簡(jiǎn)單的查詢(xún)操作,而將復(fù)雜操作留給應(yīng)用層實(shí)現(xiàn)。數(shù)據(jù)進(jìn)行分區(qū)和備份,以應(yīng)對(duì)結(jié)點(diǎn)可能的失敗,提高系統(tǒng)可用性;通過(guò)大量結(jié)點(diǎn)的并行處理獲得高性能,采用的是橫向擴(kuò)展的方式(scaleout)。AnIntroductiontoDatabaseSystemNoSQL數(shù)據(jù)模型(1)Key-Value模型采用KV(Key,Value)數(shù)據(jù)模型。每個(gè)Key值對(duì)應(yīng)一個(gè)Value。Value可以是任意類(lèi)型的數(shù)據(jù)值。支持按照Key值來(lái)存儲(chǔ)和提取Value值。Value值是無(wú)結(jié)構(gòu)的二進(jìn)制碼或純字符串,通常需要在應(yīng)用層去解析相應(yīng)的結(jié)構(gòu)。(2)BigTable模型、又稱(chēng)ColumnsOriented模型,能夠支持結(jié)構(gòu)化的數(shù)據(jù),包括列、列簇、時(shí)間戳以及版本控制等元數(shù)據(jù)的存儲(chǔ)。特點(diǎn)是列簇式,即按列存儲(chǔ),每一行數(shù)據(jù)的各項(xiàng)被存儲(chǔ)在不同的列中,這些列的集合稱(chēng)作列簇。每一列的每一個(gè)數(shù)據(jù)項(xiàng)都包含一個(gè)時(shí)間戳屬性,以便保存同一個(gè)數(shù)據(jù)項(xiàng)的多個(gè)版本。AnIntroductiontoDatabaseSystemNoSQL數(shù)據(jù)模型(3)文檔(document)模型該模型在存儲(chǔ)方面有以下改進(jìn):Value值支持復(fù)雜的結(jié)構(gòu)定義,通常是被轉(zhuǎn)換成JSON或者類(lèi)似于JSON格式的結(jié)構(gòu)化文檔;支持?jǐn)?shù)據(jù)庫(kù)索引的定義,其索引主要是按照字段名來(lái)組織的。(4)圖(graph)模型記為G (V,E),K為結(jié)點(diǎn)(node)集合,每個(gè)結(jié)點(diǎn)具有若干屬性,E為邊(edge)集合,也可以具有若干屬性。該模型支持圖結(jié)構(gòu)的各種基本算法??梢灾庇^地表達(dá)和展示數(shù)據(jù)之間的聯(lián)系。AnIntroductiontoDatabaseSystem14.3.2NewSQL數(shù)據(jù)庫(kù)系統(tǒng)NewSQL系統(tǒng)是融合了NoSQL系統(tǒng)和傳統(tǒng)數(shù)據(jù)庫(kù)事務(wù)管理功能的新型數(shù)據(jù)庫(kù)系統(tǒng)。SQL應(yīng)用廣泛,擴(kuò)展性差、成本高,難以應(yīng)對(duì)海量數(shù)據(jù)的挑戰(zhàn)。NoSQL數(shù)據(jù)管理系統(tǒng)具有靈活性和良好的擴(kuò)展性,不支持SQL,不支持事務(wù)ACID特性,導(dǎo)致應(yīng)用程序開(kāi)發(fā)困難。NewSQL將SQL和NoSQL的優(yōu)勢(shì)結(jié)合,充分利用計(jì)算機(jī)硬件的新技術(shù)、新結(jié)構(gòu),技術(shù)上實(shí)現(xiàn)若干創(chuàng)新。提出了串行執(zhí)行事務(wù),避免加鎖開(kāi)銷(xiāo)和全內(nèi)存日志處理等技術(shù);改進(jìn)體系架構(gòu),結(jié)合計(jì)算機(jī)多核、多CPU、大內(nèi)存的特點(diǎn),融合關(guān)系數(shù)據(jù)庫(kù)和內(nèi)存數(shù)據(jù)庫(kù)的優(yōu)勢(shì),充分利用固態(tài)硬盤(pán)技術(shù),從而顯著提高了對(duì)海量數(shù)據(jù)的事務(wù)處理性能和吞吐量。關(guān)系數(shù)據(jù)庫(kù)在分布式環(huán)境下為實(shí)現(xiàn)事務(wù)一致性使用了兩階段提交協(xié)議,這種技術(shù)在保證事務(wù)強(qiáng)一致性的同時(shí)造成系統(tǒng)性能和可靠性的降低。AnIntroductiontoDatabaseSystemSQL系統(tǒng)、NoSQL系統(tǒng)與NewSQL系統(tǒng)的比較AnIntroductiontoDatabaseSystem14.3.3MapReduce技術(shù)Google公司于2004年提出的大規(guī)模并行計(jì)算解決方案,主要應(yīng)用于大規(guī)模廉價(jià)集群上的大數(shù)據(jù)并行處理。如Google中的文檔抓取、創(chuàng)建倒排索引、計(jì)算pagerank等操作。由于其簡(jiǎn)單而強(qiáng)大的數(shù)據(jù)處理接口和對(duì)大規(guī)模并行執(zhí)行、容錯(cuò)及負(fù)載均衡等實(shí)現(xiàn)細(xì)節(jié)的隱藏,該技術(shù)一經(jīng)推出便迅速在機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、數(shù)據(jù)分析等領(lǐng)域得到應(yīng)用。是一種簡(jiǎn)單易用的軟件框架?;谒梢蚤_(kāi)發(fā)出運(yùn)行在成千上萬(wàn)個(gè)結(jié)點(diǎn)上,并以容錯(cuò)的方式并行處理海量數(shù)據(jù)的算法和軟件。通常,計(jì)算結(jié)點(diǎn)和存儲(chǔ)結(jié)點(diǎn)是同一個(gè)結(jié)點(diǎn),即MapReduce框架和Hadoop分布式文件系統(tǒng)(HadoopDistributedFileSystem,HDFS)運(yùn)行于相同的結(jié)點(diǎn)集。以key/value的分布式存儲(chǔ)系統(tǒng)為基礎(chǔ),通過(guò)元數(shù)據(jù)集中存儲(chǔ)、數(shù)據(jù)以chunk為單位分布存儲(chǔ)和數(shù)據(jù)chunk冗余復(fù)制來(lái)保證其高可用性。設(shè)計(jì)的初衷解決大數(shù)據(jù)在大規(guī)模并行計(jì)算集群上的高可擴(kuò)展性和高可用性分析處理,其處理模式以離線式批量處理為主。AnIntroductiontoDatabaseSystemMapReduce并行計(jì)算過(guò)程AnIntroductiontoDatabaseSystemMapReduce并行計(jì)算過(guò)程計(jì)算過(guò)程分解為兩個(gè)階段,即Map階段和Reduce階段。首先對(duì)輸入的數(shù)據(jù)源進(jìn)行分塊,交給多個(gè)Map任務(wù)去執(zhí)行,Map任務(wù)執(zhí)行Map函數(shù),根據(jù)某種規(guī)則對(duì)數(shù)據(jù)分類(lèi),寫(xiě)入本地硬盤(pán)。然后進(jìn)入Reduce階段,在該階段由Reduce函數(shù)將Map階段具有相同key值的中間結(jié)果收集到相同的Reduce結(jié)點(diǎn)進(jìn)行合并處理,并將結(jié)果寫(xiě)入本地磁盤(pán)。程序的最終結(jié)果可以通過(guò)合并所有Reduce任務(wù)的輸出得到。Map函數(shù)和Reduce函數(shù)是用戶(hù)根據(jù)應(yīng)用的具體需求編寫(xiě)的。AnIntroductiontoDatabaseSystemMapReduce不足(1)使用成本高基于MapReduce的應(yīng)用軟件較少,許多數(shù)據(jù)分析功能需要用戶(hù)自行開(kāi)發(fā)。(2)程序員負(fù)擔(dān)過(guò)重,程序與數(shù)據(jù)缺乏獨(dú)立性。原來(lái)由DBMS完成的工作,如文件存儲(chǔ)格式的設(shè)計(jì)、模式信息的記錄、數(shù)據(jù)處理算法的實(shí)現(xiàn)等都轉(zhuǎn)移給了程序員,(3)在同等硬件條件下,性能遠(yuǎn)低于并行數(shù)據(jù)庫(kù)。由于采取基于掃描的處理模式和對(duì)中間結(jié)果步步物化的執(zhí)行策略,從而導(dǎo)致較高的I/O代價(jià)。(4)MapReduce處理連接的性能尤其不盡如人意在數(shù)據(jù)分析領(lǐng)域,連接是關(guān)鍵操作(如傳統(tǒng)的星形查詢(xún)和雪片查詢(xún)均是依賴(lài)于連接來(lái)處理查詢(xún))。AnIntroductiontoDatabaseSystem并行數(shù)據(jù)庫(kù)+MapReduce的三種架構(gòu)近年來(lái)大量研究著手將并行數(shù)據(jù)庫(kù)和MapReduce兩者結(jié)合起來(lái),設(shè)計(jì)兼具兩者優(yōu)點(diǎn)的大數(shù)據(jù)分析平臺(tái)。AnIntroductiont

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論