大數(shù)據(jù)時(shí)代模板參考_第1頁
大數(shù)據(jù)時(shí)代模板參考_第2頁
大數(shù)據(jù)時(shí)代模板參考_第3頁
大數(shù)據(jù)時(shí)代模板參考_第4頁
大數(shù)據(jù)時(shí)代模板參考_第5頁
已閱讀5頁,還剩27頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)時(shí)代Iscoming……ERP班組2012.11全球每秒鐘發(fā)送2.9百萬封電子郵件,一分鐘讀一篇的話,足夠一個(gè)人晝夜不息的讀5.5年…每天會有

2.88萬個(gè)小時(shí)的視頻上傳到Y(jié)outube,足夠一個(gè)人晝夜不息的觀看3.3年…推特上每天發(fā)布5千萬條消息,假設(shè)10秒鐘瀏覽一條信息,這些消息足夠一個(gè)人晝夜不息的瀏覽16年…每天亞馬遜上將產(chǎn)生6.3百萬筆訂單…每個(gè)月網(wǎng)民在Facebook上要花費(fèi)7千億分鐘,被移動互聯(lián)網(wǎng)使用者發(fā)送和接收的數(shù)據(jù)高達(dá)1.3EB…Google上每天需要處理24PB的數(shù)據(jù)…在web2.0的時(shí)代,人們從信息的被動接受者變成了主動創(chuàng)造者BigData時(shí)代到來TBPBZBEB大量新數(shù)據(jù)源的出現(xiàn)則導(dǎo)致了非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)爆發(fā)式的增長根據(jù)IDC監(jiān)測,人類產(chǎn)生的數(shù)據(jù)量正在呈指數(shù)級增長,大約每兩年翻一番,這個(gè)速度在2020年之前會繼續(xù)保持下去。這意味著人類在最近兩年產(chǎn)生的數(shù)據(jù)量相當(dāng)于之前產(chǎn)生的全部數(shù)據(jù)量數(shù)據(jù)量增加數(shù)據(jù)結(jié)構(gòu)日趨復(fù)雜這些由我們創(chuàng)造的信息背后產(chǎn)生的這些數(shù)據(jù)早已經(jīng)遠(yuǎn)遠(yuǎn)超越了目前人力所能處理的范疇大數(shù)據(jù)時(shí)代正在來臨..BigData時(shí)代到來1.Volume2.

Variety3.value4.Velocity結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)如今的數(shù)據(jù)類型早已不是單一的文本形式,訂單、日志、音頻,能力提出了更高的要求沙里淘金,價(jià)值密度低以視頻為例,一部一小時(shí)的視頻,在連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅只有一兩秒。如何通過強(qiáng)大的機(jī)器算法更迅速地完成數(shù)據(jù)的價(jià)值“提純”是目前大數(shù)據(jù)洶涌背景下亟待解決的難題實(shí)時(shí)獲取需要的信息大數(shù)據(jù)區(qū)分于傳統(tǒng)數(shù)據(jù)最顯著的特征。如今已是ZB時(shí)代,在如此海量的數(shù)據(jù)面前,處理數(shù)據(jù)的效率就是企業(yè)的生命大數(shù)據(jù)是指無法在一定時(shí)間內(nèi)用傳統(tǒng)數(shù)據(jù)庫軟件工具對其內(nèi)容進(jìn)行抓取、管理和處理的數(shù)據(jù)集合什么是BigData數(shù)據(jù)量巨大全球在2010年正式進(jìn)入ZB時(shí)代,IDC預(yù)計(jì)到2020年,全球?qū)⒖偣矒碛?5ZB的數(shù)據(jù)量20世紀(jì)90年代,數(shù)據(jù)倉庫之父的BillInmon就經(jīng)常提及BigData2011年5月,在“云計(jì)算相遇大數(shù)據(jù)”為主題的EMCWorld2011會議中,EMC拋出了BigData概念BigData名詞由來1

并購進(jìn)行技術(shù)整合2

自身提高研發(fā)實(shí)力相較于“大數(shù)據(jù)”一詞在2011年才開始躥紅不同,在計(jì)算機(jī)研究領(lǐng)域和產(chǎn)業(yè)界,“大數(shù)據(jù)”早已眾人皆知,各大IT巨頭紛紛布局大數(shù)據(jù)業(yè)務(wù),通過收購大數(shù)據(jù)相關(guān)廠商來實(shí)現(xiàn)技術(shù)整合,以圖搶占全新的制高點(diǎn)各大IT企業(yè)紛紛推出自身的大數(shù)據(jù)分析產(chǎn)品,包括Google、IBM、EMC、Oracle、微軟、惠普、SAP、Teradata,這些企業(yè)幾乎囊括了目前全球最頂尖的搜索服務(wù)、數(shù)據(jù)庫、服務(wù)器、存儲設(shè)備、企業(yè)解決方案的主要提供商,足以顯示大數(shù)據(jù)在產(chǎn)業(yè)界的洶洶來勢BigData名詞由來大數(shù)據(jù)技術(shù)將被設(shè)計(jì)用于在成本可承受(economically)的條件下,通過非??焖伲╲elocity)的采集、發(fā)現(xiàn)和分析,從大量化(volumes)、多類別(variety)的數(shù)據(jù)中提取價(jià)值(value),將是IT領(lǐng)域新一代的技術(shù)與架構(gòu)企業(yè)用以分析的數(shù)據(jù)越全面,分析的結(jié)果就越接近于真實(shí)。大數(shù)據(jù)分析意味著企業(yè)能夠從這些新的數(shù)據(jù)中獲取新的洞察力,并將其與已知業(yè)務(wù)的各個(gè)細(xì)節(jié)相融合什么是BigData技術(shù)云計(jì)算與大數(shù)據(jù)白云下面數(shù)據(jù)跑藍(lán)藍(lán)的天上白云飄如果數(shù)據(jù)是財(cái)富,那么大數(shù)據(jù)就是寶藏,而云計(jì)算就是挖掘和利用寶藏的利器!沒有強(qiáng)大的計(jì)算能力,數(shù)據(jù)寶藏終究是鏡中花;沒有大數(shù)據(jù)的積淀,云計(jì)算也只能是殺雞用的宰牛刀!分布式“云計(jì)算”(CloudComputing)是分布式處理(DistributedComputing)、并行處理(ParallelComputing)和網(wǎng)格計(jì)算(GridComputing)的發(fā)展,或者說是這些計(jì)算機(jī)科學(xué)概念的商業(yè)實(shí)現(xiàn)。——百度百科AAvailabilityCAP理論一個(gè)分布式系統(tǒng)不可能滿足一致性、可用性和分區(qū)容錯性這三個(gè)需求,最多只能同時(shí)滿足兩個(gè)——EricBrewerCConsistencyPPartitionTolerance分布式計(jì)算是一門計(jì)算機(jī)科學(xué),它研究如何把一個(gè)需要非常巨大的計(jì)算能力才能解決的問題分成許多小的部分,然后把這些部分分配給許多計(jì)算機(jī)進(jìn)行處理,最后把這些計(jì)算結(jié)果綜合起來得到最終的結(jié)果。CAP博弈分區(qū)容錯性是不能犧牲的AmazonDynamo是一個(gè)經(jīng)典的分布式Key-Value存儲系統(tǒng),具備去中心化,高可用性,高擴(kuò)展性的特點(diǎn),但是為了達(dá)到這個(gè)目標(biāo)在很多場景中犧牲了一致性。A+P支付寶這樣的交易和賬務(wù)數(shù)據(jù)則是非常敏感的,通常不能容忍超過秒級的不一致C+PKeyValue分布布式式存存儲儲系系統(tǒng)統(tǒng)查詢詢速速度度快快、、存存放放數(shù)數(shù)據(jù)據(jù)量量大大、、支支持持高高并并發(fā)發(fā)不能能進(jìn)進(jìn)行行復(fù)復(fù)雜雜的的條條件件查查詢詢輔以以實(shí)實(shí)時(shí)時(shí)搜搜索索引引擎擎進(jìn)進(jìn)行行復(fù)復(fù)雜雜條條件件檢檢索索、、全全文文檢檢索索,,可可替替代代并并發(fā)發(fā)性性能能較較低低的的關(guān)關(guān)系系型型數(shù)數(shù)據(jù)據(jù)庫庫,,節(jié)節(jié)省省幾幾十十倍倍服服務(wù)務(wù)器器數(shù)數(shù)量量B+TreeHash算法法大數(shù)數(shù)據(jù)據(jù)時(shí)時(shí)代代下下的的系系統(tǒng)統(tǒng)需需求求Highperformance––高并并發(fā)發(fā)讀讀寫寫的的需需求求高并并發(fā)發(fā)、、實(shí)實(shí)時(shí)時(shí)動動態(tài)態(tài)獲獲取取和和更更新新數(shù)數(shù)據(jù)據(jù)HugeStorage––海量量數(shù)數(shù)據(jù)據(jù)的的高高效效率率存存儲儲和和訪訪問問的的需需求求類似似SNS網(wǎng)站站,,海海量量用用戶戶信信息息的的高高效效率率實(shí)實(shí)時(shí)時(shí)存存儲儲和和查查詢詢HighScalability&&HighAvailability––高可可擴(kuò)擴(kuò)展展性性和和高高可可用用性性的的需需求求需要要擁擁有有快快速速橫橫向向擴(kuò)擴(kuò)展展能能力力、、提提供供7*24小時(shí)時(shí)不不間間斷斷服服務(wù)務(wù)RDBMSVS.NoSQL高并并發(fā)發(fā)讀讀寫寫大數(shù)數(shù)據(jù)據(jù)存存儲儲的的核心心需需求求高效效率率存存儲儲和和訪訪問問高可可擴(kuò)擴(kuò)展展性性和和高高可可用用性性低成成本本建建設(shè)設(shè)運(yùn)維維保證證一一致致性性的的開開銷銷過過大大,,難難以以實(shí)實(shí)現(xiàn)現(xiàn)高高并并發(fā)發(fā)存儲儲性性能能受受限限于于控控制制器器,,性性能能難難以以保保證證關(guān)系系型型表表單單存存儲儲難難以以適適應(yīng)應(yīng)不不同同數(shù)數(shù)據(jù)據(jù)類類型型上億億行行數(shù)數(shù)據(jù)據(jù)的的超超級級達(dá)達(dá)標(biāo)標(biāo)效效率率極極低低傳統(tǒng)統(tǒng)基基于于盤盤陣陣的的存存儲儲設(shè)設(shè)備備,,造造價(jià)價(jià)昂昂貴貴,,且且市市場場壟壟斷斷嚴(yán)嚴(yán)重重,,建建設(shè)設(shè)成成本本居居高高不不下下,,擴(kuò)擴(kuò)容容成成本本尤尤其其高高許可可和和維維護(hù)護(hù)花花費(fèi)費(fèi)高高昂昂無法法簡簡單單的的通通過過添添加加服服務(wù)務(wù)節(jié)節(jié)點(diǎn)點(diǎn)來來擴(kuò)擴(kuò)展展數(shù)數(shù)據(jù)據(jù)容容量量和和負(fù)負(fù)載載能能力力,,難難以以進(jìn)進(jìn)行行橫橫向向擴(kuò)擴(kuò)展展數(shù)據(jù)據(jù)庫庫升升級級需需要要停停機(jī)機(jī)維維護(hù)護(hù)和和數(shù)數(shù)據(jù)據(jù)遷遷移移,,導(dǎo)導(dǎo)致致服服務(wù)務(wù)中中斷斷不保保證證遵遵循循ACID原則則,,提提高高并并發(fā)發(fā)讀讀寫寫性性能能Schema-Free存儲儲適適應(yīng)應(yīng)不不同同數(shù)數(shù)據(jù)據(jù)類類型型舍棄棄SQL標(biāo)準(zhǔn)準(zhǔn)功功能能,,盡盡量量簡簡化化數(shù)數(shù)據(jù)據(jù)操操作作,,提提升升效效率率MapReduce實(shí)現(xiàn)現(xiàn)高高效效訪訪問問基于于X86設(shè)備備,,價(jià)價(jià)格格低低廉廉開源源系系統(tǒng)統(tǒng),,節(jié)節(jié)省省許許可可費(fèi)費(fèi)用用支持持水水平平擴(kuò)擴(kuò)展展,,可可簡簡單單的的通通過過添添加加服服務(wù)務(wù)節(jié)節(jié)點(diǎn)點(diǎn)來來擴(kuò)擴(kuò)展展數(shù)數(shù)據(jù)據(jù)容容量量和和負(fù)負(fù)載載能能力力數(shù)據(jù)據(jù)庫庫升升級級不不影影響響服服務(wù)務(wù)持持續(xù)續(xù)NoSQLNoSQL運(yùn)動動兩兩個(gè)個(gè)核核心心理理論論基基礎(chǔ)礎(chǔ)::Google的BigTableBigTable提出出了了一一種種很很有有趣趣的的數(shù)數(shù)據(jù)據(jù)模模型型,,它它將將各各列列數(shù)數(shù)據(jù)據(jù)進(jìn)進(jìn)行行排排序序存存儲儲。。數(shù)數(shù)據(jù)據(jù)值值按按范范圍圍分分布布在在多多臺臺機(jī)機(jī)器器,,數(shù)數(shù)據(jù)據(jù)更更新新操操作作有有嚴(yán)嚴(yán)格格的的一一致致性性保保證證。。Amazon的DynamoDynamo使用的是另外外一種分布式式模型。Dynamo的模型更簡單單,它將數(shù)據(jù)據(jù)按key進(jìn)行hash存儲。其數(shù)據(jù)據(jù)分片模型有有比較強(qiáng)的容容災(zāi)性,因此此它實(shí)現(xiàn)的是是相對松散的的弱一致性::最終一致性性。NoSQL是NotOnlySQL的縮寫,而不不是NotSQL,它不一定遵遵循傳統(tǒng)數(shù)據(jù)據(jù)庫的一些基基本要求,比比如說遵循SQL標(biāo)準(zhǔn)、ACID屬性、表結(jié)構(gòu)構(gòu)等等。相比比傳統(tǒng)數(shù)據(jù)庫庫,叫它分布式數(shù)據(jù)管管理系統(tǒng)更貼切,數(shù)據(jù)據(jù)存儲被簡化化更靈活,重重點(diǎn)被放在了了分布式數(shù)據(jù)據(jù)管理上。BigTable為管理大規(guī)模結(jié)構(gòu)化化數(shù)據(jù)而設(shè)計(jì)的分布式存儲系系統(tǒng),可以擴(kuò)展到到PB級數(shù)據(jù)和上千臺服務(wù)器器。Key-Value映射:(row:string,column:string,time:int64)→string數(shù)據(jù)模型支撐技術(shù)Bigtable的表會根據(jù)行行鍵自動劃分分為片(tablet),片是負(fù)載載均衡的單元元。用GFS來存儲日志和和數(shù)據(jù)文件按SSTable文件格式存儲儲數(shù)據(jù)用Chubby管理元數(shù)據(jù)參考文獻(xiàn):《TheChubbylockserviceforloosely-coupleddistributedsystems》》——Google論文BigTable一個(gè)供客戶端端使用的庫一個(gè)主服務(wù)器器(masterserver)許多片服務(wù)器器(tabletserver)BigTable集群片的定位B+樹Chubbyfile:保存roottablet的位置roottablet:元數(shù)據(jù)表的的第一個(gè)分片片其它的元數(shù)據(jù)據(jù)片NoSQL數(shù)據(jù)庫NoSQL數(shù)據(jù)庫使用現(xiàn)狀騰訊在天津投投資建立亞洲洲最大的數(shù)據(jù)據(jù)中心;新浪推出企業(yè)業(yè)微博產(chǎn)品,,提供精準(zhǔn)的的數(shù)據(jù)分析服服務(wù)。商業(yè)價(jià)值在大數(shù)據(jù)推動動的商業(yè)革命命暗涌中,要要么學(xué)會使用用大數(shù)據(jù)的杠杠桿創(chuàng)造商業(yè)業(yè)價(jià)值,要么么被大數(shù)據(jù)驅(qū)驅(qū)動的新生代代商業(yè)格局淘淘汰。標(biāo)準(zhǔn)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論