大數(shù)據(jù)技術(shù)概述_第1頁(yè)
大數(shù)據(jù)技術(shù)概述_第2頁(yè)
大數(shù)據(jù)技術(shù)概述_第3頁(yè)
大數(shù)據(jù)技術(shù)概述_第4頁(yè)
大數(shù)據(jù)技術(shù)概述_第5頁(yè)
已閱讀5頁(yè),還剩8頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)技術(shù)概述數(shù)據(jù)世界的本質(zhì)是數(shù)據(jù)!

--維克托·邁爾-舍恩伯格維克托·邁爾-舍恩伯格維克托·邁爾-舍恩伯格是十余年潛心研究數(shù)據(jù)科學(xué)的技術(shù)權(quán)威,是最早洞見(jiàn)大數(shù)據(jù)時(shí)代發(fā)展趨勢(shì)的數(shù)據(jù)科學(xué)家之一,也是最受人尊敬的權(quán)威發(fā)言人之一。文本圖像聲音視頻動(dòng)畫(huà)……數(shù)據(jù)我們周?chē)降子卸嗌贁?shù)據(jù)?增長(zhǎng)的速度有多快?我國(guó)網(wǎng)民數(shù)量居世界之首,每天產(chǎn)生的數(shù)據(jù)量也位于世界前列。單日數(shù)據(jù)產(chǎn)生量超過(guò)5萬(wàn)GB存儲(chǔ)量4000萬(wàn)GB淘寶網(wǎng)站目前數(shù)據(jù)總量10億GB存儲(chǔ)網(wǎng)頁(yè)1萬(wàn)億頁(yè)每天大約要處理60億次搜索請(qǐng)求百度公司身邊的數(shù)據(jù)我們周?chē)降子卸嗌贁?shù)據(jù)?增長(zhǎng)的速度有多快?我國(guó)網(wǎng)民數(shù)量居世界之首,每天產(chǎn)生的數(shù)據(jù)量也位于世界前列。一個(gè)小時(shí)能產(chǎn)生3.6GB的數(shù)據(jù)一個(gè)城市每月產(chǎn)生的數(shù)據(jù)達(dá)上千萬(wàn)GB一個(gè)8Mbps的攝像頭一個(gè)病人的CT影像數(shù)據(jù)量達(dá)幾十GB全國(guó)每年需保存的數(shù)據(jù)達(dá)上百億GB醫(yī)院身邊的數(shù)據(jù)身邊的數(shù)據(jù)全球:35ZB(2020)百度:74PB、8PB阿里:60PB,7.2PB騰訊:100PB,4PB需永久存儲(chǔ)的數(shù)據(jù)量每天高峰處理的數(shù)據(jù)量數(shù)據(jù)單位單位等價(jià)關(guān)系1Byte8bit1KB1024Byte1MB1024KB1GB1024MB1TB1024GB1PB1024TB單位等價(jià)關(guān)系1EB1024PB1ZB1024EB1YB1024ZB1BB1024YB1NB1024BB1DB1024NB目前的大數(shù)據(jù)應(yīng)用,數(shù)據(jù)量主要集中在PB/EB/ZB級(jí)別大數(shù)據(jù)據(jù)IDC發(fā)布《數(shù)據(jù)時(shí)代2025》的報(bào)告顯示,全球每年產(chǎn)生的數(shù)據(jù)將從2018年的33ZB增長(zhǎng)到175ZB,相當(dāng)于每天產(chǎn)生491EB的數(shù)據(jù)。175ZB的數(shù)據(jù)到底有多大呢?1ZB相當(dāng)于1.1萬(wàn)億GB。如果把175ZB全部存在DVD光盤(pán)中,那么DVD疊加起來(lái)的高度將是地球和月球距離的23倍(月地最近距離約39.3萬(wàn)公里),或者繞地球222圈(一圈約為四萬(wàn)公里)。如果平均網(wǎng)速為25Mb/秒,一個(gè)人要下載完這175ZB的數(shù)據(jù),需要18億年。大數(shù)據(jù)大數(shù)據(jù)或稱(chēng)海量數(shù)據(jù),是指涉及的資料量規(guī)模巨大到無(wú)法透過(guò)目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理并處理成為幫助用戶(hù)經(jīng)營(yíng)決策更積極目的的信息。大數(shù)據(jù)是一個(gè)體量和數(shù)據(jù)類(lèi)別特別大的數(shù)據(jù)集,無(wú)法用傳統(tǒng)數(shù)據(jù)庫(kù)工具對(duì)其內(nèi)容進(jìn)行抓取、管理和處理。大數(shù)據(jù)本質(zhì)上和傳統(tǒng)的數(shù)據(jù)本無(wú)差異,他們大多是結(jié)構(gòu)化、半結(jié)構(gòu)化或者非結(jié)構(gòu)化的數(shù)據(jù)。只是因?yàn)樗麄兊臄?shù)量級(jí)增長(zhǎng)太快,我們需要用全新的方式來(lái)計(jì)算這些數(shù)據(jù)。大數(shù)據(jù)大數(shù)據(jù)(bigdata),是指無(wú)法在一定時(shí)間內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,因此需要新的處理模式,該處理模式就是大數(shù)據(jù).單機(jī)計(jì)算模式和傳統(tǒng)的數(shù)據(jù)分析算法①采用集群的方法來(lái)獲取強(qiáng)大的數(shù)據(jù)分析能力;②研究面向大數(shù)據(jù)的新的數(shù)據(jù)分析算法大數(shù)據(jù)的特點(diǎn)大數(shù)據(jù)1.Volume2.

Variety3.Varacity4.Velocity結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)如今的數(shù)據(jù)類(lèi)型早已不是單一的文本形式,訂單、日志、音頻,能力提出了更高的要求沙里淘金,價(jià)值密度低以視頻為例,一部一小時(shí)的視頻,在連續(xù)不間斷監(jiān)控過(guò)程中,可能有用的數(shù)據(jù)僅僅只有一兩秒。如何通過(guò)強(qiáng)大的機(jī)器算法更迅速地完成數(shù)據(jù)的價(jià)值“提純”是目前大數(shù)據(jù)洶涌背景下亟待解決的難題實(shí)時(shí)獲取需要的信息大數(shù)據(jù)區(qū)分于傳統(tǒng)數(shù)據(jù)最顯著的特征。如今已是ZB時(shí)代,在如此海量的數(shù)據(jù)面前,處理數(shù)據(jù)的效率就是企業(yè)的生命數(shù)據(jù)量巨大全球在2010年正式進(jìn)入ZB時(shí)代,IDC預(yù)計(jì)到2020年,全球?qū)⒖偣矒碛?5ZB的數(shù)據(jù)量大數(shù)據(jù)解決什么問(wèn)題?大數(shù)據(jù)云計(jì)算是硬件資源的虛擬化,而大數(shù)據(jù)是海量數(shù)據(jù)的高效處理。大數(shù)據(jù)著眼于數(shù)據(jù),云計(jì)算著眼于計(jì)算,數(shù)據(jù)是計(jì)算的對(duì)象。大數(shù)據(jù)的總體架構(gòu)包括三層:數(shù)據(jù)存儲(chǔ),數(shù)據(jù)處理和數(shù)據(jù)分析。分布式數(shù)據(jù)挖掘分布式處理分布式數(shù)據(jù)庫(kù)云存儲(chǔ)虛擬化如:Mahout如:MapReduc

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論