第1章大數(shù)據(jù)的起源和發(fā)展_第1頁
第1章大數(shù)據(jù)的起源和發(fā)展_第2頁
第1章大數(shù)據(jù)的起源和發(fā)展_第3頁
第1章大數(shù)據(jù)的起源和發(fā)展_第4頁
第1章大數(shù)據(jù)的起源和發(fā)展_第5頁
已閱讀5頁,還剩19頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第1章大數(shù)據(jù)的起源和發(fā)展起源和發(fā)展大數(shù)據(jù)特征2大數(shù)據(jù)構(gòu)成3大數(shù)據(jù)起源及定義1大數(shù)據(jù)面臨的機遇和挑戰(zhàn)41.1大數(shù)據(jù)起源及定義1.大數(shù)據(jù)起源

半個世紀以來,隨著計算機技術(shù)全面融入社會生活,信息爆炸已經(jīng)積累到了一個開始引發(fā)變革的程度。它不僅使世界充斥著比以往更多的信息,而且其增長速度也在加快?;ヂ?lián)網(wǎng)(社交、搜索、電商)、移動互聯(lián)網(wǎng)(微博)、物聯(lián)網(wǎng)(傳感器,智慧地球)、車聯(lián)網(wǎng)、GPS、醫(yī)學(xué)影像、安全監(jiān)控、金融(銀行、股市、保險)、電信(通話、短信)都在瘋狂產(chǎn)生著數(shù)據(jù)。全球每秒鐘發(fā)送2.9百萬封電子郵件,一分鐘讀一篇的話,足夠一個人晝夜不息的讀5.5年…每天會有2.88萬個小時的視頻上傳到Y(jié)outube,足夠一個人晝夜不息的觀看3.3年…推特上每天發(fā)布5千萬條消息,假設(shè)10秒鐘瀏覽一條信息,這些消息足夠一個人晝夜不息的瀏覽16年…每天亞馬遜上將產(chǎn)生6.3百萬筆訂單…每個月網(wǎng)民在Facebook上要花費7千億分鐘,被移動互聯(lián)網(wǎng)使用者發(fā)送和接收的數(shù)據(jù)高達1.3EB…Google上每天需要處理24PB的數(shù)據(jù)…數(shù)據(jù)量增加TBPBZBEB根據(jù)IDC監(jiān)測,人類產(chǎn)生的數(shù)據(jù)量正在呈指數(shù)級增長,大約每兩年翻一番,這個速度在2020年之前會繼續(xù)保持下去。這意味著人類在最近兩年產(chǎn)生的數(shù)據(jù)量相當(dāng)于之前產(chǎn)生的全部數(shù)據(jù)量。數(shù)據(jù)結(jié)構(gòu)日趨復(fù)雜大量新數(shù)據(jù)源的出現(xiàn)則導(dǎo)致了非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)爆發(fā)式的增長這些由我們創(chuàng)造的信息背后產(chǎn)生的這些數(shù)據(jù)早已經(jīng)遠遠超越了目前人力所能處理的范疇大數(shù)據(jù)時代正在來臨…1.大數(shù)據(jù)起源20世紀90年代,數(shù)據(jù)倉庫之父的BillInmon就經(jīng)常提及BigData。2011年5月,在“云計算相遇大數(shù)據(jù)”為主題的EMCWorld2011會議中,EMC拋出了BigData概念。1.大數(shù)據(jù)起源2.大數(shù)據(jù)在計算機科學(xué)中處于最前沿定義一:大數(shù)據(jù)指的是那些大小超過標準數(shù)據(jù)庫工具軟件能夠收集、存儲、管理和分析的數(shù)據(jù)集。——摘自麥肯錫

定義二:在信息技術(shù)中,“大數(shù)據(jù)”是指一些使用目前現(xiàn)有數(shù)據(jù)庫管理工具或傳統(tǒng)數(shù)據(jù)處理應(yīng)用很難處理的大型而復(fù)雜的數(shù)據(jù)集。其挑戰(zhàn)包括采集、管理、存儲、搜索、共享、分析和可視化。

——摘自WIKI定義三:"大數(shù)據(jù)"是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。從數(shù)據(jù)的類別上看,"大數(shù)據(jù)"指的是無法使用傳統(tǒng)流程或工具處理或分析的信息。它定義了那些超出正常處理范圍和大小、迫使用戶采用非傳統(tǒng)處理方法的數(shù)據(jù)集?!訥artner定義四:大數(shù)據(jù)本質(zhì)上是數(shù)據(jù)交叉、方法交叉、知識交叉、領(lǐng)域交叉、學(xué)科交叉,從而產(chǎn)生新的科學(xué)研究方法、新的管理決策方法、新的經(jīng)濟增長方式、新的社會發(fā)展方式等等。

——摘自復(fù)旦大學(xué)朱揚勇教授3.大數(shù)據(jù)定義1.2大數(shù)據(jù)特征大數(shù)據(jù)的4V特征大體量(Volume)、多樣性(Variety)、快速化(Velocity)、價值密度低(Value)”就是“大數(shù)據(jù)”的顯著特征,簡稱4V特征。大體量(Volume)數(shù)據(jù)基本單位換算:1B(byte字節(jié))=8b(bit位)1KB(Kilobyte千字節(jié))=1024B1MB(Megabyte,簡稱“兆”)=1024KB1GB(Gigabyte,

簡稱“吉”,又稱“千兆”)=1024MB1TB(Trillionbyte,簡稱“太”)=1024GB≈10^3GB1PB(Petabyte,簡稱“拍”字節(jié))=1024TB≈10^6GB1EB(Exabyte,簡稱“艾”字節(jié))=1024PB≈10^9GB1ZB(Zettabyte,簡稱“澤”字節(jié))=1024EB≈10^12GB大體量(Volume)在2006年,個人用戶才剛剛邁進TB時代,全球一共新產(chǎn)生了約180EB的數(shù)據(jù);在2011年,這個數(shù)字達到了1.8ZB。而根據(jù)知名市場研究機構(gòu)IDC的預(yù)測,到2020年,整個世界的數(shù)據(jù)總量將會增長44倍,達到35.2ZB(1ZB=10億TB)。多樣性(Variety)互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、車聯(lián)網(wǎng)等等各種數(shù)據(jù)來源大數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)更加多樣化:圖像、視頻、微博評價、郵件PDF、office文檔(word,excel,ppt)手機呼叫、短信網(wǎng)頁點擊搜索(html,搜索行為)地圖gps……非結(jié)構(gòu)化數(shù)據(jù)增長率就達80%,而傳統(tǒng)的數(shù)據(jù)樣式:多半是數(shù)據(jù)庫表和xml??焖倩?Velocity)每秒鐘,人們發(fā)送290封電子郵件;每分鐘人們在youtube上傳20小時的視頻;人們每月在總共在facebook上瀏覽7000億分鐘;移動互聯(lián)網(wǎng)網(wǎng)用戶發(fā)送和上傳的數(shù)據(jù)量達到1.3exabytes,相當(dāng)于10的18次方;每秒淘寶商城成交178筆訂單……實時股票分析(過期無用)實時路況信息(過期無用)……數(shù)據(jù)的快速產(chǎn)生和實時響應(yīng)是一大特征價值密度低(Value)挖掘大數(shù)據(jù)的價值類似沙里淘金比如用戶評價分析,幾百萬的評價記錄,真正有借鑒意義的就幾句比如視頻監(jiān)控,每天產(chǎn)生24小時的視頻數(shù)據(jù),真正有價值的就幾秒鐘。1.3大數(shù)據(jù)的構(gòu)成大數(shù)據(jù)=海量數(shù)據(jù)+復(fù)雜類型的數(shù)據(jù)大數(shù)據(jù)包括:交易數(shù)據(jù)和交互數(shù)據(jù)集在內(nèi)的所有數(shù)據(jù)集大數(shù)據(jù)的構(gòu)成海量交易數(shù)據(jù):企業(yè)內(nèi)部的經(jīng)營交易信息主要包括聯(lián)機交易數(shù)據(jù)和聯(lián)機分析數(shù)據(jù),是結(jié)構(gòu)化的、通過關(guān)系數(shù)據(jù)庫進行管理和訪問的靜態(tài)、歷史數(shù)據(jù)。通過這些數(shù)據(jù),我們能了解過去發(fā)生了什么。海量交互數(shù)據(jù):源于Facebook、Twitter、LinkedIn及其他來源的社交媒體數(shù)據(jù)構(gòu)成。它包括了呼叫詳細記錄CDR、設(shè)備和傳感器信息、GPS和地理定位映射數(shù)據(jù)、通過管理文件傳輸ManageFileTransfer協(xié)議傳送的海量圖像文件、Web文本和點擊流數(shù)據(jù)、科學(xué)信息、電子郵件等等。可以告訴我們未來會發(fā)生什么。海量數(shù)據(jù)處理:大數(shù)據(jù)的涌現(xiàn)已經(jīng)催生出了設(shè)計用于數(shù)據(jù)密集型處理的架構(gòu)。例如具有開放源碼、在商品硬件群中運行的ApacheHadoop。1.4大數(shù)據(jù)面臨的機遇和挑戰(zhàn)機遇一:如何使用數(shù)據(jù)資產(chǎn)?包括個人信息、消費記錄在內(nèi)的海量數(shù)據(jù)當(dāng)中,蘊含著大量有價值的信息,可以為企業(yè)經(jīng)營、管理提供參考互聯(lián)網(wǎng)最為本質(zhì)的一點,就是網(wǎng)民真實的展示了個人的想法,并能迅速為人所知。心理學(xué)家說人類的細微行為,直接暴露內(nèi)心的想法。挖出真正有價值的“鉆石”——數(shù)據(jù)挖掘和預(yù)測性分析,成為了決定組織在新時代成敗的關(guān)鍵如何盤活數(shù)據(jù)資產(chǎn),使其為國家治理、企業(yè)決策乃至個人生活服務(wù),是“大數(shù)據(jù)”時代的核心問題機遇二:大數(shù)據(jù)賦予我們洞察未來的能力?馬云成功預(yù)測2008年經(jīng)濟危機“2008年初,阿里巴巴平臺上整個買家詢盤數(shù)急劇下滑,歐美對中國采購在下滑。海關(guān)是賣了貨,出去以后再獲得數(shù)據(jù);而我們提前半年時間從詢盤上推斷大數(shù)據(jù)帶來的機遇判斷出世界貿(mào)易發(fā)生變化了。”挑戰(zhàn)一:大數(shù)據(jù)中有用信息的準確提取數(shù)據(jù)收集(1)利用大數(shù)據(jù)的開放性,全面收集各種多源異構(gòu)數(shù)據(jù)集;(2)從數(shù)據(jù)質(zhì)量角度分析數(shù)據(jù)源的準確性、一致性、及時性、相關(guān)性等特性,以獲取高質(zhì)量的數(shù)據(jù)。數(shù)據(jù)存儲(1)用冗余配置、分布化和云計算技術(shù)對數(shù)據(jù)進行預(yù)處理;(2)存儲時對數(shù)據(jù)進行分類,通過過濾和去重,減少存儲量,并加入便于檢索的標簽。數(shù)據(jù)處理

大數(shù)據(jù)的復(fù)雜性使得難以用傳統(tǒng)的方法描述與度量,需要將高維圖像等多媒體數(shù)據(jù)降維后度量與處理,利用上下文關(guān)聯(lián)進行語義分析,從大量動態(tài)及可能模棱兩可的數(shù)據(jù)中綜合信息,并導(dǎo)出可理解的內(nèi)容。可視化呈現(xiàn)

(1)可視化目的是使結(jié)果更直觀以便于洞察。(2)目前計算機只能針對小規(guī)模、結(jié)構(gòu)化或類結(jié)構(gòu)化的數(shù)據(jù)進行分析,無法深層次數(shù)據(jù)挖掘。(3)現(xiàn)有的數(shù)據(jù)挖掘算法在不同行業(yè)中難以通用。挑戰(zhàn)二:大數(shù)據(jù)的信息安全隱私泄露風(fēng)險加?。?)大量數(shù)據(jù)的集中存儲增加了其泄露的風(fēng)險;(2)一些敏感數(shù)據(jù)的所有權(quán)和使用權(quán)并沒有清晰界定?,F(xiàn)有存儲與安防措施帶考驗(1)復(fù)雜的數(shù)據(jù)存儲在一起,可能造成企業(yè)安全管理不合規(guī);(2)安全防護手段更新升級慢,存在漏洞。數(shù)據(jù)本身成為攻擊手段(1)黑客可收集更多有用信息,大數(shù)據(jù)分析讓攻擊更精準;(2)大數(shù)據(jù)為黑客發(fā)起攻擊提供了更多機會

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論