大數(shù)據(jù)知識普及2_第1頁
大數(shù)據(jù)知識普及2_第2頁
大數(shù)據(jù)知識普及2_第3頁
大數(shù)據(jù)知識普及2_第4頁
大數(shù)據(jù)知識普及2_第5頁
已閱讀5頁,還剩31頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)張輝201312月西安BigData大數(shù)據(jù)什么是大數(shù)據(jù)大數(shù)據(jù)原理和構(gòu)成大數(shù)據(jù)應(yīng)用大數(shù)據(jù)價(jià)值BigData目錄什么是大數(shù)據(jù)BigData什么是大數(shù)據(jù)HadoopIBM英特爾HP數(shù)據(jù)商業(yè)智能數(shù)據(jù)庫服務(wù)器SAPHANANoSQLSQLHDFS預(yù)測數(shù)據(jù)流運(yùn)算節(jié)點(diǎn)機(jī)器學(xué)習(xí)并行計(jì)算磁盤陣列甲骨文AMD內(nèi)存計(jì)算GoogleMapreduce

可視化GbPbTbZbBigData什么是大數(shù)據(jù)由多個(gè)軟件、硬件部分組成的一個(gè)數(shù)據(jù)系統(tǒng)一個(gè)執(zhí)行體系有別于傳統(tǒng)企業(yè)數(shù)據(jù)中心,用來應(yīng)對現(xiàn)代海量數(shù)據(jù)化的生活,商業(yè)環(huán)境。不是一個(gè)行業(yè),而是一種新的數(shù)據(jù)處理方法是關(guān)于數(shù)據(jù)的運(yùn)輸和處理,以及最后有效使用的體系與云計(jì)算一樣都是一種新的生產(chǎn)組織形式Web2.0時(shí)代的解決方案大數(shù)據(jù)(bigdata),或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營決策更積極目的的資訊BigData什么是大數(shù)據(jù)大數(shù)據(jù)的目的原始數(shù)據(jù)的處理和分類存儲將存儲的數(shù)據(jù)調(diào)取并分析最終提供決策依據(jù)歸類數(shù)據(jù)類型有效分析組合大數(shù)據(jù)的特點(diǎn)4V海量高速多樣精確BigData什么是大數(shù)據(jù)1KB=1024字節(jié)存儲單位1MB=1024KB1GB=1024MB1TB=1024GB1PB=1024TB=1,048,576GB1EB=1024PB=1,073,741,824GB1ZB=1024EB=1,099,511,627,776GB100萬G10億G1萬億G22億臺215萬臺2100臺500G硬盤電腦15寸電腦排成行可以往返一次月球BigData什么是大數(shù)據(jù)Volume海量1PB=1024TB=1,048,576GB1EB=1024PB=1,073,741,824GB1ZB=1024EB=1,099,511,627,776GBIntel:人類文明開始到2003年地球共產(chǎn)生了5EB數(shù)據(jù).2012年全年,全球產(chǎn)生數(shù)據(jù)2.7ZB是2003年以前的500倍2015年,全球估計(jì)產(chǎn)生數(shù)據(jù)8ZB,等于1800萬個(gè)美國國會圖書館44%35ZB2000年數(shù)字信息占全球數(shù)據(jù)量的25%75%都在報(bào)紙膠片磁帶等媒介2013年數(shù)字信息98%非數(shù)字信息2%BigData什么是大數(shù)據(jù)商業(yè)數(shù)據(jù)現(xiàn)狀Twitter2007年5000條微博更新/天2008年30萬條微博更新/天2009年250萬條微博更新/天2010年3500萬條微博更新/天2011年2億條微博更新/天2013年4億條微博更新/天2013年上傳時(shí)長12年的視頻/天2013年用戶分享25億條信息/天我國一個(gè)一線城市的健康檔案數(shù)據(jù)5PB/年我國一個(gè)智慧城市的數(shù)據(jù)800PB/年一個(gè)單數(shù)據(jù)表幾億-幾百億條記錄下線商品14億件,在線商品8億件淘寶數(shù)據(jù)庫存了20PB數(shù)據(jù)平均每月增加1.5PB智能移動終端設(shè)備的巨量增長BigData什么是大數(shù)據(jù)Velocity高速6000萬用戶登錄/天20億次頁面訪問/天每天1.2億次網(wǎng)站訪問響應(yīng)時(shí)間小于100毫秒大數(shù)據(jù)的驚人不止是在數(shù)量上,同時(shí)數(shù)據(jù)還是巨量具有動態(tài)分析價(jià)值的數(shù)據(jù)。訪問響應(yīng)時(shí)間的加快,數(shù)據(jù)庫讀寫速度的加快,對電商企業(yè)來說就等于多成交。對于很多情況下,動態(tài)的數(shù)據(jù)價(jià)值遠(yuǎn)大于靜態(tài)數(shù)據(jù),比如氣象預(yù)測,災(zāi)難預(yù)測,快消行業(yè)等。由于輸入速度加快,所以要求輸出速度也要加快BigData什么是大數(shù)據(jù)Variety多樣數(shù)據(jù):結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)指關(guān)系型數(shù)數(shù)據(jù)表指關(guān)系結(jié)構(gòu)構(gòu)與內(nèi)容混混合在一起起的數(shù)據(jù)類類型文檔、視頻頻、音頻、、圖片20%結(jié)構(gòu)化80非結(jié)構(gòu)化企業(yè)數(shù)據(jù)2012年互聯(lián)網(wǎng)產(chǎn)產(chǎn)生的數(shù)據(jù)據(jù)25%結(jié)構(gòu)化75非結(jié)構(gòu)化50%-70%源于人與人人的互動BigData什么是大數(shù)據(jù)Veracity準(zhǔn)確大數(shù)據(jù)的核核心思想之之一準(zhǔn)確源自于于對全部數(shù)數(shù)據(jù)的處理理分析基礎(chǔ)數(shù)據(jù)的的真實(shí)準(zhǔn)確確性,才能能保證結(jié)果果的有效性性。BigData什么是大數(shù)據(jù)大數(shù)據(jù)VS云計(jì)算兩者都是生生產(chǎn)方式改改變?yōu)橹鳎?,生產(chǎn)資料料改變?yōu)檩o輔,提高生生產(chǎn)效率。。云計(jì)算是將將計(jì)算和存存儲,由本本地轉(zhuǎn)移到到了云端。。大數(shù)據(jù)則是是提供了一一套新的計(jì)計(jì)算和存儲儲工作原理理。二者有本質(zhì)質(zhì)的不同,,但卻是一一個(gè)完整的的體系。大大數(shù)據(jù)可以以是云計(jì)算算的心臟,,云計(jì)算是是大數(shù)據(jù)服服務(wù)的通路路。BigData什么是大數(shù)據(jù)大數(shù)據(jù)VS物聯(lián)網(wǎng)物聯(lián)網(wǎng)是大大數(shù)據(jù)的流流程中的第第一層采集層物聯(lián)網(wǎng)網(wǎng)關(guān)關(guān)以上就進(jìn)進(jìn)入了大數(shù)數(shù)據(jù)工作范范疇。局部域內(nèi)的的物聯(lián)網(wǎng)應(yīng)應(yīng)用解決方方案等同于于這個(gè)域內(nèi)內(nèi)的大數(shù)據(jù)據(jù)系統(tǒng)大數(shù)據(jù)原理理和構(gòu)成大數(shù)據(jù)的核核心工作思思路大數(shù)據(jù)系統(tǒng)統(tǒng)顛覆了傳傳統(tǒng)數(shù)據(jù)中中心的工作作邏輯傳統(tǒng)數(shù)據(jù)系系統(tǒng)工作邏邏輯:運(yùn)算系統(tǒng)調(diào)調(diào)動數(shù)據(jù)庫庫的數(shù)據(jù),,數(shù)據(jù)的移移動。大數(shù)據(jù)系統(tǒng)統(tǒng)工作邏輯輯:運(yùn)算系統(tǒng)直直接部署至至數(shù)據(jù)處,,數(shù)據(jù)僅架架構(gòu)內(nèi)移動動。BigData大數(shù)據(jù)原理和構(gòu)成BigData大數(shù)據(jù)原理和構(gòu)成傳統(tǒng)數(shù)據(jù)系系統(tǒng)工作原原理客戶客戶客戶客戶客戶客戶互聯(lián)網(wǎng)路由器訪問請求負(fù)載均衡服務(wù)器集群群DBDBDBDB數(shù)據(jù)庫集群群數(shù)據(jù)調(diào)用請請求數(shù)據(jù)移動結(jié)果反饋BigData大數(shù)據(jù)原理和構(gòu)成Hadoop軟件框架大數(shù)據(jù)系統(tǒng)統(tǒng)核心組件件MapreduceHBaseHDFSHadoop核心子項(xiàng)目目BigData大數(shù)據(jù)原理和構(gòu)成Hadoop系統(tǒng)工作原原理BigData大數(shù)據(jù)原理和構(gòu)成Hadoop系統(tǒng)構(gòu)架BigData大數(shù)據(jù)原理和構(gòu)成存儲與數(shù)據(jù)據(jù)庫的比較較傳統(tǒng)數(shù)據(jù)中中心HadoopJOBDRAID存儲系統(tǒng)HDFS容錯(cuò)性擴(kuò)展性某已分配任任務(wù)出錯(cuò),,該計(jì)算必必須重新執(zhí)執(zhí)行節(jié)點(diǎn)靈活調(diào)調(diào)整節(jié)點(diǎn)相對固固定,擴(kuò)展展時(shí)會造成成無法訪問問在任務(wù)執(zhí)行行中任何時(shí)時(shí)候可任意意添加節(jié)點(diǎn)點(diǎn)SQLNoSQL數(shù)據(jù)類型平行計(jì)算系系統(tǒng)MapReduceRAID出現(xiàn)壞盤后后,重建陣陣列需要十十多個(gè)小時(shí)時(shí),這在大大數(shù)據(jù)時(shí)代代是無法接接受的BigData大數(shù)據(jù)原理和構(gòu)成SAPHANAHadoop的升級內(nèi)存計(jì)算技技術(shù)真正的海量量數(shù)據(jù)瞬間間分析內(nèi)存數(shù)據(jù)庫庫實(shí)現(xiàn)任何地地點(diǎn)、任何何時(shí)候、可可以查看實(shí)實(shí)時(shí)的動態(tài)態(tài)數(shù)據(jù),任任何時(shí)候都都可以知道道正在發(fā)生生著什么。。并且做出出應(yīng)對。利用高性能能的大數(shù)據(jù)據(jù)一體機(jī)服服務(wù)器,將將數(shù)據(jù)庫直直接植入大大容量內(nèi)存存中進(jìn)行實(shí)實(shí)時(shí)處理。。HadoopMapreduceHDFSHBaseBigData大數(shù)據(jù)原理和構(gòu)成大數(shù)據(jù)的硬硬件32顆處理器、、每顆處理理器12核=384核X96個(gè)線程32TB的內(nèi)存很很多中型企企業(yè)的數(shù)據(jù)據(jù)庫也只不不過幾TB.可以完美運(yùn)運(yùn)行內(nèi)存計(jì)計(jì)算數(shù)據(jù)庫庫大數(shù)據(jù)一體體機(jī)服務(wù)器+存儲+網(wǎng)絡(luò)=融合基礎(chǔ)架架構(gòu)SeaMicroSM1500064顆處理器、、每顆處理理器8核=512核心4TB的內(nèi)存5PB本地存儲10U的空間萬兆以太網(wǎng)網(wǎng)Systemx3650M4機(jī)架式2U2顆處處理理器器8核心心內(nèi)存存最最大大768GB本地地存存儲儲9TB2.6萬換算算成成10U的空空間間80核心心大數(shù)數(shù)據(jù)據(jù)的的軟軟件件數(shù)據(jù)據(jù)存存儲儲管管理理數(shù)據(jù)據(jù)處處理理數(shù)據(jù)據(jù)分分析析Hadoop數(shù)據(jù)據(jù)庫庫軟軟件件BigData大數(shù)據(jù)原理和構(gòu)成提取取轉(zhuǎn)轉(zhuǎn)換換歸歸類類可視視化化BI商業(yè)業(yè)智智能能大數(shù)數(shù)據(jù)據(jù)的的核核心心價(jià)價(jià)值值高附附加加值值階階段段大數(shù)數(shù)據(jù)據(jù)應(yīng)應(yīng)用用BigData大數(shù)據(jù)應(yīng)用大數(shù)數(shù)據(jù)據(jù)應(yīng)應(yīng)用用的的意意義義巨量量數(shù)數(shù)據(jù)據(jù)的的產(chǎn)產(chǎn)生生對所所有有復(fù)復(fù)雜雜數(shù)數(shù)據(jù)據(jù)格格式式的的歸歸類類管管理理分分析析20%結(jié)構(gòu)構(gòu)化化數(shù)數(shù)據(jù)據(jù)的的分分析析利利用用80%非結(jié)結(jié)構(gòu)構(gòu)化化的的沒沒有有發(fā)發(fā)揮揮作作用用,,商商業(yè)業(yè)洞洞察察力力的的資資源源浪浪費(fèi)費(fèi)。。找出出最最優(yōu)優(yōu)解解決決方方案案應(yīng)用用的的核核心心大數(shù)數(shù)據(jù)據(jù)分分析析BigData大數(shù)據(jù)應(yīng)用數(shù)據(jù)據(jù)質(zhì)質(zhì)量量和和數(shù)數(shù)據(jù)據(jù)管管理理可視視化化分分析析語義義引引擎擎數(shù)據(jù)據(jù)挖挖掘掘算算法法預(yù)測測性性分分析析能能力力大數(shù)數(shù)據(jù)據(jù)應(yīng)應(yīng)用用的的分分析析方方法法高質(zhì)質(zhì)量量的的數(shù)數(shù)據(jù)據(jù)處處理理和和管管理理是是輸輸出出高高質(zhì)質(zhì)量量結(jié)結(jié)果果的的前前提提深入入數(shù)數(shù)據(jù)據(jù)內(nèi)內(nèi)部部,,用用機(jī)機(jī)器器去去做做人人工工做做不不到到的的數(shù)數(shù)據(jù)據(jù)價(jià)價(jià)值值發(fā)發(fā)現(xiàn)現(xiàn)從非非結(jié)結(jié)構(gòu)構(gòu)化化數(shù)數(shù)據(jù)據(jù)中中提提取取信信息息的的方方式式展示示數(shù)數(shù)據(jù)據(jù)分分析析結(jié)結(jié)果果,,供供使使用用者者決決策策根據(jù)據(jù)可可視視化化和和數(shù)數(shù)據(jù)據(jù)挖挖掘掘的的結(jié)結(jié)果果做做出出預(yù)預(yù)測測BigData大數(shù)據(jù)應(yīng)用大數(shù)數(shù)據(jù)據(jù)應(yīng)應(yīng)用用的的分分析析邏邏輯輯DescriptivePredictivePrescriptive發(fā)生生了了什什么么??為為什什么么?還會會發(fā)發(fā)生生什什么么?還會會發(fā)發(fā)生生什什么么??,,如如果果發(fā)發(fā)生生了了,,如如何何應(yīng)應(yīng)對對??BigData大數(shù)據(jù)應(yīng)用大數(shù)數(shù)據(jù)據(jù)應(yīng)應(yīng)用用的的假假想想一一給某某總總辦辦公公室室、、汽汽車車、、家家里里裝裝上上煙煙感感。。發(fā)現(xiàn)現(xiàn)某某總總在在辦辦公公室室的的抽抽煙煙數(shù)數(shù)量量最最大大,,在在車車?yán)锢锖秃驮谠诩壹一颈静徊怀槌?。。那么么就就可可以以知知道道,,某某總總在在工工作作期期間間香香煙煙以以及及與與香香煙煙有有關(guān)關(guān)的的產(chǎn)產(chǎn)品品消消費(fèi)費(fèi)多多。。那在在家家期期間間的的消消費(fèi)費(fèi)習(xí)習(xí)慣慣又又是是什什么么,,根根據(jù)據(jù)人人的的行行為為習(xí)習(xí)慣慣,,不不抽抽煙煙但但需需要要其其他他事事情情分分散散注注意意力力。。吃東東西西??看看電電視視??看看書書??。。。。。。。。。。。。。。。。。。。這樣樣就就可可以以深深入入了了解解一一個(gè)個(gè)人人的的消消費(fèi)費(fèi)行行為為習(xí)習(xí)慣慣,,從從而而提提前前做做出出應(yīng)應(yīng)對對或或者者積積極極的的主主動動應(yīng)應(yīng)對對。。BigData大數(shù)據(jù)應(yīng)用大數(shù)數(shù)據(jù)據(jù)應(yīng)應(yīng)用用的的假假想想二二通過過對對某某人人淘淘寶寶購購物物的的跟跟蹤蹤分分析析,,挖挖掘掘出出他他的的消消費(fèi)費(fèi)趨趨勢勢。。某男男,,在在電電子子商商務(wù)務(wù)網(wǎng)網(wǎng)站站上上長長期期買買衣衣服服,,內(nèi)內(nèi)衣衣等等商商品品。。通通過過消消費(fèi)費(fèi)記記錄錄可可以以預(yù)預(yù)知知其其單單身身。。用百百度度聯(lián)聯(lián)盟盟,,把把世世紀(jì)紀(jì)佳佳緣緣,,花花田田等等交交友友網(wǎng)網(wǎng)站站的的廣廣告告推推送送給給他他。。某男男開開始

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論