版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
大數(shù)據(jù)與信息采集簡(jiǎn)介提綱大數(shù)據(jù)的由來(lái)及現(xiàn)狀大數(shù)據(jù)帶來(lái)的挑戰(zhàn):信息采集更多挑戰(zhàn):大數(shù)據(jù)的管理與分析大數(shù)據(jù)與云計(jì)算世界是數(shù)字的數(shù)據(jù)的前世今生4step3step2step1step紙質(zhì)數(shù)據(jù)文件系統(tǒng)數(shù)據(jù)庫(kù)管理系統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘大數(shù)據(jù)時(shí)代BigData什么是大數(shù)據(jù)1KB=1024字節(jié)存儲(chǔ)單位1MB=1024KB1GB=1024MB1TB=1024GB1PB=1024TB=1,048,576GB1EB=1024PB=1,073,741,824GB1ZB=1024EB=1,099,511,627,776GB100萬(wàn)G10億G1萬(wàn)億G22億臺(tái)215萬(wàn)臺(tái)2100臺(tái)500G硬盤電腦15寸電腦排成行可以往返一次月球Intel:人類文明開(kāi)始到2003年地球共產(chǎn)生了5EB數(shù)據(jù).2012年全年,全球產(chǎn)生數(shù)據(jù)2.7ZB是2003年以前的500倍2015年,全球估計(jì)產(chǎn)生數(shù)據(jù)8ZB,等于1800萬(wàn)個(gè)美國(guó)國(guó)會(huì)圖書(shū)館2000年數(shù)字信息占全球數(shù)據(jù)量的25%75%都在報(bào)紙膠片磁帶等媒介2013年數(shù)字信息98%非數(shù)字信息2%2012年全球每秒鐘發(fā)送2.9百萬(wàn)封電子郵件,一分鐘讀一篇的話,足夠一個(gè)人晝夜不息的讀5.5年…每天會(huì)有
2.88萬(wàn)個(gè)小時(shí)的視頻上傳到Y(jié)outube,足夠一個(gè)人晝夜不息的觀看3.3年…推特上每天發(fā)布5千萬(wàn)條消息,假設(shè)10秒鐘瀏覽一條信息,這些消息足夠一個(gè)人晝夜不息的瀏覽16年…每天亞馬遜上將產(chǎn)生6.3百萬(wàn)筆訂單…每個(gè)月網(wǎng)民在Facebook上要花費(fèi)7千億分鐘,被移動(dòng)互聯(lián)網(wǎng)使用者發(fā)送和接收的數(shù)據(jù)高達(dá)1.3EB…Google上每天需要處理24PB的數(shù)據(jù)…新的時(shí)代,人們從信息的被動(dòng)接受者變成了主動(dòng)創(chuàng)造者大數(shù)據(jù)時(shí)代到來(lái)BigData什么是大數(shù)據(jù)商業(yè)數(shù)據(jù)現(xiàn)狀Twitter2007年5000條微博更新/天2008年30萬(wàn)條微博更新/天2009年250萬(wàn)條微博更新/天2010年3500萬(wàn)條微博更新/天2011年2億條微博更新/天2013年4億條微博更新/天2013年上傳時(shí)長(zhǎng)12年的視頻/天2013年用戶分享25億條信息/天一個(gè)單數(shù)據(jù)表幾億-幾百億條記錄下線商品14億件,在線商品8億件淘寶數(shù)據(jù)庫(kù)存了20PB數(shù)據(jù)平均每月增加1.5PB智能移動(dòng)終端設(shè)備的巨量增長(zhǎng)數(shù)據(jù)規(guī)模指數(shù)增長(zhǎng)數(shù)字大爆炸GBTBPBEBZB地球上至今總共的數(shù)據(jù)量:在2006年,個(gè)人用戶才剛剛邁進(jìn)TB時(shí)代,全球一共新產(chǎn)生了約180EB的數(shù)據(jù);在2011年,這個(gè)數(shù)字達(dá)到了1.8ZB。而有市場(chǎng)研究機(jī)構(gòu)預(yù)測(cè):到2020年,整個(gè)世界的數(shù)據(jù)總量將會(huì)增長(zhǎng)44倍,達(dá)到35.2ZB(1ZB=10億TB)!1GB
=2^30字節(jié)1TB=2^40字節(jié)1PB
=2^50字節(jié)1EB
=2^60字節(jié)1ZB=2^70字節(jié)為什么?facebook社交網(wǎng)絡(luò)淘寶、ebuy電子商務(wù)微博、Apps移動(dòng)互聯(lián)21世紀(jì)是數(shù)據(jù)信息大發(fā)展的時(shí)代,移動(dòng)互聯(lián)、社交網(wǎng)絡(luò)、電子商務(wù)等極大拓展了互聯(lián)網(wǎng)的邊界和應(yīng)用范圍,各種數(shù)據(jù)正在迅速膨脹并變大?;ヂ?lián)網(wǎng)(社交、搜索、電商)、移動(dòng)互聯(lián)網(wǎng)(微博)、物聯(lián)網(wǎng)(傳感器,智慧地球)、車聯(lián)網(wǎng)、GPS、醫(yī)學(xué)影像、安全監(jiān)控、金融(銀行、股市、保險(xiǎn))、電信(通話、短信)都在瘋狂產(chǎn)生著數(shù)據(jù)。信息技術(shù)的廣泛應(yīng)用提高了數(shù)據(jù)的處理能力,更提高了數(shù)據(jù)的產(chǎn)生能力,道高一尺,魔高一丈。這些由我們創(chuàng)造的信息背后產(chǎn)生的這些數(shù)據(jù)早已經(jīng)遠(yuǎn)遠(yuǎn)超越了目前人力所能處理的范疇大數(shù)據(jù)時(shí)代正在來(lái)臨..數(shù)據(jù)規(guī)模指數(shù)增長(zhǎng)數(shù)字大爆炸數(shù)據(jù)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)面向應(yīng)用面向主題當(dāng)前數(shù)據(jù)歷史數(shù)據(jù)數(shù)據(jù)是可更新的數(shù)據(jù)不可更新避免數(shù)據(jù)冗余有意引入冗余支持事務(wù)處理支持決策分析數(shù)據(jù)操作頻繁操作相對(duì)不頻繁10數(shù)據(jù)分析:數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)11數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘數(shù)據(jù)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)不可知的價(jià)值提取數(shù)據(jù)數(shù)據(jù)挖掘
示例:“尿布與啤酒”的故事示例:你開(kāi)心他就買你焦慮他就拋
華爾街“德溫特資本市場(chǎng)”公司首席執(zhí)行官保羅·霍廷每天的工作之一,就是利用電腦程序分析全球3.4億微博賬戶的留言,進(jìn)而判斷民眾情緒,再以“1”到“50”進(jìn)行打分。根據(jù)打分結(jié)果,霍廷再?zèng)Q定如何處理手中數(shù)以百萬(wàn)美元計(jì)的股票。
霍廷的判斷原則很簡(jiǎn)單:如果所有人似乎都高興,那就買入;如果大家的焦慮情緒上升,那就拋售。
這一招收效顯著——當(dāng)年第一季度,霍廷的公司獲得了7%的收益率12大數(shù)據(jù)分析大數(shù)據(jù)分析:吃貨集中營(yíng)大數(shù)據(jù)分析:關(guān)聯(lián)分析大數(shù)據(jù)分析:可視化大數(shù)據(jù)分析:趨勢(shì)預(yù)測(cè)從谷歌流感趨勢(shì)看大數(shù)據(jù)的應(yīng)用價(jià)值“谷歌流感趨勢(shì)”,通過(guò)跟蹤搜索詞相關(guān)數(shù)據(jù)來(lái)判斷全美地區(qū)的流感情況大數(shù)據(jù)應(yīng)用場(chǎng)景美國(guó)零售商和懷孕預(yù)測(cè)VISA信用卡與商戶推薦股票投資智能電表廣告投放中國(guó)糧食統(tǒng)計(jì)人的數(shù)字化京東信用貸款和淘寶數(shù)據(jù)魔方UPS快遞的最佳行車路徑數(shù)據(jù)源:規(guī)模龐大,通常在PB級(jí)數(shù)據(jù)結(jié)構(gòu):非結(jié)構(gòu)化,需要進(jìn)行量化打分,轉(zhuǎn)換成結(jié)構(gòu)化、數(shù)值型數(shù)據(jù)以便理解和分析分析邏輯:更簡(jiǎn)單,性能是瓶頸性能:實(shí)時(shí)性要求更高大數(shù)據(jù)分析的特點(diǎn)什么是大數(shù)據(jù)?BigDataisacollectionofdatasetssolargeandcomplexthatitbecomesdifficulttoprocessusingon-handdatabasemanagementtools.大數(shù)據(jù)(bigdata,megadata),或稱巨量資料,指的是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。大數(shù)據(jù)的4V特征“大量化(Volume)、多樣化(Variety)、快速化(Velocity)、價(jià)值密度低(Value)”就是“大數(shù)據(jù)”的顯著特征,或者說(shuō),只有具備這些特點(diǎn)的數(shù)據(jù),才是大數(shù)據(jù)。體量Volume多樣性Variety價(jià)值密度Value速度Velocity非結(jié)構(gòu)化數(shù)據(jù)的超大規(guī)模和增長(zhǎng)總數(shù)據(jù)量的80~90%比結(jié)構(gòu)化數(shù)據(jù)增長(zhǎng)快10倍到50倍是傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)的10倍到50倍大數(shù)據(jù)的異構(gòu)和多樣性很多不同形式(文本、圖像、視頻、機(jī)器數(shù)據(jù))無(wú)模式或者模式不明顯不連貫的語(yǔ)法或句義大量的不相關(guān)信息對(duì)未來(lái)趨勢(shì)與模式的可預(yù)測(cè)分析深度復(fù)雜分析(機(jī)器學(xué)習(xí)、人工智能Vs傳統(tǒng)商務(wù)智能(咨詢、報(bào)告等)實(shí)時(shí)分析而非批量式分析數(shù)據(jù)輸入、處理與丟棄立竿見(jiàn)影而非事后見(jiàn)效Volume數(shù)據(jù)量PB是大數(shù)據(jù)層次的臨界點(diǎn).KB->MB->GB->TB->PB->EB->ZB->YB->NB->DB根據(jù)IDC作出的估測(cè),數(shù)據(jù)一直都在以每年50%的速度增長(zhǎng),也就是說(shuō)每?jī)赡昃驮鲩L(zhǎng)一倍(大數(shù)據(jù)摩爾定律)人類在最近兩年產(chǎn)生的數(shù)據(jù)量相當(dāng)于之前產(chǎn)生的全部數(shù)據(jù)量預(yù)計(jì)到2020年,全球?qū)⒖偣矒碛?5ZB的數(shù)據(jù)量,相較于2010年,數(shù)據(jù)量將增長(zhǎng)近30倍Volume數(shù)據(jù)量Dalles數(shù)據(jù)中心位于俄勒岡州的哥倫比亞河旁,河上的Dalles大壩為數(shù)據(jù)中心提供電力。數(shù)據(jù)中心有2座4層樓高的冷卻塔。Google數(shù)據(jù)中心Google數(shù)據(jù)中心以集裝箱為單位,每個(gè)集裝箱有1160臺(tái)服務(wù)器,每個(gè)數(shù)據(jù)中心有眾多集裝箱。23Google一次搜索查詢的能耗能點(diǎn)亮100瓦的燈泡11秒鐘。Microsoft數(shù)據(jù)中心微軟在美國(guó)芝加哥的數(shù)據(jù)中心.總面積為70萬(wàn)平方英尺。即使只啟用半數(shù)服務(wù)器,能耗也達(dá)到30兆瓦。24Variety多樣性企業(yè)內(nèi)部的經(jīng)營(yíng)交易信息;物聯(lián)網(wǎng)世界中商品,物流信息;互聯(lián)網(wǎng)世界中人與人交互信息,位置信息等是大數(shù)據(jù)的主要來(lái)源.
結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)如今的數(shù)據(jù)類型早已不是單一的文本形式,訂單、日志、音頻,能力提出了更高的要求結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)指關(guān)系型數(shù)據(jù)表指關(guān)系結(jié)構(gòu)與內(nèi)容混合在一起的數(shù)據(jù)類型,xml…文檔、視頻、音頻、圖片20%結(jié)構(gòu)化80%非結(jié)構(gòu)化企業(yè)數(shù)據(jù)2012年互聯(lián)網(wǎng)產(chǎn)生的數(shù)據(jù)25%結(jié)構(gòu)化75%非結(jié)構(gòu)化50%-70%源于人與人的互動(dòng)Value價(jià)值挖掘大數(shù)據(jù)的價(jià)值類似沙里淘金,從海量數(shù)據(jù)中挖掘稀疏但珍貴的信息.價(jià)值密度低,是大數(shù)據(jù)的一個(gè)典型特征.Value價(jià)值未來(lái)大數(shù)據(jù)的產(chǎn)業(yè)規(guī)模將會(huì)至少以萬(wàn)億美元來(lái)進(jìn)行衡量美國(guó)醫(yī)療保健每年產(chǎn)值達(dá)3000億美金每年生產(chǎn)率增長(zhǎng)約0.7%制造業(yè)最多可節(jié)省50%的產(chǎn)品研發(fā)、組裝成本最多可節(jié)約7%的營(yíng)運(yùn)資金美國(guó)零售業(yè)凈利率增長(zhǎng)可能高達(dá)60%+每年生產(chǎn)率增長(zhǎng)0.5-1.0%歐洲公共部門管理每年2500億歐元每年生產(chǎn)率增長(zhǎng)約0.7%全球個(gè)人定位數(shù)據(jù)1000億+的服務(wù)供應(yīng)商收入為終端用戶帶來(lái)高達(dá)7000億美的價(jià)值Velocity速度1s是臨界點(diǎn).對(duì)于大數(shù)據(jù)應(yīng)用而言,必須要在1秒鐘內(nèi)形成答案,否則處理結(jié)果就是過(guò)時(shí)和無(wú)效的.大數(shù)據(jù)的驚人不止是在數(shù)量上,同時(shí)數(shù)據(jù)還是巨量具有動(dòng)態(tài)分析價(jià)值的數(shù)據(jù)。訪問(wèn)響應(yīng)時(shí)間的加快,數(shù)據(jù)庫(kù)讀寫(xiě)速度的加快,對(duì)電商企業(yè)來(lái)說(shuō)就等于多成交。對(duì)于很多情況下,動(dòng)態(tài)的數(shù)據(jù)價(jià)值遠(yuǎn)大于靜態(tài)數(shù)據(jù),比如氣象預(yù)測(cè),災(zāi)難預(yù)測(cè),快消行業(yè)等。實(shí)時(shí)處理的要求,是區(qū)別大數(shù)據(jù)應(yīng)用和傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)技術(shù),BI技術(shù)的關(guān)鍵差別之一.6000萬(wàn)用戶登錄/天20億次頁(yè)面訪問(wèn)/天每天1.2億次網(wǎng)站訪問(wèn)響應(yīng)時(shí)間小于100毫秒Velocity速度數(shù)據(jù)的采集速度的加快導(dǎo)致處理時(shí)間都需要有相應(yīng)的提高在線數(shù)據(jù)分析(OnlineDataAnalytics)決策的延誤
商機(jī)的消失實(shí)例網(wǎng)上營(yíng)銷(E-Promotions):基于用戶當(dāng)前的位置和過(guò)往的交易數(shù)據(jù)預(yù)測(cè)用戶的喜好在合適的時(shí)間和地點(diǎn)發(fā)送用戶感興趣的產(chǎn)品和店鋪健康監(jiān)控(Healthcaremonitoring):利用穿戴式的傳感器監(jiān)控用戶的生理和活動(dòng)數(shù)據(jù)及時(shí)提供需要的醫(yī)療服務(wù)大數(shù)據(jù)提綱大數(shù)據(jù)的由來(lái)及現(xiàn)狀大數(shù)據(jù)帶來(lái)的挑戰(zhàn):信息采集更多挑戰(zhàn):大數(shù)據(jù)的管理與分析大數(shù)據(jù)與云計(jì)算大數(shù)據(jù)從哪里來(lái)?海量交易數(shù)據(jù):企業(yè)內(nèi)部的經(jīng)營(yíng)交易信息主要包括聯(lián)機(jī)交易數(shù)據(jù)和聯(lián)機(jī)分析數(shù)據(jù),是結(jié)構(gòu)化的、通過(guò)關(guān)系數(shù)據(jù)庫(kù)進(jìn)行管理和訪問(wèn)的靜態(tài)、歷史數(shù)據(jù)。通過(guò)這些數(shù)據(jù),我們能了解過(guò)去發(fā)生了什么。大數(shù)據(jù)從哪里來(lái)?海量交互數(shù)據(jù):源于Facebook、Twitter、微信,微博及其他來(lái)源的社交媒體數(shù)據(jù)構(gòu)成。它包括了呼叫詳細(xì)記錄CDR、傳送的海量多媒體文件、Web文本和點(diǎn)擊流數(shù)據(jù)、科學(xué)信息、電子郵件等等??梢愿嬖V我們未來(lái)會(huì)發(fā)生什么。馬云成功預(yù)測(cè)2008年經(jīng)濟(jì)危機(jī)“2008年初,阿里巴巴平臺(tái)上整個(gè)買家詢盤數(shù)急劇下滑,歐美對(duì)中國(guó)采購(gòu)在下滑。海關(guān)是賣了貨,出去以后再獲得數(shù)據(jù);我們提前半年時(shí)間從詢盤上推斷出世界貿(mào)易發(fā)生變化了?!蓖ǔ6裕I家在采購(gòu)商品前,會(huì)比較多家供應(yīng)商的產(chǎn)品,反映到阿里巴巴網(wǎng)站統(tǒng)計(jì)數(shù)據(jù)中,就是查詢點(diǎn)擊的數(shù)量和購(gòu)買點(diǎn)擊的數(shù)量會(huì)保持一個(gè)相對(duì)的數(shù)值,綜合各個(gè)維度的數(shù)據(jù)可建立用戶行為模型。因?yàn)閿?shù)據(jù)樣本巨大,保證用戶行為模型的準(zhǔn)確性。因此在這個(gè)案例中,詢盤數(shù)據(jù)的下降,自然導(dǎo)致買盤的下降。大數(shù)據(jù)從哪里來(lái)?海量傳感器數(shù)據(jù):源于各類傳感器,如攝像頭,可穿戴設(shè)備,智能家電,工業(yè)設(shè)備等。它包括了多種環(huán)境信息,人體運(yùn)動(dòng)記錄,操作記錄等等。這一部分?jǐn)?shù)據(jù)規(guī)模將更加龐大。中國(guó)英特爾物聯(lián)技術(shù)研究院數(shù)據(jù)量的顛覆性變化每1天產(chǎn)生5EB數(shù)據(jù)每2天產(chǎn)生5EB數(shù)據(jù)1萬(wàn)年產(chǎn)生5EB數(shù)據(jù)2015每人每天產(chǎn)生1.1TB時(shí)間2015數(shù)據(jù)量感知數(shù)據(jù)
=
社交媒體數(shù)據(jù)的10-20倍社交媒體數(shù)據(jù)大數(shù)據(jù)從哪里來(lái)?海量傳感器數(shù)據(jù):大數(shù)據(jù)從哪里來(lái)?運(yùn)營(yíng)式系統(tǒng)階段用戶原創(chuàng)內(nèi)容階段2感知式系統(tǒng)階段3?數(shù)據(jù)庫(kù)的出現(xiàn)使得數(shù)據(jù)管理的復(fù)雜度大大降低
,數(shù)據(jù)往往伴隨著一定的運(yùn)營(yíng)活動(dòng)而產(chǎn)生并記錄在數(shù)據(jù)庫(kù)中的
,數(shù)據(jù)的產(chǎn)生方式是被動(dòng)的?數(shù)據(jù)爆發(fā)產(chǎn)生于Web
2.0
時(shí)代,而Web
2.0
的最重要標(biāo)志就是用戶原創(chuàng)內(nèi)容?智能手機(jī)等移動(dòng)設(shè)備加速內(nèi)容產(chǎn)生?數(shù)據(jù)產(chǎn)生方式是主動(dòng)的?感知式系統(tǒng)的廣泛使用?人類社會(huì)數(shù)據(jù)量第三次大的飛躍最終導(dǎo)致了大數(shù)據(jù)的產(chǎn)生信息采集的類型交易數(shù)據(jù)數(shù)據(jù)抽取與集成工具,ETL主動(dòng)抽取,源與目的都非常明確交互數(shù)據(jù)網(wǎng)絡(luò)爬蟲(chóng),數(shù)據(jù)收集程序主動(dòng)爬取,源與目的不太明確傳感器數(shù)據(jù)傳感器傳送被動(dòng)傳送TimeVolume結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)可被處理的非結(jié)構(gòu)化數(shù)據(jù)休眠數(shù)據(jù)大數(shù)據(jù)采集帶來(lái)的挑戰(zhàn)
網(wǎng)絡(luò)爬蟲(chóng)數(shù)據(jù)的分布性:文檔散落在數(shù)以百萬(wàn)計(jì)的不同服務(wù)器上,沒(méi)有預(yù)先定義的拓?fù)浣Y(jié)構(gòu)相連。不穩(wěn)定的數(shù)據(jù)高比例:許多文檔迅速地添加或刪除(e.g.deadlinks).大規(guī)模:網(wǎng)絡(luò)數(shù)據(jù)量的指數(shù)增長(zhǎng),由此引發(fā)了一系列難以處理的規(guī)模問(wèn)題。無(wú)結(jié)構(gòu)和冗余信息:每個(gè)HTML頁(yè)面沒(méi)有統(tǒng)一的結(jié)構(gòu),許多網(wǎng)絡(luò)數(shù)據(jù)是重復(fù)的,將近30%的重復(fù)網(wǎng)頁(yè).數(shù)據(jù)的質(zhì)量:許多內(nèi)容沒(méi)有經(jīng)過(guò)編輯處理,數(shù)據(jù)可能是錯(cuò)誤的,無(wú)效的。錯(cuò)誤來(lái)源有錄入錯(cuò)誤,語(yǔ)法錯(cuò)誤,OCR錯(cuò)誤等。異構(gòu)數(shù)據(jù):多媒體數(shù)據(jù)(images,video,VRML),語(yǔ)言,字符集等.提綱大數(shù)據(jù)的由來(lái)及現(xiàn)狀大數(shù)據(jù)帶來(lái)的挑戰(zhàn):信息采集更多挑戰(zhàn):大數(shù)據(jù)的管理與分析大數(shù)據(jù)與云計(jì)算現(xiàn)行計(jì)算技術(shù)面臨的挑戰(zhàn)(1)在大數(shù)據(jù)面前,人力/人腦幾乎無(wú)能為力,迫切需要有效、高效的方法、技術(shù)和工具,現(xiàn)有的計(jì)算技術(shù)需要革新、甚至革命性的發(fā)展!傳統(tǒng)以計(jì)算為中心的數(shù)據(jù)管理和處理模式的局限,無(wú)法應(yīng)對(duì)“4V問(wèn)題”數(shù)據(jù)僅是計(jì)算設(shè)備的輸入/輸出,靠提速擴(kuò)容適應(yīng)數(shù)據(jù)增長(zhǎng)而大數(shù)據(jù)難以I/O,其爆炸式增長(zhǎng)非單純提速擴(kuò)容可對(duì)付
數(shù)據(jù)價(jià)值有效
利用率不足5%價(jià)值未充分利用?
①平均日產(chǎn)數(shù)據(jù)20TB②平均年增
數(shù)據(jù)超50%數(shù)據(jù)負(fù)擔(dān)沉重?cái)?shù)據(jù)處理?數(shù)據(jù)管理?數(shù)據(jù)分析?傳統(tǒng)DB技術(shù)在應(yīng)對(duì)大數(shù)據(jù)上的不足⑴DBMS網(wǎng)絡(luò)存儲(chǔ):將存儲(chǔ)設(shè)備通過(guò)標(biāo)準(zhǔn)的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)連接到一群計(jì)算機(jī)上,包括直連存儲(chǔ)、網(wǎng)絡(luò)附加存儲(chǔ)、存儲(chǔ)區(qū)域網(wǎng)絡(luò)等。如:OracleRAC、MySQLSharding集群、DB2Purescale⑵分布式數(shù)據(jù)庫(kù)代理:通過(guò)中間代理層來(lái)統(tǒng)一管理所有的數(shù)據(jù)源,后端數(shù)據(jù)庫(kù)集群對(duì)前端應(yīng)用程序透明。如:MySQLProxy、Amoeba⑶數(shù)據(jù)倉(cāng)庫(kù):面向主題的、集成的、相對(duì)穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合,用于支持管理決策。如:Teradata、Greenplum、OracleExadata共享磁盤或共享內(nèi)存的體系架構(gòu),使得依賴于scaleup方式的有限的可擴(kuò)展性…..……缺乏對(duì)半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的支持…………在處理大規(guī)模數(shù)據(jù)和執(zhí)行復(fù)雜的統(tǒng)計(jì)模型計(jì)算上的限制…………現(xiàn)行計(jì)算技術(shù)面臨的挑戰(zhàn)(2)例:從“scale-up”到“scale-out”傳統(tǒng)縱向擴(kuò)展的處理模式“scale-up”:依賴于專用站點(diǎn)的CPU/memory/storage/network更新(傳統(tǒng)并行模型),新型橫向擴(kuò)展的處理模式“scale-out”:依賴于增加分布式低成本計(jì)算與存儲(chǔ)節(jié)點(diǎn)現(xiàn)有商業(yè)并行數(shù)據(jù)庫(kù)產(chǎn)品很少可管理100+節(jié)點(diǎn);但是Yahoo!的Hadoop集群系統(tǒng)有4000+節(jié)點(diǎn);Facebook也達(dá)到2750+節(jié)點(diǎn)怎樣有效、高效地管理、處理、應(yīng)用大數(shù)據(jù),對(duì)計(jì)算技術(shù)帶來(lái)了一系列挑戰(zhàn)數(shù)據(jù)管理面臨的挑戰(zhàn)來(lái)自兩個(gè)方面不斷涌現(xiàn)的大數(shù)據(jù)云計(jì)算平臺(tái)的特點(diǎn)⑴數(shù)據(jù)的規(guī)模龐大,需要海量的存儲(chǔ)空間和強(qiáng)大的計(jì)算能力⑵數(shù)據(jù)源豐富,數(shù)據(jù)類型多樣⑶用戶群體大,需要高并發(fā)、低延遲、高吞吐量的訪問(wèn)⑷無(wú)法預(yù)計(jì)的存儲(chǔ)需求,可動(dòng)態(tài)伸縮(5)多租戶共享的,第三方托管(6)大規(guī)模數(shù)據(jù)的密集型計(jì)算,執(zhí)行更加復(fù)雜的分析挖掘任務(wù)⑴無(wú)共享的分布式系統(tǒng)架構(gòu)、橫向擴(kuò)展⑵數(shù)據(jù)被分片分散存放,自適應(yīng)的數(shù)據(jù)劃分方式和動(dòng)態(tài)遷移⑶為高可用和容錯(cuò),同一數(shù)據(jù)分片保存了多個(gè)副本⑷廉價(jià)的商品化硬件,故障常態(tài)化⑸各種資源通過(guò)網(wǎng)絡(luò)以服務(wù)形式提交,按需分配Pay-as-you-go⑹MapReduce、BSP、Dryad等并行計(jì)算范式
數(shù)據(jù)挖掘面臨的挑戰(zhàn)數(shù)據(jù)源規(guī)模龐大、多數(shù)據(jù)源……分布式存儲(chǔ)、數(shù)據(jù)多樣性……某電信運(yùn)營(yíng)商數(shù)據(jù)挖掘?qū)嵗诰蛩惴ㄐ韪叨葏R總和集成數(shù)據(jù)……算法復(fù)雜度高、精確度低……數(shù)據(jù)倉(cāng)庫(kù)規(guī)模1PB構(gòu)建客戶流失預(yù)警模型:10小時(shí)建模,只能投入幾十萬(wàn)行數(shù)據(jù)做訓(xùn)練準(zhǔn)確度只有60%-70%節(jié)點(diǎn)數(shù)的增加不一定能提高數(shù)據(jù)挖掘的效率算法的簡(jiǎn)單并行化不能有效處理海量數(shù)據(jù)!提綱大數(shù)據(jù)的由來(lái)及現(xiàn)狀大數(shù)據(jù)帶來(lái)的挑戰(zhàn):信息采集更多挑戰(zhàn):大數(shù)據(jù)的管理與分析大數(shù)據(jù)與云計(jì)算你身邊的“云”?群雄逐鹿:國(guó)外有微軟SkyDrive、蘋果iCloud,亞馬遜CloudDriver等網(wǎng)盤產(chǎn)品,國(guó)內(nèi)有百度云、新浪微盤、華為網(wǎng)盤、金山快盤、115網(wǎng)盤和360云盤等?不以空間大小論英雄:以100K/s的均速上傳,1T空間也需124天方可填滿,合計(jì)2976小時(shí)。而如若想占滿36T,估摸得熬上12年以上光景你身邊的“云”有道云筆記/video.html?auto=12011年6月28日網(wǎng)易旗下的有道推出的云筆記軟件,支持多種附件格式,擁有2G容量的初始免費(fèi)存儲(chǔ)空間,能夠?qū)崟r(shí)增量式同步,并采用“三備份存儲(chǔ)”技術(shù),同時(shí)上線的還有網(wǎng)頁(yè)剪報(bào)功能。云電視、百度地圖、百度音樂(lè)、云殺毒、云端備份。。。。。還有木有?什么是云計(jì)算?云計(jì)算(cloudcomputing)是基于互聯(lián)網(wǎng)的相關(guān)服務(wù)的增加、使用和交付模式,通常涉及通過(guò)互聯(lián)網(wǎng)來(lái)提供動(dòng)態(tài)易擴(kuò)展且經(jīng)常是虛擬化的資源。云是網(wǎng)絡(luò)、互聯(lián)網(wǎng)的一種比喻說(shuō)法。過(guò)去在圖中往往用云來(lái)表示電信網(wǎng),后來(lái)也用來(lái)表示互聯(lián)網(wǎng)和底層基礎(chǔ)設(shè)施的抽象。因此,云計(jì)算甚至可以讓你體驗(yàn)每秒10萬(wàn)億次的運(yùn)算能力,擁有這么強(qiáng)大的計(jì)算能力可以模擬核爆炸、預(yù)測(cè)氣候變化和市場(chǎng)發(fā)展趨勢(shì)。用戶通過(guò)電腦、筆記本、手機(jī)等方式接入數(shù)據(jù)中心,按自己的需求進(jìn)行運(yùn)算。對(duì)云計(jì)算的定義有多種說(shuō)法。對(duì)于到底什么是云計(jì)算,至少可以找到100種解釋?,F(xiàn)階段廣為接受的是美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究院(NIST)定義:云計(jì)算是一種按使用量付費(fèi)的模式,這種模式提供可用的、便捷的、按需的網(wǎng)絡(luò)訪問(wèn),進(jìn)入可配置的計(jì)算資源共享池(資源包括網(wǎng)絡(luò),服務(wù)器,存儲(chǔ),應(yīng)用軟件,服務(wù)),這些資源能夠被快速提供,只需投入很少的管理工作,或與服務(wù)供應(yīng)商進(jìn)行很少的交互。什么是云計(jì)算?云計(jì)算概念?通過(guò)整合、管理、調(diào)配分布在網(wǎng)絡(luò)各處的計(jì)算資源,通過(guò)互聯(lián)網(wǎng)以統(tǒng)一界面、同時(shí)向大量的用戶提供服務(wù)云計(jì)算特點(diǎn)超大規(guī)模計(jì)算、虛擬化、高可靠性和安全性、通用性、動(dòng)態(tài)擴(kuò)展性、按需服務(wù)、降低成本云計(jì)算應(yīng)用場(chǎng)景Google個(gè)人云服務(wù)企業(yè)應(yīng)用實(shí)例:阿里Amazon云計(jì)算示意圖云計(jì)算特點(diǎn)高可靠性前所未有的計(jì)算能力數(shù)據(jù)多副本,計(jì)算節(jié)點(diǎn)同構(gòu)可互換等措施動(dòng)態(tài)伸縮,滿足規(guī)模增長(zhǎng)需要超大規(guī)模高可擴(kuò)展性極其廉價(jià)任意獲取相應(yīng)服務(wù)虛擬化通用性千變?nèi)f化,不針對(duì)特定應(yīng)用按需服務(wù)龐大的資源池,按需購(gòu)買CloudFeatures云計(jì)算特點(diǎn)數(shù)據(jù)在云端:不怕丟失,不必備份,可以任意點(diǎn)的恢復(fù);軟件在云端:不必下載自動(dòng)升級(jí);無(wú)所不在的計(jì)算:在任何時(shí)間,任意地點(diǎn),任何設(shè)備登錄后就可以進(jìn)行計(jì)算服務(wù);無(wú)限強(qiáng)大的計(jì)算:具有無(wú)限空間的,無(wú)限速度PCC/S云計(jì)算以硬件為中心以軟件為中心以服務(wù)為中心云計(jì)算的好處買設(shè)備開(kāi)發(fā)系統(tǒng)互聯(lián)網(wǎng)/局域網(wǎng)支付設(shè)備和勞動(dòng)力費(fèi)用用戶單一買外部服務(wù)可擴(kuò)展,有彈性,動(dòng)態(tài),多用戶所用即所付通過(guò)Internet使用IFaPs(IP,HTML,HTTP)傳統(tǒng)IT模式云計(jì)算實(shí)現(xiàn)模式人機(jī)界面商業(yè)模式技術(shù)模式云計(jì)算的好處云計(jì)算與傳統(tǒng)IT模式相比,具有相當(dāng)明顯的優(yōu)勢(shì):
任何一臺(tái)可以上網(wǎng)的通訊設(shè)備包括手機(jī)、PDA、上網(wǎng)本均可
降低成本
全球購(gòu)置計(jì)算機(jī)中,只有30%的計(jì)算能力被利用,甚至更低提高資源利用率
云端由成千上萬(wàn)臺(tái)甚至更多服務(wù)器組成的集群為存儲(chǔ)和管理數(shù)據(jù)提供了幾乎無(wú)限大的空間和資源
用戶可以根據(jù)自己的需要或喜好定制相應(yīng)的服務(wù)、應(yīng)用及資源靈活定制動(dòng)態(tài)遷移保證應(yīng)用和計(jì)算的正常進(jìn)行;在云計(jì)算服務(wù)器端提供了最可靠、最安全的數(shù)據(jù)存儲(chǔ)中心彈性計(jì)算和存儲(chǔ)能力高可靠性和安全性云計(jì)算的分類按服務(wù)類型分類云計(jì)算的分類按服務(wù)類型分類基礎(chǔ)設(shè)施云(InfrastructureCloud,IaaS)為用戶提供底層的、接近于直接操作硬件資源的服務(wù)接口。平臺(tái)云(PlatformCloud,PaaS)為用戶提供一個(gè)托管平臺(tái),用戶可以將他們所開(kāi)發(fā)和運(yùn)營(yíng)的應(yīng)用托管到云平臺(tái)中。應(yīng)用云(ApplicationCloud,SaaS)為用戶提供可以直接為其所用的應(yīng)用,這些應(yīng)用一般是基于瀏覽器的,針對(duì)某一特定功能。基礎(chǔ)設(shè)施即服務(wù)IaaS——InfrastructureasaSe
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 敦煌行草書(shū)法研究報(bào)告
- 教資考試物理課程設(shè)計(jì)
- 教職工管理系統(tǒng)課程設(shè)計(jì)
- 家長(zhǎng)志愿者工作制度
- 學(xué)校防自然災(zāi)害事件工作總結(jié)
- 學(xué)校小學(xué)生課后服務(wù)工作方案
- 2024小學(xué)“向國(guó)旗敬禮”活動(dòng)方案
- 內(nèi)審與財(cái)務(wù)管理風(fēng)險(xiǎn)的探討
- 道路綠化設(shè)計(jì)方案
- 2024年中擔(dān)保協(xié)議條款模板版
- 2024考研英語(yǔ)二試題及答案解析
- 《咖啡知識(shí)》課件
- 冀教版數(shù)學(xué)七年級(jí)上下冊(cè)知識(shí)點(diǎn)總結(jié)
- 2024年貴州退役軍人事務(wù)廳事業(yè)單位筆試真題
- 高中英語(yǔ)校本教材《高中英語(yǔ)寫(xiě)作指導(dǎo)》校本課程綱要
- 2024年九年級(jí)化學(xué)上冊(cè) 實(shí)驗(yàn)3《燃燒的條件》教學(xué)設(shè)計(jì) (新版)湘教版
- 大模型應(yīng)用開(kāi)發(fā)極簡(jiǎn)入門基于GPT-4和ChatGPT
- 2024年河南中考?xì)v史試卷試題答案解析及備考指導(dǎo)課件
- 新質(zhì)生產(chǎn)力心得體會(huì)范文簡(jiǎn)短發(fā)言6篇
- 河南省鄭州楓楊外國(guó)語(yǔ)學(xué)校2025屆物理九年級(jí)第一學(xué)期期中綜合測(cè)試模擬試題含解析
- 安全文明施工獎(jiǎng)罰明細(xì)表
評(píng)論
0/150
提交評(píng)論