2023學年完整公開課版大數(shù)據(jù)概論_第1頁
2023學年完整公開課版大數(shù)據(jù)概論_第2頁
2023學年完整公開課版大數(shù)據(jù)概論_第3頁
2023學年完整公開課版大數(shù)據(jù)概論_第4頁
2023學年完整公開課版大數(shù)據(jù)概論_第5頁
已閱讀5頁,還剩67頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

主講:方明清大數(shù)據(jù)概論大數(shù)據(jù)基本概念123大數(shù)據(jù)背景3大數(shù)據(jù)案例培訓目標核心內(nèi)容4大數(shù)據(jù)技術(shù)版本號:V1.0大數(shù)據(jù)時代背景數(shù)據(jù)爆炸國際數(shù)據(jù)集團“數(shù)字世界”歷時三年,對全球數(shù)據(jù)量進行了調(diào)查,07年全球信息量約為16萬PB,即使在全球遭遇金融危機的2009年,全球信息量仍達到80萬PB,比上一年度增長62%。2010年這一數(shù)字達到1.2ZB,約為2007年的8倍。這意味著TB、PB、EB已經(jīng)過時,全球?qū)⒄竭M入數(shù)據(jù)存儲的“澤它時代”,進入數(shù)據(jù)爆炸時代?!皵?shù)字世界”調(diào)查預測,未來十年,全球總體信息量將是現(xiàn)在的44倍。數(shù)據(jù)單位BKBMBGBTBPBEBZBYB基數(shù)22222221010次方01020304050602124數(shù)字化時代數(shù)據(jù)爆炸時代5數(shù)據(jù)源12+TB

of

tweetdata

everyday25+TBof

logdataeveryday100+TBof

dataeveryday615PBofdataeveryyear大數(shù)據(jù)對各行業(yè)產(chǎn)生價值和影響全面洞察客戶信息提升企業(yè)資產(chǎn)管理數(shù)據(jù)深度利用風險及時感知和控制輔助智能決策更快和更大規(guī)模的產(chǎn)品創(chuàng)新全面分析來自渠道反饋、社會傳媒等多源信息,將每個客戶作為個體進行全景了解。利用實時數(shù)據(jù)實現(xiàn)預測性維護并減少故障,推動產(chǎn)品和服務開發(fā)。梳理結(jié)構(gòu)化、非結(jié)構(gòu)化、海量歷史/實時、地理信息四類數(shù)據(jù)資源,以企業(yè)核心業(yè)務及應用為主線實現(xiàn)四類數(shù)據(jù)資源的關(guān)聯(lián)利用。通過全面數(shù)據(jù)分析改進風險模型,結(jié)合交易流數(shù)據(jù)實時捕獲風險,及時有效的控制。實時分析所有的運營數(shù)據(jù)和效果反饋,優(yōu)化運營流程。利用投資回報率最大的技術(shù)減少IT成本多源捕獲市場反饋,利用海量市場信息和研究數(shù)據(jù)來快速驅(qū)動創(chuàng)新。更快和更大規(guī)模的產(chǎn)品創(chuàng)新全面洞察客戶信息提升企業(yè)資產(chǎn)管理數(shù)據(jù)深度利用輔助智能決策風險及時感知和控制大數(shù)據(jù)藍海區(qū)域發(fā)展氣候信息行業(yè)信息市場信息國家戰(zhàn)略投資信息經(jīng)濟信息生活咨詢貿(mào)易信息旅游咨詢個人生活相關(guān)(投資理財、居家生活、旅游出行)企業(yè)發(fā)展相關(guān)(投資前景、市場戰(zhàn)略、市場先機)區(qū)域經(jīng)濟發(fā)展(區(qū)域規(guī)劃、城市發(fā)展、發(fā)展先機)國家發(fā)展戰(zhàn)略(全球經(jīng)濟、國計民生、政策法規(guī))數(shù)據(jù)影響到我們生活周邊的各個方面。計算應用分析加工版本號:V1.0大數(shù)據(jù)基本概念大數(shù)據(jù)BigData大數(shù)據(jù)是指無法在一定時間內(nèi)用常規(guī)軟件工具對其內(nèi)容進行抓取、管理和處理的數(shù)據(jù)集合大數(shù)據(jù)=“海量數(shù)據(jù)”+“復雜類型的數(shù)據(jù)”涉及各個行業(yè)領(lǐng)域電力、電信、經(jīng)貿(mào)、教育、醫(yī)療、金融、石油、民航天文、氣象、基因、醫(yī)學、物理、互聯(lián)網(wǎng)與人類社會活動有關(guān)的網(wǎng)絡數(shù)據(jù)大數(shù)據(jù)核心特征總結(jié)4V數(shù)據(jù)量大(Volume)類型繁多(Variety)價值密度低(Value)速度快時效高(Velocity)

普開大數(shù)據(jù)引領(lǐng)薪未來大數(shù)據(jù)與云計算的關(guān)系大數(shù)據(jù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,在于對這些含有意義的數(shù)據(jù)進行專業(yè)化處理如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實現(xiàn)盈利的關(guān)鍵,在于提高對數(shù)據(jù)的“加工能力”,通過“加工”實現(xiàn)數(shù)據(jù)的“增值”

普開大數(shù)據(jù)引領(lǐng)薪未來

每天幾百GB、幾TB的資料,且持續(xù)成長中

如何從大量數(shù)據(jù)中挖掘出隱藏的巨大商業(yè)價值

如何快速構(gòu)建并且保證系統(tǒng)的安全簡便可用存儲分析管理大數(shù)據(jù)的挑戰(zhàn)大數(shù)據(jù)的應用案例評估/預測數(shù)據(jù)收集/加工客戶關(guān)懷關(guān)聯(lián)分析輿情跟蹤/分析風險管理發(fā)大數(shù)據(jù)應用場景:金融交通優(yōu)化大數(shù)據(jù)應用場景:政府

自然災害預防研究改進物流規(guī)劃環(huán)境監(jiān)控就業(yè)分析社交網(wǎng)絡意識熱點跟蹤經(jīng)濟預測欺詐檢測大數(shù)據(jù)應用場景:醫(yī)療健康不間斷醫(yī)療保健流感跟蹤數(shù)據(jù)分析/報告社交網(wǎng)絡改善研究欺詐索賠醫(yī)保物流規(guī)劃治療計劃關(guān)聯(lián)分析

評估和預測

整合和分析

數(shù)據(jù)

就業(yè)分析

社交網(wǎng)絡應

用

跨校學習

提升研究水平

大數(shù)據(jù)可以為教育和科研做些什么?

現(xiàn)狀中國將近4200萬小微企業(yè),占企業(yè)總數(shù)的的97.3%由于分布零散、業(yè)務不規(guī)范、盈利不明朗、信貸時間長、信用難以構(gòu)建等現(xiàn)狀,使得小微企業(yè)的貸款相當困難??大數(shù)據(jù)與小而美的金融信貸完全是構(gòu)建在互聯(lián)網(wǎng)的基礎(chǔ)通過數(shù)據(jù)分析,以自主服務模式為主的、面對小微企業(yè)的信貸工廠24小時開放、隨時申請、隨時審批、隨時發(fā)放的純互聯(lián)網(wǎng)的小額信貸服務

ODPSOpenDataProcessingService,阿里云開放數(shù)據(jù)處理服務來自淘寶、天貓、B2B、支付寶的交易數(shù)據(jù)、日志、聊天記錄以及評價等各個方面的數(shù)據(jù)經(jīng)過確定的調(diào)度、系統(tǒng)監(jiān)控、數(shù)據(jù)分析、算法優(yōu)化等流程,最終形成了310模式阿里金融阿里金融的實時業(yè)務墻阿里金融的數(shù)據(jù)和趣事經(jīng)濟不景氣啊意大利銀行壞賬率18.6%西班牙銀行壞賬率10.9%我國規(guī)定銀行壞賬率5%以下,實際呢?阿里金融壞賬率0.76%如何做到的?阿里金融的數(shù)據(jù)和趣事海量數(shù)據(jù)的存儲和計算來自谷歌:數(shù)據(jù)量大比數(shù)據(jù)模型精細更具優(yōu)勢Hadoop4500+服務器共同存儲和并行計算69.1PB數(shù)據(jù),總?cè)萘?7PB每日凈增量260TB每日作業(yè)數(shù)15-18萬到2013年為止,除支付寶仍在部分使用Oracle,淘寶所有業(yè)務全部使用開源,成本降低60%以上使用IOE,成本2000萬,現(xiàn)在用Mysql成本400萬TPS:IOE9000/Mysql加其他開源軟件,128000網(wǎng)頁游戲國內(nèi)網(wǎng)頁游戲廠商百個服/網(wǎng)頁游戲,30-50個庫/服10G用戶數(shù)據(jù)/天/游戲[十幾款游戲]場景:游戲玩家行為分析其他平臺:數(shù)據(jù)無法導出中間數(shù)據(jù)匯總丟棄,無法用戶級分析智慧交通用戶:最大城市,交通領(lǐng)域(Citytraffic)場景:車牌記錄[CarLicencePlate],100億[10Billion]/年需求:小時級別->優(yōu)化到分鐘級[Minute]->未來優(yōu)化到秒級[Seconds]查詢場景:車輛異常快速識別VehicleAbnormal交通安全問題互聯(lián)網(wǎng)視頻集群接收日志超過2TB/天7000+任務/日任務數(shù)據(jù)吞吐20TB+/天,離線小時數(shù)據(jù)分析常規(guī)運營數(shù)據(jù)分析數(shù)據(jù)挖掘和用戶精分推薦系統(tǒng)用戶按地域收入年齡性別收入層次劃分廣告系統(tǒng)指數(shù)指數(shù)指數(shù)用電信息采集數(shù)據(jù)統(tǒng)計分析基于Hadoop+HBase的解決方案在數(shù)據(jù)完整率、終端通訊流量、低壓日電量等方面的統(tǒng)計分析總用時比現(xiàn)有基于OracleRAC的系統(tǒng)快6~20倍,查詢響應時間縮短了2個數(shù)量級,成本僅為原方案的1/5采集終端250萬,覆蓋用戶數(shù)1500萬采集頻率1/天—1/15分鐘電表數(shù)據(jù)單條超過5k總體計算時間超過7小時,計算任務的串行計算時間超過1370小時聯(lián)通用戶上網(wǎng)記錄查詢解決方案系統(tǒng)部署引入HBase集群:NameNode節(jié)點:3臺;DataNode(數(shù)據(jù)存儲節(jié)點):~200臺;Zookeeper節(jié)點:7臺;集群監(jiān)控節(jié)點:1臺;入庫服務節(jié)點:24臺;在網(wǎng)絡交換設(shè)備方面,通過機框間通過萬兆交換機連接,以完成快速的數(shù)據(jù)交換;將Hadoop框架帶入并支撐建設(shè),滿足高性能的數(shù)據(jù)導入和快速查詢。數(shù)據(jù)分析用戶手機訪問一次網(wǎng)頁,約會產(chǎn)生數(shù)十條,甚至數(shù)百條請求,意味著產(chǎn)生數(shù)十條和數(shù)百條上網(wǎng)記錄:訪問手機新浪網(wǎng)首頁,約產(chǎn)生20條記錄;訪問新浪iPad首頁,約產(chǎn)生40條記錄;在iPad中看一條新浪新聞,產(chǎn)生超過180條記錄;訪問淘寶觸摸屏版,約產(chǎn)生60條記錄;全國每日新增約10TB數(shù)據(jù),每月近萬億條記錄,存放6個月,約2PB;移動互聯(lián)網(wǎng)用戶快速增加,智能終端迅速普及、戶均流量顯著增長,上網(wǎng)記錄數(shù)據(jù)將進一步猛增。產(chǎn)生效益聯(lián)通各省市公司關(guān)于3G客戶數(shù)據(jù)流量問題爭議占3G業(yè)務投訴達由原來7~15%左右,下降至0.4~1%;用戶可快速、準確查詢上網(wǎng)記錄情況。銷售分析Loremipsumdolorsitamet,consecteturadipisicingelit.Aut,accusantiumillumautemadasperioresnisi.YourTextHere客戶投訴銷售技巧銷售分析活動反饋競爭對手客戶主要投訴哪些問題?如何杜絕騷擾客戶現(xiàn)象?客戶經(jīng)常提到哪些競爭對手?主要差距是哪些方面,例如產(chǎn)品、服務、價位、優(yōu)惠活動?哪種優(yōu)惠活動容易促使用戶的購買行為?什么樣的銷售話術(shù)成單率更高?銷售分析

普開大數(shù)據(jù)引領(lǐng)薪未來語音分析主要基于熱線以及電銷的通話數(shù)據(jù)雖然其本身也是大數(shù)據(jù),但稍顯“孤單”語音分析將被語音分析系統(tǒng)結(jié)構(gòu)化的語音數(shù)據(jù)作為“大數(shù)據(jù)”的重要來源結(jié)合多渠道客戶行為數(shù)據(jù)、客戶信息、知識庫、經(jīng)營數(shù)據(jù)等等企業(yè)能搜集到的所有數(shù)據(jù),匯聚成“大數(shù)據(jù)”采用超大規(guī)模分布式運算架構(gòu)、結(jié)合各種數(shù)據(jù)挖掘手段進行快速的分析挖掘大數(shù)據(jù)分析電銷中心客服中心電子渠道產(chǎn)品缺陷流程錯誤用戶喜好營銷效果多渠道用戶行為分析決策輔助數(shù)據(jù)報告客戶信息等專業(yè)人才混亂數(shù)據(jù)->價值,所有的決策“用數(shù)據(jù)說話”從語音分析走向“大數(shù)據(jù)”分析落地行業(yè)總結(jié)列表互聯(lián)網(wǎng)政府:交通、地質(zhì)、公安、智慧城市...通信:聯(lián)通、移動、電信金融:部分銀行和證券公司廣電、傳媒醫(yī)療建筑行業(yè)大數(shù)據(jù)技術(shù)大數(shù)據(jù)技術(shù)展現(xiàn)與交互報表、圖形、可視化工具、增強現(xiàn)實數(shù)據(jù)計算查詢、統(tǒng)計、分析、預測、挖掘、圖譜、BI數(shù)據(jù)存儲分布式文件系統(tǒng),分布式數(shù)據(jù)庫數(shù)據(jù)采集ETL工具,數(shù)據(jù)總線基礎(chǔ)架構(gòu)支持云計算平臺、云存儲、網(wǎng)絡、監(jiān)控等大數(shù)據(jù)處理平臺離線處理平臺Hadoop交互式處理平臺Spark,Swift流處理平臺S4,Storm大數(shù)據(jù)技術(shù)線路圖Mahout、Hive、Pig、R語言MapReduce、Storm、Impala、TezPresto、Spark、SparkStreamingHDFS、Hbase、CassadraFlume、Kafka、Scribe基于業(yè)務的6大類10個方向的數(shù)據(jù)分析項目實戰(zhàn)數(shù)據(jù)收集

數(shù)據(jù)存儲數(shù)據(jù)計算分析與挖掘ETL項目實戰(zhàn)Sqoop、DataXEcharts.jsD3.js、開源報表系統(tǒng)大數(shù)據(jù)技術(shù)線路圖只有Hadoop?只有Hadoop?只有Hadoop?大數(shù)據(jù)技術(shù)總結(jié)開源大數(shù)據(jù)生態(tài)圈商用大數(shù)據(jù)生態(tài)圈大數(shù)據(jù)技術(shù)總結(jié)開源大數(shù)據(jù)生態(tài)圈:1、Hadoop、HBase、Hive2、Hypertable曾經(jīng)有一些用戶3、NoSQL,membase、MongoDb大數(shù)據(jù)技術(shù)總結(jié)商用大數(shù)據(jù)生態(tài)圈:1、一體機數(shù)據(jù)庫/數(shù)據(jù)倉庫:IBMPureData(Netezza),OracleExadata,SAPHana2、數(shù)據(jù)倉庫:TeradataAsterData,EMCGreenPlum,HPVertica等等。3、數(shù)據(jù)集市:QlikView、Tableau、以及國內(nèi)的YonghongDataMartHadoop架構(gòu)的應用領(lǐng)域概覽電信醫(yī)療交通公安航空電力金融搜索社交游戲視頻民生核心什么是HadoopHadoop是Apache開源軟件基金會開發(fā)的運行于大規(guī)模普通服務器上的大數(shù)據(jù)存儲、計算、分析的分布式存儲系統(tǒng)和分布式運算框架Hadoop2.0由三個部分組成分布式文件系統(tǒng)HDFS資源分配系統(tǒng)Yarn分布式運算框架MapReduceHadoop這個單詞是什么意思?它是作者兒子的一個毛絨玩具小象的名字Hadoop,Why???數(shù)據(jù)太多了,需要能存儲、快速分析Pb級數(shù)據(jù)集的平臺??單機的存儲、IO、CPU有限,需要可擴展的集群??單點故障問題單點故障是正?,F(xiàn)象,但需要處理這種異常節(jié)點有增有減??需要好用的、可靠的基礎(chǔ)平臺來解決,最好是開源的傳統(tǒng)RDBMS處理大數(shù)據(jù)的局限性??容量–?100GB~100TB??速度??成本–?高端設(shè)備的價格超過線性增加比例–?軟件按年收取授權(quán)費或技術(shù)支持費??代碼復雜度–?分表、分庫–?跨庫之間的數(shù)據(jù)一致性??數(shù)據(jù)類型–?結(jié)構(gòu)化:表結(jié)構(gòu)預定義,每行的列都一樣–?強類型:對blob以及文件的處理,在時間和空間上效率都不高Google的貢獻TheGoogleFileSystem??作者:SanjayGhemawat,HowardGobioff,Shun-TakLeung??首次發(fā)表于2003年10月,紐約??第19屆ACMSymposiumonOperatingSystemsPrinciples??首個商用的超大型分布式文件系統(tǒng)??價值在于經(jīng)驗的分享,而不是架構(gòu)的先進——“這是可行的!”Google

MapReduce??作者:JeffreyDean,SanjayGhemawat??首次發(fā)表于2004年12月,舊金山??第6屆USENIXOperatingSystemsDesignandImplementation??基于GFS??汲取了函數(shù)式編程的設(shè)計思想??把計算移動到數(shù)據(jù)GoogleBigTable??作者:FayChang,JeffreyDean,Sanjay

Ghemawat,WilsonC.Hsieh,DeborahA.

Wallach,MikeBurrows,TusharChandra,

AndrewFikes,andRobertE.Gruber??首次發(fā)表于2006年11月,西雅圖??第7屆USENIXOperatingSystemsDesignand

Implementation??同樣基于GFS??同樣是告訴大家——“這是可行的!”Google論文與Apache項目Hadoop對企業(yè)的意義可以利用低成本來有效的縮短數(shù)據(jù)的處理時間在大數(shù)據(jù)中發(fā)掘商業(yè)價值利用Hadoop的分布式運行框架可以迅速的搭建起自己的分布式運算系統(tǒng)利用Hadoop的分布式文件系統(tǒng),可以快速搭建自己的分布式存儲服務??Hadoop對企業(yè)的意義Hadoop

的企業(yè)定位音頻視頻文檔文本XML網(wǎng)站日志點擊數(shù)據(jù)社交網(wǎng)絡關(guān)聯(lián)數(shù)據(jù)傳感器嵌入式設(shè)備地理信息GPS定位數(shù)據(jù)分析數(shù)據(jù)檢索數(shù)據(jù)展現(xiàn)數(shù)據(jù)分享

Hadoop具體應用??具體應用

–?Facebookmessage系統(tǒng)(HBase)

–?T

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論