大數(shù)據(jù)分析實用教程-基于Python實現(xiàn)課件11大數(shù)據(jù)概述_第1頁
大數(shù)據(jù)分析實用教程-基于Python實現(xiàn)課件11大數(shù)據(jù)概述_第2頁
大數(shù)據(jù)分析實用教程-基于Python實現(xiàn)課件11大數(shù)據(jù)概述_第3頁
大數(shù)據(jù)分析實用教程-基于Python實現(xiàn)課件11大數(shù)據(jù)概述_第4頁
大數(shù)據(jù)分析實用教程-基于Python實現(xiàn)課件11大數(shù)據(jù)概述_第5頁
已閱讀5頁,還剩26頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、云計算與大數(shù)據(jù)處理原理唐四薪云計算與大數(shù)據(jù)處理原理唐四薪課程介紹課程名:云計算與大數(shù)據(jù)處理原理學(xué)時:48學(xué)時(講授32學(xué)時+上機16學(xué)時)課程性質(zhì):必修考試:閉卷 ,第20周課程介紹課程名:云計算與大數(shù)據(jù)處理原理國家戰(zhàn)略規(guī)劃:深化大數(shù)據(jù)、人工智能等研發(fā)應(yīng)用,培育新一代信息技術(shù)、高端裝備、生物醫(yī)藥、新能源汽車、新材料等新興產(chǎn)業(yè)集群,壯大數(shù)字經(jīng)濟。摘自國務(wù)院2019年政府工作報告 為什么要學(xué)習(xí)大數(shù)據(jù)技術(shù)國家戰(zhàn)略規(guī)劃:深化大數(shù)據(jù)、人工智能等研發(fā)應(yīng)用,培育新一代信息為什么要學(xué)習(xí)大數(shù)據(jù)技術(shù)2017年:教育部批準100多所高校同時增設(shè) 數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)數(shù)據(jù)科學(xué):科學(xué)研究的第四范式實驗理論計算機模擬

2、數(shù)據(jù)為什么要學(xué)習(xí)大數(shù)據(jù)技術(shù)2017年:教育部批準100多所高校同第一章:大數(shù)據(jù)簡介主講教師:唐四薪大數(shù)據(jù)分析實用教程基于Python實現(xiàn)第一章:大數(shù)據(jù)簡介主講教師:唐四薪大數(shù)據(jù)分析實用教程基于目錄1.1大數(shù)據(jù)的來源1.2大數(shù)據(jù)的定義1.3大數(shù)據(jù)的特點1.4大數(shù)據(jù)處理的過程第一章 大數(shù)據(jù)概述目錄1.1大數(shù)據(jù)的來源1.2大數(shù)據(jù)的定義1.3大數(shù)據(jù)的特點1什么是大數(shù)據(jù)什么是大數(shù)據(jù)(Big Data)數(shù)據(jù)基本知識大數(shù)據(jù)定義用4V描述大數(shù)據(jù)特征大數(shù)據(jù)是任何超過了一臺計算機處理能力的數(shù)據(jù)量亞馬遜的定義GBTBPBEBZB相對量大數(shù)據(jù)就是數(shù)據(jù)量大到無法用一臺計算機處理和存儲的數(shù)據(jù)什么是什么是大數(shù)據(jù)(Big D

3、ata)數(shù)據(jù)基本知識大數(shù)據(jù)定義1.1大數(shù)據(jù)的來源搜索引擎數(shù)據(jù)1電商交易數(shù)據(jù)2社交網(wǎng)絡(luò)數(shù)據(jù)3物聯(lián)網(wǎng)傳感器數(shù)據(jù)4網(wǎng)站日志數(shù)據(jù)5傳統(tǒng)互聯(lián)網(wǎng)移動互聯(lián)網(wǎng)物聯(lián)網(wǎng)1.1大數(shù)據(jù)的來源搜索引擎數(shù)據(jù)1電商交易數(shù)據(jù)2社交網(wǎng)絡(luò)數(shù)據(jù)31. 搜索引擎數(shù)據(jù) 搜索引擎是大家最為熟悉的大數(shù)據(jù)系統(tǒng),百度在簡潔的用戶界面下面隱藏著世界上最大規(guī)模的大數(shù)據(jù)系統(tǒng)。百度每天的搜索次數(shù) 50億次1. 搜索引擎數(shù)據(jù) 搜索引擎是大家最為熟悉的大數(shù)據(jù)系統(tǒng)百度熱門搜索搜索引擎大數(shù)據(jù)的應(yīng)用Top K問題百度熱門搜索搜索引擎大數(shù)據(jù)的應(yīng)用Top K問題2. 電商交易數(shù)據(jù)淘寶、京東等電商平臺每天會產(chǎn)生大量交易數(shù)據(jù)電商大數(shù)據(jù)的應(yīng)用交叉銷售、商品推薦商品比價2

4、. 電商交易數(shù)據(jù)淘寶、京東等電商平臺每天會產(chǎn)生大量交易數(shù)據(jù)百度遷徙 百度遷徙是2014年百度利用其位置服務(wù)(Location Based Service ,LBS)所獲得的數(shù)據(jù),將人們在春節(jié)期間位置移動情況用可視化的方法顯示在屏幕上如圖所示。3. 物聯(lián)網(wǎng)、傳感器數(shù)據(jù)物聯(lián)網(wǎng)設(shè)備(無線傳感器、RFID)會產(chǎn)生大量數(shù)據(jù),如GPS位置數(shù)據(jù)、溫度數(shù)據(jù)等。百度遷徙 百度遷徙是2014年百度利用其位置服務(wù)4. 社交網(wǎng)絡(luò)數(shù)據(jù)社交網(wǎng)絡(luò):QQ、微信、抖音、微博Facebook 、MSN社交網(wǎng)絡(luò)來源:移動設(shè)備、電腦社交網(wǎng)絡(luò)大數(shù)據(jù)的應(yīng)用:好友推薦、節(jié)目推薦等4. 社交網(wǎng)絡(luò)數(shù)據(jù)社交網(wǎng)絡(luò):5. 網(wǎng)站日志數(shù)據(jù)大型網(wǎng)站的日志

5、文件每天會記錄大量的訪問數(shù)據(jù)網(wǎng)站日志大數(shù)據(jù)的應(yīng)用計數(shù)統(tǒng)計:如PV(Page View),每個頁面訪問次數(shù)去重統(tǒng)計:比如獨立 IP 數(shù),獨立用戶數(shù)等Top N統(tǒng)計:比如某天檢索量最大的關(guān)鍵詞日志文件實時收集框架Flume5. 網(wǎng)站日志數(shù)據(jù)大型網(wǎng)站的日志文件每天會記錄大量的訪問數(shù)據(jù)6. 行業(yè)大數(shù)據(jù)行業(yè)大數(shù)據(jù):金融、醫(yī)療、保險、交通、氣象、制造、基因分析6. 行業(yè)大數(shù)據(jù)行業(yè)大數(shù)據(jù):金融、醫(yī)療、保險、交通、氣象、制什么是大數(shù)據(jù)數(shù)據(jù)基本知識大數(shù)據(jù)定義用4V描述大數(shù)據(jù)特征大數(shù)據(jù)的來源傳統(tǒng)互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)計算機、移動終端設(shè)備、傳感器什么是數(shù)據(jù)基本知識大數(shù)據(jù)定義用4V描述大數(shù)據(jù)特征大數(shù)據(jù)的來源麥肯錫

6、的定義:大數(shù)據(jù)指的是大小超出常規(guī)的數(shù)據(jù)庫工具獲取、存儲、管理和分析能力的數(shù)據(jù)集。維基百科的定義:大數(shù)據(jù)是指利用常用軟件工具來獲取、管理和處理數(shù)據(jù)所耗時間超過可容忍時間的數(shù)據(jù)集。Gartner的定義:大數(shù)據(jù)是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。1.1.1 大數(shù)據(jù)的定義麥肯錫的定義:大數(shù)據(jù)指的是大小超出常規(guī)的數(shù)據(jù)庫工具獲取、存儲什么是大數(shù)據(jù)數(shù)據(jù)基本知識大數(shù)據(jù)定義用4V描述大數(shù)據(jù)特征1。大數(shù)據(jù)的5個特征數(shù)據(jù)體量巨大(Volume)數(shù)據(jù)類型繁多(Variety)價值密度低 (value)處理速度快(Velocity)大數(shù)據(jù)從TB級別躍升到PB

7、級別;數(shù)據(jù)體量巨大。網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等等價值密度低,商業(yè)價值高。1.1.2大數(shù)據(jù)的特點數(shù)據(jù)應(yīng)具有真實性(Veracity)什么是數(shù)據(jù)基本知識大數(shù)據(jù)定義用4V描述大數(shù)據(jù)特征1。大數(shù)據(jù)的1. 數(shù)據(jù)體量巨大(Volume) 數(shù)據(jù)量巨大:數(shù)據(jù)體量巨大是大數(shù)據(jù)的顯著特征,其數(shù)據(jù)量目前為PB級或ZB級增量大:數(shù)據(jù)的產(chǎn)生非??欤刻於荚谏删蘖康臄?shù)據(jù)1. 數(shù)據(jù)體量巨大(Volume) 數(shù)據(jù)量巨大:數(shù)據(jù)體量巨大2. Variety 數(shù)據(jù)的來源多樣:搜索引擎、社交網(wǎng)絡(luò)、電商數(shù)據(jù)、物聯(lián)網(wǎng)傳感器數(shù)據(jù)的種類多樣:結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)2. Variety 數(shù)據(jù)的來源多樣:搜索引擎、社

8、交網(wǎng)絡(luò)、電數(shù)據(jù)的種類結(jié)構(gòu)化數(shù)據(jù):關(guān)系型數(shù)據(jù)庫中的二維表半結(jié)構(gòu)化數(shù)據(jù):HTML、XML、JSON、日志文件非結(jié)構(gòu)化數(shù)據(jù):文檔類型數(shù)據(jù)、網(wǎng)頁、社交網(wǎng)絡(luò)數(shù)據(jù)、多媒體數(shù)據(jù)等。數(shù)據(jù)的種類結(jié)構(gòu)化數(shù)據(jù):關(guān)系型數(shù)據(jù)庫中的二維表結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù):基于關(guān)系型數(shù)據(jù)庫的數(shù)據(jù),例:學(xué)號姓名班級號課程號成績201601001張明160103100290201601002李四160205402195結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù):基于關(guān)系型數(shù)據(jù)庫的數(shù)據(jù),例:學(xué)號姓名班半結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)就是介于完全結(jié)構(gòu)化數(shù)據(jù)和完全無結(jié)構(gòu)化的數(shù)據(jù)之間的數(shù)據(jù)。生活中我們常見的半結(jié)構(gòu)化數(shù)據(jù)XML文檔Json文檔日志文件,如點擊流(Click-st

9、ream Data)XML文檔Json文檔半結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)就是介于完全結(jié)構(gòu)化數(shù)據(jù)和完全無結(jié)構(gòu)化非結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)是指純文本類數(shù)據(jù),沒有標(biāo)準格式,無法直接解析出相應(yīng)的值。此類數(shù)據(jù)不易收集和管理,且難以直接查詢和分析。常見的非結(jié)構(gòu)化數(shù)據(jù)文本文件:文字處理、電子表格、演示文稿即時消息(如QQ 、微博、微信中消息)富文本文檔(Rich Text Format , RTF)媒體:MP3、數(shù)碼照片、音頻文件、視頻文件。網(wǎng)頁文件。常見的非結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)是指純文本類數(shù)據(jù),沒有標(biāo)準格式,無法3. Velocity處理速度快:快速增長的數(shù)據(jù)量要求數(shù)據(jù)處理的速度也要相應(yīng)地提升數(shù)據(jù)的

10、價值會隨著時間而迅速降低:利用數(shù)據(jù)進行決策必須要能夠快速分析數(shù)據(jù)要求實時分析,如:內(nèi)存數(shù)據(jù)庫技術(shù)Redis3. Velocity處理速度快:快速增長的數(shù)據(jù)量要求數(shù)據(jù)處4. Value價值密度低,商業(yè)價值高以超市購物小票數(shù)據(jù)為例,單張小票幾乎沒用,但把大量的小票集合在一起,能發(fā)現(xiàn)商品的銷售關(guān)聯(lián)性4. Value價值密度低,商業(yè)價值高5. Veracity數(shù)據(jù)應(yīng)具有真實性(veracity):數(shù)據(jù)的重要性在于對決策的支持,數(shù)據(jù)的規(guī)模并不能決定其能否為決策提供幫助,數(shù)據(jù)的真實性和質(zhì)量才是獲得真知的最重要因素。在數(shù)據(jù)分析時應(yīng)進行數(shù)據(jù)清理,過濾掉垃圾數(shù)據(jù)。5. Veracity數(shù)據(jù)應(yīng)具有真實性(vera

11、city):1.1.4大數(shù)據(jù)處理的過程大數(shù)據(jù)從數(shù)據(jù)源經(jīng)過分析挖掘到最終獲得價值一般需要經(jīng)過4個階段。大數(shù)據(jù)處理流程圖數(shù)據(jù)采集數(shù)據(jù)預(yù)處理數(shù)據(jù)存儲分析和挖掘網(wǎng)絡(luò)爬蟲日志采集傳感器RFID射頻技術(shù)數(shù)據(jù)抽取數(shù)據(jù)清洗特征選擇數(shù)據(jù)標(biāo)準化HDFSNoSQLRDBMS等方法數(shù)據(jù)分析數(shù)據(jù)挖掘機器學(xué)習(xí)統(tǒng)計學(xué)等方法1.1.4大數(shù)據(jù)處理的過程大數(shù)據(jù)從數(shù)據(jù)源經(jīng)過分析挖掘到最終大數(shù)據(jù)技術(shù)的內(nèi)容大數(shù)據(jù)平臺的部署和運維 (Hadoop安裝和使用)大數(shù)據(jù)編程 (MapReduce并行編程框架)大數(shù)據(jù)分析 (數(shù)據(jù)挖掘、統(tǒng)計學(xué)方法)大數(shù)據(jù)技術(shù)的內(nèi)容大數(shù)據(jù)專業(yè)對應(yīng)的典型工作崗位大數(shù)據(jù)專業(yè)對應(yīng)的典型工作崗位大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)的對比傳統(tǒng)數(shù)據(jù)大數(shù)據(jù)數(shù)據(jù)規(guī)模規(guī)模小,以MB、GB為處理單位規(guī)模大,以TB、PB為處理單位數(shù)據(jù)生成速率每小時,每天更加迅速數(shù)據(jù)結(jié)構(gòu)類型單一的結(jié)構(gòu)化數(shù)據(jù)多樣化數(shù)據(jù)源集中的數(shù)據(jù)源分散的數(shù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論