大數(shù)據(jù)技術(shù)體系及人才需求課件_第1頁
大數(shù)據(jù)技術(shù)體系及人才需求課件_第2頁
大數(shù)據(jù)技術(shù)體系及人才需求課件_第3頁
大數(shù)據(jù)技術(shù)體系及人才需求課件_第4頁
大數(shù)據(jù)技術(shù)體系及人才需求課件_第5頁
已閱讀5頁,還剩18頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)技術(shù)體系及人才需求主講:劉軍輝-大數(shù)據(jù)技術(shù)體系及人才需求主講:劉軍輝-經(jīng)李克強總理簽批,2015年9月,國務(wù)院印發(fā)《促進大數(shù)據(jù)發(fā)展行動綱要》系統(tǒng)部署大數(shù)據(jù)發(fā)展工作?!毒V要》部署三方面主要任務(wù):一要加快政府?dāng)?shù)據(jù)開放共享,推動資源整合,提升治理能力。二要推動產(chǎn)業(yè)創(chuàng)新發(fā)展,培育新興業(yè)態(tài),助力經(jīng)濟轉(zhuǎn)型。三要強化安全保障,提高管理水平,促進健康發(fā)展。大數(shù)據(jù)國家戰(zhàn)略-經(jīng)李克強總理簽批,2015年9月,國務(wù)院印發(fā)《促進大數(shù)據(jù)發(fā)展1.政府?dāng)?shù)據(jù)將成為地方政府最重要的資產(chǎn)。2.大數(shù)據(jù)四要素是預(yù)警、預(yù)測、決策、智能。3.中國大數(shù)據(jù)70%的需求集中在政府和金融應(yīng)用。4.大數(shù)據(jù)產(chǎn)業(yè)與傳統(tǒng)產(chǎn)業(yè)深度融合。5.數(shù)據(jù)源服務(wù)商構(gòu)建大數(shù)據(jù)生態(tài)圈。6.大數(shù)據(jù)智能會逐步取代搜索引擎。大數(shù)據(jù)行業(yè)趨勢-1.政府?dāng)?shù)據(jù)將成為地方政府最重要的資產(chǎn)。大數(shù)據(jù)行業(yè)趨勢-1.物聯(lián)網(wǎng):為大數(shù)據(jù)分析提供數(shù)據(jù)源2.云計算:為大數(shù)據(jù)分析提供計算平臺3.虛擬現(xiàn)實:為大數(shù)據(jù)分析提供應(yīng)用場景5.人工智能:模型訓(xùn)練需要依賴大量數(shù)據(jù)大數(shù)據(jù)與其他技術(shù)的關(guān)系-1.物聯(lián)網(wǎng):為大數(shù)據(jù)分析提供數(shù)據(jù)源大數(shù)據(jù)與其他技術(shù)的關(guān)系-1.趨勢分析2.行為分析3.關(guān)系分析4.異常檢測大數(shù)據(jù)應(yīng)用場景-1.趨勢分析大數(shù)據(jù)應(yīng)用場景-一、醫(yī)療大數(shù)據(jù)看病更高效二、生物大數(shù)據(jù)改良基因三、金融大數(shù)據(jù)理財利器四、零售大數(shù)據(jù)最懂消費者五、電商大數(shù)據(jù)精準(zhǔn)營銷法寶六、農(nóng)牧大數(shù)據(jù)量化生產(chǎn)七、交通大數(shù)據(jù)暢通出行八、教育大數(shù)據(jù)因材施教九、輿情監(jiān)控大數(shù)據(jù)名探柯南十、環(huán)保大數(shù)據(jù)對抗PM2.5大數(shù)據(jù)行業(yè)應(yīng)用-一、醫(yī)療大數(shù)據(jù)看病更高效大數(shù)據(jù)行業(yè)應(yīng)用-1.數(shù)據(jù)科學(xué)家2.大數(shù)據(jù)算法工程師3.數(shù)據(jù)規(guī)劃師4.數(shù)據(jù)分析師5.大數(shù)據(jù)系統(tǒng)架構(gòu)師6.大數(shù)據(jù)開發(fā)工程師7.大數(shù)據(jù)運維工程師大數(shù)據(jù)崗位需求-1.數(shù)據(jù)科學(xué)家大數(shù)據(jù)崗位需求-

一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價值密度低四大特征。大數(shù)據(jù)的5V特點:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價值密度)、Veracity(真實性)。什么是大數(shù)據(jù)?-一種規(guī)模大到在獲取、存儲、管理、分析方面大大超大數(shù)據(jù)處理之一:采集數(shù)據(jù)大數(shù)據(jù)處理之二:導(dǎo)入數(shù)據(jù)并進行預(yù)處理大數(shù)據(jù)處理之三:進行統(tǒng)計與分析大數(shù)據(jù)處理之四:對數(shù)據(jù)進行挖掘大數(shù)據(jù)處理之五:可視化分析結(jié)果大數(shù)據(jù)分析過程-大數(shù)據(jù)處理之一:采集數(shù)據(jù)大數(shù)據(jù)分析過程---HDFS:分布式文件系統(tǒng),解決大數(shù)據(jù)存儲問題。MapReduce:分布式計算框架,解決大數(shù)據(jù)計算問題。HBase:列存儲數(shù)據(jù)庫,解決數(shù)據(jù)檢索問題。Hive:數(shù)據(jù)倉庫工具,解決數(shù)據(jù)挖掘問題。Hadoop技術(shù)體系-HDFS:分布式文件系統(tǒng),解決大數(shù)據(jù)存儲問題。Hadoop技SparkCore:包括任務(wù)調(diào)度、內(nèi)存管理、錯誤恢復(fù)、與存儲系統(tǒng)交互,RDD的API定義。SparkSQL:用來操作結(jié)構(gòu)化數(shù)據(jù)。SparkStreaming:用來操作實時的流數(shù)據(jù)。Mllib:提供機器學(xué)習(xí)算法庫。GraphX:用來操作圖形,可以進行并行圖計算。Spark技術(shù)體系-SparkCore:包括任務(wù)調(diào)度、內(nèi)存管理、錯誤恢復(fù)、與更快的速度:內(nèi)存計算下,Spark比Hadoop快100倍。易用性:Spark提供了80多個高級運算符。通用性:Spark提供了大量的庫,包括SQL、DataFrames、MLlib、GraphX、SparkStreaming。多語言:Spark支持Scala、python、java、R等多種開發(fā)語言。多集群:Spark支持HadoopYARN,ApacheMesos,及其自帶的獨立集群管理器SparkVSHadoop-更快的速度:內(nèi)存計算下,Spark比Hadoop快10map:返回一個新的分布式數(shù)據(jù)集,由每個原元素經(jīng)過func函數(shù)轉(zhuǎn)換后組成filter:返回一個新的數(shù)據(jù)集,由經(jīng)過func函數(shù)后返回值為true的原元素組成

flatMap:類似于map,但是每一個輸入元素,會被映射為0到多個輸出元素sample(withReplacement,frac,seed):根據(jù)給定的隨機種子seed,隨機抽樣出數(shù)量為frac的數(shù)據(jù)union:返回一個新的數(shù)據(jù)集,由原數(shù)據(jù)集和參數(shù)聯(lián)合而成groupByKey:在一個由(K,V)對組成的數(shù)據(jù)集上調(diào)用,返回一個(K,Seq[V])對的數(shù)據(jù)集。reduceByKey:在一個(K,V)對的數(shù)據(jù)集上使用,返回一個(K,V)對的數(shù)據(jù)集,Join:在類型為(K,V)和(K,W)類型的數(shù)據(jù)集上調(diào)用,返回一個(K,(V,W))對,每個key中的所有元素都在一起的數(shù)據(jù)集groupWith:在類型為(K,V)和(K,W)類型的數(shù)據(jù)集上調(diào)用,返回一個數(shù)據(jù)集。cartesian:笛卡爾積。但在數(shù)據(jù)集T和U上調(diào)用時,返回一個(T,U)對的數(shù)據(jù)集,所有元素交互進行笛卡爾積。RDD轉(zhuǎn)化操作-map:返回一個新的分布式數(shù)據(jù)集,由每個原元素經(jīng)過funcreduce(func):通過函數(shù)func先聚集各分區(qū)的數(shù)據(jù)集,再聚集分區(qū)之間的數(shù)據(jù),func接收兩個參數(shù),返回一個新值,新值再做為參數(shù)繼續(xù)傳遞給函數(shù)func,直到最后一個元素collect():以數(shù)據(jù)的形式返回數(shù)據(jù)集中的所有元素給Driver程序,為防止Driver程序內(nèi)存溢出,一般要控制返回的數(shù)據(jù)集大小count():返回數(shù)據(jù)集元素個數(shù)first():返回數(shù)據(jù)集的第一個元素take(n):以數(shù)組的形式返回數(shù)據(jù)集上的前n個元素top(n):按默認(rèn)或者指定的排序規(guī)則返回前n個元素,默認(rèn)按降序輸出takeOrdered(n,[ordering]):

按自然順序或者指定的排序規(guī)則返回前n個元素RDD行動操作-reduce(func):通過函數(shù)func先聚集各分區(qū)的數(shù)據(jù)MLlib是Spark的可以擴展的機器學(xué)習(xí)庫,由以下部分組成:通用的學(xué)習(xí)算法和工具類,包括分類,回歸,聚類,協(xié)同過濾,降維等。使用Mllib的步驟:1.用字符串RDD表示信息。2.運行特征提取算法,返回向量RDD。3.對向量RDD調(diào)用分類算法。4.使用評函數(shù)在測試集上評估模型。Mllib算法庫-MLlib是Spark的可以擴展的機器學(xué)習(xí)庫,由以下部分組summarystatistics概括統(tǒng)計correlations相關(guān)性stratifiedsampling分層取樣hypothesistesting假設(shè)檢驗randomdatageneration隨機數(shù)生成基本統(tǒng)計-summarystatistics概括統(tǒng)計基本統(tǒng)計-主要用來從數(shù)據(jù)中提取特征TF-IDF:詞頻—逆文檔頻率HashintDF:從一個文檔中計算出給定大小的詞頻向量。

特征提取-主要用來從數(shù)據(jù)中提取特征特征提取-分類回歸的應(yīng)用是根據(jù)對象的特征預(yù)測結(jié)果linearmodels線性模型(支持向量機,邏輯回歸,線性回歸)naiveBayes

貝葉斯算法decisiontrees

決策樹ensemblesoftrees

(RandomForestsandGradient-BoostedTrees)多種樹(隨機森林和梯度增強樹)分類回歸-分類回歸的應(yīng)用是根據(jù)對象的特征預(yù)測結(jié)果分類回歸-聚類主要用于數(shù)據(jù)探索和異常檢測Clustering

聚類k-meansk均值算法聚類

-聚類主要用于數(shù)據(jù)探索和異常檢測聚類

-協(xié)同過濾是一種根據(jù)用戶對各種產(chǎn)品的交互與評分來推薦系統(tǒng)的技術(shù)alternatingleastsquares(ALS)

(交替最小二乘法(ALS))協(xié)同過濾與推薦-協(xié)同過濾是一種根據(jù)用戶對各種產(chǎn)品的交互與評分來推薦系統(tǒng)的技術(shù)減少特征的數(shù)量使模型訓(xùn)練更加高效,忽略一些無用的維度。singularvaluedecomposition(SVD)

奇異值分解principalcomponentanalysis(PCA)

主成分分析降維-減少特征的數(shù)量使模型訓(xùn)練更加高效,忽略一些無用的維度。降維1.熟悉數(shù)據(jù)分析的工作過

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論