阿里云機器學(xué)習(xí)平臺編程模型演進之路_第1頁
阿里云機器學(xué)習(xí)平臺編程模型演進之路_第2頁
阿里云機器學(xué)習(xí)平臺編程模型演進之路_第3頁
阿里云機器學(xué)習(xí)平臺編程模型演進之路_第4頁
阿里云機器學(xué)習(xí)平臺編程模型演進之路_第5頁
已閱讀5頁,還剩14頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、阿里云機器學(xué)習(xí)平臺編程模型演進之路阿里云云棲社區(qū)主辦機器學(xué)習(xí)在阿里的應(yīng)用阿里是一家數(shù)據(jù)公司阿里的各項業(yè)務(wù)都嚴重依賴機器學(xué)習(xí)搜索個性化推薦精準(zhǔn)廣告風(fēng)控智能客服物流阿里云云棲社區(qū)主辦阿里云機器學(xué)習(xí)平臺PAI阿里集團的統(tǒng)一機器學(xué)習(xí)平臺致力于建設(shè)一站式的數(shù)據(jù)挖掘建模平臺數(shù)據(jù)清洗特征處理模型訓(xùn)練模型生命周期管理在線預(yù)測阿里云云棲社區(qū)主辦阿里云機器學(xué)習(xí)平臺PAI致力于提供先進計算框架,通過技術(shù)推動商業(yè)的發(fā)展MapReduceMPIParameter ServerDeep Learning Framework阿里云云棲社區(qū)主辦編程模型演進 - MapReduce編程模型核心:分而治之抽象出兩個操作:Map

2、& Reduce框架層面解決分布式難題計算任務(wù)的劃分和調(diào)度數(shù)據(jù)的分布式存儲和劃分計算任務(wù)的同步計算節(jié)點的容錯與恢復(fù)MapMapMapReduceReduce輸入輸出編程模型演進 - MapReduce編程模型TF-IDF(term frequencyinverse document frequency)評價某一單詞對于某篇文檔的重 要性。TF = COUNT(Word, Document) / SIZE(Document)IDF = log(N / docs(Word, Document)MapperReducerLoop Each Docword_in_doc+doc_has_word+Ca

3、lculte the IF/IDFword_in_doc/ total_worlds_of_docLog(N/ doc_has_word)TF*IDFwords_doc+阿里云云棲社區(qū)主辦編程模型演進 - MapReduce編程模型不同計算任務(wù)之間獨立,數(shù)據(jù)并行度高。適合不需要不同節(jié)點通信的機器學(xué)習(xí)算法阿里云云棲社區(qū)主辦編程模型演進 MPI編程模型消息傳遞接口(Message Passing Interface)SendReceiveBcastAllReduce支持單機多Instance和多機多Instance高度靈活,描述能力強大量用于科學(xué)計算阿里云云棲社區(qū)主辦編程模型演進 PAI MPI支

4、持兩個版本的MPI版本MPICH (CPU)OpenMPI (GPU)分布式調(diào)度,無需事先指定資源支持本地調(diào)試,線上執(zhí)行阿里云云棲社區(qū)主辦基于PAI MPI實現(xiàn)的算法:邏輯回歸常用的分類算法該商品是否會被用戶點擊該名用戶是男還是女模型函數(shù)損失函數(shù)梯度下降阿里云云棲社區(qū)主辦基于PAI MPI實現(xiàn)的邏輯回歸Each Iteration加載訓(xùn)練數(shù)據(jù)本地加和Each Iteration計算梯度Each Iteration加載訓(xùn)練數(shù)據(jù)本地加和計算梯度加載訓(xùn)練數(shù)據(jù)本地加和計算梯度worker_1worker_nworker_0AllReduce編程模型演進 PAI Parameter Server獨立自研

5、設(shè)計實現(xiàn)集團內(nèi)大規(guī)模使用框架特點:支持上百億超大規(guī)模特征多種數(shù)據(jù)切分方式模型分片高速通信框架優(yōu)化內(nèi)存使用支持節(jié)點容錯阿里云云棲社區(qū)主辦新的挑戰(zhàn):Deep Learning深度學(xué)習(xí)更深的人工神經(jīng)網(wǎng)絡(luò)更多的參數(shù),更龐大的模型更高量級的通信量更靈活的表示模型Alexnet8層網(wǎng)絡(luò)結(jié)構(gòu)6000萬個參數(shù)阿里云云棲社區(qū)主辦TensorFlow谷歌第二代深度學(xué)習(xí)框架支持各種神經(jīng)網(wǎng)絡(luò)高度的靈活性豐富的社區(qū)生態(tài)支持CNN、RNN、LSTM等網(wǎng)絡(luò)阿里云云棲社區(qū)主辦一個簡單的TensorFlow例子阿里云云棲社區(qū)主辦一個簡單的TensorFlow例子(2)阿里云云棲社區(qū)主辦流行的深度學(xué)習(xí)框架網(wǎng)絡(luò)通過有向無環(huán)圖定義對于CNN網(wǎng)絡(luò)支持的更好大量用于圖像識別多機多卡版Caffe完全兼容Caffe語法基于OpenMPI通信框架 線性加速比多數(shù)據(jù)源支持PAI Pluto (多機多卡Caffe)Caffe:Pluto特性:阿里云云棲社區(qū)主辦機器學(xué)習(xí)即服務(wù)加權(quán)采樣隨機采樣分層采樣過濾和映射拆分歸一化標(biāo)準(zhǔn)化。數(shù)據(jù)清洗主成分分析特征分散偏好計算特征尺度變換窗口變量統(tǒng) 計。特征工程分類算法聚類算法回歸算法文本分析時

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論