阿里開放數(shù)據(jù)處理服務ODPS介紹_第1頁
阿里開放數(shù)據(jù)處理服務ODPS介紹_第2頁
阿里開放數(shù)據(jù)處理服務ODPS介紹_第3頁
阿里開放數(shù)據(jù)處理服務ODPS介紹_第4頁
阿里開放數(shù)據(jù)處理服務ODPS介紹_第5頁
已閱讀5頁,還剩20頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、阿里開放數(shù)據(jù)處理服務ODPS介紹提綱背景與概況服務架構(gòu)關鍵技術服務管理結(jié)語2背景-業(yè)務場景3海量數(shù)據(jù)處理和分享需求交易數(shù)據(jù)、日志數(shù)據(jù)語音、圖像數(shù)據(jù)數(shù)據(jù)的交換和融合典型數(shù)據(jù)業(yè)務信用貸款廣告CTR背景-技術需求4計算能力水平擴展豐富的處理手段服務化安全機制可運維、可管理穩(wěn)定性提綱背景與概況服務架構(gòu)接入層邏輯層存儲與計算層關鍵技術服務管理結(jié)語5服務架構(gòu)-整體架構(gòu)6LVS負載均衡LVS數(shù)據(jù)通道數(shù)據(jù)操作賬戶中心控制集群控制集群元數(shù)據(jù)計算集群計算集群接入層邏輯層計算存儲層服務架構(gòu)-接入層架構(gòu)7HTTP服務數(shù)據(jù)上傳/下載服務SDKConsole客戶端用戶 中心在云端(Web IDE)其他工具接入層邏輯層8服

2、務架構(gòu)-接入層功能設計用戶認證RESTful API無狀態(tài)、水平擴展資源實體ProjectTable/Partition,數(shù)據(jù)集合UDF/Resource,文件,jar包,py腳本Job/Instance,抽象可執(zhí)行實體和運行實例User/Role,用于管理用戶對Project內(nèi)實體的訪問控制和授權(quán)服務架構(gòu)-邏輯層功能用戶權(quán)限管理多個任務執(zhí)行時序的控制單個任務內(nèi)部邏輯實現(xiàn) 簡單操作的執(zhí)行生成飛天作業(yè)計算集群的管理服務架構(gòu)-邏輯層架構(gòu)10meta服務接入層邏輯層飛天集群 A飛天集群 B存儲與計算層Worker 1Worker mExecutor 1SchedulerExecutor nProje

3、ct 1服務 A (控制集群A)Project 2服務B(控制集群B) 分布式服務架構(gòu)-邏輯層分析11Worker/Executor線性可擴展,負載均衡,無狀態(tài)Scheduler只維護一組運行實例雙ODPS服務灰度發(fā)布,不停服務輪轉(zhuǎn)升級,failover分布式meta服務使用阿里云OTS分布式存儲系統(tǒng),無需擔心空間不夠統(tǒng)一名稱空間,雙服務和多飛天集群對用戶透明服務架構(gòu)-存儲計算層12多個飛天集群組成支持跨集群(機房)數(shù)據(jù)共享存儲使用盤古分布式文件系統(tǒng)Master-Slave結(jié)構(gòu)基于Paxos的多Master,故障恢復小于一分鐘文件分塊(Chunk),每塊存三份,分布在不同機架表數(shù)據(jù)采用統(tǒng)一文件

4、格式:CFile,基于列存儲的壓縮文件格式提供數(shù)據(jù)上傳和下載服務,支持PB/天的吞吐量計算支持多種計算模式:SQL,MR,算法庫,圖計算(Pregel)采用伏羲作業(yè),支持DAG,支持基于CPU/MEM的資源調(diào)度提綱背景與概況服務架構(gòu)關鍵技術分布式問題多集群方案編程模型服務管理結(jié)語13關鍵技術分布式問題機器當機各個角色都會當機,包括同時當機。底層系統(tǒng)不穩(wěn)定依賴的底層系統(tǒng)性能、功能會出現(xiàn)不穩(wěn)定。時序問題交互過程網(wǎng)絡抖動引起的時序混亂。規(guī)模問題大規(guī)模導致的性能瓶頸。版本升級不同版本的需求和熱升級。關鍵技術多集群方案(1)15要解決的問題業(yè)務快速增長,單集群擴容受機房容量、飛天規(guī)模限制技術難點數(shù)據(jù)存儲

5、和計算如何劃分數(shù)據(jù)動態(tài)變化,需要保證數(shù)據(jù)讀取正確性跨機房帶寬如何使用對用戶透明關鍵技術-多集群方案(2)16按業(yè)務劃分集群關系密切業(yè)務的project放在同一個集群每個project對應一個默認集群,作業(yè)總是跑在默認集群上數(shù)據(jù)版本同一份數(shù)據(jù)(表或分區(qū))在多個集群上可能具有不同的版本當一份數(shù)據(jù)版本更新后,觸發(fā)一個跨集群數(shù)據(jù)復制任務跨集群數(shù)據(jù)復制表或分區(qū)可以配置是否進行跨集群復制(自動或手工)流控,優(yōu)先級直讀直寫,應對新的跨集群數(shù)據(jù)依賴,少量任務LatestVersion:V1,Status:ClusterA:V1,ClusterB:V0關鍵技術編程模型17RestfulAPI內(nèi)存計算Parame

6、terserver流計算MPISQLPLSQL準實時GraphMRODPS 框架飛天集群關鍵技術編程模型18SQL特性兼容大部分Hive語法適應大數(shù)據(jù)量的處理(T到P級別的數(shù)據(jù))延遲較大不支持并發(fā)、無主鍵支持Python和Java寫UDF,UDAF,UDTF物理執(zhí)行方式:DAG,C+實現(xiàn)Code gen準實時實現(xiàn)(Service-Mode)關鍵技術-編程模型Service-Mode常駐服務,預先申請好worker- 減少調(diào)度開銷Shuffle數(shù)據(jù)不落地,直接寫網(wǎng)絡假設作業(yè)規(guī)模m*r,要求r個reduce先起,接收map寫的 數(shù)據(jù)內(nèi)存文件LLVM,減少編譯時間根據(jù)SQL類型和數(shù)據(jù)量動態(tài)決定是否采

7、用Service-Mode方式未考慮Failover,主要用于開發(fā)project和Adhoc數(shù) 據(jù)分析20關鍵技術-編程模型MPI適用場景反復迭代、需要同步類型的大規(guī)模機器學習算法?;A算法庫邏輯回歸、隨機森林、貝葉斯、k-means、協(xié)同過濾、關聯(lián)規(guī)則、SVD分解等關鍵技術-編程模型圖計算框架海量圖結(jié)構(gòu)數(shù)據(jù)社交網(wǎng)絡(來往,微博),物流信息(菜鳥物流)電商關系:類目/商品/買家/賣家,交易/瀏覽ODPS圖計算框架支持類似Pregel的Java編程接口,面向迭代類型的作業(yè)磁盤IO內(nèi)存網(wǎng)絡,換來更快的性能典型應用:PageRankK-均值聚類非負矩陣分解NMF算法往往跟業(yè)務相關21提綱背景與概況服務架構(gòu)關鍵技術服務管理結(jié)語22服務管理23多租戶共享集群基于ACL和Policy的認證授權(quán)機制基于project的業(yè)務劃分基于配額的管理基于歷史的優(yōu)化多種類型計算作業(yè)共享集群總結(jié)24阿里巴巴數(shù)據(jù)處理服務(ODPS)支持海量數(shù)據(jù)的離線存儲和計算以RESTful API的方式提供服務

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論