




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
演講材料合集大模型時(shí)代如何應(yīng)對(duì)大算力挑戰(zhàn)智能基礎(chǔ)設(shè)施服務(wù)打造強(qiáng)大算力,應(yīng)對(duì)AIGC與LLM的挑戰(zhàn)張新濤阿里云彈性計(jì)算產(chǎn)品專家01大語言模型開啟人工智能新的時(shí)代02智能計(jì)算是提升大模型應(yīng)用快速落地的基礎(chǔ)03軟硬一體的阿里云智能計(jì)算基礎(chǔ)設(shè)施04面向AI大模型訓(xùn)練與推理的解決方案?多模態(tài),海量數(shù)據(jù),超大模型成了必然趨勢(shì)?大模型對(duì)于計(jì)算力的要求驚人?AI應(yīng)用場(chǎng)景開始蓬勃發(fā)展模型調(diào)優(yōu)人類反饋強(qiáng)化學(xué)習(xí)RLHFGPT4InstructGPT/模型調(diào)優(yōu)人類反饋強(qiáng)化學(xué)習(xí)RLHFGPT4InstructGPT/GPT-3.5/ChatGPTTransfomer的Decoder分支1750億個(gè)參數(shù)小樣本學(xué)習(xí)能力GPT-3Transformer模型框架Attention機(jī)制參數(shù)少速度快效果好深度學(xué)習(xí)框架易于使用API迭代更穩(wěn)定微軟云Azure-里云GPT4發(fā)布輸入:圖片+文字推出Copilot:AI助力Excel生產(chǎn)力大提升2020年6月,OpenAI發(fā)布第一個(gè)商業(yè)化產(chǎn)品OpenAIAPI;2020年9月微軟購買獨(dú)家許可,將GPT-3整合到自己的產(chǎn)品中OpenAI依次推出GPT-1/GPT-2/GPT-3等NLP自然語言處理模型過度到“封頂盈利”ElonMusk,SamAltmanPeterThiel投資10億美元,創(chuàng)立OpenAIOpenAIGPT3.5基礎(chǔ)上生成自然語言文本阿里云通義千問發(fā)布面向企業(yè)用戶開放阿里全系業(yè)務(wù)將接入谷歌大腦推出生成式預(yù)訓(xùn)練Transformer模型OpenAI的獨(dú)家云提供商?預(yù)訓(xùn)練模型使得模型的訓(xùn)練可以被復(fù)用,大幅降低訓(xùn)練成本;前期需要大量的數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練-里云應(yīng)用測(cè)試推理計(jì)算參數(shù)加載信息交互<<Language應(yīng)用測(cè)試推理計(jì)算參數(shù)加載信息交互<<LanguageModesareFew-ShowLearnes>>ChatGPT2023年1月官網(wǎng)總訪問量6.16億次單月運(yùn)營(yíng)算力約為4874.4Pflop/s芯片需求通過模型剪枝/量化優(yōu)化到INT4/8,13B~50B模型可采用A10或V100設(shè)備單次GPT-3Small(1.25億)計(jì)算量2.6PFlops/天單次GPT-3XL計(jì)算量為27.5PFlops/天單次GPT-3(175B)計(jì)算量3640PFLops/天芯片需求GPT3(175B)3640PFLops35000塊A100/1天或1024塊A100跑1個(gè)月成本以阿里云GPU實(shí)例目錄價(jià)計(jì)算~4000W/月模型訓(xùn)練模型訓(xùn)練算力需求算力需求RM獎(jiǎng)勵(lì)模型SFT監(jiān)督學(xué)習(xí)遷移學(xué)習(xí)預(yù)計(jì)算力預(yù)計(jì)算力芯片需求13000塊A100/1天或433塊A100跑1個(gè)月成本成本920w/月920w/月大模型公司大規(guī)模,多模態(tài)算法模型大模型公司大規(guī)模,多模態(tài)算法模型心(ERNIE3.0Titan)第一階段訓(xùn)練時(shí)長(zhǎng)1個(gè)月一次訓(xùn)練時(shí)長(zhǎng)1個(gè)月(預(yù)估)?高性能網(wǎng)絡(luò):為了支撐大模型分布式通信,訓(xùn)練集群需要N*100G高性能網(wǎng)絡(luò)-里云6提升內(nèi)容生產(chǎn)效率個(gè)人開發(fā)者應(yīng)用公司市場(chǎng)營(yíng)銷JasperAI新聞撰寫話題分析WordSmith聊天/客服ChatGPT人聲合成培訓(xùn)交易社交媒體廣告設(shè)計(jì)視頻剪輯視頻換臉-FaceSwap文本生成圖片–stablediffusion/Dall.E圖片/音頻生成文本-OpenAIWhisper文本生成代碼-OpenAICodex 數(shù)字人生成策略生成模型微調(diào)/遷移學(xué)習(xí)特定領(lǐng)域小規(guī)模模型微調(diào)/遷移學(xué)習(xí)特定領(lǐng)域小規(guī)模降低開發(fā)門檻低泛化性+通用性?數(shù)據(jù)集的質(zhì)量,合規(guī),風(fēng)格偏好?專家知識(shí)的準(zhǔn)確性,預(yù)訓(xùn)練數(shù)據(jù)實(shí)時(shí)性?預(yù)訓(xùn)練:海量無標(biāo)注數(shù)據(jù)開放數(shù)據(jù)集(百T級(jí)別)的存儲(chǔ)?計(jì)算基礎(chǔ)設(shè)施進(jìn)入到了智能計(jì)算時(shí)代-里云GPTGPT-1GPT-2(2018.6)(2019.2)訓(xùn)練穩(wěn)定性未知Small/Medium/LargeXL2.7B/6.7B/13B基于規(guī)則的獎(jiǎng)勵(lì)模型圖像+圖片模型規(guī)格GPT-396層96層ChatGPT/GPT-3.5GPT4參數(shù)規(guī)模一路絕塵參數(shù)規(guī)模一路絕塵大模型算力需求模型表現(xiàn)會(huì)隨著規(guī)模的擴(kuò)大而增長(zhǎng)涌現(xiàn)能力(emergentabilities)Transformer模型的增長(zhǎng)速度為750倍/2年峰值硬件FLOPS以3.1倍/2年的速度擴(kuò)展芯片顯存需求并行計(jì)算通信需求并行分布式計(jì)算,需要提升加速器間的連接性能連接的增長(zhǎng)速度遠(yuǎn)低于算力增長(zhǎng)的需求-里云應(yīng)用端服務(wù)器OS/平臺(tái)芯片互聯(lián)網(wǎng)時(shí)代PC(Windows)單一服務(wù)器單一服務(wù)器單服務(wù)器性能單核CPU依賴主頻提升性能100M網(wǎng)絡(luò)移動(dòng)互聯(lián)網(wǎng)手機(jī)(安卓/IOS)云數(shù)據(jù)中心云數(shù)據(jù)中心大規(guī)模服務(wù)器集群整體性能多核CPU,核數(shù)+虛擬化vCPU/云網(wǎng)絡(luò)/分布式存儲(chǔ)PCIE3.0(8GT/S)大數(shù)據(jù)/短視頻手機(jī)/IoT設(shè)備邊緣計(jì)算邊緣計(jì)算異構(gòu)融合計(jì)算CDN加速網(wǎng)絡(luò):云-管-端協(xié)同25G網(wǎng)絡(luò)AI智能時(shí)代(認(rèn)知/決策)手機(jī)/汽車/機(jī)器人智能硬件..AIAI服務(wù)器AIAI/ML大規(guī)模并行計(jì)算多重向量/張量運(yùn)算網(wǎng)絡(luò):東西向流量為主100G網(wǎng)絡(luò)大模型具有數(shù)據(jù)量大、數(shù)據(jù)帶寬要求高、算力要求高的計(jì)算特點(diǎn),且算法相對(duì)單一。要提高計(jì)算效率和性價(jià)比,就應(yīng)該像高性能計(jì)算那樣選擇更高計(jì)算密度的算力芯片。-里云在Transformer技術(shù)興起之后,英偉達(dá)便在ASIC特點(diǎn)標(biāo)量運(yùn)算SISD大緩存+復(fù)雜邏輯不擅長(zhǎng)做算法與并行計(jì)算?計(jì)算單元多硬件可根據(jù)需求調(diào)整成本和壁壘高低成本(能耗低)性能強(qiáng)場(chǎng)景?邏輯判斷,任務(wù)調(diào)度與控制?應(yīng)用軟件+推理/預(yù)測(cè)?大模型訓(xùn)練?芯片研發(fā)階段?AI推理服務(wù)?特定場(chǎng)景架構(gòu)?成熟量產(chǎn)模型費(fèi)米開普勒麥克斯韋伏特Ampere安培赫伯制程28nm28nm28nm4nm代號(hào)QuadroV100顯存帶寬250GB/sHBM900GB/s互聯(lián)NVLink2.0300G第一代NVSwitchNVLink3.0600GNVLink4.0算力(FP32)TesnforCore1.0HBM顯存3.95TFLOPS專注圖像處理/高性能運(yùn)算10.6TFLOPS適合深度學(xué)習(xí)65TFLOPS313TFLOPS1200TFLOPS5000TFLOPS性能快速提升8年317倍場(chǎng)景驅(qū)動(dòng)數(shù)字表示與復(fù)雜指令互聯(lián)能力提升-單卡性能到GPU集群?對(duì)光線和聲音進(jìn)行渲染光線追蹤(RayTracing)的RT?Ampere增加了TF32和BF16兩種數(shù)據(jù)格式的支持,也增加了對(duì)稀疏矩陣計(jì)算的支持每一代相對(duì)前代基本都會(huì)在SM數(shù)量、SM內(nèi)部流水線結(jié)構(gòu)等等方面有一些升級(jí)和改動(dòng)軟件工具降本增效神龍AI加速工具AIACC彈性算力調(diào)度機(jī)制軟件工具降本增效神龍AI加速工具AIACC彈性算力調(diào)度機(jī)制視覺計(jì)算定制計(jì)算ASIC模型服務(wù)視覺計(jì)算模型服務(wù)視覺計(jì)算規(guī)模化部署7代訓(xùn)練集群首個(gè)異構(gòu)實(shí)例201720192020202120222023戲,視頻直播,……生物識(shí)別,自動(dòng)駕駛,語音識(shí)氣象預(yù)測(cè),油氣勘探,分子動(dòng)力彈性加速EAIS彈性加速EAIS訓(xùn)練數(shù)據(jù)資源編排、輕量級(jí)服務(wù)與資源共享訓(xùn)練數(shù)據(jù)資源編排、輕量級(jí)服務(wù)與資源共享創(chuàng)新以應(yīng)對(duì)AIGC&大模型挑戰(zhàn)資源編排與任務(wù)系統(tǒng)-里云-里云語言類大模型?文案生成?劇本生成?摘要生成?情緒分析AIGCAIGC非語言模型?文生圖,圖生圖?文生視頻,圖生視頻?文生音樂訓(xùn)練-選型推薦訓(xùn)練-選型推薦1024/512片A100(SCCGN7ex)256/128片A100(SCCGN7ex)訓(xùn)練-選型推薦訓(xùn)練-選型推薦4片A100(GN7e)4片A10(GN7i)推理-選型推薦推理-選型推薦參數(shù)規(guī)模30~65B區(qū)間:?8*A10(GN7i)?8*V100(GN6e,32GB)?8*A100(GN7e,80GB)參數(shù)規(guī)模30B以下:?4*A10(GN7i)?8*V100(GN6V,16G)推理-選型推薦推理-選型推薦參數(shù)規(guī)模3B~10B區(qū)間:?多片A10(GN7i)參數(shù)規(guī)模3B以下:?單片A10(GN7i)SecurityVPCLightningcubeNAS/CPFSOSS-里-里云為大規(guī)模訓(xùn)練服務(wù)提供RDMA高帶寬,低時(shí)延算力集群高性能高性能AI算力互聯(lián)能力獨(dú)立高性能網(wǎng)絡(luò)獨(dú)立高性能網(wǎng)絡(luò)彈性彈性SCC裸金屬規(guī)格裸金屬裸金屬GPUcontainercontainercontainercontainercontainercGPUContainerRuntimecGPU虛擬化cGPUCUDAwrapper虛擬化池化云原生GPUxGPUx2裸金屬實(shí)例GPUx8cGPUCUDAwrapper cGPU1.0isolation GPUCUDAServerCUDAServer基于ACK和云原生AI套件搭建一個(gè)AI工程化平臺(tái)PaaSPaaS:面向算法工程師提供工程化平臺(tái)監(jiān)控/日志/告警GPU-export成本控制彈性/ECI/Spot單機(jī)/分布式基于K8s+云原生AI套件構(gòu)建AI工程平臺(tái)異構(gòu)資源交付運(yùn)行環(huán)境交付訓(xùn)練/推理分布式訓(xùn)練交互式開發(fā)模型評(píng)測(cè)推理加速推薦團(tuán)隊(duì)環(huán)境交付部署上線圖像團(tuán)隊(duì)?硬件:顯存、計(jì)算單元?jiǎng)討B(tài)隔離;?普世:支持各種GPU實(shí)例?軟件:應(yīng)用零感知?匹配CPU和GPU不同配比的需求?部署密度提升5倍?成本節(jié)省達(dá)到50%以上?業(yè)務(wù)交付周期縮短30%-里云神龍神龍AI加速套件(AIACC)訓(xùn)練編譯優(yōu)化AIACC-AGSpeed神龍AI推理加速引擎AIACC-Inference神龍AI訓(xùn)練加速引擎AIACC-Training推理編譯優(yōu)化AIACC-MLIR算子深度優(yōu)化AIACC-HRT分布式通信優(yōu)化AIACC-ACSpeed?全球最高AI性能加速,權(quán)威排行榜單DAWNBench圖片識(shí)別訓(xùn)練、推理四項(xiàng)世界第一?推理性能超越AI業(yè)界性能巔峰NvidiaTensorRT8.5計(jì)算資源調(diào)度服務(wù)計(jì)算基礎(chǔ)設(shè)施行業(yè)場(chǎng)景融合的行業(yè)場(chǎng)景融合的AI能力豐富多樣的AI模型服務(wù)全生命周期優(yōu)化的機(jī)器學(xué)習(xí)平臺(tái)為AI設(shè)計(jì)的云基礎(chǔ)設(shè)施交通科研教育產(chǎn)業(yè)智能交通科研教育零售制造零售制造魔搭社區(qū)模型服務(wù)靈積魔搭社區(qū)大模型和服務(wù)企業(yè)專屬大模型基礎(chǔ)大模型通義大模型企業(yè)專屬大模型模型開發(fā)PAI-DSW模型推理與部署PAI-EAS-里云基于神龍AI加速AIACC加速Stable-DiffusionAI繪畫阿里云高級(jí)開發(fā)工程師01基于計(jì)算巢搭建Stable-Diffusion開發(fā)環(huán)境?Stable-Diffusion背景及結(jié)構(gòu)?神龍AI加速套件AIACC介紹?計(jì)算巢介紹?搭建Stable-Diffusion服務(wù)實(shí)例并訪問實(shí)例02?頁面操作說明?使用文生圖生成圖片?使用圖生圖生成圖片03Stable-Diffusion高級(jí)特性使用?使用LORA權(quán)重修改生成圖片細(xì)節(jié)?使用ControlNet插件控制生成圖片形狀?使用API調(diào)用方式執(zhí)行文生圖和圖生圖?Stable-Diffusion背景及結(jié)構(gòu)?AIACC加速軟件庫介紹?計(jì)算巢介紹?搭建Stable-Diffusion服務(wù)實(shí)例并訪問實(shí)例-里云StableDiffusion是目前AIGC在生圖方向上集質(zhì)量高、速度快、成本低等眾多優(yōu)點(diǎn)于一身的,可以說是目前AI生圖領(lǐng)域的六邊形戰(zhàn)士,綜合(UNet+Scheduler)(Autoencoder以文生圖場(chǎng)景為例,文字首先通過一個(gè)特殊的Transformer語言模型(CLIP模型),將文字進(jìn)行編碼。而后以隨機(jī)噪聲初始化,通過UNet和Scheduler逐步在圖像信息的-里云?單圖推理延遲從1.88秒降低至0.78秒,吞吐提速至原有的2.4倍。3210秒推理延遲對(duì)比圖StableDiffusionv1.5StableDiffusionv1.5+ControlNet更多AIACC文檔說明,請(qǐng)參考/document_detail/3178最終用戶直接調(diào)用基于開源的商業(yè)軟件服務(wù)開源軟件最終用戶直接調(diào)用基于開源的商業(yè)軟件服務(wù)開源軟件-里云提升軟件服務(wù)在交付、部署及后續(xù)管理等環(huán)節(jié)的效率和用戶體驗(yàn)。最終用戶可以通過計(jì)算巢管理其在阿里云上訂閱的各類軟件服務(wù)。計(jì)算巢為服務(wù)商和最終用戶提供了一個(gè)云原生的服務(wù)交付平臺(tái)和連接器,提供更高效、便捷、安全的軟件服務(wù)和使用體驗(yàn)?!禨tablediffusionAIACC加速社區(qū)版》現(xiàn)已作為推薦服務(wù),上線計(jì)算巢。為了方便客戶使用,推薦使用計(jì)算巢進(jìn)行服務(wù)搭建。(面向行業(yè)包括:工業(yè)制造、電商、生物制藥等)計(jì)算巢統(tǒng)一服務(wù)目錄(匯集各類軟件服務(wù)、模型服務(wù)、數(shù)據(jù)集,面向服務(wù)商和最終用戶開放)計(jì)算巢統(tǒng)一服務(wù)目錄(匯集各類軟件服務(wù)、模型服務(wù)、數(shù)據(jù)集,面向服務(wù)商和最終用戶開放)端到端商業(yè)軟件服務(wù)端到端商業(yè)軟件服務(wù)基礎(chǔ)軟件、應(yīng)用軟件、通用軟件、行業(yè)軟件計(jì)算巢:面向軟件與模型的云集成計(jì)算巢:面向軟件與模型的云集成PaaS(ACloudIntegrationPaaSforSoftwareandModel)應(yīng)用全生命周期管理數(shù)據(jù)集全生命周期管理應(yīng)用與數(shù)據(jù)安全合規(guī)應(yīng)用與數(shù)據(jù)互聯(lián)服務(wù)運(yùn)營(yíng)管理開放接口-里云Stable-Diffusion服務(wù)實(shí)例創(chuàng)建實(shí)戰(zhàn)步驟1開始創(chuàng)建:/user/cn-hangzhou/serviceInstanceCreate?spm=5176.247796fc64d22F4MeDH&ServiceId=service--里云?我們可以根據(jù)自己的需要,選擇北京、上海、杭州等國(guó)內(nèi)?建議選擇按量付費(fèi)使用,在不使用時(shí),可以選擇停機(jī)不收?可選實(shí)例均為單卡A10實(shí)例,規(guī)格為ecs.gn7i-c16g1.4xlarge、ecs.gn7i-c3c48g1.12xlarge三種,當(dāng)部署大量模型時(shí),大規(guī)格實(shí)例可-里云步驟3密碼及網(wǎng)絡(luò)設(shè)置:?實(shí)例密碼用于ECS登錄。當(dāng)我們需要下載模型或檢查系統(tǒng)運(yùn)行狀?軟件登錄名及軟件登錄密碼用于網(wǎng)頁訪問。由于創(chuàng)建的ECS將會(huì)以避免網(wǎng)頁被不明用戶登錄。此密碼用于訪問stable-diffusion?可用區(qū)配置用于選擇新創(chuàng)建的ECS所在的可用區(qū)。如有多機(jī)器部?當(dāng)希望將機(jī)器創(chuàng)建于已有VPC環(huán)境中時(shí),可以關(guān)閉新建VPC選項(xiàng),否則默認(rèn)將新建VPC。當(dāng)兩臺(tái)ECS處于相同VPC時(shí),內(nèi)部網(wǎng)-里云?輸入軟件登錄名及軟件登錄密碼,點(diǎn)擊登錄。-里云步驟5登錄實(shí)例所在ecs:看stable-diffsion運(yùn)行日志時(shí),我們需要登錄ecs實(shí)例進(jìn)行查?實(shí)例中的stable-diffusion位于/root/stable-diffusion-webui/。如果需要重啟服務(wù),可以使用sudosystemctlstopsdwebui命令停止服務(wù),而后使用sudosystemctlstartsdwebui命令啟動(dòng)服務(wù)。日志文件會(huì)被寫入/var/log/sdwebui.log。用?webui頁面操作說明?使用文生圖生成圖片?使用圖生圖生成圖片Webui界面有如下幾個(gè)關(guān)鍵的可選要切換模型時(shí),下拉此選項(xiàng)?提示詞由多部分組成,以英文?采樣器用于控制unet輸出結(jié)果?迭代步數(shù)越高,最終出圖的清小越保守,越大越開放-里-里云反向提示詞留空,其他選項(xiàng)均為默認(rèn)選項(xiàng),點(diǎn)擊生成,即可生成成一張與提示詞描述相近的圖-里-里云-里云置。如需打開AIACC,也可在此界面打開“ApplyAiacctorch”選項(xiàng),并點(diǎn)擊應(yīng)用設(shè)置。禁用AIACC性能加速后進(jìn)行相同圖片生成的時(shí)間則增加至AIACC能縮短58%的推理時(shí)間,或增加圖片生成的吞吐量至原有輸入提示詞:背景,單人,上半身,T恤輸入反向提示詞:?水彩,漫畫,掃描件,簡(jiǎn)樸的畫作,動(dòng)其他選項(xiàng)均為默認(rèn)選項(xiàng),點(diǎn)擊生點(diǎn)擊頁面中的“圖生圖”按鈕,我們可以將此圖片發(fā)送至圖生圖選項(xiàng)-里-里云進(jìn)入圖生圖選項(xiàng)卡,我們使用文字和圖片共同引導(dǎo)圖片生輸入反向提示詞:可以觀察到輸出圖片仍然保留男孩。由圖可見,當(dāng)使用則需要1.59s,降低了56%的延-里-里云?Lora權(quán)重使用?ControlNet插件使用?使用API調(diào)用方式執(zhí)行文生圖和圖生圖LANGUAGEMODELS參數(shù)量少,使用方便,在打開附加網(wǎng)絡(luò)選項(xiàng),點(diǎn)擊下方的Lora權(quán)重,選擇一個(gè)權(quán)重可以同時(shí)選中多個(gè)進(jìn)行-里-里云無Lora權(quán)重生成圖無Lora權(quán)重生成圖-里-里云detailed,masterpiece,finelydetail,highres,8kwallpaper提示詞,seed=有有Lora權(quán)重生成圖-里-里云ControlNet為我們提供了一種精確控制stable-diffusion生成圖片的方式。我們可以選擇不同的預(yù)處理,通過邊緣檢測(cè)、姿態(tài)檢測(cè)等方式,使?通過選擇控制類型,可以選擇我們想要進(jìn)行的操作。?設(shè)置處理參考圖的方式,例如canny則可用canny算子進(jìn)行邊緣檢?設(shè)置controlnet所作用的權(quán)重,默認(rèn)為1。-里云選項(xiàng)為默認(rèn)選項(xiàng),點(diǎn)擊生成可生成可見生成的圖片與輸入的參考圖的整體布局十分相似,使用這種方式,我們可以非常精確地控制所生加速時(shí),則需要3.04s,降低了57%-里云對(duì)于有遠(yuǎn)程使用或是命令行調(diào)用的場(chǎng)景而言,stable-diffusion的webui還可使用API的方式進(jìn)行調(diào)用。點(diǎn)擊webui的主界面最下角的API說明文檔-里-里云-里云阿里云AIGC實(shí)踐大量有會(huì)來襲,最長(zhǎng)100小時(shí)1折起,詳情點(diǎn)擊/daily-act/ecs/markets/aliyun/gpu/a如何利用GPU云服務(wù)器加速AIGC訓(xùn)練神龍AI訓(xùn)練加速套件AIACC2.0優(yōu)化于子淇阿里云高級(jí)開發(fā)工程師LLM模型的實(shí)現(xiàn)原理以及典型模型02基于阿里云eRDMA的GPU云服務(wù)器FastGPU一鍵部署LLaMA流程以及finetune原理解析基于AIACC的性能優(yōu)化及效果展示-里云AIGC(AIGeneratedContent)=>LLM-里云定義:廣義上講,大語言模型就是在大規(guī)模數(shù)據(jù)集上自監(jiān)督訓(xùn)練,參數(shù)量10億、百億甚至更多的語言模型LLMs(LargeLanguage?Pretrain:大量數(shù)據(jù)提取共性特征,基礎(chǔ)模型——通用?Finetune:少量數(shù)據(jù)適應(yīng)特定領(lǐng)域模型,下游任務(wù)——特定擴(kuò)展定律:訓(xùn)練數(shù)據(jù)集、模型規(guī)模越大,測(cè)試集精度越高涌現(xiàn)能力:模型規(guī)模增加到一定閾值后效果大大提高scalinglawvsemergentabilityEncoder、decoder架構(gòu)下LLM模型發(fā)展Transformer-base的decoder-o?訓(xùn)練效率:參數(shù)量、計(jì)算效率數(shù)據(jù)并行DP/DDP/Zero-1/2/3、張量并行TP、流水并行PP-里云LLaMA-13B+DeepSpeed-zero3=>大通信壓力,占比30%+Transformer-base-里云02基于阿里云eRDMA的GPU實(shí)例AdapterAdapterAdapterAdapter-里云ApplicationAdapterApplicationAdapter(RDMA)CPU負(fù)責(zé)數(shù)據(jù)搬移RDMA網(wǎng)卡直接訪問完成數(shù)據(jù)搬移無需用戶態(tài)/內(nèi)核態(tài)切換無需數(shù)據(jù)復(fù)制CPU負(fù)責(zé)觸發(fā)分布式運(yùn)算服務(wù)器間數(shù)據(jù)通信RDMAEngine負(fù)責(zé)直接讀寫完成不同節(jié)點(diǎn)間的數(shù)據(jù)通信超大規(guī)模組網(wǎng)基于ECSVPC網(wǎng)絡(luò)超大規(guī)模組網(wǎng)基于ECSVPC網(wǎng)絡(luò)eRDMA特性介紹生態(tài)兼容-里云彈性彈性代碼零修改二進(jìn)制兼容10萬級(jí)別VM組網(wǎng)跨AZ組網(wǎng)VPC網(wǎng)絡(luò)租戶隔離*1:最低8us,具體視實(shí)際網(wǎng)絡(luò)連接波動(dòng)硬件架構(gòu)InstancetypevCPUsGPUmemoryPacketforwardingrateecs.ebmgn7ex.32xlarge200(max)24,000,0002神龍架構(gòu)神龍架構(gòu)AI訓(xùn)練場(chǎng)景架構(gòu)-里云…AI框架通信鏈路AI訓(xùn)練場(chǎng)景性能提升-里云ebmgn7ex相比ebmgn7e4機(jī)訓(xùn)練性能提升比率45%40%-里云finetune原理解析>基礎(chǔ)資源創(chuàng)建、環(huán)境配置時(shí)間從1天縮短到5分鐘?無需關(guān)心VM的鏡像配置、多機(jī)訓(xùn)練的網(wǎng)絡(luò)>基礎(chǔ)資源創(chuàng)建、環(huán)境配置時(shí)間從1天縮短到5分鐘?無需關(guān)心VM的鏡像配置、多機(jī)訓(xùn)練的網(wǎng)絡(luò)>GPU資源的生命周期與任務(wù)同步?數(shù)據(jù)集準(zhǔn)備完成,計(jì)算開始時(shí)才購買GPU實(shí)例資源訓(xùn)練/推理代碼開發(fā)主機(jī)/用戶起始狀態(tài)開發(fā)主機(jī)/用戶完成狀態(tài)-里云自動(dòng)創(chuàng)建自動(dòng)創(chuàng)建IaaS資源和掛載存儲(chǔ)存儲(chǔ)資源OSS/NAS即刻構(gòu)建自動(dòng)啟動(dòng)(分布式)訓(xùn)練/推理自動(dòng)釋放IaaS資源交互式資源計(jì)算資源CPU/GPU>所有資源均為IaaS資源,可訪問,可調(diào)試一鍵部署示例一行啟動(dòng):創(chuàng)建實(shí)例+啟動(dòng)訓(xùn)練finetune+推理服務(wù)inference-里云AIACC訓(xùn)練性能提升效果訪問推理服務(wù)#只需要打開瀏覽器輸入提升40%+-里云Llamafinetune原理LLaMA羊駝模型模型性價(jià)比:參數(shù)量vs訓(xùn)練tokens模型架構(gòu):借鑒各大模型Fine-tuning原理常識(shí)推理、問答、閱讀理解、數(shù)學(xué)推理、代碼生成等Finetune之前-里云Finetune之后-里云-里云阿里云AIGC試用/daily-act/ecs/markets/aliyun/gpu/aigc-里云04基于AIACC的性能優(yōu)化及效果展示-里云訓(xùn)練性能最快訓(xùn)練成本最低訓(xùn)練性能最快推理成本最低推理性能最快推理成本最低AIACC-horovod-apiAIACC-c10d-pluginAI框架層AIACC-horovod-apiAIACC-c10d-pluginAI框架層集合算法層AIACC-collective-compiler-runtimeAIACC-nccl-pluginAGSpeedcompilerbackendGraph-levelcompileroptmizationAIACC-Training2.0架構(gòu)-里云式訓(xùn)練在兼容性,適用性和性能優(yōu)化的全面升級(jí)AGSpeedcompilerfrontendAIACC-Training2.0AGSpeed針對(duì)PyTorch動(dòng)態(tài)圖特性,實(shí)現(xiàn)在計(jì)算圖編譯器上性能優(yōu)化AGSpeedcompilerfrontend?AGSpeed前端實(shí)現(xiàn)pytorch動(dòng)態(tài)圖到靜態(tài)圖的runtime自動(dòng)轉(zhuǎn)化團(tuán)隊(duì)底層blas/conv等優(yōu)化加速AI訓(xùn)練的計(jì)算過程AI框架層集合算法層AI框架層集合算法層ACSpeed–分布式訓(xùn)練加速架構(gòu)aiacc-c10d-pluginaiacc-nccl-pluginaiacc-nccl-pluginAcspeed在框架層,集合通信算法,網(wǎng)絡(luò)層針對(duì)阿里云現(xiàn)有機(jī)型在分布式訓(xùn)練場(chǎng)景做到無感性能優(yōu)化無感的分布式性能優(yōu)化,支持DDP/FSDP/DS等-里云業(yè)務(wù)背景?大數(shù)據(jù)背景下分布式訓(xùn)練是訓(xùn)練業(yè)務(wù)的普遍需求?云上跨機(jī)之間的帶寬限制是制約是分布式訓(xùn)練瓶頸ACSpeed方案?實(shí)現(xiàn)c10d-plugin/nccl-runtime無感優(yōu)化分布式效率?針對(duì)阿里云vpc網(wǎng)絡(luò)基礎(chǔ)設(shè)施在分布式場(chǎng)景的深度優(yōu)化CIPU優(yōu)化?nccl-plugin增強(qiáng)易用性,集成在erdma大包內(nèi),用戶無感?持續(xù)優(yōu)化erdma在超大規(guī)模分布式訓(xùn)練上的性能編譯器前端編譯器后端編譯器前端編譯器后端AGSpeed–計(jì)算圖編譯加速架構(gòu)-里云TorchdynamographTorchdynamographcatAGSpeedAGSpeedbackendautotunerAGSpeedAGSpeedoptimizationpassplugin業(yè)務(wù)背景?Pytorcheagermode深受歡迎,云上AI訓(xùn)練首選框架?無Graph方式的編譯融合,損失加速器性能AGSpeed方案?增強(qiáng)前端覆蓋度和后端性能,保障訓(xùn)練e2e功能和性能nvidia_deeprecommenderbs=256vgg16bs=64tts_angularbs=64timm_vision_transformerbs=8hf_Bertbs=4alexnetbs=128hf_GPT2bs=4speech_transformerbs=32hf_DistilBertbs=8hf_Bartbs=4resnet18bs=16squeezenet1_1bs=32resnext50_32x4dbs=8hf_Longformerbs=2nvidia_deeprecommenderbs=256vgg16bs=64tts_angularbs=64timm_vision_transformerbs=8hf_Bertbs=4alexnetbs=128hf_GPT2bs=4speech_transformerbs=32hf_DistilBertbs=8hf_Bartbs=4resnet18bs=16squeezenet1_1bs=32resnext50_32x4dbs=8hf_Longformerbs=2mobilenet_v3_largebs=32mnasnet1_0bs=32timm_efficientnetbs=32hf_Albertbs=8mobilenet_v2bs=96shufflenet_v2_x1_0bs=128timm_resnestbs=32pytorch_unetbs=1hf_Reformerbs=8Super_SloMobs=6densenet121bs=256resnet50bs=32timm_vovnetbs=32timm_regnetbs=32AIACC-Training2.0性能提升SLA-里云DDP提升5%~150%876543210ddpnode=1acspeednode=1ddpnode=2acspeednode=2ddpnode=4acspeednode=4.ddpnode=8acspeednode=8-里云AIACC-Training2.0性能提升SLA30%~100%AIACC-Training2.0性能提升SLA-里云算子替換為AIACC-Training2.0神龍AI加速套件-里云/document_detail/462422.html?spm=a2c4g.462058f60f/document_detail/468640.html?spm=a2c4g.4624c2618d6tiJgDD-里云阿里云CIPU技術(shù)解析楊航阿里云資深技術(shù)專家-里-里云公有云公有云-里云identifiedsixpotentialadvantages:1.Theappearanceofinfinitecomputingresourcesondemand.2.Theeliminationofanup-frontcommitmentbycloudusers.3.Theabilitytopayforuseofcomputingresourcesonashort-termbasisasneeded.4.Economiesofscalethatsignificantlyreducedcostduetomany,verylargedatacenters.5.Simplifyingoperationandincreasingutilizationviaresourcevirtualization.6.Higherhardwareutilizationbymultiplexingworkloadsfromdifferentorganizations.2.消除云用戶的預(yù)先承諾3.根據(jù)實(shí)際需要支付短期使用計(jì)算資源的4.規(guī)模經(jīng)濟(jì)顯著降低了成本,因?yàn)閿?shù)據(jù)中心非常大轉(zhuǎn)售服務(wù)器和轉(zhuǎn)售轉(zhuǎn)售服務(wù)器和轉(zhuǎn)售CDN,非云計(jì)算-里-里云“計(jì)算”演進(jìn)為“計(jì)算”演進(jìn)為“云計(jì)算”計(jì)算云計(jì)算通過彈性和多租技術(shù),讓計(jì)算普惠和高效云計(jì)算通過彈性和多租技術(shù),讓計(jì)算普惠和高效-里-里云穩(wěn)定穩(wěn)定-里云??QEMU大量設(shè)備仿真代碼,安全攻擊敞口(attacksurface)無法收斂?數(shù)據(jù)在計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)等子系統(tǒng)流動(dòng)過程中的安全加密能力?進(jìn)一步深入計(jì)算、網(wǎng)絡(luò)和存儲(chǔ)芯片的?進(jìn)一步深入計(jì)算、網(wǎng)絡(luò)和存儲(chǔ)芯片的實(shí)現(xiàn)細(xì)節(jié),以此獲得更多影響系統(tǒng)穩(wěn)定性數(shù)據(jù),XEN/KVM架構(gòu)很難實(shí)現(xiàn)??XEON時(shí)代內(nèi)核網(wǎng)絡(luò)虛擬化時(shí)延達(dá)到150us之巨(KVM時(shí)代DPDKvswitch~50us),網(wǎng)絡(luò)時(shí)延抖動(dòng)極大,網(wǎng)絡(luò)轉(zhuǎn)發(fā)pps成為企業(yè)核心業(yè)務(wù)的關(guān)鍵瓶頸;數(shù)據(jù)密集型業(yè)務(wù),對(duì)于高IO和網(wǎng)絡(luò)帶寬的全程零拷貝需求強(qiáng)烈-里-里云CIPU:CloudInfrastructureProcessingUnit,云基礎(chǔ)設(shè)施處理器智能網(wǎng)卡技術(shù)飛天+CIPU,軟硬一體的體系架構(gòu)成型扎根核心技術(shù),大幅提升計(jì)算效率飛天+CIPU,軟硬一體的體系架構(gòu)成型扎根核心技術(shù),大幅提升計(jì)算效率-里云飛天單集群調(diào)度能力超過5K成為全球最好水平寫下飛天云計(jì)算操作系統(tǒng)第一行代碼目前代碼總量超過20億行神龍架構(gòu)(CIPU雛形)發(fā)展歷程:規(guī)?;麓怪奔夹g(shù)整合的產(chǎn)物-里云第一代神龍第一代神龍 虛擬機(jī)的體驗(yàn)物理機(jī)的性能規(guī)?;渴鸬诙颀埖诙颀?技術(shù)融合資源并池規(guī)模化部署第三代神龍第三代神龍2019年9月26日上午發(fā)布 性能極致安全增強(qiáng)規(guī)?;渴饛椥月憬饘僬Q生融合虛擬化的踐行者存儲(chǔ)網(wǎng)絡(luò)快路徑芯片加速-里云通用彈性計(jì)算集群AI彈性計(jì)算集群大數(shù)據(jù)彈性計(jì)算集群異構(gòu)彈性計(jì)算集群原生安全容器沙箱引擎芯片實(shí)現(xiàn)IO引擎原生安全容器沙箱引擎芯片實(shí)現(xiàn)IO引擎存儲(chǔ)的長(zhǎng)尾時(shí)延降低50%本地盤虛擬化硬件加速芯片級(jí)安全加固硬件級(jí)安全可信根增強(qiáng)型融合網(wǎng)絡(luò)物理服務(wù)器物理服務(wù)器容器調(diào)度和管理云原生裸金屬系統(tǒng)物理機(jī)神龍芯片芯片實(shí)現(xiàn)RDMA加速生命周期管理監(jiān)控運(yùn)維管控調(diào)度芯片實(shí)現(xiàn)安全加密卸載云資源管控芯片內(nèi)置安全可信根虛擬化管理調(diào)度容器調(diào)度和管理云原生裸金屬系統(tǒng)物理機(jī)神龍芯片芯片實(shí)現(xiàn)RDMA加速生命周期管理監(jiān)控運(yùn)維管控調(diào)度芯片實(shí)現(xiàn)安全加密卸載云資源管控芯片內(nèi)置安全可信根虛擬化管理調(diào)度芯片實(shí)現(xiàn)RDMA快速路徑VPC芯片實(shí)現(xiàn)網(wǎng)絡(luò)轉(zhuǎn)發(fā)路徑芯片實(shí)現(xiàn)IO引擎芯片實(shí)現(xiàn)存儲(chǔ)處理引擎芯片實(shí)現(xiàn)加密卸載虛擬機(jī)虛擬機(jī)虛擬機(jī)虛擬機(jī)虛擬機(jī)-里云設(shè)備虛擬化VPCoverlay網(wǎng)絡(luò)硬件數(shù)據(jù)加速設(shè)備虛擬化VPCoverlay網(wǎng)絡(luò)硬件數(shù)據(jù)加速本地存儲(chǔ)虛擬化硬件數(shù)據(jù)加速彈性RDMA接入硬件數(shù)據(jù)加速云可運(yùn)維能力支撐安全硬件數(shù)據(jù)加速CIPU池化云可運(yùn)維能力支撐安全硬件數(shù)據(jù)加速CIPU池化能力彈性裸金屬支持支撐-里云基礎(chǔ)帶寬升級(jí)塊存儲(chǔ)性能升級(jí)VPC網(wǎng)絡(luò)性能升級(jí)彈性RDMAMySQL場(chǎng)景最高提升60%eRDMA最高提升130%RedisMySQL場(chǎng)景最高提升60%eRDMA最高提升130%Redis混合讀寫QPSvlaue_size=3value_size=1000TCPeRDMA-里云NginxSSL場(chǎng)景最高提升420%Nginx每秒加密連接數(shù)主流場(chǎng)景性能:百尺竿頭更進(jìn)一步*所有測(cè)試實(shí)例均選擇常用8核32G規(guī)格硬件固件安全硬件固件安全SGXSGX2.0(裸金屬/VM)虛擬化Enclave運(yùn)行時(shí)可信系統(tǒng)可信及可信狀態(tài)監(jiān)控系統(tǒng)可信及可信狀態(tài)監(jiān)控可信啟動(dòng)虛擬可信根啟動(dòng)鏈可信存儲(chǔ)數(shù)據(jù)硬件加密TPMTPM2.0/TCM/TPCM友商A友商B友商C支持*無無/VM)無無無支持*無無無無無無無無無無無無*虛擬化enclave與SEV測(cè)試實(shí)例正在邀測(cè)中?硬件隊(duì)列隔離QOS?存儲(chǔ)神龍芯片加速?硬件隊(duì)列隔離QOS-里云極致計(jì)算穩(wěn)定性計(jì)算抖動(dòng)億分之一極致網(wǎng)絡(luò)穩(wěn)定性極致存儲(chǔ)穩(wěn)定性?虛擬化硬件卸載彈性吞吐彈性吞吐…、、態(tài)兼容代碼零修改二進(jìn)制兼容超大規(guī)模超大規(guī)模組網(wǎng)10萬級(jí)別VM組網(wǎng)跨AZ組網(wǎng)基于基于ECSVPC網(wǎng)絡(luò)VPC網(wǎng)絡(luò)租戶隔離帶寬帶寬雙向雙向離線分布式應(yīng)用高性能計(jì)算API生態(tài)差異化能力離線分布式應(yīng)用高性能計(jì)算API生態(tài)差異化能力里里在線分布式應(yīng)用在線分布式應(yīng)用超大規(guī)模RDMA數(shù)據(jù)加速云上普惠RDMA加速服務(wù)超大規(guī)模RDMA數(shù)據(jù)加速云上普惠RDMA加速服務(wù)神龍RDMA設(shè)備虛擬化LUNATCP網(wǎng)絡(luò)傳輸協(xié)議HPCC網(wǎng)絡(luò)擁塞控制算法(RDMARC生態(tài)兼容)第四代神龍架構(gòu)構(gòu)建高度優(yōu)化RDMA控制處理路徑、異常處理路徑和數(shù)據(jù)處理路徑問題通信incast解法問題通信incast解法彈性RDMA解決當(dāng)前云上AI高性能網(wǎng)絡(luò)的諸多內(nèi)生難題-里云hash沖突基于傳統(tǒng)交換機(jī)的諸多技術(shù)(自適應(yīng)路由、基于傳統(tǒng)交換機(jī)的諸多技術(shù)(自適應(yīng)路由、flowlet、VOQ等)很難全方位解決下述難題Composableand-里-里云安全加速數(shù)據(jù)安全加速數(shù)據(jù)數(shù)據(jù)端到端加密和安全容器等數(shù)據(jù)端到端加密和安全容器等理和彈性裸金屬CIPUCIPU非算力加速/卸載,CIPU實(shí)質(zhì)定位加速數(shù)據(jù);同時(shí)完成安全容器和基礎(chǔ)設(shè)施資源池化等關(guān)鍵業(yè)務(wù)支撐-里-里云除了處理模擬信號(hào)(比如通信射頻處理等)的數(shù)字芯片,是否都可以叫DPU(dataprocessingunit)?-里云-里云-里云CIPU最新秘密武器——彈性RDMA的技術(shù)解析與實(shí)踐徐成阿里云資深技術(shù)專家-里云RDMA的背景知識(shí)與上云挑戰(zhàn)02eRDMA的關(guān)鍵技術(shù)解析03eRDMA的應(yīng)用場(chǎng)景與實(shí)踐-里云-里云內(nèi)核態(tài)TCP/IP協(xié)議棧廣泛應(yīng)用于數(shù)據(jù)中心的網(wǎng)絡(luò)中,但隨著應(yīng)用對(duì)于數(shù)據(jù)1.內(nèi)核態(tài)TCP/IP的數(shù)據(jù)收發(fā)需要經(jīng)歷數(shù)據(jù)拷貝。在部分場(chǎng)景下*,數(shù)據(jù)拷貝的CPU開銷占比,可以達(dá)到50%以上;2.內(nèi)核態(tài)TCP/IP的協(xié)議處理需要消耗大量的CPU。CPU的負(fù)載會(huì)隨著通信量的增加而增大,與此同時(shí),可以用于計(jì)算的CPU資源就會(huì)減少。漸在數(shù)據(jù)中心的業(yè)務(wù)中被廣泛應(yīng)用。networkstackoverheads[C]//Proceedingsofthe2021ACMSIGCOMM2021Conference.2021:65-77.APPAPPwritewrite()APPAPPwritewrite()netdevicenetdevicedrivernetdevicenetdevicedriver圖示:應(yīng)用使用TCP/IP協(xié)議棧通信,需要經(jīng)歷多次拷貝以及內(nèi)核協(xié)議棧的處理-里云RDMA(RemoteDirectMemoryAccess)技術(shù)全稱遠(yuǎn)程直接內(nèi)存訪問,是一種高性能的網(wǎng)絡(luò)通信技術(shù),將數(shù)據(jù)直接從一臺(tái)計(jì)算機(jī)的內(nèi)存?zhèn)鬏數(shù)搅硗庖慌_(tái)計(jì)算機(jī)的內(nèi)存中,而無需雙方的操作系統(tǒng)內(nèi)核參與。具有高吞吐、低延遲和低CPU開銷應(yīng)用應(yīng)用協(xié)議棧驅(qū)動(dòng)協(xié)議棧驅(qū)動(dòng)TCP/IP主機(jī)內(nèi)數(shù)據(jù)流應(yīng)用應(yīng)用協(xié)議棧協(xié)議棧RDMA主機(jī)內(nèi)數(shù)據(jù)流零拷貝(Zero-copy)應(yīng)用程序可以直接執(zhí)行數(shù)據(jù)傳輸:數(shù)據(jù)能夠被直接發(fā)送到緩沖區(qū)或者能夠直接從緩沖區(qū)里接收,而不需要像TCP/IP一樣,數(shù)據(jù)會(huì)被復(fù)制到網(wǎng)絡(luò)層。內(nèi)核旁路(Kernelbypass)應(yīng)用程序可以直接在用戶態(tài)執(zhí)行數(shù)據(jù)傳輸,不需要在內(nèi)核態(tài)與用戶態(tài)之間做上下文切換。消息語義(Messagebasedtransactions)傳輸數(shù)據(jù)基需求通?;谙ⅲ瑧?yīng)用需要進(jìn)行流語義到消息語義的轉(zhuǎn)換。RDMA消除了應(yīng)用程序?qū)⒘髑懈顬橄?事務(wù)的需求。),-里云高中低可工作的網(wǎng)絡(luò)環(huán)境僅無損網(wǎng)絡(luò)僅無損網(wǎng)絡(luò)Infiniband是一種專門為RDMA設(shè)計(jì)的網(wǎng)絡(luò)協(xié)議,對(duì)網(wǎng)絡(luò)設(shè)備有特殊的要求,需要專用的硬件組成專用IB網(wǎng)絡(luò),具有極低的靜態(tài)時(shí)延。但是組網(wǎng)成本很高,同時(shí)架構(gòu)封閉存在廠商鎖定的風(fēng)險(xiǎn)。的網(wǎng)絡(luò)環(huán)境,對(duì)丟包極其敏感,通常需要使用交換機(jī)的PFC功能來實(shí)現(xiàn)無損網(wǎng)絡(luò)。iWarp協(xié)議利用TCP充當(dāng)RDMA協(xié)議的傳輸層,無需交換機(jī)額外配置,能夠容忍復(fù)雜的網(wǎng)絡(luò)環(huán)境。云盤云盤本地盤云盤云盤本地盤-里云云計(jì)算技術(shù)的興起,越來越多的客戶更傾向于使用云IaaS服務(wù),而非自建機(jī)相對(duì)于自建機(jī)房,云IaaS服務(wù)具有以下優(yōu)點(diǎn):1.高可用。相對(duì)于自建機(jī)房,客戶不需要考慮硬件故障,通常云服務(wù)廠商提供內(nèi)置的冗余和容錯(cuò)功能。當(dāng)物理機(jī)宕機(jī),客戶的實(shí)例自動(dòng)遷移恢2.彈性。計(jì)算資源可以根據(jù)實(shí)際的需求,分秒級(jí)擴(kuò)容應(yīng)對(duì)計(jì)算需求的增加,同時(shí)在不需要時(shí)縮減計(jì)算資源。3.節(jié)約成本。計(jì)算資源的按需使用和按需付費(fèi),使得IaaS的支出高度可預(yù)測(cè),可以輕松控制和制定相應(yīng)預(yù)算。4.易于部署。云服務(wù)器一般即開即用,而自建機(jī)房通常需要“人肉”部署VMVPC網(wǎng)絡(luò)VMVPC網(wǎng)絡(luò)-里云隨著上云業(yè)務(wù)的不斷豐富,內(nèi)核TCP/IP逐漸不能滿足云數(shù)據(jù)中心對(duì)網(wǎng)絡(luò)通信性能的要求,公有云廠商也逐漸開始在云上部署RDMA網(wǎng)絡(luò)。但要在云場(chǎng)景下完美使能最直觀的云上RDMA部署方式,是針對(duì)RDMA網(wǎng)絡(luò)單獨(dú)組一張網(wǎng)。從實(shí)踐來講,會(huì)存在不少的問題:1.部署成本高。單獨(dú)的一套組網(wǎng),意味著需要部署和現(xiàn)有VPC網(wǎng)絡(luò)完全獨(dú)立的一套網(wǎng)絡(luò)(網(wǎng)卡、交換機(jī)),最終會(huì)均攤到終端用戶的使用成本上。2.部署規(guī)模受限。如RoCEv2需要無損以太網(wǎng)的支持,要使能交換機(jī)的PFC功能,通常部署的集群規(guī)模不會(huì)很大,有資料顯示RoCEv2集群的規(guī)模不超過上千臺(tái)。3.運(yùn)維復(fù)雜。無損網(wǎng)絡(luò)需要對(duì)交換機(jī)、網(wǎng)絡(luò)做相應(yīng)的配置,此外PFC風(fēng)暴/PFC死鎖導(dǎo)致的潛在問題,整個(gè)數(shù)據(jù)中心的運(yùn)維工作量增大。4.降低云服務(wù)器的可用性。這樣的部署模式下,很難做到熱遷移。基于這些原因,提供這樣的單獨(dú)組網(wǎng)的云RDMA服務(wù),一般都是通過單獨(dú)的集群,小規(guī)模組網(wǎng),在特定的實(shí)例上支持的。VMVMVPCVPC網(wǎng)絡(luò)-里云-里云-里云我們的辦法性能性能CIPU架構(gòu)數(shù)據(jù)中心網(wǎng)絡(luò)數(shù)據(jù)中心網(wǎng)絡(luò)Hash不均衡解決之道自研神龍網(wǎng)絡(luò)設(shè)備虛擬化規(guī)模部署規(guī)模部署自研LUNATCP網(wǎng)絡(luò)傳輸協(xié)議安全隔離安全隔離自研HPCC網(wǎng)絡(luò)擁塞控制算法和現(xiàn)有硬件/設(shè)施融合和現(xiàn)有硬件/設(shè)施融合自研多路徑傳輸特性支持熱升級(jí)和熱遷移支持熱升級(jí)和熱遷移安全隔離其他性能生態(tài)兼容代碼零修改自研LUNA高性能協(xié)議自研HPCC擁塞算法多路徑支持RDMA安全隔離其他性能生態(tài)兼容代碼零修改自研LUNA高性能協(xié)議自研HPCC擁塞算法多路徑支持RDMA后端虛擬化支持高可用支持設(shè)備虛擬化VPC網(wǎng)絡(luò)虛擬化熱升級(jí)熱遷移監(jiān)控CIPU底座阿里云的eRDMA(ElasticRDMA,簡(jiǎn)稱eRDMA)的選擇是基于VPC網(wǎng)絡(luò)來構(gòu)建RDMA高性能網(wǎng)絡(luò)。eRDMA基于CIPU架構(gòu),是一款基于云上overlayVPC網(wǎng)應(yīng)用虛擬機(jī)裸金屬VirtlO-net前端VirtlO-net前端VirtlO-net設(shè)備CIPU\CloudinfrastructureCloudVPCVirtlO-net設(shè)備eRDMA設(shè)備eRDMA前端eRDMA設(shè)備eRDMA前端Hypervisor應(yīng)用eRDMA的技術(shù)架構(gòu)圖eRDMA的系統(tǒng)框圖eRDMA網(wǎng)卡eRDMA網(wǎng)卡 ib-device驅(qū)動(dòng)net-device驅(qū)動(dòng)eRDMA設(shè)備VirtlO設(shè)備eth設(shè)備-里云eRDMA網(wǎng)卡(ERI)和彈性網(wǎng)卡(ENI)是1:1對(duì)應(yīng)關(guān)系,完全復(fù)用VPC網(wǎng)絡(luò),可以在不改變業(yè)務(wù)組網(wǎng)的情況下,即可在原來VPC網(wǎng)絡(luò)配置下激活RDMA功能,體驗(yàn)到通常,物理的RDMA網(wǎng)卡硬件既包含以太網(wǎng)絡(luò)功能,也包括RDMA功能。反映到操作系統(tǒng)內(nèi)部,我們看到的設(shè)備關(guān)系形態(tài)如下圖左所示。而eRDMA實(shí)現(xiàn)時(shí),則采用了下圖右的實(shí)現(xiàn)方式:以太網(wǎng)卡的功能依然由以往已經(jīng)存在的VirtIO-Net的PCIe設(shè)備繼續(xù)提供,RDMA作為以太網(wǎng)卡的附屬功能,單獨(dú)由另外一個(gè)PCIe設(shè)備提供。傳統(tǒng)傳統(tǒng)RDMA網(wǎng)卡 ib-device驅(qū)動(dòng)net-device驅(qū)動(dòng)eth設(shè)備標(biāo)準(zhǔn)RDMA設(shè)標(biāo)準(zhǔn)RDMA設(shè)備RDMA操作全集RCRC語義自研的CC擁塞控制算法,容忍VPC網(wǎng)絡(luò)中的傳輸質(zhì)量變化(延遲、丟包等),在有損的網(wǎng)絡(luò)環(huán)境中依然擁有優(yōu)CIPU的充足片上資源,避免QP膨脹后的Cache倒換問題。1.高可用,支持熱遷移。eRDMA支持熱遷移能力,物理機(jī)宕機(jī)不影響用戶的實(shí)例運(yùn)行,可以很快遷移到其他可用的物理機(jī)之上,避免了單點(diǎn)故障導(dǎo)致的可用性喪失。2.配置簡(jiǎn)單、部署靈活。eRDMA不僅復(fù)用了VPC網(wǎng)絡(luò)的基礎(chǔ)設(shè)施,也復(fù)用了VPC的安全組等配置,無需單獨(dú)-里云VMVM協(xié)議處理擁塞控制異常處理VPC處理CIPU內(nèi)部的自研的擁塞管理,為eRDMA超大規(guī)-里云03eRDMA的應(yīng)用場(chǎng)景與實(shí)踐分布式鎖分布式鎖1.數(shù)據(jù)傳輸:基于不同的傳輸大小,選擇合適的傳輸行為,取得通信效率和系統(tǒng)資源使用的平衡:2.利用PCIe的P2P,旁路CPU實(shí)現(xiàn)GPU數(shù)據(jù)直通顯存顯存3.利用單邊操作,實(shí)現(xiàn)遠(yuǎn)端內(nèi)存當(dāng)cache使用4.分布式鎖-里云數(shù)據(jù)傳輸數(shù)據(jù)傳輸單邊操作將單邊操作將遠(yuǎn)端內(nèi)存當(dāng)cache使用o通用計(jì)算大數(shù)據(jù)AIo通用計(jì)算大數(shù)據(jù)AI應(yīng)用層應(yīng)用層SMC-R和NetACC通過提供的接口和socket完全一致,保證使用TCP接口的應(yīng)用給可以無縫替換成RDMA,從而無感體驗(yàn)到RDMA帶來的收益。通用數(shù)據(jù)庫AI訓(xùn)練工業(yè)仿真Redis通用數(shù)據(jù)庫AI訓(xùn)練工業(yè)仿真Redis數(shù)據(jù)庫場(chǎng)景適合RDMA加速的業(yè)務(wù)特征:網(wǎng)絡(luò)敏感型。應(yīng)用需要更低延遲(包括靜態(tài)/長(zhǎng)尾延遲);網(wǎng)絡(luò)負(fù)載型。應(yīng)用中的網(wǎng)絡(luò)部分的CPU占比高。-里云大數(shù)據(jù)大數(shù)據(jù)Spark大數(shù)據(jù)場(chǎng)景eRDMA生態(tài)應(yīng)用適配零改造,加業(yè)務(wù)性能大幅度提升**實(shí)際測(cè)試結(jié)果與多因素(測(cè)試benchmark選擇、實(shí)際物理網(wǎng)絡(luò)環(huán)境、實(shí)例規(guī)格等等)有關(guān)-里云接下來,我們介紹如何通過簡(jiǎn)單的方式,來直接體驗(yàn)eRDMA對(duì)應(yīng)用的加我們以netacc加速redis場(chǎng)景為例。購買ECS8代實(shí)例。我們需要首先購買ECS服務(wù)器。eRDMA首先在ECS的第8代實(shí)例上支持,所以實(shí)例規(guī)格選擇8代實(shí)例的y系列(倚天可,本次演示選擇g8ae機(jī)型的4xlarge規(guī)格,數(shù)量2臺(tái)。eRDMA驅(qū)動(dòng)。這樣當(dāng)實(shí)例啟動(dòng)后,腳本會(huì)自動(dòng)部署eRDMA相關(guān)的驅(qū)-里云在下一頁的網(wǎng)絡(luò)和安全組配置中,我們選擇好VPC和交換機(jī)之后,配置主網(wǎng)卡后續(xù)其他的購買操作和不使能eRDMA時(shí)-里-里云實(shí)例創(chuàng)建完畢后,會(huì)自動(dòng)啟動(dòng)。啟動(dòng)完成后,可以通過ssh/vnc/Workbench等方式登陸。登陸系統(tǒng)后,可以通過ibv_devinfo命令檢查驅(qū)動(dòng)是否安裝完畢。接下來我們部署redis軟件,只需要執(zhí)行yuminstall–yredis即可。-里-里云運(yùn)行redis-benchmark進(jìn)行TCP基準(zhǔn)測(cè)試,我們簡(jiǎn)單測(cè)試100clients,4threads,循環(huán)5000000次的set操-里云運(yùn)行redis-benchmark進(jìn)行RDMA基準(zhǔn)測(cè)試,測(cè)試場(chǎng)景和TCP保持一致,100clients,4threads,循環(huán)5000000次的set操作。我們使用Netacc作為無感加速方案,所以需要在原始命令開始加上netacc_run:7000006000005000004000003000002000001000000TCPeRDMATCP吞吐-里云云原生算力時(shí)代——倚天實(shí)例技術(shù)架構(gòu)與最佳實(shí)踐解析龐雄偉阿里云彈性計(jì)算產(chǎn)品專家01云原生算力需求的爆發(fā)及挑戰(zhàn)0203倚天實(shí)例典型應(yīng)用場(chǎng)景最佳實(shí)踐04X86->Arm遷移最佳實(shí)踐-里云01云原生算力需求的爆發(fā)及挑戰(zhàn)算力需求爆發(fā)對(duì)基礎(chǔ)設(shè)施帶來挑戰(zhàn)-里云數(shù)據(jù)爆炸式增長(zhǎng)海量數(shù)據(jù)分析處理并發(fā)要求高算力要求提升AI、視頻處理等對(duì)算力要求高算力投入成本增加持續(xù)提升基礎(chǔ)設(shè)施性價(jià)比摩爾定律減速處理器性能迭代放緩功耗、成本攀升功耗逐代上漲處理器性能不足摩爾定律減速處理器性能迭代放緩功耗、成本攀升功耗逐代上漲處理器性能不足?單vCPU性能提升緩慢?單服務(wù)器核數(shù)擴(kuò)展降速?硬件和芯片成本上漲-里-里云計(jì)算算力密集業(yè)務(wù)比重增長(zhǎng)-里-里云體積小效率高體積小VVVC-JAlibabacloud●Tencent騰訊tsysemReadyVVVC-JAlibabacloud●Tencent騰訊tsysemReadyARMCPU架構(gòu)以其開放性逐漸成為行業(yè)趨勢(shì)-里云ARMARM服務(wù)器增長(zhǎng)率最高全球范圍內(nèi),以全球范圍內(nèi),以Arm為核心架構(gòu)的CPU已經(jīng)開始顯現(xiàn)出增長(zhǎng)趨勢(shì)。根據(jù)全球服務(wù)器趨勢(shì)圖VSAMD市場(chǎng)占有率國(guó)內(nèi)外等大部分國(guó)內(nèi)外等大部分IT公司均推出了基于Arm平臺(tái)產(chǎn)品,依托ARM架構(gòu)芯片優(yōu)異的算力、低功耗等特性,有效幫助客戶業(yè)務(wù)降本增效。豐富的ARM開源生態(tài)已經(jīng)覆蓋主流業(yè)務(wù)場(chǎng)景-里云完善的支持,典型負(fù)載覆蓋Web、數(shù)據(jù)庫、大數(shù)據(jù)、中間件等個(gè)場(chǎng)景。Container&VirtualizationOperatingSystemwep口penEBSgvisoropenAnolis-里云02倚天軟硬一體架構(gòu)解析互聯(lián)網(wǎng)生命科學(xué)交通物流應(yīng)用云原生處理器ARMv9物理核(無HT)互聯(lián)網(wǎng)生命科學(xué)交通物流應(yīng)用云原生處理器ARMv9物理核(無HT)vTPM特性低功耗?更高物理核性能?垂直場(chǎng)景加速代碼零改造?視頻編解碼80%倚天實(shí)例大幅提升產(chǎn)品性價(jià)比-里云?僅需重新部署/編譯?支持主流開源系統(tǒng)軟件?原生支持多款PaaS產(chǎn)品48KB48KB共享1.28MB獨(dú)享物理核,算力更加強(qiáng)勁?倚天710每一個(gè)vCPU是一個(gè)物理core。X86每個(gè)vCPU是一個(gè)HT,兩個(gè)超線程共享一個(gè)物理Core。?倚天710CPUL1/L2/L3緩存Cache對(duì)比X86CPU均有提升,且L2cache獨(dú)享。8c32g1物理core=1HT=1vCPU1物理core1物理core=1HT=1vCPU48M/64vcpuIntelIceLakeCPUYitian710CPU50%安全水位70%安全水位50%安全水位70%安全水位-重新定義CPU安全水位X86倚天fps/core9.639.599.599.59.5fps/core9.639.599.599.59.5-里云計(jì)算密集型計(jì)算場(chǎng)景,性能更加穩(wěn)定?多任務(wù)高負(fù)荷場(chǎng)景,倚天性能線性度表現(xiàn)更好,支持高負(fù)載運(yùn)行?低功耗設(shè)計(jì),無睿頻,隨著用戶業(yè)務(wù)壓力增大性能穩(wěn)定輸出不下降8642倚天710倚天710 9.889.468.577.17 7.357.227.177.02X86X8612468-C8y-x2649.889.639.599.46-C7-x2648.577.32倚天產(chǎn)品?核密度高:底層物理機(jī)架構(gòu)設(shè)計(jì)以CIPU為核心,通過CIPU連接2顆倚天CPU,整機(jī)密度256core,未來更高?機(jī)柜密度高:采用1U緊湊設(shè)計(jì),空間倚天產(chǎn)品?核密度高:底層物理機(jī)架構(gòu)設(shè)計(jì)以CIPU為核心,通過CIPU連接2顆倚天CPU,整機(jī)密度256core,未來更高?機(jī)柜密度高:采用1U緊湊設(shè)計(jì),空間降低50%,低功耗CPU,部署密度翻倍彈性裸金屬容器容器?爆炸半徑減半:采用獨(dú)立雙節(jié)點(diǎn)型設(shè)計(jì)方案,獨(dú)立OS,降低爆炸半徑,同時(shí)可以提升密度,保障產(chǎn)品穩(wěn)A:VPC環(huán)境支持RDMA,比TCP時(shí)延降低一半?NVMe:采用NVMeESSD云盤,時(shí)延降低10%倚天710倚天710存儲(chǔ)資源最新一代CIPU架構(gòu)提升IO性能-里云VMVM神龍?zhí)摂M化DragonFly2.0VMVM以CIPU為核心系統(tǒng)架構(gòu)倚天倚天底層架構(gòu)軟硬協(xié)同,全棧優(yōu)軟硬協(xié)同,全棧優(yōu)化遷移工具加速適配云原生算力賦能業(yè)務(wù)電商、支付、大數(shù)據(jù)、數(shù)據(jù)庫、視頻云….行業(yè)場(chǎng)景技術(shù)復(fù)制應(yīng)用軟件基礎(chǔ)軟件操作系統(tǒng)虛擬化層基礎(chǔ)設(shè)施-里-里云性能優(yōu)化開箱即用性能優(yōu)化開箱即用外部業(yè)務(wù)廣告類、在線教育、廣電傳媒、生命科學(xué)等廣告類、在線教育、廣電傳媒、生命科學(xué)等圈圈ALBCFWRDSACKWeb/安全數(shù)據(jù)庫云原生大數(shù)據(jù)視頻/圖片智能識(shí)別智能識(shí)別ARM指令弱內(nèi)存增強(qiáng)AlinuxAlinux3openAnolis③Centos倚天710雙單路機(jī)型提升主頻HypervisorFuzz代碼漏洞檢測(cè)KSAN/ASAN內(nèi)存安全檢查kvm-unit-test測(cè)試覆蓋HypervisorFuzz代碼漏洞檢測(cè)KSAN/ASAN內(nèi)存安全檢查kvm-unit-test測(cè)試覆蓋場(chǎng)景化壓測(cè)軟硬一體全面賦能倚天實(shí)例,保證產(chǎn)品穩(wěn)定性-里云建立倚天RAS體系,涵蓋穩(wěn)定性、虛擬化、建立倚天RAS體系,涵蓋穩(wěn)定性、虛擬化、OS、固件、芯片多維度?虛擬化核心組件單元測(cè)試、版本組合兼容性測(cè)試、長(zhǎng)穩(wěn)測(cè)試(包含生命周期、熱遷移、熱插拔、熱升級(jí)等原子特性)?場(chǎng)景化壓測(cè),涵蓋基礎(chǔ)性能benchmark、常用業(yè)務(wù)等?版本7*24小時(shí)長(zhǎng)穩(wěn)壓測(cè)和Nightly性能看護(hù)?從代碼、工具、版本全方面保障倚天穩(wěn)定性和兼容性?軟硬件全域自研?構(gòu)建端到端的服務(wù)器質(zhì)量保障體系,“金剛”測(cè)試系統(tǒng)和“滄?!贝髷?shù)據(jù)智能預(yù)警平臺(tái),有效攔截硬件相關(guān)風(fēng)險(xiǎn)?芯片維度加強(qiáng)公有云實(shí)例機(jī)型設(shè)備適配性分析,識(shí)別排除內(nèi)存、安全性等方向的潛在風(fēng)險(xiǎn)因素?線上穩(wěn)定性可定位/健壯性增強(qiáng)改進(jìn)-里云03倚天實(shí)例典型應(yīng)用場(chǎng)景最佳實(shí)踐大數(shù)據(jù)承載淘寶數(shù)據(jù)分析、菜鳥數(shù)據(jù)分析2個(gè)大數(shù)據(jù)承載淘寶數(shù)據(jù)分析、菜鳥數(shù)據(jù)分析2個(gè)-里云力下,平均延時(shí)有30%~50%的優(yōu)收益超過30%。數(shù)據(jù)庫倚天云原生算力優(yōu)勢(shì)性能優(yōu)化開箱即用編解碼需要高算力、高并發(fā) 智能算法優(yōu)化音視頻轉(zhuǎn)碼成本消耗高轉(zhuǎn)碼服務(wù)短時(shí)間需要拉起大量資源倚天云原生算力優(yōu)勢(shì)性能優(yōu)化開箱即用編解碼需要高算力、高并發(fā) 智能算法優(yōu)化音視頻轉(zhuǎn)碼成本消耗高轉(zhuǎn)碼服務(wù)短時(shí)間需要拉起大量資源倚天實(shí)例集群webrtc助力某在線教育客戶輕松降本增效-里云視頻后處理模塊視頻后處理模塊相同配置轉(zhuǎn)碼路數(shù)增加視頻轉(zhuǎn)錄模塊低成本轉(zhuǎn)碼-里云6,0005,0004,0003,0002,0001,0004,9143,1333,3493,1333,100獨(dú)立物理核心獨(dú)立cache獨(dú)立物理核心獨(dú)立cache和ALU““AI+Science科學(xué)計(jì)算軟件需要大量資源,傳統(tǒng)計(jì)算資源有限、且成本較高。倚天710云實(shí)例實(shí)現(xiàn)了科學(xué)計(jì)算場(chǎng)景下的降本與增效,加快了數(shù)據(jù)驅(qū)動(dòng)物理模型的開發(fā)進(jìn)程?!笨蛻粲?jì)算團(tuán)隊(duì)負(fù)責(zé)人大廳服CDN戰(zhàn)斗服0代碼改造性能提升120%按需彈性全新游戲《守塔不能停》歷時(shí)三年開發(fā)并發(fā)布的塔防類實(shí)時(shí)對(duì)戰(zhàn)大廳服CDN戰(zhàn)斗服0代碼改造性能提升120%按需彈性全新游戲《守塔不能?!窔v時(shí)三年開發(fā)并發(fā)布的塔防類實(shí)時(shí)對(duì)戰(zhàn)網(wǎng)絡(luò)傳輸及其它資源消耗也同步增加,具備高性價(jià)比、高算力能力是客戶亟待解決的問題。訂單資產(chǎn)存儲(chǔ)及統(tǒng)計(jì)運(yùn)營(yíng)數(shù)據(jù)存儲(chǔ)塊存儲(chǔ)-里云基于倚天c8y在客戶實(shí)測(cè)中跑分是同級(jí)X86架構(gòu)實(shí)例的120%,綜合性價(jià)比接近200%?;谝刑靋8y在客戶實(shí)測(cè)中跑分是同級(jí)X86架構(gòu)實(shí)例的120%,綜合性價(jià)比接近200%。動(dòng)態(tài)管理聊天服校驗(yàn)及戰(zhàn)斗結(jié)算服務(wù)數(shù)據(jù)服務(wù)模塊GDB算法優(yōu)化應(yīng)用參數(shù)算法優(yōu)化應(yīng)用參數(shù)數(shù)據(jù)壓縮系統(tǒng)優(yōu)化訪存優(yōu)化eRDMA-里云某互聯(lián)網(wǎng)客戶使用倚天實(shí)例后,大數(shù)據(jù)性能提升30%。某互聯(lián)網(wǎng)客戶使用倚天實(shí)例后,大數(shù)據(jù)性能提升30%?!瓚?yīng)用參數(shù)應(yīng)用參數(shù)JDKJDK11AlinuxAlinux3eRDMAeRDMA訪存預(yù)期訪存預(yù)期數(shù)據(jù)壓縮數(shù)據(jù)壓縮倚天710倚天7102.8GHz,無HTDDRDDR5內(nèi)存高內(nèi)存帶寬-里云-里云SourceContinuousContinuousIntegration/Delivery/Deployment豐富的計(jì)算機(jī)軟件豐富的計(jì)算機(jī)軟件解釋型語言開發(fā)的程序在遷移到ARM64平臺(tái)時(shí),不依賴本地庫則無需重新編譯,若調(diào)用了本地庫,則本地庫需要遷移編譯型語言C/C++/Go/…解釋型語言Java/Python/PHP/…匯編語言二進(jìn)制機(jī)器碼軟件跨架構(gòu)遷移的根本原因是指令集的差異-里云?機(jī)器指令必須與CPU的指令集匹配,在運(yùn)行時(shí)通過編譯型語言開發(fā)的程序在從x86處理器遷移到ARM64位處理器時(shí),必須經(jīng)過重新編譯才能運(yùn)行。嵌入在高級(jí)語言中的匯編語言需要人工介入適配嵌入在高級(jí)語言中的匯編語言需要人工介入適配需要遷移,編譯器生成無需人工介入需要遷移,編譯器生成無需人工介入指令集架構(gòu)X86與ARM64架構(gòu)指令集區(qū)別大,是應(yīng)用需要遷移的根本原因指令集架構(gòu)C/C++是典型的編譯型語言,主要是解決編譯構(gòu)建腳本及源碼修改兩類問題。從源碼到可運(yùn)行程序之間需經(jīng)過如下步驟:-里云源碼源碼Hello_world.c預(yù)處理預(yù)編譯文件預(yù)編譯文件Hello_world.i編譯匯編代碼匯編代碼Hello_world.s匯編Hello_world.o鏈接可執(zhí)行文件可執(zhí)行文件被概括稱為編譯階段,選擇正確編譯器即可,用戶不用關(guān)心 configure 2.CMakeLists.txt2.autogen.sh/configure 4.選擇
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 醫(yī)療器械質(zhì)量檢測(cè)服務(wù)合同
- 職場(chǎng)辦公技能培訓(xùn)教育范文
- 高考語文復(fù)習(xí):人物傳記類文言文專練
- 電線電纜采購合同書
- 法律行業(yè)律師服務(wù)費(fèi)用免責(zé)協(xié)議
- 經(jīng)典童話白雪公主的解讀與賞析
- 高考英語完形填空專題集中訓(xùn)練含參考答案(5份)
- 農(nóng)村居民公共服務(wù)需求滿足指導(dǎo)手冊(cè)
- 問題解決指南
- 金融科技服務(wù)風(fēng)險(xiǎn)免責(zé)合同
- 大班語言活動(dòng)-海豹到哪里去了
- 小班社會(huì)《認(rèn)識(shí)家用電器》課件
- 高考概率大題必練20題(理科)-含答案
- 涼水井煤礦礦山地質(zhì)環(huán)境與土地復(fù)墾方案
- 果實(shí)酚類和揮發(fā)性物質(zhì)含量特征及其與果實(shí)品質(zhì)關(guān)系的研究
- 2023年東華高級(jí)中學(xué)中考自招數(shù)學(xué)復(fù)習(xí)題及答案解析
- 結(jié)果比過程重要辯論賽
- JTG C10-2007 公路勘測(cè)規(guī)范
- 工程結(jié)算審核項(xiàng)目投標(biāo)技術(shù)方案造價(jià)咨詢服務(wù)方案
- 高中英語2024屆新高考詞匯轉(zhuǎn)換匯總(共六組)
- 2024年廣州市高三一模高考英語試卷試題答案詳解(含作文范文)
評(píng)論
0/150
提交評(píng)論