版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
Alluxio資深架構(gòu)師.....0ScalingLaw:大語言模型(LLM)訓(xùn)練的性能受到訓(xùn)練過程中不斷增長(zhǎng)的token數(shù)量、模型檢查點(diǎn)(checkpoint)大小的驅(qū)動(dòng)。*來源:OpenAI:ScalingLawsforNeuralLanguageModels:htps:/LLM訓(xùn)練需要大量數(shù)據(jù)(數(shù)十億至15萬億token)。隨著模型擴(kuò)容,需要更快、更高效的I/O來應(yīng)對(duì)數(shù)據(jù)集的快速增長(zhǎng)。來源:Wilwerunoutofdata?LimitsofLLMscalingbasedonhuman-generateddata:htps:/大模型的規(guī)模從7B到1T不等隨著大模型參數(shù)的增多,為避免訓(xùn)練進(jìn)度丟失,訓(xùn)練過程中進(jìn)行頻繁的checkpointing十分關(guān)鍵要高效管理和存儲(chǔ)checkpoint,確保模型更新不會(huì)成為訓(xùn)練速度的瓶頸,I/O性能至關(guān)重要*圖:LLM模型規(guī)模逐年增長(zhǎng)情況*圖:訓(xùn)練作業(yè)故障來源:來源:*HuggingFace:htps:/**Meta:htps:/高性能的數(shù)據(jù)訪問高性能的數(shù)據(jù)訪問數(shù)據(jù)管理全局?jǐn)?shù)據(jù)訪問分布式緩存數(shù)據(jù)管理全局?jǐn)?shù)據(jù)訪問分布式緩存性能和可擴(kuò)展性企業(yè)安全與合規(guī)性能和可擴(kuò)展性企業(yè)安全與合規(guī)云去中心化架構(gòu),支持100億以上對(duì)象降低數(shù)據(jù)工程復(fù)雜性和成本模型迭代更高效2-8x數(shù)據(jù)訪問速度提升集訓(xùn)可擴(kuò)展性高、訓(xùn)練任務(wù)容錯(cuò)性高模型訓(xùn)練擴(kuò)展到100億對(duì)象以上,滿足AI需求模型訓(xùn)練??[降本]可在標(biāo)準(zhǔn)的低成本存儲(chǔ)部署運(yùn)行?[增效]訓(xùn)練數(shù)據(jù)訪問加速,GPU利用率保持90%以上?[靈活]減少數(shù)據(jù)副本,統(tǒng)一數(shù)據(jù)訪問,靈活對(duì)接GPU集群模型部署支持超高并發(fā)的模型服務(wù)(從訓(xùn)練集群到推理集群)模型部署??[快速部署]生產(chǎn)環(huán)境下的部署時(shí)間降低至原先的1/2-1/3?[規(guī)避瓶頸]減輕網(wǎng)絡(luò)帶寬競(jìng)爭(zhēng),降低底層存儲(chǔ)負(fù)載?[高效管理]根據(jù)使用模式實(shí)施數(shù)據(jù)預(yù)加載大數(shù)據(jù)ETL大數(shù)據(jù)查詢模型訓(xùn)練基于一致性哈希選擇WorkerABCABCAlluxioWorker1AlluxioWorker2···AlluxioWorkerns3://buckets3://bucket/file1s3://bucket/file2ABCBCObjectStoreAlluxio命名空間/本都數(shù)倉AWSus-east-1Alluxio可被視為是一個(gè)邏輯文件系統(tǒng)多個(gè)不同的存儲(chǔ)服務(wù)可以掛載到同一邏輯下的Alluxio命名空間中一個(gè)Alluxio路徑對(duì)應(yīng)一個(gè)持久化存儲(chǔ)地址alluxio://ip:port/Data/Sales<->hdfs://service/salesdata/Sales高并發(fā)隨機(jī)讀高并發(fā)隨機(jī)讀解決高達(dá)150倍的讀放大問題非結(jié)構(gòu)化文件的并行讀性能提升高達(dá)9倍結(jié)構(gòu)化文件的隨機(jī)讀性能提升2倍至15倍零拷貝數(shù)據(jù)傳輸提高內(nèi)存效率提高大文件順序流式讀取性能30%-達(dá)到的效果核心優(yōu)化邏輯達(dá)到的效果據(jù)。術(shù)去中心化元數(shù)據(jù)管理架構(gòu)WAWA對(duì)象存儲(chǔ)底層存儲(chǔ)1···Data底層存儲(chǔ)2PYTorchHDFSDataLANMetaDataMetaData···MetaData底層存儲(chǔ)2底層存儲(chǔ)1對(duì)象存儲(chǔ)HDFSDataDataWANLANGPU服務(wù)器通過AlluxioFuse客戶端可在10s內(nèi)加載完100GB的Checkpoint,即單客戶端的加載吞吐達(dá)到10GB/s。(bs=256kb,32threads)(bs=256kb,32threads)(bs=256kb,32threads)在訓(xùn)練任務(wù)寫checkpoint的過程中,所有參與在訓(xùn)練任務(wù)寫checkpoint的過程中,所有參與或者磁盤速度將checkpoints先寫到本地,再異步上傳到慢速持久層,從而大幅縮減GPU閑置時(shí)間 ●AlluxioV3.2:在單節(jié)點(diǎn)環(huán)境下,當(dāng)Theads=1時(shí)可以達(dá)到2GiB/s,當(dāng)Theads=32時(shí)可以達(dá)到8GiB/s,3.2版本性能明顯優(yōu)于3.1版本?!馎lluxioV3.2在隨機(jī)熱讀性能方面也實(shí)現(xiàn)了優(yōu)化數(shù)據(jù)對(duì)比—單卡吞吐100.00%100%Weka96.61%92.24%Hammerspace93.66%99.99%93.71%95.41%GPU利用率平均GPU利用率平均SourceSource:/test-iframe/NAS讀和寫,導(dǎo)致NAS性能很差品降低數(shù)據(jù)運(yùn)維的復(fù)雜度降低數(shù)據(jù)運(yùn)維的復(fù)雜度提升GPU利用率提升GPU利用率拉到NAS,造成大量的數(shù)據(jù)冗余GPU資源利用率不高:30-50%GPU資源利用率不高:30-50%主要挑戰(zhàn)主要挑戰(zhàn)Fuse·1tttNFuseFuse··使用NAS帶來了額外的成本,并品使用NAS,增加了架構(gòu)復(fù)雜度,本地高性能SSD盤資源,通過緩?fù)赓徺INAS的成本,又將GPU上空閑的SSD盤有效利用模型部署模型訓(xùn)練模型上線模型部署模型訓(xùn)練模型上線模型訓(xùn)練個(gè)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度高端住宅項(xiàng)目分銷渠道合作協(xié)議3篇
- 二零二五版市政道路砍割樁施工項(xiàng)目合同2篇
- 2025年度生態(tài)農(nóng)業(yè)餐飲食材配送框架協(xié)議3篇
- 梧州職業(yè)學(xué)院《推拿學(xué)》2023-2024學(xué)年第一學(xué)期期末試卷
- 2024版醫(yī)療機(jī)構(gòu)餐飲服務(wù)合作協(xié)議版B版
- 二零二五版醫(yī)療設(shè)備檢驗(yàn)試劑配套供應(yīng)協(xié)議2篇
- 2024版行政人員合同
- 二零二五版單位食堂餐飲服務(wù)設(shè)施升級(jí)改造合同3篇
- 2024版廣告設(shè)計(jì)與發(fā)布合同
- 太湖創(chuàng)意職業(yè)技術(shù)學(xué)院《輕化工程專業(yè)發(fā)展概論》2023-2024學(xué)年第一學(xué)期期末試卷
- 2024年醫(yī)師定期考核臨床業(yè)務(wù)知識(shí)考試題庫及答案(共三套)
- 2014新PEP小學(xué)英語六年級(jí)上冊(cè)-Unit5-What-does-he-do復(fù)習(xí)課件
- 建筑材料供應(yīng)鏈管理服務(wù)合同
- 孩子改名字父母一方委托書
- 2024-2025學(xué)年人教版初中物理九年級(jí)全一冊(cè)《電與磁》單元測(cè)試卷(原卷版)
- 江蘇單招英語考綱詞匯
- 2024年事業(yè)單位財(cái)務(wù)工作計(jì)劃例文(6篇)
- 2024年工程咨詢服務(wù)承諾書
- 青桔單車保險(xiǎn)合同條例
- 車輛使用不過戶免責(zé)協(xié)議書范文范本
- 2023-2024學(xué)年天津市部分區(qū)九年級(jí)(上)期末物理試卷
評(píng)論
0/150
提交評(píng)論