【益企研究院】2025年AI時(shí)代的存儲基石_第1頁
【益企研究院】2025年AI時(shí)代的存儲基石_第2頁
【益企研究院】2025年AI時(shí)代的存儲基石_第3頁
【益企研究院】2025年AI時(shí)代的存儲基石_第4頁
【益企研究院】2025年AI時(shí)代的存儲基石_第5頁
已閱讀5頁,還剩153頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

益企研究院 04 09 12大模型場景下的以存強(qiáng)算 12 14 18算力與存力高效協(xié)同 22 24 24 25 29 33 33 35 39邊緣側(cè)計(jì)算和存儲能力增長 40 41 42 43 44 45 46 47 49 52 52 53 54 55 56 59 60 60 62 64 65 68 4自2022年底通用大模型技術(shù)取得突破以來,人工智能領(lǐng)域進(jìn)入發(fā)展快車道。2024年2月發(fā)布的多模態(tài)生成式模型,標(biāo)志著基礎(chǔ)大模型正從單一數(shù)據(jù)處理向多維度信息整合演進(jìn)。這類系統(tǒng)通過融合文本、圖像、音頻等多模態(tài)數(shù)據(jù),實(shí)現(xiàn)更接近人類認(rèn)知的復(fù)雜信息處理能力,在醫(yī)療、交通、工業(yè)制造和氣象預(yù)測等領(lǐng)域展現(xiàn)出顯著應(yīng)用價(jià)值。近期,得到廣泛采用的開源大模型通過系統(tǒng)性優(yōu)化,在保持高性能的同時(shí)大幅證了算法效率與算力規(guī)模協(xié)同發(fā)展的重要性,為行業(yè)提供了多樣化的技術(shù)路徑參考。從2018年始,希捷參與了益企研究院發(fā)起的數(shù)字中國萬里行活動。幾年來,數(shù)字中融、制造等相關(guān)行業(yè)上百個(gè)數(shù)據(jù)中心,見證了云計(jì)算、人工智能高速發(fā)展下的技術(shù)應(yīng)△JasonFeist希捷科技市場營銷高級副總裁52024年,希捷科技再次聯(lián)合益企研究院,針對不同行業(yè)場景深入調(diào)研和解讀。我們發(fā)現(xiàn)算力和存力的緊密結(jié)合,正推動著數(shù)字經(jīng)濟(jì)高質(zhì)量發(fā)展?;诒敬握{(diào)研,我們認(rèn)為以下三個(gè)方面值得在更大的范圍內(nèi)進(jìn)行探討。首先,隨著數(shù)據(jù)的爆炸式增長,生成式AI應(yīng)用走向普及,更豐富的內(nèi)容、更頻繁的復(fù)制以及更持久的數(shù)據(jù)留存,帶來了更多的數(shù)據(jù)創(chuàng)建和存儲需求。根據(jù)市場研究機(jī)構(gòu)IDC的預(yù)測,到2028年,全球預(yù)計(jì)將產(chǎn)生394ZB數(shù)據(jù)。而現(xiàn)代頻和電子郵件等,它們無法規(guī)則地納入到傳統(tǒng)數(shù)據(jù)庫中。在AI業(yè)利用數(shù)據(jù)的能力提升,帶動數(shù)據(jù)存儲、管理、使用的需求增長。用戶越來越關(guān)注數(shù)據(jù)存儲容量、數(shù)據(jù)訪問速度、設(shè)備與系統(tǒng)的能效等方面。△IDC:全球生成的數(shù)據(jù)中,只有不到5%會被保存下來。預(yù)計(jì)到2028年,存儲在云端的數(shù)據(jù)約10ZB(具體構(gòu)成如上圖,HDD占比約80%,是SSD的6倍多),企業(yè)端約6ZB,消費(fèi)端約4ZB6更重要的是,高質(zhì)量數(shù)據(jù)是構(gòu)建可信人工智能的支柱。數(shù)據(jù)的準(zhǔn)確性、完整性、一致性和時(shí)效性直接影響著AI模型的訓(xùn)練效果和決策的可靠性。不準(zhǔn)確的數(shù)據(jù)可能導(dǎo)致模型產(chǎn)生錯(cuò)誤的預(yù)測和判斷。反之,良好的數(shù)據(jù)管理,跟蹤模型歷史和數(shù)據(jù)脈絡(luò)不僅可以幫助企業(yè)實(shí)現(xiàn)精準(zhǔn)決策,還確保企業(yè)遵守人工智能法規(guī)。同時(shí)可以避免企業(yè)依賴于單一來源或者商業(yè)利益驅(qū)動下的專有數(shù)據(jù),使AI模型更加全面準(zhǔn)確地反映現(xiàn)實(shí)世界情況,確保推理的可確定性。其次,AI工作負(fù)載在不同階段需要不同特點(diǎn)和類型的算力、存力支撐。在大型數(shù)據(jù)中心部署中,AI相關(guān)數(shù)據(jù)在使用和創(chuàng)建的無限循環(huán)中流動。工作流程的每個(gè)階段都需要不同組合的內(nèi)存和存儲設(shè)備?!鰽I數(shù)據(jù)從源數(shù)據(jù)到訓(xùn)練模型、創(chuàng)建內(nèi)容、存儲內(nèi)容、保留數(shù)據(jù)、重復(fù)利用數(shù)據(jù)的無限循環(huán)AI相關(guān)數(shù)據(jù)周而復(fù)始的無限循環(huán)從定義、查找和準(zhǔn)備數(shù)據(jù)開始。通過網(wǎng)絡(luò)訪問的存儲便于共享和擴(kuò)展,其中硬盤(HDD)能夠長期保存原始數(shù)據(jù)并提供數(shù)據(jù)保護(hù),固態(tài)盤(SSD)則充當(dāng)可即時(shí)訪問的數(shù)據(jù)層。在模型的訓(xùn)練過程中,先要快速地從存儲中加載數(shù)據(jù)到HBM(高帶寬內(nèi)存)、DRAM以及本地固態(tài)盤以供后續(xù)的計(jì)算密集型7操作使用。網(wǎng)絡(luò)硬盤和固態(tài)盤存儲檢查點(diǎn),以保護(hù)和優(yōu)化模型訓(xùn)練。推理過程中的內(nèi)便不斷進(jìn)行優(yōu)化。硬盤用于存儲并保護(hù)內(nèi)容的副本。在這一系列步驟之后,數(shù)據(jù)被妥善保存下來,成為構(gòu)建可信賴AI的基礎(chǔ)。最后,數(shù)據(jù)會被重新利用,為AI模型提供反饋信息。網(wǎng)絡(luò)硬盤和固態(tài)盤在不同的地理位置存儲AI數(shù)據(jù)。對模型訓(xùn)練來說,為了能夠快速恢復(fù)訓(xùn)練,需要頻繁創(chuàng)建檢查點(diǎn)。大容量、高性能的AI存儲系統(tǒng)能夠顯著節(jié)省訓(xùn)練所需的時(shí)間,并確保AI集群計(jì)算能力的高可用性。數(shù)據(jù)的持續(xù)生成帶來更多存儲需求,而后者反過來又推動了數(shù)據(jù)生成和人工智能的進(jìn)化,形成了一種良性循環(huán)?!髟诖笮蛿?shù)據(jù)中心部署中,大多數(shù)AI相關(guān)的數(shù)據(jù)最終都存儲在大容量對象存儲中隨著人工智能基礎(chǔ)設(shè)施的更新,AI工作負(fù)載在性能、容量和能耗方面對數(shù)據(jù)中心和邊緣計(jì)算的存儲提出了嚴(yán)峻挑戰(zhàn)。數(shù)據(jù)的處理和存儲在整個(gè)AI業(yè)務(wù)流程和生態(tài)系統(tǒng)中扮演著重要角色,而存儲與計(jì)算共同構(gòu)成了AI落地的關(guān)鍵基礎(chǔ)設(shè)施。最后,在AI相關(guān)的數(shù)據(jù)中心,對存儲容量要求大幅增長,不同的存儲介質(zhì)在性能和可擴(kuò)展性方面各具優(yōu)勢。希捷的熱輔助磁記錄技術(shù)突破了硬盤面密度的增長瓶頸,有效提升了硬盤容量、性能8基于魔彩盒3+(Mozaic3+)技術(shù)的希捷銀河新一代企業(yè)級硬盤,已經(jīng)在超大規(guī)模數(shù)據(jù)中心部署。以希捷為代表的機(jī)械硬盤廠商與服務(wù)器廠商、最終用戶緊密協(xié)作,不斷擴(kuò)展存儲能力,構(gòu)建高可靠、高價(jià)值存儲方案與服務(wù),以保證整體解決方案的性能和穩(wěn)定性,有效地激活數(shù)據(jù)價(jià)值。AI時(shí)代,存儲比以往任何時(shí)候都更為重要,因?yàn)樗沃詈诵牡馁Y產(chǎn)——數(shù)據(jù)。在AI迅速發(fā)展的當(dāng)下,數(shù)據(jù)成為了推動人工智能進(jìn)步的關(guān)鍵要素。存儲作為數(shù)據(jù)的載體,其重要性不言而喻。為了充分抓住AI帶來的機(jī)遇,企業(yè)需要進(jìn)行長期的、戰(zhàn)略性的存儲容量和性能規(guī)劃。只有這樣,才能滿足AI對海量數(shù)據(jù)的存儲需求,為人工智能的發(fā)展提供堅(jiān)實(shí)的基礎(chǔ)。AI生態(tài)系統(tǒng)的重構(gòu)對計(jì)算、存儲、網(wǎng)絡(luò)等多種組件提出了更高的要求。存儲作為人工智能大模型的關(guān)鍵基座,不僅提供了數(shù)據(jù)存儲和管理的基礎(chǔ)支撐,還推動了生態(tài)互人工智能(ArtificialIntelligence,AI)技術(shù)自誕生之初,便開啟了從理論探索到實(shí)踐應(yīng)用的發(fā)展歷程。初期,以專家系統(tǒng)為代表的AI技術(shù),嘗試模擬人類專家的決策過程,為特定領(lǐng)域提供智能支持。隨著技術(shù)的不斷進(jìn)步,機(jī)器學(xué)習(xí)(Machine動了自然語言處理、計(jì)算機(jī)視覺等領(lǐng)域的飛速發(fā)展。伴隨著大模型的爆發(fā)和人工智能技術(shù)的快速迭代,計(jì)算架構(gòu)、算法框架、數(shù)據(jù)供給正面臨深刻變革,生成式AI正在△人工智能將推動總潛在市場(TAM)增長率達(dá)到更高的水平(來源:希捷@OCP)變到質(zhì)變長期積累的結(jié)果,也是GenAI(GenerativeAI,生成式人工智能)發(fā)展的重要里程碑。從GPT-4開始,超大規(guī)模預(yù)訓(xùn)練模型展示了一條通向通用人工智能的可以用自然語言方式生成任務(wù)描述,以非常靈活的方式應(yīng)對大量長尾問題和開放性任務(wù),甚至是一些主觀的描述。整個(gè)IT行業(yè)正處于為AI和GenAI重塑基礎(chǔ)設(shè)施的關(guān)鍵算法突破、算力緊俏的背后,是數(shù)據(jù)需求的激增。在深度學(xué)習(xí)時(shí)代,高質(zhì)量的數(shù)據(jù)能夠?yàn)槿斯ぶ悄苣P吞峁?zhǔn)確的學(xué)習(xí)樣本和標(biāo)簽,使得模型能夠從中提取有效的規(guī)律和特征。例如,在圖像識別領(lǐng)域,大量清晰、標(biāo)注準(zhǔn)確的圖像數(shù)據(jù)是訓(xùn)練高性能模型的關(guān)鍵。只有通過對這些數(shù)據(jù)的學(xué)習(xí),模型才能逐漸掌握不同物體的特征,從而準(zhǔn)確地識別出各種圖像中的內(nèi)容。在自然語言處理中,豐富多樣的文本數(shù)據(jù)能夠幫助模型理解語言的結(jié)構(gòu)、語義和上下文關(guān)系,從而實(shí)現(xiàn)準(zhǔn)確的語言翻譯、文本生成等任務(wù)。隨著大語言模型的爆發(fā),公眾的注意力常常集中在算力規(guī)模(如GPU卡數(shù)量)上,但業(yè)內(nèi)先驅(qū)們早已認(rèn)識到數(shù)據(jù)才是最難補(bǔ)齊的短板。根據(jù)OpenAI在2020年論文中展示的大語言模型擴(kuò)展法則(Kaplanscalinglaws每個(gè)參數(shù)需要1.7個(gè)文本Token,175B大語言模型需要300BTokens。而DeepMind在2022年提出的霍夫曼擴(kuò)展法則(Hoffmannsca數(shù)需要大約20個(gè)Token進(jìn)行訓(xùn)練。一個(gè)10B規(guī)模的模型需要約200BTokens,若每個(gè)Token是FP32數(shù)據(jù)格式,那就意味著800GB的數(shù)據(jù)。DeepMind的論文預(yù)測,10Trillion(10萬億)規(guī)模參數(shù)需要216TTokens。這個(gè)數(shù)字10T規(guī)模的模型需要當(dāng)前百B級模型的千倍甚至萬倍的算力或訓(xùn)練時(shí)間?!鞒鲎訢eepMind發(fā)表的論文《TrainingCompute-OptimalLargeLanguageModels》,2022年3月簡而言之,有效數(shù)據(jù)匱乏已經(jīng)成為當(dāng)前預(yù)訓(xùn)練階段的主要矛盾。雖然模型參數(shù)仍在繼續(xù)增加,但由于數(shù)據(jù)的限制,更大規(guī)模的模型在實(shí)現(xiàn)通用人工智能(AGI,ArtificialGeneralIntelligence)的道路上存在訓(xùn)練不足的隱患。如何攝取、整理、處理、存儲超乎想象的巨量數(shù)據(jù)成為AI時(shí)代最關(guān)鍵的問題。按照霍夫曼擴(kuò)展法則,模型的規(guī)模和訓(xùn)練數(shù)據(jù)的規(guī)模是決定模型能力的關(guān)鍵因素,超千億參數(shù)的大模型研發(fā)不僅僅是算法問題,而是囊括了底層龐大算力、網(wǎng)絡(luò)、存儲等諸多領(lǐng)域的復(fù)雜系統(tǒng)性工程,需要有超大規(guī)模數(shù)據(jù)中心的AI算力來支撐。而在當(dāng)前算力成本高昂的背景下,提升算力利用率成為了有效提高系統(tǒng)性能和降低整體成本的關(guān)鍵。因此,面對算力成本急劇上升和優(yōu)化算力利用率的迫切需求,存儲系統(tǒng)的構(gòu)建大模型場景下的以存強(qiáng)算大模型的全生命周期主要可以分為三個(gè)階段,包括數(shù)據(jù)的采集、訓(xùn)練/微調(diào)、推理?!魑④浛偨Y(jié)的AI模型生命周期,中間三個(gè)都屬于模型的訓(xùn)練階段,而數(shù)據(jù)采集、預(yù)訓(xùn)練和微調(diào)是對存儲層要求較高的環(huán)節(jié)型從單模態(tài)到多模態(tài),出現(xiàn)數(shù)百億的小文件,多模態(tài)大模型所需的訓(xùn)練數(shù)據(jù)量是傳統(tǒng)單模態(tài)小模型的1000倍以上,數(shù)據(jù)預(yù)處理時(shí)長占AI數(shù)據(jù)挖掘全流程的30%,對算力消耗巨大。存儲系統(tǒng)需要高效地存儲和調(diào)度大規(guī)模的數(shù)據(jù),包括結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),可能包含文字、圖片、視頻、音頻等多種多樣的數(shù)據(jù)類型,用戶迫切希望擁有一個(gè)大容量、低成本、高可靠的數(shù)據(jù)存儲底座。例如,在自然語言處理領(lǐng)域,為了訓(xùn)練一個(gè)強(qiáng)大的語言模型,需要收集來自書籍、文章、網(wǎng)頁等各種這些數(shù)據(jù)不僅數(shù)量龐大,而且格式各異,包括純文本、HTML、PDF等。存儲系統(tǒng)需要具備足夠的容量來容納這些數(shù)據(jù),同時(shí)還要保證數(shù)據(jù)的安全性和可靠性,防止數(shù)據(jù)儲系統(tǒng)需要與計(jì)算資源緊密結(jié)合,實(shí)現(xiàn)高效的數(shù)據(jù)處理。在模型訓(xùn)練環(huán)節(jié),訓(xùn)練數(shù)據(jù)集加載慢、易中斷、數(shù)據(jù)恢復(fù)時(shí)間長等問題是大模型訓(xùn)練中的常見難題,存儲系統(tǒng)必須足夠快速地為AI算力芯片提供訓(xùn)練所需數(shù)據(jù)。為了解決這些問題,需要實(shí)現(xiàn)海量小文件數(shù)據(jù)集快速加載,降低GPU等待時(shí)間,以及快速讀寫檢查點(diǎn)(checkpoint)文件,降低恢復(fù)時(shí)長,提高訓(xùn)練效率。首先,對于海量小文件數(shù)據(jù)集的快速加載,可以采用分布分布式文件系統(tǒng)可以將數(shù)據(jù)分散存儲在多個(gè)節(jié)點(diǎn)上,提高數(shù)據(jù)的并行訪問能力。同時(shí),數(shù)據(jù)緩存技術(shù)可以將頻繁訪問的數(shù)據(jù)緩存在內(nèi)存中,減少存儲I/O操作,提高數(shù)據(jù)加載速度。其次,對于快速讀寫檢查點(diǎn)文件,可以采用高性能的存儲設(shè)備和優(yōu)化的存儲架構(gòu)。大容量、高性能的AI存儲系統(tǒng)能夠極大縮短斷點(diǎn)續(xù)訓(xùn)時(shí)間,保障AI集群的算力可用度處于較高水平,提升算力應(yīng)用效率。模型推理是與AI應(yīng)用關(guān)系最為直接的環(huán)節(jié)。如果說2024年是多模態(tài)市場成為現(xiàn)實(shí)的關(guān)鍵一年,2025年將開啟生成式AI應(yīng)用的嶄新時(shí)代。結(jié)合大語言模型、智能代理和多模態(tài)模型,AI將被用于分析和整合非結(jié)構(gòu)化數(shù)據(jù),例如文本、敘事和洞察,與定量數(shù)據(jù)融合,提供更全面的分析結(jié)果。這將顛覆傳統(tǒng)的基于數(shù)字和結(jié)構(gòu)化數(shù)據(jù)的分析模式,為企業(yè)決策提供更豐富的背景和更動態(tài)的洞察。更多的數(shù)據(jù)、更大的模型以及更長的上下文窗口能夠帶來更高效的人工智能應(yīng)用范式。模型的推理過程是一個(gè)復(fù)雜的存儲系統(tǒng)工程,關(guān)鍵是需要能夠存的多、傳的快、性價(jià)比高。數(shù)據(jù)的不斷生成促此外,存儲成本也是企業(yè)需要考慮的重要因素。隨著數(shù)據(jù)量的不斷增長,存儲成本也會相應(yīng)增加。因此,企業(yè)需要尋找一種低成本的存儲解決方案,既能滿足數(shù)據(jù)存儲的需求,又能控制成本。大模型的存儲還需考慮數(shù)據(jù)的安全性和隱私性。由于大模型通常涉及敏感的訓(xùn)練數(shù)據(jù)和商業(yè)機(jī)密,因此存儲系統(tǒng)必須提供嚴(yán)格的數(shù)據(jù)加密和訪問控制機(jī)制,以防止數(shù)據(jù)泄露和非法訪問。自動駕駛3.0時(shí)代的數(shù)據(jù)循環(huán)從行業(yè)趨勢來看,由硬件與軟件驅(qū)動的自動駕駛1.0與2.0時(shí)代已近尾聲。由數(shù)據(jù)驅(qū)動的3.0時(shí)代正式開啟。自動駕駛1.0時(shí)代為硬件驅(qū)動,主要依靠激光雷達(dá)和人工規(guī)則的認(rèn)知方式提供自動駕駛方案。但在100萬公里后,硬件不再是決定自動駕駛技術(shù)發(fā)揮的下限。自動駕駛2.0時(shí)代則是軟件驅(qū)動,特點(diǎn)是傳感器單獨(dú)輸出結(jié)果,用小模型和少數(shù)據(jù)的模式提供自動駕駛方案。挖掘算力潛能,讓AI真正發(fā)揮價(jià)值。在AI算力升級后,很多自動駕駛企業(yè)加大了對算法模型的應(yīng)用,這使得其產(chǎn)品最終能夠落地,讓自動駕駛△自動駕駛市場規(guī)模發(fā)展趨勢2023~2033(來源:PrecedenceResearch)伴隨智能網(wǎng)聯(lián)汽車傳感器數(shù)量的快速增加,ADAS和自動駕駛車輛數(shù)據(jù)的生成量也呈現(xiàn)指數(shù)級增長,從GB到TB、PB,傳統(tǒng)數(shù)據(jù)存管模式無法應(yīng)對大規(guī)模復(fù)雜數(shù)據(jù)的快速處理、各種傳感器數(shù)據(jù)及外部數(shù)據(jù)的適配接入。從PrecedenceResearch的數(shù)據(jù)來看,2023年全球自動駕駛汽車市場規(guī)模估計(jì)為年將以33%的復(fù)合年增長率(CAGR)增長。2023年美國自動駕駛汽車市場價(jià)值599.2億美元。從2024年到2033年,亞太地區(qū)的復(fù)合年增長率預(yù)計(jì)將達(dá)到在過去兩年的調(diào)研中,數(shù)字中國萬里行團(tuán)隊(duì)發(fā)現(xiàn)大模型的發(fā)展思路給自動駕駛帶來了更多啟發(fā),從道路信息感知到路徑規(guī)劃決策,從智能駕駛的開發(fā)效率到用戶駕駛體驗(yàn),智能駕駛企業(yè)正采用多模態(tài)傳感器聯(lián)合輸出結(jié)果,用大模型大數(shù)據(jù)的模式提供自在自動駕駛3.0時(shí)代,數(shù)據(jù)閉環(huán)是核心要素,即從車端數(shù)據(jù)采集,到處理后形成有效數(shù)據(jù)集,再通過云服務(wù)器進(jìn)行存儲、運(yùn)輸,經(jīng)過算法模型訓(xùn)練、驗(yàn)證后,將有效數(shù)據(jù)成果部署上車,各環(huán)節(jié)相互連接,形成自動駕駛數(shù)據(jù)循環(huán)?!髯詣玉{駛的數(shù)據(jù)循環(huán)路徑以具有國內(nèi)合規(guī)采集資質(zhì)的吉利汽車為例,基于用戶車隊(duì)及集團(tuán)內(nèi)運(yùn)營車輛資源,目前吉利一輛車每個(gè)月的合規(guī)數(shù)據(jù)采集量是幾個(gè)GB的量級,星睿智算中心每天的采集數(shù)據(jù)增長量達(dá)到了TB水平。特斯拉為了訓(xùn)練基于端到端技術(shù)路線的FSDV12,向系統(tǒng)內(nèi)輸入了1000萬個(gè)經(jīng)過篩選的、熟練司機(jī)的駕駛視頻。特斯拉在全球各地約200萬輛的車隊(duì),每天也會提供約1600億幀視頻用于訓(xùn)練。端到端自動駕駛存在與其他大模型應(yīng)用相同的問題:難以修正錯(cuò)誤。基于規(guī)則的系統(tǒng)可以通過修改程序或者數(shù)據(jù)庫修正錯(cuò)誤,而大模型只能重新訓(xùn)練/微調(diào)。針對不同任務(wù),設(shè)置多個(gè)頭部、部署不同的模型可以隔離不同任務(wù)訓(xùn)練時(shí)對其他能力的影響。但在重新訓(xùn)練過程當(dāng)中,依舊可能無法徹底解決問題,或出現(xiàn)新的問題。譬如FSD迫或者故意。這些數(shù)據(jù)對學(xué)習(xí)效果的影響難以評估,訓(xùn)練結(jié)果難以測量。按下葫蘆浮起瓢的反復(fù)訓(xùn)練模式會極大消耗算力和數(shù)據(jù)資源。實(shí)現(xiàn)高等級自動駕駛的難點(diǎn)在于覆蓋盡可能多的極端場景、長尾場景。這類場景的采集難度極大,需要收集大量的數(shù)據(jù)。特斯拉有意識地收集自動駕駛模式中人為介入的場景。解決數(shù)據(jù)不足的思路還包括合成數(shù)據(jù)、強(qiáng)化學(xué)習(xí)等。自動駕駛還需要處理來自多種類型傳感器的多模態(tài)數(shù)據(jù),包括但不限于圖像、視頻流、點(diǎn)云等。此外,還需要應(yīng)對復(fù)雜的天氣條件、交通狀況以及各種長尾場景下的數(shù)據(jù)采集與分析。這些數(shù)據(jù)在結(jié)構(gòu)、大小和訪問頻率上都存在差異。因此,存儲系統(tǒng)需要具備靈活的數(shù)據(jù)管理能力,能夠適應(yīng)不同類型數(shù)據(jù)的存儲需求,并提供高效的數(shù)據(jù)另外,自動駕駛技術(shù)對邊緣側(cè)的數(shù)據(jù)存儲可靠性也有著極高的要求。自動駕駛事關(guān)生命安全,因此任何數(shù)據(jù)丟失或損壞都可能帶來嚴(yán)重的后果。存儲系統(tǒng)必須采用多種數(shù)據(jù)冗余和保護(hù)機(jī)制,確保數(shù)據(jù)的完整性和可用性,即使在面臨硬件故障或自然災(zāi)害等極端情況下,也能保證數(shù)據(jù)的可靠存儲。數(shù)字平臺在不同領(lǐng)域的擴(kuò)展產(chǎn)生了大量數(shù)據(jù),特別是由于物聯(lián)網(wǎng)(IoT)設(shè)備等互聯(lián)設(shè)備,產(chǎn)生了大量的數(shù)據(jù)集。如今,AI的進(jìn)步催生了新的數(shù)據(jù)采集形式,這些形式不再與模型構(gòu)建者試圖訓(xùn)練的精確策略直接相關(guān)。生成性AI的興起,引發(fā)了對基準(zhǔn)測試、偏好數(shù)據(jù)、安全性及紅隊(duì)測試的新關(guān)注——不再局限于標(biāo)注和收集精確的策略數(shù)據(jù),而是向價(jià)值鏈上游延伸,涉及更復(fù)雜、更昂貴和更具挑戰(zhàn)性的任務(wù)。比如在智能制造領(lǐng)域模擬到現(xiàn)實(shí)的合成技術(shù)、模塊化機(jī)械臂附件等方式,開展大規(guī)模機(jī)器人數(shù)據(jù)采集。這些方法有助于收集基礎(chǔ)規(guī)模的數(shù)據(jù),以支持現(xiàn)實(shí)世界中的通用機(jī)器人。然而,收集數(shù)十億或數(shù)萬億個(gè)機(jī)器人數(shù)據(jù)Token需要大容量存儲設(shè)備進(jìn)行后續(xù)的處理,邊緣AI的存儲也成為另外一個(gè)熱門場景。在AI技術(shù)迅猛發(fā)展的背景下,存儲容量和性能的提升顯得尤為重要。AI應(yīng)用所產(chǎn)生的數(shù)據(jù)不僅規(guī)模龐大,而且類型多樣,包括結(jié)構(gòu)化數(shù)據(jù)、非結(jié)這些數(shù)據(jù)的存儲和管理對存儲系統(tǒng)提出了更高的要求。為了應(yīng)對這一挑戰(zhàn),新型存儲技術(shù)應(yīng)運(yùn)而生。分布式存儲技術(shù)通過將數(shù)據(jù)分散到多個(gè)節(jié)點(diǎn)上存儲,提高了系統(tǒng)的可擴(kuò)展性和容錯(cuò)性。這種技術(shù)不僅能夠滿足AI應(yīng)用對大容量存儲的需求,還能夠提供高并發(fā)訪問和數(shù)據(jù)共享功能,為AI應(yīng)用的訓(xùn)練和推理云存儲技術(shù)則是另一種重要的解決方案。通過將數(shù)據(jù)存儲在云端,云存儲技術(shù)實(shí)現(xiàn)了數(shù)據(jù)的集中管理和按需訪問。云存儲具有彈性擴(kuò)展、高可靠性、低成本等優(yōu)勢,能夠數(shù)據(jù)備份、恢復(fù)、遷移等,為AI應(yīng)用的數(shù)據(jù)管理提供了極大的便利??偟膩碚f,存儲容量和性能的提升是AI技術(shù)發(fā)展的重要支撐。隨著新型存儲技術(shù)的不斷涌現(xiàn)和應(yīng)用,我們有理由相信,未來的存儲系統(tǒng)將更加智能、高效、可靠,為高速、低延遲的存儲性能對于確保AI應(yīng)用的順暢運(yùn)行和實(shí)時(shí)響應(yīng)至關(guān)重要。傳統(tǒng)存儲技術(shù),盡管在過去的數(shù)十年中發(fā)揮了重要作用,但在面對AI應(yīng)用帶來的數(shù)據(jù)洪流優(yōu)化存儲性能是確保AI應(yīng)用高效運(yùn)行的關(guān)鍵環(huán)節(jié)。通過采用新型存儲介質(zhì)、優(yōu)化存儲算法和架構(gòu)等多元化手段,我們可以有效地提升存儲系統(tǒng)的性能表現(xiàn),滿足AI應(yīng)用對高速、低延遲存儲的迫切需求。這不僅有助于提升AI應(yīng)用的用戶體驗(yàn)和業(yè)務(wù)效率,還將為整個(gè)AI產(chǎn)業(yè)的持續(xù)發(fā)展和創(chuàng)新注入新的活力。在AI技術(shù)的迅猛發(fā)展下,存儲技術(shù)的創(chuàng)新步伐也日益加快。機(jī)械硬盤(HDD)與固存儲系統(tǒng)的智能化隨著人工智能技術(shù)的深入發(fā)展,其對存儲系統(tǒng)的影響日益顯著。智能化存儲系統(tǒng)作為這一趨勢的重要產(chǎn)物,正逐漸改變著傳統(tǒng)存儲方式的面貌。通過集成先進(jìn)的機(jī)器學(xué)習(xí)算法和深度學(xué)習(xí)模型,智能化存儲系統(tǒng)能夠?qū)崿F(xiàn)對海量數(shù)據(jù)的智能分析與挖掘,進(jìn)而優(yōu)化存儲性能,提升數(shù)據(jù)處理的效率。智能化存儲系統(tǒng)的核心在于其具備的自我學(xué)習(xí)和自我優(yōu)化能力。系統(tǒng)能夠通過對歷史數(shù)據(jù)的分析,識別出數(shù)據(jù)的訪問模式和特征,從而預(yù)測未來的數(shù)據(jù)需求?;谶@些預(yù)測結(jié)果,智能化存儲系統(tǒng)可以自動調(diào)整存儲策略和布局,以確保數(shù)據(jù)能夠以最優(yōu)的方式被存儲和訪問。這種動態(tài)調(diào)整的能力不僅提升了存儲系統(tǒng)的性能,還有效降低了運(yùn)除了優(yōu)化存儲性能外,智能化存儲系統(tǒng)還在數(shù)據(jù)備份和恢復(fù)方面展現(xiàn)出強(qiáng)大的實(shí)力。傳統(tǒng)的數(shù)據(jù)備份方式往往需要人工干預(yù),且恢復(fù)過程繁瑣易錯(cuò)。而智能化存儲系統(tǒng)則能夠根據(jù)數(shù)據(jù)的重要性和優(yōu)先級,自動制定備份計(jì)劃,并在必要時(shí)迅速恢復(fù)數(shù)據(jù)。這種智能化的備份和恢復(fù)機(jī)制不僅提高了數(shù)據(jù)的安全性,還大大減少了因數(shù)據(jù)丟失而造智能化存儲系統(tǒng)還在容災(zāi)方面發(fā)揮著重要作用。在面臨自然災(zāi)害、人為錯(cuò)誤或惡意攻擊等潛在威脅時(shí),智能化存儲系統(tǒng)能夠迅速響應(yīng),自動將數(shù)據(jù)遷移到安全的存儲位置,確保業(yè)務(wù)的連續(xù)性和數(shù)據(jù)的完整性。這種高度的自動化和智能化水平,使得智能化存儲系統(tǒng)成為現(xiàn)代企業(yè)不可或缺的重要基礎(chǔ)設(shè)施之一。算力與存力高效協(xié)同數(shù)據(jù)規(guī)模的增長對存儲技術(shù)的性能、容量和可靠性提出了更高要求。尤其在大模型訓(xùn)練和推理過程中的數(shù)據(jù)調(diào)度、邊緣側(cè)與云端數(shù)據(jù)的存儲,需要大容量、高速、低延遲的存儲系統(tǒng)以支撐實(shí)時(shí)數(shù)據(jù)處理和分析,大容量的存儲技術(shù)解決方案成為支撐整個(gè)AI生態(tài)系統(tǒng)的關(guān)鍵。在整個(gè)生成式AI落地過程中,企業(yè)如果希望充分利用AI能力,需要首先建立一套高效、可靠的數(shù)據(jù)存儲與管理系統(tǒng),確保數(shù)據(jù)價(jià)值被充分計(jì)算存儲協(xié)同促進(jìn)AI落地AI應(yīng)用需處理和分析的數(shù)據(jù)規(guī)模日益龐大,使得算力不斷增加。但算力規(guī)模增加的同時(shí),集群的可用性明顯下降,數(shù)據(jù)的存儲與訪問速度對系統(tǒng)性能和效率產(chǎn)生直接影響。此外,隨著AI應(yīng)用數(shù)據(jù)規(guī)模和復(fù)雜性的持續(xù)增長,對存儲技術(shù)的容量、速度和可靠性提出了更為嚴(yán)苛的要求。越來越多的應(yīng)用場景開始將AI算法與存儲介質(zhì)緊密結(jié)合,以實(shí)現(xiàn)更為智能化的數(shù)據(jù)處理和存儲管理,提升集群的可用度。根據(jù)PrecedenceResearch于2024年7月發(fā)布的研究報(bào)告,全球AI驅(qū)動存儲市場預(yù)計(jì)將從2024年的287億美元,激增至2034年的2552億美元,年復(fù)合增長率(CAGR)相當(dāng)喜人。越來越多企業(yè)正在積極尋求更智能、更靈活的數(shù)據(jù)管理解20△AI驅(qū)動存儲市場規(guī)模發(fā)展2024~2034(來源:PrecedenceResearch)大模型場景下,數(shù)據(jù)存儲面臨的挑戰(zhàn),將不僅僅是傳統(tǒng)意義上容量增加、性能提升的為AI數(shù)據(jù)處理而優(yōu)化,可以提升訓(xùn)練集群可用度,降低推理成本,提升用戶體驗(yàn)。GPU(或AI加速器,下同)是AI集群的核心,也是最昂貴的部分,優(yōu)化其使用率以縮短訓(xùn)練時(shí)間及獲得更好的投資回報(bào)(ROI),是網(wǎng)絡(luò)和存儲架構(gòu)設(shè)計(jì)時(shí)必須重點(diǎn)考慮的因素。AI工作負(fù)載可以分為準(zhǔn)備數(shù)據(jù)、開發(fā)模型(訓(xùn)練)和部署模型(推理)能取得較好的效果。GPU服務(wù)器通常內(nèi)置有限的本地存儲,以NVIDIA的8GPU機(jī)緩存(DataCache)盤,總?cè)萘考s30TB。新一代的GB200NVL72是每4個(gè)GPU配置8個(gè)E1.S規(guī)格SSD,每個(gè)GPU對應(yīng)的本地存儲容量并沒有很明顯的增長?!髯筮吺桥鋫?個(gè)U.2SSD(中下部區(qū)域)的8UGPU服務(wù)器,右邊是8個(gè)1UGPU服務(wù)器(節(jié)點(diǎn)),每節(jié)點(diǎn)配備8個(gè)E1.SSSD(中部區(qū)域),后者明顯更節(jié)省空間,但容量上限也網(wǎng)絡(luò)存儲如文件存儲和對象存儲,在共享、擴(kuò)展和故障恢復(fù)等方面都優(yōu)于(服務(wù)器)層?,F(xiàn)在SSD和HDD的單體容量都可以達(dá)到20TB以上,但在性能和成本等方面準(zhǔn)備數(shù)據(jù)采集(生成/獲?。⒎e累源數(shù)據(jù)是個(gè)相對長期的過程,除了結(jié)構(gòu)化數(shù)據(jù),更多的是非結(jié)構(gòu)化數(shù)據(jù),從文本到圖像、視頻等,文件尺寸越來越大,累積下來總數(shù)據(jù)量通??蛇_(dá)PB級,并且規(guī)模還在不斷增長。相對而言,性能上的要求不算很高,順序?qū)懭搿鰽I數(shù)據(jù)在CPU和GPU、不同存儲層之間的流動(來源:微軟)式轉(zhuǎn)換及數(shù)據(jù)增強(qiáng)等操作,將原始數(shù)據(jù)轉(zhuǎn)換為GPU可處理的張量格式,再批量送往GPU。數(shù)據(jù)加載是個(gè)順序讀取的過程,數(shù)據(jù)量在數(shù)百GB到TB級,單臺服務(wù)器的讀帶寬可達(dá)數(shù)GB/s到數(shù)十GB/s。順序讀對SSD和HDD都是最為舒適的場景,有足夠的網(wǎng)絡(luò)帶寬與合理的存儲系統(tǒng)架構(gòu)支持,根據(jù)數(shù)據(jù)類型和模型的特點(diǎn)不同,從存儲讀取數(shù)據(jù)不一定成為瓶頸。例如,處理文本數(shù)據(jù)(供語言模型使用)時(shí),只需進(jìn)行分詞,預(yù)處理時(shí)間較短;而處理圖像或視頻數(shù)據(jù)集時(shí),預(yù)處△數(shù)據(jù)加載涉及存儲IO和轉(zhuǎn)換流水線(來源:SNIA)遠(yuǎn)超實(shí)際訓(xùn)練過程的時(shí)長。通過將數(shù)據(jù)集預(yù)處理為更適合高吞吐量加載的格式,并用優(yōu)化的數(shù)據(jù)加載器在訓(xùn)練時(shí)加載數(shù)據(jù),可以大幅減少數(shù)據(jù)加載所需的時(shí)間。理想的情況是將讀取和預(yù)處理數(shù)據(jù)的過程與訓(xùn)練過程并行,把準(zhǔn)備數(shù)據(jù)的時(shí)長“隱藏”△MIT在2023年發(fā)表的論文《FFCV:AcceleratingTrainingbyRemovingDataBottlenecks》中指出,ImageNet訓(xùn)練所花費(fèi)的時(shí)間里,圖片處理階段占比最高訓(xùn)練過程在正常的訓(xùn)練過程中,只有少量的讀訪問,順序和隨機(jī)都有,訓(xùn)練結(jié)束后得到的模型被寫入存儲,這個(gè)數(shù)據(jù)量也不算大。然而,訓(xùn)練過程恰恰是給存儲系統(tǒng)訪問壓力最大的環(huán)節(jié),因?yàn)锳I集群在高強(qiáng)度的訓(xùn)檢查點(diǎn)及其作用大規(guī)模AI訓(xùn)練集群結(jié)構(gòu)復(fù)雜,組件眾多,如上千臺服務(wù)器、上萬個(gè)GPU/加速器、網(wǎng)卡和數(shù)量更多的光模塊,而訓(xùn)練的同步性質(zhì)使其對故障的容忍度較低——單個(gè)GPU、網(wǎng)卡或光模塊的故障就可能需要重啟整個(gè)作業(yè)。期間,經(jīng)歷了共466次作業(yè)中斷,其中47次是計(jì)劃內(nèi)的中斷,另外4中斷。大約78%的意外中斷歸因于確認(rèn)的硬件問題,如GPU或△Llama3405B預(yù)訓(xùn)練54天期間意外中斷的根本原因分類,大約78%的意外中斷歸因于已確認(rèn)或懷疑的硬件問題訓(xùn)練過程中定期保存檢查點(diǎn)可以在需要時(shí)恢復(fù)訓(xùn)練,或用于模型評估和推理。檢查點(diǎn)(Checkpoint)保存模型訓(xùn)練過程中的當(dāng)前狀態(tài),通常包括模型的參數(shù)(權(quán)重和偏用檢查點(diǎn)可以從最后一個(gè)保存的檢查點(diǎn)繼續(xù)訓(xùn)練,而不必從頭開始。檢查點(diǎn)對于保障訓(xùn)練進(jìn)度至關(guān)重要,如果每次故障后都需要從頭開始重新運(yùn)行訓(xùn)練任務(wù),有些大型任務(wù)可能永遠(yuǎn)無法完成。數(shù)據(jù)量與讀寫壓力),恢復(fù):發(fā)生故障或需要恢復(fù)時(shí),從存儲中讀?。ㄏ鄳?yīng)的)檢查點(diǎn)數(shù)據(jù)到系統(tǒng)內(nèi)存,反檢查點(diǎn)的內(nèi)容包括模型權(quán)重(已學(xué)習(xí)的參數(shù))、優(yōu)化器和訓(xùn)練狀態(tài),可以理解為當(dāng)時(shí)模型參數(shù)通常按2個(gè)字節(jié)(BF16或FP16)計(jì)算,在混合精度訓(xùn)練中,為了減少累積就可以得出不同模型的檢查點(diǎn)大小,如GPT3的1750億(Parallelism,DP)和模型并行。在數(shù)據(jù)并行的多個(gè)模型實(shí)例中,每個(gè)實(shí)例都持有完整檢查點(diǎn)的保存檢查點(diǎn)操作所耗費(fèi)時(shí)間應(yīng)盡可能的短,這樣可以增加檢查點(diǎn)的頻率,以最大限度減少△檢查點(diǎn)文件的寫入數(shù)據(jù)量是固定的(來源:SNIA/益企研28狀態(tài)持續(xù)到保存檢查點(diǎn)完成,就意味著有效訓(xùn)練時(shí)間的相應(yīng)減少。而且保存檢查點(diǎn)花費(fèi)的時(shí)間過長,也會限制保存檢查點(diǎn)的頻次,反過來影響檢查點(diǎn)的實(shí)際效果——檢查Dell在SNIA分享的《AI訓(xùn)練和檢查點(diǎn)的存儲需求》360秒540秒0.5830.0580.5440.5060.8569803.63034.0286.8064050億5300億統(tǒng)Check-N-Run,默認(rèn)每30一種方法是全鏈路上強(qiáng)度,并行化檢查點(diǎn)寫入,可以成倍縮短耗費(fèi)的時(shí)間。這種方法將檢查點(diǎn)創(chuàng)建分配給多個(gè)數(shù)據(jù)并行的GPU,因?yàn)槊總€(gè)模型實(shí)例持有相同的檢查點(diǎn)數(shù)與進(jìn)來。檢查點(diǎn)保存從更多并行存儲I/O中受益,性能和效率得到提升,顯然也對存Meta為其Llama3集群提供了7500個(gè)配備SSD的服務(wù)器,支持2TB/s的可持續(xù)吞吐量和7TB/s的峰值吞吐量,以應(yīng)對在短時(shí)間內(nèi)飽和存儲網(wǎng)絡(luò)的高突發(fā)性檢查點(diǎn)寫另一種方法的思路與準(zhǔn)備數(shù)據(jù)階段的分析類似,不是簡單的把數(shù)據(jù)讀寫的壓力全部丟時(shí)暫停,GPU將其內(nèi)存(顯存)中的數(shù)據(jù)復(fù)制到系統(tǒng)內(nèi)存后(模型快照就緒便可繼續(xù)進(jìn)行訓(xùn)練工作;CPU接手模型快照的處理,由專用的進(jìn)程在后臺負(fù)責(zé)創(chuàng)建、優(yōu)化目前微軟、字節(jié)跳動等企業(yè)都已采用了類似的解決方案。以微軟Nebula異步保存為此種做法的核心思路是最小化檢查點(diǎn)期間GPU的暫停時(shí)間,盡快讓寶貴的GPU回到檢查點(diǎn)的恢復(fù)30△恢復(fù)檢查點(diǎn)的讀取數(shù)據(jù)量與數(shù)據(jù)并行度正相關(guān)(來源:SNIA/益企研這個(gè)N就是模型實(shí)例的數(shù)量,取決于數(shù)據(jù)并行度。換言之,從檢查點(diǎn)恢復(fù)時(shí)讀取的數(shù)盡管恢復(fù)操作不會有檢查點(diǎn)那么頻繁,時(shí)間窗口的要求不必那么苛刻,但在乘以模型實(shí)例的數(shù)量之后,總讀取帶寬的要求仍然相當(dāng)可觀。以5分鐘恢復(fù)檢查點(diǎn)為例,大模1830億4.4808.96020.9070.6074.85338.827330億24.64098.5609806.533836.26765.333522.6674050億302.400604.8005300億NVIDIA與斯坦福大學(xué)、微軟研究院在2021年發(fā)表的論文《基于Megatron-LM的檢查點(diǎn)為13.8TB,數(shù)據(jù)并行度為6,存儲系統(tǒng)需提供除了采用全閃存存儲之外,分層存儲也可以化解這種高帶寬需求。因?yàn)闄z查點(diǎn)對應(yīng)的存儲容量并沒有改變,只是有更多的GPU(存儲層上,SSD存儲層只保存比較新的檢查點(diǎn),或者用于臨時(shí)加載需要訪問的特定檢),△微軟AzureBlob對象存儲采用SSD與HDD分層的在計(jì)算側(cè)優(yōu)化的思路同樣適用于緩解恢復(fù)過程中的存儲帶寬壓力。字節(jié)跳動和北京大個(gè)GPU》中,提出了一種優(yōu)化的數(shù)據(jù)檢索策略。多個(gè)GPU工作節(jié)點(diǎn)通常共享相同的狀態(tài)分區(qū),例如同一數(shù)據(jù)并行組中的工作節(jié)點(diǎn)。因此,M作節(jié)點(diǎn)從HDFS讀取共享狀態(tài)分區(qū),隨后將狀態(tài)分區(qū)廣播給所有共享相同數(shù)據(jù)的其他GPU工作節(jié)點(diǎn)。這種方法可以線性減少負(fù)載,有效緩解了保存期限與價(jià)值任務(wù)遷移:將訓(xùn)練任務(wù)遷移至不同的AI節(jié)點(diǎn)或集群增量學(xué)習(xí):為后續(xù)的增量學(xué)習(xí)和遷移學(xué)習(xí)提供基礎(chǔ),利用先前訓(xùn)練模型的狀態(tài)從中間模型調(diào)優(yōu):需要重新調(diào)整超參數(shù)或者跳過部分?jǐn)?shù)據(jù)(如出現(xiàn)尖峰)時(shí),可以回到之前動覆蓋可以節(jié)省大量存儲空間,達(dá)到中斷恢復(fù)的基本條件。即便是Meta,其DLRM但是,檢查點(diǎn)量化有可能降低訓(xùn)練準(zhǔn)確性,差分或增量檢查點(diǎn)則在檢查點(diǎn)之間建立了推理過程大模型(LLM)的推理分為兩個(gè)階段:Prefill階段主要處理來自用戶的輸入(如提示詞是計(jì)算密集型;Decode階段要生成大量的月下旬發(fā)布的DeepSeek-V3模型,在實(shí)現(xiàn)中針對SLO(服務(wù)級別目標(biāo))使用了PD可以看出,對內(nèi)存的使用和優(yōu)化在推理過程中的重要性。前面在數(shù)據(jù)準(zhǔn)備和訓(xùn)練過程KVCache及容量需求模型權(quán)重所占用的內(nèi)存空間為參數(shù)數(shù)量及精度的積,注意力計(jì)算的中間狀態(tài)(Key和參數(shù)、FP16精度,需要消耗350縮減參數(shù)規(guī)模和精度,可以降低顯存/內(nèi)存的占用。譬如7B(70億)參數(shù)量的模型精度,如FP8,那么占用的顯存/內(nèi)存也相應(yīng)地得以縮減為7G隨著推理服務(wù)愈發(fā)重視長Token的輸入,KVCache容量主要動力。為了控制KVCache的容量增長,典型的應(yīng)對方法是滑動窗口的注意力機(jī)可分為動態(tài)量化和靜態(tài)量化。動態(tài)量化通過在模型運(yùn)行時(shí)確定量化參數(shù),能夠更好地適應(yīng)數(shù)據(jù)分布的動態(tài)變化,但這種實(shí)時(shí)運(yùn)算需要更大的計(jì)算開銷。靜態(tài)量化采用預(yù)先載更大的批次。由于(系統(tǒng))內(nèi)存速度較慢,卸載會增加延遲,但考慮到計(jì)算本身也有時(shí)間消耗,尤其是對于非頂級推理卡而言,其算力落差大于顯存容量的差距,部分除了主機(jī)內(nèi)存,CXL內(nèi)存、SSD也可以參與卸載。有一些SSD廠商推出了SLC35RAG與向量數(shù)據(jù)庫大語言模型應(yīng)用中最讓用戶反感的是“無知”,例如幻覺、正確的廢話等,缺乏最新的資訊和某些專業(yè)領(lǐng)域的知識。再訓(xùn)練可以改善大語言模型在某些專業(yè)領(lǐng)域的表現(xiàn),但依舊不能及時(shí)更新知識,需要重復(fù)進(jìn)行訓(xùn)練。RAG(RetrievalAugmented除了專業(yè)性和時(shí)效性更高,RAG還有部署門檻低、風(fēng)險(xiǎn)可控的優(yōu)點(diǎn)。大語言模型依靠量化的模型,除了可以降低云端部署的成本,還可適用于邊緣側(cè)、端側(cè),對企業(yè)和個(gè)對于有保密性需求的專有知識,RAG的知識庫也更可控。可控性還體現(xiàn)在RAG的知識庫可以逐步更新,而無需重新訓(xùn)練生成模型。這對于企業(yè)分階段處理長期沉淀的海RAG的核心流程分為知識庫建立、檢索、生成等關(guān)鍵階段。知識庫是將精煉后的信息構(gòu)建為向量數(shù)據(jù)庫。檢索模塊接受基于自然語言的提示詞輸入,相關(guān)提示會被轉(zhuǎn)換為向量嵌入,并接著使用向量搜索在預(yù)先構(gòu)建的知識庫中檢索相似信息。生成模塊對檢一類專為執(zhí)行相似性搜索而定制的數(shù)據(jù)管理系統(tǒng)。與傳統(tǒng)數(shù)據(jù)庫按行或列組織信息不同,向量數(shù)據(jù)集使用數(shù)據(jù)的嵌入(embedding)作為表示,并基于嵌入的相似性進(jìn)行余、錯(cuò)誤的內(nèi)容會提高成本和降低輸出質(zhì)量。由于專業(yè)內(nèi)容往往需要大量的背景知36識,專有名詞、潛規(guī)則等難以理解,會導(dǎo)致知識遺漏。文檔應(yīng)以文本形式為主,大多數(shù)RAG更擅長處理基于文本的來源,但難以有效地集成和理解多模態(tài)內(nèi)容。圖?數(shù)據(jù)處理:利用特定RAG管線從之前收集的文檔中提取文本、格式化內(nèi)容,并將數(shù)據(jù)分塊成可管理的大小。塊(chunk)的劃分對輸出質(zhì)量影響較大,太小的塊可能導(dǎo)致正確答案被切分,導(dǎo)致檢索時(shí)遺漏關(guān)鍵信息;太大的塊可能引入過多的噪聲,還可能超過大語言模型的上下文窗口尺寸。針對不同類型的文檔應(yīng)當(dāng)使用不同?向量化:通過嵌入模型處理數(shù)據(jù)塊,將文本轉(zhuǎn)換為向量,可包括用于豐富上下文的元數(shù)據(jù)。選擇合適的嵌入模型對于檢索速度、質(zhì)量有很大的影響。不同的嵌入模型?存儲:將向量化數(shù)據(jù)存儲在可擴(kuò)展的向量數(shù)據(jù)庫中,以便進(jìn)行高效檢索。由于嵌入了高維度的向量信息,數(shù)據(jù)庫相對原始文檔及相關(guān)元數(shù)據(jù)的容量有明顯的增加,會達(dá)到數(shù)倍甚至十倍以上,常??梢赃_(dá)到PB級。數(shù)據(jù)量的急劇增長帶來了存儲方面檢索階段接受的通常是自然語言輸入,需要理解用戶意圖,并對查詢進(jìn)行優(yōu)化。查詢?改寫是指對用戶輸入的查詢語句進(jìn)行修改或重寫,包括調(diào)整結(jié)構(gòu)、添加或刪除關(guān)鍵?說明是修正或分解用戶輸入中不明確或模糊的內(nèi)容,使系統(tǒng)更好地理解并執(zhí)行相應(yīng)檢索既可以通過一次檢索獲得最終結(jié)果,也可以是多步推理,包括迭代檢索、遞歸檢?迭代檢索允許模型參與多個(gè)檢索周期,從而增強(qiáng)獲得信息的深度和相關(guān)性,為生成?遞歸檢索可以將之前的檢索輸出作為后續(xù)的檢索輸入,通常用于需要漸進(jìn)式收向量數(shù)據(jù)庫的檢索是整個(gè)RAG流程中消耗計(jì)算、存儲資源最多的階段,通常使用近ANNS算法是內(nèi)存型,隨著數(shù)據(jù)庫規(guī)模的擴(kuò)大,尤其是向量嵌入的高維度,需要大量的系統(tǒng)內(nèi)存來容納從對象存儲中提取的向量和索引,這導(dǎo)致了高昂的成本,并限制知識庫的大小。改良的ANNS算法可以將數(shù)據(jù)庫索引存儲在SSD中,將量化后的向量保存在內(nèi)存中,在保持接近內(nèi)存型的性能前提下,顯著提升成本效益。甚至有更激進(jìn)對于企業(yè)而言,RAG可以更充分發(fā)揮專業(yè)領(lǐng)域知識和私有數(shù)據(jù)的價(jià)值,以滿足商業(yè)分析、智能客服、研發(fā)等方面的需求,是訓(xùn)練、微調(diào)私有大語言模型的有力補(bǔ)充。對于擁有多種數(shù)據(jù)集、眾多用戶的大型企業(yè)而言,對加速計(jì)算、網(wǎng)絡(luò)和存儲基礎(chǔ)設(shè)施進(jìn)行訓(xùn)練開始前要加載數(shù)據(jù),推理開始前要加載模型。當(dāng)模型首次部署到GPU服務(wù)器上38在推理過程中,模型會根據(jù)輸入數(shù)據(jù)動態(tài)訪問其參數(shù)和中間計(jì)算結(jié)果。這些訪問模式通常是隨機(jī)的,取決于具體的輸入序列和模型架構(gòu)的設(shè)計(jì)。例如,自注意力機(jī)制會導(dǎo)?緩存管理:如果使用了KVCache或其他形式的緩存來加速檢索過程,那么緩存命中率低的情況下也會導(dǎo)致更多的實(shí)際I/O活動,因?yàn)橄到y(tǒng)需要頻繁地從原始數(shù)據(jù)源?數(shù)據(jù)預(yù)處理:為了使檢索到的數(shù)據(jù)適合用于后續(xù)生成步驟,通常需要對其進(jìn)行一些?日志記錄與監(jiān)控:在生產(chǎn)環(huán)境中,為了跟蹤性能指標(biāo)和服務(wù)健康狀況,通常會對每當(dāng)有多個(gè)文檔存儲和成百上千個(gè)AI用戶時(shí),RAG增強(qiáng)的LLM將跨多個(gè)GPU服務(wù)器運(yùn)行,共享可擴(kuò)展的存儲能夠更好的滿足訓(xùn)練/嵌入和推理/檢索等需求。一些服務(wù)△一套存儲方案支持多種不同類型AI應(yīng)用的全生命周期(來源:WEKA)數(shù)據(jù)保護(hù)、更好的數(shù)據(jù)共享、更輕松的管理和更靈活的配置。在嵌入大型文檔存儲并生成式AI促進(jìn)數(shù)據(jù)生產(chǎn)生成式AI極大提高了內(nèi)容的生成效率,只言片語便可生成音樂、圖片甚至視頻,這使得即使是普通人也可以快速創(chuàng)作富媒體內(nèi)容,在專業(yè)人員手中更是如虎添翼。以模態(tài)內(nèi)容工具構(gòu)建更豐富的對話并適配口型、語音,更快速地建模、生成分鏡等。運(yùn)維人員可以用生成更詳實(shí)的日志、故障報(bào)告、風(fēng)險(xiǎn)分析等。另外,轉(zhuǎn)錄、翻譯音視頻也是讓富媒體數(shù)據(jù)量裂變的一種應(yīng)用。福布斯在2024年3月預(yù)計(jì),到2028年,利40△承載多個(gè)處于不同階段的AI應(yīng)用,對網(wǎng)絡(luò)存儲系統(tǒng)的能力提出了全面的要求,需要結(jié)合不邊緣側(cè)計(jì)算和存儲能力增長邊緣側(cè)的推理應(yīng)用有顯著的實(shí)時(shí)性要求,這種需求在大語言模型落地之前便已經(jīng)非常清晰。早期的推理應(yīng)用主要基于卷積神經(jīng)網(wǎng)絡(luò)為代表的深度學(xué)習(xí)模型,典型應(yīng)用是機(jī)器視覺,廣泛應(yīng)用于安防、質(zhì)檢等領(lǐng)域。這類應(yīng)用的算力需求不高,主流FPGA、經(jīng)過優(yōu)化的CPU、GPU核心即可滿足,也有一些專用的ASIC。這類需求需要不間斷地在2020年代,深度學(xué)習(xí)中的多模態(tài)輸入開始受到更多的重視。多模態(tài)數(shù)據(jù)的學(xué)習(xí)有許多挑戰(zhàn),譬如不同模態(tài)信息的映射、對齊等。大語言模型降低了多模態(tài)數(shù)據(jù)的處理門檻,任何人都有機(jī)會利用基礎(chǔ)模型和自有數(shù)據(jù)微調(diào)、訓(xùn)練自有模型。在近一年中涌自動駕駛是傳感器激增、數(shù)據(jù)量激增的一個(gè)典型例子。在L4等級自動駕駛的愿景面前,數(shù)據(jù)采集的瓶頸并不僅在于傳感器的成本,更在于算力的限制。這也反映出人類據(jù)安全/合規(guī)的約束,去中心化更符合邊緣側(cè)推理的要求。大多數(shù)數(shù)據(jù)在邊緣側(cè)處理和存儲,由此帶動了邊緣側(cè)算力和存儲空間的增長。業(yè)界預(yù)測邊緣存儲的增長速度是數(shù)據(jù)留存與復(fù)用為后繼交互的上下文信息而短暫保留,大多數(shù)不符合用戶預(yù)期的生成內(nèi)容被拋棄,包括文本、圖像、音視頻等。也有大量的內(nèi)容被保留下來,不論是出于合規(guī)的需要(如智能客服的對話文本、錄音等抑或是用戶認(rèn)為有用。后一種內(nèi)容還有可能被多次復(fù)制、分發(fā),被上傳至多個(gè)設(shè)備、平臺。快速生產(chǎn)配合移動互聯(lián)網(wǎng)的裂變式傳播,生成式AI帶來的數(shù)據(jù)量巨大,除了在基見等,還存在人類尚難以察覺的其他問題。這類信息除了對社會帶來困擾,也對AI本缺陷。AI生成的數(shù)據(jù)如果污染了下一代模型的訓(xùn)練數(shù)據(jù)集,大語言模型就會錯(cuò)誤地感知現(xiàn)實(shí)。中毒的模型生成的內(nèi)容如果繼續(xù)污染后繼的數(shù)據(jù)集,如此往復(fù),多代模型將),需要強(qiáng)調(diào)的是,生成式AI“近親繁殖”導(dǎo)致模型崩潰的問題,主要影響的是預(yù)訓(xùn)練階段,也就是基礎(chǔ)大模型。對于微調(diào)/后訓(xùn)練階段,AI生成的內(nèi)容(包括合成數(shù)據(jù))其實(shí)是可以用于推理模型的訓(xùn)練迭代的。以自動駕駛為例,如果要進(jìn)行極端場景的訓(xùn)練如暴雨、濃霧、狂風(fēng)等,或者針對性場景的訓(xùn)練如鬼探頭、加塞等,使用合成數(shù)據(jù)的的規(guī)則生成符合要求的訓(xùn)練樣本。隨著DeepSeek-R1推理大模型的爆紅,也宣告強(qiáng)化學(xué)習(xí)可以用于推理模型的訓(xùn)練。強(qiáng)化學(xué)習(xí)意味著只需要為訓(xùn)練設(shè)定獎勵,而不再需與預(yù)訓(xùn)練需要的周期長、成本高不同,微調(diào)/后訓(xùn)練的周期更短、成本更低,會反復(fù)進(jìn)行,以匹配不同的用戶需求、驗(yàn)證不同的基礎(chǔ)模型等。這導(dǎo)致數(shù)據(jù)的重復(fù)利用,也而微調(diào)模型的需求會喚醒沉睡的數(shù)據(jù),甚至在多次微調(diào)當(dāng)中反復(fù)利用,或分階段地利用不同部分的數(shù)據(jù)。譬如,客服電話錄音,在傳統(tǒng)上只是為了合規(guī)要求而保存,如無意外發(fā)生將被歸檔、等待銷毀。但在大語言模型支持下,這些錄音可以用于訓(xùn)練企業(yè)會熱衷于宣傳其智駕模型訓(xùn)練迭代的頻次是以月,甚至以周計(jì)算。而對于數(shù)據(jù)量較小AI對數(shù)據(jù)生命周期的影響非常深刻。傳統(tǒng)的數(shù)據(jù)在產(chǎn)生后,不論是被立刻遺棄,還是需要比以往任何時(shí)候都要努力地搜集數(shù)據(jù)。不僅歸檔數(shù)據(jù)被發(fā)掘出價(jià)值,就連“錯(cuò)誤”44隨著技術(shù)的演進(jìn)和應(yīng)用需求的細(xì)化,經(jīng)典的存儲金字塔層級也日漸豐富。當(dāng)然,這么△經(jīng)典的存儲金字塔層級(來源:希捷)存儲介質(zhì)的分層,自上而下,性能逐級下降、容量逐級遞增、成本逐級遞減。訪問頻繁或者隨時(shí)變更的數(shù)據(jù)會保留在較高的存儲層,而鮮少訪問或需要長期保存的數(shù)據(jù)將SCM是介乎于內(nèi)存和外部存儲之間的角色,可以向上或向下融合:SCM可以與DRAM組合應(yīng)用,從邏輯上看上去是內(nèi)存設(shè)備;SCM也可以與SSD、硬盤配合,從45在數(shù)據(jù)進(jìn)入較高性能存儲介質(zhì),再轉(zhuǎn)入較低性能存儲介質(zhì)的過程當(dāng)中,SCM或TLC淺層的優(yōu)化是較大容量的緩沖可以承受數(shù)據(jù)的變化,一些臨時(shí)性的數(shù)據(jù)沒有必要向下深層的優(yōu)化主要是寫整形和條帶化,充分發(fā)揮容量層介質(zhì)不善于隨機(jī)訪問但適合連續(xù)緩存和分層存儲是現(xiàn)代計(jì)算機(jī)系統(tǒng)中典型的策略,用以協(xié)調(diào)與綜合不同類型存儲介質(zhì)的性能、成本和容量特性,以優(yōu)化整體系統(tǒng)的性能、成本效益,但也帶來了更復(fù)雜的的時(shí)候,需要加載模型內(nèi)的所有權(quán)重和讀取KVCache。生成速度的上限是顯存/內(nèi)算力(FP8)B2008TB/s3,958TFLOPS4.8TB/s3,958TFLOPS3.35TB/s46但是總體而言,由于DRAM提速的步伐遠(yuǎn)低于摩爾定律,即使是以高帶寬為名的?CerebrasWSE-3是一顆面積46225平方毫米的巨型芯片,其片上SRAM容量為丟失信息。它們的優(yōu)勢是速度快,缺點(diǎn)是成本較高、容量有限。能夠長期保存信息的非易失性介質(zhì)包括閃存、硬盤、磁帶等,也包括一些新興的存儲介質(zhì)。非易失性介質(zhì)收斂到3.5英寸、7200RPM的技術(shù)路線上繼續(xù)迭代。大容量硬盤普遍采用氦氣密封技術(shù),氦氣的低密度低阻力特性使盤片可以更順滑平穩(wěn)的轉(zhuǎn)動,便于在同樣的高度內(nèi)所以硬盤容量持續(xù)提高的關(guān)鍵還是提高單張盤片的容量。在盤片尺寸保持不變的前提硬盤的數(shù)據(jù)記錄在磁道上,這是一個(gè)個(gè)以主軸為圓心的同心圓。面密度可以分解為兩),?記錄密度指沿著單個(gè)磁道上單位長度內(nèi)可以存儲的數(shù)據(jù)位數(shù),通常以每英寸位數(shù)?磁道密度指每英寸磁盤表面可以容納的磁道數(shù)量,通常以每英寸磁道數(shù)(TracksPerInch,TPI)來表示,主要受磁頭的定位精度、磁盤表面的平滑度和平整度等因),48如其名,形似屋頂上層疊排列的瓦片,允許相鄰磁道部分重疊,提高了磁道密度,能△HAMR技術(shù)發(fā)展通過磁頭和介質(zhì)的共同努力,從根本上獲得面密度的持續(xù)提升,才是HDD技術(shù)發(fā)展49磁記錄)技術(shù),量產(chǎn)品已經(jīng)達(dá)到單碟3TB、全盤30TB,單碟4TB和5TB也已經(jīng)在路供高達(dá)36TB的容量點(diǎn)。希捷已率先將硬盤單碟容量提高至3.6TB,并有望實(shí)現(xiàn)單碟SSD堆疊層數(shù)能帶來存儲密度的成倍提高,這也是過去十年間SSD裸片堆疊(DieStacking在單個(gè)封裝內(nèi)堆疊多個(gè),相鄰兩者間的存儲容量增長收益從100%依次遞減為50%和25%。這種增長還會給性能和壽命帶來不利的影響,綜合投入產(chǎn)出比,越往后越困難,譬如五層單元的位存儲成本,市場份額正在逐步提升。但是QLCSSD不會復(fù)現(xiàn)TLCSSD取代SLC/在數(shù)據(jù)中心領(lǐng)域,部分QLCSSD選擇與TLCSSD差異化的發(fā)展道路,以突出存儲50密度優(yōu)勢,降低性能權(quán)重,并逐步采用異于傳統(tǒng)的管理方式(如FDP等)。TLC和爆炸半徑:單盤容量太大,上面承載的數(shù)據(jù)和應(yīng)用過多,一旦出現(xiàn)故障,受影響的范圍太廣,對軟硬件架構(gòu)是很嚴(yán)峻的考驗(yàn)。AWS在其歷年的re:Invent大會上就多次指單位容量性能:現(xiàn)在3.84TB的SSD讀性能就足以跑滿PCIe5量版本的單位價(jià)格有優(yōu)勢,而大容量SSD中NAND是成本的絕對大頭,總體成本會空白,需要付出巨大的代價(jià)NAND來替代硬盤驅(qū)動器的需求是成本過高的。另一個(gè)阻礙是單位容量的成本($/HDD出貨總?cè)萘窟_(dá)340EB,其中近線(NL)容量盤環(huán)比增長19%達(dá)到創(chuàng)紀(jì)錄的286EB,出貨量環(huán)比增長15%達(dá)1570萬個(gè),三家供應(yīng)商的近線盤平均容量分別為顯然,在相當(dāng)長的一個(gè)時(shí)期內(nèi),SSD全面替代HDD是不現(xiàn)實(shí)的,我們可以從兩個(gè)層根據(jù)IDC的預(yù)測,到2028年,全球數(shù)據(jù)圈(Datasphere)的規(guī)模將達(dá)到2023年的三倍,產(chǎn)生的數(shù)據(jù)接近400ZB(394ZB其中能被存儲下來的數(shù)據(jù)不到5%(近硬盤是應(yīng)用最廣泛、歷史最悠久、兼容性最好的非易失性存儲介質(zhì)。數(shù)據(jù)中心中90%以上的數(shù)據(jù)存儲在硬盤當(dāng)中。硬盤具有僅次于磁帶的容量價(jià)格比,短期內(nèi)也不會出現(xiàn)度,如果前兩者不變,而后者又只是面密度的一個(gè)分量,那么HDD的順序讀寫性能最大持續(xù)傳輸率只是HDD順序讀寫性能的一個(gè)切面,實(shí)際的順序讀寫性能還受磁道所處位置的影響,越靠內(nèi)圈的磁道,順序讀寫性能越低。最內(nèi)圈的持續(xù)順序傳輸率通并發(fā)機(jī)制,也正因如此,SSD在低并發(fā)度訪問時(shí)發(fā)揮難免受限,而HDD反而在小數(shù)53別是順序?qū)懭?。SSD因?yàn)閷懭氩僮鞲鼮閺?fù)雜,順序?qū)懭氲乃俣葧陆等种换蚋P片旋轉(zhuǎn)+磁頭尋道所需的時(shí)間構(gòu)成了HDD的時(shí)延(latency),7200RPM產(chǎn)品的平均值在11~14ms(毫秒)的范圍內(nèi),對應(yīng)的讀IOPS在90上下,把隊(duì)列深度加不過,再怎么努力,在小數(shù)據(jù)塊(如4KB)隨機(jī)讀取的場景下,HDD的輸出驟降至4KB數(shù)據(jù)塊讀寫IOPS0.3480.8485502.2005650.880,(IOPS很高,可以達(dá)到300萬以上,換算成MB/s相比順序讀取下降不多,甚至可以超過順序?qū)懭氲乃?。SSD的時(shí)延可低至數(shù)十微秒(μs)級,也遙遙領(lǐng)先于硬盤。硬盤的機(jī)械特性決定了其不擅長隨機(jī)訪問,時(shí)延比基于半導(dǎo)體技術(shù)的其他介質(zhì)54△Conventional(傳統(tǒng))和Shingled(疊瓦)分別對應(yīng)了CMR和SMR,兩種磁道可以在同一個(gè)碟片上出現(xiàn),劃在不同的分區(qū)(Zone)(來源:微軟@OCP)在硬盤存儲方案中,如果對IOPS有一定的要求,傳統(tǒng)上會使用較多的盤位來實(shí)現(xiàn)目標(biāo),附帶一些保留容量、存儲密度方面的損失。隨著多磁臂技術(shù)的出現(xiàn),可以使用新臂硬盤可以獲得更好的容量價(jià)格比。對于不需要經(jīng)常改寫數(shù)據(jù)的應(yīng)用,如歸檔、視頻SSD的隨機(jī)寫入和順序?qū)懭攵寂c容量有一定的關(guān)系,小容量SSD因?yàn)镹AND數(shù)量少一些,IOPS也相應(yīng)低一些。區(qū)別在于,隨機(jī)寫入的IOPS傳統(tǒng)的DRAM作為寫緩存,有掉電時(shí)丟失數(shù)據(jù)的風(fēng)險(xiǎn),硬盤制造商們想出了用非易失性存儲如NVM或盤片上的特定區(qū)域來緩存寫入數(shù)據(jù)的辦法,在禁用寫緩存55對SMR分區(qū)(zone)的隨機(jī)寫必須轉(zhuǎn)變?yōu)轫樞驅(qū)?,最好能在前面提到的緩存層中進(jìn)行必要的重新排序、達(dá)到一定數(shù)據(jù)量后成批順序?qū)懭?。如果連續(xù)的磁道中間需要改寫接口的SSD已經(jīng)超過10GB/s,在絕大多數(shù)場合不會成為瓶頸;主流(單磁頭)硬盤隨機(jī)寫入對SSD也很不友好,性能與壽命都會受到影響。SSD的耐久性通常以5年SSD的容量和DWPD指標(biāo)共同決定了每天持續(xù)不停(隨機(jī))寫入時(shí)能達(dá)到的輸出水表5:SSD的峰值與持續(xù)寫入性能7.68TB6.4TB61.44TBTLCTLC130.5835.64TB56TLCSSD具有極高吞吐量,但其耐久度還不足以支撐持續(xù)地寫操作。即使在順序?qū)懬闆r下控制了寫放大,耐用度可以提升至3~5倍,也不可以承受滿負(fù)荷寫入的場景。耐久度實(shí)際上限制了TLCSSD的性能發(fā)揮。TLCSSD的峰值性能和耐久度的矛盾使得數(shù)據(jù)再異步至網(wǎng)絡(luò)存儲集群是典型負(fù)荷。但隨著檢查點(diǎn)間隔從小時(shí)計(jì)逐步縮減為以分鐘計(jì),使用TLCSSD緩存檢查點(diǎn)即使在性善寫放大的手段,大容量QLC的耐久度還會更高。因此,在一些對總不巨大(PB級)的應(yīng)用和新建基礎(chǔ)設(shè)施一些大容量企業(yè)級HDD也會提供如每年550TB(5用度也更低,需要控制寫入放大以保護(hù)QLCSSD令人不安的耐久度。尤其對使用與規(guī)避容量層存儲弱點(diǎn)的最根本方式就是將隨機(jī)寫入盡量轉(zhuǎn)化為順序?qū)懭?。在順序?qū)懭霑r(shí),QLCSSD和磁盤陣列的性能與TLCSSD相比落差并不算大,而SMR硬盤的隨實(shí)際業(yè)務(wù)中,寫入時(shí)存在不同大小的數(shù)據(jù)塊,譬如近似于順序?qū)懭氲拇髷?shù)據(jù)塊,或是隨機(jī)寫入的小數(shù)據(jù)塊以及可能與SSD頁面尺寸不匹配的數(shù)據(jù)塊。不論這些這個(gè)緩存層使用的存儲介質(zhì)需要具備優(yōu)異的寫入性能和耐久性,容量和成本最好優(yōu)于易失性。SCM介于內(nèi)存和外部存儲之間,屬于非易失性存儲器,但提供接近DRAM有高讀寫IOPS、極高耐用度的特點(diǎn)。部分英特爾至強(qiáng)可擴(kuò)展處理器可以把傲騰當(dāng)做58內(nèi)存使用。理論上具有非易失性、高性能、高耐用度的技術(shù)路線還有磁變隨機(jī)存儲器于商業(yè)化早期階段,容量較小、成本較高。隨著傲騰停產(chǎn),相應(yīng)的需求由SLC、MLCSCM通常用于需要極高速度和低延遲的應(yīng)用場景,如大型數(shù)據(jù)庫,彌補(bǔ)主機(jī)內(nèi)存容量SCM與QLCSSD搭配使用,可以彌補(bǔ)后者隨機(jī)寫入性能的弱點(diǎn),并減少后者的寫入對于高性能存儲陣列,SCM還可以作為對象存儲陣列雖然元數(shù)據(jù)緩存可以完全放置在內(nèi)存當(dāng)中,但會受到內(nèi)存容量的限制。使用SCM有合在一個(gè)CXL內(nèi)存模塊當(dāng)中,被主機(jī)視作是一種內(nèi)存設(shè)備,其隨機(jī)訪問速度高于傳統(tǒng)60存儲容量的增長終歸要依靠存儲密度的提升,而存儲密度的提升手段可以分為持續(xù)性固態(tài)盤(SSD)的3DNAND;一次性的手段提升幅度通常不會超過一倍,而且往往為滿足數(shù)據(jù)迅速增長的需求,以及保持單位容量成本能夠逐步降低,提升硬盤的單盤容量是根本性的解決方案。經(jīng)過數(shù)十年的發(fā)展,目前3.5英寸硬盤的外形尺寸已經(jīng)固定,盤片數(shù)量以及盤片面積在這個(gè)有限的立方體空間內(nèi)已經(jīng)難以取得進(jìn)展,不斷提升△HAMR(Heat-AssistedMagneticRecording,熱面密度(記錄密度和磁道密度)的增加導(dǎo)致放置每比特信息所能占用的磁性顆粒面積變小,顆粒之間的相互磁影響也會越來越大。為了保持信息穩(wěn)定,避免相鄰信息顆粒的干擾,高密度磁盤需要使用高矯頑力的顆粒。但這在改寫信息時(shí),需要磁頭施加更強(qiáng)大的磁場變化,這可能意味著更長的操作時(shí)間和更多的干擾,導(dǎo)致性能或可靠性的下降。業(yè)界的解決方案是寫入前對目標(biāo)區(qū)域施加額外能量,讓磁性顆粒的極性變得更容易被改變。目前已經(jīng)正式商用的技術(shù)是希捷的HAMR(Heat-AssistedMagnetic介質(zhì),瞬間升溫至400℃以上,臨時(shí)降低矯頑力以輔助寫入,然后在不到2ns的時(shí)間△HAMR技術(shù)的關(guān)鍵組件HAMR技術(shù)中,納秒級的激光加熱時(shí)間對硬盤的性能沒有負(fù)面影響,因?yàn)樵谀壳暗拇胖鴨伪P容量提升,存儲的單位容量成本將會很快被攤薄至傳統(tǒng)技術(shù)之下。HAMR的另一個(gè)顧慮是增加了硬盤內(nèi)的熱源(激光器本身熱量及盤片局部受熱熱量的增加會目前已經(jīng)批量上市的魔彩盒3+平臺單碟容量已經(jīng)達(dá)到3TB,還有很大的增長空間。量的目標(biāo),23年達(dá)到5TB,24年在實(shí)驗(yàn)室內(nèi)已達(dá)到6TB。現(xiàn)階段4TB單碟容量的硬表6:ExosM30TB和傳統(tǒng)的E30TB3TBSSD垂直擴(kuò)展即3D堆疊,從早期的24層、32層,逐步增加。目前市場上主流產(chǎn)品使用300層以上的樣品已經(jīng)試產(chǎn)。500層的產(chǎn)品預(yù)計(jì)在2年內(nèi)實(shí)現(xiàn),樂觀估計(jì)在2030年代到來之前有機(jī)會達(dá)到1000層。層數(shù)的增加會提升制造成本,主要是線性地增加了片面積減小可以相應(yīng)降低光刻成本。考慮到光刻仍是半導(dǎo)體制造成本的大頭,繼續(xù)垂63橫向擴(kuò)展是減小單元間的間距,也就是提高每一層的密度。由于相鄰存儲單元之間具有電容效應(yīng),間距縮小會增加干擾、減少耐用度,這也工藝微縮而轉(zhuǎn)向垂直堆疊的主要原因。但隨著3DNAND層數(shù)已壓縮水平方向間距提高密度的收益也隨之放大。愈發(fā)強(qiáng)大的SSD邏輯擴(kuò)展是提升單個(gè)閃存單元所存儲的位數(shù)。通過區(qū)分更多的電荷狀態(tài)(電壓),每個(gè)單元可以代表的信息也從1位(SLC)提升至2位(MLC),再到目前TLC、QLC成為主流。2023年FMS會議中已經(jīng)出現(xiàn)了基于浮柵技術(shù)的PLC(5層單元)的樣品,而在實(shí)驗(yàn)室低溫環(huán)境下,7層單元的技術(shù)可能性也獲得了驗(yàn)證??紤]到目前QLCSSD仍處于市場培育階段,用戶的接受程度、部署的技術(shù)條件都有待繼續(xù)提升,PLCNAND在短期內(nèi)不會受到太多的關(guān)注。另外,考慮到基于電荷狀態(tài)細(xì)分表征信息的代價(jià)(可靠性、耐用度)越來越大,而容量收益越來越小,邏輯擴(kuò)展需要尋找新的技術(shù)數(shù)量的限制主要在于SSD的體積,準(zhǔn)確地說是內(nèi)部PCB的面積。以主流的2.5英寸外形為例,每塊PCB的兩面通常可以布置16顆芯片,如果需要安排更多的芯片則可者開發(fā)新的外形規(guī)格以容納更大面積的PCB,如EDSFF,尤其是E1.L就是為高密度64格與容量的關(guān)系近乎于線性增加,而且容量點(diǎn)之間的落差通常是倍數(shù)關(guān)系,用戶擴(kuò)容但大語言模型的爆火打破了這個(gè)平衡。對于GPU節(jié)點(diǎn),典型的SSD配置仍然是平均每GPU對應(yīng)一塊7.68TBTLCSSD作為緩存盤;對于配套的全閃存儲節(jié)點(diǎn),為了提升機(jī)架利用率和減少單位能耗,需要更高容量的SSD,如30TB等級的TLC企業(yè)級SSD主控的典型規(guī)格是16通道、每通道8CE,那么每個(gè)主控可以直接管理這也是目前高性能TLCSSD停留在30.72TB的根本原因。60TB以上容量的SSD需足夠多的晶粒還會面臨封裝、PCB面積的限制。因此,針對AI催生的大容量SSD需求需要自上而下的改變才能滿足,NAND原廠需要開發(fā)更大容量的晶粒。目前已經(jīng)可大容量(2Tb及以上)的晶粒并不適合用在主流設(shè)備上,因?yàn)槠胀ㄓ脩糨^低的容量需求對應(yīng)較少的CE配置,雖然可以節(jié)省封裝成本,但會損失性能。換句話說就是:AI存儲的需求和主流設(shè)備的需求發(fā)生了分化。這與AI服務(wù)器有脫離通用服務(wù)器常規(guī)SSD的十倍以上,這導(dǎo)致它們只能成為支付能力最強(qiáng)多路并發(fā)和軟件優(yōu)化是SSD提高性能的常用手段,通過機(jī)械結(jié)構(gòu)上的調(diào)整,HDD也65傳統(tǒng)上,硬盤的性能主要由轉(zhuǎn)速和記錄密度決定。轉(zhuǎn)速影響的是磁道的線速度和平均等待時(shí)間。磁道的記錄密度和線速度決定了順序讀寫的性能。由于硬盤的轉(zhuǎn)速不再增加,面密度(包含記錄密度和磁道密度)增長緩慢,硬盤的性能增長也變得遲緩,最HAMR技術(shù)的出現(xiàn)讓人們看到了面密度提升的希望,但從初期產(chǎn)品的性能指標(biāo)看,面密度的提升并沒有轉(zhuǎn)換為最大傳速率的提升,隨機(jī)寫IOPS還有所下降。即使最大傳△雙磁臂可以扭轉(zhuǎn)硬盤單位容量IOPS隨容量提升的下降態(tài)勢(來源:希捷)時(shí)代約10IOPS,30TB就只有個(gè)位數(shù)了。對于分布式存儲集群而言,規(guī)模越大,低IOPS的危害也越大,尤其是寫入操作的過大延遲會拖累整個(gè)集群的響應(yīng)能力。通過66度,導(dǎo)致這樣的產(chǎn)品曇花一現(xiàn),廠商們還是選擇提升轉(zhuǎn)速的道路。20多年后,希捷重0.6GB/s0.02GB/s/TB0.04GB/s/TB0.6GB/s0.02GB/s/TBMACH.2的兩組磁臂上下堆疊,共用一個(gè)樞軸,在機(jī)械結(jié)構(gòu)上相對上個(gè)世紀(jì)的方案大幅度簡化,硬盤的整體布局與傳統(tǒng)硬盤基本一致,確保了硬盤尺寸的兼容性。首款基應(yīng)4張。每組磁頭除了擁有獨(dú)立的音圈馬達(dá)及驅(qū)動芯片,也對應(yīng)各自獨(dú)立的主控、緩存等。實(shí)際上,MACH.2在邏輯上就是兩個(gè)硬盤——對于SAS接口的版本,它可以利用SAS協(xié)議中的邏輯單元號(LUN)功能,在操作系統(tǒng)中顯示為兩個(gè)容量減半的304550560MACH.2可以讓傳輸速率翻倍,讀IOPS也接近翻倍,而單位容量成本低于使用兩塊較小容量的硬盤。以MACH.2為代表的多磁臂技術(shù)逆轉(zhuǎn)了性也會相應(yīng)提升。當(dāng)硬盤容量達(dá)到40~50TB的時(shí)候,利用兩某大型云服務(wù)提供商表示,CMR容量達(dá)到24TB因此磁臂運(yùn)動時(shí)需要對另一組磁臂的動作做補(bǔ)償,并要求磁臂啟停的節(jié)奏更平緩。這隨著SSD被委以重任,其耐用度的先天不足受到重視。優(yōu)化SSD的寫入方式是提升耐用度的最好方法。長期以來,大多數(shù)SSD被當(dāng)做傳統(tǒng)塊存儲設(shè)備看待,應(yīng)用于基于硬盤發(fā)展而來的整個(gè)軟件生態(tài)當(dāng)中。一個(gè)典型的問題就是塊存儲設(shè)備的LBA與閃存分寫操作以及垃圾回收過程中面臨寫入放大問題。而大容量QLCSSD的IU通常是16KB以上,更容易出現(xiàn)寫放大問題。有統(tǒng)計(jì)表明,TLCSSD的寫入放大平均為1.768的寫入,而是根據(jù)租戶、應(yīng)用程序等線索,將具有相似生命周期的數(shù)據(jù)分組到一起。承載這些數(shù)據(jù)邏輯分組的是多命名空間(MultipleNamespaces)。當(dāng)一個(gè)進(jìn)程/租戶的臨時(shí)數(shù)據(jù)被刪除時(shí),它們所在的命名空間所對應(yīng)的若干物理頁當(dāng)中不可能存在其他進(jìn)程的任何數(shù)據(jù),可以直接將這一組頁全部擦除。這樣就避免了垃圾回收過程中有FDP還有利于提高性能和QoS。在混合工作負(fù)載中,寫時(shí)延對QoS的影響最大。頻繁寫入對空白頁的需求會觸發(fā)盤內(nèi)垃圾回收,帶來高于預(yù)期的寫時(shí)延,并導(dǎo)致被移動且不可能在垃圾回收操作中被迫移

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論