邁向智能世界白皮書2023-數(shù)據(jù)存儲(chǔ)-2023.10_第1頁(yè)
邁向智能世界白皮書2023-數(shù)據(jù)存儲(chǔ)-2023.10_第2頁(yè)
邁向智能世界白皮書2023-數(shù)據(jù)存儲(chǔ)-2023.10_第3頁(yè)
邁向智能世界白皮書2023-數(shù)據(jù)存儲(chǔ)-2023.10_第4頁(yè)
邁向智能世界白皮書2023-數(shù)據(jù)存儲(chǔ)-2023.10_第5頁(yè)
已閱讀5頁(yè),還剩60頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

邁向智能世界白皮書2023數(shù)據(jù)存儲(chǔ)數(shù)據(jù)新范式,釋放AI新動(dòng)能數(shù)據(jù)存儲(chǔ)序言今天AI大模型是一個(gè)非常熱的話題,如果說我們把機(jī)器智力的發(fā)展跟人類過去文明和智力的發(fā)展進(jìn)行類比,有很多相似之處。人類出現(xiàn)在地球上,有幾十萬年的歷史,但是真正人類文明的高速發(fā)展也就幾千年。這里邊最關(guān)鍵的是文字的出現(xiàn),我們可以記錄我們的經(jīng)驗(yàn)和知識(shí),而且記錄下來之后可以群體性地進(jìn)行學(xué)習(xí)、復(fù)制、演進(jìn)、發(fā)展,這就導(dǎo)致了我們?nèi)祟惿鐣?huì)文明在這幾千年當(dāng)中高速地發(fā)展。數(shù)據(jù)、無AI,我覺得這句話是非常重要的,它跟人類的歷史也恰恰是一樣的。如果說我們僅僅只有一個(gè)方法論,但是缺乏知識(shí)庫(kù),缺乏語料庫(kù),那么所有的AI大模型本質(zhì)上是沒有意義的。我們必須喂給它知識(shí)庫(kù)、語料庫(kù),它才能夠針對(duì)我們的場(chǎng)景形成咨詢師,形成編程機(jī)器人,形成客服機(jī)器人,讓它具有自己學(xué)習(xí)的大腦。那么同樣的,AI機(jī)器文明的發(fā)展會(huì)怎么樣。我們可以看到,今天機(jī)器已經(jīng)有了很好的算法,這個(gè)算法可以使得機(jī)器能夠?qū)W習(xí),但是更重要的是學(xué)習(xí)的素材在哪里。所以有一句話叫做缺因此在整個(gè)系統(tǒng)當(dāng)中,除了算這一部分,把我們今天的信息進(jìn)行數(shù)字化存儲(chǔ),變成知識(shí)庫(kù),讓這些知識(shí)庫(kù)用的更好,這一點(diǎn)也需要引起足夠的重視。1數(shù)據(jù)存儲(chǔ)所以我們認(rèn)為,企業(yè)在未來AI時(shí)代要持續(xù)領(lǐng)先,一個(gè)很重要的基礎(chǔ)就是必須具備先進(jìn)的以數(shù)據(jù)存儲(chǔ)為核心的數(shù)據(jù)基礎(chǔ)設(shè)施。意義的探索,將凝聚更多的產(chǎn)業(yè)力量共同推進(jìn)數(shù)據(jù)存儲(chǔ)產(chǎn)業(yè)的發(fā)展。過去三十年,數(shù)據(jù)存儲(chǔ)一直是高價(jià)值數(shù)據(jù)的最佳底座,新技術(shù)、新應(yīng)用產(chǎn)生的數(shù)據(jù)源源不斷地匯入數(shù)據(jù)海洋,華為數(shù)據(jù)存儲(chǔ)愿與產(chǎn)業(yè)各方更加緊密攜手努力,匯聚產(chǎn)業(yè)力量,共創(chuàng)數(shù)據(jù)存儲(chǔ)美好未來。華為公司在數(shù)據(jù)存儲(chǔ)產(chǎn)業(yè)上的大規(guī)模投入超過十年,產(chǎn)品已進(jìn)入全球超過150個(gè)國(guó)家和地區(qū),廣泛服務(wù)于運(yùn)營(yíng)商、金融、政府、能源、醫(yī)療、制造、交通等多個(gè)行業(yè)超過25000家客戶。通過與業(yè)界專家、客戶和伙伴深入交流,我們編寫了這份《邁向智能世界-數(shù)據(jù)存儲(chǔ)》白皮書報(bào)告,結(jié)合近期火熱的AI大模型話題,從新應(yīng)用、新數(shù)據(jù)、新安全、新技術(shù)、綠色節(jié)能五個(gè)方面,展望數(shù)據(jù)存儲(chǔ)的發(fā)展趨勢(shì)與行動(dòng)建議。我相信這是一次有周躍峰華為數(shù)據(jù)存儲(chǔ)產(chǎn)品線總裁2數(shù)據(jù)存儲(chǔ)展望一08AI大模型目錄新用展望二19242833大數(shù)據(jù)應(yīng)序言010305展望三分布式數(shù)據(jù)庫(kù)新應(yīng)用目錄展望四云原生據(jù)新數(shù)新執(zhí)行摘要展望五非結(jié)構(gòu)化數(shù)據(jù)3數(shù)據(jù)存儲(chǔ)能節(jié)展望六374246展望九495463存儲(chǔ)內(nèi)生安全AI賦能存儲(chǔ)新展望七展望十色全場(chǎng)景閃存普惠存儲(chǔ)綠色節(jié)能展望八附錄綠以數(shù)據(jù)為中心的架構(gòu)4數(shù)據(jù)存儲(chǔ)執(zhí)行摘要AI大模型已超出人類想象的速度,將我們帶入智能世界。算力、算法、數(shù)據(jù)構(gòu)成了AI的三要素。算力、算法是AI大模型時(shí)代的工具,數(shù)據(jù)的規(guī)模和質(zhì)量才真正決定了AI智能的高度。數(shù)據(jù)存儲(chǔ)將信息變?yōu)檎Z料庫(kù)、知識(shí)庫(kù),正在和計(jì)算一起成為最重要的AI大模型基礎(chǔ)設(shè)施。以AI大模型為代表的企業(yè)智能化應(yīng)用,正在和經(jīng)典數(shù)據(jù)庫(kù)應(yīng)用形成并駕齊驅(qū)乃至超越之勢(shì)。每一次應(yīng)用的變革,都伴隨著數(shù)據(jù)基礎(chǔ)設(shè)施架構(gòu)的演進(jìn)。高可靠、高性能、共享的數(shù)據(jù)存儲(chǔ),成為以O(shè)racle為代表的數(shù)據(jù)庫(kù)的最佳數(shù)據(jù)基礎(chǔ)設(shè)施。新的企業(yè)智能化應(yīng)用從量變進(jìn)入質(zhì)變階段,正在形成新的數(shù)據(jù)范式。面向未來,我們對(duì)企業(yè)數(shù)據(jù)存儲(chǔ)進(jìn)行了如下展望:1

AI大模型將AI帶入新的發(fā)展階段。AI大模型需要更高效的海量原始數(shù)據(jù)收集和預(yù)處理,更高性能的訓(xùn)練數(shù)據(jù)加載和模型數(shù)據(jù)保存,以及更加及時(shí)和精準(zhǔn)的行業(yè)推理知識(shí)庫(kù)。以近存計(jì)算、向量存儲(chǔ)為代表的AI數(shù)據(jù)新范式正在蓬勃發(fā)展。2大數(shù)據(jù)應(yīng)用經(jīng)歷了歷史信息統(tǒng)計(jì)、未來趨勢(shì)預(yù)測(cè)階段,正在進(jìn)入輔助實(shí)時(shí)精準(zhǔn)決策、智能決策階段。以近存計(jì)算為代表的數(shù)據(jù)新范式,將大幅提升湖倉(cāng)一體大數(shù)據(jù)平臺(tái)的分析效率。34以開源為基礎(chǔ)的分布式數(shù)據(jù)庫(kù),正在承擔(dān)越來越關(guān)鍵的企業(yè)應(yīng)用,新的分布式數(shù)據(jù)庫(kù)+共享存儲(chǔ)的高性能、高可靠架構(gòu)正在形成。多云成為企業(yè)數(shù)據(jù)中心新常態(tài),企業(yè)自建數(shù)據(jù)中心和公有云形成有效互補(bǔ)。云計(jì)算的建設(shè)模式從封閉全棧走向開放解耦,從而實(shí)現(xiàn)應(yīng)用多云部署、數(shù)據(jù)/資源集中共享。以容器為基礎(chǔ)的云原生應(yīng)用,從無狀態(tài)應(yīng)用走向有狀態(tài)應(yīng)用,數(shù)據(jù)存儲(chǔ)一方面要提升資源發(fā)放效率,更重要的要承載全新的云原生應(yīng)用。存儲(chǔ)即服務(wù)的商業(yè)模式,正在從公有云走向企業(yè)數(shù)據(jù)中心。5數(shù)據(jù)存儲(chǔ)580%的企業(yè)新增數(shù)據(jù)是非結(jié)構(gòu)化數(shù)據(jù),AI大模型正在加速海量非結(jié)構(gòu)化數(shù)據(jù)進(jìn)入生產(chǎn)決策系統(tǒng),全閃分布式存儲(chǔ)成為海量非結(jié)構(gòu)數(shù)據(jù)最佳數(shù)據(jù)基礎(chǔ)設(shè)施。67AI大模型應(yīng)用聚集海量企業(yè)私域數(shù)據(jù),數(shù)據(jù)安全風(fēng)險(xiǎn)劇增。構(gòu)建包括存儲(chǔ)內(nèi)生安全在內(nèi)的完整數(shù)據(jù)安全體系,迫在眉睫。全閃存存儲(chǔ)以高性能、高可靠、更優(yōu)的TCO,不僅實(shí)現(xiàn)對(duì)高性能機(jī)械硬盤的替代,也將實(shí)現(xiàn)對(duì)大容量機(jī)械盤的替代,從而打造全閃存數(shù)據(jù)中心。AI大模型推動(dòng)數(shù)據(jù)中心的計(jì)算、存儲(chǔ)架構(gòu)從以CPU為中心走向以數(shù)據(jù)為中89心,新的系統(tǒng)架構(gòu)、生態(tài)正在重新構(gòu)建。AI技術(shù)正在越來越多地融入在數(shù)據(jù)存儲(chǔ)產(chǎn)品及其管理,從而大幅改善數(shù)據(jù)基礎(chǔ)設(shè)施的SLA水平。10

綠色節(jié)能從產(chǎn)業(yè)牽引進(jìn)入實(shí)施執(zhí)行階段,占數(shù)據(jù)中心能耗30%的數(shù)據(jù)存儲(chǔ),能耗指標(biāo)正在納入建設(shè)標(biāo)準(zhǔn)。面向以AI大模型為代表的企業(yè)智能化新應(yīng)用,新的數(shù)據(jù)基礎(chǔ)設(shè)施架構(gòu)也正在逐漸形成。為了構(gòu)建大模型時(shí)代最佳的數(shù)據(jù)基礎(chǔ)設(shè)施,我們建議:123企業(yè)數(shù)字化從以應(yīng)用創(chuàng)新為主,轉(zhuǎn)向應(yīng)用和數(shù)據(jù)基礎(chǔ)設(shè)施的協(xié)同創(chuàng)新,充分發(fā)揮數(shù)據(jù)潛力。針對(duì)AI、大數(shù)據(jù)、分布式數(shù)據(jù)庫(kù)、云原生應(yīng)用,建設(shè)新應(yīng)用和數(shù)據(jù)存儲(chǔ)的聯(lián)合設(shè)計(jì)團(tuán)隊(duì),共同打造最佳的數(shù)據(jù)基礎(chǔ)設(shè)施。堅(jiān)定不移地推進(jìn)新應(yīng)用的存算分離架構(gòu),充分發(fā)揮應(yīng)用、存儲(chǔ)的專業(yè)能力,實(shí)現(xiàn)強(qiáng)強(qiáng)聯(lián)合。6數(shù)據(jù)存儲(chǔ)45探索以數(shù)據(jù)為中心的新存儲(chǔ)系統(tǒng)架構(gòu);構(gòu)建新的數(shù)據(jù)范式,推動(dòng)數(shù)據(jù)存儲(chǔ)支持近存計(jì)算、新的數(shù)據(jù)格式、新的數(shù)據(jù)訪問協(xié)議、高性能應(yīng)用數(shù)據(jù)緩存。新架構(gòu)和新范式的組合優(yōu)化,將大幅提升數(shù)字化新應(yīng)用的效率,讓新應(yīng)用擁有更高的SLA,并盡量降低傳統(tǒng)應(yīng)用的改造成本。企業(yè)核心的競(jìng)爭(zhēng)力應(yīng)用部署在企業(yè)自建數(shù)據(jù)中心,不確定性創(chuàng)新業(yè)務(wù)根據(jù)需要可以嘗試公有云。云的建設(shè)模式逐漸向應(yīng)用多云部署、數(shù)據(jù)/資源集中共享的分層解耦模式演進(jìn)。面向容器為基礎(chǔ)的云原生應(yīng)用,聯(lián)合應(yīng)用開發(fā)團(tuán)隊(duì)和數(shù)據(jù)存儲(chǔ)團(tuán)隊(duì),構(gòu)建云原生應(yīng)用最佳實(shí)踐。依據(jù)企業(yè)的戰(zhàn)略、經(jīng)營(yíng)情況、未來預(yù)測(cè),不盲從,綜合對(duì)比、選擇合適的商業(yè)模式,并選擇合適的MSP、存儲(chǔ)廠商合作伙伴。6加速全閃存存儲(chǔ)的應(yīng)用,采用以數(shù)據(jù)為中心的新架構(gòu)存儲(chǔ)、高密硬件、數(shù)據(jù)縮減、系統(tǒng)融合、海量非結(jié)構(gòu)化數(shù)據(jù)治理等技術(shù),降低海量數(shù)據(jù)的TCO,打造綠色低碳的數(shù)據(jù)中心。78將數(shù)據(jù)存儲(chǔ)團(tuán)隊(duì)加入數(shù)據(jù)安全聯(lián)合團(tuán)隊(duì),制定數(shù)據(jù)存儲(chǔ)內(nèi)生安全標(biāo)準(zhǔn),構(gòu)建數(shù)據(jù)安全的最后一道防線。積極嘗試AI使能的數(shù)據(jù)存儲(chǔ)產(chǎn)品及其管理,提升團(tuán)隊(duì)人員AI技能,從而大幅改善數(shù)據(jù)基礎(chǔ)設(shè)施的SLA水平。7新應(yīng)用展望一AI大模型8數(shù)據(jù)存儲(chǔ)缺數(shù)據(jù),無AI隨著GPU算力、AI算法的迅猛發(fā)展,以生成式AI為代表的AI大模型時(shí)代已經(jīng)來臨。其在對(duì)話、知識(shí)反饋等方面已遠(yuǎn)超過普通人類水平,更將顛覆互聯(lián)網(wǎng)、制造、金融、媒體等千行百業(yè)。當(dāng)前,AI大模型的第一波浪潮已經(jīng)開始,作為企業(yè)IT建設(shè)的決策者,需要正視并主動(dòng)擁抱變化,探索企業(yè)如何利用好大模型賦能生產(chǎn)、提升效率。趨勢(shì)AI的發(fā)展遠(yuǎn)超過預(yù)期舉例來說,同年發(fā)布的的生成式繪圖AI軟件Midjourney在1分鐘內(nèi),便可根據(jù)描述創(chuàng)造出不遜于人類頂尖設(shè)計(jì)師的作品。Midjourney基于GPT大模型,實(shí)現(xiàn)了在33個(gè)設(shè)計(jì)領(lǐng)域均實(shí)現(xiàn)應(yīng)用落地,例如,在文創(chuàng)設(shè)計(jì)領(lǐng)域的毛線編織、手機(jī)殼、盲盒公仔、冰箱貼、賀卡、玩具,在視覺設(shè)計(jì)領(lǐng)域的卡通頭像、公司Logo、徽標(biāo)、電影海報(bào),甚至在家裝設(shè)計(jì)領(lǐng)域的地毯紋路、瓷磚圖案、家具造型……2022年末,當(dāng)OpenAI發(fā)布ChatGPT時(shí),沒有人能想到,AI大模型接下來將為人類社會(huì)帶來歷史性變革。其拐點(diǎn)已經(jīng)出現(xiàn):2022年以前,AI還是一個(gè)面向?qū)S妙I(lǐng)域以“感知世界、理解世界”的小眾工具,例如計(jì)算機(jī)視覺、互聯(lián)網(wǎng)推薦。當(dāng)前,它已經(jīng)成長(zhǎng)為面向通用領(lǐng)域以“生成創(chuàng)造世界”的全能發(fā)明家,懂學(xué)習(xí)知識(shí)、會(huì)理解思考,在社交、辦公、編程、決策、創(chuàng)意生成中掀起生產(chǎn)力的巨浪。9數(shù)據(jù)存儲(chǔ)大模型正在從基礎(chǔ)大模型走向企業(yè)

示,沃爾瑪、亞馬遜和微軟等公司已自建的行業(yè)大模型經(jīng)通知員工不要在ChatGPT或類似生成式應(yīng)用中輸入任何機(jī)密信息,而摩根大通、花旗集團(tuán)、德意志銀行和美國(guó)銀行直接禁止員工使用ChatGPT。Verizon也禁止員工從公司系統(tǒng)訪問ChatGPT,原因是Verizon認(rèn)為如果將客戶信息、源代碼或知識(shí)產(chǎn)權(quán)等內(nèi)容放置在AI平臺(tái)上,這些信息最終將轉(zhuǎn)化為這些平臺(tái)的資產(chǎn),從而失去對(duì)數(shù)據(jù)流轉(zhuǎn)的控制。AI基礎(chǔ)大模型已逐漸普及,正在加速向各個(gè)行業(yè)滲透。過去,AI在不同場(chǎng)景下需要開發(fā)和訓(xùn)練不同的模型,不僅投入大、效率低,而且是從最基礎(chǔ)的模型開始開發(fā),技術(shù)門檻極高。而如今,大模型很大程度上打破了AI通用化、行業(yè)化的瓶頸,為上層應(yīng)用提供更多通用性的基礎(chǔ)能力,企業(yè)不再需要按場(chǎng)景從零開始開發(fā)和訓(xùn)練獨(dú)立的基礎(chǔ)模型,僅需在較成熟的基礎(chǔ)大模型上融入企業(yè)生產(chǎn)業(yè)務(wù)沉淀而來的私域數(shù)據(jù),即可進(jìn)一步實(shí)現(xiàn)大模型的專業(yè)訓(xùn)練,滿足特定領(lǐng)域?qū)?zhǔn)確度、安全性等方面的訴求。根據(jù)華為分析,預(yù)計(jì)95%的中大型企業(yè)未來將基于專屬數(shù)據(jù)自建行業(yè)大模型,依賴如銀行的企業(yè)賬戶與個(gè)人財(cái)務(wù)信息、車企的自動(dòng)駕駛影像記錄、醫(yī)療集團(tuán)的用戶健康數(shù)據(jù)。數(shù)據(jù)決定AI智能的高度AI大模型三要素是數(shù)據(jù)、算力、算法。隨著AI技術(shù)快速成熟,各企業(yè)所能夠使用的算力已逐漸趨同,均是以英偉達(dá)、昇騰為代表的GPU硬件;而各企業(yè)采用的算法也同樣逐漸收斂簡(jiǎn)化,均采用Transformer模型基礎(chǔ)架構(gòu)和Pytorch、TensorFlow、MindSpore開發(fā)框架。因此,真正決定AI智能高度的是數(shù)據(jù),企業(yè)需要思考怎樣才能用好數(shù)據(jù)。其次,我們也發(fā)現(xiàn),企業(yè)對(duì)于使用公開的大模型,是非常謹(jǐn)慎的。數(shù)據(jù)是企業(yè)的核心資產(chǎn),企業(yè)無法接受在大模型使用中導(dǎo)致企業(yè)核心機(jī)密泄露。據(jù)Cyberhaven對(duì)覆蓋160萬名來自各行業(yè)員工的調(diào)研,2.3%的員工曾將公司數(shù)據(jù)復(fù)制到ChatGPT,且其中機(jī)密數(shù)據(jù)占11%。而根據(jù)Gartner報(bào)告顯首先,訓(xùn)練數(shù)據(jù)的規(guī)模至關(guān)重要。我們發(fā)現(xiàn),同樣是大語言模型,Meta開發(fā)的LLaMA擁有650億參數(shù)和4.5TB訓(xùn)練數(shù)據(jù),而OpenAI的GPT-3.5擁有1750億參數(shù)和570GB訓(xùn)練數(shù)據(jù),盡管LLaMA在參數(shù)規(guī)模上僅不到GPT-3.510數(shù)據(jù)存儲(chǔ)的一半,但其表現(xiàn)能力在大部分基準(zhǔn)上均超過后者。不僅如此,LLaMA更是與來自DeepMind的700億參數(shù)模型Chinchilla、來自谷歌的5400億參數(shù)模型PaLM在表現(xiàn)上旗鼓相當(dāng)。由此可見,相較于模型參數(shù)規(guī)模,訓(xùn)練數(shù)據(jù)的體量對(duì)提升AI精度的效果更能起決定性作用。首先,海量原始數(shù)據(jù)的歸集效率。這個(gè)階段需要通過跨地域、跨線上線下的方式對(duì)數(shù)據(jù)進(jìn)行歸集匯總,進(jìn)行如數(shù)據(jù)中心、邊緣、云間不同協(xié)議格式數(shù)據(jù)的交互。據(jù)統(tǒng)計(jì),PB級(jí)數(shù)據(jù)的歸集通常花費(fèi)3~5周,耗時(shí)占據(jù)整個(gè)AI大模型全流程時(shí)長(zhǎng)的30%。為了加速數(shù)據(jù)歸集、減少后續(xù)分析的等待時(shí)間,需要存儲(chǔ)具備高效匯聚、協(xié)議互通、海量按需擴(kuò)容的能力。其次,數(shù)據(jù)的質(zhì)量同樣重要。AI大模型生成不正確、有歧義、無意義或不真實(shí)的結(jié)果,根本原因就是缺乏具備規(guī)范性、完整性、時(shí)效性的高質(zhì)量數(shù)據(jù)源支撐。對(duì)于基礎(chǔ)大模型,主要基于廠商從公開渠道所獲取數(shù)據(jù)的質(zhì)量。而對(duì)于行業(yè)大模型的訓(xùn)練及細(xì)分場(chǎng)景推理應(yīng)用,模型效果取決于行業(yè)專屬的私域數(shù)據(jù)的質(zhì)量,這包含了企業(yè)原有數(shù)據(jù),與實(shí)時(shí)更新的增量數(shù)據(jù),也就是行業(yè)知識(shí)庫(kù)。其次,數(shù)據(jù)的預(yù)處理效率。通過收集、爬取的原始數(shù)據(jù)是無法直接用于模型訓(xùn)練的,PB級(jí)原始數(shù)據(jù)會(huì)在這個(gè)階段被CPU與GPU再次讀取,進(jìn)行解析、清洗、去重等工作,包含至少3次全量數(shù)據(jù)讀取與搬遷,所消耗的CPU、GPU、網(wǎng)絡(luò)、內(nèi)存資源占據(jù)30%以上,然后最終生成訓(xùn)練樣本用于后續(xù)訓(xùn)練。我們分析,企業(yè)在這個(gè)階段耗時(shí)超過50天,占據(jù)AI大模型全流程時(shí)長(zhǎng)的40%以上。為了保證數(shù)據(jù)處理的效率、減少資源的浪費(fèi),需要存儲(chǔ)提供對(duì)數(shù)據(jù)的就近處理能力。作為數(shù)據(jù)載體,數(shù)據(jù)存儲(chǔ)成為AI大模型的關(guān)鍵基礎(chǔ)設(shè)施作為數(shù)據(jù)載體,數(shù)據(jù)存儲(chǔ)成為AI大模型的關(guān)鍵基礎(chǔ)設(shè)施。數(shù)據(jù)存儲(chǔ)是AI大模型數(shù)據(jù)收集、預(yù)處理、訓(xùn)練、推理的關(guān)鍵一環(huán),決定了能保存的數(shù)據(jù)容量、訓(xùn)練及推理的數(shù)據(jù)讀取效率、數(shù)據(jù)的可靠性以及數(shù)據(jù)安全。第三,模型訓(xùn)練階段的數(shù)據(jù)訪問效率。在模型訓(xùn)練啟動(dòng)階段,GPU服務(wù)器會(huì)隨機(jī)讀取數(shù)萬個(gè)小文件,讀取完畢后才能啟動(dòng)訓(xùn)練。為了避免GPU等待訓(xùn)練數(shù)據(jù)的加載時(shí)間過長(zhǎng),需要數(shù)11數(shù)據(jù)存儲(chǔ)據(jù)存儲(chǔ)提供千萬級(jí)IOPS能力。此外,在模型訓(xùn)練的過程中,GPU服務(wù)器硬件的故障率較高,譬如業(yè)界模型訓(xùn)練平均每2.8天故障一次,如果每次均從頭重新訓(xùn)練,將永遠(yuǎn)無法完成訓(xùn)練任務(wù)。因此,在過程中一般會(huì)設(shè)定數(shù)十次、甚至上百次的周期性checkpoint操作,保存中間過程數(shù)據(jù),讓發(fā)生故障后可以斷點(diǎn)續(xù)訓(xùn)。在這個(gè)期間,GPU將會(huì)暫停,等待數(shù)據(jù)完整保存后才可繼續(xù)運(yùn)轉(zhuǎn)。為了減少GPU的空置時(shí)長(zhǎng),需要存儲(chǔ)提供數(shù)百GBps級(jí)的讀寫帶寬。秒就發(fā)生一次數(shù)據(jù)勒索事件,企業(yè)不僅面臨贖金損失,還會(huì)面臨商譽(yù)、商業(yè)機(jī)會(huì)、法律訴訟、人力和時(shí)間成本等損失,這些連帶損失甚至是贖金損失的23倍以上。而另一類是新型的數(shù)據(jù)攻擊,主要是通過加入噪音數(shù)據(jù),如在訓(xùn)練數(shù)據(jù)中加入暴力、意識(shí)形態(tài)歪曲的內(nèi)容,導(dǎo)致模型質(zhì)量下降、推理精確度失準(zhǔn)、出現(xiàn)模型幻覺,最終干擾企業(yè)決策。這需要存儲(chǔ)能夠保障數(shù)據(jù)安全。簡(jiǎn)單來說,AI大模型時(shí)代的到來,存儲(chǔ)作為數(shù)據(jù)的關(guān)鍵載體,需要在三個(gè)方面演進(jìn),即海量非結(jié)構(gòu)化數(shù)據(jù)的治理、10倍的性能提升、存儲(chǔ)內(nèi)生安全。在滿足EB級(jí)海量擴(kuò)展性的基礎(chǔ)之上,需要滿足百GBps級(jí)的帶寬和千萬級(jí)IOPS,實(shí)現(xiàn)10倍以上的性能提升。此外,應(yīng)用推理階段的實(shí)時(shí)性和精準(zhǔn)性。當(dāng)大模型用于推理時(shí),為避免大模型出現(xiàn)答非所問、內(nèi)容杜撰等問題,需要將企業(yè)不斷產(chǎn)生的私有數(shù)據(jù)聯(lián)接到大模型。如果將這些全新的數(shù)據(jù)再次進(jìn)行訓(xùn)練或微調(diào),會(huì)耗費(fèi)很長(zhǎng)時(shí)間,且成本高昂。業(yè)界正在研究大模型旁外掛一個(gè)可容納增量數(shù)據(jù)、并且實(shí)時(shí)動(dòng)態(tài)更新的行業(yè)知識(shí)庫(kù),這其實(shí)就需要一個(gè)能夠快速檢索關(guān)鍵信息的新型存儲(chǔ)。最后,在AI大模型全周期漫長(zhǎng)的數(shù)據(jù)鏈條中,通常攻擊的手段歸結(jié)為兩類,一類是傳統(tǒng)的數(shù)據(jù)竊取,以獲取勒索贖金。據(jù)統(tǒng)計(jì),2022年平均每1112數(shù)據(jù)存儲(chǔ)數(shù)據(jù)獲取三方收集、網(wǎng)絡(luò)爬取邊緣匯聚數(shù)據(jù)預(yù)處理原始數(shù)據(jù)->訓(xùn)練數(shù)據(jù)模型訓(xùn)練模型訓(xùn)練+調(diào)優(yōu)評(píng)估推理應(yīng)用問題輸入->向量推理流流并預(yù)處理服務(wù)器行基礎(chǔ)大模型訓(xùn)練行業(yè)模型訓(xùn)推一體化脫敏、合規(guī)、審批、匯聚GPU1加GPU2GPU3GPU4GPU5GPU6GPU7GPU8GPU1格式標(biāo)準(zhǔn)化錯(cuò)誤糾正GPU1GPU2GPU3GPU4GPU5GPU6GPU7GPU8CPU1處CPU1GPU1GPU2GPU3GPU4GPU5GPU67CPU1CPU2GPU2CPU1CPU2CPU2異常數(shù)據(jù)清理重復(fù)數(shù)據(jù)清除讀型GPU3邊緣存儲(chǔ)邊緣存儲(chǔ)張節(jié)點(diǎn)-nCPU2GPU4GPU8節(jié)點(diǎn)-12TXTJPGMP4ZIP節(jié)點(diǎn)-1數(shù)據(jù)并行量POSIXGDSNAS協(xié)議/S3協(xié)議據(jù)NAS協(xié)議/

HDFS協(xié)議向載拷貝拷貝拷貝算力卸載存內(nèi)計(jì)算動(dòng)態(tài)混合

向量模存儲(chǔ)負(fù)載

加速向量快速檢索全域數(shù)據(jù)管理數(shù)LOG原始數(shù)據(jù)訓(xùn)練集數(shù)據(jù)

索引數(shù)據(jù)check

point向量庫(kù)業(yè)務(wù)數(shù)據(jù)向量庫(kù)全量藥餌攻擊/漏洞攻擊(訓(xùn)練失準(zhǔn))勒索攻擊(數(shù)據(jù)不可讀)數(shù)據(jù)竊取攻擊安圖1:AI大模型全生命周期數(shù)據(jù)編織能力實(shí)現(xiàn)跨地域的海量數(shù)

除此之外,數(shù)據(jù)編織也能實(shí)現(xiàn)AI訓(xùn)練據(jù)歸集和管理數(shù)據(jù)集的按需篩選。通過數(shù)據(jù)畫像,憑借數(shù)據(jù)的時(shí)空信息、數(shù)據(jù)的標(biāo)簽,以簡(jiǎn)化數(shù)據(jù)的分級(jí)分類管理,做到按場(chǎng)景化的數(shù)據(jù)治理,滿足AI大模型的場(chǎng)景化要求。通過識(shí)別數(shù)據(jù)的訪問日期、格式類型和訪問頻次,來滿足熱、溫、冷數(shù)據(jù)的智能分級(jí),最大化節(jié)省TCO。數(shù)據(jù)編織是通過全局?jǐn)?shù)據(jù)視圖技術(shù),實(shí)現(xiàn)全局?jǐn)?shù)據(jù)可視可管、跨域跨系統(tǒng)的數(shù)據(jù)按需調(diào)度,實(shí)現(xiàn)業(yè)務(wù)無感、業(yè)務(wù)性能無損的數(shù)據(jù)最優(yōu)排布,滿足來自多個(gè)源頭的價(jià)值數(shù)據(jù)快速歸集和流動(dòng),以提升海量復(fù)雜數(shù)據(jù)的管理效率,直接減少AI訓(xùn)練端到端周期。13數(shù)據(jù)存儲(chǔ)數(shù)據(jù)編織最優(yōu)數(shù)據(jù)布局全局文件系統(tǒng)跨域數(shù)據(jù)協(xié)同數(shù)據(jù)中心1數(shù)據(jù)中心2公有云邊緣緩存緩存緩存緩存圖2:全局?jǐn)?shù)據(jù)視圖和調(diào)度AI大模型數(shù)據(jù)的高性能存取需要數(shù)低至36天,整體訓(xùn)練時(shí)間縮短32%。據(jù)存儲(chǔ)全面走向全閃存高性能的計(jì)算與存儲(chǔ)架構(gòu)從以CPU為中心轉(zhuǎn)向以數(shù)據(jù)為中心高性能的數(shù)據(jù)讀寫是提升GPU利用率、減少端到端訓(xùn)練周期的關(guān)鍵。AI大模型的出現(xiàn),讓算力以CPU為主轉(zhuǎn)向了CPU、GPU、NPU等異構(gòu)融合。目前,模型訓(xùn)練仍然需要通過CPU去訪問內(nèi)存,但由于CPU的發(fā)展逐步放緩,導(dǎo)致內(nèi)存的帶寬和容量成為瓶頸。傳統(tǒng)的機(jī)械硬盤存儲(chǔ)已經(jīng)無法滿足快速訪問和處理大規(guī)模數(shù)據(jù)的需求,而閃存技術(shù)具備高速讀寫能力和低延遲特性,并伴隨著其堆疊層數(shù)與顆粒類型方面突破,帶來成本的持續(xù)走低,使其成為處理AI大模型的理想選擇。在讀寫比6:4時(shí),機(jī)械盤存儲(chǔ)僅有5~10萬IOPS,而全閃存存儲(chǔ)可以達(dá)數(shù)1

0

1

0

0

上IOPS。數(shù)據(jù)讀寫性能的大幅提升,將減少計(jì)算、網(wǎng)絡(luò)等資源等待,加速大模型的上市與應(yīng)用。據(jù)華為測(cè)算,以GPT-3采用100PFlops算力下,當(dāng)存儲(chǔ)的讀寫性能提升30%,將優(yōu)化計(jì)算側(cè)30%的利用率,訓(xùn)練周期將從48天降業(yè)界的解決辦法是正在采用以CXL(Compute

Express

Link)為代表的高速互聯(lián)總線,將系統(tǒng)中的計(jì)算、存儲(chǔ)、內(nèi)存等資源徹底解構(gòu),各自形成統(tǒng)一的共享資源池,讓GPU可以直接通過CXL總線以更快的速度訪問內(nèi)存與存儲(chǔ),從而極大提升AI大模型的數(shù)據(jù)加載及流轉(zhuǎn)效率,實(shí)現(xiàn)以CPU為中心轉(zhuǎn)向以數(shù)據(jù)為中心的架構(gòu)。14數(shù)據(jù)存儲(chǔ)目前,存儲(chǔ)系統(tǒng)也還是以CPU為中心的架構(gòu),為了提供更快速的數(shù)據(jù)服務(wù),以支撐AI大模型的高效訓(xùn)練與推理,存儲(chǔ)未來也會(huì)采用高速互聯(lián)總線的數(shù)據(jù)交互方式,朝著以數(shù)據(jù)為中心的架構(gòu)演進(jìn)。預(yù)計(jì)2025年向量知識(shí)庫(kù)會(huì)占非結(jié)構(gòu)化數(shù)據(jù)處理總需求約三成,向量存儲(chǔ)將成為一切大模型數(shù)據(jù)的基礎(chǔ)。一方面,向量存儲(chǔ)需要具備每秒一萬次級(jí)別的向量檢索能力,以快速在數(shù)十億甚至上百億條向量里進(jìn)行模糊查找或精確匹配。另一方面,還需要支持跨域、跨模態(tài)數(shù)據(jù)的索引查找,比如來自多地多源頭同一事物的圖片、語音、文字等多模態(tài)形式,實(shí)現(xiàn)信息快速關(guān)聯(lián)與聚合。新的數(shù)據(jù)范式將以新的數(shù)據(jù)架構(gòu)加速AI大模型的訓(xùn)練/推理AI大模型的興起,促進(jìn)了大算力+大數(shù)據(jù)+大模型的化學(xué)反應(yīng),推動(dòng)了向量存儲(chǔ)、近存計(jì)算等存儲(chǔ)新范式的創(chuàng)新?!窘嬗?jì)算】大模型的數(shù)據(jù)預(yù)處理涉及至少3次存儲(chǔ)、內(nèi)存、CPU間的數(shù)據(jù)移動(dòng),消耗30%的計(jì)算與網(wǎng)絡(luò)資源。為了減少或避免數(shù)據(jù)搬移帶來的系統(tǒng)開銷,需要通過近存計(jì)算、以存強(qiáng)算的能力,將算力卸載下沉進(jìn)存儲(chǔ)實(shí)現(xiàn)隨路計(jì)算,讓數(shù)據(jù)在存儲(chǔ)側(cè)便完成一部分過濾、聚合、轉(zhuǎn)碼任務(wù),釋放20%的CPU、GPU、網(wǎng)絡(luò)、內(nèi)存資源,一定程度上減少了對(duì)GPU的依賴。【向量存儲(chǔ)】外掛知識(shí)庫(kù)正在成為大模型應(yīng)用的必備組件。知識(shí)庫(kù)就是一個(gè)新型的外置存儲(chǔ),為我們帶來了全新數(shù)據(jù)范式,我們稱之為向量存儲(chǔ)。向量存儲(chǔ)秉承“萬物皆可向量”的理念,將所有知識(shí)內(nèi)容、所有提問輸入轉(zhuǎn)化成向量表示,把多模態(tài)、高維度的非結(jié)構(gòu)化數(shù)據(jù)的特征提取出來,并在推理應(yīng)用時(shí)進(jìn)行快速的查詢檢索,找到與問題最接近的知識(shí)內(nèi)容(即在存儲(chǔ)內(nèi)生安全將成為數(shù)據(jù)安全的最向量表示中距離最近),將這些內(nèi)容

后一道防線輸入給大模型,形成更加精準(zhǔn)的回答。于此往復(fù),向量存儲(chǔ)就成為一塊AI大模型的外置記憶塊,用于長(zhǎng)期存儲(chǔ)這些數(shù)據(jù),供大模型隨時(shí)調(diào)用,也可以及時(shí)更新。大模型誕生于海量數(shù)據(jù)知識(shí),這些數(shù)據(jù)囊括用戶的私人信息、企業(yè)的核心商業(yè)秘密等敏感信息。作為數(shù)據(jù)的最終載體,存儲(chǔ)絕不能被攻破,安全應(yīng)15數(shù)據(jù)存儲(chǔ)該是存儲(chǔ)的內(nèi)生能力,需增強(qiáng)整個(gè)大模型系統(tǒng)的數(shù)據(jù)防護(hù)能力,以構(gòu)建數(shù)據(jù)安全的最后一道防線。存儲(chǔ)內(nèi)生安全包括存儲(chǔ)軟硬件系統(tǒng)安全、存儲(chǔ)數(shù)據(jù)安全以及安全管理。的全生命周期管理。對(duì)于企業(yè)的細(xì)分行業(yè)場(chǎng)景應(yīng)用,一站式的訓(xùn)/推超融合一體機(jī)成為主流建設(shè)模式企業(yè)受限于技術(shù)、人才和資金的短缺,帶來了設(shè)備集成復(fù)雜、模型部署繁瑣、資源使用效率低、運(yùn)維管理困難等一系列難題。AI大模型的建設(shè)模式將采用和HPC、大數(shù)據(jù)同源的數(shù)據(jù)湖建設(shè)模式企業(yè)在使用AI大模型、HPC、大數(shù)據(jù)時(shí)均需要豐富的原始數(shù)據(jù),它們的來源是相同的,均是企業(yè)所積累的生產(chǎn)交易數(shù)據(jù)、科研實(shí)驗(yàn)數(shù)據(jù)和用戶行為數(shù)據(jù)。因此,大模型采用和HPC、大數(shù)據(jù)同源的建設(shè)模式是最經(jīng)濟(jì)高效的,實(shí)現(xiàn)一份數(shù)據(jù)在不同環(huán)境中協(xié)同工作。否則,將重復(fù)建設(shè)獨(dú)立集群、消耗大量存儲(chǔ)設(shè)備和機(jī)房空間,產(chǎn)生更嚴(yán)重的數(shù)據(jù)孤島,影響建設(shè)運(yùn)維成本與數(shù)據(jù)流轉(zhuǎn)效率。如今,例如鵬城云腦、武漢智算中心、中國(guó)移動(dòng)、中國(guó)電信等客戶已經(jīng)開始基于此模式啟動(dòng)建設(shè)。針對(duì)上述困境,一站式的訓(xùn)/推超融合一體機(jī),憑借開箱即用、存算靈活拓展、模型一鍵部署等特點(diǎn)成為企業(yè)擁抱行業(yè)大模型的最優(yōu)解。這種集成存儲(chǔ)、網(wǎng)絡(luò)、多樣性計(jì)算的一體化交付模式,在2小時(shí)內(nèi)完成部署,免去企業(yè)適配調(diào)優(yōu)、系統(tǒng)從頭搭建的困擾;并可以靈活擴(kuò)展計(jì)算、存儲(chǔ)節(jié)點(diǎn),并利用高效的資源調(diào)度和虛擬化技術(shù),讓一切資源能夠物盡其用;此外,通過預(yù)置集成各種大模型,基于企業(yè)私有知識(shí)庫(kù)進(jìn)行微調(diào)與推理,構(gòu)建更偏向端側(cè)細(xì)分應(yīng)用的環(huán)境,如客服專家機(jī)器人、辦公室助理機(jī)器人、程序員機(jī)器人,降低企業(yè)部署AI大模型的門檻,加速走向普惠時(shí)代。雖然業(yè)界的HPC、大數(shù)據(jù)、AI大模型走向數(shù)據(jù)湖的建設(shè)模式,但由于AI大模型的數(shù)據(jù)規(guī)模與工作負(fù)載對(duì)存儲(chǔ)性能和容量訴求提升至少10倍,因此,企業(yè)有必要針對(duì)現(xiàn)有的數(shù)據(jù)湖存儲(chǔ)進(jìn)行性能升級(jí)和不斷擴(kuò)容,并滿足數(shù)據(jù)16管源數(shù)據(jù)存儲(chǔ)HCI超融合架構(gòu)訓(xùn)練/推理一體機(jī)虛擬化軟件AI組件網(wǎng)絡(luò)節(jié)點(diǎn)訓(xùn)練/推理節(jié)點(diǎn)存儲(chǔ)節(jié)點(diǎn)圖3:HCI超融合架構(gòu)訓(xùn)/推一體機(jī)資建議建議1:數(shù)據(jù)決定AI智能的高度,企業(yè)應(yīng)該建立計(jì)算與存儲(chǔ)并重的AI大模型基礎(chǔ)設(shè)施性下不斷攀升的性能訴求。建議3:企業(yè)應(yīng)該構(gòu)建具備前瞻性的數(shù)據(jù)基礎(chǔ)設(shè)施架構(gòu),包括全面閃存化、以數(shù)據(jù)為中心的架構(gòu)、數(shù)據(jù)編織、新數(shù)據(jù)范式(向量存儲(chǔ)、近存計(jì)算)以及存儲(chǔ)內(nèi)生安全AI大模型走向各行各業(yè)后,數(shù)據(jù)的規(guī)模與質(zhì)量是AI智能的決定性因素,企業(yè)不應(yīng)僅關(guān)注堆疊算力,更應(yīng)關(guān)注以存儲(chǔ)為核心的數(shù)據(jù)基礎(chǔ)設(shè)施,其中包括海量非結(jié)構(gòu)化數(shù)據(jù)的治理、更優(yōu)的吞吐性能、更高的數(shù)據(jù)安全。全閃存存儲(chǔ)將帶來性能大幅提升,加快AI大模型開發(fā)落地的速度;以數(shù)據(jù)為中心的架構(gòu)可以帶來硬件資源的解耦與互聯(lián),加速數(shù)據(jù)的按需流動(dòng);數(shù)據(jù)編織、向量存儲(chǔ)與近存計(jì)算等新興數(shù)據(jù)處理技術(shù),將最大程度降低企業(yè)整合數(shù)據(jù)、使用數(shù)據(jù)的門檻,滿足資源的高效利用,降低行業(yè)接入AI大模型的難度;存儲(chǔ)內(nèi)生安全體系將保護(hù)企業(yè)核心私密數(shù)據(jù)資產(chǎn),讓企業(yè)更加放心地使用AI大模型。建議2:AI大模型采用和HPC、大數(shù)據(jù)同源的數(shù)據(jù)湖建設(shè)模式,并對(duì)當(dāng)前的數(shù)據(jù)湖存儲(chǔ)進(jìn)行性能升級(jí)數(shù)據(jù)湖的建設(shè)模式將消除數(shù)據(jù)孤島,滿足海量數(shù)據(jù)訴求下的彈性擴(kuò)容,降低TCO。此外,應(yīng)該按需對(duì)現(xiàn)有數(shù)據(jù)湖存儲(chǔ)進(jìn)行性能升級(jí),以滿足AI大模型實(shí)時(shí)17數(shù)據(jù)存儲(chǔ)數(shù)據(jù)攫取數(shù)據(jù)預(yù)處理AI計(jì)算存儲(chǔ)內(nèi)生安全資源/任務(wù)調(diào)度系統(tǒng)安全新數(shù)據(jù)范式向量存儲(chǔ)加速|(zhì)近存計(jì)算跨地域海非結(jié)構(gòu)化數(shù)據(jù)編織全局?jǐn)?shù)據(jù)視圖|多數(shù)據(jù)源/系統(tǒng)接入數(shù)據(jù)安全數(shù)據(jù)湖存儲(chǔ)HPC

|AI

|大數(shù)據(jù)以數(shù)據(jù)為中心的高性能存儲(chǔ)架構(gòu)安全管理高速互聯(lián)總線以閃存為中心的硬件基礎(chǔ)設(shè)施高密SSD盤

|高密整機(jī)圖4:AI數(shù)據(jù)基礎(chǔ)設(shè)施建議4:對(duì)于企業(yè)的細(xì)分行業(yè)場(chǎng)景

建議5:打造具備AI大模型、尤其應(yīng)用,采用一站式的訓(xùn)/推超融合

是AI大模型存儲(chǔ)的專業(yè)技術(shù)團(tuán)隊(duì),一體機(jī)建設(shè)模式提升企業(yè)AI大模型的專業(yè)能力考慮到細(xì)分行業(yè)應(yīng)用的便捷性,企業(yè)應(yīng)考慮采用超融合架構(gòu),將數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)、計(jì)算(訓(xùn)/推)節(jié)點(diǎn)、交換設(shè)備、AI平臺(tái)軟件,以及管理運(yùn)維軟件高度集成并一站式交付,免去大量適配調(diào)優(yōu)、系統(tǒng)搭建的成本。企業(yè)應(yīng)該培養(yǎng)更多具備對(duì)AI大模型、尤其是AI大模型存儲(chǔ)方面擁有深入理解、實(shí)戰(zhàn)經(jīng)驗(yàn)的專業(yè)人員,構(gòu)建AI大模型的人才培養(yǎng)體系。18新應(yīng)用展望二大數(shù)據(jù)19數(shù)據(jù)存儲(chǔ)大數(shù)據(jù)應(yīng)用從描述過去走向決策未來,新數(shù)據(jù)范式驅(qū)動(dòng)數(shù)據(jù)應(yīng)用效率提升大數(shù)據(jù)應(yīng)用經(jīng)過十來年的發(fā)展,已經(jīng)從對(duì)歷史數(shù)據(jù)進(jìn)行統(tǒng)計(jì)描述走向主動(dòng)決策、智能決策。企業(yè)通過優(yōu)化大數(shù)據(jù)平臺(tái)與基礎(chǔ)設(shè)施,構(gòu)建領(lǐng)先的數(shù)據(jù)價(jià)值挖掘能力和應(yīng)用效率,將獲得競(jìng)爭(zhēng)優(yōu)勢(shì)。趨勢(shì)大數(shù)據(jù)應(yīng)用邁向輔助實(shí)時(shí)精準(zhǔn)決

分布情況統(tǒng)計(jì)等。策、智能決策,大數(shù)據(jù)平臺(tái)正在走向湖倉(cāng)一體,關(guān)鍵要建設(shè)面向大數(shù)據(jù)的數(shù)據(jù)湖存儲(chǔ)第二階段,2012年~2022年的預(yù)測(cè)分析時(shí)代:根據(jù)歷史統(tǒng)計(jì)預(yù)測(cè)未來可能發(fā)生什么,以輔助管理者判斷和決大數(shù)據(jù)應(yīng)用的發(fā)展可以描述為傳統(tǒng)數(shù)策。例如信用卡目標(biāo)客戶畫像與推據(jù)應(yīng)用、預(yù)測(cè)分析和主動(dòng)決策三個(gè)階薦、話費(fèi)流量包推薦、輿情檢測(cè)和災(zāi)段。情評(píng)估等。面向未來,大數(shù)據(jù)進(jìn)入主動(dòng)決策時(shí)第一階段,2000年~2012年的傳統(tǒng)代:通過歷史發(fā)生過什么及正在發(fā)生數(shù)據(jù)時(shí)代:數(shù)據(jù)技術(shù)主要用于對(duì)歷史什么的即時(shí)分析判斷,進(jìn)行實(shí)時(shí)精準(zhǔn)現(xiàn)象進(jìn)行更準(zhǔn)確描述。例如銀行歷史決策。例如,在城市交通管理中,通明細(xì)查詢、運(yùn)營(yíng)商話單查詢和客戶流過大數(shù)據(jù)技術(shù)采集和分析車輛位置數(shù)失率統(tǒng)計(jì)、城市供電燃?xì)夂退畡?wù)使用20數(shù)據(jù)存儲(chǔ)挖掘建模數(shù)據(jù)探索BI/報(bào)表挖掘建模數(shù)據(jù)探索BI/報(bào)表BI報(bào)表ETL數(shù)據(jù)集市半結(jié)構(gòu)化、非結(jié)構(gòu)化開放數(shù)據(jù)格式結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化半結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)新型數(shù)據(jù)湖存儲(chǔ)數(shù)據(jù)倉(cāng)庫(kù)傳統(tǒng)數(shù)據(jù)湖、數(shù)據(jù)倉(cāng)庫(kù)湖倉(cāng)一體圖5:大數(shù)據(jù)分析平臺(tái)三階段演進(jìn)據(jù)、交通流量數(shù)據(jù)等實(shí)時(shí)分析和處理,從而實(shí)現(xiàn)交通路線的自動(dòng)優(yōu)化、交通擁堵的實(shí)時(shí)調(diào)控與緩解。策、主動(dòng)決策。湖倉(cāng)一體時(shí)代:企業(yè)開始嘗試從IT堆棧優(yōu)化上尋找實(shí)時(shí)決策、主動(dòng)決策解決方案,將大數(shù)據(jù)平臺(tái)快速推向湖倉(cāng)一體的新架構(gòu)。其核心舉措是與存儲(chǔ)廠商聯(lián)合創(chuàng)新,將大數(shù)據(jù)IT堆棧存算解耦,以數(shù)據(jù)湖存儲(chǔ)實(shí)現(xiàn)數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)共享同一份數(shù)據(jù),無需在數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)間進(jìn)行數(shù)據(jù)流轉(zhuǎn),從而實(shí)現(xiàn)實(shí)時(shí)、主動(dòng)決策。在此過程中,大數(shù)據(jù)分析平臺(tái)的演進(jìn)也經(jīng)歷三個(gè)階段:傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)時(shí)代:企業(yè)通過數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建面向主題的、可隨時(shí)間變化的數(shù)據(jù)集合,從而實(shí)現(xiàn)對(duì)歷史數(shù)據(jù)進(jìn)行準(zhǔn)確的描述和統(tǒng)計(jì),為分析決策服務(wù),但僅能處理TB級(jí)結(jié)構(gòu)化數(shù)據(jù)。中國(guó)移動(dòng)聯(lián)合華為數(shù)據(jù)存儲(chǔ)開展大數(shù)據(jù)存算分離研究,重點(diǎn)推進(jìn)湖倉(cāng)一體架構(gòu)的應(yīng)用,以提升大數(shù)據(jù)服務(wù)便捷性。在其九大區(qū)域業(yè)務(wù)數(shù)據(jù)中心節(jié)點(diǎn)建設(shè)超過180PB容量的數(shù)據(jù)湖存儲(chǔ)進(jìn)行規(guī)模試點(diǎn),形成每日超過20萬個(gè)作業(yè)、每秒超過2億條數(shù)據(jù)的分析處理能力,規(guī)模全球領(lǐng)先。傳統(tǒng)數(shù)據(jù)湖時(shí)代:企業(yè)使用Hadoop技術(shù)構(gòu)建數(shù)據(jù)湖,處理結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù),實(shí)現(xiàn)基于歷史數(shù)據(jù)預(yù)測(cè)未來的發(fā)展趨勢(shì)。這個(gè)階段形成了

數(shù)

據(jù)

數(shù)

據(jù)

倉(cāng)

庫(kù)

煙囪”架構(gòu),數(shù)據(jù)需要在數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)之間流轉(zhuǎn),因而無法實(shí)現(xiàn)實(shí)時(shí)決21數(shù)據(jù)存儲(chǔ)多樣負(fù)載接入是新型數(shù)據(jù)湖存儲(chǔ)的基本特征撐效率當(dāng)計(jì)算客戶端的規(guī)模達(dá)到萬級(jí)甚至是幾十萬級(jí)別,數(shù)據(jù)量達(dá)到十PB級(jí)時(shí),為了快速進(jìn)行數(shù)據(jù)查找分析,關(guān)鍵是要優(yōu)化元數(shù)據(jù)查詢操作性能。在大數(shù)據(jù)平臺(tái)與數(shù)據(jù)持久存儲(chǔ)之間新增一個(gè)高速緩存層作為海量數(shù)據(jù)加速引擎,近數(shù)據(jù)計(jì)算實(shí)現(xiàn)百PB數(shù)據(jù)查詢效率從10分鐘級(jí)縮短至10秒,支撐T+0實(shí)時(shí)數(shù)據(jù)分析成為現(xiàn)實(shí)。新型數(shù)據(jù)湖存儲(chǔ)把來自數(shù)據(jù)科學(xué)、AI應(yīng)用、知識(shí)挖掘等不同應(yīng)用的數(shù)據(jù)源接入集成到統(tǒng)一存儲(chǔ)池中,因此它應(yīng)能支持不同應(yīng)用工具集帶來的多樣化數(shù)據(jù)訪問,包括多樣化數(shù)據(jù)訪問協(xié)議以及不同的IO負(fù)載。數(shù)據(jù)湖存儲(chǔ)支持近數(shù)據(jù)計(jì)算,新數(shù)據(jù)范式提升大數(shù)據(jù)對(duì)應(yīng)用的支數(shù)據(jù)湖、數(shù)據(jù)倉(cāng)庫(kù)、AI工具集HiveSparkHBaseMPP…MLClient

plug-in算法卸載數(shù)據(jù)共享數(shù)據(jù)加速引擎統(tǒng)一數(shù)據(jù)格式ACID表語義加速負(fù)載感知的緩存共享語義緩存時(shí)序熱數(shù)據(jù)預(yù)取分區(qū)管理格式融合數(shù)據(jù)縮減緩存服務(wù)KV

Store持久化存儲(chǔ)池…ORC

?leParquet

?leHudi

?leIceberg

?le新型數(shù)據(jù)湖存儲(chǔ)圖6:近存計(jì)算實(shí)現(xiàn)實(shí)時(shí)大數(shù)據(jù)分析22數(shù)據(jù)存儲(chǔ)建議建議1:企業(yè)關(guān)注大數(shù)據(jù)平臺(tái)與存

建議3:大數(shù)據(jù)平臺(tái)基于存算分離儲(chǔ)的協(xié)同創(chuàng)新,推進(jìn)數(shù)據(jù)分析走向

架構(gòu)向湖倉(cāng)一體演進(jìn),探索新數(shù)據(jù)實(shí)時(shí)范式,實(shí)現(xiàn)T+0實(shí)時(shí)決策企業(yè)應(yīng)從傳統(tǒng)以關(guān)心大數(shù)據(jù)平臺(tái)建設(shè)為主,演變?yōu)橥ㄟ^落地大數(shù)據(jù)平臺(tái)與存儲(chǔ)的協(xié)同創(chuàng)新,有效解決現(xiàn)有大數(shù)據(jù)平臺(tái)實(shí)時(shí)數(shù)據(jù)與離線數(shù)據(jù)無法共享和融合分析的問題,實(shí)現(xiàn)對(duì)不同類型、不同來源、不同格式的數(shù)據(jù)進(jìn)行統(tǒng)一管理和處理,從而實(shí)現(xiàn)數(shù)據(jù)實(shí)時(shí)更新、實(shí)時(shí)分析和實(shí)時(shí)供數(shù)。通過建設(shè)新型數(shù)據(jù)湖存儲(chǔ)、探索以近存計(jì)算為代表的新數(shù)據(jù)范式,幫助企業(yè)大數(shù)據(jù)平臺(tái)向湖倉(cāng)一體演進(jìn),實(shí)現(xiàn)實(shí)時(shí)、主動(dòng)決策。建議2:成立大數(shù)據(jù)平臺(tái)與存儲(chǔ)聯(lián)合設(shè)計(jì)團(tuán)隊(duì),形成協(xié)同工作常態(tài)機(jī)制當(dāng)前企業(yè)大數(shù)據(jù)平臺(tái)團(tuán)隊(duì)的職責(zé)主要是搭建穩(wěn)定、可靠的大數(shù)據(jù)計(jì)算平臺(tái),通過海量數(shù)據(jù)的計(jì)算建模、分析和挖掘,探索數(shù)據(jù)應(yīng)用場(chǎng)景。成立大數(shù)據(jù)平臺(tái)與存儲(chǔ)聯(lián)合方案設(shè)計(jì)團(tuán)隊(duì),并形成協(xié)同工作機(jī)制,有助于將大數(shù)據(jù)分析工作流的探索優(yōu)化范圍從以數(shù)據(jù)計(jì)算為主擴(kuò)展到數(shù)據(jù)產(chǎn)生、數(shù)據(jù)計(jì)算、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)應(yīng)用的端到端全流程,形成探索數(shù)據(jù)應(yīng)用的更強(qiáng)大創(chuàng)新引擎。23新應(yīng)用展望三分布式數(shù)據(jù)庫(kù)24數(shù)據(jù)存儲(chǔ)互聯(lián)網(wǎng)浪潮和成本壓力促使核心系統(tǒng)逐步采用分布式數(shù)據(jù)庫(kù),同時(shí)分布式數(shù)據(jù)庫(kù)正在從存算一體走向存算分離架構(gòu)開源數(shù)據(jù)庫(kù)MySQL和PostgreSQL占據(jù)全球數(shù)據(jù)庫(kù)市場(chǎng)格局TOP2。開源數(shù)據(jù)庫(kù)正在重構(gòu)企業(yè)核心系統(tǒng)。同時(shí)為確保業(yè)務(wù)平穩(wěn)運(yùn)行,分布式數(shù)據(jù)庫(kù)存算分離架構(gòu)正在成為事實(shí)標(biāo)準(zhǔn)。趨勢(shì)基于業(yè)務(wù)變化、降本增效和長(zhǎng)期技

高昂的運(yùn)維成本也是企業(yè)選擇傳統(tǒng)核術(shù)演進(jìn),基于開源生態(tài)的分布式數(shù)據(jù)庫(kù)正在替代傳統(tǒng)核心系統(tǒng)心改造的原因之一。甲骨文第三方支持服務(wù)提供商Rimini

Street,

Inc.面向Oracle用戶所作調(diào)查結(jié)果顯示,97%的用戶認(rèn)為成本是使用Oracle數(shù)據(jù)庫(kù)的最大戰(zhàn),35%的用戶正在轉(zhuǎn)向使用開源或其它非Oracle云數(shù)據(jù)庫(kù)。數(shù)字化、移動(dòng)化技術(shù)發(fā)展使企業(yè)與客戶交互渠道發(fā)生巨大變化,手機(jī)APP類互聯(lián)網(wǎng)應(yīng)用成為觸發(fā)客戶購(gòu)買行為的最佳媒介。這固然引領(lǐng)了業(yè)務(wù)快速增長(zhǎng),但也給核心系統(tǒng)帶來難以預(yù)料且波動(dòng)巨大的業(yè)務(wù)浪涌。核心系統(tǒng)必須具備極強(qiáng)的資源彈性,以確保高峰期能夠快速擴(kuò)展以保障業(yè)務(wù)正常運(yùn)行,而平時(shí)能夠釋放閑置資源避免浪費(fèi)。分析網(wǎng)站6Sence顯示,MySQL以42.95%的市場(chǎng)占用率穩(wěn)居數(shù)據(jù)庫(kù)榜首,排名第二的是另一個(gè)開源數(shù)據(jù)庫(kù)PostgreSQL,Oracle僅排名第三位。25數(shù)據(jù)存儲(chǔ)為確保業(yè)務(wù)平穩(wěn)運(yùn)行,分布式數(shù)據(jù)

能力彌補(bǔ)開源數(shù)據(jù)庫(kù)容災(zāi)能力不足。庫(kù)存算分離架構(gòu)成為事實(shí)標(biāo)準(zhǔn)最重要的是,存算分離架構(gòu)經(jīng)過傳統(tǒng)核心業(yè)務(wù)長(zhǎng)期檢驗(yàn),有非常成熟的產(chǎn)品體系與運(yùn)維經(jīng)驗(yàn),企業(yè)可以更多關(guān)注分布式數(shù)據(jù)庫(kù)如何幫助其業(yè)務(wù)增長(zhǎng),無需被運(yùn)維問題頻繁打擾。穩(wěn)定性是核心數(shù)據(jù)庫(kù)的第一關(guān)注點(diǎn),此外性能、功能和能效也是重要的考核標(biāo)準(zhǔn)。在分布式數(shù)據(jù)庫(kù)使用初期,由于試點(diǎn)的業(yè)務(wù)規(guī)模小、數(shù)據(jù)量小,為了最小化初始成本,許多企業(yè)直接把數(shù)據(jù)庫(kù)應(yīng)用和數(shù)據(jù)部署在同一臺(tái)服務(wù)器上,這種架構(gòu)又稱為存算一體架構(gòu)。顯然,這種“將雞蛋放在一個(gè)籃子里”的做法難以抵抗風(fēng)險(xiǎn),因此企業(yè)通過多套服務(wù)器+多份數(shù)據(jù)冗余的方式來暫時(shí)性解決業(yè)務(wù)穩(wěn)定性問題。隨著分布式數(shù)據(jù)庫(kù)規(guī)模擴(kuò)大,數(shù)據(jù)量成倍增長(zhǎng),冗余導(dǎo)致的投資浪費(fèi)越來越多,服務(wù)器數(shù)量也越來越龐大。數(shù)據(jù)規(guī)模的擴(kuò)大也使得冗余數(shù)據(jù)同步對(duì)網(wǎng)絡(luò)帶寬消耗越來越大,尤其是在多地容災(zāi)架構(gòu)下,網(wǎng)絡(luò)瓶頸將導(dǎo)致災(zāi)害發(fā)生時(shí)可能出現(xiàn)數(shù)據(jù)丟失。目前,全球主要銀行均已通過存算分離架構(gòu)分布式數(shù)據(jù)庫(kù)建設(shè)新核心系統(tǒng),亞馬遜Aurora、阿里PolarDB、華為GaussDB、騰訊TDSQL等主要新型數(shù)據(jù)庫(kù)廠商均已將其架構(gòu)轉(zhuǎn)向存算分離,存算分離架構(gòu)已經(jīng)成為分布式數(shù)據(jù)庫(kù)建設(shè)的事實(shí)標(biāo)準(zhǔn)。分布式數(shù)據(jù)庫(kù)促使新的數(shù)據(jù)范式正在形成MySQL、PostgreSQL等開源數(shù)據(jù)庫(kù)都是部署在單機(jī)上的數(shù)據(jù)庫(kù),并不能像Oracle

RAC那樣協(xié)調(diào)多個(gè)數(shù)據(jù)庫(kù)節(jié)點(diǎn)同時(shí)讀寫同一個(gè)數(shù)據(jù)庫(kù),這使得分布式數(shù)據(jù)庫(kù)性能擴(kuò)展上有明顯瓶頸。通過專業(yè)存儲(chǔ)設(shè)備提供數(shù)據(jù)的跨節(jié)點(diǎn)共享訪問,并實(shí)現(xiàn)數(shù)據(jù)庫(kù)節(jié)點(diǎn)間的一致性緩存層,分布式數(shù)據(jù)庫(kù)也能實(shí)現(xiàn)與Oracle

RAC相同的多讀多寫能力。萬里數(shù)據(jù)庫(kù)GreatDB和天翼云TeleDB通過與華為存儲(chǔ)協(xié)同,通過華為“參天”數(shù)據(jù)庫(kù)存儲(chǔ)引擎實(shí)現(xiàn)了多讀多寫能力,其數(shù)據(jù)庫(kù)性能最大可提升10倍。隨著矛盾日益突出,分布式數(shù)據(jù)庫(kù)建設(shè)逐步從存算一體架構(gòu)走向存算分離架構(gòu)。在存算分離架構(gòu)下,企業(yè)通過高性能、高穩(wěn)定性、可共享的企業(yè)級(jí)全閃存存儲(chǔ)池確保數(shù)據(jù)高可用性。存算分離架構(gòu)將應(yīng)用和數(shù)據(jù)隔離開來,不再需要多份冗余數(shù)據(jù)副本來提升高可用,并利用存儲(chǔ)強(qiáng)大而成熟的容災(zāi)26數(shù)據(jù)存儲(chǔ)存算一體數(shù)據(jù)庫(kù)存算分離數(shù)據(jù)庫(kù)節(jié)點(diǎn)1節(jié)點(diǎn)2節(jié)點(diǎn)3節(jié)點(diǎn)1節(jié)點(diǎn)2同步數(shù)據(jù)庫(kù)數(shù)據(jù)庫(kù)數(shù)據(jù)庫(kù)數(shù)據(jù)庫(kù)緩存池化數(shù)據(jù)庫(kù)實(shí)例1實(shí)例2實(shí)例3實(shí)例1實(shí)例2pagelog本地盤本地盤本地盤共享存儲(chǔ)圖7:從存算一體數(shù)據(jù)庫(kù)向存算分離數(shù)據(jù)庫(kù)演進(jìn)建議建議1:堅(jiān)定不移的推動(dòng)分布式數(shù)

建議2:聯(lián)合數(shù)據(jù)庫(kù)團(tuán)隊(duì)和存儲(chǔ)團(tuán)據(jù)庫(kù)存算分離架構(gòu)隊(duì),共同孵化新的數(shù)據(jù)范式盡管業(yè)界有許多基于存算一體架構(gòu)建設(shè)分布式數(shù)據(jù)庫(kù)的實(shí)踐,但不論從技術(shù)角度、運(yùn)維角度和后續(xù)演進(jìn)角度,存算分離架構(gòu)都已成為必然選擇。從長(zhǎng)遠(yuǎn)處考量,新建分布式數(shù)據(jù)庫(kù)的企業(yè)建議直接基于存算分離架構(gòu)建設(shè),避免重復(fù)建設(shè)導(dǎo)致的資源浪費(fèi);采用存算一體架構(gòu)的企業(yè)也可逐步遷移到存算分離架構(gòu)中,為后期降本增效和持續(xù)擴(kuò)展做好準(zhǔn)備。分布式數(shù)據(jù)庫(kù)構(gòu)筑的新數(shù)據(jù)范式,其核心在于數(shù)據(jù)庫(kù)軟件不再是萬能鑰匙,滿足企業(yè)訴求的方案需要數(shù)據(jù)庫(kù)與硬件基礎(chǔ)設(shè)施配合實(shí)現(xiàn)。因此,數(shù)據(jù)庫(kù)團(tuán)隊(duì)也不應(yīng)再孤立的建設(shè)企業(yè)核心系統(tǒng)。建議企業(yè)聯(lián)合數(shù)據(jù)庫(kù)團(tuán)隊(duì)和存儲(chǔ)團(tuán)隊(duì),結(jié)合軟硬件優(yōu)勢(shì)技術(shù)共同建設(shè)數(shù)據(jù)庫(kù)及核心系統(tǒng),孵化新的數(shù)據(jù)范式。27新應(yīng)用展望四云原生28數(shù)據(jù)存儲(chǔ)創(chuàng)新與成本驅(qū)動(dòng)云原生轉(zhuǎn)型加速,云原生基礎(chǔ)設(shè)施走向開放解耦的多云架構(gòu)89%的企業(yè)正在建設(shè)多云IT架構(gòu)。容器云原生技術(shù)成為多云最佳技術(shù)底座,在企業(yè)廣泛建設(shè),并驅(qū)動(dòng)存儲(chǔ)等基礎(chǔ)設(shè)施對(duì)其提供支持。云原生基礎(chǔ)設(shè)施走向開放解耦的建設(shè)模式,以幫助企業(yè)博采眾家之長(zhǎng),并實(shí)現(xiàn)多云資源共享。趨勢(shì)力大致可分為兩類。第一類是使能數(shù)在應(yīng)用加速創(chuàng)新和降本增效需求推動(dòng)下,多云架構(gòu)成為企業(yè)IT新常態(tài)據(jù)跨云流動(dòng),如華為和NetApp存儲(chǔ)支持?jǐn)?shù)據(jù)跨云分級(jí)、跨云備份能力,使數(shù)據(jù)始終使用性價(jià)比最高的存儲(chǔ)服務(wù);另一類是數(shù)據(jù)跨云管理,讓用戶通過全局?jǐn)?shù)據(jù)視圖把握數(shù)據(jù)總體情況,并將數(shù)據(jù)調(diào)度到產(chǎn)生價(jià)值最大的應(yīng)用中。企業(yè)云計(jì)算基礎(chǔ)設(shè)施已經(jīng)從單云走向多云。不論哪一朵云都無法同時(shí)滿足企業(yè)所有對(duì)應(yīng)用與成本的訴求。因此,89%的企業(yè)選擇建設(shè)多個(gè)公有云和私有云并存的多云IT架構(gòu)。以容器為基礎(chǔ)的云原生應(yīng)用走向關(guān)鍵業(yè)務(wù),存儲(chǔ)對(duì)容器的支持能力將成為剛需企業(yè)逐步建立多云IT架構(gòu),將其確定性、關(guān)鍵的業(yè)務(wù)留在本地,將處于起步階段或流量不確定的業(yè)務(wù)建設(shè)在云端。據(jù)權(quán)威機(jī)構(gòu)調(diào)研,當(dāng)前96%的客戶正在建設(shè)容器平臺(tái),95%的新應(yīng)用都在目前基礎(chǔ)設(shè)施面向多云打造的關(guān)鍵能29數(shù)據(jù)存儲(chǔ)容器中完成部署。持。一方面存儲(chǔ)需要支持和擴(kuò)展容器存儲(chǔ)接口,以實(shí)現(xiàn)存儲(chǔ)資源的快速發(fā)放和容器應(yīng)用的容災(zāi);另外一方面,存儲(chǔ)需要和容器上運(yùn)行的新型云原生應(yīng)用打造最佳實(shí)踐。越來越多的企業(yè)關(guān)鍵應(yīng)用被搬遷到容器上,當(dāng)前61%的容器應(yīng)用都是需要持久保存交互數(shù)據(jù)的有狀態(tài)應(yīng)用,因此需要高可靠的企業(yè)級(jí)存儲(chǔ)提供支虛擬機(jī)時(shí)代云原生時(shí)代OLTPOLAPOLTPOLAP資源發(fā)放高可用可管理性容器平臺(tái)VMFSvSRMvCenterCSICDRCSM虛擬化平臺(tái)資源發(fā)放高可用存儲(chǔ)可管理性服務(wù)器存儲(chǔ)網(wǎng)絡(luò)服務(wù)器網(wǎng)絡(luò)圖8:虛擬機(jī)時(shí)代與云原生時(shí)代對(duì)比云原生基礎(chǔ)設(shè)施走向開放解耦從硬件、平臺(tái)到應(yīng)用,最優(yōu)的服務(wù)往往來自不同供應(yīng)商,因此通過開放解耦的建設(shè)方式企業(yè)能搭建最優(yōu)的IT堆棧。以AI為例。當(dāng)前市面上最為火熱的AI大模型供應(yīng)商,如openAI、Meta等

,

礎(chǔ)

設(shè)

遠(yuǎn)

如NVIDIA、DDN、華為等IT巨頭。沒有任何一個(gè)廠商能夠提供端到端的最優(yōu)AI訓(xùn)練/推理方案,因此企業(yè)在搭建自己的AI訓(xùn)練/推理集群時(shí),會(huì)選擇開放解耦的架構(gòu),選擇最優(yōu)的硬件和訓(xùn)練/推理模型。從全球范圍看,當(dāng)前云基礎(chǔ)設(shè)施有兩種建設(shè)模式,一種是封閉全棧的,一種是開放解耦的。隨著企業(yè)多云建設(shè)的不斷深入,及對(duì)最優(yōu)服務(wù)和降本增效訴求的提升,開放解耦的方式正在成為主流。企業(yè)采用開放解耦架構(gòu)建設(shè),讓硬件資源可被多個(gè)云共享,數(shù)據(jù)可在多個(gè)云間按需流動(dòng),方可真正發(fā)揮多云架構(gòu)優(yōu)勢(shì)。30數(shù)據(jù)存儲(chǔ)多云管理平臺(tái)多私有云多公有云OpenStackKubemetesVMwareAWS華為云應(yīng)用1…應(yīng)用n應(yīng)用1…應(yīng)用n應(yīng)用1…應(yīng)用n應(yīng)用1…應(yīng)用n應(yīng)用1…應(yīng)用n統(tǒng)一運(yùn)維視圖丨統(tǒng)一數(shù)據(jù)視圖公有云結(jié)構(gòu)化存儲(chǔ)公有云非結(jié)構(gòu)化存儲(chǔ)全閃存存儲(chǔ)分布式存儲(chǔ)備份存儲(chǔ)企業(yè)數(shù)據(jù)中心公有云數(shù)據(jù)中心圖9:企業(yè)多云IT構(gòu)架數(shù)據(jù)存儲(chǔ)的CAPEX和OPEX商業(yè)模式走向更加平衡的共存模式OPEX和CAPEX商業(yè)模式多元并存的方式可能是最優(yōu)解。規(guī)模較大且業(yè)務(wù)收益穩(wěn)定的企業(yè),CAPEX模式其實(shí)是更佳的選擇。云的商業(yè)模式正在從CAPE

X走向OPEX,這也正在影響企業(yè)建設(shè)數(shù)據(jù)存儲(chǔ)的商業(yè)模式。企業(yè)逐步減少對(duì)資產(chǎn)、特性和功能的關(guān)注,轉(zhuǎn)而更多關(guān)注采購(gòu)服務(wù)所帶來的商業(yè)結(jié)果,這使得以服務(wù)SLA和結(jié)果為銷售量綱的OPEX商業(yè)模式更受歡迎;另一方面,由于全球經(jīng)濟(jì)壓力加大,企業(yè)對(duì)業(yè)務(wù)試錯(cuò)成本愈加敏感,高彈性、低初始成本的OPEX商業(yè)模式風(fēng)險(xiǎn)更低,也更加受到青睞。然而,隨著數(shù)據(jù)存儲(chǔ)規(guī)模擴(kuò)大和合同時(shí)限增長(zhǎng),訂閱式服務(wù)并不總能提供最優(yōu)建設(shè)成本。從業(yè)界實(shí)踐來看,31數(shù)據(jù)存儲(chǔ)建議建議1:企業(yè)不確定性的創(chuàng)新業(yè)

容器與存儲(chǔ)間的接口標(biāo)準(zhǔn)以使得存儲(chǔ)務(wù)、OA辦公為代表的外圍業(yè)務(wù)切入公有云,核心競(jìng)爭(zhēng)力業(yè)務(wù)保留在自有數(shù)據(jù)中心資源能和容器同步敏捷發(fā)放。此外,企業(yè)可在云原生轉(zhuǎn)型過程中逐步孵化容器應(yīng)用最佳建設(shè)實(shí)踐,并隨著使用的深入不斷優(yōu)化,這將為多云時(shí)代積累寶貴的經(jīng)驗(yàn)與財(cái)富。以不確定性的創(chuàng)新業(yè)務(wù)、OA辦公為代表的外圍業(yè)務(wù)對(duì)于企業(yè)IT的訴求是彈性收縮、按需申請(qǐng)和釋放資源,公有云在具有良好的彈性的同時(shí),能為企業(yè)帶來低成本低風(fēng)險(xiǎn)的獲益。企業(yè)的核心競(jìng)爭(zhēng)力業(yè)務(wù)要求企業(yè)有強(qiáng)大的自研平臺(tái)運(yùn)維能力,同時(shí)需要關(guān)注業(yè)務(wù)的私密性。將這類業(yè)務(wù)保留在企業(yè)自有數(shù)據(jù)中心(即私有云),能進(jìn)一步激發(fā)IT研發(fā)創(chuàng)新能力,可實(shí)現(xiàn)對(duì)數(shù)據(jù)的管控及獨(dú)立控制運(yùn)營(yíng),具備企業(yè)核心競(jìng)爭(zhēng)力的業(yè)務(wù)可有效避免被廠商鎖定。建議3:采用開放解耦的云建設(shè)模式基于開放解耦架構(gòu)建設(shè)云IT可為企業(yè)帶來服務(wù)、成本和靈活性優(yōu)化,正在成為企業(yè)的主流選擇。一方面需要企業(yè)開放采購(gòu)模式以選擇最優(yōu)的組件廠商;另外一方面,也需要促進(jìn)云平臺(tái)廠商開放接口,并牽頭與基礎(chǔ)設(shè)施提供商共同制定對(duì)接標(biāo)準(zhǔn)。建議4:根據(jù)企業(yè)和業(yè)務(wù)需求選擇建議2:容器平臺(tái)團(tuán)隊(duì)與存儲(chǔ)團(tuán)隊(duì)協(xié)同構(gòu)建敏捷、高可靠的容器平臺(tái),并針對(duì)容器應(yīng)用孵化最佳實(shí)踐適合的商業(yè)模式在商業(yè)模式的選擇上,企業(yè)應(yīng)該充分考慮其業(yè)務(wù)發(fā)展階段,綜合考慮收益與風(fēng)險(xiǎn),靈活選擇商業(yè)模式。容器團(tuán)隊(duì)?wèi)?yīng)該與存儲(chǔ)團(tuán)隊(duì)協(xié)同配合,共同構(gòu)建高可靠的容器平臺(tái),并制定32新數(shù)據(jù)展望五非結(jié)構(gòu)化數(shù)據(jù)33數(shù)據(jù)存儲(chǔ)企業(yè)新增數(shù)據(jù)80%以上是非結(jié)構(gòu)化數(shù)據(jù),非結(jié)為了高效、安全存儲(chǔ)企業(yè)數(shù)據(jù)中心

其次要讓數(shù)據(jù)在都要“流得動(dòng)”:

數(shù)據(jù),希望專業(yè)分布式存儲(chǔ)實(shí)現(xiàn)協(xié)議互通和免拷貝,減少數(shù)據(jù)冗余。的非結(jié)構(gòu)化數(shù)據(jù),越來越多的行業(yè)期望使用專業(yè)的分布式存儲(chǔ)解決方案據(jù)中心間和數(shù)據(jù)中心內(nèi)的數(shù)據(jù)需要根據(jù)策略按需高效流動(dòng)。構(gòu)化數(shù)據(jù)正在成為生產(chǎn)決策數(shù)據(jù)多地和多形態(tài)部署的數(shù)據(jù)中心需要數(shù)據(jù)編織功能,把跨地域、跨集群、跨廠商、跨形態(tài)的數(shù)據(jù)資源共享,通過一張圖進(jìn)行數(shù)據(jù)的按需高效調(diào)度。海量的非結(jié)構(gòu)化數(shù)據(jù)不僅僅要求實(shí)現(xiàn)數(shù)據(jù)保存,還需要幫助企業(yè)實(shí)現(xiàn)海量數(shù)據(jù)的管理,比如基于元數(shù)據(jù)的查詢和檢索加速,以及基于數(shù)據(jù)冷熱識(shí)別的數(shù)據(jù)全生命周期管理。根據(jù)華為GIV報(bào)告,2025年全球數(shù)據(jù)總量將達(dá)180ZB,其中80%以上都是非結(jié)構(gòu)化數(shù)據(jù)。預(yù)計(jì)2025年25%的非結(jié)構(gòu)化數(shù)據(jù)將成為生產(chǎn)決策數(shù)據(jù),2030年80%的非結(jié)構(gòu)數(shù)據(jù)將成為生產(chǎn)決策數(shù)據(jù)。首先需要讓數(shù)據(jù)“存得下”:以最低的成本、最小的機(jī)房空間、最低的功耗存下更多的數(shù)據(jù)。企業(yè)需要使用海量的的非結(jié)構(gòu)化數(shù)據(jù),存儲(chǔ)的規(guī)模和擴(kuò)展性是最先考慮的因素。單一集群需要支持幾千個(gè)節(jié)點(diǎn)來簡(jiǎn)化存儲(chǔ)資源分配與管理,同時(shí)要求隨著節(jié)點(diǎn)數(shù)的增多,容量和性能需要線性增長(zhǎng)。數(shù)據(jù)中心內(nèi)通過專業(yè)分布式存儲(chǔ)的熱、溫、冷數(shù)據(jù)分級(jí)技術(shù),并自動(dòng)按需在不同介質(zhì)遷移,從而實(shí)現(xiàn)投資最優(yōu)。存儲(chǔ)作為最后一道防線,需要具備數(shù)據(jù)存儲(chǔ)內(nèi)生高安全、高可靠的能力,例如防勒索、容災(zāi)和備份。最后還需要讓數(shù)據(jù)“用得好”:企業(yè)的視頻、音頻、圖片、文本等多種混合負(fù)載應(yīng)用都能滿足要求。趨勢(shì)傳統(tǒng)的數(shù)據(jù)多副本技術(shù)已經(jīng)滿足不了非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)需求,需要通過專業(yè)分布式存儲(chǔ)的數(shù)據(jù)縮減技術(shù),優(yōu)化存儲(chǔ)利用率。比如高空間利用率的糾刪碼()算法、重刪壓縮算新應(yīng)用催生了海量的非結(jié)構(gòu)化數(shù)據(jù),AI大模型加速了海量非結(jié)構(gòu)化數(shù)據(jù)進(jìn)入生產(chǎn)決策系統(tǒng)非結(jié)構(gòu)化數(shù)據(jù)已經(jīng)進(jìn)入企業(yè)的生產(chǎn)決策系統(tǒng),AI大模型在各行各業(yè)的應(yīng)用將加快這一進(jìn)程。在金融行業(yè),某銀行為了實(shí)現(xiàn)在線實(shí)時(shí)授信,利用金融大數(shù)據(jù)平臺(tái)及AI分析平臺(tái),貸款時(shí)間從15分鐘縮短到1分鐘,同時(shí)提升借款人風(fēng)險(xiǎn)識(shí)別準(zhǔn)確率80%。在醫(yī)療行業(yè),盤古藥物分子大模型對(duì)17億個(gè)類藥分子的化學(xué)進(jìn)行預(yù)訓(xùn)練,打破雙十定律(即需要超過10年時(shí)間、10億美元的成本,才有可能成功研發(fā)出一款新藥),加速新藥問世,研發(fā)周期從十年縮短至1個(gè)月,研發(fā)成本降低70%。海量非結(jié)構(gòu)化數(shù)據(jù)承載的應(yīng)用多種多樣,面向混合負(fù)載的全閃存分布式存儲(chǔ)是最佳選擇,在避免數(shù)據(jù)孤島的同時(shí),既能滿足視頻、音頻、文件等大帶寬的要求,也能滿足圖片、檢索、查詢等高

的要求。相比于傳統(tǒng)的隨著5G、云計(jì)算、大數(shù)據(jù)、AI、高性能數(shù)據(jù)分析(HPDA)等新技術(shù)、新應(yīng)用的蓬勃發(fā)展,企業(yè)非結(jié)構(gòu)化數(shù)據(jù)快速增長(zhǎng),如視頻,語音,圖片,文件等,容量正在從PB到EB級(jí)跨越。例如,一臺(tái)基因測(cè)序儀每年產(chǎn)生數(shù)據(jù)達(dá)到8.5PB,某運(yùn)營(yíng)商集團(tuán)每天平均處理數(shù)據(jù)量達(dá)到15PB,一顆遙感衛(wèi)星每年采集數(shù)據(jù)量可以達(dá)到18PB,一輛自動(dòng)駕駛訓(xùn)練車每年產(chǎn)生訓(xùn)練數(shù)據(jù)達(dá)到180PB。法,并且使用高密存儲(chǔ)硬件替換通用服務(wù)器,節(jié)省機(jī)房空間,并降低能耗和運(yùn)維復(fù)雜度,達(dá)到最優(yōu)。,分布式存儲(chǔ)全閃化能顯著加速讀寫速度和降低讀寫時(shí)延。業(yè)界通過軟件和硬件一體的專業(yè)分布式存儲(chǔ),為企業(yè)客戶提供端到端的高可靠、高性能、高擴(kuò)展解決方案,降低了企業(yè)在部署、管理和服務(wù)等方面的復(fù)雜性。在海量數(shù)據(jù)使用場(chǎng)景下,由于各種非結(jié)構(gòu)化數(shù)據(jù)利用技術(shù)的進(jìn)步,在多種業(yè)務(wù)場(chǎng)景下,一次數(shù)據(jù)處理大概率會(huì)涉及到文件、對(duì)象、大數(shù)據(jù)等多種訪問協(xié)議的數(shù)34數(shù)據(jù)存儲(chǔ)為了高效、安全存儲(chǔ)企業(yè)數(shù)據(jù)中心

其次要讓數(shù)據(jù)在都要“流得動(dòng)”:

數(shù)的非結(jié)構(gòu)化數(shù)據(jù),越來越多的行業(yè)期望使用專業(yè)的分布式存儲(chǔ)解決方案據(jù)中心間和數(shù)據(jù)中心內(nèi)的數(shù)據(jù)需要根據(jù)策略按需高效流動(dòng)。?多地和多形態(tài)部署的數(shù)據(jù)中心需要數(shù)據(jù)編織功能,把跨地域、跨集群、跨廠商、跨形態(tài)的數(shù)據(jù)資源共享,通過一張圖進(jìn)行數(shù)據(jù)的按需高效調(diào)度。首先需要讓數(shù)據(jù)“存得下”:以最低的成本、最小的機(jī)房空間、最低的功耗存下更多的數(shù)據(jù)。?企業(yè)需要使用海量的的非結(jié)構(gòu)化數(shù)據(jù),存儲(chǔ)的規(guī)模和擴(kuò)展性是最先考慮的因素。單一集群需要支持幾千個(gè)節(jié)點(diǎn)來簡(jiǎn)化存儲(chǔ)資源分配與管理,同時(shí)要求隨著節(jié)點(diǎn)數(shù)的增多,容量和性能需要線性增長(zhǎng)。?數(shù)據(jù)中心內(nèi)通過專業(yè)分布式存儲(chǔ)的熱、溫、冷數(shù)據(jù)分級(jí)技術(shù),并自動(dòng)按需在不同介質(zhì)遷移,從而實(shí)現(xiàn)投資最優(yōu)。最后還需要讓數(shù)據(jù)“用得好”:企業(yè)的視頻、音頻、圖片、文本等多種混合負(fù)載應(yīng)用都能滿足要求。?傳統(tǒng)的數(shù)據(jù)多副本技術(shù)已經(jīng)滿足不了非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)需求,需要通過專業(yè)分布式存儲(chǔ)的數(shù)據(jù)縮減技術(shù),優(yōu)化存儲(chǔ)利用率。比如高空間利用率的糾刪碼(Era-sure

Coding)算法、重刪壓縮算法,并且使用高密存儲(chǔ)硬件替換通用服務(wù)器,節(jié)省機(jī)房空間,并降低能耗和運(yùn)維復(fù)雜度,達(dá)到TCO最優(yōu)。?海量非結(jié)構(gòu)化數(shù)據(jù)承載的應(yīng)用多種多樣,面向混合負(fù)載的全閃存分布式存儲(chǔ)是最佳選擇,在避免數(shù)據(jù)孤島的同時(shí),既能滿足視頻、音頻、文件等大帶寬的要求,也能滿足圖片、檢索、查詢等高IO的要求。相比于傳統(tǒng)的HDD,分布式存儲(chǔ)全閃化SSD能顯著加速讀寫速度和降低讀寫時(shí)延。?業(yè)界通過軟件和硬件一體的專業(yè)分布式存儲(chǔ),為企業(yè)客戶提供端到端的高可靠、高性能、高擴(kuò)展解決方案,降低了企業(yè)在部署、管理和服務(wù)等方面的復(fù)雜性。?在海量數(shù)據(jù)使用場(chǎng)景下,由于各種非結(jié)構(gòu)化數(shù)據(jù)利用技術(shù)的進(jìn)步,在多種業(yè)務(wù)場(chǎng)景下,一次數(shù)據(jù)處理大概率會(huì)涉及到文件、對(duì)象、大數(shù)據(jù)等多種訪問協(xié)議的數(shù)35數(shù)據(jù)存儲(chǔ)據(jù),希望專業(yè)分布式存儲(chǔ)實(shí)現(xiàn)協(xié)理海量非結(jié)構(gòu)化數(shù)據(jù)團(tuán)隊(duì)進(jìn)行轉(zhuǎn)型。議互通和免拷貝,減少數(shù)據(jù)冗余。建議2:選擇專業(yè)的分布式存儲(chǔ)來構(gòu)建海量非結(jié)構(gòu)化數(shù)據(jù)底座??海量的非結(jié)構(gòu)化數(shù)據(jù)不僅僅要求實(shí)現(xiàn)數(shù)據(jù)保存,還需要幫助企業(yè)實(shí)現(xiàn)海量數(shù)據(jù)的管理,比如基于元數(shù)據(jù)的查詢和檢索加速,以及基于數(shù)據(jù)冷熱識(shí)別的數(shù)據(jù)全生命周期管理。為了提升海量非結(jié)構(gòu)化數(shù)據(jù)作為生產(chǎn)數(shù)據(jù)的效率,應(yīng)以非結(jié)構(gòu)化數(shù)據(jù)為中心,通過專業(yè)的分布式存儲(chǔ)系統(tǒng)構(gòu)建全局統(tǒng)一數(shù)據(jù)存儲(chǔ)底座,優(yōu)先部署支持文件/對(duì)象/大數(shù)據(jù)多協(xié)議互通,業(yè)務(wù)混合負(fù)載、數(shù)據(jù)縮減技術(shù)、高密硬件、全閃存等能力的分布式存儲(chǔ)系統(tǒng),從而讓數(shù)據(jù)存得下、流得動(dòng)、用得好。存儲(chǔ)作為最后一道防線,需要具備數(shù)據(jù)存儲(chǔ)內(nèi)生高安全、高可靠的能力,例如防勒索、容災(zāi)和備份。建議建議1:數(shù)據(jù)存儲(chǔ)建議企業(yè)IT團(tuán)隊(duì)加強(qiáng)海量非結(jié)構(gòu)化數(shù)據(jù)處理能力建設(shè)隨著非結(jié)構(gòu)化數(shù)據(jù)在企業(yè)應(yīng)用越來越廣泛,尤其是開始進(jìn)入企業(yè)生產(chǎn)決策系統(tǒng),如何高效地存儲(chǔ)海量非結(jié)構(gòu)化數(shù)據(jù)、挖掘非結(jié)構(gòu)化數(shù)據(jù)蘊(yùn)含的巨大價(jià)值,從而指導(dǎo)企業(yè)進(jìn)行科學(xué)決策,成為企業(yè)關(guān)鍵競(jìng)爭(zhēng)力。因此,企業(yè)IT人員和組織有必要加強(qiáng)海量非結(jié)構(gòu)化數(shù)據(jù)處理能力建設(shè),從以結(jié)構(gòu)化數(shù)據(jù)為中心的團(tuán)隊(duì)向能夠設(shè)計(jì)、規(guī)劃、管36新安全展望六存儲(chǔ)內(nèi)生安全37數(shù)據(jù)存儲(chǔ)趨勢(shì)AI時(shí)代數(shù)據(jù)海量匯聚,安全風(fēng)險(xiǎn)持

案》、《澳大利亞信息與隱私權(quán)法案》續(xù)提升,安全防護(hù)體系從網(wǎng)絡(luò)安全走向數(shù)據(jù)安全等法律均明確規(guī)定了數(shù)據(jù)安全相關(guān)條例內(nèi)容。數(shù)據(jù)安全已成為衡量企業(yè)競(jìng)爭(zhēng)力甚至國(guó)家競(jìng)爭(zhēng)力的核心要素。2023年以來,隨著以ChatGPT為代表的AI大模型掀起新一輪全球人工智能技術(shù)發(fā)展浪潮,海量數(shù)據(jù)因AI匯聚,經(jīng)過大模型的訓(xùn)練,推理出更具價(jià)值的信息。數(shù)據(jù)作為AI的根基,其重要性進(jìn)一步凸顯,數(shù)據(jù)的安全就是企業(yè)核心資產(chǎn)的安全。據(jù)splunk公司發(fā)布的《2023年安全現(xiàn)狀報(bào)告》顯示,超過52%的組織遭受了惡意攻擊導(dǎo)致數(shù)據(jù)泄露,66%的機(jī)構(gòu)遭受勒索軟件攻擊,數(shù)據(jù)安全的重要性正在不斷上升。數(shù)據(jù)在產(chǎn)生、采集、傳輸、使用、銷毀的全生命周期處理過程中始終離不開存儲(chǔ)設(shè)備。存儲(chǔ)作為數(shù)據(jù)的最終載體,數(shù)據(jù)的“保險(xiǎn)箱”,擁有近數(shù)據(jù)的保護(hù)能力,近介質(zhì)的控制能力,在數(shù)據(jù)安全防護(hù)、數(shù)據(jù)備份與恢復(fù)、數(shù)據(jù)安全銷毀等領(lǐng)域有不可替代的作用。以往談到數(shù)據(jù)安全時(shí),人們往往看到的是安全網(wǎng)關(guān),以及在應(yīng)用層的安全軟件,經(jīng)常忽視數(shù)據(jù)存儲(chǔ),這個(gè)存數(shù)據(jù)本身的保險(xiǎn)箱的作用。就像為了保證金銀財(cái)寶的安全,請(qǐng)了很好的保安,安裝了結(jié)實(shí)的防盜門、防盜窗,但是一進(jìn)房間,所有金銀財(cái)寶都放在桌子上隨便拿,這何其奇怪。所以為保護(hù)數(shù)據(jù)的安全,首先要把存數(shù)據(jù)的保險(xiǎn)箱做好做安全。在不斷變化的數(shù)據(jù)安全局勢(shì)下,世界多個(gè)國(guó)家及地區(qū)出于數(shù)據(jù)安全和自身隱私保護(hù)的考慮,相繼頒布并完善相關(guān)的法規(guī)政策。2021年,新加坡更新發(fā)布《2021個(gè)人數(shù)據(jù)保護(hù)條例》。此外,《

網(wǎng)

絡(luò)

令(NIS)》、《美國(guó)聯(lián)邦貿(mào)易委員會(huì)法38數(shù)據(jù)存儲(chǔ)防火墻、沙箱、安全網(wǎng)關(guān)等隱私計(jì)算、認(rèn)證/訪問控制等數(shù)據(jù)脫敏、敏感信息屏蔽等數(shù)據(jù)備份、存儲(chǔ)防勒索、存儲(chǔ)加密等數(shù)據(jù)防御檢測(cè)+響應(yīng)圖10:數(shù)據(jù)安全深度防御模型全存儲(chǔ)內(nèi)生安全構(gòu)筑數(shù)據(jù)安全的最后

存儲(chǔ)設(shè)備安全一道防線存儲(chǔ)硬件安全:存儲(chǔ)內(nèi)生安全體系通過先天的架構(gòu)安與設(shè)計(jì),不斷增強(qiáng)存儲(chǔ)的安全能力,包含兩個(gè)方面:存儲(chǔ)設(shè)備自身的安全能力、存儲(chǔ)的數(shù)據(jù)安全防護(hù)能力。通過在硬件芯片上植入類似身份證功能的根密鑰,使得系統(tǒng)上的每個(gè)程序運(yùn)行之前都有相應(yīng)的身份認(rèn)證,從而保證系統(tǒng)的環(huán)境達(dá)到可信的標(biāo)準(zhǔn)。AI收集AI預(yù)處理AI訓(xùn)練AI推理內(nèi)儲(chǔ)安全管理元數(shù)據(jù)管理用戶鑒權(quán)證書管理安全態(tài)勢(shì)感知合規(guī)審計(jì)流轉(zhuǎn)策略管理數(shù)據(jù)安全防護(hù)數(shù)據(jù)加密數(shù)據(jù)防勒索數(shù)據(jù)備份數(shù)據(jù)安全銷毀存存儲(chǔ)設(shè)備安全存儲(chǔ)硬件安全存儲(chǔ)軟件安全圖11:存儲(chǔ)內(nèi)生安全體系架構(gòu)39數(shù)據(jù)存儲(chǔ)存儲(chǔ)軟件安全:了。第四層,Air

Gap隔離區(qū)數(shù)據(jù)離線保護(hù),使病毒看不見,攻擊不到。遵從相關(guān)法規(guī)條例要求,構(gòu)建安全研發(fā)能力。通過高價(jià)值的開源軟件選型,規(guī)范的開源軟件使用。對(duì)全量軟件進(jìn)行可信的生命周期維護(hù),通過積極的社區(qū)回饋和協(xié)同維護(hù)確保軟件合規(guī)使用,安全使用。數(shù)據(jù)容災(zāi)備份:數(shù)據(jù)備份:通過定期將重要數(shù)據(jù)復(fù)制到其它存儲(chǔ)位置備份系統(tǒng)中,使數(shù)據(jù)能夠并可以恢復(fù)到過去的某個(gè)特定的時(shí)間點(diǎn)。根據(jù)業(yè)務(wù)需要提升備份能力,使備份系統(tǒng)能夠兼容大數(shù)據(jù)、數(shù)據(jù)倉(cāng)庫(kù)等新核心生態(tài)。以保障重要數(shù)據(jù)的全量備份,抵御誤操作、硬件故障、病毒等一系列威脅。數(shù)據(jù)安全防護(hù)數(shù)據(jù)加密:對(duì)數(shù)據(jù)的加密,可以在應(yīng)用層軟件、數(shù)據(jù)

庫(kù)

儲(chǔ)

統(tǒng)

級(jí)

實(shí)施,應(yīng)用層加密需要大量的業(yè)務(wù)改造,數(shù)據(jù)庫(kù)加密對(duì)性能損耗較高。存儲(chǔ)設(shè)備可通過加密盤的方式對(duì)數(shù)據(jù)實(shí)現(xiàn)加密,對(duì)生產(chǎn)業(yè)務(wù)透明,是性能、成本綜合最優(yōu)的一種加密方式。數(shù)據(jù)容災(zāi):針對(duì)無容災(zāi)的場(chǎng)景,通過自建數(shù)據(jù)中心方式實(shí)現(xiàn)數(shù)據(jù)與業(yè)務(wù)雙容災(zāi),使生產(chǎn)數(shù)據(jù)與業(yè)務(wù)隨時(shí)有容災(zāi)系統(tǒng)進(jìn)行接管。對(duì)已建容災(zāi)系統(tǒng),根據(jù)業(yè)務(wù)連續(xù)性需求增強(qiáng),將主備容災(zāi)模式提升為雙活模式。以此來保障重要數(shù)據(jù)0丟失,抵御自然災(zāi)害、掉電、計(jì)算機(jī)病毒等一系列威脅。數(shù)據(jù)防勒索:首先生產(chǎn)存儲(chǔ)通過異常讀寫行為識(shí)別、信息熵計(jì)算等方式檢測(cè)并且攔截勒索病毒,讓病毒進(jìn)不來。其次,生產(chǎn)存儲(chǔ)的WORM與安全快照功能保護(hù)數(shù)據(jù)不被非法篡改或刪除。第三層,本地備份快速恢復(fù),守護(hù)數(shù)據(jù)丟不數(shù)據(jù)安全銷毀:存儲(chǔ)設(shè)備數(shù)據(jù)永久清除、不可恢復(fù),以避免存儲(chǔ)設(shè)備轉(zhuǎn)售、廢棄后重要的敏感數(shù)據(jù)造成泄露。40數(shù)據(jù)存儲(chǔ)建議建議1:企業(yè)在關(guān)注網(wǎng)絡(luò)安全防護(hù)

勒索等數(shù)據(jù)安全防護(hù)能力的部署的同時(shí),應(yīng)考慮將存儲(chǔ)的安全能力加入企業(yè)的安全建設(shè)當(dāng)中存儲(chǔ)設(shè)備因其近數(shù)據(jù)的特點(diǎn),數(shù)據(jù)相關(guān)的內(nèi)生安全特性部署具有可靠性、存儲(chǔ)具有貼近數(shù)據(jù)的天然優(yōu)勢(shì),能夠性能、成本綜合最優(yōu)的特點(diǎn)。通過存在網(wǎng)絡(luò)攔截之后,進(jìn)一步提供隔離、儲(chǔ)的加密盤進(jìn)行數(shù)據(jù)加密,以滿足行恢復(fù)等獨(dú)特的數(shù)據(jù)安全能力。當(dāng)前企業(yè)的合規(guī)要求,并減少性能損失與業(yè)業(yè)的安全團(tuán)隊(duì)主要由網(wǎng)絡(luò)團(tuán)隊(duì)構(gòu)成,務(wù)改造的成本。為了應(yīng)對(duì)勒索攻擊,其職責(zé)是通過防火墻等網(wǎng)絡(luò)安全設(shè)應(yīng)該建立端到端的防勒索體系,保證備,制定安全策略,封堵高危端口。數(shù)據(jù)遭遇勒索攻擊能夠進(jìn)行精準(zhǔn)檢測(cè)存儲(chǔ)團(tuán)隊(duì)更多關(guān)注的是存儲(chǔ)的安全服和快速響應(yīng),遭遇勒索后及時(shí)恢復(fù)。務(wù)是否能夠正常提供,以及對(duì)存儲(chǔ)安同時(shí)要增強(qiáng)災(zāi)備安全,在全面構(gòu)建企全服務(wù)技術(shù)的規(guī)劃與研制。建議企業(yè)業(yè)關(guān)鍵業(yè)務(wù)全容災(zāi)、數(shù)據(jù)全量備份的把存儲(chǔ)的安全能力加入到安全體系建基本格局上,提升災(zāi)備兼容新核心生設(shè)當(dāng)中。態(tài)的兼容能力。建議2:存儲(chǔ)設(shè)備應(yīng)具備底層的抗攻擊能力,存儲(chǔ)應(yīng)加強(qiáng)自身的軟件與硬件安全能力存儲(chǔ)設(shè)備需要具備底層的抗攻擊能力。通過存儲(chǔ)系統(tǒng)的架構(gòu)和設(shè)計(jì)出發(fā),加強(qiáng)存儲(chǔ)系統(tǒng)自身的硬件與軟件安全能力,從而讓企業(yè)能夠通過存儲(chǔ)的保護(hù)與恢復(fù)能力給數(shù)據(jù)和資產(chǎn)增加一份保險(xiǎn)。建議3:關(guān)注存儲(chǔ)設(shè)備的加密、防41新技術(shù)展望七全場(chǎng)景閃存普惠42數(shù)據(jù)存儲(chǔ)介質(zhì)全面閃存化時(shí)代已到來根據(jù)市場(chǎng)統(tǒng)計(jì)數(shù)據(jù),到2022年,SSD在市場(chǎng)份額和出貨數(shù)量方面已經(jīng)完成了對(duì)機(jī)械硬盤的全面超越。隨著海量非結(jié)構(gòu)化數(shù)據(jù)進(jìn)入生產(chǎn)決策系統(tǒng),我們正在迎來全面閃存化的時(shí)代。趨勢(shì)從全球市場(chǎng)看,SSD出貨量已完成對(duì)機(jī)械硬盤的全面超越份額和出貨數(shù)量已經(jīng)是機(jī)械盤的2倍以上,占比超過了65%。我們有理由相信企業(yè)正在迎來全面閃存化的時(shí)代。根據(jù)市場(chǎng)統(tǒng)計(jì)到2022年,SSD的市場(chǎng)72%67%2倍2.6倍33%28%HDDSSDHDDSSD2倍2022年市場(chǎng)份額占比2.6倍2022年發(fā)貨占比圖12:SSD市場(chǎng)份額與發(fā)貨量占比43數(shù)據(jù)存儲(chǔ)全閃存存儲(chǔ)明顯的高性能優(yōu)勢(shì),大

業(yè)快速備份和恢復(fù)的要求。圍繞的數(shù)據(jù)縮減技術(shù)快速發(fā)。因此我們看到不僅僅在高幅度提升企業(yè)效率和業(yè)務(wù)體驗(yàn)展,有效容量成本將持續(xù)降低性能的生產(chǎn)交易系統(tǒng)已經(jīng)實(shí)現(xiàn)對(duì)機(jī)械硬盤的替代,同時(shí)也正在替代以備份數(shù)據(jù)、海量非結(jié)構(gòu)化數(shù)據(jù)為代表的溫冷存儲(chǔ)。相對(duì)于機(jī)械盤存儲(chǔ),全閃存存儲(chǔ)總體擁有成本更低針對(duì)典型的非結(jié)構(gòu)化數(shù)據(jù)場(chǎng)景,衛(wèi)星遙感數(shù)據(jù)縮減比可達(dá)

,自動(dòng)駕駛數(shù)SSD在性能上遠(yuǎn)超機(jī)械硬盤HDD,單盤SSD的IOPS比HDD提升千倍,同時(shí)SSD還具有低延遲(常以毫秒或微秒為度量單位)和大吞吐量?jī)?yōu)勢(shì),能更好地適應(yīng)多類新興業(yè)務(wù)的高吞吐、低時(shí)延的需求。據(jù)縮減比可達(dá),影像數(shù)據(jù)縮更高堆疊層數(shù)和QLC/PLC顆粒類型將顯著降低SSD單盤價(jià)格,物理容量成本持續(xù)降低減比可達(dá)

,這使全閃存存儲(chǔ)購(gòu)置成本大幅降低。針對(duì)備份場(chǎng)景,基于全的備份存儲(chǔ)通過全局重刪服務(wù),在線相似重刪,以及語義級(jí)重刪等技企

業(yè)

級(jí)

S

S

D

—NAND顆粒,很大程度上決定其成本。而3D

NAND堆疊層數(shù)升級(jí)與QLC顆粒的應(yīng)用,推動(dòng)全閃存物料成本不斷降低。目前,主流顆粒廠商量產(chǎn)的3DNAND顆粒堆疊層數(shù)已經(jīng)達(dá)到176L,并紛紛給出200層以上設(shè)計(jì)路標(biāo),比2018年提升接近2倍。除了堆疊層數(shù),在顆粒類型方面,TLC顆粒已經(jīng)成為企業(yè)級(jí)SSD主流選擇,QLC

SSD也已登上舞臺(tái)。術(shù)可實(shí)現(xiàn)數(shù)據(jù)縮減率領(lǐng)先備份存即使在企業(yè)認(rèn)為性能要求最普通的備份場(chǎng)景中,隨著數(shù)據(jù)量的暴增,企業(yè)已難以在晚上規(guī)定的備份時(shí)間窗內(nèi)完成備份?;谌玈SD的備份存儲(chǔ)系統(tǒng)相比HDD備份性能可提升至3倍,恢復(fù)性能可提升至5倍,使得以往以HDD為主,存放冷數(shù)據(jù)的備份系統(tǒng)也逐漸采用全閃存?zhèn)浞荽鎯?chǔ),以滿足企儲(chǔ)業(yè)界標(biāo)桿。大容量和數(shù)據(jù)縮減技術(shù)的發(fā)展帶來數(shù)據(jù)中心能耗和機(jī)房占用空間的持續(xù)降低未來在年,的單盤容量會(huì)持續(xù)保持倍到

倍甚至更高,而和單盤功耗接近。因此大容量對(duì)于企業(yè)數(shù)據(jù)中心能耗降低和空間節(jié)省有巨大推動(dòng)作用。同時(shí)數(shù)據(jù)縮減技術(shù)也將大大減少數(shù)據(jù)存儲(chǔ)的總單位:TB350體物理空間和能耗。此外具備更高的可靠性,比300300250200150存儲(chǔ)的

年返倍。256還率只有,低于150綜上,可以為企業(yè)帶來、1005007549空間、能耗等端到端的節(jié)省。綜合下來

備份存儲(chǔ)低于份存儲(chǔ)標(biāo)桿

。用于海量非結(jié)構(gòu)化數(shù)據(jù)的分布式存儲(chǔ)以

年算,可做到

可得容量38.4364224261820,備2021202220232024SSD20252026HDD計(jì)圖13:HDD和SSD單盤最大容量替換44數(shù)據(jù)存儲(chǔ)圍繞SSD的數(shù)據(jù)縮減技術(shù)快速發(fā)

HDD。因此我們看到SSD不僅僅在高展,有效容量成本將持續(xù)降低針對(duì)典型的非結(jié)構(gòu)化數(shù)據(jù)場(chǎng)景,衛(wèi)星遙感數(shù)據(jù)縮減比可達(dá)2:1,自動(dòng)駕駛數(shù)據(jù)縮減比可達(dá)1.5:1,PACS影像數(shù)據(jù)縮減比可達(dá)3:1,這使全閃存存儲(chǔ)購(gòu)置成本大幅降低。針對(duì)備份場(chǎng)景,基于全SSD的備份存儲(chǔ)通過全局重刪服務(wù),在線相似重刪,以及語義級(jí)重刪等技術(shù)可實(shí)現(xiàn)數(shù)據(jù)縮減率領(lǐng)先HDD備份存儲(chǔ)業(yè)界標(biāo)桿50%。性能的生產(chǎn)交易系統(tǒng)已經(jīng)實(shí)現(xiàn)對(duì)機(jī)械硬盤的替代,同時(shí)也正在替代以備份數(shù)據(jù)、海量非結(jié)構(gòu)化數(shù)據(jù)為代表的溫冷存儲(chǔ)。建議建議1:企業(yè)應(yīng)組織技術(shù)團(tuán)隊(duì),對(duì)當(dāng)下與未來IT系統(tǒng)數(shù)據(jù)量與業(yè)務(wù)訴求進(jìn)行研討,并制定全閃存存儲(chǔ)建設(shè)規(guī)劃大容量SSD和數(shù)據(jù)縮減技術(shù)的發(fā)展帶來數(shù)據(jù)中心能耗和機(jī)房占用空間的持續(xù)降低未來2-3年,SSD單盤容量會(huì)持續(xù)保持在HDD的1.5倍到2倍甚至更高,而SSD和HDD單盤功耗接近。因此大容量SSD對(duì)于企業(yè)數(shù)據(jù)中心能耗降低和空間節(jié)省有巨大推動(dòng)作用。同時(shí)數(shù)據(jù)縮減技術(shù)也將大大減少數(shù)據(jù)存儲(chǔ)的總體物理空間和能耗。此外SSD比HDD企業(yè)應(yīng)組織技術(shù)團(tuán)隊(duì),與存儲(chǔ)提供商進(jìn)行研討,評(píng)估數(shù)據(jù)量與業(yè)務(wù)壓力走勢(shì),制定全閃存存儲(chǔ)建設(shè)策略,并分析策略執(zhí)行下企業(yè)收益與建設(shè)、運(yùn)維投資變化。建議2:抓住存儲(chǔ)生命周期更迭以具備更高的可靠性,SSD存儲(chǔ)的5年返

及新建機(jī)會(huì),持續(xù)加速全閃存存儲(chǔ)應(yīng)用還率只有1.75%,低于HDD4倍。許多企業(yè)在過去購(gòu)買了大量HDD存儲(chǔ),如今已面臨維保過期;而正在數(shù)字化轉(zhuǎn)型的企業(yè),需要購(gòu)置新的存儲(chǔ)設(shè)備。這是企業(yè)加速全閃存存儲(chǔ)布局的絕佳機(jī)會(huì),應(yīng)該抓住機(jī)遇,推進(jìn)全閃存存儲(chǔ)應(yīng)用。綜上,SSD可以為企業(yè)帶來CAPEX、空間、能耗等端到端的節(jié)省。綜合下來5年TCO,SSD備份存儲(chǔ)低于HDD備份存儲(chǔ)標(biāo)桿50%-60%。用于海量非結(jié)構(gòu)化數(shù)據(jù)的分布式存儲(chǔ)以5年TCO計(jì)算,可做到1:1可得容量SSD替換45新技術(shù)展望八以數(shù)據(jù)為中心的架構(gòu)46數(shù)據(jù)存儲(chǔ)從以CPU為中心走向以數(shù)據(jù)為中心近年來,AI和實(shí)時(shí)大數(shù)據(jù)分析應(yīng)用蓬勃發(fā)展,以CPU為主的算力向CPU+G-PU+NPU+DPU的多樣化算力發(fā)展。同時(shí),應(yīng)用對(duì)內(nèi)存的容量及帶寬提出更高要求,以CPU為中心的架構(gòu)成為瓶頸。趨勢(shì)以CPU為中心的服務(wù)器架構(gòu)正在向

CPU對(duì)內(nèi)存限制,支持內(nèi)存容量擴(kuò)展以數(shù)據(jù)為中心的Composable架構(gòu)演進(jìn)讓外置高速存儲(chǔ)設(shè)備和異構(gòu)算力間的內(nèi)存互聯(lián)成池。面對(duì)多樣性的應(yīng)用和實(shí)時(shí)的數(shù)據(jù)處理要求,CPU算力已經(jīng)不能滿足需求,以GPU為代表的多樣化算力涌現(xiàn)。這類新型內(nèi)存語義總線使內(nèi)存從服務(wù)器解耦成為可能,以CPU為中心的服務(wù)器架構(gòu)將進(jìn)一步解耦,演進(jìn)成以數(shù)據(jù)為中心的Composable架構(gòu),不同計(jì)算單元的計(jì)算、內(nèi)存、存儲(chǔ)資源可以任意組合,并且多樣化算力可以通過高速總線直接訪問內(nèi)存、存儲(chǔ)等數(shù)據(jù)資源。新型計(jì)算硬件提升IO密集型應(yīng)用處理熱數(shù)據(jù)效率的同時(shí),對(duì)內(nèi)存數(shù)據(jù)的訪問壓力增大,本地內(nèi)存容量、帶寬難以匹配數(shù)據(jù)處理要求。2019年,Intel推出了開放性互聯(lián)協(xié)議CXL(Compute

Express

Link),基于CXL協(xié)議構(gòu)建的新型內(nèi)存語義總線可以支持外置內(nèi)存的快速訪問,打破新型的服務(wù)器架構(gòu)促使數(shù)據(jù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論