版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
云計算作為信息技術(shù)發(fā)展和服務(wù)模式創(chuàng)新的集中體現(xiàn),多年來在政策、市場、需求等因素的驅(qū)動下蓬勃發(fā)展,不斷推動數(shù)字經(jīng)濟和實體經(jīng)濟的深度融合。從技術(shù)層面看,云計算已全面轉(zhuǎn)向云原生;從形態(tài)方面看,云計算從聚焦中心到無處不在。新時代下,分布式云原生將進一步發(fā)揮本白皮書梳理了分布式云原生的發(fā)展背景,給出了分布式云原生的清晰定義,深入剖析了分同時,配合電信、制造、金融、物流四大重點行業(yè)的具體實踐,充分展現(xiàn)了分布式云期望本白皮書能夠加深業(yè)界對分布式云原生的認知,為分布式云原生建設(shè)提供參考思路,加期望本白皮書能夠加深業(yè)界對分布式云原生的認知,為分布式云原生建設(shè)提供參考思路,加1.1數(shù)字浪潮蘊藏新機遇,云計算推動產(chǎn)業(yè)高質(zhì)量發(fā)展數(shù)字經(jīng)濟穩(wěn)定發(fā)展,數(shù)字技術(shù)充分發(fā)揮創(chuàng)新驅(qū)動效用。數(shù)字時代,新一輪變革為全球各國帶來新機遇,數(shù)字經(jīng)濟對全球經(jīng)濟發(fā)展的加速效用凸顯。2022年,我國數(shù)字經(jīng)濟規(guī)模達50.2萬億元,占GDP比重達41.5%,連續(xù)11年顯著高于同期GDP名義增速1。產(chǎn)業(yè)數(shù)字化是指傳統(tǒng)產(chǎn)業(yè)應(yīng)用數(shù)字技術(shù)所帶來的產(chǎn)出增加和效率提升部分,作為數(shù)字經(jīng)濟的核心組成部分,規(guī)模占數(shù)字經(jīng)濟比重超80%。隨著產(chǎn)業(yè)數(shù)字化進程的深化,以云計算、大數(shù)據(jù)、人工智能、區(qū)塊鏈等為代表的先進數(shù)字技術(shù)正在與實體經(jīng)濟充分融合,為傳統(tǒng)產(chǎn)業(yè)注入新活力云計算是全球科技競爭的勝負手,戰(zhàn)略地位凸顯。作為科技競爭的重點發(fā)力領(lǐng)域,各國高度重視云計算的發(fā)展。美國政府先后推出云優(yōu)先、聯(lián)邦政府云、云敏捷等戰(zhàn)略,將云計算提升為云計算產(chǎn)業(yè)的發(fā)展、創(chuàng)新與落地提供了良好的環(huán)境。2011年德國發(fā)布《云計算行動計劃》,力爭借助云計算產(chǎn)業(yè)推動數(shù)字經(jīng)濟總產(chǎn)值大幅增加。2015年國務(wù)院發(fā)布的《關(guān)于促進云計算創(chuàng)新發(fā)展培育信息產(chǎn)業(yè)新業(yè)態(tài)的意見》中指出云計算發(fā)展的階段性目標、主要任務(wù)與保障措施。“十四五”規(guī)劃和2035年遠景目標綱要中將云計算列入數(shù)字經(jīng)濟云計算發(fā)展進入深水區(qū),成為數(shù)字時代的技術(shù)底座。云計算經(jīng)過多年演進,技術(shù)生態(tài)持續(xù)豐富,產(chǎn)業(yè)鏈趨于完善,落地推廣效果良好,成為數(shù)字時代的重要基礎(chǔ)設(shè)施。從市場角度看,2021年我國云計算市場規(guī)模達3,229億元,同比增長54.4%2。從服務(wù)水平看,我國已形成覆蓋IaaS、PaaS、SaaS全鏈路的云服務(wù)產(chǎn)品,對上層應(yīng)用需求形成良好支撐。從行業(yè)實踐看,云計算在互聯(lián)網(wǎng)、金融、電信、政府、能源等重點行業(yè)已被廣1.2擁抱萬物互聯(lián)新常態(tài),分布式云迎來黃金發(fā)展期新業(yè)態(tài)下業(yè)務(wù)模式積極求變,分布式云需求激增。產(chǎn)業(yè)數(shù)字化大背景下,重點行業(yè)持續(xù)推進數(shù)字化轉(zhuǎn)型,傳統(tǒng)業(yè)務(wù)模式迎來階躍式發(fā)展。隨著工業(yè)互聯(lián)網(wǎng)、車路協(xié)同、智能家居、智慧城市等新場景的持續(xù)涌現(xiàn),數(shù)據(jù)實時采集、分析、處理提供統(tǒng)一管理能力的云服務(wù)理念。分布式云模式下,通過自動化標準化的管理方式能夠隨時隨地隨需獲取云服務(wù),同時借助高一致性的云能力能夠在任意位置構(gòu)建、部署與運維應(yīng)用。Gartner在2020、2021連續(xù)兩年將分布式云列入戰(zhàn)略技術(shù)趨勢,并于2022年預(yù)測分布式云將在5-10年內(nèi)進入穩(wěn)定發(fā)展期,到2025年超過50%的組織將在其選擇的地點使用分產(chǎn)業(yè)界積極布局,分布式云成為重點發(fā)力的新賽道。鑒于分布式云良好的發(fā)展前景與巨大的發(fā)展?jié)摿?,當前全球頭部云服務(wù)商在分布式云領(lǐng)域積極開展實踐。華為云發(fā)布UCS服務(wù),提供本地集群、多云集群等多種Kubernetes發(fā)行版,支持將容器管理能力延伸至用戶任意基礎(chǔ)設(shè)施,并且提供對多Kubernetes集群的統(tǒng)一管理和治理。AWS發(fā)布Outposts托管服務(wù)一體機,配合LocalStack、LocalZones等服務(wù)將云能力無差別地下放到邊緣。微軟發(fā)布AzureArc,將Azure云服務(wù)延伸到用戶所需任意的基礎(chǔ)設(shè)施。Google推出DistributedCloud,基于Anthos實現(xiàn)跨公共云、邊緣位置和本地1數(shù)據(jù)來源:《中國數(shù)字經(jīng)濟發(fā)展研究報告(2023年)》,中國信息通信研究院2數(shù)據(jù)來源:《云計算發(fā)展白皮書(2022)年》,中國信息通信研究院3數(shù)據(jù)來源:《中國互聯(lián)網(wǎng)絡(luò)發(fā)展狀況統(tǒng)計報告》,中國互聯(lián)網(wǎng)絡(luò)信息中心,2023年3月111I1.3云原生加速分布式云一體化,開啟分布式云原生新時代業(yè)界最早提出云原生這個概念可追溯到2012年,其初衷是將彈性按需、水平擴展、高可靠高冗余、狀態(tài)與應(yīng)用分離等關(guān)鍵云架構(gòu)屬性特征以架構(gòu)設(shè)計模式、規(guī)范參考架構(gòu)和方法論的形式總結(jié)提煉出來,從而為企業(yè)應(yīng)用的云化架構(gòu)重構(gòu)改造提供指引。以Kubernetes為代表的云原生核心開源項目,實現(xiàn)了應(yīng)用服務(wù)的標準化封裝與資源的統(tǒng)一調(diào)度,逐步成為主流技術(shù)選擇。云原生計算基金會CNCF的成立全面加速了云原生生態(tài)的演進,云原生的方法論、工具集以及全棧云原生但企業(yè)客戶,出于對數(shù)據(jù)產(chǎn)權(quán)、安全合規(guī)、隱私保護、應(yīng)用時延、成本優(yōu)化、組織治理結(jié)構(gòu)等的考量,會采用分布式云的部署架構(gòu),將全棧云原生能力延伸到更靠近企業(yè)業(yè)務(wù)所需的位置(如多云、混合云、近場邊緣、現(xiàn)場邊緣等來滿足企業(yè)的業(yè)務(wù)需求,以公有云為中心的分布式云業(yè)界對云原生分布式技術(shù)已進行廣泛的實踐和探索,AWS的EKSAnywhere、GCP的Anthos多云混合云平臺、AzureArc分布式云產(chǎn)品等新一代的多云混合云解決方案無一例外均采用了以云原生為核心的技術(shù)底座。在開源社區(qū),近幾年CNCF大量涌現(xiàn)用以解決分布式云場景下的云原生開源項目。自華為云在2018年向CNCF貢獻了邊緣計算項目KubeEdge后,邊緣計算技術(shù)在社區(qū)中又紛紛出現(xiàn)了OpenYurt、K3S、SuperEdge等項目,用不同的技術(shù)實現(xiàn)方式將云原生技術(shù)應(yīng)用于邊緣。隨后在2021年華為云又將多云多集群管理項目Karmada貢獻至CNCF。之后幾年內(nèi)社區(qū)中同樣出現(xiàn)了OCM、ClusterNet等多云多集群管理的項目。當前華為云又將其邊緣、多云等能力進行集成提供了Kurator分布式云開源套件,向用戶提供了開箱即用的完整分布式云原生管理能力。同時為解決分布式云場景的的容器網(wǎng)絡(luò)問題,開源社區(qū)也積極進行了探索,出現(xiàn)了一批跨云跨集群的容器網(wǎng)絡(luò)項目,比較典型為Submarine、CilumMesh等。綜合來看,分布分布式云原生內(nèi)涵與架構(gòu)剖析111I2.1分布式與云原生交織演進,分布式云原生概念漸清晰分布式云原生是指通過云原生技術(shù)統(tǒng)一多云技術(shù)棧,提供業(yè)務(wù)價值的設(shè)計模式。越來越多的企業(yè)在上云過程中采用多個云提供商,然而多樣化的云平臺意味著更多的復(fù)雜性。多云容器平臺能夠提供集群資源集中管理的統(tǒng)一入口,幫助客戶從這些復(fù)雜性中跳脫出來,同時以云原生的方式將客戶的業(yè)務(wù)協(xié)同、數(shù)據(jù)資產(chǎn)、AI分析等一系列的業(yè)務(wù)能力無縫地分布于分布式云之上,配以完善的安全、管理能力,形成一體化的多云業(yè)務(wù)管理能力,學(xué)術(shù)界最早提出分布式云的概念可追溯到2009年初,切入點是嘗試利用地理上分布在不同區(qū)域的數(shù)據(jù)中心來構(gòu)建高可靠的云服務(wù)。云原生語義則是在Kubernetes生態(tài)逐步生成事實標準后,在2015年后逐步進入學(xué)術(shù)圈,其核心目的是對云計算資源做更高層次的抽象,以簡化用戶在云上部署和管理應(yīng)用的操作??梢钥闯?,云原生首先是一種云服務(wù)提供方式的理念,而后才是基于這個理念所研發(fā)的一系列技術(shù)。分布式云原生則是兩個概念的結(jié)合,其內(nèi)涵在于以云原生的方式分布式云原生的外延,隨著分布式云和云原生數(shù)年的并線發(fā)展,也有了極大的擴張。從分布式云所涵蓋的研究對象角1.從算力規(guī)模上看,從單一的數(shù)據(jù)中心,擴展到了規(guī)模極小的邊緣計算服務(wù)器和中小規(guī)模的城市級IDC這些不同規(guī)模2.從服務(wù)提供者角度看,從單一云服務(wù)商的數(shù)據(jù)中心,拓展到多個云服務(wù)商的數(shù)據(jù)中心,以及其他IT行業(yè)廠商,例如3.從應(yīng)用上看,已從抽象的分布式應(yīng)用模型,推廣到各個具體的應(yīng)用,如分布式數(shù)據(jù)庫、分布式科學(xué)計算、分布式視分布式云原生在學(xué)術(shù)界除了有相應(yīng)的理論研究之外,也出現(xiàn)了一些探索性的項目,其中最有名的項目當屬來自UCBerkeley的SkyComputing項目。該項目將云計算與英特網(wǎng)進行比較,認為云作為基礎(chǔ)設(shè)施,用戶不應(yīng)該感知不同云之間的區(qū)別。為此,SkyComputing項目提出需要一個兼容層以屏蔽不同云之間的差異,以及一個對等層以支持不同云之間ServerlessProviders(VSPs)項目、專注于存儲的CosTLO項目、數(shù)據(jù)共享平臺Gaia-X等等。1II2.2打破資源和業(yè)務(wù)邊界,厘清分布式云原生總體架構(gòu)隨著產(chǎn)業(yè)互聯(lián)網(wǎng)的發(fā)展和企業(yè)數(shù)字化改革的深入,傳統(tǒng)的單云單集群架構(gòu)已經(jīng)無法滿足客戶需求。分布式云原生架構(gòu)能夠?qū)⒃贫说耐惶准軜?gòu)延展到多云甚至邊緣端,將云上的算力分布式云原生架構(gòu)資源一體化:分布式云原生提供了對分布式云底層基礎(chǔ)設(shè)施的差異化屏蔽,通過統(tǒng)一的云原生平臺接入、調(diào)度、資源運維和成本治理對上形成了統(tǒng)一的資源管理視圖,使能上層業(yè)業(yè)務(wù)廣分布:在分布式云原生技術(shù)中,通過多云統(tǒng)一的應(yīng)用生態(tài)、應(yīng)用和配置信息的一致性分發(fā)以及統(tǒng)一的跨云服務(wù)數(shù)智全融合:數(shù)據(jù)是企業(yè)的最寶貴資產(chǎn),分布式云原生能夠?qū)⒅悄芩懔ρ由熘翑?shù)據(jù)所在位置,伴隨數(shù)據(jù)源提供智能化安全無邊界:分布式云原生通過策略管理、審計能力統(tǒng)一了各底層平臺的安全合規(guī)性要求并通過多云安全態(tài)勢感知能力一站式掌握整個分布式云平臺和業(yè)務(wù)的安全情況,通過軟件供應(yīng)鏈安全和網(wǎng)絡(luò)零信任的能力在多云環(huán)境多安全暴露面的分布式云原生核心技術(shù)詳解分布式云原生核心技術(shù)詳解1II3.1資源一體化資源一體化包括統(tǒng)一資源接入、統(tǒng)一算力調(diào)度、統(tǒng)一智能運維、統(tǒng)一成本治理四部分,旨在統(tǒng)一分布式場景下的資源3.1.1統(tǒng)一資源接入分布式云場景下,用戶所在的行業(yè)、經(jīng)營的業(yè)務(wù)、產(chǎn)生的數(shù)據(jù)以及所處的位置等因素的不同會對基礎(chǔ)設(shè)施提出不同的要求。這就意味著分布式云需要管理接入不同位置、不同架構(gòu)、各種類型的資源,將之統(tǒng)一納入分布式云基礎(chǔ)設(shè)施的管理分布式云場景下基礎(chǔ)設(shè)施架構(gòu)可以在數(shù)據(jù)中心,在邊緣云,也可以在公有云甚至多家供應(yīng)商之上;可以是ARM、X86,也可以是GPU等加速硬件。這些基礎(chǔ)設(shè)施資源,都需要分布式云統(tǒng)一全面的接入管理起來,才能跨地域通信的帶寬、時延、安全性等,都是需要在分當資源接入到分布式云,對于連接的影響范圍,對數(shù)據(jù)的保護方式,日志監(jiān)控等運維信息是否上報到分布式云,網(wǎng)絡(luò)邊界能做哪些安全防護,是否能夠關(guān)閉連接按需開放等,用戶會有一系列的疑問,這些最終都將圍繞著資源接入到分布式分布式云原生架構(gòu)通過統(tǒng)一接入層來實現(xiàn)對各種資源的統(tǒng)一接入和管理,包括云服務(wù)、物理機、虛擬機、容器等。利用統(tǒng)一接入層,企業(yè)可以構(gòu)建和管理全域的應(yīng)用集群,并在這些集群之間建立運營一致性。分布式云原生架構(gòu)在統(tǒng)一資源接入方面的作用非常重要,可以提高資源的利用率和效率,提高系統(tǒng)的可靠性和穩(wěn)定性,為企業(yè)的業(yè)務(wù)發(fā)展提供了強有力通過統(tǒng)一接入層,將分散在各地域的各種各樣的資源進行接分布式云的資源接入,需要能夠?qū)⒃圃馁Y源盡可能簡便的,無縫的接入管理。比如用戶的容器化應(yīng)用通過Kubernetes進行編排調(diào)度管理,分布式云需要能夠連接與管理任何地域、任何基礎(chǔ)設(shè)施上的Kubernetes集群,支持各kubernetes發(fā)行廠商,支持社區(qū)原生的Kubernetes集群接入,并且持續(xù)跟進和支持開源社區(qū)的最新版本能力。這里的集群,包括了標準的集群,Serverless集群,邊緣集群等各種集群場景。除了接入管理已有的集群,分布式云也需要支持將除了管理集群,分布式云同樣能夠直接管理節(jié)點,比如為集群拓展導(dǎo)入邊緣節(jié)點,將應(yīng)用分發(fā)到邊緣節(jié)點上。分布式2.多樣化的資源接入形式對于分布式云接入中心所在的云,比如公有云、私有云、數(shù)據(jù)中心等基礎(chǔ)設(shè)施上的資源,分布式云可以將之無縫的管理起來,無需額外執(zhí)行開通接入、安裝代理等步驟。這樣可以節(jié)省接入相關(guān)的資源成本和管理成本,為用戶提供一站式的當其他的公有云、邊緣云、數(shù)據(jù)中心的資源需要接入到分布式云上時,資源的接入涉及到接入標準的滿足程度。比如容器化的Kubernetes資源,符合云原生標準,可以直接導(dǎo)入;比如一個數(shù)據(jù)庫服務(wù),則對資源描述語義,通過一定的代理程序轉(zhuǎn)發(fā),達到接入標準。一般來說,各種資源都可以通過轉(zhuǎn)化為聲明式的資源定義,以及特定的代理流程,達到接入3.適應(yīng)多種網(wǎng)絡(luò)條件也可以是代理服務(wù)、NAT等需要中轉(zhuǎn)的連接等。不同的接入方式具備不同的性能和安全等級能力,可以結(jié)合用戶的實際應(yīng)用和管理訴求進行選擇處理。對于不滿足的組網(wǎng)條件,分布式云也可以將能力對接到本地的資源進行代替。通過提供多種4.滿足最小化安全原則分布式云接入資源的連接通道,存在管理、運維、數(shù)據(jù)等連線通路。其中管理通路主要負責資源的接入認證和管理指令的發(fā)送;運維通路主要承擔日志、監(jiān)控、告警等運維信息的傳達;數(shù)據(jù)通路則主要負責軟件、制品的分發(fā)等行為。每一個通路,都提供了按需開啟、關(guān)閉,以及關(guān)閉后使用本地就近資源代替的能力。同時,每個通路都提供了最小化本地出口資源的限制,比如專屬的管理節(jié)點、運維節(jié)點提供出口地址并增加到出口防火墻的限制中。通過種種安全合規(guī)策略保證在資源接入后提供進一步的安全保證。最終達到用戶資源要求3.1.2統(tǒng)一算力調(diào)度分布式云場景下,用戶業(yè)務(wù)所使用的集群資源類型、集群所處位置、計算資源成本等存在較大差異,在用戶層面更多的是關(guān)注業(yè)務(wù)的部署、伸縮、運維和成本,對于資源管理與算力分配由底層基礎(chǔ)設(shè)置統(tǒng)一管理,這意味著在算力調(diào)度方面需要考慮更多場景,包括但不限于多種資源管理服務(wù)的混合調(diào)度,不同地在分布式云場景下,用戶的業(yè)務(wù)會使用多種資源管理服務(wù),比如:集群、Serverless、裸金屬、競價實例、on-premise等多種云環(huán)境,業(yè)務(wù)調(diào)度過程中需要根據(jù)用戶業(yè)務(wù)特點,自動調(diào)度到合適的資源管理服務(wù)。在底層硬件管理和調(diào)2.多地域資源統(tǒng)一調(diào)度物理專線,VPC,公網(wǎng)等。另外,不同地域?qū)τ跀?shù)據(jù)安全合規(guī)要求也存在著差異,比如:歐洲、北美、中國等各地區(qū)數(shù)據(jù)3.成本感知不同region的資源池計算、網(wǎng)絡(luò)、存儲成本各不相同,并且不同云廠商在不同時間段的優(yōu)惠折扣也存在差異,用戶業(yè)務(wù)下發(fā)過程中,需要綜合各云廠商的資源報價并結(jié)合實時折扣,計算成本最優(yōu)調(diào)度方案,分配業(yè)務(wù)至性價比最高的一個或業(yè)務(wù)統(tǒng)一調(diào)度與分布選擇業(yè)務(wù)部署計算成本最低集群,保障用戶1)全域資源彈性擴容:全域資源調(diào)度器根據(jù)獲取各云廠商的資源視圖和價格信息,計算出各云廠商性價比最高的可用虛機或容器節(jié)點規(guī)格,按推薦規(guī)格堆疊業(yè)務(wù)負載,獲取最小資源需求量,根據(jù)成本測算的最終方案將業(yè)務(wù)下發(fā)到指定2)Serverless全域彈性:全域調(diào)度根據(jù)業(yè)務(wù)負載估算所需虛機或容器節(jié)點規(guī)格及數(shù)量,通過全域資源調(diào)度器推薦資源方案,選擇價格最低Region,將業(yè)務(wù)負載提交到對應(yīng)云廠商的Serverless服務(wù)。3)多產(chǎn)品混合:在集群、Serverless、裸金屬、競價實例、on-premise等多種子云環(huán)境共存場景下,比較各產(chǎn)品部2.接入時延優(yōu)先1)用戶業(yè)務(wù)需求:通過各云廠商提供的底層全局資源視圖,匯總各Region資源的網(wǎng)絡(luò)狀態(tài),并及時更新到分布式云2)避免網(wǎng)絡(luò)波動影響業(yè)務(wù):當?shù)讓淤Y源出現(xiàn)故障或性能瓶頸時,各云廠商通過事件機制及時將網(wǎng)絡(luò)波動通知分布式云原生業(yè)務(wù)層;業(yè)務(wù)管理模塊可根據(jù)當前網(wǎng)絡(luò)狀況,重新調(diào)度業(yè)務(wù)分布,避免客戶業(yè)務(wù)受到影響,保障QoS。3.負載分布持續(xù)優(yōu)化當業(yè)務(wù)負載波動、或網(wǎng)絡(luò)、計算等資源出現(xiàn)性能、價格變化時,全域調(diào)度通過遷移、伸縮等方式對業(yè)務(wù)分布重調(diào)度,2)多云價格折扣變動:當云環(huán)境進行促銷活動時,可根據(jù)各個云集群的實時折扣信息,計算成本最優(yōu)調(diào)度模型,將應(yīng)3.1.3統(tǒng)一智能運維云原生應(yīng)用的復(fù)雜性增加了系統(tǒng)狀態(tài)可視化的實現(xiàn)難度,也讓企業(yè)對于系統(tǒng)監(jiān)控運維能力提出了更高的要求。根據(jù)CNCF的調(diào)查,有38%的用戶認為監(jiān)控是其應(yīng)用Kubernetes遇到的最大挑戰(zhàn)之一,隨著企業(yè)規(guī)模的增長,這個比例甚至達到了46%。在分布式云原生場景下,K8S集群往往分布在不同的區(qū)域,不同的云廠商。這給多集群的統(tǒng)一監(jiān)控運維帶來了更大的與將所有應(yīng)用程序和數(shù)據(jù)保留在單個公有云中相比,跨多個公有云或者和私有云基礎(chǔ)設(shè)施共同部署工作負載情況下的1.復(fù)雜的IT環(huán)境分布式云原生包含的私有云和公有云環(huán)境的多樣性日益增加,往往私有云和公有云需要在基礎(chǔ)架構(gòu)、數(shù)據(jù)、網(wǎng)絡(luò)和應(yīng)用程序的各個級別相互集成。如此復(fù)雜的環(huán)境對監(jiān)控運維帶來很大的挑戰(zhàn)。比如,一個環(huán)境的性能指標可能不同于另一個環(huán)境。有些環(huán)境雖然有相同的指標,但他們的名字和標簽不同,需要關(guān)聯(lián)才能有用。這里面臨的挑戰(zhàn)是如何統(tǒng)一所有這些2.技術(shù)選型不統(tǒng)一與供應(yīng)商綁定在CNCFlandscape中,監(jiān)控運維相關(guān)產(chǎn)品非常多,利用這些產(chǎn)品的組合,可以比較快速的搭建一個可觀測性系統(tǒng)。在分布式云原生場景,由于技術(shù)選型和歷史債務(wù)等原因,不同環(huán)境使用的的工具可能不盡相同。比如,一個企業(yè)可能在私有云擁有Nagios等舊式監(jiān)控系統(tǒng),同時在公有云擁有AWSCloudWatch等云供應(yīng)商監(jiān)控系統(tǒng)和Prometheus等開源監(jiān)控系統(tǒng)。這些系統(tǒng)中有些監(jiān)控信息是相互重疊的,而有些監(jiān)控信息對于每個監(jiān)控系統(tǒng)來說是唯一的。這樣會引入的問組件3.故障診斷與排查困境在分布式云原生場景,企業(yè)往往會同時擁有分布在不同環(huán)境,不同的集群類型和集群版本的K8S集群。這些集群會面臨各種各樣的故障場景,topN問題包括節(jié)點異常、Pod狀態(tài)異常、網(wǎng)絡(luò)故障、應(yīng)用行為異常(如DNS錯誤、訪問外部服務(wù)錯誤、重啟、崩潰)、控制面過載等。面對分布式云原生復(fù)雜的故障場景,單純的監(jiān)控系統(tǒng)往往無能為力。維護這些集為了保證監(jiān)控數(shù)據(jù)在不同云環(huán)境中有相同的數(shù)據(jù)模型,方便后續(xù)的統(tǒng)一分析與查詢,同時為了避免廠商鎖定,以及適應(yīng)多種技術(shù)棧,企業(yè)應(yīng)該盡可能選擇主流開源技術(shù)構(gòu)建一套統(tǒng)一的數(shù)據(jù)采集規(guī)范和工具。并且尋找能夠兼容主流開源協(xié)議的服務(wù)提供商合作,以此降低改造成本和避免廠商鎖定。當前業(yè)界比較主流的采集規(guī)范包括監(jiān)控領(lǐng)域的prometheus,日2.分布式數(shù)據(jù)存儲將分布在各個環(huán)境區(qū)域的監(jiān)控數(shù)據(jù)上報到統(tǒng)一的位置進行集中存儲無疑會極大的方便數(shù)據(jù)的統(tǒng)一分析與查詢。但是也會遇到很多問題,比如復(fù)雜的網(wǎng)絡(luò)環(huán)境的打通,高昂的數(shù)據(jù)傳輸成本,大規(guī)模集中存儲性能瓶頸,數(shù)據(jù)安全合規(guī)等。換一種思路,將監(jiān)控運維數(shù)據(jù)按照就近原則進行分布式3.全局聚合分析與查詢不管是統(tǒng)一的數(shù)據(jù)采集還是分布式存儲,最終都要實現(xiàn)全局聚合分析查詢能力。一套實現(xiàn)良好的聚合查詢引擎,可以將全局查詢語法分解為算子分發(fā)給各個區(qū)域的數(shù)據(jù)存儲系統(tǒng),并最終在4.統(tǒng)一全局視圖統(tǒng)一全局視圖有助于業(yè)務(wù)人員從全局視角對分布在不同的環(huán)境的集群和應(yīng)用進行統(tǒng)一監(jiān)控運維。一套設(shè)計良好的全局5.集群巡檢系統(tǒng)在分布式云原生環(huán)境,企業(yè)往往會同時擁有分布在不同環(huán)境,不同的集群類型和集群版本的K8S集群,維護這些集群的穩(wěn)定性,可靠性和安全性對運維人員來說是很大的負擔。融合了專家經(jīng)驗的集群巡檢系統(tǒng)可以比較好的解決這些問題。6.故障智能診斷故障智能診斷系統(tǒng)通過引入專家知識庫和AIOPS能力,可以快速的告訴用戶出現(xiàn)這些故障的原因和解決方法。通過對接分布式云原生平臺的監(jiān)控后端,運維人員通過服務(wù)訪問的響應(yīng)時間、流量、錯誤率等指標能全面地描述服務(wù)在分布式環(huán)境下總體的運行情況、健康狀態(tài)等?;诜?wù)間的訪問指標生成微服務(wù)的應(yīng)用訪問拓撲,直觀地觀察分布式環(huán)境下的服務(wù)間的依賴,了解服務(wù)間的吞吐、延時等信息,觀察服務(wù)跨集群訪問、版本粒度、實例粒度的流量情況。通過非侵入調(diào)用鏈埋點,代替業(yè)務(wù)自動生成調(diào)用鏈信息,可以觀察分布式云原生場景下復(fù)雜調(diào)用鏈路上每個階段的調(diào)用關(guān)系,以及每個階段3.1.4統(tǒng)一成本治理分布式云統(tǒng)一成本治理包括多云統(tǒng)一成本可視化、多云統(tǒng)一成本分析、多云統(tǒng)一成本報表、多云統(tǒng)一預(yù)警管理、多云成本優(yōu)化推薦,為用戶提供資源統(tǒng)一調(diào)度,畫像統(tǒng)一分析,成本統(tǒng)分布式云成本治理是FinOps的一個重要的實踐活動,要確保用戶從多云中花費的投入獲得最大價值,實現(xiàn)系統(tǒng)、最佳實踐和文化的結(jié)合,以提高組織理解多云成分布式云原生成本治理成本問題定位困難,人力成本高。多云資源需要協(xié)同規(guī)劃,資源利用率幾乎無法統(tǒng)計,調(diào)優(yōu)路徑選擇困難。隨著業(yè)務(wù)及資針對企業(yè)在分布式云場景下業(yè)務(wù)特點及在成本治理方面所遇到的困難,分布式云原生成本治理能力為有分布式業(yè)務(wù)特點的企業(yè)提供統(tǒng)一成本治理解決方案,旨在為企業(yè)提供分布式云場景下,資源統(tǒng)一調(diào)度,統(tǒng)一分析,統(tǒng)一治理的一站式成本治理解決方案,幫助企業(yè)優(yōu)化全球資源配置,實現(xiàn)資成本治理有成本洞察和成本優(yōu)化兩項關(guān)鍵技通過分布式云成本可視化,多個云廠商及客戶自建IDC成本構(gòu)成一目了然,便于客戶成本分析,重新制定資源分布方案,2.基于分布式云的全局資源畫像為客戶提供基于實時賬單的容器粒度的成本拆分,基于分布式云治理范圍內(nèi)資源的全局統(tǒng)一的資源畫像,幫助客戶了3.基于分布式云的全域統(tǒng)一調(diào)度分布式云場景下,使用統(tǒng)一調(diào)度器,在統(tǒng)一資源視圖下調(diào)度,將用戶應(yīng)用部署在成本最優(yōu)的位置,并在業(yè)務(wù)閑時通過4.分布式云原生成本分析提供成本鉆取和預(yù)算管理能力,為客戶提供分布式云場景下的資源構(gòu)成、成本構(gòu)成,幫助客戶進行自動化的預(yù)算分析與管理,降低客戶人工預(yù)算管理帶來的人力成本5.基于分布式云成本的優(yōu)化推薦分布云場景下,統(tǒng)籌管理應(yīng)用所需要的各類資源,基于分布式云的全局資源畫像,對應(yīng)用及其依賴資源的成本進行建模分析。綜合客戶業(yè)務(wù)分布和業(yè)務(wù)預(yù)測數(shù)據(jù)分析,提供基于成本優(yōu)先、接入時延優(yōu)先等不同優(yōu)先級的推薦策略,輸出客戶業(yè)務(wù)場景成本優(yōu)化最優(yōu)解,為客戶提供資源優(yōu)化推薦,架構(gòu)優(yōu)化推薦,套餐優(yōu)6.基于分布式云原生的成本治理智能彈性結(jié)合分布式云原生底層細粒度按需資源,隨用隨取,按秒計費,減少大顆粒資源的損耗,提升資源利用率,智能混部提供多業(yè)務(wù)混部能力,分時段利用資源,保證資源在高峰低谷期的1II3.2業(yè)務(wù)廣分布業(yè)務(wù)廣分布包括統(tǒng)一應(yīng)用生態(tài)、配置一致性分發(fā)、統(tǒng)一服務(wù)治理三部分,旨在滿足業(yè)務(wù)在分布式場景下的全生命周期3.2.1統(tǒng)一應(yīng)用生態(tài)隨著云原生基礎(chǔ)設(shè)施的越發(fā)成熟,業(yè)界和社區(qū)將關(guān)注點從底層資源逐漸轉(zhuǎn)到上層應(yīng)用。開發(fā)者在應(yīng)用的標準化構(gòu)建和云原生技術(shù)深入到各行業(yè)中,促使云原生應(yīng)用的種類越來越多。從最初的Web應(yīng)用、中間件應(yīng)用,到如今的Serverless應(yīng)用、大數(shù)據(jù)AI應(yīng)用等,應(yīng)用類型和復(fù)雜度逐步提高。與此同時,隨著多云環(huán)境在企業(yè)中的逐步推廣,對應(yīng)用在多場景下的兼容性提出了新的要求。如何在應(yīng)用構(gòu)建過程中,通過標準的全棧聲明式應(yīng)用定義,對復(fù)雜的資源在異構(gòu)場景中進行高效組合和編排,實現(xiàn)應(yīng)用的高效定義和打包2.應(yīng)用跨云分發(fā)、管理、運維、運營能力不統(tǒng)一,應(yīng)用生態(tài)難以快速形成生態(tài)是云原生世界的核心部件。一方面,應(yīng)用開發(fā)者更傾向于把自身開發(fā)的應(yīng)用或者服務(wù)在“生態(tài)”環(huán)境中向客戶和生態(tài)伙伴敞開。另一方面,云原生領(lǐng)域的從業(yè)者們更加的傾向于從生態(tài)平臺中獲取有價值的應(yīng)用或服務(wù),提升自身的開發(fā)效率。隨著分布式云的盛行,應(yīng)用開發(fā)者如何在多云環(huán)境中對應(yīng)用進行統(tǒng)一的發(fā)布、共享和下架等管理行為;應(yīng)用使用者如何快速、準確地獲取符合自身訴求的應(yīng)用,并在多云環(huán)境下進行應(yīng)用部署和運維,逐步成為分布式云原生應(yīng)用管理的重云原生應(yīng)用統(tǒng)一生態(tài)基于《云原生服務(wù)規(guī)范》描述,支持二進制、鏡像、HelmChart包、Operator包等多類型應(yīng)用制品的快速接入,并對服務(wù)包目錄結(jié)構(gòu)、描述文件進行統(tǒng)一的解析和校驗,模板參數(shù)的統(tǒng)一渲染,實現(xiàn)云原生平臺2.云原生生命周期治理3.云原生應(yīng)用統(tǒng)一運維能力提供統(tǒng)一的分布式應(yīng)用監(jiān)控告警能力,支持運維數(shù)據(jù)的全局采集和可視化。通過規(guī)則引擎、AI智能分析等手段,對運維數(shù)據(jù)進行智能分析,實現(xiàn)應(yīng)用狀態(tài)自動巡檢、問題快速發(fā)現(xiàn)、告警根因分析、故障快速隔離和自動恢復(fù)等能力。同時,4.云原生應(yīng)用運營服務(wù)在云原生生態(tài)世界中,應(yīng)用開發(fā)者需要基于自身開發(fā)應(yīng)用或服務(wù)的運營數(shù)據(jù)掌握客戶或者伙伴的使用情況,進而不斷迭代優(yōu)化應(yīng)用或服務(wù)。因此,云原生平臺需要面向開發(fā)者,提供權(quán)限管理、多租戶、計量計費、審計、總覽視圖與報表,3.2.2配置一致性分發(fā)隨著業(yè)務(wù)全球化發(fā)展趨勢,業(yè)務(wù)的部署模式逐漸從單云轉(zhuǎn)變至多云和混合云,但管理不同云廠商和不同地域的集群的系統(tǒng)配置文件等基礎(chǔ)設(shè)施。尤其在多集群TLS證書的發(fā)布及更新管理這個場景下,客戶的運維團隊需要在每個供應(yīng)商的集2.由業(yè)務(wù)場景側(cè)需求和集群基礎(chǔ)設(shè)施差異性帶來的差異化配置挑戰(zhàn)。根據(jù)應(yīng)用程序的業(yè)務(wù)場景訴求不同,不的業(yè)務(wù)版本,更新頻率會存在不同。例如同一餐廳在不同地域的點餐系統(tǒng)可供給的菜單種類,菜單上新會有差異;或由于跨國公司在不同國家推廣策略不同,新的業(yè)務(wù)軟件大,依賴UI控制臺進行應(yīng)用交付的方式變得復(fù)雜臃腫,其交付的順序編排依賴人工,無法做到自動化,且無法進行審計和版本控制。另外,配置管理與應(yīng)用構(gòu)建、發(fā)布如何融合和協(xié)同,嵌入到DevOps流程中也是關(guān)鍵挑戰(zhàn)。為應(yīng)對上述多云集群管理和多云應(yīng)用交付的挑戰(zhàn),產(chǎn)業(yè)界進行了諸多探索,通過屏蔽底層環(huán)境差異和多個管理入口,將多個集群環(huán)境的配置和治理集中于一處,以自動化的體驗完成多集群基礎(chǔ)設(shè)施的管理以及多云應(yīng)用的發(fā)布及更新,以實1.以GitOps核心理念實現(xiàn)一致性配置管理以GitOps核心理念實現(xiàn)一致性配置設(shè)施和應(yīng)用的單一事實來源。Git倉庫中的聲明式配置描述了目標環(huán)境當前所需基礎(chǔ)設(shè)施的期望狀態(tài),當集群中的實際運行的配置或應(yīng)用狀態(tài)與Git倉庫中定義的期望狀態(tài)不匹配時,集群根據(jù)期望狀態(tài)來調(diào)整當前的狀態(tài),最終使實際狀態(tài)與期望2.多集群的差異化配置隨著部署應(yīng)用的規(guī)模越來越大,部署集群的底層差異性越來越大,單一的一份配置對應(yīng)一個集群的模式會變的越來繁瑣和難以維護,因此面向多個集群的差異化配置策略設(shè)置顯得尤為重要。其關(guān)鍵點在于做好定義公共部分抽象和少數(shù)變量的差異化配置,對應(yīng)用本身參數(shù)屬性和運維參數(shù)進行分離,減少重復(fù)編輯和維護3.多集群場景下配置的可觀測性當集群規(guī)模和配置規(guī)模變大,如何快速識別配置以及所需狀態(tài)與實際狀態(tài)之間的差異,配置同步、資源協(xié)調(diào)等也存在技術(shù)挑戰(zhàn),構(gòu)建跨集群的配置同步和故障的實時可觀測性是關(guān)鍵考慮點,通過配置管理儀表盤可以實時跟蹤運行集群的配置同步情況,并審查跨集群的配置和資源的進度,并確保一致的集群行為。這會幫助用戶快速識別問題并采取相應(yīng)行動,以實現(xiàn)服務(wù)級別目標(SLO)。4.與Pipeline結(jié)合實現(xiàn)開發(fā)、發(fā)布以及應(yīng)用配置等流程的應(yīng)用全生命周期管理隨著DevOps價值觀和文化的流行,越來越多的公司選擇幫助開發(fā)團隊分擔應(yīng)用程序交付的責任,他們將多云環(huán)境下1)定義和構(gòu)建多云應(yīng)用:開發(fā)團隊進行業(yè)務(wù)的開發(fā)、測試、驗證、打包軟件和生成鏡像,可通過Pipeline流水2)持續(xù)交付多云應(yīng)用:運維團隊首先會根據(jù)開發(fā)團隊提供的原始制品文件對部署在多個集群環(huán)境中的差異化內(nèi)容進行配置。除初次應(yīng)用發(fā)布外,通過配置一致性分發(fā),可實現(xiàn)多集3.2.3統(tǒng)一服務(wù)治理在分布式云原生的復(fù)雜場景下,隨著管理規(guī)模增大,運行的業(yè)務(wù)更加復(fù)雜,負載運行環(huán)境更加多樣。特別是運行在多同時在分布式云原生的新的業(yè)務(wù)場景下,對服統(tǒng)一服務(wù)治理在分布式云原生場景下,網(wǎng)絡(luò)和服務(wù)運行環(huán)境更加復(fù)雜,對服務(wù)的韌性和可靠性帶來了更大的挑戰(zhàn)。需要分布式云原生平臺提供跨地域訪問親和性、跨地域服務(wù)故障倒換能力,配合服務(wù)限流、熔斷、重試、超時等能力,應(yīng)對分布式云場景2.分布式環(huán)境下流量管理需求場景更多更迫切在分布式云原生場景下,用戶業(yè)務(wù)部署在多云和混合云場景。為了應(yīng)對線下開發(fā)測試線上部署的場景,需要支持動態(tài)的線上線下灰度流量切分能力,支持混合云場景的灰度發(fā)布。同時根據(jù)用戶業(yè)務(wù)特點,動態(tài)支持跨域流量切分,在多云、3.分布式環(huán)境下應(yīng)用安全更復(fù)雜嚴峻在分布式云原生場景下,負載部署在多云混合云的不同集群中,負載身份標識方式不同,認證方式不同。為分布式云提供透明的零信任安全應(yīng)用基礎(chǔ)設(shè)施,需要基于統(tǒng)一的服務(wù)身份體系,服務(wù)認證策略,構(gòu)造細粒度的服務(wù)訪問授權(quán),這比服務(wù)網(wǎng)格是CNCF定義的云原生技術(shù)的典型代表之一,應(yīng)用服務(wù)網(wǎng)格為分布式云提供了基礎(chǔ)設(shè)施形態(tài)透明的全域流量管理能力。多云、混合云、跨Region的應(yīng)用基于分布式云統(tǒng)一部署、配置,通過服務(wù)網(wǎng)格的能力,對這些分布式的應(yīng)用服務(wù)網(wǎng)格根據(jù)配置的輪訓(xùn)、隨機、最小鏈接等多種負載均衡策略在跨地域的服務(wù)實例上進行全局負載均衡。對于在分布式云原生平臺上全局部署的服務(wù),服務(wù)訪問者只需要訪問唯一的服務(wù)域名,服務(wù)網(wǎng)格將訪問流量分發(fā)到艦隊管理的多云混合云的所有服務(wù)后端實例上,實現(xiàn)全局訪問。同時動全局負載均衡簡化了分布式云原生場景下的服務(wù)訪問方2.服務(wù)訪問親和性分布式云原生場景下,在全局負載均衡的基礎(chǔ)上,服務(wù)網(wǎng)格根據(jù)服務(wù)實例上的地域信息,優(yōu)先將流量分發(fā)到同地的服務(wù)實例上,實現(xiàn)親和性訪問。在跨Region的場景下,可以控制服務(wù)源服務(wù)訪問目標服務(wù)時優(yōu)先訪問本Region、本Zone內(nèi)的目標服務(wù)實例;在多云場景下,控制流量優(yōu)先在本地云內(nèi)流轉(zhuǎn);在混合云場景下,當源服務(wù)來自云上或者云網(wǎng)格提供的訪問親和性降低了分布式云原生場景下服務(wù)3.跨地域故障倒換在分布式云原生場景下,通常通過區(qū)域、可用域、節(jié)點的反親和方式部署服務(wù)實例。使用服務(wù)網(wǎng)格管理跨地域的訪問流量,在一個地域的后端實例發(fā)生故障時,將部分流量轉(zhuǎn)移到其他地域的健康實例上去??梢愿鶕?jù)服務(wù)實例上的位置標簽對服務(wù)實例分組進行優(yōu)先級排序,標簽匹配得越多,說明和源實例越親和,優(yōu)先級也相應(yīng)越高,在故障轉(zhuǎn)移過程中在跨Region場景下,流量優(yōu)先發(fā)送給相同Zone的全局負載均衡跨地域故障倒換跨地域故障倒換向分布式云原生場景的服務(wù)提供了自適應(yīng)的故障處理能力,在服務(wù)多活部署的基礎(chǔ)上,進一步提高了4.跨地域流量切分在分布式云原生場景下,基于全局負載均衡,和服務(wù)網(wǎng)格配置的分流策略,在訪問目標服務(wù)時可以動態(tài)控制將不同的特征的流量,或者不同比例的流量分發(fā)到不同位置的后端基于這種動態(tài)流量切分能力,可以實現(xiàn)分布式云原生場景下線下開發(fā)測試線上運行的全域灰度;也可以根據(jù)客戶的業(yè)務(wù)特征,將不同來源的流量或者不同業(yè)務(wù)特征的流量分發(fā)到多云的不同后端,實現(xiàn)客戶業(yè)務(wù)在多云上的流量分擔。這些流量切分可以在全域動態(tài)控制,根據(jù)需要一鍵將所有流量跨地域流量切分5.基于統(tǒng)一認證和細粒度授權(quán)的分布環(huán)境的零信任網(wǎng)絡(luò)分布式云原生環(huán)境下,不同地域的負載網(wǎng)絡(luò)狀況、自身安全狀況不同,服務(wù)安全管理總體挑戰(zhàn)較大。服務(wù)網(wǎng)格為分布式云原生環(huán)境構(gòu)建全局的應(yīng)用安全基礎(chǔ)設(shè)施,在零信任的安全假設(shè)下,透明地保護服務(wù)間的訪問。為來自不同地域的服務(wù)應(yīng)用統(tǒng)一身份標識,自動簽發(fā)維護證書,進行透明的服務(wù)間雙向認證和通道加密,進而基于細粒度的服務(wù)訪問授權(quán)策略,控制特定身份的服務(wù)通過某種特征的流量,對目標服務(wù)、目標服務(wù)的特地接口或特點端口的訪問,保證分布式云原生環(huán)境服務(wù)網(wǎng)格為分布式云原生提供基礎(chǔ)設(shè)施形態(tài)的全域的應(yīng)用安全能力,部署在分布式云原生平臺上的應(yīng)用代碼不感知也6.分布式環(huán)境的熔斷、限流、故障隔離與恢復(fù)在分布式云原生場景下,服務(wù)部署環(huán)境復(fù)雜,服務(wù)總體通過服務(wù)網(wǎng)格配置適當?shù)闹卦嚳梢苑奖悴⑶矣行У靥岣呦到y(tǒng)的總體服務(wù)質(zhì)量,特別是對分布式云環(huán)境下網(wǎng)絡(luò)暫時故障、環(huán)境問題、資源問題導(dǎo)致的服務(wù)暫時不可用進行重試,可以提高服務(wù)總體的訪問成功率。網(wǎng)格的連接池管理機制控異常點檢查機制可以被快速動態(tài)地隔離和恢復(fù)分布式云原生場景下復(fù)雜的網(wǎng)絡(luò)環(huán)境中不健康的實例,保證了服務(wù)的總體訪問成功率,保證服務(wù)總體可用性。服務(wù)網(wǎng)格提供的限流能力保證對分布式云原生場景下關(guān)鍵的服務(wù),在出現(xiàn)流量高峰分布式環(huán)境的熔斷1II3.3數(shù)智全融合大數(shù)據(jù)與人工智能作為先進數(shù)字技術(shù)已被廣泛使用,數(shù)智全融合是指將大數(shù)據(jù)、人工智能相關(guān)能力與分布式云原生場得利于云計算豐富、集中的算力資源,在云上執(zhí)行大數(shù)據(jù)分析和AI計算成為企業(yè)的通用選擇。大部分大型云平臺提供商通過完善平臺能力、提供大數(shù)據(jù)處理和機器學(xué)習相關(guān)服務(wù)等方式,支持用戶快速、高效的訓(xùn)練和部署AI模型。隨著分布不同于云端集中、統(tǒng)一的算力資源,分布式云系統(tǒng)中,計算設(shè)備、供電設(shè)備、部署場地面積、AI開發(fā)環(huán)境等往往是有限或者異構(gòu)的,大數(shù)據(jù)處理和AI計算服務(wù)流程需要應(yīng)對并兼容多種異構(gòu)算力,建設(shè)門檻和維護成本急劇攀升。同時,考慮2.缺乏高效的數(shù)據(jù)跨地域訪問能力,分布式應(yīng)用難以高效協(xié)同在分布式云場景下,數(shù)據(jù)往往分布在系統(tǒng)的不同站點或者集群上,集群之間網(wǎng)絡(luò)割裂、傳輸成本高,導(dǎo)致數(shù)據(jù)難以高3.小樣本、數(shù)據(jù)異構(gòu)、災(zāi)難性遺忘等問題凸顯在分布式系統(tǒng)中,單個站點或者集群通常僅有部分樣本,尤其在邊側(cè)計算場景中,由于邊側(cè)大量非結(jié)構(gòu)化樣本的標注較為困難,標注樣本的數(shù)量較低,這導(dǎo)致傳統(tǒng)大數(shù)據(jù)驅(qū)動的統(tǒng)計機器學(xué)習方法無法收斂或精度差。同時,不同站點和集群間樣本的統(tǒng)計分布與訓(xùn)練集差異過大,導(dǎo)致數(shù)據(jù)的特征呈現(xiàn)明顯異構(gòu)屬性。因此,分布式AI應(yīng)用需同時應(yīng)對和兼容異構(gòu)的業(yè)務(wù)數(shù)據(jù),并統(tǒng)一權(quán)衡實現(xiàn)資源高效調(diào)度。另外,當小樣本和數(shù)據(jù)異構(gòu)同時出現(xiàn)時,還會誘發(fā)災(zāi)難性遺忘(Catastrophic分布式云原生助力企業(yè)打造數(shù)智融合平臺,幫助企業(yè)從資源、數(shù)分布式云原生數(shù)智全融合關(guān)鍵技術(shù)活的調(diào)度能力相結(jié)合,根據(jù)數(shù)據(jù)位置、資源空余、成本等條件進行綜合調(diào)度,支持將應(yīng)用快速調(diào)度到中大型數(shù)據(jù)中心、用戶本地機房、業(yè)務(wù)現(xiàn)場小型設(shè)備等不同環(huán)境。同時,根據(jù)數(shù)據(jù)源的位置變化,分布式平臺提供應(yīng)用快速遷移、流量接入治2.分布式數(shù)據(jù)治理分布式云平臺通過統(tǒng)一的元數(shù)據(jù)建模,對分布在不同地理位置的數(shù)據(jù)進行統(tǒng)一管理和存儲,依托數(shù)據(jù)分片、統(tǒng)一尋址等技術(shù)提升數(shù)據(jù)訪問的速度,增強數(shù)據(jù)訪問可用性,減少數(shù)據(jù)訪問時延和丟失的風險。同時,通過跨地域的數(shù)據(jù)訪問和同3.分布式AI協(xié)同面向分布式AI應(yīng)用,提供分布式AI協(xié)同框架,提供跨地域一致的AI任務(wù)管理、AI模型管理、AI算力管理能力,加速AI應(yīng)用在分布式云場景下的運行。通過對分布式AI任務(wù)執(zhí)行過程中,多個應(yīng)用間互相協(xié)同流程的優(yōu)化,提升分析結(jié)果同時,面向分布式AI中小樣本、數(shù)據(jù)異構(gòu)、災(zāi)難性遺忘等問題,提供標準化的分布式協(xié)同AI任務(wù)工作流模板,如:協(xié)同推理、增量學(xué)習、聯(lián)邦學(xué)習、終身學(xué)習,提供標準化分布式AI任務(wù)定義規(guī)范。通過預(yù)置難例判別、參數(shù)聚合等通用協(xié)1II3.4安全無邊界安全無邊界是指通過統(tǒng)一認證授權(quán)、統(tǒng)一策略管理、跨云態(tài)勢感知、軟件供應(yīng)鏈安全、網(wǎng)絡(luò)零信任等技術(shù)手段全鏈路1.不同云廠商采用的租戶模型不同,權(quán)限管理復(fù)雜,不同云廠商采用的租戶模型不同,如AWS租戶模型基于云賬號,可以將賬號分配給Organization的OU,由根賬號來設(shè)置計費和策略;而Azure租戶模型則基于訂閱,一個賬戶可以包含多個訂閱,每個訂閱歸屬一個管理組統(tǒng)一管理;華租戶模型不同,使得各云廠商的IAM和云原生基礎(chǔ)設(shè)施的授權(quán)管理差異較大,這種差異會體現(xiàn)在用戶或用戶組對容器基礎(chǔ)設(shè)施或工作負載的訪問控制策略里。因此分布式云原生管理平臺應(yīng)抽象出一個統(tǒng)一的認證和授權(quán)模型與云廠商的租戶2.安全合規(guī)壓力大,安全控制點和安全最佳實踐在多云場景下落地困難ISO等國際標準化組織和行業(yè)組織在信息安全、隱私安全、云安全等相關(guān)領(lǐng)域發(fā)布了眾多安全最佳實踐和IT安全標準。分布式云原生場景下,多云變得普遍,不同云廠商往往處于不同的國家或區(qū)域,需要遵循當?shù)氐姆煞ㄒ?guī),這使得違反當?shù)胤傻娘L險劇增。云廠商往往也發(fā)布各類安全最佳實踐,比如AWS推出AmazonEKSBestPracticesGuideforSecurity等,這些基線或最佳實踐往往有數(shù)十項甚至更多的安全控制點,落地困難??梢钥吹?,多云使得安全合規(guī)風險急劇放大,實施集中的安全策略管理、踐行PolicyasCode成為必須。3.軟件供應(yīng)鏈攻擊事件頻發(fā),給分布式云原生的安全帶來了嚴峻的挑戰(zhàn)從702個增加到185,572個。在分布式云為應(yīng)對挑戰(zhàn),美國和歐洲政府發(fā)布了一系列行政法規(guī)加強軟件供應(yīng)鏈安全,如《America‘sSupplyChains》,《ImprovingtheNation’sCybersecurity》等。因4.安全事件跨云,急需感知整體的安全態(tài)勢采集分析跨云的安全事件,可視化云原生基礎(chǔ)設(shè)施層和應(yīng)用層的所有威脅,通過統(tǒng)一的認證和授權(quán)機制與各大云廠商的租戶模型和授權(quán)機制解耦,屏蔽云廠商的權(quán)限管理差異。分布式云原生管理平臺可實現(xiàn)一個賬號訪問跨云的所有資源,也支持按照分布式云服務(wù)資源和集群內(nèi)的Kubernetes資源進行授權(quán)。平臺的分布式云服務(wù)資源基于IAM系統(tǒng)策略實現(xiàn)細粒度授權(quán);集群中的Kubernetes資源則是基于KubernetesRBAC授權(quán),通過RBAC權(quán)限設(shè)置可以讓不同的用戶有操作不同Kubernetes資源對象的權(quán)限。在面向大企業(yè)上云的場景下,LandingZone解決方案正逐步成為事實標準,在云上構(gòu)建安全合規(guī)、可擴展的多賬號運行環(huán)境,以滿足大企業(yè)分統(tǒng)結(jié)合(在分權(quán)分域分級管理的基礎(chǔ)上進行一定程度的統(tǒng)一管控)的IT治理訴求和嚴格的安全合規(guī)要求。分布式云原生管理平臺通過接入LandingZone解決方案,為多賬號環(huán)境實現(xiàn)集中式的用戶2.集中的策略中心和合規(guī)審計集中的策略中心使得在多個集群中定義和執(zhí)行一致的策略,統(tǒng)一資源的合規(guī)性狀態(tài)。除預(yù)置的策略外,租戶還可以自件限制容器的運行時行為;防火墻策略(FirewallPolicies)。3.保障軟件供應(yīng)鏈安全多云使得容器鏡像被篡改的風險增加,僅允許部署端到端可信的鏡像成為必然選擇。為保障鏡像可信和軟件供應(yīng)鏈安部署前校驗構(gòu)件和關(guān)聯(lián)的元數(shù)據(jù),且確保構(gòu)件是最新的;通過基礎(chǔ)設(shè)施即代碼方式減少誤配置;為應(yīng)用的行為建模,采用機器學(xué)習等技術(shù)分析代碼、數(shù)據(jù)流、運行時行為。各階段的要求需在DevSecOps流水線中代碼化,實現(xiàn)從代碼和部署運4.全局的安全態(tài)勢感知大盤全局的安全態(tài)勢感知大盤用以收集跨云的安全事件,可視化云原生基礎(chǔ)設(shè)施層和應(yīng)用層的所有威脅,并提供安全運營能力。云原生基礎(chǔ)設(shè)施層常見威脅:主機OS漏洞、K8S平臺漏洞、鏡像安全情況;應(yīng)用層常見威脅:策略管理違規(guī)項、安全配置巡檢結(jié)果、鏡像漏洞、策略準入配置、每個階段的驗證情況、異常行為檢測、容器逃逸檢測等??梢暬瘯r默認從集群維度展示威脅并引導(dǎo)租戶處置,也可下鉆到namespace或工作負載。除云原生管理平臺自身上報的威脅外,安全態(tài)分布式云原生場景下,在網(wǎng)絡(luò)層實現(xiàn)以應(yīng)用為中心的微隔離,在應(yīng)用層所有工作負載全面身份化,實現(xiàn)基于身份的訪問控制。服務(wù)網(wǎng)格是實現(xiàn)分布式云原生場景實現(xiàn)零信任模型的關(guān)鍵路徑,在應(yīng)用無感知的情況下,服務(wù)網(wǎng)格可實現(xiàn)為工作負載申請身份證書,并基于工作負載身份支持端到端的流分布式云原生典型應(yīng)用場景分布式云原生典型應(yīng)用場景隨著云計算的不斷發(fā)展,分布式云原生技術(shù)已成為云計算的重要組成部分。分布式云原生技術(shù)主要通過使用容器化、微服務(wù)架構(gòu)、自動化部署和DevOps實踐來使得云計算應(yīng)用程序具有更強的靈活性、可擴展性、高可用性和易于維護性。當前,企業(yè)有著龐大的IT基礎(chǔ)設(shè)施和大量的數(shù)據(jù),而分布式云原生技術(shù)可以幫助企業(yè)更好地處理這些挑戰(zhàn),輕松實現(xiàn)分布式云原生技術(shù)面臨著復(fù)雜性、安全性、管理和運維等挑戰(zhàn)。企業(yè)需要充分了解其現(xiàn)有IT頸,以便在實現(xiàn)分布式云原生技術(shù)應(yīng)用時,更分布式云原生技術(shù)的出現(xiàn)徹底改變了企業(yè)的應(yīng)用部署方式,不僅讓應(yīng)用程序具有更強的靈活性和可擴展性,同時能夠在當前這個變幻莫測的技術(shù)環(huán)境下,企業(yè)需要快速適應(yīng)市場變化和技術(shù)進步,而分布式云原生技術(shù)又可以在很多方面幫助企業(yè)做到這一點。例如,在跨地域多集群管理、AI/大數(shù)據(jù)分布式計算、業(yè)務(wù)跨地域容災(zāi)、云邊&邊邊協(xié)同、cloudbursting、多云Devops、統(tǒng)一成本治理等方面都有著廣泛的應(yīng)用場景,分布式云原生技術(shù)能夠幫助1II4.1跨地域多集群管理單一業(yè)務(wù)形態(tài)向分布式業(yè)務(wù)形態(tài)的轉(zhuǎn)變是企業(yè)持續(xù)發(fā)展和擴張的必然趨勢,企業(yè)通過分布式的業(yè)務(wù)部署形態(tài)可以實現(xiàn)可靠性、可擴展性、容錯性和靈活性的不斷提高。在分布式云的形態(tài)下,企業(yè)跨越多個地理區(qū)域管理多云或私有云集群,以汽車行業(yè)為例,在分布式云形態(tài)下的業(yè)務(wù)部署下圖所示,傳統(tǒng)IT穩(wěn)態(tài)業(yè)務(wù)部署在本地IDC,面向互聯(lián)網(wǎng)的敏態(tài)業(yè)務(wù)分別部署在多個公有云上,數(shù)字工廠業(yè)務(wù)部署在本地小機房汽車行業(yè)在分布式云形態(tài)下的業(yè)務(wù)部署這種復(fù)雜的部署形態(tài),催生出以下問題:從研發(fā)中心到區(qū)域管理中心到下屬工廠等多級應(yīng)用的下發(fā),缺乏針對跨集群應(yīng)用的統(tǒng)一生命周期管理能力;業(yè)務(wù)分布式部署導(dǎo)致管理入口分散,不同云廠商都有各自的管理入口和權(quán)限體系,當集群數(shù)量大且版本眾多時,管理效率低、成本高;跨地域業(yè)務(wù)集群運維難,尤其在自建IDC場景下,故障感知難度大,不同地如下圖所示,分布式云原生統(tǒng)一管控中心提供K8s集群的統(tǒng)一接入、管控和運維能力??绲赜蚨嗉汗芾斫鉀Q方案通過Kubernetes等容器編排工具來部署和管理不同集群上的應(yīng)用程序和服務(wù),屏蔽不同云平臺之間的兼容性問題,讓管理員可以通過一個統(tǒng)一的管理界面來管理所有不同2.統(tǒng)一資源視圖3.統(tǒng)一權(quán)限管理通過實現(xiàn)基于身份的訪問控制和多層次(如按照組織結(jié)構(gòu)、業(yè)務(wù)分類等)的權(quán)限控制來實現(xiàn)跨地域多集群管理的統(tǒng)一權(quán)限,建立有效的權(quán)限控制體系,確保資源的安全性和一致性,在不同地域、平臺和4.統(tǒng)一監(jiān)控運維隨著管理集群的數(shù)量增加,運維的復(fù)雜度會呈指數(shù)增長。通過建立集中式的事件和告警系統(tǒng),可以快速響應(yīng)和處理異常情況,提高跨地域多集群的運維效率和應(yīng)對能力;通過建立統(tǒng)一的監(jiān)控和性能管理系統(tǒng),對跨地域的多個集群實現(xiàn)實時及時發(fā)現(xiàn)和解決問題,提高監(jiān)控效率和運營水平,改善服務(wù)質(zhì)量,節(jié)省運維成本,同時快速應(yīng)對突發(fā)事件,確保業(yè)務(wù)系統(tǒng)4.2云邊協(xié)同AI計算在云上執(zhí)行機器學(xué)習是傳統(tǒng)而廣為人之的方法。大部分大型云平臺提供商均已提供機器學(xué)習服務(wù),支持多種機器學(xué)習云邊協(xié)同AI計算是一種典型的分布式AI計算場景。在該場景中,企業(yè)在云端進行模型的訓(xùn)練,在距離數(shù)據(jù)源較近的云邊協(xié)同AI計算整體架構(gòu)下圖所示,依托分布式云平臺,系統(tǒng)為AI應(yīng)用提供從資源、數(shù)據(jù)、AI模型框架、服務(wù)等多云邊協(xié)同AI計算解決方案在云邊協(xié)同AI計算場景中,算力資源存在多元、異構(gòu)特點。根據(jù)不同的位置,基礎(chǔ)設(shè)施資源的類型各有不同。例如:在業(yè)務(wù)現(xiàn)場,計算設(shè)備以arm或x86架構(gòu)的小型計算服務(wù)器為主,網(wǎng)絡(luò)則主要是網(wǎng)線、電纜或者無線等物理網(wǎng)路虛擬網(wǎng)絡(luò)等計算和網(wǎng)絡(luò)資源,滿足客戶的集群和池化管理訴求。分布式云系統(tǒng)為不同位置、不同類型的資源提供統(tǒng)一的分布式資源模型、管理和調(diào)度機制,能夠根據(jù)不同位置的分布式的能力、位置、業(yè)務(wù)運行狀態(tài)、資源使用情況,以及用戶的2.跨地域數(shù)據(jù)同步和共享增加緩存服務(wù),實現(xiàn)同樣的內(nèi)容只需要傳輸一次,3.智能協(xié)同終身學(xué)習等標準化分布式AI應(yīng)用控制流程,幫助企業(yè)可以快速完成AI應(yīng)用的分布式云原生改造,并4.3業(yè)務(wù)跨地域容災(zāi)傳統(tǒng)的應(yīng)用容災(zāi),一般會采用離線冷備容災(zāi)、雙活容災(zāi)、多活容災(zāi)等方式,對于大型應(yīng)用將依賴異地多活,兩地三中心的技術(shù)架構(gòu)。這種架構(gòu)能夠應(yīng)對區(qū)域級別的故障,分攤流量到各個區(qū)域,實現(xiàn)雙活加主備的能力。隨著企業(yè)規(guī)模擴張,用戶量激增,業(yè)務(wù)的容災(zāi)級別需要不斷上升。為了保障盡可能地降低業(yè)務(wù)失敗的風跨地域容災(zāi)能夠為用戶提供地域級別災(zāi)難的快速切換和恢復(fù)能力,保證用戶業(yè)務(wù)平滑過渡,將最終用戶在使用感受上的影響降到最低??绲赜虻娜轂?zāi),在用戶的數(shù)據(jù)中心建設(shè)方面有著相當高的要求,比如流量的全局管理和容災(zāi)切換、業(yè)務(wù)的快速彈性、數(shù)據(jù)的快速復(fù)制和遷移等。這些能力在分布式云場景下具備很高的集成度,對用戶而言,開箱即用的容災(zāi)能業(yè)務(wù)跨地域容災(zāi)解決方案業(yè)務(wù)的跨地域容災(zāi),首先需要將應(yīng)用進行全局管理并統(tǒng)一流量入口,將跨地域應(yīng)用作為整體看待,提供應(yīng)用、制品、每個地域的資源依賴、比重權(quán)限、周邊訴求,都是一個整體的應(yīng)用在不同環(huán)境條件下的細分。利用分布式云的聯(lián)邦管理機制,將應(yīng)用以聯(lián)邦的形式,統(tǒng)一配置,統(tǒng)一分發(fā),統(tǒng)一管理,確保所有區(qū)域下的應(yīng)用都是基于同一來源進行部署和更通過聯(lián)邦,分配應(yīng)用在每個地域下的實例數(shù)量,定義環(huán)境的差異化因素,保證應(yīng)用與所屬環(huán)境的完整配套。即使用戶2.制品的全域分發(fā)能力當跨地域的應(yīng)用通過分布式云分發(fā)時,全局唯一的制品庫將導(dǎo)致部分區(qū)域需要遠距離的大流量傳輸,這對帶寬消耗和時延影響很大,一旦故障將會影響到后續(xù)的應(yīng)用分發(fā)。利用分布式云的制品分發(fā)能力,基于應(yīng)用的部署親和策略,將應(yīng)用依賴的鏡像等制品同步到就近的制品庫,可以有效提高鏡像拉3.業(yè)務(wù)流量統(tǒng)一入口,基于策略分發(fā)分布式云通過管理應(yīng)用的生命周期,可以打通應(yīng)用的流量入口,實現(xiàn)流量與業(yè)務(wù)的實時聯(lián)動,為應(yīng)用的跨地域容災(zāi)提供了最直接的業(yè)務(wù)安全保證。在正常業(yè)務(wù)流量情況下,可以通過流量的地域親和、權(quán)重算法等策略,將業(yè)務(wù)流量分發(fā)到各當發(fā)生異常時,基于異常的作用范圍,比如實例級別,區(qū)域級別等,摘除相應(yīng)的流量后端。為了避免大流量對剩余其他后端的沖擊,對每個區(qū)域都有限流和降級機制,突增的峰值流量將被限制,保證進入的業(yè)務(wù)能正常工作。在區(qū)域的業(yè)務(wù)彈性擴容到新的地域后,將取消峰值的流量限制,4.應(yīng)用的跨云彈性和容災(zāi)遷移常態(tài)下應(yīng)用按區(qū)域劃分實例配比,實例級別的故障將會優(yōu)先在區(qū)域內(nèi)檢測和嘗試恢復(fù)。當出現(xiàn)區(qū)域級別的故障時,故障的實例將基于全局的調(diào)度策略,彈性到公有云、數(shù)據(jù)中心等其它地域中。調(diào)度策略包括整體遷移到指定地域、各地域均勻分配等。容災(zāi)恢復(fù)后,將反向執(zhí)行策略將應(yīng)用分布回歸到初始狀態(tài),反向執(zhí)行策略過程中會保證總體實例數(shù)在預(yù)設(shè)規(guī)格應(yīng)用的跨云彈性需要兼顧資源的利用率和冗余程度。一般來說還需要結(jié)合基礎(chǔ)資源的彈性伸縮,故障時快速彈性出大量資源節(jié)點,并在恢復(fù)后能夠快速清退,具備快速彈性資源能力的公有云一般更適合作為容災(zāi)遷移的備用區(qū)域,保證成本5.應(yīng)用間流量的跨云訪問當出現(xiàn)故障情況下,單一地域內(nèi)的應(yīng)用已無法滿足其它應(yīng)用的流量訪問,這就需要利用分布式云的流量治理能力,將多云6.數(shù)據(jù)的跨云訪問和異地同步用戶可以通過將業(yè)務(wù)單元化改造等方式降低數(shù)據(jù)的影響半徑,即將數(shù)據(jù)拆分到地域,應(yīng)用也只訪問地域內(nèi)的數(shù)據(jù)。同時用通過跨云跨地域的數(shù)據(jù)同步工具,實現(xiàn)數(shù)據(jù)的異地備份和快速切換,結(jié)合應(yīng)用的全局快速切換配置,確保數(shù)據(jù)故障的影響4.4分布式媒體直播加速隨著互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)的發(fā)展,誕生了諸多類型的新型媒體形態(tài),如社交媒體、短視頻和直播等。這些新興媒體形式實現(xiàn)了用戶和媒體間的雙向互動,例如Facebook和微博等,用戶可以通過發(fā)布內(nèi)容、評論、點贊和分享的形式與其他用戶進行互動。未來,隨著軟硬件演進,以及新的業(yè)務(wù)形態(tài)(如AR/VR)和概念(如元宇宙)的涌現(xiàn),媒體業(yè)務(wù)將向更實為了提升用戶的體驗,企業(yè)依托于分布式云原生平臺能力,將媒體加速應(yīng)用廣泛地部署到網(wǎng)絡(luò)邊緣,極大的降低媒體分布式媒體直播加速解決方案通過提供基于成本和體驗的調(diào)度策略,根據(jù)不同地理位置的成本差異,選擇成本更2.客戶端就近接入:提供統(tǒng)一接入入口,根據(jù)用戶位置接入網(wǎng)絡(luò)時延最低的算力,使得用戶可以就近訪問服務(wù)器,降3.云邊&邊邊協(xié)同:通過將多個邊緣節(jié)點構(gòu)成的邊緣集群,依托分布式云系統(tǒng)提供的數(shù)據(jù)共享和同步技術(shù),實現(xiàn)媒體應(yīng)用元數(shù)據(jù)的跨集群快速同步和交換,減少媒體應(yīng)用啟動時的上下文同步時間5.彈性伸縮:根據(jù)業(yè)務(wù)需求動態(tài)調(diào)整服務(wù)器的部署位置和數(shù)量,實現(xiàn)彈性伸縮,提高系統(tǒng)的擴展性和靈活性,滿足業(yè)6.簡化運維:借助容器實現(xiàn)應(yīng)用的自動化運維,包括自動化部署、自動化監(jiān)控、自動化擴容等,減少人工干預(yù)和降低運維成本。同時采用持續(xù)集成和持續(xù)部署等技術(shù),實現(xiàn)快速開4.5跨云資源快速供給傳統(tǒng)企業(yè)一般在私有數(shù)據(jù)中心或主機托管設(shè)施中購買和維護自己的基礎(chǔ)設(shè)施,例如服務(wù)器、存儲設(shè)備和網(wǎng)絡(luò)硬件。伴隨著企業(yè)業(yè)務(wù)不斷發(fā)展,本地IDC容量小、擴容周期長且維護成本高,無法滿足快速增長與變化的業(yè)務(wù)訴求,許多企業(yè)既希望繼續(xù)使用其現(xiàn)有的IDC基礎(chǔ)設(shè)施,讓核心應(yīng)用與敏感數(shù)據(jù)駐留安全域,同時又希望借助公有云實現(xiàn)資源按需靈活彈性伸縮的優(yōu)勢。基于分布式云原生提供的跨云資源快速供給(CloudBursting)解決方案可在IDC無法滿足算力需求時,可將突增的工作負載投放到外部公有云。CloudBusrtin避免因工作負載突增而導(dǎo)致業(yè)務(wù)關(guān)鍵型應(yīng)用程序跨云資源快速供給解決方案業(yè)務(wù)的跨云資源快速供給,首先需要保障用戶體驗一致性,用戶業(yè)務(wù)流程無需改造仍然使用線下IDCK8s集群作為統(tǒng)一入口以及統(tǒng)一運維管理,其次需要給用戶提供靈活的彈性策略配置。在此基礎(chǔ)上通過云上無服務(wù)器容器(ServerlessContainer)服務(wù)的按需秒級計費、極速彈性和基礎(chǔ)設(shè)施免運維的特性實現(xiàn)用戶降本增效的本質(zhì)訴求。通過分布式云原生提供的CloudBursting解決方案,可在保證原有IDCK8s集群統(tǒng)一入口的前提下,實現(xiàn)業(yè)務(wù)彈性接入云上Serverless容器業(yè)務(wù)的跨云資源快速供給,首先需要保障用戶體驗一致性,用戶業(yè)務(wù)流程無需改造仍然使用線下IDCK8s集群作為統(tǒng)一入口以及統(tǒng)一運維管理,其次需要給用戶提供靈活的彈性策略配置。在此基礎(chǔ)上通過云上無服務(wù)器容器(ServerlessContainer)服務(wù)的按需秒級計費、極速彈性和基礎(chǔ)設(shè)施免運維的特性實現(xiàn)用戶降本增效的本質(zhì)訴求。通過分布式云原生提供的CloudBursting解決方案,可在保證原有IDCK8s集群統(tǒng)一入口的前提下,實現(xiàn)業(yè)務(wù)彈性接入云上Serverless容器1.統(tǒng)一業(yè)務(wù)入口:跨云彈性供給場景下業(yè)務(wù)分布在線下IDCK8s集群與云上Serverless容器服務(wù),業(yè)務(wù)的運行環(huán)境與周邊依賴存在差異。通過分布式云原生提供的CloudBursting解決方案,可實現(xiàn)業(yè)務(wù)統(tǒng)一在IDCK8s集群,云上云下存儲類型差異轉(zhuǎn)換匹配,鏡像制品跨云同步以及業(yè)務(wù)在IDC集群2.統(tǒng)一運維管理:用戶在線下IDC中存在統(tǒng)一運維中心,管理業(yè)務(wù)的監(jiān)控、日志和告警等運維能力,跨云彈性供給場3.靈活彈性策略:用戶不同的業(yè)務(wù)種類存在不同的彈性訴求,如敏感型業(yè)務(wù)優(yōu)先使用IDC內(nèi)資源,任務(wù)型業(yè)務(wù)優(yōu)先投遞云上IDC。解決方案提供靈活的策略配置能力,可針對不同的業(yè)務(wù)類型提供不同的彈性策略以及自定義業(yè)務(wù)在云上云下4.按需彈性按量付費:用戶業(yè)務(wù)存在波峰波谷,業(yè)務(wù)波谷時可優(yōu)先使用本地資源,業(yè)務(wù)高峰時彈性上云。云上Serverless容器提供的按需使用按量付費特性可大幅降低用戶成本,避免IDC擴容機房、云上預(yù)置資源在業(yè)務(wù)波谷造成成5.極致彈性性能:跨云彈性供給與IDC直接下發(fā)業(yè)務(wù)相比存在資源開通延遲,故云上彈性業(yè)務(wù)的啟動速度至關(guān)重要。分布式云原生CloudBursting解決方案中的Serverless容器服務(wù)通過鏡像快照、網(wǎng)絡(luò)預(yù)熱和輕量虛擬化等能力可實現(xiàn)云6.基礎(chǔ)設(shè)施免運維:與線下IDC需自行維護基礎(chǔ)設(shè)施相比,云上Serverless容器服務(wù)基礎(chǔ)設(shè)施全部由云廠商負責托管運維和保障,可大幅降低人力投入和運維工作的壓力,同時提供更精確的監(jiān)控告警服務(wù)和故障恢復(fù)能力,降低用戶因基4.64.6多云DevOps為了幫助用戶提供端到端的多云應(yīng)用管理,多云應(yīng)用管理除了在多云環(huán)境上部署和運維用戶的應(yīng)用,還包括應(yīng)用代碼構(gòu)建、測試、打包、部署等全生命期應(yīng)用管理流程,即將DevOps的理念和實踐落實到多云場景中。多云環(huán)境下應(yīng)用部署環(huán)境情況差異大,各個云廠商運行的應(yīng)用運行平臺的差異,同樣的應(yīng)用在不同地域的云上目標客戶的習慣和喜好不同導(dǎo)致的版本和配置差異,不同國際地域?qū)τ谕粋€應(yīng)用的安全合規(guī)要求不同,各個云平臺都有孤立的Dev和Ops的工具和系統(tǒng)。如何解決多云環(huán)境這些現(xiàn)實問題,并且快速高效地幫助用戶交付應(yīng)用,改善最終客戶的體驗是多云平臺DevOps解決方案急需解決問題。多云DevOps解決方案1.云原生基于容器化的構(gòu)建部署簡化多云環(huán)境DevOps流程容器提供了應(yīng)用生命周期管理的環(huán)境一致性,從而消除了開發(fā)和部署的環(huán)境差異。在構(gòu)建階段基于標準環(huán)境構(gòu)建,測試和部署環(huán)節(jié)直接分發(fā)封裝了完整環(huán)境和應(yīng)用的容器鏡像。這種方式除了簡化集成、測試和部署的過程外,在多云場景下環(huán)境一致性和標準化更簡化了跨云的DevOps流程。當前主流云廠商各自的云平臺都支持容器,用戶不會受到平臺捆綁的影響,同時客觀上也方便應(yīng)用多云的統(tǒng)一部署。分布式云原生平臺內(nèi)置的DevOps能力天然提供了對多云容器平臺的管理,統(tǒng)一在多云環(huán)境上部署應(yīng)用,并進行統(tǒng)一的運2.多云DevOps簡化多云的環(huán)境配置采用多云DevOps方案可大大降低交付流程的復(fù)雜度,用戶采用多套環(huán)境共享一套DevOps流水線,并將構(gòu)建的產(chǎn)物統(tǒng)一推送至制品倉庫,然后根據(jù)應(yīng)用在多云環(huán)境的不同業(yè)務(wù)要求,通過差異化配置不同環(huán)境的部署參數(shù),將應(yīng)用發(fā)布對在多云場景下,除了基于Git倉庫對代配置渲染,動態(tài)調(diào)整應(yīng)用狀態(tài)。同時可以對配置的版本進行管理,根據(jù)需置進行統(tǒng)一的版本管理,以統(tǒng)一的方式實現(xiàn)敏捷3.基于流水線安全合規(guī)保證在多云場景中,不同云廠商處于不同的國家或區(qū)域,需要遵循當?shù)氐姆煞ㄒ?guī),對于發(fā)布的軟件的安全合規(guī)提出了更高的要求。在分布式云原生平臺提供的DevOps流水線中,將安全能力內(nèi)嵌到CI/CD,支持源代碼安全檢查,開源軟件安全檢查與合規(guī)掃描,支持Web漏洞掃描、操作系統(tǒng)漏洞掃描、資產(chǎn)及內(nèi)容合規(guī)檢測、安全配置基線檢查、弱全檢查能力。通過這些手段強化軟件供應(yīng)鏈安全,實現(xiàn)軟件4.多云環(huán)境基于流水線的部署在多云環(huán)境應(yīng)用部署過程中,通過分布式云原生平臺的DveOps流水線靈活控制不同環(huán)境的負載部署和變更過程。根據(jù)按照業(yè)務(wù)需要可以分批在不同的環(huán)境進行部署,也可以同時在多個云平臺上一起部署。在變更時可以對存在依賴的多個微服務(wù)同時變更上線,也可以根據(jù)單一變更原則只對選定環(huán)境的單個微服務(wù)進行變更,減少上線的業(yè)務(wù)風險。在這個部署過程中,配套分布式云原生平臺的內(nèi)置應(yīng)用運維監(jiān)控反饋的應(yīng)用運行情況,基于流5.基于流水線的多云灰度發(fā)布在多云環(huán)境的應(yīng)用上線時,通過流水線對接分布式云原生平臺的服務(wù)網(wǎng)格,動態(tài)控制多云環(huán)境上的業(yè)務(wù)流量。根據(jù)業(yè)務(wù)特征可以先將流量分發(fā)到灰度環(huán)境,通過網(wǎng)格的流量策略控制特定地域特征或者業(yè)務(wù)特征的用戶訪問。在灰度過程中觀察應(yīng)用的表現(xiàn),然后逐步將流量分發(fā)到其他的環(huán)境。這些初始的灰度分流規(guī)則、灰度過程中的流量切分規(guī)則都可以集中進行版本管理,并在流水線中控制實施,靈活動態(tài)地控制在6.分布式云原生環(huán)境彈性的DevOps作業(yè)執(zhí)行除了為業(yè)務(wù)提供敏捷彈性的能力外,在分布式云原生平臺上DevOps本身可以更自動化、更敏捷、彈性地運行。在集中倉庫提供代碼托管、文件在線瀏覽、代碼檢查、代碼審核等能力。DevOps相關(guān)的CICD流程的各個作業(yè)都運行在各自打包生成軟件包或容器鏡像,其中的自動化測試等作業(yè)根據(jù)需要可以在多云環(huán)境部署。在云原生平臺上靈活地在多云環(huán)境上進行構(gòu)建、測試、部署、變更等DevOps作業(yè)。分布式云原生行業(yè)最佳實踐1II5.1中國農(nóng)業(yè)銀行云原生賦能數(shù)字化轉(zhuǎn)型黨的二十大報告提出要加快建設(shè)網(wǎng)絡(luò)強國、數(shù)字中國,并對加快發(fā)展數(shù)字經(jīng)濟作出戰(zhàn)略部署。數(shù)字技術(shù)作為驅(qū)動數(shù)字經(jīng)濟發(fā)展的引擎,是支撐銀行數(shù)字化轉(zhuǎn)型的關(guān)鍵力量。云原生以及與其相關(guān)的分布式云原生作為關(guān)鍵的數(shù)字技術(shù),成為國農(nóng)業(yè)銀行自2019年啟動數(shù)字化轉(zhuǎn)型,當轉(zhuǎn)型步入深水區(qū)之后,云原生正好順應(yīng)技術(shù)演進趨勢與金融發(fā)展訴求,為農(nóng)2021年,農(nóng)業(yè)銀行已全面推進云原生建設(shè)與技術(shù)棧轉(zhuǎn)型升級,打造了穩(wěn)定、安全、高效的基礎(chǔ)設(shè)施云底座,彼時,中國信通院發(fā)布云原生能力成熟度體系,成為業(yè)內(nèi)農(nóng)業(yè)銀行于2022年通過信通院云原生能力成熟度全系列評估,技術(shù)架構(gòu)、業(yè)務(wù)應(yīng)用、架構(gòu)安全三大領(lǐng)域均達到優(yōu)秀全面性,與主流技術(shù)趨勢的一致性,又有效驗證了云原生能夠助推數(shù)字化轉(zhuǎn)型全面提速,充分發(fā)揮降本增效、敏捷響應(yīng)、為全面擁抱云原生,農(nóng)業(yè)銀行圍繞最大化利用云能力、發(fā)揮云價值為農(nóng)業(yè)銀行未來十年的金融科技創(chuàng)新打造了數(shù)字“新基數(shù)據(jù)湖的IT底座,讓云資源供給更精準、高效;二是將分布式、微服務(wù)等云原生能力沉降為標準化平臺,搭建自主可控的分布式云原生技術(shù)中臺,自研零運維、秒發(fā)布的Serverless“輕云平臺”,在同業(yè)首家通過中國信通院Serverless平臺打造金融生態(tài)云,實現(xiàn)云網(wǎng)融合、云數(shù)融合、云智融合形成“四橫一縱”的縱深安全防護體系;建成業(yè)內(nèi)首個SaaS化租戶模式與攻擊模擬閉環(huán)驗證的安全運營中心(SOC)。在研發(fā)能力方面,打造一站式DevOps平臺,形成四大交付基礎(chǔ)設(shè)施和九種DevOps流水線,建成全流程敏捷的端到端研發(fā)工藝與研發(fā)體系,實現(xiàn)400余個全行級應(yīng)用接入,關(guān)鍵金融產(chǎn)品具備每天更新發(fā)布能力。在運營能力方面,打造一體化生產(chǎn)運維平臺,實現(xiàn)監(jiān)控、管理、操作、配置、分析五位一體,應(yīng)用部署自動化率超95%,實現(xiàn)全鏈路、全流程、全領(lǐng)域運維的可感可知、可管可控、可計可析。在數(shù)據(jù)服務(wù)方面,圍繞數(shù)據(jù)“采、建、管、用”四個關(guān)鍵環(huán)節(jié),推進云原生與大數(shù)據(jù)融合應(yīng)用的生態(tài)體系,助力構(gòu)建數(shù)據(jù)友好型系統(tǒng),真正讓數(shù)據(jù)上收、服圍繞“上云、用數(shù)、賦智”,農(nóng)業(yè)銀行的云原生體系不僅是單純地驅(qū)動業(yè)務(wù)快速創(chuàng)新,更為金融客戶、渠道、產(chǎn)品、為更高效地創(chuàng)造業(yè)務(wù)價值而部署云能力、發(fā)展能一是云原生保障極致穩(wěn)健的業(yè)務(wù)連續(xù)性。農(nóng)業(yè)銀行建構(gòu)了貫穿“多地、多活、云端”的分布式云高可用架構(gòu),保障業(yè)務(wù)全天候、全場景“不停機”“不斷連”。以彈性云資源池、服務(wù)治理和限流熔斷降級等云原生能力支撐分布式核心、掌銀等關(guān)鍵業(yè)務(wù)系統(tǒng),保障線上營銷、紀念幣預(yù)約等海量交易場景的穩(wěn)健運行。當前,農(nóng)業(yè)銀行應(yīng)用容器化率超80%,基于二是云原生支撐用數(shù)賦智的數(shù)據(jù)服務(wù)體系。圍繞云原生與大數(shù)據(jù)、人工智能融合,農(nóng)業(yè)銀行正加速建設(shè)存算分離、湖倉一體、流批一體的云原生數(shù)據(jù)湖。打造集團數(shù)據(jù)服務(wù)云,為各領(lǐng)域業(yè)務(wù)提供一站式專屬數(shù)據(jù)服務(wù)。截至目前,農(nóng)業(yè)銀行數(shù)據(jù)湖總量達19PB。農(nóng)業(yè)銀行以海量數(shù)據(jù)資產(chǎn)為基礎(chǔ),將“數(shù)據(jù)友好型”理念融入產(chǎn)品創(chuàng)新與系統(tǒng)建設(shè)中,以云原生推三是云原生打造規(guī)模創(chuàng)新的產(chǎn)品研發(fā)平臺。農(nóng)業(yè)銀行著力打造輕量化、全托管、全流程的應(yīng)用研發(fā)云平臺,讓應(yīng)用只需專注業(yè)務(wù)邏輯,將云能力下沉到平臺,實現(xiàn)參數(shù)配置與輕量開發(fā)的產(chǎn)品創(chuàng)新。通過業(yè)務(wù)組件函數(shù)化,實現(xiàn)資源一次性裝四是分布式云原生助力敏捷響應(yīng)的業(yè)務(wù)快速交付。為滿足產(chǎn)品創(chuàng)新、經(jīng)營優(yōu)化、流程再造等多樣化的交付場景,農(nóng)業(yè)銀行正在建設(shè)融合DevOps、DataOps、MLOps的一體化交付流水線,一站式滿足應(yīng)用研發(fā)、數(shù)據(jù)研發(fā)、模型研發(fā)等多維業(yè)務(wù)創(chuàng)新模式,具備快速迭代的敏捷創(chuàng)新能力。例如,2022年,農(nóng)業(yè)銀行掌銀打造“版本列車”交付模式,每周可多頻次上線發(fā)布新產(chǎn)品、新功能,帶動個人掌銀月活躍用戶人數(shù)(M數(shù)字經(jīng)濟與數(shù)字化轉(zhuǎn)型發(fā)展帶來了新機遇與新變革,農(nóng)業(yè)銀行將牢牢把握“調(diào)整生產(chǎn)關(guān)系去適應(yīng)新的生產(chǎn)力”這一根本原則。面向數(shù)字化轉(zhuǎn)型2.0,從業(yè)務(wù)數(shù)據(jù)化走向數(shù)據(jù)業(yè)務(wù)化,農(nóng)業(yè)銀行分布式云原生建設(shè)將不僅加快數(shù)字化轉(zhuǎn)型進程,更111I5.2中國鐵塔基于分布式云原生實現(xiàn)分布式站點統(tǒng)一管理隨著移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能等技術(shù)迅速發(fā)展,傳統(tǒng)通信運營商紛紛在創(chuàng)新的浪潮中激流勇進,結(jié)合服務(wù)環(huán)保、國土、林草、應(yīng)急、地震,以及鐵路、電網(wǎng)、油氣管網(wǎng)、衛(wèi)星導(dǎo)航等重點領(lǐng)域,發(fā)展形成了全國最大的鐵塔共鐵塔視聯(lián)平臺整體架構(gòu)隨著鐵塔視聯(lián)平臺業(yè)務(wù)規(guī)模的增長以及多級部署模式展開,需要在各地域建設(shè)本地化站點,每個本地化站點建設(shè)Kubernetes集群。這些集群支撐著鐵塔視聯(lián)平臺的關(guān)鍵云原生業(yè)務(wù)系統(tǒng),如物聯(lián)網(wǎng)(IoT)平臺、大數(shù)據(jù)分析平臺、視頻多集群故障感知難度大:大量的下沉站點難以部署有效監(jiān)控工具、打通監(jiān)控通道以及建立高效的監(jiān)控運維管理平臺,分散在各個站點的中間件管理和部署復(fù)雜:不同集群的云原生中間件等開源組件管理需要執(zhí)行嚴格的流程與手工部署資源利用率不高:本地計算資源特別是負責AI推理的GPU資源共享與隔離實現(xiàn)困難,難以提高GPU的利用率。為解決這一系列挑戰(zhàn),鐵塔視聯(lián)平臺決心建設(shè)一套能夠?qū)崿F(xiàn)分中國鐵塔視聯(lián)平臺與華為云UCS產(chǎn)品團隊一起緊密合作,結(jié)合行業(yè)市場調(diào)研和技術(shù)研究,共同探索適用于分布式智能鐵塔視聯(lián)平臺多級部署架構(gòu)多級部署模式:為提供低時延、跨地域的優(yōu)質(zhì)服務(wù),鐵塔視聯(lián)平臺采用“一級架構(gòu)、多級部署”模式,支持各類業(yè)務(wù)系統(tǒng)的運行,形成覆蓋中心云(公有云)、下沉節(jié)點(本地IDC)、邊緣設(shè)備、物聯(lián)網(wǎng)設(shè)備在內(nèi)的“云邊端”綜合性技術(shù)鐵塔視聯(lián)平臺分布式云原生平臺統(tǒng)一集群管理:通過結(jié)合UCS多集群納管能力,鐵塔視聯(lián)平臺把全國各地下沉節(jié)點的集群接入UCS進行統(tǒng)一中心化管理,每個集群所在的數(shù)據(jù)中心站點通過VPN與中心公有云區(qū)域打通網(wǎng)絡(luò)連接進行接入,通過對集群進行邏輯分組管理實用戶就近訪問。通過GitOps的大規(guī)模應(yīng)用的持續(xù)部署有效性的提升部署效率同時保障應(yīng)用管理代碼化可審計。同時支持跨云遷移和管理,應(yīng)用可在不同的云環(huán)境之間輕松遷統(tǒng)一流量治理:通過DNS與負載均衡實現(xiàn)雙活高可用訪問,東西向利用多集群的服務(wù)網(wǎng)格基礎(chǔ)設(shè)施,負載均衡、故障倒換、流量切分、灰度發(fā)布、動態(tài)路由等流量全域集群運維統(tǒng)一視圖,全域集群智能巡檢,自動化實現(xiàn)集群健康守護,容器故障診斷,問題快架構(gòu)上聯(lián)合打造云服務(wù)本地下沉新場景新模式,基于UCS本地集群能力實現(xiàn)安全穩(wěn)定的本地容器集群托管,能夠支持異構(gòu)基礎(chǔ)設(shè)施,通過GPU虛擬化技術(shù),提升GPU隔離與共享能力,有效利用IDC已有資源,同時支持本地數(shù)據(jù)中心按需彈性上云,有效降本,并且云上云下一致體驗鐵塔視聯(lián)平臺云邊協(xié)同架構(gòu)云邊協(xié)同:視聯(lián)平臺智能邊緣子平臺,提供邊云協(xié)同能力,設(shè)備、應(yīng)用的統(tǒng)一管理和運維能力邊緣主要有兩大業(yè)務(wù),視頻推理:算法下發(fā)到邊緣后,運行在KubernetesPod內(nèi)。視頻存儲:視頻數(shù)據(jù)在邊緣被處理后,部分視頻回傳到云端基于分布式云原生建設(shè)的分布式站點統(tǒng)一管理平臺,鐵塔視聯(lián)平臺簡化了分布式云場景下多集群管理復(fù)雜性,高效管理與維護眾多下沉站點,實現(xiàn)算力、算法、應(yīng)用統(tǒng)一管理、統(tǒng)一監(jiān)控,提高了運維效率,降低了成本,加速了業(yè)務(wù)創(chuàng)新,保障了業(yè)務(wù)穩(wěn)定性,為未來的發(fā)展奠定了堅實基礎(chǔ)。展望未來,鐵塔視聯(lián)平臺將繼續(xù)致力打造更智能、高效的分布式云原1II5.3美的基于分布式云原生構(gòu)筑全球智慧樓宇iBUILDING平臺美的集團作為國內(nèi)領(lǐng)先的智能制造企業(yè),緊跟科技發(fā)展趨勢,將分布式云原生技術(shù)應(yīng)用于樓宇科技的研發(fā)與創(chuàng)新,為客戶美的樓宇科技的前身是美的中央空調(diào),隨著業(yè)務(wù)拓展,由單一暖通產(chǎn)品供應(yīng)商轉(zhuǎn)型為樓宇建筑整體解決方案供應(yīng)商。美的智慧空間愿景美的智慧空間業(yè)務(wù)概覽在全球可持續(xù)化智慧空間的背景下,美的也面臨巨大挑戰(zhàn)。首先,由于美的設(shè)備暢銷全球,面對海量的全球智能化設(shè)備,需要在全球部署云服務(wù)。其次,在落地智慧空間解決方案時,有大量客戶場景需要提供私有化解決方案,然而客戶的數(shù)據(jù)要私有化,通用能力往往又要公有化以減少私有化的運維成本。同時在智慧空間
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 居間合同2025年度版:定義、屬性與服務(wù)質(zhì)量評估體系3篇
- 二零二五年度能源項目權(quán)益轉(zhuǎn)讓與投資合同3篇
- 二零二五年軟件開發(fā)服務(wù)合同4篇
- 二零二五版智能LED戶外廣告平臺合作項目合同3篇
- 影視器材租賃與技術(shù)服務(wù)2025年度合同3篇
- 二零二五年度房地產(chǎn)開發(fā)項目造價咨詢合同6篇
- 二零二五版搬家運輸合同:搬家運輸途中物品丟失賠償3篇
- 二零二五版海鮮加盟店日常運營管理與維護服務(wù)合同范本2篇
- 二零二五年度車輛轉(zhuǎn)讓附帶綠色出行獎勵政策合同3篇
- 二零二五年度智能辦公桌椅研發(fā)合作合同2篇
- 一年級語文雨點兒-教學(xué)課件【希沃白板初階培訓(xùn)結(jié)營大作業(yè)】
- 替格瑞洛藥物作用機制、不良反應(yīng)機制、與氯吡格雷區(qū)別和合理使用
- 河北省大學(xué)生調(diào)研河北社會調(diào)查活動項目申請書
- GB/T 20920-2007電子水平儀
- 如何提高教師的課程領(lǐng)導(dǎo)力
- 企業(yè)人員組織結(jié)構(gòu)圖
- 日本疾病診斷分組(DPC)定額支付方式課件
- 兩段焙燒除砷技術(shù)簡介 - 文字版(1)(2)課件
- 實習證明模板免費下載【8篇】
- 復(fù)旦大學(xué)用經(jīng)濟學(xué)智慧解讀中國課件03用大歷史觀看中國社會轉(zhuǎn)型
- 案件受理登記表模版
評論
0/150
提交評論