版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、 銀行核心高端存儲的國產(chǎn)化技術(shù)應(yīng)用 目 錄 TOC o 1-3 h z u HYPERLINK l _Toc66544700 銀行核心高端存儲的國產(chǎn)化技術(shù)應(yīng)用 PAGEREF _Toc66544700 h 1 HYPERLINK l _Toc66544701 1.概述 PAGEREF _Toc66544701 h 3 HYPERLINK l _Toc66544702 1.1 項目背景 PAGEREF _Toc66544702 h 3 HYPERLINK l _Toc66544703 1.2 建設(shè)目標 PAGEREF _Toc66544703 h 3 HYPERLINK l _Toc665447
2、04 2. 方案規(guī)劃設(shè)計 PAGEREF _Toc66544704 h 4 HYPERLINK l _Toc66544705 2.1. 原系統(tǒng)架構(gòu) PAGEREF _Toc66544705 h 4 HYPERLINK l _Toc66544706 2.2 國產(chǎn)存儲方案總體設(shè)計 PAGEREF _Toc66544706 h 6 HYPERLINK l _Toc66544707 2.2.1 國產(chǎn)存儲可靠性介紹 PAGEREF _Toc66544707 h 6 HYPERLINK l _Toc66544708 2.2.2解決方案規(guī)劃設(shè)計 PAGEREF _Toc66544708 h 7 HYPERL
3、INK l _Toc66544709 2.2.2 國產(chǎn)存儲實際使用性能介紹 PAGEREF _Toc66544709 h 8 HYPERLINK l _Toc66544710 2.2.3 兩套存儲間的對比 PAGEREF _Toc66544710 h 10 HYPERLINK l _Toc66544711 3. 關(guān)鍵問題與使用經(jīng)驗 PAGEREF _Toc66544711 h 11 HYPERLINK l _Toc66544712 3.1. 運維經(jīng)驗分享 PAGEREF _Toc66544712 h 11 HYPERLINK l _Toc66544713 3.2 同城雙活中心間鏈路抖動問題 P
4、AGEREF _Toc66544713 h 11 HYPERLINK l _Toc66544714 3.3 異構(gòu)存儲接管能力 PAGEREF _Toc66544714 h 12 HYPERLINK l _Toc66544715 4. 總結(jié) PAGEREF _Toc66544715 h 13【導讀】本文分享了某銀行在生產(chǎn)環(huán)境中引入國產(chǎn)高端存儲設(shè)備作為二級核心存儲的實踐,包括方案規(guī)劃設(shè)計、實施運維中的關(guān)鍵問題和解決經(jīng)驗,值得金融行業(yè)同行參考借鑒。1.概述隨著金融業(yè)務(wù)開放創(chuàng)新的深化發(fā)展,金融科技在經(jīng)歷了電子化、網(wǎng)絡(luò)化后,逐步邁入數(shù)字化、智能化的新階段。在金融全面數(shù)字化、智能化時代,金融IT基礎(chǔ)設(shè)施的
5、科技改革,不僅僅聚焦于金融云、大數(shù)據(jù)、AI等熱點的投入,同時核心賬務(wù)聯(lián)機交易業(yè)務(wù)等傳統(tǒng)生產(chǎn)系統(tǒng)的基礎(chǔ)設(shè)施也在新形勢下需要進行不斷擴展與優(yōu)化。1.1 項目背景自2013年我行核心系統(tǒng)基礎(chǔ)設(shè)施全面升級以來,直至2017年各類業(yè)務(wù)系統(tǒng)的上線、擴容以及應(yīng)用系統(tǒng)分布式的改造,對基礎(chǔ)設(shè)施造成的壓力與日俱增,核心存儲在經(jīng)歷4次擴容后,已經(jīng)達到當時的滿配,其性能也已經(jīng)呈現(xiàn)疲態(tài),特別是在晚間跑批時的IO峰值已經(jīng)接近設(shè)計峰值的一半,響應(yīng)延遲時間遠遠高于設(shè)計值,如若采取繼續(xù)擴容磁盤柜的形式擴充數(shù)據(jù)中心容量,勢必對原有系統(tǒng)造成不穩(wěn)定因素,擴容成本也更加高昂。另外,長期以來存儲的建設(shè)缺乏統(tǒng)籌規(guī)劃,形成了多座以兩臺光纖交
6、換的SAN環(huán)境為基本單位的存儲孤島,不利于我行即將開展的數(shù)據(jù)中心遷移工作,同時考慮到自主可控政策的主張,結(jié)合國產(chǎn)存儲在市場上的占有率呈上升趨勢,為解決上述問題,計劃在生產(chǎn)環(huán)境中引入國產(chǎn)高端存儲設(shè)備作為二級核心存儲,解決原核心存儲容量不夠、性能降低,且不利于數(shù)據(jù)中心遷移的局面。1.2 建設(shè)目標SAN環(huán)境需要進行擴容與接入;核心設(shè)備向自主可控方向發(fā)展;二級存儲接入生產(chǎn)環(huán)境;平滑遷移數(shù)據(jù)至二級存儲,降低核心存儲的容量壓力與性能壓力;為新數(shù)據(jù)中心數(shù)據(jù)遷移做好準備。2. 方案規(guī)劃設(shè)計2.1. 原系統(tǒng)架構(gòu)原“兩地三中心”容災(zāi)模式基于存儲數(shù)據(jù)復制技術(shù)完成容災(zāi)需求,部署方式為兩個同城應(yīng)用級數(shù)據(jù)中心,一個異地應(yīng)
7、用級異地容災(zāi)數(shù)據(jù)中心。我行三座數(shù)據(jù)中心建設(shè)情況如下:1. 現(xiàn)有生產(chǎn)中心位于總行辦公樓;2. 同城數(shù)據(jù)中心與總部數(shù)據(jù)中心距離約20公里;3. 畢節(jié)數(shù)據(jù)中心與總部數(shù)據(jù)中心的距離大約200公里。該存儲在2012年至2019年,支撐我行所有兩地三中心業(yè)務(wù),包括:次序A類B類C類1核心業(yè)務(wù)系統(tǒng)SOP網(wǎng)上銀行財務(wù)系統(tǒng)2核心前置A電話銀行信貸系統(tǒng)3核心前置B支付密碼系統(tǒng)微貸系統(tǒng)4核心前置C興業(yè)柜面通1104系統(tǒng)5會計集中處理業(yè)務(wù)系統(tǒng)城商行柜面通反洗錢6二代支付系統(tǒng)電子驗印個人征信7手機銀行聯(lián)網(wǎng)核查系統(tǒng)企業(yè)征信8自助終端前置代理第三方存管9網(wǎng)聯(lián)系統(tǒng)社保前置10電子商業(yè)匯票11省、市非稅12國際結(jié)算上述架構(gòu)設(shè)計
8、完全能夠滿足監(jiān)管部門的業(yè)務(wù)災(zāi)難恢復要求。按照業(yè)務(wù)功能的恢復優(yōu)先級來確定IT系統(tǒng)的恢復策略:A類,立即恢復,同城RPO=0/RTO1小時,異地RPO15分鐘/RTO2小時;B類,盡快恢復,同城RPO=0/RTO2小時,異地RPO15分鐘/RTO4小時;C類,延遲恢復,同城RPO=0/RTO數(shù)據(jù)級,異地RPO15分鐘/RTO數(shù)據(jù)級。2.1.1 原存儲系統(tǒng)簡介我行vmax 20K配備一個引擎,包括兩個控制器,其配置4個四核2.33GHz 英特爾至強處理器、256GB內(nèi)存,16個前端光纖通道,8個SRDF連接通道,兩個管理模塊等,以上組件均支持熱更換,DAE通過備用電源進行掉電保護,為充分發(fā)揮核心存性
9、能使用raid1作為數(shù)據(jù)保護策略;依據(jù)此配置,其IOPS性能應(yīng)該在5-8萬左右,響應(yīng)時間3-5ms。在實際使用中,生產(chǎn)中心存儲陣列承載了30多個我行的重要業(yè)務(wù)系統(tǒng),性能從表現(xiàn)總體上看,IOPS峰值達到了28000,吞吐率達到了2000MBps,IOPS平均延遲5.79ms,在高峰時段相較其它磁盤的熱點盤,寫響應(yīng)時間峰值達到了50ms,寫緩存命中率81-87%,讀緩存命中率此時0.75-12.22%,讀寫繁忙峰值每秒50Mb左右,存儲IO響應(yīng)最大延遲在35ms 左右,存儲整體以讀為主,其中讀平均占比60.3%,最大占比92.9%,寫數(shù)據(jù)塊平均大小13K,讀數(shù)據(jù)塊平均大小129K,與其承載多為數(shù)據(jù)
10、庫類應(yīng)用的情況相符。從IO響應(yīng)時間和IOPS的實際使用情況綜合來看,該存儲性能已經(jīng)呈現(xiàn)下降趨勢。判斷依據(jù)是隨著系統(tǒng)實際IOPS越接近設(shè)計的最大值,IO的響應(yīng)時間會成非線性的增長,越是接近最大值,響應(yīng)時間就變得越大,而且會比預期超出很多。一般來說在實際的應(yīng)用中有一個70%的指導值,也就是說在IO讀寫的隊列中,當隊列大小小于最大IOPS的70%的時候,IO的響應(yīng)時間增加會很小,在應(yīng)用端相對來說比較能接受,一旦超過70%,響應(yīng)時間就會戲劇性的暴增,所以當一個系統(tǒng)的IO壓力超出最大可承受壓力的70%的時候就是必須要考慮調(diào)整或升級了。在運維方面,日常監(jiān)控依靠自行開發(fā)的腳本在存儲管理機上進行監(jiān)控,包括磁盤
11、、控制器、端口、cache、電池等基礎(chǔ)組件的狀態(tài),以及數(shù)據(jù)傳輸狀態(tài),主備切換完全依靠腳本完成,具備很好的操作性,在運維過程中控制感較強。切換演練方面,自從該存儲上線以來,我行每年依賴該存儲架構(gòu)對重要信息系統(tǒng)進行同城災(zāi)備系統(tǒng)演練2至3次,每次演練都會嚴格在數(shù)據(jù)庫層面與業(yè)務(wù)層面進行數(shù)據(jù)比對,每次比對結(jié)果都完全一致,可以有效說明存儲的數(shù)據(jù)復制功能的可靠性。2.2 國產(chǎn)存儲方案總體設(shè)計2.2.1 國產(chǎn)存儲可靠性介紹華為OceanStor 18500存儲系統(tǒng)同一引擎框內(nèi)的4個控制器通過高可靠無源背板互連,當一個控制器故障時,其承載的業(yè)務(wù)快速切換到鏡像控制器,其鏡像控制器的寫緩存重新鏡像到新控制器(同一個
12、控制框內(nèi)),整個過程可在10秒鐘到10分鐘之間內(nèi)完成。如下圖所示,每個引擎包含4個控制器,每個控制器都有寫緩存(圖中小方框),為了保證控制器故障時緩存數(shù)據(jù)不丟失,每個控制器的緩存都在另外一個控制器有一份鏡像,默認情況下A、B控相互鏡像,C、D控相互鏡像;當有控制器發(fā)生故障時,剩余的控制器重新建立鏡像關(guān)系,4個控制器中依次故障或拔出13個控制器,緩存數(shù)據(jù)不會丟失,客戶業(yè)務(wù)不會中斷,但在實際使用中4壞3的高可用性受業(yè)務(wù)負載大小的影響。圖1-14個控制器正常時鏡像關(guān)系一個控制器故障時,如控制器A故障,首先B控會接管A控的業(yè)務(wù),然后B控上的緩存(包括原來A控的緩存),會分別重新鏡像到控制器C和D上(鏡
13、像到哪個控制器由軟件算法自動選擇),確保所有控制器的緩存仍然有鏡像。如下圖所示。圖2-22個控制器故障后鏡像關(guān)系如上述原理,當控制器B再故障時,B上原屬A和B的業(yè)務(wù)會分別被控制器C或D接管,且分別將緩存鏡像至另一個控制器。后端全互連華為OceanStor存儲系統(tǒng)創(chuàng)新的推出12端口的后端共享SAS接口模塊(標配2張該接口模塊),每塊硬盤的兩個SAS端口通過硬盤框的級聯(lián)模塊分別連接到兩張接口模塊,當其中一張接口模塊故障,控制器仍然可以通過另外一張接口模塊連接到硬盤,不再需要通過另外的控制器連接硬盤,可節(jié)省大量的控制器資源及控制器間數(shù)據(jù)傳輸帶寬?;谝陨蟽煞N新技術(shù),在單控制器可以支撐所有業(yè)務(wù)負荷的情
14、況下,即使出現(xiàn)3個控制器或任意一張SAS接口模塊故障,仍然可以保證業(yè)務(wù)不中斷。其它可靠性介紹除上述在運維過程中經(jīng)常會遇到控制器冗余性外,還有磁盤、電源模塊、掉電保護以及其它部件的冗余都與主流存儲冗余方式一致,至于華為一直提到的RAID2.0,就從本人觀點來看,可能在其本身算法上有一定的優(yōu)化。這里僅將原理圖貼出來,不再做過多的贅述。2.2.2解決方案規(guī)劃設(shè)計從我行當下的存儲真實使用情況上分析,在夜間批量任務(wù)期間核心存儲存在IO性能峰值較高的情況,為保證國產(chǎn)存儲能夠順利接管關(guān)鍵業(yè)務(wù)的數(shù)據(jù),通過市場調(diào)研和真實測試,我們著重關(guān)注了國產(chǎn)存儲在的穩(wěn)定性,性能指標以及在數(shù)據(jù)遷移方面的一些新功能。2017年在
15、當時還未曾有大量金融行業(yè)實際投產(chǎn)案例的情況下,我行基于功能特性需求以及在生產(chǎn)環(huán)境使用華為其它存儲所積累的經(jīng)驗,選定華為OceanStor品牌高端存儲作為我行生產(chǎn)環(huán)境中二級核心存儲。采用2套18500存儲部署在同城兩中心,實現(xiàn)同城數(shù)據(jù)復制傳輸,保障生產(chǎn)業(yè)務(wù)可用性,并擬定當時的規(guī)劃原則:1.針對具備雙活架構(gòu)的應(yīng)用系統(tǒng)需要繼續(xù)在原存儲上最小化部署其余系統(tǒng);2.兩套存儲廠商的多路徑軟件僅在虛擬化服務(wù)器上共用,禁止在數(shù)據(jù)庫服務(wù)器或者操作系統(tǒng)上共用。2.2.2 國產(chǎn)存儲實際使用性能介紹以我行近一年的存儲性能日志分析可見國產(chǎn)高端存儲在我行的實際使用情況非常穩(wěn)定,控制器性能表現(xiàn)良好,前端端口上業(yè)務(wù)負載均衡,未
16、見明顯的性能瓶頸。具體的性能數(shù)據(jù)如下:2.2.2.1負載情況控制器的總IOPS(IO/s)的峰值為17602/s,平均CPU利用率(%)的平均值為6.72%,峰值為39.00%,塊帶寬(MB/s)的平均值為83.53MB/s,峰值為1096.00MB/s,0.B部分時段負載壓力稍大。主機的總IOPS(IO/s)的峰值為24870/s,塊帶寬(MB/s)的平均值為8.27MB/s,峰值為749.00MB/s,主機host-25部分時段負載壓力較大。硬盤的利用率(%)的峰值為85.00%,DAE002.11、DAE002.7、DAE002.14、DAE001.17、DAE001.1、DAE000.
17、16部分時段負載壓力稍大。時延情況:控制器的平均寫I/O響應(yīng)時間(ms)的峰值為8.00ms,平均讀I/O響應(yīng)時間(ms)的平均值為1.15ms,峰值為16.00ms,所有控制器時延正常。主機的平均寫I/O響應(yīng)時間(ms)的峰值為28.00ms,平均讀I/O響應(yīng)時間(ms)的平均值為0.96ms,峰值為444.00ms,host-36、host-4、host-42、host-40、host-29部分時段時延較高。關(guān)鍵資源負載概覽表表2關(guān)鍵資源時延概覽表2.2.3 兩套存儲間的對比兩套存儲基于遠程復制技術(shù)自2017年共用至今,均表現(xiàn)得較為平穩(wěn),特別是易損件的故障率都相對較低,為我們生產(chǎn)系統(tǒng)提供了
18、可靠的穩(wěn)定環(huán)境,為核心主存儲的性能減負起到關(guān)鍵性作用。對比華為存儲與EMC存儲部分功能特點:1.EMC長期使用CLI操作,有利于運維自動化,華為OceanStor 18500存儲不僅支持圖形化界面,也具備CLI模式,但華為官方不推薦用戶使用CLI,更推薦使用GUI模式,對于我個人而言還是更喜歡且習慣CLI;2.后端SAS接口帶寬方面,EMC VMAX存儲后端SAS接口的協(xié)議版本是SAS2.0帶寬低(僅VMAX 250F升級為SAS3.0),華為OceanStor 18500使用的是SAS3.0,不過兩臺存儲也可以算作是不同時期的產(chǎn)品了,這也算是正常的差別;3.EMC的卷管理是封閉的,用戶最多能
19、看到storage container,具體的虛擬機對應(yīng)的lun用戶是看不到的。華為vvol卷的管理是開放的,用戶可以在Device Manager上看到每個虛擬機創(chuàng)建的vvol lun,但用戶是不可操作這些lun的,只能通過vcenter對虛擬機進行操作;4.華為高中低端存儲復制都是源于同樣的華為自研遠程復制技術(shù),無需特定設(shè)備作為網(wǎng)關(guān),即可實現(xiàn)不同型號存儲的復制容災(zāi)功能;EMC的不同存儲VMAX、Unity、XtremIO的底層架構(gòu)完全不同,不能實現(xiàn)存儲復制,需增加網(wǎng)關(guān)VPLEX才可以實現(xiàn),華為存儲的新功能彌補了VMAX的不足之處;5.華為高端存儲配置支持SAN+NAS一體化雙活,VMAX不
20、支持SAN+NAS雙活??偨Y(jié)對比兩家存儲的使用經(jīng)驗,除存在一些功能特性的差別外,我認為更重要的是國產(chǎn)存儲的進步確實取得了傲人的成績。3. 關(guān)鍵問題與使用經(jīng)驗3.1. 運維經(jīng)驗分享3.1.1 磁盤數(shù)量最佳實踐經(jīng)驗我行同城兩中心的華為高端存儲歷經(jīng)2次擴容,生產(chǎn)實踐經(jīng)驗結(jié)合華為工程師給出的性能數(shù)據(jù)發(fā)現(xiàn)當存儲硬盤域中物理磁盤的數(shù)量介于48-96塊之間時可以取得較好的并發(fā)性能同時又擁有較高的磁盤冗余度;3.1.2 存儲空間配置優(yōu)化為了保證存儲空間配置持久化管理,通常情況下,存儲會預留10%-20%的硬盤不添加到硬盤域中,當需要緊急擴容DD或者臨時增加新的DD的時候可以用來應(yīng)急,以不變應(yīng)萬變。同時存儲在空
21、間使用中一般計劃預留20%的空間用于數(shù)據(jù)保護。例如存儲池劃分完畢為100TB可用空間則用到80%(80TB)后就要考慮進行擴容。3.1.3 存儲命名統(tǒng)一規(guī)范存儲運維與使用中應(yīng)使用統(tǒng)一規(guī)范的命名方式,如存儲設(shè)備統(tǒng)一命名規(guī)則“數(shù)據(jù)中心-型號-用途”,命名規(guī)則統(tǒng)一便于管理且對接第三方平臺產(chǎn)品方便,不會因字體庫問題導致納管失敗,同時在數(shù)據(jù)中心有多套存儲設(shè)備時也便于管理維護。3.2 同城雙活中心間鏈路抖動問題我行同城數(shù)據(jù)中心之間使用運營商提供的裸光纖線路與華為DWDM設(shè)備進行數(shù)據(jù)交換與聯(lián)通,運營商提供的線路因市政施工、基建工程或自有設(shè)備與機房故障等問題,不可避免的發(fā)生鏈路抖動的情況。華為存儲提供同步或異
22、步的數(shù)據(jù)復制技術(shù)在較早版本中出于維持復制鏈路穩(wěn)定性的原因,設(shè)定當鏈路質(zhì)量過低或抖動時會強制斷開復制鏈路,并且需要對存儲物理端口或交換機物理端口進行重啟。這種模式雖然一定程度上保障了復制鏈路的穩(wěn)定性,避免因鏈路抖動造成同步復制場景下數(shù)據(jù)寫入異常的情況,但是恢復方法過于“簡單粗暴”。在后續(xù)的大版本補丁升級中已修復該問題,添加了手動恢復鏈路的功能。3.3 異構(gòu)存儲接管能力隨著我行業(yè)務(wù)系統(tǒng)不斷增加,往年采購的存儲設(shè)備的使用年限較長、容量不足、性能存在一定瓶頸,我行的數(shù)據(jù)中心存在數(shù)臺不同品牌的存量存儲設(shè)備,包括EMC、IBM、HP等。從保障銀行生產(chǎn)業(yè)務(wù)穩(wěn)定的角度來看,在切換到新陣列的過程中如何保證業(yè)務(wù)的連續(xù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度智能化環(huán)境監(jiān)測服務(wù)合同書
- 2025年度空調(diào)設(shè)備節(jié)能技術(shù)研發(fā)與應(yīng)用合同范本
- 2025年度新能源汽車充電樁建設(shè)項目合作及共同出資設(shè)立新公司合同
- 2025年度智能城市項目合同終止條件及違約責任約定
- 電力安全知識在辦公環(huán)境中的普及與應(yīng)用
- 七年級數(shù)學上冊第5課時有理數(shù)大小的比較聽評課記錄新湘教版
- 魯教版地理七年級下冊第十一章《中國在世界中》聽課評課記錄3
- 蘇科版數(shù)學七年級下冊8.3.3《同底數(shù)冪的除法》聽評課記錄
- 現(xiàn)代辦公空間中的綠色設(shè)計與低碳生活
- 現(xiàn)代人如何利用社交媒體促進健康交流
- 中國氫內(nèi)燃機行業(yè)發(fā)展環(huán)境、市場運行格局及前景研究報告-智研咨詢(2024版)
- 《自然保護區(qū)劃分》課件
- 2025年普通卷釘項目可行性研究報告
- 2024年湖南高速鐵路職業(yè)技術(shù)學院高職單招數(shù)學歷年參考題庫含答案解析
- 上海鐵路局招聘筆試沖刺題2025
- 2025年建筑施工春節(jié)節(jié)后復工復產(chǎn)工作專項方案
- 學校食堂餐廳管理者食堂安全考試題附答案
- 《商用車預見性巡航系統(tǒng)技術(shù)規(guī)范》
- 國旗班指揮刀訓練動作要領(lǐng)
- 春季安全開學第一課
- 植物芳香油的提取 植物有效成分的提取教學課件
評論
0/150
提交評論