



版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、 DOCPROPERTY PartNumber DOCPROPERTY Product&Project Name iMaster NCE-WAN DOCPROPERTY DocumentName 可靠性技術白皮書目 錄 TOC h z t 標題 1,1,標題 2,2,標題 3,3, 標題 4,4, 標題 5,5, 標題 7,1, 標題 8,2, 標題 9,3, Heading1 No Number,1,Appendix heading 1,1,Appendix heading 2,2,Appendix heading 3,3,Appendix heading 4,4,Appendix head
2、ing 5,5, Heading 1,1,Heading 2,2,Heading 3,3, Heading 4,4, Heading 5,5, Heading 7,1,Heading 8,2,Heading 9,3 HYPERLINK l _Toc18308712 1 簡介 PAGEREF _Toc18308712 h 1 HYPERLINK l _Toc18308713 2 前言 PAGEREF _Toc18308713 h 2 HYPERLINK l _Toc18308714 2.1 大容量高可靠的訴求 PAGEREF _Toc18308714 h 2 HYPERLINK l _Toc18
3、308715 2.2 大容量高可靠的職責 PAGEREF _Toc18308715 h 2 HYPERLINK l _Toc18308716 3 軟件可用性 PAGEREF _Toc18308716 h 3 HYPERLINK l _Toc18308717 4 NCE-WAN控制器整體架構與可靠性方案 PAGEREF _Toc18308717 h 4 HYPERLINK l _Toc18308718 4.1 NCE-WAN控制器分布式架構 PAGEREF _Toc18308718 h 5 HYPERLINK l _Toc18308719 4.1.1 ACM集群架構 PAGEREF _Toc18
4、308719 h 6 HYPERLINK l _Toc18308720 4.1.2 ACC集群架構 PAGEREF _Toc18308720 h 7 HYPERLINK l _Toc18308721 4.2 可靠性方案介紹 PAGEREF _Toc18308721 h 7 HYPERLINK l _Toc18308722 4.2.1 控制器集群與負載均衡機制 PAGEREF _Toc18308722 h 7 HYPERLINK l _Toc18308723 4.2.1.1 集群技術 PAGEREF _Toc18308723 h 7 HYPERLINK l _Toc18308724 4.2.1.
5、2 設備連接負載均衡 PAGEREF _Toc18308724 h 8 HYPERLINK l _Toc18308725 4.2.2 分布式數(shù)據(jù)庫集群 PAGEREF _Toc18308725 h 8 HYPERLINK l _Toc18308726 4.2.3 服務節(jié)點可靠性部署 PAGEREF _Toc18308726 h 9 HYPERLINK l _Toc18308727 4.2.4 異地容災 PAGEREF _Toc18308727 h 9 HYPERLINK l _Toc18308728 4.2.5 故障預防 PAGEREF _Toc18308728 h 10 HYPERLINK
6、l _Toc18308729 4.2.5.1 故障信息采集 PAGEREF _Toc18308729 h 10 HYPERLINK l _Toc18308730 4.2.5.2 健康度檢查 PAGEREF _Toc18308730 h 10 HYPERLINK l _Toc18308731 5 縮略語表/Acronyms and Abbreviations PAGEREF _Toc18308731 h 10簡介關鍵詞:大容量、高可靠、分布式架構摘要:本文從NCE-WAN控制器的發(fā)展趨勢為切入點,結合大容量高可靠的關鍵技術架構方案、典型應用場景,從整體架構來介紹華為公司iMaster NCE-W
7、AN控制器(后面統(tǒng)稱為NCE-WAN控制器)產(chǎn)品大容量高可靠性的功能與特點,突出產(chǎn)品的獨特亮點。最后結合主要應用場景的介紹,重點講述為客戶帶來的價值。前言隨著設備管理規(guī)模、租戶管理規(guī)模增長,傳統(tǒng)的單機網(wǎng)管架構已經(jīng)不能支撐大容量的業(yè)務需求。為了解決這些問題,NCE-WAN控制器中引入分布式的架構,負責大規(guī)模設備、租戶的管理,并提供高可靠性的機制來保證分布式系統(tǒng)的穩(wěn)定運行。 HYPERLINK l _ZH-CN_TOPIC_0166652405 o 2.1 大容量高可靠的訴求 HYPERLINK l _ZH-CN_TOPIC_0166652411 o 2.2 大容量高可靠的職責大容量高可靠的訴求隨
8、著網(wǎng)絡技術的飛速發(fā)展,企業(yè)網(wǎng)絡規(guī)模也在不斷擴大,大中型企業(yè)客戶需要管理和維護少則幾百臺多則上千臺的設備,NCE-WAN需要管理很多租戶的設備,設備的總規(guī)??蛇_一萬臺以上,設備上報的性能相關的數(shù)據(jù)量非常龐大,大容量管理的訴求非常迫切。另一方面,隨著企業(yè)信息化水平的提升,為了滿足用戶接入企業(yè)網(wǎng)絡,通常會把網(wǎng)絡鋪設到辦公區(qū)的每個角落。公司內(nèi)大量流動的辦公人員和合作伙伴經(jīng)常會帶著筆記本電腦接入公司的局域網(wǎng),這將給公司的信息安全帶來很大的挑戰(zhàn)。大容量高可靠的職責NCE-WAN通過分布式集群架構幫助企業(yè)完成大容量下設備、租戶的管理,并提供高可靠性的方案機制來保證系統(tǒng)的穩(wěn)定運行,主要解決如下大容量高可靠的問
9、題:可伸縮的集群以管理不同的在線設備規(guī)模,最小集群1萬在線設備管理規(guī)模;可伸縮的集群以管理不同的在線租戶規(guī)模,最小集群300個最大在線租戶帳號管理規(guī)模;大規(guī)模設備上報性能數(shù)據(jù)的處理。軟件可用性NCE-WAN平臺的軟件可用性可達到3個9,即99.9%。NCE-WAN平臺支持冗余部署:云平臺支持集群部署,支持異地容災。NCE-WAN平臺支持故障檢測自愈機制。NCE-WAN平臺支持故障預防。NCE-WAN控制器整體架構與可靠性方案NCE-WAN控制器采用分布式架構來解決大容量高可靠性的架構問題,主要包括設備配置管理節(jié)點集群、數(shù)據(jù)采集節(jié)點集群、數(shù)據(jù)分析存儲節(jié)點集群、分布式數(shù)據(jù)庫節(jié)點集群。下面分別從整體
10、架構以及各類集群的關鍵機制來介紹NCE-WAN控制器的分布式架構技術方案。NCE-WAN控制器分布式架構分布式架構整體部署視圖管理的設備類型:路由器AR;ACM集群:NCE-WAN控制器租戶面的管理節(jié)點集群,主要租戶管理、設備管理、設備監(jiān)控、設備配置管理、性能告警等;ACC集群:NCE-WAN控制器大數(shù)據(jù)采集節(jié)點集群,主要包括對設備上的性能、日志、應用分析數(shù)據(jù)等進行采集和處理;分布式數(shù)據(jù)庫:NCE-WAN控制器分布式數(shù)據(jù)庫集群,主要持久化租戶面的業(yè)務數(shù)據(jù);分布式緩存:NCE-WAN控制器分布式緩存集群,主要存儲一些對性能要求非常高的業(yè)務數(shù)據(jù),用于提升系統(tǒng)并發(fā)性能。ACM集群架構南向設備連接到N
11、CE-WAN控制器ACM集群時先經(jīng)過軟負載節(jié)點,由軟負載節(jié)點進行負載分擔后分配到ACM集群中的一個節(jié)點;ACM集群支持不同的在線設備管理規(guī)模,最小集群1萬在線設備管理規(guī)模,集群規(guī)??蓴U展;租戶面的業(yè)務請求先經(jīng)過軟負載節(jié)點,再負載均衡到ACM集群節(jié)點上;ACC集群架構ACM節(jié)點通過Netconf下發(fā)性能相關數(shù)據(jù)的訂閱配置;南向設備連接到NCE-WAN控制器ACC集群;ACC集群支持南向1萬設備的性能數(shù)據(jù)的上報處理,最小集群1萬設備長連接;ACC將南向設備上報的數(shù)據(jù)解析后發(fā)送給ACC集群管理進行分析出來。可靠性方案介紹控制器集群與負載均衡機制集群技術NCE-WAN控制器集群節(jié)點之間相互獨立處理業(yè)務
12、,單節(jié)點故障后業(yè)務可以自動切換到其它節(jié)點,控制器集群可以持續(xù)正常提供服務。NCE-WAN控制器可靠性是通過集群技術來解決節(jié)點故障時業(yè)務不中斷。主要包含ACM集群、ACC集群、分布式數(shù)據(jù)庫集群、分布式緩存集群。以下介紹集群可靠性:ACM集群:當某個設備配置管理節(jié)點故障時,租戶管理面的業(yè)務操作請求會通過前置的負載均衡器自動分發(fā)到集群中其他節(jié)點,同時設備也會自動檢測到管理節(jié)點故障,能夠自動將連接切換到集群中其他節(jié)點,從而集群中某些節(jié)點故障不影響NCE-WAN控制器的設備配置管理業(yè)務。ACC集群:當某個數(shù)據(jù)采集節(jié)點集群故障時,設備自動檢測到數(shù)據(jù)采集節(jié)點故障,能夠重新與新的ACC節(jié)點建立長連接,并將上報
13、數(shù)據(jù)切換到集群中其他節(jié)點,從而集群中某些節(jié)點故障不影響NCE-WAN控制器的性能數(shù)據(jù)采集的業(yè)務。分布式數(shù)據(jù)庫集群:NCE-WAN控制器的分布式數(shù)據(jù)庫支持數(shù)據(jù)進行分片存儲,同時支持數(shù)據(jù)的一主多備的可靠性模式。當分布式數(shù)據(jù)庫集群中某個節(jié)點故障時,備份的節(jié)點能夠立刻接管其業(yè)務,從而確保其對外提供正常的功能。分布式緩存集群:NCE-WAN控制器的分布式緩存支持數(shù)據(jù)進行分片存儲,同時支持數(shù)據(jù)的一主多備的可靠性模式。當分布式緩存集群中某個節(jié)點故障時,備份的節(jié)點能夠立刻接管其業(yè)務,從而確保其對外提供正常的功能。設備連接負載均衡南向設備連接附著采用軟負載集群實現(xiàn),設備的TCP連接請求經(jīng)由軟負載節(jié)點按照負載策略
14、直接轉發(fā)給后臺控制器集群節(jié)點。南向軟負載節(jié)點主要轉發(fā)兩類TCP請求:設備與ACM集群節(jié)點建立Netconf長連接,設備注冊時連接請求會由軟負載集群負載到ACM集群中的任一節(jié)點,由端口確定負載列表;設備與ACC集群建立長連接,設備觸發(fā)建連時連接請求會由軟負載集群負載到ACC集群中的任一節(jié)點,由端口確定負載列表。該方案特點如下:無狀態(tài)化ACM集群、ACC集群所有節(jié)點無狀態(tài)化,都具備設備分片處理能力,均能夠承擔設備分片任務的處理,不存在單點性能瓶頸及串行約束。高可靠性設備連接任務指派給某個控制器節(jié)點后,當該控制器節(jié)點故障時,軟負載集群節(jié)點會感知集群節(jié)點故障,設備重新發(fā)起注冊請求時會負載到新的集群節(jié)點
15、,相關任務會由其他控制器節(jié)點來承擔,消除單點故障。負載均衡設備注冊時,軟負載節(jié)點會以在線控制器節(jié)點負載較低的優(yōu)先分配,并且會動態(tài)刷新在線控制器節(jié)點負載信息,保證所有控制器節(jié)點的設備連接負載整體上均衡。分布式數(shù)據(jù)庫集群分布式數(shù)據(jù)庫集群采用一主多備形式部署,實時進行數(shù)據(jù)的冗余備份,正常情況下主數(shù)據(jù)庫節(jié)點提供數(shù)據(jù)存儲服務,當主節(jié)點異常后,主備倒換軟件檢測到該異常并執(zhí)行數(shù)據(jù)庫主備切換,將集群內(nèi)數(shù)據(jù)庫備節(jié)點升級為主節(jié)點,原主節(jié)點降級為備節(jié)點。服務節(jié)點可靠性部署服務集群可靠性部署,考慮節(jié)點的可靠性:服務主備或者集群部署,無單點服務故障問題;主備和集群服務分節(jié)點部署;單節(jié)點故障不影響整個集群服務功能;物理機
16、虛擬化部署場景,相同功能集群服務節(jié)點反親和部署,即單物理機故障不影響整個集群服務功能。最小集群部署視圖如下:異地容災NCE-WAN控制器容災方案在兩個地域部署兩套獨立的NCE-WAN控制器系統(tǒng),系統(tǒng)之間建立心跳、數(shù)據(jù)通信鏈路,依賴數(shù)據(jù)庫的能力把主集群的數(shù)據(jù)實時備份到備集群。在主集群發(fā)生重大故障無法恢復的時候,用戶可以把備集群恢復成新的主集群,從而繼續(xù)提供業(yè)務服務。容災指標容災指標是指在當系統(tǒng)發(fā)生災難(地震、洪水等)或長時間無法恢復的故障(如核心磁陣損壞等)時,NCE-WAN控制器在災難過程中的最大數(shù)據(jù)丟失量及從災難狀態(tài)恢復到可運行狀態(tài)所需的時間,用于衡量容災系統(tǒng)的數(shù)據(jù)冗余備份能力和業(yè)務恢復能力
17、。指標項指標項描述限制條件配置類業(yè)務數(shù)據(jù)實時同步(同步機制)RPO=0minNA設備告警類業(yè)務數(shù)據(jù)實時同步(異步機制)RPO=1minNA異地容災倒換切換時間(min)RTO=故障發(fā)現(xiàn)時間+15min(切換時間)+設備上線時間125Mbps主備通信帶寬,時延20ms。首次容災配置數(shù)據(jù)同步時間(min)RTO=130 min125Mbps主備通信帶寬,1W設備的數(shù)據(jù)量(GaussDB (68GB)+HDFS(4GB)。故障預防故障信息采集支持在NCE-WAN控制器集群納管的所有節(jié)點執(zhí)行故障信息收集,可以收集集群節(jié)點的“常見信息”和“高級信息”。在運維人員沒有要求的情況下默認收集對應時間段的“常見信息”,在運維人員明確要求下根據(jù)以下內(nèi)容來區(qū)分需要收集的日志:常見信息:Karaf日志,集群系統(tǒng)信息包括當前告警、運行日志、操作日志、各進程狀態(tài)、數(shù)據(jù)庫狀態(tài)等。建議所有故障場景都收集此類日志。高級信息:包括系統(tǒng)故障日志、南北向服務日志、異地容災&集群管理日志等系統(tǒng)日志。當出現(xiàn)NCE-WAN控制器系統(tǒng)類故障(如NCE-WAN控制器無法訪問、南北向服務異常、異地容災異常等)時,建議收集此類日志。在運維面進行線上故障信息收集,不再依賴其他獨立的工具,及時發(fā)現(xiàn)故障問題,提升了故
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 新能源智能電網(wǎng)項目合作框架協(xié)議
- 電子廢物回收處理項目合同
- 水管采購合同
- 熱泵供暖設備采購合同
- 重慶簡單房屋租賃合同(31篇)
- 電子商務平臺賣家權益保護協(xié)議
- 自愿送養(yǎng)收養(yǎng)協(xié)議書
- 年度活動策劃與執(zhí)行工作方案
- 智能照明節(jié)能改造項目合作協(xié)議
- 封山育林施工合同
- 2024-2025學年成都高新區(qū)七上數(shù)學期末考試試卷【含答案】
- GB/T 19342-2024手動牙刷一般要求和檢測方法
- SLT824-2024 水利工程建設項目文件收集與歸檔規(guī)范
- 2024年山東鐵投集團招聘筆試參考題庫含答案解析
- (完整word版)中國銀行交易流水明細清單模版
- DB43∕T 859-2014 高速公路機電工程概預算編制辦法及定額
- 燃氣輪機LM2500介紹
- (精選)淺談在小學數(shù)學教學中如何進行有效提問
- 堆垛機速度計算表
- 凈土資糧——信愿行(11)第六講凈業(yè)三福變化氣質(zhì)
- 服務體系流程圖【精選文檔】
評論
0/150
提交評論