




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、 京東大規(guī)模數(shù)據(jù)中心網(wǎng)絡運維監(jiān)控序言網(wǎng)絡,相當于是互聯(lián)網(wǎng)服務的神經(jīng)系統(tǒng)和循環(huán)系統(tǒng)。監(jiān)控,是網(wǎng)絡運維團隊了解網(wǎng)絡服務的眼睛。隨著網(wǎng)絡規(guī)模的高速發(fā)展、運維技術與理念的演進,網(wǎng)絡監(jiān)控已不滿足于簡單地掌握網(wǎng)絡設備的運行狀態(tài)、流量、延時和丟包,如何準確地表現(xiàn)出服務的可用性、快速發(fā)現(xiàn)問題和定位問題,提高手工運維和自動化運維效率,是迫切的需求和挑戰(zhàn)。本文介紹京東網(wǎng)絡團隊在監(jiān)控方向的一些思考和實踐。本文的四個部分:京東網(wǎng)絡現(xiàn)狀;監(jiān)控設計思考;京東監(jiān)控實踐;網(wǎng)絡監(jiān)控展望;一、京東網(wǎng)絡現(xiàn)狀從數(shù)據(jù)量表上來看京東的業(yè)務增長,下面是京東的一張覆蓋了2014年618到2017年618所有的出口和專線的數(shù)據(jù)流量的圖表。藍色
2、是專線DCI,紅色是互聯(lián)網(wǎng)的公網(wǎng)流量。大家可以看到2017年618的DCI流量增長非常非常快;對比上一年,它已經(jīng)翻了將近一倍,主要的原因是大數(shù)據(jù)和一些后臺的日志分析等系統(tǒng)占了很大比例的流量。2017年最大的一個變化就是很多獨立的業(yè)務部署了自己的數(shù)據(jù)中心,而以前京東的各個業(yè)務混雜到一起。由于不同的業(yè)務出現(xiàn)了自己的數(shù)據(jù)中心,說明了不同的業(yè)務對網(wǎng)絡的一些硬件和結構、性能和品質有了不同要求。而以前(特指代:在2013年和2014年期間)京東是僅僅來解決基本的通訊問題,比如:帶寬或者簡單基礎的硬件可靠性問題。1.1、網(wǎng)絡架構的持續(xù)優(yōu)化在網(wǎng)絡架構的持續(xù)優(yōu)化上實際有很多小的細節(jié)優(yōu)化,但是抽象出來的只有四個方
3、面進行了持續(xù)的投入。全國骨干網(wǎng)結構升級對于全國骨干網(wǎng)來說,京東在很長一段時間內是部署在北方地區(qū)也就是北京,而CDN卻是部署在全國;中后期在廣州也部署了一些核心的節(jié)點,以及部分海外節(jié)點。但是,當時并沒有形成一個整體全國性的傳輸網(wǎng)絡。今年,我們完成了改造的最重要的第一階段:啟動了在北京、上海、廣州三地雙平面的全國100G傳輸網(wǎng)絡平臺,目前處于建設初期?;ヂ?lián)網(wǎng)接入層建設改造互聯(lián)網(wǎng)接入層主要是自建BGP,解決的是互聯(lián)網(wǎng)質量的業(yè)務體驗問題,而我們沒辦法簡單通過單線、第三方互聯(lián)網(wǎng)解決。在方案的設計過程中發(fā)生了還有一些細節(jié)的變化,比如說:城域網(wǎng)從原來的四核心改為雙核心結構,所有的數(shù)據(jù)中心都會雙接到這兩個核心
4、上,這樣結構簡單、流量易于調度,在管理、自動化、可視等各個方面都有優(yōu)勢。在未來我們想達到這樣一個理想效果,當南北運營商網(wǎng)絡出現(xiàn)大面積網(wǎng)絡異常的時候,我們在純粹路由的層面完成業(yè)務切換。DCN二層到三層的改造我們最近一年半最痛苦的問題是網(wǎng)絡規(guī)模太大了,現(xiàn)在一個網(wǎng)絡里面至少10個POD,有大量的服務器和Docker,當前架構下設備的性能、穩(wěn)定性達到了上限。網(wǎng)絡設備不能簡單地關注端口密度、帶寬容量、電源容量等,還要考慮ARP、路由等各類表項資源,都是影響系統(tǒng)的重要因素。在二層網(wǎng)絡里我們做一次網(wǎng)絡核心的故障處理,從故障狀態(tài)到可用狀態(tài)整個過程大概經(jīng)歷了五六個小時以上而且是兩天完成,整個過程就像拆彈一樣,操
5、作復雜且有極高風險。所以我們后來在運維、基礎架構上列了幾個規(guī)矩:第一,網(wǎng)絡可以做到可以在10分鐘內完成應急案處理。第二,部分網(wǎng)絡損失不對網(wǎng)絡造成致命傷害。第三,結構要非常簡單的,具備較好的可擴展性、可運維性。提高網(wǎng)絡割接的可靠性網(wǎng)絡主要有運維和建設兩個方向。過去一年半里,京東網(wǎng)絡團隊有60%以上的精力消耗到建設上,因為發(fā)展太快了。已發(fā)生的夜間割接,2016年300多次、2017上半年超過300次。為了確保網(wǎng)絡操作的可靠性,建立了標準化的SOP操作文檔、技術方案審核、雙人操作等多種機制。并且,在推動自動化工具逐步替代手工操作。1.2、網(wǎng)絡環(huán)境愈發(fā)嚴峻除上述的問題外,如今的網(wǎng)絡環(huán)境也愈發(fā)嚴峻。目前
6、的網(wǎng)絡規(guī)模越來越大,變更次數(shù)越來越高,業(yè)務場景越來越復雜(比如:上面我們提到過的為業(yè)務特別樹立的一個獨立的數(shù)據(jù)中心,就會出現(xiàn)了特有的故障)。另外網(wǎng)絡抖動問題會越發(fā)明顯,通常這抖動網(wǎng)絡上不易感知,而應用系統(tǒng)或用戶對抖動問題卻很敏感。從做事情的角度,從提供良好服務的角度,我們應該分析到底原因是什么,該怎樣解決誰來解決。運維工作量和效率也是非常大的挑戰(zhàn),例如:業(yè)務方提出500臺服務器的從單網(wǎng)卡改為雙網(wǎng)卡的Bond,同期發(fā)生幾起不易定位原因的故障需要分析排查,每件工作都是對運維力量的劇烈消耗。當人員大量消耗在著些事務性工作上的時候就沒辦法做好架構優(yōu)化、工作改進的工作了。從團隊利用率上來說我們的工作效率
7、實際上是下降了的。大家看上面這張圖,這是2016年部分時期的可用性統(tǒng)計指標。圖中有幾個結果很差的互聯(lián)網(wǎng)可用性,通常是有一些故障和問題導致的,這些問題大量的消耗我們的運維資源,是我們最優(yōu)先要去解決的問題。1.3、業(yè)務要求日益增高之前業(yè)務要求相對簡單,帶寬不夠則盡量做成1:1收斂比,設備可靠性不夠則增加冗余,容量不夠則擴大規(guī)模;現(xiàn)在業(yè)務對超大規(guī)模數(shù)據(jù)中心、超大路由表項、低延時、25G/40G差異化接入都提出了更高的要求,特別是網(wǎng)絡的穩(wěn)定性,網(wǎng)絡團隊需要更全面、精細的感知網(wǎng)絡,快速發(fā)現(xiàn)和定位問題,減少重復問題的發(fā)生,制定有效的應急預案,確保高水準的網(wǎng)絡可用性。另外,業(yè)務希望獲得更多的網(wǎng)絡信息和數(shù)據(jù),
8、以幫助業(yè)務進行更好的部署、管理和調度,例如及時準確的主機IP網(wǎng)絡接入位置信息、流量和網(wǎng)絡質量信息等,需要網(wǎng)絡團隊開放更多的API和功能支持上層應用。最后,網(wǎng)絡排障和問題分析,是各個業(yè)務團隊的常規(guī)需求,要么是網(wǎng)絡運維團隊協(xié)助排障,要么是開發(fā)出友好的工具提供給業(yè)務自助完成,顯然后者是良性發(fā)展的必然選擇。二、監(jiān)控設計思考2.1、明確監(jiān)控目標首先,“網(wǎng)絡是不是好的”,核心是定義“好”的標準;其次,要準確感知到網(wǎng)絡異常,關鍵是做到對網(wǎng)絡核心監(jiān)控項準確監(jiān)控;最后,要快速定性問題并觸發(fā)應對措施,核心是決策機制,確定嚴重程度、影響面;2.2、定義網(wǎng)絡“好”的標準什么是網(wǎng)絡“好”的標準?用戶覺得好才是真的好。網(wǎng)
9、絡工程師在面對問題時的本能是排查分析問題的原因、嘗試修復故障,往往眼里只有網(wǎng)絡設備、功能協(xié)議的運行情況,異常狀態(tài)和現(xiàn)象,而忽視了網(wǎng)絡服務的核心是滿足業(yè)務的聯(lián)通性需要。當網(wǎng)規(guī)模到了一定程度之后,一兩條鏈路或幾臺設備的好與壞說明不了整體網(wǎng)絡服務是不是好的問題。網(wǎng)絡團隊要站在更高的層面,脫離只關注白盒、只關注網(wǎng)絡設備的思維,從用戶視角看網(wǎng)絡服務情況。2.3、找到感知網(wǎng)絡的有效方法知道什么是好網(wǎng)絡,我們就要搞定感知網(wǎng)絡,就要模擬用戶的視角,做黑盒監(jiān)控。京東網(wǎng)絡團隊在2016年下半年開始在黑盒監(jiān)控方向走的比較快,進行了大量的實踐和嘗試。黑盒監(jiān)控本質上還是白盒,但需要改變思維方式。例如:交換機板卡重啟僅僅
10、是導致網(wǎng)絡抖動的原因之一,用戶視角看到的是網(wǎng)絡抖動,在處理邏輯上要先定性網(wǎng)絡出現(xiàn)了抖動再定位是什么原因引起的。另外,在做網(wǎng)絡核心項監(jiān)控時,要抓大放小,不要什么都想一步做好,把最常見的、最嚴重的故障優(yōu)先識別出來,首先解決核心問題。2.4、網(wǎng)絡異常處理的預案與決策機制網(wǎng)絡異常主要有兩類:第一類是依靠網(wǎng)絡自身的健壯性,可以自愈或承受的,往往這種僅降低網(wǎng)絡的健康度、增加了不可用的風險;這類異常不是我們關注的重點。第二類是明顯影響了網(wǎng)絡局部或全部服務的可用性,但又沒有導致網(wǎng)絡服務中斷或完全不可用,只能通過人工干預來執(zhí)行應急預案的異常事件;這種問題才是最關鍵的、需要及時處理的。2.5、網(wǎng)絡監(jiān)控到底要做什么
11、?這是一個簡單的總結,網(wǎng)絡監(jiān)控要干嗎?第一句話隨著監(jiān)控的深入,我們發(fā)現(xiàn)想象的網(wǎng)絡質量跟我們主觀實際測出到的確實不一樣。監(jiān)控要看啥呢?故障可用性、健康度、交付質量就是我一個新的網(wǎng)絡建設完以后這部署立刻部署上完成驗收、操作的影響我們做一個專線切換真的就是平滑的嗎?我們下線板卡沒有影響嗎?但是因為沒有數(shù)據(jù)我們以為是好的、還有運行狀態(tài)。做好以上這些才是網(wǎng)絡監(jiān)控要做的事情。三、京東監(jiān)控實踐3.1、監(jiān)控的前期準備準備工作如下:AAA -bono-publico.de/projects/tac_plus.html NTP SNMP python + go SYSLOG /network-security/s
12、yslog-ng/ CMDB mysql + php + python 特別是需要手工維護的信息(例如:設備管理IP、互聯(lián)網(wǎng)出口、專線接口等)在前期,我們需要為監(jiān)控做一些基礎的工作。首先,一定要有AAA,解決設備的統(tǒng)一管理問題。第二,就是NTP,設備時間一定要正確。第三,要具備基本的SNMP采集能力。今年京東618的流量采集比以往有一個突破,以前的采集密度是分鐘極,今年到了10秒級,并給我們帶來巨大的震撼。這個震撼就是我們發(fā)現(xiàn)原來的流量統(tǒng)計偏差很大,10秒采集的結果數(shù)值增加了20%,也就是說如果跑了80%的帶寬,實際上是96%甚至百分之百。第四,SYSLOG可以幫我們了解很多未發(fā)現(xiàn)問題,進行回
13、溯和追蹤;前三點都是看事中出了什么問題,而SYSLOG是看事后出現(xiàn)什么問題,所以SYSLOG很重要,特別捕捉事前沒見過的日志。最后一個就是基礎信息,基礎信息是整個監(jiān)控的基礎,需要注意的是很多基礎信息是必須手工定義的,例如:哪些接口是專線?某臺設備是什么角色等等。這類信息我稱之為管理信息,是很難脫離人為因素完全自動化的。3.2、基本面監(jiān)控核心邏輯是:有一些顯而易見的狀況,說明網(wǎng)絡一定出了問題;那么就找到并呈現(xiàn)出來,先回答是否有問題(是不是好的);目前京東網(wǎng)正在使用的有:互聯(lián)網(wǎng)出口、POD上聯(lián)、DCI的實時流量和近24小時流量峰值;近6小時互聯(lián)網(wǎng)、DCI的總流量環(huán)比;近24小時全網(wǎng)syslog、d
14、rop、crc的總量;近6小時全網(wǎng)應用服務方法性能等關鍵業(yè)務異常報警的總量;當前各IDC出口到全國各省網(wǎng)絡質量、DCI網(wǎng)絡質量;當前全網(wǎng)網(wǎng)絡設備、服務器的總量與存活數(shù);基本面監(jiān)控就是要做到這樣一個效果:有幾個重要的大屏,當你看到上面有異常的時候,就表明就一定出現(xiàn)了問題。如果上面的狀態(tài)顯示良好,說明網(wǎng)絡沒有什么大的問題(但不代表沒有小的問題)。京東網(wǎng)絡團隊最近一年半就是在解決這個問題。第一部分是流量,包括互聯(lián)網(wǎng)出口、POD上聯(lián)、DCI的實時流量和近24小時的峰值。第二部分是流量環(huán)比。目前我們做的互聯(lián)網(wǎng)專線,環(huán)比看出異常來,我們專線遠高于頭一天,但是曲線基本結構波形是一致的,看起來問題都不大。第三
15、部分是近24小時全網(wǎng)SYSLOG在各個時間點的總和,每一分鐘異常數(shù)。SYSLOG可能只有0到兩三個,但是出現(xiàn)大量異常有幾十個、上百個,就可以非常直觀的看出有問題發(fā)生,接下來再去排查定位就非常容易了。第四部分是近6個小時所有業(yè)務應用方法調用性能和指標異常。3.3、互聯(lián)網(wǎng)質量監(jiān)控的事例上圖中電信到三個省份互聯(lián)網(wǎng)出現(xiàn)異常了,可以看到有電信、聯(lián)通、移動還有BGP。電信到電信出現(xiàn)異常,說明是這個省內部的問題。如果僅僅是跨運營商則不需要特別的處理和關注。上圖中互聯(lián)網(wǎng)出口流量,有一個紅框畫出來的出口,使用率特接近60%,但沒有超出過去24小時的峰值,不算嚴重但需要關注。上圖中可以看到箭頭指出位置有30多個S
16、YSLOG報警,很容易看出問題來。最后一個方法性能可以看到有幾個毛刺是不正常的。上圖是互聯(lián)網(wǎng)質量監(jiān)控,它的基本思路比較簡單,展示各個機房到各個省份的質量監(jiān)控。每個小方格,從右到左是當前到近60分鐘的網(wǎng)絡質量,并隨著時間推移向左移動,來表現(xiàn)過去一小時內是否有異常發(fā)生、以及異常的持續(xù)時間或恢復正常的時間。上圖的紅圈位置表示有一個省的移動網(wǎng)絡出現(xiàn)問題,右邊圖片中的紅線是動態(tài)報警閾值,閾值不是固定的,而是根據(jù)實際監(jiān)控的歷史數(shù)據(jù)計算得出的動態(tài)閾值,這樣可以避免一刀切的粗暴判斷方式。3.4、DCN網(wǎng)絡質量監(jiān)控的事例最后是數(shù)據(jù)中心內部網(wǎng)絡怎么去監(jiān)控。微軟的一篇名為pingmesh的論文非常知名,它的基本邏輯
17、是以最小的代價最大話的模擬full-mesh的端到端網(wǎng)絡黑盒監(jiān)控效果。從監(jiān)控結果可以直觀的得出來機架內、機架間、POD內、POD間、機房間網(wǎng)絡質量。上面三張圖片是京東實際做出來的Pingmesh效果,在數(shù)據(jù)中心內網(wǎng)它的覆蓋率接近50%。從監(jiān)控結果看跟我們想象的遠遠不一樣,我在很多年里一直認為數(shù)據(jù)中心內網(wǎng)很穩(wěn)定,現(xiàn)在看到是有明顯丟包的情況。這類監(jiān)控可以非常直觀地發(fā)現(xiàn)網(wǎng)絡的異常,接下來再基于白盒監(jiān)控去定位問題的原因是什么。以上是京東網(wǎng)絡做的很有限的一些工作,做的并不多、存在很多不足,主要問題還是希望從白盒監(jiān)控思維中跳出來,抽象的去看一個大的網(wǎng)絡,從用戶視角觀察,要做深做細需要有更多持續(xù)的思考和實踐。四、網(wǎng)絡監(jiān)控展望監(jiān)控只是工具和手段,監(jiān)控可以告訴我們要做好什么事。上圖是網(wǎng)絡可用性的達成情況,從中我們可以分析出兩件事情:第一件
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 采購管理培訓體系構建
- 進駐小區(qū)協(xié)議書模板
- 毛里求斯協(xié)議書
- 創(chuàng)設和諧教育環(huán)境的學校幼兒園教研計劃
- 道路通行協(xié)議書模板
- 車房裝修協(xié)議書范本
- 民宿包場協(xié)議書
- 河里取土協(xié)議書
- 演員合同協(xié)議書
- 業(yè)務承攬合同與業(yè)務行為規(guī)范承諾書
- 公安治安管理培訓
- 平面向量及其應用 章末題型歸納總結(基礎篇)(10大題型)原卷版-2024-2025學年高一數(shù)學(人教A版必修第二冊)
- 債權管理制度
- 運動營養(yǎng)學知到課后答案智慧樹章節(jié)測試答案2025年春黑龍江冰雪體育職業(yè)學院
- 2025高級插花花藝師核心備考試題庫及答案(濃縮300題)
- 光伏發(fā)電站施工規(guī)范完整版2025年
- 煤礦防洪專項應急預案
- 2025年陜西省初中學業(yè)水平考試英語 例析與指導 試卷示例題
- 汽輪機保護裝置原理與應用考核試卷
- 2025年春季學期 形勢與政策 第四講 厚植綠色底色 建設美麗中國講義
- 2025發(fā)展對象考試試題庫及參考答案(完整版)
評論
0/150
提交評論