ZXR10 產(chǎn)品操作維護(hù)標(biāo)準(zhǔn)培訓(xùn)資料:ZXR10-A-CH-故障處理流程和思路_第1頁(yè)
ZXR10 產(chǎn)品操作維護(hù)標(biāo)準(zhǔn)培訓(xùn)資料:ZXR10-A-CH-故障處理流程和思路_第2頁(yè)
ZXR10 產(chǎn)品操作維護(hù)標(biāo)準(zhǔn)培訓(xùn)資料:ZXR10-A-CH-故障處理流程和思路_第3頁(yè)
ZXR10 產(chǎn)品操作維護(hù)標(biāo)準(zhǔn)培訓(xùn)資料:ZXR10-A-CH-故障處理流程和思路_第4頁(yè)
ZXR10 產(chǎn)品操作維護(hù)標(biāo)準(zhǔn)培訓(xùn)資料:ZXR10-A-CH-故障處理流程和思路_第5頁(yè)
已閱讀5頁(yè),還剩51頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

故障處理流程和思路V1.0課程目標(biāo)通過本課程的學(xué)習(xí),您將:了解故障處理的目的和注意事項(xiàng)了解常見故障的分類了解故障處理的流程和思路了解故障處理常用方法了解故障處理常用工具和命令課程內(nèi)容第1章故障處理目的和注意事項(xiàng)第1節(jié)故障處理目的第2節(jié)故障處理注意事項(xiàng)第2章常見故障的分類第3章故障處理流程和思路第4章故障處理常用方法第5章故障處理常用命令和工具故障處理目的—概述網(wǎng)絡(luò)故障處理以網(wǎng)絡(luò)原理、網(wǎng)絡(luò)配置和網(wǎng)絡(luò)運(yùn)行的知識(shí)為基礎(chǔ),從故障現(xiàn)象出發(fā),以網(wǎng)絡(luò)診斷工具為手段獲取診斷信息,確定網(wǎng)絡(luò)故障點(diǎn),查找問題的根源,排除故障,恢復(fù)網(wǎng)絡(luò)正常運(yùn)行的一項(xiàng)活動(dòng)。但除了恢復(fù)網(wǎng)絡(luò)正常運(yùn)行外,故障處理還應(yīng)該帶達(dá)到:發(fā)現(xiàn)網(wǎng)絡(luò)隱患并改善網(wǎng)絡(luò)性能,預(yù)測(cè)網(wǎng)絡(luò)通信質(zhì)量,及時(shí)總結(jié)故障處理經(jīng)驗(yàn)等幾個(gè)目標(biāo)。下面我們針對(duì)這幾個(gè)方面,一一加以說明:故障處理目的--(1)確定網(wǎng)絡(luò)的故障點(diǎn),恢復(fù)網(wǎng)絡(luò)的正常運(yùn)行這是網(wǎng)絡(luò)故障處理的基本要求,網(wǎng)絡(luò)故障處理的一切活動(dòng)都必須緊緊圍繞這一點(diǎn)。越來越多,越來越重要的業(yè)務(wù)承載在數(shù)通網(wǎng)絡(luò)當(dāng)中,中斷時(shí)間越長(zhǎng)意味著客戶損失越大,因此網(wǎng)絡(luò)故障處理人員必須盡可能快的恢復(fù)網(wǎng)絡(luò)正常運(yùn)行,即使在處理過程中所采取的一些操作可能會(huì)導(dǎo)致故障原因不能最終定位。

故障處理目的--(2)發(fā)現(xiàn)網(wǎng)絡(luò)規(guī)劃配置欠佳之處,改善優(yōu)化網(wǎng)絡(luò)性能

網(wǎng)絡(luò)維護(hù)人員有時(shí)候會(huì)發(fā)現(xiàn),有些故障是由于網(wǎng)絡(luò)沒有很好的規(guī)劃所導(dǎo)致的,一些網(wǎng)絡(luò)規(guī)劃考慮不周的網(wǎng)絡(luò)雖然也能正常運(yùn)行,但是在發(fā)生故障時(shí)候往往會(huì)造成比預(yù)想的要嚴(yán)重的多的后果,因此在故障處理完成后提出適當(dāng)?shù)木W(wǎng)絡(luò)優(yōu)化建議,提升和改善網(wǎng)絡(luò)的吞吐性能和安全性等也應(yīng)該是故障處理人員的必要工作。

舉幾個(gè)例子:案例一故障概況:

某局一臺(tái)SR路由器的一塊單板重啟,導(dǎo)致業(yè)務(wù)全部中斷若干分鐘,處理后發(fā)現(xiàn)在網(wǎng)絡(luò)規(guī)劃之初,開局人員將兩個(gè)上聯(lián)端口都規(guī)劃到了此塊單板上;處理情況:

很顯然,這樣是不合理的。因此現(xiàn)場(chǎng)除了要查明單板重啟原因,進(jìn)行必要的硬件更換或者軟件升級(jí)之外;還有必要考慮將兩個(gè)上聯(lián)端口分布到不同的單板上,使得網(wǎng)絡(luò)具備單板級(jí)別的冗余。故障處理目的--(2)續(xù)案例二故障概況:

汶川大地震時(shí),某地的話務(wù)信令突然出現(xiàn)大量擁塞,導(dǎo)致話務(wù)接續(xù)困難。后經(jīng)查明發(fā)現(xiàn)是由于承載網(wǎng)的帶寬不足所導(dǎo)致的。處理情況:汶川大地震屬于突然事件,也許如果沒有地震的發(fā)生,網(wǎng)絡(luò)帶寬永遠(yuǎn)都不會(huì)出現(xiàn)不足的情況;但必須考慮到,網(wǎng)絡(luò)的設(shè)計(jì)需要考慮到突然,異常情況的發(fā)生,并根據(jù)一些科學(xué)的數(shù)學(xué)模型計(jì)算出所需要的帶寬。

故障處理目的--(3)觀察網(wǎng)絡(luò)運(yùn)行狀況,預(yù)測(cè)網(wǎng)絡(luò)通信質(zhì)量針對(duì)目前網(wǎng)絡(luò)的運(yùn)行情況和業(yè)務(wù)發(fā)展情況,故障處理人員應(yīng)能夠及時(shí)的向運(yùn)營(yíng)商提供網(wǎng)絡(luò)在未來一段時(shí)間內(nèi)可能出現(xiàn)的運(yùn)行狀況信息,并給出必要的網(wǎng)絡(luò)擴(kuò)容和改造建議。例如:處理BRAS業(yè)務(wù)故障時(shí),可以檢查一些地址池的峰值使用情況,如果和全局地址池的總量相比已經(jīng)超過一定比例,需要及時(shí)提醒用戶增加地址池?cái)?shù)量。交換機(jī)的故障處理中,需要查看當(dāng)前設(shè)備上所承載的MAC地址的數(shù)量,路由表容量等,因?yàn)檫@幾個(gè)表項(xiàng)對(duì)于交換機(jī)而言都屬于關(guān)鍵資源,因此需要將運(yùn)行數(shù)據(jù)和設(shè)備性能指標(biāo)進(jìn)行比對(duì),如果發(fā)現(xiàn)已經(jīng)臨近設(shè)備極限性能,因及時(shí)提醒用戶進(jìn)行設(shè)備的擴(kuò)容或者相應(yīng)的軟件優(yōu)化工作(比如:做路由匯聚等)。

故障處理目的--(4)及時(shí)總結(jié)故障處理經(jīng)驗(yàn)故障處理人員在完成故障處理后,應(yīng)第一時(shí)間對(duì)故障處理過程進(jìn)行回顧和記錄,總結(jié)維護(hù)經(jīng)驗(yàn),雙傳到指定網(wǎng)站,為后期的網(wǎng)絡(luò)維護(hù)人員提供參考文檔,必要時(shí)應(yīng)提供針對(duì)具體網(wǎng)絡(luò)的緊急故障處理指導(dǎo)(例如:針對(duì)移動(dòng)CE等重要的承載網(wǎng)洛,給出某種特定故障現(xiàn)象出現(xiàn)時(shí),可以采取的拔線,對(duì)設(shè)備斷電等手段快速恢復(fù)業(yè)務(wù)),從而使得相關(guān)人員在今后處理類似故障時(shí),擴(kuò)展處理思路,提升故障處理效率。課程內(nèi)容第1章故障處理目的和注意事項(xiàng)第1節(jié)故障處理目的第2節(jié)故障處理注意事項(xiàng)第2章常見故障的分類第3章故障處理流程和思路第4章故障處理常用方法第5章故障處理常用命令和工具故障處理注意事項(xiàng)--(1)故障處理過程中,為了順利達(dá)成故障處理的幾大目的,故障處理人員應(yīng)該注意如下的一些事項(xiàng):一優(yōu)先恢復(fù)業(yè)務(wù),其次查找原因

隨著allip時(shí)代的來臨,越來越多重要的業(yè)務(wù)承載在數(shù)通網(wǎng)絡(luò)之上,對(duì)于運(yùn)營(yíng)商來說,網(wǎng)絡(luò)的中斷時(shí)間越長(zhǎng)就意味著損失的營(yíng)收越多,有些時(shí)候甚至還會(huì)導(dǎo)致用戶的索賠。所以一旦發(fā)生故障,第一任務(wù)就是迅速恢復(fù)業(yè)務(wù),而不是查找故障原因,有些時(shí)候,甚至明知采取相應(yīng)操作后就肯定不能定位故障原因,但為了能在第一時(shí)間搶通業(yè)務(wù),也不允許有第二種選擇。當(dāng)然,在有限恢復(fù)業(yè)務(wù)的前提之下,采集越多的故障信息就越有利于后期的故障原因定位。

故障處理注意事項(xiàng)--(2)上二創(chuàng)建網(wǎng)絡(luò)基線并定期維護(hù)(上)所謂網(wǎng)絡(luò)基線,指的是網(wǎng)絡(luò)在故障發(fā)生之前正常運(yùn)行時(shí)候的基本信息和運(yùn)行性能。網(wǎng)絡(luò)維護(hù)人員應(yīng)該定期的采集和更新網(wǎng)絡(luò)基線以保證故障處理人員能在第一時(shí)間掌握準(zhǔn)確的網(wǎng)絡(luò)信息,從而為迅速定位故障提供必要的輸入信息。網(wǎng)絡(luò)基線可以包含的內(nèi)容如下表所示(后一半見下頁(yè)):

故障處理注意事項(xiàng)--(2)下二創(chuàng)建網(wǎng)絡(luò)基線并定期維護(hù)(下)

故障處理注意事項(xiàng)--(3)三故障發(fā)生后應(yīng)該詳細(xì)記錄故障信息

通過4W(Who,What,Where,When)法則,準(zhǔn)確了解故障的詳細(xì)情況,這是開始處理故障前的基本準(zhǔn)備工作。4W法則的具體內(nèi)容是:

WHO(誰(shuí)出了問題)----一個(gè)局域網(wǎng)中,是一個(gè)用戶出問題,還是所有用戶都有問題;對(duì)于一個(gè)城域網(wǎng),是所有用戶都不正常還是某一臺(tái)路由器下的用戶不正常。

What(是什么問題)----是連通性問題還是性能問題,如果是連通性問題,是完全連通性問題還是部門連通問題(比如:是用戶的部分應(yīng)用不能正常工作,還是該用戶的全部應(yīng)用都不能工作)

Where(問題是在什么地方出現(xiàn)的)----故障是發(fā)生在網(wǎng)絡(luò)的什么位置?核心,匯聚還是邊緣?

When(問題是什么時(shí)候產(chǎn)生的)----該問題是網(wǎng)絡(luò)上線后一直都存在還是才出現(xiàn)不久?出現(xiàn)時(shí)是一直存在,還是有規(guī)律或者無(wú)規(guī)律的間歇性出現(xiàn)?是否是在網(wǎng)絡(luò)做過一些操作后才出現(xiàn)的?

故障處理注意事項(xiàng)--(4)四保持一顆懷疑的心

對(duì)于現(xiàn)場(chǎng)局方人員所反饋的故障信息不能夠完全相信,最好能將所反饋的信息一一加以測(cè)試驗(yàn)證,以確保對(duì)于故障的判斷和排查沒有受到錯(cuò)誤信息的干擾。

五處理故障時(shí)應(yīng)該保持冷靜的頭腦

驚慌失措是網(wǎng)絡(luò)故障處理中的大忌,手忙腳亂,頭腦發(fā)熱會(huì)導(dǎo)致不經(jīng)過周密的計(jì)劃和思考就做出反映,有時(shí)候這樣做會(huì)造成嚴(yán)重的后果,因此情況越是緊急,越是要注意冷靜。另外,如果在局方面前表現(xiàn)的驚慌失措會(huì)導(dǎo)致局方的不信任,從而影響故障處理工作的正常進(jìn)行。當(dāng)然,鎮(zhèn)定的表現(xiàn)是要有深厚的網(wǎng)絡(luò)維護(hù)經(jīng)驗(yàn)作為保證的。

故障處理注意事項(xiàng)--(5)六遠(yuǎn)程處理故障時(shí)候要謹(jǐn)慎操作

當(dāng)設(shè)備出現(xiàn)故障,業(yè)務(wù)中斷時(shí),如果可以遠(yuǎn)程登錄處理則一定要謹(jǐn)慎操作,尤其是在局方維護(hù)人員不在現(xiàn)場(chǎng)的時(shí)候,防止由于錯(cuò)誤的操作導(dǎo)致設(shè)備脫網(wǎng)且無(wú)人能在現(xiàn)場(chǎng)處理。另外,遠(yuǎn)程的所有操作都應(yīng)該跟局方提前說明,以免引起不必要的麻煩。七要善用自己的經(jīng)驗(yàn),而不可濫用

對(duì)于富有經(jīng)驗(yàn)的網(wǎng)絡(luò)維護(hù)人員,在處理故障時(shí),利用已有的經(jīng)驗(yàn)往往能夠事半功倍,但有時(shí)候過于依賴經(jīng)驗(yàn)來處理故障,反而容易出現(xiàn)問題。因此建議在處理復(fù)雜故障或者經(jīng)驗(yàn)不足時(shí),還是采用系統(tǒng)的排障步驟來做(對(duì)于系統(tǒng)的排障步驟將在下一章節(jié)具體介紹),必將可靠。

故障處理注意事項(xiàng)--(6)八故障處理完成后一定要及時(shí)總結(jié)并廣播經(jīng)驗(yàn)

排查完故障之后要及時(shí)總結(jié)經(jīng)驗(yàn)教訓(xùn),并推廣給自己所在部門的同事,以便今后遇到類似故障時(shí)候可以提升處理效率,一些時(shí)候還可以防止類似的故障在其他網(wǎng)絡(luò)當(dāng)中的再次發(fā)生。

課程內(nèi)容第1章故障處理目的和注意事項(xiàng)第2章常見故障的分類第1節(jié)網(wǎng)絡(luò)連通性問題第2節(jié)網(wǎng)絡(luò)性能問題第3章故障處理流程和思路第4章故障處理常用方法第5章故障處理常用命令和工具常見故障的分類--概述我們可以把絕大多數(shù)的故障分成如下兩大類:連通性問題和性能問題。在處理網(wǎng)絡(luò)故障時(shí),需要正確的區(qū)分網(wǎng)絡(luò)故障類型,否則可能會(huì)走一些彎路。例如:

一個(gè)網(wǎng)絡(luò)維護(hù)人員排查故障時(shí),在設(shè)備上ping遠(yuǎn)端地址,發(fā)現(xiàn)無(wú)法ping通,以為是路由問題,隨即使用trace命令并沿途檢查路由表;但后來發(fā)現(xiàn)ping不通是由于網(wǎng)絡(luò)延時(shí)太大,導(dǎo)致reply報(bào)文返回的時(shí)間超過了默認(rèn)的timeout時(shí)間,將默認(rèn)的timeout時(shí)間從2秒修改為5秒后,就能ping通遠(yuǎn)端地址了??梢?,此問題本來是一個(gè)網(wǎng)絡(luò)性能問題,卻在最開始判斷成了連通性問題,走了不少?gòu)澛贰?/p>

網(wǎng)絡(luò)連通性問題

對(duì)于網(wǎng)絡(luò)連通性問題,可能出現(xiàn)的情況有:

問題類型示例硬件,媒介和電源錯(cuò)誤路由器單板硬件故障導(dǎo)致的數(shù)據(jù)報(bào)文無(wú)法轉(zhuǎn)發(fā);傳輸鏈路受到干擾導(dǎo)致的誤碼;電源故障導(dǎo)致的網(wǎng)絡(luò)設(shè)備掉電等等。配置錯(cuò)誤路由配置錯(cuò)誤導(dǎo)致的數(shù)據(jù)包目的地不可達(dá)或者流量被引導(dǎo)到了不正確的地方(一個(gè)例子:2008年美國(guó)的著名社交網(wǎng)站Facebook曾經(jīng)出現(xiàn)過用戶無(wú)法訪問的故障,最終查明的原因是由于巴基斯坦一個(gè)ISP的國(guó)際出口路由器錯(cuò)誤的發(fā)布了一段明細(xì)路由,導(dǎo)致全球的facebook流量都流向了巴基斯坦);不恰當(dāng)?shù)脑L問控制列表設(shè)置導(dǎo)致的數(shù)據(jù)報(bào)文被丟棄。不正確的相互作用不同廠家之間的協(xié)議兼容性問題導(dǎo)致的無(wú)法對(duì)接,從而導(dǎo)致網(wǎng)絡(luò)無(wú)法正常通信。課程內(nèi)容第1章故障處理目的和注意事項(xiàng)第2章常見故障的分類第1節(jié)網(wǎng)絡(luò)連通性問題第2節(jié)網(wǎng)絡(luò)性能問題第3章故障處理流程和思路第4章故障處理常用方法第5章故障處理常用命令和工具網(wǎng)絡(luò)性能問題--(1)

對(duì)于網(wǎng)絡(luò)性能問題,可能出現(xiàn)的情況有:

未完待續(xù)

問題類型示例網(wǎng)絡(luò)擁塞端口出方向流量超過端口容量從而導(dǎo)致部分?jǐn)?shù)據(jù)報(bào)文被丟棄,這對(duì)于tcp業(yè)務(wù)會(huì)有非常嚴(yán)重的性能影響。網(wǎng)絡(luò)終端性能達(dá)到極限在目前的網(wǎng)絡(luò)架構(gòu)中,應(yīng)用層協(xié)議普遍采用的是客戶端—服務(wù)器的工作模式,如果服務(wù)器的處理能力達(dá)到了設(shè)計(jì)的上限,則會(huì)造成用戶訪問速度變慢。網(wǎng)絡(luò)性能問題--(2)

對(duì)于網(wǎng)絡(luò)性能問題,可能出現(xiàn)的情況有:

問題類型示例到目的地不是最佳路由兩條通信的主機(jī)之間有多條鏈路通道,由于錯(cuò)誤的規(guī)劃和配置,主用的流量經(jīng)過了其中一條跳數(shù)更多,傳輸時(shí)延更大的鏈路,導(dǎo)致數(shù)據(jù)傳輸速率不高。路由環(huán)路或者二層環(huán)路錯(cuò)誤的路由配置(尤其是靜態(tài)路由環(huán)境下)導(dǎo)致路由成環(huán),或者二層設(shè)備被錯(cuò)誤的配置導(dǎo)致網(wǎng)絡(luò)中形成了二層的環(huán)路,設(shè)備的cpu利用率升高,報(bào)文轉(zhuǎn)發(fā)效率降低。病毒攻擊一些網(wǎng)站受到黑客攻擊導(dǎo)致網(wǎng)站服務(wù)器無(wú)法給正常訪問用戶提供足夠的鏈接資源和帶寬;一些網(wǎng)絡(luò)設(shè)備受到路由協(xié)議或者用戶數(shù)據(jù)報(bào)文攻擊導(dǎo)致報(bào)文轉(zhuǎn)發(fā)延遲增大。課程內(nèi)容第1章故障處理目的和注意事項(xiàng)第2章常見故障的分類第3章故障處理流程和思路第1節(jié)故障處理流程第2節(jié)故障處理思路第4章故障處理常用方法第5章故障處理常用命令和工具故障處理流程和思路--概述

故障處理系統(tǒng)化是合理地一步一步找出故障原因,并解決故障的總體原則。

其基本思想是系統(tǒng)化的將故障的所有可能原因縮減或者隔離成幾個(gè)小的部分,從而使問題的復(fù)雜度降低。有序的故障處理思路將有助于解決所遇到的問題。

故障處理流程

課程內(nèi)容第1章故障處理目的和注意事項(xiàng)第2章常見故障的分類第3章故障處理流程和思路第1節(jié)故障處理流程第2節(jié)故障處理思路第4章故障處理常用方法第5章故障處理常用命令和工具故障處理思路--(1)

一故障現(xiàn)象觀察要對(duì)網(wǎng)絡(luò)故障進(jìn)行準(zhǔn)確分析,首先應(yīng)該了解故障的各種現(xiàn)象,然后才能確定可能產(chǎn)生這些現(xiàn)象的故障根源。因此,對(duì)網(wǎng)絡(luò)故障作出完整、清晰的描述是一個(gè)重要步驟。很多情況下,故障的反饋人員對(duì)于故障的描述往往是不全面,不清晰的,因此故障處理人員有必要引導(dǎo)現(xiàn)場(chǎng)人員將全面詳細(xì)的故障情況反饋出來。

故障處理思路--(2)

二故障相關(guān)信息采集

了解清楚故障現(xiàn)象后,需要進(jìn)一步搜集有助于故障定位的詳細(xì)信息,有如下的集中信息搜集方法:向受影響的用戶,局方人員或者其他關(guān)鍵人員(比如網(wǎng)絡(luò)的開通者)提出相關(guān)問題。根據(jù)故障描述,通過命令行或者抓包工具進(jìn)行信息搜集。對(duì)網(wǎng)絡(luò)親自進(jìn)行測(cè)試,將測(cè)試結(jié)果與網(wǎng)絡(luò)基線相比較。

故障處理思路--(3)

三經(jīng)驗(yàn)分析和理論判斷

網(wǎng)絡(luò)維護(hù)人員利用前兩個(gè)步驟收集到的信息,并根據(jù)自己以往的故障處理經(jīng)驗(yàn)和所掌握的因特網(wǎng)絡(luò)設(shè)備和協(xié)議的知識(shí),來確定排錯(cuò)范圍。通過劃分范圍,確定需要關(guān)注的故障或與故障情況相關(guān)的那一部分網(wǎng)絡(luò)設(shè)備、傳輸介質(zhì)和主機(jī)。

四整理各種可能原因的列表整理一張表格,列出根據(jù)經(jīng)驗(yàn)判斷和理論分析后總結(jié)的各種可能原因,并針對(duì)每一種可能的原因制定出詳細(xì)的操作排查步驟。這一步驟當(dāng)中需要注意的是:每次操作進(jìn)行只進(jìn)行一次改動(dòng),這樣才有助于確定是否該操作才會(huì)導(dǎo)致故障的消失。如果做了多處配置的變動(dòng),即使故障消失,也不知道是哪個(gè)命令解決故障的。一旦制定好計(jì)劃,就可以細(xì)心地實(shí)施這個(gè)計(jì)劃了。

故障處理思路--(4)

五對(duì)每一項(xiàng)可能原因?qū)嵤┡佩e(cuò)和驗(yàn)證并觀察結(jié)果

當(dāng)實(shí)施操作計(jì)劃時(shí),應(yīng)該注意,每次只能做一個(gè)修改。如果修改成功,那么修改的結(jié)果應(yīng)該進(jìn)行分析并記入文檔。如果修改沒有成功,應(yīng)該立即撤消這個(gè)修改。同樣重要的是應(yīng)該按照計(jì)劃來進(jìn)行操作。在實(shí)施計(jì)劃的過程中,因?yàn)樵?jì)劃的不完善,有時(shí)很容易嘗試新的方法。這樣做的危險(xiǎn)性是,很快就會(huì)失去對(duì)原計(jì)劃的跟蹤線索,結(jié)果往往使情況更加糟糕。這時(shí),不應(yīng)該離開原來的計(jì)劃,而應(yīng)該返回,重新設(shè)計(jì)你的操作計(jì)劃,然后實(shí)施新的計(jì)劃。

故障處理思路--(5)

六循環(huán)進(jìn)行故障排查

當(dāng)一個(gè)故障排查方案沒有解決故障時(shí),進(jìn)入到循環(huán)故障排查階段。在進(jìn)行下一個(gè)循環(huán)之前,必須將網(wǎng)絡(luò)恢復(fù)到實(shí)施上一個(gè)方案前的狀態(tài)。如果保留上一個(gè)實(shí)施方案對(duì)于網(wǎng)絡(luò)的改動(dòng),則有可能導(dǎo)致新的問題。循環(huán)排錯(cuò)有兩個(gè)切入點(diǎn):針對(duì)某一個(gè)可能原因的排錯(cuò)方案沒有達(dá)到預(yù)期的效果,則執(zhí)行下一個(gè)排錯(cuò)方案。如果所有的方案都沒有起到效果,則需要重新搜集故障信息,制定新的排錯(cuò)方案。

反復(fù)進(jìn)行這個(gè)步驟,直到故障被最終定位。

故障處理思路--(6)

七故障處理過程文檔化

在完成故障處理后,一定要對(duì)整個(gè)的故障排查過程進(jìn)行記錄。網(wǎng)絡(luò)維護(hù)人員需要牢記的一點(diǎn)是:故障處理文檔化的工作絕對(duì)不是可有可無(wú)的事情,因?yàn)椋何臋n是寶貴的經(jīng)驗(yàn)總結(jié),是“經(jīng)驗(yàn)判斷和理論分析”這一個(gè)環(huán)節(jié)的重要的參考資料。文檔記錄了此次排障過程中網(wǎng)絡(luò)參數(shù)所進(jìn)行的修改,這是下一次網(wǎng)絡(luò)故障處理過程當(dāng)中所需要搜集的基礎(chǔ)信息。對(duì)于所形成的文檔,請(qǐng)使用維護(hù)經(jīng)驗(yàn)?zāi)0澹撃0宓木唧w內(nèi)容請(qǐng)參見“附錄B維護(hù)經(jīng)驗(yàn)編寫模板”。

課程內(nèi)容第1章故障處理目的和注意事項(xiàng)第2章常見故障的分類第3章故障處理流程和思路第4章故障處理常用方法第1節(jié)分層法第2節(jié)分段法第3節(jié)分塊法第4節(jié)替換法第5節(jié)差異排除法第5章故障處理常用命令和工具故障處理常用方法—概述

熟悉常用的故障處理方法將能夠拓展故障處理的思路,并提升故障處理效率

需要強(qiáng)調(diào)的一點(diǎn)是:相對(duì)于故障處理方法,故障處理的流程和思路才是故障處理的靈魂,只有在掌握正確的故障處理思路的基礎(chǔ)上熟練運(yùn)用各種故障處理方法才能事半功倍。

分層法--(1)

Internet網(wǎng)絡(luò)在過去的二十年中發(fā)生了巨大的變化和成功,但其成功的關(guān)鍵和精髓:OSI分層參考模型卻一直都沒有發(fā)生過變化。不論是各種各樣的協(xié)議的開發(fā)還是網(wǎng)絡(luò)的規(guī)劃部署等等一系列行為活動(dòng)都滲透著OSI的思想,因此對(duì)于網(wǎng)絡(luò)維護(hù)人員,培養(yǎng)層次化的故障處理思想也非常重要。分層模型對(duì)于故障處理最大的一點(diǎn)啟示是:只有當(dāng)位于低層的網(wǎng)絡(luò)工作正常,其上的高層網(wǎng)絡(luò)才能正常工作。因此在故障處理時(shí),如果不能先確定低層網(wǎng)絡(luò)工作是正常的,卻先去排查高層可能存在的問題,純粹是在浪費(fèi)時(shí)間。舉例:當(dāng)在一個(gè)PPP網(wǎng)絡(luò)中,由于物理層不穩(wěn)定,PPP連接反復(fù)出現(xiàn)UP和DOWN狀態(tài)。這個(gè)問題的表面現(xiàn)象是到達(dá)遠(yuǎn)程端點(diǎn)的路由反復(fù)出現(xiàn)間歇性中斷。如果維護(hù)工程師由此判斷是路由協(xié)議問題,并對(duì)路由協(xié)議進(jìn)行故障診斷,必然是事倍功半。

分層法--(2)

在此介紹下OSI參考模型中的低三層(物理層,數(shù)據(jù)鏈路層和網(wǎng)絡(luò)層)所各自關(guān)注的內(nèi)容,首先是物理層(數(shù)據(jù)鏈路層和網(wǎng)絡(luò)層在后面):

層次實(shí)現(xiàn)功能故障處理關(guān)注點(diǎn)物理層通過介質(zhì)提供物理設(shè)備之間的連接;在連接上進(jìn)行比特流的接收和發(fā)送;與數(shù)據(jù)鏈路層進(jìn)行交互操作。檢查設(shè)備的物理連接方式是否恰當(dāng);連接電纜是否正確;MODEM等設(shè)備的配置是否正確;信號(hào)編碼方式,組幀方式是否對(duì)應(yīng),時(shí)鐘是否對(duì)應(yīng)等。確定路由器端口物理連接是否完好的最佳方法是使用showinterfacexxx命令,檢查每個(gè)端口的狀態(tài),解釋屏幕輸出信息,查看端口狀態(tài)、協(xié)議建立狀態(tài)等。分層法--(3)

繼續(xù)介紹數(shù)據(jù)鏈路層所關(guān)注的內(nèi)容:

層次實(shí)現(xiàn)功能故障處理關(guān)注點(diǎn)數(shù)據(jù)鏈路層

數(shù)據(jù)鏈路層的主要任務(wù)是使網(wǎng)絡(luò)層無(wú)須了解物理層的特征而獲得可靠的傳輸。數(shù)據(jù)鏈路層為通過鏈路層的數(shù)據(jù)進(jìn)行打包和解包、差錯(cuò)檢測(cè)和一定的校正能力,并協(xié)調(diào)共享介質(zhì)。在數(shù)據(jù)鏈路層交換數(shù)據(jù)之前,協(xié)議關(guān)注的是形成幀和同步設(shè)備。查找和排除數(shù)據(jù)鏈路層的故障,需要查看路由器的配置,檢查連接端口的共享同一數(shù)據(jù)鏈路層的封裝情況,每個(gè)接口要和與其通信的其他設(shè)備有相同的封裝。通過showipinterfacebrief命令可以查看,如果協(xié)議是down的,則應(yīng)該是鏈路層問題,或者有可能是沒有配置ip地址(如ppp鏈路);另一個(gè)常見的原因是鏈路利用率高導(dǎo)致鏈路層協(xié)議包文丟失,從而引發(fā)故障(比較常見的是pos端口可能出現(xiàn)這種故障)分層法--(4)

繼續(xù)介紹網(wǎng)絡(luò)層所關(guān)注的內(nèi)容:

層次實(shí)現(xiàn)功能故障處理關(guān)注點(diǎn)網(wǎng)絡(luò)層

網(wǎng)絡(luò)層主要實(shí)現(xiàn)對(duì)數(shù)據(jù)包的分段,打包和重組;發(fā)送icmp差錯(cuò)報(bào)文(比如收到ttl=1的報(bào)文時(shí)候?qū)⑾驁?bào)文源地址發(fā)送一個(gè)差錯(cuò)報(bào)文,或者當(dāng)沒有路由的時(shí)候也會(huì)向報(bào)文源地址發(fā)送另外一種類型的差錯(cuò)報(bào)文);最重要的功能是通過路由功能來發(fā)送數(shù)據(jù)報(bào)文。常見的網(wǎng)絡(luò)層故障有地址和子網(wǎng)錯(cuò)誤,地址沖突,路由錯(cuò)誤等。排除網(wǎng)絡(luò)層故障的基本方法是:沿著從源到目標(biāo)的路徑,查看路由器路由表,同時(shí)檢查路由器接口的IP地址。如果路由沒有在路由表中出現(xiàn),應(yīng)該通過檢查來確定是否已經(jīng)輸入適當(dāng)?shù)撵o態(tài)路由、默認(rèn)路由或者動(dòng)態(tài)路由。然后手工配置一些丟失的路由,或者排除一些動(dòng)態(tài)路由選擇過程的故障,包括RIP或者OSPF路由協(xié)議出現(xiàn)的故障。分段法

當(dāng)跨越長(zhǎng)距離和多臺(tái)設(shè)備組成的網(wǎng)絡(luò)的兩臺(tái)主機(jī)(主機(jī)A和B)存在通信不暢的情況時(shí),建議采用分段排查的方法,將網(wǎng)絡(luò)分成若干段。例如:主機(jī)A到ROUTERA;ROUTERA到WAN的連接;WAN本身;WAN到ROUTERB,ROUTERB到主機(jī)B。分段查找問題,從而將一個(gè)比較復(fù)雜的問題縮小成一小段一小段的來排查,降低故障排查難度。

分塊法

當(dāng)網(wǎng)絡(luò)故障具體定位到是某臺(tái)設(shè)備上時(shí),比如說是沒有路由,那么結(jié)合路由器的工作原理,可能的故障點(diǎn)可能包括但不限于如下幾點(diǎn):

路由協(xié)議本身工作不正常,比如:路有協(xié)議鄰居沒有建立,鄰居建立但是沒有學(xué)習(xí)到具體路由,路由協(xié)議做了不應(yīng)該有的策略。底層轉(zhuǎn)發(fā)表異常,比如:內(nèi)存錯(cuò)誤導(dǎo)致協(xié)議表和轉(zhuǎn)發(fā)表不一致,內(nèi)存不夠?qū)е侣酚蔁o(wú)法寫入轉(zhuǎn)發(fā)表。端口配置的地址和掩碼錯(cuò)誤,比如:有沖突等?!?/p>

替換法

替換法是排查硬件故障時(shí)候最常用也最有效的方法,可能的替換的部件包括:光模塊,光纖,端口,單板,設(shè)備整機(jī)等等。但這種方法比較有局限性,因?yàn)楝F(xiàn)場(chǎng)必須有相應(yīng)的備用對(duì)比器件該方法才可行。

例如:

你把你的電腦和另一臺(tái)電腦用網(wǎng)線連接起來,但發(fā)現(xiàn)兩臺(tái)電腦的配置,網(wǎng)卡燈都正常,就是無(wú)法ping通彼此,你又找了根網(wǎng)線換上去,再試,就ping通了,很明顯,是剛才那根網(wǎng)線的問題。當(dāng)然這很容易做到,網(wǎng)線也很容易找到。

差異排除法--(1)

在排除故障時(shí)有可能少數(shù)幾臺(tái)主機(jī)或設(shè)備出現(xiàn)問題,其它設(shè)備或主機(jī)正常工作,并且都實(shí)現(xiàn)相同的目的或功能,這時(shí)可以利用差異排出法,找出問題主機(jī)與正常主機(jī)在網(wǎng)卡配置、IE設(shè)置、操作系統(tǒng)設(shè)置、防火墻設(shè)備的不同,或網(wǎng)絡(luò)設(shè)備的配置、軟件版本、硬件的不同之處,借此來發(fā)現(xiàn)問題所在。

例子1:一個(gè)局域網(wǎng)內(nèi),一臺(tái)主機(jī)無(wú)法上網(wǎng),但其它主機(jī)都正常上網(wǎng),經(jīng)排查,網(wǎng)卡燈正常,該問題主機(jī)能ping通網(wǎng)關(guān),自己和局域網(wǎng)內(nèi)其它所有主機(jī),利用差異排除法,該學(xué)員和其它學(xué)員主機(jī)比較網(wǎng)卡配置,發(fā)現(xiàn)網(wǎng)管地址設(shè)置不正確,更改后,問題解決。

差異排除法--(2)

例子2:在一個(gè)城域網(wǎng)中,業(yè)務(wù)割接之后,若干用戶反饋能登錄QQ,但是無(wú)法打開網(wǎng)頁(yè);經(jīng)過詳細(xì)了解之后有問題的用戶都掛在兩臺(tái)SR下面,且這兩臺(tái)SR上行的鏈路和其他SR所經(jīng)過的傳輸不同,經(jīng)過排查發(fā)現(xiàn)是這兩臺(tái)SR上行鏈路的傳輸MTU設(shè)置有問題,改大后問題解決。

課程內(nèi)容第1章故障處理目的和注意事項(xiàng)第2章常見故障的分類第3章故障處理流程和思路第4章故障處理常用方法第5章故障處理常用命令和工具第1節(jié)故障處理常用命令第2節(jié)故障處理常用工具故障處理常用命令—ping命令

Ping命令是用于檢查IP網(wǎng)絡(luò)連接及主機(jī)是否可達(dá)。其工作原理是:源站點(diǎn)向目的站點(diǎn)發(fā)送ICMPEchoRequest報(bào)文,目的站點(diǎn)收到后回送ICMPEchoReply報(bào)文,以此檢測(cè)兩個(gè)節(jié)點(diǎn)間在IP層的可達(dá)性,檢測(cè)網(wǎng)絡(luò)層是否連通。

關(guān)于ZXR10數(shù)據(jù)設(shè)備以及各種平臺(tái)的主機(jī)上ping命令的使用方法以及使用ping命令來排查故障的具體案例請(qǐng)參考文檔:“RTUB_103_C1網(wǎng)絡(luò)故障診斷常用工具詳解”。注意:

相對(duì)于其他廠家的ping命令,ZXR10數(shù)據(jù)設(shè)備在ping命令中提供了一個(gè)limit參數(shù)用來控制每秒發(fā)出的ping包的數(shù)量:

ZXR10#pingx.x.x.xlimit?0Absolutemode<1-100>NumberofpacketZXR10#pingx.x.x.xlimit0//表示全速,盡全力的ping故障處理常用命令—trace命令

Trace命令是用于測(cè)試報(bào)文從發(fā)送到目的地所經(jīng)過的網(wǎng)關(guān),主要用于檢查網(wǎng)絡(luò)連接是否可達(dá),以及初步確定網(wǎng)絡(luò)發(fā)生故障的位置。其工作原理是:利用報(bào)文IP頭部的TTL域每經(jīng)過一臺(tái)路由器轉(zhuǎn)發(fā)后減一,當(dāng)TTL=0時(shí)向源節(jié)點(diǎn)報(bào)告TTL超時(shí)的特殊icmp報(bào)文來實(shí)現(xiàn)的。網(wǎng)絡(luò)維護(hù)人員經(jīng)常會(huì)結(jié)合使用ping命令和trace命令來排查網(wǎng)絡(luò)故障。

注意:

ZXR10設(shè)備從4603的平臺(tái)之后可以支持vrf下的trace,以便在bgpmpls/vpn環(huán)境中排查故障。

故障處理常用命令—show命令

Show命令對(duì)于日常維護(hù)和故障處理都是非常重要的命令。熟練的掌握各種show命令,并了解顯示信息的含義,是網(wǎng)絡(luò)維護(hù)人員所必須具備的技能之一。ZXR10設(shè)備show命令可在各種命令模式下執(zhí)行,且支持正則表達(dá)式,以方便更快的查找到所需要的信息,常用show命令為:

故障處理常用命令—debug命令(1)

Debug命令是網(wǎng)絡(luò)維護(hù)人員所必須掌握的一條故障處理命令。一般建議使用debug命令配合show命令來定位骨折那個(gè)原因,在配合使用時(shí),應(yīng)遵循如下的規(guī)則:首先使用show命令查看當(dāng)前運(yùn)行狀態(tài),分析可能的故障原因,縮小故障檢查的范圍。打開某個(gè)特定的debug命令,觀察調(diào)試信息變化情況,定位和排除故障。

故障處理常用命令—debug命令(2)

由于debug命令會(huì)消耗大量的系統(tǒng)資源,因此在使用debug命令應(yīng)該注意:只能使用debug命令定位故障,而不是監(jiān)控網(wǎng)絡(luò)運(yùn)行狀態(tài),因此不能長(zhǎng)期打開debug命令。需要選擇在業(yè)務(wù)量不大的時(shí)候使用debug命令。永遠(yuǎn)都不用使用debuga

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論