服務器故障排除方法_第1頁
服務器故障排除方法_第2頁
服務器故障排除方法_第3頁
服務器故障排除方法_第4頁
服務器故障排除方法_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、服務器故障排除方法本文主要是針對一些服務器出現(xiàn)的簡單的故障進行排查處理,主要分三部分,第一部分講的是服務器故障排除的基本原則性問題,第二部分講述了一些服務器硬件故障排除的實例,第三部分講述了一些服務器軟件故障排除的實例第一部分服務器故障排除的基本原則性問題1、 服務器開機無顯示應怎么辦1. 檢查供電環(huán)境,零-火;零-地電壓?2. 檢查電源指示燈,如果亮,正常嗎?3. 按下電源開關時,鍵盤上指示燈亮嗎?風扇全部轉動嗎?4. 是否更換過顯示器,更換另一臺顯示器。5. 去掉增加內存。6. 去掉增加的CPU7. 去掉增加的第三方I/O 卡8. 檢查內存和CPU 插的是否牢靠9. Clear CMOS1

2、0. 更換主要備件,如系統(tǒng)板,內存和CPU2、 服務器故障排錯的基本原則是什么1. 盡量恢復系統(tǒng)缺省配置a硬件配置:去除第三方廠商備件和非標配備件;b:資源配置:清除 CMOS,恢復資源初始配置;c: BIOS, F/W ,驅動程序:升級最新的BIOS, F/W 和相關驅動程序;d: TPL:擴展的第三方的I/O卡屬于該機型的硬件兼容列表( TPL)嗎?2. 從基本到復雜a系統(tǒng)上從個體到網絡:首先將存在故障的服務器獨立運行,待測試正常后再接入網絡 運行,觀察故障現(xiàn)象變化并處理。b:硬件上從最小系統(tǒng)到現(xiàn)實系統(tǒng):指從可以運行的硬件開始逐步到現(xiàn)實系統(tǒng)為止。c: 軟件上從基本系統(tǒng)到現(xiàn)實系統(tǒng):指從基本操

3、作系統(tǒng)開始逐步到現(xiàn)實系統(tǒng)為止。3. 交換對比a在最大可能相同的條件下,交換操作簡單效果明顯的部件;4. 交換 NOS 載體,既交換軟件環(huán)境;c:交換硬件,既交換硬件環(huán)境;d:交換整機,既交換整體環(huán)境;3、 服務器故障排除需要收集哪些信息?服務器信息:1. 機器型號2. 機器序列號(S/N: 如: NC00075534)編輯版 word3. Bios 版本4. 是否增加其它設備,如網卡,SCSI 卡,內存,CPU5. 硬盤如何配置,是否做陣列, 陣列級別6. 安裝什么操作系統(tǒng)及版本(Winnt 4, Netware, Sco, others)故障信息1. 在 POST 時 ,屏幕顯示的異常信息2

4、. 服務器本身指示燈的狀態(tài)?3. 報警聲和BEEP CODES4. NOS 的事件記錄文件?5. Events Log 文件確定故障類型和故障現(xiàn)象:1. 開機無顯示;2. 上電自檢階段故障;3. 安裝階段故障和現(xiàn)象;4. 操作系統(tǒng)加載失敗;5. 系統(tǒng)運行階段故障;第二部分服務器硬件故障處理幾例硬件故障是指服務器硬件出現(xiàn)異常而導致的各類錯誤。由于服務器構成比較復雜,因此在檢查的時候必須認真、仔細。下面以一臺萬全4500為例說明。(例子,在實際問題中如果遇到相似現(xiàn)象,也需要具體問題具體分析,不要盲目套用);編輯版 word有一臺萬全4500, 配有 256M 內存, 使用一個PIII XEON 5

5、00 帶 2M 高速緩存的處理器。開機后沒有任何顯示,但系統(tǒng)日志上提示了一條CPU 電壓為 0 伏的信息,系統(tǒng)指示燈三燈不停在閃爍(指示燈三燈閃爍是服務器的另一種報警方式,我會在文后說明)。這種錯誤一般是處理器電壓調節(jié)模塊(VRM )出錯或CPU 出錯或 CPU 與 CPU 板塊接觸不良,但也可能是 CPU 板塊出錯,這時情況就比較復雜了,必須經過認真慎重的思考。因為CPU 板塊在整個服務器中,占有舉足輕重的地位,如果它出錯服務器是會報致命錯誤的,并且在系統(tǒng)日志中會提示致命錯誤,但報CPU 電壓錯的情況也有5%左右。我們立刻把CPU 調換在另一CPU 插槽中, 開機后依然是剛才的那種故障。所以

6、在初步判斷中,可以排除是CPU 板塊壞。這時,取出CPU 仔細擦拭金手指,以及CPU 板塊中與CPU 接觸的地方后,開機依然無顯示。相對處理器壞的情況來說處理器電壓模塊(VRM )出現(xiàn)故障的情況比較大。于是立即在另一臺萬全4500 中取下一個處理器電壓模塊,安裝在此服務器中。開機后,服務器依然沒有任何顯示,系統(tǒng)日志上依然提示CPU 電壓為 0 伏的信息,系統(tǒng)指示燈三燈依然不停在閃爍。這時的情況就比較明顯了。于是立即從另一臺萬全4500 中取下一個CPU 安裝后,開機正常??偨Y:在服務器的維修中,線索都會顯得撲朔迷離,一般來說不可能一次就可以準確地判斷出問題的所在。這樣就要求相關人員要有信心及耐

7、心。出現(xiàn)錯誤一般的流程是通過系統(tǒng)日志上的信息來解決,如果沒有解決問題再找出其它因素,然后再看日志信息??傊?,服務器出錯后,必須一步一步解決,沒有捷徑可言。又如:有一臺萬全4200開機不顯示,發(fā)現(xiàn)開機時系統(tǒng)日志沒有任何信息,且系統(tǒng)指示燈不亮。初步判斷是電源方面出現(xiàn)了錯誤。經過仔細檢查,發(fā)現(xiàn)服務器的電源是正常的,因此最大的可能就是服務器的電源管理板出現(xiàn)故障。更換電源管理板后,開機顯示正常。但這時,新的問題來了:自檢時,用CTRL+M 不能檢測到硬盤。硬盤在別的服務器上是正常的,因此立即清除此服務器的CMOS, 但依然不正常。立刻上網找到此服務器的最新 BIOS,升級BIOS后也不能解決問題。又檢查

8、硬盤籠子和服務器里的數據線及電源線后依然出錯。這時,一般情況會懷疑是服務器的I/O 板(輸入輸出板塊)有問題。但就在這個時候,我發(fā)現(xiàn)在I/O 板上有一個非聯(lián)想的舊式網卡,立即去除此網卡后服務器就一切正常。硬件故障并不單單指硬件有問題,它也指硬件之間不兼容。因為服務器的正常運作需要各部件之間的大力協(xié)調。建議大家在采購各元件時,都采用同一品牌原裝的,并且要采用能發(fā)揮服務器性能的元件(上例中的舊式網卡即使正常也會嚴重影響服務器性能),這樣才不會發(fā)生莫明其妙的故障。還有一種情況:用戶需要把他的萬全3200 升級到雙網卡,我建議他購買原裝網卡,但當他看到萬全4500的網卡是采用的INTEL 82559

9、芯片后,斷然決定不使用原裝網卡而采用另一品牌也采用INTEL 82559 的網卡。過了幾天,他打電話給我說,他的新網卡不能使用網絡冗余及數據校驗,并懷疑服務器有問題。維修工程師帶了一個INTEL 82559 網卡到用戶那里,仔細檢查了服務器的環(huán)境完全正常后,把INTEL 82559 網卡安裝到機器上后一切正常。 這個例子更加說明了,要發(fā)揮服務器的最大性能及功能,必須使用原品牌原裝的配件。非原品牌非原裝的配件,不能支持服務器的某些功能,嚴重的會影響到服務器的正常使用。要避免硬件故障發(fā)生頻率,服務器管理人員必須注意服務器的使用環(huán)境完全正常。比較重要的服務器必須在恒溫、恒濕的環(huán)境;電壓也要符合,不僅

10、要采用UPS,還必須接地線,必須是左零線、右火線,零地電壓在13 伏。在開、關服務器上必須符合正常的流程。工作人員必須嚴格執(zhí)行操作流程。一般情況來說,服務器維修人員對于硬件故障只要有豐富的經驗都能很快找出故障所在,如果不能解決就必須迅速與服務器的售后服務中心8008108888聯(lián)系。第三部分服務器常見軟故障解決思路與實例服務器軟件故障是在服務器故障中占有比例最高的部份,約占70%, 解決的過程必須更加深思熟慮。導致服務器出現(xiàn)軟件故障的原因有很多,最常見的是服務器BIOS 版本太低、服務器的管理軟件或服務器的驅動程序有BUG 、應用程序有沖突及人為造成的軟件故障。下面分別舉例說明各類軟件故障的維

11、修方法。有一臺萬全3500服務器,配置為雙PIII 500 帶 521K 高速緩存的CPU、 512M 內存。開機后, 系統(tǒng)日志報電壓調節(jié)模塊異常( VRM ) 的錯誤, 報錯的信息是:“ Voltage Regulator Module(VRM) over/under-voltage 2.88V/0V ”。從表面來看,極有可能是服務器的電壓調節(jié)模塊或其它硬件出現(xiàn)故障,極容易導致維護人員認為是硬件故障。維護人員立刻使用其它萬全3500的硬件來測試,發(fā)現(xiàn)即使使用新的配件,此服務器依然報VRM 錯。就在一籌莫展的時候,維修工程師帶來了最新的CPU管理板(CPU Management Control

12、)的固件(FIRMWARE ),于是升級了CPU 管理板塊的FIRMWARE 后,服務器恢復立即正常。FIRMWARE 升級方法是,1) 用軟盤啟動計算機,然后插入firmware 軟盤并運行上面的相關文件cabrillo ; 2)系統(tǒng)刷新BMC (主板控制器)和 HSC (熱插拔背板控制器);3)然后系統(tǒng)詢問執(zhí)行第幾個選項(通常為2) ; 4) 然后系統(tǒng)詢問服務器的電源配置(通常為2) ; 5)如果回答有兩個電源,系統(tǒng)詢問服務器是否有輔助風扇即在第三個電源(冗余電源) 的位置上是否有風扇(通常為N ) ; 6) 然后系統(tǒng)詢問是否重寫B(tài)MC kernel use area;(通常為N )然后系

13、統(tǒng)詢問是否輸入一個asset tag; (通常為N )7)最后系統(tǒng)詢問在刷新后是否要重新啟動系統(tǒng);(通常為Y) 。這種升級方法也適合刷新系統(tǒng)BIOS 等,命令的參數不同以及更新FIRMWARE 及 BIOS 文件名不同,參數請參考服務器的說明。任何一款服務器的 FIRMWARE及BIOS都會有不同的 BUG,因為BUG在所難免,所以我們不能錯誤地認為服務器的BIOS 程序就很完善,而應該經常更新服務器的FIRMWARE及BIOS,只是在升級之前應該小心謹慎,錯誤的升級方法將會導致嚴重的后果。目前流行的中高檔服務器都擁有強大的管理程序,為客戶提供了方便的管理途徑;服務器也擁有各種操作系統(tǒng)下的驅動

14、程序,方便了客戶在各種操作系統(tǒng)中的使用。但是, 世上任何一款程序都會有一些BUG, 這些 BUG 將影響用戶使用。但是服務器廠商總是會在第一時間內開發(fā)出新的程序,客戶只需要及時更新這些程序就可以避免這類故障。當服務器的軟件故障為此類時,表現(xiàn)的現(xiàn)象也不盡相同。一般來說,管理程序BUG 會導致系統(tǒng)速度變慢,CPU 占用率變高,無法正常使用某些功能等;驅動程序的BUG 會導致死機、 與某些軟件有沖突,磁盤工作不穩(wěn)定等。查看管理程序是否出錯的最好的辦法就是在系統(tǒng)中首先禁止此類管理工具,再觀察服務器是否還是異常。由于管理工具是隨著系統(tǒng)啟動而啟動的,所以應首先避免它的啟動。以WINDOWS NT4 為例,

15、就首先在管理工具服務中禁用某些服務器軟件服務,再修改注冊表中的啟動項即可。如果是驅動程序有問題的話,就以安全模式進入系統(tǒng),看是否正常。但是需要注意的是,在安全模式中,系統(tǒng)速度變慢是正常的(特別是磁盤I/O 方面) 。服務器的維護人員就應該經常在服務器網站上下載最新的管理工具程序及驅動程序。這樣會減少很大一部份軟件故障的發(fā)生。相比之下,軟件沖突造成的故障判斷比較困難,需要管理人員有比較豐富的經驗以及敏銳的觀察力。曾經有一位用戶說,他有一臺萬全的服務器無法安裝SQL SERVER 2000,已經重裝N次 NT 了, 排除是系統(tǒng)故障。而這唯一的服務器又將作為非常重要數據庫服務器,因此非常著急。 于是

16、維修工程師去了他的公司查看。這臺服務器所在的機房是非常標準、完善的機房,檢查了這臺服務器的情況,發(fā)現(xiàn)并沒有硬件上的故障,于是排除了光驅讀盤力差的可能。但是,用戶刻的SQL SERVER 2000 光盤引起了工程師的懷疑,工程師讓他拿出了正版的SQLSERVER 安裝,結果還是不行。在安裝的過程中,沒有出現(xiàn)絲毫錯誤,可就是在運行的時候會自動退出,沒有任何提示。但是, 我在管理工具中的事件查看器的系統(tǒng)日志中卻發(fā)現(xiàn)了一條信息:windata.exe導致一個無效的數據溢出。Windata是用戶自己編寫的一個程序,而且是隨操作系統(tǒng)啟動而啟動的程序。我立即結束掉這個進程后,再運行SQL 一切正常。對于此類軟件故障,操作員最好先查看有關的日志,看看系統(tǒng)中是否有可疑的進程。目前的服務器無論是高端還是低端,對于SQL 等標準程序的支持是相當可靠的,所以排除的重點就是結束可疑進程。還有一種

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論