




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、計算機(jī)容錯技術(shù)魏贇第1頁,共280頁。第一章 概述容錯和可靠性容錯技術(shù)的發(fā)展概況容錯技術(shù)的主要內(nèi)容容錯技術(shù)應(yīng)用第2頁,共280頁。一、容錯和可靠性故障、失效和錯誤的概念可靠性的概念容錯的概念可靠性和容錯的關(guān)系第3頁,共280頁。(一)故障、失效和錯誤的概念失效(failure)是指硬件物理特性異變,或軟件不能完成規(guī)定功能的能力。故障(fault)是指硬件或軟件的錯誤狀態(tài),是失效在邏輯上的等效。一個故障可以用種類、值、影響范圍和發(fā)生時間來描述。錯誤(error)是指程序或數(shù)據(jù)結(jié)構(gòu)中的故障表現(xiàn)形式,是故障和失效所造成的后果。容錯設(shè)計的軟件可以有某些規(guī)定數(shù)目的故障但不導(dǎo)致失效,但對無容錯的軟件而言,
2、故障即失效。第4頁,共280頁。故障的分類 若按邏輯性來分邏輯故障:造成邏輯值發(fā)生變化的故障非邏輯故障:造成象時鐘(clock)或電源出錯等錯誤的故障按時間劃分: 永久性故障:調(diào)用診斷程序進(jìn)行故障定位,然后采取糾錯措施 間隔性故障:可以通過更換硬件或軟件等途徑來達(dá)到修復(fù)的目的 偶然性故障:只能靠改善環(huán)境條件等努力來減少這類故障 第5頁,共280頁。錯誤的根源第6頁,共280頁。(二)可靠性概念實現(xiàn)系統(tǒng)可靠性的方法系統(tǒng)可靠性的指標(biāo)第7頁,共280頁。1、概念可靠性的含義廣義:一切旨在避免、減少、處理、度量軟件/硬件故障(錯誤、缺陷、失效)的分析、設(shè)計、測試等方法、技術(shù)和實踐活動。狹義:指軟件/硬
3、件無效運行的定量度量。可靠度:在規(guī)定的運行環(huán)境中和規(guī)定的時間內(nèi)軟件無失效運行的機(jī)會。第8頁,共280頁。2、實現(xiàn)系統(tǒng)的可靠性排錯容錯第9頁,共280頁。排錯避免故障,通過對組成系統(tǒng)的部件進(jìn)行嚴(yán)格的篩選、對系統(tǒng)進(jìn)行嚴(yán)格的測試、對系統(tǒng)進(jìn)行屏蔽以減少外界的干擾等方法來提高系統(tǒng)的可靠性。第10頁,共280頁。容錯即使采用了排錯技術(shù),一個計算機(jī)系統(tǒng)還是遲早會發(fā)生故障的。因此在設(shè)計計算機(jī)系統(tǒng)時應(yīng)考慮一旦發(fā)生故障能自動檢測出故障并使系統(tǒng)自動恢復(fù)正常運行。這樣設(shè)計出來的計算機(jī)系統(tǒng)在發(fā)生故障后仍能正確運行。容錯技術(shù)是從系統(tǒng)結(jié)構(gòu)方面來提高計算機(jī)系統(tǒng)的可靠性容錯技術(shù)與排錯技術(shù)并不是相互對立的,它們可以相互補(bǔ)充,構(gòu)成
4、高可信的計算機(jī)系統(tǒng)第11頁,共280頁。3、系統(tǒng)可靠性的指標(biāo)可靠性可維性可用性第12頁,共280頁。可靠性計算機(jī)機(jī)的可靠性指:計算機(jī)在規(guī)定的條件和規(guī)定的時間內(nèi)完成規(guī)定的功能的概率規(guī)定的條件:環(huán)境條件,使用條件,維修條件,操作技術(shù)失效:產(chǎn)品在規(guī)定的條件下和規(guī)定的時間內(nèi)喪失了規(guī)定的功能。失效率:指計算機(jī)在某一瞬間元件失效數(shù)與元件總數(shù)的比率。第13頁,共280頁??删S性可維性(Serviceability)是指在規(guī)定的時間內(nèi),按照規(guī)定的程序和方法進(jìn)行維修時,保持或恢復(fù)到能完成規(guī)定的功能的能力通常指從判定故障到排除故障所需要的時間,包括故障診斷、故障定位、系統(tǒng)校正和恢復(fù)等時間??杀3中裕∕aintai
5、nability)是指系統(tǒng)在給定的時間內(nèi)可隔離故障或修復(fù)的概率。它表征了系統(tǒng)可以正常運行的效率。第14頁,共280頁??捎眯钥捎眯裕ˋvailability)稱有效率或利用率,是可維修部件在某時間具有維持規(guī)定功能的能力,即計算機(jī)系統(tǒng)的利用效率,也是系統(tǒng)在執(zhí)行任務(wù)的任意時刻能正常工作的概率。第15頁,共280頁。(三)容錯技術(shù)概念容錯(Fault-tolerance):容忍故障,考慮故障一旦發(fā)生時能夠自動檢測出來并使系統(tǒng)能夠自動恢復(fù)正常運行。當(dāng)出現(xiàn)某些指定的硬件故障或軟件錯誤時,系統(tǒng)仍能執(zhí)行規(guī)定的一組程序,或者說程序不會因系統(tǒng)中的故障而中止或被修改,并且執(zhí)行結(jié)果也不包含系統(tǒng)中故障所引起的差錯。第
6、16頁,共280頁。容錯計算機(jī)系統(tǒng):在發(fā)生故障或存在軟件錯誤的情況下仍能繼續(xù)正確完成指定任務(wù)的計算機(jī)系統(tǒng)。設(shè)計與分析容錯計算機(jī)系統(tǒng)的各種技術(shù)稱為容錯技術(shù)容錯技術(shù)從系統(tǒng)結(jié)構(gòu)出發(fā)來提高系統(tǒng)的可靠性,與排錯技術(shù)相互補(bǔ)充,構(gòu)成高可信度的系統(tǒng)第17頁,共280頁。實現(xiàn)容錯計算的四個方面(1)不希望事件的檢測。不希望事件是指失效、故障、差錯等等。為容忍系統(tǒng)中的不希望事件,應(yīng)首先對其進(jìn)行檢測。(2)損壞估價。由于一個故障的出現(xiàn)和它的失效結(jié)果之間可能存在延遲,故障可能已經(jīng)傳播到該系統(tǒng)的其他地方,導(dǎo)致故障的擴(kuò)大。因此,在作出一個被檢測的故障有關(guān)的決定之前,有必要判定系統(tǒng)已被破壞的程度,這依賴于系統(tǒng)設(shè)計者的策略和
7、已有的探測技術(shù)。第18頁,共280頁。(3)不希望事件的恢復(fù)。在不希望事件檢測和損壞估價之后,應(yīng)采用不希望事件恢復(fù)技術(shù),把目前的錯誤系統(tǒng)狀態(tài)轉(zhuǎn)換成一個正確的系統(tǒng)狀態(tài)。(4)不希望事件處理和繼續(xù)服務(wù)。確保已被恢復(fù)的不希望事件效應(yīng)不會立即再現(xiàn),以使系統(tǒng)繼續(xù)提供規(guī)定的服務(wù)。第19頁,共280頁。容錯系統(tǒng)的一般階段故障限制:當(dāng)故障出現(xiàn)時,希望限制其影響范圍。故障限制是把故障效應(yīng)的傳播限制到一個區(qū)域內(nèi),從而防止污染其他區(qū)域。故障檢測:大多數(shù)失效最終導(dǎo)致產(chǎn)生邏輯故障。有許多方法可用來檢測邏輯故障,如奇偶校驗、一致性校驗都可用來檢測故障。故障檢測技術(shù)有兩個主要的類別,即脫機(jī)檢測和聯(lián)機(jī)檢測,在脫機(jī)檢測情況下,
8、進(jìn)行測試時設(shè)備不能進(jìn)行有用的工作;聯(lián)機(jī)檢測提供了實時檢測能力,因為聯(lián)機(jī)檢測與有用的工作同時執(zhí)行。聯(lián)機(jī)檢測技術(shù)包括奇偶校驗和二模冗余校驗。故障屏蔽:故障屏蔽技術(shù)把失效效應(yīng)掩蓋了起來,從某種意義上說,是冗余信息戰(zhàn)勝了錯誤信息,多數(shù)表決冗余設(shè)計就是故障屏蔽的一個例子。重試:在許多場合,對一個操作的第二次試驗可能是成功的,對不引起物理破壞的瞬間故障尤其是這樣。診斷 如果故障檢測技術(shù)沒有提供有關(guān)故障位置和/或性質(zhì)的信息,那么就需要一個診斷。第20頁,共280頁。重組:當(dāng)檢測出一個故障并判明是一個永久性故障時,這時重組系統(tǒng)的器件以便替代失效的器件或把失效的器件與系統(tǒng)的其他部分隔離開來,也可使用冗余系統(tǒng),系
9、統(tǒng)能力不降低。恢復(fù):檢測和重組(若必要的話)之后,必須消除錯誤效應(yīng)。通常,系統(tǒng)會回到故障檢測前處理過程的某一點,并從這一點重新開始操作。這種恢復(fù)形式(一般叫卷回)通常需要后備文件、校驗點和應(yīng)用記錄方法。重啟動:如果一個錯誤破壞的信息太多,或者系統(tǒng)沒有設(shè)計恢復(fù)功能,那么恢復(fù)功能也許就不可能。僅當(dāng)系統(tǒng)未受任何破壞時,才能進(jìn)行“熱”重啟(從故障檢測點恢復(fù)所有操作的)?!皽亍敝貑⒅竷H有某些過程可以毫無損失的重新啟動,“冷”重啟相當(dāng)于系統(tǒng)需要完全重新加載。修復(fù):把診斷為故障的器件換下來,與故障檢測一樣,修復(fù)也可以是聯(lián)機(jī)進(jìn)行的或者脫機(jī)進(jìn)行的。重構(gòu):對元件進(jìn)行物理替換之后,把修復(fù)的模塊重新加入到該系統(tǒng)中去。
10、對聯(lián)機(jī)修復(fù)來說,實現(xiàn)重構(gòu)不中斷系統(tǒng)的工作。第21頁,共280頁。二、容錯技術(shù)的發(fā)展概況第一代計算機(jī)(1946-1957)第二代計算機(jī)(1957-1964)第三代計算機(jī)(1964-1970)第四代計算機(jī)(1970-)現(xiàn)在第22頁,共280頁。第一代計算機(jī)(1946-1957)元件:電子管、繼電器及延遲線存儲器問題:元件的失效率相當(dāng)高,并易受瞬時故障的影響措施:特別設(shè)置的硬件故障檢測和人工恢復(fù)第23頁,共280頁。1956,SAPO,捷克,三個CPU同時工作,對運算結(jié)果進(jìn)行表決,存儲器采用奇偶校驗,具有單條指令重復(fù)執(zhí)行的功能SAGE, ,用于防空系統(tǒng),采用雙機(jī)比較以檢測故障,并配合以恢復(fù)技術(shù)第24
11、頁,共280頁。第二代計算機(jī)(1957-1964)元件:晶體管及磁芯存儲器問題:失效率比第一代計算機(jī)元件大為降低措施:避錯技術(shù)占統(tǒng)治地位,對故障一般采用診斷程序進(jìn)行脫機(jī)檢測第25頁,共280頁。第三代計算機(jī)(1964-1970)元件:集成電路問題:元件的失效率繼續(xù)降低,但計算機(jī)應(yīng)用范圍擴(kuò)大,對計算機(jī)系統(tǒng)的可信性要求更高措施:容錯技術(shù)重新提出,并得到了較快的發(fā)展,并出現(xiàn)了許多 容錯計算機(jī)第26頁,共280頁。實例1964 土星V號運載火箭導(dǎo)航計算機(jī)研制成功,該機(jī)采用三模冗余及奇偶校驗來實現(xiàn)容錯1969, 噴射推進(jìn)實驗室的STAR計算機(jī),其處理機(jī)采用三重表決加備份的混合冗余方式,并用算術(shù)檢錯碼及雙
12、機(jī)比較檢測故障。1965,貝爾實驗室研制成功1號ESS處理機(jī),是用于 交換的計算機(jī)系統(tǒng),采用了雙機(jī)比較技術(shù),是專用的硬件及軟件進(jìn)行故障的檢測、定位及識別。第27頁,共280頁。第四代計算機(jī)(1970-)元件:大規(guī)模和超大規(guī)模集成電路問題:硬件可靠性大大提高而價格卻大幅度降低,使采用各種容錯技術(shù)在經(jīng)濟(jì)上更易接受。需求:容錯技術(shù)應(yīng)用范圍擴(kuò)展于 事務(wù)處理及各種實時控制系統(tǒng),甚至許多通用計算機(jī)系統(tǒng)也采用了容錯技術(shù)第28頁,共280頁。實例1975, 貝爾實現(xiàn)室的3A號ESS處理1975, TANDEM 16容錯事務(wù)處理系統(tǒng)1976, AMDAHL 470V/6容錯通用計算機(jī)1978,容錯空間計算機(jī)FT
13、SC1979,IBM推出容錯的4300通用計算機(jī)系列1980,容錯多處理機(jī)FTMP及軟件實現(xiàn)的容錯計算機(jī)SIFT研制成功第29頁,共280頁。80年代以來出現(xiàn)了商用容錯計算機(jī)市場分布式容錯計算機(jī)系統(tǒng)的出現(xiàn)容錯的VLSI技術(shù)人工智能在容錯技術(shù)上的應(yīng)用計算機(jī)故障診斷專家系統(tǒng)第30頁,共280頁。容錯計算方面的理論工作1952,馮諾依曼作了一系列關(guān)于用重復(fù)邏輯模塊改善系統(tǒng)可靠性的報告1956,他發(fā)表論文概率邏輯及用不可靠元件設(shè)計可靠的結(jié)構(gòu)1971年以來,IEEE計算機(jī)學(xué)會容錯技術(shù)委員會每年召開一次國際容錯計算學(xué)術(shù)會議1987年中國計算機(jī)學(xué)會成為了容錯計算專業(yè)委員會第31頁,共280頁。三、容錯技術(shù)的
14、主要內(nèi)容故障檢測與診斷技術(shù)故障屏蔽技術(shù)動態(tài)冗余技術(shù)軟件容錯技術(shù)信息保護(hù)技術(shù)第32頁,共280頁。1、故障檢測和診斷技術(shù)容錯技術(shù)的主要組成部分,又是微電子技術(shù)的支撐技術(shù)故障檢測(Fault Detection):判斷系統(tǒng)是否存在故障的過程故障定位(Fault Location):判斷系統(tǒng)在哪里發(fā)生故障的過程故障測試(Fault Testing):又稱故障診斷(Fault Diagnosis),故障檢測和故障定位,主要包括:測試集生成技術(shù),功能測試技術(shù),系統(tǒng)診斷技術(shù)第33頁,共280頁。故障檢測的作用是確認(rèn)系統(tǒng)是否發(fā)生了故障,指示故障的狀態(tài),即查找故障源和故障性質(zhì)。一般來說,故障檢測只能找到錯誤點
15、(錯誤單元),不能準(zhǔn)確找到故障點。故障診斷的作用是給出故障定位?;跈z錯糾錯碼的編碼技術(shù)。在數(shù)據(jù)的傳輸、存儲、處理過程中,根據(jù)信息位和校驗位之間的相關(guān)性進(jìn)行檢查,判定信息是否出錯、錯在哪里,并進(jìn)行糾正。常用的檢錯碼編碼技術(shù)有奇偶校驗碼、循環(huán)碼、海明碼等。其他故障檢測與診斷技術(shù)第34頁,共280頁。2、故障屏蔽技術(shù)故障屏蔽技術(shù)是防止系統(tǒng)中的故障在該系統(tǒng)的信息結(jié)構(gòu)中產(chǎn)生差錯的各種措施的總稱,其實質(zhì)是在故障效應(yīng)達(dá)到模塊的輸出以前,利用冗余資源將故障影響掩蓋起來,達(dá)到容錯目的。特點:不改變系統(tǒng)的結(jié)構(gòu),即系統(tǒng)部件之間的邏輯關(guān)系相互固定,又稱靜態(tài)冗余技術(shù)第35頁,共280頁。故障屏蔽技術(shù)元件級故障屏蔽技術(shù)
16、邏輯級故障屏蔽技術(shù)主要用于設(shè)計一些高可靠性的容錯專用集成電路芯片和不宜放在功能模塊一級上進(jìn)行容錯設(shè)計的關(guān)鍵硬核模塊級故障屏蔽技術(shù)系統(tǒng)級故障屏蔽技術(shù)由兩個以上的相同系統(tǒng)合成一個系統(tǒng),冗余系統(tǒng)間通過相互校驗來保持正常運行。第36頁,共280頁。3、冗余技術(shù)硬件冗余:在常規(guī)設(shè)計的硬件之外附加備份硬件,包括靜態(tài)冗余、動態(tài)冗余時間冗余:重復(fù)地執(zhí)行指令或一段程序而附加額外的時間信息冗余:增加信息的多余度,使其具有檢錯和糾錯能力軟件冗余:用于測試、檢錯的外加程序第37頁,共280頁。4、軟件容錯技術(shù)軟件容錯是指在出現(xiàn)有限數(shù)目的軟件故障的情況下,系統(tǒng)仍可提供連續(xù)正確執(zhí)行的內(nèi)在能力。其目的是屏蔽軟件故障,恢復(fù)因
17、出故障而影響的運行進(jìn)程。軟件容錯技術(shù)主要包括N版本程序設(shè)計和恢復(fù)塊技術(shù)第38頁,共280頁。5、信息保護(hù)技術(shù)信息保護(hù)技術(shù),是指為了防止信息被不正當(dāng)?shù)卮嫒』蚱茐亩扇〉拇胧?。基本的信息保護(hù)技術(shù)分為以下四種:編碼化與密碼化、資格檢查、內(nèi)存保護(hù)、外存保護(hù)。第39頁,共280頁。四、容錯技術(shù)的發(fā)展和應(yīng)用容錯技術(shù)的應(yīng)用是網(wǎng)絡(luò)時代電子商務(wù)的客觀需求 軟件容錯技術(shù)將有較大進(jìn)展硬件容錯、操作系統(tǒng)容錯相結(jié)合的容錯設(shè)計方法將備受重視 VLSI的容錯設(shè)計技術(shù)將發(fā)揮巨大作用 系統(tǒng)容錯設(shè)計的應(yīng)用目標(biāo)明確 第40頁,共280頁。容錯技術(shù)應(yīng)用向PC發(fā)展 容錯技術(shù)向智能化發(fā)展 容錯技術(shù)應(yīng)用和應(yīng)用服務(wù)技術(shù)相結(jié)合 容錯技術(shù)將走向
18、開放化、標(biāo)準(zhǔn)化 第41頁,共280頁。第二章 故障自檢測與自診斷技術(shù)2.1 聯(lián)機(jī)檢測和脫機(jī)檢測2.2 邏輯網(wǎng)絡(luò)的故障安全與自校驗特性2.3 自校驗網(wǎng)絡(luò)的基本結(jié)構(gòu)第42頁,共280頁。2.1 聯(lián)機(jī)檢測和脫機(jī)檢測聯(lián)機(jī)檢測與診斷:在系統(tǒng)運行期間實現(xiàn)自我檢測與診斷的過程,也叫自檢測與自診斷,是提高系統(tǒng)可靠性的重要環(huán)節(jié)。脫機(jī)檢測與診斷:在系統(tǒng)非運行期間進(jìn)行檢測與診斷,是提高系統(tǒng)可用度、可維性的重要環(huán)節(jié)。第43頁,共280頁。聯(lián)機(jī)檢測與診斷的方法在系統(tǒng)中投入一定的冗余資源(指超過系統(tǒng)額定功能所需的資源),使系統(tǒng)在運行中不僅能輸出功能所要求的信息,而且能輸出一些額外的信息。實質(zhì)是可靠性編碼技術(shù)在系統(tǒng)設(shè)計中的
19、應(yīng)用,是一種以硬件冗余為主的檢測與診斷技術(shù)第44頁,共280頁。一個自檢測的系統(tǒng),其所有可能的輸出值的集合為U(輸出空間),由S和U-S兩部分組成S:系統(tǒng)的輸出碼,系統(tǒng)無故障時的輸出U-S:系統(tǒng)出現(xiàn)故障時候的輸出,若能指示系統(tǒng)是否發(fā)生故障,則稱之為檢錯碼;若能指示系統(tǒng)中哪個部件發(fā)生的故障,則稱之為診錯碼第45頁,共280頁。脫機(jī)檢測與診斷的方法應(yīng)用軟件診斷程序,先優(yōu)化生成并輸入一組測試向量給系統(tǒng),然后觀測并分析系統(tǒng)的測試響應(yīng),以確定系統(tǒng)是否發(fā)生故障或哪個部件發(fā)生的故障。第46頁,共280頁。2.2 邏輯網(wǎng)絡(luò)的故障安全與自校驗特性1、故障安全特性2、自校驗特性第47頁,共280頁。1、故障安全特
20、性一個數(shù)字邏輯網(wǎng)絡(luò),對給定故障集F,如果在任何有效輸入碼激勵下,都不會因為故障而輸出錯誤的有效輸出碼,則稱它對故障集F是故障安全(Fault-Secure,F(xiàn)SE)的。若該網(wǎng)絡(luò)在任意輸入碼激勵下,對給定故障集F都不會輸出錯誤的有效輸出碼,則稱它對故障集F是強(qiáng)故障安全的。第48頁,共280頁。輸入是正確的,則輸出為正確的有效碼或無效碼,而不會輸出錯誤的有效碼這樣的系統(tǒng)不會因為故障存在而造成錯誤的有效輸出,稱之為故障安全的系統(tǒng)第49頁,共280頁。若輸出是無效碼,則該系統(tǒng)必有故障存在若輸出的是有效碼,則不能斷定該系統(tǒng)是否有故障,但可斷定它的輸出是正確的系統(tǒng)可能存在不可測故障第50頁,共280頁。2
21、、自校驗特性如果一個數(shù)字邏輯網(wǎng)絡(luò)對于給定故障集F內(nèi)的每一個故障,至少存在一個有效的輸入碼能使它的輸出產(chǎn)生一個無效輸出碼字,則稱該網(wǎng)絡(luò)對于故障集F是可自校驗(Self-Testing,ST)的。凡可自校驗的系統(tǒng),可從觀測輸出碼字是否為有效碼字來判別其是否有故障,而且一定有一個校驗碼就包含在有效的輸出碼字集合中。第51頁,共280頁。故障安全特性和自校驗特性所有故障的集合:可自校驗的故障集Ft,安全故障集Fs;所有輸入向量的集合:正常輸入集N,故障安全輸入集I;所有輸出向量的集合:輸出碼空間S表示沿未引起錯誤的故障或表示系統(tǒng)無故障,Z(Xi,)表示系統(tǒng)無故障時的輸出Z(Xi,fi)表示在Xi輸入時
22、,系統(tǒng)對故障fi的輸出第52頁,共280頁。所有故障FtFsf1f2f3所有輸入向量NX1IX2X3所有輸出向量SZ(X1,f1)Z(X1,f3)Z(X1,f2)Z(X1,)Z(X2,)Z(X2,f2)Z(X2,f3)Z(X2,f1)Z(X3,f2)Z(X3,)自校驗性故障安全性第53頁,共280頁。結(jié)論自校驗系統(tǒng)的性質(zhì)由系統(tǒng)結(jié)構(gòu)和運行環(huán)境所決定。給定的N(由環(huán)境決定),F(xiàn)t由N能檢測到的所有故障組成。相反,I不是由環(huán)境決定的(N的子集),而是由Fs決定。Fs是人為選擇的一個非空故障集。第54頁,共280頁。根據(jù)I包含輸入的多少(N中的全部、部分或零),可將自檢驗系統(tǒng)分為:完全自校驗系統(tǒng):如果
23、一個系統(tǒng)對正常輸入集N和故障集Ft是自校驗的,并且對于N和故障集Fs是故障安全的,則稱該系統(tǒng)為完全自校驗系統(tǒng)(TSC:Totally Self-Checking)。部分自校驗系統(tǒng):如果一個系統(tǒng)對于正常輸入集N和故障集Ft是自校驗的,并且對于N的一個非空真子集I和故障集Fs是故障安全的,則稱該系統(tǒng)為部分自校驗系統(tǒng)(PSC,Partially Self-Checking)。僅自校驗系統(tǒng):如果一個系統(tǒng)對正常輸入集N和故障集Ft是自校驗的,但對于N的任何非空子集和故障集Fs都不具有故障安全性,則稱該系統(tǒng)為僅自校驗系統(tǒng)。第55頁,共280頁。2.3自校驗網(wǎng)絡(luò)的基本結(jié)構(gòu)自校驗網(wǎng)絡(luò):無需施加特定的測試輸入碼
24、來判定是否存在故障,而是在正常工作的過程中,由一個稱為校驗器的電路通過監(jiān)視自校驗功能模塊的輸出狀態(tài)而自動指示有無錯誤。第56頁,共280頁。自校驗功能模塊輸入XN檢測器/校正器檢錯/糾錯編碼輸出Z(X,) SZ(X, f ) S錯誤指示第57頁,共280頁。檢測器:當(dāng)出現(xiàn)無效碼時,指示錯誤狀態(tài),可構(gòu)成自檢測網(wǎng)絡(luò)。校正器:當(dāng)出現(xiàn)無效碼時,指示出錯位置,并予以糾正,可構(gòu)成自診斷網(wǎng)絡(luò)或故障屏蔽網(wǎng)絡(luò)。第58頁,共280頁。第三章 故障屏蔽技術(shù)概述元件級故障屏蔽技術(shù)邏輯級故障屏蔽技術(shù)模塊級故障屏蔽技術(shù)系統(tǒng)級故障屏蔽技術(shù)第59頁,共280頁。1、概述故障屏蔽技術(shù)(Fault Masking Technol
25、ogy)防止系統(tǒng)中的故障在該系統(tǒng)的信息結(jié)構(gòu)中產(chǎn)生差錯的各種措施的總稱,其實質(zhì)是在故障效應(yīng)達(dá)到模塊的輸出以前,利用冗余資源將故障影響掩蓋起來,達(dá)到容錯目的。第60頁,共280頁。2、元件級故障屏蔽技術(shù)二倍冗余四倍冗余橋接冗余第61頁,共280頁。(1)二倍冗余IO單個元件IO并聯(lián)結(jié)構(gòu)I串聯(lián)結(jié)構(gòu)OCCCCC第62頁,共280頁。設(shè)三級管發(fā)生開路故障的概率為q0,發(fā)生短路故障的概率為qs,正常工作的概率為p:對于單個元件:p=1- q0 qs對于并聯(lián)結(jié)構(gòu):p=1-q02 -2 qs+qs2發(fā)生開路故障的概率為: q02發(fā)生短路故障的概率為:1-(1- qs )2對于串聯(lián)結(jié)構(gòu): p=1-2 q0+q0
26、2 -qs2發(fā)生開路故障的概率為: 1-(1- q0 )2發(fā)生短路故障的概率為:qs2第63頁,共280頁。(1)四倍冗余IO并串聯(lián)結(jié)構(gòu)I串并聯(lián)結(jié)構(gòu)OCCCCCCCC第64頁,共280頁。設(shè)三級管發(fā)生開路故障的概率為q0,發(fā)生短路故障的概率為qs,正常工作的概率為p:對于并串聯(lián)結(jié)構(gòu): p=1-2q02 +q04-4qs2+4qs3- qs4發(fā)生開路故障的概率為: 1-(1- q0 2 )2發(fā)生短路故障的概率為:1-(1- qs )2 2對于串并聯(lián)結(jié)構(gòu):p=1-4q02 +4q03-q04-2 qs2+qs4發(fā)生開路故障的概率為: 1-(1- q0 )2 2發(fā)生短路故障的概率為:1-(1- qs
27、 2 )2第65頁,共280頁。晶體三極管四倍冗余結(jié)構(gòu)在下列故障之一時,仍能正常工作:任一晶體管開路或短路不是同一支路的兩個三極管短路(對串并聯(lián))或是不是同一回路的兩個三極管開路(對并串聯(lián)),或者每一支路都有一個三極管短路(對串并聯(lián))或每一回路都有一個三極管開路(對并串聯(lián))第66頁,共280頁。四倍冗余結(jié)構(gòu)的優(yōu)點可以用在元件級構(gòu)成獨立自足冗余,即不必增添邏輯線路來檢測故障與恢復(fù)信息能滿足實時與連續(xù)可用條件第67頁,共280頁。四倍冗余結(jié)構(gòu)的缺點功耗大對元件適應(yīng)條件要求較高昂貴結(jié)構(gòu)不能變,無靈活性第68頁,共280頁。3、邏輯級故障屏蔽技術(shù)主要用于VLSI的設(shè)計中主要用于設(shè)計一些高可靠性的容錯專
28、用集成電路芯片和不宜放在功能模塊一級上進(jìn)行容錯設(shè)計的關(guān)鍵硬核多采用四倍冗余方案第69頁,共280頁。子部件1子部件k子部件k+1子部件n1P1P1P1PK個功能輸出N-K個校驗輸出輸入1m第70頁,共280頁。4、模塊極故障屏蔽技術(shù)是以N倍冗余碼為基礎(chǔ),通為構(gòu)成N模冗余(NMR,N-Modular Redundancy)系統(tǒng)來實現(xiàn)故障屏蔽第71頁,共280頁。模塊1模塊2模塊n系統(tǒng)輸出差錯指示輸入校正器第72頁,共280頁。5、系統(tǒng)級故障屏蔽技術(shù)采用多個計算機(jī)系統(tǒng)來實現(xiàn)系統(tǒng)的功能。也可稱為多處理機(jī)或多計算機(jī)系統(tǒng)常用的結(jié)構(gòu)有:均分負(fù)載系統(tǒng)結(jié)構(gòu)主備用系統(tǒng)結(jié)構(gòu)雙機(jī)協(xié)同系統(tǒng)結(jié)構(gòu)緊耦合多處理機(jī)系統(tǒng)結(jié)構(gòu)分
29、布式系統(tǒng)結(jié)構(gòu)網(wǎng)絡(luò)結(jié)構(gòu)第73頁,共280頁。第四章 冗余容錯技術(shù)硬件冗余軟件冗余數(shù)據(jù)冗余動態(tài)冗余技術(shù)第74頁,共280頁。冗余容錯技術(shù)在系統(tǒng)結(jié)構(gòu)上通過增加冗余資源的方法來掩蓋故障造成的影響,使得即使出錯或發(fā)生故障,系統(tǒng)的功能仍不受影響,仍能夠正常執(zhí)行預(yù)定任務(wù)的技術(shù)。分為硬件冗余、軟件冗余與數(shù)據(jù)冗余從系統(tǒng)功能上講,三者都是增加“多余的設(shè)備”(硬件、軟件或數(shù)據(jù))為代價的第75頁,共280頁。(一)硬件冗余靜態(tài)冗余動態(tài)冗余主要方法第76頁,共280頁。1、靜態(tài)冗余利用邏輯重疊技術(shù)有效地掩蔽硬件故障,又稱掩蔽冗余。典型代表是N取r系統(tǒng)(三取二的冗余)原理:采用并聯(lián)結(jié)構(gòu),從輸入端輸入相同的信息,并執(zhí)行同樣
30、的程序,完成同樣的任務(wù),得到的結(jié)果送入表決器,以多數(shù)的結(jié)果作為最后的輸出。第77頁,共280頁。三取二系統(tǒng)模型第78頁,共280頁。優(yōu)點:系統(tǒng)可不進(jìn)行故障檢測、定位和系統(tǒng)的恢復(fù)工作,省掉了大量的軟件工作,簡單易行缺點:增加了硬件設(shè)備,提高了系統(tǒng)的費用第79頁,共280頁。2、動態(tài)冗余技術(shù)采用輔助系統(tǒng)作為主系統(tǒng)的熱備份,正常狀態(tài)下主系統(tǒng)工作,并對主系統(tǒng)進(jìn)行故障檢測和定位,一旦診斷出故障發(fā)生的位置,系統(tǒng)能進(jìn)行自動修復(fù)。第80頁,共280頁。3、硬件冗余的方法可采用多級硬件冗余方法,通過多種設(shè)備的冗余,提高系統(tǒng)的可靠性。并聯(lián)冗余,備份冗余和表決系統(tǒng)冷備份,熱備份第81頁,共280頁。優(yōu)缺點優(yōu)點:不可
31、間斷系統(tǒng)采用了計算機(jī)局域網(wǎng)絡(luò)或分布式計算機(jī)系統(tǒng),各子系統(tǒng)無需或少許增加硬件設(shè)備,就可以起到互為冗余的作用。即不增加系統(tǒng)的體積、重量、功能和成功,設(shè)備充分共享,提高了利用率,弱化了故障缺點:雖然不增加硬件設(shè)備卻增加了大量軟件工作,系統(tǒng)研制的難度、周期和費用增加了;用戶的應(yīng)用程序在系統(tǒng)中運行,經(jīng)常被診斷程序中斷,遇到故障時自動定位和恢復(fù)過程較慢;不適合實時性很強(qiáng)的系統(tǒng)第82頁,共280頁。(二)軟件冗余指針對軟件本身的故障,采用何種方法去防止由于軟件的錯誤而導(dǎo)致的系統(tǒng)失效。分為動態(tài)冗余和靜態(tài)冗余第83頁,共280頁。1、動態(tài)冗余程序回卷(Program Rollback)多道程序表決法模塊恢復(fù)法第
32、84頁,共280頁。程序回卷法在執(zhí)行的程序中設(shè)置若干測試點,在每個測試點上檢查輸出結(jié)果。當(dāng)測試程序檢測出錯誤時,就認(rèn)為正在執(zhí)行的程序是一個錯誤的系統(tǒng)中運行的,這段程序要被重新執(zhí)行,即程序的卷回。第85頁,共280頁。優(yōu)點:不增加硬件設(shè)備,軟件也不復(fù)雜缺點:系統(tǒng)的反映時間和精度要受損失,對偶發(fā)性錯誤有效,對固定的故障無能為力第86頁,共280頁。多道程序表決法對同一個問題按不同的算法編多個程序,對執(zhí)行的結(jié)果進(jìn)行表決。串行執(zhí)行:費時,過多地占用主存空間,不符合實時性和實用性的要求并行執(zhí)行:需要硬件支持第87頁,共280頁。模塊恢復(fù)法程序按照模塊執(zhí)行,每執(zhí)行完一塊,接著執(zhí)行一個測試程序,對剛執(zhí)行的程
33、序進(jìn)行測試,通過后再執(zhí)行下一個模塊,通不過則重新執(zhí)行無法適應(yīng)實時系統(tǒng)的要求第88頁,共280頁。2、靜態(tài)冗余又稱軟件存儲冗余,是把關(guān)鍵的系統(tǒng)程序和應(yīng)用程序在系統(tǒng)中多點存儲在主存或高速輔助存儲器中。在正常狀態(tài)下,只執(zhí)行一處或幾處的程序,其它做備份,一旦程序遭破壞,則快速調(diào)入備用程序,使系統(tǒng)仍能正常工作。系統(tǒng)程序和應(yīng)用程序可采取分布式存儲,或集中式存儲方式,或兩者結(jié)合第89頁,共280頁。硬件容錯與軟件容錯的比較軟件的拷貝不能作為軟件的備份,這與硬件容錯顯然不同。軟件的替換是暫時性的,被替換的軟件部件仍可以重新使用,硬件部件則需重新修復(fù)才可使用。軟件容錯在實現(xiàn)技術(shù)上比硬件容錯要復(fù)雜得多第90頁,共
34、280頁。(三)數(shù)據(jù)冗余主要應(yīng)用于數(shù)據(jù)庫系統(tǒng)中。若某種故障使數(shù)據(jù)庫中當(dāng)前狀態(tài)不正確或可疑,就必須把數(shù)據(jù)庫恢復(fù)到某一正確的狀態(tài)根據(jù)數(shù)據(jù)庫存儲的位置和方式,分為集中式的數(shù)據(jù)冗余和分布式的數(shù)據(jù)冗余第91頁,共280頁。(四) 動態(tài)冗余技術(shù)概述重組可重組的動態(tài)N模冗余技術(shù)恢復(fù)多處理機(jī)系統(tǒng)的動態(tài)冗余結(jié)構(gòu)與容錯處理模擬部件的冗余容錯動態(tài)冗余設(shè)計的綜合考慮第92頁,共280頁。1、概述關(guān)鍵技術(shù):故障檢測與診斷選擇系統(tǒng)冗余結(jié)構(gòu),實現(xiàn)靜態(tài)冗余設(shè)計重組:故障處理技術(shù)恢復(fù)第93頁,共280頁。定義:綜合運用以上幾種技術(shù)來達(dá)到更強(qiáng)容錯能力的一種綜合性容錯技術(shù)動態(tài):體現(xiàn)在作為系統(tǒng)正常資源的冗余模塊數(shù)隨著檢測到的故障數(shù)多
35、少而變化基本步驟:故障檢測 故障處理(重組) 系統(tǒng)恢復(fù)第94頁,共280頁。動態(tài)冗余技術(shù)與靜態(tài)冗余技術(shù)相比的優(yōu)點有更大的隔離災(zāi)難性故障的能力直到所有的后備單元都耗盡了,系統(tǒng)才失效 利用程序卷回等手段可消除由瞬時故障引起的錯誤易于調(diào)節(jié)后備單元的數(shù)量與類型可利用后備單元的不加電元件的潛在低失效率特點避免了靜態(tài)冗余的電路圖相關(guān)、故障相依問題可用標(biāo)準(zhǔn)診斷程序檢查后備單元可增加系統(tǒng)平均壽命第95頁,共280頁。2、重組重組的概念后緩備份重組緩慢降低重組第96頁,共280頁。(1)重組的概念重組的主要功能是防止失效影響到系統(tǒng)的正常工作。當(dāng)檢測出系統(tǒng)有故障并實現(xiàn)了故障定位后,系統(tǒng)便通過更換或切除故障模塊的方
36、法來重新組合,達(dá)到排除或隔離故障的目的。重組的基礎(chǔ)是結(jié)構(gòu)的冗余和基于冗余結(jié)構(gòu)的故障檢測與診斷。實際中,往往在檢出故障后通過中斷來觸發(fā)重組。第97頁,共280頁。重組可有兩種不同類型后援備份重組緩慢降級重組第98頁,共280頁。(2)后援備份重組后援備份:系統(tǒng)配置一組平時不工作的模塊作為工作模塊組中失效模塊的備份。在故障發(fā)生后,通過故障檢測觸發(fā)后備模塊取代失效模塊兩種備份方式“冷”備份:平時備份模塊不通電“熱”備份:平時備份模塊通電,處于工作狀態(tài)第99頁,共280頁。(3)緩慢降級重組緩慢降級是指當(dāng)系統(tǒng)的工作模塊出現(xiàn)故障模塊后,進(jìn)行無替換的切換,每檢出一個切除一個,從而使系統(tǒng)的功能和性能逐步降級
37、兩種設(shè)計指導(dǎo)思想1、按要求的性能設(shè)計系統(tǒng)資源,當(dāng)出現(xiàn)失效模塊后系統(tǒng)降級繼續(xù)運行,直至失效累積到系統(tǒng)無法正常工作。主要用于一般用途的計算機(jī)2、系統(tǒng)最初設(shè)計成以超額資源、超級性能運行,當(dāng)系統(tǒng) 出現(xiàn)失效時,仍能維持一個基本要求的性能等級。主要用于許多關(guān)鍵應(yīng)用應(yīng)用的實時控制處理器中第100頁,共280頁。3、可重組的動態(tài)N模冗余技術(shù)待命儲備式N模冗余可重組二模冗余第101頁,共280頁。(1)待命儲備式N模冗余單模替換結(jié)構(gòu)成對替換結(jié)構(gòu)第102頁,共280頁。單模替換結(jié)構(gòu)N個相同的模塊中,只有一個為主用模塊處理于運行狀態(tài),用以產(chǎn)生系統(tǒng)輸出,其余模塊都作為備份片于待命狀態(tài)。自檢測系統(tǒng),也可用軟件周期性或定
38、期性地進(jìn)行故障檢測第103頁,共280頁。成對替換結(jié)構(gòu)N個模塊中總有兩個組成主用模塊對,它們并行工作并進(jìn)行比較;一旦比較結(jié)果不致便啟動重組,將該對模塊切除,而換上另外兩個備用模塊作為主模塊對。第104頁,共280頁。(2)可重組二模冗余在靜態(tài)二模冗余的基礎(chǔ)上增加故障檢測和模塊切換裝置而構(gòu)成的有兩種常見的冗余模式:主備用冗余模式和二模協(xié)同冗余模式第105頁,共280頁。主備用冗余模式實質(zhì)上是待命儲備式N模冗余系統(tǒng)的一個特例兩個相同的模塊通過一定的接口電路(包括檢測和切換裝置)連接起來,一個主用,一個備用。第106頁,共280頁。二模協(xié)同冗余模式二模協(xié)同:指兩個模塊同時執(zhí)行相同的指令,處理相同的數(shù)
39、據(jù),完成相同的任務(wù)。如果二模均正常,則任取其中一個的輸出作為系統(tǒng)輸出;如果一個失效,則它的輸出封鎖,而將正常的輸出作為系統(tǒng)輸出。第107頁,共280頁。故障定位方法自診斷方法:聯(lián)機(jī)模塊運行自診斷程序每個模塊設(shè)置自校驗器利用監(jiān)視定時器判別故障模塊,觸發(fā)重組利用外部仲裁控制配置:強(qiáng)迫二模塊運行同一“已知結(jié)果的測試程序”第108頁,共280頁。模塊同步的方法微周期級同步總線周期級同步任務(wù)級同步第109頁,共280頁。4、恢復(fù)恢復(fù)的概念恢復(fù)技術(shù)的方法 向前錯誤恢復(fù)、向后錯誤恢復(fù)(3) 常用恢復(fù)算法(4) 計算機(jī)系統(tǒng)基本部分的恢復(fù)技術(shù)(5) 文件恢復(fù)技術(shù)(6) 通信系統(tǒng)的恢復(fù)技術(shù)第110頁,共280頁。
40、(1)恢復(fù)恢復(fù)是系統(tǒng)利用重組處理了永久故障等不可恢復(fù)硬件故障后,實現(xiàn)動態(tài)冗余和容錯的必不可少的環(huán)節(jié)。其作用是消除錯誤造成的影響,使系統(tǒng)自動恢復(fù)到正常工作狀態(tài)重新運行下去。第111頁,共280頁。(2)恢復(fù)技術(shù)的方法向前錯誤恢復(fù)向后錯誤恢復(fù)第112頁,共280頁。向前錯誤恢復(fù)概念:根據(jù)系統(tǒng)的故障特征,校正出錯的系統(tǒng)狀態(tài),使系統(tǒng)進(jìn)程正確運行下去。這種恢復(fù)技術(shù)不需要保存系統(tǒng)出錯前的狀態(tài)和信息,不需要卷回重運行。優(yōu)點:系統(tǒng)開銷小,無需保存恢復(fù)點信息的時間和空間;可避免多米諾效應(yīng)。多米諾效應(yīng):伴隨“卷回”操作而產(chǎn)生的一種連鎖倒退、直至退回到任務(wù)起點的反應(yīng)現(xiàn)象。在多進(jìn)程計算機(jī)系統(tǒng)中極易產(chǎn)生多米諾現(xiàn)象。第1
41、13頁,共280頁。向前錯誤恢復(fù)缺點:(1)恢復(fù)算法復(fù)雜,必須基于對故障特征和錯誤性質(zhì)的深刻而全面的認(rèn)識。(2)不能采取措施來消除錯誤或掩蓋故障。第114頁,共280頁。向后錯誤恢復(fù)向后錯誤恢復(fù)技術(shù)是把出錯的系統(tǒng)進(jìn)程從當(dāng)前錯誤狀態(tài)卷回到以前的某一正確狀態(tài),然后從這一狀態(tài)開始繼續(xù)系統(tǒng)的運行。這種恢復(fù)方式是以事先建立恢復(fù)點為基礎(chǔ)的第115頁,共280頁。向后錯誤恢復(fù)協(xié)議(1)保證為每個任務(wù)或進(jìn)程的程序模塊設(shè)置一 組恢復(fù)點,并將系統(tǒng)正常運行到各恢復(fù)點 時的狀態(tài)和必要信息予以保存,以便程序 一旦返回到該點時可以糾正故障影響。(2)避免因多模塊間通信而產(chǎn)生的多米諾效應(yīng), 關(guān)鍵在于選擇恢復(fù)點。(3)盡量保
42、持各模塊原有的并行性。第116頁,共280頁。向后錯誤恢復(fù)協(xié)議(4)使各模塊保持獨立性,并使恢復(fù)過程對設(shè) 計者具有透明性。(5)避免因恢復(fù)造成多模塊的死鎖。(6)使恢復(fù)操作盡量少增加系統(tǒng)開銷。(7)具有完整性和一致性第117頁,共280頁。向后恢復(fù)的三種實現(xiàn)方法靜態(tài)規(guī)劃法無規(guī)劃法動態(tài)規(guī)劃法第118頁,共280頁。優(yōu)點:實現(xiàn)簡單、恢復(fù)可靠缺點:系統(tǒng)的時間、空間開銷大,易引起多米諾效應(yīng)第119頁,共280頁。(3) 常用恢復(fù)算法程序卷回記日志恢復(fù)塊原子操作預(yù)設(shè)陷阱糾錯編碼多數(shù)表決第120頁,共280頁。程序卷回向后錯誤恢復(fù)方法適用于瞬時錯誤和永久錯誤檢測系統(tǒng)在運行過程中一經(jīng)發(fā)現(xiàn)錯誤,便進(jìn)行程序卷回
43、,返回到起始點或離出錯點最近的預(yù)設(shè)恢復(fù)點重試。微指令重試替換數(shù)據(jù)重試第121頁,共280頁。注意問題恢復(fù)點的數(shù)目和位置選擇問題各恢復(fù)點需要保存的狀態(tài)和信息量的確定問題恢復(fù)點的功能設(shè)置問題程序卷回級別的選擇問題第122頁,共280頁。程序在恢復(fù)點的功能同步功能存檔功能存檔內(nèi)容的更新功能報告功能第123頁,共280頁。記日志向后錯誤恢復(fù)方法在進(jìn)程開始時,保存初始數(shù)據(jù)的副本作為后備數(shù)據(jù),并在進(jìn)程執(zhí)行中,記下影響這些數(shù)據(jù)的全部業(yè)務(wù)。第124頁,共280頁?;謴?fù)塊向后恢復(fù)方法,以錯誤檢測、向后冗余和多份軟件模塊為基礎(chǔ)由恢復(fù)點、替換算法和驗收測試三部分組成恢復(fù)點:保存在恢復(fù)塊內(nèi)會發(fā)生變化的全局變量替換算法
44、:一個或多個不同版本、但功能相同的備用程序模塊驗收測試:一組邏輯表達(dá)式模塊,設(shè)置在每個替換算法的出口,用于檢測計算結(jié)果的正確性、合理性第125頁,共280頁。驗收測試的設(shè)計問題滿足要求測試:算法執(zhí)行后完成必定滿足要求合理性測試審計測試運行時間測試第126頁,共280頁。原子操作特性:一個原子操作可以只屬于一個進(jìn)程,也可以由多個進(jìn)程共享原子操作是可嵌套的一種錯誤檢測的方法,還是一種確定一個故障的可能結(jié)果的界限的方法可用于向前和向后錯誤恢復(fù)第127頁,共280頁。預(yù)設(shè)陷阱向前錯誤恢復(fù)方法根據(jù)系統(tǒng)可能出現(xiàn)的異常情況,設(shè)計一組處理程序,建立一個異常處理程序庫,當(dāng)系統(tǒng)因故障而出現(xiàn)某種預(yù)料中的異常情況時,
45、便從庫中調(diào)用相應(yīng)的異常處理程序進(jìn)行處理,實現(xiàn)錯誤恢復(fù)第128頁,共280頁。糾錯編碼通過在信息位的基礎(chǔ)上增加校驗位,可以準(zhǔn)確地檢測出傳輸、存儲的信息中出現(xiàn)的差錯和差錯的位置,并能以正確的值校正差錯值,使信息恢復(fù)到原來正確狀態(tài)??捎糜诠收显\斷、屏蔽,差錯恢復(fù)第129頁,共280頁。多數(shù)表決向前錯誤恢復(fù),可以屏蔽錯誤,并診斷出錯位置在多處理機(jī)系統(tǒng)中,多個處理機(jī)獨立運行同一任務(wù),并同步完成相同的功能,按“擇多原則”得出正確的結(jié)果值第130頁,共280頁。(4) 計算機(jī)系統(tǒng)基本部分的恢復(fù)技術(shù)中央處理機(jī)的故障排除與恢復(fù)存儲器故障排除與恢復(fù)外設(shè)的故障排除與恢復(fù)第131頁,共280頁。中央處理機(jī)的故障排除與
46、恢復(fù)常見故障:內(nèi)部硬件故障:由模塊或裝置內(nèi)的各種硬件校驗和接口校驗驗出程序錯誤:可作為程序執(zhí)行時的軟件異常狀態(tài)和例外狀態(tài)由硬件檢驗機(jī)構(gòu)檢出第132頁,共280頁。中央處理機(jī)的故障排除與恢復(fù)流程圖CPU1硬件故障硬件重試成功保存現(xiàn)場運行信息多處理機(jī)?CPU1永久故障停機(jī),并保存現(xiàn)場運行信息中斷CPUi(i=1)OS的功能恢復(fù)例行程序應(yīng)用軟件恢復(fù)例行程序有關(guān)處理任務(wù)異常終結(jié)繼續(xù)工作能恢復(fù)?CPU執(zhí)行OSNNYNYYN第133頁,共280頁。軟件故障排除與恢復(fù)硬件檢測機(jī)構(gòu)一旦檢出程序異常,立即發(fā)出程序錯誤中斷(如非法操作碼中斷、指令使用錯誤中斷等)報告給操作系統(tǒng)對于操作系統(tǒng)中發(fā)生的程序錯誤,通常采用
47、“預(yù)設(shè)陷阱”恢復(fù)算法,針對不同的程序錯誤中斷,啟動不同的“異常處理”程序。對于用戶處理程序中發(fā)生的程序錯誤恢復(fù)塊技術(shù)預(yù)設(shè)陷阱恢復(fù)方法第134頁,共280頁。存儲器故障排除與恢復(fù)檢測:奇偶校驗電路、靜態(tài)測試、動態(tài)測試等軟件檢測手法、海明碼一旦檢測出有錯,檢測機(jī)構(gòu)向CPU發(fā)出中斷,啟動運行存儲器排除故障與恢復(fù)的中斷處理程序處理方法:先了解發(fā)生誤操作的存儲器地址或芯片等故障信息,然后重新從外部存儲器調(diào)入出錯的程序,從斷點處開始重試,看能否恢復(fù);若重試不成功,進(jìn)行硬件重組和重組后的恢復(fù)重新調(diào)入執(zhí)行的程序,可重入(Reenterable)且可再生(Refreshable)的程序第135頁,共280頁。外
48、設(shè)的故障排除與恢復(fù)外設(shè):與CPU控制輸入/輸出設(shè)備工作相關(guān)的硬件組成部分:并行或串行I/O通道、設(shè)備驅(qū)動器、I/O設(shè)備和數(shù)據(jù)存取路徑外設(shè)故障對策外設(shè)故障的處理步驟第136頁,共280頁。外設(shè)故障對策存取路徑多重化設(shè)備的物理多重化:將信息同時寫入若干相同的設(shè)備設(shè)備的邏輯多重化:為同一功能安排兩個以上的實體設(shè)備復(fù)制件,而且設(shè)置幾種不同的設(shè)備第137頁,共280頁。外設(shè)故障的處理步驟用硬件或軟件重試硬件重試:由I/O通道、設(shè)備驅(qū)動器對指令自動重試軟件重試: 先在發(fā)生I/O操作錯的同一存取路徑上進(jìn)行;若失敗,再改用另一路徑重試故障的區(qū)分診斷故障設(shè)備的重組定時監(jiān)視第138頁,共280頁。處理外設(shè)故障的一
49、般步驟用硬件/軟件重試成功?故障的區(qū)分診斷故障設(shè)備重組定時監(jiān)視超時?YNYN繼續(xù)運行第139頁,共280頁。外設(shè)故障的區(qū)分診斷通道1驅(qū)動器1通道2驅(qū)動器2TDDP11P12P2212外存第140頁,共280頁。故障設(shè)備的重組將故障設(shè)備和故障單元在邏輯上與系統(tǒng)切斷,禁止存取,通知操作員切除維修故障設(shè)備修復(fù)后,在實際投入系統(tǒng)應(yīng)用前以診斷工作方式讀寫檢驗其是否正常和可靠,稱為故障修復(fù)后的驗收診斷第141頁,共280頁。(5) 文件恢復(fù)技術(shù)文件:計算機(jī)系統(tǒng)中具有邏輯關(guān)系的信息/數(shù)據(jù)的集合文件恢復(fù)的故障前處理文件恢復(fù)的故障后處理第142頁,共280頁。文件的恢復(fù)階段故障前處理:在系統(tǒng)運行過程中、故障發(fā)生
50、前,將文件恢復(fù)所必需的信息記錄下來故障后處理:系統(tǒng)因故障發(fā)生而中斷運行時,利用故障前記錄的信息使剛剛發(fā)生故障的文件及系統(tǒng)的其他狀態(tài)得到恢復(fù),使系統(tǒng)重新運行第143頁,共280頁。故障前處理二重化方式虛擬空間方式恢復(fù)點方式報文記錄方式全轉(zhuǎn)儲方式ID轉(zhuǎn)儲/狀態(tài)轉(zhuǎn)儲方式第144頁,共280頁。二重化方式將重要信息二重化第145頁,共280頁。虛擬空間方式更新文件時,將文件復(fù)制到別的文件空間后再更新虛擬空間:用于更新別的文件空間第146頁,共280頁?;謴?fù)點方式聯(lián)機(jī)系統(tǒng)使用分類周期轉(zhuǎn)儲:按一定時間周期,定期轉(zhuǎn)儲系統(tǒng)恢復(fù)所需的基本信息增量轉(zhuǎn)儲:在文件每次更新前保存下文件的內(nèi)容、識別號、處理時間等信息第1
51、47頁,共280頁。報文記錄方式常用于小型報文交換系統(tǒng)在形成輸入、輸出報文記錄時都附加上一定的識別號碼,然后系統(tǒng)恢復(fù)時通過檢驗識別號碼來確定具體的恢復(fù)策略第148頁,共280頁。全轉(zhuǎn)儲方式每過一定時間,將系統(tǒng)運行所必需的重要文件和需要長期保存的信息全部從硬盤上轉(zhuǎn)儲到磁帶、光盤等后援存儲器上去。第149頁,共280頁。ID轉(zhuǎn)儲/狀態(tài)轉(zhuǎn)儲方式轉(zhuǎn)儲系統(tǒng)的運行狀態(tài)記錄,將記錄結(jié)合恢復(fù)點方式和報文記錄方式獲得的有關(guān)文件識別號碼、事務(wù)處理識別號碼、文件內(nèi)容等信息,恢復(fù)系統(tǒng)正常運行狀態(tài)第150頁,共280頁。文件操作的四種狀態(tài)狀態(tài)S0:接收完終端送來的報文時狀態(tài)S1:在恢復(fù)點轉(zhuǎn)儲完文件更新信息,但尚未更新文
52、件時狀態(tài)S2:用戶文件更新完成時狀態(tài)S3:向終端發(fā)送輸出報文時第151頁,共280頁。故障后處理應(yīng)急恢復(fù)文件恢復(fù)系統(tǒng)恢復(fù)的優(yōu)先次序第152頁,共280頁。應(yīng)急恢復(fù)利用ID轉(zhuǎn)儲/狀態(tài)轉(zhuǎn)儲信息和恢復(fù)點信息等,盡快使對用戶的服務(wù)重新開始的恢復(fù)針對兩種故障狀態(tài):終端處于完全不能訪問系統(tǒng)中心的狀態(tài)終端送來的報文已輸入到系統(tǒng)中心,報文正在處理中或已處理完正等待輸出時發(fā)生故障的狀態(tài)第153頁,共280頁。文件恢復(fù)讀出的文件發(fā)生故障時,利用前一天的全轉(zhuǎn)儲信息和當(dāng)天的恢復(fù)點信息來恢復(fù)文件第154頁,共280頁。(6)通信系統(tǒng)的恢復(fù)技術(shù)終端控制程序的恢復(fù)處理報文控制程序的恢復(fù)處理第155頁,共280頁。通信系統(tǒng):
53、由各機(jī)所屬的通信控制器和機(jī)間的通信線路網(wǎng)組成通信控制器:故障檢測:通過特設(shè)的回折試驗線路和多重化通信的模擬輸入/輸出功能進(jìn)行檢測故障定位:終端控制程序的故障區(qū)分例行程序通信線路網(wǎng):交換線路網(wǎng)和專用線路網(wǎng)第156頁,共280頁。通信系統(tǒng)的信息處理終端控制程序:以終端、通信線路網(wǎng)的控制為中心,使數(shù)據(jù)正確而有效地傳送報文控制程序:以一份報文為單位確保數(shù)據(jù)處理的正確性業(yè)務(wù)控制程序:對接收的報文信息按應(yīng)用要求進(jìn)行綜合第157頁,共280頁。終端控制程序的恢復(fù)處理檢測報文錯誤或傳送控制錯誤重試終端代理接收試驗呼叫第158頁,共280頁。報文控制程序的恢復(fù)處理用來校驗報文格式和輸入/輸出流水號等錯誤,并負(fù)責(zé)
54、出錯情況下的恢復(fù)處理工作報文格式錯:將該份報文作廢并通知發(fā)送端重發(fā)輸入流水號和輸出流水號錯重號:在接收端刪除重復(fù)報文漏號:通知發(fā)送端重發(fā)通信系統(tǒng)錯誤恢復(fù)后,對中斷交換的報文處理重發(fā)脫發(fā):系統(tǒng)恢復(fù)工作總從下一份報文開始發(fā)送第159頁,共280頁。5、多機(jī)處理系統(tǒng)的動態(tài)冗余結(jié)構(gòu)常用的多處理機(jī)冗余結(jié)構(gòu)(1)均分負(fù)載系統(tǒng)結(jié)構(gòu)(2)主備用系統(tǒng)結(jié)構(gòu)(3)緊耦合系統(tǒng)結(jié)構(gòu)(4)分布式系統(tǒng)結(jié)構(gòu)(5)網(wǎng)絡(luò)結(jié)構(gòu)第160頁,共280頁。均分負(fù)載系統(tǒng)結(jié)構(gòu)均分負(fù)載:把系統(tǒng)的負(fù)載基本均衡地分配給多個互相獨立的處理機(jī)來承擔(dān)第161頁,共280頁。緊耦合系統(tǒng)結(jié)構(gòu)特點:有兩個或兩個以上的處理機(jī)有各處理機(jī)共享的主存儲器有各處理機(jī)共
55、享的I/O子系統(tǒng)有統(tǒng)一的多機(jī)并發(fā)操作系統(tǒng)進(jìn)行控制第162頁,共280頁。分布式系統(tǒng)結(jié)構(gòu)松耦合多處理機(jī)系統(tǒng)相互通信的多個自治計算機(jī)節(jié)點的集合,各計算機(jī)即相互獨立,又是一個整體的組成部分,相互協(xié)作完成一個共同的任務(wù)第163頁,共280頁。結(jié)構(gòu)特點所有資源均可冗余良好的可擴(kuò)性使得系統(tǒng)的冗余程度可隨應(yīng)用要求和環(huán)境的變化而作動態(tài)調(diào)整系統(tǒng)中資源在物理上是分散的,避免了由于局部故障而導(dǎo)致整個系統(tǒng)崩潰的現(xiàn)象高速可靠的通信子網(wǎng)絡(luò)和資源的分散控制消除了單處理機(jī)和緊耦合多處理機(jī)系統(tǒng)中存在的競爭、數(shù)據(jù)流瓶頸和控制上的關(guān)鍵點第164頁,共280頁。幾種常見的分布式系統(tǒng)結(jié)構(gòu)雙環(huán)結(jié)構(gòu)C1,t環(huán)路結(jié)構(gòu)(n:節(jié)點數(shù),t:節(jié)點跳
56、躍間隔)多總線結(jié)構(gòu)容錯環(huán)總線結(jié)構(gòu)n第165頁,共280頁。多總線結(jié)構(gòu)每個節(jié)點并不連接到所有的總線上,而是按一定規(guī)律連接在部分總線上特點:總線數(shù)增多時,節(jié)點的端口數(shù)不必隨之增加每條總線的負(fù)載不會隨著節(jié)點的增加而明顯增大第166頁,共280頁。(5)網(wǎng)絡(luò)結(jié)構(gòu)網(wǎng)絡(luò)冗余性的表現(xiàn):終端設(shè)備與線路的多重冗余存取路徑的多重冗余引入集配器裝置網(wǎng)絡(luò)結(jié)構(gòu)的基本形式:集中式網(wǎng)絡(luò)分布式網(wǎng)絡(luò)第167頁,共280頁。第五章 軟件可靠性技術(shù)軟件可靠性概述軟件容錯技術(shù)信息保護(hù)技術(shù)第168頁,共280頁。5.1 軟件可靠性概述軟件可靠性和硬件可靠性的聯(lián)系和區(qū)別軟件可靠性技術(shù)的內(nèi)涵軟件可靠性定義軟件可靠性指標(biāo)第169頁,共280
57、頁。軟件可靠性和硬件可靠性的聯(lián)系軟件可靠性和硬件可靠性的區(qū)別軟、硬件故障機(jī)理軟件故障的特性第170頁,共280頁。1、軟件可靠性和硬件可靠性的聯(lián)系指系統(tǒng)(或產(chǎn)品、模塊)在一定的條件下和一定時間內(nèi)能完成預(yù)定功能的性質(zhì)兩者都是復(fù)雜性的函數(shù)都可利用可靠性增長來提高它們的可靠性第171頁,共280頁。2、軟件可靠性和硬件可靠性的區(qū)別概念內(nèi)涵指標(biāo)選擇設(shè)計分析手段提高可靠性的方法途徑第172頁,共280頁。3、軟、硬件故障機(jī)理硬件故障來源于元部件的失效,“后生”的故障軟件故障來源于人的失誤和水平、能力的局限性,“先天”的故障第173頁,共280頁。4、軟件故障的特性固有性環(huán)境敏感性運行環(huán)境:硬件平臺、硬件
58、配置、支撐軟件輸入環(huán)境:應(yīng)用對象,用戶要求,輸入數(shù)據(jù)等故障影響的傳染性:任一軟件故障,只要未被除,始終存在于該軟件中,一旦引起錯誤,是可以傳染給其他軟件的。第174頁,共280頁??煽啃栽O(shè)計:為了獲得高可靠性的軟件避錯排錯設(shè)計容錯設(shè)計信息保護(hù)可靠性分析:通過建立一定的可靠性模型,為軟件可靠性設(shè)計和軟件維護(hù)提供必要的依據(jù)第175頁,共280頁。軟件可靠性技術(shù)設(shè)計技術(shù)分析技術(shù)避錯排錯技術(shù)容錯技術(shù)信息保護(hù)技術(shù)可靠性模型管理技術(shù)設(shè)計方法學(xué)驗證技術(shù)多版本技術(shù)恢復(fù)塊技術(shù)替換技術(shù)混合技術(shù)基本信息保護(hù)技術(shù)網(wǎng)絡(luò)信息保護(hù)技術(shù)時間技術(shù)計數(shù)技術(shù)播種技術(shù)數(shù)據(jù)技術(shù)第176頁,共280頁。計算機(jī)軟件:與計算機(jī)系統(tǒng)的操作有關(guān)
59、的程序、規(guī)程、規(guī)則以及與之有關(guān)的文件和數(shù)據(jù)軟件質(zhì)量軟件可靠性第177頁,共280頁。RAID4的特點和RAID3也挺象,不過在失敗恢復(fù)時,它的難度可要比RAID3大得多了,控制器的設(shè)計難度也要大許多,而且訪問數(shù)據(jù)的效率不怎么好。自校驗系統(tǒng)的性質(zhì)由系統(tǒng)結(jié)構(gòu)和運行環(huán)境所決定。3自校驗網(wǎng)絡(luò)的基本結(jié)構(gòu)效率(時間性、資源性)缺點:雖然不增加硬件設(shè)備卻增加了大量軟件工作,系統(tǒng)研制的難度、周期和費用增加了;可利用后備單元的不加電元件的潛在低失效率特點統(tǒng)進(jìn)行屏蔽以減少外界的干擾等方法來提容錯軟件設(shè)計的先進(jìn)技術(shù)1969, 噴射推進(jìn)實驗室的STAR計算機(jī),其處理機(jī)采用三重表決加備份的混合冗余方式,并用算術(shù)檢錯碼及
60、雙機(jī)比較檢測故障。機(jī)器的內(nèi)部總線,也包括像SCSI的外部總線更換新盤后原有數(shù)據(jù)會需要很長時間同步鏡像,外界對數(shù)據(jù)的訪問不會受到影響,只是這時整個系統(tǒng)的性能有所下降。軟件質(zhì)量指軟件產(chǎn)品滿足規(guī)定需求或隱含能力所有的特征和特征之和軟件質(zhì)量指標(biāo)功能性(實用性、準(zhǔn)確性、互操作性、一致性和安全性)可靠性(成熟性、容錯性、可恢復(fù)性)易使用性(易學(xué)性、易理解性、易操作性)效率(時間性、資源性)維護(hù)性(可分析性、易修改性、穩(wěn)定性和易測試性)可移植性(適應(yīng)性、可安裝性、規(guī)范性和可換性)第178頁,共280頁。軟件可靠性在規(guī)定的條件下和規(guī)定的時間內(nèi),軟件成功地完成功能的能力或不引起系統(tǒng)故障的能力,稱為軟件可靠性特點
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 礦產(chǎn)勘查中的勘查方法選擇與優(yōu)化考核試卷
- 甘肅省2025屆高三下學(xué)期4月月考(二模)英語試卷(含答案無聽力原文及音頻)
- 2025年瓦斯防突工職業(yè)技能鑒定參考試題庫(含答案)
- 2025年合作協(xié)議:經(jīng)營權(quán)轉(zhuǎn)讓合同書
- 《孔明借箭》課件-2
- 法律課程學(xué)習(xí)心得體會
- 剖腹產(chǎn)的護(hù)理診斷及措施
- 費用報銷知識
- 小升初-間隔問題
- 2025年度3月份冷鏈車輛柴油發(fā)電機(jī)雙備份協(xié)議
- 工程振動分析與控制基礎(chǔ) 第2版 課件 第5、6章 傳遞矩陣法、有限元法
- 銀行防搶應(yīng)急預(yù)案演練方案總結(jié)
- 三亞市崖州中心漁港停泊避風(fēng)水域擴(kuò)建項目 環(huán)評報告
- 巴林銀行倒閉案課件
- 2023年海洋運輸企業(yè)風(fēng)險管理與內(nèi)控
- 部編版道德與法治三年級下冊全冊單元知識點梳理期末復(fù)習(xí)
- 兒童孤獨癥的診斷與康復(fù)治療
- 發(fā)掘無限潛能成就最好的自己主題班會課件
- 中集集裝箱安全培訓(xùn)
- 病毒感染導(dǎo)致的細(xì)胞周期調(diào)控異常
- 3D打印技術(shù)在航空航天領(lǐng)域的應(yīng)用
評論
0/150
提交評論