版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、計(jì)算機(jī)容錯(cuò)技術(shù)魏贇第1頁(yè),共280頁(yè)。第一章 概述容錯(cuò)和可靠性容錯(cuò)技術(shù)的發(fā)展概況容錯(cuò)技術(shù)的主要內(nèi)容容錯(cuò)技術(shù)應(yīng)用第2頁(yè),共280頁(yè)。一、容錯(cuò)和可靠性故障、失效和錯(cuò)誤的概念可靠性的概念容錯(cuò)的概念可靠性和容錯(cuò)的關(guān)系第3頁(yè),共280頁(yè)。(一)故障、失效和錯(cuò)誤的概念失效(failure)是指硬件物理特性異變,或軟件不能完成規(guī)定功能的能力。故障(fault)是指硬件或軟件的錯(cuò)誤狀態(tài),是失效在邏輯上的等效。一個(gè)故障可以用種類、值、影響范圍和發(fā)生時(shí)間來描述。錯(cuò)誤(error)是指程序或數(shù)據(jù)結(jié)構(gòu)中的故障表現(xiàn)形式,是故障和失效所造成的后果。容錯(cuò)設(shè)計(jì)的軟件可以有某些規(guī)定數(shù)目的故障但不導(dǎo)致失效,但對(duì)無(wú)容錯(cuò)的軟件而言,
2、故障即失效。第4頁(yè),共280頁(yè)。故障的分類 若按邏輯性來分邏輯故障:造成邏輯值發(fā)生變化的故障非邏輯故障:造成象時(shí)鐘(clock)或電源出錯(cuò)等錯(cuò)誤的故障按時(shí)間劃分: 永久性故障:調(diào)用診斷程序進(jìn)行故障定位,然后采取糾錯(cuò)措施 間隔性故障:可以通過更換硬件或軟件等途徑來達(dá)到修復(fù)的目的 偶然性故障:只能靠改善環(huán)境條件等努力來減少這類故障 第5頁(yè),共280頁(yè)。錯(cuò)誤的根源第6頁(yè),共280頁(yè)。(二)可靠性概念實(shí)現(xiàn)系統(tǒng)可靠性的方法系統(tǒng)可靠性的指標(biāo)第7頁(yè),共280頁(yè)。1、概念可靠性的含義廣義:一切旨在避免、減少、處理、度量軟件/硬件故障(錯(cuò)誤、缺陷、失效)的分析、設(shè)計(jì)、測(cè)試等方法、技術(shù)和實(shí)踐活動(dòng)。狹義:指軟件/硬
3、件無(wú)效運(yùn)行的定量度量??煽慷龋涸谝?guī)定的運(yùn)行環(huán)境中和規(guī)定的時(shí)間內(nèi)軟件無(wú)失效運(yùn)行的機(jī)會(huì)。第8頁(yè),共280頁(yè)。2、實(shí)現(xiàn)系統(tǒng)的可靠性排錯(cuò)容錯(cuò)第9頁(yè),共280頁(yè)。排錯(cuò)避免故障,通過對(duì)組成系統(tǒng)的部件進(jìn)行嚴(yán)格的篩選、對(duì)系統(tǒng)進(jìn)行嚴(yán)格的測(cè)試、對(duì)系統(tǒng)進(jìn)行屏蔽以減少外界的干擾等方法來提高系統(tǒng)的可靠性。第10頁(yè),共280頁(yè)。容錯(cuò)即使采用了排錯(cuò)技術(shù),一個(gè)計(jì)算機(jī)系統(tǒng)還是遲早會(huì)發(fā)生故障的。因此在設(shè)計(jì)計(jì)算機(jī)系統(tǒng)時(shí)應(yīng)考慮一旦發(fā)生故障能自動(dòng)檢測(cè)出故障并使系統(tǒng)自動(dòng)恢復(fù)正常運(yùn)行。這樣設(shè)計(jì)出來的計(jì)算機(jī)系統(tǒng)在發(fā)生故障后仍能正確運(yùn)行。容錯(cuò)技術(shù)是從系統(tǒng)結(jié)構(gòu)方面來提高計(jì)算機(jī)系統(tǒng)的可靠性容錯(cuò)技術(shù)與排錯(cuò)技術(shù)并不是相互對(duì)立的,它們可以相互補(bǔ)充,構(gòu)成
4、高可信的計(jì)算機(jī)系統(tǒng)第11頁(yè),共280頁(yè)。3、系統(tǒng)可靠性的指標(biāo)可靠性可維性可用性第12頁(yè),共280頁(yè)??煽啃杂?jì)算機(jī)機(jī)的可靠性指:計(jì)算機(jī)在規(guī)定的條件和規(guī)定的時(shí)間內(nèi)完成規(guī)定的功能的概率規(guī)定的條件:環(huán)境條件,使用條件,維修條件,操作技術(shù)失效:產(chǎn)品在規(guī)定的條件下和規(guī)定的時(shí)間內(nèi)喪失了規(guī)定的功能。失效率:指計(jì)算機(jī)在某一瞬間元件失效數(shù)與元件總數(shù)的比率。第13頁(yè),共280頁(yè)??删S性可維性(Serviceability)是指在規(guī)定的時(shí)間內(nèi),按照規(guī)定的程序和方法進(jìn)行維修時(shí),保持或恢復(fù)到能完成規(guī)定的功能的能力通常指從判定故障到排除故障所需要的時(shí)間,包括故障診斷、故障定位、系統(tǒng)校正和恢復(fù)等時(shí)間。可保持性(Maintai
5、nability)是指系統(tǒng)在給定的時(shí)間內(nèi)可隔離故障或修復(fù)的概率。它表征了系統(tǒng)可以正常運(yùn)行的效率。第14頁(yè),共280頁(yè)。可用性可用性(Availability)稱有效率或利用率,是可維修部件在某時(shí)間具有維持規(guī)定功能的能力,即計(jì)算機(jī)系統(tǒng)的利用效率,也是系統(tǒng)在執(zhí)行任務(wù)的任意時(shí)刻能正常工作的概率。第15頁(yè),共280頁(yè)。(三)容錯(cuò)技術(shù)概念容錯(cuò)(Fault-tolerance):容忍故障,考慮故障一旦發(fā)生時(shí)能夠自動(dòng)檢測(cè)出來并使系統(tǒng)能夠自動(dòng)恢復(fù)正常運(yùn)行。當(dāng)出現(xiàn)某些指定的硬件故障或軟件錯(cuò)誤時(shí),系統(tǒng)仍能執(zhí)行規(guī)定的一組程序,或者說程序不會(huì)因系統(tǒng)中的故障而中止或被修改,并且執(zhí)行結(jié)果也不包含系統(tǒng)中故障所引起的差錯(cuò)。第
6、16頁(yè),共280頁(yè)。容錯(cuò)計(jì)算機(jī)系統(tǒng):在發(fā)生故障或存在軟件錯(cuò)誤的情況下仍能繼續(xù)正確完成指定任務(wù)的計(jì)算機(jī)系統(tǒng)。設(shè)計(jì)與分析容錯(cuò)計(jì)算機(jī)系統(tǒng)的各種技術(shù)稱為容錯(cuò)技術(shù)容錯(cuò)技術(shù)從系統(tǒng)結(jié)構(gòu)出發(fā)來提高系統(tǒng)的可靠性,與排錯(cuò)技術(shù)相互補(bǔ)充,構(gòu)成高可信度的系統(tǒng)第17頁(yè),共280頁(yè)。實(shí)現(xiàn)容錯(cuò)計(jì)算的四個(gè)方面(1)不希望事件的檢測(cè)。不希望事件是指失效、故障、差錯(cuò)等等。為容忍系統(tǒng)中的不希望事件,應(yīng)首先對(duì)其進(jìn)行檢測(cè)。(2)損壞估價(jià)。由于一個(gè)故障的出現(xiàn)和它的失效結(jié)果之間可能存在延遲,故障可能已經(jīng)傳播到該系統(tǒng)的其他地方,導(dǎo)致故障的擴(kuò)大。因此,在作出一個(gè)被檢測(cè)的故障有關(guān)的決定之前,有必要判定系統(tǒng)已被破壞的程度,這依賴于系統(tǒng)設(shè)計(jì)者的策略和
7、已有的探測(cè)技術(shù)。第18頁(yè),共280頁(yè)。(3)不希望事件的恢復(fù)。在不希望事件檢測(cè)和損壞估價(jià)之后,應(yīng)采用不希望事件恢復(fù)技術(shù),把目前的錯(cuò)誤系統(tǒng)狀態(tài)轉(zhuǎn)換成一個(gè)正確的系統(tǒng)狀態(tài)。(4)不希望事件處理和繼續(xù)服務(wù)。確保已被恢復(fù)的不希望事件效應(yīng)不會(huì)立即再現(xiàn),以使系統(tǒng)繼續(xù)提供規(guī)定的服務(wù)。第19頁(yè),共280頁(yè)。容錯(cuò)系統(tǒng)的一般階段故障限制:當(dāng)故障出現(xiàn)時(shí),希望限制其影響范圍。故障限制是把故障效應(yīng)的傳播限制到一個(gè)區(qū)域內(nèi),從而防止污染其他區(qū)域。故障檢測(cè):大多數(shù)失效最終導(dǎo)致產(chǎn)生邏輯故障。有許多方法可用來檢測(cè)邏輯故障,如奇偶校驗(yàn)、一致性校驗(yàn)都可用來檢測(cè)故障。故障檢測(cè)技術(shù)有兩個(gè)主要的類別,即脫機(jī)檢測(cè)和聯(lián)機(jī)檢測(cè),在脫機(jī)檢測(cè)情況下,
8、進(jìn)行測(cè)試時(shí)設(shè)備不能進(jìn)行有用的工作;聯(lián)機(jī)檢測(cè)提供了實(shí)時(shí)檢測(cè)能力,因?yàn)槁?lián)機(jī)檢測(cè)與有用的工作同時(shí)執(zhí)行。聯(lián)機(jī)檢測(cè)技術(shù)包括奇偶校驗(yàn)和二模冗余校驗(yàn)。故障屏蔽:故障屏蔽技術(shù)把失效效應(yīng)掩蓋了起來,從某種意義上說,是冗余信息戰(zhàn)勝了錯(cuò)誤信息,多數(shù)表決冗余設(shè)計(jì)就是故障屏蔽的一個(gè)例子。重試:在許多場(chǎng)合,對(duì)一個(gè)操作的第二次試驗(yàn)可能是成功的,對(duì)不引起物理破壞的瞬間故障尤其是這樣。診斷 如果故障檢測(cè)技術(shù)沒有提供有關(guān)故障位置和/或性質(zhì)的信息,那么就需要一個(gè)診斷。第20頁(yè),共280頁(yè)。重組:當(dāng)檢測(cè)出一個(gè)故障并判明是一個(gè)永久性故障時(shí),這時(shí)重組系統(tǒng)的器件以便替代失效的器件或把失效的器件與系統(tǒng)的其他部分隔離開來,也可使用冗余系統(tǒng),系
9、統(tǒng)能力不降低。恢復(fù):檢測(cè)和重組(若必要的話)之后,必須消除錯(cuò)誤效應(yīng)。通常,系統(tǒng)會(huì)回到故障檢測(cè)前處理過程的某一點(diǎn),并從這一點(diǎn)重新開始操作。這種恢復(fù)形式(一般叫卷回)通常需要后備文件、校驗(yàn)點(diǎn)和應(yīng)用記錄方法。重啟動(dòng):如果一個(gè)錯(cuò)誤破壞的信息太多,或者系統(tǒng)沒有設(shè)計(jì)恢復(fù)功能,那么恢復(fù)功能也許就不可能。僅當(dāng)系統(tǒng)未受任何破壞時(shí),才能進(jìn)行“熱”重啟(從故障檢測(cè)點(diǎn)恢復(fù)所有操作的)?!皽亍敝貑⒅竷H有某些過程可以毫無(wú)損失的重新啟動(dòng),“冷”重啟相當(dāng)于系統(tǒng)需要完全重新加載。修復(fù):把診斷為故障的器件換下來,與故障檢測(cè)一樣,修復(fù)也可以是聯(lián)機(jī)進(jìn)行的或者脫機(jī)進(jìn)行的。重構(gòu):對(duì)元件進(jìn)行物理替換之后,把修復(fù)的模塊重新加入到該系統(tǒng)中去。
10、對(duì)聯(lián)機(jī)修復(fù)來說,實(shí)現(xiàn)重構(gòu)不中斷系統(tǒng)的工作。第21頁(yè),共280頁(yè)。二、容錯(cuò)技術(shù)的發(fā)展概況第一代計(jì)算機(jī)(1946-1957)第二代計(jì)算機(jī)(1957-1964)第三代計(jì)算機(jī)(1964-1970)第四代計(jì)算機(jī)(1970-)現(xiàn)在第22頁(yè),共280頁(yè)。第一代計(jì)算機(jī)(1946-1957)元件:電子管、繼電器及延遲線存儲(chǔ)器問題:元件的失效率相當(dāng)高,并易受瞬時(shí)故障的影響措施:特別設(shè)置的硬件故障檢測(cè)和人工恢復(fù)第23頁(yè),共280頁(yè)。1956,SAPO,捷克,三個(gè)CPU同時(shí)工作,對(duì)運(yùn)算結(jié)果進(jìn)行表決,存儲(chǔ)器采用奇偶校驗(yàn),具有單條指令重復(fù)執(zhí)行的功能SAGE, ,用于防空系統(tǒng),采用雙機(jī)比較以檢測(cè)故障,并配合以恢復(fù)技術(shù)第24
11、頁(yè),共280頁(yè)。第二代計(jì)算機(jī)(1957-1964)元件:晶體管及磁芯存儲(chǔ)器問題:失效率比第一代計(jì)算機(jī)元件大為降低措施:避錯(cuò)技術(shù)占統(tǒng)治地位,對(duì)故障一般采用診斷程序進(jìn)行脫機(jī)檢測(cè)第25頁(yè),共280頁(yè)。第三代計(jì)算機(jī)(1964-1970)元件:集成電路問題:元件的失效率繼續(xù)降低,但計(jì)算機(jī)應(yīng)用范圍擴(kuò)大,對(duì)計(jì)算機(jī)系統(tǒng)的可信性要求更高措施:容錯(cuò)技術(shù)重新提出,并得到了較快的發(fā)展,并出現(xiàn)了許多 容錯(cuò)計(jì)算機(jī)第26頁(yè),共280頁(yè)。實(shí)例1964 土星V號(hào)運(yùn)載火箭導(dǎo)航計(jì)算機(jī)研制成功,該機(jī)采用三模冗余及奇偶校驗(yàn)來實(shí)現(xiàn)容錯(cuò)1969, 噴射推進(jìn)實(shí)驗(yàn)室的STAR計(jì)算機(jī),其處理機(jī)采用三重表決加備份的混合冗余方式,并用算術(shù)檢錯(cuò)碼及雙
12、機(jī)比較檢測(cè)故障。1965,貝爾實(shí)驗(yàn)室研制成功1號(hào)ESS處理機(jī),是用于 交換的計(jì)算機(jī)系統(tǒng),采用了雙機(jī)比較技術(shù),是專用的硬件及軟件進(jìn)行故障的檢測(cè)、定位及識(shí)別。第27頁(yè),共280頁(yè)。第四代計(jì)算機(jī)(1970-)元件:大規(guī)模和超大規(guī)模集成電路問題:硬件可靠性大大提高而價(jià)格卻大幅度降低,使采用各種容錯(cuò)技術(shù)在經(jīng)濟(jì)上更易接受。需求:容錯(cuò)技術(shù)應(yīng)用范圍擴(kuò)展于 事務(wù)處理及各種實(shí)時(shí)控制系統(tǒng),甚至許多通用計(jì)算機(jī)系統(tǒng)也采用了容錯(cuò)技術(shù)第28頁(yè),共280頁(yè)。實(shí)例1975, 貝爾實(shí)現(xiàn)室的3A號(hào)ESS處理1975, TANDEM 16容錯(cuò)事務(wù)處理系統(tǒng)1976, AMDAHL 470V/6容錯(cuò)通用計(jì)算機(jī)1978,容錯(cuò)空間計(jì)算機(jī)FT
13、SC1979,IBM推出容錯(cuò)的4300通用計(jì)算機(jī)系列1980,容錯(cuò)多處理機(jī)FTMP及軟件實(shí)現(xiàn)的容錯(cuò)計(jì)算機(jī)SIFT研制成功第29頁(yè),共280頁(yè)。80年代以來出現(xiàn)了商用容錯(cuò)計(jì)算機(jī)市場(chǎng)分布式容錯(cuò)計(jì)算機(jī)系統(tǒng)的出現(xiàn)容錯(cuò)的VLSI技術(shù)人工智能在容錯(cuò)技術(shù)上的應(yīng)用計(jì)算機(jī)故障診斷專家系統(tǒng)第30頁(yè),共280頁(yè)。容錯(cuò)計(jì)算方面的理論工作1952,馮諾依曼作了一系列關(guān)于用重復(fù)邏輯模塊改善系統(tǒng)可靠性的報(bào)告1956,他發(fā)表論文概率邏輯及用不可靠元件設(shè)計(jì)可靠的結(jié)構(gòu)1971年以來,IEEE計(jì)算機(jī)學(xué)會(huì)容錯(cuò)技術(shù)委員會(huì)每年召開一次國(guó)際容錯(cuò)計(jì)算學(xué)術(shù)會(huì)議1987年中國(guó)計(jì)算機(jī)學(xué)會(huì)成為了容錯(cuò)計(jì)算專業(yè)委員會(huì)第31頁(yè),共280頁(yè)。三、容錯(cuò)技術(shù)的
14、主要內(nèi)容故障檢測(cè)與診斷技術(shù)故障屏蔽技術(shù)動(dòng)態(tài)冗余技術(shù)軟件容錯(cuò)技術(shù)信息保護(hù)技術(shù)第32頁(yè),共280頁(yè)。1、故障檢測(cè)和診斷技術(shù)容錯(cuò)技術(shù)的主要組成部分,又是微電子技術(shù)的支撐技術(shù)故障檢測(cè)(Fault Detection):判斷系統(tǒng)是否存在故障的過程故障定位(Fault Location):判斷系統(tǒng)在哪里發(fā)生故障的過程故障測(cè)試(Fault Testing):又稱故障診斷(Fault Diagnosis),故障檢測(cè)和故障定位,主要包括:測(cè)試集生成技術(shù),功能測(cè)試技術(shù),系統(tǒng)診斷技術(shù)第33頁(yè),共280頁(yè)。故障檢測(cè)的作用是確認(rèn)系統(tǒng)是否發(fā)生了故障,指示故障的狀態(tài),即查找故障源和故障性質(zhì)。一般來說,故障檢測(cè)只能找到錯(cuò)誤點(diǎn)
15、(錯(cuò)誤單元),不能準(zhǔn)確找到故障點(diǎn)。故障診斷的作用是給出故障定位?;跈z錯(cuò)糾錯(cuò)碼的編碼技術(shù)。在數(shù)據(jù)的傳輸、存儲(chǔ)、處理過程中,根據(jù)信息位和校驗(yàn)位之間的相關(guān)性進(jìn)行檢查,判定信息是否出錯(cuò)、錯(cuò)在哪里,并進(jìn)行糾正。常用的檢錯(cuò)碼編碼技術(shù)有奇偶校驗(yàn)碼、循環(huán)碼、海明碼等。其他故障檢測(cè)與診斷技術(shù)第34頁(yè),共280頁(yè)。2、故障屏蔽技術(shù)故障屏蔽技術(shù)是防止系統(tǒng)中的故障在該系統(tǒng)的信息結(jié)構(gòu)中產(chǎn)生差錯(cuò)的各種措施的總稱,其實(shí)質(zhì)是在故障效應(yīng)達(dá)到模塊的輸出以前,利用冗余資源將故障影響掩蓋起來,達(dá)到容錯(cuò)目的。特點(diǎn):不改變系統(tǒng)的結(jié)構(gòu),即系統(tǒng)部件之間的邏輯關(guān)系相互固定,又稱靜態(tài)冗余技術(shù)第35頁(yè),共280頁(yè)。故障屏蔽技術(shù)元件級(jí)故障屏蔽技術(shù)
16、邏輯級(jí)故障屏蔽技術(shù)主要用于設(shè)計(jì)一些高可靠性的容錯(cuò)專用集成電路芯片和不宜放在功能模塊一級(jí)上進(jìn)行容錯(cuò)設(shè)計(jì)的關(guān)鍵硬核模塊級(jí)故障屏蔽技術(shù)系統(tǒng)級(jí)故障屏蔽技術(shù)由兩個(gè)以上的相同系統(tǒng)合成一個(gè)系統(tǒng),冗余系統(tǒng)間通過相互校驗(yàn)來保持正常運(yùn)行。第36頁(yè),共280頁(yè)。3、冗余技術(shù)硬件冗余:在常規(guī)設(shè)計(jì)的硬件之外附加備份硬件,包括靜態(tài)冗余、動(dòng)態(tài)冗余時(shí)間冗余:重復(fù)地執(zhí)行指令或一段程序而附加額外的時(shí)間信息冗余:增加信息的多余度,使其具有檢錯(cuò)和糾錯(cuò)能力軟件冗余:用于測(cè)試、檢錯(cuò)的外加程序第37頁(yè),共280頁(yè)。4、軟件容錯(cuò)技術(shù)軟件容錯(cuò)是指在出現(xiàn)有限數(shù)目的軟件故障的情況下,系統(tǒng)仍可提供連續(xù)正確執(zhí)行的內(nèi)在能力。其目的是屏蔽軟件故障,恢復(fù)因
17、出故障而影響的運(yùn)行進(jìn)程。軟件容錯(cuò)技術(shù)主要包括N版本程序設(shè)計(jì)和恢復(fù)塊技術(shù)第38頁(yè),共280頁(yè)。5、信息保護(hù)技術(shù)信息保護(hù)技術(shù),是指為了防止信息被不正當(dāng)?shù)卮嫒』蚱茐亩扇〉拇胧??;镜男畔⒈Wo(hù)技術(shù)分為以下四種:編碼化與密碼化、資格檢查、內(nèi)存保護(hù)、外存保護(hù)。第39頁(yè),共280頁(yè)。四、容錯(cuò)技術(shù)的發(fā)展和應(yīng)用容錯(cuò)技術(shù)的應(yīng)用是網(wǎng)絡(luò)時(shí)代電子商務(wù)的客觀需求 軟件容錯(cuò)技術(shù)將有較大進(jìn)展硬件容錯(cuò)、操作系統(tǒng)容錯(cuò)相結(jié)合的容錯(cuò)設(shè)計(jì)方法將備受重視 VLSI的容錯(cuò)設(shè)計(jì)技術(shù)將發(fā)揮巨大作用 系統(tǒng)容錯(cuò)設(shè)計(jì)的應(yīng)用目標(biāo)明確 第40頁(yè),共280頁(yè)。容錯(cuò)技術(shù)應(yīng)用向PC發(fā)展 容錯(cuò)技術(shù)向智能化發(fā)展 容錯(cuò)技術(shù)應(yīng)用和應(yīng)用服務(wù)技術(shù)相結(jié)合 容錯(cuò)技術(shù)將走向
18、開放化、標(biāo)準(zhǔn)化 第41頁(yè),共280頁(yè)。第二章 故障自檢測(cè)與自診斷技術(shù)2.1 聯(lián)機(jī)檢測(cè)和脫機(jī)檢測(cè)2.2 邏輯網(wǎng)絡(luò)的故障安全與自校驗(yàn)特性2.3 自校驗(yàn)網(wǎng)絡(luò)的基本結(jié)構(gòu)第42頁(yè),共280頁(yè)。2.1 聯(lián)機(jī)檢測(cè)和脫機(jī)檢測(cè)聯(lián)機(jī)檢測(cè)與診斷:在系統(tǒng)運(yùn)行期間實(shí)現(xiàn)自我檢測(cè)與診斷的過程,也叫自檢測(cè)與自診斷,是提高系統(tǒng)可靠性的重要環(huán)節(jié)。脫機(jī)檢測(cè)與診斷:在系統(tǒng)非運(yùn)行期間進(jìn)行檢測(cè)與診斷,是提高系統(tǒng)可用度、可維性的重要環(huán)節(jié)。第43頁(yè),共280頁(yè)。聯(lián)機(jī)檢測(cè)與診斷的方法在系統(tǒng)中投入一定的冗余資源(指超過系統(tǒng)額定功能所需的資源),使系統(tǒng)在運(yùn)行中不僅能輸出功能所要求的信息,而且能輸出一些額外的信息。實(shí)質(zhì)是可靠性編碼技術(shù)在系統(tǒng)設(shè)計(jì)中的
19、應(yīng)用,是一種以硬件冗余為主的檢測(cè)與診斷技術(shù)第44頁(yè),共280頁(yè)。一個(gè)自檢測(cè)的系統(tǒng),其所有可能的輸出值的集合為U(輸出空間),由S和U-S兩部分組成S:系統(tǒng)的輸出碼,系統(tǒng)無(wú)故障時(shí)的輸出U-S:系統(tǒng)出現(xiàn)故障時(shí)候的輸出,若能指示系統(tǒng)是否發(fā)生故障,則稱之為檢錯(cuò)碼;若能指示系統(tǒng)中哪個(gè)部件發(fā)生的故障,則稱之為診錯(cuò)碼第45頁(yè),共280頁(yè)。脫機(jī)檢測(cè)與診斷的方法應(yīng)用軟件診斷程序,先優(yōu)化生成并輸入一組測(cè)試向量給系統(tǒng),然后觀測(cè)并分析系統(tǒng)的測(cè)試響應(yīng),以確定系統(tǒng)是否發(fā)生故障或哪個(gè)部件發(fā)生的故障。第46頁(yè),共280頁(yè)。2.2 邏輯網(wǎng)絡(luò)的故障安全與自校驗(yàn)特性1、故障安全特性2、自校驗(yàn)特性第47頁(yè),共280頁(yè)。1、故障安全特
20、性一個(gè)數(shù)字邏輯網(wǎng)絡(luò),對(duì)給定故障集F,如果在任何有效輸入碼激勵(lì)下,都不會(huì)因?yàn)楣收隙敵鲥e(cuò)誤的有效輸出碼,則稱它對(duì)故障集F是故障安全(Fault-Secure,F(xiàn)SE)的。若該網(wǎng)絡(luò)在任意輸入碼激勵(lì)下,對(duì)給定故障集F都不會(huì)輸出錯(cuò)誤的有效輸出碼,則稱它對(duì)故障集F是強(qiáng)故障安全的。第48頁(yè),共280頁(yè)。輸入是正確的,則輸出為正確的有效碼或無(wú)效碼,而不會(huì)輸出錯(cuò)誤的有效碼這樣的系統(tǒng)不會(huì)因?yàn)楣收洗嬖诙斐慑e(cuò)誤的有效輸出,稱之為故障安全的系統(tǒng)第49頁(yè),共280頁(yè)。若輸出是無(wú)效碼,則該系統(tǒng)必有故障存在若輸出的是有效碼,則不能斷定該系統(tǒng)是否有故障,但可斷定它的輸出是正確的系統(tǒng)可能存在不可測(cè)故障第50頁(yè),共280頁(yè)。2
21、、自校驗(yàn)特性如果一個(gè)數(shù)字邏輯網(wǎng)絡(luò)對(duì)于給定故障集F內(nèi)的每一個(gè)故障,至少存在一個(gè)有效的輸入碼能使它的輸出產(chǎn)生一個(gè)無(wú)效輸出碼字,則稱該網(wǎng)絡(luò)對(duì)于故障集F是可自校驗(yàn)(Self-Testing,ST)的。凡可自校驗(yàn)的系統(tǒng),可從觀測(cè)輸出碼字是否為有效碼字來判別其是否有故障,而且一定有一個(gè)校驗(yàn)碼就包含在有效的輸出碼字集合中。第51頁(yè),共280頁(yè)。故障安全特性和自校驗(yàn)特性所有故障的集合:可自校驗(yàn)的故障集Ft,安全故障集Fs;所有輸入向量的集合:正常輸入集N,故障安全輸入集I;所有輸出向量的集合:輸出碼空間S表示沿未引起錯(cuò)誤的故障或表示系統(tǒng)無(wú)故障,Z(Xi,)表示系統(tǒng)無(wú)故障時(shí)的輸出Z(Xi,fi)表示在Xi輸入時(shí)
22、,系統(tǒng)對(duì)故障fi的輸出第52頁(yè),共280頁(yè)。所有故障FtFsf1f2f3所有輸入向量NX1IX2X3所有輸出向量SZ(X1,f1)Z(X1,f3)Z(X1,f2)Z(X1,)Z(X2,)Z(X2,f2)Z(X2,f3)Z(X2,f1)Z(X3,f2)Z(X3,)自校驗(yàn)性故障安全性第53頁(yè),共280頁(yè)。結(jié)論自校驗(yàn)系統(tǒng)的性質(zhì)由系統(tǒng)結(jié)構(gòu)和運(yùn)行環(huán)境所決定。給定的N(由環(huán)境決定),F(xiàn)t由N能檢測(cè)到的所有故障組成。相反,I不是由環(huán)境決定的(N的子集),而是由Fs決定。Fs是人為選擇的一個(gè)非空故障集。第54頁(yè),共280頁(yè)。根據(jù)I包含輸入的多少(N中的全部、部分或零),可將自檢驗(yàn)系統(tǒng)分為:完全自校驗(yàn)系統(tǒng):如果
23、一個(gè)系統(tǒng)對(duì)正常輸入集N和故障集Ft是自校驗(yàn)的,并且對(duì)于N和故障集Fs是故障安全的,則稱該系統(tǒng)為完全自校驗(yàn)系統(tǒng)(TSC:Totally Self-Checking)。部分自校驗(yàn)系統(tǒng):如果一個(gè)系統(tǒng)對(duì)于正常輸入集N和故障集Ft是自校驗(yàn)的,并且對(duì)于N的一個(gè)非空真子集I和故障集Fs是故障安全的,則稱該系統(tǒng)為部分自校驗(yàn)系統(tǒng)(PSC,Partially Self-Checking)。僅自校驗(yàn)系統(tǒng):如果一個(gè)系統(tǒng)對(duì)正常輸入集N和故障集Ft是自校驗(yàn)的,但對(duì)于N的任何非空子集和故障集Fs都不具有故障安全性,則稱該系統(tǒng)為僅自校驗(yàn)系統(tǒng)。第55頁(yè),共280頁(yè)。2.3自校驗(yàn)網(wǎng)絡(luò)的基本結(jié)構(gòu)自校驗(yàn)網(wǎng)絡(luò):無(wú)需施加特定的測(cè)試輸入碼
24、來判定是否存在故障,而是在正常工作的過程中,由一個(gè)稱為校驗(yàn)器的電路通過監(jiān)視自校驗(yàn)功能模塊的輸出狀態(tài)而自動(dòng)指示有無(wú)錯(cuò)誤。第56頁(yè),共280頁(yè)。自校驗(yàn)功能模塊輸入XN檢測(cè)器/校正器檢錯(cuò)/糾錯(cuò)編碼輸出Z(X,) SZ(X, f ) S錯(cuò)誤指示第57頁(yè),共280頁(yè)。檢測(cè)器:當(dāng)出現(xiàn)無(wú)效碼時(shí),指示錯(cuò)誤狀態(tài),可構(gòu)成自檢測(cè)網(wǎng)絡(luò)。校正器:當(dāng)出現(xiàn)無(wú)效碼時(shí),指示出錯(cuò)位置,并予以糾正,可構(gòu)成自診斷網(wǎng)絡(luò)或故障屏蔽網(wǎng)絡(luò)。第58頁(yè),共280頁(yè)。第三章 故障屏蔽技術(shù)概述元件級(jí)故障屏蔽技術(shù)邏輯級(jí)故障屏蔽技術(shù)模塊級(jí)故障屏蔽技術(shù)系統(tǒng)級(jí)故障屏蔽技術(shù)第59頁(yè),共280頁(yè)。1、概述故障屏蔽技術(shù)(Fault Masking Technol
25、ogy)防止系統(tǒng)中的故障在該系統(tǒng)的信息結(jié)構(gòu)中產(chǎn)生差錯(cuò)的各種措施的總稱,其實(shí)質(zhì)是在故障效應(yīng)達(dá)到模塊的輸出以前,利用冗余資源將故障影響掩蓋起來,達(dá)到容錯(cuò)目的。第60頁(yè),共280頁(yè)。2、元件級(jí)故障屏蔽技術(shù)二倍冗余四倍冗余橋接冗余第61頁(yè),共280頁(yè)。(1)二倍冗余IO單個(gè)元件IO并聯(lián)結(jié)構(gòu)I串聯(lián)結(jié)構(gòu)OCCCCC第62頁(yè),共280頁(yè)。設(shè)三級(jí)管發(fā)生開路故障的概率為q0,發(fā)生短路故障的概率為qs,正常工作的概率為p:對(duì)于單個(gè)元件:p=1- q0 qs對(duì)于并聯(lián)結(jié)構(gòu):p=1-q02 -2 qs+qs2發(fā)生開路故障的概率為: q02發(fā)生短路故障的概率為:1-(1- qs )2對(duì)于串聯(lián)結(jié)構(gòu): p=1-2 q0+q0
26、2 -qs2發(fā)生開路故障的概率為: 1-(1- q0 )2發(fā)生短路故障的概率為:qs2第63頁(yè),共280頁(yè)。(1)四倍冗余IO并串聯(lián)結(jié)構(gòu)I串并聯(lián)結(jié)構(gòu)OCCCCCCCC第64頁(yè),共280頁(yè)。設(shè)三級(jí)管發(fā)生開路故障的概率為q0,發(fā)生短路故障的概率為qs,正常工作的概率為p:對(duì)于并串聯(lián)結(jié)構(gòu): p=1-2q02 +q04-4qs2+4qs3- qs4發(fā)生開路故障的概率為: 1-(1- q0 2 )2發(fā)生短路故障的概率為:1-(1- qs )2 2對(duì)于串并聯(lián)結(jié)構(gòu):p=1-4q02 +4q03-q04-2 qs2+qs4發(fā)生開路故障的概率為: 1-(1- q0 )2 2發(fā)生短路故障的概率為:1-(1- qs
27、 2 )2第65頁(yè),共280頁(yè)。晶體三極管四倍冗余結(jié)構(gòu)在下列故障之一時(shí),仍能正常工作:任一晶體管開路或短路不是同一支路的兩個(gè)三極管短路(對(duì)串并聯(lián))或是不是同一回路的兩個(gè)三極管開路(對(duì)并串聯(lián)),或者每一支路都有一個(gè)三極管短路(對(duì)串并聯(lián))或每一回路都有一個(gè)三極管開路(對(duì)并串聯(lián))第66頁(yè),共280頁(yè)。四倍冗余結(jié)構(gòu)的優(yōu)點(diǎn)可以用在元件級(jí)構(gòu)成獨(dú)立自足冗余,即不必增添邏輯線路來檢測(cè)故障與恢復(fù)信息能滿足實(shí)時(shí)與連續(xù)可用條件第67頁(yè),共280頁(yè)。四倍冗余結(jié)構(gòu)的缺點(diǎn)功耗大對(duì)元件適應(yīng)條件要求較高昂貴結(jié)構(gòu)不能變,無(wú)靈活性第68頁(yè),共280頁(yè)。3、邏輯級(jí)故障屏蔽技術(shù)主要用于VLSI的設(shè)計(jì)中主要用于設(shè)計(jì)一些高可靠性的容錯(cuò)專
28、用集成電路芯片和不宜放在功能模塊一級(jí)上進(jìn)行容錯(cuò)設(shè)計(jì)的關(guān)鍵硬核多采用四倍冗余方案第69頁(yè),共280頁(yè)。子部件1子部件k子部件k+1子部件n1P1P1P1PK個(gè)功能輸出N-K個(gè)校驗(yàn)輸出輸入1m第70頁(yè),共280頁(yè)。4、模塊極故障屏蔽技術(shù)是以N倍冗余碼為基礎(chǔ),通為構(gòu)成N模冗余(NMR,N-Modular Redundancy)系統(tǒng)來實(shí)現(xiàn)故障屏蔽第71頁(yè),共280頁(yè)。模塊1模塊2模塊n系統(tǒng)輸出差錯(cuò)指示輸入校正器第72頁(yè),共280頁(yè)。5、系統(tǒng)級(jí)故障屏蔽技術(shù)采用多個(gè)計(jì)算機(jī)系統(tǒng)來實(shí)現(xiàn)系統(tǒng)的功能。也可稱為多處理機(jī)或多計(jì)算機(jī)系統(tǒng)常用的結(jié)構(gòu)有:均分負(fù)載系統(tǒng)結(jié)構(gòu)主備用系統(tǒng)結(jié)構(gòu)雙機(jī)協(xié)同系統(tǒng)結(jié)構(gòu)緊耦合多處理機(jī)系統(tǒng)結(jié)構(gòu)分
29、布式系統(tǒng)結(jié)構(gòu)網(wǎng)絡(luò)結(jié)構(gòu)第73頁(yè),共280頁(yè)。第四章 冗余容錯(cuò)技術(shù)硬件冗余軟件冗余數(shù)據(jù)冗余動(dòng)態(tài)冗余技術(shù)第74頁(yè),共280頁(yè)。冗余容錯(cuò)技術(shù)在系統(tǒng)結(jié)構(gòu)上通過增加冗余資源的方法來掩蓋故障造成的影響,使得即使出錯(cuò)或發(fā)生故障,系統(tǒng)的功能仍不受影響,仍能夠正常執(zhí)行預(yù)定任務(wù)的技術(shù)。分為硬件冗余、軟件冗余與數(shù)據(jù)冗余從系統(tǒng)功能上講,三者都是增加“多余的設(shè)備”(硬件、軟件或數(shù)據(jù))為代價(jià)的第75頁(yè),共280頁(yè)。(一)硬件冗余靜態(tài)冗余動(dòng)態(tài)冗余主要方法第76頁(yè),共280頁(yè)。1、靜態(tài)冗余利用邏輯重疊技術(shù)有效地掩蔽硬件故障,又稱掩蔽冗余。典型代表是N取r系統(tǒng)(三取二的冗余)原理:采用并聯(lián)結(jié)構(gòu),從輸入端輸入相同的信息,并執(zhí)行同樣
30、的程序,完成同樣的任務(wù),得到的結(jié)果送入表決器,以多數(shù)的結(jié)果作為最后的輸出。第77頁(yè),共280頁(yè)。三取二系統(tǒng)模型第78頁(yè),共280頁(yè)。優(yōu)點(diǎn):系統(tǒng)可不進(jìn)行故障檢測(cè)、定位和系統(tǒng)的恢復(fù)工作,省掉了大量的軟件工作,簡(jiǎn)單易行缺點(diǎn):增加了硬件設(shè)備,提高了系統(tǒng)的費(fèi)用第79頁(yè),共280頁(yè)。2、動(dòng)態(tài)冗余技術(shù)采用輔助系統(tǒng)作為主系統(tǒng)的熱備份,正常狀態(tài)下主系統(tǒng)工作,并對(duì)主系統(tǒng)進(jìn)行故障檢測(cè)和定位,一旦診斷出故障發(fā)生的位置,系統(tǒng)能進(jìn)行自動(dòng)修復(fù)。第80頁(yè),共280頁(yè)。3、硬件冗余的方法可采用多級(jí)硬件冗余方法,通過多種設(shè)備的冗余,提高系統(tǒng)的可靠性。并聯(lián)冗余,備份冗余和表決系統(tǒng)冷備份,熱備份第81頁(yè),共280頁(yè)。優(yōu)缺點(diǎn)優(yōu)點(diǎn):不可
31、間斷系統(tǒng)采用了計(jì)算機(jī)局域網(wǎng)絡(luò)或分布式計(jì)算機(jī)系統(tǒng),各子系統(tǒng)無(wú)需或少許增加硬件設(shè)備,就可以起到互為冗余的作用。即不增加系統(tǒng)的體積、重量、功能和成功,設(shè)備充分共享,提高了利用率,弱化了故障缺點(diǎn):雖然不增加硬件設(shè)備卻增加了大量軟件工作,系統(tǒng)研制的難度、周期和費(fèi)用增加了;用戶的應(yīng)用程序在系統(tǒng)中運(yùn)行,經(jīng)常被診斷程序中斷,遇到故障時(shí)自動(dòng)定位和恢復(fù)過程較慢;不適合實(shí)時(shí)性很強(qiáng)的系統(tǒng)第82頁(yè),共280頁(yè)。(二)軟件冗余指針對(duì)軟件本身的故障,采用何種方法去防止由于軟件的錯(cuò)誤而導(dǎo)致的系統(tǒng)失效。分為動(dòng)態(tài)冗余和靜態(tài)冗余第83頁(yè),共280頁(yè)。1、動(dòng)態(tài)冗余程序回卷(Program Rollback)多道程序表決法模塊恢復(fù)法第
32、84頁(yè),共280頁(yè)。程序回卷法在執(zhí)行的程序中設(shè)置若干測(cè)試點(diǎn),在每個(gè)測(cè)試點(diǎn)上檢查輸出結(jié)果。當(dāng)測(cè)試程序檢測(cè)出錯(cuò)誤時(shí),就認(rèn)為正在執(zhí)行的程序是一個(gè)錯(cuò)誤的系統(tǒng)中運(yùn)行的,這段程序要被重新執(zhí)行,即程序的卷回。第85頁(yè),共280頁(yè)。優(yōu)點(diǎn):不增加硬件設(shè)備,軟件也不復(fù)雜缺點(diǎn):系統(tǒng)的反映時(shí)間和精度要受損失,對(duì)偶發(fā)性錯(cuò)誤有效,對(duì)固定的故障無(wú)能為力第86頁(yè),共280頁(yè)。多道程序表決法對(duì)同一個(gè)問題按不同的算法編多個(gè)程序,對(duì)執(zhí)行的結(jié)果進(jìn)行表決。串行執(zhí)行:費(fèi)時(shí),過多地占用主存空間,不符合實(shí)時(shí)性和實(shí)用性的要求并行執(zhí)行:需要硬件支持第87頁(yè),共280頁(yè)。模塊恢復(fù)法程序按照模塊執(zhí)行,每執(zhí)行完一塊,接著執(zhí)行一個(gè)測(cè)試程序,對(duì)剛執(zhí)行的程
33、序進(jìn)行測(cè)試,通過后再執(zhí)行下一個(gè)模塊,通不過則重新執(zhí)行無(wú)法適應(yīng)實(shí)時(shí)系統(tǒng)的要求第88頁(yè),共280頁(yè)。2、靜態(tài)冗余又稱軟件存儲(chǔ)冗余,是把關(guān)鍵的系統(tǒng)程序和應(yīng)用程序在系統(tǒng)中多點(diǎn)存儲(chǔ)在主存或高速輔助存儲(chǔ)器中。在正常狀態(tài)下,只執(zhí)行一處或幾處的程序,其它做備份,一旦程序遭破壞,則快速調(diào)入備用程序,使系統(tǒng)仍能正常工作。系統(tǒng)程序和應(yīng)用程序可采取分布式存儲(chǔ),或集中式存儲(chǔ)方式,或兩者結(jié)合第89頁(yè),共280頁(yè)。硬件容錯(cuò)與軟件容錯(cuò)的比較軟件的拷貝不能作為軟件的備份,這與硬件容錯(cuò)顯然不同。軟件的替換是暫時(shí)性的,被替換的軟件部件仍可以重新使用,硬件部件則需重新修復(fù)才可使用。軟件容錯(cuò)在實(shí)現(xiàn)技術(shù)上比硬件容錯(cuò)要復(fù)雜得多第90頁(yè),共
34、280頁(yè)。(三)數(shù)據(jù)冗余主要應(yīng)用于數(shù)據(jù)庫(kù)系統(tǒng)中。若某種故障使數(shù)據(jù)庫(kù)中當(dāng)前狀態(tài)不正確或可疑,就必須把數(shù)據(jù)庫(kù)恢復(fù)到某一正確的狀態(tài)根據(jù)數(shù)據(jù)庫(kù)存儲(chǔ)的位置和方式,分為集中式的數(shù)據(jù)冗余和分布式的數(shù)據(jù)冗余第91頁(yè),共280頁(yè)。(四) 動(dòng)態(tài)冗余技術(shù)概述重組可重組的動(dòng)態(tài)N模冗余技術(shù)恢復(fù)多處理機(jī)系統(tǒng)的動(dòng)態(tài)冗余結(jié)構(gòu)與容錯(cuò)處理模擬部件的冗余容錯(cuò)動(dòng)態(tài)冗余設(shè)計(jì)的綜合考慮第92頁(yè),共280頁(yè)。1、概述關(guān)鍵技術(shù):故障檢測(cè)與診斷選擇系統(tǒng)冗余結(jié)構(gòu),實(shí)現(xiàn)靜態(tài)冗余設(shè)計(jì)重組:故障處理技術(shù)恢復(fù)第93頁(yè),共280頁(yè)。定義:綜合運(yùn)用以上幾種技術(shù)來達(dá)到更強(qiáng)容錯(cuò)能力的一種綜合性容錯(cuò)技術(shù)動(dòng)態(tài):體現(xiàn)在作為系統(tǒng)正常資源的冗余模塊數(shù)隨著檢測(cè)到的故障數(shù)多
35、少而變化基本步驟:故障檢測(cè) 故障處理(重組) 系統(tǒng)恢復(fù)第94頁(yè),共280頁(yè)。動(dòng)態(tài)冗余技術(shù)與靜態(tài)冗余技術(shù)相比的優(yōu)點(diǎn)有更大的隔離災(zāi)難性故障的能力直到所有的后備單元都耗盡了,系統(tǒng)才失效 利用程序卷回等手段可消除由瞬時(shí)故障引起的錯(cuò)誤易于調(diào)節(jié)后備單元的數(shù)量與類型可利用后備單元的不加電元件的潛在低失效率特點(diǎn)避免了靜態(tài)冗余的電路圖相關(guān)、故障相依問題可用標(biāo)準(zhǔn)診斷程序檢查后備單元可增加系統(tǒng)平均壽命第95頁(yè),共280頁(yè)。2、重組重組的概念后緩備份重組緩慢降低重組第96頁(yè),共280頁(yè)。(1)重組的概念重組的主要功能是防止失效影響到系統(tǒng)的正常工作。當(dāng)檢測(cè)出系統(tǒng)有故障并實(shí)現(xiàn)了故障定位后,系統(tǒng)便通過更換或切除故障模塊的方
36、法來重新組合,達(dá)到排除或隔離故障的目的。重組的基礎(chǔ)是結(jié)構(gòu)的冗余和基于冗余結(jié)構(gòu)的故障檢測(cè)與診斷。實(shí)際中,往往在檢出故障后通過中斷來觸發(fā)重組。第97頁(yè),共280頁(yè)。重組可有兩種不同類型后援備份重組緩慢降級(jí)重組第98頁(yè),共280頁(yè)。(2)后援備份重組后援備份:系統(tǒng)配置一組平時(shí)不工作的模塊作為工作模塊組中失效模塊的備份。在故障發(fā)生后,通過故障檢測(cè)觸發(fā)后備模塊取代失效模塊兩種備份方式“冷”備份:平時(shí)備份模塊不通電“熱”備份:平時(shí)備份模塊通電,處于工作狀態(tài)第99頁(yè),共280頁(yè)。(3)緩慢降級(jí)重組緩慢降級(jí)是指當(dāng)系統(tǒng)的工作模塊出現(xiàn)故障模塊后,進(jìn)行無(wú)替換的切換,每檢出一個(gè)切除一個(gè),從而使系統(tǒng)的功能和性能逐步降級(jí)
37、兩種設(shè)計(jì)指導(dǎo)思想1、按要求的性能設(shè)計(jì)系統(tǒng)資源,當(dāng)出現(xiàn)失效模塊后系統(tǒng)降級(jí)繼續(xù)運(yùn)行,直至失效累積到系統(tǒng)無(wú)法正常工作。主要用于一般用途的計(jì)算機(jī)2、系統(tǒng)最初設(shè)計(jì)成以超額資源、超級(jí)性能運(yùn)行,當(dāng)系統(tǒng) 出現(xiàn)失效時(shí),仍能維持一個(gè)基本要求的性能等級(jí)。主要用于許多關(guān)鍵應(yīng)用應(yīng)用的實(shí)時(shí)控制處理器中第100頁(yè),共280頁(yè)。3、可重組的動(dòng)態(tài)N模冗余技術(shù)待命儲(chǔ)備式N模冗余可重組二模冗余第101頁(yè),共280頁(yè)。(1)待命儲(chǔ)備式N模冗余單模替換結(jié)構(gòu)成對(duì)替換結(jié)構(gòu)第102頁(yè),共280頁(yè)。單模替換結(jié)構(gòu)N個(gè)相同的模塊中,只有一個(gè)為主用模塊處理于運(yùn)行狀態(tài),用以產(chǎn)生系統(tǒng)輸出,其余模塊都作為備份片于待命狀態(tài)。自檢測(cè)系統(tǒng),也可用軟件周期性或定
38、期性地進(jìn)行故障檢測(cè)第103頁(yè),共280頁(yè)。成對(duì)替換結(jié)構(gòu)N個(gè)模塊中總有兩個(gè)組成主用模塊對(duì),它們并行工作并進(jìn)行比較;一旦比較結(jié)果不致便啟動(dòng)重組,將該對(duì)模塊切除,而換上另外兩個(gè)備用模塊作為主模塊對(duì)。第104頁(yè),共280頁(yè)。(2)可重組二模冗余在靜態(tài)二模冗余的基礎(chǔ)上增加故障檢測(cè)和模塊切換裝置而構(gòu)成的有兩種常見的冗余模式:主備用冗余模式和二模協(xié)同冗余模式第105頁(yè),共280頁(yè)。主備用冗余模式實(shí)質(zhì)上是待命儲(chǔ)備式N模冗余系統(tǒng)的一個(gè)特例兩個(gè)相同的模塊通過一定的接口電路(包括檢測(cè)和切換裝置)連接起來,一個(gè)主用,一個(gè)備用。第106頁(yè),共280頁(yè)。二模協(xié)同冗余模式二模協(xié)同:指兩個(gè)模塊同時(shí)執(zhí)行相同的指令,處理相同的數(shù)
39、據(jù),完成相同的任務(wù)。如果二模均正常,則任取其中一個(gè)的輸出作為系統(tǒng)輸出;如果一個(gè)失效,則它的輸出封鎖,而將正常的輸出作為系統(tǒng)輸出。第107頁(yè),共280頁(yè)。故障定位方法自診斷方法:聯(lián)機(jī)模塊運(yùn)行自診斷程序每個(gè)模塊設(shè)置自校驗(yàn)器利用監(jiān)視定時(shí)器判別故障模塊,觸發(fā)重組利用外部仲裁控制配置:強(qiáng)迫二模塊運(yùn)行同一“已知結(jié)果的測(cè)試程序”第108頁(yè),共280頁(yè)。模塊同步的方法微周期級(jí)同步總線周期級(jí)同步任務(wù)級(jí)同步第109頁(yè),共280頁(yè)。4、恢復(fù)恢復(fù)的概念恢復(fù)技術(shù)的方法 向前錯(cuò)誤恢復(fù)、向后錯(cuò)誤恢復(fù)(3) 常用恢復(fù)算法(4) 計(jì)算機(jī)系統(tǒng)基本部分的恢復(fù)技術(shù)(5) 文件恢復(fù)技術(shù)(6) 通信系統(tǒng)的恢復(fù)技術(shù)第110頁(yè),共280頁(yè)。
40、(1)恢復(fù)恢復(fù)是系統(tǒng)利用重組處理了永久故障等不可恢復(fù)硬件故障后,實(shí)現(xiàn)動(dòng)態(tài)冗余和容錯(cuò)的必不可少的環(huán)節(jié)。其作用是消除錯(cuò)誤造成的影響,使系統(tǒng)自動(dòng)恢復(fù)到正常工作狀態(tài)重新運(yùn)行下去。第111頁(yè),共280頁(yè)。(2)恢復(fù)技術(shù)的方法向前錯(cuò)誤恢復(fù)向后錯(cuò)誤恢復(fù)第112頁(yè),共280頁(yè)。向前錯(cuò)誤恢復(fù)概念:根據(jù)系統(tǒng)的故障特征,校正出錯(cuò)的系統(tǒng)狀態(tài),使系統(tǒng)進(jìn)程正確運(yùn)行下去。這種恢復(fù)技術(shù)不需要保存系統(tǒng)出錯(cuò)前的狀態(tài)和信息,不需要卷回重運(yùn)行。優(yōu)點(diǎn):系統(tǒng)開銷小,無(wú)需保存恢復(fù)點(diǎn)信息的時(shí)間和空間;可避免多米諾效應(yīng)。多米諾效應(yīng):伴隨“卷回”操作而產(chǎn)生的一種連鎖倒退、直至退回到任務(wù)起點(diǎn)的反應(yīng)現(xiàn)象。在多進(jìn)程計(jì)算機(jī)系統(tǒng)中極易產(chǎn)生多米諾現(xiàn)象。第1
41、13頁(yè),共280頁(yè)。向前錯(cuò)誤恢復(fù)缺點(diǎn):(1)恢復(fù)算法復(fù)雜,必須基于對(duì)故障特征和錯(cuò)誤性質(zhì)的深刻而全面的認(rèn)識(shí)。(2)不能采取措施來消除錯(cuò)誤或掩蓋故障。第114頁(yè),共280頁(yè)。向后錯(cuò)誤恢復(fù)向后錯(cuò)誤恢復(fù)技術(shù)是把出錯(cuò)的系統(tǒng)進(jìn)程從當(dāng)前錯(cuò)誤狀態(tài)卷回到以前的某一正確狀態(tài),然后從這一狀態(tài)開始繼續(xù)系統(tǒng)的運(yùn)行。這種恢復(fù)方式是以事先建立恢復(fù)點(diǎn)為基礎(chǔ)的第115頁(yè),共280頁(yè)。向后錯(cuò)誤恢復(fù)協(xié)議(1)保證為每個(gè)任務(wù)或進(jìn)程的程序模塊設(shè)置一 組恢復(fù)點(diǎn),并將系統(tǒng)正常運(yùn)行到各恢復(fù)點(diǎn) 時(shí)的狀態(tài)和必要信息予以保存,以便程序 一旦返回到該點(diǎn)時(shí)可以糾正故障影響。(2)避免因多模塊間通信而產(chǎn)生的多米諾效應(yīng), 關(guān)鍵在于選擇恢復(fù)點(diǎn)。(3)盡量保
42、持各模塊原有的并行性。第116頁(yè),共280頁(yè)。向后錯(cuò)誤恢復(fù)協(xié)議(4)使各模塊保持獨(dú)立性,并使恢復(fù)過程對(duì)設(shè) 計(jì)者具有透明性。(5)避免因恢復(fù)造成多模塊的死鎖。(6)使恢復(fù)操作盡量少增加系統(tǒng)開銷。(7)具有完整性和一致性第117頁(yè),共280頁(yè)。向后恢復(fù)的三種實(shí)現(xiàn)方法靜態(tài)規(guī)劃法無(wú)規(guī)劃法動(dòng)態(tài)規(guī)劃法第118頁(yè),共280頁(yè)。優(yōu)點(diǎn):實(shí)現(xiàn)簡(jiǎn)單、恢復(fù)可靠缺點(diǎn):系統(tǒng)的時(shí)間、空間開銷大,易引起多米諾效應(yīng)第119頁(yè),共280頁(yè)。(3) 常用恢復(fù)算法程序卷回記日志恢復(fù)塊原子操作預(yù)設(shè)陷阱糾錯(cuò)編碼多數(shù)表決第120頁(yè),共280頁(yè)。程序卷回向后錯(cuò)誤恢復(fù)方法適用于瞬時(shí)錯(cuò)誤和永久錯(cuò)誤檢測(cè)系統(tǒng)在運(yùn)行過程中一經(jīng)發(fā)現(xiàn)錯(cuò)誤,便進(jìn)行程序卷回
43、,返回到起始點(diǎn)或離出錯(cuò)點(diǎn)最近的預(yù)設(shè)恢復(fù)點(diǎn)重試。微指令重試替換數(shù)據(jù)重試第121頁(yè),共280頁(yè)。注意問題恢復(fù)點(diǎn)的數(shù)目和位置選擇問題各恢復(fù)點(diǎn)需要保存的狀態(tài)和信息量的確定問題恢復(fù)點(diǎn)的功能設(shè)置問題程序卷回級(jí)別的選擇問題第122頁(yè),共280頁(yè)。程序在恢復(fù)點(diǎn)的功能同步功能存檔功能存檔內(nèi)容的更新功能報(bào)告功能第123頁(yè),共280頁(yè)。記日志向后錯(cuò)誤恢復(fù)方法在進(jìn)程開始時(shí),保存初始數(shù)據(jù)的副本作為后備數(shù)據(jù),并在進(jìn)程執(zhí)行中,記下影響這些數(shù)據(jù)的全部業(yè)務(wù)。第124頁(yè),共280頁(yè)?;謴?fù)塊向后恢復(fù)方法,以錯(cuò)誤檢測(cè)、向后冗余和多份軟件模塊為基礎(chǔ)由恢復(fù)點(diǎn)、替換算法和驗(yàn)收測(cè)試三部分組成恢復(fù)點(diǎn):保存在恢復(fù)塊內(nèi)會(huì)發(fā)生變化的全局變量替換算法
44、:一個(gè)或多個(gè)不同版本、但功能相同的備用程序模塊驗(yàn)收測(cè)試:一組邏輯表達(dá)式模塊,設(shè)置在每個(gè)替換算法的出口,用于檢測(cè)計(jì)算結(jié)果的正確性、合理性第125頁(yè),共280頁(yè)。驗(yàn)收測(cè)試的設(shè)計(jì)問題滿足要求測(cè)試:算法執(zhí)行后完成必定滿足要求合理性測(cè)試審計(jì)測(cè)試運(yùn)行時(shí)間測(cè)試第126頁(yè),共280頁(yè)。原子操作特性:一個(gè)原子操作可以只屬于一個(gè)進(jìn)程,也可以由多個(gè)進(jìn)程共享原子操作是可嵌套的一種錯(cuò)誤檢測(cè)的方法,還是一種確定一個(gè)故障的可能結(jié)果的界限的方法可用于向前和向后錯(cuò)誤恢復(fù)第127頁(yè),共280頁(yè)。預(yù)設(shè)陷阱向前錯(cuò)誤恢復(fù)方法根據(jù)系統(tǒng)可能出現(xiàn)的異常情況,設(shè)計(jì)一組處理程序,建立一個(gè)異常處理程序庫(kù),當(dāng)系統(tǒng)因故障而出現(xiàn)某種預(yù)料中的異常情況時(shí),
45、便從庫(kù)中調(diào)用相應(yīng)的異常處理程序進(jìn)行處理,實(shí)現(xiàn)錯(cuò)誤恢復(fù)第128頁(yè),共280頁(yè)。糾錯(cuò)編碼通過在信息位的基礎(chǔ)上增加校驗(yàn)位,可以準(zhǔn)確地檢測(cè)出傳輸、存儲(chǔ)的信息中出現(xiàn)的差錯(cuò)和差錯(cuò)的位置,并能以正確的值校正差錯(cuò)值,使信息恢復(fù)到原來正確狀態(tài)??捎糜诠收显\斷、屏蔽,差錯(cuò)恢復(fù)第129頁(yè),共280頁(yè)。多數(shù)表決向前錯(cuò)誤恢復(fù),可以屏蔽錯(cuò)誤,并診斷出錯(cuò)位置在多處理機(jī)系統(tǒng)中,多個(gè)處理機(jī)獨(dú)立運(yùn)行同一任務(wù),并同步完成相同的功能,按“擇多原則”得出正確的結(jié)果值第130頁(yè),共280頁(yè)。(4) 計(jì)算機(jī)系統(tǒng)基本部分的恢復(fù)技術(shù)中央處理機(jī)的故障排除與恢復(fù)存儲(chǔ)器故障排除與恢復(fù)外設(shè)的故障排除與恢復(fù)第131頁(yè),共280頁(yè)。中央處理機(jī)的故障排除與
46、恢復(fù)常見故障:內(nèi)部硬件故障:由模塊或裝置內(nèi)的各種硬件校驗(yàn)和接口校驗(yàn)驗(yàn)出程序錯(cuò)誤:可作為程序執(zhí)行時(shí)的軟件異常狀態(tài)和例外狀態(tài)由硬件檢驗(yàn)機(jī)構(gòu)檢出第132頁(yè),共280頁(yè)。中央處理機(jī)的故障排除與恢復(fù)流程圖CPU1硬件故障硬件重試成功保存現(xiàn)場(chǎng)運(yùn)行信息多處理機(jī)?CPU1永久故障停機(jī),并保存現(xiàn)場(chǎng)運(yùn)行信息中斷CPUi(i=1)OS的功能恢復(fù)例行程序應(yīng)用軟件恢復(fù)例行程序有關(guān)處理任務(wù)異常終結(jié)繼續(xù)工作能恢復(fù)?CPU執(zhí)行OSNNYNYYN第133頁(yè),共280頁(yè)。軟件故障排除與恢復(fù)硬件檢測(cè)機(jī)構(gòu)一旦檢出程序異常,立即發(fā)出程序錯(cuò)誤中斷(如非法操作碼中斷、指令使用錯(cuò)誤中斷等)報(bào)告給操作系統(tǒng)對(duì)于操作系統(tǒng)中發(fā)生的程序錯(cuò)誤,通常采用
47、“預(yù)設(shè)陷阱”恢復(fù)算法,針對(duì)不同的程序錯(cuò)誤中斷,啟動(dòng)不同的“異常處理”程序。對(duì)于用戶處理程序中發(fā)生的程序錯(cuò)誤恢復(fù)塊技術(shù)預(yù)設(shè)陷阱恢復(fù)方法第134頁(yè),共280頁(yè)。存儲(chǔ)器故障排除與恢復(fù)檢測(cè):奇偶校驗(yàn)電路、靜態(tài)測(cè)試、動(dòng)態(tài)測(cè)試等軟件檢測(cè)手法、海明碼一旦檢測(cè)出有錯(cuò),檢測(cè)機(jī)構(gòu)向CPU發(fā)出中斷,啟動(dòng)運(yùn)行存儲(chǔ)器排除故障與恢復(fù)的中斷處理程序處理方法:先了解發(fā)生誤操作的存儲(chǔ)器地址或芯片等故障信息,然后重新從外部存儲(chǔ)器調(diào)入出錯(cuò)的程序,從斷點(diǎn)處開始重試,看能否恢復(fù);若重試不成功,進(jìn)行硬件重組和重組后的恢復(fù)重新調(diào)入執(zhí)行的程序,可重入(Reenterable)且可再生(Refreshable)的程序第135頁(yè),共280頁(yè)。外
48、設(shè)的故障排除與恢復(fù)外設(shè):與CPU控制輸入/輸出設(shè)備工作相關(guān)的硬件組成部分:并行或串行I/O通道、設(shè)備驅(qū)動(dòng)器、I/O設(shè)備和數(shù)據(jù)存取路徑外設(shè)故障對(duì)策外設(shè)故障的處理步驟第136頁(yè),共280頁(yè)。外設(shè)故障對(duì)策存取路徑多重化設(shè)備的物理多重化:將信息同時(shí)寫入若干相同的設(shè)備設(shè)備的邏輯多重化:為同一功能安排兩個(gè)以上的實(shí)體設(shè)備復(fù)制件,而且設(shè)置幾種不同的設(shè)備第137頁(yè),共280頁(yè)。外設(shè)故障的處理步驟用硬件或軟件重試硬件重試:由I/O通道、設(shè)備驅(qū)動(dòng)器對(duì)指令自動(dòng)重試軟件重試: 先在發(fā)生I/O操作錯(cuò)的同一存取路徑上進(jìn)行;若失敗,再改用另一路徑重試故障的區(qū)分診斷故障設(shè)備的重組定時(shí)監(jiān)視第138頁(yè),共280頁(yè)。處理外設(shè)故障的一
49、般步驟用硬件/軟件重試成功?故障的區(qū)分診斷故障設(shè)備重組定時(shí)監(jiān)視超時(shí)?YNYN繼續(xù)運(yùn)行第139頁(yè),共280頁(yè)。外設(shè)故障的區(qū)分診斷通道1驅(qū)動(dòng)器1通道2驅(qū)動(dòng)器2TDDP11P12P2212外存第140頁(yè),共280頁(yè)。故障設(shè)備的重組將故障設(shè)備和故障單元在邏輯上與系統(tǒng)切斷,禁止存取,通知操作員切除維修故障設(shè)備修復(fù)后,在實(shí)際投入系統(tǒng)應(yīng)用前以診斷工作方式讀寫檢驗(yàn)其是否正常和可靠,稱為故障修復(fù)后的驗(yàn)收診斷第141頁(yè),共280頁(yè)。(5) 文件恢復(fù)技術(shù)文件:計(jì)算機(jī)系統(tǒng)中具有邏輯關(guān)系的信息/數(shù)據(jù)的集合文件恢復(fù)的故障前處理文件恢復(fù)的故障后處理第142頁(yè),共280頁(yè)。文件的恢復(fù)階段故障前處理:在系統(tǒng)運(yùn)行過程中、故障發(fā)生
50、前,將文件恢復(fù)所必需的信息記錄下來故障后處理:系統(tǒng)因故障發(fā)生而中斷運(yùn)行時(shí),利用故障前記錄的信息使剛剛發(fā)生故障的文件及系統(tǒng)的其他狀態(tài)得到恢復(fù),使系統(tǒng)重新運(yùn)行第143頁(yè),共280頁(yè)。故障前處理二重化方式虛擬空間方式恢復(fù)點(diǎn)方式報(bào)文記錄方式全轉(zhuǎn)儲(chǔ)方式ID轉(zhuǎn)儲(chǔ)/狀態(tài)轉(zhuǎn)儲(chǔ)方式第144頁(yè),共280頁(yè)。二重化方式將重要信息二重化第145頁(yè),共280頁(yè)。虛擬空間方式更新文件時(shí),將文件復(fù)制到別的文件空間后再更新虛擬空間:用于更新別的文件空間第146頁(yè),共280頁(yè)?;謴?fù)點(diǎn)方式聯(lián)機(jī)系統(tǒng)使用分類周期轉(zhuǎn)儲(chǔ):按一定時(shí)間周期,定期轉(zhuǎn)儲(chǔ)系統(tǒng)恢復(fù)所需的基本信息增量轉(zhuǎn)儲(chǔ):在文件每次更新前保存下文件的內(nèi)容、識(shí)別號(hào)、處理時(shí)間等信息第1
51、47頁(yè),共280頁(yè)。報(bào)文記錄方式常用于小型報(bào)文交換系統(tǒng)在形成輸入、輸出報(bào)文記錄時(shí)都附加上一定的識(shí)別號(hào)碼,然后系統(tǒng)恢復(fù)時(shí)通過檢驗(yàn)識(shí)別號(hào)碼來確定具體的恢復(fù)策略第148頁(yè),共280頁(yè)。全轉(zhuǎn)儲(chǔ)方式每過一定時(shí)間,將系統(tǒng)運(yùn)行所必需的重要文件和需要長(zhǎng)期保存的信息全部從硬盤上轉(zhuǎn)儲(chǔ)到磁帶、光盤等后援存儲(chǔ)器上去。第149頁(yè),共280頁(yè)。ID轉(zhuǎn)儲(chǔ)/狀態(tài)轉(zhuǎn)儲(chǔ)方式轉(zhuǎn)儲(chǔ)系統(tǒng)的運(yùn)行狀態(tài)記錄,將記錄結(jié)合恢復(fù)點(diǎn)方式和報(bào)文記錄方式獲得的有關(guān)文件識(shí)別號(hào)碼、事務(wù)處理識(shí)別號(hào)碼、文件內(nèi)容等信息,恢復(fù)系統(tǒng)正常運(yùn)行狀態(tài)第150頁(yè),共280頁(yè)。文件操作的四種狀態(tài)狀態(tài)S0:接收完終端送來的報(bào)文時(shí)狀態(tài)S1:在恢復(fù)點(diǎn)轉(zhuǎn)儲(chǔ)完文件更新信息,但尚未更新文
52、件時(shí)狀態(tài)S2:用戶文件更新完成時(shí)狀態(tài)S3:向終端發(fā)送輸出報(bào)文時(shí)第151頁(yè),共280頁(yè)。故障后處理應(yīng)急恢復(fù)文件恢復(fù)系統(tǒng)恢復(fù)的優(yōu)先次序第152頁(yè),共280頁(yè)。應(yīng)急恢復(fù)利用ID轉(zhuǎn)儲(chǔ)/狀態(tài)轉(zhuǎn)儲(chǔ)信息和恢復(fù)點(diǎn)信息等,盡快使對(duì)用戶的服務(wù)重新開始的恢復(fù)針對(duì)兩種故障狀態(tài):終端處于完全不能訪問系統(tǒng)中心的狀態(tài)終端送來的報(bào)文已輸入到系統(tǒng)中心,報(bào)文正在處理中或已處理完正等待輸出時(shí)發(fā)生故障的狀態(tài)第153頁(yè),共280頁(yè)。文件恢復(fù)讀出的文件發(fā)生故障時(shí),利用前一天的全轉(zhuǎn)儲(chǔ)信息和當(dāng)天的恢復(fù)點(diǎn)信息來恢復(fù)文件第154頁(yè),共280頁(yè)。(6)通信系統(tǒng)的恢復(fù)技術(shù)終端控制程序的恢復(fù)處理報(bào)文控制程序的恢復(fù)處理第155頁(yè),共280頁(yè)。通信系統(tǒng):
53、由各機(jī)所屬的通信控制器和機(jī)間的通信線路網(wǎng)組成通信控制器:故障檢測(cè):通過特設(shè)的回折試驗(yàn)線路和多重化通信的模擬輸入/輸出功能進(jìn)行檢測(cè)故障定位:終端控制程序的故障區(qū)分例行程序通信線路網(wǎng):交換線路網(wǎng)和專用線路網(wǎng)第156頁(yè),共280頁(yè)。通信系統(tǒng)的信息處理終端控制程序:以終端、通信線路網(wǎng)的控制為中心,使數(shù)據(jù)正確而有效地傳送報(bào)文控制程序:以一份報(bào)文為單位確保數(shù)據(jù)處理的正確性業(yè)務(wù)控制程序:對(duì)接收的報(bào)文信息按應(yīng)用要求進(jìn)行綜合第157頁(yè),共280頁(yè)。終端控制程序的恢復(fù)處理檢測(cè)報(bào)文錯(cuò)誤或傳送控制錯(cuò)誤重試終端代理接收試驗(yàn)呼叫第158頁(yè),共280頁(yè)。報(bào)文控制程序的恢復(fù)處理用來校驗(yàn)報(bào)文格式和輸入/輸出流水號(hào)等錯(cuò)誤,并負(fù)責(zé)
54、出錯(cuò)情況下的恢復(fù)處理工作報(bào)文格式錯(cuò):將該份報(bào)文作廢并通知發(fā)送端重發(fā)輸入流水號(hào)和輸出流水號(hào)錯(cuò)重號(hào):在接收端刪除重復(fù)報(bào)文漏號(hào):通知發(fā)送端重發(fā)通信系統(tǒng)錯(cuò)誤恢復(fù)后,對(duì)中斷交換的報(bào)文處理重發(fā)脫發(fā):系統(tǒng)恢復(fù)工作總從下一份報(bào)文開始發(fā)送第159頁(yè),共280頁(yè)。5、多機(jī)處理系統(tǒng)的動(dòng)態(tài)冗余結(jié)構(gòu)常用的多處理機(jī)冗余結(jié)構(gòu)(1)均分負(fù)載系統(tǒng)結(jié)構(gòu)(2)主備用系統(tǒng)結(jié)構(gòu)(3)緊耦合系統(tǒng)結(jié)構(gòu)(4)分布式系統(tǒng)結(jié)構(gòu)(5)網(wǎng)絡(luò)結(jié)構(gòu)第160頁(yè),共280頁(yè)。均分負(fù)載系統(tǒng)結(jié)構(gòu)均分負(fù)載:把系統(tǒng)的負(fù)載基本均衡地分配給多個(gè)互相獨(dú)立的處理機(jī)來承擔(dān)第161頁(yè),共280頁(yè)。緊耦合系統(tǒng)結(jié)構(gòu)特點(diǎn):有兩個(gè)或兩個(gè)以上的處理機(jī)有各處理機(jī)共享的主存儲(chǔ)器有各處理機(jī)共
55、享的I/O子系統(tǒng)有統(tǒng)一的多機(jī)并發(fā)操作系統(tǒng)進(jìn)行控制第162頁(yè),共280頁(yè)。分布式系統(tǒng)結(jié)構(gòu)松耦合多處理機(jī)系統(tǒng)相互通信的多個(gè)自治計(jì)算機(jī)節(jié)點(diǎn)的集合,各計(jì)算機(jī)即相互獨(dú)立,又是一個(gè)整體的組成部分,相互協(xié)作完成一個(gè)共同的任務(wù)第163頁(yè),共280頁(yè)。結(jié)構(gòu)特點(diǎn)所有資源均可冗余良好的可擴(kuò)性使得系統(tǒng)的冗余程度可隨應(yīng)用要求和環(huán)境的變化而作動(dòng)態(tài)調(diào)整系統(tǒng)中資源在物理上是分散的,避免了由于局部故障而導(dǎo)致整個(gè)系統(tǒng)崩潰的現(xiàn)象高速可靠的通信子網(wǎng)絡(luò)和資源的分散控制消除了單處理機(jī)和緊耦合多處理機(jī)系統(tǒng)中存在的競(jìng)爭(zhēng)、數(shù)據(jù)流瓶頸和控制上的關(guān)鍵點(diǎn)第164頁(yè),共280頁(yè)。幾種常見的分布式系統(tǒng)結(jié)構(gòu)雙環(huán)結(jié)構(gòu)C1,t環(huán)路結(jié)構(gòu)(n:節(jié)點(diǎn)數(shù),t:節(jié)點(diǎn)跳
56、躍間隔)多總線結(jié)構(gòu)容錯(cuò)環(huán)總線結(jié)構(gòu)n第165頁(yè),共280頁(yè)。多總線結(jié)構(gòu)每個(gè)節(jié)點(diǎn)并不連接到所有的總線上,而是按一定規(guī)律連接在部分總線上特點(diǎn):總線數(shù)增多時(shí),節(jié)點(diǎn)的端口數(shù)不必隨之增加每條總線的負(fù)載不會(huì)隨著節(jié)點(diǎn)的增加而明顯增大第166頁(yè),共280頁(yè)。(5)網(wǎng)絡(luò)結(jié)構(gòu)網(wǎng)絡(luò)冗余性的表現(xiàn):終端設(shè)備與線路的多重冗余存取路徑的多重冗余引入集配器裝置網(wǎng)絡(luò)結(jié)構(gòu)的基本形式:集中式網(wǎng)絡(luò)分布式網(wǎng)絡(luò)第167頁(yè),共280頁(yè)。第五章 軟件可靠性技術(shù)軟件可靠性概述軟件容錯(cuò)技術(shù)信息保護(hù)技術(shù)第168頁(yè),共280頁(yè)。5.1 軟件可靠性概述軟件可靠性和硬件可靠性的聯(lián)系和區(qū)別軟件可靠性技術(shù)的內(nèi)涵軟件可靠性定義軟件可靠性指標(biāo)第169頁(yè),共280
57、頁(yè)。軟件可靠性和硬件可靠性的聯(lián)系軟件可靠性和硬件可靠性的區(qū)別軟、硬件故障機(jī)理軟件故障的特性第170頁(yè),共280頁(yè)。1、軟件可靠性和硬件可靠性的聯(lián)系指系統(tǒng)(或產(chǎn)品、模塊)在一定的條件下和一定時(shí)間內(nèi)能完成預(yù)定功能的性質(zhì)兩者都是復(fù)雜性的函數(shù)都可利用可靠性增長(zhǎng)來提高它們的可靠性第171頁(yè),共280頁(yè)。2、軟件可靠性和硬件可靠性的區(qū)別概念內(nèi)涵指標(biāo)選擇設(shè)計(jì)分析手段提高可靠性的方法途徑第172頁(yè),共280頁(yè)。3、軟、硬件故障機(jī)理硬件故障來源于元部件的失效,“后生”的故障軟件故障來源于人的失誤和水平、能力的局限性,“先天”的故障第173頁(yè),共280頁(yè)。4、軟件故障的特性固有性環(huán)境敏感性運(yùn)行環(huán)境:硬件平臺(tái)、硬件
58、配置、支撐軟件輸入環(huán)境:應(yīng)用對(duì)象,用戶要求,輸入數(shù)據(jù)等故障影響的傳染性:任一軟件故障,只要未被除,始終存在于該軟件中,一旦引起錯(cuò)誤,是可以傳染給其他軟件的。第174頁(yè),共280頁(yè)。可靠性設(shè)計(jì):為了獲得高可靠性的軟件避錯(cuò)排錯(cuò)設(shè)計(jì)容錯(cuò)設(shè)計(jì)信息保護(hù)可靠性分析:通過建立一定的可靠性模型,為軟件可靠性設(shè)計(jì)和軟件維護(hù)提供必要的依據(jù)第175頁(yè),共280頁(yè)。軟件可靠性技術(shù)設(shè)計(jì)技術(shù)分析技術(shù)避錯(cuò)排錯(cuò)技術(shù)容錯(cuò)技術(shù)信息保護(hù)技術(shù)可靠性模型管理技術(shù)設(shè)計(jì)方法學(xué)驗(yàn)證技術(shù)多版本技術(shù)恢復(fù)塊技術(shù)替換技術(shù)混合技術(shù)基本信息保護(hù)技術(shù)網(wǎng)絡(luò)信息保護(hù)技術(shù)時(shí)間技術(shù)計(jì)數(shù)技術(shù)播種技術(shù)數(shù)據(jù)技術(shù)第176頁(yè),共280頁(yè)。計(jì)算機(jī)軟件:與計(jì)算機(jī)系統(tǒng)的操作有關(guān)
59、的程序、規(guī)程、規(guī)則以及與之有關(guān)的文件和數(shù)據(jù)軟件質(zhì)量軟件可靠性第177頁(yè),共280頁(yè)。RAID4的特點(diǎn)和RAID3也挺象,不過在失敗恢復(fù)時(shí),它的難度可要比RAID3大得多了,控制器的設(shè)計(jì)難度也要大許多,而且訪問數(shù)據(jù)的效率不怎么好。自校驗(yàn)系統(tǒng)的性質(zhì)由系統(tǒng)結(jié)構(gòu)和運(yùn)行環(huán)境所決定。3自校驗(yàn)網(wǎng)絡(luò)的基本結(jié)構(gòu)效率(時(shí)間性、資源性)缺點(diǎn):雖然不增加硬件設(shè)備卻增加了大量軟件工作,系統(tǒng)研制的難度、周期和費(fèi)用增加了;可利用后備單元的不加電元件的潛在低失效率特點(diǎn)統(tǒng)進(jìn)行屏蔽以減少外界的干擾等方法來提容錯(cuò)軟件設(shè)計(jì)的先進(jìn)技術(shù)1969, 噴射推進(jìn)實(shí)驗(yàn)室的STAR計(jì)算機(jī),其處理機(jī)采用三重表決加備份的混合冗余方式,并用算術(shù)檢錯(cuò)碼及
60、雙機(jī)比較檢測(cè)故障。機(jī)器的內(nèi)部總線,也包括像SCSI的外部總線更換新盤后原有數(shù)據(jù)會(huì)需要很長(zhǎng)時(shí)間同步鏡像,外界對(duì)數(shù)據(jù)的訪問不會(huì)受到影響,只是這時(shí)整個(gè)系統(tǒng)的性能有所下降。軟件質(zhì)量指軟件產(chǎn)品滿足規(guī)定需求或隱含能力所有的特征和特征之和軟件質(zhì)量指標(biāo)功能性(實(shí)用性、準(zhǔn)確性、互操作性、一致性和安全性)可靠性(成熟性、容錯(cuò)性、可恢復(fù)性)易使用性(易學(xué)性、易理解性、易操作性)效率(時(shí)間性、資源性)維護(hù)性(可分析性、易修改性、穩(wěn)定性和易測(cè)試性)可移植性(適應(yīng)性、可安裝性、規(guī)范性和可換性)第178頁(yè),共280頁(yè)。軟件可靠性在規(guī)定的條件下和規(guī)定的時(shí)間內(nèi),軟件成功地完成功能的能力或不引起系統(tǒng)故障的能力,稱為軟件可靠性特點(diǎn)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度個(gè)人反擔(dān)保合同規(guī)范范本-設(shè)備租賃專用2篇
- 房地產(chǎn)市場(chǎng)調(diào)查與分析
- 2025年度鋼構(gòu)工程風(fēng)險(xiǎn)評(píng)估與控制合同
- 小學(xué)生數(shù)學(xué)思維能力的提升方法
- 金融市場(chǎng)的變化與對(duì)公客戶的應(yīng)對(duì)策略
- 二零二五年度蟲草產(chǎn)品研發(fā)與市場(chǎng)拓展合同4篇
- 二零二五年度蟲草收購(gòu)與銷售一體化合同4篇
- 2025年度環(huán)保設(shè)施建設(shè)合同履行的環(huán)境治理?yè)?dān)保協(xié)議3篇
- 2025年度個(gè)人旅游預(yù)付款延期退還協(xié)議4篇
- 跨領(lǐng)域?qū)W生綜合素養(yǎng)提升的實(shí)踐探索
- 危險(xiǎn)品倉(cāng)儲(chǔ)危險(xiǎn)廢物處置與管理考核試卷
- 2024版汽車融資擔(dān)保合同范本版B版
- 浙江寧波鎮(zhèn)海區(qū)2025屆中考生物對(duì)點(diǎn)突破模擬試卷含解析
- 湖南省長(zhǎng)沙市2025年新高考適應(yīng)性考試生物學(xué)模擬試題(含答案)
- 工業(yè)自動(dòng)化設(shè)備維護(hù)保養(yǎng)方案
- envi二次開發(fā)素材包-idl培訓(xùn)
- 2022年上海市初中語(yǔ)文課程終結(jié)性評(píng)價(jià)指南
- 醫(yī)院手術(shù)室醫(yī)院感染管理質(zhì)量督查評(píng)分表
- 心內(nèi)電生理導(dǎo)管及器械
- 保潔服務(wù)崗位檢查考核評(píng)分標(biāo)準(zhǔn)
- 各種靜脈置管固定方法
評(píng)論
0/150
提交評(píng)論