




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、計算機體系結(jié)構(gòu)期末考試論文 題 目 一種容錯實時計算機體系結(jié)構(gòu)的研究與實現(xiàn)_ 信息工程學(xué)院計算機科學(xué)與技術(shù)專業(yè)級147班 學(xué) 號: 姓 名: 指導(dǎo)教師: 成 績:_ 完成時間: 2015 年 12 月一種容錯實時計算機體系結(jié)構(gòu)的研究與實現(xiàn)【摘 要】為滿足對安全關(guān)鍵領(lǐng)域日益增長的可靠性需求,通過對容錯關(guān)鍵技術(shù)和多處理器系統(tǒng)的深入研究,提出了一種基于松耦合多處理器體系結(jié)構(gòu)的雙機容錯實時嵌入式系統(tǒng)設(shè)計方案。該方案無縫整合了計算機硬件級、操作系統(tǒng)級、應(yīng)用級的容錯技術(shù),以達到從整體上提高系統(tǒng)可靠性的目的。然后,利用馬爾科夫狀態(tài)圖法對該系統(tǒng)進行了可靠性分析和數(shù)值模擬,結(jié)果表明該設(shè)計方案能顯著地從整體上提高
2、系統(tǒng)的可靠性水平。 【關(guān)鍵詞】雙機熱備份;容錯;實時嵌入式系統(tǒng);可靠性。Design and Implementation of a Fault-Tolerance Real-Time Computer Architecture Abstract Based on fault-tolerance technique and multi-processors system, a fault-tolerance real-time embedded dual system solusion is put forward in this paper. The proposed solusion is
3、 based upon the loosely coupled multiprocessors architecture. this architecture seamlessly. integrates the fault-tolerance design techniques of hardware level, operating system level, and application level The system reliability is analyzed by the Markov state diagram The results show that the desig
4、n scheme can enhance the system reliability remarkably. Key words duplicated hot backup; faulttolerant; real-time embedded system; reliability。隨著計算機技術(shù)的日益成熟,以及計算機硬件成本的迅速降低,各種結(jié)構(gòu)復(fù)雜、功能強大的實時計算機系統(tǒng)被廣泛應(yīng)用于航空航天器、武器裝備、核電監(jiān)控裝置和醫(yī)療設(shè)備等安全關(guān)鍵系統(tǒng)中。確保這些計算機系統(tǒng)的可靠成為人們?nèi)找骊P(guān)注的問題。 雙機熱備份設(shè)計方案可切實提高系統(tǒng)的可靠性。但它主要針對硬件錯誤,對于軟件錯誤卻無能為力。目前,由
5、于硬件制造技術(shù)水平的提高和硬件容錯技術(shù)的成熟,軟件錯誤成為導(dǎo)致系統(tǒng)失效的主要原因。據(jù)調(diào)查,在具有硬件容錯能力的計算機系統(tǒng)中,其失效65%來自軟件。 早期的實時計算機系統(tǒng)為特定的應(yīng)用設(shè)計專用的硬件和軟件,其最大的缺點是軟硬件的耦合度大,不利于系統(tǒng)可靠性設(shè)計,特別是軟件錯誤容忍設(shè)計。隨著實時操作系統(tǒng)技術(shù)的日益發(fā)展成熟,實時軟件被分離成為實時操作系統(tǒng)和實時多任務(wù)軟件兩部分,實時操作系統(tǒng)實現(xiàn)對硬件的管理,使得實時多任務(wù)應(yīng)用軟件與底層硬件無關(guān)。這種分層的實時計算機體系結(jié)構(gòu)為提出新的實時計算機容錯體系結(jié)構(gòu)提供了契機。 一 雙機容錯實時系統(tǒng)的體系結(jié)構(gòu) 雙機容錯實時系統(tǒng)體系結(jié)構(gòu)是在考慮雙機比較系統(tǒng)的基礎(chǔ)上,結(jié)
6、合松耦合多處理機體系結(jié)構(gòu),在實現(xiàn)系統(tǒng)隔離的同時,在不同的處理機間通過通道互連實現(xiàn)通信,為在硬件容錯中結(jié)合軟件容錯提供可能。 雙機系統(tǒng)的運行狀態(tài)定義為:(1)如果A機與B機均正常運行,則將A機作為主系統(tǒng),B機作為備份使用,A機的運行結(jié)果作為系統(tǒng)輸出,A機運行到檢測點,向B機發(fā)送日志,B機更新日志列表。(2)如果A機正常而B機故障,亦將A機的運行結(jié)果作為系統(tǒng)輸出,同時將B機的運行故障狀態(tài)報告A機,并向B機進行復(fù)位控制操作。(3) 如果A機故障,B機正常,則進行開關(guān)切換操作,B機進行系統(tǒng)備份任務(wù)重調(diào)度,B機運行結(jié)果作為系統(tǒng)輸出,向A機進行復(fù)位控制操作,并在檢測點更新A機日志,保持需要備份的任務(wù)的狀態(tài)
7、一致。雙機容錯實時系統(tǒng)體系結(jié)構(gòu)結(jié)合嵌入式實時系統(tǒng)的體系結(jié)構(gòu),采用層次結(jié)構(gòu)和模塊結(jié)構(gòu)相結(jié)合的思想,無縫整合計算機硬件、操作系統(tǒng)、應(yīng)用軟件等三級容錯設(shè)計,克服了軟、硬件分離和脫節(jié)的問題,可提高系統(tǒng)的靈活性和可移植性。二 雙機容錯實時系統(tǒng)的設(shè)計 雙機容錯實時系統(tǒng)體系結(jié)構(gòu)的每一層均可看作是一個相對獨立的子系統(tǒng),層中包含不同的功能模塊,結(jié)構(gòu)如圖1所示。圖中分別加入了容錯通信模塊(Multiprocessor Communication for Fault-Tolerance,MCFT)、實時系統(tǒng)(Real-Time Operating System,RTOS)系統(tǒng)級容錯組件、任務(wù)級大動態(tài)冗余組件。 圖1
8、 雙機容錯實時系統(tǒng)體系結(jié)構(gòu) 第一層中加入MCFT模塊,作為板級支持包(Board Support Package,BSP)的一部分,也是硬平臺的抽象層,可為操作系統(tǒng)提供統(tǒng)一的界面,提高系統(tǒng)的可移植性。有容錯需求的任務(wù),通過MCFT所提供的功能傳遞日志,保持主系統(tǒng)和備份系統(tǒng)關(guān)鍵任務(wù)的狀態(tài)和數(shù)據(jù)一致。MCFT屏蔽了底層通信的具體實現(xiàn)細節(jié),使系統(tǒng)的實現(xiàn)與連接介質(zhì)無關(guān)。為保證實時系統(tǒng)從硬件故障和永久軟件故障恢復(fù),采用系統(tǒng)切換方法,在第二層中加入RTOS系統(tǒng)級容錯組件,包括系統(tǒng)內(nèi)核級容錯支持組件、主/備用機切換支持組件和系統(tǒng)自診斷組件。 任務(wù)級動態(tài)冗余模塊被用于嵌入式實時系統(tǒng),可使實時系統(tǒng)從暫時軟件故障
9、恢復(fù)。這也是軟件發(fā)生錯誤時保證系統(tǒng)實時性的重要措施。 (一)故障檢測 系統(tǒng)容錯以故障檢測技術(shù)為基礎(chǔ),以各種冗余技術(shù)為手段。對于實時系統(tǒng)來說,為提高故障判別的成功率,故障檢測應(yīng)該及時準確地定位故障并盡量減小系統(tǒng)開銷。 在系統(tǒng)中,故障檢測按層次模型進行,其目的是實現(xiàn)信息隱藏,避免故障跨層次傳播。采用自診斷的方法診斷系統(tǒng)級的故障,用任務(wù)級的檢測診斷應(yīng)用級的故障。 1 系統(tǒng)自診斷 系統(tǒng)自診斷劃分為系統(tǒng)啟動自檢測階段和周期自檢測階段。自動啟動診斷的因素有主/備用機定時切換和主用機發(fā)生故障。周期自檢測階段根據(jù)系統(tǒng)需求,周期性檢測外設(shè)和通信口。每個階段對應(yīng)設(shè)備的幾種功能塊,包括CPU的自診斷、中斷響應(yīng)自診斷
10、、串口自診斷、定時器自診斷、離散量自診斷和RAM自診斷等。 由于結(jié)果比較是實時系統(tǒng)中任何事務(wù)處理都需要經(jīng)歷的步驟,因此把任務(wù)級的故障檢測放到結(jié)果判別部分進行。 2 任務(wù)級動態(tài)冗余 任務(wù)級動態(tài)冗余方法是實時系統(tǒng)中瞬間故障的恢復(fù)方法之一。在實時多任務(wù)的環(huán)境下,充分利用操作系統(tǒng)提供的功能,為各個基本任務(wù)建立后備任務(wù)作為冗余,對后備任務(wù)進行容錯調(diào)度,從而起到類似于重試或回溯的作用,并利用檢查點技術(shù)和傳遞日志法保持主系統(tǒng)和備份系統(tǒng)狀態(tài)的一致性,實現(xiàn)錯誤恢復(fù)。 根據(jù)應(yīng)用程序的要求,結(jié)合任務(wù)實時性,采用以下的模型定義。 (1) 把應(yīng)用程序P分解成多個任務(wù)T,P=T1,T2,Tn,任務(wù)以過程的形式出現(xiàn)。 (2
11、) 當i >j時,任務(wù)優(yōu)先級PTi>PTj ,任務(wù)可以根據(jù)要求及時占有處理器,實現(xiàn)實時處理。在每個任務(wù)的最后設(shè)置檢查點,傳遞日志。(3) 為各基本任務(wù)準備一個后備任務(wù)P=T1,T2, , Tn存放在內(nèi)存中。一般情況下,后備任務(wù)不建立,不占有系統(tǒng)資源,僅在需要時才激活使用。后備任務(wù)的優(yōu)先級比相應(yīng)的優(yōu)先級要高。一旦建立就搶占執(zhí)行,是某種意義上的重試或程序卷回。 (4) 為實現(xiàn)恢復(fù)功能的后備任務(wù),可以與原有任務(wù)完全一樣,也可以是替換算法。以下任務(wù)級動態(tài)冗余替換算法,能為各個任務(wù)產(chǎn)生容錯調(diào)度,從而實現(xiàn)任務(wù)冗余。 Step1: 建立任務(wù)T1,T2,Tn; Step2: while N=1;N
12、 <=Nmax; N=N+1; 運行任務(wù)Ti; 檢測Ti的結(jié)果; IF 結(jié)果通過 THEN 輸出結(jié)果,刪除任務(wù)Ti;ELSE 激活任務(wù)Ti;break; END Step3: N>Nmax 系統(tǒng)報警 當后備任務(wù)執(zhí)行了Nmax次之后還通不過檢測,就認為系統(tǒng)出現(xiàn)永久故障,系統(tǒng)報警。Nmax是個閥門值,是由實時要求所決定的。 (二)主/備份切換 仲裁檢測電路中為主/備用機設(shè)置了“看門狗”監(jiān)視器。當主/備用機處于正常工作狀態(tài),運行于CPU上的某一任務(wù)周期性地對“看門狗”施加復(fù)位信號,“看門狗”計數(shù)器就不可能產(chǎn)生溢出觸發(fā)信號;當CPU出現(xiàn)故障時,“看門狗”會輸出一個離散觸發(fā)信號并發(fā)出報警,此
13、時系統(tǒng)進行自動切換,讓備用系統(tǒng)機工作。 三 利用馬爾科夫狀態(tài)圖進行的可靠性分析 (一)錯誤模型 雙機容錯實時系統(tǒng)的錯誤模型定義如下: (1) 系統(tǒng)錯誤的到達過程是一個泊松流(Poisson Process),相繼錯誤到達時間間隔服從負指數(shù)分布Tf=e-t.。根據(jù)泊松分布的平穩(wěn)增量性質(zhì),可知PN(t)>20(t) ,即在間隔時間t充分小時,系統(tǒng)連續(xù)發(fā)生多次錯誤的可能性為t的高階無窮小。 (2) 錯誤可分為硬件錯誤和軟件錯誤,軟件錯誤包括操作系統(tǒng)和任務(wù)發(fā)生的錯誤。另外,硬件錯誤可分為暫態(tài)硬件錯誤和永久硬件錯誤;軟件錯誤可分為本機可恢復(fù)的錯誤和需要備份系統(tǒng)恢復(fù)塊恢復(fù)的錯誤。 (3) 故障的發(fā)生
14、是不相關(guān)的,部件的失效率,和維修率是常數(shù)。 (4) 故障不傳播。 (二)利用馬爾科夫狀態(tài)圖法評估可靠性 可靠性是指一個系統(tǒng)在一定的環(huán)境下和給定的時間內(nèi)能按預(yù)定的要求完成一定功能的概率。 圖2 采用雙機容錯方式下的馬爾科夫狀態(tài)轉(zhuǎn)移圖 圖2是利用上述假設(shè)構(gòu)造出的雙機容錯實時嵌入式系統(tǒng)的馬爾科夫狀態(tài)。系統(tǒng)運行過程中的6個狀態(tài)定義為: 狀態(tài)P0:雙機都正常。 狀態(tài)P1:系統(tǒng)處于軟件容錯狀態(tài)。 狀態(tài)P2:系統(tǒng)處于硬件容錯狀態(tài)。 狀態(tài)P3:硬件系統(tǒng)發(fā)生永久失效,系統(tǒng)運行在單機系統(tǒng)中。 狀態(tài)P4:系統(tǒng)處于單機軟件容錯狀態(tài)。 狀態(tài)P5:整個系統(tǒng)失效。 由圖2可以得到馬爾科夫狀態(tài)微分方程: 式中P為狀態(tài)轉(zhuǎn)移概率
15、矩陣,矩陣方程(方程組)稱為查普曼-柯爾莫戈羅夫(Chapman-Kolmoqorov)方程,由此可以解出系統(tǒng)處于任意狀態(tài)的概率。 狀態(tài)P66表示系統(tǒng)失效,所以系統(tǒng)的可靠度為: R(t)=1P66(t) (3) 在計算該系統(tǒng)的可靠度時,將狀態(tài)5作為吸收狀態(tài)。對式(3)求該微分方程的數(shù)值解,不同參數(shù)下,系統(tǒng)的可靠度值(精度為10 -10)如表1所示。 (三)可靠性對比 用馬爾科夫狀態(tài)圖法對采用雙機熱備份方式和采用恢復(fù)塊方式的單機容錯系統(tǒng)進行可靠性分析。在系統(tǒng)軟件失效率s =0.005,以及硬件失效率h =0.001和維修率 0.9=的相同條件下,在區(qū)間0,1 000上進行可靠性對比,結(jié)果如圖3所
16、示。 圖3 三種容錯方式下可靠度隨時間變化曲線雙機熱備份系統(tǒng)由兩個能完成相同功能的計算機模塊并行執(zhí)行相同的計算,雙機不能通信,根據(jù)A機和B機周期向仲裁檢測電路發(fā)送的自檢信號判斷A機系統(tǒng)和B機系統(tǒng)的運行狀況。 單機備份塊容錯系統(tǒng)中主模塊的運行結(jié)構(gòu)由驗收測試檢驗,若結(jié)果通過測試結(jié)果,則輸出;否則運行備份模塊。恢復(fù)塊在無錯和出錯情況下的響應(yīng)時間差異很大。應(yīng)用于實時系統(tǒng)時,恢復(fù)塊必須與時間冗余相結(jié)合。結(jié)果顯示,本文提出的雙機容錯實時系統(tǒng)比采用單純硬件容錯的雙機熱備份系統(tǒng)和采用單純軟件容錯的單機備份塊容錯系統(tǒng)的可靠性都有很大的提高,而且隨著時間的增長,可靠性更為明顯。 四 小 結(jié)隨著實時系統(tǒng)在安全領(lǐng)域內(nèi)
17、越來越多的應(yīng)用,可靠性已經(jīng)成為衡量系統(tǒng)優(yōu)劣的關(guān)鍵因素之一。傳統(tǒng)的雙機熱備份容錯系統(tǒng)只能滿足系統(tǒng)某一方面的容錯需求。為了在硬件(或軟件)出現(xiàn)暫時或(永久)故障的情況下,系統(tǒng)仍能在規(guī)定的時限范圍內(nèi)完成運算,并輸出正確的結(jié)果,本文提出了一個軟、硬件結(jié)合的完整的解決方案,該方案在滿足系統(tǒng)實時性的同時,從整體上提高系統(tǒng)的可靠性。數(shù)值模擬結(jié)果表明該系統(tǒng)具有極高的可靠性。 參 考 文 獻 1 TAL O, MOCOLLIN C, BENDELL A. Reliability demonstration for safety-critical systemsJ. IEEE Trans. on Reliabil
18、ity, 2001, 50(2): 194-203. 2 陳 宇. 實時異常處理技術(shù)的探討J. 計算機工程, 2004, 30(21): 61-63. 3 呂 勇, 謝長生, 高三紅. 實時測控計算機應(yīng)用謝的可靠性保障技術(shù)J. 計算機應(yīng)用, 2003, 23(6): 101-106. 4韓建軍, 李慶華. 基于軟件容錯的動態(tài)實時調(diào)度算法J. 計算機研究與發(fā)展, 2005, 42(2): 315-321. 5 KIM K. The distrubuted recovery block scheme in software fault toleranceM. S. l. : Wiley, 1995. 6 陳 宇. 高可靠容錯實時系統(tǒng)的支撐技術(shù)研究D. 成都:電子科技大學(xué), 2004. 7 金士堯, 胡華平, 李宏亮. 具有容錯結(jié)構(gòu)的高可用計
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 圖書工作計劃推廣綠色閱讀倡導(dǎo)環(huán)保理念
- 新年加強時間管理的工作計劃
- 放射科個人工作計劃
- 會計工作目標設(shè)定與執(zhí)行計劃
- 第2課 昂首闊步-計時器和對象的位移 教學(xué)設(shè)計 -2023-2024學(xué)年粵教清華版初中信息技術(shù)九年級上冊
- 2025年葫蘆島貨運從業(yè)資格考試題
- 人教版九年級道德與法治下冊同步教學(xué)設(shè)計第一單元《我們共同的世界》001
- 2025年許昌貨運從業(yè)資格證模擬考試下載
- 天津市多校2024-2025學(xué)年高一(上)11月半期檢測物理試卷(含解析)
- 消防安全培訓(xùn)方案
- 19R505-19G540室外管道鋼結(jié)構(gòu)架空綜合管廊敷設(shè)
- 2024年中國科學(xué)技術(shù)大學(xué)創(chuàng)新科學(xué)營測試物理試題真題
- 植物營養(yǎng)學(xué)課件
- 大學(xué)物理-質(zhì)點動力學(xué)
- 自考英語二詞性轉(zhuǎn)換大全
- 《5G無線網(wǎng)絡(luò)規(guī)劃與優(yōu)化》 課件 第一章 5G網(wǎng)絡(luò)概述
- 醫(yī)院導(dǎo)視系統(tǒng)方案
- 教科版-六年級科學(xué)下冊制作校園生物分布圖課件
- 五年級下冊數(shù)學(xué)計算題100道及答案
- 生涯發(fā)展報告介紹職業(yè)發(fā)展規(guī)劃實現(xiàn)職業(yè)目標的具體行動和成果
- 關(guān)于防范遏制礦山領(lǐng)域重特大生產(chǎn)安全事故的硬措施(上)
評論
0/150
提交評論