版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、附件1:成果上報申請書成果名稱boss系統(tǒng)高可用性能力提升成果申報單位成果承擔(dān)部門/分公司項目負(fù)責(zé)人姓名成果專業(yè)類別*支撐網(wǎng)成果研究類別*現(xiàn)有業(yè)務(wù)優(yōu)化省內(nèi)評審結(jié)果*通過關(guān)鍵詞索引(35個)業(yè)務(wù)支撐網(wǎng);boss;電信級 文章摘要(200字左右):在市場競爭激烈、以客戶為導(dǎo)向的今天,業(yè)務(wù)的發(fā)展、市場的開拓和客戶滿意度的提升等方面對業(yè)務(wù)支撐系統(tǒng)提出了更高的要求。對中國移動廣西公司來說,提升系統(tǒng)的可靠性和可用性,構(gòu)建電信級的業(yè)務(wù)支撐網(wǎng)系統(tǒng),已成為增強(qiáng)企業(yè)核心競爭力、提升客戶滿意度的重要手段。boss系統(tǒng)做為業(yè)務(wù)支撐網(wǎng)的核心系統(tǒng),系統(tǒng)龐大、架構(gòu)復(fù)雜,自boss1.5上線以來,系統(tǒng)就一直受到穩(wěn)定性差,故障
2、頻發(fā)且故障引發(fā)業(yè)務(wù)中斷時間長的困擾。本項目將以科學(xué)的方法和手段深入分析目前系統(tǒng)癥狀,找出對策,以7x24小時不間斷可用服務(wù)電信級boss系統(tǒng)為目標(biāo),通過對系統(tǒng)逐步實施改造、優(yōu)化,逐漸提高boss系統(tǒng)的可靠性和可用性,探討如何持續(xù)漸進(jìn)的建設(shè)電信級的業(yè)務(wù)支撐系統(tǒng)的思路。 省內(nèi)試運(yùn)行效果(300字以上):從2007年4月份開始實施,截止到9月底取得的效果:1、系統(tǒng)平臺層面l 營業(yè)系統(tǒng):提升營業(yè)數(shù)據(jù)庫、中間件的處理能力,解決營業(yè)數(shù)據(jù)庫rac在節(jié)點主機(jī)宕機(jī)時不能正常互為接管問題。l 客服系統(tǒng):完成了網(wǎng)絡(luò)優(yōu)化改造和客服數(shù)據(jù)庫單點故障改造。l 帳務(wù)系統(tǒng):提升帳務(wù)應(yīng)用、數(shù)據(jù)庫的處理能力,完成帳務(wù)數(shù)據(jù)庫單點故障
3、改造。l 計費(fèi)系統(tǒng):完成擴(kuò)容提升計費(fèi)系統(tǒng)的處理能力。l cboss:完成bes配置集群、建立cboss應(yīng)急系統(tǒng)。l prm/channel:完成從營業(yè)中間件分離出來,消除單點故障隱患。l 結(jié)算系統(tǒng):完成主機(jī)遷移提升系統(tǒng)處理能力,消除單點故障隱患。l 即開即通:配置了雙機(jī),負(fù)載均衡,完成了全區(qū)boss到hlr的備用路由的開通,通過路由切換腳本完成主備路由切換,主路由實現(xiàn)冗余,整個系統(tǒng)完成了消除單點故障的改造。l 二卡合一:配置了雙機(jī),負(fù)載均衡,消除消除單點故障。2、維護(hù)管理層面l 完善并演練了各子系統(tǒng)的應(yīng)急預(yù)案,其中做為核心系統(tǒng)的營業(yè)系統(tǒng)的中間件在數(shù)據(jù)庫后臺之間的應(yīng)急方案切換速度由原來的2個 多
4、小時縮短到30分鐘左右。l boss網(wǎng)管本地化需求已完成部分功能,監(jiān)控手段、維護(hù)流程得到進(jìn)一步完善。3、系統(tǒng)實施改造后,不管是故障次數(shù)、故障影響業(yè)務(wù)時長均比上半年有了明顯下降。 文章主體(3000字以上,可附在表格后):根據(jù)成果研究類別,主體內(nèi)容的要求有差異,具體要求見表格后的“填寫說明”。文章主體:一、項目簡介(一)項目背景在市場競爭激烈、以客戶為導(dǎo)向的今天,業(yè)務(wù)的發(fā)展、市場的開拓和客戶滿意度的提升等方面對業(yè)務(wù)支撐系統(tǒng)提出了更高的要求。對中國移動廣西公司來說,提升系統(tǒng)的可靠性和可用性,構(gòu)建電信級的業(yè)務(wù)支撐網(wǎng)系統(tǒng),已成為增強(qiáng)企業(yè)核心競爭力、提升客戶滿意度的重要手段。boss系統(tǒng)做為業(yè)務(wù)支撐網(wǎng)的
5、核心系統(tǒng),系統(tǒng)龐大、架構(gòu)復(fù)雜,自boss1.5上線以來,系統(tǒng)就一直受到穩(wěn)定性差,故障頻發(fā)且故障引發(fā)業(yè)務(wù)中斷時間長的困擾。本項目將以科學(xué)的方法和手段深入分析目前系統(tǒng)癥狀,找出對策,以7x24小時不間斷可用服務(wù)電信級boss系統(tǒng)為目標(biāo),通過對系統(tǒng)逐步實施改造、優(yōu)化,逐漸提高boss系統(tǒng)的可靠性和可用性,探討如何持續(xù)漸進(jìn)的建設(shè)電信級的業(yè)務(wù)支撐系統(tǒng)的思路。 (二)項目實施過程1、首先提出了電信級boss系統(tǒng)的定義參照對電信級網(wǎng)絡(luò)的定義,提出了電信級水平的boss系統(tǒng)的定義:電信級boss系統(tǒng)可認(rèn)為與電信級網(wǎng)絡(luò)相對應(yīng),是以可運(yùn)營為核心,提供7x24小時不間斷可用服務(wù)的業(yè)務(wù)支撐系統(tǒng)。應(yīng)具備以下特性:l 高
6、可用性(availability):可以提供長時間不中斷的、可用的服務(wù);l 高可管理性(serviceability):基于標(biāo)準(zhǔn)技術(shù),可進(jìn)行遠(yuǎn)程的故障管理、性能管理、配置管理、安全管理;l 高可擴(kuò)展性(scalability):支持平滑單點容量上的擴(kuò)展性和多點地域上的擴(kuò)展性;l 高安全性(security):具有較高的安全特性。2、總體思路在對電信級boss系統(tǒng)逐步認(rèn)識和探討的基礎(chǔ)上,提出建立相關(guān)科學(xué)的評估方法和模型,通過對boss系統(tǒng)現(xiàn)狀分析、改造、完善等階段逐步向電信級水平的boss系統(tǒng)演進(jìn),進(jìn)而提高boss系統(tǒng)的高可用性。進(jìn)而并把相關(guān)的方法、經(jīng)驗用于指導(dǎo)日后boss系統(tǒng)的滾動建設(shè)。3、實
7、施過程簡介(1)2007年4-5月,提出電信級boss系統(tǒng)定義,探討、建立相關(guān)科學(xué)的評估方法和模型,據(jù)此對boss系統(tǒng)現(xiàn)狀分析,從系統(tǒng)平臺、應(yīng)用系統(tǒng)、開發(fā)測試、日常維護(hù)管理等多個維度對目前的boss系統(tǒng)進(jìn)行普查、分析,找出關(guān)鍵問題、缺陷所在。(2)2007年6-9月,根據(jù)分析出的問題、缺陷,結(jié)合現(xiàn)實條件,對已具備條件的,立即著手制定方案實施優(yōu)化改造;對還未具體條件的,制定策略方案后續(xù)實施,完成第一階段系統(tǒng)平臺層面的實施改造。l 通過boss2.0工程、客服系統(tǒng)網(wǎng)絡(luò)擴(kuò)容改造工程、統(tǒng)一開通應(yīng)急、cboss應(yīng)急、二卡合一應(yīng)急等維護(hù)項目來重點完善原系統(tǒng)的設(shè)計缺陷,解決性能瓶頸、單點故障問題,提高故障反
8、映和處理速度;l 通過boss測試系統(tǒng)擴(kuò)容改造工程,為boss應(yīng)用軟件的在軟件生命周期的各個階段開展提供基本的質(zhì)量保證。加強(qiáng)了各工程的壓力測試和異常測試。l 通過演練來不斷完善各子系統(tǒng)系統(tǒng)應(yīng)急預(yù)案,熟悉應(yīng)急流程,積累應(yīng)急經(jīng)驗。l 加強(qiáng)監(jiān)控手段,完善維護(hù)流程。l 建立了定期系統(tǒng)分析、維護(hù)機(jī)制以及定期與集成商溝通交流機(jī)制。l 完成了中間件在應(yīng)用級的動態(tài)均衡優(yōu)化測試,為下一步實施奠定基礎(chǔ)。(3)2007年1011月,實施應(yīng)用層面的優(yōu)化改造,實現(xiàn)boss系統(tǒng)應(yīng)用的動態(tài)均衡負(fù)載,真正實現(xiàn)應(yīng)用的高可用性。(三)項目創(chuàng)新性1、首次提出了電信級水平的boss系統(tǒng)的概念和定義。2、提出了評估電信級boss系統(tǒng)高
9、可用性的科學(xué)方法。3、提出了建設(shè)高可用性boss系統(tǒng)的思路,用于指導(dǎo)對現(xiàn)有系統(tǒng)的改造和日后boss系統(tǒng)的滾動建設(shè)。4、提出了中間件在應(yīng)用層面的真正做到動態(tài)均衡優(yōu)化的解決方案。(四)項目實施效果從2007年4月份開始實施,截止到9月底取得的效果:1、系統(tǒng)平臺層面l 營業(yè)系統(tǒng):提升營業(yè)數(shù)據(jù)庫、中間件的處理能力,解決營業(yè)數(shù)據(jù)庫rac在節(jié)點主機(jī)宕機(jī)時不能正?;榻庸軉栴}。l 客服系統(tǒng):完成了網(wǎng)絡(luò)優(yōu)化改造和客服數(shù)據(jù)庫單點故障改造。l 帳務(wù)系統(tǒng):提升帳務(wù)應(yīng)用、數(shù)據(jù)庫的處理能力,完成帳務(wù)數(shù)據(jù)庫單點故障改造。l 計費(fèi)系統(tǒng):完成擴(kuò)容提升計費(fèi)系統(tǒng)的處理能力。l cboss:完成bes配置集群、建立cboss應(yīng)急系
10、統(tǒng)。l prm/channel:完成從營業(yè)中間件分離出來,消除單點故障隱患。l 結(jié)算系統(tǒng):完成主機(jī)遷移提升系統(tǒng)處理能力,消除單點故障隱患。l 即開即通:配置了雙機(jī),負(fù)載均衡,完成了全區(qū)boss到hlr的備用路由的開通,通過路由切換腳本完成主備路由切換,主路由實現(xiàn)冗余,整個系統(tǒng)完成了消除單點故障的改造。l 二卡合一:配置了雙機(jī),負(fù)載均衡,消除消除單點故障。2、維護(hù)管理層面l 完善并演練了各子系統(tǒng)的應(yīng)急預(yù)案,其中做為核心系統(tǒng)的營業(yè)系統(tǒng)的中間件在數(shù)據(jù)庫后臺之間的應(yīng)急方案切換速度由原來的2個 多小時縮短到30分鐘左右。l boss網(wǎng)管本地化需求已完成部分功能,監(jiān)控手段、維護(hù)流程得到進(jìn)一步完善。3、系統(tǒng)
11、實施改造后,不管是故障次數(shù)、故障影響業(yè)務(wù)時長均比上半年有了明顯下降。二、項目詳細(xì)內(nèi)容1、立項背景 在市場競爭激烈、以客戶為導(dǎo)向的今天,業(yè)務(wù)的發(fā)展、市場的開拓和客戶滿意度的提升等方面對業(yè)務(wù)支撐系統(tǒng)提出了更高的要求。對中國移動廣西公司來說,提升系統(tǒng)的可靠性和可用性,構(gòu)建電信級的業(yè)務(wù)支撐網(wǎng)系統(tǒng),已成為增強(qiáng)企業(yè)核心競爭力、提升客戶滿意度的重要手段。boss系統(tǒng)做為業(yè)務(wù)支撐網(wǎng)的核心系統(tǒng),系統(tǒng)龐大、架構(gòu)復(fù)雜,自boss1.5上線以來,系統(tǒng)就一直受到穩(wěn)定性差,故障頻發(fā)且故障引發(fā)業(yè)務(wù)中斷時間長的困擾。下圖為2007年上半年故障和投訴情況統(tǒng)計:可以看到:l boss系統(tǒng)穩(wěn)定性差、故障頻發(fā)且影響業(yè)務(wù)時間長。l 上
12、半年boss系統(tǒng)的故障主要集中在營業(yè)系統(tǒng)、二卡合一、cboss等關(guān)鍵系統(tǒng)上。l 上半年,boss系統(tǒng)出現(xiàn)不穩(wěn)定以及不同程度的退服情況,造成批量投訴情況發(fā)生的次數(shù)以及人數(shù)均有較大幅度的上升。本項目將以科學(xué)的方法和手段深入分析目前系統(tǒng)癥狀,找出對策,以7x24小時不間斷可用服務(wù)電信級boss系統(tǒng)為目標(biāo),通過對系統(tǒng)逐步實施改造、優(yōu)化,逐漸提高boss系統(tǒng)的可靠性和可用性,探討如何持續(xù)漸進(jìn)的建設(shè)電信級的業(yè)務(wù)支撐系統(tǒng)的思路。 2、詳細(xì)技術(shù)內(nèi)容項目目標(biāo):提升boss系統(tǒng)的高可靠性和高可用性;探索如何持續(xù)漸進(jìn)地向電信級水平的boss系統(tǒng)演進(jìn)。項目實施思路:1、按業(yè)務(wù)關(guān)鍵程度進(jìn)行梳理,從系統(tǒng)平臺、應(yīng)用系統(tǒng)、開
13、發(fā)測試、日常維護(hù)管理等多個維度對目前的boss系統(tǒng)進(jìn)行普查、分析,找出關(guān)鍵問題所在。2、根據(jù)分析出的問題、缺陷,結(jié)合現(xiàn)實條件,對已具備條件的,立即著手制定方案實施優(yōu)化改造;對還未具體條件的,制定策略方案后續(xù)實施。3、第一階段主要針對系統(tǒng)平臺層面進(jìn)行優(yōu)化改造,重點解決解決性能瓶頸、單點故障問題;制定應(yīng)急措施,完善應(yīng)急預(yù)案。一、理論研究提出了電信級水平的boss系統(tǒng)的概念和定義及對電信級boss系統(tǒng)高可用性的評估方法和模型。(一)電信級boss系統(tǒng)參照對電信級網(wǎng)絡(luò)的定義,電信級boss系統(tǒng)可認(rèn)為與電信級網(wǎng)絡(luò)相對應(yīng),是以可運(yùn)營為核心,提供7x24小時不間斷可用服務(wù)的業(yè)務(wù)支撐系統(tǒng)。應(yīng)具備以下特性:l
14、高可用性(availability):可以提供長時間不中斷的、可用的服務(wù);l 高可管理性(serviceability):基于標(biāo)準(zhǔn)技術(shù),可進(jìn)行遠(yuǎn)程的故障管理、性能管理、配置管理、安全管理;l 高可擴(kuò)展性(scalability):支持平滑單點容量上的擴(kuò)展性和多點地域上的擴(kuò)展性;l 高安全性(security):具有較高的安全特性。1、可用性可用性是一個統(tǒng)計概念,具體計算方法是:系統(tǒng)可用性(availability)= mtbf/(mtbf+mttr)其中:mtbf指平均無故障時間,mttr指平均故障修復(fù)時間。高可用性對于業(yè)務(wù)支撐系統(tǒng)非常重要。具體體現(xiàn)為可長時間不間斷的提供服務(wù)。設(shè)備的高可用性是
15、設(shè)備軟硬件架構(gòu)和功能模塊可用性的綜合,主要影響對象包括:(1)硬件(2)操作系統(tǒng)(3)中間件(4)數(shù)據(jù)庫(5)應(yīng)用軟件。系統(tǒng)的高可用性是通過高可用性組網(wǎng)技術(shù)實現(xiàn)。2、可管理性可管理性對于運(yùn)營商網(wǎng)絡(luò)至關(guān)重要。電信級網(wǎng)絡(luò)應(yīng)當(dāng)提供符合中國移動標(biāo)準(zhǔn)接口和標(biāo)準(zhǔn)協(xié)議的遠(yuǎn)程故障管理、性能管理、配置管理、安全管理等功能。電信級網(wǎng)絡(luò)中的網(wǎng)元設(shè)備應(yīng)支持開放標(biāo)準(zhǔn)管理接口連接集中網(wǎng)絡(luò)管理系統(tǒng)。3、可擴(kuò)展性設(shè)備應(yīng)支持設(shè)計規(guī)格范圍內(nèi)的線性擴(kuò)展能力。在規(guī)格擴(kuò)展范圍內(nèi),系統(tǒng)性能不足時,可在縱向通過增加硬件模塊、軟件模塊擴(kuò)展系統(tǒng)的處理能力,也可在橫向通過集群、47層交換等方式增加系統(tǒng)的可擴(kuò)展性。4、安全性系統(tǒng)安全性包括網(wǎng)絡(luò)安全
16、、主機(jī)安全、操作系統(tǒng)安全、數(shù)據(jù)庫安全、應(yīng)用安全等等,電信級boss系統(tǒng)應(yīng)從組網(wǎng)和設(shè)備兩個層次對安全性進(jìn)行要求,以保證電信級電信級boss系統(tǒng)和設(shè)備在管理面、控制面和數(shù)據(jù)面的安全,并符合薩班斯法案的要求。(二)、電信級boss系統(tǒng)可用性評估評估方法重點用于對業(yè)務(wù)支撐系統(tǒng)進(jìn)行電信級評估,作為優(yōu)化系統(tǒng)結(jié)構(gòu)、提高系統(tǒng)可用性的基礎(chǔ)。采用分層的方法對系統(tǒng)進(jìn)行解析、評估,針對每一層次分別進(jìn)行分析和要求,再將低層次拼裝為高層次系統(tǒng)。支撐業(yè)務(wù)系統(tǒng)可按業(yè)務(wù)提供粒度劃分為3個層次,如圖2-1所示:業(yè)務(wù)整體方案層:指整個boss系統(tǒng)在全區(qū)范圍內(nèi)的部署方案,包括各子系統(tǒng)節(jié)點間的邏輯路由策略、異地容災(zāi)保護(hù)等。業(yè)務(wù)系統(tǒng)層:
17、指能夠獨立完成某項業(yè)務(wù)的本地站點,以及業(yè)務(wù)系統(tǒng)內(nèi)部完成某類業(yè)務(wù)流程中一個獨立功能環(huán)節(jié)的軟硬件綜合體,如:營業(yè)系統(tǒng)、客服系統(tǒng)等。物理設(shè)備層:業(yè)務(wù)系統(tǒng)內(nèi)部每一個有獨立物理封裝的設(shè)備、設(shè)備群及在設(shè)備上安裝的系統(tǒng)平臺軟件,如:主機(jī)、防火墻、雙機(jī)集群、oracle rac等。圖2-1 系統(tǒng)層次結(jié)構(gòu)圖在電信級boss系統(tǒng)特征中,最重要的特征是可用性。系統(tǒng)的整體可用性體現(xiàn)在系統(tǒng)從微觀到宏觀的多個層面,保證電信級boss系統(tǒng)需要對系統(tǒng)中各個層面進(jìn)行全面評估。采用自底向上的研究方法,分物理設(shè)備層、業(yè)務(wù)系統(tǒng)層和業(yè)務(wù)整體解決方案層三個層面,在各層定義不同粒度的可用性指標(biāo),分別進(jìn)行建模,進(jìn)而在此基礎(chǔ)上進(jìn)行可用性綜合評
18、估。物理設(shè)備層:從物理設(shè)備故障概率的角度分析可用性。業(yè)務(wù)系統(tǒng)層:用隨機(jī)petri網(wǎng)重點分析典型的邏輯系統(tǒng):集群系統(tǒng)、雙機(jī)備份等,分別進(jìn)行建模并進(jìn)行定量分析。對于給定拓?fù)涞臉I(yè)務(wù)系統(tǒng),可通過業(yè)務(wù)流程和物理設(shè)備層、業(yè)務(wù)邏輯設(shè)備層的模型求解,定量的對業(yè)務(wù)系統(tǒng)進(jìn)行可用性分析,得到整個系統(tǒng)的平均無故障時間,評估響應(yīng)時延等指標(biāo)。業(yè)務(wù)整體方案層:主要涉及業(yè)務(wù)在各子系統(tǒng)節(jié)點間的邏輯路由策略、異地容災(zāi)保護(hù)等。1、可用性評估方法(1)業(yè)務(wù)整體方案層可用性系統(tǒng)的可靠性計算很大程度上取決于系統(tǒng)故障定義。系統(tǒng)故障定義不同,算法也不同。比如,系統(tǒng)中某些單元故障將導(dǎo)致整個系統(tǒng)癱瘓,而某些單元故障只會導(dǎo)致系統(tǒng)部分功能喪失。根據(jù)
19、bellcore sr-tsy-001171以及tl9000中的相關(guān)定義,系統(tǒng)級故障基本可以分為兩大類:tsd(total system downtime)和psd(partial system downtime)。計算系統(tǒng)的可靠性/可用性指標(biāo)主要是計算各個di(第i個單元的年中斷時間downtime)。首先需要進(jìn)行一個簡單的故障模式影響分析,以確定系統(tǒng)各組成單元中,哪些會引起系統(tǒng)tsd,哪些會引起psd。然后主要的任務(wù)就是計算這些單元的di。根據(jù)上面提供的故障定義,明確對boss系統(tǒng)可用性指標(biāo)的定義。將整個系統(tǒng)的各種故障分別列出,然后根據(jù)故障的影響分別計算出單個故障的di。參照通信設(shè)備業(yè)界網(wǎng)
20、上運(yùn)行數(shù)據(jù)統(tǒng)計方法標(biāo)準(zhǔn)tl9000,對于boss系統(tǒng)的可靠性指標(biāo),采用如下的統(tǒng)計方法:其中:整個系統(tǒng)的年中斷時間;第i個節(jié)點的年中斷時間;第i個節(jié)點故障所影響容量;整個系統(tǒng)的總?cè)萘浚籲系統(tǒng)中設(shè)備的臺數(shù)。(2)業(yè)務(wù)系統(tǒng)層可用性由業(yè)務(wù)邏輯設(shè)備組成高可用性的業(yè)務(wù)系統(tǒng),主要是減少業(yè)務(wù)邏輯間的耦合性,增加冗余業(yè)務(wù)流程來實現(xiàn),使得某個業(yè)務(wù)邏輯設(shè)備的單點故障不影響其它業(yè)務(wù)邏輯的功能,業(yè)務(wù)網(wǎng)邏輯設(shè)備的切換不影響其它業(yè)務(wù)邏輯。在業(yè)務(wù)系統(tǒng)的設(shè)計中,應(yīng)充分考慮增加串行業(yè)務(wù)流程的冗余度的同時,降低業(yè)務(wù)邏輯間的耦合性,以保證整個業(yè)務(wù)系統(tǒng)的高可用性。圖2-2見圖2-2所示,在業(yè)務(wù)流程中,至少存在一條冗余業(yè)務(wù)鏈路,當(dāng)主業(yè)務(wù)
21、流程出現(xiàn)故障時(如a1b1c1),業(yè)務(wù)能自動切換到備用業(yè)務(wù)流程:a2b2c2,并且要求此切換對客戶是透明的。存在雙機(jī)切換的設(shè)備應(yīng)該避免直接串聯(lián),而通過中間的非雙機(jī)切換設(shè)備來進(jìn)行故障隔離或交叉連接來實現(xiàn)故障隔離,減少業(yè)務(wù)網(wǎng)邏輯設(shè)備間的耦合,任何業(yè)務(wù)部件的故障切換,都不會引起其它業(yè)務(wù)邏輯的切換。而主業(yè)務(wù)流程中任何一個業(yè)務(wù)邏輯的故障,使其它業(yè)務(wù)流程也進(jìn)行切換,從而整個業(yè)務(wù)流程從主業(yè)務(wù)流程切換到備業(yè)務(wù)流程,若每業(yè)務(wù)流程主備切換成功率為90,則整個業(yè)務(wù)流程切換成功率為:0.9*0.9*0.9=0.729,業(yè)務(wù)可靠性大大降低。(3)物理設(shè)備層可用性各層面可用性最終體現(xiàn)到物理設(shè)備可用性指標(biāo)的獲取,物理設(shè)備可
22、用性評估是電信級boss系統(tǒng)可用性研究的基礎(chǔ)。設(shè)備層分為硬件和軟件兩部分,軟硬件可用性在特性上具有很大差別:l 物理退化。軟件不存在物理退化現(xiàn)象,硬件失效則主要由于物理退化所致。這就決定了軟件正確性與軟件可靠性密切相關(guān),一個正確的軟件任何時刻均可靠。然而一個正確的硬件元器件或系統(tǒng)則可能在某個時刻失效;l 復(fù)雜性。軟件內(nèi)部邏輯高度復(fù)雜,而硬件設(shè)備間的內(nèi)部邏輯較為簡單,這就在很大程度上決定了設(shè)計錯誤是導(dǎo)致軟件失效的主要原因,而導(dǎo)致硬件失效的可能性則相對很小。l 唯一性。軟件是唯一的,軟件拷貝不改變軟件本身,而任何兩個硬件不可能絕對相同,概率方法更適合應(yīng)用于硬件可靠性預(yù)測。由于上述種種原因,軟件可靠
23、性比硬件可靠性更難保證。綜合考慮軟件失效和硬件失效,則系統(tǒng)可用度計算公式為:設(shè)備的可用性度量包括可用性評估和可用性預(yù)測??捎眯栽u估指收集整理系統(tǒng)測試和系統(tǒng)運(yùn)行期間得到的失效數(shù)據(jù),并進(jìn)行統(tǒng)計推理,斷定系統(tǒng)當(dāng)前的可用性。它是對從過去到當(dāng)前點所得到的可用性的度量。其主要目的是評價當(dāng)前可用性,并確定一個可用性模型是否為回溯的正確依據(jù)??捎眯灶A(yù)測指利用可知的任何軟件度量與規(guī)程確定未來軟件的可用性。單一廠家提供的設(shè)備通常提供整個設(shè)備的可用度,可以以該數(shù)據(jù)作為可用性預(yù)測的依據(jù),并在系統(tǒng)上線運(yùn)行后對其故障情況進(jìn)行統(tǒng)計,并根據(jù)統(tǒng)計數(shù)據(jù)進(jìn)行可用性評估;對于軟硬件由不同廠家提供的設(shè)備,則需要分別對其可用性進(jìn)行預(yù)測和
24、統(tǒng)計。 硬件可用性硬件的故障往往由于物理(包括化學(xué)) 的機(jī)制所致, 因而描述硬件可靠性的模型比較單一, 硬件失效率符合浴盆曲線。硬件可用性可通過可用度或年停機(jī)時間表示:可用度年停機(jī)時間downtime876060(1-a) mins/yr。mtbf預(yù)測方法目前業(yè)界對于硬件mtbf的預(yù)測可以通過分析器件可用性、單元(如板卡)可用性以及系統(tǒng)可用性(如冗余設(shè)計中的備份關(guān)系)得到整個硬件設(shè)備的可用性指標(biāo)。mtbf為失效率的倒數(shù):mtbf=1/失效率;其中:失效率是單位時間內(nèi)設(shè)備的失效數(shù)占該時間段開始時正常工作設(shè)備總數(shù)的比值。它反映的是設(shè)備發(fā)生失效的相對速率即故障瞬時強(qiáng)度串聯(lián)結(jié)構(gòu)的失效率是各單元失效率的
25、累加;并聯(lián)(冗余系統(tǒng))的失效率采用可修產(chǎn)品的馬爾可夫模型計算。一般電子設(shè)備的失效率都遵循浴盆曲線規(guī)律,如圖2-3所示:圖2-3 浴盆曲線 mttr預(yù)測方法因設(shè)備的應(yīng)用場景不同,維護(hù)方式不同,預(yù)計值或者經(jīng)驗值都僅是一個參考,如可以參考bellcore gr 512,根據(jù)業(yè)界情況設(shè)定mttr。表2-1 gr 512推薦的mttrsite classificationon-site repair time (hours)dispatch time (hour)total service restoral time (hours)attended site123unattended site134在系
26、統(tǒng)招標(biāo)時,廠家應(yīng)承諾mttr時間,在可用性評估時,以此事件為準(zhǔn)。 軟件可用性目前業(yè)界軟件可靠性預(yù)計方法還不成熟,軟件可用性的高低很大程度上取決于軟件生產(chǎn)過程中開發(fā)流程和質(zhì)量管理體系,可以通過對廠家軟件開發(fā)流程和質(zhì)量管理體系的檢查、評估對其軟件產(chǎn)品的可用性進(jìn)行判斷,以作為系統(tǒng)割接入網(wǎng)的依據(jù)。 軟件可用性預(yù)計和評估軟件可用性度量包括可靠性評估和可靠性預(yù)測??煽啃栽u估指收集整理系統(tǒng)測試和系統(tǒng)運(yùn)行期間得到的失效數(shù)據(jù),并進(jìn)行統(tǒng)計推理,斷定系統(tǒng)當(dāng)前的軟件可靠性。它是對從過去到當(dāng)前點所得到的可靠性的度量。其主要目的是評價當(dāng)前可靠性,并確定一個可靠性模型是否為回溯的正確依據(jù)??煽啃灶A(yù)測指利用可知的任何軟件度量
27、與規(guī)程確定未來軟件的可靠性??煽啃灶I(lǐng)域中習(xí)慣將可靠性預(yù)測稱為可靠性預(yù)計。 軟件可靠性術(shù)語軟件可靠性領(lǐng)域的術(shù)語定義,主要有:軟件錯誤(software error):指在軟件生存期間內(nèi)的不希望或不可接受的人為的錯誤,其結(jié)果導(dǎo)致軟件缺陷的產(chǎn)生,是一種人為的過程,相對于軟件本身來說是一種外部行為。比如,將求平均值當(dāng)作求最大值,和將輸出電壓值當(dāng)作輸出電流值等都是軟件錯誤。軟件缺陷(software defect):是存在于軟件之中的那些不希望或不可接受的偏差,其結(jié)果是軟件運(yùn)行于某一特定的條件時出現(xiàn)軟件故障,這時稱軟件缺陷被激活。以靜態(tài)形式存在于軟件內(nèi)部。比如,少一個逗號、多一條語句等都是軟件缺陷。當(dāng)軟
28、件意指程序時,軟件缺陷與軟件bug同義。軟件故障(software fault):是指軟件運(yùn)行過程中出現(xiàn)的一種不希望或不可接受的內(nèi)部狀態(tài),可能引起一個功能部件不能完成所要求的功能的一種意外情況,若故障不加處理,便可能產(chǎn)生失效,是一個動態(tài)行為。比如,軟件處于執(zhí)行一個多余循環(huán)過程時就是一個軟件故障。軟件失效(software failure):軟件運(yùn)行時產(chǎn)生的一種不希望或不可接受的外部行為結(jié)果,也就是表現(xiàn)出的功能與用戶需求不一致,功能部件執(zhí)行其規(guī)定功能的能力終止,用戶無法完成所需要的應(yīng)用。它們的關(guān)系如下:軟件錯誤 軟件缺陷 軟件故障 軟件失效。軟件失效是最終表現(xiàn)在用戶面前的結(jié)果。 軟件開發(fā)流程保證
29、軟件可靠性數(shù)據(jù)是可靠性評估的基礎(chǔ)。要進(jìn)行有效的軟件可靠性評估,首先必須建立軟件錯誤報告、分析與糾正措施系統(tǒng)。按照相關(guān)標(biāo)準(zhǔn)的要求,制定和實施軟件錯誤報告和可靠性數(shù)據(jù)收集、保存、分析和處理的規(guī)程,完整、準(zhǔn)確地記錄軟件測試階段的軟件錯誤報告和收集可靠性數(shù)據(jù)。 如何提高軟件可靠性軟件與硬件不同, 不會因多次使用而發(fā)生失效,軟件的故障不是由于物理機(jī)制所造成的, 軟件不存在故障率呈增長趨勢的耗損故障期, 軟件的缺陷解決一個就減少一個。軟件開發(fā)周期錯誤和軟件故障分類的百分?jǐn)?shù)分別如表2-2和表2-2所示。表2-1 軟件開發(fā)周期各階段錯誤的百分比軟件開發(fā)周期各階段需求分析設(shè)計編碼與單元測試綜合測試運(yùn)行與維護(hù)錯誤
30、百分比(%)551713105表2-2 軟件故障分類的百分比故障分類需求變化邏輯設(shè)計數(shù)據(jù)相互環(huán)境人的因素計算文件提供其他故障分類百分比(%)36286655527由表2-1、表2-2的統(tǒng)計數(shù)據(jù)表明,在軟件生命周期的各個階段都會可能發(fā)生軟件錯誤或故障,為了保證軟件的可靠性,應(yīng)在軟件生命周期的各個階段千方百計地減少缺陷。同時,統(tǒng)計數(shù)據(jù)也表明,軟件錯誤的修改費(fèi)用也是越晚越高的。一個好的軟件開發(fā)流程可以提高軟件開發(fā)團(tuán)隊的工作效率,控制開發(fā)過程中的風(fēng)險,保證軟件開發(fā)進(jìn)度并且提高軟件產(chǎn)品質(zhì)量。為保證軟件的可靠性,應(yīng)該在軟件生命周期的各個階段開展各項基本的質(zhì)量保證活動,以減少缺陷。(三)建設(shè)高可用性boss
31、系統(tǒng)的思路boss系統(tǒng)龐大而復(fù)雜,子系統(tǒng)繁多。根據(jù)以上的幾個層面的分析,我們要建設(shè)高可用的電信級boss系統(tǒng),須要從物理設(shè)備層、業(yè)務(wù)邏輯層、系統(tǒng)整體3個方向進(jìn)行設(shè)計考慮。1、物理設(shè)備層面的設(shè)計物理設(shè)備層是系統(tǒng)可用性的最基本保障,因此,在考慮建設(shè)高可用的電信級的boss系統(tǒng)時,必須首先在物理層面保障系統(tǒng)的高可用性,消除單點故障,這里主要包括硬件和軟件兩個方面。(1)硬件方面:主要從以下幾個方面考慮:l 對于關(guān)鍵的業(yè)務(wù)系統(tǒng),服務(wù)器主機(jī)方面必須考慮雙機(jī)集群,以滿足系統(tǒng)基本的高可用性條件。目前主流的小型機(jī)設(shè)備供應(yīng)商ibm、hp、sun等都有相應(yīng)的高可用性ha(high availability)解決方
32、案,其根本原則就是提供硬件設(shè)備的高可用性,即:在其中一臺設(shè)備失效的情況下,另一臺設(shè)備能自動接管原有的業(yè)務(wù),以保持業(yè)務(wù)的連續(xù)性。l 對于物理網(wǎng)絡(luò)結(jié)構(gòu),必須提供備用的網(wǎng)絡(luò)路由鏈路,包括備用的網(wǎng)絡(luò)設(shè)備(路由器、交換機(jī)、防火墻等)和傳輸電路等。l 對于底層的數(shù)據(jù)庫,也要考慮冗余備份。數(shù)據(jù)庫存放的是業(yè)務(wù)系統(tǒng)的數(shù)據(jù),是所有系統(tǒng)正常運(yùn)行的基礎(chǔ),因此必須考慮實現(xiàn)2個或以上的數(shù)據(jù)庫實例以提供數(shù)據(jù)庫的高可用性。目前主流的數(shù)據(jù)庫產(chǎn)品提供商都有相應(yīng)的ha解決方案,如:oracle的rac等。 l 在設(shè)備選型時,需要大到電信級網(wǎng)絡(luò)設(shè)備指標(biāo)標(biāo)準(zhǔn)(設(shè)備要求分冊)要求,同時由于unix系統(tǒng)在可靠性、穩(wěn)定性、抗病毒攻擊等方面都
33、比windows具有先天性的優(yōu)勢,而目前低端unix服務(wù)器價格已接近相同性能的pc server,因此在boss這樣的關(guān)鍵業(yè)務(wù)支撐系統(tǒng)里,應(yīng)盡量考慮使用unix server而不是pc server。(2)軟件方面: 對于一個高可用性的boss系統(tǒng),有了冗余的硬件設(shè)計只是最基本的設(shè)計要求,軟件方面(系統(tǒng)軟件和應(yīng)用軟件)則更為重要。沒有軟件的冗余設(shè)計,那么從業(yè)務(wù)系統(tǒng)來說是不具備高可用性條件的。l 對于系統(tǒng)軟件,在boss系統(tǒng)里最重要的是中間件。出于boss業(yè)務(wù)的關(guān)鍵性,在選擇中間件軟件時必須考慮產(chǎn)品的成熟性,以直接提升boss系統(tǒng)的高可靠性。l 對于應(yīng)用軟件,與硬件不同, 不會因多次使用而發(fā)生失
34、效,軟件的故障不是由于物理機(jī)制所造成的, 軟件不存在故障率呈增長趨勢的耗損故障期, 軟件的缺陷解決一個就減少一個。因此,為保證軟件的可靠性,應(yīng)該在軟件生命周期的各個階段開展各項基本的質(zhì)量保證活動,以減少缺陷。2、業(yè)務(wù)系統(tǒng)層的設(shè)計物理設(shè)備層滿足高可用性的條件后,只是在底層平臺給予了系統(tǒng)高可靠性的條件,而業(yè)務(wù)系統(tǒng)層實現(xiàn)高可用性是系統(tǒng)具有高可用性的重要保障。為保證系統(tǒng)的高可用性,在業(yè)務(wù)系統(tǒng)的設(shè)計中,應(yīng)從以下幾個方面考慮:l 充分考慮增加串行業(yè)務(wù)流程的冗余度的同時,降低業(yè)務(wù)邏輯間的耦合性,減少各子系統(tǒng)互相影響的深度,以保證整個業(yè)務(wù)系統(tǒng)的高可用性。l 必須考慮各應(yīng)用子系統(tǒng)的自動切換機(jī)制的實現(xiàn)。在中間件、
35、應(yīng)用系統(tǒng)等方面,應(yīng)該在系統(tǒng)設(shè)計階段和底層系統(tǒng)物理設(shè)備平臺結(jié)合起來一起考慮各子系統(tǒng)的自動切換和回切機(jī)制。在這個層面,可通過自行開發(fā)或借助第三方的軟件或硬件來實現(xiàn),如:四/七層交換機(jī)等。3、業(yè)務(wù)整體解決方案層的設(shè)計建設(shè)電信級的boss系統(tǒng),還需在業(yè)務(wù)的整體解決方案層進(jìn)行相應(yīng)的設(shè)計考慮,主要包括:l 系統(tǒng)設(shè)計時需考慮各子系統(tǒng)的路由策略,通過冗余設(shè)計避免出現(xiàn)一個子系統(tǒng)失效而整個系統(tǒng)失效的情況發(fā)生;l 考慮建設(shè)系統(tǒng)的異地容災(zāi)系統(tǒng),分析業(yè)務(wù)的關(guān)鍵程度,并根據(jù)各子系統(tǒng)不同的等級來實現(xiàn)系統(tǒng)的數(shù)據(jù)級容災(zāi)和應(yīng)用級容災(zāi)。l 建立各子系統(tǒng)的應(yīng)急方案。容災(zāi)系統(tǒng)是在“災(zāi)難時刻”才啟用的,而應(yīng)急方案是解決臨時問題而啟用的,
36、其目的是更快速的保障業(yè)務(wù)應(yīng)用的連續(xù)性。l 建立完善的網(wǎng)管系統(tǒng),對各個網(wǎng)元進(jìn)行實時監(jiān)控,并對異常情況及時通過短信、郵件、聲音等方式報警。l 明確維護(hù)指標(biāo),完善系統(tǒng)維護(hù)流程,按itil的方法論,嚴(yán)格執(zhí)行事件管理、問題管理、變更管理、配置管理等流程。二、項目具體實施(一)實施思路通過boss系統(tǒng)現(xiàn)狀普查分析、改造優(yōu)化、評估完善等階段逐步向電信級水平的boss系統(tǒng)演進(jìn),進(jìn)而提高boss系統(tǒng)的高可用性。1、普查分析階段對現(xiàn)有boss系統(tǒng)軟、硬件可用性情況逐一進(jìn)行普查、分析,確定制約系統(tǒng)可靠性的短板、缺陷、單點故障隱患,制定下一階段性目標(biāo)等。2、改造優(yōu)化階段根據(jù)不同系統(tǒng)的發(fā)展范圍、用戶總數(shù)、經(jīng)濟(jì)受益和社會
37、影響力等因素,將系統(tǒng)分為關(guān)鍵系統(tǒng)、一般系統(tǒng)兩類,據(jù)此確定各系統(tǒng)整改的優(yōu)先級別,結(jié)合具體改造代價:對于有現(xiàn)實條件的,開始實施改造;對于目前受條件限制的,提出改造方案,并在后續(xù)落實。3、評估完善階段根據(jù)上面的可用性評估方法或軟件后評估體系進(jìn)行階段性的評估、總結(jié),提出完善方案,持續(xù)進(jìn)行整改。(二)boss系統(tǒng)現(xiàn)狀分析從系統(tǒng)平臺、應(yīng)用系統(tǒng)、開發(fā)測試環(huán)境、日常維護(hù)管理等多個維度對目前的boss系統(tǒng)進(jìn)行普查、分析,針對業(yè)務(wù)關(guān)鍵程度進(jìn)行梳理。1、總體框架下面是20042007年廣西移動boss系統(tǒng)的發(fā)展過程:時間2004200520062007boss系統(tǒng)1.01.5 2.0 用戶規(guī)模(萬)80010001
38、300目前boss系統(tǒng)存在以下兩個主要特點:(1)技術(shù):網(wǎng)元較多、標(biāo)準(zhǔn)復(fù)雜、發(fā)展較快包括主機(jī)/操作系統(tǒng)、存儲、網(wǎng)絡(luò)/安全、數(shù)據(jù)庫、中間件、應(yīng)用軟件。(2)架構(gòu):架構(gòu)復(fù)雜、功能繁多、數(shù)據(jù)海量業(yè)務(wù)支撐系統(tǒng)主要包括:營業(yè)系統(tǒng)、計費(fèi)系統(tǒng)、帳務(wù)系統(tǒng)、客服系統(tǒng)、結(jié)算系統(tǒng)、cboss等等。2、系統(tǒng)平臺(1)主機(jī)通過普查分析,發(fā)現(xiàn)目前系統(tǒng)主要存在性能不足、單點故障等隱患,或者硬件已具備冗余條件,但應(yīng)用系統(tǒng)不具備自動切換的條件,雖然在某些環(huán)節(jié)上實現(xiàn)了高可用性,但系統(tǒng)整體上實際還達(dá)不到高可用性的要求。系統(tǒng)網(wǎng)元配置說明營業(yè)營業(yè)數(shù)據(jù)庫節(jié)點1ibm p690(32cpu,128g內(nèi)存 )cpu/內(nèi)存利用率高,單臺主機(jī)不
39、能支撐全部數(shù)據(jù)庫功能,實際上單點故障仍然存在營業(yè)數(shù)據(jù)庫節(jié)點2ibm p690(32cpu,128g內(nèi)存 )營業(yè)中間件1ibm p690分區(qū)(12cpu,48g內(nèi)存 )中間件與多個后臺應(yīng)用(如工單調(diào)度)部署在一起,性能不足,特別是內(nèi)存/交換區(qū)經(jīng)常告警。應(yīng)用不具備自動切換能力,實際上單點故障仍然存在。營業(yè)中間件2ibm p690分區(qū)(12cpu,44g內(nèi)存 )營業(yè)中間件3ibm p690分區(qū)(8cpu,64g內(nèi)存 )應(yīng)急數(shù)據(jù)庫ibm p690分區(qū)(12cpu,40g內(nèi)存 )同時在運(yùn)行客服應(yīng)急庫,性能不足影響數(shù)據(jù)庫復(fù)制客服客服數(shù)據(jù)庫ibm p690分區(qū)(12cpu,34g內(nèi)存 )1、單點故障隱患2、
40、網(wǎng)卡沒有配成etherchannel無線營業(yè)廳ibm p650(8cpu,32g內(nèi)存 )1、單點故障隱患2、應(yīng)用不具備自動切換能力。綜合客服后臺ibm p650(8cpu,64g內(nèi)存 )計費(fèi)計費(fèi)應(yīng)用1ibm p690分區(qū)(12cpu,35g內(nèi)存 )1、單臺主機(jī)不能支撐全部計費(fèi)應(yīng)用功能2、應(yīng)用不具備自動切換能力。計費(fèi)應(yīng)用2(mdb)ibm p690分區(qū)(12cpu,47g內(nèi)存 )計費(fèi)數(shù)據(jù)庫1ibm p690分區(qū)(8cpu,22g內(nèi)存 )1、單臺主機(jī)不能支撐全部數(shù)據(jù)庫功能2、網(wǎng)卡沒有配成etherchannel計費(fèi)數(shù)據(jù)庫2ibm p690分區(qū)(8cpu,28g內(nèi)存 )帳務(wù)帳務(wù)數(shù)據(jù)庫ibm p690
41、分區(qū)(8cpu,20g內(nèi)存 )單點故障隱患帳務(wù)應(yīng)用1(mdb)ibm p690分區(qū)(12cpu,55g內(nèi)存 )1、單臺主機(jī)不能支撐全部帳務(wù)應(yīng)用功能2、應(yīng)用不具備自動切換能力。帳務(wù)應(yīng)用2ibm p690分區(qū)(12cpu,35g內(nèi)存 )cbosscboss應(yīng)用ibm p650(8cpu,48g內(nèi)存 )1、單臺主機(jī)不能支撐全部帳務(wù)應(yīng)用功能2、應(yīng)用不具備自動切換能力。3、網(wǎng)卡沒有配成etherchannelcboss數(shù)據(jù)庫ibm p650(6cpu,12g內(nèi)存 )prmchannelprm/channelibm p650(8cpu,32g內(nèi)存 )與無線營業(yè)廳共用一臺主機(jī),單點故障隱患結(jié)算結(jié)算應(yīng)用ibm
42、 p670(8cpu,48g內(nèi)存 )性能不足,單點故障隱患結(jié)算數(shù)據(jù)庫ibm m85(6cpu,6g內(nèi)存 )性能不足,單點故障隱患(2)數(shù)據(jù)庫以營業(yè)數(shù)據(jù)庫為例,營業(yè)數(shù)據(jù)庫做為整個boss系統(tǒng)的核心數(shù)據(jù)庫,現(xiàn)狀如下: 數(shù)據(jù)庫運(yùn)行情況數(shù)據(jù)規(guī)模:規(guī)模從2005年底1.8t發(fā)展至2007年上半年6.8t系統(tǒng)備份:全庫備份從2005年底3.5小時發(fā)展至2007年底8小時 存在問題及風(fēng)險數(shù)據(jù)庫表空間不能循環(huán)使用,歷史工單數(shù)據(jù)保留時間過長導(dǎo)致數(shù)據(jù)庫增長過大。數(shù)據(jù)庫數(shù)據(jù)規(guī)模增大,導(dǎo)致系統(tǒng)備份及后臺事務(wù)時間窗增長;數(shù)據(jù)庫內(nèi)單表記錄數(shù)增大,表和索引存在大量的碎片沒有及時分析整理,數(shù)據(jù)處理效率降低,造成查詢統(tǒng)計速度變
43、慢,數(shù)據(jù)修改操作爭用情況加劇;業(yè)務(wù)高峰期,業(yè)務(wù)請求對資源的爭用導(dǎo)致系統(tǒng)抗風(fēng)險能力降低,表現(xiàn)為系統(tǒng)速度變慢,故障增多,對表的維護(hù)操作時間增長。l 數(shù)據(jù)表、索引數(shù)量不斷增加,增加維護(hù)管理難度及應(yīng)用復(fù)雜度。l 單個節(jié)點主機(jī)宕機(jī)時另外一個節(jié)點不能正常接管數(shù)據(jù)庫。3、網(wǎng)絡(luò)客服座席到客服系統(tǒng)、boss系統(tǒng)的網(wǎng)絡(luò)鏈路,是2條10*2m,總帶寬是20m(2條鏈路是主、備關(guān)系)。自07年2月客服擴(kuò)容改造之后,客服座席的網(wǎng)絡(luò)流量增大,平時的鏈路帶寬均值在15mbps左右,高峰時達(dá)到鏈路速率的限制,出現(xiàn)了客服座席業(yè)務(wù)響應(yīng)遲緩、數(shù)據(jù)丟失等故障現(xiàn)象。圖3-1 客服座席網(wǎng)絡(luò)拓?fù)?、應(yīng)用系統(tǒng)(1)即開即通接口主機(jī)存在單點故
44、障;沒有備份路由;出現(xiàn)網(wǎng)絡(luò)故障時人工干預(yù)太多,發(fā)生故障時自動化程度太低,存在無法快速處理的風(fēng)險。(2)一級boss(cboss)缺乏監(jiān)控手段;接口表記錄太多導(dǎo)致一級boss接口處理不及時;一級boss接口上發(fā)緩慢;用戶狀態(tài)、定購關(guān)系目前只能通過第二天凌晨集團(tuán)下發(fā)的錯單文件進(jìn)行檢查。要實現(xiàn)實時監(jiān)控,只能在組包上傳的時候判斷每個號碼是否智能網(wǎng)號碼,對系統(tǒng)資源消耗較大。(3)二卡合一由于boss側(cè)作為服務(wù)端,一旦要進(jìn)行切換,必須要智能網(wǎng)一側(cè)修改指向ip地址。5、開發(fā)、測試環(huán)境設(shè)備數(shù)量配置使用說明ibm p6501ibm p650,8cpu(1.45g),32gram,2ge,2fe,2fc,2*73
45、ghdisk測試數(shù)據(jù)庫ibm p5701ibm p570,4cpu(1.45g),32gram,2ge,2fe,2fc,2*73ghdisk應(yīng)用測試ibm s7a1ibm s7a,12cpu(226mhz),12gram,1ge,2fe,2*9.1ghdisk開發(fā)、源碼編譯ibm s7a1ibm s7a,12cpu(226mhz),12gram,1ge,2fe,2*9.1ghdisk,1*18.2ghdisk開發(fā)、源碼編譯boss系統(tǒng)目前開發(fā)環(huán)境所用的兩臺ibm s7a主機(jī)為2002年boss集中化工程建設(shè)的時候所購,年代久遠(yuǎn),設(shè)備陳舊,cpu時鐘頻率太低,且生產(chǎn)廠家已不對其提供技術(shù)升級和板卡
46、替換,造成性能無法提升,已不能可以滿足源碼的開發(fā)和編譯。boss系統(tǒng)測試環(huán)境所用的機(jī)器設(shè)備配置(cpu/內(nèi)存)較低,部分測試不能做全區(qū)數(shù)據(jù)的測試,如帳務(wù)mdb、計費(fèi)mdb等需要大內(nèi)存的環(huán)境,常常要借助部分生產(chǎn)環(huán)境來兼做測試,影響了生產(chǎn)環(huán)境的使用。同時環(huán)境過于集中,不利于開展測試、管理、配置、變更和維護(hù),嚴(yán)重影響應(yīng)用開發(fā)測試的進(jìn)度和測試質(zhì)量,進(jìn)而影響到boss系統(tǒng)應(yīng)用割接上線的質(zhì)量和系統(tǒng)穩(wěn)定性。應(yīng)用程序在上線前缺乏嚴(yán)謹(jǐn)?shù)臏y試計劃,除了功能測試外,缺乏各種異常測試、壓力測試。6、維護(hù)管理在維護(hù)管理方面主要存在下列問題:(1)維護(hù)指標(biāo)不明確。如對每個子系統(tǒng)的維護(hù)指標(biāo)是什么?可用性要求是什么? (2)
47、維護(hù)流程、應(yīng)用上線控制不夠規(guī)范,未能很好執(zhí)行事件管理、問題管理、變更管理、配置管理等流程。未能充分充分利用boss網(wǎng)管的監(jiān)控、告警功能。(3)沒有定期維護(hù)窗口,沒有建立定期維護(hù)系統(tǒng)的機(jī)制。(4)應(yīng)急措施不力:應(yīng)急方案沒有經(jīng)過演練來驗證;系統(tǒng)平臺或應(yīng)用更改后沒有及時對應(yīng)急方案進(jìn)行變更;做為核心系統(tǒng)的營業(yè)系統(tǒng)的在實施應(yīng)急措施進(jìn)行應(yīng)用切換時,時間長(23小時)。(5)關(guān)鍵系統(tǒng)主機(jī)維護(hù)控制臺放在機(jī)房,未能延伸至亞航辦公室,導(dǎo)致主機(jī)宕機(jī)重啟處理時間過長。(三)具體措施現(xiàn)階段主要針對系統(tǒng)平臺層面進(jìn)行優(yōu)化改造,通過2007年boss2.0擴(kuò)容改造工程、客服系統(tǒng)網(wǎng)絡(luò)擴(kuò)容改造工程、建立應(yīng)急系統(tǒng)等措施來重點完善原
48、系統(tǒng)的設(shè)計缺陷,解決性能瓶頸、單點故障問題。重點解決解決性能瓶頸、單點故障問題;制定應(yīng)急措施,完善應(yīng)急預(yù)案,減短故障處理時長、提高系統(tǒng)穩(wěn)定性。1、措施一:系統(tǒng)平臺改造(1)即開即通系統(tǒng)l 增加一臺主機(jī),負(fù)載均衡互為備份;l 網(wǎng)絡(luò)改造增加備用路由。l 通過腳本實現(xiàn)切換備用路由,并移交監(jiān)控室進(jìn)行實時監(jiān)控和切換,保障在第一時間及時發(fā)現(xiàn)路由問題并加快備用路由切換速度,從而提高開機(jī)及時率。(2)一級boss(cboss)l 加強(qiáng)監(jiān)控手段;l 建立基于bes服務(wù)的partition集群。l 建立cboss應(yīng)急系統(tǒng)。l 更換cboss應(yīng)用為多后臺進(jìn)程版本,實現(xiàn)一定程度的負(fù)載均衡(3)客服系統(tǒng)l 更換核心網(wǎng)絡(luò)
49、設(shè)備,擴(kuò)容網(wǎng)絡(luò)帶寬、新增熱備鏈路路由;l 客服數(shù)據(jù)庫新增一臺主機(jī)配置成雙節(jié)點rac。(4)二卡合一l 增加一臺接口主機(jī),負(fù)載均衡互為備份(5)其他關(guān)鍵系統(tǒng)l 營業(yè)系統(tǒng):更換營業(yè)數(shù)據(jù)庫主機(jī);中間件主機(jī)擴(kuò)cpu/內(nèi)存;解決營業(yè)數(shù)據(jù)庫rac在節(jié)點主機(jī)宕機(jī)時不能正?;榻庸軉栴}。l 帳務(wù)系統(tǒng):帳務(wù)應(yīng)用擴(kuò)容cpu/內(nèi)存;帳務(wù)數(shù)據(jù)庫新增一臺主機(jī)配置成雙節(jié)點rac 。l 計費(fèi)系統(tǒng):計費(fèi)應(yīng)用、計費(fèi)數(shù)據(jù)庫主機(jī)擴(kuò)容cpu、內(nèi)存。l prm/channel系統(tǒng):從營業(yè)中間件分離出來,配置ha雙機(jī)互備,負(fù)載均衡。l 結(jié)算系統(tǒng):更換結(jié)算數(shù)據(jù)庫和結(jié)算應(yīng)用主機(jī),配置ha雙機(jī)互備。2、措施二:應(yīng)用系統(tǒng)改造優(yōu)化l 系統(tǒng)監(jiān)控:梳
50、理分析各個子系統(tǒng)的關(guān)鍵監(jiān)控點,通過boss網(wǎng)管、腳本、存儲過程等手段利用短信直接把告警發(fā)給維護(hù)人員,加快反應(yīng)速度把故障消滅在萌芽狀態(tài)。l cboss:針對影響集團(tuán)公司五項考核指標(biāo)的薄弱環(huán)節(jié)進(jìn)行加強(qiáng)應(yīng)急措施:如建立基于bes服務(wù)的partition。集群、建立應(yīng)急系統(tǒng)、更換多后臺進(jìn)程版本等。l boss全編上線:把控改造進(jìn)度、嚴(yán)謹(jǐn)測試,精心組織、周密部署確保了全編版本割接成功。3、措施三:開發(fā)測試環(huán)境優(yōu)化改造l 通過boss測試系統(tǒng)擴(kuò)容改造工程新增主機(jī)、資源整合,把舊的開發(fā)測試環(huán)境遷移到新的系統(tǒng)平臺上 ,建立了開發(fā)、測試、發(fā)布、回退、培訓(xùn)等多個環(huán)境,為應(yīng)用軟件的在軟件生命周期的各個階段順利開展提
51、供保障。l 嚴(yán)把應(yīng)用開發(fā)測試進(jìn)度控制,除了進(jìn)行功能測試、集成測試外,加強(qiáng)進(jìn)行各種壓力測試、異常測試。4、措施四:優(yōu)化boss運(yùn)維流程l 發(fā)揮boss網(wǎng)管系統(tǒng)作用:完善boss各子系統(tǒng)設(shè)備在boss網(wǎng)管系統(tǒng)上的配置,充分利用boss網(wǎng)管加強(qiáng)系統(tǒng)監(jiān)控、告警,把故障消滅在萌芽狀態(tài)。 l 建立周、月分析制度:通過各種性能收集、分析工具定時收集數(shù)據(jù)進(jìn)行分析,找出應(yīng)用瓶頸所在,提交應(yīng)用集成商共同解決。l 完善應(yīng)急方案:通過演練來不斷完善系統(tǒng)應(yīng)急預(yù)案,鍛煉維護(hù)隊伍熟悉應(yīng)急流程,積累故障應(yīng)急經(jīng)驗。包括核心系統(tǒng)的營業(yè)系統(tǒng)、帳務(wù)系統(tǒng)應(yīng)急演練。 l 拓展維護(hù)控制臺:把關(guān)鍵系統(tǒng)主機(jī)控制臺延伸至亞航辦公室,逐步實施維護(hù)管理集中,縮短故障處理時間。3、主要業(yè)務(wù)服務(wù)創(chuàng)新點(一)首次提出了電信級水平的boss系統(tǒng)的概念和定義。(二)提出了評估
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 沈陽理工大學(xué)《工廠供電》2021-2022學(xué)年期末試卷
- 固定總價合同規(guī)范要求
- 國藥器械銷售合同
- 合同保證金遺失聲明
- 合同法第三章42條
- 2024年興安客運(yùn)從業(yè)資格證考試模板
- 2024融資合同股權(quán)股份轉(zhuǎn)讓協(xié)議
- 2024工傷勞動合同范文
- 2024小區(qū)綠化工程合同
- 英語閱讀記錄卡-20210813175455
- 幼兒園辦園行為督導(dǎo)評估指標(biāo)體系表
- (高清版)DB43∕T 2628-2023 埋地排水用UHMW一P∕TE方型增強(qiáng)排水管技術(shù)規(guī)范
- 廣東省深圳市2023-2024學(xué)年高一上學(xué)期語文期末考試試卷(含答案)
- 河北省保定市定州市2024-2025學(xué)年九年級上學(xué)期期中考試化學(xué)試卷
- 2024-2030年狂犬疫苗行業(yè)市場深度分析及發(fā)展策略研究報告
- 《基因指導(dǎo)蛋白質(zhì)的合成》(第 1課時)教學(xué)設(shè)計
- 2024-2030年果蔬行業(yè)市場發(fā)展現(xiàn)狀及競爭格局與投資戰(zhàn)略研究報告
- 2 0 2 4 年 7 月 國開專科《法理學(xué)》期末紙質(zhì)考試 試題及答案
- 大疆在線測評題答案
- 公共政策分析第一章
- 行業(yè)協(xié)會重大活動備案報告制度
評論
0/150
提交評論