




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、運(yùn)行維護(hù)管理體系和制度規(guī)范目錄333566788991、總則第一條 為保障實(shí)驗(yàn)室系統(tǒng)軟硬件設(shè)備的良好運(yùn)行,使員工的運(yùn)維工作制度化、流程化、規(guī)范化,特制訂本制度。第二條 運(yùn)維工作總體目標(biāo):立足根本促發(fā)展,開(kāi)拓運(yùn)維新局面。在企業(yè)發(fā)展壯大時(shí)期,通過(guò)網(wǎng)絡(luò)、桌面、系統(tǒng)等的運(yùn)維,促進(jìn)企業(yè)穩(wěn)定可持續(xù)性發(fā)展。第三條 運(yùn)維管理制度的適用范圍:運(yùn)維人員。2、編制方法本實(shí)施細(xì)則包括運(yùn)維服務(wù)全生命周期管理方法、管理標(biāo)準(zhǔn) / 規(guī)范、管理模式、管理支撐 工具、管理對(duì)象以及基于流程的管理方法。本實(shí)施細(xì)則以 ITIL/ISO20000 為基礎(chǔ),以信息化項(xiàng)目的運(yùn)維為目標(biāo),以管理支撐工具為 手段,以流程化、規(guī)范化、標(biāo)準(zhǔn)化管理為方
2、法,以全生命周期的PDC循環(huán)為提升途徑,體現(xiàn)了對(duì)運(yùn)維服務(wù)全過(guò)程的體系化管理。3、運(yùn)維部工作職責(zé)一、負(fù)責(zé)網(wǎng)站運(yùn)維和技術(shù)支持(一)根據(jù)網(wǎng)站運(yùn)營(yíng)戰(zhàn)略和目標(biāo) , 負(fù)責(zé)網(wǎng)站整體架構(gòu)、欄目、應(yīng)用系統(tǒng)等技術(shù)開(kāi)發(fā)方 案制定和組織開(kāi)發(fā),保障網(wǎng)站技術(shù)的穩(wěn)定性和先進(jìn)性。(二)負(fù)責(zé)網(wǎng)站欄目和應(yīng)用系統(tǒng)的使用培訓(xùn)和操作使用指南編寫(xiě),對(duì)用戶使用過(guò)程中 出現(xiàn)問(wèn)題的溝通和解決。(三)網(wǎng)站設(shè)備和軟件購(gòu)買(mǎi)計(jì)劃書(shū)的擬定,包括采購(gòu)數(shù)量、品牌規(guī)格、技術(shù)參數(shù)。會(huì) 同行政部進(jìn)行采購(gòu)。(四)網(wǎng)站設(shè)備和軟件操作規(guī)程和應(yīng)用管理制度的制定,并負(fù)責(zé)監(jiān)督執(zhí)行。五)網(wǎng)站設(shè)備和軟件安裝、調(diào)試和驗(yàn)收,使用培訓(xùn)和維修保養(yǎng)(六)網(wǎng)站日常運(yùn)行過(guò)程中信息安全和技術(shù)問(wèn)
3、題的協(xié)調(diào)解決, 保障網(wǎng)站 24 小時(shí)安全穩(wěn) 定運(yùn)行。(七)網(wǎng)站技術(shù)服務(wù)外包管理,主要包括技術(shù)外包開(kāi)發(fā)、運(yùn)行服務(wù)托管和空間域名管 理。(八)負(fù)責(zé)網(wǎng)站管理系統(tǒng)及設(shè)備保密口令的設(shè)置和保存,保密口令設(shè)置后報(bào)中心主任 備案,保密口令設(shè)定后任何人不得隨意更改,保密口令每季度更新一次。(九)負(fù)責(zé)網(wǎng)站新程序、新系統(tǒng)和網(wǎng)站改版升級(jí)方案技術(shù)的設(shè)計(jì)開(kāi)發(fā)。二、負(fù)責(zé)網(wǎng)站信息和技術(shù)安全(一)執(zhí)行國(guó)家和省上有關(guān)網(wǎng)絡(luò)信息技術(shù)安全的法律法規(guī),與通信管理和網(wǎng)絡(luò)安全監(jiān) 管部門(mén)聯(lián)絡(luò),及時(shí)處理網(wǎng)站信息技術(shù)安全方面存在的問(wèn)題,確保網(wǎng)站安全、穩(wěn)定、可靠運(yùn) 行。(二) 網(wǎng)站信息技術(shù)安全保密制度和工作流程的制定, 落實(shí)信息技術(shù)安全保密責(zé)任制,
4、 執(zhí)行“誰(shuí)主管、誰(shuí)負(fù)責(zé),誰(shuí)主辦、誰(shuí)負(fù)責(zé)”的原則,責(zé)任到人。( 三 ) 在服務(wù)器和計(jì)算機(jī)之間設(shè)置硬件防火墻,在服務(wù)器及工作站上均安裝防病毒軟 件,進(jìn)行硬件和技術(shù)雙保護(hù),確保網(wǎng)站不受病毒和黑客攻擊。(四)負(fù)責(zé)網(wǎng)站信息技術(shù)安全應(yīng)急處理預(yù)案制定和實(shí)施。(五)安排專人監(jiān)控網(wǎng)站各頻道,各頁(yè)面,各版塊,各欄目信息內(nèi)容,建立網(wǎng)站信息 技術(shù)安全監(jiān)控值班登記制度,發(fā)現(xiàn)問(wèn)題及時(shí)處理,并登記問(wèn)題和處理結(jié)果登記;六)建立多機(jī)備份網(wǎng)站信息服務(wù)系統(tǒng)機(jī)制,一旦主系統(tǒng)遇到故障或受到攻擊導(dǎo)致不 能正常運(yùn)行,可以在最短的時(shí)間內(nèi)替換主系統(tǒng)提供服務(wù)。(七)建立網(wǎng)站系統(tǒng)集中式權(quán)限管理,按照崗位職責(zé)設(shè)定工作人員操作權(quán)限,針對(duì)不同應(yīng)用系統(tǒng)、
5、終端、操作人員,設(shè)置共享數(shù)據(jù)庫(kù)信息的訪問(wèn)權(quán)限,并設(shè)置密碼。不同的操 作人員設(shè)定不同的用戶名,且定期更換,嚴(yán)禁操作人員泄漏密碼。4、運(yùn)維服務(wù)管理體系運(yùn)維服務(wù)管理體系規(guī)定了運(yùn)維活動(dòng)涉及的各類實(shí)體,以及這些實(shí)體間的相互關(guān)系。相關(guān)的實(shí)體按照運(yùn)維服務(wù)管理體系進(jìn)行有機(jī)組織,并協(xié)調(diào)工作,按照服務(wù)協(xié)議要求提供不同 級(jí)別的IT運(yùn)維服務(wù)。4.1 運(yùn)維服務(wù)管理對(duì)象運(yùn)維服務(wù)管理對(duì)象包括基礎(chǔ)設(shè)施、應(yīng)用系統(tǒng)、用戶、研發(fā)部門(mén)以及IT運(yùn)維部門(mén)和人員,具體內(nèi)容如下:(1) 基礎(chǔ)設(shè)施包括網(wǎng)絡(luò)、主機(jī)系統(tǒng)、存儲(chǔ)系統(tǒng)、安全系統(tǒng)等。(2) 應(yīng)用系統(tǒng)包括uap云管理平臺(tái)、cloud門(mén)戶、demo zabbix、機(jī)房設(shè)備管理系統(tǒng)、vmwar
6、e以及yum源等。(3) 用戶包括使用如上應(yīng)用系統(tǒng)的用戶。(4) 研發(fā)部門(mén)包括 Iaas 平臺(tái)研發(fā)部門(mén)。(5) 運(yùn)維部門(mén)和人員包括內(nèi)部參與運(yùn)維活動(dòng)的相關(guān)部門(mén)和人員,以及提供運(yùn)維服務(wù)的企 業(yè)和相關(guān)人員。4.2 運(yùn)維系統(tǒng)功能框架根據(jù)建設(shè)單位的系統(tǒng)結(jié)構(gòu)和業(yè)務(wù)開(kāi)展需要,運(yùn)維項(xiàng)目組將項(xiàng)目的維護(hù)框架分為9個(gè)具體組成部分,分別為:服務(wù)臺(tái)、事件管理、工單管理、問(wèn)題管理、變更管理、配置管理、工 程師考核、知識(shí)庫(kù)管理、統(tǒng)計(jì)、系統(tǒng)管理等 9個(gè)子項(xiàng)。而具體運(yùn)維流程將以此為依據(jù)開(kāi)展工 作。4.3 運(yùn)維管理組織結(jié)構(gòu)本運(yùn)維項(xiàng)目的運(yùn)維管理結(jié)構(gòu)位三層模式,具體如下圖所示。由項(xiàng)目負(fù)責(zé)人與甲方進(jìn)行 業(yè)務(wù)范圍接洽,并將溝通結(jié)果向下傳
7、遞。項(xiàng)目經(jīng)理負(fù)責(zé)項(xiàng)目的整體運(yùn)維工作,包括各種制 度的制定和實(shí)施。運(yùn)維工程師則在項(xiàng)目經(jīng)理的指導(dǎo)下開(kāi)展維護(hù)工作。4.3.1 運(yùn)維負(fù)責(zé)人職責(zé):負(fù)責(zé)項(xiàng)目商務(wù)、整體協(xié)調(diào)事宜。職位描述:1)、整體負(fù)責(zé)建設(shè)單位運(yùn)維項(xiàng)目服務(wù)計(jì)劃的制定,領(lǐng)導(dǎo)項(xiàng)目經(jīng)理并安排項(xiàng)目工作,指 導(dǎo)項(xiàng)目經(jīng)理完成具體維護(hù)工作,每周聽(tīng)取項(xiàng)目經(jīng)理的工作匯報(bào),負(fù)責(zé)考核項(xiàng)目經(jīng)理工作完 成情況。2)、協(xié)助建設(shè)單位完成新增項(xiàng)目的調(diào)研、方案設(shè)計(jì)并指導(dǎo)項(xiàng)目經(jīng)理進(jìn)行具體實(shí)施。4.3.2 運(yùn)維主管職責(zé):規(guī)劃、執(zhí)行、完善信息化項(xiàng)目的運(yùn)維工作,指導(dǎo)網(wǎng)絡(luò)、數(shù)據(jù)庫(kù)維護(hù)工程師開(kāi)展 工作職位描述:1、根據(jù)公司戰(zhàn)略目標(biāo),指導(dǎo)下屬工程師開(kāi)展客戶服務(wù)工作,確保運(yùn)維工作能夠滿足客
8、 戶的實(shí)際需要;2、建立和持續(xù)完善運(yùn)維管理體系,優(yōu)化運(yùn)維流程流程,解決運(yùn)維服務(wù)中出現(xiàn)的特殊問(wèn) 題;3、規(guī)劃并提升運(yùn)維工程師專業(yè)服務(wù)能力,在整體上提高客戶滿意度;4、制定和持續(xù)完善績(jī)效考核體系;5、制定整理運(yùn)維項(xiàng)目的應(yīng)急預(yù)案系統(tǒng),并指導(dǎo)運(yùn)維工程師實(shí)施;6、提高自身專業(yè)技能,在業(yè)務(wù)方面給予網(wǎng)絡(luò)管理員和數(shù)據(jù)庫(kù)管理員指導(dǎo)。4.3.3 系統(tǒng)管理員職責(zé):操作系統(tǒng)、應(yīng)用、數(shù)據(jù)庫(kù)管理, oracle 性能調(diào)優(yōu),實(shí)現(xiàn)應(yīng)用負(fù)載均衡。職位描述:1、技術(shù)主管非項(xiàng)目常駐人員,根據(jù)項(xiàng)目需要進(jìn)行專業(yè)方面指導(dǎo);2、負(fù)責(zé)數(shù)據(jù)庫(kù)性能分析與調(diào)優(yōu),數(shù)據(jù)庫(kù)運(yùn)行狀態(tài)監(jiān)控,及時(shí)發(fā)現(xiàn)異常并快速處理。3、熟練掌握OraclelOG的RA技術(shù),
9、能夠?qū)崿F(xiàn)部署及調(diào)優(yōu)。4、掌握WAS Weblogic、Tomcat、websphere等中間件的工作原理,能夠?qū)崿F(xiàn)部署調(diào)優(yōu) 及故障解決。5、熟練掌握red-flag、redhat等linux操作系統(tǒng),部署oracle10g、mysql數(shù)據(jù)庫(kù)。熟練掌握 dataguard 技術(shù),保證 oracle 數(shù)據(jù)庫(kù)冗災(zāi)、數(shù)據(jù)保護(hù)、故障恢復(fù)。6、負(fù)責(zé)應(yīng)用負(fù)載均衡的部署和調(diào)試。7、負(fù)責(zé)指導(dǎo)數(shù)據(jù)庫(kù)工程師管理員開(kāi)展工作。4.3.4 網(wǎng)絡(luò)管理員職責(zé):維護(hù)建設(shè)單位網(wǎng)絡(luò)系統(tǒng)正常,解決網(wǎng)絡(luò)相關(guān)故障。職位描述:1、對(duì)現(xiàn)有服務(wù)器、局域網(wǎng)絡(luò)及機(jī)房、配線間的日常管理維護(hù);2、對(duì)信息安全建設(shè)提出相關(guān)建議,確保網(wǎng)絡(luò)的安全;3、保證外
10、網(wǎng)光纖線路正常,保證局域網(wǎng)運(yùn)行正常;4、對(duì)網(wǎng)絡(luò)系統(tǒng)和網(wǎng)絡(luò)設(shè)備的運(yùn)行狀態(tài)進(jìn)行監(jiān)控;5、熟練掌握域策略設(shè)置、DHCP DNS FTP服務(wù)器、NTFS權(quán)限設(shè)置等;6、編寫(xiě)網(wǎng)絡(luò)部分的應(yīng)用處理預(yù)案并實(shí)施。7、工作認(rèn)真、細(xì)致,積極主動(dòng)有條理性,具有良好的溝通能力及團(tuán)隊(duì)合作精神4.3.5 應(yīng)用、數(shù)據(jù)庫(kù)管理員職責(zé):維護(hù)建設(shè)單位業(yè)務(wù)系統(tǒng)運(yùn)行正常,解決應(yīng)用和數(shù)據(jù)庫(kù)故障。職位描述:1、監(jiān)測(cè)業(yè)務(wù)系統(tǒng)運(yùn)行狀況,應(yīng)用、數(shù)據(jù)庫(kù)性能監(jiān)視及優(yōu)化,作必要調(diào)整;2、規(guī)劃不同數(shù)據(jù)的生命周期,制訂備份、恢復(fù)、遷移和災(zāi)備策略,根據(jù)業(yè)務(wù)的需要執(zhí) 行數(shù)據(jù)轉(zhuǎn)換及遷移等操作;3、保證應(yīng)用和數(shù)據(jù)庫(kù)系統(tǒng)的安全性、完整性和運(yùn)行效率。4、負(fù)責(zé)數(shù)據(jù)庫(kù)平臺(tái)
11、的整體架構(gòu)及解決方案的制定和實(shí)施;5、工作認(rèn)真、細(xì)致,積極主動(dòng)有條理性,具有良好的溝通能力及團(tuán)隊(duì)合作精神.4.4 運(yùn)維服務(wù)標(biāo)準(zhǔn)流程IT 運(yùn)維服務(wù)管理流程涉及事件管理、問(wèn)題管理、配置管理、變更管理、發(fā)布管理、服 務(wù)級(jí)別管理、財(cái)務(wù)管理、能力管理、可用性管理、服務(wù)持續(xù)性管理、知識(shí)管理及供應(yīng)商管 理等,隨著運(yùn)維活動(dòng)的不斷深入和持續(xù)改進(jìn),其他流程可能會(huì)逐步獨(dú)立并規(guī)范。4.4.1 項(xiàng)目運(yùn)維服務(wù)工作標(biāo)準(zhǔn)流程圖4.4.2 服務(wù)臺(tái)(暫無(wú))服務(wù)臺(tái)是支持運(yùn)維服務(wù)的核心功能,與各個(gè)流程聯(lián)系密切。所有管理流程都要通過(guò)服 務(wù)臺(tái)為用戶提供單點(diǎn)聯(lián)系,解答用戶的相關(guān)問(wèn)題和需求,或?yàn)橛脩魧で笙鄳?yīng)的支持人員。在本系統(tǒng)中 , 服務(wù)臺(tái)
12、是接收各種來(lái)源服務(wù)請(qǐng)求和相關(guān)信息反饋的唯一入口和出口,同時(shí) 服務(wù)臺(tái)還負(fù)責(zé)一般請(qǐng)求、通過(guò)知識(shí)庫(kù)(歷史事件)能夠解決的請(qǐng)求;他也是復(fù)雜問(wèn)題二線 處理的橋梁。由于當(dāng)前人員不足,服務(wù)臺(tái)的工作暫時(shí)由運(yùn)維工程師統(tǒng)一處理4.4.3 事件管理事件管理流程的主要目標(biāo)是盡快恢復(fù)服務(wù)提供并減少其對(duì)業(yè)務(wù)的不利影響,盡可能保 證最好的服務(wù)質(zhì)量和可用性等級(jí)。事件管理流程通常涉及事件的偵測(cè)和記錄、事件的分類 和支持、事件的調(diào)查和診斷、事件的解決和恢復(fù)以及事件的關(guān)閉。本系統(tǒng)把所有服務(wù)請(qǐng)求和報(bào)警歸結(jié)為事件。事件管理是提供服務(wù)臺(tái)和事件管理者對(duì)于 事件記錄、處理、查詢、審核、派發(fā)等功能。它也包括通過(guò)和第三方監(jiān)控系統(tǒng)對(duì)接,把其 發(fā)送
13、報(bào)警形成事件的功能。4.4.4 工單管理工單管理:工單是現(xiàn)場(chǎng)運(yùn)維、二線支持的任務(wù)載體,運(yùn)維工程依據(jù)所接收工單進(jìn)行運(yùn)維工作。工單管理是對(duì)工單實(shí)現(xiàn)創(chuàng)建、變更、查詢?yōu)g覽、派發(fā)、監(jiān)督等功能的模塊。4.4.5 問(wèn)題管理問(wèn)題管理流程的主要目標(biāo)是預(yù)防問(wèn)題和事故的再次發(fā)生,并將未能解決的事件的影響 降低到最小。問(wèn)題管理流程包括診斷事件根本原因和確定問(wèn)題解決方案所需要的活動(dòng),通 過(guò)合適的控制過(guò)程,尤其是變更管理和發(fā)布管理,負(fù)責(zé)確保解決方案的實(shí)施。問(wèn)題管理還 將維護(hù)有關(guān)問(wèn)題、應(yīng)急方案和解決方案的信息。問(wèn)題管理是針對(duì)已處理事件的遺留問(wèn)題或處理事件的方案只是治標(biāo)不治本的不能徹底 解決問(wèn)題而考慮的模塊。根據(jù)事件、及處理
14、方案,問(wèn)題處理人經(jīng)過(guò)調(diào)查、診斷并提出最終 解決方法。4.4.6 變更管理變更管理實(shí)現(xiàn)所有基礎(chǔ)設(shè)施和應(yīng)用系統(tǒng)的變更,變更管理應(yīng)記錄并對(duì)所有要求的變更 進(jìn)行分類,應(yīng)評(píng)估變更請(qǐng)求的風(fēng)險(xiǎn)、影響和業(yè)務(wù)收益。其主要目標(biāo)是以對(duì)服務(wù)最小的干擾 實(shí)現(xiàn)有益的變更。變更管理是要對(duì)重大資源的新增、變更、升級(jí)等運(yùn)維活動(dòng)進(jìn)行審核的功能,以免這些 活動(dòng)對(duì)現(xiàn)有資源的可用性造成沒(méi)有必要的影響和破壞;同時(shí),他還要實(shí)現(xiàn)在工單中產(chǎn)生的 變化進(jìn)行后審計(jì)的功能。4.4.7 配置管理配置管理流程負(fù)責(zé)核實(shí)基礎(chǔ)設(shè)施和應(yīng)用系統(tǒng)中實(shí)施的變更以及配置項(xiàng)之間的關(guān)系是否 已經(jīng)被正確記錄下來(lái);確保配置管理數(shù)據(jù)庫(kù)能夠準(zhǔn)確地反映現(xiàn)存配置項(xiàng)的實(shí)際版本狀態(tài)。配置
15、管理實(shí)際上是全部資源的統(tǒng)一管理的功能,包括資源整個(gè)生命周期的參數(shù)或配置 的變化記錄的管理。管理信息主要涉及分類、型號(hào)、版本、位置,狀態(tài)、相關(guān)資料等基本 信息還包括核心參數(shù)等4.4.8 知識(shí)庫(kù)管理運(yùn)維知識(shí)經(jīng)驗(yàn)的總結(jié)、維護(hù)和共享是提高員工運(yùn)維技能水平、增強(qiáng)單位凝聚力的重要 手段,也是把寶貴的經(jīng)驗(yàn)教訓(xùn)從支持人員頭腦逐步沉淀、固化的重要方式。知識(shí)庫(kù)管理:知識(shí)庫(kù)是提供給運(yùn)維人員重要的技術(shù)資料內(nèi)容,他匯集在工作的遇到的 典型案例歸納總結(jié)的知識(shí)要點(diǎn)和全面實(shí)用資料手冊(cè)。在本系統(tǒng)中,知識(shí)庫(kù)管理提供便于使 用的人機(jī)接口、快速查詢的技術(shù)手段和維護(hù)手段。4.4.9 統(tǒng)計(jì)及工作報(bào)告運(yùn)維管理系統(tǒng)提供一線解決率統(tǒng)計(jì)、客戶滿
16、意度統(tǒng)計(jì)、按分類的事件匯總統(tǒng)計(jì)、工作 報(bào)告生成的功能,按照一定格式根據(jù)事件數(shù)據(jù)、工單數(shù)據(jù)、問(wèn)題數(shù)據(jù)、配置數(shù)據(jù)、變更數(shù)據(jù)可以幫助運(yùn)維管理者能把運(yùn)維的所做的工作內(nèi)容清晰的羅列出來(lái)。5、運(yùn)維服務(wù)內(nèi)容5.1運(yùn)維服務(wù)目標(biāo)實(shí)驗(yàn)室運(yùn)維部門(mén)提供的運(yùn)行維護(hù)服務(wù)包括,虛擬機(jī)、主機(jī)設(shè)備、操作系統(tǒng)、數(shù)據(jù)庫(kù)、 網(wǎng)絡(luò)安全設(shè)備和存儲(chǔ)設(shè)備的運(yùn)行維護(hù)服務(wù),保證云管理平臺(tái)的正常運(yùn)行,降低整體管理成 本,提高Iaas平臺(tái)的整體服務(wù)水平。同時(shí)根據(jù)日常維護(hù)的數(shù)據(jù)和記錄,給研發(fā)部門(mén)提供 Iaas平臺(tái)優(yōu)化及改善建議。實(shí)驗(yàn)室運(yùn)維的組成主要可分為兩類:硬件設(shè)備和軟件系統(tǒng)。硬件設(shè)備包括網(wǎng)絡(luò)設(shè)備、安全設(shè)備、主機(jī)設(shè)備、存儲(chǔ)設(shè)備等;軟件設(shè)備可分為云管
17、理平臺(tái)、操作系統(tǒng)、典型應(yīng)用軟 件(如:數(shù)據(jù)庫(kù)軟件等)等。服務(wù)項(xiàng)目范圍覆蓋的信息系統(tǒng)資源以下方面的關(guān)鍵狀態(tài)及參數(shù)指標(biāo):運(yùn)行狀態(tài)、故障情況配置信息可用性情況及健康狀況性能指標(biāo)5.2IT資產(chǎn)統(tǒng)計(jì)服務(wù)服務(wù)內(nèi)容包括:硬件設(shè)備型號(hào)、數(shù)量、版本等信息統(tǒng)計(jì)記錄 軟件產(chǎn)品型號(hào)、版本和補(bǔ)丁等信息統(tǒng)計(jì)記錄網(wǎng)絡(luò)結(jié)構(gòu)、網(wǎng)絡(luò)路由、網(wǎng)絡(luò)IP地址統(tǒng)計(jì)記錄 綜合布線系統(tǒng)結(jié)構(gòu)圖的繪制其它附屬設(shè)備的統(tǒng)計(jì)記錄5.3網(wǎng)絡(luò)、安全系統(tǒng)運(yùn)維服務(wù)從網(wǎng)絡(luò)的連通性、網(wǎng)絡(luò)的性能、網(wǎng)絡(luò)的監(jiān)控管理三個(gè)方面實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)系統(tǒng)的運(yùn)維管理,網(wǎng)絡(luò)設(shè)備位于IT架構(gòu)的骨干位置,下面是需要監(jiān)控的指標(biāo),及對(duì)應(yīng)健康狀況故障以后可能 引起的問(wèn)題。設(shè)備基礎(chǔ)性能檢測(cè):cpu、內(nèi)存
18、使用情況監(jiān)測(cè)。當(dāng)cpu、內(nèi)存使用率過(guò)高,會(huì)導(dǎo)致用戶網(wǎng)絡(luò)訪問(wèn)質(zhì)量下降,丟包、時(shí)延較高等狀況的產(chǎn)生。說(shuō)明當(dāng)前網(wǎng)絡(luò)設(shè)備負(fù)載較高,需要對(duì)下行設(shè)備進(jìn)行遷移,分流,減輕負(fù)載。設(shè)備日志查看;當(dāng)設(shè)備日志出現(xiàn)異常時(shí),可能是設(shè)備出現(xiàn)異常訪問(wèn)或者異常配置,可能會(huì)導(dǎo)致網(wǎng)絡(luò)中斷。需要檢測(cè)防火墻等安全設(shè)備狀態(tài)。設(shè)備 snmp telnet 狀態(tài);當(dāng)snmp tel net都不可達(dá)時(shí),一般是設(shè)備脫網(wǎng)情況的產(chǎn)生,會(huì)導(dǎo)致網(wǎng)絡(luò)中斷。需 要人工查看設(shè)備運(yùn)行狀態(tài)。測(cè)試Ping,tracert 等工具的連通性;當(dāng)ping丟包率過(guò)高,說(shuō)明網(wǎng)絡(luò)訪問(wèn)質(zhì)量有問(wèn)題,需要tracert查看網(wǎng)絡(luò)路徑是哪一跳對(duì)應(yīng)的IP設(shè)備時(shí)延較高或者不可達(dá)。分析是哪
19、個(gè)網(wǎng)關(guān)路由或者策略引起的問(wèn)網(wǎng)絡(luò)安全策略應(yīng)用是否正常;安全策略異常會(huì)導(dǎo)致網(wǎng)絡(luò)設(shè)備遭受入侵,會(huì)影響整個(gè)網(wǎng)絡(luò)的訪問(wèn)。In ternet帶寬流量的實(shí)時(shí)監(jiān)測(cè);流量所占帶寬比較高,會(huì)造成當(dāng)前網(wǎng)絡(luò)設(shè)備對(duì)應(yīng)端口網(wǎng)關(guān)的所有網(wǎng)絡(luò)訪問(wèn)質(zhì)量下降。需要抓包查看是哪些設(shè)備對(duì)應(yīng)的訪問(wèn)流量較高,決定是加大帶寬還是服務(wù)器中毒。網(wǎng)絡(luò)拓?fù)滏溌窢顟B(tài)監(jiān)測(cè);鏈路狀態(tài)異常說(shuō)明網(wǎng)絡(luò)中某個(gè)設(shè)備異常,需要查看鏈路對(duì)應(yīng)的網(wǎng)絡(luò)設(shè)備健康狀況,結(jié)合其他指標(biāo)分析問(wèn)題所在。異常網(wǎng)絡(luò)數(shù)據(jù)包流量、Dos、ddos等網(wǎng)絡(luò)攻擊情況監(jiān)測(cè);存在異常網(wǎng)絡(luò)數(shù)據(jù)流量包等,會(huì)導(dǎo)致正常的網(wǎng)絡(luò)質(zhì)量下降,說(shuō)明網(wǎng)絡(luò)可能受到攻擊, 需要結(jié)合netflow和流量狀況查看異常流量的訪問(wèn)網(wǎng)段
20、, 從路由策略或者防火墻限 制該網(wǎng)段的訪問(wèn)光纖光口光功率、光電口誤碼率大小。光功率值不在光模塊的默認(rèn)光功率范圍內(nèi),會(huì)導(dǎo)致光口不可用,可能是光模塊出現(xiàn)故障,需要聯(lián)系廠家查看光模塊是否正常5.4主機(jī)、存儲(chǔ)系統(tǒng)運(yùn)維服務(wù)提供的主機(jī)、存儲(chǔ)系統(tǒng)的運(yùn)維服務(wù)包括:主機(jī)、存儲(chǔ)設(shè)備的日常監(jiān)控,設(shè)備的運(yùn)行狀 態(tài)監(jiān)控,故障處理,操作系統(tǒng)維護(hù),補(bǔ)丁升級(jí)等內(nèi)容。進(jìn)行監(jiān)控管理的內(nèi)容包括:CPU性能管理;GPU旨標(biāo)過(guò)高,會(huì)導(dǎo)致服務(wù)器程序運(yùn)行緩慢,出現(xiàn)卡死狀況。需要查看引起GPU過(guò)高原因,做虛機(jī)遷移等操作,減輕服務(wù)器壓力。內(nèi)存使用情況管理;內(nèi)存使用率過(guò)大,會(huì)導(dǎo)致服務(wù)器崩潰,需要及時(shí)擴(kuò)充內(nèi)存資源,或者回收不再使用 的虛機(jī)資源。硬
21、盤(pán)利用情況管理;硬盤(pán)使用率過(guò)高,會(huì)導(dǎo)致開(kāi)始啟動(dòng)失敗,需要定期清理服務(wù)器臨時(shí)文件,或者擴(kuò)充 服務(wù)器硬盤(pán)。系統(tǒng)進(jìn)程管理;服務(wù)器關(guān)鍵進(jìn)程運(yùn)行是否正常,異常會(huì)導(dǎo)致服務(wù)器崩潰,需要查看進(jìn)程異常原因。實(shí)時(shí)監(jiān)控主機(jī)電源、風(fēng)扇的使用情況及主機(jī)機(jī)箱內(nèi)部溫度;電源狀態(tài)異常,可能會(huì)導(dǎo)致服務(wù)器斷電,風(fēng)扇異常,主機(jī)穩(wěn)定過(guò)高會(huì)導(dǎo)致服務(wù)器重 啟,需要與廠商聯(lián)系,查看硬件是否正常監(jiān)控主機(jī)硬盤(pán)運(yùn)行狀態(tài);硬盤(pán)讀寫(xiě)狀態(tài)等標(biāo)識(shí)硬盤(pán)可用性, 需要查看是否硬盤(pán)壓力過(guò)大,考慮更換存儲(chǔ)類型 ssd等監(jiān)控主機(jī)網(wǎng)卡等硬件狀態(tài);主機(jī)網(wǎng)卡down掉,會(huì)影響服務(wù)器的網(wǎng)絡(luò)訪問(wèn),硬件異常會(huì)影響服務(wù)器正常運(yùn)行, 需要聯(lián)系廠商做硬件檢測(cè)。監(jiān)控主機(jī)HA運(yùn)行狀況
22、;災(zāi)備系統(tǒng)運(yùn)行異常,會(huì)導(dǎo)致HA切換異常,需要查看引起HA異常的原因,是軟件問(wèn) 題還是硬件問(wèn)題,逐步排除原因。5.5數(shù)據(jù)庫(kù)系統(tǒng)運(yùn)維服務(wù)提供的數(shù)據(jù)庫(kù)運(yùn)行維護(hù)服務(wù)是包括主動(dòng)數(shù)據(jù)庫(kù)性能管理,數(shù)據(jù)庫(kù)的主動(dòng)性能管理對(duì)系 統(tǒng)運(yùn)維非常重要。通過(guò)主動(dòng)式性能管理可了解數(shù)據(jù)庫(kù)的日常運(yùn)行狀態(tài),識(shí)別數(shù)據(jù)庫(kù)的性能 問(wèn)題發(fā)生在什么地方,有針對(duì)性地進(jìn)行性能優(yōu)化。同時(shí),密切注意數(shù)據(jù)庫(kù)系統(tǒng)的變化,主 動(dòng)地預(yù)防可能發(fā)生的問(wèn)題。進(jìn)行監(jiān)控管理的內(nèi)容包括:數(shù)據(jù)庫(kù)基本信息:文件系統(tǒng)、碎片、死鎖、CPU占用率較大或時(shí)間較長(zhǎng)的SQL語(yǔ)句。存在上面會(huì)導(dǎo)致業(yè)務(wù)訪問(wèn)緩慢,需要定位那些SQL占用內(nèi)存較大或者死鎖,針對(duì)具 體情況進(jìn)行優(yōu)化代碼。表空間使用
23、信息監(jiān)測(cè);表空間占用太大會(huì)影響查詢效率,需要優(yōu)化存儲(chǔ)結(jié)構(gòu),將集中存儲(chǔ)換為單表文件,索引根據(jù)實(shí)際業(yè)務(wù)進(jìn)行優(yōu)化,是否需要索引,或者索引刪除重建,或者建立分區(qū)表。數(shù)據(jù)庫(kù)文件I/O讀寫(xiě)情況;數(shù)據(jù)庫(kù)I/O反應(yīng)數(shù)據(jù)庫(kù)瓶頸,查看引起I/O較大的原因是業(yè)務(wù)量較大還是服務(wù)器 I/O現(xiàn)在,更換存儲(chǔ)類型,必要情況下更換內(nèi)存數(shù)據(jù)庫(kù)等。Session連接數(shù)量監(jiān)控;Session長(zhǎng)鏈接數(shù)量較大會(huì)造成數(shù)據(jù)庫(kù)負(fù)載較高,需要考慮將長(zhǎng)鏈接更換為短連接。數(shù)據(jù)庫(kù)監(jiān)聽(tīng)運(yùn)行狀態(tài)監(jiān)測(cè);數(shù)據(jù)庫(kù)運(yùn)行狀態(tài)為down會(huì)導(dǎo)致業(yè)務(wù)中斷,查看是業(yè)務(wù)層還是網(wǎng)絡(luò)層引起的問(wèn)題, 如果為網(wǎng)絡(luò)層,需要對(duì)網(wǎng)絡(luò)情況排除,如果為業(yè)務(wù)層導(dǎo)致,要進(jìn)行 SQL優(yōu)化。查看每日
24、數(shù)據(jù)備份、數(shù)據(jù)同步是否正常;數(shù)據(jù)庫(kù)備份異常,會(huì)導(dǎo)致備份數(shù)據(jù)丟失,對(duì)于數(shù)據(jù)庫(kù)遷移,和數(shù)據(jù)恢復(fù)造成不可恢 復(fù)的影響,需要具體查看引起該問(wèn)題是數(shù)據(jù)庫(kù)本身還是服務(wù)器問(wèn)題,具體問(wèn)題具體分析解決。對(duì)表和索引進(jìn)行Analyze,檢查表空間碎片;數(shù)據(jù)庫(kù)表和索引的占用量太大會(huì)影響查詢效率,需要調(diào)整表結(jié)構(gòu)或者索引刪除重 建。數(shù)據(jù)庫(kù)對(duì)象的空間擴(kuò)展情況監(jiān)測(cè);表空間擴(kuò)展太快會(huì)導(dǎo)致數(shù)據(jù)庫(kù)服務(wù)器存儲(chǔ)空間占滿,數(shù)據(jù)庫(kù)down掉等異常情況,需要優(yōu)化表結(jié)構(gòu)5.6云管理平臺(tái)運(yùn)維服務(wù)云管理平臺(tái)主要包括管理節(jié)點(diǎn)、計(jì)算節(jié)點(diǎn)、存儲(chǔ)節(jié)點(diǎn)的運(yùn)維。同時(shí),實(shí)時(shí)監(jiān)控重點(diǎn)虛擬機(jī),保證主要業(yè)務(wù)不中斷。主要內(nèi)容包括:ManagemenServer狀態(tài)及性
25、能監(jiān)控(cpu、內(nèi)存、磁盤(pán)、io、mysql數(shù)據(jù)庫(kù)、系統(tǒng)及應(yīng)用日志等);虛擬化主機(jī)age nt狀態(tài)監(jiān)控;主存儲(chǔ)及二級(jí)存儲(chǔ)使用率監(jiān)控;數(shù)據(jù)中心虛擬資源(cpu、內(nèi)存、磁盤(pán))使用量監(jiān)控;單臺(tái)計(jì)算節(jié)點(diǎn)cpu、內(nèi)存分配及實(shí)際使用量監(jiān)控;單臺(tái)存儲(chǔ)節(jié)點(diǎn)硬盤(pán)分配及實(shí)際使用量監(jiān)控;虛擬機(jī)模版、網(wǎng)絡(luò)、方案策略制定;系統(tǒng)虛擬機(jī)、虛機(jī)路由狀態(tài)監(jiān)控;非計(jì)費(fèi)用戶閑置虛擬資源回收;用戶資源審批、賬戶充值及余額管理;虛擬機(jī)外網(wǎng)網(wǎng)絡(luò)及端口開(kāi)通; 計(jì)算節(jié)點(diǎn)主機(jī)及存儲(chǔ)節(jié)點(diǎn)擴(kuò)容;5.7運(yùn)維工具監(jiān)控工具實(shí)驗(yàn)室選用開(kāi)源運(yùn)維工具Zabbix , Zabbix是一個(gè)基于WE界面的提供分布式系統(tǒng)監(jiān)控以 及網(wǎng)絡(luò)監(jiān)控功能的企業(yè)級(jí)開(kāi)源運(yùn)維平臺(tái),
26、也是目前國(guó)內(nèi)互聯(lián)網(wǎng)用戶中使用最廣的監(jiān)控軟件。Grafana-zabbix 展示效果入門(mén)容易、上手簡(jiǎn)單、功能強(qiáng)大并且開(kāi)源免費(fèi)是對(duì) Zabbix的最直觀評(píng)價(jià)。Zabbix 易于管理和配置,能生成比較漂亮的數(shù)據(jù)圖,其自動(dòng)發(fā)現(xiàn)功能大大減輕日常管理的工作量, 豐富的數(shù)據(jù)采集方式和API接口可以讓用戶靈活進(jìn)行數(shù)據(jù)采集,而分布式系統(tǒng)架構(gòu)可以支持 監(jiān)控更多的設(shè)備。理論上,通過(guò) Zabbix提供的插件式架構(gòu),可以滿足企業(yè)的任何需求。優(yōu)點(diǎn):1. 支持多平臺(tái)的企業(yè)級(jí)分布式開(kāi)源監(jiān)控軟件;2. 安裝部署簡(jiǎn)單、管理方便;3. 功能強(qiáng)大,監(jiān)控靈活,可實(shí)現(xiàn)復(fù)雜多條件告警;4. 多種數(shù)據(jù)采集插件,靈活集成;5. 自帶畫(huà)圖功能,
27、得到的數(shù)據(jù)可以繪成圖形;6. 同時(shí)支持調(diào)用腳本,很方便;7. 提供多種API接口,定制化最高的監(jiān)控軟件;8. 出現(xiàn)問(wèn)題時(shí)可自動(dòng)遠(yuǎn)程執(zhí)行命令(需對(duì)age nt設(shè)置執(zhí)行權(quán)限);缺點(diǎn):1. 項(xiàng)目批量修改不方便 ;2. 社區(qū)雖然成熟,但是中文資料相對(duì)較少,服務(wù)支持有限 ;3. 入門(mén)容易,能實(shí)現(xiàn)基礎(chǔ)的監(jiān)控,但是深層次需求需要非常熟悉Zabbix 并進(jìn)行大量的二次定制開(kāi)發(fā),難度較大 ;4. 系統(tǒng)級(jí)別報(bào)警設(shè)置相對(duì)比較多, 如果不篩選的話報(bào)警郵件會(huì)很多 ; 并且自定義的 項(xiàng)目報(bào)警需要自己設(shè)置,過(guò)程比較繁瑣 ;5. 缺少數(shù)據(jù)匯總功能,如無(wú)法查看一組平均值,需進(jìn)行二次開(kāi)發(fā) ;6. 數(shù)據(jù)報(bào)表需要特殊二次開(kāi)發(fā)定義 ;
28、實(shí)驗(yàn)室監(jiān)控體系也有集中式監(jiān)控?cái)U(kuò)展到分布式監(jiān)控,監(jiān)控系統(tǒng)之間的耦合性逐步降低。在分布式系統(tǒng)中,整個(gè)系統(tǒng)有一個(gè)監(jiān)控中心服務(wù)器,若干個(gè)子監(jiān)控服務(wù)器和被監(jiān)控對(duì) 象組成的,每一個(gè)子監(jiān)控服務(wù)器負(fù)責(zé)監(jiān)控屬于它所屬的子系統(tǒng),不同的子系統(tǒng)之間也不完 全獨(dú)立,他們之間的規(guī)模也不大,產(chǎn)生的數(shù)據(jù)也不是很大。這樣就大大減小中心監(jiān)控服務(wù) 器的工作壓力。圖:分布式監(jiān)控架構(gòu)分布式監(jiān)控主要分三個(gè)層次,最底層是需要監(jiān)控的節(jié)點(diǎn),他通過(guò)啟動(dòng)snmr服務(wù)或者主動(dòng)發(fā)送trapped或者啟動(dòng)age nt進(jìn)程。收集每個(gè)節(jié)點(diǎn)的狀態(tài)信息,并向監(jiān)控子服務(wù)器發(fā)送收 集的信息。中間層是 proxy 服務(wù)器層,它負(fù)責(zé)收集每個(gè)節(jié)點(diǎn)發(fā)送給它的監(jiān)控信息,然后
29、向中 心的監(jiān)控服務(wù)器發(fā)送搜集到的監(jiān)控信息。最上面一層是中心監(jiān)控服務(wù)器,它主要負(fù)責(zé)收集每個(gè)子監(jiān)控服務(wù)器的數(shù)據(jù),然后存入數(shù)據(jù)庫(kù),再通過(guò) web服務(wù)器發(fā)送提供展現(xiàn)、查詢、等服 務(wù)。 分布式的監(jiān)控結(jié)構(gòu)將大量數(shù)據(jù)采集的工作分散到每個(gè)監(jiān)控子系統(tǒng)中, 從而極大的 減少了監(jiān)控中心服務(wù)器的壓力,減少了網(wǎng)絡(luò)的負(fù)載,但是也可能帶來(lái)一定的系統(tǒng)延遲。Zabbix 性能優(yōu)化:性能指標(biāo)的采集方式根據(jù)不同指標(biāo)類型進(jìn)行指標(biāo)分組,如CPU&、內(nèi)存組、文件系統(tǒng)組、 進(jìn)程組等,每個(gè)性能組又對(duì)應(yīng)若干個(gè)性能,根據(jù)不同用戶對(duì)于不同指標(biāo)關(guān)注度不同,指標(biāo) 采集力度也不同,如CP內(nèi)存等實(shí)時(shí)度要求比較高的,需要1分鐘采集一次,而對(duì)應(yīng)存儲(chǔ)的 硬盤(pán)檢
30、測(cè)可能趨勢(shì)變化不大,所以采集力度可能比較大一周或者一月。而隨著設(shè)備量的增 加,虛機(jī)的擴(kuò)張變快,zabbix服務(wù)器的優(yōu)化不得不加入考慮,Zabbix雖然采用分布式結(jié)構(gòu), 但是指標(biāo)計(jì)算 (按照通用指標(biāo)統(tǒng)計(jì) ) : 2500( 服務(wù)器數(shù)量 )*15( 指標(biāo)數(shù)量)*3600( 一天) = 135000000Zabbix server 的性能同過(guò)查看指標(biāo),每秒處理數(shù)和等待隊(duì)列長(zhǎng)度Zabbix數(shù)據(jù)庫(kù)調(diào)優(yōu):a)使用innodb,為每一張數(shù)據(jù)庫(kù)表使用一個(gè)文件,修改my.cf innodb_file_per_table= 1;b)使用分區(qū)表關(guān)閉 houerkeeper,zabbix_server.conf 參數(shù) DisableHousekeeper=1;c)使用分區(qū)表,需要建立分區(qū)的相關(guān)表my.c nf配置文件相關(guān)樣例如下圖:6應(yīng)急服務(wù)響應(yīng)措施運(yùn)維項(xiàng)目組制定了詳盡的應(yīng)急處理預(yù)案,整個(gè)流程
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 農(nóng)村建私房合同范本
- Module1Unit 2 I feel nervous when I speak Chinese.教學(xué)設(shè)計(jì)- 2024-2025學(xué)年外研版英語(yǔ)八年級(jí)下冊(cè)
- 專家工作合同范本模板
- 公寓購(gòu)房合同范本
- 保潔人員勞務(wù)合同范本
- 刺繡行業(yè)雇工合同范本
- 分公司設(shè)立合同范本
- 農(nóng)戶銷售果樹(shù)合同范本
- 農(nóng)用農(nóng)機(jī)出售合同范本
- 保險(xiǎn)條款合同范本
- 焊工(初級(jí))考試題庫(kù)及答案
- 2024年云南省中考物理試題含答案
- 外來(lái)施工人員安全培訓(xùn)考核試卷
- Module1Unit1Welivedinasmallhouse (教案) 英語(yǔ)五年級(jí)下冊(cè)
- 公共建筑能源費(fèi)用托管型合同能源管理服務(wù)規(guī)范(TCECA-G 0223-2023)
- 2024年老年急危重癥容量管理急診專家共識(shí)
- 人教鄂教版四年級(jí)下冊(cè)科學(xué)全冊(cè)練習(xí)帶答案(一課一練)
- 小區(qū)物業(yè)服務(wù)投標(biāo)方案(技術(shù)方案)
- 《導(dǎo)游基礎(chǔ)知識(shí)》課件-第二章 中國(guó)民族民俗
- 2024年全國(guó)職業(yè)院校技能大賽高職組(建筑裝飾數(shù)字化施工賽項(xiàng))備賽試題庫(kù)(含答案)
- 2024年單招職業(yè)技能測(cè)試題庫(kù)及參考答案(基礎(chǔ)題)
評(píng)論
0/150
提交評(píng)論