




下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
目錄
一、云平臺物理設(shè)備的運維................................................2
1.上線之前的準(zhǔn)條工作..................................................2
2.云平臺的監(jiān)控告警....................................................2
3.故障處理流程........................................................4
4.平臺報表............................................................4
二、針對云平臺上面云主機(jī)的運維流程.....................................5
1.云主機(jī)的操作........................................................5
2.網(wǎng)絡(luò)................................................................5
3.硬盤問題............................................................5
4.鏡像問題............................................................6
5.云主機(jī)故障處理流程圖................................................6
巴特云運維流程
巴特云運維流程主要分為兩部分,1.針對云平臺物理設(shè)備的運維。2.針對云平臺
上面的云主機(jī)的運維
一、云平臺物理設(shè)備的運維
1.上線之前的準(zhǔn)備工作
1.1首先是進(jìn)行網(wǎng)絡(luò)的規(guī)劃,規(guī)劃好業(yè)務(wù)網(wǎng)段、管理網(wǎng)段、以及遠(yuǎn)程管理卡
的網(wǎng)段,業(yè)務(wù)網(wǎng)段主要用來云平臺的Manage、Private>Storage>Public;管
理網(wǎng)段主要用來管理人員用來遠(yuǎn)程ssh登錄平臺,這里我們通常使用PXE網(wǎng)絡(luò)來
作為管理網(wǎng)段,遠(yuǎn)程管理卡的網(wǎng)段主要是用來管理人員遠(yuǎn)程通過遠(yuǎn)程管理卡來管
理物理服務(wù)器,可以讓我們配置raid、配置BIOS配置電源等。
1.2.角色的規(guī)劃,對服務(wù)器的角色進(jìn)行規(guī)劃,確定需要幾臺控制節(jié)點,控制
節(jié)點跟mongdb是否進(jìn)行分離,確定有多少計算節(jié)點跟存儲節(jié)點,計算節(jié)點跟存
儲節(jié)點是否分離。
1.3.日志的切割及處理,鑒于云平臺會產(chǎn)生大量的日志信息,我們需要制定
一個定期切割云平臺E志并將口志刪除的時間,以此來保證控制節(jié)點的硬盤容量
不會慢。
1.4.做一定的安全措施,如防火墻iptables的訪問控制,關(guān)閉不必要的對外
網(wǎng)絡(luò)端口,以避免被攻擊。
1.5.數(shù)據(jù)的備份,對■重要數(shù)據(jù)進(jìn)行定期的備份,例如MySQL。保證數(shù)據(jù)丟失
后,能夠恢復(fù)。
2.云平臺的監(jiān)控告警
運維首先要做的就是防患于未然,將故障扼殺在搖籃之中,而不是坐等事情
發(fā)生了才來處埋,所以對于巴特女平臺的監(jiān)控將是平臺上線后首先要做的,
而告警將讓運維人員及時知道問題,快速的定位問題。所以制定一套合理有
效的監(jiān)控告警方案尤為重要,我們需要確定監(jiān)控哪些對象,設(shè)定閾值,合理
規(guī)劃告警信息及告警方式,當(dāng)告警發(fā)生后的處理順序。
2.1監(jiān)控對象
a.服務(wù)器監(jiān)控,主要監(jiān)控服務(wù)器如:CPU負(fù)教、內(nèi)存使用率、磁盤使用率、
登陸用戶數(shù)、進(jìn)程狀態(tài)、網(wǎng)卡狀態(tài)等。
b.應(yīng)用程序監(jiān)控,針對云平臺各個模塊進(jìn)行監(jiān)控,主要監(jiān)控各個模塊的服務(wù)
狀態(tài),吞吐量和響應(yīng)時間,因為不同應(yīng)用需要監(jiān)控的對象不同,這里不一
一列舉。
c.數(shù)據(jù)庫監(jiān)控,只所以把數(shù)據(jù)庫監(jiān)控單獨列出來,足以說明它的重要性,
般監(jiān)控數(shù)據(jù)庫狀態(tài),數(shù)據(jù)庫表或者表空間的使用情況,是否有死鎖,錯誤
日志,性能信息等等。
d.網(wǎng)絡(luò)監(jiān)控,主要監(jiān)控當(dāng)前的網(wǎng)絡(luò)狀況,網(wǎng)絡(luò)流量等。
2.2.監(jiān)控的結(jié)果
a.監(jiān)控到的結(jié)果是成功或者失敗,如Ping不通服務(wù)器、訪問云平臺
出錯、連接不到Socket,服務(wù)down掉,類似這種故障是最優(yōu)先的
告警,運維人員在收到此類告警應(yīng)該第一時間進(jìn)行處理.,保證云平
臺的可用性。
b.監(jiān)控到的結(jié)果超過我們制定的閾值,例如云平臺的網(wǎng)絡(luò)進(jìn)出口流量,
平臺存儲的使用情況、平臺計算節(jié)點CPU、內(nèi)存的使用情況超過我
們設(shè)定的閾值的時候,那么運維人員在收到此類告警的時候也應(yīng)該
第一時間介入,查看并分析原因,制定完整的解決方案。
2.3.定義告警的標(biāo)準(zhǔn)內(nèi)容信息
當(dāng)服務(wù)器或應(yīng)用發(fā)生故障時告警信息內(nèi)容非常多,如告警運行業(yè)務(wù)名
稱、服務(wù)器IP、監(jiān)控的線路、監(jiān)控的服務(wù)錯誤級別、出錯信息、發(fā)生時
間等。預(yù)先定義告警內(nèi)容及標(biāo)準(zhǔn)使收到的告警內(nèi)容具有規(guī)范性及可讀性。
告警內(nèi)容的準(zhǔn)確性能使運維人員很清晰的知道問題發(fā)生在什么地方,例如
存儲不可用,那么有可能是因為osddown掉了也有可能硬盤壞掉了,如
果告警信息能清楚的告訴運維人員那么這將幫助運維人員快速定位問題
以便快速解決問題,節(jié)省排查時間。
2.4.設(shè)置告警方式
告警的方式很重要,合理的告警信息它能及時的通知運維人員平臺所
遇到的故障,能讓運維人員第?時間獲悉平臺問題,而不足等用戶來告訴
需要進(jìn)行擴(kuò)容,也方便運維人員從中了解到平臺的安全隱患,及時的處理問
題,避免故障的發(fā)生。
二、針對云平臺上面云主機(jī)的運維流程
這里我們所講的針對云主機(jī)的運維指的是不因為云平臺故障所導(dǎo)致的云主機(jī)無
法正常使用的運維工作。而是針對云主機(jī)的操作、網(wǎng)絡(luò)、硬盤問題、鏡像問題的
運維。
1.云主機(jī)的操作
鑒于我們的平臺提供多種模塊、例如數(shù)據(jù)庫、Sahara,伸縮、負(fù)載均衡、安
全組、對象存儲等,針對于這些模塊來說用戶可能不是很清楚,這就需要我
們運維人員能夠編寫好思路清晰的管理員手冊及用戶手冊,同時運維人員也
需要對各個模塊有深入的了解,當(dāng)用戶遇到問題的時候可以快速的為用戶提
供咨詢。
2.網(wǎng)絡(luò)
用戶經(jīng)常會反饋網(wǎng)絡(luò)延時,經(jīng)常出現(xiàn)連接后掉線的狀況,那么這時候我
們應(yīng)該首先查看云主機(jī)到vrouter之間的網(wǎng)絡(luò)是否出現(xiàn)延遲,如果云主機(jī)到
vrouter之間出現(xiàn)廷遲那么就可以通過抓包的手段來查看是否用戶的私有網(wǎng)
絡(luò)中存在著問題。如果云主機(jī)到vrouter之間的網(wǎng)絡(luò)狀況正常,那么就應(yīng)該
測試vrouter到達(dá)物理防火墻之間的網(wǎng)絡(luò)是否有延時,如果有那么我們需要
排查物理網(wǎng)絡(luò)的問題。例如云平臺中某臺云主機(jī)遭受攻擊,那么有可能產(chǎn)生
大流量將公網(wǎng)帶寬全部占據(jù),導(dǎo)致流量神堵。當(dāng)然如果是這方面出現(xiàn)問題的
話那么我們應(yīng)當(dāng)在對物理機(jī)的監(jiān)控中收到網(wǎng)絡(luò)流量異常的告警。如果
vrouter到達(dá)物理防火墻之間的流量是正常的,那么我就應(yīng)該檢查用戶客戶
端到我們云平臺物理防火墻之間的網(wǎng)絡(luò)是否正常。如果是這一層面的話,那
么一般情況下我們將問題反饋給機(jī)房,同時也讓用戶檢測一下自身客戶端的
網(wǎng)絡(luò)狀況是否正常。當(dāng)然網(wǎng)絡(luò)異常也有可能是網(wǎng)絡(luò)節(jié)點的CPU使用率過高導(dǎo)
致CPL?對于網(wǎng)卡的網(wǎng)絡(luò)流量處理延時導(dǎo)致的。當(dāng)然如果是這方面的問題,根
據(jù)我們對于云平臺物理機(jī)的監(jiān)控選項應(yīng)該也是能夠及時發(fā)現(xiàn)的。
如果用戶反饋網(wǎng)絡(luò)無法正常使用,那么我們首先確定物理網(wǎng)絡(luò)是否正常。
然后再來排查用戶到vrouter之間的網(wǎng)絡(luò)是否正常,平臺網(wǎng)絡(luò)ovs有流表功
能,該流表配置不當(dāng)可能導(dǎo)致用戶的網(wǎng)絡(luò)無法正常使用。
3.硬盤問題
用戶的服務(wù)對于硬盤的讀寫速度變慢,針對于此類問題我們首先確定存儲網(wǎng)
絡(luò)是否正常,如果某臺存儲節(jié)點的存儲網(wǎng)絡(luò)或者該網(wǎng)絡(luò)接口有問題的話,那么是
會導(dǎo)致網(wǎng)絡(luò)性能下降導(dǎo)致硬盤的讀寫下降的。如果不是網(wǎng)絡(luò)問題,那么運維人員
就需要查看ceph的性能是否正常,是否因為ceph的讀寫性能下降導(dǎo)致的。如果
是因為ceph性能下降導(dǎo)致的,那么運維人員就應(yīng)該對ceph進(jìn)行相應(yīng)的處理。但
是如果排除了云平臺的問題,那么就可以考慮從用戶的服務(wù)入手。
4.鏡像問題
鏡像的問題可能引起用戶創(chuàng)建云主機(jī)無法獲取IP地址、注入密碼、獲取主機(jī)
名等,如果是linux鏡像遇到此類問題,可以
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年合肥高新美城物業(yè)有限公司招聘真題
- 2024年甘肅和平醫(yī)院招聘真題
- 2024年北京首都醫(yī)科大學(xué)附屬北京世紀(jì)壇醫(yī)院招聘真題
- 2024年安徽工程技術(shù)學(xué)校專任教師招聘真題
- 人教初中地理八下山東省德州市期末考試地理試題
- 四年級下冊數(shù)學(xué)教案-3.1 練習(xí)五 丨蘇教版
- UPS容量與負(fù)載量的計算
- 28.1 銳角三角函數(shù) 課件2024-2025學(xué)年人教版數(shù)學(xué)九年級下冊
- 首飾代加工合同范本
- 雇人拆遷勞務(wù)合同范本
- 填塘壓浸工程施工組織設(shè)計方案
- 普通心理學(xué)(第六版)
- 衛(wèi)健系統(tǒng)深入開展矛盾糾紛“大走訪、大排查、大化解”專項行動工作方案
- 三年級音樂上冊 《法國號》課件教學(xué)
- 鄉(xiāng)鎮(zhèn)(街道)財政運行綜合績效評價報告及自評指標(biāo)
- 餐飲部作業(yè)流程圖
- 代建項目管理手冊
- GB/T 15065-2009電線電纜用黑色聚乙烯塑料
- 中層干部任期考核民主測評表
- 十二經(jīng)絡(luò)及腧穴課件
- 辦公室工作存在問題(總結(jié)12篇)
評論
0/150
提交評論