云平臺存儲運維的故障診斷及恢復(fù)_第1頁
云平臺存儲運維的故障診斷及恢復(fù)_第2頁
云平臺存儲運維的故障診斷及恢復(fù)_第3頁
云平臺存儲運維的故障診斷及恢復(fù)_第4頁
云平臺存儲運維的故障診斷及恢復(fù)_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

云平臺存儲運維的故障診斷及恢復(fù)

云平臺存儲是云基礎(chǔ)設(shè)施的核心數(shù)據(jù)基石,包括塊、文件和對象等一系列存儲服務(wù)。由于云存儲服務(wù)產(chǎn)品的技術(shù)復(fù)雜性以及與傳統(tǒng)IT架構(gòu)的不同,決定了云平臺存儲運維的難度高于傳統(tǒng)IT環(huán)境存儲的運維,尤其在面對復(fù)雜的生產(chǎn)運行故障時,能否準(zhǔn)確快速進行故障診斷,找到問題的根因,并第一時間恢復(fù)業(yè)務(wù)正常運行,是云平臺存儲運維能力的重要體現(xiàn)。云平臺存儲運維中如何進行故障診斷及恢復(fù)?

社區(qū)專家主張鄧毓江西農(nóng)信運維技術(shù)經(jīng)理:本議題由北部灣銀行技術(shù)經(jīng)理哲哲蛙、江西裕民銀行高級系統(tǒng)工程師李先科兩位專家針對云平臺存儲運維中故障診斷與恢復(fù)的關(guān)鍵點進行了主張,兩位專家的主張在經(jīng)過我本人、某金融機構(gòu)架構(gòu)師李威、民生銀行科技部工程師白東旭專家的復(fù)議后,最終形成了一定的共識供大家參考。哲哲蛙北部灣銀行技術(shù)經(jīng)理:在運維中,云平臺存儲的運維除了可以在原生的集中式存儲、分布式存儲的系統(tǒng)進行運維之外,還需要額外關(guān)注云平臺層的存儲池內(nèi)的容量告警。隨著云計算、大數(shù)據(jù)以及新興的區(qū)塊鏈等技術(shù)體系的迅猛發(fā)展,數(shù)據(jù)中心的擴容建設(shè)進入高峰期,針對金融行業(yè)互聯(lián)網(wǎng)金融、云化、容器化、分布式改造等數(shù)字化轉(zhuǎn)型在金融行業(yè)不斷發(fā)展,金融業(yè)務(wù)向移動、普惠、敏捷和創(chuàng)新方向發(fā)展,需要新一代彈性基礎(chǔ)設(shè)施、微服務(wù)平臺、分布式中間件和海量數(shù)據(jù)分析系統(tǒng)提供有效支撐。存儲作為關(guān)鍵基礎(chǔ)設(shè)施依然承擔(dān)著非常關(guān)鍵的作用,越來越多的存儲資源逐漸由傳統(tǒng)存儲轉(zhuǎn)化為云平臺存儲。站在數(shù)據(jù)中心的生命周期來看,建設(shè)只是初期,運維階段占整個生命周期的80%以上。雖然運維是企業(yè)業(yè)務(wù)系統(tǒng)從規(guī)劃、設(shè)計、實施、交付到運維的最后一個步驟,但也是最終保證生產(chǎn)穩(wěn)定運行的最重要的環(huán)節(jié)。金融行業(yè)云平臺存儲運維人員以往接觸的更多是硬件,在云數(shù)據(jù)中心時代對運維人員的要求則已經(jīng)從面向物理設(shè)備,轉(zhuǎn)變?yōu)檐浻步Y(jié)合,除集中式硬件外還需面向存儲型X86服務(wù)器以及分布式存儲軟件的復(fù)合管理方式。集中式、分布式存儲并存的現(xiàn)狀,對存儲運維人員在運維和故障診斷恢復(fù)方式方面提出了新要求。傳統(tǒng)存儲環(huán)境與云平臺存儲環(huán)境進入云服務(wù)時代后,站在存儲的角度,集中式存儲和分布式存儲并存的云平臺存儲池具備了更強的云化和服務(wù)化特性。云平臺存儲中,無論是集中式存儲還是分布式存儲按照提供的存儲服務(wù)類型都可以分為幾大類:塊存儲、文件存儲、對象存儲。塊存儲是應(yīng)用最廣的存儲,塊存儲一般采用FCSAN或者IPSAN的方式,通過驅(qū)動映射將存儲層劃分的LUN給物理機或者虛擬化使用,目前在金融環(huán)境中,由集中式存儲提供數(shù)據(jù)庫用的塊存儲更多;云存儲組網(wǎng)同時包括SAN網(wǎng)絡(luò)和IPSAN網(wǎng)絡(luò),用于數(shù)據(jù)庫的集中式存儲池采用SAN組網(wǎng)更多,使用方式上以O(shè)penStack架構(gòu)為例,通過Cinder組件映射存儲池給上層主機,劃分資源直接由云平臺調(diào)用執(zhí)行,對接好環(huán)境后無需在存儲上進行過多操作,由于分布式存儲主要采用服務(wù)器組成,便于橫向擴展,近年云內(nèi)塊存儲在設(shè)備選型上越來越傾向于分布式存儲。文件存儲主要應(yīng)用于文件共享、圖片視頻存儲場景。傳統(tǒng)的文件存儲采用IP方式與客戶端建立連接,在使用上主要采用IP方式,對于設(shè)備架構(gòu)這塊有NAS集中式存儲,也有高密服務(wù)器組成的分布式存儲集群。而云存儲場景使用更加靈活,可以使用為備份存儲和文件共享目錄,以云服務(wù)的方式進行直接掛載給虛擬機,設(shè)備選型上與傳統(tǒng)存儲一致,針對不同的使用場景對兼容性的需求和網(wǎng)絡(luò)可達性要求比較高。對象存儲是一種基于對象的海量存儲,使用起來更靈活。傳統(tǒng)的對象存儲主要以IP域名的方式進行連接,應(yīng)用在影像和歸檔場景比較多,直接通過接口調(diào)用使用,如S3、Swift接口,負載和DNS主要用在集群外。云內(nèi)的對象存儲主要用作備份歸檔、大數(shù)據(jù)分析PaaS層依賴這些場景,如作為業(yè)務(wù)存儲使用一般需要使用LVS負載。兩種場景采用的設(shè)備均是服務(wù)器。整體運維以及故障診斷恢復(fù)傳統(tǒng)存儲與云平臺存儲存在使用、組網(wǎng)、選型、周邊配套上的差異,對整體運維與故障診斷恢復(fù)上也有不同的需求。在運維中,云平臺存儲的運維除了可以在原生的集中式存儲、分布式存儲的系統(tǒng)進行運維之外,還需要關(guān)注云平臺層的存儲池內(nèi)的容量告警。在云平臺存儲主機性能故障診斷在問題定界上由于云平臺存儲影響關(guān)聯(lián)的虛擬機范圍廣,一般需要從問題虛擬機范圍開始排查,檢查整體平臺告警情況,明確是部分虛擬機問題還是整體平臺問題,針對主機使用的存儲進行初步判斷,是否整個云平臺虛擬機都有性能問題,還是部分使用某個特定存儲池的虛擬機存在性能問題。如果是整個平臺的問題,則需要排查是否云平臺存儲服務(wù)故障,是否是在云平臺存儲與底層的集中式或分布式存儲接口出現(xiàn)問題,云平臺管理云存儲的服務(wù)是否存在問題;如果只是部分虛擬機的性能問題,則再分析看是來自于云平臺存儲中的集中式存儲池還是分布式存儲池。根據(jù)問題的現(xiàn)象和范圍,先初步定界,然后再到具體的存儲池以及存儲設(shè)備上進行相應(yīng)的排障處理。如果經(jīng)過分析,問題都難以指向云平臺存儲性能的情況下,則同樣需要完整的分析OS、主機、網(wǎng)絡(luò)、平臺各層面,這也需要運維工程師熟練掌握整體業(yè)務(wù)邏輯、了解現(xiàn)網(wǎng)架構(gòu)、對云產(chǎn)品需要有較深的技術(shù)水平。集中式存儲池的性能瓶頸診斷,一般關(guān)注服務(wù)器、網(wǎng)絡(luò)、存儲層即可,問題定界相對簡單,可以優(yōu)先從集中式存儲系統(tǒng)開始排查,檢查集中存儲原生運維系統(tǒng)上,是否存在端口流量、端口延遲、CPU資源、IOPS等明顯的告警,再排查對應(yīng)的SAN網(wǎng)絡(luò),檢查是否存在SAN交換機上的端口擁塞和錯誤數(shù)明顯增高等告警,以及主機端的IO端口故障導(dǎo)致的IO響應(yīng)時間超長等問題,最終定位到問題根因。而分布式存儲性能瓶頸的診斷,則在了解分布式存儲的部署架構(gòu)基礎(chǔ)下,通過分布式存儲的原生運維平臺,查看分布式存儲運維平臺檢查是否有告警,或者檢查運行日志,分析是否存在節(jié)點故障、磁盤故障、端口故障、網(wǎng)絡(luò)擁塞、分布式存儲服務(wù)異常等故障,以便進行相應(yīng)的故障解決和問題恢復(fù)。分布式存儲因為采用X86服務(wù)器組網(wǎng),X86服務(wù)器因架構(gòu)設(shè)計存在一定的故障率,在單節(jié)點故障時,需要優(yōu)先保障分布式存儲集群的快速恢復(fù)能力,生產(chǎn)環(huán)境建議采用3副本以上的設(shè)計,當(dāng)單節(jié)點故障時不影響業(yè)務(wù)運行,并且對于單臺存儲設(shè)備故障離線時間和數(shù)據(jù)重分布流量進行合理的設(shè)置,避免因大量數(shù)據(jù)重分布導(dǎo)致整個存儲池性能的急劇衰減。由此可見,云平臺存儲運維過程中需要更多地與云平臺聯(lián)動。云平臺存儲除了處理性能瓶頸分析這類復(fù)雜運維事件之外,日常運維中主要涉及:資源發(fā)放維護、巡檢、資源告警監(jiān)控、存儲池擴容、磁盤擴容和縮容、故障處理、重大問題快速恢復(fù)等。整體運維內(nèi)容與傳統(tǒng)運維模式無異,但相對更多可以通過便捷易讀的界面進行運維和配置。針對整體運維操作場景和云存儲的故障特點,要保障好整體運維的穩(wěn)定需要既要有合理的運維流程也需要有一個穩(wěn)定的技術(shù)團隊做到以下關(guān)鍵動作:1)提前識別風(fēng)險:提前將磁盤大小、節(jié)點規(guī)劃等關(guān)鍵參數(shù)進行識別、對關(guān)鍵磁盤進行工具化的性能監(jiān)控、平臺告警及時清理;2)落實關(guān)鍵維護動作:按運維要求執(zhí)行日常巡檢、定期進行深度巡檢、存儲性能基線評估、做好存儲業(yè)務(wù)分析網(wǎng)絡(luò)梳理做到懂存儲懂網(wǎng)絡(luò)、梳理場景問題處理與應(yīng)急手冊;3)問題快速響應(yīng):產(chǎn)生問題明確業(yè)務(wù)范圍、通過梳理的業(yè)務(wù)情況快速定界、以恢復(fù)業(yè)務(wù)為先。將運維動作主動化,將問題閉環(huán)在萌芽期,并通過例行運維動作,不斷提升運維團隊能力,才能保障好網(wǎng)絡(luò)的穩(wěn)定運行。

李先科江西裕民銀行高級系統(tǒng)工程師:實際生產(chǎn)環(huán)境故障問題千奇百怪,掌握其原理、做好各系統(tǒng)及硬件設(shè)備的應(yīng)急預(yù)案才能有效、快速地處理問題、解決問題,保證業(yè)務(wù)系統(tǒng)的連續(xù)性。隨著云計算、大數(shù)據(jù)等新興技術(shù)體系的快速發(fā)展,云數(shù)據(jù)中心運維需求應(yīng)運而生,傳統(tǒng)的運維人員,以往接觸最多的是硬件,如服務(wù)器、集中式存儲、網(wǎng)絡(luò)設(shè)備、空調(diào)、UPS等。但是在云數(shù)據(jù)中心時代,運維人員已經(jīng)從面向物理設(shè)備,逐步轉(zhuǎn)變?yōu)槊嫦蛱摂M化、SDS(軟件定義存儲)、云的管理方式。

從云計算概念和實踐中延伸出了一種新的存儲模式——云平臺存儲,我們可以從兩方面理解云平臺存儲的定義:第一,在面向用戶的服務(wù)形態(tài)方面,它是一種提供按需服務(wù)的應(yīng)用模式,用戶可以通過公/私網(wǎng)絡(luò)連接云端存儲資源,在公/私有云端隨時隨地存儲數(shù)據(jù);第二,在平臺云存儲服務(wù)特性方面,它是通過分布式、虛擬化、智能配置等技術(shù),實現(xiàn)海量、可彈性擴展、低成本、低能耗的共享存儲資源。那么云平臺存儲運維如何進行故障診斷呢?首先,在傳統(tǒng)集中式存儲故障診斷過程中,我們一般按照先定位外部,后定位內(nèi)部的原則。在進行系統(tǒng)的故障定位時,應(yīng)該首先排除外部設(shè)備的問題,外部設(shè)備問題包括光纖、光纜、客戶設(shè)備和斷電等問題,內(nèi)部問題包括硬盤、控制器、接口模塊等故障問題。具體的發(fā)生故障收集信息診斷過程包括但不限于:1)檢查主機端信息。如檢查多路徑是否安裝正確,查看物理路徑狀態(tài)、虛擬磁盤信息、邏輯路徑狀態(tài)、多路徑配置是否正常。2)收集文件系統(tǒng)故障信息。如收集NTFS/EXT3/EXT4/JFS2等文件系統(tǒng)的故障信息日志等。3)收集卷管理故障信息。收集LVM配置及LV/PV/VG等相關(guān)信息,是否有損壞或告警。4)收集數(shù)據(jù)庫故障信息。查看存儲磁盤的相關(guān)報錯代碼。5)收集HBA信息。查看HBA卡的生產(chǎn)廠商和型號,收集HBA卡驅(qū)動的版本號信息是否存在兼容性問題。6)收集交換機信息。查看端口、SFP信息,分析鏈路質(zhì)量、SFP發(fā)光功率是否存在問題。7)收集傳統(tǒng)集中式存儲信息。查看告警日志,導(dǎo)出Support日志,與廠商共同分析日志報錯,查明原因。傳統(tǒng)集中式存儲可以通過收集上述信息并聯(lián)合存儲廠商進行診斷,基本能夠在短時間內(nèi)快速的排除故障。由此可見傳統(tǒng)存儲呈現(xiàn)給用戶更多的像一個黑盒子,通過自帶的告警日志能夠較快速的定位、解決問題,而云平臺存儲在故障診斷方面會略顯復(fù)雜,從某種程度上講,云平臺存儲故障率跟前期的規(guī)劃設(shè)計存在較大關(guān)系。因此,云平臺存儲的故障更多會來源于前期規(guī)劃的不合理及軟件BUG等。下面就以Ceph開源云存儲為例探討一下故障診斷和恢復(fù),包括但不限于如下幾個方面:1)架構(gòu)問題診斷。選型初期,需嚴(yán)格按照Ceph(SDS存儲)官方硬件兼容列表進行硬件選型,根據(jù)不同場景(IOPS優(yōu)先、吞吐量優(yōu)先、存儲優(yōu)先)配置相應(yīng)性能和與分布式存儲軟件認證兼容的CPU、內(nèi)存、硬盤,避免部分硬件配置的選型性能瓶頸、驅(qū)動兼容等導(dǎo)致不可預(yù)見故障,如常見的SDS集群進程DOWN、讀寫延時大、讀寫IO異常等。2)NTP時間校準(zhǔn)問題診斷。時間同步在眾多集群系統(tǒng)中是非常重要的一個基礎(chǔ)服務(wù),集群內(nèi)時間不一致很容易造成集群內(nèi)節(jié)點服務(wù)異常、認證失敗,建議部署私有專網(wǎng)或者互聯(lián)網(wǎng)的NTP服務(wù)器。比如當(dāng)Ceph集群中,有節(jié)點出現(xiàn)時間不一致時,將會出現(xiàn)OSD數(shù)據(jù)同步問題、MON選舉問題、創(chuàng)建云主機失敗或宕機問題、分布式存儲數(shù)據(jù)分布不均衡或者腦裂等問題,在故障節(jié)點上重新進行NTP時間校準(zhǔn)同步,一般就能解決上述問題。3)性能問題診斷。在Ceph分布式存儲中,整個集群的性能很大程度上取決于存儲介質(zhì)的有效選擇,應(yīng)該在選擇存儲介質(zhì)之前了解到集群的工作負載和性能需求。從最佳實踐看,首先,網(wǎng)絡(luò)層面存儲網(wǎng)和業(yè)務(wù)網(wǎng)做分離,服務(wù)器選用萬兆網(wǎng)卡,存儲流量的網(wǎng)卡、對應(yīng)交換機開啟巨型幀等。其次,磁盤介質(zhì)優(yōu)化。比如OSD/Journal等文件優(yōu)先存放在SSD硬盤上,數(shù)據(jù)盤采用JBOD,提高元數(shù)據(jù)、日志數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù)的存儲效率。再次,數(shù)據(jù)存儲的文件系統(tǒng)選擇。BTRFS對于生產(chǎn)環(huán)境來說不是很穩(wěn)定,但有能力記錄Journal和并行的寫入數(shù)據(jù),相對而言XFS和EXT4效果會更好。另外,以Ceph為代表的分布式云存儲的參數(shù)調(diào)優(yōu)還有非常多,依據(jù)不同使用場景,參數(shù)優(yōu)化更為復(fù)雜,所以從日常運維故障診斷角度看,分布式云存儲比傳統(tǒng)集中式存儲運維更復(fù)雜、更需具有整體技術(shù)架構(gòu)的把握度。從擴展性角度看,傳統(tǒng)集中式存儲盒式交付,通過增加磁盤來獲得容量,但性能受制于控制器;而分布式云存儲完全可以由用戶自行定制,容量

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論