![微軟AzureSQL云數(shù)據(jù)庫中的基于大數(shù)據(jù)的運(yùn)維和管理_第1頁](http://file4.renrendoc.com/view3/M00/22/13/wKhkFmY64HiAJkLrAADyFWm4Gzk746.jpg)
![微軟AzureSQL云數(shù)據(jù)庫中的基于大數(shù)據(jù)的運(yùn)維和管理_第2頁](http://file4.renrendoc.com/view3/M00/22/13/wKhkFmY64HiAJkLrAADyFWm4Gzk7462.jpg)
![微軟AzureSQL云數(shù)據(jù)庫中的基于大數(shù)據(jù)的運(yùn)維和管理_第3頁](http://file4.renrendoc.com/view3/M00/22/13/wKhkFmY64HiAJkLrAADyFWm4Gzk7463.jpg)
![微軟AzureSQL云數(shù)據(jù)庫中的基于大數(shù)據(jù)的運(yùn)維和管理_第4頁](http://file4.renrendoc.com/view3/M00/22/13/wKhkFmY64HiAJkLrAADyFWm4Gzk7464.jpg)
![微軟AzureSQL云數(shù)據(jù)庫中的基于大數(shù)據(jù)的運(yùn)維和管理_第5頁](http://file4.renrendoc.com/view3/M00/22/13/wKhkFmY64HiAJkLrAADyFWm4Gzk7465.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
微軟AzureSQL云數(shù)據(jù)庫中的基于大數(shù)據(jù)的運(yùn)維和管理1微軟AzureSQL云數(shù)據(jù)庫中的基于大數(shù)據(jù)的運(yùn)維和管理5/8/2024議題AzureSQL數(shù)據(jù)庫系統(tǒng)概述大數(shù)據(jù)系統(tǒng)架構(gòu)大數(shù)據(jù)在運(yùn)維的應(yīng)用運(yùn)維方面的文化2微軟AzureSQL云數(shù)據(jù)庫中的基于大數(shù)據(jù)的運(yùn)維和管理5/8/2024AzureSQLDatabase(PaaS)基于云的關(guān)系型數(shù)據(jù)庫,微軟全職管理,用戶零管理按需收費(fèi),性能動態(tài)伸縮超過1百萬用戶,已經(jīng)落地中國使用場合LighttransactionalworkloadsMediumtransactionalworkloadsHeavytransactionalworkloads服務(wù)在線保證99.99%在線大小2GB250GB1TB數(shù)據(jù)備份7天14天35天災(zāi)難防御Geo-restoretoanyAzureregionPassiveGeo-ReplicationSystemselectedlocation(geo-pairinginAzure)ActiveGeo-Replication,99.9%lagis<2s,upto4readablereplicas.Userselectedlocation(s)性能指標(biāo)Upto16,600transactionsperhourUpto5,100transactionsperminuteUpto735transactionspersecond優(yōu)越性高級版基礎(chǔ)版標(biāo)準(zhǔn)版AppScalability&PerformanceBusinessContinuityDeveloperEfficiencyCompliantMassivescale&performanceBusinesscontinuity&dataprotectionFamiliarmanagementtools&APIs,Self-managedISO,FISMA,FedRAMP,PCI,..3微軟AzureSQL云數(shù)據(jù)庫中的基于大數(shù)據(jù)的運(yùn)維和管理5/8/2024議題AzureSQL數(shù)據(jù)庫系統(tǒng)概述大數(shù)據(jù)系統(tǒng)架構(gòu)大數(shù)據(jù)在運(yùn)維的應(yīng)用運(yùn)維方面的文化4微軟AzureSQL云數(shù)據(jù)庫中的基于大數(shù)據(jù)的運(yùn)維和管理5/8/2024TelemetryIsKing(數(shù)據(jù)為王)客戶云服務(wù)基于機(jī)器學(xué)習(xí)的異常檢測反饋系統(tǒng)報警系統(tǒng)報表DevOps工具大數(shù)據(jù)應(yīng)用KustoCosmos運(yùn)維大數(shù)據(jù)系統(tǒng)一天10分鐘一天2到5分鐘5微軟AzureSQL云數(shù)據(jù)庫中的基于大數(shù)據(jù)的運(yùn)維和管理5/8/2024Questions?6微軟AzureSQL云數(shù)據(jù)庫中的基于大數(shù)據(jù)的運(yùn)維和管理5/8/2024數(shù)據(jù)源類型應(yīng)用數(shù)據(jù)量存儲方式期限直接查詢系統(tǒng)狀態(tài)實時數(shù)據(jù)實時了解系統(tǒng)的狀態(tài)少量不存儲,OndemandPullbased
MDS近實時數(shù)據(jù)預(yù)警和短期存儲未處理的數(shù)據(jù),
查詢功能差大量多樣,基于AzureBlob7天Cosmos長期數(shù)據(jù)批處理,大規(guī)模查詢,長保存數(shù)據(jù)超超大量HDFS類似的分布存儲,便宜60天數(shù)據(jù)倉庫長期數(shù)據(jù)規(guī)范化的數(shù)據(jù)處理結(jié)果和來著其他方面的數(shù)據(jù)少量SQLTable,行壓縮永遠(yuǎn)Kusto近實時數(shù)據(jù)基于行壓縮的內(nèi)存數(shù)據(jù)引擎,可以快速處理各種類型的查詢大量內(nèi)存和硬盤混合,行壓縮7天不同類型的數(shù)據(jù)7微軟AzureSQL云數(shù)據(jù)庫中的基于大數(shù)據(jù)的運(yùn)維和管理5/8/2024議題AzureSQL數(shù)據(jù)庫系統(tǒng)概述大數(shù)據(jù)系統(tǒng)架構(gòu)大數(shù)據(jù)在運(yùn)維的應(yīng)用運(yùn)維方面的文化8微軟AzureSQL云數(shù)據(jù)庫中的基于大數(shù)據(jù)的運(yùn)維和管理5/8/2024大數(shù)據(jù)在運(yùn)維的應(yīng)用關(guān)鍵績效指標(biāo)(KPI:KeyPerformanceIndicator)對服務(wù)報警和監(jiān)控(AlertandMonitoring)
大數(shù)據(jù)的反饋系統(tǒng)(FeedbackLoop)基于機(jī)器學(xué)習(xí)的自動報警系統(tǒng)(ProactiveAnalysiswithAnomalyDetection)9微軟AzureSQL云數(shù)據(jù)庫中的基于大數(shù)據(jù)的運(yùn)維和管理5/8/2024關(guān)鍵績效指標(biāo)(KPI:KeyPerformanceIndicator)
在telemetry數(shù)據(jù)的基礎(chǔ)上我們建立了以下指標(biāo)ServiceHealth(SLA):衡量我們的服務(wù)是否達(dá)到我們給用戶的。比如99.99%的在線率,我們衡量每月,每周,每天和每小時的達(dá)標(biāo)率,對沒有達(dá)標(biāo)的客戶中斷的時間。BussinessKPI:衡量各種類型的客戶增長,用戶都用那些功能。ComponentHeath:每個產(chǎn)品組都有報表顯示模塊的健康度事故分析:對前一天的事故做自動的分析,造出已有的原因和對未知原因的做手動分析以上指標(biāo)每天都在不同場合Review,并且驅(qū)動后續(xù)工作。我們用這種方法去主導(dǎo)很多決策。讓所有人都能熟練的使用數(shù)據(jù)做決策
(DataDrivenCultureandDataDrivenEngineering)10微軟AzureSQL云數(shù)據(jù)庫中的基于大數(shù)據(jù)的運(yùn)維和管理5/8/202411微軟AzureSQL云數(shù)據(jù)庫中的基于大數(shù)據(jù)的運(yùn)維和管理5/8/2024大數(shù)據(jù)在運(yùn)維的應(yīng)用關(guān)鍵績效指標(biāo)(KPI:KeyPerformanceIndicator)對服務(wù)報警和監(jiān)控(AlertandMonitoring)
大數(shù)據(jù)的反饋系統(tǒng)(FeedbackLoop)基于機(jī)器學(xué)習(xí)的自動報警系統(tǒng)(ProactiveAnalysiswithAnomalyDetection)12微軟AzureSQL云數(shù)據(jù)庫中的基于大數(shù)據(jù)的運(yùn)維和管理5/8/2024故障的周期部署運(yùn)維日志處理大數(shù)據(jù)分析決策開發(fā)部署自動化自動回滾打開新功能驗證新功能部署模擬用戶的人工負(fù)載報警解決故障事后分析自動反饋系統(tǒng)回答用戶問題定義性能指標(biāo)數(shù)據(jù)整合和后處理交互式分析報表洞察/領(lǐng)悟(engineering&customers)每天例會
故障討論
部署進(jìn)展和計劃
重大決策
軟件系統(tǒng)工程新系統(tǒng)功能(缺省是關(guān)閉的)測試(OneBox)修補(bǔ)缺陷加日志挑戰(zhàn)如何減少人的投入如何自動化報警解決事后的調(diào)查分析修補(bǔ)發(fā)布13微軟AzureSQL云數(shù)據(jù)庫中的基于大數(shù)據(jù)的運(yùn)維和管理5/8/2024對服務(wù)報警和監(jiān)控 故障的分級0,1,2級要實時解決,要馬上知道影響層面,即時通知客戶,值班經(jīng)理要一直在線3,4級正常工作時間解決即時有效報警的重要性(TTD)報警時間要短,比用戶要先知道一定要準(zhǔn)確(不要整天狼來了)1和2其實是矛盾的預(yù)警的類型:主動報警:模仿用戶發(fā)請求,不相應(yīng)就報警被動報警:基于近實時的運(yùn)維數(shù)據(jù)集中在如何解決用戶故障,而不是修改缺陷14微軟AzureSQL云數(shù)據(jù)庫中的基于大數(shù)據(jù)的運(yùn)維和管理5/8/2024Service故障的周期檢測時間TTD(解決時間)TTM修復(fù)時間TTPPatchOPSTSGDEVOPSAutoRCAPIR>Sev2=CRIBugCreateMonitoringBugFixedMITIGATED故障處理周期(LifeSite)故障修復(fù)周期(Engineering)WatchingActingIncidentdebugging/mitigation(Ops)Incidentdebugging/mitigationWritingRepairItems(RI)Coding&TestingAvailabilityReliabilityPerformanceKPIKPIKPIKPIKPIKPIDeployingCustomerICMAuto-CallingCYCLEIMPACTINGKPIIMPACTEDKPIPROCESSRDresponseTimeTTP=TimeToProduction(TTP)KPIRequiredKPI,regardlessifautomationisinplace.KPIOptionalKPIifautomationisinplace,requiredifmanualActingAUTOMATIONRCANOP激活處理關(guān)閉解決IncidentdeclaredIncidentisMitigatedEventnotedTTD=TimeToDetection(TTD)TTI=TimeToIncident(TTI)TTM=TimeToMitigate(TTM)TTC=TimeToCall(TTC)TTA=TimeToAction(TTA)TTT=TimeToTroubleshoot(TTT)CRILSIUpgrade…KPIPost-MortemIncidentResponseICM15微軟AzureSQL云數(shù)據(jù)庫中的基于大數(shù)據(jù)的運(yùn)維和管理5/8/2024大數(shù)據(jù)在運(yùn)維的應(yīng)用關(guān)鍵績效指標(biāo)(KPI:KeyPerformanceIndicator)對服務(wù)報警和監(jiān)控(AlertandMonitoring)
大數(shù)據(jù)的反饋系統(tǒng)(FeedbackLoop)基于機(jī)器學(xué)習(xí)的自動報警系統(tǒng)(ProactiveAnalysiswithAnomalyDetection)16微軟AzureSQL云數(shù)據(jù)庫中的基于大數(shù)據(jù)的運(yùn)維和管理5/8/2024大數(shù)據(jù)的反饋對系統(tǒng)的反饋自動檢測和解決已知問題(AutoMitigator)報警的同時做深入分析(SmartAlert)對客戶的反饋指導(dǎo)用戶優(yōu)化他們的應(yīng)用(tunecustomerapp)提前通知用戶可能出現(xiàn)的問題(proactivealertcustomer)給用戶提供運(yùn)維數(shù)據(jù)(providetelemetrytocustomer)對工程師的反饋了解一個缺陷的影響(knowtheimpactofabug)17微軟AzureSQL云數(shù)據(jù)庫中的基于大數(shù)據(jù)的運(yùn)維和管理5/8/2024MDSBotMitigator(onWAFL)BotAlertDetectorAlertDB(SterlingDB)<<telemetry>>CASCertAuditDB_P1(SterlingDB)CAS(MS)SQLAzureDBDataCenter(WestUS)CAS(MS)SQLAzureDBDataCenter(EastUS)MDSCert…UtilityClusterAutoMitigator系統(tǒng)架構(gòu)18微軟AzureSQL云數(shù)據(jù)庫中的基于大數(shù)據(jù)的運(yùn)維和管理5/8/2024SQLAzureDBProductionClustersTelemetryStore(Cosmos/MDS/Kusto)WhatisAutoMitigatorWAFLWindowsAzureFeedbackLoopAutoMitigatorisareal-timefeedbackenginetoAzureSQLDBProductionService.ItgetnearrealtimeinsightfromdifferenttypeoftelemetryItdetectslivesiteissuesautomaticallyItproposesactionstoresolvelivesiteissueItexecutestheactionstolivesiteinplannedcarefulmanner19微軟AzureSQL云數(shù)據(jù)庫中的基于大數(shù)據(jù)的運(yùn)維和管理5/8/2024ClusterProtectionNegativeFeedbackLoop!ThrottlingLimitpertimeframe(example:10perday)Graceperiod
(example:30minbetweentwoconsecutivemitigations)ConfigurableonmultiplelevelsWorldwideRingNodeAppMitigatorMitigationcommands
scheduling/postponingBotalertSQLAzureDBWAFLCommand1.Create/Propose2.Checkand
Execute20微軟AzureSQL云數(shù)據(jù)庫中的基于大數(shù)據(jù)的運(yùn)維和管理5/8/2024基于機(jī)器學(xué)習(xí)的自動報警系統(tǒng)
ProactiveAnalysiswithAnomalydetectionRulebased預(yù)警有限制系統(tǒng)有大量的信號,無法對未知的信息報警(youdon’tknowwhatyoudon’tknow)報警的閾值非常難設(shè)置(is5betterthan6?)解決方案:機(jī)器學(xué)習(xí)一種自適應(yīng)算法對大量信號源都有效(unsupervisedanomalydetection)通過調(diào)整敏感度來控制報警的閾值(1to10)構(gòu)建一個系統(tǒng),讓人人都可以花最少時間寫報警不用懂算法跟已有系統(tǒng)連接自動運(yùn)行21微軟AzureSQL云數(shù)據(jù)庫中的基于大數(shù)據(jù)的運(yùn)維和管理5/8/2024算法概述
Shen-shying-ho;Wechsler,H“AMartingaleFrameworkforDetectingChangesinDataStreamsbyTestingExchangeability”IEEETransactionsonSoftwareEngineering(ImpactFactor:5.78).12/201022微軟AzureSQL云數(shù)據(jù)庫中的基于大數(shù)據(jù)的運(yùn)維和管理5/8/2024EmailRDIncidentsVSTSBugICM
AlertDataDatabase
(DW,NRT,..)
MDS/KustoAnalysisRpackageCloudMLModuleProactiveAnalyticsB
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年鐵路道岔項目可行性研究報告及運(yùn)營方案
- 電影行業(yè)市場現(xiàn)狀及未來展望
- 2025年中國甲醇汽車行業(yè)市場全景調(diào)研及投資規(guī)劃建議報告
- 2024年中國硅橡膠行業(yè)市場深度分析調(diào)查報告
- 現(xiàn)代中藥藥物分析方法在教育領(lǐng)域的推廣
- 2025年醫(yī)藥專用活性炭項目投資可行性研究分析報告
- 型材滾彎機(jī)行業(yè)深度研究報告
- 單位銀行結(jié)算賬戶申請書
- 2025年龍骨架項目投資可行性研究分析報告
- 承德流量測量儀表項目可行性研究報告
- 善讀無字之書(2023年廣東中考語文試卷議論文閱讀題及答案)
- 2024中智集團(tuán)招聘重要崗位高頻500題難、易錯點模擬試題附帶答案詳解
- 八年級美術(shù)下冊第1課文明之光省公開課一等獎新名師課獲獎?wù)n件
- GB/T 4706.30-2024家用和類似用途電器的安全第30部分:廚房機(jī)械的特殊要求
- 食品安全管理制度可打印【7】
- 2024年山東省東營市中考數(shù)學(xué)試題 (原卷版)
- 2024全國能源行業(yè)火力發(fā)電集控值班員理論知識技能競賽題庫(多選題)
- 2024年山東新華書店集團(tuán)限公司臨沂市縣分公司招聘錄取人員(高頻重點提升專題訓(xùn)練)共500題附帶答案詳解
- 公司員工外派協(xié)議書范文
- 2024年四川省南充市中考物理試卷真題(含官方答案)
- 信息科技重大版 七年級上冊 互聯(lián)網(wǎng)應(yīng)用與創(chuàng)新 第二單元教學(xué)設(shè)計 互聯(lián)網(wǎng)原理
評論
0/150
提交評論