另辟蹊徑解決數(shù)據(jù)庫(kù)運(yùn)維技術(shù)難題_第1頁(yè)
另辟蹊徑解決數(shù)據(jù)庫(kù)運(yùn)維技術(shù)難題_第2頁(yè)
另辟蹊徑解決數(shù)據(jù)庫(kù)運(yùn)維技術(shù)難題_第3頁(yè)
另辟蹊徑解決數(shù)據(jù)庫(kù)運(yùn)維技術(shù)難題_第4頁(yè)
另辟蹊徑解決數(shù)據(jù)庫(kù)運(yùn)維技術(shù)難題_第5頁(yè)
已閱讀5頁(yè),還剩27頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、另辟蹊徑解決數(shù)據(jù)庫(kù)運(yùn)維技術(shù)難題技術(shù)創(chuàng)新,變革未來(lái)數(shù)據(jù)庫(kù)服務(wù)是做什么的?數(shù)據(jù)庫(kù)服務(wù)駐場(chǎng)工程師故障處理數(shù)據(jù)庫(kù)服務(wù)駐場(chǎng)工程師重癥監(jiān)護(hù)室的故事一個(gè)醫(yī)院,在重癥監(jiān)護(hù)室, 死亡率從某個(gè)時(shí)候起突然 高起來(lái),而經(jīng)過(guò)醫(yī)生的分 析,每天早上8點(diǎn)的死亡 率,比其他時(shí)間段高很多案例1:系統(tǒng)突然卡頓客戶系統(tǒng)某天告警,15:10-15:25 系統(tǒng)卡頓RAC環(huán)境的GC等待GC等待,本質(zhì)上就是節(jié)點(diǎn)間的交互gc buffer busy *gc current block *gc cr *- 并發(fā)訪問(wèn)- 獲取當(dāng)前塊- 獲取一致性塊gc current與gc cr語(yǔ)句都是最簡(jiǎn)單的insert相關(guān):insert into xxx v

2、alues(,)current請(qǐng)求就是訪問(wèn)數(shù)據(jù)塊本身, 發(fā)生于DMLcr請(qǐng)求就是根據(jù)不同情況訪問(wèn)數(shù)據(jù)塊本身或者前鏡像(undo),主要發(fā)生于select解決GC等待的常見(jiàn)方法最常見(jiàn):應(yīng)用分區(qū),避免訪問(wèn)同樣數(shù)據(jù)其次:優(yōu)化內(nèi)聯(lián)網(wǎng)- 萬(wàn)兆網(wǎng)卡- IB網(wǎng)卡其他:bug進(jìn)程繁忙采取第一步措施客戶已經(jīng)做了嚴(yán)格的應(yīng)用分區(qū)其中一個(gè)節(jié)點(diǎn)(節(jié)點(diǎn)2)完全不跑應(yīng)用內(nèi)聯(lián)網(wǎng)為萬(wàn)兆R(shí)AC相關(guān)進(jìn)程CPU正常采取第一步措施檢查x$bh/v$bh, 發(fā)現(xiàn)部分塊在節(jié)點(diǎn)2也存在,懷疑是統(tǒng) 計(jì)信息收集select count(*),ownerfrom x$bh h ,dba_objects o where o.data_object_

3、id = h.obj措施:強(qiáng)制統(tǒng)計(jì)信息收集在節(jié)點(diǎn)1上運(yùn)行強(qiáng)行flush 節(jié)點(diǎn)2的buffer cachealter system flush buffer cache;問(wèn)題未能解決第二天接近的時(shí)間點(diǎn),問(wèn)題再次發(fā)生第三天接近的時(shí)間點(diǎn),問(wèn)題再再次發(fā)生罪魁禍?zhǔn)滓粋€(gè)醫(yī)院,在重癥監(jiān)護(hù)室,死亡 率從某個(gè)時(shí)候起突然高起來(lái),而 經(jīng)過(guò)醫(yī)生的分析,每天早上8點(diǎn)的 死亡率,比其他時(shí)間段高很多罪魁禍?zhǔn)滓粋€(gè)醫(yī)院,在重癥監(jiān)護(hù)室,死亡 率從某個(gè)時(shí)候起突然高起來(lái),而 經(jīng)過(guò)醫(yī)生的分析,每天早上8點(diǎn)的 死亡率,比其他時(shí)間段高很多原來(lái),每天8點(diǎn)清潔阿姨拔掉呼吸機(jī)的電源,開(kāi)始 打掃衛(wèi)生是否存在同樣的規(guī)律?由于主機(jī)間的塊傳輸由lms進(jìn)

4、程負(fù)責(zé),檢查故障期間的Lms進(jìn)程日志,發(fā)現(xiàn)如下日 志:2020-09-26 15:31:30.766 = Two consecutive receive calls took in 5945 ms = 2020-09-26 15:31:30.767 = Two consecutive receive calls took in 7274 ms = 2020-09-26 15:31:30.807 = Two consecutive receive calls took in 8494 ms = 2020-09-26 15:31:30.835 = Two consecutive receive c

5、alls took in 6355 ms =是否存在同樣的規(guī)律?awk /Two consecutive receive calls took/ t=substr($2,1,5);wait=$(NF-2)/1000;if( wait=3;cnt3t+); if( wait=2;cnt2t+); if( wait=1;cnt1t+); ENDfor (i in cnt1)print i,cnt1i,cnt2i,cnt3i *lms*.trc是否存在同樣的規(guī)律?每六小時(shí)出 現(xiàn)一次哪個(gè)阿姨每六個(gè)小時(shí)打掃一次衛(wèi)生?與客戶配合,發(fā)動(dòng)所有力量主機(jī)工程師網(wǎng)絡(luò)工程師監(jiān)控負(fù)責(zé)人存儲(chǔ)工程師應(yīng)用開(kāi)發(fā)人員排除了在操作

6、系統(tǒng)、網(wǎng)絡(luò)、監(jiān)控中6個(gè)小時(shí)為周期的工作。而數(shù)據(jù)庫(kù)和應(yīng) 用本身也不存在6個(gè)小時(shí)為周期的任務(wù)。CRS?回到crs,檢查集 群日志oswps.datOracle自治數(shù)據(jù)庫(kù)尋根問(wèn)底What is OraJavaAgentDriver?搜索Oracle官網(wǎng),發(fā)現(xiàn)OraJavaAgentDriver對(duì)應(yīng)的是Oracle的cvu組件,全稱是Cluster Verification Utility,是Oracle CRS健康檢查的一個(gè)工具,在CRS作為資源存在,名字是ora.cvu。ora.cvu是6個(gè)小時(shí)打掃一次衛(wèi)生的阿姨嗎?crsctl stat res ora.cvu -p21600=3600*6解決問(wèn)

7、題由于Oracle CVU主要是初始安裝時(shí)用來(lái)檢查系統(tǒng)狀況是否符合安裝標(biāo)準(zhǔn),如果后續(xù)整個(gè)集群沒(méi)有硬件和操作系統(tǒng)變更,理論上來(lái)說(shuō),不會(huì)有變化,因此,該組件可以禁用。禁用方法如下: crsctl stop ora.cvu crsctl disable ora.cvu數(shù)據(jù)庫(kù)問(wèn)題不僅僅是數(shù)據(jù)庫(kù)本身頭痛醫(yī)頭?腦部問(wèn)題? 運(yùn)動(dòng)過(guò)量?心臟供血不足? 氧氣含量低?吸入有毒氣體? 發(fā)燒?。案例:數(shù)據(jù)庫(kù)hung節(jié)點(diǎn)2在10月1日12點(diǎn)36分時(shí)候突然拋出無(wú)法在操作系統(tǒng)上創(chuàng)建生成任 務(wù)進(jìn)程的異常:Thu Oct 01 12:35:30 GMT+08:00 2020ARC1: Standby redo logfile

8、selected for thread 2 sequence 109637 for destination LOG_ARCHIVE_DEST_2Thu Oct 01 12:36:24 GMT+08:00 2020kkjcre1p: unable to spawn jobq slave process Thu Oct 01 12:36:24 GMT+08:00 2020Errors in file /oracle/admin/epmdb/bdump/epmdb2_cjq0_5243470.trc:Thu Oct 01 12:41:29 GMT+08:00 2020ksvcreate: Proce

9、ss(m000) creation failedThu Oct 01 12:46:35 GMT+08:00 2020kkjcre1p: unable to spawn jobq slave process Thu Oct 01 12:46:35 GMT+08:00 2020Errors in file /oracle/admin/epmdb/bdump/epmdb2_cjq0_5243470.trc:主機(jī)資源占用正常CPU占用正常 內(nèi)存用量正常procstack和ps elf hung* SESSION ID:(3904.1) 2020-10-01 12:32:20.508Waited for

10、 process J003 to initialize for 60 seconds* 2020-10-01 12:32:20.514swap info: free_mem = 136988.31M rsv = 612.00M alloc = 651.48M avail = 156672.00M swap_free = 156020.52Mskgpgcmdout: read() for cmd /bin/sh -c /usr/bin/procstack 13697324 2&1 timed out after 18.798 secondsskgpgcmdout: read() for cmd /bin/ps -elf | /bin/egrep PID | 18022634 | /bin/grep -v grep timed out after 15.000 seconds主機(jī)工程師介入,發(fā)現(xiàn)是操作系統(tǒng)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論