版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、 新硬件環(huán)境下的數(shù)據(jù)庫系統(tǒng)發(fā)展趨勢本次分享大綱:現(xiàn)代處理器及新型存儲的發(fā)展現(xiàn)代處理器下的數(shù)據(jù)庫技術面向新型存儲的數(shù)據(jù)庫系統(tǒng)總結現(xiàn)代處理器及新型存儲的發(fā)展1、現(xiàn)代處理器先給大家介紹一下現(xiàn)代處理器及新型存儲的發(fā)展。大概從2005年開始,CPU的生產商就不再追求CPU的頻率而轉向多核技術研究,這里一個很重要的原因就是能耗和制造工藝上的問題,使得他們不能再單純地追求提升頻率。在當前普通的服務器上,配備幾十個處理核心的處理器已相當常見,眾核的概念也開始流行起來。那什么是眾核?眾核,是在英文上有一個專門的詞,叫做many-core,跟單核是對應的,主要是指集成了成百上千個處理核心的處理器。多核處理器大家可
2、能很熟悉了,但大家有沒注意到memory-wall效應這個現(xiàn)象呢?以前CPU訪問一個內存,大概只要一個時間周期的時間,現(xiàn)在需要上百個時間周期,訪問內存成了一個比較昂貴的操作,特別是在如今大內存和內存計算這個環(huán)境下,memory-wall的效應更加嚴重,所以怎么樣去克服,使得程序具有局部性,成為了最重要的一件事情,即如何克服memory wall的問題。2、新型存儲設備大家是否聽過非易失性內存?英特爾剛剛推出的3D XPoint技術,就屬于這類范疇的技術,即內存掉電了以后,數(shù)據(jù)不會丟失。它兼具磁盤和內存的特性,結合了兩者的優(yōu)點,也就是具有磁盤的持久存儲特性和內存的快速訪問,主要特點是非低失、低延
3、時、大容量,以及讀寫不對稱。大家可以想象一下,有了這種硬件以后,我們系統(tǒng)設計者需要考慮的東西就不再是所謂的I/O的問題了,而是可以專注地把注意力放在高性能計算上,通俗地講就是關注系統(tǒng)的擴展性問題。原理介紹剛才所說的新型存儲非易失性內存主要有以下四種實現(xiàn),其中最為成熟、最具市場前景的就是這個稱之為相變存儲的技術。相變存儲器:材料可以在結晶狀態(tài)與非結晶狀態(tài)轉變自旋磁矩:改變兩層磁性材料磁矩方向鐵電材料:材料所形成的電荷高低,二元狀態(tài)憶阻器:是一種有記憶功能的非線性電阻根據(jù)國外工程師的逆向工程,英特爾的3D XPoint(傲騰),采用的就是這種技術。它的技術特點是利用相變材料,具有結晶和非結晶兩種狀
4、態(tài),這兩種狀態(tài)對應著低電阻和高電阻,對應著1和0。相比存儲器的單元結構主要有以下部件組成:雙層的導熱片,然后加熱絕緣體,以及相變材質。通過加熱器,對這個相變材質進行加熱,它就會呈現(xiàn)結晶和非結晶兩種狀態(tài)。其它的技術實現(xiàn),有興趣可私下討論,這里就不多講了。相關參數(shù)主要還是PCM的技術,是目前最為重要的一種技術。我們來看一下它的參數(shù),這里主要是一些相關文獻上摘取的數(shù)據(jù),其中我們比較關注的是讀寫延遲、帶寬、壽命,以及密度(容量)。從表格中可以看到,PCM和Flash相比,它的讀寫延遲要低兩個數(shù)量級,而它的壽命要高兩個數(shù)量級,并且容量的大小和Flash差不多,而跟內存相比,它的讀延遲已經是很接近了,但這
5、個寫延遲和帶寬上還有差距,所以目前而言,PCM代替內存是不可能的事情,而在一段時間內這兩種存儲是會共同存在于計算機體系結構中。另外一個有意思的現(xiàn)象就是PCM的密度,它的容量要比內存大2到4倍,而且在空閑功耗,即系統(tǒng)空閑的時候,這個功耗是內存的1%。因為內存要不斷地去刷新,維護內存單元里面的數(shù)據(jù),所以這是一個很耀眼的特性,特別是對于數(shù)據(jù)中心而言。DBMS的設計我們都知道系統(tǒng)的底層硬件決定著上層軟件的設計,現(xiàn)在數(shù)據(jù)庫系統(tǒng)最主要的矛盾是飛速發(fā)展的硬件與始于上世紀70年代的數(shù)據(jù)庫系統(tǒng)的陳舊設計思想。眾所周知,磁盤I/O是那個時期系統(tǒng)性能的主要瓶頸,而該系統(tǒng)的設計者主要考慮的是自己怎樣把這個系統(tǒng)設計得更
6、好,以規(guī)避這個磁盤I/O的問題。在我們的數(shù)據(jù)庫系統(tǒng)里面,同樣隨處可見這種設計思想。針對這種磁盤時代而提出的算法思想,在大并發(fā)下將會呈現(xiàn)相當嚴重的性能問題。這個研究是在2010年卡內基梅隆大學的數(shù)據(jù)庫研究小組,對幾個開源數(shù)據(jù)庫的性能測試結果。可以看到,在多核處理器下這些數(shù)據(jù)庫系統(tǒng)的性能、擴展性都不能夠令人滿意。這篇論文拉開了數(shù)據(jù)庫系統(tǒng)多核優(yōu)化的序幕,特別是開源軟件,例如MySQL、PG在該時期就開始重視多核擴展性的問題,他們意識到原來在多核環(huán)境下,系統(tǒng)會有如此表現(xiàn)。時間都去哪兒了呢?那么,數(shù)據(jù)庫系統(tǒng)的事務執(zhí)行時間都耗費到哪去了?下面是麻省理工大學的研究結論數(shù)據(jù)庫系統(tǒng)大部分的時間都耗費在緩存池管理
7、、日志子系統(tǒng)上,只有12%左右的時間是耗費在真正有用的工作上。這些模塊當中存在著大量的臨界區(qū),這個臨界區(qū)設計得相當粗糙,下面我們可通過分析一個代碼片段來進行解析。在系統(tǒng)的設計上,經常是一把大鎖,不假思索地加上去保護臨界區(qū),幾百行的代碼。正如剛才看到的,在這種情況下,當系統(tǒng)并發(fā)度起來時,數(shù)據(jù)庫系統(tǒng)的性能是相當差的?,F(xiàn)代處理器下的數(shù)據(jù)庫技術James Gray大家是否聽過呢?在現(xiàn)在數(shù)據(jù)庫系統(tǒng)里,跟事務相關的技術基本都是James Gray提出來的。但可惜的是,在2007年,他駕著一艘帆船出海,然后消失了。美國出動了海軍陸戰(zhàn)隊都沒有找到他。作為一個神奇人物,他憑借著對數(shù)據(jù)庫事務的突出貢獻獲得圖靈獎。
8、為了克服剛才所謂的內存墻技術,James Gray曾說過這么一句話:RAM Locality Is King,就是說數(shù)據(jù)和程序行為的局部性才是克服CPU和內存的速度不匹配的終極武器。RAM-Locality設計原則數(shù)據(jù)庫里面主要采用以下幾種技術優(yōu)化性能,一種是列存儲技術。列存儲技術,主要用在OLAP,像MySQL、PG等OLTP型數(shù)據(jù)庫都是用行存儲技術。為什么要用列存儲技術呢?是因為進行數(shù)據(jù)分析的時候,經常會出現(xiàn)寬表或有幾百個字段的表,但通常只需要訪問表中的某一些字段,比如要訪問銷售字段,對銷售字段進行累加,做一個聚集操作。采用列存儲,可以更好地優(yōu)化高速緩存的使用率,減少cache miss,
9、克服內存墻問題。另外就是設計高速緩存友好的數(shù)據(jù)結構或算法。像現(xiàn)在的數(shù)據(jù)庫采用一次一元組的查詢處理方式對程序局部性很不友好。什么叫一次一元組呢?數(shù)據(jù)庫系統(tǒng)的查詢語句,都是翻譯成操作樹。在樹的節(jié)點之間,操作符通過get_next函數(shù)驅動子節(jié)點獲取一條元組,遞歸調用下去,葉子節(jié)點將數(shù)據(jù)返回。函數(shù)的頻繁調用會產生嚴重的cache miss問題,所以現(xiàn)在新型的OLAP系統(tǒng)都是采用向量化查詢執(zhí)行引擎,上層操作符不再是一條一條數(shù)據(jù)地處理了,而是一批一批數(shù)據(jù)處理,減少函數(shù)調用的開銷和上下文的切換以最大化數(shù)據(jù)和程序指令的局部性。此外,hash join也針對cache大小將hash table進行劃分以增強數(shù)據(jù)
10、與指令的數(shù)據(jù)性減少cache miss。一個例子這是針對Cache友好而設計算法的例子。在PG 9.5之前,系統(tǒng)判斷事務活躍性或獲取系統(tǒng)快照時,要用到事務的起始時間、事務ID等。這些字段都放在PGPROC這個結構體里,這個結構體有25個成員,但做可見性判斷時,只需要用到幾個成員就夠了。因此采用這種設計系統(tǒng)會把其它無關字段讀入,污染其它cache line,造成嚴重的cache miss以及Cache浪費問題。所以后面他們就把用于可見性判斷等經常訪問的字段放在另一個結構體里面叫做PGXACT。打了這個補丁之后,在大并發(fā)下這個性能收益是相當客觀的,性能數(shù)據(jù)如圖中右上紅色數(shù)據(jù)所示。因此,針對Memo
11、ry Wall這個問題,設計cache友好的數(shù)據(jù)結構與算法是一個很奏效的方法。避免熱點與簡化臨界區(qū)針對多核的問題,我們還要避免熱點的問題,簡化臨界區(qū)。就像我們經??吹降?,并發(fā)一大,系統(tǒng)性能就掉了下來。這是微軟的內存數(shù)據(jù)庫Hekaton的一個實驗結果。截取了事務在提交時的一個時間戳。這個全局的原子操作都會導致這個性能的問題。但針對MySQL、PG這兩種數(shù)據(jù)庫,性能問題還遠遠輪不到像類似于這種原子操作來引發(fā)。這就是我剛才所提到的問題,我們的磁盤數(shù)據(jù)庫的設計原則是優(yōu)化磁盤IO。事務在提交時,不需要刷臟,以避免隨機IO。我們有一個專門的術語,叫做No force,也就是說事務提交時,不用去刷臟頁,但系
12、統(tǒng)會把日志先刷下去。它這種集中式的設計,很容易導致性能的問題。針對更新密集型的工作負載,這個模塊的性能問題更加突出。傳統(tǒng)的先寫日志的算法(Write-ahead Logging),PG也好、MySQL也好,一般分為三個步驟,首先獲取一把大鎖,保護shared Log Buffer的這個數(shù)據(jù)結構;然后把日志記錄拷貝到相應的日志緩沖區(qū);最后釋放這把鎖。這是最傳統(tǒng)的做法。我們現(xiàn)在也跟社區(qū)里面去探討了是否可以廢棄集中式設計,采用分布式日志的問題。就是不采用一個日志管理器,轉而使用多個Log Buffer同時把日志序列號改成邏輯時間戳。在PG9.4版本以前,就采用剛才那么一個粗放的形式,加一把大鎖,然后
13、臨界區(qū)里面進行搗鼓,例如長度計算、拷貝日志、一些邊界檢查等。這個臨界區(qū)的代碼大概有300行左右。但后來他們發(fā)現(xiàn)這個模塊的性能問題實在太嚴重了。解決的方法是把日志文件抽象成線性長度,寫入日志時把位置預留出來。位置確定以后就把鎖放掉,因為系統(tǒng)知道往哪里去寫入數(shù)據(jù),根本就不需要把日志拷過去再放鎖。并且事務之間可以并行地去拷貝日志。優(yōu)化以后,性能提升了大概20%到30%左右,PG社區(qū)里面有相應的測試報告。注:更多分布式日志可讀我在社群發(fā)表過的另一篇文章 HYPERLINK /s?_biz=MzI4NTA1MDEwNg=&mid=2650763636&idx=1&sn=4661fff7910856eac
14、075ff22c86b231c&chksm=f3f9c4e1c48e4df7eaa8f9374cdb1fe1ce25fbafd4283c4985fbad23ee21e12075b3b261f20b&scene=21 l wechat_redirect t _blank 用分布式日志優(yōu)化單機數(shù)據(jù)庫系統(tǒng)將成未來標配?鎖管理器(鎖申請)另外一種是數(shù)據(jù)庫里邏輯鎖的問題。數(shù)據(jù)庫里面的加鎖,是通過一個哈希表實現(xiàn)的,表里面的維護有很多鎖的信息。這個鎖其實就是一個標記,例如要加一個行鎖,就把這個鎖的Table ID、Row ID拿過來作為key,然后哈希到這個鎖表里。同時標記這個鎖屬于哪種類型,是共享鎖還是排
15、他鎖等。但在大并發(fā)或沖突比較嚴重的情況下,這個鎖表是會引發(fā)問題的。因為它是一個共享的數(shù)據(jù)結構,很多事務都要跟鎖表打交道,頻繁地加鎖以及釋放鎖引發(fā)熱點問題。PG 9.2采用了繼承鎖技術,把共享表級鎖緩存在本地,然后在事務之間傳遞,不用把共享表鎖歸還給鎖管理器,減少跟共享的數(shù)據(jù)結構的交互,提高系統(tǒng)的并發(fā)性。面向新型存儲的數(shù)據(jù)庫系統(tǒng)接下來我們來探討一下面向新型存儲的數(shù)據(jù)庫系統(tǒng)。底層的存儲變了,數(shù)據(jù)庫系統(tǒng)架構各方面肯定都要去改變。這里我做了一下總結,NVRAM具有的六個主要特性:一種是可字節(jié)尋址,它的行為模式就相當于內存,可以字節(jié)尋址,而不再像磁盤采用Block尋址了,然后是閑時低功耗、使用壽命長、非
16、易失性、存儲容量大、快速地隨機讀寫。目前而言,NVRAM接入DBMS主要有三種方式,最左邊的是我們傳統(tǒng)的數(shù)據(jù)庫系統(tǒng)架構,維護兩個Buffer,一個是Log Buffer,另外一個是Data Buffer。Log Buffer是事務日志集中寫入的內存區(qū)域;DATA Buffer用于緩存數(shù)據(jù)頁,事務訪問數(shù)據(jù)時首先在這個buffer里面尋找所需的數(shù)據(jù)。MySQL里面的Buffer Pull就是指這個DATA Buffer。第一種接入方式就是我們可以直接把它作為磁盤的替代直接拿過來,數(shù)據(jù)庫系統(tǒng)軟件不需要改動。這種方式當然是可以獲得收益,因為底層I/O速度變快了,但沒有發(fā)揮它最大的收益,軟件的復雜度還是
17、在那里,不多不少。第二種是作為日志的存儲,現(xiàn)在大家使用的機器內存都很大了,我們的I/O基本上發(fā)生在一個地方,就是寫日志。為了不丟數(shù)據(jù),日志是必須落盤的。把NVRAM作為日志存儲的設備,可以用比較小的代價獲得比較好的收益,第二種接入方式就是把它作為日志存儲,而設計相應的算法與優(yōu)化臨界區(qū)。第三種方式,是全系統(tǒng)接入的,系統(tǒng)經過全面的改造,把數(shù)據(jù)放在NVRAM。這個可以跟第二種接入方式對比一下,系統(tǒng)不再維護Log Buffer這個數(shù)據(jù)結構,完全被廢棄掉。write-behind loggingCMU在VLDB 2017剛剛發(fā)表的研究稱之為,write-behind logging,就是NVRAM全系統(tǒng)
18、接入的一種方式。他們的idea是,write-ahead Logging是磁盤時代的算法,現(xiàn)在我不用先寫日志了。先寫日志的問題就是數(shù)據(jù)庫系統(tǒng)宕掉以后,可能需要很長時間地去恢復。它為了避免隨機IO不將數(shù)據(jù)刷盤,轉而順序寫出日志。系統(tǒng)恢復時要先拿到一個檢查點,然后從檢查點開始去掃描日志,把日志記錄拿出來,一條條地重放。數(shù)據(jù)量大的時候,這是相當耗時的一個工作。他們針對NVRAM提出一個新算法稱之為write-behind Logging,就是事務提交的時候,直接把臟頁寫入NVRAM(因為NVRAM的隨機IO也是相當快的)。臟頁刷盤以后,再去寫日志。他們所設計的日志記錄是這樣子,不用再去構造什么After-image,直接就寫上事務提交的時間區(qū)間(Cp,Cd)就行了。小于CP這個時間點的事務都已經提交了,而落在這個時間區(qū)間(Cp,Cd)里面的事務,就是還沒有提交的。在事務恢復的時候,系統(tǒng)知道這個時間區(qū)間的事務沒有提交,對其它事務不可見。系統(tǒng)沒有必要去進行Redo操作了,因為數(shù)據(jù)都已經持久化。系統(tǒng)崩潰恢復時,需要一趟掃描日志,建立崩潰時候的時間區(qū)間(檢點可以減少需要掃描的日志量)。建立這個時間窗口相當于undo操作。TPC-C benchmark他們對采用不用算法的系統(tǒng)的恢復時間做了一個比較,可以看到write-behind Logging的恢復時間,大概可以
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年Excel高效辦公技巧與策略
- 2024年未來教室:《拿來主義》教學課件的智能化實踐
- 2024年人力資源管理教案升級指南
- 《島》讀后感:2024年社會形態(tài)的演變
- 2024年PCCAD軟件升級培訓-賦能創(chuàng)造力拓展想象邊界
- 河北省秦皇島市(2024年-2025年小學五年級語文)人教版綜合練習(上學期)試卷及答案
- 科目二五項記憶口訣表-駕考實操
- 創(chuàng)意與學術的碰撞:《孔乙己》探究
- 2024年春季服裝構思原理探索
- 面向2024:《黃河落日》教學課件升級策略
- 計算機圖形學文獻綜述
- QC080000-2017標準講解培訓教材
- 鋼板樁支護工程監(jiān)理實施細則
- 中考150個實詞(供默寫)
- Module 5 外研版英語九(上)模塊主題寫作詳解與訓練
- 第二章攪拌摩擦焊
- 內分泌科醫(yī)師培養(yǎng)細則
- 蛋白質與酶工程復習題 金
- 五金件通用檢驗標準
- kummell 病ppt課件
- 小班綜合活動《出生的秘密》
評論
0/150
提交評論