大數(shù)據(jù)與云計(jì)算-雷99課件講解_第1頁(yè)
大數(shù)據(jù)與云計(jì)算-雷99課件講解_第2頁(yè)
大數(shù)據(jù)與云計(jì)算-雷99課件講解_第3頁(yè)
大數(shù)據(jù)與云計(jì)算-雷99課件講解_第4頁(yè)
大數(shù)據(jù)與云計(jì)算-雷99課件講解_第5頁(yè)
已閱讀5頁(yè),還剩21頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

主講人:雷明大數(shù)據(jù)與云計(jì)算知識(shí)點(diǎn)HBASE數(shù)據(jù)庫(kù)入門(mén)3hbase與分布式文件系統(tǒng)hdfs的區(qū)別1hbase的結(jié)構(gòu)2hbase的特性HBASE數(shù)據(jù)庫(kù)入門(mén)HBase本質(zhì)上是一個(gè)稀疏、多維度、排序的映射表,這張表的索引是行鍵、列族、列限定符和時(shí)間戳。hbase的結(jié)構(gòu)用戶(hù)在表中存儲(chǔ)數(shù)據(jù),每一行都有一個(gè)可排序的行鍵和任意多的列。表中的值是未經(jīng)解釋的字符串,沒(méi)有數(shù)據(jù)類(lèi)型。行鍵列族

cf1列族

cf2列限定符3個(gè)時(shí)間戳有些列的值是空的,所以HBase是稀疏的hbase的結(jié)構(gòu)邏輯視圖vs.物理視圖hbase的結(jié)構(gòu)關(guān)系型數(shù)據(jù)庫(kù)當(dāng)中要修改表的結(jié)構(gòu)就是很復(fù)雜的一件事,比如增加一個(gè)字段。舉個(gè)例子來(lái)說(shuō),如果我們的成績(jī)表當(dāng)中忘記了計(jì)算機(jī)成績(jī)這一列,你都錄入了一大半數(shù)據(jù)才發(fā)現(xiàn),這個(gè)時(shí)候你要先修改表的結(jié)構(gòu)增加一列,然后在一行一行的輸入每個(gè)同學(xué)的計(jì)算機(jī)成績(jī)。如果是hbase就簡(jiǎn)單了,我把這一列直接擴(kuò)充到hbase里面就可以了。hbase的結(jié)構(gòu)29列族支持動(dòng)態(tài)擴(kuò)展,可以很輕松地添加一個(gè)列族或列,無(wú)需預(yù)先定義列的數(shù)量以及類(lèi)型,所有列均以字符串形式存儲(chǔ),用戶(hù)需要自行進(jìn)行數(shù)據(jù)類(lèi)型轉(zhuǎn)換。hbase的結(jié)構(gòu)HBase中執(zhí)行更新操作時(shí),并不會(huì)刪除數(shù)據(jù)舊的版本,而是生成一個(gè)新的版本,舊有的版本仍然保留。若不提供時(shí)間戳則默認(rèn)返回最新版本。數(shù)據(jù)是按照時(shí)間戳順序存儲(chǔ)的,客戶(hù)端可以選擇獲取距離某個(gè)時(shí)間最近的版本,或者獲取所有版本。表:HBase采用表來(lái)組織數(shù)據(jù),表由行和列組成,列劃分為若干個(gè)列族hbase的結(jié)構(gòu)行:每個(gè)HBase表都由若干行組成,每個(gè)行由行鍵(row

key)來(lái)標(biāo)識(shí)。列族:一個(gè)HBase表被分組成許多“列族”(Column

Family)的集合,它是基本的訪問(wèn)控制單元列限定符:列族里的數(shù)據(jù)通過(guò)列限定符(或列)來(lái)定位hbase的結(jié)構(gòu)單元格:在HBase表中,通過(guò)行、列族和列限定符確定一個(gè)“單元格”(cell),單元格中存儲(chǔ)的數(shù)據(jù)沒(méi)有數(shù)據(jù)類(lèi)型,總被視為字節(jié)數(shù)組byte[

]時(shí)間戳:每個(gè)單元格都保存著同一份數(shù)據(jù)的多個(gè)版本,這些版本采用時(shí)間戳進(jìn)行索引HBase中需要根據(jù)行鍵、列族、列限定符和時(shí)間戳來(lái)確定一個(gè)單元格,因此可視為一個(gè)“四維坐標(biāo)”[行鍵,列族,列限定符,時(shí)間戳];如果把坐標(biāo)看成“鍵”,單元格數(shù)據(jù)看成“值”,HBase也可看成一個(gè)鍵值數(shù)據(jù)庫(kù)。hbase的結(jié)構(gòu)為空的列并不占用存儲(chǔ)空間,表可以設(shè)計(jì)的非常稀疏稀疏性每一列存儲(chǔ)的數(shù)據(jù)可以有多個(gè)version。多版本單表可以有百億行、百萬(wàn)列,數(shù)據(jù)矩陣橫向和縱向兩個(gè)維度所支持的數(shù)據(jù)量級(jí)都非常具有彈性。數(shù)據(jù)容量大HBase特性讀寫(xiě)強(qiáng)一致,非“最終一致性”的數(shù)據(jù)存儲(chǔ),使得它非常適合高速的計(jì)算聚合。自動(dòng)分片,通過(guò)Region分散在集群中,當(dāng)行數(shù)增長(zhǎng)的時(shí)候,Region也會(huì)自動(dòng)的切分和再分配。Hadoop/HDFS集成,和HDFS開(kāi)箱即用,不用太麻煩的銜接。擴(kuò)展性強(qiáng),只需要增加DataNode就可以增加存儲(chǔ)空間。HBase特性豐富的“簡(jiǎn)潔,高效”API(應(yīng)用程序接口),提供了Thrift/RESTAPI,JavaAPI等方式對(duì)HBase進(jìn)行訪問(wèn)。塊緩存,布隆過(guò)濾器,可以高效的列查詢(xún)優(yōu)化。操作管理,Hbase提供了內(nèi)置的web界面來(lái)操作,還可以監(jiān)控JMX指標(biāo)。高可靠,保證了系統(tǒng)的容錯(cuò)能力,WAL機(jī)制使得數(shù)據(jù)寫(xiě)入時(shí)不會(huì)因?yàn)榧寒惓6鴮?dǎo)致寫(xiě)入數(shù)據(jù)丟失。故HBase選擇了CAP中的CP。HBase特性面向列的存儲(chǔ)和權(quán)限控制,并支持獨(dú)立檢索,可以動(dòng)態(tài)的增加列。列式存儲(chǔ):其數(shù)據(jù)在表中是按照某列存儲(chǔ)的,這樣在查詢(xún)只需要少數(shù)幾個(gè)字段的時(shí)候,能大大減少讀取的數(shù)據(jù)量。高性能:具備海量數(shù)據(jù)的隨機(jī)訪問(wèn)和實(shí)時(shí)讀寫(xiě)能力。HBase特性分布式文件系統(tǒng)(HDFS)是指文件系統(tǒng)管理的物理存儲(chǔ)資源不僅存儲(chǔ)在本地節(jié)點(diǎn)上,還可以通過(guò)網(wǎng)絡(luò)連接存儲(chǔ)在非本地節(jié)點(diǎn)上。計(jì)算機(jī)集群的基本架構(gòu)HBase與HDFS的區(qū)別HBase與HDFS的區(qū)別

分布式文件系統(tǒng)改變了數(shù)據(jù)存儲(chǔ)和管理方式,相對(duì)于本地文件系統(tǒng)具有很存儲(chǔ)和管理分布式多優(yōu)勢(shì):低成本易擴(kuò)展強(qiáng)可靠高可用1

用戶(hù)無(wú)需關(guān)心數(shù)據(jù)是存儲(chǔ)在哪個(gè)節(jié)點(diǎn)上,可以如同使用本地文件系統(tǒng)一樣文件系統(tǒng)里的數(shù)據(jù)。2HDFS優(yōu)點(diǎn)HDFS是面向批量的訪問(wèn)模式,其類(lèi)型為文件系統(tǒng),存儲(chǔ)的是文件類(lèi)型的數(shù)據(jù)。HBase與HDFS的區(qū)別HBase是面向隨機(jī)訪問(wèn)和實(shí)時(shí)讀寫(xiě)模式,其類(lèi)型為數(shù)據(jù)庫(kù)服務(wù),存儲(chǔ)的是非結(jié)構(gòu)化和半結(jié)構(gòu)化的松散數(shù)據(jù)。HBase使用HDFS作為底層的文件系統(tǒng),HBase的數(shù)據(jù)最終會(huì)寫(xiě)到HDFS中。就像其他的數(shù)據(jù)庫(kù)一樣,真正的數(shù)據(jù)是存儲(chǔ)在操作系統(tǒng)里的文件系統(tǒng)中的。HDFS是文件系統(tǒng),Hbase是數(shù)據(jù)庫(kù)。你可以把Hbase當(dāng)做是MySQL,把HDFS當(dāng)做是硬盤(pán)。Hbase只是一個(gè)NoSQL數(shù)據(jù)庫(kù),數(shù)據(jù)時(shí)存放在HDFS上的,Hbase在HDFS上提供了高并發(fā)的隨機(jī)寫(xiě)和支持實(shí)時(shí)查詢(xún),這是HDFS不具備的。HBase與HDFS的區(qū)別原生的ApacheHadoopCDH:ClouderaDistributedHadoopHDP:HortonworksDataPlatformHBase屬于Hadoop生態(tài)體系,所以HBase的版本選擇實(shí)際就是Hadoop的版本選擇。而Hadoop就像Linux一樣,也有多個(gè)發(fā)行版,常用發(fā)行版有以下幾種:HBase版本鏈接到客戶(hù)端的庫(kù)函數(shù)一個(gè)Master主服務(wù)器許多個(gè)Region服務(wù)器HBase的主要的功能組件HBase中的表根據(jù)Rowkey的值被水平劃分成多個(gè)分區(qū)(Region),分區(qū)會(huì)被分發(fā)存儲(chǔ)到不同的分區(qū)服務(wù)器上。HBase的主要的功能組件主服務(wù)器Master負(fù)責(zé)管理和維護(hù)HBase表的分區(qū)信息,維護(hù)Region服務(wù)器列表,分配Region,負(fù)載均衡,以及處理Schema的變化,如表和列族的創(chuàng)建。HBase的主要的功能組件Region服務(wù)器負(fù)責(zé)存儲(chǔ)和維護(hù)分配給自己的Region,處理來(lái)自客戶(hù)端的讀寫(xiě)請(qǐng)求。分區(qū)定位HBase的主要的功能組件元數(shù)據(jù)表,又名.META.表,存儲(chǔ)了Region和RegionServer的映射關(guān)系??蛻?hù)端訪問(wèn)數(shù)據(jù)之前,需要首先訪問(wèn)Zookeeper獲取.META.表的信息,接著訪問(wèn).META.表,找到所需分區(qū)的具體位置,最后到對(duì)應(yīng)的分區(qū)服務(wù)器讀取數(shù)據(jù)。為加速尋址,客戶(hù)端會(huì)把查詢(xún)過(guò)的位置信息在本地緩存。1本節(jié)介紹了分布式數(shù)據(jù)庫(kù)Hbase的表結(jié)構(gòu)2HBas

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論