大數(shù)據(jù)技術(shù)與應(yīng)用項目Hive環(huán)境搭建原理_第1頁
大數(shù)據(jù)技術(shù)與應(yīng)用項目Hive環(huán)境搭建原理_第2頁
大數(shù)據(jù)技術(shù)與應(yīng)用項目Hive環(huán)境搭建原理_第3頁
大數(shù)據(jù)技術(shù)與應(yīng)用項目Hive環(huán)境搭建原理_第4頁
大數(shù)據(jù)技術(shù)與應(yīng)用項目Hive環(huán)境搭建原理_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)技術(shù)與應(yīng)用項目——Hive環(huán)境搭建原理

項目來自北京諾程佳華教育科技有限公司教學(xué)目標(biāo)熟悉Hive的相關(guān)基本概念;熟悉Hive的環(huán)境搭建。

Hive環(huán)境搭建定義

hive是基于Hadoop的一個數(shù)據(jù)倉庫工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表,并提供簡單的sql查詢功能,可以將sql語句轉(zhuǎn)換為MapReduce任務(wù)進(jìn)行運(yùn)行。其優(yōu)點(diǎn)是學(xué)習(xí)成本低,可以通過類SQL語句快速實現(xiàn)簡單的MapReduce統(tǒng)計,不必開發(fā)專門的MapReduce應(yīng)用,十分適合數(shù)據(jù)倉庫的統(tǒng)計分析。

Hive環(huán)境搭建原理

Hive可以在HDFS上構(gòu)建數(shù)據(jù)倉庫來存儲結(jié)構(gòu)化的數(shù)據(jù),這些數(shù)據(jù)來源于HDFS上的原始數(shù)據(jù),hive提供了類似于SQL的查詢語言HiveQL,可以執(zhí)行查詢、變換數(shù)據(jù)等操作。通過解析,HiveQL語句在底層被轉(zhuǎn)換為相應(yīng)的MapReduce操作。它還提供了一系列的工具進(jìn)行數(shù)據(jù)提取轉(zhuǎn)化加載,用來存儲、查詢和分析存儲在Hadoop中的大規(guī)模數(shù)據(jù)集,并支持UDF、UDAF和UDTF,也可以實現(xiàn)對map和reduce函數(shù)的定制,為數(shù)據(jù)操作提供了良好的伸縮性和可擴(kuò)展性。

Hive環(huán)境搭建原理包括hiveshell、Thrift客戶端、Web管理用戶接口Thrift服務(wù)器元數(shù)據(jù)庫解析器當(dāng)hive以服務(wù)器模式運(yùn)行時,可以作為Thrift服務(wù)器,供客戶端連接通常存儲在關(guān)系型數(shù)據(jù)庫MySQL、Derby中包括編輯器、編譯器、優(yōu)化器、執(zhí)行器,通過這一系列的處理對HiveQL查詢語句的詞法分析、語法分析、編譯、優(yōu)化以及查詢計劃的生成。

hive包括用戶接口、元數(shù)據(jù)庫、解析器和數(shù)據(jù)倉庫等組件。Hadoop數(shù)據(jù)倉庫和查詢計劃存儲在HDFS上,計算過程由MapReduce執(zhí)行。

Hive環(huán)境搭建原理

Hive與SQL的比較1)查詢語言hive使用類SQL的HQLsql使用sql2)數(shù)據(jù)存儲位置hive是將數(shù)據(jù)存儲在HDFS中sql可以將數(shù)據(jù)保存在塊設(shè)備或者本地文件系統(tǒng)中

Hive與SQL的比較3)數(shù)據(jù)格式Hive中沒有定義專門的數(shù)據(jù)格式,數(shù)據(jù)格式可以由用戶指定,用戶定義數(shù)據(jù)格式需要指定三個屬性:列分隔符(通常為空格、”\t”、”\x001″)、行分隔符(”\n”)以及讀取文件數(shù)據(jù)的方法(Hive中默認(rèn)有三個文件格式TextFile,SequenceFile以及RCFile)數(shù)據(jù)庫中,不同的數(shù)據(jù)庫有不同的存儲引擎,定義了自己的數(shù)據(jù)格式

Hive與SQL的比較4)數(shù)據(jù)更新Hive中不支持對數(shù)據(jù)的改寫和添加,所有的數(shù)據(jù)都是在加載的時候中確定好的sql支持?jǐn)?shù)據(jù)更新5)執(zhí)行延遲hive延遲性高sql延遲性低

Hive與SQL的比較6)擴(kuò)展性

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論