《大數(shù)據(jù)與云計算》課件-14.hive_第1頁
《大數(shù)據(jù)與云計算》課件-14.hive_第2頁
《大數(shù)據(jù)與云計算》課件-14.hive_第3頁
《大數(shù)據(jù)與云計算》課件-14.hive_第4頁
《大數(shù)據(jù)與云計算》課件-14.hive_第5頁
已閱讀5頁,還剩23頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

大數(shù)據(jù)與云計算智能建造技術(shù)專業(yè)資源庫知識點“象蜂”神物初識hive3Hive架構(gòu)原理4Hive和數(shù)據(jù)庫比較1什么是Hive2Hive的優(yōu)缺點Hive簡介Hive是由Facebook開發(fā)的數(shù)據(jù)倉庫工具,用于解決海量結(jié)構(gòu)化日志的數(shù)據(jù)統(tǒng)計。后來貢獻給了apacher,成了其一個開源項目。Hive簡介一、什么是HiveHive是基于Hadoop的一個數(shù)據(jù)倉庫工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張表(用Metastore服務(wù)),并提供類SQL查詢功能(hiveserver2服務(wù))。

本質(zhì)是:將HQL轉(zhuǎn)化成MapReduce程序Hive處理的數(shù)據(jù)存儲在HDFSHive分析數(shù)據(jù)底層的實現(xiàn)是MapReduceHive簡介一、什么是Hive優(yōu)點操作接口采用類SQL語法,提供快速開發(fā)的能力(簡單、容易上手)01避免了去寫MapReduce,減少開發(fā)人員的學(xué)習(xí)成本。02Hive的執(zhí)行延遲比較高,因此Hive常用于數(shù)據(jù)分析,針對實時性要求不高的場合;03Hive優(yōu)勢在于處理大數(shù)據(jù),對于處理小數(shù)據(jù)沒有優(yōu)勢,因為Hive的執(zhí)行延遲比較高。04Hive支持用戶自定義函數(shù),用戶可以根據(jù)自己的需求來實現(xiàn)自己的函數(shù)。05Hive簡介二、Hive的優(yōu)缺點缺點Hive簡介二、Hive的優(yōu)缺點Hive的HQL表達能力有限迭代式算法無法表達數(shù)據(jù)挖掘方面不擅長Hive的效率比較低Hive自動生成的MapReduce作業(yè),通常情況下不夠智能化Hive調(diào)優(yōu)比較困難,粒度較粗Hive簡介三、Hive架構(gòu)原理

如圖中所示,Hive通過給用戶提供的一系列交互接口,接收到用戶的指令(SQL),使用自己的Driver,結(jié)合元數(shù)據(jù)(MetaStore),將這些指令翻譯成MapReduce,提交到Hadoop中執(zhí)行,最后,將執(zhí)行返回的結(jié)果輸出到用戶交互接口。用戶接口:ClientCLI(hiveshell)、JDBC/ODBC(java訪問hive)、WEBUI(瀏覽器訪問hive)元數(shù)據(jù):Metastore元數(shù)據(jù)包括:表名、表所屬的數(shù)據(jù)庫(默認是default)、表的擁有者、列/分區(qū)字段、表的類型(是否是外部表)、表的數(shù)據(jù)所在目錄等;默認存儲在自帶的derby數(shù)據(jù)庫中,推薦使用MySQL存儲MetastoreHadoop使用HDFS進行存儲,使用MapReduce進行計算。驅(qū)動器:Driver包括解釋器、編譯器、優(yōu)化器、執(zhí)行器,將Hive語句翻譯成MapReduce操作。Hive簡介三、Hive架構(gòu)原理Hive簡介四、Hive和數(shù)據(jù)庫比較Hive簡介四、Hive和數(shù)據(jù)庫比較2Hive的優(yōu)缺點3Hive架構(gòu)原理1什么是Hive4Hive和數(shù)據(jù)庫比較課程總結(jié)Hive簡介思考:Hive的特點?Hive與傳統(tǒng)數(shù)據(jù)庫的區(qū)別?知識點強勁靈活hive身手初探3Hive的訪問接口1Hive的安裝2Hive的部署Hive入門Hive官網(wǎng)地址:/Hive入門一、Hive的安裝Hive入門一、Hive的安裝先決條件:搭建好三節(jié)點的Hadoop集群在一個節(jié)點服務(wù)器上安裝好MySQL服務(wù)Hive軟件包下載解壓軟件包到指定的目錄修改環(huán)境變量啟動Hadoop集群、啟動MySQl服務(wù)、啟動Hive按Metastore存儲位置的不同,其部署模式分為內(nèi)嵌模式、本地模式和完全遠程模式三種。Hive入門一、Hive的部署Hive入門二、Hive部署1、內(nèi)嵌模式此模式是安裝時的默認部署模式,此時元數(shù)據(jù)存儲在一個內(nèi)存數(shù)據(jù)庫Derby中,并且所有組件(如數(shù)據(jù)庫、元數(shù)據(jù)服務(wù))都運行在同一個進程內(nèi),這種模式下,一段時間內(nèi)只支持一個活動用戶。由于內(nèi)嵌模式時,Hive相當(dāng)于Hadoop的一個客戶端,因此只要在iClient上部署即可。(1)下載并安裝Hive。(2)HDFS里新建Hive存儲目錄。只需上述兩步就可以直接使用Hive了,當(dāng)然,也可以使用jps命令查看Hive進程。Hive入門二、Hive部署2、本地模式此模式是Hive元數(shù)據(jù)服務(wù)依舊運行在Hive服務(wù)主進程中,但元數(shù)據(jù)存儲在獨立數(shù)據(jù)庫中(可以是遠程機器),當(dāng)涉及元數(shù)據(jù)操作時,Hive服務(wù)中的元數(shù)據(jù)服務(wù)模塊會通過JDBC和存儲于DB里的元數(shù)據(jù)數(shù)據(jù)庫交互。Hive入門二、Hive部署Hive入門二、Hive部署3、完全遠程模式

元數(shù)據(jù)服務(wù)以獨立進程運行,并且元數(shù)據(jù)存儲在一個獨立的數(shù)據(jù)庫里。

這是典型的網(wǎng)站架構(gòu)模式,前臺頁面給出查詢語句,中間層使用Thrift網(wǎng)絡(luò)API將查詢傳到Metastoreservice,接著Metastoreservice根據(jù)查詢得出相應(yīng)結(jié)果,并給出回應(yīng)。Hive入門Hive提供了三種客戶端訪問接口:HiveCLI(HiveCommandLine,Hive命令行),客戶端可以直接在命令行模式下進行操作。hwi(HiveWebInterface,HiveWeb接口),Hive提供了更直觀的Web界面??蛻舳朔绞剑篐ive提供了Thrift服務(wù),Thrift客戶端目前支持C++/Java/PHP/Python/Ruby。三、Hive接口Hive入門進入Hive命令行接口,獲取Hive函數(shù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論