hadoop-技術(shù)基礎(chǔ)學(xué)習(xí)資料_第1頁(yè)
hadoop-技術(shù)基礎(chǔ)學(xué)習(xí)資料_第2頁(yè)
hadoop-技術(shù)基礎(chǔ)學(xué)習(xí)資料_第3頁(yè)
hadoop-技術(shù)基礎(chǔ)學(xué)習(xí)資料_第4頁(yè)
hadoop-技術(shù)基礎(chǔ)學(xué)習(xí)資料_第5頁(yè)
已閱讀5頁(yè),還剩15頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

HADOOPHadoop概述一Hadoop生態(tài)圈Hadoop構(gòu)架主要組成部分及介紹123目錄1Hadoop是一個(gè)實(shí)現(xiàn)了MapReduce計(jì)算模型的開源分布式并行編程框架,程序員可以借助Hadoop編寫程序,將所編寫的程序運(yùn)行于計(jì)算機(jī)機(jī)群上,從而實(shí)現(xiàn)對(duì)海量數(shù)據(jù)的處理。Hadoop還提供一個(gè)分布式文件系統(tǒng)(HDFS)及分布式數(shù)據(jù)庫(kù)(HBase)用來將數(shù)據(jù)存儲(chǔ)或部署到各個(gè)計(jì)算節(jié)點(diǎn)上。所以,可以大致認(rèn)為:Hadoop=HDFS(文件系統(tǒng),數(shù)據(jù)存儲(chǔ)技術(shù)相關(guān)) +HBase(數(shù)據(jù)庫(kù)) +MapReduce(數(shù)據(jù)處理)Hadoop構(gòu)架分析2Hadoop主要由HDFS、MapReduce、Hive和HBase等組成。Hadoop組成部分31、HadoopHDFS是GoogleGFS存儲(chǔ)系統(tǒng)的開源實(shí)現(xiàn),主要應(yīng)用場(chǎng)景是作為并行計(jì)算環(huán)境(MapReduce)的基礎(chǔ)組件,同時(shí)也是BigTable(如HBase、HyperTable)的底層分布式文件系統(tǒng)。HDFS采用master/slave架構(gòu)。一個(gè)HDFS集群是有由一個(gè)Namenode和一定數(shù)目的Datanode組成。Namenode是一個(gè)中心服務(wù)器,負(fù)責(zé)管理文件系統(tǒng)的namespace和客戶端對(duì)文件的訪問。Datanode在集群中一般是一個(gè)節(jié)點(diǎn)一個(gè),負(fù)責(zé)管理節(jié)點(diǎn)上它們附帶的存儲(chǔ)。在內(nèi)部,一個(gè)文件其實(shí)分成一個(gè)或多個(gè)block,這些block存儲(chǔ)在Datanode集合里。Hadoop主要由HDFS、MapReduce、Hive和HBase等組成。Hadoop組成部分32、HadoopMapReduce是一個(gè)使用簡(jiǎn)易的軟件框架,基于它寫出來的應(yīng)用程序能夠運(yùn)行在由上千個(gè)商用機(jī)器組成的大型集群上,并以一種可靠容錯(cuò)的方式并行處理上TB級(jí)別的數(shù)據(jù)集。

一個(gè)MapReduce作業(yè)(job)通常會(huì)把輸入的數(shù)據(jù)集切分為若干獨(dú)立的數(shù)據(jù)塊,由Map任務(wù)(task)以完全并行的方式處理它們。

框架會(huì)對(duì)Map的輸出先進(jìn)行排序,然后把結(jié)果輸入給Reduce任務(wù)。通常作業(yè)的輸入和輸出都會(huì)被存儲(chǔ)在文件系統(tǒng)中。整個(gè)框架負(fù)責(zé)任務(wù)的調(diào)度和監(jiān)控,以及重新執(zhí)行已經(jīng)失敗的任務(wù)。Hadoop主要由HDFS、MapReduce、Hive和HBase等組成。Hadoop組成部分33、Hive是基于Hadoop的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具,處理能力強(qiáng)而且成本低廉。主要特點(diǎn):

存儲(chǔ)方式是將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫(kù)表。提供類SQL語(yǔ)言,實(shí)現(xiàn)完整的SQL查詢功能??梢詫QL語(yǔ)句轉(zhuǎn)換為MapReduce任務(wù)運(yùn)行,十分適合數(shù)據(jù)倉(cāng)庫(kù)的統(tǒng)計(jì)分析。Hadoop主要由HDFS、MapReduce、Hive和HBase等組成。Hadoop組成部分34、HBase是一個(gè)分布式的、面向列的開源數(shù)據(jù)庫(kù),它不同于一般的關(guān)系數(shù)據(jù)庫(kù),是一個(gè)適合于非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)庫(kù)。

另一個(gè)不同的是HBase基于列的而不是基于行的模式。

HBase使用和BigTable非常相同的數(shù)據(jù)模型。用戶存儲(chǔ)數(shù)據(jù)行在一個(gè)表里。一個(gè)數(shù)據(jù)行擁有一個(gè)可選擇的鍵和任意數(shù)量的列,一個(gè)或多個(gè)列組成一個(gè)ColumnFamily,一個(gè)Fmaily下的列位于一個(gè)HFile中,易于緩存數(shù)據(jù)。

表是疏松的存儲(chǔ)的,因此用戶可以給行定義各種不同的列。在HBase中數(shù)據(jù)按主鍵排序,同時(shí)表按主鍵劃分為多個(gè)Hregion。Hadoop使用二登陸Hadoop集群Hadoop建表數(shù)據(jù)查詢及導(dǎo)出Hadoop的hdfs命令1234目錄2HOSTNAME133.128.88.200PORT22USERNAMEhadoop1登錄hadoop集群或者通過其他機(jī)器跳轉(zhuǎn)到133.128.88.200下sshhadoop@hadoop-m01或sshhadoop@133.128.88.200鍵入回車,輸入密碼。通過hive命令登陸數(shù)據(jù)庫(kù)showdatabases;顯示當(dāng)前的所有數(shù)據(jù)庫(kù)(同oracle數(shù)據(jù)庫(kù)的用戶);1usedw;切換數(shù)據(jù)庫(kù);登錄hadoop集群showfunctions;顯示所有的函數(shù);showtables;查看當(dāng)前數(shù)據(jù)庫(kù)下所有的表;showtables'*tg*';模糊匹配當(dāng)前數(shù)據(jù)庫(kù)下所有的表;CREATEEXTERNALTABLE`tg_cdr_noinfo_fix_d`(

`call_duration`int,`otherfee`double,`source_type`string,`cycle_tag`string)PARTITIONEDBY(`day_part`string)ROWFORMATDELIMITEDFIELDSTERMINATEDBY','STOREDASINPUTFORMAT'org.apache.hadoop.mapred.TextInputFormat'OUTPUTFORMAT'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'LOCATION'hdfs://beh/data/stage2/tg_cdr_noinfo_fix_d'TBLPROPERTIES('last_modified_by'='hadoop','last_modified_time'='1464585329','transient_lastDdlTime'='1464585329')創(chuàng)建外部表2Hadoop建表字段類型表名表分區(qū)CREATETABLE`dwa_v_d_cus_cb_sing_use_add`(

`day_id`stringCOMMENT'日期',`area_id`stringCOMMENT'地市',`city_id`stringCOMMENT'區(qū)縣',`user_id`stringCOMMENT'訂購(gòu)實(shí)例標(biāo)識(shí)',`toll_nums`doubleCOMMENT'本地長(zhǎng)途次數(shù)',`use_status`stringCOMMENT'用戶使用類型dim.dim_4G_use_status')COMMENT'cBSS業(yè)務(wù)單用戶累計(jì)使用衍生信息(日)(從入網(wǎng)開始)'PARTITIONEDBY(`day_part`string)ROWFORMATDELIMITEDFIELDSTERMINATEDBY','STOREDASINPUTFORMAT'org.apache.hadoop.hive.ql.io.RCFileInputFormat'OUTPUTFORMAT'org.apache.hadoop.hive.ql.io.RCFileOutputFormat'LOCATION'hdfs://beh/user/hive/warehouse/dw.db/dwa_v_d_cus_cb_sing_use_add'TBLPROPERTIES('transient_lastDdlTime'='1461115949');創(chuàng)建表2Hadoop建表字段類型及注釋表名表注釋表分區(qū)表的相關(guān)命令showcreatetabledw.dwa_v_d_cus_cb_sing_use_add;查詢建表腳本;3showpartitionsdw.dw_v_u_k_cdr_gprs_cb;查看表分區(qū)數(shù)據(jù)查詢及導(dǎo)出select*fromdw.dw_v_u_k_cdr_gprs_cbwhereday_part='20160101'limit1;查詢數(shù)據(jù)insertoverwritetabledim.dim_cbss_deposit清表插入數(shù)據(jù)insertintotable插入數(shù)據(jù)insertoverwritetabledw.dw_v_deposit_info_cbpartition(day_part='$v_day');插入分區(qū)3數(shù)據(jù)查詢及導(dǎo)出導(dǎo)出方法一:insertoverwritelocalDIRECTORY'$check_log_dir'ROWFORMATDELIMITEDFIELDSTERMINATEDBY'$v_split'select$v_column_listfrom$v_tabletwhere$v_part='$v_date';\"">$v_hqlsh$v_hql2>&1|tee$v_export_log>>/dev/null導(dǎo)出方法二:hive-S-e"select1;">$directoryHadoop查看目錄空間使用情況

命令:hadoopfs-count[-q]<paths>

統(tǒng)計(jì)出目錄數(shù)、文件數(shù)及指定路徑下文件的大小,輸出列為:DIR_COUNT,FILE_COUNT,CONTENT_SIZE,FILE_NAME.

帶上-q選項(xiàng)后的輸出列為:QUOTA,REMAINING_QUATA,SPACE_QUOTA,REMAINING_SPACE_QUOTA,DIR_COUNT,FILE_COUNT,CONTENT_SIZE,FILE_NAME.4Haoop的hdfs命令Hdfs相關(guān)命令hadoopfs–ls/

列出當(dāng)前目錄有哪些子目錄,有哪些文件。4hadoopfs-count/Haoop的hdfs命令hadoop

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論