




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)倉庫-英文名稱為Data Warehoue,可簡寫為DW或DWH。數(shù)據(jù)倉庫的目的是構(gòu)建面向分析的集成化數(shù)據(jù)環(huán)境,為企業(yè)提供決策支持(Deciinpt)??梢岳斫鉃?數(shù)據(jù)倉庫是面向的(Subject-Oriented)、集成的(Integrated)、非易失的(Non-Volatile)和時(shí)變的(Time-Variant)數(shù)據(jù)集合,用以支持管理決策。面向集非易失時(shí)變數(shù)據(jù)庫與數(shù)據(jù)倉庫的區(qū)別實(shí)際講的 OLTP(On-LineTransactionProcessing,),也可以稱面向交易分析型處理,叫聯(lián)機(jī)分析處理OLAP(On-Line yticalProcessing)一般針對某些的歷史數(shù)據(jù)進(jìn)行分析,支持管理決策。數(shù)據(jù)庫設(shè)計(jì)是盡量避免冗余,一般針對某一業(yè)務(wù)應(yīng)用進(jìn)行設(shè)計(jì),比如一張簡單的Use記錄用戶名、等簡單數(shù)據(jù)即可,符合業(yè)務(wù)應(yīng)用,但是不符合分析。數(shù)據(jù)倉庫在設(shè)計(jì)是有意引入冗余,依照分析需求,分析維度、分析指標(biāo)進(jìn)行設(shè)計(jì)。按照數(shù)據(jù)流入流出的過程,數(shù)據(jù)倉庫架構(gòu)可分為三層——源數(shù)據(jù)、數(shù)據(jù)倉庫、數(shù)據(jù)應(yīng)用
:也稱為細(xì)節(jié)層,DW層的數(shù)據(jù)應(yīng)該是一致的、準(zhǔn)確的、干凈的數(shù)據(jù)即對源系統(tǒng)數(shù)據(jù)進(jìn)行 (去除了雜質(zhì))后的數(shù)據(jù)
Extra,轉(zhuǎn)化Transfer裝載Load)的過程,ETL是數(shù)據(jù)倉庫的流水線,也可以認(rèn)為是數(shù)據(jù)倉庫的元數(shù)據(jù)(MetaDate),主要記錄數(shù)據(jù)倉庫中模型的定義、各層級間的映射關(guān)系、數(shù)據(jù)倉庫的數(shù)據(jù)狀態(tài)及ETL的任務(wù)運(yùn)行狀態(tài)。一般會通過元數(shù)據(jù)資料庫(MetadataRepository)來統(tǒng)元數(shù)據(jù)可分為技術(shù)元數(shù)據(jù)和業(yè)務(wù)元數(shù)據(jù)。技術(shù)元數(shù)據(jù)為開發(fā)和管理數(shù)據(jù)倉庫的IT人員使用,HiveHive其本質(zhì)是將SQL轉(zhuǎn)換為MapReduce的任務(wù)進(jìn)行運(yùn)算,底層由HDFS來提供數(shù)據(jù)的,說白了Hive用戶接口:包括CI、CODC、WeGUI。其中,CLI(mmandlineinerae為s命令行;CDC是ive的JA實(shí)現(xiàn),與傳統(tǒng)數(shù)據(jù)庫DC類似;WeGI是通過瀏覽器訪問ive。元數(shù)據(jù):通常是在關(guān)系數(shù)據(jù)庫如mysql/derby中。Hive將元數(shù)據(jù)在數(shù)據(jù)庫中。Hive中的元數(shù)據(jù)包括表的名字,表的列和分區(qū)及其屬性,表的屬性(是否為外部表等),表的數(shù)據(jù)所在等。解釋器、編譯器、優(yōu)化器、執(zhí)行器:完成HQL查詢語句從詞法分析、語法分析、編譯、優(yōu)化以及查詢計(jì)劃的生成。生成的查詢計(jì)劃在HDFS中,并在隨后有MapReduce調(diào)用執(zhí)Hive與Hadoop的關(guān)Hive這里我們選用hive的版本是2.1.1地址為:apache-hive-2.1.1-之后,將我們的安裝包上傳到第三臺機(jī)器的/export/sowares 將我們的hive的安裝包上傳到第三臺服務(wù)器的/export/sowarescdcdtarzxvfapachehive2.1.1bin.tar.gzC第二步:安裝yumyuminstallmysqlmysql-servermysql-/etc/init.d/mysqld/etc/init.d/mysqldgrantgrantallprivilegeson*.*grantroot@identifiedby123456flushcd/export/servers/apachehive2.1.1cd/export/servers/apachehive2.1.1bin/confcphiveenv.sh.templatehiveenv.shHADOOP_HOME=/export/servers/hadoopexportHIVE_CONF_DIR=/export/servers/apachehive2.1.1修改hive-cdcd/export/servers/apachehive2.1.1vimhive<?xmlversion="1.0"encoding="UTF8"<?xmlstylesheettype="text/xsl" 將我們準(zhǔn)備好的mysql-connector-java-5.1.38.jar這個(gè)jar sudovimexportHIVE_HOME=/export/servers/apachehive2.1.1exportHivecdcd/export/servers/apachehive2.1.1bin/ createdatabaseifnotexistscdcd/export/servers/apachehive2.1.1bin/hivee"createdatabaseifnotexistscdcd/export/serversvimhive.sqlcreatedatabaseifnotexistsmytest;usemytest;createtablestu(idint,name通過hive-f來執(zhí)行我們的 bin/hivefHive創(chuàng)建數(shù)據(jù)庫createcreatedatabaseifnotexistsmyhive;usemyhive; createdatabasemyhive2location createdatabasefoowithdbproperties describedatabaseextended alterdatabasefoosetdbproperties查看數(shù)據(jù)庫詳細(xì)信 descdatabaseextended刪除數(shù)據(jù)庫 dropdatabase dropdatabasemyhive創(chuàng)建表的語法createcreate[external]table[ifnotexists]table_name(col_namedata_type[comment'字段描述信息']col_namedata_type[comment'字段描述信息[comment'表的描述信息[partitionedby(col_namedata_type,...)][clusteredby(col_name,col_name,...)][sortedby(col_name[ascdesc],...)intonum_bucketsbuckets][rowformatrow_format][storted [location'指定表的路徑createEXISTS選項(xiàng)來忽略這個(gè)異常。(LOCATION),Hive創(chuàng)建內(nèi)部表時(shí),會將數(shù)據(jù)移動(dòng)到數(shù)據(jù)倉庫指向的路徑;若創(chuàng)建外部表示注釋,默認(rèn)不能使用中文partitioned 下 clusteredbyHive可以進(jìn)一步組織成桶,也就是說桶是更為細(xì)粒度的數(shù)據(jù)范圍劃分。Hive也是針對某一列進(jìn)行桶的組織。sorted stortedas指定表文件的格式,常用格式:SEQUENCEFILE,TEXTFILE,RCFILE,如果文件數(shù)據(jù)是純文本,可以使用STOREDASTEXTFILE。如果數(shù)據(jù)需要壓縮,使用stortedas創(chuàng)建表時(shí),如果沒有使用external關(guān)鍵字,則該表是內(nèi)部表(managedtable)1字節(jié)的有符號整數(shù)-4個(gè)字節(jié)的帶符號整數(shù)18字節(jié)帶符號整數(shù)4字節(jié)單精度浮點(diǎn)數(shù)8字節(jié)雙精度浮點(diǎn)數(shù)‘2016-03-key-value,key必須為原始類型,value可以任意類字段集合,類型可以不同建表入門useusecreatetablestu(idint,nameinsertintostuvalues #插入數(shù)select*from createtableifnotexistsstu2(idint,namestring)rowformatdelimitedfieldsterminatedby'\t'; createtableifnotexistsstu2(idint,namestring)rowformatdelimitedfieldsterminatedby'\t'location'/user/stu2'; createtablestu3asselect*fromstu2;# createtablestu4like descformatted. droptable每天將收集到的日志定期流入HDFS文本文件。在外部表(原始日志表)的基礎(chǔ)上做大量 createexternaltableteacher(t_idstring,t_namestring)rowformatdelimitedfieldsterminatedby'\t'; createexternaltablestudent(s_idstring,s_namestring,s_birthstring,s_sexstring)rowformatdelimitedfieldsterminatedby'\t'; loaddatalocalinpath'/export/servers/hivedatas/student.csv'intotable loaddatalocalinpath'/export/servers/hivedatas/student.csv'overwriteintotablestudent;cdcdhdfshdfspputtecher.csvloaddatainpath'/hivedatas/techer.csv'intotable件,這樣每次操作一個(gè)小的文件就會很容易了,同樣的道理,在hive當(dāng)中也是支持這種思想unionunion createtablescore(s_idstring,c_idstring,s_scoreint)partitionedby(monthstring)rowformatdelimitedfieldsterminatedby'\t'; createtablescore2(s_idstring,c_idstring,s_scoreint)partitionedby(yearstring,monthstring,daystring)rowformatdelimitedfieldsterminatedby'\t'; loaddatalocalinpath'/export/servers/hivedatas/score.csv'intotablescorepartition(month='201806'); loaddatalocalinpath'/export/servers/hivedatas/score.csv'intotablescore2partition(year='2018',month='06',day='01'); select*fromscorewheremonth='201806'unionallselect*fromscorewheremonth='201806'; showpartitions altertablescoreadd altertablescore
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 汽車吊機(jī)租賃合同
- 房地產(chǎn)經(jīng)紀(jì)行業(yè)客戶信息保密合同
- 貨車運(yùn)輸合同協(xié)議書
- 戶外運(yùn)動(dòng)安全責(zé)任豁免合同
- 建筑工程大清包合同新
- 智能制造生產(chǎn)線建設(shè)合同
- 金融行業(yè)投資產(chǎn)品風(fēng)險(xiǎn)提示協(xié)議
- 保潔衛(wèi)生承包合同
- 第十二章第三節(jié)《機(jī)械效率》教學(xué)設(shè)計(jì) -2023-2024學(xué)年人教版八年級物理下冊
- 第4課 嗅覺和味覺(教學(xué)設(shè)計(jì))-2023-2024學(xué)年六年級科學(xué)下冊同步備課(青島版)
- 2025版大學(xué)食堂冷鏈?zhǔn)巢呐渌头?wù)合同模板3篇
- 2024年青島港灣職業(yè)技術(shù)學(xué)院高職單招語文歷年參考題庫含答案解析
- 廣西壯族自治區(qū)公路發(fā)展中心2025年面向社會公開招聘657名工作人員高頻重點(diǎn)提升(共500題)附帶答案詳解
- 《中國的宗教》課件
- 2025年山東魯商集團(tuán)有限公司招聘筆試參考題庫含答案解析
- 大學(xué)轉(zhuǎn)專業(yè)高等數(shù)學(xué)試卷
- 大型活動(dòng)中的風(fēng)險(xiǎn)管理與安全保障
- 公司廠區(qū)保潔培訓(xùn)
- 課題申報(bào)書:個(gè)體衰老差異視角下社區(qū)交往空間特征識別與優(yōu)化
- 2024年防盜門銷售合同范本
- 支付令申請書(2025版)
評論
0/150
提交評論