Hive大數(shù)據(jù)存儲與處理 課件 第1章 廣電大數(shù)據(jù)用戶畫像需求分析_第1頁
Hive大數(shù)據(jù)存儲與處理 課件 第1章 廣電大數(shù)據(jù)用戶畫像需求分析_第2頁
Hive大數(shù)據(jù)存儲與處理 課件 第1章 廣電大數(shù)據(jù)用戶畫像需求分析_第3頁
Hive大數(shù)據(jù)存儲與處理 課件 第1章 廣電大數(shù)據(jù)用戶畫像需求分析_第4頁
Hive大數(shù)據(jù)存儲與處理 課件 第1章 廣電大數(shù)據(jù)用戶畫像需求分析_第5頁
已閱讀5頁,還剩17頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

廣電大數(shù)據(jù)用戶畫像

需求分析背景介紹新一代信息技術(shù)和互聯(lián)網(wǎng)的迅猛發(fā)展,為廣電行業(yè)帶來了前所未有的巨大挑戰(zhàn)和重大機(jī)遇。新媒體的飛速發(fā)展,對傳統(tǒng)媒體造成了巨大沖擊,廣電公司依靠稀缺資源形成的優(yōu)勢已經(jīng)逐漸失去。廣電公司具備了獲取用戶身份數(shù)據(jù)、實(shí)時收視數(shù)據(jù)的能力,可通過網(wǎng)絡(luò)終端設(shè)備和后臺系統(tǒng)采集用戶基本數(shù)據(jù)、用戶收視數(shù)據(jù)、用戶訂單數(shù)據(jù)、用戶賬單數(shù)據(jù)等。通過大數(shù)據(jù)分析,把握廣電用戶群體的特征和收視行為,了解用戶的實(shí)際特征和實(shí)際需求,并提供個性化、精準(zhǔn)化和智能化的推薦服務(wù),以此挽留用戶、減少用戶的流失。需求分析與架構(gòu)認(rèn)識Hive需求分析與架構(gòu)基于雙向廣電有線網(wǎng)絡(luò),可深入應(yīng)用大數(shù)據(jù)技術(shù),對用戶數(shù)據(jù)進(jìn)行采集、存儲以此為基礎(chǔ),進(jìn)行有效分析與處理實(shí)現(xiàn)廣電有線網(wǎng)絡(luò)用戶從看電視到用電視的轉(zhuǎn)變,推動廣電行業(yè)進(jìn)一步發(fā)展,也可為社會信息化、政府信息化等提供全面支撐。對廣電公司的需求進(jìn)行分析,并結(jié)合大數(shù)據(jù)技術(shù)為廣電公司用戶數(shù)據(jù)的存儲與分析提供解決方案,同時對大數(shù)據(jù)技術(shù)進(jìn)行簡要介紹。業(yè)務(wù)需求分析需求分析與架構(gòu)主要處理流程大數(shù)據(jù)的處理過程可分為數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)存儲、數(shù)據(jù)分析、數(shù)據(jù)應(yīng)用大數(shù)據(jù)存儲技術(shù)架構(gòu)大數(shù)據(jù)存儲技術(shù)商用存儲GBase系列數(shù)據(jù)庫產(chǎn)品、AmazonS3和EMC系列產(chǎn)品開源OceanBase、Swift、Alluxio、HDFS、HBase和Hive常見的存儲產(chǎn)品的簡介及優(yōu)缺點(diǎn)對比存儲產(chǎn)品簡介優(yōu)點(diǎn)缺點(diǎn)GBase系列數(shù)據(jù)庫產(chǎn)品該系列數(shù)據(jù)庫產(chǎn)品包含分布式邏輯數(shù)據(jù)倉庫(GBase8a)、基于共享存儲的數(shù)據(jù)庫集群(GBase8s)、多模多態(tài)分布式數(shù)據(jù)庫(GBase8c)、云原生數(shù)據(jù)倉庫(GBaseGCDW)等具有高可用性和高可靠性??蓴U(kuò)展性好:支持Master-Slave模式擴(kuò)展以及支持使用OnlineAdd節(jié)點(diǎn)等方式來增強(qiáng)性能。安全性強(qiáng):可提供完善的數(shù)據(jù)庫安全方案,包括密文存儲、訪問權(quán)限控制、數(shù)據(jù)審計(jì)等。體積小,并且Ubuntu平臺可免費(fèi)使用??梢灾苯釉贕Base上運(yùn)行SQL語句而無須進(jìn)行太多額外配置生態(tài)環(huán)境還較為不成熟,在某些場景下會受到功能缺失的限制OceanBaseOceanBase是阿里巴巴集團(tuán)自主研發(fā)的一款分布式關(guān)系數(shù)據(jù)庫管理系統(tǒng),旨在滿足大規(guī)模應(yīng)用與服務(wù)的高性能等要求,支持從單臺機(jī)器到百臺機(jī)器甚至更多機(jī)器的水平擴(kuò)展,具有海量數(shù)據(jù)存儲和快速查詢的能力高性能:支持自動故障轉(zhuǎn)移、水平和垂直擴(kuò)展等特性,可以確保24/7無故障運(yùn)行;采用多核架構(gòu)實(shí)現(xiàn)并行查詢,能夠快速讀取和處理海量數(shù)據(jù)。全球部署:支持本地化存儲和異地多活,可以滿足多終端、全網(wǎng)覆蓋等要求。開源社區(qū)活躍:擁有大量用戶社區(qū),支持對產(chǎn)品進(jìn)行二次開發(fā)和個性化定制運(yùn)維復(fù)雜:需要一定的技術(shù)支撐,涉及配置管理、監(jiān)控和調(diào)優(yōu)等方面,不太適合小規(guī)模企業(yè)使用。需要專門的技術(shù)人員:由于其復(fù)雜性較高,需要專業(yè)技術(shù)人員進(jìn)行維護(hù)和開發(fā)。系統(tǒng)學(xué)習(xí)成本高:相較于傳統(tǒng)關(guān)系數(shù)據(jù)庫,OceanBase具有更多的新特性和命令,需要用戶進(jìn)行學(xué)習(xí)和了解常見的存儲產(chǎn)品的簡介及優(yōu)缺點(diǎn)對比續(xù)上表存儲產(chǎn)品簡介優(yōu)點(diǎn)缺點(diǎn)AmazonS3簡稱S3,是Amazon公司于2006年針對開發(fā)者推出的云存儲服務(wù),可減輕開發(fā)人員壓力,使其專注于上層業(yè)務(wù);存儲可靠;按用量收費(fèi);使用方便是AmazonAWS云服務(wù)體系的一部分,兼容Amazon生態(tài)圈的其他服務(wù);重新定義了對象存儲;可靠性高,性能優(yōu)良,易于擴(kuò)展,方便遷移非開源、收費(fèi)較高;不支持隨機(jī)位置讀、寫操作,只能讀取、寫入或覆蓋整個文件EMC系列產(chǎn)品EMC公司于2008年推出了PB級對象存儲平臺Atmos;于2010年收購了Isilon,定位PB級文件存儲;于2014年推出了ECS,布局ZB級存儲。EMC系列產(chǎn)品均可橫向擴(kuò)展。EMC公司市場拓荒早,產(chǎn)品種類全,高端用戶多高端產(chǎn)品與解決方案;可提供較好的數(shù)據(jù)保護(hù);支持PB~ZB級各類數(shù)據(jù)存儲。兼容EMCVMware、Pivotal、RSA等多款產(chǎn)品;支持Hadoop;支持與S3數(shù)據(jù)的雙向遷移非開源,需購買價格昂貴的專用硬件常見的存儲產(chǎn)品的簡介及優(yōu)缺點(diǎn)對比續(xù)上表存儲產(chǎn)品簡介優(yōu)點(diǎn)缺點(diǎn)Swift于2010年加入OpenStack社區(qū),可為虛擬機(jī)及計(jì)算服務(wù)Nova提供鏡像存儲,是S3的開源實(shí)現(xiàn)屬于OpenStack生態(tài)圈組件,可兼容CloudStack,支持多租戶模式。技術(shù)成熟,成功案例多,被設(shè)計(jì)成一種比較通用的存儲產(chǎn)品,能夠可靠地存儲數(shù)量非常多的大小不一的文件未針對大型文件做優(yōu)化處理Alluxio是以內(nèi)存為中心的虛擬分布式存儲系統(tǒng),其核心思想是將存儲與計(jì)算分離通過數(shù)據(jù)緩存,提高存儲、計(jì)算的效率;將存儲與計(jì)算解耦,架構(gòu)清晰、簡潔該產(chǎn)品較新,部分功能有待完善;該產(chǎn)品對用戶技術(shù)積累和研發(fā)能力要求較高常見的存儲產(chǎn)品的簡介及優(yōu)缺點(diǎn)對比存儲產(chǎn)品簡介優(yōu)點(diǎn)缺點(diǎn)HDFS設(shè)計(jì)參考GoogleGFS,于2006年加入Apache社區(qū)下的Hadoop項(xiàng)目,是其核心組件之一擁有強(qiáng)大的數(shù)據(jù)生態(tài)圈,適合大型文件一次寫入、長期存儲、順序讀取、批處理的場景;成功案例多,優(yōu)化方案豐富;用戶規(guī)模龐大,是大數(shù)據(jù)文件系統(tǒng)事實(shí)標(biāo)準(zhǔn),支持上萬個節(jié)點(diǎn)的ZB級海量數(shù)據(jù)存儲;具有高容錯性;支持多種數(shù)據(jù)編碼不支持并發(fā)寫入、文件隨機(jī)修改;不適合毫秒級低延遲數(shù)據(jù)訪問;不適合小型文件存儲HBase構(gòu)建在HDFS之上高性能的大數(shù)據(jù)列式存儲數(shù)據(jù)庫適合存儲海量稀疏數(shù)據(jù),可以通過版本檢索到歷史數(shù)據(jù),解決HDFS不支持?jǐn)?shù)據(jù)隨機(jī)查找、不適合增量數(shù)據(jù)處理、不支持?jǐn)?shù)據(jù)更新等問題。常用于存儲超大規(guī)模的實(shí)時隨機(jī)讀寫數(shù)據(jù),如互聯(lián)網(wǎng)搜索引擎數(shù)據(jù)僅能通過主鍵或主鍵范圍檢索數(shù)據(jù),不適合檢索條件較多的復(fù)雜查詢場景HiveHive是基于Hadoop生態(tài)圈的數(shù)據(jù)倉庫,用于進(jìn)行數(shù)據(jù)提取、轉(zhuǎn)化和加載,是一種可以存儲、查詢和分析存儲在Hadoop中的大規(guī)模數(shù)據(jù)的開源產(chǎn)品封裝了調(diào)用接口,并提供了類SQL的查詢語言,減少了開發(fā)人員的學(xué)習(xí)成本;支持用戶自定義函數(shù)。適合處理大數(shù)據(jù);可擴(kuò)展性強(qiáng);容錯性強(qiáng)不支持記錄級別的增、刪、改操作,延遲較高,不適合實(shí)時分析;不支持事務(wù),不適合做聯(lián)機(jī)事務(wù)處理;自動生成的MapReduce作業(yè)通常情況下不夠智能大數(shù)據(jù)存儲技術(shù)架構(gòu)常見的開發(fā)語言R語言免費(fèi)、開源、各種各樣的模塊十分齊全Python數(shù)據(jù)分析和交互、探索性計(jì)算以及數(shù)據(jù)可視化等方面都比較方便SQL入門較容易Java具有可移植性強(qiáng)的特點(diǎn),可以跨平臺運(yùn)行需求分析與架構(gòu)認(rèn)識Hive認(rèn)識HiveHive是基于Hadoop的數(shù)據(jù)倉庫優(yōu)點(diǎn)是學(xué)習(xí)成本低,可以通過類SQL語句實(shí)現(xiàn)快速M(fèi)apReduce統(tǒng)計(jì)MapReduce的使用變得更加簡單。Hive十分適合用于對數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析Hive簡介2007年,F(xiàn)acebook公司(現(xiàn)Meta公司)為了對每天產(chǎn)生的海量網(wǎng)絡(luò)平臺數(shù)據(jù)進(jìn)行分析而開發(fā)了HiveHive就成為傳統(tǒng)數(shù)據(jù)架構(gòu)和HadoopMapReduce之間的“橋梁”。Hive的架構(gòu)Hadoop生態(tài)圈Sqoop:用于在HDFS和關(guān)系數(shù)據(jù)庫之間導(dǎo)入和導(dǎo)出數(shù)據(jù)。Pig:用于開發(fā)MapReduce作業(yè)的程序語言的工具,通過將PigLatin腳本編譯成MapReduce任務(wù)來實(shí)現(xiàn)數(shù)據(jù)處理和計(jì)算。Hive:用于開發(fā)SQL類型腳本進(jìn)行MapReduce作業(yè)的工具,通過將HQL轉(zhuǎn)換為MapReduce任務(wù)來實(shí)現(xiàn)數(shù)據(jù)處理。認(rèn)識HiveHive的架構(gòu)認(rèn)識HiveHive主要組件訪問接口命令行接口(CommandLineInterface,CLI),HiveWeb接口(HiveWebInterface,HWI)。ThriftServer。元數(shù)據(jù)存儲服務(wù)Hive的元數(shù)據(jù)存儲在關(guān)系數(shù)據(jù)庫里,Hive支持的關(guān)系數(shù)據(jù)庫有Derby、MySQL等認(rèn)識HiveHive主要組件DriverDriver的主要功能是將用戶編寫的HQL語句進(jìn)行解析、編譯、優(yōu)化,生成邏輯執(zhí)行計(jì)劃,并提交給Hadoop集群進(jìn)行處理組件說明解析器(Parser)將HQL轉(zhuǎn)換為抽象語法樹編譯器(Compiler)將語法樹編譯為邏輯執(zhí)行計(jì)劃優(yōu)化器(Optimizer)對邏輯執(zhí)行計(jì)劃進(jìn)行優(yōu)化,形成更優(yōu)的邏輯執(zhí)行計(jì)劃執(zhí)行器(Executor)將邏輯執(zhí)行計(jì)劃切分成對應(yīng)引擎的可執(zhí)行物理計(jì)劃,調(diào)用底層執(zhí)行框架執(zhí)行認(rèn)識HiveHive設(shè)計(jì)特性Hive的特點(diǎn)HQL與SQL有著相似的語法,大大提高了開發(fā)人員的開發(fā)效率。Hive支持運(yùn)行在不同的框架上,包括YARN、Tez、Spark、Flink等。Hive支持HDFS與HBase上的即席查詢(Ad-Hoc)。Hive支持用戶自定義的函數(shù)、腳本等。認(rèn)識HiveHive設(shè)計(jì)特性Hive優(yōu)點(diǎn)可擴(kuò)展。Hive可以自由擴(kuò)展集群的規(guī)模,一般情況下無須重啟服務(wù)。可延展。Hive支持用戶自定義函數(shù),用戶可根據(jù)自己的需求來編寫自定義函數(shù)。可容錯。Hive良好的容錯性使得當(dāng)節(jié)點(diǎn)出現(xiàn)問題時HQL語句仍可完成執(zhí)行。Hive的適用場景Hive的最佳適用場景是大數(shù)據(jù)集的批處理作業(yè)認(rèn)識HiveHive與傳統(tǒng)數(shù)據(jù)庫的區(qū)別項(xiàng)目Hive關(guān)系數(shù)據(jù)庫查詢語言HQLSQL數(shù)據(jù)存儲HDFS

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論