大數(shù)據(jù)分析與應用微課版-課件全套項目1-6 初識電商產(chǎn)品數(shù)據(jù)的處理與分析-電商產(chǎn)品數(shù)據(jù)遷移

上傳人：h*** IP屬地：山東上傳時間：2024-07-03 格式：PPTX 頁數(shù)：209 大?。?0.48MB 積分：60 舉報 版權申訴

大數(shù)據(jù)分析與應用微課版-課件全套項目1-6 初識電商產(chǎn)品數(shù)據(jù)的處理與分析-電商產(chǎn)品數(shù)據(jù)遷移_第2頁

大數(shù)據(jù)分析與應用微課版-課件全套項目1-6 初識電商產(chǎn)品數(shù)據(jù)的處理與分析-電商產(chǎn)品數(shù)據(jù)遷移_第3頁

大數(shù)據(jù)分析與應用微課版-課件全套項目1-6 初識電商產(chǎn)品數(shù)據(jù)的處理與分析-電商產(chǎn)品數(shù)據(jù)遷移_第4頁

大數(shù)據(jù)分析與應用微課版-課件全套項目1-6 初識電商產(chǎn)品數(shù)據(jù)的處理與分析-電商產(chǎn)品數(shù)據(jù)遷移_第5頁

已閱讀5頁，還剩204頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權，請進行舉報或認領

文檔簡介

項目一

初識電商產(chǎn)品數(shù)據(jù)的處理與分析電商產(chǎn)品數(shù)據(jù)處理與分析項目準備目錄Content1電商產(chǎn)品數(shù)據(jù)背景及數(shù)據(jù)分析概述2大數(shù)據(jù)技術出現(xiàn)數(shù)據(jù)來源較多項目導言零依據(jù)大數(shù)據(jù)分析定制個性化推薦大數(shù)據(jù)可視化學習目標零知識目標了解大數(shù)據(jù)分析相關知識；熟悉大數(shù)據(jù)分析應用場景；熟悉大數(shù)據(jù)分析指標；掌握大數(shù)據(jù)分析常用組件及其功能；具有實現(xiàn)Hadoop相關服務啟動的能力。技能目標具備熟悉大數(shù)據(jù)分析在不同領域具體應用的能力；具備熟悉大數(shù)據(jù)分析工具及其生態(tài)組件的作用能力；具備了解大數(shù)據(jù)分析企業(yè)級應用內(nèi)部結(jié)構的能力。素養(yǎng)目標具備良好的職業(yè)道德和敬業(yè)精神；具有組織協(xié)調(diào)能力；具備溝通與交流能力。任務1-1：電商產(chǎn)品數(shù)據(jù)背景及數(shù)據(jù)分析概述壹電商產(chǎn)品數(shù)據(jù)背景任務技能利用大數(shù)據(jù)分析進行商品的精準營銷、實現(xiàn)營銷流程的優(yōu)化、為企業(yè)提供數(shù)據(jù)服務等大數(shù)據(jù)分析概念隨著大數(shù)據(jù)商業(yè)應用逐漸成為焦點，大數(shù)據(jù)時代就此到來，而大數(shù)據(jù)分析也應運而生大數(shù)據(jù)分析應用場景大數(shù)據(jù)分析可應用于各行各業(yè)，將人們收集到的龐大數(shù)據(jù)進行分析整理，實現(xiàn)資訊的有效利用大數(shù)據(jù)分析指標數(shù)據(jù)指標有別于傳統(tǒng)意義上的統(tǒng)計指標，它是通過對數(shù)據(jù)進行分析得到的一個匯總結(jié)果，是將業(yè)務單元精分和量化后的度量值，使得業(yè)務目標可描述、可度量、可拆解任務1-1：電商產(chǎn)品數(shù)據(jù)背景及數(shù)據(jù)分析概述壹1電商產(chǎn)品數(shù)據(jù)背景隨著移動互聯(lián)網(wǎng)的發(fā)展，網(wǎng)購已經(jīng)成為生活中不可獲取的一部分，在這期間必定產(chǎn)生大量的交易數(shù)據(jù)，其中包含著大量可挖掘的信息（1）商品精準營銷任務1-1：電商產(chǎn)品數(shù)據(jù)背景及數(shù)據(jù)分析概述壹（2）營銷流程優(yōu)化在營銷流程上，通過對商品庫存的實時監(jiān)控，并聯(lián)合多個部門，綜合整體數(shù)據(jù)分析和預測評，降低庫存管理成本，合理優(yōu)化庫存，提高效率任務1-1：電商產(chǎn)品數(shù)據(jù)背景及數(shù)據(jù)分析概述壹（3）為企業(yè)提供數(shù)據(jù)服務通過大數(shù)據(jù)分析，能夠幫助一些電商平臺提升商品承擔的轉(zhuǎn)化率以及增加銷售額，不僅提升了收益，還可以幫助商家獲取消費者的消費喜好、產(chǎn)品喜愛程度等信息，從而對商品類型以及銷售方式做出及時調(diào)整0102任務1-1：電商產(chǎn)品數(shù)據(jù)背景及數(shù)據(jù)分析概述壹2大數(shù)據(jù)分析概念大數(shù)據(jù)分析就是指對規(guī)模巨大的數(shù)據(jù)進行數(shù)據(jù)分析，可以將大數(shù)據(jù)分析分為大數(shù)據(jù)和分析兩個方面（1）大數(shù)據(jù)大數(shù)據(jù)用戶在一定的時間范圍內(nèi)通過常規(guī)軟件工具不能進行獲取、管理和處理的海量、高增長率和多樣化的信息資產(chǎn)，是能夠從中分析出對決策有利數(shù)據(jù)的龐大數(shù)據(jù)集合任務1-1：電商產(chǎn)品數(shù)據(jù)背景及數(shù)據(jù)分析概述壹（2）數(shù)據(jù)分析對大數(shù)據(jù)進行分析是最重要的一個過程，目的是從海量數(shù)據(jù)中提取有用信息形成結(jié)論幫助人們更好地解讀數(shù)據(jù)，從而做出預測性的推論，這也從側(cè)面說明只有經(jīng)過分析操作后的數(shù)據(jù)，才能產(chǎn)生重要價值任務1-1：電商產(chǎn)品數(shù)據(jù)背景及數(shù)據(jù)分析概述壹3大數(shù)據(jù)分析應用場景大數(shù)據(jù)分析可應用于各行各業(yè)，將人們收集到的龐大數(shù)據(jù)進行分析整理，實現(xiàn)資訊的有效利用。（1）金融領域在金融領域，面對龐大的交易、報價、業(yè)績報告、消費者研究報告、各類統(tǒng)計數(shù)據(jù)、各類指數(shù)等數(shù)據(jù)，主要包括客戶畫像、精準營銷、風險管控、欺詐行為分析、股價預測等任務1-1：電商產(chǎn)品數(shù)據(jù)背景及數(shù)據(jù)分析概述壹（2）醫(yī)療領域通過對醫(yī)療數(shù)據(jù)的分析，可以預測流行疾病的爆發(fā)趨勢、避免感染、降低醫(yī)療成本、實時健康狀況告警、醫(yī)學影像診斷等任務1-1：電商產(chǎn)品數(shù)據(jù)背景及數(shù)據(jù)分析概述壹（3）農(nóng)牧領域借助大數(shù)據(jù)分析提供的消費能力和趨勢報告，為農(nóng)牧行業(yè)生產(chǎn)進行引導，根據(jù)需求最大化進行生產(chǎn)，以避免產(chǎn)能過剩而造成資源和社會財富的浪費，實現(xiàn)農(nóng)業(yè)的精細化管理和科學決策任務1-1：電商產(chǎn)品數(shù)據(jù)背景及數(shù)據(jù)分析概述壹（4）電子商務領域傳統(tǒng)的零售業(yè)在互聯(lián)網(wǎng)迅速發(fā)展的沖刷下變得岌岌可危，通過把傳統(tǒng)的零售業(yè)與大數(shù)據(jù)分析的結(jié)合，可以完成用戶需求分析、用戶體驗分析、精確宣傳、減少成本等操作任務1-1：電商產(chǎn)品數(shù)據(jù)背景及數(shù)據(jù)分析概述壹（5）交通領域在交通領域，大數(shù)據(jù)分析主要體現(xiàn)在道路信息的智能監(jiān)測、城市道路信號燈智能調(diào)節(jié)、交通事故的風險預警等場景任務1-1：電商產(chǎn)品數(shù)據(jù)背景及數(shù)據(jù)分析概述壹（6）廣告領域通過對用戶搜索數(shù)據(jù)的分析，構建用戶畫像，然后進行個性化的推薦，實現(xiàn)精準化廣告投放，提升廣告投放效率，進而提升用戶體驗，提高用戶留存率任務1-1：電商產(chǎn)品數(shù)據(jù)背景及數(shù)據(jù)分析概述壹3大數(shù)據(jù)分析指標數(shù)據(jù)指標有別于傳統(tǒng)意義上的統(tǒng)計指標，它是通過對數(shù)據(jù)進行分析得到的一個匯總結(jié)果，是將業(yè)務單元精分和量化后的度量值，使得業(yè)務目標可描述、可度量、可拆解（1）數(shù)據(jù)總體概覽指標反映整體規(guī)模大小、總量多少的指標，能夠直接表示總體情況，通常使用在報表中，如銷售總額、訂單數(shù)量等任務1-1：電商產(chǎn)品數(shù)據(jù)背景及數(shù)據(jù)分析概述壹（2）對比性指標根據(jù)對比情況可以分為同比和環(huán)比，其中，同比也就是同期相比，是指不同時間相同時間點的對比，環(huán)比則是指相鄰時間段內(nèi)指標的對比同比環(huán)比任務1-1：電商產(chǎn)品數(shù)據(jù)背景及數(shù)據(jù)分析概述壹（3）集中趨勢指標平均指標分為數(shù)值平均和位置平均兩種，其中，數(shù)值平均針對數(shù)據(jù)進行計算，被分為普通平均和加權平均；而位置平均通常表示出現(xiàn)次數(shù)最多的數(shù)或者某一個特殊位置上的數(shù)，分別通過眾數(shù)指標和中位數(shù)指標（表示整體的一般水平）表示集中趨勢指標任務1-1：電商產(chǎn)品數(shù)據(jù)背景及數(shù)據(jù)分析概述壹（4）用戶數(shù)據(jù)指標用戶數(shù)據(jù)指標主要反映用戶靜態(tài)情況，包括新增用戶、活躍用戶、留存用戶等新增用戶新增用戶所選渠道存率活躍用戶用戶數(shù)據(jù)指標①新增用戶：每日新增用戶的數(shù)量，一般為第一整天新登錄應用的用戶數(shù)。②新增用戶所選渠道：根據(jù)渠道維度進行拆解，查看不同渠道新增用戶數(shù)，判斷不同渠道的推廣效果。③活躍用戶：用戶活躍度，根據(jù)周期的不同，可分為日活躍用戶數(shù)（DAU）和月活躍用戶數(shù)（MAU）。需要注意的是，不同的產(chǎn)品活躍用戶的定義不同。④存率：7日留存率、30日留存率、N日留存率等。任務1-1：電商產(chǎn)品數(shù)據(jù)背景及數(shù)據(jù)分析概述壹（5）行為數(shù)據(jù)指標用戶行為數(shù)據(jù)指標主要反映用戶的動態(tài)情況，如用戶在網(wǎng)站上的停留時間、頁面瀏覽量、頁面訪問人數(shù)等類別指標描述網(wǎng)站分析指標UV(瀏覽數(shù)量)用戶每打開一個網(wǎng)站，記錄1次UV，多次打開同一頁面多次累計PV(獨立訪客)1天內(nèi)，訪問網(wǎng)站的不重復用戶數(shù)訪問深度體現(xiàn)網(wǎng)站對用戶的吸引程度單擊率(CTR)指用戶單擊某個鏈接、頁面、banner的次數(shù)，可重復累計網(wǎng)頁停留時間某個頁面被用戶訪問，在頁面停留時長網(wǎng)站停留時間某個網(wǎng)站被用戶訪問，在頁面停留時長跳出率只瀏覽一個頁面便離開網(wǎng)站的訪問次數(shù)占總訪問次數(shù)的百分比退出率指用戶訪問某網(wǎng)站的某個頁面之后，從瀏覽器中將與此網(wǎng)站相關的所有頁面全部關閉的次數(shù)占PV的百分比訪問次數(shù)訪問網(wǎng)站次數(shù)，可多次訪問轉(zhuǎn)換次數(shù)用戶到達轉(zhuǎn)化目標頁面的次數(shù)轉(zhuǎn)化率指在產(chǎn)生指定行為的用戶與訪問用戶之比活動效果指標活動單擊率用戶單擊活動鏈接的次數(shù)占總單擊次數(shù)的百分比活動參與人數(shù)參與活動的總?cè)藬?shù)活動轉(zhuǎn)化率用戶到達轉(zhuǎn)化目標的次數(shù)與活動用戶之比活動ROI(投資回報率)反映投入和產(chǎn)出的關系類別指標描述收入指標付費人數(shù)確認付費的總?cè)藬?shù)訂單數(shù)訂單的總數(shù)量，不包含退貨的訂單客單價每一個顧客平均購買商品的金額GMV(成交總額)指下單產(chǎn)生的總金額復購頻次重復購買同一商品的次數(shù)毛利額即“毛利潤”，是指銷售收入扣除主營業(yè)務的直接成本后的利潤部分毛利率毛利與銷售收入（或營業(yè)收入）的百分比用戶價值指標下單時間用戶最近一次的下單時間用戶下單頻次用戶下單的次數(shù)用戶消費總金額用戶同一地點消費的總金額任務1-2：電商產(chǎn)品數(shù)據(jù)處理與分析項目準備貳大數(shù)據(jù)分析工具簡介任務技能Hadoop是最為常用的一款大數(shù)據(jù)分析工具，通過與不同組件的相互配合完成海量數(shù)據(jù)的分析大數(shù)據(jù)分析組件現(xiàn)在的Hadoop已經(jīng)不再是單純的HDFS和MapReduce，而是一種標準，是其所支持的一系列數(shù)據(jù)操作技術的集合，其周邊生態(tài)囊括了流計算、OLAP、消息系統(tǒng)等等，這些技術被稱為組件大數(shù)據(jù)分析流程大數(shù)據(jù)分析可以分為六個階段，包括數(shù)據(jù)采集、數(shù)據(jù)集成、數(shù)據(jù)處理、數(shù)據(jù)分析、數(shù)據(jù)遷移、數(shù)據(jù)解釋大數(shù)據(jù)分析企業(yè)級應用數(shù)字經(jīng)濟是全球未來的發(fā)展方向，新一代信息技術同實體經(jīng)濟加速融合，數(shù)據(jù)作為新生產(chǎn)要素的創(chuàng)新引擎作用日益凸顯，將不斷為經(jīng)濟高質(zhì)量發(fā)展注入新動能任務1-2：電商產(chǎn)品數(shù)據(jù)處理與分析項目準備貳1大數(shù)據(jù)分析工具簡介由于數(shù)據(jù)量龐大，因此在生產(chǎn)環(huán)境中需要通過集群的方式完成數(shù)據(jù)的分析操作（1）Hadoop簡介Hadoop起源于Lucene的子項目Nutch，由DougCutting推出，最初作為一個開源的Web搜索引擎項目，但隨著網(wǎng)頁數(shù)量的不斷增加，可擴展性性出現(xiàn)問題，無法對海量的網(wǎng)頁進行存儲和索引任務1-2：電商產(chǎn)品數(shù)據(jù)處理與分析項目準備貳（1）Hadoop簡介在Nutch項目被重構后，性能飆升，可以運行在更多的機器上，并與雅虎組建開發(fā)團隊將分布式計算模塊從Nutch中剝離，被命名為“Hadoop”，最終實現(xiàn)了海量Web數(shù)據(jù)的處理任務1-2：電商產(chǎn)品數(shù)據(jù)處理與分析項目準備貳（2）Hadoop優(yōu)勢Hadoop是一個分布式計算平臺，用戶可以輕松地在Hadoop上開發(fā)和運行用于操作海量數(shù)據(jù)的應用程序，具有高擴展性、高效性和高容錯性等特點，給大數(shù)據(jù)的開發(fā)帶來了很多的方便易于使用高吞吐量開源支持多種語言高性價比高擴展性高效性高容錯性任務1-2：電商產(chǎn)品數(shù)據(jù)處理與分析項目準備貳（3）Hadoop版本Hadoop從問世至今，一共經(jīng)歷了3個大版本，分別是Hadoop1.0、Hadoop2.0和Hadoop3.0，其中，Hadoop1.0、Hadoop2.0是最有代表性的，目前最高版本即為Hadoop3.0任務1-2：電商產(chǎn)品數(shù)據(jù)處理與分析項目準備貳2大數(shù)據(jù)分析組件現(xiàn)在的Hadoop是其所支持的一系列數(shù)據(jù)操作技術的集合，其周邊生態(tài)囊括了流計算、OLAP、消息系統(tǒng)等等，這些技術被稱為組件（1）HDFSHDFS是一個分布式文件系統(tǒng)，Hadoop核心組件之一，主要用于數(shù)據(jù)文件的分布式存儲，提高了Hadoop數(shù)據(jù)讀寫的吞吐率，具有可擴展性、可靠性和高容錯性等特點任務1-2：電商產(chǎn)品數(shù)據(jù)處理與分析項目準備貳（2）MapReduceMapReduce是Hadoop的分布式計算框架，Hadoop核心組件之一，主要面向大型數(shù)據(jù)的并行計算和處理，提高了大數(shù)據(jù)分析的計算速度和可靠性，具有使用簡單、可大規(guī)模擴展、容錯能力強等優(yōu)勢任務1-2：電商產(chǎn)品數(shù)據(jù)處理與分析項目準備貳（3）YARNYARN是基于MapReduce演變而來，同樣是Hadoop核心組件之一，是一個通用的運行框架，為運算程序調(diào)度所需資源，例如MapReduce、Spark等實現(xiàn)數(shù)據(jù)的處理和運算就需要Yarn的支持任務1-2：電商產(chǎn)品數(shù)據(jù)處理與分析項目準備貳（4）HBaseHBase是一個建立在HDFS之上，面向列的針對結(jié)構化數(shù)據(jù)的分布式列存儲數(shù)據(jù)庫，具有高可靠、高性能、分布式存儲等優(yōu)點，可以實現(xiàn)海量數(shù)據(jù)的存儲任務1-2：電商產(chǎn)品數(shù)據(jù)處理與分析項目準備貳（5）RedisRedis是一個基于ANSIC語言開發(fā)的、開源的Key-Value內(nèi)存數(shù)據(jù)庫，是NoSQL數(shù)據(jù)庫的一種，具有性能高、數(shù)據(jù)類型豐富、原子操作等優(yōu)勢，并提供了多種語言的API任務1-2：電商產(chǎn)品數(shù)據(jù)處理與分析項目準備貳（6）StormStorm是一個分布式實時大數(shù)據(jù)處理系統(tǒng)，具有容錯性高、處理速度快、部署簡單等優(yōu)點，主要用于流計算，通常用于實時分析、在線機器學習、持續(xù)計算等場景任務1-2：電商產(chǎn)品數(shù)據(jù)處理與分析項目準備貳（7）HamaHama是基于BSP(BulkSynchronousParallel)計算技術建立在Hadoop上的分布式并行計算框架，主要用于大規(guī)模的科學計算（比如矩陣、圖論、網(wǎng)絡等），運行環(huán)境需要關聯(lián)Zookeeper、HBase、HDFS組件任務1-2：電商產(chǎn)品數(shù)據(jù)處理與分析項目準備貳（8）HiveHive是一種由facebook開源的、構建在Hadoop之上的數(shù)據(jù)倉庫工具，通過使用與SQL幾乎完全相同的HiveQL語言，能夠?qū)崿F(xiàn)海量結(jié)構化的日志數(shù)據(jù)統(tǒng)計，通常用于大數(shù)據(jù)的離線分析任務1-2：電商產(chǎn)品數(shù)據(jù)處理與分析項目準備貳（9）PigPig是由雅虎開源的一種基于MapReduce的并行數(shù)據(jù)分析工具，使用類似于SQL的面向數(shù)據(jù)流的語言PigLatin，通常用于分析較大數(shù)據(jù)集，并將其表示為數(shù)據(jù)流任務1-2：電商產(chǎn)品數(shù)據(jù)處理與分析項目準備貳（10）SparkSpark是一個基于內(nèi)存的、通用并行的分布式計算框架，可高速對海量數(shù)據(jù)進行分析，具有低延遲、分布式內(nèi)存計算、簡單易用等優(yōu)點，通常應用于批處理、迭代計算、交互式查詢、流處理等場景中任務1-2：電商產(chǎn)品數(shù)據(jù)處理與分析項目準備貳（11）SqoopSqoop是Hadoop中的一款數(shù)據(jù)庫操作工具，主要用于傳統(tǒng)關系數(shù)據(jù)庫、數(shù)據(jù)倉庫和Hadoop之間數(shù)據(jù)的傳輸任務1-2：電商產(chǎn)品數(shù)據(jù)處理與分析項目準備貳（12）MahoutMahout是ASF（ApacheSoftwareFoundation）推出的一個開源的、可擴展的機器學習和數(shù)據(jù)挖掘庫，提供了多種機器學習的經(jīng)典算法在，幫助開發(fā)人員更加方便快捷地進行機器學習的開發(fā)任務1-2：電商產(chǎn)品數(shù)據(jù)處理與分析項目準備貳（13）DrillDrill是一個開源的、低延遲的分布式海量數(shù)據(jù)交互式SQL查詢和分析引擎，不僅允許查詢?nèi)魏谓Y(jié)構的數(shù)據(jù)，還適用于各種非關系型數(shù)據(jù)存儲任務1-2：電商產(chǎn)品數(shù)據(jù)處理與分析項目準備貳（14）CrunchCrunch是一款架構在Hadoop之上的數(shù)據(jù)采集與分析框架，用于簡化MapReduce作業(yè)的編寫和執(zhí)行，可以實現(xiàn)日志數(shù)據(jù)的采集與分析任務1-2：電商產(chǎn)品數(shù)據(jù)處理與分析項目準備貳（15）LuceneLucene是Apache下的一個基于Java開發(fā)的、開源的全文搜索引擎開發(fā)工具包，包含完整的查詢引擎、索引引擎以及部分文本分詞引擎，具有穩(wěn)定性高、索引性能優(yōu)越、搜索算法高效、準確以及跨平臺的特性任務1-2：電商產(chǎn)品數(shù)據(jù)處理與分析項目準備貳（16）impalampala是一個高效的、基于Hive并使用內(nèi)存進行計算的快速SQL查詢引擎，是一個使用C++和Java編寫的開源軟件，兼顧ETL功能，具有實時、批處理、多并發(fā)等優(yōu)點任務1-2：電商產(chǎn)品數(shù)據(jù)處理與分析項目準備貳3大數(shù)據(jù)分析流程在大數(shù)據(jù)分析過程中，由于數(shù)據(jù)來源或采集方法的不同，數(shù)據(jù)的類型和分析方法也千差萬別，大數(shù)據(jù)分析可以分為六個階段，包括數(shù)據(jù)采集、數(shù)據(jù)集成、數(shù)據(jù)處理、數(shù)據(jù)分析、數(shù)據(jù)遷移、數(shù)據(jù)解釋數(shù)據(jù)采集是數(shù)據(jù)分析的基石數(shù)據(jù)采集對采集后的數(shù)據(jù)進行適當?shù)念A處理、清洗數(shù)據(jù)處理數(shù)據(jù)集成用于實現(xiàn)處理后數(shù)據(jù)的存儲數(shù)據(jù)集成對海量數(shù)據(jù)進行分析數(shù)據(jù)分析將數(shù)據(jù)遷移到符合業(yè)務邏輯關系型數(shù)據(jù)庫中數(shù)據(jù)遷移數(shù)據(jù)解釋指分析結(jié)果的解釋數(shù)據(jù)解釋任務1-2：電商產(chǎn)品數(shù)據(jù)處理與分析項目準備貳以電商產(chǎn)品數(shù)據(jù)分析為例，大數(shù)據(jù)分析基本流程任務1-2：電商產(chǎn)品數(shù)據(jù)處理與分析項目準備貳4大數(shù)據(jù)分析企業(yè)級應用格物致治一體化大數(shù)據(jù)平臺作為一種強調(diào)資源整合、集中配置、能力沉淀、分步執(zhí)行的運作機制，是一體化數(shù)據(jù)組件或模塊的構建套件，一體化大數(shù)據(jù)平臺的建設為數(shù)據(jù)治理效率的提升、業(yè)務流程與組織架構的升級、運營與決策的精細化提供強力支撐任務1-2：電商產(chǎn)品數(shù)據(jù)處理與分析項目準備貳安裝并啟動虛擬機Step1進行Hadoop測試Step2進行Hive、Spark測試Step3進行Sqoop測試Step4大數(shù)據(jù)分析環(huán)境的啟動和測試在Linux虛擬機中啟動項目服務與您共同成長項目二

電商產(chǎn)品數(shù)據(jù)分布式存儲使用HDFSShell管理電商產(chǎn)品數(shù)據(jù)目錄Content1使用hdfs庫管理電商產(chǎn)品數(shù)據(jù)2數(shù)據(jù)龐大導致主機壓力極大高速發(fā)展下的電商行業(yè)使數(shù)據(jù)量指數(shù)級增長項目導言零為客戶提供了更優(yōu)質(zhì)的服務HDFS的出現(xiàn)學習目標零知識目標了解HDFS、Flume等相關知識；熟悉HDFS存儲機制及Flume基本架構；掌握HDFSShell和FlumeNG命令的基本使用；具有實現(xiàn)大數(shù)據(jù)項目日志數(shù)據(jù)采集和存儲的能力。技能目標具備使用HDFSShell操作分布式文件系統(tǒng)的能力；具備使用HDFSShell對分布式文件系統(tǒng)的權限控制能力；具備使用Python連接并操作分布式文件系統(tǒng)的能力。素養(yǎng)目標具備精益求精、堅持不懈的精神具有團隊協(xié)作能力；具備靈活的思維和處理分析問題的能力；具有責任心。任務1-1：電商產(chǎn)品數(shù)據(jù)背景及數(shù)據(jù)分析概述壹什么是HDFS任務技能HDFS在最開始時，是作為ApacheNutch搜索引擎項目的基礎架構而開發(fā)，現(xiàn)在是ApacheHadoop核心項目的一部分HDFS存儲架構HDFS采用Master/Slave架構（服務器主從架構），即一個HDFS集群是由一個NameNode、一個SecondaryNameNode和一定數(shù)目的DataNode組成HDFS文件存取機制HDFS以統(tǒng)一目錄樹的形式實現(xiàn)自身文件的存儲，客戶端只需指定對應的目錄樹即可完成文件的訪問，不需要獲取具體的文件存儲位置HDFSShell基礎命令在Linux中通常使用Shell命令的方式完成對文件系統(tǒng)的操作，對于HDFS來說同樣可以使用Shell命令的方式操作HDFSShell管理命令在HDFS中，HDFSShell管理命令主要用于對HDFS相關內(nèi)容進行操作任務2-1：使用HDFSShell管理電商產(chǎn)品數(shù)據(jù)壹1什么是HDFSHDFS，全稱為HadoopDistributedFileSystem，Hadoop中存儲數(shù)據(jù)的基石，存儲著所有的數(shù)據(jù)，具有高可靠性，高容錯性，高可擴展性，高吞吐量等特征（1）塊存儲HDFS在存儲文件時，會將一個大文件拆分成多個數(shù)據(jù)塊（block）進行存儲，默認狀態(tài)下每個數(shù)據(jù)塊的大小為128MB，當文件不足128MB時不進行拆分任務2-1：使用HDFSShell管理電商產(chǎn)品數(shù)據(jù)壹（2）塊存儲的優(yōu)點支持大規(guī)模文件存儲適合備份數(shù)據(jù)簡單的系統(tǒng)設計任務2-1：使用HDFSShell管理電商產(chǎn)品數(shù)據(jù)壹2HDFS存儲架構HDFS采用Master/Slave架構（服務器主從架構），即一個HDFS集群是由一個NameNode、一個SecondaryNameNode和一定數(shù)目的DataNode組成任務2-1：使用HDFSShell管理電商產(chǎn)品數(shù)據(jù)壹（1）合并fsimage與edits的流程任務2-1：使用HDFSShell管理電商產(chǎn)品數(shù)據(jù)壹3HDFS文件存取機制在HDFS中，通過NameNode進程可以對目錄樹和文件真實存儲位置進行相應的管理，并且在進行HDFS文件存儲的相關設計時，嚴格的遵循著自己的存儲設計原則（1）HDFS讀文件過程HDFS可以將存儲在塊中的數(shù)據(jù)以存儲時的格式讀取出來，并交給后面的相關操作進行使用任務2-1：使用HDFSShell管理電商產(chǎn)品數(shù)據(jù)壹（2）HDFS寫文件過程HDFS寫文件的過程就是將數(shù)據(jù)存儲到HDFS中。整個寫入過程的實現(xiàn)，同樣需要讀取過程中使用的相關模塊，只是模塊之間相互作用的順序不同任務2-1：使用HDFSShell管理電商產(chǎn)品數(shù)據(jù)壹（3）HDFS監(jiān)控在HDFS中，存在一個用于監(jiān)控HDFS文件情況的WebUI界面，屬于Hadoop監(jiān)控界面的子界面，可通過“:50070/explorer.html#/”地址進入該界面任務2-1：使用HDFSShell管理電商產(chǎn)品數(shù)據(jù)壹4HDFSShell基礎命令在Linux中通常使用Shell命令的方式完成對文件系統(tǒng)的操作，對于HDFS來說同樣可以使用Shell命令的方式操作，通過HDFSShell即可完成文件或文件夾的增加、刪除、修改、查看等（1）HDFSShell語法hdfsdfs[HDFSshell命令]任務2-1：使用HDFSShell管理電商產(chǎn)品數(shù)據(jù)壹（2）-ls、-ls-R-ls與-ls-R命令用于查看指定路徑下的目錄結(jié)構，區(qū)別在于-ls-R會返回包含子集的目錄結(jié)構，-ls僅返回指定目錄的結(jié)構hdfsdfs-ls<路徑>hdfsdfs-ls-R<路徑>（3）-du、-du-s、-count//查詢目錄或文件大小hdfsdfs-du<路徑>//匯總文件（文件夾）的大小hdfsdfs-du-s<路徑>//文件和目錄數(shù)量、大小hdfsdfs-count[-q]<路徑>任務2-1：使用HDFSShell管理電商產(chǎn)品數(shù)據(jù)壹（4）-mv和-cp在HDFS中，-mv和-cp是兩個用于不同目錄操作的命令//HDFS移動操作hdfsdfs-mv<源路徑><目的路徑>//HDFS復制操作hdfsdfs-cp<源路徑><目的路徑>（5）-rm、-rm-r//刪除目錄hdfsdfs-rm<目錄路徑>//遞歸刪除hdfsdfs-rm-r<目錄路徑>-rm命令用于刪除HDFS文件系統(tǒng)中的文件或空白文件夾、-rm-r命令能夠遞歸刪除指定路徑下的全部文件和文件夾任務2-1：使用HDFSShell管理電商產(chǎn)品數(shù)據(jù)壹（6）-put在HDFS中，-put命令主要用于本地文件或目錄的上傳，其接收兩個參數(shù)，第一個參數(shù)為本地文件或目錄路徑；第二個參數(shù)為目標路徑，即HDFS存儲路徑hdfsdfs-put<多個linux上的文件><hdfs路徑>（7）-get、-getmerge//獲取文件到本地hdfsdfs-get<源路徑><linux路徑>//將文件合并獲取到本地hdfsdfs-get<源路徑><linux路徑>-get命令用于從指定hdfs路徑下獲取文件到本地文件系統(tǒng)，-getmerge命令用于將HDFS系統(tǒng)中的文件合并存儲到本地任務2-1：使用HDFSShell管理電商產(chǎn)品數(shù)據(jù)壹（8）-cat和-tail-cat命令用于查看HDFS文件系統(tǒng)中文件的內(nèi)容，文件中的全部內(nèi)容會打印到命令行窗口中，-tail命令用于查看文件尾部信息//獲取文件到本地hdfsdfs-cat<hdfs路徑>//將文件合并獲取到本地hdfsdfs-tail<文件>（9）-touchzhdfsdfs-touchz<文件路徑>-touchz命令同樣用于創(chuàng)建操作，但與-mkdir命令不同，通過-touchz命令添加文件名稱及格式，可以進行沒有任何內(nèi)容存在的空白文件的創(chuàng)建任務2-1：使用HDFSShell管理電商產(chǎn)品數(shù)據(jù)壹5HDFSShell管理命令在HDFS中，HDFSShell管理命令主要用于對HDFS相關內(nèi)容進行操作，包含安全模式開啟關閉、系統(tǒng)升級、存儲副本恢復等（1）HDFSShell管理命令語法hdfsdfsadminHDFSShell管理命令任務2-1：使用HDFSShell管理電商產(chǎn)品數(shù)據(jù)壹（2）-report-report是HDFSShell管理命令中一個用于統(tǒng)計HDFS基本信息的命令，在使用時不需要添加任何參數(shù)屬性解釋ConfiguredCapacity配置容量PresentCapacity現(xiàn)有容量DFSRemaining剩余DFS容量DFSUsed正在使用的DFS容量DFSUsed正在使用DFS的容量占全部容量的百分比Underreplicatedblocks正在復制塊的個數(shù)Blockswithcorruptreplicas具有損壞副本塊的個數(shù)Missingblocks缺少塊個數(shù)Livedatanodes實時數(shù)據(jù)節(jié)點ConfiguredCacheCapacity配置的緩存容量CacheUsed被使用的緩存容量CacheRemaining剩余高速緩存容量hdfsdfsadmin-report任務2-1：使用HDFSShell管理電商產(chǎn)品數(shù)據(jù)壹（3）-safemode-safemode是一個安全模式操作命令，用于保證HDFS數(shù)據(jù)的完整性和安全性參數(shù)解釋enter進入安全模式leave離開安全模式get獲取當前安全模式信息hdfsdfsadmin-safemodeenter|leave|get|任務2-1：使用HDFSShell管理電商產(chǎn)品數(shù)據(jù)壹（4）-finalizeUpgrade-finalizeUpgrade命令可以將DataNode和NameNode上存儲的舊版本HDFS數(shù)據(jù)移除后進行更新操作參數(shù)解釋true開啟存儲副本恢復操作false關閉存儲副本恢復操作check檢查存儲副本恢復操作狀態(tài)hdfsdfsadmin-finalizeUpgrade任務2-1：使用HDFSShell管理電商產(chǎn)品數(shù)據(jù)壹（5）-setQuota、-clrQuota-setQuota用于設置指定目錄中最多可以包含目錄和文件的總數(shù)，-clrQuota命令則只需指定目錄路徑即可清除指定文件的配額//設置配額hdfsdfsadmin-setQuota配額目錄路徑//清除配額hdfsdfsadmin-clrQuota目錄路徑（6）-setSpaceQuota、-clrSpaceQuota-setSpaceQuota和-clrSpaceQuota命令同樣用于配額的操作，不同的是-setSpaceQuota和-clrSpaceQuota用于空間配額的操作任務2-1：使用HDFSShell管理電商產(chǎn)品數(shù)據(jù)壹創(chuàng)建數(shù)據(jù)存儲目錄結(jié)構Step1上傳數(shù)據(jù)文件后查看大小Step2數(shù)據(jù)文件權限、組別、用戶設置Step3文件夾大小統(tǒng)計Step4將電商產(chǎn)品數(shù)據(jù)上傳到HDFS分布式文件系統(tǒng)中通過HDFSShell指令完成電商數(shù)據(jù)存儲目錄構建、權限設置、文件檢查等操作任務2-2：使用hdfs庫管理電商產(chǎn)品數(shù)據(jù)貳hdfs庫簡介任務技能HDFS在最開始時，是作為ApacheNutch搜索引擎項目的基礎架構而開發(fā)，現(xiàn)在是ApacheHadoop核心項目的一部分hdfs庫方法HDFS以統(tǒng)一目錄樹的形式實現(xiàn)自身文件的存儲，客戶端只需指定對應的目錄樹即可完成文件的訪問，不需要獲取具體的文件存儲位置任務2-2：使用hdfs庫管理電商產(chǎn)品數(shù)據(jù)貳在進行hdfs的相關操作時，發(fā)現(xiàn)通過命令窗口的方式操作hdfs便捷性、靈活性較低，所以在實際的操作中，一般會選擇使用其他語言提供的包或插件，在有需要時自動執(zhí)行相關的hdfs操作，Python提供的hdfs庫是一個較為成熟的工具，只需通過簡單的鏈接操作，獲得鏈接對象即可操作HDFS文件系統(tǒng)1pythonhdfs庫簡介任務2-2：使用hdfs庫管理電商產(chǎn)品數(shù)據(jù)貳2hdfs庫方法（1）連接HDFSPython提供了一個Client()方法用于實現(xiàn)hdfs的連接，只需傳入HDFS服務地址即可連接hdfsfromhdfsimport*client=Client("hdfs服務地址")參數(shù)解釋url指定格式為“ip：端口”root指定的hdfs根目錄proxy指定登錄的用戶timeout設置連接超時時間seesion指定用戶發(fā)送請求任務2-2：使用hdfs庫管理電商產(chǎn)品數(shù)據(jù)貳（2）client對象常用方法Python的hdfs庫還提供了多個用于hdfs連接后對其進行操作的方法，如文件的創(chuàng)建、刪除等操作方法解釋說明read()讀取HDFS中文件內(nèi)容write()寫入數(shù)據(jù)content()檢索文件或目錄的內(nèi)容摘要status()獲取路徑具體信息list()獲取指定路徑的子目錄信息makedirs()創(chuàng)建目錄rename()重命名操作delete()刪除操作upload()上傳數(shù)據(jù)操作download()下載數(shù)據(jù)操作任務2-2：使用hdfs庫管理電商產(chǎn)品數(shù)據(jù)貳（3）相關方法的使用及參數(shù)介紹1、read()方法用于讀取HDFS文件系統(tǒng)中文件的內(nèi)容client.read(hdfs_path,encoding,delimiter)hdfs_path：HDFS中的文件路徑。encoding：編碼格式。delimiter：分隔符。2、content()方法用于檢索HDFS中文件或目錄的內(nèi)容摘要，可用作判斷文件或目錄是否存在client.content(hdfs_path,strict=True)hdfs_path：檢索路徑。strict：當值設置為True時檢索的目標文件或目錄不存在會引發(fā)異常，若設置為False時文件或目錄不存在會返回None。任務2-2：使用hdfs庫管理電商產(chǎn)品數(shù)據(jù)貳（3）相關方法的使用及參數(shù)介紹3、status()方法主要用于獲取路徑具體信息Client.status(hdfs_path,strict=True)hdfs_path，HDFS路徑。strict：設置為True時，如果hdfs_path路徑不存在就會拋出異常，如果設置為False，如果路徑為不存在則返回None。4、list()方法主要用于獲取指定路徑的子目錄信息，參數(shù)與status()方法一致client.list(hdfs_path,strict=True)任務2-2：使用hdfs庫管理電商產(chǎn)品數(shù)據(jù)貳（3）相關方法的使用及參數(shù)介紹5、list()方法主要用于創(chuàng)建目錄，其同樣接受兩個參數(shù)，第一個參數(shù)為hdfs_path，表示hdfs目錄文件夾；第二個參數(shù)為permission，用于設置權限Client.makedirs(hdfs_path,permission=None)6、rename()方法主要用于hdfs中文件或目錄的重命名操作client.rename(hdfs_src_path,hdfs_dst_path）dfs_src_path：源路徑。hdfs_dst_path：目標路徑，存在移入，不存在引發(fā)hfdserror異常。任務2-2：使用hdfs庫管理電商產(chǎn)品數(shù)據(jù)貳（3）相關方法的使用及參數(shù)介紹7、delete()方法主要用于刪除hdfs上指定的文件或文件夾client.delete(hdfs_path,recursive=False)8、download()方法主要用于下載hdfs上指定的文件或文件夾，與upload()方法是一對功能相反的方法，并且包含的大部分參數(shù)基本相同Client.download(hdfs_path,local_path,overwrite=False,n_threads=1,temp_dir=None,**kwargs)hdfs_path：hdfs路徑。local_path：本地路徑。local_path：是否是覆蓋性下載文件文件。n_threads：啟動的線程數(shù)目。temp_dir：當overwrite=true時，本地文件一旦存在，則會在下載完之后進行交換。hdfs_path：文件路徑。recursive：表示需要被刪除文件和其子目錄，值為true/false，默認為False，設置為False時，當文件或目錄不存在，則會拋出異常。任務2-2：使用hdfs庫管理電商產(chǎn)品數(shù)據(jù)貳（3）相關方法的使用及參數(shù)介紹9、write()方法用于向指定的HDFS文件系統(tǒng)中的文件中寫入數(shù)據(jù)，若路徑不存在會自動創(chuàng)建client.write（hdfs_path，data=None，overwrite=False，permission=None，blocksize=None，replication=None，buffersize=None，append=False，encoding=None）hdfs_path：寫入路徑；data：本地數(shù)據(jù),可以為變量；overwrite：是否允許覆蓋；permission：權限；blocksize：數(shù)據(jù)塊大小；replication：文件復制數(shù)量；buffersize：上傳區(qū)域大小；append：是否創(chuàng)建新文件；encoding：用于對寫入的數(shù)據(jù)進行序列化的編碼。任務2-2：使用hdfs庫管理電商產(chǎn)品數(shù)據(jù)貳（3）相關方法的使用及參數(shù)介紹10、download()方法主要用于下載hdfs上指定的文件或文件夾，與upload()方法是一對功能相反的方法，并且包含的大部分參數(shù)基本相同Client.download(hdfs_path,local_path,overwrite=False,n_threads=1,temp_dir=None,**kwargs)hdfs_path：hdfs路徑。local_path：本地路徑。local_path：是否是覆蓋性下載文件文件。n_threads：啟動的線程數(shù)目。temp_dir：當overwrite=true時，本地文件一旦存在，則會在下載完之后進行交換。任務2-2：使用hdfs庫管理電商產(chǎn)品數(shù)據(jù)貳引入hdfs庫并創(chuàng)建與hdfs的連接Step1使用list()方法與content()命令Step2編寫python腳本使用read()方法Step3執(zhí)行upload.py腳本并查看文件是否上傳成功Step4實現(xiàn)“某電商產(chǎn)品數(shù)據(jù)的處理與分析”項目的數(shù)據(jù)上傳通過Shell命令和Pythonhdfs庫與您共同成長項目三

電商產(chǎn)品數(shù)據(jù)分布式存儲使用正則表達式匹配電商產(chǎn)品數(shù)據(jù)目錄Content1使用HadoopStreaming處理電商產(chǎn)品數(shù)據(jù)2數(shù)據(jù)缺失數(shù)據(jù)格式不統(tǒng)一項目導言零使用MapReduce框架對數(shù)據(jù)進行清洗學習目標零知識目標了解MapReduce；熟悉MapReduce的架構；掌握YARN與MapReduce的關系；掌握正則表達式元字符含義。技能目標具備使用正則表達式匹配文本的能力；具備運行HadoopStreaming的能力；具備實現(xiàn)數(shù)據(jù)清洗的能力。素養(yǎng)目標具有健康的體魄、健全的人格和健康的個性；具有良好的行為習慣和良好的心理素質(zhì)；具有較強的勞動組織能力、集體意識和社會責任心；具有發(fā)現(xiàn)問題、分析問題、解決問題的能力。任務3-1：使用正則表達式匹配電商產(chǎn)品數(shù)據(jù)壹任務技能MapReduce簡介MapReduce是由Google公司研究并提出的分布式運算編程框架，主要是為了解決搜索引擎中大規(guī)模網(wǎng)頁數(shù)據(jù)的并行化處理問題YARN簡介ApacheHadoopYARN，全稱YetAnotherResourceNegotiator，是Hadoop通用資源管理和調(diào)度平臺

正則表達式正則表達式（RegularExpression，RE），又稱規(guī)則表達式，在代碼中常簡寫為regex、regexp或RE，是一種文本模式任務3-1：使用正則表達式匹配電商產(chǎn)品數(shù)據(jù)壹1MapReduce簡介HadoopMapReduce極大地方便了編程人員在不會分布式編程的情況下，將自己的程序運行在分布式系統(tǒng)上（1）MapReduce起源MapReduce是由Google公司研究并提出的分布式運算編程框架，主要是為了解決搜索引擎中大規(guī)模網(wǎng)頁數(shù)據(jù)的并行化處理問題。任務3-1：使用正則表達式匹配電商產(chǎn)品數(shù)據(jù)壹（2）什么是MapReduceMapReduce可以分成Map和Reduce兩部分理解，Map是一個映射過程，能夠?qū)⒁唤M數(shù)據(jù)按照某種Map函數(shù)映射成新的數(shù)據(jù)，Reduce是一個歸納過程，把若干組映射結(jié)果進行匯總并輸出映射、變換、過濾的過程。一條數(shù)據(jù)進入map會被處理成多條數(shù)據(jù)MapReduce分解、縮小、歸納的過程。一組數(shù)據(jù)進入reduce會被歸納為一組數(shù)據(jù)（或者多組數(shù)據(jù)）任務3-1：使用正則表達式匹配電商產(chǎn)品數(shù)據(jù)壹（3）MapReduce1.0架構MapReduce目前有兩個版本分別為MapReduce1.0和基于YARN的MapReduce2.0，與HDFS一樣相同，同樣采用了Master/Slave架構，主要由Client、JobTracker、TaskTracker、Task四個部分組成任務3-1：使用正則表達式匹配電商產(chǎn)品數(shù)據(jù)壹（4）分布式處理框架的“HelloWorld”分布式處理架構也擁有自己的“HelloWorld”程序就是WordCount（單詞計數(shù)）任務3-1：使用正則表達式匹配電商產(chǎn)品數(shù)據(jù)壹2YARN簡介YARN是Hadoop通用資源管理和調(diào)度平臺，能夠為MapReduce、storm、Spark等計算框架，即上層應用，提供統(tǒng)一的資源管理和調(diào)度，使資源管理、數(shù)據(jù)共享、集群利用率等方面有了極大的提升任務3-1：使用正則表達式匹配電商產(chǎn)品數(shù)據(jù)壹（1）設計目標YARN也被稱為下一代計算平臺，YARN將部分職責委派給TaskTracker，因為集群中有許多TaskTracker任務3-1：使用正則表達式匹配電商產(chǎn)品數(shù)據(jù)壹（2）YARN結(jié)構中各組件說明ResourceManager負責統(tǒng)一管理和調(diào)度各NodeManager上的資源NodeManager各節(jié)點的資源和任務管理器，負責節(jié)點的維護工作ApplicationMaster負責調(diào)度和協(xié)調(diào)具體應用程序ContainerYARN資源）的抽象，用于資源分配時資源劃分的單位任務3-1：使用正則表達式匹配電商產(chǎn)品數(shù)據(jù)壹（3）YARN執(zhí)行流程MRApplicationMaster將執(zhí)行的結(jié)果反饋給集群的應用管理者ResourceManager接收到請求后,ApplicationManager與NodeManager進行通信ResourceScheduler將資源分配給MRApplicationMaster，NodeManager啟動MapTask和ReduceTaskclient可以通過瀏覽器訪問MRApplicationMaster去監(jiān)控MapTask和ReduceTask的執(zhí)行情況MapTask和ReduceTask將執(zhí)行的結(jié)果反饋給MRApplicationMasterclient向ResourceManager發(fā)出命令請求MRApplicationMaster創(chuàng)建完成后向ResourceManager發(fā)送已經(jīng)創(chuàng)建完畢并注冊的信息，同時向ResourceScheduler申請資源執(zhí)行結(jié)束任務3-1：使用正則表達式匹配電商產(chǎn)品數(shù)據(jù)壹3正則表達式正則表達式是對字符串操作的一種邏輯公式，就是用事先定義好的一些特定字符及這些特定字符的組合，組成一個“規(guī)則字符串”，這個“規(guī)則字符串”用來表達對字符串的一種過濾邏輯正則表達式任務3-1：使用正則表達式匹配電商產(chǎn)品數(shù)據(jù)壹（1）正則表達式定義正則表達式是字符串，它包含文本和特殊字符。利用文字與特定字符的混合，可以定義復雜的字符串匹配與取代類型任務3-1：使用正則表達式匹配電商產(chǎn)品數(shù)據(jù)壹（2）Python正則的應用Python中內(nèi)置了RE庫（正則表達式庫），不需要進行下載安裝，在使用時只需要使用importre引入即可//第一種方式r'正則表達式'//第二種方式,flags用于設置匹配方式，可選填pile(r'正則表達式',flags)正則表達式定義完成后，即可通過RE庫提供的多種方法執(zhí)行正則表達式任務3-1：使用正則表達式匹配電商產(chǎn)品數(shù)據(jù)壹（3）正則表達式執(zhí)行方法search()方法能夠?qū)φ麄€字符串內(nèi)容進行搜索，找到第一個匹配成功的內(nèi)容，并以Match對象形式返回，當匹配不成功則返回Nonere.search(pattern,string,flags)pattern：匹配的正則表達式string：要匹配的字符串flags：標志位，用于控制正則表達式的匹配方式參數(shù)值作用re.I忽略大小寫re.L表示特殊字符集\w,\W,\b,\B,\s,\S依賴于當前環(huán)境re.M多行模式re.X為了增加可讀性，忽略空格和#后面的注釋任務3-1：使用正則表達式匹配電商產(chǎn)品數(shù)據(jù)壹（3）正則表達式執(zhí)行方法match()方法可以從整個字符串的起始位置開始搜索匹配正則表達式的內(nèi)容，如果不是起始位置匹配成功的返回None，當起始位置開始匹配成功則以Match對象形式返回，參數(shù)及作用與search()方法相同re.match(pattern,string,flags)pattern：匹配的正則表達式string：要匹配的字符串flags：標志位，用于控制正則表達式的匹配方式參數(shù)值作用re.I忽略大小寫re.L表示特殊字符集\w,\W,\b,\B,\s,\S依賴于當前環(huán)境re.M多行模式re.X為了增加可讀性，忽略空格和#后面的注釋任務3-1：使用正則表達式匹配電商產(chǎn)品數(shù)據(jù)壹（3）正則表達式執(zhí)行方法findall()方法在字符串中找到正則表達式所匹配的所有子串，并返回一個列表，如果有多個匹配模式，則返回元組列表，如果沒有找到匹配的，則返回空列表re.findall(pattern,string,flags)pattern：匹配的正則表達式string：要匹配的字符串flags：標志位，用于控制正則表達式的匹配方式參數(shù)值作用re.I忽略大小寫re.L表示特殊字符集\w,\W,\b,\B,\s,\S依賴于當前環(huán)境re.M多行模式re.X為了增加可讀性，忽略空格和#后面的注釋任務3-1：使用正則表達式匹配電商產(chǎn)品數(shù)據(jù)壹（3）正則表達式執(zhí)行方法split()可以將字符串中符合正則表達式的字符做為分割符將整個字符串分割，并以列表類型返回分割后的內(nèi)容，當沒有符合字符時，則將整個字符串以列表形式返回re.split(pattern,string,maxsplit,flags)maxsplit：分隔次數(shù)，maxsplit=1分隔一次，默認為0，不限制次數(shù)任務3-1：使用正則表達式匹配電商產(chǎn)品數(shù)據(jù)壹編輯正則表達式Step1獲取正則表達式匹配的結(jié)果Step2格式化輸出Step3運行代碼Step4電商產(chǎn)品數(shù)據(jù)的處理與分析使用正則表達式進行配并輸出為每列使用\t分割的數(shù)據(jù)任務3-2：使用HadoopStreaming處理電商產(chǎn)品數(shù)據(jù)貳HadoopStreaming簡介任務技能HDFS在最開始時，是作為ApacheNutch搜索引擎項目的基礎架構而開發(fā)，現(xiàn)在是ApacheHadoop核心項目的一部分HadoopStreaming使用HDFS以統(tǒng)一目錄樹的形式實現(xiàn)自身文件的存儲，客戶端只需指定對應的目錄樹即可完成文件的訪問，不需要獲取具體的文件存儲位置任務3-2：使用HadoopStreaming處理電商產(chǎn)品數(shù)據(jù)貳Streamming主要用于對文字進行處理（textprocessing），通過Streaming能夠通過各種腳本語言，快速的處理大量的文本文件1HadoopStreaming簡介任務3-2：使用HadoopStreaming處理電商產(chǎn)品數(shù)據(jù)貳2HadoopStreaming使用使用HadoopStreaming運行MapReduce程序非常簡單，只需在Hadoop安裝包bin目錄下，在hadoop腳本后添加Streamingjar包的完整路徑即可實現(xiàn)程序的運行hadoopjarhadoop-streaming.jar\-D="streaming_wordcount"\-Dmapred.map.tasks=3\-Dmapred.reduce.tasks=3\-Dmapred.job.priority=3\-input/input/\-output/output/\-mapperpythonmapper.py\-reducerpythonreducer.py\-file./mapper.py\-file./reducer.py：作業(yè)名稱；mapred.map.tasks：map任務數(shù)量；mapred.reduce.tasks：reduce任務數(shù)量；mapred.job.priority：作業(yè)優(yōu)先級；-input：在HDFS上的作業(yè)輸入路徑，支持通配符，支持多個文件；-output：在HDFS上的作業(yè)結(jié)果輸出路徑；-mapper：mapper可執(zhí)行程序；-reducer：reducer可執(zhí)行程序；-file：分發(fā)本地文件。任務3-2：使用HadoopStreaming處理電商產(chǎn)品數(shù)據(jù)貳編寫數(shù)據(jù)清洗程序并執(zhí)行數(shù)據(jù)清洗Step1使用正則表達式進行評論分詞Step2使用MapReduce進行詞頻統(tǒng)計Step3將結(jié)果保存到HDFS分布式文件系統(tǒng)中Step4電商產(chǎn)品數(shù)據(jù)的處理與分析項目中數(shù)據(jù)的清洗操作HDFS分布式文件系統(tǒng)與您共同成長項目四

電商產(chǎn)品數(shù)據(jù)離線分析使用Hive創(chuàng)建電商產(chǎn)品數(shù)據(jù)庫目錄Content1使用Hve對商產(chǎn)品數(shù)據(jù)統(tǒng)計2使用Spark創(chuàng)建基于電商產(chǎn)品數(shù)據(jù)的分布式數(shù)據(jù)容器3使用SparkSQL完成電商產(chǎn)品數(shù)據(jù)分析4固定的周期進行數(shù)據(jù)分析離線數(shù)據(jù)分析技術項目導言零SparkSQLHive學習目標零知識目標了解Hive相關知識；熟悉Hive數(shù)據(jù)的操作；熟悉DataFrame創(chuàng)建；掌握SparkSQL的數(shù)據(jù)操作；具有實現(xiàn)海量數(shù)據(jù)離線分析的能力。技能目標具備使用HiveQL進行數(shù)據(jù)操作的能力；具備掌握Hive數(shù)據(jù)查詢命令使用的能力；具備創(chuàng)建DataFrame的能力；具備應用SparkSQL分析數(shù)據(jù)的能力。素養(yǎng)目標具備團隊意識；具有理論聯(lián)系實際的素質(zhì)和創(chuàng)新能力；具備處理人際關系的能力。任務4-1：使用Hive創(chuàng)建電商產(chǎn)品數(shù)據(jù)庫壹Hive簡介任務技能Hive是一個建立在Hadoop上用于處理結(jié)構化數(shù)據(jù)的數(shù)據(jù)倉庫工具Hive表操作表主要由存儲的數(shù)據(jù)和描述表格中數(shù)據(jù)形式的元數(shù)據(jù)組成，存放在分布式文件系統(tǒng)中，當表中未存在數(shù)據(jù)時，該表在HDFS中將以空文件夾存在Hive數(shù)據(jù)庫操作通過HiveQL（HQL）語句完成對數(shù)據(jù)庫和表的相關操作。目前，常用的數(shù)據(jù)庫操作有數(shù)據(jù)庫創(chuàng)建、數(shù)據(jù)庫查看、數(shù)據(jù)庫選擇、數(shù)據(jù)庫刪除Hive數(shù)據(jù)操作與傳統(tǒng)關系型數(shù)據(jù)庫不同，Hive數(shù)據(jù)倉庫提供了多種數(shù)據(jù)的增加操作，包括數(shù)據(jù)的導入、導出、插入任務4-1：使用Hive創(chuàng)建電商產(chǎn)品數(shù)據(jù)庫壹1Hive簡介Hive沒有專門的數(shù)據(jù)存儲格式，其所有數(shù)據(jù)均以text、SequenceFile、ParquetFile等格式存在于HDFS中，只需在創(chuàng)建表時通過列分隔符和行分隔符即可定義Hive表中的數(shù)據(jù)結(jié)構（1）Hive優(yōu)缺點易上手；提供統(tǒng)一的元數(shù)據(jù)管理；存在多個接口，如Beeline、ODBC、JBCD、python、Thrift等；有較高的可擴展性，Hive可以做到隨擴展集群規(guī)模且不需要重啟服務；具有較強延展性，用戶可根據(jù)自己的需求自定義函數(shù)；良好的容錯性，可以保障即使有節(jié)點出現(xiàn)問題，SQL語句仍可完成執(zhí)行；不支持事務，Hive不支持記錄級別的增刪改操作，但用可通過查詢生成新表或按將結(jié)果保存到文件中；延遲較高，因為MapReducejob的啟動耗時較長所以Hive的查詢延時也很嚴重，不能應用在交互查詢系統(tǒng)中。調(diào)優(yōu)困難；可調(diào)控性差。任務4-1：使用Hive創(chuàng)建電商產(chǎn)品數(shù)據(jù)庫壹Hive使用服務器—客戶機（C/S）模式的架構，由MetaStore、Client、Driver和Hadoop組成，可通過交互接口接收SQL命令，使用Driver對指令進行翻譯后生成MapReduce并提交到Hadoop執(zhí)行（2）Hive體系架構任務4-1：使用Hive創(chuàng)建電商產(chǎn)品數(shù)據(jù)庫壹2Hive數(shù)據(jù)庫操作Hive作為一個數(shù)據(jù)倉庫工具雖然與傳統(tǒng)關系型數(shù)據(jù)庫有本質(zhì)區(qū)別，但卻提供了與傳統(tǒng)數(shù)據(jù)庫類似的概念，可以通過HiveQL（HQL）語句完成對數(shù)據(jù)庫和表的相關操作命令描述CREATEDATABASE創(chuàng)建數(shù)據(jù)庫SHOWDATABASES查看數(shù)據(jù)庫名稱DESCRIBEDATABASE查看數(shù)據(jù)庫信息USE選擇數(shù)據(jù)庫DROPDATABASE刪除數(shù)據(jù)庫任務4-1：使用Hive創(chuàng)建電商產(chǎn)品數(shù)據(jù)庫壹（1）數(shù)據(jù)庫創(chuàng)建在Hive中，數(shù)據(jù)庫的創(chuàng)建通過“CREATEDATABASE”命令實現(xiàn)，在創(chuàng)建的同時會在HDFS中創(chuàng)建一個與數(shù)據(jù)庫同名的目錄，目錄中包含的子目錄則為該數(shù)據(jù)庫中存在的表CREATEDATABASE[IFNOTEXISTS]<數(shù)據(jù)庫名>[COMMENT]'數(shù)據(jù)庫的描述信息'[LOCATION]'數(shù)據(jù)庫在HDFS中的位置';參數(shù)描述IFNOTEXISTS創(chuàng)建數(shù)據(jù)庫時，不管數(shù)據(jù)庫是否存在都不拋出異常COMMENT定義數(shù)據(jù)庫的描述信息LOCATION定義數(shù)據(jù)庫在HDFS中的位置任務4-1：使用Hive創(chuàng)建電商產(chǎn)品數(shù)據(jù)庫壹（2）數(shù)據(jù)庫名稱查看Hive提供了一個數(shù)據(jù)庫名稱查看命令“SHOWDATABASES”，在使用時不需要任何參數(shù)直接應用即可查看Hive中當前存在所有數(shù)據(jù)庫，并將數(shù)據(jù)庫的名稱返回（3）數(shù)據(jù)庫信息查看“DESCRIBEDATABASE”命令可以查看指定數(shù)據(jù)庫的詳細信息，在使用時只需提供數(shù)據(jù)庫的名稱即可DESCRIBEDATABASE<數(shù)據(jù)庫名>;任務4-1：使用Hive創(chuàng)建電商產(chǎn)品數(shù)據(jù)庫壹（4）數(shù)據(jù)庫選擇選擇數(shù)據(jù)庫使用“USE”命令，與“SHOWDATABASES”命令使用相同，只需指定數(shù)據(jù)庫名稱即可（5）數(shù)據(jù)庫刪除通過“DROPDATABASE”命令結(jié)合數(shù)據(jù)庫名稱即可完成數(shù)據(jù)庫的刪除，默認情況下，該命令只能刪除不包含表的空數(shù)據(jù)庫，可通過參數(shù)設置強制刪除數(shù)據(jù)庫USE<數(shù)據(jù)庫名>;DROPDATABASE[IFEXISTS]<數(shù)據(jù)庫名>[CASCADE];參數(shù)描述IFEXISTS刪除數(shù)據(jù)庫時，不管數(shù)據(jù)庫表是否存在都不拋出異常CASCADE強制刪除數(shù)據(jù)庫任務4-1：使用Hive創(chuàng)建電商產(chǎn)品數(shù)據(jù)庫壹3Hive表操作表主要由存儲的數(shù)據(jù)和描述表格中數(shù)據(jù)形式的元數(shù)據(jù)組成，存放在分布式文件系統(tǒng)中，當表中未存在數(shù)據(jù)時，該表在HDFS中將以空文件夾存在。根據(jù)存在形式的不同，將表又分為內(nèi)部表和外部表兩種內(nèi)部表數(shù)據(jù)文件存儲在Hive數(shù)據(jù)倉庫里，刪除操作會刪除相關目錄及數(shù)據(jù)01外部表數(shù)據(jù)文件可以存儲在Hive數(shù)據(jù)倉庫外的分布式文件系統(tǒng)，在刪除時，只會刪除元數(shù)據(jù)信息，而不會刪除HDFS中的數(shù)據(jù)02任務4-1：使用Hive創(chuàng)建電商產(chǎn)品數(shù)據(jù)庫壹（1）Hive表操作與關系型數(shù)據(jù)庫相同，Hive也包含表的創(chuàng)建、查詢、刪除、修改等常用操作命令描述CREATETABLE創(chuàng)建表SHOWTABLES查看表名稱DESCRIBE查看表信息ALTERTABLE修改表DROPTABLE刪除表任務4-1：使用Hive創(chuàng)建電商產(chǎn)品數(shù)據(jù)庫壹（2）表創(chuàng)建表的創(chuàng)建通過“CREATETABLE”命令實現(xiàn)，在使用時可通過相關參數(shù)的指定數(shù)據(jù)字段的分隔符、表的元數(shù)據(jù)路徑、設置分區(qū)等CREATE[EXTERNAL]TABLE<表名>(row1數(shù)據(jù)類型，row2數(shù)據(jù)類型，....)[COMMENT]'表描述信息'[PARTITIONEDBY]

(分區(qū)字段及類型)[ROWFORMATDELIMITED]{LINESTERMINATEDBY'\t'|FIELDSTERMINATEDBY

','|MAPKEYSTERMINATEDBY':'|COLLECTIONITEMSTERMINATEDBY

','}[STOREDAS]{TEXTFILE

|SEQUENCEFILE

|RCFILE

|ORC}[LOCATION]'表元數(shù)路徑';任務4-1：使用Hive創(chuàng)建電商產(chǎn)品數(shù)據(jù)庫壹（3）表名稱查看在數(shù)據(jù)庫表創(chuàng)建完成后，為了確認是否創(chuàng)建成功，這是可以通過“SHOWTABLES”命令實現(xiàn)數(shù)據(jù)庫表名稱的查看，并將當前數(shù)據(jù)庫包含的所有數(shù)據(jù)庫名稱返回DESCRIBE[FORMATTED]<表名>;（4）表信息查看屬性描述Database所屬數(shù)據(jù)庫CreateTime創(chuàng)建時間Location表在HDFS中的存儲位置TableType表類型，其中：MANAGED_TABLE：內(nèi)部表EXTERNAL_TABLE：外部表表信息查看命令為“DESCRIBE”，可以查看所屬數(shù)據(jù)庫、創(chuàng)建時間、數(shù)據(jù)集所在目錄和表的類型（內(nèi)部表/外部表）等信息任務4-1：使用Hive創(chuàng)建電商產(chǎn)品數(shù)據(jù)庫壹（5）表修改ALTERTABLE”命令主要用于實現(xiàn)表的修改，包括表名修改、字段名修改，并且在修改時，只會改變表的信息而不會修改數(shù)據(jù)ALTERTABLE<舊表名>RENAMETO<新表名>;ALTERTABLE<表名>CHANGE<舊字段名><新字段名><字段類型>[COMMENT]'字段描述信息'[FIRST|AFTER]<字段名>;參數(shù)描述COMMENT定義字段的描述信息FIRST將調(diào)整修改后字段放到指定字段前AFTER將調(diào)整修改后字段放到指定字段后任務4-1：使用Hive創(chuàng)建電商產(chǎn)品數(shù)據(jù)庫壹（6）表刪除刪除表的命令與刪除數(shù)據(jù)庫命令類似，刪除表使用DROPTABLE命令，對于內(nèi)部表會將數(shù)據(jù)一起刪除，而對于外部表只會刪除表結(jié)構DROPTABLE<表名>;任務4-1：使用Hive創(chuàng)建電商產(chǎn)品數(shù)據(jù)庫壹與傳統(tǒng)關系型數(shù)據(jù)庫不同，Hive數(shù)據(jù)倉庫提供了多種數(shù)據(jù)的增加操作，包括數(shù)據(jù)的導入、導出、插入等4Hive數(shù)據(jù)操作（1）數(shù)據(jù)導入數(shù)據(jù)導入是指將存儲在Hadoop分布式文件系統(tǒng)中的數(shù)據(jù)導入到Hive表LOADDATA[LOCAL]INPATH'filepath'INTOTABLE<表名>[PARTITION](partcol1=val1,partcol2=val2...);參數(shù)描述LOCAL本地文件設置，不設置時表示從HDFS文件進行加載INPATH數(shù)據(jù)文件路徑INTOTABLE指定目標表PARTITION設置分區(qū)列任務4-1：使用Hive創(chuàng)建電商產(chǎn)品數(shù)據(jù)庫壹（2）數(shù)據(jù)導出在使用Hive進行統(tǒng)計分析后，為了避免數(shù)據(jù)的重復統(tǒng)計或丟失，可通過“INSERTOVERWRITE”命令將Hive表中的數(shù)據(jù)導出到本地或HDFS文件系統(tǒng)中永久保存，并將目標目錄下的內(nèi)容刪除INSERTOVERWRITE[LOCAL]DIRECTORY'目標路徑'SELECT...;參數(shù)描述LOCAL本地文件設置，不設置時表示導出到HDFSDIRECTORY目標路徑SELECT數(shù)據(jù)查詢語句任務4-1：使用Hive創(chuàng)建電商產(chǎn)品數(shù)據(jù)庫壹（3）數(shù)據(jù)插入在Hive中，除了通過數(shù)據(jù)導入方式批量添加數(shù)據(jù)，還可以通過數(shù)據(jù)插入命令進行數(shù)據(jù)添加。目前，Hive有兩種數(shù)據(jù)插入方式，分別是單條數(shù)據(jù)插入和查詢結(jié)果插入INSERTINTO<表名>(字段列)VALUES(插入的值);1、單條數(shù)據(jù)插入是最簡單的插入方式，可直接將指定的值追加到數(shù)據(jù)表中2、相比于單條數(shù)據(jù)插入，查詢結(jié)果插入需要在單條數(shù)據(jù)插入的基礎上結(jié)合SELECT語句實現(xiàn)INSERTINTO|OVERWRITETABLE<表名>[PARTITION](partcol1=val1,...)SELECT...;任務4-1：使用Hive創(chuàng)建電商產(chǎn)品數(shù)據(jù)庫壹創(chuàng)建Hive數(shù)據(jù)庫Step1綁定數(shù)據(jù)庫Step2設置數(shù)據(jù)類型、字段分隔符以及數(shù)據(jù)在HDFS上的存儲路徑Step3檢查創(chuàng)建好的表信息Step4Hive完成數(shù)據(jù)庫和數(shù)據(jù)表的創(chuàng)建數(shù)據(jù)庫、表、數(shù)據(jù)相關操作任務4-2：使用Hve對商產(chǎn)品數(shù)據(jù)統(tǒng)計貳算術運算任務技能在Hive的查詢語句中，SELECT除了完成列的選擇外，還具有強大的數(shù)據(jù)計算功能，可以通過算術運算符對選擇的列進行數(shù)據(jù)計算數(shù)據(jù)查詢在Hive數(shù)據(jù)操作中，除了數(shù)據(jù)的增加外，還存在數(shù)據(jù)查詢操作，Hive的統(tǒng)計分析功能就是通過數(shù)據(jù)查詢操作實現(xiàn)的任務4-2：使用Hve對商產(chǎn)品數(shù)據(jù)統(tǒng)計貳1算術運算在Hive的查詢語句中，SELECT除了完成列的選擇外，還具有強大的數(shù)據(jù)計算功能，可以通過算術運算符對選擇的列進行數(shù)據(jù)計算運算符描述+和-差*乘積/商%取余&按位與，轉(zhuǎn)換為二進制后進行計算，只有當相應位上的數(shù)都是1時，該位才取1，否則該為為0|按位或，轉(zhuǎn)換為二進制后進行計算，只要相應位上存在1，那么該位就取1，均不為1，即為0。^按位異或，轉(zhuǎn)換為二進制后進行計算，只有當相應位上的數(shù)字不相同時，該為才取1，若相同，即為0~A按位取反，轉(zhuǎn)換成二進制后進行計算，0變1，1變0任務4-2：使用Hve對商產(chǎn)品數(shù)據(jù)統(tǒng)計貳2數(shù)據(jù)查詢在Hive數(shù)據(jù)操作中，除了數(shù)據(jù)的增加外，還存在數(shù)據(jù)查詢操作，Hive的統(tǒng)計分析功能就是通過數(shù)據(jù)查詢操作實現(xiàn)的（1）基礎查詢語句SELECT命令用于檢索表中的數(shù)據(jù)，F(xiàn)ROM命令用于選擇數(shù)據(jù)表SELECT<列名>FROM<表名>;需要注意的是，要查詢的列名每個列之間使用逗號“,”作為分隔符，如果需要查詢?nèi)康淖侄慰墒褂谩?”符號代表查詢?nèi)孔侄稳蝿?-2：使用Hve對商產(chǎn)品數(shù)據(jù)統(tǒng)計貳（2）表別名設置在進行多表的關聯(lián)查詢時，為了明確表和列的所屬關系，通常會為表設置別名，只需在表名稱后直接加入表的別名，并在SELECT語句后通過“別名.字段名”的方式進行字段的指定SELECT表別名.列1,表別名.列2...FROM<表名><表別名>;（3）列別名設置在使用查詢語句時，得到的結(jié)果是由新列組成的新關系，也就是計算結(jié)果在原始表中不存在，這時可以通過“as”給新產(chǎn)生的列設置一個名稱SELECT列1,列2,(列1+列2)as列別名FROM<表名>;任務4-2：使用Hve對商產(chǎn)品數(shù)據(jù)統(tǒng)計貳（3）查詢結(jié)果限制Hive提供了一個LIMIT語句，可以通過指定個數(shù)限制結(jié)果數(shù)量SELECT列1,列2...FROM<表名>LIMITn;（4）條件查詢語句為了過濾到更為詳細的數(shù)據(jù)，可以通過WHERE語句設置過濾條件SELECT<列名>FROM<表名>WHERE查詢條件;查詢條件主要通過謂詞操作符組成的表達式進行設置，當計算結(jié)果為true時相應的列值被保留并輸出任務4-2：使用Hve對商產(chǎn)品數(shù)據(jù)統(tǒng)計貳（5）分組語句分組語句“GROUPBY”可以將一個或多個列包含數(shù)據(jù)做為key進行分組，并將重復key合并，而重復key對應的數(shù)據(jù)則可以通過聚合函數(shù)進行統(tǒng)計操作SELECT列1,sum(列2)FROM<表名>GROUPBY列1;sum()主要用于計算指定行的和，是Hive中較為常用的一種聚合函數(shù)。除了sum()之外，Hive還提過了多種用于其他計算的函數(shù)函數(shù)描述count(*)統(tǒng)計表中的總記錄數(shù)sum(col)計算指定列數(shù)據(jù)的和sum(DISTINCTcol)計算去重后指定列數(shù)據(jù)的和avg(col)計算指定列數(shù)據(jù)的平均值avg(DISTINCTcol)計算去重后指定列數(shù)據(jù)的平均值min(col)計算指定列數(shù)據(jù)的最小值max(col)計算指定列數(shù)據(jù)的最大值var_samp(col)計算指定列數(shù)據(jù)的樣本方差任務4-2：使用Hve對商產(chǎn)品數(shù)據(jù)統(tǒng)計貳（6）關聯(lián)查詢通過關聯(lián)查詢可以從多個表中進行數(shù)據(jù)的關聯(lián)查詢。關聯(lián)查詢常用的連接方式有內(nèi)連接、左外連接、右外連接和滿外（全外）連接等命令描述JOIN內(nèi)連接LEFTJOIN左外連接RIGHTJOIN右外連接FULLOUTERJOIN滿外（全外）連接任務4-2：使用Hve對商產(chǎn)品數(shù)據(jù)統(tǒng)計貳（7）內(nèi)連接內(nèi)連接可通過“JOIN”命令實現(xiàn)，主要用于交集數(shù)據(jù)的查詢，返回在兩個表中都存在的數(shù)據(jù)，并在連接的同時，可通過ON子句進行連接條件的定義SELECTa.col,b.colFROM<表名>aJOIN<表名>bONa.col=b.col;（8）左外連接以左表為主，將左表的所有數(shù)據(jù)與右表對應的數(shù)據(jù)進行連接，如果右表中沒有與左表對應的數(shù)據(jù)時，會將數(shù)據(jù)值設置為“NULL”，可通過“LEFTJOIN”命令實現(xiàn)SELECTa.col,b.colFROM<表名>aLEFTJOIN<表名>bONa.col=b.col;任務4-2：使用Hve對商產(chǎn)品數(shù)據(jù)統(tǒng)計貳（9）右外連接與左外連接基本相同，右外連接以右表為主進行連接，會將左表中沒有與右表對應的數(shù)據(jù)設置為“NULL”，可通過“RIGHTJOIN”命令實現(xiàn)SELECTa.col,b.colFROM<表名>aRIGHTJOIN<表名>bONa.col=b.col;（10）滿外（全外）連接滿外（全外）連接是指將兩個表中的數(shù)據(jù)全部連接起來，如果沒有對應的數(shù)則顯示為空，可通過“FULLOUTERJOIN”命令實現(xiàn)SELECTa.col,b.colFROM<表名>aFULLOUT

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

大數(shù)據(jù)分析與應用微課版-課件全套 項目1-6 初識電商產(chǎn)品數(shù)據(jù)的處理與分析-電商產(chǎn)品數(shù)據(jù)遷移

文檔簡介

溫馨提示

最新文檔

評論

相關文檔

大數(shù)據(jù)分析與應用微課版-課件全套項目1-6 初識電商產(chǎn)品數(shù)據(jù)的處理與分析-電商產(chǎn)品數(shù)據(jù)遷移