Hive大數據存儲與處理-教學大綱_第1頁
Hive大數據存儲與處理-教學大綱_第2頁
Hive大數據存儲與處理-教學大綱_第3頁
Hive大數據存儲與處理-教學大綱_第4頁
Hive大數據存儲與處理-教學大綱_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

打造基于產教融合的就業(yè)育人綜合服務平臺打造基于產教融合的就業(yè)育人綜合服務平臺泰迪泰迪智能科技官網:/聯系方式:4006840020《Hive大數據存儲與處理》教學大綱課程名稱:Hive大數據存儲與處理課程類別:必修適用專業(yè):大數據技術類相關專業(yè)總學時:64學時(其中理論36學時,實驗28學時)總學分:4.0學分課程的性質隨著5G技術、云計算、人工智能等新一代技術的發(fā)展,大數據與行業(yè)的融合全面展開,融合生態(tài)加速構建,新技術、新業(yè)態(tài)、新模式不斷涌現。黨的二十大以來,國家要求加快實施創(chuàng)新驅動發(fā)展戰(zhàn)略,加快實現高水平科技自立自強,以國家戰(zhàn)略需求為導向,增強企業(yè)自主創(chuàng)新能力。在發(fā)展的過程中,各企業(yè)積累了大量的業(yè)務數據,企業(yè)將不斷增長的業(yè)務數據進行存儲并從中挖掘具有潛在商業(yè)價值的信息,為企業(yè)發(fā)展提供有力支撐,從而創(chuàng)造更大的價值。目前,離線數據分析框架主要有MapReduce和Spark,然而使用MapReduce和Spark,需要開發(fā)人員具備Java等開發(fā)基礎,這對于熟悉SQL的傳統(tǒng)數據分析人員來說并不友好,且MapReduce和Spark不具備數據存儲的功能,因此支持SQL且能實現數據存儲的分布式處理框架的需求日益增長。在這樣的背景下,既支持SQL又能存儲數據的數據倉庫Hive逐漸成為主流的離線數據分析框架。目前開設大數據專業(yè)的高校越來越多,然而有關Hive開發(fā)的課程較少。為了推動我國大數據,云計算,人工智能行業(yè)的發(fā)展,滿足日益增長的數據分析人才需求,特開設Hive大數據存儲與處理課程。課程的任務通過本課程的學習,使學生學會使用Hive進行廣電大數據用戶數據分析,包括廣電大數據用戶畫像需求分析、部署Hive開發(fā)環(huán)境、了解廣電用戶數據存儲方法、學習廣電用戶基本數據簡單查詢、廣電用戶賬單與訂單數據查詢、廣電用戶收視行為數據查詢優(yōu)化、廣電用戶數據清洗及數據,最終學會廣電用戶數據存儲與處理的程序的開發(fā)。通過分階段分步驟完成多個廣電大數據數據實際案例,將理論與實踐相結合,為將來從事大數據分析挖掘研究、工作奠定基礎。課程學時分配序號教學內容理論學時實驗學時其它1第1章廣電大數據用戶畫像需求分析202第2章部署開發(fā)環(huán)境443第3章廣電用戶數據存儲444第4章廣電用戶基本數據簡單查詢445第5章廣電用戶賬單與訂單數據查詢進階446第6章廣電用戶收視行為數據查詢優(yōu)化647第7章廣電用戶數據清洗及數據導出648第8章廣電用戶數據存儲與處理的程序開發(fā)64總計3628教學內容及學時安排理論教學序號章節(jié)名稱主要內容教學目標學時1廣電大數據用戶畫像需求分析需求分析與架構認識Hive了解廣電大數據用戶畫像需求分析的背景了解目前常見的幾種大數據存儲產品了解Hive原理架構和Hive的主要特點了解Hive和傳統(tǒng)數據庫的主要區(qū)別22部署開發(fā)環(huán)境安裝部署Hadoop集群安裝部署Hive使用HiveCLI掌握Hadoop集群的安裝部署方法掌握MySQL數據庫的安裝配置方法掌握Hive的安裝配置及啟動方法掌握HiveCLI的使用方法43廣電用戶數據存儲創(chuàng)建業(yè)務數據表將數據導入Hive表掌握在Hive中創(chuàng)建與管理數據庫的操作了解Hive的基礎數據類型和復雜數據類型掌握在Hive中創(chuàng)建與管理表的常用操作掌握裝載數據至Hive表的操作44廣電用戶基本數據簡單查詢查詢廣電用戶的用戶編號及開戶時間查詢指定用戶狀態(tài)的用戶基本數據統(tǒng)計用戶基本數據表中品牌名稱的種類個數統(tǒng)計不同用戶等級名稱的記錄數統(tǒng)計不同用戶狀態(tài)的

記錄數統(tǒng)計指定用戶數量范圍的用戶等級統(tǒng)計用戶數最多的3種用戶狀態(tài)查詢用戶發(fā)生狀態(tài)變更的時間及開戶時間了解SELECT語句基本的語法掌握使用WHERE關鍵字實現條件查詢的方法。掌握表別名、列別名的使用方法掌握聚合函數的使用方法掌握分組查詢的實現方法了解不同排序關鍵字之間的區(qū)別掌握使用通配符、正則表達式實現模糊查詢的方法45廣電用戶賬單與訂單數據查詢進階統(tǒng)計訂單的消費類型統(tǒng)計用戶每年消費應付總額統(tǒng)計用戶每月消費應付總額統(tǒng)計用戶每月實際賬單金額查詢用戶寬帶訂單的地址數據抽樣統(tǒng)計用戶訂購產品情況了解常見的Hive內置函數掌握條件函數、字符函數、日期函數及數學函數的使用方法掌握各類JOIN語句的使用方法掌握JOIN語句與UNIONALL關鍵字的區(qū)別掌握桶表中抽樣查詢的使用方法46廣電用戶收視行為數據查詢優(yōu)化使用視圖統(tǒng)計不同節(jié)目的用戶觀看人數優(yōu)化統(tǒng)計直播頻道數使用子查詢統(tǒng)計節(jié)目類型為直播的頻道Top10掌握Hive查詢優(yōu)化的方法掌握Hive視圖的使用方法了解配置Fetch抓取的方法掌握Hive設置map和reduce任務數的方法掌握Hive配置并行執(zhí)行的方法掌握子查詢的使用方法掌握GROUPBY語句的優(yōu)化配置方法掌握LIMIT語句的優(yōu)化配置方法67廣電用戶數據清洗及數據導出清洗無效用戶數據清洗無效收視行為數據清洗無效賬單和訂單數據導出處理結果至Linux本地和HDFS掌握Hive內置函數的使用方法掌握Hive中對數據進行清洗與統(tǒng)計分析的操作掌握Hive表中數據導出至Linux本地與HDFS的方法68廣電用戶數據存儲與處理的程序開發(fā)配置Hive遠程服務搭建Hive遠程連接環(huán)境編寫程序實現廣電數據的存儲掌握Hive遠程服務的配置過程掌握HiveServer2的使用方法和使用第三方語言(Java)開發(fā)的配置過程掌握在IDEA編程軟件中進行程序運行與調試的過程和方法6學時合計36實驗教學序號實驗項目名稱實驗要求學時1部署開發(fā)環(huán)境安裝部署Hadoop集群VMware虛擬機安裝和網絡設置部署CentOSHadoop集群部署前準備Hadoop集群部署安裝部署Hive安裝配置MySQL安裝配置Hive使用HiveCLI啟動HiveCLI 56在Hive中執(zhí)行BashShell和Hadoopdfs命令在Shell中執(zhí)行Hive查詢安裝42廣電用戶數據存儲創(chuàng)建與管理Hive表創(chuàng)建業(yè)務數據表裝載數據至Hive表中將廣電用戶數據導入Hive表中43廣電用戶基本數據簡單查詢SELECT語句查詢廣電用戶的用戶編號及開戶時間使用WHERE關鍵字添加查詢條件使用WHERE關鍵字添加常見查詢條件查詢指定用戶狀態(tài)的用戶基本數據使用DISTINCT關鍵字去重查詢使用聚合函數統(tǒng)計用戶基本數據表中品牌名稱的種類個數設置列別名統(tǒng)計不同用戶等級名稱的記錄數統(tǒng)計不同用戶狀態(tài)的記錄數使用GROUPBY關鍵字分組查詢統(tǒng)計不同用戶狀態(tài)的記錄數統(tǒng)計指定用戶數量范圍的用戶等級使用HAVING關鍵字對分組結果進行篩選統(tǒng)計指定用戶數量范圍的用戶等級使用LIMIT關鍵字設置查詢結果展示使用排序關鍵字對查詢結果排序統(tǒng)計用戶數最多的3種用戶狀態(tài)使用正則表達式查詢數據查詢用戶發(fā)生狀態(tài)變更的時間及開戶時間44廣電用戶賬單與訂單數據查詢進階介紹Hive內置函數使用條件函數使用類型轉換函數統(tǒng)計訂單的消費類型使用字符函數統(tǒng)計用戶每年消費應付總額使用日期函數統(tǒng)計用戶每月消費應付總額使用數學函數統(tǒng)計用戶每月實際賬單金額使用JOIN語句介紹UNIONALL關鍵字查詢用戶寬帶訂單的地址數據使用桶表抽樣查詢創(chuàng)建視圖抽樣統(tǒng)計用戶訂購產品情況45廣電用戶收視行為數據查詢優(yōu)化創(chuàng)建視圖查看與刪除視圖使用視圖統(tǒng)計不同節(jié)目的用戶觀看人數配置Fetch抓取合理設置map和reduce任務數配置并行執(zhí)行優(yōu)化統(tǒng)計直播頻道數使用子查詢優(yōu)化查詢語句優(yōu)化配置GROUPBY語句使用GROUPBY代替COUNT(DISTINCT)去重統(tǒng)計優(yōu)化配置LIMIT語句使用子查詢統(tǒng)計節(jié)目類型為直播的頻道Top1046廣電用戶數據清洗及數據導出探索無效用戶數據刪除無效用戶數據探索無效收視行為數據刪除無效收視行為數據探索無效賬單數據探索無效訂單數據刪除無效賬單和無效訂單數據使用INSERTOVERWRITE語句將數據導出至文件系統(tǒng)保存處理結果至Linux本地和HDFS47廣電用戶數據存儲與處理的程序開發(fā)配置Hive遠程服務搭建Hive遠程連接環(huán)境創(chuàng)建IDEA開發(fā)項目添加依賴手動加載MySQL驅動JDBC及其主要接口創(chuàng)建連接測試程序編寫程序實現廣電數據的存儲創(chuàng)建開發(fā)項目創(chuàng)建HiveHelper類和連接Hive創(chuàng)建測試類創(chuàng)建Hive數據庫創(chuàng)建Hive表裝載數據程序運行與調試編寫程序實現廣電數據的查詢與處理查詢數據刪除無效用戶數據刪除無效收視行為數據刪除無效賬單和無效訂單數據4學時合計28考核方式突出學生解決實際問題的能力,加強過程性考核。課程考核的成績構成=平時作業(yè)(10%)+課堂參與(20%)+期末考核(70%),期末考試建議采用開卷形式,試題應包括基本概念、繪圖、分組聚合、數據合并、數據清洗

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論