職業(yè)技術學院《Spark大數(shù)據(jù)計算技術》教學大綱_第1頁
職業(yè)技術學院《Spark大數(shù)據(jù)計算技術》教學大綱_第2頁
職業(yè)技術學院《Spark大數(shù)據(jù)計算技術》教學大綱_第3頁
職業(yè)技術學院《Spark大數(shù)據(jù)計算技術》教學大綱_第4頁
職業(yè)技術學院《Spark大數(shù)據(jù)計算技術》教學大綱_第5頁
已閱讀5頁,還剩4頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

《Spark大數(shù)據(jù)計算技術》教學大綱課程名稱:Spark大數(shù)據(jù)計算技術課程類別:必修適用專業(yè):大數(shù)據(jù)技術類相關專業(yè)總學時:56學時(其中理論40學時,實驗16學時)總學分:3.5學分課程的性質(zhì)近年來,大數(shù)據(jù)、云計算、人工智能等數(shù)字技術與各行業(yè)加速融合,數(shù)字經(jīng)濟快速發(fā)展,數(shù)字經(jīng)濟深化發(fā)展的核心引擎是數(shù)據(jù)要素。企業(yè)急需具有數(shù)據(jù)分析技術能力的人才,以便在數(shù)字經(jīng)濟浪潮中保持競爭優(yōu)勢。然而,數(shù)據(jù)源多變、數(shù)據(jù)量巨大、處理速度緩慢和計算能力不足等問題,使得企業(yè)難以用傳統(tǒng)的數(shù)據(jù)分析方法有效分析和利用海量數(shù)據(jù)。Spark作為一種快速、通用的大數(shù)據(jù)分析框架,具有兼容多種數(shù)據(jù)源、支持內(nèi)存計算、支持分布式計算和可擴展性等優(yōu)點,得到了廣泛的認可和應用。為了推動我國大數(shù)據(jù),云計算,人工智能行業(yè)的發(fā)展,滿足日益增長的數(shù)據(jù)分析人才需求,特開設Spark大數(shù)據(jù)分析實務課程。課程的任務通過本課程的學習,使學生學會使用Spark進行數(shù)據(jù)讀取、數(shù)據(jù)處理、分析與建模,并詳細拆解學習廣告流量檢測違規(guī)識別企業(yè)案例,將理論與實踐相結合,為將來從事數(shù)據(jù)分析挖掘研究、工作奠定基礎。課程學時分配序號教學內(nèi)容理論學時實驗學時其它1項目1廣告流量檢測違規(guī)識別需求分析22項目2Spark大數(shù)據(jù)環(huán)境安裝搭建243項目3基于Hive實現(xiàn)廣告流量檢測數(shù)據(jù)存儲444項目4基于SparkSQL實現(xiàn)廣告流量檢測數(shù)據(jù)探索分析445項目5基于SparkSQL實現(xiàn)廣告流量檢測數(shù)據(jù)預處理666項目6基于SparkMLlib實現(xiàn)廣告流量檢測違規(guī)識別模型構建與評估667項目7基于Spark開發(fā)環(huán)境實現(xiàn)廣告流量檢測違規(guī)識別668項目8基于TipDM大數(shù)據(jù)挖掘建模平臺實現(xiàn)廣告流量檢測違規(guī)識別22總計3232教學內(nèi)容及學時安排理論教學序號章節(jié)名稱主要內(nèi)容教學目標學時1廣告流量檢測違規(guī)識別需求分析大數(shù)據(jù)的概念大數(shù)據(jù)的特征大數(shù)據(jù)分析的概念大數(shù)據(jù)分析的流程大數(shù)據(jù)分析的工具了解正常的廣告投放流程了解廣告流量違規(guī)現(xiàn)狀了解廣告流量常見違規(guī)方式了解識別虛假流量的常見維度廣告流量檢測違規(guī)識別流程分析了解大數(shù)據(jù)的概念和特征。了解常見的廣告流量違規(guī)方式。了解廣告流量檢測違規(guī)識別項目的流程分析。能夠根據(jù)項目目標進行流程分析。能夠根據(jù)業(yè)務需求設計項目總體流程。22Spark大數(shù)據(jù)環(huán)境安裝搭建Hadoop的發(fā)展歷程Hadoop的特點Hadoop生態(tài)系統(tǒng)Hadoop的應用場景Hive簡介Hive的特點Hive的應用場景Hive與關系數(shù)據(jù)庫的區(qū)別Spark簡介Spark的發(fā)展歷程Spark的特點Spark生態(tài)系統(tǒng)Spark的應用場景安裝搭建Hadoop集群安裝搭建Hive安裝搭建Spark集群了解Hadoop框架的歷程、特點、生態(tài)系統(tǒng)、應用場景。了解Hive的特點、應用場景以及Hive與關系數(shù)據(jù)庫的區(qū)別。了解Spark的發(fā)展歷程、特點、生態(tài)系統(tǒng)、應用場景。熟悉Hadoop框架和Spark的架構組成。能夠理解Hadoop、Hive、Spark組件的作用。能夠完成Hadoop集群、Hive和Spark集群的搭建與配置。23基于Hive實現(xiàn)廣告流量檢測數(shù)據(jù)存儲了解Hive中的數(shù)據(jù)類型創(chuàng)建數(shù)據(jù)庫語法格式刪除數(shù)據(jù)庫語法格式更改數(shù)據(jù)庫語法格式使用數(shù)據(jù)庫語法格式創(chuàng)建內(nèi)部表創(chuàng)建外部表創(chuàng)建分區(qū)表創(chuàng)建桶表修改表將文件系統(tǒng)中的數(shù)據(jù)導入Hive表通過查詢語句向表中插入數(shù)據(jù)將Hive表中的數(shù)據(jù)導出至本地文件系統(tǒng)將Hive表中的數(shù)據(jù)導出至HDFS創(chuàng)建數(shù)據(jù)表導入數(shù)據(jù)至Hive表了解Hive中的數(shù)據(jù)類型。掌握創(chuàng)建和管理數(shù)據(jù)庫的操作方法。掌握創(chuàng)建和修改表的操作方法。掌握Hive數(shù)據(jù)導入與導出的操作方法。能夠認識Hive中的數(shù)據(jù)類型。能夠完成數(shù)據(jù)庫的創(chuàng)建與管理。能夠根據(jù)要求創(chuàng)建表并導入相應的數(shù)據(jù)。44基于SparkSQL實現(xiàn)廣告流量檢測數(shù)據(jù)探索分析SparkSQL簡介配置SparkSQLCLISparkSQL與Shell交互通過結構化數(shù)據(jù)文件創(chuàng)建DataFrame通過外部數(shù)據(jù)庫創(chuàng)建DataFrame通過RDD創(chuàng)建DataFrame通過Hive表創(chuàng)建DataFrameprintSchema():輸出數(shù)據(jù)模式show():查看數(shù)據(jù)first(head(take(takeAsList():獲取若干行記錄條件查詢查詢指定字段的數(shù)據(jù)信息查詢指定行數(shù)的數(shù)據(jù)排序查詢分組查詢讀取數(shù)據(jù)創(chuàng)建DataFrame對象簡單查詢DataFrame數(shù)據(jù)探索分析日流量特征探索分析IP地址的訪問次數(shù)特征探索分析虛假流量數(shù)據(jù)特征了解SparkSQL框架的功能及運行過程。了解SparkSQL與Shell交互。掌握SparkSQL的可編程數(shù)據(jù)模型DataFrame的創(chuàng)建、查詢等操作方法。能夠配置SparkSQLCLI,提供SparkSQL與Shell交互環(huán)境。能夠通過不同數(shù)據(jù)源創(chuàng)建DataFrame。能夠實現(xiàn)DataFrame數(shù)據(jù)及行列表的查詢操作。45基于SparkSQL實現(xiàn)廣告流量檢測數(shù)據(jù)預處理新增數(shù)據(jù)列刪除數(shù)據(jù)列創(chuàng)建與使用用戶自定義函數(shù)5種join()方法根據(jù)特定字段進行表聯(lián)合操作指定類型進行表聯(lián)合操作使用Column類型進行表聯(lián)合操作保存為文件保存為持久化的表使用drop語句刪除數(shù)據(jù)自定義函數(shù)構建關鍵特征保存DataFrame數(shù)據(jù)至Hive表中掌握DataFrame行列表的增、刪操作方法。掌握用戶自定義函數(shù)的創(chuàng)建與使用方法。掌握多種DataFrame表聯(lián)合操作的方法。掌握DataFrame保存數(shù)據(jù)的多種方式。能夠處理DataFrame中的缺失值。能夠實現(xiàn)DataFrame表聯(lián)合操作。能夠創(chuàng)建和使用用戶自定義函數(shù)。能夠按照不同需求采用不同方式保存DataFrame數(shù)據(jù)。66基于SparkMLlib實現(xiàn)廣告流量檢測違規(guī)識別模型構建與評估了解機器學習算法SparkMLlib簡介數(shù)據(jù)類型基本統(tǒng)計管道特征提取特征處理回歸分類聚類關聯(lián)規(guī)則智能推薦掌握SparkMLlib的評估器與模型評估使用spark.ml.classification模塊構建分類模型使用評估器實現(xiàn)模型評估了解SparkMLlib算法庫。熟悉SparkMLlib中的算法與算法包。掌握SparkMLlib的評估器與模型評估的使用方法。能夠掌握SparkMLlib特征提取的方法。能夠使用SparkMLlib回歸與分類相關算法包構建模型。能夠使用SparkMLlib評估器對模型進行評估。67基于Spark開發(fā)環(huán)境實現(xiàn)廣告流量檢測違規(guī)識別安裝JDK8設置環(huán)境變量下載與安裝IntelliJIDEAScala插件安裝與使用在IntelliJIDEA中配置Spark運行環(huán)境運行Spark程序開發(fā)環(huán)境下實現(xiàn)流量數(shù)據(jù)違規(guī)識別模型應用掌握JDK8安裝和環(huán)境配置。掌握IntelliJIDEA中創(chuàng)建Scala工程。掌握Spark運行環(huán)境配置。能夠在本地環(huán)境下配置JDK環(huán)境,實現(xiàn)Java環(huán)境搭建。能夠在IntelliJIDEA中配置相關插件和開發(fā)依賴包,實現(xiàn)Scala工程創(chuàng)建。能夠在IntelliJIDEA中配置Spark運行環(huán)境,實現(xiàn)Spark程序運行。68基于TipDM大數(shù)據(jù)挖掘建模平臺實現(xiàn)廣告流量檢測違規(guī)識別共享庫數(shù)據(jù)連接數(shù)據(jù)集我的工程個人組件快速構建廣告流量檢測違規(guī)識別工程了解TipDM大數(shù)據(jù)挖掘建模平臺的相關概念和特點。能夠使用TipDM大數(shù)據(jù)挖掘建模平臺完成廣告流量檢測違規(guī)識別項目總體流程的設配置。能夠使用TipDM大數(shù)據(jù)挖掘建模平臺完成項目流程的實現(xiàn)。2學時合計32實驗教學序號實驗項目名稱實驗要求學時1Spark大數(shù)據(jù)環(huán)境安裝搭建創(chuàng)建Linux虛擬機設置固定IP地址遠程連接虛擬機配置本地yum源及安裝常用軟件在Linux系統(tǒng)下安裝Java修改配置文件克隆虛擬機配置SSH免密登錄配置時間同步服務添加地址映射啟動關閉集群安裝MySQL下載和安裝Hive修改Hive配置文件設置環(huán)境變量初始化元數(shù)據(jù)庫與啟動Hive解壓并配置Spark集群啟動Spark集群查看Spark監(jiān)控服務42基于Hive實現(xiàn)廣告流量檢測數(shù)據(jù)存儲創(chuàng)建數(shù)據(jù)庫語法格式刪除數(shù)據(jù)庫語法格式更改數(shù)據(jù)庫語法格式使用數(shù)據(jù)庫語法格式創(chuàng)建內(nèi)部表創(chuàng)建外部表創(chuàng)建分區(qū)表創(chuàng)建桶表修改表將文件系統(tǒng)中的數(shù)據(jù)導入Hive表通過查詢語句向表中插入數(shù)據(jù)將Hive表中的數(shù)據(jù)導出至本地文件系統(tǒng)將Hive表中的數(shù)據(jù)導出至HDFS創(chuàng)建數(shù)據(jù)表導入數(shù)據(jù)至Hive表43基于SparkSQL實現(xiàn)廣告流量檢測數(shù)據(jù)探索分析配置SparkSQLCLISparkSQL與Shell交互通過結構化數(shù)據(jù)文件創(chuàng)建DataFrame通過外部數(shù)據(jù)庫創(chuàng)建DataFrame通過RDD創(chuàng)建DataFrame通過Hive表創(chuàng)建DataFrame查看DataFrame數(shù)據(jù)printSchema():輸出數(shù)據(jù)模式show():查看數(shù)據(jù)first(head(take(takeAsList():獲取若干行記錄條件查詢查詢指定字段的數(shù)據(jù)信息查詢指定行數(shù)的數(shù)據(jù)排序查詢分組查詢讀取數(shù)據(jù)創(chuàng)建DataFrame對象查詢數(shù)據(jù)記錄數(shù)查詢數(shù)據(jù)缺失值探索分析日流量特征探索分析IP地址的訪問次數(shù)特征探索分析虛假流量數(shù)據(jù)特征44基于SparkSQL實現(xiàn)廣告流量檢測數(shù)據(jù)預處理新增數(shù)據(jù)列刪除數(shù)據(jù)列創(chuàng)建與使用用戶自定義函數(shù)根據(jù)特定字段進行表聯(lián)合操作指定類型進行表聯(lián)合操作使用Column類型進行表聯(lián)合操作保存為文件保存為持久化的表使用drop語句刪除數(shù)據(jù)劃分時間區(qū)間構建關鍵特征并保存至Hive表中保存DataFrame數(shù)據(jù)至Hive表中65基于SparkMLlib實現(xiàn)廣告流量檢測違規(guī)識別模型構建與評估基本統(tǒng)計管道特征提取特征處理回歸分類聚類關聯(lián)規(guī)則智能推薦數(shù)據(jù)歸一化構建建模樣本使用邏輯回歸算法實現(xiàn)廣告流量檢測違規(guī)識別使用隨機森林算法實現(xiàn)廣告流量檢測違規(guī)識別使用評估器實現(xiàn)模型評估66基于Spark開發(fā)環(huán)境實現(xiàn)廣告流量檢測違規(guī)識別安裝JDK8設置環(huán)境變量下載與安裝IntelliJIDEAScala插件安裝與使用在IntelliJIDEA中配置Spark運行環(huán)境運行Spark程序集群連接參數(shù)設置封裝代碼運行Spark程序67基于TipDM大數(shù)據(jù)挖掘建模平臺實現(xiàn)廣告流量檢測違規(guī)識別數(shù)據(jù)源配置數(shù)據(jù)處理模型構建與評估2學時合計32考核方式突出學生解決實際問題的能力,加強過程性考核。課程考核的成績構成=平時作業(yè)(10%)+課堂參與(20%)+期末考核(70%),期末考試建議采用開卷形式,試題應包括基本概念、分組聚合、數(shù)據(jù)合并、數(shù)據(jù)清洗、數(shù)據(jù)變換、模型構建等部分,題

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論