版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
單元教學活動設計二級學院信息工程學院專業(yè)大數據技術設計者課程名稱大數據挖掘與分析學年學期2授課類型□理論型,√理實一體型,□實踐型單元名稱單元1.大數據分析概述班級大數據技術1、2人數教材來源自編教材授課學時4學生學習條件分析1.起點分析:(1)學生具備Linux相關操作、大數據基礎運維的基本技能;(2)學生具備自主學習能力,能主動查閱資料預習。2.重點分析:(1)大數據分析的相關工具。(2)大數據分析可視化的概念及相關工具。3.難點分析:(1)SparkSQL的運行架構。(2)Catalyst查詢編譯器的工作流程。教學方法手段1.教學方法:講授法、討論法。2.教學手段:實例講解演示。教學資源1.個人資源:教材、教學PPT與相關素材2.學校資源:一體化教室、超星平臺中的公共資源3.網絡、社會或出版社資源:多媒體課件、網上教學資源、精品課網站能力指標掌握大數據分析基礎知識C1養(yǎng)成良好的自我管理素養(yǎng)B1提升學生溝通交流、小組協(xié)作能力E2教學目標知識1.了解大數據分析的概念、特點、類別、優(yōu)缺點。2.知道大數據分析的相關工具3.了解大數據分析可視化的概念及相關工具。4.了解SparkSQL的背景、特點。能力1.知道SparkSQL的運行架構2.掌握Catalyst查詢編譯器的工作流程。素質1.養(yǎng)成良好的自我管理素養(yǎng)2.提升溝通交流、小組協(xié)作能力教師課前準備1.準備好一體化機房,保證機器正常運轉,安裝好軟件。2.準備好授課PPT,完成所有案例設計,熟練示范操作的過程。3.設計學生要完成的任務。4.設計好教學環(huán)節(jié)。5.服裝大方,自然得體。學生課前準備查閱資料,預習教材活動歷程一、準備活動1.活躍課堂氣氛,自我介紹,學習通簽到、點名。2.課程定位,課程教學內容安排與考核方式介紹。3.課程主要學習內容、學習方法介紹。二、發(fā)展活動1.關于大數據分析情境導入;2.學習目標和要求;3.提問:什么是大數據分析?大數據的“5V”特征大數據分析概念大數據分析的特點大數據分析類別大數據分析的優(yōu)勢與缺點4.提問:大數據分析工具有哪些?Hadoop生態(tài)圈中的大數據分析工具大數據分析編程語言其他工具5.關于大數據分析可視化。三、課堂小結大數據分析概述、工具和可視化?!?、2節(jié)結束——一、準備活動1.活躍課堂氣氛,學習通簽到、點名。2.認識SparkSQL情境導入。3.學習目標和要求。二、發(fā)展活動1.SparkSQL背景簡介SparkSQL的背景SparkSQL的特點2.SparkSQL運行原理。SparkSQL的運行架構Catalyst查詢編譯器SparkSQL的運行原理SessionCatalog保存元數據ANTLR生成未綁定的邏輯計劃Analyzer綁定邏輯計劃Optimizer優(yōu)化邏輯計劃SparkPlanner生成可執(zhí)行的物理計劃CostModel選擇最佳物理執(zhí)行計劃execute執(zhí)行物理計劃三、課堂小結與作業(yè)布置1.小結:本次課程學習重點,學習過程中出現的問題與解決方法。2.布置:完成第1章課后練習?!?、4節(jié)結束——學習評量課堂練習中巡視指導課后作業(yè)紙筆作業(yè):完成第1章課后練習題。教學后記目標或能力指針達成度、學習表現、內容、方法、資源、業(yè)師協(xié)同等向度1.目標或能力指標達成度全班80%學生達到了教學目標和能力指標。2.學習表現課內預習階段發(fā)現學生預習時個別同學沒有帶書,大部分同學沒有帶筆和筆記本,閱讀習慣有待改進。
單元教學活動設計二級學院信息工程學院專業(yè)大數據技術設計者課程名稱大數據挖掘與分析學年學期2授課類型□理論型,√理實一體型,□實踐型單元名稱單元2.實踐環(huán)境準備班級大數據技術1、2人數教材來源自編教材授課學時6學生學習條件分析1.起點分析:(1)了解大數據分析概述、工具和可視化;(2)知道SparkSQL背景和運行原理。2.重點分析:(1)Hadoop集群環(huán)境搭建。(2)Spark集群安裝搭建。(3)Scala下載、安裝和配置3.難點分析:(1)Hadoop集群環(huán)境搭建。(2)Spark集群安裝搭建。教學方法手段1.教學方法:講授法、討論法。2.教學手段:實例講解演示。教學資源1.個人資源:教材、教學PPT與相關素材2.學校資源:一體化教室、超星平臺中的公共資源3.網絡、社會或出版社資源:多媒體課件、網上教學資源、精品課網站能力指標掌握Hadoop和Spark集群的安裝部署C1養(yǎng)成良好的自我管理素養(yǎng)B1提升學生溝通交流、小組協(xié)作能力E2教學目標知識1.了解Hadoop、Spark和Scala的基礎知識。能力1.掌握Hadoop集群環(huán)境搭建的環(huán)境準備工作,包括配置主機名、防火墻設置、免密登錄設置、Java環(huán)境設置。2.掌握安裝Hadoop的過程、配置文件設置及啟動集群的方法。3.掌握Spark集群安裝配置方法。4.能使用Spark-shell進行簡單編程測試。5.會下載、安裝配置Scala工具。6.能啟動Scala進行編程測試。素質1.養(yǎng)成良好的自我管理素養(yǎng)2.提升溝通交流、小組協(xié)作能力教師課前準備1.準備好一體化機房,保證機器正常運轉,安裝好軟件。2.準備好授課PPT,完成所有案例設計,熟練示范操作的過程。3.設計學生要完成的任務。4.設計好教學環(huán)節(jié)。5.服裝大方,自然得體。學生課前準備查閱資料,預習教材活動歷程一、準備活動1.活躍課堂氣氛,學習通簽到、點名。二、發(fā)展活動1.Hadoop集群環(huán)境搭建情境導入;2.學習目標和要求;3.操作演示Hadoop集群搭建集群節(jié)點規(guī)劃配置主機名和IP連接MobaXterm終端工具關閉防火墻關閉SElinux修改/etc/hosts文件配置免密登錄配置Java環(huán)境安裝Hadoop啟動Hadoop集群4.運行經典案例wordcount在本地root目錄下創(chuàng)建一個txt文件,輸入一段自定義文字。上傳文本到到hdfs。運行命令并查看結果三、課堂小結Hadoop集群搭建知識與技能回顧?!?、2節(jié)結束——一、準備活動1.活躍課堂氣氛,學習通簽到、點名。2.Spark集群部署與使用情境導入。3.學習目標和要求。二、發(fā)展活動1.Spark安裝上傳軟件包修改環(huán)境變量修改Spark配置文件復制修改spark啟動腳本分發(fā)Spark安裝文件到slaver01和slaver02。2.啟動Spark。查看各節(jié)點服務進程狀態(tài)Web查看Spark主頁情況3.Spark集群測試使用spark-submit工具提交Spark作業(yè)使用Spark-sql使用Sparkshell三、課堂小結小結:本次課程學習重點,學習過程中出現的問題與解決方法?!?、4節(jié)結束——一、準備活動1.活躍課堂氣氛,學習通簽到、點名。2.Scala安裝情境導入。3.學習目標和要求。二、發(fā)展活動1.下載Scala安裝包2.安裝配置上傳安裝包并解壓配置環(huán)境變量,添加Scala相關配置使環(huán)境變量生效,查看Scala版本啟動Scala三、課堂小結1.小結:本次課程學習重點,學習過程中出現的問題與解決方法。2.布置:完成第1章課后練習?!?、6節(jié)結束——學習評量課堂練習中巡視指導課后作業(yè)紙筆作業(yè):完成第2章課后練習題。教學后記目標或能力指針達成度、學習表現、內容、方法、資源、業(yè)師協(xié)同等向度1.目標或能力指標達成度全班80%學生達到了教學目標和能力指標。2.學習表現課內預習階段發(fā)現學生預習時個別同學沒有帶書,大部分同學沒有帶筆和筆記本,閱讀習慣有待改進。單元教學活動設計二級學院信息工程學院專業(yè)大數據技術設計者課程名稱大數據挖掘與分析學年學期2授課類型□理論型,√理實一體型,□實踐型單元名稱單元3.學生信息處理分析班級大數據技術1、2人數教材來源自編教材授課學時16學生學習條件分析1.起點分析:(1)了解大數據分析概述、工具;(2)掌握基本的程序編寫語言。2.重點分析:Scala語言基礎。3.難點分析:能綜合應用Scala基礎知識編寫應用程序進行數據分析。。教學方法手段1.教學方法:講授法、討論法。2.教學手段:實例講解演示。教學資源1.個人資源:教材、教學PPT與相關素材2.學校資源:一體化教室、超星平臺中的公共資源3.網絡、社會或出版社資源:多媒體課件、網上教學資源、精品課網站能力指標掌握Scala基礎語言和編程C1養(yǎng)成良好的自我管理素養(yǎng)B1提升學生溝通交流、小組協(xié)作能力E2教學目標知識1.理解Scala數據類型、常量與變量、運算符。2.了解Scala類和對象、模式匹配的基本概念。能力1.掌握Scala判斷與循環(huán)、函數式編程。2.掌握Scala集合操作。3.掌握Scala類和對象、模式匹配的定義及操作方法。素質1.養(yǎng)成良好的自我管理素養(yǎng)2.提升溝通交流、小組協(xié)作能力教師課前準備1.準備好一體化機房,保證機器正常運轉,安裝好軟件。2.準備好授課PPT,完成所有案例設計,熟練示范操作的過程。3.設計學生要完成的任務。4.設計好教學環(huán)節(jié)。5.服裝大方,自然得體。學生課前準備查閱資料,預習教材活動歷程一、準備活動1.活躍課堂氣氛,學習通簽到、點名。二、發(fā)展活動1.班級基本情況分析情境導入;2.學習目標和要求;3.數據類型Scala與Java的數據類型相同,但是Scala中的數據類型都是對象即Scala沒有java中的原生類型。因此Scala可以對數字等基礎類型調用方法。4.常量與變量定義方法。數據類型推斷。多變量聲明5.運算符算數運算符關系運算符邏輯運算符位運算符賦值運算符6.數組聲明與定義方式基本操作方法三、課堂小結Scala數據類型、常量與變量、運算符、數組小結?!?、2節(jié)結束——一、準備活動1.活躍課堂氣氛,學習通簽到、點名。2.學習目標和要求。二、發(fā)展活動1.判斷與循環(huán)if判斷if語句的語法格式如下:if(判斷條件){//如果判斷條件為true則執(zhí)行該語句塊}if…else語句語法格式如下:if(判斷條件){//如果判斷條件為true則執(zhí)行該語句塊}else{//如果判斷條件為false則執(zhí)行該語句塊}if…elseif…else語句語法格式如下:if(判斷條件1){//如果判斷條件1為true則執(zhí)行該語句塊}elseif(判斷條件2){//如果判斷條件2為true則執(zhí)行該語句塊}else{//如果以上判斷條件都為false執(zhí)行該語句塊}if...else嵌套語句語法格式如下:if(判斷條件1){//如果判斷條件1為true則執(zhí)行該語句塊if(判斷條件2){//如果判斷條件2為true則執(zhí)行該語句塊}}循環(huán)while循環(huán)語法格式如下:while(條件表達式){代碼塊}\o"CScala+do...while循環(huán)"do...while循環(huán)語法格式如下:do{代碼塊}while(條件表達式)\o"CScala+for循環(huán)"for循環(huán)的語法格式如下for(varx<-range){代碼塊}三、課堂小結小結:本次課程學習重點,學習過程中出現的問題與解決方法?!?、4節(jié)結束——一、準備活動1.活躍課堂氣氛,學習通簽到、點名。2.學習目標和要求。二、發(fā)展活動1.函數式編程函數的定義和調用def函數名[參數列表]:[返回值類型]={函數體return[表達式]}函數調用的方法如下:函數名[參數列表]匿名函數匿名函數是指不含函數名稱的函數。使用“=>”定義,“=>”的左邊為參數列表,“=>”右邊為函數體表達式。高階函數高階函數是指使用其他函數作為參數,或者使用函數作為輸出結果的函數。閉包閉包是一個函數,是可以訪問一個函數里面局部變量的另外一個函數。函數柯里化函數編程中,接受多個參數的函數都可以轉化為接受單個參數的函數,這個轉化過程就是柯里化??吕锘旧硪灿玫搅碎]包。嵌套函數嵌套函數即在函數內部定義函數,其中內部函數稱為局部函數。2.學生所屬班級和男女生數量——編程分析實現判斷學生所屬班級統(tǒng)計男女生人數信息三、課堂小結小結:本次課程學習重點,學習過程中出現的問題與解決方法?!?、6節(jié)結束——一、準備活動1.活躍課堂氣氛,學習通簽到、點名。2.學習目標和要求。二、發(fā)展活動1.列表定義方法列表的常用操作2.Set集合定義Set集合Set的基本操作三、課堂小結Scala列表與Set集合小結?!?、8節(jié)結束——一、準備活動1.活躍課堂氣氛,學習通簽到、點名。2.學習目標和要求。二、發(fā)展活動1.元組定義元組的語法一:valtuple=(元素1,元素2,元素3…)定義元組的語法二:valt=newTuplen(元素1,元素2,元素3...元素n)2.Map映射映射定義映射的常用操作三、課堂小結Scala元組與Map映射小結?!?、10節(jié)結束——一、準備活動1.活躍課堂氣氛,學習通簽到、點名。2.學習目標和要求。二、發(fā)展活動1.函數組合器組合器包括map、filter、foreach、groupBy、flatten、drop、zip等。2.以班級為單位整理學生信息——編程分析實現以班級為單位整理學生信息,可以先將數據保存到列表中,然后使用groupBy組合器以班級為條件進行分組。三、課堂小結函數組合器小結?!?1、12節(jié)結束——一、準備活動1.活躍課堂氣氛,學習通簽到、點名。二、發(fā)展活動1.學生基本情況獲取情境導入;2.學習目標和要求;3.類和對象類的定義方式如下:Class類名稱(參數列表){//定義類的字段和方法}繼承的語法如下:class子類名extends父類名{類體}4.單例對象和伴生對象單例對象定義一個單例對象的語法如下:object單例對象名{}半生對象若在同一個代碼文件內部,同時出現了classA和objectA,即類名和單例對象名完全相同,那么它們兩者就互為伴生關系。5.模式匹配模式匹配基本語法如下所示:xmatch{ casepattern1=>doSomething casepattern2=>doothers...}6.案例:學生特長情況——編程分析實現三、課堂小結Scala類和對象、Scala模式匹配小結?!?3、14節(jié)結束——一、準備活動1.活躍課堂氣氛,學習通簽到、點名。2.學習目標和要求。二、發(fā)展活動1.綜合案例——學生成績情況分析現要求使用Scala函數式編程,綜合本章前面所學知識,進行學生成績分析統(tǒng)計。獲得各門課程的平均成績和及格人數(大于60),每個同學所有課程的總成績。導入依賴包,讀取數據文件將數據轉換為列表list創(chuàng)建課程名稱列表定義函數,計算各門課程的平均成績和及格人數。定義函數,統(tǒng)計每個同學所有課程的總成績。定義函數,用于輸出calculation1函數的計算結果。綜合以上函數與方法,進行調用、統(tǒng)計分析與輸出。三、課堂小結小結所涉及知識點?!?5、16節(jié)結束——學習評量課堂練習中巡視指導課后作業(yè)紙筆作業(yè):完成第3章課后練習題。教學后記目標或能力指針達成度、學習表現、內容、方法、資源、業(yè)師協(xié)同等向度1.目標或能力指標達成度全班80%學生達到了教學目標和能力指標。2.學習表現課內預習階段發(fā)現學生預習時個別同學沒有帶書,大部分同學沒有帶筆和筆記本,閱讀習慣有待改進。單元教學活動設計二級學院信息工程學院專業(yè)大數據技術設計者課程名稱大數據挖掘與分析學年學期2授課類型□理論型,√理實一體型,□實踐型單元名稱單元4.房產大數據分析與探索班級大數據技術1、2人數教材來源自編教材授課學時16學生學習條件分析1.起點分析:掌握Scala編程語言基礎。2.重點分析:能使用RDD的各種轉換和行動操作對數據集進行處理分析。3.難點分析:能靈活綜合的應用各種RDD操作和各個算子對數據進行分析。教學方法手段1.教學方法:講授法、討論法。2.教學手段:實例講解演示。教學資源1.個人資源:教材、教學PPT與相關素材2.學校資源:一體化教室、超星平臺中的公共資源3.網絡、社會或出版社資源:多媒體課件、網上教學資源、精品課網站能力指標綜合的應用各種RDD操作和各個算子C1養(yǎng)成良好的自我管理素養(yǎng)B1提升學生溝通交流、小組協(xié)作能力E2教學目標知識1.掌握將數據構建為RDD的方法。2.知道RDD各種算子的使用方法。能力1.能使用RDD的各種轉換和行動操作對數據集進行處理分析。2.能靈活綜合的應用各種RDD操作和各個算子對數據進行分析。素質1.養(yǎng)成良好的自我管理素養(yǎng)2.提升溝通交流、小組協(xié)作能力教師課前準備1.準備好一體化機房,保證機器正常運轉,安裝好軟件。2.準備好授課PPT,完成所有案例設計,熟練示范操作的過程。3.設計學生要完成的任務。4.設計好教學環(huán)節(jié)。5.服裝大方,自然得體。學生課前準備查閱資料,預習教材活動歷程一、準備活動1.活躍課堂氣氛,學習通簽到、點名。二、發(fā)展活動1.某房產公司銷售人員業(yè)績分析情境導入;2.學習目標和要求;3.數據集處理基于內存(集合)創(chuàng)建RDD。parallelize方法創(chuàng)建RDDmakeRDD方法創(chuàng)建RDD從外部存儲數據構造RDD使用sc.textFile()方法進行創(chuàng)建。操作練習——構建員工業(yè)績RDD三、課堂小結RDD的創(chuàng)建方法小結。——第1、2節(jié)結束——一、準備活動1.活躍課堂氣氛,學習通簽到、點名。2.學習目標和要求。二、發(fā)展活動1.RDD支持的兩種操作。轉換操作:就是對RDD中的數據進行各種轉換。行動操作:RDD的行動操作則是向驅動器程序返回結果或者把結果寫入外部系統(tǒng)的操作,會觸發(fā)實際的計算2.統(tǒng)計部門人員人數count()行動操作,返回的是RDD內元素的個數。3.分別統(tǒng)計上/下半年業(yè)績排名,取前三位及最后三位map、flatmap、sortby、take,first、collect等方法。map轉換操作map轉換操作是最常用的轉換算子,對RDD中的每個元素都執(zhí)行一個指定的函數來產生一個新的RDD。flatmap轉換操作此方法首先將map函數應用于RDD的所有元素,然后將返回的結果平坦化。sortby轉換操作此方法是對RDD進行排序,有3個參數可以輸入。sortby(參數一,參數二,參數三)參數一是要進行排序的對象值;參數二是排序方式,默認是正序排序,使用false參數就是倒序排序;參數三是分區(qū)個數。take,first、collect行動操作進行分析,實現任務。4.進行操作練習。三、課堂小結小結:本次課程學習重點,學習過程中出現的問題與解決方法?!?、4節(jié)結束——一、準備活動1.活躍課堂氣氛,學習通簽到、點名。2.學習目標和要求。二、發(fā)展活動1.統(tǒng)計上/下半年業(yè)績超過5000萬的人員。利用filter、distinct、union等方法對數據進行操作。filter轉換操作此方法返回滿足指定過濾條件的元素,不滿足條件的元素被忽略。distinct轉換操作此方法是對RDD中的數據去重,把完全相同的元素去除。對前述filter轉換操作中的rdd數據進行操作。union轉換操作此方法可以將兩個RDD進行合并,返回兩個RDD的并集,并且不去重。但是要求兩個RDD中每個元素中的值的個數及數據類型保持一致。進行分析,實現任務。2.進行操作練習。三、課堂小結小結:本次課程學習重點,學習過程中出現的問題與解決方法?!?、6節(jié)結束——一、準備活動1.活躍課堂氣氛,學習通簽到、點名。2.學習目標和要求。二、發(fā)展活動1.統(tǒng)計此部門當年的房屋銷售套數。利用RDD的相關描述性統(tǒng)計函數實現。min()、max()函數min()方法返回RDD中的最小值,max()方法返回RDD中的最大值。mean()、sum()函數mean()函數返回RDD中的平均值。sum()函數返回RDD中的總和。variance()、stdev()函數variance()計算RDD中所有元素的總體方差。stdev()計算RDD的標準差。進行分析,實現任務。將經過map操作處理好的上/下半年業(yè)績數據集map_firstrdd和map_secondrdd進行合并,取出第三列數據,利用sum函數計算總數。2.進行操作練習。三、課堂小結描述性統(tǒng)計函數小結。——第7、8節(jié)結束——一、準備活動1.活躍課堂氣氛,學習通簽到、點名。2.學習目標和要求。二、發(fā)展活動1.查看全年總業(yè)績最高人員。Spark為包含鍵值對類型的RDD提供了一些專有的操作,這些RDD被稱為PairRDD。創(chuàng)建PairRDD創(chuàng)建PairRDD的方法有很多,當需要將一個普通RDD轉換為PairRDD時,可以使用map方法來實現。keys()、values()轉換操作keys()、values()操作返回的類型是RDD。reducebykey()轉換操作此方法應用于鍵值對數據集操作,對Key相同的Value使用指定的函數進行聚合操作,返回一個鍵值對的數據集。2.進行操作練習。三、課堂小結PairRDD的操作小結?!?、10節(jié)結束——一、準備活動1.活躍課堂氣氛,學習通簽到、點名。2.學習目標和要求。二、發(fā)展活動1.groupbykey()轉換操作此方法會對相同鍵的值進行分組,形成二元元組,第一個字段為相同的鍵,第二個字段為具備相同鍵的值的集合。2.sortByKey()轉換操作此方法返回一個根據“鍵”進行排序的RDD。3.進行分析,實現任務將上、下半年的的業(yè)績合并到同一個RDD中。將數據轉換成(員工編號,業(yè)績)鍵值對,利用reduceByKey方法對相同員工編號對應的業(yè)績值進行相加。對業(yè)績總和進行排序,獲得最高業(yè)績人員信息。4.存儲以上統(tǒng)計分析信息文本文件的存儲可以直接調用saveAsTextFile(path)進行存儲。三、課堂小結PairRDD的操作小結。——第11、12節(jié)結束——一、準備活動1.活躍課堂氣氛,學習通簽到、點名。二、發(fā)展活動1.某城市近年房產銷售狀況分析情境導入;2.學習目標和要求;3.數據準備此房產銷售數據集是一個在系統(tǒng)外部的csv文件,因此需要將其上傳至文件系統(tǒng)中,加載為RDD后再做處理分析。4.使用map方法轉換RDD,以“,”將每一行數據分割。5.對戶人數的基本情況進行統(tǒng)計,獲得記錄條目的總數,以及在這些記錄中包括多少個用戶ID。6.了解房產銷量趨勢,統(tǒng)計每年房產銷售量情況。要獲得每年的房產銷售量情況,需要先從日期中提取年份數據;然后利用reduceByKey方法按年進行統(tǒng)計匯總;最后利用sortBy方法對統(tǒng)計匯總的數據進行排序,獲得每年銷量從高到低的排序情況。7.分析此數據集中購買房屋所屬的區(qū)域是哪些?各個區(qū)域的房產銷售情況如何?各個區(qū)域的房屋均價是多少?購買房屋所屬的區(qū)域情況及數量各個區(qū)域的房屋均價情況8.操作練習。三、課堂小結數據探索與分析小結?!?3、14節(jié)結束——一、準備活動1.活躍課堂氣氛,學習通簽到、點名。2.學習目標和要求。二、發(fā)展活動1.查詢2018年1月1日的日銷量有多少。使用filter轉換操作。2.查詢2018年1月1日到1月31日之間,滿五年房產的銷售數量。3.數據集中,房子的裝修類型有精裝、簡裝、毛坯、其他,四種類型,分析哪種裝修類型的房子銷量高。此問題的分析思路與第4點統(tǒng)計區(qū)域房產銷售情況一致,可以使用reduceByKey(_+_)方法對裝修類型相同的房屋數量進行求和統(tǒng)計。4.了解在所售賣的房子中,電梯有無的比例,地鐵有無情況,這些條件對房屋售賣量的影響程度。對電梯有無數據列創(chuàng)建鍵值對,其中“鍵”指有無電梯,每個“值”賦予“1”。然后使用groupByKey()方法對相同“鍵”的鍵值對進行分類,分類后對“值”進行sum求和。有無地鐵情況的數據處理思路相同。5.操作練習。三、課堂小結小結所涉及知識點?!?5、16節(jié)結束——學習評量課堂練習中巡視指導課后作業(yè)紙筆作業(yè):完成第4章課后練習題。教學后記目標或能力指針達成度、學習表現、內容、方法、資源、業(yè)師協(xié)同等向度1.目標或能力指標達成度全班80%學生達到了教學目標和能力指標。2.學習表現課內預習階段發(fā)現學生預習時個別同學沒有帶書,大部分同學沒有帶筆和筆記本,閱讀習慣有待改進。單元教學活動設計二級學院信息工程學院專業(yè)大數據技術設計者課程名稱大數據挖掘與分析學年學期2授課類型□理論型,√理實一體型,□實踐型單元名稱單元5.電商大數據分析與探索班級大數據技術1、2人數教材來源自編教材授課學時14學生學習條件分析1.起點分析:能使用RDD的各種轉換和行動操作對數據集進行處理分析。2.重點分析:(1)從不同數據源創(chuàng)建DataFrames的方法。(2)掌握操作DataFrame進行數據清洗、轉換、查詢的基本方法。3.難點分析:掌握使用SparkSQL語句進行數據分析的方法。教學方法手段1.教學方法:講授法、討論法。2.教學手段:實例講解演示。教學資源1.個人資源:教材、教學PPT與相關素材2.學校資源:一體化教室、超星平臺中的公共資源3.網絡、社會或出版社資源:多媒體課件、網上教學資源、精品課網站能力指標應用SparkSQL進行數據分析探索C1養(yǎng)成良好的自我管理素養(yǎng)B1提升學生溝通交流、小組協(xié)作能力E2教學目標知識1.理解DataFrame概念,作用。2.知道DataFrame的各種操作方法。能力1.從不同數據源創(chuàng)建DataFrames。2.掌握操作DataFrame進行數據清洗、轉換、查詢。3.靈活使用DataFrame數據操作的各種方法進行數據查詢。4.會使用聚合、連接等操作對DataFrame數據進行轉換。5.能使用聚合函數對DataFrame數據進行分析。6.持久存儲數據。素質1.養(yǎng)成良好的自我管理素養(yǎng)2.提升溝通交流、小組協(xié)作能力教師課前準備1.準備好一體化機房,保證機器正常運轉,安裝好軟件。2.準備好授課PPT,完成所有案例設計,熟練示范操作的過程。3.設計學生要完成的任務。4.設計好教學環(huán)節(jié)。5.服裝大方,自然得體。學生課前準備查閱資料,預習教材活動歷程一、準備活動1.活躍課堂氣氛,學習通簽到、點名。二、發(fā)展活動1.女裝電子商務評論情況分析情境導入;2.學習目標和要求;3.數據準備使用toDF函數創(chuàng)建DataFrame本地seq+toDF創(chuàng)建DataFrame。通過caseclass+toDF創(chuàng)建DataFrame使用createDataFrame函數創(chuàng)建DataFrame從外部數據創(chuàng)建DataFrame使用parquet文件創(chuàng)建使用json文件創(chuàng)建使用CSV(Comma-SeparatedValues)文件創(chuàng)建讀取“女裝電子商務評論”數據集按照列名cols刪除DataFrame中的列,返回新的DataFrame。此方法可以刪除數據表中無用的或者不想要的數據列。刪除“publisher”列。4.數據清洗drop(cols)按照列名cols刪除DataFrame中的列,返回新的DataFrame。此方法可以刪除數據表中無用的或者不想要的數據列。操作練習:刪除“publisher”列。dropDuplicates(subset=None)此方法用于刪除DataFrame中的重復行,subset用于指定刪除重復行的時候考慮哪幾列。操作練習:刪除重復的行、刪除author列重復的行。na.drop此方法用于刪除DataFrame中的null空數據,加入“any”和“all”參數可以指定刪除條件,加入數字參數指定有多少個空值進行刪除,加入字段名刪除指定字段中的空值。操作練習:對有任意一個為缺失值的行進行刪除;對全部為缺失值的行進行刪除;對有3個缺失值的數據行進行刪除;對有兩個缺失值以上的數據行進行刪除。na.fill()此方法用于將DataFrame中所有缺失值填充為一個給定的字符串或數值??梢詾樗腥笔е抵付ㄗ址驍抵?,也可以為指定列指定不同字符串或數值。操作練習:將表中所有的null空數據指定為“不明”;對不同的列中缺失值填充不同的字符串對“Clothing-Reviews.csv”女裝電子商務評論數據集進行數據清洗,刪除重復的數據,對有空缺數據的行進行刪除。三、課堂小結DataFrame數據準備、清洗小結?!?、2節(jié)結束——一、準備活動1.活躍課堂氣氛,學習通簽到、點名。2.學習目標和要求。二、發(fā)展活動1.數據轉換。withColumn(colName,col)此方法用于為數據表添加新列,返回一個新的DataFrame增加colNAme列,如果原來本身就有colName的列,就進行替換。withColumnRename(existing,new)此方法用于對已經存在的列名進行重命名。existing為原來的名字,new為新的列名,若名稱不存在則這個操作不做任何事情。定義UDF,將數據表中的兩列合并成一列。UDF是指用戶定義函數,用于擴展系統(tǒng)的內置功能。我們可以在SparkSQL中自定義實際需要的UDF來處理數據。定義UDF,對表格中的列添加字符或者數字。na.replace此方法用于對現有的字符或者數字刪除或替換字符或者數字。如果在replace中列名參數是“*”,那么將會對所有的列進行相應的替換。對“Clothing-Reviews.csv”女裝電子商務評論數據集進行數據轉換,將recommended_IND(是否推薦)列中的1替換為推薦,0替換為不推薦。三、課堂小結小結:本次課程學習重點,學習過程中出現的問題與解決方法?!?、4節(jié)結束——一、準備活動1.活躍課堂氣氛,學習通簽到、點名。2.學習目標和要求。二、發(fā)展活動1.注冊臨時表的方法。createGlobalTempView(name)createOrReplaceGlobalTempView(name)createTempView(name)createOrReplaceTempView(name)2.案例分析:以本章數據集中的books.csv為例,進行操作理解。自定義schema,讀取books.csv文件,刪除有空缺數據的行及重復數據。注冊臨時表:book2.createOrReplaceTempView("btemp")在臨時表中執(zhí)行SQL,查詢book_price價格小于30的書。3.進行操作練習。三、課堂小結小結:本次課程學習重點,學習過程中出現的問題與解決方法?!?、6節(jié)結束——一、準備活動1.活躍課堂氣氛,學習通簽到、點名。2.學習目標和要求。二、發(fā)展活動1.對Clothing-Reviews.csv數據進行SQL探索分析。查看40歲以下,不同年齡段的客戶人數。統(tǒng)計recommended_IND為“不推薦”的訂單的rating評分分布。為進一步了解用戶“不推薦”的原因,可以查看用戶具體評論。查詢了解,不推薦的這些訂單,分別屬于哪些服裝分類,各種服裝類的不推薦數量情況是如何的。統(tǒng)計分析不同評分等級的服裝編號clothing_id情況。獲得不同服裝編號clothing_id的五星好評數量,并且降序排序。使用SparkSQL的內置函數進行相關性等分析。2.數據輸出方法一:利用save()函數保存數據。方法二:通過df.rdd.saveAsTextFile("file:///")轉化成rdd再保存。此方法可以將數據存儲為txt格式。3.進行操作練習。三、課堂小結數據分析與存儲小結?!?、8節(jié)結束——一、準備活動活躍課堂氣氛,學習通簽到、點名。二、發(fā)展活動1.在線銷售訂單數據分析情景導入2.學習目標和要求。3.數據查詢操作查看數據show該方法主要用于測試,查看輸入的數據、獲得的結果是否正確。該方法能夠以表格的形式展示DataFrame中的數據。collect()collect方法類似與SparkRDD的collect方法。與show方法不同的是,collect方法可以獲取DataFrame中的所有數據,并返回一個Array對象。過濾查詢where在SQL語法中,可以通過where條件語句對數據進行過濾。在SparkSQL中,同樣可以像SQL一樣使用where(conditionExpr:String)條件語句來對數據進行過濾??梢灾付l件參數conditionExpr來進行查詢,參數中可以使用and或or。filterfilter方法和where方法類似,可以篩選出符合條件的數據。指定列查詢select在SparkSQL中可以通過select方法來查詢指定字段,類似于SQL中的select方法。selectExpr這個方法是select方法的一個變體,可以接受一個SQL表達式,或對某些字段做一些特殊處理。排序操作orderBy此方法能夠使數據按照指定的字段排序,默認升序排序。如果需要降序排序,可以使用desc(“字段名稱”)或者$“字段名”.desc進行處理。sortsort方法與orderBy方法一樣,也是對指定字段進行排序。對emp中的salary薪水列進行升序排序。4.進行操作練習。三、課堂小結數據查詢操作小結?!?、10節(jié)結束——一、準備活動1.活躍課堂氣氛,學習通簽到、點名。2.學習目標和要求。二、發(fā)展活動1.分組聚合。groupBy分組此方法可以根據字段進行分組操作。調用方式可以傳入String類型的字段名,也可以是Column類型的對象。agg聚合該方法一般與groupBy方法配合使用。agg(expers:column*)可以傳入一個或多個Coumn對象,返回DataFrame。2.聚合函數聚合是大數據分析領域中最常用的特性之一。SparkSQL提供了很多常用的聚合函數,比如sum、count、avg等等。count函數count可以執(zhí)行以下2種操作:對指定列進行計數;使用count(*)或count(1)對所有列進行計數。countDistinct函數:此函數可以計算每個組的唯一項。approx_count_distinct函數此函數的功能與countDistinct一樣,但是統(tǒng)計的結果允許有誤差。這里approx_count_distinct的另一個參數就指定了可容忍的誤差的最大誤差。sum函數:計算一個數字列中的所有值的總和。sumDistinct函數:計算一個數字列中不同值的總和,重復的數值將不被計算。avg函數:計算一個數字列的平均值。min函數、max函數:統(tǒng)計出指定列的最小值和最大值。3.連接操作內連接內連接查詢操作是列出與連接條件匹配的數據行,它使用比較運算符比較被連接列的列值。左外連接此連接方式是以左表為基準,將數據進行連接,然后將左表中所有數據都顯示,右表對應的列設置為NULL。右外連接是以右表為基準,將數據進行連接,然后將右表所有的數據進行顯示,左表對應的列設置為NULL。全外連接全外連接是在等值連接的基礎上將左表和右表的未匹配數據都加上。LeftSemi-Join這種join類型的行為類似于內連接類型,連接后的數據集只包含匹配的行。交叉連接(又稱為Cartesian-笛卡爾連接)當執(zhí)行join連接時不指定參數,得到的也是笛卡爾積結果。三、課堂小結數據查詢操作小結?!?1、12節(jié)結束——一、準備活動1.活躍課堂氣氛,學習通簽到、點名。2.學習目標和要求二、發(fā)展活動1.數據準備上傳orders.csv和order-details.csv數據集到HDFS文件系統(tǒng)中。加載數據集到RDD及DataFrame中。2.問題分析此數據集中每個客戶的下單數量是多少?每個城市的訂單有多少?每個客戶的消費總額是多少?計算orders_details中每行商品的實際銷售金額。按照訂單編號order_id統(tǒng)計每張訂單的總金額。進行等值內連接,并增加訂單總金額。數據集中,客戶的平均訂單消費額是多少?3.操作練習。三、課堂小結數據探索與分析小結?!?3、14節(jié)結束——學習評量課堂練習中巡視指導課后作業(yè)紙筆作業(yè):完成第5章課后練習題。教學后記目標或能力指針達成度、學習表現、內容、方法、資源、業(yè)師協(xié)同等向度1.目標或能力指標達成度全班80%學生達到了教學目標和能力指標。2.學習表現課內預習階段發(fā)現學生預習時個別同學沒有帶書,大部分同學沒有帶筆和筆記本,閱讀習慣有待改進。單元教學活動設計二級學院信息工程學院專業(yè)大數據技術設計者課程名稱大數據挖掘與分析學年學期2授課類型□理論型,√理實一體型,□實踐型單元名稱單元6.Zepplin數據可視化班級大數據技術1、2人數教材來源自編教材授課學時8學生學習條件分析1.起點分析:會使用SparkSQL進行數據分析與探索。2.重點分析:(1)會下載、安裝、配置Zepplin可視化工具。(2)掌握操作DataFrame進行數據清洗、轉換、查詢的基本方法。3.難點分析:能使用Zepplin執(zhí)行SparkSQL命令實現數據可視化。教學方法手段1.教學方法:講授法、討論法。2.教學手段:實例講解演示。教學資源1.個人資源:教材、教學PPT與相關素材2.學校資源:一體化教室、超星平臺中的公共資源3.網絡、社會或出版社資源:多媒體課件、網上教學資源、精品課網站能力指標應用Zepplin實現數據可視化C1養(yǎng)成良好的自我管理素養(yǎng)B1提升學生溝通交流、小組協(xié)作能力E2教學目標知識Zepplin中使用SparkSQL實現數據可視化的方法。能力1.會下載、安裝、配置Zepplin可視化工具。2.會在Zepplin中配置Spark解釋器。3.能使用Zepplin執(zhí)行SparkSQL命令實現數據可視化。素質1.養(yǎng)成良好的自我管理素養(yǎng)2.提升溝通交流、小組協(xié)作能力教師課前準備1.準備好一體化機房,保證機器正常運轉,安裝好軟件。2.準備好授課PPT,完成所有案例設計,熟練示范操作的過程。3.設計學生要完成的任
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度個人住宅防水施工與監(jiān)理合同2篇
- 2025年度個人融資擔保服務合同4篇
- 二零二五年度荷蘭留學行前準備合同3篇
- 二零二五年度綠色生態(tài)景區(qū)景觀綠化咨詢與維護管理合同2篇
- 二零二四年互聯(lián)網金融平臺風險控制服務合同3篇
- 二零二五年文化教育用品全國供貨與推廣合同
- 美容院商鋪租賃合同(2025版):美容院美容美發(fā)產品研發(fā)及推廣合作協(xié)議2篇
- 二零二五年度礦產資源開發(fā)承包合同范本4篇
- 2025年度新能源汽車電池存儲與充電設施租賃合同3篇
- 2025年度茶樓裝修改造工程合同范本下載4篇
- 氦離子化色譜法測試電氣設備油中溶解氣體的技術規(guī)范
- 中國聯(lián)合網絡通信有限公司招聘筆試題庫2024
- 【社會工作介入精神障礙社區(qū)康復問題探究的文獻綜述5800字】
- 節(jié)前停工停產與節(jié)后復工復產安全注意事項課件
- 設備管理績效考核細則
- 中國人民銀行清算總中心直屬企業(yè)2023年招聘筆試上岸歷年典型考題與考點剖析附帶答案詳解
- (正式版)SJT 11449-2024 集中空調電子計費信息系統(tǒng)工程技術規(guī)范
- 人教版四年級上冊加減乘除四則混合運算300題及答案
- 合成生物學技術在生物制藥中的應用
- 消化系統(tǒng)疾病的負性情緒與心理護理
- 高考語文文學類閱讀分類訓練:戲劇類(含答案)
評論
0/150
提交評論