大數(shù)據(jù)分析及應(yīng)用項(xiàng)目教程(Spark SQL)(微課版) 教案 許慧 單元4-6 房產(chǎn)大數(shù)據(jù)分析與探索-Zepplin數(shù)據(jù)可視化_第1頁(yè)
大數(shù)據(jù)分析及應(yīng)用項(xiàng)目教程(Spark SQL)(微課版) 教案 許慧 單元4-6 房產(chǎn)大數(shù)據(jù)分析與探索-Zepplin數(shù)據(jù)可視化_第2頁(yè)
大數(shù)據(jù)分析及應(yīng)用項(xiàng)目教程(Spark SQL)(微課版) 教案 許慧 單元4-6 房產(chǎn)大數(shù)據(jù)分析與探索-Zepplin數(shù)據(jù)可視化_第3頁(yè)
大數(shù)據(jù)分析及應(yīng)用項(xiàng)目教程(Spark SQL)(微課版) 教案 許慧 單元4-6 房產(chǎn)大數(shù)據(jù)分析與探索-Zepplin數(shù)據(jù)可視化_第4頁(yè)
大數(shù)據(jù)分析及應(yīng)用項(xiàng)目教程(Spark SQL)(微課版) 教案 許慧 單元4-6 房產(chǎn)大數(shù)據(jù)分析與探索-Zepplin數(shù)據(jù)可視化_第5頁(yè)
已閱讀5頁(yè),還剩22頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

單元教學(xué)活動(dòng)設(shè)計(jì)二級(jí)學(xué)院信息工程學(xué)院專業(yè)大數(shù)據(jù)技術(shù)設(shè)計(jì)者許慧課程名稱大數(shù)據(jù)挖掘與分析學(xué)年學(xué)期2授課類型□理論型,√理實(shí)一體型,□實(shí)踐型單元名稱單元4.房產(chǎn)大數(shù)據(jù)分析與探索班級(jí)大數(shù)據(jù)技術(shù)1、2人數(shù)教材來(lái)源自編教材授課學(xué)時(shí)16學(xué)生學(xué)習(xí)條件分析1.起點(diǎn)分析:掌握Scala編程語(yǔ)言基礎(chǔ)。2.重點(diǎn)分析:能使用RDD的各種轉(zhuǎn)換和行動(dòng)操作對(duì)數(shù)據(jù)集進(jìn)行處理分析。3.難點(diǎn)分析:能靈活綜合的應(yīng)用各種RDD操作和各個(gè)算子對(duì)數(shù)據(jù)進(jìn)行分析。教學(xué)方法手段1.教學(xué)方法:講授法、討論法。2.教學(xué)手段:實(shí)例講解演示。教學(xué)資源1.個(gè)人資源:教材、教學(xué)PPT與相關(guān)素材2.學(xué)校資源:一體化教室、超星平臺(tái)中的公共資源3.網(wǎng)絡(luò)、社會(huì)或出版社資源:多媒體課件、網(wǎng)上教學(xué)資源、精品課網(wǎng)站能力指標(biāo)綜合的應(yīng)用各種RDD操作和各個(gè)算子C1養(yǎng)成良好的自我管理素養(yǎng)B1提升學(xué)生溝通交流、小組協(xié)作能力E2教學(xué)目標(biāo)知識(shí)1.掌握將數(shù)據(jù)構(gòu)建為RDD的方法。2.知道RDD各種算子的使用方法。能力1.能使用RDD的各種轉(zhuǎn)換和行動(dòng)操作對(duì)數(shù)據(jù)集進(jìn)行處理分析。2.能靈活綜合的應(yīng)用各種RDD操作和各個(gè)算子對(duì)數(shù)據(jù)進(jìn)行分析。素質(zhì)1.養(yǎng)成良好的自我管理素養(yǎng)2.提升溝通交流、小組協(xié)作能力教師課前準(zhǔn)備1.準(zhǔn)備好一體化機(jī)房,保證機(jī)器正常運(yùn)轉(zhuǎn),安裝好軟件。2.準(zhǔn)備好授課PPT,完成所有案例設(shè)計(jì),熟練示范操作的過(guò)程。3.設(shè)計(jì)學(xué)生要完成的任務(wù)。4.設(shè)計(jì)好教學(xué)環(huán)節(jié)。5.服裝大方,自然得體。學(xué)生課前準(zhǔn)備查閱資料,預(yù)習(xí)教材活動(dòng)歷程一、準(zhǔn)備活動(dòng)1.活躍課堂氣氛,學(xué)習(xí)通簽到、點(diǎn)名。二、發(fā)展活動(dòng)1.某房產(chǎn)公司銷售人員業(yè)績(jī)分析情境導(dǎo)入;2.學(xué)習(xí)目標(biāo)和要求;3.?dāng)?shù)據(jù)集處理基于內(nèi)存(集合)創(chuàng)建RDD。parallelize方法創(chuàng)建RDDmakeRDD方法創(chuàng)建RDD從外部存儲(chǔ)數(shù)據(jù)構(gòu)造RDD使用sc.textFile()方法進(jìn)行創(chuàng)建。操作練習(xí)——構(gòu)建員工業(yè)績(jī)RDD三、課堂小結(jié)RDD的創(chuàng)建方法小結(jié)?!?、2節(jié)結(jié)束——一、準(zhǔn)備活動(dòng)1.活躍課堂氣氛,學(xué)習(xí)通簽到、點(diǎn)名。2.學(xué)習(xí)目標(biāo)和要求。二、發(fā)展活動(dòng)1.RDD支持的兩種操作。轉(zhuǎn)換操作:就是對(duì)RDD中的數(shù)據(jù)進(jìn)行各種轉(zhuǎn)換。行動(dòng)操作:RDD的行動(dòng)操作則是向驅(qū)動(dòng)器程序返回結(jié)果或者把結(jié)果寫入外部系統(tǒng)的操作,會(huì)觸發(fā)實(shí)際的計(jì)算2.統(tǒng)計(jì)部門人員人數(shù)count()行動(dòng)操作,返回的是RDD內(nèi)元素的個(gè)數(shù)。3.分別統(tǒng)計(jì)上/下半年業(yè)績(jī)排名,取前三位及最后三位map、flatmap、sortby、take,first、collect等方法。map轉(zhuǎn)換操作map轉(zhuǎn)換操作是最常用的轉(zhuǎn)換算子,對(duì)RDD中的每個(gè)元素都執(zhí)行一個(gè)指定的函數(shù)來(lái)產(chǎn)生一個(gè)新的RDD。flatmap轉(zhuǎn)換操作此方法首先將map函數(shù)應(yīng)用于RDD的所有元素,然后將返回的結(jié)果平坦化。sortby轉(zhuǎn)換操作此方法是對(duì)RDD進(jìn)行排序,有3個(gè)參數(shù)可以輸入。sortby(參數(shù)一,參數(shù)二,參數(shù)三)參數(shù)一是要進(jìn)行排序的對(duì)象值;參數(shù)二是排序方式,默認(rèn)是正序排序,使用false參數(shù)就是倒序排序;參數(shù)三是分區(qū)個(gè)數(shù)。take,first、collect行動(dòng)操作進(jìn)行分析,實(shí)現(xiàn)任務(wù)。4.進(jìn)行操作練習(xí)。三、課堂小結(jié)小結(jié):本次課程學(xué)習(xí)重點(diǎn),學(xué)習(xí)過(guò)程中出現(xiàn)的問(wèn)題與解決方法?!?、4節(jié)結(jié)束——一、準(zhǔn)備活動(dòng)1.活躍課堂氣氛,學(xué)習(xí)通簽到、點(diǎn)名。2.學(xué)習(xí)目標(biāo)和要求。二、發(fā)展活動(dòng)1.統(tǒng)計(jì)上/下半年業(yè)績(jī)超過(guò)5000萬(wàn)的人員。利用filter、distinct、union等方法對(duì)數(shù)據(jù)進(jìn)行操作。filter轉(zhuǎn)換操作此方法返回滿足指定過(guò)濾條件的元素,不滿足條件的元素被忽略。distinct轉(zhuǎn)換操作此方法是對(duì)RDD中的數(shù)據(jù)去重,把完全相同的元素去除。對(duì)前述filter轉(zhuǎn)換操作中的rdd數(shù)據(jù)進(jìn)行操作。union轉(zhuǎn)換操作此方法可以將兩個(gè)RDD進(jìn)行合并,返回兩個(gè)RDD的并集,并且不去重。但是要求兩個(gè)RDD中每個(gè)元素中的值的個(gè)數(shù)及數(shù)據(jù)類型保持一致。進(jìn)行分析,實(shí)現(xiàn)任務(wù)。2.進(jìn)行操作練習(xí)。三、課堂小結(jié)小結(jié):本次課程學(xué)習(xí)重點(diǎn),學(xué)習(xí)過(guò)程中出現(xiàn)的問(wèn)題與解決方法?!?、6節(jié)結(jié)束——一、準(zhǔn)備活動(dòng)1.活躍課堂氣氛,學(xué)習(xí)通簽到、點(diǎn)名。2.學(xué)習(xí)目標(biāo)和要求。二、發(fā)展活動(dòng)1.統(tǒng)計(jì)此部門當(dāng)年的房屋銷售套數(shù)。利用RDD的相關(guān)描述性統(tǒng)計(jì)函數(shù)實(shí)現(xiàn)。min()、max()函數(shù)min()方法返回RDD中的最小值,max()方法返回RDD中的最大值。mean()、sum()函數(shù)mean()函數(shù)返回RDD中的平均值。sum()函數(shù)返回RDD中的總和。variance()、stdev()函數(shù)variance()計(jì)算RDD中所有元素的總體方差。stdev()計(jì)算RDD的標(biāo)準(zhǔn)差。進(jìn)行分析,實(shí)現(xiàn)任務(wù)。將經(jīng)過(guò)map操作處理好的上/下半年業(yè)績(jī)數(shù)據(jù)集map_firstrdd和map_secondrdd進(jìn)行合并,取出第三列數(shù)據(jù),利用sum函數(shù)計(jì)算總數(shù)。2.進(jìn)行操作練習(xí)。三、課堂小結(jié)描述性統(tǒng)計(jì)函數(shù)小結(jié)。——第7、8節(jié)結(jié)束——一、準(zhǔn)備活動(dòng)1.活躍課堂氣氛,學(xué)習(xí)通簽到、點(diǎn)名。2.學(xué)習(xí)目標(biāo)和要求。二、發(fā)展活動(dòng)1.查看全年總業(yè)績(jī)最高人員。Spark為包含鍵值對(duì)類型的RDD提供了一些專有的操作,這些RDD被稱為PairRDD。創(chuàng)建PairRDD創(chuàng)建PairRDD的方法有很多,當(dāng)需要將一個(gè)普通RDD轉(zhuǎn)換為PairRDD時(shí),可以使用map方法來(lái)實(shí)現(xiàn)。keys()、values()轉(zhuǎn)換操作keys()、values()操作返回的類型是RDD。reducebykey()轉(zhuǎn)換操作此方法應(yīng)用于鍵值對(duì)數(shù)據(jù)集操作,對(duì)Key相同的Value使用指定的函數(shù)進(jìn)行聚合操作,返回一個(gè)鍵值對(duì)的數(shù)據(jù)集。2.進(jìn)行操作練習(xí)。三、課堂小結(jié)PairRDD的操作小結(jié)?!?、10節(jié)結(jié)束——一、準(zhǔn)備活動(dòng)1.活躍課堂氣氛,學(xué)習(xí)通簽到、點(diǎn)名。2.學(xué)習(xí)目標(biāo)和要求。二、發(fā)展活動(dòng)1.groupbykey()轉(zhuǎn)換操作此方法會(huì)對(duì)相同鍵的值進(jìn)行分組,形成二元元組,第一個(gè)字段為相同的鍵,第二個(gè)字段為具備相同鍵的值的集合。2.sortByKey()轉(zhuǎn)換操作此方法返回一個(gè)根據(jù)“鍵”進(jìn)行排序的RDD。3.進(jìn)行分析,實(shí)現(xiàn)任務(wù)將上、下半年的的業(yè)績(jī)合并到同一個(gè)RDD中。將數(shù)據(jù)轉(zhuǎn)換成(員工編號(hào),業(yè)績(jī))鍵值對(duì),利用reduceByKey方法對(duì)相同員工編號(hào)對(duì)應(yīng)的業(yè)績(jī)值進(jìn)行相加。對(duì)業(yè)績(jī)總和進(jìn)行排序,獲得最高業(yè)績(jī)?nèi)藛T信息。4.存儲(chǔ)以上統(tǒng)計(jì)分析信息文本文件的存儲(chǔ)可以直接調(diào)用saveAsTextFile(path)進(jìn)行存儲(chǔ)。三、課堂小結(jié)PairRDD的操作小結(jié)?!?1、12節(jié)結(jié)束——一、準(zhǔn)備活動(dòng)1.活躍課堂氣氛,學(xué)習(xí)通簽到、點(diǎn)名。二、發(fā)展活動(dòng)1.某城市近年房產(chǎn)銷售狀況分析情境導(dǎo)入;2.學(xué)習(xí)目標(biāo)和要求;3.數(shù)據(jù)準(zhǔn)備此房產(chǎn)銷售數(shù)據(jù)集是一個(gè)在系統(tǒng)外部的csv文件,因此需要將其上傳至文件系統(tǒng)中,加載為RDD后再做處理分析。4.使用map方法轉(zhuǎn)換RDD,以“,”將每一行數(shù)據(jù)分割。5.對(duì)戶人數(shù)的基本情況進(jìn)行統(tǒng)計(jì),獲得記錄條目的總數(shù),以及在這些記錄中包括多少個(gè)用戶ID。6.了解房產(chǎn)銷量趨勢(shì),統(tǒng)計(jì)每年房產(chǎn)銷售量情況。要獲得每年的房產(chǎn)銷售量情況,需要先從日期中提取年份數(shù)據(jù);然后利用reduceByKey方法按年進(jìn)行統(tǒng)計(jì)匯總;最后利用sortBy方法對(duì)統(tǒng)計(jì)匯總的數(shù)據(jù)進(jìn)行排序,獲得每年銷量從高到低的排序情況。7.分析此數(shù)據(jù)集中購(gòu)買房屋所屬的區(qū)域是哪些?各個(gè)區(qū)域的房產(chǎn)銷售情況如何?各個(gè)區(qū)域的房屋均價(jià)是多少?購(gòu)買房屋所屬的區(qū)域情況及數(shù)量各個(gè)區(qū)域的房屋均價(jià)情況8.操作練習(xí)。三、課堂小結(jié)數(shù)據(jù)探索與分析小結(jié)?!?3、14節(jié)結(jié)束——一、準(zhǔn)備活動(dòng)1.活躍課堂氣氛,學(xué)習(xí)通簽到、點(diǎn)名。2.學(xué)習(xí)目標(biāo)和要求。二、發(fā)展活動(dòng)1.查詢2018年1月1日的日銷量有多少。使用filter轉(zhuǎn)換操作。2.查詢2018年1月1日到1月31日之間,滿五年房產(chǎn)的銷售數(shù)量。3.數(shù)據(jù)集中,房子的裝修類型有精裝、簡(jiǎn)裝、毛坯、其他,四種類型,分析哪種裝修類型的房子銷量高。此問(wèn)題的分析思路與第4點(diǎn)統(tǒng)計(jì)區(qū)域房產(chǎn)銷售情況一致,可以使用reduceByKey(_+_)方法對(duì)裝修類型相同的房屋數(shù)量進(jìn)行求和統(tǒng)計(jì)。4.了解在所售賣的房子中,電梯有無(wú)的比例,地鐵有無(wú)情況,這些條件對(duì)房屋售賣量的影響程度。對(duì)電梯有無(wú)數(shù)據(jù)列創(chuàng)建鍵值對(duì),其中“鍵”指有無(wú)電梯,每個(gè)“值”賦予“1”。然后使用groupByKey()方法對(duì)相同“鍵”的鍵值對(duì)進(jìn)行分類,分類后對(duì)“值”進(jìn)行sum求和。有無(wú)地鐵情況的數(shù)據(jù)處理思路相同。5.操作練習(xí)。三、課堂小結(jié)小結(jié)所涉及知識(shí)點(diǎn)?!?5、16節(jié)結(jié)束——學(xué)習(xí)評(píng)量課堂練習(xí)中巡視指導(dǎo)課后作業(yè)紙筆作業(yè):完成第4章課后練習(xí)題。教學(xué)后記目標(biāo)或能力指針達(dá)成度、學(xué)習(xí)表現(xiàn)、內(nèi)容、方法、資源、業(yè)師協(xié)同等向度1.目標(biāo)或能力指標(biāo)達(dá)成度全班80%學(xué)生達(dá)到了教學(xué)目標(biāo)和能力指標(biāo)。2.學(xué)習(xí)表現(xiàn)課內(nèi)預(yù)習(xí)階段發(fā)現(xiàn)學(xué)生預(yù)習(xí)時(shí)個(gè)別同學(xué)沒有帶書,大部分同學(xué)沒有帶筆和筆記本,閱讀習(xí)慣有待改進(jìn)。單元教學(xué)活動(dòng)設(shè)計(jì)二級(jí)學(xué)院信息工程學(xué)院專業(yè)大數(shù)據(jù)技術(shù)設(shè)計(jì)者許慧課程名稱大數(shù)據(jù)挖掘與分析學(xué)年學(xué)期2授課類型□理論型,√理實(shí)一體型,□實(shí)踐型單元名稱單元5.電商大數(shù)據(jù)分析與探索班級(jí)大數(shù)據(jù)技術(shù)1、2人數(shù)教材來(lái)源自編教材授課學(xué)時(shí)14學(xué)生學(xué)習(xí)條件分析1.起點(diǎn)分析:能使用RDD的各種轉(zhuǎn)換和行動(dòng)操作對(duì)數(shù)據(jù)集進(jìn)行處理分析。2.重點(diǎn)分析:(1)從不同數(shù)據(jù)源創(chuàng)建DataFrames的方法。(2)掌握操作DataFrame進(jìn)行數(shù)據(jù)清洗、轉(zhuǎn)換、查詢的基本方法。3.難點(diǎn)分析:掌握使用SparkSQL語(yǔ)句進(jìn)行數(shù)據(jù)分析的方法。教學(xué)方法手段1.教學(xué)方法:講授法、討論法。2.教學(xué)手段:實(shí)例講解演示。教學(xué)資源1.個(gè)人資源:教材、教學(xué)PPT與相關(guān)素材2.學(xué)校資源:一體化教室、超星平臺(tái)中的公共資源3.網(wǎng)絡(luò)、社會(huì)或出版社資源:多媒體課件、網(wǎng)上教學(xué)資源、精品課網(wǎng)站能力指標(biāo)應(yīng)用SparkSQL進(jìn)行數(shù)據(jù)分析探索C1養(yǎng)成良好的自我管理素養(yǎng)B1提升學(xué)生溝通交流、小組協(xié)作能力E2教學(xué)目標(biāo)知識(shí)1.理解DataFrame概念,作用。2.知道DataFrame的各種操作方法。能力1.從不同數(shù)據(jù)源創(chuàng)建DataFrames。2.掌握操作DataFrame進(jìn)行數(shù)據(jù)清洗、轉(zhuǎn)換、查詢。3.靈活使用DataFrame數(shù)據(jù)操作的各種方法進(jìn)行數(shù)據(jù)查詢。4.會(huì)使用聚合、連接等操作對(duì)DataFrame數(shù)據(jù)進(jìn)行轉(zhuǎn)換。5.能使用聚合函數(shù)對(duì)DataFrame數(shù)據(jù)進(jìn)行分析。6.持久存儲(chǔ)數(shù)據(jù)。素質(zhì)1.養(yǎng)成良好的自我管理素養(yǎng)2.提升溝通交流、小組協(xié)作能力教師課前準(zhǔn)備1.準(zhǔn)備好一體化機(jī)房,保證機(jī)器正常運(yùn)轉(zhuǎn),安裝好軟件。2.準(zhǔn)備好授課PPT,完成所有案例設(shè)計(jì),熟練示范操作的過(guò)程。3.設(shè)計(jì)學(xué)生要完成的任務(wù)。4.設(shè)計(jì)好教學(xué)環(huán)節(jié)。5.服裝大方,自然得體。學(xué)生課前準(zhǔn)備查閱資料,預(yù)習(xí)教材活動(dòng)歷程一、準(zhǔn)備活動(dòng)1.活躍課堂氣氛,學(xué)習(xí)通簽到、點(diǎn)名。二、發(fā)展活動(dòng)1.女裝電子商務(wù)評(píng)論情況分析情境導(dǎo)入;2.學(xué)習(xí)目標(biāo)和要求;3.?dāng)?shù)據(jù)準(zhǔn)備使用toDF函數(shù)創(chuàng)建DataFrame本地seq+toDF創(chuàng)建DataFrame。通過(guò)caseclass+toDF創(chuàng)建DataFrame使用createDataFrame函數(shù)創(chuàng)建DataFrame從外部數(shù)據(jù)創(chuàng)建DataFrame使用parquet文件創(chuàng)建使用json文件創(chuàng)建使用CSV(Comma-SeparatedValues)文件創(chuàng)建讀取“女裝電子商務(wù)評(píng)論”數(shù)據(jù)集按照列名cols刪除DataFrame中的列,返回新的DataFrame。此方法可以刪除數(shù)據(jù)表中無(wú)用的或者不想要的數(shù)據(jù)列。刪除“publisher”列。4.數(shù)據(jù)清洗drop(cols)按照列名cols刪除DataFrame中的列,返回新的DataFrame。此方法可以刪除數(shù)據(jù)表中無(wú)用的或者不想要的數(shù)據(jù)列。操作練習(xí):刪除“publisher”列。dropDuplicates(subset=None)此方法用于刪除DataFrame中的重復(fù)行,subset用于指定刪除重復(fù)行的時(shí)候考慮哪幾列。操作練習(xí):刪除重復(fù)的行、刪除author列重復(fù)的行。na.drop此方法用于刪除DataFrame中的null空數(shù)據(jù),加入“any”和“all”參數(shù)可以指定刪除條件,加入數(shù)字參數(shù)指定有多少個(gè)空值進(jìn)行刪除,加入字段名刪除指定字段中的空值。操作練習(xí):對(duì)有任意一個(gè)為缺失值的行進(jìn)行刪除;對(duì)全部為缺失值的行進(jìn)行刪除;對(duì)有3個(gè)缺失值的數(shù)據(jù)行進(jìn)行刪除;對(duì)有兩個(gè)缺失值以上的數(shù)據(jù)行進(jìn)行刪除。na.fill()此方法用于將DataFrame中所有缺失值填充為一個(gè)給定的字符串或數(shù)值。可以為所有缺失值指定字符串或數(shù)值,也可以為指定列指定不同字符串或數(shù)值。操作練習(xí):將表中所有的null空數(shù)據(jù)指定為“不明”;對(duì)不同的列中缺失值填充不同的字符串對(duì)“Clothing-Reviews.csv”女裝電子商務(wù)評(píng)論數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗,刪除重復(fù)的數(shù)據(jù),對(duì)有空缺數(shù)據(jù)的行進(jìn)行刪除。三、課堂小結(jié)DataFrame數(shù)據(jù)準(zhǔn)備、清洗小結(jié)?!?、2節(jié)結(jié)束——一、準(zhǔn)備活動(dòng)1.活躍課堂氣氛,學(xué)習(xí)通簽到、點(diǎn)名。2.學(xué)習(xí)目標(biāo)和要求。二、發(fā)展活動(dòng)1.數(shù)據(jù)轉(zhuǎn)換。withColumn(colName,col)此方法用于為數(shù)據(jù)表添加新列,返回一個(gè)新的DataFrame增加colNAme列,如果原來(lái)本身就有colName的列,就進(jìn)行替換。withColumnRename(existing,new)此方法用于對(duì)已經(jīng)存在的列名進(jìn)行重命名。existing為原來(lái)的名字,new為新的列名,若名稱不存在則這個(gè)操作不做任何事情。定義UDF,將數(shù)據(jù)表中的兩列合并成一列。UDF是指用戶定義函數(shù),用于擴(kuò)展系統(tǒng)的內(nèi)置功能。我們可以在SparkSQL中自定義實(shí)際需要的UDF來(lái)處理數(shù)據(jù)。定義UDF,對(duì)表格中的列添加字符或者數(shù)字。na.replace此方法用于對(duì)現(xiàn)有的字符或者數(shù)字刪除或替換字符或者數(shù)字。如果在replace中列名參數(shù)是“*”,那么將會(huì)對(duì)所有的列進(jìn)行相應(yīng)的替換。對(duì)“Clothing-Reviews.csv”女裝電子商務(wù)評(píng)論數(shù)據(jù)集進(jìn)行數(shù)據(jù)轉(zhuǎn)換,將recommended_IND(是否推薦)列中的1替換為推薦,0替換為不推薦。三、課堂小結(jié)小結(jié):本次課程學(xué)習(xí)重點(diǎn),學(xué)習(xí)過(guò)程中出現(xiàn)的問(wèn)題與解決方法。——第3、4節(jié)結(jié)束——一、準(zhǔn)備活動(dòng)1.活躍課堂氣氛,學(xué)習(xí)通簽到、點(diǎn)名。2.學(xué)習(xí)目標(biāo)和要求。二、發(fā)展活動(dòng)1.注冊(cè)臨時(shí)表的方法。createGlobalTempView(name)createOrReplaceGlobalTempView(name)createTempView(name)createOrReplaceTempView(name)2.案例分析:以本章數(shù)據(jù)集中的books.csv為例,進(jìn)行操作理解。自定義schema,讀取books.csv文件,刪除有空缺數(shù)據(jù)的行及重復(fù)數(shù)據(jù)。注冊(cè)臨時(shí)表:book2.createOrReplaceTempView("btemp")在臨時(shí)表中執(zhí)行SQL,查詢book_price價(jià)格小于30的書。3.進(jìn)行操作練習(xí)。三、課堂小結(jié)小結(jié):本次課程學(xué)習(xí)重點(diǎn),學(xué)習(xí)過(guò)程中出現(xiàn)的問(wèn)題與解決方法?!?、6節(jié)結(jié)束——一、準(zhǔn)備活動(dòng)1.活躍課堂氣氛,學(xué)習(xí)通簽到、點(diǎn)名。2.學(xué)習(xí)目標(biāo)和要求。二、發(fā)展活動(dòng)1.對(duì)Clothing-Reviews.csv數(shù)據(jù)進(jìn)行SQL探索分析。查看40歲以下,不同年齡段的客戶人數(shù)。統(tǒng)計(jì)recommended_IND為“不推薦”的訂單的rating評(píng)分分布。為進(jìn)一步了解用戶“不推薦”的原因,可以查看用戶具體評(píng)論。查詢了解,不推薦的這些訂單,分別屬于哪些服裝分類,各種服裝類的不推薦數(shù)量情況是如何的。統(tǒng)計(jì)分析不同評(píng)分等級(jí)的服裝編號(hào)clothing_id情況。獲得不同服裝編號(hào)clothing_id的五星好評(píng)數(shù)量,并且降序排序。使用SparkSQL的內(nèi)置函數(shù)進(jìn)行相關(guān)性等分析。2.數(shù)據(jù)輸出方法一:利用save()函數(shù)保存數(shù)據(jù)。方法二:通過(guò)df.rdd.saveAsTextFile("file:///")轉(zhuǎn)化成rdd再保存。此方法可以將數(shù)據(jù)存儲(chǔ)為txt格式。3.進(jìn)行操作練習(xí)。三、課堂小結(jié)數(shù)據(jù)分析與存儲(chǔ)小結(jié)?!?、8節(jié)結(jié)束——一、準(zhǔn)備活動(dòng)活躍課堂氣氛,學(xué)習(xí)通簽到、點(diǎn)名。二、發(fā)展活動(dòng)1.在線銷售訂單數(shù)據(jù)分析情景導(dǎo)入2.學(xué)習(xí)目標(biāo)和要求。3.數(shù)據(jù)查詢操作查看數(shù)據(jù)show該方法主要用于測(cè)試,查看輸入的數(shù)據(jù)、獲得的結(jié)果是否正確。該方法能夠以表格的形式展示DataFrame中的數(shù)據(jù)。collect()collect方法類似與SparkRDD的collect方法。與show方法不同的是,collect方法可以獲取DataFrame中的所有數(shù)據(jù),并返回一個(gè)Array對(duì)象。過(guò)濾查詢where在SQL語(yǔ)法中,可以通過(guò)where條件語(yǔ)句對(duì)數(shù)據(jù)進(jìn)行過(guò)濾。在SparkSQL中,同樣可以像SQL一樣使用where(conditionExpr:String)條件語(yǔ)句來(lái)對(duì)數(shù)據(jù)進(jìn)行過(guò)濾??梢灾付l件參數(shù)conditionExpr來(lái)進(jìn)行查詢,參數(shù)中可以使用and或or。filterfilter方法和where方法類似,可以篩選出符合條件的數(shù)據(jù)。指定列查詢select在SparkSQL中可以通過(guò)select方法來(lái)查詢指定字段,類似于SQL中的select方法。selectExpr這個(gè)方法是select方法的一個(gè)變體,可以接受一個(gè)SQL表達(dá)式,或?qū)δ承┳侄巫鲆恍┨厥馓幚?。排序操作orderBy此方法能夠使數(shù)據(jù)按照指定的字段排序,默認(rèn)升序排序。如果需要降序排序,可以使用desc(“字段名稱”)或者$“字段名”.desc進(jìn)行處理。sortsort方法與orderBy方法一樣,也是對(duì)指定字段進(jìn)行排序。對(duì)emp中的salary薪水列進(jìn)行升序排序。4.進(jìn)行操作練習(xí)。三、課堂小結(jié)數(shù)據(jù)查詢操作小結(jié)?!?、10節(jié)結(jié)束——一、準(zhǔn)備活動(dòng)1.活躍課堂氣氛,學(xué)習(xí)通簽到、點(diǎn)名。2.學(xué)習(xí)目標(biāo)和要求。二、發(fā)展活動(dòng)1.分組聚合。groupBy分組此方法可以根據(jù)字段進(jìn)行分組操作。調(diào)用方式可以傳入String類型的字段名,也可以是Column類型的對(duì)象。agg聚合該方法一般與groupBy方法配合使用。agg(expers:column*)可以傳入一個(gè)或多個(gè)Coumn對(duì)象,返回DataFrame。2.聚合函數(shù)聚合是大數(shù)據(jù)分析領(lǐng)域中最常用的特性之一。SparkSQL提供了很多常用的聚合函數(shù),比如sum、count、avg等等。count函數(shù)count可以執(zhí)行以下2種操作:對(duì)指定列進(jìn)行計(jì)數(shù);使用count(*)或count(1)對(duì)所有列進(jìn)行計(jì)數(shù)。countDistinct函數(shù):此函數(shù)可以計(jì)算每個(gè)組的唯一項(xiàng)。approx_count_distinct函數(shù)此函數(shù)的功能與countDistinct一樣,但是統(tǒng)計(jì)的結(jié)果允許有誤差。這里approx_count_distinct的另一個(gè)參數(shù)就指定了可容忍的誤差的最大誤差。sum函數(shù):計(jì)算一個(gè)數(shù)字列中的所有值的總和。sumDistinct函數(shù):計(jì)算一個(gè)數(shù)字列中不同值的總和,重復(fù)的數(shù)值將不被計(jì)算。avg函數(shù):計(jì)算一個(gè)數(shù)字列的平均值。min函數(shù)、max函數(shù):統(tǒng)計(jì)出指定列的最小值和最大值。3.連接操作內(nèi)連接內(nèi)連接查詢操作是列出與連接條件匹配的數(shù)據(jù)行,它使用比較運(yùn)算符比較被連接列的列值。左外連接此連接方式是以左表為基準(zhǔn),將數(shù)據(jù)進(jìn)行連接,然后將左表中所有數(shù)據(jù)都顯示,右表對(duì)應(yīng)的列設(shè)置為NULL。右外連接是以右表為基準(zhǔn),將數(shù)據(jù)進(jìn)行連接,然后將右表所有的數(shù)據(jù)進(jìn)行顯示,左表對(duì)應(yīng)的列設(shè)置為NULL。全外連接全外連接是在等值連接的基礎(chǔ)上將左表和右表的未匹配數(shù)據(jù)都加上。LeftSemi-Join這種join類型的行為類似于內(nèi)連接類型,連接后的數(shù)據(jù)集只包含匹配的行。交叉連接(又稱為Cartesian-笛卡爾連接)當(dāng)執(zhí)行join連接時(shí)不指定參數(shù),得到的也是笛卡爾積結(jié)果。三、課堂小結(jié)數(shù)據(jù)查詢操作小結(jié)?!?1、12節(jié)結(jié)束——一、準(zhǔn)備活動(dòng)1.活躍課堂氣氛,學(xué)習(xí)通簽到、點(diǎn)名。2.學(xué)習(xí)目標(biāo)和要求二、發(fā)展活動(dòng)1.數(shù)據(jù)準(zhǔn)備上傳orders.csv和order-details.csv數(shù)據(jù)集到HDFS文件系統(tǒng)中。加載數(shù)據(jù)集到RDD及DataFrame中。2.問(wèn)題分析此數(shù)據(jù)集中每個(gè)客戶的下單數(shù)量是多少?每個(gè)城市的訂單有多少?每個(gè)客戶的消費(fèi)總額是多少?計(jì)算orders_details中每行商品的實(shí)際銷售金額。按照訂單編號(hào)order_id統(tǒng)計(jì)每張訂單的總金額。進(jìn)行等值內(nèi)連接,并增加訂單總金額。數(shù)據(jù)集中,客戶的平均訂單消費(fèi)額是多少?3.操作練習(xí)。三、課堂小結(jié)數(shù)據(jù)探索與分析小結(jié)?!?3、14節(jié)結(jié)束——學(xué)習(xí)評(píng)量課堂練習(xí)中巡視指導(dǎo)課后作業(yè)紙筆作業(yè):完成第5章課后練習(xí)題。教學(xué)后記目標(biāo)或能力指針達(dá)成度、學(xué)習(xí)表現(xiàn)、內(nèi)容、方法、資源、業(yè)師協(xié)同等向度1.目標(biāo)或能力指標(biāo)達(dá)成度全班80%學(xué)生達(dá)到了教學(xué)目標(biāo)和能力指標(biāo)。2.學(xué)習(xí)表現(xiàn)課內(nèi)預(yù)習(xí)階段發(fā)現(xiàn)學(xué)生預(yù)習(xí)時(shí)個(gè)別同學(xué)沒有帶書,大部分同學(xué)沒有帶筆和筆記本,閱讀習(xí)慣有待改進(jìn)。單元教學(xué)活動(dòng)設(shè)計(jì)二級(jí)學(xué)院信息工程學(xué)院專業(yè)大數(shù)據(jù)技術(shù)設(shè)計(jì)者許慧課程名稱大數(shù)據(jù)挖掘與分析學(xué)年學(xué)期2授課類型□理論型,√理實(shí)一體型,□實(shí)踐型單元名稱單元6.Zepplin數(shù)據(jù)可視化班級(jí)大數(shù)據(jù)技術(shù)1、2人數(shù)教材來(lái)源自編教材授課學(xué)時(shí)8學(xué)生學(xué)習(xí)條件分析1.起點(diǎn)分析:會(huì)使用SparkSQL進(jìn)行數(shù)據(jù)分析與探索。2.重點(diǎn)分析:(1)會(huì)下載、安裝、配置Zepplin可視化工具。(2)掌握操作DataFrame進(jìn)行數(shù)據(jù)清洗、轉(zhuǎn)換、查詢的基本方法。3.難點(diǎn)分析:能使用Zepplin執(zhí)行SparkSQL命令實(shí)現(xiàn)數(shù)據(jù)可視化。教學(xué)方法手段1.教學(xué)方法:講授法、討論法。2.教學(xué)手段:實(shí)例講解演示。教學(xué)資源1.個(gè)人資源:教材、教學(xué)PPT與相關(guān)素材2.學(xué)校資源:一體化教室、超星平臺(tái)中的公共資源3.網(wǎng)絡(luò)、社會(huì)或出版社資源:多媒體課件、網(wǎng)上教學(xué)資源、精品課網(wǎng)站能力指標(biāo)應(yīng)用Zepplin實(shí)現(xiàn)數(shù)據(jù)可視化C1養(yǎng)成良好的自我管理素養(yǎng)B1提升學(xué)生溝通交流、小組協(xié)作能力E2教學(xué)目標(biāo)知識(shí)Zepplin中使用SparkSQL實(shí)現(xiàn)數(shù)據(jù)可視化的方法。能力1.會(huì)下載、安裝、配置Zepplin可視化工具。2.會(huì)在Zepplin中配置Spark解釋器。3.能使用Zepplin執(zhí)行SparkSQL命令實(shí)現(xiàn)數(shù)據(jù)可視化。素質(zhì)1.養(yǎng)成良好的自我管理素養(yǎng)2.提升溝通交流、小組協(xié)作能力教師課前準(zhǔn)備1.準(zhǔn)備好一體化機(jī)房,保證機(jī)器正常運(yùn)轉(zhuǎn),安裝好軟件。2.準(zhǔn)備好授課PPT,完成所有案例設(shè)計(jì),熟練示范操作的過(guò)程。3.設(shè)計(jì)學(xué)生要完成的任務(wù)。4.設(shè)計(jì)好教學(xué)環(huán)節(jié)。5.服裝大方,自然得體。學(xué)生課前準(zhǔn)備查閱資料,預(yù)習(xí)教材活動(dòng)歷程一、準(zhǔn)備活動(dòng)1.活躍課堂氣氛,學(xué)習(xí)通簽到、點(diǎn)名。二、發(fā)展活動(dòng)1.情境導(dǎo)入;2.學(xué)習(xí)目標(biāo)和要求;3.下載與安裝通過(guò)下載地址:/download.html,選擇zeppelin-0.10.1-bin-all.tgz包進(jìn)行下載。安裝步驟將Zepplin安裝包上傳到master節(jié)點(diǎn)的/root目錄下。解壓并重命名目錄。修改配置文件zeppelin-env.sh。Zeppelin控制臺(tái)啟動(dòng)Zeppelin后,通過(guò)瀏覽器訪問(wèn)30:9090可以打開Zeppelin控制臺(tái)。4.Zeppelin中的Spark解釋器配置anonymous用戶按鈕,打開解釋器配置界面。搜索spark解釋器,進(jìn)入spark解釋器配置界面進(jìn)行設(shè)置。5.測(cè)試運(yùn)行Zeppelin測(cè)試自帶的BasicFeature(Spark)案例測(cè)試運(yùn)行自編代碼三、課堂小結(jié)Zepplin基礎(chǔ)小結(jié)。——第1、2節(jié)結(jié)束——一、準(zhǔn)備活動(dòng)1.活躍課堂氣氛,學(xué)習(xí)通簽到、點(diǎn)名。2.情景導(dǎo)入。3.學(xué)習(xí)目標(biāo)和要求。二、發(fā)展活動(dòng)女裝電子商務(wù)評(píng)論情況數(shù)據(jù)可視化。1.加載數(shù)據(jù)注冊(cè)視圖2.對(duì)“Clothing-Reviews.csv”女裝電子商務(wù)評(píng)論數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗,刪除重復(fù)的數(shù)據(jù),對(duì)有空缺數(shù)據(jù)的行進(jìn)行刪除。3.對(duì)“Clothing-Reviews.csv”女裝電子商務(wù)評(píng)論數(shù)據(jù)集進(jìn)行數(shù)據(jù)轉(zhuǎn)換,將recommended_IND(是否推薦)列中的1替換為推薦,0替換為不推薦。4.使用createOr

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論