版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
項(xiàng)目5基于SparkSQL實(shí)現(xiàn)廣告流量檢測(cè)數(shù)據(jù)預(yù)處理教案課程名稱:Spark大數(shù)據(jù)技術(shù)實(shí)務(wù)課程類別:必修適用專業(yè):大數(shù)據(jù)技術(shù)類相關(guān)專業(yè)總學(xué)時(shí):64學(xué)時(shí)(其中理論32學(xué)時(shí),實(shí)驗(yàn)32學(xué)時(shí))總學(xué)分:4.0學(xué)分本章學(xué)時(shí):12學(xué)時(shí)材料清單《Spark大數(shù)據(jù)技術(shù)實(shí)務(wù)》教材。配套PPT。引導(dǎo)性提問(wèn)。探究性問(wèn)題。拓展性問(wèn)題。教學(xué)目標(biāo)與基本要求教學(xué)目標(biāo)首先介紹DataFrame行列表增、刪操作,通過(guò)DataFrame對(duì)象新增或刪除得到新的DataFrame;接著介紹創(chuàng)建與使用用戶自定義函數(shù),可以根據(jù)特定的需求編寫(xiě)和調(diào)用用戶自定義函數(shù);然后介紹DataFrame表聯(lián)合操作,并分別舉例闡述聯(lián)合操作的區(qū)別;最后介紹DataFrame行列表輸出操作相關(guān)知識(shí)。基于知識(shí)介紹,對(duì)廣告流量檢測(cè)數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,在刪除缺失值后構(gòu)建關(guān)鍵特征,將構(gòu)建出來(lái)的特征合并輸出保存至Hive表中。本項(xiàng)目的操作可為項(xiàng)目6介紹的模型的構(gòu)建與評(píng)估提供數(shù)據(jù)特征服務(wù)?;疽笳莆誅ataFrame行列表的增、刪操作方法。掌握用戶自定義函數(shù)的創(chuàng)建與使用方法。掌握多種DataFrame表聯(lián)合操作的方法。掌握DataFrame保存數(shù)據(jù)的多種方式。能夠處理DataFrame中的缺失值。能夠?qū)崿F(xiàn)DataFrame表聯(lián)合操作。能夠創(chuàng)建和使用用戶自定義函數(shù)。能夠按照不同需求采用不同方式保存DataFrame數(shù)據(jù)。問(wèn)題引導(dǎo)性提問(wèn)引導(dǎo)性提問(wèn)需要教師根據(jù)教材內(nèi)容和學(xué)生實(shí)際水平,提出問(wèn)題,啟發(fā)引導(dǎo)學(xué)生去解決問(wèn)題,提問(wèn),從而達(dá)到理解、掌握知識(shí),發(fā)展各種能力和提高思想覺(jué)悟的目的。DataFrame行列表除了查詢操作,還有什么操作?能否將兩個(gè)DataFrame合并到一起操作?如果Spark提供的函數(shù)不能滿足統(tǒng)計(jì)分析需求,要通過(guò)什么方法實(shí)現(xiàn)其需求?探究性問(wèn)題探究性問(wèn)題需要教師深入鉆研教材的基礎(chǔ)上精心設(shè)計(jì),提問(wèn)的角度或者在引導(dǎo)性提問(wèn)的基礎(chǔ)上,從重點(diǎn)、難點(diǎn)問(wèn)題切入,進(jìn)行插入式提問(wèn)。或者是對(duì)引導(dǎo)式提問(wèn)中尚未涉及但在課文中又是重要的問(wèn)題加以設(shè)問(wèn)。DataFrame表聯(lián)合的方法有哪些?有何異同?如何創(chuàng)建用戶自定義函數(shù)?創(chuàng)建后又該如何使用?要想保存處理好的DataFrame,有哪些方法可以實(shí)現(xiàn)?可以以什么形式保存?拓展性問(wèn)題拓展性問(wèn)題需要教師深刻理解教材的意義,學(xué)生的學(xué)習(xí)動(dòng)態(tài)后,根據(jù)學(xué)生學(xué)習(xí)層次,提出切實(shí)可行的關(guān)乎實(shí)際的可操作問(wèn)題。亦可以提供拓展資料供學(xué)生研習(xí)探討,完成拓展性問(wèn)題。Spark提供的可操作對(duì)象除了DataFrame,還有什么?按照數(shù)據(jù)分析流程,數(shù)據(jù)預(yù)處理后是什么操作?主要知識(shí)點(diǎn)、重點(diǎn)與難點(diǎn)主要知識(shí)點(diǎn)新增數(shù)據(jù)列。刪除數(shù)據(jù)列。創(chuàng)建與使用用戶自定義函數(shù)。5種join()方法。根據(jù)特定字段進(jìn)行表聯(lián)合操作。指定類型進(jìn)行表聯(lián)合操作。使用Column類型進(jìn)行表聯(lián)合操作。保存為文件。保存為持久化的表。使用drop語(yǔ)句刪除數(shù)據(jù)。自定義函數(shù)構(gòu)建關(guān)鍵特征。保存DataFrame數(shù)據(jù)至Hive表中。重點(diǎn)DataFrame行列表增、刪、輸出操作。DataFrame表聯(lián)合操作。創(chuàng)建與使用用戶自定義函數(shù)。難點(diǎn)創(chuàng)建與使用用戶自定義函數(shù)。教學(xué)過(guò)程設(shè)計(jì)理論教學(xué)過(guò)程SparkSQL簡(jiǎn)介。配置SparkSQLCLI。SparkSQL與Shell交互。通過(guò)結(jié)構(gòu)化數(shù)據(jù)文件創(chuàng)建DataFrame。通過(guò)外部數(shù)據(jù)庫(kù)創(chuàng)建DataFrame。通過(guò)RDD創(chuàng)建DataFrame。通過(guò)Hive表創(chuàng)建DataFrame。printSchema():輸出數(shù)據(jù)模式。show():查看數(shù)據(jù)。first(head(take(takeAsList():獲取若干行記錄。條件查詢。查詢指定字段的數(shù)據(jù)信息。查詢指定行數(shù)的數(shù)據(jù)。排序查詢。分組查詢。實(shí)踐教學(xué)過(guò)程新增數(shù)據(jù)列。刪除數(shù)據(jù)列。創(chuàng)建與使用用戶自定義函數(shù)。根據(jù)特定字段進(jìn)行表聯(lián)合操作。指定類型進(jìn)行表聯(lián)合操作。使用Column類型進(jìn)行表聯(lián)合操作。保存為文件。保存為持久化的表。使用drop語(yǔ)句刪除數(shù)據(jù)。劃分時(shí)間區(qū)間。構(gòu)建關(guān)鍵特征并保存至Hive表中。保存DataFrame數(shù)據(jù)至Hive表中。教材與參考資料教材鄭浩森,張榮.Spark大數(shù)據(jù)技術(shù)分析[M].北京:人民郵電出版社.2024.參考資料[1] 肖芳,張良均.Spark大數(shù)據(jù)技術(shù)與應(yīng)用(第2版)(微課版)[M].北京:人民郵電出版社.2022.[2] 王哲,張
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 貓咪寵物合同范例
- 監(jiān)理施工合同范例2014
- 私人買賣煤炭合同范例
- 商標(biāo)許可備案合同范例
- 涂料工程范例合同范例
- 簽訂固定總價(jià)合同范例
- 簡(jiǎn)易鋼筋工合同范例
- 工廠產(chǎn)品裝卸合同范例
- 賓館水暖維修合同范例
- 板材拿貨合作合同范例
- 蘇教版七年級(jí)歷史知識(shí)點(diǎn)
- 陜西省既有村鎮(zhèn)住宅抗震加固技術(shù)規(guī)程
- 智聯(lián)國(guó)企行測(cè)筆試真題
- 2025屆新高考物理熱點(diǎn)精準(zhǔn)復(fù)習(xí):高中物理6大模塊計(jì)算題思路總結(jié)
- 2024-2030年中國(guó)光電共封裝(CPO)行業(yè)投融資趨勢(shì)及發(fā)展前景分析研究報(bào)告
- 2025屆江蘇省期無(wú)錫市天一實(shí)驗(yàn)學(xué)校數(shù)學(xué)七年級(jí)第一學(xué)期期末達(dá)標(biāo)檢測(cè)試題含解析
- 城市軌道交通運(yùn)營(yíng)管理【共30張課件】
- 學(xué)生退學(xué)情況說(shuō)明
- 鋼結(jié)構(gòu)設(shè)計(jì)智慧樹(shù)知到期末考試答案章節(jié)答案2024年山東建筑大學(xué)
- DB5334 T 12.5-2024《地理標(biāo)志證明商標(biāo) 香格里拉藏香豬》的第5部分疾病防治
- 化學(xué)機(jī)械漿與半化學(xué)機(jī)械漿
評(píng)論
0/150
提交評(píng)論