




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
2024年廣西職業(yè)院校技能大賽
中職組《大數(shù)據(jù)應用與服務》賽項
競賽樣題
模塊一:平臺搭建與運維
利用競賽平臺進行大數(shù)據(jù)系統(tǒng)的安裝和配置、數(shù)據(jù)庫的安裝和使用、平
臺運維、數(shù)據(jù)庫運維等。
任務一:大數(shù)據(jù)平臺搭建
使用SSH客戶端通過SSH訪問競賽平臺上的操作系統(tǒng)容器,基于競賽平
臺進行偽分布式模式Hadoop的搭建和管理。相關安裝文件在容器“/opt”
目錄下,請選擇對應的安裝包進行安裝,用不到的可忽略。
1.在容器中執(zhí)行命令,創(chuàng)建Hadoop安裝目錄“/data/hadoop”,執(zhí)行l(wèi)s
命令查看創(chuàng)建的目錄。
2.在容器中執(zhí)行tar命令,將容器“/opt”目錄下Hadoop安裝文件解
壓到容器中“/data/hadoop”目錄,執(zhí)行l(wèi)s命令查看解壓后的文件。
3.配置Hadoop環(huán)境變量并使其生效,配置完畢后,在容器中執(zhí)行“hadoop
version”命令,查看Hadoop版本。
4.在容器中配置偽分布式模式Hadoop,并執(zhí)行命令,格式化NameNode。
5.在容器中執(zhí)行命令,啟動HDFS。
6.在容器中執(zhí)行jps命令,查看容器中的進程。
任務二:數(shù)據(jù)庫配置維護
使用數(shù)據(jù)庫客戶端工具訪問競賽平臺上的數(shù)據(jù)庫容器,基于競賽平臺進
行數(shù)據(jù)遷移和備份還原。
1.使用數(shù)據(jù)庫工具,將MySQL中task1數(shù)據(jù)庫的t_house_renting表數(shù)
據(jù)遷移到數(shù)據(jù)庫task1的house_renting表。
2.使用數(shù)據(jù)庫工具,將MySQL中task1的house_renting表數(shù)據(jù)遷移到
Excel文件house_renting.xls中。
3.使用SSH管理工具,執(zhí)行SQL語句,備份表t_house_renting表到容
器的“/opt/db/data/tab_bak”目錄。
4.使用SSH管理工具,執(zhí)行SQL語句,清空task1中表t_house_renting
的數(shù)據(jù)。
1
5.使用SSH管理工具,執(zhí)行SQL語句,利用容器中
“/opt/db/data/tab_bak”目錄下的備份文件還原表
task1.t_house_renting。
模塊二:數(shù)據(jù)獲取與處理
本模塊針對租房網(wǎng)站的數(shù)據(jù)進行采集、標注與處理。使用Python程序
進行網(wǎng)站數(shù)據(jù)的讀取與解析。使用sql對采集的租房數(shù)據(jù)進行清洗和標注。
使用Spark編程讀取提供的數(shù)據(jù)庫表中的數(shù)據(jù),按要求進行數(shù)據(jù)的預處理,
并將處理完成的數(shù)據(jù)保存到數(shù)據(jù)庫表中。
任務一中使用的網(wǎng)頁和代碼在素材文件夾中提供。
任務二中使用的租房數(shù)據(jù)文件在素材文件夾中提供。
任務三中需要處理的數(shù)據(jù)位于數(shù)據(jù)庫task2中house_lg表,處理后的
結果保存到數(shù)據(jù)庫task2下house_lg_op2表中。建庫腳本和表結構說明在
素材文件夾中提供。
任務一:數(shù)據(jù)采集
任務要求:
打開ZZ40-M2-T1文件夾,文件夾中包含parse_house.py文件。
house_renting.html是通過爬蟲爬下來的租房列表內(nèi)容。parse_house.py
為Python腳本文件,程序讀取house_renting.html,使用lxml對網(wǎng)頁進行
解析,提取相應的租房列表數(shù)據(jù),并將結果輸出。
1.補全parse_house.py中【1】代碼,配置公共資源地址url。
2.使用瀏覽器打開house_renting.html網(wǎng)頁文件,通過“審查”工具
進行網(wǎng)頁結構分析。
3.補全parse_house.py中【2】代碼,實現(xiàn)獲取租房div列表。
4.補全parse_house.py中【3】~【4】代碼,實現(xiàn)“text”和“維護時
間”文本內(nèi)容提取。
5.運行parse_house.py腳本,完成租房列表的解析。
任務二:數(shù)據(jù)標注
打開ZZ40-M2-T2文件夾,請使用數(shù)據(jù)庫工具導入house_renting.xlsx
文件,按照下面的要求,進行數(shù)據(jù)處理。
1.利用數(shù)據(jù)庫工具導入house_renting.xlsx文件。
2.使用sql語句將數(shù)據(jù)中“特點”為空的和“維護時間”超過三個月(包
2
含3個月前維護)的數(shù)據(jù)刪除,并將數(shù)據(jù)導出到house_renting_op.csv。
3.使用sql語句增加“方式”列,根據(jù)“名稱”列的值來標注,如果名
稱中包含“整租”則標為“Z”,包含“合租”則標為“H”,并將數(shù)據(jù)導出
到house_renting_op2.csv。
任務三:Spark數(shù)據(jù)處理
編輯賽項中提供的ZZ40-M2-T3/HOUSERENTINGOP數(shù)據(jù)預處理程序,該程
序使用Spark計算框架對租房數(shù)據(jù)進行預處理,請完成指定操作后在本地運
行該程序。數(shù)據(jù)來自MYSQL數(shù)據(jù)庫task2的house_renting表,預處理結果
保存到MYSQL數(shù)據(jù)庫task2下的house_renting_op1和house_renting_op2
表中。
1.打開ZZ40-M2-T3/HOUSERENTINGOP/house_renting.py文件,根據(jù)比
賽分配的賬號配置該文件下的數(shù)據(jù)庫連接信息:server、port、user、
password。
2.打開ZZ40-M2-T3/HOUSERENTINGOP/house_renting.py文件,補充第46
行代碼,調(diào)用SiteUdf函數(shù)實現(xiàn)‘名稱’數(shù)據(jù)歸一化。
3.打開ZZ40-M2-T3/HOUSERENTINGOP/house_renting.py文件,補充第73
行代碼,將預處理結果存入MySQL數(shù)據(jù)庫task2的house_renting_op2表中。
4.運行程序。
5.使用數(shù)據(jù)庫工具瀏覽數(shù)據(jù)庫task2的house_renting_op1和
house_renting_op2表,檢查數(shù)據(jù)是否插入成功。
模塊三:業(yè)務分析與可視化
對不同形式的求職數(shù)據(jù)進行分析和可視化,數(shù)據(jù)形式包括數(shù)據(jù)庫表數(shù)據(jù)
和Web程序數(shù)據(jù)。
數(shù)據(jù)庫表數(shù)據(jù)采用MySQL數(shù)據(jù)庫進行存儲,提供已建好的數(shù)據(jù)庫表,使
用數(shù)據(jù)庫管理工具,運行SQL語句進行查詢統(tǒng)計。Web程序數(shù)據(jù)在Web程序
代碼中,使用Web前端編程技術補充Web程序代碼,實現(xiàn)數(shù)據(jù)可視化網(wǎng)頁。
任務一:Web可視化
子任務1:柱狀圖數(shù)據(jù)分析和可視化
使用大數(shù)據(jù)應用與服務平臺的數(shù)據(jù)分析與可視化工具或者打開ZZ40-
M3-T1文件夾,文件夾中包含visualization項目目錄。打開visualization
項目,編寫補充代碼,實現(xiàn)Web網(wǎng)頁形式對房型數(shù)量前五的房型可視化展示。
3
將柱狀圖截圖,截圖參考如下:
根據(jù)visualization/data/data.js文件中barData對象中的數(shù)據(jù),補
充完整visualization/js/chat.js文件中getBarChart()函數(shù)的代碼,實現(xiàn)
“新房型數(shù)量前五的房型柱狀圖”顯示:
1.編寫補充yAxis對象,獲取barData數(shù)據(jù),設置y軸顯示類型為“類
目軸”、設置坐標軸文字顏色值為:#999999,大小為:12、設置坐標軸在grid
區(qū)域中的分隔線顏色為:#CAD3E0,線的類型為:點虛線、設置y軸顯示數(shù)
據(jù)為“房型數(shù)量前五房型名稱”。
2.編寫補充series對象,獲取barData數(shù)據(jù),設置圖表顯示類型為柱
狀圖、設置柱條的寬度為20,背景顏色為:rgba(180,180,180,0.2)、設
置填充圖表數(shù)據(jù)為:房型數(shù)量。
3.運行網(wǎng)頁,附上“房型數(shù)量前五房型柱狀圖”截圖與相關代碼截圖。
子任務2:折線圖數(shù)據(jù)分析和可視化
任務要求:
使用大數(shù)據(jù)應用與服務平臺的數(shù)據(jù)分析與可視化工具或者打開ZZ40-
M3-T2文件夾,文件夾中包含visualization項目目錄。打開visualization
項目,編寫補充代碼,實現(xiàn)Web網(wǎng)頁形式對X市X區(qū)70至100平米月租價
格可視化展示。
(1)將折線圖截圖,截圖參考如下:
4
根據(jù)visualization/data/data.js文件中l(wèi)ineData對象中的數(shù)據(jù),補
充完整visualization/js/chat.js文件中getLineChart()函數(shù)的代碼,實
現(xiàn)“X市X區(qū)70至100平米月租價格折線圖”顯示:
1.編寫補充tooltip對象,獲取lineData數(shù)據(jù),設置提示框組件的觸
發(fā)類型為坐標軸觸發(fā)、設置指示器類型為:直線指示器、設置提示框浮層的
文字顏色:##666666,字體大小為:12
2.編寫補充xAxis對象,獲取lineData數(shù)據(jù),xAxis、設置坐標文字顯
示為:#99999,文字大小設置為:12、設置X軸顯示坐標為“租房面積”。
3.編寫補充series對象,獲取lineData數(shù)據(jù),設置圖表顯示類型為
‘line’、設置線條顯示平滑,標記大小為6的三角形、設置折線圖文字顯
示(將文字顏色設置為#999999、文字大小設置為:12)、將“X市X區(qū)70至
100平米月租價格”對象中的數(shù)據(jù)設置為折線顯示數(shù)據(jù)。
運行網(wǎng)頁,附上“X市X區(qū)70至100平米月租價格折線圖”截圖與相關
代碼截圖。
子任務3:餅圖數(shù)據(jù)分析和可視化
使用大數(shù)據(jù)應用與服務平臺的數(shù)據(jù)分析與可視化工具或者打開ZZ40-
M3-T3文件夾,文件夾中包含visualization項目目錄。打開visualization
項目,編寫補充代碼,實現(xiàn)Web網(wǎng)頁形式對X市各區(qū)租房數(shù)量進行可視化展
示。
將餅圖截圖,截圖參考如下:
5
根據(jù)visualization/data/data.js文件中pieData對象中的數(shù)據(jù),補
充完整visualization/js/chat.js文件中getPieChart()函數(shù)的代碼,實現(xiàn)
“X市各區(qū)租房數(shù)量餅圖”顯示:
1.編寫補充legend對象,獲取pieData數(shù)據(jù),設置圖例的朝向為:垂
直顯示、設置圖例在X軸方向上的位置為右、設置圖例上顯示的文字信息為:
六個區(qū)名稱、設置圖例文字顏色為:#999999,大小為:12。
2.編寫補充series對象,獲取pieData數(shù)據(jù),xAxis、設置圖表的標題
和圖表類型、設置餅圖半徑為['30%','70%']、設置餅圖高亮狀態(tài),標簽文
字顏色:#999999,大?。?4,居中顯示、將‘六個城市的在售房子套數(shù)’
對象中的數(shù)據(jù)設置為餅圖顯示數(shù)據(jù)。
運行網(wǎng)頁,附上“X市各區(qū)租房數(shù)量”截圖與相關代碼截圖。
任務二:業(yè)務分析
子任務1:SQL語句業(yè)務分析
打開數(shù)據(jù)庫管理工具,使用SQL語句對mysql數(shù)據(jù)庫下task3的
house_renting表中的數(shù)據(jù)進行查詢統(tǒng)計。house_renting表結構參考ZZ40-
M3-T4目錄下“數(shù)據(jù)庫表結構.docx”文檔。
1.根據(jù)house_renting表的數(shù)據(jù),使用SQL語句查詢統(tǒng)計租房價格的具
體數(shù)據(jù),并生成視圖:
1)根據(jù)位置和價格計算每個位置的平均租房價格。
2)取平均租房價格最高的三個進行顯示。
6
3)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024秋八年級物理上冊 第3章 物態(tài)變化 第4節(jié) 升華和凝華教學設計2(新版)新人教版
- 認識更大的數(shù)-數(shù)一數(shù)(教學設計)-2024-2025學年四年級上冊數(shù)學北師大版
- 中國畫論知到課后答案智慧樹章節(jié)測試答案2025年春山東工藝美術學院
- 2024-2025學年新教材高中物理 第一章 靜電場的描述 第2節(jié) 庫侖定律教學實錄 粵教版必修3
- DB1310T 352-2024施工升降機能源效率測試方法
- 2024年四年級英語上冊 Unit 3 My friends Part B 第一課時教學實錄 人教PEP
- 2025年多功能、差別化滌綸FDY項目發(fā)展計劃
- 3.8米內(nèi)置電機升降桅桿技術規(guī)格書?
- 垃圾轉(zhuǎn)化能源行業(yè)深度調(diào)研及發(fā)展戰(zhàn)略咨詢報告
- 校園儀器合作行業(yè)跨境出海戰(zhàn)略研究報告
- T-CSCP 0019-2024 電網(wǎng)金屬設備防腐蝕運維診斷策略技術導則
- 2025中考道德與法治核心知識點+易錯易混改錯
- 2025年日語n2考前試題及答案
- 1889-13-15-食堂承包協(xié)議工地食堂承包協(xié)議書
- 臨床基于高級健康評估的高血壓Ⅲ級合并腦梗死患者康復個案護理
- 2024年全國統(tǒng)一高考英語試卷(新課標Ⅰ卷)含答案
- 2024年認證行業(yè)法律法規(guī)及認證基礎知識 CCAA年度確認 試題與答案
- T∕ACSC 01-2022 輔助生殖醫(yī)學中心建設標準(高清最新版)
- 通力救援程序
- 1混凝土拌合站臨建方案
- 桐鄉(xiāng)市烏鎮(zhèn)歷史文化保護區(qū)保護規(guī)劃
評論
0/150
提交評論