2023年全國職業(yè)院校技能大賽-大數(shù)據(jù)應用開發(fā)賽項規(guī)程(師生同賽)_第1頁
2023年全國職業(yè)院校技能大賽-大數(shù)據(jù)應用開發(fā)賽項規(guī)程(師生同賽)_第2頁
2023年全國職業(yè)院校技能大賽-大數(shù)據(jù)應用開發(fā)賽項規(guī)程(師生同賽)_第3頁
2023年全國職業(yè)院校技能大賽-大數(shù)據(jù)應用開發(fā)賽項規(guī)程(師生同賽)_第4頁
2023年全國職業(yè)院校技能大賽-大數(shù)據(jù)應用開發(fā)賽項規(guī)程(師生同賽)_第5頁
已閱讀5頁,還剩50頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

全國職業(yè)院校技能大賽

賽項規(guī)程

賽項名稱:大數(shù)據(jù)應用開發(fā)

英文名稱:BigDataApplicationDevelopment

賽項組別:高等職業(yè)教育(師生同賽)

賽項編號:GZ033

一、賽項信息

賽項類別

?每年賽隔年賽(單數(shù)年/雙數(shù)年)

賽項組別

□中等職業(yè)教育?高等職業(yè)教育

□學生賽(□個人/□團體)□教師賽(試點)?師生同賽(試點)

涉及專業(yè)大類、專業(yè)類、專業(yè)及核心課程

核心課程

專業(yè)大類專業(yè)類專業(yè)名稱

(對應每個專業(yè),明確涉及的專業(yè)核心課程)

數(shù)據(jù)采集技術(shù)

數(shù)據(jù)預處理技術(shù)

510205大數(shù)據(jù)大數(shù)據(jù)分析技術(shù)應用

技術(shù)數(shù)據(jù)可視化技術(shù)與應用

數(shù)據(jù)挖掘應用

大數(shù)據(jù)平臺部署與運維

數(shù)據(jù)庫技術(shù)及應用

前端設計與開發(fā)

510201計算機

信息采集技術(shù)

51電子與5102計算機應用技術(shù)

數(shù)據(jù)分析方法

信息大類類

系統(tǒng)部署與運維

Linux操作系統(tǒng)管理

510202計算機

程序設計基礎(chǔ)

網(wǎng)絡技術(shù)

數(shù)據(jù)庫應用技術(shù)

程序設計基礎(chǔ)

510203軟件技數(shù)據(jù)庫技術(shù)

術(shù)面向?qū)ο蟪绦蛟O計

數(shù)據(jù)結(jié)構(gòu)

510206云計算Linux操作系統(tǒng)

1

技術(shù)應用程序設計基礎(chǔ)

數(shù)據(jù)庫技術(shù)

Web應用開發(fā)

程序設計基礎(chǔ)

510209人工智Linux操作系統(tǒng)

能技術(shù)應用數(shù)據(jù)庫技術(shù)

人工智能數(shù)據(jù)服務

程序設計基礎(chǔ)

數(shù)據(jù)庫應用基礎(chǔ)

510211工業(yè)互

工業(yè)互聯(lián)網(wǎng)數(shù)據(jù)采集技術(shù)

聯(lián)網(wǎng)技術(shù)

工業(yè)互聯(lián)網(wǎng)數(shù)據(jù)分析技術(shù)

數(shù)據(jù)采集與處理

對接產(chǎn)業(yè)行業(yè)、對應崗位(群)及核心能力

核心能力

產(chǎn)業(yè)行業(yè)崗位(群)

(對應每個崗位(群),明確核心能力要求)

大數(shù)據(jù)平臺搭建部署與基本使用,以及大數(shù)據(jù)集

大數(shù)據(jù)實施與運維群運維

大數(shù)據(jù)平臺管理、大數(shù)據(jù)技術(shù)服務

分析用戶業(yè)務需求,制訂大數(shù)據(jù)項目解決方案

數(shù)據(jù)分析處理開發(fā)數(shù)據(jù)采集、抽取、清洗、轉(zhuǎn)換與加載等數(shù)據(jù)

戰(zhàn)略性新預處理模型

興產(chǎn)業(yè)-新基于行業(yè)應用與典型工作場景,解決業(yè)務需求

安裝部署與使用數(shù)據(jù)分析工具,運用大數(shù)據(jù)分析

一代信息

平臺完成大數(shù)據(jù)分析任務

技術(shù)

大數(shù)據(jù)分析與可視化數(shù)據(jù)可視化設計,開發(fā)應用程序進行數(shù)據(jù)可視化

展示,撰寫數(shù)據(jù)可視化結(jié)果分析報告

基于行業(yè)應用與典型工作場景,解決業(yè)務需求

程序設計數(shù)據(jù)庫應用、前端開發(fā)等程序設計能力

數(shù)據(jù)采集與分析數(shù)據(jù)采集、使用工具進行數(shù)據(jù)分析

信息系統(tǒng)運行維護信息系統(tǒng)部署與運維

2

二、競賽目標

“十四五”時期,大數(shù)據(jù)產(chǎn)業(yè)對經(jīng)濟社會高質(zhì)量發(fā)展的賦能作用

更加突顯,大數(shù)據(jù)已成為催生新業(yè)態(tài)、激發(fā)新模式、促進新發(fā)展的技

術(shù)引擎。習近平總書記指出“大數(shù)據(jù)是信息化發(fā)展的新階段”,“加

快數(shù)字化發(fā)展,建設數(shù)字中國”成為《中華人民共和國國民經(jīng)濟和社

會發(fā)展第十四個五年規(guī)劃和2035年遠景目標綱要》的重要篇章。

本賽項旨在落實國家“建設數(shù)字中國”戰(zhàn)略,協(xié)同推動大數(shù)據(jù)相

關(guān)產(chǎn)業(yè)的創(chuàng)新與發(fā)展,大力推進大數(shù)據(jù)技術(shù)及相關(guān)專業(yè)的技術(shù)技能型

人才培養(yǎng),全面提升相關(guān)專業(yè)畢業(yè)生的綜合能力,展現(xiàn)選手團隊合作、

工匠精神等職業(yè)素養(yǎng),賦能經(jīng)濟社會高質(zhì)量發(fā)展。競賽內(nèi)容結(jié)合當前

大數(shù)據(jù)相關(guān)產(chǎn)業(yè)中的新技術(shù)、新要求如數(shù)據(jù)湖、OLAP數(shù)據(jù)庫應用等,

全面檢驗參賽選手的工程實踐能力和創(chuàng)新能力,推進教學過程與生產(chǎn)

過程對接、課程內(nèi)容與職業(yè)標準對接、專業(yè)設置與產(chǎn)業(yè)需求對接,促

進職普融通、產(chǎn)教融合、科教融匯,引領(lǐng)專業(yè)建設和教學改革。競賽

內(nèi)容圍繞大數(shù)據(jù)相關(guān)產(chǎn)業(yè)崗位的實際技能要求進行設計,通過競賽搭

建校企合作的平臺,強化競賽成果轉(zhuǎn)化,促進相關(guān)教材、資源、師資、

認證、實習就業(yè)等方面的全方位建設,滿足產(chǎn)教協(xié)同育人目標,為國

家戰(zhàn)略規(guī)劃提供大數(shù)據(jù)領(lǐng)域高素質(zhì)技能型人才。

三、競賽內(nèi)容

本賽項涉及的典型工作任務包括大數(shù)據(jù)平臺搭建(容器環(huán)境)、

離線數(shù)據(jù)處理、數(shù)據(jù)挖掘、數(shù)據(jù)采集與實時計算、數(shù)據(jù)可視化、綜合

分析、職業(yè)素養(yǎng),引入行業(yè)內(nèi)較為前沿的數(shù)據(jù)湖架構(gòu)作為創(chuàng)新、創(chuàng)意

的范圍與方向,考查的技術(shù)技能如下:

(一)大數(shù)據(jù)平臺搭建(容器環(huán)境):Docker容器基礎(chǔ)操作、H

adoop完全分布式安裝配置、HadoopHA安裝配置、SparkonYarn

3

安裝配置、FlinkonYarn安裝配置、Hive安裝配置、Flume安裝配

置、ZooKeeper安裝配置、Kafka安裝配置、HBase分布式安裝配置、

ClickHouse單節(jié)點安裝配置、Hudi安裝配置。

(二)離線數(shù)據(jù)處理:Scala應用開發(fā)、Pom文件配置、Maven

本地倉庫配置使用、基于Spark的數(shù)據(jù)清洗處理方法、基于Hive的

數(shù)據(jù)清洗處理方法、基于Hudi的數(shù)據(jù)清洗處理方法、數(shù)據(jù)倉庫基本

架構(gòu)及概念、數(shù)據(jù)湖基本架構(gòu)及概念、MySQL基本操作、ClickHouse

基本操作、Azkaban基本操作、DolphinScheduler基本操作。

(三)數(shù)據(jù)挖掘:特征工程應用、SparkML機器學習庫應用開

發(fā)、推薦算法的召回和排序、回歸模型、聚類模型、決策樹模型、隨

機森林模型應用。

(四)數(shù)據(jù)采集與實時計算:Scala應用開發(fā)、Pom文件配置、M

aven本地倉庫配置使用、基于Flume及Kafka的數(shù)據(jù)采集方法、基

于Flink的實時數(shù)據(jù)處理方法、HBase基本操作、Redis基本操作、M

ySQL基本操作。

(五)數(shù)據(jù)可視化:Vue.js框架應用開發(fā)、ECharts組件應用開

發(fā),會使用ECharts繪制柱狀圖、折線圖、折柱混合圖、玫瑰圖、氣

泡圖、餅狀圖、條形圖、雷達圖、散點圖等圖表。

(六)綜合分析:依據(jù)整體項目過程,在綜合理解業(yè)務的基礎(chǔ)上,

根據(jù)題目要求進行綜合分析。

(七)職業(yè)素養(yǎng):團隊分工明確合理、操作規(guī)范、文明競賽。

1、競賽內(nèi)容結(jié)構(gòu)、成績比例如下:

4

表3-1競賽內(nèi)容結(jié)構(gòu)和成績比例

序號競賽任務成績比例考核內(nèi)容

大數(shù)據(jù)平臺搭建選手在容器環(huán)境下對大數(shù)據(jù)平臺及相關(guān)組件

115%

(容器環(huán)境)的安裝、配置、可用性驗證等內(nèi)容。

選手對Hadoop平臺、Spark平臺、Hive數(shù)據(jù)

倉庫、Hudi數(shù)據(jù)湖、任務調(diào)度工具等的綜合

2離線數(shù)據(jù)處理25%應用能力,使用Scala開發(fā)語言,完成離線

數(shù)據(jù)抽取、數(shù)據(jù)清洗、數(shù)據(jù)指標統(tǒng)計等操作,

并存入MySQL、ClickHouse中。

選手運用常用的機器學習方法對數(shù)據(jù)進行數(shù)

3數(shù)據(jù)挖掘10%

據(jù)挖掘分析。

選手對Flink平臺、Flume組件、Kafka組件

等的綜合應用能力,基于Flume和Kafka進

數(shù)據(jù)采集與實時

420%行實時數(shù)據(jù)采集,使用Scala開發(fā)語言,完

計算

成實時數(shù)據(jù)流相關(guān)數(shù)據(jù)指標的分析、計算等

操作,并存入HBase、Redis、MySQL中。

選手基于前端框架Vue.js和后端REST風格

5數(shù)據(jù)可視化15%的數(shù)據(jù)接口,使用JavaScript語言將數(shù)據(jù)分

析結(jié)果以圖表的形式進行呈現(xiàn)、統(tǒng)計

選手對大數(shù)據(jù)技術(shù)的業(yè)務分析、技術(shù)分析及

6綜合分析10%

報告撰寫能力。

7職業(yè)素養(yǎng)5%團隊分工明確合理、操作規(guī)范、文明競賽。

5

2、賽項模塊、比賽時長及分值配比如下:

表3-2賽項模塊比賽時長及分值配比

模塊主要內(nèi)容比賽時長分值

競賽以電商大數(shù)據(jù)及工業(yè)大數(shù)據(jù)為

業(yè)務背景,主要設置以下競賽任務:

任務A:大數(shù)據(jù)平臺搭建(容器環(huán)

境)

在容器環(huán)境下對大數(shù)據(jù)平臺及相關(guān)

組件的安裝、配置、可用性驗證等

內(nèi)容。

任務B:離線數(shù)據(jù)處理

對Hadoop平臺、Spark平臺、Hive

數(shù)據(jù)倉庫、Hudi數(shù)據(jù)湖、任務調(diào)度

工具等的綜合應用能力,使用Scal

a開發(fā)語言,完成離線數(shù)據(jù)抽取、數(shù)

大數(shù)據(jù)應據(jù)清洗、數(shù)據(jù)指標統(tǒng)計等操作,并

模塊一8小時100分

用開發(fā)存入MySQL、ClickHouse中。

任務C:數(shù)據(jù)挖掘

運用常用的機器學習方法對數(shù)據(jù)進

行數(shù)據(jù)挖掘分析。

任務D:數(shù)據(jù)采集與實時計算

對Flink平臺、Flume組件、Kafka

組件等的綜合應用能力,基于Flum

e和Kafka進行實時數(shù)據(jù)采集,使用

Scala開發(fā)語言,完成實時數(shù)據(jù)流相

關(guān)數(shù)據(jù)指標的分析、計算等操作,

并存入HBase、Redis、MySQL中。

任務E:數(shù)據(jù)可視化

基于前端框架Vue.js和后端REST

6

風格的數(shù)據(jù)接口,使用JavaScript

語言將數(shù)據(jù)分析結(jié)果以圖表的形式

進行呈現(xiàn)、統(tǒng)計。

任務F:綜合分析

對大數(shù)據(jù)技術(shù)的業(yè)務分析、技術(shù)分

析及報告撰寫能力。

任務G:職業(yè)素養(yǎng)

綜合職業(yè)素養(yǎng),包括團隊分工明確

合理、操作規(guī)范、文明競賽等內(nèi)容。

四、競賽方式

本競賽為線下比賽,組隊方式為師生同賽,具體要求如下:

(一)參賽學生須為高等職業(yè)學校???、高等職業(yè)學校本科全日

制在籍學生,五年制高職四、五年級學生也可報名參賽;參賽教師須

為校內(nèi)專任教師,并提供近半年的社?;蚣{稅證明。凡在往屆全國職

業(yè)院校技能大賽中獲一等獎的選手,不能再參加同一項目同一組別的

比賽。

(二)每支參賽隊由4名選手組成,其中1名教師,3名學生。

本賽項為師生同賽不設指導教師,報名獲得確認后不得隨意更換。

(三)本賽項為單一場次,所有參賽隊在現(xiàn)場根據(jù)給定的任務說明,

在8小時內(nèi)相互配合,采用小組合作的形式完成任務,最后以提交的

結(jié)果文檔作為最終評分依據(jù)。

五、競賽流程

(一)競賽時間表

7

表5-1競賽時間

日期時間內(nèi)容

18:00之前裁判報到

競賽前兩日

19:00—20:00裁判工作會議

12:00之前各參賽隊報到

10:00—11:00工作人員(含監(jiān)考)培訓會

競賽前一日15:30—16:00賽前領(lǐng)隊會

16:00—16:30參賽隊熟悉比賽場地

17:00—18:00現(xiàn)場裁判賽前檢查,封閉賽場

07:00—08:00參賽隊集合前往比賽現(xiàn)場

08:00—08:10賽場檢錄

08:10—08:30一次加密:參賽隊抽取參賽編號

08:30—08:45二次加密:參賽隊抽取賽位號

08:45—09:00參賽隊進入比賽賽位,進行賽前軟、硬件檢查、

題目發(fā)放

競賽當日09:00—17:00競賽進行

17:00—17:20收取各參賽隊賽題及比賽結(jié)果文檔

17:00—19:00申訴受理

19:00—19:30三次加密:競賽結(jié)果等文件加密

19:30—23:00成績評定與復核

23:00—23:30加密信息解密

23:30—24:00成績匯總及報送

08:00—11:00成績公布

競賽后一日

11:00—12:00閉賽式

8

(二)競賽流程圖

圖5-1競賽流程

9

六、競賽規(guī)則

(一)選手報名:參賽學生須為高等職業(yè)學校???、高等職業(yè)學

校本科全日制在籍學生,五年制高職四、五年級學生也可報名參賽。

參賽教師須為校內(nèi)專任教師,并提供近半年的社?;蚣{稅證明。凡在

往屆全國職業(yè)院校技能大賽中獲一等獎的選手,不能再參加同一項目

同一組別的比賽。

(二)熟悉場地:競賽前1日安排各參賽隊領(lǐng)隊、參賽選手熟悉

賽場。

(三)入場規(guī)則:參賽選手按規(guī)定時間到達指定地點,必須攜帶

參賽證件,進行檢錄、一次加密、二次加密等流程,最終確定工位,

選手遲到10分鐘取消比賽資格。嚴禁參賽選手、賽項裁判、工作人

員私自攜帶通訊、攝錄設備進入比賽場地。參賽選手所需的硬件、軟

件和輔助工具統(tǒng)一提供,參賽隊不得使用自帶的任何有存儲功能的設

備,如手機、U盤、移動硬盤等。參賽隊在賽前領(lǐng)取比賽任務并進入

比賽工位,比賽正式開始后方可進行相關(guān)操作。

(四)賽場規(guī)則:在比賽過程中,參賽選手如有疑問,應舉手示

意,現(xiàn)場裁判應按要求及時予以答疑。如遇設備或軟件等故障,參賽

選手應舉手示意,現(xiàn)場裁判、技術(shù)人員等應及時予以解決。確因計算

機軟件或硬件故障,致使操作無法繼續(xù),經(jīng)裁判長確認,予以啟用備

用設備。參賽選手不得因各種原因提前結(jié)束比賽。如確因不可抗因素

需要離開賽場的,須向現(xiàn)場裁判員舉手示意,經(jīng)裁判員許可并完成記

錄后,方可離開。凡在競賽期間內(nèi)提前離開的選手,不得返回賽場。

(五)離場規(guī)則:比賽時間結(jié)束,選手應全體起立,結(jié)束操作。

參賽選手要確認已成功提交競賽要求的文檔,裁判員與參賽選手一起

簽字確認,經(jīng)工作人員查收清點所有文檔后方可離開賽場,離開賽場

10

時不得帶走任何資料。

(六)成績評定與結(jié)果公布:比賽結(jié)束,經(jīng)加密裁判對各參賽選

手提交的競賽結(jié)果進行第三次加密后,評分裁判方可入場進行成績評

判。最終競賽成績經(jīng)復核無誤,由裁判長、監(jiān)督仲裁長簽字確認后,

以紙質(zhì)形式向全體參賽隊進行公布,并在閉賽式上予以宣布。

(七)其它未盡事宜,將在賽前向各領(lǐng)隊做詳細說明。

七、技術(shù)規(guī)范

本賽項引用的國際、國家、行業(yè)技術(shù)、職業(yè)資格標準與規(guī)范如下:

表7-1基礎(chǔ)標準

標準號/規(guī)范簡稱名稱

GB/T11457-2006信息技術(shù)軟件工程術(shù)語

GB8566-88計算機軟件開發(fā)規(guī)范

GB/T12991.1-2008信息技術(shù)數(shù)據(jù)庫語言SQL第1部分:框架

GB/Z21025-2007XML使用指南

GB/T28821-2012關(guān)系數(shù)據(jù)管理系統(tǒng)技術(shù)要求

LD/T81.1-2006職業(yè)技能實訓和鑒定設備通用技術(shù)規(guī)范

表7-2大數(shù)據(jù)技術(shù)相關(guān)標準

標準號/規(guī)范簡稱名稱

GB/T35295-2017信息技術(shù)大數(shù)據(jù)術(shù)語

GB/T37721-2019信息技術(shù)大數(shù)據(jù)分析系統(tǒng)功能要求

GB/T37722-2019信息技術(shù)大數(shù)據(jù)存儲與處理系統(tǒng)功能要求

GB/T38672-2020信息技術(shù)大數(shù)據(jù)接口基本要求

GB/T38673-2020信息技術(shù)大數(shù)據(jù)大數(shù)據(jù)系統(tǒng)基本要求

GB/T38675-2020信息技術(shù)大數(shù)據(jù)計算系統(tǒng)通用要求

GB/T38633-2020信息技術(shù)大數(shù)據(jù)系統(tǒng)運維和管理功能要求

GB/T41778-2022信息技術(shù)工業(yè)大數(shù)據(jù)術(shù)語

GB/T41818-2022信息技術(shù)大數(shù)據(jù)面向分析的數(shù)據(jù)存儲與檢索技術(shù)要求

表7-3軟件開發(fā)與軟件工程相關(guān)標準

11

標準號/規(guī)范簡稱名稱

GB/T14079-1993軟件維護指南

GB/T15853-1995軟件支持環(huán)境

GB/T17544-1998信息技術(shù)軟件包質(zhì)量要求和測試

GB/T8566-2007信息技術(shù)軟件生存周期過程

GB/T22032-2021系統(tǒng)與軟件工程系統(tǒng)生存周期過程

八、技術(shù)環(huán)境

(一)競賽場地

競賽現(xiàn)場設置競賽區(qū)、裁判區(qū)、技術(shù)支持區(qū)、服務區(qū)等。

1.競賽區(qū)域:每個競賽工位設工位編號,面積在9㎡左右,

工位之間由隔板隔開,確?;ゲ桓蓴_。

2.裁判區(qū):供裁判工作及休息,配備滿足需要的辦公設備。

3.技術(shù)支持區(qū):供技術(shù)支持人員工作及休息,為競賽提供技

術(shù)支持。

4.服務區(qū):提供醫(yī)療等服務保障。

(二)技術(shù)平臺

1.競賽設備

表8-1競賽設備

序號設備名稱數(shù)量備注

CPU:Intel至強銀牌4210及以上

內(nèi)存:不少于128GB

1服務器每組1臺

硬盤:不少于1TB

網(wǎng)卡:千兆

該系統(tǒng)基于主流云原生技術(shù)、大數(shù)據(jù)技術(shù)構(gòu)建,旨在為

大數(shù)據(jù)賽訓

2每組1套學生提供快捷、便利的大數(shù)據(jù)集群操作環(huán)境,幫助他們

管理系統(tǒng)

更好地掌握大數(shù)據(jù)相關(guān)技術(shù)和應用。該系統(tǒng)應基于微服

12

務構(gòu)建,以經(jīng)典的微服務分層方式劃分不同的服務層級,

利用圖形化的工作負載編輯模式快速進行系統(tǒng)的部署和

服務管理,有效展示各服務的容器信息,方便實時進行

系統(tǒng)運維。系統(tǒng)能夠構(gòu)建大數(shù)據(jù)平臺搭建、數(shù)據(jù)處理、

數(shù)據(jù)分析、數(shù)據(jù)可視化等教學實訓模塊,快速開展教學、

實訓及競賽活動,系統(tǒng)應能夠生成命令行、桌面級容器

環(huán)境,可通過不同模式進行訪問,方便學生進行集群調(diào)

試和代碼開發(fā)。通過使用該系統(tǒng),學生可以深入了解大

數(shù)據(jù)技術(shù)的核心思想和應用場景,增強自己的數(shù)據(jù)分析

和處理能力,提高對數(shù)據(jù)的認識和運用水平。系統(tǒng)應支

持模擬競賽全業(yè)務流程,提供大數(shù)據(jù)競賽操作環(huán)境。

CPU:i5及以上

內(nèi)存:不少于16GB

3PC機每組4臺

硬盤:不少于500GB

顯示器:1920*1080及以上

4交換機每組1臺8口及以上千兆交換機

2.軟件環(huán)境

表8-2軟件環(huán)境

設備類型軟件類別軟件名稱、版本號

大數(shù)據(jù)集群操作系統(tǒng)CentOS7

容器環(huán)境Docker-CE20.10

Hadoop3.1.3

Yarn3.1.3

ZooKeeper3.5.7

服務器Hive3.1.2

大數(shù)據(jù)平臺組件

Hudi0.12.0

ClickHouse21.9.4

JDK1.8

Flume1.9.0

13

Kafka2.4.1

Spark3.1.1

Flink1.14.0

Redis6.2.6

HBase2.2.3

Azkaban3.84.4

DolphinScheduler3.1.4

關(guān)系型數(shù)據(jù)庫MySQL5.7

PC操作系統(tǒng)Ubuntu18.0464位

瀏覽器Chrome

Scala2.12

開發(fā)語言

JavaScript

IDEA2022

開發(fā)工具(CommunityEdition)

VisualStudioCode1.69

SSH工具Asbru-cm或UbuntuSSH客戶端

PC機

數(shù)據(jù)庫工具MySQLWorkbench

接口測試工具Postman

Vue.js3.2

數(shù)據(jù)可視化框架及組件

ECharts5.1

截圖工具Ubuntu系統(tǒng)自帶

文檔編輯器WPSLinux版

輸入法搜狗拼音輸入法Linux版

14

九、競賽樣題

背景描述

大數(shù)據(jù)時代背景下,電商經(jīng)營模式發(fā)生很大改變。在傳統(tǒng)運營模

式中,缺乏數(shù)據(jù)積累,人們在做出一些決策行為過程中,更多是憑借

個人經(jīng)驗和直覺,發(fā)展路徑比較自我封閉。而大數(shù)據(jù)時代,為人們提

供一種全新的思路,通過大量的數(shù)據(jù)分析得出的結(jié)果將更加現(xiàn)實和準

確。商家可以對客戶的消費行為信息數(shù)據(jù)進行收集和整理,比如消費

者購買產(chǎn)品的花費、選擇產(chǎn)品的渠道、偏好產(chǎn)品的類型、產(chǎn)品回購周

期、購買產(chǎn)品的目的、消費者家庭背景、工作和生活環(huán)境、個人消費

觀和價值觀等。通過數(shù)據(jù)追蹤,知道顧客從哪兒來,是看了某網(wǎng)站投

放的廣告還是通過朋友推薦鏈接,是新訪客還是老用戶,喜歡瀏覽什

么產(chǎn)品,購物車有無商品,是否清空,還有每一筆交易記錄,精準鎖

定一定年齡、收入、對產(chǎn)品有興趣的顧客,對顧客進行分組、標簽化,

通過不同標簽組合運用,獲得不同目標群體,以此開展精準推送。

因數(shù)據(jù)驅(qū)動的零售新時代已經(jīng)到來,沒有大數(shù)據(jù),我們無法為消

費者提供這些體驗,為完成電商的大數(shù)據(jù)分析工作,你所在的小組將

應用大數(shù)據(jù)技術(shù),以Scala作為整個項目的基礎(chǔ)開發(fā)語言,基于大數(shù)

據(jù)平臺綜合利用Hive、Spark、Flink、Vue.js等技術(shù),對數(shù)據(jù)進行

處理、分析及可視化呈現(xiàn),你們作為該小組的技術(shù)人員,請按照下面

任務完成本次工作。

任務A:大數(shù)據(jù)平臺搭建(容器環(huán)境)(15分)

環(huán)境說明:

服務端登錄地址詳見各任務服務端說明。

補充說明:宿主機及各容器節(jié)點可通過Asbru工具或SSH客戶端進

15

行SSH訪問。

子任務一:Hadoop完全分布式安裝配置

本任務需要使用root用戶完成相關(guān)配置,安裝Hadoop需要配置

前置環(huán)境。命令中要求使用絕對路徑,具體要求如下:

1、從宿主機/opt目錄下將文件hadoop-3.1.3.tar.gz、jdk-8u212-

linux-x64.tar.gz復制到容器Master中的/opt/software路徑中

(若路徑不存在,則需新建),將Master節(jié)點JDK安裝包解壓到

/opt/module路徑中(若路徑不存在,則需新建),將JDK解壓命

令復制并粘貼至客戶端桌面【Release\任務A提交結(jié)果.docx】中

對應的任務序號下;

2、修改容器中/etc/profile文件,設置JDK環(huán)境變量并使其生效,

配置完畢后在Master節(jié)點分別執(zhí)行“java-version”和“java

c”命令,將命令行執(zhí)行結(jié)果分別截圖并粘貼至客戶端桌面【Rel

ease\任務A提交結(jié)果.docx】中對應的任務序號下;

3、請完成host相關(guān)配置,將三個節(jié)點分別命名為master、slave1、

slave2,并做免密登錄,用scp命令并使用絕對路徑從Master復

制JDK解壓后的安裝文件到slave1、slave2節(jié)點(若路徑不存在,

則需新建),并配置slave1、slave2相關(guān)環(huán)境變量,將全部scp

復制JDK的命令復制并粘貼至客戶端桌面【Release\任務A提交

結(jié)果.docx】中對應的任務序號下;

4、在容器Master將Hadoop解壓到/opt/module(若路徑不存在,則

需新建)目錄下,并將解壓包分發(fā)至slave1、slave2中,其中ma

16

ster、slave1、slave2節(jié)點均作為datanode,配置好相關(guān)環(huán)境,

初始化Hadoop環(huán)境namenode,將初始化命令及初始化結(jié)果截圖

(截取初始化結(jié)果日志最后20行即可)粘貼至客戶端桌面【Rel

ease\任務A提交結(jié)果.docx】中對應的任務序號下;

5、啟動Hadoop集群(包括hdfs和yarn),使用jps命令查看Mas

ter節(jié)點與slave1節(jié)點的Java進程,將jps命令與結(jié)果截圖粘

貼至客戶端桌面【Release\任務A提交結(jié)果.docx】中對應的任務

序號下。

子任務二:SparkonYarn安裝配置

本任務需要使用root用戶完成相關(guān)配置,已安裝Hadoop及需要

配置前置環(huán)境,具體要求如下:

1、從宿主機/opt目錄下將文件spark-3.1.1-bin-hadoop3.2.tgz復

制到容器Master中的/opt/software(若路徑不存在,則需新建)

中,將Spark包解壓到/opt/module路徑中(若路徑不存在,則需

新建),將完整解壓命令復制粘貼至客戶端桌面【Release\任務A

提交結(jié)果.docx】中對應的任務序號下;

2、修改容器中/etc/profile文件,設置Spark環(huán)境變量并使環(huán)境變

量生效,在/opt目錄下運行命令spark-submit--version,將命

令與結(jié)果截圖粘貼至客戶端桌面【Release\任務A提交結(jié)果.doc

x】中對應的任務序號下;

3、完成onyarn相關(guān)配置,使用sparkonyarn的模式提交$SPARK

17

_HOME/examples/jars/spark-examples_2.12-3.1.1.jar運行的

主類為org.apache.spark.examples.SparkPi,將運行結(jié)果截圖

粘貼至客戶端桌面【Release\任務A提交結(jié)果.docx】中對應的任

務序號下(截取Pi結(jié)果的前后各5行)。

(運行命令為:spark-submit--masteryarn--classorg.ap

ache.spark.examples.SparkPi$SPARK_HOME/examples/jars/spar

k-examples_2.12-3.1.1.jar)

子任務三:HBase分布式安裝配置

本任務需要使用root用戶完成相關(guān)配置,安裝HBase需要配置H

adoop和ZooKeeper等前置環(huán)境。命令中要求使用絕對路徑,具體要

求如下:

1、從宿主機/opt目錄下將文件apache-zookeeper-3.5.7-bin.tar.

gz、hbase-2.2.3-bin.tar.gz復制到容器Master中的/opt/soft

ware路徑中(若路徑不存在,則需新建),將zookeeper、hbas

e安裝包解壓到/opt/module目錄下,將HBase的解壓命令復制并

粘貼至客戶端桌面【Release\任務A提交結(jié)果.docx】中對應的任

務序號下;

2、完成ZooKeeper相關(guān)部署,用scp命令并使用絕對路徑從容器ma

ster復制HBase解壓后的包分發(fā)至slave1、slave2中,并修改

相關(guān)配置,配置好環(huán)境變量,在容器Master節(jié)點中運行命令hba

seversion,將全部復制命令復制并將hbaseversion命令的結(jié)

18

果截圖粘貼至客戶端桌面【Release\任務A提交結(jié)果.docx】中對

應的任務序號下;

3、啟動HBase后在三個節(jié)點分別使用jps命令查看,并將結(jié)果分別

截圖粘貼至客戶端桌面【Release\任務A提交結(jié)果.docx】中對應

的任務序號下;正常啟動后在hbaseshell中查看命名空間,將

查看命名空間的結(jié)果截圖粘貼至客戶端桌面【Release\任務A提

交結(jié)果.docx】中對應的任務序號下。

任務B:離線數(shù)據(jù)處理(25分)

環(huán)境說明:

服務端登錄地址詳見各任務服務端說明。

補充說明:各節(jié)點可通過Asbru工具或SSH客戶端進行SSH訪問;

主節(jié)點MySQL數(shù)據(jù)庫用戶名/密碼:root/123456(已配置遠程連接);

Hive的配置文件位于/opt/apache-hive-2.3.4-bin/conf/

Spark任務在Yarn上用Client運行,方便觀察日志。

子任務一:數(shù)據(jù)抽取

編寫Scala代碼,使用Spark將MySQL的shtd_store庫中表us

er_info、sku_info、base_province、base_region、order_info、o

rder_detail的數(shù)據(jù)增量抽取到Hive的ods庫中對應表user_info、

sku_info、base_province、base_region、order_info、order_det

ail中。

19

1、抽取shtd_store庫中user_info的增量數(shù)據(jù)進入Hive的ods庫

中表user_info。根據(jù)ods.user_info表中operate_time或cre

ate_time作為增量字段(即MySQL中每條數(shù)據(jù)取這兩個時間中較

大的那個時間作為增量字段去和ods里的這兩個字段中較大的時

間進行比較),只將新增的數(shù)據(jù)抽入,字段名稱、類型不變,同時

添加靜態(tài)分區(qū),分區(qū)字段為etl_date,類型為String,且值為當

前比賽日的前一天日期(分區(qū)字段格式為yyyyMMdd)。使用hiv

ecli執(zhí)行showpartitionsods.user_info命令,將結(jié)果截圖

粘貼至客戶端桌面【Release\任務B提交結(jié)果.docx】中對應的任

務序號下;

2、抽取shtd_store庫中sku_info的增量數(shù)據(jù)進入Hive的ods庫中

表sku_info。根據(jù)ods.sku_info表中create_time作為增量字

段,只將新增的數(shù)據(jù)抽入,字段名稱、類型不變,同時添加靜態(tài)

分區(qū),分區(qū)字段為etl_date,類型為String,且值為當前比賽日

的前一天日期(分區(qū)字段格式為yyyyMMdd)。使用hivecli執(zhí)

行showpartitionsods.sku_info命令,將結(jié)果截圖粘貼至客戶

端桌面【Release\任務B提交結(jié)果.docx】中對應的任務序號下;

3、抽取shtd_store庫中base_province的增量數(shù)據(jù)進入Hive的od

s庫中表base_province。根據(jù)ods.base_province表中id作為

增量字段,只將新增的數(shù)據(jù)抽入,字段名稱、類型不變并添加字

段create_time取當前時間,同時添加靜態(tài)分區(qū),分區(qū)字段為et

l_date,類型為String,且值為當前比賽日的前一天日期(分區(qū)

20

字段格式為yyyyMMdd)。使用hivecli執(zhí)行showpartitions

ods.base_province命令,將結(jié)果截圖粘貼至客戶端桌面【Relea

se\任務B提交結(jié)果.docx】中對應的任務序號下;

4、抽取shtd_store庫中base_region的增量數(shù)據(jù)進入Hive的ods

庫中表base_region。根據(jù)ods.base_region表中id作為增量字

段,只將新增的數(shù)據(jù)抽入,字段名稱、類型不變并添加字段crea

te_time取當前時間,同時添加靜態(tài)分區(qū),分區(qū)字段為etl_date,

類型為String,且值為當前比賽日的前一天日期(分區(qū)字段格式

為yyyyMMdd)。使用hivecli執(zhí)行showpartitionsods.base

_region命令,將結(jié)果截圖粘貼至客戶端桌面【Release\任務B

提交結(jié)果.docx】中對應的任務序號下;

5、抽取shtd_store庫中order_info的增量數(shù)據(jù)進入Hive的ods庫

中表order_info,根據(jù)ods.order_info表中operate_time或c

reate_time作為增量字段(即MySQL中每條數(shù)據(jù)取這兩個時間中

較大的那個時間作為增量字段去和ods里的這兩個字段中較大的

時間進行比較),只將新增的數(shù)據(jù)抽入,字段名稱、類型不變,同

時添加靜態(tài)分區(qū),分區(qū)字段為etl_date,類型為String,且值為

當前比賽日的前一天日期(分區(qū)字段格式為yyyyMMdd)。使用h

ivecli執(zhí)行showpartitionsods.order_info命令,將結(jié)果截

圖粘貼至客戶端桌面【Release\任務B提交結(jié)果.docx】中對應的

任務序號下;

6、抽取shtd_store庫中order_detail的增量數(shù)據(jù)進入Hive的ods

21

庫中表order_detail,根據(jù)ods.order_detail表中create_tim

e作為增量字段,只將新增的數(shù)據(jù)抽入,字段名稱、類型不變,

同時添加靜態(tài)分區(qū),分區(qū)字段為etl_date,類型為String,且值

為當前比賽日的前一天日期(分區(qū)字段格式為yyyyMMdd)。使用

hivecli執(zhí)行showpartitionsods.order_detail命令,將結(jié)

果截圖粘貼至客戶端桌面【Release\任務B提交結(jié)果.docx】中對

應的任務序號下。

子任務二:數(shù)據(jù)清洗

編寫Scala代碼,使用Spark將ods庫中相應表數(shù)據(jù)全量抽取到

Hive的dwd庫中對應表中。表中有涉及到timestamp類型的,均要

求按照yyyy-MM-ddHH:mm:ss,不記錄毫秒數(shù),若原數(shù)據(jù)中只有年月

日,則在時分秒的位置添加00:00:00,添加之后使其符合yyyy-MM-

ddHH:mm:ss。

1、抽取ods庫中user_info表中昨天的分區(qū)(子任務一生成的分區(qū))

數(shù)據(jù),并結(jié)合dim_user_info最新分區(qū)現(xiàn)有的數(shù)據(jù),根據(jù)id合并

數(shù)據(jù)到dwd庫中dim_user_info的分區(qū)表(合并是指對dwd層數(shù)

據(jù)進行插入或修改,需修改的數(shù)據(jù)以id為合并字段,根據(jù)opera

te_time排序取最新的一條),分區(qū)字段為etl_date且值與ods

庫的相對應表該值相等,同時若operate_time為空,則用creat

e_time填充,并添加dwd_insert_user、dwd_insert_time、dwd

_modify_user、dwd_modify_time四列,其中dwd_insert_user、d

22

wd_modify_user均填寫“user1”。若該條記錄第一次進入數(shù)倉d

wd層則dwd_insert_time、dwd_modify_time均存當前操作時間,

并進行數(shù)據(jù)類型轉(zhuǎn)換。若該數(shù)據(jù)在進入dwd層時發(fā)生了合并修改,

則dwd_insert_time時間不變,dwd_modify_time存當前操作時

間,其余列存最新的值。使用hivecli執(zhí)行showpartitionsd

wd.dim_user_info命令,將結(jié)果截圖粘貼至客戶端桌面【Releas

e\任務B提交結(jié)果.docx】中對應的任務序號下;

2、抽取ods庫sku_info表中昨天的分區(qū)(子任務一生成的分區(qū))數(shù)

據(jù),并結(jié)合dim_sku_info最新分區(qū)現(xiàn)有的數(shù)據(jù),根據(jù)id合并數(shù)

據(jù)到dwd庫中dim_sku_info的分區(qū)表(合并是指對dwd層數(shù)據(jù)進

行插入或修改,需修改的數(shù)據(jù)以id為合并字段,根據(jù)create_ti

me排序取最新的一條),分區(qū)字段為etl_date且值與ods庫的

相對應表該值相等,并添加dwd_insert_user、dwd_insert_time、

dwd_modify_user、dwd_modify_time四列,其中dwd_insert_use

r、dwd_modify_user均填寫“user1”。若該條數(shù)據(jù)第一次進入

數(shù)倉dwd層則dwd_insert_time、dwd_modify_time均填寫當前操

作時間,并進行數(shù)據(jù)類型轉(zhuǎn)換。若該數(shù)據(jù)在進入dwd層時發(fā)生了

合并修改,則dwd_insert_time時間不變,dwd_modify_time存

當前操作時間,其余列存最新的值。使用hivecli查詢表dim_s

ku_info的字段id、sku_desc、dwd_insert_user、dwd_modify_

time、etl_date,條件為最新分區(qū)的數(shù)據(jù),id大于等于15且小

于等于20,并且按照id升序排序,將結(jié)果截圖粘貼至客戶端桌

23

面【Release\任務B提交結(jié)果.docx】中對應的任務序號下;

3、抽取ods庫base_province表中昨天的分區(qū)(子任務一生成的分

區(qū))數(shù)據(jù),并結(jié)合dim_province最新分區(qū)現(xiàn)有的數(shù)據(jù),根據(jù)id

合并數(shù)據(jù)到dwd庫中dim_province的分區(qū)表(合并是指對dwd層

數(shù)據(jù)進行插入或修改,需修改的數(shù)據(jù)以id為合并字段,根據(jù)cre

ate_time排序取最新的一條),分區(qū)字段為etl_date且值與od

s庫的相對應表該值相等,并添加dwd_insert_user、dwd_inser

t_time、dwd_modify_user、dwd_modify_time四列,其中dwd_in

sert_user、dwd_modify_user均填寫“user1”。若該條數(shù)據(jù)第

一次進入數(shù)倉dwd層則dwd_insert_time、dwd_modify_time均填

寫當前操作時間,并進行數(shù)據(jù)類型轉(zhuǎn)換。若該數(shù)據(jù)在進入dwd層

時發(fā)生了合并修改,則dwd_insert_time時間不變,dwd_modify

_time存當前操作時間,其余列存最新的值。使用hivecli在表

dwd.dim_province最新分區(qū)中,查詢該分區(qū)中數(shù)據(jù)的條數(shù),將結(jié)

果截圖粘貼至客戶端桌面【Release\任務B提交結(jié)果.docx】中對

應的任務序號下;

4、抽取ods庫base_region表中昨天的分區(qū)(子任務一生成的分區(qū))

數(shù)據(jù),并結(jié)合dim_region最新分區(qū)現(xiàn)有的數(shù)據(jù),根據(jù)id合并數(shù)

據(jù)到dwd庫中dim_region的分區(qū)表(合并是指對dwd層數(shù)據(jù)進行

插入或修改,需修改的數(shù)據(jù)以id為合并字段,根據(jù)create_time

排序取最新的一條),分區(qū)字段為etl_date且值與ods庫的相對

應表該值相等,并添加dwd_insert_user、dwd_insert_time、dw

24

d_modify_user、dwd_modify_time四列,其中dwd_insert_user、

dwd_modify_user均填寫“user1”。若該條數(shù)據(jù)第一次進入數(shù)倉

dwd層則dwd_insert_time、dwd_modify_time均填寫當前操作時

間,并進行數(shù)據(jù)類型轉(zhuǎn)換。若該數(shù)據(jù)在進入dwd層時發(fā)生了合并

修改,則dwd_insert_time時間不變,dwd_modify_time存當前

操作時間,其余列存最新的值。使用hivecli在表dwd.dim_reg

ion最新分區(qū)中,查詢該分區(qū)中數(shù)據(jù)的條數(shù),將結(jié)果截圖粘貼至

客戶端桌面【Release\任務B提交結(jié)果.docx】中對應的任務序號

下;

5、將ods庫中order_info表昨天的分區(qū)(子任務一生成的分區(qū))數(shù)

據(jù)抽取到dwd庫中fact_order_info的動態(tài)分區(qū)表,分區(qū)字段為

etl_date,類型為String,取create_time值并將格式轉(zhuǎn)換為y

yyyMMdd,同時若operate_time為空,則用create_time填充,

并添加dwd_insert_user、dwd_insert_time、dwd_modify_user、

dwd_modify_time四列,其中dwd_insert_user、dwd_modify_us

er均填寫“user1”,dwd_insert_time、dwd_modify_time均填

寫當前操作時間,并進行數(shù)據(jù)類型轉(zhuǎn)換。使用hivecli執(zhí)行sho

wpartitionsdwd.fact_order_info命令,將結(jié)果截圖粘貼至客

戶端桌面【Release\任務B提交結(jié)果.docx】中對應的任務序號下;

6、將ods庫中order_detail表昨天的分區(qū)(子任務一中生成的分區(qū))

數(shù)據(jù)抽取到dwd庫中fact_order_detail的動態(tài)分區(qū)表,分區(qū)字

段為etl_date,類型為String,取create_time值并將格式轉(zhuǎn)換

25

為yyyyMMdd,并添加dwd_insert_user、dwd_insert_time、dwd

_modify_user、dwd_modify_time四列,其中dwd_insert_user、

dwd_modify_user均填寫“user1”,dwd_insert_time、dwd_mod

ify_time均填寫當前操作時間,并進行數(shù)據(jù)類型轉(zhuǎn)換。使用hiv

ecli執(zhí)行showpartitionsdwd.fact_order_detail命令,將

結(jié)果截圖粘貼至客戶端桌面【Release\任務B提交結(jié)果

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論