版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
大數(shù)據(jù)人才培養(yǎng)的思考
一、引言
隨著計(jì)算機(jī)軟硬件技術(shù)的快速發(fā)展,計(jì)算技術(shù)已從傳統(tǒng)的PC平臺(tái)計(jì)算模式發(fā)展到嵌入式計(jì)算、移動(dòng)計(jì)算、并行計(jì)算和服務(wù)計(jì)算等多種計(jì)算系統(tǒng)并存及融合的計(jì)算模式,處理的對象也呈現(xiàn)出網(wǎng)絡(luò)化、多媒體化、大數(shù)據(jù)化和智能化需求的特征,而物聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)的快速發(fā)展促進(jìn)了這一趨勢,從而迎來了大數(shù)據(jù)時(shí)代的到來。大數(shù)據(jù)是繼云計(jì)算、物聯(lián)網(wǎng)之后興起的又一新興發(fā)展方向,被學(xué)術(shù)界、工業(yè)界乃至政府機(jī)構(gòu)密切關(guān)注和廣泛研究。
大數(shù)據(jù)又稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無法通過目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營決策更積極的目的的資訊。在維克托邁爾舍恩伯格及肯尼斯庫克耶編寫的《大數(shù)據(jù)時(shí)代》中大數(shù)據(jù)指不用隨機(jī)分析法(抽樣調(diào)查)這樣的捷徑,而采用所有數(shù)據(jù)的方法。一般說來,大數(shù)據(jù)具有4V的特點(diǎn):Volume(大量),Velocity(高速),Variety(多樣),Value(價(jià)值)。大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對這些含有意義的數(shù)據(jù)進(jìn)行專業(yè)化處理。換言之,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實(shí)現(xiàn)盈利的關(guān)鍵,在于提高對數(shù)據(jù)的加工能力,通過加工實(shí)現(xiàn)數(shù)據(jù)的增值。
二、大數(shù)據(jù)時(shí)代對人才的要求
從廣義上講,大數(shù)據(jù)人才就是具備大數(shù)據(jù)處理能力的科學(xué)家和工程師。目前,國際上開設(shè)了大量的數(shù)據(jù)科學(xué)方面的課程、數(shù)據(jù)科學(xué)學(xué)位計(jì)劃以及數(shù)據(jù)科學(xué)短期培訓(xùn)班。從國際上設(shè)置的培養(yǎng)計(jì)劃來看,大數(shù)據(jù)人才應(yīng)該系統(tǒng)地掌握數(shù)據(jù)分析相關(guān)的技能,主要包括數(shù)學(xué)、統(tǒng)計(jì)學(xué)、數(shù)據(jù)分析、商業(yè)分析和自然語言處理等,具有較寬的知識(shí)而,具有獨(dú)立獲取知識(shí)的能力,具有較強(qiáng)的實(shí)踐能力、創(chuàng)新意識(shí)和團(tuán)隊(duì)合作意識(shí)。具體來說,大數(shù)據(jù)人才首先應(yīng)具備獲取大數(shù)據(jù)的能力,例如能根據(jù)任務(wù)的具體要求,綜合利用各種計(jì)算機(jī)手段和知識(shí),收集整理海量數(shù)據(jù)并加以存儲(chǔ),為支撐相關(guān)的決策和行為做好數(shù)據(jù)準(zhǔn)備。其次,應(yīng)具備分析大數(shù)據(jù)的能力,對于經(jīng)過預(yù)處理的各類數(shù)據(jù),能夠根據(jù)具體的需求,進(jìn)行選擇、轉(zhuǎn)換、加載,采用有效方法和模型對數(shù)據(jù)進(jìn)行分析,并形成分析報(bào)告,為實(shí)際問題提供決策依據(jù)。最后,應(yīng)具備良好的團(tuán)隊(duì)合作精神,大數(shù)據(jù)時(shí)代下的數(shù)據(jù)分析任務(wù)通常無法依賴個(gè)人能力來完成,需要在團(tuán)隊(duì)制度的約束下,與他人一同攜手、互相鼓勵(lì)、分工合作來實(shí)現(xiàn)既定目標(biāo),因此具備較強(qiáng)的責(zé)任心與團(tuán)隊(duì)合作精神也是大數(shù)據(jù)從業(yè)人員必備的基本條件。
三、大數(shù)據(jù)人才培養(yǎng)的探索
大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展,對大數(shù)據(jù)人才提出了新的需求,國內(nèi)各高校在積極進(jìn)行大數(shù)據(jù)學(xué)術(shù)研究的同時(shí),也開始考慮將大數(shù)據(jù)相關(guān)課程納入培養(yǎng)體系,以滿足社會(huì)對大數(shù)據(jù)人才的需求。以下結(jié)合作者在數(shù)據(jù)庫及分布式技術(shù)系列課程中的教學(xué)經(jīng)驗(yàn),以及大數(shù)據(jù)分析與處理方面的實(shí)踐經(jīng)驗(yàn),探討大數(shù)據(jù)系列課程教學(xué)內(nèi)容和實(shí)踐形式的設(shè)置。
在教學(xué)內(nèi)容的設(shè)置上,大數(shù)據(jù)系列課程建議可分為理論教學(xué)和技術(shù)教學(xué)兩個(gè)方面,因?yàn)槔碚撌谴髷?shù)據(jù)認(rèn)知的必經(jīng)途徑,也是被廣泛認(rèn)同和傳播的基線;而技術(shù)是大數(shù)據(jù)價(jià)值體現(xiàn)的手段和前進(jìn)的基石。在理論方面,講授的理論內(nèi)容可涵蓋如下幾點(diǎn):
(1)大數(shù)據(jù)概念:大數(shù)據(jù)概念出現(xiàn)的歷史,關(guān)于大數(shù)據(jù)定義的各種流派以及說明,大數(shù)據(jù)的四個(gè)特征,大數(shù)據(jù)與云計(jì)算、物聯(lián)網(wǎng)的關(guān)系,大數(shù)據(jù)與大規(guī)模數(shù)據(jù)、海量數(shù)據(jù)的差別。這個(gè)部分主要突出大數(shù)據(jù)概念中應(yīng)包含的對數(shù)據(jù)對象的處理行為。
(2)典型的大數(shù)據(jù)應(yīng)用實(shí)例:精選有新意的大數(shù)據(jù)分析典型案例,可幫助學(xué)生更清晰的理解大數(shù)據(jù)的概念和含義,這樣的案例如:美國梅西百貨的實(shí)時(shí)定價(jià)機(jī)制(根據(jù)需求和庫存的情況對多達(dá)7300萬種貨品進(jìn)行實(shí)時(shí)調(diào)價(jià))、百度搜索的實(shí)時(shí)熱點(diǎn)排行榜(以數(shù)億網(wǎng)民的搜索行為作為數(shù)據(jù)基礎(chǔ),建立權(quán)威的關(guān)鍵詞排行榜與分類熱點(diǎn))、沃爾瑪?shù)乃阉饕鍼olaris(利用語義數(shù)據(jù)進(jìn)行文本分析、機(jī)器學(xué)習(xí)和同義詞挖掘使得在線購物的完成率提升了10%-15%)、谷歌流感趨勢工具(通過跟蹤搜索詞相關(guān)數(shù)據(jù)來判斷全美地區(qū)的流感情況)等。在教學(xué)過程中,教師應(yīng)注意將授課的重點(diǎn)放在系統(tǒng)化的開發(fā)步驟和關(guān)鍵性問題的求解上,介紹案例的設(shè)計(jì)思想、主要方法和應(yīng)用過程等。
(3)大數(shù)據(jù)關(guān)鍵技術(shù)與挑戰(zhàn):介紹大數(shù)據(jù)時(shí)代面臨的新挑戰(zhàn),包括大數(shù)據(jù)集成(數(shù)據(jù)異構(gòu)性和數(shù)據(jù)質(zhì)量問題)、大數(shù)據(jù)分析(數(shù)據(jù)形式多樣化、數(shù)據(jù)處理的實(shí)時(shí)性、索引結(jié)構(gòu)的復(fù)雜性等)、大數(shù)據(jù)隱私問題(隱私保護(hù)和數(shù)據(jù)分析的矛盾)、大數(shù)據(jù)能耗問題(低功耗硬件的設(shè)計(jì))、大數(shù)據(jù)處理與硬件的協(xié)同、大數(shù)據(jù)管理易用性問題以及性能測試基準(zhǔn)。
(4)大數(shù)據(jù)存儲(chǔ)和管理技術(shù):介紹如何把采集到的大數(shù)據(jù)存儲(chǔ)起來,建立相應(yīng)的數(shù)據(jù)庫,并進(jìn)行管理和調(diào)用。主要內(nèi)容包括:分布式文件系統(tǒng)(HDFS)、去冗余及高效低成本的大數(shù)據(jù)存儲(chǔ)技術(shù)、新型數(shù)據(jù)庫技術(shù)(鍵值數(shù)據(jù)庫、列存數(shù)據(jù)庫、圖存數(shù)據(jù)庫以及文檔數(shù)據(jù)庫等)、異構(gòu)數(shù)據(jù)融合技術(shù)、分布式非關(guān)系型大數(shù)據(jù)管理與處理技術(shù)、大數(shù)據(jù)索引技術(shù)和大數(shù)據(jù)移動(dòng)、備份、復(fù)制等技術(shù)。
(5)大數(shù)據(jù)分析及挖掘技術(shù):介紹從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù),通常由數(shù)據(jù)準(zhǔn)備、規(guī)律尋找和規(guī)律表示3個(gè)階段組成。數(shù)據(jù)準(zhǔn)備是從上述大數(shù)據(jù)中心存儲(chǔ)的數(shù)據(jù)中選取所需數(shù)據(jù)并整合成用于數(shù)據(jù)挖掘的數(shù)據(jù)集;規(guī)律尋找是用某種方法將數(shù)據(jù)集所含規(guī)律找出來;規(guī)律表示則是盡可能以用戶可理解的方式(如可視化)將找出的規(guī)律表示出來。根據(jù)挖掘任務(wù)可分為分類或預(yù)測模型發(fā)現(xiàn)、數(shù)據(jù)總結(jié)、聚類、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、依賴關(guān)系或依賴模型發(fā)現(xiàn)、異常和趨勢發(fā)現(xiàn)等。
在技術(shù)方面,可考慮分別從云計(jì)算、分布式處理技術(shù)、存儲(chǔ)技術(shù)和感知技術(shù)的發(fā)展來說明大數(shù)據(jù)從采集、處理、存儲(chǔ)到形成結(jié)果的整個(gè)過程,具體可包括以下幾點(diǎn):
(1)NoSQL技術(shù):NoSQL產(chǎn)生的背景、NoSQL現(xiàn)狀、NoSQL數(shù)據(jù)庫與關(guān)系數(shù)據(jù)庫的比較、聚合數(shù)據(jù)模型、分布式模型、數(shù)據(jù)一致性、典型的NoSQL數(shù)據(jù)庫分類、NoSQL數(shù)據(jù)庫開源軟件。
(2)MapReduce:MapReduce模型概述、編程模型:Map和Reduce函數(shù)、MapReduce工作流程、并行計(jì)算的實(shí)現(xiàn)、實(shí)例、Yam等
(3)Hadoop分布式文件系統(tǒng):Hadoop出現(xiàn)的背景、Hadoop的功能與作用、為什么不用關(guān)系型數(shù)據(jù)庫管理系統(tǒng)、Hadoop的優(yōu)點(diǎn)、Hadoop的應(yīng)用現(xiàn)狀和發(fā)展趨勢、Hadoop項(xiàng)目及其結(jié)構(gòu)、Hadoop的體系結(jié)構(gòu)、Hadoop與分布式開發(fā)、Hadoop應(yīng)用案例、Hadoop平臺(tái)上的海量數(shù)據(jù)排序。
(4)還可進(jìn)一步包括數(shù)據(jù)流的管理與挖掘、云數(shù)據(jù)庫、圖數(shù)據(jù)庫等。
由于大數(shù)據(jù)系列課程所涉及的技術(shù)具有很強(qiáng)的應(yīng)用背景和實(shí)踐意義,因此應(yīng)摒棄傳統(tǒng)教學(xué)模式中重理論、輕實(shí)踐的思想,在掌握大數(shù)據(jù)相關(guān)的理論知識(shí)和技術(shù)知識(shí)之后,還需重點(diǎn)培養(yǎng)學(xué)生的綜合實(shí)踐能力,以滿足社會(huì)就業(yè)的需要。為此,應(yīng)設(shè)立一定的大數(shù)據(jù)技術(shù)實(shí)踐課程內(nèi)容,幫助學(xué)生從知識(shí)型向能力型轉(zhuǎn)變。結(jié)合上一節(jié)分析的大數(shù)據(jù)時(shí)代對人才的具體要求,建議按以下流程設(shè)置實(shí)踐環(huán)節(jié)的內(nèi)容:
(1)分組。如前所述,大數(shù)據(jù)時(shí)代下的數(shù)據(jù)分析任務(wù)通常需要以團(tuán)隊(duì)的形式來完成,因此首先要求學(xué)生根據(jù)自身情況,結(jié)合各自的技術(shù)優(yōu)勢,合理進(jìn)行分組。
(2)選題。在具體選題上,可使用校企合作的具體項(xiàng)目或以ApadreHadoop,MongoDB,Dremel,Gephi等一系列的開源大數(shù)據(jù)分析軟件作為實(shí)踐平臺(tái),以Kaggle為數(shù)據(jù)科學(xué)平臺(tái)來進(jìn)行選題。
(3)明確需求并撰寫大數(shù)據(jù)分析任務(wù)書。明確選定的題目范圍內(nèi),數(shù)據(jù)分析要研究的主要問題和預(yù)期的分析目標(biāo)。只有明確了數(shù)據(jù)分析的目標(biāo),才能正確地制定數(shù)據(jù)收集方案,即收集哪些數(shù)據(jù),采用怎樣的方式收集等,進(jìn)而為數(shù)據(jù)分析做好準(zhǔn)備。
(4)數(shù)據(jù)收集及預(yù)處理。由于大數(shù)據(jù)分析最終的結(jié)果與其獲取的數(shù)據(jù)質(zhì)量緊密相關(guān),因此收集的數(shù)據(jù)是否真正符合數(shù)據(jù)分析的目標(biāo)是必須注意的重要問題。該步驟要求學(xué)生從分析目標(biāo)出發(fā),從浩瀚的數(shù)據(jù)中正確的收集高質(zhì)量且服務(wù)于既定分析目標(biāo)的數(shù)據(jù),然后對數(shù)據(jù)進(jìn)行必要的加工整理,包括填寫空缺值、平滑噪聲數(shù)據(jù)、識(shí)別和刪除孤立點(diǎn)、解決不一致性、規(guī)范化(消除冗余屬山和聚集(數(shù)據(jù)匯總)等。
(5)探索性數(shù)據(jù)分析。由于大數(shù)據(jù)分析的數(shù)據(jù)量通常達(dá)到PB甚至YB級以上,因此希望直接選定一個(gè)分析模型是不現(xiàn)實(shí)的,而且面對高維海量數(shù)據(jù),也很難直接看出數(shù)據(jù)的規(guī)律。在這個(gè)步驟中,應(yīng)指導(dǎo)學(xué)生通過基本描述統(tǒng)計(jì)量的計(jì)算、基本統(tǒng)計(jì)圖形的繪制、用各種形式的方程擬合等手段,計(jì)算某些特征量等方法探索規(guī)律性的可能形式,幫助學(xué)生快速掌握數(shù)據(jù)的分布特征,這是進(jìn)一步深入分析和建模的基礎(chǔ)。
(6)模型選定分析。在探索性分析的基礎(chǔ)上提出一類或幾類可能的模型,然后通過進(jìn)一步的分析從中挑選一定的模型。有時(shí)選擇幾種統(tǒng)計(jì)分析方法對數(shù)據(jù)進(jìn)行探索性的反復(fù)分析也是極為重要的。每一種統(tǒng)計(jì)分析方法都有自己的特點(diǎn)和局限,因此,一般需要選擇幾種方法反復(fù)印證分析,僅依據(jù)一種分析方法的結(jié)果就斷然下結(jié)論是不科學(xué)的。
(7)模型的驗(yàn)證及分析報(bào)告。指導(dǎo)學(xué)生對選擇的數(shù)據(jù)分析模型及結(jié)果進(jìn)行分析,可使用數(shù)理統(tǒng)計(jì)方法對所定模型或估計(jì)的可靠程度和精確程度作出推斷。觀察模型提供決策的信息是否充分、可信,所發(fā)揮的作用是否與期望值一致,數(shù)據(jù)分析方法是否合理,是否將風(fēng)險(xiǎn)控制在可接受的范圍。
以上這種項(xiàng)目式實(shí)踐形式的優(yōu)勢是:在學(xué)生參與完成某一具體的大數(shù)據(jù)分析任務(wù)過程中,通過主動(dòng)地學(xué)習(xí)來自主地進(jìn)行知識(shí)的建構(gòu),讓學(xué)生經(jīng)歷項(xiàng)目開發(fā)的整個(gè)過程,從中去發(fā)現(xiàn)和掌握相關(guān)知識(shí),達(dá)到既能熟悉大數(shù)據(jù)分析過程,又完成了經(jīng)驗(yàn)的積累,還能實(shí)現(xiàn)學(xué)習(xí)知識(shí)、培養(yǎng)能力的目的。在這里,教師不再是知識(shí)的傳授者,而是項(xiàng)目活動(dòng)的組織者和咨詢者。
四、校企合作推動(dòng)人才培養(yǎng)
一方面,大數(shù)據(jù)的核心業(yè)務(wù)必然是一種扎根于特定行業(yè),綜合運(yùn)用已有的存儲(chǔ)、分析、挖掘、展現(xiàn)技術(shù),根據(jù)用戶需求并融入行業(yè)特色技術(shù)模型的一站式大數(shù)據(jù)平臺(tái)業(yè)務(wù)。另一方面,對于企業(yè)來說,各類業(yè)務(wù)產(chǎn)生的數(shù)據(jù)為數(shù)據(jù)分析創(chuàng)造了非常好的基礎(chǔ)條件。大數(shù)據(jù)解決方案是有價(jià)值的,但是苦于找不到既懂?dāng)?shù)據(jù)分析技術(shù),又懂得業(yè)務(wù)的專業(yè)人才。由此可見,既懂得相關(guān)技術(shù),又諳熟企業(yè)業(yè)務(wù)的復(fù)合型人才才是企業(yè)部署大數(shù)據(jù)應(yīng)用最迫切需要的人才。因此,企業(yè)可以與學(xué)校聯(lián)合培養(yǎng)自己所需要的大數(shù)據(jù)人才,這種方式有兩方面的優(yōu)勢:一是大數(shù)據(jù)技能訓(xùn)練的對象,即大量的數(shù)據(jù),只有企業(yè)才具備;二是在企業(yè)的支持下,學(xué)校也能通過針對性的實(shí)踐訓(xùn)練來培養(yǎng)學(xué)生的大數(shù)據(jù)處理技能。
大數(shù)據(jù)時(shí)代下的校企合作的形式多種多樣,可通過聯(lián)合辦學(xué)、聯(lián)合制定人才培養(yǎng)方案、合作開發(fā)課程和教學(xué)內(nèi)容、設(shè)置實(shí)訓(xùn)項(xiàng)目、教學(xué)管理和共建雙師結(jié)構(gòu)教學(xué)團(tuán)隊(duì)等形式展開。
五、結(jié)語
未來的十年將是一個(gè)大數(shù)據(jù)引領(lǐng)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五版新員工試崗期職業(yè)發(fā)展規(guī)劃與實(shí)施合同3篇
- 應(yīng)急預(yù)案與突發(fā)事件類型
- 電子行業(yè)產(chǎn)品維修培訓(xùn)總結(jié)
- 建筑與市政工程質(zhì)量安全巡查的背景
- 托育防恐防暴安全教育
- 交通運(yùn)輸行業(yè)促銷策略評估
- 二零二五版外貿(mào)實(shí)習(xí)實(shí)訓(xùn)基地建設(shè)合同3篇
- 二零二五年度環(huán)保設(shè)備委托托管合作協(xié)議3篇
- 《學(xué)校心理輔導(dǎo)》課件
- 二零二五年度居間服務(wù)合同范本6篇
- 小學(xué)一年級數(shù)學(xué)思維訓(xùn)練100題(附答案)
- 新能源充電站運(yùn)營手冊
- 2024年蘭州新區(qū)實(shí)正鑫熱電有限公司招聘筆試沖刺題(帶答案解析)
- 血透室護(hù)士長述職
- (正式版)JTT 1218.4-2024 城市軌道交通運(yùn)營設(shè)備維修與更新技術(shù)規(guī)范 第4部分:軌道
- 2024年漢中市行政事業(yè)單位國有資產(chǎn)管理委員會(huì)辦公室四級主任科員公務(wù)員招錄1人《行政職業(yè)能力測驗(yàn)》模擬試卷(答案詳解版)
- 藝術(shù)培訓(xùn)校長述職報(bào)告
- ICU新進(jìn)人員入科培訓(xùn)-ICU常規(guī)監(jiān)護(hù)與治療課件
- 選擇性必修一 期末綜合測試(二)(解析版)2021-2022學(xué)年人教版(2019)高二數(shù)學(xué)選修一
- 學(xué)校制度改進(jìn)
- 各行業(yè)智能客服占比分析報(bào)告
評論
0/150
提交評論