版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
本項目學(xué)習(xí)內(nèi)容包括:1.什么是大數(shù)據(jù)時代2.大數(shù)據(jù)時代產(chǎn)生的原因3.大數(shù)據(jù)時代產(chǎn)生的變革4.大數(shù)據(jù)的定義和特征5.大數(shù)據(jù)處理流程6.大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)和行業(yè)應(yīng)用7.大數(shù)據(jù)崗位需求本項目學(xué)習(xí)主要內(nèi)容本項目思維導(dǎo)圖1.大數(shù)據(jù)時代是一個以數(shù)據(jù)為核心的時代,是一個信息大爆炸的時代,我們利用互聯(lián)網(wǎng)足不出戶便知天下事,動動手指便能網(wǎng)上購物,出門不用再碰運氣等出租車。但是,我們在享受這些服務(wù)的同時也貢獻了自己這部分微小的個人數(shù)據(jù)。2.在大數(shù)據(jù)時代,任何微小的數(shù)據(jù)都可能產(chǎn)生不可思議的價值。3.大數(shù)據(jù)時代是一個沒有隱私的時代,我們的個人數(shù)據(jù)時時刻刻都被收集著,但是同時我們也享受著各種便利服務(wù),可以說大數(shù)據(jù)時代是一個“我為人人,人人為我”的時代。任務(wù)1-1認識大數(shù)據(jù)時代1.1.1大數(shù)據(jù)時代1.存儲設(shè)備容量不斷增加(外部原因)在大數(shù)據(jù)時代,數(shù)據(jù)采集回來,需要大容量的存儲設(shè)備進行存儲。(1)在1956年,世界上第一款硬盤驅(qū)動器RAMAC350存儲容量僅為5MB當今,臺式機硬盤普遍為3.5英寸大小,單塊硬盤存儲容量可達TB數(shù)量級。(2)1987年,東芝公司發(fā)布的第一款基于NADA閃存的存儲卡容量僅為40MB。而現(xiàn)在,SD卡容量已經(jīng)提升至128GB。任務(wù)1-1認識大數(shù)據(jù)時代1.1.2大數(shù)據(jù)時代產(chǎn)生的原因2.CPU處理能力大幅提升(外部原因)在大數(shù)據(jù)時代,數(shù)據(jù)采集回來,需要快速處理,給出反饋。這就要求CPU具有高效的數(shù)據(jù)處理能力。隨著信息技術(shù)的發(fā)展,單個CPU上晶體管的密度逐漸增加,CPU處理能力得到大幅提升。任務(wù)1-1認識大數(shù)據(jù)時代3.網(wǎng)絡(luò)帶寬不斷增加(外部原因)在大數(shù)據(jù)時代,有可能數(shù)據(jù)采集和數(shù)據(jù)存儲、處理并不是同一個地方,地域跨度大。數(shù)據(jù)傳輸必須要用到網(wǎng)絡(luò),就要求網(wǎng)絡(luò)的數(shù)據(jù)傳輸效率要快,5G的產(chǎn)生進一步提高了網(wǎng)絡(luò)的數(shù)據(jù)傳輸效率,任務(wù)1-1認識大數(shù)據(jù)時代4.數(shù)據(jù)產(chǎn)生方式的巨大變化(本質(zhì)原因)人類社會的數(shù)據(jù)產(chǎn)生方式大致經(jīng)歷了3個階段。任務(wù)1-1認識大數(shù)據(jù)時代1.科學(xué)研究的變革人類科學(xué)研究活動已經(jīng)歷過四種不同范式的演變過程。任務(wù)1-1認識大數(shù)據(jù)時代1.1.3大數(shù)據(jù)時代產(chǎn)生的變革(1)
第一范式第一范式是指原始社會的“實驗科學(xué)范式”。實驗科學(xué)就是對有限的客觀自然對象進行觀察、總結(jié)、提煉,用實驗法、歸納法找出其中的科學(xué)規(guī)律。在第一范式中,一切真理都必須以大量確鑿的事實材料為依據(jù),先觀察,進而假設(shè),再根據(jù)假設(shè)進行實驗。如果實驗的結(jié)果與假設(shè)不符合,則修正假設(shè)再實驗。實驗科學(xué)的典范有很多,例如伽利略提出的物理學(xué)定律,牛頓的經(jīng)典力學(xué)、哈維的血液循環(huán)學(xué)說等。任務(wù)1-1認識大數(shù)據(jù)時代(2)
第二范式第二范式是指以模型和歸納為特征的“理論科學(xué)范式”。理論科學(xué)研究偏重理論總結(jié)和理性概括,強調(diào)抽象化的理論認識而不是實用性科學(xué)。理論科學(xué)的研究方法以演繹法為主,理論科學(xué)的主要研究模型是對數(shù)學(xué)模型的演繹推理,而數(shù)學(xué)模型包含了大量的數(shù)學(xué)公式。理論科學(xué)的研究過程就是對大量數(shù)學(xué)公式的推理過程。第二范式也產(chǎn)生了很多科學(xué)典范。例如牛頓三大定律、麥克斯韋方程組、數(shù)學(xué)中的概率論、物理學(xué)中的相對論、計算機科學(xué)中的算法信息論等。任務(wù)1-1認識大數(shù)據(jù)時代(3)
第三范式第三范式是指計算科學(xué)階段的“計算科學(xué)范式”。計算科學(xué)的主要研究模型是計算機仿真和模擬。面對大量的復(fù)雜現(xiàn)象,傳統(tǒng)的歸納法和演繹法難以滿足需求,科學(xué)現(xiàn)象越復(fù)雜,歸納和演繹時計算數(shù)據(jù)量也越大。在20世紀中期,約翰·馮·諾依曼(JohnvonNeumann)提出了現(xiàn)代電子計算機架構(gòu),使的人從繁重的計算工作中解脫出來,大大提高了工作效率。在實際應(yīng)用中,計算科學(xué)應(yīng)用領(lǐng)域非常廣泛,例如地震、海嘯和其他自然災(zāi)害的模擬、仿真和預(yù)測;復(fù)雜網(wǎng)絡(luò)模型的建模;計算和數(shù)學(xué)優(yōu)化等。任務(wù)1-1認識大數(shù)據(jù)時代(4)第四范式“第四范式”是指“數(shù)據(jù)密集型科學(xué)范式”。隨著數(shù)據(jù)的爆炸性增長,計算機將不僅僅能做簡單的模擬仿真,還能對海量數(shù)據(jù)進行分析總結(jié),得到科學(xué)理論。在數(shù)據(jù)密集型科學(xué)范式中,科學(xué)研究人員只需要從大數(shù)據(jù)中查找和挖掘所需要的信息和知識,然后通過計算得出之前未知的理論。數(shù)據(jù)科學(xué)范式典型范例包括幾乎所有的大數(shù)據(jù)和人工智能應(yīng)用場景。尤其是當前火熱的新一代人工智能研究。一些在過去認為非常難以解決的智能問題,會因為大數(shù)據(jù)技術(shù)的使用而迎刃而解,任務(wù)1-1認識大數(shù)據(jù)時代2.思維方式的變革(1)全量,而非抽樣對某事物進行研究時,分析與某事物相關(guān)的全量數(shù)據(jù),而不是依靠抽樣分析少量的數(shù)據(jù)樣本。過去計算機的存儲和計算能力有限,人們只能通過抽樣的方式從某個大范圍的群體中隨機抽取極少數(shù)的一部分樣本來代表所有,數(shù)理統(tǒng)計學(xué)理論就是基于這個發(fā)展起來的。隨機抽樣調(diào)查能夠在某個范圍內(nèi)對局部數(shù)據(jù)的特征進行分析,從而以點帶面反應(yīng)整個數(shù)據(jù)的特征。但是在抽樣的過程中如何保證抽樣的隨機性和準確性,是一項具有挑戰(zhàn)性的問題。抽樣同時也會忽略一些數(shù)據(jù)之間的細節(jié)信息,甚至還會失去對某些特定子類的進一步研究機會。任務(wù)1-1認識大數(shù)據(jù)時代(2)不求數(shù)據(jù)精度,求發(fā)展趨勢在大數(shù)據(jù)時代,我們不再追求數(shù)據(jù)的精確性,而更關(guān)注數(shù)據(jù)的未來發(fā)展趨勢。過去,對于數(shù)據(jù)隨機抽樣得到的樣本屬于“小數(shù)據(jù)”,對小數(shù)據(jù)分析要盡可能的減少錯誤,提高質(zhì)量。在數(shù)據(jù)抽樣時,因為收集的信息量比較少,細微的錯誤會被放大,甚至有可能影響整個結(jié)果的準確性。所以我們必須確保數(shù)據(jù)分析結(jié)果盡量精確。為了使結(jié)果更加準確,我們就必須做很多額外的工作例如優(yōu)化測量的工具,優(yōu)化建模算法等。而現(xiàn)在由于計算和存儲能力得到增強,可以對整個全量數(shù)據(jù)進行分析。我們更關(guān)注整個數(shù)據(jù)粗粒度的特性和發(fā)展趨勢,而不關(guān)注具體某個數(shù)據(jù)的特性。因為在海量數(shù)據(jù)中,少部分異常數(shù)據(jù)或不準確數(shù)據(jù),并不會改變整個數(shù)據(jù)的發(fā)展趨勢和規(guī)律,影響最終的數(shù)據(jù)分析結(jié)果。任務(wù)1-1認識大數(shù)據(jù)時代(3)重相關(guān)輕因果在大數(shù)據(jù)時代,我們不再關(guān)注數(shù)據(jù)之間因果關(guān)系,而是關(guān)注數(shù)據(jù)之間的相關(guān)關(guān)系。我們只要知道“是什么”,而不需要知道“為什么”。我們不必自己去挖掘現(xiàn)象背后的原因,而是要讓數(shù)據(jù)自己展現(xiàn)出來。例如,一個人生病了,相關(guān)的因素很多,我們可以通過關(guān)聯(lián)因素推測出可能生病的原因。任務(wù)1-1認識大數(shù)據(jù)時代
數(shù)據(jù)是指對對客觀事物的性質(zhì)、狀態(tài)以及相互關(guān)系等進行記載的物理符號或這些物理符號的組合,這些符號是可識別的、抽象的。數(shù)據(jù)可以是具有一定意義的文字、字母、數(shù)字符號,也可以是圖形、圖像、視頻、音頻,也可以是一些抽象表示。例如,“0、1、2...`”、“陰、雨、晴”等都是數(shù)據(jù)。
在計算機科學(xué)中,數(shù)據(jù)是指所有能輸入到計算機并被計算機程序處理的符號的總稱,例如數(shù)字、字母、符號等?,F(xiàn)在計算機存儲和處理的數(shù)據(jù)種類繁多,數(shù)據(jù)的表達方式也隨來越多樣化。計算機中,數(shù)據(jù)的最小的基本單位是bit,按照進率1024(2的十次方)來計算。任務(wù)1-2掌握大數(shù)據(jù)基本特征和處理流程1.2.1數(shù)據(jù)的定義和分類
顧名思義,大數(shù)據(jù)指的是海量的數(shù)據(jù)或巨量的數(shù)據(jù)。究竟大到多少才算是大數(shù)據(jù)?根據(jù)維基百科的定義,大數(shù)據(jù)的大小從TB級別到PB級別(1PB=1024TB,1TB=1024GB)不等。然而,到目前為止,尚未有一個公認的標準來界定“大數(shù)據(jù)”的大小。換句話說,“大”只是表示數(shù)據(jù)容量大,但并不具體。
麥肯錫全球研究所給出了大數(shù)據(jù)的另外一種定義,把大數(shù)據(jù)定義為一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價值密度低四大特征,從這里我們可以得出一個結(jié)論就是大數(shù)據(jù)無法用傳統(tǒng)的數(shù)據(jù)處理分析工具來進行處理,必須使用其他方式處理。任務(wù)1-2掌握大數(shù)據(jù)基本特征和處理流程1.2.2什么是大數(shù)據(jù)
大數(shù)據(jù)歸納起來有5個特征,俗稱4“V”+1“O”。4“V”指的是:(1)Volume(數(shù)據(jù)量大)(2)Variety(數(shù)據(jù)類型繁多)(3)Velocity(處理速度快)(4)Value(價值密度低)。
1“O”指的是Online(在線)。任務(wù)1-2掌握大數(shù)據(jù)基本特征和處理流程1.2.3大數(shù)據(jù)的特征(1)數(shù)據(jù)量大大數(shù)據(jù)的特征首先就體現(xiàn)為“大”,在早期,數(shù)據(jù)的存儲單位是B、KB、MB,一個MB的數(shù)據(jù)文件就覺得非常大了,然而隨著時間的推移,信息技術(shù)的高速發(fā)展使得數(shù)據(jù)開始爆發(fā)性增長。數(shù)據(jù)存儲單位從過去的MB到GB、TB,甚至是PB、EB級別。2020年全球總數(shù)據(jù)量為44ZB,到2035年全球總數(shù)據(jù)量將達到20000ZB。任務(wù)1-2掌握大數(shù)據(jù)基本特征和處理流程任務(wù)1-2掌握大數(shù)據(jù)基本特征和處理流程(2)數(shù)據(jù)類型繁多大數(shù)據(jù)形式多種多樣,數(shù)據(jù)來源廣。包括文字、圖片、視頻、音頻、社交數(shù)據(jù)、地理數(shù)據(jù)等,(3)處理速度快大數(shù)據(jù)時代,我們每天都產(chǎn)生大量數(shù)據(jù),數(shù)據(jù)的產(chǎn)生速度非常快,數(shù)據(jù)主要通過互聯(lián)網(wǎng)傳輸。這些數(shù)據(jù)是需要快速處理并挖掘其價值,若該數(shù)據(jù)價值太小,則丟棄,如果該數(shù)據(jù)具有存儲價值,則存儲在數(shù)據(jù)庫中。因為企業(yè)花費大量資本去存儲作用較小的歷史數(shù)據(jù)是非常不劃算的,對于一個業(yè)務(wù)平臺而言,一般保存的數(shù)據(jù)只有過去幾天或者一個月之內(nèi),再遠的數(shù)據(jù)就要及時清理。如此快速的數(shù)據(jù)產(chǎn)生速度,必須要匹配快速的數(shù)據(jù)處理平臺。大數(shù)據(jù)處理平臺對處理速度有非常嚴格的要求,服務(wù)器中大量的資源都用于處理和計算數(shù)據(jù),很多平臺都需要做到實時分析。因為,數(shù)據(jù)無時無刻不在產(chǎn)生,誰的處理速度更快,誰占的先機。任務(wù)1-2掌握大數(shù)據(jù)基本特征和處理流程(4)價值密度低,商業(yè)價值高這也是大數(shù)據(jù)的核心特征。現(xiàn)實世界所產(chǎn)生的數(shù)據(jù)量非常大,但是有價值的數(shù)據(jù)所占比例很小。大數(shù)據(jù)最大的價值在于通過對大量不相關(guān)的各種類型的數(shù)據(jù)挖掘,預(yù)測出數(shù)據(jù)未來發(fā)展趨勢,輔助人工決策。目前,數(shù)據(jù)挖掘主要通過機器學(xué)習(xí)、人工智能相關(guān)算法進行。大數(shù)據(jù)挖掘就是沙里淘金,為了淘到一點金子,你必須要擁有足夠多的沙子。任務(wù)1-2掌握大數(shù)據(jù)基本特征和處理流程(5)實時在線(Online)大數(shù)據(jù)是要能夠?qū)崟r分析計算的,實時性一般要求比較高,時延要達到秒級。這是大數(shù)據(jù)處理區(qū)別于傳統(tǒng)數(shù)據(jù)處理最大的特征。大數(shù)據(jù)處理不僅是數(shù)據(jù)的數(shù)量級大,更重要的是數(shù)據(jù)處理的實時性。例如嘀嘀打車,客戶的數(shù)據(jù)和出租司機數(shù)據(jù)都是實時在線顯示的。對于環(huán)境監(jiān)測數(shù)據(jù),數(shù)據(jù)實時處理才能顯示數(shù)據(jù)的價值,如果收集到的數(shù)據(jù)要離線處理那就沒有什么意義了。任務(wù)1-2掌握大數(shù)據(jù)基本特征和處理流程
大數(shù)據(jù)處理流程分為五步,分別是數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)存儲和數(shù)據(jù)計算、數(shù)據(jù)分析、數(shù)據(jù)可視化。任務(wù)1-2掌握大數(shù)據(jù)基本特征和處理流程1.2.4大數(shù)據(jù)處理流程(1)數(shù)據(jù)采集
數(shù)據(jù)采集是大數(shù)據(jù)處理的第一步。大數(shù)據(jù)處理首先要爭對業(yè)務(wù)需求收集到大量原始數(shù)據(jù),數(shù)據(jù)是基石,沒有數(shù)據(jù)后續(xù)過程就無從談起了。(2)數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理是大數(shù)據(jù)處理的第二步。由于采集到的原始數(shù)據(jù)有可能不完整或存在臟數(shù)據(jù),這些問題可能導(dǎo)致后續(xù)數(shù)據(jù)處理流程的未知錯誤。為了提高數(shù)據(jù)質(zhì)量,我們需要對原始數(shù)據(jù)進行數(shù)據(jù)預(yù)處理,例如數(shù)據(jù)清理,數(shù)據(jù)集成,數(shù)據(jù)變換,數(shù)據(jù)歸約等,數(shù)據(jù)采集和數(shù)據(jù)預(yù)處理的相關(guān)知識將在第三章介紹。(3)數(shù)據(jù)存儲和數(shù)據(jù)計算
數(shù)據(jù)存儲和數(shù)據(jù)計算是大數(shù)據(jù)處理的第三步。至于數(shù)據(jù)是先存儲還是先計算要根據(jù)具體應(yīng)用場景而定,如果是批量計算,一般數(shù)據(jù)先存儲然后進行離線批量計算。如果是在線實時計算,一般先進行數(shù)據(jù)計算,根據(jù)計算出的結(jié)果選擇是否存儲該數(shù)據(jù)。數(shù)據(jù)存儲和數(shù)據(jù)計算后的數(shù)據(jù)是為后續(xù)數(shù)據(jù)分析和數(shù)據(jù)可視化服務(wù)的。大數(shù)據(jù)計算需要用到一些特定的計算框架,大數(shù)據(jù)存儲一般存放在分布式文件系統(tǒng)或非關(guān)系數(shù)據(jù)庫中。數(shù)據(jù)存儲和數(shù)據(jù)計算相關(guān)內(nèi)容將在第四章介紹。任務(wù)1-2掌握大數(shù)據(jù)基本特征和處理流程(4)數(shù)據(jù)分析
數(shù)據(jù)分析是大數(shù)據(jù)處理的第四步,數(shù)據(jù)分析分為兩個層面,比較基礎(chǔ)的數(shù)據(jù)分析主要是利用分布式數(shù)據(jù)庫和分布式計算集群來對存儲于其內(nèi)的海量數(shù)據(jù)進行普通的統(tǒng)計分析和分類匯總等。而較高層次的數(shù)據(jù)分析會利用到一些數(shù)據(jù)挖掘算法來挖掘數(shù)據(jù)的隱藏價值和規(guī)律。(5)數(shù)據(jù)可視化
數(shù)據(jù)可視化是大數(shù)據(jù)處理的最后一步,數(shù)據(jù)分析的結(jié)果往往比較難懂、過于抽象,這時就需要把數(shù)據(jù)分析結(jié)果以圖表、動畫、仿真模型等方式呈現(xiàn)。使外界易于理解。數(shù)據(jù)分析和數(shù)據(jù)可視化相關(guān)內(nèi)容將在第六章介紹。任務(wù)1-2掌握大數(shù)據(jù)基本特征和處理流程任務(wù)1-3回顧大數(shù)據(jù)技術(shù)發(fā)展歷程大數(shù)據(jù)發(fā)展歷程
2015年8月,國務(wù)院頒布《促進大數(shù)據(jù)發(fā)展行動綱要》,大數(shù)據(jù)技術(shù)發(fā)展上升為國家戰(zhàn)略層面。2016年,工信部印發(fā)了《大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃(2016-2020年)》,引發(fā)了我國大數(shù)據(jù)產(chǎn)業(yè)建設(shè)的高峰。中國大數(shù)據(jù)產(chǎn)業(yè)規(guī)模發(fā)展曲線如圖1-23所示,從圖中可以看出,2018年,中國大數(shù)據(jù)產(chǎn)業(yè)規(guī)模為4384.5億元,同比增長23.5%。到2021年,中國大數(shù)據(jù)產(chǎn)業(yè)規(guī)模預(yù)計將超過8000億元,發(fā)展?jié)摿薮蟆>┙蚣?、珠三角和華東沿海地區(qū)成為大數(shù)據(jù)企業(yè)的主要集中地。任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用1.4.1大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)
目前,我國已建成京津冀、珠三角、上海、河南、重慶、沈陽和內(nèi)蒙古八大大數(shù)據(jù)綜合試驗區(qū),建立了100多個大數(shù)據(jù)產(chǎn)業(yè)園。大數(shù)據(jù)綜合試驗區(qū)的成立,對國家大數(shù)據(jù)開放共享、大數(shù)據(jù)應(yīng)用創(chuàng)新、大數(shù)據(jù)產(chǎn)業(yè)集聚等方面起到重要促進作用。大數(shù)據(jù)產(chǎn)業(yè)園成為集聚大數(shù)據(jù)產(chǎn)業(yè)資源的重要載體。伴隨人工智能、云計算、物聯(lián)網(wǎng)、5G等新一代信息技術(shù)的發(fā)展,大數(shù)據(jù)的產(chǎn)業(yè)支撐得到強化,行業(yè)應(yīng)用范圍加速拓展,產(chǎn)業(yè)規(guī)模將進一步實現(xiàn)爆發(fā)式增長。2018年大數(shù)據(jù)產(chǎn)業(yè)園區(qū)綜合發(fā)展實力TOP10如右圖所示。任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用2018年大數(shù)據(jù)產(chǎn)業(yè)園區(qū)綜合發(fā)展實力TOP10排名園區(qū)名稱地區(qū)城市1中關(guān)村大數(shù)據(jù)產(chǎn)業(yè)園北京北京2貴安綜保區(qū)電子信息產(chǎn)業(yè)園貴州貴安新區(qū)3上海市北高新技術(shù)服務(wù)園上海上海4仙桃國際大數(shù)據(jù)谷重慶重慶5鹽城市大數(shù)據(jù)產(chǎn)業(yè)園江蘇鹽城6東南大數(shù)據(jù)產(chǎn)業(yè)園福建福州7廊坊開發(fā)區(qū)大數(shù)據(jù)產(chǎn)業(yè)園河北廊坊8佛山市南海區(qū)大數(shù)據(jù)產(chǎn)業(yè)園廣東佛山9廈門軟件園福建廈門10承德德鳴大數(shù)據(jù)產(chǎn)業(yè)園河北承德
目前,我國大數(shù)據(jù)整體產(chǎn)業(yè)分為可分為6個層次,分別為硬件設(shè)施、基礎(chǔ)服務(wù)、數(shù)據(jù)來源、技術(shù)開發(fā)、融合應(yīng)用及產(chǎn)業(yè)支撐。任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用表1-2大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)產(chǎn)業(yè)結(jié)構(gòu)具體內(nèi)容硬件設(shè)施數(shù)據(jù)采集設(shè)備傳感器、數(shù)據(jù)采集設(shè)備、I/O終端、交互設(shè)備等數(shù)據(jù)傳輸設(shè)備交換機、路由器等各種數(shù)據(jù)通信和傳輸設(shè)備等數(shù)據(jù)計算存儲設(shè)備芯片、硬盤、服務(wù)器、一體化計算機等設(shè)備集成硬件設(shè)備的集成安裝和調(diào)式基礎(chǔ)服務(wù)數(shù)據(jù)傳輸網(wǎng)絡(luò)服務(wù)電信運營及運維服務(wù)等數(shù)據(jù)云平臺服務(wù)基礎(chǔ)設(shè)施托管租用服務(wù)、平臺租用服務(wù)、軟件租用服務(wù)等數(shù)據(jù)系統(tǒng)開發(fā)服務(wù)架構(gòu)設(shè)計、個性化定制開發(fā)等數(shù)據(jù)來源政府數(shù)據(jù)、行業(yè)數(shù)據(jù)、企業(yè)數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)、物聯(lián)網(wǎng)數(shù)據(jù)、第三方數(shù)據(jù)等技術(shù)開發(fā)數(shù)據(jù)管理數(shù)據(jù)庫管理、數(shù)據(jù)集成、元數(shù)據(jù)管理、數(shù)據(jù)清洗等數(shù)據(jù)技術(shù)研究基礎(chǔ)技術(shù)研究:數(shù)據(jù)計算和存儲、基礎(chǔ)算法研究等應(yīng)用技術(shù)研究:圖像處理、語音識別、空間地理、社交輿情等數(shù)據(jù)安全數(shù)據(jù)監(jiān)管、數(shù)據(jù)加密、數(shù)據(jù)認證等融合應(yīng)用工業(yè)、農(nóng)業(yè)、政府、醫(yī)療、交通、金融、互聯(lián)網(wǎng)、電信、環(huán)保等行業(yè)應(yīng)用和解決方案產(chǎn)業(yè)支撐數(shù)據(jù)評估中心、數(shù)據(jù)交易中心、科研機構(gòu)、孵化機構(gòu)、行業(yè)聯(lián)盟等。
現(xiàn)階段我國大數(shù)據(jù)產(chǎn)業(yè)細分領(lǐng)域包括硬件、軟件、服務(wù)以及數(shù)據(jù)安全4個領(lǐng)域。任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用1.大數(shù)據(jù)硬件
大數(shù)據(jù)硬件是指數(shù)據(jù)的產(chǎn)生、采集、存儲、計算處理、應(yīng)用等一系列與大數(shù)據(jù)產(chǎn)業(yè)環(huán)節(jié)相關(guān)的硬件設(shè)備,包括傳感器、數(shù)據(jù)傳輸設(shè)備、數(shù)據(jù)計算與存儲設(shè)備、數(shù)據(jù)安全設(shè)備等。據(jù)數(shù)據(jù)存儲公司希捷預(yù)計到2025年,中國產(chǎn)生的數(shù)據(jù)總量將首次超過美國產(chǎn)生的數(shù)據(jù)總量,達到48.6ZB。數(shù)據(jù)總量的快速增長將持續(xù)推動數(shù)據(jù)存儲、數(shù)據(jù)處理等硬件市場需求。據(jù)中國電子信息產(chǎn)業(yè)發(fā)展研究院賽迪顧問編寫的《2019-2021年大數(shù)據(jù)市場預(yù)測與展望數(shù)據(jù)》統(tǒng)計,2019年,中國大數(shù)據(jù)硬件市場規(guī)模為2541.7億元,同比增長13.2%,預(yù)計到2021年,中國大數(shù)據(jù)硬件市場規(guī)模將達到3150.3億元。任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用2.大數(shù)據(jù)軟件
大數(shù)據(jù)軟件是指用于實現(xiàn)數(shù)據(jù)采集、數(shù)據(jù)計算、數(shù)據(jù)存儲、數(shù)據(jù)分析挖掘和數(shù)據(jù)可視化展示的各類軟件。大數(shù)據(jù)軟件主要包括大數(shù)據(jù)采集軟件、大數(shù)據(jù)計算軟件、大數(shù)據(jù)分析和可視化軟件、大數(shù)據(jù)存儲軟件、大數(shù)據(jù)平臺架構(gòu)和運維監(jiān)控軟件、大數(shù)據(jù)工具軟件和應(yīng)用軟件等。任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用
據(jù)中國電子信息產(chǎn)業(yè)發(fā)展研究院賽迪顧問編寫的《2019-2021年大數(shù)據(jù)市場預(yù)測與展望數(shù)據(jù)》統(tǒng)計,2019年,中國大數(shù)據(jù)軟件市場規(guī)模約為1062.7億元,同比增長29.2%,預(yù)計到2021年,大數(shù)據(jù)軟件市場規(guī)模將達到1731.9.億元。任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用3.大數(shù)據(jù)服務(wù)
大數(shù)據(jù)服務(wù)主要包括大數(shù)據(jù)查詢分析服務(wù)、大數(shù)據(jù)交易服務(wù)、大數(shù)據(jù)安全服務(wù)等。目前,大數(shù)據(jù)服務(wù)大多依托云平臺進行開展。由于大數(shù)據(jù)應(yīng)用場景眾多,各應(yīng)用場景結(jié)合自身需求對提供服務(wù)的性能要求是不同的,一些典型的大數(shù)據(jù)服務(wù)應(yīng)用性能要求對比如下表所示。任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用典型的大數(shù)據(jù)服務(wù)應(yīng)用性能要求對比所在領(lǐng)域應(yīng)用實例用戶開發(fā)度響應(yīng)時間要求可靠性要求準確度要求科學(xué)計算航天數(shù)據(jù)計算小低適中非常高金融股票交易系統(tǒng)大非常快非常高非常高社交網(wǎng)絡(luò)Facebook非常大快高高移動數(shù)據(jù)手機應(yīng)用非常大快高高物聯(lián)網(wǎng)傳感器大快高高多媒體視頻服務(wù)非常大快高中等
據(jù)中國電子信息產(chǎn)業(yè)發(fā)展研究院賽迪顧問編寫的《2019-2021年大數(shù)據(jù)市場預(yù)測與展望數(shù)據(jù)》統(tǒng)計,2019年,中國大數(shù)據(jù)服務(wù)市場規(guī)模約為1781.8億元,同比增長35.3%,預(yù)計到2021年,中國大數(shù)據(jù)服務(wù)市場規(guī)模將達到3188.3億元。任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用4.大數(shù)據(jù)安全
大數(shù)據(jù)安全是指用以搭建大數(shù)據(jù)平臺所需的安全產(chǎn)品和服務(wù),以及對大數(shù)據(jù)全生命周期的安全防護等。主要包括大數(shù)據(jù)平臺安全、大數(shù)據(jù)安全防護和大數(shù)據(jù)隱私保護等。涉及具體的數(shù)據(jù)安全防護技術(shù)有數(shù)據(jù)資產(chǎn)梳理(敏感數(shù)據(jù)、數(shù)據(jù)庫等進行梳理)、數(shù)據(jù)庫加密(核心數(shù)據(jù)存儲加密)、數(shù)據(jù)庫安全運維(防運維人員惡意和高危操作)、數(shù)據(jù)脫敏(敏感數(shù)據(jù)匿名化)、數(shù)據(jù)庫漏掃(數(shù)據(jù)安全脆弱性檢測)等。據(jù)中國電子信息產(chǎn)業(yè)發(fā)展研究院賽迪顧問數(shù)據(jù)統(tǒng)計,2019年我國大數(shù)據(jù)安全行業(yè)市場規(guī)模約為38.3億元,同比增長30.5%,預(yù)計到2021年,中國大數(shù)據(jù)服務(wù)市場規(guī)模將達到69.7億元。任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用1.云計算簡介
云計算是指互聯(lián)網(wǎng)企業(yè)通過網(wǎng)絡(luò)、以提供服務(wù)的方式,為政府、行業(yè)業(yè)和個人提供非常廉價的IT資源,用以完成僅依靠自身資源無法完成的復(fù)雜任務(wù)。云計算本質(zhì)就是一種提供資源的網(wǎng)絡(luò),使用者只要連上互聯(lián)網(wǎng)就可以隨時獲取“云”端的各種資源,為我所用。使用者只要按使用量付費就可以繼續(xù)使用“云”端資源,“云”就好比自來水廠一樣,我們可以隨時無限量用水,只需要定時按照自己的用水量,付費給自來水廠就可以。任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用1.4.2大數(shù)據(jù)、云計算、人工智能、物聯(lián)網(wǎng)深度融合
為什么云計算會興起?因為無論對于政府、企業(yè)還是個人來說,自身所擁有的資源都是有限的,如果要去做一件事而自己沒有資源怎么辦?
以此類推,如果一家中小型企業(yè)有大量數(shù)據(jù)運算需求的,而沒有計算資源怎么辦?一種辦法就是公司購置多臺服務(wù)器,甚至建立一個具有多臺服務(wù)器的數(shù)據(jù)中心。但是數(shù)據(jù)中心的建設(shè)和運營維護成本太高,中小型企業(yè)難以承擔的。而大型互聯(lián)網(wǎng)企業(yè)往往建有大型數(shù)據(jù)中心,擁有大量閑置的服務(wù)器和存儲設(shè)備,這些資源又無法提供給外界使用,產(chǎn)生經(jīng)濟效益。于是人們就設(shè)想能不能建立一個網(wǎng)絡(luò),讓大型互聯(lián)網(wǎng)企業(yè)能夠把閑置的資源像實體商品一樣放在網(wǎng)絡(luò)上供需要資源的政府部門、中小企業(yè)和個人使用,并按照資源使用量收取一定費用。于是云計算便應(yīng)運而生了。云計算產(chǎn)業(yè)提供的服務(wù)類型分為三類,即基礎(chǔ)設(shè)施即服務(wù)(InfrastructureasaService,IaaS)、平臺即服務(wù)(PlatformasaService,PaaS)和軟件即服務(wù)(SoftwareasaService,SaaS)。任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用2.人工智能簡介
人工智能是利用數(shù)字計算機或數(shù)字計算機控制的人工制造產(chǎn)品模擬、延伸和擴展人的智能,感知環(huán)境、獲取知識并使用知識獲得最佳結(jié)果的理論、方法、技術(shù)及應(yīng)用系統(tǒng)。人工智能是一門前沿綜合性學(xué)科,它融合了計算機科學(xué)、統(tǒng)計學(xué)、腦神經(jīng)學(xué)和社會科學(xué)等多個前沿學(xué)科。目前,人工智能主要被用來代替人類實現(xiàn)識別、認知、分析、決策等多種功能,歸納起來總結(jié)為4個字,即聽、說、寫、看。例如當我們說一句話時,機器能夠識別成文字,并寫出我們所表達的意思,進行分析并和我們對話等。工廠生產(chǎn)線利用計算機視覺技術(shù),通過攝像頭采集產(chǎn)品數(shù)據(jù),經(jīng)過智能分析判斷,自動分揀合格產(chǎn)品和不合格產(chǎn)品。人工智能的出現(xiàn)使得人們可以從低級的、機械的、固定式的社會生產(chǎn)中解放出來,去從事更加高端的社會生產(chǎn)。任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用3.物聯(lián)網(wǎng)
物聯(lián)網(wǎng)的定義是通過射頻識別、紅外感應(yīng)器、全球定位系統(tǒng)、激光掃描器等信息傳感設(shè)備,按約定的協(xié)議,把任何物品與互聯(lián)網(wǎng)相連接,進行信息交換和通信,以實現(xiàn)對物品的智能化識別、定位、跟蹤、監(jiān)控和管理的一種網(wǎng)絡(luò)。當今社會是一個萬物互聯(lián)的社會。通過物聯(lián)網(wǎng)人、機、物能夠?qū)崿F(xiàn)在任何時間、任何地點的互聯(lián)互通。物聯(lián)網(wǎng)的基礎(chǔ)就是各種傳感器,傳感器能夠?qū)嵤┦占恕C、物的實時狀態(tài)數(shù)據(jù)并通過互聯(lián)網(wǎng)上傳到相應(yīng)的數(shù)據(jù)中心,供后續(xù)使用。
當前,大數(shù)據(jù)產(chǎn)業(yè)和人工智能、云計算和物聯(lián)網(wǎng)正在出現(xiàn)“四位一體”式的深度融合。四者既相互獨立,又相輔相成,相互促進。任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用
云計算和物聯(lián)網(wǎng)是大數(shù)據(jù)的下層,企業(yè)和個人通過云計算來處理海量數(shù)據(jù),物聯(lián)網(wǎng)又為大數(shù)據(jù)提供海量數(shù)據(jù)支撐。人工智能則是大數(shù)據(jù)的上層應(yīng)用,大數(shù)據(jù)的發(fā)展與應(yīng)用,離不開云計算強有力的支持。云計算的發(fā)展和大數(shù)據(jù)的積累,是人工智能快速發(fā)展的基礎(chǔ)和實現(xiàn)實質(zhì)性突破的關(guān)鍵。大數(shù)據(jù)和人工智能的進步也將拓展云計算應(yīng)用的深度和廣度。人工智能的實現(xiàn),需要大數(shù)據(jù)作為人工智能對行為智能判斷的依據(jù),云計算運用大數(shù)據(jù)技術(shù)計算出結(jié)果并保存在云上,為人工智能提供強大的支撐。當前非常熱門的深度學(xué)習(xí)技術(shù)正是在大數(shù)據(jù)和云計算日趨成熟的背景下才取得快速發(fā)展。而人工智能的突飛猛進的發(fā)展也使得大數(shù)據(jù)、云計算和物聯(lián)網(wǎng)的應(yīng)用更加智能化。任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用
近年來,大數(shù)據(jù)技術(shù)在金融、交通、政府、公安、醫(yī)療和互聯(lián)網(wǎng)等領(lǐng)域得到了積極的探索和廣泛應(yīng)用,極大的提升了信息處理效率,降低了社會運營成本。下圖所示為大數(shù)據(jù)在各應(yīng)用領(lǐng)域的互聯(lián)網(wǎng)關(guān)注度與滿意度情況對比。任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用1.4.3大數(shù)據(jù)技術(shù)在各行業(yè)領(lǐng)域應(yīng)用案例從左圖中可以看出,大數(shù)據(jù)技術(shù)已經(jīng)應(yīng)用在我們社會生活的各行各業(yè)中。其中,互聯(lián)網(wǎng)和政府領(lǐng)域是公眾關(guān)注度最高、且滿意度也較好的領(lǐng)域。金融及醫(yī)療關(guān)注度較高,但運用范圍及用戶體驗尚不足,滿意度不高。旅游、物流、批發(fā)零售等領(lǐng)域滿意度較高,技術(shù)應(yīng)用較成熟,但公眾關(guān)注度較少。可以加大宣傳力度。制造業(yè)、農(nóng)業(yè)、電信、地產(chǎn)和教育領(lǐng)域公眾關(guān)注度較低,技術(shù)應(yīng)用也還不成熟,未來發(fā)展?jié)摿薮?。任?wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用1.4.3大數(shù)據(jù)技術(shù)在各行業(yè)領(lǐng)域應(yīng)用案例1.互聯(lián)網(wǎng)金融領(lǐng)域大數(shù)據(jù)應(yīng)用互聯(lián)網(wǎng)金融是指借助于互聯(lián)網(wǎng)技術(shù)、移動通信技術(shù)實現(xiàn)資金融通、支付和信息中介等業(yè)務(wù)的新興金融模式新模式、新業(yè)務(wù)、新思維。下面以銀行征信案例說明大數(shù)據(jù)具體應(yīng)用。銀行征信主要面向兩類客戶,一類是沒有信貸記錄的客戶,一類是有豐富信貸記錄的客戶。爭對這兩類客戶,銀行要根據(jù)各種信息來評估客戶的信貸風(fēng)險等級,如果客戶的風(fēng)險等級太高,銀行將不提供信貸業(yè)務(wù)給客戶。對于有信貸記錄的客戶,銀行可以通過客戶以往的信貸和還款記錄來評估。那么對于沒有信貸記錄的客戶,如何評估客戶信貸風(fēng)險呢?如果用傳統(tǒng)方法是無法進行評估的,這樣銀行的信貸風(fēng)險就大大提升了。那么,有了大數(shù)據(jù)技術(shù),問題迎刃而解。任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用
首先,我們利用大數(shù)據(jù)技術(shù)對客戶身份進行識別。身份識別可以用下面四種方式。任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用
識別客戶身份以后,我們可以從各個渠道收集該用戶的海量信息,例如各種業(yè)務(wù)系統(tǒng)、第三方軟件、互聯(lián)網(wǎng)平臺等。將這些個人信息保存在分布式文件系統(tǒng)或數(shù)據(jù)庫中。然后采用大數(shù)據(jù)處理技術(shù)對保存的客戶數(shù)據(jù)進行數(shù)據(jù)處理,提取有用的信息并歸納分類,例如根據(jù)用戶的屬性信息和興趣愛好等信息對用戶打標簽,構(gòu)建客戶畫像。任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用
然后我們把客戶的用戶畫像數(shù)據(jù),輸入到相應(yīng)的機器學(xué)習(xí)模型中,在幾秒鐘或幾分鐘內(nèi)就可以完成對該客戶的信用評分,例如客戶的還款意愿,還款能力等。這樣評估的準確度相對較高,能夠有效的降低銀行的信貸風(fēng)險,節(jié)省了人力成本和時間成本。任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用
據(jù)美國個人消費信用評估公司FICO統(tǒng)計,在美國大約15%的人沒有信用評分的,大量的人群遠低于FICO平均分678。大數(shù)據(jù)征信的價值潛力巨大。任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用2.交通行業(yè)大數(shù)據(jù)應(yīng)用交通行業(yè)的數(shù)據(jù)量是巨大的。具體可來源以分為如下幾個方面。1.公交/地鐵一卡通數(shù)據(jù)2.GPS定位數(shù)據(jù)3.車聯(lián)網(wǎng)數(shù)據(jù)4.路網(wǎng)監(jiān)控數(shù)據(jù)5.電子地圖導(dǎo)航數(shù)據(jù)任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用下面介紹交通行業(yè)大數(shù)據(jù)應(yīng)用的三個案例。1.廣東省高速公路省監(jiān)控大數(shù)據(jù)綜合分析展示該項目目標是對政府和營運管理單位關(guān)心的主要指標數(shù)據(jù)進行分析展示,讓管理者及時、直觀地了解高速公路的運營管理情況。這個項目利用了省級聯(lián)網(wǎng)收費運營管理平臺和省級監(jiān)控平臺上的全省的高速公路收費數(shù)據(jù)和監(jiān)控數(shù)據(jù)。整個分析平臺的架構(gòu)如下。任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用
該系統(tǒng)對全省交通事件、交通事故的一些關(guān)鍵指標做了數(shù)據(jù)統(tǒng)計分析。具體包括最近30天交通事件類型組成、最近30天交通事件/交通事故情況、環(huán)比、最近90天發(fā)生交通事故的前十區(qū)間。任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用2.廣東省高速公路貨運情況大數(shù)據(jù)分析系統(tǒng)
廣東高速公路實現(xiàn)了全計重收費和全國ETC聯(lián)網(wǎng),該項目通過采集高速公路出口的火車載重量數(shù)據(jù),將采集到的數(shù)據(jù)輸入自己構(gòu)建的預(yù)測高速公路運輸景氣指數(shù)(ETBI)模型中。來預(yù)測廣東省經(jīng)濟景氣情況。該分析系統(tǒng)架構(gòu)如下。任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用3.福州市道路通行狀態(tài)大數(shù)據(jù)智能研判平臺
該平臺實現(xiàn)整合市區(qū)3170個地磁、752個視頻線圈、78臺微波、4335輛公交車和6553出租車浮動車GPS等多源異構(gòu)數(shù)據(jù),以每秒分析1萬條數(shù)據(jù),日不間斷計算8.6億條數(shù)據(jù)的處理計算能力,實時研判市區(qū)道路“擁堵延時指數(shù)”和信號燈路口“交通強度”等擁堵程度的量化評價指標,對市區(qū)交通管理態(tài)勢進行“智慧研判”。平臺實現(xiàn)總體態(tài)勢、實時路況、路況預(yù)測、數(shù)據(jù)質(zhì)量、統(tǒng)計分析及交通報告等六大功能。任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用3.教育領(lǐng)域疫情防控大數(shù)據(jù)應(yīng)用2020年新冠肺炎疫情席卷全球,要控制疫情的發(fā)展態(tài)勢必須做到嚴格管控人員流動,避免人員高度聚集,嚴密監(jiān)控患者流動軌跡,盡早排查尋找感染者和密切接觸者,做到早隔離早治療。學(xué)校作為人員高度聚集場所,疫情防控任務(wù)非常艱巨。同年,教育部下發(fā)了名為《堅決防止疫情向校園蔓延確保師生生命安全》的關(guān)于教育系統(tǒng)疫情防控工作指導(dǎo)文件,文件要求采取“人盯人”措施,精準了解防控重點地區(qū)的教職員工、學(xué)生在校內(nèi)各院系、各年級、各班級分布情況。精準掌握疫情防控重點地區(qū)的每個教職員工、學(xué)生返校前14天的身體健康狀況。精準安排疫情防控重點地區(qū)的教職員工、學(xué)生,分院系、分年級、分班級、分省份、分期、分批有序返校。做到一日一報、一生一檔。但是如此大量的數(shù)據(jù)如何進行數(shù)據(jù)采集和匯總分析處理,是一個大難題,如果采用傳統(tǒng)的人工方式,數(shù)據(jù)采集任務(wù)繁重,執(zhí)行效率低,出錯遺漏率較高,數(shù)據(jù)匯總分析的深度和廣度都難以深入,容易遺漏隱藏關(guān)聯(lián)信息。任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用
銳捷網(wǎng)絡(luò)推出教育局學(xué)生安全防疫大數(shù)據(jù)分析決策系統(tǒng)。該系統(tǒng)基于銳捷網(wǎng)絡(luò)身份和數(shù)據(jù)雙中臺解決方案,增加了快速信息采集核驗功能模塊和疫情大數(shù)據(jù)分析決策模塊,實現(xiàn)了免匯總、免校驗的信息采集和基于身份的遺漏信息快速識別功能,減輕了各級領(lǐng)導(dǎo)、各校老師手工匯總和檢查的繁瑣工作量,讓疫情防控更高效。同時,通過對上報數(shù)據(jù)分級分權(quán)多維度的數(shù)據(jù)呈現(xiàn)和數(shù)據(jù)分析,讓教育局的疫情防控更精準。銳捷網(wǎng)絡(luò)爭對現(xiàn)有疫情信息采集和匯總的痛點,構(gòu)建了從學(xué)生家長—班主任—學(xué)校負責人—教育局分管負責人的四位一體網(wǎng)格化決策系統(tǒng)。系統(tǒng)實現(xiàn)了以下3方面的功能。全面實現(xiàn)對疫情數(shù)據(jù)采集、核查、匯總分析的信息化、智能化處理。1)快速疫情數(shù)據(jù)收集,減輕老師匯總負擔2)身份系統(tǒng)數(shù)據(jù)比對,快讀識別遺漏數(shù)據(jù)3)數(shù)據(jù)服務(wù)疫情防控,分析輔助返校決策任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用
系統(tǒng)功能如下圖所示。任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用
系統(tǒng)操作流程如下圖所示。首先由教育局設(shè)計數(shù)據(jù)采集問卷,問卷可以由多種方式下發(fā)到到各個學(xué)校負責人(微信、鏈接、公眾號等),學(xué)校負責人在轉(zhuǎn)發(fā)給各個班級的班主任,班主任轉(zhuǎn)發(fā)給各班級家長填寫問卷,家長通過不同方式填寫問卷,操作簡單便捷,填寫完信息后直接上報學(xué)校,學(xué)校負責人可以統(tǒng)一點擊鏈接查看各個班級學(xué)生的信息上報情況,對本校信息進行初步匯總統(tǒng)計分析,可以從班級、日期等多個不同維度進行數(shù)據(jù)查看。同時,系統(tǒng)提供基于身份數(shù)據(jù)核驗功能,能夠快速找出漏填信息的人員。學(xué)校負責人統(tǒng)一匯總完畢后,則直接把信息提交教育局分管負責人,教育局分管負責人可以通過可視化報表形式查看學(xué)生數(shù)據(jù)信息,并利用銳捷疫情決策大數(shù)據(jù)平臺進行疫情風(fēng)險分析和輔助開學(xué)決策。任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用
這樣從總體上實現(xiàn)了各區(qū),各校,各班一張表多級數(shù)據(jù)報表呈現(xiàn),減少了數(shù)據(jù)報表的數(shù)量和數(shù)據(jù)分析復(fù)雜度。在數(shù)據(jù)分析時,除了支持大部分常見的數(shù)據(jù)分析功能外,還支持數(shù)據(jù)鉆取,數(shù)據(jù)筆刷、數(shù)據(jù)縮放等探索式分析。對重要數(shù)據(jù)指標(學(xué)校填報率、疑似人數(shù)、確診人數(shù)、各區(qū)異常人數(shù)排名等)由“熱力圖”動態(tài)呈現(xiàn)相關(guān)信息。系統(tǒng)能夠根據(jù)發(fā)燒人數(shù)、接觸重點疫區(qū)人數(shù)、疑似人數(shù)、確診人數(shù)、學(xué)生家長GPS打卡位置數(shù)據(jù)分析等對各地區(qū)做疫情風(fēng)險分析和疫情風(fēng)險等級預(yù)判,為教育局分管負責人提供上層輔助決策。任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用4.工業(yè)制造領(lǐng)域大數(shù)據(jù)應(yīng)用
在中國制造2025的戰(zhàn)略指引下,海爾公司自主創(chuàng)新,打造了具有自主知識產(chǎn)權(quán)的工業(yè)互聯(lián)網(wǎng)平臺—卡奧斯云平臺(COSMOPlat),該平臺是大數(shù)據(jù)、物聯(lián)網(wǎng)與人工智能技術(shù)深度融合的產(chǎn)物。該平臺通過物聯(lián)網(wǎng)技術(shù),實現(xiàn)人機物的互聯(lián)協(xié)作,包括設(shè)備、人員、流程、工廠數(shù)據(jù)的接入和監(jiān)測分析,滿足不同企業(yè)信息化部署、改造、智能升級需求,實現(xiàn)大規(guī)模定制的高精度與高效率。COSMOPlat云平臺通過設(shè)備資產(chǎn)數(shù)據(jù)的實時采集,對資產(chǎn)在線實時監(jiān)測和管理,并根據(jù)資產(chǎn)模型和運行大數(shù)據(jù),優(yōu)化資產(chǎn)效率。例如可采集設(shè)備實時數(shù)據(jù),結(jié)合設(shè)備機理分析和建模,實現(xiàn)了預(yù)測性維護,提升效率,降低成本。任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用
海爾智能化互聯(lián)工廠以COSMOPlat云平臺為核心,采用智能化、數(shù)字化、柔性化的設(shè)計理念,通過與COSMOPlat云平臺的無縫連接,不僅實現(xiàn)了冰箱、洗衣機等網(wǎng)器產(chǎn)品從個性化定制、遠程下單到智能制造的全過程,同時也實現(xiàn)了智能產(chǎn)品和智能制造全流程的無縫連接。海爾智能化互聯(lián)工廠包含用戶定制、模塊智能揀配、柔性裝配、模塊裝配、智能檢測、定制交付等多個智能單元。用戶可以應(yīng)用在線交互設(shè)計平臺,自主定義所需產(chǎn)品,平臺整合需求并達到一定需求規(guī)模后,形成用戶訂單,同時引進一流資源在線開展虛擬設(shè)計,訂單可直達工廠與模塊商,驅(qū)動全流程并聯(lián),自動匹配所需模塊部件,通過工廠AGV與空中積放鏈等智能物流系統(tǒng)實現(xiàn)模塊立即配送和按需配料,并全流程追溯和可視化制造過程中的海量信息數(shù)據(jù),促進了產(chǎn)品更新迭代和用戶體驗提升。例如,COSMOPlat云平臺通過搜集微博、微信、搜索引擎及其他途徑的用戶需求,發(fā)現(xiàn)用戶對所有品牌空調(diào)的各類需求問題,通過數(shù)據(jù)分析挖掘分析出用戶主要問題為空調(diào)異音問題。而異音有千萬種,COSMOPlat云平臺依托大數(shù)據(jù)和人工智能技術(shù)自主學(xué)習(xí)辨別異音和自動管控,提升辨別的精準度。聚焦噪音問題后,可追溯生產(chǎn)過程,通過生產(chǎn)過程大數(shù)據(jù),分析出導(dǎo)致異音的原因(包括空調(diào)風(fēng)扇安裝不良、電機安裝不良或者骨架模塊毛刺等原因),進而總結(jié)出改善異音的關(guān)鍵措施,提前預(yù)防,改善用戶體驗。任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用5.互聯(lián)網(wǎng)傳媒領(lǐng)域大數(shù)據(jù)應(yīng)用
作為國內(nèi)較大的網(wǎng)絡(luò)視頻分享平臺,愛奇藝每天處理上萬小時的新增視頻,產(chǎn)生千億條的用戶日志。海量信息內(nèi)容孕育著更多的價值,但是也為網(wǎng)絡(luò)視頻行業(yè)發(fā)展提出更高的挑戰(zhàn)。
(1)面對海量的內(nèi)容,視頻平臺需優(yōu)化生產(chǎn)和審核流程,提高內(nèi)容生產(chǎn)的效率,為用戶提供更加便捷、流暢的內(nèi)容服務(wù)。
(2)用戶面對大量信息,容易陷入選擇困難且選擇成本太高,平臺需要挑選和推薦用戶最感興趣的優(yōu)質(zhì)內(nèi)容。
(3)廣告投放過于粗獷,營銷成本過高,需要實施精準的廣告投放和精細化的商業(yè)運營。
為此,愛奇藝推出全新的智能網(wǎng)絡(luò)視頻云服務(wù)平臺,該平臺是大數(shù)據(jù)、云計算與人工智能技術(shù)深度融合在互聯(lián)網(wǎng)傳媒領(lǐng)域的重要應(yīng)用。該平臺具有功能完備的智能網(wǎng)絡(luò)視頻云服務(wù)系統(tǒng),系統(tǒng)可自動對視頻進行智能識別處理,大幅度提高生產(chǎn)效率。并通過智能算法對用戶行為大數(shù)據(jù)進行分析,產(chǎn)生用戶畫像,提供精準的個性化搜索推薦。最后,系統(tǒng)支持商業(yè)合作伙伴進行精準營銷和廣告投放,通過“閃植”和“隨視購”技術(shù),創(chuàng)新性地打通了電商系統(tǒng)和視頻系統(tǒng),實現(xiàn)“視頻內(nèi)物品所見即所買”的精準投放。任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用
愛奇藝智能網(wǎng)絡(luò)視頻云服務(wù)平臺架構(gòu)如下圖所示,架構(gòu)包擴基礎(chǔ)層、感知層、認知層、平臺層和應(yīng)用層。基礎(chǔ)層提供AI服務(wù)所需的算力、數(shù)據(jù)和基本算法,極大地降低了對本地硬件設(shè)備和軟件系統(tǒng)的要求,減少了運維成本和風(fēng)險。感知層模擬人的聽覺、視覺,實現(xiàn)語音識別、圖片識別、視頻分析以及AR/VR配準渲染等功能。認知層模擬大腦的語義理解功能,實現(xiàn)自然語言處理、知識圖譜的記憶推理和用戶畫像分析等功能,構(gòu)成愛奇藝大腦。平臺層通過開放服務(wù)接口,為應(yīng)用層的視頻創(chuàng)作、視頻生產(chǎn)、內(nèi)容分發(fā)、社交互動、商業(yè)變現(xiàn)等上層應(yīng)用賦能。任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用
應(yīng)用層中最主要的應(yīng)用系統(tǒng)為智能視頻生產(chǎn)系統(tǒng)、智能內(nèi)容分發(fā)系統(tǒng)和智能商業(yè)變現(xiàn)系統(tǒng)。
智能視頻生產(chǎn)系統(tǒng)依托自主研發(fā)基于卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetworks,CNN)的深度學(xué)習(xí)技術(shù)進行高精度明星識別、情感識別、物品識別和場景識別。
智能內(nèi)容分發(fā)系統(tǒng)是在大數(shù)據(jù)分析和人工智能技術(shù)的基礎(chǔ)上,通過研究視頻內(nèi)容和用戶的興趣偏好,進行個性化推薦。通過社交網(wǎng)絡(luò)宣發(fā)和熱點發(fā)掘,給用戶提供高質(zhì)量的個性化內(nèi)容,解決信息過載問題,更好地服務(wù)用戶的需求。
智能商業(yè)變現(xiàn)系統(tǒng)利用人工智能技術(shù)充分挖掘視頻內(nèi)容價值,包括閃植廣告、隨視購廣告、智能票房預(yù)測等系統(tǒng)。通過大數(shù)據(jù)分析,對于用戶瀏覽、點擊、購買等行為進行統(tǒng)計和監(jiān)測,可以進行用戶群體定位和商品的流行性預(yù)測,更好地指導(dǎo)商家生產(chǎn)用戶需要的流行商品,及時調(diào)整廣告的投放策略,促進電商交易。任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用6.機器翻譯領(lǐng)域大數(shù)據(jù)應(yīng)用
互聯(lián)網(wǎng)大數(shù)據(jù)給機器翻譯研究帶來新的機遇和挑戰(zhàn),使得海量翻譯知識的自動獲取和實時更新成為可能。百度公司利用人工智能和大數(shù)據(jù)技術(shù)使百度機器翻譯在海量翻譯知識獲取、翻譯模型、多語種翻譯技術(shù)等方面取得重大突破,解決了傳統(tǒng)方法研發(fā)成本高、周期長、質(zhì)量低的難題,實時準確地響應(yīng)互聯(lián)網(wǎng)海量、復(fù)雜的翻譯請求。百度機器翻譯基于大數(shù)據(jù)的互聯(lián)網(wǎng)的4項核心技術(shù)如下圖所示。任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用1)提出了基于互聯(lián)網(wǎng)大數(shù)據(jù)的翻譯模型
在此模型指導(dǎo)下,提出了自適應(yīng)訓(xùn)練和多策略解碼算法,突破了多領(lǐng)域、多文體的翻譯瓶頸,實現(xiàn)了翻譯云平臺與算法的充分優(yōu)化與融合,實時響應(yīng)每天來自全球過億次復(fù)雜多樣的翻譯請求。2)研發(fā)了基于互聯(lián)網(wǎng)大數(shù)據(jù)的高質(zhì)量翻譯知識獲取技術(shù)
突破了傳統(tǒng)翻譯知識獲取規(guī)模小、成本高的瓶頸。制訂了語言內(nèi)容處理領(lǐng)域的國際標準。3)提出了基于深度語義的語言分析和翻譯技術(shù)
突破了機器翻譯中公認的消歧和調(diào)序世界難題,在國際上首次提出了基于樹到串的句法統(tǒng)計翻譯模型,有效利用源語言句法信息解決短語泛化和長距離翻譯調(diào)序問題。4)提出了基于樞軸語言的翻譯知識橋接和模型橋接技術(shù)
突破了機器翻譯語種覆蓋度受限的瓶頸,使得資源稀缺的小語種翻譯成為可能,并實現(xiàn)了多語種翻譯的快速部署。
目前,百度機器翻譯應(yīng)用于國家多個重要部門和百度、華為、金山等超過7000個企業(yè)和第三方應(yīng)用,在翻譯質(zhì)量、翻譯語種方向、響應(yīng)時間三個指標上達到國際領(lǐng)先水平。我們經(jīng)常使用的百度翻譯就是直接運用了百度機器翻譯相關(guān)技術(shù)。任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用7.旅游領(lǐng)域大數(shù)據(jù)應(yīng)用
大數(shù)據(jù)和人工智能技術(shù)在旅游領(lǐng)域的應(yīng)用也非常廣泛。海鰻數(shù)據(jù)技術(shù)有限公司旗下有一款海鰻云旅游大數(shù)據(jù)分析平臺,該平臺基于全量外部數(shù)據(jù)(互聯(lián)網(wǎng)內(nèi)容數(shù)據(jù)、APP位置數(shù)據(jù)、消費數(shù)據(jù)等)對旅游目的地運營的各類場景提供大數(shù)據(jù)解決方案,以幫助景區(qū)提升旅游服務(wù)質(zhì)量,使游客獲得更好的旅行體驗。該平臺主要分為三個子系統(tǒng),分別是旅游情緒分析子系統(tǒng)、旅游行為分析子系統(tǒng)和涉旅消費分析子系統(tǒng)。
(1)旅游情緒分析子系統(tǒng)主要功能為輿情監(jiān)測、游客滿意度評價、景區(qū)品牌評估、媒體傳播分析等。輿情監(jiān)測數(shù)據(jù)獲取范圍覆蓋全網(wǎng)95%以上網(wǎng)站,日均過濾數(shù)據(jù)100000000+條,采用機器學(xué)習(xí)算法的語義識別和情感分析技術(shù)監(jiān)控各景區(qū)社會輿情發(fā)展趨勢。游客滿意度評價采用大數(shù)據(jù)分析技術(shù)一站式獲取全部游客評價,并生成游客滿意度分析報告。景區(qū)品牌評估利用公司自創(chuàng)的互聯(lián)網(wǎng)品牌量化算法,用品牌值評價景區(qū)影響力,生成景區(qū)價格對比、品牌值對比、美譽度對比等報表。媒體傳播分析單獨分析每個傳播節(jié)點的傳播影響力,找出最有效的營銷渠道。任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用
(2)旅游行為分析子系統(tǒng)主要功能為景區(qū)客流分析、構(gòu)建游客行為畫像、遷徙行為、景區(qū)實施熱力展現(xiàn)。景區(qū)客流分析在電子地圖上劃定圍欄,實時統(tǒng)計景區(qū)出入園人群總量,根據(jù)實時數(shù)據(jù),隨時比對景區(qū)游客承載量,臨近閾值進行預(yù)警和人員疏導(dǎo),同時應(yīng)用大數(shù)據(jù)和人工智能、機器學(xué)習(xí)算法,精準計算和預(yù)測景區(qū)未來游客量。構(gòu)建游客行為畫像則采用人口特征、來源地、消費水平等30余項旅游行業(yè)專用維
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 深圳住宅買賣合同定制
- 獸藥營銷團隊聘用合同范本
- 城市供水設(shè)施消火栓安裝協(xié)議
- 外貿(mào)托管轉(zhuǎn)讓合同范例
- 財產(chǎn)協(xié)議書(2篇)
- 拖拉機駕駛員用工合同
- 工商局建設(shè)工程設(shè)計合同范本
- 保安承包煤礦合同范例
- 工程建設(shè)合資合同范例
- 個人紅酒購銷合同范例
- 河北省健康體檢主檢醫(yī)師題庫2024年12月
- 國家開放大學(xué)《管理信息系統(tǒng)》大作業(yè)參考答案
- 2024年秋新蘇教版三年級上冊科學(xué)全冊復(fù)習(xí)資料
- 養(yǎng)殖場采購協(xié)議書
- 2023-2024部編版小學(xué)六年級《道德與法治》上冊全冊教案
- 2024年山東省高中會考數(shù)學(xué)題學(xué)業(yè)水平考試(有答案)
- GB/T 13912-2020金屬覆蓋層鋼鐵制件熱浸鍍鋅層技術(shù)要求及試驗方法
- 應(yīng)急預(yù)案評審要素表
- 九年級上冊數(shù)學(xué)知識點考點
- 研究開發(fā)費用加計扣除的鑒證報告記錄要求
- 《藥用植物學(xué)》課程標準
評論
0/150
提交評論