![《大數(shù)據(jù)技術(shù)導(dǎo)論》課件-項(xiàng)目一_第1頁(yè)](http://file4.renrendoc.com/view14/M00/13/1C/wKhkGWdqPd2AS6GPAAI1p-61u04395.jpg)
![《大數(shù)據(jù)技術(shù)導(dǎo)論》課件-項(xiàng)目一_第2頁(yè)](http://file4.renrendoc.com/view14/M00/13/1C/wKhkGWdqPd2AS6GPAAI1p-61u043952.jpg)
![《大數(shù)據(jù)技術(shù)導(dǎo)論》課件-項(xiàng)目一_第3頁(yè)](http://file4.renrendoc.com/view14/M00/13/1C/wKhkGWdqPd2AS6GPAAI1p-61u043953.jpg)
![《大數(shù)據(jù)技術(shù)導(dǎo)論》課件-項(xiàng)目一_第4頁(yè)](http://file4.renrendoc.com/view14/M00/13/1C/wKhkGWdqPd2AS6GPAAI1p-61u043954.jpg)
![《大數(shù)據(jù)技術(shù)導(dǎo)論》課件-項(xiàng)目一_第5頁(yè)](http://file4.renrendoc.com/view14/M00/13/1C/wKhkGWdqPd2AS6GPAAI1p-61u043955.jpg)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
本項(xiàng)目學(xué)習(xí)內(nèi)容包括:1.什么是大數(shù)據(jù)時(shí)代2.大數(shù)據(jù)時(shí)代產(chǎn)生的原因3.大數(shù)據(jù)時(shí)代產(chǎn)生的變革4.大數(shù)據(jù)的定義和特征5.大數(shù)據(jù)處理流程6.大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)和行業(yè)應(yīng)用7.大數(shù)據(jù)崗位需求本項(xiàng)目學(xué)習(xí)主要內(nèi)容本項(xiàng)目思維導(dǎo)圖1.大數(shù)據(jù)時(shí)代是一個(gè)以數(shù)據(jù)為核心的時(shí)代,是一個(gè)信息大爆炸的時(shí)代,我們利用互聯(lián)網(wǎng)足不出戶便知天下事,動(dòng)動(dòng)手指便能網(wǎng)上購(gòu)物,出門不用再碰運(yùn)氣等出租車。但是,我們?cè)谙硎苓@些服務(wù)的同時(shí)也貢獻(xiàn)了自己這部分微小的個(gè)人數(shù)據(jù)。2.在大數(shù)據(jù)時(shí)代,任何微小的數(shù)據(jù)都可能產(chǎn)生不可思議的價(jià)值。3.大數(shù)據(jù)時(shí)代是一個(gè)沒(méi)有隱私的時(shí)代,我們的個(gè)人數(shù)據(jù)時(shí)時(shí)刻刻都被收集著,但是同時(shí)我們也享受著各種便利服務(wù),可以說(shuō)大數(shù)據(jù)時(shí)代是一個(gè)“我為人人,人人為我”的時(shí)代。任務(wù)1-1認(rèn)識(shí)大數(shù)據(jù)時(shí)代1.1.1大數(shù)據(jù)時(shí)代1.存儲(chǔ)設(shè)備容量不斷增加(外部原因)在大數(shù)據(jù)時(shí)代,數(shù)據(jù)采集回來(lái),需要大容量的存儲(chǔ)設(shè)備進(jìn)行存儲(chǔ)。(1)在1956年,世界上第一款硬盤驅(qū)動(dòng)器RAMAC350存儲(chǔ)容量?jī)H為5MB當(dāng)今,臺(tái)式機(jī)硬盤普遍為3.5英寸大小,單塊硬盤存儲(chǔ)容量可達(dá)TB數(shù)量級(jí)。(2)1987年,東芝公司發(fā)布的第一款基于NADA閃存的存儲(chǔ)卡容量?jī)H為40MB。而現(xiàn)在,SD卡容量已經(jīng)提升至128GB。任務(wù)1-1認(rèn)識(shí)大數(shù)據(jù)時(shí)代1.1.2大數(shù)據(jù)時(shí)代產(chǎn)生的原因2.CPU處理能力大幅提升(外部原因)在大數(shù)據(jù)時(shí)代,數(shù)據(jù)采集回來(lái),需要快速處理,給出反饋。這就要求CPU具有高效的數(shù)據(jù)處理能力。隨著信息技術(shù)的發(fā)展,單個(gè)CPU上晶體管的密度逐漸增加,CPU處理能力得到大幅提升。任務(wù)1-1認(rèn)識(shí)大數(shù)據(jù)時(shí)代3.網(wǎng)絡(luò)帶寬不斷增加(外部原因)在大數(shù)據(jù)時(shí)代,有可能數(shù)據(jù)采集和數(shù)據(jù)存儲(chǔ)、處理并不是同一個(gè)地方,地域跨度大。數(shù)據(jù)傳輸必須要用到網(wǎng)絡(luò),就要求網(wǎng)絡(luò)的數(shù)據(jù)傳輸效率要快,5G的產(chǎn)生進(jìn)一步提高了網(wǎng)絡(luò)的數(shù)據(jù)傳輸效率,任務(wù)1-1認(rèn)識(shí)大數(shù)據(jù)時(shí)代4.數(shù)據(jù)產(chǎn)生方式的巨大變化(本質(zhì)原因)人類社會(huì)的數(shù)據(jù)產(chǎn)生方式大致經(jīng)歷了3個(gè)階段。任務(wù)1-1認(rèn)識(shí)大數(shù)據(jù)時(shí)代1.科學(xué)研究的變革人類科學(xué)研究活動(dòng)已經(jīng)歷過(guò)四種不同范式的演變過(guò)程。任務(wù)1-1認(rèn)識(shí)大數(shù)據(jù)時(shí)代1.1.3大數(shù)據(jù)時(shí)代產(chǎn)生的變革(1)
第一范式第一范式是指原始社會(huì)的“實(shí)驗(yàn)科學(xué)范式”。實(shí)驗(yàn)科學(xué)就是對(duì)有限的客觀自然對(duì)象進(jìn)行觀察、總結(jié)、提煉,用實(shí)驗(yàn)法、歸納法找出其中的科學(xué)規(guī)律。在第一范式中,一切真理都必須以大量確鑿的事實(shí)材料為依據(jù),先觀察,進(jìn)而假設(shè),再根據(jù)假設(shè)進(jìn)行實(shí)驗(yàn)。如果實(shí)驗(yàn)的結(jié)果與假設(shè)不符合,則修正假設(shè)再實(shí)驗(yàn)。實(shí)驗(yàn)科學(xué)的典范有很多,例如伽利略提出的物理學(xué)定律,牛頓的經(jīng)典力學(xué)、哈維的血液循環(huán)學(xué)說(shuō)等。任務(wù)1-1認(rèn)識(shí)大數(shù)據(jù)時(shí)代(2)
第二范式第二范式是指以模型和歸納為特征的“理論科學(xué)范式”。理論科學(xué)研究偏重理論總結(jié)和理性概括,強(qiáng)調(diào)抽象化的理論認(rèn)識(shí)而不是實(shí)用性科學(xué)。理論科學(xué)的研究方法以演繹法為主,理論科學(xué)的主要研究模型是對(duì)數(shù)學(xué)模型的演繹推理,而數(shù)學(xué)模型包含了大量的數(shù)學(xué)公式。理論科學(xué)的研究過(guò)程就是對(duì)大量數(shù)學(xué)公式的推理過(guò)程。第二范式也產(chǎn)生了很多科學(xué)典范。例如牛頓三大定律、麥克斯韋方程組、數(shù)學(xué)中的概率論、物理學(xué)中的相對(duì)論、計(jì)算機(jī)科學(xué)中的算法信息論等。任務(wù)1-1認(rèn)識(shí)大數(shù)據(jù)時(shí)代(3)
第三范式第三范式是指計(jì)算科學(xué)階段的“計(jì)算科學(xué)范式”。計(jì)算科學(xué)的主要研究模型是計(jì)算機(jī)仿真和模擬。面對(duì)大量的復(fù)雜現(xiàn)象,傳統(tǒng)的歸納法和演繹法難以滿足需求,科學(xué)現(xiàn)象越復(fù)雜,歸納和演繹時(shí)計(jì)算數(shù)據(jù)量也越大。在20世紀(jì)中期,約翰·馮·諾依曼(JohnvonNeumann)提出了現(xiàn)代電子計(jì)算機(jī)架構(gòu),使的人從繁重的計(jì)算工作中解脫出來(lái),大大提高了工作效率。在實(shí)際應(yīng)用中,計(jì)算科學(xué)應(yīng)用領(lǐng)域非常廣泛,例如地震、海嘯和其他自然災(zāi)害的模擬、仿真和預(yù)測(cè);復(fù)雜網(wǎng)絡(luò)模型的建模;計(jì)算和數(shù)學(xué)優(yōu)化等。任務(wù)1-1認(rèn)識(shí)大數(shù)據(jù)時(shí)代(4)第四范式“第四范式”是指“數(shù)據(jù)密集型科學(xué)范式”。隨著數(shù)據(jù)的爆炸性增長(zhǎng),計(jì)算機(jī)將不僅僅能做簡(jiǎn)單的模擬仿真,還能對(duì)海量數(shù)據(jù)進(jìn)行分析總結(jié),得到科學(xué)理論。在數(shù)據(jù)密集型科學(xué)范式中,科學(xué)研究人員只需要從大數(shù)據(jù)中查找和挖掘所需要的信息和知識(shí),然后通過(guò)計(jì)算得出之前未知的理論。數(shù)據(jù)科學(xué)范式典型范例包括幾乎所有的大數(shù)據(jù)和人工智能應(yīng)用場(chǎng)景。尤其是當(dāng)前火熱的新一代人工智能研究。一些在過(guò)去認(rèn)為非常難以解決的智能問(wèn)題,會(huì)因?yàn)榇髷?shù)據(jù)技術(shù)的使用而迎刃而解,任務(wù)1-1認(rèn)識(shí)大數(shù)據(jù)時(shí)代2.思維方式的變革(1)全量,而非抽樣對(duì)某事物進(jìn)行研究時(shí),分析與某事物相關(guān)的全量數(shù)據(jù),而不是依靠抽樣分析少量的數(shù)據(jù)樣本。過(guò)去計(jì)算機(jī)的存儲(chǔ)和計(jì)算能力有限,人們只能通過(guò)抽樣的方式從某個(gè)大范圍的群體中隨機(jī)抽取極少數(shù)的一部分樣本來(lái)代表所有,數(shù)理統(tǒng)計(jì)學(xué)理論就是基于這個(gè)發(fā)展起來(lái)的。隨機(jī)抽樣調(diào)查能夠在某個(gè)范圍內(nèi)對(duì)局部數(shù)據(jù)的特征進(jìn)行分析,從而以點(diǎn)帶面反應(yīng)整個(gè)數(shù)據(jù)的特征。但是在抽樣的過(guò)程中如何保證抽樣的隨機(jī)性和準(zhǔn)確性,是一項(xiàng)具有挑戰(zhàn)性的問(wèn)題。抽樣同時(shí)也會(huì)忽略一些數(shù)據(jù)之間的細(xì)節(jié)信息,甚至還會(huì)失去對(duì)某些特定子類的進(jìn)一步研究機(jī)會(huì)。任務(wù)1-1認(rèn)識(shí)大數(shù)據(jù)時(shí)代(2)不求數(shù)據(jù)精度,求發(fā)展趨勢(shì)在大數(shù)據(jù)時(shí)代,我們不再追求數(shù)據(jù)的精確性,而更關(guān)注數(shù)據(jù)的未來(lái)發(fā)展趨勢(shì)。過(guò)去,對(duì)于數(shù)據(jù)隨機(jī)抽樣得到的樣本屬于“小數(shù)據(jù)”,對(duì)小數(shù)據(jù)分析要盡可能的減少錯(cuò)誤,提高質(zhì)量。在數(shù)據(jù)抽樣時(shí),因?yàn)槭占男畔⒘勘容^少,細(xì)微的錯(cuò)誤會(huì)被放大,甚至有可能影響整個(gè)結(jié)果的準(zhǔn)確性。所以我們必須確保數(shù)據(jù)分析結(jié)果盡量精確。為了使結(jié)果更加準(zhǔn)確,我們就必須做很多額外的工作例如優(yōu)化測(cè)量的工具,優(yōu)化建模算法等。而現(xiàn)在由于計(jì)算和存儲(chǔ)能力得到增強(qiáng),可以對(duì)整個(gè)全量數(shù)據(jù)進(jìn)行分析。我們更關(guān)注整個(gè)數(shù)據(jù)粗粒度的特性和發(fā)展趨勢(shì),而不關(guān)注具體某個(gè)數(shù)據(jù)的特性。因?yàn)樵诤A繑?shù)據(jù)中,少部分異常數(shù)據(jù)或不準(zhǔn)確數(shù)據(jù),并不會(huì)改變整個(gè)數(shù)據(jù)的發(fā)展趨勢(shì)和規(guī)律,影響最終的數(shù)據(jù)分析結(jié)果。任務(wù)1-1認(rèn)識(shí)大數(shù)據(jù)時(shí)代(3)重相關(guān)輕因果在大數(shù)據(jù)時(shí)代,我們不再關(guān)注數(shù)據(jù)之間因果關(guān)系,而是關(guān)注數(shù)據(jù)之間的相關(guān)關(guān)系。我們只要知道“是什么”,而不需要知道“為什么”。我們不必自己去挖掘現(xiàn)象背后的原因,而是要讓數(shù)據(jù)自己展現(xiàn)出來(lái)。例如,一個(gè)人生病了,相關(guān)的因素很多,我們可以通過(guò)關(guān)聯(lián)因素推測(cè)出可能生病的原因。任務(wù)1-1認(rèn)識(shí)大數(shù)據(jù)時(shí)代
數(shù)據(jù)是指對(duì)對(duì)客觀事物的性質(zhì)、狀態(tài)以及相互關(guān)系等進(jìn)行記載的物理符號(hào)或這些物理符號(hào)的組合,這些符號(hào)是可識(shí)別的、抽象的。數(shù)據(jù)可以是具有一定意義的文字、字母、數(shù)字符號(hào),也可以是圖形、圖像、視頻、音頻,也可以是一些抽象表示。例如,“0、1、2...`”、“陰、雨、晴”等都是數(shù)據(jù)。
在計(jì)算機(jī)科學(xué)中,數(shù)據(jù)是指所有能輸入到計(jì)算機(jī)并被計(jì)算機(jī)程序處理的符號(hào)的總稱,例如數(shù)字、字母、符號(hào)等。現(xiàn)在計(jì)算機(jī)存儲(chǔ)和處理的數(shù)據(jù)種類繁多,數(shù)據(jù)的表達(dá)方式也隨來(lái)越多樣化。計(jì)算機(jī)中,數(shù)據(jù)的最小的基本單位是bit,按照進(jìn)率1024(2的十次方)來(lái)計(jì)算。任務(wù)1-2掌握大數(shù)據(jù)基本特征和處理流程1.2.1數(shù)據(jù)的定義和分類
顧名思義,大數(shù)據(jù)指的是海量的數(shù)據(jù)或巨量的數(shù)據(jù)。究竟大到多少才算是大數(shù)據(jù)?根據(jù)維基百科的定義,大數(shù)據(jù)的大小從TB級(jí)別到PB級(jí)別(1PB=1024TB,1TB=1024GB)不等。然而,到目前為止,尚未有一個(gè)公認(rèn)的標(biāo)準(zhǔn)來(lái)界定“大數(shù)據(jù)”的大小。換句話說(shuō),“大”只是表示數(shù)據(jù)容量大,但并不具體。
麥肯錫全球研究所給出了大數(shù)據(jù)的另外一種定義,把大數(shù)據(jù)定義為一種規(guī)模大到在獲取、存儲(chǔ)、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫(kù)軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價(jià)值密度低四大特征,從這里我們可以得出一個(gè)結(jié)論就是大數(shù)據(jù)無(wú)法用傳統(tǒng)的數(shù)據(jù)處理分析工具來(lái)進(jìn)行處理,必須使用其他方式處理。任務(wù)1-2掌握大數(shù)據(jù)基本特征和處理流程1.2.2什么是大數(shù)據(jù)
大數(shù)據(jù)歸納起來(lái)有5個(gè)特征,俗稱4“V”+1“O”。4“V”指的是:(1)Volume(數(shù)據(jù)量大)(2)Variety(數(shù)據(jù)類型繁多)(3)Velocity(處理速度快)(4)Value(價(jià)值密度低)。
1“O”指的是Online(在線)。任務(wù)1-2掌握大數(shù)據(jù)基本特征和處理流程1.2.3大數(shù)據(jù)的特征(1)數(shù)據(jù)量大大數(shù)據(jù)的特征首先就體現(xiàn)為“大”,在早期,數(shù)據(jù)的存儲(chǔ)單位是B、KB、MB,一個(gè)MB的數(shù)據(jù)文件就覺(jué)得非常大了,然而隨著時(shí)間的推移,信息技術(shù)的高速發(fā)展使得數(shù)據(jù)開(kāi)始爆發(fā)性增長(zhǎng)。數(shù)據(jù)存儲(chǔ)單位從過(guò)去的MB到GB、TB,甚至是PB、EB級(jí)別。2020年全球總數(shù)據(jù)量為44ZB,到2035年全球總數(shù)據(jù)量將達(dá)到20000ZB。任務(wù)1-2掌握大數(shù)據(jù)基本特征和處理流程任務(wù)1-2掌握大數(shù)據(jù)基本特征和處理流程(2)數(shù)據(jù)類型繁多大數(shù)據(jù)形式多種多樣,數(shù)據(jù)來(lái)源廣。包括文字、圖片、視頻、音頻、社交數(shù)據(jù)、地理數(shù)據(jù)等,(3)處理速度快大數(shù)據(jù)時(shí)代,我們每天都產(chǎn)生大量數(shù)據(jù),數(shù)據(jù)的產(chǎn)生速度非常快,數(shù)據(jù)主要通過(guò)互聯(lián)網(wǎng)傳輸。這些數(shù)據(jù)是需要快速處理并挖掘其價(jià)值,若該數(shù)據(jù)價(jià)值太小,則丟棄,如果該數(shù)據(jù)具有存儲(chǔ)價(jià)值,則存儲(chǔ)在數(shù)據(jù)庫(kù)中。因?yàn)槠髽I(yè)花費(fèi)大量資本去存儲(chǔ)作用較小的歷史數(shù)據(jù)是非常不劃算的,對(duì)于一個(gè)業(yè)務(wù)平臺(tái)而言,一般保存的數(shù)據(jù)只有過(guò)去幾天或者一個(gè)月之內(nèi),再遠(yuǎn)的數(shù)據(jù)就要及時(shí)清理。如此快速的數(shù)據(jù)產(chǎn)生速度,必須要匹配快速的數(shù)據(jù)處理平臺(tái)。大數(shù)據(jù)處理平臺(tái)對(duì)處理速度有非常嚴(yán)格的要求,服務(wù)器中大量的資源都用于處理和計(jì)算數(shù)據(jù),很多平臺(tái)都需要做到實(shí)時(shí)分析。因?yàn)?,?shù)據(jù)無(wú)時(shí)無(wú)刻不在產(chǎn)生,誰(shuí)的處理速度更快,誰(shuí)占的先機(jī)。任務(wù)1-2掌握大數(shù)據(jù)基本特征和處理流程(4)價(jià)值密度低,商業(yè)價(jià)值高這也是大數(shù)據(jù)的核心特征?,F(xiàn)實(shí)世界所產(chǎn)生的數(shù)據(jù)量非常大,但是有價(jià)值的數(shù)據(jù)所占比例很小。大數(shù)據(jù)最大的價(jià)值在于通過(guò)對(duì)大量不相關(guān)的各種類型的數(shù)據(jù)挖掘,預(yù)測(cè)出數(shù)據(jù)未來(lái)發(fā)展趨勢(shì),輔助人工決策。目前,數(shù)據(jù)挖掘主要通過(guò)機(jī)器學(xué)習(xí)、人工智能相關(guān)算法進(jìn)行。大數(shù)據(jù)挖掘就是沙里淘金,為了淘到一點(diǎn)金子,你必須要擁有足夠多的沙子。任務(wù)1-2掌握大數(shù)據(jù)基本特征和處理流程(5)實(shí)時(shí)在線(Online)大數(shù)據(jù)是要能夠?qū)崟r(shí)分析計(jì)算的,實(shí)時(shí)性一般要求比較高,時(shí)延要達(dá)到秒級(jí)。這是大數(shù)據(jù)處理區(qū)別于傳統(tǒng)數(shù)據(jù)處理最大的特征。大數(shù)據(jù)處理不僅是數(shù)據(jù)的數(shù)量級(jí)大,更重要的是數(shù)據(jù)處理的實(shí)時(shí)性。例如嘀嘀打車,客戶的數(shù)據(jù)和出租司機(jī)數(shù)據(jù)都是實(shí)時(shí)在線顯示的。對(duì)于環(huán)境監(jiān)測(cè)數(shù)據(jù),數(shù)據(jù)實(shí)時(shí)處理才能顯示數(shù)據(jù)的價(jià)值,如果收集到的數(shù)據(jù)要離線處理那就沒(méi)有什么意義了。任務(wù)1-2掌握大數(shù)據(jù)基本特征和處理流程
大數(shù)據(jù)處理流程分為五步,分別是數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)計(jì)算、數(shù)據(jù)分析、數(shù)據(jù)可視化。任務(wù)1-2掌握大數(shù)據(jù)基本特征和處理流程1.2.4大數(shù)據(jù)處理流程(1)數(shù)據(jù)采集
數(shù)據(jù)采集是大數(shù)據(jù)處理的第一步。大數(shù)據(jù)處理首先要爭(zhēng)對(duì)業(yè)務(wù)需求收集到大量原始數(shù)據(jù),數(shù)據(jù)是基石,沒(méi)有數(shù)據(jù)后續(xù)過(guò)程就無(wú)從談起了。(2)數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理是大數(shù)據(jù)處理的第二步。由于采集到的原始數(shù)據(jù)有可能不完整或存在臟數(shù)據(jù),這些問(wèn)題可能導(dǎo)致后續(xù)數(shù)據(jù)處理流程的未知錯(cuò)誤。為了提高數(shù)據(jù)質(zhì)量,我們需要對(duì)原始數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,例如數(shù)據(jù)清理,數(shù)據(jù)集成,數(shù)據(jù)變換,數(shù)據(jù)歸約等,數(shù)據(jù)采集和數(shù)據(jù)預(yù)處理的相關(guān)知識(shí)將在第三章介紹。(3)數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)計(jì)算
數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)計(jì)算是大數(shù)據(jù)處理的第三步。至于數(shù)據(jù)是先存儲(chǔ)還是先計(jì)算要根據(jù)具體應(yīng)用場(chǎng)景而定,如果是批量計(jì)算,一般數(shù)據(jù)先存儲(chǔ)然后進(jìn)行離線批量計(jì)算。如果是在線實(shí)時(shí)計(jì)算,一般先進(jìn)行數(shù)據(jù)計(jì)算,根據(jù)計(jì)算出的結(jié)果選擇是否存儲(chǔ)該數(shù)據(jù)。數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)計(jì)算后的數(shù)據(jù)是為后續(xù)數(shù)據(jù)分析和數(shù)據(jù)可視化服務(wù)的。大數(shù)據(jù)計(jì)算需要用到一些特定的計(jì)算框架,大數(shù)據(jù)存儲(chǔ)一般存放在分布式文件系統(tǒng)或非關(guān)系數(shù)據(jù)庫(kù)中。數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)計(jì)算相關(guān)內(nèi)容將在第四章介紹。任務(wù)1-2掌握大數(shù)據(jù)基本特征和處理流程(4)數(shù)據(jù)分析
數(shù)據(jù)分析是大數(shù)據(jù)處理的第四步,數(shù)據(jù)分析分為兩個(gè)層面,比較基礎(chǔ)的數(shù)據(jù)分析主要是利用分布式數(shù)據(jù)庫(kù)和分布式計(jì)算集群來(lái)對(duì)存儲(chǔ)于其內(nèi)的海量數(shù)據(jù)進(jìn)行普通的統(tǒng)計(jì)分析和分類匯總等。而較高層次的數(shù)據(jù)分析會(huì)利用到一些數(shù)據(jù)挖掘算法來(lái)挖掘數(shù)據(jù)的隱藏價(jià)值和規(guī)律。(5)數(shù)據(jù)可視化
數(shù)據(jù)可視化是大數(shù)據(jù)處理的最后一步,數(shù)據(jù)分析的結(jié)果往往比較難懂、過(guò)于抽象,這時(shí)就需要把數(shù)據(jù)分析結(jié)果以圖表、動(dòng)畫(huà)、仿真模型等方式呈現(xiàn)。使外界易于理解。數(shù)據(jù)分析和數(shù)據(jù)可視化相關(guān)內(nèi)容將在第六章介紹。任務(wù)1-2掌握大數(shù)據(jù)基本特征和處理流程任務(wù)1-3回顧大數(shù)據(jù)技術(shù)發(fā)展歷程大數(shù)據(jù)發(fā)展歷程
2015年8月,國(guó)務(wù)院頒布《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》,大數(shù)據(jù)技術(shù)發(fā)展上升為國(guó)家戰(zhàn)略層面。2016年,工信部印發(fā)了《大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃(2016-2020年)》,引發(fā)了我國(guó)大數(shù)據(jù)產(chǎn)業(yè)建設(shè)的高峰。中國(guó)大數(shù)據(jù)產(chǎn)業(yè)規(guī)模發(fā)展曲線如圖1-23所示,從圖中可以看出,2018年,中國(guó)大數(shù)據(jù)產(chǎn)業(yè)規(guī)模為4384.5億元,同比增長(zhǎng)23.5%。到2021年,中國(guó)大數(shù)據(jù)產(chǎn)業(yè)規(guī)模預(yù)計(jì)將超過(guò)8000億元,發(fā)展?jié)摿薮?。京津冀、珠三角和華東沿海地區(qū)成為大數(shù)據(jù)企業(yè)的主要集中地。任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用1.4.1大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)
目前,我國(guó)已建成京津冀、珠三角、上海、河南、重慶、沈陽(yáng)和內(nèi)蒙古八大大數(shù)據(jù)綜合試驗(yàn)區(qū),建立了100多個(gè)大數(shù)據(jù)產(chǎn)業(yè)園。大數(shù)據(jù)綜合試驗(yàn)區(qū)的成立,對(duì)國(guó)家大數(shù)據(jù)開(kāi)放共享、大數(shù)據(jù)應(yīng)用創(chuàng)新、大數(shù)據(jù)產(chǎn)業(yè)集聚等方面起到重要促進(jìn)作用。大數(shù)據(jù)產(chǎn)業(yè)園成為集聚大數(shù)據(jù)產(chǎn)業(yè)資源的重要載體。伴隨人工智能、云計(jì)算、物聯(lián)網(wǎng)、5G等新一代信息技術(shù)的發(fā)展,大數(shù)據(jù)的產(chǎn)業(yè)支撐得到強(qiáng)化,行業(yè)應(yīng)用范圍加速拓展,產(chǎn)業(yè)規(guī)模將進(jìn)一步實(shí)現(xiàn)爆發(fā)式增長(zhǎng)。2018年大數(shù)據(jù)產(chǎn)業(yè)園區(qū)綜合發(fā)展實(shí)力TOP10如右圖所示。任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用2018年大數(shù)據(jù)產(chǎn)業(yè)園區(qū)綜合發(fā)展實(shí)力TOP10排名園區(qū)名稱地區(qū)城市1中關(guān)村大數(shù)據(jù)產(chǎn)業(yè)園北京北京2貴安綜保區(qū)電子信息產(chǎn)業(yè)園貴州貴安新區(qū)3上海市北高新技術(shù)服務(wù)園上海上海4仙桃國(guó)際大數(shù)據(jù)谷重慶重慶5鹽城市大數(shù)據(jù)產(chǎn)業(yè)園江蘇鹽城6東南大數(shù)據(jù)產(chǎn)業(yè)園福建福州7廊坊開(kāi)發(fā)區(qū)大數(shù)據(jù)產(chǎn)業(yè)園河北廊坊8佛山市南海區(qū)大數(shù)據(jù)產(chǎn)業(yè)園廣東佛山9廈門軟件園福建廈門10承德德鳴大數(shù)據(jù)產(chǎn)業(yè)園河北承德
目前,我國(guó)大數(shù)據(jù)整體產(chǎn)業(yè)分為可分為6個(gè)層次,分別為硬件設(shè)施、基礎(chǔ)服務(wù)、數(shù)據(jù)來(lái)源、技術(shù)開(kāi)發(fā)、融合應(yīng)用及產(chǎn)業(yè)支撐。任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用表1-2大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)產(chǎn)業(yè)結(jié)構(gòu)具體內(nèi)容硬件設(shè)施數(shù)據(jù)采集設(shè)備傳感器、數(shù)據(jù)采集設(shè)備、I/O終端、交互設(shè)備等數(shù)據(jù)傳輸設(shè)備交換機(jī)、路由器等各種數(shù)據(jù)通信和傳輸設(shè)備等數(shù)據(jù)計(jì)算存儲(chǔ)設(shè)備芯片、硬盤、服務(wù)器、一體化計(jì)算機(jī)等設(shè)備集成硬件設(shè)備的集成安裝和調(diào)式基礎(chǔ)服務(wù)數(shù)據(jù)傳輸網(wǎng)絡(luò)服務(wù)電信運(yùn)營(yíng)及運(yùn)維服務(wù)等數(shù)據(jù)云平臺(tái)服務(wù)基礎(chǔ)設(shè)施托管租用服務(wù)、平臺(tái)租用服務(wù)、軟件租用服務(wù)等數(shù)據(jù)系統(tǒng)開(kāi)發(fā)服務(wù)架構(gòu)設(shè)計(jì)、個(gè)性化定制開(kāi)發(fā)等數(shù)據(jù)來(lái)源政府?dāng)?shù)據(jù)、行業(yè)數(shù)據(jù)、企業(yè)數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)、物聯(lián)網(wǎng)數(shù)據(jù)、第三方數(shù)據(jù)等技術(shù)開(kāi)發(fā)數(shù)據(jù)管理數(shù)據(jù)庫(kù)管理、數(shù)據(jù)集成、元數(shù)據(jù)管理、數(shù)據(jù)清洗等數(shù)據(jù)技術(shù)研究基礎(chǔ)技術(shù)研究:數(shù)據(jù)計(jì)算和存儲(chǔ)、基礎(chǔ)算法研究等應(yīng)用技術(shù)研究:圖像處理、語(yǔ)音識(shí)別、空間地理、社交輿情等數(shù)據(jù)安全數(shù)據(jù)監(jiān)管、數(shù)據(jù)加密、數(shù)據(jù)認(rèn)證等融合應(yīng)用工業(yè)、農(nóng)業(yè)、政府、醫(yī)療、交通、金融、互聯(lián)網(wǎng)、電信、環(huán)保等行業(yè)應(yīng)用和解決方案產(chǎn)業(yè)支撐數(shù)據(jù)評(píng)估中心、數(shù)據(jù)交易中心、科研機(jī)構(gòu)、孵化機(jī)構(gòu)、行業(yè)聯(lián)盟等。
現(xiàn)階段我國(guó)大數(shù)據(jù)產(chǎn)業(yè)細(xì)分領(lǐng)域包括硬件、軟件、服務(wù)以及數(shù)據(jù)安全4個(gè)領(lǐng)域。任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用1.大數(shù)據(jù)硬件
大數(shù)據(jù)硬件是指數(shù)據(jù)的產(chǎn)生、采集、存儲(chǔ)、計(jì)算處理、應(yīng)用等一系列與大數(shù)據(jù)產(chǎn)業(yè)環(huán)節(jié)相關(guān)的硬件設(shè)備,包括傳感器、數(shù)據(jù)傳輸設(shè)備、數(shù)據(jù)計(jì)算與存儲(chǔ)設(shè)備、數(shù)據(jù)安全設(shè)備等。據(jù)數(shù)據(jù)存儲(chǔ)公司希捷預(yù)計(jì)到2025年,中國(guó)產(chǎn)生的數(shù)據(jù)總量將首次超過(guò)美國(guó)產(chǎn)生的數(shù)據(jù)總量,達(dá)到48.6ZB。數(shù)據(jù)總量的快速增長(zhǎng)將持續(xù)推動(dòng)數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)處理等硬件市場(chǎng)需求。據(jù)中國(guó)電子信息產(chǎn)業(yè)發(fā)展研究院賽迪顧問(wèn)編寫的《2019-2021年大數(shù)據(jù)市場(chǎng)預(yù)測(cè)與展望數(shù)據(jù)》統(tǒng)計(jì),2019年,中國(guó)大數(shù)據(jù)硬件市場(chǎng)規(guī)模為2541.7億元,同比增長(zhǎng)13.2%,預(yù)計(jì)到2021年,中國(guó)大數(shù)據(jù)硬件市場(chǎng)規(guī)模將達(dá)到3150.3億元。任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用2.大數(shù)據(jù)軟件
大數(shù)據(jù)軟件是指用于實(shí)現(xiàn)數(shù)據(jù)采集、數(shù)據(jù)計(jì)算、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)分析挖掘和數(shù)據(jù)可視化展示的各類軟件。大數(shù)據(jù)軟件主要包括大數(shù)據(jù)采集軟件、大數(shù)據(jù)計(jì)算軟件、大數(shù)據(jù)分析和可視化軟件、大數(shù)據(jù)存儲(chǔ)軟件、大數(shù)據(jù)平臺(tái)架構(gòu)和運(yùn)維監(jiān)控軟件、大數(shù)據(jù)工具軟件和應(yīng)用軟件等。任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用
據(jù)中國(guó)電子信息產(chǎn)業(yè)發(fā)展研究院賽迪顧問(wèn)編寫的《2019-2021年大數(shù)據(jù)市場(chǎng)預(yù)測(cè)與展望數(shù)據(jù)》統(tǒng)計(jì),2019年,中國(guó)大數(shù)據(jù)軟件市場(chǎng)規(guī)模約為1062.7億元,同比增長(zhǎng)29.2%,預(yù)計(jì)到2021年,大數(shù)據(jù)軟件市場(chǎng)規(guī)模將達(dá)到1731.9.億元。任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用3.大數(shù)據(jù)服務(wù)
大數(shù)據(jù)服務(wù)主要包括大數(shù)據(jù)查詢分析服務(wù)、大數(shù)據(jù)交易服務(wù)、大數(shù)據(jù)安全服務(wù)等。目前,大數(shù)據(jù)服務(wù)大多依托云平臺(tái)進(jìn)行開(kāi)展。由于大數(shù)據(jù)應(yīng)用場(chǎng)景眾多,各應(yīng)用場(chǎng)景結(jié)合自身需求對(duì)提供服務(wù)的性能要求是不同的,一些典型的大數(shù)據(jù)服務(wù)應(yīng)用性能要求對(duì)比如下表所示。任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用典型的大數(shù)據(jù)服務(wù)應(yīng)用性能要求對(duì)比所在領(lǐng)域應(yīng)用實(shí)例用戶開(kāi)發(fā)度響應(yīng)時(shí)間要求可靠性要求準(zhǔn)確度要求科學(xué)計(jì)算航天數(shù)據(jù)計(jì)算小低適中非常高金融股票交易系統(tǒng)大非??旆浅8叻浅8呱缃痪W(wǎng)絡(luò)Facebook非常大快高高移動(dòng)數(shù)據(jù)手機(jī)應(yīng)用非常大快高高物聯(lián)網(wǎng)傳感器大快高高多媒體視頻服務(wù)非常大快高中等
據(jù)中國(guó)電子信息產(chǎn)業(yè)發(fā)展研究院賽迪顧問(wèn)編寫的《2019-2021年大數(shù)據(jù)市場(chǎng)預(yù)測(cè)與展望數(shù)據(jù)》統(tǒng)計(jì),2019年,中國(guó)大數(shù)據(jù)服務(wù)市場(chǎng)規(guī)模約為1781.8億元,同比增長(zhǎng)35.3%,預(yù)計(jì)到2021年,中國(guó)大數(shù)據(jù)服務(wù)市場(chǎng)規(guī)模將達(dá)到3188.3億元。任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用4.大數(shù)據(jù)安全
大數(shù)據(jù)安全是指用以搭建大數(shù)據(jù)平臺(tái)所需的安全產(chǎn)品和服務(wù),以及對(duì)大數(shù)據(jù)全生命周期的安全防護(hù)等。主要包括大數(shù)據(jù)平臺(tái)安全、大數(shù)據(jù)安全防護(hù)和大數(shù)據(jù)隱私保護(hù)等。涉及具體的數(shù)據(jù)安全防護(hù)技術(shù)有數(shù)據(jù)資產(chǎn)梳理(敏感數(shù)據(jù)、數(shù)據(jù)庫(kù)等進(jìn)行梳理)、數(shù)據(jù)庫(kù)加密(核心數(shù)據(jù)存儲(chǔ)加密)、數(shù)據(jù)庫(kù)安全運(yùn)維(防運(yùn)維人員惡意和高危操作)、數(shù)據(jù)脫敏(敏感數(shù)據(jù)匿名化)、數(shù)據(jù)庫(kù)漏掃(數(shù)據(jù)安全脆弱性檢測(cè))等。據(jù)中國(guó)電子信息產(chǎn)業(yè)發(fā)展研究院賽迪顧問(wèn)數(shù)據(jù)統(tǒng)計(jì),2019年我國(guó)大數(shù)據(jù)安全行業(yè)市場(chǎng)規(guī)模約為38.3億元,同比增長(zhǎng)30.5%,預(yù)計(jì)到2021年,中國(guó)大數(shù)據(jù)服務(wù)市場(chǎng)規(guī)模將達(dá)到69.7億元。任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用1.云計(jì)算簡(jiǎn)介
云計(jì)算是指互聯(lián)網(wǎng)企業(yè)通過(guò)網(wǎng)絡(luò)、以提供服務(wù)的方式,為政府、行業(yè)業(yè)和個(gè)人提供非常廉價(jià)的IT資源,用以完成僅依靠自身資源無(wú)法完成的復(fù)雜任務(wù)。云計(jì)算本質(zhì)就是一種提供資源的網(wǎng)絡(luò),使用者只要連上互聯(lián)網(wǎng)就可以隨時(shí)獲取“云”端的各種資源,為我所用。使用者只要按使用量付費(fèi)就可以繼續(xù)使用“云”端資源,“云”就好比自來(lái)水廠一樣,我們可以隨時(shí)無(wú)限量用水,只需要定時(shí)按照自己的用水量,付費(fèi)給自來(lái)水廠就可以。任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用1.4.2大數(shù)據(jù)、云計(jì)算、人工智能、物聯(lián)網(wǎng)深度融合
為什么云計(jì)算會(huì)興起?因?yàn)闊o(wú)論對(duì)于政府、企業(yè)還是個(gè)人來(lái)說(shuō),自身所擁有的資源都是有限的,如果要去做一件事而自己沒(méi)有資源怎么辦?
以此類推,如果一家中小型企業(yè)有大量數(shù)據(jù)運(yùn)算需求的,而沒(méi)有計(jì)算資源怎么辦?一種辦法就是公司購(gòu)置多臺(tái)服務(wù)器,甚至建立一個(gè)具有多臺(tái)服務(wù)器的數(shù)據(jù)中心。但是數(shù)據(jù)中心的建設(shè)和運(yùn)營(yíng)維護(hù)成本太高,中小型企業(yè)難以承擔(dān)的。而大型互聯(lián)網(wǎng)企業(yè)往往建有大型數(shù)據(jù)中心,擁有大量閑置的服務(wù)器和存儲(chǔ)設(shè)備,這些資源又無(wú)法提供給外界使用,產(chǎn)生經(jīng)濟(jì)效益。于是人們就設(shè)想能不能建立一個(gè)網(wǎng)絡(luò),讓大型互聯(lián)網(wǎng)企業(yè)能夠把閑置的資源像實(shí)體商品一樣放在網(wǎng)絡(luò)上供需要資源的政府部門、中小企業(yè)和個(gè)人使用,并按照資源使用量收取一定費(fèi)用。于是云計(jì)算便應(yīng)運(yùn)而生了。云計(jì)算產(chǎn)業(yè)提供的服務(wù)類型分為三類,即基礎(chǔ)設(shè)施即服務(wù)(InfrastructureasaService,IaaS)、平臺(tái)即服務(wù)(PlatformasaService,PaaS)和軟件即服務(wù)(SoftwareasaService,SaaS)。任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用2.人工智能簡(jiǎn)介
人工智能是利用數(shù)字計(jì)算機(jī)或數(shù)字計(jì)算機(jī)控制的人工制造產(chǎn)品模擬、延伸和擴(kuò)展人的智能,感知環(huán)境、獲取知識(shí)并使用知識(shí)獲得最佳結(jié)果的理論、方法、技術(shù)及應(yīng)用系統(tǒng)。人工智能是一門前沿綜合性學(xué)科,它融合了計(jì)算機(jī)科學(xué)、統(tǒng)計(jì)學(xué)、腦神經(jīng)學(xué)和社會(huì)科學(xué)等多個(gè)前沿學(xué)科。目前,人工智能主要被用來(lái)代替人類實(shí)現(xiàn)識(shí)別、認(rèn)知、分析、決策等多種功能,歸納起來(lái)總結(jié)為4個(gè)字,即聽(tīng)、說(shuō)、寫、看。例如當(dāng)我們說(shuō)一句話時(shí),機(jī)器能夠識(shí)別成文字,并寫出我們所表達(dá)的意思,進(jìn)行分析并和我們對(duì)話等。工廠生產(chǎn)線利用計(jì)算機(jī)視覺(jué)技術(shù),通過(guò)攝像頭采集產(chǎn)品數(shù)據(jù),經(jīng)過(guò)智能分析判斷,自動(dòng)分揀合格產(chǎn)品和不合格產(chǎn)品。人工智能的出現(xiàn)使得人們可以從低級(jí)的、機(jī)械的、固定式的社會(huì)生產(chǎn)中解放出來(lái),去從事更加高端的社會(huì)生產(chǎn)。任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用3.物聯(lián)網(wǎng)
物聯(lián)網(wǎng)的定義是通過(guò)射頻識(shí)別、紅外感應(yīng)器、全球定位系統(tǒng)、激光掃描器等信息傳感設(shè)備,按約定的協(xié)議,把任何物品與互聯(lián)網(wǎng)相連接,進(jìn)行信息交換和通信,以實(shí)現(xiàn)對(duì)物品的智能化識(shí)別、定位、跟蹤、監(jiān)控和管理的一種網(wǎng)絡(luò)。當(dāng)今社會(huì)是一個(gè)萬(wàn)物互聯(lián)的社會(huì)。通過(guò)物聯(lián)網(wǎng)人、機(jī)、物能夠?qū)崿F(xiàn)在任何時(shí)間、任何地點(diǎn)的互聯(lián)互通。物聯(lián)網(wǎng)的基礎(chǔ)就是各種傳感器,傳感器能夠?qū)嵤┦占?、機(jī)、物的實(shí)時(shí)狀態(tài)數(shù)據(jù)并通過(guò)互聯(lián)網(wǎng)上傳到相應(yīng)的數(shù)據(jù)中心,供后續(xù)使用。
當(dāng)前,大數(shù)據(jù)產(chǎn)業(yè)和人工智能、云計(jì)算和物聯(lián)網(wǎng)正在出現(xiàn)“四位一體”式的深度融合。四者既相互獨(dú)立,又相輔相成,相互促進(jìn)。任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用
云計(jì)算和物聯(lián)網(wǎng)是大數(shù)據(jù)的下層,企業(yè)和個(gè)人通過(guò)云計(jì)算來(lái)處理海量數(shù)據(jù),物聯(lián)網(wǎng)又為大數(shù)據(jù)提供海量數(shù)據(jù)支撐。人工智能則是大數(shù)據(jù)的上層應(yīng)用,大數(shù)據(jù)的發(fā)展與應(yīng)用,離不開(kāi)云計(jì)算強(qiáng)有力的支持。云計(jì)算的發(fā)展和大數(shù)據(jù)的積累,是人工智能快速發(fā)展的基礎(chǔ)和實(shí)現(xiàn)實(shí)質(zhì)性突破的關(guān)鍵。大數(shù)據(jù)和人工智能的進(jìn)步也將拓展云計(jì)算應(yīng)用的深度和廣度。人工智能的實(shí)現(xiàn),需要大數(shù)據(jù)作為人工智能對(duì)行為智能判斷的依據(jù),云計(jì)算運(yùn)用大數(shù)據(jù)技術(shù)計(jì)算出結(jié)果并保存在云上,為人工智能提供強(qiáng)大的支撐。當(dāng)前非常熱門的深度學(xué)習(xí)技術(shù)正是在大數(shù)據(jù)和云計(jì)算日趨成熟的背景下才取得快速發(fā)展。而人工智能的突飛猛進(jìn)的發(fā)展也使得大數(shù)據(jù)、云計(jì)算和物聯(lián)網(wǎng)的應(yīng)用更加智能化。任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用
近年來(lái),大數(shù)據(jù)技術(shù)在金融、交通、政府、公安、醫(yī)療和互聯(lián)網(wǎng)等領(lǐng)域得到了積極的探索和廣泛應(yīng)用,極大的提升了信息處理效率,降低了社會(huì)運(yùn)營(yíng)成本。下圖所示為大數(shù)據(jù)在各應(yīng)用領(lǐng)域的互聯(lián)網(wǎng)關(guān)注度與滿意度情況對(duì)比。任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用1.4.3大數(shù)據(jù)技術(shù)在各行業(yè)領(lǐng)域應(yīng)用案例從左圖中可以看出,大數(shù)據(jù)技術(shù)已經(jīng)應(yīng)用在我們社會(huì)生活的各行各業(yè)中。其中,互聯(lián)網(wǎng)和政府領(lǐng)域是公眾關(guān)注度最高、且滿意度也較好的領(lǐng)域。金融及醫(yī)療關(guān)注度較高,但運(yùn)用范圍及用戶體驗(yàn)尚不足,滿意度不高。旅游、物流、批發(fā)零售等領(lǐng)域滿意度較高,技術(shù)應(yīng)用較成熟,但公眾關(guān)注度較少??梢约哟笮麄髁Χ取V圃鞓I(yè)、農(nóng)業(yè)、電信、地產(chǎn)和教育領(lǐng)域公眾關(guān)注度較低,技術(shù)應(yīng)用也還不成熟,未來(lái)發(fā)展?jié)摿薮?。任?wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用1.4.3大數(shù)據(jù)技術(shù)在各行業(yè)領(lǐng)域應(yīng)用案例1.互聯(lián)網(wǎng)金融領(lǐng)域大數(shù)據(jù)應(yīng)用互聯(lián)網(wǎng)金融是指借助于互聯(lián)網(wǎng)技術(shù)、移動(dòng)通信技術(shù)實(shí)現(xiàn)資金融通、支付和信息中介等業(yè)務(wù)的新興金融模式新模式、新業(yè)務(wù)、新思維。下面以銀行征信案例說(shuō)明大數(shù)據(jù)具體應(yīng)用。銀行征信主要面向兩類客戶,一類是沒(méi)有信貸記錄的客戶,一類是有豐富信貸記錄的客戶。爭(zhēng)對(duì)這兩類客戶,銀行要根據(jù)各種信息來(lái)評(píng)估客戶的信貸風(fēng)險(xiǎn)等級(jí),如果客戶的風(fēng)險(xiǎn)等級(jí)太高,銀行將不提供信貸業(yè)務(wù)給客戶。對(duì)于有信貸記錄的客戶,銀行可以通過(guò)客戶以往的信貸和還款記錄來(lái)評(píng)估。那么對(duì)于沒(méi)有信貸記錄的客戶,如何評(píng)估客戶信貸風(fēng)險(xiǎn)呢?如果用傳統(tǒng)方法是無(wú)法進(jìn)行評(píng)估的,這樣銀行的信貸風(fēng)險(xiǎn)就大大提升了。那么,有了大數(shù)據(jù)技術(shù),問(wèn)題迎刃而解。任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用
首先,我們利用大數(shù)據(jù)技術(shù)對(duì)客戶身份進(jìn)行識(shí)別。身份識(shí)別可以用下面四種方式。任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用
識(shí)別客戶身份以后,我們可以從各個(gè)渠道收集該用戶的海量信息,例如各種業(yè)務(wù)系統(tǒng)、第三方軟件、互聯(lián)網(wǎng)平臺(tái)等。將這些個(gè)人信息保存在分布式文件系統(tǒng)或數(shù)據(jù)庫(kù)中。然后采用大數(shù)據(jù)處理技術(shù)對(duì)保存的客戶數(shù)據(jù)進(jìn)行數(shù)據(jù)處理,提取有用的信息并歸納分類,例如根據(jù)用戶的屬性信息和興趣愛(ài)好等信息對(duì)用戶打標(biāo)簽,構(gòu)建客戶畫(huà)像。任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用
然后我們把客戶的用戶畫(huà)像數(shù)據(jù),輸入到相應(yīng)的機(jī)器學(xué)習(xí)模型中,在幾秒鐘或幾分鐘內(nèi)就可以完成對(duì)該客戶的信用評(píng)分,例如客戶的還款意愿,還款能力等。這樣評(píng)估的準(zhǔn)確度相對(duì)較高,能夠有效的降低銀行的信貸風(fēng)險(xiǎn),節(jié)省了人力成本和時(shí)間成本。任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用
據(jù)美國(guó)個(gè)人消費(fèi)信用評(píng)估公司FICO統(tǒng)計(jì),在美國(guó)大約15%的人沒(méi)有信用評(píng)分的,大量的人群遠(yuǎn)低于FICO平均分678。大數(shù)據(jù)征信的價(jià)值潛力巨大。任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用2.交通行業(yè)大數(shù)據(jù)應(yīng)用交通行業(yè)的數(shù)據(jù)量是巨大的。具體可來(lái)源以分為如下幾個(gè)方面。1.公交/地鐵一卡通數(shù)據(jù)2.GPS定位數(shù)據(jù)3.車聯(lián)網(wǎng)數(shù)據(jù)4.路網(wǎng)監(jiān)控?cái)?shù)據(jù)5.電子地圖導(dǎo)航數(shù)據(jù)任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用下面介紹交通行業(yè)大數(shù)據(jù)應(yīng)用的三個(gè)案例。1.廣東省高速公路省監(jiān)控大數(shù)據(jù)綜合分析展示該項(xiàng)目目標(biāo)是對(duì)政府和營(yíng)運(yùn)管理單位關(guān)心的主要指標(biāo)數(shù)據(jù)進(jìn)行分析展示,讓管理者及時(shí)、直觀地了解高速公路的運(yùn)營(yíng)管理情況。這個(gè)項(xiàng)目利用了省級(jí)聯(lián)網(wǎng)收費(fèi)運(yùn)營(yíng)管理平臺(tái)和省級(jí)監(jiān)控平臺(tái)上的全省的高速公路收費(fèi)數(shù)據(jù)和監(jiān)控?cái)?shù)據(jù)。整個(gè)分析平臺(tái)的架構(gòu)如下。任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用
該系統(tǒng)對(duì)全省交通事件、交通事故的一些關(guān)鍵指標(biāo)做了數(shù)據(jù)統(tǒng)計(jì)分析。具體包括最近30天交通事件類型組成、最近30天交通事件/交通事故情況、環(huán)比、最近90天發(fā)生交通事故的前十區(qū)間。任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用2.廣東省高速公路貨運(yùn)情況大數(shù)據(jù)分析系統(tǒng)
廣東高速公路實(shí)現(xiàn)了全計(jì)重收費(fèi)和全國(guó)ETC聯(lián)網(wǎng),該項(xiàng)目通過(guò)采集高速公路出口的火車載重量數(shù)據(jù),將采集到的數(shù)據(jù)輸入自己構(gòu)建的預(yù)測(cè)高速公路運(yùn)輸景氣指數(shù)(ETBI)模型中。來(lái)預(yù)測(cè)廣東省經(jīng)濟(jì)景氣情況。該分析系統(tǒng)架構(gòu)如下。任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用3.福州市道路通行狀態(tài)大數(shù)據(jù)智能研判平臺(tái)
該平臺(tái)實(shí)現(xiàn)整合市區(qū)3170個(gè)地磁、752個(gè)視頻線圈、78臺(tái)微波、4335輛公交車和6553出租車浮動(dòng)車GPS等多源異構(gòu)數(shù)據(jù),以每秒分析1萬(wàn)條數(shù)據(jù),日不間斷計(jì)算8.6億條數(shù)據(jù)的處理計(jì)算能力,實(shí)時(shí)研判市區(qū)道路“擁堵延時(shí)指數(shù)”和信號(hào)燈路口“交通強(qiáng)度”等擁堵程度的量化評(píng)價(jià)指標(biāo),對(duì)市區(qū)交通管理態(tài)勢(shì)進(jìn)行“智慧研判”。平臺(tái)實(shí)現(xiàn)總體態(tài)勢(shì)、實(shí)時(shí)路況、路況預(yù)測(cè)、數(shù)據(jù)質(zhì)量、統(tǒng)計(jì)分析及交通報(bào)告等六大功能。任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用3.教育領(lǐng)域疫情防控大數(shù)據(jù)應(yīng)用2020年新冠肺炎疫情席卷全球,要控制疫情的發(fā)展態(tài)勢(shì)必須做到嚴(yán)格管控人員流動(dòng),避免人員高度聚集,嚴(yán)密監(jiān)控患者流動(dòng)軌跡,盡早排查尋找感染者和密切接觸者,做到早隔離早治療。學(xué)校作為人員高度聚集場(chǎng)所,疫情防控任務(wù)非常艱巨。同年,教育部下發(fā)了名為《堅(jiān)決防止疫情向校園蔓延確保師生生命安全》的關(guān)于教育系統(tǒng)疫情防控工作指導(dǎo)文件,文件要求采取“人盯人”措施,精準(zhǔn)了解防控重點(diǎn)地區(qū)的教職員工、學(xué)生在校內(nèi)各院系、各年級(jí)、各班級(jí)分布情況。精準(zhǔn)掌握疫情防控重點(diǎn)地區(qū)的每個(gè)教職員工、學(xué)生返校前14天的身體健康狀況。精準(zhǔn)安排疫情防控重點(diǎn)地區(qū)的教職員工、學(xué)生,分院系、分年級(jí)、分班級(jí)、分省份、分期、分批有序返校。做到一日一報(bào)、一生一檔。但是如此大量的數(shù)據(jù)如何進(jìn)行數(shù)據(jù)采集和匯總分析處理,是一個(gè)大難題,如果采用傳統(tǒng)的人工方式,數(shù)據(jù)采集任務(wù)繁重,執(zhí)行效率低,出錯(cuò)遺漏率較高,數(shù)據(jù)匯總分析的深度和廣度都難以深入,容易遺漏隱藏關(guān)聯(lián)信息。任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用
銳捷網(wǎng)絡(luò)推出教育局學(xué)生安全防疫大數(shù)據(jù)分析決策系統(tǒng)。該系統(tǒng)基于銳捷網(wǎng)絡(luò)身份和數(shù)據(jù)雙中臺(tái)解決方案,增加了快速信息采集核驗(yàn)功能模塊和疫情大數(shù)據(jù)分析決策模塊,實(shí)現(xiàn)了免匯總、免校驗(yàn)的信息采集和基于身份的遺漏信息快速識(shí)別功能,減輕了各級(jí)領(lǐng)導(dǎo)、各校老師手工匯總和檢查的繁瑣工作量,讓疫情防控更高效。同時(shí),通過(guò)對(duì)上報(bào)數(shù)據(jù)分級(jí)分權(quán)多維度的數(shù)據(jù)呈現(xiàn)和數(shù)據(jù)分析,讓教育局的疫情防控更精準(zhǔn)。銳捷網(wǎng)絡(luò)爭(zhēng)對(duì)現(xiàn)有疫情信息采集和匯總的痛點(diǎn),構(gòu)建了從學(xué)生家長(zhǎng)—班主任—學(xué)校負(fù)責(zé)人—教育局分管負(fù)責(zé)人的四位一體網(wǎng)格化決策系統(tǒng)。系統(tǒng)實(shí)現(xiàn)了以下3方面的功能。全面實(shí)現(xiàn)對(duì)疫情數(shù)據(jù)采集、核查、匯總分析的信息化、智能化處理。1)快速疫情數(shù)據(jù)收集,減輕老師匯總負(fù)擔(dān)2)身份系統(tǒng)數(shù)據(jù)比對(duì),快讀識(shí)別遺漏數(shù)據(jù)3)數(shù)據(jù)服務(wù)疫情防控,分析輔助返校決策任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用
系統(tǒng)功能如下圖所示。任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用
系統(tǒng)操作流程如下圖所示。首先由教育局設(shè)計(jì)數(shù)據(jù)采集問(wèn)卷,問(wèn)卷可以由多種方式下發(fā)到到各個(gè)學(xué)校負(fù)責(zé)人(微信、鏈接、公眾號(hào)等),學(xué)校負(fù)責(zé)人在轉(zhuǎn)發(fā)給各個(gè)班級(jí)的班主任,班主任轉(zhuǎn)發(fā)給各班級(jí)家長(zhǎng)填寫問(wèn)卷,家長(zhǎng)通過(guò)不同方式填寫問(wèn)卷,操作簡(jiǎn)單便捷,填寫完信息后直接上報(bào)學(xué)校,學(xué)校負(fù)責(zé)人可以統(tǒng)一點(diǎn)擊鏈接查看各個(gè)班級(jí)學(xué)生的信息上報(bào)情況,對(duì)本校信息進(jìn)行初步匯總統(tǒng)計(jì)分析,可以從班級(jí)、日期等多個(gè)不同維度進(jìn)行數(shù)據(jù)查看。同時(shí),系統(tǒng)提供基于身份數(shù)據(jù)核驗(yàn)功能,能夠快速找出漏填信息的人員。學(xué)校負(fù)責(zé)人統(tǒng)一匯總完畢后,則直接把信息提交教育局分管負(fù)責(zé)人,教育局分管負(fù)責(zé)人可以通過(guò)可視化報(bào)表形式查看學(xué)生數(shù)據(jù)信息,并利用銳捷疫情決策大數(shù)據(jù)平臺(tái)進(jìn)行疫情風(fēng)險(xiǎn)分析和輔助開(kāi)學(xué)決策。任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用
這樣從總體上實(shí)現(xiàn)了各區(qū),各校,各班一張表多級(jí)數(shù)據(jù)報(bào)表呈現(xiàn),減少了數(shù)據(jù)報(bào)表的數(shù)量和數(shù)據(jù)分析復(fù)雜度。在數(shù)據(jù)分析時(shí),除了支持大部分常見(jiàn)的數(shù)據(jù)分析功能外,還支持?jǐn)?shù)據(jù)鉆取,數(shù)據(jù)筆刷、數(shù)據(jù)縮放等探索式分析。對(duì)重要數(shù)據(jù)指標(biāo)(學(xué)校填報(bào)率、疑似人數(shù)、確診人數(shù)、各區(qū)異常人數(shù)排名等)由“熱力圖”動(dòng)態(tài)呈現(xiàn)相關(guān)信息。系統(tǒng)能夠根據(jù)發(fā)燒人數(shù)、接觸重點(diǎn)疫區(qū)人數(shù)、疑似人數(shù)、確診人數(shù)、學(xué)生家長(zhǎng)GPS打卡位置數(shù)據(jù)分析等對(duì)各地區(qū)做疫情風(fēng)險(xiǎn)分析和疫情風(fēng)險(xiǎn)等級(jí)預(yù)判,為教育局分管負(fù)責(zé)人提供上層輔助決策。任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用4.工業(yè)制造領(lǐng)域大數(shù)據(jù)應(yīng)用
在中國(guó)制造2025的戰(zhàn)略指引下,海爾公司自主創(chuàng)新,打造了具有自主知識(shí)產(chǎn)權(quán)的工業(yè)互聯(lián)網(wǎng)平臺(tái)—卡奧斯云平臺(tái)(COSMOPlat),該平臺(tái)是大數(shù)據(jù)、物聯(lián)網(wǎng)與人工智能技術(shù)深度融合的產(chǎn)物。該平臺(tái)通過(guò)物聯(lián)網(wǎng)技術(shù),實(shí)現(xiàn)人機(jī)物的互聯(lián)協(xié)作,包括設(shè)備、人員、流程、工廠數(shù)據(jù)的接入和監(jiān)測(cè)分析,滿足不同企業(yè)信息化部署、改造、智能升級(jí)需求,實(shí)現(xiàn)大規(guī)模定制的高精度與高效率。COSMOPlat云平臺(tái)通過(guò)設(shè)備資產(chǎn)數(shù)據(jù)的實(shí)時(shí)采集,對(duì)資產(chǎn)在線實(shí)時(shí)監(jiān)測(cè)和管理,并根據(jù)資產(chǎn)模型和運(yùn)行大數(shù)據(jù),優(yōu)化資產(chǎn)效率。例如可采集設(shè)備實(shí)時(shí)數(shù)據(jù),結(jié)合設(shè)備機(jī)理分析和建模,實(shí)現(xiàn)了預(yù)測(cè)性維護(hù),提升效率,降低成本。任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用
海爾智能化互聯(lián)工廠以COSMOPlat云平臺(tái)為核心,采用智能化、數(shù)字化、柔性化的設(shè)計(jì)理念,通過(guò)與COSMOPlat云平臺(tái)的無(wú)縫連接,不僅實(shí)現(xiàn)了冰箱、洗衣機(jī)等網(wǎng)器產(chǎn)品從個(gè)性化定制、遠(yuǎn)程下單到智能制造的全過(guò)程,同時(shí)也實(shí)現(xiàn)了智能產(chǎn)品和智能制造全流程的無(wú)縫連接。海爾智能化互聯(lián)工廠包含用戶定制、模塊智能揀配、柔性裝配、模塊裝配、智能檢測(cè)、定制交付等多個(gè)智能單元。用戶可以應(yīng)用在線交互設(shè)計(jì)平臺(tái),自主定義所需產(chǎn)品,平臺(tái)整合需求并達(dá)到一定需求規(guī)模后,形成用戶訂單,同時(shí)引進(jìn)一流資源在線開(kāi)展虛擬設(shè)計(jì),訂單可直達(dá)工廠與模塊商,驅(qū)動(dòng)全流程并聯(lián),自動(dòng)匹配所需模塊部件,通過(guò)工廠AGV與空中積放鏈等智能物流系統(tǒng)實(shí)現(xiàn)模塊立即配送和按需配料,并全流程追溯和可視化制造過(guò)程中的海量信息數(shù)據(jù),促進(jìn)了產(chǎn)品更新迭代和用戶體驗(yàn)提升。例如,COSMOPlat云平臺(tái)通過(guò)搜集微博、微信、搜索引擎及其他途徑的用戶需求,發(fā)現(xiàn)用戶對(duì)所有品牌空調(diào)的各類需求問(wèn)題,通過(guò)數(shù)據(jù)分析挖掘分析出用戶主要問(wèn)題為空調(diào)異音問(wèn)題。而異音有千萬(wàn)種,COSMOPlat云平臺(tái)依托大數(shù)據(jù)和人工智能技術(shù)自主學(xué)習(xí)辨別異音和自動(dòng)管控,提升辨別的精準(zhǔn)度。聚焦噪音問(wèn)題后,可追溯生產(chǎn)過(guò)程,通過(guò)生產(chǎn)過(guò)程大數(shù)據(jù),分析出導(dǎo)致異音的原因(包括空調(diào)風(fēng)扇安裝不良、電機(jī)安裝不良或者骨架模塊毛刺等原因),進(jìn)而總結(jié)出改善異音的關(guān)鍵措施,提前預(yù)防,改善用戶體驗(yàn)。任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用5.互聯(lián)網(wǎng)傳媒領(lǐng)域大數(shù)據(jù)應(yīng)用
作為國(guó)內(nèi)較大的網(wǎng)絡(luò)視頻分享平臺(tái),愛(ài)奇藝每天處理上萬(wàn)小時(shí)的新增視頻,產(chǎn)生千億條的用戶日志。海量信息內(nèi)容孕育著更多的價(jià)值,但是也為網(wǎng)絡(luò)視頻行業(yè)發(fā)展提出更高的挑戰(zhàn)。
(1)面對(duì)海量的內(nèi)容,視頻平臺(tái)需優(yōu)化生產(chǎn)和審核流程,提高內(nèi)容生產(chǎn)的效率,為用戶提供更加便捷、流暢的內(nèi)容服務(wù)。
(2)用戶面對(duì)大量信息,容易陷入選擇困難且選擇成本太高,平臺(tái)需要挑選和推薦用戶最感興趣的優(yōu)質(zhì)內(nèi)容。
(3)廣告投放過(guò)于粗獷,營(yíng)銷成本過(guò)高,需要實(shí)施精準(zhǔn)的廣告投放和精細(xì)化的商業(yè)運(yùn)營(yíng)。
為此,愛(ài)奇藝推出全新的智能網(wǎng)絡(luò)視頻云服務(wù)平臺(tái),該平臺(tái)是大數(shù)據(jù)、云計(jì)算與人工智能技術(shù)深度融合在互聯(lián)網(wǎng)傳媒領(lǐng)域的重要應(yīng)用。該平臺(tái)具有功能完備的智能網(wǎng)絡(luò)視頻云服務(wù)系統(tǒng),系統(tǒng)可自動(dòng)對(duì)視頻進(jìn)行智能識(shí)別處理,大幅度提高生產(chǎn)效率。并通過(guò)智能算法對(duì)用戶行為大數(shù)據(jù)進(jìn)行分析,產(chǎn)生用戶畫(huà)像,提供精準(zhǔn)的個(gè)性化搜索推薦。最后,系統(tǒng)支持商業(yè)合作伙伴進(jìn)行精準(zhǔn)營(yíng)銷和廣告投放,通過(guò)“閃植”和“隨視購(gòu)”技術(shù),創(chuàng)新性地打通了電商系統(tǒng)和視頻系統(tǒng),實(shí)現(xiàn)“視頻內(nèi)物品所見(jiàn)即所買”的精準(zhǔn)投放。任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用
愛(ài)奇藝智能網(wǎng)絡(luò)視頻云服務(wù)平臺(tái)架構(gòu)如下圖所示,架構(gòu)包擴(kuò)基礎(chǔ)層、感知層、認(rèn)知層、平臺(tái)層和應(yīng)用層?;A(chǔ)層提供AI服務(wù)所需的算力、數(shù)據(jù)和基本算法,極大地降低了對(duì)本地硬件設(shè)備和軟件系統(tǒng)的要求,減少了運(yùn)維成本和風(fēng)險(xiǎn)。感知層模擬人的聽(tīng)覺(jué)、視覺(jué),實(shí)現(xiàn)語(yǔ)音識(shí)別、圖片識(shí)別、視頻分析以及AR/VR配準(zhǔn)渲染等功能。認(rèn)知層模擬大腦的語(yǔ)義理解功能,實(shí)現(xiàn)自然語(yǔ)言處理、知識(shí)圖譜的記憶推理和用戶畫(huà)像分析等功能,構(gòu)成愛(ài)奇藝大腦。平臺(tái)層通過(guò)開(kāi)放服務(wù)接口,為應(yīng)用層的視頻創(chuàng)作、視頻生產(chǎn)、內(nèi)容分發(fā)、社交互動(dòng)、商業(yè)變現(xiàn)等上層應(yīng)用賦能。任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用
應(yīng)用層中最主要的應(yīng)用系統(tǒng)為智能視頻生產(chǎn)系統(tǒng)、智能內(nèi)容分發(fā)系統(tǒng)和智能商業(yè)變現(xiàn)系統(tǒng)。
智能視頻生產(chǎn)系統(tǒng)依托自主研發(fā)基于卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetworks,CNN)的深度學(xué)習(xí)技術(shù)進(jìn)行高精度明星識(shí)別、情感識(shí)別、物品識(shí)別和場(chǎng)景識(shí)別。
智能內(nèi)容分發(fā)系統(tǒng)是在大數(shù)據(jù)分析和人工智能技術(shù)的基礎(chǔ)上,通過(guò)研究視頻內(nèi)容和用戶的興趣偏好,進(jìn)行個(gè)性化推薦。通過(guò)社交網(wǎng)絡(luò)宣發(fā)和熱點(diǎn)發(fā)掘,給用戶提供高質(zhì)量的個(gè)性化內(nèi)容,解決信息過(guò)載問(wèn)題,更好地服務(wù)用戶的需求。
智能商業(yè)變現(xiàn)系統(tǒng)利用人工智能技術(shù)充分挖掘視頻內(nèi)容價(jià)值,包括閃植廣告、隨視購(gòu)廣告、智能票房預(yù)測(cè)等系統(tǒng)。通過(guò)大數(shù)據(jù)分析,對(duì)于用戶瀏覽、點(diǎn)擊、購(gòu)買等行為進(jìn)行統(tǒng)計(jì)和監(jiān)測(cè),可以進(jìn)行用戶群體定位和商品的流行性預(yù)測(cè),更好地指導(dǎo)商家生產(chǎn)用戶需要的流行商品,及時(shí)調(diào)整廣告的投放策略,促進(jìn)電商交易。任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用6.機(jī)器翻譯領(lǐng)域大數(shù)據(jù)應(yīng)用
互聯(lián)網(wǎng)大數(shù)據(jù)給機(jī)器翻譯研究帶來(lái)新的機(jī)遇和挑戰(zhàn),使得海量翻譯知識(shí)的自動(dòng)獲取和實(shí)時(shí)更新成為可能。百度公司利用人工智能和大數(shù)據(jù)技術(shù)使百度機(jī)器翻譯在海量翻譯知識(shí)獲取、翻譯模型、多語(yǔ)種翻譯技術(shù)等方面取得重大突破,解決了傳統(tǒng)方法研發(fā)成本高、周期長(zhǎng)、質(zhì)量低的難題,實(shí)時(shí)準(zhǔn)確地響應(yīng)互聯(lián)網(wǎng)海量、復(fù)雜的翻譯請(qǐng)求。百度機(jī)器翻譯基于大數(shù)據(jù)的互聯(lián)網(wǎng)的4項(xiàng)核心技術(shù)如下圖所示。任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用1)提出了基于互聯(lián)網(wǎng)大數(shù)據(jù)的翻譯模型
在此模型指導(dǎo)下,提出了自適應(yīng)訓(xùn)練和多策略解碼算法,突破了多領(lǐng)域、多文體的翻譯瓶頸,實(shí)現(xiàn)了翻譯云平臺(tái)與算法的充分優(yōu)化與融合,實(shí)時(shí)響應(yīng)每天來(lái)自全球過(guò)億次復(fù)雜多樣的翻譯請(qǐng)求。2)研發(fā)了基于互聯(lián)網(wǎng)大數(shù)據(jù)的高質(zhì)量翻譯知識(shí)獲取技術(shù)
突破了傳統(tǒng)翻譯知識(shí)獲取規(guī)模小、成本高的瓶頸。制訂了語(yǔ)言內(nèi)容處理領(lǐng)域的國(guó)際標(biāo)準(zhǔn)。3)提出了基于深度語(yǔ)義的語(yǔ)言分析和翻譯技術(shù)
突破了機(jī)器翻譯中公認(rèn)的消歧和調(diào)序世界難題,在國(guó)際上首次提出了基于樹(shù)到串的句法統(tǒng)計(jì)翻譯模型,有效利用源語(yǔ)言句法信息解決短語(yǔ)泛化和長(zhǎng)距離翻譯調(diào)序問(wèn)題。4)提出了基于樞軸語(yǔ)言的翻譯知識(shí)橋接和模型橋接技術(shù)
突破了機(jī)器翻譯語(yǔ)種覆蓋度受限的瓶頸,使得資源稀缺的小語(yǔ)種翻譯成為可能,并實(shí)現(xiàn)了多語(yǔ)種翻譯的快速部署。
目前,百度機(jī)器翻譯應(yīng)用于國(guó)家多個(gè)重要部門和百度、華為、金山等超過(guò)7000個(gè)企業(yè)和第三方應(yīng)用,在翻譯質(zhì)量、翻譯語(yǔ)種方向、響應(yīng)時(shí)間三個(gè)指標(biāo)上達(dá)到國(guó)際領(lǐng)先水平。我們經(jīng)常使用的百度翻譯就是直接運(yùn)用了百度機(jī)器翻譯相關(guān)技術(shù)。任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用7.旅游領(lǐng)域大數(shù)據(jù)應(yīng)用
大數(shù)據(jù)和人工智能技術(shù)在旅游領(lǐng)域的應(yīng)用也非常廣泛。海鰻數(shù)據(jù)技術(shù)有限公司旗下有一款海鰻云旅游大數(shù)據(jù)分析平臺(tái),該平臺(tái)基于全量外部數(shù)據(jù)(互聯(lián)網(wǎng)內(nèi)容數(shù)據(jù)、APP位置數(shù)據(jù)、消費(fèi)數(shù)據(jù)等)對(duì)旅游目的地運(yùn)營(yíng)的各類場(chǎng)景提供大數(shù)據(jù)解決方案,以幫助景區(qū)提升旅游服務(wù)質(zhì)量,使游客獲得更好的旅行體驗(yàn)。該平臺(tái)主要分為三個(gè)子系統(tǒng),分別是旅游情緒分析子系統(tǒng)、旅游行為分析子系統(tǒng)和涉旅消費(fèi)分析子系統(tǒng)。
(1)旅游情緒分析子系統(tǒng)主要功能為輿情監(jiān)測(cè)、游客滿意度評(píng)價(jià)、景區(qū)品牌評(píng)估、媒體傳播分析等。輿情監(jiān)測(cè)數(shù)據(jù)獲取范圍覆蓋全網(wǎng)95%以上網(wǎng)站,日均過(guò)濾數(shù)據(jù)100000000+條,采用機(jī)器學(xué)習(xí)算法的語(yǔ)義識(shí)別和情感分析技術(shù)監(jiān)控各景區(qū)社會(huì)輿情發(fā)展趨勢(shì)。游客滿意度評(píng)價(jià)采用大數(shù)據(jù)分析技術(shù)一站式獲取全部游客評(píng)價(jià),并生成游客滿意度分析報(bào)告。景區(qū)品牌評(píng)估利用公司自創(chuàng)的互聯(lián)網(wǎng)品牌量化算法,用品牌值評(píng)價(jià)景區(qū)影響力,生成景區(qū)價(jià)格對(duì)比、品牌值對(duì)比、美譽(yù)度對(duì)比等報(bào)表。媒體傳播分析單獨(dú)分析每個(gè)傳播節(jié)點(diǎn)的傳播影響力,找出最有效的營(yíng)銷渠道。任務(wù)1-4熟悉大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)及行業(yè)應(yīng)用
(2)旅游行為分析子系統(tǒng)主要功能為景區(qū)客流分析、構(gòu)建游客行為畫(huà)像、遷徙行為、景區(qū)實(shí)施熱力展現(xiàn)。景區(qū)客流分析在電子地圖上劃定圍欄,實(shí)時(shí)統(tǒng)計(jì)景區(qū)出入園人群總量,根據(jù)實(shí)時(shí)數(shù)據(jù),隨時(shí)比對(duì)景區(qū)游客承載量,臨近閾值進(jìn)行預(yù)警和人員疏導(dǎo),同時(shí)應(yīng)用大數(shù)據(jù)和人工智能、機(jī)器學(xué)習(xí)算法,精準(zhǔn)計(jì)算和預(yù)測(cè)景區(qū)未來(lái)游客量。構(gòu)建游客行為畫(huà)像則采用人口特征、來(lái)源地、消費(fèi)水平等30余項(xiàng)旅游行業(yè)專用維
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年全球及中國(guó)環(huán)己基甲醛行業(yè)頭部企業(yè)市場(chǎng)占有率及排名調(diào)研報(bào)告
- 2025年全球及中國(guó)CVD基座行業(yè)頭部企業(yè)市場(chǎng)占有率及排名調(diào)研報(bào)告
- 正確兒童觀的樹(shù)立講解
- 防盜門產(chǎn)品購(gòu)銷合同
- 2025打樁機(jī)租賃合同
- 香菇菌棒銷售合同樣本
- 2025技術(shù)服務(wù)委托合同
- 海鹽縣二手房買賣合同
- 鋼琴銷售合同范本
- 魚(yú)池轉(zhuǎn)包合同范本
- 2024年05月浙江金華成泰農(nóng)商銀行員工招考筆試歷年參考題庫(kù)附帶答案詳解
- 北京市海淀區(qū)2024-2025學(xué)年七年級(jí)上學(xué)期期末考試數(shù)學(xué)試題(含答案)
- 帶看協(xié)議書(shū)范本(2篇)
- 股權(quán)投資項(xiàng)目建議書(shū)
- 2025年北京廣播電視臺(tái)招聘(140人)歷年高頻重點(diǎn)提升(共500題)附帶答案詳解
- 2024復(fù)工復(fù)產(chǎn)安全培訓(xùn)
- 中學(xué)生宿舍日常與管理
- 【歷史】秦漢時(shí)期:統(tǒng)一多民族國(guó)家的建立和鞏固復(fù)習(xí)課件-2024-2025學(xué)年統(tǒng)編版七年級(jí)歷史上冊(cè)
- 社區(qū)中心及衛(wèi)生院65歲及以上老年人健康體檢分析報(bào)告模板
- 四年級(jí)數(shù)學(xué)脫式計(jì)算練習(xí)題100道
- 如何提高和加強(qiáng)人力資源隊(duì)伍的建設(shè)
評(píng)論
0/150
提交評(píng)論