![大數(shù)據(jù)培訓(xùn)知識(-)課件_第1頁](http://file4.renrendoc.com/view/16e1a5617c3386670f460a71fe96d13d/16e1a5617c3386670f460a71fe96d13d1.gif)
![大數(shù)據(jù)培訓(xùn)知識(-)課件_第2頁](http://file4.renrendoc.com/view/16e1a5617c3386670f460a71fe96d13d/16e1a5617c3386670f460a71fe96d13d2.gif)
![大數(shù)據(jù)培訓(xùn)知識(-)課件_第3頁](http://file4.renrendoc.com/view/16e1a5617c3386670f460a71fe96d13d/16e1a5617c3386670f460a71fe96d13d3.gif)
![大數(shù)據(jù)培訓(xùn)知識(-)課件_第4頁](http://file4.renrendoc.com/view/16e1a5617c3386670f460a71fe96d13d/16e1a5617c3386670f460a71fe96d13d4.gif)
![大數(shù)據(jù)培訓(xùn)知識(-)課件_第5頁](http://file4.renrendoc.com/view/16e1a5617c3386670f460a71fe96d13d/16e1a5617c3386670f460a71fe96d13d5.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
大數(shù)據(jù)時代
大數(shù)據(jù)時代
1大數(shù)據(jù)培訓(xùn)知識(-)課件2大數(shù)據(jù)培訓(xùn)知識(-)課件3目錄大數(shù)據(jù)的背景大數(shù)據(jù)的定義大數(shù)據(jù)的分類大數(shù)據(jù)的應(yīng)用大數(shù)據(jù)給我們帶來了什么大數(shù)據(jù)面臨的挑戰(zhàn)和趨勢大數(shù)據(jù)時代的統(tǒng)計目錄大數(shù)據(jù)的背景4一、大數(shù)據(jù)時代的背景21世紀(jì)是數(shù)據(jù)信息大發(fā)展的時代,移動互聯(lián)、社交網(wǎng)絡(luò)、電子商務(wù)等極大拓展了互聯(lián)網(wǎng)的邊界和應(yīng)用范圍,各種數(shù)據(jù)正在迅速膨脹并變大?;ヂ?lián)網(wǎng)(社交、搜索、電商)、移動互聯(lián)網(wǎng)(微博)、物聯(lián)網(wǎng)(傳感器,智慧地球)、車聯(lián)網(wǎng)、GPS、醫(yī)學(xué)影像、安全監(jiān)控、金融(銀行、股市、保險)、電信(通話、短信)都在瘋狂產(chǎn)生著數(shù)據(jù)?!按髷?shù)據(jù)”的誕生:半個世紀(jì)以來,隨著計算機技術(shù)全面融入社會生活,信息爆炸已經(jīng)積累到了一個開始引發(fā)變革的程度。它不僅使世界充斥著比以往更多的信息,而且其增長速度也在加快。信息爆炸式的增長,創(chuàng)造出了“大數(shù)據(jù)”這個概念*。如今,這個概念幾乎應(yīng)用到了所有人類智力與發(fā)展的領(lǐng)域中。一、大數(shù)據(jù)時代的背景21世紀(jì)是數(shù)據(jù)信息大發(fā)5全球每秒鐘發(fā)送2.9百萬封電子郵件,一分鐘讀一篇的話,足夠一個人晝夜不息的讀5.5年…每天會有
2.88萬個小時的視頻上傳到Y(jié)outube,足夠一個人晝夜不息的觀看3.3年…推特上每天發(fā)布5千萬條消息,假設(shè)10秒鐘瀏覽一條信息,這些消息足夠一個人晝夜不息的瀏覽16年…每天亞馬遜上將產(chǎn)生6.3百萬筆訂單…每個月網(wǎng)民在Facebook上要花費7千億分鐘,被移動互聯(lián)網(wǎng)使用者發(fā)送和接收的數(shù)據(jù)高達(dá)1.3EB…Google上每天需要處理24PB的數(shù)據(jù)…新的時代,人們從信息的被動接受者變成了主動創(chuàng)造者大數(shù)據(jù)時代到來全球每秒鐘發(fā)送2.9百萬封電子郵件,一分鐘讀一篇的話,足6TBPBZBEB大量新數(shù)據(jù)源的出現(xiàn)則導(dǎo)致了非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)爆發(fā)式的增長根據(jù)監(jiān)測,人類產(chǎn)生的數(shù)據(jù)量正在呈指數(shù)級增長,大約每兩年翻一番,這個速度在2020年之前會繼續(xù)保持下去。這意味著人類在最近兩年產(chǎn)生的數(shù)據(jù)量相當(dāng)于之前產(chǎn)生的全部數(shù)據(jù)量數(shù)據(jù)量增加數(shù)據(jù)結(jié)構(gòu)日趨復(fù)雜這些由我們創(chuàng)造的信息背后產(chǎn)生的這些數(shù)據(jù)早已經(jīng)遠(yuǎn)遠(yuǎn)超越了目前人力所能處理的范疇大數(shù)據(jù)時代正在來臨..大數(shù)據(jù)時代到來TBPBZBEB大量新數(shù)據(jù)源的出現(xiàn)則導(dǎo)致了非結(jié)構(gòu)化、半結(jié)構(gòu)化7二、大數(shù)據(jù)的定義
在2012年的IT業(yè)界中,“大數(shù)據(jù)”(BigData)成了關(guān)注度不斷提高的關(guān)鍵詞之一?!按髷?shù)據(jù)”是一個起源于歐美的詞匯。不過,關(guān)于這個詞的起源時間并不是十分清楚。至今為止,最具影響力的說法是2010年2月出版的?經(jīng)濟學(xué)家?(TheEconomist)雜志中的一篇題為“Thedatadeluge”的文章。其中,“deluge”的解釋是"數(shù)據(jù)洪流或海量數(shù)據(jù)"。那么,究竟何為大數(shù)據(jù)?一般來說,可以從狹義和廣義兩個層面來進行理解。二、大數(shù)據(jù)的定義8狹義的大數(shù)據(jù)
狹義的大數(shù)據(jù)就是指用現(xiàn)在的一般技術(shù)難以管理的大量數(shù)據(jù)的集合。大數(shù)據(jù)不僅僅是容量大而已,可以用3v來描述大數(shù)據(jù)的特征:Volume(容量)、Variety(多樣性)、Velocity(速度)。1.容量也就是指數(shù)據(jù)量,基本上是指從幾十TB到幾PB這樣的數(shù)量級;甚至可能發(fā)展到EB數(shù)量級。(1TB=1024GB,1PB=1024TB,1EB=1024PB)2.多樣性網(wǎng)站日志數(shù)據(jù)、Facebook等媒體中的文本數(shù)據(jù),智能手機中內(nèi)置的GPS所產(chǎn)生的位置信息,監(jiān)控攝像機的視頻數(shù)據(jù)等。3.速度也就是數(shù)據(jù)產(chǎn)生和更新的頻率。狹義的大數(shù)據(jù)狹義的大數(shù)據(jù)就是指用現(xiàn)在的一般技術(shù)難以9廣義的大數(shù)據(jù)廣義的大數(shù)據(jù)是一個綜合性的概念,它包括因具備3v特征而難以進行管理的數(shù)據(jù)對這些數(shù)據(jù)進行存儲、處理、分析的技術(shù)能夠通過分析這些數(shù)據(jù)獲得實用意義和觀點的人才和組織這些人才和組織指的是目前在歐美十分緊俏的“數(shù)據(jù)科學(xué)家”這類人才,以及能夠?qū)Υ髷?shù)據(jù)進行有效運用的組織。由此廣義的概念可知,除了自身的特征外,人才的作用在大數(shù)據(jù)時代中日益突出。廣義的大數(shù)據(jù)廣義的大數(shù)據(jù)是一個綜合性的概念,它包括10三、大數(shù)據(jù)的分類按生產(chǎn)主體劃分按數(shù)據(jù)來源劃分按存儲形式劃分三、大數(shù)據(jù)的分類按生產(chǎn)主體劃分11少量企業(yè)應(yīng)用產(chǎn)生的數(shù)據(jù)關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)數(shù)據(jù)倉庫中的數(shù)據(jù)微博、微信電子商務(wù)在線交易日志數(shù)據(jù)評論、留言或者電話投訴等企業(yè)應(yīng)用的相關(guān)評論數(shù)據(jù)應(yīng)用服務(wù)器日志傳感器數(shù)據(jù)(天氣、水、智能電網(wǎng)等)圖像和視頻(攝像頭監(jiān)控數(shù)據(jù)等)RFID、二維碼或條形碼掃描數(shù)據(jù)大量人產(chǎn)生的數(shù)據(jù)巨量機器產(chǎn)生的數(shù)據(jù)大數(shù)據(jù)的分類—按生產(chǎn)主體劃分少量企業(yè)應(yīng)用產(chǎn)生的數(shù)據(jù)關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)微博、微信應(yīng)用服務(wù)12
1、BAT為代表的互聯(lián)網(wǎng)公司。2、電信、金融、保險、電力、石化系統(tǒng)。3、公共安全、醫(yī)療、交通領(lǐng)域。4、氣象、教育、地理、政務(wù)等。5、其他,商業(yè)銷售、制造業(yè)、農(nóng)業(yè)、物流和流通等領(lǐng)域。大數(shù)據(jù)分類—按數(shù)據(jù)來源劃分大數(shù)據(jù)分類—按數(shù)據(jù)來源劃分13阿里巴巴目前保存的數(shù)據(jù)量為近百PB擁有90%以上的電商數(shù)據(jù)交易數(shù)據(jù)、用戶瀏覽和點擊網(wǎng)頁數(shù)據(jù)、購物數(shù)據(jù)2013數(shù)據(jù)總量接近一千個PB中文網(wǎng)頁、百度推廣、百度日志、UGC以70%以上的搜索市場份額坐擁龐大的搜索數(shù)據(jù)騰訊總存儲數(shù)據(jù)量經(jīng)壓縮處理以后在100PB左右數(shù)據(jù)量月增10%大量社交、游戲等領(lǐng)域積累的文本、音頻、視頻和關(guān)系類數(shù)據(jù)百度大數(shù)據(jù)分類——按數(shù)據(jù)來源劃分BAT為代表的互聯(lián)網(wǎng)公司阿里巴巴目前保存的數(shù)據(jù)量為近百PB2013數(shù)據(jù)總量接近一千個14電信行業(yè)用戶上網(wǎng)記錄、通話、信息、地理位置運營商擁有的數(shù)據(jù)數(shù)量都在10PB以上年度用戶數(shù)據(jù)增長約數(shù)十PB開戶信息數(shù)據(jù),銀行網(wǎng)點和在線交易數(shù)據(jù)、自身運營的數(shù)據(jù)金融系統(tǒng)每年產(chǎn)生數(shù)據(jù)達(dá)數(shù)十PB保險系統(tǒng)數(shù)據(jù)量也接近PB級別電力與石化僅國家電網(wǎng)采集獲得的數(shù)據(jù)總量就上10個PB級別石油化工、智能水表等領(lǐng)域每年產(chǎn)生和保存下來的數(shù)據(jù)量也達(dá)到數(shù)十PB級別。金融與保險大數(shù)據(jù)分類——按數(shù)據(jù)來源劃分電信、金融與保險、電力、石化系統(tǒng)電信行業(yè)用戶上網(wǎng)記錄、通話、信息、地理位置開戶信息數(shù)據(jù),銀行15公共安全北京:50萬個監(jiān)控攝像頭,每天采集視頻數(shù)據(jù)量約3PB整個視頻監(jiān)控每年保存下來的數(shù)據(jù)在數(shù)百PB以上僅廣州中山大學(xué)醫(yī)院2013年數(shù)據(jù)量為1000個TB整個醫(yī)療衛(wèi)生行業(yè)一年能夠保存下來的數(shù)據(jù)就可達(dá)到數(shù)百PB交通航班往返一次能產(chǎn)生數(shù)據(jù)就達(dá)到TB級別列車、水陸路運輸產(chǎn)生的各種視頻、文本類數(shù)據(jù),每年保存下來的也達(dá)到數(shù)十PB。醫(yī)療衛(wèi)生大數(shù)據(jù)分類——按數(shù)據(jù)來源劃分公共安全、醫(yī)療衛(wèi)生、交通領(lǐng)域公共安全北京:50萬個監(jiān)控攝像頭,每天采集視頻數(shù)據(jù)量約3PB16氣象與地理中國氣象局保存的數(shù)據(jù)約4~5PB,每年約增數(shù)百個TB各種地圖和地理位置信息每年約數(shù)十PB北京市政務(wù)數(shù)據(jù)資源網(wǎng)涵蓋旅游、教育、交通、醫(yī)療等門類,一年上線公布了400余個數(shù)據(jù)包政務(wù)數(shù)據(jù)多為結(jié)構(gòu)化數(shù)據(jù)政務(wù)與教育大數(shù)據(jù)分類——按數(shù)據(jù)來源劃分氣象、地里、教育、政務(wù)等領(lǐng)域氣象與地理中國氣象局保存的數(shù)據(jù)約4~5PB,每年約增數(shù)百個T17大數(shù)據(jù)分類——按數(shù)據(jù)來源劃分其他傳統(tǒng)行業(yè)線下商業(yè)銷售、農(nóng)林牧漁業(yè)、線下餐飲、食品、科研、物流運輸?shù)刃袠I(yè)數(shù)據(jù)量劇增行業(yè)數(shù)據(jù)量還處于積累期,整個體量都不算大,多則達(dá)到PB級別,少則百TB甚至數(shù)十TB級別。制造業(yè)制造業(yè)的存儲數(shù)據(jù)類型:產(chǎn)品設(shè)計數(shù)據(jù):以文件為主,非結(jié)構(gòu)化,共享要求較高,保存時間較長。企業(yè)生產(chǎn)環(huán)節(jié)的業(yè)務(wù)數(shù)據(jù):數(shù)據(jù)庫結(jié)構(gòu)化數(shù)據(jù)生產(chǎn)監(jiān)控數(shù)據(jù):數(shù)據(jù)量非常大商業(yè)銷售、制造業(yè)、農(nóng)業(yè)、物流和流通等領(lǐng)域大數(shù)據(jù)分類——按數(shù)據(jù)來源劃分其他傳統(tǒng)行業(yè)線下商業(yè)銷售、農(nóng)林牧18大數(shù)據(jù)分類—按存儲形式劃分
大數(shù)據(jù)不僅僅體現(xiàn)數(shù)據(jù)量大,也體現(xiàn)在數(shù)據(jù)類型多。如此海量的數(shù)據(jù)中,僅有20%左右屬于結(jié)構(gòu)化數(shù)據(jù),80%的數(shù)據(jù)屬于廣泛存在于社交網(wǎng)絡(luò)、物聯(lián)網(wǎng)、電子商務(wù)等領(lǐng)域的非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)。大數(shù)據(jù)分類—按存儲形式劃分大數(shù)據(jù)不僅僅體現(xiàn)數(shù)據(jù)量19大數(shù)據(jù)分類——按存儲形式劃分即行數(shù)據(jù),可用二維表結(jié)構(gòu)來邏輯表達(dá)實現(xiàn)主要存儲在關(guān)系型數(shù)據(jù)庫中先有結(jié)構(gòu)再有數(shù)據(jù),結(jié)構(gòu)一般不變處理起來較方便結(jié)構(gòu)化數(shù)據(jù)大數(shù)據(jù)分類——按存儲形式劃分即行數(shù)據(jù),可用二維表結(jié)構(gòu)來邏輯表20大數(shù)據(jù)分類——按存儲形式劃分相對于結(jié)構(gòu)化數(shù)據(jù)而言,不方便用數(shù)據(jù)庫二維邏輯表來表現(xiàn)非純文本類數(shù)據(jù),沒有標(biāo)準(zhǔn)格式包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報表、圖像和音頻/視頻信息存儲在非結(jié)構(gòu)數(shù)據(jù)庫中非結(jié)構(gòu)化WEB數(shù)據(jù)庫:突破了關(guān)系數(shù)據(jù)庫結(jié)構(gòu)定義不易改變和數(shù)據(jù)定長的限制非結(jié)構(gòu)化數(shù)據(jù)大數(shù)據(jù)分類——按存儲形式劃分相對于結(jié)構(gòu)化數(shù)據(jù)而言,不方便用數(shù)21大數(shù)據(jù)分類——按存儲形式劃分介于完全結(jié)構(gòu)化數(shù)據(jù)和完全無結(jié)構(gòu)的數(shù)據(jù)之間格式較為規(guī)范,一般都是純文本數(shù)據(jù)包括日志數(shù)據(jù)、XML、JSON等格式的數(shù)據(jù)一般是自描述的,數(shù)據(jù)的結(jié)構(gòu)和內(nèi)容混在一起,沒有明顯的區(qū)分?jǐn)?shù)據(jù)模型主要為樹和圖的形式。半結(jié)構(gòu)化數(shù)據(jù)大數(shù)據(jù)分類——按存儲形式劃分介于完全結(jié)構(gòu)化數(shù)據(jù)和完全無結(jié)構(gòu)的22四、大數(shù)據(jù)的應(yīng)用大數(shù)據(jù)在宏觀經(jīng)濟管理領(lǐng)域的應(yīng)用大數(shù)據(jù)在農(nóng)業(yè)領(lǐng)域的應(yīng)用大數(shù)據(jù)在商業(yè)領(lǐng)域的應(yīng)用大數(shù)據(jù)在金融業(yè)的應(yīng)用大數(shù)據(jù)在醫(yī)療衛(wèi)生領(lǐng)域的應(yīng)用大數(shù)據(jù)在社會管理中的應(yīng)用四、大數(shù)據(jù)的應(yīng)用大數(shù)據(jù)在宏觀經(jīng)濟管理領(lǐng)域的應(yīng)用23大數(shù)據(jù)在宏觀經(jīng)濟管理領(lǐng)域的應(yīng)用IBM日本公司建立了一個經(jīng)濟指標(biāo)預(yù)測系統(tǒng),它從互聯(lián)網(wǎng)新聞中搜索出影響制造業(yè)的480項經(jīng)濟數(shù)據(jù),再計算出PMI預(yù)測值,準(zhǔn)確度相當(dāng)高。印第安納大學(xué)學(xué)者利用Google提供的心情分析工具,根據(jù)用戶近千萬條短信、微博留言中預(yù)測道瓊斯工業(yè)指數(shù)。準(zhǔn)確率高達(dá)87%。淘寶網(wǎng)建立了“淘寶CPI”,它通過采集、編制淘寶網(wǎng)上390個類目的熱門商品價格來統(tǒng)計CPI,它比國家統(tǒng)計局公布的CPI還提前半個月預(yù)測經(jīng)濟的走勢。大數(shù)據(jù)在宏觀經(jīng)濟管理領(lǐng)域的應(yīng)用IBM日本公司建立了一個經(jīng)濟指24大數(shù)據(jù)在農(nóng)業(yè)領(lǐng)域的應(yīng)用Google前雇員創(chuàng)辦Climate公司,從美國氣象局等數(shù)據(jù)庫中獲得幾十年的天氣數(shù)據(jù),將各地的降雨、氣溫和土壤狀況及歷年農(nóng)作物產(chǎn)量做成精密圖表,從而能夠預(yù)測美國任一農(nóng)場下一年的產(chǎn)量。任何一個農(nóng)場主去他那里問明年種什么能賣出去、能賺錢,他能告訴你,說錯了他保證賠償,賠償比保險公司還要高,到現(xiàn)在為止他還沒有賠過。通過手機上農(nóng)產(chǎn)品“移動支付”數(shù)據(jù)、“采購?fù)度搿睌?shù)據(jù)和“補貼“數(shù)據(jù)分析,可準(zhǔn)確預(yù)測農(nóng)產(chǎn)品生產(chǎn)趨勢,政府可依此決定出臺激勵措施和確定合適的作物存儲量,還可為農(nóng)民提供服務(wù)。大數(shù)據(jù)在農(nóng)業(yè)領(lǐng)域的應(yīng)用Google前雇員創(chuàng)辦Climate公25大數(shù)據(jù)在商業(yè)領(lǐng)域的應(yīng)用沃爾瑪基于每個月4500萬的網(wǎng)絡(luò)購物數(shù)據(jù),并結(jié)合社交網(wǎng)絡(luò)上有關(guān)產(chǎn)品的大眾評分,開發(fā)機器學(xué)習(xí)語義搜索引擎“北極星“,方便瀏覽,在線購物者因此增加10%-15%,增加銷售十多億美元。當(dāng)顧客在超市買東西時,通過手機定位,可以分析他們在貨柜前停留時間的長短,從而判斷顧客對什么感興趣。不僅僅是通過手機定位,實際上美國有的超市在購物推車上也安裝了位置傳感器,根據(jù)顧客在不同貨物前停留時間的長短來分析顧客可能的購物行為。在淘寶網(wǎng)上買東西時,消費者會在阿里的廣告交易平臺上留下記錄,阿里不僅從交易平臺把消費記錄拿來自己使用,還會把消費記錄賣給其他商家。大數(shù)據(jù)在商業(yè)領(lǐng)域的應(yīng)用沃爾瑪基于每個月4500萬的網(wǎng)絡(luò)購物數(shù)26大數(shù)據(jù)在金融業(yè)的應(yīng)用華爾街某公司通過分析全球3.4億微博賬戶留言來判斷民眾情緒,人們高興的時候會買股票,而焦慮的時候會拋售股票,它通過判斷全世界高興的人多還是焦慮的人多,依此決定公司股票的買入或賣出。阿里公司根據(jù)在淘寶網(wǎng)上中小企業(yè)的交易狀況篩選出財務(wù)健康和誠信經(jīng)營的企業(yè),給他們提供貸款,并且不需要這些中小企業(yè)的擔(dān)保。目前阿里公司已放貸上千億元,壞帳率僅0.3%。2012年年底,四大商業(yè)銀行的壞賬率為1%左右,盡管四大銀行要求有擔(dān)保,但壞賬率仍然比阿里高出3倍。大數(shù)據(jù)在金融業(yè)的應(yīng)用華爾街某公司通過分析全球3.4億微博賬戶27大數(shù)據(jù)在醫(yī)療衛(wèi)生領(lǐng)域的應(yīng)用Google通過用戶搜索與流感相關(guān)詞匯的頻率,判斷某個地方可能會發(fā)生流感。2009年在甲型H1N1流感爆發(fā)的幾周前,Google就做出預(yù)測,而且還判斷出了流感是從哪里來的。大數(shù)據(jù)在醫(yī)療衛(wèi)生領(lǐng)域的應(yīng)用Google通過用戶搜索與流感相關(guān)28大數(shù)據(jù)在醫(yī)療衛(wèi)生領(lǐng)域的應(yīng)用根據(jù)麥肯錫的報告,醫(yī)療大數(shù)據(jù)的分析將為美國產(chǎn)生3000億美元的價值,減少8%的國家醫(yī)療保健支出。大數(shù)據(jù)在醫(yī)療衛(wèi)生領(lǐng)域的應(yīng)用根據(jù)麥肯錫的報告,醫(yī)療大數(shù)據(jù)的分析29大數(shù)據(jù)在社會管理中的應(yīng)用廣東東莞通過統(tǒng)計當(dāng)?shù)厥雏}銷售量與上年同期比較,判斷農(nóng)民工數(shù)量的變化。這與電信運營商根據(jù)活躍移動用戶數(shù)的變化所推出的數(shù)據(jù)幾乎相當(dāng)。根據(jù)手機用戶從這個路口到那個路口所花費的時間,可以判斷馬路上是不是流量比較多,是否擁堵。根據(jù)有多少個手機在同時移動,大致可以了解發(fā)生突發(fā)事件時的人流聚集情況,還可以通過手機的注冊地進一步分析機主究竟是從哪里來的。騰訊為每個微博用戶建立了檔案,可以從微博帖子分析用戶的性格,提前關(guān)注可能引起社會不穩(wěn)定的因素。大數(shù)據(jù)在社會管理中的應(yīng)用廣東東莞通過統(tǒng)計當(dāng)?shù)厥雏}銷售量與上年30五、大數(shù)據(jù)帶來了什么?大數(shù)據(jù)既催生出無數(shù)新的服務(wù)和商業(yè)模式,也讓一些傳統(tǒng)行業(yè)找到了新的機會,同時產(chǎn)生了對“數(shù)據(jù)科學(xué)家”這種新興復(fù)合型人才的迫切需求。但是,數(shù)據(jù)運用和隱私保護之間到底應(yīng)該如何權(quán)衡,也成了一個令各方勢力爭論不休的話題。所以,對于大數(shù)據(jù)帶來的影響,必須從積極影響和消極影響兩個層面來分析。五、大數(shù)據(jù)帶來了什么?大數(shù)據(jù)既催生出無數(shù)新的服務(wù)和31積極影響
首先,大數(shù)據(jù)有利于推動中國新四化轉(zhuǎn)型。新四化是指新型工業(yè)化、信息化、城鎮(zhèn)化和農(nóng)業(yè)現(xiàn)代化。大數(shù)據(jù)將會改變?nèi)祟惿钌a(chǎn)方式,可以為新四化提供轉(zhuǎn)變發(fā)展方式的新動力。1.大數(shù)據(jù)可以強力啟動內(nèi)需;2.大數(shù)據(jù)可以推動城鎮(zhèn)化以智慧城市的新方式發(fā)展;3.大數(shù)據(jù)有利于改進政府管理方式;4.大數(shù)據(jù)產(chǎn)業(yè)將會形成新的增長點。
積極影響首先,大數(shù)據(jù)有利于推動中國新四化轉(zhuǎn)型。32
其次,大數(shù)據(jù)將對微觀經(jīng)濟產(chǎn)生重大影響。
IBM的CEO羅睿蘭說:“數(shù)據(jù)將是下一個大的自然資源,將會區(qū)分每個行業(yè)的勝者與輸家。”IBM的全球調(diào)查顯示:表現(xiàn)優(yōu)秀的企業(yè)使用分析技術(shù)的數(shù)量比表現(xiàn)較差的企業(yè)高五倍。1.未來以政府、電信、教育、醫(yī)療、金融、石油石化和電力等行業(yè)為重點的大數(shù)據(jù)應(yīng)用,將直接拉動整個社會的應(yīng)用規(guī)模;2.數(shù)據(jù)業(yè)務(wù)將成為各行各業(yè)的主營業(yè)務(wù),圍繞大數(shù)據(jù),企業(yè)將向分析級服務(wù)升級轉(zhuǎn)型,從而改變各行各業(yè)的業(yè)態(tài);3.廣義的分析級服務(wù)得到大發(fā)展,包含一切以大數(shù)據(jù)為基礎(chǔ)的高附加值的創(chuàng)新型服務(wù)。其次,大數(shù)據(jù)將對微觀經(jīng)濟產(chǎn)生重大影響。33
再次,大數(shù)據(jù)的發(fā)展有利于促進新興職業(yè)的發(fā)展。
在大數(shù)據(jù)浪潮的沖擊下,一門新興職業(yè)即“數(shù)據(jù)分析師”(數(shù)據(jù)科學(xué)家)正在以勢不可擋的氣勢涌現(xiàn)。大數(shù)據(jù)使勞動力市場迅速出現(xiàn)了變化,數(shù)據(jù)分析師成為炙手可熱的行業(yè)。麥肯錫全球研究所進行過一次調(diào)查,根據(jù)調(diào)查預(yù)計,美國需要14萬名至19萬名以上具備深度分析專長的人員。而對具備數(shù)據(jù)知識的經(jīng)理的需求量超過150萬名。一個在業(yè)界不可言喻的現(xiàn)象出現(xiàn)了,數(shù)據(jù)分析師已經(jīng)能夠成為最為搶手的熱門職業(yè)。
再次,大數(shù)據(jù)的發(fā)展有利于促進新興職業(yè)的發(fā)展。34消極影響
關(guān)于大數(shù)據(jù)所帶來的消極影響主要表現(xiàn)為大數(shù)據(jù)運用和隱私保護之間的矛盾。要在業(yè)務(wù)中對大數(shù)據(jù)進行運用,就不可避免的會遇到隱私問題。
首先,對web上的用戶個人信息、行為記錄等進行收集,在未經(jīng)用戶許可的情況下將數(shù)據(jù)轉(zhuǎn)讓給廣告商等第三方,這種行為嚴(yán)重侵犯了用戶的個人隱私權(quán),而且會對其造成一定程度的危害;其次,網(wǎng)頁上的行為記錄,如瀏覽記錄和購買記錄等,如果進行了相當(dāng)數(shù)量的積累,則有可能據(jù)此推斷出個人的興趣、愛好、思想傾向等。而對于用戶來說,他們很不希望這些信息被別人知道,所以在心理上會感覺到自己的隱私受到了侵犯。消極影響關(guān)于大數(shù)據(jù)所帶來的消極影響主要表現(xiàn)為35
在今天,關(guān)于隱私是一個很大的問題,而且以后這個問題還會越來越嚴(yán)重,會被人們高度關(guān)注。所以,對于企業(yè)來說,不僅要遵守正式法律的限制,而且不能逾越顧客所能接受的最低底線。必須時刻把用戶的地位放在首位,盡可能的多為顧客提供便利,盡最大努力贏得用戶的理解和支持。在今天,關(guān)于隱私是一個很大的問題,而且以后這個36六、大數(shù)據(jù)面臨的挑戰(zhàn)和趨勢
從大數(shù)據(jù)帶來的影響可知,大數(shù)據(jù)浪潮既是一種機遇也是一種挑戰(zhàn),必須權(quán)衡利弊。
趨勢隨著大數(shù)據(jù)浪潮的加速到來,將出現(xiàn)產(chǎn)業(yè)鏈的整體繁榮。如何在大數(shù)據(jù)浪潮的洗禮中確保技術(shù)架構(gòu)、人才、政府和企業(yè)戰(zhàn)略以及商業(yè)模式能夠“逐浪潮頭”,將更需要積極主動的選擇合適的技術(shù)、方法論、解決方案和發(fā)展策略等。六、大數(shù)據(jù)面臨的挑戰(zhàn)和趨勢從大數(shù)據(jù)帶來的影響可37
環(huán)顧整個市場,我們在某些領(lǐng)域已經(jīng)取得了突破性進展,但是,仍然面臨著大量挑戰(zhàn)。例如:研發(fā)分析各種多元結(jié)構(gòu)化數(shù)據(jù)的高效技術(shù),提高大數(shù)據(jù)分析的易用性,讓大數(shù)據(jù)分析技術(shù)實現(xiàn)“開箱即用”,使得數(shù)據(jù)分析成為政府和企業(yè)建立核心競爭力的關(guān)鍵途徑。另外,具備高端數(shù)據(jù)分析技能,能夠從堆積如山的大量數(shù)據(jù)中找到金礦,并能夠?qū)?shù)據(jù)的價值以易懂的方式傳達(dá)給決策者,最終得以在業(yè)務(wù)上實現(xiàn)的人才即數(shù)據(jù)科學(xué)家是千金難求的。挑戰(zhàn)挑戰(zhàn)38七、大數(shù)據(jù)時代的統(tǒng)計大數(shù)據(jù)時代就不需要統(tǒng)計了嗎?有人認(rèn)為大數(shù)據(jù)時代,數(shù)據(jù)的來源更加直接、多元,并且數(shù)據(jù)的“樣本=總體”,想要的結(jié)論直接就能看出來,已經(jīng)不需要統(tǒng)計了。
這種認(rèn)知,顯然是錯誤的七、大數(shù)據(jù)時代的統(tǒng)計大數(shù)據(jù)時代就不需要統(tǒng)計了嗎?39首先,并不是所有的數(shù)據(jù)都可以直接在網(wǎng)絡(luò)上得到的,很多數(shù)據(jù)需要統(tǒng)計部門組織專業(yè)的調(diào)查才能得到,比如,農(nóng)業(yè)生產(chǎn)方面的數(shù)據(jù)、人口分布等等。其次,大數(shù)據(jù)告知信息,但不解釋數(shù)據(jù),即使把大數(shù)據(jù)的信息公布出來,大部分民眾依然不知道數(shù)據(jù)要表達(dá)的信息。統(tǒng)計依然是數(shù)據(jù)分析的靈魂。首先,并不是所有的數(shù)據(jù)都可以直接在網(wǎng)絡(luò)上得到的,很多40大數(shù)據(jù)時代的到來,給統(tǒng)計帶來機遇,也帶來了挑戰(zhàn)。2014年1月,國家統(tǒng)計局網(wǎng)上轉(zhuǎn)載了“中國統(tǒng)計,‘向大數(shù)據(jù)時代’邁進!”(
/tjgz/tjdt/201401/t20140108_497003.html)那么,大數(shù)據(jù)時代到底給統(tǒng)計帶來了那些沖擊和挑戰(zhàn)?大數(shù)據(jù)時代的到來,給統(tǒng)計帶來機遇,也帶來了挑戰(zhàn)。411.大數(shù)據(jù)對統(tǒng)計的沖擊對統(tǒng)計理念的沖擊對統(tǒng)計生產(chǎn)流程的沖擊對政府統(tǒng)計職能的沖擊1.大數(shù)據(jù)對統(tǒng)計的沖擊對統(tǒng)計理念的沖擊42對統(tǒng)計理念的沖擊1.大數(shù)據(jù)改變了數(shù)據(jù)的需求層次過去,由于人類的認(rèn)知能力有限,獲取大范圍數(shù)據(jù)比較困難,傳統(tǒng)的統(tǒng)計是通過觀察一小部分樣本來推測總體,但是推測的數(shù)據(jù)反映的是總體趨勢,往往無法應(yīng)用到個體。大數(shù)據(jù)時代的來臨,使人類可以有機會和條件在非常多的領(lǐng)域和非常深入的層次獲得全面數(shù)據(jù),在此基礎(chǔ)上形成的的數(shù)據(jù)可以更加偏向個體情況,更加符合個體的感知,滿足個性化需求。對統(tǒng)計理念的沖擊1.大數(shù)據(jù)改變了數(shù)據(jù)的需求層次43對統(tǒng)計理念的沖擊2.大數(shù)據(jù)改變了統(tǒng)計實證的研究范式傳統(tǒng)的統(tǒng)計遵循自上而下的實證研究范式,即先從經(jīng)濟理論或社會經(jīng)驗出發(fā),根據(jù)理論設(shè)定指標(biāo),再去利用統(tǒng)計數(shù)據(jù)進行實證分析。然而大數(shù)據(jù)采用的是自下而上的數(shù)據(jù)挖掘范式,以數(shù)據(jù)為先導(dǎo)從大量的實際數(shù)據(jù)中挖掘數(shù)據(jù)之間的關(guān)系并建立模型,乃至形成理論和新的認(rèn)知。這種研究范式是對傳統(tǒng)統(tǒng)計研究范式的一種顛覆。對統(tǒng)計理念的沖擊2.大數(shù)據(jù)改變了統(tǒng)計實證的研究范式44對統(tǒng)計生產(chǎn)流程的沖擊制度設(shè)計的多樣化傳統(tǒng)的統(tǒng)計設(shè)計是根據(jù)統(tǒng)計研究的目的和研究對象的特點,設(shè)定統(tǒng)計指標(biāo)、統(tǒng)計報表以及調(diào)查、匯總方法等制度,通過調(diào)查、訪問將生產(chǎn)行為轉(zhuǎn)化為可量化的數(shù)據(jù)。
大數(shù)據(jù)下的制度,面對的是已存在的或者通過一定手段可以獲取的大量數(shù)據(jù),需要解決的問題是怎么用這些數(shù)據(jù)。對統(tǒng)計生產(chǎn)流程的沖擊制度設(shè)計的多樣化45對統(tǒng)計生產(chǎn)流程的沖擊數(shù)據(jù)采集智能化傳統(tǒng)的統(tǒng)計是通過結(jié)構(gòu)化的報表和統(tǒng)一的計量方式將調(diào)查對象的行為轉(zhuǎn)化為可用的數(shù)據(jù),需要被調(diào)查者的參與,一旦調(diào)查對象不配合,或者采用虛報、瞞報、亂報的方式消極配合,統(tǒng)計數(shù)據(jù)的質(zhì)量難以控制,并且矯正這些調(diào)查誤差的成本很高。
大數(shù)據(jù)時代,互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計算等技術(shù)講大大提高數(shù)據(jù)采集的智能化水平,數(shù)據(jù)來源于信息技術(shù)記錄下的原始數(shù)據(jù),想要篡改這些數(shù)據(jù)非常困難,數(shù)據(jù)的質(zhì)量將會大大提高。對統(tǒng)計生產(chǎn)流程的沖擊數(shù)據(jù)采集智能化46對統(tǒng)計生產(chǎn)流程的沖擊數(shù)據(jù)分析專業(yè)化傳統(tǒng)的統(tǒng)計分析是根據(jù)統(tǒng)計制度設(shè)計的要求以及研究對象的認(rèn)知,對采集上來的結(jié)構(gòu)化統(tǒng)計數(shù)據(jù)進行計算分析,重點描述過去的這段時間發(fā)生的變化,對未來的發(fā)展情況進行統(tǒng)計意義上的預(yù)測。大數(shù)據(jù)背景下的數(shù)據(jù)分析,面對的大量的已存在于計算機、網(wǎng)絡(luò)中的海量數(shù)據(jù),所要做的是分析挖掘數(shù)據(jù)之間的內(nèi)在關(guān)系,尋找更多有價值的信息,在這種背景下,需要專業(yè)化的數(shù)據(jù)挖掘與處理技術(shù)對統(tǒng)計生產(chǎn)流程的沖擊數(shù)據(jù)分析專業(yè)化47對統(tǒng)計生產(chǎn)流程的沖擊數(shù)據(jù)發(fā)布透明化大數(shù)據(jù)時代,由于數(shù)據(jù)的大量存儲和共享,統(tǒng)計數(shù)據(jù)發(fā)布的公開透明程度將會極高,沒有公開詳細(xì)、公允計算方法的數(shù)據(jù)將會被其他數(shù)據(jù)替代。在發(fā)布結(jié)果上,僅僅告訴個別人結(jié)果,是遠(yuǎn)遠(yuǎn)不夠的,還需要通過可視化、交互等方式給予用戶更加方便、高效的使用方式,提供更為詳盡的信息。對統(tǒng)計生產(chǎn)流程的沖擊數(shù)據(jù)發(fā)布透明化48對政府統(tǒng)計職能的沖擊大數(shù)據(jù)時代,各種數(shù)據(jù)信息網(wǎng)絡(luò)平臺全面覆蓋,每個社會單位都是數(shù)據(jù)的生產(chǎn)者和提供者,數(shù)據(jù)存儲于信息平臺的所有者手中,政府統(tǒng)計機構(gòu)不再是數(shù)據(jù)的絕對擁有者,也不再是數(shù)據(jù)的唯一發(fā)布者和解釋人。如果政府統(tǒng)計機構(gòu)繼續(xù)在靜態(tài)的框架下封閉運行,就無法反映經(jīng)濟社會發(fā)展的變化情況,無法實現(xiàn)統(tǒng)計信息、統(tǒng)計咨詢和實行統(tǒng)計監(jiān)督功能,勢必被邊緣化對政府統(tǒng)計職能的沖擊大數(shù)據(jù)時代,各種數(shù)據(jù)信息網(wǎng)絡(luò)平臺492.大數(shù)據(jù)時代政府統(tǒng)計的發(fā)展趨勢大數(shù)據(jù)時代,政府統(tǒng)計應(yīng)該成為社會經(jīng)濟發(fā)展的權(quán)威、全面數(shù)據(jù)的主要提供者,是政府掌握的有關(guān)社會管理和運行的行政記錄信息標(biāo)準(zhǔn)規(guī)范制定者和數(shù)據(jù)結(jié)果發(fā)布者。政府統(tǒng)計應(yīng)整合多方行政記錄信息,結(jié)合自身采集數(shù)據(jù)補充,構(gòu)建權(quán)威的社會經(jīng)濟數(shù)據(jù)在線平臺。作為數(shù)據(jù)整合發(fā)布的維護部門。
2.大數(shù)據(jù)時代政府統(tǒng)計的發(fā)展趨勢大數(shù)據(jù)時代,政府統(tǒng)計503.借力大數(shù)據(jù)加速政府統(tǒng)計改改為了轉(zhuǎn)變政府統(tǒng)計的角色,需要全面改進當(dāng)前的政府統(tǒng)計在獲取、整理和分析客觀事物總體數(shù)量方面的資料的工作過程,重塑統(tǒng)計基礎(chǔ)、強化技術(shù)支承、推動應(yīng)用社會化,全面提升統(tǒng)計能力。多渠道智能獲取數(shù)據(jù)構(gòu)建真正的大數(shù)據(jù)平臺體現(xiàn)數(shù)據(jù)價值3.借力大數(shù)據(jù)加速政府統(tǒng)計改改51多渠道智能獲取數(shù)據(jù)
統(tǒng)計工作必須適應(yīng)大數(shù)據(jù)時代的變化和要求,通過有效利用客觀存在的海量數(shù)據(jù),能夠有效降低統(tǒng)計調(diào)查的成本,減輕被調(diào)查者的負(fù)擔(dān),緩解被調(diào)查者配合程度降低的矛盾,能夠提高統(tǒng)計數(shù)據(jù)的即時性,縮短統(tǒng)計數(shù)據(jù)生成周期。
大數(shù)據(jù)時代的自動智能數(shù)據(jù)采集蔣時代數(shù)據(jù)生成主要依賴于及其的客觀測量,如GPS定位測量、收銀管理系統(tǒng)、ETC電子收費系統(tǒng)等等。當(dāng)前政府統(tǒng)計法制建設(shè)的全國聯(lián)網(wǎng)直報系統(tǒng)很大成都上規(guī)范了統(tǒng)計人員的工作方式,但是其中人的參與程度仍然很高。大數(shù)據(jù)時代,政府統(tǒng)計采集數(shù)據(jù),一是要壓縮調(diào)查規(guī)模,采集數(shù)據(jù)有針對性;二是技術(shù)手段要多樣化、智能化,降低人的參與因素和干擾可能;三是應(yīng)用行政記錄與統(tǒng)計上要有所突破,進一步開發(fā)應(yīng)用現(xiàn)有的行政資源。多渠道智能獲取數(shù)據(jù)統(tǒng)計工作必須適應(yīng)大數(shù)據(jù)時代的變化和52構(gòu)建真正的大數(shù)據(jù)平臺
目前我們發(fā)布的數(shù)據(jù)主要是為了滿足黨政領(lǐng)導(dǎo)的需求為主,以社會需求為輔。這種模式對統(tǒng)計而言是有局限性的,容易自我封閉。
大數(shù)據(jù)時代,政府統(tǒng)計應(yīng)建設(shè)容量足夠大的IT基礎(chǔ)設(shè)施,容納所有采集到的數(shù)據(jù)信息,將歷史和現(xiàn)有原始數(shù)據(jù)文件整理歸集到系統(tǒng)中,構(gòu)建成在線公開的官方統(tǒng)計數(shù)據(jù)平臺。未來政府統(tǒng)計部門將公平公開地開放數(shù)據(jù),所有單位個人都將能從統(tǒng)計機構(gòu)的網(wǎng)站平臺獲取到需要的、標(biāo)準(zhǔn)統(tǒng)一的、格式開放的數(shù)據(jù)。構(gòu)建真正的大數(shù)據(jù)平臺目前我們發(fā)布的數(shù)據(jù)主要是為了滿足53體現(xiàn)數(shù)據(jù)的價值
數(shù)據(jù)只有被人們使用,才會變成有價值的信息,統(tǒng)計成果需要新的返現(xiàn)方式和形式。
除了公布原始基礎(chǔ)數(shù)據(jù),政府統(tǒng)計數(shù)據(jù)平臺應(yīng)該具備權(quán)威客觀、公開透明的基本經(jīng)濟算法、口徑和初步結(jié)果,這些成果應(yīng)該通過標(biāo)準(zhǔn)的官方經(jīng)濟核算應(yīng)用以及信息產(chǎn)品的形式對外提供。
政府統(tǒng)計應(yīng)該利用專業(yè)的技術(shù)力量和成果,提高數(shù)據(jù)挖掘分析能力,對巨量原始數(shù)據(jù)進行專業(yè)化處理,將非標(biāo)準(zhǔn)化數(shù)據(jù)轉(zhuǎn)化為標(biāo)準(zhǔn)化統(tǒng)計數(shù)據(jù),從而打好對數(shù)據(jù)進行“增值”的基礎(chǔ)。體現(xiàn)數(shù)據(jù)的價值數(shù)據(jù)只有被人們使用,才會變成有價值的信54謝謝謝謝55
1、用愛心來做事,用感恩的心做人。
2、人永遠(yuǎn)在追求快樂,永遠(yuǎn)在逃避痛苦。
3、有多大的思想,才有多大的能量。
4、人的能量=思想+行動速度的平方。
5、勵志是給人快樂,激勵是給人痛苦。
6、成功者絕不給自己軟弱的借口。
7、你只有一定要,才一定會得到。
8、決心是成功的開始。
9、當(dāng)你沒有借口的那一刻,就是你成功的開始。
10、命運是可以改變的。
11、成功者絕不放棄。
12、成功永遠(yuǎn)屬于馬上行動的人。
13、下定決心一定要,才是成功的關(guān)鍵。
14、成功等于目標(biāo),其他都是這句話的注解。
15、成功是一個過程,并不是一個結(jié)果。
16、成功者學(xué)習(xí)別人的經(jīng)驗,一般人學(xué)習(xí)自己的經(jīng)驗。
17、只有第一名可以教你如何成為第一名。
18、學(xué)習(xí)需要有計劃。
19、完全照成功者的方法來執(zhí)行。
20、九十九次的理論不如一次的行動來得實際。
21、一個勝利者不會放棄,而一個放棄者永遠(yuǎn)不會勝利。
22、信心、毅力、勇氣三者具備,則天下沒有做不成的事。23、如果你想得到,你就會得到,你所需要付出的只是行動。
24、一個缺口的杯子,如果換一個角度看它,它仍然是圓的。
25、對于每一個不利條件,都會存在與之相對應(yīng)的有利條件。
26、一個人的快樂,不是因為他擁有的多,而是他計較的少。
27、世間成事,不求其絕對圓滿,留一份不足,可得無限美好。
28記住:你是你生命的船長;走自己的路,何必在乎其它。
29、你要做多大的事情,就該承受多大的壓力。
30、如果你相信自己,你可以做任何事。
31、天空黑暗到一定程度,星辰就會熠熠生輝。
32、時間順流而下,生活逆水行舟。
33、生活充滿了選擇,而生活的態(tài)度就是一切。
34、人各有志,自己的路自己走。
35、別人的話只能作為一種參考,是不能左右自己的。
36、成功來自使我們成功的信念。
37、相互了解是朋友,相互理解是知己。
38、沒有所謂失敗,除非你不再嘗試。
39、有時可能別人不在乎你,但你不能不在乎自己。
40、你必須成功,因為你不能失敗。
41、羨慕別人得到的,不如珍惜自己擁有的。
42、喜歡一個人,就該讓他(她)快樂。
43、別把生活當(dāng)作游戲,誰游戲人生,生活就懲罰誰,這不是勸誡,而是--規(guī)則!
44、你要求的次數(shù)愈多,你就越容易得到你要的東西,而且連帶地也會得到更多樂趣。
45、把氣憤的心境轉(zhuǎn)化為柔和,把柔和的心境轉(zhuǎn)化為愛,如此,這個世間將更加完美。
46、一份耕耘,一份收獲,付出就有回報永不遭遇過失敗,因我所碰到的都是暫時的挫折。
47、心如鏡,雖外景不斷變化,鏡面卻不會轉(zhuǎn)動,這就是一顆平常心,能夠景轉(zhuǎn)而心不轉(zhuǎn)。
48、每件事情都必須有一個期限,否則,大多數(shù)人都會有多少時間就花掉多少時間。
49、人,其實不需要太多的東西,只要健康地活著,真誠地愛著,也不失為一種富有。
50、生命之長短殊不重要,只要你活得快樂,在有生之年做些有意義的事,便已足夠。
51、活在忙與閑的兩種境界里,才能俯仰自得,享受生活的樂趣,成就人生的意義。
52、一個從來沒有失敗過的人,必然是一個從未嘗試過什么的人。
53、待人退一步,愛人寬一寸,人生自然活得很快樂。
54、經(jīng)驗不是發(fā)生在一個人身上的事件,而是一個人如何看待發(fā)生在他身上的事。
55、加倍努力,證明你想要的不是空中樓閣。勝利是在多次失敗之后才姍姍而來。1、用愛心來做事,用感恩的心做人。56大數(shù)據(jù)時代
大數(shù)據(jù)時代
57大數(shù)據(jù)培訓(xùn)知識(-)課件58大數(shù)據(jù)培訓(xùn)知識(-)課件59目錄大數(shù)據(jù)的背景大數(shù)據(jù)的定義大數(shù)據(jù)的分類大數(shù)據(jù)的應(yīng)用大數(shù)據(jù)給我們帶來了什么大數(shù)據(jù)面臨的挑戰(zhàn)和趨勢大數(shù)據(jù)時代的統(tǒng)計目錄大數(shù)據(jù)的背景60一、大數(shù)據(jù)時代的背景21世紀(jì)是數(shù)據(jù)信息大發(fā)展的時代,移動互聯(lián)、社交網(wǎng)絡(luò)、電子商務(wù)等極大拓展了互聯(lián)網(wǎng)的邊界和應(yīng)用范圍,各種數(shù)據(jù)正在迅速膨脹并變大。互聯(lián)網(wǎng)(社交、搜索、電商)、移動互聯(lián)網(wǎng)(微博)、物聯(lián)網(wǎng)(傳感器,智慧地球)、車聯(lián)網(wǎng)、GPS、醫(yī)學(xué)影像、安全監(jiān)控、金融(銀行、股市、保險)、電信(通話、短信)都在瘋狂產(chǎn)生著數(shù)據(jù)?!按髷?shù)據(jù)”的誕生:半個世紀(jì)以來,隨著計算機技術(shù)全面融入社會生活,信息爆炸已經(jīng)積累到了一個開始引發(fā)變革的程度。它不僅使世界充斥著比以往更多的信息,而且其增長速度也在加快。信息爆炸式的增長,創(chuàng)造出了“大數(shù)據(jù)”這個概念*。如今,這個概念幾乎應(yīng)用到了所有人類智力與發(fā)展的領(lǐng)域中。一、大數(shù)據(jù)時代的背景21世紀(jì)是數(shù)據(jù)信息大發(fā)61全球每秒鐘發(fā)送2.9百萬封電子郵件,一分鐘讀一篇的話,足夠一個人晝夜不息的讀5.5年…每天會有
2.88萬個小時的視頻上傳到Y(jié)outube,足夠一個人晝夜不息的觀看3.3年…推特上每天發(fā)布5千萬條消息,假設(shè)10秒鐘瀏覽一條信息,這些消息足夠一個人晝夜不息的瀏覽16年…每天亞馬遜上將產(chǎn)生6.3百萬筆訂單…每個月網(wǎng)民在Facebook上要花費7千億分鐘,被移動互聯(lián)網(wǎng)使用者發(fā)送和接收的數(shù)據(jù)高達(dá)1.3EB…Google上每天需要處理24PB的數(shù)據(jù)…新的時代,人們從信息的被動接受者變成了主動創(chuàng)造者大數(shù)據(jù)時代到來全球每秒鐘發(fā)送2.9百萬封電子郵件,一分鐘讀一篇的話,足62TBPBZBEB大量新數(shù)據(jù)源的出現(xiàn)則導(dǎo)致了非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)爆發(fā)式的增長根據(jù)監(jiān)測,人類產(chǎn)生的數(shù)據(jù)量正在呈指數(shù)級增長,大約每兩年翻一番,這個速度在2020年之前會繼續(xù)保持下去。這意味著人類在最近兩年產(chǎn)生的數(shù)據(jù)量相當(dāng)于之前產(chǎn)生的全部數(shù)據(jù)量數(shù)據(jù)量增加數(shù)據(jù)結(jié)構(gòu)日趨復(fù)雜這些由我們創(chuàng)造的信息背后產(chǎn)生的這些數(shù)據(jù)早已經(jīng)遠(yuǎn)遠(yuǎn)超越了目前人力所能處理的范疇大數(shù)據(jù)時代正在來臨..大數(shù)據(jù)時代到來TBPBZBEB大量新數(shù)據(jù)源的出現(xiàn)則導(dǎo)致了非結(jié)構(gòu)化、半結(jié)構(gòu)化63二、大數(shù)據(jù)的定義
在2012年的IT業(yè)界中,“大數(shù)據(jù)”(BigData)成了關(guān)注度不斷提高的關(guān)鍵詞之一?!按髷?shù)據(jù)”是一個起源于歐美的詞匯。不過,關(guān)于這個詞的起源時間并不是十分清楚。至今為止,最具影響力的說法是2010年2月出版的?經(jīng)濟學(xué)家?(TheEconomist)雜志中的一篇題為“Thedatadeluge”的文章。其中,“deluge”的解釋是"數(shù)據(jù)洪流或海量數(shù)據(jù)"。那么,究竟何為大數(shù)據(jù)?一般來說,可以從狹義和廣義兩個層面來進行理解。二、大數(shù)據(jù)的定義64狹義的大數(shù)據(jù)
狹義的大數(shù)據(jù)就是指用現(xiàn)在的一般技術(shù)難以管理的大量數(shù)據(jù)的集合。大數(shù)據(jù)不僅僅是容量大而已,可以用3v來描述大數(shù)據(jù)的特征:Volume(容量)、Variety(多樣性)、Velocity(速度)。1.容量也就是指數(shù)據(jù)量,基本上是指從幾十TB到幾PB這樣的數(shù)量級;甚至可能發(fā)展到EB數(shù)量級。(1TB=1024GB,1PB=1024TB,1EB=1024PB)2.多樣性網(wǎng)站日志數(shù)據(jù)、Facebook等媒體中的文本數(shù)據(jù),智能手機中內(nèi)置的GPS所產(chǎn)生的位置信息,監(jiān)控攝像機的視頻數(shù)據(jù)等。3.速度也就是數(shù)據(jù)產(chǎn)生和更新的頻率。狹義的大數(shù)據(jù)狹義的大數(shù)據(jù)就是指用現(xiàn)在的一般技術(shù)難以65廣義的大數(shù)據(jù)廣義的大數(shù)據(jù)是一個綜合性的概念,它包括因具備3v特征而難以進行管理的數(shù)據(jù)對這些數(shù)據(jù)進行存儲、處理、分析的技術(shù)能夠通過分析這些數(shù)據(jù)獲得實用意義和觀點的人才和組織這些人才和組織指的是目前在歐美十分緊俏的“數(shù)據(jù)科學(xué)家”這類人才,以及能夠?qū)Υ髷?shù)據(jù)進行有效運用的組織。由此廣義的概念可知,除了自身的特征外,人才的作用在大數(shù)據(jù)時代中日益突出。廣義的大數(shù)據(jù)廣義的大數(shù)據(jù)是一個綜合性的概念,它包括66三、大數(shù)據(jù)的分類按生產(chǎn)主體劃分按數(shù)據(jù)來源劃分按存儲形式劃分三、大數(shù)據(jù)的分類按生產(chǎn)主體劃分67少量企業(yè)應(yīng)用產(chǎn)生的數(shù)據(jù)關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)數(shù)據(jù)倉庫中的數(shù)據(jù)微博、微信電子商務(wù)在線交易日志數(shù)據(jù)評論、留言或者電話投訴等企業(yè)應(yīng)用的相關(guān)評論數(shù)據(jù)應(yīng)用服務(wù)器日志傳感器數(shù)據(jù)(天氣、水、智能電網(wǎng)等)圖像和視頻(攝像頭監(jiān)控數(shù)據(jù)等)RFID、二維碼或條形碼掃描數(shù)據(jù)大量人產(chǎn)生的數(shù)據(jù)巨量機器產(chǎn)生的數(shù)據(jù)大數(shù)據(jù)的分類—按生產(chǎn)主體劃分少量企業(yè)應(yīng)用產(chǎn)生的數(shù)據(jù)關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)微博、微信應(yīng)用服務(wù)68
1、BAT為代表的互聯(lián)網(wǎng)公司。2、電信、金融、保險、電力、石化系統(tǒng)。3、公共安全、醫(yī)療、交通領(lǐng)域。4、氣象、教育、地理、政務(wù)等。5、其他,商業(yè)銷售、制造業(yè)、農(nóng)業(yè)、物流和流通等領(lǐng)域。大數(shù)據(jù)分類—按數(shù)據(jù)來源劃分大數(shù)據(jù)分類—按數(shù)據(jù)來源劃分69阿里巴巴目前保存的數(shù)據(jù)量為近百PB擁有90%以上的電商數(shù)據(jù)交易數(shù)據(jù)、用戶瀏覽和點擊網(wǎng)頁數(shù)據(jù)、購物數(shù)據(jù)2013數(shù)據(jù)總量接近一千個PB中文網(wǎng)頁、百度推廣、百度日志、UGC以70%以上的搜索市場份額坐擁龐大的搜索數(shù)據(jù)騰訊總存儲數(shù)據(jù)量經(jīng)壓縮處理以后在100PB左右數(shù)據(jù)量月增10%大量社交、游戲等領(lǐng)域積累的文本、音頻、視頻和關(guān)系類數(shù)據(jù)百度大數(shù)據(jù)分類——按數(shù)據(jù)來源劃分BAT為代表的互聯(lián)網(wǎng)公司阿里巴巴目前保存的數(shù)據(jù)量為近百PB2013數(shù)據(jù)總量接近一千個70電信行業(yè)用戶上網(wǎng)記錄、通話、信息、地理位置運營商擁有的數(shù)據(jù)數(shù)量都在10PB以上年度用戶數(shù)據(jù)增長約數(shù)十PB開戶信息數(shù)據(jù),銀行網(wǎng)點和在線交易數(shù)據(jù)、自身運營的數(shù)據(jù)金融系統(tǒng)每年產(chǎn)生數(shù)據(jù)達(dá)數(shù)十PB保險系統(tǒng)數(shù)據(jù)量也接近PB級別電力與石化僅國家電網(wǎng)采集獲得的數(shù)據(jù)總量就上10個PB級別石油化工、智能水表等領(lǐng)域每年產(chǎn)生和保存下來的數(shù)據(jù)量也達(dá)到數(shù)十PB級別。金融與保險大數(shù)據(jù)分類——按數(shù)據(jù)來源劃分電信、金融與保險、電力、石化系統(tǒng)電信行業(yè)用戶上網(wǎng)記錄、通話、信息、地理位置開戶信息數(shù)據(jù),銀行71公共安全北京:50萬個監(jiān)控攝像頭,每天采集視頻數(shù)據(jù)量約3PB整個視頻監(jiān)控每年保存下來的數(shù)據(jù)在數(shù)百PB以上僅廣州中山大學(xué)醫(yī)院2013年數(shù)據(jù)量為1000個TB整個醫(yī)療衛(wèi)生行業(yè)一年能夠保存下來的數(shù)據(jù)就可達(dá)到數(shù)百PB交通航班往返一次能產(chǎn)生數(shù)據(jù)就達(dá)到TB級別列車、水陸路運輸產(chǎn)生的各種視頻、文本類數(shù)據(jù),每年保存下來的也達(dá)到數(shù)十PB。醫(yī)療衛(wèi)生大數(shù)據(jù)分類——按數(shù)據(jù)來源劃分公共安全、醫(yī)療衛(wèi)生、交通領(lǐng)域公共安全北京:50萬個監(jiān)控攝像頭,每天采集視頻數(shù)據(jù)量約3PB72氣象與地理中國氣象局保存的數(shù)據(jù)約4~5PB,每年約增數(shù)百個TB各種地圖和地理位置信息每年約數(shù)十PB北京市政務(wù)數(shù)據(jù)資源網(wǎng)涵蓋旅游、教育、交通、醫(yī)療等門類,一年上線公布了400余個數(shù)據(jù)包政務(wù)數(shù)據(jù)多為結(jié)構(gòu)化數(shù)據(jù)政務(wù)與教育大數(shù)據(jù)分類——按數(shù)據(jù)來源劃分氣象、地里、教育、政務(wù)等領(lǐng)域氣象與地理中國氣象局保存的數(shù)據(jù)約4~5PB,每年約增數(shù)百個T73大數(shù)據(jù)分類——按數(shù)據(jù)來源劃分其他傳統(tǒng)行業(yè)線下商業(yè)銷售、農(nóng)林牧漁業(yè)、線下餐飲、食品、科研、物流運輸?shù)刃袠I(yè)數(shù)據(jù)量劇增行業(yè)數(shù)據(jù)量還處于積累期,整個體量都不算大,多則達(dá)到PB級別,少則百TB甚至數(shù)十TB級別。制造業(yè)制造業(yè)的存儲數(shù)據(jù)類型:產(chǎn)品設(shè)計數(shù)據(jù):以文件為主,非結(jié)構(gòu)化,共享要求較高,保存時間較長。企業(yè)生產(chǎn)環(huán)節(jié)的業(yè)務(wù)數(shù)據(jù):數(shù)據(jù)庫結(jié)構(gòu)化數(shù)據(jù)生產(chǎn)監(jiān)控數(shù)據(jù):數(shù)據(jù)量非常大商業(yè)銷售、制造業(yè)、農(nóng)業(yè)、物流和流通等領(lǐng)域大數(shù)據(jù)分類——按數(shù)據(jù)來源劃分其他傳統(tǒng)行業(yè)線下商業(yè)銷售、農(nóng)林牧74大數(shù)據(jù)分類—按存儲形式劃分
大數(shù)據(jù)不僅僅體現(xiàn)數(shù)據(jù)量大,也體現(xiàn)在數(shù)據(jù)類型多。如此海量的數(shù)據(jù)中,僅有20%左右屬于結(jié)構(gòu)化數(shù)據(jù),80%的數(shù)據(jù)屬于廣泛存在于社交網(wǎng)絡(luò)、物聯(lián)網(wǎng)、電子商務(wù)等領(lǐng)域的非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)。大數(shù)據(jù)分類—按存儲形式劃分大數(shù)據(jù)不僅僅體現(xiàn)數(shù)據(jù)量75大數(shù)據(jù)分類——按存儲形式劃分即行數(shù)據(jù),可用二維表結(jié)構(gòu)來邏輯表達(dá)實現(xiàn)主要存儲在關(guān)系型數(shù)據(jù)庫中先有結(jié)構(gòu)再有數(shù)據(jù),結(jié)構(gòu)一般不變處理起來較方便結(jié)構(gòu)化數(shù)據(jù)大數(shù)據(jù)分類——按存儲形式劃分即行數(shù)據(jù),可用二維表結(jié)構(gòu)來邏輯表76大數(shù)據(jù)分類——按存儲形式劃分相對于結(jié)構(gòu)化數(shù)據(jù)而言,不方便用數(shù)據(jù)庫二維邏輯表來表現(xiàn)非純文本類數(shù)據(jù),沒有標(biāo)準(zhǔn)格式包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報表、圖像和音頻/視頻信息存儲在非結(jié)構(gòu)數(shù)據(jù)庫中非結(jié)構(gòu)化WEB數(shù)據(jù)庫:突破了關(guān)系數(shù)據(jù)庫結(jié)構(gòu)定義不易改變和數(shù)據(jù)定長的限制非結(jié)構(gòu)化數(shù)據(jù)大數(shù)據(jù)分類——按存儲形式劃分相對于結(jié)構(gòu)化數(shù)據(jù)而言,不方便用數(shù)77大數(shù)據(jù)分類——按存儲形式劃分介于完全結(jié)構(gòu)化數(shù)據(jù)和完全無結(jié)構(gòu)的數(shù)據(jù)之間格式較為規(guī)范,一般都是純文本數(shù)據(jù)包括日志數(shù)據(jù)、XML、JSON等格式的數(shù)據(jù)一般是自描述的,數(shù)據(jù)的結(jié)構(gòu)和內(nèi)容混在一起,沒有明顯的區(qū)分?jǐn)?shù)據(jù)模型主要為樹和圖的形式。半結(jié)構(gòu)化數(shù)據(jù)大數(shù)據(jù)分類——按存儲形式劃分介于完全結(jié)構(gòu)化數(shù)據(jù)和完全無結(jié)構(gòu)的78四、大數(shù)據(jù)的應(yīng)用大數(shù)據(jù)在宏觀經(jīng)濟管理領(lǐng)域的應(yīng)用大數(shù)據(jù)在農(nóng)業(yè)領(lǐng)域的應(yīng)用大數(shù)據(jù)在商業(yè)領(lǐng)域的應(yīng)用大數(shù)據(jù)在金融業(yè)的應(yīng)用大數(shù)據(jù)在醫(yī)療衛(wèi)生領(lǐng)域的應(yīng)用大數(shù)據(jù)在社會管理中的應(yīng)用四、大數(shù)據(jù)的應(yīng)用大數(shù)據(jù)在宏觀經(jīng)濟管理領(lǐng)域的應(yīng)用79大數(shù)據(jù)在宏觀經(jīng)濟管理領(lǐng)域的應(yīng)用IBM日本公司建立了一個經(jīng)濟指標(biāo)預(yù)測系統(tǒng),它從互聯(lián)網(wǎng)新聞中搜索出影響制造業(yè)的480項經(jīng)濟數(shù)據(jù),再計算出PMI預(yù)測值,準(zhǔn)確度相當(dāng)高。印第安納大學(xué)學(xué)者利用Google提供的心情分析工具,根據(jù)用戶近千萬條短信、微博留言中預(yù)測道瓊斯工業(yè)指數(shù)。準(zhǔn)確率高達(dá)87%。淘寶網(wǎng)建立了“淘寶CPI”,它通過采集、編制淘寶網(wǎng)上390個類目的熱門商品價格來統(tǒng)計CPI,它比國家統(tǒng)計局公布的CPI還提前半個月預(yù)測經(jīng)濟的走勢。大數(shù)據(jù)在宏觀經(jīng)濟管理領(lǐng)域的應(yīng)用IBM日本公司建立了一個經(jīng)濟指80大數(shù)據(jù)在農(nóng)業(yè)領(lǐng)域的應(yīng)用Google前雇員創(chuàng)辦Climate公司,從美國氣象局等數(shù)據(jù)庫中獲得幾十年的天氣數(shù)據(jù),將各地的降雨、氣溫和土壤狀況及歷年農(nóng)作物產(chǎn)量做成精密圖表,從而能夠預(yù)測美國任一農(nóng)場下一年的產(chǎn)量。任何一個農(nóng)場主去他那里問明年種什么能賣出去、能賺錢,他能告訴你,說錯了他保證賠償,賠償比保險公司還要高,到現(xiàn)在為止他還沒有賠過。通過手機上農(nóng)產(chǎn)品“移動支付”數(shù)據(jù)、“采購?fù)度搿睌?shù)據(jù)和“補貼“數(shù)據(jù)分析,可準(zhǔn)確預(yù)測農(nóng)產(chǎn)品生產(chǎn)趨勢,政府可依此決定出臺激勵措施和確定合適的作物存儲量,還可為農(nóng)民提供服務(wù)。大數(shù)據(jù)在農(nóng)業(yè)領(lǐng)域的應(yīng)用Google前雇員創(chuàng)辦Climate公81大數(shù)據(jù)在商業(yè)領(lǐng)域的應(yīng)用沃爾瑪基于每個月4500萬的網(wǎng)絡(luò)購物數(shù)據(jù),并結(jié)合社交網(wǎng)絡(luò)上有關(guān)產(chǎn)品的大眾評分,開發(fā)機器學(xué)習(xí)語義搜索引擎“北極星“,方便瀏覽,在線購物者因此增加10%-15%,增加銷售十多億美元。當(dāng)顧客在超市買東西時,通過手機定位,可以分析他們在貨柜前停留時間的長短,從而判斷顧客對什么感興趣。不僅僅是通過手機定位,實際上美國有的超市在購物推車上也安裝了位置傳感器,根據(jù)顧客在不同貨物前停留時間的長短來分析顧客可能的購物行為。在淘寶網(wǎng)上買東西時,消費者會在阿里的廣告交易平臺上留下記錄,阿里不僅從交易平臺把消費記錄拿來自己使用,還會把消費記錄賣給其他商家。大數(shù)據(jù)在商業(yè)領(lǐng)域的應(yīng)用沃爾瑪基于每個月4500萬的網(wǎng)絡(luò)購物數(shù)82大數(shù)據(jù)在金融業(yè)的應(yīng)用華爾街某公司通過分析全球3.4億微博賬戶留言來判斷民眾情緒,人們高興的時候會買股票,而焦慮的時候會拋售股票,它通過判斷全世界高興的人多還是焦慮的人多,依此決定公司股票的買入或賣出。阿里公司根據(jù)在淘寶網(wǎng)上中小企業(yè)的交易狀況篩選出財務(wù)健康和誠信經(jīng)營的企業(yè),給他們提供貸款,并且不需要這些中小企業(yè)的擔(dān)保。目前阿里公司已放貸上千億元,壞帳率僅0.3%。2012年年底,四大商業(yè)銀行的壞賬率為1%左右,盡管四大銀行要求有擔(dān)保,但壞賬率仍然比阿里高出3倍。大數(shù)據(jù)在金融業(yè)的應(yīng)用華爾街某公司通過分析全球3.4億微博賬戶83大數(shù)據(jù)在醫(yī)療衛(wèi)生領(lǐng)域的應(yīng)用Google通過用戶搜索與流感相關(guān)詞匯的頻率,判斷某個地方可能會發(fā)生流感。2009年在甲型H1N1流感爆發(fā)的幾周前,Google就做出預(yù)測,而且還判斷出了流感是從哪里來的。大數(shù)據(jù)在醫(yī)療衛(wèi)生領(lǐng)域的應(yīng)用Google通過用戶搜索與流感相關(guān)84大數(shù)據(jù)在醫(yī)療衛(wèi)生領(lǐng)域的應(yīng)用根據(jù)麥肯錫的報告,醫(yī)療大數(shù)據(jù)的分析將為美國產(chǎn)生3000億美元的價值,減少8%的國家醫(yī)療保健支出。大數(shù)據(jù)在醫(yī)療衛(wèi)生領(lǐng)域的應(yīng)用根據(jù)麥肯錫的報告,醫(yī)療大數(shù)據(jù)的分析85大數(shù)據(jù)在社會管理中的應(yīng)用廣東東莞通過統(tǒng)計當(dāng)?shù)厥雏}銷售量與上年同期比較,判斷農(nóng)民工數(shù)量的變化。這與電信運營商根據(jù)活躍移動用戶數(shù)的變化所推出的數(shù)據(jù)幾乎相當(dāng)。根據(jù)手機用戶從這個路口到那個路口所花費的時間,可以判斷馬路上是不是流量比較多,是否擁堵。根據(jù)有多少個手機在同時移動,大致可以了解發(fā)生突發(fā)事件時的人流聚集情況,還可以通過手機的注冊地進一步分析機主究竟是從哪里來的。騰訊為每個微博用戶建立了檔案,可以從微博帖子分析用戶的性格,提前關(guān)注可能引起社會不穩(wěn)定的因素。大數(shù)據(jù)在社會管理中的應(yīng)用廣東東莞通過統(tǒng)計當(dāng)?shù)厥雏}銷售量與上年86五、大數(shù)據(jù)帶來了什么?大數(shù)據(jù)既催生出無數(shù)新的服務(wù)和商業(yè)模式,也讓一些傳統(tǒng)行業(yè)找到了新的機會,同時產(chǎn)生了對“數(shù)據(jù)科學(xué)家”這種新興復(fù)合型人才的迫切需求。但是,數(shù)據(jù)運用和隱私保護之間到底應(yīng)該如何權(quán)衡,也成了一個令各方勢力爭論不休的話題。所以,對于大數(shù)據(jù)帶來的影響,必須從積極影響和消極影響兩個層面來分析。五、大數(shù)據(jù)帶來了什么?大數(shù)據(jù)既催生出無數(shù)新的服務(wù)和87積極影響
首先,大數(shù)據(jù)有利于推動中國新四化轉(zhuǎn)型。新四化是指新型工業(yè)化、信息化、城鎮(zhèn)化和農(nóng)業(yè)現(xiàn)代化。大數(shù)據(jù)將會改變?nèi)祟惿钌a(chǎn)方式,可以為新四化提供轉(zhuǎn)變發(fā)展方式的新動力。1.大數(shù)據(jù)可以強力啟動內(nèi)需;2.大數(shù)據(jù)可以推動城鎮(zhèn)化以智慧城市的新方式發(fā)展;3.大數(shù)據(jù)有利于改進政府管理方式;4.大數(shù)據(jù)產(chǎn)業(yè)將會形成新的增長點。
積極影響首先,大數(shù)據(jù)有利于推動中國新四化轉(zhuǎn)型。88
其次,大數(shù)據(jù)將對微觀經(jīng)濟產(chǎn)生重大影響。
IBM的CEO羅睿蘭說:“數(shù)據(jù)將是下一個大的自然資源,將會區(qū)分每個行業(yè)的勝者與輸家?!盜BM的全球調(diào)查顯示:表現(xiàn)優(yōu)秀的企業(yè)使用分析技術(shù)的數(shù)量比表現(xiàn)較差的企業(yè)高五倍。1.未來以政府、電信、教育、醫(yī)療、金融、石油石化和電力等行業(yè)為重點的大數(shù)據(jù)應(yīng)用,將直接拉動整個社會的應(yīng)用規(guī)模;2.數(shù)據(jù)業(yè)務(wù)將成為各行各業(yè)的主營業(yè)務(wù),圍繞大數(shù)據(jù),企業(yè)將向分析級服務(wù)升級轉(zhuǎn)型,從而改變各行各業(yè)的業(yè)態(tài);3.廣義的分析級服務(wù)得到大發(fā)展,包含一切以大數(shù)據(jù)為基礎(chǔ)的高附加值的創(chuàng)新型服務(wù)。其次,大數(shù)據(jù)將對微觀經(jīng)濟產(chǎn)生重大影響。89
再次,大數(shù)據(jù)的發(fā)展有利于促進新興職業(yè)的發(fā)展。
在大數(shù)據(jù)浪潮的沖擊下,一門新興職業(yè)即“數(shù)據(jù)分析師”(數(shù)據(jù)科學(xué)家)正在以勢不可擋的氣勢涌現(xiàn)。大數(shù)據(jù)使勞動力市場迅速出現(xiàn)了變化,數(shù)據(jù)分析師成為炙手可熱的行業(yè)。麥肯錫全球研究所進行過一次調(diào)查,根據(jù)調(diào)查預(yù)計,美國需要14萬名至19萬名以上具備深度分析專長的人員。而對具備數(shù)據(jù)知識的經(jīng)理的需求量超過150萬名。一個在業(yè)界不可言喻的現(xiàn)象出現(xiàn)了,數(shù)據(jù)分析師已經(jīng)能夠成為最為搶手的熱門職業(yè)。
再次,大數(shù)據(jù)的發(fā)展有利于促進新興職業(yè)的發(fā)展。90消極影響
關(guān)于大數(shù)據(jù)所帶來的消極影響主要表現(xiàn)為大數(shù)據(jù)運用和隱私保護之間的矛盾。要在業(yè)務(wù)中對大數(shù)據(jù)進行運用,就不可避免的會遇到隱私問題。
首先,對web上的用戶個人信息、行為記錄等進行收集,在未經(jīng)用戶許可的情況下將數(shù)據(jù)轉(zhuǎn)讓給廣告商等第三方,這種行為嚴(yán)重侵犯了用戶的個人隱私權(quán),而且會對其造成一定程度的危害;其次,網(wǎng)頁上的行為記錄,如瀏覽記錄和購買記錄等,如果進行了相當(dāng)數(shù)量的積累,則有可能據(jù)此推斷出個人的興趣、愛好、思想傾向等。而對于用戶來說,他們很不希望這些信息被別人知道,所以在心理上會感覺到自己的隱私受到了侵犯。消極影響關(guān)于大數(shù)據(jù)所帶來的消極影響主要表現(xiàn)為91
在今天,關(guān)于隱私是一個很大的問題,而且以后這個問題還會越來越嚴(yán)重,會被人們高度關(guān)注。所以,對于企業(yè)來說,不僅要遵守正式法律的限制,而且不能逾越顧客所能接受的最低底線。必須時刻把用戶的地位放在首位,盡可能的多為顧客提供便利,盡最大努力贏得用戶的理解和支持。在今天,關(guān)于隱私是一個很大的問題,而且以后這個92六、大數(shù)據(jù)面臨的挑戰(zhàn)和趨勢
從大數(shù)據(jù)帶來的影響可知,大數(shù)據(jù)浪潮既是一種機遇也是一種挑戰(zhàn),必須權(quán)衡利弊。
趨勢隨著大數(shù)據(jù)浪潮的加速到來,將出現(xiàn)產(chǎn)業(yè)鏈的整體繁榮。如何在大數(shù)據(jù)浪潮的洗禮中確保技術(shù)架構(gòu)、人才、政府和企業(yè)戰(zhàn)略以及商業(yè)模式能夠“逐浪潮頭”,將更需要積極主動的選擇合適的技術(shù)、方法論、解決方案和發(fā)展策略等。六、大數(shù)據(jù)面臨的挑戰(zhàn)和趨勢從大數(shù)據(jù)帶來的影響可93
環(huán)顧整個市場,我們在某些領(lǐng)域已經(jīng)取得了突破性進展,但是,仍然面臨著大量挑戰(zhàn)。例如:研發(fā)分析各種多元結(jié)構(gòu)化數(shù)據(jù)的高效技術(shù),提高大數(shù)據(jù)分析的易用性,讓大數(shù)據(jù)分析技術(shù)實現(xiàn)“開箱即用”,使得數(shù)據(jù)分析成為政府和企業(yè)建立核心競爭力的關(guān)鍵途徑。另外,具備高端數(shù)據(jù)分析技能,能夠從堆積如山的大量數(shù)據(jù)中找到金礦,并能夠?qū)?shù)據(jù)的價值以易懂的方式傳達(dá)給決策者,最終得以在業(yè)務(wù)上實現(xiàn)的人才即數(shù)據(jù)科學(xué)家是千金難求的。挑戰(zhàn)挑戰(zhàn)94七、大數(shù)據(jù)時代的統(tǒng)計大數(shù)據(jù)時代就不需要統(tǒng)計了嗎?有人認(rèn)為大數(shù)據(jù)時代,數(shù)據(jù)的來源更加直接、多元,并且數(shù)據(jù)的“樣本=總體”,想要的結(jié)論直接就能看出來,已經(jīng)不需要統(tǒng)計了。
這種認(rèn)知,顯然是錯誤的七、大數(shù)據(jù)時代的統(tǒng)計大數(shù)據(jù)時代就不需要統(tǒng)計了嗎?95首先,并不是所有的數(shù)據(jù)都可以直接在網(wǎng)絡(luò)上得到的,很多數(shù)據(jù)需要統(tǒng)計部門組織專業(yè)的調(diào)查才能得到,比如,農(nóng)業(yè)生產(chǎn)方面的數(shù)據(jù)、人口分布等等。其次,大數(shù)據(jù)告知信息,但不解釋數(shù)據(jù),即使把大數(shù)據(jù)的信息公布出來,大部分民眾依然不知道數(shù)據(jù)要表達(dá)的信息。統(tǒng)計依然是數(shù)據(jù)分析的靈魂。首先,并不是所有的數(shù)據(jù)都可以直接在網(wǎng)絡(luò)上得到的,很多96大數(shù)據(jù)時代的到來,給統(tǒng)計帶來機遇,也帶來了挑戰(zhàn)。2014年1月,國家統(tǒng)計局網(wǎng)上轉(zhuǎn)載了“中國統(tǒng)計,‘向大數(shù)據(jù)時代’邁進!”(
/tjgz/tjdt/201401/t20140108_497003.html)那么,大數(shù)據(jù)時代到底給統(tǒng)計帶來了那些沖擊和挑戰(zhàn)?大數(shù)據(jù)時代的到來,給統(tǒng)計帶來機遇,也帶來了挑戰(zhàn)。971.大數(shù)據(jù)對統(tǒng)計的沖擊對統(tǒng)計理念的沖擊對統(tǒng)計生產(chǎn)流程的沖擊對政府統(tǒng)計職能的沖擊1.大數(shù)據(jù)對統(tǒng)計的沖擊對統(tǒng)計理念的沖擊98對統(tǒng)計理念的沖擊1.大數(shù)據(jù)改變了數(shù)據(jù)的需求層次過去,由于人類的認(rèn)知能力有限,獲取大范圍數(shù)據(jù)比較困難,傳統(tǒng)的統(tǒng)計是通過觀察一小部分樣本來推測總體,但是推測的數(shù)據(jù)反映的是總體趨勢,往往無法應(yīng)用到個體。大數(shù)據(jù)時代的來臨,使人類可以有機會和條件在非常多的領(lǐng)域和非常深入的層次獲得全面數(shù)據(jù),在此基礎(chǔ)上形成的的數(shù)據(jù)可以更加偏向個體情況,更加符合個體的感知,滿足個性化需求。對統(tǒng)計理念的沖擊1.大數(shù)據(jù)改變了數(shù)據(jù)的需求層次99對統(tǒng)計理念的沖擊2.大數(shù)據(jù)改變了統(tǒng)計實證的研究范式傳統(tǒng)的統(tǒng)計遵循自上而下的實證研究范式,即先從經(jīng)濟理論或社會經(jīng)驗出發(fā),根據(jù)理論設(shè)定指標(biāo),再去利用統(tǒng)計數(shù)據(jù)進行實證分析。然而大數(shù)據(jù)采用的是自下而上的數(shù)據(jù)挖掘范式,以數(shù)據(jù)為先導(dǎo)從大量的實際數(shù)據(jù)中挖掘數(shù)據(jù)之間的關(guān)系并建立模型,乃至形成理論和新的認(rèn)知。這種研究范式是對傳統(tǒng)統(tǒng)計研究范式的一種顛覆。對統(tǒng)計理念的沖擊2.大數(shù)據(jù)改變了統(tǒng)計實證的研究范式100對統(tǒng)計生產(chǎn)流程的沖擊制度設(shè)計的多樣化傳統(tǒng)的統(tǒng)計設(shè)計是根據(jù)統(tǒng)計研究的目的和研究對象的特點,設(shè)定統(tǒng)計指標(biāo)、統(tǒng)計報表以及調(diào)查、匯總方法等制度,通過調(diào)查、訪問將生產(chǎn)行為轉(zhuǎn)化為可量化的數(shù)據(jù)。
大數(shù)據(jù)下的制度,面對的是已存在的或者通過一定手段可以獲取的大量數(shù)據(jù),需要解決的問題是怎么用這些數(shù)據(jù)。對統(tǒng)計生產(chǎn)流程的沖擊制度設(shè)計的多樣化101對統(tǒng)計生產(chǎn)流程的沖擊數(shù)據(jù)采集智能化傳統(tǒng)的統(tǒng)計是通過結(jié)構(gòu)化的報表和統(tǒng)一的計量方式將調(diào)查對象的行為轉(zhuǎn)化為可用的數(shù)據(jù),需要被調(diào)查者的參與,一旦調(diào)查對象不配合,或者采用虛報、瞞報、亂報的方式消極配合,統(tǒng)計數(shù)據(jù)的質(zhì)量難以控制,并且矯正這些調(diào)查誤差的成本很高。
大數(shù)據(jù)時代,互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計算等技術(shù)講大大提高數(shù)據(jù)采集的智能化水平,數(shù)據(jù)來源于信息技術(shù)記錄下的原始數(shù)據(jù),想要篡改這些數(shù)據(jù)非常困難,數(shù)據(jù)的質(zhì)量將會大大提高。對統(tǒng)計生產(chǎn)流程的沖擊數(shù)據(jù)采集智能化102對統(tǒng)計生產(chǎn)流程的沖擊數(shù)據(jù)分析專業(yè)化傳統(tǒng)的統(tǒng)計分析是根據(jù)統(tǒng)計制度設(shè)計的要求以及研究對象的認(rèn)知,對采集上來的結(jié)構(gòu)化統(tǒng)計數(shù)據(jù)進行計算分析,重點描述過去的這段時間發(fā)生的變化,對未來的發(fā)展情況進行統(tǒng)計意義上的預(yù)測。大數(shù)據(jù)背景下的數(shù)據(jù)分析,面對的大量的已存在于計算機、網(wǎng)絡(luò)中的海量數(shù)據(jù),所要做的是分析挖掘數(shù)據(jù)之間的內(nèi)在關(guān)系,尋找更多有價值的信息,在這種背景下,需要專業(yè)化的數(shù)據(jù)挖掘與處理技術(shù)對統(tǒng)計生產(chǎn)流程的沖擊數(shù)據(jù)分析專業(yè)化103對統(tǒng)計生產(chǎn)流程的沖擊數(shù)據(jù)發(fā)布透明化大數(shù)據(jù)時代,由于數(shù)據(jù)的大量存儲和共享,統(tǒng)計數(shù)據(jù)發(fā)布的公開透明程度將會極高,沒有公開詳細(xì)、公允計算方法的數(shù)據(jù)將會被其他數(shù)據(jù)替代。在發(fā)布結(jié)果上,僅僅告訴個別人結(jié)果,是遠(yuǎn)遠(yuǎn)不夠的,還需要通過可視化、交互等方式給予用戶更加方便、高效的使用方式,提供更為詳盡的信息。對統(tǒng)計生產(chǎn)流程的沖擊數(shù)據(jù)發(fā)布透明化104對政府統(tǒng)計職能的沖擊大數(shù)據(jù)時代,各種數(shù)據(jù)信息網(wǎng)絡(luò)平臺全面覆蓋,每個社會單位都是數(shù)據(jù)的生產(chǎn)者和提供者,數(shù)據(jù)存儲于信息平臺的所有者手中,政府統(tǒng)計機構(gòu)不再是數(shù)據(jù)的絕對擁有者,也不再是數(shù)據(jù)的唯一發(fā)布者和解釋人。如果政府統(tǒng)計機構(gòu)繼續(xù)在靜態(tài)的框架下封閉運行,就無法反映經(jīng)濟社會發(fā)展的變化情況,無法實現(xiàn)統(tǒng)計信息、統(tǒng)計咨詢和實行統(tǒng)計監(jiān)督功能,勢必被邊緣化對政府統(tǒng)計職能的沖擊大數(shù)據(jù)時代,各種數(shù)據(jù)信息網(wǎng)絡(luò)平臺1052.大數(shù)據(jù)時代政府統(tǒng)計的發(fā)展趨勢大數(shù)據(jù)時代,政府統(tǒng)計應(yīng)該成為社會經(jīng)濟發(fā)展的權(quán)威、全面數(shù)據(jù)的主要提供者,是政府掌握的有關(guān)社會管理和運行的行政記錄信息標(biāo)準(zhǔn)規(guī)范制定者和數(shù)據(jù)結(jié)果發(fā)布者。政府統(tǒng)計應(yīng)整合多方行政記錄信息,結(jié)合自身采集數(shù)據(jù)補充,構(gòu)建權(quán)威的社會經(jīng)濟數(shù)據(jù)在線平臺。作為數(shù)據(jù)整合發(fā)布的維護部門。
2.大數(shù)據(jù)時代政府統(tǒng)計的發(fā)展趨勢大數(shù)據(jù)時代,政府統(tǒng)計1063.借力大數(shù)據(jù)加速政府統(tǒng)計改改為了轉(zhuǎn)變政府統(tǒng)計的角色,需要全面改進當(dāng)前的政府統(tǒng)計在獲取、整理和分析客觀事物總體數(shù)量方面的資料的工作過程,重塑統(tǒng)計基礎(chǔ)、強化技術(shù)支承、推動應(yīng)用社會化,全面提升
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 中國生化培養(yǎng)箱行業(yè)市場調(diào)查研究及投資戰(zhàn)略研究報告
- 知識助力未來解讀生物多樣性與可持續(xù)發(fā)展教育的重要聯(lián)系與探索路徑
- 2025年中國穿地龍行業(yè)市場深度分析及投資潛力預(yù)測報告
- 2021-2026年中國汽車安全檢測設(shè)備市場全面調(diào)研及行業(yè)投資潛力預(yù)測報告
- 山西省特色小鎮(zhèn)標(biāo)準(zhǔn)體系構(gòu)建及其適用性評價研究
- 中國餐具衛(wèi)具用品項目投資可行性研究報告
- 敬畏對大學(xué)生社交焦慮的影響-小我和相對剝奪感的中介作用
- 小孩改姓申請書模板
- 電商平臺下的農(nóng)產(chǎn)品供應(yīng)鏈優(yōu)化策略
- 中國中藥注射劑行業(yè)市場發(fā)展現(xiàn)狀及投資方向研究報告
- NB/T 11526-2024煤礦微震監(jiān)測系統(tǒng)通用技術(shù)條件
- 2025年福建長汀金龍稀土有限公司招聘筆試參考題庫含答案解析
- (2024)云南省公務(wù)員考試《行測》真題及答案解析
- 公司安全事故隱患內(nèi)部舉報、報告獎勵制度
- 統(tǒng)編版語文五年級下冊 《古詩三首》公開課一等獎創(chuàng)新教學(xué)設(shè)計及反思
- 工程倫理-第章工程與倫理通用PPT課件
- 我眼中的中國發(fā)展(課堂PPT)
- 稻谷品質(zhì)測定指標(biāo)及方法
- 公司面試評價表
- 航空煤油 MSDS 安全技術(shù)說明書
- 機關(guān)事業(yè)單位工作人員年考核民主測評表
評論
0/150
提交評論