大數(shù)據(jù)導論 教案全套 林子雨 第1-7章 大數(shù)據(jù)概述-數(shù)據(jù)處理與分析_第1頁
大數(shù)據(jù)導論 教案全套 林子雨 第1-7章 大數(shù)據(jù)概述-數(shù)據(jù)處理與分析_第2頁
大數(shù)據(jù)導論 教案全套 林子雨 第1-7章 大數(shù)據(jù)概述-數(shù)據(jù)處理與分析_第3頁
大數(shù)據(jù)導論 教案全套 林子雨 第1-7章 大數(shù)據(jù)概述-數(shù)據(jù)處理與分析_第4頁
大數(shù)據(jù)導論 教案全套 林子雨 第1-7章 大數(shù)據(jù)概述-數(shù)據(jù)處理與分析_第5頁
已閱讀5頁,還剩142頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

教案內(nèi)容第1章大數(shù)據(jù)概述1.1數(shù)據(jù)1.1.1數(shù)據(jù)的概念數(shù)據(jù)是指對客觀事件進行記錄并可以鑒別的符號,是對客觀事物的性質(zhì)、狀態(tài)以及相互關(guān)系等進行記載的物理符號或這些物理符號的組合,是可識別的、抽象的符號。數(shù)據(jù)和信息是兩個不同的概念,信息是較為宏觀的概念,它由數(shù)據(jù)的有序排列組合而成,傳達給讀者某個概念方法等,而數(shù)據(jù)則是構(gòu)成信息的基本單位,離散的數(shù)據(jù)沒有任何實用價值。數(shù)據(jù)也被稱為“未來的石油”。1.1.2數(shù)據(jù)類型文本、圖片、音頻、視頻1.1.3數(shù)據(jù)組織形式計算機系統(tǒng)中的數(shù)據(jù)組織形式主要有兩種,即文件和數(shù)據(jù)庫。(1)文件:計算機系統(tǒng)中的很多數(shù)據(jù)都是以文件形式存在的,比如一個WORD文件、一個文本文件、一個網(wǎng)頁文件、一個圖片文件等等(2)數(shù)據(jù)庫:計算機系統(tǒng)中另一種非常重要的數(shù)據(jù)組織形式就是數(shù)據(jù)庫,今天,數(shù)據(jù)庫已經(jīng)成為計算機軟件開發(fā)的基礎(chǔ)和核心。1.1.4數(shù)據(jù)的使用第一步數(shù)據(jù)清洗,第二步數(shù)據(jù)管理,第三步數(shù)據(jù)分析數(shù)據(jù)使用的實例:數(shù)據(jù)倉庫1.1.5數(shù)據(jù)的價值性在過去,一旦數(shù)據(jù)的基本用途實現(xiàn)了,往往就會被刪除,一方面是由于過去的存儲技術(shù)落后,人們需要刪除舊數(shù)據(jù)來存儲新數(shù)據(jù),另一方面則是人們沒有認識到數(shù)據(jù)的潛在價值。數(shù)據(jù)的價值不會因為不斷被使用而削減,反而會因為不斷重組而產(chǎn)生更大的價值。各類收集來的數(shù)據(jù)都應(yīng)當被盡可能長時間地保存下來,同時也應(yīng)當在一定條件下與全社會分享,并產(chǎn)生價值。1.1.6數(shù)據(jù)爆炸人類進入信息社會以后,數(shù)據(jù)以自然方式增長,其產(chǎn)生不以人的意志為轉(zhuǎn)移。從1986年開始到2010年的20年時間里,全球數(shù)據(jù)的數(shù)量增長了100倍,今后的數(shù)據(jù)量增長速度將更快,我們正生活在一個“數(shù)據(jù)爆炸”的時代。1.2大數(shù)據(jù)時代1.2.1第三次信息化浪潮根據(jù)IBM前首席執(zhí)行官郭士納的觀點,IT領(lǐng)域每隔十五年就會迎來一次重大變革表1-1三次信息化浪潮信息化浪潮發(fā)生時間標志解決問題代表企業(yè)第一次浪潮1980年前后個人計算機信息處理Intel、AMD、IBM、蘋果、微軟、聯(lián)想、戴爾、惠普等第二次浪潮1995年前后互聯(lián)網(wǎng)信息傳輸雅虎、谷歌、阿里巴巴、百度、騰訊等第三次浪潮2010年前后物聯(lián)網(wǎng)、云計算和大數(shù)據(jù)信息爆炸將涌現(xiàn)出一批新的市場標桿企業(yè)1.2.2信息科技為大數(shù)據(jù)時代提供技術(shù)支撐1.存儲設(shè)備容量不斷增加2.CPU處理能力大幅提升在信息化基礎(chǔ)設(shè)施方面,據(jù)工業(yè)和信息化部官網(wǎng)消息,截至2019年12月底,我國互聯(lián)網(wǎng)寬帶接入端口數(shù)量達9.16億個,其中,光纖接入端口占互聯(lián)網(wǎng)接入端口的比重達91.3%;光纜線路總長度已達4750萬公里,相當于在京滬高鐵線上往返1.8萬余次。同時,近五年來固定寬帶和移動寬帶資費平均下降90%,速率提升6倍。目前,我國已基本實現(xiàn)“城市光纖到樓入戶,農(nóng)村寬帶進鄉(xiāng)入村”。據(jù)中國信息通信研究院(簡稱中國信通院)數(shù)據(jù),截至2020年2月底,全國建設(shè)開通5G基站達16.4萬個,5G網(wǎng)絡(luò)建設(shè)基礎(chǔ)不斷夯實。2020年中國將建設(shè)60萬~80萬個5G基站。3.網(wǎng)絡(luò)帶寬不斷增加1.2.3數(shù)據(jù)產(chǎn)生方式的變革促成大數(shù)據(jù)時代的來臨1.3大數(shù)據(jù)的發(fā)展歷程階段時間內(nèi)容第一階段:萌芽期上世紀90年代至本世紀初隨著數(shù)據(jù)挖掘理論和數(shù)據(jù)庫技術(shù)的逐步成熟,一批商業(yè)智能工具和知識管理技術(shù)開始被應(yīng)用,如數(shù)據(jù)倉庫、專家系統(tǒng)、知識管理系統(tǒng)等。第二階段:成熟期本世紀前十年Web2.0應(yīng)用迅猛發(fā)展,非結(jié)構(gòu)化數(shù)據(jù)大量產(chǎn)生,傳統(tǒng)處理方法難以應(yīng)對,帶動了大數(shù)據(jù)技術(shù)的快速突破,大數(shù)據(jù)解決方案逐漸走向成熟,形成了并行計算與分布式系統(tǒng)兩大核心技術(shù),谷歌的GFS和MapReduce等大數(shù)據(jù)技術(shù)受到追捧,Hadoop平臺開始大行其道。第三階段:大規(guī)模應(yīng)用期2010年以后大數(shù)據(jù)應(yīng)用滲透各行各業(yè),數(shù)據(jù)驅(qū)動決策,信息社會智能化程度大幅提高。1.4世界各國的大數(shù)據(jù)發(fā)展戰(zhàn)略國家戰(zhàn)略美國穩(wěn)步實施“三步走”戰(zhàn)略,打造面向未來的大數(shù)據(jù)創(chuàng)新生態(tài)英國緊抓大數(shù)據(jù)產(chǎn)業(yè)機遇,應(yīng)對脫歐后的經(jīng)濟挑戰(zhàn)法國通過發(fā)展創(chuàng)新性解決方案并應(yīng)用于實踐來促進大數(shù)據(jù)發(fā)展韓國以大數(shù)據(jù)等技術(shù)為核心應(yīng)對第四次工業(yè)革命日本開放公共數(shù)據(jù),夯實應(yīng)用開發(fā)中國實施國家大數(shù)據(jù)戰(zhàn)略,加快建設(shè)數(shù)字中國1.4.1美國美國是率先將大數(shù)據(jù)從商業(yè)概念上升至國家戰(zhàn)略的國家,通過穩(wěn)步實施“三步走”戰(zhàn)略,在大數(shù)據(jù)技術(shù)研發(fā)、商業(yè)應(yīng)用以及保障國家安全等方面已全面構(gòu)筑起全球領(lǐng)先優(yōu)勢。第一步是快速部署大數(shù)據(jù)核心技術(shù)研究,并在部分領(lǐng)域積極開發(fā)大數(shù)據(jù)應(yīng)用。第二步是調(diào)整政策框架與法律規(guī)章,積極應(yīng)對大數(shù)據(jù)發(fā)展帶來的隱私保護等問題。第三步是強化數(shù)據(jù)驅(qū)動的體系和能力建設(shè),為提升國家整體競爭力提供長遠保障。1.4.2英國英國政府于2010上線政府數(shù)據(jù)網(wǎng)站D.uk,同美國的D平臺功能類似,但主要側(cè)重于大數(shù)據(jù)信息挖掘和獲取能力的提升。在2012年發(fā)布了新的政府數(shù)字化戰(zhàn)略,實現(xiàn)大數(shù)據(jù)驅(qū)動的社會經(jīng)濟增長2013年英國政府加大了對大數(shù)據(jù)領(lǐng)域研究的資金支持。1.4.3法國2011年7月,法國啟動了開放數(shù)據(jù)項目,通過實現(xiàn)公共數(shù)據(jù)在移動終端上的使用,最大限度地挖掘數(shù)據(jù)的應(yīng)用價值。項目內(nèi)容涉及交通、文化、旅游和環(huán)境等領(lǐng)域。2013年12月,法國政府發(fā)布《數(shù)字化路線圖》,明確了大數(shù)據(jù)是未來要大力支持的戰(zhàn)略性高新技術(shù)。此外,法國中小企業(yè)、創(chuàng)新和數(shù)字經(jīng)濟部推出大數(shù)據(jù)規(guī)劃,在2013年至2018年在法國巴黎等地創(chuàng)建大數(shù)據(jù)孵化器。1.4.4韓國韓國的智能終端普及率以及移動互聯(lián)網(wǎng)接入速度一直位居世界前列,這使得其數(shù)據(jù)產(chǎn)出量也達到了世界先進水平。在樸槿惠政府倡導的“創(chuàng)意經(jīng)濟”國家發(fā)展方針指導下,韓國多個部門提出了具體的大數(shù)據(jù)發(fā)展計劃。2016年年底,韓國發(fā)布以大數(shù)據(jù)等技術(shù)為基礎(chǔ)的《智能信息社會中長期綜合對策》,以積極應(yīng)對第四次工業(yè)革命的挑戰(zhàn)。1.4.5日本2010年5月,日本發(fā)達信息通信網(wǎng)絡(luò)社會推進戰(zhàn)略本部發(fā)布了以實現(xiàn)國民本位的電子政府、加強地區(qū)間的互助關(guān)系等為目標的《信息通信技術(shù)新戰(zhàn)略》。2012年6月,日本IT戰(zhàn)略本部發(fā)布電子政務(wù)開放數(shù)據(jù)戰(zhàn)略草案。2012年7月,日本政府推出了《面向2020年的ICT綜合戰(zhàn)略》,大數(shù)據(jù)成為發(fā)展的重點。2013年6月,日本公布新IT戰(zhàn)略——創(chuàng)新最尖端IT國家宣言,明確了2013-2020年期間以發(fā)展開放公共數(shù)據(jù)為核心的日本新IT國家戰(zhàn)略。1.4.6中國2015年8月,國務(wù)院印發(fā)了《促進大數(shù)據(jù)發(fā)展行動綱要》。黨的十八屆五中全會將大數(shù)據(jù)上升為國家戰(zhàn)略。在黨的十九大報告中,習近平總書記明確指出:“推動互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能和實體經(jīng)濟深度融合”。2018年4月22日-24日,首屆“數(shù)字中國”建設(shè)峰會在福建省福州市舉行。1.5大數(shù)據(jù)的概念1.5.1數(shù)據(jù)量大根據(jù)IDC作出的估測,數(shù)據(jù)一直都在以每年50%的速度增長,也就是說每兩年就增長一倍(大數(shù)據(jù)摩爾定律)。人類在最近兩年產(chǎn)生的數(shù)據(jù)量相當于之前產(chǎn)生的全部數(shù)據(jù)量。預計到2020年,全球?qū)⒖偣矒碛?5ZB的數(shù)據(jù)量,相較于2010年,數(shù)據(jù)量將增長近30倍。1.5.2數(shù)據(jù)類型繁多大數(shù)據(jù)是由結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)組成的10%的結(jié)構(gòu)化數(shù)據(jù),存儲在數(shù)據(jù)庫中90%的非結(jié)構(gòu)化數(shù)據(jù),它們與人類信息密切相關(guān)1.5.3處理速度快從數(shù)據(jù)的生成到消耗,時間窗口非常小,可用于生成決策的時間非常少。1秒定律:這一點也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。1.5.4價值密度低 價值密度低,商業(yè)價值高。 以視頻為例,連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅有一兩秒,但是具有很高的商業(yè)價值。1.6大數(shù)據(jù)的影響1.6.1大數(shù)據(jù)對科學研究的影響圖靈獎獲得者、著名數(shù)據(jù)庫專家JimGray博士觀察并總結(jié)人類自古以來,在科學研究上,先后歷經(jīng)了實驗、理論、計算和數(shù)據(jù)四種范式。1.6.2大數(shù)據(jù)對社會發(fā)展的影響大數(shù)據(jù)決策逐漸成為一種新的決策方式。大數(shù)據(jù)成為提升國家治理能力的新途徑。大數(shù)據(jù)應(yīng)用有力促進了信息技術(shù)與各行業(yè)的深度融合。大數(shù)據(jù)開發(fā)大大推動了新技術(shù)和新應(yīng)用的不斷涌現(xiàn)。1.6.3大數(shù)據(jù)對就業(yè)市場的影響大數(shù)據(jù)的興起使得數(shù)據(jù)科學家成為熱門職業(yè)。麥肯錫報告,到2018年,在“具有深入分析能力的人才”方面,美國面臨著14萬到19萬的缺口,“可以利用大數(shù)據(jù)分析來做出有效決策的經(jīng)理和分析師”缺口則會達到150萬。國內(nèi)有大數(shù)據(jù)專家估算過,5年內(nèi)國內(nèi)的大數(shù)據(jù)人才缺口會達到130萬,以大數(shù)據(jù)應(yīng)用較多的互聯(lián)網(wǎng)金融為例,這一行業(yè)每年增速達到4倍,屆時,僅互聯(lián)網(wǎng)金融需要的大數(shù)據(jù)人才就是現(xiàn)在需求的4倍以上。根據(jù)第四屆中國貴州人才博覽會發(fā)布《全國大數(shù)據(jù)人才需求指數(shù)報告》,2016年2月份,貴陽大數(shù)據(jù)人才月薪已逼近8000元。1.6.4大數(shù)據(jù)對人才培養(yǎng)的影響大數(shù)據(jù)時代到底需要什么樣的人才?一是計算機技術(shù)相關(guān)人才,包括平臺搭建和應(yīng)用開發(fā)二是統(tǒng)計學相關(guān)人才,包括數(shù)學、建模、算法三是業(yè)務(wù)人才,就是要有一定的專業(yè)領(lǐng)域知識,只有明白目標領(lǐng)域知識的人才能了解數(shù)據(jù)的意義以及指導數(shù)據(jù)分析的方向并判斷數(shù)據(jù)分析結(jié)果的可信性1.7大數(shù)據(jù)的應(yīng)用大數(shù)據(jù)無處不在,包括金融、汽車、零售、餐飲、電信、能源、政務(wù)、醫(yī)療、體育、娛樂等在內(nèi)的社會各行各業(yè)都已經(jīng)融入了大數(shù)據(jù)的印跡就企業(yè)而言,對大數(shù)據(jù)的掌握程度可以轉(zhuǎn)化為經(jīng)濟價值的源泉。就政府而言,大數(shù)據(jù)的發(fā)展將會提高政府科學決策水平,改變政府傳統(tǒng)“拍腦袋”式?jīng)Q策,變?yōu)橛脭?shù)據(jù)說話,利用大數(shù)據(jù)分析社會、經(jīng)濟、人文生活等規(guī)律,從而為國家宏觀調(diào)控、戰(zhàn)略決策、產(chǎn)業(yè)布局等夯實根基。在醫(yī)療領(lǐng)域,大數(shù)據(jù)也有不俗表現(xiàn)。大數(shù)據(jù)也悄然地影響著綠茵場上強弱的較量。1.8大數(shù)據(jù)產(chǎn)業(yè)大數(shù)據(jù)產(chǎn)業(yè)是指一切與支撐大數(shù)據(jù)組織管理和價值發(fā)現(xiàn)相關(guān)的企業(yè)經(jīng)濟活動的集合。產(chǎn)業(yè)鏈環(huán)節(jié)包含內(nèi)容IT基礎(chǔ)設(shè)施層包括提供硬件、軟件、網(wǎng)絡(luò)等基礎(chǔ)設(shè)施以及提供咨詢、規(guī)劃和系統(tǒng)集成服務(wù)的企業(yè),比如,提供數(shù)據(jù)中心解決方案的IBM、惠普和戴爾等,提供存儲解決方案的EMC,提供虛擬化管理軟件的微軟、思杰、SUN、Redhat等數(shù)據(jù)源層大數(shù)據(jù)生態(tài)圈里的數(shù)據(jù)提供者,是生物大數(shù)據(jù)(生物信息學領(lǐng)域的各類研究機構(gòu))、交通大數(shù)據(jù)(交通主管部門)、醫(yī)療大數(shù)據(jù)(各大醫(yī)院、體檢機構(gòu))、政務(wù)大數(shù)據(jù)(政府部門)、電商大數(shù)據(jù)(淘寶、天貓、蘇寧云商、京東等電商)、社交網(wǎng)絡(luò)大數(shù)據(jù)(微博、微信、人人網(wǎng)等)、搜索引擎大數(shù)據(jù)(百度、谷歌等)等各種數(shù)據(jù)的來源數(shù)據(jù)管理層包括數(shù)據(jù)抽取、轉(zhuǎn)換、存儲和管理等服務(wù)的各類企業(yè)或產(chǎn)品,比如分布式文件系統(tǒng)(如Hadoop的HDFS和谷歌的GFS)、ETL工具(Informatica、Datastage、Kettle等)、數(shù)據(jù)庫和數(shù)據(jù)倉庫(Oracle、MySQL、SQLServer、HBase、GreenPlum等)數(shù)據(jù)分析層包括提供分布式計算、數(shù)據(jù)挖掘、統(tǒng)計分析等服務(wù)的各類企業(yè)或產(chǎn)品,比如,分布式計算框架MapReduce、統(tǒng)計分析軟件SPSS和SAS、數(shù)據(jù)挖掘工具Weka、數(shù)據(jù)可視化工具Tableau、BI工具(MicroStrategy、Cognos、BO)等數(shù)據(jù)平臺層包括提供數(shù)據(jù)分享平臺、數(shù)據(jù)分析平臺、數(shù)據(jù)租售平臺等服務(wù)的企業(yè)或產(chǎn)品,比如阿里巴巴、谷歌、中國電信、百度等數(shù)據(jù)應(yīng)用層提供智能交通、智慧醫(yī)療、智能物流、智能電網(wǎng)等行業(yè)應(yīng)用的企業(yè)、機構(gòu)或政府部門,比如交通主管部門、各大醫(yī)療機構(gòu)、菜鳥網(wǎng)絡(luò)、國家電網(wǎng)等1.9高校大數(shù)據(jù)專業(yè)

1.9.1大數(shù)據(jù)專業(yè)的人才培養(yǎng)目標大數(shù)據(jù)專業(yè)致力于培養(yǎng)符合國家戰(zhàn)略及大數(shù)據(jù)產(chǎn)業(yè)發(fā)展需求,具備較好的數(shù)據(jù)素養(yǎng)和數(shù)理基礎(chǔ)、扎實的編程基礎(chǔ)以及大數(shù)據(jù)基礎(chǔ)知識與技能,熟練掌握大數(shù)據(jù)采集、預處理、存儲、處理、分析、應(yīng)用技術(shù),能夠運用大數(shù)據(jù)思維、模型和工具解決實際問題的高級復合型人才。大數(shù)據(jù)專業(yè)的畢業(yè)生能在互聯(lián)網(wǎng)企業(yè)、金融機構(gòu)、科研院所、高等院校等從事大數(shù)據(jù)分析、挖掘、處理、服務(wù)、應(yīng)用和研究工作,亦可從事各行業(yè)大數(shù)據(jù)系統(tǒng)的集成、設(shè)計、開發(fā)、管理、維護等工作,也適合在高等院校及科研院所的相關(guān)交叉學科繼續(xù)深造。1.9.2畢業(yè)生就業(yè)崗位1.9.3大數(shù)據(jù)專業(yè)知識體系從學科角度而言,大數(shù)據(jù)可以理解為一個跨多學科領(lǐng)域的,從數(shù)據(jù)中獲取知識的科學方法、技術(shù)和系統(tǒng)的集合。因此,大數(shù)據(jù)專業(yè)知識體系涵蓋了計算機、數(shù)學、統(tǒng)計學等多個學科領(lǐng)域,結(jié)合了諸多領(lǐng)域中的理論和技術(shù),包括應(yīng)用數(shù)學、統(tǒng)計學、模式識別、機器學習、人工智能、深度學習、數(shù)據(jù)可視化、數(shù)據(jù)挖掘、數(shù)據(jù)倉庫、分布式計算、云計算、系統(tǒng)架構(gòu)設(shè)計等。從大數(shù)據(jù)分析角度而言(如圖所示),典型的大數(shù)據(jù)分析過程包括:數(shù)據(jù)采集與預處理、數(shù)據(jù)存儲與管理、數(shù)據(jù)處理與分析、數(shù)據(jù)可視化等。因此,大數(shù)據(jù)專業(yè)知識體系涵蓋了數(shù)據(jù)采集與預處理技術(shù)、數(shù)據(jù)存儲與管理技術(shù)、數(shù)據(jù)處理與分析技術(shù)、數(shù)據(jù)可視化技術(shù)等。同時,在分析過程中,對商業(yè)領(lǐng)域的業(yè)務(wù)知識也需要一定的理解。1.9.4大數(shù)據(jù)專業(yè)課程體系大數(shù)據(jù)專業(yè)課程體系涵蓋通識教育課、學科基礎(chǔ)課、專業(yè)基礎(chǔ)課、專業(yè)核心課和專業(yè)課,具體如下:(1)通識教育課:思政類課程、軍體類課程、外語課、創(chuàng)新創(chuàng)業(yè)課等;(2)學科基礎(chǔ)課:高等數(shù)學、線性代數(shù)、概率論與數(shù)理統(tǒng)計等;(3)專業(yè)基礎(chǔ)課:程序設(shè)計、計算機系統(tǒng)基礎(chǔ)及組成原理、離散數(shù)學、計算機網(wǎng)絡(luò)、算法與數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)庫系統(tǒng)、操作系統(tǒng)、軟件工程等;(4)專業(yè)核心課:大數(shù)據(jù)導論、網(wǎng)絡(luò)爬蟲與數(shù)據(jù)采集、數(shù)據(jù)清洗、NoSQL數(shù)據(jù)庫、數(shù)據(jù)可視化、分布式并行編程、機器學習等;(5)專業(yè)課:云計算、數(shù)據(jù)安全、數(shù)據(jù)倉庫、數(shù)據(jù)挖掘等。1.9.5大數(shù)據(jù)專業(yè)的編程語言1.C語言C語言是一門面向過程的計算機編程語言,與C++、Java等面向?qū)ο缶幊陶Z言有所不同。C語言的設(shè)計目標是提供一種能以簡易的方式編譯、處理低級存儲器、僅產(chǎn)生少量的機器碼以及不需要任何運行環(huán)境支持便能運行的編程語言。C語言描述問題比匯編語言迅速、工作量小、可讀性好、易于調(diào)試、修改和移植,而代碼質(zhì)量與匯編語言相當。C語言一般只比匯編語言代碼生成的目標程序效率低10%~20%。因此,C語言可以編寫系統(tǒng)軟件。C語言在一些編程語言排行榜中長期排在第一的位置。C語言具有很多優(yōu)點,主要如下:(1)它具有現(xiàn)代高級程序設(shè)計語言的基本語法特征,并且是編寫操作系統(tǒng)的首選語言,與計算機硬件打交道時靈巧且高效,目前幾乎所有的操作系統(tǒng)(如Windows、Unix和Linux等)均是由C語言編寫的;(2)常用的面向?qū)ο蟪绦蛟O(shè)計語言(例如C++和Java),其基本語法源于C語言。C語言甚至是其它編程語言的母語言,比如Java語言就是用C語言編寫的。(3)簡潔緊湊,靈活方便。C語言一共只有32個關(guān)鍵字,9種控制語句,程序書寫自由,主要用小寫字母表示,它把高級語言的基本結(jié)構(gòu)和語句與低級語言的實用性結(jié)合了起來。C語言一般作為學習計算機程序設(shè)計語言的入門語言。2.C++C++是C語言的繼承,是一門以C為基礎(chǔ)發(fā)展而來的、面向?qū)ο蟮母呒壋绦蛟O(shè)計語言,它既可以進行C語言的過程化程序設(shè)計,又可以進行以繼承和多態(tài)為特點的面向?qū)ο蟮某绦蛟O(shè)計。C++不僅擁有計算機高效運行的實用性特征,同時還致力于提高大規(guī)模程序的編程質(zhì)量與程序設(shè)計語言的問題描述能力。C++的優(yōu)點主要包括:(1)實現(xiàn)了面向?qū)ο蟪绦蛟O(shè)計,處理運行速度非??欤蟛糠值挠螒蜍浖际怯蒀++來編寫的。(2)語言非常靈活,功能非常強大。(3)非常嚴謹、精確和數(shù)理化,標準定義很細致。(4)語言的語法思路層次分明。大數(shù)據(jù)領(lǐng)域的不少產(chǎn)品都是使用C++開發(fā)的(即產(chǎn)品本身是由C++編寫的),包括一些NoSQL數(shù)據(jù)庫(ScyllaDB、MongoDB、Aerospike、Kudu、SequoiaDB)、數(shù)據(jù)倉庫Impala、實時流計算框架Hurricane和Heron、資源調(diào)度框架Mesos等。但是,談到大數(shù)據(jù)開發(fā)語言,C++要明顯遜色于Java,很多大數(shù)據(jù)應(yīng)用程序(比如Hadoop程序等)都是使用Java開發(fā)的,而不是使用C++。3.JavaJava是目前最熱門的編程語言之一,在一些編程語言排行榜中長期排在前三名。雖然Java沒有和R、Python一樣好的可視化功能,也不是統(tǒng)計建模的最佳工具,但是,如果需要建立一個龐大的應(yīng)用系統(tǒng),那么Java通常會是較為理想的選擇。由于Java具有簡單、面向?qū)ο蟆⒎植际?、魯棒、安全、體系結(jié)構(gòu)中立、可移植、高性能、多線程以及動態(tài)性等諸多優(yōu)良特性,因此,被大量應(yīng)用于企業(yè)大型系統(tǒng)開發(fā)中,企業(yè)對于Java人才的需求一直比較旺盛。Java語言與大數(shù)據(jù)存在較為緊密的聯(lián)系,Java在大數(shù)據(jù)領(lǐng)域有著廣泛的應(yīng)用,是大數(shù)據(jù)應(yīng)用程序開發(fā)的常用語言。作為大數(shù)據(jù)領(lǐng)域熱門的大數(shù)據(jù)處理框架Hadoop和Flink等,其框架本身都是采用Java語言開發(fā)的,編寫Hadoop應(yīng)用程序也首選Java語言。而目前熱門的分布式計算框架Spark,也支持采用Java語言編寫應(yīng)用程序。4.PythonPython是目前國內(nèi)外很多大學里流行的入門語言,學習門檻低,簡單易用,開發(fā)員可以使用Python來構(gòu)建桌面應(yīng)用程序和Web應(yīng)用程序,此外,Python在學術(shù)界備受歡迎,常被用于科學計算、數(shù)據(jù)分析和生物信息學等領(lǐng)域。Python是最近幾年發(fā)展最為迅速的編程語言,在一些編程語言排行榜當中甚至已經(jīng)進入了前三名。Python的主要優(yōu)點如下:(1)可以使用多種執(zhí)行方式??梢灾苯釉诿钚袌?zhí)行相關(guān)命令,也可以用函數(shù)的方式執(zhí)行相關(guān)命令,或者也可以用面向?qū)ο蟮姆绞綀?zhí)行相關(guān)命令。(2)語法簡潔,且強制縮格,程序具有很好的可讀性。(3)跨平臺。支持多種開發(fā)平臺,如Windows、Linux、MacOSX、Solaris等。(4)面向?qū)ο?。Python既支持面向過程,又支持面向?qū)ο?,這使得其編程更加靈活。(5)豐富的第三方庫。Python有豐富且強大的庫,而且由于Python的開源特性,第三方庫非常多,如Web開發(fā)、爬蟲、科學計算等。在數(shù)據(jù)分析領(lǐng)域,Python是廣受歡迎的編程語言,網(wǎng)絡(luò)數(shù)據(jù)采集(比如網(wǎng)絡(luò)爬蟲)、數(shù)據(jù)清洗、數(shù)據(jù)分析與挖掘、數(shù)據(jù)可視化等環(huán)節(jié),通常都使用Python語言編寫程序。5.ScalaScala是一門類似Java的多范式語言,它整合了面向?qū)ο缶幊毯秃瘮?shù)式編程的最佳特性,具有諸多優(yōu)點,主要包括以下幾個方面:(1)具備強大的并發(fā)性,支持函數(shù)式編程,可以更好地支持分布式系統(tǒng);(2)Scala兼容Java,可以與Java互操作;(3)Scala代碼簡潔優(yōu)雅;(4)Scala支持高效的交互式編程;(5)Scala是Spark的開發(fā)語言。Spark是當前熱門的大數(shù)據(jù)處理技術(shù),開發(fā)Spark應(yīng)用程序時,首選編程語言是Scala,因為Spark框架自身就是使用Scala語言開發(fā)的,用Scala語言編寫Spark應(yīng)用程序,可以獲得最高的性能。Spark的流行也迅速提升了Scala的影響力。流計算框架Flink的部分模塊也是使用Scala語言開發(fā)的,也可以使用Scala語言編寫Flink應(yīng)用程序。6.R語言R是專門為統(tǒng)計和數(shù)據(jù)分析開發(fā)的語言,具有數(shù)據(jù)建模、統(tǒng)計分析和可視化等功能,簡單易上手。R語言主要具有如下優(yōu)點:(1)免費開源。R的源代碼可以自由下載使用,也有已編譯的可執(zhí)行文件版本可以下載。(2)簡單易學。雖然R與其他程序設(shè)計語言相比結(jié)構(gòu)相對松散,使用變量前不需要明確定義變量類型等,但是,仍然保留了程序設(shè)計語言的基礎(chǔ)邏輯與自然的語言風格。(3)幾乎兼容全部平臺。除了支持OSX、Linux、Windows之外,甚至可以在iOS設(shè)備上編輯和運行R程序,還可以在iPhone等移動設(shè)備上安裝R程序。(4)多領(lǐng)域的統(tǒng)計資源。學者和數(shù)據(jù)分析師開發(fā)了很多R語言包,涉及到統(tǒng)計的各個方面,資源很豐富。(5)出色的圖形統(tǒng)計功能。除了基本統(tǒng)計直方圖、折線圖等,還可以繪制一些高級的圖形,而這些是SPSS這類軟件所不能匹敵的。總體而言,R和Python都是比較流行的數(shù)據(jù)分析語言。相對而言,數(shù)學和統(tǒng)計領(lǐng)域的工作者更多使用R語言,而計算機領(lǐng)域的工作者更多使用Python。大數(shù)據(jù)處理框架Spark也提供了對R語言的支持。1.10本章小結(jié)人類已經(jīng)步入大數(shù)據(jù)時代,我們的生活被數(shù)據(jù)所“環(huán)繞”,并被數(shù)據(jù)深刻變革。作為大數(shù)據(jù)時代的公民,我們應(yīng)該接近數(shù)據(jù),了解數(shù)據(jù),并利用好數(shù)據(jù)。因此,本章首先從數(shù)據(jù)入手,講解了數(shù)據(jù)的概念、類型、組織形式、數(shù)據(jù)價值等內(nèi)容,然后,把視角切入到大數(shù)據(jù)時代,介紹了大數(shù)據(jù)時代到來的背景及其發(fā)展歷程。接下來,討論了大數(shù)據(jù)的“4V”特性以及大數(shù)據(jù)對科學研究、社會發(fā)展、就業(yè)市場和人才培養(yǎng)的影響,并簡要介紹了大數(shù)據(jù)在不同領(lǐng)域的應(yīng)用和大數(shù)據(jù)產(chǎn)業(yè)。最后,對高校大數(shù)據(jù)專業(yè)的建設(shè)做了簡要探討。教案內(nèi)容2.1云計算2.1.1云計算概念云計算概念:通過網(wǎng)絡(luò)、以服務(wù)的方式,為千家萬戶提供非常廉價的IT資源云計算特點:超大規(guī)模計算、虛擬化、高可靠性和安全性、通用性、動態(tài)擴展性、按需服務(wù)、降低成本傳統(tǒng)IT資源獲取方式:自建機房(1)初期成本高,周期長(2)后期需要自己維護,使用成本高(3)IT資源供應(yīng)量有限云計算:企業(yè)不需要自建IT基礎(chǔ)設(shè)施,可以租用云端資源(1)初期零成本,瞬時可獲得(2)后期免維護,使用成本低(3)在供應(yīng)IT資源量方面“予取予求”2.1.2云計算服務(wù)模式和類型2.1.3云計算數(shù)據(jù)中心數(shù)據(jù)中心是云計算的溫床。云計算推動數(shù)據(jù)中心向虛擬化和云架構(gòu)的轉(zhuǎn)型,不斷提高IT基礎(chǔ)架構(gòu)的靈活性,以降低IT、能源和空間成本,從而讓客戶能夠快速地提高業(yè)務(wù)敏捷性。2.1.4云計算的應(yīng)用政務(wù)云上可以部署公共安全管理、容災(zāi)備份、城市管理、應(yīng)急管理、智能交通、社會保障等應(yīng)用,通過集約化建設(shè)、管理和運行,可以實現(xiàn)信息資源整合和政務(wù)資源共享,推動政務(wù)管理創(chuàng)新,加快向服務(wù)型政府轉(zhuǎn)型教育云可以有效整合幼兒教育、中小學教育、高等教育以及繼續(xù)教育等優(yōu)質(zhì)教育資源,逐步實現(xiàn)教育信息共享、教育資源共享及教育資源深度挖掘等目標中小企業(yè)云能夠讓企業(yè)以低廉的成本建立財務(wù)、供應(yīng)鏈、客戶關(guān)系等管理應(yīng)用系統(tǒng),大大降低企業(yè)信息化門檻,迅速提升企業(yè)信息化水平,增強企業(yè)市場競爭力。醫(yī)療云可以推動醫(yī)院與醫(yī)院、醫(yī)院與社區(qū)、醫(yī)院與急救中心、醫(yī)院與家庭之間的服務(wù)共享,并形成一套全新的醫(yī)療健康服務(wù)系統(tǒng),從而有效地提高醫(yī)療保健的質(zhì)量。2.1.5云計算產(chǎn)業(yè)云計算產(chǎn)業(yè)作為戰(zhàn)略性新興產(chǎn)業(yè),近些年得到了迅速發(fā)展,形成了成熟的產(chǎn)業(yè)鏈結(jié)構(gòu),產(chǎn)業(yè)涵蓋硬件與設(shè)備制造、基礎(chǔ)設(shè)施運營、軟件與解決方案供應(yīng)商、基礎(chǔ)設(shè)施即服務(wù)(IaaS)、平臺即服務(wù)(PaaS)、軟件即服務(wù)(SaaS)、終端設(shè)備、云安全、云計算交付/咨詢/認證等環(huán)節(jié)。2.2物聯(lián)網(wǎng)2.2.1物聯(lián)網(wǎng)的概念物聯(lián)網(wǎng)是物物相連的互聯(lián)網(wǎng),是互聯(lián)網(wǎng)的延伸,它利用局部網(wǎng)絡(luò)或互聯(lián)網(wǎng)等通信技術(shù)把傳感器、控制器、機器、人員和物等通過新的方式聯(lián)在一起,形成人與物、物與物相聯(lián),實現(xiàn)信息化和遠程管理控制。圖2-7物聯(lián)網(wǎng)體系架構(gòu)2.2.2物聯(lián)網(wǎng)關(guān)鍵技術(shù)物聯(lián)網(wǎng)中的關(guān)鍵技術(shù)包括識別和感知技術(shù)(二維碼、RFID、傳感器等)、網(wǎng)絡(luò)與通信技術(shù)、數(shù)據(jù)挖掘與融合技術(shù)等。2.2.3物聯(lián)網(wǎng)的應(yīng)用物聯(lián)網(wǎng)已經(jīng)廣泛應(yīng)用于智能交通、智慧醫(yī)療、智能家居、環(huán)保監(jiān)測、智能安防、智能物流、智能電網(wǎng)、智慧農(nóng)業(yè)、智能工業(yè)等領(lǐng)域,對國民經(jīng)濟與社會發(fā)展起到了重要的推動作用。2.2.4物聯(lián)網(wǎng)產(chǎn)業(yè)完整的物聯(lián)網(wǎng)產(chǎn)業(yè)鏈主要包括核心感應(yīng)器件提供商、感知層末端設(shè)備提供商、網(wǎng)絡(luò)提供商、軟件與行業(yè)解決方案提供商、系統(tǒng)集成商、運營及服務(wù)提供商等六大環(huán)節(jié)。物聯(lián)網(wǎng)產(chǎn)業(yè)鏈2.3大數(shù)據(jù)與云計算、物聯(lián)網(wǎng)的關(guān)系云計算、大數(shù)據(jù)和物聯(lián)網(wǎng)代表了IT領(lǐng)域最新的技術(shù)發(fā)展趨勢,三者既有區(qū)別又有聯(lián)系。大數(shù)據(jù)、云計算和物聯(lián)網(wǎng)之間的關(guān)系2.4大數(shù)據(jù)與人工智能2.4.1人工智能概念人工智能(ArtificialIntelligence),英文縮寫為AI,是研究、開發(fā)用于模擬、延伸和擴展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學。人工智能是計算機科學的一個分支,它企圖了解智能的實質(zhì),并生產(chǎn)出一種新的能以與人類智能相似的方式做出反應(yīng)的智能機器,該領(lǐng)域的研究包括機器人、語言識別、圖像識別、自然語言處理和專家系統(tǒng)等。2.4.2人工智能關(guān)鍵技術(shù)人工智能包含了機器學習、知識圖譜、自然語言處理、人機交互、計算機視覺、生物特征識別、AR/VR等7個關(guān)鍵技術(shù)。1.機器學習強調(diào)三個關(guān)鍵詞:算法、經(jīng)驗、性能,其處理過程如圖所示。在數(shù)據(jù)的基礎(chǔ)上,通過算法構(gòu)建出模型并對模型進行評估。評估的性能如果達到要求,就用該模型來測試其他的數(shù)據(jù);如果達不到要求,就要調(diào)整算法來重新建立模型,再次進行評估。如此循環(huán)往復,最終獲得滿意的模型來處理其他數(shù)據(jù)。2.知識圖譜知識圖譜(KnowledgeGraph)又稱為科學知識圖譜,在圖書情報界稱為知識域可視化或知識領(lǐng)域映射地圖,是顯示知識發(fā)展進程與結(jié)構(gòu)關(guān)系的一系列各種不同的圖形,用可視化技術(shù)描述知識資源及其載體,挖掘、分析、構(gòu)建、繪制和顯示知識及它們之間的相互聯(lián)系。3.自然語言處理自然語言處理是計算機科學領(lǐng)域與人工智能領(lǐng)域中的一個重要方向。它研究能實現(xiàn)人與計算機之間用自然語言進行有效通信的各種理論和方法。自然語言處理的應(yīng)用包羅萬象,例如:機器翻譯、手寫體和印刷體字符識別、語音識別、信息檢索、信息抽取與過濾、文本分類與聚類、輿情分析和觀點挖掘等4.人機交互人機交互是一門研究系統(tǒng)與用戶之間的交互關(guān)系的學科。系統(tǒng)可以是各種各樣的機器,也可以是計算機化的系統(tǒng)和軟件。人機交互界面通常是指用戶可見的部分。用戶通過人機交互界面與系統(tǒng)交流,并進行操作。人機交互是與認知心理學、人機工程學、多媒體技術(shù)、虛擬現(xiàn)實技術(shù)等密切相關(guān)的綜合學科。5.計算機視覺計算機視覺是一門研究如何使機器“看”的科學,更進一步地說,是指用攝影機和電腦代替人眼對目標進行識別、跟蹤和測量的機器視覺,并進一步做圖形處理,成為更適合人眼觀察或傳送給儀器檢測的圖像。6.生物特征識別生物特征識別技術(shù)涉及的內(nèi)容十分廣泛,包括指紋、掌紋、人臉、虹膜、指靜脈、聲紋、步態(tài)等多種生物特征,其識別過程涉及到圖像處理、計算機視覺、語音識別、機器學習等多項技術(shù)。7.VR/AR虛擬現(xiàn)實(VR)/增強現(xiàn)實(AR)是以計算機為核心的新型視聽技術(shù)。結(jié)合相關(guān)科學技術(shù),在一定范圍內(nèi)生成與真實環(huán)境在視覺、聽覺、觸感等方面高度近似的數(shù)字化環(huán)境。2.4.3人工智能的應(yīng)用1.智能制造智能制造(IntelligentManufacturing,IM)是一種由智能機器和人類專家共同組成的人機一體化智能系統(tǒng),它在制造過程中能進行智能活動,諸如分析、推理、判斷、構(gòu)思和決策等2.智能家居智能家居通過物聯(lián)網(wǎng)技術(shù)將家中的各種設(shè)備(如音視頻設(shè)備、照明系統(tǒng)、窗簾控制、空調(diào)控制、安防系統(tǒng)、數(shù)字影院系統(tǒng)、影音服務(wù)器、影柜系統(tǒng)、網(wǎng)絡(luò)家電等)連接到一起,提供家電控制、照明控制、電話遠程控制、室內(nèi)外遙控、防盜報警、環(huán)境監(jiān)測、暖通控制、紅外轉(zhuǎn)發(fā)以及可編程定時控制等多種功能和手段3.智能金融人工智能與金融的全面融合,以人工智能、大數(shù)據(jù)、云計算、區(qū)塊鏈等高新科技為核心要素,全面賦能金融機構(gòu),提升金融機構(gòu)的服務(wù)效率,拓展金融服務(wù)的廣度和深度,使得全社會都能獲得平等、高效、專業(yè)的金融服務(wù),實現(xiàn)金融服務(wù)的智能化、個性化、定制化。人工智能在金融領(lǐng)域的應(yīng)用如下:(1)智能獲取客戶(2)身份識別(3)大數(shù)據(jù)風控(4)智能投資顧問(5)智能客服(6)金融云4.智能交通智能交通是未來交通系統(tǒng)的發(fā)展方向,它是將先進的信息技術(shù)、數(shù)據(jù)通訊傳輸技術(shù)、電子傳感技術(shù)、控制技術(shù)及計算機技術(shù)等有效地集成運用于整個地面交通管理系統(tǒng)而建立的一種在大范圍內(nèi)、全方位發(fā)揮作用的,實時、準確、高效的綜合交通運輸管理系統(tǒng)。5.智能安防智能安防是兼顧了整體城市管理系統(tǒng)、環(huán)保監(jiān)測系統(tǒng)、交通管理系統(tǒng)、應(yīng)急指揮系統(tǒng)等應(yīng)用的綜合體系。特別是車聯(lián)網(wǎng)的興起,在公共交通管理上、車輛事故處理上、車輛偷盜防范上可以更加快捷準確的跟蹤定位處理。還可以隨時隨地的通過車輛獲取更加精準的災(zāi)難事故信息、道路流量信息、車輛位置信息、公共設(shè)施安全信息、氣象信息等等信息來源。6.智能醫(yī)療借助于物聯(lián)網(wǎng)/云計算技術(shù)、人工智能的專家系統(tǒng)、嵌入式系統(tǒng)的智能化設(shè)備,可以構(gòu)建起完善的物聯(lián)網(wǎng)醫(yī)療體系,使全民平等地享受頂級的醫(yī)療服務(wù),解決或減少由于醫(yī)療資源缺乏,導致看病難、醫(yī)患關(guān)系緊張、事故頻發(fā)等現(xiàn)象。7.智能物流使用智能搜索、推理規(guī)劃、計算機視覺以及智能機器人等技術(shù),實現(xiàn)貨物運輸過程的自動化運作和高效率優(yōu)化管理,提高物流效率。8.智能零售人工智能在零售領(lǐng)域的應(yīng)用已經(jīng)十分廣泛,無人便利店、智慧供應(yīng)鏈、客流統(tǒng)計等等都是的熱門方向。2.4.4人工智能產(chǎn)業(yè)1.智能基礎(chǔ)設(shè)施建設(shè)(1)智能芯片(2)智能傳感器(3)分布式計算框架2.智能信息和數(shù)據(jù)在人工智能數(shù)據(jù)采集、存儲、處理和分析方面的企業(yè)主要有兩種:一種是數(shù)據(jù)集提供商;另一種是數(shù)據(jù)采集、存儲、處理和分析綜合性廠商。3.智能技術(shù)服務(wù)提供人工智能的技術(shù)平臺和算法模型提供人工智能的整體解決方案提供人工智能在線服務(wù)4.智能產(chǎn)品智能機器人智能運載工具智能終端自然語言處理計算機視覺生物特征識別VR/AR人機交互2.4.5大數(shù)據(jù)與人工智能的關(guān)系人工智能和大數(shù)據(jù)的百度指數(shù)1.人工智能與大數(shù)據(jù)的聯(lián)系人工智能需要數(shù)據(jù)來建立其智能,特別是機器學習大數(shù)據(jù)技術(shù)為人工智能提供了強大的存儲能力和計算能力2.人工智能與大數(shù)據(jù)的區(qū)別人工智能與大數(shù)據(jù)也存在著明顯的區(qū)別,人工智能是一種計算形式,而大數(shù)據(jù)是一種傳統(tǒng)計算,它不會根據(jù)結(jié)果采取行動,只是尋找結(jié)果二者要達成的目標和實現(xiàn)目標的手段不同2.5大數(shù)據(jù)與區(qū)塊鏈2.5.1從比特幣說起2008年10月31日,中本聰?shù)谋忍貛耪撐摹侗忍貛?一種點對點的電子現(xiàn)金系統(tǒng)》,2009年1月3日,在位于芬蘭赫爾辛基的服務(wù)器上,至今匿名的神秘技術(shù)極客中本聰生成了第一個比特幣區(qū)塊,即所謂的比特幣“創(chuàng)世區(qū)塊”2.5.2區(qū)塊鏈原理1.從記賬開始講起2.比特幣要解決的第一個問題:防篡改3、在比特幣的世界中如何進行交易4.比特幣要解決的第二個問題:去中心化記賬哈希函數(shù)的作用:將任意長度的字符串,轉(zhuǎn)變成固定長度的輸出(比如256位),輸出的值就被稱為哈希值。在每個區(qū)塊上,增加區(qū)塊頭,其中記錄了父區(qū)塊的哈希值。通過每個區(qū)塊存儲父區(qū)塊的哈希值,把所有區(qū)塊按照順序組織起來,形成區(qū)塊鏈。比特幣和區(qū)塊鏈的本質(zhì):就是一個人人可見的大賬本,只記錄交易。核心技術(shù):通過密碼學+數(shù)據(jù)結(jié)構(gòu),保證賬本記錄不被篡改。核心功能:創(chuàng)造信任。法幣依靠政府公信力,比特幣依靠技術(shù)。中心化記賬的缺點然而歷史上所有由中心化機構(gòu)記賬的加密數(shù)字貨幣嘗試,都失敗了。中心化記賬的缺點:1、拒絕服務(wù)攻擊2、厭倦后停止服務(wù)3、中心機構(gòu)易被攻擊。比如破壞服務(wù)器、網(wǎng)絡(luò),監(jiān)守自盜,法律終止,政府干預。所以比特幣需要解決第二個問題:去中心化。去中心化記賬:人人都可以記賬,每個人都可以保留完整賬本。任何人都可以下載開源程序,參與P2P網(wǎng)絡(luò),監(jiān)聽全世界發(fā)送的交易,成為記賬節(jié)點,參與記賬。去中心化記賬流程1、某人發(fā)起一筆交易以后,他向全網(wǎng)廣播2、每個記賬節(jié)點,持續(xù)監(jiān)聽、傳播全網(wǎng)的交易。收到一筆新交易,驗證準確性以后,將其放入交易池,并繼續(xù)向其他節(jié)點傳播3、因為網(wǎng)絡(luò)傳播,同一時間,不同記賬節(jié)點的交易池不一定相同4、每隔10分鐘,從所有記賬節(jié)點當中,按照某種方式抽取1名,將其交易池作為下一個區(qū)塊,并向全網(wǎng)廣播5、其他節(jié)點根據(jù)最新的區(qū)塊中的交易,刪除自己交易池中已經(jīng)記錄的交易,繼續(xù)記賬,等待下一次被選中2.5.3區(qū)塊鏈定義區(qū)塊鏈是利用塊鏈式數(shù)據(jù)結(jié)構(gòu)來驗證與存儲數(shù)據(jù)、利用分布式節(jié)點共識算法來生成和更新數(shù)據(jù)、利用密碼學的方式保證數(shù)據(jù)傳輸和訪問安全的一種全新的分布式基礎(chǔ)架構(gòu)與計算范式。區(qū)塊鏈的三要素是交易、區(qū)塊和鏈。交易:一次操作,導致賬本狀態(tài)的一次改變,如添加一條記錄區(qū)塊:記錄一段時間內(nèi)發(fā)生的交易和狀態(tài)結(jié)果,是對當前賬本狀態(tài)的一次共識鏈:由一個個區(qū)塊按照發(fā)生順序串聯(lián)而成,是整個狀態(tài)變化的日志記錄2.5.4區(qū)塊鏈的應(yīng)用從科技層面來看,區(qū)塊鏈涉及數(shù)學、密碼學、互聯(lián)網(wǎng)和計算機編程等很多科學技術(shù)問題。從應(yīng)用視角來看,簡單來說,區(qū)塊鏈是一個分布式的共享賬本和數(shù)據(jù)庫,具有去中心化、不可篡改、全程留痕、可以追溯、集體維護、公開透明等特點。這些特點保證了區(qū)塊鏈的“誠實”與“透明”,為區(qū)塊鏈創(chuàng)造信任奠定了堅實的基礎(chǔ)。而區(qū)塊鏈豐富的應(yīng)用場景,基本上都基于區(qū)塊鏈能夠解決信息不對稱問題,實現(xiàn)多個主體之間的協(xié)作信任與一致行動。金融領(lǐng)域、物流領(lǐng)域、物聯(lián)網(wǎng)領(lǐng)域、版權(quán)保護、教育行業(yè)、數(shù)字政務(wù)、公益和慈善、實體資產(chǎn)、社交2.5.5大數(shù)據(jù)與區(qū)塊鏈的關(guān)系1.大數(shù)據(jù)與區(qū)塊鏈的區(qū)別(1)數(shù)據(jù)量。區(qū)塊鏈技術(shù)是分布式數(shù)據(jù)存儲、點對點傳輸、共識機制、加密算法等計算機技術(shù)的新型應(yīng)用模式,區(qū)塊鏈處理的數(shù)據(jù)量更小,是細致的處理方式。而大數(shù)據(jù)管理的是海量數(shù)據(jù),要求廣度和數(shù)量,處理方式上也會更粗糙。(2)結(jié)構(gòu)化和非結(jié)構(gòu)化。區(qū)塊鏈是結(jié)構(gòu)定義嚴謹?shù)膲K,通過指針組成的鏈,是典型的結(jié)構(gòu)化數(shù)據(jù),而大數(shù)據(jù)需要處理的更多的是非結(jié)構(gòu)化數(shù)據(jù)。(3)獨立和整合。區(qū)塊鏈系統(tǒng)為保證安全性,信息是相對獨立的,而大數(shù)據(jù)的重點是信息的整合分析。(4)直接和間接。區(qū)塊鏈是一個分布式賬本,本質(zhì)上就是一個數(shù)據(jù)庫,而大數(shù)據(jù)指的是對數(shù)據(jù)的深度分析和挖掘,是一種間接的數(shù)據(jù)。(5)CAP理論。C(Consistency)是一致性,它是指任何一個讀操作總是能夠讀到之前完成的寫操作的結(jié)果,也就是在分布式環(huán)境中,多點的數(shù)據(jù)是一致的。A(Availability)是可用性,它是指快速獲取數(shù)據(jù),可以在確定的時間內(nèi)返回操作結(jié)果。P(ToleranceofNetworkPartition)是分區(qū)容忍性,它是指當出現(xiàn)網(wǎng)絡(luò)分區(qū)的情況時(即系統(tǒng)中的一部分節(jié)點無法和其他節(jié)點進行通信),分離的系統(tǒng)也能夠正常運行。CAP理論告訴我們,一個分布式系統(tǒng)不可能同時滿足一致性、可用性和分區(qū)容忍性這3個需求,最多只能同時滿足其中2個,正所謂“魚和熊掌不可兼得”。大數(shù)據(jù)通常選擇實現(xiàn)AP,而區(qū)塊鏈則選擇實現(xiàn)CP。(6)基礎(chǔ)網(wǎng)絡(luò)。大數(shù)據(jù)底層的基礎(chǔ)設(shè)施通常是計算機集群,而區(qū)塊鏈則是基于P2P網(wǎng)絡(luò)。(7)價值來源。對于大數(shù)據(jù)而言,數(shù)據(jù)是信息,需要從數(shù)據(jù)中提煉得到價值。而對于區(qū)塊鏈而言,數(shù)據(jù)是資產(chǎn),是價值的傳承。(8)計算模式。在大數(shù)據(jù)的場景中,是把一件事情分給多個人做,比如,在MapReduce計算框架中,一個大型任務(wù)會被分解成很多個子任務(wù),分配給很多個節(jié)點同時去計算。而在區(qū)塊鏈的場景中,是讓多個人重復做一件事情,比如,P2P網(wǎng)絡(luò)中的很多個節(jié)點同時記錄一筆交易。2.大數(shù)據(jù)與區(qū)塊鏈的聯(lián)系區(qū)塊鏈的可信任性、安全性和不可篡改性,正在讓更多數(shù)據(jù)被釋放出來,區(qū)塊鏈會對大數(shù)據(jù)產(chǎn)生深遠的影響:(1)區(qū)塊鏈使大數(shù)據(jù)極大降低信用成本(2)區(qū)塊鏈是構(gòu)建大數(shù)據(jù)時代的信任基石(3)區(qū)塊鏈是促進大數(shù)據(jù)價值流通的管道2.6本章小結(jié)云計算、物聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能和區(qū)塊鏈,代表了人類IT技術(shù)的最新發(fā)展趨勢,五大技術(shù)深刻變革著我們的生產(chǎn)和生活。五種技術(shù)中,人工智能具有較長的發(fā)展歷史,在上個世紀五六十年代就已經(jīng)被提出,并在2016年附近迎來了又一次發(fā)展高潮。云計算、物聯(lián)網(wǎng)和大數(shù)據(jù)在2010年附近迎來一次大發(fā)展,目前正在各大領(lǐng)域不斷深化應(yīng)用。區(qū)塊鏈在2019年迅速崛起,引起廣泛關(guān)注,其應(yīng)用領(lǐng)域正在不斷拓展。本章對云計算、物聯(lián)網(wǎng)、人工智能和區(qū)塊鏈做了簡要的介紹,并且梳理了大數(shù)據(jù)與這四種技術(shù)的緊密關(guān)系。相信五種技術(shù)的融合發(fā)展、相互助力,一定會給人類社會的未來發(fā)展帶來更多的新變化。教案內(nèi)容第3章大數(shù)據(jù)基礎(chǔ)知識本章介紹與培養(yǎng)大數(shù)據(jù)人才的數(shù)據(jù)素養(yǎng)息息相關(guān)的一系列大數(shù)據(jù)基礎(chǔ)知識,包括大數(shù)據(jù)安全、大數(shù)據(jù)思維、大數(shù)據(jù)倫理、數(shù)據(jù)共享、數(shù)據(jù)開放、大數(shù)據(jù)交易等。3.1大數(shù)據(jù)安全本節(jié)首先介紹數(shù)據(jù)安全,并指出大數(shù)據(jù)安全與傳統(tǒng)數(shù)據(jù)安全的不同,然后討論大數(shù)據(jù)安全問題并給出相關(guān)的典型案例。3.1.1傳統(tǒng)數(shù)據(jù)安全傳統(tǒng)的數(shù)據(jù)安全的威脅主要包括以下3個方面:(1)計算機病毒(2)黑客攻擊(3)數(shù)據(jù)信息存儲介質(zhì)的損壞3.1.2大數(shù)據(jù)安全與傳統(tǒng)數(shù)據(jù)安全的不同大數(shù)據(jù)安全表現(xiàn)出與傳統(tǒng)數(shù)據(jù)安全不同的特征,具體來說有以下幾個方面:大數(shù)據(jù)成為網(wǎng)絡(luò)攻擊的顯著目標、大數(shù)據(jù)加大隱私泄露風險、大數(shù)據(jù)技術(shù)被應(yīng)用到攻擊手段中、大數(shù)據(jù)成為高級可持續(xù)攻擊(APT)的載體3.1.3大數(shù)據(jù)安全問題1.隱私和個人信息安全問題2.國家安全問題(1)大數(shù)據(jù)成為國家之間博弈的新戰(zhàn)場(2)自媒體平臺成為影響國家意識形態(tài)安全的重要因素3.1.4典型案例1.棱鏡門事件2.維基解密3.Facebook數(shù)據(jù)濫用事件4.手機應(yīng)用軟件過度采集個人信息5.12306數(shù)據(jù)泄露6.免費WiFi竊取用戶信息7.收集個人隱私信息的“探針盒子”3.2大數(shù)據(jù)思維本節(jié)首先介紹傳統(tǒng)的思維方式,并指出大數(shù)據(jù)時代需要新的思維方式,然后介紹大數(shù)據(jù)思維方式,包括全樣而非抽樣、效率而非精確、相關(guān)而非因果、以數(shù)據(jù)為中心、“我為人人,人人為我”等,最后給出運用大數(shù)據(jù)思維的具體實例。3.2.1傳統(tǒng)的思維方式機械思維第一,世界變化的規(guī)律是確定的,這一點從托勒密到牛頓大家都認可。第二,因為有確定性做保障,因此規(guī)律不僅是可以被認識的,而且可以用簡單的公式或者語言描述清楚。這一點在牛頓之前,大部分人并不認可,而是簡單地把規(guī)律歸結(jié)為神的作用。第三,這些規(guī)律應(yīng)該是放之四海而皆準的,可以應(yīng)用到各種未知領(lǐng)域指導實踐,這種認識是在牛頓之后才有的。3.2.2大數(shù)據(jù)時代需要新的思維方式不確定性在我們生活的世界里無處不在,由于不確定性是這個世界的重要特征,以至于我們按照傳統(tǒng)的方法——機械論的方法,很難做出準確的預測世界的不確定性,折射出在信息時代的方法論:獲得更多的信息,有助于消除不確定性,因此,誰掌握了信息,誰就能夠獲取財富,這就如同在工業(yè)時代,誰掌握了資本誰就能獲取財富一樣。數(shù)據(jù)學家認為,世界的本質(zhì)是數(shù)據(jù)。通過采集、量化、計算、分析各種事物,來重新解釋和定義這個世界,并通過數(shù)據(jù)來消除不確定性,對未來加以預測轉(zhuǎn)變思維方式,努力把身邊的事物量化,以數(shù)據(jù)的形式加以對待,這是實現(xiàn)大數(shù)據(jù)時代思維方式轉(zhuǎn)變的“核心”3.2.3大數(shù)據(jù)思維方式大數(shù)據(jù)時代最大的轉(zhuǎn)變就是思維方式的3種轉(zhuǎn)變:全樣而非抽樣、效率而非精確、相關(guān)而非因果。此外,人類研究和解決問題的思維方式,正在朝著“以數(shù)據(jù)為中心”和“我為人人,人人為我”的方式邁進。1.全樣而非抽樣2.效率而非精確3.相關(guān)而非因果4.以數(shù)據(jù)為中心5.我為人人,人人為我3.2.4運用大數(shù)據(jù)思維的具體實例1.商品比價網(wǎng)站D2.啤酒與尿布3.零售商Target的基于大數(shù)據(jù)的商品營銷4.吸煙有害身體健康的法律訴訟5.基于大數(shù)據(jù)的藥品研發(fā)6.基于大數(shù)據(jù)的谷歌廣告7.搜索引擎“點擊模型”8.迪士尼MagicBand手環(huán)9.谷歌流感趨勢預測10.大數(shù)據(jù)的簡單算法比小數(shù)據(jù)的復雜算法更有效11.谷歌翻譯3.3大數(shù)據(jù)倫理本節(jié)首先介紹大數(shù)據(jù)倫理的概念,然后給出大數(shù)據(jù)倫理典型案例,最后指出大數(shù)據(jù)的倫理問題。3.3.1大數(shù)據(jù)倫理概念“倫理”是指一系列指導行為的觀念,是從概念角度上對道德現(xiàn)象的哲學思考。它不僅包含著對人與人、人與社會和人與自然之間關(guān)系處理中的行為規(guī)范,而且也深刻地蘊涵著依照一定原則來規(guī)范行為的深刻道理??萍紓惱硎侵缚茖W技術(shù)創(chuàng)新與運用活動中的道德標準和行為準則,是一種觀念與概念上的道德哲學思考。它規(guī)定了科學技術(shù)共同體應(yīng)遵守的價值觀、行為規(guī)范和社會責任范疇?!按髷?shù)據(jù)倫理問題”,就屬于科技倫理的范疇,指的是由于大數(shù)據(jù)技術(shù)的產(chǎn)生和使用而引發(fā)的社會問題,是集體和人與人之間關(guān)系的行為準則問題。3.3.2大數(shù)據(jù)倫理典型案例1.大麥網(wǎng)“撞庫”事件所謂的“撞庫”是黑客通過收集互聯(lián)網(wǎng)已泄露的用戶和密碼信息,生成對應(yīng)的字典表,嘗試批量登陸其他網(wǎng)站后,得到一系列可以登錄的用戶。很多用戶在不同網(wǎng)站使用的是相同的帳號密碼,因此黑客可以通過獲取用戶在A網(wǎng)站的賬戶從而嘗試登錄B網(wǎng)站,這就可以理解為撞庫攻擊。也就是說撞庫簡單的理解就是:黑客“湊巧”獲取到了一些用戶的數(shù)據(jù)(用戶名密碼),再應(yīng)用到其他網(wǎng)站登錄系統(tǒng)。2.大數(shù)據(jù)“殺熟”3.隱性偏差問題4.“信息繭房”問題3.3.3大數(shù)據(jù)的倫理問題1.隱私泄露問題大數(shù)據(jù)時代下的隱私與傳統(tǒng)隱私的最大區(qū)別在于隱私的數(shù)據(jù)化,即隱私主要以“個人數(shù)據(jù)”的形式出現(xiàn)。而在大數(shù)據(jù)時代,個人數(shù)據(jù)隨時隨地可被收集,它的有效保護面臨著巨大的挑戰(zhàn)。進入大數(shù)據(jù)時代,就進入了一張巨大且隱形的監(jiān)控網(wǎng)中,我們時刻被暴露在“第三只眼”的監(jiān)視之下,并留下一條永遠存在的“數(shù)據(jù)足跡”。這些直接被采集的數(shù)據(jù),已經(jīng)涉及到個人的很多隱私,此外,針對這些數(shù)據(jù)的二次使用,還會給個體帶來更多的隱私權(quán)侵犯。2.數(shù)據(jù)安全問題一些信息技術(shù)本身就存在安全漏洞,可能導致數(shù)據(jù)泄露、偽造、失真等問題,影響數(shù)據(jù)安全。智能手機是當今泄漏用戶數(shù)據(jù)的重要途徑。部分智能家居產(chǎn)品存在安全問題也是不爭的事實,給用戶的數(shù)據(jù)安全帶來了極大的風險,造成用戶隱私的泄露。3.數(shù)字鴻溝問題數(shù)字鴻溝總是指向信息時代的不公平,尤其在信息基礎(chǔ)設(shè)施、信息工具以及信息的獲取與使用等領(lǐng)域,或者可以認為是信息時代的“馬太效應(yīng)”,即先進技術(shù)的成果不能為人公正分享,于是造成“富者越富、窮者越窮”的情況。4.數(shù)據(jù)獨裁問題所謂的“數(shù)據(jù)獨裁”是指在大數(shù)據(jù)時代,由于數(shù)據(jù)量的爆炸式增長,導致做出判斷和選擇的難度徒增,迫使人們必須完全依賴數(shù)據(jù)的預測和結(jié)論才能做出最終的決策。從某個角度來講,就是讓數(shù)據(jù)統(tǒng)治人類,使人類徹底走向唯數(shù)據(jù)主義。5.數(shù)據(jù)壟斷問題企業(yè)掌握的數(shù)據(jù)量越多,越有利于發(fā)揮數(shù)據(jù)的作用,也越有利于最大化消費者福利和社會福利。有些企業(yè)為了獲取更高的經(jīng)濟利益,而故意地不進行數(shù)據(jù)信息的共享,將所有的數(shù)據(jù)信息掌握在自己的手中,進行了大數(shù)據(jù)的壟斷。因數(shù)據(jù)而產(chǎn)生的壟斷問題,至少包括以下幾類:一是數(shù)據(jù)可能造成進入壁壘或擴張壁壘,二是擁有大數(shù)據(jù)形成市場支配地位并濫用,三是因數(shù)據(jù)產(chǎn)品而形成市場支配地位并濫用,四是涉及數(shù)據(jù)方面的壟斷協(xié)議,五是數(shù)據(jù)資產(chǎn)的并購。一旦大數(shù)據(jù)企業(yè)形成數(shù)據(jù)壟斷,就會出現(xiàn)消費者在日常生活中被迫地接受服務(wù)及提供個人信息的情況。6.數(shù)據(jù)的真實可靠問題7.人的主體地位問題在一切皆數(shù)據(jù)的條件下,人的主體地位逐漸消失。3.4數(shù)據(jù)共享3.4.1數(shù)據(jù)孤島問題1.政府的數(shù)據(jù)孤島問題由于各政府部門建設(shè)數(shù)據(jù)庫所采用的技術(shù)、平臺及網(wǎng)絡(luò)標準不統(tǒng)一,導致政府職能部門之間難以實現(xiàn)數(shù)據(jù)對接與共享。縱向上各級垂直管理部門建設(shè)的政府信息系統(tǒng)形成“數(shù)據(jù)煙囪”,橫向上部門間各業(yè)務(wù)條塊則自建系統(tǒng)形成“數(shù)據(jù)孤島”,政府公共信息資源的存儲彼此獨立、管理分散。作為政府最重要資產(chǎn)之一的政務(wù)數(shù)據(jù),因為數(shù)據(jù)量太大、太散、難以有效融合等問題,嚴重影響到了數(shù)據(jù)價值的發(fā)揮,大大浪費了各地政府部門在信息化系統(tǒng)建設(shè)方面的大量投入。2.企業(yè)的數(shù)據(jù)孤島問題企業(yè)管理職能精細劃分,信息系統(tǒng)圍繞不同的管理階段和管理職能展開,如客戶管理系統(tǒng)、生產(chǎn)系統(tǒng)、銷售系統(tǒng)、采購系統(tǒng)、訂單系統(tǒng)、倉儲系統(tǒng)和財務(wù)系統(tǒng)等,所有數(shù)據(jù)被封存在各系統(tǒng)中,讓完整的業(yè)務(wù)鏈上孤島林立,信息的共享、反饋難,數(shù)據(jù)孤島問題是企業(yè)信息化建設(shè)中的最大難題。3.4.2數(shù)據(jù)孤島問題產(chǎn)生的原因1.政府數(shù)據(jù)孤島的產(chǎn)生原因有些政府部門錯誤地將數(shù)據(jù)資源等同于一般資源,認為占有就是財富,熱衷于搜集,但不愿共享;有些部門只盯著自己的數(shù)據(jù)服務(wù)系統(tǒng),結(jié)果因為數(shù)據(jù)標準、系統(tǒng)接口等技術(shù)原因,無法與外單位、外部門聯(lián)通;還有些地方,對大數(shù)據(jù)缺乏頂層設(shè)計,導致各條線、各部門固有的本位主義作祟,壁壘林立,數(shù)據(jù)無法流動。2.企業(yè)數(shù)據(jù)孤島的產(chǎn)生原因不同企業(yè)之間,屬于不同的經(jīng)營主體,有著各自的利益,彼此之間數(shù)據(jù)不共享,產(chǎn)生企業(yè)之間的數(shù)據(jù)孤島,這種是比較普遍的情況。企業(yè)內(nèi)部也往往會存在大量數(shù)據(jù)孤島,這些數(shù)據(jù)孤島的形成主要有兩個方面的原因:以功能為標準的部門劃分導致數(shù)據(jù)孤島、不同類型、不同版本的信息化管理系統(tǒng)導致數(shù)據(jù)孤島。3.4.3消除數(shù)據(jù)孤島的重要意義1.對于政府的意義加強政府數(shù)據(jù)共享開放和大數(shù)據(jù)服務(wù)能力,促進跨領(lǐng)域、跨部門合作,推進數(shù)據(jù)信息交換,打破部門壁壘,遏制數(shù)據(jù)孤島和重復建設(shè),有助于提高行政效率,轉(zhuǎn)變思維觀念,推動傳統(tǒng)的職能型政府轉(zhuǎn)型為服務(wù)型智慧政府。政府數(shù)據(jù)共享的重要意義表現(xiàn)在以下兩個方面:首先,有助于提升資源利用率;其次,有助于推動政府轉(zhuǎn)型。2.對于企業(yè)的意義首先,打通企業(yè)內(nèi)部的數(shù)據(jù)孤島,實現(xiàn)所有系統(tǒng)數(shù)據(jù)互通共享,對建立企業(yè)自身的大數(shù)據(jù)平臺和企業(yè)信息化建設(shè)都有重大意義。其次,打通企業(yè)之間的數(shù)據(jù)孤島,實現(xiàn)不同企業(yè)的數(shù)據(jù)共享,有利于企業(yè)獲得更好的經(jīng)營發(fā)展能力。3.4.4實現(xiàn)數(shù)據(jù)共享所面臨的挑戰(zhàn)1.在政府層面的挑戰(zhàn)不愿共享開放、不敢共享開放、不會共享開放、數(shù)據(jù)中心共享開放作用不強。2.在企業(yè)層面的挑戰(zhàn)系統(tǒng)孤島挑戰(zhàn)、組織架構(gòu)挑戰(zhàn)、數(shù)據(jù)合作挑戰(zhàn)。3.4.5推進數(shù)據(jù)共享開放的舉措1.在政府層面的舉措積極開放政府數(shù)據(jù)資源,提高政府職能部門之間和具有不同創(chuàng)新資源的主體之間的數(shù)據(jù)共享廣度,促進區(qū)域內(nèi)形成“數(shù)據(jù)共享池”。要改變政府職能部門“數(shù)據(jù)孤島”現(xiàn)象,立足于數(shù)據(jù)資源的共享互換,設(shè)定相對明確的數(shù)據(jù)標準,實現(xiàn)部門之間的數(shù)據(jù)對接與共享,推進在制度創(chuàng)新方面的系統(tǒng)集成化,為科技創(chuàng)新提供必要條件。要促進準確及時的數(shù)據(jù)信息傳遞,提高部門條線管理、“一站式”企業(yè)網(wǎng)上辦事和政府服務(wù)項目“一網(wǎng)通辦”的網(wǎng)絡(luò)信息功能,提高數(shù)據(jù)質(zhì)量的可靠性、穩(wěn)定性與權(quán)威性,增加相關(guān)信息平臺的使用覆蓋面,讓現(xiàn)存數(shù)據(jù)“連起來”、“用起來”。2.在企業(yè)層面的舉措在企業(yè)內(nèi)部,破除“數(shù)據(jù)孤島”,推進數(shù)據(jù)融合。在不同企業(yè)之間,建立企業(yè)數(shù)據(jù)共享聯(lián)盟。3.4.6數(shù)據(jù)共享案例1.案例1:菜鳥物流2.案例2:政府一站式平臺——i廈門3.案例3:浙江打通政府數(shù)據(jù),讓群眾最多跑一次3.5數(shù)據(jù)開放3.5.1政府開放數(shù)據(jù)的理論基礎(chǔ)1.數(shù)據(jù)資產(chǎn)理論在大數(shù)據(jù)時代,數(shù)據(jù)已經(jīng)被當作一種重要的戰(zhàn)略資源,也可以成為一種資產(chǎn)。數(shù)據(jù)資產(chǎn)是無形資產(chǎn)的延伸,是主要以知識形態(tài)存在的重要經(jīng)濟資源,是為其所有者或合法使用者提供某種權(quán)利、優(yōu)勢和效益的固定資產(chǎn)。數(shù)據(jù)資產(chǎn)的類型有很多,常見的數(shù)據(jù)資產(chǎn)包括書面技術(shù)新材料、數(shù)據(jù)與文檔、技術(shù)軟件、物理資產(chǎn)(主要指通信協(xié)議類)、員工與客戶(包括競爭對手)、企業(yè)形象和聲譽以及服務(wù)等。同其他資產(chǎn)一樣,數(shù)據(jù)資產(chǎn)也是企業(yè)價值創(chuàng)造的工具和資本。作為現(xiàn)代企業(yè)和政府,擁有數(shù)據(jù)的規(guī)模、活性,以及收集、運用數(shù)據(jù)的能力,將決定企業(yè)和政府的核心競爭力。2.數(shù)據(jù)權(quán)理論數(shù)據(jù)權(quán)的概念發(fā)起于英國,主要將其視為信息社會的一項基本公民權(quán)利,讓政府所擁有的數(shù)據(jù)集能夠被公眾申請和使用,并且按照標準公布數(shù)據(jù)。因此,早期的數(shù)據(jù)權(quán)理念強調(diào)的是公民利用信息的權(quán)利。隨著數(shù)據(jù)的進一步開放,大型網(wǎng)絡(luò)公司對于歷史文獻資料的數(shù)據(jù)化,商業(yè)集團對于客戶資料的搜集,政府部門對于個人信息的調(diào)查與掌握,社會化媒體對于社會交往的滲透與呈現(xiàn),使國家和政府加強了對數(shù)據(jù)主權(quán)的關(guān)注,并將其納入到數(shù)據(jù)主權(quán)的范疇。數(shù)據(jù)主權(quán)源于信息主權(quán)。信息主權(quán)是國家主權(quán)在信息活動中的體現(xiàn),國家對于政權(quán)管轄地域內(nèi)任何信息的制造、傳播和交易活動,以及相關(guān)的組織和制度擁有最高權(quán)力。數(shù)據(jù)權(quán)包括兩個方面:數(shù)據(jù)主權(quán)和數(shù)據(jù)權(quán)利。數(shù)據(jù)主權(quán)的主體是國家,是一個國家獨立自主對本國數(shù)據(jù)進行管理和利用的權(quán)力。數(shù)據(jù)權(quán)利的主體是公民,是相對應(yīng)于公民數(shù)據(jù)采集義務(wù)而形成的對數(shù)據(jù)利用的權(quán)利,這種對數(shù)據(jù)的利用又是建立在數(shù)據(jù)主權(quán)之下的。只有在數(shù)據(jù)主權(quán)法定框架下,公民才可自由行使數(shù)據(jù)權(quán)利。公民的數(shù)據(jù)權(quán)利,是一項新興的基本人權(quán),它是信息時代的產(chǎn)物,是公民個人的基本權(quán)利。公民數(shù)據(jù)權(quán)的保護,不僅具有正當合理性,而且已經(jīng)成為一種人權(quán)保障的世界性趨勢。3.開放政府理論開放政府最早出現(xiàn)在20世紀50年代信息自由立法的介紹當中。1957年P(guān)ark的論文“開放政府原則:依據(jù)憲法的知情權(quán)”中首次提出開放政府理念,其核心是關(guān)于信息自由方面的內(nèi)容。隨著很多國家對信息法案的修訂,尤其在2009年奧巴馬政府公布了《開放政府指令》后,開放政府的理論又被重新提起。2009年1月21日,在關(guān)于政府透明和開放化的備忘錄上,奧巴馬總統(tǒng)指示美國行政管理預算局局長發(fā)布一份《政府開放指令》,開放政府由此提出。自2009年開放政府理念被重新提起后,世界各國都在努力使用信息技術(shù)革新政府,并在2011年建立了以美國領(lǐng)導的“開放政府聯(lián)盟”。3.5.2政府信息公開與政府數(shù)據(jù)開放的聯(lián)系與區(qū)別政府信息公開與政府數(shù)據(jù)開放是一對既相互區(qū)別又相互聯(lián)系的概念。政府信息公開主要是為了對公眾知情權(quán)的滿足而出現(xiàn)的,信息公開既可以理解為一項制度,又可以理解為一種行為。作為一項制度,主要是指國家和地方制定并用于規(guī)范和調(diào)整信息公開活動的法規(guī)規(guī)定;作為一種行為,主要是指掌握信息的主體,即行政機關(guān)、單位向不特定的社會對象發(fā)布信息,或者向特定的對象提供所掌握的信息的活動。政府數(shù)據(jù)開放是政府信息公開的嬗變必然,將開放對象延伸至原始數(shù)據(jù)的粒度。政府數(shù)據(jù)開放強調(diào)的是數(shù)據(jù)的再利用,公眾可以分享數(shù)據(jù)利用創(chuàng)造的經(jīng)濟和社會價值,并且可以根據(jù)對數(shù)據(jù)的分析判斷政府的決策是否合理。政府數(shù)據(jù)開放強調(diào)的是數(shù)據(jù)的再利用,公眾可以分享數(shù)據(jù)利用創(chuàng)造的經(jīng)濟和社會價值,并且可以根據(jù)對數(shù)據(jù)的分析判斷政府的決策是否合理。政府信息公開更側(cè)重對與公眾相關(guān)信息通過報紙、互聯(lián)網(wǎng)、電視等媒體的發(fā)布,更強調(diào)程序公開,正義公開仍是難點。3.5.3政府數(shù)據(jù)開放的重要意義1.政府開放數(shù)據(jù)有利于促進開放透明政府的形成政府開放數(shù)據(jù)是更高層次的政府信息公開,而政府信息公開也將推動政府民主法治進程。如果說政府信息公開還是處于起步階段,那么政府開放數(shù)據(jù)則是更高層次的政務(wù)公開。數(shù)據(jù)是政府手中的重要資源,政府開放數(shù)據(jù)的范圍、程度、速度都代表著政府開放的程度。2.政府開放數(shù)據(jù)有利于創(chuàng)新創(chuàng)業(yè)和經(jīng)濟增長美國是氣象災(zāi)害頻發(fā)的國家,為減少氣象災(zāi)害帶來的嚴重損失,2014年3月,美國白宮宣布:將氣象數(shù)據(jù)發(fā)布在D上,隨后,與氣象相關(guān)的企業(yè)服務(wù)應(yīng)運而生,包括各種氣象播報、氣象顧問、氣象保險等,形成了一個新的產(chǎn)業(yè)鏈,創(chuàng)造出了極高的經(jīng)濟價值。政府數(shù)據(jù)的再利用,在歐洲也創(chuàng)造出很高的經(jīng)濟價值。2010年歐盟公布的數(shù)據(jù)顯示,歐洲利用政府公開的數(shù)據(jù)創(chuàng)造出的價值就達到320億歐元,同時帶來了更多的商業(yè)和就業(yè)機會。3.政府開放數(shù)據(jù)有利于社會治理創(chuàng)新政府數(shù)據(jù)的開放不僅打破了政府部門對數(shù)據(jù)的壟斷,促進了數(shù)據(jù)價值的最大發(fā)揮,同時也構(gòu)建起了政府同市場、社會、公眾之間互動的平臺。數(shù)據(jù)分享和大數(shù)據(jù)技術(shù)應(yīng)用,不僅可以有效推動政府各部門在公共活動中實現(xiàn)協(xié)同治理,提高政府決策的水平,也能夠充分調(diào)動各方的積極性來完成社會事務(wù),實現(xiàn)社會治理機制的創(chuàng)新,給公眾的生活帶來便利,比如緩解交通壓力、增強食品安全、解決環(huán)境污染等。3.6大數(shù)據(jù)交易3.6.1概述大數(shù)據(jù)交易應(yīng)當是買賣數(shù)據(jù)的活動,是以貨幣為交易媒介獲取數(shù)據(jù)這種商品的過程,具有3種特征:一是標的物受到嚴格的限制,只有經(jīng)過處理之后的數(shù)據(jù)才能交易;二是涉及的主體眾多,包括數(shù)據(jù)提供方、數(shù)據(jù)購買方、數(shù)據(jù)平臺等;三是交易過程繁瑣,涉及大數(shù)據(jù)的多個產(chǎn)業(yè)鏈,如數(shù)據(jù)源的獲取、數(shù)據(jù)安全的保障、數(shù)據(jù)的后續(xù)利用等。目前進行數(shù)據(jù)交易的形式有以下幾種:(1)大數(shù)據(jù)交易公司(2)數(shù)據(jù)交易所(3)API模式(4)其他大數(shù)據(jù)交易是大數(shù)據(jù)產(chǎn)業(yè)生態(tài)系統(tǒng)中的重要一環(huán),與大數(shù)據(jù)交易相關(guān)的其他環(huán)節(jié)包括數(shù)據(jù)源、大數(shù)據(jù)硬件層、大數(shù)據(jù)技術(shù)層、大數(shù)據(jù)應(yīng)用層、大數(shù)據(jù)衍生層等。3.6.2大數(shù)據(jù)交易發(fā)展現(xiàn)狀數(shù)據(jù)交易由來已久,并不是最近幾年才出現(xiàn)的新型交易方式。進入大數(shù)據(jù)時代以后,大數(shù)據(jù)資源愈加豐富。龐大的大數(shù)據(jù)資源為大數(shù)據(jù)交易的興起奠定了堅實的基礎(chǔ)。2014年以來,國內(nèi)不僅出現(xiàn)了數(shù)據(jù)堂、京東萬象、中關(guān)村數(shù)海、浪潮卓數(shù)、聚合數(shù)據(jù)等一批數(shù)據(jù)交易平臺,各地方政府也成立了混合所有制形式的數(shù)據(jù)交易機構(gòu),包括貴陽大數(shù)據(jù)交易所、上海數(shù)據(jù)交易中心、長江大數(shù)據(jù)交易中心(武漢)、浙江大數(shù)據(jù)交易中心等。3.6.3大數(shù)據(jù)交易平臺1.交易平臺的類型大數(shù)據(jù)交易平臺主要包括綜合數(shù)據(jù)服務(wù)平臺和第三方數(shù)據(jù)交易平臺兩種。綜合數(shù)據(jù)服務(wù)平臺為用戶提供定制化的數(shù)據(jù)服務(wù),由于需要涉及數(shù)據(jù)的處理加工,因此,該類型平臺的業(yè)務(wù)相對復雜,國內(nèi)大數(shù)據(jù)交易平臺大多屬于這種類型。而第三方數(shù)據(jù)交易平臺業(yè)務(wù)則相對簡單明確,主要負責對交易過程的監(jiān)管,通??梢蕴峁?shù)據(jù)出售、數(shù)據(jù)購買、數(shù)據(jù)供應(yīng)方查詢以及數(shù)據(jù)需求發(fā)布等服務(wù)。2.交易平臺的數(shù)據(jù)來源政府公開數(shù)據(jù)、企業(yè)內(nèi)部數(shù)據(jù)、數(shù)據(jù)供應(yīng)方數(shù)據(jù)、網(wǎng)頁爬蟲數(shù)據(jù)3.交易平臺的產(chǎn)品類型API、數(shù)據(jù)包、云服務(wù)、解決方案、數(shù)據(jù)定制服務(wù)、數(shù)據(jù)產(chǎn)品4.交易平臺涉及的主要領(lǐng)域國內(nèi)外大數(shù)據(jù)交易平臺產(chǎn)品涉及的主要領(lǐng)域包括政府、經(jīng)濟、教育、環(huán)境、法律、醫(yī)療、人文、地理、交通、通信、人工智能、商業(yè)、農(nóng)業(yè)、工業(yè)等。了解交易平臺產(chǎn)品涉及的主要領(lǐng)域,可以幫助用戶根據(jù)自己的個性化需求有針對性地選擇合適的交易平臺。國內(nèi)外交易平臺基本上都涉及到多個領(lǐng)域,平臺提供的多領(lǐng)域數(shù)據(jù),可以較好滿足目前廣泛存在的用戶對跨學科、跨領(lǐng)域數(shù)據(jù)的需求。5.平臺的交易規(guī)則相對于國外的數(shù)據(jù)交易公司來說,國內(nèi)的數(shù)據(jù)交易平臺大多發(fā)布了成系統(tǒng)的總體規(guī)則,規(guī)定更詳細,在很多方面也更嚴格。如《中關(guān)村數(shù)海大數(shù)據(jù)交易平臺規(guī)則》、《貴陽大數(shù)據(jù)交易所702公約》、《上海數(shù)據(jù)交易中心(ChinaDEP)數(shù)據(jù)交易規(guī)則》等,以條文的形式對整個平臺的運營體系、遵守原則都進行了詳細規(guī)定,明確了交易主體、交易對象、交易資格、交易品種、交易格式、數(shù)據(jù)定價、交易融合和交易確權(quán)等內(nèi)容。隨著我國數(shù)據(jù)流通行業(yè)的發(fā)展,部分企業(yè)間已經(jīng)推出了跨企業(yè)的數(shù)據(jù)交易規(guī)則或自律準則??梢哉f,目前我國建立廣泛的數(shù)據(jù)流通行業(yè)自律公約的時機已經(jīng)相對成熟,行業(yè)內(nèi)部各企業(yè)對數(shù)據(jù)交易自律性協(xié)議的需求呼之欲出。6.交易平臺的運營模式大數(shù)據(jù)交易平臺的運營模式主要包括兩種:一種是兼具中介和數(shù)據(jù)處理加工功能的交易平臺;另一種是只具備中介功能的交易平臺。7.代表性的大數(shù)據(jù)交易平臺貴陽大數(shù)據(jù)交易所、上海數(shù)據(jù)交易中心、華東江蘇大數(shù)據(jù)交易中心、浙江大數(shù)據(jù)交易中心。教案內(nèi)容第4章大數(shù)據(jù)應(yīng)用4.1大數(shù)據(jù)在互聯(lián)網(wǎng)領(lǐng)域的應(yīng)用4.1.1什么是推薦系統(tǒng)互聯(lián)網(wǎng)的飛速發(fā)展使我們進入了信息過載的時代,搜索引擎可以幫助我們查找內(nèi)容,但只能解決明確的需求。為了讓用戶從海量信息中高效地獲得自己所需的信息,推薦系統(tǒng)應(yīng)運而生。推薦系統(tǒng)是大數(shù)據(jù)在互聯(lián)網(wǎng)領(lǐng)域的典型應(yīng)用,它可以通過分析用戶的歷史記錄來了解用戶的喜好,從而主動為用戶推薦其感興趣的信息,滿足用戶的個性化推薦需求。推薦系統(tǒng)是自動聯(lián)系用戶和物品的一種工具,和搜索引擎相比,推薦系統(tǒng)通過研究用戶的興趣偏好,進行個性化計算。推薦系統(tǒng)可發(fā)現(xiàn)用戶的興趣點,幫助用戶從海量信息中去發(fā)掘自己潛在的需求。4.1.2長尾理論推薦系統(tǒng)可以創(chuàng)造全新的商業(yè)和經(jīng)濟模式,幫助實現(xiàn)長尾商品的銷售。“長尾”概念于2004年提出,用來描述以亞馬遜為代表的電子商務(wù)網(wǎng)站的商業(yè)和經(jīng)濟模式。電子商務(wù)網(wǎng)站銷售種類繁多,雖然絕大多數(shù)商品都不熱門,但這些不熱門的商品總數(shù)量極其龐大,所累計的總銷售額將是一個可觀的數(shù)字,也許會超過熱門商品所帶來的銷售額。因此,可以通過發(fā)掘長尾商品并推薦給感興趣的用戶來提高銷售額。這需要通過個性化推薦來實現(xiàn)。熱門推薦是常用的推薦方式,廣泛應(yīng)用于各類網(wǎng)站中,如熱門排行榜。但熱門推薦的主要缺陷在于推薦的范圍有限,所推薦的內(nèi)容在一定時期內(nèi)也相對固定。無法實現(xiàn)長尾商品的推薦。個性化推薦可通過推薦系統(tǒng)來實現(xiàn)。推薦系統(tǒng)通過發(fā)掘用戶的行為記錄,找到用戶的個性化需求,發(fā)現(xiàn)用戶潛在的消費傾向,從而將長尾商品準確地推薦給需要它的用戶,進而提升銷量,實現(xiàn)用戶與商家的雙贏。4.1.3推薦方法推薦系統(tǒng)的本質(zhì)是建立用戶與物品的聯(lián)系,根據(jù)推薦算法的不同,推薦方法包括如下幾類:專家推薦:人工推薦,由資深的專業(yè)人士來進行物品的篩選和推薦,需要較多的人力成本。基于統(tǒng)計的推薦:基于統(tǒng)計信息的推薦(如熱門推薦),易于實現(xiàn),但對用戶個性化偏好的描述能力較弱?;趦?nèi)容的推薦:通過機器學習的方法去描述內(nèi)容的特征,并基于內(nèi)容的特征來發(fā)現(xiàn)與之相似的內(nèi)容。協(xié)同過濾推薦:應(yīng)用最早和最為成功的推薦方法之一,利用與目標用戶相似的用戶已有的商品評價信息,來預測目標用戶對特定商品的喜好程度?;旌贤扑]:結(jié)合多種推薦算法來提升推薦效果。4.1.4推薦系統(tǒng)模型圖推薦系統(tǒng)基本架構(gòu)4.1.5推薦系統(tǒng)的應(yīng)用目前推薦系統(tǒng)已廣泛應(yīng)用于電子商務(wù)、在線視頻、在線音樂、社交網(wǎng)絡(luò)等各類網(wǎng)站和應(yīng)用中。如亞馬遜網(wǎng)站利用用戶的瀏覽歷史記錄來為用戶推薦商品,推薦的主要是用戶未瀏覽過,但可能感興趣、有潛在購買可能性的商品。推薦系統(tǒng)在在線音樂應(yīng)用中也逐漸發(fā)揮作用。音樂相比于電影數(shù)量更為龐大,個人口味偏向也更為明顯,僅依靠熱門推薦是遠遠不夠的。蝦米音樂網(wǎng)根據(jù)用戶的音樂收藏記錄來分析用戶的音樂偏好,以進行推薦。例如,推薦同一風格的歌曲,或是推薦同一歌手的其他歌曲。4.2大數(shù)據(jù)在生物醫(yī)學領(lǐng)域的應(yīng)用4.2.1流行病預測從谷歌流感趨勢看大數(shù)據(jù)的應(yīng)用價值?!肮雀枇鞲汹厔荨?,通過跟蹤搜索詞相關(guān)數(shù)據(jù)來判斷全美地區(qū)的流感情況。4.2.2智慧醫(yī)療1.促進優(yōu)質(zhì)醫(yī)療資源的共享2.避免患者重復檢查3.促進醫(yī)療智能化4.2.3生物信息學生物信息學是研究生物信息的采集、處理、存儲、傳播、分析和解釋等方面的學科,也是隨著生命科學和計算機科學的迅猛發(fā)展、生命科學和計算機科學相結(jié)合形成的一門新學科,它通過綜合利用生物學、計算機科學和信息技術(shù),揭示大量而復雜的生物數(shù)據(jù)所蘊含的生物學奧秘。和互聯(lián)網(wǎng)數(shù)據(jù)相比,生物信息學領(lǐng)域的數(shù)據(jù)更是典型的大數(shù)據(jù)。生物大數(shù)據(jù)使得我們可以利用先進的數(shù)據(jù)科學知識,更加深入地了解生物學過程、作物表型、疾病致病基因等。用大數(shù)據(jù)分析技術(shù),可以從個人健康檔案中有效預測個人健康趨勢,并為其提供疾病預防建議,達到“治未病”的目的。4.2.4案例:基于大數(shù)據(jù)的綜合健康服務(wù)平臺目標:構(gòu)建覆蓋全生命周期、內(nèi)涵豐富、結(jié)構(gòu)合理的以人為本全面連續(xù)的綜合健康服務(wù)體系,利用大數(shù)據(jù)技術(shù)和智能設(shè)備技術(shù),提供線上線下相結(jié)合的公眾健康服務(wù),實現(xiàn)“未病先防、已病早治、既病防變、愈后防復”,滿足社會公眾多層次、多方位的健康服務(wù)需求,提升人民群眾的身心健康水平。4.3大數(shù)據(jù)在物流領(lǐng)域的應(yīng)用4.3.1智能物流的概念智能物流,又稱智慧物流,是利用集成智能化技術(shù),使物流系統(tǒng)能模仿人的智能,具有思維、感知、學習、推理判斷和自行解決物流中某些問題的能力,從而實現(xiàn)物流資源優(yōu)化調(diào)度和有效配置、物流系統(tǒng)效率提升的現(xiàn)代化物流管理模式。4.3.2智能物流的作用(1)提高物流的信息化和智能化水平(2)降低物流成本和提高物流效率(3)提高物流活動的一體化4.3.3智能物流的應(yīng)用國內(nèi)許多城市都在圍繞智慧港口、多式聯(lián)運、冷鏈物流、城市配送等方面,著力推進物聯(lián)網(wǎng)在大型物流企業(yè)、大型物流園區(qū)的系統(tǒng)級應(yīng)用。還可以將射頻標簽識別技術(shù)、定位技術(shù)、自動化技術(shù)以及相關(guān)的軟件信息技術(shù),集成到生產(chǎn)及物流信息系統(tǒng)領(lǐng)域,探索利用物聯(lián)網(wǎng)技術(shù)實現(xiàn)物流環(huán)節(jié)的全流程管理模式,開發(fā)面向物流行業(yè)的公共信息服務(wù)平臺,優(yōu)化物流系統(tǒng)的配送中心網(wǎng)絡(luò)布局,集成分布式倉儲管理及流通渠道建設(shè),最大限度地減少物流環(huán)節(jié)、簡化物流過程,提高物流系統(tǒng)的快速反應(yīng)能力。此外,還可以進行跨領(lǐng)域信息資源整合,建設(shè)基于衛(wèi)星定位、視頻監(jiān)控、數(shù)據(jù)分析等技術(shù)的大型綜合性公共物流服務(wù)平臺,發(fā)展供應(yīng)鏈物流管理。4.3.4大數(shù)據(jù)是智能物流的關(guān)鍵在物流領(lǐng)域有兩個著名的理論——“黑大陸說”和“物流冰山說”。這兩個理論都旨在說明物流活動的模糊性和巨大潛力。發(fā)現(xiàn)隱藏在海量數(shù)據(jù)背后的有價值的信息,是大數(shù)據(jù)的重要商業(yè)價值。大數(shù)據(jù)是打開物流領(lǐng)域這塊神秘的“黑大陸”的一把金鑰匙。大數(shù)據(jù)將推動物流行業(yè)從粗放式服務(wù)到個性化服務(wù)的轉(zhuǎn)變,顛覆整個物流行業(yè)的商業(yè)模式。4.3.5中國智能物流骨干網(wǎng)——菜鳥智能物流案例:阿里巴巴的中國智能物流骨干網(wǎng)(地網(wǎng))菜鳥網(wǎng)絡(luò)到底是什么?中國智能物流骨干網(wǎng),又名“菜鳥”,菜鳥網(wǎng)絡(luò)計劃在5到8年內(nèi),打造一個全國性的超級物流網(wǎng)。這個網(wǎng)絡(luò)能在24小時內(nèi)將貨物運抵國內(nèi)任何地區(qū),能支撐日均300億元(年度約10萬億元)的巨量網(wǎng)絡(luò)零售額。1000億元投資物流基礎(chǔ)設(shè)施,強強聯(lián)手共建智能骨干網(wǎng)絡(luò)。物流信息系統(tǒng)向所有的制造商、網(wǎng)商、快遞公司、第三方物流公司完全開放。4.4大數(shù)據(jù)在城市管理領(lǐng)域的應(yīng)用4.4.1智能交通智能交通將先進的信息技術(shù)、數(shù)據(jù)通信傳輸技術(shù)、電子傳感技術(shù)、控制技術(shù)以及計算機技術(shù)等,有效集成并運用于整個地面交通管理,同時可以利用城市實時交通信息、社交網(wǎng)絡(luò)和天氣數(shù)據(jù)來優(yōu)化最新的交通情況。4.4.2環(huán)保監(jiān)測1.森林監(jiān)視2.環(huán)境保護大數(shù)據(jù)已經(jīng)被廣泛應(yīng)用于污染監(jiān)測領(lǐng)域,借助大數(shù)據(jù)技術(shù),采集各項環(huán)境質(zhì)量指標信息,集成整合到數(shù)據(jù)中心進行數(shù)據(jù)分析,并把分析結(jié)果用于指導下一步環(huán)境治理方案的制定,可以有效提升環(huán)境整治的效果。中國水污染地圖中國空氣污染地圖中國固廢污染地圖汽車尾氣污染治理4.4.3城市規(guī)劃利用地理數(shù)據(jù)可以研究全國城市擴張模擬、城市建成區(qū)識別。利用公交IC卡數(shù)據(jù),可以開展城市居民通勤分析、職住分析、人的行為分析、人的識別、重大事件影響分析、規(guī)劃項目實施評估分析?等。利用移動手機通話數(shù)據(jù),可以研究城市聯(lián)系、居民屬性、活動關(guān)系及其對城市交通的影響。利用社交網(wǎng)絡(luò)數(shù)據(jù),可以研究城市功能分區(qū)、城市網(wǎng)絡(luò)活動與等級、城市社會網(wǎng)絡(luò)體系等。利用出租車定位數(shù)據(jù),可以開展城市交通研究。利用搜房網(wǎng)的住房銷售和出租數(shù)據(jù),同時結(jié)合網(wǎng)絡(luò)爬蟲獲取的居民住房地理位置和周邊設(shè)施條件數(shù)據(jù),就可以評價一個城區(qū)的住房分布和質(zhì)量情況。4.4.4安防領(lǐng)域中國的很多城市都在開展平安城市建設(shè),在城市的各個角落密布成千上萬個攝像頭,7×24小時不間斷采集各個位置的視頻監(jiān)控數(shù)據(jù),數(shù)據(jù)量之大,超乎想象。除了視頻監(jiān)控數(shù)據(jù),安防領(lǐng)域還包含大量其他類型的數(shù)據(jù),包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。4.4.5疫情防控(1)大數(shù)據(jù)助力疫情防控(2)大數(shù)據(jù)精準資源調(diào)配(3)大數(shù)據(jù)護航復工復產(chǎn)4.5大數(shù)據(jù)在金融領(lǐng)域的應(yīng)用4.5.1高頻交易高頻交易(High-FrequencyTrading,HFT)是指從那些人們無法利用的極為短暫的市場變化中尋求獲利的計算機化交易,比如,某種證券買入價和賣出價差價的微小變化,或者某只股票在不同交易所之間的微小價差。為了從高頻交易中獲得更高的利潤,一些金融機構(gòu)開始引入大數(shù)據(jù)技術(shù)來決定交易。4.5.2市場情緒分析市場情緒分析是交易者在日常交易工作中不可或缺的一環(huán),根據(jù)市場情緒分析、技術(shù)分析和基本面分析,可以幫助交易者做出更好的決策。大數(shù)據(jù)技術(shù)在市場情緒分析中大有用武之地。4.5.3信貸風險分析大數(shù)據(jù)分析技術(shù)已經(jīng)能夠為企業(yè)信貸風險分析助一臂之力。通過收集和分析大量中小微企業(yè)用戶日常交易行為的數(shù)據(jù),判斷其業(yè)務(wù)范疇、經(jīng)營狀況、信用狀況、用戶定位、資金需求和行業(yè)發(fā)展趨勢,解決由于其財務(wù)制度的不健全而無法真正了解其真實經(jīng)營狀況的難題,讓金融機構(gòu)放貸有信心、管理有保障。4.5.4大數(shù)據(jù)征信大數(shù)據(jù)征信就是利用信息技術(shù)優(yōu)勢,將不同信貸機構(gòu)、消費場景、支離破碎的海量數(shù)據(jù)整合起來,經(jīng)過數(shù)據(jù)清洗、模型分析、校驗等一系列流程后,加工融合成真正有用的信息。4.6大數(shù)據(jù)在汽車領(lǐng)域的應(yīng)用為了實現(xiàn)無人駕駛的功能,谷歌無人駕駛汽車上配備了大量傳感器,包括雷達、車道保持系統(tǒng)、激光測距系統(tǒng)、紅外攝像頭、立體視覺、GPS導航系統(tǒng)、車輪角度編碼器等,這些傳感器每秒產(chǎn)生1GB數(shù)據(jù),每年產(chǎn)生的數(shù)據(jù)量將達到約2PB。大數(shù)據(jù)分析技術(shù)將幫助無人駕駛系統(tǒng)做出更加智能的駕駛動作決策,比人類駕車更加安全、舒適、節(jié)能、環(huán)保。4.7大數(shù)據(jù)在零售領(lǐng)域的應(yīng)用4.7.1發(fā)現(xiàn)關(guān)聯(lián)購買行為4.7.2客戶群體細分4.7.3供應(yīng)鏈管理4.8大數(shù)據(jù)在餐飲領(lǐng)域的應(yīng)用4.8.1餐飲行業(yè)擁抱大數(shù)據(jù)4.8.2餐飲O2O:餐飲O2O(OnlineToOffline)模式是指無縫整合線上線下資源,形成以數(shù)據(jù)驅(qū)動的O2O閉環(huán)運營模式。1.大數(shù)據(jù)驅(qū)動的團購模式2.利用大數(shù)據(jù)為用戶推薦消費內(nèi)容3.利用大數(shù)據(jù)調(diào)整線下門店布局4.利用大數(shù)據(jù)控制店內(nèi)人流量4.9大數(shù)據(jù)在電信領(lǐng)域的應(yīng)用預測客戶行為,發(fā)現(xiàn)行為趨勢,并找出公司服務(wù)過程中存在缺陷的環(huán)節(jié),從而幫助公司及時采取措施保留客戶。4.10大數(shù)據(jù)在能源領(lǐng)域的應(yīng)用智能電網(wǎng)的發(fā)展,離不開大數(shù)據(jù)技術(shù)的發(fā)展和應(yīng)用,大數(shù)據(jù)技術(shù)是組成整個智能電網(wǎng)的技術(shù)基石。4.11大數(shù)據(jù)在體育和娛樂領(lǐng)域的應(yīng)用4.11.1訓練球隊:大數(shù)據(jù)可以有效幫助一支球隊進一步提升整體實力和水平。4.11.2投拍影視作品4.11.3預測比賽結(jié)果:大數(shù)據(jù)可以預測比賽結(jié)果卻是具有一定的科學根據(jù)的,它用數(shù)據(jù)來說話,通過對海量相關(guān)數(shù)據(jù)進行綜合分析,得出一個預測判斷。本質(zhì)上而言,大數(shù)據(jù)預測就是基于大數(shù)據(jù)和預測模型去預測未來某件事情的概率。利用大數(shù)據(jù)預測比賽結(jié)果,將對人們生活產(chǎn)生深刻的影響。4.12大數(shù)據(jù)在安全領(lǐng)域的應(yīng)用4.12.1大數(shù)據(jù)與國家安全4.12.2應(yīng)用大數(shù)據(jù)技術(shù)防御網(wǎng)絡(luò)攻擊云計算和大數(shù)據(jù)的出現(xiàn),為網(wǎng)絡(luò)安全產(chǎn)品帶來了深刻的變革。今天,基于云計算和大數(shù)據(jù)技術(shù)的云殺毒軟件,已經(jīng)廣泛應(yīng)用于企業(yè)信息安全保護。云殺毒通過網(wǎng)狀的大量客戶端對網(wǎng)絡(luò)中軟件行為的異常監(jiān)測,獲取互聯(lián)網(wǎng)中木馬、惡意程序的最新信息,傳送到云端,利用先進的云計算基礎(chǔ)設(shè)施和大數(shù)據(jù)技術(shù)進行自動分析和處理,能及時發(fā)現(xiàn)未知病毒代碼、未知威脅、0day漏洞等惡意攻擊,再把病毒和木馬

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論