《數(shù)據(jù)分析與可視化實(shí)踐(第三版)》大數(shù)據(jù)思維與技術(shù)_第1頁
《數(shù)據(jù)分析與可視化實(shí)踐(第三版)》大數(shù)據(jù)思維與技術(shù)_第2頁
《數(shù)據(jù)分析與可視化實(shí)踐(第三版)》大數(shù)據(jù)思維與技術(shù)_第3頁
《數(shù)據(jù)分析與可視化實(shí)踐(第三版)》大數(shù)據(jù)思維與技術(shù)_第4頁
《數(shù)據(jù)分析與可視化實(shí)踐(第三版)》大數(shù)據(jù)思維與技術(shù)_第5頁
已閱讀5頁,還剩13頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)思維

學(xué)習(xí)目標(biāo)1.理解數(shù)據(jù)、信息、知識、智慧之間的區(qū)別及聯(lián)系2.了解數(shù)據(jù)思維的本質(zhì)3.了解大數(shù)據(jù)思維的本質(zhì)4.了解大數(shù)據(jù)技術(shù)

1.2大數(shù)據(jù)思維與技術(shù)1.2.1認(rèn)識大數(shù)據(jù)數(shù)據(jù)量增加數(shù)據(jù)結(jié)構(gòu)日趨復(fù)雜數(shù)據(jù)來源不斷豐富,形成了多源異構(gòu)的數(shù)據(jù)形態(tài),其中非結(jié)構(gòu)化數(shù)據(jù)包括全文文本、圖像、聲音、影視、超媒體等信息所占比例逐年增大。大數(shù)據(jù)是指無法在一定時(shí)間內(nèi)用常規(guī)軟件工具對其內(nèi)容進(jìn)行提取、管理和加工處理的數(shù)據(jù)集合。大數(shù)據(jù)技術(shù),是指從各種各樣類型的數(shù)據(jù)中,快速獲得有價(jià)值信息的能力。TBPBEBZB1.2.1認(rèn)識大數(shù)據(jù)2.大數(shù)據(jù)的特點(diǎn)體量Volume多樣性Variety價(jià)值密度Value速度Velocity非結(jié)構(gòu)化數(shù)據(jù)的超大規(guī)模和增長總數(shù)據(jù)量的80~90%比結(jié)構(gòu)化數(shù)據(jù)增長快10倍到50倍是傳統(tǒng)數(shù)據(jù)倉庫的10倍到50倍大數(shù)據(jù)的異構(gòu)和多樣性很多不同形式(文本、圖像、視頻、機(jī)器數(shù)據(jù))無模式或者模式不明顯不連貫的語法或句義大量的不相關(guān)信息對未來趨勢與模式的可預(yù)測分析深度復(fù)雜分析(機(jī)器學(xué)習(xí)、人工智能Vs傳統(tǒng)商務(wù)智能(咨詢、報(bào)告等)實(shí)時(shí)分析而非批量式分析數(shù)據(jù)輸入、處理與丟棄立竿見影而非事后見效1.2.1認(rèn)識大數(shù)據(jù)3.大數(shù)據(jù)時(shí)代的商業(yè)變革商業(yè)模式是指一個(gè)完整的產(chǎn)品、服務(wù)和信息流體系,包括每一個(gè)參與者和其在其中起到的作用,以及每一個(gè)參與者的潛在利益和相應(yīng)的收益來源和方式。

傳統(tǒng)的商業(yè)智能已經(jīng)應(yīng)用了數(shù)據(jù)倉庫、線上分析處理、數(shù)據(jù)挖掘和數(shù)據(jù)展現(xiàn)技術(shù),對企業(yè)自身的數(shù)據(jù)進(jìn)行存儲、清理、索引和分析,并能夠提供包括客戶價(jià)值評價(jià)、客戶滿意度評價(jià)、服務(wù)質(zhì)量評價(jià)、營銷效果評價(jià)、市場需求評估等各種基于簡單統(tǒng)計(jì)和關(guān)聯(lián)挖掘的報(bào)表以實(shí)現(xiàn)商業(yè)價(jià)值。1.2.1認(rèn)識大數(shù)據(jù)3.大數(shù)據(jù)時(shí)代的商業(yè)變革數(shù)據(jù)倉庫線上分析處理數(shù)據(jù)挖掘數(shù)據(jù)展現(xiàn)技術(shù)企業(yè)自身的數(shù)據(jù)存儲清理索引分析客戶價(jià)值評價(jià)客戶滿意度評價(jià)服務(wù)質(zhì)量評價(jià)營銷效果評價(jià)市場需求評估基于簡單統(tǒng)計(jì)和關(guān)聯(lián)挖掘的報(bào)表傳統(tǒng)的商業(yè)智能1.2.1認(rèn)識大數(shù)據(jù)3.大數(shù)據(jù)時(shí)代的商業(yè)變革大數(shù)據(jù)的商業(yè)智能應(yīng)用體系1.2.1認(rèn)識大數(shù)據(jù)大數(shù)據(jù)的三個(gè)時(shí)代大數(shù)據(jù)1.0時(shí)代追求從數(shù)據(jù)到分析,從分析到更多更好的數(shù)據(jù),再到更深入分析這樣的正向循環(huán)。大數(shù)據(jù)2.0時(shí)代強(qiáng)調(diào)的是數(shù)據(jù)的外部性。它是指企業(yè)用自身業(yè)務(wù)產(chǎn)生的數(shù)據(jù),這些數(shù)據(jù)不只是對企業(yè)內(nèi)部有價(jià)值,還可以去解決主營業(yè)務(wù)以外的其他問題,獲得重大的價(jià)值;或者引入非企業(yè)自身業(yè)務(wù)的外部數(shù)據(jù),來解決企業(yè)自己遇到的問題。大數(shù)據(jù)3.0時(shí)代將帶領(lǐng)人們進(jìn)入真正的大數(shù)據(jù)時(shí)代。個(gè)人、團(tuán)隊(duì)和企業(yè)可以通過數(shù)據(jù)API接口或付費(fèi)使用數(shù)據(jù)產(chǎn)品,數(shù)據(jù)中心、運(yùn)營商,大家共同分享數(shù)據(jù)產(chǎn)品的利益。1.2.1認(rèn)識大數(shù)據(jù)4.大數(shù)據(jù)時(shí)代的科學(xué)變革大數(shù)據(jù)的價(jià)值網(wǎng)頁數(shù)據(jù)檢索世界上最新最全的信息方位數(shù)據(jù)借助GPS快速到達(dá)目的地生物特征數(shù)據(jù)進(jìn)行身份識別認(rèn)證情緒數(shù)據(jù)根據(jù)快樂與否判斷股市的漲跌1.2.1認(rèn)識大數(shù)據(jù)4.大數(shù)據(jù)時(shí)代的科學(xué)變革大數(shù)據(jù)帶來了很多新的重要的科學(xué)問題,如預(yù)測任務(wù)、描述任務(wù),其中最重要的是預(yù)測。預(yù)測問題主要可以分為兩類,一是趨勢預(yù)測,二是缺失信息預(yù)測。趨勢預(yù)測是指通過事物的一些基本屬性信息和早期的態(tài)勢分析,預(yù)測事物發(fā)展的潛在趨勢和最終影響力假設(shè)觀察到的信息只是全部真實(shí)信息的一部分,缺失信息預(yù)測就是探討如何利用當(dāng)前信息去預(yù)測未觀察到的信息數(shù)據(jù)科學(xué)是利用計(jì)算機(jī)的運(yùn)算能力對數(shù)據(jù)進(jìn)行處理,從數(shù)據(jù)中提取信息,進(jìn)而形成“知識”數(shù)據(jù)科學(xué)1.2.1認(rèn)識大數(shù)據(jù)5.大數(shù)據(jù)的戰(zhàn)略地位大數(shù)據(jù)被認(rèn)為是繼信息化和互聯(lián)網(wǎng)后整個(gè)信息革命的又一次高峰。云計(jì)算和大數(shù)據(jù)共同引領(lǐng)以數(shù)據(jù)為材料,計(jì)算為能源的又一次生產(chǎn)力的大解放,甚至可以與以蒸汽機(jī)作為動(dòng)力機(jī)的第一次工業(yè)革命和以電力的廣泛應(yīng)用為主要標(biāo)志的第二次工業(yè)革命相媲美。數(shù)據(jù)儲備和數(shù)據(jù)分析能力將成為未來新型國家最重要的核心戰(zhàn)略能力;對數(shù)據(jù)的擁有、占有、運(yùn)用和控制將成為綜合國力的重要組成部分,大數(shù)據(jù)領(lǐng)域的競爭,事關(guān)國家、企業(yè)的安全和未來,將成為國家間和企業(yè)間新的爭奪焦點(diǎn)。大數(shù)據(jù)的作用1.2.1認(rèn)識大數(shù)據(jù)5.大數(shù)據(jù)的戰(zhàn)略地位大數(shù)據(jù)的國家戰(zhàn)略2012年3月29日,美國政府宣布“大數(shù)據(jù)研究和發(fā)展計(jì)劃”2012年5月,我國召開第一個(gè)以大數(shù)據(jù)為主題的重大科學(xué)工作會議。2012年12月13日,“中關(guān)村大數(shù)據(jù)日”活動(dòng)會2013年3月5日~7日,舉辦主題為“大數(shù)據(jù)技術(shù)與應(yīng)用中的挑戰(zhàn)性科學(xué)問題”的論壇2013年5月16日,國家發(fā)改委高技術(shù)服務(wù)業(yè)研發(fā)與產(chǎn)業(yè)化專項(xiàng)“基礎(chǔ)研究大數(shù)據(jù)服務(wù)平臺應(yīng)用示范”項(xiàng)目啟動(dòng)2013年是大數(shù)據(jù)應(yīng)用之年2014年3月,大數(shù)據(jù)首次寫入中國中央政府工作報(bào)告2015年10月,黨的十八屆五中全會正式提出“實(shí)施國家大數(shù)據(jù)戰(zhàn)略,推進(jìn)數(shù)據(jù)資源開放共享”2018年5月,中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會1.2.2大數(shù)據(jù)思維的特點(diǎn)更好由因果思維到關(guān)聯(lián)思維更多由樣本思維到全量思維更雜由精準(zhǔn)思維到模糊思維更智由自然思維到智能思維1.2.3大數(shù)據(jù)技術(shù)技術(shù)描述具體技術(shù)例舉數(shù)據(jù)收集數(shù)據(jù)收集是從不同的數(shù)據(jù)源實(shí)時(shí)的或及時(shí)的收集不同類型的數(shù)據(jù)設(shè)備數(shù)據(jù)收集Splunk、Sqoop、Flume、Logstash、KettleWeb數(shù)據(jù)爬取Heritrix、Nutch數(shù)據(jù)預(yù)處理對數(shù)據(jù)的組織、表達(dá)形式、位置等進(jìn)行前置處理數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)歸約與數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)存儲分布式存儲與訪問是大數(shù)據(jù)存儲的關(guān)鍵技術(shù),它具有經(jīng)濟(jì)、高效、容錯(cuò)好等特點(diǎn)分布式文件系統(tǒng)HDFS、GFS、KFS文檔存儲MongoDB、CouchDB、Terrastore、RavenDB列式存儲SybaseIQ、Infobright鍵值存儲Redis、ApacheCassandra圖形數(shù)據(jù)庫GooglePregel、Neo4j關(guān)系數(shù)據(jù)庫分布式集群、列式存儲內(nèi)存存儲OracleTimesTen1.2.3大數(shù)據(jù)技術(shù)技術(shù)描述具體技術(shù)例舉數(shù)據(jù)處理分布式數(shù)據(jù)處理技術(shù)一方面與分布式存儲形式直接相關(guān),另一方面也與業(yè)務(wù)數(shù)據(jù)的溫度類型(冷數(shù)據(jù)、熱數(shù)據(jù))相關(guān)MapReduce分布式計(jì)算框架MapReduce分布式內(nèi)存計(jì)算系統(tǒng)Spark分布式流計(jì)算系統(tǒng)IBMStreamBase數(shù)據(jù)分析大數(shù)據(jù)分析技術(shù)包括對已有數(shù)據(jù)信息的分布式統(tǒng)計(jì)分析技術(shù),以及對未知數(shù)據(jù)信息的分布式挖掘和深度學(xué)習(xí)技術(shù)聚類高維聚類分析、分類屬性數(shù)據(jù)聚類分類決策樹、神經(jīng)網(wǎng)絡(luò)、SVM關(guān)聯(lián)分析Apriori、FP-growth深度學(xué)習(xí)CNNs、DBNs1.2.3大數(shù)據(jù)技術(shù)技術(shù)描述具體技術(shù)描述數(shù)據(jù)可視化數(shù)據(jù)可視化運(yùn)用計(jì)算機(jī)圖形學(xué)和圖像處理技術(shù),將數(shù)據(jù)換為圖形或圖像在屏幕上顯示出來,并進(jìn)行交互處理。數(shù)據(jù)信息的符號表達(dá)技術(shù)各數(shù)據(jù)類型具體的符號表達(dá)技術(shù)形式包括各類報(bào)表、儀表盤、坐標(biāo)曲線、地圖、譜圖、圖像幀等數(shù)據(jù)渲染技術(shù)各類符號到屏幕圖形陣列的2D平面渲染技術(shù)、3D立體渲染技術(shù)等。渲染關(guān)鍵技術(shù)還和具體媒介相關(guān)數(shù)據(jù)交互技術(shù)除了各類PC設(shè)備和移動(dòng)終端上的鼠標(biāo)、鍵盤與屏幕的交互技術(shù)形式,可能還包括語音、指紋等交互技術(shù)。數(shù)據(jù)表達(dá)模型技術(shù)數(shù)據(jù)可視化表達(dá)模型描述了數(shù)據(jù)展示給用戶所需要的語言文字和圖形圖像等符號信息,以及符

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論