




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
拓展模塊3:大數(shù)據(jù)應(yīng)用目
錄大數(shù)據(jù)與云計(jì)算、物聯(lián)網(wǎng)的關(guān)系大數(shù)據(jù)的應(yīng)用及面臨的挑戰(zhàn)大數(shù)據(jù)的生命周期初識(shí)大數(shù)據(jù)2目
錄能力目標(biāo)能夠識(shí)別現(xiàn)實(shí)中大數(shù)據(jù)的應(yīng)用能理解大數(shù)據(jù)、云計(jì)算和物聯(lián)網(wǎng)之間的關(guān)系學(xué)習(xí)目標(biāo)3知識(shí)目標(biāo)了解大數(shù)據(jù)的起源了解大數(shù)據(jù)定義了解大數(shù)據(jù)的經(jīng)典應(yīng)用了解大數(shù)據(jù)對(duì)人們學(xué)習(xí)、工作和生活帶來的變化目標(biāo)分析教學(xué)重點(diǎn)教學(xué)難點(diǎn)大數(shù)據(jù)的定義大數(shù)據(jù)的特征大數(shù)據(jù)的生命周期大數(shù)據(jù)的應(yīng)用場(chǎng)景培養(yǎng)學(xué)生的大數(shù)據(jù)思維拓展模塊3:大數(shù)據(jù)應(yīng)用初識(shí)大數(shù)據(jù)第三次信息化浪潮根據(jù)IBM前首席執(zhí)行官郭士納的觀點(diǎn),IT領(lǐng)域每隔十五年就會(huì)迎來一次重大變革信息化浪潮發(fā)生時(shí)間標(biāo)志解決問題代表企業(yè)第一次浪潮1980年前后個(gè)人計(jì)算機(jī)信息處理Intel、AMD、IBM、蘋果、微軟、聯(lián)想、戴爾、惠普等第二次浪潮1995年前后互聯(lián)網(wǎng)信息傳輸雅虎、谷歌、阿里巴巴、百度、騰訊等第三次浪潮2010年前后物聯(lián)網(wǎng)、云計(jì)算和大數(shù)據(jù)信息爆炸將涌現(xiàn)出一批新的市場(chǎng)標(biāo)桿企業(yè)表1-1三次信息化浪潮信息科技為大數(shù)據(jù)時(shí)代提供技術(shù)支撐技術(shù)支撐存儲(chǔ)計(jì)算網(wǎng)絡(luò)信息科技為大數(shù)據(jù)時(shí)代提供技術(shù)支撐圖1-1存儲(chǔ)價(jià)格隨時(shí)間變化情況1.存儲(chǔ)設(shè)備容量不斷增加信息科技為大數(shù)據(jù)時(shí)代提供技術(shù)支撐來自斯威本科技大學(xué)(SwinburneUniversityofTechnology)的研究團(tuán)隊(duì),在2013年6月29日刊出的《自然通訊(NatureCommunications)》雜志的文章中,描述了一種全新的數(shù)據(jù)存儲(chǔ)方式,可將1PB(1024TB)的數(shù)據(jù)存儲(chǔ)到一張僅DVD大小的聚合物碟片上。信息科技為大數(shù)據(jù)時(shí)代提供技術(shù)支撐圖1-3CPU晶體管數(shù)目隨時(shí)間變化情況2.CPU處理能力大幅提升
信息科技為大數(shù)據(jù)時(shí)代提供技術(shù)支撐圖1-4網(wǎng)絡(luò)帶寬隨時(shí)間變化情況3.網(wǎng)絡(luò)帶寬不斷增加數(shù)據(jù)產(chǎn)生方式的變革促成大數(shù)據(jù)時(shí)代的來臨階段時(shí)間內(nèi)容第一階段:萌芽期上世紀(jì)90年代至本世紀(jì)初隨著數(shù)據(jù)挖掘理論和數(shù)據(jù)庫(kù)技術(shù)的逐步成熟,一批商業(yè)智能工具和知識(shí)管理技術(shù)開始被應(yīng)用,如數(shù)據(jù)倉(cāng)庫(kù)、專家系統(tǒng)、知識(shí)管理系統(tǒng)等。第二階段:成熟期本世紀(jì)前十年Web2.0應(yīng)用迅猛發(fā)展,非結(jié)構(gòu)化數(shù)據(jù)大量產(chǎn)生,傳統(tǒng)處理方法難以應(yīng)對(duì),帶動(dòng)了大數(shù)據(jù)技術(shù)的快速突破,大數(shù)據(jù)解決方案逐漸走向成熟,形成了并行計(jì)算與分布式系統(tǒng)兩大核心技術(shù),谷歌的GFS和MapReduce等大數(shù)據(jù)技術(shù)受到追捧,Hadoop平臺(tái)開始大行其道。第三階段:大規(guī)模應(yīng)用期2010年以后大數(shù)據(jù)應(yīng)用滲透各行各業(yè),數(shù)據(jù)驅(qū)動(dòng)決策,信息社會(huì)智能化程度大幅提高。表1-2大數(shù)據(jù)發(fā)展的三個(gè)階段大數(shù)據(jù)的發(fā)展大數(shù)據(jù)的定義“大數(shù)據(jù)”一詞由英文BigData翻譯而來。大數(shù)據(jù)是指?jìng)鹘y(tǒng)的軟件工具在一定的時(shí)間范圍內(nèi)無法捕獲、管理和處理的數(shù)據(jù)集,它是一種大規(guī)模、高增長(zhǎng)率和多樣化的信息資產(chǎn)。維基百科從處理方法角度給出的大數(shù)據(jù)定義,即大數(shù)據(jù)是指利用常用軟件工具捕獲管理和處理數(shù)據(jù)所耗時(shí)間超過可容忍時(shí)間限制的數(shù)據(jù)集。麥肯錫公司認(rèn)為將數(shù)據(jù)規(guī)模超出傳統(tǒng)數(shù)據(jù)庫(kù)管理軟件的獲取、存儲(chǔ)、管理以及分析能力的數(shù)據(jù)集稱為大數(shù)據(jù);高德納咨詢公司則是將大數(shù)據(jù)歸納為需要新處理模式才能增強(qiáng)決策力、洞察力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。中國(guó)科學(xué)院徐宗本院士在第462次香山科學(xué)會(huì)議上的報(bào)告中,將大數(shù)據(jù)定義為不能夠集中存儲(chǔ)并且難以在可接受時(shí)間內(nèi)分析處理,其中個(gè)體或部分?jǐn)?shù)據(jù)呈現(xiàn)低價(jià)值性而數(shù)據(jù)整體呈現(xiàn)高價(jià)值的海量復(fù)雜數(shù)據(jù)集。大數(shù)據(jù)的特征與真實(shí)世界中的發(fā)生過程息息相關(guān)價(jià)值密度和數(shù)據(jù)總量的比例存儲(chǔ)量大,計(jì)算量來源多,類型多處理速度快價(jià)值性規(guī)模性多樣性高速性真實(shí)性規(guī)模性:存儲(chǔ)量大,計(jì)算量大根據(jù)IDC作出的估測(cè),數(shù)據(jù)一直都在以每年50%的速度增長(zhǎng),也就是說每?jī)赡昃驮鲩L(zhǎng)一倍(大數(shù)據(jù)摩爾定律)人類在最近兩年產(chǎn)生的數(shù)據(jù)量相當(dāng)于之前產(chǎn)生的全部數(shù)據(jù)量預(yù)計(jì)到2020年,全球?qū)⒖偣矒碛?5ZB的數(shù)據(jù)量,相較于2010年,數(shù)據(jù)量將增長(zhǎng)近30倍多樣性:來源多,類型多大數(shù)據(jù)是由結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)組成的10%的結(jié)構(gòu)化數(shù)據(jù),存儲(chǔ)在數(shù)據(jù)庫(kù)中90%的非結(jié)構(gòu)化數(shù)據(jù),它們與人類信息密切相關(guān)科學(xué)研究–基因組–LHC加速器–地球與空間探測(cè)企業(yè)應(yīng)用–Email、文檔、文件–應(yīng)用日志–交易記錄Web1.0數(shù)據(jù)–文本–圖像–視頻Web2.0數(shù)據(jù)–查詢?nèi)罩?點(diǎn)擊流–Twitter/Blog/SNS–Wiki高速性:處理速度快從數(shù)據(jù)的生成到消耗,時(shí)間窗口非常小,可用于生成決策的時(shí)間非常少1秒定律:這一點(diǎn)也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同真實(shí)性:與真實(shí)世界中的發(fā)生過程息息相關(guān)大數(shù)據(jù)是互聯(lián)網(wǎng)、通信網(wǎng)、物聯(lián)網(wǎng)等各種類型網(wǎng)絡(luò)中自然產(chǎn)生的數(shù)據(jù),其內(nèi)容是與真實(shí)世界中發(fā)生的事件息息相關(guān)的,在對(duì)大數(shù)據(jù)進(jìn)行處理的時(shí)候必須要保留原始數(shù)據(jù)的真實(shí)特征。數(shù)據(jù)真實(shí)性還可能受到各種因素影響,呈現(xiàn)的數(shù)據(jù)是否真實(shí)反映了客觀事實(shí)也是我們需要考慮的。價(jià)值性:價(jià)值密度和數(shù)據(jù)總量的比例
價(jià)值密度低,商業(yè)價(jià)值高
以視頻為例,連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅有一兩秒,但是具有很高的商業(yè)價(jià)值大數(shù)據(jù)無處不在,包括金融、汽車、零售、餐飲、電信、能源、政務(wù)、醫(yī)療、體育、娛樂等在內(nèi)的社會(huì)各行各業(yè)都已經(jīng)融入了大數(shù)據(jù)的印跡大數(shù)據(jù)經(jīng)典案例大數(shù)據(jù)經(jīng)典案例——沃爾瑪“啤酒加尿布”全球零售業(yè)巨頭沃爾瑪在對(duì)消費(fèi)者購(gòu)物行為分析時(shí)發(fā)現(xiàn),男性顧客在購(gòu)買嬰兒尿片時(shí),常常會(huì)順便搭配幾瓶啤酒來犒勞自己,于是嘗試推出了將啤酒和尿布擺在一起的促銷手段。沒想到這個(gè)舉措居然使尿布和啤酒的銷量都大幅增加了。1993年美國(guó)學(xué)者Agrawal提出Aprior算法——通過分析購(gòu)物籃中的商品集合,從而找出商品之間關(guān)聯(lián)關(guān)系的關(guān)聯(lián)算法,并根據(jù)商品之間的關(guān)系,找出客戶的購(gòu)買行為。沃爾瑪從上個(gè)世紀(jì)90年代嘗試將Aprior算法引入到POS機(jī)數(shù)據(jù)分析中,并獲得了成功,于是產(chǎn)生了“啤酒與尿布”的故事。大數(shù)據(jù)經(jīng)典案例:菜鳥菜鳥網(wǎng)絡(luò)計(jì)劃在5到8年內(nèi),打造一個(gè)全國(guó)性的超級(jí)物流網(wǎng)。物流信息系統(tǒng)向所有的制造商、網(wǎng)商、快遞公司、第三方物流公司完全開放,這個(gè)網(wǎng)絡(luò)能在24小時(shí)內(nèi)將貨物運(yùn)抵國(guó)內(nèi)任何地區(qū),能支撐日均300億元(年度約10萬億元)的巨量網(wǎng)絡(luò)零售額。阿里物流體系天網(wǎng)天貓牽頭負(fù)責(zé)與各大物流快遞公司對(duì)接的數(shù)據(jù)平臺(tái)地網(wǎng)即“菜鳥”,又稱“中國(guó)智能物流骨干網(wǎng)(CSN)”大數(shù)據(jù)經(jīng)典案例:菜鳥菜鳥網(wǎng)絡(luò)未來暢想大數(shù)據(jù)經(jīng)典案例——谷歌預(yù)測(cè)流感趨勢(shì)
從谷歌流感趨勢(shì)看大數(shù)據(jù)的應(yīng)用價(jià)值
“谷歌流感趨勢(shì)”,通過跟蹤搜索詞相關(guān)數(shù)據(jù)來判斷全美地區(qū)的流感情況大數(shù)據(jù)經(jīng)典案例——制造熱播劇KevinSpaceyDavidFincher英國(guó)同名小說《紙牌屋》風(fēng)靡全球的美劇《紙牌屋》大數(shù)據(jù)分析拓展模塊3:大數(shù)據(jù)應(yīng)用大數(shù)據(jù)的生命周期大數(shù)據(jù)的生命周期大數(shù)據(jù)關(guān)鍵技術(shù)涵蓋從數(shù)據(jù)存儲(chǔ)、處理、應(yīng)用等多方面的技術(shù)。大數(shù)據(jù)處理的基本流程數(shù)據(jù)采集數(shù)據(jù)預(yù)處理數(shù)據(jù)分析及挖掘數(shù)據(jù)解釋數(shù)據(jù)采集數(shù)據(jù)的概念數(shù)據(jù)采集數(shù)據(jù)采集數(shù)據(jù)采集數(shù)據(jù)采集,又稱“數(shù)據(jù)獲取”,是數(shù)據(jù)分析的入口,也是數(shù)據(jù)分析過程中相當(dāng)重要的一個(gè)環(huán)節(jié),它通過各種技術(shù)手段把外部各種數(shù)據(jù)源產(chǎn)生的數(shù)據(jù)實(shí)時(shí)或非實(shí)時(shí)地采集并加以利用。數(shù)據(jù)采集數(shù)據(jù)的概念數(shù)據(jù)采集結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)采集數(shù)據(jù)的概念來源單一,數(shù)據(jù)量相對(duì)較少數(shù)據(jù)源結(jié)構(gòu)單一數(shù)據(jù)類型關(guān)系數(shù)據(jù)庫(kù)和并行數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)存儲(chǔ)來源廣泛,數(shù)據(jù)量巨大數(shù)據(jù)源數(shù)據(jù)類型豐富,包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)類型分布式數(shù)據(jù)庫(kù),分布式文件系統(tǒng)數(shù)據(jù)存儲(chǔ)傳統(tǒng)的數(shù)據(jù)采集大數(shù)據(jù)采集傳統(tǒng)的數(shù)據(jù)采集與大數(shù)據(jù)采集區(qū)別數(shù)據(jù)采集數(shù)據(jù)的概念數(shù)據(jù)采集的數(shù)據(jù)源03
企業(yè)業(yè)務(wù)系統(tǒng)數(shù)據(jù)04
日志文件01
傳感器02互聯(lián)網(wǎng)數(shù)據(jù)數(shù)據(jù)采集數(shù)據(jù)的概念1.傳感器傳感器溫度計(jì)、麥克風(fēng)、DV錄像、手機(jī)拍照功能等,都屬于傳感器的一部分壓力傳感器、溫度傳感器、流量傳感器、聲音傳感器、電參數(shù)傳感器傳感器是一種檢測(cè)裝置,能感受到被測(cè)量的信息,并能將感受到的信息,按一定規(guī)律變換成為電信號(hào),或其他所需形式的信息輸出,以滿足信息的傳輸、處理、存儲(chǔ)、顯示、記錄和控制等要求數(shù)據(jù)采集2.互聯(lián)網(wǎng)數(shù)據(jù)互聯(lián)網(wǎng)數(shù)據(jù)采集是借助于網(wǎng)絡(luò)爬蟲來完成的。所謂“網(wǎng)絡(luò)爬蟲”,就是一個(gè)在網(wǎng)上到處或定向抓取網(wǎng)頁(yè)數(shù)據(jù)的程序。爬蟲數(shù)據(jù)采集方法可以將非結(jié)構(gòu)化數(shù)據(jù)從網(wǎng)頁(yè)中抽取出來,將其存儲(chǔ)為統(tǒng)一的本地?cái)?shù)據(jù)文件,并以結(jié)構(gòu)化的方式存儲(chǔ)。它支持圖片、音頻、視頻等文件或附件的采集,附件與正文可以自動(dòng)關(guān)聯(lián)。數(shù)據(jù)采集數(shù)據(jù)的概念3.日志文件日志文件數(shù)據(jù)一般由數(shù)據(jù)源系統(tǒng)產(chǎn)生,用于記錄數(shù)據(jù)源的執(zhí)行的各種操作活動(dòng),比如網(wǎng)絡(luò)監(jiān)控的流量管理、金融應(yīng)用的股票記賬和Web服務(wù)器記錄的用戶訪問行為。通過對(duì)這些日志信息進(jìn)行采集,然后進(jìn)行數(shù)據(jù)分析,就可以從公司業(yè)務(wù)平臺(tái)日志數(shù)據(jù)中,挖掘得到具有潛在價(jià)值的信息,為公司決策和公司后臺(tái)服務(wù)器平臺(tái)性能評(píng)估,提供可靠的數(shù)據(jù)保證。系統(tǒng)日志采集系統(tǒng)做的事情就是,收集日志數(shù)據(jù),提供離線和在線的實(shí)時(shí)分析使用。數(shù)據(jù)采集數(shù)據(jù)的概念ChukwaFlumeScribe3.日志文件數(shù)據(jù)采集數(shù)據(jù)的概念4.企業(yè)業(yè)務(wù)系統(tǒng)數(shù)據(jù)一些企業(yè)會(huì)使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)MySQL和Oracle等來存儲(chǔ)業(yè)務(wù)系統(tǒng)數(shù)據(jù),除此之外,Redis和MongoDB這樣的NoSQL數(shù)據(jù)庫(kù)也常用于數(shù)據(jù)的存儲(chǔ)。企業(yè)每時(shí)每刻產(chǎn)生的業(yè)務(wù)數(shù)據(jù),以數(shù)據(jù)庫(kù)一行記錄的形式,被直接寫入到數(shù)據(jù)庫(kù)中。數(shù)據(jù)預(yù)處理數(shù)據(jù)清洗是指將大量原始數(shù)據(jù)中的“臟”數(shù)據(jù)“洗掉”,它是發(fā)現(xiàn)并糾正數(shù)據(jù)文件中可識(shí)別的錯(cuò)誤的最后一道程序,包括檢查數(shù)據(jù)一致性,處理無效值和缺失值等。比如,在構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)時(shí),由于數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是面向某一主題的數(shù)據(jù)的集合,這些數(shù)據(jù)從多個(gè)業(yè)務(wù)系統(tǒng)中抽取而來,而且包含歷史數(shù)據(jù),這樣就避免不了有的數(shù)據(jù)是錯(cuò)誤數(shù)據(jù)、有的數(shù)據(jù)相互之間有沖突,這些錯(cuò)誤的或有沖突的數(shù)據(jù)顯然是我們不想要的,稱為“臟數(shù)據(jù)”。我們要按照一定的規(guī)則把“臟數(shù)據(jù)”給“洗掉”,這就是“數(shù)據(jù)清洗”
數(shù)據(jù)清洗數(shù)據(jù)的概念1.需要清洗的數(shù)據(jù)的主要類型重復(fù)數(shù)據(jù)錯(cuò)誤數(shù)據(jù)殘缺數(shù)據(jù)數(shù)據(jù)清洗2.數(shù)據(jù)清洗的內(nèi)容一致性檢查無效值和缺失值的處理估算整例刪除變量刪除成對(duì)刪除數(shù)據(jù)存儲(chǔ)和管理技術(shù)數(shù)據(jù)的概念1.分布式文件系統(tǒng)分布式文件系統(tǒng)(DistributedFileSystem)是一種通過網(wǎng)絡(luò)實(shí)現(xiàn)文件在多臺(tái)主機(jī)上進(jìn)行分布式存儲(chǔ)的文件系統(tǒng)。圖分布式文件系統(tǒng)的整體結(jié)構(gòu)數(shù)據(jù)存儲(chǔ)和管理技術(shù)數(shù)據(jù)的概念1.分布式文件系統(tǒng)谷歌開發(fā)了分布式文件系統(tǒng)GFS,通過網(wǎng)絡(luò)實(shí)現(xiàn)文件在多臺(tái)機(jī)器上的分布式存儲(chǔ),較好地滿足了大規(guī)模數(shù)據(jù)存儲(chǔ)的需求。Hadoop分布式文件系統(tǒng)HDFS是針對(duì)GFS的開源實(shí)現(xiàn),它是Hadoop兩大核心組成部分之一,提供了在廉價(jià)服務(wù)器集群中進(jìn)行大規(guī)模分布式文件存儲(chǔ)的能力。數(shù)據(jù)存儲(chǔ)和管理技術(shù)數(shù)據(jù)的概念2.NewSQL和NoSQL數(shù)據(jù)庫(kù)
(1)NewSQL數(shù)據(jù)庫(kù)NewSQL簡(jiǎn)介NewSQL是對(duì)各種新的可擴(kuò)展、高性能數(shù)據(jù)庫(kù)的簡(jiǎn)稱,這類數(shù)據(jù)庫(kù)不僅具有對(duì)海量數(shù)據(jù)的存儲(chǔ)管理能力,還保持了傳統(tǒng)數(shù)據(jù)庫(kù)支持ACID和SQL等.特性不同的NewSQL數(shù)據(jù)庫(kù)有兩個(gè)顯著的共同特點(diǎn):都支持關(guān)系數(shù)據(jù)模型;都使用SQL作為其主要的接口。在眾多NewSQL數(shù)據(jù)庫(kù)中,Spanner備受矚目,它是一個(gè)可擴(kuò)展、多版本、全球分布式并且支持同步復(fù)制的數(shù)據(jù)庫(kù),是Google的第一個(gè)可以全球擴(kuò)展并且支持外部一致性的數(shù)據(jù)庫(kù)。代表性的NewSQL數(shù)據(jù)庫(kù)數(shù)據(jù)存儲(chǔ)和管理技術(shù)數(shù)據(jù)的概念2.NewSQL和NoSQL數(shù)據(jù)庫(kù)
(2)NoSQL數(shù)據(jù)庫(kù)NoSQL數(shù)據(jù)庫(kù)沒有固定的表結(jié)構(gòu),通常也不存在連接操作,也沒有嚴(yán)格遵守ACID約束,因此,與關(guān)系數(shù)據(jù)庫(kù)相比,NoSQL具有靈活的水平可擴(kuò)展性,可以支持海量數(shù)據(jù)存儲(chǔ)NoSQL是一種不同于關(guān)系數(shù)據(jù)庫(kù)的數(shù)據(jù)庫(kù)管理系統(tǒng)設(shè)計(jì)方式,是對(duì)非關(guān)系型數(shù)據(jù)庫(kù)的統(tǒng)稱,它所采用的數(shù)據(jù)模型并非傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)的關(guān)系模型,而是類似鍵/值、列族、文檔等非關(guān)系模型數(shù)據(jù)存儲(chǔ)和管理技術(shù)數(shù)據(jù)的概念數(shù)據(jù)的概念2.NewSQL和NoSQL數(shù)據(jù)庫(kù)(2)NoSQL數(shù)據(jù)庫(kù)靈活的可擴(kuò)展性靈活的數(shù)據(jù)模型與云計(jì)算緊密融合NoSQL優(yōu)點(diǎn)數(shù)據(jù)分析與挖掘數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)算法數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)是計(jì)算機(jī)學(xué)科中最活躍的研究分支之一。機(jī)器學(xué)習(xí)是一門多領(lǐng)域交叉學(xué)科,涉及概率論、統(tǒng)計(jì)學(xué)、逼近論、凸分析、算法復(fù)雜度理論等多門學(xué)科,專門研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識(shí)或技能,重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善自身的性能,它是人工智能的核心,是使計(jì)算機(jī)具有智能的根本途徑,其應(yīng)用遍及人工智能的各個(gè)領(lǐng)域。數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。數(shù)據(jù)挖掘可以視為機(jī)器學(xué)習(xí)與數(shù)據(jù)庫(kù)的交叉,它主要利用機(jī)器學(xué)習(xí)界提供的算法來分析海量數(shù)據(jù),利用數(shù)據(jù)庫(kù)界提供的存儲(chǔ)技術(shù)來管理海量數(shù)據(jù)。從知識(shí)的來源角度而言,數(shù)據(jù)挖掘領(lǐng)域的很多知識(shí)也“間接”來自于統(tǒng)計(jì)學(xué)界數(shù)據(jù)分析與挖掘大數(shù)據(jù)處理分析技術(shù)類型及其代表產(chǎn)品大數(shù)據(jù)計(jì)算模式解決問題代表產(chǎn)品批處理計(jì)算針對(duì)大規(guī)模數(shù)據(jù)的批量處理MapReduce、Spark等流計(jì)算針對(duì)流數(shù)據(jù)的實(shí)時(shí)計(jì)算Storm、S4、Flume、Streams、Puma、DStream、SuperMario、銀河流數(shù)據(jù)處理平臺(tái)等圖計(jì)算針對(duì)大規(guī)模圖結(jié)構(gòu)數(shù)據(jù)的處理Pregel、GraphX、Giraph、PowerGraph、Hama、GoldenOrb等查詢分析計(jì)算大規(guī)模數(shù)據(jù)的存儲(chǔ)管理和查詢分析Dremel、Hive、Cassandra、Impala等數(shù)據(jù)可視化數(shù)據(jù)可視化是指將大型數(shù)據(jù)集中的數(shù)據(jù)以圖形圖像形式表示,并利用數(shù)據(jù)分析和開發(fā)工具發(fā)現(xiàn)其中未知信息的處理過程數(shù)據(jù)可視化技術(shù)的基本思想是將數(shù)據(jù)庫(kù)中每一個(gè)數(shù)據(jù)項(xiàng)作為單個(gè)圖元素表示,大量的數(shù)據(jù)集構(gòu)成數(shù)據(jù)圖像,同時(shí)將數(shù)據(jù)的各個(gè)屬性值以多維數(shù)據(jù)的形式表示,可以從不同的維度觀察數(shù)據(jù),從而對(duì)數(shù)據(jù)進(jìn)行更深入的觀察和分析數(shù)據(jù)可視化概念數(shù)據(jù)可視化數(shù)據(jù)可視化的作用依靠可視化手段進(jìn)行數(shù)據(jù)分析必將成為大數(shù)據(jù)分析流程的主要環(huán)節(jié)之一。讓“茫茫數(shù)據(jù)”以可視化的方式呈現(xiàn),讓枯燥的數(shù)據(jù)以簡(jiǎn)單友好的圖表形式展現(xiàn)出來,可以讓數(shù)據(jù)變得更加通俗易懂,有助于用戶更加方便快捷地理解數(shù)據(jù)的深層次含義,有效參與復(fù)雜的數(shù)據(jù)分析過程,提升數(shù)據(jù)分析效率,改善數(shù)據(jù)分析效果。數(shù)據(jù)可視化數(shù)據(jù)可視化的作用(1)觀測(cè)、跟蹤數(shù)據(jù)數(shù)據(jù)可視化數(shù)據(jù)可視化的作用(2)分析數(shù)據(jù)圖
用戶參與的可視化分析過程數(shù)據(jù)可視化數(shù)據(jù)可視化的作用(3)輔助理解數(shù)據(jù)圖
微軟“人立方”展示的人物關(guān)系圖數(shù)據(jù)可視化數(shù)據(jù)可視化的作用(4)增強(qiáng)數(shù)據(jù)吸引力圖
一個(gè)可視化的圖表新聞實(shí)例拓展模塊3:大數(shù)據(jù)應(yīng)用大數(shù)據(jù)的應(yīng)用及面臨的挑戰(zhàn)大數(shù)據(jù)應(yīng)用領(lǐng)域1.了解和定位客戶這是大數(shù)據(jù)目前最廣為人知的應(yīng)用領(lǐng)域。很多企業(yè)熱衷于社交媒體數(shù)據(jù)、瀏覽器日志、文本挖掘等各類數(shù)據(jù)集,通過大數(shù)據(jù)技術(shù)創(chuàng)建預(yù)測(cè)模型,從而更全面地了解客戶以及他們的行為、喜好等。大數(shù)據(jù)應(yīng)用領(lǐng)域1.了解和定位客戶這是大數(shù)據(jù)目前最廣為人知的應(yīng)用領(lǐng)域。很多企業(yè)熱衷于社交媒體數(shù)據(jù)、瀏覽器日志、文本挖掘等各類數(shù)據(jù)集,通過大數(shù)據(jù)技術(shù)創(chuàng)建預(yù)測(cè)模型,從而更全面地了解客戶以及他們的行為、喜好等。大數(shù)據(jù)應(yīng)用領(lǐng)域2.了解和優(yōu)化業(yè)務(wù)流程大數(shù)據(jù)也越來越多地應(yīng)用于優(yōu)化業(yè)務(wù)流程,如在運(yùn)輸行業(yè),運(yùn)輸公司可以通過定位和識(shí)別系統(tǒng)來跟蹤貨物及運(yùn)輸車輛,并根據(jù)實(shí)時(shí)交通路況數(shù)據(jù)優(yōu)化運(yùn)輸路線。大數(shù)據(jù)應(yīng)用領(lǐng)域3.提供個(gè)性化服務(wù)大數(shù)據(jù)不僅服務(wù)于公司和政府,也有益于我們每個(gè)人,比如從智能手表或智能手環(huán)等可穿戴設(shè)備采集的數(shù)據(jù)中獲益。常用的智能手環(huán)可以分析人們的卡路里消耗、活動(dòng)量和睡眠質(zhì)量等。大數(shù)據(jù)公司可以通過收集長(zhǎng)達(dá)幾十年的睡眠數(shù)據(jù),從中分析出一些獨(dú)到的見解反饋給每個(gè)用戶。從中受益的還有網(wǎng)絡(luò)婚戀平臺(tái),大多數(shù)婚戀網(wǎng)站都使用大數(shù)據(jù)分析工具和算法為用戶匹配最合適的對(duì)象。大數(shù)據(jù)應(yīng)用領(lǐng)域3.提供個(gè)性化服務(wù)Target的大數(shù)據(jù)系統(tǒng),會(huì)為每一個(gè)顧客分配一個(gè)唯一的ID號(hào),顧客的刷信用卡、使用優(yōu)惠券、填寫調(diào)查問卷、郵寄退貨單、打客服電話、開啟廣告郵件、訪問官網(wǎng)等所有信息,都會(huì)與自己的ID號(hào)關(guān)聯(lián)起來并存入大數(shù)據(jù)系統(tǒng),同時(shí)Target公司從其他相關(guān)機(jī)構(gòu)購(gòu)買了關(guān)于顧客的其他必要信息,包括年齡、是否已婚、是否有子女、所住市區(qū)、住址離Target的車程、薪水情況、最近是否搬過家、錢包里的信用卡情況、常訪問的網(wǎng)址、種族、就業(yè)史、喜歡讀的雜志、破產(chǎn)記錄、婚姻史、購(gòu)房記錄、求學(xué)記錄、閱讀習(xí)慣等大數(shù)據(jù)應(yīng)用領(lǐng)域4.改善醫(yī)療保健和公共衛(wèi)生大數(shù)據(jù)分析技術(shù)可以解碼人體整個(gè)DNA序列,從而幫助我們更好地理解和預(yù)測(cè)疾病模式,提升醫(yī)療水平。試想一下,當(dāng)來自所有智能手表等可穿戴設(shè)備的數(shù)據(jù),都可以應(yīng)用于數(shù)百萬人及其各種疾病時(shí),未來的臨床試驗(yàn)將不再局限于小樣本,而是包括所有人。更重要的是,大數(shù)據(jù)分析技術(shù)有助于我們監(jiān)測(cè)和預(yù)測(cè)流行性或傳染性疾病的暴發(fā),可以將醫(yī)療記錄的數(shù)據(jù)與相關(guān)的社交媒體數(shù)據(jù)結(jié)合起來分析。大數(shù)據(jù)應(yīng)用領(lǐng)域4.改善醫(yī)療保健和公共衛(wèi)生廈門、蘇州等城市建立了先進(jìn)的智慧醫(yī)療在線系統(tǒng),可以實(shí)現(xiàn)在線預(yù)約、健康檔案管理、社區(qū)服務(wù)、家庭醫(yī)療、支付清算等功能,大大便利了市民就醫(yī),也提升了醫(yī)療服務(wù)的質(zhì)量和患者滿意度大數(shù)據(jù)應(yīng)用領(lǐng)域5.應(yīng)用金融交易高頻交易大數(shù)據(jù)技術(shù)高頻交易圖高頻交易(High-FrequencyTrading,HFT)是指從那些人們無法利用的極為短暫的市場(chǎng)變化中尋求獲利的計(jì)算機(jī)化交易,比如,某種證券買入價(jià)和賣出價(jià)差價(jià)的微小變化,或者某只股票在不同交易所之間的微小價(jià)差隨著采取高頻交易策略的情形不斷增多,其所能帶來的利潤(rùn)開始大幅下降為了從高頻交易中獲得更高的利潤(rùn),一些金融機(jī)構(gòu)開始引入大數(shù)據(jù)技術(shù)來決定交易大數(shù)據(jù)應(yīng)用領(lǐng)域6.改善城市交通和治安環(huán)境大數(shù)據(jù)技術(shù)還常被用來改善城市交通,通過大數(shù)據(jù)分析篩選出交通擁堵路段來逐步改善交通情況。大數(shù)據(jù)技術(shù)現(xiàn)在還被應(yīng)用于安全執(zhí)法過程中,通過大數(shù)據(jù)研發(fā)的警務(wù)平臺(tái)能夠進(jìn)行犯罪預(yù)測(cè)、分析捕捉并提高警務(wù)工作效率,為社會(huì)治安做出重要的貢獻(xiàn)。大數(shù)據(jù)應(yīng)用領(lǐng)域6.改善城市交通和治安環(huán)境廈門、晉江等城市的公交車站,還專門設(shè)置了電子公交站牌,可以實(shí)時(shí)顯示經(jīng)過本站的各路公交車的當(dāng)前到達(dá)位置,大大方便了公交出行的群眾,尤其是很多不會(huì)使用智能手機(jī)的中老年人群體智能交通大數(shù)據(jù)應(yīng)用領(lǐng)域7.提高教育質(zhì)量在課堂上,數(shù)據(jù)不僅有助于改善教育和教學(xué),而且還為大數(shù)據(jù)提供了機(jī)會(huì),使其能夠利用自己的優(yōu)勢(shì)協(xié)助做出重大教育決策和進(jìn)行教育改革。例如,探討教育投入與學(xué)生學(xué)業(yè)成績(jī)之間的關(guān)系,以及探討課程設(shè)置是否合理。大數(shù)據(jù)還可以幫助家長(zhǎng)和教師找出孩子的學(xué)習(xí)薄弱點(diǎn)和有效的學(xué)習(xí)方法,從而了解學(xué)生的學(xué)習(xí)特點(diǎn)和學(xué)習(xí)方法,為教育和教學(xué)提供決策參考。在中國(guó),特別是在北京、上海等城市,大數(shù)據(jù)在教育領(lǐng)域有很多應(yīng)用,如MOOC(massiveopenonlinecourses)、SPOC(SmallPrivateOnlineCourse小
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 商丘學(xué)院《建筑信息建模(BM)》2023-2024學(xué)年第二學(xué)期期末試卷
- 九江理工職業(yè)學(xué)院《動(dòng)物病毒與人類健康》2023-2024學(xué)年第二學(xué)期期末試卷
- 湖南工程學(xué)院《數(shù)據(jù)結(jié)構(gòu)與算法分析課程設(shè)計(jì)》2023-2024學(xué)年第二學(xué)期期末試卷
- 《活動(dòng)二 安全網(wǎng)上行》(教學(xué)設(shè)計(jì))-2023-2024學(xué)年六年級(jí)上冊(cè)綜合實(shí)踐活動(dòng)蒙滬版
- 遼寧現(xiàn)代服務(wù)職業(yè)技術(shù)學(xué)院《美術(shù)表現(xiàn)一中國(guó)畫》2023-2024學(xué)年第二學(xué)期期末試卷
- 海南外國(guó)語(yǔ)職業(yè)學(xué)院《自然地理基礎(chǔ)》2023-2024學(xué)年第二學(xué)期期末試卷
- 地震數(shù)據(jù)采集系統(tǒng)項(xiàng)目效益評(píng)估報(bào)告
- 山東商務(wù)職業(yè)學(xué)院《工程技術(shù)基礎(chǔ)》2023-2024學(xué)年第二學(xué)期期末試卷
- 鄭州商貿(mào)旅游職業(yè)學(xué)院《跨境電商平臺(tái)操作》2023-2024學(xué)年第二學(xué)期期末試卷
- 武漢商學(xué)院《文獻(xiàn)檢索與學(xué)術(shù)訓(xùn)練》2023-2024學(xué)年第二學(xué)期期末試卷
- 化工原理傳質(zhì)導(dǎo)論
- 環(huán)境與可持續(xù)發(fā)展ppt課件(完整版)
- Linux操作系統(tǒng)課件(完整版)
- 跨境電商亞馬遜運(yùn)營(yíng)實(shí)務(wù)完整版ppt課件-整套課件-最全教學(xué)教程
- 中國(guó)傳媒大學(xué)《當(dāng)代電視播音主持教程》課件
- 浙美版小學(xué)六年級(jí)美術(shù)下冊(cè)全冊(cè)精品必備教學(xué)課件
- DB32∕T 4245-2022 城鎮(zhèn)供水廠生物活性炭失效判別和更換標(biāo)準(zhǔn)
- 建設(shè)工程圍擋標(biāo)準(zhǔn)化管理圖集(2022年版)
- 人教版七年級(jí)上冊(cè)歷史課程綱要
- 濕法冶金簡(jiǎn)介
- 2022新教科版六年級(jí)科學(xué)下冊(cè)全一冊(cè)全部教案(共28節(jié))
評(píng)論
0/150
提交評(píng)論