《大數(shù)據(jù)導(dǎo)論》電子教學(xué)課件_第1頁(yè)
《大數(shù)據(jù)導(dǎo)論》電子教學(xué)課件_第2頁(yè)
《大數(shù)據(jù)導(dǎo)論》電子教學(xué)課件_第3頁(yè)
《大數(shù)據(jù)導(dǎo)論》電子教學(xué)課件_第4頁(yè)
《大數(shù)據(jù)導(dǎo)論》電子教學(xué)課件_第5頁(yè)
已閱讀5頁(yè),還剩261頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材大數(shù)據(jù)導(dǎo)論第一章大數(shù)據(jù)概念與應(yīng)用1.1大數(shù)據(jù)的概念1.2大數(shù)據(jù)的來(lái)源1.3大數(shù)據(jù)的特征及意義1.4大數(shù)據(jù)的表現(xiàn)形態(tài)1.5大數(shù)據(jù)的應(yīng)用場(chǎng)景習(xí)題大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材1.1大數(shù)據(jù)的概念12008年9月,美國(guó)《自然》(Nature)雜志??猅henextgoogle,第一次正式提出“大數(shù)據(jù)”概念。22011年2月1日,《科學(xué)》(Science)雜志??狣ealingwithdata,通過(guò)社會(huì)調(diào)查的方式,第一次綜合分析了大數(shù)據(jù)對(duì)人們生活造成的影響,詳細(xì)描述了人類面臨的“數(shù)據(jù)困境”。32011年5月,麥肯錫研究院發(fā)布報(bào)告——Bigdata:Thenextfrontierforinnovation,competition,andproductivity,第一次給大數(shù)據(jù)做出相對(duì)清晰的定義:“大數(shù)據(jù)是指其大小超出了常規(guī)數(shù)據(jù)庫(kù)工具獲取、儲(chǔ)存、管理和分析能力的數(shù)據(jù)集?!睍r(shí)至今日,“數(shù)據(jù)”變身“大數(shù)據(jù)”,“開啟了一次重大的時(shí)代轉(zhuǎn)型”。

“大數(shù)據(jù)”這一概念的形成,有三個(gè)標(biāo)志性事件:從“數(shù)據(jù)”到“大數(shù)據(jù)”第一章大數(shù)據(jù)概念及其應(yīng)用1.1大數(shù)據(jù)的概念大數(shù)據(jù)是指以多元形式,自許多來(lái)源搜集而來(lái)的龐大數(shù)據(jù)組,往往具有實(shí)時(shí)性。在企業(yè)對(duì)企業(yè)銷售的情況下,這些數(shù)據(jù)可能得自社交網(wǎng)絡(luò)、電子商務(wù)網(wǎng)站、顧客來(lái)訪紀(jì)錄,還有許多其他來(lái)源。這些數(shù)據(jù),并非公司顧客關(guān)系管理數(shù)據(jù)庫(kù)的常態(tài)數(shù)據(jù)組。什么是“大數(shù)據(jù)”第一章大數(shù)據(jù)概念及其應(yīng)用大數(shù)據(jù)數(shù)據(jù)源整合進(jìn)行存儲(chǔ)、清洗、挖掘、分析后得出結(jié)果直到優(yōu)化企業(yè)管理提高效率云計(jì)算、硬件性價(jià)比的提高以及軟件技術(shù)的進(jìn)步智能設(shè)備、傳感器的普及,推動(dòng)物聯(lián)網(wǎng)、人工智能的發(fā)展計(jì)算運(yùn)行、計(jì)算速度越來(lái)越快存儲(chǔ)存儲(chǔ)成本下降智能實(shí)現(xiàn)信息對(duì)等解放腦力,機(jī)器擁有人的智慧1.1大數(shù)據(jù)的概念大數(shù)據(jù)的技術(shù)支撐第一章大數(shù)據(jù)概念及其應(yīng)用1.1大數(shù)據(jù)的概念存儲(chǔ):存儲(chǔ)成本的下降云計(jì)算出現(xiàn)之前云計(jì)算出現(xiàn)之后在云計(jì)算出現(xiàn)之前,數(shù)據(jù)存儲(chǔ)的成本是非常高的。例如,公司要建設(shè)網(wǎng)站,需要購(gòu)置和部署服務(wù)器,安排技術(shù)人員維護(hù)服務(wù)器,保證數(shù)據(jù)存儲(chǔ)的安全性和數(shù)據(jù)傳輸?shù)臅惩ㄐ裕€會(huì)定期清理數(shù)據(jù),騰出空間以便存儲(chǔ)新的數(shù)據(jù),機(jī)房整體的人力和管理成本都很高。云計(jì)算出現(xiàn)后,數(shù)據(jù)存儲(chǔ)服務(wù)衍生出了新的商業(yè)模式,數(shù)據(jù)中心的出現(xiàn)降低了公司的計(jì)算和存儲(chǔ)成本。例如,公司現(xiàn)在要建設(shè)網(wǎng)站,不需要去購(gòu)買服務(wù)器,不需要去雇用技術(shù)人員維護(hù)服務(wù)器,可以通過(guò)租用硬件設(shè)備的方式解決問(wèn)題。存儲(chǔ)成本的下降,也改變了大家對(duì)數(shù)據(jù)的看法,更加愿意把1年、2年甚至更久遠(yuǎn)的歷史數(shù)據(jù)保存下來(lái),有了歷史數(shù)據(jù)的沉淀,才可以通過(guò)對(duì)比,發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)聯(lián)和價(jià)值。正是由于存儲(chǔ)成本的下降,才能為大數(shù)據(jù)搭建最好的基礎(chǔ)設(shè)施。第一章大數(shù)據(jù)概念及其應(yīng)用1.1大數(shù)據(jù)的概念計(jì)算:運(yùn)算速度越來(lái)越快分布式系統(tǒng)基礎(chǔ)架構(gòu)Hadoop的出現(xiàn),為大數(shù)據(jù)帶來(lái)了新的曙光;HDFS為海量的數(shù)據(jù)提供了存儲(chǔ);MapReduce則為海量的數(shù)據(jù)提供了并行計(jì)算,從而大大提高了計(jì)算效率;Spark、Storm、Impala等各種各樣的技術(shù)進(jìn)入人們的視野。海量數(shù)據(jù)從原始數(shù)據(jù)源到產(chǎn)生價(jià)值,期間會(huì)經(jīng)過(guò)存儲(chǔ)、清洗、挖掘、分析等多個(gè)環(huán)節(jié),如果計(jì)算速度不夠快,很多事情是無(wú)法實(shí)現(xiàn)的。所以,在大數(shù)據(jù)的發(fā)展過(guò)程中,計(jì)算速度是非常關(guān)鍵的因素。第一章大數(shù)據(jù)概念及其應(yīng)用1.1大數(shù)據(jù)的概念智能:機(jī)器擁有理解數(shù)據(jù)的能力大數(shù)據(jù)帶來(lái)的最大價(jià)值就是“智慧”,大數(shù)據(jù)讓機(jī)器變得有智慧,同時(shí)人工智能進(jìn)一步提升了處理和理解數(shù)據(jù)的能力。例如:谷歌AlphaGo大勝世界圍棋冠軍李世石阿里云小Ai成功預(yù)測(cè)出《我是歌手》的總決賽歌王12iPhone上智能化語(yǔ)音機(jī)器人Siri微信上與大家聊天的微軟小冰34第一章大數(shù)據(jù)概念及其應(yīng)用第一章大數(shù)據(jù)概念及其應(yīng)用美國(guó)著名管理學(xué)家愛德華·戴明所言:“我們信靠上帝。除了上帝,任何人都必須用數(shù)據(jù)來(lái)說(shuō)話。”(1)有數(shù)據(jù)可說(shuō)

在大數(shù)據(jù)時(shí)代,“萬(wàn)物皆數(shù)”,“量化一切”,“一切都將被數(shù)據(jù)化”。人類生活在一個(gè)海量、動(dòng)態(tài)、多樣的數(shù)據(jù)世界中,數(shù)據(jù)無(wú)處不在、無(wú)時(shí)不有、無(wú)人不用,數(shù)據(jù)就像陽(yáng)光、空氣、水分一樣常見,好比放大鏡、望遠(yuǎn)鏡、顯微鏡那般重要。

(2)說(shuō)數(shù)據(jù)可靠

大數(shù)據(jù)中的“數(shù)據(jù)”真實(shí)可靠,它實(shí)質(zhì)上是表征事物現(xiàn)象的一種符號(hào)語(yǔ)言和邏輯關(guān)系,其可靠性的數(shù)理哲學(xué)基礎(chǔ)是世界同構(gòu)原理。世界具有物質(zhì)統(tǒng)一性,統(tǒng)一的世界中的一切事物都存在著時(shí)空一致性的同構(gòu)關(guān)系。這意味著任何事物的屬性和規(guī)律,只要通過(guò)適當(dāng)編碼,均可以通過(guò)統(tǒng)一的數(shù)字信號(hào)表達(dá)出來(lái)。1.1大數(shù)據(jù)的概念大數(shù)據(jù)的意義

因此,“用數(shù)據(jù)說(shuō)話”、“讓數(shù)據(jù)發(fā)聲”,已成為人類認(rèn)知世界的一種全新方法。1.1

大數(shù)據(jù)的概念風(fēng)馬??上嗉?/p>

在大數(shù)據(jù)背景下,因海量無(wú)限、包羅萬(wàn)象的數(shù)據(jù)存在,讓許多看似毫不相干的現(xiàn)象之間發(fā)生一定的關(guān)聯(lián),使人們能夠更簡(jiǎn)捷、更清晰地認(rèn)知事物和把握局勢(shì)。大數(shù)據(jù)的巨大潛能與作用現(xiàn)在難以進(jìn)行估量,但揭示事物的相關(guān)關(guān)系無(wú)疑是其真正的價(jià)值所在。經(jīng)典案例:(1)啤酒與尿布(2)谷歌與流感第一章大數(shù)據(jù)概念及其應(yīng)用第一章大數(shù)據(jù)概念與應(yīng)用1.1大數(shù)據(jù)的概念1.2大數(shù)據(jù)的來(lái)源1.3大數(shù)據(jù)的特征及意義1.4大數(shù)據(jù)的表現(xiàn)形態(tài)1.5大數(shù)據(jù)的應(yīng)用場(chǎng)景習(xí)題大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材1.2大數(shù)據(jù)的來(lái)源全球數(shù)據(jù)總量圖杰姆·格雷(JimGray)提出著名的“新摩爾定律”,即人類有史以來(lái)的數(shù)據(jù)總量,每過(guò)18個(gè)月就會(huì)翻一番。(EB)(年份)第一章大數(shù)據(jù)概念及其應(yīng)用為什么全球數(shù)據(jù)量增長(zhǎng)如此之快?1.2大數(shù)據(jù)的來(lái)源

手機(jī)智能家電智能手表電腦iPad大數(shù)據(jù)的主要來(lái)源第一章大數(shù)據(jù)概念及其應(yīng)用1.2大數(shù)據(jù)的來(lái)源互聯(lián)網(wǎng)每天產(chǎn)生的全部?jī)?nèi)容可以刻滿6.4億張DVDGoogle每天需要處理24PB的數(shù)據(jù)網(wǎng)民每天在Facebook上要花費(fèi)234億分鐘,被移動(dòng)互聯(lián)網(wǎng)使用者發(fā)送和接收的數(shù)據(jù)高達(dá)44PB全球每秒發(fā)送290萬(wàn)封電子郵件,一分鐘讀一篇的話,足夠一個(gè)人晝夜不停地讀5.5年每天會(huì)有2.88萬(wàn)個(gè)小時(shí)的視頻上傳到Y(jié)ouTube,足夠一個(gè)人晝夜不停地觀看3.3年Twitter上每天發(fā)布5000萬(wàn)條消息,假設(shè)10秒就瀏覽一條消息,足夠一個(gè)人晝夜不停地瀏覽16年大數(shù)據(jù)到底有多大?

以上一組互聯(lián)網(wǎng)數(shù)據(jù)第一章大數(shù)據(jù)概念及其應(yīng)用1.2大數(shù)據(jù)的來(lái)源來(lái)自大量傳感器的機(jī)器數(shù)據(jù)科學(xué)研究及行業(yè)多結(jié)構(gòu)專業(yè)數(shù)據(jù)來(lái)自“大人群”泛互聯(lián)網(wǎng)數(shù)據(jù)智能終端拍照、拍視頻發(fā)微博、發(fā)微信其他互聯(lián)網(wǎng)數(shù)據(jù)海量的數(shù)據(jù)的產(chǎn)生隨著人類活動(dòng)的進(jìn)一步擴(kuò)展,數(shù)據(jù)規(guī)模會(huì)急劇膨脹,包括金融、汽車、零售、餐飲、電信、能源、政務(wù)、醫(yī)療、體育、娛樂等在內(nèi)的各行業(yè)累積的數(shù)據(jù)量越來(lái)越大,數(shù)據(jù)類型也越來(lái)越多、越來(lái)越復(fù)雜,已經(jīng)超越了傳統(tǒng)數(shù)據(jù)管理系統(tǒng)、處理模式的能力范圍,于是“大數(shù)據(jù)”這樣一個(gè)概念才會(huì)應(yīng)運(yùn)而生。第一章大數(shù)據(jù)概念及其應(yīng)用1.2大數(shù)據(jù)的來(lái)源按產(chǎn)生數(shù)據(jù)的主體劃分1)少量企業(yè)應(yīng)用產(chǎn)生的數(shù)據(jù)如關(guān)系型數(shù)據(jù)庫(kù)中的數(shù)據(jù)和數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)等。2)大量人產(chǎn)生的數(shù)據(jù)如推特、微博、通信軟件、移動(dòng)通信數(shù)據(jù)、電子商務(wù)在線交易日志數(shù)據(jù)、企業(yè)應(yīng)用的相關(guān)評(píng)論數(shù)據(jù)等。3)巨量機(jī)器產(chǎn)生的數(shù)據(jù)如應(yīng)用服務(wù)器日志、各類傳感器數(shù)據(jù)、圖像和視頻監(jiān)控?cái)?shù)據(jù)、二維碼和條形碼(條碼)掃描數(shù)據(jù)等。01第一章大數(shù)據(jù)概念及其應(yīng)用1.2大數(shù)據(jù)的來(lái)源按數(shù)據(jù)來(lái)源的行業(yè)劃分1)以BAT為代表的互聯(lián)網(wǎng)公司百度公司數(shù)據(jù)總量超過(guò)了千PB級(jí)別,阿里巴巴公司保存的數(shù)據(jù)量超過(guò)了百PB級(jí)別,擁有90%以上的電商數(shù)據(jù),騰訊公司總存儲(chǔ)數(shù)據(jù)量經(jīng)壓縮處理以后仍然超過(guò)了百PB級(jí)別,數(shù)據(jù)量月增加達(dá)到10%。2)電信、金融、保險(xiǎn)、電力、石化系統(tǒng)電信行業(yè)數(shù)據(jù)年度用戶數(shù)據(jù)增長(zhǎng)超過(guò)10%,金融每年產(chǎn)生的數(shù)據(jù)超過(guò)數(shù)十PB,保險(xiǎn)系統(tǒng)的數(shù)據(jù)量也超過(guò)了PB級(jí)別,電力與石化方面,僅國(guó)家電網(wǎng)采集獲得的數(shù)據(jù)總量就達(dá)到了數(shù)十PB,石油化工領(lǐng)域每年產(chǎn)生和保存下來(lái)的數(shù)據(jù)量也將近百PB級(jí)別。3)公共安全、醫(yī)療、交通領(lǐng)域一個(gè)中、大型城市,一個(gè)月的交通卡口記錄數(shù)可以達(dá)到3億條;整個(gè)醫(yī)療衛(wèi)生行業(yè)一年能夠保存下來(lái)的數(shù)據(jù)就可達(dá)到數(shù)百PB級(jí)別;航班往返一次產(chǎn)生的數(shù)據(jù)就達(dá)到TB級(jí)別;列車、水陸路運(yùn)輸產(chǎn)生的各種視頻、文本類數(shù)據(jù),每年保存下來(lái)的也達(dá)到數(shù)十PB。

024)氣象、地理、政務(wù)等領(lǐng)域中國(guó)氣象局保存的數(shù)據(jù)將近10PB,每年約增數(shù)百TB;各種地圖和地理位置信息每年約數(shù)十PB;政務(wù)數(shù)據(jù)則涵蓋了旅游、教育、交通、醫(yī)療等多個(gè)門類,且多為結(jié)構(gòu)化數(shù)據(jù)。5)制造業(yè)和其他傳統(tǒng)行業(yè)制造業(yè)的大數(shù)據(jù)類型以產(chǎn)品設(shè)計(jì)數(shù)據(jù)、企業(yè)生產(chǎn)環(huán)節(jié)的業(yè)務(wù)數(shù)據(jù)和生產(chǎn)監(jiān)控?cái)?shù)據(jù)為主。其中產(chǎn)品設(shè)計(jì)數(shù)據(jù)以文件為主,非結(jié)構(gòu)化,共享要求較高,保存時(shí)間較長(zhǎng);企業(yè)生產(chǎn)環(huán)節(jié)的業(yè)務(wù)數(shù)據(jù)主要是數(shù)據(jù)庫(kù)結(jié)構(gòu)化數(shù)據(jù),而生產(chǎn)監(jiān)控?cái)?shù)據(jù)則數(shù)據(jù)量非常大。在其他傳統(tǒng)行業(yè),雖然線下商業(yè)銷售、農(nóng)林牧漁業(yè)、線下餐飲、食品、科研、物流運(yùn)輸?shù)刃袠I(yè)數(shù)據(jù)量劇增,但是數(shù)據(jù)量還處于積累期,整體體量都不算大,多則達(dá)到PB級(jí)別,少則數(shù)十TB或數(shù)百TB級(jí)別。第一章大數(shù)據(jù)概念及其應(yīng)用1.2大數(shù)據(jù)的來(lái)源按數(shù)據(jù)存儲(chǔ)的形式劃分大數(shù)據(jù)不僅僅體現(xiàn)在數(shù)據(jù)量大,還體現(xiàn)在數(shù)據(jù)類型多。如此海量的數(shù)據(jù)中,僅有20%左右屬于結(jié)構(gòu)化的數(shù)據(jù),80%的數(shù)據(jù)屬于廣泛存在于社交網(wǎng)絡(luò)、物聯(lián)網(wǎng)、電子商務(wù)等領(lǐng)域的非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)簡(jiǎn)單來(lái)說(shuō)就是數(shù)據(jù)庫(kù),如企業(yè)ERP、財(cái)務(wù)系統(tǒng)、醫(yī)療HIS數(shù)據(jù)庫(kù)、教育一卡通、政府行政審批、其他核心數(shù)據(jù)庫(kù)等數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報(bào)表、圖像和音頻、視頻信息等數(shù)據(jù)。03第一章大數(shù)據(jù)概念及其應(yīng)用1.2大數(shù)據(jù)的來(lái)源常用的大數(shù)據(jù)獲取途徑1)系統(tǒng)日志采集可以使用海量數(shù)據(jù)采集工具,用于系統(tǒng)日志采集,如Hadoop的Chukwa、Cloudera的Flume、Facebook的Scribe等,這些工具均采用分布式架構(gòu),能滿足大數(shù)據(jù)的日志數(shù)據(jù)采集和傳輸需求。043)APP移動(dòng)端數(shù)據(jù)采集APP是獲取用戶移動(dòng)端數(shù)據(jù)的一種有效方法,APP中的SDK插件可以將用戶使用APP的信息匯總給指定服務(wù)器,即便用戶在沒有訪問(wèn)時(shí),也能獲知用戶終端的相關(guān)信息,包括安裝應(yīng)用的數(shù)量和類型等。單個(gè)APP用戶規(guī)模有限,數(shù)據(jù)量有限;但數(shù)十萬(wàn)APP用戶,獲取的用戶終端數(shù)據(jù)和部分行為數(shù)據(jù)也會(huì)達(dá)到數(shù)億的量級(jí)。4)與數(shù)據(jù)服務(wù)機(jī)構(gòu)進(jìn)行合作數(shù)據(jù)服務(wù)機(jī)構(gòu)通常具備規(guī)范的數(shù)據(jù)共享和交易渠道,人們可以在平臺(tái)上快速、明確地獲取自己所需要的數(shù)據(jù)。而對(duì)于企業(yè)生產(chǎn)經(jīng)營(yíng)數(shù)據(jù)或?qū)W科研究數(shù)據(jù)等保密性要求較高的數(shù)據(jù),也可以通過(guò)與企業(yè)或研究機(jī)構(gòu)合作,使用特定系統(tǒng)接口等相關(guān)方式采集數(shù)據(jù)。2)互聯(lián)網(wǎng)數(shù)據(jù)采集通過(guò)網(wǎng)絡(luò)爬蟲或網(wǎng)站公開API等方式從網(wǎng)站上獲取數(shù)據(jù)信息,該方法可以數(shù)據(jù)從網(wǎng)頁(yè)中抽取出來(lái),將其存儲(chǔ)為統(tǒng)一的本地?cái)?shù)據(jù)文件,它支持圖片、音頻、視頻等文件或附件的采集,附件與正文可以自動(dòng)關(guān)聯(lián)。除了網(wǎng)站中包含的內(nèi)容之外,還可以使用DPI或DFI等帶寬管理技術(shù)實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)流量的采集。第一章大數(shù)據(jù)概念及其應(yīng)用第一章大數(shù)據(jù)概念與應(yīng)用1.1大數(shù)據(jù)的概念1.2大數(shù)據(jù)的來(lái)源1.3大數(shù)據(jù)的特征及意義1.4大數(shù)據(jù)的表現(xiàn)形態(tài)1.5大數(shù)據(jù)的應(yīng)用場(chǎng)景習(xí)題大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材1.3大數(shù)據(jù)的特征及意義大數(shù)據(jù)是數(shù)據(jù)分析的前沿技術(shù)。從各種各樣類型的數(shù)據(jù)中,快速高效獲得有價(jià)值信息的能力,就是大數(shù)據(jù)技術(shù)。在IT業(yè)界有的學(xué)者使用3S來(lái)描述大數(shù)據(jù),還有的學(xué)者使用3I來(lái)描述大數(shù)據(jù)。大數(shù)據(jù)的3S第一章大數(shù)據(jù)概念及其應(yīng)用數(shù)據(jù)的大小數(shù)據(jù)的處理速度SizeSpeed數(shù)據(jù)的結(jié)構(gòu)化Structur1.3大數(shù)據(jù)的特征及意義從技術(shù)上看,大數(shù)據(jù)與云計(jì)算的關(guān)系就像一枚硬幣的正反面一樣密不可分。大數(shù)據(jù)必然無(wú)法用單臺(tái)的計(jì)算機(jī)進(jìn)行處理,必須采用分布式計(jì)算架構(gòu)。它的特色在于對(duì)海量數(shù)據(jù)的挖掘,但它必須依托云計(jì)算的分布式處理、分布式數(shù)據(jù)庫(kù)、云存儲(chǔ)和/或虛擬化技術(shù)。(在維克托·邁爾-舍恩伯格及肯尼斯·庫(kù)克耶編寫的《大數(shù)據(jù)時(shí)代》中大數(shù)據(jù)指不用隨機(jī)分析法(抽樣調(diào)查)這樣的捷徑,而采用所有數(shù)據(jù)的方法)大數(shù)據(jù)的4V特征:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價(jià)值)。從技術(shù)上看“大數(shù)據(jù)”第一章大數(shù)據(jù)概念及其應(yīng)用4V特征種類多(Variety)速度快(Velocity)價(jià)值高(Value)體量大(Volume)大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)相比,數(shù)據(jù)來(lái)源廣、維度多、類型雜,各種機(jī)器儀表在自動(dòng)產(chǎn)生數(shù)據(jù)的同時(shí),人自身的生活行為也在不斷創(chuàng)造數(shù)據(jù);不僅有企業(yè)組織內(nèi)部的業(yè)務(wù)數(shù)據(jù),還有海量相關(guān)的外部數(shù)據(jù)。隨著現(xiàn)代感測(cè)、互聯(lián)網(wǎng)、計(jì)算機(jī)技術(shù)的發(fā)展,數(shù)據(jù)生成、儲(chǔ)存、分析、處理的速度遠(yuǎn)遠(yuǎn)超出人們的想象力,這是大數(shù)據(jù)區(qū)別于傳統(tǒng)數(shù)據(jù)或小數(shù)據(jù)的顯著特征。大數(shù)據(jù)有巨大的潛在價(jià)值,但同其呈幾何指數(shù)爆發(fā)式增長(zhǎng)相比,某一對(duì)象或模塊數(shù)據(jù)的價(jià)值密度較低,這無(wú)疑給我們開發(fā)海量數(shù)據(jù)增加了難度和成本。從2013年至2020年,人類的數(shù)據(jù)規(guī)模將擴(kuò)大50倍,每年產(chǎn)生的數(shù)據(jù)量將增長(zhǎng)到44萬(wàn)億GB,相當(dāng)于美國(guó)國(guó)家圖書館數(shù)據(jù)量的數(shù)百萬(wàn)倍,且每18個(gè)月翻一番。1.3大數(shù)據(jù)的特征及意義“大數(shù)據(jù)”的四V特征:第一章大數(shù)據(jù)概念及其應(yīng)用1.3大數(shù)據(jù)的特征及意義大數(shù)據(jù)的3I第一章大數(shù)據(jù)概念及其應(yīng)用Ill-defined

IntimidatingImmediate定義不明確的,多個(gè)大數(shù)據(jù)的定義都強(qiáng)調(diào)了大數(shù)據(jù)規(guī)模超過(guò)傳統(tǒng)數(shù)據(jù)的規(guī)模,隨著技術(shù)的進(jìn)步,數(shù)據(jù)分析的效率不斷提高,符合大數(shù)據(jù)定義的數(shù)據(jù)規(guī)模也不斷變大,因而沒有一個(gè)明確的標(biāo)準(zhǔn)。從管理大數(shù)據(jù)到使用正確的工具獲取它的價(jià)值,利用大數(shù)據(jù)的過(guò)程中充滿了各種挑戰(zhàn)。數(shù)據(jù)的價(jià)值會(huì)隨著時(shí)間快速衰減,為了保證大數(shù)據(jù)的可控性,需要縮短數(shù)據(jù)搜集到獲得之間的時(shí)間,使大數(shù)據(jù)成為真正的即時(shí)大數(shù)據(jù),這意味著能盡快地分析數(shù)據(jù)對(duì)獲得競(jìng)爭(zhēng)優(yōu)勢(shì)至關(guān)重要。第一章大數(shù)據(jù)概念與應(yīng)用1.1大數(shù)據(jù)的概念1.2大數(shù)據(jù)的來(lái)源1.3大數(shù)據(jù)的特征及意義1.4大數(shù)據(jù)的表現(xiàn)形態(tài)1.5大數(shù)據(jù)的應(yīng)用場(chǎng)景習(xí)題大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材1.4大數(shù)據(jù)的表現(xiàn)形態(tài)大數(shù)據(jù)在當(dāng)今社會(huì)非常時(shí)髦,大數(shù)據(jù)的信息量是海量的,這個(gè)海量并不是某個(gè)時(shí)間端點(diǎn)的量級(jí)總結(jié),而是持續(xù)更新,持續(xù)增量。由于大數(shù)據(jù)產(chǎn)生的過(guò)程中諸多的不確定性,使得大數(shù)據(jù)的表現(xiàn)形態(tài)多種多樣。大數(shù)據(jù)的表現(xiàn)形態(tài)第一章大數(shù)據(jù)概念及其應(yīng)用多源性實(shí)時(shí)性不確定性大數(shù)據(jù)來(lái)源的復(fù)雜性。網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展使得數(shù)據(jù)產(chǎn)生的途徑多樣化。大數(shù)據(jù)結(jié)構(gòu)的復(fù)雜性。非結(jié)構(gòu)化數(shù)據(jù)的格式多樣化,而這些非結(jié)構(gòu)化數(shù)據(jù)中可能蘊(yùn)藏著非常有價(jià)值的信息。大數(shù)據(jù)的實(shí)時(shí)性,體現(xiàn)在數(shù)據(jù)更新的實(shí)時(shí)性。如何及時(shí)、有效、全面的捕獲到互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計(jì)算上產(chǎn)生的大量的不同來(lái)源的數(shù)據(jù)是會(huì)直接影響數(shù)據(jù)價(jià)值體現(xiàn)的關(guān)鍵因素。體現(xiàn)的是數(shù)據(jù)的不確定性。原始數(shù)據(jù)的不準(zhǔn)確以及數(shù)據(jù)采集處理粒度、應(yīng)用需求與數(shù)據(jù)集成和展示等因素使得數(shù)據(jù)在不同尺度、不同維度上都有不同程度的不確定性。第一章大數(shù)據(jù)概念與應(yīng)用1.1大數(shù)據(jù)的概念1.2大數(shù)據(jù)的來(lái)源1.3大數(shù)據(jù)的特征及意義1.4大數(shù)據(jù)的表現(xiàn)形態(tài)1.5大數(shù)據(jù)的應(yīng)用場(chǎng)景習(xí)題大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材1.5大數(shù)據(jù)的應(yīng)用場(chǎng)景大數(shù)據(jù)7個(gè)應(yīng)用場(chǎng)景環(huán)境教育行業(yè)醫(yī)療行業(yè)農(nóng)業(yè)智慧城市零售行業(yè)金融行業(yè)第一章大數(shù)據(jù)概念及其應(yīng)用零售行業(yè)零售行業(yè)大數(shù)據(jù)應(yīng)用有兩個(gè)層面,一個(gè)層面是零售行業(yè)可以了解客戶的消費(fèi)喜好和趨勢(shì),進(jìn)行商品的精準(zhǔn)營(yíng)銷,降低營(yíng)銷成本。另一個(gè)層面是依據(jù)客戶購(gòu)買的產(chǎn)品,為客戶提供可能購(gòu)買的其他產(chǎn)品,擴(kuò)大銷售額,也屬于精準(zhǔn)營(yíng)銷范疇。未來(lái)考驗(yàn)零售企業(yè)的是如何挖掘消費(fèi)者需求,以及高效整合供應(yīng)鏈滿足其需求的能力,因此,信息技術(shù)水平的高低成為獲得競(jìng)爭(zhēng)優(yōu)勢(shì)的關(guān)鍵要素。金融行業(yè)1)銀行數(shù)據(jù)應(yīng)用場(chǎng)景利用數(shù)據(jù)挖掘來(lái)分析出一些交易數(shù)據(jù)背后的商業(yè)價(jià)值。2)保險(xiǎn)數(shù)據(jù)應(yīng)用場(chǎng)景用數(shù)據(jù)來(lái)提升保險(xiǎn)產(chǎn)品的精算水平,提高利潤(rùn)水平和投資收益。3)證券數(shù)據(jù)應(yīng)用場(chǎng)景對(duì)客戶交易習(xí)慣和行為分析可以幫助證券公司獲得更多的收益。第一章大數(shù)據(jù)概念及其應(yīng)用1.5大數(shù)據(jù)的應(yīng)用場(chǎng)景醫(yī)療行業(yè)醫(yī)療行業(yè)擁有大量的病例、病理報(bào)告、治愈方案、藥物報(bào)告等,通過(guò)對(duì)這些數(shù)據(jù)進(jìn)行整理和分析將會(huì)極大地輔助醫(yī)生提出治療方案,幫助病人早日康復(fù)??梢詷?gòu)建大數(shù)據(jù)平臺(tái)來(lái)收集不同病例和治療方案,以及病人的基本特征,建立針對(duì)疾病特點(diǎn)的數(shù)據(jù)庫(kù),幫助醫(yī)生進(jìn)行疾病診斷。醫(yī)療行業(yè)的大數(shù)據(jù)應(yīng)用一直在進(jìn)行,但是數(shù)據(jù)并沒有完全打通,基本都是孤島數(shù)據(jù),沒辦法進(jìn)行大規(guī)模的應(yīng)用。未來(lái)可以將這些數(shù)據(jù)統(tǒng)一采集起來(lái),納入統(tǒng)一的大數(shù)據(jù)平臺(tái),為人類健康造福。教育行業(yè)信息技術(shù)已在教育領(lǐng)域有了越來(lái)越廣泛的應(yīng)用,教學(xué)、考試、師生互動(dòng)、校園安全、家校關(guān)系等,只要技術(shù)達(dá)到的地方,各個(gè)環(huán)節(jié)都被數(shù)據(jù)包裹。通過(guò)大數(shù)據(jù)的分析來(lái)優(yōu)化教育機(jī)制,也可以作出更科學(xué)的決策,這將帶來(lái)潛在的教育革命,在不久的將來(lái),個(gè)性化學(xué)習(xí)終端將會(huì)更多地融入學(xué)習(xí)資源云平臺(tái),根據(jù)每個(gè)學(xué)生的不同興趣愛好和特長(zhǎng),推送相關(guān)領(lǐng)域的前沿技術(shù)、資訊、資源乃至未來(lái)職業(yè)發(fā)展方向。第一章大數(shù)據(jù)概念及其應(yīng)用1.5大數(shù)據(jù)的應(yīng)用場(chǎng)景農(nóng)業(yè)行業(yè)環(huán)境行業(yè)借助于大數(shù)據(jù)提供的消費(fèi)能力和趨勢(shì)報(bào)告,政府可為農(nóng)業(yè)生產(chǎn)進(jìn)行合理引導(dǎo),依據(jù)需求進(jìn)行生產(chǎn),避免產(chǎn)能過(guò)剩造成不必要的資源和社會(huì)財(cái)富浪費(fèi)。通過(guò)大數(shù)據(jù)的分析將會(huì)更精確地預(yù)測(cè)未來(lái)的天氣,幫助農(nóng)民做好自然災(zāi)害的預(yù)防工作,幫助政府實(shí)現(xiàn)農(nóng)業(yè)的精細(xì)化管理和科學(xué)決策。借助于大數(shù)據(jù)技術(shù),天氣預(yù)報(bào)的準(zhǔn)確性和實(shí)效性將會(huì)大大提高,預(yù)報(bào)的及時(shí)性將會(huì)大大提升,同時(shí)對(duì)于重大自然災(zāi)害如龍卷風(fēng),通過(guò)大數(shù)據(jù)計(jì)算平臺(tái),人們將會(huì)更加精確地了解其運(yùn)動(dòng)軌跡和危害的等級(jí),有利于幫助人們提高應(yīng)對(duì)自然災(zāi)害的能力。大數(shù)據(jù)技術(shù)可以了解經(jīng)濟(jì)發(fā)展情況、各產(chǎn)業(yè)發(fā)展情況、消費(fèi)支出和產(chǎn)品銷售情況等,依據(jù)分析結(jié)果,科學(xué)地制定宏觀政策,平衡各產(chǎn)業(yè)發(fā)展,避免產(chǎn)能過(guò)剩,有效利用自然資源和社會(huì)資源,提高社會(huì)生產(chǎn)效率。大數(shù)據(jù)技術(shù)也能幫助政府進(jìn)行支出管理,透明合理的財(cái)政支出將有利于提高公信力和監(jiān)督財(cái)政支出。智慧城市第一章大數(shù)據(jù)概念及其應(yīng)用1.5大數(shù)據(jù)的應(yīng)用場(chǎng)景第一章大數(shù)據(jù)概念與應(yīng)用1.1大數(shù)據(jù)的概念1.2大數(shù)據(jù)的來(lái)源1.3大數(shù)據(jù)的特征及意義1.4大數(shù)據(jù)的表現(xiàn)形態(tài)1.5大數(shù)據(jù)的應(yīng)用場(chǎng)景習(xí)題大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材1.什么是大數(shù)據(jù)?2.大數(shù)據(jù)有哪些來(lái)源?3.大數(shù)據(jù)的主要特征是什么?4.大數(shù)據(jù)有哪些表現(xiàn)形態(tài)?5.大數(shù)據(jù)有哪些應(yīng)用?6.請(qǐng)列舉我們身邊對(duì)大數(shù)據(jù)技術(shù)的應(yīng)用。習(xí)題:第二章大數(shù)據(jù)的架構(gòu)2.1云計(jì)算2.2大數(shù)據(jù)架構(gòu)介紹2.3Hadoop體系架構(gòu)2.4上機(jī)與項(xiàng)目實(shí)訓(xùn)大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材習(xí)題2.1云計(jì)算第二章大數(shù)據(jù)的架構(gòu)大數(shù)據(jù)和云計(jì)算密不可分,由于大數(shù)據(jù)處理和應(yīng)用需求急劇增長(zhǎng),學(xué)術(shù)界和工業(yè)界不斷推出新的或改進(jìn)的計(jì)算模式和系統(tǒng)工具平臺(tái)。大數(shù)據(jù)與云計(jì)算2.1云計(jì)算第二章大數(shù)據(jù)的架構(gòu)云計(jì)算的概念

云是網(wǎng)絡(luò)、互聯(lián)網(wǎng)的一種比喻說(shuō)法,通常在圖中往往用云來(lái)表示電信網(wǎng),后來(lái)也用云來(lái)表示互聯(lián)網(wǎng)和底層基礎(chǔ)設(shè)施的抽象。云計(jì)算并不是對(duì)某一項(xiàng)獨(dú)立技術(shù)的稱呼,而是對(duì)實(shí)現(xiàn)云計(jì)算模式所需要的所有技術(shù)的總稱。云計(jì)算是什么?2.1云計(jì)算第二章大數(shù)據(jù)的架構(gòu)維基百科NIST云計(jì)算是一種基于互聯(lián)網(wǎng)的服務(wù)方式,提供動(dòng)態(tài)可伸縮的虛擬化的資源的計(jì)算模式。通過(guò)這種方式,共享的軟硬件資源和信息可以按需求提供給計(jì)算機(jī)和其他設(shè)備,他就像我們?nèi)粘I钪杏盟陀秒娨粯?,按需付費(fèi),無(wú)需關(guān)心水電是從哪里來(lái)的。云計(jì)算是一種按使用量付費(fèi)的模式,這種模式提供可用的、便捷的、按需的網(wǎng)絡(luò)訪問(wèn),進(jìn)入可配置的計(jì)算資源共享池,這些資源能夠被快速提供,只需投入很少的管理工作,或與服務(wù)供應(yīng)商進(jìn)行很少的交互?;诨ヂ?lián)網(wǎng)的相關(guān)服務(wù)的增加、使用和交付模式,通常涉及通過(guò)互聯(lián)網(wǎng)來(lái)提供、動(dòng)態(tài)易擴(kuò)展且經(jīng)常是虛擬化的資源。云計(jì)算是傳統(tǒng)計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)發(fā)展融合的產(chǎn)物,他意味著計(jì)算能力也可作為一種商品通過(guò)互聯(lián)網(wǎng)進(jìn)行流通。國(guó)務(wù)院政府第二章大數(shù)據(jù)的架構(gòu)2.1云計(jì)算資源池彈性可擴(kuò)張需求服務(wù)自助化12虛擬化以網(wǎng)絡(luò)為中心354云計(jì)算的特點(diǎn)高可靠性和安全性2.1云計(jì)算第二章大數(shù)據(jù)的架構(gòu)云計(jì)算的服務(wù)方式IaaSPaaSSaaS基礎(chǔ)設(shè)施級(jí)服務(wù),消費(fèi)者通過(guò)Internet可以從完善的計(jì)算機(jī)基礎(chǔ)設(shè)施獲得服務(wù)。IaaS是把數(shù)據(jù)中心、基礎(chǔ)設(shè)施等硬件資源通過(guò)Web分配給用戶的商業(yè)模式。平臺(tái)級(jí)服務(wù)。PaaS實(shí)際上是指將軟件研發(fā)的平臺(tái)作為一種服務(wù),以SaaS的模式提交給用戶。因此,PaaS也是SaaS模式的一種應(yīng)用。軟件級(jí)服務(wù)。它是一種通過(guò)Internet提供軟件的模式,用戶無(wú)需購(gòu)買軟件,而是向提供商租用基于Web的軟件,來(lái)管理企業(yè)經(jīng)營(yíng)活動(dòng)。2.1云計(jì)算第二章大數(shù)據(jù)的架構(gòu)云平臺(tái)架構(gòu)圖2.1云計(jì)算第二章大數(shù)據(jù)的架構(gòu)云計(jì)算的8個(gè)應(yīng)用微軟IBM

亞馬遜紅帽智慧城市

教育

金融阿里云第二章大數(shù)據(jù)的架構(gòu)2.1云計(jì)算2.2大數(shù)據(jù)架構(gòu)介紹2.3Hadoop體系架構(gòu)

2.4上機(jī)與項(xiàng)目實(shí)訓(xùn)習(xí)題大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材大數(shù)據(jù)架構(gòu)是什么?2.2大數(shù)據(jù)架構(gòu)介紹第二章大數(shù)據(jù)的架構(gòu)大數(shù)據(jù)架構(gòu)是一種結(jié)構(gòu)化和基于模式的方法來(lái)簡(jiǎn)化定義完整的大數(shù)據(jù)架構(gòu)的任務(wù)。大數(shù)據(jù)架構(gòu)Hadoop是由Apache軟件基金會(huì)研發(fā)的一種開源、高可靠、伸縮性強(qiáng)的分布式計(jì)算系統(tǒng),主要用于處理大于1TB的海量數(shù)據(jù)。其核心包括系統(tǒng)HDFS和MapReduce,這一結(jié)構(gòu)的實(shí)現(xiàn)十分有利于面向數(shù)據(jù)的系統(tǒng)架構(gòu),因此已經(jīng)成為大數(shù)據(jù)技術(shù)領(lǐng)域的事實(shí)標(biāo)準(zhǔn)。2.2大數(shù)據(jù)架構(gòu)介紹第二章大數(shù)據(jù)的架構(gòu)1.大數(shù)據(jù)的分類數(shù)據(jù)類型劃分1、傳統(tǒng)企業(yè)數(shù)據(jù)(Traditionalenterprisedata):包括MIS系統(tǒng)的數(shù)據(jù),傳統(tǒng)的ERP數(shù)據(jù)庫(kù)存數(shù)據(jù)以及財(cái)務(wù)賬目數(shù)據(jù)等。2、機(jī)器和傳感器數(shù)據(jù)(Machine-generated/sensordata):包括呼叫記錄(CallDetailRecords),智能儀表,工業(yè)設(shè)備傳感器,設(shè)備日志,交易數(shù)據(jù)等。3、社交數(shù)據(jù)(Socialdata):包括用戶行為記錄,反饋數(shù)據(jù)等。如Twitter,F(xiàn)acebook這樣的社交媒體平臺(tái)。處理過(guò)程劃分海量型數(shù)據(jù)。大數(shù)據(jù)計(jì)算中的數(shù)據(jù)挖掘是通過(guò)挖掘海量的數(shù)據(jù)推動(dòng)科學(xué)知識(shí)的界限,數(shù)據(jù)集越大,結(jié)論越精確。響應(yīng)型數(shù)據(jù)。響應(yīng)型的數(shù)據(jù)集很大,但它的價(jià)值圍繞著很具價(jià)值的分析結(jié)果影隨型數(shù)據(jù)。影隨型數(shù)據(jù)是一種你擁有,但并不容易拿到的數(shù)據(jù)。過(guò)程型數(shù)據(jù)。又稱為操作數(shù)據(jù)。這是從生產(chǎn)設(shè)備、工業(yè)機(jī)械和其他在商業(yè)建筑和工業(yè)廠房里找到的信息。未知型數(shù)據(jù)。未知型數(shù)據(jù)包括現(xiàn)在可以能夠拿到的、希望拿到的、然而還不充足的信息。2.2大數(shù)據(jù)架構(gòu)介紹第二章大數(shù)據(jù)的架構(gòu)1.大數(shù)據(jù)的分類產(chǎn)生數(shù)據(jù)的主題劃分1、少量企業(yè)應(yīng)用產(chǎn)生的數(shù)據(jù),比如關(guān)系型數(shù)據(jù)庫(kù)中的數(shù)據(jù)和數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)等。2、大量人產(chǎn)生的數(shù)據(jù),比如微信、移動(dòng)通信數(shù)據(jù)、電子商務(wù)在線交易日志數(shù)據(jù)、企業(yè)應(yīng)用的相關(guān)評(píng)論數(shù)據(jù)等。3、巨量機(jī)器產(chǎn)生的數(shù)據(jù),比如應(yīng)用服務(wù)器日志、圖像和視頻監(jiān)控?cái)?shù)據(jù)、二維碼和條形碼掃描數(shù)據(jù)等。2.2大數(shù)據(jù)架構(gòu)介紹第二章大數(shù)據(jù)的架構(gòu)1.大數(shù)據(jù)的分類大數(shù)據(jù)架構(gòu)劃分1)按需分析,與社交媒體數(shù)據(jù)一樣;2)實(shí)時(shí)、持續(xù)提供3)時(shí)序(基于時(shí)間的數(shù)據(jù))。4)數(shù)據(jù)類型。要處理數(shù)據(jù)的類型1、分析類型。判斷進(jìn)行數(shù)據(jù)分析時(shí),對(duì)數(shù)據(jù)執(zhí)行實(shí)時(shí)分析還是批量分析。2、處理方法。用來(lái)處理數(shù)據(jù)的技術(shù)類型(如預(yù)測(cè)、分析、臨時(shí)查詢和報(bào)告)。3、數(shù)據(jù)頻率和大小。預(yù)計(jì)有多少數(shù)據(jù)和數(shù)據(jù)到達(dá)的頻率有多高。4、數(shù)據(jù)類型。要處理數(shù)據(jù)的類型,如交易、歷史、主數(shù)據(jù)等。5、內(nèi)容格式(傳入數(shù)據(jù)的格式)結(jié)構(gòu)化(例如RDMBS)、非結(jié)構(gòu)化(例如音頻、視頻和圖像)或半結(jié)構(gòu)化。6、數(shù)據(jù)源即數(shù)據(jù)的來(lái)源(生成數(shù)據(jù)的地方),如Web和社交媒體、機(jī)器生成、人類生成等。7、數(shù)據(jù)使用者。處理數(shù)據(jù)的所有可能使用者的情況列表。8、硬件。用來(lái)實(shí)現(xiàn)大數(shù)據(jù)解決方案的硬件類型,包括商用硬件或最先進(jìn)的硬件。2.2大數(shù)據(jù)架構(gòu)介紹第二章大數(shù)據(jù)的架構(gòu)1.大數(shù)據(jù)分類圖2.2大數(shù)據(jù)架構(gòu)介紹第二章大數(shù)據(jù)的架構(gòu)2.數(shù)據(jù)類型數(shù)據(jù)類型包括原始類型、多元組、記錄單元、代數(shù)數(shù)據(jù)類型、抽象數(shù)據(jù)類型、參考類型以及函數(shù)類型。在大數(shù)據(jù)時(shí)代中,又有哪些數(shù)據(jù)類型出現(xiàn)呢?第二章大數(shù)據(jù)的架構(gòu)2.2大數(shù)據(jù)架構(gòu)介紹移動(dòng)互聯(lián)網(wǎng),每天產(chǎn)生了大量的點(diǎn)擊數(shù)據(jù),這些數(shù)據(jù)被某些公司所有擁有,形成用戶大量行為數(shù)據(jù)電子地圖,它代表著一種行為、一種習(xí)慣,這些流數(shù)據(jù)經(jīng)頻率分析后會(huì)產(chǎn)生巨大的商業(yè)價(jià)值12社交網(wǎng)絡(luò),它的出現(xiàn),大量的互聯(lián)網(wǎng)用戶創(chuàng)造出海量的社交行為數(shù)據(jù)電子商務(wù),它的崛起帶來(lái)了大量的網(wǎng)上交易數(shù)據(jù),這些數(shù)據(jù)的產(chǎn)生為大數(shù)據(jù)的研究帶來(lái)了很大的契機(jī),其中隱藏了更大的商業(yè)價(jià)值。354傳統(tǒng)的互聯(lián)網(wǎng)入口轉(zhuǎn)向搜索引擎之后,用戶的搜索行為和提問(wèn)行為聚集了海量數(shù)據(jù)。單位存儲(chǔ)價(jià)格的下降也為存儲(chǔ)這些數(shù)據(jù)提供了經(jīng)濟(jì)上的可能性。2.2大數(shù)據(jù)架構(gòu)介紹第二章大數(shù)據(jù)的架構(gòu)分析大數(shù)據(jù)時(shí),四種參考數(shù)據(jù)類型人為數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)廣泛應(yīng)用并存在于電子郵件、文檔、圖片、音頻、視頻中,同時(shí)通過(guò)博客、維基,尤其是社交媒體所產(chǎn)生的數(shù)據(jù)流。這些數(shù)據(jù)為使用文本分析功能進(jìn)行分析提供了豐富的數(shù)據(jù)資源。移動(dòng)數(shù)據(jù)智能手機(jī)和平板這些移動(dòng)設(shè)備上的App都能夠追蹤和溝通大量事件,從App內(nèi)的交易數(shù)據(jù)(如搜索產(chǎn)品的記錄事件)到個(gè)人信息資料或狀態(tài)報(bào)告事件(如地點(diǎn)變更即報(bào)告一個(gè)新的地理編碼)。交易數(shù)據(jù)使用大數(shù)據(jù)平臺(tái)能夠幫助我們獲取時(shí)間跨度更大、更海量的結(jié)構(gòu)化交易數(shù)據(jù),這樣就能夠?qū)Ω鼜V泛的交易數(shù)據(jù)類型進(jìn)行數(shù)據(jù)分析,其中不僅僅包括POS或電子商務(wù)購(gòu)物數(shù)據(jù),還包括行為交易數(shù)據(jù)。機(jī)器和傳感器數(shù)據(jù)機(jī)器和傳感器數(shù)據(jù)是來(lái)自新興的物聯(lián)網(wǎng)(IoT)所產(chǎn)生的主要例子。物聯(lián)網(wǎng)的數(shù)據(jù)可以用于構(gòu)建分析模型,連續(xù)監(jiān)測(cè)預(yù)測(cè)性行為,提供規(guī)定的指令,做出及時(shí)正確的判斷。2.2大數(shù)據(jù)架構(gòu)介紹第二章大數(shù)據(jù)的架構(gòu)2.數(shù)據(jù)類型采用大數(shù)據(jù)方案解決問(wèn)題時(shí),應(yīng)熟悉項(xiàng)目的實(shí)際狀況,熟悉項(xiàng)目的建設(shè)流程,弄清大數(shù)據(jù)分析技術(shù)的原理,架構(gòu),設(shè)計(jì)理念,以及掌握大數(shù)據(jù)的關(guān)鍵技術(shù),才可以從容不迫的對(duì)待建設(shè)項(xiàng)目進(jìn)行調(diào)研實(shí)施。2.2大數(shù)據(jù)架構(gòu)介紹第二章大數(shù)據(jù)的架構(gòu)2.架構(gòu)概述架構(gòu),又稱軟件架構(gòu),是有關(guān)軟件整體結(jié)構(gòu)與組件的抽象描述,用于指導(dǎo)大型軟件系統(tǒng)各個(gè)方面的設(shè)計(jì)。軟件系統(tǒng)的架構(gòu)有兩個(gè)要素:首先他是一個(gè)軟件系統(tǒng)從整體到部分的最高層的的劃分,再則一個(gè)系統(tǒng)通常是由元件組成,而這些元件如何形成、相互之間怎樣發(fā)生作用,就是這個(gè)系統(tǒng)本身結(jié)構(gòu)的問(wèn)題了。所以說(shuō)軟件架構(gòu)是平衡的藝術(shù)。2.2大數(shù)據(jù)架構(gòu)介紹第二章大數(shù)據(jù)的架構(gòu)2.架構(gòu)四大注意要素2.2大數(shù)據(jù)架構(gòu)介紹第二章大數(shù)據(jù)的架構(gòu)與Oracle性能關(guān)系最大的SGASGA包含三個(gè)部分:數(shù)據(jù)緩沖區(qū),是SGA的一個(gè)高速緩存區(qū)域,可避免重復(fù)讀取常用的數(shù)據(jù)01日志緩沖區(qū),提升了數(shù)據(jù)增刪改的速度,減少磁盤的讀寫而加快速度02共享池,使相同的SQL語(yǔ)句不再編譯,提升了SQL的執(zhí)行速度,共享池的大小(以字節(jié)為單位)由init.ora文件參數(shù)SHARED_POOL_SIZE決定。032.2大數(shù)據(jù)架構(gòu)介紹第二章大數(shù)據(jù)的架構(gòu)數(shù)據(jù)庫(kù)體系架構(gòu)圖2.2大數(shù)據(jù)架構(gòu)介紹第二章大數(shù)據(jù)的架構(gòu)整體系統(tǒng)架構(gòu)圖2.2大數(shù)據(jù)架構(gòu)介紹第二章大數(shù)據(jù)的架構(gòu)整體邏輯功能架構(gòu)圖第二章大數(shù)據(jù)的架構(gòu)2.2大數(shù)據(jù)架構(gòu)介紹大數(shù)據(jù)存儲(chǔ)技術(shù)并行計(jì)算能力12數(shù)據(jù)分析技術(shù)數(shù)據(jù)顯示技術(shù)354數(shù)據(jù)挖掘算法大數(shù)據(jù)架構(gòu)關(guān)鍵技術(shù)第二章大數(shù)據(jù)的架構(gòu)2.1云計(jì)算2.2大數(shù)據(jù)架構(gòu)介紹2.3Hadoop體系架構(gòu)

2.4上機(jī)與項(xiàng)目實(shí)訓(xùn)習(xí)題大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材2.3Hadoop體系架構(gòu)第二章大數(shù)據(jù)的架構(gòu)Hadoop概述Hadoop最初是一個(gè)由Apache軟件基金會(huì)研發(fā)的一種分布式計(jì)算機(jī)系統(tǒng)。主要用來(lái)處理大于1TB的海量數(shù)據(jù)。Hadoop采用Java語(yǔ)言開發(fā),其核心模塊包括分布式文件系統(tǒng)(HadoopDistributedFileSystem,HadoopHDFS)和分布式計(jì)算框架MapReduce,HDFS為海量數(shù)據(jù)提供存儲(chǔ),MapReduce為海量數(shù)據(jù)提供計(jì)算,這樣的結(jié)構(gòu)實(shí)現(xiàn)了計(jì)算與存儲(chǔ)的高度耦合,成為大數(shù)據(jù)技術(shù)的事實(shí)標(biāo)準(zhǔn)。012.3Hadoop體系架構(gòu)第二章大數(shù)據(jù)的架構(gòu)Hadoop發(fā)展史12004年—最初的版本(現(xiàn)在稱為HDFS和MapReduce)由DougCutting和MikeCafarella開始實(shí)施。2005年12月—Nutch移植到新的框架,Hadoop在20個(gè)節(jié)點(diǎn)上穩(wěn)定運(yùn)行。2006年2月—ApacheHadoop項(xiàng)目正式啟動(dòng)以支持MapReduce和HDFS的獨(dú)立發(fā)展。2008年9月—Hive成為Hadoop的子項(xiàng)目2009年3月—Cloudera推出CDH(Cloudera’sDsitributionIncludingApacheHadoop)2009年7月—MapReduce和HadoopDistributedFileSystem(HDFS)成為Hadoop項(xiàng)目的獨(dú)立子項(xiàng)目。2009年7月—Avro和Chukwa成為Hadoop新的子項(xiàng)目。2010年5月—Avro脫離Hadoop項(xiàng)目,成為Apache頂級(jí)項(xiàng)目。2010年5月—HBase脫離Hadoop項(xiàng)目,成為Apache頂級(jí)項(xiàng)目。2010年9月—Hive(Facebook)脫離Hadoop,成為Apache頂級(jí)項(xiàng)目。2010年9月—Pig脫離Hadoop,成為Apache頂級(jí)項(xiàng)目。2011年1月—ZooKeeper脫離Hadoop,成為Apache頂級(jí)項(xiàng)目。2011年3月—ApacheHadoop獲得MediaGuardianInnovationAwards。2011年8月—Dell與Cloudera聯(lián)合推出Hadoop解決方案——ClouderaEnterprise。ClouderaEnterprise基于DellPowerEdgeC2100機(jī)架服務(wù)器以及DellPowerConnect6248以太網(wǎng)交換機(jī)2012年3月—在Hadoop1.0版的基礎(chǔ)上發(fā)布Hadoop1.2.1穩(wěn)定版2013年10月—Hadoop2.2.0版本成功發(fā)布2014年11月—Hadoop已經(jīng)發(fā)展到了2.6.0版本022.3Hadoop體系架構(gòu)第二章大數(shù)據(jù)的架構(gòu)Hadoop的五大優(yōu)點(diǎn)1)高可靠性。Hadoop具有按位存儲(chǔ)和處理數(shù)據(jù)的能力。2)高擴(kuò)展性。Hadoop是在可用的計(jì)算機(jī)集簇間分配數(shù)據(jù)并完成計(jì)算任務(wù)的,可以方便地?cái)U(kuò)展到其他節(jié)點(diǎn)中。3)高效性。Hadoop能夠在節(jié)點(diǎn)之間動(dòng)態(tài)地移動(dòng)數(shù)據(jù),并保證各個(gè)節(jié)點(diǎn)的動(dòng)態(tài)平衡,具有較快的處理速度。034)高容錯(cuò)性。Hadoop能夠自動(dòng)保存數(shù)據(jù)的多個(gè)副本,并自動(dòng)將失敗的任務(wù)重新分配。5)低成本。Hadoop是開源的,項(xiàng)目的軟件成本因此會(huì)大大降低。2.3Hadoop體系架構(gòu)第二章大數(shù)據(jù)的架構(gòu)Hadoop的版本選擇當(dāng)前Hadoop版本比較混亂,讓用戶不知道怎樣選擇,實(shí)際上,目前Hadoop只有兩個(gè)版本:Hadoop1.0和Hadoop2.0。其中,Hadoop1.0由一個(gè)分布式文件系統(tǒng)HDFS和一個(gè)離線計(jì)算框架MapReduce組成,而Hadoop2.0則由一個(gè)支持NameNode橫向擴(kuò)展的HDFS,一個(gè)資源管理系統(tǒng)YARN和一個(gè)運(yùn)行在YARN上的離線計(jì)算框架MapReduce。相比于Hadoop1.0,Hadoop2.0功能更加強(qiáng)大,且具有更好的擴(kuò)展性,并支持多種計(jì)算框架。我們?cè)谶x擇使用某個(gè)開源環(huán)境時(shí),通常會(huì)考慮幾個(gè)因素:a.是否是免費(fèi)的開源軟件b.版本是否穩(wěn)定c.是否有強(qiáng)大的實(shí)踐驗(yàn)證及出現(xiàn)故障后是否有一個(gè)強(qiáng)大的社區(qū)支持,快速獲取問(wèn)題的解決方法。03第二章大數(shù)據(jù)的架構(gòu)2.3Hadoop體系架構(gòu)Hadoop分布式文件系統(tǒng)(HDFS)被設(shè)計(jì)成適合運(yùn)行在通用硬件(commodityhardware)上的分布式文件系統(tǒng)。他是一個(gè)高度容錯(cuò)性的系統(tǒng),適合部署在廉價(jià)的機(jī)器上,能提供高吞吐量的數(shù)據(jù)訪問(wèn),非常適合大規(guī)模數(shù)據(jù)集上的應(yīng)用。MapReduce是一種編程模型,MapReduce是面向大數(shù)據(jù)并行處理的計(jì)算模型、框架和平臺(tái),它隱含了以下三層含義:1)是一個(gè)基于集群的高性能并行計(jì)算平臺(tái)(ClusterInfrastructure);2)是一個(gè)并行計(jì)算與運(yùn)行軟件框架(SoftwareFramework);3)是一個(gè)并行程序設(shè)計(jì)模型與方法(ProgrammingModel&Methodology)。HDFSMapReduceHBase:類似GoogleBigTable的分布式NoSQL列數(shù)據(jù)庫(kù);Hive:是基于Hadoop的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫(kù)表,并提供完整的sql查詢功能,可以sql語(yǔ)句轉(zhuǎn)換為MapReduce任務(wù)進(jìn)行運(yùn)行;Zookeeper:分布式鎖,提供類似GoogleChubby的功能;Avro:新的數(shù)據(jù)序列化格式與傳輸工具,將逐步取代Hadoop原有的IPC機(jī)制;Pig:大數(shù)據(jù)數(shù)據(jù)流分析平臺(tái),為用戶提供多種接口;Sqoop:在HADOOP與傳統(tǒng)的數(shù)據(jù)庫(kù)間進(jìn)行數(shù)據(jù)的傳遞。其他Hadoophe核心組件第二章大數(shù)據(jù)的架構(gòu)2.1云計(jì)算2.2大數(shù)據(jù)架構(gòu)介紹2.3Hadoop體系架構(gòu)2.4上機(jī)與項(xiàng)目實(shí)訓(xùn)習(xí)題大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材2.4上機(jī)與項(xiàng)目實(shí)訓(xùn)第二章大數(shù)據(jù)的架構(gòu)上機(jī)與項(xiàng)目實(shí)訓(xùn)1)安裝虛擬機(jī)和linux,虛擬機(jī)推薦使用vbox或vmware,PC可以使用workstation,服務(wù)器可以使用ESXi,在管理上比較方便??梢允褂脧?fù)制虛擬機(jī)功能簡(jiǎn)化準(zhǔn)備流程。如果只是實(shí)驗(yàn)用途,內(nèi)存分配可以在1G左右,硬盤大約預(yù)留20-30G空間即可。43)到Oracle官網(wǎng)下載javajdk安裝包2)以Centos為例,分區(qū)可以選擇默認(rèn),安裝選項(xiàng)選擇DesktopGnome,以及Server、ServerGUI即可。其它Linux,注意選項(xiàng)里應(yīng)包括ssh,vi(用于編輯配置文件),perl等(有些腳本里包含perl代碼需要解析)4)安裝Linux后一定要確認(rèn)iptables,selinux等防火墻或訪問(wèn)控制機(jī)制已經(jīng)關(guān)閉,否則實(shí)驗(yàn)很可能受影響第二章大數(shù)據(jù)的架構(gòu)2.1云計(jì)算2.2大數(shù)據(jù)架構(gòu)介紹2.3Hadoop體系架構(gòu)2.4上機(jī)與項(xiàng)目實(shí)訓(xùn)

習(xí)題大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材1.云計(jì)算的特點(diǎn)?2.云計(jì)算的集中服務(wù)方式?3.大數(shù)據(jù)分類有哪些,請(qǐng)分別指出?4.列舉3種大數(shù)據(jù)的解決方案?5.Hadoop核心技術(shù)是什么?習(xí)題:第三章大數(shù)據(jù)采集及預(yù)處理3.1大數(shù)據(jù)采集3.2數(shù)據(jù)預(yù)處理3.3常用ETL工具 大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材

習(xí)題3.1大數(shù)據(jù)采集第三章大數(shù)據(jù)采集及預(yù)處理

大數(shù)據(jù)采集概念

數(shù)據(jù)采集(DAQ)又稱數(shù)據(jù)獲取,通過(guò)RFID射頻數(shù)據(jù)、傳感器數(shù)據(jù)、社交網(wǎng)絡(luò)數(shù)據(jù)、移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)等方式獲得各種類型的結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化的海量數(shù)據(jù)。常用的數(shù)據(jù)采集的方式大數(shù)據(jù)的采集通常采用多個(gè)數(shù)據(jù)庫(kù)來(lái)接收終端數(shù)據(jù),包括智能硬件端、多種傳感器端、網(wǎng)頁(yè)端、移動(dòng)APP應(yīng)用端等,并且可以使用數(shù)據(jù)庫(kù)進(jìn)行簡(jiǎn)單的處理工作。3.1大數(shù)據(jù)采集第三章大數(shù)據(jù)采集及預(yù)處理數(shù)據(jù)抓取01數(shù)據(jù)導(dǎo)入02物聯(lián)網(wǎng)傳感設(shè)備自動(dòng)信息采集033.1大數(shù)據(jù)采集第三章大數(shù)據(jù)采集及預(yù)處理大數(shù)據(jù)采集的研究分類智能感知層包括數(shù)據(jù)傳感體系、網(wǎng)絡(luò)通信體系、傳感適配體系、智能識(shí)別體系及軟硬件資源接入系統(tǒng),實(shí)現(xiàn)對(duì)結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化的海量數(shù)據(jù)的智能化識(shí)別、定位、跟蹤、接入、傳輸、信號(hào)轉(zhuǎn)換、監(jiān)控、初步處理和管理等。涉及有針對(duì)大數(shù)據(jù)源的智能識(shí)別、感知、適配、傳輸、接入等技術(shù)。隨著物聯(lián)網(wǎng)技術(shù)、智能設(shè)備的發(fā)展,這種基于傳感器的數(shù)據(jù)采集會(huì)越來(lái)越多,相應(yīng)對(duì)于這類的研究和應(yīng)用也會(huì)越來(lái)越重要?;A(chǔ)支撐層提供大數(shù)據(jù)服務(wù)平臺(tái)所需的虛擬服務(wù)器,結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)庫(kù)及物聯(lián)網(wǎng)絡(luò)資源等基礎(chǔ)支撐環(huán)境。重點(diǎn)要解決分布式虛擬存儲(chǔ)技術(shù),大數(shù)據(jù)獲取、存儲(chǔ)、組織、分析和決策操作的可視化接口技術(shù),大數(shù)據(jù)的網(wǎng)絡(luò)傳輸與壓縮技術(shù),大數(shù)據(jù)隱私保護(hù)技術(shù)等。3.1大數(shù)據(jù)采集第三章大數(shù)據(jù)采集及預(yù)處理常用日志系統(tǒng)的采集工具考數(shù)據(jù)類型Flum是Cloudera提供的一個(gè)可靠性和可用性都非常高的日志系統(tǒng),采用分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng),支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù);同時(shí),F(xiàn)lume具有通過(guò)對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單的處理,并寫到各種數(shù)據(jù)接受方的能力。ScribeScribe是facebook開源的日志收集系統(tǒng),它能夠從各種日志源上收集日志,存儲(chǔ)到一個(gè)中央存儲(chǔ)系統(tǒng)(可以是NFS,分布式文件系統(tǒng)等)上,便于進(jìn)行集中統(tǒng)計(jì)分析處理。它最重要的特點(diǎn)是容錯(cuò)性好。ChukwaApache的開源項(xiàng)目hadoop,被業(yè)界廣泛認(rèn)可,很多大型企業(yè)都有了各自基于hadoop的應(yīng)用和擴(kuò)展。當(dāng)1000+以上個(gè)節(jié)點(diǎn)的hadoop集群變得常見時(shí),Apache提出了用chukwa的方法來(lái)解決。KafkaKafka是一種高吞吐量的分布式發(fā)布訂閱消息系統(tǒng),它可以處理大規(guī)模的網(wǎng)站中的所有動(dòng)作流數(shù)據(jù)。具有高穩(wěn)定性、高吞吐量、支持通過(guò)Kafka服務(wù)器和消費(fèi)機(jī)集群來(lái)分區(qū)消息和支持Hadoop并行數(shù)據(jù)加載的特性。Chukwa主要的部件為:1.Agents:負(fù)責(zé)采集最原始的數(shù)據(jù),并發(fā)送給collectors2.Adaptor:直接采集數(shù)據(jù)的接口和工具,一個(gè)agent可以管理多個(gè)adaptor的數(shù)據(jù)采集3.Collectors:負(fù)責(zé)收集agents收送來(lái)的數(shù)據(jù),并定時(shí)寫入集群中4.Map/reducejobs:定時(shí)啟動(dòng),負(fù)責(zé)把集群中的數(shù)據(jù)分類、排序、去重和合并5.HICC:負(fù)責(zé)數(shù)據(jù)的展示013.1大數(shù)據(jù)采集第三章大數(shù)據(jù)采集及預(yù)處理Flum1)在數(shù)據(jù)處理方面:Flume提供對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單處理,并寫到各種數(shù)據(jù)接受方處。他提供了從console(控制臺(tái))、RPC(Thrift-RPC)、text(文件)、tail(UNIXtail)、syslog(syslog日志系統(tǒng)),支持TCP和UDP等2種模式),exec(命令執(zhí)行)等數(shù)據(jù)源上收集數(shù)據(jù)的能力2)在工作方式上:Flume-og采用了多Master的形式。為了保證配置數(shù)據(jù)的一致性,F(xiàn)lume引入了ZooKeeper,用于保存系統(tǒng)配置的數(shù)據(jù),ZooKeeper本身具有可保證配置數(shù)據(jù)的一致性和高可用,同時(shí),在配置數(shù)據(jù)發(fā)生變化時(shí),ZooKeeper可以通知FlumeMaster節(jié)點(diǎn)。FlumeMaster間使用gossip協(xié)議同步數(shù)據(jù)。023)Flume-ng取消了集中管理配置的Master和Zookeeper,變?yōu)橐粋€(gè)純粹的傳輸工具。Flume-ng還有一個(gè)不同點(diǎn)是讀入數(shù)據(jù)和寫出數(shù)據(jù)現(xiàn)在由不同的工作線程處理(稱為Runner)。在Flume-og中,讀入線程同樣做寫出工作(除了故障重試)。如果寫出慢的話(不是完全失?。?,它將阻塞Flume接收數(shù)據(jù)的能力。這種異步的設(shè)計(jì)使讀入線程可以順暢的工作而無(wú)需關(guān)注下游的任何問(wèn)題。3.1大數(shù)據(jù)采集第三章大數(shù)據(jù)采集及預(yù)處理ScribeScribe為日志收集提供了一種容錯(cuò)且可擴(kuò)展的方案。Scribe可以從不同數(shù)據(jù)源,不同機(jī)器上收集日志,然后將它們存入一個(gè)中央存儲(chǔ)系統(tǒng),便于進(jìn)一步處理。當(dāng)采用HDFS作為中央系統(tǒng)時(shí),可以進(jìn)一步使用Hadoop進(jìn)行處理數(shù)據(jù),于是就有了Scribe+HDFS+MapReduce方案。033.1大數(shù)據(jù)采集第三章大數(shù)據(jù)采集及預(yù)處理Kafka的producer,broker和consumer三種主要角色(1)ProducerProducer的任務(wù)是向broker發(fā)送數(shù)據(jù)。為其提供了兩種producer接口,一種是low_level接口,使用這種接口會(huì)向特定的broker的某個(gè)topic下的某個(gè)partition發(fā)送數(shù)據(jù);另一種那個(gè)是highlevel接口,這種接口支持同步/異步發(fā)送數(shù)據(jù),基于zookeeper的broker自動(dòng)識(shí)別和負(fù)載均衡。04(3)Consumerconsumer的作用是將日志信息加載到中央存儲(chǔ)系統(tǒng)上。(2)BrokerBroker采取了多種不同的策略來(lái)提高對(duì)數(shù)據(jù)處理的效率。3.1大數(shù)據(jù)采集第三章大數(shù)據(jù)采集及預(yù)處理第三章大數(shù)據(jù)采集及預(yù)處理

系統(tǒng)日志采集方法

3.1大數(shù)據(jù)采集高可用性、高可靠性、可擴(kuò)展性是日志收集系統(tǒng)所具有的基本特征。常用的日志系統(tǒng)有Hadoop的Chukwa、Cloudera的Flume、Facebook的Scrible和LinkedIn的Kafka這些工具大部分采用分布式架構(gòu),來(lái)滿足大規(guī)模日志采集的需求Chukwa的日志采集流程模擬增量日志環(huán)境/home/matrix/Program/project/log/testlog-0[17/Oct/2011:23:20:40+0800]GET/img/chukwa.jpgHTTP/1.0"404""16""Mozilla/5.0(MSIE9.0;WindowsNT6.1;)"-1[17/Oct/2011:23:20:40+0800]GET/izmg/chukwa.jpgHTTP/1.0"404""16""Mozilla/5.0(MSIE9.0;WindowsNT6.1;)"-2[17/Oct/2011:23:20:40+0800]GET/img/chukwa.jpgHTTP/1.0"404""16""Mozilla/5.0(MSIE9.0;WindowsNT6.1;)"-3[17/Oct/2011:23:20:40+0800]GET/img/chukwa.jpgHTTP/1.0"404""16""Mozilla/5.0(MSIE9.0;WindowsNT6.1;)"-4[17/Oct/2011:23:20:40+0800]GET/img/chukwa.jpgHTTP/1.0"404""16""Mozilla/5.0(MSIE9.0;WindowsNT6.1;)"-5[17/Oct/2011:23:20:40+0800]GET/img/chukwa.jpgHTTP/1.0"404""16""Mozilla/5.0(MSIE9.0;WindowsNT6.1;)"-6[17/Oct/2011:23:20:40+0800]GET/img/chukwa.jpgHTTP/1.0"404""16""Mozilla/5.0(MSIE9.0;WindowsNT6.1;)"-7[17/Oct/2011:23:20:40+0800]GET/img/chukwa.jpgHTTP/1.0"404""16""Mozilla/5.0(MSIE9.0;WindowsNT6.1;)"-8[17/Oct/2011:23:20:40+0800]GET/img/chukwa.jpgHTTP/1.0"404""16""Mozilla/5.0(MSIE9.0;WindowsNT6.1;)"-9[17/Oct/2011:23:20:40+0800]GET/img/chukwa.jpgHTTP/1.0"404""16""Mozilla/5.0(MSIE9.0;WindowsNT6.1;)"013.1大數(shù)據(jù)采集第三章大數(shù)據(jù)采集及預(yù)處理Chukwa的日志采集流程模擬增量日志環(huán)境/home/matrix/Program/project/log/logtest-0[17/Oct/2011:23:20:40+0800]GET/img/chukwa.jpgHTTP/1.0"404""16""Mozilla/5.0(MSIE9.0;WindowsNT6.1;)"-1[17/Oct/2011:23:20:40+0800]GET/img/chukwa.jpgHTTP/1.0"404""16""Mozilla/5.0(MSIE9.0;WindowsNT6.1;)"-2[17/Oct/2011:23:20:40+0800]GET/img/chukwa.jpgHTTP/1.0"404""16""Mozilla/5.0(MSIE9.0;WindowsNT6.1;)"-3[17/Oct/2011:23:20:40+0800]GET/img/chukwa.jpgHTTP/1.0"404""16""Mozilla/5.0(MSIE9.0;WindowsNT6.1;)"-4[17/Oct/2011:23:20:40+0800]GET/img/chukwa.jpgHTTP/1.0"404""16""Mozilla/5.0(MSIE9.0;WindowsNT6.1;)"-5[17/Oct/2011:23:20:40+0800]GET/img/chukwa.jpgHTTP/1.0"404""16""Mozilla/5.0(MSIE9.0;WindowsNT6.1;)"-6[17/Oct/2011:23:20:40+0800]GET/img/chukwa.jpgHTTP/1.0"404""16""Mozilla/5.0(MSIE9.0;WindowsNT6.1;)"-7[17/Oct/2011:23:20:40+0800]GET/img/chukwa.jpgHTTP/1.0"404""16""Mozilla/5.0(MSIE9.0;WindowsNT6.1;)"-8[17/Oct/2011:23:20:40+0800]GET/img/chukwa.jpgHTTP/1.0"404""16""Mozilla/5.0(MSIE9.0;WindowsNT6.1;)"-9[17/Oct/2011:23:20:40+0800]GET/img/chukwa.jpgHTTP/1.0"404""16""Mozilla/5.0(MSIE9.0;WindowsNT6.1;)"013.1大數(shù)據(jù)采集第三章大數(shù)據(jù)采集及預(yù)處理Chukwa的日志采集流程模擬增量日志環(huán)境/home/matrix/Program/project/log/write_log.sh#!/bin/bash-cat/home/matrix/Program/project/log/testlog>>/home/matrix/Program/project/log/testlog1cat/home/matrix/Program/project/log/logtest>>/home/matrix/Program/project/log/testlog2/etc/crontab*/1****matrix/home/matrix/Program/project/log/write_log.sh$CHUKWA_HOME/conf/initial_adaptorsaddfiletailer.CharFileTailingAdaptorUTF8TestLog10/home/matrix/Program/project/log/testlog10addfiletailer.CharFileTailingAdaptorUTF8TestLog20/home/matrix/Program/project/log/testlog20013.1大數(shù)據(jù)采集第三章大數(shù)據(jù)采集及預(yù)處理

chukwa的目錄結(jié)構(gòu)/chukwa/archivesProcessing/dataSinkArchives/demuxProcessing/finalArchives/logs/postProcess/repos/rolling/temp/023.1大數(shù)據(jù)采集第三章大數(shù)據(jù)采集及預(yù)處理

(1)Adaptors使用tail方式監(jiān)測(cè)日志增量;(2)Agent發(fā)送數(shù)據(jù)到collectors;(3)Collectors將各agent收集的數(shù)據(jù)在/chukwa/logs/目錄下寫成*.chukwa文件;(4)當(dāng)*.chukwa文件大小達(dá)到閥值或達(dá)到一定時(shí)間間隔時(shí)將其改名為*.done文件;(5)Demux進(jìn)程將/chukwa/logs/*.done文件轉(zhuǎn)移到/chukwa/demuxProcessing/mrInput/目錄下進(jìn)行處理;(6)PostProcess進(jìn)程將demux進(jìn)程處理完成的*.evt文件轉(zhuǎn)儲(chǔ)到/chukwa/repos/目錄下;(7)可以根據(jù)PostProcess進(jìn)程按照日志類型在/chukwa/rolling/目錄下生成的文件進(jìn)行按天或按小時(shí)的數(shù)據(jù)合并。3.1大數(shù)據(jù)采集第三章大數(shù)據(jù)采集及預(yù)處理

Chukwa的處理過(guò)程

03Flume日志采集流程(1)從整體上描述代理agent中sources、sinks、channels所涉及到的組件;#Namethecomponentsonthisagenta1.sources=r1a1.sinks=k1a1.channels=c1013.1大數(shù)據(jù)采集第三章大數(shù)據(jù)采集及預(yù)處理

Flume日志采集流程詳細(xì)描述agent中每一個(gè)source、sink與channel的具體實(shí)現(xiàn):在描述source的時(shí)候,需要指定source的類型,這個(gè)source是接受文件的、還是接受http的、還是接受thrift的;對(duì)于sink也是同理,要指定結(jié)果輸出到HDFS還是Hbase中。

013.1大數(shù)據(jù)采集第三章大數(shù)據(jù)采集及預(yù)處理#Describe/configurethesourcea1.sources.r1.type=netcata1.sources.r1.bind=localhosta1.sources.r1.port=44444Describethesinka1.sinks.k1.type=logger#Useachannelwhichbufferseventsinmemorya1.channels.c1.type=memorya1.channels.c1.capacity=1000a1.channels.c1.transactionCapacity=100Flume日志采集流程

通過(guò)channel將source與sink連接起來(lái)#Bindthesourceandsinktothechannela1.sources.r1.channels=c1a1.sinks.k1.channel=c1啟動(dòng)agent的shell操作:flume-ngagent-na1-c../conf-f../conf/example.file-Dflume.root.logger=DEBUG,console013.1大數(shù)據(jù)采集第三章大數(shù)據(jù)采集及預(yù)處理-n指定agent名稱(與配置文件中代理的名字相同)-c指定flume中配置文件的目錄-f指定配置文件-Dflume.root.logger=DEBUG,console設(shè)置日志等級(jí)Scribe日志采集流程a.Server,適用于壓力較小的網(wǎng)站或服務(wù)。日志流程如下:用戶-->WebServer-->Scribe-->存儲(chǔ)-->分析-->展示用戶-->WebServer-------|記錄日志的程序框架由thrift自動(dòng)生成,只需include或者import即可b.C/S結(jié)構(gòu),適合訪問(wèn)量大的網(wǎng)站和服務(wù),并可根據(jù)需要進(jìn)行平行擴(kuò)展,采用散列的方式分配服務(wù)器壓力。用戶-->WebServer1-->ScribeClient-->ScribeServer-->存儲(chǔ)-->分析-->展示用戶-->WebServer2--------|用戶-->WebServer3--------|Client及Server均可進(jìn)行水平擴(kuò)展,在程序中設(shè)置hash訪問(wèn)。013.1大數(shù)據(jù)采集第三章大數(shù)據(jù)采集及預(yù)處理Kafka日志采集流程

生產(chǎn)者定期向主題發(fā)送消息;消費(fèi)者訂閱特定主題;消費(fèi)者將定期請(qǐng)求Kafka需要新消息;消費(fèi)者將收到消息并進(jìn)行處理;消費(fèi)者可以隨時(shí)回退/跳到所需的主題偏移量,并閱讀所有后續(xù)消息。013.1大數(shù)據(jù)采集第三章大數(shù)據(jù)采集及預(yù)處理第三章大數(shù)據(jù)采集及預(yù)處理

“網(wǎng)絡(luò)數(shù)據(jù)采集”是利用互聯(lián)網(wǎng)搜索引擎技術(shù)對(duì)數(shù)據(jù)進(jìn)行針對(duì)性、行業(yè)性、精準(zhǔn)性的抓取,并按照一定規(guī)則和篩選標(biāo)準(zhǔn)進(jìn)行將數(shù)據(jù)進(jìn)行歸類,形成數(shù)據(jù)庫(kù)文件的一個(gè)過(guò)程?;ヂ?lián)網(wǎng)網(wǎng)絡(luò)數(shù)據(jù)是大數(shù)據(jù)的重要來(lái)源之一通過(guò)網(wǎng)絡(luò)爬蟲或網(wǎng)站公開API等方式可以將非結(jié)構(gòu)化數(shù)據(jù)從網(wǎng)頁(yè)中抽取出來(lái),將其存儲(chǔ)為統(tǒng)一的本地?cái)?shù)據(jù)文件,并以結(jié)構(gòu)化的方式存儲(chǔ)。網(wǎng)絡(luò)數(shù)據(jù)采集方法

3.1大數(shù)據(jù)采集第三章大數(shù)據(jù)采集及預(yù)處理

一些企業(yè)會(huì)使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)MySQL和Oracle等來(lái)存儲(chǔ)數(shù)據(jù)。這些數(shù)據(jù)庫(kù)中存儲(chǔ)的海量數(shù)據(jù),相對(duì)來(lái)說(shuō)結(jié)構(gòu)化更強(qiáng),也是大數(shù)據(jù)的主要來(lái)源之一。其采集方法支持異構(gòu)數(shù)據(jù)庫(kù)之間的實(shí)時(shí)數(shù)據(jù)同步和復(fù)制,基于的理論是對(duì)各種數(shù)據(jù)庫(kù)的Log日志文件進(jìn)行分析,然后進(jìn)行復(fù)制。數(shù)據(jù)庫(kù)采集

3.1大數(shù)據(jù)采集第三章大數(shù)據(jù)采集及預(yù)處理

在一些特定領(lǐng)域,比如對(duì)于企業(yè)生產(chǎn)經(jīng)營(yíng)數(shù)據(jù)或?qū)W科研究數(shù)據(jù)等保密性要求較高的數(shù)據(jù),可以通過(guò)與企業(yè)或研究機(jī)構(gòu)合作,使用特定系統(tǒng)接口等相關(guān)方式采集數(shù)據(jù)。其他數(shù)據(jù)采集方法

3.1大數(shù)據(jù)采集第三章大數(shù)據(jù)采集及預(yù)處理3.1大數(shù)據(jù)采集3.2數(shù)據(jù)預(yù)處理3.3常用ETL工具 大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材習(xí)題3.2數(shù)據(jù)預(yù)處理第三章大數(shù)據(jù)采集及預(yù)處理大數(shù)據(jù)預(yù)處理

大數(shù)據(jù)正帶來(lái)一場(chǎng)信息社會(huì)的變革。大量的結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的廣泛應(yīng)用,致使人們需要重新思考已有的IT模式;與此同時(shí),大數(shù)據(jù)將推動(dòng)進(jìn)行又一次基于信息革命的業(yè)務(wù)轉(zhuǎn)型,使社會(huì)能夠借助大數(shù)據(jù)獲取更多的社會(huì)效益和發(fā)展機(jī)會(huì);龐大的數(shù)據(jù)需要我們進(jìn)行剝離、整理、歸類、建模、分析等操作,通過(guò)這些動(dòng)作后,我們開始建立數(shù)據(jù)分析的維度,通過(guò)對(duì)不同的維度數(shù)據(jù)進(jìn)行分析,最終才能得到想到的數(shù)據(jù)和信息。因此,如何進(jìn)行大數(shù)據(jù)的采集、導(dǎo)入/預(yù)處理、統(tǒng)計(jì)/分析和大數(shù)據(jù)挖掘,是“做”好大數(shù)據(jù)的關(guān)鍵基礎(chǔ)。導(dǎo)入/預(yù)處理雖然采集端本身有很多數(shù)據(jù)庫(kù),但是如果要對(duì)這些海量數(shù)據(jù)進(jìn)行有效的分析,還是應(yīng)該將這些數(shù)據(jù)導(dǎo)入到一個(gè)集中的大型分布式數(shù)據(jù)庫(kù)或者分布式存儲(chǔ)集群當(dāng)中,同時(shí),在導(dǎo)入的基礎(chǔ)上完成數(shù)據(jù)清洗和預(yù)處理工作。也有一些用戶會(huì)在導(dǎo)入時(shí)使用來(lái)自Twitter的Storm來(lái)對(duì)數(shù)據(jù)進(jìn)行流式計(jì)算,來(lái)滿足部分業(yè)務(wù)的實(shí)時(shí)計(jì)算需求?,F(xiàn)實(shí)世界中數(shù)據(jù)大體上都是不完整、不一致的“臟”數(shù)據(jù),無(wú)法直接進(jìn)行數(shù)據(jù)挖掘,或挖掘結(jié)果差強(qiáng)人意,為了提高數(shù)據(jù)挖掘的質(zhì)量,產(chǎn)生了數(shù)據(jù)預(yù)處理技術(shù)。數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)變換數(shù)據(jù)歸約主要是達(dá)到數(shù)據(jù)格式標(biāo)準(zhǔn)化、異常數(shù)據(jù)清除、數(shù)據(jù)錯(cuò)誤糾正、重復(fù)數(shù)據(jù)的清除等目標(biāo)。是將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來(lái)并統(tǒng)一存儲(chǔ),建立數(shù)據(jù)倉(cāng)庫(kù)。通過(guò)平滑聚集、數(shù)據(jù)概化、規(guī)范化等方式將數(shù)據(jù)轉(zhuǎn)換成適用于數(shù)據(jù)挖掘的形式。尋找依賴于發(fā)現(xiàn)目標(biāo)的數(shù)據(jù)的有用特征,縮減數(shù)據(jù)規(guī)模,最大限度地精簡(jiǎn)數(shù)據(jù)量。3.2數(shù)據(jù)預(yù)處理第三章大數(shù)據(jù)采集及預(yù)處理第三章大數(shù)據(jù)采集及預(yù)處理

數(shù)據(jù)清洗時(shí)發(fā)現(xiàn)并糾正數(shù)據(jù)文件中可識(shí)別的錯(cuò)誤的最后一道程序,包括對(duì)數(shù)據(jù)一致性的檢查,無(wú)效值和缺失值得處理。數(shù)據(jù)清洗的原理是利用有關(guān)技術(shù)如數(shù)據(jù)挖掘或預(yù)定義的清理規(guī)則將臟數(shù)據(jù)轉(zhuǎn)化為滿足數(shù)據(jù)質(zhì)量要求的數(shù)據(jù)。數(shù)據(jù)清洗

3.2數(shù)據(jù)預(yù)處理殘缺數(shù)據(jù)錯(cuò)誤數(shù)據(jù)這一類數(shù)據(jù)主要是因?yàn)椴糠中畔⑷笔?,如公司的名稱、客戶的區(qū)域信息、業(yè)務(wù)系統(tǒng)中主表與明細(xì)表不能匹配等數(shù)據(jù)。將這一類數(shù)據(jù)過(guò)濾出來(lái),按照缺失的內(nèi)容分別填入對(duì)應(yīng)的文檔信息,并提交給客戶,在規(guī)定時(shí)間內(nèi)補(bǔ)全,才可寫入數(shù)據(jù)倉(cāng)庫(kù)。這一類錯(cuò)誤產(chǎn)生的原因往往是業(yè)務(wù)系統(tǒng)不夠健全,在接收輸入信息后沒有進(jìn)行判斷直接將數(shù)據(jù)寫入后臺(tái)數(shù)據(jù)庫(kù)導(dǎo)致的,比如數(shù)值數(shù)據(jù)輸成全角數(shù)字字符、字符串?dāng)?shù)據(jù)后面有一個(gè)回車操作、日期格式不正確等。這類數(shù)據(jù)也需要分類,對(duì)于類似于全角字符、數(shù)據(jù)前后有不可見字符問(wèn)題的只能寫SQL語(yǔ)句查找出來(lái),讓客戶在修正之后抽取。日期格式的錯(cuò)誤會(huì)導(dǎo)致ETL運(yùn)行失敗,需要去業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫(kù)用SQL的方式挑出來(lái),修正之后再抽取。這一類數(shù)據(jù)多出現(xiàn)在維護(hù)表中,是將重復(fù)數(shù)據(jù)記錄的所有字段導(dǎo)出來(lái),讓客戶確認(rèn)并整理。數(shù)據(jù)清理的方法是通過(guò)填寫無(wú)效和缺失的值、光滑噪聲的數(shù)據(jù)、識(shí)別或刪除離群點(diǎn)并解決不一致性來(lái)“清理”數(shù)據(jù)。主要是達(dá)到格式標(biāo)準(zhǔn)化、異常數(shù)據(jù)消除、錯(cuò)誤糾正、重復(fù)數(shù)據(jù)的清除等目的。數(shù)據(jù)清理是將數(shù)據(jù)庫(kù)中所存數(shù)據(jù)精細(xì)化,去除重復(fù)無(wú)用數(shù)據(jù),并使剩余部分的數(shù)據(jù)轉(zhuǎn)化成標(biāo)準(zhǔn)可接受格式的過(guò)程。重復(fù)數(shù)據(jù)3.2數(shù)據(jù)預(yù)處理第三章大數(shù)據(jù)采集及預(yù)處理第三章大數(shù)據(jù)采集及預(yù)處理數(shù)據(jù)清理的方法修改錯(cuò)誤值用統(tǒng)計(jì)分析的方法識(shí)別錯(cuò)誤值或異常值,如數(shù)據(jù)偏差、識(shí)別不遵守分布的值,也可以用簡(jiǎn)單規(guī)則庫(kù)檢查數(shù)據(jù)值,或使用不同屬性間的約束來(lái)檢測(cè)和清理數(shù)據(jù)。消除重復(fù)記錄數(shù)據(jù)庫(kù)中屬性值相同的情況被認(rèn)定為是重復(fù)記錄。通過(guò)判斷記錄間的屬性值是否相等來(lái)檢測(cè)記錄是否相等,相等的記錄合并為一條記錄。填充缺失值大部分情況下,缺失的值必須要用手工來(lái)進(jìn)行清理。當(dāng)然,某些缺失值可以從他本身數(shù)據(jù)源或其它數(shù)據(jù)源中推導(dǎo)出來(lái),可以用平均值、最大值或更為復(fù)雜的概率估計(jì)代替缺失的值,從而達(dá)到清理的目的。數(shù)據(jù)的不一致性從多數(shù)據(jù)源集成的數(shù)據(jù)語(yǔ)義會(huì)不一樣,可供定義完整性約束用于檢查不一致性,也可通過(guò)對(duì)數(shù)據(jù)進(jìn)行分析來(lái)發(fā)現(xiàn)他們之間的聯(lián)系,從而保持?jǐn)?shù)據(jù)的一致性。。3.2數(shù)據(jù)預(yù)處理第三章大數(shù)據(jù)采集及預(yù)處理

數(shù)據(jù)集成是將不同應(yīng)用系統(tǒng)、不同數(shù)據(jù)形式,在原應(yīng)用系統(tǒng)不做任何改變的條件下,進(jìn)行數(shù)據(jù)采集、轉(zhuǎn)換好儲(chǔ)存的數(shù)據(jù)整合過(guò)程。其主要目的是在解決多重?cái)?shù)據(jù)儲(chǔ)存或合并時(shí)所產(chǎn)生的數(shù)據(jù)不一致、數(shù)據(jù)重復(fù)或冗余的問(wèn)題,以提高后續(xù)數(shù)據(jù)分析的精確度和速度。數(shù)據(jù)集成

3.2數(shù)據(jù)預(yù)處理第三章大數(shù)據(jù)采集及預(yù)處理

數(shù)據(jù)轉(zhuǎn)換(datatransfer)時(shí)采用線性或非線性的數(shù)學(xué)變換方法將多維數(shù)據(jù)壓縮成較少維的數(shù)據(jù),消除他們?cè)跁r(shí)間、空間、屬性及精度等特征表現(xiàn)方面的差異。實(shí)際上就是將數(shù)據(jù)從一種表示形式變?yōu)榱硪环N表現(xiàn)形式的過(guò)程。數(shù)據(jù)轉(zhuǎn)換

3.2數(shù)據(jù)預(yù)處理第三章大數(shù)據(jù)采集及預(yù)處理數(shù)據(jù)轉(zhuǎn)換方法中心化變換變換之后均值為0,協(xié)方差陣不變,可以用來(lái)方便地計(jì)算樣本協(xié)方差陣。3.2數(shù)據(jù)預(yù)處理第三章大數(shù)據(jù)采集及預(yù)處理數(shù)據(jù)轉(zhuǎn)換方法標(biāo)準(zhǔn)化變換變換之后每個(gè)變量均值為0,標(biāo)準(zhǔn)差為1,變換后的數(shù)據(jù)與變量的量綱無(wú)關(guān)。。3.2數(shù)據(jù)預(yù)處理極差標(biāo)準(zhǔn)化變換變換后每個(gè)變量樣本均值為0,極差為1,變換后數(shù)據(jù)絕對(duì)值數(shù)據(jù)在(-1,1)中,能減少分析計(jì)算中的誤差,無(wú)量綱。第三章大數(shù)據(jù)采集及預(yù)處理數(shù)據(jù)轉(zhuǎn)換方法極差正規(guī)化變換變換后數(shù)據(jù)在[0,1]之間;極差為1,無(wú)量綱。3.2數(shù)據(jù)預(yù)處理對(duì)數(shù)變換將具有指數(shù)特征的數(shù)據(jù)結(jié)構(gòu)變換為現(xiàn)行數(shù)據(jù)結(jié)構(gòu)第三章大數(shù)據(jù)采集及預(yù)處理

數(shù)據(jù)歸約技術(shù)可以用來(lái)得到數(shù)據(jù)集的歸約表示,它很小,但并不影響原數(shù)據(jù)的完整性,結(jié)果與歸約前結(jié)果相同或幾乎相同。所以,我們可以說(shuō)數(shù)據(jù)歸約是指在盡可能保持?jǐn)?shù)據(jù)原貌的前提下,最大限度地精簡(jiǎn)數(shù)據(jù)量保持?jǐn)?shù)據(jù)的原始狀態(tài)。數(shù)據(jù)規(guī)約 3.2數(shù)據(jù)預(yù)處理兩個(gè)途徑數(shù)據(jù)采樣屬性選擇針對(duì)原始數(shù)據(jù)集中的記錄針對(duì)原始數(shù)據(jù)集中的屬性3.2數(shù)據(jù)預(yù)處理第三章大數(shù)據(jù)采集及預(yù)處理數(shù)據(jù)規(guī)約 數(shù)據(jù)歸約可以分為三類,分別是特征歸約、樣本歸約、特征值歸約。特征歸約是將不重要的或不相關(guān)的特征從原有特征中刪除,或者通過(guò)對(duì)特征進(jìn)行重組和比較來(lái)減少個(gè)數(shù)。其原則是在保留、甚至提高原有判斷能力的同時(shí)減少特征向量的維度。特征歸約算法的輸入是一組特征,輸出是它的一個(gè)子集。樣本歸約就是從數(shù)據(jù)集中選出一個(gè)有代表性的子集作為樣本。子集大小的確定要考慮計(jì)算成本、存儲(chǔ)要求、估計(jì)量的精度以及其它一些與算法和數(shù)據(jù)特性有關(guān)的因素。12特征值歸約分為有參和無(wú)參兩種。有參方法是使用一個(gè)模型來(lái)評(píng)估數(shù)據(jù),只需存放參數(shù),而不需要存放實(shí)際數(shù)據(jù),包含回歸和對(duì)數(shù)線性模型兩種。無(wú)參方法的特征值歸約有3種包括直方圖、聚類和選樣。33.2數(shù)據(jù)預(yù)處理第三章大數(shù)據(jù)采集及預(yù)處理第三章大數(shù)據(jù)采集及預(yù)處理特征值規(guī)約算法三步驟評(píng)估過(guò)程輸入一個(gè)狀態(tài),通過(guò)評(píng)估函數(shù)或預(yù)先設(shè)定的閾值輸出一個(gè)評(píng)估值搜索算法的目的是使評(píng)估值達(dá)到最優(yōu)。搜索過(guò)程在特征空間中搜索特征子集,每個(gè)子集稱為一個(gè)狀態(tài)由選中的特征構(gòu)成。分類過(guò)程使用最后的特征集完成最后的算法。3.2數(shù)據(jù)預(yù)處理第三章大數(shù)據(jù)采集及預(yù)處理3.1大數(shù)據(jù)采集3.2數(shù)據(jù)預(yù)處理3.3常用ETL工具

大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材習(xí)題3.3常用ETL工具第三章大數(shù)據(jù)采集及預(yù)處理常用ETL工具的概念

ETL(Extract-Transform-Load)是一種數(shù)據(jù)倉(cāng)庫(kù)技術(shù),即數(shù)據(jù)抽?。‥xtract)、轉(zhuǎn)換(Transform)、裝載(Load)的過(guò)程,其本質(zhì)是數(shù)據(jù)流動(dòng)的過(guò)程,將不同異構(gòu)數(shù)據(jù)源流向統(tǒng)一的目標(biāo)數(shù)據(jù)??罩堤幚?2

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論