云計(jì)算與大數(shù)據(jù)(第二版)“大數(shù)據(jù)”關(guān)鍵技術(shù)與應(yīng)用_第1頁
云計(jì)算與大數(shù)據(jù)(第二版)“大數(shù)據(jù)”關(guān)鍵技術(shù)與應(yīng)用_第2頁
云計(jì)算與大數(shù)據(jù)(第二版)“大數(shù)據(jù)”關(guān)鍵技術(shù)與應(yīng)用_第3頁
云計(jì)算與大數(shù)據(jù)(第二版)“大數(shù)據(jù)”關(guān)鍵技術(shù)與應(yīng)用_第4頁
云計(jì)算與大數(shù)據(jù)(第二版)“大數(shù)據(jù)”關(guān)鍵技術(shù)與應(yīng)用_第5頁
已閱讀5頁,還剩100頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

云計(jì)算與大數(shù)據(jù)第2版大數(shù)據(jù)關(guān)鍵技術(shù)與應(yīng)用3.1大數(shù)據(jù)技術(shù)總體框架3.3大數(shù)據(jù)存儲技術(shù)3.5大數(shù)據(jù)分析技術(shù)3.6大數(shù)據(jù)可視化技術(shù)3.2大數(shù)據(jù)采集與預(yù)處理技術(shù)3.4大數(shù)據(jù)處理技術(shù)重點(diǎn):大數(shù)據(jù)采集與預(yù)處理大數(shù)據(jù)存儲技術(shù)大數(shù)據(jù)處理技術(shù)大數(shù)據(jù)分析技術(shù)大數(shù)據(jù)可視化技術(shù)本章重點(diǎn)云計(jì)算是新的商業(yè)模式。大數(shù)據(jù)的本質(zhì)是應(yīng)需求驅(qū)動的,大數(shù)據(jù)的應(yīng)用最終使云計(jì)算模式落地。大數(shù)據(jù)來源于互聯(lián)網(wǎng)、企業(yè)系統(tǒng)和物聯(lián)網(wǎng)等信息系統(tǒng),經(jīng)過大數(shù)據(jù)處理系統(tǒng)的分析挖掘,產(chǎn)生新的知識用以支撐決策或業(yè)務(wù)的自動智能化運(yùn)轉(zhuǎn)。大數(shù)據(jù)對數(shù)據(jù)存儲、處理和分析三個環(huán)節(jié)影響較大,需要對技術(shù)架構(gòu)和算法進(jìn)行重構(gòu),是當(dāng)前和未來一段時間大數(shù)據(jù)技術(shù)創(chuàng)新的焦點(diǎn)。3.1大數(shù)據(jù)技術(shù)總體框架3.1.1總體目標(biāo)

業(yè)務(wù)環(huán)節(jié)業(yè)務(wù)需求技術(shù)實(shí)現(xiàn)產(chǎn)生大數(shù)據(jù)操作數(shù)據(jù)容量:每18個月翻一番數(shù)據(jù)類型:多于80%的數(shù)據(jù)來自于非機(jī)構(gòu)化數(shù)據(jù)數(shù)據(jù)速度:數(shù)據(jù)來源不斷變化,數(shù)據(jù)快速流通采用一個統(tǒng)一的大數(shù)據(jù)處理方法,使得企業(yè)用戶能夠快速處理和加載海量數(shù)據(jù),能夠在統(tǒng)一平臺上對不同類型的數(shù)據(jù)進(jìn)行處理和存儲聚集管理大數(shù)據(jù)的復(fù)雜性,需要分類、同步、聚合、集成、共享、轉(zhuǎn)換、剖析、遷移、壓縮、備份、保護(hù)、恢復(fù)、清洗、淘汰各種類型數(shù)據(jù)一個數(shù)據(jù)集成和管理平臺,集成各種工具和服務(wù)來管理異構(gòu)存儲環(huán)境下的各類數(shù)據(jù)分析當(dāng)前數(shù)據(jù)倉庫和數(shù)據(jù)挖掘擅長分析結(jié)構(gòu)化的事后數(shù)據(jù),在大數(shù)據(jù)環(huán)境下要求能夠分析非結(jié)構(gòu)化數(shù)據(jù),包括流文件,并能進(jìn)行實(shí)時分析和預(yù)測建立一個實(shí)時預(yù)測分析解決方案,整合結(jié)構(gòu)化的數(shù)據(jù)倉庫和非結(jié)構(gòu)化的分析工具利用滿足不同的用戶對大數(shù)據(jù)的實(shí)時的多種訪問方式任何時間、任何地點(diǎn)、任何設(shè)備上的集中共享和協(xié)同需要理解大數(shù)據(jù)怎樣影響業(yè)務(wù),怎樣轉(zhuǎn)化為行動對大數(shù)據(jù)影響業(yè)務(wù)和戰(zhàn)略進(jìn)行建模,并利用技術(shù)來實(shí)現(xiàn)這些模型3.1.2架構(gòu)設(shè)計(jì)原則

3.1.3總體架構(gòu)的特點(diǎn)大數(shù)據(jù)技術(shù)架構(gòu)具備集成性、架構(gòu)先進(jìn)性和實(shí)時性等特點(diǎn)。1.統(tǒng)一、開發(fā)、集成的大數(shù)據(jù)平臺可基于開源軟件實(shí)現(xiàn)Hadoop基礎(chǔ)工具的整合;能與關(guān)系型數(shù)據(jù)庫、數(shù)據(jù)倉庫通過JDBC/ODBC連接器進(jìn)行連接;能支持地理分布的在線用戶和程序,并行執(zhí)行從查詢到戰(zhàn)略分析的請求;用戶友好的管理平臺,包括HDFS瀏覽器和類SQL查詢語言等;提供服務(wù)、存儲、調(diào)度和高級安全等企業(yè)級應(yīng)用的功能。2.低成本的可擴(kuò)展性支持大規(guī)模可擴(kuò)展性,到PB級數(shù)據(jù)源;支持極大的混合工具負(fù)載,各種數(shù)據(jù)類型包括任意層次的數(shù)據(jù)結(jié)構(gòu)、圖像、日志等;節(jié)點(diǎn)間無共享(sharing-nothing)的集群數(shù)據(jù)庫體系結(jié)構(gòu);可編程和可擴(kuò)展的應(yīng)用服務(wù)器;簡單的配置、開發(fā)和管理;以線性成本擴(kuò)展并提供一致的性能;標(biāo)準(zhǔn)的普通硬件。3.實(shí)時地分析執(zhí)行在聲明或發(fā)現(xiàn)數(shù)據(jù)結(jié)構(gòu)之前裝載數(shù)據(jù);能以數(shù)據(jù)全載入的速度來準(zhǔn)確更新數(shù)據(jù);可調(diào)度和執(zhí)行復(fù)雜的幾百個節(jié)點(diǎn)的工作流;在剛裝載的數(shù)據(jù)上,可實(shí)時執(zhí)行流分析查詢;能以大于每秒1GB的速率來分析數(shù)據(jù)。4.可靠性當(dāng)處理節(jié)點(diǎn)失效時,自動恢復(fù)并保持流程連續(xù),不需要中斷操作。3.2.1大數(shù)據(jù)來源與采集3.2.2大數(shù)據(jù)采集工具3.2.3數(shù)據(jù)準(zhǔn)備3.2大數(shù)據(jù)采集與預(yù)處理3.2.1大數(shù)據(jù)來源與采集1大數(shù)據(jù)來源從數(shù)據(jù)采集的來源看,目前大數(shù)據(jù)的主要數(shù)據(jù)來源有三個途徑,分別是物聯(lián)網(wǎng)系統(tǒng)、互聯(lián)網(wǎng)Web系統(tǒng)和傳統(tǒng)信息系統(tǒng)。物聯(lián)網(wǎng)的數(shù)據(jù)占據(jù)了整個大數(shù)據(jù)百分之九十以上的份額,可以說沒有物聯(lián)網(wǎng)就沒有大數(shù)據(jù)。物聯(lián)網(wǎng)的數(shù)據(jù)大部分是非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)。Web系統(tǒng)是另一個重要的數(shù)據(jù)采集渠道,隨著Web2.0的發(fā)展,整個Web系統(tǒng)涵蓋了大量的價值化數(shù)據(jù),而且這些數(shù)據(jù)與物聯(lián)網(wǎng)的數(shù)據(jù)不同,Web系統(tǒng)的數(shù)據(jù)往往是結(jié)構(gòu)化數(shù)據(jù),而且數(shù)據(jù)的價值密度比較高、傳統(tǒng)信息系統(tǒng)也是大數(shù)據(jù)的一個數(shù)據(jù)來源,雖然傳統(tǒng)信息系統(tǒng)的數(shù)據(jù)占比較小,但是由于傳統(tǒng)信息系統(tǒng)的數(shù)據(jù)結(jié)構(gòu)清晰,同時具有較高的可靠性,所以傳統(tǒng)信息系統(tǒng)的數(shù)據(jù)往往也是價值密度最高的。

2大數(shù)據(jù)采集技術(shù)

數(shù)據(jù)采集分類

傳統(tǒng)的數(shù)據(jù)采集(DataAcQuisition,DAQ):又稱數(shù)據(jù)獲取,是指從傳感器和其它待測設(shè)備等模擬和數(shù)字被測單元中自動采集信息的過程。按采集頻率分,可分為靜態(tài)數(shù)據(jù)采集、低頻數(shù)據(jù)采集和高頻數(shù)據(jù)采集;按采集結(jié)構(gòu)分,可分為結(jié)構(gòu)化數(shù)據(jù)采集、半結(jié)構(gòu)化數(shù)據(jù)采集和非結(jié)構(gòu)化數(shù)據(jù)采集;按采集方式分,可分為定時采集和實(shí)時采集。大數(shù)據(jù)的數(shù)據(jù)采集的來源廣泛,數(shù)據(jù)量巨大,數(shù)據(jù)類型豐富,包括結(jié)構(gòu)化,半結(jié)構(gòu)化,非結(jié)構(gòu)化類型的數(shù)據(jù),多采用分布式數(shù)據(jù)庫技術(shù)存儲與處理。不同結(jié)構(gòu)類型數(shù)據(jù)的適用技術(shù)對比見表所示。1)系統(tǒng)日志采集方法很多互聯(lián)網(wǎng)企業(yè)都有自己的海量數(shù)據(jù)采集工具,多用于系統(tǒng)日志采集,如Hadoop的Flume,Kafka以及Sqoop等,這些工具均采用分布式架構(gòu),能滿足每秒數(shù)百M(fèi)B的日志數(shù)據(jù)采集和傳輸需求。2)網(wǎng)絡(luò)數(shù)據(jù)采集方法網(wǎng)絡(luò)數(shù)據(jù)采集是指通過網(wǎng)絡(luò)爬蟲或網(wǎng)站公開API等方式從網(wǎng)站上獲取數(shù)據(jù)信息。該方法可以將非結(jié)構(gòu)化數(shù)據(jù)從網(wǎng)頁中抽取出來,將其存儲為統(tǒng)一的本地?cái)?shù)據(jù)文件,并以結(jié)構(gòu)化的方式存儲。它支持圖片、音頻、視頻等文件或附件的采集,附件與正文可以自動關(guān)聯(lián)。除了網(wǎng)絡(luò)中包含的內(nèi)容之外,對于網(wǎng)絡(luò)流量的采集可以使用DPI或DFI等帶寬管理技術(shù)進(jìn)行處理。3)數(shù)據(jù)庫采集系統(tǒng)企業(yè)不斷產(chǎn)生的業(yè)務(wù)數(shù)據(jù)會直接寫入數(shù)據(jù)庫,通過數(shù)據(jù)庫采集系統(tǒng)可直接與企業(yè)業(yè)務(wù)后臺服務(wù)器結(jié)合,能根據(jù)分析需求采集數(shù)據(jù)并進(jìn)行針對性的分析。

2大數(shù)據(jù)采集技術(shù)

3.2.2大數(shù)據(jù)采集工具1網(wǎng)絡(luò)爬蟲網(wǎng)絡(luò)爬蟲是一個自動下載網(wǎng)頁資源的程序,它根據(jù)既定的抓取目標(biāo),有選擇地訪問萬維網(wǎng)上與目標(biāo)相關(guān)的網(wǎng)頁鏈接,獲取所需要的網(wǎng)頁信息。與搜索引擎不同,爬蟲并不太追求大的覆蓋,而是將目標(biāo)定位為抓取與某一個特定主體內(nèi)容相關(guān)的網(wǎng)頁,為面向主題的用戶查詢準(zhǔn)備數(shù)據(jù)資源。通用爬蟲框架的工作流程:步驟1:確定種子URL,并存入待抓取的URL列表;步驟2:從待抓取的URL列表中隨機(jī)提取一個URL,發(fā)送到URL下載器;步驟3:URL下載器開始下載頁面,如果下載成功,將頁面發(fā)送給URL解析器,同時把URL存入已抓取的URL列表;如果下載失敗,將URL重新存入待抓取的URL列表,重復(fù)步驟2;步驟4:URL解析器開始解析頁面,將獲得的新的URL存入待抓取的URL列表,同時將需要的、有價值的數(shù)據(jù)存入數(shù)據(jù)庫;步驟5:重復(fù)步驟2至步驟4,直到待抓取的URL列表為空。

2.2.1網(wǎng)絡(luò)爬蟲

1.認(rèn)識網(wǎng)頁結(jié)構(gòu)爬蟲代碼解析

2.2.1網(wǎng)絡(luò)爬蟲

網(wǎng)絡(luò)爬蟲

3.2.2其他數(shù)據(jù)采集工具1.FlumeFlume是Apache旗下的一款開源的、高可用的,高可靠的,分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng),F(xiàn)lume支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù);同時,F(xiàn)lume提供對數(shù)據(jù)進(jìn)行簡單處理,并寫到各種數(shù)據(jù)接受方(可定制)的能力。Flume的工作原理類似于一節(jié)一節(jié)的水管(Agent),每個Agent由Source、Channel、Sink三個組件組成。2.KafkaKafka是Apache軟件基金會旗下的一個開源流處理平臺,由Scala和Java編寫,是一種高吞吐量的分布式發(fā)布訂閱消息系統(tǒng),它可以水平擴(kuò)展,高可用,速度快,已經(jīng)運(yùn)行在數(shù)千家公司的生產(chǎn)環(huán)境中。Kafka可以處理消費(fèi)者在網(wǎng)站中的所有動作流數(shù)據(jù),這些動作涵蓋了網(wǎng)頁瀏覽,搜索和其他用戶的行動等,是完成網(wǎng)絡(luò)上的許多社會功能的必然行為。這些行為數(shù)據(jù)通常因?yàn)橥掏铝康囊笮柰ㄟ^處理日志和日志聚合來解決。3.2.2其他數(shù)據(jù)采集工具3.SqoopSqoop(發(fā)音:skup)是Apache軟件基金會旗下的一款開源工具,主要用于在Hadoop(Hive)與傳統(tǒng)的數(shù)據(jù)庫(MySQL、Postgres等)間進(jìn)行數(shù)據(jù)的傳遞。它可以將一個關(guān)系型數(shù)據(jù)庫(例如:MySQL、Oracle、Postgres等)中的數(shù)據(jù)導(dǎo)進(jìn)到Hadoop的HDFS中,也可以將HDFS的數(shù)據(jù)導(dǎo)進(jìn)到關(guān)系型數(shù)據(jù)庫中。3.2.3數(shù)據(jù)準(zhǔn)備經(jīng)過數(shù)據(jù)采集階段后,我們根據(jù)大數(shù)據(jù)應(yīng)用的需求采集了大量的數(shù)據(jù),但是現(xiàn)實(shí)世界的數(shù)據(jù)很多是“臟”數(shù)據(jù),即存在不完整(缺少屬性值或僅僅包含聚集數(shù)據(jù))、含噪聲(包含錯誤或存在偏離期望的離群值等錯誤數(shù)據(jù))、不一致(不同采集源得到的數(shù)據(jù)可能存在量綱不同、屬性含義不同等問題)等。而我們在使用數(shù)據(jù)過程中對數(shù)據(jù)有一致性、準(zhǔn)確性、完整性、時效性、可信性、可解釋性等要求。如何將這些“臟”數(shù)據(jù)有效地轉(zhuǎn)換成高質(zhì)量的專家數(shù)據(jù),就涉及到數(shù)據(jù)準(zhǔn)備(DataPreparation)工作,有統(tǒng)計(jì)表明,在一個完整的大數(shù)據(jù)分析與數(shù)據(jù)挖掘過程中,數(shù)據(jù)準(zhǔn)備工作要花費(fèi)60%-70%的時間。在數(shù)據(jù)準(zhǔn)備階段采用的技術(shù)數(shù)據(jù)清洗數(shù)據(jù)集成數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)規(guī)約2.3數(shù)據(jù)準(zhǔn)備1數(shù)據(jù)清洗數(shù)據(jù)清洗(DataCleaning)過程包括遺漏數(shù)據(jù)處理,噪聲數(shù)據(jù)處理,以及不一致數(shù)據(jù)處理。1.1.遺漏數(shù)據(jù)處理1)忽略該條記錄2)手工填補(bǔ)遺漏值3)利用默認(rèn)值填補(bǔ)遺漏值4)利用均值填補(bǔ)遺漏值5)利用同類別均值填補(bǔ)遺漏值6)利用最可能的值填補(bǔ)遺漏值2)聚類分析方法通過聚類分析方法可幫助發(fā)現(xiàn)異常數(shù)據(jù)。相似或相鄰近的數(shù)據(jù)聚合在一起形成了各個聚類集合,而那些位于這些聚類集合之外的數(shù)據(jù)對象,自然而然就被認(rèn)為是異常數(shù)據(jù)。1數(shù)據(jù)清洗2.噪聲數(shù)據(jù)處理噪聲是指被測變量的一個隨機(jī)錯誤和變化。下面通過給定一個數(shù)值型屬性(如價格)來說明平滑去噪的具體方法。1)分箱方法Bin方法通過利用應(yīng)被平滑數(shù)據(jù)點(diǎn)的周圍點(diǎn)(近鄰),對一組排序數(shù)據(jù)進(jìn)行平滑。排序后的數(shù)據(jù)被分配到若干桶(稱為Bins)中。1數(shù)據(jù)清洗3)人機(jī)結(jié)合檢查方法通過人機(jī)結(jié)合檢查方法,可以幫助發(fā)現(xiàn)異常數(shù)據(jù)。例如,利用基于信息論的方法可幫助識別手寫符號庫中的異常模式,所識別出的異常模式可輸出到一個列表中,然后由人對這一列表中的各異常模式進(jìn)行檢查,并最終確認(rèn)無用的模式(真正異常的模式)。這種人機(jī)結(jié)合檢查方法比手工方法的手寫符號庫檢查效率要高許多。4)回歸方法可以利用擬合函數(shù)對數(shù)據(jù)進(jìn)行平滑。例如,借助線性回歸方法,包括多變量回歸方法,就可以獲得多個變量之間的擬合關(guān)系,從而達(dá)到利用一個(或一組)變量值來預(yù)測另一個變量取值的目的。利用回歸分析方法所獲得的擬合函數(shù),能夠幫助平滑數(shù)據(jù)及除去其中的噪聲。1數(shù)據(jù)清洗3.不一致數(shù)據(jù)處理現(xiàn)實(shí)世界的數(shù)據(jù)庫常岀現(xiàn)數(shù)據(jù)記錄內(nèi)容不一致的問題,其中的一些數(shù)據(jù)可以利用它們與外部的關(guān)聯(lián),手工解決這種問題。例如,數(shù)據(jù)錄入錯誤一般可以通過與原稿進(jìn)行對比來加以糾正。此外還有一些方法可以幫助糾正使用編碼時所發(fā)生的不一致問題。知識工程工具也可以幫助發(fā)現(xiàn)違反數(shù)據(jù)約束條件的情況。由于同一屬性在不同數(shù)據(jù)庫中的取名不規(guī)范,常常使得在進(jìn)行數(shù)據(jù)集成時,導(dǎo)致不一致情況的發(fā)生。1數(shù)據(jù)清洗2數(shù)據(jù)集成數(shù)據(jù)集成(DataIntegration)是將來自多個數(shù)據(jù)源的數(shù)據(jù),如數(shù)據(jù)庫、數(shù)據(jù)立方、普通文件等,結(jié)合在一起并形成一個統(tǒng)一數(shù)據(jù)集合,以便為數(shù)據(jù)處理工作的順利完成提供完整的數(shù)據(jù)基礎(chǔ)。1.模式匹配整合不同數(shù)據(jù)源中的元數(shù)據(jù)。實(shí)體識別問題:匹配來自不同數(shù)據(jù)源的現(xiàn)實(shí)世界的實(shí)體,比如:A.cust-id=B.customer_no2.數(shù)據(jù)冗余同一屬性在不同的數(shù)據(jù)庫中會有不同的字段名。一個屬性可以由另外一個表導(dǎo)出。如:一個顧客數(shù)據(jù)表中的平均月收入屬性,它可以根據(jù)月收入屬性計(jì)算出來。有些冗余可以被相關(guān)分析檢測到。

例如,給定兩個屬性A和B,則根據(jù)這兩個屬性的數(shù)值可分析出這兩個屬性間的相互關(guān)系。如果兩個屬性之間的關(guān)聯(lián)值r>0,則說明兩個屬性之間是正關(guān)聯(lián),也就是說,若A增加,B也增加。r值越大,說明屬性A、E的正關(guān)聯(lián)關(guān)系越緊密。

如果關(guān)聯(lián)值產(chǎn)0,則說明屬性A、B相互獨(dú)立,兩者之間沒有關(guān)系。如果r<0,則說明屬性A、B之間是負(fù)關(guān)聯(lián),也就是說,若A增加,B就減少。r的絕對值越大,說明屬性A、B的負(fù)關(guān)聯(lián)關(guān)系越緊密。2數(shù)據(jù)集成3數(shù)據(jù)變換數(shù)據(jù)轉(zhuǎn)換(DataTransformation)就是將數(shù)據(jù)進(jìn)行轉(zhuǎn)換或歸并,從而構(gòu)成一個適合數(shù)據(jù)處理的描述形式。1.平滑處理幫助除去數(shù)據(jù)中的噪聲,主要技術(shù)方法有分箱方法、聚類方法和回歸方法。2.合計(jì)處理對數(shù)據(jù)進(jìn)行總結(jié)或合計(jì)操作。例如,每天的數(shù)據(jù)經(jīng)過合計(jì)操作可以獲得每月或每年的總額。這一操作常用于構(gòu)造數(shù)據(jù)立方或?qū)?shù)據(jù)進(jìn)行多粒度的分析數(shù)據(jù)值沖突對于一個現(xiàn)實(shí)世界實(shí)體,其來自不同數(shù)據(jù)源的屬性值或許不同。產(chǎn)生的原因:表示的差異、比例尺度不同、或編碼的差異等。例如:重量屬性在一個系統(tǒng)中采用公制,而在另一個系統(tǒng)中卻采用英制。同樣價格屬性不同地點(diǎn)采用不同貨幣單位。3數(shù)據(jù)變換1)平滑處理幫助除去數(shù)據(jù)中的噪聲,主要技術(shù)方法有分箱方法、聚類方法和回歸方法。2)合計(jì)處理對數(shù)據(jù)進(jìn)行總結(jié)或合計(jì)操作。例如,每天的數(shù)據(jù)經(jīng)過合計(jì)操作可以獲得每月或每年的總額。這一操作常用于構(gòu)造數(shù)據(jù)立方或?qū)?shù)據(jù)進(jìn)行多粒度的分析。3)數(shù)據(jù)泛化處理用更抽象(更高層次)的概念來取代低層次或數(shù)據(jù)層的數(shù)據(jù)對象。例如,街道屬性可以泛化到更高層次的概念,如城市、國家,數(shù)值型的屬性,如年齡屬性,可以映射到更高層次的概念,如年輕、中年和老年。4)規(guī)格化處理將有關(guān)屬性數(shù)據(jù)按比例投射到特定的數(shù)據(jù)范圍之中,以避免屬性量綱的影響。例如,將工資收入屬性值映射到0

到1

范圍內(nèi)。5)屬性構(gòu)造處理根據(jù)已有屬性集構(gòu)造新的屬性,以幫助數(shù)據(jù)處理過程。3數(shù)據(jù)變換2)零均值規(guī)格化方法該方法是指根據(jù)一個屬性的均值和方差來對該屬性的值進(jìn)行規(guī)格化。計(jì)算公式為:例如:假定屬性“顧客收入”的均值和方差分別為54000元和16000元,則“顧客收入”屬性的值為73600元時,對應(yīng)的轉(zhuǎn)換結(jié)果如下。3數(shù)據(jù)變換4數(shù)據(jù)規(guī)約數(shù)據(jù)規(guī)約(DataReduction)的主要目的就是從原有巨大數(shù)據(jù)集中獲得一個精簡的數(shù)據(jù)集,并使這一精簡數(shù)據(jù)集保持原有數(shù)據(jù)集的完整性。這樣在精簡數(shù)據(jù)集上進(jìn)行數(shù)據(jù)挖掘就會提高效率,并且能夠保證挖掘出來的結(jié)果與使用原有數(shù)據(jù)集所獲得的結(jié)果基本相同。3.3大數(shù)據(jù)存儲技術(shù)1.大數(shù)據(jù)時代對數(shù)據(jù)存儲的挑戰(zhàn)大數(shù)據(jù)存儲和傳統(tǒng)的數(shù)據(jù)存儲不同?!窀卟l(fā)讀寫需求:分布式數(shù)據(jù)庫必須及時響應(yīng)大規(guī)模用戶的讀/寫請求,能對海量數(shù)據(jù)進(jìn)行隨機(jī)讀寫●海量數(shù)據(jù)的高效率存儲和訪問需求:Web2.0網(wǎng)站要根據(jù)用戶個性化信息來實(shí)時生成動態(tài)頁面和提供動態(tài)信息,關(guān)系型數(shù)據(jù)庫難以存儲用戶每天產(chǎn)生海量的動態(tài)數(shù)據(jù)●高可擴(kuò)展性:分布式數(shù)據(jù)庫必須具有高可擴(kuò)展性,能夠動態(tài)地增添存儲節(jié)點(diǎn)以實(shí)現(xiàn)存儲容量的線性擴(kuò)展●存儲和處理半結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)需求:關(guān)系型數(shù)據(jù)庫所使用的定義嚴(yán)格、基于模式的方式是無法快速容納新的數(shù)據(jù)類型的,對于非結(jié)構(gòu)化或是半結(jié)構(gòu)化的數(shù)據(jù)更是無能為力分布式文件系統(tǒng)把文件分布存儲到多個計(jì)算機(jī)節(jié)點(diǎn)上,成千上萬的計(jì)算機(jī)節(jié)點(diǎn)構(gòu)成計(jì)算機(jī)集群與之前使用多個處理器和專用高級硬件的并行化處理裝置不同的是,目前的分布式文件系統(tǒng)所采用的計(jì)算機(jī)集群,都是由普通硬件構(gòu)成的,這就大大降低了硬件上的開銷圖

計(jì)算機(jī)集群的基本架構(gòu)2.分布式文件系統(tǒng)分布式文件系統(tǒng)在物理結(jié)構(gòu)上是由計(jì)算機(jī)集群中的多個節(jié)點(diǎn)構(gòu)成的,這些節(jié)點(diǎn)分為兩類,一類叫“主節(jié)點(diǎn)”(MasterNode)或者也被稱為“名稱結(jié)點(diǎn)”(NameNode),另一類叫“從節(jié)點(diǎn)”(SlaveNode)或者也被稱為“數(shù)據(jù)節(jié)點(diǎn)”(DataNode)圖

大規(guī)模文件系統(tǒng)的整體結(jié)構(gòu)HDFS默認(rèn)一個塊64MB,一個文件被分成多個塊,以塊作為存儲單位塊的大小遠(yuǎn)遠(yuǎn)大于普通文件系統(tǒng),可以最小化尋址開銷。HDFS采用抽象的塊概念可以帶來以下幾個明顯的好處:●支持大規(guī)模文件存儲:文件以塊為單位進(jìn)行存儲,一個大規(guī)模文件可以被分拆成若干個文件塊,不同的文件塊可以被分發(fā)到不同的節(jié)點(diǎn)上,因此,一個文件的大小不會受到單個節(jié)點(diǎn)的存儲容量的限制,可以遠(yuǎn)遠(yuǎn)大于網(wǎng)絡(luò)中任意節(jié)點(diǎn)的存儲容量●簡化系統(tǒng)設(shè)計(jì):首先,大大簡化了存儲管理,因?yàn)槲募K大小是固定的,這樣就可以很容易計(jì)算出一個節(jié)點(diǎn)可以存儲多少文件塊;其次,方便了元數(shù)據(jù)的管理,元數(shù)據(jù)不需要和文件塊一起存儲,可以由其他系統(tǒng)負(fù)責(zé)管理元數(shù)據(jù)●適合數(shù)據(jù)備份:每個文件塊都可以冗余存儲到多個節(jié)點(diǎn)上,大大提高了系統(tǒng)的容錯性和可用性3.

NoSQL數(shù)據(jù)庫-什么是NoSQL通常,NoSQL數(shù)據(jù)庫具有以下幾個特點(diǎn):

(1)靈活的可擴(kuò)展性

(2)靈活的數(shù)據(jù)模型

(3)與云計(jì)算緊密融合Notonlysql不僅僅是sql,也可以簡單理解為沒有sql。nosql數(shù)據(jù)庫我們也稱為非關(guān)系型數(shù)據(jù)庫。NoSQL數(shù)據(jù)庫從一開始就是分布式的。數(shù)據(jù)快速的寫入一個節(jié)點(diǎn),其余節(jié)點(diǎn)通過讀取寫入節(jié)點(diǎn)的讀寫日志來實(shí)現(xiàn)異步復(fù)制NoSQL數(shù)據(jù)庫-NoSQL的特點(diǎn)不需要定義表結(jié)構(gòu),數(shù)據(jù)表中的每條記錄都可能有不同的屬性和格式不遵循范式的要求,去掉完整性約束,減少表之間的依賴數(shù)據(jù)進(jìn)行分區(qū),將數(shù)據(jù)分散在不同的節(jié)點(diǎn)上不能完全滿足事務(wù)的ACID特性,保證事務(wù)的最終一致性。51.模式自由2.逆規(guī)范化3.多分區(qū)存儲4.可擴(kuò)展性強(qiáng)5.多副本異步復(fù)制6.軟事務(wù)可在系統(tǒng)運(yùn)行過程中,動態(tài)增加和刪除節(jié)點(diǎn),數(shù)據(jù)自平衡移動NoSQL數(shù)據(jù)庫與關(guān)系數(shù)據(jù)庫的比較NoSQL數(shù)據(jù)庫?關(guān)系數(shù)據(jù)庫的優(yōu)勢及存在的問題(1)適合存儲結(jié)構(gòu)化數(shù)據(jù)。(2)關(guān)系模型的二維結(jié)構(gòu)接近人的邏輯思維,容易理解。(3)關(guān)系數(shù)據(jù)庫形式規(guī)整,代數(shù)理論完整,便于數(shù)據(jù)的維護(hù)。(4)數(shù)據(jù)的規(guī)模與增長可以預(yù)期。(5)事務(wù)性強(qiáng),數(shù)據(jù)一致行強(qiáng),具有高穩(wěn)定性。(6)技術(shù)成熟,有大量成功的應(yīng)用案例。優(yōu)勢?憑借關(guān)系數(shù)據(jù)庫的諸多優(yōu)勢,在上世紀(jì)90年代的互聯(lián)網(wǎng)領(lǐng)域建立了龐大的應(yīng)用市場,積累了大量的成功案例,同時促進(jìn)了互聯(lián)網(wǎng)的快速發(fā)展。也正是伴隨著互聯(lián)網(wǎng)的快速發(fā)展,特別是Web2.0網(wǎng)站的快速發(fā)展,在應(yīng)對這些超大規(guī)模和高并發(fā)的應(yīng)用時,傳統(tǒng)的關(guān)系數(shù)據(jù)庫就遇到了很多難以克服的問題。NoSQL數(shù)據(jù)庫與關(guān)系數(shù)據(jù)庫的比較NoSQL數(shù)據(jù)庫?NoSQL數(shù)據(jù)庫的優(yōu)勢及存在的問題(1)數(shù)據(jù)模型簡單且靈活。(2)NoSQL更容易擴(kuò)展。(3)數(shù)據(jù)庫結(jié)構(gòu)簡單、容量更大,性能更高。(4)按照Key,很容易映射復(fù)雜值的環(huán)境,且有較高的獲取數(shù)據(jù)效率。(5)數(shù)據(jù)分區(qū),提高了并行性,分區(qū)的同時進(jìn)行了復(fù)制,防止了數(shù)據(jù)失效的問題。(6)和RAID存儲系統(tǒng)不同的是,NoSQL中的復(fù)制,往往是基于日志的異步復(fù)制。這樣,數(shù)據(jù)就可以盡快地寫入一個節(jié)點(diǎn),而不會由于網(wǎng)絡(luò)傳輸引起遲延。優(yōu)勢?NoSQL數(shù)據(jù)庫與關(guān)系數(shù)據(jù)庫的比較NoSQL數(shù)據(jù)庫?NoSQL數(shù)據(jù)庫的優(yōu)勢及存在的問題(1)由于NoSQL數(shù)據(jù)庫是面向應(yīng)用的,缺乏通用性。(2)NoSQL數(shù)據(jù)庫的應(yīng)用成熟度不高,實(shí)際應(yīng)用較少,已有產(chǎn)品支持的功能有限導(dǎo)致其應(yīng)用具有一定的局限性。(3)沒有強(qiáng)一致性約束,有些場景無法適用,這也是無法代替關(guān)系數(shù)據(jù)庫的原因之一。(4)由于缺乏類似關(guān)系數(shù)據(jù)庫所具有的強(qiáng)有力的理論,數(shù)據(jù)庫的設(shè)計(jì)很難體現(xiàn)業(yè)務(wù)的實(shí)際情況,也增加了數(shù)據(jù)庫設(shè)計(jì)的難度。(5)目前為止,HBase數(shù)據(jù)庫是安全特性最完善的NoSQL數(shù)據(jù)庫產(chǎn)品之一,而其他的NoSQL數(shù)據(jù)庫多數(shù)沒有提供內(nèi)建的安全機(jī)制問題?NoSQL數(shù)據(jù)庫與關(guān)系數(shù)據(jù)庫的比較NoSQL數(shù)據(jù)庫?NoSQL數(shù)據(jù)庫和傳統(tǒng)關(guān)系數(shù)據(jù)庫相結(jié)合

NoSQL數(shù)據(jù)庫和傳統(tǒng)關(guān)系數(shù)據(jù)庫都有各自的優(yōu)勢和問題?;谒鼈兊倪m用范圍不同,目前主流架構(gòu)采用關(guān)系數(shù)據(jù)庫(如MySQl)+NoSQL的組合方案。目前為止,還沒有出現(xiàn)一個能夠通吃各種場景的數(shù)據(jù)庫,而且根據(jù)CAP理論,這樣的數(shù)據(jù)庫是不存在的。

在強(qiáng)一致性和高可用性的場景下,數(shù)據(jù)庫基于ACID特性;而在高可用性和擴(kuò)展性場景下,數(shù)據(jù)庫采用BASE思想。NoSQL數(shù)據(jù)庫可以彌補(bǔ)關(guān)系數(shù)據(jù)庫的一些缺陷,但是目前還是無法取代關(guān)系數(shù)據(jù)庫,將其兩者結(jié)合起來使用,各取所長,才是應(yīng)對當(dāng)下海量數(shù)據(jù)處理問題的正確方式。4.

NoSQL數(shù)據(jù)庫分類分類舉例典型應(yīng)用場景數(shù)據(jù)模型優(yōu)點(diǎn)缺點(diǎn)鍵值數(shù)據(jù)庫Redis,Voldemort,OracleBDB內(nèi)容緩存,主要用于處理大量數(shù)據(jù)的高訪問負(fù)載,也用于一些日志系統(tǒng)等等。Key指向Value的鍵值對,通常用hashtable來實(shí)現(xiàn)查找速度快數(shù)據(jù)無結(jié)構(gòu)化,通常只被當(dāng)作字符串或者二進(jìn)制數(shù)據(jù)列族數(shù)據(jù)庫Cassandra,HBase,Riak分布式的文件系統(tǒng)以列簇式存儲,將同一列族數(shù)據(jù)存在一起吞吐量大,可擴(kuò)展性強(qiáng),更容易進(jìn)行分布式擴(kuò)展功能相對局限文檔型數(shù)據(jù)庫CouchDB,MongoDBWeb應(yīng)用(與Key-Value類似,Value是結(jié)構(gòu)化的,不同的是數(shù)據(jù)庫能夠了解Value的內(nèi)容)Key-Value對應(yīng)的鍵值對,Value為結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)結(jié)構(gòu)要求不嚴(yán)格,表結(jié)構(gòu)可變,不需要像關(guān)系型數(shù)據(jù)庫一樣需要預(yù)先定義表結(jié)構(gòu)查詢性能不高,而且缺乏統(tǒng)一的查詢語法。圖形數(shù)據(jù)庫Neo4J,InfoGrid,InfiniteGraph社交網(wǎng)絡(luò),推薦系統(tǒng)等。專注于構(gòu)建關(guān)系圖譜圖結(jié)構(gòu)利用圖結(jié)構(gòu)相關(guān)算法。比如最短路徑尋址,N度關(guān)系查找等很多時候需要對整個圖做計(jì)算才能得出需要的信息,而且這種結(jié)構(gòu)不太好做分布式的集群方案。1、鍵值數(shù)據(jù)庫

鍵值數(shù)據(jù)庫(Key-ValueDatabase)會使用一個哈希表,這個表中有一個特定的key和一個指針指向特定的value。key可以用來定位value,即存儲和檢索具體的Value。項(xiàng)目描述相關(guān)產(chǎn)品Redis、Memcahed、SimpleDB、Riak等等數(shù)據(jù)模型key-value典型應(yīng)用內(nèi)容緩存。會話、配置文件、參數(shù)、購物車優(yōu)點(diǎn)擴(kuò)展性好、靈活性強(qiáng)、大量寫操作時性能高缺點(diǎn)無法存儲結(jié)構(gòu)化信息、條件查詢效率較低使用者百度云數(shù)據(jù)庫(Redis)、Youtube(Memcached)Key_1Value_1Key_2Value_2Key_3Value_3Key_4Value_4Key_5Value_5..............4.

NoSQL數(shù)據(jù)庫分類2、列族數(shù)據(jù)庫

列族數(shù)據(jù)庫采用的是列族數(shù)據(jù)模型,由多個行構(gòu)成,每行數(shù)據(jù)包含多個列族,不同行可以有不同數(shù)量的列族。屬于同一列族的數(shù)據(jù)被存在一起。每行數(shù)據(jù)是通過鍵值來定位。項(xiàng)目描述相關(guān)產(chǎn)品HBase、BigTable、hadoopDB、Cassandra等等數(shù)據(jù)模型列族典型應(yīng)用分布式數(shù)據(jù)存儲于管理優(yōu)點(diǎn)可擴(kuò)展性強(qiáng)、容易分布式擴(kuò)展、復(fù)雜性低缺點(diǎn)功能較少、大部分都不支持強(qiáng)事務(wù)一致性使用者Facebook(Cassandra)、Yahoo?。℉Base)4.

NoSQL數(shù)據(jù)庫分類3、文檔型數(shù)據(jù)庫

數(shù)據(jù)模型是結(jié)構(gòu)化的文檔,半結(jié)構(gòu)化的文檔以特定的格式存儲,比如JSON。文檔型數(shù)據(jù)庫可以看作是鍵值數(shù)據(jù)庫的升級版,允許之間嵌套鍵值。項(xiàng)目描述相關(guān)產(chǎn)品MongoDB、CouchDB、ThruDB等等數(shù)據(jù)模型版本化的文檔典型應(yīng)用存儲、索引并管理面向文檔數(shù)據(jù)或類似半結(jié)構(gòu)化數(shù)據(jù)。優(yōu)點(diǎn)性能好、靈活性高、復(fù)雜性低、數(shù)據(jù)結(jié)構(gòu)靈活缺點(diǎn)缺乏統(tǒng)一的查詢語法使用者百度云數(shù)據(jù)庫(MongoDB),SAP(MongoDB)4.

NoSQL數(shù)據(jù)庫分類4、圖型數(shù)據(jù)庫

圖型數(shù)據(jù)庫以圖論為基礎(chǔ),一個圖是一個數(shù)學(xué)概念,用來表示一個對象集合,包括頂點(diǎn)及連接頂點(diǎn)的邊。圖數(shù)據(jù)庫使用圖作為數(shù)據(jù)模型來存儲數(shù)據(jù)。項(xiàng)目描述相關(guān)產(chǎn)品Neo4j、OrientDB、GraphDB等等數(shù)據(jù)模型圖結(jié)構(gòu)典型應(yīng)用大量復(fù)雜、互連接、低結(jié)構(gòu)化的圖結(jié)構(gòu)。優(yōu)點(diǎn)靈活性高、支持復(fù)雜的圖算法、可以用來構(gòu)建復(fù)雜的關(guān)系圖譜缺點(diǎn)缺乏統(tǒng)一的查詢語法使用者達(dá)觀數(shù)據(jù)(Neo4j)4.

NoSQL數(shù)據(jù)庫分類5.

NoSQL數(shù)據(jù)庫面臨的挑戰(zhàn)NoSQL數(shù)據(jù)庫的前景很被看好,但是要應(yīng)用到主流的企業(yè)還有許多困難需要克服?!癯墒於取裰С帧穹治雠c商業(yè)智能●管理●專業(yè)3.4大數(shù)據(jù)處理技術(shù)3.4.1storm平臺Storm是由BackType開發(fā)的實(shí)時處理系統(tǒng),BackType現(xiàn)在已在Twitter麾下。Storm為分布式實(shí)時計(jì)算提供了一組通用原語,可被用于“流處理”之中,實(shí)時處理消息并更新數(shù)據(jù)庫。這是管理隊(duì)列及工作者集群的另一種方式。Storm也可被用于“連續(xù)計(jì)算”。在計(jì)算時就將結(jié)果以流的形式輸出給用戶。它還可被用于“分布式RPC”,以并行的方式運(yùn)行昂貴的運(yùn)算。Storm可以方便地在一個計(jì)算機(jī)集群中編寫與擴(kuò)展復(fù)雜的實(shí)時計(jì)算,Storm保證每個消息都會得到處理,而且速度很快,在一個小集群中,每秒可以處理數(shù)以百萬計(jì)的消息。

Storm的主要特點(diǎn)簡單的編程模型可以使用各種編程語言容錯性水平擴(kuò)展可靠的消息處理快速本地模式Storm的集群架構(gòu)

Storm集群由一個主節(jié)點(diǎn)和多個工作節(jié)點(diǎn)組成:master節(jié)點(diǎn)和worker節(jié)點(diǎn)。master節(jié)點(diǎn)運(yùn)行一個守護(hù)進(jìn)程,叫Nimbus,類似Hadoop中的JobTracker。Nimbus負(fù)責(zé)在集群中分發(fā)代碼,分配任務(wù),以及故障檢測。每個worker節(jié)點(diǎn)運(yùn)行一個守護(hù)進(jìn)程,叫Supervisor。Supervisor監(jiān)聽分配到該服務(wù)器的任務(wù),開始和結(jié)束工作進(jìn)程。每個worker進(jìn)程執(zhí)行topology的一個子集;一個運(yùn)行中的topology由許多分布在多臺機(jī)器上的worker進(jìn)程組成。Nimbus和Supervisors之間是通過Zookeeper協(xié)調(diào)。此外,Nimbus和Supervisor是能快速失敗(fail-fast)和無狀態(tài)的(stateless);所有的狀態(tài)都保存在Zookeeper或者在本地磁盤中。當(dāng)Nimbus或者Supervisors出現(xiàn)問題重啟后會自動恢復(fù),好像什么也沒發(fā)生過。這項(xiàng)設(shè)計(jì)使得Storm集群變得非常穩(wěn)定健壯。

Storm集群架構(gòu)

Storm的缺點(diǎn)

1)編程門檻對普通用戶來說較高2)框架本身不提供持久化存儲3)框架不提供消息接入模塊4)StormUI功能過于簡單5)Bolt復(fù)用困難6)存在Nimbus單點(diǎn)失效問題7)Topology不支持動態(tài)部署3.5.1“大數(shù)據(jù)”分析特點(diǎn)及技術(shù)路線3.5大數(shù)據(jù)分析技術(shù)1.大數(shù)據(jù)分析具有五個特點(diǎn):1)大數(shù)據(jù)分析應(yīng)是可視化分析2)大數(shù)據(jù)分析的理論核心是數(shù)據(jù)挖掘算法3)大數(shù)據(jù)分析最重要的應(yīng)用領(lǐng)域之一就是預(yù)測性分析4)大數(shù)據(jù)分析廣泛應(yīng)用于網(wǎng)絡(luò)數(shù)據(jù)挖掘5)大數(shù)據(jù)分析離不開數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理2.大數(shù)據(jù)分析技術(shù)路線目前的大數(shù)據(jù)分析主要有兩條技術(shù)路線,一是憑借先驗(yàn)知識人工建立數(shù)學(xué)模型來分析數(shù)據(jù),二是通過建立人工智能系統(tǒng),使用大量樣本數(shù)據(jù)進(jìn)行訓(xùn)練,讓機(jī)器代替人工獲得從數(shù)據(jù)中提取知識的能力。3.5.2“大數(shù)據(jù)”分析過程數(shù)據(jù)分析過程的主要活動由識別信息需求、收集數(shù)據(jù)、分析數(shù)據(jù)、評價并改進(jìn)數(shù)據(jù)分析的有效性組成。3.5.3“大數(shù)據(jù)”分析方法數(shù)據(jù)分析是指用適當(dāng)?shù)慕y(tǒng)計(jì)分析方法對收集來的大量數(shù)據(jù)進(jìn)行分析,將它們加以匯總和理解并消化,以求最大化地開發(fā)數(shù)據(jù)的功能,發(fā)揮數(shù)據(jù)的作用。數(shù)據(jù)分析是為了提取有用信息和形成結(jié)論而對數(shù)據(jù)加以詳細(xì)研究和概括總結(jié)的過程。數(shù)據(jù)也稱觀測值,是實(shí)驗(yàn)、測量、觀察、調(diào)查等的結(jié)果。數(shù)據(jù)分析中所處理的數(shù)據(jù)分為定性數(shù)據(jù)和定量數(shù)據(jù)。大數(shù)據(jù)分析的研究對象是大數(shù)據(jù),它側(cè)重于在海量數(shù)據(jù)中的分析挖掘出有用的信息。對應(yīng)于大數(shù)據(jù)分析的兩條技術(shù)路線其分析方法可分為兩類:一是統(tǒng)計(jì)分析方法,另一個是數(shù)據(jù)挖掘方法。1.統(tǒng)計(jì)分析方法1)描述性統(tǒng)計(jì)分析2)回歸分析3)因子分析4)方差分析2.數(shù)據(jù)挖掘方法1)分類和預(yù)測2)關(guān)聯(lián)規(guī)則3)聚類3.統(tǒng)計(jì)分析和數(shù)據(jù)挖掘的聯(lián)系與區(qū)別1)統(tǒng)計(jì)分析和數(shù)據(jù)挖掘的聯(lián)系從兩者的理論來源來看,它們都源于統(tǒng)計(jì)理論基礎(chǔ)理論,因此它們的許多方法在很多情況下都是同根同源的。比如,概率論和隨機(jī)事件是統(tǒng)計(jì)學(xué)的核心理論之一,統(tǒng)計(jì)分析中的抽樣估計(jì)需要應(yīng)用該理論,而在數(shù)據(jù)挖掘技術(shù)的貝葉斯分類中,就是這些統(tǒng)計(jì)理論的發(fā)展和延伸。2)統(tǒng)計(jì)分析和數(shù)據(jù)挖掘的區(qū)別統(tǒng)計(jì)分析的基礎(chǔ)之一是概率論,在對數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析時,分析人員常常需要對數(shù)據(jù)分布和變量間的關(guān)系做假設(shè),確定用什么概率函數(shù)來描述變量間的關(guān)系,以及如何檢驗(yàn)參數(shù)的統(tǒng)計(jì)顯著性;但是在數(shù)據(jù)挖掘的應(yīng)用中,分析人員不需要對數(shù)據(jù)分布做任何假設(shè),數(shù)據(jù)挖掘的算法會自動尋找變量間的關(guān)系。因此,相對于海量、雜亂的數(shù)據(jù),數(shù)據(jù)挖掘技術(shù)有明顯的應(yīng)用優(yōu)勢。3.6大數(shù)據(jù)可視化技術(shù)

3.6.1大數(shù)據(jù)可視化技術(shù)概述

3.6.2大數(shù)據(jù)可視化技術(shù)基礎(chǔ)

3.6.3大數(shù)據(jù)可視化應(yīng)用

3.6.4大數(shù)據(jù)可視化軟件和工具3.6.1大數(shù)據(jù)可視化技術(shù)概述1數(shù)據(jù)可視化簡史1)16世紀(jì)之前:圖表萌芽2)17世紀(jì):物理測量數(shù)據(jù)可視化3)18世紀(jì):圖形符號4)19世紀(jì):數(shù)據(jù)圖形5)1900-1949年:現(xiàn)代啟蒙6)1950-1974年:多維信息的可視編碼7)1975-1987年:多維統(tǒng)計(jì)圖形8)1987-2004年:交互可視化9)2005年至今:可視分析學(xué)2數(shù)據(jù)可視化的功能從宏觀的角度看,可視化有3個功能:(1)信息記錄:將大規(guī)模的數(shù)據(jù)記錄下來,最有效的方式就是將信息成像或采用草圖記載。不僅如此,可視化呈現(xiàn)還能激發(fā)人的洞察力,幫助驗(yàn)證科學(xué)假設(shè)。20世紀(jì)的三大發(fā)現(xiàn)之一DNA分子結(jié)構(gòu)就起源于對DNA結(jié)構(gòu)的X射線衍射照片的分析。2數(shù)據(jù)可視化的功能(2)信息推理與分析將信息以可視化的方式呈獻(xiàn)給用戶,使得用戶可以從可視化結(jié)果分析和推理出有效的信息,提高認(rèn)識信息的效率。數(shù)據(jù)可視化在對上下文的理解和數(shù)據(jù)推理有獨(dú)到的作用。19世紀(jì)歐洲霍亂大流行的時候,英國醫(yī)生JohnSnow繪制了一張倫敦的街區(qū)地圖如圖3-1所示,該圖標(biāo)記了每個水井的位置和霍亂致死的病例地點(diǎn)。該圖清晰顯示有73個病例集中分布在布拉德街的水井附近,這就是著名的倫敦鬼圖。在拆除布拉德街水井搖把之后不久,霍亂就平息了。2數(shù)據(jù)可視化的功能(3)信息傳播與協(xié)同視覺感知是人類最主要的信息通道,人靠視覺獲取了70%以上的信息。俗話說的“一圖勝千言”或“百聞不如一見”就是這個意思。將復(fù)雜信息傳播與發(fā)布給公眾的最有效途徑就是將數(shù)據(jù)進(jìn)行可視化,達(dá)到信息共享、信息協(xié)作、信息修正和信息過濾等目的。3大數(shù)據(jù)可視化簡介在大數(shù)據(jù)時代,人們不僅處理著海量的數(shù)據(jù),同時還要對這些海量數(shù)據(jù)進(jìn)行加工、傳播、分析和分享。實(shí)現(xiàn)這些形式最好的方法就是大數(shù)據(jù)可視化。大數(shù)據(jù)可視化讓數(shù)據(jù)變得更加可信、直觀和具有美感。它就像文學(xué)家寫出詩歌一般美妙的文字,為不同的用戶講述各種各樣的故事。從大數(shù)據(jù)可視化呈現(xiàn)形式來劃分,大數(shù)據(jù)可視化的表達(dá)主要有下面幾個方面。(1)指標(biāo)的可視化數(shù)據(jù)可視化的核心的是對原始數(shù)據(jù)采用什么樣的可視化元素來表達(dá),在大數(shù)據(jù)可視化過程中,采用可視化元素的方式將指標(biāo)可視化,會將可視化的效果增彩很多。3大數(shù)據(jù)可視化簡介(2)數(shù)據(jù)關(guān)系的可視化數(shù)據(jù)關(guān)系往往也是可視化數(shù)據(jù)核心表達(dá)的主題宗旨。下圖是對自然科學(xué)領(lǐng)域1431種雜志的文章之間的217287個相互引用關(guān)系網(wǎng)絡(luò)的聚類可視化結(jié)果。所有1431個結(jié)點(diǎn)被分割聚合為54個模塊,每個模塊結(jié)點(diǎn)是一個聚類,而模塊的大小則對應(yīng)聚類中原來結(jié)點(diǎn)的數(shù)目。3大數(shù)據(jù)可視化簡介(3)背景數(shù)據(jù)的可視化很多時候光有原始數(shù)據(jù)是不夠的,因?yàn)閿?shù)據(jù)沒有價值,信息才有價值。設(shè)計(jì)師馬特·羅賓森和湯姆·維格勒沃斯用不同的圓珠筆和字體寫“Sample”這個單詞。因?yàn)椴煌煮w使用墨水量不同,所以每支筆所剩的墨水也不同。在馬特·羅賓森和湯姆·維格勒沃斯的字體測量圖中不再需要標(biāo)注坐標(biāo)系,因?yàn)椴煌墓P及其墨水含量已經(jīng)包含了這個信息。(4)轉(zhuǎn)換成便于接受的形式大數(shù)據(jù)可視化完成基本功能后可能還需要優(yōu)化。優(yōu)化包括按照人的接受模式、習(xí)慣和能力,甚至還需要考慮顯示設(shè)備的能力,然后進(jìn)行綜合改進(jìn),這樣才能更好地達(dá)到被接受的效果。(5)強(qiáng)化因?yàn)槭谴髷?shù)據(jù),所以很多時候數(shù)據(jù)、信息、符號對于接受者而言是過載的,可能就分辨不出來了,這時我們就需要在原來的可視化結(jié)果基礎(chǔ)上再進(jìn)行強(qiáng)化。3大數(shù)據(jù)可視化簡介(6)修飾修飾是為了讓可視化的細(xì)節(jié)更為精準(zhǔn)、甚至優(yōu)美,比較典型的工作包括設(shè)置標(biāo)題,表明數(shù)據(jù)來源,對過長的柱子進(jìn)行縮略處理,進(jìn)行表格線的顏色設(shè)置,各種字體、圖素粗細(xì)、顏色設(shè)置等。(7)完美風(fēng)格化所謂風(fēng)格化就是標(biāo)準(zhǔn)化基礎(chǔ)上的特色化,最典型的例如增加企業(yè)、個人的LOGO,讓人們知道這個可視化產(chǎn)品屬于哪個企業(yè)、哪個人。而要做到真正完美的風(fēng)格化,還需要很多不同的操作。例如布局、顏色、圖標(biāo)、標(biāo)注、線型,甚至動畫的時間、過渡等方面,從而讓人們更直觀地理解和接受。

3.6.2大數(shù)據(jù)可視化技術(shù)基礎(chǔ)

1數(shù)據(jù)可視化流程數(shù)據(jù)可視化流程一般以數(shù)據(jù)流向?yàn)橹骶€,主要分為數(shù)據(jù)采集、數(shù)據(jù)處理、可視化映射和用戶感知這四大模塊。整個數(shù)據(jù)可視化流程可以看成數(shù)據(jù)流經(jīng)過一系列處理模塊并得到轉(zhuǎn)換的過程。用戶可以通過可視化交互與其他模塊進(jìn)行互動,向前面模塊反饋而提高數(shù)據(jù)可視化的效果。具體的數(shù)據(jù)可視化流程有很多種,下圖是一個數(shù)據(jù)可視化流程的概念模型。

1數(shù)據(jù)可視化流程

數(shù)據(jù)采集數(shù)據(jù)處理和變換可視化映射用戶感知

數(shù)據(jù)可視化流程中的各個模塊之間的聯(lián)系并不是依照順序的線性聯(lián)系,而是任意兩個模塊之間都存在聯(lián)系。例如,可視化交互是數(shù)據(jù)可視化過程中,用戶控制修改數(shù)據(jù)采集、數(shù)據(jù)處理和變換、可視化映射各模塊而產(chǎn)生新的可視化結(jié)果,并反饋給用戶的過程。2數(shù)據(jù)可視化編碼

可視化編碼(visualencoding)是數(shù)據(jù)可視化的核心內(nèi)容。指將數(shù)據(jù)信息映射成可視化元素,映射結(jié)果通常具有表達(dá)直觀、易于理解和記憶等特性??梢暬赜煽梢暬臻g、標(biāo)記和視覺通道等三方面組成。標(biāo)記和視覺通道數(shù)據(jù)的組織方式通常是屬性和值。與之對應(yīng)的可視化元素就是標(biāo)記和視覺通道。其中,標(biāo)記是數(shù)據(jù)屬性到可視化元素的映射,用以直觀地表示數(shù)據(jù)的屬性歸類;視覺通道是數(shù)據(jù)屬性的值到標(biāo)記的視覺呈現(xiàn)參數(shù)的映射,用于展現(xiàn)數(shù)據(jù)屬性的定量信息,兩者的結(jié)合可以完整地將數(shù)據(jù)信息進(jìn)行可視化表達(dá),從而完成可視化編碼這一過程。

2數(shù)據(jù)可視化編碼

視覺通道用于控制標(biāo)記的視覺特征,通??捎玫囊曈X通道包括標(biāo)記的位置、大小、形狀、顏色、方向、色調(diào)、飽和度、亮度等。

標(biāo)記的選擇通常基于人們對于事物理解的直覺。然而,不同的視覺通道在表達(dá)信息的作用和能力可能具有截然不同的特性。

2數(shù)據(jù)可視化編碼

2.可視化編碼元素的優(yōu)先級數(shù)據(jù)可視化的有效性取決于用戶的感知。盡管不同用戶的感知能力會有一定的差別,仍然可以假設(shè)大多數(shù)人對可視化元素有規(guī)律可循。Cleveland等研究人員發(fā)現(xiàn),當(dāng)數(shù)據(jù)映射為不同的可視化元素時,人對不同可視化元素的感知準(zhǔn)確性是不同的。數(shù)據(jù)可視化的對象不僅包含數(shù)值型數(shù)據(jù),也包括非數(shù)值型數(shù)據(jù)。對于數(shù)值型、有序型和類別型三種類型的數(shù)據(jù)人們對可視化元素中的位置分辨都是最準(zhǔn)確的。

2數(shù)據(jù)可視化編碼

3.統(tǒng)計(jì)圖表的可視化在數(shù)據(jù)可視化的發(fā)展歷史中,從統(tǒng)計(jì)學(xué)中發(fā)展起來的統(tǒng)計(jì)圖表起源很早,應(yīng)用廣泛,而且是很多大數(shù)據(jù)可視化方法發(fā)展的起點(diǎn)和靈感來源。常用的一些統(tǒng)計(jì)圖表有:柱狀圖直方圖餅圖散點(diǎn)圖等值線圖熱力圖走勢圖顏色映射圖

2數(shù)據(jù)可視化編碼

根據(jù)不同的數(shù)據(jù)可視化分析需求可以歸納出采用的基本統(tǒng)計(jì)圖表可視化方法。如圖所示。

3數(shù)據(jù)可視化設(shè)計(jì)

1.數(shù)據(jù)可視化設(shè)計(jì)標(biāo)準(zhǔn)在進(jìn)行數(shù)據(jù)可視化設(shè)計(jì)時有適合大多數(shù)可視化設(shè)計(jì)的標(biāo)準(zhǔn)可以幫助設(shè)計(jì)者實(shí)現(xiàn)不同風(fēng)格可視化設(shè)計(jì)以及尋求最佳設(shè)計(jì)這些目標(biāo)。下面列出常見的一部分標(biāo)準(zhǔn)。1)強(qiáng)表達(dá)力2)強(qiáng)有效性有效性代表用戶對可視化顯示信息的理解效率。3)簡潔性4)易用性5)美感數(shù)據(jù)可視化設(shè)計(jì)的側(cè)重點(diǎn)雖然不是視覺美感,但視覺上的美感可以讓用戶更易于理解可視化表達(dá)的內(nèi)容,更專注于對數(shù)據(jù)的考察和度量,從而提高數(shù)據(jù)可視化的效率。

3數(shù)據(jù)可視化設(shè)計(jì)

2.數(shù)據(jù)可視化設(shè)計(jì)的步驟(1)確定數(shù)據(jù)到圖形元素和視覺通道的映射;(2)視圖的選擇與用戶交互控制的設(shè)計(jì);(3)數(shù)據(jù)的篩選即確定在有限的可視化視圖空間中選擇適量的信息進(jìn)行編碼,以避免在數(shù)據(jù)量很大的情況下產(chǎn)生視覺混亂。3.數(shù)據(jù)可視化設(shè)計(jì)的直觀性數(shù)據(jù)到可視化元素的映射需要充分利用人們已有的先驗(yàn)知識,從而降低人們對信息的感知和認(rèn)識所需要的時間。

3數(shù)據(jù)可視化設(shè)計(jì)

3.數(shù)據(jù)可視化設(shè)計(jì)的直觀性

數(shù)據(jù)到可視化元素的映射需要充分利用人們已有的先驗(yàn)知識,從而降低人們對信息的感知和認(rèn)識所需要的時間。

3.6.3大數(shù)據(jù)可視化應(yīng)用

本節(jié)主要介紹跨媒體數(shù)據(jù)中的文本數(shù)據(jù)、社交網(wǎng)絡(luò)數(shù)據(jù)、日志數(shù)據(jù)和地理信息數(shù)據(jù)的大數(shù)據(jù)可視化應(yīng)用以及大數(shù)據(jù)可視化的交互應(yīng)用。1文本數(shù)據(jù)可視化

文本是人類信息交流的主要傳播媒體之一,文本信息在人們?nèi)粘I钪袔缀鯚o處不在,如新聞、郵件、微博、小說和書籍等。

文本可視化基本流程包括三個主要步驟:即文本處理、可視化映射和交互操作。整個過程應(yīng)該圍繞用戶分析的需求設(shè)計(jì)。下面根據(jù)文本的模式或結(jié)構(gòu)、文檔的主題或主題分布、文本中的關(guān)聯(lián)等特征方面闡述一些文本數(shù)據(jù)可視化的經(jīng)典案例和應(yīng)用。1文本數(shù)據(jù)可視化1)標(biāo)簽云標(biāo)簽云(tagcloud)又稱文本云(textcloud)或單詞云,是最直觀、最常見的對文本關(guān)鍵字進(jìn)行可視化的方法。標(biāo)簽云一般使用字體的大小與顏色對關(guān)鍵字的重要性進(jìn)行編碼。權(quán)重越大的關(guān)鍵字的字體越大,顏色越顯著。除了字體大小與顏色,關(guān)鍵字的布局也是標(biāo)簽云可視化方法中一個重要的編碼維度。2)小說視圖小說視圖(NovelViews)方法是使用簡單的圖形將小說中的主要人物在小說中的分布情況進(jìn)行可視化。在縱軸上,每個小說人物按照首次出現(xiàn)的順序從上至下排列;橫軸分成幾個大塊表示整套書中的一卷,每一卷中用灰色線段表示一本書,小矩形表示每個章節(jié)。矩形高度表示相應(yīng)的人物在該章節(jié)出現(xiàn)的次數(shù);矩形的顏色編碼表示章節(jié)的感情色彩。例如用紅色表示消極;藍(lán)色表示積極。

1文本數(shù)據(jù)可視化

3) 主題山地主題山地(themescapes)方法使用了抽象的三維山地景觀視圖隱喻文檔集合中各個文檔主題的分布,其中高度和顏色用來編碼主題相似的文檔的密度。4)主題河流主題河流(themeriver)是用于時序型文本數(shù)據(jù)可視化的經(jīng)典方法。時序型文本通常是指具有內(nèi)在順序的文檔集合,例如一段時間內(nèi)的新聞報(bào)道、一套叢書等。由于時間軸是時序型文本的重要屬性,需要重點(diǎn)考慮時間軸的表示及可視化。

2日志數(shù)據(jù)可視化

日志數(shù)據(jù)可以理解為一種記錄所觀察對象的行為信息的數(shù)據(jù)。日志數(shù)據(jù)的來源多種多樣,例如:電子商務(wù)網(wǎng)站的海量交易記錄、銀行系統(tǒng)的財(cái)務(wù)記錄、集群網(wǎng)絡(luò)產(chǎn)生的大量系統(tǒng)日志數(shù)據(jù)、GPS和移動通信設(shè)備記錄的記錄等。下面根據(jù)可視化數(shù)據(jù)來源的差異,闡述一些日志數(shù)據(jù)可視化的經(jīng)典案例和應(yīng)用。商業(yè)交易數(shù)據(jù)可視化

淘寶、京東、亞馬遜等電子商務(wù)交易平臺每時每刻產(chǎn)生用戶購買商品的交易信息。這些信息包括用戶登記的姓名、年齡、職業(yè)、郵寄地址、累計(jì)花銷、成交商品、成交金額、成交時間等屬性。這些個人信息與交易記錄具有巨大的數(shù)據(jù)分析價值。對商業(yè)交易數(shù)據(jù)進(jìn)行可視化可以直觀形象地展示數(shù)據(jù),提高數(shù)據(jù)分析和數(shù)據(jù)挖掘效率,從而帶來可觀的經(jīng)濟(jì)和社會效益。

2日志數(shù)據(jù)可視化

2. 用戶點(diǎn)擊流可視化用戶在網(wǎng)頁上的點(diǎn)擊流記錄了用戶在網(wǎng)頁上的每一次點(diǎn)擊動作,用戶點(diǎn)擊流可用于分析用戶在線行為模式,高頻點(diǎn)擊流序列和特定行為模式的一類用戶的統(tǒng)計(jì)特征。

3社交網(wǎng)絡(luò)可視化

社交網(wǎng)絡(luò)服務(wù)是指基于互聯(lián)網(wǎng)的人與人之間相互聯(lián)系、信息溝通和互動娛樂的運(yùn)作平臺。Facebook、Twitter、微信、新浪微博、人人網(wǎng)、豆瓣等都是當(dāng)前普及的社交網(wǎng)站?;谶@些社交網(wǎng)站提供的服務(wù)建立起來的虛擬化的網(wǎng)絡(luò)就是社交網(wǎng)絡(luò)。社交網(wǎng)絡(luò)是一個網(wǎng)絡(luò)型結(jié)構(gòu),由結(jié)點(diǎn)和結(jié)點(diǎn)之間連接組成。社交網(wǎng)絡(luò)數(shù)據(jù)可視化著重于展示社交網(wǎng)絡(luò)的結(jié)構(gòu),即體現(xiàn)社交網(wǎng)絡(luò)中參與者和他們之間的拓?fù)潢P(guān)系結(jié)構(gòu)。常用于結(jié)構(gòu)化可視化方法是結(jié)點(diǎn)鏈接圖。其中結(jié)點(diǎn)表示社交網(wǎng)絡(luò)的參與者,結(jié)點(diǎn)之間的鏈接表示兩個參與者之間的某一種聯(lián)系,包括朋友關(guān)系、親屬關(guān)系、關(guān)注或轉(zhuǎn)發(fā)關(guān)系、共同的興趣愛好等。通過對邊和結(jié)點(diǎn)的合理布局可以反映出社交網(wǎng)絡(luò)中的聚類、社區(qū)、潛在模式等。

4地理信息可視化

地理信息包含地球表面、地上、地下的所有與地理有關(guān)的信息。由于人類活動的主要空間是地球,因此很多工程實(shí)踐、社會活動和科學(xué)研究所產(chǎn)生的數(shù)據(jù)都含有地理信息。對這些地理數(shù)據(jù)進(jìn)行采集、描述、儲存、運(yùn)算、管理、分析和可視化的系統(tǒng)稱為地理信息系統(tǒng)(GIS)。地理信息數(shù)據(jù)的可視化是GIS的核心功能,在日常生活中應(yīng)用十分廣泛,例如高德地圖、凱立德地圖、GPS導(dǎo)航、用戶手機(jī)信息跟蹤、汽車軌跡查詢等。

4地理信息可視化

1)

點(diǎn)地圖可視化點(diǎn)數(shù)據(jù)的基本手段是在地圖的相應(yīng)位置擺放標(biāo)記或改變該點(diǎn)的顏色,形成的結(jié)果稱為點(diǎn)地圖。點(diǎn)地圖不僅可以表現(xiàn)數(shù)據(jù)的位置,也可以根據(jù)數(shù)據(jù)的某種變量調(diào)整可視化元素的大小,例如圓圈和方塊的大小或者矩形的高度。2) 網(wǎng)絡(luò)地圖網(wǎng)絡(luò)地圖是一種以地圖為定義域的網(wǎng)絡(luò)結(jié)構(gòu),網(wǎng)絡(luò)中的線段表達(dá)數(shù)據(jù)中的鏈接關(guān)系與特征。在網(wǎng)絡(luò)地圖中,線段端點(diǎn)的經(jīng)度和緯度用來定義線段的位置,其他空間屬性可以映射成線段的顏色、紋理、寬度、填充以及標(biāo)注等可視化的參數(shù)。除此之外,線段的起點(diǎn)與終點(diǎn)、不同線段的交點(diǎn)可以用來編碼不同的數(shù)據(jù)變量。4地理信息可視化3)等值區(qū)間地圖等值區(qū)間地圖是最常用的區(qū)域地圖方法。該方法假定地圖上每個區(qū)域內(nèi)的數(shù)據(jù)分布均勻,將區(qū)域內(nèi)相應(yīng)數(shù)據(jù)的統(tǒng)計(jì)值直接映射為該區(qū)域的顏色。每個區(qū)域的邊界是封閉的曲線。等值區(qū)間地圖可視化的重點(diǎn)是數(shù)據(jù)的歸一化處理和顏色映射的方法。

5數(shù)據(jù)可視化交互

大數(shù)據(jù)可視化幫助用戶洞悉數(shù)據(jù)內(nèi)涵的主要方式有兩種:顯示和交互。這兩種方式互相補(bǔ)充并處于一個反饋的循環(huán)中??梢暬@示是指數(shù)據(jù)經(jīng)過處理和可視化映射轉(zhuǎn)換成可視化元素并且呈現(xiàn)。可視化交互是指將用戶探索數(shù)據(jù)的意圖傳達(dá)到可視化系統(tǒng)中以改變可視化顯示。數(shù)據(jù)可視化用戶界面設(shè)計(jì)中,可取多種可視化交互方式,但其核心思路是:先看全局,放大并過濾信息,繼而按要求提供細(xì)節(jié)。在實(shí)際設(shè)計(jì)中,這個模型是設(shè)計(jì)的起點(diǎn),需要根據(jù)數(shù)據(jù)和任務(wù)進(jìn)行補(bǔ)充和拓展。

5數(shù)據(jù)可視化交互

1)

探索可視化交互中的探索操作讓用戶主動尋找并調(diào)動可視化程序去尋找感興趣的數(shù)據(jù)。探索過程中通常需要在可視化中加入新數(shù)據(jù)或去除不相關(guān)的數(shù)據(jù)。例如在三維空間中可以由用戶指定更多的數(shù)據(jù)細(xì)節(jié),通過調(diào)整繪制的參數(shù),包括視角方向、位置、大小和繪制細(xì)節(jié)程度等實(shí)現(xiàn)交互調(diào)節(jié)。2)簡化或具體面對超大規(guī)模的數(shù)據(jù)可視化需要先簡化數(shù)據(jù)再進(jìn)行顯示。簡化或具體程度可以分成不同的等級。常用的得方法有下面三種。第一種,通過用戶交互改變數(shù)據(jù)的簡化程度并且在不同的層次上顯示是可視化交互中廣泛應(yīng)用的方法;第二種也是最直觀的調(diào)整數(shù)據(jù)簡化程度的方法是可視化視圖的放大或縮小操作;第三種是通過改變數(shù)據(jù)結(jié)構(gòu)或者調(diào)整繪制方法來實(shí)現(xiàn)簡化操作。

5數(shù)據(jù)可視化交互

3. 數(shù)據(jù)過濾數(shù)據(jù)過濾可以選取滿足某些性質(zhì)和條件的數(shù)據(jù),而濾除其他數(shù)據(jù)。在過濾交互過程中,除了現(xiàn)實(shí)的對象在改變外,可視化的其他元素(例如視角和顏色)均保持不變。這種可視化交互方式既減少了顯示上的重疊問題,也有利于用戶有選擇性地觀察符合某一類有共同性質(zhì)的數(shù)據(jù)。通過過濾這種數(shù)據(jù)可視化交互操作,相關(guān)數(shù)據(jù)被更好地展現(xiàn),也便于用戶觀察可視化結(jié)果中的圖案。3.6.4大數(shù)據(jù)可視化軟件和工具

在大數(shù)據(jù)可視化方面,如今用戶有大量的工具可供選用,但哪一種軟件或工具最適合,這將取決于數(shù)據(jù)的類型以及可視化數(shù)據(jù)的目的。而最有可能的情形是,將某些軟件和工具結(jié)合起來才是最適合的。大數(shù)據(jù)可視化軟件一般可以分為科學(xué)可視化、可視分析和信息可視化三個領(lǐng)域??茖W(xué)可視化領(lǐng)域包括地理信息、醫(yī)學(xué)圖像等有相應(yīng)時空坐標(biāo)的數(shù)據(jù)。如VTK、3DSlicer等。信息可視化應(yīng)用領(lǐng)域包括文本、高維多變量數(shù)據(jù)、社交網(wǎng)絡(luò)、日志數(shù)據(jù)和地理信息等大數(shù)據(jù)可視化等??梢暦治鲕浖⒅胤治龃髷?shù)據(jù)的規(guī)律和趨勢。大數(shù)據(jù)可視化軟件可以分為開源軟件和商務(wù)軟件兩種。很多大數(shù)據(jù)可視化軟件最初來源于政府資助的科學(xué)研究項(xiàng)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。