大數(shù)據(jù)管理與應(yīng)用 課件 第十三章 數(shù)據(jù)可視化_第1頁
大數(shù)據(jù)管理與應(yīng)用 課件 第十三章 數(shù)據(jù)可視化_第2頁
大數(shù)據(jù)管理與應(yīng)用 課件 第十三章 數(shù)據(jù)可視化_第3頁
大數(shù)據(jù)管理與應(yīng)用 課件 第十三章 數(shù)據(jù)可視化_第4頁
大數(shù)據(jù)管理與應(yīng)用 課件 第十三章 數(shù)據(jù)可視化_第5頁
已閱讀5頁,還剩24頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第十三章數(shù)據(jù)可視化大數(shù)據(jù)管理與應(yīng)用——主編:王剛副主編:劉婧、邵臻01可視化概述02可視化主要類型03可視化主要方法04可視化評測圖形是直觀呈現(xiàn)數(shù)據(jù)的形式,然而,將大量數(shù)據(jù)在同一個圖表中畫出來并不容易。數(shù)據(jù)可視化就是研究利用圖形展現(xiàn)數(shù)據(jù)中隱含的信息并發(fā)掘其中規(guī)律的學(xué)科。它是一門橫跨計算機、統(tǒng)計、心理學(xué)的綜合學(xué)科,并隨著數(shù)據(jù)挖掘和大數(shù)據(jù)的興起而進一步繁榮。1可視化概述可視化的歷史悠久,從最早用墻上的原始繪圖和圖像、表中的數(shù)字以及黏土上的圖像來呈現(xiàn)信息,到數(shù)據(jù)驅(qū)動時代的大數(shù)據(jù)可視化,大致可分為如圖13-1所示的8個階段:1.1可視化發(fā)展圖13-1可視化發(fā)展時間軸在計算機學(xué)科的分類中,利用人眼的感知能力對數(shù)據(jù)進行交互的可視表達以增強認知的技術(shù),稱為可視化。從宏觀的角度看,可視化包括以下三個功能:信息記錄:可視化可以將大規(guī)模的數(shù)據(jù)記錄下來,最有效的方式就是將信息成像或采用草圖記載。信息推理與分析:將信息以可視的方式呈現(xiàn)給用戶,引導(dǎo)用戶從可視化結(jié)果分析和推理出有效信息。信息傳播與協(xié)同:將復(fù)雜信息傳播與發(fā)布給公眾的最有效途徑就是將數(shù)據(jù)進行可視化,以達到信息共享、信息協(xié)作、信息修正和信息過濾等目的。1.2可視化功能數(shù)據(jù)可視化大致可分為信息可視化、科學(xué)可視化和可視化分析三大類。由于可視化類型不同,可視化分析的流程模型略有不同,本質(zhì)上還是離不開四步:分析、處理、生成、交互,如圖13-5所示。1.3可視化流程圖13-5可視化分析的流程分析:進行一個可視化任務(wù)時,首先要進行一系列分析工作,從總體上看,分析階段包括三項任務(wù):任務(wù)分析、數(shù)據(jù)分析、領(lǐng)域分析。處理:分析工作完成之后,接下來進行對數(shù)據(jù)的處理和對視覺編碼的處理兩部分工作。數(shù)據(jù)的處理包括數(shù)據(jù)清洗、數(shù)據(jù)規(guī)范和數(shù)據(jù)分析。視覺編碼處理即如何使用位置、尺寸、灰度值、紋理、色彩、方向、形狀等視覺通道,來映射要展示的每個數(shù)據(jù)維度。生成:生成可視化結(jié)果,即將視覺編碼設(shè)計運用到實踐中。從巨大的呈現(xiàn)多樣性的空間中選擇最合適的編碼形式,這也正是數(shù)據(jù)可視化的核心內(nèi)容。交互:對數(shù)據(jù)進行可視化和分析的目的是解決目標任務(wù)。通用的目標任務(wù)可分成三類:生成假設(shè)、驗證假設(shè)和視覺呈現(xiàn)。交互是通過可視的手段輔助分析決策的直接推動力。1.3可視化流程數(shù)據(jù)可視化的處理對象是數(shù)據(jù)。自然地,數(shù)據(jù)可視化包含處理科學(xué)數(shù)據(jù)的科學(xué)可視化與處理抽象的、非結(jié)構(gòu)化信息的信息可視化兩個分支。科學(xué)可視化重點探索如何有效地呈現(xiàn)數(shù)據(jù)中幾何、拓撲和形狀特征,實現(xiàn)科學(xué)數(shù)據(jù)的交互式視覺呈現(xiàn)以加強認知。信息可視化的處理對象是非結(jié)構(gòu)化、非幾何的抽象數(shù)據(jù),針對大尺度高維數(shù)據(jù)減少視覺混淆對有用信息的干擾。除此之外,將可視化與分析結(jié)合,形成一個新的學(xué)科:可視分析學(xué)。2可視化主要類型圖13-6數(shù)據(jù)可視化分支科學(xué)可視化是可視化領(lǐng)域之中最早、最成熟的一個跨學(xué)科研究與應(yīng)用領(lǐng)域。其主要關(guān)注三維現(xiàn)象的可視化,側(cè)重于利用計算機圖形學(xué)來創(chuàng)建客觀的視覺圖像,將這些學(xué)科中的數(shù)學(xué)方程等文字信息大量壓縮呈現(xiàn)在一張圖紙上,如圖13-7所示:2.1科學(xué)可視化圖13-7科學(xué)可視化視覺圖像科學(xué)可視化設(shè)計有可視化流程的參考體系模型,并運用在數(shù)據(jù)可視化的系統(tǒng)中。圖13-8是科學(xué)可視化的早期可視化流水線。這條流水線其實是數(shù)據(jù)處理與圖形繪制的嵌套組合。2.1科學(xué)可視化圖13-8科學(xué)可視化的早期可視化流水線鑒于數(shù)據(jù)的類別可分為標量(密度、溫度)、向量(風(fēng)向、力場)、張量(壓力、彌散)三類,科學(xué)可視化也可粗略地分為三類。標量指單個數(shù)值,即在每個記錄的數(shù)據(jù)點上有一個單一的值,標量場指二維、三維或四維空間中每個采樣處都有一個標量值的數(shù)據(jù)場??梢暬瘮?shù)據(jù)場的標準做法有如下表13-1所示的三種。2.1.1標量場可視化表13-1標量場可視化方法向量場在每個采樣點處都是一個向量(一維數(shù)據(jù)組)。向量場可視化主要關(guān)注點是其中蘊含的流體模式和關(guān)鍵特征區(qū)域。除了通過拓撲或幾何方法計算向量場的特征點、特征線或特征區(qū)域外,對向量場直接進行可視化的方法包括三類,如表13-2所示。2.1.2向量場可視化表13-2向量場可視化方法張量概念是矢量概念的推廣,標量可看作0階張量,矢量可看作1階張量。張量是一個可用來表示在一些矢量、標量和其他張量之間的線性關(guān)系的多線性函數(shù)。張量場可視化方法分為基于紋理、幾何和拓撲三類,如表13-3所示。2.1.3張量場可視化表13-3張量場可視化方法信息可視化是研究抽象數(shù)據(jù)的交互式視覺表示以加強人類認知。信息可視化的核心問題主要包含高維數(shù)據(jù)的可視化、數(shù)據(jù)間各種抽象關(guān)系的可視化、用戶的敏捷交互和可視化有效性的評斷等。圖13-10是由Card等提出的經(jīng)典信息可視化參考模型(ReferenceModel)。目前幾乎所有著名的信息可視化系統(tǒng)和工具包都支持這個模型,且絕大多數(shù)系統(tǒng)在基礎(chǔ)層兼容。2.2信息可視化圖13-10信息可視化參考模型信息可視化與科學(xué)可視化有所不同,科學(xué)可視化處理的數(shù)據(jù)具有天然幾何結(jié)構(gòu),如磁感線、流體分布,信息可視化處理的數(shù)據(jù)具有抽象數(shù)據(jù)結(jié)構(gòu)。兩者的區(qū)別如表13-4所示。2.2信息可視化表13-4信息可視化與科學(xué)可視化的區(qū)別可視分析學(xué)是一門以可視交互界面為基礎(chǔ)的分析推理科學(xué)。它是隨著科學(xué)可視化和信息可視化發(fā)展而形成的新領(lǐng)域,重點是通過交互式視覺界面進行分析推理??梢暦治鰧W(xué)可以被看成為將可視化、交互和數(shù)據(jù)分析集成在內(nèi)的一種新思路,如圖13-11所示。2.3可視分析學(xué)圖13-11可視分析學(xué)的學(xué)科集成從可視分析學(xué)標準流程上看,從數(shù)據(jù)到知識有兩個途徑:交互的可視化方法和自動的數(shù)據(jù)挖掘方法。這兩個途徑的中間結(jié)果分別是對數(shù)據(jù)進行交互可視化得到的結(jié)果和從數(shù)據(jù)中提煉的數(shù)據(jù)模型。如圖13-12所示,在可視分析學(xué)流程中的核心要素包括以下幾個方面:數(shù)據(jù)表示與轉(zhuǎn)換。數(shù)據(jù)的可視化呈現(xiàn)。用戶交互。分析推理。2.3可視分析學(xué)圖13-12可視化分析學(xué)標準流程視覺編碼(VisualEncoding)是數(shù)據(jù)與可視化結(jié)果的映射關(guān)系。這種映射關(guān)系可促使閱讀者迅速獲取信息,因此可以把可視化看成一組圖形符號的組合。人類解碼信息靠的是眼睛和視覺系統(tǒng),如果說圖形符號是編碼信息的工具或通道,那么視覺就是解碼信息的通道。因此,通常把這種圖形符號-信息-視覺系統(tǒng)的對應(yīng)稱作視覺通道。3.1視覺編碼圖13-13未使用顏色飽和度的效果圖圖13-14使用顏色飽和度的效果圖1967年,JacquesBertin出版的《SemiologyofGraphics》一書提出了視覺編碼與信息的對應(yīng)關(guān)系,奠定了可視化編碼的理論基礎(chǔ)。書中把圖形符號分為位置變量和視網(wǎng)膜變量。位置變量一般指二維坐標視網(wǎng)膜變量則包括尺寸、數(shù)值、紋理、顏色、方向和形狀一份具有高度可讀性的可視化圖表需要慎重選擇視覺通道的類型和數(shù)量,因為包含的視覺通道太多,會造成視覺系統(tǒng)的混亂。表13-5總結(jié)出上述七種視覺編碼及應(yīng)用場景。通過以上總結(jié)可以看到不同視覺編碼擅于處理的數(shù)據(jù)是不同的。結(jié)合不同的數(shù)據(jù)類型總結(jié)出視覺通道的三個性質(zhì)。定性性質(zhì)或分類性質(zhì)定量性質(zhì)或定序性質(zhì)分組性質(zhì)3.1視覺編碼3.1視覺編碼表13-5視覺編碼及應(yīng)用場景統(tǒng)計圖表是最早的數(shù)據(jù)可視化形式之一,作為基本的可視化元素仍然被非常廣泛地使用。對于很多復(fù)雜的大型可視化系統(tǒng)來說,其作為基本的組成元素而不可缺少。按照所呈現(xiàn)的信息和視覺復(fù)雜程度可將其分為三類:原始數(shù)據(jù)繪圖、簡單統(tǒng)計值標繪、多視圖協(xié)調(diào)關(guān)聯(lián)。原始數(shù)據(jù)繪圖是指利用可視化原始數(shù)據(jù)的屬性值,直接呈現(xiàn)數(shù)據(jù)特征。常見的圖表有柱狀圖、走勢圖、餅圖、散點圖和散點圖矩陣、熱力圖等。簡單統(tǒng)計值標繪是指利用簡單統(tǒng)計值標繪的最經(jīng)典的圖形便是盒須圖。走勢圖通常以折線圖為基礎(chǔ),使用高密度集的折線圖表達方式展示數(shù)據(jù)隨某一變量的變化趨勢。多視圖協(xié)調(diào)關(guān)聯(lián)是將不同種類的繪圖組合起來,每個繪圖單元可以展現(xiàn)數(shù)據(jù)某個方面的屬性,并且通常允許用戶進行交互分析,提升用戶對數(shù)據(jù)的模式識別能力。3.2統(tǒng)計圖表可視化方法圖可視化是指將圖數(shù)據(jù)通過計算機圖形學(xué)和圖像處理技術(shù),轉(zhuǎn)化成圖形或圖像,完成信息展示、交互等功能。圖可視化作為信息可視化的子領(lǐng)域,它通過展示元素、關(guān)系,幫助用戶獲取數(shù)據(jù)的洞悉能力。已被廣泛地應(yīng)用在流程圖、社交網(wǎng)絡(luò)、英特網(wǎng)、蛋白質(zhì)網(wǎng)絡(luò)等關(guān)系數(shù)據(jù)的呈現(xiàn)。最常用的布局方法主要包括節(jié)點鏈接法(NodeLink)、鄰接矩陣法(AdjacencyMatrix)、混合布局法(HybridLayout)三類。三者之間沒有絕對的優(yōu)劣,在實際應(yīng)用中針對不同的數(shù)據(jù)特征以及可視化需求選擇不同的可視化表達方式。3.3圖可視化方法節(jié)點鏈接法具體表現(xiàn)為頂點表示信息實體,邊表示信息實體間的關(guān)聯(lián)關(guān)系。這樣的表達清晰直接,具有較高的可讀性,方便用戶理解,是最直接的一種可視化方法。節(jié)點鏈接法因其能夠?qū)W(wǎng)絡(luò)結(jié)構(gòu)、用戶交互關(guān)系進行明朗的表達,因此,在網(wǎng)絡(luò)數(shù)據(jù)可視化領(lǐng)域得到了主要應(yīng)用。3.3.1節(jié)點鏈接法圖13-26弧長鏈接圖繪制人物圖譜圖13-25力引導(dǎo)布局繪制的人物圖譜鄰接矩陣法的主要思想是用一個N×N的矩陣來表示網(wǎng)絡(luò)中的各頂點及頂點關(guān)系。矩陣中的一行一列對應(yīng)一個信息實體,矩陣的位置(i,j)描述了第i個信息實體和第j個信息實體之間的關(guān)系。相鄰矩陣法能很好地表達一個兩兩關(guān)聯(lián)的網(wǎng)絡(luò)數(shù)據(jù)(即完全圖)。鄰接矩陣法的另一個優(yōu)點就是能夠利用矩陣形式,清楚的表達網(wǎng)絡(luò)關(guān)系的方向性。鄰接矩陣的自身性質(zhì)決定了其可視化效果往往具有稀疏性,空間利用率不高。通常采用高維嵌入方法和最近鄰旅行商問題估計方法對稀疏的鄰接矩陣進行排序??偟膩碚f,鄰接矩陣法解決了布局不均勻,邊與邊可能交叉的問題,適用于深層次的挖掘。但在對網(wǎng)絡(luò)結(jié)構(gòu)、網(wǎng)絡(luò)關(guān)系的表達上不夠清晰明朗。而且,一旦網(wǎng)絡(luò)結(jié)構(gòu)中的頂點數(shù)目規(guī)模較大時,鄰接矩陣就不能保證在有限的屏幕空間將所有的頂點清晰的表達。3.3.2鄰接矩陣法混合布局法綜合了節(jié)點鏈接法以及鄰接矩陣法兩種方法,因此混合布局法又被成為點陣法。如圖13-28所示,使用混合布局法對信息可視化學(xué)術(shù)圈學(xué)者合作關(guān)系進行可視化。3.3.3混合布局法圖13-28利用混合布局法對信息可視化學(xué)術(shù)圈學(xué)者合作關(guān)系可視化隨著可視化技術(shù)的不斷豐富和成熟,對可視化方法的評估變得越來越重要。一方面,有必要對新方法進行評估,從而確認其優(yōu)越性及適用范圍。另一方面,可視化的推廣和應(yīng)用需要用戶的信心,對可視化的有效評估有助于用戶認識到可視化的作用,進而在專業(yè)領(lǐng)域里接受和使用可視化。但是現(xiàn)階段,由于嚴格的評測費時費力,研究者更專注于研發(fā)新的可視化技術(shù),因此測評在可視化研究

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論