版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第
1
章
數據可視化概述本章主要內容數據可視化的內涵和意義數據可視化的發(fā)展歷史數據可視化的應用數據可視化的挑戰(zhàn)可視化分析與編程工具1. 數據可視化的內涵和意義人眼是一個高帶寬的巨量視覺信號輸入并行處理器,最高帶寬為每秒100MB,具有很強的模式識別能力,對可視符號的感知速度比對數字或文本快多個數量級,且大量的視覺信息的處理發(fā)生在潛意識階段。視覺是獲取信息的最重要通道,超過50%的人腦功能用于視覺的感知,包括解碼可視信息、層次可視信息處理和思考可視符號。可視化對應兩個英文單詞:VISUALIZE
和VISUALIZATIONVISUALIZE是動詞,意即“生成符合人類感知”的圖像;通過可視元素傳遞信息。VISUALIZATION是名詞,表達“使某物、某事可見的動作或事實”;對某個原本不可見的事物在人的大腦中形成一幅可感知的心理圖片的過程或能力。VISUALIZATION,也可以用于表達對某目標進行可視化的結果,即一幀圖像或動畫。利用人眼的感知能力對數據進行交互的可視表達以增強認知的技術,稱為可視化。它將不可見或難以直接顯示的數據轉化為可感知的圖形、符號、顏色、紋理等,增強數據識別效率,傳遞有效信息。表. 4個二維數據點集單維度均值、最小二乘法回歸線方程、誤差的平方和、方差的回歸和、均方誤差的誤差和、相關系數等統(tǒng)計屬性均相同可視化是認知的過程,即形成某個物體的感知圖像,強化認知理解??梢暬慕K極目的是對事物規(guī)律的洞悉。包含多重含義:發(fā)現、決策、解釋、分析、探索和學習。可視化可簡明地定義為“通過可視表達,增強人們完成某些任務的效率”??梢暬淖饔眯畔⒂涗泴π畔⒌耐评砗头治鲂畔鞑ヅc協同抽象Harry
Beck,1933數據可視化分類科學可視化(Scientific
Visualization)信息可視化(Information
Visualization)
面向的領域主要是自然科學,如物理、化學、氣象氣候、航空航天、醫(yī)學、生物學等各個學科。這些學科通常需要對數據和模型進行解釋、操作與處理,旨在尋找其中的模式、特點、關系以及異常情況。
數據通常表達在三維或二維空間,或包含時間維度??茖W可視化(Scientific
Visualization)數據的類別可分為:標量(密度、溫度)向量(風向、力場)張量(壓力)科學可視化也可粗略地分為標量場可視化、向量場可視化、張量場可視化三類??茖W可視化(Scientific
Visualization)信息可視化(Information
Visualization)處理的對象是抽象的數據集合(如文本、圖表、層次結構、地圖、軟件、復雜系統(tǒng)等)更關注抽象、高維數據。
1.時空數據可視化
對于地理信息數據可視化來說,合理地選擇和布局地圖上的可視化元素,從而呈現盡可能多的信息是關鍵。時變數據通常具有線性和周期性兩種特征,需要依此選擇不同的可視化方法。
2.層次與網絡結構數據可視化
人與人之間的關系、城市之間的道路連接、科研論文之間的引用都組成了網絡。通常使用點線圖來可視化,如何在空間中合理有效地布局節(jié)點和連線是可視化的關鍵。
3.文本和跨媒體數據可視化
隨著網絡媒體,特別是社交媒體的迅速發(fā)展,每天都會產生海量的文本數據,人們對于視覺符號的感知和認知速度遠遠高于文本。
4.多變量數據可視化現實世界中復雜問題和對象的數據通常是多變量的高維數據,數據降維到低維度空間,使用相互關聯的多視圖同時表現不同維度等等??梢暦治鰧W(Visual
Analytics)是一門綜合性學科:在可視化方面,有信息可視化、科學可視化與計算機圖形學;與數據分析相關的領域:信息獲取、數據處理和數據挖掘;在交互方面,人機交互、認知科學和感知等學科融合。圖. 可視分析學涉及的學科科學可視化的研究重點是帶有空間坐標和幾何信息的醫(yī)學影像數據、三維空間信息測量數據、流體計算模擬數據等。由于數據的規(guī)模通常超過圖形硬件的處理能力,所以如何快速地呈現數據中包含的幾何、拓撲、形狀特征和演化規(guī)律是其核心問題。隨著圖形硬件和可視化算法的迅猛發(fā)展,單純的數據顯示已經得到了較好的解決。信息可視化的核心問題主要有高維數據的可視化、數據間各種抽象關系的可視化、用戶的敏捷交互和可視化有效性的評斷等。可視分析將可視化、人的因素和數據分析集成在內。感知與認知科學研究人在可視分析學中的重要作用數據管理和知識表達是可視分析構建數據到知識轉換的基礎理論地理分析、信息分析、科學分析、統(tǒng)計分析、知識發(fā)現等是可視分析學的核心方法;人機交互必不可少,用于駕馭模型構建、分析推理和信息呈現等整個過程;可視分析流程中推導出的結論與知識最終需要向用戶表達和傳播。可視分析偏重于從各類數據綜合、推理出知識。其實質是完成機器智能和人腦智能的雙向轉換,整個探索過程是迭代的、螺旋式的上升過程??梢暦治?. 數據可視化的發(fā)展歷史十六世紀:Early
Maps
&
Diagrams(萌芽時期)人類已經掌握了精確的觀測技術和設備,也采用手工方式制作可視化作品。公元前6200年的人類地圖圖片來源:http://www.math.yorku.ca/SCS/Gallery/imagesloldest-
map.jpg圖片來源:http://www.math.yorku.ca/SCS/Gallery/images/peutinger335-366.jpg人類歷史上第一幅城市交通圖呈現了羅馬城的交通狀況十七世紀:Measurement
&
Theory(成長時期)對物理基本量(時間、距離和空間)的測量設備與理論完善,被廣泛用于航空、測繪、制圖、國土勘探等。制圖學理論與實踐也隨著分析幾何、測量誤差、概率論、人口統(tǒng)計和政治版圖的發(fā)展而迅速成長。產生了基于真實測量數據的可視化方法開始了可視化思考的新模式誕生于1626年表達太陽黑子隨時間變化的圖。在一個視圖上同時可視化多個小圖序列是現代可視化技術中郵票圖表法(
small
multiples
)
的雛形。圖片來源:
http:J/content/m11970/latest/tres_epistolae.gif圖片來源:http://www.math.yorku.ca/SCS/Gallery/images/halley1866a-1.jpg1686年繪制的歷史上第一幅天氣圖,顯示了地球的主流風場分布。這也是向量場可視化的鼻祖。十八世紀:
NewGraphicForms(發(fā)展時期)發(fā)明了新的圖形化形式(等值線、輪廓線)包含地理,經濟和醫(yī)學數據信息的概念圖產生創(chuàng)造了新穎的視覺形式來描繪經濟和政治方面的真實數據大多數這些新圖形形式出現在發(fā)行量有限的出版物中,在這一時期并沒有引起廣泛關注。1701年繪制的人類歷史第一幅等值線圖圖片來源:http://www.math.yorku.ca/SCS/Gallery/images/palsky/halley-
map.jpg;1758年Lambert完成的三維金字塔顏色系統(tǒng)可視化圖片來源:http:/lirtel.uni-mannheim.de/colsys/Lambcrt..html圖片來源:http://www.math.yorku.ca/SCS/Gallery/images/priestley.gif1765年JosephPriestley發(fā)明的時間線圖采用了單個線段表現某個人的一生同時比較了公元前1200年到公元1750年間2000個著名人物的生平。這幅作品直接激發(fā)了柱狀圖的誕生。18世紀是統(tǒng)計圖形學的繁榮時期,蘇格蘭工程師、政治經濟學家William
Playfair是統(tǒng)計制圖法的創(chuàng)始人,他創(chuàng)造了折線圖、柱狀圖、餅圖、面積圖等今天使用最頻繁的統(tǒng)計圖,并且堅信圖表比數據更有表現力。William
Playfair作品:丹麥和挪威1700—1780年間的貿易進出口序列圖圖片來源:/wiki'William_Playfair世界上第一幅餅圖顯示了1789年土耳其帝國在亞洲、歐洲和非洲的疆土比例圖片來源:
http://www.math.yorku.ca/SCS/Gallery/images/Lambert1765-evaporation.jpg德國物理學家Lambert用于表達水的蒸發(fā)和時間之間的關系的線圖可視化。圖片來源:
http://www.math.yorku.ca/SCS/Gallery/images/Lambert1765-evaporation.jpg十九世紀:1800-1849年,
Modern
Period(現代時期)統(tǒng)計圖形、概念圖等呈爆炸式增長關于社會、地理、醫(yī)學和經濟的統(tǒng)計數據越來越多衍生了可視化思考的新方式:圖表用于表達數學證明和函數;列線圖用于輔助計算;各類可視化顯示用于表達數據的趨勢和分布,便于交流、獲取和可視化觀察。Playfair繪制的??價格與?資時間序列圖、柱形圖。圖片來源:
http://www.datavis.ca/milestones/1837年第?幅流圖,以可變寬度的線段顯示了交通運輸的軌跡和乘客數量。圖片來源:http://www.math.yorku.ca/SCS/Gallery/images/
harness-flow.gif19世紀下半葉(1850-1899年),系統(tǒng)地構建可視化方法的條件日漸成熟,進入了統(tǒng)計圖形學的黃金時期
(Golden
Age)
。認識到數字信息對于社會計劃、工業(yè)化,商業(yè)和運輸的重要性日益提高,統(tǒng)計理論擴展到社會領域。法國工程師查爾斯?約瑟夫?米納德(CharlesJosephMinard)
,是將可視化應用于工程和統(tǒng)計的先驅者。其最著名的工作是1869年發(fā)布的描繪拿破侖進軍莫斯科大敗而歸的歷史事件的流圖,該圖被譽為有史以來最好的統(tǒng)計可視化。圖片來源:/wikipedia/commons/2/29/Minard.png1812——1813年拿破侖進軍莫斯科的歷史事件的流圖米納德在這一幅平面圖,呈現了6
個維度的信息:1.軍隊人數2.距離3.溫度4.經緯度5.移動方向6.時‐地關系南丁格爾“玫瑰圖(極區(qū)圖)”圖.
南丁格爾弗洛倫斯?南丁格爾(1820年5月12日~1910年8月13日)是世界上第一個真正意義上的女護士,被譽為現代護理業(yè)之母。5.12國際護士節(jié)就是為了紀念這一天是南丁格爾的生日除了在醫(yī)學和護理界的輝煌成就,南丁格爾還是一名優(yōu)秀的統(tǒng)計學家——她是英國皇家統(tǒng)計學會的第一位女性會員,也是美國統(tǒng)計學會的會員。南丁格爾早期大部分聲望都來自其對數據清楚且準確的表達。她認為醫(yī)學統(tǒng)計資料有助于改進醫(yī)療護理的方法和措施。在她編著的各類書籍、報告等材料中使用了大量的統(tǒng)計圖表,其中最為著名的就是極區(qū)圖,也叫南丁格爾玫瑰圖。???1854年4月~1855年3月圖片來源:
http://www.datavis.ca/milestones/1855年4月~1856年3月東部軍隊死亡原因示意圖(1854-1856)生動有力的說明了在戰(zhàn)地開展醫(yī)療救護和藍色促代進表傷可預兵防醫(yī)和療可工緩作解的的疾病治療不必及要時性造。成的死亡紅
色打代動表了戰(zhàn)場當陣局亡者,增加黑色了代戰(zhàn)表地其他醫(yī)死院亡,原改因善。了軍隊醫(yī)院的條件,為圖表各挽個救扇區(qū)士角兵度生相命同做,出用了半徑及扇區(qū)面巨積大來貢表獻示”死亡。人數。圖1-3 極區(qū)圖:Facebook
vs.
推特英國麻醉學家、流?病學家John
Snow繪制的1854年倫敦霍亂地圖。該圖?次結合了地圖和疾病數據?,F代黑暗時期很少有圖形創(chuàng)新應?和普及的時期第?次使?圖形?法來提供有關天?、物理、?物和其他學科的新發(fā)現和新理論開始對各種圖形形式的效率進?實驗?較二十世紀: 1900-1949年:
Modern
Dark
Age1904年關于太陽黑子隨時間擾動的蝴蝶圖驗證了太陽黑子的周期性1957年發(fā)明的圓形圖標,采用線段及其朝向編碼多維數據。圖片來源:http://www.math.yorku.ca/SCS/Gallery/images/dan/anderson_glyphs2.jpJacques
Bertin提出的七個視覺變量,給出了完備的圖形符號和表示理論。針對點(Point
)、線(Line)和區(qū)域(Area)數據采用不同視覺通道的圖形符號表示方案。圖片來源:http://www.math.yorku.ca/SCS/Gallery/images/bertin-ve.jpg圖.
1973年Herman
Chernoff發(fā)明的表達多變量數據的臉譜編碼?液化學數據使?計算機軟件Biplot進?的可視化圖.JohnHartigan發(fā)明的散點圖矩陣圖.
1975年統(tǒng)計圖形學家發(fā)明的增強型散點圖1991年Ben
Shneideman教授發(fā)明的樹圖,?級聯嵌套的平?化樹狀結構表達層次結構。1994年施樂公司創(chuàng)造的表格透鏡技術進入21世紀,現有的可視化技術已難以應對海量、高維、多源和動態(tài)數據的分析挑戰(zhàn),需要綜合可視化、圖形學、數據挖掘理論與方法,研究新的理論模型、新的可視化方法和新的用戶交互手段,輔助用戶從大尺度、復雜、矛盾甚至不完整的數據中快速挖掘有用的信息,以便做出有效決策。3.
數據可視化的應用斯坦福大學生物工程和精神病學負責人Karl
Deisseroth說:“以分子水平和全局范圍觀察整個大腦系統(tǒng),曾經一直都是生物學領域一個無法實現的重大目標”??梢暬到y(tǒng)在探索性任務(例如包含大數據量信息)中有突出的表現,它可以幫助用戶從大量的數據空間中找到關注的信息來進行詳細分析。醫(yī)學可視化工程可視化表意性可視化地理氣象信息可視化政治社會領域可視化商業(yè)智能可視化數據可視化的應用4.
數據可視化的挑戰(zhàn)(1)導入和清理數據。決定如何組織輸入數據以獲得期望的結果,它所需要的思考和工作經常比預期的多。(2)把視覺表示與文本標簽結合在一起。視覺表示是強有力的,有意義的文本標簽起到很重要的作用。(3)查找相關信息。經常需要多個信息源來做出有意義的判斷。(4)集成數據挖掘。信息可視化和數據挖掘起源于兩條獨立的研究路線。研究人員正在逐漸把這兩種方法結合在一起。(5)與他人協同。發(fā)現是一個復雜的過程,它依賴于知道要尋找什么、通過與他人協同來驗證假設、注意異常和使其他人相信發(fā)現的意義。(5)實現普遍可用性。當可視化工具打算被公眾使用時,必須使該工具可被多種多樣的用戶使用而不管他們的生活背景、工作背景、學習背景或技術背景如何。(6)評估。分析很少是一個孤立的短期過程,用戶可能需要長期從不同視角察看相同的數據。5可視化分析與編程工具bleau(1)TaTableau
(http://
www.
tableausoftware.
com)是可視化領域標桿性的商業(yè)智能分析軟件,起源于美國斯坦福?學的科研成果,其設計?標是以可視的形式動態(tài)呈現關系型數據之間的關聯,并允許?戶以所?即所得的?式完成數據分析和可視圖表和報告的創(chuàng)建。Tableau軟件最吸引?的特點在于,?戶?需掌握?深的技術或任何編程技能便可以上?操作。該?具已經引起了來?各?各業(yè)的?們的興趣,?如咨詢、?融、通信、媒體、?科技、制造業(yè)、能源、體育、科研機構等等。Python指?種?向對象、解釋型的計算機程序設計語?,是?種功能強?的通?型語?,具有近??年的發(fā)展歷史,成熟且穩(wěn)定。它包含?組完善?且容易理解的標準庫,能夠輕松完成很多常?的任務。Python的NumPy、SciPy庫能夠???焖俸?便地操作?量數據、進?科學計算,Matplotlib庫能夠以簡潔的代碼繪制出漂亮的圖形。(2)
Python(3)
其他可視化工具ExcelGpreadsheetsoogle
S谷歌版的Excel,但用起來更容易,而且是在線的??梢酝ㄟ^內置的聊天和實時編輯功能進行協作。通過importHTML和importXML
函數,可以從網上導入HTML和XML文件。(1)TileMill。自定義地圖的制作難度較大且技術性強,然而現在已經有多種程序能夠基于自己的數據、按喜好和需求設計地圖。地圖平臺MapBox提供的TileMill就是一款開源的桌面軟件,有不同平臺的多個版本。(2)ImagePlot。加州電信學院軟件研究實驗室的ImagePlot能將大規(guī)模圖像集合作為一組數據點來進行探索。例如,可以根據顏色、時間或數量來繪制圖形,從而展現某位藝術家或某一組照片的發(fā)展趨勢與變化。針對特定數據的工具(3)樹圖。馬里蘭大學人機交互實驗室的交互式軟件是最早的,可以免費使用。樹圖對于探索小空間中的層次式數據非常有用。Hive小組還開發(fā)并維護了一款商用版本。(4)indiemapper。這是地圖制作小組AxisMaps提供的一個免費服務。與TileMill類似,它支持創(chuàng)建自定義地圖以及用自己的數據制圖,但它運行在瀏覽器中,而不是作為桌面客戶端軟件運行。indiemapper使用簡單,并且有大量的示例幫助起步??梢苑奖愕刈儞Q地圖投影,找出最適合自己需要的投影方式。(5)GeoCommons。其與indiemapper類似,但更專注于數據的探索和分析。你可以上傳自己的數據,也可以從GeoCommons數據庫中抽取數據,然后與點和區(qū)域進行交互。還可以將數據以多種常見的格式導出,以便導入其他軟件。(6)ArcGIS。在新的地圖工具出現之前,對大數人來說,AreGIS都是首選的地圖工具。ArcGIS是個特性豐富的平臺,幾乎能做與地圖有關的任何事情。大多數時候,基本功能已經足夠,因此最好還是先嘗試一下免費選項,如果不夠用,再嘗試ArcGIS。(7)Gephi。是一款跨平臺的基于JVM的復雜網絡分析軟件,其主要用于各種網絡和復雜系統(tǒng),幫助用戶創(chuàng)建動態(tài)的層次豐富的圖表。Gephi自稱是“開放的圖表及可視化平臺”
,起創(chuàng)于2009年的一個大學生項目,已迅速成為一個頗具價值的開源軟件資源。支撐用戶創(chuàng)建檢驗假設、深入探尋模式以及觀測異常值、偏差值??梢詫ephi想象成統(tǒng)計輔助工具(能跟R進行整合)。(8)Timeflow。用于分析時間數據的開源可視化工具,由
Sarah
Cohen(杜克大學)于
2010
年創(chuàng)建。TimeFlow
有一套強大的工具用于過濾和聚合數據。該程序提供了四種不同的顯示視圖:標準時間線、表格、條形圖和交互式日歷??沙坦ぞ咭暬帹C JavaScript、HTML和CSS隨著瀏覽器的速度越來越快,可視化開始借助HTML
、JavaScript和CSS代碼在瀏覽器中展示。具有很大的靈活性,可以做出用戶想要的各種效果。JavaScript具有很多進行可視化的庫,例如D3.js、Echarts、Recharts、ApexCharts等。D3.js
。處理基于數據文檔的JavaScript
庫。利用諸如HTML
、Scalable
Vector
Graphic以及Cascading
Style
Sheets等編程語言讓數據變得更生動。通過對網絡標準的強調,D3賦予用戶當前瀏覽器的完整能力。提供的基于數據的DOM操作(文檔對象模型,Document Object
Model)不僅提供了極大的靈活性,同時避免了面向不同類型和任務設計專用可視表達的負擔。Echarts:是基于JavaScript的開源數據可視化圖表庫。可以流暢的運行在PC端和移動設備上,兼容當前絕大部分瀏覽器(IE8/9/10/11,Chrome,Firefox,Safari等),底層依賴矢量圖形庫ZRender,提供直觀、豐富、可高度個性化定制的圖表,并且支持圖與圖之間的混搭。Echarts開源且使用簡單,官網有豐富的API及文檔說明。R語言。由新西蘭奧克蘭大學Ross
Ihaka和Robert
Gentleman開發(fā)的R是一個用于統(tǒng)計學計算和繪圖的語言,它已超越僅僅是流行的強有力開源編程語言的意義,成為統(tǒng)計計算和圖表呈現的軟件環(huán)境,并且還處在不斷發(fā)展的過程中。圖
R繪制的數據分析圖形Processing。它原本是為美工設計的,它是一種開源的編程語言,基于素描本(sketchbook)這一隱喻來編寫代碼。只需要幾行代碼就能實現非常有用的功能。此外,它還有大量的示例、庫、圖書以及一個提供幫助的巨大社區(qū)。PHP。是比R語言和Processing應用更為廣泛的編程語言。PHP主要用于Web編程,大多數Web服務器都已經安裝了PHP。PHP
有圖形庫,可以把它應用于數據的可視化。結論:交互式可視化工具如Tableau、PowerBI、FineBI等可能僅需要用戶掌握軟件使用方法,難度較小,容易上手,但同時也不夠靈活,功能有限。適用于用戶缺少編程基礎、數據相對簡單、任務需求比較直接的應用場景。編程式可視化工具較難學習,但提供可以更多的靈活性和選項??梢宰龀龈玫淖髌贰_m用于任務難度高,數據復雜的場景。配置式可視化工具如Echarts,需要使用人員具有一定基礎編程能力,一般是通過用戶傳入特定的配置選項來完成既定的可視化形式。適用于稍復雜的場景,任務為中等復雜度。第二章 數據可視化的理論基礎主要內容視覺感知和認知格式塔理論視覺通道色彩1.視覺感知什么是視覺感知?視覺感知感知是指客觀事物通過人的感覺器官在人腦中形成的直接反映感覺器官眼、耳、鼻、神經末梢那么,視覺感知就是客觀事物通過人的視覺在人腦中形成的直接反映感知:關于輸入信號的本質;看見的東西認知:關于怎樣理解和解釋看到的東西什么是認知?認知認知心理學將認知過程看成由信息的獲取、分析、歸納、解碼、儲存、概念形成、提取和使用等一系列階段組成的按一定程序進行的信息加工系統(tǒng)??茖W領域中,認知是包含注意力、記憶、產生和理解語言、解決問題,以及進行決策的
心理過程
的組合。“當人們觀察事物時,人們所看到的依賴于事物本身是什么。將事物看做什么,取決于人們對看到的事物了解多少?!薄癡isualizationisreallyaboutexternalcognition,thatis,howresourcesoutsidethemindcanbeusedtoboostthecognitivecapabilitiesofthe
mind.”Stuart
Card可視化致力于外部認知,也就是說,怎樣利用大腦以外的資源來增強大腦本身的認知能力。有多少黑點交叉點上的黑色圓點在跳躍變化相對性&絕對性感知系統(tǒng)基于相對判斷,而非絕對判斷(Weber’sLaw)無線框未對齊有線框未對齊ABABAB無線框A和B那一個更高?相對性&絕對性感知系統(tǒng)基于相對判斷,而非絕對判斷(Weber’sLaw)A和B哪一個更亮?2.格式塔理論最大的特點是強調研究心理對象的整體性整體性思想的核心是有機體或統(tǒng)一的整體大于各部分單純相加之和。整體論思想最早出現在古希臘和古羅馬時代,但真正體現是在黑格爾(G.W.F.
Hegel)的哲學之中。黑格爾用有機體的整體論來解釋人類的歷史,認為人類歷史的基本單位是國家和民族,歷史事件不能簡單還原為個人行為。Wolgang
K?hler1887‐1967Kurt
Koffka1886-1941Max
Wertheimer1880-1943為什么我們在觀看事物的時候會把一部分當做前景,其余部分當做背景?為什么我們能區(qū)分形狀?什么形狀是好的?格式塔(gestalt)原則接近(或鄰近)原則相似原則封閉(閉合)原則連續(xù)原則簡單原則6.共勢原則7.好圖原則對稱原則經驗原則
1.接近(或鄰近)Proximity兩個對象在空間或時間上比較接近或鄰近時,則這兩個對象就傾向于被一起感知為一個整體。
刺激物的形狀、大小、顏色、強度等物理屬性方面比較相似時,這些刺激物就容易被組織起來而構成一個整體。主體在感知物體時有一種能自行填補缺口使其閉合將其知覺為一個整體的傾向。
我們傾向于完整地連接一個圖形,而不是觀察殘缺的線條或形狀。人們對一個復雜對象進行知覺時,如沒有特殊要求,常常傾向于把對象看作是有組織的簡單的規(guī)則圖形。6.共勢原則(common
fate)
如果一組物體沿著相似的光滑路徑有運動趨勢或具有相似的排列模式,人們會將他們識別為同一物體。從一堆字符中認知語句7.好圖原則(Good
Figure)
好圖原則指人眼通常會自動的將一組物體按照簡單、規(guī)則、有序的元素排列方式識別。即個體識別世界的時候通常會消除其中的復雜性和不熟悉性,采納最簡化的形式。上:奧運環(huán);下:
割裂的圓環(huán)。8.對稱原則(Symmetry)
人的意識傾向于將物體識別為沿某點或某軸對稱的形狀。某國男女人口隨年齡的分布情況9.
經驗原則(Past
Experience)
是指在某些情形下,視覺感知與過去的經驗有關。如果兩個物體看上去距離相近,或者時間間隔小,那么它們通常被識別為同一類。3.視覺通道可視化編碼將數據信息以可視化視圖呈現,其核心內容是可視化編碼,它是將數據信息映射成可視化元素的技術。可視化編碼由幾何標記(圖形元素)和視覺通道兩部分組成。
幾何標記:可視化中標記通常是一些幾何圖形元素,例如:點、線、面、體。
視覺通道:用于控制幾何標記的展示特性,為標記提供視覺特征,包括標記的位置、大小、形狀、方向、色調、飽和度、亮度等。視覺通道的類型
定性(分類)的視覺通道:如形狀、顏色的色調、空間位置。
定量(連續(xù)、有序)的視覺通道:如直線的長度、區(qū)域的面積、空間的體積、斜度、角度、顏色的飽和度和亮度等。視覺通道的特性空間位置尺寸顏色亮度飽和度色調配色方案透明度方向形狀紋理動畫空間
三維:虛擬現實……。是放置所有可視化元素的容器??梢允牵?/p>
一維:溫度計……。設計和結構簡單。
二維:手機、電視……最常見。和人類視覺的生理構造相對應。通常采用平面像素而不是三維像素成像,通過跟蹤用戶位置和視角不斷更新,讓用戶產生置身于現實三維環(huán)境中的感受。位置
既可以用于編碼分類的數據屬性,又可以編碼定序或者定量的數據屬性的視覺通道。如果是平面上的接近性,還可以參與分組。
平面位置的兩個可以分離的視覺通道是水平位置和垂直位置。尺寸尺寸是定量或定序的視覺通道,適合編碼有序的數據屬性。長度是一維的尺寸,包括垂直尺寸和水平尺寸,即高度和寬度。面積是二維的尺寸。體積是三維的尺寸。維度越高判斷越來越不準確。顏色最復雜的,也是可以編碼大量數據信息的視覺通道之一。
亮度
(明度)
(Brightness)
(定量或定序)
飽和度
(彩度)
(Saturation)
(定量或定序)
色調
(Hue)
(定性或分類)配色方案
關系到信息表達和美觀??梢詰靡恍┸浖诰€配色,比如:
ColorBrewer配色系統(tǒng):
/
Adobe的Kuler配色系統(tǒng):
/zh/create方向紋理
紋理被認為是多種視覺變量的組合,包括形狀、顏色和方向。(1)形狀組成紋理。(2)顏色是紋理中每個像素點的顏色。(3)方向是紋理中形狀和顏色的旋轉變化。
二維應用:不同的數據范圍或者分布。
三維應用:一般作為幾何物體的屬性,表示高度、頻率、方向等。動畫指由計算機生成的連續(xù)播放的靜態(tài)圖像所形成的動態(tài)效果的圖畫作品。利用人的視覺殘留現象,產生視覺動感。視覺通道主要是:運動的方向(編碼定性的數據屬性)運動的速度(編碼定量的數據屬性)閃爍的頻率等(編碼定量的數據屬性)特點:完全吸引了人的注意力,觀察其中的非動畫部分非常困難。精確性(準確編碼數據包含的所有信息,要盡量忠于原始數據)可辨性可分離性視覺突出視覺通道的表現力和有效性精確性
研究表明,人類感知系統(tǒng)對于不同的視覺通道感知精確性是不同的。
美國心理物理學家史蒂文斯在1953年提出了心理物理學定律,也稱作“史蒂文斯冪次法則”。該定律認為,感覺量的大小與刺激量的乘方成正比,也即心理量是物理量的冪函數。用公式表示為:
S=K·I^n其中S為心理量,K為常數,I為物理量,n因不同的感覺而異。下表為史蒂文斯冪次法則所描述的一些視覺通道的冪次。表示了視覺通道的實際變化量與人類主觀感知存在的聯系。視覺通道亮度面積長度灰對比度冪次0.50.71.01.2表
不同視覺通道對應的n值視覺通道感知的精確性將影響可視化結果對數據信息傳遞的準確性,因此在表達定量數據的時候,通常采用一端對齊射線的長度或柱狀圖的高度進行表示??杀嫘?/p>
視覺通道可以有不同的取值范圍,調整取值范圍能讓人們區(qū)分該視覺通道的狀態(tài),便于辨認。圖
使用直線寬度編碼流量可分離性
在同一可視化結果中,多個視覺通道的存在可能會影響到用戶的正確感知。視覺突出
是指在很短時間內(200
~
250ms),人們可以僅僅依賴感知的前向注意力來直接發(fā)覺某一對象的不同。具有高表現力的視覺通道用于更重要的數據屬性編碼!圖.
視覺通道的表現力排序表現力從高到低第3章
數據的理解與分析本章主要內容數據基礎數據特征數據預處理數據存儲數據分析3.1
數據基礎3.1.1
數據屬性是一個數據字段,數據對象的特征(Characteristics)或特性(feature).數據對象中往往包含一個或多個屬性。別名:特征維度變量3.1.2
屬性類型類別型屬性:?于區(qū)分不同數據對象的名稱或符號。屬性類型有序型屬性:按照一定的意義排列順序。屬性類型數值型屬性:是可度量的量,?整數或實數值表示。例如?度、重量、體積、溫度等常?物理屬性。離散型和連續(xù)型離散型屬性的取值來?有限或可數的集合,例如等級,?檔單詞,郵政編碼等。連續(xù)型屬性則對應于實數域,例如?度,溫度和濕度等。3.2
數據特征3.2.1
基本統(tǒng)計描述數據的宏觀表達。把握數據的全貌,了解數據的分布狀況,探索式數據分析的基礎。樣本數據的基本統(tǒng)計特征分為三類:集中趨勢度量:
表示數據的集中位置,尋找數據中的中?值或者代表值,主要有均值、中位數、眾數等。離中趨勢度量:表示數據的分散程度,反映了數據遠離中?值的程度,描述?組數據的波動性,主要有標準差、極差、四分位數、四分位數極差、變異系數等。數據分布形態(tài):
主要有偏態(tài)和峰態(tài)?;窘y(tǒng)計描述均值方差
方差用來衡量所有樣本點偏離均值的程度。標準差是方差的平方根。??
=1??iI
?? -???2ni=1中位數
指樣本按從小到大排列后處于中間位置上的值。
中位數依賴數據的排序位置確定,而不是使用全部數據求得,因而會損失部分數據信息,但它較少受到極端異常值影響。百分位數
是中位數的推廣,表明數據集中小于它的數的比例。第一步:將n個變量值從小到大排列,X(j)表示此數列中第j個數。第二步:計算指數,設(n+1)P%=j+g,j為整數部分,g為小數部分。第三步:1)當g=0時:P百分位數=X(j);2)當g≠0時:P百分位數=g*X(j+1)+(1-g)*X(j)=X(j)+g*[X(j+1)-X(j)]
例3.2
一家電器商城12個員工在某天售出的電視機數量按照升序排列如下:
1,
3,
3,
3,
4,4,5,6,6,8,12,14
有12個數據,求第10百分位數?
在位置(12+1)X10%=1.3位置處,即在第一個數據和第二個數據之間且離第一個數據30%位置處,因而第10百分數位是1+(3‐1)×30%=1.6。四分位數
三個四分位數????,????,????將數據分成均勻的四份,因而????和????分別為數據排序后位于25%和75%位置上的值,分別被稱為第25百分位數和第75百分位數。????為中位數。
在例3.2中,
????、
????分別是多少?????的位置在?????的位置在?四分位數間距
是測量數據分布寬度的值,定義為第75百分位數與第25百分位數之間的距離,即??1和??3的差距。反映了中間50%數據的離散程度,不受極端異常值的影響。
例3.2中四分位數間距是多少???3‐??1=7.5‐3=4.5。眾數
是一組數據中出現次數最多的數值,有時眾數在一組數中有好幾個。
若一組數據中只有一個眾數,則此數據集是單峰的;若一組數據中有多個眾數,則此數據集是多峰的。極差值
極差值是一組數據中最大值與最小值之差,它只能描述數據的分布范圍,不能充分表達數據的分布信息。3.2.2
數據對象間的關系:相似度和相異度數據間關系的度量。經常在統(tǒng)計和數據挖掘中使用。相似度(Similarity)是衡量多個數據對象之間相似程度的數值,通常位于0和1之間,如果兩個對象完全不相似,則其相似度為0;相似度越高,對象之間的相似性越大。與之對應的測度是相異度(Dissimilarity)。鄰近度是相似度和相異度的統(tǒng)一描述。相異度矩陣
相異度矩陣存儲n個對象兩兩之間的相似性,表現形式是一個n×n維的矩陣。d(i,j)是對象i和j之間相異性的量化表示,通常為非負值,兩個對象越相似或“接近”,其值越接近0,越不同,其值越大,且d(i,j)=
d(j,i),d(i,i)=0。相異度矩陣相異度類別型數據距離計算數值型屬性間的距離計算不匹配率:對于具有p個類別屬性的兩個對象X,Y,他們的相異度定義為:1.
類別型數據距離計算其中,m為兩對象對應屬性取值相等的個數。例:學生信息中包含性別、宿舍和年級三個類別屬性,兩個學生的信息分別為(男,十一公寓,大二)和(男,十三公寓,大一),求它們的相異度?3-
1=23 3(1)杰卡德距離
對于對象X,Y,取值同為1的屬性有??個,X
取0且Y取1的屬性有??個,X
取1且Y取0的屬性有??個,則X,Y的杰卡德距離為:
杰卡德距離越大,說明相異度越大。
例:
當X取值為(1,0,1,0),Y取值為(1,0,0,1)時,d
??,
??
=??+
????+??+
??它們的杰卡德距離1
+是1多少=?21
+
1+
1 3杰卡德距離可以用來比較兩個文檔的相似性,對于文檔中的所有主干詞,當每個詞在文檔中出現時將它的值設為1,否則設為0,然后通過計算杰卡德距離可以衡量兩文檔的相似度。(2)漢明距離
表示兩個等長字符串在對應位置上不同字符的數目,用于度量兩個等長字符串的相異性。
例如字符串“karolin”和“kathrin”的漢明距離為?。
漢明距離度量了通過替換字符的方式將字符串x變成y所需要的最小的替換次數。在信息編碼中,為了增強容錯性,應該將編碼間的最小漢明距離最大化。2.
數值型數據的相異度歐幾里得距離(Euclidean
Distance)
歐氏距離,兩點之間的直線距離。曼哈頓距離(Manhattan
Distance)
也被稱為城市街區(qū)距離,在規(guī)則布局的街道中,從一個十字路口前往另一個十字路口,行走距離不是兩點間的直線距離,而是垂直的移動路線,閔可夫斯基距離(Minkowski
Distance)切比雪夫距離(Chebyshev
Distance)標準化歐氏距離(StandardizedEuclidean
Distance)馬氏距離(Mahalanobis
Distance)余弦距離本身誤差精度轉換特定應用需求缺失值數據集成3.2.3
數據不確定性
指屬性的值并不單一,而是按照一定的概率取多種值。這些誤差信息通常用一個概率密度函數或者其他統(tǒng)計量(均值、方差、協方差等)來表示。分類存在不確定性指數據是否存在具有一定的概率。屬性不確定性3.3
數據預處理1
標準系統(tǒng)架構應用數據庫ETL抽?。‥xtract)轉化(
Transform)裝載(Load)數據倉庫數據產品商業(yè)智能分析數據倉庫從各數據源獲取數據及在數據倉庫內
的數據轉換和流動都可以認為是ETL,ETL是數據倉庫的流水線,也可以認為是數據倉庫的血液,它維系著數據倉庫中數據的新陳代謝。2.
ETL的過程ETL的過程包括數據抽?。‥xtract)、數據轉換(Transform)、數據裝載(Load)。抽取階段:從一個或多個數據源中抽取數據。轉換階段:主要進行數據變換操作,包括數據清理、重構、標準化等。裝載階段:將轉換過的數據按照一定的存儲格式進行存儲。3
數據質量數據質量:數據質量高
->
對目標用途的符合度高精確性(Accuracy)完整性(Completeness)一致性(Consistency)適時性(Timeliness)可信性(Believability)可解釋性(Interpretability)常用的可視化質量指標包括:尺寸:是可量化的量度,如數據點的數量,構成了其他計算的基礎。視覺有效性:用于衡量圖像退化(如沖突、模糊)或可視布局的美學愉悅程度。特征保留度:是評估可視化質量的核心,它衡量可視化結果在數據、可視化和認知角度正確展現數據特性的程度。4 數據可視化質量4 數據可視化質量
衡量視覺有效性的常用方法有:數據密度(data
density)
是愛德華?塔夫特(Edward
Tufte)提出的一個概念,即圖形單位面積內展示的觀察變量數據量。
他認為圖表的數據密度越高越好,特別是當處理和解釋額外信息的邊際成本降低時。不要在少量的信息上浪費大量的圖形。數據墨水比(data-ink
ratio)圖形中的數據墨水量除以圖形中的總墨水量。圖里有多少提升的空間?如何在提升數據墨水比和有效傳遞觀點之間找到平衡?數據展示為先,確認圖表設計成功傳遞了觀點刪除圖表垃圾提升數據墨水比圍繞要傳遞的觀點,補充輔助信息5
數據清理數據清理:檢測和清除數據中的錯誤和不一致,以提高數據質量。Data…Data!數據錯誤類型及處理方法缺失值常量代替缺失值屬性平均值填充回歸、分類方法進行預測式填充人工填充噪聲值:回歸分析是被測量變量的隨機誤差或方差。離群點分?析這些記錄值通常具有數據有效性,但并不準確??梢晹祿逑丛谇謇碇?,可以使用交互式可視化方法來提高數據清理效率。6
數據整合數據1數據2數據3數據是將不同數據源的數據進行采集、清理、精簡和轉換后統(tǒng)一融合在一個數據集合中,并提供統(tǒng)一數據視圖的數據集成方式。數據整合包括:
(1)合并來自多個數據源的數據(2)向用戶提供一個關于這些數據的統(tǒng)一視圖管理來自多個數據源的數據多數據源結構沖突(structural
conflicts):不同的模式(schema)等數據沖突(data
conflicts):重復的記錄,沖突的記錄屬性等數據整合實例(1)客戶列表1客戶列表2整合結果數據整合實例(2)對同一篇論文,來自不同論文數據庫的引用格式可能存在不同整合為某種統(tǒng)一格式另一種數據整合方式:虛擬化數據源A數據源B數據源C轉換器轉換器轉換器擁有統(tǒng)一模式的“虛擬數據庫”數據并沒有從數據源中移出,而是在不同的數據源之上增加轉換策略,并構建一個虛擬層,以提供統(tǒng)一的數據訪問接口。通常使用中間件技術,在中間件提供的虛擬數據層之上定義數據映射關系。同時,虛擬層還負責將不同數據源的數據在語義上進行融合,即在查詢時做到語義一致。數據清洗和整合步驟初步分析:在操作之前進行數據分析沖突解析:解析數據源間的數據沖突定義數據轉換工作流和轉換規(guī)則:使用工作流方式完成模式(schema)配準和轉換工作流驗證:驗證工作流中的步驟是否正確數據轉換:開始流程3.4
數據存儲裝載并存儲數據數據分析與可視化所涉及的數據存儲組織形式主要包括以下三類:基于文件的存儲數據庫
&
數據庫管理系統(tǒng)數據倉庫最簡單的方法直接將數據存儲為文件形式簡單、方便電子表格類型:CSV文件逗號分隔值(comma-separated
values)結構化文件格式數據導向型的應?程序采?標記語?格式將數據進?結構化組織,以?便通?型數據的存儲和交換。通用格式:XML(可擴展標記語言,eXtensibleMarkupLanguage)<employer><id>23</id><name>Alice</name><city>CA</city><dptid>1</dptid></employer>IDNameCityDpt.
ID23AliceCA124BobNY2據庫數“Adatabaseisacollectionofdata,typicallydescribingtheactivitiesofoneormorerelatedorganizations.”應用數據庫(數據庫是數據的集合,通常用來描述多個相關組織結構的活動。)--RaghuRamakrishnanand
JohannesGehrke,“DatabaseManagementSystem”關系數據庫管理系統(tǒng)(RDBMS)數據的關系模型是現代數據庫系統(tǒng)的標準—最小化應用程序與機器表示間的耦合度高級數據語言:數據定義語言(Data
DefinitionLanguage),結構化查詢語言(Structured
QueryLanguage)關系模型表(關系)列(屬性)行(記錄)約束鍵:主鍵,外鍵等索引“Whenpeopleusetheworddatabase,fundamentallywhattheysayisthatthedatashouldbeself-describinganditshouldhaveaschema.That’sreallyalltheworddatabase
means.”(當使用數據庫這個詞時,人們強調的是數據需要能夠自描述,并且擁有模式。這就是“數據庫”的含義。)--JimGray,“TheFourth
Paradigm”關系數據庫可視化??節(jié)點:基?項?紅?節(jié)點:科研?員灰?節(jié)點:研究機構該圖展示了“研究?員所屬機構”和“項?參與?員”兩張表合并后的結果。美國自然基金數據庫可視化Z.Liu,S.B.Navathe,andJ.T.Stasko,Network-basedvisualanalysisoftabulardata,IEEEConferenceonVisualAnalyticsScienceandTechnology(VAST),pp.41–50,
2011.挑戰(zhàn)勝任交互式任務所需的響應時間(通常為亞秒級)大尺度數據的索引構建數據間的語意關系NoSQL數據庫(?關系型數據庫)“NotOnlySQL”(不僅僅是SQL)面向海量數據(并且數據不需要關系模型),擴展性較高可以處理分布式、規(guī)模龐大、類型不確定、完整性沒有保證的“雜亂”數據通常不使用表結構,并且不使用SQL進行查詢NoSQL數據庫實例文檔存儲–
CouchDB圖結構存儲–
Neo4j鍵-值存儲–
Redis(內存數據庫),
MongoDB(磁盤數據庫)表格數據–
Apache
HBase
(基于Hadoop)3.4.3數據倉庫Adatawarehouseisasubject-oriented,integrated,time-varient,andnonvolatilecollectionofdatainsupportofmanagement’sdecisionmaking
process.(數據倉庫是面向主題的、已整合的、時變且穩(wěn)定的數據集合,用來支持管理的決策過程。)--W.H.Inmon,“BuildingtheDataWarehouse”.
1996.數據倉庫數據庫和數據倉庫的異同,數據庫數據倉庫特點處理數據操作處理數據中的信息面向領域事務分析用戶終端用戶:職員,數據庫管理員(DBA)知識工作者:經理,分析師執(zhí)行官功能日常操作長期決策支持分析數據當前最新的數據歷史數據,時變數據訪問方式讀寫平均(主要)讀聚焦點數據輸入信息/知識輸出容量尺度1GB~<1TB>=TB3.5
數據分析數據分析的五大思維方式探索式數據分析數據挖掘數據分析的常規(guī)技巧數據分析的五大思維方式1.
數據分析的五大思維方式在從數據到信息的過程中,有一些固定的思路,也稱之為思維方式:對照拆分降維增維假說(a)(b)第一大思維:對照(對比)圖. 對比數據分析的五大思維方式數據分析的五大思維方式第二大思維:拆分。當某個維度可以對比的時候,我們選擇對比。??在對比后發(fā)現問題需要找出原因的時候或者根本就無法對比的時候。場景:運營經理經過對比店鋪的數據,發(fā)現今天的銷售額只有昨天的50%第三大思維:降維。當數據維度太多的時候,不可能每個維度都拿來分析,有一些有關聯的指標可以從中篩選出代表的維度即可?!緦ёx案例】數據分析的五大思維方式銷售額
=
成交用戶數×客單價成交用戶數=訪客數×轉化率例:(a)(b)銷售額成交用戶數客單價訪客數轉化率××流量組成免費流量付費流量搜索直通車類目鉆石展位第四大思維:增維。如果當前的維度不能很好地解釋問題,就需要對數據做一個運算,增加多一個指標(“輔助列”)。競爭度第五大思維:假說(假設)當不知道結果,或者有幾種選擇的時候。先假設有了結果,然后運用逆向思維。從結果到原因,要有怎么樣的因,才能產生這種結果。例:直播付費論文2.
探索式數據分析(ExploratoryData
Analysis,EDA)原始數據繪圖簡單統(tǒng)計值標繪多視圖協調關聯多視圖協調關聯來源:基于多視圖協同的時空數據可視分析方法3.數據挖掘“DataMining,alsopopularlyreferredtoasknowledgediscoveryfromdata(KDD),istheautomatedorconvenientextractionofpatternsrepresentingknowledgeimplicitlystoredorcapturedinlargedatabases,datawarehouses,theWeb,othermassiverepositories,ordata
streams.”--H.
Jiawei
and
M.
Kamber,
“Data
Mining:
Concepts
and
Techniques”,
3rded.,
2011.數據挖掘模型解釋&驗證知識數據挖掘中的任務A.
描述性任務數據算法特征訓練好的模型2B.
預測性任務1訓練數據模型新數據特征訓練好的模型A.描述性任務關聯分析(Association
Analysis)聚類(Clustering)離群點分析(Outlier
Mining)分析數據中的“屬性-值”頻繁出現的情況,并探究頻繁出現的條件對于無標記的數據,根據“最大化類內相似性、最小化類間相似性”的原則進行分組分析數據集中與數據一般行為或模型不一致的數據點概念描述(Concept
Description)對數據集中的數據本身或其特征進行描述B.預測性任務分類
(Classification) 使用能夠描述并區(qū)分數據類別或概念的模型,預測數據中標記未知的對象。模型的導出基于對訓練數據集的分析。演化分析(Evolution
Analysis)分析數據隨時空變化所形成的演變規(guī)律(單調、周期等),并對其建模,使用模型對未知時空位置的數據進行預測。數據挖掘中的方法統(tǒng)計方法(回歸分析;參數估計)貝葉斯機器學習(決策樹;神經網絡)約翰-麥卡錫(人工智能之父)算法方法(K-means,K-最近鄰)Donald
Knuth(計算機算法奠基人之一)可視數據挖掘一些任務很難用自動方法實現,例如:聚類結果的評價檢測數據集中的異常點用戶參與數據挖掘過程可視數據挖掘實例可視聚類
數據圖表專家
Andrew
abela
設計了一張匯總圖,從全局出發(fā),幫助快速確定圖表樣式。(見下頁)快速選擇數據圖表類型的思考流程:
1.分析數據源
2.確定展示的類型
3.選擇的變量類型及數量
4.選擇對應的數據圖表4.常見圖表類型第4章
數據可視化的任務和過程本章主要內容
4.1
數據可視化的目的
4.2
數據可視化的任務
4.3
數據可視化的一般過程
4.4
數據可視化的基本原則
4.5
數據可視化設計組件4.1
數據可視化的目的1.模式2.相互關系3.有問題的數據4.讓數據講故事模式相互關系有問題的數據
大部分異常都只是筆誤而已,但有些異常卻真的存在,而它們就是有意思的地方,可以作為故事的重點。如果你遇到了異常,一定要確定它到底屬于前者還是后者。4.2
數據可視化的基本任務概覽任務縮放任務過濾任務按需細化任務關聯任務歷史任務提取任務七個基本任務(1)概覽任務用戶能夠獲得整個集合的概覽。概覽可能包含可移動的視圖域框,用戶用它來控制細節(jié)視圖的內容,允許縮放因子在3~30之間。(2)縮放任務用戶能夠放大感興趣的條目。用戶通常對集合中的某個部分感興趣,需要使用工具控制縮放焦點和縮放因子。平滑的縮放有助于用戶保持他們的位置感和上下文??s放在針對小顯示器的應用程序中特別重要。(3)過濾任務用戶能夠濾掉不感興趣的條目。當用戶控制顯示的內容時,他們能夠通過去除不想要的條目而快速集中他們的興趣。(4)按需細化任務用戶能夠選擇一個條目或一個組來獲得細節(jié)。通常的方法是僅在條目上點擊,然后在單獨或彈出的窗口中查看細節(jié)。按需細化窗口可能包含到更多信息的鏈接。(5)關聯任務用戶能夠關聯集合內的條目或組。在視覺顯示之內,有機會按接近性、包容性、連線或顏色編碼來顯示關系。突出顯示技術能夠被用于引起對有數千條目的域中某些條目的注意。指向視覺顯示能夠允許快速選擇,且反饋是明顯的。(6)歷史任務用戶能夠保存動作歷史以支持撤銷、回放和逐步細化。信息探索是一個有很多步驟的過程,所以保存動作的歷史并允許用戶追溯其步驟是重要的。(7)提取任務用戶能夠允許子集和查詢參數的提取。一旦用戶獲得了他們想要的條目或條目集合,對他們有用的是,他們能夠提取該集合并保存它、通過電子郵件發(fā)送它或把它插入統(tǒng)計或呈現的軟件包中。4.3
數據可視化的一般過程可視化流水線模型描述了從數據空間到可視空間的映射體現了數據處理和圖形繪制的嵌套組合科學可視化流程Haber,R.B.andMcNabb,D.A.
Visualizationidioms:Aconceptualmodelforscientificvisualizationsystems,
1990.信息可視化流程Card,S.K.,Mackinlay,J.D.,andShneiderman,B.,editors.ReadingsinInformationVisualization:UsingVisiontoThink,
1999.視化循環(huán)模型可ByC
Solte.回路模型ByJarkVan
Wijk人機交互可視化模型—可視分析模型KeimD,ZhangL.Solvingproblemswithvisualanalyticschallengesandapplications[C]EuropeanConferenceonMachineLearning.KnowledgeDiscoveryinDatabases.ElsevierB.V.
20111-4.4.4
數據可視化設計的基本原則1.
正確的可視化故事與視圖選擇2.
圖表的可讀性3.
美學原則4.
合理的信息密度篩選5.
恰當的可視化交互6.
自然的可視化隱喻7.
適度的動畫與過渡網格及其標注的合理使用可視化元素的平衡分布21可視化中的美學因素認真仔細地對待可視化設計中的標注正確使用顏色(色彩美)合理使用網格構圖美布局原則(布局美)聚焦平衡簡單(a)不完整的可視化結果,用戶無法得知幾條曲線的意義;
(b)一個完整的可視化結果。恰當的交互交互之前有引導,交互之后有反饋保證交互操作的直觀性、易理解性和易記憶性用信息輪播、動畫等效果自動切換數據信息,以推進可視化故事的敘述.什么是視覺隱喻隱喻(metaphor)的一種在視覺上將目標物體/形象與另一領域的(源)物體進行相似性對比常用于廣告、平面設計等可視化隱喻將數據特性與自然界真實物體結合起來通過讀者對自然界物體的認知來增強可視化表達效果體現了可視化設計的人本思想隱喻:樹猴面包樹(baobabview):使用樹表達分類隱喻:河流Textflow:使用流來表達文本主題演化巧用動畫與過渡增加可視化結果視圖的豐富性與可理解性;增強重點信息或者整體畫面的表現力。原則;適量原則統(tǒng)一原則易理解原則動畫適用場景
1.
輔助不同視圖/不同可視化視覺通道的變換
如果可視化的信息篩選后,密度仍然較大,可設計多個視圖用于展示各種數據表達的信息。
可視化視覺通道(數據量、表現形式/狀態(tài))發(fā)生變化時,為了減輕視圖變化給用戶帶來的“沖擊”,避免用戶在變化中迷失,可以使用動畫的形式過渡。動畫適用場景不同圖表類型切換動效
2.
交互反饋效果
實時的反饋效果有助于用戶獲得此次操作的確認,避免用戶盲目重復操作。
當鼠標移動到特定可視化區(qū)域,出現光暈或者微動效發(fā)生相應變化,以指引用戶進行操作。動畫適用場景
3.
微交互動效,引起注意視覺通道經常有運動、閃爍、虛擬物體的動作等動畫效果,增加趣味性動畫適用場景閃爍動效,吸引注意力4.5
數據可視化設計組件坐標系:用散點圖映射數據和用圓餅圖是不一樣的。標尺:有意義的增量可以增強可讀性,就像改變焦點一樣。背景信息:如果可視化產品的讀者對數據不熟悉,則應該闡明數據的含義以及讀圖的方式。
視覺隱喻4.5.2 坐標系三種坐標系直角坐標系(笛卡爾坐標系)極坐標系地理坐標系4.5.2 坐標系(1)直角坐標系是最常用的坐標系(如條形圖、散點圖)。通??梢哉J為坐標就是被標記為(x,
y)的XY值對。坐標的兩條線垂直相交,取值范圍從負到正,組成了坐標軸。直角坐標系還可以向多維空間擴展。三維空間可以用(x,
y,
z)三值對來替代(x,
y)??梢杂弥苯亲鴺讼祦懋嫀缀螆D形。4.5.2 坐標系(2)極坐標系由一個圓形網格構成,最右邊的點是零度。角度越大,逆時針旋轉越多。距離圓心越遠,半徑越大。極坐標系沒有直角坐標系用得多,但在角度和方向很重要時它會更有用。4.5.2 坐標系(3)地理坐標系映射位置數據。位置數據的形式通常是用緯度和經度來描述,分別相對于赤道和子午線的角度,有時還包含高度。相對于直角坐標系,緯度就好比水平軸,經度就好比垂直軸。也就是說,相當于使用了平面投影。4.5.2 坐標系繪制地表地圖最關鍵的地方是要在二維平面上顯示球形物體的表面,被稱為投影。當把一個三維物體投射到二維平面上時,會丟失一些信息,與此同時,其他信息則被保留下來了。標尺標尺坐標系指定了可視化的維度,而標尺則指定了在每一個維度里數據映射到哪里。3 4對數標尺關注百分比變化0 10 100 1000
10000線性標尺數值等距分布0 1 2分類標尺離散的條形A B C D E順序標尺有序的分類標尺可怕的
壞的
好的
很好的
非常好百分比標尺描述整體中的部分0% 25% 50%
75%100%時間標尺以月、日或小時為單位1月
2月
3月
4月
5月三種基本標尺:數字標尺分類標尺時間標尺4.5.3 標尺(1)數字標尺其上的間距相等,因此,在標尺的低端測量兩點間的距離,和在標尺高端測量的結果是一樣的。對數標尺隨著數值的增加而壓縮。不像線性標尺那樣被廣泛使用。但關心百分比變化而不是原始計數,或者數值的范圍很廣,對數標尺很有用。百分比標尺通常也是線性的,用來表示整體中的部分時,最大值是100%(所有部分總和是100%)。4.5.3 標尺(2)分類標尺為不同的分類提供視覺分隔。通常和數字標尺一起使用。分類間的間隔是隨意的,和數值沒有關系。對于分類的順序標尺來說,順序很重要。比如,將電影的分類排名數據按從糟糕的到非常好的這種順序顯示,能幫助觀眾更輕松地判斷和比較影片的質量。4.5.3 標尺(3)時間標尺時間是連續(xù)變量??梢园褧r間數據畫到線性標尺上,也可以將其分成月份或者星期這樣的分類,作為離散變量處理。也可以是周期性的,總有下一個正午、下一個星期六和下一個一月份。4.5.4 背景信息背景信息幫助更好地理解數據相關的5W信息,即何人、何事、何時、何地、為何,可以使數據更清晰,并且能正確引導讀者。有時背景信息是直接畫出來的,有時則隱含在媒介中。圖.
汽柴油歷史調價信息背景信息4.5.5 整合可視化組件組件整合視覺隱喻是人們看到的主要部
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年二手房買賣合同補充協議:房屋用途限制條款3篇
- 四川電子機械職業(yè)技術學院《中外營銷傳播史》2023-2024學年第一學期期末試卷
- 四川電子機械職業(yè)技術學院《建筑設計(1)》2023-2024學年第一學期期末試卷
- 四川電力職業(yè)技術學院《生物反應工程》2023-2024學年第一學期期末試卷
- 四川大學錦江學院《液力傳動》2023-2024學年第一學期期末試卷
- 四川大學《中國古代文學三》2023-2024學年第一學期期末試卷
- 四川財經職業(yè)學院《漆藝工藝實踐》2023-2024學年第一學期期末試卷
- 私立華聯學院《信息安全法律基礎》2023-2024學年第一學期期末試卷
- 客廳門窗合同范例
- 貸款信息咨詢合同范例
- 駕駛證學法減分(學法免分)試題和答案(50題完整版)1650
- 期末測試卷(試題)-2024-2025學年人教PEP版(2024)英語三年級上冊
- 2024重慶空港貴賓服務有限公司招聘筆試沖刺題(帶答案解析)
- 曼昆《經濟學原理》(微觀經濟學分冊)第8版 全部答案
- 《計量經濟學》期末考試題庫及答案(完整版)
- 2022年普通高中地理課程標(完整哦)
- 靜脈留置針穿刺沖封管及拔管圖解流程參考模板
- SMW工法樁置換土兩種計算方法
- ~數字邏輯試卷及答案
- 《水文測驗學》15——河道推流
- 中 國 作 家 協 會 入 會 申 請 表
評論
0/150
提交評論