大數(shù)據(jù)可視化技術(shù)與應(yīng)用 課件 第5章 關(guān)系數(shù)據(jù)可視化、拓展_第1頁
大數(shù)據(jù)可視化技術(shù)與應(yīng)用 課件 第5章 關(guān)系數(shù)據(jù)可視化、拓展_第2頁
大數(shù)據(jù)可視化技術(shù)與應(yīng)用 課件 第5章 關(guān)系數(shù)據(jù)可視化、拓展_第3頁
大數(shù)據(jù)可視化技術(shù)與應(yīng)用 課件 第5章 關(guān)系數(shù)據(jù)可視化、拓展_第4頁
大數(shù)據(jù)可視化技術(shù)與應(yīng)用 課件 第5章 關(guān)系數(shù)據(jù)可視化、拓展_第5頁
已閱讀5頁,還剩15頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第5章關(guān)系數(shù)據(jù)可視化主要內(nèi)容1.關(guān)系數(shù)據(jù)在大數(shù)據(jù)中的應(yīng)用2.數(shù)據(jù)的關(guān)聯(lián)性3.數(shù)據(jù)的分布性1.關(guān)系數(shù)據(jù)在大數(shù)據(jù)中的應(yīng)用大數(shù)據(jù)的一個重要價值是可以幫助我們找到變量之間的聯(lián)系,發(fā)掘事物背后的因果。在進行大數(shù)據(jù)挖掘前的重要一步就是探索變量的相關(guān)關(guān)系,進而才能探索背后可能隱藏著的因果關(guān)系。分析數(shù)據(jù)時,我們不僅可以從整體進行觀察,還可以關(guān)注數(shù)據(jù)的分布,如數(shù)據(jù)間是否存在重疊或者是否毫不相干?還可以從更寬泛的角度觀察各個分布數(shù)據(jù)的相關(guān)關(guān)系。其實最重要的點,就是數(shù)據(jù)在進行可視化處理后,呈現(xiàn)在讀者眼前的圖表所表達的意義是什么。關(guān)系數(shù)據(jù)具有關(guān)聯(lián)性和分布性。下面通過實例具體講解關(guān)系數(shù)據(jù),以及如何觀察數(shù)據(jù)間的相關(guān)關(guān)系。2.數(shù)據(jù)的關(guān)聯(lián)性事物之間的關(guān)聯(lián)性是比較容易被發(fā)現(xiàn)的,但是關(guān)聯(lián)并不代表存在因果關(guān)系。比如,大豆的價格上漲,豬肉的價格可能也會上漲,但是大豆的價格上漲可能不是豬肉上漲的原因。盡管如此,關(guān)聯(lián)性還是能給我?guī)砭薮蟮膬r值的,比如大豆的價格已經(jīng)上漲了,那我們就可以抓緊時間囤一些豬肉,這樣往往能省下一筆錢,至于背后是否存在因果關(guān)系,就沒那么重要了。大數(shù)據(jù)可視化就是在告訴我們分析結(jié)果是“什么”,而不是“為什么”.2.數(shù)據(jù)的關(guān)聯(lián)性數(shù)據(jù)的關(guān)聯(lián)性,其核心就是指量化的兩個數(shù)據(jù)間的數(shù)理關(guān)系。關(guān)聯(lián)性強,是指當一個數(shù)值變化時,另一個數(shù)值也會隨之相應(yīng)地發(fā)生變化。相反地,關(guān)聯(lián)性弱,就是指當一個數(shù)值變化時另一個數(shù)值幾乎沒有發(fā)生變化。通過數(shù)據(jù)關(guān)聯(lián)性,就可以根據(jù)一個已知的數(shù)值變化來預(yù)測另個數(shù)值的變化。下面通過散點圖、散點圖矩陣、氣泡圖等來研究這類關(guān)系。2.1散點圖變量間一般有三種關(guān)系:正相關(guān)、負相關(guān)和不相關(guān),如圖所示。正相關(guān)時,橫軸數(shù)據(jù)和縱軸數(shù)據(jù)變化趨勢相同;負相關(guān)時,橫軸數(shù)據(jù)和縱軸數(shù)據(jù)變化趨勢相反;不相關(guān)時散點的排列則是雜亂無章的。在統(tǒng)計學(xué)中有更科學(xué)的方法(比如相關(guān)系數(shù))衡量兩個變量的相關(guān)性,但是散點圖往往是判斷相關(guān)性的最簡單、直觀的方法,在計算相關(guān)系數(shù)前通常依靠散點圖作出初步判斷。2.2散點圖矩陣前面講解的散點圖,是用兩組數(shù)據(jù)構(gòu)成多個坐標點,再通過觀察坐標點的分布,判斷兩個變量之間是否存在某種關(guān)聯(lián),或總結(jié)坐標點的分布模式。但很多時候變量不止兩個,因此,應(yīng)同時考察多個(超過兩個)變量間的相互關(guān)系,但是若一一繪制它們之間的簡單散點圖就十分繁瑣。此時就可以利用散點圖矩陣來同時繪制多個變量問的散點圖,這樣就可以快速發(fā)現(xiàn)哪些變量之間的相關(guān)性更高。這種方法在數(shù)據(jù)探索階段十分有用,其基本框架如圖所示。2.3氣泡圖氣泡圖和散點圖相比,多了一個維度的數(shù)據(jù)。氣泡圖就是將散點圖中沒有大小的“點“變成有大小的“圓”,圓的大小就可以用來表示多出的那一維數(shù)據(jù)的大小。氣泡圖讓我們可以同時比較三個變量,其基本框架如圖所示。一個具體的例子如圖5-4所示。二手車的價格由車齡和里程來決定,可以看出,兩個指標越小,氣泡越大,代表價格越高,反之則反。3.1莖葉圖莖葉圖又稱“枝葉圖”,是由20世紀早期的英國統(tǒng)計學(xué)家阿瑟?鮑利(ArthurBowley)設(shè)計。1997年統(tǒng)計學(xué)家約翰托奇(JohnTukey)在其著作《探索性數(shù)據(jù)分析》(exploratorydataanalysis)中將這種繪圖方法介紹給大家,從此這種作圖方法變得流行起來。莖葉圖的思路是將數(shù)組中的數(shù)按位數(shù)進行比較,將數(shù)的大小基本不變或變化不大的位作為一主干(莖),將變化大的位的數(shù)作為分枝(葉),列在主干的后面,這樣就可以清楚地看到每個主干后面的幾數(shù),每個數(shù)具體是多少。莖葉圖是一個與直方圖相類似的特殊工具,但又與直方圖不同,莖葉圖保留原始資料的資訊,直方圖則失去原始資料的訊息。將莖葉圖莖和葉逆時針方向旋轉(zhuǎn)90度,實際上就是一個直方圖,可以從中統(tǒng)計出次數(shù),計算出各數(shù)據(jù)段的頻率或百分比。從而看出分布是否與正態(tài)分布或單峰偏態(tài)分布逼近。3.2直方圖直方圖與莖葉圖類似,若逆時針翻轉(zhuǎn)莖葉圖,則行就變成列;若是把每一列的數(shù)字改成柱形,則得到了一個直方圖。直方圖又稱質(zhì)量分布圖,是數(shù)值數(shù)據(jù)分布的精確圖形表示。直方圖中的柱形高度表示的是數(shù)值頻率,柱形的寬度是取值區(qū)間。水平軸和垂直軸與一般的柱形圖不同,它是連續(xù)的;一般的柱形圖的水平軸是分離的3.3密度圖直方圖反映的是一組數(shù)據(jù)的分布情況,直方圖的水平軸是連續(xù)性的,整個圖表呈現(xiàn)的是柱形,用戶無法獲知每個柱形的內(nèi)部變化。而在莖葉圖中,用戶可以看到具體數(shù)字,但是要求比較數(shù)值間的差距大小并不是很明確。為了呈現(xiàn)更多的細節(jié),人們提出了密度圖,可用它對分布的細節(jié)變化進行可視化處理。當直方圖分段放大時,分段之間的組距就會縮短,此時依著直方圖畫出的折線就會逐漸變成一條光滑的曲線,這條曲線就稱為總體的密度分布曲線。這條曲線可以反映數(shù)據(jù)分布的密度情況,其基本框架如圖所示。第5章關(guān)系數(shù)據(jù)可視化3.4扇形圖扇形圖,又稱扇形統(tǒng)計圖,它是用整個圓表示總數(shù),用圓內(nèi)各個扇形的大小表示各部分數(shù)量占總數(shù)的百分數(shù)。通過扇形統(tǒng)計圖可以很清楚地表示出各部分數(shù)量同總數(shù)之間的關(guān)系。它擅長表達某一占比較大的類別。但是不擅長對比。30%和35%在扇形圖上憑肉眼是難以分辨出區(qū)別的。當類別過多,也不適宜在扇形圖上表達。3.5雷達圖雷達圖是以從同一點開始的軸上表示的三個或更多個定量變量的二維圖表的形式顯示多變量數(shù)據(jù)的圖形方法。軸的相對位置和角度通常是無信息的。雷達圖也稱為網(wǎng)絡(luò)圖,蜘蛛圖,星圖,蜘蛛網(wǎng)圖,不規(guī)則多邊形,極坐標圖。它在商務(wù)、財務(wù)領(lǐng)域應(yīng)用較大,適合用在固定的框架內(nèi)表達某種已知的結(jié)果。常見于經(jīng)營狀況,財務(wù)健康程度。

比如對企業(yè)財務(wù)進行分析,劃分出六大類:銷售、市場、研發(fā)、客服、技術(shù)、管理。通過雷達圖繪制出預(yù)算和實際開銷的維度對比,會很清晰。如圖所示:3.6熱力圖以特殊高亮的形式顯示訪客熱衷的頁面區(qū)域和訪客所在的地理區(qū)域的圖示。現(xiàn)今熱力圖在網(wǎng)頁分析、業(yè)務(wù)數(shù)據(jù)分析等其他領(lǐng)域有較為廣泛的應(yīng)用。3.6熱力圖目前百度地圖、高德地圖、谷歌地圖、騰訊微信等都會提供如上類似的地圖熱力圖。這種熱力圖是利用獲取的手機基站定位該區(qū)域的用戶數(shù)量,通過用戶數(shù)量渲染地圖顏色。主要顯示一個城市的某個地方人員比較集中甚至擁擠程度。顏色越深表示人員越多,顏色淺代表人比較少。熱力圖可以很直觀的反映區(qū)域內(nèi)的人群流量,便于人們進行出行規(guī)劃,也可以幫助政府進行城市規(guī)劃和城市管理。3.6熱力圖對于網(wǎng)頁、App的熱力圖來說,常見的熱力圖可以分為三種:按鼠標點擊位置的熱力圖、按鼠標移動軌跡的熱力圖、按內(nèi)容點擊的熱力圖。這些熱力圖將用戶的每一次鼠標點擊、滾動、視野停留都轉(zhuǎn)作了數(shù)據(jù)化的色彩繪制出來。它作為一款好用的用戶行為分析工具,可以直觀清楚地看到頁面上每一個區(qū)域的訪客興趣焦點,通過用戶在頁面上的瀏覽軌跡,點擊熱區(qū)來找到網(wǎng)站內(nèi)對用戶有價值的信息,并且優(yōu)化網(wǎng)站死角來更加豐富和滿足用戶體驗。網(wǎng)頁、App的熱力圖在推廣營銷、轉(zhuǎn)化漏斗、流量細分等方面也有其獨特應(yīng)用。4.數(shù)據(jù)可視化的意義圖表以可視化形式來輔助大腦快速處理信息當我們在使用數(shù)據(jù)可視化時,就是在發(fā)揮人腦對視覺信息快速處理的優(yōu)勢。簡而言之,很多科學(xué)家也已經(jīng)針對可視化對于數(shù)據(jù)的重要性,進行了許多研究,發(fā)現(xiàn)可視化對我們大腦感知視覺效果的有效性。在這方面,數(shù)據(jù)可視化不僅僅是一個道具,它還提供了一個更高效的學(xué)習(xí)環(huán)境。4.數(shù)據(jù)可視化的意義圖表提供干凈易于理解的數(shù)據(jù)信息圖表是不僅僅涉及創(chuàng)建數(shù)據(jù)可視化,還涉及如何利用圖表去有效的傳遞數(shù)據(jù)信息。數(shù)據(jù)可視化很有用,因為它總結(jié)并指出了關(guān)鍵指標,當你需要局部數(shù)據(jù)信息時,選擇針對性的圖表數(shù)據(jù),能夠快速獲取你想要的數(shù)據(jù)趨勢和效果。對很多職場人士而言,時間就是金錢,效率就是生命,因此必須在數(shù)據(jù)信息當中快速建立清

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論