《統(tǒng)計(jì)學(xué)-基于R》(第4版)課件:數(shù)據(jù)可視化_第1頁(yè)
《統(tǒng)計(jì)學(xué)-基于R》(第4版)課件:數(shù)據(jù)可視化_第2頁(yè)
《統(tǒng)計(jì)學(xué)-基于R》(第4版)課件:數(shù)據(jù)可視化_第3頁(yè)
《統(tǒng)計(jì)學(xué)-基于R》(第4版)課件:數(shù)據(jù)可視化_第4頁(yè)
《統(tǒng)計(jì)學(xué)-基于R》(第4版)課件:數(shù)據(jù)可視化_第5頁(yè)
已閱讀5頁(yè),還剩33頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

賈俊平2024/1/30StatisticswithR統(tǒng)計(jì)學(xué)R語(yǔ)言賈俊平2024/1/302.1

類(lèi)別數(shù)據(jù)可視化2.2數(shù)據(jù)分布可視化3.3變量間關(guān)系可視化2.4樣本相似性可視化2.5時(shí)間序列可視化2.6可視化的注意事項(xiàng)

數(shù)據(jù)可視化可視化分類(lèi)類(lèi)別數(shù)據(jù)單變量雙變量多變量數(shù)值數(shù)據(jù)展示分布展示關(guān)系樣本相似時(shí)間序列觀察趨勢(shì)可視化思維導(dǎo)圖

2.1

類(lèi)別數(shù)據(jù)可視化類(lèi)別數(shù)據(jù)可視化觀察絕對(duì)頻數(shù)單變量簡(jiǎn)單條形圖帕累托圖雙變量并列條形圖堆疊條形圖其他脊形圖百分比條形圖多變量馬賽克圖樹(shù)狀圖觀察百分百單變量餅圖多變量環(huán)形圖太陽(yáng)圖可視化類(lèi)別數(shù)據(jù)可視化——基本框架

2.1

類(lèi)別數(shù)據(jù)可視化條形圖及其變種

2.1

類(lèi)別數(shù)據(jù)可視化條形圖及其變種——簡(jiǎn)單條形圖——例題分析【例2-1】(數(shù)據(jù):example2_1.csv)沿用第1章的例1-1。為便于表述,將數(shù)據(jù)example1_1重新命名為example2_1

2.1

類(lèi)別數(shù)據(jù)可視化條形圖及其變種——帕累托圖——例題分析帕累托圖(paretoplot)——以意大利經(jīng)濟(jì)學(xué)家V.Pareto的名字而命名的,它是按各類(lèi)別的頻數(shù)多少排序后繪制的條形圖。帕累托圖可以看做是簡(jiǎn)單條形圖的一個(gè)變種,利用該圖很容易看出哪類(lèi)頻數(shù)出現(xiàn)得多,哪類(lèi)頻數(shù)出現(xiàn)得少

2.1

類(lèi)別數(shù)據(jù)可視化條形圖及其變種——復(fù)試條形圖和脊形圖——例題分析制兩個(gè)類(lèi)別變量的條形圖時(shí),可以使用原始數(shù)據(jù)繪圖,也可以先生成二維列聯(lián)表再繪圖根據(jù)繪制方式不同有并列條形圖(juxtaposedbarplot)和堆疊條形圖(stackedbarplot)等在并列條形圖中,一個(gè)類(lèi)別變量作為坐標(biāo)軸,另一個(gè)類(lèi)別變量各類(lèi)別頻數(shù)的條形并列擺放在堆疊條形圖中,一個(gè)類(lèi)別變量作為坐標(biāo)軸,另一個(gè)類(lèi)別變量各類(lèi)別的頻數(shù)按比例堆疊在同一個(gè)條中

2.1

類(lèi)別數(shù)據(jù)可視化條形圖及其變種——復(fù)試條形圖和脊形圖——例題分析脊形圖(spineplot)是根據(jù)各類(lèi)別的比例繪制的一種條形圖,它可以看作堆疊條形圖的一個(gè)變種,也可以看作馬賽克圖的一個(gè)特例繪制脊形圖時(shí),將某個(gè)類(lèi)別各條的高度都設(shè)定為1或100%,條的寬度與觀測(cè)頻數(shù)(樣本量)呈正比,條內(nèi)每一段的高度表示另一個(gè)類(lèi)別變量各類(lèi)別的頻數(shù)比例

2.1

類(lèi)別數(shù)據(jù)可視化條形圖及其變種——馬賽克圖——例題分析當(dāng)有兩個(gè)以上類(lèi)別變量時(shí)可以繪制馬賽克圖(mosaicplot)馬賽克圖用矩形表示列聯(lián)表中對(duì)應(yīng)頻數(shù)的一種圖形,圖中嵌套矩形的面積與列聯(lián)表相應(yīng)單元格的頻數(shù)成正比

2.1

類(lèi)別數(shù)據(jù)可視化餅圖及其變種——餅圖——例題分析餅圖(piechart)是用圓形及圓內(nèi)扇形的角度來(lái)表示數(shù)值大小的圖形。它主要用于表示一個(gè)樣本(或總體)中各類(lèi)別的頻數(shù)占全部頻數(shù)的百分比,對(duì)于研究結(jié)構(gòu)性問(wèn)題十分有用

2.1

類(lèi)別數(shù)據(jù)可視化餅圖及其變種——扇形圖——例題分析扇形圖(fanchart)是餅圖的一個(gè)變種,它是將頻數(shù)構(gòu)成中百分比最大的一個(gè)繪制成一個(gè)扇形區(qū)域,其他各類(lèi)百分比按大小使用不同的半徑繪制出扇形,并疊加在這個(gè)最大的扇形上

2.1

類(lèi)別數(shù)據(jù)可視化餅圖及其變種——環(huán)形圖和餅環(huán)圖——例題分析環(huán)形圖(donutchart)是將餅圖的中間挖掉后剩下的環(huán)形,也稱(chēng)為甜甜圈圖環(huán)形圖可以看做是餅圖的變種,它是用環(huán)形的各段表示各類(lèi)別頻數(shù)的百分比當(dāng)有兩個(gè)類(lèi)別變量是時(shí),可以繪制出一個(gè)變量各類(lèi)別百分比的餅圖,而相對(duì)應(yīng)的另一個(gè)變量各類(lèi)別頻數(shù)的百分比則用環(huán)形圖表示。這種展示雙層結(jié)構(gòu)的圖形稱(chēng)為餅環(huán)圖(pieanddonutplot),它可以展示兩個(gè)變量的層次結(jié)構(gòu)關(guān)系

2.2

數(shù)據(jù)分布可視化結(jié)構(gòu)分布特征直方圖核密度圖直方圖核密度圖箱線圖小提琴圖箱線圖小提琴圖點(diǎn)圖帶狀圖點(diǎn)圖帶狀圖其他海盜圖分布概要圖連續(xù)數(shù)值的分布特征分布的形狀是否對(duì)稱(chēng)分布中是否有離群點(diǎn)是否符合某種特點(diǎn)給的分布,如正態(tài)分布分布提供的信息可以為形狀描述統(tǒng)計(jì)量提供依據(jù)可以為數(shù)據(jù)建模提供依據(jù),如回歸建模圖形選擇取決于數(shù)據(jù)量的大小取決于并列的多少和分析目的取決于個(gè)人偏好數(shù)值數(shù)據(jù)可視化——基本框架

2.2

數(shù)據(jù)分布可視化直方圖與核密度圖——直方圖——例題分析將數(shù)據(jù)分組后,在x軸上用矩形的寬度表示每個(gè)組的組距,在y軸上用矩形的高度表示每個(gè)組的頻數(shù)或密度,多個(gè)矩形并列在一起就是直方圖利用直方圖的形狀可以觀察數(shù)據(jù)分布的特征【例2-2】(數(shù)據(jù):example2_2.csv)空氣質(zhì)量指數(shù)(AirQualityIndex,AQI)用來(lái)描述空氣質(zhì)量狀況,指數(shù)越大,說(shuō)明空氣污染狀況越嚴(yán)重。參與空氣質(zhì)量評(píng)價(jià)的主要污染物有細(xì)顆粒物(PM2.5)、可吸入顆粒物(PM10)、二氧化硫(SO2)、一氧化碳(CO)、二氧化氮(NO2)、臭氧濃度(O3)等6項(xiàng)。根據(jù)空氣質(zhì)量指數(shù)將空氣質(zhì)量分為6級(jí):優(yōu)(0~50)、良(51~100)、輕度污染(101~150)、中度污染(151200)、重度污染(201~300)、嚴(yán)重污染(300以上);分別用綠色、黃色、橙色、紅色、紫色、褐紅色表示。表2-1是2019年1月1日—12月31日幾個(gè)主要城市的AQI數(shù)據(jù)。繪制出6個(gè)城市AQI的直方圖分析其分布的特征

2.2

數(shù)據(jù)分布可視化直方圖與核密度圖——核密度圖——例題分析核密度圖(kerneldensityplot)是用于描述估計(jì)核密度估計(jì)的一種圖形,它使用一定的核函數(shù)和帶寬為數(shù)據(jù)的分布提供了一種平滑曲線,從中可以看出數(shù)據(jù)分布的大致形狀核密度圖可以替代直方圖來(lái)觀察數(shù)據(jù)的分布核密度曲線的平滑程度取決于帶寬(bandwidth,bw)。bw的值越大,曲線越平滑利用直方圖的形狀可以觀察數(shù)據(jù)分布的特征

2.2

數(shù)據(jù)分布可視化直方圖與核密度圖——核密度圖——例題分析6個(gè)城市AQI的核密度圖

2.2

數(shù)據(jù)分布可視化箱線圖和小提琴圖——箱線圖——示意圖

2.2

數(shù)據(jù)分布可視化箱線圖和小提琴圖——箱線圖——不同箱線圖對(duì)應(yīng)的分布

2.2

數(shù)據(jù)分布可視化箱線圖和小提琴圖——箱線圖——例題分析6個(gè)城市AQI的箱線圖

2.2

數(shù)據(jù)分布可視化箱線圖和小提琴圖——小提琴圖——例題分析小提琴圖(violinplot)是箱線圖的一變種將分布的核密度估計(jì)曲線與箱線圖結(jié)合在一起,它在箱線圖上以鏡像方式疊加一條核密度估計(jì)曲線,易于觀察數(shù)據(jù)分布的大致形狀6個(gè)城市AQI的小提琴圖

2.2

數(shù)據(jù)分布可視化莖葉圖和點(diǎn)圖——莖葉圖——例題分析由“莖”和“葉”兩部分構(gòu)成以該組數(shù)據(jù)的高位數(shù)值作樹(shù)莖,低位數(shù)字作樹(shù)葉樹(shù)葉上只保留最后一位數(shù)字莖葉圖類(lèi)似于橫置的直方圖,但又有區(qū)別直方圖可觀察一組數(shù)據(jù)的分布狀況,但沒(méi)有給出具體的數(shù)值莖葉圖既能給出數(shù)據(jù)的分布狀況,又能給出每一個(gè)原始數(shù)值,保留了原始數(shù)據(jù)的信息直方圖適用于大批量數(shù)據(jù),莖葉圖適用于小批量數(shù)據(jù)#R例題分析example2_2<-read.csv("C:/example/chap02/example2_2.csv")library(aplpack)stem.leaf(example2_2$北京,unit=1,m=1)#數(shù)據(jù)的單位為1,莖葉圖的行數(shù)為1

2.2

數(shù)據(jù)分布可視化莖葉圖和點(diǎn)圖——點(diǎn)圖——例題分析各數(shù)據(jù)用點(diǎn)繪制在圖中點(diǎn)圖有多種形式,其中最常見(jiàn)的是克利夫蘭(Cleveland)點(diǎn)圖點(diǎn)圖是檢測(cè)數(shù)據(jù)離群點(diǎn)的有效工具當(dāng)數(shù)據(jù)量較少時(shí),也可以替代直方圖和箱線圖來(lái)觀察數(shù)據(jù)的分布變量關(guān)系普通散點(diǎn)圖散點(diǎn)圖散點(diǎn)圖矩陣條件散點(diǎn)圖按因子分類(lèi)3D散點(diǎn)圖3D散點(diǎn)圖氣泡圖樣本相似性輪廓圖和雷達(dá)圖輪廓圖雷達(dá)圖星圖和臉譜圖星圖臉譜圖聚類(lèi)圖和熱圖聚類(lèi)圖熱圖

2.3

變量間關(guān)系和樣本相似性可視化結(jié)構(gòu)變量間關(guān)系和樣本相似性可視化——基本框架

2.3

變量間關(guān)系可視化散點(diǎn)圖和散點(diǎn)圖矩陣——散點(diǎn)圖——例題分析

2.3

變量間關(guān)系可視化散點(diǎn)圖和散點(diǎn)圖矩陣——散點(diǎn)圖——例題分析【例2-3】(數(shù)據(jù):example2_3.csv)為分析上市公司的總股本與各項(xiàng)財(cái)務(wù)指標(biāo)間的關(guān)系,隨機(jī)抽取200家上市公司,得到的有關(guān)財(cái)務(wù)數(shù)據(jù)如表2-2所示。繪制散點(diǎn)圖分析總股本與每股收益之間的關(guān)系

2.3

變量間關(guān)系可視化散點(diǎn)圖和散點(diǎn)圖矩陣——散點(diǎn)圖——邊際圖——例題分析【例2-3】(數(shù)據(jù):example2_3.csv)為分析上市公司的總股本與各項(xiàng)財(cái)務(wù)指標(biāo)間的關(guān)系,隨機(jī)抽取200家上市公司,得到的有關(guān)財(cái)務(wù)數(shù)據(jù)如表2-2所示。繪制散點(diǎn)圖分析總股本與每股收益之間的關(guān)系

2.3

變量間關(guān)系可視化散點(diǎn)圖和散點(diǎn)圖矩陣——散點(diǎn)圖矩陣——例題分析如果要同時(shí)分析多個(gè)變量?jī)蓛芍g的關(guān)系,可以將多幅散點(diǎn)圖繪制成矩陣的形式,稱(chēng)為散點(diǎn)圖矩陣(matrixscatter)矩陣散點(diǎn)圖。散點(diǎn)圖矩陣中,對(duì)角線上下兩部分是對(duì)稱(chēng)的圖形,也可以將對(duì)角線的下方(或上方)繪制出一種形式的散點(diǎn)圖(或相關(guān)系數(shù)),對(duì)角線上方(或下方)繪制出另一種形式的散點(diǎn)圖(或相關(guān)系數(shù))

2.3

變量間關(guān)系可視化散點(diǎn)圖和散點(diǎn)圖矩陣——散點(diǎn)圖矩陣——例題分析如果要同時(shí)分析多個(gè)變量?jī)蓛芍g的關(guān)系,可以將多幅散點(diǎn)圖繪制成矩陣的形式,稱(chēng)為散點(diǎn)圖矩陣(matrixscatter)矩陣散點(diǎn)圖。散點(diǎn)圖矩陣中,對(duì)角線上下兩部分是對(duì)稱(chēng)的圖形,也可以將對(duì)角線的下方(或上方)繪制出一種形式的散點(diǎn)圖(或相關(guān)系數(shù)),對(duì)角線上方(或下方)繪制出另一種形式的散點(diǎn)圖(或相關(guān)系數(shù))

2.3

變量間關(guān)系可視化散點(diǎn)圖和散點(diǎn)圖矩陣——3D散點(diǎn)圖——例題分析用于展示3個(gè)變量之間的關(guān)系

2.3

變量間關(guān)系可視化散點(diǎn)圖和散點(diǎn)圖矩陣——?dú)馀輬D——例題分析氣泡圖也可以用于展示3個(gè)變量之間的關(guān)系,用變量x和y畫(huà)出散點(diǎn)圖,第3個(gè)變量數(shù)值的大小用圓的大小表示

2.4

樣本相似性可視化樣本相似性可視化——輪廓圖——例題分析輪廓圖(outlineplot)也稱(chēng)平行坐標(biāo)圖或多線圖,它用x軸表示各樣本,用y軸表示每個(gè)樣本的多個(gè)變量的數(shù)值(x軸和y軸可以互換),將同一樣本在不同變量上的觀測(cè)值用折線連接起來(lái)。觀察輪廓圖中各折線的形狀及其排列方式,可以比較各樣本在多個(gè)變量上取值的相似性及差異

2.4

樣本相似性可視化樣本相似性可視化——雷達(dá)圖——例題分析從一個(gè)點(diǎn)出發(fā),每個(gè)變量用一條射線表示,P個(gè)變量形成P條射線(P個(gè)坐標(biāo)軸),每個(gè)樣本在P個(gè)變量上的取值連接成線,即圍成一個(gè)區(qū)域,多個(gè)樣本圍成多個(gè)區(qū)域,就是雷達(dá)圖(radarchart),也稱(chēng)為蜘蛛圖(spiderchart)。利用雷達(dá)圖也可以研究多個(gè)樣本之間的相似程度

2.4

樣本相似性可視化樣本相似性可視化——星圖——例題分析從一個(gè)點(diǎn)出發(fā),每個(gè)變量用一條射線表示,P個(gè)變量形成P條射線(P個(gè)坐標(biāo)軸),每個(gè)樣本在P個(gè)變量上的取值連接成線,即圍成一個(gè)區(qū)域,多個(gè)樣本圍成多個(gè)區(qū)域,就是雷達(dá)圖(radarchart),也稱(chēng)為蜘蛛

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論