




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
探索性分析1可視化分析目錄描述性統(tǒng)計分析2常用Python探索分析函數3小結4描述性統(tǒng)計是統(tǒng)計學中用來描繪或總結觀察量的基本情況的統(tǒng)計方法的總稱,是對調查樣本中的包含的大量數據資料進行整理、概況和計算的過程,也是通過揭示數據分布特性從而匯總并表達定量數據的方法。用統(tǒng)計指標對定量數據進行統(tǒng)計描述,常從集中趨勢和離散程度兩個方面進行分析?;靖拍?/p>
集中趨勢統(tǒng)計指標1.均值
集中趨勢統(tǒng)計指標中位數是將一組觀察值從小到大按順序排列,位于中間的那個數據。即在全部數據中,小于和大于中位數的數據個數相等。將某一數據集從小到大按順序排序,當為奇數時,中位數的計算公式如下式所示。當為偶數時,中位數的計算公式如下式所示。集中趨勢統(tǒng)計指標2.中位數眾數是指數據集中出現最頻繁的值。眾數并不經常用來度量定性變量的中心位置,更適用于定性變量。眾數不具有唯一性。當然,眾數一般用于離散型變量而非連續(xù)型變量。集中趨勢統(tǒng)計指標3.眾數極差是表示樣本離散程度最基本的測量值,是樣本中最大值與最小值的差額,計算公式如下式所示。極差對數據集的極端值非常敏感,并且忽略了位于最大值與最小值之間的數據的分布情況。離散程度統(tǒng)計指標1.極差標準差度量數據偏離均值的程度,計算公式如下式所示。離散程度統(tǒng)計指標2.標準差四分位數包括上四分位數和下四分位數。將所有數值由小到大排列并分成四等份,處于第一個分割點位置的數值是下四分位數,處于第二個分割點位置(中間位置)的數值是中位數,處于第三個分割點位置的數值是上四分位數。四分位數間距,是上四分位數與下四分位數之差,其間包含了全部觀察值的一半。四分位數間距值越大,說明數據的變異程度越大;反之,說明變異程度越小。離散程度統(tǒng)計指標3.四分位數間距1可視化分析目錄描述性統(tǒng)計分析2常用Python探索分析函數3小結4將數據可視化的目的是化抽象為具體,將隱藏于數據中的規(guī)律直觀地展現出來。通過點的位置、曲線的走勢、圖形的面積等形式,直觀地呈現研究對象間的數量關系。不同類型的圖表展示數據的側重點不同,選擇合適的圖表可以更好地進行數據的可視化分析。常見的可視化圖表有散點圖、折線圖、柱形圖、餅圖、箱線圖和熱力圖等?;靖拍钌Ⅻc圖(ScatterDiagram)又稱為散點分布圖,是以一個特征為橫坐標,另一個特征為縱坐標,利用坐標點(散點)的分布形態(tài)反映特征間的統(tǒng)計關系的一種圖形。值是由點在圖表中的位置表示,類別是由圖表中的不同標記表示,通常用于比較跨類別的數據。散點圖可以提供2類關鍵信息。特征之間是否存在數值或者數量的關聯趨勢,關聯趨勢是線性的還是非線性的。如果有某一個點或者某幾個點偏離大多數點,這些點就是離群值,通過散點圖可以一目了然。從而可以進一步分析這些離群值是否可能在建模分析中產生很大的影響。散點圖散點圖通過散點的疏密程度和變化趨勢表示兩個特征的數量關系。不僅如此,如果有三個特征,若其中一個特征為類別型,散點圖改變不同特征的點的形狀或者顏色,即可了解兩個數值型特征和這個類別型之間的關系。散點圖折線圖(linechart)是一種將數據點按照順序連接起來的圖形。可以看作是將散點圖,按照x軸坐標順序連接起來的圖形。折線圖的主要功能是查看因變量y隨著自變量x改變的趨勢,最適合用于顯示隨時間(根據常用比例設置)而變化的連續(xù)數據。同時還可以看出數量的差異,增長趨勢的變化。除了分析數據的趨勢,折線圖還可以用來分析數據的周期性,周期性指某個變量隨著時間變化而呈現出某種周期變化趨勢,周期性按時間尺度分為年度、季節(jié)性、月度、周度、天和小時等周期性趨勢。折線圖柱形圖(barchart)又稱柱狀圖,是統(tǒng)計報告圖的一種,由一系列高度不等的縱向條紋或線段表示數據分布的情況,一般用橫軸表示數據所屬類別,縱軸表示數量或者占比。用柱形圖可以比較直觀地看出產品質量特性的分布狀態(tài),便于判斷其總體質量分布情況。柱形圖可以發(fā)現分布表無法發(fā)現的數據模式、樣本的頻率分布和總體的分布。柱形圖餅圖(PieGraph)是將各項的大小與各項總和的比例顯示在一張“餅”中,以“餅”的大小來確定每一項的占比。餅圖的每一個扇形部分代表每一類型的百分比或頻數,根據變量的類型數目將餅圖分成幾個部分,每一部分的大小與每一類型的頻數成正比。餅圖可以比較清楚地反映出部分與部分、部分與整體之間的比例關系,易于顯示每組數據相對于總數的大小,而且顯現方式直觀。餅圖箱線圖(Boxplot)也稱箱須圖,其繪制需使用常用的統(tǒng)計量,箱線圖能提供有關數據位置和分散情況的關鍵信息,尤其在比較不同特征時,更可表現其分散程度差異。箱線圖中每條線表示的含義如下圖所示。箱線圖箱線圖利用數據中的5個統(tǒng)計量(最小值、下四分位數、中位數、上四分位數和最大值)來描述數據,沒有對數據作任何限制性要求如服從某種特定的分布形式,它只是真實地、直觀地表現數據分布的本來面貌。另一方面,箱線圖判斷異常值的標準以四分位數和四分位距為基礎,四分位數具有一定的魯棒性:多達25%的數據可以變得任意遠而不會很大地擾動四分位數,所以異常值不能對這個標準施加影響。由此可見,箱線圖識別異常值的結果比較客觀,在識別異常值方面有一定的優(yōu)越性。此外箱線圖也可以粗略地看出數據是否具有對稱性、分布的分散程度等信息,可以用于在幾個樣本之間進行比較。箱線圖熱力圖是一種通過對色塊著色來顯示數據分布的統(tǒng)計圖表。繪制熱力圖時,需指定顏色映射的規(guī)則。如較大的值使用較深的顏色表示,較小的值使用較淺的顏色表示,也可以較大的值使用偏暖的顏色表示,較小的值使用較冷的顏色表示等。熱力圖熱力圖按數據結構一般可分為兩種,表格型和非表格型。表格型熱力圖也稱為色塊圖,它要求數據具有2個類別型屬性和1個數值型屬性,類別型屬性用于確定x、y軸,從而將圖表劃分為規(guī)整的矩形塊。數值型屬性決定了矩形塊的顏色。非表格型熱力圖也稱為平滑熱力圖,它要求數據具有3個數值型屬性,其中2個數值型屬性用于分別確定x、y軸,另一個1個數值型屬性用于確定點的著色,可以繪制在平行坐標系中。熱力圖能夠用于查看總體的情況、發(fā)現異常值、顯示多個變量之間的差異,還有一個常見用途為用于查看變量間是否存在任何相關性。如果要用熱力圖表示數據間的相關性,即繪制相關性熱力圖,還需要先計算相關系數。熱力圖為了準確地描述變量之間的線性相關程度,可以通過計算相關系數來實現。在二元變量的相關分析過程中比較常用的有Pearson相關系數、Spearman秩相關系數和判定系數。Pearson相關系數:一般用于析兩個連續(xù)性變量之間的關系,其計算公式如下式所示。相關系數的取值范圍:。不同的的取值表示的相關性如下式所示。熱力圖1.相關系數
熱力圖變量秩次的計算過程,如下表所示。因為一個變量的相同的取值必須有相同的秩次,所以在計算中采用的秩次是排序后所在位置的平均值。只要兩個變量具有嚴格單調的函數關系,那么它們就是完全Spearman相關的,這與Pearson相關不同,Pearson相關只有在變量具有線性關系時才是完全相關的。熱力圖從小到大排序從小到大排序時的位置秩次
0.5110.8221.0331.24(4+5)/2=4.51.25(4+5)/2=4.52.3662.877上述兩種相關系數在實際應用計算中都要對其進行假設檢驗,使用t檢驗方法檢驗其顯著性水平以確定其相關程度。研究表明,在正態(tài)分布假定下,Spearman秩相關系數與Pearson相關系數在效率上是等價的,而對于連續(xù)測量數據,更適合用Pearson相關系數來進行分析。熱力圖判定系數:判定系數是相關系數的平方,用表示;用來衡量回歸方程對的解釋程度。判定系數取值范圍:。越接近于1,表明與之間的相關性越強;越接近于0,表明兩個變量之間幾乎沒有直線相關關系。熱力圖為了更加直觀地分析屬性間的相關性,繪制1994年至2013年財政收入數據的相關性熱力圖。由圖中的顏色的深淺可看出,各屬性除了x11與y為負弱相關外,其他屬性都與y強相關。熱力圖2.相關性熱力圖1可視化分析目錄描述性統(tǒng)計分析2常用Python探索分析函數3小結4Python中的NumPy和pandas庫中都提供了函數或者方法用于描述性統(tǒng)計,這些函數或者方法主要用于計算數值型數據的最小值、均值、中位數、最大值、四分位數、極差、標準差、方差、協(xié)方差和變異系數等。NumPy中常見的描述性統(tǒng)計函數如下表所示。常用Python基本統(tǒng)計分析函數函數名稱說明函數名稱說明numpy.min最小值numpy.max最大值numpy.mean均值numpy.ptp極差numpy.median中位數numpy.std標準差numpy.var方差numpy.cov協(xié)方差pandas庫基于NumPy,自然也可以用這些函數對數據框進行描述性統(tǒng)計,同時pandas還提供了更加便利的describe方法來進行數值型數據的統(tǒng)計,能夠一次性得出數據框中所有數值型數據的非空值數目、均值、四分位數、標準差。pandas庫中的常用描述性統(tǒng)計方法,如下表所示。常用Python基本統(tǒng)計分析函數方法名稱說明方法名稱說明min最小值max最大值mean均值ptp極差median中位數std標準差var方差cov協(xié)方差sem標準誤差mode眾數skew樣本偏度kurt樣本峰度quantile四分位數count非空值數目describe描述統(tǒng)計mad平均絕對離差Matplotlib中繪制散點圖的函數為scatter,其語法格式如下。matplotlib.pyplot.scatter(x,y,s=None,c=None,marker=None,cmap=None,norm=None,vmin=None,vmax=None,alpha=None,linewidths=None,verts=None,edgecolors=None,hold=None,data=None,**kwargs)常用Python作圖函數1.散點圖scatter函數常用參數及其說明如下表所示。常用Python作圖函數參數名稱說明x,y接收array。表示x軸和y軸對應的數據。無默認值s接收數值或者一維的array。指定點的大小,若傳入一維array,,則表示每個點的大小。默認為Nonec接收顏色或者一維的array。指定點的顏色,若傳入一維array則表示每個點的顏色。默認為Nonemarker接收特定string。表示繪制的點的類型。默認為Nonealpha接收0~1的小數。表示點的透明度。默認為NoneMatplotlib中繪制折線圖的函數為plot,其語法格式如下。matplotlib.pyplot.plot(*args,**kwargs)常用Python作圖函數2.折線圖plot函數在官方文檔的語法中只要求填入不定長參數,實際可以填入的主要參數主要如下表所示。常用Python作圖函數參數名稱說明x,y接收array。表示x軸和y軸對應的數據。無默認值color接收特定string。指定線條的顏色。默認為Nonelinestyle接收特定string。指定線條類型。默認為“-”marker接收特定string。表示繪制的點的類型。默認為Nonealpha接收0~1的小數。表示點的透明度。默認為None其中color參數的8種常用顏色的縮寫如下表所示。常用Python作圖函數顏色縮寫代表的顏色顏色縮寫代表的顏色b藍色m品紅g綠色y黃色r紅色k黑色c青色w白色linestyle參數的4種常用線條類型的取值及其意義,如下表所示。常用Python作圖函數linestyle取值意義linestyle取值意義-實線-.點線--長虛線:短虛線marker參數的20種常用線條標記的取值及其意義,如下表所示。常用Python作圖函數marker取值意義marker取值意義o圓圈.點D菱形s正方形h六邊形1*星號H六邊形2d小菱形-水平線v一角朝下的三角形8八邊形<
一角朝左的三角形p五邊形>
一角朝右的三角形,像素^一角朝上的三角形+加號\豎線None無xXMatplotlib中繪制柱形圖的函數為bar,其語法格式如下。matplotlib.pyplot.bar(left,height,width=0.8,bottom=None,hold=None,data=None,**kwargs)bar函數常用參數及其說明,如下表所示。常用Python作圖函數3.柱形圖參數名稱說明left接收array。表示x軸數據。無默認值height接收array。表示x軸所代表數據的數量。無默認值width接收0~1的float。指定柱形圖寬度。默認為0.8color接收特定string或者包含顏色字符串的array。表示柱形圖顏色。默認為NoneMatplotlib中繪制餅圖的函數為pie,其語法格式如下。matplotlib.pyplot.pie(x,explode=None,labels=None,colors=None,autopct=None,pctdistance=0.6,shadow=False,labeldistance=1.1,startangle=None,radius=None,counterclock=True,wedgeprops=None,textprops=None,center=(0,0),frame=False,hold=None,data=None)常用Python作圖函數4.餅圖pie函數常用參數及其說明,如下表所示。常用Python作圖函數參數名稱說明x接收array。表示用于繪制撇的數據。無默認值explode接收array。表示指定項離餅圖圓心為n個半徑。默認為Nonelabels接收array。指定每一項的名稱。默認為Nonecolor接收特定string或者包含顏色字符串的array。表示餅圖顏色。默認為Noneautopct接收特定string。指定數值的顯示方式。默認為Nonepctdistance接收float。指定每一項的比例和距離餅圖圓心n個半徑。默認為0.6labeldistance接收float。指定每一項的名稱和距離餅圖圓心多少個半徑。默認為1.1radius接收float。表示餅圖的半徑。默認為1Matplotlib中繪制箱線圖的函數為boxplot,其基本使用語法如下。matplotlib.pyplot.boxplot(x,notch=None,sym=None,vert=None,whis=None,positions=None,widths=None,patch_artist=None,bootstrap=None,usermedians=None,conf_intervals=None,meanline=None,showmeans=None,showcaps=None,showbox=None,showfliers=None,boxprops=None,labels=None,flierprops=None,medianprops=None,meanprops=None,capprops=None,whiskerprops=None,manage_xticks=True,autorange=False,zorder=None,hold=None,data=None)常用Python作圖函數5.箱線圖boxplot函數常用參數及其說明,如下表所示。常用Python作圖函數參數名稱說明x接收array。表示用于繪制箱線圖的數據。無默認值notch接收boolean。表示中間箱體是否有缺口。默認為Nonesym接收特定sting。指定異常點形狀。默認為Nonevert接收boolean。表示圖形是橫向縱向或者橫向。默認為Nonepositions接收array。表示圖形位置。默認為Nonewidths接收scalar或者array。表示每個箱體的寬度。默認為Nonelabels接收array。指定每一個箱線圖的標簽。默認為Nonemeanline接收boolean。表示是否顯示均值線。默認為FalseSeaborn庫中的heatmap函數可以繪制熱力圖,其語法格式如下。seaborn.heatmap(data,vmin=None,vmax=None,cmap=None,center=None,robust=False,annot=None,fmt='.2g',annot_kws=None,linewidths=0,linecolor='white',cbar=True,cbar_kws=None,cbar_ax=None,square=False,xticklabels='auto',yticklabels='auto',mask=None,ax=None,**kwargs)常用Python作圖函數6.熱力圖heatmap函數的常用參數及其說明,如下表所示。常用Python作圖函數參數名稱說明data接受rectangulardataset(矩形數據集)。表示用于繪制熱力圖的數據,可以是array或者dataframe,若是dataframe,則dataframe的index和column信息會分別對應到heatmap的columns和rows。無默認值vmin,v
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 家具配送運輸合同
- 車位買賣合同范本
- 按揭房子買賣合同
- 與勞務公司勞務派遣協(xié)議
- 美容護理服務協(xié)議及風險免責聲明
- 承包挖掘機租賃合同書
- 房屋買賣合同欺詐賠償
- 戶外活動風險自負協(xié)議書
- 化妝品行業(yè)消費者行為分析與營銷策略優(yōu)化方案
- 供應鏈管理體系優(yōu)化項目協(xié)議
- 醫(yī)保基金監(jiān)管培訓課件
- 參地益腎口服液作用機制研究
- 放射性藥物運輸與存儲的安全性要求
- 學校食堂食品安全知識培訓課件
- 合同-勞動主體變更三方協(xié)議
- 我國新聞短視頻的創(chuàng)新模式及對策研究
- 阿米巴經營-稻盛和夫經營哲學的實學應用
- 八段錦口令標準版合集
- 新版藥品管理法培訓完整版本課件
- 北師大版高中英語選擇性必修四全冊課文及翻譯(中英文Word)
- 心靈手巧織美好-精美掛件我會編 (教案)-二年級下冊勞動浙教版
評論
0/150
提交評論