數據分析與數據挖掘課件 【ch03】可視化圖與分組檢驗_第1頁
數據分析與數據挖掘課件 【ch03】可視化圖與分組檢驗_第2頁
數據分析與數據挖掘課件 【ch03】可視化圖與分組檢驗_第3頁
數據分析與數據挖掘課件 【ch03】可視化圖與分組檢驗_第4頁
數據分析與數據挖掘課件 【ch03】可視化圖與分組檢驗_第5頁
已閱讀5頁,還剩36頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第三章可視化圖與分組檢驗數據分析與數據挖掘01數據的常用可視化圖分析數據的常用可視化圖P-P圖(P-Pplot)又稱概率-概率圖(Probability-probabilityplot)或百分比-百分比圖(Percent-percentplot),用于展示兩組數據相接近的程度。

散點圖(Scatterplot)主要用于展示兩個變量X和Y的相關性,也常在立體空間中用散點圖分析三個變量的相關性。數據的常用可視化圖順序圖(Sequenceplot)是對一組樣本數據X按照從前到后的順序以折線圖形式展示,橫坐標代表樣本的順序,縱坐標代表對應樣本點值。時滯圖(Lagplot)是一種展示數據是否具有隨機性的散點圖,用于展示數據的時間序列關系。數據的常用可視化圖對于一組數值數據,基于圖的數據可視化包括:(1)進行數據的描述性統(tǒng)計并繪制盒圖,掌握數據的總體情況。(2)繪制頻數的直方圖,繪制樣本數據的經驗分布圖,掌握數據的分布情況。(3)繪制分位數圖(Q-Q圖),了解數據的總體趨勢。(4)繪制四圖,掌握數據的隨機性、是否具備正態(tài)分布特性。(5)如果猜測具有某種已知的參考分布,如正態(tài)分布、指數分布、均勻分布等,可以繪制P-P圖,查看數據是否滿足猜想的分布。(6)計算中心值(中位數或均值),對每組數減去中心值,繪制折線圖(或順序圖),了解數據的正負波動情況和離群點情況?;趫D的可視化觀測一般過程02均值比較和t檢驗20%30%40%50%

分組統(tǒng)計就是將指定的一個或多個屬性變量作為分組依據,對樣本進行分組,然后分別對每組數據統(tǒng)計。

分組統(tǒng)計是在掌握數據的整體狀態(tài)后,對樣本數據做更細致的分析,其作用包括:①掌握各組的頻數和相對頻數,可以繪制直方圖;②掌握各組的各個統(tǒng)計量信息,如均值、方差等,用于各組數據的對比,可以通過圖形展示各組信息,以及將各組情況做對比。分組統(tǒng)計

數據標準化(Normalization),又稱數據規(guī)范化,主要用于數據的可理解性、數據的可比性、數據的無量綱化。數據標準化與Z-Score

單樣本t檢驗是檢驗某個樣本均值和某個指定值(一般是總體期望值)之間是否存在顯著性差異。該檢驗的前提是,假設樣本所在總體必須服從正態(tài)分布。單樣本t檢驗兩獨立樣本t檢驗兩個獨立樣本是指兩個樣本之間彼此獨立沒有關聯。獨立樣本t檢驗用于判別兩個樣本所在兩個總體均值之間是否有顯著性差異。兩配對樣本(Twopairedsample,Tworelativesample)是指兩個樣本具有相同容量,并且按照順序,相同順序號的元素—一對應。令x=(x1,x2,…,xn)和y=(y1,y2,…,yn)為兩個樣本,具有相同容量n。如果對每個i,(xi,yi)被視為配對數據,則稱x和y為兩配對樣本。兩配對樣本t檢驗03方差齊性檢驗

Levene方差齊性檢驗又稱Levene檢驗(Levene'stest),可用于對兩組或多組樣本進行方差齊性檢驗。

方差用于度量一組數據與其平均值的偏離程度,屬于一種離散程度的度量。在樣本容量相同的情況下,方差越大,說明數據的波動越大,越不穩(wěn)定。Levene方差齊性檢驗

F檢驗(F-test)可以用于樣本所在兩正態(tài)總體的方差齊性檢驗。F檢驗又稱方差比率齊性檢驗(Ratiotestofvarianceequality)。F檢驗是參數檢驗方法。

F檢驗的前提條件是:①樣本來自的兩個總體必須服從正態(tài)分布X~N(H,c2),Y~N(H?,C?);②X和Y的抽樣相互獨立,樣本容量分別為m和m?且可以不同,各樣本內部的個案順序任意。基于F檢驗的方差齊性檢驗

Brown-Forsythe方差齊性檢驗是Levene檢驗的修改版。在Levene中,Zg是由式(3.15)計算的,即按照數據減去均值計算偏離程度。Brown-Forsythe方差齊性檢驗Bartlett's方差齊性檢驗(Bartlett'stestofequalvariances)用于檢驗多組樣本所在總體是否具有方差齊性(方差相等)。方差齊性(Homogeneityofvariances)是指若干總體具有(統(tǒng)計上)相等的方差。Bartlett's方差齊性檢驗

04兩獨立樣本的非參數檢驗

Mann-WhitneyU檢驗的核心思想是:若兩個樣本有差異,則它們的中心位置將不同,屬于非參數檢驗。該檢驗常用于檢驗平均中心趨勢(如中位數)是否存在顯著性差異。

Mann-WhitneyU檢驗(曼-惠特尼秩和檢驗),簡稱秩和檢驗。該檢驗用于檢驗兩個獨立樣本所在的總體分布是否存在顯著性差異,或者說,兩個獨立樣本是否是從具有同樣分布的總體中抽取的。Mann-WhitneyU檢驗兩獨立樣本t檢驗K-S檢驗(Kolmogorov-Smirnov檢驗)用于檢驗兩個獨立樣本所在總體分布是否存在顯著性差異,或者說兩個獨立樣本是否來自同一個概率分布的總體。在兩獨立樣本檢驗中,K-S檢驗統(tǒng)計量為式(3.29)。在雙樣本分布中,如圖3.4(a)所示,雖然第1個樣本容量n和第2個樣本容量m的個數可能不同,但仍然能夠對同一x計算出兩個分布的偏差,如圖3.4(b)所示,所獲得的Dnm值代表最大絕對偏差值。兩獨立樣本K-S檢驗

兩獨立樣本的游程檢驗(Wald-Wolfwitzrunstest,W-W檢驗)用來檢驗樣本所在總體分布是否存在顯著性差異。2.6.4節(jié)中的單樣本游程檢驗用于檢驗一個變量是否具有隨機性。兩獨立樣本的游程檢驗將兩組數據按序混合重新排序(升序或降序)",在排序過程中組號也隨排序過程一起變動。這樣排序之后,獲得了組號的重排序列。兩獨立樣本游程檢驗

20%30%40%50%

Moses極端反應檢驗(Mosesextremereactions)用來檢驗兩個樣本所在總體分布是否存在顯著性差異。Moses極端反應檢驗是一種非參數檢驗方法。

對于輸入的兩個樣本x和y,將其中一個樣本作為控制樣本(Controlsample),另一個樣本作為實驗樣本(Experimentalsample),假設第1組樣本是控制樣本,第2組樣本是實驗樣本。兩獨立樣本Moses極端反應檢驗

兩獨立樣本Brown-Mood中位數檢驗的原假設Ho:Mx與My沒有顯著性差異,即Mx=Mr。相應的備選假設可以有:①H:Mx≠My,此時采用雙側檢驗;②H?:Mx<My,此時采用左側檢驗;③H?:Mx>My,此時采用右側檢驗。應根據問題選擇備選假設。下面以雙側檢驗為例,另兩種只需檢驗時的P-Value按單側檢驗計算即可。

Brown-Mood中位數檢驗,用于檢驗兩組獨立樣本所在兩總體的中位數是否存在顯著性差異。兩獨立樣本Brown-Mood中位數檢驗05兩配對樣本的非參數檢驗20%30%40%50%

符號檢驗(Signtest)是一種非參數檢驗方法,用于測試兩組觀察結果之間的一致性差異,可進行兩配對樣本的檢驗。

符號檢驗的前提條件是:①兩個樣本x=(x1,x2,…,xn),y=(y1,y2,…,yn)是配對的,每個對(xi,yi)被獨立地采樣;②x和y中的數據可以是數值屬性數據,也可以是序數屬性數據,要求能夠進行xi和yi的大小關系比較,即能判斷出xi>yi、xi<yi或xi=yi;③x中的數據來自同一個總體,y中的數據來自同一個總體。兩配對樣本符號檢驗

具體來說:①統(tǒng)計“+”符號的個案數為n1,“-”符號的個案數為n2;②構建檢驗統(tǒng)計量S=n1/(n1+n2),然后按照指定比例0.5進行二項分布檢驗。分位數檢驗也類似中位數檢驗,只是檢驗比例按照分位點所處的比例計算。符號檢驗(Signtest)還能用于單樣本中位數檢驗、分位數檢驗及比例檢驗。數據排序后,中位數之前的數據量約占50%,之后的數據量約占50%。兩中位數、分位數及比例的符號檢驗

Wilcoxon符號秩檢驗(Wilcoxonsigned-ranktest)用于檢驗兩配對樣本的總體均值是否存在顯著性差異,或者理解成兩配對樣本是否來自同一總體。

Wilcoxon符號秩檢驗的直接原假設Ho:兩配對樣本所在總體分布的差異,圍繞0服從對稱分布;備選假設:兩配對樣本所在總體分布的差異,不圍繞0服從對稱分布。兩配對樣本Wilcoxon符號秩檢驗Wilcoxon符號秩檢驗還可以用于檢驗單樣本的總體中心(中位數)是否與某一特定值存在顯著性差異。Wilcoxon符號秩檢驗屬于非參數檢驗,因此,當不能假設總體服從正態(tài)分布時,不能使用單樣本t檢驗,可以使用Wilcoxon符號秩檢驗。原假設Ho:樣本所在總體均值μ與指定值Ho沒有顯著性差異。Wilcoxon符號秩單樣本檢驗兩配對樣本McNemar檢驗McNemar檢驗(McNemar'stest)用于對分類屬性上的配對檢驗。McNemar檢驗屬于一種非參數檢驗方法。邊緣齊性檢驗(Marginalhomogeneitytest),也稱邊際齊性檢驗,用于兩配對樣本所在總體分布的顯著性差異檢驗,其中兩個樣本具有相同的分類水平(Level)且各分類水平有序。邊緣齊性檢驗06多樣本的非參數檢驗

中位數檢驗(Mood'sMediantest,Median檢驗)用于檢驗兩個或多個樣本(兩組或多組樣本)的總體中位數是否存在顯著性差異。多獨立樣本中位數檢驗Kruskal-Wallis檢驗(Kruskal-Wallistest,K-W檢驗),用于檢驗多組樣本所在總體分布是否存在顯著性差異,或者說多組樣本是否來自同一分布。K-W檢驗是一種基于平均秩的單因素分析方法,是一種非參數檢驗方法。K-W檢驗擴展了Mann-WhitneyU檢驗,可以用于檢驗多組樣本所在總體分布的顯著性差異。多獨立樣本Kruskal-Wallis檢驗

20%30%40%50%

Jonckheere-Terpstra檢驗(Jonckheere-Terpstratest,J-T檢驗),又稱Jonckheere趨勢檢驗(Jonckheere'strendtest),用于檢驗多組樣本(多個樣本)所在總體分布是否存在顯著性差異,或者說檢驗幾個獨立樣本是否來自同一總體。

令g(g≥2)代表總組數,日是第i組樣本所在總體的中位數,簡稱第i個總體的中位數。

J-T檢驗的原假設Ho:樣本所在各個總體分布沒有顯著性差異,或者說,各組樣本來自同一個總體。多獨立樣本Jonckheere-Terpstra檢驗Friedman檢驗(Friedmantest),用于檢驗多組配對樣本所在總體分布是否存在顯著性差異。Friedman檢驗是一種非參數統(tǒng)計檢驗,用于測試多次實驗中配對結果是否存在顯著性差異。假設各組樣本以列向量形式排列在一起構成一個矩陣,組數為g,樣本容量為n,因此構成一個矩陣{x,}mg。Fricdman檢驗原假設Ho:樣本所在多個配對總體分布沒有顯著性差異。多配對樣本Friedman檢驗Kendall協(xié)同系數檢驗(Kendall'sCoefficientofConcordancetest),用于檢驗多個評價者是否有一致的評分標準。多配對樣本Kendall協(xié)同系數檢驗多配對樣本Cochran'sQ檢驗Cochran‘sQ檢驗(Cochran’sQtest),用于檢驗多配對樣本所在配對總體是否存在顯著性差異。它屬于一種非參數檢驗方法。每組樣本中的數據以兩分類數

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論