SAS系統(tǒng)和數(shù)據(jù)分析全隨機設計Kruskal-Wallis秩和檢驗_第1頁
SAS系統(tǒng)和數(shù)據(jù)分析全隨機設計Kruskal-Wallis秩和檢驗_第2頁
SAS系統(tǒng)和數(shù)據(jù)分析全隨機設計Kruskal-Wallis秩和檢驗_第3頁
SAS系統(tǒng)和數(shù)據(jù)分析全隨機設計Kruskal-Wallis秩和檢驗_第4頁
SAS系統(tǒng)和數(shù)據(jù)分析全隨機設計Kruskal-Wallis秩和檢驗_第5頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、第二十九課 完全隨機設計Kruskal-Wallis秩和檢驗一、 完全隨機設計的Kruskal-Wallis秩和檢驗方差分析過程關注三個或更多總體的均值是否相等的問題,數(shù)據(jù)是被假設成具有正態(tài)分布和相等的方差,此時F檢驗才能奏效。但有時采集的數(shù)據(jù)常常不能完全滿足這些條件。在兩兩樣本比較時,我們不妨嘗試將數(shù)據(jù)轉換成秩統(tǒng)計量,因為秩統(tǒng)計量的分布與總體分布無關,可以擺脫總體分布的束縛。在比較兩個以上的總體時,廣泛使用非參數(shù)的Kruskal-Wallis秩和檢驗,它是對兩個以上的秩樣本進行比較,本質上它是兩樣本時的Wilcoxon秩和檢驗方法在多于兩個樣本時的推廣。Kruskal-Wallis秩和檢驗,

2、首先要求從總體中抽取的樣本必須是獨立的,然后將所有樣本的值混合在一起看成是單一樣本,再把這個單一的混合樣本中的值從小到大排序,序列值替換成秩值,最小的值給予秩值1,有結值時平分秩值。將數(shù)據(jù)樣本轉換成秩樣本后,再對這個秩樣本進行方差分布,但此時我們構造的統(tǒng)計量KW不是組間平均平方和除以組內(nèi)平均平方和,而是組間平方和除以全體樣本秩方差。這個KW統(tǒng)計量是我們判定各組之間是否存在差異的有力依據(jù)。設有組樣本,是第組樣本中的觀察數(shù),是所有樣本中的觀察總數(shù),是第組樣本中的秩和,是第組樣本中的第個觀察值的秩值。需要檢驗的原假設為各組之間不存在差異,或者說各組的樣本來自的總體具有相同的中心或均值或中位數(shù)。在原假

3、設為真時,各組樣本的秩平均應該與全體樣本的秩平均比較接近。所以組間平方和為組間平方和(29.1)恰好是刻畫這種接近程度的一個統(tǒng)計量,除以全體樣本秩方差,可以消除量綱的影響。樣本方差的自由度為。所以,全體樣本的秩方差為全體樣本的秩方差=(29.2)因此,Kruskal-Wallis秩和統(tǒng)計量KW為:(29.3)如果樣本中存在結值,需要調整公式(4.3.3)中的KW統(tǒng)計量,校正系數(shù)C為:(29.4)其中,第j個結值的個數(shù)。調整后的KWc統(tǒng)計量為:(29.5)如果每組樣本中的觀察數(shù)目至少有5個,那么樣本統(tǒng)計量KWc非常接近自由度為的卡方分布。因此,我們將用卡方分布來決定KWc統(tǒng)計量的檢驗。例29.1

4、某制造商雇用了來自三個本地大學的雇員作為管理人員。最近,公司的人事部門已經(jīng)收集信息并考核了年度工作成績。從三個大學來的雇員中隨機地抽取了三個獨立樣本,見表29.1中的第2、4、6列所示。制造商想知道來自這三個不同的大學的雇員在管理崗位上的表現(xiàn)是否有所不同。表29.1 來自三個不同大學的雇員得分及統(tǒng)一秩值雇員大學A統(tǒng)一編秩大學B統(tǒng)一編秩大學C統(tǒng)一編秩12536095072701220270123609304609485171518015.5595204069018.569018.5355701278015.57514秩和組A秩和95組B秩和27組C秩和88為了計算KW統(tǒng)計量,我們首先必須將來自三

5、個大學的20名雇員統(tǒng)一按考核成績編排秩值,見表29.1中的第3、5、7列所示。本例中,7,6,7,20,95,27,88,3,三個總體的考核成績分布是相同的。我們用(29.3)式計算KW統(tǒng)計量為:用(29.4)式計算校正系數(shù)C,從表29.1中我們可以發(fā)現(xiàn),相等成績值和相等的個數(shù)分別為60分3個,70分3個,80分2個,90分2個。所以:調整后的KWc為:查表可知道,自由度為的卡方分布,在顯著水平下,分布的上尾臨界值為5.99,由于8.985.99,因此拒絕原假設。所以,秩和最低的B組至少與秩和最高的A組是不同的。二、 freq頻數(shù)過程Freq頻數(shù)過程可以生成單向和n向的頻率表和交叉表。對于雙向

6、表(二維表),該過程計算檢驗統(tǒng)計量和關聯(lián)度。對于n向表,該過程進行分層分析,計算每一層和交叉層的統(tǒng)計量。這些頻數(shù)也能夠輸出到SAS數(shù)據(jù)集里。1. freq過程說明proc freq過程一般由下列語句控制:proc freq data=數(shù)據(jù)集 ;by 變量列表 ;tables 交叉表的表達式 ;weight 變量;output ;run ;該過程proc freq語句是必需的。其余語句是供選擇的。另外,該過程只能使用一個output語句。2. proc freq語句的選項l order=freq/data/internal/formatted規(guī)定變量水平的排列次序。freq表示按頻數(shù)下降的次序,

7、data表示按輸入數(shù)據(jù)集中出現(xiàn)的次序,internal表示按非格式化值的次序(缺省值),formatted按格式化值的次序。l formachar(1,2,7)=三個字符規(guī)定用來構造列聯(lián)表的輪廓線和分隔線的字符。缺省值為formachar(1,2,7)=|+,第一個字符用來表示垂直線,第二個字符用來表示水平線,第三個字符用來表示水平與垂直的交叉線。l page要求freq每頁只輸出一張表。否則,按每頁行數(shù)允許的空間輸出幾張表。l noprint禁止freq過程產(chǎn)生所有輸出。3. by語句一個by語句能夠用來得到由by變量定義的分組觀察,并分別進行分析。過程要求輸入的數(shù)據(jù)集已按by變量排序。4.

8、 tables語句可以包括多個tables語句。如果沒有tables語句,對數(shù)據(jù)集中的每個變量都生成一個單向頻數(shù)表。如果tables語句沒有選項,則計算tables語句中規(guī)定變量每個水平的頻數(shù)、累計頻數(shù)、占總頻數(shù)的百分比及累計百分比。Tables語句中的交叉表的表達式,請參見第二章第二節(jié)proc tabulate過程中的table語句的用法。Tables語句中的主要選項如下:l all要求計算所有選項的檢驗和度量,包括chisq、measures和cmh。l chisq要求對每層是否齊性或獨立性進行卡方檢驗,包括pearson卡方、似然比卡方和Mantel-Haenszel卡方。并計算依賴于卡

9、方統(tǒng)計量的關聯(lián)度,包括phi系數(shù)、列聯(lián)系數(shù)和Cramer V。對于22聯(lián)列表還自動計算Fisher的精確檢驗。l cmh要求Cochran-Mantel-Haenszel卡方統(tǒng)計量,用于2維以上表時,檢驗行變量和列變量是否有線性相關。exact要求對大于22表計算Fisher的精確檢驗。Fisher的精確檢驗是假設行與列的邊緣頻數(shù)固定,并且在零假設為真時,各種可能的表的超幾何概率之和。l measures要求計算若干個有關相關的統(tǒng)計量及它們的漸近標準誤差。alpha=p設定100(1p)%置信區(qū)間。缺省值為alpha=0.05。l scores=rank/table/ridit/modridi

10、t定義行/列得分的類型以便用于cmh統(tǒng)計量和pearson相關中。在非參數(shù)檢驗中,一般常用scores=rank,用于指定非參數(shù)分析的秩得分。cellchi2要求輸出每個單元對總卡方統(tǒng)計量的貢獻。cumcol要求在單元中輸出累計列百分數(shù)。l expected在獨立性(或齊性)假設下,要求輸出單元頻數(shù)的期望值。l deviation要求輸出單元頻數(shù)和期望值的偏差。missprint要求所有頻數(shù)表輸出缺失值的頻數(shù)。l missing要求把缺失值當作非缺失值看待,在計算百分數(shù)及其他統(tǒng)計量時包括它們。out=輸出數(shù)據(jù)集建立一個包括變量值和頻數(shù)的輸出數(shù)據(jù)集。l sparse要求輸出在制表要求中變量水平的

11、所有可能組合的信息。l list以表格形式打印二維表。l nocum/norow/nocol/nofreq/noprint分別不輸出累計頻率數(shù)、行百分率、列百分率、單元頻數(shù)、頻數(shù)表。l5. weight語句通常每個觀察對頻數(shù)計數(shù)的貢獻都是1。然而當使用weight語句時,每個觀察對頻數(shù)計數(shù)的貢獻為這個觀察對應的權數(shù)變量的值。6. output語句該語句用于創(chuàng)建一個包含由proc freq過程計算的統(tǒng)計量的SAS數(shù)據(jù)集。由output語句創(chuàng)建的數(shù)據(jù)集可以包括在tables語句中要求的任意統(tǒng)計量。當有多個tables語句時,output語句創(chuàng)建的數(shù)據(jù)集的內(nèi)容相應于最后要求的那個表。三、 實例分析例

12、29.1的SAS程序如下:data study.colleges ;do group=1 to 3;input n; do i=1 to n; input x ; output;end;end; cards;725 70 60 85 95 90 80660 20 30 15 40 35750 70 60 80 90 70 75;proc npar1way data=study.colleges wilcoxon; class group;var x;run;程序說明:建立輸入數(shù)據(jù)集colleges ,數(shù)據(jù)的輸入和完全隨機化方差分析的數(shù)據(jù)輸入完全相同,先輸入本組數(shù)據(jù)的總數(shù),然后輸入組中每個數(shù)據(jù)。

13、分組變量為group,共有三組取值為1、2和3。輸入變量為x,存放每組中的數(shù)據(jù)。過程步調用npar1way 過程,后面用選擇項wilcoxon,當樣本數(shù)大于兩個時,自動進行多樣本的Kruskal-Wallis秩和檢驗。class語句后給出分組變量名group,var語句后給出要分析的變量x。主要結果如表29.2所示。表29.2 用npar1way過程進行多樣本比較的Kruskal-Wallis秩和檢驗輸出結果N P A R 1 W A Y P R O C E D U R E Wilcoxon Scores (Rank Sums) for Variable X Classified by Var

14、iable GROUP Sum of Expected Std Dev Mean GROUP N Scores Under H0 Under H0 Score 1 7 95.0 73. 12. 13. 2 6 27.0 63. 12. 4. 3 7 88.0 73. 12. 12. Average Scores Were Used for Ties Kruskal-Wallis Test (Chi-Square Approximation) CHISQ = 8.9839 DF = 2 Prob CHISQ = 0.0112結果說明:組1、組2和組3的秩和(Sum of Scores)分別為95

15、.0、27.0和88.0。原假設(組1、組2和組3的總體分布相同)為真時,期望秩值(Expected)分別為(95+27+88)7/(7+6+7)=73.50、(95+27+88)6/(7+6+7)=63.00和(95+27+88)7/(7+6+7)=73.50,各組的標準差(Std Dev)分別為12.、12.、12.。每組平均得分(Mean Score)分別為95/7=13.、27/6=4.50和88/7=12.。按公式(29.5)調整后多樣本的Kruskal-Wallis秩和檢驗統(tǒng)計量為8.9839 ,用自由度為DF=31=2的卡方分布近似,得到大于近似卡方檢驗統(tǒng)計量8.9839的概率為

16、p =0.01120.05,因此不能拒絕group和x不線性相關。第二項cmh統(tǒng)計量為ANOVA統(tǒng)計量,首先要求列變量x是有序的。原假設為每一層的3個行的x平均得分是相等的,本例只有一層,且得分指定scores=rank選項,即用秩得分方法,因此就是Kruskal-Wallis秩和檢驗統(tǒng)計量,自由度為行數(shù)減1,即31=2,漸近自由度為2的卡方分布,KW= 8.984,p=0.0110.05,不能拒絕不相關。第三十課 Spearman等級相關分析四、 秩相關的Spearman等級相關分析前面介紹了使用非參數(shù)方法比較總體的位置或刻度參數(shù),我們同樣也可以用非參數(shù)方法比較兩總體之間的相關問題。秩相關(

17、rank correlation)又稱等級相關,它是一種分析和等級間是否相關的方法。適用于某些不能準確地測量指標值而只能以嚴重程度、名次先后、反應大小等定出的等級資料,也適用于某些不呈正態(tài)分布或難于判斷分布的資料。設和分別為和各自在變量X和變量Y中的秩,如果變量X與變量Y之間存在著正相關,那么X與Y應當是同時增加或減少,這種現(xiàn)象當然會反映在(,)相應的秩(,)上。反之,若(,)具有同步性,那么(,)的變化也具有同步性。因此:(30.1)具有較小的數(shù)值。如果變量X與變量Y之間存在著負相關,那么X與Y中一個增加時,另一個在減小,具有較大的數(shù)值。既然由(,)構成的樣本相關系數(shù)反映了X與Y之間相關與否

18、的信息,那么在參數(shù)相關系數(shù)的公式中以和分別代替和,不是同樣地反映了這種信息嗎?基于這種想法,Charles Spearman秩相關系數(shù)應運而生:(30.2)與形式上完全一致,但在中的秩,不管X與Y取值如何,總是只取1到之間的數(shù)值,因此它不涉及X與Y總體其他的內(nèi)在性質,例如,秩相關不需要總體具有有限兩階矩的要求。由于:因此,公式(30.2)可以化簡為:(30.3)顯然在=時,秩相關系數(shù)達到最大值1。又因為:而在每對+=時達到最小值,最小值求法為:所以,最小的為:最大的為:故秩相關系數(shù)的最小值為12=1。在原假設和不相關的情況為真時,即秩相關系數(shù)為0時,的期望值為0,樣本的方差為(30.4)自由度

19、為且分布關于零點對稱。當10時,的樣本分布可以標準化為近似的t分布:(30.5)例30.1某公司想要知道是否職工期望成為好的銷售員而實際上就能有好的銷售記錄。為了調查這個問題,公司的副總裁仔細地查看和評價了公司10個職工的初始面試摘要、學科成績、推薦信等材料,最后副總裁根據(jù)他們成功的潛能給出了單獨的等級評分。二年后獲得了實際的銷售記錄,得到了第二份等級評分,見表30.1中的第1到4列所示。統(tǒng)計問題為是否職工的銷售潛能與開始二年的實際銷售成績一致。表30.1 職工的銷售潛能與銷售成績的秩相關分析職工編號潛能等級銷售成績成績等級12400111243603113730052441295652556

20、280711633504117102001000892608119822091110538523944Spearman秩相關系數(shù)的計算過程見表30.1中的第5到6列所示,最后計算結果為表明潛能與成績之間是較強的正相關,高的潛能趨向于好的成績。秩相關系數(shù)原假設為0的t檢驗統(tǒng)計量為:查表自由度為8,t=3.05的雙側p=0.0158。在0.05顯著水平上,t分布的上臨界點為2.30,由于3.052.30,因此,拒絕秩相關系數(shù)為0的原假設,接受潛能與成績之間存在秩相關。五、 Corr相關過程Corr相關過程用于計算變量之間的相關系數(shù),包括Pearson(皮爾遜)的乘積矩相關和加權乘積矩相關。還能產(chǎn)生

21、三個非參數(shù)的關聯(lián)測量:Spearman的秩相關,Kendall的tau-b和Hoeffding的相關性度量D。該過程也可以計算偏相關等一些單變量的描述性統(tǒng)計量。1. Corr過程說明proc corr過程一般由下列語句控制:proc corr data=數(shù)據(jù)集 ;var 變量列表;with 變量列表 ;partial 變量列表 ;weight 變量 ;freq 變量 ;By 變量列表 ;run ;proc corr語句調用corr過程,且是唯一必需的語句。如果只使用proc corr這一條語句,過程計算輸入數(shù)據(jù)集中所有數(shù)值變量之間的相關系數(shù)。其余語句是供選擇的。2. proc corr語句的選

22、項l outp數(shù)據(jù)集名產(chǎn)生含有Pearson相關系數(shù)的一個新數(shù)據(jù)集。l outs數(shù)據(jù)集名產(chǎn)生含有Spearman等級相關系數(shù)的一個新數(shù)據(jù)集。l outk數(shù)據(jù)集名產(chǎn)生含有Kendallb相關系數(shù)的一個新數(shù)據(jù)集。l outh=數(shù)據(jù)集名產(chǎn)生含有Hoeffding D統(tǒng)計量的一個新數(shù)據(jù)集。l pearson要求計算通常的pearson乘積矩相關系數(shù),是缺省值。l hoeffding要求計算并輸出Hoeffding 的D統(tǒng)計量。l kendall要求計算并輸出Kendallb相關系數(shù)。l spearman要求計算并輸出Spearman等級相關系數(shù)。l vardefdf | weight | wgt |

23、wdf指定計算方差時的除數(shù):df(自由度n1),weight或wgt(權重之和),n(觀察數(shù)),wdf(權重之和1)。缺省值為df。l cov計算協(xié)方差方差矩陣。l sscp 要求輸出平方和與交叉積和。l csscp 要求輸出偏差平方和與交叉積和。l best=數(shù)值對每個變量輸出指定個數(shù)的絕對值最大的相關系數(shù)。l noprint禁止所有打印輸出。l noprob禁止輸出同這些相關有聯(lián)系的顯著性概率。l nosimple對原始數(shù)據(jù)執(zhí)行標準方差分析。l rank要求按絕對值從高到低的次序對每個變量輸出相關系數(shù)。l nocorr抑制Pearson相關的計算及輸出。l nomiss 將帶有某一變量缺失

24、值的觀測值從所有計算中除去。l nosimple不輸出每個變量的簡單描述性統(tǒng)計量。3. var語句該語句列出要計算相關系數(shù)的變量。例如,var a b c;則計算a和b,a和c,b和c三對變量之間的相關系數(shù)。4. with語句為了得到變量間的特殊組合的相關系數(shù),該語句和var語句聯(lián)合使用。用var語句列出的變量在輸出相關陣的上方,而用with語句列出的變量豎在相關陣左邊。例如,var a b;with x y z;則生成x和a,y和a,z和a,x和b,y和b,z和b。5. partial語句為了計算Pearson偏相關,Spearman偏秩相關,Kendall偏tau-b,用該語句給出偏出去(

25、即固定)的變量名。6. weight語句為了計算加權的乘積矩相關系數(shù),用該語句給出權數(shù)變量名。該語句僅用于Pearson相關。7. freq語句當規(guī)定freq語句時,輸入數(shù)據(jù)集中的每個觀察假定代表n個觀察,其中n是該觀察中freq變量中的值。觀察的總數(shù)規(guī)定為freq變量值的和。8. by語句使用by語句能夠獲得用by變量定義的分組觀察的獨立分析結果。六、 實例分析例30.1的SAS程序如下:data study.persons ;input x y ;y=400-y; cards;2 400 4 360 7 300 1 295 6 280 3 350 10 200 9 260 8 220 5 385;proc c

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論