sas課件第二章描述性分析_第1頁
sas課件第二章描述性分析_第2頁
sas課件第二章描述性分析_第3頁
sas課件第二章描述性分析_第4頁
sas課件第二章描述性分析_第5頁
已閱讀5頁,還剩52頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、第二章 SAS的描述統(tǒng)計功能2.1 描述性統(tǒng)計的基本概念2.2 在SAS中計算統(tǒng)計量2.3 統(tǒng)計圖形2.1 描述性統(tǒng)計的基本概念2.1.1 統(tǒng)計學的基本概念2.1.2 表示數(shù)據(jù)位置的統(tǒng)計量2.1.3 表示數(shù)據(jù)分散程度的統(tǒng)計量2.1.4 表示數(shù)據(jù)分布形狀的統(tǒng)計量2.1.5 其它統(tǒng)計量2.1.1 統(tǒng)計學的基本概念1. 總體與樣本 總體(population):總體是指所研究對象的全體組成的集合。 樣本(sample):樣本是指從總體中抽取的部分對象(個體)組成的集合。樣本中包含個體的個數(shù)稱為樣本容量。容量為n的樣本常用n個隨機變量X1,X2,Xn表示,其觀測值(樣本數(shù)據(jù))則表示為x1,.,xn,為

2、簡單起見,有時不加區(qū)別。2. 參數(shù)與統(tǒng)計量 參數(shù)(parameter):參數(shù)是用來描述總體特征的概括性值。如總體平均值()、總體方差(2)、總體比例()等。 統(tǒng)計量(statistics):統(tǒng)計量是用來描述樣本特征的概括性值。如樣本均值( )、樣本方差(s2)、樣本比例(P)等。2.1.2 表示數(shù)據(jù)位置的統(tǒng)計量 如果要用簡單的數(shù)字來概括一組觀測數(shù)據(jù)x1,.,xn,可以使用“位置統(tǒng)計量”來作為數(shù)據(jù)的總體代表,常見的位置統(tǒng)計量有:均值、中位數(shù)、分位數(shù)、眾數(shù)等。1. 均值(Mean) 均值是所有觀測值的平均值,是描述數(shù)據(jù)取值中心位置的一個度量:2. 中位數(shù)(Median或Med) 中位數(shù)是描述觀測值

3、數(shù)據(jù)中心位置的統(tǒng)計量,大體上比中位數(shù)大(?。┑臄?shù)據(jù)為觀測值的一半。中位數(shù)的一個優(yōu)點是它不受個別極端數(shù)據(jù)的影響,具有穩(wěn)健性。中位數(shù)的計算方法是:首先將數(shù)據(jù)從小到大排序為:x(1),.,x(n),然后計算3. 眾數(shù)(Mode) 觀測值中出現(xiàn)最多的數(shù)稱為眾數(shù)。眾數(shù)用得不如均值和中位數(shù)普遍。在屬性變量分析中,常需考慮頻數(shù),因此眾數(shù)用得多些。4. 百分位數(shù)(Percentile) 分位數(shù)也是描述數(shù)據(jù)分布和位置的統(tǒng)計量。0.5分位數(shù)就是中位數(shù),0.75分位數(shù)和0.25分位數(shù)又分別稱為上、下四分位數(shù),并分別記為Q3和Q1。2.1.3 表示數(shù)據(jù)分散程度的統(tǒng)計量1. 極差(Range)與半極差(Interqua

4、rtile range) 極差就是數(shù)據(jù)中的最大值和最小值之間的差:極差 = maxxi minxi 上、下四分位數(shù)之差Q3 Q1稱為四分位極差或半極差,它描述了中間半數(shù)觀測值的散布情況。2. 方差(Variance或Var) 方差是由各觀測值到均值距離的平方和除以觀測量減1:3. 標準差(Standard deviation或Std Dev) 方差的開方稱為標準差: 標準差的量綱與原變量一致。4. 變異系數(shù)(Coefficient of Variation或CV) 變異系數(shù)是將標準差表示為均值的百分數(shù),是觀測數(shù)據(jù)分散性的一個度量,它在比較用不同單位測量的數(shù)據(jù)的分散性時是有用的:2.1.4 表示

5、數(shù)據(jù)分布形狀的統(tǒng)計量 偏度和峰度是描述數(shù)據(jù)分布形狀的指標。1. 偏度(skewness) 偏度是刻畫數(shù)據(jù)對稱性的指標。偏度的計算公式為: 在SAS中: 關(guān)于均值對稱的數(shù)據(jù)其偏度為0; 左側(cè)更為分散的數(shù)據(jù),其偏度為負,稱為左偏; 右側(cè)更為分散的數(shù)據(jù),其偏度為正,稱為右偏。2. 峰度(kurtosis) 峰度描述數(shù)據(jù)向分布尾端散布的趨勢。峰度的計算公式為: 利用峰度研究數(shù)據(jù)分布的形狀是以正態(tài)分布為標準(假定正態(tài)分布的方差與所研究分布的方差相等)比較兩端極端數(shù)據(jù)的分布情況,若 近似于標準正態(tài)分布,則峰度接近于零; 尾部較正態(tài)分布更分散,則峰度為正,稱為輕尾; 尾部較正態(tài)分布更集中,則峰度為負,稱為厚

6、尾。2.1.5 其它統(tǒng)計量1. 均值的標準誤(Std Error Mean或Std Mean或Std error)2. 校正平方和(Corrected sum of squares)3. 未校正平方和(Uncorrected sum of squares)4. k階原點矩其中A1即為均值 。5. k階中心矩2.2.1 編程實現(xiàn)描述性統(tǒng)計1. 實例數(shù)據(jù)【例2-1】表2-1為兩個不同地區(qū)居民家庭收入和支出情況的抽樣調(diào)查(單位:元),試分別統(tǒng)計收入和支出情況。將表2-1中數(shù)據(jù)通過Excel導入到SAS數(shù)據(jù)集Mylib.sryzc中,4個變量名分別為:ID、R_ID、 e和Outgo,相應的標簽名為家

7、庭編號、地區(qū)編號、家庭總收入和家庭總支出。家庭編號地區(qū)編號家庭總收入家庭總支出家庭編號地區(qū)編號家庭總收入家庭總支出121794155016222002060221716136517127302236313410273018124961455421765153019117601040522184190020128202366622050205021222501966722460218422131702400811976117023212001250912850249624217761350101427527602521980179411220101275261245525501212236181

8、027210801380131330528202821986120014124001976291336923051522250197030215301316 SAS提供有多個不同的過程來實現(xiàn)統(tǒng)計量的計算,它們在功能范圍上有許多的重復,下面介紹用FREQ、MEANS和UNIVARIATE這三個過程來計算簡單的描述統(tǒng)計量。 FREQ過程常用來計算分類變量取值的頻數(shù),而MEANS和UNIVARIATE過程則對數(shù)值型變量計算均值、標準差等統(tǒng)計量。1. FREQ過程 FREQ過程包括多個控制頻數(shù)輸出與檢驗的語句和選項,格式如下:PROC FREQ DATA = ; TABLES ; FORMAT . .

9、 ;RUN; 其中PROC FREQ語句調(diào)用FREQ過程,標志FREQ過程的開始; TABLES語句用于創(chuàng)建有關(guān)變量所構(gòu)成的各種表格并進行相應的假設檢驗和計算,可以多次使用。 例如,統(tǒng)計數(shù)據(jù)集Mylib.sryzc中變量R_Id和 e頻數(shù)的代碼如下:proc freq data = mylib.sryzc; tables R_Id e;RUN; 顯示結(jié)果如圖所示。2. MEANS過程(1) 語法格式 MEANS過程的一般格式:PROC MEANS DATA=; VAR ; BY ; CLASS ;RUN; PROC MEANS語句后的選項主要用來指定所要計算的統(tǒng)計量,默認情況下,MEANS過程

10、會給出頻數(shù)、均數(shù)、標準差、最大值和最小值等,其余統(tǒng)計量的計算均需要在選項中指定。 VAR語句引導所要進行分析的所有變量的列表,SAS將對VAR語句所引導的所有變量分別進行描述性統(tǒng)計分析。 BY語句與CLASS語句所指定的分類變量用來進行分組統(tǒng)計,但輸出格式不同。 如對數(shù)據(jù)集Mylib.sryzc中的 e變量計算簡單統(tǒng)計量,只要用如下MEANS過程:proc means data = mylib.sryzc; var e;run; 結(jié)果如圖2-15所示。(2) 使用統(tǒng)計量關(guān)鍵字列表 在PROC MEANS語句中使用統(tǒng)計量關(guān)鍵字列表:proc means data = mylib.sryzc n

11、mean median p1 p5 p95 p99 q1 q3 max min; var e;run; 結(jié)果如圖2-16所示。 可以計算的描述性統(tǒng)計量關(guān)鍵字及其含義見下表。關(guān)鍵字所代表的含義關(guān)鍵字所代表的含義n有效數(shù)據(jù)記錄數(shù)range極差nmiss缺失數(shù)據(jù)記錄數(shù)skewness偏度mean均值kurtosis峰度std標準差t分布位置假設檢驗之t統(tǒng)計量stderr標準誤probt上述t統(tǒng)計量對應的概率值var方差q1第一四分位數(shù)median中位數(shù)q3第三四分位數(shù)mode眾數(shù)qrange四分位數(shù)間距cv變異系數(shù)p1第一百分位數(shù)max最大值p5第五百分位數(shù)min最小值p10第十百分位數(shù)sum總計p

12、90第九十百分位數(shù)sumwgt加權(quán)值總計p95第九十五百分位數(shù)css校正平方和p99第九十九百分位數(shù)uss未校正平方和(3) 使用CLASS語句和BY語句 使用CLASS語句和BY語句可以分組計算分析變量的描述統(tǒng)計量值,由CLASS語句和BY語句指定的變量在分析中起分組(類)的作用,被稱為分類變量。兩個語句的區(qū)別是: 使用BY語句時要求數(shù)據(jù)集須按BY變量排序,使用CLASS語句無此要求。 使用BY語句時輸出按BY變量的每個值分別提供一個表,使用CLASS語句則將所有結(jié)果排列在一個表之中。 使用BY語句之前先排序,如下代碼可以在上例中按變量R_Id分組統(tǒng)計:proc sort data = my

13、lib.sryzc; by R_Id;run;proc means data = mylib.sryzc n mean median p1 p5 p95 p99 q1 q3 max min; var e; by R_Id;run; 使用CLASS語句分組較為簡單,如下代碼也可以在上例中按變量R_Id分組統(tǒng)計:proc means data = mylib.sryzc n mean median p1 p5 p95 p99 q1 q3 max min; var e; class R_Id;RUN;3. UNIVARIATE過程 UNIVARIATE過程的一般格式為:PROC UNIVARIATE

14、 DATA = ; VAR ; BY | CLASS ; HISTOGRAM /; OUTPUT OUT = = ;RUN; UNIVARIATE過程和MEANS過程的格式非常相似,相同的語句和選項其含義也相同,所不同的是某些統(tǒng)計量只能在UNIVARIATE過程中計算(如眾數(shù)),而且UNIVARIATE過程中具有繪圖功能。 其中,HISTOGRAM語句用來指示SAS對其后所指定的變量繪制直方圖,其后的選項用來指示SAS添加不同類型的擬合圖形(如正態(tài)分布的分布密度曲線)。 輸出包括五個部分。 第一部分是矩統(tǒng)計量,各統(tǒng)計量已在2.1.1中作了介紹。 第二部分為基本的位置和分散程度統(tǒng)計量,位置統(tǒng)計量

15、包括均值、中位數(shù)、眾數(shù),分散程度統(tǒng)計量包括標準差、方差、極差、四分位間距 第三部分為關(guān)于均值等于零的三種檢驗的結(jié)果,包括t檢驗、符號檢驗和符號秩檢驗。 第四部分為各個重要的分位數(shù)。 第五部分是觀測數(shù)據(jù)的五個最低值和五個最高值。2.3 統(tǒng)計圖形2.3.1 定量變量的圖形表示2.3.2 分類變量的圖形表示2.3.1 定量變量的圖形表示1. 直方圖 對于數(shù)值型變量,常用直方圖(histogram)來展示變量取值的分布。將變量取值的范圍分成若干區(qū)間,在等間隔區(qū)間的情況,每個區(qū)間的長度稱為組距??疾鞌?shù)據(jù)落入每一區(qū)間的頻數(shù)與頻率,在每個區(qū)間上畫一個矩形,它的寬度是組距,它的高度可以是頻數(shù)、頻率或密度(頻率

16、組距),在高度是密度的情況,每一矩形的面積恰是數(shù)據(jù)落入?yún)^(qū)間的頻率,這種直方圖可以估計總體的概率密度。圖2-22 密度直方圖與頻數(shù)直方圖SAS軟件會根據(jù)樣本容量在樣本取值范圍內(nèi)自動地確定一個分組方式,另外也提供了設定分組的方法。 2. 盒形圖 盒形圖(boxplot,又稱箱圖、箱線圖、盒子圖)是用更為簡潔的方法表現(xiàn)數(shù)據(jù)在數(shù)軸上的分布及其特點的圖形。 圖2-23的左邊是根據(jù)居民家庭的收入情況所繪的盒形圖;右邊是分地區(qū)情況所繪的盒形圖。 3. 散點圖 通常得到的數(shù)據(jù)可能有兩個變量,比如家庭的收入和支出情況的數(shù)據(jù),這里家庭總收入是一個變量,而家庭總支出是第二個變量。希望通過圖形了解收入和支出的關(guān)系,這

17、時可以用一個變量為橫坐標(如家庭總收入),另一個為縱坐標(這里是家庭總支出)來作圖(圖2-24)。這種圖稱為散點圖(Scatter Plot)。 4. 線圖 線圖(Line Plot)用來表示變量間的取值變化情況,有單式和復式兩種(圖2-25)。 在復式線圖中可用不同顏色的實線來標志區(qū)別,如圖2-25右所示。 2.3.2 分類變量的圖形表示 分類變量也可以通過圖形直觀地描繪出它們各類的數(shù)量和所占比例,常用的有條形圖、餅圖和馬賽克圖。1. 條形圖 條形圖(Bar Chart)給出分類變量取每個值的頻數(shù),如圖2-26所示為變量R_ID取值的條形圖。2. 餅圖 通常,餅圖(Pie Chart)可以對

18、分類變量描述其頻數(shù)取值的比例,對于數(shù)值變量,則像直方圖那樣應先計算各區(qū)間取值的頻數(shù),再按比例畫出。 圖2-27中給出的是家庭支出分組頻數(shù)的餅圖。要注意的是,如果有太多的分組,那么餅圖就不那么好看了。3. 馬賽克圖 馬賽克圖(Mosaic Plot)一般不對單個變量作,而是對兩個分類變量來作。這種圖的好處是直觀顯示了兩個變量每種取值組合的觀測個數(shù)和比例,如圖2-28所示。2.4 用SAS繪制統(tǒng)計圖形2.4.1編程繪制統(tǒng)計圖2.4.2 圖形的調(diào)整與輸出2.4.1 編程繪制統(tǒng)計圖 SAS可以把存貯在SAS數(shù)據(jù)集中的數(shù)據(jù)以圖形的方式形象直觀地顯示出來。在SAS/GRAPH模塊的支持下,SAS可以作散點

19、圖、曲線圖、直方圖、扇形圖、三維曲面圖、等高線圖、地圖,等等。1. GCHART過程(1) 語法格式 GCHART過程用于繪制直方圖、餅形圖(扇形圖)、三維直方圖等表示變量分布的圖形。其語法格式為:PROC GCHART DATA = ; /RUN; GCHART過程可以使用的圖形關(guān)鍵字及其所繪制的圖形類型見表2-5。 圖形關(guān)鍵字后的變量名用以指定進行圖形描述時的分組變量,可以是數(shù)值型的(此時以各組的組中值為分組的標志),也可以是字符型的。圖形關(guān)鍵字繪制的圖形類型圖形關(guān)鍵字繪制的圖形類型block方塊圖pie餅形圖hbar水平的條形圖pie3d三維餅形圖hbar3d水平的三維條形圖donut環(huán)

20、形圖vbar豎立的條形圖star星形圖vbar3d豎立的三維條形圖選項比較重要的有: TYPE = 統(tǒng)計量關(guān)鍵字,表示以圖形對變量(SUMVAR所指定的變量)的哪一種統(tǒng)計量進行描述,比如頻數(shù)(FREQ)、均數(shù)(MEAN)、總計(SUM)、頻數(shù)百分比(PCTN)等; SUBGROUP = 變量名(分組變量),指定要進行分組(各組段內(nèi)再分組)的變量; SUMVAR = 變量名(數(shù)值變量),指定要進行統(tǒng)計計算的變量,也就是“TYPE = 統(tǒng)計量關(guān)鍵字”選項中統(tǒng)計量的計算所依據(jù)的變量。(2) 畫條形圖(直方圖) 使用VBAR關(guān)鍵字可以畫條形圖。例如,畫出數(shù)據(jù)集Mylib.sryzc中 e變量的條形圖的

21、代碼如下:proc gchart data = mylib.sryzc; vbar e;run; 結(jié)果如圖所示。 其中繪圖用的變量用VBAR語句給出,如果把VBAR改成HBAR則條形方向變?yōu)闄M向。用GCHART繪制的條形圖和在INSIGHT中繪制的直方圖有所不同,它在橫軸標的是區(qū)間的中點值,而在INSIGHT中橫軸標的是區(qū)間的端點值。 可以指定分組的變量,例如在每個區(qū)段內(nèi)再分段,可以用如下代碼:proc gchart data = mylib.sryzc; vbar e / subgroup = R_Id;run; 結(jié)果如圖所示。 (3) 畫三維條形圖 使用BLOCK關(guān)鍵字可以畫三維條形圖。例

22、如,畫出數(shù)據(jù)集mylib.sryzc中 e變量的三維條形圖的代碼如下:proc gchart data = mylib.sryzc; block e/ group = R_Id;run; 結(jié)果如圖所示。(4) 畫餅形圖 使用PIE關(guān)鍵字可以畫餅形圖,PIE3D關(guān)鍵字可以畫三維餅形圖。例如,畫出數(shù)據(jù)集mylib.sryzc中 e變量的三維餅形圖的代碼如下:proc gchart data = mylib.sryzc; PIE3D e;run; 結(jié)果如圖所示。2. 使用GPLOT過程繪制散點圖和連線圖 通常用散點圖和連線圖可以表示: 一個變量隨另一個變量的變化; 變量之間的關(guān)系; 數(shù)據(jù)值的分布。(

23、1) GPLOT過程的一般格式PROC GPLOT DATA = ; PLOT * = /; SYMBOLn ;RUN;常用的選項見表2-6。表2-6 PLOT語句的選項選項意義說明FRAM | NOFRAM在圖形四周加入或不加入邊框缺省為加入CFRAM = 顏色邊框內(nèi)的顏色缺省為白色AUTOHREF(AUTOVEREF)在水平(垂直)軸的每個主刻度處加入水平(垂直)參考線NOAXIS取消坐標軸及相關(guān)的圖形元素CAXIS = 顏色設定軸的顏色CTEXT = 顏色設定與軸相關(guān)字符的顏色HAXIS = 值列舉設定水平軸主刻度的值VAXIS = 值列舉設定垂直軸主刻度的值 SYMBOL語句用來控制表

24、示點的符號和點間的連線。其中n是不同SYMBOL語句的序號,可以是1-99,缺省為1。選項見表2-7。表2-7 SYMBOL語句的選項選項意義取值V = 符號表示點使用的符號plus, x, star, square, diamond, triangle, hash, y, z, paw, point, dot, circleC = 顏色表示點的符號及連線的顏色black, red, green, blue, cyan, magenta, gray, pink, orange, brown, yellowCV =顏色專指點的符號的顏色H = n指名符號的大小單位有:cell, cm, pct,

25、 pt, inPOINTLABEL在點的附近表明Y軸變量的值i = 連線方式指明連線的方式none, join, spline, needleCI = 顏色專指連線的顏色L = nn為線型的序號0 空白線,1 - 實線,2 虛線 W = nn表示線的寬度(2) 散點圖 繪制家庭總收入對家庭總支出的散點圖,代碼如下:proc gplot data = mylib.sryzc; plot e*outgo;run; 結(jié)果顯示了一個GRAPHICS窗口,繪出了以 e為縱軸、以Outgo為橫軸的散點圖(見圖)。 可以在圖中按第三個變量分組畫出散點圖(如圖2-48右),代碼如下:proc gplot data = mylib.sryzc; plot e*outgo = r_id; symbol1 color=black v = star; symbol2 col

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論