版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、(2012-08-0118:07:01)轉(zhuǎn)載標簽:分類:數(shù)據(jù)分析挖掘雜談SAS中的描述性統(tǒng)計過程描述性統(tǒng)計指標的計算可以用四個不同的過程來實現(xiàn),它們分別是means過程、summary過程、univariate過程以及tabulate過程。它們在功能范圍和具體的操作方法上存在一定的差別,下面我們大概了解一下它們的異同點。相同點:他們均可計算出均數(shù)、標準差、方差、標準誤、總和、加權(quán)值的總和、最大值、最小值、全距、校正的和未校正的離差平方和、變異系數(shù)、樣本分布位置的t檢驗統(tǒng)計量、遺漏數(shù)據(jù)和有效數(shù)據(jù)個數(shù)等,均可應(yīng)用by語句將樣本分割為若干個更小的樣本,以便分別進行分析。不同點:(1)means過程、
2、summary過程、univariate過程可以計算樣本的偏度(skewness)和峰度(kurtosis),而tabulate過程不計算這些統(tǒng)計量;(2)univariate過程可以計算出本的眾數(shù)(mod,其它三個過程不計算眾數(shù);(3)summary過程執(zhí)行后不會自動給出分析的結(jié)果,須引用output語句和print過程來顯示分析結(jié)果,而其它三個過程則會自動顯示分析的結(jié)果;(4)univariate過程具有統(tǒng)計制圖的功能,其它三個過程則沒有;(5)tabulate過程不產(chǎn)生輸出資料文件(存儲各種輸出數(shù)據(jù)的文件),其它三個均產(chǎn)生輸出資料文件。統(tǒng)計制圖的過程均可以實現(xiàn)對樣本分布特征的圖形表示,一
3、般情況下可以使用的有chart過程、plot過程、gchart過程和gplot過程。大家有沒有發(fā)現(xiàn)前兩個和后兩個只有一個字母g(代表graph)的差別,其實它們之間(只差一個字母g的過程之間)的統(tǒng)計描述功能是相同的,區(qū)別僅在于繪制出的圖形的復(fù)雜和美觀程度。chart過程和plot過程繪制的圖形類似于我們用文本字符堆積起來的圖形, 只能概括地反映出資料分布的大體形狀,實際上這兩個過程繪制的圖形并不能稱之為圖形,因為他根本就沒有涉及一般意義上圖形的任何一種元素(如顏色、分辨率等)。而gchart過程和gplot過程給出的是真正意義上的圖形,可以用很多的語句和選項來控制圖形的各方面的性質(zhì)和特征。ch
4、art和gchart與plot和gplot的區(qū)別則體現(xiàn)在不同的作圖功能,前兩個過程可以繪制出的圖形主要有條形圖(包括橫條和豎條)、圓圖、環(huán)形圖和星形圖等,后兩個過程通常用一個記錄中的兩個變量值表示點的坐標來繪制圖形,如散點圖和線圖等。描述性統(tǒng)計過程的一般格式1. means過程的一般格式by變量名稱(分組變量);class變量名稱(分組變量);freq變量名稱(數(shù)值變量,用以表示相應(yīng)記錄出現(xiàn)的頻數(shù))weight變量名稱(數(shù)值變量,用以表示相應(yīng)記錄的權(quán)重系數(shù))var變量名稱(待分析的數(shù)值變量);run;Procmeans語句后的選項主要用來指定所要計算的統(tǒng)計量,默認情況下,Means過程會給出頻
5、數(shù)、均數(shù)、標準差、最大值和最小值等,其余統(tǒng)計量的計算均需要在選項中指定。class語句所指定的分組變量用來進行分組,而by語句所指定的分組變量是用來將數(shù)據(jù)分為若干個更小的樣本,以便SAS分別在各小樣本內(nèi)進行各自獨立的處理。freq語句和weight語句分別引導(dǎo)代表記錄出現(xiàn)頻數(shù)和權(quán)重系數(shù)的數(shù)值變量。var語句引導(dǎo)所要進行分析的所有變量的列表,SAS將對var語句所引導(dǎo)的所有變量分別進行描述性統(tǒng)計分析。summary過程的一般格式procsummary選項歹U表;by變量名稱(分組變量);class變量名稱(分組變量);freq變量名稱(數(shù)值變量,用以表示相應(yīng)記錄出現(xiàn)的頻數(shù))weight變量名稱(
6、數(shù)值變量,用以表示相應(yīng)記錄的權(quán)重系數(shù))outputout=數(shù)據(jù)集名統(tǒng)計量關(guān)鍵字=自定義變量名var變量名稱(待分析的數(shù)值變量);run;summary過程的格式和means過程可以說是完全相同的,各條語句和選項的含義也是相同的,包括在means過程中未列出的output語句也可以應(yīng)用于means過程,只是此語句在summary過程應(yīng)用較多(這樣才能將分析結(jié)果顯示出來),所以才將其列入一般格式中。output語句用來對分析結(jié)果輸出為數(shù)據(jù)文件進行控制,其后的選項可有可無,若無則SAS按照默認方式進行。out=數(shù)據(jù)集名”用來定義輸出數(shù)據(jù)文件的文件名稱,文件名的格式和數(shù)據(jù)步中數(shù)據(jù)文件名相同?!敖y(tǒng)計量關(guān)
7、鍵字=自定義變量名”用來自定義輸出數(shù)據(jù)文件中各種統(tǒng)計量的變量名稱,前者是系統(tǒng)定義的(和proc語句后選項中的統(tǒng)計量關(guān)鍵字完全相同),必須正確無誤,后者可自行定義。默認狀態(tài)下輸出統(tǒng)計量只有頻數(shù)、均數(shù)、標準差、最大值和最小值,在默認狀態(tài)不能滿足需要時這一選項則是必需的。univariate過程的一般格式procunivariate選項歹U表;by變量名稱(分組變量);class變量名稱(分組變量);freq變量名稱(數(shù)值變量,用以表示相應(yīng)記錄出現(xiàn)的頻數(shù))weight變量名稱(數(shù)值變量,用以表示相應(yīng)記錄的權(quán)重系數(shù))histogram變量名稱/選項列表outputout=數(shù)據(jù)集名統(tǒng)計量關(guān)鍵字=自定義變
8、量名pctlpts=百分位數(shù)-指定需要的百分位數(shù)pctlpre=新變量名列指定所需百分位數(shù)對應(yīng)的輸出變量名var變量名稱(待分析的數(shù)值變量);run;univariate過程和以上兩個過程的格式非常相似, 相同的語句和選項其含義也相同, 所不同的是某些統(tǒng)計量只能在univariate過程中計算(如眾數(shù)),以及univariate過程中所具有的繪圖功能。histogram語句即用來指示SAS對其后所指定的變量繪制直方圖,其后的選項用來指示SAS加不同類型的擬合圖形(如正態(tài)分布的分布密度曲線)。tabulate過程的一般格式proctabulate選項歹U表;by變量名稱(分組變量);class變
9、量名稱(分組變量);freq變量名稱(數(shù)值變量,用以表示相應(yīng)記錄出現(xiàn)的頻數(shù))weight變量名稱(數(shù)值變量,用以表示相應(yīng)記錄的權(quán)重系數(shù))table頁變量表達式,行變量表達式,列變量表達式/表格選項var變量名稱(待分析的數(shù)值變量,統(tǒng)計量列入相應(yīng)的表單元格);run;tabulate過程和上述幾個過程的格式也基本相似,相同的語句和選項也代表相同的含義。最大的不同也是tabulate過程中最為重要的是table語句,他用來定義表格的具體格式以及表格中所要包括的統(tǒng)計量。gchart過程的一般格式procgchart選項歹U表;圖形關(guān)鍵詞變量名稱/選項列表run;圖形關(guān)鍵字繪制的圖形類型圖形關(guān)鍵字繪制
10、的圖形類型block方塊圖pie圓圖hbar水平的條形圖pie3d三維圓圖hbar3d水平的三維條形圖donut環(huán)形圖vbar豎立的條形圖star星形圖vbar3d豎立的三維條形圖此過程格式簡單,復(fù)雜的地方在于圖形關(guān)鍵字(每個圖形關(guān)鍵字對應(yīng)一種圖形類型)所引導(dǎo)的語句,這里是控制圖形類型及圖形要素的地方,涉及到眾多的關(guān)鍵字和選項。gchart過程可以使用的圖形關(guān)鍵字及其所繪制的圖形類型見下表(表)。表gchart過程可以使用的圖形關(guān)鍵字及其所繪制的圖形類型圖形關(guān)鍵字后的變量名用以指定進行圖形描述時的分組變量, 可以是數(shù)值型的 (此時以各組的組中值為分組的標志),也可以是字符型的。其后的選項比較重
11、要的有:(1)type=統(tǒng)計量關(guān)鍵字,表示以圖形對變量(sumvar所指定的變量)的哪一種統(tǒng)計量進行描述,比如頻數(shù)(freq)、均數(shù)(meanj)、總計(sunj)、頻數(shù)百分比(pctn)等;(2)subgroup=變量名(分組變量),指定要進行分組(各組段內(nèi)再分組)的變量;(3)sumvar=變量名(數(shù)值變量),指定要進行統(tǒng)計計算的變量,也就是type=統(tǒng)計量關(guān)鍵字選項中統(tǒng)計量的計算所依據(jù)的變量。其它的選項較少用到或系統(tǒng)默認值即可基本滿足要求,這里還是少羅嗦,以后用到再說。gplot過程的一般格式bubble散點圖表達式bubble2散點圖表達式plot散點圖表達式plot2散點圖表達式ru
12、n;從gplot過程的一般格式中我們就可看出,此過程只能繪制兩種類型的圖形,bubble語句指示SAS繪制泡狀散點圖,plot語句指示SAS繪制點狀散點圖。bubble2語句和plot2語句指示SASft同一區(qū)域內(nèi)(bubble2和bubble在同一區(qū)域,plot2和plot在同一區(qū)域)繪制第二個圖形,兩者的橫坐標相同(同一變量),縱坐標分別位于左右兩側(cè)(可以是同一變量,也可以是兩個不同的變量)。散點圖表達式的一般形式為:(1) bubble和bubble2語句:縱坐標變量名*橫坐標變量名=泡尺寸變量名(變量值以泡的大小表示),三者均應(yīng)為數(shù)值變量;(2)plot和plot2語句:縱坐標變量名*
13、橫坐標變量名,此處等號及其后的部分可以省略,此時SAS以默認的散點類型繪制散點圖;若等號后為n(n為正整數(shù),是散點類型的編號),SAS則以指定的編號對應(yīng)的散點類型繪制散點圖;若等號后為分類變量名(可為字符型或數(shù)值型,為數(shù)值型時作為離散型變量處理,每一個值將被當作一個類別),此變量的具體值(或與每個具體值對應(yīng)的圖形)將被作為散點用來繪制散點圖。chart過程和plot過程的一般格式及各選項使用方法分別與gchart過程和gplot過程是基本相同的,不同之處僅在于后兩者中涉及到有關(guān)三維和圖形元素(顏色等)的語句和選項在前兩者中是無效的。例如vbar3d語句在chart過程中無效,bubble語句在
14、plot過程中無效。其余的語句和選項使用方法完全相同,所以在掌握了gchart過程和gplot過程后,chart過程和plot過程你會不學(xué)自通。(三)描述性統(tǒng)計關(guān)鍵字及其含義SAS中可計算的描述性統(tǒng)計量多達二十余種,大部分可在以上介紹的前四個過程中計算,個別統(tǒng)計量在某些過程中不能計算,大家需要注意,要不然系統(tǒng)顯示錯誤信息時還不知道是怎么回事。我經(jīng)常遇到這種情況,系統(tǒng)提示錯誤(此類提示信息顯示在10g窗口中)時總是摸不著頭腦,費半天勁才能搞明白。沒辦法,摸著石頭過河嘛!不過這樣也并非一無是處,最起碼可以積累很多使用經(jīng)驗。下表(表)列出SAS中可以計算的所有描述性統(tǒng)計量關(guān)鍵字及其含義,供大家使用時參考。表SAS中可以計算的描述性統(tǒng)計量關(guān)鍵字及其含義所代表的含義有效數(shù)據(jù)記錄數(shù)關(guān)鍵字nmiss缺失數(shù)據(jù)記錄數(shù)mean均數(shù)std標準差stderr標準誤var方差median中位數(shù)mode眾數(shù)cv變異系數(shù)max最大值min最小值range全
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度跨境電商運營個人勞務(wù)用工合同范本4篇
- 2025年度新型材料門窗研發(fā)與安裝合同3篇
- 2025年度個人房屋建設(shè)工期延誤賠償合同模板4篇
- 二零二五年度個人消費貸款合同規(guī)范文本4篇
- 工程進水排水承包合同(2篇)
- 二零二五版鋼筋防腐處理及采購合同3篇
- 中國民用機場行業(yè)展望2025年1月 -中誠信
- 二零二五版項目負責(zé)人任期責(zé)任與權(quán)益合同3篇
- 2025年鐵路貨物安全運輸全面保障合同3篇
- 呼叫中心述職報告2000字【三篇】
- 2024年建筑業(yè)10項新技術(shù)
- 語文七年級下字帖打印版
- DB11-T 641-2018 住宅工程質(zhì)量保修規(guī)程
- (完整版)壞死性筋膜炎PPT資料課件
- 談基層稅務(wù)干部隊伍建設(shè)難點及應(yīng)對經(jīng)驗
- 衛(wèi)星的坐標計算
- 外國人來華工作許可申請表
- DVPR設(shè)計驗證計劃和報告
- 濕式電除塵器使用說明書
- 中國跆拳道考級申請表(共1頁)
- 二年級上冊音樂課件---選唱歌曲-我們和祖國最親親-西師大版(共8張PPT)
評論
0/150
提交評論