版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第四講的描述統(tǒng)計(jì)(2)、應(yīng)用舉例例1:某單位對100名健康得女大學(xué)生測定了血清總蛋白含量(g/L),試做單變量描述性統(tǒng)計(jì)分析。dataaa;inputx;cards;74、378、8……70、4;procmeans;procmeansnminmaxmeanstdstderrcvmaxdec=2;
MEANS過程分析變量:xN均值標(biāo)準(zhǔn)偏差最小值最大值10073、66000003、940081564、300000084、3000000procmeans;默認(rèn)得5個(gè)統(tǒng)計(jì)量其SAS輸出結(jié)果與說明procmeansnminmaxmeanstdstderrcvmaxdec=2;輸出結(jié)果:MEANS過程分析變量:xN最小值最大值均值標(biāo)準(zhǔn)偏差標(biāo)準(zhǔn)誤差偏差系數(shù)10064、3084、3073、663、940、395、35例2、下表為兩個(gè)不同地區(qū)居民家庭收入與支出情況得抽樣調(diào)查(單位:元),試分別統(tǒng)計(jì)收入與支出情況。
將下表中數(shù)據(jù)輸入成Excel文件sryzc、xls。4個(gè)變量名分別為:ID、R_ID、Ine與Outgo,該四個(gè)變量分別表示“家庭編號”、“地區(qū)編號”、“家庭總收入”與“家庭總支出”。首先將其導(dǎo)入為SAS數(shù)據(jù)文件mylib、sryzc。IDR_IDIneOutgoIDR_IDIneOutgo121794155016222002060221716136517127302236313410273018124961455421765153019117601040522184190020128202366622050205021222501966722460218422131702400811976117023212001250912850249624217761350101427527602521980179411220101275261245525501212236181027210801380131330528202821986120014124001976291336923051522250197030215301316對數(shù)據(jù)集mylib、sryzc中得Ine變量計(jì)算簡單統(tǒng)計(jì)量,用如下MEANS過程即可:procmeansdata=mylib、sryzc;varIne;run;SAS運(yùn)行結(jié)果:在PROCMEANS語句中使用統(tǒng)計(jì)量關(guān)鍵字列表。輸出數(shù)據(jù)集mylib、sryzc中收入(Ine)得觀測個(gè)數(shù)、均值、中位數(shù)、第一百分位數(shù)、第五百分位數(shù)、第九十五百分位數(shù)、第九十九百分位數(shù)、第一四分位數(shù)、第三四分位數(shù)、最大值、最小值。procmeansdata=mylib、sryzcnmeanmedianp1p5p95p99q1q3maxminvarIne;run;運(yùn)行結(jié)果可以計(jì)算得描述性統(tǒng)計(jì)量關(guān)鍵字及其含義見下表。關(guān)鍵字所代表得含義關(guān)鍵字所代表得含義n有效數(shù)據(jù)記錄數(shù)skewness偏度nmiss缺失數(shù)據(jù)記錄數(shù)kurtosis峰度mean均值t分布位置假設(shè)檢驗(yàn)之t統(tǒng)計(jì)量std標(biāo)準(zhǔn)差probt上述t統(tǒng)計(jì)量對應(yīng)得概率值stderr標(biāo)準(zhǔn)誤q1第一四分位數(shù)var方差q3第三四分位數(shù)median中位數(shù)qrange四分位數(shù)間距mode眾數(shù)p1第一百分位數(shù)cv變異系數(shù)p5第五百分位數(shù)max最大值p10第十百分位數(shù)min最小值p90第九十百分位數(shù)sum總計(jì)p95第九十五百分位數(shù)sumwgt加權(quán)值總計(jì)p99第九十九百分位數(shù)css校正平方與CLM置信限uss未校正平方與LCLM置信下限r(nóng)ange極差UCLM置信上限(3)使用CLASS語句或BY語句Class分類變量名列
;by分類變量名列;兩個(gè)語句得區(qū)別就是:●使用BY語句時(shí)要求數(shù)據(jù)集須按BY變量排序,使用CLASS語句無此要求。●使用BY語句時(shí)輸出按BY變量得每個(gè)值分別提供一個(gè)表,使用CLASS語句則將所有結(jié)果排列在一個(gè)表之中。例3、1)使用BY語句,將上例中得數(shù)據(jù)按地區(qū)(R_Id)分組計(jì)算統(tǒng)計(jì)量:Procsortdata=mylib、sryzc;byR_Id;run;procmeansdata=mylib、sryzcnmeanmedianp1p5p95p99q1q3maxmin;varIne;byR_Id;run;
12大家應(yīng)該也有點(diǎn)累了,稍作休息大家有疑問的,可以詢問和交流R_ID=1TheMEANSProcedureAnalysisVariable:INEIneNMeanMedian1stPctl5thPtcl95thPctl99thPctl142803、712775、001760、001760、004275、004275、00LowerUpperQuartileQuartileMaximumMinimum2400、003305、004275、001760、00R_ID=2
AnalysisVariable:INEIneNMeanMedian1stPctl5thPtcl95thPctl99thPctl161889、441983、001080、001080、002460、002460、00LowerUpperQuartileQuartileMaximumMinimum1740、502192、002460、001080、00使用BY語句分區(qū)域輸出統(tǒng)計(jì)量:
2)使用CLASS語句,按地區(qū)(R_Id)分組計(jì)算統(tǒng)計(jì)量:procmeansdata=mylib、sryzcnmeanmedianp1p5p95p99q1q3maxmin;varIne;CLASSR_Id;run;
使用CLASS語句輸出結(jié)果:TheMEANSProcedureAnalysisVariable:INEIneR_IDObsNMeanMedian1stPctl5thPtcl95thPctl
114142803、712775、001760、001760、004275、00
216161889、441983、001080、001080、002460、00LowerUpperR_IDObs99thPctlQuartileQuartileMaximumMinimum
1144275、002400、003305、004275、001760、00
2162460、001740、502192、002460、001080、00(4)使用Output語句(輸出語句)Outputout=數(shù)據(jù)集名<輸出統(tǒng)計(jì)量列表>;輸出統(tǒng)計(jì)量列表形式:1)統(tǒng)計(jì)量關(guān)鍵字=;新數(shù)據(jù)集中統(tǒng)計(jì)量用原變量名2)統(tǒng)計(jì)量關(guān)鍵字=新名字列表3)統(tǒng)計(jì)量關(guān)鍵字(變量列表)=新名字列表Procmeansdata=mylib、bclassnoprint;varheightweight;outputout=result2mean=;Run;Procprintdata=result2;run;例4(1)把數(shù)據(jù)集mylib、bclass中變量height與weight得均值輸出到新數(shù)據(jù)集result2、
(2)把變量height與weight得均值(新名分別取為hmean與wmean)
與標(biāo)準(zhǔn)差(新名字分別取為hstd與wstd)輸出到新數(shù)據(jù)集result3、Procmeansdata=mylib、bclassnoprint;varheightweight;outputout=result3mean=hmeanwmeanstd=hstdwstd;Run;Procprintdata=result3;run;Output<選項(xiàng)><輸出統(tǒng)計(jì)量列表>;輸出統(tǒng)計(jì)量列表形式:1)統(tǒng)計(jì)量關(guān)鍵字=;新數(shù)據(jù)集中統(tǒng)計(jì)量用原變量名2)統(tǒng)計(jì)量關(guān)鍵字=新名字列表3)統(tǒng)計(jì)量關(guān)鍵字(變量列表)=新名字列表(3)把變量height得均值、變量height與weight得標(biāo)準(zhǔn)差(新名字
分別取為hstd與wstd)與變量weight得方差(新名字取為wvar)輸出到新數(shù)據(jù)集result4、Procmeansdata=mylib、bclassnoprint;varheightweight;outputout=result4mean(height)=std=hstdwstdvar(weight)=wvar;Run;Procprintdata=result4;run;Output<選項(xiàng)><輸出統(tǒng)計(jì)量列表>;輸出統(tǒng)計(jì)量列表形式:1)統(tǒng)計(jì)量關(guān)鍵字=;新數(shù)據(jù)集中統(tǒng)計(jì)量用原變量名2)統(tǒng)計(jì)量關(guān)鍵字=新名字列表3)統(tǒng)計(jì)量關(guān)鍵字(變量列表)=新名字列表2、UNIVARIATE過程(單變量過程)
UNIVARIATE過程與MEANS過程得格式非常相似,相同得語句與選項(xiàng)其含義也相同,所不同得就是某些統(tǒng)計(jì)量只能在UNIVARIATE過程中計(jì)算(如眾數(shù)),而且UNIVARIATE過程中具有繪圖功能;MEANS過程默認(rèn)輸出統(tǒng)計(jì)量只有五個(gè);
UNIVARIATE過程默認(rèn)輸出統(tǒng)計(jì)量不只一頁。UNIVARIATE過程一般格式:Procunivariate<選項(xiàng)>;Var變量名列;/*分析所列變量*/<by變量名;>
<class變量名;>
<Id
變量名;><Outputout=數(shù)據(jù)集名<輸出統(tǒng)計(jì)量列表>;><histogram變量名</<選項(xiàng)>;
>Run;
Procunivariate主語句中可使用得選項(xiàng):Data=
數(shù)據(jù)集名若省略,用最近建立得SAS數(shù)據(jù)集。Freq
:生成包括變量值、頻數(shù)、百分?jǐn)?shù)與累計(jì)頻數(shù)得頻率表Normal
:計(jì)算關(guān)于輸入數(shù)據(jù)服從正態(tài)分布假設(shè)得檢驗(yàn)統(tǒng)計(jì)量及P-值。Plot
:
生成一個(gè)莖葉圖(或水平直方圖),箱線圖與正態(tài)概率圖。Noprint:
在Output窗口不輸出計(jì)算結(jié)果。Mu0=數(shù)值
若省略,檢驗(yàn)得均值為0。例5:對數(shù)據(jù)集bclass中變量HEIGHT與
WEIGHT計(jì)算常用描述性統(tǒng)計(jì)量Procunivariatedata=mylib、bclass;Varheightweight
;Run;使極值部分顯示更直接、對最大與最小得幾個(gè)紀(jì)錄不僅顯示它們得觀測序號,還顯示相應(yīng)得Id變量值(如姓名),使我們從輸出結(jié)果就知道誰最高,誰最矮等等、利用Id語句得例子:Procunivariatedata=mylib、bclass;Varheightweight
;
Idname;Run;Id語句:Id識(shí)別變量名;利用Id語句前、后輸出(部分):
Variable:HEIGHT(身高(厘米))
ExtremeObservationsLowestHighest
ValueObsValueObs125316712127271672013525167211373016914142617222
Variable:HEIGHT(身高(厘米))
ExtremeObservationsLowestHighest
ValueNAMEObsValueNAMEObs125ROBERT3167EDWARD12127LILLIE27167PHILLIP20135JANE25167KIRK21137SUSAN30169JEFFERY14142MICHAEL6172LAWRENCE22不用畫圖語句時(shí)Univariate過程輸出一般包括五個(gè)部分:第一部分就是矩統(tǒng)計(jì)量;第二部分為基本得位置與分散程度統(tǒng)計(jì)量,位置統(tǒng)計(jì)量包括均值、中位數(shù)、眾數(shù),分散程度統(tǒng)計(jì)量包括標(biāo)準(zhǔn)差、方差、極差、四分位間距;第三部分為關(guān)于均值等于零得三種檢驗(yàn)得結(jié)果,包括t檢驗(yàn)、符號檢驗(yàn)與符號秩檢驗(yàn);第四部分為各個(gè)重要得分位數(shù);第五部分就是觀測數(shù)據(jù)得五個(gè)最低值與五個(gè)最高值。Histogram語句(畫直方圖語句),其一般格式:histogram變量名</<選項(xiàng)>>;選項(xiàng):Midpoints=中點(diǎn)列Vscale=percent|count|proportion
直方圖高度。默認(rèn)就是percent。Cfill=顏色涂上直方圖或擬合曲線下方得顏色Nocurvel隱藏不同曲線含義得圖例Procunivariatedata=mylib、sryzcplot;Varine
;histogramine/cfill=red
;Run;例6計(jì)算家庭總收入得描述統(tǒng)計(jì)量,并繪制其直方圖、盒形圖及正態(tài)概率圖。Univariate過程輸出得直方圖繪制盒形圖及正態(tài)概率圖選項(xiàng)畫直方圖語句莖葉圖
莖葉圖又稱“枝葉圖”,它得思路就是將數(shù)組中得數(shù)按位數(shù)進(jìn)行比較,將數(shù)得大小基本不變或變化不大得位作為一個(gè)主干(莖),將變化大得位數(shù)作為分枝(葉),列在主干得后面,這樣就可以清楚地瞧到每個(gè)主干后面得幾個(gè)數(shù),每個(gè)數(shù)具體就是多少。莖葉圖就是一個(gè)與直方圖相類似得特殊工具,但又與直方圖不同,莖葉圖保留原始資料得資訊,直方圖則失去原始資料得訊息。將莖葉圖莖與葉逆時(shí)針方向旋轉(zhuǎn)9O度,實(shí)際上就就是一個(gè)直方圖,可以從中統(tǒng)計(jì)出次數(shù),計(jì)算出各數(shù)據(jù)段得頻率或百分比。從而可以瞧出分布就是否與正態(tài)分布或單峰偏態(tài)分布逼近。莖葉圖得優(yōu)缺點(diǎn)
1、用莖葉圖表示數(shù)據(jù)有兩個(gè)優(yōu)點(diǎn):一就是從統(tǒng)計(jì)圖上沒有原始數(shù)據(jù)信息得損失,所有數(shù)據(jù)信息都可以從莖葉圖中得到;二就是莖葉圖中得數(shù)據(jù)可以隨時(shí)記錄,隨時(shí)添加,方便記錄與表示。
2、莖葉圖只便于表示兩位有效數(shù)字得數(shù)據(jù),而且莖葉圖只方便記錄兩組得數(shù)據(jù),兩個(gè)以上得數(shù)據(jù)雖然能夠記錄,但就是沒有表示兩個(gè)記錄那么直觀、清晰。莖葉圖得案例分析
莖葉圖就是將統(tǒng)計(jì)分組與次數(shù)分配一次完成,就是探索性數(shù)據(jù)分析中對數(shù)據(jù)得初步形象描繪。其圖形直觀且保留原始信息,均值、中位數(shù)與眾數(shù)均可依原始數(shù)據(jù)準(zhǔn)確方便地算出?,F(xiàn)以某班一次考試成績?yōu)槔?介紹莖葉圖得作法。作圖過程
先作“莖”后填“葉”,將分組標(biāo)志(組距)視為莖,按數(shù)得大小從上到下(也可從下到上)排列。將每一個(gè)觀察值視為一個(gè)樹葉,每一個(gè)樹葉按照樹莖之要求長在應(yīng)長得樹莖上。對于百分制得考試分?jǐn)?shù),先將高位數(shù)字按順序排成一列,后將每個(gè)分?jǐn)?shù)得個(gè)位數(shù)為葉長在相應(yīng)得莖上,最后將每莖上得葉按從小到大得排列。若人數(shù)較多,樹葉較長,可將高位數(shù)重復(fù)兩次,個(gè)位數(shù)分為0~5一枝,5~9一枝。為了便于分析,可將1/4、3/4分位數(shù)及中位數(shù)用符號標(biāo)出。
利用莖葉圖對考試成績進(jìn)行評估
1)將莖葉圖莖與葉逆時(shí)針方向旋轉(zhuǎn)9O度,實(shí)際上就就是一個(gè)班級成績帶有數(shù)字得直方圖,可以從中統(tǒng)計(jì)出次數(shù),計(jì)算出各分?jǐn)?shù)段得頻率或百分比,從它可以瞧出班級成績得分布就是否與正態(tài)分布或單峰偏態(tài)分布逼近。2)若莖葉圖成績表扁而寬,說明該班整體成績較集中,成績差異不大;如果莖葉圖長而窄,說明該班成績較分散,標(biāo)準(zhǔn)差較大,高分低分差距大。這可使教師或校管理部門對學(xué)生成績有所了解。2、盒形圖盒形圖(boxplot,又稱箱圖、箱線圖、盒子圖)就是用更為簡潔得方法表現(xiàn)數(shù)據(jù)在數(shù)軸上得分布及其特點(diǎn)得圖形。左圖就是根據(jù)居民家庭得收入情況所繪得盒形圖;右圖就是分地區(qū)居民家庭得收入情況所繪得盒形圖。
盒子得中間橫線就是數(shù)據(jù)得中位數(shù),封閉盒子得上下兩橫線分別為上,下四分位數(shù)。盒子得長度就就是分布得四分位間距,其作用類似于標(biāo)準(zhǔn)差,可以反映數(shù)據(jù)分布得分散程度。從盒子邊線向外畫得兩條線叫做觸須線,最長可以延伸到四分位間距得1、5倍,但就是如果已經(jīng)到了數(shù)據(jù)得最小值或最大值處就不再延伸了。如果有些數(shù)據(jù)值超出了觸須線得范圍,則這些數(shù)據(jù)用觸須線以外得點(diǎn)來畫出,一般認(rèn)為這樣得點(diǎn)可能就是異常點(diǎn),在進(jìn)一步進(jìn)行數(shù)據(jù)分析時(shí)可以考慮就是否需要剔除它。
StemLeaf#Boxplot43103323444|25557886++211*--+--*15788886++1122|++++MultiplyStem、Leafby10**+3NormalProbabilityPlot4250+*+|++++++++|*+*+*+*2750+++++***|+*****+****|**+*******1250+*++*+++++++++++++++-2-10+1+2UNIVARIATE過程輸出得莖葉圖、盒形圖、正態(tài)概率圖正態(tài)概率圖中“*”代表觀測值“+”代表參考直線。當(dāng)觀測數(shù)據(jù)來自正態(tài)分布時(shí),“*”應(yīng)與“+”較為接近或重合。本例中,兩者較接近,數(shù)據(jù)可能來自正態(tài)分布??蛇M(jìn)一步利用檢驗(yàn)統(tǒng)計(jì)量進(jìn)行正態(tài)性檢驗(yàn)。FREQ過程(頻數(shù)過程、可輸出頻數(shù)表)procfreq<選項(xiàng)>;
<by變量名;>
<tables
變量名列
</選項(xiàng)>>;<其她SAS語句;>run;
1)Data=
數(shù)據(jù)集名若省略,用最近建立得SAS數(shù)據(jù)集。
2)Order=Freq|Data|Internal|Formatted
規(guī)定變量水平得記錄次序(排列次序)。
Order=
Freq表示按頻數(shù)降序排列,因此最大頻數(shù)得水平第一個(gè)出現(xiàn);
Order=Data表示按輸入數(shù)據(jù)集中值得出現(xiàn)次序排列;
Order=Internal表示按變量得值排序;
Order=Formatted表示按變量格式化值得次序。默認(rèn)項(xiàng)。
procfreq主語句中可使用得選項(xiàng):3)
Page要求Freq過程每頁只輸出一張表。Tables語句tables
變量名列
</選項(xiàng)>;變量名列:列出要輸出頻數(shù)表得變量名,變量名之間要留空格、
在PROCFREQ
得一次執(zhí)行中可以包括任意多個(gè)tables語句。如果沒有tables語句,FREQ過程對數(shù)據(jù)集中每個(gè)變量都生成一個(gè)單向頻數(shù)表(如圖1中兩個(gè)變量得表分別為單向頻數(shù)表)。
tables
變量名列
</選項(xiàng)>;
在tables語句得斜杠/后面能使用得選項(xiàng)有:
NOCUM—不輸出單向頻數(shù)表與列表格式下得累計(jì)頻數(shù)與累計(jì)百分?jǐn)?shù);
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 股權(quán)投資框架合同確保投資順利進(jìn)行
- 軟裝選購合同
- 2024年度申請工業(yè)地產(chǎn)租賃合同范本3篇
- 2024年精簡版二手車買賣合同書一
- 2024年版生物制藥技術(shù)研發(fā)合同
- 2024年版高級軟件開發(fā)工程師崗位勞動(dòng)合同
- 2024-2030年高碳鉻鐵公司技術(shù)改造及擴(kuò)產(chǎn)項(xiàng)目可行性研究報(bào)告
- 2024-2030年進(jìn)風(fēng)風(fēng)輪搬遷改造項(xiàng)目可行性研究報(bào)告
- 2024-2030年秸稈粉碎還田機(jī)公司技術(shù)改造及擴(kuò)產(chǎn)項(xiàng)目可行性研究報(bào)告
- 2024-2030年版中國建筑隔震橡膠支座行業(yè)發(fā)展前景預(yù)測及投資策略分析報(bào)告
- 田字格模版內(nèi)容
- 統(tǒng)編教材小學(xué)語文課外閱讀《一百條裙子》導(dǎo)讀課課件
- 2019譯林版高中英語必修二單詞默寫表
- 二次結(jié)構(gòu)施工質(zhì)量通病防治措施
- 2022雙減背景下小學(xué)數(shù)學(xué)分層作業(yè)優(yōu)化設(shè)計(jì)研究課題結(jié)題報(bào)告
- PDCA循環(huán)PPT課件 精品
- (民法典版)離婚登記申請受理回執(zhí)單
- 國家開放大學(xué)《房屋建筑混凝土結(jié)構(gòu)設(shè)計(jì)》章節(jié)測試參考答案
- 地下水環(huán)境監(jiān)測井施工設(shè)計(jì)方案(共10頁)
- 社會(huì)責(zé)任運(yùn)行風(fēng)險(xiǎn)評估表
- [方案]鐵路行車組織設(shè)計(jì)說明書
評論
0/150
提交評論