




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
統(tǒng)計描述與過程演示文稿目前一頁\總數(shù)四十三頁\編于十七點(優(yōu)選)統(tǒng)計描述與過程目前二頁\總數(shù)四十三頁\編于十七點1、表示位置的數(shù)字特征總體均值、中位數(shù)、眾數(shù)眾數(shù)是使得隨機變量密度函數(shù)取最大值的數(shù)值一、隨機變量的數(shù)字特征2、表示離散程度的數(shù)字特征極差、方差、標(biāo)準(zhǔn)差、標(biāo)準(zhǔn)差(變異)系數(shù)4.1變量的數(shù)字特征與MEANS過程極差:變異系數(shù):目前三頁\總數(shù)四十三頁\編于十七點標(biāo)準(zhǔn)差系數(shù)反映了單位均值上的離散程度常用在兩個總體均值不等的離散程度的比較上。3、表示分布形狀的數(shù)字特征偏度、峰度(對稱正態(tài)為0)偏度:度量總體分布偏斜程度隨機變量分布為對稱分布;非對稱的右偏分布,即隨機變量取值在右邊比較分散;非對稱的左偏分布,即隨機變量取值在左邊比較分散;目前四頁\總數(shù)四十三頁\編于十七點峰度:度量總體分布尾部粗細(xì)程度(與正態(tài)分布相比)正態(tài)分布隨機變量的峰度為0;與正態(tài)分布相比,隨機變量X偏離均值的極端值較少,分布形狀較平坦。與正態(tài)分布相比,隨機變量X偏離均值的極端值較多,分布有一個沉重的尾部,也稱重尾或粗尾,分布形狀較陡峭;目前五頁\總數(shù)四十三頁\編于十七點3、表示分布形狀的樣本統(tǒng)計量樣本偏度、樣本峰度4、區(qū)間估計二、參數(shù)估計1、表示位置的樣本統(tǒng)計量樣本均值、中位數(shù)、百分位數(shù)2、表示離散程度的樣本統(tǒng)計量樣本方差、樣本標(biāo)準(zhǔn)差、四分位差,樣本變異系數(shù)、樣本均值標(biāo)準(zhǔn)誤差目前六頁\總數(shù)四十三頁\編于十七點例題4.1,P93在實際應(yīng)用中,經(jīng)常會遇到數(shù)據(jù)處理的問題,那么為了分析數(shù)據(jù)我們就需要利用相關(guān)的統(tǒng)計量,數(shù)字特征來反映數(shù)據(jù)的特性。目前七頁\總數(shù)四十三頁\編于十七點
主要功能
:
MEANS過程用來對數(shù)據(jù)集中的數(shù)值變量的全部非丟失觀測計算簡單的描述統(tǒng)計量;還可以對均值進行假設(shè)檢驗并給出置信區(qū)間;對觀測組(BY組)分別計算簡單描述統(tǒng)計量。三、MEANS過程目前八頁\總數(shù)四十三頁\編于十七點MEANS過程的一般格式為:PROC
MEANS<option-list><statistic-keyword-list>;(必需的語句)varvariable-list;classvariable-list;freqvariable;weightvariable;idvariable-list;byvariable-list;output<out=sas-data-set><output-sataistic-list>….其余都是可選語句目前九頁\總數(shù)四十三頁\編于十七點1、PROCMEANS語句一般格式:PROCMEANS<options><statistic-keywords>;常用options:(1)DATA=數(shù)據(jù)集名(2)NOPRINT或PRINT:規(guī)定不輸出或輸出描述統(tǒng)計量;(3)MAXDEC=number;規(guī)定輸出結(jié)果小數(shù)部分的最大位數(shù),缺省為2;(4)ALPHA=value:規(guī)定置信區(qū)間的置信水平,缺省為0.05;常見統(tǒng)計量:MEAN:均值STD:標(biāo)準(zhǔn)差MIN:最小值MAX:最大值RANGE:極差SUM:求和VAR:方差SKEWNESS:偏度KURTOSIS:峰度等等語句說明statistic-keywords:規(guī)定輸出的統(tǒng)計量目前十頁\總數(shù)四十三頁\編于十七點2、VAR語句:一般格式VARvariable-list;規(guī)定要求計算簡單統(tǒng)計量的數(shù)值變量及次序。3、BY語句:一般格式BYvariable-list;根據(jù)by語句定義的觀測組分別計算各組相應(yīng)的簡單統(tǒng)計量。(要先排序)4、CLASS語句:一般格式CLASSvariable-list;可用其規(guī)定的變量定義觀測組,并分別計算各組相應(yīng)的簡單統(tǒng)計量。目前十一頁\總數(shù)四十三頁\編于十七點5、FREQ語句:一般格式FREQvariable;指定變量表示相應(yīng)觀測出現(xiàn)的頻數(shù)6、WEIGHT語句:WEIGHTvariable;指定變量表示相應(yīng)觀測的權(quán)數(shù)7、ID語句:一般格式IDvariable;對產(chǎn)生的數(shù)據(jù)集增加一個或幾個附加變量,用于識別輸出數(shù)據(jù)集里的觀測。目前十二頁\總數(shù)四十三頁\編于十七點
要求把計算的描述統(tǒng)計量輸出到新的SAS數(shù)據(jù)集中,并對新數(shù)據(jù)集的名字及所包含的統(tǒng)計量名字列表。8、OUTPUT語句:一般格式:OUTPUT<OUT=SAS-data-set><output-statistic-list><MAXID<(var-1<id-list-1><…var-n<(id-list-n)>>)>=name-list><MINID<(var-1<id-list-1><…var-n<(id-list-n)>>)>=name-list>;目前十三頁\總數(shù)四十三頁\編于十七點三類任選項:(1)OUT=SAS-data-set:給出產(chǎn)生輸出數(shù)據(jù)集的名字;(2)output-statistic-list;規(guī)定輸出數(shù)據(jù)集里所要求的統(tǒng)計量,并規(guī)定這些統(tǒng)計量的變量名。有以下幾種形式:1)statistic-keyword=:如outputout=resultmean=meanx;2)statistic-keyword=name-list(名字列表)對所有的分析變量規(guī)定統(tǒng)計量的變量名如:outputout=result1mean=meanx1meanx2;目前十四頁\總數(shù)四十三頁\編于十七點(3)<MAXID<(var-1<id-list-1><…var-n<(id-list-)>>)>=name-list><MINID<(var-1<id-list-1><…var-n<(id-list-n)>>)>=name-list>;該項選擇用不同分析變量的最大或最小值來識別變量的列表。3)statistic-keyword(variable-list)=name-list對部分分析變量規(guī)定統(tǒng)計量的變量名如:outputout=result2mean=premeanpostmeanstd(post)=stdpost;(統(tǒng)計關(guān)鍵詞(變量列表)=名字列表)Var是被取最大值或最小值變量;id-list是對最大值或最小值的識別變量。目前十五頁\總數(shù)四十三頁\編于十七點dataa;inputname$sex$heightage;cards;rosef16519katef16817mikem17620johnm18019alicef17022;proc
meansdata=a;varheightage;outputout=newmax=maxhmaxamaxid(height(name)age(name))=heightstagest;run;maxid(height(name)age(name))=heightstagest;要求給出身高和年齡最大者的姓名,并分別用變量名保存在輸出數(shù)據(jù)集中。如:要求找出數(shù)據(jù)集a中身高最高者和年齡最大者目前十六頁\總數(shù)四十三頁\編于十七點輸出結(jié)果目前十七頁\總數(shù)四十三頁\編于十七點課本例4.1(P97)dataincomes;inputincome@@;cards;27139628739946626929533042532422811322617632023040448712774234523164336343330436141388293464200392265403259426262221355324374347261287113135291176342443239302483231292373346293236223371287400314468337308359352273267277184286214351270330238248419330319440427314414299265318415372238323412493286313412;proc
meansdata=incomesmeanvarstdcvskewnesskurtosisalpha=0.1tprtclmmaxdec=2;varincome;run;MEANS過程應(yīng)用目前十八頁\總數(shù)四十三頁\編于十七點mean:均值;var:方差;std:標(biāo)準(zhǔn)差cv:標(biāo)準(zhǔn)差系數(shù);skewness:偏度kurtosis:峰度;alpha=0.1:顯著性水平為0.1,即置信水平為90%;t:均值是否為零的t檢驗值;prt:對應(yīng)t值的概率clm:上、下置信限maxdec=2:保留兩位有效小數(shù)目前十九頁\總數(shù)四十三頁\編于十七點輸出結(jié)果目前二十頁\總數(shù)四十三頁\編于十七點1、計算家庭人均收入(income),家庭人均消費支出(consume)和食品支出(food)的均值、標(biāo)準(zhǔn)差、變異系數(shù)、偏度和峰度;目前二十一頁\總數(shù)四十三頁\編于十七點procmeansdata=cjl.xf2000meanstdcvskewnesskurtosismaxdec=2;varincomeconsumefood;run;目前二十二頁\總數(shù)四十三頁\編于十七點procmeansdata=cjl.xf2000meanmaxdec=2;Classarea;varincomeconsumefood;Outputout=newmax=maxinmaxconmaxfmaxid(income(province)consume(province)food(province))=incomestconsumestfoodest;run;procprintdata=new;varareamaxinmaxconmaxfincomestconsumestfoodest;run;2、按地區(qū)計算家庭人均收入(income),家庭人均消費支出(Consume)和食品支出(food)的均值;計算各地區(qū)以上變量的最大值以及對應(yīng)的省份,并保存到數(shù)據(jù)集new中。目前二十三頁\總數(shù)四十三頁\編于十七點各地區(qū)均值目前二十四頁\總數(shù)四十三頁\編于十七點各地區(qū)三個變量的最大值及相應(yīng)省份目前二十五頁\總數(shù)四十三頁\編于十七點4.2、單變量分析與UNIVARIATE過程
在研究一個隨機變量的統(tǒng)計特性時,僅僅靠一些數(shù)字特征是不夠的;還必須研究其他反映變量統(tǒng)計特征的形式,比如:樣本的極端值、分位數(shù)、直方圖、莖葉圖、盒型圖、正態(tài)概率圖等。目前二十六頁\總數(shù)四十三頁\編于十七點能完成MEANS過程的基本統(tǒng)計量的計算描述變量極端值的情況計算分位數(shù),如中位數(shù),上、下四分位數(shù)生成若干個描述變量分布的圖,如莖葉圖、盒型圖、正態(tài)概率圖等生成頻率表對數(shù)據(jù)進行正態(tài)性檢驗UNIVARIATE過程的主要功能目前二十七頁\總數(shù)四十三頁\編于十七點UNIVARIATE過程的一般格式為:procunivariate<option-list>;varvariable-list;byvariable-list;freqvariable;weightvariable;idvariable-list;output<out=sas-data-set><output-statistic-list><pctlpts=percentilespctlper=prefix-name-list><pctlname=suffix-name-list>;目前二十八頁\總數(shù)四十三頁\編于十七點
語句說明options除了類似與means過程的選項外還有:1、procunivariate<option-list>語句(1)freq:要求生成包含變量值、頻數(shù)、百分?jǐn)?shù)和累積頻數(shù)的頻率表(2)Normal:要求檢驗輸入的數(shù)據(jù)是否服從正態(tài)分布(3)Plot:要求生成莖葉圖、盒型圖、正態(tài)概率圖(4)pctldef=value:規(guī)定計算百分位數(shù)的方法目前二十九頁\總數(shù)四十三頁\編于十七點(1)Q3、Q1:上下四分位數(shù)(2)QRANGE:上下四分位數(shù)間的差(3)MSIGN:符號統(tǒng)計量(4)PROBM:大于符號秩統(tǒng)計量絕對值的概率(5)SIGNRANK:符號秩統(tǒng)計量(6)PROBS:大于中心符號秩統(tǒng)計量的絕對值的概率(7)NORMAL:檢驗正態(tài)性統(tǒng)計量(8)PROBN:檢驗數(shù)據(jù)來自正態(tài)分布的假設(shè)的概率(9)PCTLPTS=percentiles:規(guī)定用戶希望計算的百分位數(shù)。2、OUTPUT語句輸出統(tǒng)計量表除了MEANS語句中常用統(tǒng)計量外,還有以下一些統(tǒng)計量:目前三十頁\總數(shù)四十三頁\編于十七點procunivariatedata=cjl.xf2000plotnormal;varincome;run;例4.3檢驗例4.2中變量income的正態(tài)性目前三十一頁\總數(shù)四十三頁\編于十七點輸出內(nèi)容目前三十二頁\總數(shù)四十三頁\編于十七點輸出內(nèi)容三種檢驗的P值都<0.05,故在給定的顯著性水平0.05下,拒絕均值為0的原假設(shè),即變量income的均值不為0。目前三十三頁\總數(shù)四十三頁\編于十七點輸出內(nèi)容樣本容量小于2000時用W檢驗,大于2000時用D檢驗。W檢驗對應(yīng)的P值小于0.05,故在0.05的顯著性水平下拒絕原假設(shè),即變量income不服從正態(tài)分布。目前三十四頁\總數(shù)四十三頁\編于十七點輸出內(nèi)容目前三十五頁\總數(shù)四十三頁\編于十七點輸出內(nèi)容縱軸為莖,數(shù)據(jù)代表觀測間隔。橫軸為葉,表示觀測頻數(shù),數(shù)據(jù)為觀測值的末尾數(shù)字,葉右邊數(shù)字代表這一區(qū)間內(nèi)觀測的個數(shù)。目前三十六頁\總數(shù)四十三頁\編于十七點輸出內(nèi)容盒形圖使用莖葉圖的縱軸,上下頂線對應(yīng)上下四分位數(shù),中間虛線對應(yīng)中位數(shù)(5644.860)
,中間”+”號位平均值(6305.705),明顯大于中位數(shù),說明右邊數(shù)據(jù)比較分散,分布向右偏離。穿過莖葉圖的線為觸須線,表示數(shù)據(jù)的分布范圍;延伸到上下頂線外的范圍是上下四分位數(shù)差的2.5倍,超過范圍的數(shù)用“0”表示,若數(shù)值大于3倍,用“*”表示。
6305.705下頂線下的線較短,說明這個范圍的數(shù)據(jù)分布比較集中。目前三十七頁\總數(shù)四十三頁\編于十七點輸出內(nèi)容“*”代表觀測值,“+”代表參考直線,若觀測來自正態(tài)分布,兩者應(yīng)較為接近或重合。本例顯然不重合,故變量income不服從正態(tài)分布。目前三十八頁\總數(shù)四十三頁\編于十七點輸出內(nèi)容“*”代表觀測值,“+”代表參考直線,若觀測來自正態(tài)分布,兩者應(yīng)較為接近或重合。本例顯然不重合,故變量income不服從正態(tài)分布。目前三十九頁\總數(shù)四十三頁\編于十七點procunivariatedata=cjl.xf2000noprint;varincome;histogramincome/cframe=ligrcfill=green;title'histogramofincome';run;例4.4利用PROCUNIVARIATE過程作直方圖進一步分析例4.2中變量income的分布情況目前四十頁\總數(shù)四十三頁\編于十七點顯然不符合正態(tài)分布,右邊比較分散,分布向右偏離。目前四十一頁\總數(shù)四十三頁\編于十七點dataa;inputprovince$x2-x7;cards;bj 2.97 1.68 1.77 1174.48 1078.57 779.61tj 3.00 1.41 2.13 827.61 770.85 581.47sjz 3.04 1.54 1.97 627.9 590.32 427.87ty 2.94 1.63 1.80 644.51 592.17 441.25hhht 2.73 1.28 2.13 641.78 610.47 480.24sy 2.97 1.76 1.69 692.73 623.77 505.27dl 3.06 1.69 1.81 771.92 704.51 621.25cc 3.06 1.77 1.73 635.19 603.23 541.54heb 2.90 1.51 1.92 671.31 654.79 494.76sh 3.00 1.55 1.94 1273.24 1138.71 896.83nj 2.90 1.40 2.07 892.41 833.69 611.76hz 2.99 1.60 1.87 1004.69 895.77 700.04nb 2.89 1.65 1.75 1179.61 1051.65 877.74hf 2.93 1.50 1.95 659.24 606.44 457.92fz 3.12 1.68 1.86 846.35 768.80 527.77xm 3.16 1.67 1.89 1
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 第17課 明朝的滅亡和清朝的建立 教案2024-2025學(xué)年七年級歷史下冊新課標(biāo)
- “房地產(chǎn)主要的宣傳渠道及各種渠道效果”的調(diào)研調(diào)查問卷
- 湖北省武漢市江岸區(qū)2024-2025學(xué)年高三(上)期末生物試卷(含解析)
- 北京市朝陽區(qū)北京中學(xué)2023-2024學(xué)年高二下學(xué)期期中考試語文試題
- 樓頂廣告施工方案
- 隧道集水坑施工方案
- 箱梁混凝土施工方案
- 2025年8d考核試題及答案
- 6年級數(shù)學(xué)手抄報題材
- 玻璃厚度幕墻施工方案
- 2025年徐州生物工程職業(yè)技術(shù)學(xué)院單招職業(yè)技能測試題庫含答案
- 2025年廣東江門中醫(yī)藥職業(yè)學(xué)院單招職業(yè)適應(yīng)性測試題庫參考答案
- 2025年阜陽職業(yè)技術(shù)學(xué)院單招職業(yè)適應(yīng)性測試題庫帶答案
- 2025年新公司法知識競賽題庫與答案
- 2025年新人教版物理八年級下冊全冊教案
- 形象設(shè)計師三級習(xí)題庫及答案
- 2025屆高考英語復(fù)習(xí)讀后續(xù)寫練習(xí)+男孩與愛犬:失而復(fù)得的溫暖+課件
- 2025上半年四川綿陽市北川縣事業(yè)單位招聘工作人員擬聘高頻重點提升(共500題)附帶答案詳解
- 廠中廠安全知識培訓(xùn)
- 高速鐵路設(shè)計規(guī)范-12.綜合接地(第一稿)提交
- 北京化工大學(xué)《微機原理及接口技術(shù)》2021-2022學(xué)年第一學(xué)期期末試卷
評論
0/150
提交評論