版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
會計學(xué)1stata中變量描述分析和作圖進(jìn)行描述性統(tǒng)計分析的目的:對數(shù)據(jù)進(jìn)行描述性分析的目的是熟悉和了解數(shù)據(jù)的基本統(tǒng)計特征,把握數(shù)據(jù)的總體分布形態(tài),進(jìn)而決定如何對數(shù)據(jù)作進(jìn)一步處理,進(jìn)而回答所要研究的問題。第1頁/共51頁本章主要內(nèi)容6.1.頻數(shù)分布6.2.條件頻數(shù)分布6.3.頻數(shù)分布的常見錯誤分析及解決方法6.4.變量的中央趨勢和離散趨勢6.5.描述數(shù)值型數(shù)據(jù)統(tǒng)計量的其它方法6.6.畫圖第2頁/共51頁數(shù)據(jù)描述的方法獲得數(shù)據(jù)的目的是為了描述和分析數(shù)據(jù),回答研究問題數(shù)據(jù)分析的第一步是描述變量的基本特征。只有在熟悉數(shù)據(jù)的基本特征和變量分布的基礎(chǔ)上,才能決定如何對數(shù)據(jù)作進(jìn)一步處理描述性統(tǒng)計通過一系列的程序幫助組織、歸納、總結(jié)樣本的基本特征。常見的方法包括頻數(shù)分布、百分比、分位數(shù)、均值和標(biāo)準(zhǔn)差、中數(shù)、眾數(shù)、最大值和最小值等單變量分析(univariateanalysis)??疾熳兞康膶傩苑植级蚨嘣徊姹?、二元相關(guān)關(guān)系分析圖形第3頁/共51頁描述性分析的菜單窗口該內(nèi)容是statistics菜單下的首個選項:Statistics–Summaries,tables&tests第4頁/共51頁6.1.頻數(shù)分布頻數(shù)、比例(proportion)、百分比(percentage)和比率(ratio)等描述性統(tǒng)計方法適用于所有類型數(shù)據(jù),包括定性、定序、定距和定比數(shù)據(jù)。第5頁/共51頁頻數(shù)與頻數(shù)分布頻數(shù)也稱次數(shù),即分布在各個類別中的數(shù)據(jù)個數(shù)頻數(shù)分布就是對樣本中變量的不同屬性出現(xiàn)次數(shù)的描述假如一個班60%的同學(xué)是女生,40%的同學(xué)是男生,則60%和40%是女生和男生的分布情況2000年人口普查顯示,中國7%的人群年齡在65歲及以上,則7%是當(dāng)時老年人口在總?cè)丝谥兴嫉谋壤?頁/共51頁菜單窗口在Stata的窗口菜單下,有多種描述數(shù)據(jù)頻數(shù)分布特征的選項,每一選項都具有一定獨(dú)特的功能,但有些功能是相通的第7頁/共51頁第8頁/共51頁單變量頻數(shù)分布.tab[變量名]
①②
①:.tab也可寫為tabulation,是獲得頻數(shù)分布的基本命令
②:需要輸出頻數(shù)分布的變量名稱該命令不對頻數(shù)分布作任何定義,只提供單個變量的頻數(shù)分布.tabgirl該命令告訴Stata,給變量girl生成一張頻數(shù)分布表第9頁/共51頁girlin|2004,0=boy|---1=girl|Freq.PercentCum.------------+-----------------------------------0|1,24853.7053.701|1,07646.30100.00------------+-----------------------------------Total|2,324100.00
輸出結(jié)果顯示,該數(shù)據(jù)一共有2324個觀察值變量girl有兩個取值:0代表男孩,1代表女孩樣本中有1248個男孩,占53.7%;女孩為1075,占46.3%第10頁/共51頁多變量頻數(shù)分布.tab1[變量a
變量b
變量c]
①②
①:同時獲得多個變量頻數(shù)分布的基本命令
②:需要輸出頻數(shù)分布的變量名稱與tab或tabulate不同的是,.tab1可接多個變量
.tabgirlurban該命令告訴Stata,給變量girl和urban各自生成一張頻數(shù)分布表第11頁/共51頁6.2.條件頻數(shù)分布條件頻數(shù)分布也稱交叉頻數(shù)表為或列聯(lián)表,同時生成兩個變量之間關(guān)系的頻數(shù)分布,屬于相關(guān)分析中的一種.第12頁/共51頁基本命令.tab提供、且只能提供雙變量的交叉分析,生成二者之間的交叉頻數(shù)分布,相當(dāng)于命令tabulate若其令后面僅有一個變量,則Stata輸出該變量的頻數(shù)分布若多于兩個變量,則會出現(xiàn)錯誤提示Stata的默認(rèn)方法是,tab后面的第一個變量被當(dāng)成行變量,第二個變量被當(dāng)成列變量.tab2也提供雙變量的交叉分析表.tab和tab2的主要區(qū)別在于,前者僅可以用于兩個變量的交互分析(tab后面最多只能有兩個變量);tab2可同時生成多個兩兩變量之間的交互頻數(shù)分布表第13頁/共51頁例1.tabgirlenroll,chi2
column
row
miss
nokey
①②③④⑤①:提供兩個變量關(guān)系的卡方②:提供列變量的百分比③:提供行變量的百分比④:提供缺失變量的比例⑤:壓縮單元格內(nèi)容的提示第14頁/共51頁第15頁/共51頁6.3.頻數(shù)分布的常見錯誤之一toomanyvariablesspecified導(dǎo)致I類錯誤的原因在于,混淆了tab,tab1,tab2的用法.tab可用于生成單個變量的頻數(shù)分布,其后只能接一個變量;.tab也可用來描述兩個變量的交叉分布,其后面只能接兩個變量tab1后面可以接多個變量,但只能分別生成單個變量的頻數(shù)分布,而不能生成交叉表tab2則可以生成多個雙變量的交叉表因此,若使用下列命令,則會遇到這類錯誤.taburbanyrschenrolltoomanyvariablesspecifiedr(103);第16頁/共51頁6.3.頻數(shù)分布的常見錯誤之二toomanyvalues導(dǎo)致這類錯誤的原因在于,在試圖生成兩個變量的交叉表時,每個變量都包含太多的取值。比如:.tabageweight.toomanyvalues(變量的取值太多)這里,變量age和weight均為連續(xù)變量,且都有很多的取值,尤其是weight若需要生成二者之間的交叉表,可以限制其中一個或兩個變量的取值,或者將它們轉(zhuǎn)換為分類變量第17頁/共51頁6.4.變量的中央趨勢和離散趨勢第18頁/共51頁集中趨勢:眾數(shù)數(shù)據(jù)分布的一種表現(xiàn)形式。頻數(shù)最多的組段代表了中心位置(平均水平),從兩側(cè)到中心,頻數(shù)分布逐漸增加描述集中趨勢的方式包括:眾數(shù)、均值、中位數(shù)眾數(shù)(mode):最常出現(xiàn)的觀察值或?qū)傩匀绻谌?0個學(xué)生中,20個18歲的學(xué)生、5個19歲、5個20歲,則18是眾數(shù)眾數(shù)適用于所有類型數(shù)據(jù),但主要用于測度分類數(shù)據(jù)的集中趨勢一個數(shù)據(jù)可以有兩個或多個眾數(shù),故眾數(shù)具有不唯一性的特點
第19頁/共51頁集中趨勢:算術(shù)均值(mean,average)加總多個觀察值,除以總觀察量得到的數(shù)值適用于正態(tài)分布或者近似正態(tài)分布;均數(shù)受特大值和特小值的影響,會偏大或偏小,故對偏態(tài)分布的資料,均數(shù)的代表性差,不適合描述偏態(tài)分布的集中趨勢;全域(總體)均數(shù)稱為μ;樣本均數(shù)稱為第20頁/共51頁集中趨勢:中位數(shù)(median)將一組數(shù)值從小到大排列后,位于中間的數(shù)值;若5個人的年齡分別為1,3,6,8,32,則中位數(shù)為6(均值為10);中位數(shù)度量方式適用于偏態(tài)分布數(shù)據(jù)。中位數(shù)不受兩端特大值和特小值的影響,只和位置居中的觀察值有關(guān);對于正態(tài)分布,理論上中位數(shù)等于均數(shù);第21頁/共51頁離散趨勢:極差或者全距(range,R)數(shù)據(jù)分布的另一種表現(xiàn)形式。從中心到兩側(cè),頻數(shù)分布逐漸減少。反映了數(shù)據(jù)的離散程度或變異程度;描述離散趨勢的方法包括:級差、方差、標(biāo)準(zhǔn)差;極差或者全距(range,R):表示變量取值中的最大值和最小值之差。適合所有分布類型的數(shù)據(jù);R=最大值-最小值計算簡單,但不能反映所有變量值的變異程度,易受最大值和最小值的影響,不穩(wěn)定第22頁/共51頁離散趨勢:方差(variance)方差(variance):表示一組變量取值的平均離散程度。方差越大,離散或者變異程度越大。適合描述近似正態(tài)分布資料的離散趨勢。第23頁/共51頁離散趨勢:標(biāo)準(zhǔn)差(standarddeviation)方差的開方,和均數(shù)的單位一致,也是數(shù)據(jù)波動性的一種度量,即是對圍繞均值的離散趨勢的測量標(biāo)準(zhǔn)差和方差是實際中應(yīng)用最廣的測量離散程度的統(tǒng)計量如果一個變量具有正態(tài)分布,則均值68%的數(shù)值將會位于離平均值加減一個標(biāo)準(zhǔn)差的范圍內(nèi);95%的個案將會位于加減兩個標(biāo)準(zhǔn)差的范圍內(nèi);99.9%的個案將會位于加減三個標(biāo)準(zhǔn)差的范圍內(nèi)標(biāo)準(zhǔn)差越小,數(shù)據(jù)的分布就越圍繞均值聚集;標(biāo)準(zhǔn)差越大散,數(shù)據(jù)的分布就越分散。第24頁/共51頁離散趨勢:標(biāo)準(zhǔn)差(II)適合描述近似正態(tài)分布資料的離散趨勢方差或標(biāo)準(zhǔn)差都是根據(jù)全部數(shù)據(jù)計算的,反映了每個數(shù)據(jù)與其均值相比平均相差的數(shù)值,因此能準(zhǔn)確地反映數(shù)據(jù)的離散程度計算公式:第25頁/共51頁離散趨勢:自由度為什么樣本標(biāo)準(zhǔn)差的分母是n-1呢自由度:一組數(shù)據(jù)中可以自由取值的個數(shù)。當(dāng)樣本的個數(shù)為n時,若樣本均值確定后,必有一個數(shù)據(jù)不能自由取值。因此,只有n-1個數(shù)據(jù)可以自由取值;假如樣本有3個數(shù)值,x=4,y=8,z=18,則均值=10。當(dāng)均值=10確定后,x,y,z中只有兩個數(shù)可以自由取值;在抽樣估計中,當(dāng)用樣本方差去估計總體方差時,樣本方差是總體方差的無偏估計量。第26頁/共51頁正態(tài)分布與偏態(tài)分布第27頁/共51頁正態(tài)分布(normaldistribution)一個變量的集中位置居中,左右兩側(cè)頻數(shù)基本對稱的分布從形態(tài)上看,正態(tài)曲線兩頭低、中間高、左右對稱正態(tài)分布是一條單峰、對稱呈鐘形的曲線,其對稱軸為x=μ,并在x=μ時取最大值。從x=μ點開始,曲線向正負(fù)兩個方向遞減延伸,不斷逼近x軸,但永不與x軸相交,因此說曲線在正負(fù)兩個方向都是以x軸為漸近線的其性質(zhì)如下:函數(shù)方程中μ為位置參數(shù);σ為形狀參數(shù)若σ不變,函數(shù)曲線形狀不變。μ變大時,曲線位置向右移;μ變小時,曲線位置向左移若μ不變,函數(shù)曲線位置不變。σ變大時,曲線形狀變得越來越胖、矮;σ變小時,曲線形狀變得越來越瘦、高第28頁/共51頁正態(tài)分布.histogramyrschifyrsch<=13,percentstart(0)width(1)normal第29頁/共51頁偏態(tài)分布數(shù)據(jù)的集中位置偏向一側(cè),頻數(shù)分布不對稱。偏態(tài)分布有兩種表現(xiàn)形式正偏態(tài)分布:集中位置偏向數(shù)值小的一側(cè)或者左側(cè),有較長的右尾部負(fù)偏態(tài)分布:集中位置偏向數(shù)值大的一側(cè)或者右側(cè),有較長的左尾部.histogramweight,percentstart(0)normalysize(4.5)xsize(2.5).histogramheight,percentstart(0)normalysize(4.5)xsize(2.5)第30頁/共51頁6.5描述性統(tǒng)計.sum[連續(xù)變量]
該命令給出標(biāo)準(zhǔn)統(tǒng)計量。輸出結(jié)果包括:
ObsMeanStd.Dev.MinMax(觀察量)(均值)(標(biāo)準(zhǔn)差)(最小值)(最大值).sum[連續(xù)變量],detailsumm或summarize得出同樣的結(jié)果第31頁/共51頁標(biāo)準(zhǔn)信息描述.sumageyrschweightheightVariable|ObsMeanStd.Dev.MinMax-------------+--------------------------------------------------------age|234110.092275.283423019yrsch|18306.0316943.440358015weight|210334.8563518.54676.4151height|2100132.819330.602770185.5由于缺失值個數(shù)的差異,幾個變量的觀察值都不一樣第32頁/共51頁詳細(xì)情況描述.sumage,detailagein2004-------------------------------------------------------------
PercentilesSmallest1%005%1010%20Obs232125%50SumofWgt.232150%10Mean9.658337
LargestStd.Dev.5.08463175%141890%1618Variance25.8534795%1719Skewness-.31632799%1719Kurtosis1.917769第33頁/共51頁變量age有2321個觀察值最小值為0,最大值為191%的樣本為0歲5%的樣本1歲或以下10%的樣本2歲或以下25%的樣本5歲或以下
……99%的樣本在19歲及以下樣本的均值為9.66;標(biāo)準(zhǔn)差為5.08;Variance、Skewness和Kurtosis分別表示樣本的方差為25.85、偏移度為-0.32和年齡分布的峰度為1.92。第34頁/共51頁6.5.描述數(shù)值型數(shù)據(jù)統(tǒng)計量的其它方法第35頁/共51頁均值估計(mean).meangirlurbanMeanestimationNumberofobs=5381--------------------------------------------------------------|MeanStd.Err.[95%Conf.Interval]-------------+------------------------------------------------girl|.4781639.0068103.464813.4915148urban|.1908567.0053577.1803535.2013599--------------------------------------------------------------第36頁/共51頁比例估計(proportion).proportiongirlurbanProportionestimationNumberofobs=5381_prop_1:girl=0.boy _prop_2:girl=1.girl_prop_3:urban=0.Rural _prop_4:urban=1.Urban--------------------------------------------------------------|BinomialWald|ProportionStd.Err.[95%Conf.Interval]-------------+------------------------------------------------girl|_prop_1|.5218361.0068103.5084852.535187_prop_2|.4781639.0068103.464813.4915148-------------+------------------------------------------------urban|_prop_3|.8091433.0053577.7986401.8196465_prop_4|.1908567.0053577.1803535.2013599--------------------------------------------------------------第37頁/共51頁使用table命令描述數(shù)據(jù).table[變量a],contents[mean
變量b
sd
變量b]①②③④⑤④⑤ ①:計算和表現(xiàn)統(tǒng)計量的命令 ②:分組變量。按照其分類描述中央趨勢或離散趨勢的統(tǒng)計量 ③:需要輸出統(tǒng)計量的內(nèi)容。后面括號內(nèi)列出(1)要描述的統(tǒng)計量,(2)需要計算統(tǒng)計量的變量名稱 ④:分別指均值和標(biāo)準(zhǔn)差 ⑤:需要計算均值和標(biāo)準(zhǔn)差的變量.tableab,contents(meancsdd)按變量a和b的分類,計算變量c的均值、d的標(biāo)準(zhǔn)差第38頁/共51頁.tableurban,contents(meanyrschsdsibs)------------------------------------urban|residence|mean(yrsch)sd(sibs)----------+-------------------------0,Rural|5.622172.62964511,Urban|7.109127.5369387------------------------------------按urban的分類,計算變量yrsch的均值和sibs的標(biāo)準(zhǔn)差第39頁/共51頁使用tabstat命令描述數(shù)據(jù).tabstat
abcd①②①:展示一個或多個數(shù)值型變量的描述性統(tǒng)計②:為變量a,b,c,d提供均值統(tǒng)計量輸出的統(tǒng)計量是可選擇的。若不選擇,則默認(rèn)值為均值。其主要選項包括:.tabstatabcd,by(e)statistics(meansd)columns(statistics) ①②③④①:按照選項by后面變量的類別,分組計算統(tǒng)計量;by后面的變量多是分類變量,也可以是取值不多的連續(xù)變量②:需要得到的統(tǒng)計量,可多選,不同統(tǒng)計量之間需用空格隔開③:輸出結(jié)果的格式可以選擇④:選擇columns(statistics),則豎列表述的是統(tǒng)計量,橫行表現(xiàn)的是變量。若選擇columns(variables)格式,則反之第40頁/共51頁使用tabulate,sum命令描述數(shù)據(jù).tab
ab,sum(c)①②
③④
①:接變量a、b的分類變量,計算變量c的統(tǒng)計量,并輸出a、b的頻數(shù)分布③:sum后面接一個需要輸出統(tǒng)計量的數(shù)值型變量②:分類變量;④:連續(xù)變量.tabstrata,sum(yrsch)|Summaryofyearofschoolstrata|MeanStd.Dev.Freq.------------+------------------------------------1.city|5.41916173.69704186682.suburb|6.69467213.38783494883.town|5.75415283village|6.48525472.9960408373------------+------------------------------------Total|6.0316943.44035821830第41頁/共51頁6.6畫圖數(shù)據(jù)往往使人眼花繚亂。沒有人能記住數(shù)據(jù)中的所有數(shù)值。頻數(shù)分布提供數(shù)據(jù)分布的一些基本特征和規(guī)律。若用圖形表示頻數(shù)分布,則更形象和直觀統(tǒng)計圖形是用點的位置、線段的升降、線條的長短或面積的大小等方法來表達(dá)數(shù)據(jù)的內(nèi)容,包括統(tǒng)計資料反應(yīng)的變化趨勢、數(shù)量的多少、分布狀態(tài)和相互關(guān)系等通過圖形描述出來的數(shù)據(jù)便于閱讀、比較和分析一張好的統(tǒng)計圖表,勝過冗長的文字表述第42頁/共51頁Stata的制圖功能既可通過命令產(chǎn)生圖形,也可以直接使用Graphics窗口菜單中的選項來實現(xiàn)在Easygraph的菜單下,Stata的作圖模塊主要提供十種基本圖形的制作:散點圖(twoway)、線圖(line)、面積圖(area)、柱形圖(bar)、點圖(dot)、圓形圖(餅圖)(pie)、直方圖(histogram)、箱線圖/盒型圖(boxplot)、矩陣圖、回歸線圖和功能圖對簡單圖形(Easygraph)的巧妙應(yīng)用,可以滿足絕大多數(shù)用戶的統(tǒng)計作圖要求。但有時我們必須求助于復(fù)雜的制圖功能在Graphics的主菜單下,可選擇制作更復(fù)雜的圖形第43頁/共51頁Stata制圖的窗口菜單第44頁/共51頁Stata的其它制圖功能Stata的某些非繪圖命令也具有繪制圖形的功能。比如在頻數(shù)分布命令中,有制作簡單莖葉圖的選項事件史分析提供生存曲線圖回歸分析提供回歸線或殘差圖等Stata制圖功能比較復(fù)雜。生成圖形的過程中往往會遇到錯誤。有時,命令中一個不恰當(dāng)?shù)目崭瘢粋€不正確的標(biāo)點符號都將使程序不能正常運(yùn)行。因此,從窗口菜單入手可能更容易一些但是,Stata的圖形種類及每種圖形的選項雖多,但許多基本命令十分類似,可舉一反三第45頁
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 學(xué)生實習(xí)期間家長保證書
- 版汽運(yùn)運(yùn)輸合同
- 生鮮食品采購合同
- 煤炭購銷合同范本模板
- 政府采購合同履行
- 招標(biāo)談判文件的編輯技巧
- 商場店鋪接盤合同模板
- 房屋買賣合同補(bǔ)充協(xié)議范例
- 簡單易懂的投資理財合同
- 業(yè)績分享合同樣本
- 災(zāi)難事故避險自救-終結(jié)性考核-國開(SC)-參考資料
- 科研設(shè)計及研究生論文撰寫智慧樹知到期末考試答案2024年
- 大學(xué)《思想道德與法治》期末考試復(fù)習(xí)題庫(含答案)
- 大數(shù)據(jù)與法律檢索-湖南師范大學(xué)中國大學(xué)mooc課后章節(jié)答案期末考試題庫2023年
- 簡單娛樂yy頻道設(shè)計模板
- 防止機(jī)組非計劃停運(yùn)措施(鍋爐專業(yè))
- 素材的獲取與處理方法
- 如何同步同時接收老公老婆微信的實用教程
- 場調(diào)查報告封面
- 甲苯甲醇烷基化法年產(chǎn)30萬噸對二甲苯車間設(shè)計
- 2020屆徐匯區(qū)初三一模數(shù)學(xué)卷(含答案)
評論
0/150
提交評論