MBA統(tǒng)計學(xué)03數(shù)據(jù)的描述_第1頁
MBA統(tǒng)計學(xué)03數(shù)據(jù)的描述_第2頁
MBA統(tǒng)計學(xué)03數(shù)據(jù)的描述_第3頁
MBA統(tǒng)計學(xué)03數(shù)據(jù)的描述_第4頁
MBA統(tǒng)計學(xué)03數(shù)據(jù)的描述_第5頁
已閱讀5頁,還剩34頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

統(tǒng)計學(xué)─從數(shù)據(jù)到結(jié)結(jié)論第三章數(shù)據(jù)據(jù)的描述在對數(shù)據(jù)進進行深入加加工之前,,總應(yīng)該對對數(shù)據(jù)有所所印象??梢越柚谟趫D形和簡簡單的運算算,來了解解數(shù)據(jù)的一一些特征。。由于數(shù)據(jù)是是從總體中中產(chǎn)生的,,其特征也也反映了總總體的特征征。對數(shù)據(jù)據(jù)的描述也也是對其總總體的一個個近似的描描述?!?.1如如何用圖圖來表示數(shù)數(shù)據(jù)?§3.1.1定量量變量的圖圖表示:1.直方圖圖對于一個定定量變量,,比如某個個地區(qū)(地地區(qū)1)測測量了163個高三三男生的身身高(S3height1.txt)。用圖形來表表示這個數(shù)數(shù)據(jù),使人人們能夠看看出這個數(shù)數(shù)據(jù)的大體體分布或““形狀”的的一個辦法法是畫直方圖(histogram)。圖3.1就就是利用這這個數(shù)據(jù)由由SPSS軟件所畫畫的直方圖圖。該圖的橫坐坐標是身高高區(qū)間,這這里每一格格代表5cm的身高高范圍(格格子寬度因因不同的數(shù)數(shù)據(jù)性質(zhì)或或要求而定定,這里的的格子寬度度為5cm),而縱縱坐標為各各種身高區(qū)區(qū)間的身高高的頻數(shù)。。直方圖§3.1.1定量量變量的圖圖表示:2.盒型圖圖簡單一些的的是盒形圖(boxplot,又又稱箱圖、、箱線圖、、盒子圖)。圖3.2的的左邊一個個是根據(jù)地地區(qū)1高三三男生的身身高數(shù)據(jù)所所繪的盒形形圖;其右右邊的圖代代表另一個個地區(qū)(地地區(qū)2)的的高三學(xué)生生的身高(height.txt,height.sav,第三三章例.xls)。盒型圖盒子的中間間橫線是數(shù)數(shù)據(jù)的中位位數(shù)(median),封閉閉盒子的上上下兩橫線線(邊)為為上下四分分位數(shù)(點點);按照照SPSS的默認選選項,如果果所有樣本本中的數(shù)目目都在離四四分位點1.5倍盒盒子長度之之內(nèi),則線線的端點為為最大和最最小值,否否則線長就就是1.5倍的盒子子長度(盒盒子長度稱稱為四分位位間距),,在其外面面的度量單單獨點出§3.1.1定量量變量的圖圖表示:3.莖葉圖圖在直方圖和和盒形圖中中,很難恢恢復(fù)數(shù)據(jù)的的原貌。而而另一種圖圖:莖葉圖(stem-and-leafplots)可以恢復(fù)數(shù)數(shù)據(jù)以地區(qū)1高高三男生身身高為例((圖3.3),莖葉葉圖既展示示了分布形形狀又有原原始數(shù)據(jù)。。它象一片片帶有莖的的葉子。莖莖為較大位位數(shù)的數(shù)字字,葉為較較小位數(shù)的的數(shù)字。莖葉圖其中莖葉圖圖中莖的單單位為10cm,而而葉子單位位為1cm。比如,,由于第一一行莖為150cm,因此葉葉子中的九九個數(shù)字001223344代表九個個數(shù)目150、150、151、152、152、153、153、154、154cm等等。每行左左邊有一個個頻數(shù)(比比如第一行行有9個數(shù)數(shù)目,第二二行有17個等等));可以看看出最長的的一行為從從165cm到169cm的的一段(有有35個數(shù)數(shù))?!?.1.1定量量變量的圖圖表示:4.散點圖圖數(shù)據(jù)會有兩兩個變量,,如美國男男士和女士士初婚年限限數(shù)據(jù)(marriage.txt))。該數(shù)據(jù)描述述了自1900年到到1998年男女第第一次婚姻姻延續(xù)的時時間。這里年份是是一個變量量,婚姻延延續(xù)時間是是第二個變變量。由于于不可能將將所有人的的婚姻年限限都給出來來,所以每每年就取了了一個中間間的值(中中位數(shù))作作為代表。。散點圖§3.1.2定性性變量的圖圖表示:餅餅圖定性變量((或?qū)傩宰冏兞?,分類類變量)不不能點出直直方圖、散散點圖或莖莖葉圖,但但可以描繪繪出它們各各類的比例例。下面用SPSS繪的的圖3.5(餅圖,piechart)表示了說世世界各種主主要語言人人數(shù)的比例例(language.txt).餅圖§3.1.2定性性變量的圖圖表示:條條形圖而用同樣數(shù)數(shù)據(jù)畫的圖圖3.6稱稱為條形圖(barchart)。從每一條可可以看出講講各種語言言的實際人人數(shù),而且且分別給出出了每個語語種中母語語和日常使使用的人數(shù)數(shù)(在圖中中并排放置置)。條形形圖顯示比比例不如餅餅圖直觀。。條形圖§3.2如如何用少少量數(shù)字來來概括數(shù)據(jù)據(jù)?大量的數(shù)字字既繁瑣又又不直觀;;需要對數(shù)數(shù)據(jù)做人們們時間和耐耐心所允許許的簡化我們可以用用“平均均”,“差差距”或百百分比等來來概括大量量數(shù)字。由于定性變變量主要是是計數(shù),比比較簡單,,常用的概概括就是比比例或百分分比。下面面主要介紹紹關(guān)于定量量變量的數(shù)數(shù)字描述。?!?.2如如何用少少量數(shù)字來來概括數(shù)據(jù)據(jù)?可用少量所所謂匯總統(tǒng)統(tǒng)計量或概括統(tǒng)計量量(summarystatistic)來描述定量量變量的數(shù)數(shù)據(jù)。這些數(shù)字是是從樣本數(shù)數(shù)據(jù)得來的的,因而也也是樣本的的函數(shù),任何樣本的的函數(shù),只只要不包含含總體的未未知參數(shù),,都稱為統(tǒng)計量(statistic)。樣本的隨機機性決定統(tǒng)統(tǒng)計量的隨隨機性(統(tǒng)統(tǒng)計量也是是隨機變量量)§3.2如如何用少少量數(shù)字來來概括數(shù)據(jù)據(jù)?概括統(tǒng)計量量經(jīng)常對應(yīng)應(yīng)于總體的的無法觀測測到的某些些參數(shù)。這時,統(tǒng)計計量可作為為這些參數(shù)數(shù)的估計。。一些統(tǒng)計計量還可以以用來檢驗驗樣本和假假設(shè)的總體體是否一致致?!?.2如如何用少少量數(shù)字來來概括數(shù)據(jù)據(jù)?注:一些統(tǒng)計量量前面有時時加上“樣樣本”二字字,以區(qū)別別于總體的的同名參數(shù)數(shù)。如“樣樣本均值””和“樣本本標準差””,以區(qū)別別于總體均均值和總體體標準差;;但在不會會混淆時可可以只說““均值”和和“標準差差”?!?.2.1數(shù)據(jù)據(jù)的“位置置”數(shù)據(jù)有位置置嗎?這里三個數(shù)數(shù)據(jù)的位置置一樣嗎??§3.2.1數(shù)據(jù)據(jù)的“位置置”“位置”一一般是關(guān)于于數(shù)據(jù)中某某變量觀測測值的“中中心位置””或者數(shù)據(jù)據(jù)分布的中中心(center或centertendency)。和這種“位位置”有關(guān)關(guān)的統(tǒng)計量量就稱為位置統(tǒng)計量量(locationstatistic)。位置統(tǒng)計量量當然不一一定都是描描述“中心心”了,比比如后面要要講的k百百分位數(shù)((或k%分分位數(shù))。。§3.2.1數(shù)據(jù)據(jù)的“位置置”最常用的位位置統(tǒng)計量量就是小學(xué)學(xué)時所學(xué)到到的算術(shù)平平均數(shù),它它在統(tǒng)計中中叫做均值值(mean);嚴嚴格地說叫叫做樣本均均值(samplemean),以以區(qū)別于總總體均值。。如果記樣本本中的觀測測值為x1,…,xn,則樣本均均值定義為為(樣本)中中位數(shù)(median)是是數(shù)據(jù)按照照大小排列列之后位于于中間的那那個數(shù)(如如果樣本量量為奇數(shù)),或者中中間兩個數(shù)數(shù)目的平均均(如果樣樣本量為偶偶數(shù))。由于中位數(shù)數(shù)不易被極極端值影響響,所以中中位數(shù)比均均值穩(wěn)健(robust)。?!?.2.1數(shù)據(jù)據(jù)的“位置置”上下四分位位數(shù)(或分別稱稱為第一四分位位數(shù)和第三三四分位數(shù)數(shù),firstquantile,thirdquantile))則分別位于于(按大小小排列的))數(shù)據(jù)的上上下四分之之一的地方方?!?.2.1數(shù)據(jù)的““位置”§3.2.1數(shù)據(jù)的““位置”一般地還稱上上四分位數(shù)為為75百分位數(shù)數(shù)(75pecentile,有75%的的觀測值小于于它),下四四分位數(shù)為25百分位數(shù)數(shù)(有25%的的觀測值小于于它)。一般地,k百分位數(shù)(k-pecentile)意味著有k%的觀測值值小于它。如果令a=k%,則k百分位數(shù)數(shù)也稱為a分位數(shù)(a-quantile)。。樣本中出現(xiàn)最最多的數(shù)目,,稱為眾數(shù)(mode)§3.2.2數(shù)據(jù)的““尺度”這兩個數(shù)據(jù)““胖瘦”一樣樣嗎?§3.2.2數(shù)據(jù)的““尺度”數(shù)據(jù)中數(shù)目的的分散程度由由尺度統(tǒng)計量((scalestatistic)來描述。尺度統(tǒng)計量是是描述數(shù)據(jù)散散布,即描述述集中與分散散程度或變化化(spread或variability))的度量。§3.2.2數(shù)據(jù)的““尺度”從前面兩個高高三男生身高高數(shù)據(jù)的盒形形圖。左邊的的數(shù)據(jù)平均要要高些,但右右邊的數(shù)據(jù)散散布范圍要小小得多。統(tǒng)計中有許多多尺度統(tǒng)計量量。一般來說說,數(shù)據(jù)越分分散,尺度統(tǒng)統(tǒng)計量的值越越大?!?.2.2數(shù)據(jù)的““尺度”極差(range);就是極大值值和極小值之之間的差。前面兩個高三三男生身高數(shù)數(shù)據(jù)的極差分分別為50cm和32cm。盒形圖盒子的的長度為兩個個四分位數(shù)之之差,稱為四分位數(shù)極差差或四分位間間距(interquantilerange);它描述了中中間半數(shù)觀測測值的散布情情況。極差和和四分位極差差實際上各自自只依賴于兩兩個值,信息息量太少?!?.2.2數(shù)據(jù)的““尺度”另一個常用的的尺度統(tǒng)計量量為(樣本))標準差(standarddeviation)。度量樣本中中各數(shù)值到均均值距離的一一種平均。標準差實際上上是方差(variance)的平方根。如如果記樣本中中的觀測值為為x1,…,xn,則樣本方差差為§3.2.2數(shù)據(jù)的““尺度”兩個均值一樣樣,但右邊的的要“胖”些些,方差為左左邊的一倍§3.2.3數(shù)據(jù)的標標準得分假定兩個水平平類似的班級級(一班和二二班)上同一一門課,但是由于兩個個任課老師的的評分標準不不同,使得兩兩個班成績的的均值和標準準差都不一樣樣(數(shù)據(jù):grade.txt)。?!?.2.3數(shù)據(jù)的標標準得分一班分數(shù)的均均值和標準差差分別為78.53和9.43,而而二班的均值值和標準差分分別為70.19和7.00。那么得到90分的一班的的張穎是不是是比得到82分的二班的的劉疏成績更更好呢?怎么么比較才能合合理呢?§3.2.3數(shù)據(jù)的標標準得分雖然這種均值值和標準差不不同的數(shù)據(jù)不不能夠直接比比較,但是可可以把它們進進行標準化,,再比較標準準化后的數(shù)據(jù)據(jù)。一個標準化的的方法是把某某樣本原始觀觀測值(亦稱稱得分,score)和和該樣本均值值之差除以該該樣本的標準準差;得到的的度量稱為標準得分(standardscore,又又稱為z-score)?!?.2.3數(shù)據(jù)的標標準得分即,某觀測值值xi的標準得分定定義為§3.2.3數(shù)據(jù)的標標準得分在我們的例子子中,張穎的的標準得分為為(90-78.53)/9.43=1.22,而劉疏的的標準得分為為(82-70.19)/7=1.69。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論