MBA統(tǒng)計(jì)學(xué)-數(shù)據(jù)的描述培訓(xùn)課程課件_第1頁
MBA統(tǒng)計(jì)學(xué)-數(shù)據(jù)的描述培訓(xùn)課程課件_第2頁
MBA統(tǒng)計(jì)學(xué)-數(shù)據(jù)的描述培訓(xùn)課程課件_第3頁
MBA統(tǒng)計(jì)學(xué)-數(shù)據(jù)的描述培訓(xùn)課程課件_第4頁
MBA統(tǒng)計(jì)學(xué)-數(shù)據(jù)的描述培訓(xùn)課程課件_第5頁
已閱讀5頁,還剩73頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

統(tǒng)計(jì)學(xué)─從數(shù)據(jù)到結(jié)論統(tǒng)計(jì)學(xué)─從數(shù)據(jù)到結(jié)論1第三章數(shù)據(jù)的描述第三章數(shù)據(jù)的描述2在對(duì)數(shù)據(jù)進(jìn)行深入加工之前,總應(yīng)該對(duì)數(shù)據(jù)有所印象。可以借助于圖形和簡單的運(yùn)算,來了解數(shù)據(jù)的一些特征。由于數(shù)據(jù)是從總體中產(chǎn)生的,其特征也反映了總體的特征。對(duì)數(shù)據(jù)的描述也是對(duì)其總體的一個(gè)近似的描述。在對(duì)數(shù)據(jù)進(jìn)行深入加工之前,總應(yīng)該對(duì)數(shù)據(jù)有所印象。3§3.1如何用圖來表示數(shù)據(jù)?§3.1如何用圖來表示數(shù)據(jù)?4§3.1.1定量變量的圖表示:1.直方圖對(duì)于一個(gè)定量變量,比如某個(gè)地區(qū)(地區(qū)1)測(cè)量了163個(gè)高三男生的身高(S3height1.txt)。用圖形來表示這個(gè)數(shù)據(jù),使人們能夠看出這個(gè)數(shù)據(jù)的大體分布或“形狀”的一個(gè)辦法是畫直方圖(histogram)。圖3.1就是利用這個(gè)數(shù)據(jù)由SPSS軟件所畫的直方圖?!?.1.1定量變量的圖表示:1.直方圖對(duì)于一個(gè)定量變量,5該圖的橫坐標(biāo)是身高區(qū)間,這里每一格代表5cm的身高范圍(格子寬度因不同的數(shù)據(jù)性質(zhì)或要求而定,這里的格子寬度為5cm),而縱坐標(biāo)為各種身高區(qū)間的身高的頻數(shù)。

直方圖該圖的橫坐標(biāo)是身高區(qū)間,這里每一格代表5cm的身高范圍(格子6§3.1.1定量變量的圖表示:2.盒型圖簡單一些的是盒形圖(boxplot,又稱箱圖、箱線圖、盒子圖)。圖3.2的左邊一個(gè)是根據(jù)地區(qū)1高三男生的身高數(shù)據(jù)所繪的盒形圖;其右邊的圖代表另一個(gè)地區(qū)(地區(qū)2)的高三學(xué)生的身高(height.txt,height.sav,第三章例.xls)?!?.1.1定量變量的圖表示:2.盒型圖簡單一些的是盒形圖7盒型圖盒子的中間橫線是數(shù)據(jù)的中位數(shù)(median),封閉盒子的上下兩橫線(邊)為上下四分位數(shù)(點(diǎn));按照SPSS的默認(rèn)選項(xiàng),如果所有樣本中的數(shù)目都在離四分位點(diǎn)1.5倍盒子長度之內(nèi),則線的端點(diǎn)為最大和最小值,否則線長就是1.5倍的盒子長度(盒子長度稱為四分位間距),在其外面的度量單獨(dú)點(diǎn)出盒型圖盒子的中間橫線是數(shù)據(jù)的中位數(shù)(median),封閉盒子8§3.1.1定量變量的圖表示:3.莖葉圖

在直方圖和盒形圖中,很難恢復(fù)數(shù)據(jù)的原貌。而另一種圖:莖葉圖(stem-and-leafplots)可以恢復(fù)數(shù)據(jù)以地區(qū)1高三男生身高為例(圖3.3),莖葉圖既展示了分布形狀又有原始數(shù)據(jù)。它象一片帶有莖的葉子。莖為較大位數(shù)的數(shù)字,葉為較小位數(shù)的數(shù)字?!?.1.1定量變量的圖表示:3.莖葉圖在直方圖和盒形圖9莖葉圖其中莖葉圖中莖的單位為10cm,而葉子單位為1cm。比如,由于第一行莖為150cm,因此葉子中的九個(gè)數(shù)字001223344代表九個(gè)數(shù)目150、150、151、152、152、153、153、154、154cm等。每行左邊有一個(gè)頻數(shù)(比如第一行有9個(gè)數(shù)目,第二行有17個(gè)等等);可以看出最長的一行為從165cm到169cm的一段(有35個(gè)數(shù))。莖葉圖其中莖葉圖中莖的單位為10cm,而葉子單位為1cm。比10§3.1.1定量變量的圖表示:4.散點(diǎn)圖

數(shù)據(jù)會(huì)有兩個(gè)變量,如美國男士和女士初婚年限數(shù)據(jù)(marriage.txt)。該數(shù)據(jù)描述了自1900年到1998年男女第一次婚姻延續(xù)的時(shí)間。這里年份是一個(gè)變量,婚姻延續(xù)時(shí)間是第二個(gè)變量。由于不可能將所有人的婚姻年限都給出來,所以每年就取了一個(gè)中間的值(中位數(shù))作為代表?!?.1.1定量變量的圖表示:4.散點(diǎn)圖數(shù)據(jù)會(huì)有兩個(gè)變量11散點(diǎn)圖散點(diǎn)圖12§3.1.2定性變量的圖表示:餅圖定性變量(或?qū)傩宰兞?,分類變量)不能點(diǎn)出直方圖、散點(diǎn)圖或莖葉圖,但可以描繪出它們各類的比例。下面用SPSS繪的圖3.5(餅圖,piechart)表示了說世界各種主要語言人數(shù)的比例(language.txt).§3.1.2定性變量的圖表示:餅圖定性變量(或?qū)傩宰兞?,?3餅圖餅圖14§3.1.2定性變量的圖表示:條形圖而用同樣數(shù)據(jù)畫的圖3.6稱為條形圖(barchart)。從每一條可以看出講各種語言的實(shí)際人數(shù),而且分別給出了每個(gè)語種中母語和日常使用的人數(shù)(在圖中并排放置)。條形圖顯示比例不如餅圖直觀?!?.1.2定性變量的圖表示:條形圖而用同樣數(shù)據(jù)畫的圖3.15條形圖條形圖16§3.2如何用少量數(shù)字來概括數(shù)據(jù)?大量的數(shù)字既繁瑣又不直觀;需要對(duì)數(shù)據(jù)做人們時(shí)間和耐心所允許的簡化我們可以用“平均”,“差距”或百分比等來概括大量數(shù)字。由于定性變量主要是計(jì)數(shù),比較簡單,常用的概括就是比例或百分比。下面主要介紹關(guān)于定量變量的數(shù)字描述?!?.2如何用少量數(shù)字來概括數(shù)據(jù)?大量的數(shù)字既繁瑣又不直觀17§3.2如何用少量數(shù)字來概括數(shù)據(jù)?可用少量所謂匯總統(tǒng)計(jì)量或概括統(tǒng)計(jì)量(summarystatistic)來描述定量變量的數(shù)據(jù)。這些數(shù)字是從樣本數(shù)據(jù)得來的,因而也是樣本的函數(shù),任何樣本的函數(shù),只要不包含總體的未知參數(shù),都稱為統(tǒng)計(jì)量(statistic)。樣本的隨機(jī)性決定統(tǒng)計(jì)量的隨機(jī)性(統(tǒng)計(jì)量也是隨機(jī)變量)§3.2如何用少量數(shù)字來概括數(shù)據(jù)?可用少量所謂匯總統(tǒng)計(jì)量或18§3.2如何用少量數(shù)字來概括數(shù)據(jù)?概括統(tǒng)計(jì)量經(jīng)常對(duì)應(yīng)于總體的無法觀測(cè)到的某些參數(shù)。這時(shí),統(tǒng)計(jì)量可作為這些參數(shù)的估計(jì)。一些統(tǒng)計(jì)量還可以用來檢驗(yàn)樣本和假設(shè)的總體是否一致?!?.2如何用少量數(shù)字來概括數(shù)據(jù)?概括統(tǒng)計(jì)量經(jīng)常對(duì)應(yīng)于總體19§3.2如何用少量數(shù)字來概括數(shù)據(jù)?注:一些統(tǒng)計(jì)量前面有時(shí)加上“樣本”二字,以區(qū)別于總體的同名參數(shù)。如“樣本均值”和“樣本標(biāo)準(zhǔn)差”,以區(qū)別于總體均值和總體標(biāo)準(zhǔn)差;但在不會(huì)混淆時(shí)可以只說“均值”和“標(biāo)準(zhǔn)差”?!?.2如何用少量數(shù)字來概括數(shù)據(jù)?注:一些統(tǒng)計(jì)量前面有時(shí)加20§3.2.1數(shù)據(jù)的“位置”數(shù)據(jù)有位置嗎?這里三個(gè)數(shù)據(jù)的位置一樣嗎?§3.2.1數(shù)據(jù)的“位置”數(shù)據(jù)有位置嗎?這里三個(gè)數(shù)據(jù)的位置21§3.2.1數(shù)據(jù)的“位置”“位置”一般是關(guān)于數(shù)據(jù)中某變量觀測(cè)值的“中心位置”或者數(shù)據(jù)分布的中心(center或centertendency)。和這種“位置”有關(guān)的統(tǒng)計(jì)量就稱為位置統(tǒng)計(jì)量(locationstatistic)。位置統(tǒng)計(jì)量當(dāng)然不一定都是描述“中心”了,比如后面要講的k百分位數(shù)(或k%分位數(shù))?!?.2.1數(shù)據(jù)的“位置”“位置”一般是關(guān)于數(shù)據(jù)中某變量觀22§3.2.1數(shù)據(jù)的“位置”最常用的位置統(tǒng)計(jì)量就是小學(xué)時(shí)所學(xué)到的算術(shù)平均數(shù),它在統(tǒng)計(jì)中叫做均值(mean);嚴(yán)格地說叫做樣本均值(samplemean),以區(qū)別于總體均值。如果記樣本中的觀測(cè)值為x1,…,xn,則樣本均值定義為§3.2.1數(shù)據(jù)的“位置”最常用的位置統(tǒng)計(jì)量就是小學(xué)時(shí)所學(xué)23(樣本)中位數(shù)(median)是數(shù)據(jù)按照大小排列之后位于中間的那個(gè)數(shù)(如果樣本量為奇數(shù)),或者中間兩個(gè)數(shù)目的平均(如果樣本量為偶數(shù))。由于中位數(shù)不易被極端值影響,所以中位數(shù)比均值穩(wěn)健(robust)?!?.2.1數(shù)據(jù)的“位置”(樣本)中位數(shù)(median)是數(shù)據(jù)按照大小排列之后位于中24上下四分位數(shù)(或分別稱為第一四分位數(shù)和第三四分位數(shù),firstquantile,thirdquantile)則分別位于(按大小排列的)數(shù)據(jù)的上下四分之一的地方?!?.2.1數(shù)據(jù)的“位置”上下四分位數(shù)(或分別稱為第一四分位數(shù)和第三四分位數(shù),firs25§3.2.1數(shù)據(jù)的“位置”一般地還稱上四分位數(shù)為75百分位數(shù)(75pecentile,有75%的觀測(cè)值小于它),下四分位數(shù)為25百分位數(shù)(有25%的觀測(cè)值小于它)。一般地,k百分位數(shù)(k-pecentile)意味著有k%的觀測(cè)值小于它。如果令a=k%,則k百分位數(shù)也稱為a分位數(shù)(a-quantile)。樣本中出現(xiàn)最多的數(shù)目,稱為眾數(shù)(mode)§3.2.1數(shù)據(jù)的“位置”一般地還稱上四分位數(shù)為75百分位26§3.2.2數(shù)據(jù)的“尺度”這兩個(gè)數(shù)據(jù)“胖瘦”一樣嗎?§3.2.2數(shù)據(jù)的“尺度”這兩個(gè)數(shù)據(jù)“胖瘦”一樣嗎?27§3.2.2數(shù)據(jù)的“尺度”數(shù)據(jù)中數(shù)目的分散程度由尺度統(tǒng)計(jì)量(scalestatistic)來描述。尺度統(tǒng)計(jì)量是描述數(shù)據(jù)散布,即描述集中與分散程度或變化(spread或variability)的度量?!?.2.2數(shù)據(jù)的“尺度”數(shù)據(jù)中數(shù)目的分散程度由尺度統(tǒng)計(jì)量28§3.2.2數(shù)據(jù)的“尺度”從前面兩個(gè)高三男生身高數(shù)據(jù)的盒形圖。左邊的數(shù)據(jù)平均要高些,但右邊的數(shù)據(jù)散布范圍要小得多。統(tǒng)計(jì)中有許多尺度統(tǒng)計(jì)量。一般來說,數(shù)據(jù)越分散,尺度統(tǒng)計(jì)量的值越大?!?.2.2數(shù)據(jù)的“尺度”從前面兩個(gè)高三男生身高數(shù)據(jù)的盒形29§3.2.2數(shù)據(jù)的“尺度”極差(range);就是極大值和極小值之間的差。前面兩個(gè)高三男生身高數(shù)據(jù)的極差分別為50cm和32cm。盒形圖盒子的長度為兩個(gè)四分位數(shù)之差,稱為四分位數(shù)極差或四分位間距(interquantilerange);它描述了中間半數(shù)觀測(cè)值的散布情況。極差和四分位極差實(shí)際上各自只依賴于兩個(gè)值,信息量太少?!?.2.2數(shù)據(jù)的“尺度”極差(range);就是極大值和30§3.2.2數(shù)據(jù)的“尺度”另一個(gè)常用的尺度統(tǒng)計(jì)量為(樣本)標(biāo)準(zhǔn)差(standarddeviation)。度量樣本中各數(shù)值到均值距離的一種平均。標(biāo)準(zhǔn)差實(shí)際上是方差(variance)的平方根。如果記樣本中的觀測(cè)值為x1,…,xn,則樣本方差為§3.2.2數(shù)據(jù)的“尺度”另一個(gè)常用的尺度統(tǒng)計(jì)量為(樣本)31§3.2.2數(shù)據(jù)的“尺度”兩個(gè)均值一樣,但右邊的要“胖”些,方差為左邊的一倍§3.2.2數(shù)據(jù)的“尺度”兩個(gè)均值一樣,但右邊的要“胖”些32§3.2.3數(shù)據(jù)的標(biāo)準(zhǔn)得分假定兩個(gè)水平類似的班級(jí)(一班和二班)上同一門課,但是由于兩個(gè)任課老師的評(píng)分標(biāo)準(zhǔn)不同,使得兩個(gè)班成績的均值和標(biāo)準(zhǔn)差都不一樣(數(shù)據(jù):grade.txt)?!?.2.3數(shù)據(jù)的標(biāo)準(zhǔn)得分假定兩個(gè)水平類似的班級(jí)(一班和二33§3.2.3數(shù)據(jù)的標(biāo)準(zhǔn)得分一班分?jǐn)?shù)的均值和標(biāo)準(zhǔn)差分別為78.53和9.43,而二班的均值和標(biāo)準(zhǔn)差分別為70.19和7.00。那么得到90分的一班的張穎是不是比得到82分的二班的劉疏成績更好呢?怎么比較才能合理呢?§3.2.3數(shù)據(jù)的標(biāo)準(zhǔn)得分一班分?jǐn)?shù)的均值和標(biāo)準(zhǔn)差分別為7834§3.2.3數(shù)據(jù)的標(biāo)準(zhǔn)得分雖然這種均值和標(biāo)準(zhǔn)差不同的數(shù)據(jù)不能夠直接比較,但是可以把它們進(jìn)行標(biāo)準(zhǔn)化,再比較標(biāo)準(zhǔn)化后的數(shù)據(jù)。一個(gè)標(biāo)準(zhǔn)化的方法是把某樣本原始觀測(cè)值(亦稱得分,score)和該樣本均值之差除以該樣本的標(biāo)準(zhǔn)差;得到的度量稱為標(biāo)準(zhǔn)得分(standardscore,又稱為z-score)?!?.2.3數(shù)據(jù)的標(biāo)準(zhǔn)得分雖然這種均值和標(biāo)準(zhǔn)差不同的數(shù)據(jù)不35§3.2.3數(shù)據(jù)的標(biāo)準(zhǔn)得分即,某觀測(cè)值xi的標(biāo)準(zhǔn)得分定義為§3.2.3數(shù)據(jù)的標(biāo)準(zhǔn)得分即,某觀測(cè)值xi的標(biāo)準(zhǔn)得分定義為36§3.2.3數(shù)據(jù)的標(biāo)準(zhǔn)得分在我們的例子中,張穎的標(biāo)準(zhǔn)得分為(90-78.53)/9.43=1.22,而劉疏的標(biāo)準(zhǔn)得分為(82-70.19)/7=1.69。顯然如果兩個(gè)班級(jí)平均水平差不多,劉疏的成績應(yīng)該優(yōu)于張穎的成績;這是在標(biāo)準(zhǔn)化之前的數(shù)據(jù)中不易看到的?!?.2.3數(shù)據(jù)的標(biāo)準(zhǔn)得分在我們的例子中,張穎的標(biāo)準(zhǔn)得分為37可以看出,原始數(shù)據(jù)是在各自的均值附近,而散布也不一樣。但它們的標(biāo)準(zhǔn)得分則在0周圍散布,而且散布也差不多。實(shí)際上,任何樣本經(jīng)過這樣的標(biāo)準(zhǔn)化后,就都變換成均值為0、方差為1的樣本。標(biāo)準(zhǔn)化后不同樣本觀測(cè)值的比較只有相對(duì)意義,沒有絕對(duì)意義。可以看出,原始數(shù)據(jù)是在各自的均值附近,而散布也不一樣。但它們38演講完畢,謝謝觀看!演講完畢,謝謝觀看!39統(tǒng)計(jì)學(xué)─從數(shù)據(jù)到結(jié)論統(tǒng)計(jì)學(xué)─從數(shù)據(jù)到結(jié)論40第三章數(shù)據(jù)的描述第三章數(shù)據(jù)的描述41在對(duì)數(shù)據(jù)進(jìn)行深入加工之前,總應(yīng)該對(duì)數(shù)據(jù)有所印象??梢越柚趫D形和簡單的運(yùn)算,來了解數(shù)據(jù)的一些特征。由于數(shù)據(jù)是從總體中產(chǎn)生的,其特征也反映了總體的特征。對(duì)數(shù)據(jù)的描述也是對(duì)其總體的一個(gè)近似的描述。在對(duì)數(shù)據(jù)進(jìn)行深入加工之前,總應(yīng)該對(duì)數(shù)據(jù)有所印象。42§3.1如何用圖來表示數(shù)據(jù)?§3.1如何用圖來表示數(shù)據(jù)?43§3.1.1定量變量的圖表示:1.直方圖對(duì)于一個(gè)定量變量,比如某個(gè)地區(qū)(地區(qū)1)測(cè)量了163個(gè)高三男生的身高(S3height1.txt)。用圖形來表示這個(gè)數(shù)據(jù),使人們能夠看出這個(gè)數(shù)據(jù)的大體分布或“形狀”的一個(gè)辦法是畫直方圖(histogram)。圖3.1就是利用這個(gè)數(shù)據(jù)由SPSS軟件所畫的直方圖。§3.1.1定量變量的圖表示:1.直方圖對(duì)于一個(gè)定量變量,44該圖的橫坐標(biāo)是身高區(qū)間,這里每一格代表5cm的身高范圍(格子寬度因不同的數(shù)據(jù)性質(zhì)或要求而定,這里的格子寬度為5cm),而縱坐標(biāo)為各種身高區(qū)間的身高的頻數(shù)。

直方圖該圖的橫坐標(biāo)是身高區(qū)間,這里每一格代表5cm的身高范圍(格子45§3.1.1定量變量的圖表示:2.盒型圖簡單一些的是盒形圖(boxplot,又稱箱圖、箱線圖、盒子圖)。圖3.2的左邊一個(gè)是根據(jù)地區(qū)1高三男生的身高數(shù)據(jù)所繪的盒形圖;其右邊的圖代表另一個(gè)地區(qū)(地區(qū)2)的高三學(xué)生的身高(height.txt,height.sav,第三章例.xls)?!?.1.1定量變量的圖表示:2.盒型圖簡單一些的是盒形圖46盒型圖盒子的中間橫線是數(shù)據(jù)的中位數(shù)(median),封閉盒子的上下兩橫線(邊)為上下四分位數(shù)(點(diǎn));按照SPSS的默認(rèn)選項(xiàng),如果所有樣本中的數(shù)目都在離四分位點(diǎn)1.5倍盒子長度之內(nèi),則線的端點(diǎn)為最大和最小值,否則線長就是1.5倍的盒子長度(盒子長度稱為四分位間距),在其外面的度量單獨(dú)點(diǎn)出盒型圖盒子的中間橫線是數(shù)據(jù)的中位數(shù)(median),封閉盒子47§3.1.1定量變量的圖表示:3.莖葉圖

在直方圖和盒形圖中,很難恢復(fù)數(shù)據(jù)的原貌。而另一種圖:莖葉圖(stem-and-leafplots)可以恢復(fù)數(shù)據(jù)以地區(qū)1高三男生身高為例(圖3.3),莖葉圖既展示了分布形狀又有原始數(shù)據(jù)。它象一片帶有莖的葉子。莖為較大位數(shù)的數(shù)字,葉為較小位數(shù)的數(shù)字?!?.1.1定量變量的圖表示:3.莖葉圖在直方圖和盒形圖48莖葉圖其中莖葉圖中莖的單位為10cm,而葉子單位為1cm。比如,由于第一行莖為150cm,因此葉子中的九個(gè)數(shù)字001223344代表九個(gè)數(shù)目150、150、151、152、152、153、153、154、154cm等。每行左邊有一個(gè)頻數(shù)(比如第一行有9個(gè)數(shù)目,第二行有17個(gè)等等);可以看出最長的一行為從165cm到169cm的一段(有35個(gè)數(shù))。莖葉圖其中莖葉圖中莖的單位為10cm,而葉子單位為1cm。比49§3.1.1定量變量的圖表示:4.散點(diǎn)圖

數(shù)據(jù)會(huì)有兩個(gè)變量,如美國男士和女士初婚年限數(shù)據(jù)(marriage.txt)。該數(shù)據(jù)描述了自1900年到1998年男女第一次婚姻延續(xù)的時(shí)間。這里年份是一個(gè)變量,婚姻延續(xù)時(shí)間是第二個(gè)變量。由于不可能將所有人的婚姻年限都給出來,所以每年就取了一個(gè)中間的值(中位數(shù))作為代表。§3.1.1定量變量的圖表示:4.散點(diǎn)圖數(shù)據(jù)會(huì)有兩個(gè)變量50散點(diǎn)圖散點(diǎn)圖51§3.1.2定性變量的圖表示:餅圖定性變量(或?qū)傩宰兞?,分類變量)不能點(diǎn)出直方圖、散點(diǎn)圖或莖葉圖,但可以描繪出它們各類的比例。下面用SPSS繪的圖3.5(餅圖,piechart)表示了說世界各種主要語言人數(shù)的比例(language.txt).§3.1.2定性變量的圖表示:餅圖定性變量(或?qū)傩宰兞?,?2餅圖餅圖53§3.1.2定性變量的圖表示:條形圖而用同樣數(shù)據(jù)畫的圖3.6稱為條形圖(barchart)。從每一條可以看出講各種語言的實(shí)際人數(shù),而且分別給出了每個(gè)語種中母語和日常使用的人數(shù)(在圖中并排放置)。條形圖顯示比例不如餅圖直觀?!?.1.2定性變量的圖表示:條形圖而用同樣數(shù)據(jù)畫的圖3.54條形圖條形圖55§3.2如何用少量數(shù)字來概括數(shù)據(jù)?大量的數(shù)字既繁瑣又不直觀;需要對(duì)數(shù)據(jù)做人們時(shí)間和耐心所允許的簡化我們可以用“平均”,“差距”或百分比等來概括大量數(shù)字。由于定性變量主要是計(jì)數(shù),比較簡單,常用的概括就是比例或百分比。下面主要介紹關(guān)于定量變量的數(shù)字描述?!?.2如何用少量數(shù)字來概括數(shù)據(jù)?大量的數(shù)字既繁瑣又不直觀56§3.2如何用少量數(shù)字來概括數(shù)據(jù)?可用少量所謂匯總統(tǒng)計(jì)量或概括統(tǒng)計(jì)量(summarystatistic)來描述定量變量的數(shù)據(jù)。這些數(shù)字是從樣本數(shù)據(jù)得來的,因而也是樣本的函數(shù),任何樣本的函數(shù),只要不包含總體的未知參數(shù),都稱為統(tǒng)計(jì)量(statistic)。樣本的隨機(jī)性決定統(tǒng)計(jì)量的隨機(jī)性(統(tǒng)計(jì)量也是隨機(jī)變量)§3.2如何用少量數(shù)字來概括數(shù)據(jù)?可用少量所謂匯總統(tǒng)計(jì)量或57§3.2如何用少量數(shù)字來概括數(shù)據(jù)?概括統(tǒng)計(jì)量經(jīng)常對(duì)應(yīng)于總體的無法觀測(cè)到的某些參數(shù)。這時(shí),統(tǒng)計(jì)量可作為這些參數(shù)的估計(jì)。一些統(tǒng)計(jì)量還可以用來檢驗(yàn)樣本和假設(shè)的總體是否一致?!?.2如何用少量數(shù)字來概括數(shù)據(jù)?概括統(tǒng)計(jì)量經(jīng)常對(duì)應(yīng)于總體58§3.2如何用少量數(shù)字來概括數(shù)據(jù)?注:一些統(tǒng)計(jì)量前面有時(shí)加上“樣本”二字,以區(qū)別于總體的同名參數(shù)。如“樣本均值”和“樣本標(biāo)準(zhǔn)差”,以區(qū)別于總體均值和總體標(biāo)準(zhǔn)差;但在不會(huì)混淆時(shí)可以只說“均值”和“標(biāo)準(zhǔn)差”?!?.2如何用少量數(shù)字來概括數(shù)據(jù)?注:一些統(tǒng)計(jì)量前面有時(shí)加59§3.2.1數(shù)據(jù)的“位置”數(shù)據(jù)有位置嗎?這里三個(gè)數(shù)據(jù)的位置一樣嗎?§3.2.1數(shù)據(jù)的“位置”數(shù)據(jù)有位置嗎?這里三個(gè)數(shù)據(jù)的位置60§3.2.1數(shù)據(jù)的“位置”“位置”一般是關(guān)于數(shù)據(jù)中某變量觀測(cè)值的“中心位置”或者數(shù)據(jù)分布的中心(center或centertendency)。和這種“位置”有關(guān)的統(tǒng)計(jì)量就稱為位置統(tǒng)計(jì)量(locationstatistic)。位置統(tǒng)計(jì)量當(dāng)然不一定都是描述“中心”了,比如后面要講的k百分位數(shù)(或k%分位數(shù))?!?.2.1數(shù)據(jù)的“位置”“位置”一般是關(guān)于數(shù)據(jù)中某變量觀61§3.2.1數(shù)據(jù)的“位置”最常用的位置統(tǒng)計(jì)量就是小學(xué)時(shí)所學(xué)到的算術(shù)平均數(shù),它在統(tǒng)計(jì)中叫做均值(mean);嚴(yán)格地說叫做樣本均值(samplemean),以區(qū)別于總體均值。如果記樣本中的觀測(cè)值為x1,…,xn,則樣本均值定義為§3.2.1數(shù)據(jù)的“位置”最常用的位置統(tǒng)計(jì)量就是小學(xué)時(shí)所學(xué)62(樣本)中位數(shù)(median)是數(shù)據(jù)按照大小排列之后位于中間的那個(gè)數(shù)(如果樣本量為奇數(shù)),或者中間兩個(gè)數(shù)目的平均(如果樣本量為偶數(shù))。由于中位數(shù)不易被極端值影響,所以中位數(shù)比均值穩(wěn)健(robust)?!?.2.1數(shù)據(jù)的“位置”(樣本)中位數(shù)(median)是數(shù)據(jù)按照大小排列之后位于中63上下四分位數(shù)(或分別稱為第一四分位數(shù)和第三四分位數(shù),firstquantile,thirdquantile)則分別位于(按大小排列的)數(shù)據(jù)的上下四分之一的地方?!?.2.1數(shù)據(jù)的“位置”上下四分位數(shù)(或分別稱為第一四分位數(shù)和第三四分位數(shù),firs64§3.2.1數(shù)據(jù)的“位置”一般地還稱上四分位數(shù)為75百分位數(shù)(75pecentile,有75%的觀測(cè)值小于它),下四分位數(shù)為25百分位數(shù)(有25%的觀測(cè)值小于它)。一般地,k百分位數(shù)(k-pecentile)意味著有k%的觀測(cè)值小于它。如果令a=k%,則k百分位數(shù)也稱為a分位數(shù)(a-quantile)。樣本中出現(xiàn)最多的數(shù)目,稱為眾數(shù)(mode)§3.2.1數(shù)據(jù)的“位置”一般地還稱上四分位數(shù)為75百分位65§3.2.2數(shù)據(jù)的“尺度”這兩個(gè)數(shù)據(jù)“胖瘦”一樣嗎?§3.2.2數(shù)據(jù)的“尺度”這兩個(gè)數(shù)據(jù)“胖瘦”一樣嗎?66§3.2.2數(shù)據(jù)的“尺度”數(shù)據(jù)中數(shù)目的分散程度由尺度統(tǒng)計(jì)量(scalestatistic)來描述。尺度統(tǒng)計(jì)量是描述數(shù)據(jù)散布,即描述集中與分散程度或變化(spread或variability)的度量?!?.2.2數(shù)據(jù)的“尺度”數(shù)據(jù)中數(shù)目的分散程度由尺度統(tǒng)計(jì)量67§3.2.2數(shù)據(jù)的“尺度”從前面兩個(gè)高三男生身高數(shù)據(jù)的盒形圖。左邊的數(shù)據(jù)平均要高些,但右邊的數(shù)據(jù)散布范圍要小得多。統(tǒng)計(jì)中有許多尺度統(tǒng)計(jì)量。一般來說,數(shù)據(jù)越分散,尺度統(tǒng)計(jì)量的值越大?!?.2.2數(shù)據(jù)的“尺度”從前面兩個(gè)高三男生身高數(shù)據(jù)的盒形68§3.2.2數(shù)據(jù)的“尺度”極差(range);就是極大值和極小值之間的差。前面兩個(gè)高三男生身高數(shù)據(jù)的極差分別為50cm和32cm。盒形圖盒子的長度為兩個(gè)四分位數(shù)之差,稱為四分位數(shù)極差或四分位間距(interquantilerange);它描述了中間半數(shù)觀測(cè)值的散布情況。極差和四分位極差實(shí)際上各自只依賴于兩個(gè)值,信息量太少。§3.2.2數(shù)據(jù)的“尺度”極差(range);就是極大值和69§3.2.2數(shù)據(jù)的“尺度”另一個(gè)常用的尺度統(tǒng)計(jì)量為(樣本)標(biāo)準(zhǔn)差(standarddeviation)。度量樣本中各數(shù)值到均值距離的一種平均。標(biāo)準(zhǔn)差實(shí)際上是方差(variance)的平方根。如

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論