統(tǒng)計學(xué)第4章數(shù)據(jù)描述_第1頁
統(tǒng)計學(xué)第4章數(shù)據(jù)描述_第2頁
統(tǒng)計學(xué)第4章數(shù)據(jù)描述_第3頁
統(tǒng)計學(xué)第4章數(shù)據(jù)描述_第4頁
統(tǒng)計學(xué)第4章數(shù)據(jù)描述_第5頁
免費預(yù)覽已結(jié)束,剩余62頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第四章數(shù)據(jù)的描述2---重要的統(tǒng)計量§1集中趨勢的描述§2離散趨勢的描述§3偏態(tài)與峰度的描述§4數(shù)據(jù)的標(biāo)準(zhǔn)化處理§1集中趨勢的描述集中趨勢是指一組數(shù)據(jù)向某中心值靠攏的傾向,是描述數(shù)據(jù)分布的一個重要特征。集中趨勢的測度實際是對一組數(shù)據(jù)的一般水平代表值或中心值的測度?!?集中趨勢的描述§1.1均值§1.2中位數(shù)§1.3眾數(shù)§1.4均值、中位數(shù)、眾數(shù)之間的比較

§1.1均值均值(Mean) 又稱平均數(shù),是一組數(shù)據(jù)大小相互抵消的結(jié)果,可以看作是數(shù)據(jù)集的重心。 是最主要的集中趨勢測度統(tǒng)計量。 適用于定量變量的取值,一般用符號表示。§1.1均值1.算術(shù)平均數(shù)未經(jīng)分組整理的原始數(shù)據(jù),其算術(shù)平均(arithmeticmean)的計算就是直接將一組數(shù)據(jù)的各個數(shù)值相加除以數(shù)值個數(shù),稱為簡單算術(shù)平均數(shù)。設(shè)一組樣本數(shù)據(jù)為、、、,則算術(shù)平均數(shù)的計算公式為:§1.1均值根據(jù)分組整理的數(shù)據(jù)計算的算術(shù)平均數(shù),要以各組變量值出現(xiàn)的次數(shù)或頻數(shù)為權(quán)數(shù)計算加權(quán)算術(shù)平均數(shù)。假設(shè)樣本數(shù)據(jù)被分成組,樣本數(shù)據(jù)各組變量的代表值用m1、m2、…、mk表示,各組變量值出現(xiàn)的頻數(shù)用f1、f2、…、fk,則加權(quán)算術(shù)平均數(shù)的計算公式為:§1.1均值如果是單變量分組,上式中的代表值就是各組的分組變量值;如果是組距分組,上式中的代表值就是各組的組中值。加權(quán)算術(shù)平均數(shù)其數(shù)值的大小,不僅受各組變量值大小的影響,而且受各組變量值出現(xiàn)的頻數(shù)即權(quán)數(shù)大小的影響?!?.1均值算術(shù)平均數(shù)的數(shù)學(xué)性質(zhì):性質(zhì)1

各變量值與其算術(shù)平均數(shù)的離差之和等于零,即:性質(zhì)2

各變量值與其算術(shù)平均數(shù)的離差平方和最小,即:或最小值或最小值§1.1均值【例4.1】根據(jù)表中給出的某項調(diào)查中30名被訪者的月收入水平分組數(shù)據(jù),計算其平均收入水平:§1.1均值解:(元)所以30名被訪者的平均月收入水平是3366.67元。§1.1均值2.調(diào)和平均數(shù)調(diào)和平均數(shù)(harmonicmean)也稱倒數(shù)平均數(shù)或調(diào)和均值。

有簡單和加權(quán)兩種形式。簡單調(diào)和平均數(shù)是各個變量值倒數(shù)的簡單算術(shù)平均數(shù)的倒數(shù)。主要應(yīng)用于各變量值對應(yīng)的標(biāo)志總量相等的情況。當(dāng)變量值用xi表示時,其計算公式如下:§1.1均值當(dāng)各變量值對應(yīng)的標(biāo)志總量不相等時,用Mi表示各單位或各組的變量值對應(yīng)的標(biāo)志總量,其計算公式如下:§1.1均值【例4.2】根據(jù)某證券交易所信息,已知四只股票某日的收盤價和成交額如表所示,計算這四只股票的當(dāng)日平均收盤價格。

§1.1均值解:8.63(元)所以4只股票的當(dāng)日平均收盤價是8.63元。

§1.1均值3.幾何平均數(shù)幾何平均數(shù)(geometricmean)也稱幾何均值,通常用來計算平均比率和平均速度。計算公式為:幾何平均數(shù)也可看作是算術(shù)平均數(shù)的一種變形§1.1均值【例4.3】某股票投資者長期持有一只股票,2005-2008年每年的收益率分別是5.6%,7.2%,28.5%,-15.6%。計算該股票投資者4年內(nèi)的平均收益率。解:根據(jù)股票四年的平均收益率可得到其四年的相對價格分別是105.6%,107.2%,128.5%,84.4%。計算四年平均相對價格

四年的平均收益率是105.26%-1=5.26%。105.26%§1.1均值4.均值的特點:均值一般用于尋找定量數(shù)據(jù)的中心代表值,并不適用于定性數(shù)據(jù)。均值的優(yōu)點在于它對變量的每一個取值都加以利用。均值的缺點在于其統(tǒng)計量的穩(wěn)健性較差,即容易受到極端值的干擾?!?.2中位數(shù)

中位數(shù)(median)

是將變量取值按大小順序排列后,處于中間位置的那個變量值。

適用于定量變量,以及定性變量中的順序變量取值的集中趨勢測度。不適用于定性變量中的分類變量取值。一般用Me表示。§1.2中位數(shù)1.中位數(shù)的確定變量的取值數(shù)據(jù)規(guī)模較小時,將數(shù)據(jù)按大小排列。當(dāng)數(shù)據(jù)個數(shù)N為奇數(shù)時,處在位置上的變量取值大小即為改組數(shù)據(jù)的中位數(shù);當(dāng)數(shù)據(jù)個數(shù)N為偶數(shù)時,處在和位置上兩個變量取值的簡單算術(shù)平均數(shù)即為中位數(shù)?!?.2中位數(shù)

當(dāng)變量的取值數(shù)據(jù)規(guī)模較大時,將數(shù)據(jù)按單變量分組或組距分組,得到頻數(shù)分布。對頻數(shù)分布做向上累計或向下累計:當(dāng)為偶數(shù)時,第個變量值所在的組為中位數(shù)所在的組。當(dāng)為奇數(shù)時,第個變量值所在的組為中位數(shù)所在的組。如果是單變量分組,可以該組標(biāo)志值作為中位數(shù)。如果是組距分組,則采用如下公式近似計算得到計算公式下限公式:上限公式:§1.2中位數(shù)【例4.4】給出的某項調(diào)查中30名被訪者的月收入水平分組數(shù)據(jù),得到累積頻數(shù)分布表,計算其中位數(shù)?!?.2中位數(shù)解:對應(yīng)的收入水平是3000-4000元,因此該組就是中位數(shù)所在組,有,(元)(元)因此,30名被訪者的月收入水平的中位數(shù)是3384.6元?!?.2中位數(shù)2.根據(jù)統(tǒng)計圖來尋找中位數(shù)對于處理成莖葉圖的數(shù)據(jù):首先找到頻數(shù)一半所對應(yīng)的那段莖。然后在對應(yīng)的葉上找處在全部數(shù)據(jù)中間位置上的數(shù)即可?!?.2中位數(shù)例:100名調(diào)查員有效問卷數(shù)分布的莖葉圖§1.2中位數(shù)如果圖形中沒有原始數(shù)據(jù),例如直方圖。100名調(diào)查員的有效問卷數(shù)分布直方圖§1.2中位數(shù)假設(shè)數(shù)據(jù)在中位數(shù)所在區(qū)間組均勻分布,全部100名調(diào)查員的中位數(shù)說對應(yīng)的位置應(yīng)當(dāng)是50.5。通過圖中觀察在140-150組之前的累積頻數(shù)是42,只需要在140-150之間找到第8.5位置上所對應(yīng)的數(shù)。由于假設(shè)140-150間這18個數(shù)是均勻分布的,而這段區(qū)間的長時10,因此區(qū)間上第8.5位置上的數(shù)應(yīng)當(dāng)是。即中位數(shù)是144.7§1.2中位數(shù)3.中位數(shù)的特點中位數(shù)很好的代表了一組數(shù)據(jù)的中間位置。當(dāng)直方圖顯示數(shù)據(jù)時一個有偏分布時。中位數(shù)具有較好的穩(wěn)健性,對極端值并不敏感。中位數(shù)并沒有利用數(shù)據(jù)的所有信息,其對原始數(shù)據(jù)信息的代表性不如均值?!?.3眾數(shù)

眾數(shù)(mode)是指一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的變量值,主要用于測度分類數(shù)據(jù)的集中趨勢。一組數(shù)據(jù)分布的最高峰點所對應(yīng)的變量值即為眾數(shù)。具有不唯一性,用M0表示?!?.3眾數(shù)1.定性變量的眾數(shù)確定根據(jù)分類變量和順序變量的不同取值得到頻數(shù)分布,確定眾數(shù)時,只需找出頻數(shù)出現(xiàn)最多所對應(yīng)的變量取值即為眾數(shù)。例:通過觀察頻數(shù)分布表,可以直觀看到受教育水平為高中的頻數(shù)最大。因此對于3000名被調(diào)查者受教育水平來說,眾數(shù)就是高中學(xué)歷。

§1.3眾數(shù)2.定量變量的眾數(shù)確定對于離散型變量的取值,計算眾數(shù)時,只需找出出現(xiàn)次數(shù)最多的變量取值即為眾數(shù)。【例4.5】根據(jù)表中35名調(diào)查員的有效問卷頻數(shù)分布資料,確定眾數(shù)。§1.3眾數(shù)

解:根據(jù)表中所示,問卷數(shù)為145份所對應(yīng)的人數(shù)是4人,高于其他所有問卷數(shù)對應(yīng)的人數(shù)。因此35名調(diào)查員有效問卷的眾數(shù)是145份。

對于連續(xù)性變量的取值,首先根據(jù)組距分組得到頻數(shù)分布。對于等距分組,對應(yīng)頻數(shù)最大的組為眾數(shù)所在組;對于不等距分組,對應(yīng)頻數(shù)密度最大的組為眾數(shù)組?!?.3眾數(shù)設(shè)眾數(shù)組的頻數(shù)為,眾數(shù)前一組的頻數(shù)為,眾數(shù)后一組的頻數(shù)為。假定數(shù)據(jù)在眾數(shù)組均勻分布,眾數(shù)與其相鄰兩組的頻數(shù)分布有如下關(guān)系:下限公式:上限公式:§1.3眾數(shù)33§1.3眾數(shù)【例4.6】根據(jù)例4.4,確定表4.3中30名被訪問者月收入水平的眾數(shù)。解:首先確定眾數(shù)組是3000-40000元組,因此因此,30名被訪者的月收入水平的眾數(shù)是3428.6元。

§1.3眾數(shù)3.眾數(shù)的特點眾數(shù)根據(jù)眾數(shù)組及相鄰組的頻率分布信息來確定數(shù)據(jù)中心點位置的。眾數(shù)是一個位置代表值,它不受數(shù)據(jù)中極端值的影響。對原數(shù)據(jù)信息的代表性也不如均值。只有在數(shù)據(jù)量較多時才有意義?!?.4均值、中位數(shù)、眾數(shù)之間的比較

從分布的角度看:均值是一組數(shù)據(jù)全部數(shù)值的平均數(shù)。中位數(shù)是處于一組數(shù)據(jù)中間位置上的數(shù)值。眾數(shù)始終是一組數(shù)據(jù)分布的最高峰值。對于具有單峰分布的大多數(shù)數(shù)據(jù)而言,均值、中位數(shù)、眾數(shù)存在以下關(guān)系:(1)當(dāng)變量取值的頻數(shù)分布對稱時,則均值與眾數(shù)、中位數(shù)三者完全相等,即正態(tài)分布§1.4均值、中位數(shù)、眾數(shù)之間的比較(2)當(dāng)變量取值的頻數(shù)分布呈現(xiàn)右偏時,說明數(shù)據(jù)存在最大值,必然拉動均值向極大值一方靠,而眾數(shù)和中位數(shù)由于不受極端值的影響,因此,三者之間的關(guān)系為右偏分布§1.4均值、中位數(shù)、眾數(shù)之間的比較(3)當(dāng)變量取值的頻數(shù)分布呈現(xiàn)左偏時,說明數(shù)據(jù)存在最小值,必然拉動均值向極小值一方靠,而眾數(shù)和中位數(shù)由于不受極端值的影響,因此,三者之間的關(guān)系為。左偏分布§1.4均值、中位數(shù)、眾數(shù)之間的比較當(dāng)頻數(shù)分布呈對稱分布或近似對稱分布時,以均值、中位數(shù)或眾數(shù)來描述數(shù)據(jù)的集中趨勢都比較理想;當(dāng)頻數(shù)分布呈偏態(tài)時,極端值會對均值產(chǎn)生較大影響,而對眾數(shù)、中位數(shù)沒有影響,此時,用眾數(shù)、中位數(shù)來描述集中趨勢比較好。根據(jù)經(jīng)驗,頻數(shù)分布無論是左偏還是右偏,眾數(shù)與中位數(shù)的距離約為算術(shù)平均數(shù)與中位數(shù)的距離的兩倍,即:§2離散趨勢的描述§2.1異眾比率§2.2極差和四分位差§2.3平均差、方差和標(biāo)準(zhǔn)差§2.4離散系數(shù)

§2.1異眾比率異眾比率(variationratio)是指一組數(shù)據(jù)中非眾數(shù)(組)的頻數(shù)占總頻數(shù)的比例。既適用于定性數(shù)據(jù),也適用于定量數(shù)據(jù),但主要用于測度分類數(shù)據(jù)的離散趨勢。用Vr表示。計算公式是:異眾比率的作用是衡量眾數(shù)對一組數(shù)據(jù)的代表性程度的指標(biāo)。異眾比率越大,說明非眾數(shù)組的頻數(shù)占總頻數(shù)的比重就越大,眾數(shù)的代表性就越差;反之,異眾比率越小,眾數(shù)的代表性就越好。§2.2極差和四分位差1.極差級差(range)是一組數(shù)據(jù)的最大值與最小值之差,也稱全距。級差主要用于測度順序數(shù)據(jù)和定量數(shù)據(jù)的離散趨勢。用R表示。級差是最容易計算的離散趨勢的測度統(tǒng)計量。但它容易受極端值的影響。計算公式是:【例4.8】根據(jù)表4.5中35名調(diào)查員的有效問卷數(shù)分組表計算極差?!?.2極差和四分位差2.四分位差四分位數(shù)是指一組數(shù)據(jù)按大小排序后處于25%和75%位置上的值,也稱四分位點。通常所說的四分位數(shù)是指:處在25%位置上的數(shù)值(下四分位數(shù))處在75%位置上的數(shù)值(上四分位數(shù))。記下四分位數(shù)為,上四分位數(shù)為其計算公式是

當(dāng)四分位數(shù)的位置不是整數(shù)時,按比例分?jǐn)偹姆治粩?shù)兩側(cè)的差值?!?.2極差和四分位差【例4.8】在某城市隨機(jī)抽取9個家庭,調(diào)查得到每個家庭的人均月收入數(shù)據(jù)(單位:元)分別是1450,950,820,860,1060,900,1280,1040,1700。要求計算這九個家庭人均月收入水平的四分位數(shù)。解:將數(shù)據(jù)由小到大按順序排列:820,860,900,950,1040,1060,1280,1450,1700。由于2.5處于順序為2和3的兩個數(shù)中間,因此按比例分?jǐn)們啥说牟钪担矗和恚?/p>

§2.2極差和四分位差內(nèi)距或四分間距(inter-quartilerange):四分位差是上四分位數(shù)與下四分位數(shù)之差,用Qd表示計算公式為:克服了級差容易受數(shù)據(jù)中兩端極值的影響這一缺陷?!?.3平均差、方差和標(biāo)準(zhǔn)差1.平均差

平均差(meandeviation)是一組數(shù)據(jù)與其均值離差絕對值的平均數(shù)。用Md表示。據(jù)掌握資料的不同,有兩種計算方法。

對于未分組數(shù)據(jù),采用簡單平均法,其計算公式是:對于分組數(shù)據(jù),采用加權(quán)平均法,其計算公式是:§2.3平均差、方差和標(biāo)準(zhǔn)差【例4.9】根據(jù)表中給出的某項調(diào)查中30名被訪者的月收入水平分組數(shù)據(jù),計算其平均差。§2.3平均差、方差和標(biāo)準(zhǔn)差解:平均差能夠準(zhǔn)確地、全面地反映一組數(shù)值的離散趨勢。平均差用絕對值進(jìn)行運算,不適宜于代數(shù)形式處理,在實際應(yīng)用上受到很大的限制。(元)§2.3平均差、方差和標(biāo)準(zhǔn)差2.方差和標(biāo)準(zhǔn)差

方差(variance)是一組數(shù)據(jù)與其均值離差平方的算術(shù)平均數(shù)。標(biāo)準(zhǔn)差(standarddeviation)是方差的平方根。方差、標(biāo)準(zhǔn)差是實際中應(yīng)用最廣泛的離散趨勢度量值。設(shè)總體的方差為,標(biāo)準(zhǔn)差為。對于分組數(shù)據(jù),方差和標(biāo)準(zhǔn)差的計算公式分別是:對于未分組的數(shù)據(jù),方差和標(biāo)準(zhǔn)差的計算公式分別是:§2.3平均差、方差和標(biāo)準(zhǔn)差總體的方差和標(biāo)準(zhǔn)差在對各個離差平方平均時是除以數(shù)據(jù)個數(shù)或總頻數(shù)。樣本的方差和標(biāo)準(zhǔn)差在對各個離差平方平均時是用樣本數(shù)據(jù)個數(shù)或總頻數(shù)減1(稱為自由度)去除總離差平方和。設(shè)樣本的方差為,標(biāo)準(zhǔn)差為。對于未分組的數(shù)據(jù),方差和標(biāo)準(zhǔn)差的計算公式為:對于分組數(shù)據(jù),方差和標(biāo)準(zhǔn)差的計算公式為:§2.3平均差、方差和標(biāo)準(zhǔn)差【例4.10】根據(jù)表中給出的某項調(diào)查中30名被訪者的月收入水平分組數(shù)據(jù),計算其方差和標(biāo)準(zhǔn)差?!?.3平均差、方差和標(biāo)準(zhǔn)差解:方差標(biāo)準(zhǔn)差(元)§2.4離散系數(shù)

離散系數(shù)(coefficientofvariation)是一組數(shù)據(jù)的標(biāo)準(zhǔn)差與其均值之比,又稱變異系數(shù)。用Vs表示。主要用于比較不同樣本數(shù)據(jù)的離散程度。計算公式是:§2.4離散系數(shù)【例4.11】甲乙兩地的個人收入調(diào)查中,甲地的人均月收入是6520元,標(biāo)準(zhǔn)差是1640元;乙地的人均月收入是5800歲,標(biāo)準(zhǔn)差是1300元。比較甲乙兩地人均月收入的差異程度。解:由得到由得到由于,因此甲地的人均月收入差異程度大于乙地?!?偏態(tài)與峰度的描述§3.1矩的概念§3.2偏態(tài)§3.3峰度

§3.1矩的概念變量的樣本觀測值與之差次方的平均數(shù)稱為變量關(guān)于的階矩。其公式表示是:當(dāng)時,上式稱為階原點矩,用字母M表示。當(dāng)時,上式稱為階中心矩,用字母m表示。一階原點矩是即均值,二階中心矩是§3.2偏態(tài)

偏態(tài)(skewness)是對數(shù)據(jù)分布對稱性的側(cè)度。偏態(tài)系數(shù)用SK表示。偏態(tài)系數(shù)采用矩進(jìn)行計算。

計算公式是:§3.2偏態(tài)當(dāng)分布對稱時,變量的三階中心矩m3正負(fù)相互抵消,因而SK=0;當(dāng)分布不對稱時,m3正負(fù)離差不能抵消。當(dāng)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論