版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)類型品質(zhì)數(shù)據(jù)數(shù)值型數(shù)據(jù)匯總表原始數(shù)據(jù)分組數(shù)據(jù)時序數(shù)據(jù)多變量數(shù)據(jù)條形圖餅圖環(huán)形圖莖葉圖箱線圖直方圖線圖散點圖氣泡圖雷達圖數(shù)據(jù)的整理1.品質(zhì)數(shù)據(jù)的整理:數(shù)據(jù)的分類2.數(shù)值型數(shù)據(jù)的整理:數(shù)據(jù)的分組上節(jié)內(nèi)容總結(jié)第四章數(shù)據(jù)分布特征的測度統(tǒng)計學(xué)第四章數(shù)據(jù)分布特征的測度§4.1集中趨勢的測度§4.2離散程度的測度§4.3偏態(tài)與峰態(tài)的測度§4.1集中趨勢的測度4.1.1.分類數(shù)據(jù):眾數(shù)4.1.2.順序數(shù)據(jù):中位數(shù)和分位數(shù)4.1.3.數(shù)值型數(shù)據(jù):平均數(shù)4.1.4.眾數(shù)、中位數(shù)和平均數(shù)的比較一.集中趨勢1.集中趨勢(Centraltendency)是指一組數(shù)據(jù)向其中心值靠攏的傾向和程度,它反映了一組數(shù)據(jù)中心點的位置所在。2.不同類型的數(shù)據(jù)用不同的集中趨勢測度值3.低層次數(shù)據(jù)的集中趨勢測度值適用于高層次的測量數(shù)據(jù),反過來,高層次數(shù)據(jù)的集中趨勢測度值并不適用于低層次的測量數(shù)據(jù)4.選用哪一個測度值來反映數(shù)據(jù)的集中趨勢,要根據(jù)所掌握的數(shù)據(jù)的類型來確定4.1.1分類數(shù)據(jù)--眾數(shù)1.眾數(shù)是指一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的變量值,用M0
表示,它是集中趨勢的測度值之一2.眾數(shù)主要用于分類數(shù)據(jù),也可用于順序數(shù)據(jù)和數(shù)值型數(shù)據(jù)3.眾數(shù)是一個位置代表值,它不受極端值的影響。一組數(shù)據(jù)可能沒有眾數(shù),也可能有幾個眾數(shù)。眾數(shù)(眾數(shù)的不唯一性)一個眾數(shù)
原始數(shù)據(jù):567
9877多于一個眾數(shù)
原始數(shù)據(jù):252828
36424248無眾數(shù)
原始數(shù)據(jù):10591268一個眾數(shù)
原始數(shù)據(jù):567
877分類數(shù)據(jù)的眾數(shù)(例題)【例4.1】根據(jù)第三章表3-4中的數(shù)據(jù),計算“飲料品牌”眾數(shù)解:這里的變量為“飲料品牌”,是個分類變量,不同的品牌就是變量值。在所調(diào)查的50人中,購買碳酸飲料的人數(shù)最多,為15人,因此眾數(shù)為“可口可樂”這一品牌,即
Mo=碳酸飲料表3-4不同品牌飲料的頻數(shù)分布飲料品牌戶數(shù)(戶)百分比(%)
果汁礦泉水綠茶其他碳酸飲料610118151220221630合計50100順序數(shù)據(jù)的眾數(shù)(例題)【例4.2】根據(jù)第三章甲城市家庭對住房狀況評價的數(shù)據(jù),計算眾數(shù)解:這里的數(shù)據(jù)為順序數(shù)據(jù)。變量為“回答類別”。甲城市中對住房表示不滿意的戶數(shù)最多,為108戶,因此眾數(shù)為“不滿意”這一類別,即
Mo=不滿意表3-6甲城市家庭對住房狀況評價的頻數(shù)分布回答類別甲城市戶數(shù)(戶)百分比(%)
非常不滿意
不滿意
一般
滿意
非常滿意24108934530836311510合計300100.0順序數(shù)據(jù)的眾數(shù)表3-7乙城市家庭對住房狀況評價的頻數(shù)分布回答類別乙城市戶數(shù)(戶)百分比(%)
非常不滿意
不滿意
一般
滿意
非常滿意21997864387.033.026.021.312.7合計300100.0
根據(jù)第三章乙城市家庭對住房狀況評價的數(shù)據(jù),計算眾數(shù)解:這里的數(shù)據(jù)為順序數(shù)據(jù)。變量為“回答類別”。乙城市中對住房表示不滿意的戶數(shù)最多,為99戶,因此眾數(shù)為“不滿意”這一類別,即
Mo=不滿意數(shù)值型數(shù)據(jù)的眾數(shù)(例題)【例4.3】在某城市中隨機抽取9個家庭,調(diào)查得到每個家庭的人均月收入數(shù)據(jù)如下(單位:元)。要求計算人均月收入的眾數(shù)。108075010801080850960200012501630解:人均月收入出現(xiàn)頻數(shù)最多的是1080,因此,眾數(shù)Mo=1080元。Excel中的統(tǒng)計函數(shù):利用MODE函數(shù)可計算數(shù)值型數(shù)據(jù)的眾數(shù)。4.1.2順序數(shù)據(jù):中位數(shù)和分位數(shù)在一組數(shù)據(jù)中,可以找出某個位置上的數(shù)據(jù),這些位置上的數(shù)據(jù)就是相應(yīng)的分位數(shù),包括中位數(shù)、四分位數(shù)、十分位數(shù)、百分位數(shù)等。Me50%50%1.中位數(shù)(2)中位數(shù)主要用于測度順序數(shù)據(jù)的集中趨勢,也可用于數(shù)值型數(shù)據(jù)的集中趨勢,但不能用于分類數(shù)據(jù)的集中趨勢。(1)中位數(shù)是一組數(shù)據(jù)排序后處于中間位置上的變量值,用Me來表示。(3)中位數(shù)不受極端值的影響。中位數(shù)的位置確定未分組數(shù)據(jù)計算中位數(shù)的步驟:(1)對數(shù)據(jù)進行排序:(2)確定中位數(shù)的位置:(3)求出中位數(shù)的值:順序數(shù)據(jù)的中位數(shù)(例題)【例4.4】根據(jù)第三章甲城市家庭對住房狀況評價的數(shù)據(jù),計算中位數(shù)解:這是順序數(shù)據(jù)。變量為“回答類別”。其中的五個選項即為變量值。由于變量值本身就是排序的,根據(jù)中位數(shù)的位置確定公式有:表3-6甲城市家庭對住房狀況評價的頻數(shù)分布回答類別甲城市戶數(shù)(戶)向上累積頻數(shù)
非常不滿意
不滿意
一般
滿意
非常滿意2410893453024132225270300合計300-順序數(shù)據(jù)的中位數(shù)(例題)表3-7乙城市家庭對住房狀況評價的頻數(shù)分布回答類別乙城市戶數(shù)(戶)向上累積頻數(shù)
非常不滿意
不滿意
一般
滿意
非常滿意219978643821120198262300合計300-
根據(jù)第三章乙城市家庭對住房狀況評價的數(shù)據(jù),計算中位數(shù)解:這是順序數(shù)據(jù)。變量為“回答類別”。其中的五個選項即為變量值。由于變量值本身就是排序的,根據(jù)中位數(shù)的位置確定公式有:數(shù)值型數(shù)據(jù)的中位數(shù)(例題)【例4.5】在某城市中隨機抽取9個家庭,調(diào)查得到每個家庭的人均月收入數(shù)據(jù)如下(單位:元)。要求計算人均月收入的中位數(shù)。15007507801080850960200012501630解:先將上面的數(shù)據(jù)排序,結(jié)果如下:75078085096010801250150016302000所以中位數(shù)是1080,即Me=1080元。數(shù)值型數(shù)據(jù)的中位數(shù)(例題)如果數(shù)據(jù)個數(shù)為偶數(shù)時怎樣計算中位數(shù)。假定在例4.5中抽取了10個家庭,每個家庭的人均月收入數(shù)據(jù)排序后為:66075078085096010801250150016302000Excel中的統(tǒng)計函數(shù):利用MEDIAN函數(shù)可計算數(shù)值型數(shù)據(jù)的中位數(shù)。四分位數(shù)中位數(shù)是從中間點將全部數(shù)據(jù)等分為兩部分。與中位數(shù)類似的還有四分位數(shù)、十分位數(shù)、百分位數(shù)等。它們分別是用3個點、9個點、99個點將數(shù)據(jù)4等分、10等分、100等分后各分位點上的值。2.四分位數(shù)四分位數(shù)也稱四分位點,它是一組數(shù)據(jù)排序后處于25%和75%位置上的值。四分位數(shù)是通過3個點將全部數(shù)據(jù)等分為4部分,其中每部分包含25%的數(shù)據(jù)。顯然,中間的四分位數(shù)就是中位數(shù),因此通常所說的四分位數(shù)是指在25%位置上的數(shù)據(jù)(稱為下四分位數(shù))和處在75%位置上的數(shù)據(jù)(稱為上四分位數(shù))。QLMeQU25%25%25%25%四分位數(shù)的確定計算四分位數(shù)的步驟:(1)對數(shù)據(jù)進行排序:(2)確定四分位數(shù)的位置:(3)求出四分位數(shù)的值:如果位置是整數(shù),四分位數(shù)就是該位置對應(yīng)的值;如果是在0.5的位置上,則取該位置兩側(cè)的平均數(shù);如果是在0.25或0.75的位置上,則四分位數(shù)等于該位置的下側(cè)值加上按比例分?jǐn)們蓚?cè)的差值。數(shù)值型數(shù)據(jù)的四分位數(shù)(例題)【例4.6】在某城市中隨機抽取9個家庭,調(diào)查得到每個家庭的人均月收入數(shù)據(jù)如下(單位:元)。要求計算人均月收入的四分位數(shù)。75078085096010801250150016302000解:其他計算四分位數(shù)的方法(1)一種較為準(zhǔn)確的算法:Excel中的統(tǒng)計函數(shù):利用QUARTILE函數(shù)可計算數(shù)值型數(shù)據(jù)的四分位數(shù)。(2)以中位數(shù)為中心,從兩端再計算出中位數(shù),確定位置的公式為:(3)Excel給出的四分位數(shù)位置的確定方法為:4.1.3數(shù)值型數(shù)據(jù):平均數(shù)平均數(shù)也稱為均值,它是一組數(shù)據(jù)相加后除以數(shù)據(jù)的個數(shù)得到的結(jié)果。1.簡單平均數(shù)與加權(quán)平均數(shù)平均數(shù)是集中趨勢的最主要測度值,主要用于數(shù)值型數(shù)據(jù),而不適用于分類數(shù)據(jù)和順序數(shù)據(jù)。(1)簡單平均數(shù)是指根據(jù)未經(jīng)分組數(shù)據(jù)計算的平均數(shù)計算方法:4.1.3數(shù)值型數(shù)據(jù):平均數(shù)(2)加權(quán)平均數(shù)是指根據(jù)分組數(shù)據(jù)計算的平均數(shù)。計算方法:注:加權(quán)平均數(shù)實際是假定了各組數(shù)據(jù)在組內(nèi)是均勻分布的。4.1.3數(shù)值型數(shù)據(jù):平均數(shù)例題【例4.7】根據(jù)下表中的數(shù)據(jù),計算電腦銷售量的平均數(shù)。解:按銷量分組(臺)組中值fi頻數(shù)fiMifi140—1501454580150—16015591395160—170165162640170—180175274725180—190185203700190—200195173315200—210205102050210—22021581720220—2302254900230—24023551175合計—120222004.1.3數(shù)值型數(shù)據(jù):平均數(shù)平均數(shù)在統(tǒng)計學(xué)中具有重要地位,它是進行統(tǒng)計分析和統(tǒng)計推斷的基礎(chǔ)。從統(tǒng)計思想上看,平均數(shù)是一組數(shù)據(jù)的重心所在,是數(shù)據(jù)誤差相互抵消的必然結(jié)果。Excel中的統(tǒng)計函數(shù):利用AVERAGE函數(shù)可計算數(shù)值型數(shù)據(jù)的算術(shù)平均數(shù)。4.1.3數(shù)值型數(shù)據(jù):幾何平均數(shù)2.幾何平均數(shù)幾何平均數(shù)(geometricmean)是n個變量值乘積的n次方根,用G表示。幾何平均數(shù)是適用于特殊的一種平均數(shù),它主要用于計算比率的平均。當(dāng)所掌握的變量值本身是比率的形式時,采用幾何平均數(shù)計算平均比率更為合理。在實際應(yīng)用中,幾何平均數(shù)主要用于計算現(xiàn)象的平均增長率。Excel中的統(tǒng)計函數(shù):利用GEOMEAN函數(shù)可計算數(shù)值型數(shù)據(jù)的幾何平均數(shù)。幾何平均數(shù)(例題分析)【例4.8】一位投資者購持有一種股票,在2001--2004年收益率分別為4.5%、2.1%、25.5%、1.9%。要求計算該投資者在這4年內(nèi)的平均收益率。設(shè)平均收益為解:即該投資者的投資平均收益率為8.0787%。假定該投資者最初投入10000元,按各年的幾何平均收益率計算,2004年的本利和應(yīng)為:幾何平均數(shù)(例題分析)如果按算術(shù)平均數(shù)計算,評價收益率則為:注:兩種算法相差214.02元,而這部分收益投資者按算術(shù)平均收益率計算,該投資者2004年的本利和應(yīng)為:這說明,對于比率數(shù)據(jù)的平均采用幾何平均要比算術(shù)平均更為合理。是沒有拿到的。算術(shù)平均數(shù)與幾何平均數(shù)比較當(dāng)所平均的各比率數(shù)值差別不大時,算術(shù)平均和幾何設(shè)開始的數(shù)值為逐年增加率為則第n年的數(shù)值為:從用n年,每年的增長率都相同,這個增長率到故上式為就是平均的結(jié)果相差不大,如果各比率的數(shù)值相差較大時,二者的差別就很明顯。4.1.4眾數(shù)、中位數(shù)和平均數(shù)的比較1.眾數(shù)、中位數(shù)和平均數(shù)的關(guān)系從分布的角度看,眾數(shù)始終是一組數(shù)據(jù)分布的最高峰值,中位數(shù)是處于一組數(shù)據(jù)中間位置上的值,而平均數(shù)則是全部數(shù)據(jù)的算術(shù)平均。左偏分布眾數(shù)、中位數(shù)、平均數(shù)具有以下關(guān)系:對稱分布右偏分布4.1.4眾數(shù)、中位數(shù)和平均數(shù)的比較2.眾數(shù)、中位數(shù)和平均數(shù)的特點和應(yīng)用場合掌握眾數(shù)、中位數(shù)和平均數(shù)的特點,有助于在實際應(yīng)用中選擇合理的測度值來描述數(shù)據(jù)的集中趨勢。(1)眾數(shù)是一組數(shù)據(jù)分布的峰值,它是一種位置代表值,不受極端值的影響。其缺點是具有不唯一性,一組數(shù)據(jù)可能有一個眾數(shù),也可能有兩個或多個眾數(shù),也可能沒有眾數(shù)。眾數(shù)只有在數(shù)據(jù)量較大時才有意義,當(dāng)數(shù)據(jù)較少時,不宜使用眾數(shù)。雖然順序數(shù)據(jù)和數(shù)值型數(shù)據(jù)也可以計算眾數(shù),但主要適合作為分類數(shù)據(jù)的集中趨勢測度值。4.1.4眾數(shù)、中位數(shù)和平均數(shù)的比較(2)中位數(shù)是一組數(shù)據(jù)中間位置上的代表值,不受數(shù)據(jù)極端值的影響。當(dāng)一組數(shù)據(jù)的分布偏斜程度較大時,使用中位數(shù)也許是一個好的選擇。中位數(shù)主要適合作為順序數(shù)據(jù)的集中趨勢測度值。(3)平均數(shù)是對數(shù)值型數(shù)據(jù)計算的,而且利用了全部數(shù)據(jù)信息,它是實際中應(yīng)用最廣泛的集中趨勢測度值。當(dāng)數(shù)據(jù)呈對稱分布時,3個代表值相等或近似相等,這時則應(yīng)選擇平均數(shù)作為集中趨勢的代表值。但平均數(shù)的主要缺點是易受數(shù)據(jù)極端值的影響,對于偏態(tài)分布的數(shù)據(jù),平均數(shù)的代表性較差。因此,當(dāng)數(shù)據(jù)為偏態(tài)分布,特別是當(dāng)偏斜程度較大時,可以考慮選擇中位數(shù)或眾數(shù),這時它們的代表性要比平均數(shù)好。數(shù)據(jù)類型與集中趨勢測度值(總結(jié))表4-4數(shù)據(jù)類型和所適用的集中趨勢測度值數(shù)據(jù)類型分類數(shù)據(jù)順序數(shù)據(jù)數(shù)值型數(shù)據(jù)適用的測度值眾數(shù)中位數(shù)均值—四分位數(shù)幾何平均數(shù)—眾數(shù)
中位數(shù)——四分位數(shù)——眾數(shù)4.2離散程度的測度4.2.1.分類數(shù)據(jù):異眾比率4.2.2.順序數(shù)據(jù):四分位差4.2.3.數(shù)值型數(shù)據(jù):方差及標(biāo)準(zhǔn)差4.2.4.相對離散程度:離散系數(shù)數(shù)據(jù)的分散程度(離中趨勢)是數(shù)據(jù)分布的另一個重要特征,它反映的是各變量值遠(yuǎn)離其中心值的程度,數(shù)據(jù)的離散程度越大,集中趨勢的測度值對該組數(shù)據(jù)的代表性就越差;離散程度越小,其代表性就越好。描述數(shù)據(jù)離散程度采用的測度值,根據(jù)所依據(jù)數(shù)據(jù)類型的不同主要有異眾比率、四分位差、方差和標(biāo)準(zhǔn)差。此外,還有極差、平均差以及測度相對離散程度的離散系數(shù)等。4.2離散程度的測度4.2.1分類數(shù)據(jù):異眾比率1.
異眾比率(variationratio)是指非眾數(shù)組的頻數(shù)占總頻數(shù)的比例,用Vr表示。2. 計算公式為3.異眾比率主要用于衡量眾數(shù)對一組數(shù)據(jù)的代表程度.異眾比率越大,說明非眾數(shù)組的頻數(shù)占總頻數(shù)的比重越大,眾數(shù)的代表性就越差;異眾比率越小,說明非眾數(shù)組的頻數(shù)占總頻數(shù)的比重越小,眾數(shù)的代表性就越好.4.異眾比率主要用于適合測度分類數(shù)據(jù)的離散程度,當(dāng)然,對于順序數(shù)據(jù)以及數(shù)值型數(shù)據(jù)也可計算異眾比率.分類數(shù)據(jù)的異眾比率(例題)【例4.9】根據(jù)第三章表3-4中的數(shù)據(jù),計算異眾比率解:這說明在所調(diào)查的50人當(dāng)中,購買其他品牌飲料的人數(shù)占70%,異眾比率比較大。因此,用“碳酸飲料”代表消費者購買飲料品牌的狀況,其代表性不是很好表3-4不同品牌飲料的頻數(shù)分布飲料品牌戶數(shù)(戶)百分比(%)
果汁礦泉水綠茶其他碳酸飲料610118151220221630合計501004.2.2順序數(shù)據(jù):四分位差1.四分位差(quartiledeviation)也稱內(nèi)距或四分間距,它是指上四分位與下四分位之差,用Qd表示。3.四分位差反映了中間50%數(shù)據(jù)的離散程度,其數(shù)值越小,說明中間的數(shù)據(jù)越集中;其數(shù)值越大,說明中間的數(shù)據(jù)越分散。2.計算公式為4.四分位差不受極值的影響。順序數(shù)據(jù)的四分位差例題解:四分位差為:【例4.10】根據(jù)例4.6的計算結(jié)果,計算家庭人均月收入的四分位差。6.四分位差主要用于測度順序數(shù)據(jù)的離散程度,對于數(shù)值型數(shù)據(jù)也可計算四分位差,但不適合分類數(shù)據(jù).5.由于中位數(shù)處于數(shù)據(jù)的中間位置,故四分位差的大小在一定程度上也說明了中位數(shù)對一組數(shù)據(jù)的代表程度。4.2.3數(shù)值型數(shù)據(jù):方差和標(biāo)準(zhǔn)差測度數(shù)值型數(shù)據(jù)離散程度的方法主要有極差、平均差、方差和標(biāo)準(zhǔn)差,其中最常用的是方差和標(biāo)準(zhǔn)差。(2)計算公式為1.極差(1)極差(range)是指一組數(shù)據(jù)的最大值與最小值之差,也稱全距,用R表示。(3)極差是描述數(shù)據(jù)離散程度的最簡單測度值,計算簡單,易于理解,但它容易受極端值的影響。由于極差只是利用了一組數(shù)據(jù)兩端的信息,不能反映出中間數(shù)據(jù)的分散情況,因而不能準(zhǔn)確描述出數(shù)據(jù)的分散程度。數(shù)值型數(shù)據(jù):平均差(2)計算公式:2.平均差(1)平均差(meandeviation)也稱平均絕對離差,它是各變量值與其平均數(shù)離差絕對值的平均數(shù),用Md表示.未分組數(shù)據(jù)分組數(shù)據(jù)數(shù)值型數(shù)據(jù)的平均差例題根據(jù)計算公式,得:【例4.11】根據(jù)第三章表3-9中的數(shù)據(jù),計算電腦銷售量的平均差。解:頻數(shù)fi組中值Mi按銷量分組(臺)2040—120—合計250505235230—240160404225220—230240308215210—2202002010205200—2101701017195190—2000020185180—1902701027175170—1803202016165160—170270309155150—160160404145140—150數(shù)值型數(shù)據(jù):平均差平均差以平均數(shù)為中心,反映了每個數(shù)據(jù)與平均數(shù)的平均差異程度,它能全面準(zhǔn)確地反映一組數(shù)據(jù)的離散程度。平均差越大,說明數(shù)據(jù)的離散程度越大;反之,則說明數(shù)據(jù)的離散程度越小。為了避免離差之和等于零而無法計算平均差這一問題,平均差在計算時對離差取了絕對值,以離差的絕對值來表示總離差,這就給計算帶來了不便,因而實際中應(yīng)用較少。但平均差的實際意義比較清楚,容易理解。Excel中的統(tǒng)計函數(shù):利用AVEDEV函數(shù)可計算數(shù)值型數(shù)據(jù)的平均差。數(shù)值型數(shù)據(jù):方差和標(biāo)準(zhǔn)差3.方差與標(biāo)準(zhǔn)差(1)方差(variance)是各變量值與平均數(shù)離差平方的平均數(shù)。它在數(shù)學(xué)處理上是通過平方的辦法消去離差正負(fù)號,然后再進行平均。(3)方差(或標(biāo)準(zhǔn)差)能較好地反映出數(shù)據(jù)的離散稱度,是實際中應(yīng)用最廣泛的離散程度測度值。(2)標(biāo)準(zhǔn)差(standarddeviation)是方差的平方根。與方差不同的是,標(biāo)準(zhǔn)差是具有量綱的,它與變量值的計算單位相同,其實際意義要比方差清楚。因此,在對實際問題進行分析時更多地使用標(biāo)準(zhǔn)差。數(shù)值型數(shù)據(jù):方差和標(biāo)準(zhǔn)差(4)樣本方差與樣本標(biāo)準(zhǔn)差的計算公式:未分組數(shù)據(jù)分組數(shù)據(jù)方差標(biāo)準(zhǔn)差數(shù)值型數(shù)據(jù):方差和標(biāo)準(zhǔn)差(5)總體方差與總體標(biāo)準(zhǔn)差的計算公式:未分組數(shù)據(jù)分組數(shù)據(jù)方差標(biāo)準(zhǔn)差Excel中的統(tǒng)計函數(shù):利用STDEV函數(shù)可計算數(shù)值型數(shù)據(jù)的樣本標(biāo)準(zhǔn)差。數(shù)值型數(shù)據(jù):方差和標(biāo)準(zhǔn)差(6)自由度自由度(degreeoffreedom)是指附加給獨立的觀測值的約束或限制的個數(shù)。從字面含義來看,自由度是指一組數(shù)據(jù)中可以自由取值的個數(shù)。當(dāng)樣本數(shù)據(jù)的個數(shù)為n時,若樣本平均數(shù)確定后,則附加給n個觀測值的約束個數(shù)就是1個,因此只有n-1個數(shù)據(jù)可以自由取值,其中必有一個數(shù)據(jù)不能自由取值。按照這一邏輯,如果對n個觀測值附加的約束個數(shù)為k個,自由度則為n-k。數(shù)值型數(shù)據(jù):方差和標(biāo)準(zhǔn)差(7)樣本方差的自由度樣本方差的自由度是n-1,即樣本個數(shù)減1。因為在計算離差平方和時,必須先求出樣本平均數(shù),而
則是附加給的一個約束,因此離差平方和只有n-1個獨立的觀測值,因不是n個。樣本方差用自由度去除,其原因可以從多方面來解釋,從實際應(yīng)用的角度來看,在抽樣估計中,當(dāng)我們用樣本方差去估計總體方差時,它是的無偏估計量。數(shù)值型數(shù)據(jù)的方差和標(biāo)準(zhǔn)差例題原始數(shù)據(jù):10 591368解:數(shù)值型數(shù)據(jù)的方差和標(biāo)準(zhǔn)差例題根據(jù)計算公式,得:【例4.12】根據(jù)第三章表3-9中的數(shù)據(jù),計算電腦銷售量的標(biāo)準(zhǔn)差。解:頻數(shù)fi組中值Mi按銷量分組(臺)55400—120—合計1250025005235230—240640016004225220—23072009008215210—220400040010205200—210170010017195190—2000020185180—190270010027175170—180640040016165160—17081009009155150—160640016004145140—150上節(jié)內(nèi)容總結(jié)
統(tǒng)計表包括四部分:表頭、行標(biāo)題、列標(biāo)題、數(shù)字資料、附加說明統(tǒng)計表的結(jié)構(gòu)數(shù)據(jù)的概括性度量1.集中趨勢度量分類數(shù)據(jù):眾數(shù)順序數(shù)據(jù):中位數(shù)分位數(shù)數(shù)值型數(shù)據(jù):平均數(shù)2.離散程度的度量分類數(shù)據(jù):異眾比率順序數(shù)據(jù):四分位差數(shù)值型數(shù)據(jù):極差平均差方差和標(biāo)準(zhǔn)差標(biāo)準(zhǔn)分?jǐn)?shù)3.相對位置的度量有了平均數(shù)和標(biāo)準(zhǔn)差之后,可以計算一組數(shù)據(jù)中各個數(shù)值的標(biāo)準(zhǔn)分?jǐn)?shù),以測度每個數(shù)據(jù)在該組數(shù)據(jù)中的相對位置,并可以用它來判斷一組數(shù)據(jù)是否有離群數(shù)據(jù)。(1)標(biāo)準(zhǔn)分?jǐn)?shù)標(biāo)準(zhǔn)分?jǐn)?shù)(standardscore)是變量值與其平均值的離差除以標(biāo)準(zhǔn)差后的值,也稱標(biāo)準(zhǔn)化值或z分?jǐn)?shù)。計算方法:注:標(biāo)準(zhǔn)分?jǐn)?shù)給出了一組數(shù)據(jù)中各數(shù)值的相對位置。標(biāo)準(zhǔn)分?jǐn)?shù)
比如,如果某個數(shù)值的標(biāo)準(zhǔn)分?jǐn)?shù)為-1.5,就知道該數(shù)值低于平均數(shù)1.5倍的標(biāo)準(zhǔn)差。標(biāo)準(zhǔn)分?jǐn)?shù)具有平均數(shù)為0,標(biāo)準(zhǔn)差為1的特性。實際上,z分?jǐn)?shù)只是將原始數(shù)據(jù)進行了線性變換,它并沒有改變一個數(shù)據(jù)在該組數(shù)據(jù)中的位置,也沒有改變該組數(shù)據(jù)分布的形狀,而只是將該組數(shù)據(jù)變?yōu)槠骄鶖?shù)為0,標(biāo)準(zhǔn)差為1。也是我們常用的統(tǒng)計標(biāo)準(zhǔn)化公式,在對多個具有不同量綱的變量進行處理時,常常需要對各變量進行標(biāo)準(zhǔn)化處理。標(biāo)準(zhǔn)分?jǐn)?shù)
比如,一組數(shù)據(jù)為25,28,31,34,37,40,43其平均數(shù)為34,標(biāo)準(zhǔn)差為6。其變換如下圖所示:標(biāo)準(zhǔn)分?jǐn)?shù)的例題9個家庭人均月收入標(biāo)準(zhǔn)化值計算表家庭編號人均月收入(元)標(biāo)準(zhǔn)分?jǐn)?shù)z
123456789150075078010808509602000125016300.695-1.042-0.973-0.278-0.811-0.5561.8530.1160.996【例4.13】根據(jù)例4.5的數(shù)據(jù),計算每個家庭人均月收入的標(biāo)準(zhǔn)分?jǐn)?shù)。解:經(jīng)驗法則(2)經(jīng)驗法則當(dāng)一組數(shù)據(jù)對稱分布時,經(jīng)驗法則表明:約有68%的數(shù)據(jù)在平均數(shù)加減1個標(biāo)準(zhǔn)差的范圍之內(nèi)。約有95%的數(shù)據(jù)在平均數(shù)加減2個標(biāo)準(zhǔn)差的范圍之內(nèi)。約有99%的數(shù)據(jù)在平均數(shù)加減3個標(biāo)準(zhǔn)差的范圍之內(nèi)。一組數(shù)據(jù)中低于或高于均值加減3倍標(biāo)準(zhǔn)差之外的數(shù)值是很少的,也就是說,在均值加減3個標(biāo)準(zhǔn)差的范圍內(nèi)幾乎包含了全部數(shù)據(jù)。離群點(outlier)或異常值是指在3個標(biāo)準(zhǔn)差之外的數(shù)據(jù)。切比雪夫不等式經(jīng)驗法則適合于對稱分布的數(shù)據(jù)。如果一組數(shù)據(jù)不是對稱分布,經(jīng)驗法則就不再使用,這時可使用切比雪夫不等式,它對任何分布形狀的數(shù)據(jù)都適用。切比雪夫不等式提供的是“下界”對于任意分布形態(tài)的數(shù)據(jù),根據(jù)切比雪夫不等式,至少有(1-1/k2)的數(shù)據(jù)落在是k個標(biāo)準(zhǔn)差之內(nèi)。對于k=2,3,4,該不等式的含義是:①至少有75%的數(shù)據(jù)落在平均數(shù)加減2個標(biāo)準(zhǔn)差的范圍之內(nèi)。②至少有89%的數(shù)據(jù)落在平均數(shù)加減3個標(biāo)準(zhǔn)差的范圍之內(nèi)。③至少有94%的數(shù)據(jù)落在平均數(shù)加減4個標(biāo)準(zhǔn)差的范圍之內(nèi)。(3)切比雪夫不等式(Chebyshev’sinequality)4.2.4相對離散程度:離散系數(shù)1.方差和標(biāo)準(zhǔn)差是反映數(shù)據(jù)分散程度的絕對值,其數(shù)值的大小一方面受原變量值本身水平高低的影響,也就是與變量的平均數(shù)大小有關(guān),變量值絕對水平高的,離散程度的測度值自然也就大,絕對水平小的離散程度的測度值自然也就??;另一方面,它們與原變量值的計量單位相同,采用不同計量單位計量的變量值,其離散程度的測度值也就不同。因此,對于平均水平不同或計量單位不同的不同組別的變量值,是不能用標(biāo)準(zhǔn)差直接比較其離散程度的。2. 為消除數(shù)據(jù)水平高低和計量單位不同對離散程度測度值的影響,需要定義離散系數(shù)。4.2.4相對離散程度:離散系數(shù)3. 離散系數(shù)(或變異系數(shù))(coefficientofvariation),它是一組數(shù)據(jù)的標(biāo)準(zhǔn)差與其相應(yīng)的平均數(shù)之比。4. 計算公式5. 離散系數(shù)是測度數(shù)據(jù)離散程度的相對統(tǒng)計量,其作用主要是用于比較對不同樣本數(shù)據(jù)的離散程度。離散系數(shù)大,說明數(shù)據(jù)的離散程度也大;離散系數(shù)小,說明數(shù)據(jù)的離散程度也小。注:當(dāng)平均數(shù)接近零時,離散系數(shù)的值趨于增大,此時必須慎重解釋。離散系數(shù)的例題【例4.14】在奧運會女子10米氣手槍比賽中,每個運動員首先進行每組10槍共4組的預(yù)賽,然后根據(jù)預(yù)賽總成績確定進入決賽的8名運動員。決賽時8名運動員再進行10槍射擊,再將預(yù)賽成績加上決賽成績以確定最后的名次。在2008年8月10日舉行的第29屆北京奧運會女子10米氣手槍決賽中,進入決賽的8名運動員的預(yù)賽成績和最后10槍的決賽成績?nèi)绫硭?。評價哪名運動員的發(fā)揮更穩(wěn)定。離散系數(shù)的例題姓名國家預(yù)賽成績納塔利婭.帕杰琳娜俄羅斯391108.51010.210.610.59.89.79.59.3郭文珺中國3901010.510.410.410.110.39.410.710.89.7卓各巴德拉赫.蒙赫珠勒蒙古3879.3108.78.39.29.58.510.79.29.2妮諾.薩盧克瓦澤格魯吉亞3869.810.3109.510.210.710.410.69.110.8維多利亞.柴卡白俄羅斯3849.39.410.410.110.210.59.210.59.88.6萊萬多夫斯卡.薩貢波蘭3848.110.39.29.99.810.49.99.410.79.6亞斯娜.舍卡里奇塞爾維亞38410.29.69.99.99.39.19.7109.39.9米拉.內(nèi)萬蘇芬蘭3848.79.39.210.39.8109.79.99.99.7離散系數(shù)的例題解:如果各運動員決賽10槍的平均成績差異不大,可以直接比較標(biāo)準(zhǔn)差的大小,否則需要計算離散系數(shù)。姓名國家平均數(shù)標(biāo)準(zhǔn)差離散系數(shù)納塔利婭.帕杰琳娜俄羅斯9.810.61540.062737郭文珺中國10.230.43720.042746卓各巴德拉赫.蒙赫珠勒蒙古9.260.70740.076395妮諾.薩盧克瓦澤格魯吉亞10.140.54610.053856維多利亞.柴卡白俄羅斯9.80.64980.066305萊萬多夫斯卡.薩貢波蘭9.730.73340.075376亞斯娜.舍卡里奇塞爾維亞9.690.35730.036874米拉.內(nèi)萬蘇芬蘭9.650.46250.047926數(shù)據(jù)類型與離散程度測度值表4-8數(shù)據(jù)類型和所適用的離散程度測度值數(shù)據(jù)類型分類數(shù)據(jù)順序數(shù)據(jù)數(shù)值型數(shù)據(jù)適用的測度值異眾比率四分位差
方差或標(biāo)準(zhǔn)差
—異眾比率離散系數(shù)(比較時用)——
平均差——
極差——
四分位差——
異眾比率4.3偏態(tài)與峰態(tài)的測度集中趨勢和離散程度是數(shù)據(jù)分布的兩個重要特征,但要全面了解數(shù)據(jù)分布的特點,還需要知道數(shù)據(jù)分布的形狀是否對稱、偏斜的程度以及分布的扁平程度等。4.3.1.偏態(tài)及其測度4.3.2.峰態(tài)及其測度4.3.1偏態(tài)及其測度1.偏態(tài)(skewness)一詞是由統(tǒng)計學(xué)家K.Pearson于1895年首次提出的,它是對數(shù)據(jù)分布對稱性的測度。2.偏態(tài)系數(shù)(coefficientofskewness)是測度偏態(tài)的統(tǒng)計量,記作SK。3.計算公式(樣本數(shù)據(jù)):未分組數(shù)據(jù)分組數(shù)據(jù)4.3.1偏態(tài)及其測度4.偏態(tài)系數(shù)說明:未分組數(shù)據(jù)分組數(shù)據(jù)4.3.1偏態(tài)及其測度5.計算公式(總體數(shù)據(jù)):未分組數(shù)據(jù)分組數(shù)據(jù)Excel中的統(tǒng)計函數(shù):利用SKEW函數(shù)可計算數(shù)值型數(shù)據(jù)的偏態(tài)系數(shù)。數(shù)值型數(shù)據(jù)的偏態(tài)系數(shù)例題【例4.15】根據(jù)第3章表3-9中的數(shù)據(jù),計算電腦銷售量的偏態(tài)系數(shù)。解:頻數(shù)fi組中值Mi按銷量分組(臺)540000—120—合計6250001250005235230—240256000640004225220—230216000270008215210—22080000800010205200—21017000100017195190—2000020185180—190-27000-100027175170—180-128000-800016165160—170-243000-270009155150—160-256000-64000
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于物聯(lián)網(wǎng)技術(shù)的智能家居系統(tǒng)開發(fā)合同
- 電商平臺服務(wù)協(xié)議
- 農(nóng)業(yè)標(biāo)準(zhǔn)化生產(chǎn)管理體系建設(shè)方案
- 教育行業(yè)在線教學(xué)平臺與資源共享方案
- 有機農(nóng)產(chǎn)品質(zhì)量檢測員合同
- 智能健康平臺升級服務(wù)合同
- 技術(shù)轉(zhuǎn)移與合作合同
- 工業(yè)機器人技術(shù)研發(fā)合作協(xié)議
- 人力資源風(fēng)險管理服務(wù)合同
- 產(chǎn)品市場推廣與客戶體驗活動方案
- 海底噴流沉積型礦床-sedex
- 基于BP神經(jīng)網(wǎng)絡(luò)的零售戶銷售假煙行為的預(yù)警模型
- 中心衛(wèi)生院關(guān)于成立按病種分值付費(DIP)工作領(lǐng)導(dǎo)小組及制度的通知
- 醫(yī)院感染監(jiān)測清單
- Q∕SY 05592-2019 油氣管道管體修復(fù)技術(shù)規(guī)范
- JIS G3141-2021 冷軋鋼板及鋼帶標(biāo)準(zhǔn)
- 籃球校本課程教材
- 小學(xué)數(shù)學(xué)校本教材(共51頁)
- 遺傳群體文獻解讀集
- 工藝裝備環(huán)保性與安全性的設(shè)計要點
- [玻璃幕墻施工方案]隱框玻璃幕墻施工方案
評論
0/150
提交評論