第三章 統(tǒng)計資料的數(shù)量分布特征分析_第1頁
第三章 統(tǒng)計資料的數(shù)量分布特征分析_第2頁
第三章 統(tǒng)計資料的數(shù)量分布特征分析_第3頁
第三章 統(tǒng)計資料的數(shù)量分布特征分析_第4頁
第三章 統(tǒng)計資料的數(shù)量分布特征分析_第5頁
已閱讀5頁,還剩54頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第三章統(tǒng)計資料的數(shù)量分布特征分析常用的統(tǒng)計值和分布統(tǒng)計調(diào)查所得原始數(shù)據(jù)經(jīng)過統(tǒng)計分組并整理成為頻數(shù)分布后,原始數(shù)據(jù)的數(shù)量分布基本呈現(xiàn)在分部的類型和特點上。頻數(shù)分部所反映的只是這些數(shù)據(jù)大概的分布形狀,要進一步描述和刻畫其分布的數(shù)量特征,就需要計算一些反映原始數(shù)的集中趨勢和離散趨勢的代表值。若所描述的數(shù)據(jù)就是所觀察和研究的總體,則這些數(shù)量值稱為參數(shù);若所描述的數(shù)據(jù)只是總體中隨機抽取的一個隨機樣本,則這些數(shù)量代表值稱為統(tǒng)計量。一、集中趨勢集中趨勢是指一組數(shù)據(jù)向其中心值靠攏的傾向,測度集中趨勢也就是尋找數(shù)據(jù)一般水平的代表值或中心值。取得集中趨勢代表值的方法通常有兩種:一是從總體各單位變量值中抽象出具有一般水平的量,這種平均數(shù)稱為數(shù)值平均數(shù)。數(shù)值平均數(shù)有算術(shù)平均數(shù)、調(diào)和平均數(shù)、幾何平均數(shù)等形式。從數(shù)據(jù)的頻數(shù)分布看,通常是接近平均數(shù)的觀察值居多,遠離平均數(shù)的觀察值少,所有觀察值以平均數(shù)為中心,左右兩側(cè)分布的觀察值數(shù)大體相等,所以平均數(shù)反映了觀察值分布的集中趨勢,它是評述分布的重要特征值。二是先將總體各單位的變量值按一定順序排列,然后取某一位置的變量值來反映總體各單位的一般水平,把這個特殊位置上的數(shù)值看作是平均數(shù),稱作位置平均數(shù)。位置平均數(shù)有眾數(shù)、中位數(shù)、四分位數(shù)等形式。1、算數(shù)平均值(簡單算數(shù)平均數(shù)、加權(quán)算數(shù)平均數(shù))

簡稱均值,總體均值用“”表示,樣本均值用“”表示。應(yīng)用條件:適用于對稱分布尤其是正態(tài)分布。當變量值個數(shù)較少,其頻數(shù)分布基本對稱或從專業(yè)上可判斷其總體為正態(tài)、近似正態(tài)者,也可使用均值。計算:集中趨勢之數(shù)值平均數(shù)例1.測定某廢水樣品中的含鉻量,10次測定結(jié)果分別為0.92、0.83、0.82、0.91、1.06、0.88、1.07、0.84、1.01、0.96mg/L,求平均測定值。簡單算數(shù)平均數(shù):數(shù)學期望數(shù)學期望:離散型隨機變量的一切可能的取值xi與對應(yīng)的概率P(=xi)之積的和稱為的數(shù)學期望。它描述隨機變量取值的平均特征,它是簡單算術(shù)平均的一種推廣,它是一種加權(quán)平均。

加權(quán)平均數(shù):當觀察值較多,或分過組的頻數(shù)表資料,用下式xk為各組觀察值或組中值,f1表式第一組觀察值的個數(shù)(頻數(shù)),k表示組數(shù)。例2.某市區(qū)大氣中SO2濃度如下,計算其平均濃度。SO2濃度分組(mg/m3)組中值(xi)個數(shù)(fi)xifi0.42~0.460.4431.320.46~0.500.4852.400.50~0.540.5294.680.54~0.580.5631.680.58~0.620.6053.00合計-2513.08(mg/m3)2.調(diào)和平均數(shù)各觀察數(shù)值倒數(shù)的均值的倒數(shù)稱為倒數(shù)平均數(shù),用H表示。計算調(diào)和平均數(shù)有直接法和加權(quán)法。

調(diào)和平均數(shù)特點:a.調(diào)和平均數(shù)易受極端值的影響,且受極小值的影響比受極大值的影響更大。b.只要有一個變量值為零,就不能計算調(diào)和平均數(shù)。c.當組距數(shù)列有開口組時,其組中值即使按相鄰組距計算了,假定性也很大,這時,調(diào)和平均數(shù)的代表性就很不可靠。d.調(diào)和平均數(shù)應(yīng)用的范圍較小。3.幾何平均數(shù)(直接法、加權(quán)法)n個觀察值的連成積的n次方根,常以G表示。應(yīng)用條件:對數(shù)正態(tài)分布或近似對數(shù)正態(tài)分布資料;等比級數(shù)資料。數(shù)據(jù)10、10、20、20、40、80、160、320計算均值!算數(shù)均值為82.5——幾何平均數(shù)為60,很好的代表性。

式中:G代表幾何平均數(shù),代表連乘符號與算術(shù)平均數(shù)一樣,當資料中的某些變量值重復(fù)出現(xiàn)時,相應(yīng)地,簡單幾何平均數(shù)就變成了加權(quán)幾何平均數(shù)。

式中:fi代表各個變量值出現(xiàn)的次數(shù)注意:觀察值中不能有0;觀察值不能同時有正值和負值,若觀察值全是負值,計算式可先去掉負號,得出結(jié)果后再加上負號。4.眾數(shù)(Mode)在一組觀察值中重復(fù)次數(shù)最多的數(shù)值稱為眾數(shù),常用M0表示。4.1直接由原始數(shù)據(jù)確定眾數(shù)例3.一組樣本的觀察值為15、16、18、18、17、16、18、19、18、21,求眾數(shù)。本例重復(fù)出現(xiàn)最多的觀察值是18,因此本組觀察值的眾數(shù)M0=18集中趨勢之位置平均數(shù)4.2由組距式頻數(shù)表求眾數(shù)對于組距式頻數(shù)表資料,首先確定頻數(shù)最多的一組為中書所在組,然后按下式計算眾數(shù)的近似值。式中:L——眾數(shù)所在組下限;Δ1——眾數(shù)所在組次數(shù)與其下限的鄰組次數(shù)之差;Δ2——眾數(shù)所在組次數(shù)與其上限的鄰組次數(shù)之差;i——眾數(shù)所在組組距。例4.煉鋼企業(yè)耗水量資料如下表,試求其眾數(shù)。煉鋼噸耗水量(t)企業(yè)數(shù)10~20120~40240~60460~801580~10020100~1205120~1403合計50本例頻數(shù)最多的組(即眾數(shù)所在組)的頻數(shù)是20,即80~100組段,因此,L=80,i=20,Δ1-20-15=5,Δ2=20-5=15,計算得5.中位數(shù)在全部觀察值中,有一半比它大,一半比它小。將全部觀察值按大小順序排列,位次居中的那個數(shù)值就是中位數(shù),用M表示。5.1直接由原始數(shù)據(jù)計算中位數(shù)首先將觀察值按大小排序。再計算中位數(shù)。5.2用頻數(shù)表計算中位數(shù)由組距數(shù)列確定中位數(shù),應(yīng)先按的公式求出中位數(shù)所在組的位置,然后再按下限公式或上限公式確定中位數(shù)。式中:Me——中位數(shù);L——中位數(shù)所在組下限;U——中位數(shù)所在組上限;fm——為中位數(shù)所在組的次數(shù);——總次數(shù);d——中位數(shù)所在組的組距;Sm–1——中位數(shù)所在組以下的累計次數(shù);Sm+1——中位數(shù)所在組以上的累計次數(shù)。例5.求50名工人日加工零件數(shù)的中位數(shù)。

例5.某企業(yè)50名工人加工零件中位數(shù)計算表由表5–8可知,中位數(shù)的位置=50/2=25,即中位數(shù)在120~125這一組,L=120,Sm–1=16,U=125,Sm+1=20,fm=14,d=5,根據(jù)中位數(shù)公式得:或中位數(shù)特點:中位數(shù)是以它在所有標志值中所處的位置確定的全體單位標志值的代表值,不受分布數(shù)列的極大或極小值影響,從而在一定程度上提高了中位數(shù)對分布數(shù)列的代表性。有些離散型變量的單項式數(shù)列,當次數(shù)分布偏態(tài)時,中位數(shù)的代表性會受到影響。缺乏敏感性。眾數(shù)、中位數(shù)和算術(shù)平均數(shù)的關(guān)系

算術(shù)平均數(shù)、眾數(shù)和中位數(shù)之間的關(guān)系與次數(shù)分布數(shù)列有關(guān)。在次數(shù)分布完全對稱時,算術(shù)平均數(shù)、眾數(shù)和中位數(shù)都是同一數(shù)值,見圖1;在次數(shù)分布非對稱時,算術(shù)平均數(shù)、眾數(shù)和中位數(shù)不再是同一數(shù)值了,而具有相對固定的關(guān)系。在尾巴拖在右邊的正偏態(tài)(或右偏態(tài))分布中,眾數(shù)最小,中位數(shù)適中,算術(shù)平均數(shù)最大,見圖2;在尾巴拖在左邊的負偏態(tài)(或左偏態(tài))分布中,眾數(shù)最大,中位數(shù)適中,算術(shù)平均數(shù)最小,見圖3。圖1圖2圖3三者比較:眾數(shù)和中位數(shù)是一種位置代表值,不受極端值的影響,但不適于進一步代數(shù)運算,應(yīng)用不如算術(shù)平均數(shù)廣泛。算術(shù)平均數(shù)的含義通俗易懂,直觀清晰;全部數(shù)據(jù)都要參加運算,因此它是一個可靠的具有代表性的量;任何一組數(shù)據(jù)都有一個平均數(shù),而且只有一個平均數(shù);用統(tǒng)計方法推斷幾個樣本是否取自同一總體時,必須使用算術(shù)平均數(shù);具有優(yōu)良的數(shù)學性質(zhì),適合于代數(shù)方法的演算。算術(shù)平均數(shù)是實際中應(yīng)用最廣泛的集中趨勢測度值。缺點是最容易受極端值的影響;對于偏態(tài)分布的數(shù)據(jù),算術(shù)平均數(shù)的代表性較差;資料有開口組時,按相鄰組組距計算假定性很大,代表性降低。二、離散趨勢離散趨勢指總體各單位標志值差異的程度或樣本觀察值之間參差不齊的程度。集中趨勢和離散趨勢是反映線性數(shù)量分布規(guī)律性的兩個方面。例6.有3組觀察值,A組:16,18,20,22,24B組:14,17,20,23,26C組:16,19,20,21,24三組的均值都是20,但3組的5個數(shù)據(jù)間的參差不齊的程度(變異度)明顯不同。一般來講,數(shù)據(jù)分布越分散,變異指標越大,平均指標的代表性越小;數(shù)據(jù)分布越集中,變異指標越小,平均指標的代表性越大。常用的變異指標有:全距、平均差、方差和標準差、變異系數(shù)。1.極差(Range)又稱全距,以R表示。它是一組觀察值中最大值和最小值之差。是反應(yīng)數(shù)據(jù)離散或差異程度最簡單的測度值,極差大,說明變異程度大;極差小,說明變異程度小。R=最大標志值-最小標志值優(yōu)點:計算方便,容易理解缺點:不能反映組內(nèi)其他數(shù)據(jù)的變異度,如例6,A組數(shù)據(jù)比C組數(shù)據(jù)更為分散,但他們極差相等。抽樣調(diào)查時,抽取的單位數(shù)越多,抽到較大值或較小值得可能性就越大,因而極差也越大,當各族資料樣本容量相差懸殊時,不宜用極差比較其變異度。2.方差(Variance)與標準差(StandardDeviation),是測度數(shù)據(jù)變異程度的最重要、最常用的指標。2.1總體方差和總體標準差方差是各個數(shù)據(jù)與其算術(shù)平均數(shù)的離差平方的平均數(shù),通常以σ2表示。方差的平方根即為標準差(σ),其相應(yīng)的計算公式為::離均差2.2樣本方差和樣本標準差引入原因:實際工作中,通常掌握的是樣本資料,總體均值μ往往未知,而樣本均值可通過觀察值計算得到,因此常用樣本方差和標準差來估計總體方差和總體標準差。樣本方差:樣本標準差:式中n-1在統(tǒng)計上稱為自由度。數(shù)理統(tǒng)計研究證明,當時,總是小于,用樣本容量N作分母算得的樣本方差總比總體方差偏小,而用n-1作分母算得的樣本方差是總體方差更好的估計值。是指能夠自由取值的變量值的個數(shù)對于頻數(shù)表資料,用加權(quán)法計算:式中:fi為相同觀察值或各組段的頻數(shù);xi為相同的觀察值或組中值;k為組數(shù)例7.考察一臺機器的生產(chǎn)能力,利用抽樣程序來檢驗生產(chǎn)出來的產(chǎn)品質(zhì)量,假設(shè)搜集的數(shù)據(jù)如下:根據(jù)該行業(yè)通用法則:如果一個樣本中的14個數(shù)據(jù)項的方差大于0.005,則該機器必須關(guān)閉待修。問此時的機器是否必須關(guān)閉?解:根據(jù)已知數(shù)據(jù),計算因此,該機器工作正常?!锓讲詈蜆藴什畹淖饔茫?)反映變量分布的離散趨勢。觀察值的變異是由于個體變異和隨機誤差引起的。當個體變異比隨機誤差大的多時,訪查和標準差主要反映事物本身的變異;當隨機誤差比個體變異大的多時,訪查和標準差主要反映測量精密度,如用某法重復(fù)測定同一水樣中含鉛量所得方差或標準差,主要反映該方法或操作技術(shù)之精密度。標準差越小,說明測定的精密度越高。(2)標準差還用于計算變異系數(shù)和標準誤,標準差結(jié)合均值和正態(tài)分布理論有其他非常重要的作用等等2.3變異系數(shù)(CoefficientofVariation)上面介紹的各離散程度測度值都是反映數(shù)據(jù)分散程度的絕對值,其數(shù)值的大小一方面取決于原變量值本身水平高低的影響,也就是與變量的均值大小有關(guān)。變量值絕對水平越高,離散程度的測度值自然也就越大,絕對水平越低,離散程度的測度值自然也就越??;另一方面,它們與原變量值的計量單位相同,采用不同計量單位計量的變量值,其離散程度的測度值也就不同。因此,對于平均水平不同或計量單位不同的不同組別的變量值,是不能直接用上述離散程度的測度值直接進行比較的。為了消除變量值水平高低和計量單位不同對離散程度測度值的影響,需要計算離散系數(shù)。變異系數(shù)通常是就標準差來計算的,因此,也稱為標準差系數(shù),它是一組數(shù)據(jù)的標準差與其相應(yīng)的均值之比,是測度數(shù)據(jù)離散程度的相對指標,其計算公式為:

Vσ和Vs分別表示總體變異系數(shù)和樣本變異系數(shù)。

連續(xù)型隨機變量X所有可能取值充滿一個區(qū)間,對這種類型的隨機變量,不能象離散型隨機變量那樣,以指定它取每個值概率的方式,去給出其概率分布,而是通過給出所謂“概率密度函數(shù)”的方式.下面我們就來介紹對連續(xù)型隨機變量的描述方法.連續(xù)型隨機變量的概率密度函數(shù)則稱X為連續(xù)型隨機變量,稱f(x)

為X的概率密度函數(shù),簡稱為概率密度.一、連續(xù)型隨機變量及其概率密度的定義有,使得對任意實數(shù),

對于隨機變量X,如果存在非負可積函數(shù)f(x),

二、概率密度的性質(zhì)1o2of(x)xo面積為1這兩條性質(zhì)是判定一個函數(shù)f(x)是否為某r.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論