數(shù)據(jù)、模型與決策第三、四章課件_第1頁
數(shù)據(jù)、模型與決策第三、四章課件_第2頁
數(shù)據(jù)、模型與決策第三、四章課件_第3頁
數(shù)據(jù)、模型與決策第三、四章課件_第4頁
數(shù)據(jù)、模型與決策第三、四章課件_第5頁
已閱讀5頁,還剩85頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)、模型與決策秀秀老師數(shù)據(jù)、模型與決策秀秀老師11第一節(jié)圖表描述分析2第二節(jié)數(shù)量資料的特征數(shù)字3第三節(jié)屬性資料的特征數(shù)字Contents第三章統(tǒng)計(jì)資料描述分析1第一節(jié)圖表描述分析2第二節(jié)數(shù)量資料的特征數(shù)字2第一節(jié)圖表描述分析圖表描述分析統(tǒng)計(jì)表的種類與應(yīng)用頻數(shù)分布的編制統(tǒng)計(jì)資料的圖像描述單變量的頻數(shù)分布兩變量交叉分類的頻數(shù)分布直方圖、折線圖與曲線圖累積分布圖餅形圖與圓環(huán)圖帕累圖散點(diǎn)圖雷達(dá)圖莖葉圖第一節(jié)圖表描述分析圖表描述分析統(tǒng)計(jì)表的種類與應(yīng)用頻數(shù)分布3第二節(jié)數(shù)量資料的特征數(shù)字集中趨勢離散趨勢相關(guān)性測量軟件應(yīng)用第二節(jié)數(shù)量資料的特征數(shù)字集中趨勢離散趨勢相關(guān)性測量軟件應(yīng)4原始數(shù)據(jù): 10 5 9 13 6 8原始數(shù)據(jù): 10 5 9 13 6 85集中趨勢算術(shù)平均數(shù):含義:假定為樣本觀察值,用表示算術(shù)平均數(shù),則算術(shù)平均數(shù)的基本計(jì)算公式為特殊考慮:對于已經(jīng)過分組并形成頻數(shù)分布的資料,此時(shí)計(jì)算算術(shù)平均數(shù)就要采用加權(quán)的辦法。計(jì)算加權(quán)算術(shù)平均數(shù)時(shí),需要對各個(gè)組的變量值與相應(yīng)組的頻數(shù)的乘積求和,然后除以頻數(shù)之和集中趨勢6加權(quán)均值

甲乙兩組各有10名學(xué)生,他們的考試成績及其分布數(shù)據(jù)如下甲組:考試成績(X): 020100人數(shù)分布(F):118乙組:考試成績(X): 020100人數(shù)分布(F):811加權(quán)均值

甲乙兩組各有10名學(xué)生,他們的考試成績及其分布數(shù)據(jù)7加權(quán)均值

計(jì)算50名工人日加工零件數(shù)的均值加權(quán)均值

計(jì)算50名工人日加工零件數(shù)的均值8集中趨勢計(jì)算和運(yùn)用算術(shù)平均數(shù)是需要注意:算術(shù)平均同時(shí)受到兩個(gè)因素的影響,一個(gè)是各組的觀察值的大小,另一個(gè)是各組分布頻數(shù)的多少算術(shù)平均值易受極端值干擾集中趨勢計(jì)算和運(yùn)用算術(shù)平均數(shù)是需要注意:9集中趨勢中位數(shù)含義:把觀察值按從小到大的順序排列,位置居中的數(shù)叫做中位數(shù)求下列各組數(shù)據(jù)的中位數(shù)1)1,2,3,3,3,4,6,8,8,8,9,9

中位數(shù)是:52)1,2,3,3,3,4,8,8,8,9,9中位數(shù)是:4公式MEDIAN集中趨勢中位數(shù)MEDIAN10集中趨勢中位數(shù)是一種較為常用的反映集中趨勢的特征數(shù)字1.不受極端值的影響,具有很強(qiáng)的抗干擾性2.由組距頻數(shù)分布資料計(jì)算中位數(shù)時(shí),要求等距組數(shù),且要求觀察值在中位數(shù)所在的組中近似服從對稱分布,否則計(jì)算結(jié)果可能存在誤差3.對于觀察值大量重復(fù)的現(xiàn)象,中位數(shù)未必準(zhǔn)確集中趨勢中位數(shù)是一種較為常用的反映集中趨勢的特征數(shù)字11四分位數(shù)

(概念要點(diǎn))1. 集中趨勢的測度值之一2. 排序后處于25%和75%位置上的值3.不受極端值的影響4.主要用于定序數(shù)據(jù),也可用于數(shù)值型數(shù)據(jù),但不能用于定類數(shù)據(jù)QLQMQU25%25%25%25%四分位數(shù)

(概念要點(diǎn))1. 集中趨勢的測度值之一3.不受12集中趨勢截尾均值含義:去掉觀察值中部分最大值和最小值,由保留下來的數(shù)據(jù)計(jì)算平均值稱為截尾均值。集中趨勢截尾均值13離散趨勢的測度離散趨勢的測度,在統(tǒng)計(jì)學(xué)中也稱為指標(biāo)變異指標(biāo),是用來描述數(shù)列中指標(biāo)值的離散趨勢與離散程度的。常用的標(biāo)志變異指標(biāo)有極差、平均差和標(biāo)準(zhǔn)差等。1.極差極差是指一個(gè)數(shù)列中兩個(gè)極端值即最大值與最小值之間的差異。根據(jù)極差的大小能說明標(biāo)志值變動(dòng)范圍的大小。其計(jì)算公式為:極差=最大標(biāo)志值-最小標(biāo)志值根據(jù)組距數(shù)列求極差的計(jì)算公式為:極差=最高組上限-最低組下限在實(shí)際工作中,極差可以用于檢查產(chǎn)品質(zhì)量的穩(wěn)定性和進(jìn)行質(zhì)量控制。在正常生產(chǎn)的條件下,產(chǎn)品質(zhì)量穩(wěn)定,極差在一定范圍內(nèi)波動(dòng),若極差超過給定的范圍,就說明有不正常情況產(chǎn)傷。但極差受到極端是的影響,測定結(jié)果往往不能反映數(shù)據(jù)的實(shí)際離散程度。離散趨勢的測度離散趨勢的測度,在統(tǒng)計(jì)學(xué)中也稱為指標(biāo)變異指標(biāo),14例子1,3,4,7,8,9,10求極差R=10-1=9例子1,3,4,7,8,9,1015極差

1.一組數(shù)據(jù)的最大值與最小值之差2.離散程度的最簡單測度值3.易受極端值影響4.未考慮數(shù)據(jù)的分布7891078910未分組數(shù)據(jù)

R

=max(Xi)-min(Xi).=組距分組數(shù)據(jù)

R

最高組上限-最低組下限5.計(jì)算公式為極差

1.一組數(shù)據(jù)的最大值與最小值之差78910789116極差是離散程度的最簡單測度值,它只利用了一組數(shù)據(jù)的兩個(gè)極端值,易受極端值的影響,且不能反映中間數(shù)據(jù)的分散狀況。比如:1,6,6,6,6,6,10這一組數(shù)據(jù),極差是?R=10-1=9和上一組極差值相同,都是9,如果以此斷言兩組數(shù)據(jù)離散程度相同,恐怕很不合適,直覺告訴我們后一組數(shù)據(jù)的差異比前一組數(shù)據(jù)大的多。

極差是離散程度的最簡單測度值,它只利用了一組數(shù)據(jù)的兩個(gè)極端值172.四分位差四分位差是根據(jù)四分位數(shù)計(jì)算的。首先把變量各單位標(biāo)志值從小到大排序,再將數(shù)列四等分,處于四分位點(diǎn)位次的標(biāo)志值就是四分位數(shù),記作,為第一四分位數(shù)(也稱為下四分位數(shù)),為第二四分位數(shù),就是中位數(shù),為第三四分位數(shù)。四分位差的計(jì)算公式為:

2.四分位差四分位差是根據(jù)四分位數(shù)計(jì)算的。首先把變量各單位18四分位差是對極差的一種改進(jìn)。與極差相比,四分位差因不受極值的影響,在反映數(shù)據(jù)的離散程度方面比極差準(zhǔn)確,具有較高的穩(wěn)定性;同時(shí),對于存在開口的組距數(shù)列,不能計(jì)算極差,但可以計(jì)算四分位差。四分位差與極差相比較:四分位差和極差一樣,不能充分利用數(shù)據(jù)的全部信息,也無法反映標(biāo)志值的一般變動(dòng)。四分位差是對極差的一種改進(jìn)。與極差相比,四分位差因不受極值的194.方差和標(biāo)準(zhǔn)差未分組資料時(shí),方差的公式為:

標(biāo)準(zhǔn)差的公式為:分組資料時(shí),方差的公式為:

標(biāo)準(zhǔn)差的公式為:式中:——算術(shù)平均數(shù)——總體單位數(shù)——各組頻率——方差——標(biāo)準(zhǔn)差——變量值4.方差和標(biāo)準(zhǔn)差未分組資料時(shí),方差的公式為:標(biāo)準(zhǔn)差的公式205.離散系數(shù)上述的各種標(biāo)志變異度指標(biāo),都是對總體中各單位指標(biāo)值變異測定的絕對量指標(biāo)。而離散系數(shù)是測定總體中各單位標(biāo)志值變異的相對量指標(biāo),以消除不同總體之間在計(jì)量單位、平均水平方面的不可比因素。常用的離散系數(shù)主要有平均差離散系數(shù)和標(biāo)準(zhǔn)差離散系數(shù)其公式分別為:

5.離散系數(shù)上述的各種標(biāo)志變異度指標(biāo),都是對總體中各單位指21離散系數(shù)上面介紹的各離散程度的測度值,反映的是數(shù)據(jù)分散程度的絕對值,其數(shù)值的大小取決于原變量值絕對水平的高低。舉個(gè)例子:兩組數(shù)據(jù):第一組:5,10,20,25,30第二組:100000,100005,99995,100020,100040離散系數(shù)上面介紹的各離散程度的測度值,反映的是數(shù)據(jù)分散程度的22第一組數(shù)據(jù)極差=25第二組數(shù)據(jù)極差=45第一組數(shù)據(jù)平均差=8.4第二組數(shù)據(jù)平均差=14.4第一組數(shù)據(jù)方差=107.5標(biāo)準(zhǔn)差=10.36822第二組數(shù)據(jù)方差=332.5標(biāo)準(zhǔn)差=18.23458第一組的離散系數(shù)=10.36822/8.4=1.23第二組的離散系數(shù)=18.23458/14.4=1.26第一組數(shù)據(jù)極差=2523對平均水平不同或計(jì)量單位不同的不同組別的變量值,不能直接的用上述離散程度的測度值進(jìn)行直接的比較各組的離散程度。為了消除變量值水平的高低和計(jì)量單位不同對離散測度值的影響,我們計(jì)算離散系數(shù)值。離散系數(shù)一般是用標(biāo)準(zhǔn)差計(jì)算的,也稱為標(biāo)準(zhǔn)差系數(shù),它是一組數(shù)據(jù)的標(biāo)準(zhǔn)差與其相應(yīng)的均值之比,是測度數(shù)據(jù)離散程度的相對指標(biāo),其計(jì)算公式為:對平均水平不同或計(jì)量單位不同的不同組別的變量值,不能直接的用24離散系數(shù)

(概念要點(diǎn)和計(jì)算公式)1. 標(biāo)準(zhǔn)差與其相應(yīng)的均值之比2. 消除了數(shù)據(jù)水平高低和計(jì)量單位的影響3. 測度了數(shù)據(jù)的相對離散程度4. 用于對不同組別數(shù)據(jù)離散程度的比較5.計(jì)算公式為離散系數(shù)

(概念要點(diǎn)和計(jì)算公式)1. 標(biāo)準(zhǔn)差與其相應(yīng)的均值之25正方形邊長x面積S確定關(guān)系1.正方形面積S與邊長x之間的關(guān)系:2.人的身高不能確定體重,但平均說來“身高者,體也重”.那么身高和體重具有什么關(guān)系?3.類似的情況生活中是否還有?(1)商品銷售收入與廣告支出經(jīng)費(fèi);(2)糧食產(chǎn)量與施肥量.相關(guān)關(guān)系相關(guān)性分析正方形邊長x面積S確定關(guān)系1.正方形面積S與邊長x26相關(guān)性測量相關(guān)系數(shù)反映變量間線性相關(guān)關(guān)系的重要指標(biāo)。計(jì)算公式:(1)變形后的公式相關(guān)性測量相關(guān)系數(shù)反映變量間線性相關(guān)關(guān)系的重要指標(biāo)。(1)變27屬性資料的特征數(shù)字屬性資料的集中趨勢的測度主要是:眾數(shù)、中位數(shù)、四分位數(shù)屬性資料的離散趨勢的計(jì)算方法,常用的有離散比率、GINI-SIMPSON指數(shù)和熵等屬性資料的特征數(shù)字屬性資料的集中趨勢的測度主要是:眾數(shù)、中位28第四章參數(shù)樣本推斷參數(shù)樣本推斷統(tǒng)計(jì)量與抽樣分布參數(shù)估計(jì)的應(yīng)用假設(shè)檢驗(yàn)應(yīng)用第四章參數(shù)樣本推斷參數(shù)樣本推斷統(tǒng)計(jì)量與抽樣分布參數(shù)估計(jì)的29總體選擇個(gè)體樣本觀測樣本樣本觀察值(數(shù)據(jù))數(shù)據(jù)處理樣本有關(guān)結(jié)論推斷總體性質(zhì)

統(tǒng)計(jì)量統(tǒng)計(jì)的一般步驟這種不含任何未知參數(shù)的樣本的函數(shù)稱為統(tǒng)計(jì)量.它是完全由樣本決定的量.第四章參數(shù)樣本推斷總體選擇個(gè)體樣本觀測樣本樣本觀察值(數(shù)據(jù))數(shù)據(jù)處理樣本有關(guān)結(jié)30第一節(jié)統(tǒng)計(jì)量與抽樣分布統(tǒng)計(jì)量

X1,X2,…,Xn為來自總體X的樣本,稱不含未知參數(shù)的樣本的函數(shù)f(X1,X2,…,Xn)為統(tǒng)計(jì)量.若x1,x2,...,xn為樣本觀測值,則稱f(x1,x2,...,xn)為統(tǒng)計(jì)量f(X1,X2,…,Xn)的觀測值.

統(tǒng)計(jì)量是處理、分析數(shù)據(jù)的主要工具.對統(tǒng)計(jì)量的一個(gè)最基本的要求就是可以將樣本觀測值代入進(jìn)行計(jì)算,因而不能含有任何未知的參數(shù).

設(shè)X1,X2,…,Xn是來自總體X的樣本,X~N(,

2),其中、2為未知參數(shù),則X1,,min{X1,X2,…,Xn},為統(tǒng)計(jì)量。但諸如

等均不是統(tǒng)計(jì)量,因它含有未知參數(shù)或.

第一節(jié)統(tǒng)計(jì)量與抽樣分布統(tǒng)計(jì)量31第一節(jié)統(tǒng)計(jì)量與抽樣分布三大抽樣分布1.2分布

設(shè)X1,X2,…,Xn為相互獨(dú)立的隨機(jī)變量,它們都服從標(biāo)準(zhǔn)正態(tài)N(0,1)分布,則稱隨機(jī)變量稱2服從自由度為n的2分布,記作2~2(n).

2分布具有下面性質(zhì):1)可加性。設(shè)

是兩個(gè)相互獨(dú)立的隨機(jī)變量,且

第一節(jié)統(tǒng)計(jì)量與抽樣分布三大抽樣分布32第一節(jié)統(tǒng)計(jì)量與抽樣分布2)2分布曲線隨自由度n的增大而逐漸趨向于正態(tài)分布曲線3)設(shè)X1,X2,…,Xn為相互獨(dú)立的隨機(jī)變量,它們都服從標(biāo)準(zhǔn)正態(tài)N(0,1)分布,令 Q1+Q2+Q3+...+QK=,Qi(i=1,2,...,K)是秩為ni的非負(fù)定二次型,則Q1,Q2....,QK相互獨(dú)立,且分別服從自由度為ni的2分布的充要條件是n1+n2+...+nk=n第一節(jié)統(tǒng)計(jì)量與抽樣分布2)2分布曲線隨自由度n的增大而33練一練1.2分布的形狀隨自由度n的增大而逐漸趨向于()練一練1.2分布的形狀隨自由度n的增大而逐漸趨向于()34第一節(jié)統(tǒng)計(jì)量與抽樣分布2.t分布設(shè)X~N(0,1),Y~2(n),X與Y獨(dú)立,則稱隨機(jī)變量,服從自由度為的t分布,又稱為學(xué)生氏分布,記為T

~t(n).3.F分布

設(shè)X~2(n),Y~2(m),且X與Y獨(dú)立,稱隨機(jī)變量

服從自由度為(n,m)的F分布,記為F~F(n,m).第一節(jié)統(tǒng)計(jì)量與抽樣分布2.t分布35第一節(jié)統(tǒng)計(jì)量與抽樣分布1.從一個(gè)總體中隨機(jī)抽出容量相同的各種樣本,從這些樣本計(jì)算出的某統(tǒng)計(jì)量所有可能值的概率分布,稱為這個(gè)統(tǒng)計(jì)量的抽樣分布。抽樣分布就是從總體中抽出相同容量的全部樣本,并計(jì)算出統(tǒng)計(jì)量的值,然后按統(tǒng)計(jì)量的值編制出來的頻數(shù)分布

2.設(shè)X1,X2,…,Xn是取自總體X的樣本,樣本均值,所有可能樣本的均值構(gòu)成的概率分布即為樣本均值的抽樣分布。第一節(jié)統(tǒng)計(jì)量與抽樣分布1.從一個(gè)總體中隨機(jī)抽出容量相同的36【例】設(shè)一個(gè)總體,含有4個(gè)元素(個(gè)體),即總體單位數(shù)N=4。4個(gè)個(gè)體分別為X1=1、X2=2、X3=3、X4=4??傮w的均值、方差及分布如下總體分布14230.1.2.3【例】設(shè)一個(gè)總體,含有4個(gè)元素(個(gè)體),即總體單位數(shù)N=4。37現(xiàn)從總體中抽取n=2的簡單隨機(jī)樣本,在重復(fù)抽樣條件下,共有42=16個(gè)樣本。所有樣本的結(jié)果如下表3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二個(gè)觀察值第一個(gè)觀察值所有可能的n=2的樣本(共16個(gè))現(xiàn)從總體中抽取n=2的簡單隨機(jī)樣本,在重復(fù)抽樣條件下,共38計(jì)算出各樣本的均值,如下表。并給出樣本均值的抽樣分布3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二個(gè)觀察值第一個(gè)觀察值16個(gè)樣本的均值(x)樣本均值的抽樣分布1.00.1.2.3P(x)1.53.04.03.52.02.5x計(jì)算出各樣本的均值,如下表。并給出樣本均值的抽樣分布39所有樣本均值的均值和方差式中:M為樣本均值的個(gè)數(shù)所有樣本均值的均值和方差式中:M為樣本均值的個(gè)數(shù)40現(xiàn)從總體中抽取n=2的簡單隨機(jī)樣本,在不重復(fù)抽樣條件下,共有12個(gè)樣本。所有樣本的結(jié)果如下表3,4-3,23,132,42,3-2,12-4,34,24,141,441,33211,2-1第二個(gè)觀察值第一個(gè)觀察值所有可能的n=2的樣本(共12個(gè))現(xiàn)從總體中抽取n=2的簡單隨機(jī)樣本,在不重復(fù)抽樣條件下,共有41計(jì)算出各樣本的均值,如下表。并給出樣本均值的抽樣分布3.5-2.52.033.02.5-1.52-3.53.02.542.542.03211.5-1第二個(gè)觀察值第一個(gè)觀察值12個(gè)樣本的均值(

)計(jì)算出各樣本的均值,如下表。并給出樣本均值的抽樣分布3.5-42練一練1.不重復(fù)抽樣樣本均值的均值與總體均值(),但其方差比總體方差和重復(fù)抽樣均值的方差()2.抽樣分布含義3.為了搞清楚統(tǒng)計(jì)量的性質(zhì),需要借助()的概念,以揭示統(tǒng)計(jì)量取值的變化情況練一練1.不重復(fù)抽樣樣本均值的均值與總體均值(),但其方差比43樣本均值的分布當(dāng)總體服從正態(tài)分布N~(μ,σ2)時(shí),來自該總體的所有容量為n的樣本的均值X也服從正態(tài)分布,X的數(shù)學(xué)期望為μ,方差為σ2/n。即X~N(μ,σ2/n)樣本均值的抽樣分布與總體范圍的大小有關(guān),與總體的分布性質(zhì)有關(guān),還與樣本的容量和樣本的抽取方式有關(guān)。對于正態(tài)總體,樣本均值服從于正態(tài)分布。非正態(tài)總體,依據(jù)中心極限定理,當(dāng)樣本容量很大時(shí),樣本均值的抽樣分布仍可以用正態(tài)擬合樣本均值抽樣分布的方差比總體方差小,說明樣本均值分布向總體均值靠攏,當(dāng)樣本容量比較大,用樣本均值估計(jì)總體均值也會(huì)比較可靠設(shè)N~(μ,σ2),其分布函數(shù)為F(x),則F(x)=P{X≤x}=Φ()樣本均值的分布44練一練某廠生產(chǎn)的燈泡壽命近似服從正態(tài)分布N(800,402),

抽取16個(gè)燈泡的樣本,求平均壽命小于775小時(shí)的概率。設(shè)燈泡壽命總體為X,因?yàn)閄~N(800,402),n=16,所以樣本均值

練一練某廠生產(chǎn)的燈泡壽命近似服從正態(tài)分布N(800,402)45數(shù)據(jù)、模型與決策秀秀老師數(shù)據(jù)、模型與決策秀秀老師461第一節(jié)圖表描述分析2第二節(jié)數(shù)量資料的特征數(shù)字3第三節(jié)屬性資料的特征數(shù)字Contents第三章統(tǒng)計(jì)資料描述分析1第一節(jié)圖表描述分析2第二節(jié)數(shù)量資料的特征數(shù)字47第一節(jié)圖表描述分析圖表描述分析統(tǒng)計(jì)表的種類與應(yīng)用頻數(shù)分布的編制統(tǒng)計(jì)資料的圖像描述單變量的頻數(shù)分布兩變量交叉分類的頻數(shù)分布直方圖、折線圖與曲線圖累積分布圖餅形圖與圓環(huán)圖帕累圖散點(diǎn)圖雷達(dá)圖莖葉圖第一節(jié)圖表描述分析圖表描述分析統(tǒng)計(jì)表的種類與應(yīng)用頻數(shù)分布48第二節(jié)數(shù)量資料的特征數(shù)字集中趨勢離散趨勢相關(guān)性測量軟件應(yīng)用第二節(jié)數(shù)量資料的特征數(shù)字集中趨勢離散趨勢相關(guān)性測量軟件應(yīng)49原始數(shù)據(jù): 10 5 9 13 6 8原始數(shù)據(jù): 10 5 9 13 6 850集中趨勢算術(shù)平均數(shù):含義:假定為樣本觀察值,用表示算術(shù)平均數(shù),則算術(shù)平均數(shù)的基本計(jì)算公式為特殊考慮:對于已經(jīng)過分組并形成頻數(shù)分布的資料,此時(shí)計(jì)算算術(shù)平均數(shù)就要采用加權(quán)的辦法。計(jì)算加權(quán)算術(shù)平均數(shù)時(shí),需要對各個(gè)組的變量值與相應(yīng)組的頻數(shù)的乘積求和,然后除以頻數(shù)之和集中趨勢51加權(quán)均值

甲乙兩組各有10名學(xué)生,他們的考試成績及其分布數(shù)據(jù)如下甲組:考試成績(X): 020100人數(shù)分布(F):118乙組:考試成績(X): 020100人數(shù)分布(F):811加權(quán)均值

甲乙兩組各有10名學(xué)生,他們的考試成績及其分布數(shù)據(jù)52加權(quán)均值

計(jì)算50名工人日加工零件數(shù)的均值加權(quán)均值

計(jì)算50名工人日加工零件數(shù)的均值53集中趨勢計(jì)算和運(yùn)用算術(shù)平均數(shù)是需要注意:算術(shù)平均同時(shí)受到兩個(gè)因素的影響,一個(gè)是各組的觀察值的大小,另一個(gè)是各組分布頻數(shù)的多少算術(shù)平均值易受極端值干擾集中趨勢計(jì)算和運(yùn)用算術(shù)平均數(shù)是需要注意:54集中趨勢中位數(shù)含義:把觀察值按從小到大的順序排列,位置居中的數(shù)叫做中位數(shù)求下列各組數(shù)據(jù)的中位數(shù)1)1,2,3,3,3,4,6,8,8,8,9,9

中位數(shù)是:52)1,2,3,3,3,4,8,8,8,9,9中位數(shù)是:4公式MEDIAN集中趨勢中位數(shù)MEDIAN55集中趨勢中位數(shù)是一種較為常用的反映集中趨勢的特征數(shù)字1.不受極端值的影響,具有很強(qiáng)的抗干擾性2.由組距頻數(shù)分布資料計(jì)算中位數(shù)時(shí),要求等距組數(shù),且要求觀察值在中位數(shù)所在的組中近似服從對稱分布,否則計(jì)算結(jié)果可能存在誤差3.對于觀察值大量重復(fù)的現(xiàn)象,中位數(shù)未必準(zhǔn)確集中趨勢中位數(shù)是一種較為常用的反映集中趨勢的特征數(shù)字56四分位數(shù)

(概念要點(diǎn))1. 集中趨勢的測度值之一2. 排序后處于25%和75%位置上的值3.不受極端值的影響4.主要用于定序數(shù)據(jù),也可用于數(shù)值型數(shù)據(jù),但不能用于定類數(shù)據(jù)QLQMQU25%25%25%25%四分位數(shù)

(概念要點(diǎn))1. 集中趨勢的測度值之一3.不受57集中趨勢截尾均值含義:去掉觀察值中部分最大值和最小值,由保留下來的數(shù)據(jù)計(jì)算平均值稱為截尾均值。集中趨勢截尾均值58離散趨勢的測度離散趨勢的測度,在統(tǒng)計(jì)學(xué)中也稱為指標(biāo)變異指標(biāo),是用來描述數(shù)列中指標(biāo)值的離散趨勢與離散程度的。常用的標(biāo)志變異指標(biāo)有極差、平均差和標(biāo)準(zhǔn)差等。1.極差極差是指一個(gè)數(shù)列中兩個(gè)極端值即最大值與最小值之間的差異。根據(jù)極差的大小能說明標(biāo)志值變動(dòng)范圍的大小。其計(jì)算公式為:極差=最大標(biāo)志值-最小標(biāo)志值根據(jù)組距數(shù)列求極差的計(jì)算公式為:極差=最高組上限-最低組下限在實(shí)際工作中,極差可以用于檢查產(chǎn)品質(zhì)量的穩(wěn)定性和進(jìn)行質(zhì)量控制。在正常生產(chǎn)的條件下,產(chǎn)品質(zhì)量穩(wěn)定,極差在一定范圍內(nèi)波動(dòng),若極差超過給定的范圍,就說明有不正常情況產(chǎn)傷。但極差受到極端是的影響,測定結(jié)果往往不能反映數(shù)據(jù)的實(shí)際離散程度。離散趨勢的測度離散趨勢的測度,在統(tǒng)計(jì)學(xué)中也稱為指標(biāo)變異指標(biāo),59例子1,3,4,7,8,9,10求極差R=10-1=9例子1,3,4,7,8,9,1060極差

1.一組數(shù)據(jù)的最大值與最小值之差2.離散程度的最簡單測度值3.易受極端值影響4.未考慮數(shù)據(jù)的分布7891078910未分組數(shù)據(jù)

R

=max(Xi)-min(Xi).=組距分組數(shù)據(jù)

R

最高組上限-最低組下限5.計(jì)算公式為極差

1.一組數(shù)據(jù)的最大值與最小值之差78910789161極差是離散程度的最簡單測度值,它只利用了一組數(shù)據(jù)的兩個(gè)極端值,易受極端值的影響,且不能反映中間數(shù)據(jù)的分散狀況。比如:1,6,6,6,6,6,10這一組數(shù)據(jù),極差是?R=10-1=9和上一組極差值相同,都是9,如果以此斷言兩組數(shù)據(jù)離散程度相同,恐怕很不合適,直覺告訴我們后一組數(shù)據(jù)的差異比前一組數(shù)據(jù)大的多。

極差是離散程度的最簡單測度值,它只利用了一組數(shù)據(jù)的兩個(gè)極端值622.四分位差四分位差是根據(jù)四分位數(shù)計(jì)算的。首先把變量各單位標(biāo)志值從小到大排序,再將數(shù)列四等分,處于四分位點(diǎn)位次的標(biāo)志值就是四分位數(shù),記作,為第一四分位數(shù)(也稱為下四分位數(shù)),為第二四分位數(shù),就是中位數(shù),為第三四分位數(shù)。四分位差的計(jì)算公式為:

2.四分位差四分位差是根據(jù)四分位數(shù)計(jì)算的。首先把變量各單位63四分位差是對極差的一種改進(jìn)。與極差相比,四分位差因不受極值的影響,在反映數(shù)據(jù)的離散程度方面比極差準(zhǔn)確,具有較高的穩(wěn)定性;同時(shí),對于存在開口的組距數(shù)列,不能計(jì)算極差,但可以計(jì)算四分位差。四分位差與極差相比較:四分位差和極差一樣,不能充分利用數(shù)據(jù)的全部信息,也無法反映標(biāo)志值的一般變動(dòng)。四分位差是對極差的一種改進(jìn)。與極差相比,四分位差因不受極值的644.方差和標(biāo)準(zhǔn)差未分組資料時(shí),方差的公式為:

標(biāo)準(zhǔn)差的公式為:分組資料時(shí),方差的公式為:

標(biāo)準(zhǔn)差的公式為:式中:——算術(shù)平均數(shù)——總體單位數(shù)——各組頻率——方差——標(biāo)準(zhǔn)差——變量值4.方差和標(biāo)準(zhǔn)差未分組資料時(shí),方差的公式為:標(biāo)準(zhǔn)差的公式655.離散系數(shù)上述的各種標(biāo)志變異度指標(biāo),都是對總體中各單位指標(biāo)值變異測定的絕對量指標(biāo)。而離散系數(shù)是測定總體中各單位標(biāo)志值變異的相對量指標(biāo),以消除不同總體之間在計(jì)量單位、平均水平方面的不可比因素。常用的離散系數(shù)主要有平均差離散系數(shù)和標(biāo)準(zhǔn)差離散系數(shù)其公式分別為:

5.離散系數(shù)上述的各種標(biāo)志變異度指標(biāo),都是對總體中各單位指66離散系數(shù)上面介紹的各離散程度的測度值,反映的是數(shù)據(jù)分散程度的絕對值,其數(shù)值的大小取決于原變量值絕對水平的高低。舉個(gè)例子:兩組數(shù)據(jù):第一組:5,10,20,25,30第二組:100000,100005,99995,100020,100040離散系數(shù)上面介紹的各離散程度的測度值,反映的是數(shù)據(jù)分散程度的67第一組數(shù)據(jù)極差=25第二組數(shù)據(jù)極差=45第一組數(shù)據(jù)平均差=8.4第二組數(shù)據(jù)平均差=14.4第一組數(shù)據(jù)方差=107.5標(biāo)準(zhǔn)差=10.36822第二組數(shù)據(jù)方差=332.5標(biāo)準(zhǔn)差=18.23458第一組的離散系數(shù)=10.36822/8.4=1.23第二組的離散系數(shù)=18.23458/14.4=1.26第一組數(shù)據(jù)極差=2568對平均水平不同或計(jì)量單位不同的不同組別的變量值,不能直接的用上述離散程度的測度值進(jìn)行直接的比較各組的離散程度。為了消除變量值水平的高低和計(jì)量單位不同對離散測度值的影響,我們計(jì)算離散系數(shù)值。離散系數(shù)一般是用標(biāo)準(zhǔn)差計(jì)算的,也稱為標(biāo)準(zhǔn)差系數(shù),它是一組數(shù)據(jù)的標(biāo)準(zhǔn)差與其相應(yīng)的均值之比,是測度數(shù)據(jù)離散程度的相對指標(biāo),其計(jì)算公式為:對平均水平不同或計(jì)量單位不同的不同組別的變量值,不能直接的用69離散系數(shù)

(概念要點(diǎn)和計(jì)算公式)1. 標(biāo)準(zhǔn)差與其相應(yīng)的均值之比2. 消除了數(shù)據(jù)水平高低和計(jì)量單位的影響3. 測度了數(shù)據(jù)的相對離散程度4. 用于對不同組別數(shù)據(jù)離散程度的比較5.計(jì)算公式為離散系數(shù)

(概念要點(diǎn)和計(jì)算公式)1. 標(biāo)準(zhǔn)差與其相應(yīng)的均值之70正方形邊長x面積S確定關(guān)系1.正方形面積S與邊長x之間的關(guān)系:2.人的身高不能確定體重,但平均說來“身高者,體也重”.那么身高和體重具有什么關(guān)系?3.類似的情況生活中是否還有?(1)商品銷售收入與廣告支出經(jīng)費(fèi);(2)糧食產(chǎn)量與施肥量.相關(guān)關(guān)系相關(guān)性分析正方形邊長x面積S確定關(guān)系1.正方形面積S與邊長x71相關(guān)性測量相關(guān)系數(shù)反映變量間線性相關(guān)關(guān)系的重要指標(biāo)。計(jì)算公式:(1)變形后的公式相關(guān)性測量相關(guān)系數(shù)反映變量間線性相關(guān)關(guān)系的重要指標(biāo)。(1)變72屬性資料的特征數(shù)字屬性資料的集中趨勢的測度主要是:眾數(shù)、中位數(shù)、四分位數(shù)屬性資料的離散趨勢的計(jì)算方法,常用的有離散比率、GINI-SIMPSON指數(shù)和熵等屬性資料的特征數(shù)字屬性資料的集中趨勢的測度主要是:眾數(shù)、中位73第四章參數(shù)樣本推斷參數(shù)樣本推斷統(tǒng)計(jì)量與抽樣分布參數(shù)估計(jì)的應(yīng)用假設(shè)檢驗(yàn)應(yīng)用第四章參數(shù)樣本推斷參數(shù)樣本推斷統(tǒng)計(jì)量與抽樣分布參數(shù)估計(jì)的74總體選擇個(gè)體樣本觀測樣本樣本觀察值(數(shù)據(jù))數(shù)據(jù)處理樣本有關(guān)結(jié)論推斷總體性質(zhì)

統(tǒng)計(jì)量統(tǒng)計(jì)的一般步驟這種不含任何未知參數(shù)的樣本的函數(shù)稱為統(tǒng)計(jì)量.它是完全由樣本決定的量.第四章參數(shù)樣本推斷總體選擇個(gè)體樣本觀測樣本樣本觀察值(數(shù)據(jù))數(shù)據(jù)處理樣本有關(guān)結(jié)75第一節(jié)統(tǒng)計(jì)量與抽樣分布統(tǒng)計(jì)量

X1,X2,…,Xn為來自總體X的樣本,稱不含未知參數(shù)的樣本的函數(shù)f(X1,X2,…,Xn)為統(tǒng)計(jì)量.若x1,x2,...,xn為樣本觀測值,則稱f(x1,x2,...,xn)為統(tǒng)計(jì)量f(X1,X2,…,Xn)的觀測值.

統(tǒng)計(jì)量是處理、分析數(shù)據(jù)的主要工具.對統(tǒng)計(jì)量的一個(gè)最基本的要求就是可以將樣本觀測值代入進(jìn)行計(jì)算,因而不能含有任何未知的參數(shù).

設(shè)X1,X2,…,Xn是來自總體X的樣本,X~N(,

2),其中、2為未知參數(shù),則X1,,min{X1,X2,…,Xn},為統(tǒng)計(jì)量。但諸如

等均不是統(tǒng)計(jì)量,因它含有未知參數(shù)或.

第一節(jié)統(tǒng)計(jì)量與抽樣分布統(tǒng)計(jì)量76第一節(jié)統(tǒng)計(jì)量與抽樣分布三大抽樣分布1.2分布

設(shè)X1,X2,…,Xn為相互獨(dú)立的隨機(jī)變量,它們都服從標(biāo)準(zhǔn)正態(tài)N(0,1)分布,則稱隨機(jī)變量稱2服從自由度為n的2分布,記作2~2(n).

2分布具有下面性質(zhì):1)可加性。設(shè)

是兩個(gè)相互獨(dú)立的隨機(jī)變量,且

第一節(jié)統(tǒng)計(jì)量與抽樣分布三大抽樣分布77第一節(jié)統(tǒng)計(jì)量與抽樣分布2)2分布曲線隨自由度n的增大而逐漸趨向于正態(tài)分布曲線3)設(shè)X1,X2,…,Xn為相互獨(dú)立的隨機(jī)變量,它們都服從標(biāo)準(zhǔn)正態(tài)N(0,1)分布,令 Q1+Q2+Q3+...+QK=,Qi(i=1,2,...,K)是秩為ni的非負(fù)定二次型,則Q1,Q2....,QK相互獨(dú)立,且分別服從自由度為ni的2分布的充要條件是n1+n2+...+nk=n第一節(jié)統(tǒng)計(jì)量與抽樣分布2)2分布曲線隨自由度n的增大而78練一練1.2分布的形狀隨自由度n的增大而逐漸趨向于()練一練1.2分布的形狀隨自由度n的增大而逐漸趨向于()79第一節(jié)統(tǒng)計(jì)量與抽樣分布2.t分布設(shè)X~N(0,1),Y~2(n),X與Y獨(dú)立,則稱隨機(jī)變量,服從自由度為的t分布,又稱為學(xué)生氏分布,記為T

~t(n).3.F分布

設(shè)X~2(n),Y~2(m),且X與Y獨(dú)立,稱隨機(jī)變量

服從自由度為(n,m)的F分布,記為F~F(n,m).第一節(jié)統(tǒng)計(jì)量與抽樣分布2.t分布80第一節(jié)統(tǒng)計(jì)量與抽樣分布1.從一個(gè)總體中隨機(jī)抽出容量相同的各種樣本,從這些樣本計(jì)算出的某統(tǒng)計(jì)量所有可能值的概率分布,稱為這個(gè)統(tǒng)計(jì)量的抽樣分布。抽樣分布就是從總體中抽出相同容量的全部樣本,并計(jì)算出統(tǒng)計(jì)量的值,然后按統(tǒng)計(jì)量的值編制出來的頻數(shù)分布

2.設(shè)X1,X2,…,Xn是取自總體X的樣本,樣本均值,所有可能樣本的均值構(gòu)成的概率分布即為樣本均值的抽樣分布。第一節(jié)統(tǒng)計(jì)量與抽樣分布1.從一個(gè)總體中隨機(jī)抽出容量相同的81【例】設(shè)一個(gè)總體,含有4個(gè)元素(個(gè)體),即總體單位數(shù)N=4。4個(gè)個(gè)體分別為X1=1、X2=2、X3=3、X4=4。總體的均值、方差及分布如下總體分布14230.1.2.3【例】設(shè)一個(gè)總體,含有4個(gè)元素(個(gè)體),即總體單位數(shù)N=4。82現(xiàn)從總體中抽取n=2

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論