數(shù)據(jù)的基本分析 數(shù)據(jù)特征值的計(jì)算_第1頁
數(shù)據(jù)的基本分析 數(shù)據(jù)特征值的計(jì)算_第2頁
數(shù)據(jù)的基本分析 數(shù)據(jù)特征值的計(jì)算_第3頁
數(shù)據(jù)的基本分析 數(shù)據(jù)特征值的計(jì)算_第4頁
數(shù)據(jù)的基本分析 數(shù)據(jù)特征值的計(jì)算_第5頁
已閱讀5頁,還剩21頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)的基本分析數(shù)據(jù)特征值的計(jì)算第1頁,課件共26頁,創(chuàng)作于2023年2月本章提要算術(shù)平均數(shù)和幾何平均數(shù)的計(jì)算算術(shù)平均數(shù)的性質(zhì)極差、方差和標(biāo)準(zhǔn)差的計(jì)算方差與標(biāo)準(zhǔn)差之間的關(guān)系標(biāo)準(zhǔn)差的性質(zhì)第2頁,課件共26頁,創(chuàng)作于2023年2月第一節(jié)平均值——數(shù)據(jù)集中性第3頁,課件共26頁,創(chuàng)作于2023年2月平均值的計(jì)算平均值(mean、average)——觀測值的平均水平和集中趨勢的表示常用的平均值有:

算術(shù)平均數(shù)

幾何平均數(shù)

調(diào)和平均數(shù)

眾數(shù)

中位數(shù)

百分位數(shù)在本專業(yè)的統(tǒng)計(jì)和日常工作中,以算術(shù)平均值和幾何平均值最為常見,使用最頻繁調(diào)和平均數(shù)一般用在速度類問題方面眾數(shù)、中位數(shù)由于計(jì)算工具的改進(jìn)已用得不多第4頁,課件共26頁,創(chuàng)作于2023年2月算術(shù)平均數(shù)(arithmeticmean)是最常用的平均值,簡稱為平均值,或均值算術(shù)平均數(shù)有兩種計(jì)算方法:

1、直接法

2、加權(quán)法在次數(shù)分布表或資料分類的基礎(chǔ)上進(jìn)行計(jì)算,用加權(quán)法計(jì)算得的算術(shù)平均值稱加權(quán)平均值(weightedmean)或:第5頁,課件共26頁,創(chuàng)作于2023年2月加權(quán)法第二式中的是頻數(shù):而加權(quán)平均值用表示,在很多情況下,與算術(shù)平均值不一定相等,特別是當(dāng)我們用組距式分組法中每一組的組中值作為每一組的組平均值時更是如此直接法所得到的平均值有兩個基本性質(zhì):1、離均差之和為零,用公式表示,即2、離均差平方和為最小,即其中,為不等于的任意一個數(shù):

第6頁,課件共26頁,創(chuàng)作于2023年2月用直接法所得到的算術(shù)平均值的這兩個基本性質(zhì)很重要,同學(xué)們可以自己加以證明需要指出的是,加權(quán)平均值不具有這兩個基本性質(zhì)(因此,一般不計(jì)算加權(quán)平均值)對于總體來說,我們通常用表示其平均數(shù)當(dāng)總體為有限,且總體容量為時,總體平均值的計(jì)算公式為:但一般情況下,總體平均值總是未知的,需要用樣本平均值來進(jìn)行估計(jì),因此,樣本的代表性就顯得尤為重要第7頁,課件共26頁,創(chuàng)作于2023年2月幾何平均值(geometricmean)主要用于非線性數(shù)據(jù)的統(tǒng)計(jì)分析,如增長率、疫病的潛伏期、藥物效價、抗體滴度等的平均值幾何平均值用表示:在實(shí)際計(jì)算時可將其轉(zhuǎn)換為對數(shù)形式進(jìn)行計(jì)算:分組資料幾何平均值的計(jì)算公式為:第8頁,課件共26頁,創(chuàng)作于2023年2月算術(shù)平均數(shù)一般用在加性(additive)資料、或稱線性(linear)資料中所謂加性資料或線性資料是指這些資料是可加的,或每一個數(shù)據(jù)可分解成若干個可加的部分,如人體和動物體的身高、體重等外形性狀,人類和家畜的生理、生化數(shù)值等,這些資料一般服從或近似服從正態(tài)分布幾何平均數(shù)一般用在非加性(non-additive)或非線性(non-linear)資料中,如平均增長率、藥物或疫苗的平均效價、抗體滴度等第9頁,課件共26頁,創(chuàng)作于2023年2月調(diào)和平均值(harmonicmean)一般用在平均速度、“有效群體”等方面,其公式為:第10頁,課件共26頁,創(chuàng)作于2023年2月第二節(jié)變異數(shù)——數(shù)據(jù)離散性第11頁,課件共26頁,創(chuàng)作于2023年2月變異數(shù)的計(jì)算變異數(shù)(variable)——觀測值離散程度的表示,用來表示平均值代表性的強(qiáng)弱變異數(shù)大,說明數(shù)據(jù)離散程度大,平均值的代表性差;反之,變異數(shù)小,說明數(shù)據(jù)離散程度小,平均值的代表性好因此,僅用一個平均值作為資料特征值進(jìn)行統(tǒng)計(jì)描述是不夠的,還需要有表示數(shù)據(jù)離散程度描述的統(tǒng)計(jì)量常用來表示數(shù)據(jù)離散性的變異數(shù)有以下幾個:

極差

方差

標(biāo)準(zhǔn)差第12頁,課件共26頁,創(chuàng)作于2023年2月極差(rangeR

)將資料中的最大值數(shù)據(jù)減去最小值數(shù)據(jù),即為極差顯然,一批數(shù)據(jù)不管其樣本量有多大,計(jì)算極差總是只用兩個值,一個最大值,一個最小值,其余數(shù)據(jù)都沒有用上,因此這是不合理的,也沒有統(tǒng)計(jì)學(xué)意義,樣本與樣本的離散程度也無法進(jìn)行比較,如以下兩個樣本:23,25,26,31,45,47,48

其極差為2523,32,32,34,36,36,48

其極差為25第13頁,課件共26頁,創(chuàng)作于2023年2月顯然第一個樣本的離散程度比第二個樣本要來得大,但僅從極差上是看不出來的,因?yàn)閮蓚€樣本的極差都等于25第14頁,課件共26頁,創(chuàng)作于2023年2月方差(varianceV

s2

)合理的方法應(yīng)當(dāng)使某一個數(shù)據(jù)都參與到計(jì)算離差的過程中去,將某一個數(shù)據(jù)均與平均值相比較,即某一個數(shù)據(jù)均與平均值相減顯然有多少個數(shù)據(jù),就有多少個差值,且這些差值之和必為0(算術(shù)平均數(shù)的第一個性質(zhì))將這些差值平方以后再相加,得到一個值這個值不會等于

0,且由于各個差值都平方了,其中離平均值較遠(yuǎn)的數(shù)值在表現(xiàn)離差時的作用更明顯了第15頁,課件共26頁,創(chuàng)作于2023年2月但由于每個樣本在很多情況下不會一樣大,因此應(yīng)將這一平方和(SS)平均一下,以利于比較如上例的兩批數(shù)據(jù):23,25,26,31,45,47,48

其平均值為35離均差平方和為SS=754,用自由度平均一下,得125.66723,32,34,34,37,37,48

其平均值為35離均差平方和為SS=332,用自由度平均一下,得55.333顯然第二個樣本較第一個樣本要集中一些第16頁,課件共26頁,創(chuàng)作于2023年2月125.667為第一個樣本的方差值(S2)

55.333為第二個樣本的方差值(S2)方差值是平方以后的值,因此使用中不太方便第17頁,課件共26頁,創(chuàng)作于2023年2月標(biāo)準(zhǔn)差(standarddeviation)將方差開一下平方根,得上例中,第一個樣本的標(biāo)準(zhǔn)差為

11.21

第二個樣本的標(biāo)準(zhǔn)差為7.44標(biāo)準(zhǔn)差由于已經(jīng)過了開平方,其單位與平均數(shù)是一致的,因此標(biāo)準(zhǔn)差是統(tǒng)計(jì)學(xué)中經(jīng)常使用的一個值得到平均值和標(biāo)準(zhǔn)差后,這批數(shù)據(jù)可以用下式來表示:總體:樣本:是參數(shù)是統(tǒng)計(jì)量第18頁,課件共26頁,創(chuàng)作于2023年2月標(biāo)準(zhǔn)差的計(jì)算公式總體標(biāo)準(zhǔn)差:樣本標(biāo)準(zhǔn)差:上面兩個式子中,每一個公式的后面部分是如何從前面部分變來的,請同學(xué)們作為作業(yè)自行推導(dǎo)比較兩個公式的不同,我們會發(fā)現(xiàn):總體標(biāo)準(zhǔn)差用總體含量N

來得到,而樣本標(biāo)準(zhǔn)差則用n-1

來得到第19頁,課件共26頁,創(chuàng)作于2023年2月n-1

在這里稱為自由度(degreeoffreedomdf)自由度的含義和說明對于樣本容量為n

的樣本來說,每一個觀測值都有一個離均差,即

n個離均差,由于受的限制,只有n-1個離均差是自由的,有一個離均差失去了自由在統(tǒng)計(jì)學(xué)中,若某個統(tǒng)計(jì)量的計(jì)算受到

k個條件的限制,則其自由度就為

n-k,在估計(jì)樣本方差時受到了平均數(shù)的限制,因此樣本方差的自由度就是

n-1;估計(jì)平均數(shù)時沒有限制條件,因此平均數(shù)的自由度就是

n第20頁,課件共26頁,創(chuàng)作于2023年2月樣本方差有一個十分重要的作用,就是用來估計(jì)總體方差由于,根據(jù)平均數(shù)的第二個性質(zhì)可知,必小于,因此如用必定偏小將分母改為

n-1,則可適當(dāng)增大值,使樣本方差的數(shù)學(xué)期望更接近于總體方差因此使用自由度的目的就是為了能用樣本方差更好地、無偏(unbias)地估計(jì)總體方差第21頁,課件共26頁,創(chuàng)作于2023年2月小樣本資料必須用n-1來計(jì)算方差,即標(biāo)準(zhǔn)差,大樣本時n與

n-1相差無幾,因此大樣本時也可用n代替n-1由于大小樣本的界限沒有嚴(yán)格的規(guī)定,因此在一般狀況下仍宜使用n-1在一般情況下,樣本方差通常也稱為均方(Meanofsquare),用或表示之加權(quán)平均數(shù)的標(biāo)準(zhǔn)差公式:第22頁,課件共26頁,創(chuàng)作于2023年2月有了平均數(shù)和標(biāo)準(zhǔn)差,我們就可以用一個比較簡單的方法來表示一個樣本或一批資料:標(biāo)準(zhǔn)差的特性變量越離散,標(biāo)準(zhǔn)差越大;反之,標(biāo)準(zhǔn)差越大,表示數(shù)據(jù)越離散,資料的變異程度越大各變量加減一個常數(shù),標(biāo)準(zhǔn)差不變各變量乘一個常數(shù)a,標(biāo)準(zhǔn)差將擴(kuò)大a

倍第23頁,課件共26頁,創(chuàng)作于2023年2月資料服從正態(tài)分布時,觀測值的分布為:68.27%的數(shù)據(jù)分布在的范圍內(nèi)95.45%的數(shù)據(jù)分布在的范圍內(nèi)99.73%的數(shù)據(jù)分布在的范圍內(nèi)另外還有兩個十分重要的分布范圍:內(nèi)包含了95%的變量內(nèi)包含了99%的變量第24頁,課件共26頁,創(chuàng)作于2023年2月變異系數(shù)(coefficientofvariationc.v.)不同單位的資料很難比較其變異程度,因此應(yīng)將標(biāo)準(zhǔn)差相對化

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論