ch03描述統(tǒng)計學(xué):數(shù)值方法課件_第1頁
ch03描述統(tǒng)計學(xué):數(shù)值方法課件_第2頁
ch03描述統(tǒng)計學(xué):數(shù)值方法課件_第3頁
ch03描述統(tǒng)計學(xué):數(shù)值方法課件_第4頁
ch03描述統(tǒng)計學(xué):數(shù)值方法課件_第5頁
已閱讀5頁,還剩70頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

第三章描述統(tǒng)計學(xué):數(shù)值方法數(shù)據(jù)分布的特征的測度集中趨勢(位置)離中趨勢

(分散程度)偏態(tài)和峰度(形狀)數(shù)據(jù)的特征和測度分布的形狀集中趨勢離散程度位置的度量(集中趨勢)測度集中趨勢就是尋找數(shù)據(jù)一般水平的代表值或中心值,主要有眾數(shù)、中位數(shù)、均值不同類型的數(shù)據(jù)用不同的集中趨勢測度值,選用哪一個測度值來反映數(shù)據(jù)的集中趨勢,要根據(jù)所掌握的數(shù)據(jù)的類型來確定低層次數(shù)據(jù)的集中趨勢測度值適用于高層次的測量數(shù)據(jù),反過來,高層次數(shù)據(jù)的集中趨勢測度值并不適用于低層次的測量數(shù)據(jù)位置的度量(反映集中趨勢)平均數(shù)中位數(shù)眾數(shù)百分位數(shù)四分位數(shù)如果數(shù)據(jù)來自樣本,則計算出來的度量成為樣本統(tǒng)計量(samplestatistics)如果數(shù)據(jù)來自總體,則計算出來的這些度量成為總體參數(shù)(

populationparameters)在統(tǒng)計推斷中,樣本統(tǒng)計量被成為相應(yīng)總體參數(shù)的點估計量(pointestimator)平均數(shù)(mean)

截尾平均法(trimmed

mean)

樣本觀測值的個數(shù)n

個觀測值的數(shù)值之和總體平均數(shù)m總體觀測值的

個數(shù)N個觀測值的

數(shù)值之和年份人均GDP2000954.552220011047.48220021141.76420031280.597200414980932006208229420083441.22120093800.47520104514.9412011557464420136991.85420147593.882中國人均GDP數(shù)據(jù)(以當(dāng)年美元價格計算)2014年人均GDP排名CountryName美元

Qatar97519Norway97363MacaoSAR,China96038Australia61887Denmark60634Sweden58887Singapore56287UnitedStates54629Ireland53314Iceland52111Netherlands51590Austria51127Canada50271Finland49541Germany47627Belgium47517UnitedKingdom45603數(shù)據(jù)來源WorldDevelopmentIndicator(WorldBank)問題:不同班級之間學(xué)生的生活開支水平的比較是否適合采用“均值”?為什么?中位數(shù)(median)數(shù)據(jù)按照順序進行排列,處于中間位置的數(shù)據(jù)叫做中位數(shù)將數(shù)據(jù)按照升序排列。(a)對于奇數(shù)個觀測值,中位數(shù)就是中間的數(shù)值;(b)對于偶數(shù)個觀測值,中位數(shù)就是中間兩個數(shù)值的平均數(shù)。Me50%50%中位數(shù)的使用中位數(shù)作為位置的度量,不受極端值的影響,經(jīng)常用在年收入及資產(chǎn)價值數(shù)據(jù)的報告中,因為少數(shù)異常大的收入和資產(chǎn)價值將會夸大平均數(shù)。在這種情況下,中位數(shù)就是對中心位置更好的度量。這一方法不適合名義數(shù)據(jù),適合于順序數(shù)據(jù)、間隔數(shù)據(jù)和比率數(shù)據(jù)。例子112141926271827

Foranoddnumberofobservations:

inascendingorder261827121427197observationsthemedianisthemiddlevalue.Median=19例子212141926271827

Foranevennumberofobservations:

inascendingorder261827121427308observationsthemedianistheaverageofthemiddletwovalues.Median=(19+26)/2=22.51930例子3:順序數(shù)據(jù)的中位數(shù)甲城市家庭對住房狀況評價的頻數(shù)分布回答類別甲城市戶數(shù)(戶)累計頻數(shù)

非常不滿意不滿意一般滿意非常滿意2410893453024132225270300合計300—中位數(shù)的位置為:

300/2=150從累計頻數(shù)看,中位數(shù)的在“一般”這一組別中。因此:

Me=一般眾數(shù)(mode)眾數(shù)就是數(shù)據(jù)集中出現(xiàn)次數(shù)最多的數(shù)值。有時出現(xiàn)次數(shù)最多的數(shù)值可能有兩個或者更多。如果數(shù)據(jù)中剛好存在有兩個眾數(shù),稱數(shù)據(jù)集是雙眾數(shù)的數(shù)據(jù)集;如果超過兩個眾數(shù),稱數(shù)據(jù)集為多眾數(shù)數(shù)據(jù)集。不會受到異常值的影響;可以用于分類型數(shù)據(jù)也可以用于數(shù)量型數(shù)據(jù)。注意:如果數(shù)據(jù)集中存在雙眾數(shù)或多眾數(shù)的情形,Excel中的mode函數(shù)只會識別出其中的一個。例子:公寓月租金450出現(xiàn)的次數(shù)最多(7次)所以,Mode=450注:數(shù)據(jù)按照升序排列。18這里的數(shù)據(jù)為定序數(shù)據(jù)。變量為“回答類別”。甲城市中對住房表示不滿意的戶數(shù)最多,為108戶,因此眾數(shù)為“不滿意”這一類別,即

Mo=不滿意甲城市家庭對住房狀況評價的頻數(shù)分布回答類別甲城市戶數(shù)(戶)百分比(%)

非常不滿意不滿意一般滿意非常滿意24108934530836311510合計300100.0例子2:住房狀況評價用EXCEL計算平均數(shù)、中位數(shù)和眾數(shù)百分位數(shù)(percentile)第p百分位數(shù)下列條件的一個數(shù)值:至少有p%的觀測值小于或者等于該值;至少有(100-p)%的觀測值大于或等于該值。用于順序數(shù)據(jù)、數(shù)值型數(shù)據(jù),不能用于類別數(shù)據(jù)。不受異常值影響計算第p百分位數(shù)第一步:把數(shù)據(jù)按照升序排列第二步:計算指數(shù)i

p是所求的百分位數(shù);n是觀察值的個數(shù)。第三步:(1)若i不是整數(shù),向上取整,大于i下一個整數(shù)表示就是第p百分?jǐn)?shù)所處的位置。(2)若i是整數(shù),則第p百分位數(shù)是第i項和第i+1項數(shù)據(jù)的平均數(shù)。i=(p/100)n例子:80百分位數(shù)i=(p/100)n=(80/100)70=56Averagingthe56thand57thdatavalues:80thPercentile=(535+549)/2=542Note:Dataisinascendingorder.用EXCEL計算百分位數(shù)ABCD1Apart-mentMonthlyRent($)80thPercentile21525=PERCENTILE.INC(B2:B71,.8)

32440

43450

5461565480

數(shù)據(jù)不需要事先進行排序處理80百分位數(shù)四分位數(shù)四分位數(shù)是一個特殊的百分位數(shù)。人們經(jīng)常把數(shù)據(jù)劃分成四個部分,每一部分大約包含25%的觀測值。Q1=第一四分位數(shù)或是第25百分位數(shù)Q2=第二四分位數(shù)或是第50百分位數(shù)Q3=第三四分位數(shù)或是第75百分位數(shù)用EXCEL計算四分位數(shù)ABCD1Apart-mentMonthlyRent($)ThirdQuartile21525=QUARTILE.INC(B2:B71,3)

32440

43450

5461565480第三四分位數(shù)用EXCEL計算月薪的排位和百分?jǐn)?shù)變異程度的度量(離散程度)極差四分位間距方差標(biāo)準(zhǔn)差標(biāo)準(zhǔn)差系數(shù)除了位置變量,人們往往還需要考慮變異程度及離散程度的度量。例如,可以用離散程度來衡量可靠程度、風(fēng)險等。極差(range)極差=最大值-最小值是一種最簡單的變異程度的度量。極易受到異常值的影響,因此少用。四分位數(shù)間距(Interquartilerange)四分位數(shù)間距,也成內(nèi)距,用來衡量數(shù)據(jù)的離散程度IQR=Q3-Q1四分位數(shù)間距是中間的50%數(shù)據(jù)的極差。不受到異常值的影響??梢杂脕矸从持形粩?shù)的代表性。方差(variance)

方差的計算樣本的方差總體的方差樣本方差是總體方差的點估計量標(biāo)準(zhǔn)差(standarddeviation)標(biāo)準(zhǔn)差,也叫均方差,是方差的正平方根。標(biāo)準(zhǔn)差的單位和原數(shù)據(jù)單位是一致的。樣本標(biāo)準(zhǔn)差是總體標(biāo)準(zhǔn)差的點估計量樣本標(biāo)準(zhǔn)差總體標(biāo)準(zhǔn)差標(biāo)準(zhǔn)差系數(shù)標(biāo)準(zhǔn)差相對平均數(shù)大小的描述統(tǒng)計量稱之為標(biāo)準(zhǔn)差系數(shù)(coefficientofvariation)標(biāo)準(zhǔn)差是對變異程度的相對度量,它衡量標(biāo)準(zhǔn)差相對于平均數(shù)的大小。樣本標(biāo)準(zhǔn)差總體標(biāo)準(zhǔn)差用EXCEL計算方差、標(biāo)準(zhǔn)差、標(biāo)準(zhǔn)差系數(shù)注:后面的數(shù)據(jù)沒有完全顯示出來ABCDE1Apart-mentMonthlyRent($)21525Mean=AVERAGE(B2:B71)32440Median=MEDIAN(B2:B71)43450Mode=MODE.SNGL(B2:B71)54615Variance=VAR.S(B2:B71)65480Std.Dev.=STDEV.S(B2:B71)76510C.V.=E6/E2*100用EXCEL的描述統(tǒng)計工具分布形態(tài)、相對位置的度量以及異常值的檢測分布形態(tài)Z分?jǐn)?shù)切比雪夫定理經(jīng)驗法則異常值的檢測分布形態(tài)偏度(skewness),是統(tǒng)計數(shù)據(jù)分布偏斜方向和程度的度量,是統(tǒng)計數(shù)據(jù)分布非對稱程度的數(shù)字特征。對稱分布(無偏)RelativeFrequency.05.10.15.20.25.30.350

Skewness=0偏度值為零均值和中位數(shù)是相等的RelativeFrequency.05.10.15.20.25.30.350左偏

Skewness=-.31偏度是負(fù)均值通常比中位數(shù)的值小右偏RelativeFrequency.05.10.15.20.25.30.350Skewness=.31偏度值為正均值通常要大于中位數(shù)themedian.z分?jǐn)?shù)z分?jǐn)?shù)(z-score),也叫標(biāo)準(zhǔn)分?jǐn)?shù)(standardscore),也叫作標(biāo)準(zhǔn)化值(standardizedvalue),它等于一個數(shù)與平均數(shù)的差再除以標(biāo)準(zhǔn)差的過程。表示一個數(shù)據(jù)在數(shù)據(jù)集中的相對位置。z分?jǐn)?shù)值為負(fù)數(shù)時,說明數(shù)據(jù)比均值小,反之則大,若等于零,數(shù)據(jù)與均值相等。切比雪夫定理與平均數(shù)的距離在z個標(biāo)準(zhǔn)差之內(nèi)的數(shù)據(jù)值所占比率至少為

(1-1/z2)

,其中z是大于1的任意實數(shù)。

至少有

個數(shù)據(jù)值與平均值的距離在75%z=2個標(biāo)準(zhǔn)差之內(nèi)

至少有個數(shù)據(jù)值與平均值的距離在89%z=3個標(biāo)準(zhǔn)差之內(nèi)

至少有

個數(shù)據(jù)值與平均值的距離在94%z=4個標(biāo)準(zhǔn)差之內(nèi)經(jīng)驗法則切比雪夫定理的優(yōu)點是它適合任何數(shù)據(jù)集,而不論其數(shù)據(jù)分布的形狀如何。如果分布是對稱的峰形或鐘形分布,可以運用經(jīng)驗法則。對于有鐘形分布數(shù)據(jù):大約68%的數(shù)據(jù)值與平均數(shù)的距離在一個標(biāo)準(zhǔn)差之內(nèi)大約95%的數(shù)據(jù)值與平均數(shù)的距離在兩個標(biāo)準(zhǔn)差之內(nèi)幾乎所有的數(shù)據(jù)值與平均數(shù)的距離在三個標(biāo)準(zhǔn)差之內(nèi)經(jīng)驗法則xm–3sm–1sm–2sm+1sm+2sm+3sm68.26%95.44%99.72%異常值的檢測異常值(outliers),數(shù)值異常大或是異常小的。通常把z分?jǐn)?shù)值小于-3,或大于3的數(shù)值視為異常值。在做數(shù)據(jù)分析之前,檢測異常值是很有必要的。出現(xiàn)異常值,可能:數(shù)據(jù)登記錯誤數(shù)據(jù)本身可能不屬于數(shù)據(jù)集數(shù)據(jù)沒有錯誤,屬于數(shù)據(jù)集探索性數(shù)據(jù)分析五數(shù)概括法箱形圖(boxplot)五數(shù)概括法(Five-numbersummary)五數(shù)概括法即用下面的五個數(shù)來概括數(shù)據(jù):最小值;第1四分位數(shù)(Q1);中位數(shù)(Q2);第3四分位數(shù)(Q3);最大值。箱形圖(boxplot)箱形圖是基于五數(shù)概括法的數(shù)據(jù)的一個圖形匯總。箱體的邊界表示第一個四分位數(shù)和第三個四分位數(shù)。箱體上中位數(shù)的位置畫一條垂線。利用四分位數(shù)間距IQR=Q3-Q1,來設(shè)定界限的位置。界限位于Q1左側(cè)的1.5個IQR處和Q3右側(cè)1.5個IQR處。界限外的數(shù)據(jù)被認(rèn)為異常值。用*表示。從箱體的邊界出發(fā)畫虛線,虛線的端點是原數(shù)據(jù)中處于界限內(nèi)的最大值和最小值。這里實際上給出了另外一種找異常值的做法。這種做法和z分?jǐn)?shù)法找出來的結(jié)果不一定一樣。BoxPlotWhiskers(dashedlines)aredrawnfromtheendsoftheboxtothesmallestandlargestdatavaluesinsidethelimits.400425450475500525550575600625Smallestvalueinsidelimits=425Largestvalueinsidelimits=615

Example:ApartmentRents例子8門課程考試成績的箱線圖兩個變量間關(guān)系的度量協(xié)方差相關(guān)系數(shù)協(xié)方差

協(xié)方差方差是用來度量單個變量“自身變異”大小的總體參數(shù),方差越大,該變量的變異越大;協(xié)方差是用來度量兩個變量之間“協(xié)同變異”大小的總體參數(shù),即二個變量相互影響大小的參數(shù),協(xié)方差的絕對值越大,兩個變量相互影響越大。

協(xié)方差的解釋ⅣⅢⅠⅡ協(xié)方差的解釋協(xié)方差是兩變量線性關(guān)系的度量;如果協(xié)方差的值是正的,說明兩個變量之間存在正的線性關(guān)系;如果協(xié)方差的值是負(fù)的,說明兩個變量之間存在負(fù)的線性關(guān)系;如果協(xié)方差的值為零,說明兩個變量之間不存在線性關(guān)系;協(xié)方差的值的大小與兩個變量的計量單位有關(guān)。相關(guān)系數(shù)皮爾遜積矩相關(guān)系數(shù)(皮爾遜相關(guān)系數(shù))定義如下:樣本的相關(guān)系數(shù)總體的相關(guān)系數(shù)樣本的相關(guān)系數(shù)可以作為總體的相關(guān)系數(shù)的點估計值。相關(guān)系數(shù)相關(guān)系數(shù)r的取值范圍是-1≤r≤1r的正負(fù)號表明兩變量間變化的方向;r>0表示正相關(guān),r<0表示負(fù)相關(guān),r=0表示零相關(guān)。|r|越接近于1,表明兩變量相關(guān)程度越高,它們之間的關(guān)系越密切。

|r|的取值與相關(guān)程度|r|的取值范圍|r|的意義0.00-0.19極低相關(guān)0.20-0.39低度相關(guān)0.40-0.69中度相關(guān)0.70-0.89高度相關(guān)0.90-1.00極高相關(guān)特別說明兩變量間存在相關(guān),僅意味著變量間有關(guān)聯(lián),并不一定是因果關(guān)系。(統(tǒng)計學(xué)實際上無法證明因果關(guān)系。)觀測值個數(shù)越多,相關(guān)系數(shù)受抽樣誤差的影響越小,結(jié)果就越可靠。

Agolferisinterestedininvestigatingtherelationship,ifany,betweendrivingdistanceand18-holescore.277.6259.5269.1267.0255.6272.9697170707169AverageDrivingDistance(yds.)Average18-HoleScoreExample:GolfingStudyExample:GolfingStudy277.6259.5269.1267.0255.6272.9697170707169xy10.65-7.452.150.05-11.355.95-1.01.0001.0-1.0-10.65-7.4500-11.35-5.95AverageStd.Dev.267.070.0-35.408.2192.8944TotalSampleCovarianceSampleCorrelationCoefficientExample:GolfingStudyUsingExceltoComputethe

CovarianceandCorrelationCoefficientExcelFormulaWorksheetExample:GolfingStudyABCD1AverageDrive18-HoleScore2277.669Samp.Covariance=COVARIANCE.S(A2:A7,B2:B7)3259.571Samp.Correlation=CORREL(A2:A7,B2:B7)4269.1705267.0706255.6717272.9698UsingExceltoComputethe

CovarianceandCorrelationCoefficientExcelV

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論