版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
平均值、方差、標準差平均值、方差、標準差平均值、方差、標準差資料僅供參考文件編號:2022年4月平均值、方差、標準差版本號:A修改號:1頁次:1.0審核:批準:發(fā)布日期:平均值(Mean)、方差(Variance)、標準差(StandardDeviation)對于一維數(shù)據(jù)的分析,最常見的就是計算平均值(Mean)、方差(Variance)和標準差(StandardDeviation)。平均值平均值的概念很簡單:所有數(shù)據(jù)之和除以數(shù)據(jù)點的個數(shù),以此表示數(shù)據(jù)集的平均大?。黄鋽?shù)學定義為:
以下面10個點的CPU使用率數(shù)據(jù)為例,其平均值為。14311619261414141113方差、標準差方差這一概念的目的是為了表示數(shù)據(jù)集中數(shù)據(jù)點的離散程度;其數(shù)學定義為:
標準差與方差一樣,表示的也是數(shù)據(jù)點的離散程度;其在數(shù)學上定義為方差的平方根:為什么使用標準差與方差相比,使用標準差來表示數(shù)據(jù)點的離散程度有3個好處:表示離散程度的數(shù)字與樣本數(shù)據(jù)點的數(shù)量級一致,更適合對數(shù)據(jù)樣本形成感性認知。依然以上述10個點的CPU使用率數(shù)據(jù)為例,其方差約為41,而標準差則為;兩者相比較,標準差更適合人理解。表示離散程度的數(shù)字單位與樣本數(shù)據(jù)的單位一致,更方便做后續(xù)的分析運算。在樣本數(shù)據(jù)大致符合正態(tài)分布的情況下,標準差具有方便估算的特性:%的數(shù)據(jù)點落在平均值前后1個標準差的范圍內(nèi)、95%的數(shù)據(jù)點落在平均值前后2個標準差的范圍內(nèi),而99%的數(shù)據(jù)點將會落在平均值前后3個標準差的范圍內(nèi)。貝賽爾修正在上面的方差公式和標準差公式中,存在一個值為N的分母,其作用為將計算得到的累積偏差進行平均,從而消除數(shù)據(jù)集大小對計算數(shù)據(jù)離散程度所產(chǎn)生的影響。不過,使用N所計算得到的方差及標準差只能用來表示該數(shù)據(jù)集本身(population)的離散程度;如果數(shù)據(jù)集是某個更大的研究對象的樣本(sample),那么在計算該研究對象的離散程度時,就需要對上述方差公式和標準差公式進行貝塞爾修正,將N替換為N-1:經(jīng)過貝塞爾修正后的方差公式:
經(jīng)過貝塞爾修正后的標準差公式:公式的選擇
是否使用貝塞爾修正,是由數(shù)據(jù)集的性質(zhì)來決定的:如果只想計算數(shù)據(jù)集本身的離散程度(population),那么就使用未經(jīng)修正的公式;如果數(shù)據(jù)集是一個樣本(sample),而想要計算的則是樣本所表達對象的離散程度,那么就使用貝塞爾修正后的公式。在特殊情況下,如果該數(shù)據(jù)集相較總體而言是一個極大的樣本(比如一分鐘內(nèi)采集了十萬次的IO數(shù)據(jù))——在這種情況下,該樣本數(shù)據(jù)集不可能錯過任何的異常值(outlier),此時可以使用未經(jīng)修正的公式來計算總體數(shù)據(jù)的離散程度。R中平均值、方差與標準差的計算在R中,平均值是通過mean()函數(shù)來計算的:x<-c(14,31,16,19,26,14,14,14,11,13)mean(x)方差則通過var()函數(shù)來計算:x<-c(14,31,16,19,26,14,14,14,11,13)var(x)標準差則通過sd()函數(shù)來計算:x<-c(14,31,16,19,26,14,14,14,11,13)sd(x)值得一提的是,R中所計算的方差和標準差是經(jīng)過貝塞爾修正的;如果需要計算未經(jīng)修正的結(jié)果,可以在R的計算結(jié)果上乘以(N-1)/N。平均值與標準差的適用范圍及誤用大多數(shù)統(tǒng)計學指標都有其適用范圍,平均值、方差和標準差也不例外,其適用的數(shù)據(jù)集必須滿足以下條件:中部單峰:數(shù)據(jù)集只存在一個峰值。很簡單,以假想的CPU使用率數(shù)據(jù)為例,如果50%的數(shù)據(jù)點位于20附近,另外50%的數(shù)據(jù)點位于80附近(兩個峰),那么計算得到的平均值約為50,而標準差約為31;這兩個計算結(jié)果完全無法描述數(shù)據(jù)點的特征,反而具有誤導性。這個峰值必須大致位于數(shù)據(jù)集中部。還是以假想的CPU數(shù)據(jù)為例,如果80%的數(shù)據(jù)點位于20附近,剩下的20%數(shù)據(jù)隨機分布于30~90之間,那么計算得到的平均值約為35,而標準差約為25;與之前一樣,這兩個計算結(jié)果不僅無法描述數(shù)據(jù)特征,反而會造成誤導。遺憾的是,在現(xiàn)實生活中,很多數(shù)據(jù)分布并不滿足上述兩個條件;因此,在使用平均值、方差和標準差的時候,必須謹慎小心。結(jié)語如果數(shù)據(jù)集僅僅滿足一個條件:單峰。那么,峰
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 撥叉頭加工課程設計
- 環(huán)保行業(yè)工程師工作總結(jié)
- IT行業(yè)客戶服務心得
- 門診部醫(yī)生的工作總結(jié)
- 2024年蘇教版九年級語文上冊教學工作總結(jié)(共16篇)
- 2024年稅務師題庫(原創(chuàng)題)
- 《期貨市場投資分析》課件
- 2024年規(guī)章制度會議記錄(16篇)
- 【人教版九上歷史】知識清單
- 2025關于房地產(chǎn)銷售代理合同模板
- 功率因數(shù)調(diào)整電費辦法
- 美發(fā)基礎(課堂PPT)
- WordA4信紙(A4橫條直接打印版)
- 藥品庫存清單(2015年)
- (完整版)會計準則(全文)
- 百家姓全文拼音版A4打印
- 專家論證挖孔樁專項施工方案
- IPC標準解析學習課程
- 麻花鉆鉆孔中常見問題的原因和解決辦法
- 部分常用巖土經(jīng)驗值
- 外墻真石漆購銷合同
評論
0/150
提交評論