版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
4第四章數(shù)據(jù)的描述性分析通過本章的學(xué)習(xí),我們應(yīng)該知道:描述數(shù)據(jù)的集中趨勢的指標及計算描述數(shù)據(jù)的離散程度的指標及計算了解數(shù)據(jù)分布的偏態(tài)與峰度利用Excel進行數(shù)據(jù)的描述性統(tǒng)計分析Statistics本章內(nèi)容概述1本章內(nèi)容是關(guān)于:單變量截面數(shù)據(jù)的特征描述2為了對統(tǒng)計分組和簡單整理后的數(shù)據(jù)的進一步認識,借助于下面的四類指標進行深入討論:集中趨勢、離散程度、偏態(tài)與峰度3統(tǒng)計指標的作用
1集中趨勢的描述集中趨勢(centraltendency)反映的是一組數(shù)據(jù)向某一中心值靠攏的傾向。數(shù)據(jù)的集中趨勢通常用平均指標來反映。集中趨勢指標(平均指標)按計算方法不同分為:㈠算術(shù)平均數(shù)㈡調(diào)和平均數(shù)㈢幾何平均數(shù)㈣中位數(shù)㈤眾數(shù)數(shù)值平均數(shù)位置平均數(shù)可以反映現(xiàn)象總體的客觀規(guī)定性;可以對比同類現(xiàn)象在不同的時間、地點和條件下的一般水平;可以分析現(xiàn)象之間的依存關(guān)系。測定集中趨勢的意義:數(shù)值平均數(shù)是同質(zhì)總體內(nèi)各個個體某一數(shù)量標志的具體表現(xiàn)在一定時間、地點、條件下所達到的一般水平,是反映現(xiàn)象總體綜合數(shù)量特征的重要指標,又稱為平均指標1-1算術(shù)平均數(shù)(arithmeticmean)1概念:算術(shù)平均數(shù)是分析社會經(jīng)濟現(xiàn)象一般水平和典型特征的最基本指標,是統(tǒng)計中計算平均數(shù)最常用的方法。2基本公式:注意:
公式中分子和分母在經(jīng)濟內(nèi)容上的從屬關(guān)系:
公式中分子和分母在范圍上是一致的,否則不是平均數(shù)例勞動生產(chǎn)率=糧食產(chǎn)量/種糧農(nóng)民人數(shù);全國平均每人擁有的糧食產(chǎn)量=糧食產(chǎn)量/全國人口數(shù)。簡單算術(shù)平均數(shù)與加權(quán)算術(shù)平均數(shù)簡單算術(shù)平均數(shù)(simplearithmeticmean)特點:適于未分組數(shù)列;每個變量值出現(xiàn)的次數(shù)都是1。加權(quán)算術(shù)平均數(shù)(weightedarithmeticmean)特點:適于分組數(shù)列;平均數(shù)的值受權(quán)數(shù)的影響。計算公式:
其中:原始數(shù)據(jù)分為組,第組變量值為
對應(yīng)的次數(shù)為注意:對變量值的說明單項變量數(shù)列直接對變量值進行加權(quán)平均計算;組距變量數(shù)列先求出該組變量值的組中值,作為進行計算。83名女生的身高分布的集中趨勢、中心數(shù)值算術(shù)平均數(shù)組距數(shù)列加權(quán)算術(shù)平均數(shù)計算舉例某企業(yè)工人日產(chǎn)量的算術(shù)平均數(shù)計算表(單位:千克)按日產(chǎn)量分組工人數(shù)fi組中值xixifi60以下1060~701970~805080~903690~10027100~11014110以上8合計164555506512357537508530609525651051470115920—13550工人平均日產(chǎn)量=13550/164=82.62(千克)權(quán)數(shù)(weight)1概念我們把變量數(shù)列中的次數(shù)看作變量值的權(quán)數(shù)。原因在于:次數(shù)在平均數(shù)中的影響起著某種權(quán)衡輕重的作用影響平均數(shù)大小的兩個因素:變量值大小和權(quán)數(shù)。2形式權(quán)數(shù)有兩種形式:絕對數(shù)形式(頻數(shù))、相對數(shù)形式(頻率)同一總體資料,用權(quán)數(shù)的兩種形式計算的平均數(shù)完全相同。X456合計頻數(shù)頻率(%)10201025.050.025.040100.0X456合計頻數(shù)頻率(%)20402025.050.025.080100.0X456合計頻數(shù)頻率(%)20101050.025.025.040100.0成績(分)人數(shù)(人)甲班乙班丙班603915010013950平均成績(分)619980起到權(quán)衡輕重的作用權(quán)數(shù)對算術(shù)平均數(shù)的影響決定平均數(shù)的變動范圍算術(shù)平均數(shù)的數(shù)學(xué)性質(zhì)1算術(shù)平均數(shù)與總體單位數(shù)的乘積等于總體各單位標志值的總和。2各變量值與算術(shù)平均數(shù)的離差之和等于零。3各變量值與算術(shù)平均數(shù)的離差平方之和最小。優(yōu)點:1容易理解,便于計算2靈敏度高缺點:1容易受極端變量值的影響2在開口組中,代表性變差1-2調(diào)和平均數(shù)(harmonicmean)概念:由于在社會經(jīng)濟統(tǒng)計中缺乏資料,計算平均數(shù)時就需要采用間接的方式,于是產(chǎn)生了調(diào)和平均數(shù)。時間單價(元/斤)x所花錢數(shù)(元)m購買量(斤)m/x早市中市晚市0.50.40.2111合計
—
3
購買3次該蔬菜的平均價格是多少?已知分子資料未知分母資料調(diào)和平均數(shù)與算術(shù)平均數(shù)的關(guān)系調(diào)和平均數(shù)在實際應(yīng)用中一般是作為算術(shù)平均數(shù)的變形使用,區(qū)別在于兩者所掌握的原始資料不同。對于相同的總體,兩者計算得到的結(jié)果完全相同。9.5
3
—合計22.551110.50.40.2早市中市晚市購買量(斤)m/x所花錢數(shù)(元)m單價(元/斤)x時間已知資料→調(diào)和平均數(shù)已知資料→算術(shù)平均數(shù)調(diào)和平均數(shù)的特點優(yōu)點:1靈敏度高2在某些情況下,代替簡單平均數(shù)進行計算缺點:1不容易理解2容易受極值影響3有標志值為0時,不能計算已知分子資料未知分母資料未知分子資料已知分母資料1-3幾何平均數(shù)(geometricmean)1概念:若干項變量值連乘積開其項數(shù)次方的算術(shù)根。當(dāng)各項變量值的連乘積等于總比率或總速度時,適宜使用他計算平均比率或平均速度。2計算(見例4.6,4.7)簡單幾何平均數(shù):加權(quán)幾何平均數(shù):3優(yōu)點:
受極端變量值影響?。贿m宜計算平均比率和平均速度。缺點:有變量值為0或負值不能計算;應(yīng)用范圍較窄。1-4中位數(shù)與分位數(shù)1概念總體單位標志值按大小順序排列,處于中間位置的那個標志值就是中位數(shù)(median)Me。
意義:總體標志值中一半比中位數(shù)小,一半比它大。人口普查中應(yīng)用年齡中位數(shù);產(chǎn)品質(zhì)量控制中取中位數(shù)2計算:(見書中例題)先對數(shù)據(jù)進行排序;
①未分組數(shù)據(jù)確定中位數(shù):
②單項數(shù)列確定中位數(shù):先計算各組的累積次數(shù)(向上或向下累計);再根據(jù)中位數(shù)的位置找到中位數(shù)。中位數(shù)與分位數(shù)中位數(shù)的特點:優(yōu)點:容易理解;不受極端值影響;某些不具有數(shù)學(xué)特點或不能用數(shù)字測定的現(xiàn)象可以用中位數(shù)求其一般水平。缺點:靈敏度差,不宜計算分位數(shù)概念:四分位數(shù)(Quartiles):把一個變量數(shù)列分為四等分,形成三個分割點Q1、Q2、Q3,這三個分割點的數(shù)值就是四分位數(shù)。Q2=Me計算:略十分位數(shù)(dectile)百分位數(shù)(percentile)1-5眾數(shù)1概念:眾數(shù)(mode)是總體中出現(xiàn)次數(shù)最多的標志值。它能直觀的說明客觀現(xiàn)象分配中的集中趨勢。2應(yīng)用舉例:有時常用眾數(shù)代替算術(shù)平均數(shù)來說明社會經(jīng)濟現(xiàn)象的一般水平例:市場上某種商品一天的價格變動,成交量最多的那個價格大批服裝(鞋)規(guī)格不同,市場需求最多的那個規(guī)格3計算:未分組資料或單項數(shù)列:直接觀察法—出現(xiàn)次數(shù)最多的眾數(shù)的特點特點:只有總體單位數(shù)較多,標志值次數(shù)分配具有明顯的集中趨勢時,眾數(shù)才有存在的意義。優(yōu)點:容易理解;不受極值影響缺點:不唯一;不易計算,尤其對于不等距分組的數(shù)列1-6各種平均指標之間的關(guān)系1.三類數(shù)值平均數(shù)之間:算術(shù)平均數(shù)、幾何平均數(shù)、調(diào)和平均數(shù)2.數(shù)據(jù)的分布與眾數(shù)、中位數(shù)、算術(shù)平均數(shù)1-7對各平均指標需要說明的問題1.數(shù)據(jù)的非對稱狀態(tài)越強,之間的差別就越大2.正確應(yīng)用平均指標的原則平均指標只能用于同質(zhì)總體概念:離散程度指標又稱標志變異指標,離中趨勢指標等它反映變量分布離散趨勢;常與平均指標匹配使用(1)評價平均數(shù)的代表性;(2)是對事物發(fā)展均衡性的量度:供貨計劃完成的均衡性,協(xié)調(diào)性;產(chǎn)品質(zhì)量的穩(wěn)定性作用:2離散程度的描述種類離散程度的絕對指標離散程度的相對指標2-1極差、四分位差概念:極差(Range)也叫全距,是一組數(shù)據(jù)的最大值與最小值之離差,即:特點:極差是最簡單的測度值,計算簡單,易于理解。只說明兩個極端變量值的差異范圍,不能反映各單位變量值變異程度,易受極端值的影響。2.四分位差(quartiledeviation)是指第三四分位數(shù)與第一四分位數(shù)之差,也稱為內(nèi)距或四分間距,用Qr表示。Qr=Q3-Q1特點:反映了中間50%數(shù)據(jù)的離散程度,不受極端值影響,在某種程度上彌補了極差的一個缺陷
平均差平均差(meandeviation)也稱平均離差,是各變量值與其平均數(shù)離差絕對值的平均數(shù),通常用表示。平均差在可比的情況下,一般平均差的數(shù)值越大,則其平均數(shù)的代表性越小,說明該組變量值分布越分散;反之,平均差的數(shù)值越小,則其平均數(shù)的代表性越大,說明該組變量值分布越集中。缺點:平均差由于采用絕對值的離差形式加以數(shù)學(xué)假定,在應(yīng)用上有較大的局限性。2-2標準差與方差概念:標準差是各單位標志值與其算術(shù)平均數(shù)的離差平方的算術(shù)平均數(shù)的平方根,是實際中應(yīng)用最廣泛的離散程度測度值,量綱與標志值的計量單位相同計算:未分組資料:分組資料:標準差與平均差之間的關(guān)系:2-3離散程度的相對指標:離散系數(shù)
對于平均數(shù)不等或計量單位不同的不同組別的變量值,是不能直接用離散程度的絕對指標比較其離散程度的。為了消除變量平均數(shù)不等和計量單位不同對離散程度測試值的影響,需要計算離散程度的相對指標,即離散系數(shù)2-3離散程度的相對指標:離散系數(shù)例:從學(xué)校大一學(xué)生中抽取100人,測得他們的身高和體重的平均值分別為168cm,52kg;相應(yīng)的標準差為9cm,5kg。問身高和體重的差異哪一個大?離散系數(shù):把算術(shù)平均數(shù)與離散程度絕對指標聯(lián)系起來的一個相對測度。身高的離散系數(shù)=9/168*100%=5.36%體重的離散系數(shù)=5/52*100%=9.62%2-4數(shù)據(jù)的標準化z-分數(shù)在計算了算術(shù)平均數(shù)和標準差后,我們可以對一組數(shù)據(jù)中各個數(shù)值進行標準化處理,以測度每個數(shù)據(jù)在該組數(shù)據(jù)中的相對位置,并可以用它來判斷一組數(shù)據(jù)是否有異常值標準化數(shù)值是變量值與其平均數(shù)的離差除以標準差后的值,也稱為z分數(shù)或標準分數(shù)標準差數(shù)值z:經(jīng)驗法則:3-σ原則通常一組數(shù)據(jù)中高于或低于算術(shù)平均數(shù)三倍標準差的數(shù)值是很少的,即在算術(shù)平均數(shù)加減三個標準差的范圍內(nèi)幾乎包含了全部數(shù)據(jù)總方差等于組內(nèi)方差的平均數(shù)加上組間方差組內(nèi)方差反映組內(nèi)標志值對組平均數(shù)的方差組間方差反映組平均數(shù)對總平均數(shù)的方差2-5總方差、組內(nèi)方差和組間方差
為什么要研究偏態(tài)和峰度?要全面了解數(shù)據(jù)分布的特點,還需要掌握數(shù)據(jù)分布的形狀是否對稱、偏斜的程度以及扁平程度等。反映這些分布特征的測度值是偏態(tài)和峰度3分布的偏態(tài)與峰度3分布的偏態(tài)與峰度3-1原點距與中心距k階原點距:以標志值0點為原點或支點,以各組標志值的k次方為力臂,以為作用力的大小算術(shù)平均數(shù)可用一階原點矩表示k階中心距:把原點移到算術(shù)平均數(shù)處,以的各次方作為力臂的距離,以為作用力的大小方差可用二階中心矩表示3-2分布的偏態(tài)概念:偏態(tài)(Skewness)是對分布偏斜方向和程度的測度。變量分組后,總體中各個體在不同的分組變量值下分布并不均勻?qū)ΨQ,而呈現(xiàn)出偏斜的分布狀況,統(tǒng)計上將其稱為偏態(tài)分布。計算:計算公式為三階中心矩與標準差的三次方之比偏態(tài)系數(shù)的數(shù)值一般在0與±3之間,越接近0,分布的偏斜度越小;越接近±3,分布的偏斜度越大3-3分布的峰度概念:峰度(Kurtosis)是分布集中趨勢高峰的形狀。在變量數(shù)列的分布特征中
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五版?zhèn)€人信用卡債務(wù)代償協(xié)議書3篇
- 2024年版農(nóng)田堰塘建設(shè)協(xié)議模板版B版
- 二零二五年度鋼筋加工廠勞務(wù)分包合同范本6篇
- 武漢紡織大學(xué)外經(jīng)貿(mào)學(xué)院《分子模擬的原理和應(yīng)用》2023-2024學(xué)年第一學(xué)期期末試卷
- 二零二五版公墓環(huán)境維護與生態(tài)保護合作協(xié)議3篇
- 2024版影視制作與版權(quán)轉(zhuǎn)讓合同
- 2024英倫游學(xué)夏令營青少年領(lǐng)袖培養(yǎng)與團隊建設(shè)服務(wù)合同3篇
- 二零二五年度城市更新項目舊房收購合同細則3篇
- 太原幼兒師范高等??茖W(xué)校《公共藝術(shù)項目實踐》2023-2024學(xué)年第一學(xué)期期末試卷
- 蘇州工藝美術(shù)職業(yè)技術(shù)學(xué)院《物聯(lián)網(wǎng)與云計算》2023-2024學(xué)年第一學(xué)期期末試卷
- 《項目施工組織設(shè)計開題報告(含提綱)3000字》
- ICU常見藥物課件
- CNAS實驗室評審不符合項整改報告
- 農(nóng)民工考勤表(模板)
- 承臺混凝土施工技術(shù)交底
- 臥床患者更換床單-軸線翻身
- 計量基礎(chǔ)知識培訓(xùn)教材201309
- 中考英語 短文填詞、選詞填空練習(xí)
- 阿特拉斯基本擰緊技術(shù)ppt課件
- 初一至初三數(shù)學(xué)全部知識點
- 新課程理念下的班主任工作藝術(shù)
評論
0/150
提交評論