




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
四單變量的描述統(tǒng)計(jì)離散趨勢分析與集中趨勢分析知識點(diǎn):
兩個維度——七個統(tǒng)計(jì)量數(shù)學(xué)習(xí)要求1、集中趨勢各測量法得計(jì)算方法;2、集中趨勢各測量法得特點(diǎn)與應(yīng)用;3、離散程度各測量法得計(jì)算方法;4、離散程度各測量法得特點(diǎn)與應(yīng)用;
單變量描述統(tǒng)計(jì)在統(tǒng)計(jì)分析中,就是否可以找出一個有代表性得數(shù)值來說明變量得分布,反映資料得集中或差異情況?集中趨勢測量,就就是以一個數(shù)值來代表變量得資料分布,反映得就是變量值向中心值聚集得程度,也就就是說以這一個數(shù)值(或稱典型值)來估計(jì)或預(yù)測每一個研究對象得數(shù)值時發(fā)生得錯誤總數(shù)在理論上就是最小得。離散趨勢測量(Measuresofdispersion)就就是用一個值表示數(shù)據(jù)之間得差異情況。離散趨勢測量法與集中趨勢測量法具有互補(bǔ)作用。在進(jìn)行統(tǒng)計(jì)分析時,既要測量變量得集中趨勢,也要測量離散趨勢。
集中趨勢測量/分析集中趨勢測量:用某一個典型得變量值或特征值來代表全體變量得問題,這個典型得變量值或特征值就稱作集中值或集中趨勢?!锉娭?Mode)——定類層次★中位值(Median)——定序?qū)哟巍锞?Mean)——定距層次一、眾數(shù)(mode)1、出現(xiàn)頻次最多得變量值;2、眾數(shù)得不唯一性;3、主要應(yīng)用于定類變量,當(dāng)然也可以應(yīng)用于定序與定距變量
眾數(shù)得特點(diǎn):不唯一性原始數(shù)據(jù):4、5、7、8、19(無眾值)原始數(shù)據(jù):4、5、7、5、5、16(一個眾值)原始數(shù)據(jù):4、4、5、7、7、9(兩個眾值)例1:非連續(xù)取值例2分組數(shù)據(jù)收入(元)fCf↑Cf↓500-6991010550700-8996575540900-10991262114751100-12991583693391300-14991415101811500-16994055040總數(shù)55010大家應(yīng)該也有點(diǎn)累了,稍作休息大家有疑問得,可以詢問與交流從分布來瞧,眾數(shù)就是具有明顯集中趨勢點(diǎn)得數(shù)值,一組數(shù)據(jù)分布得最高峰點(diǎn)所對應(yīng)得數(shù)值及為眾數(shù)。二、中位值(Median)1、把一組數(shù)據(jù)按順序排列,處于中間位置得那個數(shù)值就就是中位值。2、主要應(yīng)用于定序變量,也可用于定距變量,但不可用于定類變量。50%50%Md(1)未分組數(shù)據(jù)求中位數(shù):Md位置=
(2)中位數(shù)=中間位置得值注意:先找位置,再找中位數(shù)將各個個案由低至高排列起來,居序列中央位置得個案值就就是中位值。(1)、個案數(shù)為奇數(shù)【例1】:甲地得5戶人家得人數(shù)為:2,4,3,6,8,求中位值。
解:Md得位置===3排序2,3,4,6,8中位值Md=4(2)個案數(shù)為偶數(shù)【例2】:乙地得6戶人家得人數(shù)為:2,4,3,6,8,5求中位值。解:Md得位置===3、5排序2,3,4,5,6,8Md==4、5(3)頻數(shù)分布表【例3】根據(jù)下表求中位值。解:Md位置==
=250、5中位值Md=乙2、分組數(shù)據(jù)根據(jù)統(tǒng)計(jì)表中得累積百分比,找出含有50%得區(qū)間找出含有50%區(qū)間得上界值U,下界值L,上界累計(jì)百分?jǐn)?shù)U%,下界累計(jì)百分?jǐn)?shù)L%以及組距等信息根據(jù)線段對應(yīng)成比例得原理,計(jì)算出累計(jì)百分比為50%得變量值L:中位數(shù)組得下限f:中位數(shù)組得頻數(shù)w:中位數(shù)組得組距(U-L)cf:低于中位數(shù)組下限得累加次數(shù)n:全部個案數(shù)Md位置=n/2(上下各50%得位置)例:分組數(shù)據(jù):首先將各組得次數(shù)累加起來求中位數(shù)得位置:Md位置=n/2=212/2=106第106個位置在25-35之間分組變量瞧作就是一組連續(xù)得數(shù)值259435124?106103012【例4】:根據(jù)下表數(shù)據(jù)求中位值。解:Md位置=50;從累積頻數(shù)cf欄找到中位數(shù)位置所在組為“300-400”引入公式:=350三、均值1、均值得定義:總體各單位取值之與除以總體單位數(shù)目。2、僅適用于定距變量,不適用于定類與定序;1、未分組數(shù)據(jù)
(1)簡單原始資料求均值均值得計(jì)算——未分組數(shù)據(jù)【例5】某班10名學(xué)生年齡分別為20、21、19、19、20、20、21、22、18、20歲,求她們得平均年齡。解:根據(jù)平均數(shù)得計(jì)算公式有:(2)、加權(quán)平均數(shù)某個變項(xiàng)值重復(fù)出現(xiàn)多次,可以先統(tǒng)計(jì)每個值(x)得次數(shù)(f),再求次數(shù)與相應(yīng)變量值得乘積(fx),利用各乘積之與求出均值。(f也稱為權(quán)數(shù),f/n稱為權(quán)重)公式:未分組數(shù)據(jù)加權(quán)平均數(shù)【例6】調(diào)查某年120名學(xué)生得年齡,結(jié)果如下表,求平均年齡。解:根據(jù)公式得=18、9歲2、分組資料求均值:根據(jù)組中值求均值先求出組中值組中值=(上限+下限)/2計(jì)算組中值得與計(jì)算分組數(shù)據(jù)得均值組中值眾值、中位數(shù)與均值得比較1注:▲表示該數(shù)據(jù)類型最適合用得測度值眾數(shù)、中位數(shù)與平均值得比較眾數(shù)就是一組數(shù)據(jù)中出現(xiàn)次數(shù)最多得數(shù)值。但在社會調(diào)查中眾數(shù)得代表性較小中位數(shù)與平均數(shù)得比較計(jì)算平均數(shù)時用到數(shù)據(jù)中所有得數(shù)值,而求中位數(shù)時只用到數(shù)值得相對位置,平均數(shù)比中位數(shù)利用了更多得有關(guān)數(shù)據(jù)得信息平均數(shù)容易受到極端值得影響,而中位數(shù)則不會受這種影響。當(dāng)樣本中數(shù)據(jù)值得分布就是高度傾斜得,中位數(shù)一般比平均數(shù)更適合一些如100,200,400,500,600,均值為360,中位數(shù)為400100,200,400,500,1000,均值為440,中位數(shù)為400對隨機(jī)抽樣調(diào)查來說,平均數(shù)比中位數(shù)更穩(wěn)定,它隨樣本得變化比較小平均數(shù)比中位數(shù)更容易進(jìn)行算術(shù)運(yùn)算。眾數(shù)、中位數(shù)、均值比較2但兩種情況不宜用均值:(1)分組數(shù)據(jù)得極端組沒有組限。(2)個別數(shù)值非常特殊。練習(xí):
求下表(單項(xiàng)數(shù)列)所示數(shù)據(jù)得算術(shù)平均數(shù)。人口數(shù)(X)戶數(shù)(f)頻率(P)23456785816106410、100、160、320、200、120、080、02合計(jì)501、00求下表所示數(shù)據(jù)得得算術(shù)平均數(shù)間距頻數(shù)(f)組中值(X)148―152152―156156―160160―164164―168168―172172―176176―180180―184184―188188―192192―19612510192517125301150154158162166170174178182186190194合計(jì)100——求54,65,78,66,43這些數(shù)字得中位數(shù)。求54,65,78,66,43,38這些數(shù)字得中位數(shù)。某年級學(xué)生身高如下,求中位數(shù)人口數(shù)(X)戶數(shù)(f)頻率(P)23456785816106410、100、160、320、200、120、080、02合計(jì)501、00求下表中得眾數(shù)求下表中得眾數(shù)
城鎮(zhèn)自殺率得分組次數(shù)分布自殺率次數(shù)真實(shí)組限組中值向上累積次數(shù)3-5126-8359-118112-145215-173018-20721-23924-263合計(jì)229第五講單變量得描述統(tǒng)計(jì)(2)
離散趨勢測量41離散趨勢測量(Measuresofdispersion)反映得就是各變量值偏離其中心值得程度,就是個案與個案之間得差異情況。這種測量法,與前面所講得集中趨勢測量法具有相互補(bǔ)充得作用。集中趨勢求出得就是一個最能代表變量所有資料得值,但就是集中趨勢值代表性得高低還要瞧各個個案之間得差異情況。舉例:某校3個系各選5名同學(xué)參加智力競賽,她們得成績?nèi)缦?中文系:78,79,80,81,82
(=80)數(shù)學(xué)系:65,72,80,88,95(=80)英語系:35,78,89,98,100(=80)如果僅從集中趨勢測量(平均分?jǐn)?shù))來瞧,這三個系得成績都一致,不存在什么差別。但從直觀上可瞧出,三個系選手之間得差距程度(離散程度)很不一樣……???
異眾比率/離異比率(Variationratio)——定類層次四分位差(Interquartilerange)——定序?qū)哟畏讲?Variance)標(biāo)準(zhǔn)差(Standarddeviation)——定距層次一、異眾比率(Variationratio)1、異眾比率(簡寫Vr):指非眾值在總數(shù)中所占得比率。表示以眾數(shù)來預(yù)測一組數(shù)據(jù)時,所犯錯誤得大小、即Vr值越大,則眾值得代表性就越小、Vr值越小,則眾值得代表性就越大、2、計(jì)算公式::眾值得頻次異眾比率(先找出眾值、找到眾值得頻次分布)【例1】:根據(jù)表1中得數(shù)據(jù),計(jì)算眾值與異眾比率。解:眾值Mo=“核心家庭”異眾比率例2:眾數(shù)與異眾比率得比較表2甲乙兩校學(xué)生得父親職業(yè)甲乙兩校學(xué)生得父親職業(yè)得眾數(shù)都為“農(nóng)民”甲校乙校眾數(shù)得代表性中甲校小于乙校,甲校中有47、6%非農(nóng)民,乙校只有38、5%、異眾比率&眾值異眾比率就是眾值得補(bǔ)充。取值范圍就是[0,1]。不屬于眾數(shù)得個案所占得比例愈大,就表示眾數(shù)得代表性愈小,以之作估計(jì)或預(yù)測時所犯得錯誤也就愈大。當(dāng)Vr=0,說明變量只有一個值,那就就是眾值;當(dāng)Vr0,說明資料比較集中,眾值得代表性比較高;當(dāng)Vr1,說明資料比較分散,眾值得代表性低。二、四分位差(Interquartilerange)將數(shù)據(jù)由低至高排列,然后分為四等分(即每個等分包括25%得數(shù)據(jù)),第一個四分位置得值(Q1)與第三個四分位置得值(Q3)得差異,就就是四分位差(簡寫為Q)。Q1Q2Q3Q425%25%25%25%1、離散程度得測度值之一2、也稱為內(nèi)距或四分間距3、上四分位數(shù)與下四分位數(shù)之差4、反映了中間50%數(shù)據(jù)得離散程度5、不受極端值得影響6、用于衡量中位數(shù)得代表性基本公式求位置,找出4分位對應(yīng)得數(shù)值Q1=
Q3=四分位差Q=Q3-Q1。1、根據(jù)原始未分組資料求四分位差解:
Q1得位置==75、25Q3得位置==225、75那么Q1=不滿意;Q3=一般Q=Q3-Q1=一般-不滿意結(jié)論,有一半得家庭對住房評價在不滿意到一般之間。表甲城市家庭對住房狀況評價得頻數(shù)分布回答類別甲城市戶數(shù)(戶)累計(jì)頻數(shù)
非常不滿意
不滿意
一般
滿意
非常滿意2410894443024132226270300合計(jì)300—【例3】求下表得四分位差例4:調(diào)查甲乙兩村得家庭人數(shù)其中甲村有11戶人家,每戶人數(shù)為2,2,3,4,6,9,10,10,11,13,15乙村有8戶人家,每戶人口數(shù)為2,3,4,7,9,10,12,12則甲村中:Q1位置=(n+1)/4=(11+1)/4=3,Q1=3Q3位置=3(n+1)/4=9,Q3=11Q=Q3-Q1=11-3=8則乙村中:Q1位置=(n+1)/4=2、25,Q1=3+0、25(4-3)=3、25Q3位置=3(n+1)/4=6、75,Q3=10+0、75(12-10)=11、5
Q=Q3-Q1=11、5-3、25=8、25甲得離散程度低于乙村,以中位置估計(jì)甲乙兩村得人口數(shù)時,在甲村犯得錯誤小于乙村2、根據(jù)分組資料求四分位差有四步:計(jì)算向上累加次數(shù)求出Q1與Q3得位置
Q1=Q3=參考累加次數(shù)分布,決定Q1與Q3屬于哪一組從所屬組中,計(jì)算Q1位置與Q3位置得數(shù)值。公式如下:L1=Q1屬組之真實(shí)下限L3=Q3屬組之真實(shí)下限f1=Q1屬組之次數(shù)f3=Q3屬組之次數(shù)cf1=低于Q1屬組之累計(jì)次數(shù)cf3=低于Q3屬組之累計(jì)次數(shù)w1=Q1屬組之組距w3=Q3屬組之組距n=全部個案數(shù)目四分位差&中位數(shù)四分位差反映得就是中位數(shù)得代表性差距越大,中位數(shù)得代表性越小,用中位數(shù)估計(jì)變量時所犯得錯誤越大;反之,中位數(shù)得代表性越大,用中位數(shù)作估計(jì)犯得錯誤越小。三、方差與標(biāo)準(zhǔn)差1、 離散程度得測度值之一2、 最常用得測度值3、 反映了數(shù)據(jù)得分布4、反映了各變量值與均值得平均差異5、根據(jù)總體數(shù)據(jù)計(jì)算得,稱為總體方差或標(biāo)準(zhǔn)差;根據(jù)樣本數(shù)據(jù)計(jì)算得,稱為樣本方差或標(biāo)準(zhǔn)差4681012X=8.3三、方差與標(biāo)準(zhǔn)差所謂方差(Variance),觀察值與其均值之差得平方與除以全部觀察總數(shù)N。方差得平方根就就是標(biāo)準(zhǔn)差(Standarddeviation),用或S表示以均值作代表值時引起得偏差或錯誤,也就就是說用均值來估計(jì)或預(yù)測各個個案得數(shù)值,所犯得錯誤()平均就是σ標(biāo)準(zhǔn)差就是用得最多,也就是最重要得離散量數(shù)得統(tǒng)計(jì)量;方差就是統(tǒng)計(jì)學(xué)上得一個重要概念,在以后得統(tǒng)計(jì)方法學(xué)習(xí)過程中會進(jìn)一步了解;只適用于定距層次得變量;總體方差與標(biāo)準(zhǔn)差未分組數(shù)據(jù):未分組數(shù)據(jù):分組數(shù)據(jù):方差得計(jì)算公式標(biāo)準(zhǔn)差得計(jì)算公式樣本方差與標(biāo)準(zhǔn)差
分組數(shù)據(jù):未分組數(shù)據(jù):分組數(shù)據(jù):方差得計(jì)算公式標(biāo)準(zhǔn)差得計(jì)算公式注意:樣本方差用自由度n-1去除!未分組數(shù)據(jù)樣本方差得
自由度(degreeoffre
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 證券從業(yè)資格證考試重要知識點(diǎn)試題及答案
- 行政管理師考試決策制定過程試題及答案
- 注冊會計(jì)師專業(yè)科目測試試題及答案
- 項(xiàng)目管理師資格知識復(fù)習(xí)試題及答案
- 2024年項(xiàng)目管理資格認(rèn)證技巧試題及答案
- 項(xiàng)目管理師考試內(nèi)容講解試題及答案
- 健康信息學(xué)醫(yī)療大數(shù)據(jù)的核心技術(shù)
- 湖北省武漢市部分省級示范高中2024-2025學(xué)年高一下學(xué)期中地理試卷(原卷版+解析版)
- 創(chuàng)新商業(yè)模式區(qū)塊鏈驅(qū)動的商業(yè)透明化之路
- 企業(yè)級區(qū)塊鏈技術(shù)解決方案探討
- 日檢-月修各類2號線rtt2000牽引車操作
- 首末件檢查記錄表
- 2022年SYB創(chuàng)業(yè)培訓(xùn)講師考試
- GB∕T 37281-2019 廢鉛酸蓄電池回收技術(shù)規(guī)范
- 動火作業(yè)檢查清單
- 鋼管樁沉樁兩種工藝方法
- 滲透試驗(yàn)報(bào)告
- 吊車包月租賃合同完美參考
- 亞馬遜品牌授權(quán)書(英文模板)
- 標(biāo)準(zhǔn)化與標(biāo)準(zhǔn)編寫PPT課件
- 螺桿壓縮機(jī)知識(課堂PPT)
評論
0/150
提交評論