版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
2024-2-121-1統(tǒng)計學(xué)
2024-2-121-2第1章緒論1.1統(tǒng)計數(shù)據(jù)與統(tǒng)計學(xué)1.2統(tǒng)計學(xué)的歷史1.3統(tǒng)計學(xué)的分類1.4統(tǒng)計學(xué)基本概念1.5常用分佈1.6正態(tài)總體的抽樣分佈2024-2-121-3【引例1.0】統(tǒng)計數(shù)據(jù)統(tǒng)計數(shù)據(jù),往往是一個“出新聞”的地方。2010年1月19日,在國家統(tǒng)計局的網(wǎng)站首頁的頭條,人們看見了“期待已久”的“2009年全國房地產(chǎn)市場運行情況”統(tǒng)計報告。按照統(tǒng)計局公佈的這份報告:2009年12月份,全國70個大中城市房屋銷售價格僅僅只同比上漲了7.8%。特別是城市居民最關(guān)心的新建住房銷售價格,同比上漲(也就是一年的漲幅)一成都不到,只有9.1%(僅僅比國家統(tǒng)計局公佈的2008年漲幅高了2個百分點);二手住房的銷售價格,更是只比上年同期“慢慢漲了”6.8%。就連一些一線大城市,國家統(tǒng)計局的公佈的2009年一年的房價漲幅,同樣也“適度而溫和”,絕不“嚇人”:房價“最熱”的北京,它的房屋銷售價格,一年也就上漲了9.2%,天津為8.7%,上海、廣州和深圳,分別也就7.4%、8.7%和18.9%。按照這份“官方的權(quán)威統(tǒng)計”,在這全國70個大中城市中,房價漲幅一年超過10%的,僅僅只有六七個城市左右,很多城市的房價漲幅連5%都不到。2024-2-121-4【引例1.0】統(tǒng)計數(shù)據(jù)但是作為全國最大房地產(chǎn)專業(yè)門戶網(wǎng)站之一的搜房網(wǎng),2009年曾發(fā)佈了一個號稱“老百姓自己的房價榜”。他們通過對南京市的樓盤和各區(qū)域房價的全面統(tǒng)計和加權(quán)分析,得出2009年10月份該市商品房住宅價格比2010年年初的1月份上漲34.18%,環(huán)比也較上月全市上漲6.34%。而與此同時,國家統(tǒng)計局網(wǎng)站上公佈的同比漲幅僅為4.3%,環(huán)比也只有2.4%。另外,據(jù)國務(wù)院發(fā)展研究中心宏觀經(jīng)濟研究部的一次報告計算,2009年全國住宅銷售的房價漲幅已經(jīng)高達27.28%,整整超過了國家統(tǒng)計局公佈的“新建住房銷售價格”漲幅的兩倍。各種房價漲幅數(shù)據(jù)再一次“打架”引發(fā)了“強烈的熱議”。那麼,如何判斷現(xiàn)實中的諸多統(tǒng)計數(shù)據(jù)的合理性,要求我們對統(tǒng)計數(shù)據(jù)和統(tǒng)計學(xué)的基本原理具有一定的認識。
2024-2-121-51.1統(tǒng)計數(shù)據(jù)與統(tǒng)計學(xué)1.1.1
統(tǒng)計數(shù)據(jù)在日生活中(新聞、消息和報導(dǎo)中)我們會碰到各式各樣的統(tǒng)計數(shù)據(jù),只有正確理解這些統(tǒng)計數(shù)據(jù),才能真正讀懂這些新聞、消息和報導(dǎo)。統(tǒng)計數(shù)據(jù)與我們的日常生活息息相關(guān)2024-2-121-6【例1.1】據(jù)中國國家統(tǒng)計局網(wǎng)公佈的消息,2010年2月份,居民消費價格同比上漲2.7%,漲幅比上月擴大1.2個百分點。其中,城市同比上漲2.6%,農(nóng)村上漲2.9%;食品價格上漲6.2%,非食品價格上漲1.0%;消費品價格上漲3.0%,服務(wù)專案價格上漲1.7%。2024-2-121-7問題“居民消費價格同比上漲2.7%”確切的含義是什麼?2024-2-121-8【例1.2】中國網(wǎng)()2009年10月28日消息,國家統(tǒng)計局上海調(diào)查總隊近期對1000戶城市居民家庭開展了一項有關(guān)消費意向和消費觀念的專題調(diào)查。調(diào)查結(jié)果顯示,以下領(lǐng)域存在較大消費潛力:首先是住房消費。調(diào)查中,在問及購房意向時,有2.9%的家庭表示年內(nèi)打算購房,另有9.6%表示在三年內(nèi)有購房意向。而抽樣調(diào)查顯示,2008年只有1.1%的城市居民家庭實際購房。在有購房意向的被訪家庭中,有46.4%表示是結(jié)婚用房,49.6%表示為改善居住條件。作為投資或其他用途的比重很小,只占4%??梢?,對房價的穩(wěn)定預(yù)期和剛性需求的持續(xù)增長,仍將有力支撐上海房地產(chǎn)市場的需求量。2024-2-121-9問題“有2.9%的家庭表示年內(nèi)打算購房,另有9.6%表示在三年內(nèi)有購房意向”這兩個數(shù)字的可靠性怎樣?2024-2-121-10【例1.3】北京日報2009年1月12日報道,《2008年中國民生問題調(diào)查:食品安全狀況最令人擔(dān)憂》,調(diào)查中對城鄉(xiāng)居民詢問了人身、個人和家庭財產(chǎn)、個人資訊隱私、交通、勞動、醫(yī)療、食品等7個方面的安全感,結(jié)果發(fā)現(xiàn)在上述7個方面平均有74.6%的人表示“很安全”或“比較安全”。其中人身方面的安全感最高(很安全和比較安全合計83.2%),而食品和交通方面的安全感最低,分別只有65.3%和65.7%,認為不安全的人達30%以上。特別值得提及的是,在2006年和2008年的兩次調(diào)查中,食品安全狀況都在各類安全感中排在倒數(shù)第一,這說明公眾對食品衛(wèi)生和安全有著長期的擔(dān)憂。調(diào)查的時間:2008年5月至9月,
調(diào)查樣本:此項全國抽樣調(diào)查覆蓋全國28個省市區(qū)的134個縣(市、區(qū))、251個鄉(xiāng)(鎮(zhèn)、街道)和523個村(居委會),共成功入戶訪問了7139位年齡在18至69歲的居民,調(diào)查誤差小於2%,符合統(tǒng)計推論的科學(xué)要求。2024-2-121-11問題“共成功入戶訪問了7139位年齡在18至69歲的居民,調(diào)查誤差小於2%,符合統(tǒng)計推論的科學(xué)要求?!边@裏“調(diào)查誤差小於2%”是什麼意思?2024-2-121-12【例1.4】2008年美國發(fā)表的兩項大型臨床試驗結(jié)果顯示,維生素及其它抗氧化劑絲毫無助於預(yù)防前列腺癌。《美國醫(yī)學(xué)會雜誌》在網(wǎng)路版上公佈了這一結(jié)果:第一項研究是迄今進行過的規(guī)模最大的癌癥預(yù)防對照試驗之一,有3.55萬名中年男性參加,服用維生素E、硒或安慰劑的時間超過5年。第二項試驗歷時8年,觀察了維生素C和E對近1.5萬名男性的影響。兩項研究均顯示,無論是對前列腺癌,還是所有種類的癌癥,這些補充劑都沒有預(yù)防效果。2024-2-121-13問題“維生素及其它抗氧化劑絲毫無助於預(yù)防前列腺癌。”這個結(jié)論是如何得到的?這個結(jié)論可靠嗎?2024-2-121-141.1.2
統(tǒng)計學(xué)什麼是統(tǒng)計學(xué)?一般的教科書:統(tǒng)計學(xué)是研究如何有效地收集數(shù)據(jù)、整理數(shù)據(jù)、分析數(shù)據(jù),並根據(jù)數(shù)據(jù)作出推斷的一門方法論科學(xué)?!恫涣蓄嵃倏迫珪返亩x:統(tǒng)計是“收集和分析數(shù)據(jù)的科學(xué)(science)和藝術(shù)(art)”。2024-2-121-15回顧問題例1.1中“居民消費價格同比上漲2.7%”確切的含義是什麼?
第9章例1.2中“有2.9%的家庭表示年內(nèi)打算購房,另有9.6%表示在三年內(nèi)有購房意向”這兩個數(shù)字的可靠性怎樣?
第3章例1.3中“調(diào)查誤差小於2%”是如何估算出來的?
第8章例1.4“維生素及其它抗氧化劑絲毫無助於預(yù)防前列腺癌?!边@個結(jié)論是如何得到的?
第4章2024-2-121-161.2統(tǒng)計學(xué)的歷史統(tǒng)計活動的歷史非常悠久統(tǒng)計學(xué)的歷史卻不算很長統(tǒng)計學(xué)兩個主要來源:17世紀德國的國勢學(xué)和17世紀英國的政治算術(shù)。2024-2-121-17國勢學(xué)以國家政治社會情況作為研究對象,運用對比的方法來研究各國實力的強弱。國勢學(xué)派的主要代表人物:康令(H.Conring)和阿亨瓦爾(G.Achenwall)2024-2-121-18政治算術(shù)創(chuàng)始人:英國的配第(W.Petty)他在1690年出版的《政治算術(shù)》一書中以數(shù)字資料為基礎(chǔ),採用數(shù)量分析方法研究政治問題,第一次提出統(tǒng)計方法並利用統(tǒng)計方法分析數(shù)字資料。2024-2-121-19統(tǒng)計學(xué)與概率論結(jié)合從18世紀開始統(tǒng)計學(xué)與概率論結(jié)合,概率論為統(tǒng)計學(xué)的進一步發(fā)展奠定了堅實的數(shù)理基礎(chǔ),促進了統(tǒng)計學(xué)理論和實踐的繁榮昌盛。到19世紀末已經(jīng)形成了古典統(tǒng)計學(xué)(描述統(tǒng)計學(xué))的主要框架。2024-2-121-20統(tǒng)計學(xué)發(fā)展迅速20世紀:統(tǒng)計學(xué)滲透到社會學(xué)、生物學(xué)、經(jīng)濟學(xué)等領(lǐng)域。哥塞特(W.S.Gosset)1908年以Student為筆名在《生物計量學(xué)》雜誌上發(fā)表論文《均值的或然誤差》,提出了著名的t統(tǒng)計量,開創(chuàng)了小樣本理論先河;費雪(R.A.Fisher)對t分佈、分佈和F分佈加以綜合研究,提出了方差分析方法和最大似然估計方法,大大促進了推斷統(tǒng)計學(xué)的發(fā)展;2024-2-121-21統(tǒng)計學(xué)發(fā)展迅速奈曼(J.Neyman)和皮爾遜(E.S.Pearson)提出了系統(tǒng)的統(tǒng)計假設(shè)檢驗理論,並對區(qū)間估計做出了系統(tǒng)發(fā)展,瓦爾德(A.Wald)提出序貫分析法和統(tǒng)計決策函數(shù)理論,進一步豐富了現(xiàn)代統(tǒng)計學(xué)的理論,形成了現(xiàn)代統(tǒng)計學(xué),即推斷統(tǒng)計學(xué)的框架。2024-2-121-221.3統(tǒng)計學(xué)的分類從統(tǒng)計學(xué)的研究內(nèi)容和方法上分類描述統(tǒng)計(descriptivestatistics):用數(shù)字和圖表等方法對數(shù)據(jù)進行總結(jié)和展示,揭示數(shù)據(jù)的基本特徵,為進一步的統(tǒng)計推斷作準備。推斷統(tǒng)計(inferentialstatistics):根據(jù)樣本數(shù)據(jù)對總體進行估計、預(yù)測和推斷,這是現(xiàn)代統(tǒng)計學(xué)的核心內(nèi)容。2024-2-121-23【例1.5】中國經(jīng)濟增長2008-20092024-2-121-24【例1.6】“三駕馬車”【根據(jù)國家統(tǒng)計局最新的數(shù)據(jù)顯示,在拉動2009年GDP增長的“三駕馬車”中,最終消費對經(jīng)濟增長的貢獻率為52.5%,拉動GDP增長4.6個百分點,投資對經(jīng)濟增長的貢獻率為92.3%,拉動GDP增長8個百分點。而國外需求,即“淨(jìng)出口”,對經(jīng)濟增長的貢獻率為負44.8%,下拉GDP增長負3.9個百分點。2024-2-121-25【例1.7】《全球最佳CEO》《全球最佳CEO》仲介紹道,如果根據(jù)全球各頂尖首席執(zhí)行官整個任期內(nèi)的股東投資回報率和市值變化來排序,那麼分析1995年至2009年間1109位首席執(zhí)行官後可以發(fā)現(xiàn),擁有MBA學(xué)位的平均表現(xiàn)要好於那些沒有的。2024-2-121-26【例1.8】零點研究諮詢集團零點研究諮詢集團、北汽福田汽車股份有限公司、新浪汽車聯(lián)合發(fā)佈的《2009福田指數(shù)中國居民生活機動性指數(shù)研究報告》指出:在參與調(diào)查的7個城市中,北京居民上下班或上下學(xué)擁堵經(jīng)濟成本為335.6元/月,處在各城市之首。其次是廣州和上海,擁堵經(jīng)濟成本分別為265.9元/月和253.6元/月,低於北京。同時,北京居民上下班時間花費也居高位,道路暢通時平均花費時間40.1分鐘,而道路擁堵時則達到62.3分鐘。2024-2-121-271.4統(tǒng)計學(xué)基本概念四個最基本的概念:隨機變數(shù)、總體、樣本和統(tǒng)計量。2024-2-121-281.4.1隨機變數(shù)及其分佈隨機變數(shù)(randomvariable)是定義在樣本空間上的實值函數(shù)X=X(ω),它隨樣本點ω的變化而變化,它用來描述隨機試驗的結(jié)果。如果一個隨機變數(shù)只能取有限個或可列個值,則稱它為離散型隨機變數(shù)(discreterandomvariable);如果一個隨機變數(shù)的可能取值充滿數(shù)軸上的一個區(qū)間,則稱它為連續(xù)型隨機變數(shù)(continuousrandomvariable)。2024-2-121-29幾個例子【例1.9】拋一顆六面均勻的骰子,觀察出現(xiàn)的點數(shù),則出現(xiàn)的點數(shù)X是一個隨機變數(shù)?!纠?.10】調(diào)查100個顧客,考察顧客對某個品牌筆記本電腦的偏好,記錄喜歡這個品牌筆記本電腦的人數(shù)X,則X是一個隨機變數(shù)。【例1.11】為了檢驗?zāi)畴娮赢a(chǎn)品的品質(zhì),檢測它的使用壽命(以分鐘記),則產(chǎn)品的使用壽命X是一個隨機變數(shù)?!纠?.12】從一大批產(chǎn)品中隨機抽取若干個產(chǎn)品,考察次品率X,則X是一個隨機變數(shù)。2024-2-121-30分佈函數(shù)描述隨機變數(shù)分佈的重要工具,可以用來描述離散型和連續(xù)型隨機變數(shù)。定義1.1設(shè)X是一個隨機變數(shù),對任意實數(shù)x,稱
F(x)=P(X≤x)(1.1)為隨機變數(shù)X的分佈函數(shù)(distributionfunction),稱X服從F(x),簡記為X~F(x)。2024-2-121-31概率密度函數(shù)定義1.2設(shè)隨機變數(shù)X的分佈函數(shù)是F(x),如果存在一個非負函數(shù)f(x),使得對任意實數(shù)x,有(1.2)則稱f(x)是連續(xù)型隨機變數(shù)X的概率密度函數(shù)(probabilitydensityfunction),簡稱為密度函數(shù)。2024-2-121-321.4.2總體和總體分佈什麼是總體?研究對象的全體就稱為總體(population)或母體,總體中的元素稱為個體。如果總體包含的個體的數(shù)目是有限的,則稱之為有限總體;如果總體包含的個體的數(shù)目是無限的,就稱之為無限總體。2024-2-121-33總體是隨機變數(shù)【例1.13】一批電子元件共10萬個,研究這批電子元件的平均使用壽命,則該批電子元件的全部使用壽命就構(gòu)成一個總體,而每個電子元件的使用壽命就是個體。【例1.14】考察某大學(xué)一年級新生的身高情況,則全體新生的身高就構(gòu)成一個總體,而其中每個學(xué)生的身高就是個體。2024-2-121-341.4.3樣本和樣本分佈樣本:從總體中取出的部分個體構(gòu)成的集合.樣本容量:樣本中的個體數(shù)目。抽樣(sampling):取得樣本的過程。常用抽樣方法:簡單隨機抽樣、分層抽樣、整群抽樣、等距抽樣等
第8章。2024-2-121-35簡單隨機樣本我們討論的樣本都是指簡單隨機抽樣得到的簡單隨機樣本(simplerandomsample),簡稱為樣本(sample)。記(x1,…,xn)為樣本容量為n的樣本,其中x1,…,xn
是相互獨立的與總體X同分佈的n個隨機變數(shù);(x1,…,xn)的觀測值稱為樣本值,仍記作(x1,…,xn)。2024-2-121-36樣本聯(lián)合分佈函數(shù)對於簡單隨機樣本,若總體X的分佈函數(shù)為F(x),則樣本(x1,…,xn)的聯(lián)合分佈函數(shù)為2024-2-121-37樣本聯(lián)合概率密度函數(shù)若總體X的概率密度函數(shù)為f(x),則樣本(x1,…,xn)的聯(lián)合概率密度函數(shù)為2024-2-121-38樣本聯(lián)合概率函數(shù)若總體X是離散型隨機變數(shù),其概率函數(shù)為p(x)=P(X=x),則樣本(x1,…,xn)的聯(lián)合概率函數(shù)為2024-2-121-391.4.4統(tǒng)計量抽樣獲得樣本後,根據(jù)樣本資訊推斷總體時,通常需要對樣本資訊進行加工整理,針對不同的問題構(gòu)造適當?shù)臉颖竞瘮?shù),這種用來推斷總體的樣本函數(shù)稱為統(tǒng)計量(statistic)。統(tǒng)計量是用作統(tǒng)計推斷的量,所以統(tǒng)計量不能含有未知參數(shù)。2024-2-121-401.樣本均值稱為樣本均值(samplemean);它是總體期望μ的無偏估計。2024-2-121-412.樣本方差稱為樣本方差(samplevariance),其算術(shù)平方根稱為樣本標準差(samplestandarddevication)。2024-2-121-42修正樣本方差稱為修正樣本方差。因為修正樣本方差是總體方差的無偏估計,在實際中,修正樣本方差比樣本方差更常用,今後提到樣本方差通常是指修正樣本方差。2024-2-121-433.樣本矩稱為樣本k階原點矩和樣本k階中心矩;樣本矩可以用來估計總體矩,從而獲得相應(yīng)的矩估計。2024-2-121-444.次序統(tǒng)計量將樣本按由小到大排列得到的有序樣本(x(1),…,x(n))稱為樣本的次序統(tǒng)計量(orderstatistic),其中,x(i)為樣本的第i個次序統(tǒng)計量;x(1)稱為樣本的最小次序統(tǒng)計量,x(n)稱為樣本的最大次序統(tǒng)計量。2024-2-121-455.樣本中位數(shù)和樣本極差設(shè)(x(1),…,x(n))為有序樣本,則樣本中位數(shù)Me(median)定義為2024-2-121-46樣本極差樣本極差(range)定義為:R=x(n)-x(1)
它是反映樣本值分散程度的量,可以用於推斷總體的標準差。2024-2-121-476.經(jīng)驗分佈函數(shù)設(shè)(x(1),…,x(n))為來自於總體的有序樣本,對任意實數(shù)x,稱(1.8)是經(jīng)驗分佈函數(shù)2024-2-121-481.5常用分佈統(tǒng)計量的概率分佈稱為抽樣分佈(samplingdistribution),經(jīng)典的統(tǒng)計推斷大多是基於正態(tài)分佈以及正態(tài)變數(shù)構(gòu)造的三個著名分佈(分佈、t分佈和F分佈)下麵介紹這四分佈和兩個離散型分佈(二項分佈和泊松分佈)的定義及主要性質(zhì)。2024-2-121-491.5.1正態(tài)分佈定義1.3如果隨機變數(shù)X的密度函數(shù)為則稱X服從參數(shù)為μ和σ2的正態(tài)分佈(normaldistribution),記為X~N(μ,σ2),其中μ和σ(σ>0)都是常數(shù)。2024-2-121-50圖1.1正態(tài)分佈密度函數(shù)的曲線2024-2-121-51圖1.2正態(tài)分佈N(μ,1),
N(μ,22)和N(μ,32)的密度曲線2024-2-121-52圖1.3標準正態(tài)分佈的密度曲線2024-2-121-53正態(tài)分佈的性質(zhì)性質(zhì)1.1若X~N(μ,σ2),則E(X)=μ,Var(X)=σ2,性質(zhì)1.2若X~N(μ,σ2),則即任何一個一般的正態(tài)分佈都可以經(jīng)過簡單的線性變換轉(zhuǎn)化為標準正態(tài)分佈。2024-2-121-54標準正態(tài)分佈的分位數(shù)對於標準正態(tài)分佈隨機變數(shù)X,對給定α,稱滿足P(X>Zα)=α的是標準正態(tài)分佈的分位數(shù)。分位數(shù)可以從附表1裏查到,比如=0.025,查附表1可得Zα=1.96。2024-2-121-551.5.2分佈2024-2-121-56卡方分佈的性質(zhì)2024-2-121-57圖1.4卡方分佈的密度函數(shù)2024-2-121-581.5.3t分佈2024-2-121-59t分佈的性質(zhì)2024-2-121-60圖1.5t(n)分佈與
標準正態(tài)N(0,1)的密度函數(shù)2024-2-121-611.5.4F分佈2024-2-121-62F分佈的性質(zhì)2024-2-121-63圖1.6F(m,n)分佈的密度函數(shù)2024-2-121-641.5.5二項分佈2024-2-121-651.5.6泊松分佈2024-2-121-661.6正態(tài)總體的抽樣分佈2024-2-121-672024-2-121-682024-2-121-692024-2-121-701.7統(tǒng)計軟體SPSS簡介常用統(tǒng)計軟體SAS,S-Plus,Minitab,R等。Eviews,MATLAB,Excel也可以完成很多統(tǒng)計計算和分析。“師傅領(lǐng)進門,修行靠個人”2024-2-121-71本章小結(jié)本章介紹了統(tǒng)計學(xué)的定義和分類,回顧了統(tǒng)計學(xué)的發(fā)展歷史,介紹了隨機變數(shù)、總體、樣本和統(tǒng)計量這四個基本概念,介紹了統(tǒng)計學(xué)中使用廣泛的六個分佈:正態(tài)分佈、卡方分佈、t分佈、F分佈、二項分佈和泊松分佈,給出了正態(tài)總體下的抽樣分佈,最後介紹了統(tǒng)計軟體SPSS的特點。統(tǒng)計學(xué)是一門研究如何有效地收集數(shù)據(jù)、整理數(shù)據(jù)、分析數(shù)據(jù),並根據(jù)數(shù)據(jù)作出推斷的方法論科學(xué),分為描述統(tǒng)計學(xué)和推斷統(tǒng)計學(xué)兩個部分,其中推斷統(tǒng)計是現(xiàn)代統(tǒng)計的核心內(nèi)容;正態(tài)分佈、分佈、t分佈、F分佈、二項分佈和泊松分佈是統(tǒng)計學(xué)中六個重要分佈,利用樣本資訊(統(tǒng)計量)推斷總體時經(jīng)常會用到這六個分佈。
2024-2-121-72本章小結(jié)正態(tài)分佈是鐘形對稱的分佈,它的中心取決於參數(shù)μ,而分佈的離散程度取決於參數(shù)σ的大小;
t分佈的形狀很像正態(tài)分佈,但“尾部”比正態(tài)分佈更厚一些;卡方分佈和F分佈都是只取非負值的偏態(tài)分佈;二項分佈和泊松分佈是應(yīng)用廣泛的兩個離散型分佈。SPSS是一種常見的功能齊全、操作簡單的統(tǒng)計軟體,本書採用SPSS16.0完成相應(yīng)的統(tǒng)計計算。2024-2-121-73案例:新型農(nóng)村養(yǎng)老保險問題零點研究諮詢集團2009年發(fā)佈的《2009年零點中國公共服務(wù)公眾評價指數(shù)報告》中關(guān)於新型農(nóng)村養(yǎng)老保險的調(diào)查,針對廣大農(nóng)村居民對新農(nóng)保的認知度、參保意願、評價程度等問題進行了分析。2024-2-121-74資料來源:零點諮詢研究集團
《2009年秋季三期居民生活調(diào)查報告》2024-2-121-75資料來源:零點諮詢研究集團
《2009年零點中國公共服務(wù)公眾評價指數(shù)報告》2024-2-122-762.1
數(shù)據(jù)的計量與分類
數(shù)據(jù)的計量尺度數(shù)據(jù)的類型2024-2-122-77按照對現(xiàn)象計量程度的不同,可以將數(shù)據(jù)計量尺度分為四種,即:定類尺度、定序尺度、定距尺度、定比尺度。定類尺度(nominalscale)也稱類別尺度或列名尺度,它是把事物按屬性或類別分組。其計量的結(jié)果只是表現(xiàn)為某種類別,而對各類間的其他差別卻無法測度。例如:人口按性別分為男、女兩組。數(shù)據(jù)的計量尺度
2024-2-122-78定序尺度定序尺度(ordinalscale)
也叫順序尺度,它是對事物之間等級差或順序差別的測度,具有定類尺度的所有性能。例如:學(xué)生的考試成績分為優(yōu)、良、中、及格、不及格五組。2024-2-122-79定距尺度(intervalscale)(也叫間隔尺度),是對事物間的類別或次序間的間距的測度,其計量結(jié)果表現(xiàn)為數(shù)值。
例如:三名學(xué)生考試成績分別為60分、80分、90分。定距尺度2024-2-122-80定比尺度定比尺度(ratioscale)(也叫比率尺度),它與定距尺度屬於同一層次,其計量結(jié)果也表現(xiàn)為數(shù)值。
例如:3個工人的月收入分別為2000元、3000元、4000元。2024-2-122-81四種尺度計量結(jié)果,形成三種數(shù)據(jù):分類數(shù)據(jù)、順序數(shù)據(jù)和數(shù)值型數(shù)據(jù)。分類數(shù)據(jù)(categoricaldata)——是定類尺度對現(xiàn)象計量的結(jié)果。例如人口按性別分類,則“男”、“女”即為分類數(shù)據(jù)。數(shù)據(jù)的類型2024-2-122-82順序數(shù)據(jù)順序數(shù)據(jù)(rankdata)——是定序尺度對現(xiàn)象計量的結(jié)果。例如:人口按受教育程度分為“小學(xué)”、“初中”、“高中”、“大學(xué)及以上”組,則這裏的“小學(xué)”、“初中”、“高中”、“大學(xué)及以上”即為順序數(shù)據(jù)。分類數(shù)據(jù)和順序數(shù)據(jù)合稱為定性數(shù)據(jù)。2024-2-122-83數(shù)值型數(shù)據(jù)數(shù)值型數(shù)據(jù)(metricdata)——是定距尺度和定比尺度對現(xiàn)象計量結(jié)果。例如學(xué)生的考試成績70分、工人的月收入2000元均為數(shù)值型數(shù)據(jù)。數(shù)值型數(shù)據(jù)通常稱為定量數(shù)據(jù)。2024-2-122-84問題討論前面例子中涉及的“性別”、“經(jīng)濟類型”、“受教育水準”、“考試成績”、“月收入”能看作數(shù)據(jù)嗎?如果它們不能看作數(shù)據(jù),那麼應(yīng)該怎樣正確理解這些概念?2024-2-122-852.2
數(shù)據(jù)的收集2.2.1數(shù)據(jù)的間接來源2.2.2數(shù)據(jù)的直接來源2024-2-122-862.2.1數(shù)據(jù)的間接來源間接來源的數(shù)據(jù)我們稱之為第二手數(shù)據(jù)??蓮母鞣N公開出版物(如統(tǒng)計年鑒等)、報紙、雜誌、圖書、網(wǎng)路、新聞媒體等獲取。2024-2-122-872.2.2數(shù)據(jù)的直接來源直接來源的數(shù)據(jù)我們稱為第一手數(shù)據(jù),主要依賴統(tǒng)計調(diào)查得到。2024-2-122-88統(tǒng)計調(diào)查的分類統(tǒng)計調(diào)查按調(diào)查對象所包括的範圍不同,分為全面調(diào)查與非全面調(diào)查。統(tǒng)計調(diào)查按登記事物的連續(xù)性不同,分為經(jīng)常性調(diào)查和一次性調(diào)查。統(tǒng)計調(diào)查還可按組織方式不同分為統(tǒng)計報表和專門調(diào)查(專門包括普查、抽樣調(diào)查、重點調(diào)查、典型調(diào)查)2024-2-122-89常用的統(tǒng)計調(diào)查方式統(tǒng)計報表(statisticalreportforms)是按照國家有關(guān)法規(guī)的規(guī)定,自上而下地統(tǒng)一佈置,自下而上地逐級提供基本統(tǒng)計數(shù)據(jù)的一種調(diào)查方式。統(tǒng)計報表目前是一種搜集數(shù)據(jù)的重要方式,但已不是主要方式。2024-2-122-90普查普查(census):是為特定目的而專門組織的一次性全面調(diào)查。普查所搜集的是那種經(jīng)常的、定期的統(tǒng)計報表所不能提供的更為詳細的資料,主要是表明現(xiàn)象在某一時點上的情況,時間性要求很強。2024-2-122-91普查的特點(1)需要規(guī)定統(tǒng)一的標準時間(資料所屬時間),以避免調(diào)查數(shù)據(jù)的重複或遺漏;(2)通常是一次性或週期性的;(3)普查的數(shù)據(jù)一般較為準確,規(guī)範化程度較高;(4)普查適用的對象比較狹窄,只能調(diào)查一些最基本、最一般及特定的現(xiàn)象。2024-2-122-92抽樣調(diào)查抽樣調(diào)查(samplingsurvey):是從研究對象的總體中隨機抽取一部分個體作為樣本進行調(diào)查,並根據(jù)調(diào)查結(jié)果來推斷總體數(shù)量特徵的一種非全面調(diào)查方法。抽樣調(diào)查的特點:經(jīng)濟性好、實效性強、適應(yīng)面廣、準確性高。2024-2-122-932.3數(shù)據(jù)的整理2.3.1分類數(shù)據(jù)和順序數(shù)據(jù)的整理2.3.2數(shù)值型數(shù)據(jù)的整理2024-2-122-942.3.1分類數(shù)據(jù)和順序數(shù)據(jù)的整理對分類數(shù)據(jù)和順序數(shù)據(jù),我們可以計算出每一類別出現(xiàn)的頻數(shù)或頻率,通過頻數(shù)分佈表和圖形來展示。2024-2-122-951.用頻數(shù)分佈表展示分類數(shù)據(jù)
和順序數(shù)據(jù)用表格的形式將分類數(shù)據(jù)或順序數(shù)據(jù)各分組極其相應(yīng)的頻(次)數(shù)全部羅列出來,就是頻數(shù)分佈表(或次數(shù)分佈表)。分佈在各組的單位數(shù)稱為頻數(shù)(frequency),也叫次數(shù),各組次數(shù)與總次數(shù)之比稱為頻率,也叫比重(例)(proportion)。一組資料中,各組頻率之和等於100%(或1)。2024-2-122-96【例2.1】
——頻數(shù)分佈表的編制(數(shù)據(jù)檔為example2.1)對某高校經(jīng)濟系30名教師性別及職稱登記結(jié)果,如表2.1所示,試用SPSS分別編制教師性別及職稱的頻數(shù)分佈表。2024-2-122-97【例2.1】
——頻數(shù)分佈表的編制表2.1某高校30名教師性別及職稱情況統(tǒng)計表序號性別職稱序號性別職稱序號性別職稱1男講師11男教授21男副教授2女助教12女副教授22女副教授3女副教授13女副教授23男講師4女副教授14男講師24女助教5男助教15男講師25男副教授6男教授16男副教授26男講師7女教授17女講師27女教授8男講師18男助教28男講師9女副教授19女副教授29男副教授10男教授20女副教授30女教授原始數(shù)據(jù):2024-2-122-98【例2.1】
——頻數(shù)分佈表的編制解:首先將教師性別用代碼0、1表示;將教師職稱用代碼2、3、4、5表示,然後在數(shù)據(jù)檔的VaribleView窗口Values欄定義變數(shù)值標籤:
0表示女性,1表示男性;2表示助教,3表示講師,4表示副教授,5表示教授。2024-2-122-99【例2.1】
——頻數(shù)分佈表的編制SPSS操作步驟:File→open→Data→example2.1→Analyze→DescriptiveStatistics→Frequencies→將“性別”選入Variable框→OK。輸出結(jié)果如表2.2及表2.3所示:表2.2某高校30名教師性別分組頻數(shù)分佈表
FrequencyPercentValidPercentCumulativePercentValid0女1446.746.746.7
1男1653.353.3100.0
Total30100.0100.0
2024-2-122-100表2.3某高校30名教師職稱分組頻數(shù)分佈表
FrequencyPercentValidPercentCumulativePercentValid2助教413.313.313.3
3講師826.726.740.0
4副教授1240.040.080.0
5教授620.020.0100.0
Total30100.0100.0
表2.2及表2.3中,F(xiàn)requency為頻數(shù),Percent為各組頻數(shù)占總數(shù)的百分比,ValidPercent為各組頻數(shù)占總數(shù)的有效百分比,CumulativePercent為各組頻數(shù)占總數(shù)的累積百分比。
【例2.1】
——頻數(shù)分佈表的編制2024-2-122-1012.用圖形展示分類數(shù)據(jù)
和順序數(shù)據(jù)適合分類數(shù)據(jù)和順序數(shù)據(jù)的圖形有條形圖、餅圖等。條形圖:是用條形高度來表示數(shù)據(jù)多少的圖形。餅圖:又稱圓圖,它是以整個圓代表總體,按總體各部分占總體比重的大小將圓面積分割成若干扇形,從而用圓內(nèi)扇形面積來直觀反映各部分在總體中的比例。2024-2-122-102【例2.2】
——條形圖的繪製(數(shù)據(jù)檔為example2.2)根據(jù)表2.3資料,用SPSS繪製條形圖。解:SPSS操作步驟:File→open→Data→example2.2→Graphs→Bar→選中Simple,選中Summariesforgroupsofcases→單擊Define→選中OtherSummaryfunction→將“人數(shù)”選入Variable(縱軸),將“職稱分類”選入CategoryAxis(橫軸)→OK。輸出結(jié)果如圖2.1所示:2024-2-122-103【例2.2】
——條形圖的繪製輸出結(jié)果:圖2.130名教師職稱分佈條形圖2024-2-122-104【例2.3】
——餅圖的繪製(數(shù)據(jù)檔為example2.2)根據(jù)表2.3資料,用SPSS繪製餅圖。解:SPSS操作步驟:File→open→Data→example2.2→Graphs→Pie→選中Valuesofindividualcases→單擊Define→將“人數(shù)”選入SlicesRepresent欄,將“職稱分類”選入Variable欄→OK。輸出結(jié)果如圖2.2所示:
2024-2-122-105【例2.3】
——餅圖的繪製
輸出結(jié)果:圖2.230名教師職稱分佈餅圖2024-2-122-1062.3.2數(shù)值型數(shù)據(jù)的整理用頻數(shù)分佈表(變數(shù)數(shù)列)展示數(shù)值型數(shù)據(jù)用圖示展示數(shù)值型數(shù)據(jù)頻數(shù)分佈的類型2024-2-122-1071.用頻數(shù)分佈表(變數(shù)數(shù)列)展示
數(shù)值型數(shù)據(jù)將數(shù)值型數(shù)據(jù)進行統(tǒng)計分組,就可以形成頻數(shù)分佈表(變數(shù)數(shù)列)。製作頻數(shù)分佈表時可用單變數(shù)值分組,也可用組距分組。單變數(shù)值分組通常適用於離散變數(shù),且變數(shù)值變動幅度不大時;組距分組通常適用於變數(shù)值較多、且變動範圍較大的離散型或連續(xù)型變數(shù)。2024-2-122-108【例2.4】
——單變數(shù)值分組
某班學(xué)生按年齡(周歲)分組的結(jié)果如表2.4所示:
表2.4某班學(xué)生按年齡(周歲)分組情況表按年齡分組(周歲)學(xué)生人數(shù)(人)比重(%)181920212236127210.0020.0040.0023.336.67合計30100.002024-2-122-109組距分組中的幾個基本概念組限:每個組兩端的數(shù)值。分為上限和下限。組距:一個組的上限與下限兩端的距離。全距:所有變數(shù)值中最大值與最小值之差。組中值:每個組的上限與下限的中點值。2024-2-122-110組距分組的步驟第一,確定組數(shù)。
可以按斯特格斯的經(jīng)驗公式確定組數(shù):
第二,確定各組的組距。
實際中先確定組數(shù)或先確定組距均可:
第三,整理成頻數(shù)分佈表。2024-2-122-111【例2.5】
——組距分組
2009年7月9日隨機抽查了某大學(xué)50名任課教師的年齡,原始數(shù)據(jù)(周歲)如下:
3339452724353044524745424046684847463960464751295947295043293530293433456446446730272944533155414347
試對數(shù)據(jù)進行組距分組。
2024-2-122-112【例2.5】
——組距分組解:此處採用先確定組距的方式。根據(jù)本例的數(shù)據(jù)水準及全距大小,組距擬定為10。確定組數(shù):組數(shù)=全距/組距
=(68-24)÷10=4.4
5(組)對原始數(shù)據(jù)分組,整理成頻數(shù)分佈表如表2.5所示:2024-2-122-113【例2.5】
——組距分組分組結(jié)果:表2.550名教師年齡分組頻數(shù)分佈表按年齡分組(周歲)人數(shù)(人)比重(%)20~3030~4040~5050~6060~708112164162242128合計501002024-2-122-114【例2.5】
——組距分組本例還可採用間斷式組距形式分組,如表2.6所示:表2.650名教師年齡分組頻數(shù)分佈表按年齡分組(周歲)人數(shù)(人)比重(%)20~2930~3940~4950~5960~698112164162242128合計501002024-2-122-115【例2.5】
——組距分組本例還可採用開口組形式分組,如表2.7所示:表2.750名教師年齡分組頻數(shù)分佈表按年齡分組(周歲)人數(shù)(人)比重(%)30以下30~4040~5050~6060以上8112164162242128合計501002024-2-122-116累計次數(shù)與累計頻率有時為了研究次數(shù)分佈的狀況,需要計算累計次數(shù)或累計頻率,方法有兩種:向上累計(積),也稱較小制累計(積)或以下累計(積),即把各組次數(shù)或頻率由變數(shù)值小的組向變數(shù)值大的組順序逐組累計(積),截至各組的累計(積)次數(shù)或累計(積)頻率表示小於該組變數(shù)值上限的次數(shù)或頻率合計有多少。2024-2-122-117累計次數(shù)與累計頻率向下累計(積),也稱較大制累計(積)或以上累計(積),即把各組次數(shù)或頻率由變數(shù)值大的組向變數(shù)值小的組順序逐組累計(積),截至各組的累計(積)次數(shù)或累計(積)頻率表示大於該組變數(shù)值下限的次數(shù)或頻率合計有多少。2024-2-122-118累計次數(shù)與累計頻率如對表2.5計算累計次數(shù)或累計頻率,可得累計頻數(shù)(頻率)分佈表如表2.8所示:表2.850名教師年齡分組累計頻數(shù)(頻率)分佈表按年齡分組(周歲)頻數(shù)(人)頻率(%)向上累計向下累計頻數(shù)(人)頻率(%)頻數(shù)(人)頻率(%)20~3030~4040~5050~6060~708112164162242128819404650163880921005042311041008462208合計50100————2024-2-122-119【例2.6】
——SPSS製作頻數(shù)分佈表(數(shù)據(jù)檔為example2.3)
2007年我國各地區(qū)農(nóng)村居民家庭人均純收入資料如表2.9所示,試用SPSS製作頻數(shù)分佈表。2024-2-122-120【例2.6】
——SPSS製作頻數(shù)分佈表原始數(shù)據(jù):表2.92007年我國各地區(qū)農(nóng)村居民家庭人均純收入地區(qū)人均純收入(元)地區(qū)人均純收入(元)北京9439.63湖北3997.48天津7010.06湖南3904.20河北4293.43廣東5624.04山西3665.66廣西3224.05內(nèi)蒙古3953.10海南3791.37遼寧4773.43重慶3509.29吉林4191.34四川3546.69黑龍江4132.29貴州2373.99上海10144.62雲(yún)南2634.09江蘇6561.01西藏2788.20浙江8265.15陝西2644.69安徽3556.27甘肅2328.92福建5467.08青海2683.78江西4044.70寧夏3180.84山東4985.34新疆3182.97河南3851.60——2024-2-122-121【例2.6】
——SPSS製作頻數(shù)分佈表解:首先將農(nóng)村居民家庭人均純收入用代碼1、2、3、4、5表示,然後在數(shù)據(jù)檔的VaribleView窗口Values欄定義變數(shù)值標籤。操作步驟:File→open→Data→example2.3→Analyze→DescriptiveStatistics→Frequencies→將“人均純收入”選入Variable框→OK。輸出結(jié)果如表2.10所示:2024-2-122-122【例2.6】
——SPSS製作頻數(shù)分佈表輸出結(jié)果:表2.102007年我國各地區(qū)農(nóng)村居民家庭人均純收入的頻數(shù)分佈表
FrequencyPercentValidPercentCumulativePercentValid3000元以下(含3000)618.819.419.4
3000元-4000元(含4000元)1237.538.758.1
4000元-5000元(含5000元)618.819.477.4
5000元-6000元(含6000元)26.36.583.9
6000元以上515.616.1100.0
Total3196.9100.0
Total32100.0
2024-2-122-1232.用圖形展示數(shù)值型數(shù)據(jù)適合數(shù)值型數(shù)據(jù)的圖形有:直方圖(histogram)箱線圖(boxplots)
線圖(linecharts)莖葉圖(stem-and-leafdisplay)
…………2024-2-122-124直方圖直方圖(histogram)是用矩形的寬度和高度來表示頻數(shù)分佈的圖形。若是等距數(shù)列,一般用橫坐標表示數(shù)據(jù)分組,而縱坐標表示次數(shù)或頻數(shù);若是不等距數(shù)列,則應(yīng)按頻數(shù)密度繪製直方圖。2024-2-122-125【例2.7】
——直方圖沿用【例2.5】教師年齡原始數(shù)據(jù),用SPSS繪製的直方圖如下:圖2.3某大學(xué)50名教師年齡直方圖2024-2-122-126箱線圖箱線圖(boxplots)是用一組數(shù)據(jù)的五個特徵值即最大值、最小值、中位數(shù)、上四分位數(shù)、下四分位數(shù)來表示頻數(shù)分佈狀況的圖形,它由一個箱子和兩條線段組成。每個箱子的中間橫線是數(shù)據(jù)的中位數(shù)。根據(jù)不同資料,可繪製簡單箱線圖或多批箱線圖。2024-2-122-127【例2.8】
——簡單箱線圖沿用【例2.5】教師年齡原始數(shù)據(jù),用SPSS繪製的簡單箱線圖如下:圖2.550位教師年齡箱線圖2024-2-122-128【例2.9】
——多批箱線圖現(xiàn)有某大學(xué)9名大一新生英語、語文、數(shù)學(xué)的考試成績?nèi)绫?.11所示,試繪製多批箱線圖,比較9名學(xué)生的各科成績。表2.119名大一新生英語、語文、數(shù)學(xué)考試成績學(xué)生編號考試成績(分)英語語文數(shù)學(xué)123456789706589346678809356568033698587625078675498787080698575合計———2024-2-122-129解:用SPSS16.0繪製的多批箱線圖如圖2.6所示:
圖2.69名學(xué)生各科成績的箱線圖2024-2-122-130線圖線圖(linecharts)是用線條的延伸和波動來表明現(xiàn)象變動情況的圖形,它主要用於表示現(xiàn)象在不同時間上的變化趨勢。2024-2-122-131【例2.10】
——線圖
1998~2008年我國農(nóng)村居民人均純收入及城鎮(zhèn)居民人均可支配收入資料如表2.12所示,試用SPSS繪製線圖。表2.121998~2008年我國農(nóng)村居民人均純收入及城鎮(zhèn)居民人均可支配收入時間(年)農(nóng)村居民人均純收入(元)城鎮(zhèn)居民人均可支配收入(元)1998199920002001200220032004200520062007200821602210225323662476262229363255358741404761542558546280686077038472942210493117591378615781合計2024-2-122-132解:用SPSS16.0繪製的線圖如圖2.7所示:圖2.71998~2008年我國農(nóng)村居民人均純收入及城鎮(zhèn)居民人均可支配收入線圖2024-2-122-133莖葉圖莖葉圖(stem-and-leafdisplay)又稱“枝葉圖”,它是將數(shù)組中變化不大的高位數(shù)作為一個主幹(莖),將變化大的低位數(shù)作為分枝(葉),列在主幹的後面,來表示頻數(shù)分佈的。莖葉圖與直方圖相類似,但又與直方圖不同。莖葉圖保留了原始資料的資訊,而直方圖則無原始資料的資訊。2024-2-122-134【例2.11】
——莖葉圖根據(jù)【例2.5】某大學(xué)50名教師年齡原始數(shù)據(jù)繪製的莖葉圖如圖2.8所示:樹莖樹葉數(shù)據(jù)個數(shù)23456477999990001334559901233444555666677777801235904788112164圖2.8某大學(xué)50名教師年齡莖葉圖2024-2-122-135如果莖葉圖顯得過於擁擠,還可以把它擴展,將每個數(shù)莖分成兩段,尾數(shù)0~4的在數(shù)莖後以“*”表示;尾數(shù)5~9的在數(shù)莖後以“·”表示。如將圖2.8擴展後,便形成如圖2.9所示的擴展的莖葉圖:圖2.9某大學(xué)50名教師年齡擴展的莖葉圖樹莖樹葉數(shù)據(jù)個數(shù)2*2·3*3·4*4·5*5·6*6·47799999000133455990123344455566667777780123590478177481342222024-2-122-136若用SPSS16.0繪製莖葉圖,則如圖2.10所示:圖2.10某大學(xué)50名教師年齡的莖葉圖教師年齡Stem-and-LeafPlotFrequencyStem&Leaf1.002.47.002.77999997.003.00013344.003.55998.004.0123344413.004.55566667777784.005.01232.005.592.006.041.006.71.00Extremes(>=68)Stemwidth:10Eachleaf:1case(s)2024-2-122-1373.頻數(shù)分佈的類型常見的頻數(shù)分佈類型主要有鐘形分佈、J形分佈和U形分佈,如圖2.11所示:
圖2.11幾種常見的頻數(shù)分佈(a)正態(tài)分佈(b)右偏分佈(c)左偏分佈(d)正J形分佈(e)反J形分佈(f)U形分佈2024-2-122-138鐘形分佈鐘形分佈的特點是靠近中間的變數(shù)值分佈的次數(shù)多,靠近兩端的變數(shù)值分佈的次數(shù)少,即“兩頭小、中間大”。鐘形分布又分正態(tài)分布、右偏分布和左偏分布,如圖2.12所示:圖2.12鐘形分佈(a)正態(tài)分佈(b)右偏分佈(c)左偏分佈2024-2-122-139J形分佈及U形分佈J形分佈其分佈圖象像英文字母“J”字,包括正J形分佈和反J形分佈兩種類型。U形分佈的特點是靠近中間的變數(shù)值分佈的次數(shù)少,靠近兩端的變數(shù)值分佈的次數(shù)多,即“兩頭大、中間小”。(d)正J形分佈(e)反J形分佈(f)U形分佈圖2.13J形分佈與U形分佈2024-2-122-1402.4集中趨勢的度量2.4.1均值2.4.2幾何平均數(shù)2.4.3調(diào)和平均數(shù)2.4.4眾數(shù)2.4.5中位數(shù)2.4.6四分位數(shù)2.4.7眾數(shù)、中位數(shù)和均值的比較2024-2-122-1412.4.1
均值均值(mean)是全部數(shù)據(jù)的算術(shù)平均,也稱算術(shù)平均數(shù)。均值在統(tǒng)計分析中具有重要的地位,是集中趨勢的最主要測度值。根據(jù)掌握的資料不同,均值有簡單均值與加權(quán)均值兩種計算形式。
2024-2-122-142簡單均值適用於未分組數(shù)據(jù)。計算公式:2024-2-122-143【例2.12】
——簡單均值沿用【例2.5】中某大學(xué)50名任課教師年齡的原始數(shù)據(jù)(周歲):
3339452724353044524745424046684847463960464751295947295043293530293433456446446730272944533155414347
則教師的平均年齡為:2024-2-122-144加權(quán)均值適用於分組數(shù)據(jù)。計算公式:2024-2-122-145【例2.13】
——加權(quán)均值沿用“表2.5”教師年齡分組後的頻數(shù)分佈表資料,求教師的平均年齡。解:首先列計算表如表2.13所示:按年齡分(周歲)組中值人數(shù)(人)比重(%)組中值×人數(shù)20~3030~4040~5050~6060~7025354555658112164162242128200385945330260合計—501002120表2.1350名教師的平均年齡計算表2024-2-122-146【例2.13】
——加權(quán)均值表2.13中的數(shù)據(jù)代入公式,計算得教師的平均年齡為:2024-2-122-147問題討論【例2.12】及【例2.13】的計算結(jié)果出現(xiàn)了偏差,哪一例計算結(jié)果是教師的實際平均年齡?加權(quán)均值大小受什麼因素影響?加權(quán)均值中權(quán)數(shù)的實質(zhì)內(nèi)容是什麼?2024-2-122-148關(guān)於權(quán)數(shù)的進一步討論加權(quán)均值中的權(quán)數(shù)還可以表現(xiàn)為相對數(shù)的形式,從而均值計算公式可變形為:以表2.11資料為例,教師的平均年齡為:2024-2-122-149均值的數(shù)學(xué)性質(zhì)各變數(shù)值與均值的離差之和等於零各變數(shù)值與均值的離差平方和最小2024-2-122-1502.4.2
幾何平均數(shù)幾何平均數(shù)(geometricmean)是個變數(shù)值乘積的次方根,記作。適用範圍:變數(shù)值本身是比率(速度),而且各比率(速度)的乘積等於總的比率(速度),需計算平均比率或平均速度時使用。根據(jù)資料不同,幾何平均數(shù)有簡單幾何平均數(shù)與加權(quán)幾何平均數(shù)兩種計算形式。2024-2-122-151幾何平均數(shù)計算公式簡單幾何平均數(shù)加權(quán)幾何平均數(shù)式中:2024-2-122-152【例2.14】
——簡單幾何平均數(shù)某企業(yè)某種產(chǎn)品須經(jīng)過4個車間的流水作業(yè)才能完成,如果第一車間的產(chǎn)品合格率為90%,第二車間的產(chǎn)品合格率為97%,第三車間的產(chǎn)品合格率為95%,第四車間的產(chǎn)品合格率為98%。求平均合格率。解:各車間平均合格率為:2024-2-122-153【例2.15】
——加權(quán)幾何平均數(shù)某種產(chǎn)品的生產(chǎn)須經(jīng)過10道工序的流水作業(yè)才能完成,有2道工序的合格率都為90%,有3道工序的合格率都為92%,有4道工序的合格率都為94%,有1道工序的合格率為98%。求平均合格率。解:各工序平均合格率為:
2024-2-122-154【例2.16】
——加權(quán)幾何平均數(shù)某筆投資的年利率資料如表2.14所示:表2.14某筆投資的年利率資料年利率(%)年數(shù)2457813642已知年利率按複利計算。要求:求該筆投資的平均年利率。2024-2-122-155【例2.16】
——加權(quán)幾何平均數(shù)解:平均年利率=平均年本利率-12024-2-122-1562.4.3
調(diào)和平均數(shù)調(diào)和平均數(shù)也稱“倒數(shù)平均數(shù)”,它是對變數(shù)值的倒數(shù)求算術(shù)平均,然後再取倒數(shù)而得的平均數(shù),記作。根據(jù)資料不同,分為簡單調(diào)和平均與加加權(quán)調(diào)和平均兩種計算形式。
2024-2-122-157簡單調(diào)和平均數(shù)計算公式:式中:2024-2-122-158加權(quán)調(diào)和平均數(shù)計算公式式中:2024-2-122-159【例2.17】
——簡單調(diào)和平均數(shù)菜場上有一種蔬菜,價格分別為:早市2.5元/公斤;午市2元/公斤;晚市1元/公斤。若早、中、晚各花1元錢買蔬菜,則一天中買到蔬菜的平均價格為:2024-2-122-160【例2.18】
——加權(quán)調(diào)和平均數(shù)沿用【例2.17】資料,若早、中、晚分別花7.5元、4元和1元錢買蔬菜,則一天中買到蔬菜的平均價格為:2024-2-122-161問題討論簡單調(diào)和平均數(shù)是否有獨立應(yīng)用的意義?加權(quán)調(diào)和平均數(shù)與加權(quán)算術(shù)平均數(shù)之間有何聯(lián)繫?2024-2-122-1622.4.4
眾數(shù)眾數(shù)(mode)是指一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的那個變數(shù)值。記為。對於未分組數(shù)據(jù)或單變數(shù)值分組數(shù)據(jù),可直接尋找眾數(shù)。對於組距分組數(shù)據(jù),則需推算眾數(shù)的近似值。2024-2-122-163未分組數(shù)據(jù)求眾數(shù)例如數(shù)據(jù)集2,5,4,5,5,6,5,7,8,5
中,眾數(shù)為5,5大體上可代表這組數(shù)據(jù)的平均水準。2024-2-122-164組距數(shù)列求眾數(shù)對於組距分組數(shù)據(jù),可用比例插值法推算眾數(shù)的近似值:
式中:2024-2-122-165【例2.19】
——組距數(shù)列求眾數(shù)沿用表2.5教師年齡的分組資料,求教師年齡的眾數(shù)。解:教師年齡的眾數(shù)為:或:2024-2-122-166眾數(shù)小結(jié)眾數(shù)是一個位置平均數(shù)。眾數(shù)的優(yōu)點是計算簡便、意義明顯,不受極端值的影響。眾數(shù)的缺點:未使用所有變數(shù)值計算,因而靈敏度比較低。眾數(shù)通常只適宜於變數(shù)數(shù)列的分佈次數(shù)比較多,而且具有明顯集中趨勢的總體。2024-2-122-1672.4.5
中位數(shù)中位數(shù)(median)是將數(shù)據(jù)從小到大順序排列後,處在最中間位置的那個數(shù)值,記為。中位數(shù)把全部數(shù)據(jù)分成兩半,一半數(shù)據(jù)的值比中位數(shù)大,一半數(shù)據(jù)的值比中位數(shù)小,因此中位數(shù)也可以反映數(shù)據(jù)的平均水準。未分組數(shù)據(jù)和分組數(shù)據(jù)均可計算中位數(shù)。2024-2-122-168未分組數(shù)據(jù)求中位數(shù)在資料未分組的情況下,中位數(shù)的位置可由(n+1)/2來確定。例如有5個數(shù)值:4,6,9,10,13,則中位數(shù)的位置=(n+1/2=(5+1)/2=3,即為第3個數(shù)值,。若增加一個數(shù)值,變?yōu)?,6,9,10,13,16,則中位數(shù)的位置=(n+1)/2=(6+1)/2=3.5,即為第3個數(shù)值與第4個數(shù)值中間,。2024-2-122-169組距數(shù)列求中位數(shù)在組距數(shù)列中求中位數(shù)時,先根據(jù)N/2確定中位數(shù)的位置,找出中位數(shù)所在組,然後用比例插值法計算中位數(shù)的近似值。計算公式:
2024-2-122-170【例2.20】
——組距數(shù)列求中位數(shù)沿用表2.5教師年齡的分組資料,求教師年齡的中位數(shù)。解:教師年齡的中位數(shù)為:2024-2-122-171中位數(shù)小結(jié)中位數(shù)的優(yōu)點也是計算簡便、意義明顯,當數(shù)據(jù)的分佈為偏態(tài)時,中位數(shù)不受極端值的影響,它是一個位置代表值(位置平均數(shù)),具有較高的穩(wěn)健性。局限性主要是中位數(shù)不是根據(jù)所有變數(shù)值計算出來的,因此它作為一般水準的代表值靈敏度也較差。2024-2-122-1722.4.6
四分位數(shù)四分位數(shù)(quartile):將一組數(shù)據(jù)由小到大(或由大到小)排序後,用三個點將全部數(shù)據(jù)分為四等分,每份有25%的數(shù)據(jù),每個點上的數(shù)值稱為四分位數(shù)。處於第50%位置的數(shù)值就是中位數(shù),處於第25%位置的數(shù)值稱為下四分位數(shù),記為,處於第75%位置的數(shù)值稱為上四分位數(shù),記為。未分組數(shù)據(jù)和分組數(shù)據(jù)均可計算四分位數(shù)。2024-2-122-173未分組數(shù)據(jù)求四分位數(shù)在資料未分組的情況下,下四分位數(shù)的位置可由(n+1)/4來確定,上四分位數(shù)的位置可由3(n+1)/4來確定。數(shù)據(jù)個數(shù)為奇數(shù)或偶數(shù)兩種情況下均可計算四分位數(shù)。2024-2-122-174【例2.21】
——未分組資料求四分位數(shù)有9個家庭的人均月收入分別為950、1080、1120、1350、1500、1550、1690、1830、2000元,則可求得下四分位數(shù)的位置在第2個與第3個數(shù)值之間,於是下四分位數(shù)為:上四分位數(shù)的位置在第7個與第8個數(shù)值之間,於是上四分位數(shù)為:
2024-2-122-175【例2.22】
——未分組資料求四分位數(shù)有10個家庭的人均月收入分別為875、950、1080、1120、1350、1500、1550、1690、1830、2000元,則下四分位數(shù)的位置為:(10+1)/4=2.75,偏向第三個數(shù)值,這時下四分位數(shù)為:上四分位數(shù)的位置為:3(10+1)/4=8.25,偏向第八個數(shù)值,這時上四分位數(shù)為:
2024-2-122-176組距數(shù)列求四分位數(shù)在組距數(shù)列中求四分位數(shù)時,可用以下公式求近似值:2024-2-122-1772.4.7
眾數(shù)、中位數(shù)和均值的比較(1)眾數(shù)、中位數(shù)和均值的關(guān)係如果數(shù)據(jù)具有單一眾數(shù),且分佈是對稱的,則眾數(shù)、中位數(shù)和均值三者必定相等,三者之間的關(guān)係:2024-2-122-178眾數(shù)、中位數(shù)和均值的關(guān)係
如果數(shù)據(jù)是左偏分佈,說明數(shù)據(jù)存在極端小值,使均值偏低,三者之間的關(guān)係:如果數(shù)據(jù)是右偏分佈,說明數(shù)據(jù)存在極端大值,使均值偏高,三者之間的關(guān)係:需注意的是,如果數(shù)據(jù)具有雙眾數(shù)或多眾數(shù),上述關(guān)係不一定成立。2024-2-122-179(2)眾數(shù)、中位數(shù)和均值的特點和應(yīng)用場合均值由全部變數(shù)值計算而來,因此易受極端值的影響,數(shù)據(jù)出現(xiàn)偏態(tài)時,均值代表性差;眾數(shù)、中位數(shù)則不受極端值的影響。當數(shù)據(jù)呈對稱分佈或接近對稱分佈時,選擇用均值比較好;當數(shù)據(jù)為偏態(tài)分佈時,特別是當偏斜的程度較大時,應(yīng)選擇眾數(shù)或中位數(shù);當數(shù)據(jù)為定距尺度時,如商品(服裝、鞋類)等的規(guī)格,用眾數(shù)是較好的選擇。2024-2-122-1802.5
離散程度的度量2.5.1極差2.5.2四分位差2.5.3方差和標準差2.5.4變異係數(shù)2024-2-122-1812.5.1極差極差(rang)又稱極值或全距,它是一組數(shù)據(jù)中最大值減去最小值之差,反映數(shù)據(jù)的最大變動範圍。記為R。
極差的優(yōu)點是計算簡單,易於理解。極差的缺點是指標很粗略,未考慮數(shù)據(jù)分佈,易受極端值的影響。2024-2-122-1822.5.2四分位差
四分位差(inter-quartilerang):指一組數(shù)據(jù)中上四分位數(shù)與下四分位數(shù)之差,。計算公式:它反映了中間50%數(shù)據(jù)的離散程度。同時也可反映中位數(shù)對一組數(shù)據(jù)的代表性大小。2024-2-122-183四分位差在【例2.21】中:
四分位差=1760-1100=660(元),表明有一半家庭的人均月收入在1100~1760之間,它們之間的最大差距為660元。2024-2-122-1842.5.3方差和標準差方差(variance)和標準差(standarddeviation)是用於描述數(shù)值是如何在平均值周圍波動的。一個數(shù)據(jù)集的方差是用諸觀察值與它們平均值之間的偏差有多大來確定的,方差的平方根即是標準差。方差和標準差均可由總體數(shù)據(jù)或樣本數(shù)據(jù)求得。2024-2-122-185樣本方差樣本方差計算公式未分組數(shù)據(jù):
分組數(shù)據(jù):
式中:2024-2-122-186樣本標準差樣本標準差計算公式未分組數(shù)據(jù):
分組數(shù)據(jù):
式中:2024-2-122-187【例2.23】
——未分組數(shù)據(jù)求方差求樣本測量值3,7,2,1,8的方差。解:首先求出樣本均值:然後計算方差如下:2024-2-122-188【例2.24】
——未分組數(shù)據(jù)求標準差試對例2.23中的數(shù)據(jù)求標準差。解:標準差標準差等於3.11,表明數(shù)據(jù)集中的每個數(shù)值與它們的均值4.2相比,平均相差3.11。2024-2-122-189【例2.25】
——由分組數(shù)據(jù)求方差及標準差沿用表2.5教師年齡資料,求教師年齡的方差和標準差。解:首先列計算表如表2.15所示:表2.1550位教師年齡的方差和標準差計算表按年齡分組(周歲)組中值人數(shù)(人)20~3030~4040~5050~6060~7025354555658112164302.7654.766.76158.76510.762422.08602.36141.96952.562043.04合計—50—6162.002024-2-122-190【例2.25】
——由分組數(shù)據(jù)求方差及標準差解:根據(jù)表2.15資料,教師年齡的方差和標準差計算如下:結(jié)果表明,每個教師的年齡與他們的平均年齡相比,平均相差11.21歲。2024-2-122-191總體方差總體方差計算公式未分組數(shù)據(jù):
分組數(shù)據(jù):
式中:2024-2-122-192總體標準差總體標準差計算公式未分組數(shù)據(jù):
分組數(shù)據(jù):
式中:2024-2-122-193變異係數(shù)變異係數(shù)(coefficientof
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025版金融機構(gòu)房產(chǎn)抵押借款合同范本2篇
- 2025年度高端會員服務(wù)合作協(xié)議書
- 2025版旅行攻略主播獨家合作協(xié)議范本3篇
- 2025版車輛租賃合同:含車輛租賃及司機住宿服務(wù)2篇
- 二零二五年度企業(yè)定制化兼職招聘代理合同9篇
- 二零二五年度個人土地征收與補償安置協(xié)議書
- 2024年高速公路維護:井蓋采購與安裝合同
- 2024年特制:知識產(chǎn)權(quán)許可協(xié)議
- 2024年版裝修公司施工人員合作合同書版
- 2025年度板房租賃合同含室內(nèi)裝修及設(shè)計服務(wù)3篇
- 解析簡易呼吸器課件
- 國際商法(第四版)
- 《中國石化石油庫和罐區(qū)安全管理規(guī)定(2022年)757》
- 幼兒園課件:《獨自外出真危險》
- 倉儲類企業(yè)企業(yè)風(fēng)險分級管控和隱患排查治理雙體系(2022-2023手冊)
- 應(yīng)聘人員面試登記表
- 中職學(xué)校優(yōu)秀班主任事跡材料(完整版)
- 最全的官能團化合物的紅外吸收峰特征
- 世界氣候類型(圖很清晰)
- 新版【處置卡匯編】重點崗位人員應(yīng)急處置卡(全套25頁)
- EE系列磁芯參數(shù)
評論
0/150
提交評論