版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
管理統(tǒng)計學(xué)胡培主編第一章緒論
第一節(jié).管理現(xiàn)實中的統(tǒng)計應(yīng)用
第二節(jié).管理統(tǒng)計學(xué)的含義、特點和內(nèi)容
管理現(xiàn)實中的統(tǒng)計應(yīng)用
管理統(tǒng)計學(xué)在人口管理中的應(yīng)用
管理統(tǒng)計學(xué)在市場營銷中的應(yīng)用
管理統(tǒng)計學(xué)在企業(yè)管理中的應(yīng)用
管理統(tǒng)計學(xué)在投資分析和風險決策中的應(yīng)用
1.投資分析
2.風險管理
3.期貨交易
管理統(tǒng)計學(xué)的含義、特點和內(nèi)容
管理統(tǒng)計學(xué)的含義:它是一門以經(jīng)濟與管理理論為基礎(chǔ),采用描述和推斷的方法來對社會經(jīng)濟和管理現(xiàn)象中研究對象的數(shù)量特征、數(shù)量關(guān)系、發(fā)展變化趨勢及規(guī)律進行研究,最終解決管理和經(jīng)濟問題的學(xué)科。它是一門應(yīng)用性的方法論科學(xué),以數(shù)理統(tǒng)計學(xué)的理論和方法為基礎(chǔ),不斷吸收信息論、控制論、系統(tǒng)論和決策論等方面的研究成果,使統(tǒng)計職能從反映和監(jiān)督拓展到推斷、預(yù)測和決策的學(xué)科。
管理統(tǒng)計學(xué)的特點:描述統(tǒng)計:通過大量數(shù)據(jù)資料的搜集、整理和分析,描述出總體數(shù)據(jù)的分布特征,進而達到對總體內(nèi)在的數(shù)量規(guī)律性的認識。推斷統(tǒng)計:根據(jù)實際工作中所搜集到的統(tǒng)計資料絕大部分都是樣本資料這一特點,利用這些樣本資料所提供的信息,進一步對總體的數(shù)量規(guī)律性做出科學(xué)的推論。管理統(tǒng)計學(xué):將描述統(tǒng)計和推斷統(tǒng)計的基本方法有機地結(jié)合在一起,形成在社會經(jīng)濟管理中常用的統(tǒng)計方法,并用以解決實際問題的一門學(xué)問。
管理統(tǒng)計學(xué)的內(nèi)容:以社會經(jīng)濟現(xiàn)象靜態(tài)信息為依據(jù),應(yīng)用統(tǒng)計分組和變量數(shù)列,采取絕對數(shù)、相對數(shù)、平均數(shù)等具有離散趨勢的指標,對現(xiàn)象總體的頻數(shù)分布、極差、絕對總量、相對程度以及集中離散趨勢等進行描述。根據(jù)社會經(jīng)濟現(xiàn)象動態(tài)統(tǒng)計信息,采用動態(tài)比較、動態(tài)平均、長期趨勢、季節(jié)波動等,對現(xiàn)象總體的發(fā)展變化情況、變動趨勢及變化成分進行統(tǒng)計描述和推斷。對社會經(jīng)濟現(xiàn)象中大量隨機變量間的交互統(tǒng)計信息,采用相關(guān)回歸分析,刻畫現(xiàn)象變量間的相關(guān)程度和數(shù)學(xué)表達式,建立回歸方程進行統(tǒng)計預(yù)測;或采用投入產(chǎn)出分析,揭示部門間的數(shù)量聯(lián)系,綜合反映其運行狀態(tài)。根據(jù)實際現(xiàn)象變量的概率分布、大數(shù)定律和中心極限定律,運用抽樣推斷原理,按照一定的方式用樣本統(tǒng)計量去推算統(tǒng)計總體參數(shù),并進行假設(shè)檢驗、方差分析和非參數(shù)估計等。根據(jù)現(xiàn)象過去和現(xiàn)在的統(tǒng)計信息,對未來數(shù)量特征,運用平均數(shù)模型、長期趨勢模型、季節(jié)波動模型、回歸模型及時間序列分析等,借助計算機進行統(tǒng)計預(yù)測,為統(tǒng)計決策和控制提供數(shù)值依據(jù)。根據(jù)社會經(jīng)濟數(shù)量的目標函數(shù)、約束條件、自然狀態(tài)及其概率,建立數(shù)學(xué)模型,運用優(yōu)化思想、風險決策技術(shù)及貝葉斯決策原理對企業(yè)實施有效決策,為合理的經(jīng)濟管理核算服務(wù)。第二章統(tǒng)計數(shù)據(jù)的搜集與整理第一節(jié).數(shù)據(jù)的計量與類型第二節(jié).統(tǒng)計數(shù)據(jù)的搜集與可靠性分析
第三節(jié).抽樣調(diào)查中的基本概念
第四節(jié).抽樣方法介紹
學(xué)習(xí)目的理解數(shù)據(jù)類型掌握抽樣中用到的基本概念的含義掌握幾種抽樣方法的抽樣過程、要求、特點案例與背景某化妝品公司對其銷售情況做統(tǒng)計,以制定下一季度的實施計劃。銷售情況包括銷售代表和門市的月平均銷售量及他們所占比率。500名銷售代表和20家門市構(gòu)成此次統(tǒng)計的總體,公司參照門市的營業(yè)額來完成調(diào)查。假設(shè),我們無法獲取全部銷售代表的信息,我們就考慮選取50名銷售代表組成一個樣本,顯然,這樣做比總體統(tǒng)計要節(jié)約時間和成本。本章將學(xué)習(xí)數(shù)據(jù)的計量與類型、數(shù)據(jù)的搜集、抽樣方法和抽樣分布的幾種類型,并簡單介紹其應(yīng)用范圍。第一節(jié)數(shù)據(jù)的計量與類型1.1 數(shù)據(jù)的計量尺度
變量:對象(或單位)的特征。例如,我們想研究對象的性別、身高或他所持有的定期大額存單數(shù)量。一般來說,變量分為定性變量和定量變量。
定性變量類型離散定量連續(xù)定性變量與定量變量定性變量:定性變量不一定是數(shù)值型變量,但卻可以歸到數(shù)值型變量當中。定性變量的數(shù)值沒有數(shù)學(xué)意義。定性變量得到的觀察值常常稱為“類型數(shù)據(jù)”。一般而言,定性變量包括計算有多少對象或者描述有多少對象(用百分比表示)落在某一特定的區(qū)域。定量變量:定量變量表現(xiàn)為數(shù)值型變量。這些數(shù)值有數(shù)學(xué)意義。定量變量分為兩類:即離散變量和連續(xù)變量。離散變量與連續(xù)變量離散變量:如果得到的一組可能結(jié)果是有限或可數(shù)的,那么我們稱這種定量變量為離散變量。也就是說,離散變量表現(xiàn)為某些數(shù)值,各個可能的數(shù)值之間存在間隙。連續(xù)變量:如果得到的一組可能結(jié)果是區(qū)間集合內(nèi)的任意數(shù)值,那么我們稱這種定量變量為連續(xù)變量。也就是說,數(shù)值可以是區(qū)間內(nèi)的任意點?!纠?-1】判斷下列變量的類型郵局信件的重量小轎車的牌子鐳射唱片總的播放時間鐳射唱片所含的歌曲數(shù)量中午的溫度某個季節(jié)的降雨量一個人的宗教信仰繩子長度某個班不同學(xué)生的生日日期上個季節(jié)某大學(xué)患感冒的大學(xué)生人數(shù)連續(xù)定量變量定性變量連續(xù)定量變量離散定量變量連續(xù)定量變量連續(xù)定量變量定性變量連續(xù)定量變量離散定量變量離散定量變量1.2統(tǒng)計數(shù)據(jù)的類型定性變量可以采用“名義尺度”或“順序尺度”來測量名義尺度:數(shù)值屬于不同的類型。這些數(shù)值沒有任何數(shù)學(xué)意義或者排列順序沒有任何意義。也就是說,數(shù)值是任意性的。例如,性別、宗教和種族就屬于這一類。順序尺度:當我們把數(shù)值歸為不同類型時,排列順序(升序或降序)有意義。也就是說,這些數(shù)值暗示了類型的級別、偏好和順序。注意,由于測量值沒有量綱,因此數(shù)值之間的差值并不代表兩個對象之間的差距。例如,對餐館提供的服務(wù)進行評級、對軟飲料偏好程度進行評定就屬于這一類。
定量變量可以采用“比例尺度”或“間隔尺度”來測量間隔尺度:由于有測量單位,因此我們可以用數(shù)值之間的差值來描述兩個對象之間的差距。但是,數(shù)值之間的比例沒有任何意義,“零”這個數(shù)值沒有內(nèi)在的含義??梢宰骷臃?、減法計算,但不可以作乘法計算。例如,溫度就屬于這一類。我們不能說10攝氏度是5攝氏度的2倍。比例尺度:由于也有測量單位,因此我們可以用數(shù)值之間的差值來描述兩個對象之間的差距。數(shù)值之間的比例有意義,而且“零”這個數(shù)值有內(nèi)在的含義不僅可以作加減運算,還可以作乘除運算。例如,身高、重量和花費的時間就屬于這一類。【例2-2】美國消費者是否習(xí)慣通過互聯(lián)網(wǎng)利用信用卡進行購物?假設(shè)一家著名的機構(gòu)表示一旦突破了80%這個數(shù)字關(guān)卡,人們在頭腦中就會牢固樹立起通過互聯(lián)網(wǎng)利用信用卡進行購物的觀念。Gallop公司近期所做的一項民意調(diào)查表明:在被調(diào)查的302位購物者當中,有267人是通過互聯(lián)網(wǎng)利用信用卡進行支付的。根據(jù)Gallop公司的調(diào)查結(jié)果,我們很想證實是否有足夠的證據(jù)讓我們得出以下結(jié)論:80%以上的消費者愿意通過互聯(lián)網(wǎng)利用信用卡進行購物。
1.我們關(guān)心什么變量?變量的性質(zhì)是什么?
2.測量指標是什么?【例2-3】在下列事項中采用什么測量指標
能夠最好地描述相關(guān)信息?A.一家移動電話公司最近宣布它將從東南亞運營機構(gòu)裁減80名職員。B.天氣預(yù)報說,昨天下午1點53分觀察到的溫度值突破了新加坡的歷史記錄。C.一家大公司的人力資源管理部門想要調(diào)查員工是否對在職培訓(xùn)感到滿意。D.一家市場研究機構(gòu)想要調(diào)查行人是否注意到新加坡的大片島嶼安裝了新的交通信號燈系統(tǒng)(LED)。
A.比例尺度
B.間隔尺度
C.順序尺度
D.名義尺度
【例2-4】考察以下變量,這些變量代表了新加坡390所學(xué)校的情況:該地區(qū)的學(xué)生數(shù)量、學(xué)校名稱、每名學(xué)生花費的金額、教師的平均工資水平、學(xué)生的智商。
1.哪些變量屬于定性變量?哪些變量屬于定量變量?
2.確定每種變量的測量指標。
(a) 定性變量
學(xué)校名稱定量變量
該地區(qū)的學(xué)生數(shù)量每名學(xué)生花費的金額教師的平均工資水平學(xué)生的智商
(b)該地區(qū)的學(xué)生數(shù)量
比例尺度 學(xué)校名稱
名義尺度 每名學(xué)生花費的金額
比例尺度 教師的平均工資水平
比例尺度 學(xué)生的智商
間隔尺度1.3絕對數(shù)與相對數(shù)絕對數(shù):
反映客觀現(xiàn)象總體在一定時間、地點條件下的總規(guī)模、總水平的綜合指標,表現(xiàn)為事物的絕對水平的描述。如:一定總體范圍內(nèi)的糧食總產(chǎn)量、農(nóng)業(yè)總產(chǎn)值、國營企業(yè)數(shù)等。相對數(shù):反映兩個有聯(lián)系的指標的比值,它可以從數(shù)量上反映兩個相互聯(lián)系的現(xiàn)象之間的對比關(guān)系和聯(lián)系程度。相對數(shù)通常用百分比、千分比或萬分比等來表示。如:每千只燈泡的次品率、每百名疾病患者的死亡率等。計算相對數(shù)的基本公式為:相對數(shù)的種類很多,根據(jù)其表現(xiàn)形式可分為兩類:一類是有名數(shù),即凡是由兩個性質(zhì)不同而又有聯(lián)系的絕對數(shù)或平均數(shù)指標對比計算所得的相對數(shù),一般都是有名數(shù),而且多用復(fù)合計量單位,如人口密度、人均占有土地和人均國內(nèi)生產(chǎn)總值等。另一類是無名數(shù),無名數(shù)可以根據(jù)不同的情況分別采用倍數(shù)、成數(shù)、系數(shù)、百分數(shù)、千分數(shù)等來表示,如:人口出生率、死亡率等。相對數(shù)根據(jù)相互對比的指標性質(zhì)和所能發(fā)揮的作用不同,又可分為動態(tài)相對數(shù)、結(jié)構(gòu)相對數(shù)、比較相對數(shù)、強度相對數(shù)、計劃完成程度相對數(shù)等五種?!纠?-5】考察某時期兩個部隊患病的情況:A部隊有534人,其中患病人數(shù)為17人;B部隊有313人,其中患病人數(shù)為10人。我們能否得到A部隊的患病率較高的結(jié)論。從絕對數(shù)的概念來看,A部隊患病人數(shù)比B部隊高7人。從相對數(shù)來看,
A部隊的患病率為:
B部隊的患病率為:因此,兩部隊的患病率是一樣的。第二節(jié)統(tǒng)計數(shù)據(jù)的搜集與可靠性分析2.1總體與樣本總體和個體對我們研究的對象來說,研究對象的全部元素組成的集合,稱為總體組成總體的每一個元素成為個體,個體又稱為總體單位。作為統(tǒng)計的總體和個體,必須具備下面4個條件:
①客觀性②大量性
③同質(zhì)性④差異性統(tǒng)計總體按其包含的單位數(shù)分,可分成:有限總體和無限總體兩類。統(tǒng)計總體按其個體的時空性分,可分成:空間總體和時間總體兩類。總體和個體的概念不是固定不變的,隨著研究目的的不同,它們二者是會轉(zhuǎn)換的。
樣本與抽樣樣本:從總體中隨機抽出一部分個體進行觀察所組成的稱為樣本。簡單隨機樣本:若被抽出的每一個個體之間相互獨立,與總體有相同的分布,每個個體被抽取的幾率是一樣的(隨機性),則這樣的樣本叫做簡單隨機樣本。抽樣:而從總體挑選一部分個體的過程叫做抽樣。
變異、變量和變量值變異:某一標志具體表現(xiàn)在各總體單位的差別或差異稱之為變異。包括品質(zhì)標志的差異和數(shù)量標志的差異。變量:即可變的數(shù)量標志。變量按變量變動是否連續(xù),分為連續(xù)型變量與離散型變量。連續(xù)型變量是連續(xù)不斷的,相鄰兩個變量值之間可作無限分割;離散型變量值不是連續(xù)不斷的,相鄰兩個變量值之間不能無限分割。變量值:亦稱標志值,是變量的具體數(shù)值表現(xiàn)。
參數(shù)和統(tǒng)計量參數(shù)研究者想要了解的總體的某種特征值所關(guān)心的參數(shù)主要有總體均值()、標準差()、總體比例()等總體參數(shù)通常用希臘字母表示統(tǒng)計量根據(jù)樣本數(shù)據(jù)計算出來的一個量所關(guān)心的樣本統(tǒng)計量有樣本均值(x)、樣本標準差(s)、樣本比例(p)等樣本統(tǒng)計量通常用小寫英文字母來表示2.2統(tǒng)計調(diào)查方式統(tǒng)計調(diào)查是取得社會經(jīng)濟數(shù)據(jù)的主要途徑,也是直接獲得第一手統(tǒng)計數(shù)據(jù)的重要手段。主要的統(tǒng)計調(diào)查方式有:普查、抽樣調(diào)查和統(tǒng)計報表三種。另外,除了上述三種調(diào)查方式外,實際工作中還常用到重點調(diào)查和典型調(diào)查,它們屬于非全面調(diào)查。2.3數(shù)據(jù)的搜集方法
統(tǒng)計數(shù)據(jù)的直接來源
無論采取何種方式進行調(diào)查,在取到需要的統(tǒng)計數(shù)據(jù)時,都有一些具體的數(shù)據(jù)搜集方法。調(diào)查方法可分成:詢問法、觀察法和實驗法三種。除了以上三種主要的調(diào)查方法外,還有計算機輔助調(diào)查、座談會、個別深度調(diào)查等。統(tǒng)計數(shù)據(jù)的間接來源
第二手數(shù)據(jù)主要來源是公開出版或報道的數(shù)據(jù),當然有些是未公開的。在我國,公開出版或報道的社會經(jīng)濟統(tǒng)計數(shù)據(jù)主要來源是國家和地方的統(tǒng)計部門以及各種學(xué)報。除了上面獲得統(tǒng)計數(shù)據(jù)的方式外,還可以從各種報刊、雜志、圖書、電視傳播中獲得,隨著計算機網(wǎng)絡(luò)技術(shù)的發(fā)展,我們也可以從因特網(wǎng)中獲得統(tǒng)計數(shù)據(jù)。2.4調(diào)查方案的設(shè)計
1.確定調(diào)查目的2.確定調(diào)查對象和調(diào)查單位3.設(shè)計調(diào)查項目和調(diào)查表4.確定調(diào)查時間5.調(diào)查的組織實施2.5資料的質(zhì)量分析和可靠性分析
統(tǒng)計數(shù)據(jù)的誤差在現(xiàn)實生活中,誤差的產(chǎn)生是不可避免的,統(tǒng)計數(shù)據(jù)的誤差通常是統(tǒng)計數(shù)據(jù)與客觀世界間的差距,誤差的來源主要有主觀性誤差和客觀性誤差兩類。主觀性誤差是由于調(diào)查者或被調(diào)查者在調(diào)查的過程中主觀人為因素造成的。客觀性誤差主要是統(tǒng)計推斷和預(yù)測所產(chǎn)生的隨機誤差。隨機誤差:由于樣本的隨機性而產(chǎn)生的樣本對總體代表性的誤差叫做抽樣誤差,也稱為隨機誤差。統(tǒng)計數(shù)據(jù)的質(zhì)量分析
精度:保證抽樣誤差或隨機誤差盡量小準確性:人為因素產(chǎn)生的誤差或偏差足夠小。關(guān)聯(lián)性:滿足相關(guān)人員決策、管理和研究的需要。及時性:在最短時間內(nèi)取得并公開數(shù)據(jù)。一致性:保持時間序列可比性。經(jīng)濟性:在滿足上面指標前提下,以最小費用式取得數(shù)據(jù)。統(tǒng)計數(shù)據(jù)的可靠性分析
首先要明確統(tǒng)計調(diào)查的目的,我們選取某個事件作為調(diào)查對象必須符合調(diào)查目的;其次,在取得統(tǒng)計數(shù)據(jù)的過程中,不可避免地要經(jīng)歷抽樣的過程,統(tǒng)計數(shù)據(jù)的可靠性主要依賴于抽樣的過程是否科學(xué)。在抽樣的過程中應(yīng)注意以下4個方面:隨機性:樣本抽取的過程一定是隨機的。換句話說,每個個體被抽到的幾率是一樣的,不能因為人為因素破壞這種隨機性。一致性:樣本結(jié)構(gòu)和總體結(jié)構(gòu)應(yīng)該保持一致。獨立性:樣本中每個個體之間應(yīng)該是獨立的。足量性:樣本容量一定要足量。第三節(jié)抽樣調(diào)查中的基本概念3.1概率抽樣與非概率抽樣概率抽樣也稱隨機抽樣。概率抽樣:就是使總體中的每一個單位都有一個已知的、不為零的概率進入樣本的抽樣方法。非概率抽樣:是指抽樣時不遵循隨機原則,而是按照研究人員的主觀經(jīng)驗或其它條件來抽取樣本的一種抽樣方法,也就是說在抽樣時,總體單元的入樣概率事先未知,入樣與否與研究人員的經(jīng)驗和主觀意志有很大關(guān)系。兩者的不同:是否遵循隨機原則非概率抽樣一般不能用數(shù)理統(tǒng)計方法進行推斷。3.2抽樣誤差和處理
抽樣誤差:由于個體存在差異,導(dǎo)致每個樣本的樣本統(tǒng)計量的值與總體參數(shù)之間存在的差異。影響抽樣誤差的因素:總體各單位標志值的差異程度;樣本的單位數(shù);抽樣的方法;抽樣調(diào)查的組織形式。盡管抽樣誤差是無法避免的,但它卻是可以控制的。選擇適當?shù)某闃臃椒ɑ蛘叱闃釉O(shè)計是控制這種誤差的一個重要方法。第四節(jié)抽樣方法介紹樣本不能準確代表總體,在研究設(shè)計中會出現(xiàn)偏差:偏差:如果抽樣方法得到的結(jié)果與總體的真實情況存在系統(tǒng)性差距,那么我們說這種抽樣方法存在偏差選擇性偏差:系統(tǒng)性趨勢排除或包括某一類單位無反應(yīng)偏差:樣本所選擇的單位不產(chǎn)生反應(yīng),而且與應(yīng)答者相比,它們具有非常不同的特性反應(yīng)偏差:調(diào)查者的提問時間和提問方式會對被調(diào)查單位做出的反應(yīng)產(chǎn)生影響【例2-6】:電視節(jié)目就槍支控制問題進行了一項民意調(diào)查。電視觀眾被邀請就這一問題發(fā)表自己的意見。你認為民意調(diào)查結(jié)果值得信賴嗎?電視節(jié)目調(diào)查一般會產(chǎn)生偏差。因為這種調(diào)查是依據(jù)自愿抽樣方法進行的,即只有那些觀看電視節(jié)目并對這一問題有強烈意見的人才有可能接受調(diào)查。因此,調(diào)查結(jié)果存在偏差,不能真正加以信賴?!纠?-7】:電話調(diào)查:如果隨機從電話本上選取電話及其號碼進行某項調(diào)查,請問是否會產(chǎn)生偏差?由于只有那些將電話及其號碼印在電話本上的人才有機會被選入到樣本中,因此會出現(xiàn)選擇性偏差?!纠?-8】:郵件調(diào)查在大部分郵件調(diào)查中,較低和較高的社會階層一般不愿意對調(diào)查做出回答,這表面調(diào)查結(jié)果過于代表中層階級的觀點。這時會產(chǎn)生無反應(yīng)偏差?!纠?-9】:一名心理學(xué)家想要研究夫婦之間的分居問題。此時你會遇到這樣一個問題,“心理學(xué)家發(fā)現(xiàn)分居會削弱夫婦之間的感情,正如一句俗語所說,眼不見,心不想。你能夠想象為什么會那樣嗎?”受訪者對結(jié)果并不感到奇怪。這名心理學(xué)家在不同的時候?qū)α硪唤M受訪者又進行了同樣的調(diào)查,“心理學(xué)家發(fā)現(xiàn)分居會增強夫婦之間的感情。正如一句俗語所說,分離使愛心更濃。你能夠想象為什么會那樣嗎?”受訪者對結(jié)果并不感到奇怪。由于敘述中選用了不同的詞匯,因此調(diào)查結(jié)果出現(xiàn)了反應(yīng)偏差。4.1隨機抽樣簡單隨機抽樣(純隨機抽樣)對總體單位不進行任何分組排列,僅按隨機原則直接從總體中抽取樣本,以使總體中的每一個單位均有同等的被抽取的機會。一種基本的等概率抽樣方法,其他概率抽樣都可以看成是由它派生出來的。具體做法:直接抽選法抽簽法隨機數(shù)碼表法主要用于以下情況:對調(diào)查對象的情況很少了解;總體單位的排列沒有秩序;抽到的單位比較分散時也不影響調(diào)查工作。4.2分層抽樣(類型抽樣)
在分層隨機抽樣中,首先將總體分成若干層,然后從每一層中抽取一個簡單隨機樣本。每一層抽取的觀察值數(shù)量不僅能夠代表樣本的百分比,而且能夠代表總體的百分比。同一層的觀察值應(yīng)當有相同的特征。不同層的觀察值會表現(xiàn)出不同的特征。具體步驟如下:第一,按照某一種或幾種特征對總體進行分層。第二,確定在各層中抽取樣本單位的數(shù)量。可采取等比例和不等比例抽取兩種不同的方法。
各層(組)的抽樣單位數(shù)的確定類型比例抽樣方法不考慮各組標志差異程度,而是根據(jù)統(tǒng)一的比例來確定各組抽取的單位數(shù)。類型適宜抽樣方法根據(jù)抽樣誤差大小與標志差異程度、抽樣單位數(shù)等的關(guān)系來確定。差異大的組多抽,差異小的組少抽。分層抽樣抽樣的主要優(yōu)點有:提高從樣本推斷總體的精確性。分層抽樣特別適用于既要對總體參數(shù)進行推斷,也要對各子總體(層)的參數(shù)進行推斷的情形,例如一項全國性抽樣調(diào)查,若以省為層,那么調(diào)查以后即可進行全國性的統(tǒng)計,也可獲得各省的統(tǒng)計數(shù)據(jù)。分層抽樣實施起來靈活方便,而且便于組織。由于抽樣是在各層獨立進行的,因此它允許根據(jù)不同層的情況采用不同的抽樣方法。分層抽樣要求:盡量使層(組)的分布與總體中個體的分布相似即要求層內(nèi)(組內(nèi))方差盡量小,而層間(組間)方差盡量大。分層抽樣的主要局限性:調(diào)查者必須對總體情況有較多的了解,否則無法進行恰當?shù)姆謱印?.3等距抽樣等距抽樣,又稱系統(tǒng)抽樣或機械抽樣。是對研究的總體按一定的順序排列,每隔一定的間隔抽取一個或若干個單位,并把這些抽取的單位組成樣本進行觀察的一種抽樣方法。kiki+ki+2ki+(n-1)kik等距抽樣示意圖雖然等距抽樣在概念方面與簡單隨機抽樣很相似,但這種方法在實踐中更加容易實施。這種方法是以相等間隔從總體中抽取觀察值。等距抽樣的主要優(yōu)點:易于實施,工作量少樣本在總體中的分布比較均勻,故而抽樣誤差小于或至多等于簡單隨機抽樣,即較其精確。等距抽樣的弱點:容易造成系統(tǒng)性誤差等距抽樣是以總體單位的無規(guī)律排列為前提的,其存在的一個潛在問題是周期性,當總體呈現(xiàn)周期性變化時會出現(xiàn)這種現(xiàn)象,而且周期長度與我們采用系統(tǒng)抽樣觀察到的結(jié)果一樣。雖然周期性并不常見,但在進行等距抽樣時應(yīng)當考慮到這個問題。
等距抽樣的分類按排隊所依據(jù)的標志不同,分為:無關(guān)標志排隊:排隊的標志與調(diào)查的內(nèi)容無關(guān)。有關(guān)標志排隊:排隊的標志與調(diào)查內(nèi)容有關(guān)。按樣本單位抽選的方法不同,可分為:隨機起點等距抽樣無關(guān)標志排隊可用。有關(guān)標志排隊會產(chǎn)生系統(tǒng)性誤差。
半距起點等距抽樣有關(guān)標志排隊和無關(guān)標志排隊都可用隨機性不明顯;只能抽取一個樣本,不能進行樣本輪換,抽樣的利用率低。
對稱等距抽樣避免了半距抽樣的局限性,優(yōu)點更加明顯。4.4整群抽樣整群抽樣又稱聚類抽樣把總體分成若干個組(或群)。每一組就好像是總體的縮影。然后從這些群中抽取若干群作為一個簡單隨機樣本,或者對被抽中群的所有個體進行全面調(diào)查。主要優(yōu)點:易于取得抽樣框,便于組織,可以節(jié)省人力、物力和財力。最大缺點:樣本分布不均勻,樣本的代表性差。它與其他抽樣方法相比,在樣本容量相同時,其抽樣誤差較大。要求:要使整群抽樣的誤差小成為可能的話,在劃分群時,應(yīng)使群內(nèi)方差盡可能大,而使群間方差盡可能小。案例分析:1936年美國總統(tǒng)大選,由民主黨人羅斯福對陣共和黨人蘭登。美國一著名雜志社作了一項民意調(diào)查,該雜志根據(jù)電話號碼簿、俱樂部名冊、駕駛證等隨機調(diào)查了大量的民眾。據(jù)其結(jié)果,該雜志預(yù)言蘭登將以壓倒性優(yōu)勢獲勝,但大選結(jié)果卻截然相反。試從抽樣的角度詮釋預(yù)測失敗的原因。究其原因,在于該雜志是從電話號碼簿、俱樂部名冊、駕駛證等去選擇被調(diào)查對象的,這類人多屬于富有階層,傾向共和黨者居多,這違反了隨機抽樣的原則,屬于便利抽樣。因此,這類教訓(xùn)應(yīng)在抽樣調(diào)查中汲取。第三章統(tǒng)計數(shù)據(jù)的概括性描述第三章統(tǒng)計數(shù)據(jù)的概括性描述第一節(jié)統(tǒng)計數(shù)據(jù)的整理與展示第二節(jié)數(shù)據(jù)集位置的測度第三節(jié)數(shù)據(jù)集離散程度的測度第四節(jié)數(shù)據(jù)集的峰度與偏度學(xué)習(xí)目標了解數(shù)據(jù)預(yù)處理的內(nèi)容和目的掌握分配數(shù)列的整理與顯示方法掌握數(shù)據(jù)集的位置測度的變量與方法掌握數(shù)據(jù)集的離散程度測度的變量與方法掌握數(shù)據(jù)集的分布形態(tài)測度的變量與方法用SPSS作頻數(shù)分布表和形圖案例與背景統(tǒng)計數(shù)據(jù)首先需要經(jīng)過預(yù)處理和整理,以便人們對數(shù)據(jù)分布的類型和特點有了一個大概的了解。但這種了解并不能幫助我們準確地描述出統(tǒng)計數(shù)據(jù)的分布,還需要更深入的分析,找到能反映數(shù)據(jù)分布特征的各個代表值。對統(tǒng)計數(shù)據(jù)分布的特征和規(guī)律,可以從本章所介紹的三個方面進行測度和描述:一是數(shù)據(jù)集位置的測度,反映各數(shù)據(jù)向其中心值靠攏或聚集的程度;二是數(shù)據(jù)集離散程度,反映各數(shù)據(jù)遠離其中心值的趨勢;三是數(shù)據(jù)集的峰度與偏度,反映數(shù)據(jù)分布的形狀。這三個方面從不同側(cè)面反映了數(shù)據(jù)分布特征。本章將重點介紹這些代表值的計算方法、特點及其應(yīng)用。第一節(jié)統(tǒng)計數(shù)據(jù)的整理與展示3.1.1數(shù)據(jù)的預(yù)處理3.1.2頻數(shù)分布表的編制與圖示3.1.1數(shù)據(jù)的預(yù)處理數(shù)據(jù)的審核檢查數(shù)據(jù)中的錯誤數(shù)據(jù)的篩選找出符合條件的數(shù)據(jù)數(shù)據(jù)排序升序和降序?qū)ふ覕?shù)據(jù)的基本特征數(shù)據(jù)審核—原始數(shù)據(jù)
(rawdata)審核的內(nèi)容完整性審核檢查應(yīng)調(diào)查的單位或個體是否有遺漏所有的調(diào)查項目或指標是否填寫齊全準確性審核檢查數(shù)據(jù)是否真實反映客觀實際情況,內(nèi)容是否符合實際檢查數(shù)據(jù)是否有錯誤,計算是否正確等數(shù)據(jù)的審核—原始數(shù)據(jù)
(rawdata)審核數(shù)據(jù)準確性的方法邏輯檢查從定性角度,審核數(shù)據(jù)是否符合邏輯,內(nèi)容是否合理,各項目或數(shù)字之間有無相互矛盾的現(xiàn)象主要用于對分類和順序據(jù)的審核計算檢查檢查調(diào)查表中的各項數(shù)據(jù)在計算結(jié)果和計算方法上有無錯誤主要用于對數(shù)值型數(shù)據(jù)的審核數(shù)據(jù)的審核—二手數(shù)據(jù)
(secondhanddata)適用性審核弄清楚數(shù)據(jù)的來源、數(shù)據(jù)的口徑以及有關(guān)的背景材料確定數(shù)據(jù)是否符合自己分析研究的需要時效性審核盡可能使用最新的數(shù)據(jù)確認是否必要做進一步的加工整理數(shù)據(jù)篩選
(datafilter)當數(shù)據(jù)中的錯誤不能予以糾正,或者有些數(shù)據(jù)不符合調(diào)查的要求而又無法彌補時,需要對數(shù)據(jù)進行篩選數(shù)據(jù)篩選的內(nèi)容包括將某些不符合要求的數(shù)據(jù)或有明顯錯誤的數(shù)據(jù)予以剔除將符合某種特定條件的數(shù)據(jù)篩選出來,而不符合特定條件的數(shù)據(jù)予以剔用SPSS進行數(shù)據(jù)篩選
8名學(xué)生的考試成績數(shù)據(jù)
數(shù)據(jù)篩選
(datafilter)數(shù)據(jù)排序
(datarank)按一定順序?qū)?shù)據(jù)排列,以發(fā)現(xiàn)一些明顯的特征或趨勢,找到解決問題的線索排序有助于對數(shù)據(jù)檢查糾錯,以及為重新歸類或分組等提供依據(jù)在某些場合,排序本身就是分析的目的之一排序可借助于計算機完成數(shù)據(jù)排序
(方法)分類數(shù)據(jù)的排序字母型數(shù)據(jù),排序有升序降序之分,但習(xí)慣上用升序漢字型數(shù)據(jù),可按漢字的首位拼音字母排列,也可按筆畫排序,其中也有筆畫多少的升序降序之分數(shù)值型數(shù)據(jù)的排序遞增排序:設(shè)一組數(shù)據(jù)為x1,x2,…,xn,遞增排序后可表示為:x(1)<x(2)<…<x(n)遞減排序:可表示為:x(1)>x(2)>…>x(n)3.1.2頻數(shù)分布表的編制與圖示頻數(shù)與頻數(shù)分布統(tǒng)計分組品質(zhì)數(shù)列的整理和顯示變量數(shù)列的整理和顯示頻數(shù)分布的類型1.頻數(shù)與頻數(shù)分布頻數(shù)分布數(shù)列的概念在統(tǒng)計分組的基礎(chǔ)上,將總體的所有單位按組歸類整理,并按一定順序排列,形成總體中各個單位在各組簡的分布,又稱次數(shù)分配或分布數(shù)列。頻數(shù)(frequency)
:又叫次數(shù),落在各類別中的數(shù)據(jù)(單位)個數(shù),記作Fi
。
頻率(ratio)
:又叫比率,各組次數(shù)(頻數(shù))與總次數(shù)(頻數(shù))之比。頻率分布的性質(zhì):=££???===110111NiNiiiNiiiFFFF分配數(shù)列的種類品質(zhì)分配數(shù)列(屬性分布數(shù)列):按品質(zhì)標志分組形成的分配數(shù)列。變量分配數(shù)列(變量分布數(shù)列):按數(shù)量標志分組形成的分配數(shù)列。單項數(shù)列:總體按單項式分組而形成的變量數(shù)列,每個變量值是一個組,順序排列。組距數(shù)列:總體按組距式分組而形成的變量數(shù)列,每個組是由若干個變量值形成的區(qū)間表示。分配數(shù)列品質(zhì)數(shù)列變量數(shù)列單項數(shù)列組距數(shù)列2.統(tǒng)計分組統(tǒng)計分組—概念:是根據(jù)統(tǒng)計研究的目的,選擇某一主要標志,將總體單位劃分為若干類型或組別,使組內(nèi)具有同質(zhì)性,組間具有差異性。統(tǒng)計分組—作用劃分現(xiàn)象的類型揭示現(xiàn)象內(nèi)部結(jié)構(gòu)分析現(xiàn)象之間的依存關(guān)系統(tǒng)計分組—分組標志的選擇統(tǒng)計分組的關(guān)鍵問題:如何選擇分組標志和確定各組的界限。根據(jù)統(tǒng)計研究的目的來選擇在滿足研究目的的前提下,應(yīng)選擇本質(zhì)的、主要的,而不是非本質(zhì)的、次要的標志。考慮具體的歷史和經(jīng)濟條件。簡單分組、復(fù)合分組和分組體系根據(jù)采用的分組標志的多少,可以分為:簡單分組復(fù)合分組簡單分組又稱單一分組,是對被研究現(xiàn)象總體只按一個標志進行的分組。特點:只能反映現(xiàn)象在某一標志特征方面的差異情況。不能反映現(xiàn)象在其他標志特征方面的差異,說明問題比較簡單明了。簡單分組按性別分組男女按年齡分組0~6歲組7~17歲組18~59歲組60歲以上組復(fù)合分組對同一總體選擇兩個或兩個以上標志層疊起來進行的分組。特點:可以從幾個不同角度了解總體內(nèi)部的差別和關(guān)系,比簡單分組能更全面、更深入地研究問題;分組的組數(shù)隨著分組標志的增加而成倍地增加。因而在采用復(fù)合分組時,選擇分組標志的數(shù)量要適量,并且要考慮倒只有在總體包括的單位數(shù)較多的情況下,才宜于采用復(fù)合分組。理科學(xué)生組高等學(xué)校學(xué)生總體男學(xué)生組女學(xué)生組男學(xué)生組女學(xué)生組本科學(xué)生組??茖W(xué)生組男學(xué)生組女學(xué)生組男學(xué)生組女學(xué)生組文科學(xué)生組本科學(xué)生組專科學(xué)生組復(fù)合分組分組體系為了從不同側(cè)面反映總體的特征,運用幾個標志對總體進行分組,形成的一個完整的體系。分組體系有兩種不同的形式:平行分組體系:同一個總體的幾個簡單分組按某一規(guī)定排列起來就構(gòu)成一個平行分組體系。復(fù)合分組體系:由復(fù)合分組形成的分組系列。3.品質(zhì)分布數(shù)列的整理與顯示分類數(shù)據(jù)的整理順序數(shù)據(jù)的整理品質(zhì)分布數(shù)列的整理列出各類別計算各類別的頻數(shù)制作頻數(shù)分布表用圖形顯示數(shù)據(jù)分類頻數(shù)比例百分比比率ABCDE分類數(shù)據(jù)整理—頻數(shù)分布表
(例題分析)【例3.1】一家市場調(diào)查公司為研究不同品牌飲料的市場占有率,對隨機抽取的一家超市進行了調(diào)查。調(diào)查員在某天對50名顧客購買飲料的品牌進行了記錄,如果一個顧客購買某一品牌的飲料,就將這一飲料的品牌名字記錄一次。右邊就是記錄的原始數(shù)據(jù)用SPSS制作頻數(shù)分布表分類數(shù)據(jù)的圖示—條形圖
(barChart)用寬度相同的條形的高度或長短來表示各類別數(shù)據(jù)的圖形有單式條形圖、復(fù)式條形圖等形式主要用于反映分類數(shù)據(jù)的頻數(shù)分布繪制時,各類別可以放在縱軸,稱為條形圖,也可以放在橫軸,稱為柱形圖分類數(shù)據(jù)的圖示—條形圖
(例題分析)分類數(shù)據(jù)的圖示—餅圖
(pieChart)也稱圓形圖,是用圓形及園內(nèi)扇形的面積來表示數(shù)值大小的圖形主要用于表示總體或樣本中各組成部分所占的比例,對于研究結(jié)構(gòu)性問題十分有用繪制圓形圖時,總體中各部分所占的百分比用園內(nèi)的各個扇形面積表示,這些扇形的中心角度,是按各部分數(shù)據(jù)百分比占3600的相應(yīng)比例確定的分類數(shù)據(jù)的圖示—餅圖
(例題分析)順序數(shù)據(jù)的整理累積頻數(shù)(cumulativefrequencies):各類別頻數(shù)的逐級累加累積頻率(cumulativepercentages):各類別頻率(百分比)的逐級累加順序數(shù)據(jù)的頻數(shù)分布表
(例題分析)【例3.2】在一項城市住房問題的研究中,研究人員在甲乙兩個城市各抽樣調(diào)查300戶,其中的一個問題是:“您對您家庭目前的住房狀況是否滿意?1.非常不滿意;2.不滿意;3.一般;4.滿意;5.非常滿意。甲城市家庭對住房狀況評價的頻數(shù)分布回答類別甲城市戶數(shù)(戶)百分比(%)累計戶數(shù)(戶)百分比(%)
非常不滿意
不滿意
一般
滿意
非常滿意24108934530836311510241322252703008.044.075.090.0100.0合計300100.0——順序數(shù)據(jù)的頻數(shù)分布表
(例題分析)乙城市家庭對住房狀況評價的頻數(shù)分布回答類別乙城市戶數(shù)(戶)百分比(%)累計戶數(shù)(戶)百分比(%)
非常不滿意
不滿意
一般
滿意
非常滿意21997864387.033.026.021.312.7211201982623007.040.066.087.3100.0合計300100.0——順序數(shù)據(jù)的圖示—累計頻數(shù)分布圖
(例題分析)甲城市家庭對住房狀況評價的累積頻數(shù)分布環(huán)形圖
(annularchart)環(huán)形圖中間有一個“空洞”,總體中的每一部分數(shù)據(jù)用環(huán)中的一段表示環(huán)形圖與圓形圖類似,但又有區(qū)別圓形圖只能顯示一個總體各部分所占的比例環(huán)形圖則可以同時繪制多個總體的數(shù)據(jù)系列,每一個總體的數(shù)據(jù)系列為一個環(huán)環(huán)形圖可用于結(jié)構(gòu)比較研究環(huán)形圖主要用于展示分類和順序數(shù)據(jù)環(huán)形圖
(例題分析)8%36%31%15%7%33%26%21%13%10%
非常不滿意
不滿意
一般
滿意
非常滿意
甲乙兩城市家庭對住房狀況的評價4.變量數(shù)列的整理與顯示
數(shù)據(jù)分組累計頻數(shù)分布數(shù)值型數(shù)據(jù)的圖示數(shù)據(jù)分組分組方法分組方法等距分組異距分組單變量值分組組距分組單變量值分組
(要點)將一個變量值作為一組適合于離散變量適合于變量值較少的情況組距分組
(要點)將變量值的一個區(qū)間作為一組適合于連續(xù)變量適合于變量值較多的情況需要遵循“不重不漏”的原則可采用等距分組,也可采用不等距分組等距分組
(步驟)確定組數(shù):組數(shù)的確定應(yīng)以能夠顯示數(shù)據(jù)的分布特征和規(guī)律為目的。在實際分組時,可以按Sturges
提出的經(jīng)驗公式來確定組數(shù)K確定組距:組距(ClassWidth)是一個組的上限與下限之差,可根據(jù)全部數(shù)據(jù)的最大值和最小值及所分的組數(shù)來確定,即組距=(最大值-最小值)÷組數(shù)統(tǒng)計出各組的頻數(shù)并整理成頻數(shù)分布表確定全距(極差):全部變量的最大之與最小值的距離頻數(shù)分布表的編制
(例題分析)【例3.3】某電腦公司2002年前四個月各天的銷售量數(shù)據(jù)(單位:臺)。試對數(shù)據(jù)進行分組。
頻數(shù)分布表的編制
(步驟)確定組數(shù):根據(jù)
Sturges
提出的經(jīng)驗公式得組數(shù)K為:確定各組的組距:組距=(237-141)÷10=9.610用SPSS制作頻數(shù)分布表
組距分組與不等距分組
(在表現(xiàn)頻數(shù)分布上的差異)等距分組各組頻數(shù)的分布不受組距大小的影響可直接根據(jù)絕對頻數(shù)來觀察頻數(shù)分布的特征不等距分組各組頻數(shù)的分布受組距大小不同的影響各組絕對頻數(shù)的多少不能反映頻數(shù)分布的實際狀況需要用頻數(shù)密度反映頻數(shù)分布的實際狀況異距分組
(幾個概念)標準組距:數(shù)列中能被各組組距整除的最大組距。常用數(shù)列中的最小組距作為標準組距。異距分組
(例題分析)某廠工人年齡分布情況工人按年齡分組組距人數(shù)(人)標準組距人數(shù)次數(shù)密度15~2020~2525~3030~3535~4545~5055551051728407065101728407032.5103.45.68146.52合計-230——異距分組
(例題分析)異距分組
(例題分析)組限和組中值組限(classlimit)
:各組的上限界限值組下限(lowlimit)
:一個組的最小值組上限(upperlimit)
:一個組的最大值閉口組:上限和下限都齊全的組開口組:上限或下限有一個沒有的組組限的確定組限確定有一個基本原則:即按這樣的組限分組后,標志值在各組的變動能反映事物的質(zhì)的變化。常用的組限表示方法:按連續(xù)變量分組,由于相鄰兩組的上限和下限常時同一數(shù)值,每組的界限會重疊,為避免計算各組次數(shù)時出現(xiàn)混亂,一般的原則是“上組限不在內(nèi),或下組限不在內(nèi)”。按離散變量分組,則相鄰的上限和現(xiàn)象通常是以兩個確定的不同整數(shù)值來表示,故相鄰兩組的上下限可以不重合。等距分組表
(上下組限重疊)等距分組表
(上下組限間斷)等距分組表
(使用開口組)組中值(classmidpoint)
組中值(classmidpoint)
:下限與上限之間的中點值。下限值+上限值2組中值=累計頻數(shù)分布累計頻數(shù)分布在頻數(shù)分布的基礎(chǔ)上將各組頻數(shù)逐一累計,稱為頻數(shù)分布累計。向上累計:從變量值最低組開始向變量值高的組累計,表明小與該組上限的頻數(shù)(頻率)一共有多少;向下累計:從變量值最高組開始向變量值低的組累計,表明大與該組下限的頻數(shù)(頻率)一共有多少。特點:同一數(shù)值的向上累計和向下累計次數(shù)之和等于總體總次數(shù)。累計頻數(shù)分布圖:以變量值為橫坐標,累計頻數(shù)和頻率為縱坐標。累計頻數(shù)分布
(例題分析)141159166172177182188196203214143160167173177183189196203215144160168173178184189196205218149161168174178185189196206223150161168174178186190196207225152162170174179186190197208226153163171175179187191197209228153163171175179187192198210233154164172175180187194198210233155165172175180187194200211234156165172176181188195201211234158165172176182188195202213237某電腦公司2002年前4個月的銷售量累計頻數(shù)分布
(例題分析)按銷售量分組(臺)頻數(shù)(天)頻率(%)向上累積頻率(%)向下累積頻率(%)150以下43.333.33100.00150~16097.5010.8396.67160~1701613.3324.1789.17170~1802722.5046.6775.83180~1902016.6763.3355.33190~2001714.1777.5036.67200~210108.3385.8322.50210~22086.6792.5014.17220~23043.3395.837.50230以上54.17100.004.17合計120100100.00100.00累計頻數(shù)分布
(例題分析)變量分布數(shù)列的圖示分組數(shù)據(jù)—直方圖和折線圖分組數(shù)據(jù)—直方圖
(histogram)用矩形的寬度和高度來表示頻數(shù)分布的圖形,實際上是用矩形的面積來表示各組的頻數(shù)分布在直角坐標中,用橫軸表示數(shù)據(jù)分組,縱軸表示頻數(shù)或頻率,各組與相應(yīng)的頻數(shù)就形成了一個矩形,即直方圖直方圖下的總面積等于1分組數(shù)據(jù)的圖示
(直方圖的繪制)140150210直方圖下的面積之和等于1某電腦公司銷售量分布的直方圖190200180160170頻數(shù)(天)25201510530220230240分組數(shù)據(jù)—直方圖
(直方圖與條形圖的區(qū)別)條形圖是用條形的長度(橫置時)表示各類別頻數(shù)的多少,其寬度(表示類別)則是固定的直方圖是用面積表示各組頻數(shù)的多少,矩形的高度表示每一組的頻數(shù)或百分比,寬度則表示各組的組距,其高度與寬度均有意義直方圖的各矩形通常是連續(xù)排列,條形圖則是分開排列條形圖主要用于展示分類數(shù)據(jù),直方圖則主要用于展示數(shù)值型數(shù)據(jù)分組數(shù)據(jù)—折線圖
(frequencypolygon)折線圖也稱頻數(shù)多邊形圖是在直方圖的基礎(chǔ)上,把直方圖頂部的中點(組中值)用直線連接起來,再把原來的直方圖抹掉折線圖的兩個終點要與橫軸相交,具體的做法是第一個矩形的頂部中點通過豎邊中點(即該組頻數(shù)一半的位置)連接到橫軸,最后一個矩形頂部中點與其豎邊中點連接到橫軸折線圖下所圍成的面積與直方圖的面積相等,二者所表示的頻數(shù)分布是一致的分組數(shù)據(jù)的圖示
(折線圖的繪制)折線圖與直方圖下的面積相等!140150210某電腦公司銷售量分布的折線圖190200180160170220230240頻數(shù)(天)25201510530數(shù)值型數(shù)據(jù)的圖示未分組數(shù)據(jù)—莖葉圖和箱線圖未分組數(shù)據(jù)—莖葉圖
(stem-and-leafdisplay)用于顯示未分組的原始數(shù)據(jù)的分布由“莖”和“葉”兩部分構(gòu)成,其圖形是由數(shù)字組成的以該組數(shù)據(jù)的高位數(shù)值作樹莖,低位數(shù)字作樹葉樹葉上只保留一位數(shù)字對于n(20n300)個數(shù)據(jù),莖葉圖最大行數(shù)不超過
L=[10×lg(n)]莖葉圖類似于橫置的直方圖,但又有區(qū)別直方圖可觀察一組數(shù)據(jù)的分布狀況,但沒有給出具體的數(shù)值莖葉圖既能給出數(shù)據(jù)的分布狀況,又能給出每一個原始數(shù)值,保留了原始數(shù)據(jù)的信息未分組數(shù)據(jù)—莖葉圖
(例題分析)未分組數(shù)據(jù)—莖葉圖
(擴展的莖葉圖)未分組數(shù)據(jù)—箱線圖
(boxplot)用于顯示未分組的原始數(shù)據(jù)的分布箱線圖由一組數(shù)據(jù)的5個特征值繪制而成,它由一個箱子和兩條線段組成其繪制方法是:首先找出一組數(shù)據(jù)的5個特征值,即最大值、最小值、中位數(shù)Me
和兩個四分位數(shù)(下四分位數(shù)QL和上四分位數(shù)QU)連接兩個四分(位)數(shù)畫出箱子,再將兩個極值點與箱子相連接未分組數(shù)據(jù)—單批數(shù)據(jù)箱線圖
(箱線圖的構(gòu)成)中位數(shù)4681012QUQLX最大值X最小值簡單箱線圖未分組數(shù)據(jù)—單批數(shù)據(jù)箱線圖
(例題分析)最小值141最大值237中位數(shù)182下四分位數(shù)170.25上四分位數(shù)197140150160170180190200210220230240某電腦公司銷售量數(shù)據(jù)的箱線圖分布的形狀與箱線圖
對稱分布QL中位數(shù)
QU左偏分布QL中位數(shù)
QU右偏分布QL
中位數(shù)
QU不同分布的箱線圖未分組數(shù)據(jù)—多批數(shù)據(jù)箱線圖
(例題分析)【例3.4】
從某大學(xué)經(jīng)濟管理專業(yè)二年級學(xué)生中隨機抽取11人,對8門主要課程的考試成績進行調(diào)查,所得結(jié)果如表。試繪制各科考試成績的批比較箱線圖,并分析各科考試成績的分布特征11名學(xué)生各科的考試成績數(shù)據(jù)課程名稱學(xué)生編號1234567891011英語經(jīng)濟數(shù)學(xué)西方經(jīng)濟學(xué)市場營銷學(xué)財務(wù)管理基礎(chǔ)會計學(xué)統(tǒng)計學(xué)計算機應(yīng)用基礎(chǔ)76659374687055859095818775739178975176857092688171748869846573957078669073788470936379806087816786918377769070828382928481706972787578918866948085718674687962818155787075687177未分組數(shù)據(jù)—多批數(shù)據(jù)箱線圖
(例題分析)8門課程考試成績的箱線圖11名學(xué)生8門課程考試成績的箱線圖Min-Max25%-75%Medianvalue455565758595105學(xué)生1學(xué)生2學(xué)生3學(xué)生4學(xué)生5學(xué)生6學(xué)生7學(xué)生8學(xué)生9學(xué)生10學(xué)生11未分組數(shù)據(jù)—多批數(shù)據(jù)箱線圖
(例題分析)數(shù)值型數(shù)據(jù)的圖示時間序列數(shù)據(jù)—線圖時間序列數(shù)據(jù)—線圖
(lineplot)繪制線圖時應(yīng)注意以下幾點時間一般繪在橫軸,指標數(shù)據(jù)繪在縱軸圖形的長寬比例要適當,其長寬比例大致為10:7一般情況下,縱軸數(shù)據(jù)下端應(yīng)從“0”開始,以便于比較。數(shù)據(jù)與“0”之間的間距過大時,可以采取折斷的符號將縱軸折斷時間序列數(shù)據(jù)—線圖
(例題分析)【例3.5】已知1991~2000年我國城鄉(xiāng)居民家庭的人均收入數(shù)據(jù)如表。試繪制線圖1991~2000年城鄉(xiāng)居民家庭人均收入年份城鎮(zhèn)居民農(nóng)村居民19911992199319941995199619971998199920001700.62026.62577.43496.24283.04838.95160.35425.15854.06280.0708.6784.0921.61221.01577.71926.12091.12162.02210.32254.4時間序列數(shù)據(jù)—線圖
(例題分析)數(shù)值型數(shù)據(jù)的圖示多變量數(shù)據(jù)—雷達圖顯示多個變量的圖示方法在顯示或?qū)Ρ雀髯兞康臄?shù)值總和時十分有用假定各變量的取值具有相同的正負號,總的絕對值與圖形所圍成的區(qū)域成正比可用于研究多個樣本之間的相似程度多變量數(shù)據(jù)—雷達圖
(radarchart)設(shè)有n組樣本S1,S2,…Sn,每個樣本測得P個變量X1,X2,Xp,要繪制這P個變量的雷達圖,其具體做法是多變量數(shù)據(jù)—雷達圖
(雷達圖的制作)
先做一個圓,然后將圓P等分,得到P個點,令這P個點分別對應(yīng)P個變量,在將這P個點與圓心連線,得到P個幅射狀的半徑,這P個半徑分別作為P個變量的坐標軸,每個變量值的大小由半徑上的點到圓心的距離表示再將同一樣本的值在P個坐標上的點連線。這樣,n個樣本形成的n個多邊形就是一個雷達圖多變量數(shù)據(jù)—雷達圖
(例題分析)【例3.6】2000年我國城鄉(xiāng)居民家庭平均每人各項生活消費支出構(gòu)成數(shù)據(jù)如表。試繪制雷達圖。2000年城鄉(xiāng)居民家庭平均每人生活消費支出構(gòu)成(%)項目城鎮(zhèn)居民農(nóng)村居民
食品衣著家庭設(shè)備用品及服務(wù)醫(yī)療保健交通通訊娛樂教育文化服務(wù)居住雜項商品與服務(wù)39.1810.018.796.367.9012.5610.015.17
49.305.754.525.245.5811.1815.473.14多變量數(shù)據(jù)—雷達圖
(例題分析)數(shù)據(jù)類型及圖示
(小結(jié))頻數(shù)分布的類型頻數(shù)分布的類型對稱分布右偏分布左偏分布正J型分布反J型分布U型分布幾種常見的頻數(shù)分布本節(jié)小結(jié)數(shù)據(jù)預(yù)處理的內(nèi)容和目的品質(zhì)分布數(shù)列的整理與顯示方法變量分布數(shù)列的整理與顯示方法用SPSS作頻數(shù)分布表和圖形第四章抽樣與參數(shù)估計第一節(jié)抽樣分布第一節(jié)抽樣分布4.1.1
三種不同性質(zhì)的分布4.1.2
一個總體參數(shù)推斷時樣本統(tǒng)計量分布4.1.3兩個總體參數(shù)推斷時樣本統(tǒng)計量分布4.1.4抽樣誤差學(xué)習(xí)目標區(qū)分總體分布、樣本分布、抽樣分布掌握隨機抽樣方式理解抽樣分布與總體分布的關(guān)系掌握單總體參數(shù)推斷時樣本統(tǒng)計量的分布掌握雙總體參數(shù)推斷時樣本統(tǒng)計量的分布掌握抽樣誤差的測度及其影響因素4.1.1
三種不同性質(zhì)的分布總體分布樣本分布抽樣分布總體中各元素的觀察值所形成的分布分布通常是未知的可以假定它服從某種分布總體分布
(populationdistribution)總體一個樣本中各觀察值的分布也稱經(jīng)驗分布當樣本容量n逐漸增大時,樣本分布逐漸接近總體的分布樣本分布
(sampledistribution)樣本樣本統(tǒng)計量的概率分布是一種理論概率分布隨機變量是樣本統(tǒng)計量樣本均值,樣本比例,樣本方差等結(jié)果來自容量相同的所有可能樣本提供了樣本統(tǒng)計量長遠我們穩(wěn)定的信息,是進行推斷的理論基礎(chǔ),也是抽樣推斷科學(xué)性的重要依據(jù)
抽樣分布
(samplingdistribution)抽樣分布
(samplingdistribution)總體計算樣本統(tǒng)計量例如:樣本均值、比例、方差樣本4.1.2
樣本統(tǒng)計量的抽樣分布
(一個總體參數(shù)推斷時)樣本均值的抽樣分布樣本比例的抽樣分布抽樣方差的抽樣分布樣本均值的抽樣分布容量相同的所有可能樣本的樣本均值的概率分布一種理論概率分布進行推斷總體總體均值的理論基礎(chǔ)
樣本均值的抽樣分布樣本均值的抽樣分布
(例題分析)(重復(fù)抽樣)【例】設(shè)一個總體,含有4個元素(個體)
,即總體單位數(shù)N=4。4
個個體分別為x1=1、x2=2、x3=3
、x4=4
??傮w的均值、方差及分布如下總體分布14230.1.2.3均值和方差樣本均值的抽樣分布
(例題分析)(重復(fù)抽樣)
現(xiàn)從總體中抽取n=2的簡單隨機樣本,在重復(fù)抽樣條件下,共有42=16個樣本。所有樣本的結(jié)果為所有可能的n
=2的樣本(共16個)第一個觀察值第二個觀察值123411,11,21,31,422,12,22,32,433,13,23,33,444,14,24,34,4樣本均值的抽樣分布
(例題分析)(重復(fù)抽樣)16個樣本的均值(x)第一個觀察值第二個觀察值123411.01.52.02.521.52.02.53.032.02.53.03.542.53.03.54.0計算出各樣本的均值如下表。給出樣本均值的抽樣分布均值X的取值1.01.52.02.53.03.54.0均值X的個數(shù)1234321取值的概率P(X
)1/162/163/164/163/162/161/16X樣本均值的抽樣分布1.000.10.20.3P(X)1.53.04.03.52.02.5樣本均值的分布與總體分布的比較
(例題分析)(重復(fù)抽樣)=2.5σ2=1.25總體分布14230.1.2.3抽樣分布P(X)1.00.1.2.31.53.04.03.52.02.5X樣本均值的抽樣分布
(例題分析)(不重復(fù)抽樣)
如果從總體中抽取n=2的簡單隨機樣本,在不重復(fù)抽樣條件下,共有4×3=12個樣本。所有樣本的結(jié)果為所有可能的n=2的樣本(共12個)第一個觀察值第二個觀察值123411,21,31,422,12,32,433,13,23,444,14,24,3樣本均值的抽樣分布
(例題分析)(不重復(fù)抽樣)16個樣本的均值(x)第一個觀察值第二個觀察值123411.52.02.521.52.53.032.02.53.542.53.03.5計算出各樣本的均值如下表。給出樣本均值的抽樣分布均值X的取值1.52.02.53.03.5均值X的個數(shù)22422取值的概率P(X
)2/122/124/122/122/12X樣本均值的抽樣分布1.000.10.20.3P(X)1.53.04.03.52.02.5樣本均值的抽樣分布
(例題分析)(不重復(fù)抽樣)=2.5σ2=1.25總體分布14230.1.2.3抽樣分布P(X)1.00.1.2.31.53.04.03.52.02.5X樣本均值的抽樣分布
與中心極限定理=50
=10X總體分布n=4抽樣分布Xn=16當總體服從正態(tài)分布N~(μ,σ2)時,來自該總體的所有容量為n的樣本的均值X也服從正態(tài)分布,X
的數(shù)學(xué)期望為μ,方差為σ2/n。即X~N(μ,σ2/n)中心極限定理
(centrallimittheorem)當樣本容量足夠大時(n
30),樣本均值的抽樣分布逐漸趨于正態(tài)分布中心極限定理:設(shè)從均值為,方差為
2的一個任意總體中抽取容量為n的樣本,當n充分大時,樣本均值的抽樣分布近似服從均值為μ、方差為σ2/n的正態(tài)分布一個任意分布的總體X中心極限定理
(centrallimittheorem)的分布趨于正態(tài)分布的過程抽樣分布與總體分布的關(guān)系總體分布正態(tài)分布非正態(tài)分布大樣本小樣本正態(tài)分布正態(tài)分布非正態(tài)分布樣本均值的數(shù)學(xué)期望樣本均值的方差重復(fù)抽樣不重復(fù)抽樣樣本均值的抽樣分布
(數(shù)學(xué)期望與方差)樣本均值的抽樣分布
(數(shù)學(xué)期望與方差)比較及結(jié)論:1.樣本均值的均值(數(shù)學(xué)期望)等于總體均值
2.樣本均值的方差等于總體方差的1/n均值的抽樣標準誤所有可能的樣本均值的標準差,測度所有樣本均值的離散程度,又稱為抽樣平均誤差小于總體標準差計算公式為重復(fù)抽樣不重復(fù)抽樣樣本比例的抽樣分布總體(或樣本)中具有某種屬性的單位與全部單位總數(shù)之比不同性別的人與全部人數(shù)之比合格品(或不合格品)與全部產(chǎn)品總數(shù)之比總體比例可表示為樣本比例可表示為
比例
(proportion)容量相同的所有可能樣本的樣本比例的概率分布當樣本容量很大時,樣本比例的抽樣分布可用正態(tài)分布近似一種理論概率分布推斷總體總體比例的理論基礎(chǔ)
樣本比例的抽樣分布樣本比例的抽樣分布
(例題分析)(重復(fù)抽樣)【例】設(shè)某機床5臺中有2臺優(yōu)、3臺良,即總體單位數(shù)N=5。5個個體分別為優(yōu)品A1、A2,良品B1、B2、B3
。若抽到優(yōu)品,記x=1;若抽到良品,記x=0。當n=2時,樣本比例抽樣分布如下表所有可能的n
=2的樣本(共25個)樣本比率樣本頻率P(p)1(A1,A1)(A1,A2)(A2,A1)(A2,A2)4/250.5(A1,B1)(A1,B2)(A1,B3)(A2,B1)(A2,B2)(A2,B3)(B1,A1)(B1,A2)(B2,A1)(B2,A2)(B3,A1)(B3,A2)12/250(B1,B1)(B1,B2)(B1,B3)(B2,B1)(B2,B2)(B2,B3)(B3,B1)(B3,B2)(B3,B3)9/25樣本比例的抽樣分布
(例題分析)(重復(fù)抽樣)重復(fù)抽樣樣本比例抽樣分布04/25P(p)8/2512/2500.51.0
p總體分布:樣本分布:樣本比例的抽樣分布
(例題分析)(不重復(fù)抽樣)【例】仍用上例,采用不重復(fù)隨即抽樣時,機床優(yōu)質(zhì)品比率p的抽樣分布如下表所有可能的n
=2的樣本(共20個)樣本比率樣本頻率P(p)1(A1,A2)(A2,A1)2/200.5(A1,B1)(A1,B2)(A1,B3)(A2,B1)(A2,B2)(A2,B3)(B1,A1)(B1,A2)(B2,A1)(B2,A2)(B3,A1)(B3,A2)12/200(B1,B2)(B1,B3)(B2,B1)(B2,B3)(B3,B1)(B3,B2)6/20樣本比例的抽樣分布
(例題分析)(不重復(fù)抽樣)p不重復(fù)抽樣樣本比例抽樣分布00.10.20.3P(p)0.40.50.600.51.0總體分布:樣本分布:樣本比例的數(shù)學(xué)期望樣本比例的方差重復(fù)抽樣不重復(fù)抽樣樣本比例的抽樣分布
(數(shù)學(xué)期望與方差)樣本方差的抽樣分布樣本方差的分布對于來自正態(tài)總體N(u,σ2)的簡單隨機樣本,則比值的抽樣分布服從自由度為(n-1)
的2分布,即卡方(2)分布
(2
distribution)χ2分布:設(shè)X1,X2,……,Xn是來自總體N(0,1)的樣本,則統(tǒng)計量服從自由度為n的χ2分布,記為χ2~χ2(n)。設(shè),則令,則Y服從自由度為1的2分布,即
當總體,從中抽取容量為n的樣本,則分布的變量值始終為正分布的形狀取決于其自由度n的大小,通常為不對稱的右偏分布,但隨著自由度的增大逐漸趨于對稱期望為:E(2)=n,方差為:D(2)=2n(n為自由度)
可加性:若U和V為兩個獨立的2分布隨機變量,U~2(n1),V~2(n2),則U+V這一隨機變量服從自由度為n1+n2的2分布2分布
(性質(zhì)和特點)c2分布
(圖示)
選擇容量為n的簡單隨機樣本計算樣本方差S2計算卡方值2=(n-1)S2/σ2計算出所有的
2值不同容量樣本的抽樣分布c2n=1n=4n=10n=20
ms總體4.1.3
樣本統(tǒng)計量的抽樣分布
(兩個總體參數(shù)推斷時)兩個樣本均值之差的抽樣分布兩個樣本比例之差的抽樣分布兩個樣本方差比的抽樣分布兩個樣本均值之差的抽樣分布兩個總體都為正態(tài)分布,即,兩個樣本均值之差的抽樣分布服從正態(tài)分布,其分布的數(shù)學(xué)期望為兩個總體均值之差方差為各自的方差之和
兩個樣本均值之差的抽樣分布兩個樣本均值之差的抽樣分布
m1s1總體1s2
m2總體2抽取簡單隨機樣樣本容量n1計算X1抽取簡單隨機樣樣本容量n2計算X2計算每一對樣本的X1-X2所有可能樣本的X1-X2m1-m2抽樣分布兩個樣本比例之差的抽樣分布兩個總體都服從二項分布分別從兩個總體中抽取容量為n1和n2的獨立樣本,當兩個樣本都為大樣本時,兩個樣本比例之差的抽樣分布可用正態(tài)分布來近似分布的數(shù)學(xué)期望為方差為各自的方差之和
兩個樣本比例之差的抽樣分布兩個樣本方差比的抽樣分布兩個樣本方差比的抽樣分布
兩個總體都為正態(tài)分布,即X1~N(μ1,σ12)的一個樣本,Y1,Y2,…,Yn2是來自正態(tài)總體X2~N(μ2,σ22)從兩個總體中分別抽取容量為n1和n2的獨立樣本兩個樣本方差比的抽樣分布,服從分子自由度為(n1-1),分母自由度為(n2-1)的F分布,即由統(tǒng)計學(xué)家費舍(R.A.Fisher)
提出的,以其姓氏的第一個字母來命名則設(shè)若U為服從自由度為n1的2分布,即U~2(n1),V為服從自由度為n2的2分布,即V~2(n2),且U和V相互獨立,則稱F為服從自由度n1和n2的F分布,記為F分布
(F
distribution)F分布
(圖示)
不同自由度的F分布F(1,10)(5,10)(10,10)F分布
(性質(zhì))若F~F(n1,n2),則F分布在上α分位點有性質(zhì):T統(tǒng)計量的分布T
統(tǒng)計量的分布定義:設(shè)X~N(0,1),Y~2(n2),
并且X,Y獨立,則隨機變量服從自由度為n的T分布,記為T~T(n)。T
統(tǒng)計量的分布
設(shè)X1,X2,…,Xn1是來自正態(tài)總體N~(μ,σ2)的一個樣本,稱為統(tǒng)計量,它服從自由度為(n-1)的t分布Xt
分布與正態(tài)分布的比較正態(tài)分布t分布t不同自由度的t分布標準正態(tài)分布t(df=13)t(df=5)ZT分布
(性質(zhì))T分布關(guān)于X軸(即t=0)對稱,因此,T分布在α分位點上有4.1.4抽樣誤差一、抽樣誤差的概念二、抽樣平均誤差的意義三、抽樣平均誤差的計算四、影響抽樣平均誤差的因素五、抽樣極限誤差六、概率度一、抽樣誤差的概念抽樣誤差的概念抽樣誤差:是指樣本指標(統(tǒng)計量)和總體指標(參數(shù))之間數(shù)量上的差別。用數(shù)學(xué)符號表示:抽樣誤差的理解抽樣誤差是指由于抽樣的隨機性而產(chǎn)生的那一部分代表性誤差,不包括登記誤差,也不包括可能發(fā)生的偏差。偏差,破壞了抽樣的隨機原則而產(chǎn)生的誤差;遵守了隨機原則但可能抽到各種不同的樣本而產(chǎn)生的誤差。隨機誤差有兩種:實際誤差和抽樣平均誤差。實際誤差:是指一個樣本指標與總體指標之間的差別,這是無法知道的誤差。抽樣平均誤差:是指所有可能出現(xiàn)的樣本指標的標準差,也可以說是所有可能出現(xiàn)的樣本指標和總體指標的平均離差。二、抽樣平均誤差的意義抽樣平均誤差的意義抽樣誤差是反映統(tǒng)計量對參數(shù)代表性程度的;測定統(tǒng)計量的代表性程度的抽樣誤差時,把各個可能的統(tǒng)計量與參數(shù)之間都存在的抽樣誤差的所有結(jié)果都考慮進去,用平
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 國家統(tǒng)計局余姚調(diào)查隊(浙江?。┕_招考3名編外工作人員高頻重點提升(共500題)附帶答案詳解
- 南京市人力資源和社會保障咨詢服務(wù)中心招考8名電話咨詢員高頻重點提升(共500題)附帶答案詳解
- 北京石油化工學(xué)院信息工程學(xué)院招考聘用高頻重點提升(共500題)附帶答案詳解
- 2024高效快捷貨物運輸協(xié)議樣本一
- 2024版地形圖測繪與城市綠化合同3篇
- 云南瀘西清源水務(wù)限公司招聘8人高頻重點提升(共500題)附帶答案詳解
- 云南昭通彝良縣洛旺鄉(xiāng)人民政府招考聘用9名村級信息員公益性崗位人員高頻重點提升(共500題)附帶答案詳解
- 2024版居間合同協(xié)議
- 中共忠縣拔山鎮(zhèn)委員會(重慶市)關(guān)于公開選聘3名村干部高頻重點提升(共500題)附帶答案詳解
- 下半年湖北宜昌市事業(yè)單位招考高頻重點提升(共500題)附帶答案詳解
- GST200主機說明書內(nèi)容
- 審計工作底稿(模板)
- GB/T 6422-2009用能設(shè)備能量測試導(dǎo)則
- GB/T 36490-2018風力發(fā)電機組防雷裝置檢測技術(shù)規(guī)范
- GB/T 20174-2006石油天然氣工業(yè)鉆井和采油設(shè)備鉆通設(shè)備
- GB 6000-1999主要造林樹種苗木質(zhì)量分級
- 2023年彌渡縣廣播電視臺(融媒體中心)招聘筆試題庫及答案解析
- GB 18613-2020電動機能效限定值及能效等級
- 體能訓(xùn)練講解健身課件
- 農(nóng)業(yè)昆蟲學(xué)實驗5蔬菜害蟲課件
- 地震工程學(xué)-反應(yīng)譜和地震時程波的相互轉(zhuǎn)化matlab編程
評論
0/150
提交評論