版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第2章描述性統(tǒng)計(jì):表格與圖形本章要點(diǎn):單變量數(shù)據(jù)的匯總分類(lèi)變量,數(shù)值型變量雙變量數(shù)據(jù)的整理與顯示
分類(lèi)變量+數(shù)值型變量涉及概念:頻數(shù)分布表、條形圖、直方圖、莖葉圖、點(diǎn)圖、列聯(lián)表等。July30,2010男學(xué)生更容易逃課嗎?讀完四年大學(xué),一次課也沒(méi)有逃過(guò),這樣的學(xué)生恐怕不多。2004年5月,中國(guó)人民大學(xué)財(cái)政金融學(xué)院的3名學(xué)生就逃課問(wèn)題做了一次調(diào)查。調(diào)查的對(duì)象是財(cái)政金融學(xué)院的大一,大二,大三本科生。樣本的抽取方式是分層抽樣與簡(jiǎn)單隨機(jī)抽樣結(jié)合,先根據(jù)年級(jí)劃分層次,然后對(duì)各個(gè)班級(jí)簡(jiǎn)單隨機(jī)抽樣,共抽取151名學(xué)生組成一個(gè)樣本,并對(duì)每個(gè)學(xué)生采用問(wèn)卷調(diào)查。問(wèn)卷內(nèi)容包括每周逃課次數(shù)、所逃課程的類(lèi)型(選修課、專(zhuān)業(yè)課等等)和逃課原因等。調(diào)查得到的男女學(xué)生每周平均逃課次數(shù)的匯總表如下July30,2010男學(xué)生更容易逃課嗎?逃課情況男女合計(jì)幾乎一次不逃2849771到3次2431553到5次64105次以上336其他123合計(jì)6289151你認(rèn)為男學(xué)生更容易逃課嗎?用哪些簡(jiǎn)單的統(tǒng)計(jì)描述支持你的看法?如果要用圖形表現(xiàn)上面的數(shù)據(jù),反映男女學(xué)生逃課方面的差異、逃課次數(shù)的構(gòu)成以及男女學(xué)生在逃課方面是否具有相似性等等,有哪些圖形可供你選擇使用呢?數(shù)據(jù)的整理與顯示(基本問(wèn)題)要弄清所面對(duì)的數(shù)據(jù)類(lèi)型,因?yàn)椴煌?lèi)型的數(shù)據(jù),所采取的處理方式和方法是不同的對(duì)分類(lèi)數(shù)據(jù)主要是做分類(lèi)整理3.對(duì)數(shù)值型數(shù)據(jù)則主要是做分組整理一、單個(gè)分類(lèi)數(shù)據(jù)的匯總(基本過(guò)程)
1.
列出各類(lèi)別
2.計(jì)算各類(lèi)別的頻數(shù)3.制作頻數(shù)分布表4.用圖形顯示數(shù)據(jù)分類(lèi)頻數(shù)相對(duì)頻數(shù)百分比頻數(shù)ABCDE相對(duì)頻數(shù)分布和百分比頻數(shù)分布
分類(lèi)數(shù)據(jù)的匯總例如:由以下40個(gè)人的血型資料
OOABAOAAAOBOBOOAOOAAAAABABAAOOAOOAAAOAOOAB整理可得頻數(shù)分布表如右血型頻數(shù)相對(duì)頻數(shù)百分比頻數(shù)(%)A180.4545AB20.055B40.110O160.440合計(jì)401100【例】一家市場(chǎng)調(diào)查公司為研究不同品牌飲料的市場(chǎng)占有率,對(duì)隨機(jī)抽取的一家超市進(jìn)行了調(diào)查。調(diào)查員在某天對(duì)50名顧客購(gòu)買(mǎi)飲料的類(lèi)型進(jìn)行了記錄,如果一個(gè)顧客購(gòu)買(mǎi)某一種類(lèi)的飲料,就將這一飲料的種類(lèi)名字記錄一次
。右邊就是記錄的原始數(shù)據(jù)分類(lèi)數(shù)據(jù)的匯總碳酸飲料碳酸飲料其他礦泉水綠茶綠茶綠茶碳酸飲料其他碳酸飲料礦泉水其他其他碳酸飲料礦泉水礦泉水碳酸飲料果汁綠茶其他碳酸飲料綠茶綠茶碳酸飲料碳酸飲料礦泉水綠茶果汁其他果汁碳酸飲料碳酸飲料碳酸飲料礦泉水礦泉水綠茶碳酸飲料果汁綠茶綠茶果汁綠茶礦泉水其他其他碳酸飲料礦泉水碳酸飲料果汁礦泉水分類(lèi)數(shù)據(jù)的圖示—條形圖與餅圖條形圖(barchart):在橫軸上標(biāo)記組名,縱軸標(biāo)記頻數(shù)、相對(duì)頻數(shù)或百分比頻數(shù),以相同寬度的長(zhǎng)方形代表每一類(lèi)別。對(duì)于分類(lèi)數(shù)據(jù),為強(qiáng)調(diào)每組是彼此相互獨(dú)立的類(lèi)別,應(yīng)該將這些長(zhǎng)方形分隔開(kāi)頻數(shù)分布表定義餅圖(piechart):先畫(huà)一個(gè)圓圈表示所有數(shù)據(jù),根據(jù)相對(duì)頻數(shù)將整個(gè)圓分成若干個(gè)扇形,這些扇形角度與每一組的相對(duì)頻數(shù)一致。分類(lèi)數(shù)據(jù)的圖示—條形圖與餅圖每個(gè)扇區(qū)可以是頻數(shù)、相對(duì)頻數(shù)或百分比頻數(shù)飲料類(lèi)別購(gòu)買(mǎi)記錄結(jié)構(gòu)圖課后作業(yè)1請(qǐng)對(duì)P46練習(xí)22數(shù)據(jù)用Excel完成:a)構(gòu)建頻數(shù)分布表b)畫(huà)出條形圖c)畫(huà)出餅圖統(tǒng)計(jì)圖表11
步驟確定互不相疊的分組的組數(shù)確定每組的組距確定每一組的界限二、單個(gè)數(shù)值型數(shù)據(jù)的匯總表2-4年終審計(jì)所需時(shí)間(天)
3.確定組限選擇合理的分組界限以保證每個(gè)觀測(cè)值僅屬于唯一的組針對(duì)數(shù)值型數(shù)據(jù),分類(lèi)數(shù)據(jù)無(wú)需指定組限對(duì)于表2-4,第一組以10作為該組下限,14作為該組上限,10~14代表這一組。以此類(lèi)推確定所有分組統(tǒng)計(jì)落入每組的數(shù)據(jù)頻數(shù),得頻數(shù)分布表2-5所示:
4.組中值組中值(classmidpoint):在每個(gè)組的下限和上限之間的中間值。在表2-4數(shù)據(jù)中,5個(gè)組的組中值分別為12、17、22、27、32
可以看出的信息有:最普遍的審計(jì)時(shí)間介于15~19天之間,20次審計(jì)時(shí)間中有8次處在這個(gè)范圍內(nèi)只有一次審計(jì)時(shí)間需要30天或者更長(zhǎng)價(jià)值:增加我們對(duì)數(shù)據(jù)的理解,而觀察原始的,雜亂無(wú)章的原始數(shù)據(jù)是不容易得到的
相對(duì)頻數(shù)分布和百分比頻數(shù)分布
從表中可以得到的信息有:有40%的審計(jì)時(shí)間需要15~19天只有5%的審計(jì)需要30天或者更長(zhǎng)的時(shí)間點(diǎn)圖定義點(diǎn)圖(dotplot):橫軸表示觀測(cè)值的范圍,每個(gè)觀測(cè)值由位于坐標(biāo)軸上方的點(diǎn)表示點(diǎn)圖顯示了數(shù)據(jù)的詳細(xì)信息,在比較兩個(gè)或更多變量的數(shù)據(jù)分布的時(shí)候是非常有利的直方圖定義直方圖(histogram):對(duì)頻數(shù)分布,相對(duì)頻數(shù)分布,百分比頻數(shù)分布表的圖形概括。把所研究的變量放在橫軸上,把頻數(shù)、相對(duì)頻數(shù)或百分?jǐn)?shù)放在縱軸上來(lái)繪制。用矩形表示每個(gè)組的頻數(shù)、相對(duì)頻數(shù)或百分比頻數(shù)。矩形的底邊是橫軸各組組距,矩形的高度就是各組對(duì)應(yīng)的頻數(shù)、相對(duì)頻數(shù)或百分比頻數(shù)。直方圖直方圖與條形圖直方圖中相鄰的長(zhǎng)方形都是彼此相鄰,不能斷開(kāi)(因?yàn)榻M限相鄰,其含義是第一組的下限和最后一組的上限之間任意一個(gè)值都是可能取到的)條形圖針對(duì)分類(lèi)數(shù)據(jù),長(zhǎng)方形之間是斷開(kāi)的,代表不同的類(lèi)別直方圖直方圖能解釋數(shù)據(jù)分布的形狀或形態(tài)中度左偏中度右偏對(duì)稱(chēng)嚴(yán)重右偏累積分布定義累積頻數(shù)分布(cumulativefrequencydistribution):不超過(guò)每個(gè)組的上限的觀測(cè)值的數(shù)量例子考慮“小于或等于24”這個(gè)組。該組的累積頻數(shù)就是觀測(cè)值小于或等于24的所有組的頻數(shù)之和。對(duì)于表2-5的頻數(shù)分布,分組10~14、15~19、20~24的頻數(shù)之和為4+8+5=17,表明共有17個(gè)觀測(cè)值“小于或等于24”,因此,該組的累積頻數(shù)為17。累積分布累積相對(duì)頻數(shù)分布(cumulativerelativefrequencydistribution):觀測(cè)值小于或等于每個(gè)組上限的個(gè)數(shù)占總數(shù)的比例累積百分比頻數(shù)(cumulativepercentfrequencydistribution):觀測(cè)值小于或等于每個(gè)組上限的個(gè)數(shù)占總數(shù)的百分?jǐn)?shù)累積頻數(shù)分布曲線定義累積頻數(shù)分布曲線(ogive):數(shù)據(jù)值標(biāo)記在橫軸上,縱軸則以累積頻數(shù)、累積相對(duì)頻數(shù)或累積百分比頻數(shù)表示“我最恨數(shù)學(xué)了,都是數(shù)字。這是一句常聽(tīng)到的話,可是從來(lái)沒(méi)有人說(shuō)過(guò),我最恨錢(qián)了,都是數(shù)字。”數(shù)字不是壞東西,看它在哪里出現(xiàn),如果在老師發(fā)的習(xí)題中有數(shù)字,而且很多,那么——哼的怨聲就出來(lái)了。如果數(shù)字印在鈔票或支票上,數(shù)字則越多越好。統(tǒng)計(jì)圖表25定義莖葉圖(stem-and-leafdisplay):對(duì)數(shù)據(jù)進(jìn)行快速概括的一種圖形,既可以對(duì)數(shù)據(jù)進(jìn)行排序,又能顯示數(shù)據(jù)的分布形狀例子申請(qǐng)霍斯金斯公司某一職位的面試人員測(cè)試結(jié)果。本測(cè)試需面試者回答150個(gè)問(wèn)題,這些數(shù)據(jù)記錄了個(gè)面試人員回答正確的問(wèn)題個(gè)數(shù)三、探索性數(shù)據(jù)分析—莖葉圖
莖葉圖步驟將每個(gè)數(shù)據(jù)的前面數(shù)字列在一條豎線的左邊在右側(cè)記錄每個(gè)數(shù)據(jù)的最后一個(gè)數(shù)字(0~9)比如,上表中的第一行數(shù)據(jù)(112\72\69\97\107)可以構(gòu)造如下莖葉圖莖葉圖最終得到的莖葉圖為對(duì)豎線右側(cè)每一行數(shù)字排序,就可得出如下形式的莖葉圖莖葉莖葉圖莖葉圖隱含的分布形態(tài)逆時(shí)針旋轉(zhuǎn)90度,與直方圖類(lèi)似容易手工繪制能夠顯示原始數(shù)值莖葉圖莖葉圖的推廣莖葉圖沒(méi)有固定數(shù)目的行和固定的單位若原先的數(shù)據(jù)過(guò)于集中,則可以將每一行拆分成兩行或多行(對(duì)[0,9]區(qū)間進(jìn)行劃分)擴(kuò)展莖葉圖葉子的單位可以是0.1、1、10、100等(還原數(shù)值時(shí)需注意單位)
一般莖葉圖莖葉圖擴(kuò)展莖葉圖以9為首的第一根莖以9為首的第二根莖莖葉圖一般莖葉圖特別說(shuō)明了單位是10
如果沒(méi)有特別說(shuō)明,莖葉圖的單位都是1
例:由右表數(shù)據(jù)可匯總飲料類(lèi)型和顧客性別的列聯(lián)表:雙變量數(shù)據(jù)的匯總-列聯(lián)表與散點(diǎn)圖
聯(lián)列表
續(xù)例:由右表數(shù)據(jù)可繪制飲料類(lèi)型和顧客性別的復(fù)式條形圖:雙分類(lèi)變量數(shù)據(jù)的匯總
聯(lián)列表“查格美食指南”共收集了洛杉磯地區(qū)300家飯店的菜肴價(jià)格與質(zhì)量等級(jí)的數(shù)據(jù)。其中質(zhì)量等級(jí)是一個(gè)分類(lèi)變量,分為:良好、優(yōu)秀和非常好。菜肴價(jià)格是一個(gè)數(shù)值型變量,范圍為10~49美元。例子:可以得到的信息:質(zhì)量等級(jí)為“很好”,菜肴價(jià)格在“20~29”這一類(lèi)的飯店數(shù)量最多,共64家質(zhì)量等級(jí)為“非常好”,菜肴價(jià)格在“10~19”美元之間的飯店只有兩家最右和最底行分別給出了質(zhì)量等級(jí)和菜肴價(jià)格的頻數(shù)分布辛普森悖論聯(lián)列表常用來(lái)顯示兩個(gè)變量的相關(guān)性注意!可能得出與原有數(shù)據(jù)完全相反的結(jié)論辛普森悖論例子在過(guò)去三年中,法官勒吉特和肯德?tīng)柵袥Q的部分案件被提出上訴。上訴法庭對(duì)大多數(shù)上訴案件維持原來(lái)的判決,但也有部分判決被推翻。以?xún)蓚€(gè)變量:判決(維持或推翻)和法庭類(lèi)型(民事庭或市政庭)為依據(jù),對(duì)每位法官構(gòu)建聯(lián)列表。假設(shè)通過(guò)綜合法庭類(lèi)型數(shù)據(jù)將兩個(gè)聯(lián)列表合并。綜合后的表包含兩個(gè)變量:判決(維持或推翻)和法官(勒吉特或肯德?tīng)?。該表給出了兩位法官的上訴案件被判決維持或推翻的數(shù)量:辛普森悖論88%>86%,肯德?tīng)栕龅谋容^好綜合表未綜合表91%>85%,勒吉特做的比較好90%>80%,勒吉特做的比較好矛盾?辛普森悖論分析對(duì)兩位法官來(lái)說(shuō),上訴案件被推翻的比例在市政庭比民事庭要高;法官勒吉特審理的案件大多數(shù)的市政庭,因此綜合后的數(shù)據(jù)偏向于法官肯德?tīng)?;?duì)最初的聯(lián)列表,法庭類(lèi)型是一個(gè)隱藏的變量,且其效果不可忽視。啟發(fā)根據(jù)未綜合和綜合的數(shù)據(jù)得出的結(jié)論可能完全相反。需要審查是否存在可能影響結(jié)論的隱藏變量。散點(diǎn)圖和趨勢(shì)線定義散點(diǎn)圖(scatterplot):是描述兩個(gè)數(shù)值型變量間關(guān)系的一種圖形趨勢(shì)線(trendline):是顯示變量間關(guān)系密切程度的一條直線如下的一組數(shù)據(jù),你能分析人體的脂肪含量與年齡之間有怎樣的關(guān)系嗎?
從上表發(fā)現(xiàn),對(duì)某個(gè)人不一定有此規(guī)律,但對(duì)很多個(gè)體放在一起,就體現(xiàn)出“人體脂肪隨年齡增長(zhǎng)而增加”這一規(guī)律.而表中各年齡對(duì)應(yīng)的脂肪數(shù)是這個(gè)年齡人群的樣本平均數(shù).我們也可以對(duì)它們作統(tǒng)計(jì)圖、表,對(duì)這兩個(gè)變量有一個(gè)直觀上的印象和判斷.下面我們以年齡為橫軸,脂肪含量為縱軸建立直角坐標(biāo)系,作出各個(gè)點(diǎn),稱(chēng)該圖為散點(diǎn)圖。如圖:O20253035404550556065年齡脂肪含量510152025303540從剛才的散點(diǎn)圖發(fā)現(xiàn):年齡越大,體內(nèi)脂肪含量越高,點(diǎn)的位置散布在從左下角到右上角的區(qū)域。稱(chēng)它們成正相關(guān)。
但有的兩個(gè)變量的相關(guān),如下圖所示:如高原含氧量與海拔高度的相關(guān)關(guān)系,海平面以上,海拔高度越高,含氧量越少。作出散點(diǎn)圖發(fā)現(xiàn),它們散布在從左上角到右下角的區(qū)域內(nèi)。又如汽車(chē)的載重和汽車(chē)每消耗1升汽油所行使的平均路程,稱(chēng)它們成負(fù)相關(guān).O42例子探究舊金山市一個(gè)音響設(shè)備商店的廣告次數(shù)與銷(xiāo)售額的關(guān)系。該商店在過(guò)去的3個(gè)月內(nèi)有10次在周末播出了電視廣告來(lái)推動(dòng)商店的銷(xiāo)售,商家向證實(shí)廣告播出次數(shù)和商店在下一周的銷(xiāo)售額之間是否存在著關(guān)聯(lián)?散點(diǎn)圖和趨勢(shì)線根據(jù)上表中數(shù)據(jù)描繪出的散點(diǎn)圖和趨勢(shì)線如下可以得到的信息:廣告次數(shù)和銷(xiāo)售額之間存在著正相關(guān)關(guān)系,并非所有的點(diǎn)都落在一條線上,所以不是完全相關(guān)二:散點(diǎn)圖1、散點(diǎn)圖:將樣本中n個(gè)數(shù)據(jù)點(diǎn)(xi,yi)(i=1,2,…,n)描在平面直角坐標(biāo)系中,以表示具有相關(guān)關(guān)系的兩個(gè)變量的一組數(shù)據(jù)的圖形叫做散點(diǎn)圖.2、正相關(guān)、負(fù)相關(guān)正相關(guān):如果散點(diǎn)圖的點(diǎn)散布在從左下角到右上角的區(qū)域,即一個(gè)變量
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 《家裝知識(shí)講座》課件
- 《癲癇本科》課件
- 《家族式增員》課件
- 單位管理制度合并選集【人員管理篇】
- 單位管理制度范例選集人事管理篇十篇
- 《投資經(jīng)濟(jì)學(xué)》課程教學(xué)大綱
- 《現(xiàn)代經(jīng)濟(jì)學(xué)》課程教學(xué)大綱1
- 《小學(xué)分?jǐn)?shù)教學(xué)》課件
- 《電子元件基礎(chǔ)知識(shí)》課件
- 《企業(yè)環(huán)保管理》課件
- 2024中華人民共和國(guó)學(xué)前教育法學(xué)習(xí)解讀課件
- 計(jì)量經(jīng)濟(jì)學(xué)復(fù)習(xí)資料-概念和問(wèn)答
- 2024年廣東省公務(wù)員錄用考試《行測(cè)》真題及答案解析
- 2024年秋新人教PEP版3年級(jí)上冊(cè)英語(yǔ)教學(xué)課件 Unit 4 第4課時(shí) Part B Let's talk
- 2024新版(外研版三起孫有中)三年級(jí)英語(yǔ)上冊(cè)單詞帶音標(biāo)
- 期末試卷(試題)-2024-2025學(xué)年三年級(jí)上冊(cè)數(shù)學(xué)蘇教版
- 2023年員工手冊(cè)范本(適用于公司全體員工手冊(cè))
- 2025屆安徽省合肥市一六八中高二數(shù)學(xué)第一學(xué)期期末經(jīng)典試題含解析
- 自來(lái)水廠考試題庫(kù)單選題100道及答案解析
- 冷庫(kù)建設(shè)項(xiàng)目可行性研究報(bào)告5篇
- 教育學(xué)院院長(zhǎng)述職報(bào)告范文
評(píng)論
0/150
提交評(píng)論