統(tǒng)計學重點整理_第1頁
統(tǒng)計學重點整理_第2頁
統(tǒng)計學重點整理_第3頁
統(tǒng)計學重點整理_第4頁
統(tǒng)計學重點整理_第5頁
已閱讀5頁,還剩3頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、參數(shù)(parameter):描述總體特征的概括性數(shù)字度量,是研究者想要了解的總體的某種特征值。所關(guān)心的參數(shù)主要有總體均值、標準差、總體比例等??傮w參數(shù)通常用希臘字母表示統(tǒng)計量(statistic):用來描述樣本特征的概括性數(shù)字度量,它是根據(jù)樣本數(shù)據(jù)計算出來的一些量,是樣本的函數(shù)。所關(guān)心的樣本統(tǒng)計量有樣本均值(x)、樣本標準差(s)、樣本比例(p)等。樣本統(tǒng)計量通常用小寫英文字母表示1、概率抽樣:簡單隨機抽樣(SRS、系統(tǒng)抽樣(SYS、分層抽樣(STS、整群抽樣(STS、 多階段抽(MSS)簡單隨機抽樣(SRS特點:總體中每一個樣本點均有相同機率被抽中、抽出某個樣本后不影響另一個樣本抽出的機率(

2、獨立性)、經(jīng)常先列樣本名冊后用計算機產(chǎn)生隨機數(shù)或隨機表抽選放回和不放回:放回(重復)抽樣;無放回(不重復)抽樣系統(tǒng)抽樣(SYS等距抽樣:將所有樣本列冊以序號排列, 先隨機抽取第一個樣本, 接著每隔K個樣本抽取下 一個樣本;間隔 K的求法:Population size/ Sample size; 常用于電話抽樣 (類似于簡單隨 機抽樣)分層抽樣(STS將總體區(qū)分為數(shù)個層(strata):層之間互斥且周延、層內(nèi)性質(zhì)相近、層與層之間差異明顯從每一層中簡單隨機抽取若干樣本作為該層的代表,再將所有層總結(jié)集合整群抽樣(STS將總體區(qū)分為多個群集clusters :群集間互斥且周延、群集與群集間差異小、群

3、集內(nèi)類似總體隨機抽取數(shù)個clusters將抽中的群集內(nèi)每個樣本均調(diào)查多階段抽樣(MSS)第一階段:分群一一整群抽樣第二階段:分層一一分層抽樣第三階段,整群抽樣的優(yōu)點是實施方便、節(jié)省經(jīng)費;整群抽樣的缺點是往往由于不同群之間的差異較大,由此而引起的抽樣誤差往往大于簡單隨機抽樣。2、抽樣所產(chǎn)生的誤差:抽樣誤差 (sampling error)和非抽樣誤差(non-sampling error)抽樣誤差(理論上不可避免):由于抽樣的隨機性所帶來的誤差(偶然性)所有樣本可能的結(jié)果與總體真值之間的平均性差異影響抽樣誤差大小的因素:樣本量的大小、總體的變異性普查無抽樣誤差,但是普查誤差可能比抽樣誤差大非抽樣

4、誤差:除抽樣誤差之外的,由于其他原因造成的樣本觀察結(jié)果與總體真值之間的差異存在于所有的調(diào)查之中:概率抽樣,非概率抽樣,全面性調(diào)查包括:抽樣框誤差、回答誤差、無回答誤差、調(diào)查員誤差、測量誤差回答誤差:理解誤差、記憶誤差、有意識誤差無回答誤差:應答率的問題:酒吧打架致死事件,90%是被打死的那個人先動手的?誤差的控制抽樣誤差可計算和控制非抽樣誤差的控制:合理選擇抽樣框、改良問卷、調(diào)查過程控制(調(diào)查結(jié)果進行檢驗、評估; 現(xiàn)場調(diào)查人員進行獎懲的制度)莖葉圖Stem-and-leaf plot for YEAR(結(jié)婚年齡)(唯一一個沒有丟失原始數(shù)據(jù)的統(tǒng)計表)3、畫表的一般原則:合理安排統(tǒng)計表的結(jié)構(gòu)、總標

5、題內(nèi)容應滿足3W要求、數(shù)據(jù)計量單位相同時,可放在表的右上角標明,不同時應放在每個指標后或單列出一列標明、表中的上下兩條橫線一般用粗線,其他線用細線、通常情況下,統(tǒng)計表的左右兩邊不封口、表中的數(shù)據(jù)一般是右對齊,有小數(shù)點時應以小數(shù)點對齊,而且小數(shù)點的位數(shù)應統(tǒng)一、對于沒有數(shù)字的表格單元,一般用“一” 表示、必要時可在表的下方加上注釋4、集中趨勢表示:均值、中位數(shù)、眾數(shù)、幾何平均數(shù)眾數(shù):出現(xiàn)次數(shù)最多的變量值不受極端值的影響、 一組數(shù)據(jù)可能沒有眾數(shù)或有幾個眾數(shù)、主要用于定性數(shù)據(jù),也可用于定量數(shù)據(jù)未分組數(shù)據(jù):無眾數(shù)(原始數(shù)據(jù):1 2 3 4 5 6 7 )、一個眾數(shù)(原始數(shù)據(jù):1 233 34 5 )、多

6、于一個眾數(shù)(原始數(shù)據(jù):1 23 3 44 5,此時眾數(shù)為二者平均3.5)分組數(shù)據(jù):先在次數(shù)表中找出次數(shù)最多的那一組,稱為眾數(shù)組 ,一般以Mo來表示。若 取眾數(shù)組的組中點為眾數(shù),則稱為粗眾數(shù)。Czuber插補法中位數(shù)(median):將一組數(shù)字由大排至小,位居中間的數(shù)值為該組數(shù)字的中位數(shù)。一般以Me來表示各觀察值與中位數(shù)差異的絕對值總和為最小。以下列公式求出中位數(shù):均值(mean):集中趨勢的最常用測度值、一組數(shù)據(jù)的均衡點所在事實上,各個觀察值與平均數(shù)差的總和為0、各個觀察值與平均數(shù)差的平方和為最小幾何平均數(shù)(geometric mean) : n個變量值乘積的 n次方根數(shù)據(jù)必須為正值才能計算幾

7、何平均數(shù)主要用于計算平均百分比(percentages)、比率(ratios)指數(shù)(indexes)成長率(growth rates)的計算分位數(shù):除了將數(shù)據(jù)作半切割外,我們也可以將數(shù)據(jù)切成四等分、十等分、或一百等分切尾均值(trimmed Mean):去掉大小兩端的若干數(shù)值后計算中間數(shù)據(jù)的均值離散趨勢:極差(四分位距)、方差(總體方差樣本方差)、標準差(總體標準差、樣本標準差)、離散系數(shù)四分位距(Interquartile Range ):也稱為內(nèi)距。上四分位數(shù)與下四分位數(shù)之差( IQR = Q3 -Q1)反映了中間50%數(shù)據(jù)的離散程度。不受極端值的影響離散系數(shù)(coefficient of

8、 variation CV):標準差與其相應的均值之比分布偏度與峰度的測度偏度(skewness): Pearson于1895年首次提出。數(shù)據(jù)分布偏斜程度的測度:偏態(tài)系數(shù)=0為對稱分布偏態(tài)系數(shù) 0為左偏分布偏態(tài)系數(shù) 0為右偏分布峰度(kurtosis) : Pearson于1905年首次提出。數(shù)據(jù)分布扁平程度的測度峰態(tài)系數(shù)=0扁平峰度適中峰態(tài)系數(shù)0為扁平分布峰態(tài)系數(shù)0為尖峰分布統(tǒng)計量的分布就是抽樣分布標準誤(error):統(tǒng)計量的標準差.樣本均數(shù)的標準差。5、影響區(qū)間寬度的因素總體數(shù)據(jù)的離散程度,用 s來測度樣本容量置信水平(1 - a),影響z的大小抽樣組織形式抽樣方法計算題6、如何正確理解

9、置信區(qū)間由樣本估計量所構(gòu)造的總體參數(shù)的估計區(qū)間稱為置信區(qū)間。統(tǒng)計學家在某種程度上確信這個區(qū)間會包含真正的總體參數(shù),所以給它取名為置信區(qū)間用一個具體的樣本所構(gòu)造的區(qū)間是一個特定的區(qū)間,我們無法知道這個樣本所產(chǎn)生的區(qū)間是否包含總體參數(shù)的真值。我們只能是希望這個區(qū)間是大量包含總體參數(shù)真值的區(qū)間中的一個, 但它也可能是少數(shù)幾個不包含參數(shù)真值的區(qū)間中的一個。置信區(qū)間又稱為估計區(qū)間,是用來估計參數(shù)的適用范圍的。其值是一個變量本身所具有的真實值。置信區(qū)間展現(xiàn)的是這個參數(shù)真值有一定概率落在測量結(jié)果的周圍的程度。置信區(qū)間給出的是被測量參數(shù)的測量值的可信程度。7、抽樣n需要考慮的因素(1)研究對象的變化程度、(2

10、)所要求或允許的誤差大?。淳纫螅?、(3)要求推斷的置信程度。也就是說,當所研究的現(xiàn)象越復雜,差異越大時,樣本容量要求越大;當要求的精度越高,可推斷性要求越高時,樣本量越大。樣本容量n與總體方差?2、邊際誤差E、可靠性系數(shù)Z或t之間的關(guān)系為8、第一類錯誤(棄真錯誤):原假設為真時拒絕原假設。第一類錯誤的概率為a a,即顯著性水平;(1 5 a )則置信水平第二類錯誤(取偽錯誤),原假設為假時沒有拒絕原假設。第二類錯誤的概率為3 b(Beta)在其他條件不變的情況下,減少犯第一類的可能性勢必增加犯第二類錯誤的可能性,反之必然。=, =3:w 1, 原假設:研究者想收集證據(jù)予以反對的假設??偸?/p>

11、有等號 備擇假設:研究者想收集證據(jù)予以支持的假設。總是有不等號9、P 值:如果原假設為真,P-值是抽樣分布中大于或小于樣本統(tǒng)計量的概率左側(cè)檢驗時,P-值為曲線上方小于等于檢驗統(tǒng)計量部分的面積 右側(cè)檢驗時,P-值為曲線上方大于等于檢驗統(tǒng)計量部分的面積 P值常常作為觀察到額數(shù)據(jù)域原假設不一致程度的度量。統(tǒng)計量檢驗采用事先確定顯著性水平a,來控制犯第一類錯誤的上限,P值可以有效的補充 a提供的關(guān)于檢驗可靠性的有限信息。P值檢驗的優(yōu)點在于,他提供了更多的信息,讓人們可以選擇一定的水平來評估結(jié)果是否具 有統(tǒng)計上的顯著性。如果P值越小,則我們可以拒絕原假設 計算題10、相關(guān)與回歸的關(guān)系相關(guān)分析與回歸分析區(qū)

12、別:(1)相關(guān)分析中,變量 x變量y處于平等的地位;回歸分析中,變量y稱為因變量,處在被解釋白地位,x稱為自變量,用于預測因變量的變化(2)相關(guān)分析中所涉及的變量 x和y都是隨機變量;回歸分析中,因變量y是隨機變量, 自變量x可以是隨機變量,也可以是非隨機的確定變量回歸分析不僅可以揭示變量(3)相關(guān)分析主要是描述兩個變量之間線性關(guān)系的密切程度; 對變量y的影響大小,還可以由回歸方程進行預測和控制 相關(guān)分析與回歸分析聯(lián)系(1)理論和方法具有相似性;(2)無相關(guān)就無回歸,相關(guān)程度越高,回歸越好(3)線性回歸時,相關(guān)系數(shù)和回歸系數(shù)方向一致,可以互相推算回歸系數(shù)含義是說當其他因素不變時自變量的以單位變

13、化引起的因變量的變化程度計算題可決系數(shù)(coefficient of determination )可決系數(shù)越大,說明在總變差中由模型作出了解釋的部分占的比重越大,模型擬合優(yōu)度越好。反之可決系數(shù)小,說明模型對樣本觀測值的擬合程度越差??蓻Q系數(shù)是測定多個變量間相關(guān)關(guān)系密切程度的統(tǒng)計分析指標,它也是反映多個自變量對因變量的聯(lián)合的影響程度。可決系數(shù)越大,自變量對因變量的解釋程度越高,自變量引起的變動占總變動的百分比高。判定系數(shù)為可解釋變異量占總變異量的比例,表示X對Y的變異之解釋能力。R2愈大,表示X對Y的解釋能力愈強可決系數(shù)有如下特點:.可決系數(shù)是非負的統(tǒng)計量.可決系數(shù)的取值范圍:0=E2=1.可

14、決系數(shù)是樣本觀測值的函數(shù),可決系數(shù)RA2是隨機抽樣而變動的隨機變量。為此,對可決系數(shù)的統(tǒng)計可靠性也應進行檢驗。未知數(shù),可用樣本 s代替,從而得到t分布t檢驗總體斜率時間數(shù)列的基本要素:時間和指標數(shù)值 發(fā)展速度:環(huán)比發(fā)展速度、定基發(fā)展速度關(guān)系:定期發(fā)展速度(總速度)=相應時期的環(huán)比發(fā)展速度之積。兩個相鄰的定基發(fā)展速度,用后者除以前者,等于相應的環(huán)比發(fā)展速度。增長速度:環(huán)比增長速度*比發(fā)展速度一1定基增長速度=定基發(fā)展速度一1平均增長速度=平均發(fā)展速度 一1平均發(fā)展速度的計算幾何平均法(水平法)以 xi表示環(huán)比發(fā)展速度,根據(jù)環(huán)比發(fā)展速度與總速度的關(guān)系,計算 平均發(fā)展速度應該采用幾何平均法:時間序列

15、及其的構(gòu)成要素(1)長期趨勢T (A圖)現(xiàn)象在較長時期內(nèi)持續(xù)發(fā)展變化的一種趨向或狀態(tài);由影響時間序列的基本因素作用形成;是時間序列中最基本的構(gòu)成要素;可分為上升趨勢、下降趨勢、水平趨勢(2)季節(jié)變動S (B圖)是一種使現(xiàn)象以一定時期(如一年、一月、一周等)為一周期呈現(xiàn)較有規(guī)律的上升、下降交 替運動的影響因素。通常表現(xiàn)為現(xiàn)象在一年內(nèi)隨著自然季節(jié)的更替而發(fā)生的較有規(guī)律的增減變化,有旺季和淡季之分;是一種周期性的變化;周期長度小于一年;形成原因一一有自然因素,也有人為因素(3)循環(huán)變動C (C圖)這種因素的影響使現(xiàn)象呈現(xiàn)出以若干年為一周期、漲落相間、擴張與緊縮、波峰與波谷相交替的波動。 不同于長期趨

16、勢:表現(xiàn)為單一方向的持續(xù)變動、C表現(xiàn)為波浪式的漲落交替的變動。又不同于季節(jié)周期:周期長度不同、模型識別的難易程度不同、形成原因不同(4)不規(guī)則變動I包括隨機變動和突然變動。隨機變動一現(xiàn)象受到各種偶然因素影響而呈現(xiàn)出方向不定、時起時伏、時大時小的變動,突然變動一戰(zhàn)爭、自然災害或其它社會因素等意外事件引起的變動。影響作用無法相互抵消, 影響幅度很大。一般只討論有隨機波動而不含突然異常變動的情況。測量長期趨勢的幾種方法:移動平均方式、指數(shù)平滑法、二次曲線、指數(shù)曲線11、測定季節(jié)變動的意義(1)分析與測定過去的季節(jié)變動規(guī)律(2)對未來現(xiàn)象季節(jié)變動作出預測(3)消除季節(jié)變動對時間序列的影響方法:原始資料平均法:計算各年同期(月或季)的平均數(shù)計算全部數(shù)據(jù)的總平均數(shù)計算季節(jié)比率季節(jié)比率特性:其總和等于季節(jié)周期L (=12或=4)12、同度量因素原理:(1)引入同度

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論