統(tǒng)計(jì)學(xué)的基礎(chǔ)知識(shí)_第1頁(yè)
統(tǒng)計(jì)學(xué)的基礎(chǔ)知識(shí)_第2頁(yè)
統(tǒng)計(jì)學(xué)的基礎(chǔ)知識(shí)_第3頁(yè)
統(tǒng)計(jì)學(xué)的基礎(chǔ)知識(shí)_第4頁(yè)
統(tǒng)計(jì)學(xué)的基礎(chǔ)知識(shí)_第5頁(yè)
已閱讀5頁(yè),還剩107頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、預(yù)備內(nèi)容:統(tǒng)計(jì)學(xué)基礎(chǔ)知識(shí)統(tǒng)計(jì)學(xué)statistics統(tǒng)計(jì)學(xué)是收集、分析、解釋與報(bào)告數(shù)據(jù)資料的一門(mén)科學(xué)。“a science dealing with the collection, analysis, interpretation and presentation of masses of numerical data”. -Webster 國(guó)際大辭典第一節(jié) 統(tǒng)計(jì)學(xué)的一些基本概念 1. 總體與樣本2. 變量與隨機(jī)變量3. 同質(zhì)與變異4. 參數(shù)與統(tǒng)計(jì)量5. 誤差與錯(cuò)誤6. 準(zhǔn)確性與精確性1. 總體與樣本 Population and sample樣本:從總體中隨機(jī)抽取的部分觀(guān)察單位。如某單位男士的

2、身高總體:根據(jù)研究目的確定的同質(zhì)研究對(duì)象的全體(集合)。如成年人的身高。分有限總體與無(wú)限總體從總體中得到樣本的方法:抽樣。 (抽樣方法與樣本量)從樣本推論總體的方法:統(tǒng)計(jì)推斷 (區(qū)間估計(jì),假設(shè)檢驗(yàn)等)抽樣與推斷p 變量可以測(cè)量的任何特征或?qū)傩?。Any characteristic or attribute that can be measured。 如熱量值、蛋白質(zhì)含量、碳水化合物含量。p 隨機(jī)變量在概率論中稱(chēng)變量為隨機(jī)變量 2、變量與隨機(jī)變量Variable and random variable3、變量(隨機(jī)變量)的分類(lèi)p 離散型變量(discrete variable): 計(jì)數(shù)資料(15

3、,17,24,)p 連續(xù)性變量(continuous variable): 計(jì)量資料(1.65, 1.73, 1.77,)p 有序變量(ordinal variable): 等級(jí)資料(優(yōu)、良、中、差)4. 參數(shù)與統(tǒng)計(jì)量 Parameter and statistic參數(shù):總體的統(tǒng)計(jì)指標(biāo),如總體均數(shù)、標(biāo)準(zhǔn)差,采用希臘字母分別記為、。通常是固定的常數(shù)。 抽樣 統(tǒng)計(jì)量 參 數(shù) 推斷統(tǒng)計(jì)量:樣本的統(tǒng)計(jì)指標(biāo),如樣本均數(shù)、標(biāo)準(zhǔn)差,采用拉丁字母分別記為 。 參數(shù)附近波動(dòng)的隨機(jī)變量 。SX、誤差與錯(cuò)誤Error and mistake誤差:試驗(yàn)中不可控因素所引起的實(shí)際觀(guān)察值與客觀(guān)真實(shí)值(真值)之差p 系統(tǒng)誤差

4、 systematic errorp 隨機(jī)誤差 random error錯(cuò)誤:試驗(yàn)過(guò)程中,人為作用引起的差錯(cuò) 如藥品稱(chēng)量錯(cuò)誤,數(shù)據(jù)錄入錯(cuò)誤等 誤差(Error)測(cè)量值 = 真值 + 隨機(jī)誤差 +非隨機(jī)誤差 Xi = i + i 1隨機(jī)誤差(抽樣誤差): 影響因素眾多,變化無(wú)方向性,不可避免,但可用統(tǒng)計(jì)方法進(jìn)行分析。 2系統(tǒng)誤差 受確定因素影響,大小變化有方向性。 3非系統(tǒng)誤差(錯(cuò)誤) 研究者偶然失誤而造成的誤差。偏差bias可以避免6. 準(zhǔn)確性與精確性 準(zhǔn)確度(accuracy)或真實(shí)性(validity):觀(guān)察值與真值的接近程度,受系統(tǒng)誤差的影響(常用指標(biāo):如靈敏度、特異性)。 精密度(pr

5、ecision) 、也稱(chēng)可靠度(reliability)或重復(fù)性(repeatability):重復(fù)觀(guān)察時(shí)觀(guān)察值與其均值的接近程度,受隨機(jī)誤差的影響(常用指標(biāo):一致百分率、Kappa值)。系統(tǒng)誤差使數(shù)據(jù)偏離了其理論值,影響數(shù)據(jù)的準(zhǔn)確度準(zhǔn)確度。隨機(jī)誤差使數(shù)據(jù)相互分散,影響了數(shù)據(jù)的精密度精密度。準(zhǔn)確度和精密度都好 準(zhǔn)確度差、精密度好 準(zhǔn)確度?精密度差 準(zhǔn)確度和精密度都差 第二節(jié) 計(jì)量資料的統(tǒng)計(jì)描述 連續(xù)型變量(可測(cè)量的變量)u頻數(shù)表與頻數(shù)分布u平均指標(biāo)(算術(shù)均數(shù)、幾何均數(shù)、中位數(shù)、眾數(shù))u變異指標(biāo)(極差、百分位數(shù)與四分位間距、方差、標(biāo)準(zhǔn)差、變異系數(shù))一、頻數(shù)表與頻數(shù)分布 (frequency ta

6、ble and frequency distribution)160名正常成年女子的血清甘油三酯(mmol/L) 男子血清總膽固醇水平(mmol/L) Stem-and-Leaf Plot Frequency Stem & Leaf 5.00 2 . 78999 13.00 3 . 0111222333444 34.00 3 . 5555555566666666777778888999999999 32.00 4 . 00000001111111222223333334444444 35.00 4 . 55555555566666666677777888888899999 17.00

7、5 . 00112222233333344 10.00 5 . 5555677899 4.00 6 . 0022 Stem width: 1.00 Each leaf: 1 case (s)莖葉圖二. 平均指標(biāo)總稱(chēng)為平均數(shù)(average)反映了資料的集中趨勢(shì)(central tendency)。常用的有: 1. 算術(shù)均數(shù)(arithmetic mean),簡(jiǎn)稱(chēng)均數(shù)(mean) 2. 幾何均數(shù)(geometric mean) 3. 中位數(shù) (median) 4. 眾數(shù)(mode) 5. 調(diào)和均數(shù)(harmonic mean) 6. 截尾平均值(5% trimmed mean)1. 均數(shù)(mea

8、n)nXnXXXXn21iiikkkfXfffffXfXfXfXfX321332211適用條件:資料呈正態(tài)或近似正態(tài)分布的資料2. 幾何均數(shù)(geometric mean)nXXnXXXXnXGnGlglglg)lglg(lg1lg121nnGXXXX21幾何均數(shù)的適用條件與實(shí)例適用條件:呈倍數(shù)關(guān)系的等比資料或?qū)?shù)正態(tài)分布(正偏態(tài))資料;如增長(zhǎng)速度、抗體滴度資料抗體的效價(jià)滴度的倒數(shù)分別為:10、100、1000、10000、100000,求幾何均數(shù)。1000510lg10lg10lg10lg10lglg543211GX此例的算術(shù)均數(shù)為22222,顯然不能代表滴度的平均水平。對(duì)于同一資料,幾何均

9、數(shù) 中位數(shù)眾數(shù)負(fù)偏態(tài)分布時(shí):均數(shù)中位數(shù) 幾何平均數(shù) 調(diào)和平均數(shù) 上述五種平均數(shù),最常用的是算術(shù)平均數(shù)。幾種平均數(shù)之間的關(guān)系5% trimmed mean:將一組數(shù)中去掉最小的5數(shù)值,再去掉最大的5,然后將剩余的90計(jì)算平均值得出的數(shù)值。減小了極端值的影響。 截尾平均值三. 變異(variation)指標(biāo) 反映數(shù)據(jù)的離散度(Dispersion )。即個(gè)體觀(guān)察值的變異程度。常用的指標(biāo)有: 1. 極差(Range) (全距) 2. 百分位數(shù)與四分位數(shù)間距 Percentile and Quartile range 3. 方差 Variance 4. 標(biāo)準(zhǔn)差 Standard Deviation 5

10、. 變異系數(shù) Coefficient of Variation1. 極差(Range)(全距)minmaxXXR優(yōu)點(diǎn):簡(jiǎn)便缺點(diǎn):1. 只利用了兩個(gè) 極端值 2. n大,R也會(huì)大 3. 不穩(wěn)定 1.6m 1.8m2. 百分位數(shù)與四分位數(shù)間距 Percentile and quartile range百分位數(shù) :數(shù)據(jù)從小到大排列,在百分尺度下,所占百分比對(duì)應(yīng)的值。記為Px。 四分位間距Quartile range:QRP75 P25四分位半間距Quartile deviation:QDQR/2XFrequency 25%75%3. 方差 方差 (variance)也稱(chēng)均方差(mean square

11、 deviation),樣本觀(guān)察值的離均差平方和的均值。表示一組數(shù)據(jù)的平均離散情況。NXXSSXxxxn22221)-()-(square of Sum0)-()(.)()(總體方差)離均差平方和(離均差和11)(2222nnXXnXXS樣本方差4.標(biāo)準(zhǔn)差11)(222nnXXnXXS樣本標(biāo)準(zhǔn)差 標(biāo)準(zhǔn)差 (Standard deviation, Std, SD)即方差的正平方根;其單位與原變量X的單位相同。NX2)(總體標(biāo)準(zhǔn)差樣本方差為什么要除以(n1)與自由度(degrees of freedom)有關(guān)。自由度是數(shù)學(xué)名詞,在統(tǒng)計(jì)學(xué)中,n個(gè)數(shù)據(jù)如不受任何條件的限制,則n個(gè)數(shù)據(jù)可取任意值,稱(chēng)為有

12、n個(gè)自由度。若受到k個(gè)條件的限制,就只有(nk)個(gè)自由度了。例如一個(gè)有5個(gè)觀(guān)察值的樣本,因?yàn)槭艿浇y(tǒng)計(jì)數(shù)的約束,在5個(gè)離均差中,只有4個(gè)數(shù)值可以在一定范圍內(nèi)自由變動(dòng)取值,而第五個(gè)離均差必須滿(mǎn)足 這一限制條件。0)(_xxx基本概念:樣本容量及樣本個(gè)數(shù) 樣本容量(n):指一個(gè)樣本所包含的單位數(shù)。 一般將樣本單位數(shù)不少于三十個(gè)(50?)的樣本稱(chēng)為大樣本,樣本單位數(shù)不到三十個(gè)的樣本稱(chēng)為小樣本。 樣本個(gè)數(shù)(g):又稱(chēng)樣本可能數(shù)目,是指從一個(gè)總體中抽取了多少個(gè)樣本?;靖拍睿撼闃诱`差 抽樣誤差:指按照隨機(jī)原則抽樣時(shí),樣本指標(biāo)與總體指標(biāo)之間存在的誤差。 主要包括: 總體平均數(shù)和樣本平均數(shù)的誤差; 總體標(biāo)準(zhǔn)差

13、和樣本標(biāo)準(zhǔn)差的誤差?;靖拍睿撼闃悠骄`差 為什么要研究抽樣平均誤差? 未知 實(shí)際誤差未知: 即使知道,由于樣本均值是隨機(jī)的,每次的誤差也不一樣。)(x均數(shù)的抽樣誤差與標(biāo)準(zhǔn)誤例如,從總體均數(shù)=4.136 mmol/L、標(biāo)準(zhǔn)差=0.817 mmol /L的正態(tài)分布總體N(4.136, 0.8172)中,隨機(jī)抽取n人為一個(gè)樣本(n=5, 10, 20, 30),并計(jì)算該樣本的均數(shù)、標(biāo)準(zhǔn)差。如此重復(fù)抽取1000次(g=1000),可得到1000份樣本,可得到1000份均數(shù) 和標(biāo)準(zhǔn)差S。X10001000份樣本的均數(shù)和標(biāo)準(zhǔn)差份樣本的均數(shù)和標(biāo)準(zhǔn)差均數(shù)的抽樣誤差與標(biāo)準(zhǔn)誤 將這1000份樣本的均數(shù)看成新變量

14、值,按頻數(shù)分布方法,得到這1000份樣本均數(shù)的直方圖。隨機(jī)抽樣所得隨機(jī)抽樣所得10001000份樣本均數(shù)的分布份樣本均數(shù)的分布當(dāng)n5時(shí)當(dāng)n10時(shí)當(dāng)n20時(shí)當(dāng)n30時(shí) 1000份樣本均數(shù)的抽樣分布特點(diǎn)樣本含量 均數(shù) 均數(shù)標(biāo)準(zhǔn)差 n mean sd 5 4.14030 0.36305 10 4.14039 0.25024 20 4.13859 0.17849 30 4.14173 0.14954 總體均數(shù) 4.136總體標(biāo)準(zhǔn)差 0.8170.817 /50.36540.817 /100.25840.817 /200.18270.817 /300.1492XSn理論上,樣本均數(shù)的標(biāo)準(zhǔn)差 1000份樣

15、本均數(shù)的抽樣分布特點(diǎn):樣本均數(shù)的抽樣分布特點(diǎn): 1000份樣本均數(shù)中,各樣本均數(shù)間存在差異,但各樣本均數(shù)在總體均數(shù)周?chē)▌?dòng)。 樣本均數(shù)的分布曲線(xiàn)為中間高,兩邊低,左右對(duì)稱(chēng),近似服從正態(tài)分布。 隨著樣本量增加,樣本均數(shù)的標(biāo)準(zhǔn)差明顯變?。?.136(4.140,4.140,4.138,4.141)X0.817(0.365,0.258,0.183,0.149XSn4個(gè)抽樣實(shí)驗(yàn)結(jié)果比較10;0.2584XnS30;0.1492XnS5;0.3654XnS20;0.1827XnS 通過(guò)增加樣本含量n來(lái)降低抽樣誤差。5. 變異系數(shù)%100XSCV(Coefficient of variation,CV)適

16、用條件: 觀(guān)察指標(biāo)單位不同,如身高、體重 同單位資料,但均數(shù)相差懸殊6. 數(shù)據(jù)的標(biāo)準(zhǔn)得分假定兩個(gè)水平類(lèi)似的班級(jí)(一班和二班)上同一門(mén)課,但是由于兩個(gè)任課老師的評(píng)分標(biāo)準(zhǔn)不同,使得兩個(gè)班成績(jī)的均值和標(biāo)準(zhǔn)差都不一樣(SPSS數(shù)據(jù):grade.sav)。 分?jǐn)?shù)的均值 標(biāo)準(zhǔn)差 CV一班 78.53 9.43 12%二班 70.19 7.00 10%那么得到90分的一班的張穎是不是比得到82分的二班的劉濤成績(jī)更好呢成績(jī)更好呢?怎么比較才能合理呢? 數(shù)據(jù)的標(biāo)準(zhǔn)得分均值和標(biāo)準(zhǔn)差不同的數(shù)據(jù)不能夠直接比較,但是可以把它們進(jìn)行標(biāo)準(zhǔn)化,然后再比較標(biāo)準(zhǔn)化后的數(shù)據(jù)。 一個(gè)標(biāo)準(zhǔn)化的方法是把原始觀(guān)測(cè)值(亦稱(chēng)得分,score)

17、和均值之差除以標(biāo)準(zhǔn)差;得到的度量稱(chēng)為標(biāo)準(zhǔn)得分(standard score,又稱(chēng)為z-score)。 即:標(biāo)準(zhǔn)差均值觀(guān)察值標(biāo)準(zhǔn)得分-SXXscorez數(shù)據(jù)的標(biāo)準(zhǔn)得分然后可以比較來(lái)自不同樣本的標(biāo)準(zhǔn)得分。 這樣: 張穎的標(biāo)準(zhǔn)得分為 劉濤的標(biāo)準(zhǔn)得分為 顯然如果兩個(gè)班級(jí)水平差不多,劉濤的成劉濤的成績(jī)應(yīng)該優(yōu)于張穎的成績(jī)績(jī)應(yīng)該優(yōu)于張穎的成績(jī);這是在標(biāo)準(zhǔn)化之前的數(shù)據(jù)中不易看到的。 22. 143. 953.78-9069. 100. 719.70-8210097N =班級(jí)二班一班得分1101009080706050402110097N =班級(jí)二班一班標(biāo)準(zhǔn)得分3210-1-2-3-421p原始數(shù)據(jù)是在各自的均

18、值附近,散布也不一樣。但它們的標(biāo)準(zhǔn)得分則在0周?chē)⒉迹疑⒉家膊畈欢唷?p實(shí)際上,任何樣本經(jīng)過(guò)這樣的標(biāo)準(zhǔn)化后,就都變換成均值為0、方差為1的樣本。標(biāo)準(zhǔn)化后不同樣本觀(guān)測(cè)值的比較只有相對(duì)意義,沒(méi)有絕對(duì)意義。 第三節(jié) 計(jì)數(shù)資料的統(tǒng)計(jì)描述按年齡(2歲一組)與職業(yè)整理統(tǒng)計(jì)軟件的種類(lèi)SPSS:p這是一個(gè)很受歡迎的統(tǒng)計(jì)軟件;p容易操作,輸出漂亮,功能齊全;p對(duì)于非統(tǒng)計(jì)工作者是很好的選擇。 Excel:p作為數(shù)據(jù)表格軟件,有一定統(tǒng)計(jì)計(jì)算功能;p對(duì)于簡(jiǎn)單分析比較方便;p對(duì)于較復(fù)雜的分析,需要使用函數(shù),甚至根本沒(méi)有相應(yīng)的方法了。多數(shù)專(zhuān)門(mén)一些的統(tǒng)計(jì)推斷問(wèn)題還需要其他專(zhuān)門(mén)的統(tǒng)計(jì)軟件來(lái)處理。統(tǒng)計(jì)軟件的種類(lèi)SAS:p功

19、能非常齊全的軟件;p某些美國(guó)政府機(jī)構(gòu)認(rèn)可;p需要一定的訓(xùn)練才可以使用,對(duì)于非專(zhuān)業(yè)統(tǒng)計(jì)人員不那么方便。 S-plus:p統(tǒng)計(jì)學(xué)家喜愛(ài)的軟件;p其功能齊全,具有強(qiáng)大的編程功能;p專(zhuān)業(yè)統(tǒng)計(jì)人員可以編制自己的程序來(lái)實(shí)現(xiàn)自己的理論和方法。統(tǒng)計(jì)軟件的種類(lèi)Statistica:p容易操作;p統(tǒng)計(jì)資料分析、圖表、資料管理;p應(yīng)用程序開(kāi)發(fā)。Origin:p容易操作;p輸出圖形的清晰度高(很多雜志要求)。第三節(jié) 常見(jiàn)的概率分布 一 概率的有關(guān)概念 二 概率分布概述三 離散型隨機(jī)變量的概率分布四 正態(tài)分布五 常用的抽樣分布一 概率的有關(guān)概念 樣本的實(shí)際發(fā)生率稱(chēng)為頻率。設(shè)在相同條件下,獨(dú)立重復(fù)進(jìn)行n次試驗(yàn),事件A出現(xiàn)

20、f 次,則事件A出現(xiàn)的頻率為f/n。 概率:隨機(jī)事件發(fā)生的可能性大小,用大寫(xiě)的P 表示;取值0,1。 樣本含量n越大,頻率的波動(dòng)幅度越小,頻率越接近概率。 頻率與概率 frequency and probability必然事件 P = 1隨機(jī)事件 0 P 1不可能事件 P = 0 P 0.05(5)或P 0.01(1)稱(chēng)為小概率事件(習(xí)慣),統(tǒng)計(jì)學(xué)上認(rèn)為不大可能發(fā)生。隨機(jī)事件 Random events 概率分布:描述隨機(jī)變量值xi及這些值對(duì)應(yīng)概率P(X=xi)的表格、公式或圖形。 離散型隨機(jī)變量離散型隨機(jī)變量概率分布概率分布 連續(xù)型隨機(jī)變量連續(xù)型隨機(jī)變量概率分布概率分布二 概率分布概述1.

21、1. 離散離散型隨機(jī)變量的型隨機(jī)變量的概率分布概率分布離散型隨機(jī)變量的概率分布(例一)f(x)離散型隨機(jī)變量的概率分布(例二)N=10, =0.2如新手上路某事件出錯(cuò)的概率是0.2,連續(xù)進(jìn)行10次這樣的事件,出現(xiàn)010次錯(cuò)誤的概率分布: 2. 連續(xù)型隨機(jī)變量的概率分布 與離散型變量不同的是連續(xù)型變量的取值充滿(mǎn)整個(gè)數(shù)值區(qū)間,無(wú)法一一列出其每一個(gè)可能值。 一般將連續(xù)型隨機(jī)變量整理成頻數(shù)表,對(duì)頻數(shù)作直方圖,直方圖的每個(gè)矩形頂端連接的階梯形曲線(xiàn)來(lái)描述連續(xù)型變量的頻數(shù)分布。 如果樣本量很大,組段很多,矩形頂端組成的階梯型曲線(xiàn)可變成光滑的分布曲線(xiàn)。大多數(shù)情況下,可采用一個(gè)函數(shù)擬合這一光滑曲線(xiàn)。這種函數(shù)稱(chēng)為

22、概率密度函數(shù)(Probability density function,Pdf)。xxxfff 如果連續(xù)型隨機(jī)變量X的概率密度函數(shù)記為: 則在區(qū)間x1,x2 范圍內(nèi)的概率可由微積分函數(shù)定義 211212( )( )( ,) (,)xxF XP xXxf x dxx x ()( )1F XPxf x dx )(xf三 離散型隨機(jī)變量的概率分布離散型隨機(jī)變量的分布1、二項(xiàng)分布2、泊松分布連續(xù)型隨機(jī)變量的分布正態(tài)分布毒性試驗(yàn):白鼠 死亡生存臨床試驗(yàn):病人 治愈未愈臨床化驗(yàn):血清 陽(yáng)性陰性任一事件 成功(A)失敗(非A)這類(lèi)“成功失敗型”試驗(yàn)稱(chēng)為Bernoulli試驗(yàn)。1、二項(xiàng)分布Binomial d

23、istributionBernoulli試驗(yàn)序列n次Bernoulli試驗(yàn)構(gòu)成了Bernoulli試驗(yàn)序列。 其特點(diǎn)(如拋硬幣)如下:(1) 每次試驗(yàn)結(jié)果,只能是兩個(gè)互斥的結(jié)果之一(A或非A)。(2) 每次試驗(yàn)的條件不變。即每次試驗(yàn)中,結(jié)果A發(fā)生的概率不變,均為 。(3) 各次試驗(yàn)獨(dú)立。即一次試驗(yàn)出現(xiàn)什么樣的結(jié)果與前面已出現(xiàn)的結(jié)果無(wú)關(guān)。成功次數(shù)的概率分布二項(xiàng)分布例 設(shè)某毒理試驗(yàn)采用白鼠共3只,它們有相同的死亡概率,相應(yīng)存活概率為1-。記試驗(yàn)后白鼠死亡的例數(shù)為X,分別求X0、1、2和3的概率 3只白鼠各種試驗(yàn)結(jié)果及其發(fā)生概率二項(xiàng)分布的概率計(jì)算=BINOMDIST(1,3,0.4,0)=0.5,正

24、態(tài)0.5,左偏二項(xiàng)分布的特點(diǎn)2、 泊松分布 當(dāng)二項(xiàng)分布中n很大,很小時(shí),二項(xiàng)分布就變成為Poisson分布,所以Poisson分布實(shí)際上是二項(xiàng)分布的極限分布。 由二項(xiàng)分布的概率函數(shù)可得到泊松分布的概率函數(shù)為:0,1,2,!0XPoisson()xeP XxxxXP為大于 的常數(shù),服從以為參數(shù)的分布 全部右偏越大越趨于正態(tài)PPoisson分布概率的特點(diǎn)Poisson分布與正態(tài)分布正態(tài)分布及二項(xiàng)分布二項(xiàng)分布的關(guān)系 當(dāng)較小時(shí), Poisson分布呈偏態(tài)分布,隨著增大,迅速接近正態(tài)分布,當(dāng)20時(shí),可以認(rèn)為近似正態(tài)分布。 Poisson分布是二項(xiàng)分布的特例,某現(xiàn)象的發(fā)生率很小,而樣本例數(shù)n很大時(shí),則二項(xiàng)

25、分布接近于Piosson分布。 n (應(yīng)用: Poisson替代二項(xiàng)分布)四 正態(tài)分布 正態(tài)分布(Normal distribution)也叫高斯分布(Gaussian distribution),是最常見(jiàn)、最重要的一種連續(xù)型分布。 1、正態(tài)分布的數(shù)學(xué)形式 2、正態(tài)曲線(xiàn) 3、標(biāo)準(zhǔn)正態(tài)分布 4、曲線(xiàn)下面積1、數(shù)學(xué)形式 XXXf,2)(exp21)(22)。正態(tài)曲線(xiàn)(就是為橫坐標(biāo),繪制的曲線(xiàn)為縱坐標(biāo),以的概率密度函數(shù)。稱(chēng)為為總體標(biāo)準(zhǔn)差的總體均數(shù),為,curve Normal)()(),(2XXfXXfXNX2、正態(tài)曲線(xiàn)( normal curve )圖形特點(diǎn):鐘型中間高兩頭低左右對(duì)稱(chēng)最高處對(duì)應(yīng)于X

26、軸的值就是均數(shù)曲線(xiàn)下面積為11. 標(biāo)準(zhǔn)差決定曲線(xiàn)的形狀 =0.5 0 f(x) =1 =2 0 f(x) max 1 2 N(,0.52)、N(,12)、N(,22) N(1 ,2)、)、N(2 ,2) 正態(tài)分布曲線(xiàn)由兩個(gè)參數(shù)決定,即總體均數(shù)和總體標(biāo)準(zhǔn)差。 在不變的情況下,函數(shù)曲線(xiàn)形狀不變,若變大時(shí),曲線(xiàn)位置向右移;若變小時(shí),曲線(xiàn)位置向左移,故稱(chēng)為位置參數(shù)。 在不變的情況下,函數(shù)曲線(xiàn)位置不變,若變大時(shí),曲線(xiàn)形狀變的越來(lái)越“胖”和“矮”;若變小時(shí),曲線(xiàn)形狀變的越來(lái)越“瘦”和“高”,故稱(chēng)為形態(tài)參數(shù)或變異度參數(shù)。3、標(biāo)準(zhǔn)正態(tài)分布 標(biāo)準(zhǔn)正態(tài)離差 標(biāo)準(zhǔn)正態(tài)分布:N(0,1)XZ221( ),2zzez

27、222)(exp21)(XXf正態(tài)分布: p標(biāo)準(zhǔn)正態(tài)分布的概率密度函數(shù)實(shí)質(zhì)上就是正態(tài)分布的概率密度函數(shù)中=0,=1的情形。p實(shí)質(zhì)上是作了一個(gè)坐標(biāo)軸的平移和尺度變換,使正態(tài)分布具有平均數(shù)為=0,標(biāo)準(zhǔn)差=1。這種變換稱(chēng)為標(biāo)準(zhǔn)化正態(tài)變換。p因此將這種具有平均數(shù)為=0,標(biāo)準(zhǔn)差=1的正態(tài)分布稱(chēng)為標(biāo)準(zhǔn)正態(tài)分布,記為N(0,1)。0.00.10.20.30.40.5-4-3-2-101234Xf(X) 4、曲線(xiàn)下面積dXeXFXX)2()(2221)(dueuuu2221)(u-累計(jì)概率分布函數(shù):曲線(xiàn)下面積分布規(guī)律0-11-1.961.96-2.582.5868.27%95.00%99.00%-+-1.96

28、+1.96-2.58+2.5868.27%95.00%99.00%正態(tài)分布的特征,歸納起來(lái)有兩點(diǎn):p 對(duì)稱(chēng)性(symmetry)p 正態(tài)峰 (mesokurtosis) 偏度系數(shù)和峰度系數(shù)skewness and kurtosis 偏度 skewness若分布不對(duì)稱(chēng)就是偏態(tài),長(zhǎng)尾拖向右側(cè)(變量值較大的一側(cè))叫做正偏態(tài),或右偏態(tài);長(zhǎng)尾拖向左側(cè)(變量值較小的一側(cè))叫做負(fù)偏態(tài),或左偏態(tài)。 正態(tài)分布時(shí),mean、median、mode相等偏度系數(shù)(skewness):若分布是以平均值對(duì)稱(chēng)的,則偏度=0;若分布是右偏的,則偏度系數(shù) 0;若分布是左偏的,則偏度系數(shù) 0。峰度系數(shù)是描述隨機(jī)變量陡峭度的參數(shù),

29、分為:正態(tài)峰、平闊峰、尖峭峰 。峰度 kurtosis a.尖峭峰 b.正態(tài)峰c.平闊峰峰度系數(shù)(kurtosis):Skewness.088kurtosis-0.2215血清總膽固醇.sav正態(tài)分布在橫軸上方均數(shù)處最高。正態(tài)分布以均數(shù)為中心,左右對(duì)稱(chēng)。正態(tài)分布由參數(shù)和確定。 是位置參數(shù),當(dāng)不變時(shí),越大,則曲線(xiàn)沿橫軸越向右移動(dòng);反之,越小,曲線(xiàn)沿橫軸越向左移動(dòng) 是變異度參數(shù),當(dāng)不變時(shí),越大,表示數(shù)據(jù)越分散,曲線(xiàn)越平坦;越小,表示數(shù)據(jù)越集中,曲線(xiàn)越陡峭標(biāo)準(zhǔn)正態(tài)分布曲線(xiàn)與X軸所圍成的面積為1。在的區(qū)間內(nèi)占總面積的68.27%, 在1.96的區(qū)間內(nèi)占總面積的95%; 在2.58的區(qū)間內(nèi)占總面積的99

30、%。5、正態(tài)分布的特征 五 常用的抽樣分布如果總體不是正態(tài)總體,但其均數(shù)和標(biāo)準(zhǔn)差分別為和,則當(dāng)樣本含量n不斷增大時(shí),樣本均數(shù)的分布也趨近于正態(tài)分布,且其均數(shù)為,標(biāo)準(zhǔn)差為 不論總體的分布形式如何,只要樣本含量n足夠大時(shí),樣本均數(shù)的分布就近似正態(tài)分布 ,此稱(chēng)為中心極限定理。 1、 中心極限定理 nXn2、常用的三種抽樣分布t 分布F分布2 2分布 均為連續(xù)型隨機(jī)變量分布,分布只與自由度,即樣本含量有關(guān)。t分布根據(jù)中心極限定理,當(dāng)樣本含量足夠大時(shí),對(duì)從均數(shù)為,標(biāo)準(zhǔn)差為的任意總體中隨機(jī)抽樣所得的樣本均數(shù)進(jìn)行標(biāo)準(zhǔn)化變換,有(0,1)iiXNnt分布的演化由于總體標(biāo)準(zhǔn)差往往是未知的,此時(shí)往往用樣本標(biāo)準(zhǔn)差s

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論