




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、1第一章 概述n1.1 一維數(shù)據(jù)的數(shù)字特征一維數(shù)據(jù)的數(shù)字特征n1.2 數(shù)據(jù)的分布數(shù)據(jù)的分布n1.3 多維數(shù)據(jù)的數(shù)字特征與相關(guān)分析多維數(shù)據(jù)的數(shù)字特征與相關(guān)分析2第一章 概述n1.1 一維數(shù)據(jù)的數(shù)字特征一維數(shù)據(jù)的數(shù)字特征n設(shè)有一維數(shù)據(jù):設(shè)有一維數(shù)據(jù):x1, x2, xn是研究對象的樣本觀測是研究對象的樣本觀測值,數(shù)據(jù)分析的值,數(shù)據(jù)分析的任務(wù)任務(wù)是對樣本觀測值進(jìn)行分析,提取是對樣本觀測值進(jìn)行分析,提取數(shù)據(jù)中所包含的有用的信息,進(jìn)一步對總體的信息做數(shù)據(jù)中所包含的有用的信息,進(jìn)一步對總體的信息做出推斷;首先用某些簡單的量概括它的主要信息或特出推斷;首先用某些簡單的量概括它的主要信息或特征征數(shù)字特征:數(shù)字
2、特征:數(shù)據(jù)的集中位置、分散程度、數(shù)據(jù)數(shù)據(jù)的集中位置、分散程度、數(shù)據(jù)分布的形狀特征分布的形狀特征等等。等等。3第一章 概述nxxxnxnnii111n均值能夠概括反映所有各項(xiàng)數(shù)據(jù)的均值能夠概括反映所有各項(xiàng)數(shù)據(jù)的平均水平平均水平。n有許多的優(yōu)良的統(tǒng)計(jì)性質(zhì),但當(dāng)數(shù)據(jù)中存在有許多的優(yōu)良的統(tǒng)計(jì)性質(zhì),但當(dāng)數(shù)據(jù)中存在異常值時(shí),它則缺乏異常值時(shí),它則缺乏抗擾性抗擾性( (穩(wěn)健性穩(wěn)健性) )易受異常易受異常值的影響而使其值有較大變化。值的影響而使其值有較大變化。4第一章 概述inininixxxx1)(1)1(max,min5第一章 概述為偶數(shù)為奇數(shù)中位數(shù)nxxnxnnn )(21 )12()2()21(6第一
3、章 概述n0.50.5分位數(shù)就是中位數(shù),分位數(shù)就是中位數(shù),0.750.75分位數(shù)和分位數(shù)和0.250.25分位數(shù)分位數(shù)又分別稱為上、下四分位數(shù),并分別記為又分別稱為上、下四分位數(shù),并分別記為QQ3 3=M=M0.750.75和和QQ1 1 =M =M0.250.25 。是整數(shù)不是整數(shù)npxxnpxMnpnpnpp , )(21 , )1()()1(x4. 4. 三均值三均值 31412141QMQMn各數(shù)字特征從不同側(cè)重點(diǎn)反映了數(shù)據(jù)的位置特征,各數(shù)字特征從不同側(cè)重點(diǎn)反映了數(shù)據(jù)的位置特征,結(jié)合應(yīng)用可以研究數(shù)據(jù)某些更本質(zhì)的特性,如利用結(jié)合應(yīng)用可以研究數(shù)據(jù)某些更本質(zhì)的特性,如利用中位數(shù)與各分位數(shù)可以
4、考察數(shù)據(jù)的對稱性中位數(shù)與各分位數(shù)可以考察數(shù)據(jù)的對稱性7第一章 概述x設(shè)總體分布設(shè)總體分布F(x)是連續(xù)分布是連續(xù)分布,0p1,稱滿足稱滿足的的p為總體分布為總體分布F(x)的的p分位數(shù),分位數(shù),當(dāng)總體當(dāng)總體p分位數(shù)為分位數(shù)為唯一的情況時(shí),在一定條件下,樣本的唯一的情況時(shí),在一定條件下,樣本的p分位數(shù)分位數(shù)M p是總體分位數(shù)是總體分位數(shù)p相合估計(jì),即當(dāng)相合估計(jì),即當(dāng)n充分大時(shí),充分大時(shí),p M p pFp)(8第一章 概述1)(.)()(11221122nxxxxxxnsnniiniixxnss122)(119第一章 概述(%)100 xsCV2. 極差(極差(Range)與半極差()與半極差(
5、Interquartile range) 極差就是數(shù)據(jù)中的最大值和最小值之間的差:極差就是數(shù)據(jù)中的最大值和最小值之間的差:極差極差= x(n) - x(1) = maxxi minxi上、下四分位數(shù)之差上、下四分位數(shù)之差R R3 3=Q=Q3 3 Q Q1 1稱為稱為四分位極差或四分位極差或半極差半極差,它描述了中間半數(shù)觀測值的散布情況,具,它描述了中間半數(shù)觀測值的散布情況,具有有抗擾性抗擾性穩(wěn)健性穩(wěn)健性; ;極差有許多特殊的應(yīng)用,如質(zhì)極差有許多特殊的應(yīng)用,如質(zhì)量控制圖中的極差圖,提供證券市場行情等。量控制圖中的極差圖,提供證券市場行情等。10第一章 概述 總體標(biāo)準(zhǔn)差總體標(biāo)準(zhǔn)差的一個(gè)抗擾性的估
6、計(jì)的一個(gè)抗擾性的估計(jì)四分位數(shù)四分位數(shù)標(biāo)準(zhǔn)差:標(biāo)準(zhǔn)差:349. 11R11第一章 概述12第一章 概述niisxxnnng131)()2)(1(13第一章 概述)3)(2() 1(3)()3)(2)(1() 1(214nnnsxxnnnnnKnii14第一章 概述15第一章 概述16第一章 概述17第一章 概述18第一章 概述19第一章 概述四、四、PROC MEANS過程中的其他語句過程中的其他語句 l l VAR語句:語句:列入變量表的數(shù)據(jù)集變量將被列入變量表的數(shù)據(jù)集變量將被MEANS過過程分析、若無次句,則計(jì)算輸入數(shù)據(jù)集中除程分析、若無次句,則計(jì)算輸入數(shù)據(jù)集中除BY、ID、CLASS、FR
7、EQ、WEIGHT語句中的變量之外的所有變語句中的變量之外的所有變量的統(tǒng)計(jì)量。量的統(tǒng)計(jì)量。 l l BY語句:語句:指定變量進(jìn)行分組處理。(事先必須按指定變量進(jìn)行分組處理。(事先必須按BY語句指定的變量將輸入數(shù)據(jù)集按升序排序)語句指定的變量將輸入數(shù)據(jù)集按升序排序) 20第一章 概述21第一章 概述22第一章 概述23第一章 概述24第一章 概述八、缺失數(shù)據(jù)處理八、缺失數(shù)據(jù)處理 1VAR變量:變量:MEANS過程在開始計(jì)算某一變過程在開始計(jì)算某一變量的描述性統(tǒng)計(jì)之前,先將那些在變量上有缺失的量的描述性統(tǒng)計(jì)之前,先將那些在變量上有缺失的數(shù)據(jù)的觀察刪除。被刪除的觀察若在其它變量上沒數(shù)據(jù)的觀察刪除。被
8、刪除的觀察若在其它變量上沒有缺失數(shù)據(jù),則會(huì)納入其它變量的計(jì)算過程中。有缺失數(shù)據(jù),則會(huì)納入其它變量的計(jì)算過程中。 2變量:變量:若觀察在若觀察在BY變量上有缺失數(shù)據(jù),則變量上有缺失數(shù)據(jù),則MEANS過程會(huì)為這些觀察另形成一個(gè)分組,同樣過程會(huì)為這些觀察另形成一個(gè)分組,同樣進(jìn)行計(jì)算分析。進(jìn)行計(jì)算分析。25第一章 概述26第一章 概述27第一章 概述28第一章 概述29第一章 概述30第一章 概述31第一章 概述32第一章 概述例例1.133第一章 概述34第一章 概述例例1.235第一章 概述36第一章 概述例例1.337第一章 概述38第一章 概述39第一章 概述40第一章 概述41第一章 概述例
9、例 某工廠生產(chǎn)一種零件,由于生產(chǎn)過程中各種某工廠生產(chǎn)一種零件,由于生產(chǎn)過程中各種隨機(jī)因素的影響,零件長度不盡相同?,F(xiàn)測得隨機(jī)因素的影響,零件長度不盡相同?,F(xiàn)測得該廠生產(chǎn)的該廠生產(chǎn)的100個(gè)零件長度個(gè)零件長度(單位單位: mm)如下如下:頻率直方圖作法頻率直方圖作法129, 132, 136, 145, 140, 145, 147, 142, 138, 144, 147, 142, 137, 144, 144, 134, 149, 142, 137, 137, 155, 128, 143, 144, 148, 139, 143, 142, 135, 142,148, 137, 142, 144,
10、 141, 149, 132, 134, 145, 132, 140, 142, 130, 145, 148, 143, 148, 135, 136, 152, 141, 146, 138, 131, 138, 136, 144, 142, 142, 137,141, 134, 142, 133, 153, 143, 145, 140, 137, 142, 150, 141, 139, 139, 150, 139, 137, 139, 140, 143, 149, 136, 142, 134, 146, 145, 130, 136, 140, 134,142, 142, 135, 131, 1
11、36, 139, 137, 144, 141, 136.這這100個(gè)數(shù)據(jù)中,最小值是個(gè)數(shù)據(jù)中,最小值是128,最大值是,最大值是155。12815542第一章 概述作頻率直方圖的步作頻率直方圖的步驟驟(1). 先確定作圖區(qū)間先確定作圖區(qū)間 a, b ;a = 最小數(shù)據(jù)最小數(shù)據(jù)- -/ 2,b = 最大數(shù)據(jù)最大數(shù)據(jù)+/ 2, 是數(shù)據(jù)的精度。是數(shù)據(jù)的精度。本例中本例中 = 1, a = 127.5, b = 155.5 。(2). 確定數(shù)據(jù)分組數(shù)確定數(shù)據(jù)分組數(shù) m = 1.87(n1)2/5 + 1, 組距組距 d = (b a) / m, 子區(qū)間端點(diǎn)子區(qū)間端點(diǎn) ti = a + i d, i =
12、 0, 1, , m;43第一章 概述(3). 計(jì)算落入各子區(qū)間內(nèi)觀測值頻數(shù)計(jì)算落入各子區(qū)間內(nèi)觀測值頻數(shù) ni = # xj ti1, ti), j = 1, 2, , n, 頻率頻率 fi = ni / n, i = 1, 2, , m;44第一章 概述(4).(4). 以小區(qū)間以小區(qū)間 ti-1,ti 為底,為底,yi=fi / d ( i=1, 2, , m) 為高作一系列小矩形,組成了頻為高作一系列小矩形,組成了頻 率直方圖,簡稱率直方圖,簡稱直方圖直方圖。45第一章 概述 46第一章 概述 直方圖是直方圖是階梯形階梯形,而常用的概率密度曲線是,而常用的概率密度曲線是光滑曲線光滑曲線;
13、參數(shù)分布擬合就是在限定的參數(shù)分布類中參數(shù)分布擬合就是在限定的參數(shù)分布類中利用數(shù)據(jù)估計(jì)利用數(shù)據(jù)估計(jì)其中參數(shù)其中參數(shù),用估計(jì)的參數(shù)所對應(yīng)的密度曲線去用估計(jì)的參數(shù)所對應(yīng)的密度曲線去擬合直方擬合直方圖邊緣的形態(tài)圖邊緣的形態(tài)。SASSAS有如下常用參數(shù)分布類型:有如下常用參數(shù)分布類型:正態(tài)分布正態(tài)分布: : 222)(exp21)(xxf對數(shù)正態(tài)分布對數(shù)正態(tài)分布: : ., 0,2)(log(exp)(21)(22xxxxxf指數(shù)分布指數(shù)分布: : ., 0,)(exp1)(xxxxf47第一章 概述 GammaGamma分布分布: : WeibullWeibull分布分布: : BetaBeta分布分
14、布: : ., 0,),()()()(111其他xBxxxf., 0,exp)(1)(1xxxxxf., 0,exp1)(1xxxxxfcc48第一章 概述 直方圖較適合總體分布為直方圖較適合總體分布為連續(xù)型的連續(xù)型的,對一般總體,通,對一般總體,通常用經(jīng)驗(yàn)分布函數(shù)估計(jì)其總體分布函數(shù)常用經(jīng)驗(yàn)分布函數(shù)估計(jì)其總體分布函數(shù)F(x),設(shè),設(shè)x1,.,xn是總體的樣本,其經(jīng)驗(yàn)分布函數(shù)是是總體的樣本,其經(jīng)驗(yàn)分布函數(shù)是niinxxInxF1)(1)( 經(jīng)驗(yàn)分布函數(shù)經(jīng)驗(yàn)分布函數(shù)Fn(x)是是非降右連續(xù)的階梯函數(shù)非降右連續(xù)的階梯函數(shù),是,是總體分布函數(shù)總體分布函數(shù)F(x)的相合估計(jì)的相合估計(jì),即即當(dāng)當(dāng)n充分大時(shí)
15、充分大時(shí): Fn (x) F(x)。SAS軟件利用軟件利用proc capability可以做出可以做出Fn (x)與擬合的總體分布函數(shù)的圖形與擬合的總體分布函數(shù)的圖形., 0, 1)(xxxxxxIiii其中其中I()是示性函數(shù)即是示性函數(shù)即49第一章 概述 直方圖與經(jīng)驗(yàn)分布函數(shù)圖難于從圖上判斷樣本分布直方圖與經(jīng)驗(yàn)分布函數(shù)圖難于從圖上判斷樣本分布是否近似于某種類型的分布,是否近似于某種類型的分布,QQQQ圖卻能。以正態(tài)分圖卻能。以正態(tài)分布為例說明布為例說明QQQQ圖的做法:圖的做法: 設(shè)設(shè)x1,.,xn是總體的樣本,其次序統(tǒng)計(jì)量為是總體的樣本,其次序統(tǒng)計(jì)量為x(1), x(2), x(n),
16、 (x)是標(biāo)準(zhǔn)正態(tài)分布函數(shù)是標(biāo)準(zhǔn)正態(tài)分布函數(shù), -1(x) 是其反是其反函數(shù),其函數(shù),其QQ圖是由以下點(diǎn)構(gòu)成的散點(diǎn)圖:圖是由以下點(diǎn)構(gòu)成的散點(diǎn)圖:其中橫坐標(biāo)是其中橫坐標(biāo)是(i-0.375)/(n+0.25)的分位數(shù),的分位數(shù),0.375和和0.25是修正量。若樣本數(shù)據(jù)近似于正態(tài)分布,在是修正量。若樣本數(shù)據(jù)近似于正態(tài)分布,在QQ圖上圖上近似的在近似的在直線直線y=x+上,此直線的斜率為標(biāo)準(zhǔn)差上,此直線的斜率為標(biāo)準(zhǔn)差,截距是均值截距是均值。 nixnii, 2 , 1,25. 0375. 0)(150第一章 概述 其它的分布,也有相應(yīng)的其它的分布,也有相應(yīng)的QQ圖,其中圖,其中散點(diǎn)的橫坐散點(diǎn)的橫坐標(biāo)
17、是該分布的對應(yīng)的分位數(shù),標(biāo)是該分布的對應(yīng)的分位數(shù),可以判斷數(shù)據(jù)是否近似可以判斷數(shù)據(jù)是否近似服從該類型的分布;服從該類型的分布; 利用利用QQ圖還可以獲得樣本的偏度與峰度的有關(guān)信圖還可以獲得樣本的偏度與峰度的有關(guān)信息,當(dāng)數(shù)據(jù)不是來處正態(tài)總體時(shí),息,當(dāng)數(shù)據(jù)不是來處正態(tài)總體時(shí),QQ圖的散點(diǎn)圖是圖的散點(diǎn)圖是彎曲的,并可根據(jù)圖像的彎曲的某些特點(diǎn)判斷偏度或彎曲的,并可根據(jù)圖像的彎曲的某些特點(diǎn)判斷偏度或峰度的正負(fù)。峰度的正負(fù)。51第一章 概述 52第一章 概述 53第一章 概述54第一章 概述55第一章 概述56第一章 概述57第一章 概述58第一章 概述data examp1_4;input x ;car
18、ds;74.3 78.8 68.8 78.0 70.4 80.5 80.5 69.7 71.2 73.579.5 75.6 75.0 78.8 72.0 72.0 72.0 74.3 71.2 72.075.0 73.5 78.8 74.3 75.8 65.0 74.3 71.2 69.7 68.073.5 75.0 72.0 64.3 75.8 80.3 69.7 74.3 73.5 73.575.8 75.8 68.8 76.5 70.4 71.2 81.2 75.0 70.4 68.070.4 72.0 76.5 74.3 76.5 77.6 67.3 72.0 75.0 74.373.
19、5 79.5 73.5 74.7 65.0 76.5 81.6 75.4 72.7 72.767.2 76.5 72.7 70.4 77.2 68.8 67.3 67.3 67.3 72.775.8 73.5 75.0 72.7 73.5 73.5 72.7 81.6 70.3 74.373.5 79.5 70.4 76.5 72.7 77.2 84.3 75.0 76.5 70.4;59第一章 概述proc capability data =examp1_4 graphics noprint;histogram x/normal(mu=est sigma=est) vscale =propo
20、rtion;cdfplot/normal(mu=est sigma =est);qqplot x/normal(mu=est sigma =est);run;60第一章 概述61第一章 概述 62第一章 概述63第一章 概述選擇項(xiàng)選擇項(xiàng)(1)data=sasdataset:指出作圖用的數(shù)據(jù)指出作圖用的數(shù)據(jù)集,缺省時(shí),以最新的數(shù)據(jù)集作圖集,缺省時(shí),以最新的數(shù)據(jù)集作圖;(2)Vpercent=percent或或Vpct=percent:規(guī)定該過規(guī)定該過程產(chǎn)生的散點(diǎn)圖在垂直方向占一頁的比例,如程產(chǎn)生的散點(diǎn)圖在垂直方向占一頁的比例,如“Vpct=33”表示讓表示讓proc plot過程在每一頁作過程在
21、每一頁作3張張圖,每張圖占一頁的圖,每張圖占一頁的1/3; (3)Hpercent=percent或或hpct=percent:規(guī)定各圖規(guī)定各圖在水平方向上占一頁的比例在水平方向上占一頁的比例;64第一章 概述 說明作圖變量,點(diǎn)表示的符號(hào)及坐標(biāo)刻度規(guī)說明作圖變量,點(diǎn)表示的符號(hào)及坐標(biāo)刻度規(guī)定等,其中定等,其中yvariable*xvariable指出作圖的數(shù)據(jù)指出作圖的數(shù)據(jù)集中變量的名稱,中間用集中變量的名稱,中間用*連接;連接; symbol指出散點(diǎn)的表示符號(hào),如指出散點(diǎn)的表示符號(hào),如*,+等,缺等,缺省時(shí)用省時(shí)用A,B等;等;plot后可依次列出多組變量,后可依次列出多組變量,如如“Plot
22、 X1*Y1 X1*Y2 X2*Y1”等;等; 斜杠后的斜杠后的options可以省略也可以是以下內(nèi)容可以省略也可以是以下內(nèi)容 (1)Haxis或或Vaxis=a to b by n:定義橫坐標(biāo)或縱坐定義橫坐標(biāo)或縱坐標(biāo)上的刻度;標(biāo)上的刻度;(2)Overlay:將將PLOT后的幾對變后的幾對變量所形成的散點(diǎn)圖做在同一坐標(biāo)系內(nèi),如量所形成的散點(diǎn)圖做在同一坐標(biāo)系內(nèi),如“Plot X1*Y1=F X1*Y2=T ”;(3)Box:要求將要求將圖做在一個(gè)矩形框內(nèi)。圖做在一個(gè)矩形框內(nèi)。 65第一章 概述66第一章 概述67第一章 概述PROC GPLOT選擇項(xiàng)選擇項(xiàng)主要指出作圖用的數(shù)據(jù)集。主要指出作圖用
23、的數(shù)據(jù)集。PLOT yvariable*xvariable/options;與前面的基本相與前面的基本相同,只是同,只是options除指坐標(biāo)軸的刻度外,還可用除指坐標(biāo)軸的刻度外,還可用“Caxis=color”指定坐標(biāo)軸的顏色,其中指定坐標(biāo)軸的顏色,其中color可以是可以是“red,blue,green,yellow”等;等;Symbol options;主要用來定義繪圖的符號(hào)、顏色、是主要用來定義繪圖的符號(hào)、顏色、是否連線及線條的粗細(xì):否連線及線條的粗細(xì):68第一章 概述(2)I=interpolation:確定散點(diǎn)之間連線的形狀確定散點(diǎn)之間連線的形狀: interpolation:jo
24、in(用直線連接用直線連接);spline(用光滑線用光滑線連接連接); needl(從數(shù)據(jù)點(diǎn)向水平軸畫垂線從數(shù)據(jù)點(diǎn)向水平軸畫垂線); none(不不畫線畫線);缺省時(shí)為;缺省時(shí)為none(3)C=color:指定點(diǎn)或線的顏色指定點(diǎn)或線的顏色(4)W或或Width=n:確定連線的粗細(xì),缺省時(shí)為確定連線的粗細(xì),缺省時(shí)為1。 69第一章 概述70第一章 概述莖葉圖的三列數(shù)莖葉圖的三列數(shù)莖葉圖有三列數(shù):左邊的一列表示莖,莖葉圖有三列數(shù):左邊的一列表示莖,也就是變化不大的也就是變化不大的位數(shù),從小到大;位數(shù),從小到大;右邊的一列數(shù)為統(tǒng)計(jì)數(shù)(某行數(shù)據(jù)頻右邊的一列數(shù)為統(tǒng)計(jì)數(shù)(某行數(shù)據(jù)頻數(shù)),數(shù)),它是上(
25、或下)向中心累積的值,中心的數(shù)表示最它是上(或下)向中心累積的值,中心的數(shù)表示最多數(shù)組的個(gè)數(shù);多數(shù)組的個(gè)數(shù);中間的是數(shù)組中的變化位中間的是數(shù)組中的變化位,它是按照一定,它是按照一定的間隔將數(shù)組中的每個(gè)變化的數(shù)一一列出來,象一條枝上的間隔將數(shù)組中的每個(gè)變化的數(shù)一一列出來,象一條枝上抽出的葉子一樣,所以人們形象地叫它莖葉圖。抽出的葉子一樣,所以人們形象地叫它莖葉圖。71第一章 概述莖葉圖的特征莖葉圖的特征 1 1、用莖葉圖表示數(shù)據(jù)有、用莖葉圖表示數(shù)據(jù)有兩個(gè)優(yōu)點(diǎn):一是兩個(gè)優(yōu)點(diǎn):一是從統(tǒng)計(jì)圖上從統(tǒng)計(jì)圖上沒有原始數(shù)據(jù)信息的損失,所有數(shù)據(jù)信息都可以從莖葉沒有原始數(shù)據(jù)信息的損失,所有數(shù)據(jù)信息都可以從莖葉圖中
26、得到;圖中得到;二是二是莖葉圖中的數(shù)據(jù)可以隨時(shí)記錄,隨時(shí)添莖葉圖中的數(shù)據(jù)可以隨時(shí)記錄,隨時(shí)添加,方便記錄與表示。加,方便記錄與表示。 2 2、莖葉圖只便于、莖葉圖只便于表示兩位有效數(shù)字表示兩位有效數(shù)字的數(shù)據(jù),而且莖的數(shù)據(jù),而且莖葉圖只方便記錄葉圖只方便記錄兩組的數(shù)據(jù)兩組的數(shù)據(jù),兩個(gè)以上的數(shù)據(jù)雖然能夠,兩個(gè)以上的數(shù)據(jù)雖然能夠記錄,但是沒有表示兩個(gè)記錄那么直觀、清晰。記錄,但是沒有表示兩個(gè)記錄那么直觀、清晰。72第一章 概述73第一章 概述74第一章 概述 對直方圖配的概率曲線,對經(jīng)驗(yàn)分布函對直方圖配的概率曲線,對經(jīng)驗(yàn)分布函數(shù)配的總體分布函數(shù)曲線,是不是合適?數(shù)配的總體分布函數(shù)曲線,是不是合適?需
27、要統(tǒng)計(jì)檢驗(yàn)!需要統(tǒng)計(jì)檢驗(yàn)! 分布擬合檢驗(yàn)分布擬合檢驗(yàn)用于檢驗(yàn)樣本觀測值是否用于檢驗(yàn)樣本觀測值是否來自某種給定類型分布的總體來自某種給定類型分布的總體 正態(tài)性檢驗(yàn)正態(tài)性檢驗(yàn)用于檢驗(yàn)樣本觀測值是否來用于檢驗(yàn)樣本觀測值是否來自正態(tài)分布的總體自正態(tài)分布的總體75第一章 概述2檢驗(yàn)的用途檢驗(yàn)的用途(1)適合性檢驗(yàn)(吻合度檢驗(yàn))適合性檢驗(yàn)(吻合度檢驗(yàn))是指對樣本的理論數(shù)先是指對樣本的理論數(shù)先通過一定的理論分布推算出來,然后用通過一定的理論分布推算出來,然后用與與相比較,從而得出實(shí)際觀測值與理論數(shù)之間是相比較,從而得出實(shí)際觀測值與理論數(shù)之間是否吻合。因此又叫吻合度檢驗(yàn)。否吻合。因此又叫吻合度檢驗(yàn)。. , )
28、( : , )( : , , 1021的一種方法的分布函數(shù)不是總體的分布函數(shù)為總體假設(shè)來檢驗(yàn)關(guān)于總體分布的根據(jù)樣本的情況下這是在總體的分布未知xFXHxFXHXXXn76第一章 概述 2檢驗(yàn)檢驗(yàn)就是統(tǒng)計(jì)樣本的就是統(tǒng)計(jì)樣本的實(shí)際觀測值實(shí)際觀測值與與理論推算值理論推算值之間的偏離程度。之間的偏離程度。實(shí)際觀測值與理論推算值之間的偏離程度決定其實(shí)際觀測值與理論推算值之間的偏離程度決定其2 2值的大小。理論值與實(shí)際值之間值的大小。理論值與實(shí)際值之間偏差越大偏差越大, 2 2值值就越大,就越大,越不符合;偏差越小越不符合;偏差越小,2 2值就越小,值就越小,越趨于越趨于符合;若兩值完全相等時(shí)符合;若兩值
29、完全相等時(shí), 2 2值就為值就為0 0,表明理論值,表明理論值完全符合。完全符合。77第一章 概述 1.1.提出假設(shè)提出假設(shè)H H0 0:F(x)F:F(x)F0 0(x) H(x) H1 1:F(x)F:F(x)F0 0(x)(x)2.2.計(jì)算檢驗(yàn)統(tǒng)計(jì)量:計(jì)算檢驗(yàn)統(tǒng)計(jì)量:將實(shí)軸分為將實(shí)軸分為l個(gè)區(qū)間,分點(diǎn)滿足個(gè)區(qū)間,分點(diǎn)滿足 -=a-=a0 0aa1 1aa2 2aal-1-1a 2( (l-k-1) )時(shí),時(shí), 拒絕拒絕H H0 0; 當(dāng)當(dāng)022( (l-k-1) )時(shí),時(shí), 不能拒絕不能拒絕H H0 0. .2( )n79第一章 概述 但在但在SAS在統(tǒng)計(jì)軟件中,假設(shè)檢驗(yàn)的結(jié)果通常以檢驗(yàn)
30、在統(tǒng)計(jì)軟件中,假設(shè)檢驗(yàn)的結(jié)果通常以檢驗(yàn)p值的方式輸出,即:一個(gè)檢驗(yàn)值的方式輸出,即:一個(gè)檢驗(yàn)p值是檢驗(yàn)統(tǒng)計(jì)量在值是檢驗(yàn)統(tǒng)計(jì)量在H H0 0下下取其更極端值的概率。如上的取其更極端值的概率。如上的2檢驗(yàn),檢驗(yàn)檢驗(yàn),檢驗(yàn)p值為值為 p=PH H0 0( (2 02)= PH H0 0( (2(l-k-1 ) 02)對對給定的顯著水平給定的顯著水平,檢驗(yàn)準(zhǔn)則為:,檢驗(yàn)準(zhǔn)則為: 當(dāng)當(dāng)p 時(shí),時(shí), 拒絕拒絕H H0 0; 當(dāng)當(dāng)p時(shí),時(shí), 不能拒絕不能拒絕H H0 0. .定義定義 假設(shè)檢驗(yàn)的假設(shè)檢驗(yàn)的p p值(值(probability valueprobability value)是由檢)是由檢驗(yàn)統(tǒng)計(jì)
31、量的樣本觀測值得出的原假設(shè)可被拒絕的最小驗(yàn)統(tǒng)計(jì)量的樣本觀測值得出的原假設(shè)可被拒絕的最小顯著性水平顯著性水平80第一章 概述0H0H81第一章 概述 82第一章 概述 2 Anderson-Darling統(tǒng)計(jì)量統(tǒng)計(jì)量3 Cramer-von Mises統(tǒng)計(jì)量統(tǒng)計(jì)量| )()(|sup0 xFxFDnx)()(1)()()(0100202xdFxFxFxFxFnAn)()()(0202xdFxFxFnWn83第一章 概述 84第一章 概述 計(jì)算步驟:計(jì)算步驟:1. 1.計(jì)算統(tǒng)計(jì)量計(jì)算統(tǒng)計(jì)量W:設(shè)設(shè)x1,.,xn是總體是總體的樣本觀測值,其次序的樣本觀測值,其次序統(tǒng)計(jì)量為統(tǒng)計(jì)量為x(1), x(2)
32、, x(n),計(jì)算計(jì)算 d1= x(n)- x(1) d2= x(n-1)- x(2)di= x(n-i+1)- x(i)將將di與與ai相乘并求和得相乘并求和得計(jì)算計(jì)算W統(tǒng)計(jì)量:滿足統(tǒng)計(jì)量:滿足0W1kiiidab1niixxbW122)(n12-112niknnik 當(dāng) 是偶數(shù)時(shí),;當(dāng) 是奇數(shù)時(shí),85第一章 概述 2.2.提出假設(shè)提出假設(shè)H H0 0: : F(x)是正態(tài)分布函數(shù)是正態(tài)分布函數(shù) H H1 1: : F(x)不是正態(tài)分布函數(shù)不是正態(tài)分布函數(shù)3.3.檢驗(yàn):檢驗(yàn):假設(shè)假設(shè)H H0 0為真時(shí),為真時(shí),W接近接近1,W值過小拒絕值過小拒絕H H0 0 。因而其檢驗(yàn)因而其檢驗(yàn)p值為值為
33、 p=PH H0 0( (W= W0 0),其中其中W0 0是步驟是步驟1計(jì)算所得的值,對計(jì)算所得的值,對給定的顯著水平給定的顯著水平,檢驗(yàn)準(zhǔn)則為:檢驗(yàn)準(zhǔn)則為: 當(dāng)當(dāng)p 時(shí),時(shí), 拒絕拒絕H H0 0; 當(dāng)當(dāng)p時(shí),時(shí), 不能拒絕不能拒絕H H0 0. .Proc univariate data=sasdataset normal; Proc univariate data=sasdataset normal; 能直接能直接計(jì)算出計(jì)算出W值與值與p值值。輸出以。輸出以“PrW”表示表示86第一章 概述proc univariate data=examp1_7 normal;run; * *以以“
34、PrChi-Sq”形式輸出形式輸出2檢驗(yàn)統(tǒng)計(jì)檢驗(yàn)統(tǒng)計(jì)量量* *以以“PrD”形式輸出形式輸出Kolmogorov-Smirnov統(tǒng)計(jì)統(tǒng)計(jì)量量* *以以“PrA-Sq”形式輸出形式輸出Anderson-Darling統(tǒng)計(jì)統(tǒng)計(jì)量量* *以以“PrW-Sq”形式輸出形式輸出Cramer-von Mises統(tǒng)計(jì)統(tǒng)計(jì)量量87第一章 概述proc univariate data=examp1_7 normal;run; * *以以“PrW”形式輸出正態(tài)性形式輸出正態(tài)性W W檢驗(yàn)檢驗(yàn)proc capability data=examp1_8 graphics noprint;histogram x/weib
35、ull vscale=proportion;run;data delmin;set examp1_8;if x=25 then delete;run;proc capability data=delmin graphics noprint;histogram x/weibull vscale=proportion;cdfplot x/weibull;run;88第一章 概述小結(jié)小結(jié) 本次課主要學(xué)習(xí)了直方圖、經(jīng)驗(yàn)分布函數(shù)、本次課主要學(xué)習(xí)了直方圖、經(jīng)驗(yàn)分布函數(shù)、QQ圖和莖葉圖的實(shí)際意義與做法;數(shù)據(jù)的分圖和莖葉圖的實(shí)際意義與做法;數(shù)據(jù)的分布擬合檢驗(yàn)與正態(tài)性檢驗(yàn)方法;布擬合檢驗(yàn)與正態(tài)性檢驗(yàn)方法; SA
36、S的的Proc capability過程及過程及PLOT與與GPLOT過程過程89第一章 概述90第一章 概述v在醫(yī)學(xué)上,許多現(xiàn)象之間都存在著相互聯(lián)系,在醫(yī)學(xué)上,許多現(xiàn)象之間都存在著相互聯(lián)系,例如身高與體重、體溫與脈搏、年齡與血壓、例如身高與體重、體溫與脈搏、年齡與血壓、釘螺與血吸蟲感染等。而有些事物的關(guān)系是釘螺與血吸蟲感染等。而有些事物的關(guān)系是互互為因果的為因果的,如上述釘螺是因,感染血吸蟲是果;,如上述釘螺是因,感染血吸蟲是果;但有時(shí)因果不清,只是但有時(shí)因果不清,只是伴隨關(guān)系伴隨關(guān)系。例如父母的。例如父母的兄弟,兄高,弟也可能高,但不能說兄是因、兄弟,兄高,弟也可能高,但不能說兄是因、弟是
37、果,這里不是因果關(guān)系,而可能與社會(huì)條弟是果,這里不是因果關(guān)系,而可能與社會(huì)條件、家庭經(jīng)濟(jì)、營養(yǎng)、遺傳等因素有關(guān)。件、家庭經(jīng)濟(jì)、營養(yǎng)、遺傳等因素有關(guān)。v相關(guān)性分析的有關(guān)概念相關(guān)性分析的有關(guān)概念91第一章 概述92第一章 概述v設(shè)有兩個(gè)變量設(shè)有兩個(gè)變量x和和y,變量,變量y隨變量隨變量x一起變化,一起變化,并完全依賴于并完全依賴于x,當(dāng)變量,當(dāng)變量x取某個(gè)數(shù)值時(shí),取某個(gè)數(shù)值時(shí),y依確依確定的關(guān)系取相應(yīng)的值,則稱定的關(guān)系取相應(yīng)的值,則稱y是是x的函數(shù)的函數(shù),記為,記為 y = f(x),其中),其中x稱為自變量,稱為自變量,y稱為因變量。稱為因變量。各各觀測點(diǎn)落在一條線上。觀測點(diǎn)落在一條線上。v自變
38、量取值一定時(shí),因變量的取值帶有一定隨自變量取值一定時(shí),因變量的取值帶有一定隨機(jī)性的兩個(gè)變量之間的關(guān)系叫做機(jī)性的兩個(gè)變量之間的關(guān)系叫做相關(guān)關(guān)系相關(guān)關(guān)系。當(dāng)一。當(dāng)一個(gè)或幾個(gè)相互聯(lián)系的變量取一定數(shù)值時(shí),與之相個(gè)或幾個(gè)相互聯(lián)系的變量取一定數(shù)值時(shí),與之相對應(yīng)的另一變量的值雖然不確定,但它仍按某種對應(yīng)的另一變量的值雖然不確定,但它仍按某種規(guī)律在一定的范圍內(nèi)變化,變量間的這種相互關(guān)規(guī)律在一定的范圍內(nèi)變化,變量間的這種相互關(guān)系,稱為系,稱為具有不確定性的相關(guān)關(guān)系具有不確定性的相關(guān)關(guān)系。93第一章 概述v與函數(shù)關(guān)系不同,相關(guān)變量間關(guān)系不能用函數(shù)與函數(shù)關(guān)系不同,相關(guān)變量間關(guān)系不能用函數(shù)關(guān)系精確表達(dá),一個(gè)變量的取值
39、不能由另一個(gè)變關(guān)系精確表達(dá),一個(gè)變量的取值不能由另一個(gè)變量唯一確定,當(dāng)變量量唯一確定,當(dāng)變量x取某個(gè)值時(shí),變量取某個(gè)值時(shí),變量y的取值的取值可能有無數(shù)個(gè),各觀測點(diǎn)分布在直線周圍。可能有無數(shù)個(gè),各觀測點(diǎn)分布在直線周圍。v按相關(guān)程度劃分可分為完全相關(guān)、不完全相關(guān)、按相關(guān)程度劃分可分為完全相關(guān)、不完全相關(guān)、和不相關(guān):和不相關(guān):不相關(guān)不相關(guān)v如果變量間彼此的數(shù)量變化互相獨(dú)立,則其如果變量間彼此的數(shù)量變化互相獨(dú)立,則其關(guān)系為不相關(guān),即關(guān)系為不相關(guān),即沒有任何相關(guān)關(guān)系沒有任何相關(guān)關(guān)系。自變量。自變量x變動(dòng)時(shí),因變量變動(dòng)時(shí),因變量y的數(shù)值不隨之相應(yīng)變動(dòng)。的數(shù)值不隨之相應(yīng)變動(dòng)。94第一章 概述v如果變量間的關(guān)
40、系介于不相關(guān)和完全相關(guān)之間,則如果變量間的關(guān)系介于不相關(guān)和完全相關(guān)之間,則稱為不完全相關(guān)。大多數(shù)相關(guān)關(guān)系屬于不完全相關(guān),稱為不完全相關(guān)。大多數(shù)相關(guān)關(guān)系屬于不完全相關(guān),是統(tǒng)計(jì)研究的主要對象是統(tǒng)計(jì)研究的主要對象正相關(guān)和負(fù)相關(guān)正相關(guān)和負(fù)相關(guān)v正相關(guān):正相關(guān):兩個(gè)變量之間的兩個(gè)變量之間的變化方向一致變化方向一致,都是呈增,都是呈增長或下降的趨勢。即自變量長或下降的趨勢。即自變量x的值增加(或減少),因的值增加(或減少),因變量變量y的值也相應(yīng)地增加(或減少),這樣的關(guān)系就是的值也相應(yīng)地增加(或減少),這樣的關(guān)系就是正相關(guān)。正相關(guān)。v負(fù)相關(guān):負(fù)相關(guān):兩個(gè)變量之間兩個(gè)變量之間變化方向相反變化方向相反,即自
41、變量的,即自變量的數(shù)值增大(或減?。?,因變量隨之減小(或增大)。數(shù)值增大(或減小),因變量隨之減?。ɑ蛟龃螅?。95第一章 概述v直線相關(guān)(或線性相關(guān))直線相關(guān)(或線性相關(guān)):當(dāng)相關(guān)關(guān)系的自變:當(dāng)相關(guān)關(guān)系的自變量量x x發(fā)生變動(dòng),因變量發(fā)生變動(dòng),因變量y y值隨之發(fā)生大致均等的值隨之發(fā)生大致均等的變動(dòng),從圖像上近似地表現(xiàn)為變動(dòng),從圖像上近似地表現(xiàn)為直線形式直線形式,這種,這種相關(guān)通稱為直線相關(guān)。相關(guān)通稱為直線相關(guān)。v曲線(或非線性)相關(guān)曲線(或非線性)相關(guān)。在兩個(gè)相關(guān)現(xiàn)象中,。在兩個(gè)相關(guān)現(xiàn)象中,自變量自變量x x值發(fā)生變動(dòng),因變量值發(fā)生變動(dòng),因變量y y也隨之發(fā)生變動(dòng),也隨之發(fā)生變動(dòng),這種變動(dòng)不
42、是均等的,在圖像上的分布是各種這種變動(dòng)不是均等的,在圖像上的分布是各種不同的曲線形式,這種相關(guān)關(guān)系稱為曲線(或不同的曲線形式,這種相關(guān)關(guān)系稱為曲線(或非線性)相關(guān)。曲線相關(guān)在相關(guān)圖上的分布,非線性)相關(guān)。曲線相關(guān)在相關(guān)圖上的分布,表現(xiàn)為拋物線、雙曲線、指數(shù)曲線等表現(xiàn)為拋物線、雙曲線、指數(shù)曲線等非直線形非直線形式式。 96第一章 概述v單相關(guān)單相關(guān):兩個(gè)因素之間的相關(guān)關(guān)系叫單相關(guān),:兩個(gè)因素之間的相關(guān)關(guān)系叫單相關(guān),即研究時(shí)只涉及一個(gè)自變量和一個(gè)因變量。即研究時(shí)只涉及一個(gè)自變量和一個(gè)因變量。v復(fù)相關(guān):復(fù)相關(guān):三個(gè)或三個(gè)以上因素的相關(guān)關(guān)系叫三個(gè)或三個(gè)以上因素的相關(guān)關(guān)系叫復(fù)相關(guān),即研究時(shí)涉及兩個(gè)或兩個(gè)
43、以上的自變復(fù)相關(guān),即研究時(shí)涉及兩個(gè)或兩個(gè)以上的自變量和因變量。量和因變量。v在某一現(xiàn)象與多種現(xiàn)象相關(guān)的場合,當(dāng)假定在某一現(xiàn)象與多種現(xiàn)象相關(guān)的場合,當(dāng)假定其他變量不變時(shí),其中兩個(gè)變量之間的相關(guān)關(guān)其他變量不變時(shí),其中兩個(gè)變量之間的相關(guān)關(guān)系稱為系稱為偏相關(guān)。偏相關(guān)。97第一章 概述1.3.1二維數(shù)據(jù)的數(shù)字特征及相關(guān)系數(shù)二維數(shù)據(jù)的數(shù)字特征及相關(guān)系數(shù)設(shè)設(shè)(X,Y)T是二維總體,從中得到觀測數(shù)據(jù)是二維總體,從中得到觀測數(shù)據(jù)(x1,y1)T, (x2,y2)T, (xn,yn)T.引進(jìn)數(shù)據(jù)觀測矩陣引進(jìn)數(shù)據(jù)觀測矩陣得得記記 ,則稱則稱 為二維觀測數(shù)據(jù)為二維觀測數(shù)據(jù)的均值向量。記的均值向量。記nnyyyxxx,
44、2121niiniiynyxnx111,1Tyx),(niiixyniiyyniixxyyxxnsyynsxxns11212)(11,)(11,)(1198第一章 概述 yyyxxyxxssssSyyxxxysss2) 11(xyyyxxxyxyrsssr99第一章 概述 100第一章 概述101第一章 概述 )()(),(YVarXVarYXCovXY102第一章 概述 212xyxyrnrt103第一章 概述 設(shè)設(shè)(x1,y1)T, (x2,y2)T, (xn,yn)T是二維總體是二維總體(X,Y)T的觀測數(shù)據(jù)的觀測數(shù)據(jù),且且X的數(shù)據(jù)的的數(shù)據(jù)的秩統(tǒng)計(jì)量秩統(tǒng)計(jì)量為為R1,Rn, ,Y的數(shù)據(jù)的
45、秩統(tǒng)計(jì)量為的數(shù)據(jù)的秩統(tǒng)計(jì)量為S1,Sn, ,若若X,Y相關(guān)性強(qiáng)時(shí)相關(guān)性強(qiáng)時(shí),它們的秩統(tǒng)計(jì)量也具有較強(qiáng)的相關(guān)性它們的秩統(tǒng)計(jì)量也具有較強(qiáng)的相關(guān)性. Spearman相關(guān)系數(shù)表示秩統(tǒng)計(jì)量的相關(guān)性相關(guān)系數(shù)表示秩統(tǒng)計(jì)量的相關(guān)性!Spearman相關(guān)系數(shù)相關(guān)系數(shù)秩相關(guān)系數(shù)秩相關(guān)系數(shù):秩秩:設(shè)設(shè)x1,xn是總體的樣本觀測值,其次序是總體的樣本觀測值,其次序統(tǒng)計(jì)量為統(tǒng)計(jì)量為x(1),x(2),x(n),若若xi= x(k),則稱則稱k是的是的xi秩秩,記作記作Ri ,并稱并稱Ri是第是第i個(gè)秩統(tǒng)計(jì)量個(gè)秩統(tǒng)計(jì)量; R1,Rn是總稱為秩統(tǒng)計(jì)量。是總稱為秩統(tǒng)計(jì)量。104第一章 概述 2111)() 1(61)()()(1112212121ninRnRSSRnnSSRRSSRRqniniiniiiniiniiniiixy105第一章 概述 106第一章 概述 107第一章 概述Var: 指定的變量必須為數(shù)值型變量,至少應(yīng)指指定的變量必須為數(shù)值型變量,至少應(yīng)指定兩個(gè)變量定兩個(gè)變量; ;可同時(shí)指定多個(gè)變量,此時(shí)可同時(shí)指定多個(gè)變量,此時(shí)SASSAS會(huì)會(huì)對任意兩個(gè)變量
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 安全生產(chǎn)教育的形式與內(nèi)容選擇的最佳方案試題及答案
- 2025年建造師考試細(xì)節(jié)試題及答案
- 如何提高審計(jì)工作效率試題及答案
- 無人機(jī)高級操作技術(shù)與應(yīng)用考題及答案
- 2025年中級會(huì)計(jì)考試經(jīng)驗(yàn)試題及答案
- 內(nèi)部審計(jì)報(bào)告的格式與內(nèi)容試題及答案
- 醫(yī)療信息標(biāo)準(zhǔn)化與醫(yī)院管理效率
- 地?zé)岚l(fā)電技術(shù)-地?zé)豳Y源的利用(新能源發(fā)電技術(shù))
- 新趨勢 2024年航修試題及答案
- 垃圾焚燒發(fā)電-垃圾填埋氣發(fā)電(新能源發(fā)電)
- 慢性病的防治
- 預(yù)應(yīng)力張拉記錄四張表
- 首信紅星國際廣場A地塊建設(shè)項(xiàng)目監(jiān)理規(guī)劃
- 《腰段解剖》PPT課件
- 機(jī)械行業(yè)六個(gè)典型事故案例分享
- run@rate表格實(shí)例
- 常減壓蒸餾裝置操作工操作技能試題(終).
- 《云南省建筑工程資料管理規(guī)程應(yīng)用指南)(上下冊)
- 上海建設(shè)工程通用硅酸鹽水泥質(zhì)量檢驗(yàn)報(bào)告 - 上海水泥行業(yè)協(xié)會(huì)
- 餐飲服務(wù)六大技能培訓(xùn).ppt
- 基于單片機(jī)的電話撥號(hào)系統(tǒng)的設(shè)計(jì)畢業(yè)論文
評論
0/150
提交評論