




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第4章連續(xù)性變量的統(tǒng)計描述與參數(shù)估計4.1連續(xù)變量的統(tǒng)計描述概述4.1.1統(tǒng)計描述中的可用工具(1)各種初步匯總描述方法頻數(shù)、百分位數(shù)。(2)各種統(tǒng)計描述指標均值、標準差、四分位數(shù)間距。(3)統(tǒng)計表(4)統(tǒng)計圖4.1.2連續(xù)變量的統(tǒng)計描述指標體系(1)集中趨勢(CentralTrend):均數(shù)(Mean)中位數(shù)(Median)眾數(shù)(Mode)總合(Sum)(4)其他趨勢百分位數(shù)指標(Percentile)、M統(tǒng)計量(M-Estimators)、極端值(Outlier)。(2)離散趨勢(DispersionTrend)標準差(Std.Deviation)、方差(Variance)、全距(Range)、最小值(Minimum)、最大值(Maximum)、標準誤(S.E.Mean)(3)分布特征(DistributionTendency)偏度系數(shù)(Skewness)和峰度系數(shù)(Kurtosis)4.1.3spss中的相應(yīng)功能1、Spss的用于連續(xù)變量統(tǒng)計描述的過程,均集中在DescriptiveStatistics子菜單中。(1)Frequencies:產(chǎn)生原始數(shù)據(jù)的頻數(shù)表,并能計算各種百分位數(shù)??刂祁l數(shù)表輸出范圍類型的最大數(shù)目(2)Descriptive過程該過程用于一般性的統(tǒng)計描述,相對于Frequencies過程而言,它不能繪制統(tǒng)計圖。(3)Explore過程該過程用于對連續(xù)性資料分布狀況不清楚時的探索性分析,它可以計算許多描述統(tǒng)計量,給出各種統(tǒng)計圖,并進行簡單的參數(shù)估計。(4)Ratio過程用于對兩個連續(xù)性變量計算相對比指標。2、Comparesmeans均值比較means過程:means過程的優(yōu)勢在于各組的描述指標被放在一起便于相互比較,并且如果需要,可以直接輸出結(jié)果,無須再次調(diào)用其它過程。4.2集中趨勢的的描述指標4.2.1算術(shù)平均算術(shù)平均(ArithmeticMean)是最常用的描述輸送距分布的集中趨勢的統(tǒng)計良。總體均數(shù)(PopulationMean)用希臘字母表示,樣本均數(shù)常用表示。一、算術(shù)平均數(shù)的定義和性質(zhì)二、均數(shù)的意義任何一個平均數(shù)值首先是同類現(xiàn)象的平均數(shù)。任何一個平均數(shù)總是一個平衡點。但平均數(shù)在高度概括觀測數(shù)據(jù)從而使問題簡化的同時,卻丟失了某些有用的信息,一方面它把各個觀測數(shù)據(jù)之間的差異性掩蓋了起來,另一方面由于平均數(shù)對于個別極端值反應(yīng)比較靈敏,因而平均數(shù)在某些情況下可能具有一定的欺騙性。三、均數(shù)的適用范圍嚴格的講平均數(shù)指示用于定距變量。但有時對于定序變量,求平均等級也可以使用平均數(shù)。4.2.2中位數(shù)中位數(shù)(Median)是將總體各單位的標志值按大小順序排列,處于中間位置的那個標志。一、中位數(shù)的定義對于未分組的原始資料,首先必須將標志值按大小順序。設(shè)排序結(jié)果為:則中位數(shù)就可以按下列方式確定:二、中位數(shù)的適用范圍4.2.3其他集中趨勢指標一、截尾均數(shù)由于均數(shù)較易受極端之的影響,因此可以考慮將數(shù)據(jù)排序后,按照一定的比例去掉最兩端的數(shù)據(jù),只是用中部的數(shù)據(jù)來求均數(shù)。如果截尾均數(shù)河源均數(shù)相差不大,則說明數(shù)據(jù)不存在極端值,或者兩側(cè)極端值的影響正好抵消;反之,則說明數(shù)據(jù)中有極端值,此時截為均數(shù)更好地反映數(shù)據(jù)的集中趨勢。常用的截尾均數(shù)有5%截尾均數(shù),即兩端各去掉5%的數(shù)據(jù)。二、幾何均數(shù)幾何均數(shù)適用于原始數(shù)據(jù)分布不對稱,但經(jīng)過對數(shù)轉(zhuǎn)換后稱對稱分布的資料。幾何均數(shù)世紀上就是對數(shù)轉(zhuǎn)換后的數(shù)據(jù)lgX的算術(shù)平均數(shù)的反對數(shù)。四、調(diào)和均數(shù)它實際上是觀察值X倒數(shù)之均數(shù)的倒數(shù)。三、眾數(shù)(Mode)眾數(shù)指的是樣本數(shù)據(jù)中出現(xiàn)頻次最多的那個數(shù)。眾數(shù)適用于任何層次的變量,特別適用于單峰對稱的情況,是比較兩個分布是否接近首先要考慮的參數(shù)。在SPSS中,眾數(shù)可以在Report子菜單和Tables子菜單的全部報表過程和制表過程中計算出來。在SPSS中,調(diào)和均數(shù)可以在Report子菜單的4個報表過程過程中計算出來。4.3離散趨勢的描述指標4.3.1全距(Range)又稱為極差,是一組數(shù)據(jù)中最大值(Maximun)與最小值(Minimum)之差。極差反映的是變量分布的差異范圍或離散程度,在總體中,任何兩個標志值之差都不可能超過極差。極差存在兩點不足:一是它僅僅取決于兩個極端之的水平,不能反映其間的變量分布情況,提供的信息太少。二是它容易受個別極端值的影響,不符合穩(wěn)健型的要求。4.3.2方差和標準差一、方差(Variance)和標準差(StandardDeviation)的定義將離均差平方和(SumofSquaresofDeviationfromMean,SS)除以觀察例數(shù)N,就得到方差:方差越大,數(shù)據(jù)分布離散程度越大。對于樣本數(shù)據(jù)而言,方差的計算公式為:將方差開方,就得到標準差。對于同性質(zhì)的數(shù)據(jù)來說,標準差越小,表明數(shù)據(jù)的變異程度越小,即數(shù)據(jù)越整齊,數(shù)據(jù)的分布范圍越集中;標準差越大,表明數(shù)據(jù)的變異程度越大,即數(shù)據(jù)越參差不齊,分布越分散。二、方差和標準差的適用范圍:方差和標準差的適用范圍應(yīng)當是正態(tài)分布。4.3.3百分位數(shù)、四分位數(shù)與四分位數(shù)間距分位差是對極差指標的一種改進,是從變量數(shù)列中剔除了一部分極端值后重新計算的類似于極差的指標。常用的分位差有四分位差、十分位差、百分位差。一、分位數(shù)分位數(shù):是一種位置指標,用PX表示。一個百分位數(shù)PX將一組觀測之分為兩部分,理論上有x%的觀測值比它小,(100-x)%的觀測值比它大。四分位數(shù)(quartile)、十分位數(shù)(decile)、百分位數(shù)(percentile),他們分別是用3個點、9個點、99個點將數(shù)據(jù)4等分、10等分和100等分后各分位點上的值。二、四分位數(shù)四分位數(shù):實際上是三個數(shù)值的總稱,分別是P25、P50、P75分位數(shù)。很顯然,中間的分位數(shù)是中位數(shù),因此通常所說的四分位數(shù)是指第一個四分位數(shù)(下四分位數(shù))和第三個四分位數(shù)(上四分位數(shù))。上下四分位數(shù)的差值稱為四分位數(shù)間距:QR=Q3-Q14.3.4變異系數(shù)當需要比較兩組數(shù)據(jù)離散程度大小的時候,往往直接使用標準差來進行比較并不合適。這可以被分為兩種情況:(1)測量尺度相差太大;(2)數(shù)據(jù)量綱不同。在以上情形中,就應(yīng)當消除測量尺度和量綱的影響,而變異系數(shù)(CoefficientofVariance),它是標準差和其平均數(shù)的比率。4.4連續(xù)變量統(tǒng)計描述實例4.4.1數(shù)據(jù)背景介紹4.4.2使用Explore過程進行分析探索分析是對數(shù)據(jù)進行初步的觀察分析,主要的分析項目有:觀察數(shù)據(jù)的分布特征:可通過繪制箱圖和莖葉圖等圖形直觀地反映數(shù)據(jù)的分布形式和數(shù)據(jù)的一些規(guī)律性,包括考察數(shù)據(jù)中是否存在異常值等。正態(tài)分布檢驗:檢驗數(shù)據(jù)是否服從正態(tài)分布。方差齊性的檢驗:用Levene檢驗比較各組的方差是否相等。1、單擊Analyze->Descriptivestatistics->Explore,打開Explore主對話框:一、分析操作(3)在Display欄中選擇輸出項,依次是Both選擇項,輸出圖形與描述統(tǒng)計量(系統(tǒng)默認),只輸出描述統(tǒng)計量和只輸出圖形。本例中選擇默認項。(1)從左側(cè)的變量列表中選出變量”身高”,送入DependentList欄。(2)選擇”性別”作為因子變量,送入FactorList欄。有了因子變量,SPSS會把所有的觀測個體按照因子變量的取值分成若干各組,再分組考察DependentList中的各個變量,如果不選擇因子變量,SPSS會對全部觀測來做探索分析。2、單擊Statistics統(tǒng)計量按鈕,打開Statistics對話框,選擇統(tǒng)計輸出量。(1)Descriptives基本統(tǒng)計描述。同時指定均值的置信區(qū)間的置信度,系統(tǒng)默認為95%。(2)M-估計(M估計在計算時對所有觀測量賦予權(quán)重,隨觀測量距分布中心的遠近而變化)。(3)Outliers輸出分析數(shù)據(jù)中五個最大值和五個最小值。(4)Percentiles輸出百分數(shù)。3、單擊Plots圖形按鈕,打開Plots對話框。(1)Boxplot箱圖選擇欄Factorlevelstogether因變量按因素水平分組(系統(tǒng)默認);Dependentstogether所有因變量生成一個并列箱圖(本例中選擇項);None不顯示箱圖。(2)Descriptive描述圖形欄Stem-and-leaf莖葉圖Histogram直方圖(3)Normalityplotswithtest(復(fù)選項),正態(tài)分布檢驗并輸出Q-Q圖。None:不產(chǎn)生回歸直線的斜率和方差齊性檢驗;PowerEstimation轉(zhuǎn)換冪值估計(對每組數(shù)據(jù)產(chǎn)生一個中位數(shù)自然對數(shù)及四個分位數(shù)的自然對數(shù)的散點圖)選項;Transformed變換原始數(shù)據(jù)選擇項;Untransformed不變換變換原始數(shù)據(jù)選擇項。(4)SpreadvslevelwithLeveneTest欄,對所有的散布—層次圖,同時輸出回歸直線的斜率以及方差齊性的Levene
s檢驗。4、單擊Option按紐,打開Option對話框如圖所示。可選擇缺失值的處理方式,SPSS提供三種處理方式:(1)Excludecaseslistwies剔除帶缺失值的觀測量(系統(tǒng)默認)。(2)Excludecasespairwise剔除帶缺失值的觀測量時還一并剔除與缺失值有成對關(guān)系的觀測量。(3)Reportvalues輸出頻數(shù)表時同時輸出缺失值。5、單擊OK,得到相應(yīng)的輸出結(jié)果如表所示。二、基本的分析結(jié)果三、輸出百分位數(shù)和極端值列表身高Stem-and-LeafPlotforsex=男
FrequencyStem&Leaf1.0015.9.0016.9.0016.55577899920.0017.0000000001111233444424.0017.55555555555667777778888912.0018.0000001222343.0018.668Stemwidth:10Eachleaf:1case(s)箱圖中,最底部的水平線段是數(shù)據(jù)的最小值(奇異點除外),頂部的水平線段是數(shù)據(jù)的最大值(奇異點除外),中間矩形箱子的底所在位置是數(shù)據(jù)的第一個四分位數(shù)(即25%分位數(shù)),箱子頂部所在位置是數(shù)據(jù)的第三個四分位數(shù)據(jù)(即75%分位數(shù))。箱子中間的水平線段刻畫的是數(shù)據(jù)的中位數(shù)(即50%分位數(shù))。4.4.3使用其他過程過程進行分析一、Descriptive過程的結(jié)果二、Frequencies過程的結(jié)果4.5連續(xù)性變量的參數(shù)估計根據(jù)樣本數(shù)據(jù)對總體的客觀規(guī)律性作出合理估計的過程被稱為統(tǒng)計推斷(StatisticalInference),它可以被分為參數(shù)估計和假設(shè)檢驗兩大類。4.5.1正態(tài)分布一、正態(tài)分布的定義若連續(xù)性隨即變量X的概率分布密度函數(shù)為則稱隨機變量X服從正態(tài)分布(NormalDistribution)二、正態(tài)分布的特征(1)正態(tài)分布是一條對稱曲線,關(guān)于均數(shù)對稱,因此均數(shù)被稱為正態(tài)分布的位置參數(shù)。(2)曲線是單峰,在均值出達到最高點。(3)正態(tài)分布曲線的尖削與標準差有關(guān)。因此標準差被稱為正態(tài)分布曲線的尺度參數(shù)。(4)曲線無論向左或向右延伸,都越來越接近橫軸,但不會與橫軸相交,以橫軸為漸近線。(5)約68%的個體的取值與平均數(shù)在距離一個標準差之內(nèi)。(6)約95%的個體取值與平均數(shù)的距離在1.96個標準差之內(nèi)。(7)99%個體的取值與平均數(shù)的距離在2.58個標準差。三、標準正態(tài)分布(StandardNormalDistribution)將原來的正態(tài)分布轉(zhuǎn)換為標準正態(tài)分布。在SPSS中的Descriptive過程可以將原變量轉(zhuǎn)換為標準正態(tài)分布的得分,只需要選中主對話框左下角的Savestandardizedvaluesasvariables復(fù)選框即可。四、偏度和峰度(1)偏度(Skewness):偏度是用來描述變量取值分布形態(tài)的統(tǒng)計量,只分布不對稱的方向和程度。樣本偏度系數(shù):偏態(tài)的方向指的應(yīng)當是長尾的方向,而不是高峰的位置。(2)峰度(Kurtosis):峰度用來描述變量取值分布形態(tài)陡緩的統(tǒng)計量,是指分布圖形的的尖削程度或峰凸程度。樣本的峰度系數(shù):4.5.2參數(shù)的點估計參數(shù)的點估計就是選定一個適當?shù)臉颖窘y(tǒng)計量作為參數(shù)的估計量,并計算出估計值。對于所選統(tǒng)計量是否適于作參數(shù)估計量,有無偏性、一致性和有效性三個評選標準。無偏性是指雖然估計量的值不全等于參數(shù),但應(yīng)在真實值附近擺動。一致性是指樣本容量越大,估計值離真實值的差異應(yīng)當越小。有效性是指如果兩個統(tǒng)計量都符合上述要求,則應(yīng)當選取誤差更小的一個作為估計值。在許多種情況下,樣本統(tǒng)計量本身往往就是相應(yīng)的總體參數(shù)的最佳估計,此時就可以直接取相應(yīng)的樣本統(tǒng)計量作為總體參數(shù)的點估計。一、矩法二、極大似然估計法該方法的原理是在已知總體的分布,但未知其參數(shù)值時,在待估參數(shù)的可能取值范圍內(nèi)進行搜索,使似然函數(shù)值最大的那個數(shù)值為極大似然估計值。三、穩(wěn)健估計值穩(wěn)健估計值的是該統(tǒng)計量具有穩(wěn)健性,當數(shù)據(jù)存在異常值時受影響較小,而且對大部分的分布而言都很好。文件估計有M估計、R估計等不同方法。SPSS中數(shù)出的M估計量有4種,它們分別是Huber、Andrews、Hampel和Tukey所提出的,實際上就是所用的函數(shù)不同。一般而言,Huber適用于數(shù)據(jù)接近正態(tài)分布的情況,另外三種則適用于數(shù)據(jù)中許多異常值的情況。如果M估計量里平均數(shù)和中位數(shù)較遠,則數(shù)據(jù)中可能存在異常值。此時,應(yīng)該用M估計量替代平均數(shù)以反映集中趨勢。。4.5.3參數(shù)的區(qū)間估計一、標準誤標準誤就是用來描述參數(shù)估計值可能離真實值究竟有多遠的統(tǒng)計量。二、區(qū)間估計的計算結(jié)合樣本統(tǒng)計量和標準誤可以確定一個具有較大的可信度包含總體參數(shù)的區(qū)間,該區(qū)間稱為總體參數(shù)的1-a可信區(qū)間或置信區(qū)間(ConfidenceInterval)。對于任意可信度的區(qū)間情況,總體均值在100(1-a)%可信區(qū)間為:第5章分類變量的統(tǒng)計描述與參數(shù)估計5.1分類變量的統(tǒng)計描述概述5.1.1分類變量的統(tǒng)計描述指標體系一、頻數(shù)分布情況描述各個類別的樣本數(shù)和所占比例分別稱為頻數(shù)(絕對頻數(shù))和百分比(構(gòu)成比)。累計頻數(shù)是指本類別及較低類別出現(xiàn)的次數(shù)之和,累計百分比則是指本類別及較低類別出現(xiàn)的次數(shù)之和占總次數(shù)的百分比。根據(jù)類別的有序性,分類變量可以分為有序分類變量(OrdinalVariable)和無序分類變量(NominalVariable)。當集中趨勢顯著時,用眾數(shù)(Mode)作為總體的代表值。二、集中趨勢的描述所謂眾數(shù),使之出現(xiàn)次數(shù)最多的那個數(shù)。如果只有一個眾數(shù)稱為單眾數(shù),多于一個的稱為復(fù)眾數(shù)。(1)比(Ratio):比指的是兩個有關(guān)指標之比A/B,用于反映兩個指標在數(shù)量/頻數(shù)上的大小關(guān)系。三、使用相對數(shù)進行深入描述(2)構(gòu)成比(Proportion)率是一個時間概念,或者說具有速度、強度含義的指標,用于說明某個時間發(fā)生的頻率或強度。分觀察對象為K部分(A1、A2、……Ak),其中某一個/多個部分的例數(shù)占總例的比例未構(gòu)成比,它描述某個事物內(nèi)部各構(gòu)成部分所占的比重。(3)率(Rate)5.1.2分類變量的聯(lián)合描述當一共有兩個分類變量時,這匯總因分類變量的各類別交叉而成的復(fù)合頻數(shù)表被稱為行*列表,也稱列聯(lián)表。當觀察的現(xiàn)象與兩個因素有關(guān)時,如某種服裝的銷量受價格和居民收入影響;某種產(chǎn)品的生產(chǎn)成本受原材料價格和產(chǎn)量的影響等等,交叉列聯(lián)表分析可以比較好的反映出兩個因素之間有無關(guān)聯(lián)性,兩因素與現(xiàn)象之間的相關(guān)關(guān)系。因此,數(shù)據(jù)交叉列聯(lián)表分析主要包括兩個基本任務(wù):1、根據(jù)收集的樣本數(shù)據(jù),產(chǎn)生二維或多維交叉列聯(lián)表;2、在交叉列聯(lián)表的基礎(chǔ)上,對兩兩變量間是否存在關(guān)聯(lián)性進行檢驗。5.2分類變量的統(tǒng)計描述實例5.2.1使用Frequencies過程輸出頻數(shù)表具體操作:AnalysisDescriptiveStatisticsFrequencies1、打開數(shù)據(jù),單擊Analyze
DescriptiveStatistics
Crosstabs對話框。2、如果是二維列聯(lián)表分析,可以將行變量選擇進入Row(s)中,將列變量選擇進入Column(s)框中。如進行三維以上的列聯(lián)表,可以將其它變量作為控制變量選到Layer框中。多控制變量可以是同層次的也可以是逐層疊加的。5.2.2使用Crosstabs過程輸出列聯(lián)表3、Displayclusteredbarchart選擇項,可以指定繪制各變量交叉頻數(shù)分布柱形圖。Suppresstable表示不輸出列聯(lián)表,只有在分析行列變量間關(guān)系時選擇此項。此例中不選擇這一項。4、單擊Cell按紐,打開Crosstabs:CellDisplay對話框,如圖所示。從對話框中指定列聯(lián)表單元格中的輸出內(nèi)容。在Counts框中選擇Observed觀察值(系統(tǒng)默認)或Expected期望頻數(shù)。在Percentages框內(nèi)選擇Row行百分比、Column列百分比及Total總百分比。在Residuals框中選擇輸出殘差。其中Standardize為標準化殘差。Adj.standardize為修正的標準化殘差。5.3多選題的統(tǒng)計描述5.3.1多選題的描述指標體系在多選題分析中比較特別的描述指標有:(1)應(yīng)答人數(shù):是指選擇了本項人數(shù)。(2)應(yīng)答人數(shù)百分比(PercentofCases):選擇該項的人占總?cè)藬?shù)的比例。(3)應(yīng)答人次:選擇本選項的人次。(4)應(yīng)答次數(shù)百分比(PercentofResponses):在作出的選擇中,選擇該項的人數(shù)占總次數(shù)的比例。5.3.2分析實例操作步驟:AnalyzeMultipleResponseFrequencies1、DefineSets過程該過程指定變量組成一個多重響應(yīng)或多重兩分數(shù)集,并應(yīng)用于頻數(shù)表和交叉列表。2、Frequencies過程該過程對定義的多重響應(yīng)或多重兩分數(shù)提供一個頻數(shù)表。3、Crosstabs過程該過程提供帶有另一種變量的,已定義的多重或多重兩分數(shù)據(jù)集交叉表。5.4分類變量的參數(shù)估計5.4.1二項分布的參數(shù)估計一、二項分布二項分布又稱為貝努里(Bernoulli)分布,是一種具有廣泛應(yīng)用的離散型隨機變量的概率分布。二項分布研究的是試驗僅有兩種結(jié)果的分布(這種試驗稱為貝努里試驗),如某產(chǎn)品質(zhì)量合格與不合格等。其定義為:設(shè)有n次試驗,各次試驗是相互獨立的,每次試驗?zāi)呈录霈F(xiàn)的概率都是p,某事件不出現(xiàn)的概率都是1-p,記為q,則對于某事件出現(xiàn)k(k=0,1,2,?,n)次的概率分布為:二、二項分布檢驗(BinomialTest)當研究對象屬于二項總體時,可以用二項分布來檢驗假設(shè),判斷所抽取的樣本是否來自具有既定值的總體。其檢驗步驟如下:1、提出假設(shè)2、計算統(tǒng)計量值和p值3、根據(jù)p值作出統(tǒng)計判斷。[例]擲一枚球類比賽用的挑邊器40次,出現(xiàn)A面和B面在上的次數(shù)。如表所示,試問這枚挑邊器是否均勻?解:(1)在SPSS中輸入表中的數(shù)據(jù)(變量名為Y)。選擇主菜單的[Analyze]=>[NonparametricTests]=>[BinomialTest]。(2)顯示如圖所示的[BinomialTest(二項檢驗)]主對話框,把Y選入[TestVariable],其它選項采用默認值。(3)單擊主對話框中的[OK]按鈕,輸出結(jié)果如下:從結(jié)果可以看出,p=0.017<α=0.05,認為該挑邊器不是均勻的。第6章數(shù)據(jù)報表的呈現(xiàn)6.1spss報表概述6.1.1spss中的報表功能1、base模塊2、original模塊3、CustomTables模塊6.1.2報表的基本繪制步驟6.2表格入門6.2.1表格基本框架行(Row)指的是形成表格的橫行元素;列(Column)指的是形成表格縱列的元素;行、列元素相交就會形成一個最簡單的二維表,行、列元素不同取值的組合就確定了一個單元格(Cell)。層(Layer)指的是表格中的第三個維度。6.2.3單元格的數(shù)據(jù)類型1、分類變量.包括了名義型和有序尺度兩大類。2、連續(xù)變量包括間距尺度和比率尺度兩大類。(1)集中趨勢指標:均數(shù)、中位數(shù)、眾數(shù)、最大值、最小值。(2)離散趨勢指標:全距、標準誤、標準差、方差。(3)百分位數(shù):第5、25、75、95、99百分位數(shù)其任一指定的百分位數(shù)。(4)百分比:按相應(yīng)合計方向當前變量的行、列、層、表格合計百分比。(5)其他:例數(shù)、有效例數(shù)、綜合等。3、匯總項6.2.4集中基本表格類型1、疊加表(Stacking)疊加表指的是在同一張表格中對兩個變量進行描述,或者說表格中有一個維度的元素是由兩個以上的變量構(gòu)成。2、交叉表(Crosstabulation)它的兩個維度都是由兩個分類變量的各類別構(gòu)成。3、嵌套表(Nesting)兩個變量被放置在同一個表格維度中,即該維度是由兩個變量的各種類別組合而成。4、多層表(Layers)如果制定了層元素,表格就由二維擴展到三維,即多層表。5、復(fù)合表格6.3用OriginalTables模塊制表6.3.1功能簡介(1)MultipleResponseSets(2)BasicTables(3)GeneralTables(4)MultipleResponseTables(5)TablesofFrequencies6.3.2BasicTables過程例2:請將數(shù)據(jù)文件Cars.sav中的汽車數(shù)據(jù)分為不同的產(chǎn)地和氣缸數(shù)計算其引擎功率、引擎重量的頻數(shù)和均數(shù),用適當?shù)膱蟊硇问浇o出,并要求給出類別合計。1、表格框架的設(shè)定2、統(tǒng)計量的添加與格式的設(shè)置3、添加匯總項4、空單元格的設(shè)置5、添加標題與說明文字6、標簽排列格式的調(diào)整7、最終完成表格繪制6.3.3GeneralTables過程1、表格框架的設(shè)定2、添加匯總項6.4用CustomTables模塊自由制作6.4.1操作主界面6.4.2簡單實例分析1、表格框架的繪制:選中左側(cè)列表中變量的圖標,按下左鍵不放,移動鼠標,此時鼠標攜帶著變量圖標一起移動。將其拖入畫布內(nèi),當鼠標接近行/列邊框時,相應(yīng)地邊框會變紅,表明該變量已經(jīng)找到位置。2、連續(xù)變量統(tǒng)計量的設(shè)置(1)選中畫布上的Horsepower圖標,此時界面左下方Define框組中的SummaryStatistics浮動鈕已經(jīng)可以用,單擊該鈕后即彈出連續(xù)變量匯總統(tǒng)計量設(shè)定的對話框圖。(2)如果計算某一個統(tǒng)計量,使用連接兩框的統(tǒng)計按鈕將其移入右側(cè)。例如如果希望先計算頻數(shù),則在用最右側(cè)的上下移動鈕將其移動到均數(shù)上方即可。3、分類變量匯總項的設(shè)置選擇分類變量Cylinder,則Define框組中的該浮動按鈕可用,單擊后彈出如下界面:TotalsandSubtotalsAppear框組:用于設(shè)定匯總和子項匯總的標簽是在左上部顯示還是在右下部顯示。Show框組:用于設(shè)定某項是否顯示,Ttotal選項用于要求計算匯總欄,Missing選項要求將用戶定義的的缺失值按缺失值處理方式處理,該選擇不影響系統(tǒng)缺失。Empty選項用于控制是否在表格中輸出無案例的類別。而最右側(cè)的Other選項則控制是否顯示未提供值標簽的類別。Exclude框:用于指定部顯示某些類別。Display框組:直觀的顯示該分類變量各類的顯示方式、順序、匯總等。4、顯示標簽的調(diào)整將表格畫布切換為正常視圖,然后在Cylingder的變量名標簽出單擊右鍵,則彈出相應(yīng)的右鍵菜單。6.4.3其他選項卡功能1、TestStatistics功能2、Titles選項卡3、Options選項卡6.5表格的編輯6.5.1基本編輯操作1、兩種不同的編輯窗口(1)嵌套窗口編輯模式選中相應(yīng)表格使用右鍵菜單上的SPSSPivottableObjectEdit,或者雙擊鼠標左鍵。(2)單獨窗口編輯模式選中相應(yīng)表格使用右鍵菜單上的SPSSPivottableObjectOpe。,2、表格元素的選擇方式3、單元格內(nèi)容編輯6.5.2主要編輯菜單功能介紹1、Edit菜單2、format菜單對單元格的字體、陰影、顏色等屬性修改對表格進行各個選項的精細設(shè)置對單元格的字體、陰影、顏色等屬性修改對表格進行各個選項的精細設(shè)置選用新的表格模版表格的行、列自動按內(nèi)容多少調(diào)整為最小。將列標題縱向顯示3、View菜單和Insert菜單4、Pivot菜單6.5.3表格屬性的詳細設(shè)置單擊菜單Format到TableProperties即可彈出表格屬性對話框。(1)general選項卡(2)Footnotes選項卡(3)CellFormats選項卡(4)Borders選項卡6.6參數(shù)估計6.6.1參數(shù)估計的一般問題一、估計量與估計值所謂參數(shù)估計(Parameterestimation)就是用樣本統(tǒng)計量去估計總體的參數(shù)。如果我們將總體參數(shù)籠統(tǒng)地用一個符號來表示,參數(shù)估計也就是如何用樣本統(tǒng)計量來估計總體參數(shù)。用于估計的樣本統(tǒng)計量用符號表示,我們把稱為統(tǒng)計量(estimator)。估計值(estimatedvalue)就是用來估計總體參數(shù)時計算出來的估計量的具體數(shù)值。二、點估計與區(qū)間估計參數(shù)的估計方法有點估計(pointestimate)和區(qū)間估計(intervalestimate)兩種。(一)點估計所謂點估計就是由樣本x1,x2,…xn確定一個統(tǒng)計量
用它來估計總體的未知參數(shù),稱為總體參數(shù)的估計量。當具體的樣本抽出后,可求出樣本統(tǒng)計量的值。用它作為總體參數(shù)的估計值,稱作總體參數(shù)的點估計。
某連續(xù)生產(chǎn)線上生產(chǎn)的燈泡的使用壽命X服從正態(tài)分布N(μ,δ2),其中μ和δ2是未知總體參數(shù)。從中隨機抽取5只燈泡,測得使用壽命分別為1529小時、1513小時、1600小時、1527小時、1111小時。試估計μ和δ2。從總體中抽取一個樣本,構(gòu)造適當?shù)慕y(tǒng)計量,來估計對應(yīng)的總體參數(shù)。評價點估計量優(yōu)劣的標準:1、無偏性(unbiasedness)無偏性是指估計量的抽樣分布的數(shù)學(xué)期望等于被估計的總體參數(shù)。參數(shù)θ不等于抽樣分布的均值(有偏估計量)參數(shù)θ等于抽樣分布的均值(無偏估計量)偏差2、有效性(Efficiency)參數(shù)的抽樣分布的抽樣分布
自正態(tài)總體抽樣時,總體均值與總體中位數(shù)相同,而中位數(shù)的標準誤差大約比均值的標準誤差大25%。因此,樣本均值更有效。的抽樣分布的抽樣分布3、一致性(consistency)兩個不同容量樣本的點估計量的抽樣分布(二)區(qū)間估計的樣本使得置信度1-α區(qū)間估計是在點估計的基礎(chǔ)上,給出總體參數(shù)估計的一個區(qū)間范圍,該區(qū)間通常是由樣本統(tǒng)計量加減抽樣誤差得到的。6.6.2一個總體參數(shù)的區(qū)間估計(一)總體方差已知時總體均值的區(qū)間估計一、總體均值的區(qū)間估計當總體服從正態(tài)分布且方差已知時,或者總體不是正態(tài)分布但大樣本時,樣本均值的抽樣分布均為正態(tài)分布,期數(shù)學(xué)期望為總體均值,方差為。而樣本均值經(jīng)過標準化以后的隨機變量則服從標準正態(tài)分布。顯著性水平置信度顯著性水平α下,μ在1-α置信水平下的置信區(qū)間:例題:一批零件的長度服從正態(tài)分布,從中隨機抽取9件,測得其平均長度為21.4毫米。已知該批零件長度的標準差為0.15毫米,試以95%的把握程度,估計該批零件平均長度的存在區(qū)間。例題:某大學(xué)從該校學(xué)生中隨機抽取100人,調(diào)查到他們平均每天參加體育鍛煉為26分鐘。試以95%的置信水平估計該大學(xué)全體學(xué)生平均每天參加體育鍛煉的時間(已知總體方差為36)。例題:一家保險公司收集到36個投保人組成的隨機樣本,得到每個投保人的年齡如表:233539273644364246433133425345544724342839364440394938344850343945484532試建立投保人年齡的90%置信區(qū)間。(二)總體方差未知時總體均值的區(qū)間估計如果總體服從正態(tài)分布,則無論樣本容量如何,樣本均值的抽樣分布都服從正態(tài)分布。這時,只要總體方差已知,即使在小樣本的情況下,也可以建立總體均值的置信區(qū)間。但是,如果總體方差未知,而且是在小樣本的情況下,則需要用樣本方差替代總體方差,這時樣本均值經(jīng)過標準化以后的隨機變量則服從自由度為(n-1)的t分布。-3-2-101230.00.10.20.30.4標準正態(tài)分布自由度為20的t-分布自由度為10的t-分布顯著性水平α下,μ的1-α置信區(qū)間:例題:已知某燈泡的壽命副總正態(tài)分布,現(xiàn)從一批燈泡中隨機抽取16只,測得其壽命如下:1510145014801460152014801490146014801510153014701500152015101470試建立該批燈泡使用壽命95%的置信區(qū)間。是否為大樣本n≥30σ值是否已知σ值是否已知總體是否近似正態(tài)分布用樣本標準差s估計δ用樣本標準差s估計δ將樣本容量增加到n≥30以便進行區(qū)間估計是是是是否否否否總體均值區(qū)間估計程序二、總體比例的區(qū)間估計顯著性水平α下,P在1-α置信水平下的置信區(qū)間:
某企業(yè)在一項關(guān)于職工流動原因的研究中,從企業(yè)前職工的總體中隨機抽選了200人組成一個樣本。在對其進行訪問時,有140說他們離開該企業(yè)是由于同管理人員不能融洽相處。試對由于這種原因而離開企業(yè)的人員的真正比率構(gòu)造95%的置信區(qū)間。三、總體方差的區(qū)間估計自由度為50自由度為2自由度為10顯著性水平α下,σ2的置信區(qū)間0=2.7044=19.02280.0250.025自由度為9的χ2分布
對某種金屬的10個樣品所組成的一個隨機樣本作抗拉強度試驗。從試驗數(shù)據(jù)算出的方差為4,試求σ2的95%值信區(qū)間。四、樣本容量的確定允許誤差(permissible)
用歷史數(shù)據(jù)代替。若有若干個歷史數(shù)據(jù),應(yīng)以較大者代替。
一家廣告公司想估計某類商店去年所花的平均廣告費有多少。經(jīng)驗表明,總體方差為1800000。如置信度取95%,并要使估計值處在總體平均值附近500元的范圍內(nèi),這家廣告公司應(yīng)取多大的樣本?
一家市場調(diào)研公司想估計某地區(qū)有彩色電視機的家庭所占的比率。該公司希望對P的估計誤差不超過0.05,要求可靠程度為95%,應(yīng)取多大容量的樣本?總體方差最大值為0.5×0.5=0.25關(guān)鍵術(shù)語無放回抽樣(samplingwithoutreplacement)一個元素一旦選入樣本,就從總體中剔除,不能再次被選入放回抽抽樣(samplingwithreplacement)一個元素一旦被選入樣本,仍被放回總體中。先前被選入的元素可能再次被抽到,并且在本樣中可能出現(xiàn)多次抽樣分布(samplingdistribution)樣本統(tǒng)計量所有可能值構(gòu)成的概率分布點估計(pointestimate)用做總體參數(shù)估計量的值。它是點估計量的具體的取值點估計量(pointestimator)提供總體參數(shù)點估計的樣本統(tǒng)計量標準誤差(standarderror)點估計量的標準差中心極限定理(centrallimittheorem)當樣本容量大的時候,用正態(tài)分布近似樣本均值的分布和樣本比率的抽樣分布區(qū)間估計(intervalestimate)總體參數(shù)估計值的一個范圍,確信該范圍包括參數(shù)的值在內(nèi)抽樣誤差(sampleerror)無偏估計值(如樣本均值)與所估計的總體值(如總體均值)之差的絕對值置信水平(confidencelevel)與區(qū)間估計相聯(lián)系的置信度邊際誤差(marginerror)置信區(qū)間中從點估計值中所加上或減去的值t分布(tdistribution)概率分布的一族,當總體是正態(tài)或者近似正態(tài)概率分布,并且總體標準差未知情況下,對總體均值進行區(qū)間估計時常用到該分布自由度(degreesoffreedom)t分布的參數(shù),計算總體均值的區(qū)間估計中所用的t分布的自由度為n-1,其中n是簡單單隨機樣本的樣本容量第十章統(tǒng)計繪圖@文彤老師SPSS提供的統(tǒng)計繪圖功能SPSS統(tǒng)計圖的三種版本12.0版以前的統(tǒng)計圖系統(tǒng)、8.0版之后新增的交互圖系統(tǒng),以及目前采用的統(tǒng)計圖系統(tǒng)。統(tǒng)計圖的三種對話框操作方式可視化的圖形生成器。圖形的可視化模版:是一個類似于繪圖向?qū)У目梢暬缑?,很多操作細?jié)非常類似與交互圖。繼承自老版本的傳統(tǒng)對話框:注意有些特殊圖形只能用該界面生成2025年3月19日@文彤老師1302025年3月19日@文彤老師131132標題文本區(qū)數(shù)據(jù)區(qū)(內(nèi)框區(qū))圖例區(qū)外框區(qū)自由靈活的圖形框架外框區(qū)和內(nèi)框區(qū)選中后出現(xiàn)控制框,利用鼠標可進行框區(qū)大小的改變和位置的移動改變外框區(qū)大小時將對稱的改變除文本外所有圖形元素的大小在改變大小時圖形長寬比例不再固定,完全做到了隨心所欲2025年3月19日@文彤老師133自由靈活的圖形框架其余各區(qū)域區(qū)域的相對位置完全自由,可拖動到任意位置,區(qū)域內(nèi)元素的各種設(shè)置保持不變從右側(cè)示意圖可見標題和圖例均被自由拖動到了圖形中的其他位置上2025年3月19日@文彤老師134自由的元素選擇方式單擊圖形元素,選中所有同類元素二次單擊,則選中同組元素三次單擊,則只選中該圖形元素對圖例元素的選擇方式不在此列,單擊圖例則選中所有相應(yīng)的圖形元素2025年3月19日@文彤老師135自由的元素選擇方式單獨設(shè)置某一個圖形元素的格式包括單獨標出具體的數(shù)值、ID號等注意:并非所有操作都可以用于單獨的圖形元素,許多選項只能整個圖形一起使用三維效果等2025年3月19日@文彤老師136統(tǒng)計圖的分類統(tǒng)計圖的分類方法有許多種,但和統(tǒng)計學(xué)體系最為貼近的分類方法是首先按照其呈現(xiàn)變量的數(shù)量,從而可以將統(tǒng)計圖大致分為單變量圖、雙變量圖、多變量圖等,隨后再根據(jù)相應(yīng)變量的測量尺度進行更細的區(qū)分。2025年3月19日@文彤老師137單變量圖連續(xù)性變量2025年3月19日@文彤老師138單變量圖分類變量2025年3月19日@文彤老師139雙變量圖連續(xù)應(yīng)變量2025年3月19日@文彤老師140雙變量圖分類應(yīng)變量自變量為連續(xù)時,常見的處理方式是將自/應(yīng)變量交換后使用條圖來進行呈現(xiàn)。自變量也是分類變量時,
基本以條圖為主。復(fù)式條圖:呈現(xiàn)兩個分類
變量各個類別組合情況下
的頻數(shù)2025年3月19日@文彤老師141雙變量圖其它雙變量條圖分段條圖:主要突出一個分類變量各類別的頻數(shù),并在此基礎(chǔ)上表現(xiàn)兩個類別的組合頻數(shù)情況馬賽克圖:呈現(xiàn)在一個變量不同類別下,另一個變量各類別的百分比變化情況2025年3月19日@文彤老師142更復(fù)雜的多變量圖形最常見的方式為采用圖例對二維圖進行擴充組合統(tǒng)計圖:根據(jù)實際需要自行設(shè)計統(tǒng)計地圖:與地圖數(shù)據(jù)相結(jié)合其他特殊用途的統(tǒng)計圖質(zhì)量控制圖、ROC曲線等2025年3月19日@文彤老師143注意:圖形并非越復(fù)雜越好!Themostcommondisasterinillustratingistoincludetoomuchinformationinonefigure.Themorepointsmadeinanillustration,themoretheriskofconfusinganddiscouragingthereviewer.
--Briscoe,19902025年3月19日@文彤老師144直方圖與莖葉圖案例:繪制消費者信心值的直方圖直方圖組的繪制累積直方圖的繪制分段直方圖(StackedHistogram)面積直方圖(頻數(shù)多邊形,F(xiàn)requencyPolygon)人口金字塔(PopulationPyramid)莖葉圖2025年3月19日@文彤老師145箱
圖案例:用箱圖分月份考察消費者信心的分布每個箱形都由最中間的粗線,一個方框、外延出來的兩條細線和最外端可能有的單獨散點組成。在箱圖中,凡是與四分位數(shù)值(圖中即為方框上下界)的距離超過1.5倍四分位間距的都會被定義為異常值,其中離方框上/下界的距離超過四分位數(shù)間距1.5倍的為離群值,在圖中以“O”表示;超過3倍的則為極值,用“*”表示。散點旁邊默認標出相應(yīng)案例號備查。特色功能選擇性顯示某些標簽2025年3月19日@文彤老師146餅
圖案例:分城市、月份考察樣本性別比例由于需要分城市、月份進行考察,因此可以考慮將這兩個變量分別設(shè)定為行面板和列面板變量,且從使用習慣上講,月份這一有序分類變量應(yīng)當被設(shè)置為列面板變量更為妥當。特色功能旋轉(zhuǎn)方向餅塊的突出顯示與合并2025年3月19日@文彤老師147條圖與誤差圖案例:比較不同職業(yè)人群的消費者信心值案例:分職業(yè)進一步比較不同人群的現(xiàn)狀和預(yù)期指數(shù)分段條圖與百分條圖案例:比較不同月份的A3a選項比例分布特色功能條圖與其他統(tǒng)計圖形的相互轉(zhuǎn)換復(fù)式條圖和分段條圖的相互轉(zhuǎn)換分段條圖和百分條圖的相互轉(zhuǎn)換帶誤差線的條圖與誤差圖2025年3月19日@文彤老師148線圖、面積圖、點圖與垂線圖案例:分城市比較信心指數(shù)隨時間的變化趨勢基本波動趨勢。北上廣三地的信心指數(shù)變化規(guī)律。三地信心的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 冷庫租憑合同標準文本
- 出資 資源合作合同范例
- 做架子簡易合同標準文本
- 天然氣開采業(yè)的低碳與清潔能源轉(zhuǎn)型考核試卷
- 中國能源總承包合同標準文本
- 辦公裝修工程合同范例
- 催款欠款合同范例
- 供貨合同標準文本知識
- 冷庫用工安全合同標準文本
- 農(nóng)產(chǎn)品招標合同標準文本
- 2024年哈爾濱應(yīng)用職業(yè)技術(shù)學(xué)院高職單招職業(yè)技能測驗歷年參考題庫(頻考版)含答案解析
- 建筑消防設(shè)施維修保養(yǎng)采購申請
- 2024年04月四川國家開發(fā)銀行四川分行春季實習生招考筆試歷年參考題庫附帶答案詳解
- 水利工程安全生產(chǎn)標準化方案
- 2025屆高考英語復(fù)習讀后續(xù)寫練習+男孩與愛犬:失而復(fù)得的溫暖+課件
- 院感競賽試題血源性職業(yè)暴露試題
- 《堅持依法行政》課件
- 2024年人教版初中數(shù)學(xué)八年級下冊 三角形中位線定理-1教案
- 《工程造價指標分類及編制指南》附錄A 房屋建筑工程
- 兒童流感診療及預(yù)防指南(2024醫(yī)生版)
- 竣工結(jié)算審核服務(wù)方案(技術(shù)方案)
評論
0/150
提交評論