統(tǒng)計學(xué)基礎(chǔ)知識培訓(xùn)_第1頁
統(tǒng)計學(xué)基礎(chǔ)知識培訓(xùn)_第2頁
統(tǒng)計學(xué)基礎(chǔ)知識培訓(xùn)_第3頁
統(tǒng)計學(xué)基礎(chǔ)知識培訓(xùn)_第4頁
統(tǒng)計學(xué)基礎(chǔ)知識培訓(xùn)_第5頁
已閱讀5頁,還剩39頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、統(tǒng)計學(xué)基礎(chǔ)知識培訓(xùn),2007年5月,根據(jù)測量尺度數(shù)據(jù)的分類,1999年某公司員工情況明細(xì)表,數(shù)據(jù)的分類,根據(jù)數(shù)據(jù)測量的尺度:分為定類數(shù)據(jù)、定序數(shù)據(jù)、定距數(shù)據(jù)、定比數(shù)據(jù) 根據(jù)描述對象與時間的關(guān)系:分為截面數(shù)據(jù)和時間序列數(shù)據(jù) 根據(jù)統(tǒng)計數(shù)據(jù)的收集方法:分為觀測數(shù)據(jù)和實(shí)驗數(shù)據(jù),4,你想要干什么,一.歸納、描述或者顯示數(shù)據(jù) 二.觀察變量和數(shù)據(jù)的分布 三.比較組間數(shù)據(jù)的不同 四.變量之間顯著性關(guān)系的測度 五.相似數(shù)據(jù)分組的測度 六.相似變量的壓縮測度,結(jié)束,你要?dú)w納整理的是什么類型的數(shù)據(jù),1.已分類數(shù)據(jù)(定類、定序) 2.連續(xù)、數(shù)值型數(shù)據(jù)(定距、定比,返回,你想如何歸納整理數(shù)據(jù),1.分類計算頻數(shù)和百分比

2、2.計算兩分類變量下的頻數(shù)和百分比 3.計算比率值:比率是各不同類別數(shù)值之間的比值,返回,分類變量的圖形及圖表顯示,AnalyzeDescriptive StatisticsFrequencies,返回,兩分類變量數(shù)據(jù)的圖表及圖形顯示,AnalyzeDescriptive StatisticsCrosstabs,返回,比率值的計算及顯示,AnalyzeReportsCase summaries,返回,如何整理連續(xù)數(shù)值型數(shù)據(jù),1.描述連續(xù)數(shù)值型數(shù)據(jù)的統(tǒng)計量及數(shù)據(jù)分組法 2.圖表顯示,返回,連續(xù)數(shù)值型數(shù)據(jù)統(tǒng)計量及數(shù)據(jù)分組法,1.統(tǒng)計量:度量集中趨勢的統(tǒng)計量包括平均數(shù)、幾何平均;度量離散趨勢的統(tǒng)計量

3、包括極差、方差和標(biāo)準(zhǔn)差等。 3.數(shù)據(jù)分組:分組是根據(jù)統(tǒng)計分析的需要,將原始數(shù)據(jù)按照某種標(biāo)準(zhǔn)劃分成不同的組別,形成分組數(shù)據(jù),分組后計算數(shù)據(jù)出現(xiàn)的頻數(shù),形成頻數(shù)分布表,各常用統(tǒng)計量的計算方法,平均值(mean):一組數(shù)據(jù)之和除以數(shù)據(jù)個數(shù); 幾何平均值:用于計算比率的平均,實(shí)際應(yīng)用中,主要用于社會經(jīng)濟(jì)現(xiàn)象的年平均增長率; 極差(Range):也稱全距,是一組數(shù)據(jù)的最大值和最小值之差; 方差:各變量與其均值離差平方的平均數(shù); 標(biāo)準(zhǔn)差(std.Deviation):即是方差的平方根;與方差不同的是,標(biāo)準(zhǔn)差具有與變量值一樣的量綱,實(shí)際的意義要比方差清楚。 SPSS實(shí)現(xiàn):AnalyzeDescriptive

4、 StatisticsDescriptives,數(shù)據(jù)分組法,數(shù)據(jù)分組包括單變量分組和組距分組兩種,單變量適合離散變量分組,一般數(shù)據(jù)都使用組距分組。 數(shù)據(jù)分組的步驟: 1.確定組數(shù),可以按斯特奇斯(Sturges)提出的經(jīng)驗公式來確定組數(shù)K;K=1+lgn/lg2。n為數(shù)據(jù)的個數(shù),對結(jié)果四舍五入即為組數(shù); 2.確定各組的組距。組距是上限與下限的差,組距=(最大值-最小值)/組數(shù); 3.根據(jù)分組整理成頻數(shù)分布表。 分組需要“不重不漏”,因此習(xí)慣上規(guī)定“上組限不在內(nèi)”。若有的值過大,可以設(shè)置開口組。等距分組由于各組的組距相等,各組頻數(shù)分布不受組距大小的影響,可以從頻數(shù)分布中直接觀察頻數(shù)分布的特征和規(guī)

5、律,而不等距分組就必須計算頻數(shù)密度,頻數(shù)密度=頻數(shù)/組距,頻數(shù)密度才能準(zhǔn)確反映頻數(shù)分布的實(shí)際情況,返回,連續(xù)數(shù)值型數(shù)據(jù)的顯示方法,分組數(shù)據(jù)的圖形顯示直方圖 這是406例汽車的馬力的直方圖,50,100,150,200,汽車馬力,0,20,40,60,頻數(shù),未分組數(shù)據(jù)的顯示方法箱線圖 箱線圖是由一組數(shù)據(jù)的5個特征值繪制而成的,它由一個箱子和兩條線段組成,5個特征值為:最大值、最小值、中位數(shù)和兩個四分位,下面是406例產(chǎn)地為美國、歐洲和日本三個地區(qū)的汽車馬力值的箱線圖。歐洲箱線圖有兩個離群點(diǎn),連續(xù)數(shù)值型數(shù)據(jù)的顯示方法,返回,你有何種數(shù)據(jù),1.分類數(shù)據(jù)(定類、定序) 2.連續(xù)數(shù)值型數(shù)據(jù)(定距、定比,

6、返回,分類數(shù)據(jù)分布的統(tǒng)計量指標(biāo),1.集中趨勢:計算眾數(shù)、中位數(shù) 眾數(shù)是一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的變量值; 中位數(shù)是一組數(shù)據(jù)排序后,處于中間位置的變量值 ; 2.離散趨勢:異眾比率、四分位差 異眾比率是指非眾數(shù)組的頻數(shù)占總頻數(shù)的比率,用Vr表示,Vr=(fi-fm)/fi。 四分位差也稱內(nèi)距或者四分間距,計算方法:Qd= QU - Ql。四分位差反映的是50%數(shù)據(jù)的離散程度,其數(shù)值越小,說明中間數(shù)據(jù)越集中,反之,越分散。 3.頻數(shù)分布和百分比,返回,連續(xù)數(shù)值型數(shù)據(jù)分布的統(tǒng)計量指標(biāo),1.集中趨勢:平均值、加權(quán)平均值、算術(shù)平均值 簡單均值就是一組數(shù)據(jù)值之和除以其數(shù)據(jù)個數(shù) ;加權(quán)平均的均值與其各個數(shù)值的

7、個數(shù)有關(guān) ;幾何平均是適用于特殊數(shù)據(jù)的一種平均數(shù),只要用于比率的平均。 2.離散趨勢:極差(全距)、方差、標(biāo)準(zhǔn)差 極差也稱全距,為一組數(shù)最大值減去最小值得到。 方差是各變量值與其均值離差平方的平均數(shù),它是測度數(shù)值型數(shù)據(jù)離散程度的最主要的方法。計算方法:s2=(xi-x平均)/(n-1)。實(shí)際分析問題時,我們常用標(biāo)準(zhǔn)差,標(biāo)準(zhǔn)差為方差開根號。 3.數(shù)據(jù)偏態(tài)與峰態(tài)的測度 偏態(tài)及其測度:計算公式SK=n(xi-x平均值)3/(n-1)(n-2)s3;如果數(shù)據(jù)分布是對稱的,則偏態(tài)系數(shù)為0,如果偏態(tài)系數(shù)明顯不等于0,表明分布是非對稱的;當(dāng)SK為正值時,可以判斷為右偏;當(dāng)SK為負(fù)值時,為左偏。SK越大,說明

8、偏斜的程度就越大。 峰態(tài)及其測度:計算方法:K=n(n+1) (xi-x平均值)4-3(xi-x平均值)22(n-1)/(n-1)(n-2)(n-3)s4。標(biāo)準(zhǔn)正態(tài)分布的峰態(tài)為0,當(dāng)K0時為尖峰分布;當(dāng)K0時為扁平分布,與數(shù)據(jù)分布相關(guān)的測度量總結(jié),常見的數(shù)據(jù)分布正態(tài)分布,在社會經(jīng)濟(jì)問題中,有許多隨機(jī)變量的概率分布服從正態(tài)分布,如身高、體重等。正態(tài)分布記作XN(,), 為隨機(jī)變量X的均值, 為隨機(jī)變量X的標(biāo)準(zhǔn)差。 決定了正態(tài)分布圖形的中心位置, 決定了圖形中峰的陡峭程度, 當(dāng) 較大,圖形較緩,當(dāng) 較小,圖形趨于陡峭。 所有的正態(tài)分布均能通過Z=(X- )/ 化成標(biāo)準(zhǔn)正態(tài)分布XN(0,1)(均數(shù)為

9、0,方差為1)。 隨機(jī)變量X處在一個正負(fù)一個之內(nèi)的概率為68.26%;2個之內(nèi)的概率為95.45%; 3個之內(nèi)的概率為99.73,返回,你要比較什么類型的數(shù)據(jù),1.分類數(shù)據(jù)(定比、定序) 2.已分組的連續(xù)數(shù)值型數(shù)據(jù)(定距、定比,返回,應(yīng)用列聯(lián)分析解決分類數(shù)據(jù)的組間比較,頻數(shù)分布表每次只能描述一個變量的情況,而列聯(lián)表是由兩個以上的變量進(jìn)行交叉分類的頻數(shù)分布表,是反映兩個或多個變量聯(lián)合分布的表格??捎糜诟鹘M比例值是否一在列聯(lián)表中,可以計算以列合計為基數(shù)的列百分比或以行合計為基數(shù)的行百分比??ǚ浇y(tǒng)計量提供對列聯(lián)表中觀察到的聯(lián)系的統(tǒng)計顯著性檢驗(擬合優(yōu)度和變量聯(lián)系),通過系數(shù)、列聯(lián)系數(shù)、Cramers

10、 V和系數(shù)測量變量關(guān)系強(qiáng)度的指標(biāo),Analyze-Descritives-Crosstabs,舉例說明,某公司為了提高市場占有率,某行業(yè)有兩個主要的競爭對手,A和B公司同時開展了廣告宣傳。在廣告宣傳之前,A公司的市場占有率為45%,B公司市場占有率為40%,其它公司為15%。廣告戰(zhàn)后,隨機(jī)抽取了200名消費(fèi)者,其中102人準(zhǔn)備買A公司產(chǎn)品,82人買B公司產(chǎn)品,另外有16人準(zhǔn)備買其它公司產(chǎn)品。問以廣告戰(zhàn)前后各公司市場占有率是否發(fā)生了變化,檢驗觀察值和期望值的擬合優(yōu)度:計算卡方值為8.18,而顯著性0.05、自由度為2時的卡方值5.99,因此說明占有率發(fā)生了顯著的變化,舉例說明,列聯(lián)表格的卡方檢驗

11、還用于判斷兩個分類變量之間是否存在聯(lián)系的問題中。 一種原料來自不同的地區(qū),原材料質(zhì)量被分為三個不同的等級。從這批原料中隨機(jī)抽取500件進(jìn)行檢驗,結(jié)果如下表,計算卡方值為19.82大于顯著性為0.05、自由度為4的的卡方值為9.488,所以地區(qū)和原材料等級之間存在依賴關(guān)系,原材料的質(zhì)量受地區(qū)影響。存在關(guān)系的假設(shè)成立,可以計算系數(shù)、列聯(lián)系數(shù)Cramers V和系數(shù)測量變量關(guān)系強(qiáng)度的指標(biāo),返回,你想要比較多少組數(shù)據(jù)或多少個變量,1.一組數(shù)據(jù)或變量與一個已知數(shù)值進(jìn)行比較 2.兩組數(shù)據(jù)或變量 3.三組或者三個以上變量,返回,應(yīng)用單樣本T檢驗檢驗一組數(shù)據(jù)或變量與一已知數(shù)值是否相等,工作中經(jīng)常碰到根據(jù)已有的

12、知識或者給定的標(biāo)準(zhǔn)對單個變量做出結(jié)論,比如新產(chǎn)品的份額是否超過了15%等。這樣的問題就可以轉(zhuǎn)化為通過單樣本T檢驗進(jìn)行檢驗的零假設(shè)。單樣本T檢驗檢驗的是抽樣總體均值是否與給定假設(shè)一致。根據(jù)樣本計算得出的T統(tǒng)計量值與給定的0.05顯著性水平下的臨界值進(jìn)行比較,從而得出結(jié)論。 SPSS實(shí)現(xiàn):Analyze-Compare Means-One Sample T Test,返回,你的數(shù)據(jù)是如何組織起來的,1.分成兩不相關(guān)組的一個連續(xù)數(shù)值型變量 2.具有相關(guān)關(guān)系的兩連續(xù)數(shù)值型變量,返回,你想要進(jìn)行何種獨(dú)立的樣本檢驗,步驟:1.首先檢測變量是否服從正態(tài)分布,方法為通過Graphs-Interactive-H

13、istogram(直方圖)進(jìn)行觀察 2.如果變量服從正態(tài)分布,那么應(yīng)用獨(dú)立樣本T檢驗進(jìn)行兩樣本均數(shù)的比較:Analyze-Compare Means-Independent Samples T Test 3.如果變量不服從正態(tài)分布,那么應(yīng)用非參數(shù)雙獨(dú)立樣本檢驗進(jìn)行兩獨(dú)立樣本所在總體分布是否相同的檢驗:Analyze-Nonparametric Tests-2 Independent Samples,返回,你想要何種配對樣本的檢驗,步驟:1.同樣通過直方圖觀察變量是否服從正態(tài)分布; 2.如果服從正態(tài)分布,那么應(yīng)用配對樣本的T檢驗進(jìn)行配對設(shè)計的差值均數(shù)與總體均數(shù)0進(jìn)行比較:Analyze-Comp

14、are Means-Paired Samples T Test. 3.如果不服從正態(tài)分布,那么應(yīng)用雙相關(guān)樣本檢驗:Analyze-Nonparametric Tests-2 Related Samples,返回,方差分析(ANOVA,前面介紹的方法均為一個因素水平下,兩組數(shù)據(jù)的比較方法,當(dāng)一個因素水平下,有三個或者三個以上的組別時,就需要用到方差分析。方差分析適用于兩組或者兩組以上均值差異的檢驗。方差分析必須有一個定量(定距或定比尺度)的因變量,以及一個或者多個自變量(定類),定類自變量稱為因子,一個因子成為單因子方差分析,若有n個自變量,成為n因子方差分析。其原理為通過對數(shù)據(jù)誤差來源的分析來

15、判斷不同總體的均值是否相同。 方差分析的3個基本假定:1.每個總體都應(yīng)該服從正態(tài)分布;2.各個總體的方差2 ;3.觀測值是相互獨(dú)立的。 SPSS實(shí)現(xiàn):AnalyzeCompare MeansOne-Way ANOVA,舉例說明,下表為一年內(nèi),四個行業(yè)抽取的樣本企業(yè)投訴次數(shù)表,問這幾個行業(yè)之間的服務(wù)質(zhì)量是否有顯著性差異,下表為方差分析的結(jié)果表,從F統(tǒng)計量值為3.4066大于給定0.05水平下的F分布的臨界值3.1273,應(yīng)該拒絕原假設(shè),說明各個行業(yè)的投訴之間的差異是顯著的,返回,你有什么樣的數(shù)據(jù),1.分類數(shù)據(jù)(定類、定序) 2.定序、等級順序、或者非參數(shù)連續(xù)性數(shù)據(jù) 3.連續(xù)數(shù)值型數(shù)據(jù)(定距、定比

16、,返回,分類數(shù)據(jù)(定類、定序,應(yīng)用前面講過的列聯(lián)分析,卡方對獨(dú)立性進(jìn)行檢驗,進(jìn)而計算通過系數(shù)、列聯(lián)系數(shù)、Cramers V和系數(shù)測量變量關(guān)系強(qiáng)度的指標(biāo),返回,定序、等級順序、或者非參數(shù)連續(xù)性數(shù)據(jù),計算Spearman相關(guān)系數(shù)和Kendalls tau-b相關(guān)系數(shù),看兩變量的關(guān)系的密切程度。計算排序的相關(guān)系數(shù)又稱秩相關(guān)或者等級相關(guān),記作r。當(dāng)|r|0.3,視為不相關(guān);當(dāng)0.3|r|0.5,視為低度相關(guān);0.5|r|0.8,視為中度相關(guān);|r|0.8,視為高度相關(guān)。 SPSS實(shí)現(xiàn):Analyze-Correlate-Bivariate選Spearman相關(guān)系數(shù)和Kendalls tau-b相關(guān)系數(shù)

17、,返回,連續(xù)數(shù)值型數(shù)據(jù)(定距、定比,1.兩變量:計算Pearson相關(guān)系數(shù)來度量兩變量關(guān)系的密切程度,記作r。當(dāng)|r|0.3,視為不相關(guān);當(dāng)0.3|r|0.5,視為低度相關(guān);0.5|r|0.8,視為中度相關(guān);|r|0.8,視為高度相關(guān)。 SPSS實(shí)現(xiàn)Analyze-Correlate-Bivariate選擇Pearson項。 2.控制了一個或者兩個的其他其變量的影響之后兩變量的相關(guān),為偏相關(guān),也記作r。 Spss實(shí)現(xiàn)Analyze- Correlate-Partial選擇要分析的兩變量進(jìn)入要分析的變量框;選擇要控制的變量進(jìn)入要控制的變量框,測度變量的因果關(guān)系回歸分析,前面介紹的數(shù)值型變量的相關(guān)

18、系數(shù)或者偏相關(guān)系數(shù)主要了解兩變量關(guān)系的密切程度,而回歸分析主要度量一個因變量,與一個、兩個或兩個以上的自變量的數(shù)量伴隨關(guān)系,是測度因變量和自變量的因果關(guān)系的方法?;貧w分為線性回歸和曲線回歸。以一元線性回歸為例:其回歸方程形式為y=ax+b。回歸直線的擬和優(yōu)度的測度應(yīng)用的是判定系數(shù),判定系數(shù)說明了因變量的數(shù)據(jù)變動中,有多少是由自變量的的變動所決定的。而估計標(biāo)準(zhǔn)誤用于測度各實(shí)際觀測點(diǎn)在直線周圍的分散程度,其越小,說明回歸直線對各觀測點(diǎn)代表性好,反之則代表性差。另外還用F檢驗檢驗線性關(guān)系的顯著性。應(yīng)用T檢驗檢驗回歸系數(shù)的顯著性檢驗,檢驗自變量對因變量的影響是否顯著。 SPSS實(shí)現(xiàn):Analyze-R

19、egression-Linear,返回,你有什么類型的數(shù)據(jù),1.連續(xù)數(shù)值型數(shù)據(jù)(定距、定比) 2.分類數(shù)據(jù)(定類、定序,返回,你想要判別分組還是判別已知組的特征,1.判別分組,應(yīng)用聚類分析。聚類分析是一組將研究對象分成相對同質(zhì)的群組的統(tǒng)計分析技術(shù),不區(qū)分自變量和因變量。聚類分析的主要目的是根據(jù)聚類變量將對象分成相對同質(zhì)的群組。某一組的內(nèi)部成員更加相似,與其它組的成員不同。 當(dāng)數(shù)據(jù)量小于200時,應(yīng)用系統(tǒng)聚類分析將數(shù)據(jù)分組,Analyze-Classify-Hierarchical Cluster; 當(dāng)大于200個數(shù)據(jù)時應(yīng)用K均數(shù)聚類法,又稱快速聚類法,Analyze-Classify-K-means Cluster,已知分組的判別,2.判別已知組的特征應(yīng)用判別分析。 判別分析是一種數(shù)據(jù)分析技術(shù),適用于標(biāo)準(zhǔn)變量或因變量為定類數(shù)據(jù),預(yù)測變量或者自變量為定距(或者定比數(shù)據(jù))的情況。就像醫(yī)生看病的判斷過程一樣,有各種各樣的病癥的癥狀、檢測結(jié)果值

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論