版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第九章調(diào)查資料的統(tǒng)計(jì)分析本章結(jié)構(gòu)推論統(tǒng)計(jì)3.多元統(tǒng)計(jì)4.常用統(tǒng)計(jì)分析軟件簡(jiǎn)介5.描述統(tǒng)計(jì)2.概述1.調(diào)查結(jié)果的展示6.第一節(jié)概述市場(chǎng)調(diào)查數(shù)據(jù)的計(jì)量尺度定類尺度(nominalscale)按照某種屬性把事物進(jìn)行分類,是判斷“屬于/不屬于”的基準(zhǔn)。如性別分為男和女兩類,可以用編號(hào)1表示男,2表示女。定序尺度(ordinalscale)不僅能將事物分成不同的類別,還可以確定這些類別的優(yōu)劣或順序,是判斷“A比B…”的基準(zhǔn)。如文化程度分為大專及以上、高中、初中和小學(xué)及以下四類,可以分別編號(hào)為4、3、2、1。定距尺度(intervalscale)不僅能將事物分成不同類別并進(jìn)行排序,還可以準(zhǔn)確地計(jì)量它們間的差距。如考試成績(jī),90分比80分高10分。定比尺度(ratioscale)除具有以上三種尺度的所有特性外,還具有“絕對(duì)零點(diǎn)”。例如收入,0表示“沒有收入”(稱為“絕對(duì)零點(diǎn)”),這時(shí)不僅可以說1000元比800元多200元,還可以說1000元是500元的2倍。定性數(shù)據(jù)定量數(shù)據(jù)數(shù)據(jù)的四種計(jì)量尺度及其適用統(tǒng)計(jì)方法的比較
類型尺度基本性質(zhì)市場(chǎng)調(diào)查案例適用的統(tǒng)計(jì)方法描述統(tǒng)計(jì)方法推論統(tǒng)計(jì)方法定性數(shù)據(jù)定類尺度表明對(duì)象或其類別的數(shù)字性別,品牌,商店比例,眾數(shù)檢驗(yàn),二項(xiàng)式檢驗(yàn)定序尺度表示對(duì)象的相對(duì)位置,但不能表示差異大小的數(shù)字偏好排序,在市場(chǎng)中的位次,社會(huì)層次比例,眾數(shù),中位數(shù)順序相關(guān)系數(shù),F(xiàn)riedmanANOVA定量數(shù)據(jù)定距尺度可以比較對(duì)象間的差異,但不存在絕對(duì)零點(diǎn)態(tài)度,意見中位數(shù),全距,均值,標(biāo)準(zhǔn)差相關(guān)系數(shù),t檢驗(yàn),ANOVA,回歸,因子分析定比尺度存在絕對(duì)零點(diǎn),可以計(jì)算對(duì)象間的比率年齡、收入、成本、銷售量、市場(chǎng)份額全距,均值,標(biāo)準(zhǔn)差,幾何均值,調(diào)和均值變異系數(shù)9.1概述市場(chǎng)調(diào)查統(tǒng)計(jì)分析方法類型描述統(tǒng)計(jì)分析即將數(shù)據(jù)以表格、圖形或數(shù)值形式表現(xiàn)出來主要著重于對(duì)數(shù)量水平或其他特征的描述,但不具有推斷性質(zhì)。推論統(tǒng)計(jì)分析即通過樣本推斷總體。這類方法對(duì)數(shù)據(jù)的收集方法、變量的選擇、測(cè)度的決定、資料的時(shí)間空間范圍有嚴(yán)格限制,必須符合嚴(yán)格的假設(shè)條件。其結(jié)果不僅可用于描述數(shù)量關(guān)系,還可以推斷總體,進(jìn)行預(yù)測(cè),揭示原因以及檢驗(yàn)理論等。描述統(tǒng)計(jì)分析案例推論統(tǒng)計(jì)分析案例采用簡(jiǎn)單隨機(jī)抽樣方法從甲乙兩學(xué)校各自抽取100位學(xué)生,甲學(xué)校樣本在體育鍛煉上平均每周花費(fèi)時(shí)間為120分,樣本標(biāo)準(zhǔn)差為30,乙學(xué)校樣本在體育鍛煉上平均每周花費(fèi)時(shí)間為110分,標(biāo)準(zhǔn)差為10,兩個(gè)學(xué)校的學(xué)生在平均每周體育鍛煉時(shí)間上有沒有顯著差異?
甲班乙班第二節(jié)描述統(tǒng)計(jì)分析定量數(shù)據(jù)描述統(tǒng)計(jì)分析2.定性數(shù)據(jù)描述統(tǒng)計(jì)分析
1.數(shù)值表示圖表、圖示數(shù)值表示圖示表示多變量相關(guān)與回歸分析3.定性數(shù)據(jù)定量數(shù)據(jù)案例數(shù)據(jù)(表9-2某公司30名職工數(shù)據(jù))員工號(hào)受教育年數(shù)(年)職位年薪(元)工作資歷員工號(hào)受教育年數(shù)(年)職位年薪(元)工作資歷114030150116120171002216036600117120252002380177001182016925024120261001191502670025121594001201203090026161472501211804395027150370501221203150028150277501231704020039151387001241504110031016040350125160348003111203390012612030900312120199501271919200031319152125128191110625314161402002291911350003158019800230120262503定性數(shù)據(jù)職位:0表示一般職員,1表示管理者工作資歷:1表示工作年限低于5年;2表示工作年限在6-10年;3表示工作年限大于10年定量數(shù)據(jù)受教育年數(shù)(年)年薪(元)一、定性數(shù)據(jù)描述統(tǒng)計(jì)分析——頻數(shù)分布表
頻數(shù)分布表:頻數(shù)分布是數(shù)據(jù)的表格匯總,表示在幾個(gè)互不重疊的組別中每一組項(xiàng)目的頻數(shù)和百分比。頻數(shù)百分比累計(jì)百分比工作年限低于5年1343.33%43.33%工作年限在6-10年930.00%73.33%工作年限大于10年826.67%100.00%總計(jì)30100.00%一、定性數(shù)據(jù)描述統(tǒng)計(jì)分析——圖示
餅圖:以圓的整體面積代表被研究現(xiàn)象的總體,按各構(gòu)成部分占總體比重的大小把圓面積分割成若干扇形來表現(xiàn)部分與總體的比例關(guān)系。餅圖一般只能用于單選問題。餅圖不能切成太多的部分,一般不要超過7部分。某城市商品房住戶人均居住面積餅圖
一、定性數(shù)據(jù)描述統(tǒng)計(jì)分析——圖示
線圖又稱曲線圖,即利用線段的升降來說明現(xiàn)象的變動(dòng)情況,主要用于表示現(xiàn)象在時(shí)間上的變化趨勢(shì)、現(xiàn)象的分配情況和兩個(gè)現(xiàn)象之間的依存關(guān)系。包括簡(jiǎn)單線圖和復(fù)合線圖。一、定性數(shù)據(jù)描述統(tǒng)計(jì)分析——圖示
條形圖:是利用相同寬度的條形的長(zhǎng)短或高低來表現(xiàn)數(shù)據(jù)的大小與變動(dòng)。如果條形圖橫排,也可稱為帶形圖,縱排也可稱為柱形圖。表現(xiàn)各種不同數(shù)值資料相互對(duì)比的結(jié)果。條形圖可分為簡(jiǎn)單條形圖和復(fù)合條形圖。一、定性數(shù)據(jù)描述統(tǒng)計(jì)分析——數(shù)值表示
眾數(shù)(mode)表示一組資料或資料中出現(xiàn)次數(shù)最多或最常見的數(shù)值。在市場(chǎng)調(diào)查資料中,眾數(shù)代表了最典型的個(gè)案,或分布的高峰所對(duì)應(yīng)的變量值。例如,在A、B、C、D四個(gè)品牌中,最受消費(fèi)者偏愛的是品牌D,那么品牌D或品牌D所對(duì)應(yīng)的編碼(變量值)就是眾數(shù)。眾數(shù)簡(jiǎn)單直觀,主要用于描述定類變量的中心;但是眾數(shù)可能會(huì)因?yàn)橘Y料中個(gè)別值的變化而有較大的變化,因而是很不穩(wěn)定的。EXCEL中計(jì)算眾數(shù)的函數(shù)為:MODE(區(qū)域)一、定性數(shù)據(jù)描述統(tǒng)計(jì)分析——數(shù)值表示
中位數(shù)(median)表示一組資料按照大小的順序排列時(shí)中間位置的那個(gè)數(shù)值。有50%的個(gè)案(按某個(gè)變量)的取值在中位數(shù)之下,50%在它之上。中位數(shù)實(shí)際上就是一個(gè)50百分位數(shù)。例如,在某市的調(diào)查中13個(gè)商場(chǎng)一周的營(yíng)業(yè)額(X)按從小到大的順序排列為(萬元):
23,35,47,59,88,102,145,198,230,256,278,345,388
中位數(shù)主要適用于順序變量,對(duì)極端值不敏感。EXCEL中計(jì)算中位數(shù)的函數(shù)為:MEDIAN(區(qū)域)
二、定量數(shù)據(jù)描述統(tǒng)計(jì)分析——直方圖
直方圖:先把定量數(shù)據(jù)分組;把研究的變量放在橫軸,每組的頻數(shù)或百分比放在縱軸;每組的頻數(shù)或百分比用一個(gè)長(zhǎng)方形繪制,長(zhǎng)方形的底是組寬,高是每組相應(yīng)的頻數(shù)或百分比。定量數(shù)據(jù)的數(shù)值表示表9-4EXCEL對(duì)公司員工年薪的描述分析描述集中趨勢(shì)描述離散趨勢(shì)描述對(duì)稱和偏斜程度年薪平均42750標(biāo)準(zhǔn)誤差4927.011中位數(shù)35700眾數(shù)40200標(biāo)準(zhǔn)差26986.35方差7.28E+08峰度4.815795偏度2.169985區(qū)域117900最小值17100最大值135000求和1282500觀測(cè)數(shù)30定量數(shù)據(jù)的數(shù)值表示
集中趨勢(shì)分析:就是確定數(shù)據(jù)一般水平的代表值或中心值,常用的指標(biāo)有三種,即平均數(shù)、中位數(shù)和眾數(shù)。平均數(shù),也稱為均值(mean),等于變量值之和除于個(gè)案數(shù)。平均數(shù)是最典型的也是最常用的統(tǒng)計(jì)量,適用于等距的和等比率的變量。平均數(shù)也是最“有意義”的統(tǒng)計(jì)量,它可以看成是資料的“平衡點(diǎn)”或“中心”位置所在。由于平均數(shù)的計(jì)算需要用到所有的資料,因此與中位數(shù)和眾數(shù)相比,它所含的訊息量最大。但是平均數(shù)對(duì)個(gè)別極端值的變化會(huì)是很敏感的。
定量數(shù)據(jù)的數(shù)值表示——離散趨勢(shì)分析除了用上述典型的統(tǒng)計(jì)量描述分布的中心位置外,還要用一些統(tǒng)計(jì)量描述分布圍繞中心向兩個(gè)方向分散(伸展)的程度。
方差和標(biāo)準(zhǔn)差:反映所有觀測(cè)值對(duì)均值的離散關(guān)系。方差或標(biāo)準(zhǔn)差越大,均值的代表性越差。EXCEL中方差和標(biāo)準(zhǔn)差的計(jì)算函數(shù)為:VAR(區(qū)域)和STDEV(區(qū)域)定量數(shù)據(jù)的數(shù)值表示——離散趨勢(shì)分析四分位差(interquartilerange)
將一組數(shù)據(jù)從小到大排列后,用3個(gè)四分位數(shù)點(diǎn)()將其分為四個(gè)相等的部分,第一個(gè)四分位數(shù)點(diǎn)是第25百分位數(shù)點(diǎn),又叫下四分位數(shù)點(diǎn);第二個(gè)四分位數(shù)點(diǎn)是第50百分位數(shù)點(diǎn),即中位數(shù);第三個(gè)四分位數(shù)點(diǎn)是第75百分位數(shù)點(diǎn),又叫上四分位數(shù)點(diǎn)。上四分位數(shù)點(diǎn)與下四分位數(shù)點(diǎn)之間的距離即為四分位差,記為QD。EXCEL中計(jì)算四分位數(shù)的函數(shù)為:QUARTILE(區(qū)域,i),i=0,1,2,3,4。定量數(shù)據(jù)的數(shù)值表示——離散趨勢(shì)分析變異系數(shù)(coefficientofvariation)也稱為離散系數(shù),即標(biāo)準(zhǔn)差與均值的比值,主要用于不同類別數(shù)據(jù)離散程度的比較。變異系數(shù)消除了測(cè)度單位和觀測(cè)值水平不同的影響,因而可以直接用來比較數(shù)據(jù)的離散程度。全距(Range)也稱極差,是一組數(shù)據(jù)中最大與最小值之差
R=Max(xi)–Min(xi)
定量數(shù)據(jù)的數(shù)值表示——偏度(Skewness)與偏度是指數(shù)據(jù)分布的偏斜方向和程度。偏態(tài)系數(shù)的計(jì)算公式為:EXCEL中計(jì)算偏度的函數(shù)為SKEW(區(qū)域)
α3為0時(shí),表明分布是對(duì)稱的;若為正值,說明正偏離的差值較大,分布為正偏或右偏;若為負(fù)值,說明分布為負(fù)偏或左偏。α3的絕對(duì)值越大,分布的偏斜程度越大。定量數(shù)據(jù)的數(shù)值表示——峰度(Kurtosis)分析
峰度是指分布集中趨勢(shì)高峰的形狀,若分布的形狀比比標(biāo)準(zhǔn)正態(tài)分布更瘦更高,稱為尖峰分布。相反,若更扁平,稱為平峰分布。
峰度系數(shù),其計(jì)算公式為:當(dāng)α4>0時(shí)為尖峰分布,α4<0時(shí)為平峰分布。
EXCEL中計(jì)算峰度系數(shù)的函數(shù)為KURT(區(qū)域)。例題:分析下列分布的峰度和偏度?三、多變量相關(guān)與回歸分析——定性數(shù)據(jù)定性變量間的相關(guān)分析交叉列聯(lián)表分析
定量變量間的相關(guān)分析散點(diǎn)圖(Scatterdiagram)相關(guān)系數(shù)(Coefficientofcorrelation)回歸分析(regression)定性變量間的相關(guān)分析——交叉列聯(lián)表分析交叉列聯(lián)表分析是同時(shí)描述兩個(gè)或兩個(gè)以上變量聯(lián)合分布的統(tǒng)計(jì)技術(shù)。進(jìn)行交叉列聯(lián)分析的變量必須是離散變量,并且只能有有限個(gè)取值,否則要進(jìn)行分組。
兩變量的交叉列聯(lián)分析列聯(lián)表可以清楚地表示兩個(gè)類別變量之間的相互關(guān)系。
居住時(shí)間與對(duì)百貨商場(chǎng)的熟悉程度的交叉列聯(lián)分析
單位:頻數(shù)
熟悉程度居住時(shí)間
13年以下13-30年30年以上合計(jì)不熟悉453455134熟悉525327132合計(jì)978782266居住時(shí)間與對(duì)百貨商場(chǎng)的熟悉程度的交叉列聯(lián)分析
單位:%
熟悉程度居住時(shí)間13年以下13-30年30年以上不熟悉46.439.167.1熟悉53.660.932.9合計(jì)100.0100.0100.0列百分比居住時(shí)間與對(duì)百貨商場(chǎng)的熟悉程度的交叉列聯(lián)分析
單位:%
熟悉程度居住時(shí)間
13年以下13-30年30年以上行合計(jì)不熟悉33.625.441.0100.0熟悉39.440.120.5100.0行百分比比較上面兩個(gè)表,你選擇哪種百分比?建議:對(duì)自變量取百分比自變量為列變量,取列百分比自變量為行變量,取行百分比使用電腦的程度與年齡成反比
不同文化程度的公眾在工作中使用電腦的情況
三變量的交叉列聯(lián)表分析引入第三變量后再進(jìn)行交叉列聯(lián)分析,則可能出現(xiàn)以下四種結(jié)果:剔除外部環(huán)境的影響,使原先兩變量間的關(guān)系更單純。否定原先兩變量間的關(guān)系。盡管原先觀察兩變量間沒有關(guān)系,第三變量的引入可能揭示了它們之間的一些聯(lián)系。沒有影響。例1:婚姻狀況和衣服支出水平衣服支出水平婚姻狀況已婚未婚高31%52%低69%48%合計(jì)100%100%個(gè)案數(shù)700300性別、婚姻狀況和衣服支出水平衣服支出水平性別男女婚姻狀況婚姻狀況已婚未婚已婚未婚高35%40%25%60%低65%60%75%40%合計(jì)100%100%100%100%個(gè)案數(shù)400120300180婚姻狀況和衣服支出水平僅分析婚姻狀況和衣服支出水平這兩個(gè)變量時(shí),從數(shù)字上看未婚者在衣服支出方面比已婚者更高一些。但引入變量性別以后,發(fā)現(xiàn)對(duì)于男性來說,已婚者與未婚者在衣服支出方面沒有顯著差異,但對(duì)于女性未婚者與已婚者,在衣服支出方面的差異則很明顯
私家車受教育水平本科及以上本科以下有32%21%沒有68%79%合計(jì)100%100%個(gè)案數(shù)250750例2:受教育水平對(duì)私家車擁有狀況的交叉列聯(lián)分析收入、受教育水平對(duì)私家車擁有狀況的交叉列聯(lián)分析
私家車收入低高受教育水平受教育水平本科及以上本科以下本科及以上本科以下有20%20%40%40%沒有80%80%60%60%合計(jì)100%100%100%100%個(gè)案數(shù)10070015050例3:年齡和出國(guó)旅行欲望的交叉列聯(lián)分析
是否希望出國(guó)旅行年齡45歲以下45歲及以上是50%50%不是50%50%合計(jì)100%100%個(gè)案數(shù)500500性別、年齡和出國(guó)旅行的欲望進(jìn)行交叉列聯(lián)分析
是否希望出國(guó)旅行性別男女年齡年齡45歲以下45歲及以上45歲以下45歲及以上是60%40%35%65%不是40%60%65%35%合計(jì)100%100%100%100%個(gè)案數(shù)300300200200例4:家庭規(guī)模對(duì)是否經(jīng)常吃快餐的交叉列聯(lián)分析
是否經(jīng)常吃快餐家庭規(guī)模小大是65%65%不是35%35%合計(jì)100%100%個(gè)案數(shù)500500
家庭收入和家庭規(guī)模對(duì)是否經(jīng)常吃快餐的交叉列聯(lián)分析
是否經(jīng)常吃快餐收入低高家庭規(guī)模家庭規(guī)模小大小大是65%65%65%65%不是35%35%35%35%合計(jì)100%100%100%100%個(gè)案數(shù)500500500500定量變量間的相關(guān)分析
吸煙與否與患肺癌與否?收入與消費(fèi)?納稅人年齡與稅款數(shù)量?孕婦飲酒量與嬰兒體重?農(nóng)作物采光量與生長(zhǎng)?相關(guān)分析的一般步驟由數(shù)據(jù)看變量有關(guān)系嗎?如果有關(guān)系,變量間關(guān)系有多強(qiáng)?總體中是否也有此關(guān)系?此關(guān)系是否因果關(guān)系?相關(guān)分析
——散點(diǎn)圖散點(diǎn)圖:以一個(gè)變量為橫軸,另一個(gè)變量為縱軸,每個(gè)觀測(cè)單元根據(jù)兩個(gè)變量的取值為坐標(biāo)以點(diǎn)的形式出現(xiàn)在圖形中??梢灾庇^地看出變量間的關(guān)系形態(tài)及聯(lián)系程度。線性相關(guān)和非線性相關(guān)正相關(guān)和負(fù)相關(guān)勞動(dòng)生產(chǎn)率與利潤(rùn)總額散點(diǎn)圖
云南內(nèi)蒙相關(guān)分析
——相關(guān)系數(shù)
相關(guān)系數(shù)描述兩數(shù)值變量之間線性相關(guān)的方向和強(qiáng)度.又稱PEARSON相關(guān)系數(shù)相關(guān)系數(shù)通常用符號(hào)
r表示相關(guān)關(guān)系的測(cè)度
樣本相關(guān)系數(shù)的計(jì)算公式或化簡(jiǎn)為相關(guān)關(guān)系的測(cè)度
r
的取值范圍是[-1,1]|r|=1,為完全相關(guān)r=1,為完全正相關(guān)r=-1,為完全負(fù)相關(guān)
r=0,不存在線性相關(guān)關(guān)系-1r<0,為負(fù)相關(guān)0<r1,為正相關(guān)|r|越趨于1表示關(guān)系越密切;|r|越趨于0表示關(guān)系越不密切相關(guān)系數(shù)取值及其意義-1.0+1.00-0.5+0.5完全負(fù)相關(guān)無線性相關(guān)完全正相關(guān)負(fù)相關(guān)程度增加r正相關(guān)程度增加相關(guān)系數(shù)若|r|≥0.8,則認(rèn)為和高度相關(guān);若0.5≤|r|<0.8,則認(rèn)為和中度相關(guān);若0.3≤|r|<0.5,則認(rèn)為和低度相關(guān);若|r|<0.3,則認(rèn)為和之間的相關(guān)程度極弱,可視為不相關(guān)。使用相關(guān)系數(shù)的注意事項(xiàng)r
=0只表示和之間不存在線性相關(guān)關(guān)系,并不是說和之間不存在任何關(guān)系,它們間可能存在非線性關(guān)系。r大小可能受極端值的影響,不能準(zhǔn)確度量變量間的關(guān)系,例如多數(shù)觀察值存在線性相關(guān),但個(gè)別極端值使數(shù)據(jù)呈非線性相關(guān)。r所表現(xiàn)的相關(guān)程度同樣本數(shù)據(jù)的時(shí)間范圍有很大關(guān)系,在不同時(shí)間段,變量間的相關(guān)性可能不同。r用樣本數(shù)據(jù)計(jì)算的帶有一定隨機(jī)性,尤其樣本量較少時(shí),可能出現(xiàn)虛假相關(guān)。因此,實(shí)際應(yīng)用時(shí),必須對(duì)它的顯著性進(jìn)行檢驗(yàn)。
斯皮爾曼(spearman)相關(guān)系數(shù)
定序變量等級(jí)相關(guān)程度
取值范圍在-1和+1之間
定量變量間的回歸分析回歸分析是用來分析一個(gè)或一個(gè)以上自變量與因變量間的數(shù)量關(guān)系,以了解當(dāng)自變量為某一水準(zhǔn)或數(shù)量時(shí),因變量反應(yīng)的數(shù)量或水準(zhǔn)線性回歸模型的一般步驟建立理論模型收集數(shù)據(jù)散點(diǎn)圖、相關(guān)系數(shù)分析模型的參數(shù)估計(jì)模型檢驗(yàn)?zāi)P偷膽?yīng)用回歸分析案例引用表9-2的數(shù)據(jù),以年薪為因變量,受教育年限和職位為自變量,擬合二元線性回歸模型。
判定系數(shù)r2:反應(yīng)回歸直線的擬和程度方差分析(F)檢驗(yàn):回歸方程的顯著性檢驗(yàn)t檢驗(yàn):回歸系數(shù)的顯著性檢驗(yàn)案例分析回歸系數(shù)的含義:在相同的職位上,受教育年限(edu)每增長(zhǎng)1年,年薪平均增長(zhǎng)3669元;相同受教育年限的條件下,管理者(position=1)的年薪比一般職員(position=0)平均增長(zhǎng)27144.47元。判定系數(shù)(AdjustedRSquare)=0.605表示受教育年限和職位可以解釋年薪的60.5%的信息方差分析檢驗(yàn)P-value小于0.05,表明方程通過了顯著性檢驗(yàn),受教育年限和職位對(duì)年薪有顯著的線性影響。受教育年限的t檢驗(yàn)P-value小于0.05,表明受教育年限都對(duì)年薪有顯著的線性影響。職位的t檢驗(yàn)P-value小于0.05,表明職位對(duì)年薪有顯著的線性影響。第三節(jié)推論統(tǒng)計(jì)根據(jù)樣本的信息,對(duì)總體的分布以及分布的數(shù)字特征進(jìn)行統(tǒng)計(jì)推斷,即推論統(tǒng)計(jì)分析。推論統(tǒng)計(jì)的前提要求是,樣本是隨機(jī)抽樣而來的,對(duì)總體有一定的代表性。
參數(shù)估計(jì)1.假設(shè)檢驗(yàn)2.方差分析3.推論統(tǒng)計(jì)——參數(shù)估計(jì)從公司所有員工中利用有放回簡(jiǎn)單隨機(jī)抽樣方法抽取30個(gè)員工,年薪的樣本均值=42750元,如何估算該公司所有員工的平均年薪呢?公司所有員工的平均年薪:總體參數(shù),是一個(gè)未知的常數(shù);樣本員工的平均年薪稱為統(tǒng)計(jì)量(用于估計(jì)的統(tǒng)計(jì)量也稱為估計(jì)量),由于統(tǒng)計(jì)量對(duì)于不同的樣本取值不同,所以估計(jì)量是隨機(jī)變量。42750元是估計(jì)量的一個(gè)實(shí)現(xiàn)值,也稱為估計(jì)值。點(diǎn)估計(jì)點(diǎn)估計(jì)量的選擇無偏性:如果大量重復(fù)抽取樣本,這些樣本的估計(jì)值的均值漸近于總體均值。有效性:如果大量重復(fù)抽取樣本,這些樣本估計(jì)值的方差在所有無偏估計(jì)量中最小。估計(jì)量的方差和標(biāo)準(zhǔn)差用于衡量估計(jì)量的誤差,所以又稱為估計(jì)誤差和標(biāo)準(zhǔn)誤差。如表9-4估計(jì)出均值估計(jì)量的標(biāo)準(zhǔn)誤差=4927.011元。區(qū)間估計(jì)區(qū)間估計(jì):可以提供點(diǎn)估計(jì)與總體參數(shù)值的接近程度的信息。一定置信度的置信區(qū)間的形式一般為:點(diǎn)估計(jì)±邊際誤差置信度一般取值為95%:表示是指大量重復(fù)抽樣時(shí),產(chǎn)生的大量類似區(qū)間中有的包含總體參數(shù)值,有的不包含總體參數(shù)值;但其中大約有95%的區(qū)間會(huì)包含總體參數(shù)值。邊際誤差則取決于估計(jì)量形式、抽樣方法、樣本量、總體方差等因素。推論統(tǒng)計(jì)——假設(shè)檢驗(yàn)在總體的分布函數(shù)未知或只知其形式不知其參數(shù)的情況下,為推斷總體的某些性質(zhì),先對(duì)總體提出假設(shè),然后根據(jù)樣本資料對(duì)假設(shè)的正確性進(jìn)行判斷,決定是接受還是拒絕這一假設(shè)。參數(shù)假設(shè)檢驗(yàn)和非參數(shù)假設(shè)檢驗(yàn)例如:一顆骰子,100次總點(diǎn)數(shù):368推測(cè):骰子是否被灌過鉛?假設(shè)檢驗(yàn)中的原理先設(shè)立假設(shè),利用掌握的反映現(xiàn)實(shí)世界的數(shù)據(jù)來找出假設(shè)和現(xiàn)實(shí)的矛盾,從而否定這個(gè)假設(shè)。反證在一次試驗(yàn)中小概率事件就發(fā)生小概率:在一次試驗(yàn)中,一個(gè)幾乎不可能發(fā)生的事件發(fā)生的概率,應(yīng)該是接近0的一個(gè)數(shù),可能是0.05,0.01,0.005,0.001等等假設(shè)檢驗(yàn)的過程首先要提出一個(gè)原假設(shè)(也稱為零假設(shè),nullhypothesis,記為H0),比如m=5。同時(shí)提出備選假設(shè)(alternativehypothesis,記為H1
),比如m>5。根據(jù)零假設(shè),我們可以得到檢驗(yàn)統(tǒng)計(jì)量的分布;然后再看這個(gè)統(tǒng)計(jì)量的數(shù)據(jù)實(shí)現(xiàn)值(realization)屬不屬于小概率事件。如果的確是小概率事件,那么我們就有可能拒絕零假設(shè),否則我們說沒有足夠證據(jù)拒絕零假設(shè)。對(duì)總體參數(shù)的一種看法檢驗(yàn)統(tǒng)計(jì)量在零假設(shè)下,等于這個(gè)樣本的數(shù)據(jù)實(shí)現(xiàn)值或更加極端值的概率稱為p-值(p-value)總體假設(shè)檢驗(yàn)的過程
(提出假設(shè)→抽取樣本→作出決策)抽取隨機(jī)樣本均值
X=20我認(rèn)為人口的平均年齡是50歲提出假設(shè)拒絕假設(shè)!
別無選擇.作出決策假設(shè)檢驗(yàn)的兩類錯(cuò)誤根據(jù)小概率原理的假設(shè)檢驗(yàn)結(jié)論總有可能是錯(cuò)誤的??赡蹾0為真時(shí),我們拒絕了H0,這類“棄真”錯(cuò)誤稱為第I類錯(cuò)誤;也可能H0不真時(shí)我們接受了H0,這類“取偽”錯(cuò)誤稱為第II類錯(cuò)誤。在確定檢驗(yàn)法則時(shí),我們應(yīng)盡量使犯這兩類錯(cuò)誤的概率都較小。但在固定樣本量下,要減少犯一類錯(cuò)誤的概率,則犯另一類錯(cuò)誤的概率往往增大。要使犯這兩類錯(cuò)誤的概率都減小,除非增加樣本容量。在給定樣本容量的情況下,我們一般總是控制犯第I類錯(cuò)誤的概率,使它小于等于(顯著性水平)。這種只對(duì)犯第I類錯(cuò)誤的概率加以控制,而不考慮犯第II類錯(cuò)誤的檢驗(yàn)問題,稱為顯著性檢驗(yàn)問題。假設(shè)檢驗(yàn)的邏輯步驟第一:寫出零假設(shè)和備選假設(shè);第二:確定檢驗(yàn)統(tǒng)計(jì)量;第三:確定顯著性水平a;第四:根據(jù)數(shù)據(jù)計(jì)算檢驗(yàn)統(tǒng)計(jì)量的實(shí)現(xiàn)值;第五:根據(jù)這個(gè)實(shí)現(xiàn)值計(jì)算p-值(p-value);第六:進(jìn)行判斷:如果p-值小于或等于a,就拒絕零假設(shè),這時(shí)犯錯(cuò)誤的概率最多為a;如果p-值大于a,就不拒絕零假設(shè),因?yàn)樽C據(jù)不足。
案例分析某化妝品公司開發(fā)了一種新型護(hù)膚化妝品,委托某市場(chǎng)調(diào)查公司進(jìn)行市場(chǎng)調(diào)查,以檢驗(yàn)消費(fèi)者的偏好情況。根據(jù)該公司管理者的判斷,除非該產(chǎn)品有20%以上的消費(fèi)者喜歡,否則不能投入生產(chǎn)。因此為檢驗(yàn)喜歡該新產(chǎn)品的消費(fèi)者比例是否低于20%,對(duì)625人進(jìn)行一次市場(chǎng)調(diào)查。推論統(tǒng)計(jì)——方差分析是比較若干個(gè)總體均值之差的一種常用統(tǒng)計(jì)方法。傳統(tǒng)的方差分析主要用于分析實(shí)驗(yàn)數(shù)據(jù),實(shí)際上,它們同樣適用于調(diào)查數(shù)據(jù)與觀察數(shù)據(jù)。方差分析應(yīng)用時(shí)一般假定所比較的總體都服從正態(tài)分布,而且具有相同的方差。不過方差分析具有穩(wěn)健性,在更寬泛的條件下也還是近似有效的。在方差分析中,當(dāng)涉及的因素只有一個(gè)時(shí),稱為單因素方差分析;當(dāng)涉及的因素為兩個(gè)或兩個(gè)以上時(shí),統(tǒng)稱為多因素方差分析。單因素方差分析的一般步驟(1)明確因變量與自變量,建立原假設(shè)。原假設(shè)H0:
(2)數(shù)據(jù)分別計(jì)算總方差、組間方差、組內(nèi)方差,建立方差分析表
(3)顯著性檢驗(yàn),F(xiàn)檢驗(yàn)。如果顯著性水平低于P值,則拒絕原假設(shè),認(rèn)為差異顯著。(4)分析結(jié)果。如果原假設(shè)沒有被拒絕,說明自變量對(duì)因變量沒有顯著影響;反之,如果原假設(shè)被拒絕,說明自變量對(duì)因變量有顯著影響。換句話說,在自變量的不同水平下,因變量的均值是不同的。案例
為了對(duì)幾個(gè)行業(yè)的服務(wù)質(zhì)量進(jìn)行評(píng)價(jià),消費(fèi)者協(xié)會(huì)在零售業(yè)、旅游業(yè)、航空公司、家電制造業(yè)分別抽取了不同的樣本,其中零售業(yè)抽取7家,旅游業(yè)抽取了6家,航空公司抽取5家、家電制造業(yè)抽取了5家,然后記錄了一年中消費(fèi)者對(duì)總共23家服務(wù)企業(yè)投訴的次數(shù),結(jié)果如表9.7。試分析這四個(gè)行業(yè)的服務(wù)質(zhì)量是否有顯著差異?(=0.05)消費(fèi)者對(duì)四個(gè)行業(yè)的投訴次數(shù)
觀察值(j)行業(yè)(A)零售業(yè)旅游業(yè)航空公司家電制造業(yè)12345675755464554534762496054565551494855477068636960解:設(shè)四個(gè)行業(yè)被投訴次數(shù)的均值分別為,m1、m2
、m3、m4
,則需要檢驗(yàn)如下假設(shè)
H0:m1=m2=m3
=
m4(四個(gè)行業(yè)的服務(wù)質(zhì)量無顯著差異)H1:m1
,m2
,m3,m4不全相等(有顯著差異)Excel輸出的結(jié)果如下結(jié)論:拒絕H0。四個(gè)行業(yè)的服務(wù)質(zhì)量有顯著差異用Excel進(jìn)行方差分析第1步:選擇“工具”下拉菜單第2步:選擇【數(shù)據(jù)分析】選項(xiàng)第3步:在分析工具中選擇【單因素方差分析】
,然后選擇【確定】第4步:當(dāng)對(duì)話框出現(xiàn)時(shí)
在【輸入?yún)^(qū)域】方框內(nèi)鍵入數(shù)據(jù)單元格區(qū)域在【】方框內(nèi)鍵入0.05(可根據(jù)需要確定)
在【輸出選項(xiàng)】中選擇輸出區(qū)域第四節(jié)多元統(tǒng)計(jì)分析聚類分析1.判別分析2.主成分分析3.對(duì)應(yīng)分析5.因子分析4.結(jié)合分析6.多元統(tǒng)計(jì)分析——聚類分析聚類分析(Clusteranalysis),又稱群分析和類分析,它是依據(jù)某種準(zhǔn)則對(duì)個(gè)體(樣品或變量)進(jìn)行分類的一種多元統(tǒng)計(jì)分析方法?!拔镆灶惥邸北热缭谝豁?xiàng)全國(guó)范圍的市場(chǎng)調(diào)查中,需要對(duì)我國(guó)32個(gè)省/市/自治區(qū)的經(jīng)濟(jì)發(fā)展?fàn)顩r進(jìn)行分析。一般不是逐個(gè)省/市/自治區(qū)去分析,較好的作法是選取能反映經(jīng)濟(jì)發(fā)展?fàn)顩r的有代表性的指標(biāo),如國(guó)民生產(chǎn)總值(GNP)、工農(nóng)業(yè)總產(chǎn)值、第三產(chǎn)業(yè)比重、固定資產(chǎn)投資額、人均國(guó)民收入、城市和農(nóng)村平均每人月收入及通貨膨脹率等指標(biāo),根據(jù)這些指標(biāo)對(duì)32個(gè)省區(qū)進(jìn)行分類。然后依據(jù)分類結(jié)果,對(duì)經(jīng)濟(jì)發(fā)展情況進(jìn)行綜合評(píng)價(jià),這就易于得出科學(xué)的結(jié)論。應(yīng)用市場(chǎng)細(xì)分。例如可以根據(jù)消費(fèi)者購買某產(chǎn)品的各種目的把消費(fèi)者分類,這樣每個(gè)類別內(nèi)的消費(fèi)者在購買目的方面是相似的。了解購買行為。聚類分析可以把購買者分類,這樣有助于分別研究各類購買行為。開發(fā)新產(chǎn)品。對(duì)產(chǎn)品與品牌進(jìn)行聚類分析,把它們分為不同類別的競(jìng)爭(zhēng)對(duì)手。在同一類別的品牌比其他類的品牌更具有競(jìng)爭(zhēng)性。公司可以通過比較現(xiàn)有競(jìng)爭(zhēng)對(duì)手,明確新產(chǎn)品的潛在機(jī)遇。選擇實(shí)驗(yàn)性市場(chǎng)。通過把不同城市分類,選擇具有可比性的城市檢驗(yàn)不同的營(yíng)銷策略的效果。簡(jiǎn)化數(shù)據(jù)。原理
(1)首先在要進(jìn)行聚類的樣品或變量之間,定義一種能夠反映它們之間親疏程度的量,常用的方法有兩個(gè),即距離和相似系數(shù)。距離常用來對(duì)樣品進(jìn)行分類,它把樣本中的每個(gè)樣品看成P維空間的一個(gè)點(diǎn),并在空間定義距離,距離較近的點(diǎn)歸為一類,距離較遠(yuǎn)的點(diǎn)歸為不同類。相似系數(shù)常用來對(duì)變量進(jìn)行分類,性質(zhì)越相近的變量,相似系數(shù)的絕對(duì)值越接近于1,反之越接近于0。將相似系數(shù)較大的變量歸為一類,相似系數(shù)較小的變量歸為不同類。(2)以這些量為聚類的依據(jù),將一些相似程度較大的個(gè)體聚為一類,另一些彼此之間相似程度較大的個(gè)體聚合為另一類,……,最終將關(guān)系密切的聚合到一個(gè)小的分類單位,關(guān)系疏遠(yuǎn)的聚合到一個(gè)大的分類單位,直到將所有的個(gè)體都聚合完畢,形成一個(gè)由小到大的分類系統(tǒng)。(3)直到所有個(gè)體都聚合完畢,最后把聚類過程畫成一張圖表示出來(聚類圖或譜系圖),以直觀表現(xiàn)各個(gè)體之間的親疏關(guān)系。步驟(1)確定問題(2)選擇距離或相似系數(shù)的測(cè)度。目前使用最多的是歐氏距離或歐式距離的平方。(3)選擇聚類方法。(4)決定類別個(gè)數(shù)。(5)描述與解釋各個(gè)類別。
(6)評(píng)價(jià)聚類的有效性與準(zhǔn)確性。案例消費(fèi)者購物的態(tài)度——20位被訪者的回答
V1購物很有趣。V2購物不利于您的預(yù)算。V3購物總是與上飯店吃飯聯(lián)系在一起。V4購物時(shí)我盡量買得最好。V5我對(duì)購物不感興趣。V6購物時(shí)多比較價(jià)格可以節(jié)省很多錢。clusterNoV1V2V3V4V5V615.7503.6256.0003.1251.7503.87521.6673.0001.8333.5005.5003.33333.5005.8333.3336.0003.5006.000比較各類別的消費(fèi)者對(duì)6個(gè)態(tài)度變量的評(píng)價(jià),第一類消費(fèi)者對(duì)于V1和V3的評(píng)價(jià)相對(duì)較高,而對(duì)V5評(píng)價(jià)較低,因此可以稱其為“熱情的購物者”。第二類消費(fèi)者正好與第一類相反,對(duì)于V1和V3的評(píng)價(jià)相對(duì)較低,而對(duì)V5評(píng)價(jià)較高,因此可以稱其為“冷淡的購物者”。
第三類消費(fèi)者對(duì)于V2、V4和V6的評(píng)價(jià)相對(duì)較高,因此可以稱其為“經(jīng)濟(jì)型購物者”。
多元統(tǒng)計(jì)分析——判別分析
判別分析是判別樣本所屬類型的一種多元統(tǒng)計(jì)方法。例如某品牌的購買者與非購買者之間有什么差別?從人口統(tǒng)計(jì)和生活方式看,對(duì)某新產(chǎn)品有較高購買可能性的客戶與較低購買可能性的客戶之間的區(qū)別?從人口統(tǒng)計(jì)和生活方式看,經(jīng)常光顧某快餐廳的顧客與經(jīng)常光顧競(jìng)爭(zhēng)對(duì)手快餐廳的顧客之間有何區(qū)別?已經(jīng)選購不同品牌商品的顧客在使用、感知和態(tài)度上有何不同?多元統(tǒng)計(jì)分析——判別分析原理:判別分析就是在已知研究對(duì)象分為若干類型(組別)并已經(jīng)取得各種類型的一批已知樣品的觀測(cè)數(shù)據(jù)基礎(chǔ)上,根據(jù)某些準(zhǔn)則建立起盡可能把屬于不同類型的數(shù)據(jù)區(qū)分開來的判別函數(shù),然后用它們來判別未知類型的樣品應(yīng)該屬于哪一類。分類:根據(jù)判別的組數(shù),分為兩組判別分析和多組判別分析;根據(jù)判別函數(shù)的形式,分為線性判別和非線性判別;根據(jù)判別時(shí)處理變量的方法不同,分為逐步判別、序貫判別等;根據(jù)判別準(zhǔn)則的不同,分為距離判別、Fisher判別、Bayes判別等。多元統(tǒng)計(jì)分析——主成分分析
主成分分析就是把多個(gè)變量重新組合為一組相互無關(guān)的幾個(gè)綜合變量,而且從中可取幾個(gè)較少的綜合變量盡可能多地反映原來變量的信息。例如,評(píng)價(jià)企業(yè)的競(jìng)爭(zhēng)力要涉及很多指標(biāo),例如固定資產(chǎn)、流動(dòng)資金、產(chǎn)值、利潤(rùn)、人員素質(zhì)、科技水平、管理水平、環(huán)境等。利用主成分分析能從中找出少量幾個(gè)相互獨(dú)立的綜合指標(biāo)代替原先許多的指標(biāo),簡(jiǎn)化分析。多元統(tǒng)計(jì)分析——因子分析
因子分析(Factoranalysis)的目的是使數(shù)據(jù)簡(jiǎn)單化,它是將具有錯(cuò)綜復(fù)雜關(guān)系的變量綜合為數(shù)量較少的幾個(gè)因子,以再現(xiàn)原始變量與因子之間的相互關(guān)系,同時(shí)根據(jù)不同因子,對(duì)變量進(jìn)行分類。在市場(chǎng)調(diào)查中的應(yīng)用:(1)消費(fèi)者使用習(xí)慣和態(tài)度研究中,對(duì)消費(fèi)者對(duì)產(chǎn)品的態(tài)度探查往往需要使用因子分析,探查影響消費(fèi)者產(chǎn)品態(tài)度的基
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度廢棄油脂清運(yùn)與資源化利用合作協(xié)議3篇
- 2024年職工專屬體檢服務(wù)及健康管理合作協(xié)議3篇
- 2025年度醫(yī)療健康行業(yè)勞動(dòng)合同補(bǔ)充協(xié)議3篇
- 2024年示范:研發(fā)部門勞動(dòng)合同3篇
- 2025版酒店員工培訓(xùn)合作協(xié)議書2篇
- 2024年音視頻創(chuàng)意設(shè)計(jì)合作協(xié)議版
- 2025版智能健身房教練團(tuán)隊(duì)聘用與管理合同3篇
- 2024年中國(guó)甜醬黑菜市場(chǎng)調(diào)查研究報(bào)告
- 2025版汽車吊機(jī)租賃服務(wù)及吊裝操作規(guī)范合同3篇
- 2024年中國(guó)棕色油膏市場(chǎng)調(diào)查研究報(bào)告
- 液壓與氣壓傳動(dòng)中職PPT完整全套教學(xué)課件
- 國(guó)開大學(xué)2023年01月11067《知識(shí)產(chǎn)權(quán)法》期末考試答案
- 電氣控制及PLC課程設(shè)計(jì)報(bào)告
- 直接打印800字作文紙
- 石油產(chǎn)品密度基本知識(shí)認(rèn)知
- (完整word版)人教版高中數(shù)學(xué)大綱
- 貨物供貨總體服務(wù)方案
- 青島版二年級(jí)數(shù)學(xué)下冊(cè)《周期問題》教案
- 第三章熱力學(xué)第二定律物理化學(xué)
- EHS主管述職報(bào)告ppt
- GB/T 34560.1-2017結(jié)構(gòu)鋼第1部分:熱軋產(chǎn)品一般交貨技術(shù)條件
評(píng)論
0/150
提交評(píng)論