第十一節(jié) 數(shù)據(jù)分析_第1頁
第十一節(jié) 數(shù)據(jù)分析_第2頁
第十一節(jié) 數(shù)據(jù)分析_第3頁
第十一節(jié) 數(shù)據(jù)分析_第4頁
第十一節(jié) 數(shù)據(jù)分析_第5頁
已閱讀5頁,還剩37頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第11章數(shù)據(jù)分析

1開篇案例:中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r分析報(bào)告從2005年6月中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)調(diào)查所展現(xiàn)的數(shù)據(jù)可以看出,2005年上半年的中國互聯(lián)網(wǎng)絡(luò)在整體上保持增長態(tài)勢的同時(shí),網(wǎng)民特征結(jié)構(gòu)、上網(wǎng)途徑、上網(wǎng)行為等各方面也出現(xiàn)了一些較為明顯的變化。在網(wǎng)上查找CNNIC最近一次互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r的完整分析報(bào)告,概括說明報(bào)告中所使用的主要分析方法以及圖表工具。211.1

數(shù)據(jù)分析概述描述性分析是將原始數(shù)據(jù)轉(zhuǎn)換成一種易于理解和解釋的形式。它主要通過有關(guān)統(tǒng)計(jì)量(關(guān)于樣本或總體的)來描述數(shù)據(jù)特征、找出數(shù)據(jù)的基本規(guī)律。有關(guān)統(tǒng)計(jì)量(樣本/總體)是用來描述數(shù)據(jù)特征的概括性數(shù)字度量,它是根據(jù)樣本/總體數(shù)據(jù)計(jì)算出來的一些量,是樣本/總體的函數(shù)。描述性分析主要包括:單變量數(shù)據(jù)的分析雙變量和多變量數(shù)據(jù)的分析數(shù)據(jù)的深度分析311.2

單變量數(shù)據(jù)的分析描繪樣本數(shù)據(jù),就是以一種簡明且有意義的方式對結(jié)果進(jìn)行研究和解釋。單變量數(shù)據(jù)分析的方法:對數(shù)據(jù)進(jìn)行重新排列;對數(shù)據(jù)進(jìn)行分類或分組;數(shù)據(jù)概括;數(shù)據(jù)分布狀態(tài)分析。4數(shù)據(jù)分類/分組與頻數(shù)分布頻數(shù)分布是單一統(tǒng)計(jì)變量的各個(gè)類別或每個(gè)值出現(xiàn)的次數(shù)和頻率的一種分布狀態(tài)。頻數(shù)分布始于數(shù)據(jù)的分類/分組,重點(diǎn)是變量的各類別或每個(gè)值出現(xiàn)次數(shù)的統(tǒng)計(jì),最終通過適當(dāng)?shù)膱D表工具展示該變量的頻數(shù)分布。頻數(shù)分布統(tǒng)計(jì),關(guān)鍵是要區(qū)分變量及數(shù)據(jù)類型:對類別和順序變量的數(shù)據(jù)主要是作分類統(tǒng)計(jì),對等距與等比變量的數(shù)值型數(shù)據(jù)則主要是作分組統(tǒng)計(jì)。5類別或順序數(shù)據(jù)的頻數(shù)分布CN域名類別域名個(gè)數(shù)百分比AC.CN8870.1%COM.CN22659536.5%EDU.CN23580.4%GOV.CN198023.2%NET.CN283254.6%ORG.CN121161.9%行政區(qū)域.CN388596.3%.CN29359247.3%表11-1按類別劃分的CN域名頻數(shù)分布表

類別或順序變量的取值實(shí)際是指變量的類別或不同等級,而不是具體數(shù)值。所以,類別或順序數(shù)據(jù)本質(zhì)上屬于計(jì)數(shù)型數(shù)據(jù),主要作分類統(tǒng)計(jì)。類別或順序數(shù)據(jù)的頻數(shù)分布展示一個(gè)變量各個(gè)類別的頻率,即落在這一類別中的觀測數(shù)。通常使用的圖表展示工具包括:頻數(shù)分布表累積頻數(shù)表?xiàng)l形圖柱狀圖餅圖環(huán)形圖6類別或順序數(shù)據(jù)的頻數(shù)分布幫助程度學(xué)習(xí)工作生活百分比(%)累積百分比(%)百分比(%)累積百分比(%)百分比(%)累積百分比(%)非常大比較大一般不太大幾乎無47.829.217.93.71.447.877.094.998.6100.039.935.720.53.10.839.975.696.199.2100.025.533.633.65.91.425.559.192.798.6100.0表11-2用戶認(rèn)為當(dāng)前互聯(lián)網(wǎng)的幫助程度

當(dāng)需要比較兩個(gè)以上總體的結(jié)構(gòu)或一個(gè)總體的結(jié)構(gòu)變化時(shí),可使用環(huán)形圖展示。環(huán)形圖中間有一個(gè)“空洞”,總體中的每一類別數(shù)據(jù)用環(huán)中的一段表示。順序數(shù)據(jù)還可通過累積頻數(shù)來展示。累積頻數(shù)(頻率)是指順序變量各類別頻數(shù)(頻率)的逐級累加。見表11-2。使用EXCEL軟件可以將累積頻數(shù)以折線圖方式展示出來,見圖11-3。7數(shù)值型數(shù)據(jù)分組與頻數(shù)分布連續(xù)型變量數(shù)據(jù)的等距分組的步驟:

確定組數(shù):可以按Sturges

提出的經(jīng)驗(yàn)公式來確定組數(shù)K

確定組距:即組距=(最大值-最小值)÷組數(shù)

統(tǒng)計(jì)出各組的頻數(shù)并整理成頻數(shù)分布表。

數(shù)值型數(shù)據(jù)可以是離散數(shù)據(jù),或者是連續(xù)數(shù)據(jù)。離散型數(shù)據(jù)的頻數(shù)分布是將每一個(gè)變量值作為一組,統(tǒng)計(jì)每組變量值出現(xiàn)的頻數(shù),列出頻數(shù)分布表。連續(xù)型變量數(shù)據(jù)的頻數(shù)分布要求首先對變量值進(jìn)行分組,然后統(tǒng)計(jì)出變量每一組值出現(xiàn)的次數(shù)或頻度。變量值可以采用等距分組或不等距分組。8頻數(shù)趨勢分析

在描述分析中,研究者不僅需要了解數(shù)據(jù)的分布結(jié)構(gòu)規(guī)律,也了解數(shù)據(jù)結(jié)構(gòu)的變化趨勢,從而加深對市場現(xiàn)象的認(rèn)識。將當(dāng)前的調(diào)查數(shù)據(jù)與歷史數(shù)據(jù)結(jié)合起來建立頻數(shù)分布表,并通過繪制多樣本的柱狀圖以及雷達(dá)圖等,可以做到在展示分類/分組數(shù)據(jù)的分布結(jié)構(gòu)的同時(shí),又能展示數(shù)據(jù)分布結(jié)構(gòu)的發(fā)展變化趨勢。9數(shù)據(jù)集中趨勢的概括集中趨勢是指數(shù)據(jù)分布趨向集中于一個(gè)分布的中心。集中趨勢概括是指用一個(gè)數(shù)值來代表變量值的分布情況,根據(jù)這個(gè)數(shù)值可以估計(jì)每一個(gè)研究個(gè)案該變量的值。概括數(shù)據(jù)分布集中趨勢的統(tǒng)計(jì)量包括眾數(shù)中位數(shù)平均數(shù)不同類型的數(shù)據(jù)適用不同的集中趨勢度量,低層次數(shù)據(jù)的集中趨勢度量同樣適用于高層次數(shù)據(jù),但是,高層次的概括卻不適用于低層次數(shù)據(jù)。10集中趨勢的概括-眾數(shù)眾數(shù)(mode)是總體中各單位在某一標(biāo)志上出現(xiàn)次數(shù)最多的變量值。例如,在一項(xiàng)SRS抽取500戶農(nóng)民的農(nóng)業(yè)調(diào)查中,有280戶填寫了“小麥”,那么“小麥”就是眾數(shù)。又例如,調(diào)查顯示50%以上大學(xué)生每月觀看電影4次,那么4次這個(gè)值就是眾數(shù)。在三個(gè)統(tǒng)計(jì)量中,眾數(shù)適用于各種數(shù)據(jù)。而且,眾數(shù)是對類別數(shù)據(jù)的集中趨勢概括的唯一適用統(tǒng)計(jì)量。眾數(shù)也有許多不足之處。首先,它對數(shù)據(jù)的描述不夠,因?yàn)樽钇毡榈念悇e未必經(jīng)常出現(xiàn)。例如,一項(xiàng)有關(guān)網(wǎng)民通常使用互聯(lián)網(wǎng)的時(shí)段的調(diào)查,共詢問了200人,結(jié)果顯示幾乎沒有兩個(gè)人的答案是相同的。其次,眾數(shù)可能有多個(gè)取值,因?yàn)樽兞繋讉€(gè)類別可能同時(shí)具有最高頻數(shù)。11集中趨勢的概括-中位數(shù)中位數(shù)(median)是一組數(shù)據(jù)按數(shù)值大小排序后,位置居于最中間的那個(gè)值。各變量值與中位數(shù)的離差絕對值之和最小。中位數(shù)既適用于定量數(shù)據(jù),也適用于順序數(shù)據(jù),而且中位數(shù)是描述順序數(shù)據(jù)集中趨勢的最好度量。確定中位數(shù)應(yīng)區(qū)分兩種情況:根據(jù)原始數(shù)據(jù)計(jì)算中位數(shù)根據(jù)分組數(shù)據(jù)計(jì)算中位數(shù)12分組數(shù)據(jù)的中位數(shù)度量按費(fèi)用分組30-3940-4950-5960-6970-7980-89用戶數(shù)(頻數(shù))149541用戶累積數(shù)1514192324表11-5某地區(qū)網(wǎng)民每月實(shí)際上網(wǎng)費(fèi)用的頻數(shù)和累積頻數(shù)

分組資料中位數(shù)式中:L——中位數(shù)所在組的下限

W——中位數(shù)所在組的組距

n——數(shù)據(jù)(個(gè)案)總數(shù)

cf——低于中位數(shù)所在組下限的累計(jì)頻數(shù)

f——中位數(shù)所在組的頻數(shù)

計(jì)算步驟:首先,建立頻數(shù)和累積頻數(shù)分布表,見表11-5。其次,確定中位數(shù)所在位置。中位數(shù)位置=(24+1)/2=12.5,從用戶累積數(shù)看,它在50-59這個(gè)組。根據(jù)分組資料使用公式計(jì)算中位數(shù)。Me=50+10(24/2-5)/9=57.813四分位數(shù)度量其中,QL位置=(n+1)/4QU位置=3(n+1)/4QL和QU值為對應(yīng)位置的變量值,或?qū)?yīng)位置兩個(gè)變量值的均值(當(dāng)位置并非整數(shù)時(shí))。25%QLQUQM25%25%25%圖11-7四分位點(diǎn)和四分位數(shù)的確定

對數(shù)值型數(shù)據(jù),可以使用四分位數(shù)等位置統(tǒng)計(jì)量概括。度量四分位數(shù)(quartile),首先需要將數(shù)據(jù)排序,然后將整個(gè)數(shù)據(jù)分成四等分,每一部分都包含25%的數(shù)據(jù),其中,處于25%和75%位置上的值就是下四分位數(shù)和上四分位數(shù)。四分位點(diǎn)和四分位數(shù)的確定通過圖11-7予以說明。四分位數(shù)及其相關(guān)統(tǒng)計(jì)量經(jīng)常通過箱線圖來集中展示。14集中趨勢的概括-平均數(shù)平均數(shù)或均值(mean)是統(tǒng)計(jì)分析中最常用的集中趨勢統(tǒng)計(jì)量。在SRS抽樣中,均值就是算術(shù)平均值。對于復(fù)雜的抽樣設(shè)計(jì),樣本均值的計(jì)算需要考慮最終樣本權(quán)數(shù)。平均數(shù)度量有許多優(yōu)點(diǎn):易于計(jì)算與理解,且可用于計(jì)算其它統(tǒng)計(jì)量(如樣本方差)。對于許多抽樣設(shè)計(jì)來說,樣本均值是總體均值的無偏估計(jì)。樣本均值度量也有不足之處:均值不能用于概括類別或順序數(shù)據(jù)的集中趨勢。均值會向極端值的方向靠近,受極端值影響很大。15平均數(shù)度量根據(jù)原始數(shù)據(jù)計(jì)算平均數(shù)在簡單隨機(jī)抽樣中,樣本均值就是變量的原始數(shù)據(jù)之和除以數(shù)值個(gè)數(shù)。設(shè)某變量的一組數(shù)據(jù)為:x1,x2,…,xn

,則根據(jù)分組數(shù)據(jù)計(jì)算平均數(shù)設(shè)某變量的一組數(shù)據(jù)為:x1,x2,…,xn各組的組中值為:M1,M2,…,Mk相應(yīng)的頻數(shù)為:f1,f2,…,fk

則分組數(shù)據(jù)平均數(shù)實(shí)際上是一種加權(quán)平均數(shù):算術(shù)平均數(shù)

加權(quán)平均數(shù)

16眾數(shù)、中位數(shù)和平均數(shù)

的比較表11-6數(shù)據(jù)類型和所適用的集中趨勢統(tǒng)計(jì)量數(shù)據(jù)類型類別數(shù)據(jù)順序數(shù)據(jù)等距數(shù)據(jù)等比數(shù)據(jù)適用的統(tǒng)計(jì)量眾數(shù)中位數(shù)平均數(shù)平均數(shù)四分位數(shù)中位數(shù)調(diào)和平均數(shù)眾數(shù)四分位數(shù)幾何平均數(shù)眾數(shù)中位數(shù)四分位數(shù)眾數(shù)均值=中位數(shù)=眾數(shù)均值中位數(shù)眾數(shù)眾數(shù)中位數(shù)均值左偏分布對稱分布右偏分布圖11-9在不同分布狀態(tài)下眾數(shù)、中位數(shù)與均值的關(guān)系

17數(shù)據(jù)離散趨勢的概括

離散趨勢是指數(shù)據(jù)分布偏離其分布中心的程度。離散趨勢測量是指求出一個(gè)數(shù)值,以表示變量值分布的離散程度以及變量值之間的差異程度。離散趨勢測量與集中趨勢測量之間,實(shí)際上是一種相互補(bǔ)充和相互說明的關(guān)系。集中趨勢測量求出的是一個(gè)最有代表性的值,這個(gè)值代表性高低取決于個(gè)案之間在變量取值上的差異程度(離散度)。差異越大,則說明集中趨勢的統(tǒng)計(jì)量的代表性越差;反之,代表性就越好。同時(shí)進(jìn)行集中和離散趨勢測量,利于更全面、準(zhǔn)確地認(rèn)識事物的特征。18數(shù)據(jù)離散趨勢的測量數(shù)據(jù)的離散趨勢分析所使用的統(tǒng)計(jì)量包括:離異比率四分位差標(biāo)準(zhǔn)差與標(biāo)準(zhǔn)差系數(shù)離異比率四分位差

Qd=QU-QL未分組數(shù)據(jù)標(biāo)準(zhǔn)差

分組數(shù)據(jù)的標(biāo)準(zhǔn)差

標(biāo)準(zhǔn)差系數(shù)19離散趨勢測量例題[例11.2]某地區(qū)行業(yè)組織抽查5家企業(yè)月銷售額和銷售利潤數(shù)據(jù)(單位:萬元),如表11-7第2行所示。試根據(jù)上述數(shù)據(jù)比較銷售額和銷售利潤的離散程度。根據(jù)5家企業(yè)的月銷售額數(shù)據(jù)和月銷售利潤數(shù)據(jù)分別計(jì)算其平均數(shù)、標(biāo)準(zhǔn)差以及標(biāo)準(zhǔn)差系數(shù),分別列于表11-7的第3-5行。月銷售額月銷售利潤企業(yè)甲企業(yè)乙企業(yè)丙企業(yè)丁企業(yè)戊1702203904304808.012.018.022.026.0平均數(shù)33817.2標(biāo)準(zhǔn)差S135.57.3標(biāo)準(zhǔn)差系數(shù)0.400.42表11-7某行業(yè)5家企業(yè)月銷售額與利潤數(shù)據(jù)20離異比率、四分位差與標(biāo)準(zhǔn)差

的比較

表11-8數(shù)據(jù)類型和所適用的離散趨勢統(tǒng)計(jì)量數(shù)據(jù)類型類別數(shù)據(jù)順序數(shù)據(jù)數(shù)值型數(shù)據(jù)適用的統(tǒng)計(jì)量離異比率四分位差標(biāo)準(zhǔn)差離異比率標(biāo)準(zhǔn)差系數(shù)(用于比較目的)四分位差離異比率21數(shù)據(jù)分布的差異分析在數(shù)據(jù)分布集中趨勢和離散趨勢測量的討論中,已經(jīng)多次非正式地將調(diào)查數(shù)據(jù)的分布與正態(tài)分布進(jìn)行比較,以判斷數(shù)據(jù)分布的集中或離散趨勢。數(shù)據(jù)分布的差異分析則是正式地進(jìn)行這種比較,即通過分析數(shù)據(jù)分布的偏度與峰度,以描述調(diào)查數(shù)據(jù)分布與正態(tài)分布之間的差異程度。22偏度及其測量

偏度(skewness)

,表示數(shù)據(jù)分布的不對稱方向和程度。正態(tài)分布的偏度值為零。具有顯著正偏度的分布有很長的右尾;具有顯著負(fù)偏度的分布有很長的左尾。準(zhǔn)確測度偏斜程度,需要計(jì)算偏態(tài)系數(shù)。統(tǒng)計(jì)上經(jīng)常以三階中心矩作為測定偏態(tài)的一個(gè)指標(biāo)。SK=0時(shí),說明分布是對稱的;當(dāng)SK>0時(shí),說明大于平均數(shù)的數(shù)據(jù)次數(shù)比小于平均數(shù)的數(shù)據(jù)次數(shù)要多,為右偏分布;當(dāng)SK<0時(shí),說明分布為左偏,SK值越小說明左偏程度越高。23峰度及其測量

峰度(kurtosis),表示數(shù)據(jù)分布與正態(tài)曲線相比的尖峭或扁平程度。如圖11-11。若數(shù)據(jù)分布比正態(tài)曲線低且尾部較短,則屬于扁平分布;若數(shù)據(jù)分布比正態(tài)曲線瘦高且尾部較長,則屬于尖峭分布。統(tǒng)計(jì)上常用四階中心矩作為測定峰度的指標(biāo)。將四階中心矩除以標(biāo)準(zhǔn)差的四次方,得到峰度系數(shù),表示數(shù)據(jù)分布的相對峰度。當(dāng)峰度值K=0時(shí),說明數(shù)據(jù)分布為正態(tài)曲線。當(dāng)峰度值K>0時(shí),表示觀察值聚集程度比正態(tài)分布高,為尖峭分布。當(dāng)峰度值K<0時(shí),表示觀察值聚集程度比正態(tài)分布低,數(shù)據(jù)為扁平分布。24分布偏度與峰度例題[例11.3]假設(shè)根據(jù)某班40名學(xué)生管理學(xué)考試成績整理為分組數(shù)據(jù)如表11-9中1-3列所示?,F(xiàn)要求分析成績分布偏度。解:首先根據(jù)分組數(shù)據(jù)計(jì)算平均數(shù),并準(zhǔn)備用于計(jì)算偏度系數(shù)的中心矩?cái)?shù)據(jù),列于表11-9中的5-7列。

表11-9某班40名學(xué)生管理學(xué)成績偏度及峰度計(jì)算表成績(分)組中值Mi頻數(shù)fiMifi(Mi-)

fi

fi

fi50~5960~6970~7980~8990~100556575859527111281104558251020760-24-14-4616115213721764322048-27648-19208-704259232768663552268912281615552524288合計(jì)4031705170-122001475120分組數(shù)據(jù)的平均數(shù)偏態(tài)系數(shù)

峰度系數(shù)

分組數(shù)據(jù)的標(biāo)準(zhǔn)差2511.3

雙變量及多變量數(shù)據(jù)的描述分析雙變量交叉列表分析交叉列表分析可以清楚地表示兩個(gè)變量之間的相互關(guān)系。交叉列表可以看成是分類的頻數(shù)表,即一個(gè)變量的頻數(shù)分布是根據(jù)另一個(gè)變量的取值來進(jìn)一步細(xì)分的,所以又稱為聯(lián)合分布表。一份完整交叉表,每格內(nèi)包含四個(gè)數(shù)字,分別表示頻數(shù)、行百分?jǐn)?shù)、列百分?jǐn)?shù)和總百分?jǐn)?shù)(見表11-12)。26多變量交叉列表分析市場中變量之間的關(guān)系是復(fù)雜的。利用二維列表分析可能發(fā)現(xiàn)兩個(gè)變量之間似乎密切相關(guān),但是再引進(jìn)一個(gè)變量后,可能發(fā)現(xiàn)原來兩個(gè)變量之間的相關(guān)關(guān)系變?nèi)趸蛳Я?;相反地情況也可能發(fā)生。因此,單純考慮兩個(gè)變量之間的聯(lián)系很可能導(dǎo)致錯(cuò)誤判斷。為避免這類錯(cuò)誤,要求在雙變量交叉列表分析的基礎(chǔ)上,引入第三個(gè)變量作多維交叉列表分析。2711.4

多變量數(shù)據(jù)的深度分析

對于雙變量及多變量數(shù)據(jù),通常還需要進(jìn)行深度分析,以深刻揭示數(shù)據(jù)之間的關(guān)系和變化規(guī)律。雙變量以及多變量數(shù)據(jù)的深度分析包括很多種方法,這里扼要介紹:相關(guān)分析因子分析判別分析聚類分析28相關(guān)分析相關(guān)是指一個(gè)變量與另一個(gè)變量之間的連帶性。即,如果一個(gè)變量的值發(fā)生變化,另一個(gè)變量值也隨著發(fā)生變化,則兩個(gè)變量就是相關(guān)的。相關(guān)分析既包括線性相關(guān),也包括非線性相關(guān);既包括順序變量的相關(guān),也包括等距變量的相關(guān)。簡單相關(guān)系數(shù)研究等距及等比變量的線性相關(guān),又稱皮爾遜積矩相關(guān)。相關(guān)系數(shù)

備選表達(dá)

其中,σx2——X的方差;

σy2——Y的方差;

——X和Y的協(xié)方差

29相關(guān)分析相關(guān)矩陣是匯報(bào)相關(guān)結(jié)果的標(biāo)準(zhǔn)形式它可以同時(shí)將一個(gè)變量與其他多個(gè)變量之間的相關(guān)關(guān)系集中展示出來。表11-18展示了一個(gè)相關(guān)矩陣。表11-18關(guān)于銷售人員業(yè)績與其他變量之間的積矩相關(guān)矩陣變量銷售業(yè)績工作滿意度語言能力工作壓力任務(wù)模糊區(qū)域潛力工作量(銷售業(yè)績)1.00(工作滿意度)0.451.00(語言能力)-0.36-0.131.00(工作壓力)-0.48-0.06-0.021.00(任務(wù)模糊)-0.26-0.24-0.050.441.00(區(qū)域潛力)0.490.31-0.09-0.38-0.261.00(工作量)0.450.11-0.12-0.27-0.220.491.0030解釋相關(guān)關(guān)系時(shí)應(yīng)注意問題

相關(guān)性及因果關(guān)系解釋相關(guān)關(guān)系時(shí)一定要小心,相關(guān)性并不意味著因果關(guān)系。相關(guān)是指變量之間的連帶性,相關(guān)系數(shù)可能僅僅說明變量之間具有某種共變關(guān)聯(lián)。

相關(guān)分析與回歸分析相關(guān)分析與回歸分析之間關(guān)系比較微妙,例如在回歸分析中,利用相關(guān)系數(shù)的平方來計(jì)算決定系數(shù)。但是,兩者存在一些重要區(qū)別。31聚類分析(ClusterAnalysis)

將被認(rèn)識的對象進(jìn)行分類,以便尋找其中同與不同的特征,往往是人們認(rèn)識世界的基礎(chǔ)。在市場營銷領(lǐng)域,有很多這種分類問題。例如,零售商和消費(fèi)品公司定期地對有關(guān)客戶購買習(xí)慣、性別、年齡、收入水平等數(shù)據(jù)應(yīng)用聚類技術(shù)進(jìn)行分析,以便公司可以為每組消費(fèi)者設(shè)計(jì)營銷和產(chǎn)品開發(fā)戰(zhàn)略,以增加銷售額和建立品牌忠誠度。營銷管理者也許對某些城市中的某些商店(個(gè)案)的聚類問題感興趣,通過聚類分析就可以選擇可比較的城市來檢驗(yàn)各種市場營銷戰(zhàn)略了。32聚類分析的原理

聚類分析是根據(jù)樣本單元各個(gè)變量的取值,將樣本(觀察對象或變量)自動(dòng)分類的分析方法。聚類分析的目的是把物體或人分成很多相對獨(dú)立且較為固定的組,并進(jìn)一步觀察一批樣本之間的差異和共性。聚類分析始于聚類過程的選擇,不同的聚類過程使用不同的算法。主要的聚類過程包括:K-Means聚類(K-MeansCluster)過程可以完成由用戶指定類別數(shù)目的大樣本資料的逐步聚類分析。系統(tǒng)聚類(HierarchicalCluster)分析過程只限于較小的數(shù)據(jù)文件。在系統(tǒng)聚類分析中,用戶事先無法確定類別數(shù)。系統(tǒng)聚類分析有兩種形式,一是對研究對象本身進(jìn)行分類,稱為Q型舉類;另一是對研究對象的觀察指標(biāo)進(jìn)行分類,稱為R型聚類。33聚類分析過程的算法聚類分析的核心問題是怎樣定量地計(jì)算多變量情況下各樣本之間的差距。聚類分析可提供多種計(jì)算各樣本之間差距的方法:歐氏平方距離、歐氏距離、絕對值距離、切氏距離、夾角余弦距離等。如,對某些商店作聚類分析,商店A兩屬性(變量)值分別為73和68,商店B兩屬性(變量)值分別為66和69。則利用歐氏距離計(jì)算商店A和商店B之間的距離為:[(73-66)2+(68-69)2]1/2=7.07用絕對值距離計(jì)算商店A和商店B之間的距離為:│73-66│+│68-69│=8聚類分析過程將根據(jù)某種指定方法,計(jì)算出所有樣本間的距離,然后將距離最近的兩樣本聚成一類,然后依次類推,直到將所有樣本聚為一大類為止。34聚類分析實(shí)例

[例11.4]某人力資源咨詢機(jī)構(gòu)對應(yīng)聘某特殊職業(yè)的29名候選者進(jìn)行了包括體格檢查、修養(yǎng)測試、知識測驗(yàn)、心理測試、語言藝術(shù)以及工作能力測試,測驗(yàn)結(jié)果如表11-19所示。由于多項(xiàng)測試成本高、耗時(shí)長,所以希望通過聚類分析(即R型指標(biāo)聚類)篩選代表性指標(biāo),以便經(jīng)濟(jì)快捷地對應(yīng)聘者做出評價(jià)。表11-19某特殊職業(yè)29名應(yīng)聘者素質(zhì)與能力測驗(yàn)評分編號N0.體格評分X1修養(yǎng)測試X2知識測驗(yàn)X3心理評分X4語言藝術(shù)X5能力測驗(yàn)X6123┆282954.8972.4953.81┆73.8947.3130.8642.6152.86┆32.9428.55448.70467.30425.61┆312.50294.700.0120.0080.004┆0.0640.0051.0101.6401.220┆1.1500.83813.5013.0013.75┆7.257.0035判別分析

(Discriminant)判別分析是在已知若干樣本分類的情況下,根據(jù)收集到的多變量數(shù)據(jù),建立差別函數(shù),從而推斷未知樣本分類的分析方法。判別分析的特點(diǎn)表現(xiàn)在:用于推導(dǎo)分類規(guī)則的樣本的所屬類別必須事先已知;由已知樣本推斷未知樣本,是檢驗(yàn)假設(shè)的一種方法。例如,營銷經(jīng)理可能對某產(chǎn)品的購買使用者與未購買者之間的差別感興趣,在通過市場調(diào)研收集了大量有關(guān)潛在消費(fèi)者的數(shù)據(jù)后,他可能進(jìn)一步想知道具有哪些人口統(tǒng)計(jì)及生活方式特征的潛在消費(fèi)者具有較高的購買可能性。36判別分析的步驟及要點(diǎn)判別分析的基本步驟1)確定兩個(gè)或多個(gè)組(如使用者和未使用者、某種疾病的患者與非患者)在平均判別分方面是否存在統(tǒng)計(jì)顯著性差別;2)為根據(jù)自變量的值將個(gè)體(或?qū)ο?分類而建立判別函數(shù)模型;3)確定兩組或多組平均得分方面的差異有多少可以用自變量解釋。判別分析的要點(diǎn)判別分Z,是根據(jù)公式為各個(gè)個(gè)體或?qū)ο笥?jì)算得來的,這個(gè)分值是預(yù)測特定對象或個(gè)體屬于哪個(gè)組的基礎(chǔ)。判別系數(shù),通過判別分析程序計(jì)算出來。與特定自變量相聯(lián)系的判別系數(shù)的大小由判別函數(shù)中變量的方差結(jié)構(gòu)決定。在各組之間差別性大的自變量,判別系數(shù)就大;反之,判別系數(shù)就小。Z=b0+b1X1+b2X2+b3X3+...+bnXn

式中,Z——對應(yīng)于個(gè)體的判別分;

bi——對應(yīng)于第i個(gè)自變量或預(yù)測變量的判別系數(shù),b0為常數(shù)項(xiàng);

Xi——對應(yīng)于第i個(gè)個(gè)體的自變量或預(yù)測變量的值。37判別分析實(shí)例

[例11.5]為研究優(yōu)秀推銷員的素質(zhì)特征,某營銷研究機(jī)構(gòu)隨機(jī)抽選了業(yè)績突出的優(yōu)秀推銷員15人(優(yōu)秀組)以及業(yè)績平平的非優(yōu)秀推銷員16人(非優(yōu)秀組)就其素質(zhì)進(jìn)行了綜合測評,測評結(jié)果被歸納為兩個(gè)因子——感同力和自我驅(qū)動(dòng)力。其中,感同力是指能設(shè)身處地地為顧客著想的能力;自我驅(qū)動(dòng)力則是指完成銷售任務(wù)的強(qiáng)烈愿望程度。31個(gè)調(diào)查樣本的感同力和自我驅(qū)動(dòng)力的綜合評分列于表11-22中。試作判別分析,建立判別函數(shù)以便在推銷員招聘實(shí)踐中篩選候選者。

表11-22推銷員綜合素質(zhì)—感同力和自我驅(qū)動(dòng)力的綜合評分編號優(yōu)秀組編號非優(yōu)秀組感同力X1自我驅(qū)動(dòng)力X2感同力X1自我驅(qū)動(dòng)力X2123┆159.8613.3314.66┆13.335.183.733.89┆5.96123┆1610.6612.5313.33┆9.332.074.453.06┆3.6338因子分析(FactorAnalysis)

因子分析是這樣一種統(tǒng)計(jì)方法,為了從大量的可測量的數(shù)據(jù)(如等級評分)中總結(jié)出相對少數(shù)的簡明信息,即因子,研究者通過構(gòu)造少量的因子來反映原有變量的絕大部分信息,達(dá)到數(shù)據(jù)簡化的目的。新變量不是原變量簡單的取舍,而是在原變量基礎(chǔ)上的重新構(gòu)造和重新綜合產(chǎn)生的,這些變量稱為因子變量。如何綜合構(gòu)造因子變量是因子分析的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論