市場調(diào)查與預(yù)測:第四講 數(shù)據(jù)分析之二(因子分析)_第1頁
市場調(diào)查與預(yù)測:第四講 數(shù)據(jù)分析之二(因子分析)_第2頁
市場調(diào)查與預(yù)測:第四講 數(shù)據(jù)分析之二(因子分析)_第3頁
市場調(diào)查與預(yù)測:第四講 數(shù)據(jù)分析之二(因子分析)_第4頁
市場調(diào)查與預(yù)測:第四講 數(shù)據(jù)分析之二(因子分析)_第5頁
已閱讀5頁,還剩45頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

第四講:數(shù)據(jù)分析之二

……因子分析

因子分析(factoranalysis)是一種數(shù)據(jù)簡化的技術(shù)。它通過研究眾多變量之間的內(nèi)部依賴關(guān)系,探求觀測數(shù)據(jù)中的基本結(jié)構(gòu),并用少數(shù)幾個假想變量來表示其基本的數(shù)據(jù)結(jié)構(gòu)。這幾個假想變量能夠反映原來眾多變量的主要信息。原始的變量是可觀測的顯在變量,而假想變量是不可觀測的潛在變量,稱為因子。例如,在企業(yè)形象或品牌形象的研究中,消費者可以通過一個有24個指標(biāo)構(gòu)成的評價體系,評價百貨商場的24個方面的優(yōu)劣。引言

但消費者主要關(guān)心的是三個方面,即商店的環(huán)境、商店的服務(wù)和商品的價格。因子分析方法可以通過24個變量,找出反映商店環(huán)境、商店服務(wù)水平和商品價格的三個潛在的因子,對商店進行綜合評價。而這三個公共因子可以表示為:

稱是不可觀測的潛在因子。24個變量共享這三個因子,但是每個變量又有自己的個性,不被包含的部分,稱為特殊因子?!?因子分析模型

一、數(shù)學(xué)模型

設(shè)個變量,如果表示為

稱為公共因子,是不可觀測的變量,他們的系數(shù)稱為因子載荷。是特殊因子,是不能被前m個公共因子包含的部分。并且滿足:即不相關(guān);即互不相關(guān),方差為1。即互不相關(guān),方差不一定相等,。用矩陣的表達方式二、因子分析模型的性質(zhì)1、原始變量X的協(xié)方差矩陣的分解(例8.2.1)

D的主對角線上的元素值越小,則公共因子共享的成分越多。2、模型不受計量單位的影響

將原始變量X做變換X*=CX,這里C=diag(c1,c2,…,cn),ci>0。

3、因子載荷不是惟一的

設(shè)T為一個p×p的正交矩陣,令A(yù)*=AT,F(xiàn)*=T’F,則模型可以表示為且滿足條件因子模型的條件

三、因子載荷矩陣中的幾個統(tǒng)計特征1、因子載荷aij的統(tǒng)計意義

因子載荷是第i個變量與第j個公共因子的相關(guān)系數(shù)

模型為

在上式的左右兩邊乘以

,再求數(shù)學(xué)期望

根據(jù)公共因子的模型性質(zhì),有

(載荷矩陣中第i行,第j列的元素)反映了第i個變量與第j個公共因子的相關(guān)重要性。絕對值越大,相關(guān)的密切程度越高。

2、變量共同度的統(tǒng)計意義定義:變量的共同度是因子載荷矩陣的第i行的元素的平方和。記為統(tǒng)計意義:兩邊求方差

所有的公共因子和特殊因子對變量的貢獻為1。如果非??拷?,非常小,則因子分析的效果好,從原變量空間到公共因子空間的轉(zhuǎn)化性質(zhì)好。

3、公共因子方差貢獻的統(tǒng)計意義因子載荷矩陣中各列元素的平方和稱為所有的對的方差貢獻和。衡量的相對重要性?!?因子載荷矩陣的估計方法

設(shè)隨機向量的均值為,協(xié)方差為,

為的特征根,為對應(yīng)的標(biāo)準(zhǔn)化特征向量,則(一)主成分分析法

上式給出的表達式是精確的,然而,它實際上是毫無價值的,因為我們的目的是尋求用少數(shù)幾個公共因子解釋,故略去后面的p-m+1項的貢獻,有

上式有一個假定,模型中的特殊因子是不重要的,因而從的分解中忽略了特殊因子的方差。注:殘差矩陣

(二)主因子法

主因子方法是對主成分方法的修正,假定我們首先對變量進行標(biāo)準(zhǔn)化變換。則

R=AA’+DR*=AA’=R-D稱R*為約相關(guān)矩陣,R*對角線上的元素是,而不是1。即直接求R*的前m個特征根和對應(yīng)的特征向量。

當(dāng)特殊因子的方差不為零時,如果特性方差是已知的,問題非常好解決。

R*=AA’=RX-D,我們在前面已經(jīng)討論了因子載荷矩陣A的列平方和是

稱為Fj對所有的Xi的方差貢獻,用來衡量Fj的相對重要性。因此我們希望先求出貢獻大的因子,然后在依次求出貢獻相對較小的因子。由因子模型可知R*=AA’

為R*=AA’中的元素

設(shè)使S21最大的向量為,顯然向量必須滿足p2個約束條件,因此這是一個條件極值的問題,用拉格朗日乘數(shù)法由目標(biāo)函數(shù)

可以證明,使目標(biāo)函數(shù)T最大的

S21是R*=AA’的最大的特征根,其單位特征向量為u1

,則

類推可以求的載荷矩陣的其他列。

若,。而有非零特征根對應(yīng)得特征向量分別為

在實際的應(yīng)用中,個性方差矩陣一般都是未知的,可以通過一組樣本來估計。估計的方法有如下幾種:

首先,求的初始估計值,構(gòu)造出

1)取,在這個情況下主因子解與主成分解等價;

2)取,為xi與其他所有的原始變量xj的復(fù)相關(guān)系數(shù)的平方,即xi對其余的p-1個xj的回歸方程的判定系數(shù);2)取,這意味著取xi與其余的xj的簡單相關(guān)系數(shù)的絕對值最大者;4)取,其中要求該值為正數(shù)。5)取,其中是的對角元素。

(三)極大似然估計法

如果假定公共因子F和特殊因子服從正態(tài)分布,那么可以得到因子載荷和特殊因子方差的極大似然估計。設(shè)為來自正態(tài)總體Np(,)的隨機樣本。

它通過依賴和。上式并不能唯一確定,為此可添加一個唯一性條件:

這里式一個對角矩陣,用數(shù)值極大化的方法可以得到極大似然估計。極大似然估計將使為對角陣,且似然函數(shù)達到最大。相應(yīng)的共同度的似然估計為:第J個因子對總方差的貢獻:

例假定某地固定資產(chǎn)投資率,通貨膨脹率,失業(yè)率,相關(guān)系數(shù)矩陣為試用主成分分析法求因子分析模型。

特征根為:

可取前兩個因子F1和F2為公共因子,第一公因子F1物價就業(yè)因子,對X的貢獻為1.55。第一公因子F2為投資因子,對X的貢獻為0.85。共同度分別為1,0.706,0.706。

假定某地固定資產(chǎn)投資率,通貨膨脹率,失業(yè)率,相關(guān)系數(shù)矩陣為試用主因子分析法求因子分析模型。假定用代替初始的。。

特征根為:

對應(yīng)的非零特征向量為:

§4因子旋轉(zhuǎn)(正交變換)

建立了因子分析數(shù)學(xué)目的不僅僅要找出公共因子以及對變量進行分組,更重要的要知道每個公共因子的意義,以便進行進一步的分析,如果每個公共因子的含義不清,則不便于進行實際背景的解釋。由于因子載荷陣是不惟一的,所以應(yīng)該對因子載荷陣進行旋轉(zhuǎn)。目的是使因子載荷陣的結(jié)構(gòu)簡化,使載荷矩陣每列或行的元素平方值向0和1兩極分化。有三種主要的正交旋轉(zhuǎn)法。四次方最大法、方差最大法和等量最大法。(一)為什么要旋轉(zhuǎn)因子

百米跑成績跳遠成績鉛球成績跳高成績

400米跑成績百米跨欄鐵餅成績撐桿跳遠成績標(biāo)槍成績

1500米跑成績

奧運會十項全能運動項目得分?jǐn)?shù)據(jù)的因子分析

因子載荷矩陣可以看出,除第一因子在所有的變量在公共因子上有較大的正載荷,可以稱為一般運動因子。其他的3個因子不太容易解釋。似乎是跑和投擲的能力對比,似乎是長跑耐力和短跑速度的對比。于是考慮旋轉(zhuǎn)因子,得下表

通過旋轉(zhuǎn),因子有了較為明確的含義。百米跑,跳遠和400米跑,需要爆發(fā)力的項目在有較大的載荷,可以稱為短跑速度因子;鉛球,鐵餅和標(biāo)槍在上有較大的載荷,可以稱為爆發(fā)性臂力因子;百米跨欄,撐桿跳遠,跳遠和為跳高在上有較大的載荷,爆發(fā)腿力因子;長跑耐力因子。變換后因子的共同度設(shè)正交矩陣,做正交變換變換后因子的共同度化沒有發(fā)生!(二)旋轉(zhuǎn)方法變換后因子貢獻設(shè)正交矩陣,做正交變換變換后因子的貢獻發(fā)生了變化!1、方差最大法

方差最大法從簡化因子載荷矩陣的每一列出發(fā),使和每個因子有關(guān)的載荷的平方的方差最大。當(dāng)只有少數(shù)幾個變量在某個因子上又較高的載荷時,對因子的解釋最簡單。方差最大的直觀意義是希望通過因子旋轉(zhuǎn)后,使每個因子上的載荷盡量拉開距離,一部分的載荷趨于1,另一部分趨于0。1、四次方最大旋轉(zhuǎn)

四次方最大旋轉(zhuǎn)是從簡化載荷矩陣的行出發(fā),通過旋轉(zhuǎn)初始因子,使每個變量只在一個因子上又較高的載荷,而在其它的因子上盡可能低的載荷。如果每個變量只在一個因子上又非零的載荷,這是的因子解釋是最簡單的。四次方最大法通過使因子載荷矩陣中每一行的因子載荷平方的方差達到最大。

3、等量最大法

等量最大法把四次方最大法和方差最大法結(jié)合起來求Q和V的加權(quán)平均最大。

權(quán)數(shù)等于m/2,因子數(shù)有關(guān)。

§5因子得分

(一)因子得分的概念

前面我們主要解決了用公共因子的線性組合來表示一組觀測變量的有關(guān)問題。如果我們要使用這些因子做其他的研究,比如把得到的因子作為自變量來做回歸分析,對樣本進行分類或評價,這就需要我們對公共因子進行測度,即給出公共因子的值。

人均要素變量因子分析。對我國32個省市自治區(qū)的要素狀況作因子分析。指標(biāo)體系中有如下指標(biāo):X1:人口(萬人)X2:面積(萬平方公里)X3:GDP(億元)X4:人均水資源(立方米/人)X5:人均生物量(噸/人)X6:萬人擁有的大學(xué)生數(shù)(人)X7:萬人擁有科學(xué)家、工程師數(shù)(人)RotatedFactorPatternFACTOR1FACTOR2FACTOR3X1-0.21522-0.273970.89092X20.63973-0.28739-0.28755X3-0.157910.063340.94855X40.95898-0.01501-0.07556X50.97224-0.06778-0.17535X6-0.114160.98328-0.08300X7-0.110410.97851-0.07246

高載荷指標(biāo)

因子命名

因子1X2;面積(萬平方公里)X4:人均水資源(立方米/人)X5:人均生物量(噸/人)自然資源因子

因子2X6:萬人擁有的大學(xué)生數(shù)(人)X7:萬人擁有的科學(xué)家、工程師數(shù)(人)

人力資源因子

因子3

X1;人口(萬人)X3:GDP(億元)經(jīng)濟發(fā)展總量因子

X1=-0.21522F1-0.27397F2+0.89092F3X2=0.63973F1-0.28739F2-0.28755F3X3=-0.15791F1+0.06334F2+0.94855F3X4=0.95898F1-0.01501F2-0.07556F3X5=0.97224F1-0.06778F2-0.17535F3X6=-0.11416F1+0.98328F2-0.08300F3X7=-0.11041F1+0.97851F2-0.07246F3StandardizedScoringCoefficients

FACTOR1

FACTOR2

FACTOR3X10.05764

-0.06098

0.50391X20.22724

-0.09901

-0.07713X30.14635

0.12957

0.59715X40.47920

0.11228

0.17062X50.45583

0.07419

0.10

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論