管理統(tǒng)計(jì)與應(yīng)用軟件第6章因子分析_第1頁(yè)
管理統(tǒng)計(jì)與應(yīng)用軟件第6章因子分析_第2頁(yè)
管理統(tǒng)計(jì)與應(yīng)用軟件第6章因子分析_第3頁(yè)
管理統(tǒng)計(jì)與應(yīng)用軟件第6章因子分析_第4頁(yè)
管理統(tǒng)計(jì)與應(yīng)用軟件第6章因子分析_第5頁(yè)
已閱讀5頁(yè),還剩42頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第六章因子分析在科學(xué)研究中,往往希望盡可能多地收集反映研究對(duì)象的多個(gè)變量,以期能對(duì)問(wèn)題有比較全面、完整的把握與認(rèn)識(shí)。多變量的大樣本雖然能為科學(xué)研究提供大量的信息,但是在一定程度上增加了數(shù)據(jù)采集的工作量,更重要的是在大多數(shù)情況下,許多變量之間可能存在相關(guān)性,這意味著表面上看來(lái)彼此不同的變量并不能從各個(gè)側(cè)面反映事物的不同屬性,而恰恰是事物同一種屬性的不同表現(xiàn)。2如何從眾多相關(guān)的指標(biāo)中找出少數(shù)幾個(gè)綜合性指標(biāo)來(lái)反映原來(lái)指標(biāo)所包含的主要信息,這就需要進(jìn)行因子分析(FactorAnalysis),它是用少數(shù)幾個(gè)因子來(lái)描述許多指標(biāo)或因素之間的聯(lián)系,即:用較少幾個(gè)因子反映原始數(shù)據(jù)的大部分信息的統(tǒng)計(jì)方法。3第一節(jié)概述一、提出者

因子分析最初是由英國(guó)心理學(xué)家C.Spearman提出的。1904年他在美國(guó)心理學(xué)刊物上發(fā)表了第一篇有關(guān)因子分析的文章。以后因子分析逐步被發(fā)展完善。50年代以來(lái),由于計(jì)算機(jī)的發(fā)展,因子分析在社會(huì)學(xué)、經(jīng)濟(jì)學(xué)、管理學(xué)、醫(yī)學(xué)、地質(zhì)學(xué)、氣象學(xué)中得到了較為廣泛的應(yīng)用。二、因子分析的含義

因子分析,又叫因素分析,就是通過(guò)尋找眾多變量的公共因素來(lái)簡(jiǎn)化變量中存在復(fù)雜關(guān)系的一種統(tǒng)計(jì)方法,它將多個(gè)變量綜合為少數(shù)幾個(gè)“因子”以再現(xiàn)原始變量與“因子”之間的相關(guān)關(guān)系。

比如:分析學(xué)生的各項(xiàng)成績(jī),包括數(shù)學(xué)、語(yǔ)文、英語(yǔ)、百米、跳高和鉛球等,如果一個(gè)學(xué)生的學(xué)習(xí)成績(jī)之間相關(guān)性很好,體育成績(jī)的相關(guān)性也很好,而學(xué)習(xí)成績(jī)和體育成績(jī)間相關(guān)性很差,那么可以考慮學(xué)生的學(xué)習(xí)成績(jī)是否存在一個(gè)共同的影響因子,這里暫且稱(chēng)之為智力因子,用學(xué)生的學(xué)習(xí)成績(jī)(數(shù)學(xué)、語(yǔ)文、英語(yǔ))來(lái)指示學(xué)生的智力這個(gè)因子,而用體育成績(jī)(百米、跳高、鉛球)來(lái)指示體力這個(gè)因子,本來(lái)智力因子和體力因子沒(méi)有辦法直接測(cè)量,而因子分析可以解決這個(gè)問(wèn)題。5

6三、因子分析的主要作用1、尋找基本結(jié)構(gòu)

在多元統(tǒng)計(jì)中,經(jīng)常遇到諸多變量之間存在強(qiáng)相關(guān)的問(wèn)題,它會(huì)對(duì)分析帶來(lái)許多困難。通過(guò)因子分析,可以找出幾個(gè)較少的有實(shí)際意義的因子,反映出原來(lái)數(shù)據(jù)的基本結(jié)構(gòu)。例如:調(diào)查汽車(chē)配件的價(jià)格中,通過(guò)因子分析從20個(gè)指標(biāo)中概括出原材料供應(yīng)商、配件廠商、新進(jìn)入者、后市場(chǎng)零部件廠商、整車(chē)廠和消費(fèi)者6個(gè)基本指標(biāo)。從而找出對(duì)企業(yè)配件價(jià)格起決定性作用的幾個(gè)指標(biāo)。72、數(shù)據(jù)化簡(jiǎn)

通過(guò)因子分析,可以找出少數(shù)的幾個(gè)因子來(lái)代替原來(lái)的變量做回歸分析、聚類(lèi)分析、判別分析等。8四、因子特點(diǎn)因子個(gè)數(shù)遠(yuǎn)遠(yuǎn)少于原有變量的個(gè)數(shù)因子能夠反映原有變量的絕大部分信息因子之間的線(xiàn)性關(guān)系不顯著因子具有命名解釋性第二節(jié)因子分析原理及分析步驟一、因子分析數(shù)學(xué)模型

獨(dú)特因子公共因素10因子分析的目的就是以F代替Z,由于一般p<m,從而達(dá)到簡(jiǎn)化變量維度的愿望。二、因子分析的基本步驟1.確定因子分析的前提條件

因子分析是從眾多的原始變量中綜合出少數(shù)幾個(gè)具有代表性的因子,這必定有一個(gè)前提條件,即原有變量之間具有較強(qiáng)的相關(guān)性。如果原有變量之間不存在較強(qiáng)的相關(guān)關(guān)系,則無(wú)法找出其中的公共因子。因此,在因子分析時(shí)需要對(duì)原有變量做相關(guān)分析。通??刹捎萌缦聨追N方法:

12(1)計(jì)算相關(guān)系數(shù)矩陣計(jì)算原有變量的簡(jiǎn)單相關(guān)系數(shù)矩陣。觀察相關(guān)系數(shù)矩陣,如果相關(guān)系數(shù)矩陣中的大部分相關(guān)系數(shù)值小于0.3,則各個(gè)變量之間大多為弱相關(guān),這就不適合做因子分析。如果一個(gè)變量與其他變量間相關(guān)度很低,則在下一分析步驟中可考慮剔除此變量。13(2)進(jìn)行統(tǒng)計(jì)檢驗(yàn)在因子分析過(guò)程中提供了幾種檢驗(yàn)方法來(lái)判斷變量是否適合做因子分析。主要統(tǒng)計(jì)方法有如下兩種:

4階單位陣1.巴特利球形檢驗(yàn)(BarlettTestofSphericity)。它是以變量的相關(guān)系數(shù)矩陣為出發(fā)點(diǎn),零假設(shè):相關(guān)系數(shù)矩陣是一個(gè)單位陣。如果巴特利球形檢驗(yàn)的統(tǒng)計(jì)計(jì)量數(shù)值較大,且對(duì)應(yīng)的相伴概率值小于用戶(hù)給定的顯著性水平,則應(yīng)該拒絕零假設(shè);反之,則不能拒絕零假設(shè),認(rèn)為相關(guān)系數(shù)矩陣可能是一個(gè)單位陣,不適合做因子分析。注:?jiǎn)挝魂嚕褐鲗?duì)角線(xiàn)上的元素都是1,其余的元素都是零的n階方陣,叫做n階單位矩陣14

(3).KMO(Kaiser-Meyer-Olkin)檢驗(yàn)。KMO統(tǒng)計(jì)量用于檢驗(yàn)變量間的偏相關(guān)性是否足夠小,是簡(jiǎn)單相關(guān)量和偏相關(guān)量的一個(gè)相對(duì)指數(shù),由下式求得:KMO>0.9非常適合0.8<KMO<0.9適合0.7<KMO<0.8一般0.6<KMO<0.7不太適合KMO<0.5不適合152.提取因子

決定因子提取的方法(即求初始因子)的方法很多,有“主成分分析法”,“主軸因子法”,“極大似然法”,“最小二乘法”,“Alpha因子提取法”和“映象因子提取法”等等。最常用的是“主成分分析法”和“主軸因子法”,其中又以“主成分分析法”的使用最為普遍。在提取因子的過(guò)程中涉及下列名詞,現(xiàn)分別說(shuō)明:16(1)特征值

特征值是指每個(gè)變量在某一公共因子上的因子負(fù)荷的平方總和,又叫特征根。在因子分析的公共因子提取中,特征值最大的公共因子會(huì)最先被提取,最后提取特征值最小的公共因子。因子分析的目的就是使因子維度簡(jiǎn)單化,希望以最小的公共因子能對(duì)總變異量作最大的解釋?zhuān)蚨崛〉囊蛩赜儆?,而提取因子之累積解釋的變異量則愈大愈好。17每個(gè)公共因子對(duì)原始數(shù)據(jù)的解釋能力,可以用該因子所解釋的總方差來(lái)衡量,通常稱(chēng)為該因子的貢獻(xiàn)率,它等于和該因子有關(guān)的因子負(fù)荷的平方和,實(shí)際中常用相對(duì)指標(biāo)來(lái)表示。相對(duì)指標(biāo)體現(xiàn)公共因子的相對(duì)重要性,即每個(gè)公共因子所解釋的方差占所有變量總方差的比例。(2)因子的貢獻(xiàn)率183.確定公共因子數(shù)根據(jù)某種規(guī)則,確定數(shù)據(jù)所需的公共因子數(shù),方法有:根據(jù)公共因子在變量總方差中所占的累計(jì)百分比,一般大于85%;特征根大于1的因子將被選入;當(dāng)變量數(shù)Q為偶數(shù)時(shí),公共因子個(gè)數(shù)應(yīng)小于Q/2,為奇數(shù)時(shí),應(yīng)小于(P-1)/2。194.因子的命名因子的命名是因子分析的一個(gè)核心問(wèn)題。旋轉(zhuǎn)后可決定因子個(gè)數(shù),并對(duì)其進(jìn)行命名。對(duì)于新因子變量的命名要根據(jù)新因子變量與原變量的關(guān)系,即觀察旋轉(zhuǎn)后的因子負(fù)荷矩陣中某個(gè)新因子變量能夠同時(shí)解釋多少原變量的信息。205.計(jì)算因子得分計(jì)算因子得分是因子分析的最后一步。因子變量確定后,便可計(jì)算各因子在每個(gè)樣本上的具體數(shù)值,這些數(shù)值就是因子的得分,形成的新變量稱(chēng)為因子變量,它和原變量的得分相對(duì)應(yīng)。有了因子得分,在以后的分析中就可以因子變量代替原有變量進(jìn)行數(shù)據(jù)建模,或利用因子變量對(duì)樣本進(jìn)行分類(lèi)或評(píng)價(jià)等研究,進(jìn)而實(shí)現(xiàn)降維和簡(jiǎn)化的目標(biāo)。21第三節(jié)用SPSS進(jìn)行因子分析一、因子分析的對(duì)話(huà)框介紹在FactorAnalysis對(duì)話(huà)框中,左邊較大的矩形框是源變量框,右邊“Variables”框?yàn)檫x入分析的變量框23各變量的基本統(tǒng)計(jì)量(包括均數(shù),標(biāo)準(zhǔn)差和樣本量)因子分析的初始解(包括原變量的公因子方差,與變量數(shù)目相同的因子,各因子的特征值及其所占總方差的百分比和累計(jì)百分比)相關(guān)系數(shù)矩陣相關(guān)系數(shù)矩陣單側(cè)檢驗(yàn)的概率值相關(guān)系數(shù)矩陣的行列式KMO和巴特利球型檢驗(yàn)相關(guān)系數(shù)矩陣的逆矩陣反映象協(xié)方差陣和相關(guān)陣再生相關(guān)陣(給出因子分析后的相關(guān)陣及其殘差,下三角為再生相關(guān)陣,上三角為殘差,即再生相關(guān)系數(shù)與原始相關(guān)系數(shù)之差)Descriptives按鈕24“Analyze”指定提取因子的依據(jù):Correlationmatrix:相關(guān)系數(shù)矩陣(系統(tǒng)默認(rèn),當(dāng)原有變量存在數(shù)量級(jí)的差異時(shí),通常選擇該選項(xiàng))Covariancematrix:協(xié)方差矩陣“Extract”提取標(biāo)準(zhǔn):Eigenvalusover:以特征值大于某數(shù)值為提取標(biāo)準(zhǔn)Numberoffactors:自定義提取因子的數(shù)量(正整數(shù))“Display”輸出內(nèi)容:Unrotatedfactorsolution:未旋轉(zhuǎn)的因子負(fù)荷陣Screeplot:碎石圖(以特征值大小排列的原始變量序號(hào)為橫軸,特征值為縱軸的加連線(xiàn)的散點(diǎn)圖)MaximumIterationsforConvergence:最大迭代次數(shù)(正整數(shù)),系統(tǒng)默認(rèn)25次Extraction按鈕25Rotation按鈕“Mothod”因子旋轉(zhuǎn)方法:正交法None:不旋轉(zhuǎn)(系統(tǒng)默認(rèn))Varimax:最大方差旋轉(zhuǎn)法Quartimax:四次方最大正交旋轉(zhuǎn)法Equamax:平均正交旋轉(zhuǎn)法“Display”輸出內(nèi)容:Rotatedsolution:旋轉(zhuǎn)后的因子負(fù)荷矩陣Loadingplot(s):旋轉(zhuǎn)后的因子負(fù)荷散點(diǎn)圖斜交法DirectOblimin:最大斜交旋轉(zhuǎn)法,選此項(xiàng),下方的Delta框被激活,可填入小等于0.8的值,系統(tǒng)默認(rèn)0,即產(chǎn)生最高相關(guān)因子。Promax:斜交旋轉(zhuǎn)法,選此項(xiàng),下方的Kappa框被激活,系統(tǒng)默認(rèn)4。該法允許因子間相關(guān),遠(yuǎn)較最大斜交旋轉(zhuǎn)法計(jì)算速度快,適于大型數(shù)據(jù)處理。-----------------------------------------------------------------------26FactorScores按鈕“Method”求因子得分方法:Regression:回歸法(系統(tǒng)默認(rèn))Bartlett:Bartlett法Anderson-Rubin:Anderson-Rubin法Displayfactorscorecoefficientmatrix:輸出因子得分系數(shù)矩陣27Option按鈕“MissingValues”缺失值處理:Excludecaseslistwise:剔除含有缺失值的所有觀察單位(系統(tǒng)默認(rèn))Excludecasespairwise:剔除各對(duì)變量中含有缺失值的觀察單位Replacewithmean:用各變量的均值替代缺失值“CoefficientDisplayFormat”因子矩陣的輸出格式:Sortedbysize:按因子系數(shù)由大到小排列Suppressabsolutevalueslessthan:只列出大于某一數(shù)值的因子系數(shù)(系統(tǒng)默認(rèn)0.1)28二、實(shí)例分析案例X1:每萬(wàn)人中等職業(yè)教育在校生數(shù)X2:每萬(wàn)人中等職業(yè)教育招生數(shù)X3:每萬(wàn)人中等職業(yè)教育畢業(yè)生數(shù)X4:每萬(wàn)人中等職業(yè)教育專(zhuān)任教師數(shù)X5:本科以上學(xué)校教師占專(zhuān)任教師的比例X6:高級(jí)教師占專(zhuān)任教師的比例X7:學(xué)校平均在校生人數(shù)

X8:國(guó)家財(cái)政預(yù)算中等職業(yè)教育經(jīng)費(fèi)占國(guó)內(nèi)生產(chǎn)總值的比例X9:生均教育經(jīng)費(fèi)對(duì)北京18個(gè)區(qū)縣中等職業(yè)教育發(fā)展水平的9個(gè)指標(biāo)進(jìn)行因子分析,然后進(jìn)行綜合評(píng)價(jià)。數(shù)據(jù)如有表所示,9個(gè)指標(biāo)分別表示如下含義:29操作步驟定義變量:變量“qx”為字符型變量,表示區(qū)縣;變量x1,x2,…,x9均為數(shù)值型變量,表示中等教育發(fā)展水平的狀況。

3.從左側(cè)的變量列表中選擇x1,x2,…,x9變量進(jìn)入“Variables”框中。30313233結(jié)果分析上表顯示原有變量的相關(guān)系數(shù)矩陣及其檢驗(yàn)??梢钥吹剑蟛糠值南嚓P(guān)系數(shù)都較高(大于0.3,單邊檢驗(yàn)值小于0.05),各變量呈較高的線(xiàn)性關(guān)系,能夠從中提取公共因子,適合進(jìn)行因子分析。大部分的相關(guān)系數(shù)值大于0.3大部分的檢驗(yàn)值小于0.0534巴特利球形檢驗(yàn)統(tǒng)計(jì)量為131.051,相應(yīng)的概率Sig為0.000,因此可認(rèn)為相關(guān)系數(shù)矩陣與單位陣有顯著差異。同時(shí),KMO值為0.762,根據(jù)Kaiser給出的KMO度量標(biāo)準(zhǔn)可知原有變量適合作因子分析。35右表是因子分析的初始解,顯示了所有變量的共同方差數(shù)據(jù)?!癐nitial”列是因子分析初始解下的變量共同方差。它表示,對(duì)原有9個(gè)變量如果采用主成分分析方法提取所有特征值(9個(gè)),那么原有變量的所有方差都可被解釋?zhuān)兞康墓餐讲罹鶠?(原有變量標(biāo)準(zhǔn)化后的方差為1)?!癊xtraction”列是在按指定提取條件(本例提取3個(gè)因子)提取特征值時(shí)的共同方差??梢钥吹?,所有變量的共同方差均較高,各個(gè)變量的信息丟失都較少。因此本次因子分析提取的總體效果較理想36上表中,第一列是因子編號(hào),以后三列組成一組,每組中數(shù)據(jù)項(xiàng)的含義依次是特征根值,方差貢獻(xiàn)率和累計(jì)方差貢獻(xiàn)率。

第一組數(shù)據(jù)項(xiàng)描述了因子初始解的情況??煽吹剑?個(gè)因子的特征值是4.975,解釋原有9個(gè)變量總方差的55.275%(4.975÷9×100),累計(jì)方差貢獻(xiàn)率為55.275%;其余數(shù)據(jù)含義類(lèi)似。

第二組數(shù)據(jù)項(xiàng)描述了因子解的情況??煽吹?,由于指定提取3個(gè)因子,3個(gè)因子共解釋了原有變量總方差的84.466%??傮w上,3個(gè)因子反映了原有變量的大部分信息,因子分析效果較理想。第三組數(shù)據(jù)描述了經(jīng)過(guò)旋轉(zhuǎn)后最終因子解的情況??梢?jiàn),因子旋轉(zhuǎn)后累計(jì)方差比沒(méi)有改變,但重新分配了各個(gè)因子解釋原有變量的方差,改變了各個(gè)因子的方差貢獻(xiàn),使得因子更易于解釋。37右圖中,橫坐標(biāo)為因子數(shù)目,縱坐標(biāo)為特征值??梢?jiàn),第1個(gè)因子的特征值很高,對(duì)解釋原有變量的貢獻(xiàn)最大;第4個(gè)以后的因子特征值都較小,對(duì)解釋原有變量的貢獻(xiàn)很小,已經(jīng)成為可被忽略的“高山腳下的碎石”,因此提取3個(gè)因子是適合的。3個(gè)主要因子38

從表中可以看到,9個(gè)變量在第1個(gè)因子上的負(fù)荷都很高,意味著它們與第1個(gè)因子的相關(guān)程度高,其余2個(gè)因子與9個(gè)變量的相關(guān)性相對(duì)較小。另外還可看到,這3個(gè)因子的實(shí)際含義比較模糊。右表顯示了因子負(fù)荷矩陣

是因子分析核心內(nèi)容39從右表可知,用主成分分析法進(jìn)行方差極大法旋轉(zhuǎn)后,在校生數(shù)、招生數(shù)、畢業(yè)生數(shù)、專(zhuān)任教師數(shù)和經(jīng)費(fèi)比例5個(gè)變量在第1個(gè)因子上有較高的負(fù)荷,第1個(gè)因子主要解釋這5個(gè)變量,其意義代表中等職業(yè)教育的相對(duì)規(guī)模大小,可解釋為發(fā)展規(guī)模;

發(fā)展規(guī)模學(xué)校規(guī)模辦學(xué)條件

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論