數(shù)理統(tǒng)計(jì)學(xué)進(jìn)階6_第1頁(yè)
數(shù)理統(tǒng)計(jì)學(xué)進(jìn)階6_第2頁(yè)
數(shù)理統(tǒng)計(jì)學(xué)進(jìn)階6_第3頁(yè)
數(shù)理統(tǒng)計(jì)學(xué)進(jìn)階6_第4頁(yè)
數(shù)理統(tǒng)計(jì)學(xué)進(jìn)階6_第5頁(yè)
已閱讀5頁(yè),還剩26頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第第5 5章章 主成份與因子主成份與因子分析分析 主成份分析(Principal component analysis, PCA)是一種最古老的多元統(tǒng)計(jì)分析技術(shù)。Pearoon 于1901年首次引入主成份分析的概念,Hotelling在20世紀(jì)30年代對(duì)主成份分析進(jìn)行了發(fā)展。如其它多元統(tǒng)計(jì)分析一樣,在計(jì)算機(jī)出現(xiàn)之前,主成份分析應(yīng)用面很窄。一旦出現(xiàn)計(jì)算機(jī)后,主成份分析得以廣泛地應(yīng)用。如今,計(jì)算機(jī)的多元統(tǒng)計(jì)分析程序包中,基本包含了主成份分析。 主成份分析的中心目的是將數(shù)據(jù)降維,以排除眾多化學(xué)信息共存中相互重疊的信息。它是將原變量進(jìn)行轉(zhuǎn)換,使少數(shù)幾個(gè)新變量是原變量的線性組合,同時(shí),這些變量要盡可能多

2、地表征原變量的數(shù)據(jù)結(jié)構(gòu)特征而不丟失信息。新變量互不相關(guān),即正交。 主成份分析2121212211cossinsincoscossinsincosxxyyxxyxxy數(shù)學(xué)模型 旋轉(zhuǎn)變換的目的是為了使得n個(gè)樣本點(diǎn)在y1軸方向上的離散程度最大,即y1的方差最大,變量y1代表了原始數(shù)據(jù)的絕大部分信息,在研究問(wèn)題時(shí),即使不考慮變量y2也損失不多的信息。 Y1與y2除起了濃縮作用外,還具有不相關(guān)性。 Y1稱為第一主成份,y2稱為第二主成分。x1y1x2y2npnnppxxxxxxxxx.212222111211ppppppppppxuxuxuyxuxuxuyxuxuxuy.2211222212121212

3、1111 如果系數(shù)uij滿足 ;而且系數(shù)uij的確使yi、與yj (ij)相互無(wú)關(guān),并使y1是x1,x2,xp的一切線性組合中方差最大者,y2是與y1不相關(guān)的x1,x2,xp的所有線性組合中方差最大者,yp是與y1,y2 ,,yp-1都不相關(guān)的x1,x2,xp的所有線性組合中方差最大者,則稱y1,y2,yp為原變量的第一,第二, ,第p主成份。piuuuipii, 2 , 1,1.22221模型的求解 在應(yīng)用主成份分析研究問(wèn)題時(shí),通常先將數(shù)據(jù)標(biāo)準(zhǔn)化,以消除量綱對(duì)結(jié)果的影響。標(biāo)準(zhǔn)化的常用公式為: )()(iiiixDxExzx 為了求出主成份,只需求樣本協(xié)方差矩陣S或相關(guān)系數(shù)矩陣R的特征根和特征

4、向量就可以。 (可以證明,變量x1,x2,xp標(biāo)準(zhǔn)化以后,其協(xié)方差矩陣S與相關(guān)系數(shù)矩陣R相等。 )主成份的性質(zhì)性質(zhì)性質(zhì)1 1:第k個(gè)主成份 yk的系數(shù)向量是第k個(gè)特征根k所對(duì)應(yīng)的 標(biāo)準(zhǔn)化特征向量Uk性質(zhì)性質(zhì)2 2:第k個(gè)主成份的方差為第k個(gè)特征根k,且任意兩個(gè)主 成份都是不相關(guān)的,也就是主成份y1,y2,yp的樣本 協(xié)方差矩陣是對(duì)角矩陣性質(zhì)性質(zhì)3 3:樣本主成份的總方差等于原變量樣本的總方差性質(zhì)性質(zhì)4 4:第k個(gè)樣本主成份與第j個(gè)變量樣本之間的相關(guān)系數(shù)為: 該相關(guān)系數(shù)又稱為因子載荷量。 kjkjkjkuzxyrxyr),(),(主成份分析數(shù)據(jù)形式:觀察編號(hào)X1X2Xnp1X11X12X1p2X

5、21X22X2pnXn1Xn2Xnp其中,Xij 是第 i 個(gè)對(duì)象的第 j 個(gè)指標(biāo) Xj 的觀察值。求主成份的一般步驟:(1)對(duì)原變量的樣本數(shù)據(jù)矩陣進(jìn)行標(biāo)準(zhǔn)化變換;(2)計(jì)算相應(yīng)的相關(guān)系數(shù)矩陣為 R=(rij) (3)解特征根 R-I =0,求相關(guān)系數(shù)矩陣R的特征根 (Eigenvalue) i,且將它們從大到小排列為:12p(4)求矩陣R關(guān)于i的滿足正規(guī)條件的特征向量(Eigenvector): Li =(li1,,lip), i=1,p 則 即位所求的第i(i=1,,p)主成份,其中: 當(dāng)實(shí)測(cè)值較多時(shí),相關(guān)矩陣的特征根地計(jì)算較復(fù)雜,故主成份的計(jì)算一般需要統(tǒng)軟件來(lái)實(shí)施。 確定主成份個(gè)數(shù)的方法

6、: (1)累積貢獻(xiàn)率:當(dāng)前k個(gè)主成份的累積貢獻(xiàn)率達(dá)到某 一特定值(一般采用70%以上)時(shí),則保留前k個(gè)主成 份; (2)特征根:一般選取特征根1 的主成份。 幾個(gè)基本概念: (1)特征根(Eigenvalue):表示主成份影響力度大小的指 標(biāo),即引入該主成份后可以解釋平均多少原始變量 的信息。如果特征根小于1,說(shuō)明該主成份的解釋 程度還不如直接引入一個(gè)原始變量的平均解釋程度 大,因此在確定主成份個(gè)數(shù)時(shí),常常選取特征根大 于1的主成份;(2)主成份Zi的方差貢獻(xiàn)率,計(jì)算公式為: 式中i 表示主成份Zi 的方差在全部方差中的比重。 這個(gè)值越大,表明主成份Zi 綜合原始變量信息的能力 越強(qiáng)。(3)累

7、積貢獻(xiàn)率:前k個(gè)主成份的累積貢獻(xiàn)率定義為: 表示前k個(gè)主成份累積提取了原始變量多少的信息。 因子分析 實(shí)際應(yīng)用時(shí),許多問(wèn)題不僅涉及的變量多,而且各變量之間可能存在著錯(cuò)綜復(fù)雜的相關(guān)關(guān)系,這時(shí)最好能從中提取少數(shù)的綜合變量,使其能夠包含原變量提供的大部分信息,還要求這些綜合變量盡可能地彼此不相關(guān)。因子分析便是解決這一問(wèn)題而提出的統(tǒng)計(jì)分析方法。 因子分析方法能把多個(gè)觀察變量轉(zhuǎn)換為少數(shù)幾個(gè)不相關(guān)的綜合指標(biāo),這些綜合指標(biāo)往往是不能直接觀察到的,但有時(shí)卻更能反映事物的特點(diǎn)和本質(zhì)。因此,因子分析在醫(yī)學(xué)、藥學(xué)、生物學(xué)、經(jīng)濟(jì)學(xué)等諸多領(lǐng)域都得到了廣泛的應(yīng)用。1因子分析的基本概念: 通過(guò)顯在變量,由具體指標(biāo)評(píng)測(cè)抽象因

8、子的分析方法,最早是由心理學(xué)家 Chales Spearman 于1940年提出的。其基本目的是用少數(shù)幾個(gè)因子去描述多個(gè)變量之間的關(guān)系,被描述的變量一般都是能實(shí)際觀察到的隨機(jī)變量,而那些因子是不可觀察的潛在變量?;舅枷胧歉鶕?jù)相關(guān)性的大小把變量分組,使得同組內(nèi)的變量相關(guān)性較高,而不同組內(nèi)的變量相關(guān)性較低。每組變量代表一個(gè)基本結(jié)構(gòu),這些基本結(jié)構(gòu)成為一個(gè)公共因子。對(duì)于所研究的問(wèn)題就可以試圖用最少數(shù)的不可觀察的公共因子的線性函數(shù)與特殊因子之和來(lái)描述原來(lái)觀察的每一個(gè)分量。 因子分析可分為兩類:(1)探索性因子分析(Exploratory factor analysis);(2)確定性因子分析(conf

9、irmatory factor analysis)。探索性因子分析通常就稱為因子分析,主要應(yīng)用在數(shù)據(jù)分析的初期階段,其主要目的是探討可觀察變量的特征、性質(zhì)及內(nèi)部的關(guān)聯(lián)性,并揭示有哪些潛在因子盡可能多地表達(dá)原可觀察變量的信息。確定性因子分析是在探索性因子分析的基礎(chǔ)上進(jìn)行的。當(dāng)已經(jīng)找到可測(cè)變量可能被哪些潛在因子影響,而進(jìn)一步明確每一個(gè)潛在因子對(duì)可測(cè)變量的影響程度,以及這些潛在因子之間的關(guān)聯(lián)程度時(shí),則可進(jìn)行確定性因子分析。該分析不要求所找出的這些潛在因子之間相互獨(dú)立,其目的是明確潛在因子之間的關(guān)聯(lián)性,它是將多個(gè)指標(biāo)之間的關(guān)聯(lián)性研究簡(jiǎn)化為對(duì)較少幾個(gè)潛在因子之間的關(guān)聯(lián)性研究,其分析結(jié)果需進(jìn)行統(tǒng)計(jì)檢驗(yàn),確

10、定性因子分析是結(jié)構(gòu)方程模型分析的關(guān)鍵一步。2因子分析的原理和方法: 基本出發(fā)點(diǎn)是用較少的相互獨(dú)立的因子變量代替原來(lái)變量的大部分信息,可以用以下的數(shù)學(xué)模型來(lái)表示: X1 = a11F1 + a12F2 + a1mFm X2 = a21F1 + a22F2 + a2mFm Xp = ap1F1 + ap2F2 + apmFm 式中,x1 , x2, xp 為p個(gè)原有變量,是均值為0、標(biāo)準(zhǔn)差為1的標(biāo)準(zhǔn)化變量,F(xiàn)1,F2,Fm 為m個(gè)因子變量,m小于p,表示成矩陣形式為: X = AF + a 式中,F(xiàn)為公共因子,可以理解為高維空間中相互垂直的m個(gè)坐標(biāo)軸;A為因子載荷矩陣,是第i個(gè)原有變量在第j個(gè)因子

11、變量上的負(fù)荷。3因子分析的幾個(gè)概念:(1)因子載荷aij: 為第i個(gè)變量與第j個(gè)公共因子上的相關(guān)系數(shù),反映了第i個(gè)變量在第j個(gè)公共因子的相對(duì)重要性;(2)變量共同度: 又稱公共方差,反映全部公共因子對(duì)原有變量xi 總方差的解釋說(shuō)明比例。原有變量xi的共同度為因子載荷矩陣A中第i行元素的平方和,即:Hi2越接近1 (原有變量 xi 在標(biāo)準(zhǔn)化前提下總方差為1),說(shuō)明公共因子解釋原有變量的信息越多;(3)公共因子Fj 的方差貢獻(xiàn):定義為因子載荷矩陣A中第j列個(gè)元素的平方和,即:由此可見(jiàn),公共因子Fj 的方差貢獻(xiàn)反映了因子Fj對(duì)原有變量總方差的解釋能力,其值越高,說(shuō)明因子的重要性也越高。4因子分析的基

12、本步驟: 因子分析的核心問(wèn)題:如何構(gòu)造因子變量以及對(duì)因子變量命名解釋。(1)確定待分析的原有若干變量是否適合做因子分析;(2)構(gòu)造因子變量;(3)利用旋轉(zhuǎn)方法使因子變量更具有可解釋性;(4)計(jì)算因子得分。例題例題5-15-1 為評(píng)價(jià)31個(gè)地區(qū)生殖健康狀況,某研究者考察了此31個(gè)地區(qū)的4 個(gè)有關(guān)生殖健康指標(biāo)的得分,這4個(gè)指標(biāo)的得分均是越高越好, 它們各自反映了生殖健康的一個(gè)方面,為能對(duì)這31個(gè)地區(qū)做出 綜合評(píng)價(jià),請(qǐng)做主成份分析。地區(qū)X1X2X3X4168.7778.4698.1887.13278.4886.2580.8498.95359.9077.5773.4878.49453.1063.777

13、3.3152.12551.8966.2657.3871.78674.7484.6481.1675.23765.9681.3673.1379.84864.7268.6677.8772.00965.2477.9992.5592.621068.1887.1877.7376.151166.1290.5976.2672.301266.1290.5976.2672.301356.0668.5267.7873.891463.9861.1658.8564.651554.1669.4455.5566.211667.1595.2080.2282.531752.5873.6571.0076.681857.8065.

14、1563.1371.401957.1679.5859.6062.642046.7667.7061.4969.312135.7560.1046.5664.472245.5950.5149.6566.802364.9767.3467.8870.242445.0822.1321.5841.112546.2533.7728.7371.242625.0313.7238.6630.002753.9079.8061.3469.642851.5140.6833.7845.872933.6832.7520.6159.293046.6548.3948.2163.513152.7949.6651.4729.61 主

15、成份與因子分析 實(shí)例解釋的總解釋的總方差方差成份初始特征值提取平方和載入旋轉(zhuǎn)平方和載入合計(jì)方差的 %累積 %合計(jì)方差的 %累積 %合計(jì)方差的 %累積 %13.30682.65782.6573.30682.65782.6571.13928.48728.4872.3548.85291.508.3548.85291.5081.07626.89855.3863.2065.14896.656.2065.14896.656.98524.62180.0074.1343.344 100.000.1343.344 100.000.80019.993 100.000提取方法:主成份分析。成份成份轉(zhuǎn)換矩陣轉(zhuǎn)換矩陣成

16、份12341.517.522.505.4532.846-.408-.310-.1493.095.748-.554-.3544.092.041.586-.804提取方法 :主成份。 旋轉(zhuǎn)法 :具有 Kaiser 標(biāo)準(zhǔn)化的正交旋轉(zhuǎn)法。例題5-2 某研究者1996年通過(guò)調(diào)查獲得了某市310例戒毒者的抑郁、焦慮、 情緒管理、情緒判讀、與他人的關(guān)系、對(duì)社會(huì)滿意度和對(duì)工作 滿意度等7個(gè)指標(biāo)的得分。從中隨機(jī)抽出20例,試分析這些變量 之間的相關(guān)性,并進(jìn)行因子分析,找出支配這些變量的公因子。觀 察 對(duì)象編號(hào)抑郁 X1焦慮 X2情緒管理 X3情緒判讀 X4與他人關(guān)系 X5對(duì)社會(huì)滿意度 X6對(duì)工作滿意度 X618

17、86575182797576183557557184659555185879575186556555187558576188779576995575759106675861211656555912659576131365957518145585761015669876121655957618176510656181876977511196695651320661087612相關(guān)矩陣相關(guān)矩陣a抑郁焦慮情緒管理情緒判讀與他人的關(guān)系 對(duì)社會(huì)滿意度 對(duì)工作滿意度相關(guān)抑郁1.000.784.079.086.265-.335.067焦慮.7841.000-.154.037.387-.046.097情緒管理

18、.079-.1541.000.469.149.148-.005情緒判讀.086.037.4691.000.139.141-.259與他人的關(guān)系.265.387.149.1391.000.093-.266對(duì)社會(huì)滿意度-.335-.0931.000.047對(duì)工作滿意度.067.097-.005-.259-.266.0471.000Sig.(單側(cè))抑郁.000.371.358.129.074.390焦慮.000.259.439.046.424.342情緒管理.371.259.018.266.267.491情緒判讀.358.439.018.279.277.135與他人的關(guān)系.1

19、29.046.266.279.348.128對(duì)社會(huì)滿意度.074.424.267.277.348.422對(duì)工作滿意度.390.342.422a. 行列式 = .104解釋的總方差解釋的總方差成份初始特征值提取平方和載入旋轉(zhuǎn)平方和載入合計(jì)方差的 %累積 %合計(jì)方差的 %累積 %合計(jì)方差的 %累積 %12.05329.32729.3272.05329.32729.3271.03014.71714.71721.69524.22053.5471.69524.22053.5471.01914.55929.27631.10015.70869.2551.10015.70869.255

20、1.01414.48443.76041.02014.57783.8321.02014.57783.8321.00814.40658.1665.6399.12492.956.6399.12492.956.99914.26872.4346.3855.49498.450.3855.49498.450.96513.78586.2197.1081.550100.000.1081.550100.000.96513.781100.000提取方法:主成份分析。成份成份轉(zhuǎn)換矩陣轉(zhuǎn)換矩陣成份12345671.895-.161.061-.059.135.384.0032-.207.327.557-.346.589.

21、270.0063.180.340.392.793.084-.249.0014.016.768-.364.014-.269.440-.1115-.242-.286.461.187-.519.582.0616-.254-.274-.416.459.532.427-.1047-.012.073-.117.040.053.056.986提取方法 :主成份。 旋轉(zhuǎn)法 :具有 Kaiser 標(biāo)準(zhǔn)化的四分旋轉(zhuǎn)法。例題例題5-3 5-3 在住院病人滿意度量表研制中,初步擬定的量表由 5個(gè)因素(domains/dimensions)共27個(gè)條目(item)組 成,即“醫(yī)生服務(wù)”(7個(gè)條目,“d1d7”), “伙

22、食供應(yīng)”(4個(gè)條目,“f1f4”),“輔助科室 服務(wù)”(6個(gè)條目,“h1h6”),“護(hù)理”(6個(gè)條 目,“n1n6”)和“醫(yī)療環(huán)境與設(shè)施”(4個(gè)條目, “s1s4”)。據(jù)此,對(duì)193名住院病人調(diào)查的結(jié)果 見(jiàn)數(shù)據(jù)文件“IPSQ1.sav”,試用因子分析驗(yàn)證該量 表的合理性以評(píng)價(jià)其構(gòu)建效度。 解:解:見(jiàn)數(shù)據(jù)文件“IPSQ1.sav”,有193行27列,即193個(gè)調(diào) 查對(duì)象,37個(gè)條目,每個(gè)條目被視為一個(gè)變量。KMO and Bartletts TestKaiser-Meyer-Olkin Measure of Sampling Adequacy.892Bartletts Test of Spher

23、icityApprox. Chi-Square1646.130df351Sig.000Total Variance ExplainedComponentInitialEigenvaluesExtractionSumsofSquaredLoadingsRotationSumsofSquaredLoadingsTotal%ofVarianceCumulative%Total%ofVarianceCumulative%Total%ofVarianceCumulative%110.51738.95238.95210.51738.95238.9523.68913.66313.66321.8446.828

24、45.7801.8446.82845.7803.34312.38126.04531.6456.09451.8741.6456.09451.8743.28812.17638.22141.4185.25157.1251.4185.25157.1252.6119.67147.89251.1554.27761.4021.1554.27761.4022.3588.73456.62661.0433.86365.2651.0433.86365.2652.3338.63965.2657.9723.60268.8678.8773.24872.1149.7662.83774.95210.7052.61177.56

25、311.6752.50080.06212.6482.40182.46413.5652.09284.55614.5001.85386.40915.4891.80988.21816.4641.71889.93617.4201.55791.49318.3801.40692.89919.3501.29794.19620.2941.09095.28621.2731.01096.29622.243.90097.19623.196.72597.92024.179.66298.58225.157.58099.16226.132.48899.65027.094.350100.000ExtractionMetho

26、d:PrincipalComponentAnalysis.Component MatrixaComponent123456d1.802-.252-.129.139.137d2.805-.257.152d3.799-.187-.109.114d4.404-.417-.166.285-.109d5.695-.148.217d6.820-.254-.142.112d7.749-.213-.244f1.408.386.134.531.153-.209f2.511.205-.125.481f3.586.275.393-.184f4.472.180.410.294h1.457.336-.317.307h2

27、.517-.165.497.272h3.416.298.251.518h4.428.579-.419h5.460-.249.380-.135.286-.330h6.387.635-.172n1.824-.294-.144n2.786-.138-.180-.185n3.398.103.152-.619n4.694-.224-.164-.212n5.756.112-.158-.105n6.760-.122-.132-.393s1.614.512-.248.102s2.623.373-.157.209.128s3.441.673-.326s4.691.302-.259.283ExtractionMe

28、thod:PrincipalComponentAnalysis.a.6componentsextracted.Rotated Component MatrixaComponent123456d1.653.315.151.317.174.287d2.600.350.387d3.561.340.347d4.655.139d5.555.183.249d6.661.362.188.273.206.234d7.614.321f1.159.771.245f16.675.132f29.677.157f22.528.434h1.154.313-.197.289.524h2.170.427.633h27h94h5.377.109.685h6-.164.200.621.359n1.327.680.267.172.323.1

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論