最新多元統(tǒng)計(jì)分析整理版

上傳人：y*** IP屬地：天津上傳時(shí)間：2021-12-16 格式：DOCX 頁(yè)數(shù)：16 大?。?7.23KB 積分：18 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩11頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、精品文檔精品文檔1主成分分析的目的是什么？主成分分析是考慮各指標(biāo)間的相互關(guān)系，利用降維的思想把多個(gè)指標(biāo)轉(zhuǎn)換成較少的幾個(gè)相互獨(dú)立的、能夠解釋原始變量絕大部分信息的綜合指標(biāo)，從而使進(jìn)一步研究變得簡(jiǎn)單的一種統(tǒng)計(jì)方法。它的目的是希望用較少的變量去解釋原始資料的大部分變異，即數(shù)據(jù)壓縮，數(shù)據(jù)的解釋。常被用來(lái)尋找判斷事物或現(xiàn)象的綜合指標(biāo)，并對(duì)綜合指標(biāo)所包含的信息進(jìn)行適當(dāng)?shù)慕忉尅?、主成分分析基本思想？主成分分析就是設(shè)法將原來(lái)指標(biāo)重新組合成一組新的互相無(wú)關(guān)的幾個(gè)綜合指標(biāo)來(lái)代替原來(lái) 指標(biāo)。同時(shí)根據(jù)實(shí)際需要從中選取幾個(gè)較少的綜合指標(biāo)盡可能多地反映原來(lái)的指標(biāo)的信息。設(shè)p個(gè)原始變量為Xi，X2,，X，新的變量（即主成

2、分）為 yi，; ， y p ，砌為第i個(gè)主成分卅和原棄的第j個(gè)變量旳之間的線性相關(guān)系數(shù)，稱為載荷（loading）.比如，眄表示第4主成分和原來(lái)的第彳個(gè)變量之間的相關(guān)系數(shù)，衍“表示第2主成分和原來(lái)的第1個(gè)變量之間的相關(guān)系數(shù)主成分和原始變量之間的關(guān)系表示為？Ji =訃+ eg +十形=角1石十如兀4h 口QpE + ap2x2 + + %主成分分析的數(shù)學(xué)模型3、在進(jìn)行主成分分析時(shí)是否要對(duì)原來(lái)的p個(gè)指標(biāo)進(jìn)行標(biāo)準(zhǔn)化？ SPSS軟件是否能對(duì)數(shù)據(jù)自動(dòng)進(jìn)行標(biāo)準(zhǔn)化？標(biāo)準(zhǔn)化的目的是什么？需要進(jìn)行標(biāo)準(zhǔn)化，因?yàn)橐蛩刂g的數(shù)值或者數(shù)量級(jí)存在較大差距，導(dǎo)致較小的數(shù)被淹沒(méi)，導(dǎo)致主成分偏差較大，所以要

3、進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化；進(jìn)行主成分分析時(shí) SPSS可以自動(dòng)進(jìn)行標(biāo)準(zhǔn)化；標(biāo)準(zhǔn)化的目的是消除變量在水平和量綱上的差異造成的影響。求解步驟對(duì)原來(lái)的p個(gè)指標(biāo)進(jìn)行標(biāo)準(zhǔn)化，以消除變量在水平和量綱上的影響根據(jù)標(biāo)準(zhǔn)化后的數(shù)據(jù)矩陣求出相關(guān)系數(shù)矩陣求出協(xié)方差矩陣的特征根和特征向量確定主成分，并對(duì)各主成分所包含的信息給予適當(dāng)?shù)慕忉尠姹径焊鶕?jù)我國(guó)31個(gè)省市自治區(qū)2006年的6項(xiàng)主要經(jīng)濟(jì)指標(biāo)數(shù)據(jù)，表二至表五，是SPSS 的輸出表，試解釋從每張表可以得出哪些結(jié)論，進(jìn)行主成分分析，找出主成分并進(jìn)行適當(dāng) 的解釋：（下面是SPSS的輸出結(jié)果，請(qǐng)根據(jù)結(jié)果寫(xiě)出結(jié)論）表一：數(shù)據(jù)輸入界面ABCDEFG1人均GDF（元）財(cái)取收入萬(wàn)兀）固定

4、資產(chǎn)投資（億元）年耒總?cè)丝?厲人）居民消費(fèi)水平社合消費(fèi)晶零騎額（5c/A）（低）二2北京50467111715143295. 41531167703275.2P天S4116341704791妙51075105641356.64河北16962620534054T0. 2639343453397.45山函1412358337522255.733T548431613.46內(nèi)慕古20053343377433&3. 2239758001595.37遼寧217G891767185539. £427169293434.6表二：數(shù)據(jù)輸出界面a）均)p mgdn費(fèi)資定投固產(chǎn)純An居費(fèi)戕總

5、嗥PD 耶人 on ati elF co00370263091w.967436706700o23 s56039692426323800387239910550387ji n-JI6067717 s9396.32766 n-J001424K 罰 s 費(fèi) BE 自 tt63A.92423977144200此表為相關(guān)系數(shù)矩陣，表示的是各個(gè)變量之間的相關(guān)關(guān)系，說(shuō)明變量之間存在較強(qiáng)的相關(guān)系數(shù)，適合做主成分分析。觀察各相關(guān)系數(shù)，若相關(guān)矩陣中的大部分相關(guān)系數(shù)小于0.3,則不適合作因子分析。Totnl Variance ExplahedComponentInitial EigenvaluesExtracti

6、or Sums of Squared LoadingsTotal% of VarianceCumulative %Total% ofVarianceCumulative %3.96366.05266.0523.95366.05266.0522177129.51995.570177129.51895.5703/I 282.12697.6994.0951.59999.2975.026433997206017.290100.000Extraction Method: Principal Component Analysis.表三為各成分的總解釋方差表。comp on e nt為各成分的序號(hào)；ini

7、tial Eige nvalues是初始特征值，total是各成分的特征值，% of varianee是各成分的方差占總方差的百分比（貢獻(xiàn)率）。Cumulative%是累計(jì)貢獻(xiàn)率，表明前幾個(gè)成分可以解釋總方差的百分?jǐn)?shù)。Extraction sums是因子提取結(jié)果。一般來(lái)說(shuō)，當(dāng)特征根需大于1，主成分的累計(jì)方差貢獻(xiàn)率達(dá)到80%以上的前幾個(gè)主成分，都可以選作最后的主成分。由表可知，第一個(gè)主成分的特征根為3.963,方差貢獻(xiàn)率為66.052%，這表示第一個(gè)主成分解釋了原始6個(gè)變量66.052%的信息，可以看出前兩個(gè)成分所解釋的方差占總方差的95.57%，僅丟失了 4.43%的信息。因此最后結(jié)果是提取兩

8、個(gè)主成分。在extraction sums of squared loadings 欄，自動(dòng)提取了前兩個(gè)公因子，因?yàn)榍皟蓚€(gè)公因子就可以解釋總方差的絕大部分95.6%。表四是表示各成分特征值的碎石圖?？梢钥闯鲆蜃?與因子2,以及因子2與因子3之間的特征值之差值比較大。而因子 3、4、5之間的特征值差值都比較小，可以初步得出保留兩個(gè)因子將能概括絕大部分信息。明顯的拐點(diǎn)為 3,因此提取2個(gè)因子比較合適。證實(shí)了表三中的結(jié)果。碎石圖(Scree Plot)，從碎石圖可以看到 6個(gè)主軸長(zhǎng)度變化的趨勢(shì)。實(shí)踐中，通常選擇碎石圖中變化趨勢(shì)出現(xiàn)拐點(diǎn)的前幾個(gè)主成分作為原先變量的代表，該例中選擇前兩個(gè)主成分即

9、可。Coniponent Mjfrix3Component12人均GDP.670.725財(cái)瑚攵入.976.055固定資產(chǎn)投資.896-.351年末總?cè)丝?633-.728居民消費(fèi)水平.674.721社會(huì)消費(fèi)品零售總額.950-.263Extraction Method: Principal ComponentAnaiysisa. 2 components extracted.表五是初始提取的成分矩陣，它顯示了原始變量與各主成分之間的相關(guān)系數(shù)，表中的每一列表示一個(gè)主成分作為原來(lái)變量線性組合的系數(shù)，也就是主成分分析模型中的系數(shù)aj。比如，第一主成分所在列的系數(shù)0.670表示第1個(gè)主成分和原來(lái)的第一

10、個(gè)變量(人均GDP)之間的線性相關(guān)系數(shù)。這個(gè)系數(shù)越大，說(shuō)明主成分對(duì)該變量的代表性就越大。第一主成分(component 1)對(duì)財(cái)政收入，固定資產(chǎn)投資，社會(huì)消費(fèi)品零售總額有絕對(duì) 值較大的相關(guān)系數(shù)；第二主成分(component 2)對(duì)人均gdp，年末總?cè)丝冢用裣M(fèi)水平有絕對(duì)值較大的相關(guān)系數(shù)?？梢苑至韾牌溥M(jìn)行命名。« =0.670% +0.976X2 +0.896x3 +0.633X4 +0.674X5 +0.950x6y2 U0.725X! +0.055x2 0.351x3 -0.728x4 +0.721x5 0.263x6版本一：根據(jù)我國(guó) 31個(gè)省市自治區(qū)2006年的6項(xiàng)主要經(jīng)濟(jì)

11、指標(biāo)數(shù)據(jù)，進(jìn)行因子分析，對(duì) 因子進(jìn)行命名和解釋，并計(jì)算因子得分和排序。表一數(shù)據(jù)輸入界面：ABCDEFG1地區(qū)人均GDP元）財(cái)政收入（萬(wàn)兀）固定資產(chǎn)投資（億元）年末總?cè)丝?厲人）居民消費(fèi)水平阮從）社合消費(fèi)品零昔總額億元）2北京5O45T111715143296.41581167703275.23:天it4116341704791020 5107510564139.84:河北1696262053405470.268934945339T,45山西1412358337522255.733754S431613.46:內(nèi)螢古20D5334337743363.2239758001595.37:遼寧217

12、8881767185689.6427169293434.6表二因子分析SPSS輸出界面a）KMO and Bdifletl's TestKaiser-Meyer*Olkin Measure of Sampling Adequacy695Bartlett's Test ofApprox. Chi-Sciuare277 025Sphericitydf15Sig.000KMO統(tǒng)計(jì)量為0.695，接近0.7,表明6個(gè)變量之間有較強(qiáng)的相關(guān)關(guān)系。適合作因子分析。 Bartlett球度檢驗(yàn) 統(tǒng)計(jì)量為277.025。檢驗(yàn)的P值接近0,拒絕原假設(shè)，認(rèn)為相關(guān)系數(shù)與單位陣有顯著差異?？梢砸蜃臃治觥?/p>

13、表三因子分析SPSS輸出界面b）CoiniininalitiesInitialExtraction人均GDP1.000.975財(cái)現(xiàn)攵入1.000.956固軽產(chǎn)投瓷1 000.927年末總?cè)丝?.000.930居民消費(fèi)水平1 000.974社會(huì)消費(fèi)品零售總額1 000.972Extraction Method: Principal Component Aralysis.表三為公因子提取前和提取后的共同度表，initial列提取因子前的各變量的共同度；extraction列是按特定條件（如特征值>1 ）提取公因子時(shí)的共同度，表中的共同度都很高，說(shuō)明提取的成分能很好的描述這些變量。所有變量的共

14、同度量都在80%以上，因此，提取出的公因子對(duì)原始變量的解釋能力應(yīng)該是很強(qiáng)的。變量Xi的信息能夠被k個(gè)公因子解釋的程度表四因子分析SPSS輸出界面c）nitial EigervaluesExtraction Sums of Squared LoadingsRotation Sums ot SquaredLoadingsComp QnentTotalV 講ionceCumlative %Total% of VarianceCumulative%Total% of VarianceCumulative %13 96366J05266.0523J96366.05266.0523d 9753.2945

15、328421.7712951B95.570'-129.518955702.53742.296S557031282.12897.6984.09515S999.2675.026.43399.7206017280IOOjOOOExlraction Method: Principal Component Analysis.表四為各成分的總解釋方差。 Component表示按特征值大小排序的因子編號(hào)。Initial下分別給出了相關(guān)系數(shù)矩陣的特征值、方差貢獻(xiàn)率和累計(jì)方差貢獻(xiàn)率。Extraction是所提取的公因子未經(jīng)旋轉(zhuǎn)情況下的特征值，方差貢獻(xiàn)了和累計(jì)方差貢獻(xiàn)率。Rotation項(xiàng)下是旋轉(zhuǎn)后的?！?/p>

16、 Rotation Sums of Squared Loadings部分是因子旋轉(zhuǎn)后對(duì)原始變量方差的解釋情況。旋轉(zhuǎn)后的累計(jì)方差沒(méi)有改變，只是兩個(gè)因子所解釋的原始變量的方差發(fā)生了一些變化。95.57%表明提取的兩個(gè)公共因子的方差可以解釋總方差的95.57%。第j個(gè)公因子對(duì)變量Xi的提供的方差總和，反映第 j個(gè)公因子的相對(duì)重要程度Rotated Component MJrtiix*Component12人均GDP112.931財(cái)政收入.755.622固宦資產(chǎn)投澆.931.247年末總?cè)丝?941-.213居民消費(fèi)水平.117.380社會(huì)消費(fèi)品零售總頷922349Extraction MetTio

17、d: Principal Component AnalysisRotati n Method: Varimaxwith Kaiser Normalization.Rotation converged in 3 Iterations.旋轉(zhuǎn)后成分矩陣。第一個(gè)因子與年末總?cè)丝?、固定資產(chǎn)投資、社會(huì)消費(fèi)品零售總額、財(cái)政收入這幾個(gè)載荷系數(shù)較大，主要解釋了這幾個(gè)變量。從實(shí)際意義上看，可以把因子1姑且命名為“經(jīng)濟(jì)水平”因子。而第二個(gè)因子與人均GDP、居民消水平這兩個(gè)變量的載荷系數(shù)較大，主要解釋了這兩個(gè)變量，從實(shí)際意義看，可以將因子2姑且命名為“消費(fèi)水平”因子i=0.112£+ 0.981f.:=0

18、.755Z+ 0.6223 二 0.931/i+ 0.247A4 = 0.941-0.2135 二 0.117+ 0.9806 = 0.922z+ 0.349表達(dá)式中的Xj己經(jīng) 不是原始變量，而是標(biāo)準(zhǔn)化變量子分析的數(shù)學(xué)模型Scoi e Coefficieirt M<itn ixComponent12人坨GM-.1 05.430財(cái)政收入.1 80J 71固定澆產(chǎn)投資.300-.026年末穆人口.372-.237居民消贊水平-.1 04.429社會(huì)消費(fèi)品零售怠顫.201.022Extraction Method!： FriniCiipal CorrnpOini©nt Analys

19、is.Roistion Metliotli varimax with Kaiser Normalization.表五是因子得分系數(shù)矩陣。根據(jù)因子得分和原始變量的標(biāo)準(zhǔn)化值可計(jì)算每個(gè)觀測(cè)量的各因子的分?jǐn)?shù)。由因子得分系數(shù)矩陣，可以將公因子表示為a得到的因子得分函數(shù)為£ =-0J05 +0.180i2 +0.300可 +O.372x4 -0.104x5 +0.28 lx6 f2 =0A30x1 +0.171x2-0.026x3 -0237x4+0,429,r5 +0.022x6因子得分函數(shù)上面表達(dá)式中的為標(biāo)淮代變量.根據(jù)這一表達(dá)式便可以計(jì)算每個(gè)地區(qū)對(duì)應(yīng) 的第一個(gè)因子和第二個(gè)因子的取值也稱

20、為因子得分（factor score）, 有了因子得分*就可以對(duì)每個(gè)地區(qū)分別按照前面命名的“經(jīng)濟(jì)水平戶因子和“消費(fèi)水平刁因子進(jìn)行評(píng)價(jià)和排序4、因子分析基本思想？因子分析是利用降維的思想，由研究原始變量相關(guān)矩陣內(nèi)部的依賴關(guān)系出發(fā)，把一些具有錯(cuò)綜復(fù)雜關(guān)系的變量歸結(jié)為少數(shù)幾個(gè)綜合因子的一種多變量統(tǒng)計(jì)分析方法。因子分析的基本思想是根據(jù)相關(guān)性的大小將原始變量分組，使得組內(nèi)的變量之間相關(guān)性較高，而不同組的變量之間相關(guān)性較低。每組變量代表一個(gè)基本結(jié)構(gòu)，并用一個(gè)不可觀測(cè)的綜合變量表示，這個(gè)基本結(jié)構(gòu)就稱為公共因子。對(duì)于所研究的某一具體問(wèn)題，原始變量可以分解為兩部分之和的形式，一部分是少數(shù)幾個(gè)不可測(cè)的所謂公共

21、因子的線性函數(shù)，另一部分是與公共因子無(wú)關(guān)的特殊因子。x x x設(shè)p個(gè)原始變量為2， k，要尋找的m個(gè)因子（mvk）為仃，f2,，fm ，因子和原始變量之間的關(guān)系表達(dá)式為？x!=叭人州 f2 aim fm ' eiX2 = a21 f1 a22f2a2m fm e2xk _ ak1 f1ak2 f2akm fm em系數(shù)a為第個(gè)i變量與第k個(gè)因子之間的線性相關(guān)系數(shù)，反映變量與因子之間的相關(guān)程度，也稱為載荷（loading）。由于因子出現(xiàn)在每個(gè)原始變量與因子的線性組合中，因此也稱為公因子。為特殊因子，代表公因子以外的因素影響5、因子分析的目的是什么？因子分析是從多個(gè)變量指標(biāo)中選擇出少數(shù)幾

22、個(gè)綜合變量指標(biāo)，以較少的幾個(gè)因子反映原始資料的大部分信息的一種降維的多元統(tǒng)計(jì)方法。求解步驟1）對(duì)原始數(shù)據(jù)標(biāo)準(zhǔn)化2）建立相關(guān)系數(shù)矩陣 R （因子提?。?）求R的單位特征根入與特征向量U ;4）因子旋轉(zhuǎn)求因子載荷矩陣 A ;5）寫(xiě)出因子模型X=AF+E6）建立因子得分矩陣 P7）寫(xiě)出因子得分模型 F=P'X（因子提取的方法：主成分法、不加權(quán)最小平方法、加權(quán)最小平方法、最大似然法、主軸因子法；旋轉(zhuǎn)方法為：方差最大正交旋轉(zhuǎn)、四次方最大正交旋轉(zhuǎn)、平方最大正交旋轉(zhuǎn)、斜交旋轉(zhuǎn)、Promax :該方法在方差最大正交旋轉(zhuǎn)的基礎(chǔ)上進(jìn)行斜交旋轉(zhuǎn)）6、什么是變量共同度？寫(xiě)出變量共同度的表達(dá)式。變量Xi的

23、信息能夠被k個(gè)公因子解釋的程度，用k個(gè)公因子對(duì)第i個(gè)變量人的方差貢獻(xiàn)率表示mp222222Di = ai! + ai2 + aim =無(wú) aijhi =昱 aij （j =1,2，， k）j呂i7、什么是公共因子方差貢獻(xiàn)率？寫(xiě)出公共因子方差貢獻(xiàn)率表達(dá)式。第j個(gè)公因子對(duì)變量Xi的提供的方差總和，反映第 j個(gè)公因子的相對(duì)重要程度kg：八 a2 （i =1,2，-, p）jm8因子分析中 KMO檢驗(yàn)主要檢驗(yàn)什么？KMO越接近1,變量間的相關(guān)性越強(qiáng)KMO在0.8以上，說(shuō)明該問(wèn)題適合做因子分析。KMO統(tǒng)計(jì)量在0.7以上時(shí)，因子分析效果較好；KMO統(tǒng)計(jì)量在0.5以下時(shí)，因子分析效果很差KMO （ Kai

24、ser-Meyer-Olkin）檢驗(yàn)統(tǒng)計(jì)量是用于比較原始變量間簡(jiǎn)單相關(guān)系數(shù)和偏相關(guān)系數(shù)的指標(biāo)。當(dāng)所有變量間的簡(jiǎn)單相關(guān)系數(shù)平方和遠(yuǎn)遠(yuǎn)大于偏相關(guān)系數(shù)平方和時(shí)，KMO值接近1，KMO越接近1，變量間的相關(guān)性越強(qiáng)。當(dāng)所有變量間的簡(jiǎn)單相關(guān)系數(shù)平方和接近0時(shí)，KMO值接近0.KMO值越接近于0,意味著變量間的相關(guān)性越弱，原有變量越不適合作因子分析。Kaiser給出了常用的 kmo度量標(biāo)準(zhǔn)：0.9以上表示非常適合；0.8表示適合；0.7表示一般；0.6表示不太適合；0.5以下表示極不適合。Bartlett球度檢驗(yàn)：以變量的相關(guān)系數(shù)矩陣為基礎(chǔ)，假設(shè)相關(guān)系數(shù)矩陣是單位陣（對(duì)角線元素不為0,非對(duì)角線元素

25、均為 0）。如果相關(guān)矩陣是單位陣，則各變量是獨(dú)立的，無(wú)法進(jìn)行因子分析。9、因子分析中公因子個(gè)數(shù)確定的依據(jù)是什么？用公因子方差貢獻(xiàn)率提?。阂话憷塾?jì)方差貢獻(xiàn)率達(dá)到80%以上的前幾個(gè)因子可以作為最后的公因子用特征根提?。阂话阋笠蜃訉?duì)應(yīng)的特征根要大于1,因?yàn)樘卣鞲∮?說(shuō)明該公因子的解釋力度太弱，還不如使用原始變量的解釋力度大碎石圖中變化趨勢(shì)出現(xiàn)拐點(diǎn)的前幾個(gè)主成分10、因子分析中因子旋轉(zhuǎn)（factor rotation）的目的是什么？什么是因子得分（factor score）?因子旋轉(zhuǎn)的目的使得因子載荷系數(shù)盡可能兩極分化，使因子載荷系數(shù)向_1或0靠近，使得某一個(gè)變量值在某一個(gè)因子上的載荷系數(shù)大

26、，從而更清楚地看出各因子與原始變量的相關(guān)性大小，使因子的含義更加清楚，以便于對(duì)因子的命名和解釋。因子得分就是每個(gè)觀測(cè)量的共同因子的值。根據(jù)因子得分系數(shù)和原始變量的標(biāo)準(zhǔn)化值可以計(jì)算每個(gè)觀測(cè)量的各因子的分?jǐn)?shù)，因子得分=x1*對(duì)應(yīng)權(quán)重+x2*對(duì)應(yīng)權(quán)重+xn*對(duì)應(yīng)權(quán)重，根據(jù)因子得分我們可以寫(xiě)出因子表達(dá)式。二32X2bpXpPiXi F22X2b2pXp-bkiXi - bk2X2 -bkpXp因子得分是各變量的線性組合11、簡(jiǎn)述因子分析與主成分分析的區(qū)別。主成分分析和因子分析是兩種把變量維度降低以便于描述、理解和分析的方法。1在SPSS分析中，因子分析必須進(jìn)行因子旋轉(zhuǎn)，主成分分析不一定要旋轉(zhuǎn)。故公共

27、因子往往可以找到實(shí)際意義，而主成分一般不能解釋實(shí)際意義；2因子分析法是對(duì)你所分析的變量的抽?。ㄒ蜃樱鞒煞址治龇ㄊ菍?duì)你所分析的變量的概括（指標(biāo)）；3因子模型中除了公共因子還有特殊因子，公共因子只解釋了原變量的部分方差，而主成分解釋了原變量全部方差；4因子分析是把變量表示成各因子的線性組合，而主成分則是把主成分表示成各變量的線性組合；5主成分分析中不需要有一些專門假設(shè)，因子分析則需要一些假設(shè)。因子分析的假設(shè)包括：各個(gè)共同因子之間不相關(guān)，特殊因子之間也不相關(guān)，共同因子和特殊因子之間也不相關(guān)；6提取主因子的方法不僅有主成分法，還有極大似然法，基于這些不同算法得到的結(jié)果一般也不同。而主成分只能用

28、主成分法提??；7主成分分析中，當(dāng)給定的協(xié)方差矩陣或者相關(guān)矩陣的特征值唯一時(shí)，主成分一般是固定的；而因子分析中，因子不是固定的，可以旋轉(zhuǎn)得到不同的因子；8在因子分析中，因子個(gè)數(shù)需要分析者指定（spss根據(jù)一定的條件自動(dòng)設(shè)定，只要是特征值大于1的因子進(jìn)入分析），而指定的因子數(shù)量不同而結(jié)果不同。在主成分分析中，成分的數(shù)量是一定的，一般有幾個(gè)變量就有幾個(gè)主成分。12、聚類分析基本思想及分類聚類分析就是按照對(duì)象之間的相似”程度把對(duì)象進(jìn)行分類。聚類分析的對(duì)象”可以是所觀察的多個(gè)樣本，也可以是針對(duì)每個(gè)樣本測(cè)得的多個(gè)變量。對(duì)樣品的分類稱為 Q型聚類；對(duì)變量的分類，則稱為R型聚類Q聚類是根據(jù)被觀測(cè)對(duì)象的

29、各種特征，即反映被觀測(cè)對(duì)象的特征的各變量值進(jìn)行分類。R聚類是根據(jù)所研究的問(wèn)題選擇部分變量對(duì)事物的某一方面進(jìn)行研究。按對(duì)象的相似”程度分類對(duì)變量進(jìn)行聚類可以用夾角余弦、Pearson相關(guān)系數(shù)等工具，也稱為相似系數(shù)對(duì)樣本聚類則使用距離”求解步驟1）先對(duì)數(shù)據(jù)進(jìn)行變換處理，消除量綱對(duì)數(shù)據(jù)的影響；2）認(rèn)為各樣本點(diǎn)自成一類（即n個(gè)樣本點(diǎn)一共有n類），然后計(jì)算各樣本點(diǎn)之間的距離, 并將距離最近的兩個(gè)樣本點(diǎn)并成一類；3）選擇并計(jì)算類與類之間的距離，并將距離最近的兩類合并；4）重復(fù)上面作法直至所有樣本點(diǎn)歸為所需類數(shù)為止；5）最后繪制聚類圖。13、相似性的度量1）在對(duì)樣本進(jìn)行分類時(shí)，度量樣本之間的相似性使用點(diǎn)間距

30、離。歐式距離p(Xi -yi)2V 7絕對(duì)值距離pzi 7xi - yj切比雪夫距離maxxi - yi明氏距離xi - Yiq蘭氏距離2）在對(duì)變量進(jìn)行分類時(shí)，度量變量之間的相似性常用相似系數(shù)，測(cè)度方法有夾角余弦送Xj%cosxv = i |任忍y2Pearson相關(guān)系數(shù)遲(x -刃(Yi -Ysixy 店(x -刃2遲(yy)2夾角余弦，如果Xi與Xj比較相似，則他們的夾角接近0,從而COSxy接近1。Pearson相關(guān)系數(shù)，相關(guān)系數(shù)越接近于1或-1，越相似；彼此無(wú)關(guān)的變量，他們的相關(guān)系數(shù)接近0。15、系統(tǒng)聚類和快速聚類的特點(diǎn)分別是什么？（版本一）系統(tǒng)聚類事先不確定要分多少類，而是先把每一個(gè)

31、對(duì)象作為一類，然后一層一層進(jìn)行分類。根據(jù)運(yùn)算的方向不同，層次聚類法又分為合并法和分解法，兩種方法的運(yùn)算原理一樣，只是方向相反?？焖倬垲惙ㄊ歉鶕?jù)事先確定的K個(gè)類別反復(fù)迭代直到把每個(gè)樣本分到指定的類別中。類別數(shù)目的確定具有一定的主觀性，究竟分多少類合適，取決于研究者對(duì)研究問(wèn)題的了解程度、相關(guān)知識(shí)和經(jīng)驗(yàn)。快速聚類特點(diǎn)：處理速度快，占用內(nèi)存少，適用于大樣本的聚類分析。16、七個(gè)樣品之間的相似系數(shù)矩陣如下，試對(duì)這七個(gè)樣品進(jìn)行聚類，并畫(huà)出譜系圖。12345671廣120.51130.940.83140.810.910.86150.970.010.540.74160.200.670.920.150.52

32、170240.410.200.300.160.241答案：X1X5X3X2X4X6X717、層次聚類法（合并法和分解法）計(jì)算類間距離有多種方法，試寫(xiě)出兩種方法。最短距離袪 (Nearest neighbor)Dki min </尤瀉巧£旳 7最長(zhǎng)距離袪 (Furthest neighbor)Dtl = max普3盧g 7重心袪(Centroid clustering)-XfUlc 旳)組間平均距離(Between-groups linkage)離差平方和袪（Ward's method）最短距離法（最近鄰法）：首先合并最近的或最相似的兩類，用兩類間最近點(diǎn)的距離代表兩類

33、之間的距離。最長(zhǎng)距離法：用兩類間最遠(yuǎn)點(diǎn)的距離代表兩類之間的距離。重心法：用兩類重心之間的距離表示兩類之間的距離。組間平均距離法：SPSS默認(rèn)，是用兩類中間各個(gè)數(shù)據(jù)點(diǎn)之間的距離的平均來(lái)表示兩類之間的距離，既不是最大距離也不是最小距離。離差平方和距離法：常用，使各類別中的離差平方和較小，而不同類別之間的離差平方和較大。18、K-均值聚類是針對(duì)樣品（CASE ）的聚類還是針對(duì)變量的聚類？K-均值聚類是針對(duì)樣品（case）的聚類，需要單獨(dú)做標(biāo)準(zhǔn)化處理，而后再進(jìn)行聚類。19、判別分析簡(jiǎn)述Fisher's判別的原理。建立 Fisher判別函數(shù)的準(zhǔn)則是什么？再進(jìn)行分類(Fisher判別，亦稱典則

34、判別，是將自變量投影到較低維度的空間,相當(dāng)于將自變量先提取幾個(gè)主成分，只需根據(jù)主成分分類。Fisher準(zhǔn)則：使得綜合指標(biāo)Z在A類的均數(shù)ZA與在B類的均數(shù)ZB的差異ZA _ZB盡可能大，而兩類內(nèi)綜合指標(biāo) Z的變異sA - sB盡可能小) 解讀spss輸出結(jié)果。判別分析是在已知研究對(duì)象分成若干類型并已取得各種類型的一批已知樣品的觀測(cè)數(shù) 據(jù)，在此基礎(chǔ)上根據(jù)某些準(zhǔn)則建立判別式，然后對(duì)未知類型的樣品進(jìn)行判別分類。求解步驟Step 01計(jì)算需要用到的一些反映樣品特征的值，比如均值、協(xié)方差陣*等等.根據(jù)一定的原則建立判別函數(shù)V = C1.T|-K2，V3 + + 為判別函數(shù)的一骰形式，建立判別函數(shù)就是要

35、確定這些系數(shù).確定判別準(zhǔn)則.有的判別準(zhǔn)肌需要計(jì)算一些判別時(shí)用到的參數(shù)，比如阿對(duì)噸判別需要計(jì)算臨界值.對(duì)待判樣昌判別歸類*20、常用判別方法1) 距離判別法：基本思想是，先根據(jù)已知分類的數(shù)據(jù)，分別計(jì)算各類的重心，然后計(jì)算待判樣本與各類的距離，與哪一類距離最近，就判待判樣本x屬于哪一類。判別函數(shù)為：W(x)=D(x,G2)-D(x,G1)X G ,當(dāng) W(x) 0x G2 ,當(dāng) W(x) ：0判別準(zhǔn)則為：待判，當(dāng)W(x)=°注意：距離一般采用馬氏距離；適合對(duì)自變量均為連續(xù)變量的情況進(jìn)行分類；對(duì)各類的分布無(wú)特定的要求。2) Fisher判別法：基本思想是通過(guò)將多維數(shù)據(jù)投影至某個(gè)方向上

36、，投影的原則是將總體與總體之間盡可能分開(kāi)，然后再選擇合適的判別規(guī)則，將待判的樣本進(jìn)行分類判別。所謂的投影實(shí)際上是利用方差分析的思想構(gòu)造也一個(gè)或幾個(gè)超平面，使得兩組間的差別最大，每組內(nèi)的差別最小。費(fèi)歇爾判別函數(shù)為：y =(Xi -X2)跖xx：=Gyy2,yy°xG2yiy2,y：y。xG2%：y2, yy其判別準(zhǔn)則是xGy：y2, y:y°Fisher判別對(duì)各類分布、方差都沒(méi)有限制。但當(dāng)總體個(gè)數(shù)較多時(shí)，計(jì)算比較麻煩。建立Fisher判別函數(shù)的準(zhǔn)則是：使得綜合指標(biāo)Z在A類的均數(shù)ZA與在B類的均數(shù) ZB的差異ZA -ZB盡可能大，而兩類內(nèi)綜合指標(biāo)Z的變異SA +SB盡可能小

37、3) Bayes判別法：基本思想是：設(shè)有兩個(gè)總體，它們的先驗(yàn)概率分別為q1、q2,各總體的密度函數(shù)為f1(x)、f2(x)，在觀測(cè)到一個(gè)樣本 x的情況下，可用貝葉斯公式計(jì)算它來(lái)自第k個(gè)P(Gk/x) = 2qkfk(x)k=1,2送 qkfk(x)總體的后驗(yàn)概率為：k 4一種常用判別準(zhǔn)則是：對(duì)于待判樣本X,如果在所有的 P(Gk/x)中P(Gh/x)是最大的，則判定x屬于第h總體。通常會(huì)以樣本的頻率作為各總體的先驗(yàn)概率。Bayes判別主要用于多類判別，它要求總體呈多元正態(tài)分布4) 逐步判別法：逐步判別法與逐步回歸法的基本思想類似，都是逐步引入變量，每引入一個(gè)“最重要”的變量進(jìn)入判別式，同時(shí)也考

38、慮較早引入判別式的某些變量，若其判別能力不顯著了，應(yīng)及時(shí)從判別式中剔除去，直到判別式中沒(méi)有不重要的變量需要剔除，且也沒(méi)有重要的變量要引入為止。21、對(duì)Bayes判別法與Fisher判別法作比較(1) (2) (k)(1) 當(dāng)k個(gè)總體的均值向量 x ,x ，x 共線性程度較高時(shí)，F(xiàn)isher判別法可用較少的判別函數(shù)進(jìn)行判別，因而比Bayes判別法簡(jiǎn)單。另外，F(xiàn)isher判別法未對(duì)總體的分布提出什么特定的要求。(2) Fisher判別法的不足是它不考慮各總體出現(xiàn)概率的大小，也給不出預(yù)報(bào)的后驗(yàn)概率及錯(cuò)判率的估計(jì)以及錯(cuò)判之后造成的損失。而這不足恰是Bayes判別法的優(yōu)點(diǎn)，但值得指出的是，如果給定的

39、先驗(yàn)概率不符合客觀實(shí)際時(shí)，Bayes判別法也可能會(huì)導(dǎo)致錯(cuò)誤的結(jié)論。22、簡(jiǎn)述判別分析與聚類分析的區(qū)別。判別分析已知研究對(duì)象分為若干個(gè)類別，并且已經(jīng)取得每一類別的若干觀測(cè)數(shù)據(jù)，在此基礎(chǔ)上尋求出分類的規(guī)律性，建立判別準(zhǔn)則，然后對(duì)未知類別的樣品進(jìn)行判別分類。聚類分析一批樣品劃分為幾類事先并不知道，需要通過(guò)聚類分析來(lái)給以確定分幾種類型。判別分析與聚類分析不同點(diǎn)在于，判別分析要求已知一系列反映事物特征的數(shù)值變量的值，并且已知各個(gè)體的分類。28、K-均值聚類是否需要在聚類之前先做標(biāo)準(zhǔn)化處理？K-均值聚類是針對(duì)樣品(case)的聚類，需要單獨(dú)做標(biāo)準(zhǔn)化處理，而后再進(jìn)行聚類。各變量的取值不應(yīng)有數(shù)量級(jí)上的

40、過(guò)大差異，否則會(huì)對(duì)分類結(jié)果產(chǎn)生較大影響。這時(shí)需要對(duì)變量進(jìn)行標(biāo)準(zhǔn)化處理(SPSS提供的層次聚類法中在聚類時(shí)可以選擇對(duì)變量做標(biāo)準(zhǔn)化處理，而K-均值聚類法則需要單獨(dú)做標(biāo)準(zhǔn)化處理，爾后再進(jìn)行聚類)各變量間不應(yīng)有較強(qiáng)的相關(guān)關(guān)系。若兩個(gè)強(qiáng)相關(guān)的變量同時(shí)參與聚類分析，在測(cè)度距離時(shí)，就加大了它們的貢獻(xiàn)，而其他變量則相對(duì)被削弱33、簡(jiǎn)述多元線性回歸中，寫(xiě)出兩種多重共線性的診斷方法和解決方案。診斷方法：檢測(cè)多重共線性的最簡(jiǎn)單的一種辦法是計(jì)算模型中各對(duì)自變量之間的相關(guān)系數(shù)，并對(duì)各相關(guān)系數(shù)進(jìn)行顯著性檢驗(yàn)。若有一個(gè)或多個(gè)相關(guān)系數(shù)顯著，就表示模型中所用的自變量之間相關(guān)，存在著多重共線性。如果出現(xiàn)下列情況，暗示存在多重共

41、線性模型中各對(duì)自變量之間顯著相關(guān)當(dāng)模型的線性關(guān)系檢驗(yàn)（F檢驗(yàn)）顯著時(shí)，幾乎所有回歸系數(shù)的t檢驗(yàn)卻不顯著回歸系數(shù)的正負(fù)號(hào)與預(yù)期的相反。解決方案：將一個(gè)或多個(gè)相關(guān)的自變量從模型中剔除，使保留的自變量盡可能不相關(guān)；如果要在模型中保留所有的自變量，則應(yīng)避免根據(jù)t統(tǒng)計(jì)量對(duì)單個(gè)參數(shù)進(jìn)行檢驗(yàn)；對(duì)因變量值的推斷（估計(jì)或預(yù)測(cè)）的限定在自變量樣本值的范圍內(nèi)。34、一家大型商業(yè)銀行在多個(gè)地區(qū)設(shè)有分行，為弄清楚不良貸款形成的原因，抽取了該銀行所屬的25家分行2002年的有關(guān)業(yè)務(wù)數(shù)據(jù)。試建立不良貸款y與貸款余額x1、累計(jì)應(yīng)收貸款x2、貸款項(xiàng)目個(gè)數(shù) x3和固定資產(chǎn)投資額 x4的線性回歸方程，并解釋各回歸系數(shù)的含義AB

42、cDEFG 11SUMMARY OUTPUT23回歸蛻計(jì)4Multiple R0. 09315R Squar e：0. 79766Adjusted R Sqmmre0.75717標(biāo)唯俁差1 7TB88觀測(cè)值2S910方差分析11dfssMSFSiii f i cance F12回歸斗249 371262.342819 TWO1.O354E-0E13殘差2063.2T923.164014總計(jì)24312.&5041516Coeffi eients標(biāo)準(zhǔn)誤差t StatF-valueLower 95養(yǎng)Upptr 95%17Intsrcept-1 02160.7824-1.30580.2064-

43、2. EB3B0.S10418X Variable 10. 04000.01043.83750.00100,01330.061819X Variable 20. 1480o.oree1.8T670.0749-0.01630 312420X Vurible 30. OUS0.08300. LT500.3629-0.15870. 187721X Variable 4-0.02SE0.0151-1 3680 0&70-0.06060.0022上表是計(jì)算機(jī)輸出的結(jié)果。試寫(xiě)出多元線性回歸模型，并進(jìn)行統(tǒng)計(jì)學(xué)檢驗(yàn)。概述表中，看到 R Square=0.7976, Adjusted R Square=

44、0.7571表示模型的擬合優(yōu)度很好。方差分析表中，對(duì)方程的顯著性檢驗(yàn)F對(duì)應(yīng)的sig=1.035E-06，小于0.05，說(shuō)明回歸方程有統(tǒng)計(jì)意義。Coefficients是各個(gè)變量的系數(shù)，由P-value值可以判定，只有變量1的p-value小于0.05，說(shuō)明變量1與因變量y有顯著相關(guān)關(guān)系。回歸模型：Y=0.04*X Variable 1-1.0216.38、簡(jiǎn)述logistic回歸的原理和適用條件。Logistic回歸，是指因變量為二級(jí)計(jì)分或二類評(píng)定的回歸分析。因變量Y是一個(gè)二值變量自變量X1 , X2 ,XmP表示在m個(gè)自變量作用下事件發(fā)生的概率。1P（y " xi,x2Xm） = i e”。1x7-冷適用條件：因變量只有兩個(gè)值，發(fā)生（是）或者不發(fā)生（不是）。自變量數(shù)據(jù)最好為多元正態(tài)分布，自變量間的共線性會(huì)導(dǎo)致估計(jì)偏差。實(shí)際上屬于判別分析，因擁有很差的判別效率而不常用。適用于流行病學(xué)資料的因素分析（驗(yàn)室中藥物的劑量-

人人文庫(kù)> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新多元統(tǒng)計(jì)分析整理版

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

最新多元統(tǒng)計(jì)分析整理版

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔