多元統(tǒng)計(jì)分析重點(diǎn)

上傳人：m*** IP屬地：天津上傳時(shí)間：2022-03-07 格式：DOC 頁(yè)數(shù)：10 大?。?1KB 積分：15 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩5頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第一講：多元統(tǒng)計(jì)方法及應(yīng)用；多元統(tǒng)計(jì)方法分類（按變量、模型、因變量等）多元統(tǒng)計(jì)分析應(yīng)用選擇題：數(shù)據(jù)或結(jié)構(gòu)性簡(jiǎn)化運(yùn)用的方法有：多元回歸分析，聚類分析，主成分分析，因子分析分類和組合運(yùn)用的方法有：判別分析，聚類分析，主成分分析變量之間的相關(guān)關(guān)系運(yùn)用的方法有：多元回歸，主成分分析，因子分析，預(yù)測(cè)與決策運(yùn)用的方法有：多元回歸，判別分析，聚類分析-屮中S因果模型（因變量數(shù)）i多元回歸，判別分析橫貫數(shù)據(jù)：.- I :1多元統(tǒng)計(jì)分析方法選擇題：多元統(tǒng)計(jì)方法的分類：1）按測(cè)量數(shù)據(jù)的來源分為：橫貫數(shù)據(jù)（同一時(shí)間不同案例的觀測(cè)數(shù)據(jù)），縱觀數(shù)據(jù)（同樣案例在不同時(shí)間的多次觀測(cè)數(shù)據(jù)）2 ）按變量的測(cè)度等級(jí)（數(shù)據(jù)類型

2、）分為：類別（非測(cè)量型）變量，數(shù)值型（測(cè)量型）變量3 ）按分析模型的屬性分為：因果模型，相依模型4 ）按模型中因變量的數(shù)量分為：?jiǎn)我蜃兞磕Ｐ停?多因變量模型，多層因果模型第二講：計(jì)算均值、協(xié)差陣、相關(guān)陣；相互獨(dú)立性第三講：主成分定義、應(yīng)用及基本思想，主成分性質(zhì)，主成分分析步驟主成分定義：何謂主成分分析就是將原來的多個(gè)指標(biāo) （變量）線性組合成幾個(gè)新的相互無關(guān)的綜合指標(biāo)（主成分），并使新的綜合指標(biāo)盡可能多地反映原來的指標(biāo)信息。主成分分析的應(yīng)用：（1）數(shù)據(jù)的壓縮、結(jié)構(gòu)的簡(jiǎn)化；（2）樣品的綜合評(píng)價(jià)，排序主成分分析概述一一思想：（ 1）把給定的一組變量 X1,X2,XP,通過線性變換，轉(zhuǎn)換為一組不

3、相關(guān)的變量Y1,Y2,YPo （2）在這種變換中，保持變量的總方差（X1,X2,Xp的方差之和）不變，同時(shí)，使 Y1具有最大方差，稱為第一主成分；Y2具有次大方差，稱為第二主成分。依次類推，原來有P個(gè)變量，就可以轉(zhuǎn)換出P個(gè)主成分（3）在實(shí)際應(yīng)用中，為了簡(jiǎn)化問題，通常找能夠反映原來P個(gè)變量的絕大部分方差的q （q<p）個(gè)主成分。主成分性質(zhì)：1）性質(zhì)1 :主成分的協(xié)方差矩陣是對(duì)角陣：（2）性質(zhì)2:主成分的總方差等于原始變量的總方差（3）性質(zhì)3:主成分Yk與原始變量Xi的相關(guān)系數(shù)為：P（ YK,Xi ） ,tki,并稱之為因子負(fù)荷量（或因子載荷量）。主成分分析的具體步驟：將原始數(shù)據(jù)標(biāo)準(zhǔn)化；建立

4、變量的相關(guān)系數(shù)陣；求的特征根為：L P 0,相應(yīng)的特征向量為T；,T*丄，T；:由累積方差貢獻(xiàn)率確定主成分的個(gè)數(shù)（m ），并寫出主成分為 Y （T*） X*， i 1,2,L ,m第四講：因子分析定義，因子載荷統(tǒng)計(jì)意義，因子分析模型及假設(shè)，因子旋轉(zhuǎn)因子分析定義：因子分析就是通過對(duì)多個(gè)變量的相關(guān)系數(shù)矩陣的研究，找出同時(shí)影響或支配所有變量的共性因子的多元統(tǒng)計(jì)方法。因子載荷統(tǒng)計(jì)意義：1 因子載荷aj的統(tǒng)計(jì)意義對(duì)于因子模型Xi ai1F1 ai2F2 Laij Fj LaimFmi i 1,2,L , p我們可以得到，Xi與Fj的協(xié)方差為：mCov（ Xi,Fj） Cov（aik Fki? Fj ）

5、k 1mCOV（aik Fk > Fj ） COV（ i,Fj）=k 1= aij那么，從上面的分析，我們知道對(duì)于標(biāo)準(zhǔn)化后的Xi , aij是Xi與Fj的相關(guān)系數(shù)，它方面表示Xi對(duì)Fj的依賴程度，絕對(duì)值越大,密切程度越高；另一方面也反映了aij()Cov(Xi，F(xiàn)j)cov(Xi,Fj)j D(Xi) D(Fj)變量Xi對(duì)公共因子Fj的相對(duì)重要性。了解這一點(diǎn)對(duì)我們理解抽象的因子含義有非常重要的作用。22變量共同度hi的統(tǒng)計(jì)意義設(shè)因子載荷矩陣為 A，稱第i行元素的平方和，即mhi2a'i 1,2, L,p()j i為變量Xi的共同度。由因子模型，知D(XJ a：D(Fi) a：

6、D(F2)amD(Fm) D( i)a2a22 L2aimD ( i)()h22ii這里應(yīng)該注意,()式說明變量X i的方差由兩部分組成：第一部分為共同度描述了全部公共因子對(duì)變量Xi的總方差所作的貢獻(xiàn)，反映了公共因子對(duì)變量Xi的影響程度。第二部分為特殊因子i對(duì)變量Xi的方差的貢獻(xiàn)，通常稱為個(gè)性方差。如果對(duì)Xi作了標(biāo)準(zhǔn)化處理，有2 2()1 hiiF23、公因子 j的方差貢獻(xiàn)gj的統(tǒng)計(jì)意義設(shè)因子載荷矩陣為 A，稱第j列元素的平方和，即2 2gj 可 J 1,2,L ,mi 1為公共因子FJ對(duì)X的貢獻(xiàn)，2即gj表示同一公共因子FFj對(duì)各變量所提供的方差貢獻(xiàn)之總和，它是衡量每一個(gè)公共因子相對(duì)重要性

7、的一個(gè)尺度。因子分析模型及假設(shè)數(shù)學(xué)模型：每一個(gè)變量都可以表示成公共因子的線性函數(shù)與特殊因子之和，即：Xi=ai1*F1+a12*F2+ +aim*Fm+£ i （i=1,2,p）式中的 F1,F2,Fm稱為公共因子，t i稱為Xi的特殊因子。該模型可用矩陣表示為：X=AF+ |,且滿足：（1） m菸p（2）Cov（F, ）=0,即公共因子與特殊因子是不相關(guān)的；（3）1,0,000,1,00DF=D(F)= 0,°,°1 =Im,即各個(gè)公共因子不相關(guān)且方差為1 ;( 4 )21,0,0.020, 2,0.020,0,0.D =D（）=p，即各個(gè)特殊因子不相關(guān)，方差

8、不要求相等。因子旋轉(zhuǎn) 因子旋轉(zhuǎn)的目的：初始因子的綜合性太強(qiáng)，難以找出因子的實(shí)際意義，因此需要通過坐標(biāo)旋轉(zhuǎn)，使因子負(fù)荷兩極分化，要么接近于0，要么接近于于1，從而降低因子的綜合性，使其實(shí)際意義凸現(xiàn)出來，以便于解釋因子。3種，常用最大方因子旋轉(zhuǎn)的基本方法：一類是正交旋轉(zhuǎn)（保持因子間的正交性, 差旋轉(zhuǎn)），一類是斜交旋轉(zhuǎn)（因子間不一定正交）公共因子提取個(gè)數(shù)：（1）選特征值大于等于 1的因子（主成分）作為初始因子，通過求響應(yīng)的標(biāo)準(zhǔn)化正交特征向量來計(jì)算因子載荷（2）碎石圖：刪去特征值變平緩的那些因子（ 3）累計(jì)方差貢獻(xiàn)率大于 85%第五講：聚類類型，系統(tǒng)聚類、 K- 均值聚類思想及步驟，系統(tǒng)聚類方法，相

9、似性測(cè)度方法聚類類型：根據(jù)分類的對(duì)象可將聚類分析分為：系統(tǒng)Q型與R型（即樣品聚類與變量聚類）系統(tǒng)聚類、K-均值聚類思想及步驟：系統(tǒng)聚類的基本思想：距離相近的樣本（或變量）先聚成類，距離相遠(yuǎn)的后聚成類，過程一直進(jìn)行下去，每個(gè)樣品（或變量）總能聚到合適的類中。聚類過程及步驟：假設(shè)總共有n個(gè)樣品（或變量），第一步將每個(gè)樣品（或變量）獨(dú)自聚成一類，共有 n 類；第二步根據(jù)所確定的樣品（或變量） “距離”公式，把距離較近的兩個(gè)樣品（或變量）聚合為一類，其它的樣品（或變量）仍各自聚為一類，共聚成n-1類；第三步將“距離”最近的兩個(gè)類進(jìn)一步聚成一類，共聚成n-2類；，以上步驟一直進(jìn)行下去，最后將所

10、有的樣品（或變量）全聚成一類。最后可以畫譜系圖分析。快速聚類的基本思想，步驟：（也稱為K-均值法，逐步聚類，迭代聚類），基本思想是將每一個(gè)樣品分配給最近中心（均值）的類中，具體的算法步驟如下：（1）將所有的樣品分成 K個(gè)初始類；（2）通過歐氏距離將某個(gè)樣品劃入離中心最近的類中，并對(duì)獲得樣品與失去樣品的類，重新計(jì)算重心坐標(biāo)。（ 3）重復(fù)步驟 2，直到所有的樣品都不能再分配時(shí)為止。系統(tǒng)聚類方法：最短距離法（單連接），最長(zhǎng)距離法（完全連接），中間距離法，類平均法（組間平均連接法），可變類平均法，重心法，可變法，離差平方和法相似性測(cè)度方法：不同樣本相似性度量：距離測(cè)度里包括：

11、明氏，馬氏，和蘭式不同變量相似度的度量：包括：夾角余弦，相關(guān)系數(shù)。第六講：判別分析及各判別方法思想，判別分析假設(shè)條件，距離判別與貝葉斯判別關(guān)系判別分析定義：一種進(jìn)行統(tǒng)計(jì)判別和分組的技術(shù)手段。它可以就一定數(shù)量案例的一個(gè)分組變量和相應(yīng)的其他多元變量的已知信息，確定分組與其他多元變量之間的數(shù) 量關(guān)系，建立判別函數(shù) (discriminant Function ) 。然后便可以利用這一數(shù)量關(guān)系對(duì)其他已知多元變量信息、但未知分組類型所屬的案例進(jìn)行判別分組。各判別方法思想：距離判別：求新樣品 X到G的距離與到G2的距離之差，如果其值為正，X屬于G;否則X屬于G Bayes判別：由于k個(gè)總體出現(xiàn)的先驗(yàn)

12、概率分別為qi,qs, ,qk，則用規(guī)則R來進(jìn)行判別所造成的總平均損失為kk kg(R)qir(i,R)qi C(j|i)P(j |i,R)iii i ji()所謂 Bayes 判別法則，就是要選擇，使得()式表示的總平均損失 g(R) 達(dá)到極小。 Fisher判別的基本思想和步驟：從K個(gè)總體中抽取具有p個(gè)指標(biāo)的樣品觀測(cè)數(shù)據(jù)，借助方差分析的思想構(gòu)造一個(gè)線性判別函數(shù)：U(X)= 1X12X2 . PXP 'X ,其中系數(shù)(i, 2,p)'確定的原則是使得總體之間區(qū)別最大，而使每個(gè)總體內(nèi)部的離差最小。有了線性判別函數(shù)后,對(duì)于一個(gè)新的樣品,將它的 P 個(gè)指標(biāo)值代入線性判別函數(shù)式中求

13、出U(X)值，然后根據(jù)判別一定的規(guī)則，就可以判別新的樣品屬于哪個(gè)總體。判別分析假設(shè)條件：判別分析的假設(shè)之一，是每一個(gè)判別變量（解釋變量）不能是其他判別變量的線性組合。即不存在多重共線性問題。判別分析的假設(shè)之二，是各組變量的協(xié)方差矩陣相等。判別分析最簡(jiǎn)單和最常用的形式是采用線性判別函數(shù)，它們是判別變量的簡(jiǎn)單線性組合。在各組協(xié)方差矩陣相等的假設(shè)條件下，可以使用很簡(jiǎn)單的公式來計(jì)算判別函數(shù)和進(jìn)行顯著性檢驗(yàn)。判別分析的假設(shè)之三，是各判別變量之間具有多元正態(tài)分布，即每個(gè)變量對(duì)于所有其他變量的固定值有正態(tài)分布。在這種條件下可以精確計(jì)算顯著性檢驗(yàn)值和分組歸屬的概率。當(dāng)違背該假設(shè)時(shí)，計(jì)算的概率將非常

14、不準(zhǔn)確。距離判別與貝葉斯判別關(guān)系：XG1,如果W(X)0距離判別中兩個(gè)總體的距離判別規(guī)則為：如果，而貝XG2,W(X)0x G1 ,當(dāng) V(x)d葉斯判別規(guī)則為：二者唯一差別僅在于閥值點(diǎn)，從某種x G2 ,當(dāng) V (x)d意義上講，距離判別是貝葉斯判別的特殊情形。題型及分?jǐn)?shù)：一、判斷對(duì)錯(cuò)并改正（ 4題， 8分）二、不定項(xiàng)選擇（ 10題， 20 分）三、簡(jiǎn)答題（ 4 題， 32 分）（六選四）主成分基本思想，系統(tǒng)聚類，K- 均值聚類基本思想及過程，判別分析及費(fèi)希爾基本思想，比較聚類與回歸、判別，因子分析及因子旋轉(zhuǎn)聚類與回歸、判別：判別與回歸：聯(lián)系：都是根據(jù)已有數(shù)據(jù)判別未來趨勢(shì)。區(qū)別：多

15、元回歸的因變量是數(shù)值型變量，且自變量可是 0-1 變量；判別分析的因變量是類別型變量，而自變量不是 0-1變量判別與聚類：聚類分析：類別未知，利用樣本確定分組數(shù)及所屬類別；判別分析：類別數(shù)及意義已知，還能“預(yù)測(cè)”新樣本所屬類別；聚類中加進(jìn)一個(gè)變量需要對(duì)類進(jìn)行更新，重新計(jì)算與其他類的距離，而判別對(duì)新樣本進(jìn)行判別后，不更新所屬的類。四、計(jì)算題（ 1 題， 10 分）計(jì)算樣本均值、協(xié)差陣、相關(guān)陣五、分析題（ 2 題， 30 分）（四選二）1 ）主成分分析的SPSS實(shí)例分析（主成分個(gè)數(shù)確定，主成分表達(dá)式，主成分分析步驟）2 ）因子分析的SPSS實(shí)例分析（因子分析模型，公因子的解釋命名分析）（二

16、選一）3）聚類分析的SPSS實(shí)例分析（分類數(shù)確定，聚類結(jié)果命名分析，優(yōu)缺點(diǎn)及改進(jìn)策略）分類數(shù)確定樹狀圖，確定原則是組內(nèi)距離小，組間距離大。聚合系數(shù)圖：在曲線開始變得平緩的點(diǎn)選擇合適的分類樹任何類都必須在鄰近各類中是突出的，即各類重心間的距離必須大各類所包含的元素都不要過分地多分類數(shù)目應(yīng)符合使用的目的若采用幾種不同的聚類法，則在各自的聚類圖上應(yīng)發(fā)現(xiàn)相同的類對(duì)聚類過程中聚合系數(shù)分類數(shù)的變化（曲線）進(jìn)行分析，可以輔助確定合理的分類數(shù)聚類分析的缺點(diǎn)層次聚類法的結(jié)果容易受奇異值的影響，而快速聚類法受奇異值、相似測(cè)度和不適合的聚類變量的影響較小。層次聚類法可以得到一系列的聚類數(shù)，而快速聚類只能得到指定類數(shù)的聚類數(shù)。層次聚類法在數(shù)據(jù)比較多時(shí)計(jì)算量比較大，需要占據(jù)非常大的計(jì)算機(jī)內(nèi)存空間，而快速聚類法計(jì)算

人人文庫(kù)> 全部分類> 行業(yè)資料 > 管理策劃

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

多元統(tǒng)計(jì)分析重點(diǎn)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

多元統(tǒng)計(jì)分析重點(diǎn)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔