版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、多元課件第七章第1頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二1第七章 主成分分析目 錄7.1 總體的主成分7.2 樣本的主成分7.3 主成分分析的應(yīng)用第2頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二2第七章 主成分分析 多變量分析(Multivariate Analysis)是處理多變量(多指標(biāo))的統(tǒng)計(jì)問題。 多個(gè)變量之間常存在相關(guān)性,人們希望用較少不相關(guān)的變量來代替原來較多且相關(guān)的變量。 主成分就是要從原變量的各種線性組合中找出能集中反映原變量信息的綜合變量。第3頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二3第七章7.1 總體的主成分什么是主
2、成分分析 主成分分析是將多個(gè)指標(biāo)化為少數(shù)幾個(gè)綜合指標(biāo)的一種統(tǒng)計(jì)分析方法. 在實(shí)際問題中,研究多指標(biāo)的問題是經(jīng)常遇到的問題.由于變量個(gè)數(shù)太多,并且彼此之間存在著一定的相關(guān)性,勢必增加分析問題的復(fù)雜性. 主成分分析就是設(shè)法把原來的多個(gè)指標(biāo)重新組合成較少幾個(gè)新的互不相關(guān)的綜合變量來代替原來的變量;而且這幾個(gè)綜合變量又能夠盡可能多地反映原來變量的信息. 利用這種降維的思想,產(chǎn)生了主成分分析、因子分析、典型相關(guān)分析等統(tǒng)計(jì)方法.第4頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二4第七章 7.1總體的主成分什么是主成分 設(shè)X=(X1,Xp)是p維隨機(jī)向量,均值向量E(X)=,協(xié)差陣D(X)=.
3、考慮它的線性變換:易見:(7.1.2)(7.1.1)第5頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二5第七章 7.1總體的主成分什么是主成分 假如我們希望用Z1來代替原來的p個(gè)變量X1,Xp ,這就要求Z1盡可能多地反映原來p個(gè)變量的信息,這里所說的“信息”用什么來表達(dá)呢?最經(jīng)典的方法是用Z1的方差來表達(dá). Var(Z1)越大,表示Z1包含的信息越多.由()式看出,對(duì)a1必須有某種限制.否則可使Var(Z1).常用的限制是:a1a1 =1. 若存在滿足以上約束的a1,使Var(Z1)達(dá)最大, Z1就稱為第一主成分(或主分量).第6頁,共113頁,2022年,5月20日,13點(diǎn)3
4、9分,星期二6第七章 7.1總體的主成分什么是主成分 如果第一主成分不足以代表原來p個(gè)變量的絕大部分信息.考慮X的第二個(gè)線性組合Z2 . 為了有效地代表原變量組的信息,Z1已體現(xiàn)(反映)的信息不希望在Z2中出現(xiàn),用統(tǒng)計(jì)術(shù)語來講,就是要求 Cov(Z2,Z1)=a2a1=0. (7.1.3)于是求Z2時(shí),就是在約束a2a2=1和(7.1.3)下,求a2使Var(Z2)達(dá)最大,所求之Z2稱為第二主成分,類似地可求得第三主成分,第四主成分,.,第p主成分 .第7頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二7第七章 7.1總體的主成分什么是主成分 換言之,若原數(shù)據(jù)有p個(gè)變量,則恰好可得
5、到p個(gè)主成分: 1. 每個(gè)主成分都是原變量的線性組合; 2. 不同主成分間互不相關(guān)(互相正交); 3. 主成分以其方差減少次序排列: 第一主成分具有最大方差, 第二主成分是與第一主成分正交的原變量的線性組合中具有最大方差者, 其余主成分都有類似的性質(zhì).第8頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二8第七章 7.1總體的主成分什么是主成分 或者說,若原變量包含有一定的信息,則全體主成分包含與原變量相同的信息. 方差反映了變量取值的離散程度,方差大小表示了變量包含信息的多少. 第一主成分包含了盡可能多的信息, 不同的主成分包含的信息互不重復(fù); 第二主成分包含除第一主成分外剩余信息
6、中盡可能多的信息; 其余主成分都有類似的性質(zhì).第9頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二9第七章 7.1總體的主成分主成分的定義 定義 設(shè)X=(X1,Xp)為p維隨機(jī)向量.稱 Zi=aiX 為X的第i 主成分(i=1,2,p),如果: aiai=1 (i=1,2,p); 當(dāng)i 1時(shí) aiaj=0 ( j=1,i-1); Var(Zi)= Max Var(X). =1,aj =0(j=1,i-1) 第10頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二10第七章 7.1總體的主成分主成分的幾何意義 從代數(shù)學(xué)觀點(diǎn)看主成分就是p個(gè)變量的一些特殊的線性組合,而從幾何上
7、看這些線性組合正是把X1,Xp構(gòu)成的坐標(biāo)系旋轉(zhuǎn)產(chǎn)生的新坐標(biāo)系,新坐標(biāo)軸使之通過樣本變差最大的方向(或者說具有最大的樣本方差). 設(shè)有n個(gè)觀測,每個(gè)觀測有p個(gè)變量X1,Xp , 它們的綜合指標(biāo)(主成分)記為Z1,Zp . 當(dāng)p=2時(shí)原變量為X1, X2.設(shè)(X1, X2 )服從二元正態(tài)分布,則樣品點(diǎn)X(i) =(xi1, xi2 ) (i=1,2,n)的散布圖(見下面圖形)在一個(gè)橢圓內(nèi)分布著.第11頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二11第七章 7.1總體的主成分主成分的幾何意義 Z1Z2第12頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二12第七章 7.1
8、總體的主成分主成分的幾何意義 對(duì)于二元正態(tài)隨機(jī)向量,n個(gè)點(diǎn)散布在一個(gè)橢圓內(nèi)(當(dāng)X1, X2相關(guān)性越強(qiáng),這個(gè)橢圓就越扁). 若取橢圓的長軸為坐標(biāo)軸Z1,橢圓的短軸為Z2,這相當(dāng)于在平面上作一個(gè)坐標(biāo)變換,即按逆時(shí)針方向旋轉(zhuǎn)一個(gè)角度a, 根據(jù)旋轉(zhuǎn)變換公式,新老坐標(biāo)之間有關(guān)系: Z1=Cos aX1+ Sin aX2 Z2= -Sin aX1+ Cos aX2Z1 Z2 是原變量X1和X2 的特殊線性組合.第13頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二13第七章 7.1總體的主成分主成分的幾何意義 從圖上可以看出二維平面上n個(gè)點(diǎn)的波動(dòng)(用二個(gè)變量的方差和表示)大部分可以歸結(jié)為在Z1
9、方向的波動(dòng),而在Z2 方向上的波動(dòng)很小,可以忽略.這樣一來,二維問題可以降為一維了,只取第一 個(gè)綜合變量Z1即可,而Z1是橢圓的長軸. 一般情況,p個(gè)變量組成p維空間,n個(gè)樣品點(diǎn)就是p維空間的n個(gè)點(diǎn).對(duì)于p元正態(tài)分布變量來說,找主成分的問題就是找p維空間中橢球的主軸問題.第14頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二14第七章 7.1總體的主成分主成分分析的內(nèi)容 主成分分析的計(jì)算一般是從原變量的協(xié)差陣或相關(guān)矩陣出發(fā)進(jìn)行,包含以下內(nèi)容: 1. 各主成分的構(gòu)成 ; 2. 各主成分的方差及其在總方差中所占的比例(貢獻(xiàn)率) ; 3. 每個(gè)觀測在各個(gè)主成分下的得分值; 4. 各主成分
10、與原變量的相關(guān)性 .第15頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二15第七章 7.1總體的主成分主成分的求法 設(shè)p維隨機(jī)向量X的均值E(X)=0,協(xié)差陣D(X)=0.由定義7.1.1,求第一主成分Z1= a1X的問題就是求a1=(a11,a21,ap1),使得在a1a1=1下,Var(Z1)達(dá)最大. 這是條件極值問題,用拉格朗日乘數(shù)法.令 (a1)=Var(a1X)-(a1a1-1) = a1a1-(a1Ipa1-1),由(7.1.4)(見附錄(8.3)式)第16頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二16第七章 7.1總體的主成分主成分的求法 因a10
11、,故|-I|=0,求解(7.1.4),其實(shí)就是求的特征值和特征向量問題.設(shè)=1是的最大特征值,則相應(yīng)的單位特征向量a1即為所求. 一般地,求X的第i主成分就是求的第i大特征值對(duì)應(yīng)的單位特征向量. 定理 設(shè)X=(X1,Xp)是p維隨機(jī)向量,且D(X)=,的特征值12p ,a1,a2,ap為相應(yīng)的單位正交特征向量,則X的第i主成分為 Zi= aiX (i=1,2,p).第17頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二17第七章 7.1總體的主成分回顧附錄中定理7.2 定理7.2 設(shè)B是p階對(duì)稱陣,i=chi(B)是B的第i大的特征值,li 是相應(yīng)于i的B的標(biāo)準(zhǔn)化特征向量(i1,p
12、), x為任一非零p維向量,那么有右邊不等式的等號(hào)當(dāng)x=cl1時(shí)成立,左邊不等式的等號(hào)當(dāng)x=clp時(shí)成立,這里c是非零常數(shù).第18頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二18第七章 7.1總體的主成分回顧附錄中定理7.2 (2)記2=(lr+1,lp ),即2是由lr+1,lp 張成的空間,則 2且當(dāng)x=clr+1 時(shí)達(dá)到最大值,這里c非零常數(shù).第19頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二19第七章 7.1總體的主成分定理的證明定理證明 因?yàn)閷?duì)稱陣,利用附錄中定理7.2的結(jié)論(1),可知對(duì)任意非零向量a有且最大值在a=a1時(shí)達(dá)到.故在a1a1 =1的約
13、束條件下,使得達(dá)極大值.第20頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二20第七章 7.1總體的主成分定理的證明 根據(jù)主成分的定義7.1.1,Z1= a1 X為X的第一主成分. 對(duì)r=2,3,p,記r (ar,ap),利用附錄中的定理7.2的結(jié)論(2)即得r且最大值在a=ar時(shí)達(dá)到.第21頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二21第七章 7.1總體的主成分定理的證明故在arar =1的約束條件下, ar 滿足且使得達(dá)極大值. 根據(jù)主成分的定義7.1.1,Zr= ar X為X的第r主成分. (證畢)第22頁,共113頁,2022年,5月20日,13點(diǎn)39分
14、,星期二22第七章 7.1總體的主成分定理的推論 設(shè)Z=(Z1, Z2 , Z p )為p維隨機(jī)向量,則其分量Zi (i=1,2, p) 依次是X的第i主成分的充分必要條件是: Z=AX,A為正交陣; D(Z)=diag(1 , 2 , , p ),即隨機(jī)向量Z的協(xié)差陣為對(duì)角陣; 12p 0 . 第23頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二23第七章 7.1總體的主成分主成分的性質(zhì) 主成分Zi就是以的單位特征向量ai為系數(shù)的線性組合,它們互不相關(guān),且方差Var(Zi)= i . 記=(ij),=diag(1,2,p), 其中12p為的特征值, a1,a2,ap是相應(yīng)的單位
15、正交特征向量.主成分向量Z = (Z1,Zp), 其中 Zi=aiX (i=1,2,p)總體主成分有如下性質(zhì):第24頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二24第七章 7.1總體的主成分主成分的性質(zhì) (1) D(Z)=,即p個(gè)主成分的方差為: Var(Zi)=i ,且它們是互不相關(guān) (2) 通常稱 為原總體X的總方差,該性質(zhì)說明原總體X的總方差可分解為不相關(guān)的主成分的方差和.第25頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二25第七章 7.1總體的主成分主成分的性質(zhì) 即p個(gè)原變量所提供的總信息(總方差)的絕大部分只須用前m個(gè)主成分來代替。這說明若前幾個(gè)主成分
16、集中了大部分信息,則后幾個(gè)主成分的方差都很小,包含的信息也很少. 在實(shí)際應(yīng)用時(shí)就可用前面較少的幾個(gè)主成分來代替原p個(gè)變量來描述數(shù)據(jù)的變化.且存在第26頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二26第七章 7.1總體的主成分主成分的性質(zhì) (3)主成分Zk與原始變量Xi的相關(guān)系數(shù) 證明 : Var(Xi) =ii Var(Zk) = k Cov( Xi ,Zk )=Cov(eiX, ak X) = ei ak = ei (k ak ) = k aik (ei是第i個(gè)元素為1,其余為0的單位向量)第27頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二27第七章 7.1總
17、體的主成分主成分的性質(zhì) 常把主成分Zk與原始變量Xi的相關(guān)系數(shù)稱為因子負(fù)荷量(或因子載荷量).利用因子載荷量,可對(duì)指標(biāo)分類.如果把主成分與原始變量的相關(guān)系數(shù)列成表7.1的形式,則由相關(guān)系數(shù)的公式,還可得出性質(zhì)(4)和(5).表7.1第28頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二28第七章 7.1總體的主成分主成分的性質(zhì) 因Xi也可表成Z1,Zp的線性組合,且 Z1, Zp相互獨(dú)立,由回歸分析的知識(shí), Xi 與 Z1,Zp的全相關(guān)系數(shù)的平方和等于1,即表7.1中每一行的平方和均為1.事實(shí)上,由 故有第29頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二29第七章
18、7.1總體的主成分主成分的性質(zhì) 因Zk可表成X1,Xp的線性組合,但X1,Xp 一般有相關(guān)性,由Zk與Xi的相關(guān)系數(shù)的公式,可得出表7.1中Zk對(duì)應(yīng)的每一列關(guān)于各變量方差的加權(quán)平方和為k (即Var(Zk)=k).第30頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二30第七章 7.1總體的主成分主成分的貢獻(xiàn)率 主成分分析的目的是為了簡化數(shù)據(jù)結(jié)構(gòu)(即減少變量的個(gè)數(shù)),故在實(shí)際應(yīng)用中一般不用p個(gè)主成分,而選用前m(mp)個(gè)主成分.m取多大,這是一個(gè)很實(shí)際的問題.為此,我們引進(jìn)貢獻(xiàn)率的概念.第31頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二31第七章 7.1總體的主成分
19、主成分的貢獻(xiàn)率 定義 稱k / 1 +. +m +p 為主成分Zk的貢獻(xiàn)率;又稱 fm=1 +2 +. +m/ 1 +2 +. +m +p為 主成分Z1,Zm(mp)的累計(jì)貢獻(xiàn)率. 通常取m,使累計(jì)貢獻(xiàn)率達(dá)到70%或80%以上,累計(jì)貢獻(xiàn)率的大小表達(dá)m個(gè)主成分提取了X1, ,Xp的多少信息,但它沒有表達(dá)某個(gè)變量被提取了多少信息,為此又引入另一個(gè)概念.第32頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二32第七章 7.1總體的主成分主成分的貢獻(xiàn)率 定義 前m個(gè)主成分Z1,Zm 對(duì)原變量Xi的貢獻(xiàn)率i(m) 定義為 Xi 與Z1, ,Zm 的相關(guān)關(guān)系數(shù)的平方,它等于第33頁,共113頁
20、,2022年,5月20日,13點(diǎn)39分,星期二33第七章 7.1總體的主成分主成分的貢獻(xiàn)率-例子 例7.1.1 設(shè)隨機(jī)向量X=(X1,X2,X3)的協(xié)差陣為1 -2 0-2 5 00 0 2=試求X的主成分及其對(duì)變量Xi的貢獻(xiàn)率i(i=1,2,3). 解 的特征值為 1=3+ 81/2, 2=2, 3=3-81/2.由相應(yīng)標(biāo)準(zhǔn)化特征向量可得出主成分:第34頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二34第七章 7.1 總體的主成分主成分的貢獻(xiàn)率-例子 Z1=0.383 X1-0.924X2 , Z2= X3 (X3本身就是一個(gè)主分量,它與X1,X2不相關(guān)), Z3=0.924X
21、1+0.383 X2.當(dāng)取m=1或m=2時(shí),主成分對(duì)X的貢獻(xiàn)率可達(dá)72.8%或97.85%.下表 列出m個(gè)主分量對(duì)變量Xi的貢獻(xiàn)率第35頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二35第七章 7.1總體的主成分 標(biāo)準(zhǔn)化變量的主成分及性質(zhì) 在實(shí)際問題中,不同的變量往往有不同的量綱,而通過來求主成分首先優(yōu)先照顧方差(ii)大的變量,有時(shí)會(huì)造成很不合理的結(jié)果,為了消除由于量綱的不同可能帶來的一些不合理的影響,常采用將變量標(biāo)準(zhǔn)化的方法.即令第36頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二36第七章 7.1總體的主成分標(biāo)準(zhǔn)化變量的主成分及性質(zhì) 標(biāo)準(zhǔn)化后的隨機(jī)向量X*=(
22、X1*,X2*, Xp*)的協(xié)差陣*就是原隨機(jī)向量X的相關(guān)陣R.從相關(guān)陣R出發(fā)來求主成分,記為Z *=(Z1*,Zp*),則Z*與Z具有相似的性質(zhì). 把主成分Zk*(k=1,p)對(duì)變量Xi*的因子負(fù)荷量ik=(Zk*,Xi*)列成表7.2.第37頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二37第七章 7.1總體的主成分標(biāo)準(zhǔn)化變量的主成分及性質(zhì) 7.2第38頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二38第39頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二39第七章 7.2 樣本的主成分 在實(shí)際問題中,一般協(xié)差陣未知,需要通過樣本來估計(jì).設(shè)X(t)=
23、(xt1,xtp)(t=1, ,n)為來自總體X的樣本,記樣本資料陣x11,x12 ,x1px21,x22 ,x2p.xn1,xn2 ,xnpX=記樣本協(xié)差陣為S,樣本相關(guān)陣為R,并用S作為 的估計(jì)或用R作為總體相關(guān)陣的估計(jì).第40頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二40第七章 7.2 樣本的主成分 樣本主成分及其性質(zhì) 假定每個(gè)變量的觀測數(shù)據(jù)都已標(biāo)準(zhǔn)化(X=0),這時(shí)樣本協(xié)差陣就是樣本相關(guān)陣R,且 R=S=離差陣 /(n-1) =XX/(n-1) 仍記R 陣的p個(gè)主成分為Z1,Zp , 12p0為R的特征根, a1,a2, ,ap為相應(yīng)的標(biāo)準(zhǔn)化特征向量(記正交陣A=(a
24、1,ap) ).顯然第i個(gè)樣本主成分為 Zi=aiX (i=1,p). 第41頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二41第七章 7.2樣本的主成分 樣本主成分及其性質(zhì) 將第t個(gè)樣品X(t) =(xt1, xtp)的值代入Zi得樣品t的第i個(gè)主成分得分 zti =aiX(t) (i=1,p).記Z(t) = (zt1, zt2 , ztp) (t=1,n) = (a1X(t) ,a2X(t) ,apX(t) ) = AX(t)稱Z(t) 為第t個(gè)樣品的主成分得分向量.第42頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二42第七章 7.2樣本的主成分 樣本主成分
25、及其性質(zhì) 表7.3 原始數(shù)據(jù)和樣本主成分得分令(z1,z2,zp) 樣本主成分Z1 Z2 Zp 第43頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二43第七章 7.2 樣本的主成分 樣本主成分及其性質(zhì) 樣本主成分得分陣Z和原始數(shù)據(jù)陣X有如下關(guān)系Z =Z(1) Z(2) .Z(n) X(1) AX(2) A.X(n) A= X A=或 X = ZA , 其中 Z(t) =AX(t) ( t=1,2,n )樣本主成分得分具有如下一些性質(zhì).(np)(np)(pp)第44頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二44第七章 7.2 樣本的主成分樣本主成分及其性質(zhì) (1)
26、 Z=(Z(1)+ Z(2)+ Z(n)/n =(AX(1) +AX(2) + AX(n) )/n=AX=0,以下由樣本主成分得分的協(xié)差陣來得出樣本主成分的性質(zhì)(1)的另一結(jié)論. 樣本主成分得分的協(xié)差陣為 SZ = ZZ/(n-1)標(biāo)準(zhǔn)化變量的樣本協(xié)差陣就是樣本相關(guān)陣R,且 R = XX/(n-1)R陣的p個(gè)特征根12 p 相應(yīng)的標(biāo)準(zhǔn)化特征向量為a1,a2, ,ap 。第45頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二45第七章 7.2 樣本的主成分樣本主成分及其性質(zhì) 記正交陣A= (a1,ap) .則有 ARA=diag(1,2 ,p)又知 Z=XA,則 SZ = ZZ/(n
27、-1)=AXXA /(n-1) = ARA=diag(1,2 ,p) = ZZ= (n-1) 第46頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二46第七章 7.2 樣本的主成分樣本主成分及其性質(zhì) zi zi=(n-1) i (i=1,2,p) zizj=0 (當(dāng)ij 時(shí) )上式說明樣本主成分得分的樣本均值為0,樣本協(xié)差陣為對(duì)角陣.當(dāng)ij 時(shí),第i個(gè)主成分得分向量zi與第j個(gè)主成分得分zj是相互正交的.第47頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二47第七章 7.2 樣本的主成分樣本主成分及其性質(zhì) 因 ARA=diag(1,2 ,p) 稱k /p為樣本主成分Z
28、k的貢獻(xiàn)率;又稱 fm=1+m/p為樣本主成分Z1,Zm (mp)的累計(jì)貢獻(xiàn)率.第48頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二48第七章 7.2 樣本的主成分樣本主成分及其性質(zhì) (3)樣本主成分具有使殘差平方和最小的優(yōu)良性 如果我們只取前m個(gè)主成分(mp),并考慮用前m 個(gè)主成分Z1, Zm的線性組合表示Xj的回歸方程: Xj=bj1Z1+ bjmZm+ j (j=1,p) (*) 則當(dāng)bjk=ajk(k=1,m)時(shí),可使回歸方程的殘差平方和達(dá)最小值.而且回歸方程的決定系數(shù)R2(j) =j(m). 我們把j(m)稱為m個(gè)主成分對(duì)原變量Xj的貢獻(xiàn)率,j(m)的大小反映了m個(gè)主
29、成分能夠反映Xj的變差的比例.第49頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二49第七章 7.2 樣本的主成分樣本主成分及其性質(zhì) 把表7.3給出的原始變量的觀測數(shù)據(jù)和前m個(gè)主成分的得分?jǐn)?shù)據(jù)作為以上模型(*)中因變量X1,X p和自變量Z1,Zm的觀測數(shù)據(jù).問題化為:按最小二乘準(zhǔn)則求參數(shù)矩陣B:,使得殘差平方和 Q(B)達(dá)最小.(pm)第50頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二50第七章 7.2 樣本的主成分樣本主成分及其性質(zhì) (nm)記(np)則多對(duì)多的回歸模型(*)的矩陣形式為: X = Z* B + E由多因變量的回歸分析(參見第四章)的理論知:參
30、數(shù)矩陣B的最小二乘估計(jì)為 第51頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二51第七章 7.2 樣本的主成分樣本主成分及其性質(zhì) B = (Z* Z* )-1 Z* X 記A*= (a1,am) , A2= (am+1,aP)則由 Z = ( Z*|Z2 ) =XA=X (A*|A2 ) 可得 Z* =XA*且因 A*RA*=diag(1,2 ,m),于是 Z* Z* = A*XXA* =(n-1)A*RA* =(n-1)diag(1,2 ,m)第52頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二52第七章 7.2 樣本的主成分樣本主成分及其性質(zhì)*(A*)*第53頁
31、,共113頁,2022年,5月20日,13點(diǎn)39分,星期二53第七章 7.2 樣本的主成分樣本主成分及其性質(zhì) 即當(dāng) B=A* 或 bjk=ajk(j =1,2,p;k=1,m)時(shí),可使回歸的殘差平方和達(dá)最小值. 而Xj 回歸方程的決定系數(shù) R2(j) =j(m) (j=1,2,p).(見習(xí)題7-8)第54頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二54第七章 7.2樣本的主成分主成分的個(gè)數(shù)及解釋 主成分分析的目的之一是簡化數(shù)據(jù)結(jié)構(gòu),用盡可能少的主成分Z1, Zm(mp)代替原來的p個(gè)變量,這樣就把p個(gè)變量的n次觀測數(shù)據(jù)簡化為m個(gè)主成分的得分?jǐn)?shù)據(jù).在這里要求: m個(gè)主成分所反映的
32、信息與原來p個(gè)變量提供的信息差不多; m個(gè)主成分又能對(duì)資料所具有的意義進(jìn)行解釋.第55頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二55第七章 7.2樣本的主成分主成分個(gè)數(shù)的確定 主成分的個(gè)數(shù)m如何選取是實(shí)際工作者關(guān)心的問題.關(guān)于主成分的個(gè)數(shù)如何確定,常用的標(biāo)準(zhǔn)有兩個(gè): (1) 按累計(jì)貢獻(xiàn)率達(dá)到一定程度(如70%或80%以上)來確定m; (2) 先計(jì)算S或R的p個(gè)特征根的均值,取大于的特征根個(gè)數(shù)m. 當(dāng)p=20 時(shí),大量實(shí)踐表明,第一個(gè)標(biāo)準(zhǔn)容易取太多的主成分,而第二個(gè)標(biāo)準(zhǔn)容易取太少的主成分,故最好將兩者給合起來應(yīng)用,同時(shí)要考慮m個(gè)主成分對(duì)Xi的貢獻(xiàn)率i(m). 第56頁,共113
33、頁,2022年,5月20日,13點(diǎn)39分,星期二56第七章 7.2樣本的主成分應(yīng)用例子 例 學(xué)生身體各指標(biāo)的主成分分析. 隨機(jī)抽取30名某年級(jí)中學(xué)生,測量其身高(X1)、體重(X2)、胸圍(X3)和坐高(X4),數(shù)據(jù)見書中P277表7.4(或以下SAS程序的數(shù)據(jù)行). 試對(duì)中學(xué)生身體指標(biāo)數(shù)據(jù)做主成分分析. 解 (1) 以下SAS程序首先生成包括30名學(xué)生身體指標(biāo)數(shù)據(jù)的SAS數(shù)據(jù)集d721(其中變量NUMBER記錄識(shí)別學(xué)生的序號(hào)),然后調(diào)用SAS/STA軟件中的PRINCOMP過程進(jìn)行主成分分析.第57頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二57第七章 7.2 樣本的主成分例
34、的sas程序 Data d721; input number x1-x4 ; cards;1 148 41 72 78 2 139 34 71 763 160 49 77 86 4 149 36 67 79.27 144 36 68 76 28 141 30 67 7629 139 32 68 73 30 148 38 70 78;proc princomp data=d721 prefix=z out=o721 ; var x1-x4;run;該選項(xiàng)規(guī)定主成分的前綴名字為z生成包含主分量得分的輸出數(shù)據(jù)集行指針控制符指示讀完該行數(shù)據(jù)行后再跳到下一行。第58頁,共113頁,2022年,5月20日
35、,13點(diǎn)39分,星期二58第七章 7.2 樣本的主成分例的sas程序 proc plot data=o721; plot z2*z1 $ number=*;run;proc sort data=o721; by z1;run;proc print data=o721; var number z1 z2 x1-x4;run;繪制前二個(gè)主成分得分的散點(diǎn)圖.作圖符號(hào)為*,并在每散點(diǎn)旁邊加上序號(hào),以便識(shí)別各個(gè)觀測.把輸出集o721按第一主成分z1的得分值從小 到大排序輸出排序后的數(shù)據(jù)集o721第59頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二59第七章 7.2樣本的主成分例的輸出結(jié)果
36、學(xué)生身體指標(biāo)數(shù)據(jù)的描述統(tǒng)計(jì)量和相關(guān)陣第60頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二60第七章 7.2樣本的主成分例的輸出結(jié)果 輸出7.2.1 相關(guān)陣的特征值和特征向量第61頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二61第七章 7.2樣本的主成分例的結(jié)果分析 PRINCOMP過程由相關(guān)陣出發(fā)進(jìn)行主成分分析.由輸出中相關(guān)陣的特征值可以看出,第一主成分的貢獻(xiàn)率已高達(dá)88.53%;且前二個(gè)主成分的累計(jì)貢獻(xiàn)率已達(dá)96.36%.因此只須用兩個(gè)主成分就能很好地概括這組數(shù)據(jù). 另由第三和四個(gè)特征值近似為0,可以得出這4個(gè)標(biāo)準(zhǔn)化后的身體指標(biāo)變量(Xi*,i=1,2,3,4)
37、有近似的線性關(guān)系(即所謂共線性),如 0.505747 X1* -0.690844 X2* +0.461488 X3* -0.232343 X4*c(常數(shù)).第62頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二62第七章 7.2樣本的主成分例的結(jié)果分析 由最大的兩個(gè)特征值對(duì)應(yīng)的特征向量可以寫出第一和第二主成分: Z1=0.4970 X1*+0.5146 X2* +0.4809 X3* +0.5069 X4* Z2= -0.5432 X1* +0.2102 X2* +0.7246 X3* - 0.3683 X4* 第一和第二主成分都是標(biāo)準(zhǔn)化后變量Xi* (i=1,2,3,4)的線性
38、組合,且組合系數(shù)就是特征向量的分量.第63頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二63第七章 7.2樣本的主成分例的結(jié)果分析 利用特征向量各分量的值可以對(duì)各主成分進(jìn)行解釋. 第一大特征值對(duì)應(yīng)的第一個(gè)特征向量的各個(gè)分量值均在0.5附近,且都是正值,它反映學(xué)生身材的魁梧程度.身體高大的學(xué)生,他的4個(gè)部位的尺寸都比較大;而身體矮小的學(xué)生,他的4個(gè)部位的尺寸都比較小.因此我們稱第一主成分為大小因子.第64頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二64第七章 7.2樣本的主成分例的結(jié)果分析 第二大特征值對(duì)應(yīng)的特征向量中第一(即身高X1的系數(shù))和第四個(gè)分量(即坐高X4
39、的系數(shù))為負(fù)值,而第二(即體重X2的系數(shù))和第三個(gè)分量(即胸圍X3的系數(shù))為正值,它反映學(xué)生的胖瘦情況,故稱第二主成分為胖瘦因子.第65頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二65第七章 7.2樣本的主成分例的輸出結(jié)果 輸出7.2.2 第二主成分得分對(duì)第一主成分得分的散布圖第66頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二66第七章 7.2樣本的主成分例的結(jié)果分析 輸出是PLOT過程產(chǎn)生的輸出圖形,從圖中可以直觀地看出,按學(xué)生的身體指標(biāo)尺寸,這30名學(xué)生大約應(yīng)分成三組(以第一主成分得分值為-1和2為分界點(diǎn)). 每一組包括哪幾名學(xué)生由每個(gè)散點(diǎn)旁邊的序號(hào)可以得知
40、.更詳細(xì)的信息可從PRINT過程產(chǎn)生的輸出數(shù)據(jù)列表中得到.第67頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二67第七章 7.2樣本的主成分例的輸出結(jié)果 按第一主成分得分排序后的主成分得分和原始數(shù)據(jù)第68頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二68第七章 7.2樣本的主成分例的結(jié)果分析 以上輸出列表中把30個(gè)觀測按第一主成分從小到大重新排序后的輸出結(jié)果.從這里可以得到分為三組時(shí)各組學(xué)生的更多的信息如下: G1=11,15,29,10,28,6,24,14,2,27,18 G2=4,30,22,1,16,26,23,21,8,9,7,17 G3=20,13,19
41、,12,5,3,25 若考慮用Z1 ,Z2進(jìn)行聚類,這就是主成分聚類方法.第69頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二69第70頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二70第七章7.3主成分分析的應(yīng)用 主成分分析方法把p維數(shù)據(jù)簡化為m(mp)維數(shù)據(jù)后,進(jìn)一步地可用于變量的分類,樣品的分類,對(duì)樣品進(jìn)行排序或?qū)ο到y(tǒng)進(jìn)行評(píng)估,以及主成分回歸,主成分聚類,多維正態(tài)數(shù)據(jù)的主成分檢驗(yàn)等方面。第71頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二71第七章7.3主成分分析的應(yīng)用 設(shè)n次觀測數(shù)據(jù)陣X已標(biāo)準(zhǔn)化,這時(shí)樣本協(xié)差陣就是樣本相關(guān)陣R, R的特征值為1
42、2 p 相應(yīng)的標(biāo)準(zhǔn)化特征向量為a1,a2, ,ap 。樣本主成分為 Zi=aiX (i=1,p). 設(shè)m為滿足累計(jì)貢獻(xiàn)率P0(一般取1P00.7 )的最小正整數(shù),取前m個(gè)主成分Z1 ,Z2 , ,Zm,由樣本觀測數(shù)據(jù)X(i) (i=1,2,n)可求得m個(gè)主成分的得分值z(mì)ij : 第72頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二72第七章7.3主成分分析的應(yīng)用 第73頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二73第七章7.3主成分分析的應(yīng)用 利用樣本主成分的性質(zhì)(3),Xk由前m個(gè)主成分Z1 ,Z2 , ,Zm的最佳(殘差平方和最小)表示式為把Z*(i )(i
43、=1,2,n)代入上式,可得第74頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二74第七章7.3主成分分析的應(yīng)用 由此可得出由主成分得分值估計(jì)變量Xk的得分向量.記其中(7.3.2)第75頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二75第七章7.3主成分分析的應(yīng)用 X=ZA= ( Z*|Z2 ) ( A*|A2 ) = Z* (A*) + Z2 A2 =X* + Z2 A2 第76頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二76第七章7.3主成分分析的應(yīng)用 因所以第77頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二77第七章7.3主成
44、分分析的應(yīng)用 當(dāng)選取合適的m,可使得后面的p-m個(gè)i的和很小,這時(shí)就有其中(z1,z2,zm)*zt第78頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二78第七章7.3主成分分析的應(yīng)用指標(biāo)(變量)分類 如果第i個(gè)變量和第j個(gè)變量的相關(guān)系數(shù)rij1,顯然這兩個(gè)變量應(yīng)歸為一 類. 仍用Xi和Xj表示這兩個(gè)變量的n次觀測向量.考慮n維空間中這兩點(diǎn)的距離:因 (n-1)R=X X=(X1, Xp ) (X1, Xp ), 故有 Xi Xj =(n-1) rij (i,j=1,p) 第79頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二79第七章7.3主成分分析的應(yīng)用指標(biāo)(變量
45、)分類 zi zi=(n-1) i (i=1,2,p) zizj=0 (當(dāng)ij 時(shí) )第80頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二80第七章7.3主成分分析的應(yīng)用指標(biāo)(變量)分類 因第k個(gè)主成分Zk與原標(biāo)準(zhǔn)化變量Xi的相關(guān)系數(shù)為ik也稱為第k個(gè)主成分Zk對(duì)Xi的因子負(fù)荷量. 這時(shí) 2(1- rij)(i1-j1)2+ (im-jm)2 ,若rij1, 則有 (i1-j1)2+ (im-jm)2 0 . 第81頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二81第七章7.3主成分分析的應(yīng)用指標(biāo)(變量)分類 考察m維空間的p個(gè)點(diǎn)Qi,其坐標(biāo)為 Qi=(i1 ,i2
46、 ,.,im ) (i=1,2,p) .按距離最近準(zhǔn)則對(duì)p個(gè)點(diǎn)進(jìn)行分類. 當(dāng)m=2時(shí),p個(gè)點(diǎn)可在平面上點(diǎn)出來,利用散布圖可直觀地給出指標(biāo)的分類.第82頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二82第七章7.3主成分分析的應(yīng)用指標(biāo)(變量)分類-例子 例 服裝定型分類問題 為解決服裝定型分類問題,對(duì)128個(gè)成年男子的身材進(jìn)行測量,每人各測得16項(xiàng)指標(biāo):身高(X1)、坐高(X2)、胸圍(X3)、頭高(X4)、褲長(X5)、下檔(X6)、手長(X7)、領(lǐng)圍(X8)、前胸(X9)、后背(X10)、肩厚(X11)、肩寬(X12)、袖長(X13)、肋圍(X14)、腰圍(X15)和腿肚(X1
47、6).16項(xiàng)指標(biāo)的相關(guān)陣R見表7.5(因相關(guān)陣為對(duì)稱陣,只給出相關(guān)陣的上三角部分).試從相關(guān)陣R出發(fā)用PRINCOMP過程進(jìn)行主成分分析.第83頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二83第七章7.3主成分分析的應(yīng)用指標(biāo)(變量)分類-例子 第84頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二84第七章7.3 主成分分析的應(yīng)用指標(biāo)(變量)分類-例子的sas程序 data d731(type=corr); input _name_ $ x1-x16; _type_ = corr; cards;x1 1.0 0.79 0.36 0.96 0.89. . 0.25 0
48、.51 0.21x2 . 1.00 0.31 0.74 0.58. 0.17 0.35 0.16x3 . . 1.00 0.38 0.31. 0.64 0.58 0.51.x15 . . . . . . . . . . . . . . 1 .65x16 . . . . . . . . . . . . . . . 1;自動(dòng)變量_name_規(guī)定變量名X1-X16自動(dòng)變量_type_的值指定數(shù)據(jù)類型為CORR.相關(guān)陣對(duì)稱,數(shù)據(jù)行只須列出相關(guān)陣的上三角部分第85頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二85第七章7.3 主成分分析的應(yīng)用指標(biāo)(變量)分類-例子的sas程序 proc p
49、rincomp data=d731(type=corr) n=3 outstat=s731 ; var x1-x16;run; PROC PRINCOMP語句中,選項(xiàng)data=d731的括號(hào)里指出數(shù)據(jù)集d731的類型是相關(guān)陣,在這里或在DATA步中數(shù)據(jù)集選項(xiàng)type=corr必有一處是不可缺少的.選項(xiàng)n=3規(guī)定只輸出3個(gè)主成分的有關(guān)信息.outstat=s731生成輸出統(tǒng)計(jì)量的數(shù)據(jù)集S731是為下面繪制因子負(fù)荷量的散布圖準(zhǔn)備數(shù)據(jù)。第86頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二86第七章7.3 主成分分析的應(yīng)用指標(biāo)(變量)分類-例子的sas程序 Proc print data
50、=s731;Run;data t731; set s731; if _type_=SCORE;run;proc transpose data=t731 out=tt731 prefix=f; var x1-x16;run;第87頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二87第七章7.3 主成分分析的應(yīng)用指標(biāo)(變量)分類-例子的sas程序 data dt731; set tt731; p1=sqrt(7.03648)*f1; p2=sqrt(2.61403)*f2;Run;options ps=40;proc plot data=dt731; plot p2*p1 $ _nam
51、e_=*/vref=0 ;run;第88頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二88第七章7.3 主成分分析的應(yīng)用指標(biāo)(變量)分類-例子的輸出結(jié)果 第89頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二89第七章7.3 主成分分析的應(yīng)用指標(biāo)(變量)分類-例子的輸出結(jié)果 第90頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二90第七章7.3 主成分分析的應(yīng)用指標(biāo)(變量)分類-例子的結(jié)果分析 1. 前三個(gè)主成分說明的方差比例已在70%以上;2. 由最大特征值對(duì)應(yīng)的特征向量(即列標(biāo)題為 PRIN1的列)可得出第一主成分: PRINT1=0.3446X1+0
52、.2662X2+0.1634X16各指標(biāo)的系數(shù)都為正,數(shù)值均在0.1至0.3之間.這個(gè)主成分一般稱為魁梧因子(或大小因子);3. 由次大特征值對(duì)應(yīng)的特征向量(即列標(biāo)題為 PRIN2的列)可得出第二主成分: PRINT2=-0.1968X1 - 0.1473X2+ 0.3137X3+0.3599X16第91頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二91第七章7.3 主成分分析的應(yīng)用指標(biāo)(變量)分類-例子的結(jié)果分析 各指標(biāo)的系數(shù)有正有負(fù),負(fù)系數(shù)對(duì)應(yīng)的變量 (X1,X2等)都是反映人體高低的變量 ; 正系數(shù) 對(duì)應(yīng)的變 量(X3,X16等)都是反映人體胖瘦的 變量.這個(gè)主成分一般稱為
53、高低或胖瘦因子;4. 由第三大特征值對(duì)應(yīng)的特征向量(即列標(biāo)題為 PRIN3的列)可得出第三主成分 PRINT3.查看 各指標(biāo)的系數(shù),發(fā)現(xiàn)絕對(duì)數(shù)值最大和次大對(duì)應(yīng) 的變量為前胸(X9)和后背(X10).故這個(gè)主成 分一般稱為特體因子.第92頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二92第七章7.3 主成分分析的應(yīng)用指標(biāo)(變量)分類-VARCLUS過程 在SAS/STAT軟件中提供的VARCLUS過程專用于對(duì)變量進(jìn)行分類,它根據(jù)相關(guān)陣或協(xié)差陣對(duì)變量進(jìn)行分裂聚類或譜系聚類.類的選擇原則根據(jù)主成分分析和因子分析的思想,它使得每一類的第一主成分或重心分量所解釋的方差為最大. VARCLU
54、S過程把一組數(shù)值變量分為或是不相交的或是譜系的類.同每一類有聯(lián)系的是該類中這些變量的線性組合,它可能是第一主分量或是重心分量.第一主成分是這些變量的加權(quán)平均,它盡可能多地解釋方差.如果希望類分量為標(biāo)準(zhǔn)化變量(沒有加權(quán))的平均,或者 沒有標(biāo)準(zhǔn)化的變量的平均(用選項(xiàng)COV)時(shí),使用重心分量(使用選項(xiàng)CENTROID).這里類分量是指類的第一主分量或重心分量.第93頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二93第七章7.3 主成分分析的應(yīng)用指標(biāo)(變量)分類-VARCLUS過程 例如,一種教育情況的檢查可能包含有50個(gè)項(xiàng)目(變量). VARCLUS過程可用來將這些項(xiàng)目分為幾類,比如說
55、5個(gè)類.每一類將用于處理一部分檢查,而且這一部分檢查的得分將由類分量給出.如果這個(gè)類分量是協(xié)差陣的重心分量,那么每組檢查簡單地是這一部分檢查中各項(xiàng)的得分和. 變量聚類的步驟: 如果沒有為過程提供初始分類的情況(缺省時(shí)),VARCLUS過程開始把所有變量看成一個(gè)類,然后它重復(fù)以下步驟: (1) 首先挑選一個(gè)將被分裂的類. 根據(jù)規(guī)定的選項(xiàng),選中的類應(yīng)該是:或者用它的類分量所解釋的方差的百分比最小(選項(xiàng)PRECENT=),或者同第二主分量有關(guān)的特征根為最大(選項(xiàng)MAXETGH=).第94頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二94第七章7.3 主成分分析的應(yīng)用指標(biāo)(變量)分類-V
56、ARCLUS過程 (2) 把選中的類分裂成兩個(gè)類 首先計(jì)算開頭兩個(gè)主分量,再進(jìn)行斜交旋轉(zhuǎn)(在特征向量上執(zhí)行QUARTIMAX旋轉(zhuǎn)),并把每個(gè) 變量分配到旋轉(zhuǎn)分量對(duì)應(yīng)的類里,分配的原則是使變量與這個(gè)主分量的相關(guān)系數(shù)為最大. (3) 變量重新歸類 通過多次反復(fù)循環(huán),變量被重新分配到這些類里,使得由這些類分量所解釋的方差為最大 .重新分配可能要求保持譜系結(jié)構(gòu).第95頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二95第七章7.3 主成分分析的應(yīng)用樣品分類 對(duì)p個(gè)變量(指標(biāo))觀測n次,得n個(gè)樣品,記 X(i) =(xi1, xi2 , xip)為第i個(gè)樣品,看成p維空間的點(diǎn),可按距離相近的
57、程度進(jìn)行分類(參見第六章聚類分析),即若 X(i) - X(j)0,就把第i個(gè)樣品和第j個(gè)樣品歸為一類.。 因原始數(shù)據(jù)陣XX*,故 X(i) - X(j) X*(i) - X*(j)由(7.3.1)及(7.3.2)式中x*ik的定義知 第96頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二96第七章7.3主成分分析的應(yīng)用樣品分類 因X*(i)-X*(j)2=a1(zi1- zj1)+am(zim- zjm )2 =(zi1- zj1)2 +(zim- zjm ) 2 注意:a1, a2, am,為單位正交向量.第97頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二97第
58、七章7.3 主成分分析的應(yīng)用樣品分類 . 這樣就把考察二個(gè)p維空間點(diǎn)的靠近程度轉(zhuǎn)化為考察兩個(gè)m(mp)維空間點(diǎn)的靠近程度. 若取m=2,n個(gè)樣品點(diǎn)可在平面上點(diǎn)出,利用點(diǎn)的分布規(guī)律對(duì)樣品進(jìn)行分類. 第98頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二98第七章7.3 主成分分析的應(yīng)用樣品分類 例7.3.2 服裝定型分類問題(續(xù)例7.3.1) 利用128人16項(xiàng)指標(biāo)的觀測數(shù)據(jù),試對(duì)128人的服裝尺寸進(jìn)行分類(即樣品分類問題:把128人分為幾類,每類找出典型代表,以該代表的服裝尺寸作為這一類的尺寸). 取m=2,求出兩個(gè)主成分,并計(jì)算樣本主成分得分值Z(i) =(zi1,zi2)(i=
59、1,2,128).把這個(gè)128個(gè)點(diǎn)點(diǎn)在平面上,利用平面散布圖,把128個(gè)點(diǎn)分為七類.第99頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二99第七章7.3 主成分分析的應(yīng)用樣品分類 第一類共有25個(gè)點(diǎn),聚集中心是Z(25) ; 第二類有14個(gè)點(diǎn),聚集中心是Z(114) ; 第三類有9個(gè)點(diǎn),聚集中心是Z(89) ; 第四類有7個(gè)點(diǎn),聚集中心是Z(112) ; 第五類有12個(gè)點(diǎn),聚集中心是Z(9) ; 第六類有20個(gè)點(diǎn),聚集中心是Z(47) ; 第七類有8個(gè)點(diǎn),聚集中心是Z(118) . 第100頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二100第七章7.3 主成分分析
60、的應(yīng)用樣品分類 七個(gè)類的典型代表分別是第25號(hào),114號(hào),89號(hào),112號(hào),9號(hào),47號(hào)和118號(hào)樣品,以它們的服裝尺寸作為一個(gè)型號(hào)的標(biāo)準(zhǔn)尺寸.如型號(hào)I(第一類)的標(biāo)準(zhǔn)尺寸就是第25號(hào)樣品的尺寸等等.各種型號(hào)服裝的生產(chǎn)數(shù)量也按25:14:9:7:12:20:8這樣的比例來生產(chǎn). 注意:這七類并沒有把128個(gè)點(diǎn)全部包括在內(nèi),還有33個(gè)樣品不能歸入這七個(gè)類,可認(rèn)為是一些特殊體形的樣品. 第101頁,共113頁,2022年,5月20日,13點(diǎn)39分,星期二101第七章7.3 主成分分析的應(yīng)用樣品排序或系統(tǒng)評(píng)估 對(duì)p維總體X的樣本進(jìn)行主成分分析往往不是最終的目的,而常常是完成某個(gè)實(shí)際問題的一種手段.如
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 燈光設(shè)計(jì)師的工作總結(jié)
- 機(jī)械行業(yè)安全操作培訓(xùn)
- 超高清視頻技術(shù)發(fā)展趨勢
- 廣東省深圳市南山區(qū)2023-2024學(xué)年六年級(jí)上學(xué)期英語期末試卷
- 財(cái)務(wù)工作一年績效總結(jié)
- 《深部鉆探論壇廈門》課件
- 《花瓣的哲學(xué)》課件
- 《執(zhí)行力密碼》課件
- 2023年廣東省韶關(guān)市公開招聘警務(wù)輔助人員輔警筆試自考題2卷含答案
- 2021年湖南省常德市公開招聘警務(wù)輔助人員輔警筆試自考題2卷含答案
- 2025年內(nèi)江資中縣融媒體中心招考聘用新媒體工作人員3人高頻重點(diǎn)提升(共500題)附帶答案詳解
- 裝修材料合同范例
- 【7地RJ期末】安徽省合肥市廬江縣2023-2024學(xué)年七年級(jí)上學(xué)期期末地理試題(含解析)
- 共用線路三方協(xié)議合同范例
- 戰(zhàn)略規(guī)劃的關(guān)鍵要點(diǎn)
- 社會(huì)工作服務(wù)質(zhì)量保障措施
- 雅禮中學(xué)2024-2025學(xué)年初三創(chuàng)新人才選拔數(shù)學(xué)試題及答案
- 冬季高空作業(yè)施工方案
- 山西云時(shí)代技術(shù)有限公司招聘筆試題目
- 2024-2025學(xué)年人教版九年級(jí)數(shù)學(xué)上學(xué)期復(fù)習(xí):圓的綜合解答題 壓軸題型專項(xiàng)訓(xùn)練(30道題)
- 課程思政專題培訓(xùn)
評(píng)論
0/150
提交評(píng)論