2主成分分析和聚類分析_第1頁
2主成分分析和聚類分析_第2頁
2主成分分析和聚類分析_第3頁
2主成分分析和聚類分析_第4頁
2主成分分析和聚類分析_第5頁
已閱讀5頁,還剩46頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、2x1x1F2F主成分分析的幾何解釋平移、旋轉(zhuǎn)坐標軸2x1x1F2F主成分分析的幾何解釋平移、旋轉(zhuǎn)坐標軸2x1x1F2F 主成分分析的幾何解釋平移、旋轉(zhuǎn)坐標軸2x1x1F2F主成分分析的幾何解釋平移、旋轉(zhuǎn)坐標軸 根據(jù)旋轉(zhuǎn)變換的公式:cossinsincos211211xxyxxyxU2121cossinsincosxxyy正交矩陣,即有為旋轉(zhuǎn)變換矩陣,它是U1,yyyUUU UIU xUUU xUx所以,由有即 F1F1F2F2F3F3i ii it tF1F11 1 F2F20 01 1 F3F30 00 01 1 i i0.9950.995-0.041-0.0410.0570.057l l

2、 i i-0.056-0.0560.9480.948-0.124-0.124-0.102-0.102l l t t-0.369-0.369-0.282-0.282-0.836-0.836-0.414-0.414-0.112-0.1121 1n將描述系統(tǒng)的n個指標看作n維空間的n個隨機變量(由于運行情況不斷變化,其取值是隨機的)na = (a1, a2, , an )為n維空間Rn的單位向量n記所有單位向量集合為 R0 =a| a a T=1n記n個線性相關(guān)的隨機變量為 = (X1, X2, , Xn )Tn記D(Xi)為Xi的方差, zi = ai,aiR0 zi是X的各分量的線性組合n假設(shè)前

3、k-1個主成分已知,一切形如Z = a中, 且與z1 , z2 , zk-1不相關(guān),使方差達到最大值者,稱為的第k個主成分,記為: zk =k, kR0 (k=1,2, ,n)n定理:設(shè)E( )=0,E()=; 的n個不同的特征根記為12n0, 則 的第k個主分量zk =k的線性系數(shù)k為k的單位化的特征向量。D(z1) = max ai, 稱zi為 的第1主成分,記為: z1 = 1, 1R0aiR0n設(shè) 為n維空間的隨機變量,且E( )=0, =E(), 則 =E()= E( )E()+cov()=cov() 即為一實對稱的n階協(xié)方差矩陣,有n個0的特征根,記為12n0, 則 的第k個主分量

4、zk =k的線性系數(shù)k為k的單位化的特征向量,如此可求得n個主成分。的協(xié)方差陣2112122122212E()= nTnnnnXX指標指標樣本樣本12111) (1,2, )1(1,2,)(1,2, )mijimjijiijjjiYmSYjnmYijXmnSj2jj第j個指標的均值: Y第j個指標的方差:(YY可證:E(X)=0,D(X)=1指指標標樣樣本本1122111()cov(),1( ,1,2, )1( ,1,2, ) ATTmijkikjkmkikjkijmmkikjkkE XXXXX Xi jnmX Xi jnXXAPP AP通過樣本估計總體的 。下面兩種估計都是無偏估計:或于是得

5、到一個實對稱的協(xié)方差矩陣 。由線代知識知,任給實對稱矩陣,總有正交矩陣,使,其中 是以 的n個特征值為對角元素的對角矩陣111111111k11111111111=,nnnnkknkknnnknnnnnnnnnaaaaaZXaaZa XZaaXZZaaZZaa 12n由實對稱的協(xié)方差矩陣 可得 個非負特征根 ,從而得到n個單位特征向量,構(gòu)成正交矩陣令1111000000Z =Z =Z=nnnnTTTXXXXaXX aa X即-0000Z =Z=TX aa X-15111nikiirniiiiikr若 為協(xié)方差矩陣 的第 個特征根,則為第 個主成分的貢獻率;為前 個主成分的累積貢獻率。前前r個主

6、成分的累積貢獻率個主成分的累積貢獻率n設(shè) 為原指標列向量,Z為主成分列向量, = BZ ,求BnZ =a , aTZ =aTa a為正交矩陣, aTa = a-1a = I, aTZ = , B = aT1112111212222212rrnnnrnrrXa aaZXa aaZXa aaZ當取其前 外主成分時,上式為:68168216816868111681)67( ,1,2,10)()( ,1,2,10)ijijijiijijjkikjkijijkikjkkXSXXYi jSXXRrri jXXj2jjX(XX,n聚類分析是研究(樣品或指標)分類問題的聚類分析是研究(樣品或指標)分類問題的一

7、種多元統(tǒng)計方法。一種多元統(tǒng)計方法。聚類方法的分類:n系統(tǒng)聚類法系統(tǒng)聚類法(分層聚類分層聚類)(Hierarchical Cluster過程過程)n聚類原則:都是相近的聚為一類,即距離最近聚類原則:都是相近的聚為一類,即距離最近或最相似的聚為或最相似的聚為 一類。一類。n分層聚類的方法可以用于樣本聚類(分層聚類的方法可以用于樣本聚類(Q)型,)型,也可以用于變量聚類(也可以用于變量聚類(R型)。型)。n非系統(tǒng)聚類法(快速聚類法非系統(tǒng)聚類法(快速聚類法K-均值聚均值聚類法)(類法)(K-means Cluster)n兩步聚類法兩步聚類法(一種探索性的聚類方法一種探索性的聚類方法) (TwoStep

8、 Cluster)1111121,2Minkowski( )()2(2)()3mnnmjijijjijmqijikjkkmijikjkkqxxnmxxxxxxSdijdqxxqdxx設(shè)樣本數(shù)為變量數(shù)為 ,樣本矩陣1、對原始數(shù)據(jù)做標準化變換:(i=1,.n,j=1,.m)、表示標本 和樣本 間的距離,常用的有:距離當時,得歐氏距離、根據(jù)一定規(guī)則(如距離最近)歸類。最長距離最長距離最短距離最短距離ABCDEF nijkikjk=1ijnn22ijkikjk=1k=1聚類分析可對標本分類,也可對指標分類,可用相關(guān)系數(shù)表示標本或指標間的親疏程度。例如,若想研究指標i和j的相似程度,(x -x )(x -x )相關(guān)系數(shù)公式:r =(x -x )(x -x )分子:兩指標的協(xié)方差分母:兩指標的標準差的積12345遼寧10.00 0.00 浙江211.67 11.67 0.00 0.00 河南313.80 13.80 24.63 24.63 0

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論