應(yīng)用數(shù)理統(tǒng)計主成分分析_第1頁
應(yīng)用數(shù)理統(tǒng)計主成分分析_第2頁
應(yīng)用數(shù)理統(tǒng)計主成分分析_第3頁
應(yīng)用數(shù)理統(tǒng)計主成分分析_第4頁
應(yīng)用數(shù)理統(tǒng)計主成分分析_第5頁
已閱讀5頁,還剩36頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、主成分分析 實際問題中,同一個總體的實際問題中,同一個總體的p個指標(biāo)之間往往個指標(biāo)之間往往存在著相關(guān)關(guān)系。主成份分析的主要目的是存在著相關(guān)關(guān)系。主成份分析的主要目的是在這在這p個指標(biāo)中尋找?guī)讉€相互無關(guān)的綜合性個指標(biāo)中尋找?guī)讉€相互無關(guān)的綜合性指標(biāo),使這幾個綜合性的指標(biāo)性能反應(yīng)出原指標(biāo),使這幾個綜合性的指標(biāo)性能反應(yīng)出原來來p個指標(biāo)的信息。這些綜合指標(biāo)就是主成個指標(biāo)的信息。這些綜合指標(biāo)就是主成份。份。1 基本思想基本思想2 數(shù)學(xué)模型與幾何解釋數(shù)學(xué)模型與幾何解釋 假設(shè)實際問題中有假設(shè)實際問題中有p個指標(biāo),我們把這個指標(biāo),我們把這p個個指標(biāo)看作指標(biāo)看作p個隨機(jī)變量,記為個隨機(jī)變量,記為x1,x2,xp,

2、主成分分析就是要把這主成分分析就是要把這p個指標(biāo)的問題,轉(zhuǎn)變?yōu)閭€指標(biāo)的問題,轉(zhuǎn)變?yōu)橛懻撚懻損個指標(biāo)的線性組合的問題,而這些新的指個指標(biāo)的線性組合的問題,而這些新的指標(biāo)標(biāo)y1,y2,yk(kp),),按照保留主要信息量按照保留主要信息量的原則充分反映原指標(biāo)的信息,并且相互無關(guān)。的原則充分反映原指標(biāo)的信息,并且相互無關(guān)。這種由討論多個指標(biāo)降為少數(shù)幾個綜合指標(biāo)的這種由討論多個指標(biāo)降為少數(shù)幾個綜合指標(biāo)的過程在數(shù)學(xué)上就叫做過程在數(shù)學(xué)上就叫做降維降維。11112121212122221122ppppppppppyu xu xu xyu xu xuxyu xuxux主成分分析通常的做法,是尋求原指標(biāo)的主成分

3、分析通常的做法,是尋求原指標(biāo)的線性組合線性組合yi:滿足如下的條件:滿足如下的條件:0,1,ijCov yyij i jp ( , ) ,12()()pVar yVar yVar y ( )(2) 主成分之間相互無關(guān),即無重疊的信息主成分之間相互無關(guān),即無重疊的信息。即。即(3) 主成分的方差依次遞減,重要性依次遞減,即主成分的方差依次遞減,重要性依次遞減,即22211121iipiu uuuu (1) 每個主成分的系數(shù)平方和為每個主成分的系數(shù)平方和為1(否則其方(否則其方差可能為無窮大),即差可能為無窮大),即2x1x主成分分析的幾何解釋主成分分析的幾何解釋平移、旋轉(zhuǎn)坐標(biāo)軸平移、旋轉(zhuǎn)坐標(biāo)軸o

4、1F2Fo2x1x1F2F主成分分析的幾何解釋主成分分析的幾何解釋平移、旋轉(zhuǎn)坐標(biāo)軸平移、旋轉(zhuǎn)坐標(biāo)軸oo2x1x1F2F 主成分分析的幾何解釋主成分分析的幾何解釋平移、旋轉(zhuǎn)坐標(biāo)軸平移、旋轉(zhuǎn)坐標(biāo)軸oo二維空間中主成分的幾何意義:二維空間中主成分的幾何意義:設(shè)有設(shè)有n個樣品,每個個樣品,每個樣品有兩個觀測變量樣品有兩個觀測變量xl和和x2。在由變量。在由變量xl和和x2 所確定所確定的二維平面中,的二維平面中,n個樣本點所散布的情況如橢圓狀。個樣本點所散布的情況如橢圓狀。由圖可以看出這由圖可以看出這n個樣本點無論是沿著個樣本點無論是沿著xl 軸方向或軸方向或x2軸方向都具有較大的離散性,其離散的程度

5、可以分別軸方向都具有較大的離散性,其離散的程度可以分別用觀測變量用觀測變量xl 的方差和的方差和x2 的方差定量地表示。顯然,的方差定量地表示。顯然,如果只考慮如果只考慮xl和和x2 中的任何一個,那么包含在原始數(shù)中的任何一個,那么包含在原始數(shù)據(jù)中的信息將會有較大的損失。據(jù)中的信息將會有較大的損失。 將將xl 軸和軸和x2軸先平移,再同時按逆時針方向旋轉(zhuǎn)軸先平移,再同時按逆時針方向旋轉(zhuǎn) 角角度,得到新坐標(biāo)軸度,得到新坐標(biāo)軸Fl和和F2,則,則112112yx cosx sinyx sinx cos 1122yxcossinyxsincosU xU 為為正正交交旋旋轉(zhuǎn)轉(zhuǎn)變變換換矩矩陣陣 旋轉(zhuǎn)變換

6、的目的是為了使得旋轉(zhuǎn)變換的目的是為了使得n個樣品點在個樣品點在Fl軸方向上的軸方向上的離散程度最大,即離散程度最大,即yl的方差最大。變量的方差最大。變量yl代表了原始數(shù)代表了原始數(shù)據(jù)的大部分信息,在研究某些實際問題時,即使不考據(jù)的大部分信息,在研究某些實際問題時,即使不考慮變量慮變量y2也無損大局。也無損大局。經(jīng)過上述旋轉(zhuǎn)變換原始數(shù)據(jù)的經(jīng)過上述旋轉(zhuǎn)變換原始數(shù)據(jù)的大部分信息集中到大部分信息集中到Fl軸上,對數(shù)據(jù)中包含的信息起到軸上,對數(shù)據(jù)中包含的信息起到了濃縮作用。了濃縮作用。 yl,y2除了可以對包含在除了可以對包含在Xl,X2中的信息起著濃中的信息起著濃縮作用之外,還具有縮作用之外,還具有

7、不相關(guān)不相關(guān)的性質(zhì),這就使得在的性質(zhì),這就使得在研究復(fù)雜的問題時避免了信息重疊所帶來的虛假研究復(fù)雜的問題時避免了信息重疊所帶來的虛假性。二維平面上的各點的方差大部分都?xì)w結(jié)在性。二維平面上的各點的方差大部分都?xì)w結(jié)在Fl軸上,而軸上,而F2軸上的方差很小。軸上的方差很小。yl和和y2稱為原始變稱為原始變量量x1和和x2的綜合變量。的綜合變量。F簡化了系統(tǒng)結(jié)構(gòu),抓住了簡化了系統(tǒng)結(jié)構(gòu),抓住了主要矛盾。主要矛盾。3 主成分的推導(dǎo)及性質(zhì)主成分的推導(dǎo)及性質(zhì) 一、兩個線性代數(shù)的結(jié)論一、兩個線性代數(shù)的結(jié)論 1 1、若、若A A是是p p階實對稱陣,則一定可以找到正交陣階實對稱陣,則一定可以找到正交陣U U,使,

8、使 p 000000AUU211其中其中 是是A A的特征根。的特征根。pii. 2 . 1, 2 2、若上述矩陣的特征根所對應(yīng)的單位特征向量若上述矩陣的特征根所對應(yīng)的單位特征向量為為 11121212221p12U(u ,u )ppppppuuuuuuuuu則則U U是正交矩陣,即有是正交矩陣,即有p1uu,令令I(lǐng)UUUU 二、主成分的推導(dǎo)二、主成分的推導(dǎo) (一)(一) 第一主成分第一主成分設(shè)設(shè)x x的協(xié)方差陣為的協(xié)方差陣為2112122122x212ppppp 由于由于x x為非負(fù)定的對稱陣,所以存在正交陣為非負(fù)定的對稱陣,所以存在正交陣U U,使得使得1X0U U0p 其中其中 1 1,

9、 , , p p為為x x的特征根,不妨假設(shè)的特征根,不妨假設(shè) 1 1 p p。11121212221p12U(u ,u )ppppppuuuuuuuuu 12iiipiuuuu , ,i1,2,iP U是由特征根相對應(yīng)的特征向量所組成的正交陣:是由特征根相對應(yīng)的特征向量所組成的正交陣:1211111()UUpD yaaaa 設(shè)有設(shè)有P P維單位向量維單位向量 111211,paaaa 111121211ppya xa xa xa x 下面證明,由下面證明,由U的第一列元素所構(gòu)成的原始變量的的第一列元素所構(gòu)成的原始變量的線性組合有最大的方差。線性組合有最大的方差。1122112p1puuu ,

10、u ,uupaa 11111111111111u uu uUUppiiiiiiiaaaaaaa a y y1 1稱為第一主成分。稱為第一主成分。如果第一主成分的信息不夠,則需要尋找如果第一主成分的信息不夠,則需要尋找第二主成分。第二主成分。(二)(二) 第二主成分第二主成分在約束條件在約束條件 下,尋找第二主成分下,尋找第二主成分 12cov(,)0yy 212122ppya xaxa x 因為因為121212112cov(,)cov(,)0yyu x a xuau a 210a u 所以所以 于是,對任意的于是,對任意的p p維向量維向量a2 2,有,有2222212222212222222

11、12222()u u(u )(u )u uUUpiiiippiiiiipiiiV yaaaaaaaaaaa a 21212222ppyu xu xux 所以如果取線性變換:所以如果取線性變換: 則則y y2 2的方差為的方差為2 2次大,并且次大,并且y y1 1和和y y2 2線性無關(guān)。線性無關(guān)。 類似地,可以得到方差逐步減少的類似地,可以得到方差逐步減少的p p個線性無關(guān)個線性無關(guān) 的主成分:的主成分: 小結(jié):方差逐步減少的小結(jié):方差逐步減少的p p個線性無關(guān)的主成分為個線性無關(guān)的主成分為 11112121212122221122ppppppppppyu xu xu xyu xu xuxy

12、u xuxu x 寫為矩陣形式:寫為矩陣形式:yU x 1112121222112(,)pppppppuuuuuuUuuuuu12(,)pxxxx 1 1、均值、均值y(U x)UEE 2 2、原總體的總方差(或稱為總慣量)等于不相、原總體的總方差(或稱為總慣量)等于不相關(guān)的主成分的方差之和關(guān)的主成分的方差之和111()pppiiiiiiiVar x 4 4 主成分的性質(zhì)主成分的性質(zhì)4 4、貢獻(xiàn)率與累積貢獻(xiàn)率、貢獻(xiàn)率與累積貢獻(xiàn)率1 1)貢獻(xiàn)率:)貢獻(xiàn)率:第第i個主成分的方差在全部方差中所占比個主成分的方差在全部方差中所占比重重 ,稱為第,稱為第i個主成分的貢獻(xiàn)率個主成分的貢獻(xiàn)率 ,反映了第反映

13、了第i個指標(biāo)提供多大的信息,有多大的綜合能力個指標(biāo)提供多大的信息,有多大的綜合能力 。piii1 2 2)累積貢獻(xiàn)率:)累積貢獻(xiàn)率:前前k個主成分共有多大的綜合能力,個主成分共有多大的綜合能力,用這用這m個主成分的方差和在全部方差中所占比重個主成分的方差和在全部方差中所占比重來描述,稱為累積貢獻(xiàn)率。來描述,稱為累積貢獻(xiàn)率。11pmiiii 累積貢獻(xiàn)率大小反映累積貢獻(xiàn)率大小反映m個主成分提取了個主成分提取了12,px xx的多少信息,但沒有表達(dá)某個變量被提取了多少的多少信息,但沒有表達(dá)某個變量被提取了多少信息,為此引人下述概念。信息,為此引人下述概念。例例: : 設(shè)設(shè)x1, x2, x3的協(xié)方差

14、矩陣為的協(xié)方差矩陣為 120250002 解得特征根為解得特征根為15.83 22.00 30.17 第一個主成分的貢獻(xiàn)率為第一個主成分的貢獻(xiàn)率為5.83/(5.83+2.00+0.17)=72.875%,盡管,盡管第一個主成分的貢獻(xiàn)率并不小,但在第一個主成分的貢獻(xiàn)率并不小,但在本題中第一主成分不含第三個原始變量的信息,所以本題中第一主成分不含第三個原始變量的信息,所以應(yīng)該取兩個主成分。應(yīng)該取兩個主成分。10.3830.9240.000u 2001u 30.9240.3830.000u 相應(yīng)的正交特征向量為相應(yīng)的正交特征向量為在實際問題中,總體的協(xié)方差陣通常是未知的,在實際問題中,總體的協(xié)方差陣通常是未知的,需要由樣本方差陣估計。需要由樣本方差陣估計。 記樣本觀測陣為記樣本觀測陣為 11112122122212xxxppnnnpnxxxxxxXxxx 5 樣本的主成分 11()()1nijliiljjp plp pSsxxxxn 則樣本協(xié)方差陣則樣本協(xié)方差陣S和樣本相關(guān)陣和樣本相關(guān)陣R分別為分別為 ijijp piiiip psRrss 11,1,2,3nililxxipn 一、樣本主成分及其性質(zhì)一、樣本主成分及其性質(zhì)1. 主

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論