主成分分析原理_第1頁
主成分分析原理_第2頁
主成分分析原理_第3頁
主成分分析原理_第4頁
主成分分析原理_第5頁
已閱讀5頁,還剩51頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、主成分分析原理第1頁,共56頁,2022年,5月20日,6點46分,星期日內(nèi) 容 一、前 言 二、問題的提出 三、主成分分析1. 二維數(shù)據(jù)的例子 2. PCA的幾何意義3. 均值和協(xié)方差、 特征值和特征向量4. PCA的性質 四、主成分分析的算法 五、具體實例 實例2 六、 結論七、練習2第2頁,共56頁,2022年,5月20日,6點46分,星期日1. 前 言假定你是一個公司的財務經(jīng)理,掌握了公司的所有數(shù)據(jù),比如固定資產(chǎn)、流動資金、每一筆借貸的數(shù)額和期限、各種稅費、工資支出、原料消耗、產(chǎn)值、利潤、折舊、職工人數(shù)、職工的分工和教育程度等等。如果讓你介紹公司狀況,你能夠把這些指標和數(shù)字都原封不動地

2、擺出去嗎? 當然不能。實例1 實例2你必須要把各個方面作出高度概括,用一兩個指標簡單明了地把情況說清楚。 匯報什么?3第3頁,共56頁,2022年,5月20日,6點46分,星期日PCA多變量問題是經(jīng)常會遇到的。變量太多,無疑會增加分析問題的難度與復雜性. 在許多實際問題中,多個變量之間是具有一定的相關關系的。因此,能否在各個變量之間相關關系研究的基礎上,用較少的新變量代替原來較多的變量,而且使這些較少的新變量盡可能多地保留原來較多的變量所反映的信息?事實上,這種想法是可以實現(xiàn)的.主成分分析原理: 是把原來多個變量化為少數(shù)幾個綜合指標的一種統(tǒng)計分析方法,從數(shù)學角度來看,這是一種降維處理技術。主成

3、分分析方法就是綜合處理這種問題的一種強有力的方法。4第4頁,共56頁,2022年,5月20日,6點46分,星期日 (1) 如何作主成分分析? 當分析中所選擇的變量具有不同的量綱,變量水平差異很大,應該選擇基于相關系數(shù)矩陣的主成分分析。 在力求數(shù)據(jù)信息丟失最少的原則下,對高維的變量空間降維,即研究指標體系的少數(shù)幾個線性組合,并且這幾個線性組合所構成的綜合指標將盡可能多地保留原來指標變異方面的信息。這些綜合指標就稱為主成分。要討論的問題是:2. 問題的提出5第5頁,共56頁,2022年,5月20日,6點46分,星期日各個變量之間差異很大6第6頁,共56頁,2022年,5月20日,6點46分,星期日

4、 (2) 如何選擇幾個主成分。 主成分分析的目的是簡化變量,一般情況下主成分的個數(shù)應該小于原始變量的個數(shù)。關于保留幾個主成分,應該權衡主成分個數(shù)和保留的信息。 (3)如何解釋主成分所包含的幾何意義或經(jīng)濟意義或其它。7第7頁,共56頁,2022年,5月20日,6點46分,星期日 美國的統(tǒng)計學家斯通(Stone)在1947年關于國民經(jīng)濟的研究是一項十分著名的工作。他曾利用美國1929一1938年各年的數(shù)據(jù),得到了17個反映國民收入與支出的變量要素,例如雇主補貼、消費資料和生產(chǎn)資料、純公共支出、凈增庫存、股息、利息、外貿(mào)平衡等等。在進行主成分分析后,竟以97.4的精度,用三個新變量就取代了原17個變

5、量。實例1: 經(jīng)濟分析8第8頁,共56頁,2022年,5月20日,6點46分,星期日 根據(jù)經(jīng)濟學知識,斯通給這三個新變量分別命名為總收入F1、總收入變化率F2和經(jīng)濟發(fā)展或衰退的趨勢F3。更有意思的是,這三個變量其實都是可以直接測量的。9第9頁,共56頁,2022年,5月20日,6點46分,星期日 主成分分析就是試圖在力保數(shù)據(jù)信息丟失最少的原則下,對這種多變量的數(shù)據(jù)表進行最佳綜合簡化,也就是說,對高維變量空間進行降維處理。 很顯然,識辨系統(tǒng)在一個低維空間要比在一個高維空間容易得多。10第10頁,共56頁,2022年,5月20日,6點46分,星期日實例2: 成績數(shù)據(jù)100個學生的數(shù)學、物理、化學、

6、語文、歷史、英語的成績?nèi)缦卤恚ú糠郑?11第11頁,共56頁,2022年,5月20日,6點46分,星期日從本例可能提出的問題目前的問題是,能不能把這個數(shù)據(jù)的6個變量用一兩個綜合變量來表示呢?這一兩個綜合變量包含有多少原來的信息呢?能不能利用找到的綜合變量來對學生排序呢?這一類數(shù)據(jù)所涉及的問題可以推廣到對企業(yè),對學校進行分析、排序、判別和分類等問題。12第12頁,共56頁,2022年,5月20日,6點46分,星期日例中的的數(shù)據(jù)點是六維的;也就是說,每個觀測值是6維空間中的一個點。我們希望把6維空間用低維空間表示。3.1 PCA: 二維數(shù)據(jù)分析13第13頁,共56頁,2022年,5月20日,6點

7、46分,星期日平均成績73.769.861.372.577.272.36372.370單科平均成績74.1747066.473.663.314第14頁,共56頁,2022年,5月20日,6點46分,星期日15第15頁,共56頁,2022年,5月20日,6點46分,星期日 先假定數(shù)據(jù)只有二維,即只有兩個變量,它們由橫坐標和縱坐標所代表;因此每個觀測值都有相應于這兩個坐標軸的兩個坐標值; 如果這些數(shù)據(jù)形成一個橢圓形狀的點陣(這在變量的二維正態(tài)的假定下是可能的).16第16頁,共56頁,2022年,5月20日,6點46分,星期日3.2主成分分析的幾何解釋平移、旋轉坐標軸17第17頁,共56頁,202

8、2年,5月20日,6點46分,星期日主成分分析的幾何解釋平移、旋轉坐標軸18第18頁,共56頁,2022年,5月20日,6點46分,星期日主成分分析的幾何解釋平移、旋轉坐標軸19第19頁,共56頁,2022年,5月20日,6點46分,星期日主成分分析的幾何解釋平移、旋轉坐標軸20第20頁,共56頁,2022年,5月20日,6點46分,星期日3.2. PCA: 進一步解釋 橢圓有一個長軸和一個短軸。在短軸方向上,數(shù)據(jù)變化很少;在極端的情況,短軸如果退化成一點,那只有在長軸的方向才能夠解釋這些點的變化了;這樣,由二維到一維的降維就自然完成了。21第21頁,共56頁,2022年,5月20日,6點46

9、分,星期日二維數(shù)據(jù)22第22頁,共56頁,2022年,5月20日,6點46分,星期日進一步解釋PCA當坐標軸和橢圓的長短軸平行,那么代表長軸的變量就描述了數(shù)據(jù)的主要變化,而代表短軸的變量就描述了數(shù)據(jù)的次要變化。但是,坐標軸通常并不和橢圓的長短軸平行。因此,需要尋找橢圓的長短軸,并進行變換,使得新變量和橢圓的長短軸平行。如果長軸變量代表了數(shù)據(jù)包含的大部分信息,就用該變量代替原先的兩個變量(舍去次要的一維),降維就完成了。橢圓(球)的長短軸相差得越大,降維也越有道理。23第23頁,共56頁,2022年,5月20日,6點46分,星期日進一步解釋PCA(續(xù))對于多維變量的情況和二維類似,也有高維的橢球

10、,只不過無法直觀地看見罷了。首先把高維橢球的主軸找出來,再用代表大多數(shù)數(shù)據(jù)信息的最長的幾個軸作為新變量;這樣,主成分分析就基本完成了。注意,和二維情況類似,高維橢球的主軸也是互相垂直的。這些互相正交的新變量是原先變量的線性組合,叫做主成分(principal component)。 24第24頁,共56頁,2022年,5月20日,6點46分,星期日正如二維橢圓有兩個主軸,三維橢球有三個主軸一樣,有幾個變量,就有幾個主成分。選擇越少的主成分,降維就越好。什么是標準呢?那就是這些被選的主成分所代表的主軸的長度之和占了主軸長度總和的大部分。有些文獻建議,所選的主軸總長度占所有主軸長度之和的大約85%

11、即可,其實,這只是一個大體的說法;具體選幾個,要看實際情況而定。25第25頁,共56頁,2022年,5月20日,6點46分,星期日3.3. 均值和協(xié)方差 特征值和特征向量設有n個樣本,每個樣本觀測p個指標(變量):X1,X2,Xn, 得到原始數(shù)據(jù)矩陣:26第26頁,共56頁,2022年,5月20日,6點46分,星期日1. 樣本均值顯然,樣本均值是數(shù)據(jù)散列圖的中心.于是 p*n 矩陣的列B具有零樣本均值,稱為平均偏差形式M27第27頁,共56頁,2022年,5月20日,6點46分,星期日2. 樣本協(xié)方差 中心中心 協(xié)方差的大小在一定程度上反映了多變量之間的關系,但它還受變量自身度量單位的影響.注

12、意:協(xié)方差是對稱矩陣且半正定28第28頁,共56頁,2022年,5月20日,6點46分,星期日3.3 特征值與特征向量定義為階方陣,為數(shù),為維非零向量,若則稱為的特征值,稱為的特征向量注并不一定唯一;階方陣的特征值,就是使齊次線性方程組特征向量 ,特征值問題只針對與方陣;有非零解的值,即滿足的都是方陣的特征值定義稱以為未知數(shù)的一元次方程為的特征方程29第29頁,共56頁,2022年,5月20日,6點46分,星期日例1: 從一個總體中隨機抽取4個樣本作三次測量,每一個樣本的觀測向量為: 計算樣本均值M和協(xié)方差矩陣S以及S的特征值和特征向量.30第30頁,共56頁,2022年,5月20日,6點46

13、分,星期日Syntax C = cov(X)AlgorithmThe algorithm for cov is n,p = size(X);X = X - ones(n,1) * mean(X);Y = X*X/(n-1);See Also corrcoef, mean, std, var31第31頁,共56頁,2022年,5月20日,6點46分,星期日平移、旋轉坐標軸M2022/8/3032第32頁,共56頁,2022年,5月20日,6點46分,星期日 為了方便,我們在二維空間中討論主成分的幾何意義。 設有n個樣本,每個樣本有兩個觀測變量xl和x2,在由變量xl和x2 所確定的二維平面中,n

14、個樣本點所散布的情況如橢圓狀。由圖可以看出這n個樣本點無論是沿著xl 軸方向或x2軸方向都具有較大的離散性,其離散的程度可以分別用觀測變量xl 的方差和x2 的方差定量地表示。顯然,如果只考慮xl和x2 中的任何一個,那么包含在原始數(shù)據(jù)中的信息將會有較大的損失。 2022/8/3033第33頁,共56頁,2022年,5月20日,6點46分,星期日 如果我們將xl 軸和x2軸先平移,再同時按逆時針方向旋轉角度,得到新坐標軸Fl和F2。Fl和F2是兩個新變量。2022/8/3034第34頁,共56頁,2022年,5月20日,6點46分,星期日 Fl,F(xiàn)2除了可以對包含在Xl,X2中的信息起著濃縮作

15、用之外,還具有不相關的性質,這就使得在研究復雜的問題時避免了信息重疊所帶來的虛假性。二維平面上的個點的方差大部分都歸結在Fl軸上,而F2軸上的方差很小。Fl和F2稱為原始變量x1和x2的綜合變量。 F簡化了系統(tǒng)結構,抓住了主要矛盾。 2022/8/3035第35頁,共56頁,2022年,5月20日,6點46分,星期日稍事休息36第36頁,共56頁,2022年,5月20日,6點46分,星期日3.4 PCA的性質 一、兩個線性代數(shù)的結論 1、若A是p階實對稱陣,則一定可以找到正交陣U,使其中 是A的特征根。37第37頁,共56頁,2022年,5月20日,6點46分,星期日 2、若上述矩陣的特征根所

16、對應的單位特征向量為 則實對稱陣 屬于不同特征根所對應的特征向量是正交的,即有令38第38頁,共56頁,2022年,5月20日,6點46分,星期日 3.4 PCA的性質(續(xù))3、均值4、方差為所有特征根之和 說明主成分分析把P個隨機變量的總方差分解成為P個不相關的隨機變量的方差之和。 協(xié)方差矩陣的對角線上的元素之和等于特征根之和。39第39頁,共56頁,2022年,5月20日,6點46分,星期日 3.4、精度分析 1)貢獻率:第i個主成分的方差在全部方差中所占比重 ,稱為貢獻率 ,反映了原來P個指標多大的信息,有多大的綜合能力 。 2)累積貢獻率:前k個主成分共有多大的綜合能力,用這k個主成分

17、的方差和在全部方差中所占比重來描述,稱為累積貢獻率。40第40頁,共56頁,2022年,5月20日,6點46分,星期日PCA常用統(tǒng)計量:.特征根i .各成分貢獻率.前各成分累計貢獻率.特征向量 各成分表達式中標準化原始變量的系數(shù)向量,就是各成分的特征向量。41第41頁,共56頁,2022年,5月20日,6點46分,星期日 我們進行主成分分析的目的之一是希望用盡可能少的主成分F1,F(xiàn)2,F(xiàn)k(kp)代替原來的P個指標。到底應該選擇多少個主成分,在實際工作中,主成分個數(shù)的多少取決于能夠反映原來變量80%以上的信息量為依據(jù),即當累積貢獻率80%時的主成分的個數(shù)就足夠了。最常見的情況是主成分為2到3個

18、。42第42頁,共56頁,2022年,5月20日,6點46分,星期日 例 設 的協(xié)方差矩陣為 解得特征根為 , , 第一個主成分的貢獻率為5.83/(5.83+2.00+0.17)=72.875%,盡管第一個主成分的貢獻率并不小,但應該取兩個主成分。97.88%43第43頁,共56頁,2022年,5月20日,6點46分,星期日4 主成分分析的步驟 第一步:由X的協(xié)方差陣x,求出其特征根,即解方程 ,可得特征根 。一、基于協(xié)方差矩陣44第44頁,共56頁,2022年,5月20日,6點46分,星期日 第二步:求出分別所對應的特征向量U1,U2,Up, 第三步:計算累積貢獻率,給出恰當?shù)闹鞒煞謧€數(shù)。

19、第四步:計算所選出的k個主成分的得分。將原始數(shù)據(jù)的中心化值: 代入前k個主成分的表達式,分別計算出各單位k個主成分的得分,并按得分值的大小排隊。45第45頁,共56頁,2022年,5月20日,6點46分,星期日 例 應收賬款是指企業(yè)因對外銷售產(chǎn)品、材料、提供勞務及其它原因,應向購貨單位或接受勞務的單位收取的款項,包括應收銷貨款、其它應收款和應收票據(jù)等。出于擴大銷售的競爭需要,企業(yè)不得不以賒銷或其它優(yōu)惠的方式招攬顧客,由于銷售和收款的時間差,于是產(chǎn)生了應收款項。應收款賒銷的效果的好壞,不僅依賴于企業(yè)的信用政策,還依賴于顧客的信用程度。由此,評價顧客的信用等級,了解顧客的綜合信用程度,做到“知己知

20、彼,百戰(zhàn)不殆”,對加強企業(yè)的應收賬款管理大有幫助。某企業(yè)為了了解其客戶的信用程度,采用西方銀行信用評估常用的5C方法,5C的目的是說明顧客違約的可能性。 5 PCA的應用 46第46頁,共56頁,2022年,5月20日,6點46分,星期日1、品格(用X1表示),指顧客的信譽,履行償還義務的可能性。企業(yè)可以通過過去的付款記錄得到此項。2、能力(用X2表示),指顧客的償還能力。即其流動資產(chǎn)的數(shù)量和質量以及流動負載的比率。顧客的流動資產(chǎn)越多,其轉化為現(xiàn)金支付款項的能力越強。同時,還應注意顧客流動資產(chǎn)的質量,看其是否會出現(xiàn)存貨過多過時質量下降,影響其變現(xiàn)能力和支付能力。3、資本(用X3表示),指顧客的

21、財務勢力和財務狀況,表明顧客可能償還債務的背景。4、附帶的擔保品(用X4表示),指借款人以容易出售的資產(chǎn)做抵押。5、環(huán)境條件(用X5表示),指企業(yè)的外部因素,即指非企業(yè)本身能控制或操縱的因素。 47第47頁,共56頁,2022年,5月20日,6點46分,星期日 首先并抽取了10家具有可比性的同類企業(yè)作為樣本,又請8位專家分別給10個企業(yè)的5個指標打分,然后分別計算企業(yè)5個指標的平均值,如表。 76.581.57675.871.78579.280.384.476.570.67367.668.178.5949487.589.59290.787.39181.58084.666.968.864.866

22、.477.573.670.969.874.857.760.457.460.86585.668.57062.276.57069.271.764.968.9;48第48頁,共56頁,2022年,5月20日,6點46分,星期日 Eigenvalues of the Covariance Matrix Eigenvalue Difference Proportion Cumulative PRIN1 410.506 367.242 0.845854 0.84585 PRIN2 43.264 22.594 0.089146 0.93500 PRIN3 20.670 12.599 0.042591 0.9

23、7759 PRIN4 8.071 5.266 0.016630 0.99422 PRIN5 2.805 0. 0 0.005779 1.00000 Eigenvectors PRIN1 PRIN2 PRIN3 PRIN4 PRIN5 X1 0.468814 -.830612 0.021406 0.254654 -.158081 X2 0.484876 0.329916 0.014801 -.287720 -.757000 X3 0.472744 -.021174 -.412719 -.588582 0.509213 X4 0.461747 0.430904 -.240845 0.706283

24、0.210403 X5 0.329259 0.122930 0.878054 -.084286 0.31367749第49頁,共56頁,2022年,5月20日,6點46分,星期日 第一主成份的貢獻率為84.6%,第一主成份 Z1=0.469X1+0.485X2+0.473X3+0.462X4+0.329X5 的各項系數(shù)大致相等,且均為正數(shù),說明第一主成份是對所有指標的一個綜合測度,可以作為綜合的信用等級指標。可以用來排序。將原始數(shù)據(jù)的值中心化后,代入第一主成份Z1的表示式,計算各企業(yè)的得分,并按分值大小排序: 在正確評估了顧客的信用等級后,就能正確制定出對其的信用期、收帳政策等,這對于加強應收

25、帳款的管理大有幫助。序號12345678910得分3.1613.6-9.0135.925.1-10.3-4.36-33.8-6.41-13.8排序4371285106950第50頁,共56頁,2022年,5月20日,6點46分,星期日例二 基于相關系數(shù)矩陣的主成分分析。對美國紐約上市的有關化學產(chǎn)業(yè)的三個證券和石油產(chǎn)業(yè)的2個證券做了100周的收益率調(diào)查。下表是其相關系數(shù)矩陣。 1)利用相關系數(shù)矩陣做主成分分析。 2)決定要保留的主成分個數(shù),并解釋意義。10.5770.5090.00630.00370.57710.5990.3890.520.5090.59910.4360.4260.3870.38

26、90.43610.5230.4620.3220.4260.523151第51頁,共56頁,2022年,5月20日,6點46分,星期日 Eigenvalues of the Correlation Matrix Eigenvalue Difference Proportion Cumulative PRIN1 2.85671 2.04755 0.571342 0.57134 PRIN2 0.80916 0.26949 0.161833 0.73317 PRIN3 0.53968 0.08818 0.107935 0.84111 PRIN4 0.45150 0.10855 0.090300 0.93141 PRIN5 0.34295 0. 0 0.068590 1.00000 Eigenvectors PRIN1 PRIN2 PRIN3 PRIN4 PRIN5 X1 0.463605 -.240339 -.611705 0.386635 -.451262 X2 0.457108 -.509305 0.178189 0.206474 0.676223 X3 0.470

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論