版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、主成分分析 主成分分析PCA Principle Component Analysis 通過(guò)K-L變換實(shí)現(xiàn)主成分分析 PCA的變換矩陣是協(xié)方差矩陣,K-L變換的變換矩陣可以有很多種(二階矩陣、協(xié)方差矩陣、總類內(nèi)離散度矩陣等等)。當(dāng)K-L變換矩陣為協(xié)方差矩陣時(shí),等同于PCA。 KL 坐標(biāo)系的產(chǎn)生矩陣K-L變換 特征提取思想 用映射(或變換)的方法把原始特征變換為較少的新特征 降維 主成分分析(PCA)基本思想 進(jìn)行特征降維變換,不能完全地表示原有的對(duì)象,能量總會(huì)有損失。 希望找到一種能量最為集中的的變換方法使損失最小K-L變換 原始輸入: x 變換后特征:y 變換矩陣(線性變換):A 則:y=A
2、TxK-L變換 思考: 希望特征之間關(guān)聯(lián)性盡可能小 變換后的相關(guān)矩陣:RyEyyT =EATxxTA =ATRxA我們是不是希望Ry是個(gè)對(duì)角矩陣?如何選擇A?K-L變換 考慮以Rx的特征向量作為A的列,則Ry=ATRxA = a1,a2an TRx a1,a2an = a1,a2an T 1a1, 2a2nan =為對(duì)角矩陣,對(duì)角線元素為 1, 2n達(dá)到變換后特征不相關(guān)的目的以上為K-L變換K-L變換 思考K-L變換性質(zhì): 如果降維,有什么結(jié)果 原有N維,只保留m維,即去掉ym+1yN 希望:和原來(lái)的表示方法差別最小即:E|x-x|2 最小x表示y1ym在原空間中對(duì)應(yīng)的表示方法K-L變換2 x
3、xE21)(NmiiaiyEijjTiajyaiyE)()()(NmiiyE12)(NmiiTTiaxxEa1NmiixTiaRa1NmiiiTiaa1Nmii1xaiyTi)(K-L變換 結(jié)論 如果對(duì)特征向量排序,舍棄最小的特征,則損失的能量最小K-L變換典型應(yīng)用典型應(yīng)用 1降維與壓縮 對(duì)一幅人臉圖象,如果它由M行與N到象素組成,則原始的特征空間維數(shù)就應(yīng)為MN。 而如果在K-L變換以及只用到30個(gè)基,那么維數(shù)就降至30,由此可見降維的效果是極其明顯的。 譬如原訓(xùn)練樣本集的數(shù)量為V,而現(xiàn)采用30個(gè)基,數(shù)據(jù)量是大大降低 K-L變換典型應(yīng)用典型應(yīng)用 3人臉識(shí)別 首先搜集要識(shí)別的人的人臉圖象,建立人
4、臉圖象庫(kù), 然后利用K-L變換確定相應(yīng)的人臉基圖象, 再反過(guò)來(lái)用這些基圖象對(duì)人臉圖象庫(kù)中的有人臉圖象進(jìn)行K-L變換 在識(shí)別時(shí),先對(duì)一張所輸入的臉圖象進(jìn)行必要的規(guī)范化,再進(jìn)行K-L變換分析,得到其參數(shù)向量。 K-L變換典型應(yīng)用典型應(yīng)用 4人臉圖象合成使用K-L變換進(jìn)行特征提取題目: 主成分分析 PCA路志宏Lu_Principal Component AnalysisPrincipal Component Analysis內(nèi) 容u 一、前一、前 言言u(píng) 二、問(wèn)題的提出二、問(wèn)題的提出u 三、主成分分析三、主成分分析 1. 二維數(shù)據(jù)的例子二維數(shù)據(jù)的例子 2. PCA的幾何意義的幾何意義 3. 均值和
5、協(xié)方差、均值和協(xié)方差、 特征值和特征向量特征值和特征向量 4. PCA的性質(zhì)的性質(zhì) u 四、主成分分析的算法四、主成分分析的算法u 五、具體實(shí)例五、具體實(shí)例 實(shí)例實(shí)例2u 六、六、 結(jié)論結(jié)論七、七、練習(xí)練習(xí)1. 前前 言言 假定你是一個(gè)公司的財(cái)務(wù)經(jīng)理,掌握了公司的假定你是一個(gè)公司的財(cái)務(wù)經(jīng)理,掌握了公司的所有數(shù)據(jù),比如所有數(shù)據(jù),比如固定資產(chǎn)、流動(dòng)資金、每一筆固定資產(chǎn)、流動(dòng)資金、每一筆借貸的數(shù)額和期限、各種稅費(fèi)、工資支出、原借貸的數(shù)額和期限、各種稅費(fèi)、工資支出、原料消耗、產(chǎn)值、利潤(rùn)、折舊、職工人數(shù)、職工料消耗、產(chǎn)值、利潤(rùn)、折舊、職工人數(shù)、職工的分工和教育程度等等的分工和教育程度等等。 如果讓你介紹
6、公司狀況,你能夠把這些指標(biāo)和如果讓你介紹公司狀況,你能夠把這些指標(biāo)和數(shù)字都數(shù)字都原封不動(dòng)地?cái)[出去嗎原封不動(dòng)地?cái)[出去嗎? 當(dāng)然不能當(dāng)然不能。實(shí)例。實(shí)例1 實(shí)例實(shí)例2 你必須要把各個(gè)方面作出你必須要把各個(gè)方面作出高度概括高度概括,用一兩個(gè)用一兩個(gè)指標(biāo)簡(jiǎn)單明了地把情況說(shuō)清楚。指標(biāo)簡(jiǎn)單明了地把情況說(shuō)清楚。 l匯報(bào)什么?匯報(bào)什么?PCA 多變量問(wèn)題是經(jīng)常會(huì)遇到的。多變量問(wèn)題是經(jīng)常會(huì)遇到的。變量太多,無(wú)疑會(huì)增加分析變量太多,無(wú)疑會(huì)增加分析問(wèn)題的難度與復(fù)雜性問(wèn)題的難度與復(fù)雜性. 在許多實(shí)際問(wèn)題中,多個(gè)變量之間是具有一定的相關(guān)關(guān)系在許多實(shí)際問(wèn)題中,多個(gè)變量之間是具有一定的相關(guān)關(guān)系的。因此,能否在各個(gè)變量之間相
7、關(guān)關(guān)系研究的基礎(chǔ)上,的。因此,能否在各個(gè)變量之間相關(guān)關(guān)系研究的基礎(chǔ)上,用用較少的新變量代替原來(lái)較多的變量較少的新變量代替原來(lái)較多的變量,而且使這些較少的,而且使這些較少的新變量新變量盡可能多地保留原來(lái)較多的變量所反映的信息盡可能多地保留原來(lái)較多的變量所反映的信息?事?事實(shí)上,這種想法是可以實(shí)現(xiàn)的實(shí)上,這種想法是可以實(shí)現(xiàn)的. 主成分分析原理主成分分析原理: 是把原來(lái)多個(gè)變量化為少數(shù)幾個(gè)綜合指標(biāo)是把原來(lái)多個(gè)變量化為少數(shù)幾個(gè)綜合指標(biāo)的一種統(tǒng)計(jì)分析方法,從數(shù)學(xué)角度來(lái)看,這是一種降維處的一種統(tǒng)計(jì)分析方法,從數(shù)學(xué)角度來(lái)看,這是一種降維處理技術(shù)。理技術(shù)。 主成分分析方法就是綜合處理這種問(wèn)題的一種強(qiáng)有力的方主
8、成分分析方法就是綜合處理這種問(wèn)題的一種強(qiáng)有力的方法。法。 (1) (1) 如何作主成分分析如何作主成分分析? ? 當(dāng)分析中所選擇的變量具有不同的量綱,當(dāng)分析中所選擇的變量具有不同的量綱,變量水平差異很大變量水平差異很大,應(yīng)該選擇基于相關(guān)系數(shù),應(yīng)該選擇基于相關(guān)系數(shù)矩陣的主成分分析。矩陣的主成分分析。 在力求數(shù)據(jù)信息丟失最少的原則下,對(duì)高維的在力求數(shù)據(jù)信息丟失最少的原則下,對(duì)高維的變量空間降維,即研究指標(biāo)體系的少數(shù)幾個(gè)線性組變量空間降維,即研究指標(biāo)體系的少數(shù)幾個(gè)線性組合,并且這幾個(gè)線性組合所構(gòu)成的綜合指標(biāo)將盡可合,并且這幾個(gè)線性組合所構(gòu)成的綜合指標(biāo)將盡可能多地保留原來(lái)指標(biāo)變異方面的信息。這些綜合指
9、能多地保留原來(lái)指標(biāo)變異方面的信息。這些綜合指標(biāo)就稱為主成分。標(biāo)就稱為主成分。要討論的問(wèn)題是:要討論的問(wèn)題是:2. 問(wèn)題的提出問(wèn)題的提出各個(gè)變量之間差異很大各個(gè)變量之間差異很大 (2 2) 如何選擇幾個(gè)主成分。如何選擇幾個(gè)主成分。 主成分分析的目的是簡(jiǎn)化變量,一般情主成分分析的目的是簡(jiǎn)化變量,一般情況下主成分的個(gè)數(shù)應(yīng)該小于原始變量的個(gè)數(shù)。況下主成分的個(gè)數(shù)應(yīng)該小于原始變量的個(gè)數(shù)。關(guān)于保留幾個(gè)主成分,應(yīng)該權(quán)衡主成分個(gè)數(shù)關(guān)于保留幾個(gè)主成分,應(yīng)該權(quán)衡主成分個(gè)數(shù)和保留的信息。和保留的信息。 (3 3)如何解釋主成分所包含的幾何意義如何解釋主成分所包含的幾何意義或經(jīng)濟(jì)意義或其它。或經(jīng)濟(jì)意義或其它。 美國(guó)的統(tǒng)
10、計(jì)學(xué)家斯通美國(guó)的統(tǒng)計(jì)學(xué)家斯通(Stone)(Stone)在在19471947年關(guān)于國(guó)民年關(guān)于國(guó)民經(jīng)濟(jì)的研究是經(jīng)濟(jì)的研究是一項(xiàng)十分著名的工作一項(xiàng)十分著名的工作。他曾利用美國(guó)。他曾利用美國(guó)19291929一一19381938年各年的數(shù)據(jù),得到了年各年的數(shù)據(jù),得到了1717個(gè)反映國(guó)民收個(gè)反映國(guó)民收入與支出的變量要素,例如入與支出的變量要素,例如雇主補(bǔ)貼、消費(fèi)資料和雇主補(bǔ)貼、消費(fèi)資料和生產(chǎn)資料、純公共支出、凈增庫(kù)存、股息、利息、生產(chǎn)資料、純公共支出、凈增庫(kù)存、股息、利息、外貿(mào)平衡等等。外貿(mào)平衡等等。l 在進(jìn)行主成分分析后,竟以在進(jìn)行主成分分析后,竟以97.4的精度,用的精度,用三個(gè)新變量就取代了原三個(gè)
11、新變量就取代了原17個(gè)變量。個(gè)變量。實(shí)例實(shí)例1: 經(jīng)濟(jì)分析經(jīng)濟(jì)分析 根據(jù)經(jīng)濟(jì)學(xué)知識(shí),斯通給這三個(gè)新根據(jù)經(jīng)濟(jì)學(xué)知識(shí),斯通給這三個(gè)新變量分別命名為變量分別命名為總收入總收入F1F1、總收入變化、總收入變化率率F2F2和經(jīng)濟(jì)發(fā)展或衰退的趨勢(shì)和經(jīng)濟(jì)發(fā)展或衰退的趨勢(shì)F3F3。更有。更有意思的是,這三個(gè)變量其實(shí)都是可以直意思的是,這三個(gè)變量其實(shí)都是可以直接測(cè)量的。接測(cè)量的。 主成分分析就是試圖在力保數(shù)據(jù)信息丟主成分分析就是試圖在力保數(shù)據(jù)信息丟失最少的原則下,對(duì)這種多變量的數(shù)據(jù)表進(jìn)失最少的原則下,對(duì)這種多變量的數(shù)據(jù)表進(jìn)行最佳綜合簡(jiǎn)化,也就是說(shuō),行最佳綜合簡(jiǎn)化,也就是說(shuō),對(duì)高維變量空對(duì)高維變量空間進(jìn)行降維處理
12、。間進(jìn)行降維處理。 很顯然,識(shí)辨系統(tǒng)在一個(gè)低維空間要比很顯然,識(shí)辨系統(tǒng)在一個(gè)低維空間要比在一個(gè)高維空間容易得多。在一個(gè)高維空間容易得多。實(shí)例實(shí)例2: 成績(jī)數(shù)據(jù)成績(jī)數(shù)據(jù) 100個(gè)學(xué)生的數(shù)學(xué)、物理、化學(xué)、語(yǔ)文、歷個(gè)學(xué)生的數(shù)學(xué)、物理、化學(xué)、語(yǔ)文、歷史、英語(yǔ)的成績(jī)?nèi)缦卤恚ú糠郑?。史、英語(yǔ)的成績(jī)?nèi)缦卤恚ú糠郑?從本例可能提出的問(wèn)題從本例可能提出的問(wèn)題 目前的問(wèn)題是,能不能把這個(gè)數(shù)據(jù)的目前的問(wèn)題是,能不能把這個(gè)數(shù)據(jù)的6 6個(gè)變量用一兩個(gè)綜合變量來(lái)表示個(gè)變量用一兩個(gè)綜合變量來(lái)表示呢?呢? 這一兩個(gè)綜合變量這一兩個(gè)綜合變量包含有多少原來(lái)的包含有多少原來(lái)的信息信息呢?呢? 能不能能不能利用找到的綜合變量來(lái)對(duì)學(xué)
13、生利用找到的綜合變量來(lái)對(duì)學(xué)生排序排序呢?這一類數(shù)據(jù)所涉及的問(wèn)題可呢?這一類數(shù)據(jù)所涉及的問(wèn)題可以推廣到對(duì)企業(yè),對(duì)學(xué)校進(jìn)行分析、以推廣到對(duì)企業(yè),對(duì)學(xué)校進(jìn)行分析、排序、判別和分類等問(wèn)題。排序、判別和分類等問(wèn)題。 例中的的數(shù)據(jù)點(diǎn)是六維的;也就是說(shuō),每個(gè)觀測(cè)例中的的數(shù)據(jù)點(diǎn)是六維的;也就是說(shuō),每個(gè)觀測(cè)值是值是6維空間中的一個(gè)點(diǎn)。維空間中的一個(gè)點(diǎn)。我們希望把我們希望把6維空間用維空間用低維空間表示。低維空間表示。3.1 PCA: 二維數(shù)據(jù)分析二維數(shù)據(jù)分析平均成績(jī)73.769.861.372.577.272.36372.370單科平均成績(jī)74.1747066.473.663.36466687072747678
14、8082846065707580859095100dataM 先假定數(shù)據(jù)只有二維,即只有兩個(gè)先假定數(shù)據(jù)只有二維,即只有兩個(gè)變量,它們由橫坐標(biāo)和縱坐標(biāo)所代表;變量,它們由橫坐標(biāo)和縱坐標(biāo)所代表;因此每個(gè)觀測(cè)值都有相應(yīng)于這兩個(gè)坐因此每個(gè)觀測(cè)值都有相應(yīng)于這兩個(gè)坐標(biāo)軸的兩個(gè)坐標(biāo)值;標(biāo)軸的兩個(gè)坐標(biāo)值; 如果這些數(shù)據(jù)形成一個(gè)如果這些數(shù)據(jù)形成一個(gè)橢圓形狀橢圓形狀的的點(diǎn)陣(這在變量的二維正態(tài)的假定下點(diǎn)陣(這在變量的二維正態(tài)的假定下是可能的)是可能的). .2x1x1F2F3.23.2主成分分析的幾何解釋主成分分析的幾何解釋平移、旋轉(zhuǎn)坐標(biāo)軸2x1x1F2F主成分分析的幾何解釋平移、旋轉(zhuǎn)坐標(biāo)軸2x1x1F2F 主成
15、分分析的幾何解釋平移、旋轉(zhuǎn)坐標(biāo)軸2x1x1F2F主成分分析的幾何解釋平移、旋轉(zhuǎn)坐標(biāo)軸3.2. PCA: 進(jìn)一步解釋進(jìn)一步解釋-4-2024-4-2024 橢圓有一個(gè)長(zhǎng)軸和一橢圓有一個(gè)長(zhǎng)軸和一個(gè)短軸。在短軸方向上,個(gè)短軸。在短軸方向上,數(shù)據(jù)變化很少;在極端的數(shù)據(jù)變化很少;在極端的情況,短軸如果退化成一情況,短軸如果退化成一點(diǎn),那只有在長(zhǎng)軸的方向點(diǎn),那只有在長(zhǎng)軸的方向才能夠解釋這些點(diǎn)的變化才能夠解釋這些點(diǎn)的變化了;這樣,由二維到一維了;這樣,由二維到一維的降維就自然完成了。的降維就自然完成了。-4-2024-4-2024二維數(shù)據(jù)二維數(shù)據(jù)進(jìn)一步解釋進(jìn)一步解釋PCA 當(dāng)坐標(biāo)軸和橢圓的長(zhǎng)短軸平行,那么代
16、表長(zhǎng)軸當(dāng)坐標(biāo)軸和橢圓的長(zhǎng)短軸平行,那么代表長(zhǎng)軸的變量就描述了數(shù)據(jù)的主要變化,而代表短軸的變量就描述了數(shù)據(jù)的主要變化,而代表短軸的變量就描述了數(shù)據(jù)的次要變化。的變量就描述了數(shù)據(jù)的次要變化。 但是,但是,坐標(biāo)軸通常并不和橢圓的長(zhǎng)短軸平行坐標(biāo)軸通常并不和橢圓的長(zhǎng)短軸平行。因此,需要尋找橢圓的長(zhǎng)短軸,并進(jìn)行變換,因此,需要尋找橢圓的長(zhǎng)短軸,并進(jìn)行變換,使得新變量和橢圓的長(zhǎng)短軸平行。使得新變量和橢圓的長(zhǎng)短軸平行。 如果長(zhǎng)軸變量代表了數(shù)據(jù)包含的大部分信息,如果長(zhǎng)軸變量代表了數(shù)據(jù)包含的大部分信息,就用該變量代替原先的兩個(gè)變量(舍去次要的就用該變量代替原先的兩個(gè)變量(舍去次要的一維),降維就完成了。一維),降
17、維就完成了。 橢圓(球)的長(zhǎng)短軸相差得越大,降維也越有橢圓(球)的長(zhǎng)短軸相差得越大,降維也越有道理。道理。進(jìn)一步解釋進(jìn)一步解釋PCA(續(xù)續(xù)) 對(duì)于多維變量的情況和二維類似,也對(duì)于多維變量的情況和二維類似,也有高維的橢球,只不過(guò)無(wú)法直觀地看有高維的橢球,只不過(guò)無(wú)法直觀地看見罷了。見罷了。 首先把高維橢球的主軸找出來(lái),再用首先把高維橢球的主軸找出來(lái),再用代表大多數(shù)數(shù)據(jù)信息的最長(zhǎng)的幾個(gè)軸代表大多數(shù)數(shù)據(jù)信息的最長(zhǎng)的幾個(gè)軸作為新變量;這樣,主成分分析就基作為新變量;這樣,主成分分析就基本完成了。本完成了。 注意,和二維情況類似,高維橢球的注意,和二維情況類似,高維橢球的主軸也是互相垂直的。這些互相正交主
18、軸也是互相垂直的。這些互相正交的新變量是原先變量的線性組合,叫的新變量是原先變量的線性組合,叫做主成分做主成分(principal component)。 正如二維橢圓有兩個(gè)主軸,三維橢球正如二維橢圓有兩個(gè)主軸,三維橢球有三個(gè)主軸一樣,有幾個(gè)變量,就有有三個(gè)主軸一樣,有幾個(gè)變量,就有幾個(gè)主成分。幾個(gè)主成分。 選擇越少的主成分,降維就越好。什選擇越少的主成分,降維就越好。什么是標(biāo)準(zhǔn)呢?那就是這些被選的主成么是標(biāo)準(zhǔn)呢?那就是這些被選的主成分所代表的主軸的長(zhǎng)度之和占了主軸分所代表的主軸的長(zhǎng)度之和占了主軸長(zhǎng)度總和的大部分。長(zhǎng)度總和的大部分。有些文獻(xiàn)建議,有些文獻(xiàn)建議,所選的主軸總長(zhǎng)度占所有主軸長(zhǎng)度之所
19、選的主軸總長(zhǎng)度占所有主軸長(zhǎng)度之和的大約和的大約85%85%即可,即可,其實(shí),這只是一個(gè)其實(shí),這只是一個(gè)大體的說(shuō)法;具體選幾個(gè),要看實(shí)際大體的說(shuō)法;具體選幾個(gè),要看實(shí)際情況而定。情況而定。3.3. 均值和協(xié)方差均值和協(xié)方差 特征值和特征向量特征值和特征向量-4-2024-4-2024111221221212pnpnppnnnppxxxxxxxxxXXXX設(shè)有設(shè)有n個(gè)樣本,每個(gè)樣本觀測(cè)個(gè)樣本,每個(gè)樣本觀測(cè)p個(gè)指標(biāo)(變量):個(gè)指標(biāo)(變量):X1,X2,Xn, 得到原始數(shù)據(jù)矩陣:得到原始數(shù)據(jù)矩陣:.1()nn12MX + X + XkkX= X- M1. 樣本均值樣本均值顯然顯然,樣本均值是數(shù)據(jù)散列圖
20、的樣本均值是數(shù)據(jù)散列圖的中心中心.于是于是 p*n 矩陣的列矩陣的列B具有零樣本均值具有零樣本均值,稱為平均偏差形式稱為平均偏差形式12,nBX XX-4-2024-4-2024M11TnSBB2. 樣本協(xié)方差樣本協(xié)方差 中心中心中心中心 協(xié)方差的大小在一定程度上反映了多變協(xié)方差的大小在一定程度上反映了多變量之間的關(guān)系,但它還受變量自身度量量之間的關(guān)系,但它還受變量自身度量單位的影響單位的影響.注意:協(xié)方差注意:協(xié)方差是對(duì)稱矩陣且半正定是對(duì)稱矩陣且半正定為階方陣,為階方陣,為數(shù),為數(shù),X為維非零向量,為維非零向量,AXX 若若則則稱為稱為的的特征值特征值,X稱為稱為的的特征向量特征向量并不一定
21、唯一;并不一定唯一;,X 階方陣階方陣的特征值,就是使齊次線性方程組的特征值,就是使齊次線性方程組特征向量特征向量 ,特征值問(wèn)題只針對(duì)與方陣;,特征值問(wèn)題只針對(duì)與方陣;0X 0IA x 有非零解的有非零解的值,即滿足值,即滿足的的都是都是方陣方陣的特征值的特征值0IA 0IA 稱以稱以為未知數(shù)的一元次方程為未知數(shù)的一元次方程為為的的特征方程特征方程 例例1:1: 從一個(gè)總體中隨機(jī)抽取從一個(gè)總體中隨機(jī)抽取4 4個(gè)樣本作三個(gè)樣本作三次測(cè)量次測(cè)量, ,每一個(gè)樣本的觀測(cè)向量為每一個(gè)樣本的觀測(cè)向量為: :123414782 ,2 ,8 ,411315 XXXX 計(jì)算樣本均值計(jì)算樣本均值M M和協(xié)方差矩陣
22、和協(xié)方差矩陣S S以以及及S S的特征值和特征向量的特征值和特征向量. .11niinMX11TnSBBSXX Syntax C = cov(X)AlgorithmThe algorithm for cov is n,p = size(X);X = X - ones(n,1) * mean(X);Y = X*X/(n-1);See Also corrcoef, mean, std, var2x1x1F2F平移、旋轉(zhuǎn)坐標(biāo)軸M 為了方便,我們?cè)诙S空間中討論主成分的幾何意義。為了方便,我們?cè)诙S空間中討論主成分的幾何意義。 設(shè)有設(shè)有n個(gè)樣本,每個(gè)樣本有兩個(gè)觀測(cè)變量個(gè)樣本,每個(gè)樣本有兩個(gè)觀測(cè)變量xl
23、和和x2,在由變,在由變量量xl和和x2 所確定的二維平面中,所確定的二維平面中,n個(gè)樣本點(diǎn)所散布的情況個(gè)樣本點(diǎn)所散布的情況如橢圓狀如橢圓狀。由圖可以看出這。由圖可以看出這n個(gè)樣本點(diǎn)無(wú)論是沿著個(gè)樣本點(diǎn)無(wú)論是沿著xl 軸方軸方向或向或x2軸方向都具有較大的離散性,其離散的程度可以分軸方向都具有較大的離散性,其離散的程度可以分別用觀測(cè)變量別用觀測(cè)變量xl 的方差和的方差和x2 的方差定量地表示。顯然,的方差定量地表示。顯然,如果只考慮如果只考慮xl和和x2 中的任何一個(gè),那么包含在原始數(shù)據(jù)中中的任何一個(gè),那么包含在原始數(shù)據(jù)中的信息將會(huì)有較大的損失。的信息將會(huì)有較大的損失。 如果我們將如果我們將xl
24、 軸和軸和x2軸先平移,再同時(shí)按軸先平移,再同時(shí)按逆時(shí)針?lè)较蛐D(zhuǎn)逆時(shí)針?lè)较蛐D(zhuǎn) 角度,得到新坐標(biāo)軸角度,得到新坐標(biāo)軸Fl和和F2。Fl和和F2是兩個(gè)新變量是兩個(gè)新變量。 Fl,F(xiàn)2除了可以對(duì)包含在除了可以對(duì)包含在Xl,X2中的信息起著濃中的信息起著濃縮作用之外,還具有不相關(guān)的性質(zhì),這就使得在縮作用之外,還具有不相關(guān)的性質(zhì),這就使得在研究復(fù)雜的問(wèn)題時(shí)避免了信息重疊所帶來(lái)的虛假研究復(fù)雜的問(wèn)題時(shí)避免了信息重疊所帶來(lái)的虛假性。性。二維平面上的個(gè)點(diǎn)的方差大部分都?xì)w結(jié)在二維平面上的個(gè)點(diǎn)的方差大部分都?xì)w結(jié)在Fl軸上,而軸上,而F2軸上的方差很小。軸上的方差很小。Fl和和F2稱為原始變量稱為原始變量x1和和x
25、2的綜合變量。的綜合變量。 F簡(jiǎn)化了系統(tǒng)結(jié)構(gòu),抓住了主要矛盾。簡(jiǎn)化了系統(tǒng)結(jié)構(gòu),抓住了主要矛盾。 稍事休息稍事休息3.4 PCA3.4 PCA的性質(zhì)的性質(zhì) 一、兩個(gè)線性代數(shù)的結(jié)論一、兩個(gè)線性代數(shù)的結(jié)論 1、若A是p階實(shí)對(duì)稱陣,則一定可以找到正交陣U,使ppp00000021AUU1pii. 2 . 1, 其中 是A A的特征根。 2、若上述矩陣的特征根所對(duì)應(yīng)的單位特征向量為 ppppppuuuuuuuuu212222111211),(p1uuU 則實(shí)對(duì)稱陣 屬于不同特征根所對(duì)應(yīng)的特征向量是正交的,即有p1uu,令A(yù)IUUUU 3.4 PCA的性質(zhì)的性質(zhì)(續(xù)續(xù))3 3、均值、均值()TTExMUU
26、4 4、方差為所有特征根之和、方差為所有特征根之和1()piiVar F2221212pp 說(shuō)明主成分分析把說(shuō)明主成分分析把P P個(gè)隨機(jī)變量的總方差分解成為個(gè)隨機(jī)變量的總方差分解成為P P個(gè)不相關(guān)的隨機(jī)變量的方差之和。個(gè)不相關(guān)的隨機(jī)變量的方差之和。 協(xié)方差矩陣協(xié)方差矩陣 的的對(duì)角線上的元素之和等于特征根對(duì)角線上的元素之和等于特征根之和。之和。 3.4 3.4、精度分析、精度分析 1)貢獻(xiàn)率:第i個(gè)主成分的方差在全部方差中所占比重 ,稱為貢獻(xiàn)率 ,反映了原來(lái)P個(gè)指標(biāo)多大的信息,有多大的綜合能力 。piii1 2)累積貢獻(xiàn)率:前k個(gè)主成分共有多大的綜合能力,用這k個(gè)主成分的方差和在全部方差中所占比
27、重來(lái)描述,稱為累積貢獻(xiàn)率。piikii11PCA常用統(tǒng)計(jì)量: .特征根i .各成分貢獻(xiàn)率 .前各成分累計(jì)貢獻(xiàn)率 .特征向量 各成分表達(dá)式中標(biāo)準(zhǔn)化原始變量的系數(shù)向量,就是各成分的特征向量。ii 我們進(jìn)行主成分分析的目的之一是希望用我們進(jìn)行主成分分析的目的之一是希望用盡可能少的盡可能少的主成分主成分F F1 1,F(xiàn) F2 2,F(xiàn) Fk k(kpkp)代替)代替原來(lái)的原來(lái)的P P個(gè)指標(biāo)個(gè)指標(biāo)。到底應(yīng)該選擇多少個(gè)主成分,。到底應(yīng)該選擇多少個(gè)主成分,在實(shí)際工作中,主成分個(gè)數(shù)的多少取決于能夠在實(shí)際工作中,主成分個(gè)數(shù)的多少取決于能夠反映原來(lái)變量反映原來(lái)變量80%80%以上的信息量為依據(jù),即當(dāng)累以上的信息量為
28、依據(jù),即當(dāng)累積貢獻(xiàn)率積貢獻(xiàn)率80%80%時(shí)的主成分的個(gè)數(shù)就足夠了。最時(shí)的主成分的個(gè)數(shù)就足夠了。最常見的情況是主成分為常見的情況是主成分為2 2到到3 3個(gè)。個(gè)。 例例 設(shè) 的協(xié)方差矩陣為 321,xxx200052021 解得特征根為 , ,83. 51 00. 22 17. 03 ,000. 0924. 0383. 01U1002U000. 0383. 0924. 03U 第一個(gè)主成分的貢獻(xiàn)率為5.83/(5.83+2.00+0.17)=72.875%,盡管第一個(gè)主成分的貢獻(xiàn)率并不小,但應(yīng)該取兩個(gè)主成分。97.88%4 4 主成分分析的步驟主成分分析的步驟)21(21nlxxxplll,lX
29、ppjjlnliilxxxxxn)(111 第一步:由X的協(xié)方差陣x,求出其特征根,即解方程 ,可得特征根 。021p 一、基于協(xié)方差矩陣0I 第二步:求出分別所對(duì)應(yīng)的特征向量U1,U2,Up, 12TiipiuuuiU, ,第三步:計(jì)算累積貢獻(xiàn)率,給出恰當(dāng)?shù)闹鞒煞謧€(gè)數(shù)。1 2()TFik kpiiUX, ,第四步:計(jì)算所選出的k個(gè)主成分的得分。將原始數(shù)據(jù)的中心化值: 代入前k個(gè)主成分的表達(dá)式,分別計(jì)算出各單位k個(gè)主成分的得分,并按得分值的大小排隊(duì)。*1122TiipipxxxxxxiiXXX, , 例例 應(yīng)收賬款是指企業(yè)因?qū)ν怃N售產(chǎn)品、材料、提供勞務(wù)及應(yīng)收賬款是指企業(yè)因?qū)ν怃N售產(chǎn)品、材料、提
30、供勞務(wù)及其它原因,應(yīng)向購(gòu)貨單位或接受勞務(wù)的單位收取的款項(xiàng),包括應(yīng)其它原因,應(yīng)向購(gòu)貨單位或接受勞務(wù)的單位收取的款項(xiàng),包括應(yīng)收銷貨款、其它應(yīng)收款和應(yīng)收票據(jù)等。出于擴(kuò)大銷售的競(jìng)爭(zhēng)需要,收銷貨款、其它應(yīng)收款和應(yīng)收票據(jù)等。出于擴(kuò)大銷售的競(jìng)爭(zhēng)需要,企業(yè)不得不以賒銷或其它優(yōu)惠的方式招攬顧客,由于銷售和收款企業(yè)不得不以賒銷或其它優(yōu)惠的方式招攬顧客,由于銷售和收款的時(shí)間差,于是產(chǎn)生了應(yīng)收款項(xiàng)。應(yīng)收款賒銷的效果的好壞,不的時(shí)間差,于是產(chǎn)生了應(yīng)收款項(xiàng)。應(yīng)收款賒銷的效果的好壞,不僅依賴于企業(yè)的信用政策,還依賴于顧客的信用程度。由此,僅依賴于企業(yè)的信用政策,還依賴于顧客的信用程度。由此,評(píng)評(píng)價(jià)顧客的信用等級(jí),了解顧客的
31、綜合信用程度,做到價(jià)顧客的信用等級(jí),了解顧客的綜合信用程度,做到“知己知彼,知己知彼,百戰(zhàn)不殆百戰(zhàn)不殆”,對(duì)加強(qiáng)企業(yè)的應(yīng)收賬款管理大有幫助,對(duì)加強(qiáng)企業(yè)的應(yīng)收賬款管理大有幫助。某企業(yè)為了。某企業(yè)為了了解其客戶的信用程度,采用西方銀行信用評(píng)估常用的了解其客戶的信用程度,采用西方銀行信用評(píng)估常用的5C5C方法,方法,5C5C的目的是說(shuō)明顧客違約的可能性。的目的是說(shuō)明顧客違約的可能性。 5 PCA的應(yīng)用的應(yīng)用 1、品格(用品格(用X1表示),表示),指顧客的信譽(yù),履行償還義指顧客的信譽(yù),履行償還義務(wù)的可能性。企業(yè)可以通過(guò)過(guò)去的付款記錄得到此務(wù)的可能性。企業(yè)可以通過(guò)過(guò)去的付款記錄得到此項(xiàng)。項(xiàng)。2、能力(
32、用能力(用X2表示),表示),指顧客的償還能力。即其流指顧客的償還能力。即其流動(dòng)資產(chǎn)的數(shù)量和質(zhì)量以及流動(dòng)負(fù)載的比率。顧客的動(dòng)資產(chǎn)的數(shù)量和質(zhì)量以及流動(dòng)負(fù)載的比率。顧客的流動(dòng)資產(chǎn)越多,其轉(zhuǎn)化為現(xiàn)金支付款項(xiàng)的能力越強(qiáng)。流動(dòng)資產(chǎn)越多,其轉(zhuǎn)化為現(xiàn)金支付款項(xiàng)的能力越強(qiáng)。同時(shí),還應(yīng)注意顧客流動(dòng)資產(chǎn)的質(zhì)量,看其是否會(huì)同時(shí),還應(yīng)注意顧客流動(dòng)資產(chǎn)的質(zhì)量,看其是否會(huì)出現(xiàn)存貨過(guò)多過(guò)時(shí)質(zhì)量下降,影響其變現(xiàn)能力和支出現(xiàn)存貨過(guò)多過(guò)時(shí)質(zhì)量下降,影響其變現(xiàn)能力和支付能力。付能力。3、資本(用資本(用X3表示),表示),指顧客的財(cái)務(wù)勢(shì)力和財(cái)務(wù)狀指顧客的財(cái)務(wù)勢(shì)力和財(cái)務(wù)狀況,表明顧客可能償還債務(wù)的背景。況,表明顧客可能償還債務(wù)的背景
33、。4、附帶的擔(dān)保品(用附帶的擔(dān)保品(用X4表示),表示),指借款人以容易出指借款人以容易出售的資產(chǎn)做抵押。售的資產(chǎn)做抵押。5 5、環(huán)境條件(用環(huán)境條件(用X5表示),表示),指企業(yè)的外部因素,即指企業(yè)的外部因素,即指非企業(yè)本身能控制或操縱的因素。指非企業(yè)本身能控制或操縱的因素。 首先并抽取了10家具有可比性的同類企業(yè)作為樣本,又請(qǐng)8位專家分別給10個(gè)企業(yè)的5個(gè)指標(biāo)打分,然后分別計(jì)算企業(yè)5個(gè)指標(biāo)的平均值,如表。 76.581.57675.871.78579.280.384.476.570.67367.668.178.5949487.589.59290.787.39181.58084.666.96
34、8.864.866.477.573.670.969.874.857.760.457.460.86585.668.57062.276.57069.271.764.968.9; Eigenvalues of the Covariance Matrix Eigenvalue Difference Proportion Cumulative PRIN1 410.506 367.242 0.845854 0.84585 PRIN2 43.264 22.594 0.089146 0.93500 PRIN3 20.670 12.599 0.042591 0.97759 PRIN4 8.071 5.266 0
35、.016630 0.99422 PRIN5 2.805 0. 0 0.005779 1.00000 Eigenvectors PRIN1 PRIN2 PRIN3 PRIN4 PRIN5 X1 0.468814 -.830612 0.021406 0.254654 -.158081 X2 0.484876 0.329916 0.014801 -.287720 -.757000 X3 0.472744 -.021174 -.412719 -.588582 0.509213 X4 0.461747 0.430904 -.240845 0.706283 0.210403 X5 0.329259 0.1
36、22930 0.878054 -.084286 0.313677 第一主成份的貢獻(xiàn)率為第一主成份的貢獻(xiàn)率為84.6%84.6%,第一主成份,第一主成份 Z Z1 1=0.469X=0.469X1 1+0.485X+0.485X2 2+0.473X+0.473X3 3+0.462X+0.462X4 4+0.329X+0.329X5 5 的各項(xiàng)系數(shù)大致相等,且均為正數(shù),說(shuō)明第一的各項(xiàng)系數(shù)大致相等,且均為正數(shù),說(shuō)明第一主成份是對(duì)所有指標(biāo)的一個(gè)綜合測(cè)度,可以作為主成份是對(duì)所有指標(biāo)的一個(gè)綜合測(cè)度,可以作為綜合的信用等級(jí)指標(biāo)。可以用來(lái)排序。將原始數(shù)綜合的信用等級(jí)指標(biāo)??梢杂脕?lái)排序。將原始數(shù)據(jù)的值中心化后,
37、代入第一主成份據(jù)的值中心化后,代入第一主成份Z Z1 1的表示式,的表示式,計(jì)算各企業(yè)的得分,并按分值大小排序計(jì)算各企業(yè)的得分,并按分值大小排序: : 在正確評(píng)估了顧客的信用等級(jí)后,就能正確制定出對(duì)在正確評(píng)估了顧客的信用等級(jí)后,就能正確制定出對(duì)其的信用期、收帳政策等,這對(duì)于加強(qiáng)應(yīng)收帳款的管理其的信用期、收帳政策等,這對(duì)于加強(qiáng)應(yīng)收帳款的管理大有幫助。大有幫助。序號(hào)序號(hào)1 12 23 34 45 56 67 78 89 91010得分得分3.163.1613.613.6- -9.019.0135.935.925.125.1-10.3-10.3- -4.364.36-33.8-33.8- -6.41
38、6.41-13.8-13.8排序排序4 43 37 71 12 28 85 510106 69 9例二例二 基于相關(guān)系數(shù)矩陣的主成分分析。對(duì)美國(guó)紐約上市的有關(guān)化學(xué)產(chǎn)業(yè)的三個(gè)證券和石油產(chǎn)業(yè)的2個(gè)證券做了100周的收益率調(diào)查。下表是其相關(guān)系數(shù)矩陣。 1)利用相關(guān)系數(shù)矩陣做主成分分析。 2)決定要保留的主成分個(gè)數(shù),并解釋意義。10.5770.5090.00630.00370.57710.5990.3890.520.5090.59910.4360.4260.3870.3890.43610.5230.4620.3220.4260.5231 Eigenvalues of the Correlation M
39、atrix Eigenvalue Difference Proportion Cumulative PRIN1 2.85671 2.04755 0.571342 0.57134 PRIN2 0.80916 0.26949 0.161833 0.73317 PRIN3 0.53968 0.08818 0.107935 0.84111 PRIN4 0.45150 0.10855 0.090300 0.93141 PRIN5 0.34295 0. 0 0.068590 1.00000 Eigenvectors PRIN1 PRIN2 PRIN3 PRIN4 PRIN5 X1 0.463605 -.240339 -.611705 0.386635 -.451262 X2 0.457108 -.509305 0.178189 0.206474 0.676223 X3 0.470
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 高考物理總復(fù)習(xí)專題二相互作用第1講力、重力、彈力、摩擦力練習(xí)含答案
- 藥品供應(yīng)鏈購(gòu)銷合同樣本
- 訂立勞動(dòng)合同應(yīng)遵循哪些原則
- 高考地理一輪復(fù)習(xí)第五章地表形態(tài)的塑造第四節(jié)河流地貌的發(fā)育課件
- 九年級(jí)道德與法治上冊(cè) 第五單元 和諧中國(guó) 和諧世紀(jì) 第一節(jié) 和諧之美 第2框 和諧是人類永恒的追求教學(xué)設(shè)計(jì)+教案+素材 湘教版
- 八年級(jí)生物下冊(cè) 第七單元 生物圈中生命的延續(xù)和發(fā)展第二章 生物的遺傳和變異第四節(jié) 人的性別遺傳教案 (新版)新人教版
- 2024年秋九年級(jí)化學(xué)上冊(cè) 第三單元 物質(zhì)構(gòu)成的奧秘 課題1 分子和原子教案 (新版)新人教版
- 2024-2025學(xué)年七年級(jí)道德與法治上冊(cè) 第一單元 成長(zhǎng)的節(jié)拍 第一課 中學(xué)時(shí)代 第1框 中學(xué)時(shí)代教案 新人教版
- 高中地理 第四章 生態(tài)環(huán)境保護(hù) 4.4 中國(guó)區(qū)域生態(tài)環(huán)境問(wèn)題及其防治途徑教案 新人教版選修6
- 2024年二年級(jí)品社下冊(cè)《主題1 我發(fā)現(xiàn)》教案 上??平贪?/a>
- 無(wú)損檢測(cè)通用作業(yè)指導(dǎo)書
- 2023年中考語(yǔ)文復(fù)習(xí):150個(gè)文言實(shí)詞-課件(共183張PPT)
- 2023年《鐵道概論》知識(shí)考試題庫(kù)與答案
- 蛋糕經(jīng)濟(jì)學(xué):如何實(shí)現(xiàn)企業(yè)商業(yè)價(jià)值和社會(huì)責(zé)任的雙贏
- 車輛維修服務(wù)方案先進(jìn)性
- 2020年1月上海春招英語(yǔ)聽力(含試題、MP3、答案及錄音)
- GB/T 17639-2023土工合成材料長(zhǎng)絲紡粘針刺非織造土工布
- 發(fā)行企業(yè)債法律盡職調(diào)查之訪談問(wèn)題清單
- 拍賣合作協(xié)議
- 白改黑施工組織設(shè)計(jì)
- ICU患者失禁性皮炎的預(yù)防及護(hù)理新進(jìn)展
評(píng)論
0/150
提交評(píng)論