模式識(shí)別第講_第1頁(yè)
模式識(shí)別第講_第2頁(yè)
模式識(shí)別第講_第3頁(yè)
模式識(shí)別第講_第4頁(yè)
模式識(shí)別第講_第5頁(yè)
已閱讀5頁(yè),還剩29頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

模式識(shí)別第講第1頁(yè),共34頁(yè),2023年,2月20日,星期五第3次課程概要模式判別PCA特征評(píng)價(jià)維數(shù)比率問(wèn)題第2頁(yè),共34頁(yè),2023年,2月20日,星期五PCAPrincipalcomponentanalysis主元分析或主成分分析功能:簡(jiǎn)化復(fù)雜數(shù)據(jù)到低維空間,從而發(fā)現(xiàn)數(shù)據(jù)中隱藏的簡(jiǎn)單結(jié)構(gòu)。原始數(shù)據(jù)源(生數(shù)據(jù))通常有冗余,包含噪聲PCA的目標(biāo):去除冗余,并發(fā)現(xiàn)重要特征PCA特征評(píng)價(jià)維數(shù)比率問(wèn)題第3頁(yè),共34頁(yè),2023年,2月20日,星期五PCA的大致思路認(rèn)為原始數(shù)據(jù)X是復(fù)雜的(有噪聲有冗余),要對(duì)X重新表示重新表示后數(shù)據(jù)的維度即為隱藏于X中的簡(jiǎn)單結(jié)構(gòu)PCA特征評(píng)價(jià)維數(shù)比率問(wèn)題第4頁(yè),共34頁(yè),2023年,2月20日,星期五PCA怎么做?技術(shù)路線利用線性代數(shù)為工具,用另一組基去重新描述數(shù)據(jù)空間新的基能夠最好地表示原數(shù)據(jù)X原有的基是什么樣的形式呢?Na?vebasis:目標(biāo):找到另一組基,能最好表達(dá)數(shù)據(jù)集,這個(gè)新的基是原有基的線性組合PCA特征評(píng)價(jià)維數(shù)比率問(wèn)題采用該方法就隱含了一個(gè)假設(shè):線性。數(shù)據(jù)限制在一個(gè)向量空間里,能被一組基表示第5頁(yè),共34頁(yè),2023年,2月20日,星期五基變換n個(gè)樣本每個(gè)樣本m個(gè)特征構(gòu)成m×n的矩陣XP是從X到Y(jié)的轉(zhuǎn)換矩陣幾何上,Y由對(duì)X旋轉(zhuǎn)拉伸得到P的行向量構(gòu)成一組新的基,而Y是在這組基下對(duì)X的重新表示PCA特征評(píng)價(jià)維數(shù)比率問(wèn)題第6頁(yè),共34頁(yè),2023年,2月20日,星期五在線性的假設(shè)條件下,要解答要尋求一組變換后的基,也就是P的行向量{p1,…pm}這組基就是X的主元要解答的問(wèn)題1我們要將X轉(zhuǎn)換成為的Y是個(gè)什么樣子?2對(duì)應(yīng)于Y,如何求解P?PCA特征評(píng)價(jià)維數(shù)比率問(wèn)題第7頁(yè),共34頁(yè),2023年,2月20日,星期五我們要將X轉(zhuǎn)換成為的Y是個(gè)什么樣子?回顧一下PCA要解決的問(wèn)題,數(shù)據(jù)復(fù)雜混亂

噪聲冗余PCA特征評(píng)價(jià)維數(shù)比率問(wèn)題第8頁(yè),共34頁(yè),2023年,2月20日,星期五重要特征和噪聲的數(shù)學(xué)描述信噪比要使得信噪比大,信號(hào)的方差大,噪聲的方差小假設(shè):變化較大的信息認(rèn)為是信號(hào),變化較小的則是噪聲PCA特征評(píng)價(jià)維數(shù)比率問(wèn)題第9頁(yè),共34頁(yè),2023年,2月20日,星期五冗余的數(shù)學(xué)描述該變量可以用其它變量表示,因此造成了信息冗余PCA特征評(píng)價(jià)維數(shù)比率問(wèn)題協(xié)方差矩陣可以反映數(shù)據(jù)的噪聲和冗余的程度第10頁(yè),共34頁(yè),2023年,2月20日,星期五PCA的目標(biāo)及它基于的假設(shè)PCA特征評(píng)價(jià)維數(shù)比率問(wèn)題通過(guò)基變換,對(duì)協(xié)方差矩陣進(jìn)行優(yōu)化,即使得變換后的數(shù)據(jù)集Y,其協(xié)方差矩陣為對(duì)角陣。線性假設(shè):PCA內(nèi)部模型是線性的,是基于原始特征的線性變換。(如果原始數(shù)據(jù)存在非線性屬性,則經(jīng)PCA分析后將不再反映這種非線性屬性)方差越大,特征越重要。(有些對(duì)整體方差貢獻(xiàn)不大的主成分,有可能在樣本分類方面起至關(guān)重要的作用)冗余用相關(guān)性表示。(數(shù)據(jù)的概率分布需要滿足高斯分布或是指數(shù)型的概率分布)主元正交,即轉(zhuǎn)換基是一組標(biāo)準(zhǔn)正交基。該假設(shè)的作用是方便求解第11頁(yè),共34頁(yè),2023年,2月20日,星期五PCA求解:特征根分解(1)PCA特征評(píng)價(jià)維數(shù)比率問(wèn)題尋找一組正交基組成的矩陣P,有Y=PX,使得CY是對(duì)角陣,則P的行向量,就是數(shù)據(jù)X的主元向量。D是一個(gè)對(duì)角陣E是對(duì)稱陣A的特征根排成的矩陣解題技巧,令P≡ET第12頁(yè),共34頁(yè),2023年,2月20日,星期五PCA求解:特征根分解(2)PCA特征評(píng)價(jià)維數(shù)比率問(wèn)題第13頁(yè),共34頁(yè),2023年,2月20日,星期五PCA算法的一般求解步驟由以上推導(dǎo),PCA算法的一般求解步驟如下1采集數(shù)據(jù),形成m×n的矩陣,m為特征個(gè)數(shù),n為樣本數(shù)。2矩陣中的每個(gè)元素減去該維的均值,得到X3求XX‘的特征根PCA特征評(píng)價(jià)維數(shù)比率問(wèn)題第14頁(yè),共34頁(yè),2023年,2月20日,星期五將PCA用于降維由PCA線性變換后得到的數(shù)據(jù)集,可認(rèn)為是沒(méi)有冗余的。在此結(jié)構(gòu)下,可以討論樣本中的哪些屬性(特征)比較重要。按方差由大到小排序,但丟棄的準(zhǔn)則是什么?PCA特征評(píng)價(jià)維數(shù)比率問(wèn)題方法一:Kaiser準(zhǔn)則丟棄那些低于1的特征值方法二:觀察特征值的圖,通過(guò)斜率檢測(cè),即從圖中曲線開(kāi)始變平緩的點(diǎn)開(kāi)始,丟棄后面的全部特征值。第15頁(yè),共34頁(yè),2023年,2月20日,星期五有關(guān)PCA需要注意的一個(gè)問(wèn)題原始數(shù)據(jù)集里,每個(gè)特征是有意義的。比如圖像中一個(gè)對(duì)象的形狀、顏色等。但是線性變換后,語(yǔ)義信息丟失了。這對(duì)我們解釋識(shí)別過(guò)程帶來(lái)一定的問(wèn)題。PCA特征評(píng)價(jià)維數(shù)比率問(wèn)題第16頁(yè),共34頁(yè),2023年,2月20日,星期五特征評(píng)價(jià)對(duì)于特征分類能力的評(píng)價(jià)(1)圖形考察:盒狀圖分布圖(2)分布模型評(píng)價(jià)(3)統(tǒng)計(jì)推論檢測(cè)這些評(píng)價(jià)方法可為我們觀察某些特征集合下的數(shù)據(jù)分布提供直觀的指導(dǎo)信息PCA特征評(píng)價(jià)維數(shù)比率問(wèn)題第17頁(yè),共34頁(yè),2023年,2月20日,星期五盒狀圖怎么畫(huà)(1)回顧:盒狀圖應(yīng)用在此的目的是:評(píng)價(jià)特征用于分類的能力因此,我們用來(lái)畫(huà)盒狀圖的數(shù)據(jù)是樣本集中一個(gè)維度(特征)的數(shù)據(jù)繪制步驟:1)將n個(gè)數(shù)據(jù)由小到大排序。(由大到小也可以)2)計(jì)算3個(gè)四分位數(shù)。

a.中位數(shù)(第2個(gè)四分位數(shù),Q2)如果n為奇數(shù),則排序后,第(n+1)/2位是中位數(shù)。如果n為偶數(shù),則排序后,第n/2與第(n+1)/2位數(shù)的平均值,為中位數(shù)。

b.不計(jì)Q2,計(jì)算前半個(gè)數(shù)據(jù)集的中位數(shù)Q1。

c.不計(jì)Q2,計(jì)算后半個(gè)數(shù)據(jù)集的中位數(shù)Q3。3)3個(gè)四分位數(shù)、最小值、最大值共5個(gè)數(shù)字就可以繪制盒狀圖了。PCA特征評(píng)價(jià)維數(shù)比率問(wèn)題第18頁(yè),共34頁(yè),2023年,2月20日,星期五盒狀圖怎么畫(huà)(2)PCA特征評(píng)價(jià)維數(shù)比率問(wèn)題將成績(jī)排序班級(jí)某科某次測(cè)試成績(jī)?nèi)缦拢旱?9頁(yè),共34頁(yè),2023年,2月20日,星期五盒狀圖怎么畫(huà)(3)PCA特征評(píng)價(jià)維數(shù)比率問(wèn)題最小值:27最大值:97Q2:第(39+1)/2=20位的值60Q1:第(19+1)/2=10位的值45Q3:第(21+39)/2=30位的值70排序后的成績(jī)第20頁(yè),共34頁(yè),2023年,2月20日,星期五盒狀圖怎么畫(huà)(4)PCA特征評(píng)價(jià)維數(shù)比率問(wèn)題有一半人及格;1/4學(xué)生70分以上;1/4學(xué)生45分以下;另外,還體現(xiàn)了分?jǐn)?shù)是集中還是分散全距最小值:27最大值:97Q2:60Q1:45Q3:70四分位距第21頁(yè),共34頁(yè),2023年,2月20日,星期五如何用盒狀圖觀察特征的分類能力軟木塞數(shù)據(jù)集,三個(gè)類別在兩個(gè)特征上的盒狀圖PCA特征評(píng)價(jià)維數(shù)比率問(wèn)題特征PRT特征PRTG第22頁(yè),共34頁(yè),2023年,2月20日,星期五分布圖數(shù)據(jù)在特征空間分布上存在大量重疊,會(huì)對(duì)分類造成困難分布圖描繪了數(shù)據(jù)類別的拓?fù)浣Y(jié)構(gòu),可直觀獲取特征間分布重疊狀況PCA特征評(píng)價(jià)維數(shù)比率問(wèn)題第23頁(yè),共34頁(yè),2023年,2月20日,星期五分布模型評(píng)價(jià)給定數(shù)據(jù)集(特征向量的集合),其分布是否與給定的分布模型吻合用適當(dāng)?shù)姆植寄P兔枋鰯?shù)據(jù)集,就可以根據(jù)已知樣本集為分布模型估計(jì)參數(shù),確定后的模型可用作分類或聚類。PCA特征評(píng)價(jià)維數(shù)比率問(wèn)題第24頁(yè),共34頁(yè),2023年,2月20日,星期五Kolmogorov-Smirnov檢測(cè)

K-S檢驗(yàn)(1)經(jīng)驗(yàn)分布函數(shù)給定N個(gè)由小到大排序的數(shù)據(jù)X1….XN其中n(i)是小于等于Xi的對(duì)象個(gè)數(shù)PCA特征評(píng)價(jià)維數(shù)比率問(wèn)題(1,2,2,2,3,3,3,4)第25頁(yè),共34頁(yè),2023年,2月20日,星期五Kolmogorov-Smirnov檢測(cè)

K-S檢驗(yàn)(2)PCA特征評(píng)價(jià)維數(shù)比率問(wèn)題給定一個(gè)經(jīng)驗(yàn)分布函數(shù)FX和一個(gè)理論累積分布函數(shù)FYD=max{D+,D-}兩個(gè)經(jīng)驗(yàn)分布函數(shù)第26頁(yè),共34頁(yè),2023年,2月20日,星期五Kolmogorov-Smirnov檢測(cè)

K-S檢驗(yàn)(3)PCA特征評(píng)價(jià)維數(shù)比率問(wèn)題K-S檢驗(yàn)的基本思路就是根據(jù)這兩根曲線的最大間距判斷是否為同一分布給定一個(gè)正態(tài)分布下產(chǎn)生的100個(gè)隨機(jī)數(shù),下圖繪制了這100個(gè)隨機(jī)數(shù)的經(jīng)驗(yàn)分布函數(shù)以及正態(tài)累積分布函數(shù)第27頁(yè),共34頁(yè),2023年,2月20日,星期五統(tǒng)計(jì)推論檢測(cè)量化特征的分類能力常用的統(tǒng)計(jì)推論檢驗(yàn)法對(duì)于服從正態(tài)分布的特征t-student檢驗(yàn)Anova統(tǒng)計(jì)檢驗(yàn)有時(shí)候,在樣本有限的情況下,避免對(duì)特征的分布模型進(jìn)行假設(shè)Kruskal-Wallis檢驗(yàn)(K-W檢驗(yàn),又稱H檢驗(yàn))PCA特征評(píng)價(jià)維數(shù)比率問(wèn)題第28頁(yè),共34頁(yè),2023年,2月20日,星期五Kruskal-Wallis檢驗(yàn)給定有類別標(biāo)簽的一個(gè)樣本集,檢驗(yàn)其中一個(gè)特征的分類能力,需要挑出該特征下的數(shù)據(jù),形成由n個(gè)數(shù)據(jù)組成的集合X(1)對(duì)X由小到大排序,每一個(gè)數(shù)據(jù)對(duì)應(yīng)的序號(hào)稱作秩次(2)求評(píng)價(jià)值Hni:第i類的樣本數(shù)

Ri:第i類中所有樣本的秩次和(3)一般認(rèn)為,具有較高H值的特征有較強(qiáng)分類能力PCA特征評(píng)價(jià)維數(shù)比率問(wèn)題第29頁(yè),共34頁(yè),2023年,2月20日,星期五Kruskal-Wallis檢驗(yàn)

一個(gè)例子包含3個(gè)類別的樣本集,取其中一個(gè)特征得到數(shù)據(jù)集如下:類別1:279;338;334;198;303類別2:229;274;310類別3:210;285;117PCA特征評(píng)價(jià)維數(shù)比率問(wèn)題n=11;n1=5;n2=3;n3=3;R1=37;R2=18;R3=11;第30頁(yè),共34頁(yè),2023年,2月20日,星期五Kruskal-Wallis檢驗(yàn)

軟木塞數(shù)據(jù)的檢驗(yàn)結(jié)果PCA特征評(píng)價(jià)維數(shù)比率問(wèn)題第31頁(yè),共34頁(yè),2023年,2月20日,星期五回顧:決策面在一個(gè)低維空間里,決策面很復(fù)雜,投射到高維空間中,可以找到一個(gè)線性的決策面但是在實(shí)際應(yīng)用中,無(wú)限制地向高維投射,會(huì)存在“維數(shù)災(zāi)難”問(wèn)題PCA特征評(píng)價(jià)維數(shù)比率問(wèn)題第32頁(yè),共34頁(yè),2023年,2月20日,星期五數(shù)據(jù)不斷增加時(shí)的兩類分布圖這三個(gè)圖想要給我們一個(gè)直觀的印象:當(dāng)維數(shù)比率較低時(shí),由訓(xùn)練集合學(xué)習(xí)得到的分類器將會(huì)是錯(cuò)誤的。維數(shù)比率較低對(duì)應(yīng)著數(shù)據(jù)分布稀疏的狀

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論