獨立成分分析IndependentComponentAnalysis(ICA)_第1頁
獨立成分分析IndependentComponentAnalysis(ICA)_第2頁
獨立成分分析IndependentComponentAnalysis(ICA)_第3頁
獨立成分分析IndependentComponentAnalysis(ICA)_第4頁
獨立成分分析IndependentComponentAnalysis(ICA)_第5頁
已閱讀5頁,還剩26頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、.獨立成分分析Independent Component Analysis(ICA) 齊娟 2007-5-29.主要內(nèi)容 ICA定義 ICA模型 ICA原理 ICA算法 ICA應(yīng)用 PCA&ICA.ICA定義 定義一:利用很少的先驗知識將混合信息分離成獨立分量的一種重要方法。 定義二:找到事物的一種合理表示,使得各分量最大化地獨立。 20世紀(jì)八十年代才被提出。 .cocktail-party problem 例子:cocktail-party problemSourcesObservationss1s2x1x2Mixing matrix Ax = Asn sources, m=n ob

2、servations.cocktail-party problemTwo Independent SourcesMixture at two Mics22212122121111)()(sasatxsasatx. xj = aj1s1 + aj2s2 + . + ajnsn, 對于每一個 jx = As 條件:s和A均是未知的,只有x已知 目標(biāo): 通過x估計出A和s 每一個si成分統(tǒng)計獨立 限制: 每一個成分都不是Gaussian分布(實際上未知) 混合矩陣A為方陣且可逆(這個限制可以放松) 結(jié)論:估計出A之后,我們就可以得到s(s= A-1x).Ambiguities of ICAls和A均

3、是未知的,s乘一個標(biāo)量k,總可以用A乘以 1/k所抵消,即不能唯一確定s和A。 作如下約束:lS中各個分量的次序不確定21iE s.Illustration of ICA統(tǒng)計意義下說明xAsoxA sS各分量相互獨立x各分量不相互獨立判斷方法:能否從一個分量估計出另一分量的值。邊的方向即A0列向量。.Illustration of ICA 通過x的統(tǒng)計性質(zhì),作一些假設(shè)的條件下,可以估計出A和s. 獨立:兩個隨機變量y1和y2是相互獨立的,如果y1的值不能為y2提供任何信息,反之亦成立。 用概率密度函數(shù)描述:性質(zhì):給定兩函數(shù)h1和h2有: 不相關(guān):兩隨機變量是不相關(guān)的,如果 獨立的肯定不相關(guān),不

4、相關(guān)的未必獨立,即獨立是比不相關(guān)更強的約束。121122(,)()()p y yp y py11221122 ()() () ()E h y h yE h yE h y1212 E y yE y E y. 在假設(shè)條件中,各分量不允許是Gaussian分布 X1和x2都是標(biāo)準(zhǔn)Gaussian分布,聯(lián)合概率密度函數(shù): 沒有邊緣信息,即不包含A的 列向量的信息。2212121( ,)exp22xxp x x. 根據(jù)中心極限定理,獨立隨機變量的和在一定條件下趨近于高斯分布。即獨立隨機變量的和比原獨立隨機變量更接近高斯分布。 可以認(rèn)為越具有高斯性,其獨立性越差 反之, non-Gaussianity越強

5、,獨立性越強. ICA 模型:x = As s=A-1x 令y=wTx.z=ATw, 則 y=wTx=wT As=zTs 這樣的話y 是s的線性組合,y應(yīng)該比s更具有高斯性,除非wT接近A-1。此時,y=wTx=A-1x=s。 也就是說y=s時,y具有最大非高斯性。 問題轉(zhuǎn)化為求解w,它最大化wTx的non-Gaussianity性。 ICA 數(shù)值優(yōu)化問題。.non-Gaussianity的度量 為了在ICA估計中使用non-Gaussianity,我們必須有一個對它的定性度量。 常用的有三種: Kurtosis Negentropy Approximations of negentropy.

6、Kurtosis定義:y為隨機變量,則對于高斯分布, Kurtosis為零,大部分非高斯分布 Kurtosis不為零。性質(zhì):優(yōu)點:計算和理論簡單缺點:對outliers敏感,不具有魯棒性.Negentropyl 基于信息論中熵的概念l 定理:在所有隨機變量,高斯分布的變量有最大熵。l 定義Negentropy J為:yGauss是和y有相同協(xié)方差矩陣的高斯隨機變量。y為高斯分布時, Negentropy為零,其它分布時不為零。l 計算起來太復(fù)雜,需要引入其近似值。.Negentropy的近似l 經(jīng)典近似:和Kurtosis有同樣的缺點:不魯棒。l 另一種近似:V是均值為零,方差為1的高斯隨機變

7、量,G是非二次函數(shù)常取為:計算簡單快速,而且具有魯棒性。后面介紹的算法即采用此種近似。 22311( )1248J yE ykurt y2( )( )( )J yc E G yE G v1111( )logcosG ua ua22()e x p2uGu .預(yù)處理Centering 為了使算法更簡單,一般會在采用具體算法前進行預(yù)處理。 Centering:使x變?yōu)榫禐榱愕碾S機變量,減去m=Ex即可。 純粹為了簡化計算,估計完A后,可以將s的均值補償回去。s的均值向量為A1 s。.預(yù)處理whitening對x進行線性變化,使變換后的x是white的,即各分量不相關(guān)且 ,I為單位矩陣。方法:特征值

8、分解(EVD)變換后A為正交矩陣A: 根據(jù)正交矩陣性質(zhì),正交矩陣自由度為n(n-1)/2,將需要估計的矩陣系數(shù)減少了一半。TExxI TTE x xEDE1/2TxEDE x1TTTTEx xA EssAA A.小結(jié) 前面給出了測量函數(shù),也已證明ICA問題實際上就是求解函數(shù)的最值問題。 現(xiàn)在需要的是求解最值的優(yōu)化算法。有很多,梯度下降法,EM算法等。 應(yīng)用最廣泛的為FastICA算法,它基于固定點迭代的方法.補充:固定點迭代法用于求解方程(線性、非線性、差分)函數(shù)的固定點:函數(shù)g(x)的固定點是數(shù)p,如果p=g(p)幾何上的表述是Y=g(x)和Y=x的交點固定點迭代:選擇初始值p0,然后將函數(shù)

9、迭代作用于自身的輸出,直到輸入和輸出差別很小為止。 p1=g(p0) p2=g(p1) . pn=g(pn) .FastICA算法(一個分量) FastICA算法目前應(yīng)用最為廣泛。 采用度量函數(shù)為: 基于固定點迭代的方法找到WTx度量函數(shù)的最大值。 隨機選擇初始向量W 令: 令: 如果不收斂,轉(zhuǎn)到2 2( )( )( )J yc E G yE G v()()TTWE xg W xE g W xw/ |WWW.FastICA算法(多個分量)使用上面的算法可以求出一個獨立分量,重復(fù)使用上面的算法即可求出多個獨立分量,為避免所有調(diào)用趨近一個值,需充分利用獨立性的特點,在此使用的是輕級獨立性不相關(guān)。類

10、似于Gram-Schmidt正交化得到前q個向量w1.w2.wp后,再次調(diào)用上算法得到wp1令:令: 1111pTpppjjjWWWW W1111/TppppWWWW.擴展 ICA模型前面只給出了經(jīng)典ICA模型,實際現(xiàn)在發(fā)展起來很多模型,如噪聲模型,非線性模型等等。 ICA 方法前面解決ICA的方法是,最大化non-Gaussianity度量函數(shù),轉(zhuǎn)化為數(shù)值優(yōu)化問題。 除了non-Gaussianity度量函數(shù)外,還有很多其它函數(shù)如互信息量,也有各種不同的優(yōu)化算法,梯度、EM等。 其實所有的ICA算法可以表示為: ICA算法 = 度量函數(shù) + 優(yōu)化算法.應(yīng)用 聲音源分離 (”cocktail-

11、party problem”) 生物信號處理 經(jīng)濟及其它時間序列 無線通信,如CDMA 特征提取.應(yīng)用 生物信號處理。如EEG(腦電圖)將一些電極放在頭皮上記錄腦的活動。一些人為動作會造成噪聲(如眨眼、張嘴等)。ICA可以用于去除這些噪聲。 經(jīng)濟及其它時間序列。對于一些并列的序列,如外匯兌換和股票交易,可能有相同的潛在因素,一些連鎖店的銷售情況可能有共同的影響因素,如假期。.無線通信CDMA (Code Division Multiple Access)碼分多路復(fù)用 3G標(biāo)準(zhǔn)之一。用戶共享相同的帶寬,同時傳送信號。CDMA通信系統(tǒng)給每個用戶分配一個唯一的光正交碼的碼字作為該用戶的地址碼 ,但由

12、于傳輸?shù)奶攸c會喪失正交性。如何恢復(fù)原信號。信道用戶用戶.特征提取x=As ,如果我們把A的每一列Ai 當(dāng)作一個特征,s是系數(shù)向量,則 可以用于特征提取。很多人臉識別的方法是使用統(tǒng)計方法得到一些基圖像,人臉被認(rèn)為是這些基圖像的線性組合,多用PCA得到這些基圖像。有人將其用于人臉識別,代替PCA做特征提取,發(fā)現(xiàn)識別效果要好。研究標(biāo)明ICA提取的特征和人的大腦皮層感知的特征很相近。在數(shù)據(jù)壓縮和模式識別中應(yīng)用很廣。i ixAs.多媒體中的應(yīng)用MediumTopicImage/VideoFeature extraction, noise reductionWatermark detectionConte

13、nt based retrievalAudioAuditory perceptionSource separation, scene analysisTextDocument filtering, retrievalCombined mediaCross-language document retrievalCombined text/image content extractionAudio-visual segmentation.PCA&ICA兩者都是線性變換 都可以看作一些分量的組合。不同的是 PCA而言,各分量不相關(guān) ICA而言, 各分量獨立PCA的目的是找到這樣一組分量表示,使得重構(gòu)誤差最小,即最能代表原事物的特征。ICA的目的是找到這樣一組分量表示,使得個分量最大化獨立,能夠發(fā)現(xiàn)一些隱藏因素。ICA是PCA的增強

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論