機(jī)器學(xué)習(xí)原理與應(yīng)用課件 第10章 高斯混合模型_第1頁
機(jī)器學(xué)習(xí)原理與應(yīng)用課件 第10章 高斯混合模型_第2頁
機(jī)器學(xué)習(xí)原理與應(yīng)用課件 第10章 高斯混合模型_第3頁
機(jī)器學(xué)習(xí)原理與應(yīng)用課件 第10章 高斯混合模型_第4頁
機(jī)器學(xué)習(xí)原理與應(yīng)用課件 第10章 高斯混合模型_第5頁
已閱讀5頁,還剩27頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第10章

高斯混合模型1學(xué)習(xí)目標(biāo)理解高斯混合模型的基本原理。掌握高斯混合模型在數(shù)據(jù)聚類和圖像生成中的具體應(yīng)用。122目錄頁310.1基本原理10.2應(yīng)用實例高斯混合模型高斯混合模型(Gaussianmixturemodel,GMM)是一種無監(jiān)督學(xué)習(xí)算法,其通過采用若干具有不同參數(shù)的高斯模型以無限小的誤差共同描述數(shù)據(jù)的分布形態(tài)或事物的變化規(guī)律,不但在理論上具有較高可解釋性,而且在實際中往往也表現(xiàn)出較高的性能。此外,GMM作為一種生成式模型,不但可根據(jù)已知數(shù)據(jù)確定其多維高斯模型混合表達(dá)的形式以生成新的數(shù)據(jù),而且在對已知數(shù)據(jù)進(jìn)行聚類中可有效解決K均值聚類算法存在的“數(shù)據(jù)點(diǎn)硬分配”方式可靠性較低、對非球形分布數(shù)據(jù)性能較差等缺點(diǎn)。4高斯混合模型10.1基本原理針對無類別標(biāo)記的已知數(shù)據(jù),對其進(jìn)行可靠聚類在實際中具有較高的應(yīng)用價值(可靠類別標(biāo)記的生成通常需要較多的人力資源或較長的時間)。K均值聚類算法雖然原理簡單且在理想情況下可獲得較好的結(jié)果,但在實際中往往也存在以下問題導(dǎo)致其應(yīng)用較為受限:要求數(shù)據(jù)分布形態(tài)必須為球形。在特征相近原則的基礎(chǔ)上采用將數(shù)據(jù)點(diǎn)“硬分配”相應(yīng)類別的方式。510.1基本原理針對以上問題,GMM通過融合多個具有不同參數(shù)的單高斯模型擬合數(shù)據(jù)的分布形態(tài),不但可突破數(shù)據(jù)分布形態(tài)為球形的假設(shè),而且可計算出每個數(shù)據(jù)點(diǎn)屬于不同類別的概率,因而在具體問題的求解中表現(xiàn)出更高的可靠性與精度。610.1.1基本概念

710.1.1基本概念

810.1.1基本概念單高斯混合模型相關(guān)曲線形如草帽,而均值與標(biāo)準(zhǔn)差則決定其主要形態(tài)。(如左圖所示)均值決定了其相應(yīng)曲線的高度與位置,而標(biāo)準(zhǔn)差則決定了其相應(yīng)曲線沿X軸的跨度或數(shù)據(jù)的分散程度。均值的絕對值越大,則曲線越高,而標(biāo)準(zhǔn)差越大,則沿X軸的跨度越大(或數(shù)據(jù)越分散)。9不同均值與標(biāo)準(zhǔn)差相應(yīng)的高斯模型10.1.2數(shù)學(xué)模型每個單高斯模型通常稱為高斯混合模型的構(gòu)成成分,高斯混合模型的構(gòu)成成分越多,則其表達(dá)能力越強(qiáng),但同時需要估計的參數(shù)也越多,因而其效率與可靠性則可能較低。從理論上而言,高斯混合模型可描述任何事物狀態(tài)或擬合任何形態(tài)分布的數(shù)據(jù)。1010.1.2數(shù)學(xué)模型

1110.1.2數(shù)學(xué)模型

1210.1.2數(shù)學(xué)模型在求解GMM中不同單高斯模型的參數(shù)時,通常采用E-M(Expecation-Maximization)算法。EM算法是一種針對包含隱含變量的概率模型參數(shù)極大似然估計算法,其由以下兩個步驟通過輪回迭代的方式完成。1310.1.2數(shù)學(xué)模型

1410.1.2數(shù)學(xué)模型

15

10.1.2數(shù)學(xué)模型16

10.2應(yīng)用實例GMM模塊導(dǎo)入方法fromsklearn.mixtureimportGaussianMixtureasGMM函數(shù)原型classsklearn.mixture.GaussianMixture(n_components=1,covariance_type=’full’,tol=0.001,reg_covar=1e-06,max_iter=100,n_init=1,init_params=’kmeans’,weights_init=None,means_init=None,precisions_init=None,random_state=None,warm_start=False,verbose=0,verbose_interval=10)17

10.2應(yīng)用實例GMM常用參數(shù)如下表所示。18名稱說明n_components混合高斯模型構(gòu)成分量的數(shù)量,默認(rèn)為1。covariance_type協(xié)方差類型,包括'full'、'tied'、'diag'與'spherical'四種;其中,'full'表示每個分量有各自不同的標(biāo)準(zhǔn)協(xié)方差矩陣(元素都不為零),'tied'表示所有分量有相同的標(biāo)準(zhǔn)協(xié)方差矩陣,'diag'表示每個分量有各自不同的對角協(xié)方差矩陣(非對角元素為零,對角元素不為零),'spherical'表示每個分量有各自不同的球面協(xié)方差矩陣(非對角元素為零,對角完全相同),默認(rèn)為'full'。n_init初始化次數(shù),用于產(chǎn)生最佳初始參數(shù),默認(rèn)為1。init_params初始化參數(shù)方式,包括'kmeans'與'random'兩種,默認(rèn)為'kmeans'。

10.2應(yīng)用實例GMM常用方法如下表所示。19名稱說明aic(self,

X)根據(jù)輸入X求模型的Akaike信息準(zhǔn)則值。bic(self,

X)根據(jù)輸入X求模型的貝葉斯信息準(zhǔn)則值。fit(self,

X[,

y])采用EM算法估計模型參數(shù)。fit_predict(self,

X[,

y])訓(xùn)練模型并預(yù)測輸入X的類別標(biāo)記。get_params(self[,

deep])獲取模型參數(shù)。predict(self,

X)預(yù)測輸入X的類別標(biāo)記。predict_proba(self,

X)預(yù)測輸入X的所屬類別的概率。sample(self[,

n_samples])根據(jù)模型生成隨機(jī)樣本。score(self,

X[,

y])求取模型的精度。set_params(self,

\*\*params)設(shè)置模型參數(shù)。10.2.1數(shù)據(jù)聚類根據(jù)GMM算法原理,其可有效克服K均值聚類算法存在的數(shù)據(jù)球形分布假設(shè)、數(shù)據(jù)點(diǎn)“硬分配”等缺點(diǎn),在實際的數(shù)據(jù)聚類中往往可獲得更可靠的結(jié)果。本例通過構(gòu)造不同分布形態(tài)的數(shù)據(jù)對比兩種算法之間的差異。2010.2.1數(shù)據(jù)聚類案例問題描述構(gòu)造團(tuán)狀分布數(shù)據(jù)并采用K均值聚類算法對其進(jìn)行聚類。構(gòu)造非團(tuán)裝分布數(shù)據(jù)并分別采用K均值聚類算法與GMM算法對其進(jìn)行聚類。利用GMM算法生成新數(shù)據(jù)。求取GMM算法最優(yōu)分量數(shù)。案例實現(xiàn)10.2.1數(shù)據(jù)聚類(編程實現(xiàn)).py2110.2.1數(shù)據(jù)聚類結(jié)果分析22對球形分布的數(shù)據(jù)聚類效果較好;但對非球形分布的數(shù)據(jù)聚類時產(chǎn)生誤差較大。K均值聚類(球形分布數(shù)據(jù))K均值聚類(非球形數(shù)據(jù))10.2.1數(shù)據(jù)聚類結(jié)果分析23GMM算法對非球形分布的數(shù)據(jù)聚類效果較好。GMM模型分量越多,其聚類生成的類別越多。在具有復(fù)雜分布形態(tài)數(shù)據(jù)的聚類中表現(xiàn)出更好的性能。GMM聚類(非球形分布數(shù)據(jù))10.2.1數(shù)據(jù)聚類結(jié)果分析24與K均值聚類算法不同,GMM算法實際上通過求取每個類別數(shù)據(jù)分布模型而確定每個數(shù)據(jù)所屬類別的概率,此數(shù)據(jù)點(diǎn)“軟分配”方式不但具有更高的可靠性,而且可根據(jù)數(shù)據(jù)分布模型生成新的數(shù)據(jù)點(diǎn)。GMM生成新數(shù)據(jù)10.2.1數(shù)據(jù)聚類結(jié)果分析25在確定GMM最優(yōu)分量時,如左圖所示,隨著分量數(shù)的增加,AIC與BIC值先降低后增加,在分量數(shù)為9或10時兩者綜合值基本達(dá)到最小,因而可以此確定最優(yōu)分量數(shù)。AIC與BIC變化曲線

知識拓展在構(gòu)建機(jī)器學(xué)習(xí)模型時,許多模型參數(shù)估計問題采用似然函數(shù)作為目標(biāo)函數(shù),當(dāng)訓(xùn)練數(shù)據(jù)足夠多時通??色@得較好的結(jié)果,但同時也可能模型的復(fù)雜度過高可出現(xiàn)過擬合問題。因而,通過特定的標(biāo)準(zhǔn)綜合權(quán)衡模型表達(dá)能力與模型復(fù)雜度,有助于確定最優(yōu)的模型。當(dāng)前,較為常用的兩種便準(zhǔn)分別為:赤池信息準(zhǔn)則(AIC)貝葉斯信息準(zhǔn)則(BIC)2610.2.2圖像生成圖像生成旨在根據(jù)圖像特征或圖像像素值分布規(guī)律生成新的圖像,在藝術(shù)創(chuàng)作、風(fēng)險防控等領(lǐng)域有著廣泛的應(yīng)用。GMM作為一種生成式模型,可以對不同類型的數(shù)據(jù)分布形態(tài)進(jìn)行描述并依此生成新的數(shù)據(jù)。以圖像數(shù)據(jù)為例介紹GMM在圖像生成中的使用方法。2710.2.2圖像生成

問題描述:利用手寫數(shù)字圖像數(shù)據(jù)構(gòu)建GMM模型并生成新的手寫數(shù)字圖像,具體要求如下:加載MNIST數(shù)據(jù)并生成GMM構(gòu)建樣本。利用主成分分析方法對GMM構(gòu)建樣本進(jìn)行降維處理。構(gòu)建不包含不同分量的GMM模型并對比其生成圖像之間的差異。編程實現(xiàn)10.2.2圖像生成(編程實現(xiàn)).py2810.2.2圖像生成

結(jié)果分析29原始圖像手寫體數(shù)字圖像數(shù)據(jù)集包含60000幅分辨率為28×28的訓(xùn)練圖像。本例采用GMM算法對16幅圖像的特征或像素分布形態(tài)進(jìn)行提取或擬合,進(jìn)而利用相應(yīng)的GMM模型生成新的圖像。將每幅圖像展平為向量時,維度相對較高(28×28=784維),因而采用主成分分析算法將維度降至10維。10.2.2圖像生成

結(jié)果分析30生成的新圖像(分量為5)生成的新圖像(分量為10)左圖采用較少的單高斯模型提取圖像特征,不易損失主要信息,生成的圖像較模糊。右圖采用相對較多的單高斯模型提取圖像特征,可保留更多的細(xì)節(jié),生成的圖像較清晰。本章小結(jié)GMM假設(shè)數(shù)據(jù)由多

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論