《機(jī)器學(xué)習(xí)原理與實(shí)戰(zhàn)》第5章-無(wú)監(jiān)督學(xué)習(xí)

上傳人：建*** IP屬地：河北上傳時(shí)間：2024-10-22 格式：PPTX 頁(yè)數(shù)：58 大?。?82.77KB 積分：35 舉報(bào) 版權(quán)申訴

《機(jī)器學(xué)習(xí)原理與實(shí)戰(zhàn)》第5章-無(wú)監(jiān)督學(xué)習(xí)_第2頁(yè)

《機(jī)器學(xué)習(xí)原理與實(shí)戰(zhàn)》第5章-無(wú)監(jiān)督學(xué)習(xí)_第3頁(yè)

《機(jī)器學(xué)習(xí)原理與實(shí)戰(zhàn)》第5章-無(wú)監(jiān)督學(xué)習(xí)_第4頁(yè)

《機(jī)器學(xué)習(xí)原理與實(shí)戰(zhàn)》第5章-無(wú)監(jiān)督學(xué)習(xí)_第5頁(yè)

已閱讀5頁(yè)，還剩53頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

無(wú)監(jiān)督學(xué)習(xí)22-10月-241降維目錄無(wú)監(jiān)督學(xué)習(xí)簡(jiǎn)介2聚類任務(wù)3無(wú)監(jiān)督學(xué)習(xí)也屬于機(jī)器學(xué)習(xí)，與有監(jiān)督學(xué)習(xí)最大的區(qū)別在于，無(wú)監(jiān)督學(xué)習(xí)輸入的數(shù)據(jù)集中沒(méi)有事先標(biāo)記好的歷史范例，需要算法自行從數(shù)據(jù)中尋找出潛在的規(guī)律與規(guī)則，自動(dòng)對(duì)輸入的數(shù)據(jù)進(jìn)行分類和分群。有監(jiān)督學(xué)習(xí)算法從數(shù)據(jù)集中尋找特定的模式用于特定的用途，而無(wú)監(jiān)督學(xué)習(xí)算法從數(shù)據(jù)集中揭露數(shù)據(jù)中潛在的性質(zhì)與規(guī)則，更為傾向于理解數(shù)據(jù)本身。無(wú)監(jiān)督學(xué)習(xí)簡(jiǎn)介無(wú)監(jiān)督學(xué)習(xí)的分類效果精度通常低于有監(jiān)督學(xué)習(xí)，但也有一定的優(yōu)勢(shì)。在實(shí)際應(yīng)用中，給訓(xùn)練集中的數(shù)據(jù)貼上標(biāo)簽往往是一個(gè)非常耗費(fèi)時(shí)間的過(guò)程，并且要能為數(shù)據(jù)貼上標(biāo)簽還需要具備有先驗(yàn)知識(shí)。使用無(wú)監(jiān)督學(xué)習(xí)算法從龐大的樣本集合中找出不同的類別，由人工對(duì)這些類別進(jìn)行標(biāo)注后，再進(jìn)行后續(xù)處理是一種常見(jiàn)的應(yīng)用方法。無(wú)監(jiān)督學(xué)習(xí)算法也可以用于特征的篩選，之后再用于構(gòu)建分類器的訓(xùn)練。無(wú)監(jiān)督學(xué)習(xí)的一個(gè)典型應(yīng)用是聚類分析（ClusterAnalysis），在聚類過(guò)程中數(shù)據(jù)依據(jù)相似度自動(dòng)聚成一簇，這個(gè)過(guò)程不需要人工干預(yù)。除聚類外，常見(jiàn)的無(wú)監(jiān)督學(xué)習(xí)的應(yīng)用還有降維（DimensionalityReduce）。無(wú)監(jiān)督學(xué)習(xí)簡(jiǎn)介1降維目錄無(wú)監(jiān)督學(xué)習(xí)簡(jiǎn)介2聚類任務(wù)3在進(jìn)行樣本數(shù)據(jù)的聚類分析時(shí)，有時(shí)涉及的變量或數(shù)據(jù)組屬性較多，這增加了算法計(jì)算的空間復(fù)雜度。降維處理是一種行之有效的降低數(shù)據(jù)分析的復(fù)雜性手段。其核心思想是，通過(guò)原來(lái)變量組或數(shù)據(jù)組屬性的線性或非線性重構(gòu)達(dá)到簡(jiǎn)化數(shù)據(jù)目的。常見(jiàn)的降維方法有：主成分分析（PrincipalComponentAnalysis，PCA）核線性變換降維PCA是一種通過(guò)降維技術(shù)把多個(gè)變量化為幾個(gè)新的綜合變量的統(tǒng)計(jì)分析方法。新的綜合變量是原始變量的線性組合，能夠反映原始變量的絕大部分信息，且新變量之間互不相關(guān)。設(shè)

為一個(gè)

維隨機(jī)向量，并假定二階矩陣存在，記均值向量為

，協(xié)方差矩陣為

，進(jìn)行如下所示的線性變換。

PCA上式有以下約束條件。

當(dāng)

時(shí)，

，即

與

不相關(guān)

這里的

在本章中有其實(shí)際意義。設(shè)

為的特征值

，

為相應(yīng)的一組正交單位特征向量，

的主成分就是以

的特征向量為系數(shù)的線性組合，它們互不相關(guān)，其方差為

的特征值。PCA當(dāng)

時(shí)，

達(dá)到最大值，所求的

就是第一主成分。如果第一主成分所含信息不夠多，不足以代表原始的

個(gè)變量，則需要再考慮使用

。為了使

所含的信息與

不重疊，要求

。當(dāng)

時(shí)，

達(dá)到最大值，所求的

就是第二主成分。類似的，可以再定義第三主成分，直至第

主成分。一般，

的第

主成分是指約束條件下的

。

記

，主成分向量

與原始向量

的關(guān)系為

，其中。

PCA第

主成分

在總方差

中的比例

稱為主成分

的貢獻(xiàn)率，第一主成分

的貢獻(xiàn)率最大，表明它解釋原始變量的能力最強(qiáng)，y2～yp的解釋能力依次減弱。主成分分析的目的就是為了減少變量的個(gè)數(shù)，因而一般不會(huì)使用所有

個(gè)主成分，忽略一些帶有較小方差的主成分不會(huì)給總方差帶來(lái)太大的影響。前

個(gè)主成分的貢獻(xiàn)率之和在總方差中的比例

稱為主成分

的累計(jì)貢獻(xiàn)率，它表明了

解釋原始變量的能力。通常取較小（相對(duì)于

）的

，可使得累計(jì)貢獻(xiàn)率達(dá)到一個(gè)較高的百分比（如80%～90%），此時(shí)，

可代替

，從而達(dá)到降維的目的，而信息的損失卻不多。PCA使用scikit-learn庫(kù)中decomposition模塊的PCA類可以創(chuàng)建PCA模型，其基本語(yǔ)法格式如下。PCA類的常用的參數(shù)及其說(shuō)明，如表所示。PCAclasssklearn.decomposition.PCA(n_components=None,copy=True,whiten=False,svd_solver='auto',tol=0.0,iterated_power='auto',random_state=None)參數(shù)名稱說(shuō)明n_components接收int或str。表示所要保留的主成分個(gè)數(shù)n，即保留下來(lái)的特征個(gè)數(shù)n，賦值為int時(shí)，表示降維的維度，如n_components=1，將把原始數(shù)據(jù)降到一個(gè)維度。賦值為str時(shí)，表示降維的模式，如取值為'mle'時(shí)，將自動(dòng)選取特征個(gè)數(shù)n，使得滿足所要求的方差百分比。默認(rèn)為NonePCA類的常用的參數(shù)及其說(shuō)明，如表所示。PCA參數(shù)名稱說(shuō)明copy接收bool。表示是否在運(yùn)行算法時(shí)，將原始訓(xùn)練數(shù)據(jù)復(fù)制一份。若為T(mén)rue，則運(yùn)行后，原始訓(xùn)練數(shù)據(jù)的值不會(huì)有任何改變，因?yàn)槭窃谠紨?shù)據(jù)的副本上進(jìn)行運(yùn)算；若為False，則運(yùn)行后，原始訓(xùn)練數(shù)據(jù)的值會(huì)發(fā)生改變。默認(rèn)為T(mén)ruewhiten接收bool。表示是否白化，使得每個(gè)特征具有相同的方差。默認(rèn)為False采用線性降維方法降低數(shù)據(jù)維度時(shí)，通常是在假設(shè)從高維空間到低維空間的函數(shù)映射是線性的條件下進(jìn)行的，然而在有些時(shí)候，高維空間是線性不可分的，需要找到一個(gè)非線性函數(shù)映射才能進(jìn)行恰當(dāng)?shù)慕稻S，這就是非線性降維。基于核變化的線性降維方法是非線性降維的常用方法，本節(jié)以核主成分分析（KernelizedPAC，KPAC）為例進(jìn)行簡(jiǎn)要說(shuō)明。在進(jìn)行數(shù)據(jù)分析的過(guò)程中，如果遇到線性不可分的情況，通?？梢圆捎肒PAC方法進(jìn)行數(shù)據(jù)的主成分分析。KPAC通過(guò)將線性不可分的輸入數(shù)據(jù)映射到線性可分的高維特征空間中，然后在特征空間再以PCA降維，進(jìn)而實(shí)現(xiàn)數(shù)據(jù)的降維處理。核化線性降維假設(shè)樣本點(diǎn)

通過(guò)映射

映射到由確定的超平面之后，且經(jīng)過(guò)中心化處理以后的像為。在高維特征空間進(jìn)行數(shù)據(jù)的主成分分析，即求解下式。在上式中

為協(xié)方差矩陣。由上式可得下式。

核化線性降維在上式中

。考慮到

，

，又可寫(xiě)為下式。所以式又可改寫(xiě)為下式。

核化線性降維由于函數(shù)

的具體形式是未知，為便于計(jì)算，在此引入核函數(shù)如下式。再將式

與上式代入

，化簡(jiǎn)得下式。其中

為

對(duì)應(yīng)的核矩陣，

，

。對(duì)

進(jìn)行特征值分解，即可完成主成分分析。對(duì)于新樣本

，其投影后的第

維坐標(biāo)為下式。上式中已經(jīng)經(jīng)過(guò)標(biāo)準(zhǔn)化，是的第個(gè)分量。核化線性降維使用scikit-learn庫(kù)中decomposition模塊的KernelPCA類可以創(chuàng)建KernelPCA模型，其基本語(yǔ)法格式如下。核化線性降維classsklearn.decomposition.KernelPCA(n_components=None,kernel=’linear’,gamma=None,degree=3,coef0=1,kernel_params=None,alpha=1.0,fit_inverse_transform=False,eigen_solver=’auto’,tol=0,max_iter=None,remove_zero_eig=False,random_state=None,copy_X=True,n_jobs=None)KernelPCA類的常用的參數(shù)及其說(shuō)明，如表所示。核化線性降維參數(shù)名稱說(shuō)明n_components接收int。表示所要保留的主成分個(gè)數(shù)n，即保留下來(lái)的特征個(gè)數(shù)n，若為None時(shí)，則保留所有非零特征。默認(rèn)為Nonekernel接收str。表示使用的核函數(shù)，可選“l(fā)inear”“poly”“rbf”“sigmoid”“cosine”“precomputed”。默認(rèn)為“l(fā)inear”gamma接收str。表示核函數(shù)指定為“rbf”“poly”“sigmoid”時(shí)所使用的系數(shù)；取值為“auto”時(shí)，系數(shù)為1/n_features。默認(rèn)為Nonedegree接收int。表示當(dāng)核函數(shù)是多項(xiàng)式時(shí)，指定多項(xiàng)式的系數(shù)，對(duì)于其他核函數(shù)無(wú)效。默認(rèn)為3KernelPCA類的常用的參數(shù)及其說(shuō)明，如表所示。核化線性降維參數(shù)名稱說(shuō)明eigen_solver接收str。表示求解特征值的算法。“auto”表示自動(dòng)選擇，“dense”表示使用dense特征值求解器，“arpack”表示使用arpack特征值求解器，用于特征數(shù)量遠(yuǎn)小于樣本數(shù)量的情形。默認(rèn)為“auto”tol接收int。表示arpock特征值求解器的收斂闕值，0表示自動(dòng)選擇闕值。默認(rèn)為0max_iter接收int。表示arpock特征值求解器的最大迭代次數(shù)，None表示自動(dòng)選擇。默認(rèn)為Nonerandom_state接收int或RandomStateinstance。該參數(shù)為int類型時(shí)，為隨機(jī)數(shù)生成器使用的種子；該參數(shù)為RandomStateinstance時(shí)，為隨機(jī)數(shù)生成器；若為None時(shí)，使用的隨機(jī)數(shù)生成器為np.random模塊使用的RandomState實(shí)例。默認(rèn)為None1降維目錄無(wú)監(jiān)督學(xué)習(xí)簡(jiǎn)介2聚類任務(wù)3在無(wú)監(jiān)督學(xué)習(xí)中，樣本的標(biāo)記信息是未知的，目標(biāo)是通過(guò)對(duì)無(wú)標(biāo)記樣本的學(xué)習(xí)來(lái)揭示數(shù)據(jù)的內(nèi)在性質(zhì)及規(guī)律，為進(jìn)一步的數(shù)據(jù)分析提供基礎(chǔ)。在此類學(xué)習(xí)任務(wù)中，應(yīng)用最廣泛的就是聚類。假定樣本集合

，其中

。聚類的目的就是將集合

按照一定規(guī)則劃分成若干子集

，且滿足

，且

。聚類得到的每個(gè)子集

稱為一個(gè)簇，若

，稱

為

的簇標(biāo)記，則聚類的結(jié)果可以用向量

表示。聚類的目的是把待分類數(shù)據(jù)按照一定規(guī)則分成若干類，這些類不是事先給定的，而是根據(jù)待分類數(shù)據(jù)的特征確定，且對(duì)類的數(shù)目和結(jié)構(gòu)不做任何假定。例如，市場(chǎng)分析人員通過(guò)聚類將客戶分成不同的客戶群，以購(gòu)買(mǎi)模式刻畫(huà)不同客戶群特征。聚類任務(wù)聚類性能度量指標(biāo)也稱為聚類有效性指標(biāo)，用以衡量聚類結(jié)果的優(yōu)劣。另外，若已明確了性能度量指標(biāo)，則也可將其作為聚類過(guò)程中的優(yōu)化目標(biāo)，從而更好地提高聚類效果。當(dāng)通過(guò)一定的聚類算法得到聚類結(jié)果之后，通常認(rèn)為簇內(nèi)相似度高越好，而簇間的相似度低越好。聚合性能度量的指標(biāo)，若是由某個(gè)參考模型給出，這類指標(biāo)稱為外部指標(biāo)；若是通過(guò)直接考察聚類結(jié)果給出，這類指標(biāo)稱為內(nèi)部指標(biāo)。性能度量假設(shè)樣本集合

的聚類結(jié)果為

，

為簇標(biāo)記量；參考模型給出的聚類結(jié)果為

，

為簇標(biāo)記量。定義如下四個(gè)集合分別為：性能度量1.外部指標(biāo)若令

，

則可以給出常用的3個(gè)聚類性能度量外部指標(biāo)。Jaccard系數(shù)（JaccardCoeffient，JC），如下式。FM系數(shù)（FowlkesandMallowsIndex，F(xiàn)MI），如下式。

性能度量Rand指數(shù)（RandIndex，RI），如下式。

以上3個(gè)聚類性能度量外部指標(biāo)的計(jì)算結(jié)果在[0,1]區(qū)間內(nèi)，值越大越好。性能度量假設(shè)樣本集合

的聚類結(jié)果為

。定義如下4個(gè)函數(shù)：性能度量2.內(nèi)部指標(biāo)其中，為距離計(jì)算函數(shù)，用于計(jì)算兩個(gè)樣本之間的距離，代表簇的中心點(diǎn)。顯然，對(duì)應(yīng)簇內(nèi)樣本間的平均距離，對(duì)應(yīng)簇內(nèi)樣本間的最遠(yuǎn)距離，對(duì)應(yīng)簇與簇最近樣本間的距離，對(duì)應(yīng)簇與簇中心點(diǎn)間的距離。基于式、、和

，可得到如下2個(gè)常用的聚類性能度量的內(nèi)部指標(biāo)。性能度量DB指數(shù)（Davies-BouldinIndex，DBI），如下式。Dunn指數(shù)（DunnIndex，DI），如下式。顯然，DBI的計(jì)算結(jié)果越小越表明聚類效果好，而DI則正相反。性能度量聚類分析的目的是把分類對(duì)象按照一定的規(guī)則分成若干類，同一類的對(duì)象具有某種相似性，而不同類的對(duì)象之間不相似。通常情況下，聚類結(jié)果的優(yōu)劣可以采用對(duì)象之間距離的遠(yuǎn)近來(lái)評(píng)價(jià)。在聚類分析中，給定樣本點(diǎn)

，

，常用的距離計(jì)算公式包括以下幾種。歐式距離（Euclideandistance），如下。距離計(jì)算曼哈頓距離（Manhattandistance），如下。切比雪夫距離（Chebyshevdistance），如下。閔文斯基距離（Minkowskidistance），如下。距離計(jì)算針對(duì)于無(wú)序?qū)傩裕瑹o(wú)若令

表示在屬性

上取值為

的樣本數(shù)，

表示第

個(gè)樣本簇中在屬性

上取值為

的樣本數(shù)，

為樣本簇個(gè)數(shù)，則在屬性

上兩個(gè)離散值

與

的距離，可采用VDM距離，如下。距離計(jì)算原型聚類亦稱為“基于原型的聚類”。此類算法假設(shè)聚類結(jié)構(gòu)能夠通過(guò)一組原型刻畫(huà)，在實(shí)踐操作中極為常用。通常情形下，算法先對(duì)原型進(jìn)行初始化，然后對(duì)原型進(jìn)行迭代更新求解。采用不同的原型表示、不同的求解方式，將產(chǎn)生不同的算法。下面重點(diǎn)介紹3種常用的原型聚類算法。原型聚類在K均值（K-Means）算法中，首先隨機(jī)初始化類的中心，然后將每個(gè)樣本點(diǎn)按照距離最近的原則劃歸為相應(yīng)的類內(nèi)，更新類中心，直至樣本點(diǎn)到相應(yīng)類中心的距離平方和達(dá)到最小。假設(shè)樣本集合

，給定需劃分的簇?cái)?shù)，聚類的結(jié)果為

。則K均值算法的優(yōu)化目標(biāo)的表達(dá)式如下式。式中，為簇的均值向量。原型聚類1.K均值算法雖然理論上可以窮舉所有聚類的結(jié)果，然后給出最后的聚類結(jié)果，但是該方法的計(jì)算復(fù)雜性過(guò)大而無(wú)法實(shí)際應(yīng)用。因此在實(shí)際中，對(duì)K均值算法采用貪婪策略，求得優(yōu)化目標(biāo)的近似解。K均值算法的基本過(guò)程，如圖所示。原型聚類K均值算法的具體步驟如下。（1）輸入樣本集合及聚類簇?cái)?shù)。（2）從樣本集中隨機(jī)選擇K個(gè)樣本點(diǎn)作為K個(gè)簇中心。（3）計(jì)算每個(gè)樣本點(diǎn)到每個(gè)簇中心的距離。（4）按照距離遠(yuǎn)近將每個(gè)樣本點(diǎn)歸入相應(yīng)的簇內(nèi)。（5）更新每個(gè)簇的中心。（6）重復(fù)步驟（2）~（5），直至簇中心不再變化。（7）輸出聚類結(jié)果。原型聚類學(xué)習(xí)向量量化（LearningVectorQuantization，LVQ）也是一種原型聚類算法。LVQ算法不同于K均值算法，該算法是假設(shè)樣本數(shù)據(jù)是帶有類別標(biāo)記的，通過(guò)監(jiān)督信息來(lái)輔助聚類。在該算法中，引入了原型向量的更新學(xué)習(xí)規(guī)則，根據(jù)每次迭代中樣本點(diǎn)與聚類原型的類標(biāo)記是否相同，針對(duì)聚類原型進(jìn)行更新，直到滿足終止條件。原型聚類2.學(xué)習(xí)向量量化假設(shè)樣本集合

，給定原型向量個(gè)數(shù)

，學(xué)習(xí)率

，預(yù)設(shè)標(biāo)記為

。給定一組初始聚類原型向量，在樣本集合中隨機(jī)選取樣本

，該樣本點(diǎn)最近的原型向量為

。LVQ按照如下的規(guī)則將原型

更新到原型

。原型聚類當(dāng)

時(shí)，原型

更新為

，否則原型

更新為

。根據(jù)以上的原型更新規(guī)則，LVQ算法的基本過(guò)程如圖所示。原型聚類LVQ算法的具體步驟如下。（1）輸入樣本集合、預(yù)設(shè)類標(biāo)記及學(xué)習(xí)率。（2）從樣本集中隨機(jī)選擇K個(gè)樣本點(diǎn)作為K個(gè)原型。（3）隨機(jī)選擇一個(gè)樣本點(diǎn)，計(jì)算該樣本點(diǎn)到k個(gè)原型的距離，并確定與之最近的原型。（4）更新選擇出的原型。（5）重復(fù)步驟（2）~（4）直至滿足停止條件（通常為最大迭代次數(shù)）。（6）輸出原型向量。（7）計(jì)算每個(gè)樣本點(diǎn)到原型向量的距離，并歸類。（8）輸出聚類結(jié)果。原型聚類高斯混合（Mixture-of-Gaussian）聚類算法是通過(guò)高斯混合分布的概率模型，給出聚類結(jié)果的一種原型聚類算法。在高斯混合聚類算法中涉及3個(gè)主要參數(shù)的更新，以下作簡(jiǎn)要介紹。高斯混合分布的密度函數(shù)如下，該分布共由個(gè)混合成分組成，每個(gè)混合成分對(duì)應(yīng)一個(gè)高斯分布。上式中

，

分別為第

個(gè)高斯分布的均值向量與協(xié)方差矩陣，

為相應(yīng)的“混合系數(shù)”，且滿足

。原型聚類3.高斯混合聚類高斯混合聚類算法將輸入樣本假設(shè)為是由以上高斯混合分布密度生成的。若輸入樣本為

顯然，樣本

是由第

個(gè)個(gè)高斯分布生成，其先驗(yàn)概率為

，后驗(yàn)概率

可根據(jù)下式計(jì)算。原型聚類高斯混合聚類算法在迭代次數(shù)到達(dá)一定時(shí)，將按照后驗(yàn)概率的大小將樣本點(diǎn)

劃分入相應(yīng)的簇中。根據(jù)極大似然原理，算法迭代過(guò)程中將不斷更新高斯混合分布的密度函數(shù)的參數(shù)，更新為下式子。原型聚類更新為下式子。原型聚類根據(jù)以上高斯混合概率模型的更新規(guī)則，算法的基本過(guò)程如圖所示。原型聚類算法的具體步驟如下。（1）輸入樣本集合、初始化高斯混合分布的模型參數(shù)。（2）計(jì)算每個(gè)樣本點(diǎn)的后驗(yàn)概率。（3）更新每個(gè)多維正態(tài)分布的參數(shù)。（4）重復(fù)步驟（2）~（3），直至滿足停止條件（通常為最大迭代次數(shù)）。（5）計(jì)算每個(gè)樣本點(diǎn)的后驗(yàn)概率。（6）將每個(gè)樣本點(diǎn)按照后驗(yàn)概率大小歸類。（7）輸出聚類結(jié)果。原型聚類基于密度的聚類算法簡(jiǎn)稱密度聚類算法，該類算法假設(shè)聚類結(jié)果能夠通過(guò)樣本分布的緊密程度確定。其基本思想是：以樣本點(diǎn)在空間分布上的稠密程度為依據(jù)進(jìn)行聚類，若區(qū)域中的樣本密度大于某個(gè)閾值，則把相應(yīng)的樣本點(diǎn)劃入與之相近的簇中。具有噪聲的基于密度聚類（Density-BasedSpatialClusteringofApplicationswithNoise，DBSCAN）是一種典型的密度聚類算法。該算法從樣本密度的角度進(jìn)行考察樣本之間的可聯(lián)接性，并由可聯(lián)接樣本不斷擴(kuò)展直到獲得最終的聚類結(jié)果。密度聚類對(duì)于樣本集

，給定距離參數(shù)

，數(shù)目參數(shù)

，任一樣本點(diǎn)

，定義以下幾個(gè)概念。（1）將集合

稱為樣本點(diǎn)的鄰域，若

，則稱

為一個(gè)核心對(duì)象。（2）若樣本點(diǎn)

屬于

的

鄰域，且

為一個(gè)核心對(duì)象，則稱

由

密度直達(dá)。（3）對(duì)于樣本點(diǎn)

和，若存在樣本點(diǎn)序列

，且

由

密度直達(dá)，則稱

由

密度可達(dá)。（4）若存在樣本點(diǎn)

，使得樣本點(diǎn)

和均由

密度可達(dá)，稱

與

密度相聯(lián)。密度聚類如果取距離參數(shù)

，數(shù)目參數(shù)

，下圖給出了以上概念的直觀表示。密度聚類在上圖中，對(duì)于當(dāng)前參數(shù)而言，例如樣本點(diǎn)

，

為核心對(duì)象，樣本點(diǎn)

不是核心對(duì)象；

由

密度直達(dá)，并且

由

密度可達(dá)?；谝陨详P(guān)于樣本點(diǎn)之間可聯(lián)接性的定義，DBSCAN算法將簇

描述為滿足以下兩個(gè)條件的非空子集。(1),，則

與

密度相聯(lián)。(2),由

密度可達(dá)，則

。密度聚類DBSCAN算法的基本過(guò)程，如圖所示。密度聚類DBSCAN算法的具體步驟如下。（1）輸入樣本集合、初始化距離參數(shù)

，數(shù)目參數(shù)

。（2）確定核心對(duì)象集合。（3）在核心對(duì)象集合中，隨機(jī)選擇一個(gè)核心對(duì)象作為種子。（4）依據(jù)簇劃分原則生成一個(gè)簇，并更新核心對(duì)象集合。（5）若核心對(duì)象集

人人文庫(kù)> 全部分類> 教育資料 > 作文作品

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

《機(jī)器學(xué)習(xí)原理與實(shí)戰(zhàn)》第5章-無(wú)監(jiān)督學(xué)習(xí)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

《機(jī)器學(xué)習(xí)原理與實(shí)戰(zhàn)》第5章-無(wú)監(jiān)督學(xué)習(xí)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔