《機(jī)器學(xué)習(xí)原理與實(shí)戰(zhàn)》第5章-無(wú)監(jiān)督學(xué)習(xí)_第1頁(yè)
《機(jī)器學(xué)習(xí)原理與實(shí)戰(zhàn)》第5章-無(wú)監(jiān)督學(xué)習(xí)_第2頁(yè)
《機(jī)器學(xué)習(xí)原理與實(shí)戰(zhàn)》第5章-無(wú)監(jiān)督學(xué)習(xí)_第3頁(yè)
《機(jī)器學(xué)習(xí)原理與實(shí)戰(zhàn)》第5章-無(wú)監(jiān)督學(xué)習(xí)_第4頁(yè)
《機(jī)器學(xué)習(xí)原理與實(shí)戰(zhàn)》第5章-無(wú)監(jiān)督學(xué)習(xí)_第5頁(yè)
已閱讀5頁(yè),還剩53頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

無(wú)監(jiān)督學(xué)習(xí)22-10月-241降維目錄無(wú)監(jiān)督學(xué)習(xí)簡(jiǎn)介2聚類任務(wù)3無(wú)監(jiān)督學(xué)習(xí)也屬于機(jī)器學(xué)習(xí),與有監(jiān)督學(xué)習(xí)最大的區(qū)別在于,無(wú)監(jiān)督學(xué)習(xí)輸入的數(shù)據(jù)集中沒(méi)有事先標(biāo)記好的歷史范例,需要算法自行從數(shù)據(jù)中尋找出潛在的規(guī)律與規(guī)則,自動(dòng)對(duì)輸入的數(shù)據(jù)進(jìn)行分類和分群。有監(jiān)督學(xué)習(xí)算法從數(shù)據(jù)集中尋找特定的模式用于特定的用途,而無(wú)監(jiān)督學(xué)習(xí)算法從數(shù)據(jù)集中揭露數(shù)據(jù)中潛在的性質(zhì)與規(guī)則,更為傾向于理解數(shù)據(jù)本身。無(wú)監(jiān)督學(xué)習(xí)簡(jiǎn)介無(wú)監(jiān)督學(xué)習(xí)的分類效果精度通常低于有監(jiān)督學(xué)習(xí),但也有一定的優(yōu)勢(shì)。在實(shí)際應(yīng)用中,給訓(xùn)練集中的數(shù)據(jù)貼上標(biāo)簽往往是一個(gè)非常耗費(fèi)時(shí)間的過(guò)程,并且要能為數(shù)據(jù)貼上標(biāo)簽還需要具備有先驗(yàn)知識(shí)。使用無(wú)監(jiān)督學(xué)習(xí)算法從龐大的樣本集合中找出不同的類別,由人工對(duì)這些類別進(jìn)行標(biāo)注后,再進(jìn)行后續(xù)處理是一種常見(jiàn)的應(yīng)用方法。無(wú)監(jiān)督學(xué)習(xí)算法也可以用于特征的篩選,之后再用于構(gòu)建分類器的訓(xùn)練。無(wú)監(jiān)督學(xué)習(xí)的一個(gè)典型應(yīng)用是聚類分析(ClusterAnalysis),在聚類過(guò)程中數(shù)據(jù)依據(jù)相似度自動(dòng)聚成一簇,這個(gè)過(guò)程不需要人工干預(yù)。除聚類外,常見(jiàn)的無(wú)監(jiān)督學(xué)習(xí)的應(yīng)用還有降維(DimensionalityReduce)。無(wú)監(jiān)督學(xué)習(xí)簡(jiǎn)介1降維目錄無(wú)監(jiān)督學(xué)習(xí)簡(jiǎn)介2聚類任務(wù)3在進(jìn)行樣本數(shù)據(jù)的聚類分析時(shí),有時(shí)涉及的變量或數(shù)據(jù)組屬性較多,這增加了算法計(jì)算的空間復(fù)雜度。降維處理是一種行之有效的降低數(shù)據(jù)分析的復(fù)雜性手段。其核心思想是,通過(guò)原來(lái)變量組或數(shù)據(jù)組屬性的線性或非線性重構(gòu)達(dá)到簡(jiǎn)化數(shù)據(jù)目的。常見(jiàn)的降維方法有:主成分分析(PrincipalComponentAnalysis,PCA)核線性變換降維PCA是一種通過(guò)降維技術(shù)把多個(gè)變量化為幾個(gè)新的綜合變量的統(tǒng)計(jì)分析方法。新的綜合變量是原始變量的線性組合,能夠反映原始變量的絕大部分信息,且新變量之間互不相關(guān)。設(shè)

為一個(gè)

維隨機(jī)向量,并假定二階矩陣存在,記均值向量為

,協(xié)方差矩陣為

,進(jìn)行如下所示的線性變換。

PCA上式有以下約束條件。

當(dāng)

時(shí),

,即

不相關(guān)

這里的

在本章中有其實(shí)際意義。設(shè)

為的特征值

,

為相應(yīng)的一組正交單位特征向量,

的主成分就是以

的特征向量為系數(shù)的線性組合,它們互不相關(guān),其方差為

的特征值。PCA當(dāng)

時(shí),

達(dá)到最大值,所求的

就是第一主成分。如果第一主成分所含信息不夠多,不足以代表原始的

個(gè)變量,則需要再考慮使用

。為了使

所含的信息與

不重疊,要求

。當(dāng)

時(shí),

達(dá)到最大值,所求的

就是第二主成分。類似的,可以再定義第三主成分,直至第

主成分。一般,

的第

主成分是指約束條件下的

。

,主成分向量

與原始向量

的關(guān)系為

,其中。

PCA第

主成分

在總方差

中的比例

稱為主成分

的貢獻(xiàn)率,第一主成分

的貢獻(xiàn)率最大,表明它解釋原始變量的能力最強(qiáng),y2~yp的解釋能力依次減弱。主成分分析的目的就是為了減少變量的個(gè)數(shù),因而一般不會(huì)使用所有

個(gè)主成分,忽略一些帶有較小方差的主成分不會(huì)給總方差帶來(lái)太大的影響。前

個(gè)主成分的貢獻(xiàn)率之和在總方差中的比例

稱為主成分

的累計(jì)貢獻(xiàn)率,它表明了

解釋原始變量的能力。通常取較小(相對(duì)于

)的

,可使得累計(jì)貢獻(xiàn)率達(dá)到一個(gè)較高的百分比(如80%~90%),此時(shí),

可代替

,從而達(dá)到降維的目的,而信息的損失卻不多。PCA使用scikit-learn庫(kù)中decomposition模塊的PCA類可以創(chuàng)建PCA模型,其基本語(yǔ)法格式如下。PCA類的常用的參數(shù)及其說(shuō)明,如表所示。PCAclasssklearn.decomposition.PCA(n_components=None,copy=True,whiten=False,svd_solver='auto',tol=0.0,iterated_power='auto',random_state=None)參數(shù)名稱說(shuō)明n_components接收int或str。表示所要保留的主成分個(gè)數(shù)n,即保留下來(lái)的特征個(gè)數(shù)n,賦值為int時(shí),表示降維的維度,如n_components=1,將把原始數(shù)據(jù)降到一個(gè)維度。賦值為str時(shí),表示降維的模式,如取值為'mle'時(shí),將自動(dòng)選取特征個(gè)數(shù)n,使得滿足所要求的方差百分比。默認(rèn)為NonePCA類的常用的參數(shù)及其說(shuō)明,如表所示。PCA參數(shù)名稱說(shuō)明copy接收bool。表示是否在運(yùn)行算法時(shí),將原始訓(xùn)練數(shù)據(jù)復(fù)制一份。若為T(mén)rue,則運(yùn)行后,原始訓(xùn)練數(shù)據(jù)的值不會(huì)有任何改變,因?yàn)槭窃谠紨?shù)據(jù)的副本上進(jìn)行運(yùn)算;若為False,則運(yùn)行后,原始訓(xùn)練數(shù)據(jù)的值會(huì)發(fā)生改變。默認(rèn)為T(mén)ruewhiten接收bool。表示是否白化,使得每個(gè)特征具有相同的方差。默認(rèn)為False采用線性降維方法降低數(shù)據(jù)維度時(shí),通常是在假設(shè)從高維空間到低維空間的函數(shù)映射是線性的條件下進(jìn)行的,然而在有些時(shí)候,高維空間是線性不可分的,需要找到一個(gè)非線性函數(shù)映射才能進(jìn)行恰當(dāng)?shù)慕稻S,這就是非線性降維。基于核變化的線性降維方法是非線性降維的常用方法,本節(jié)以核主成分分析(KernelizedPAC,KPAC)為例進(jìn)行簡(jiǎn)要說(shuō)明。在進(jìn)行數(shù)據(jù)分析的過(guò)程中,如果遇到線性不可分的情況,通??梢圆捎肒PAC方法進(jìn)行數(shù)據(jù)的主成分分析。KPAC通過(guò)將線性不可分的輸入數(shù)據(jù)映射到線性可分的高維特征空間中,然后在特征空間再以PCA降維,進(jìn)而實(shí)現(xiàn)數(shù)據(jù)的降維處理。核化線性降維假設(shè)樣本點(diǎn)

通過(guò)映射

映射到由確定的超平面之后,且經(jīng)過(guò)中心化處理以后的像為。在高維特征空間進(jìn)行數(shù)據(jù)的主成分分析,即求解下式。在上式中

為協(xié)方差矩陣。由上式可得下式。

核化線性降維在上式中

。考慮到

,

,又可寫(xiě)為下式。所以式又可改寫(xiě)為下式。

核化線性降維由于函數(shù)

的具體形式是未知,為便于計(jì)算,在此引入核函數(shù)如下式。再將式

與上式代入

,化簡(jiǎn)得下式。其中

對(duì)應(yīng)的核矩陣,

,

。對(duì)

進(jìn)行特征值分解,即可完成主成分分析。對(duì)于新樣本

,其投影后的第

維坐標(biāo)為下式。上式中已經(jīng)經(jīng)過(guò)標(biāo)準(zhǔn)化,是的第個(gè)分量。核化線性降維使用scikit-learn庫(kù)中decomposition模塊的KernelPCA類可以創(chuàng)建KernelPCA模型,其基本語(yǔ)法格式如下。核化線性降維classsklearn.decomposition.KernelPCA(n_components=None,kernel=’linear’,gamma=None,degree=3,coef0=1,kernel_params=None,alpha=1.0,fit_inverse_transform=False,eigen_solver=’auto’,tol=0,max_iter=None,remove_zero_eig=False,random_state=None,copy_X=True,n_jobs=None)KernelPCA類的常用的參數(shù)及其說(shuō)明,如表所示。核化線性降維參數(shù)名稱說(shuō)明n_components接收int。表示所要保留的主成分個(gè)數(shù)n,即保留下來(lái)的特征個(gè)數(shù)n,若為None時(shí),則保留所有非零特征。默認(rèn)為Nonekernel接收str。表示使用的核函數(shù),可選“l(fā)inear”“poly”“rbf”“sigmoid”“cosine”“precomputed”。默認(rèn)為“l(fā)inear”gamma接收str。表示核函數(shù)指定為“rbf”“poly”“sigmoid”時(shí)所使用的系數(shù);取值為“auto”時(shí),系數(shù)為1/n_features。默認(rèn)為Nonedegree接收int。表示當(dāng)核函數(shù)是多項(xiàng)式時(shí),指定多項(xiàng)式的系數(shù),對(duì)于其他核函數(shù)無(wú)效。默認(rèn)為3KernelPCA類的常用的參數(shù)及其說(shuō)明,如表所示。核化線性降維參數(shù)名稱說(shuō)明eigen_solver接收str。表示求解特征值的算法。“auto”表示自動(dòng)選擇,“dense”表示使用dense特征值求解器,“arpack”表示使用arpack特征值求解器,用于特征數(shù)量遠(yuǎn)小于樣本數(shù)量的情形。默認(rèn)為“auto”tol接收int。表示arpock特征值求解器的收斂闕值,0表示自動(dòng)選擇闕值。默認(rèn)為0max_iter接收int。表示arpock特征值求解器的最大迭代次數(shù),None表示自動(dòng)選擇。默認(rèn)為Nonerandom_state接收int或RandomStateinstance。該參數(shù)為int類型時(shí),為隨機(jī)數(shù)生成器使用的種子;該參數(shù)為RandomStateinstance時(shí),為隨機(jī)數(shù)生成器;若為None時(shí),使用的隨機(jī)數(shù)生成器為np.random模塊使用的RandomState實(shí)例。默認(rèn)為None1降維目錄無(wú)監(jiān)督學(xué)習(xí)簡(jiǎn)介2聚類任務(wù)3在無(wú)監(jiān)督學(xué)習(xí)中,樣本的標(biāo)記信息是未知的,目標(biāo)是通過(guò)對(duì)無(wú)標(biāo)記樣本的學(xué)習(xí)來(lái)揭示數(shù)據(jù)的內(nèi)在性質(zhì)及規(guī)律,為進(jìn)一步的數(shù)據(jù)分析提供基礎(chǔ)。在此類學(xué)習(xí)任務(wù)中,應(yīng)用最廣泛的就是聚類。假定樣本集合

,其中

。聚類的目的就是將集合

按照一定規(guī)則劃分成若干子集

,且滿足

,且

。聚類得到的每個(gè)子集

稱為一個(gè)簇,若

,稱

的簇標(biāo)記,則聚類的結(jié)果可以用向量

表示。聚類的目的是把待分類數(shù)據(jù)按照一定規(guī)則分成若干類,這些類不是事先給定的,而是根據(jù)待分類數(shù)據(jù)的特征確定,且對(duì)類的數(shù)目和結(jié)構(gòu)不做任何假定。例如,市場(chǎng)分析人員通過(guò)聚類將客戶分成不同的客戶群,以購(gòu)買(mǎi)模式刻畫(huà)不同客戶群特征。聚類任務(wù)聚類性能度量指標(biāo)也稱為聚類有效性指標(biāo),用以衡量聚類結(jié)果的優(yōu)劣。另外,若已明確了性能度量指標(biāo),則也可將其作為聚類過(guò)程中的優(yōu)化目標(biāo),從而更好地提高聚類效果。當(dāng)通過(guò)一定的聚類算法得到聚類結(jié)果之后,通常認(rèn)為簇內(nèi)相似度高越好,而簇間的相似度低越好。聚合性能度量的指標(biāo),若是由某個(gè)參考模型給出,這類指標(biāo)稱為外部指標(biāo);若是通過(guò)直接考察聚類結(jié)果給出,這類指標(biāo)稱為內(nèi)部指標(biāo)。性能度量假設(shè)樣本集合

的聚類結(jié)果為

,

為簇標(biāo)記量;參考模型給出的聚類結(jié)果為

,

為簇標(biāo)記量。定義如下四個(gè)集合分別為:性能度量1.外部指標(biāo)若令

,

,

,

則可以給出常用的3個(gè)聚類性能度量外部指標(biāo)。Jaccard系數(shù)(JaccardCoeffient,JC),如下式。FM系數(shù)(FowlkesandMallowsIndex,F(xiàn)MI),如下式。

性能度量Rand指數(shù)(RandIndex,RI),如下式。

以上3個(gè)聚類性能度量外部指標(biāo)的計(jì)算結(jié)果在[0,1]區(qū)間內(nèi),值越大越好。性能度量假設(shè)樣本集合

的聚類結(jié)果為

。定義如下4個(gè)函數(shù):性能度量2.內(nèi)部指標(biāo)其中,為距離計(jì)算函數(shù),用于計(jì)算兩個(gè)樣本之間的距離,代表簇的中心點(diǎn)。顯然,對(duì)應(yīng)簇內(nèi)樣本間的平均距離,對(duì)應(yīng)簇內(nèi)樣本間的最遠(yuǎn)距離,對(duì)應(yīng)簇與簇最近樣本間的距離,對(duì)應(yīng)簇與簇中心點(diǎn)間的距離。基于式、、和

,可得到如下2個(gè)常用的聚類性能度量的內(nèi)部指標(biāo)。性能度量DB指數(shù)(Davies-BouldinIndex,DBI),如下式。Dunn指數(shù)(DunnIndex,DI),如下式。顯然,DBI的計(jì)算結(jié)果越小越表明聚類效果好,而DI則正相反。性能度量聚類分析的目的是把分類對(duì)象按照一定的規(guī)則分成若干類,同一類的對(duì)象具有某種相似性,而不同類的對(duì)象之間不相似。通常情況下,聚類結(jié)果的優(yōu)劣可以采用對(duì)象之間距離的遠(yuǎn)近來(lái)評(píng)價(jià)。在聚類分析中,給定樣本點(diǎn)

,

,常用的距離計(jì)算公式包括以下幾種。歐式距離(Euclideandistance),如下。距離計(jì)算曼哈頓距離(Manhattandistance),如下。切比雪夫距離(Chebyshevdistance),如下。閔文斯基距離(Minkowskidistance),如下。距離計(jì)算針對(duì)于無(wú)序?qū)傩裕瑹o(wú)若令

表示在屬性

上取值為

的樣本數(shù),

表示第

個(gè)樣本簇中在屬性

上取值為

的樣本數(shù),

為樣本簇個(gè)數(shù),則在屬性

上兩個(gè)離散值

的距離,可采用VDM距離,如下。距離計(jì)算原型聚類亦稱為“基于原型的聚類”。此類算法假設(shè)聚類結(jié)構(gòu)能夠通過(guò)一組原型刻畫(huà),在實(shí)踐操作中極為常用。通常情形下,算法先對(duì)原型進(jìn)行初始化,然后對(duì)原型進(jìn)行迭代更新求解。采用不同的原型表示、不同的求解方式,將產(chǎn)生不同的算法。下面重點(diǎn)介紹3種常用的原型聚類算法。原型聚類在K均值(K-Means)算法中,首先隨機(jī)初始化類的中心,然后將每個(gè)樣本點(diǎn)按照距離最近的原則劃歸為相應(yīng)的類內(nèi),更新類中心,直至樣本點(diǎn)到相應(yīng)類中心的距離平方和達(dá)到最小。假設(shè)樣本集合

,給定需劃分的簇?cái)?shù),聚類的結(jié)果為

。則K均值算法的優(yōu)化目標(biāo)的表達(dá)式如下式。式中,為簇的均值向量。原型聚類1.K均值算法雖然理論上可以窮舉所有聚類的結(jié)果,然后給出最后的聚類結(jié)果,但是該方法的計(jì)算復(fù)雜性過(guò)大而無(wú)法實(shí)際應(yīng)用。因此在實(shí)際中,對(duì)K均值算法采用貪婪策略,求得優(yōu)化目標(biāo)的近似解。K均值算法的基本過(guò)程,如圖所示。原型聚類K均值算法的具體步驟如下。(1)輸入樣本集合及聚類簇?cái)?shù)。(2)從樣本集中隨機(jī)選擇K個(gè)樣本點(diǎn)作為K個(gè)簇中心。(3)計(jì)算每個(gè)樣本點(diǎn)到每個(gè)簇中心的距離。(4)按照距離遠(yuǎn)近將每個(gè)樣本點(diǎn)歸入相應(yīng)的簇內(nèi)。(5)更新每個(gè)簇的中心。(6)重復(fù)步驟(2)~(5),直至簇中心不再變化。(7)輸出聚類結(jié)果。原型聚類學(xué)習(xí)向量量化(LearningVectorQuantization,LVQ)也是一種原型聚類算法。LVQ算法不同于K均值算法,該算法是假設(shè)樣本數(shù)據(jù)是帶有類別標(biāo)記的,通過(guò)監(jiān)督信息來(lái)輔助聚類。在該算法中,引入了原型向量的更新學(xué)習(xí)規(guī)則,根據(jù)每次迭代中樣本點(diǎn)與聚類原型的類標(biāo)記是否相同,針對(duì)聚類原型進(jìn)行更新,直到滿足終止條件。原型聚類2.學(xué)習(xí)向量量化假設(shè)樣本集合

,給定原型向量個(gè)數(shù)

,學(xué)習(xí)率

,預(yù)設(shè)標(biāo)記為

。給定一組初始聚類原型向量,在樣本集合中隨機(jī)選取樣本

,該樣本點(diǎn)最近的原型向量為

。LVQ按照如下的規(guī)則將原型

更新到原型

。原型聚類當(dāng)

時(shí),原型

更新為

,否則原型

更新為

。根據(jù)以上的原型更新規(guī)則,LVQ算法的基本過(guò)程如圖所示。原型聚類LVQ算法的具體步驟如下。(1)輸入樣本集合、預(yù)設(shè)類標(biāo)記及學(xué)習(xí)率。(2)從樣本集中隨機(jī)選擇K個(gè)樣本點(diǎn)作為K個(gè)原型。(3)隨機(jī)選擇一個(gè)樣本點(diǎn),計(jì)算該樣本點(diǎn)到k個(gè)原型的距離,并確定與之最近的原型。(4)更新選擇出的原型。(5)重復(fù)步驟(2)~(4)直至滿足停止條件(通常為最大迭代次數(shù))。(6)輸出原型向量。(7)計(jì)算每個(gè)樣本點(diǎn)到原型向量的距離,并歸類。(8)輸出聚類結(jié)果。原型聚類高斯混合(Mixture-of-Gaussian)聚類算法是通過(guò)高斯混合分布的概率模型,給出聚類結(jié)果的一種原型聚類算法。在高斯混合聚類算法中涉及3個(gè)主要參數(shù)的更新,以下作簡(jiǎn)要介紹。高斯混合分布的密度函數(shù)如下,該分布共由個(gè)混合成分組成,每個(gè)混合成分對(duì)應(yīng)一個(gè)高斯分布。上式中

,

分別為第

個(gè)高斯分布的均值向量與協(xié)方差矩陣,

為相應(yīng)的“混合系數(shù)”,且滿足

。原型聚類3.高斯混合聚類高斯混合聚類算法將輸入樣本假設(shè)為是由以上高斯混合分布密度生成的。若輸入樣本為

顯然,樣本

是由第

個(gè)個(gè)高斯分布生成,其先驗(yàn)概率為

,后驗(yàn)概率

可根據(jù)下式計(jì)算。原型聚類高斯混合聚類算法在迭代次數(shù)到達(dá)一定時(shí),將按照后驗(yàn)概率的大小將樣本點(diǎn)

劃分入相應(yīng)的簇中。根據(jù)極大似然原理,算法迭代過(guò)程中將不斷更新高斯混合分布的密度函數(shù)的參數(shù),更新為下式子。原型聚類更新為下式子。原型聚類根據(jù)以上高斯混合概率模型的更新規(guī)則,算法的基本過(guò)程如圖所示。原型聚類算法的具體步驟如下。(1)輸入樣本集合、初始化高斯混合分布的模型參數(shù)。(2)計(jì)算每個(gè)樣本點(diǎn)的后驗(yàn)概率。(3)更新每個(gè)多維正態(tài)分布的參數(shù)。(4)重復(fù)步驟(2)~(3),直至滿足停止條件(通常為最大迭代次數(shù))。(5)計(jì)算每個(gè)樣本點(diǎn)的后驗(yàn)概率。(6)將每個(gè)樣本點(diǎn)按照后驗(yàn)概率大小歸類。(7)輸出聚類結(jié)果。原型聚類基于密度的聚類算法簡(jiǎn)稱密度聚類算法,該類算法假設(shè)聚類結(jié)果能夠通過(guò)樣本分布的緊密程度確定。其基本思想是:以樣本點(diǎn)在空間分布上的稠密程度為依據(jù)進(jìn)行聚類,若區(qū)域中的樣本密度大于某個(gè)閾值,則把相應(yīng)的樣本點(diǎn)劃入與之相近的簇中。具有噪聲的基于密度聚類(Density-BasedSpatialClusteringofApplicationswithNoise,DBSCAN)是一種典型的密度聚類算法。該算法從樣本密度的角度進(jìn)行考察樣本之間的可聯(lián)接性,并由可聯(lián)接樣本不斷擴(kuò)展直到獲得最終的聚類結(jié)果。密度聚類對(duì)于樣本集

,給定距離參數(shù)

,數(shù)目參數(shù)

,任一樣本點(diǎn)

,定義以下幾個(gè)概念。(1)將集合

稱為樣本點(diǎn)的鄰域,若

,則稱

為一個(gè)核心對(duì)象。(2)若樣本點(diǎn)

屬于

鄰域,且

為一個(gè)核心對(duì)象,則稱

密度直達(dá)。(3)對(duì)于樣本點(diǎn)

和,若存在樣本點(diǎn)序列

,且

密度直達(dá),則稱

密度可達(dá)。(4)若存在樣本點(diǎn)

,使得樣本點(diǎn)

和均由

密度可達(dá),稱

密度相聯(lián)。密度聚類如果取距離參數(shù)

,數(shù)目參數(shù)

,下圖給出了以上概念的直觀表示。密度聚類在上圖中,對(duì)于當(dāng)前參數(shù)而言,例如樣本點(diǎn)

,

為核心對(duì)象,樣本點(diǎn)

不是核心對(duì)象;

密度直達(dá),并且

密度可達(dá)?;谝陨详P(guān)于樣本點(diǎn)之間可聯(lián)接性的定義,DBSCAN算法將簇

描述為滿足以下兩個(gè)條件的非空子集。(1),,則

密度相聯(lián)。(2),由

密度可達(dá),則

。密度聚類DBSCAN算法的基本過(guò)程,如圖所示。密度聚類DBSCAN算法的具體步驟如下。(1)輸入樣本集合、初始化距離參數(shù)

,數(shù)目參數(shù)

。(2)確定核心對(duì)象集合。(3)在核心對(duì)象集合中,隨機(jī)選擇一個(gè)核心對(duì)象作為種子。(4)依據(jù)簇劃分原則生成一個(gè)簇,并更新核心對(duì)象集合。(5)若核心對(duì)象集

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論