![《機(jī)器學(xué)習(xí)原理與實(shí)戰(zhàn)》第5章-無(wú)監(jiān)督學(xué)習(xí)_第1頁(yè)](http://file4.renrendoc.com/view12/M04/3C/3A/wKhkGWcXFWuAHL5oAAEICofN6YM091.jpg)
![《機(jī)器學(xué)習(xí)原理與實(shí)戰(zhàn)》第5章-無(wú)監(jiān)督學(xué)習(xí)_第2頁(yè)](http://file4.renrendoc.com/view12/M04/3C/3A/wKhkGWcXFWuAHL5oAAEICofN6YM0912.jpg)
![《機(jī)器學(xué)習(xí)原理與實(shí)戰(zhàn)》第5章-無(wú)監(jiān)督學(xué)習(xí)_第3頁(yè)](http://file4.renrendoc.com/view12/M04/3C/3A/wKhkGWcXFWuAHL5oAAEICofN6YM0913.jpg)
![《機(jī)器學(xué)習(xí)原理與實(shí)戰(zhàn)》第5章-無(wú)監(jiān)督學(xué)習(xí)_第4頁(yè)](http://file4.renrendoc.com/view12/M04/3C/3A/wKhkGWcXFWuAHL5oAAEICofN6YM0914.jpg)
![《機(jī)器學(xué)習(xí)原理與實(shí)戰(zhàn)》第5章-無(wú)監(jiān)督學(xué)習(xí)_第5頁(yè)](http://file4.renrendoc.com/view12/M04/3C/3A/wKhkGWcXFWuAHL5oAAEICofN6YM0915.jpg)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
無(wú)監(jiān)督學(xué)習(xí)22-10月-241降維目錄無(wú)監(jiān)督學(xué)習(xí)簡(jiǎn)介2聚類任務(wù)3無(wú)監(jiān)督學(xué)習(xí)也屬于機(jī)器學(xué)習(xí),與有監(jiān)督學(xué)習(xí)最大的區(qū)別在于,無(wú)監(jiān)督學(xué)習(xí)輸入的數(shù)據(jù)集中沒(méi)有事先標(biāo)記好的歷史范例,需要算法自行從數(shù)據(jù)中尋找出潛在的規(guī)律與規(guī)則,自動(dòng)對(duì)輸入的數(shù)據(jù)進(jìn)行分類和分群。有監(jiān)督學(xué)習(xí)算法從數(shù)據(jù)集中尋找特定的模式用于特定的用途,而無(wú)監(jiān)督學(xué)習(xí)算法從數(shù)據(jù)集中揭露數(shù)據(jù)中潛在的性質(zhì)與規(guī)則,更為傾向于理解數(shù)據(jù)本身。無(wú)監(jiān)督學(xué)習(xí)簡(jiǎn)介無(wú)監(jiān)督學(xué)習(xí)的分類效果精度通常低于有監(jiān)督學(xué)習(xí),但也有一定的優(yōu)勢(shì)。在實(shí)際應(yīng)用中,給訓(xùn)練集中的數(shù)據(jù)貼上標(biāo)簽往往是一個(gè)非常耗費(fèi)時(shí)間的過(guò)程,并且要能為數(shù)據(jù)貼上標(biāo)簽還需要具備有先驗(yàn)知識(shí)。使用無(wú)監(jiān)督學(xué)習(xí)算法從龐大的樣本集合中找出不同的類別,由人工對(duì)這些類別進(jìn)行標(biāo)注后,再進(jìn)行后續(xù)處理是一種常見(jiàn)的應(yīng)用方法。無(wú)監(jiān)督學(xué)習(xí)算法也可以用于特征的篩選,之后再用于構(gòu)建分類器的訓(xùn)練。無(wú)監(jiān)督學(xué)習(xí)的一個(gè)典型應(yīng)用是聚類分析(ClusterAnalysis),在聚類過(guò)程中數(shù)據(jù)依據(jù)相似度自動(dòng)聚成一簇,這個(gè)過(guò)程不需要人工干預(yù)。除聚類外,常見(jiàn)的無(wú)監(jiān)督學(xué)習(xí)的應(yīng)用還有降維(DimensionalityReduce)。無(wú)監(jiān)督學(xué)習(xí)簡(jiǎn)介1降維目錄無(wú)監(jiān)督學(xué)習(xí)簡(jiǎn)介2聚類任務(wù)3在進(jìn)行樣本數(shù)據(jù)的聚類分析時(shí),有時(shí)涉及的變量或數(shù)據(jù)組屬性較多,這增加了算法計(jì)算的空間復(fù)雜度。降維處理是一種行之有效的降低數(shù)據(jù)分析的復(fù)雜性手段。其核心思想是,通過(guò)原來(lái)變量組或數(shù)據(jù)組屬性的線性或非線性重構(gòu)達(dá)到簡(jiǎn)化數(shù)據(jù)目的。常見(jiàn)的降維方法有:主成分分析(PrincipalComponentAnalysis,PCA)核線性變換降維PCA是一種通過(guò)降維技術(shù)把多個(gè)變量化為幾個(gè)新的綜合變量的統(tǒng)計(jì)分析方法。新的綜合變量是原始變量的線性組合,能夠反映原始變量的絕大部分信息,且新變量之間互不相關(guān)。設(shè)
為一個(gè)
維隨機(jī)向量,并假定二階矩陣存在,記均值向量為
,協(xié)方差矩陣為
,進(jìn)行如下所示的線性變換。
PCA上式有以下約束條件。
當(dāng)
時(shí),
,即
與
不相關(guān)
這里的
在本章中有其實(shí)際意義。設(shè)
為的特征值
,
為相應(yīng)的一組正交單位特征向量,
的主成分就是以
的特征向量為系數(shù)的線性組合,它們互不相關(guān),其方差為
的特征值。PCA當(dāng)
時(shí),
達(dá)到最大值,所求的
就是第一主成分。如果第一主成分所含信息不夠多,不足以代表原始的
個(gè)變量,則需要再考慮使用
。為了使
所含的信息與
不重疊,要求
。當(dāng)
時(shí),
達(dá)到最大值,所求的
就是第二主成分。類似的,可以再定義第三主成分,直至第
主成分。一般,
的第
主成分是指約束條件下的
。
記
,主成分向量
與原始向量
的關(guān)系為
,其中。
PCA第
主成分
在總方差
中的比例
稱為主成分
的貢獻(xiàn)率,第一主成分
的貢獻(xiàn)率最大,表明它解釋原始變量的能力最強(qiáng),y2~yp的解釋能力依次減弱。主成分分析的目的就是為了減少變量的個(gè)數(shù),因而一般不會(huì)使用所有
個(gè)主成分,忽略一些帶有較小方差的主成分不會(huì)給總方差帶來(lái)太大的影響。前
個(gè)主成分的貢獻(xiàn)率之和在總方差中的比例
稱為主成分
的累計(jì)貢獻(xiàn)率,它表明了
解釋原始變量的能力。通常取較小(相對(duì)于
)的
,可使得累計(jì)貢獻(xiàn)率達(dá)到一個(gè)較高的百分比(如80%~90%),此時(shí),
可代替
,從而達(dá)到降維的目的,而信息的損失卻不多。PCA使用scikit-learn庫(kù)中decomposition模塊的PCA類可以創(chuàng)建PCA模型,其基本語(yǔ)法格式如下。PCA類的常用的參數(shù)及其說(shuō)明,如表所示。PCAclasssklearn.decomposition.PCA(n_components=None,copy=True,whiten=False,svd_solver='auto',tol=0.0,iterated_power='auto',random_state=None)參數(shù)名稱說(shuō)明n_components接收int或str。表示所要保留的主成分個(gè)數(shù)n,即保留下來(lái)的特征個(gè)數(shù)n,賦值為int時(shí),表示降維的維度,如n_components=1,將把原始數(shù)據(jù)降到一個(gè)維度。賦值為str時(shí),表示降維的模式,如取值為'mle'時(shí),將自動(dòng)選取特征個(gè)數(shù)n,使得滿足所要求的方差百分比。默認(rèn)為NonePCA類的常用的參數(shù)及其說(shuō)明,如表所示。PCA參數(shù)名稱說(shuō)明copy接收bool。表示是否在運(yùn)行算法時(shí),將原始訓(xùn)練數(shù)據(jù)復(fù)制一份。若為T(mén)rue,則運(yùn)行后,原始訓(xùn)練數(shù)據(jù)的值不會(huì)有任何改變,因?yàn)槭窃谠紨?shù)據(jù)的副本上進(jìn)行運(yùn)算;若為False,則運(yùn)行后,原始訓(xùn)練數(shù)據(jù)的值會(huì)發(fā)生改變。默認(rèn)為T(mén)ruewhiten接收bool。表示是否白化,使得每個(gè)特征具有相同的方差。默認(rèn)為False采用線性降維方法降低數(shù)據(jù)維度時(shí),通常是在假設(shè)從高維空間到低維空間的函數(shù)映射是線性的條件下進(jìn)行的,然而在有些時(shí)候,高維空間是線性不可分的,需要找到一個(gè)非線性函數(shù)映射才能進(jìn)行恰當(dāng)?shù)慕稻S,這就是非線性降維。基于核變化的線性降維方法是非線性降維的常用方法,本節(jié)以核主成分分析(KernelizedPAC,KPAC)為例進(jìn)行簡(jiǎn)要說(shuō)明。在進(jìn)行數(shù)據(jù)分析的過(guò)程中,如果遇到線性不可分的情況,通??梢圆捎肒PAC方法進(jìn)行數(shù)據(jù)的主成分分析。KPAC通過(guò)將線性不可分的輸入數(shù)據(jù)映射到線性可分的高維特征空間中,然后在特征空間再以PCA降維,進(jìn)而實(shí)現(xiàn)數(shù)據(jù)的降維處理。核化線性降維假設(shè)樣本點(diǎn)
通過(guò)映射
映射到由確定的超平面之后,且經(jīng)過(guò)中心化處理以后的像為。在高維特征空間進(jìn)行數(shù)據(jù)的主成分分析,即求解下式。在上式中
為協(xié)方差矩陣。由上式可得下式。
核化線性降維在上式中
。考慮到
,
,又可寫(xiě)為下式。所以式又可改寫(xiě)為下式。
核化線性降維由于函數(shù)
的具體形式是未知,為便于計(jì)算,在此引入核函數(shù)如下式。再將式
與上式代入
,化簡(jiǎn)得下式。其中
為
對(duì)應(yīng)的核矩陣,
,
。對(duì)
進(jìn)行特征值分解,即可完成主成分分析。對(duì)于新樣本
,其投影后的第
維坐標(biāo)為下式。上式中已經(jīng)經(jīng)過(guò)標(biāo)準(zhǔn)化,是的第個(gè)分量。核化線性降維使用scikit-learn庫(kù)中decomposition模塊的KernelPCA類可以創(chuàng)建KernelPCA模型,其基本語(yǔ)法格式如下。核化線性降維classsklearn.decomposition.KernelPCA(n_components=None,kernel=’linear’,gamma=None,degree=3,coef0=1,kernel_params=None,alpha=1.0,fit_inverse_transform=False,eigen_solver=’auto’,tol=0,max_iter=None,remove_zero_eig=False,random_state=None,copy_X=True,n_jobs=None)KernelPCA類的常用的參數(shù)及其說(shuō)明,如表所示。核化線性降維參數(shù)名稱說(shuō)明n_components接收int。表示所要保留的主成分個(gè)數(shù)n,即保留下來(lái)的特征個(gè)數(shù)n,若為None時(shí),則保留所有非零特征。默認(rèn)為Nonekernel接收str。表示使用的核函數(shù),可選“l(fā)inear”“poly”“rbf”“sigmoid”“cosine”“precomputed”。默認(rèn)為“l(fā)inear”gamma接收str。表示核函數(shù)指定為“rbf”“poly”“sigmoid”時(shí)所使用的系數(shù);取值為“auto”時(shí),系數(shù)為1/n_features。默認(rèn)為Nonedegree接收int。表示當(dāng)核函數(shù)是多項(xiàng)式時(shí),指定多項(xiàng)式的系數(shù),對(duì)于其他核函數(shù)無(wú)效。默認(rèn)為3KernelPCA類的常用的參數(shù)及其說(shuō)明,如表所示。核化線性降維參數(shù)名稱說(shuō)明eigen_solver接收str。表示求解特征值的算法。“auto”表示自動(dòng)選擇,“dense”表示使用dense特征值求解器,“arpack”表示使用arpack特征值求解器,用于特征數(shù)量遠(yuǎn)小于樣本數(shù)量的情形。默認(rèn)為“auto”tol接收int。表示arpock特征值求解器的收斂闕值,0表示自動(dòng)選擇闕值。默認(rèn)為0max_iter接收int。表示arpock特征值求解器的最大迭代次數(shù),None表示自動(dòng)選擇。默認(rèn)為Nonerandom_state接收int或RandomStateinstance。該參數(shù)為int類型時(shí),為隨機(jī)數(shù)生成器使用的種子;該參數(shù)為RandomStateinstance時(shí),為隨機(jī)數(shù)生成器;若為None時(shí),使用的隨機(jī)數(shù)生成器為np.random模塊使用的RandomState實(shí)例。默認(rèn)為None1降維目錄無(wú)監(jiān)督學(xué)習(xí)簡(jiǎn)介2聚類任務(wù)3在無(wú)監(jiān)督學(xué)習(xí)中,樣本的標(biāo)記信息是未知的,目標(biāo)是通過(guò)對(duì)無(wú)標(biāo)記樣本的學(xué)習(xí)來(lái)揭示數(shù)據(jù)的內(nèi)在性質(zhì)及規(guī)律,為進(jìn)一步的數(shù)據(jù)分析提供基礎(chǔ)。在此類學(xué)習(xí)任務(wù)中,應(yīng)用最廣泛的就是聚類。假定樣本集合
,其中
。聚類的目的就是將集合
按照一定規(guī)則劃分成若干子集
,且滿足
,且
。聚類得到的每個(gè)子集
稱為一個(gè)簇,若
,稱
為
的簇標(biāo)記,則聚類的結(jié)果可以用向量
表示。聚類的目的是把待分類數(shù)據(jù)按照一定規(guī)則分成若干類,這些類不是事先給定的,而是根據(jù)待分類數(shù)據(jù)的特征確定,且對(duì)類的數(shù)目和結(jié)構(gòu)不做任何假定。例如,市場(chǎng)分析人員通過(guò)聚類將客戶分成不同的客戶群,以購(gòu)買(mǎi)模式刻畫(huà)不同客戶群特征。聚類任務(wù)聚類性能度量指標(biāo)也稱為聚類有效性指標(biāo),用以衡量聚類結(jié)果的優(yōu)劣。另外,若已明確了性能度量指標(biāo),則也可將其作為聚類過(guò)程中的優(yōu)化目標(biāo),從而更好地提高聚類效果。當(dāng)通過(guò)一定的聚類算法得到聚類結(jié)果之后,通常認(rèn)為簇內(nèi)相似度高越好,而簇間的相似度低越好。聚合性能度量的指標(biāo),若是由某個(gè)參考模型給出,這類指標(biāo)稱為外部指標(biāo);若是通過(guò)直接考察聚類結(jié)果給出,這類指標(biāo)稱為內(nèi)部指標(biāo)。性能度量假設(shè)樣本集合
的聚類結(jié)果為
,
為簇標(biāo)記量;參考模型給出的聚類結(jié)果為
,
為簇標(biāo)記量。定義如下四個(gè)集合分別為:性能度量1.外部指標(biāo)若令
,
,
,
則可以給出常用的3個(gè)聚類性能度量外部指標(biāo)。Jaccard系數(shù)(JaccardCoeffient,JC),如下式。FM系數(shù)(FowlkesandMallowsIndex,F(xiàn)MI),如下式。
性能度量Rand指數(shù)(RandIndex,RI),如下式。
以上3個(gè)聚類性能度量外部指標(biāo)的計(jì)算結(jié)果在[0,1]區(qū)間內(nèi),值越大越好。性能度量假設(shè)樣本集合
的聚類結(jié)果為
。定義如下4個(gè)函數(shù):性能度量2.內(nèi)部指標(biāo)其中,為距離計(jì)算函數(shù),用于計(jì)算兩個(gè)樣本之間的距離,代表簇的中心點(diǎn)。顯然,對(duì)應(yīng)簇內(nèi)樣本間的平均距離,對(duì)應(yīng)簇內(nèi)樣本間的最遠(yuǎn)距離,對(duì)應(yīng)簇與簇最近樣本間的距離,對(duì)應(yīng)簇與簇中心點(diǎn)間的距離。基于式、、和
,可得到如下2個(gè)常用的聚類性能度量的內(nèi)部指標(biāo)。性能度量DB指數(shù)(Davies-BouldinIndex,DBI),如下式。Dunn指數(shù)(DunnIndex,DI),如下式。顯然,DBI的計(jì)算結(jié)果越小越表明聚類效果好,而DI則正相反。性能度量聚類分析的目的是把分類對(duì)象按照一定的規(guī)則分成若干類,同一類的對(duì)象具有某種相似性,而不同類的對(duì)象之間不相似。通常情況下,聚類結(jié)果的優(yōu)劣可以采用對(duì)象之間距離的遠(yuǎn)近來(lái)評(píng)價(jià)。在聚類分析中,給定樣本點(diǎn)
,
,常用的距離計(jì)算公式包括以下幾種。歐式距離(Euclideandistance),如下。距離計(jì)算曼哈頓距離(Manhattandistance),如下。切比雪夫距離(Chebyshevdistance),如下。閔文斯基距離(Minkowskidistance),如下。距離計(jì)算針對(duì)于無(wú)序?qū)傩裕瑹o(wú)若令
表示在屬性
上取值為
的樣本數(shù),
表示第
個(gè)樣本簇中在屬性
上取值為
的樣本數(shù),
為樣本簇個(gè)數(shù),則在屬性
上兩個(gè)離散值
與
的距離,可采用VDM距離,如下。距離計(jì)算原型聚類亦稱為“基于原型的聚類”。此類算法假設(shè)聚類結(jié)構(gòu)能夠通過(guò)一組原型刻畫(huà),在實(shí)踐操作中極為常用。通常情形下,算法先對(duì)原型進(jìn)行初始化,然后對(duì)原型進(jìn)行迭代更新求解。采用不同的原型表示、不同的求解方式,將產(chǎn)生不同的算法。下面重點(diǎn)介紹3種常用的原型聚類算法。原型聚類在K均值(K-Means)算法中,首先隨機(jī)初始化類的中心,然后將每個(gè)樣本點(diǎn)按照距離最近的原則劃歸為相應(yīng)的類內(nèi),更新類中心,直至樣本點(diǎn)到相應(yīng)類中心的距離平方和達(dá)到最小。假設(shè)樣本集合
,給定需劃分的簇?cái)?shù),聚類的結(jié)果為
。則K均值算法的優(yōu)化目標(biāo)的表達(dá)式如下式。式中,為簇的均值向量。原型聚類1.K均值算法雖然理論上可以窮舉所有聚類的結(jié)果,然后給出最后的聚類結(jié)果,但是該方法的計(jì)算復(fù)雜性過(guò)大而無(wú)法實(shí)際應(yīng)用。因此在實(shí)際中,對(duì)K均值算法采用貪婪策略,求得優(yōu)化目標(biāo)的近似解。K均值算法的基本過(guò)程,如圖所示。原型聚類K均值算法的具體步驟如下。(1)輸入樣本集合及聚類簇?cái)?shù)。(2)從樣本集中隨機(jī)選擇K個(gè)樣本點(diǎn)作為K個(gè)簇中心。(3)計(jì)算每個(gè)樣本點(diǎn)到每個(gè)簇中心的距離。(4)按照距離遠(yuǎn)近將每個(gè)樣本點(diǎn)歸入相應(yīng)的簇內(nèi)。(5)更新每個(gè)簇的中心。(6)重復(fù)步驟(2)~(5),直至簇中心不再變化。(7)輸出聚類結(jié)果。原型聚類學(xué)習(xí)向量量化(LearningVectorQuantization,LVQ)也是一種原型聚類算法。LVQ算法不同于K均值算法,該算法是假設(shè)樣本數(shù)據(jù)是帶有類別標(biāo)記的,通過(guò)監(jiān)督信息來(lái)輔助聚類。在該算法中,引入了原型向量的更新學(xué)習(xí)規(guī)則,根據(jù)每次迭代中樣本點(diǎn)與聚類原型的類標(biāo)記是否相同,針對(duì)聚類原型進(jìn)行更新,直到滿足終止條件。原型聚類2.學(xué)習(xí)向量量化假設(shè)樣本集合
,給定原型向量個(gè)數(shù)
,學(xué)習(xí)率
,預(yù)設(shè)標(biāo)記為
。給定一組初始聚類原型向量,在樣本集合中隨機(jī)選取樣本
,該樣本點(diǎn)最近的原型向量為
。LVQ按照如下的規(guī)則將原型
更新到原型
。原型聚類當(dāng)
時(shí),原型
更新為
,否則原型
更新為
。根據(jù)以上的原型更新規(guī)則,LVQ算法的基本過(guò)程如圖所示。原型聚類LVQ算法的具體步驟如下。(1)輸入樣本集合、預(yù)設(shè)類標(biāo)記及學(xué)習(xí)率。(2)從樣本集中隨機(jī)選擇K個(gè)樣本點(diǎn)作為K個(gè)原型。(3)隨機(jī)選擇一個(gè)樣本點(diǎn),計(jì)算該樣本點(diǎn)到k個(gè)原型的距離,并確定與之最近的原型。(4)更新選擇出的原型。(5)重復(fù)步驟(2)~(4)直至滿足停止條件(通常為最大迭代次數(shù))。(6)輸出原型向量。(7)計(jì)算每個(gè)樣本點(diǎn)到原型向量的距離,并歸類。(8)輸出聚類結(jié)果。原型聚類高斯混合(Mixture-of-Gaussian)聚類算法是通過(guò)高斯混合分布的概率模型,給出聚類結(jié)果的一種原型聚類算法。在高斯混合聚類算法中涉及3個(gè)主要參數(shù)的更新,以下作簡(jiǎn)要介紹。高斯混合分布的密度函數(shù)如下,該分布共由個(gè)混合成分組成,每個(gè)混合成分對(duì)應(yīng)一個(gè)高斯分布。上式中
,
分別為第
個(gè)高斯分布的均值向量與協(xié)方差矩陣,
為相應(yīng)的“混合系數(shù)”,且滿足
。原型聚類3.高斯混合聚類高斯混合聚類算法將輸入樣本假設(shè)為是由以上高斯混合分布密度生成的。若輸入樣本為
顯然,樣本
是由第
個(gè)個(gè)高斯分布生成,其先驗(yàn)概率為
,后驗(yàn)概率
可根據(jù)下式計(jì)算。原型聚類高斯混合聚類算法在迭代次數(shù)到達(dá)一定時(shí),將按照后驗(yàn)概率的大小將樣本點(diǎn)
劃分入相應(yīng)的簇中。根據(jù)極大似然原理,算法迭代過(guò)程中將不斷更新高斯混合分布的密度函數(shù)的參數(shù),更新為下式子。原型聚類更新為下式子。原型聚類根據(jù)以上高斯混合概率模型的更新規(guī)則,算法的基本過(guò)程如圖所示。原型聚類算法的具體步驟如下。(1)輸入樣本集合、初始化高斯混合分布的模型參數(shù)。(2)計(jì)算每個(gè)樣本點(diǎn)的后驗(yàn)概率。(3)更新每個(gè)多維正態(tài)分布的參數(shù)。(4)重復(fù)步驟(2)~(3),直至滿足停止條件(通常為最大迭代次數(shù))。(5)計(jì)算每個(gè)樣本點(diǎn)的后驗(yàn)概率。(6)將每個(gè)樣本點(diǎn)按照后驗(yàn)概率大小歸類。(7)輸出聚類結(jié)果。原型聚類基于密度的聚類算法簡(jiǎn)稱密度聚類算法,該類算法假設(shè)聚類結(jié)果能夠通過(guò)樣本分布的緊密程度確定。其基本思想是:以樣本點(diǎn)在空間分布上的稠密程度為依據(jù)進(jìn)行聚類,若區(qū)域中的樣本密度大于某個(gè)閾值,則把相應(yīng)的樣本點(diǎn)劃入與之相近的簇中。具有噪聲的基于密度聚類(Density-BasedSpatialClusteringofApplicationswithNoise,DBSCAN)是一種典型的密度聚類算法。該算法從樣本密度的角度進(jìn)行考察樣本之間的可聯(lián)接性,并由可聯(lián)接樣本不斷擴(kuò)展直到獲得最終的聚類結(jié)果。密度聚類對(duì)于樣本集
,給定距離參數(shù)
,數(shù)目參數(shù)
,任一樣本點(diǎn)
,定義以下幾個(gè)概念。(1)將集合
稱為樣本點(diǎn)的鄰域,若
,則稱
為一個(gè)核心對(duì)象。(2)若樣本點(diǎn)
屬于
的
鄰域,且
為一個(gè)核心對(duì)象,則稱
由
密度直達(dá)。(3)對(duì)于樣本點(diǎn)
和,若存在樣本點(diǎn)序列
,且
由
密度直達(dá),則稱
由
密度可達(dá)。(4)若存在樣本點(diǎn)
,使得樣本點(diǎn)
和均由
密度可達(dá),稱
與
密度相聯(lián)。密度聚類如果取距離參數(shù)
,數(shù)目參數(shù)
,下圖給出了以上概念的直觀表示。密度聚類在上圖中,對(duì)于當(dāng)前參數(shù)而言,例如樣本點(diǎn)
,
,
為核心對(duì)象,樣本點(diǎn)
不是核心對(duì)象;
由
密度直達(dá),并且
由
密度可達(dá)?;谝陨详P(guān)于樣本點(diǎn)之間可聯(lián)接性的定義,DBSCAN算法將簇
描述為滿足以下兩個(gè)條件的非空子集。(1),,則
與
密度相聯(lián)。(2),由
密度可達(dá),則
。密度聚類DBSCAN算法的基本過(guò)程,如圖所示。密度聚類DBSCAN算法的具體步驟如下。(1)輸入樣本集合、初始化距離參數(shù)
,數(shù)目參數(shù)
。(2)確定核心對(duì)象集合。(3)在核心對(duì)象集合中,隨機(jī)選擇一個(gè)核心對(duì)象作為種子。(4)依據(jù)簇劃分原則生成一個(gè)簇,并更新核心對(duì)象集合。(5)若核心對(duì)象集
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年中考物理(安徽卷)真題詳細(xì)解讀及評(píng)析
- 地板磚購(gòu)銷合同模板
- 2025如果合同標(biāo)的不合格怎么辦反擔(dān)保
- 2025【合同范本】貿(mào)易中介合同范本
- 揚(yáng)帆起航追逐夢(mèng)想主題班會(huì)
- 2025年岳麓版選修四地理上冊(cè)月考試卷
- 2025鋼材購(gòu)銷合同
- 2025年人教A新版八年級(jí)地理上冊(cè)階段測(cè)試試卷
- 2024年空間探索與應(yīng)用項(xiàng)目投資合同
- 項(xiàng)目委托合同范本
- 韻達(dá)快遞員工勞務(wù)合同范本
- 血液透析水處理系統(tǒng)演示
- 附件:中鐵建工集團(tuán)項(xiàng)目精細(xì)化管理流程體系文件
- 小批量試制總結(jié)報(bào)告
- 2023年經(jīng)濟(jì)開(kāi)發(fā)區(qū)工作會(huì)議表態(tài)發(fā)言
- YY/T 0216-1995制藥機(jī)械產(chǎn)品型號(hào)編制方法
- 糖尿病足與周圍血管病01課件
- 2022年試行林木采伐管理方案
- 消防設(shè)施操作員報(bào)名承諾書(shū)
- 灌腸操作評(píng)分標(biāo)準(zhǔn)
- 企業(yè)年金基金管理機(jī)構(gòu)基本服務(wù)和收費(fèi)標(biāo)準(zhǔn)規(guī)范規(guī)范行業(yè)自律公約
評(píng)論
0/150
提交評(píng)論