商業(yè)分析第7章 商業(yè)數(shù)據(jù)挖掘方法_第1頁(yè)
商業(yè)分析第7章 商業(yè)數(shù)據(jù)挖掘方法_第2頁(yè)
商業(yè)分析第7章 商業(yè)數(shù)據(jù)挖掘方法_第3頁(yè)
商業(yè)分析第7章 商業(yè)數(shù)據(jù)挖掘方法_第4頁(yè)
商業(yè)分析第7章 商業(yè)數(shù)據(jù)挖掘方法_第5頁(yè)
已閱讀5頁(yè),還剩60頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

--商業(yè)數(shù)據(jù)的分析、挖掘和應(yīng)用商業(yè)分析華東師范大學(xué)出版社第7章

商業(yè)數(shù)據(jù)挖掘方法

主要內(nèi)容數(shù)據(jù)挖掘概論決策樹(shù)關(guān)聯(lián)規(guī)那么聚類(lèi)分析7.1數(shù)據(jù)挖掘概論數(shù)據(jù)挖掘的產(chǎn)生數(shù)據(jù)挖掘的產(chǎn)生機(jī)器學(xué)習(xí)數(shù)據(jù)庫(kù)技術(shù)數(shù)理統(tǒng)計(jì)數(shù)據(jù)挖掘的概念數(shù)據(jù)挖掘任務(wù)主要有很多種,常見(jiàn)的有監(jiān)督學(xué)習(xí)〔或稱(chēng)為分類(lèi)學(xué)習(xí)〕、無(wú)監(jiān)督學(xué)習(xí)〔或稱(chēng)為聚類(lèi)分析〕、關(guān)聯(lián)規(guī)那么挖掘、預(yù)測(cè)、時(shí)序挖掘和偏差分析等等。分類(lèi)學(xué)習(xí)聚類(lèi)分析關(guān)聯(lián)規(guī)那么預(yù)測(cè)時(shí)序模式偏差分析一般來(lái)說(shuō),數(shù)據(jù)挖掘需要經(jīng)歷以下過(guò)程:確定挖掘?qū)ο蟆怖斫庋芯康臉I(yè)務(wù)領(lǐng)域〕、收集數(shù)據(jù)〔理解業(yè)務(wù)領(lǐng)域中的數(shù)據(jù)屬性〕、數(shù)據(jù)預(yù)處理〔對(duì)獲得的數(shù)據(jù)進(jìn)行清洗等各種處理〕、數(shù)據(jù)挖掘〔用數(shù)據(jù)挖掘算法和模型來(lái)進(jìn)行數(shù)據(jù)挖掘〕和信息解釋〔對(duì)得到的數(shù)據(jù)挖掘模型進(jìn)行評(píng)估,評(píng)估有效后再在實(shí)際環(huán)境中使用〕,在數(shù)據(jù)挖掘過(guò)程中如能配以可視化的方法,那么可大幅度提高效果。圖7-1.數(shù)據(jù)挖掘過(guò)程數(shù)據(jù)挖掘工具目前國(guó)際上廣泛應(yīng)用的數(shù)據(jù)挖掘工具有很多SASEnterpriseMiner

SPSS公司的Clementine〔被IBM公司收購(gòu)后改名為Modeler〕SQLSever中的數(shù)據(jù)挖掘模塊Waikato大學(xué)開(kāi)發(fā)的Weka平臺(tái)IBM公司的IntelligentMiner開(kāi)源軟件R語(yǔ)言 ……數(shù)據(jù)挖掘應(yīng)用數(shù)據(jù)挖掘應(yīng)用場(chǎng)景

數(shù)據(jù)挖掘在商業(yè)分析領(lǐng)域的一些應(yīng)用如下:金融領(lǐng)域營(yíng)銷(xiāo)領(lǐng)域電子政務(wù)電信領(lǐng)域工業(yè)生產(chǎn)生物和醫(yī)學(xué) ……數(shù)據(jù)挖掘應(yīng)用數(shù)據(jù)挖掘應(yīng)用場(chǎng)景——金融領(lǐng)域客戶(hù)信用等級(jí)評(píng)估客戶(hù)透支分析客戶(hù)利潤(rùn)分析客戶(hù)消費(fèi)行為分析客戶(hù)消費(fèi)異常行為分析 ……數(shù)據(jù)挖掘應(yīng)用7.2決策樹(shù)定義分類(lèi)與作用常用算法剪枝決策樹(shù)定義理解什么是決策樹(shù),決策樹(shù)有什么作用之前,我們先給出一個(gè)決策樹(shù)的根本結(jié)構(gòu)。它的形狀是一棵倒置的樹(shù),包括節(jié)點(diǎn)和分支。有三種類(lèi)型的節(jié)點(diǎn):父節(jié)點(diǎn)、內(nèi)部節(jié)點(diǎn)和葉節(jié)點(diǎn)。圖7-2.決策樹(shù)示意圖決策樹(shù)定義決策樹(shù)(DecisionTree)是一種以實(shí)例為根底的歸納學(xué)習(xí)算法,是一種從無(wú)次序、無(wú)規(guī)那么的訓(xùn)練樣本集中推理出決策樹(shù)表示形式的分類(lèi)規(guī)那么的方法,它提供了一種展示類(lèi)似在什么條件下會(huì)得到什么值這類(lèi)規(guī)那么的方法。工作過(guò)程:圖7-3.決策樹(shù)工作過(guò)程決策樹(shù)分類(lèi)與作用決策樹(shù)常用算法決策樹(shù)的兩大核心問(wèn)題:決策樹(shù)的生長(zhǎng):在樣本數(shù)據(jù)中選擇哪一個(gè)屬性作為根節(jié)點(diǎn),然后如何分支,如何選擇內(nèi)部節(jié)點(diǎn),直到生長(zhǎng)出樹(shù)葉,即到達(dá)葉節(jié)點(diǎn),這一系列過(guò)程可稱(chēng)為決策樹(shù)的分枝準(zhǔn)那么,即具體算法;決策樹(shù)的剪枝:防止決策樹(shù)生長(zhǎng)過(guò)于茂盛,無(wú)法適應(yīng)實(shí)際應(yīng)用的需要。決策樹(shù)常用算法決策樹(shù)常用算法:基于信息論的方法:ID系列算法C4.5C5.0最小GINI指標(biāo)的方法:

CART

SLIQSPRINT決策樹(shù)剪枝方法:預(yù)修剪(Pre-Pruning)后修剪(Post-Pruning)決策樹(shù)常用算法決策樹(shù)常用算法——ID3算法1986年,提出了ID3(IterativeDichotomizer)算法。該算法是以信息論為根底,運(yùn)用信息熵理論,采用自頂向下的貪心搜索算法。其核心思想是在決策樹(shù)中各級(jí)節(jié)點(diǎn)上選擇分裂屬性。用信息增益作為屬性選擇的標(biāo)準(zhǔn),使每個(gè)非葉子節(jié)點(diǎn)測(cè)試時(shí),能獲得關(guān)于被測(cè)試?yán)幼畲蟮念?lèi)別信息。使用該屬性將訓(xùn)練樣本集分成子集后,系統(tǒng)的信息熵值最小。決策樹(shù)常用算法決策樹(shù)常用算法——ID3算法信息熵與信息增益信息論之父申農(nóng)〔C.E.Shannonm〕把信息中排除了冗余后的平均信息量稱(chēng)為“信息熵〞,并給出了計(jì)算信息熵的數(shù)學(xué)表達(dá)式,他把信息熵定義為離散隨機(jī)事件的出現(xiàn)概率??偠灾?,信息熵的根本作用就是消除人們對(duì)事物的不確定性。ID3算法根據(jù)信息論,采用劃分后樣本集的不確定性作為衡量劃分好壞的標(biāo)準(zhǔn),用信息增益度量,信息增益值越大,不確定性越小。因此,算法在每個(gè)非葉子節(jié)點(diǎn)選擇信息增益最大的屬性作為分裂屬性。決策樹(shù)常用算法

決策樹(shù)常用算法

決策樹(shù)常用算法

24Example(ID3信息增益)n=16

n1=4

I(16,4)=-((4/16)*log2(4/16)+(12/16)*log2(12/16))=0.8113E(年齡)=(6/16)*I(6,1)+(10/16)*I(10,3)=0.7946Gain(年齡)=I(16,4)-E(年齡)=0.0167Gain(年齡)=0.0167Gain(性別)=0.0972Gain(家庭所得)=0.0177Max:作為第一個(gè)分類(lèi)依據(jù)圖7-4a.ID3工作過(guò)程示意圖a25Gain(家庭所得)=0.688Example(續(xù))I(7,3)=-((3/7)*log2(3/7)+(4/7)*log2(4/7))=0.9852Gain(年齡)=0.9852Gain(年齡)=0.2222I(9,1)=-((1/9)*log2(1/9)+(8/9)*log2(8/9))=0.5032Gain(家庭所得)=0.5032圖7-4b.ID3工作過(guò)程示意圖b26Example(end)ID3算法分類(lèi)規(guī)則IF性別=FemaleAND家庭所得=

低所得THEN購(gòu)買(mǎi)RV房車(chē)=否IF性別=FemaleAND家庭所得=

小康THEN購(gòu)買(mǎi)RV房車(chē)=否IF性別=FemaleAND家庭所得=

高所得THEN購(gòu)買(mǎi)RV房車(chē)=是IF性別=MaleAND年齡<35

THEN購(gòu)買(mǎi)RV房車(chē)=否IF性別=MaleAND年齡≧35

THEN購(gòu)買(mǎi)RV房車(chē)=是資料DecisionTree圖7-4c.ID3工作過(guò)程示意圖c決策樹(shù)常用算法決策樹(shù)常用算法決策樹(shù)常用算法——C5.0算法〔1〕信息增益率在1993年J.R.Quinlan提出信息增益率。信息增益率克服了在計(jì)算信息增益時(shí)偏向于選擇取值較多的屬性的缺點(diǎn),能夠在樹(shù)的生成中或完成后對(duì)樹(shù)進(jìn)行剪枝。信息增益率的計(jì)算公式如下式:其中,是屬性A的信息熵。決策樹(shù)常用算法圖7-5.基于Adaboost算法的人臉識(shí)別示意圖決策樹(shù)常用算法決策樹(shù)常用算法決策樹(shù)常用算法——CART算法Gini指標(biāo)Gini指標(biāo)主要是度量數(shù)據(jù)劃分或訓(xùn)練數(shù)據(jù)集D的不純度為主,系數(shù)值的屬性作為測(cè)試屬性,Gini值越小,說(shuō)明樣本的“純潔度〞越高。Gini指標(biāo)的計(jì)算公式如下式:其中Pi是類(lèi)別Ci在D中出現(xiàn)的概率。如果集合T分成兩局部N1andN2。那么此分割的Gini就是:提供最小Ginisplit就被選擇作為分割的標(biāo)準(zhǔn)(對(duì)于每個(gè)屬性都要經(jīng)過(guò)所有可以的分割方法)。Example(Gini)例:顧客數(shù)據(jù)庫(kù)/訓(xùn)練數(shù)據(jù)D例中,預(yù)測(cè)變量為buycomp,是否購(gòu)置電腦。Age\income\student\cred都為非連續(xù)變量。

對(duì)于離散性屬性,選擇該屬性產(chǎn)生最小的Gini指標(biāo)的子集作為它的分裂子集;對(duì)于連續(xù)值屬性,必須考慮每個(gè)可能的分裂點(diǎn),選擇某一分裂點(diǎn)導(dǎo)致最小的Gini指標(biāo)。樣本D中:10〔yes〕,4〔no〕D的不純度為按以下公式:為找出D中元組的分裂準(zhǔn)那么,需要計(jì)算每個(gè)屬性的Gini指標(biāo)。對(duì)age的二元分組可以有:取其中2個(gè)一組,剩下的一組同樣對(duì)income的二元分組可以有:取其中2個(gè)一組,剩下的一組Example(Gini)“income∈{low,medium},形成D1,8〔yes),2(no)“income∈{high},形成D2,2〔yes),2(no)例如:income屬性,假設(shè)考慮子集{low,medium},這將D中的元組二元?jiǎng)澐?。D中的元組10個(gè)元組滿(mǎn)足條件“income∈{low,medium},形成D1,其余的4組劃分到D2,income∈{high}.同樣可計(jì)算得出:決策樹(shù)常用算法決策樹(shù)常用算法決策樹(shù)剪枝方法——前剪枝前期剪枝(Forward-Pruning)是提前停止樹(shù)的構(gòu)造而對(duì)樹(shù)進(jìn)行剪枝。停止決策樹(shù)的生長(zhǎng)的方法大體上可以歸納為以下幾種:在決策樹(shù)到達(dá)一定高度的情況下就停止樹(shù)的生長(zhǎng);到達(dá)此結(jié)點(diǎn)的實(shí)例具有相同的特征向量,而不必一定屬于同一類(lèi),也可停止生長(zhǎng);到達(dá)此結(jié)點(diǎn)的實(shí)例個(gè)數(shù)小于某一個(gè)閾值也可停止樹(shù)的生長(zhǎng);計(jì)算每次擴(kuò)張對(duì)系統(tǒng)性能的增益,如果這個(gè)增益值小于某個(gè)閾值那么不進(jìn)行擴(kuò)展;如果在最好情況下的擴(kuò)展增益都小于閾值,即使有些葉子結(jié)點(diǎn)的實(shí)例不屬于同一類(lèi),也停止樹(shù)的增長(zhǎng)。決策樹(shù)常用算法決策樹(shù)剪枝方法——后剪枝后剪枝(Post-Pruning)首先構(gòu)造完整的決策樹(shù),允許決策樹(shù)過(guò)度擬合訓(xùn)練數(shù)據(jù),然后對(duì)那些置信度不夠的結(jié)點(diǎn)的子樹(shù)用葉子結(jié)點(diǎn)來(lái)替代,這個(gè)葉子結(jié)點(diǎn)所應(yīng)標(biāo)記的類(lèi)別為子樹(shù)中大多數(shù)實(shí)例所屬的類(lèi)別。ID3算法、C5.0算法和CART算法都是先建樹(shù)再剪枝,屬于后剪枝。后剪枝方法現(xiàn)在得到比較廣泛地使用。常用的后剪枝算法有:CCP(CostComplexityPruning)REP(ReducedErrorPruning)PEP(PessimisticErrorPruning)MEP(MinimumErrorPruning)7.3關(guān)聯(lián)規(guī)那么定義分類(lèi)算法原理常用算法7.3關(guān)聯(lián)規(guī)那么圖7-6.關(guān)聯(lián)規(guī)那么工作過(guò)程示意圖關(guān)聯(lián)規(guī)那么定義

關(guān)聯(lián)規(guī)那么定義

關(guān)聯(lián)規(guī)那么分類(lèi)⑴基于規(guī)那么中處理變量的類(lèi)型,關(guān)聯(lián)規(guī)那么可以分為布爾型和數(shù)值型。布爾型考慮的是項(xiàng)集的存在與否,而數(shù)值型那么是量化的關(guān)聯(lián)。⑵基于規(guī)那么中數(shù)據(jù)的抽象層次,可以分為單層關(guān)聯(lián)規(guī)那么和多層關(guān)聯(lián)規(guī)那么。⑶基于規(guī)那么中涉及到的數(shù)據(jù)維數(shù),可以分為單維關(guān)聯(lián)規(guī)那么和多維關(guān)聯(lián)規(guī)那么。關(guān)聯(lián)規(guī)那么算法原理原理關(guān)聯(lián)規(guī)那么的挖掘就是在事務(wù)數(shù)據(jù)庫(kù)D中找出具有用戶(hù)給定的最小支持度〔MinimumSupport,minsup〕和最小置信度(MinimumConfidence,minconf)的關(guān)聯(lián)規(guī)那么。如果項(xiàng)集的支持度超過(guò)用戶(hù)給定的最小支持度閾值,就稱(chēng)該項(xiàng)集是頻繁項(xiàng)集或大項(xiàng)集。步驟Step1根據(jù)最小支持度閾值找出數(shù)據(jù)集D中所有頻繁工程集;Step2根據(jù)頻繁工程集和最小置信度閾值產(chǎn)生所有關(guān)聯(lián)規(guī)那么。關(guān)聯(lián)規(guī)那么算法原理根本模型算法1算法2數(shù)據(jù)集規(guī)則用戶(hù)最小支持度最小置信度圖7-7.關(guān)聯(lián)規(guī)則挖掘的基本模型關(guān)聯(lián)規(guī)那么算法原理根本算法搜索算法分層算法(寬度優(yōu)先算法)深度優(yōu)先算法劃分算法抽樣算法關(guān)聯(lián)規(guī)那么常用算法Apriori算法——介紹Apriori算法是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)那么頻繁項(xiàng)集的算法。其核心是基于兩階段頻集思想的遞推算法。該關(guān)聯(lián)規(guī)那么在分類(lèi)上屬于單維、單層、布爾關(guān)聯(lián)規(guī)那么。在這里,所有支持度大于最小支持度的項(xiàng)集稱(chēng)為頻繁項(xiàng)集,簡(jiǎn)稱(chēng)頻集。Apriori算法——兩大缺點(diǎn)一是可能產(chǎn)生大量的候選集;二是可能需要重復(fù)掃描數(shù)據(jù)庫(kù)。關(guān)聯(lián)規(guī)那么常用算法Apriori算法——根本思路Apriori算法使用頻繁項(xiàng)集的先驗(yàn)知識(shí)〔稱(chēng)為逐層搜索的迭代方法〕,k項(xiàng)集用于探索(k+1)項(xiàng)集。首先,通過(guò)掃描事務(wù)〔交易〕記錄,找出所有的頻繁1項(xiàng)集,該集合記做L1,然后利用L1找頻繁2項(xiàng)集的集合L2,L2找L3,如此下去,直到不能再找到任何頻繁k項(xiàng)集。最后再在所有的頻繁集中找出強(qiáng)規(guī)那么,即產(chǎn)生用戶(hù)感興趣的關(guān)聯(lián)規(guī)那么。關(guān)聯(lián)規(guī)那么常用算法Apriori算法——剪枝步Ck是Lk的超集,也就是說(shuō),Ck的成員可能是也可能不是頻繁的。通過(guò)掃描所有的事務(wù)〔交易〕,確定CK中每個(gè)候選的計(jì)數(shù),判斷是否小于最小支持度計(jì)數(shù),如果不是,那么認(rèn)為該候選是頻繁的。為了壓縮Ck,可以利用Apriori性質(zhì):任一頻繁項(xiàng)集的所有非空子集也必須是頻繁的;反之,如果某個(gè)候選的非空子集不是頻繁的,那么該候選肯定不是頻繁的,從而可以將其從CK中刪除。關(guān)聯(lián)規(guī)那么常用算法Apriori算法——連接步為找出Lk〔所有的頻繁k項(xiàng)集的集合〕,通過(guò)將Lk-1〔所有的頻繁k-1項(xiàng)集的集合〕與自身連接產(chǎn)生候選k項(xiàng)集的集合。候選集合記作Ck。設(shè)l1和l2是Lk-1中的成員。記li[j]表示li中的第j項(xiàng)。假設(shè)Apriori算法對(duì)事務(wù)或項(xiàng)集中的項(xiàng)按字典次序排序,即對(duì)于〔k-1〕項(xiàng)集li,li[1]<li[2]<…<li[k-1]。將Lk-1與自身連接,如果(l1[1]=l2[1])&&(l1[2]=l2[2])&&…&&(l1[k-2]=l2[k-2])&&(l1[k-1]<l2[k-1]),那認(rèn)為l1和l2是可連接。連接l1和l2產(chǎn)生的結(jié)果是{l1[1],l1[2],…,l1[k-1],l2[k-1]}。關(guān)聯(lián)規(guī)那么常用算法Apriori算法——連接步為找出Lk〔所有的頻繁k項(xiàng)集的集合〕,通過(guò)將Lk-1〔所有的頻繁k-1項(xiàng)集的集合〕與自身連接產(chǎn)生候選k項(xiàng)集的集合。候選集合記作Ck。設(shè)l1和l2是Lk-1中的成員。記li[j]表示li中的第j項(xiàng)。假設(shè)Apriori算法對(duì)事務(wù)或項(xiàng)集中的項(xiàng)按字典次序排序,即對(duì)于〔k-1〕項(xiàng)集li,li[1]<li[2]<…<li[k-1]。將Lk-1與自身連接,如果(l1[1]=l2[1])&&(l1[2]=l2[2])&&…&&(l1[k-2]=l2[k-2])&&(l1[k-1]<l2[k-1]),那認(rèn)為l1和l2是可連接。連接l1和l2產(chǎn)生的結(jié)果是{l1[1],l1[2],…,l1[k-1],l2[k-1]}。關(guān)聯(lián)規(guī)那么常用算法Apriori算法——實(shí)例上表7-1某商場(chǎng)的交易記錄,共有9個(gè)事務(wù)。交易ID商品ID列表T100I1,I2,I5T200I2,I4T300I2,I3T400I1,I2,I4T500I1,I3T600I2,I3T700I1,I3T800I1,I2,I3,I5T900I1,I2,I3關(guān)聯(lián)規(guī)那么常用算法Apriori算法——實(shí)例利用Apriori算法求得所有的頻繁項(xiàng)集過(guò)程如以下圖:圖7-8.關(guān)聯(lián)規(guī)那么Apriori算法實(shí)例關(guān)聯(lián)規(guī)那么常用算法FP-Tree算法——介紹FP-Growth算法是韓家煒老師在2000年提出的關(guān)聯(lián)分析算法,它采取如下分治策略:將提供頻繁項(xiàng)集的數(shù)據(jù)庫(kù)壓縮到一棵頻繁模式樹(shù)〔FrequentPattern-growth,FP-Tree〕,但仍保存項(xiàng)集關(guān)聯(lián)信息。FP-Tree算法與Apriori算法的區(qū)別一是FP-Tree不產(chǎn)生候選集;二是FP-Tree只需要兩次遍歷數(shù)據(jù)庫(kù),大大提高了效率。關(guān)聯(lián)規(guī)那么常用算法FP-Tree算法——根本思路不斷地迭代FP-tree的構(gòu)造和投影過(guò)程。FP-Tree算法——具體描述①對(duì)于每個(gè)頻繁項(xiàng),構(gòu)造它的條件投影數(shù)據(jù)庫(kù)和投影FP-tree;②對(duì)每個(gè)新構(gòu)建的FP-tree重復(fù)這個(gè)過(guò)程,直到構(gòu)造的新FP-tree為空,或者只包含一條路徑;③當(dāng)構(gòu)造的FP-tree為空時(shí),其前綴即為頻繁模式;當(dāng)只包含一條路徑時(shí),通過(guò)枚舉所有可能組合并與此樹(shù)的前綴連接即可得到頻繁模式。7.4聚類(lèi)分析定義聚類(lèi)與分類(lèi)的區(qū)別應(yīng)用領(lǐng)域分類(lèi)常用算法異常檢測(cè)“物以類(lèi)聚,人以群分”聚類(lèi)分析定義俗話(huà)說(shuō):“物以類(lèi)聚,人以群分〞,在自然科學(xué)和社會(huì)科學(xué)中,存在著大量的聚類(lèi)問(wèn)題。所謂類(lèi),通俗地說(shuō),就是指相似的元素的集合。聚類(lèi)分析是對(duì)樣品或指標(biāo)進(jìn)行分類(lèi)的一種多元統(tǒng)計(jì)分析方法。聚類(lèi)分析的起源是分類(lèi)學(xué),但是與分類(lèi)不同的是,它要?jiǎng)澐值念?lèi)是未知的。聚類(lèi)就是將數(shù)據(jù)對(duì)象分組成為多個(gè)有意義或有用簇,在同一個(gè)簇中的對(duì)象具有較高的相似度,而不同的簇中的對(duì)象差異很大。聚類(lèi)就是把整個(gè)數(shù)據(jù)集分成不同的“簇〞,并且要使簇與簇之間的區(qū)別盡可能的大,而簇內(nèi)的數(shù)據(jù)的差異盡可能小。圖7-9.聚類(lèi)的理解聚類(lèi)與分類(lèi)的區(qū)別聚類(lèi)是一種無(wú)指導(dǎo)學(xué)習(xí)〔無(wú)監(jiān)督學(xué)習(xí)〕,即從樣本的特征向量出發(fā)研究通過(guò)某種算法將特征相似的樣本聚集在一起,從而到達(dá)區(qū)分具有不同特征樣本的目的。分類(lèi)那么是一種有指導(dǎo)學(xué)習(xí)〔有監(jiān)督學(xué)習(xí)〕,它具有先驗(yàn)知識(shí)〔分類(lèi)號(hào)〕,而無(wú)監(jiān)督聚類(lèi)學(xué)習(xí)并不具有這種先驗(yàn)知識(shí)。聚類(lèi)與分類(lèi)不同的是,它要?jiǎng)澐值念?lèi)是未知的。即聚類(lèi)是一種無(wú)指導(dǎo)學(xué)習(xí),它不依賴(lài)預(yù)先定義的類(lèi)和帶類(lèi)標(biāo)號(hào)的訓(xùn)練實(shí)例。由于這個(gè)原因,聚類(lèi)是觀察式學(xué)習(xí),而不是例如式學(xué)習(xí)。聚類(lèi)應(yīng)用領(lǐng)域聚類(lèi)算法分類(lèi)

聚類(lèi)算法分類(lèi)劃分方法(PartitioningMethods)k-meansk-medoids層次的方法(HierarchicalMethods)凝聚和分裂的層次聚類(lèi)BIRCH(ClusteringFeature)ROCK:分類(lèi)屬性層次聚類(lèi)算法CURE:使用代表點(diǎn)聚類(lèi)方法Chameleon:動(dòng)態(tài)建模層次聚類(lèi)基于網(wǎng)絡(luò)的方法(Grid-basedMethods)STING:統(tǒng)計(jì)信息網(wǎng)格聚類(lèi)WaveCluster:利用小波變換聚類(lèi)基于模型的方法(Model-basedMethods)聚類(lèi)常用算法K-Means算法——介紹K-Means算法,也稱(chēng)K-平均算法,用來(lái)根據(jù)樣本屬性值之間的相似度來(lái)對(duì)樣本進(jìn)行分組。其根本思路是,以K為參數(shù),把n個(gè)對(duì)象劃分為K個(gè)簇,

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論