




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
10.聚類與集成算法10.聚類與集成算法1聚類(Clustering)在“無監(jiān)督學習”任務(wù)中研究最多、應(yīng)用最廣目標:將數(shù)據(jù)樣本劃分為若干個通常不相交的“簇”(cluster)
既可以作為一個單獨過程(用于找尋數(shù)據(jù)內(nèi)在的分布結(jié)構(gòu)) 也可作為分類等其他學習任務(wù)的前驅(qū)過程聚類(Clustering)在“無監(jiān)督學習”任務(wù)中研究最多、2性能度量聚類性能度量,亦稱聚類“有效性指標”(validityindex)外部指標(externalindex)將聚類結(jié)果與某個“參考模型”(referencemodel)進行比較如Jaccard系數(shù),F(xiàn)M指數(shù),Rand指數(shù)內(nèi)部指標(internalindex)直接考察聚類結(jié)果而不用任何參考模型如DB指數(shù),Dunn指數(shù)等基本想法:?“簇內(nèi)相似度”(intra-clustersimilarity)高,且?“簇間相似度”(inter-clustersimilarity)低性能度量聚類性能度量,亦稱聚類“有效性指標”(validi3距離計算距離度量(distancemetric)需滿足的基本性質(zhì):常用距離形式:閔可夫斯基距離(Minkowskidistance)p=2:歐氏距離(Euclideandistance)p=1:曼哈頓距離(Manhattandistance)距離計算距離度量(distancemetric)需滿足4距離計算(續(xù))對無序(non-ordinal)屬性,可使用VDM(ValueDifferenceMetric)令表示屬性u上取值為a的樣本數(shù),表示在第i個樣本
簇中在屬性u上取值為a的樣本數(shù),k為樣本簇數(shù),則屬性u上兩個 離散值a與b之間的VDM距離為對混合屬性,可使用MinkovDM距離計算(續(xù))對無序(non-ordinal)屬性5必須記住聚類的“好壞”不存在絕對標準thegoodnessofclusteringdependsontheopinionoftheuser必須記住聚類的“好壞”不存在絕對標準thegoodness6故事一則聚類的故事:老師拿來蘋果和梨,讓小朋友分成兩份。小明把大蘋果大梨放一起,小個頭的放一起,老師點頭,恩,體量感。小芳把紅蘋果挑出來,剩下的放一起,老師點頭,顏色感。小武的結(jié)果?不明白。小武掏出眼鏡:最新款,能看到水果里有幾個籽,左邊這堆單數(shù),右邊雙數(shù)。老師很高興:新的聚類算法誕生了聚類也許是機器學習中“新算法”出現(xiàn)最多、最快的領(lǐng)域 總能找到一個新的“標準”,使以往算法對它無能為力故事一則聚類的故事:老師拿來蘋果和梨,讓小朋友分成兩份。小明7常見聚類方法
原型聚類????亦稱“基于原型的聚類”(prototype-basedclustering)假設(shè):聚類結(jié)構(gòu)能通過一組原型刻畫過程:先對原型初始化,然后對原型進行迭代更新求解代表:k均值聚類,學習向量量化(LVQ),高斯混合聚類密度聚類????亦稱“基于密度的聚類”(density-basedclustering)假設(shè):聚類結(jié)構(gòu)能通過樣本分布的緊密程度確定過程:從樣本密度的角度來考察樣本之間的可連接性,并基于可連接樣本不斷擴展聚類簇代表:DBSCAN,OPTICS,DENCLUE層次聚類(hierarchicalclustering)???假設(shè):能夠產(chǎn)生不同粒度的聚類結(jié)果過程:在不同層次對數(shù)據(jù)集進行劃分,從而形成樹形的聚類結(jié)構(gòu)代表:AGNES(自底向上),DIANA(自頂向下)常見聚類方法?亦稱“基于原型的聚類”(prototype-b8k-means每個簇以該簇中所有樣本點的“均值”表示
Step1:隨機選取k個樣本點作為簇中心Step2:將其他樣本點根據(jù)其與簇中心的距離,劃分給最近的簇Step3:更新各簇的均值向量,將其作為新的簇中心Step4:若所有簇中心未發(fā)生改變,則停止;否則執(zhí)行Step2若不以均值向量為原型,而是以距離它最近的樣本點為原型,則得到k-medoids算法k-means每個簇以該簇中所有樣本點的“均值”表示Step9高斯混合聚類(GausianMixtureClustering,GMM)?根據(jù)定義的先驗分布選擇高斯混合成分,其中
為選擇第i個混合成分的概率;?然后,根據(jù)被選擇的混合成分的概率密度函數(shù)進行采樣,從而生 成相應(yīng)的樣本采用概率模型來表達聚類原型
n維樣本空間中的隨機 向量x若服從高斯分布, 則其概率密度函數(shù)為假設(shè)樣本由下面這個高斯混合分布生成:
生成式模型高斯混合聚類(GausianMixtureCluster10高斯混合聚類(續(xù))樣本xj由第i個高斯混合成分生成的后驗概率為:簡記為參數(shù)估計可采用極大似然法,考慮最大化對數(shù)似然EM算法:?(E步)根據(jù)當前參數(shù)計算每個樣本屬于每個高斯成分的后驗概率?(M步)更新模型參數(shù)高斯混合聚類(續(xù))樣本xj由第i個高斯混合成分生成11集成學習(Ensemblelearning)集成學習通過構(gòu)建并結(jié)合多個學習器來完成學習任務(wù)…...Problem …...ProblemLearnerLearnerLearnerLearner同質(zhì)(homogeneous)集成:集成中只包含同種類型的“個體學習器”
相應(yīng)的學習算法稱為“基學習算法”(baselearningalgorithm)
個體學習器亦稱“基學習器”(baselearner)異質(zhì)(heterogeneous)集成:個體學習器由不同的學習算法生成
不存在“基學習算法”集成學習(Ensemblelearning)集成學習通過構(gòu)12WhyEnsemble?
集成的泛化性能通常顯著優(yōu)于單個學習器的泛化性能一組神經(jīng)網(wǎng)絡(luò)的平均性能
選擇最優(yōu)神經(jīng)網(wǎng)絡(luò)
兩種簡單的神經(jīng)網(wǎng)絡(luò) 集成方法
一個觀察:誤差(曲線越低越好)
[Hansen&Salamon,TPAMI90]WhyEnsemble?一組神經(jīng)網(wǎng)絡(luò)的平均性能 一個觀察:13令個體學習器“好而不同”如何得到好的集成?想獲勝,用集成現(xiàn)實各類機器學習、數(shù)據(jù)挖掘應(yīng)用中,廣泛使用集成學習技術(shù)令個體學習器“好而不同”如何得到好的集成?想獲勝,用集成現(xiàn)14很多成功的集成學習方法
序列化方法[Freund&Schapire,JCSS97][Friedman,AnnStat01][Demiriz,Bennett,Shawe-Taylor,MLJ06]
?AdaBoost
?GradientBoost ?LPBoost ?……并行化方法[Breiman,MLJ96][Breiman,MLJ01][Ho,TPAMI98]?Bagging?RandomForest?RandomSubspace?……很多成功的集成學習方法[Freund&Schapire,15Dataset1Dataset2DatasetTLearner1Learner2LearnerT…...…...…...byLearner1willplaymoreimportantrolesinthetrainingofLearner2weightedcombinationOriginaltrainingsetBoosting:Aflowchartillustration
traininginstancesthatarewronglypredictedDataset1Dataset2DatasetT16BaggingDataset0Dataset1Dataset2Datasetn…...…...…...bootstrapasetoflearnersgeneratemanydatasetsfromtheoriginaldatasetthroughbootstrapsampling(randomsamplingwithreplacement),thentrainanindividuallearnerperdatasetaveragingforregressiontheoutputistheaverageoutputoftheindividuallearnersvotingforclassificationtheoutputistheclasslabelreceivingthemostnumberofvotesLearner1Learner2LearnernBaggingDataset0Dataset1Data17學習器結(jié)合常用結(jié)合方法:投票法?絕對多數(shù)投票法?相對多數(shù)投票法?加權(quán)投票法平均法?簡單平均法?加權(quán)平均法學習法學習器結(jié)合常用結(jié)合方法:投票法平均法18StackingStacking19多樣性
“多樣性”(diversity)是集成學習的關(guān)鍵(error-ambiguitydecomposition):誤差-分歧分解
多樣性度量一般通過兩分類器的預(yù)測結(jié)果列聯(lián)表定義????不合度量(disagreementmeasure)相關(guān)系數(shù)(correlationcoefficient)Q-統(tǒng)計量(Q-statistic)κ-統(tǒng)計量(κ-statistic)?……κ-誤差圖每一對分類器作為圖中的一個點多樣性(error-ambiguitydecomposit20多樣性增強常用策略
數(shù)據(jù)樣本擾動
?例如Adaboost使用重要性采樣、Bagging使用自助采樣?注意:對“不穩(wěn)定基學習器”(如決策樹、神經(jīng)網(wǎng)絡(luò)等)很有效
不適用于“穩(wěn)定基學習器”(如線性分類器、SVM、樸素貝葉斯等)輸入屬性擾動?例如隨機子空間(RandomSubspace)輸出表示擾動
?例如輸出標記隨機翻轉(zhuǎn)、分類轉(zhuǎn)回歸、ECOC算法參數(shù)擾動多樣性增強常用策略?注意:對“不穩(wěn)定基學習器”(如決策樹、21“越多越好”?選擇性集成(selectiveensemble):給定一組個體學習器,從中選擇一部分來構(gòu)建集成,經(jīng)常會比使用所有個體學習器更好(更小的存儲/時間開銷,更強的泛化性能)ProblemLearner
…...Learner…...Learner集成修剪(ensemblepruning)[Margineantu&Dietterich,ICML’97]較早出現(xiàn),針對序列型集成
減小集成規(guī)模、降低泛化性能選擇性集成[Zhou,etal,AIJ02]稍晚,針對并行型集成,MCBTA(Manycouldbebetterthanall)定理
減小集成規(guī)模、增強泛化性能目前“集成修剪”與“選擇性集成
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 中考說明文相關(guān)知識點
- 如何加強供電所管理
- 技術(shù)類實習生合同范本
- 培訓出差報告
- 會員權(quán)益轉(zhuǎn)讓合同
- 彩妝創(chuàng)業(yè)財務(wù)分析報告
- 房地產(chǎn)拍賣合同示范
- 教學設(shè)計人物課件
- 6S管理在醫(yī)院藥品管理中的應(yīng)用
- 技術(shù)部經(jīng)理履新述職報告
- 命案防控講座課件內(nèi)容
- 2024年廣西職業(yè)院校技能大賽中職組《大數(shù)據(jù)應(yīng)用與服務(wù)》賽項競賽樣題
- T-CSCP 0019-2024 電網(wǎng)金屬設(shè)備防腐蝕運維診斷策略技術(shù)導則
- 部編版小學道德與法治五年級下冊《不甘屈辱-奮勇抗爭》第一課時課件
- 2024年全國統(tǒng)一高考英語試卷(新課標Ⅰ卷)含答案
- 2024年認證行業(yè)法律法規(guī)及認證基礎(chǔ)知識 CCAA年度確認 試題與答案
- 移交涉密載體簽收單(模板)
- 城鎮(zhèn)自來水廠運行維護質(zhì)量及安全技術(shù)標準規(guī)程(共72頁)
- 臺灣民法典目錄
- 質(zhì)量管理體系五種核心工具MSA教材
- 人教版八年級數(shù)學下冊第19章19.1.1變量與函數(shù)(第1課時)說課稿
評論
0/150
提交評論