版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第五章非監(jiān)督學習法2023/3/30中國礦業(yè)大學計算機科學與技術學院(20)1第一頁,共二十頁,2022年,8月28日2023/3/30中國礦業(yè)大學計算機科學與技術學院(20)2將數據按它們表現出的共性進行劃分有兩種基本方法,從大體上去把握這種不同方法的特點。在實用中C均值算法等為代表的動態(tài)聚類方法,以及分級聚類方法是常用的方法,要重點掌握。學習中要掌握從易而難的學習方法,如對數據相似度的度主方法最容易的是歐氏距離,然后再擴展到種種非歐氏距離的方法。第二頁,共二十頁,2022年,8月28日2023/3/30中國礦業(yè)大學計算機科學與技術學院(20)3本章重點1、什么叫非監(jiān)督學習方法,什么叫有監(jiān)督學習方法?2、非監(jiān)督學習方法主要的用途。3、非監(jiān)督學習方法的兩種基本處理方法:按分布密集程度劃分,與按相似度聚類劃分。4、按分布密度程度劃分的基本方法。5、動態(tài)聚類方法與分級聚類方法的概念。6、典型的動態(tài)聚類方法C-均值算法與ISODATA算法。7、使用非歐氏距離計算相似度的動態(tài)聚類方法。8、分級聚類方法。第三頁,共二十頁,2022年,8月28日2023/3/30中國礦業(yè)大學計算機科學與技術學院(20)41、非監(jiān)督學習方法與監(jiān)督學習方法概念的區(qū)別。2、按分布密集程度劃分的基本方法。本章難點3、動態(tài)聚類方法——迭代修正的概念。4、分級聚類方法。第四頁,共二十頁,2022年,8月28日2023/3/30中國礦業(yè)大學計算機科學與技術學院(20)51、掌握非監(jiān)督學習方法的概念、用途。本章學習目標2、了解非監(jiān)督學習方法對數據劃分有兩種基本方法。3、掌握以c-均值算法,ISODATA算法為代表的動態(tài)聚類方法。第五頁,共二十頁,2022年,8月28日2023/3/30中國礦業(yè)大學計算機科學與技術學院(20)61、如果給機器一維數據,機器能自動地找出其中存在的規(guī)律嗎?2、有人把非監(jiān)督學習方法叫無教師的學習,而把第二章、第三章討論的內容成為有監(jiān)督學習,又稱有教師的學習,你知道誰是教師嗎?教師的作用體現在哪里?課前思考題3、機器能總結數據中存在的哪些規(guī)律呢?第六頁,共二十頁,2022年,8月28日2023/3/30中國礦業(yè)大學計算機科學與技術學院(20)74、機器能總結天氣變化的規(guī)律,給出天氣預報嗎?5、機器能炒股嗎?6、非監(jiān)督學習方法與數據有關系嗎?第七頁,共二十頁,2022年,8月28日2023/3/30中國礦業(yè)大學計算機科學與技術學院(20)8§5.1引言有監(jiān)督的學習方法無監(jiān)督的學習方法人們日常生活中經常要觀察事物與分析事物,從中尋找其規(guī)律性,這就是非監(jiān)督學習方法要解決的問題。第八頁,共二十頁,2022年,8月28日2023/3/30中國礦業(yè)大學計算機科學與技術學院(20)9第九頁,共二十頁,2022年,8月28日2023/3/30中國礦業(yè)大學計算機科學與技術學院(20)10非監(jiān)督學習與有監(jiān)督學習方法的以下幾種不同點:1、有監(jiān)督學習方法必須要有訓練集與測試樣本。而非監(jiān)督學習沒有訓練集這一說,只有一組數據,在該組數據集內尋找規(guī)律。2、有監(jiān)督學習方法的目的就是識別事物,識別的結果表現在給待識別數據加上了標號。而非監(jiān)督學習方法只有要分析的數據集本身,預先沒有什么標號。第十頁,共二十頁,2022年,8月28日2023/3/30中國礦業(yè)大學計算機科學與技術學院(20)113、非監(jiān)督學習方法在尋找數據集中的規(guī)律性,這種規(guī)律性并不一定要達到劃分數據集的目的,也就是說不一定要“分類”。這一點是比有監(jiān)督學習方法的用途要廣泛。4、用非監(jiān)督學習方法分析數據集的主分量與用K-L變換計算數據集的主分量又有區(qū)別。應該說后者從方法上講不是一種學習方法。因此用K-L變換找主分量不屬于非監(jiān)督學習方法,即方法上不是。而通過學習逐漸找到規(guī)律性這體現了學習方法這一點。在人工神經元網絡中尋找主分量的方法屬于非監(jiān)督學習方法。第十一頁,共二十頁,2022年,8月28日2023/3/30中國礦業(yè)大學計算機科學與技術學院(20)12無監(jiān)督學習方法可以分成兩大類:1、基于概率密度函數估計的直接方法,指設法找到各類別在特征空間的分布參數再進行分類。2、基于樣本間相似性度量的間接聚類方法,其原理是設法定出不同類別的核心或初始類核,然后依據樣本與這些核心之間的相似性度量將樣本聚集成不同類別。第十二頁,共二十頁,2022年,8月28日2023/3/30中國礦業(yè)大學計算機科學與技術學院(20)13§5.2單峰子類的分離方法每個單峰區(qū)域則被看作不同的決策域。落在同一單峰區(qū)域的待分類樣本就被劃分成同一類,稱為單峰子類。單峰子集分離示意圖第十三頁,共二十頁,2022年,8月28日2023/3/30中國礦業(yè)大學計算機科學與技術學院(20)14§5.2.1投影法第十四頁,共二十頁,2022年,8月28日2023/3/30中國礦業(yè)大學計算機科學與技術學院(20)15使用投影方法有兩個組成部分(1)如何設計合適的坐標系統(tǒng)(2)如何設計直方圖第十五頁,共二十頁,2022年,8月28日2023/3/30中國礦業(yè)大學計算機科學與技術學院(20)16投影法的具體算法分以下幾個步驟:步驟1:計算樣本協方差矩陣具有最大特征值的特征向量Uj,把數據投影到Uj軸上。步驟2:用直方圖方法求數據的邊緣概率密度函數。步驟3:在直方圖的峰值間求最小值,在這些最小點作垂直于Uj的各個超平面把數據劃分為若干個聚類。步驟4:如果在這個軸上沒有這樣的最小值,則用下一個最大特征值對應的特征向量重復以上過程。步驟5:對每個得到的子集(聚類)重復上述過程,直到每個集不能再分(為單峰)為止。第十六頁,共二十頁,2022年,8月28日2023/3/30中國礦業(yè)大學計算機科學與技術學院(20)17§5.2.2基于對稱集性質的單峰子集分離法多維空間中給單峰區(qū)域下嚴格的定義是困難的。對稱子集的定義:如果考慮數據Γ,其中任何一對點y1和y2之間的距離用δ(y1,y2)
表示,該數據集Γ還具有以下性質:如果δ(yi,y0)≤δ(yj,y0),則p(yi)≥p(yj)則該個區(qū)域能確保是單峰區(qū)域,該數據集稱為對稱子集。對稱子集一定具有單峰性質,但是單峰子集卻不一定是對稱子集。第十七頁,共二十頁,2022年,8月28日2023/3/30中國礦業(yè)大學計算機科學與技術學院(20)18對稱子集的形成對稱子集的形成過程可以分成兩個步驟進行。第一步:先將整個特征空間的數據集形成一個按分布概率下降的序列第二步:利用S是概率分布下降序列的性質,通過逐個序列數據的依次分析,形成對稱子集。在形成對稱子集之前,需要定義另一種序列,稱為有序后選點序列Qi。第十八頁,共二十頁,2022年,8月28日2023/3/30中國礦業(yè)大學計算機科學與技術學院(20)19形成對稱子集的具體做法取S序列首項,由于它是下降序列首項,分布概率值為所有數據之最大值,產生第一個有序后選點序列Q1。(1)若yr+1≠ypj,j=1,…i,則yr+1開始一個新的序列Qr+1,(此處ypj表示Qj中當前候選點,式中的=號表示yr+1滿足Qj的定義要求)其相應的集合為Γi+1
(2)若yr+1=ypj,但yr+1≠ypk,k=1,…i,k≠j,則令yr+1∈Γj
(3)如有不止一個序列都滿足yr+1=ypj,則將所有滿足這個關系的序列yr+1編為一個子集I,并根據假設S序列的前r個元素已形成了i個有序后選點序列Qe,e=1,…i,將對應每個Qe的集合定義為Γe
,則S序列的(r+1)項元素按下列規(guī)則分配:求出yk所屬序列,把yr+1分配到該序列中,同時撤消子集I。第十九頁,共二十頁,2022年,8月28日2023/3/30中國礦業(yè)大學計算機科學與技術學院(20)20對稱子集的合并判斷所形成的每個對稱子集的首項是否是原分布中的局部極
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 米高蒲志2024薪酬報告(雇主)
- 2025年廣東佛山市禪城區(qū)盈浩排水建設管養(yǎng)有限公司招聘筆試參考題庫附帶答案詳解
- 2025年甘肅玉門市玉門關文化旅游開發(fā)有限責任公司招聘筆試參考題庫附帶答案詳解
- 2025年青島地鐵集團有限公司招聘筆試參考題庫含答案解析
- 2025年安徽天航機電有限公司招聘筆試參考題庫含答案解析
- 綠色簡約風我的家鄉(xiāng)揚州介紹
- 二零二五年度科技企業(yè)融資貨款擔保服務合同范本3篇
- 鋼鐵投資合同三篇
- 二零二五年度建筑工程施工合同違約責任限定3篇
- 二零二五年度房地產開發(fā)商與合伙人股權入股協議模板:入股合同6篇
- (完整版)鋼筋加工棚驗算
- 安徽省合肥市廬陽區(qū)2023-2024學年三年級上學期期末數學試卷
- 概念方案模板
- 西南交大畢業(yè)設計-地鐵車站主體結構設計
- 2024年山東傳媒職業(yè)學院高職單招(英語/數學/語文)筆試歷年參考題庫含答案解析
- 江蘇省南通市崇川區(qū)2023-2024學年三年級上學期期末語文試卷
- 華電行測題庫及答案2024
- crtd植入術護理查房
- 掃雪鏟冰安全教育培訓
- 人教版三年級下冊必讀書目《中國古代寓言故事》
- 涉密內網分級保護設計方案
評論
0/150
提交評論