哈工大模式識別課程期末總結(jié)_第1頁
哈工大模式識別課程期末總結(jié)_第2頁
哈工大模式識別課程期末總結(jié)_第3頁
哈工大模式識別課程期末總結(jié)_第4頁
哈工大模式識別課程期末總結(jié)_第5頁
已閱讀5頁,還剩118頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、哈爾濱工業(yè)大學哈爾濱工業(yè)大學21. 關(guān)于期末考試關(guān)于期末考試/考察考察2. 章節(jié)知識點整理章節(jié)知識點整理31. 1. 關(guān)于期末考試關(guān)于期末考試/ /考察考察41. 確認考試人員名單;2. 考試/考察方式 學位課:考試70%+報告30%;選修課:報告100%(不用考試)。3. 報告形式(見word文檔)4. 考試題目(100分)1簡答題(35分) 7*5=35分2推導題(8分)3證明題(8分) 4問答題(24分)3*8=24分5計算題(25分) 9+8+8=25分 (記得要帶尺子,鉛筆,橡皮擦記得要帶尺子,鉛筆,橡皮擦)【關(guān)于期末考試】52.2.章節(jié)知識點整理章節(jié)知識點整理哈爾濱工業(yè)大學哈爾濱工

2、業(yè)大學模式識別基本概念模式識別系統(tǒng)組成模式識別基本問題應用領(lǐng)域小結(jié)模式識別系統(tǒng)組成模式識別系統(tǒng)組成 【模式識別系統(tǒng)組成】1. 1. 信息的獲?。和ㄟ^測量、采樣、量化并用矩陣或向量表示。通常信息的獲取:通過測量、采樣、量化并用矩陣或向量表示。通常輸入對象的信息有三個類型:二維圖像(文字、指紋、地圖、照片輸入對象的信息有三個類型:二維圖像(文字、指紋、地圖、照片等)、一維波形(腦電圖、心電圖、機械震動波形等)、物理參量等)、一維波形(腦電圖、心電圖、機械震動波形等)、物理參量和邏輯值(體檢中的溫度、血化驗結(jié)果等)和邏輯值(體檢中的溫度、血化驗結(jié)果等)2. 2. 預處理:去除噪聲,加強有用的信息,并

3、對輸入測量儀器或其它預處理:去除噪聲,加強有用的信息,并對輸入測量儀器或其它因素造成的干擾進行處理。因素造成的干擾進行處理。3. 3. 特征提取與選擇:為了實現(xiàn)有效的識別分類,要對原始數(shù)據(jù)進行特征提取與選擇:為了實現(xiàn)有效的識別分類,要對原始數(shù)據(jù)進行變換得到最能反映分類本質(zhì)的特征,此過程為特征提取和選擇。變換得到最能反映分類本質(zhì)的特征,此過程為特征提取和選擇。4. 4. 分類決策:在特征空間中用統(tǒng)計方法把被識別對象歸為某一類。分類決策:在特征空間中用統(tǒng)計方法把被識別對象歸為某一類?;咀鞣ㄊ窃跇颖居柧毤A上確定某個判決規(guī)則,使按這種判決基本作法是在樣本訓練集基礎上確定某個判決規(guī)則,使按這種判決

4、規(guī)則對被識別對象進行分類所造成的錯誤識別率最小或引起的損失規(guī)則對被識別對象進行分類所造成的錯誤識別率最小或引起的損失最小。最小。5.5.后處理:針對決策采取相應的行動。后處理:針對決策采取相應的行動。信息信息獲取獲取預處理預處理特征提取特征提取與選擇與選擇分類分類決策決策后處理后處理模式識別系統(tǒng)組成框圖模式識別系統(tǒng)組成框圖哈爾濱工業(yè)大學哈爾濱工業(yè)大學概率論基礎知識概率論基礎知識貝葉斯決策基礎知識貝葉斯決策基礎知識基于最小錯誤率的貝葉斯決策基于最小錯誤率的貝葉斯決策基于最小風險的貝葉斯決策基于最小風險的貝葉斯決策貝葉斯分類器設計貝葉斯分類器設計正態(tài)分布時的統(tǒng)計決策正態(tài)分布時的統(tǒng)計決策小結(jié)小結(jié)貝葉

5、斯決策基礎知識貝葉斯決策基礎知識【貝葉斯決策基礎知識】貝葉斯決策理論貝葉斯決策理論 先驗概率: 后驗概率: 類條件概率: 貝葉斯公式:iPiPxiPx iiiPPPPxxx基于最小錯誤率的貝基于最小錯誤率的貝葉斯決策葉斯決策【基于最小錯誤率的貝葉斯決策】 1122()( )ln ( )ln( |)ln( |)ln()Ph xl xp xp xP 1122()( )ln ( )ln( |)ln( |)ln()Ph xl xp xp xP (4)1x2x【基于最小錯誤率的貝葉斯決策】 【基于最小錯誤率的貝葉斯決策】【基于最小風險的貝葉斯決策】概念概念 決策決策決策空間決策空間 前面所講的錯誤率達到

6、最小。在某些實際應用中,最小錯前面所講的錯誤率達到最小。在某些實際應用中,最小錯誤率的貝葉斯準則并不適合。以癌細胞識別為例,診斷中如誤率的貝葉斯準則并不適合。以癌細胞識別為例,診斷中如果把正常細胞判為癌癥細胞,固然會給病人精神造成傷害,果把正常細胞判為癌癥細胞,固然會給病人精神造成傷害,但傷害有限;相反地,若把癌癥細胞誤判為正常細胞,將會但傷害有限;相反地,若把癌癥細胞誤判為正常細胞,將會使早期的癌癥患者失去治療的最佳時機,造成驗證的后果。使早期的癌癥患者失去治療的最佳時機,造成驗證的后果?!净谧钚★L險的貝葉斯決策】數(shù)學描述數(shù)學描述 【基于最小風險的貝葉斯決策】期望風險:期望風險:條件期望損

7、失:條件期望損失:目的:期望風險最小化目的:期望風險最小化1(| )(,)(,) (| ),1,2,.,ciijijjjRxEPx ia ( ( )| ) ( )RRxx p x dx【基于最小風險的貝葉斯決策】最小風險貝葉斯決策規(guī)則最小風險貝葉斯決策規(guī)則: : 1,2,.,(| )min(| )kiiaRxRxka【基于最小風險的貝葉斯決策】算法步驟算法步驟: : 【基于最小風險的貝葉斯決策】例題例題2:2: 【基于最小風險的貝葉斯決策】【基于最小錯誤率的貝葉斯決策與最小風險的貝葉斯決策的關(guān)系】定理:定理:0-10-1風險風險 哈爾濱工業(yè)大學哈爾濱工業(yè)大學 引言引言參數(shù)估計參數(shù)估計正態(tài)分布的

8、參數(shù)估計正態(tài)分布的參數(shù)估計非參數(shù)估計非參數(shù)估計本章小結(jié)本章小結(jié)參數(shù)估計參數(shù)估計 【參數(shù)估計】 最大似然估計最大似然估計貝葉斯估計貝葉斯估計貝葉斯學習貝葉斯學習【最大似然估計】基本假設基本假設【最大似然估計】基本概念基本概念【最大似然估計】基本原理基本原理【最大似然估計】估計量估計量估計值估計值 【最大似然估計】一元參數(shù)一元參數(shù)【最大似然估計】多元參數(shù)多元參數(shù)【最大似然估計】12211,( | )0 xp x其它121212N211( ,.,|,),( )0Np x xxxl 其它21H( )Nln 121H( )1N221H( )1N 例子(梯度法不適合):不成功!不成功!12xxx12,xx

9、21,xx【貝葉斯估計】采用最小風險貝葉斯決策采用最小風險貝葉斯決策1(| )(,)(,) (| ),1,2,.,ciijijjjRxEPx ia 【貝葉斯估計】( , ) ( , )dERp xd dx ( | ) ( )( | ) ( )( | )( )( | ) ( )p xpp xppxp xp xpd( , )( | ) ( )( | ) ( )pxpx p xp xp( , ) ( | ) ( ) ( )( , ) ( | ) ( | ) ( )dddEEERpx p x d dxp xpx d dxRx p x dx ( | )( , ) ( | )Rxpx d 【貝葉斯估計】【

10、貝葉斯學習】【三種方法總結(jié)】【三種方法總結(jié)】哈爾濱工業(yè)大學哈爾濱工業(yè)大學線性判別函數(shù)的基本概念線性判別函數(shù)的基本概念Fisher線性判別準則函數(shù)線性判別準則函數(shù)感知準則函數(shù)感知準則函數(shù)最小平方誤差準則函數(shù)最小平方誤差準則函數(shù)多類問題多類問題4.1.1 概念的提出概念的提出【線性判別函數(shù)】定義定義4.1.1 概念的提出概念的提出【線性判別函數(shù)】分類決策分類決策4.1.1 概念的提出概念的提出【線性判別函數(shù)】分析分析4.1.1 概念的提出概念的提出【線性判別函數(shù)】分析分析說明:判別函數(shù)說明:判別函數(shù)g(x)正比于任意一正比于任意一點點x到超平面的代數(shù)距離。到超平面的代數(shù)距離。FisherFishe

11、r線性判別準則函數(shù)線性判別準則函數(shù)【 Fisher線性判別準則函數(shù)】概念概念 應用統(tǒng)計方法解決模式識別問題時,往往遇到維數(shù)問題(應用統(tǒng)計方法解決模式識別問題時,往往遇到維數(shù)問題(舉例:圖像識別),降維是有效方法??紤]到降舉例:圖像識別),降維是有效方法??紤]到降d d維空間的樣維空間的樣本投影到一條直線上,如果投影到任意一條直線上則可能造本投影到一條直線上,如果投影到任意一條直線上則可能造成本來有很好區(qū)分度的樣本在直線上線性不可分。因此,直成本來有很好區(qū)分度的樣本在直線上線性不可分。因此,直線的方向很關(guān)鍵。線的方向很關(guān)鍵?!?Fisher線性判別準則函數(shù)】基本思路基本思路 FisherFish

12、er判別的基本思想:希望投影后的一維數(shù)據(jù)滿足:判別的基本思想:希望投影后的一維數(shù)據(jù)滿足: 兩類之間的距離盡可能遠;兩類之間的距離盡可能遠; 每一類自身盡可能緊湊。每一類自身盡可能緊湊?!?Fisher線性判別準則函數(shù)】【 Fisher線性判別準則函數(shù)】【 Fisher線性判別準則函數(shù)】【 Fisher線性判別準則函數(shù)】哈爾濱工業(yè)大學哈爾濱工業(yè)大學基本概念基本概念基于距離的分段線性判別函數(shù)基于距離的分段線性判別函數(shù)分段線性分類器設計分段線性分類器設計二次判別函數(shù)二次判別函數(shù)程序設計方法程序設計方法實際應用系統(tǒng)設計研究報告實際應用系統(tǒng)設計研究報告哈爾濱工業(yè)大學哈爾濱工業(yè)大學1.1.引言引言2 2

13、類別可分離性判據(jù)類別可分離性判據(jù)3 3 特征選擇特征選擇4.4.特征提取特征提取60哈爾濱工業(yè)大學哈爾濱工業(yè)大學610.0.引言引言1.1.近鄰法原理及其決策規(guī)則近鄰法原理及其決策規(guī)則 2.2.快速搜索近鄰法快速搜索近鄰法3.3.剪輯近鄰法剪輯近鄰法4.4.壓縮近鄰法壓縮近鄰法621.1.近鄰法原理及其決策規(guī)則近鄰法原理及其決策規(guī)則 63【基本原理】 最小距離分類器是將各類訓練樣本劃分成若干子類,并最小距離分類器是將各類訓練樣本劃分成若干子類,并在每個子類中確定代表點,一般用子類的質(zhì)心或鄰近質(zhì)心的在每個子類中確定代表點,一般用子類的質(zhì)心或鄰近質(zhì)心的某一樣本為代表點。測試樣本的類別則以其與這些代

14、表點距某一樣本為代表點。測試樣本的類別則以其與這些代表點距離最近作決策。該法的缺點是所選擇的代表點并離最近作決策。該法的缺點是所選擇的代表點并不一定不一定能很能很好地代表各類好地代表各類, 后果將使錯誤率增加。后果將使錯誤率增加。 近鄰法的基本思想:近鄰法的基本思想: 增加代表點的數(shù)量有沒有可能獲得性能好的分類器呢增加代表點的數(shù)量有沒有可能獲得性能好的分類器呢?一種一種極端的情況是以全部訓練樣本作為極端的情況是以全部訓練樣本作為“代表點代表點”,計算測試,計算測試樣本與這些樣本與這些“代表點代表點”,即所有樣本的距離,并以最近鄰,即所有樣本的距離,并以最近鄰者的類別作為決策。此為近鄰法的基本思

15、想。者的類別作為決策。此為近鄰法的基本思想。 64【最近鄰法決策規(guī)則 】若若則則其中其中 表示是表示是 類的第類的第 個樣本。決策規(guī)則為個樣本。決策規(guī)則為: 定義:將與測試樣本最近鄰樣本類別作為決策的方法。定義:將與測試樣本最近鄰樣本類別作為決策的方法。 對一個對一個 類別問題,每類有類別問題,每類有 個樣本,個樣本, ,則,則第第 類類 的判別函數(shù)的判別函數(shù) 65 最近鄰法可以擴展成找測試樣本的最近鄰法可以擴展成找測試樣本的 個最近樣本作決策個最近樣本作決策依據(jù)的方法。其基本規(guī)則是,在所有依據(jù)的方法。其基本規(guī)則是,在所有 個樣本中找到與測試個樣本中找到與測試樣本的樣本的 個最近鄰者;個最近鄰

16、者; 其中各類別所占個數(shù)表示成其中各類別所占個數(shù)表示成 則決策為:則決策為:【 -近鄰法決策規(guī)則 】 注意:注意: 近鄰一般采用近鄰一般采用 為奇數(shù),跟投票表決一樣,避免因兩為奇數(shù),跟投票表決一樣,避免因兩種票數(shù)相等而難以決策。種票數(shù)相等而難以決策。 若若則則66【問題的提出】 上述討論中可以看出,盡管近鄰法有其優(yōu)良品質(zhì),但是它的上述討論中可以看出,盡管近鄰法有其優(yōu)良品質(zhì),但是它的一個嚴重弱點與問題是需要存儲全部訓練樣本,以及繁重的距一個嚴重弱點與問題是需要存儲全部訓練樣本,以及繁重的距離計算量。但以簡單的方式降低樣本數(shù)量,只能使其性能降低離計算量。但以簡單的方式降低樣本數(shù)量,只能使其性能降低

17、,這也是不希望的。為此要研究既能減少近鄰法計算量與存儲,這也是不希望的。為此要研究既能減少近鄰法計算量與存儲量,同時又不明顯降低其性能的一些改進算法。量,同時又不明顯降低其性能的一些改進算法。 改進算法大致基于兩種原理改進算法大致基于兩種原理。一種是對樣本集進行組織與。一種是對樣本集進行組織與整理,分群分層,盡可能將計算壓縮到在接近測試樣本鄰域的整理,分群分層,盡可能將計算壓縮到在接近測試樣本鄰域的小范圍內(nèi),避免與訓練樣本集中每個樣本進行距離計算。小范圍內(nèi),避免與訓練樣本集中每個樣本進行距離計算。 另一種原理則是在原有樣本集中挑選出對分類計算有效的另一種原理則是在原有樣本集中挑選出對分類計算有

18、效的樣本,使樣本總數(shù)合理地減少,以同時達到既減少計算量,又樣本,使樣本總數(shù)合理地減少,以同時達到既減少計算量,又減少存儲量的雙重效果。減少存儲量的雙重效果。672.2.快速搜索近鄰法快速搜索近鄰法683. 3. 剪輯近鄰法剪輯近鄰法694. 4. 壓縮近鄰法壓縮近鄰法70哈爾濱工業(yè)大學哈爾濱工業(yè)大學711.1.引言引言2 2 主成分分析主成分分析(PCA)(PCA)3 3 基于基于K-LK-L展開式的特征提取展開式的特征提取4.4.應用舉例應用舉例722.2.主成分分析主成分分析73 根據(jù)方差最大化原理,用一組新的、線性無關(guān)且相互正交的向量來表征原來數(shù)據(jù)矩陣的行(或列)。這組新向量(主成分)是

19、原始數(shù)據(jù)向量的線性組合。 通過對原始數(shù)據(jù)的平移、尺度伸縮平移、尺度伸縮(減均值減均值除方差除方差)和坐標旋轉(zhuǎn)坐標旋轉(zhuǎn)(特征分解特征分解),得到新的新的坐標系坐標系(特征向量特征向量)后,用原始數(shù)據(jù)在新坐標系下的投影投影(點積點積)來替代原始變量。 一一. . 主成分分析的基本原理主成分分析的基本原理74主成分分析的優(yōu)點主成分分析的優(yōu)點 它能找到表現(xiàn)原始數(shù)據(jù)陣最重要的變它能找到表現(xiàn)原始數(shù)據(jù)陣最重要的變量的組合量的組合 通過表示最大的方差,能有效地直觀通過表示最大的方差,能有效地直觀反映樣本之間的關(guān)系反映樣本之間的關(guān)系 能從最大的幾個主成分的得分來近似能從最大的幾個主成分的得分來近似反映原始的數(shù)據(jù)

20、陣的信息反映原始的數(shù)據(jù)陣的信息75圖像預處理圖像預處理 【人臉識別】76【人臉識別】77【人臉識別】78【人臉識別】79 基于基于PCA構(gòu)建特征臉空間是對圖像進行構(gòu)建特征臉空間是對圖像進行K-L變換,以去除變換,以去除樣本間的相關(guān)性,然后根據(jù)特征值的大小選擇特征向量。樣本間的相關(guān)性,然后根據(jù)特征值的大小選擇特征向量。 這種方法首先將人臉圖像映射為高維空間的向量,然后應這種方法首先將人臉圖像映射為高維空間的向量,然后應用基于統(tǒng)計的離散用基于統(tǒng)計的離散K-L變換方法,構(gòu)造一個各分量互不相變換方法,構(gòu)造一個各分量互不相關(guān)的特征空間,即特征臉空間,再將人臉圖像在高維空間關(guān)的特征空間,即特征臉空間,再將

21、人臉圖像在高維空間中的向量映射到特征臉空間,得到特征系數(shù)。中的向量映射到特征臉空間,得到特征系數(shù)。PCA構(gòu)建特征臉空間構(gòu)建特征臉空間哈爾濱工業(yè)大學哈爾濱工業(yè)大學1.1.基礎知識基礎知識2.2.前饋神經(jīng)網(wǎng)絡前饋神經(jīng)網(wǎng)絡3.3.反饋神經(jīng)網(wǎng)絡反饋神經(jīng)網(wǎng)絡4.4.自組織映射神經(jīng)網(wǎng)絡自組織映射神經(jīng)網(wǎng)絡神經(jīng)網(wǎng)絡的學習方法神經(jīng)網(wǎng)絡的學習方法u神經(jīng)網(wǎng)絡的學習:從環(huán)境中獲取知識并改進自身性能,主要指調(diào)節(jié)網(wǎng)絡參數(shù)使網(wǎng)絡達到某種度量,又稱為網(wǎng)絡的訓練。u學習方式:監(jiān)督學習非監(jiān)督學習再勵學習u學習規(guī)則:誤差糾正學習算法競爭學習算法4.自組織映射自組織映射自組織映射自組織映射Self-Organizing Map 亦稱

22、亦稱SOFM。 Kohonen 提出(提出(1980s)SOM SOM 用于非監(jiān)督模式識別用于非監(jiān)督模式識別自組織學習過程本身就是一個非監(jiān)督學習過程SOMA(自組織分析)基本思路: 用未知樣本集訓練SOM; 計算象密度圖; 根據(jù)象密度圖劃分聚類(把結(jié)點代表的小聚類合并)。特點: 對數(shù)據(jù)分布形狀少依賴性;可反映真實存在的聚類數(shù)目,尤其適合人機合作分析(高維數(shù)據(jù)的有效二維顯示)數(shù)學上待研究的問題多: 象密度與樣本分布密度之間的關(guān)系?拓撲保持特性?如何在SOM 平面上聚類?哈爾濱工業(yè)大學哈爾濱工業(yè)大學1. 1. 引言引言2. 2. 單峰子集(類)的分離方法單峰子集(類)的分離方法3. 3. 類別分離

23、的間接方法類別分離的間接方法4. 4. 分級聚類方法分級聚類方法監(jiān)督模式識別:(已知)樣本集 訓練(學習) 識別(分類)非監(jiān)督模式識別:(未知)樣本集 非監(jiān)督學習(聚類分析) 后處理【引言】通過尋找可能存在的分類來理解某一對象將復雜多樣的對象用有限典型來代表根據(jù):某種假設(對聚類應具有的性質(zhì)的認識)結(jié)果:聚類(clusters)屬中間結(jié)果(數(shù)學結(jié)果),需經(jīng)解釋賦予物理含義(后處理)應用:復雜系統(tǒng)未知特性分析(舉例)航天、航空、航海(具體闡述)直接方法:基于概率密度函數(shù)估計 相間接聚類方法:基于樣本間似性度量【動態(tài)聚類】多次迭代,逐步調(diào)整類別劃分,最終使某準則達到最優(yōu)。三個要點: 選某種距離作為

24、樣本相似性度量 定義某個準則函數(shù),用于評價聚類質(zhì)量。 初始分類方法及迭代算法l C- 均值聚類l ISODATA聚類常用算法:【動態(tài)聚類】C C 均值算法均值算法【動態(tài)聚類】C C 均值算法均值算法【動態(tài)聚類】C C 均值算法均值算法初始劃分:一般可先選代表點,再進行初始分類。代表點選擇方法:1. 經(jīng)驗選擇2. 隨機分成c 類,選各類重心作為代表點3. “密度”法。計算每個樣本的一定球形鄰域內(nèi)的樣本數(shù)作為“密度”,選“密度”最大的樣本點作為第一個代表點,在離它一定距離選最大“密度”點作為第二個代表點,依次類推。4. 用前c 個樣本點作為代表點。5. 用c 1聚類求c 個代表點:各類中心外加離它

25、們最遠的樣本點,從1 類開始?!緞討B(tài)聚類】C C 均值算法均值算法初始分類方法:1. 最近距離法。離哪個代表點近就歸入哪一類。2. 最近距離法歸類,但每次都重新計算該類代表點。3. 直接劃分初始分類:每一個樣本自成一類,第二個樣本若離它小于某距離閾值則歸入此類,否則建新類,4. 將特征歸一化,用樣本各特征之和作為初始分類依據(jù)。說明:初始劃分無一定之規(guī),多為啟發(fā)式方法。C 均值方法結(jié)果受初值影響,是局部最優(yōu)解?!緞討B(tài)聚類】C 均值聚類方法用于非監(jiān)督模式識別的問題:l 要求類別數(shù)已知;l 是最小方差劃分,并不一定能反映內(nèi)在分布;l 與初始劃分有關(guān),不保證全局最優(yōu)。C C 均值算法均值算法4. 分級

26、聚類方法分級聚類方法(Hierachical Clustering)【分級聚類方法 】 思想:從各類只有一個樣本點開始,逐級合并,每級只合并思想:從各類只有一個樣本點開始,逐級合并,每級只合并兩類,直到最后所有樣本都歸到一類。兩類,直到最后所有樣本都歸到一類。Hierarchical tree - dendrogram聚類過程中逐級考查類間相似度,依此決定類別數(shù)聚類過程中逐級考查類間相似度,依此決定類別數(shù)樹枝長度:反映結(jié)點/樹枝之間的相似度或距離樹枝位置:在不改變樹結(jié)構(gòu)情況下可以任意調(diào)整,調(diào)整方法需研究距離/相似性度量:多種選擇,如歐式距離、相關(guān)、City Block、【分級聚類方法 】距離(

27、相似性度量):樣本之間的度量聚類之間的度量算法(從底向上):(1)初始化,每個樣本形成一類(2)把相似性最大(距離最?。┑膬深惡喜ⅲ?)重復(2),直到所有樣本合并為兩類。【分級聚類方法 】【分級聚類方法 】哈爾濱工業(yè)大學哈爾濱工業(yè)大學 1. 引言引言 2. 模糊集的基本知識模糊集的基本知識 3. 模糊特征和模糊分類模糊特征和模糊分類 4. 特征的模糊評價特征的模糊評價 5. 模糊聚類方法模糊聚類方法 6. 模糊模糊k 近鄰分類器近鄰分類器【模糊C 均值方法(FCM)】C C 均值算法均值算法【模糊C 均值】【模糊C 均值】【模糊C 均值】模糊模糊C 均值算法:均值算法:【改進的模糊C 均值算

28、法】模糊模糊C 均值算法的一個缺點:均值算法的一個缺點:【改進的模糊C 均值算法】【改進的模糊C 均值算法】特點特點AFC 有更好的魯棒,且對給定的聚類數(shù)目不十分敏感。但有時可能會有更好的魯棒,且對給定的聚類數(shù)目不十分敏感。但有時可能會出現(xiàn)一個類中只包含一個樣本的情況,可通過在距離計算中引入非線出現(xiàn)一個類中只包含一個樣本的情況,可通過在距離計算中引入非線性,使之不會小于革值來改進。性,使之不會小于革值來改進。 AFC、FCM 與與C 均值一樣,依賴于初值。均值一樣,依賴于初值。實驗效果舉例實驗效果舉例例一:類別重迭及類別不明顯情況例一:類別重迭及類別不明顯情況+:C 圴圴值值:FCMO:AFC

29、【改進的模糊C 均值算法】正確聚類(C=4)CM聚類(C=3)FCM聚類(C=3)AFC聚類(C=3)例二:給定類別數(shù)與實際類別數(shù)不一致的情況例二:給定類別數(shù)與實際類別數(shù)不一致的情況109 改進的模糊C均值算法 改進的模糊C均值算法較前面提到的模糊C均值算法具有更好的魯棒性,它不但可以在有孤立樣本存在的情況下得到較好的聚類效果,而且可以放松隸屬度條件,而且因為放松了隸屬度條件,使最終聚類結(jié)果對預先確定的聚類數(shù)目不十分敏感。 與確定性C均值算法和模糊C均值算法一樣,改進的模糊C均值算法仍然對聚類中心的初值十分敏感,為了得到較好的結(jié)果,可以用確定性C均值算法或模糊C均值算法的結(jié)果作為初值。【改進的

30、模糊C 均值算法】哈爾濱工業(yè)大學哈爾濱工業(yè)大學1. 1. 統(tǒng)計學習理論統(tǒng)計學習理論2. 2. 支持向量機支持向量機3. 3. 核方法核方法2. 支持向量機支持向量機 根據(jù)統(tǒng)計學習理論,學習機器的實際風險由經(jīng)驗風險值和置根據(jù)統(tǒng)計學習理論,學習機器的實際風險由經(jīng)驗風險值和置信范圍值兩部分組成。而基于經(jīng)驗風險最小化準則的學習方信范圍值兩部分組成。而基于經(jīng)驗風險最小化準則的學習方法只強調(diào)了訓練樣本的經(jīng)驗風險最小誤差,沒有最小化置信法只強調(diào)了訓練樣本的經(jīng)驗風險最小誤差,沒有最小化置信范圍值,因此其推廣能力較差。范圍值,因此其推廣能力較差?!净靖拍睢?Vapnik 與與1995年提出的支持向量機(年提出

31、的支持向量機(Support Vector Machine, SVM)以訓練誤差作為優(yōu)化問題的約束條件,以)以訓練誤差作為優(yōu)化問題的約束條件,以置信范圍值最小化作為優(yōu)化目標,即置信范圍值最小化作為優(yōu)化目標,即SVM是一種基于結(jié)構(gòu)是一種基于結(jié)構(gòu)風險最小化準則的學習方法,其推廣能力明顯優(yōu)于一些傳統(tǒng)風險最小化準則的學習方法,其推廣能力明顯優(yōu)于一些傳統(tǒng)的學習方法。的學習方法?!净靖拍睢?由于由于SVM 的求解最后轉(zhuǎn)化成二次規(guī)劃問題的求的求解最后轉(zhuǎn)化成二次規(guī)劃問題的求解,因此解,因此SVM 的解是全局唯一的最優(yōu)解的解是全局唯一的最優(yōu)解 SVM在解決在解決小樣本、非線性及高維小樣本、非線性及高維模式識別問題模式識別問題中表現(xiàn)出許多特有的優(yōu)勢,并能夠推廣應用到函中表現(xiàn)出許多特有的優(yōu)勢,并能夠推廣應用到函數(shù)擬合等其他機器學習問題中數(shù)擬合等其他機器學習問題中 Joachims 最近采用最近采用SVM在在Reuters-21578來進行來進行文本分類,并聲稱它比當前發(fā)表的其他方法都好文本分類,并聲稱它比當前發(fā)表的其他方法都好【基本概念】 由于由于SVM 的求解最后轉(zhuǎn)化成二次規(guī)劃問題的求解,因此的求解最后轉(zhuǎn)化成二次規(guī)劃問題的求解,因此SVM 的解是全局唯一的最優(yōu)解的解是全局唯一的最優(yōu)解 SVM在解決小樣本、非線性及高維模式識別問題中表現(xiàn)在解決小樣本、非線性及高維模式識別問題中表現(xiàn)出許多特有的優(yōu)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論