機器學習原理與應用課件 第8章 支持向量機_第1頁
機器學習原理與應用課件 第8章 支持向量機_第2頁
機器學習原理與應用課件 第8章 支持向量機_第3頁
機器學習原理與應用課件 第8章 支持向量機_第4頁
機器學習原理與應用課件 第8章 支持向量機_第5頁
已閱讀5頁,還剩26頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第8章 支持向量機1學習目標理解SVM的基本原理掌握Scikit-learn庫實現(xiàn)SVM分類的基本方法122目錄頁支持向量機38.1基本原理8.2應用實例引言支持向量機(SupportVectorMachine)由弗拉基米爾.瓦普尼克(VladimirNaumovichVapnik)在1955年提出,其基本思想在于根據(jù)最大化樣本分類間隔準則對兩類樣本進行線性分類,同時可利用特征空間變換、兩類分類器組合等方式較好地解決樣本非線性可分、多類分類等問題,具有較強的泛化能力。此外,支持向量機在樣本較少的情況仍然可表現(xiàn)出較好的性能,在許多場合中可較好地彌補以數(shù)據(jù)驅動為特點的深度學習方法的不足。支持向量機不僅可以用于分類問題,還可以用于回歸問題,具有泛化性能好、適合小樣本和高維特征等特點,支持向量機是深度學習技術出現(xiàn)之前最好的分類算法,在過去20多年里被廣泛應用于數(shù)據(jù)分析和模式識別的各個領域。48.1基本原理感知機(Perceptron)算法由弗蘭克.羅森布拉特(FrankRosenblatt)在1958年提出,具有簡單而易于實現(xiàn)的優(yōu)點,是神經網絡與支持向量機的基礎,其前提是數(shù)據(jù)集線性可分。感知機是根據(jù)輸入實例的特征向量x對其進行二類分類的線性分類模型,其目標是求得一個能夠將訓練集正實例點和負實例點完全正確分開的邊界,稱為分離超平面。58.1基本原理

68.1基本原理感知機采用的最優(yōu)化算法是隨機梯度下降法,感知機學習算法分為原始形式和對偶形式,算法不僅簡單且易于實現(xiàn),其思想是先任意選取一個超平面,然后通過梯度下降法不斷極小化目標函數(shù)。一次隨機選取一個誤分類點使其梯度下降。78.1.1數(shù)學模型支持向量機旨在確定一條最優(yōu)直線以最大化樣本邊界線之間距離(即分類間隔)的原則將兩類樣本正確分開(即兩類樣本的邊界線距離樣本分類界線盡可能遠),其中,每類樣本中位于相應邊界線上的樣本或距離樣本分類界線最近的樣本稱為“支持向量”,其用于確定兩類樣本之間的距離及最優(yōu)樣本分類界線。8(a)多分界線(b)樣本距離最大分界線(c)非樣本距離最大分界線8.1.1數(shù)學模型

98.1.1數(shù)學模型

108.1.1數(shù)學模型

118.1.1數(shù)學模型

128.1.2核函數(shù)

138.1.2核函數(shù)14圖

8-2低維特征空間向高維特征空間的非線性映射

8.1.2核函數(shù)

15

8.1.2核函數(shù)

16

8.1.2核函數(shù)

17

8.1.2核函數(shù)

18

8.1.2核函數(shù)在選取核函數(shù)時,通常采用的方法包括:①針對問題特點利用專家知識選擇核函數(shù)。②采用交叉驗證的方法測試不同核函數(shù)的精度以確定最優(yōu)者。③通過組合不同核函數(shù)的方式提高SVM的性能。198.2應用實例Scikit-learn庫包含SVC、NuSVC與LinearSVC三個分類模塊(SVC與NuSVC基本類似,其主要區(qū)別在于損失度量方式不同,而LinearSVC僅用于線性可分樣本)與SVR、NuSVR與LinearSVR三個回歸模塊(其區(qū)分與SVC、NuSVC與LinearSVC類似),其導入方式如下:fromsklearn.svmimportSVCfromsklearn.svmimportSVR208.2應用實例函數(shù)原型如下:SVC(C=1.0,kernel='rbf',degree=3,gamma='auto',coef0=0.0,shrinking=True,probability=False,tol=0.001,cache_size=200,class_weight=None,verbose=False,max_iter=-1,decision_function_shape='ovr',random_state=None)SVR(kernel='rbf',degree=3,gamma='auto_deprecated',coef0=0.0,tol=0.001,C=1.0,epsilon=0.1,shrinking=True,cache_size=200,verbose=False,max_iter=-1)218.2.1參數(shù)分析在利用SVM解決具體分類或回歸問題時,通過需要根據(jù)相關數(shù)據(jù)的分布形態(tài)選擇合理的核函數(shù)、C與gamma值等參數(shù)并對相關結果進行可視化,進而提高分類或回歸問題求解的可靠性與精度。(1)問題描述首先構造兩類樣本,然后利用SVM對其進行分類與可視化,具體要求如下:①繪制不同核函數(shù)、C與gamma值時相應的分類界線。②顯示樣本分類結果及相應的支持向量。(2)編程實現(xiàn)見8.2.1參數(shù)分析.py22

8.2.1參數(shù)分析(3)結果分析23(d)C=10\kernel='rbf'\gamma='auto'(e)C=10\kernel='rbf'\gamma=10(f)C=10\kernel='rbf'\gamma=15(a)C=1\kernel='linear'(b)C=10\kernel='linear'(c)C=1\kernel='rbf'\gamma='auto'8.2.2在線教學分析(1)問題描述已知影響學生在線教學適應度(Y:AdaptivityLevel)的相關因素包括性別(F1:Gender)、IT專業(yè)(F2:ITStudent)、經濟條件(F3:FinancialCondition)、互聯(lián)網類型(F4:InternetType)、網絡類型(F5:NetworkType)與上網設備(F6:Device),利用如表8-4所示數(shù)據(jù)構建學生在線教學適應度分析模型以對學生在線教學適應度進行預測(Y取值High、Moderate與Low分別表示高、中與低三種類別的適應度),具體要求如下:①構建訓練樣本(70%)與測試樣本(30%)以進行支持向量機模型的訓練與測試。②利用交叉驗證方式確定支持向量機最優(yōu)參數(shù)并求取最優(yōu)參數(shù)相應的預測精度。③利用主成分析方法對數(shù)據(jù)進行降維處理并重復步驟2以觀察兩種情況下模型預測精度的變化。(2)編碼實現(xiàn)

見8.2.2在線教學分析.py24

8.2.2在線教學分析(3)結果分析數(shù)據(jù)基本信息:(40,8)最優(yōu)模型:SVC(C=1,degree=2,kernel='poly')最優(yōu)參數(shù):{'C':1,'degree':2,'kernel':'poly'}最高分值:0.6148148148148148預測精度:0.6666666666666666最優(yōu)模型(PCA):SVC(C=1,kernel='poly')最優(yōu)參數(shù)(PCA):{'C':1,'degree':3,'kernel':'poly'}最高分值(PCA):0.7533333333333333預測精度(PCA):0.666666666666666625

8.2.2在線教學分析(3)結果分析核函數(shù)、懲罰因子以及與核函數(shù)相關的均方差、維度等參數(shù)對支持向量機模型的精度與可靠性影響較大,在未知數(shù)據(jù)分布形態(tài)的情況下,通常采用網格化交叉驗證的方法確定最優(yōu)參數(shù)。此外,對數(shù)據(jù)進行歸一化處理與主成分分析也是提高支持向量機模型精度與可靠性的重要手段。在本例中,不同特征的取值致使支持向量機模型的最優(yōu)核函數(shù)選為多項式核函數(shù),而懲罰因子由于過大過小均可能導致支持向量機模型泛化能力較弱或可靠性較差,最終綜合多項式核函數(shù)的維度選為1。此外,由于不同特征之間相關性不高且對模型的構建均具有一定的影響,因而在主成分分析中保留95%成分時的模型參數(shù)基本相關不大,而相應的精度基本不變。268.2.3幸福指數(shù)預測SVM回歸庫包括SVR、NuSVR和LinearSVR三個類,其中,SVR和NuSVR的區(qū)別也僅在于對損失的度量方式不同;LinearSVR是線性回歸,只能使用線性核函數(shù)。(1)問題描述已知影響人們幸福指數(shù)(Y:happyScore)的相關因素包括平均收入(F1:avg_income)、中等收入(F2:median_income)、收入不平衡度(F3:income_inequality),利用如表8-5所示數(shù)據(jù)構建幸福指數(shù)預測模型以對人們幸福指數(shù)進行預測,具體要求如下:①對不同特征之間以及特征與輸出之間的相關性進行分析。②構建幸福指數(shù)預測模型并對比不同C值時的擬合優(yōu)度。(2)編程實現(xiàn)見8.2.3幸福指數(shù)預測.py278.2.3幸福指數(shù)預測(3)結果分析樣本數(shù)與特征數(shù)(40,4)訓練樣本擬合優(yōu)度(C=2):0.7470970729083541測試樣本擬合優(yōu)度(C=2):0.6851824002125987訓練樣本擬合優(yōu)度(C=0.1):0.3126250113807275測試樣本擬合優(yōu)度(C=0.1):0.1038995875081395528

8.2.3幸福指數(shù)預測(3)結果分析29(a)不同特征與輸出之間的相關性(b)平均收入與幸福指數(shù)之間的相關性(c)中等收入與幸福指數(shù)之間的相關性

(d)收入不平衡度與幸福指數(shù)之間的相關性本章小結SVM的核心思想在于利用核函數(shù)將線性不可分問題轉化為線性可分問題進行求解并利用最大化分類間隔原則確定線性可分問題相應的最優(yōu)分類界線,而最優(yōu)分類界線由少數(shù)支持向量決定,使得其在小樣本情況下仍有較大可能獲得較好的效果。此外,SVM通過組合多個二類分類器的方式對多類樣本進行分類,不但結構上易于理解,而且易于實現(xiàn),整體上具有較高的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論