版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
數(shù)據(jù)挖掘十大算法之SVM程廣兵
2014.12.22分類概念:通過構造一個分類函數(shù)或分類器的方法,該方法能把數(shù)據(jù)庫中的數(shù)據(jù)項映射到給定類別中的某一個,從而可以用于預測未知數(shù)據(jù)。數(shù)據(jù):線性可分線性不可分什么是SVM全名:SupportVectorMachine(支持向量機)支持向量:支持或支撐平面上把兩類類別劃分開來的超平面的向量點。機:一個算法基于統(tǒng)計學習理論的一種機器學習方法。簡單的說,就是將數(shù)據(jù)單元表示在多維空間中,然后對這個空間做劃分的算法。SVM的特點SVM是建立在統(tǒng)計學習理論的VC維理論和結構風險最小原理基礎上的,根據(jù)有限的樣本信息在模型的復雜性之間尋求最佳折衷,以期獲得最好的推廣能力(或泛化能力)。
核函數(shù)松弛變量線性分類1線性分類1線性分類最優(yōu)標準:分類間隔對于給定的訓練數(shù)據(jù)集T和超平面(w,b),定義超平面(w,b)關于樣本點(xi,yi)的函數(shù)間隔為對于給定的訓練數(shù)據(jù)集T和超平面(w,b),定義超平面(w,b)關于樣本點(xi,yi)的幾何間隔為||w||叫做向量w的范數(shù),WX的p范數(shù)為||w||p=(X1^p+X2^p+...+Xn^p)^(1/p)函數(shù)間隔和幾何間隔的關系?=?/||w||(1)最優(yōu)標準:分類間隔H2與H之間的間隔便是幾何間隔。其中H1:wx+b=1;H2:wx+b=-1;定義超平面(w,b)關于訓練數(shù)據(jù)集T的函數(shù)間隔為超平面(w,b)關于T中所有樣本點(xi,yi)的函數(shù)間隔之最小值,即同理最終問題轉化成為求最大?值。(ps:我的理解在找到幾何間隔?后,就要使H1和H2盡可能的離H遠,這樣分類就更有說服力)在H1和H2上的點就叫做支持向量H1和H2之間的距離稱為間隔,間隔依賴于法向量w,等于2/||w||,H1和H2稱為間隔邊界由等式(1),可將問題寫為求最大的?由于函數(shù)間隔?不影響最優(yōu)化問題的解,這樣可以取?=1,由于最大化1/||w||和最小化1/2*||w||*||w||問題是等價的于是問題便轉化成了求很容易看出當||w||=0的時候就得到了目標函數(shù)的最小值。反映在圖中,就是H1與H2兩條直線間的距離無限大,所有樣本點都進入了無法分類的灰色地帶解決方法:加一個約束條件求最大的?我們把所有樣本點中間隔最小的那一點的間隔定為1,也就意味著集合中的其他點間隔都不會小于1,于是不難得到有不等式:yi[<w,xi>+b]≥1(i=1,2,…,l)總成立。于是上面的問題便轉化成了求條件最優(yōu)化問題:約束條件這是一個凸二次規(guī)劃問題,所以一定會存在全局的最優(yōu)解,但實際求解較為麻煩。實際的做法:將不等式約束轉化為等式約束,從而將問題轉化為拉格朗日求極值的問題。
(2)
(3)最優(yōu)問題的求解為了求解線性可分支持向量機的最優(yōu)化問題(2)~(3),將它作為原始最優(yōu)化問題,應用拉格朗日對偶性(參考李航的統(tǒng)計學習方法附錄C),通過求解對偶問題得到原始問題的最優(yōu)解,這是線性可分支持向量機的對偶算法。
最優(yōu)問題的求解引入拉格朗日乘子(ps:之所以,>=0是因為如果不做限定,因為要求極大值,而,那么可以取負無窮,這樣目標值就會無窮大,其實當點是支持向量時>0,其他的點=0)利用Lagrange乘子法:當點是支持向量時y(wx+b)=1當點不是支持向量時y(wx+b)>1這樣Lagrange函數(shù)的第二項始終為零凸二次規(guī)劃問題求解代入L(外w,如b,慶a)仿:問題嘩轉換夠為凸二嶼次規(guī)葵劃問悶題求踏解凸二腎次規(guī)紙劃問飲題求夾解更多戚細節(jié)尾請參名照李采航的板統(tǒng)計傅學習盒方法SV煙M這一遷章凸二局次規(guī)衛(wèi)劃問秋題求費解為了例題例題線性砍分類目標參函數(shù)加:梢約律束條氣件:目標儲函數(shù)莖:爐約戰(zhàn)束條崖件:拉格惰朗日繼乘數(shù)伏法可按將問壞題轉聲化為來對偶見問題戒:目標芹函數(shù)疫:字約捧束條鎮(zhèn)件:線性梅分類巧妙渠之處新:原池問題=>二次鬧凸優(yōu)狠化問僅題=>對偶商問題對偶檢問題有求解怠:更巧肉妙的艇地方艷:未知疏數(shù)據(jù)x的預握測,碗只需坐要計拆算它隱與訓像練數(shù)回據(jù)點葵的內癥積即腦可非線互性分致類對于憐以上折所述鎮(zhèn)的SV窄M,處簽理能拜力還楊是很賊弱,貝僅僅羅能處繳理線拜性可艙分的源數(shù)據(jù)撇。如掏果數(shù)衫據(jù)線學性不朵可分據(jù)的時放候,號我們題就將章低維紐奉的數(shù)劉據(jù)映兇射向分更高掃的維鞋次,催以此君使數(shù)母據(jù)重掏新線出性可憤分。誼這轉攔化的唉關鍵江便是茫核函鋤數(shù)。非線倍性分擋類找不蜘到一亮個超進平面成(二考維空盆間:荷直線醒)將翅其分升割開亞來,茅而很獵自然奴的想猛到可惡以用販一個哀橢圓嗓將數(shù)左據(jù)分牌為兩眾類Z1=X1,Z2=X12,Z3=X2,Z4=X22,Z5=X1X2(X1,X2)籠—贊—>(Z1,久Z2,葬Z3,誦Z4,摟Z5,)即將才:R2空間瘋映射露到R5空間蔥。此時界,總饑能找片到一昆個超隔平面wTZ統(tǒng)+鉆b闊=半0wT=絹{a1,a2,a3,a4,a5}T,b聽=熊a6使得濫數(shù)據(jù)勞很好及的分勿類。映射材過后土的空帆間:非線好性分狠類令:Z1=X1,Z2=X12,Z3=X2,Z4=X22,Z5=X1X2(X1,X2)踐—悲Φ—勺>(Z1,弦Z2,氏Z3,量Z4,乳Z5,)則:首對于藝樣本x1=古(η1,η2),扇x2=勾(ξ1,ξ2)Φ(踩x1)避=稻[η1,η12,η2,η22,η1η2]TΦ(亡x2)美=邪[ξ1,ξ12,ξ2,ξ22,ξ1ξ2]T內積:我們葛注意而到:非線下性分親類我們擔注意樹到:若令Φ(衫x1)悲=寺[√2η1蘋,η12,√2η2砍,η22,√2η1η2授,1]T則:那么崖區(qū)別攝在于天什么祥地方代呢?1.一個忽是將轉低維湯空間語數(shù)據(jù)撕映射碼到高稱維空怖間中聾,然敞后再使根據(jù)動內積照的公給式進喇行計場算;另一股個則惡直接衛(wèi)在原誓來的低維匪空間潑中進傍行計夕算,而不需圓要顯狹式地寫敞出映墨射后派的結掛果。當樣嗽本空穩(wěn)間處寨于高鉤維度礎時,竟第一特種方古法將圈引發(fā)維度勞災難,第紀二種確方法絞仍然跨能夠速從容析處理核函承數(shù)核函珠數(shù):概念捧:x,素z∈庭X,挽X屬于Rn空間,非線墊性函數(shù)數(shù)Φ實現(xiàn)薦輸入侵空間X到特巡壽征空晉間F的映少射,其中F屬于Rm,n<項<m。核與函數(shù)拼技術程接收2個低充維空面間的脹向量養(yǎng),能阻夠計紅算出和經(jīng)某焦變換霧后高盛維空哭間里祝的向車量內拳積值繞。根據(jù)蜓核函舊數(shù)技翻術有撕:K(廉x,停z)翁=他<氧Φ(際x)五,Φ甘(z芽)扁>其中鞋:<,惰>為內身積,K追(x疊,z嚷)為核全函數(shù)奪。例如削:加入搖核函禽數(shù)以釣后的揪分類踩函數(shù)外為:核函笛數(shù)核函貫數(shù)應裝用廣嗽泛的更原因膛:核函塑數(shù)的物引入含避免橡了“維數(shù)嘩災難”,大大減小樂了計舟算量。而心輸入賽空間詳?shù)木S圖數(shù)n對核爽函數(shù)器矩陣祥無影遣響,能因此缺,核留函數(shù)園方法早可以街有效散處理躁高維鋪輸入家。無需劉知道返非線毯性變湊換函嘆數(shù)Φ的形引式和香參數(shù)核函復數(shù)的大形式臨和參峰數(shù)的辯變化瞞會隱搶式地嚇改變滋從輸狹入空捷間到廈特征淘空間紡的映泛射,心進而夏對特炊征空提間的星性質唐產(chǎn)生爺影響教,最權終改論變各蓬種核汗函數(shù)旬方法賤的性星能。核函擋數(shù)方避法可驅以和條不同鋒的算兔法相賓結合增,形虛成多陵種不詠同的庸基于斃核函茶數(shù)技拖術的塔方法駁,且采這兩部的分的債設計祥可以斗單獨念進行,并別可以項為不同于的應濤用選落擇不旬同的邪核函牧數(shù)和算糖法。常用賺的核調函數(shù)多項彩式核陷:線性殼核:高斯孩核:總結線性阿可分胡:求解唉使得壯超平跨面具息有最獻大內獸間間雕隔的wT,b參數(shù)兆。將問洪題轉謀化為紋對偶塊問題嚷進行宣快速舊求解液。改進挽:加賣入松擋弛變任量巾和懲軌罰因開子C的SV興M松弛繳變量舍允許步實際駱分類古中一您定的托不準爺確性宜的存侄在,臘引入茄松弛斯變量身后原掘先的書約束撲條件良變?yōu)榧妫簯土P豬因子漿C則仰是為星了避慌免系濱統(tǒng)輕扮易放卸棄一折些重剪要的瓜數(shù)據(jù)母,減呢小系繞統(tǒng)損拍失。霜引入比C后幫目標長函數(shù)旦變?yōu)槟辏嚎偨Y線性薪不可雹分:將數(shù)休據(jù)空仇間映也射到鮮高維握空間何,使鼻原本殃線性握不可毯分變猛為線求性可退分。引入鑼核函霧數(shù),縱簡化霸映射殖空間訓中的各內積收運算允。它避開罷了直認接在出高維乎空間孟中進淡行計始算,而禮表現(xiàn)辭形式其卻等價筆于高拐維空山間。不同虹的樣配本結活構與趁不同鑰的核凍函數(shù)喬結合丸,達怖到很窮好的涌分割鋒效果因時律間有嫁限,廳先介棚紹這連么多久,如艱果有硬興趣祥進一蚊步學柏習的輩同學番,很扯開心次找我拔們可齊以課像下討桐論參考雨資料1.哀《支持遲向量似機導住論》,[美]鋸Ne中l(wèi)l遺o葡Cr勁is魚ti斷an錘in蜘i敬/摟Jo版hn乞S幻玉ha麻we積-T工ay第lo阻r著;2.支持妹向量叨機導臭論一凱書的架支持奪網(wǎng)站背:ht拘tp廚:/朵/w威ww拒.s攝up盆po還rt已-v墨ec境to巾r.拔ne田t/;3.荒《數(shù)據(jù)貸挖掘輛導論》,[美]能Pa陣ng館-N傻in舍g旬Ta膊n爭/賺Mi霧ch先ae某l賊St栽ei歇nb光ac因h磁/擇Vi世pi能n澡Ku袋ma希r著;4.況《數(shù)據(jù)抵挖掘鉗:概陵念與旬技術》,(加)J躺ia沙we蛇i柔Ha朱n;襯Mi宵ch緩el積in培e覆Ka給mb襪er著;5.曠《數(shù)據(jù)禍挖掘資中的辛新方名法:吊支持擱向量互機》,鄧辱乃揚肥田臟英杰幼著疲;6.沈《支持怖向量廁機--理論產(chǎn)、算崇法和簡擴展》,鄧舌乃揚額田悅英杰金著揚;7.蹈《模式暫識別忙支持控向量緊機指父南》,C.淹J.爬C劃Bu潑rg迎es著;8.漆《統(tǒng)計版自然眨語言詞處理》,宗尖成慶羽編著丟,第仇十二掠章、筍文本器分類婦;9.跌S境VM入門蘭系列獎,Ja扔sp治er:ht躺tp動:/簽/w虛ww更.b撐lo憶gj終av因a.情ne殿t/突zh聞en晝an亭da要ci提/c專at臘eg愈or暮y/散31蔥86閘8.條ht應ml;10池.數(shù)據(jù)陪挖掘城掘中棄所需急的概朋率論殿與數(shù)爭理統(tǒng)臥計知楚識、雜上;11
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 市場營銷代理合同
- 環(huán)境變化對保安工作的影響分析計劃
- 房屋戶外休閑區(qū)施工合同
- 學校藝術教育的政策研究計劃
- 高中生簡單自我介紹15篇
- 教師自我鑒定
- 項目管理工作個人總結
- 2022年工商工作計劃
- 市場工作計劃
- 2025包工包料裝修合同范本
- 2024年出版出版專業(yè)基礎知識試題初級答案
- DB15-T 3600-2024 黑土地質量等級劃分技術規(guī)范
- 人防民防知識宣傳手冊
- DL∕T 5767-2018 電網(wǎng)技術改造工程工程量清單計價規(guī)范
- 國有企業(yè)股權轉讓協(xié)議(2024版)
- 《民用爆炸物品企業(yè)安全生產(chǎn)標準化實施細則》解讀
- 2024年浙江省安全生產(chǎn)科學研究有限公司招聘筆試沖刺題(帶答案解析)
- 中央2024年水利部綜合事業(yè)局招聘筆試歷年典型考題及考點附答案解析
- 機械產(chǎn)品數(shù)字化設計智慧樹知到期末考試答案章節(jié)答案2024年九江職業(yè)大學
- 裝修增項補充合同協(xié)議書
- 項目經(jīng)理承包責任制
評論
0/150
提交評論