下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
機器學(xué)習(xí)分類算法綜述1.1支持向量機分類算法支持向量機REF_Ref68554841\r\h[28]REF_Ref68554842\r\h[29](SVM)算法是傳統(tǒng)機器學(xué)習(xí)算法的代表,是由廣義的肖像算法發(fā)展而來。其分類模式就是找到一個超平面,在分開兩類樣本的同時,盡可能是分離間隔最大,使得超平面的魯棒性最佳。設(shè)訓(xùn)練集為,得超平面。(2.1)其中:和分別為系數(shù)和偏置,T中所有元素滿足下式。(2.2)為求最優(yōu)的,將線性方程組轉(zhuǎn)化成相應(yīng)的對偶問題[28,29],建立凸二次規(guī)劃。(2.3)其中:為解中每一個點對應(yīng)拉格朗日乘子,,求解得,計算得到,。(2.4)(2.5)(2.6)(2.7)1.4K近鄰算法K近鄰算法REF_Ref68554984\r\h[33](K-NearestNeighbor)是屬于數(shù)據(jù)挖掘中非常簡單的一種算法,分類方法就是用兩點間距離去衡量的。K近鄰算法的核心思想是把所有的樣本放到同一個空間內(nèi),和它相距不超過K的距離的都會判定為同一個類別。K近鄰算法計算方式比較簡單,但是耗時間。算法示意圖如圖2.3所示。圖2.3K近鄰算法K近鄰算法發(fā)展較早,是一種比較成熟的分類算法,它在進行分類的時候,只與少數(shù)的距離比較近的樣本有關(guān)聯(lián),所以它適合的樣本集也是需要有特定特征的,例如交叉或者重疊比較多的分類樣本集。易于弄懂,容易實現(xiàn),但其劣勢之處在于你如果新加入一個新樣本時,會打破原有的平衡,很容易導(dǎo)致分類結(jié)果發(fā)生錯誤。另外一個劣勢就是在于對于每一個樣本,每兩個樣本都需要計算一次距離,計算量很大,時間成本高,這也是K近鄰算法應(yīng)用在情感分析較少的原因。1.2XGBoost分類算法XGBoost作為集成學(xué)習(xí)的代表,有著其獨到的優(yōu)勢,大家都說單一決策樹的泛化能力比較弱,很容易發(fā)生過擬合,但是XGBoost就完完全全沒有這個弱點。這一算法一經(jīng)陳天奇提出以后,引發(fā)了各大公司的廣泛應(yīng)用,而且在各大類數(shù)據(jù)競賽中表現(xiàn)良好,成為公司和學(xué)者的寵兒?;贐oosting的算法每個分類器之前都有著千絲萬縷的聯(lián)系,所以算法的核心都是為了讓真實值和預(yù)測值差距更小,XGBoost就是通過其獨到的方式,產(chǎn)生多棵樹,而且不斷增加,最后將所有樹的分數(shù)加起來作為最后的預(yù)測值,而且所有算法都要求泛化能力,這也是衡量一個算法的好壞,所以這其實也是一個泛函最優(yōu)化問題。首先設(shè)算法目標函數(shù)如(2.8)所示。(2.8)為損失函數(shù)。為正則項函數(shù)。為L2正則項,其中是權(quán)重,通過L2為懲罰項,為了防止過擬合,加強泛化能力而設(shè)置。基于Boosting思想每次分裂都引入一個基分類器去優(yōu)化損失函數(shù),得目標函數(shù)為(2.9)式。(2.9)二階泰勒展開式如(2.10)式。(2.10)對目標函數(shù)做二階泰勒展開可以得到:(2.11)其中:和分別為和。是定值,計算可得到(2.12)式。(2.12)由于每一個基分類器都對應(yīng)一個葉子結(jié)點,則目標函數(shù)可以簡化為(2.13)式。(2.13)通過對求導(dǎo)等于0,可以得到目標函數(shù)的最優(yōu)權(quán)重,如(2.14)式。(2.14)將帶入目標函數(shù)得到(2.13)式。(2.15)1.3樸素貝葉斯在介紹樸素貝葉斯時REF_Ref68554952\r\h[32],首先就是要弄清楚他的理論。樸素貝葉斯也屬于分類算法,對于所有分類算法來說,目的都是看分類的準確率,而貝葉斯分類是利用概率和來進行分類判別。對于類別分類任務(wù),記類別為,計算得期望損失。(2.16)根據(jù)貝葉斯判定準則,只要每個樣本風險最小,那么最后的加和風險也就達到最低值,可以得到(2.18)式。(2.17)此時,稱為貝葉斯最佳分類器。如果我的目標是最小化分類錯誤率,就會選擇后驗概率作為標記,貝葉斯最佳分類器可表示為(2.19)式。(2.18)樸素貝葉斯就是貝葉斯這個理論大廈的基石,樸素貝葉斯是假定個樣本相互獨立的,但是事實上很多樣
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 動態(tài)心電圖目前最需要解決的問題教學(xué)課件
- 【大學(xué)課件】國際新興服務(wù)貿(mào)易產(chǎn)業(yè)
- 【物理課件】運動快慢的描述 速度課件
- DB32T-長江河道疏浚采砂項目施工質(zhì)量驗收規(guī)范編制說明
- 信息與通信射頻電路與天線課件
- 《電梯安全經(jīng)驗分享》課件
- 現(xiàn)在完成時復(fù)習(xí)課件
- 單位人力資源管理制度集粹選集十篇
- 固收定期報告:資金面均衡偏松年末票據(jù)利率上行
- 單位管理制度品讀選集【人力資源管理】
- 2025年林權(quán)抵押合同范本
- 2024年北師大版四年級數(shù)學(xué)上學(xué)期學(xué)業(yè)水平測試 期末卷(含答案)
- 智能檢測與監(jiān)測技術(shù)-智能建造技術(shù)專02課件講解
- 2025蛇年一年級寒假作業(yè)創(chuàng)意與寓意齊【高清可打印】
- 2024年高考物理一輪復(fù)習(xí)講義(新人教版):第七章動量守恒定律
- 多系統(tǒng)萎縮鑒別及治療
- 設(shè)備的使用和維護管理制度模版(3篇)
- 浙江省寧波市慈溪市2023-2024學(xué)年高三上學(xué)期語文期末測試試卷
- 草學(xué)類專業(yè)生涯發(fā)展展示
- 法理學(xué)課件馬工程
- 《玉米種植技術(shù)》課件
評論
0/150
提交評論