



下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
機(jī)器學(xué)習(xí)分類算法綜述1.1支持向量機(jī)分類算法支持向量機(jī)REF_Ref68554841\r\h[28]REF_Ref68554842\r\h[29](SVM)算法是傳統(tǒng)機(jī)器學(xué)習(xí)算法的代表,是由廣義的肖像算法發(fā)展而來。其分類模式就是找到一個超平面,在分開兩類樣本的同時,盡可能是分離間隔最大,使得超平面的魯棒性最佳。設(shè)訓(xùn)練集為,得超平面。(2.1)其中:和分別為系數(shù)和偏置,T中所有元素滿足下式。(2.2)為求最優(yōu)的,將線性方程組轉(zhuǎn)化成相應(yīng)的對偶問題[28,29],建立凸二次規(guī)劃。(2.3)其中:為解中每一個點(diǎn)對應(yīng)拉格朗日乘子,,求解得,計算得到,。(2.4)(2.5)(2.6)(2.7)1.4K近鄰算法K近鄰算法REF_Ref68554984\r\h[33](K-NearestNeighbor)是屬于數(shù)據(jù)挖掘中非常簡單的一種算法,分類方法就是用兩點(diǎn)間距離去衡量的。K近鄰算法的核心思想是把所有的樣本放到同一個空間內(nèi),和它相距不超過K的距離的都會判定為同一個類別。K近鄰算法計算方式比較簡單,但是耗時間。算法示意圖如圖2.3所示。圖2.3K近鄰算法K近鄰算法發(fā)展較早,是一種比較成熟的分類算法,它在進(jìn)行分類的時候,只與少數(shù)的距離比較近的樣本有關(guān)聯(lián),所以它適合的樣本集也是需要有特定特征的,例如交叉或者重疊比較多的分類樣本集。易于弄懂,容易實(shí)現(xiàn),但其劣勢之處在于你如果新加入一個新樣本時,會打破原有的平衡,很容易導(dǎo)致分類結(jié)果發(fā)生錯誤。另外一個劣勢就是在于對于每一個樣本,每兩個樣本都需要計算一次距離,計算量很大,時間成本高,這也是K近鄰算法應(yīng)用在情感分析較少的原因。1.2XGBoost分類算法XGBoost作為集成學(xué)習(xí)的代表,有著其獨(dú)到的優(yōu)勢,大家都說單一決策樹的泛化能力比較弱,很容易發(fā)生過擬合,但是XGBoost就完完全全沒有這個弱點(diǎn)。這一算法一經(jīng)陳天奇提出以后,引發(fā)了各大公司的廣泛應(yīng)用,而且在各大類數(shù)據(jù)競賽中表現(xiàn)良好,成為公司和學(xué)者的寵兒?;贐oosting的算法每個分類器之前都有著千絲萬縷的聯(lián)系,所以算法的核心都是為了讓真實(shí)值和預(yù)測值差距更小,XGBoost就是通過其獨(dú)到的方式,產(chǎn)生多棵樹,而且不斷增加,最后將所有樹的分?jǐn)?shù)加起來作為最后的預(yù)測值,而且所有算法都要求泛化能力,這也是衡量一個算法的好壞,所以這其實(shí)也是一個泛函最優(yōu)化問題。首先設(shè)算法目標(biāo)函數(shù)如(2.8)所示。(2.8)為損失函數(shù)。為正則項(xiàng)函數(shù)。為L2正則項(xiàng),其中是權(quán)重,通過L2為懲罰項(xiàng),為了防止過擬合,加強(qiáng)泛化能力而設(shè)置。基于Boosting思想每次分裂都引入一個基分類器去優(yōu)化損失函數(shù),得目標(biāo)函數(shù)為(2.9)式。(2.9)二階泰勒展開式如(2.10)式。(2.10)對目標(biāo)函數(shù)做二階泰勒展開可以得到:(2.11)其中:和分別為和。是定值,計算可得到(2.12)式。(2.12)由于每一個基分類器都對應(yīng)一個葉子結(jié)點(diǎn),則目標(biāo)函數(shù)可以簡化為(2.13)式。(2.13)通過對求導(dǎo)等于0,可以得到目標(biāo)函數(shù)的最優(yōu)權(quán)重,如(2.14)式。(2.14)將帶入目標(biāo)函數(shù)得到(2.13)式。(2.15)1.3樸素貝葉斯在介紹樸素貝葉斯時REF_Ref68554952\r\h[32],首先就是要弄清楚他的理論。樸素貝葉斯也屬于分類算法,對于所有分類算法來說,目的都是看分類的準(zhǔn)確率,而貝葉斯分類是利用概率和來進(jìn)行分類判別。對于類別分類任務(wù),記類別為,計算得期望損失。(2.16)根據(jù)貝葉斯判定準(zhǔn)則,只要每個樣本風(fēng)險最小,那么最后的加和風(fēng)險也就達(dá)到最低值,可以得到(2.18)式。(2.17)此時,稱為貝葉斯最佳分類器。如果我的目標(biāo)是最小化分類錯誤率,就會選擇后驗(yàn)概率作為標(biāo)記,貝葉斯最佳分類器可表示為(2.19)式。(2.18)樸素貝葉斯就是貝葉斯這個理論大廈的基石,樸素貝葉斯是假定個樣本相互獨(dú)立的,但是事實(shí)上很多樣
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025中菲機(jī)械制造與維修服務(wù)合同
- 2025型材購銷合同書范本
- 2025建設(shè)用地使用權(quán)出讓合同樣本
- 2025吊車租賃合同(臺班版)
- 9.1《日益完善的法律體系》- 課件 2024-2025學(xué)年統(tǒng)編版道德與法治七年級下冊
- 2025商業(yè)房產(chǎn)租賃合同
- 《高血壓自我管理手冊》課件
- 六年級思想品德下冊 中國人民站起來了教學(xué)設(shè)計 泰山版
- 《癌痛疼痛治療方案》課件
- 新質(zhì)生產(chǎn)力局長
- 遼寧協(xié)作校2024-2025學(xué)年度下學(xué)期高三第二次模擬考試語文試卷(含答案解析)
- 2025-2030汽車揚(yáng)聲器市場發(fā)展現(xiàn)狀分析及行業(yè)投資戰(zhàn)略研究報告
- 期中考試考后分析總結(jié)主題班會《全員出動尋找消失的分?jǐn)?shù)》
- 2025年廣東省廣州市廣大附中等校聯(lián)考中考語文模擬試卷(4月份)
- 成都樹德中學(xué)2025年高三第四次聯(lián)考物理試題文試卷
- 民法典課程大綱
- 2025-2030中國數(shù)據(jù)安全服務(wù)行業(yè)市場深度分析及前景趨勢與投資研究報告
- 醫(yī)療AI輔助康復(fù)管理
- 山東省天一大聯(lián)考·齊魯名校教研體2024-2025學(xué)年(下)高三年級第六次聯(lián)考(物理試題及答案)
- 房地產(chǎn)市場報告 -2025年第一季度青島寫字樓和零售物業(yè)市場概況報告
- 2025年03月人力資源社會保障部所屬單位筆試歷年典型考題(歷年真題考點(diǎn))解題思路附帶答案詳解
評論
0/150
提交評論