



下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
機器學習分類算法綜述1.1支持向量機分類算法支持向量機REF_Ref68554841\r\h[28]REF_Ref68554842\r\h[29](SVM)算法是傳統(tǒng)機器學習算法的代表,是由廣義的肖像算法發(fā)展而來。其分類模式就是找到一個超平面,在分開兩類樣本的同時,盡可能是分離間隔最大,使得超平面的魯棒性最佳。設訓練集為,得超平面。(2.1)其中:和分別為系數(shù)和偏置,T中所有元素滿足下式。(2.2)為求最優(yōu)的,將線性方程組轉(zhuǎn)化成相應的對偶問題[28,29],建立凸二次規(guī)劃。(2.3)其中:為解中每一個點對應拉格朗日乘子,,求解得,計算得到,。(2.4)(2.5)(2.6)(2.7)1.4K近鄰算法K近鄰算法REF_Ref68554984\r\h[33](K-NearestNeighbor)是屬于數(shù)據(jù)挖掘中非常簡單的一種算法,分類方法就是用兩點間距離去衡量的。K近鄰算法的核心思想是把所有的樣本放到同一個空間內(nèi),和它相距不超過K的距離的都會判定為同一個類別。K近鄰算法計算方式比較簡單,但是耗時間。算法示意圖如圖2.3所示。圖2.3K近鄰算法K近鄰算法發(fā)展較早,是一種比較成熟的分類算法,它在進行分類的時候,只與少數(shù)的距離比較近的樣本有關聯(lián),所以它適合的樣本集也是需要有特定特征的,例如交叉或者重疊比較多的分類樣本集。易于弄懂,容易實現(xiàn),但其劣勢之處在于你如果新加入一個新樣本時,會打破原有的平衡,很容易導致分類結(jié)果發(fā)生錯誤。另外一個劣勢就是在于對于每一個樣本,每兩個樣本都需要計算一次距離,計算量很大,時間成本高,這也是K近鄰算法應用在情感分析較少的原因。1.2XGBoost分類算法XGBoost作為集成學習的代表,有著其獨到的優(yōu)勢,大家都說單一決策樹的泛化能力比較弱,很容易發(fā)生過擬合,但是XGBoost就完完全全沒有這個弱點。這一算法一經(jīng)陳天奇提出以后,引發(fā)了各大公司的廣泛應用,而且在各大類數(shù)據(jù)競賽中表現(xiàn)良好,成為公司和學者的寵兒?;贐oosting的算法每個分類器之前都有著千絲萬縷的聯(lián)系,所以算法的核心都是為了讓真實值和預測值差距更小,XGBoost就是通過其獨到的方式,產(chǎn)生多棵樹,而且不斷增加,最后將所有樹的分數(shù)加起來作為最后的預測值,而且所有算法都要求泛化能力,這也是衡量一個算法的好壞,所以這其實也是一個泛函最優(yōu)化問題。首先設算法目標函數(shù)如(2.8)所示。(2.8)為損失函數(shù)。為正則項函數(shù)。為L2正則項,其中是權(quán)重,通過L2為懲罰項,為了防止過擬合,加強泛化能力而設置?;贐oosting思想每次分裂都引入一個基分類器去優(yōu)化損失函數(shù),得目標函數(shù)為(2.9)式。(2.9)二階泰勒展開式如(2.10)式。(2.10)對目標函數(shù)做二階泰勒展開可以得到:(2.11)其中:和分別為和。是定值,計算可得到(2.12)式。(2.12)由于每一個基分類器都對應一個葉子結(jié)點,則目標函數(shù)可以簡化為(2.13)式。(2.13)通過對求導等于0,可以得到目標函數(shù)的最優(yōu)權(quán)重,如(2.14)式。(2.14)將帶入目標函數(shù)得到(2.13)式。(2.15)1.3樸素貝葉斯在介紹樸素貝葉斯時REF_Ref68554952\r\h[32],首先就是要弄清楚他的理論。樸素貝葉斯也屬于分類算法,對于所有分類算法來說,目的都是看分類的準確率,而貝葉斯分類是利用概率和來進行分類判別。對于類別分類任務,記類別為,計算得期望損失。(2.16)根據(jù)貝葉斯判定準則,只要每個樣本風險最小,那么最后的加和風險也就達到最低值,可以得到(2.18)式。(2.17)此時,稱為貝葉斯最佳分類器。如果我的目標是最小化分類錯誤率,就會選擇后驗概率作為標記,貝葉斯最佳分類器可表示為(2.19)式。(2.18)樸素貝葉斯就是貝葉斯這個理論大廈的基石,樸素貝葉斯是假定個樣本相互獨立的,但是事實上很多樣
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 明確方向的2024年裁判員考試
- 多維度了解體育經(jīng)紀人資格考試試題及答案
- 河道疏浚工程項目可行性研究報告
- 體育經(jīng)紀人應掌握的法律知識試題及答案
- 廢水處理擴建及中水回用優(yōu)化提升項目可行性研究報告(參考)
- 2024年籃球裁判員快速提升試題及答案
- 用電安全課件圖片模板
- 農(nóng)業(yè)植保員2024年考試體系與試題解析
- 模具設計軟件應用試題及答案
- 提升游泳救生員考試競爭力的試題及答案
- 遼寧協(xié)作校2024-2025學年度下學期高三第二次模擬考試語文試卷(含答案解析)
- 2025-2030汽車揚聲器市場發(fā)展現(xiàn)狀分析及行業(yè)投資戰(zhàn)略研究報告
- 2025年廣東省廣州市廣大附中等校聯(lián)考中考語文模擬試卷(4月份)
- 民法典課程大綱
- 2025-2030中國數(shù)據(jù)安全服務行業(yè)市場深度分析及前景趨勢與投資研究報告
- 醫(yī)療AI輔助康復管理
- 山東省天一大聯(lián)考·齊魯名校教研體2024-2025學年(下)高三年級第六次聯(lián)考(物理試題及答案)
- 房地產(chǎn)市場報告 -2025年第一季度青島寫字樓和零售物業(yè)市場概況報告
- 2025年03月人力資源社會保障部所屬單位筆試歷年典型考題(歷年真題考點)解題思路附帶答案詳解
- 上海市工業(yè)技術(shù)學校招聘考試真題2024
- 《幼兒園課程圖景》閱讀分享
評論
0/150
提交評論