輕松看懂機(jī)器學(xué)習(xí)十大常用算法_第1頁
輕松看懂機(jī)器學(xué)習(xí)十大常用算法_第2頁
輕松看懂機(jī)器學(xué)習(xí)十大常用算法_第3頁
輕松看懂機(jī)器學(xué)習(xí)十大常用算法_第4頁
輕松看懂機(jī)器學(xué)習(xí)十大常用算法_第5頁
已閱讀5頁,還剩12頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、通過本篇文章可以對ML的常用算法有個常識性的認(rèn)識,沒有代碼,沒有復(fù)雜的理論推導(dǎo),就是圖解一下,知道這些算法是什么,它們是怎么應(yīng)用的,例子主要是分類問題。每個算法都看了好幾個視頻,挑出講的最清晰明了有趣的,便于科普。以后有時間再對單個算法做深入地解析。今天的算法如下:1. 決策樹2. 隨機(jī)森林算法3. 邏輯回歸4. SVM5. 樸素貝葉斯6. K最近鄰算法7. K均值算法8. Adaboost 算法9. 神經(jīng)網(wǎng)絡(luò)10. 馬爾可夫1. 決策樹根據(jù)一些 feature 進(jìn)行分類,每個節(jié)點(diǎn)提一個問題,通過判斷,將數(shù)據(jù)分為兩類,再繼續(xù)提問。這些問題是根據(jù)已有數(shù)據(jù)學(xué)習(xí)出來的,再投入新數(shù)據(jù)的時候,就可以根據(jù)

2、這棵樹上的問題,將數(shù)據(jù)劃分到合適的葉子上。2. 隨機(jī)森林視頻在源數(shù)據(jù)中隨機(jī)選取數(shù)據(jù),組成幾個子集S 矩陣是源數(shù)據(jù),有 1-N 條數(shù)據(jù),A B C 是feature,最后一列C是類別由 S 隨機(jī)生成 M 個子矩陣這 M 個子集得到 M 個決策樹將新數(shù)據(jù)投入到這 M 個樹中,得到 M 個分類結(jié)果,計數(shù)看預(yù)測成哪一類的數(shù)目最多,就將此類別作為最后的預(yù)測結(jié)果3. 邏輯回歸視頻當(dāng)預(yù)測目標(biāo)是概率這樣的,值域需要滿足大于等于0,小于等于1的,這個時候單純的線性模型是做不到的,因?yàn)樵诙x域不在某個范圍之內(nèi)時,值域也超出了規(guī)定區(qū)間。所以此時需要這樣的形狀的模型會比較好那么怎么得到這樣的模型呢?這個模型需要滿足兩

3、個條件 大于等于0,小于等于1大于等于0 的模型可以選擇 絕對值,平方值,這里用 指數(shù)函數(shù),一定大于0小于等于1 用除法,分子是自己,分母是自身加上1,那一定是小于1的了再做一下變形,就得到了 logistic regression 模型通過源數(shù)據(jù)計算可以得到相應(yīng)的系數(shù)了最后得到 logistic 的圖形4. SVMsupport vector machine要將兩類分開,想要得到一個超平面,最優(yōu)的超平面是到兩類的 margin 達(dá)到最大,margin就是超平面與離它最近一點(diǎn)的距離,如下圖,Z2>Z1,所以綠色的超平面比較好將這個超平面表示成一個線性方程,在線上方的一類,都大于等于1,另

4、一類小于等于1點(diǎn)到面的距離根據(jù)圖中的公式計算所以得到 total margin 的表達(dá)式如下,目標(biāo)是最大化這個 margin,就需要最小化分母,于是變成了一個優(yōu)化問題舉個栗子,三個點(diǎn),找到最優(yōu)的超平面,定義了 weight vector(2,3)(1,1)得到 weight vector 為(a,2a),將兩個點(diǎn)代入方程,代入(2,3)另其值1,代入(1,1)另其值-1,求解出 a 和 截矩 w0 的值,進(jìn)而得到超平面的表達(dá)式。a 求出來后,代入(a,2a)得到的就是 support vectora 和 w0 代入超平面的方程就是 support vector machine5. 樸素貝葉斯視

5、頻舉個在 NLP 的應(yīng)用給一段文字,返回情感分類,這段文字的態(tài)度是positive,還是negative為了解決這個問題,可以只看其中的一些單詞這段文字,將僅由一些單詞和它們的計數(shù)代表原始問題是:給你一句話,它屬于哪一類通過 bayes rules 變成一個比較簡單容易求得的問題問題變成,這一類中這句話出現(xiàn)的概率是多少,當(dāng)然,別忘了公式里的另外兩個概率栗子:單詞 love 在 positive 的情況下出現(xiàn)的概率是 0.1,在 negative 的情況下出現(xiàn)的概率是 0.0016. K最近鄰視頻k nearest neighbours給一個新的數(shù)據(jù)時,離它最近的 k 個點(diǎn)中,哪個類別多,這個數(shù)

6、據(jù)就屬于哪一類栗子:要區(qū)分 貓 和 狗,通過 claws 和 sound 兩個feature來判斷的話,圓形和三角形是已知分類的了,那么這個 star 代表的是哪一類呢k3時,這三條線鏈接的點(diǎn)就是最近的三個點(diǎn),那么圓形多一些,所以這個star就是屬于貓7. K均值視頻想要將一組數(shù)據(jù),分為三類,粉色數(shù)值大,黃色數(shù)值小最開心先初始化,這里面選了最簡單的 3,2,1 作為各類的初始值剩下的數(shù)據(jù)里,每個都與三個初始值計算距離,然后歸類到離它最近的初始值所在類別分好類后,計算每一類的平均值,作為新一輪的中心點(diǎn)幾輪之后,分組不再變化了,就可以停止了8. Adaboost視頻adaboost 是 bosti

7、ng 的方法之一bosting就是把若干個分類效果并不好的分類器綜合起來考慮,會得到一個效果比較好的分類器。下圖,左右兩個決策樹,單個看是效果不怎么好的,但是把同樣的數(shù)據(jù)投入進(jìn)去,把兩個結(jié)果加起來考慮,就會增加可信度adaboost 的栗子,手寫識別中,在畫板上可以抓取到很多 features,例如 始點(diǎn)的方向,始點(diǎn)和終點(diǎn)的距離等等training 的時候,會得到每個 feature 的 weight,例如 2 和 3 的開頭部分很像,這個 feature 對分類起到的作用很小,它的權(quán)重也就會較小而這個 alpha 角 就具有很強(qiáng)的識別性,這個 feature 的權(quán)重就會較大,最后的預(yù)測結(jié)果是

8、綜合考慮這些 feature 的結(jié)果9. 神經(jīng)網(wǎng)絡(luò)視頻Neural Networks 適合一個input可能落入至少兩個類別里NN 由若干層神經(jīng)元,和它們之間的聯(lián)系組成第一層是 input 層,最后一層是 output 層在 hidden 層 和 output 層都有自己的 classifierinput 輸入到網(wǎng)絡(luò)中,被激活,計算的分?jǐn)?shù)被傳遞到下一層,激活后面的神經(jīng)層,最后output 層的節(jié)點(diǎn)上的分?jǐn)?shù)代表屬于各類的分?jǐn)?shù),下圖例子得到分類結(jié)果為 class 1同樣的 input 被傳輸?shù)讲煌墓?jié)點(diǎn)上,之所以會得到不同的結(jié)果是因?yàn)楦髯怨?jié)點(diǎn)有不同的weights 和 bias這也就是 forward propagation10. 馬爾可夫視頻Markov Chains 由 state 和 transitions 組成栗子,根據(jù)這一句話 the quick brown fox jumps over the lazy dog,要得到 ma

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論