機(jī)器學(xué)習(xí)簡(jiǎn)明原理

上傳人：永*** IP屬地：江蘇上傳時(shí)間：2022-09-17 格式：DOCX 頁(yè)數(shù)：69 大小：593.32KB 積分：28 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩64頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、機(jī)器學(xué)習(xí)簡(jiǎn)明原理講明：本文整理自IBM大數(shù)據(jù)學(xué)習(xí)文檔，原文作者：韓笑琳關(guān)于機(jī)器學(xué)習(xí)的簡(jiǎn)介機(jī)器學(xué)習(xí)是從大量數(shù)據(jù)中學(xué)習(xí)出特定規(guī)律的算法。其中提到的規(guī)律有專門多種，比如分類、聚類、回歸、關(guān)聯(lián)分析等。分類確實(shí)是給定大量帶標(biāo)簽的數(shù)據(jù)，計(jì)算出未知標(biāo)簽樣本的標(biāo)簽取值。如年齡 40 歲以上、工科、研究生以上學(xué)歷，這類人薪資水平是高收入；年齡 20-30 歲、文科、大專學(xué)歷，這類人的薪資水平是低收入；現(xiàn)有一位 23 歲大專文科人士，求該人的薪資水平是哪類？依照分類建模，就能夠明白那個(gè)人的薪資水平專門可能是低收入。聚類是將大量不帶標(biāo)簽的數(shù)據(jù)依照距離聚攏成不同的簇，每一簇?cái)?shù)據(jù)有共同的特征。如電信行業(yè)能夠依照用戶的月

2、長(zhǎng)途電話分鐘數(shù)、上網(wǎng)時(shí)長(zhǎng)、短信使用數(shù)、地理位置、月消費(fèi)數(shù)，將所有用戶聚攏成有典型特征的簇，聚攏出的某簇特征可能是月長(zhǎng)途電話分鐘數(shù)長(zhǎng)、上網(wǎng)時(shí)刻長(zhǎng)、地理位置變化不大、月消費(fèi)數(shù)目低，分析可得這類人極有可能是在校大學(xué)生，那么電信公司就能夠針對(duì)這類特定人群制定有針對(duì)性的營(yíng)銷策略?；貧w是依照特征值、目標(biāo)變量擬合出特征值與目標(biāo)變量之間的函數(shù)關(guān)系，可用來(lái)可能特征值對(duì)應(yīng)的目標(biāo)變量的可能取值。舉個(gè)簡(jiǎn)單的例子，某市今年某 100 平米的房子價(jià)格是 80 萬(wàn)，某 150 平米房子價(jià)格是 120 萬(wàn)，那么某 200 平米的房子價(jià)格的取值就可能是 200*0.8=160 萬(wàn)左右。關(guān)聯(lián)分析是計(jì)算出大量數(shù)據(jù)之間的頻繁項(xiàng)集合。

3、如超市訂單中有大量訂單同時(shí)包含啤酒與尿布，這其中的頻繁項(xiàng)確實(shí)是啤酒和尿布，那么超市就能夠針對(duì)那個(gè)規(guī)律對(duì)啤酒和尿布進(jìn)行組合促銷活動(dòng)。分類算法要緊包括K近鄰、決策樹、樸素貝葉斯、邏輯回歸、支持向量機(jī)、AdaBoost等；回歸要緊包括線性回歸、嶺回歸、lasso、樹回歸等；聚類要緊包括 K-Means 以及它的各種變形算法；關(guān)聯(lián)分析要緊包括 Apriori、FP-growth 等算法。支持向量機(jī)即 support vector machine(簡(jiǎn)稱 SVM)，是機(jī)器學(xué)習(xí)領(lǐng)域經(jīng)典的分類算法。關(guān)于 SVM 的簡(jiǎn)介支持向量是距離分類超平面近的那些點(diǎn)，SVM的思想確實(shí)是使得支持向量到分類超平面的間隔最大化。

4、動(dòng)身點(diǎn)專門容易理解，距離分類超平面近的那些點(diǎn)到該超平面的間隔最大化代表了該超平面對(duì)兩類數(shù)據(jù)的區(qū)分度強(qiáng)，不容易出現(xiàn)錯(cuò)分的情況。如 REF _Ref519850741 h * MERGEFORMAT 圖 1所示，支持向量到超平面1的間隔大于支持向量到超平面2的間隔，因此超平面1優(yōu)于超平面2。圖 SEQ 圖 * ARABIC 1 兩個(gè)超平面示例SVM 能夠?qū)ｉT好得解決二分類問(wèn)題，關(guān)于多分類情況，就需要對(duì)模型進(jìn)行改動(dòng)。如 one-versus-rest 法，這種方法每次選擇一個(gè)類不作為正樣本，剩下其他類不作為負(fù)樣本，假設(shè)一共有3個(gè)類不，如此相當(dāng)于訓(xùn)練出了3個(gè)不同的SVM。然后將測(cè)試數(shù)據(jù)分不帶入3個(gè)SV

5、M模型中，得到的3個(gè)結(jié)果中的最大值則為最終的分類結(jié)果。支持向量到分類超平面的間隔最大化的思路專門完美，按這種思路得到的模型理論上是準(zhǔn)確度最高的一種模型。然而使用過(guò)SVM的朋友都明白，調(diào)用SVM算法的測(cè)試準(zhǔn)確度并不一定都專門高。這其中有專門多緣故，比如數(shù)據(jù)預(yù)處理的效果、訓(xùn)練集的大小、特征值的選擇、參數(shù)設(shè)置以及核函數(shù)的選擇等因素。任何模型差不多上優(yōu)點(diǎn)與缺點(diǎn)并存的。SVM的優(yōu)點(diǎn)是：能夠解決線性不可分的情況。如 REF _Ref519850852 h 圖 2所示，兩類數(shù)據(jù)點(diǎn)全然無(wú)法用超平面分隔開;計(jì)算復(fù)雜度僅取決于少量支持向量，關(guān)于數(shù)據(jù)量大的數(shù)據(jù)集計(jì)算復(fù)雜度低。SVM 的缺點(diǎn)是：經(jīng)典的 SVM 算法僅

6、支持二分類，關(guān)于多分類問(wèn)題需要改動(dòng)模型;不支持類不型數(shù)據(jù)，需在預(yù)處理時(shí)期將類不型數(shù)據(jù)轉(zhuǎn)換成離散型數(shù)據(jù)。類不型數(shù)據(jù)即男、女這類由字符串表示某類信息的數(shù)據(jù)，需將這類數(shù)據(jù)轉(zhuǎn)換成離散型數(shù)據(jù)如 1、2。圖 SEQ 圖 * ARABIC 2 線性不可分問(wèn)題SVM 差不多原理SVM原理分為軟間隔最大化、拉格朗日對(duì)偶、最優(yōu)化問(wèn)題求解、核函數(shù)、序列最小優(yōu)化SMO等部分。盡管這些名詞看起來(lái)專門晦澀，然而深入探究后就會(huì)發(fā)覺其中的思想并沒有那么復(fù)雜。軟間隔最大化SVM的核心思路是最大化支持向量到分隔超平面的間隔。后面所有的推導(dǎo)差不多上以最大化此間隔為核心思想展開。一般的機(jī)器學(xué)習(xí)問(wèn)題差不多上先得到模型的目標(biāo)函數(shù)和約束

7、條件，然后在約束條件下對(duì)目標(biāo)函數(shù)求得最優(yōu)解。因此，我們下面首先需要推導(dǎo)出SVM模型的目標(biāo)函數(shù)和約束條件。既然要最大化間隔，那么回憶下點(diǎn)x到超平面(w,b)的距離公式：其中超平面的公式為：由此可推出點(diǎn) x 到超平面(w,b)的幾何間隔為：其中 xi代表第i條數(shù)據(jù)，yi代表第i條數(shù)據(jù)對(duì)應(yīng)的目標(biāo)變量的取值，取值有+1 和-1 兩種。因此當(dāng)?shù)?i條數(shù)據(jù)被正確分類時(shí)，y 取值和 w*x+b 取值的正負(fù)一致，幾何間隔為正；當(dāng)被錯(cuò)誤分類時(shí)，y 取值和 w*x+b 取值的正負(fù)相反，幾何間隔為負(fù)。圖 SEQ 圖 * ARABIC 3 樣本數(shù)關(guān)于w*x + b的取值符號(hào)定義幾何間隔中最小的為：由此，能夠得到間隔

8、最大化問(wèn)題的目標(biāo)函數(shù)：并遵循如下約束條件：做如下變換：則目標(biāo)函數(shù)轉(zhuǎn)換為：相應(yīng)的約束條件變?yōu)椋?做如下變換：可得目標(biāo)函數(shù)和約束條件變?yōu)椋?由于 w, b 成倍數(shù)變化并可不能阻礙超平面的公式，因此：現(xiàn)在得到最終的間隔最大化的目標(biāo)函數(shù)和約束條件如下：然而，到那個(gè)地點(diǎn)并沒有真正得結(jié)束?？紤]到現(xiàn)實(shí)生活中的真實(shí)數(shù)據(jù)，存在一些特異點(diǎn)即 outliers，這些數(shù)據(jù)點(diǎn)并不滿足上面推導(dǎo)出的約束條件，如 REF _Ref519850779 h * MERGEFORMAT 圖 4所示，圖中點(diǎn) A 確實(shí)是 outlier 特異點(diǎn)。圖 SEQ 圖 * ARABIC 4 Outlier特異點(diǎn)為了解決這種問(wèn)題，對(duì)每個(gè)樣本點(diǎn)

9、引進(jìn)一個(gè)松弛變量，使得約束條件變?yōu)椋喝绱私o outlier 的約束條件加上一個(gè)變量，使其能夠滿足大于等于 1 的條件。則相應(yīng)的目標(biāo)變量變?yōu)椋浩渲?C 為懲處參數(shù)，它的目的是使得目標(biāo)變量最小即幾何間隔最大，且使得松弛變量最小化。加入松弛變量的目標(biāo)函數(shù)確實(shí)是軟間隔最大化。拉格朗日對(duì)偶關(guān)于凸二次優(yōu)化問(wèn)題，通過(guò)引入拉格朗日乘子，將目標(biāo)函數(shù)和約束條件整合到拉格朗日函數(shù)中，如此能方便求解最值問(wèn)題。那么，對(duì)每個(gè)不等式約束引入拉格朗日乘子，得到拉格朗日函數(shù)如下：分析可知：則原最優(yōu)化問(wèn)題轉(zhuǎn)換成：由于原最優(yōu)化問(wèn)題直接求解專門困難，利用拉格朗日對(duì)偶性，可通過(guò)求解原最優(yōu)化問(wèn)題的對(duì)偶問(wèn)題得到原問(wèn)題的最優(yōu)解。原最優(yōu)化問(wèn)

10、題的對(duì)偶問(wèn)題為：最優(yōu)化問(wèn)題求解到此為止，差不多將目標(biāo)函數(shù)和約束條件轉(zhuǎn)換成了極大微小化拉格朗日函數(shù)的問(wèn)題了。首先求解關(guān)于拉格朗日函數(shù)的微小化問(wèn)題。對(duì)三個(gè)變量分不求偏導(dǎo)得：將以上三式帶入拉格朗日函數(shù)中得：那么極大微小化拉格朗日函數(shù)轉(zhuǎn)換成：為求解方便，將極大轉(zhuǎn)換成微小得：核函數(shù)關(guān)于線性不可分問(wèn)題，如 REF _Ref519850852 h * MERGEFORMAT 圖 2所示，這類問(wèn)題是無(wú)法用超平面劃分正負(fù)樣本數(shù)據(jù)的。倘若能將超平面換成超曲面，則能夠?qū)⒄?fù)樣本正確分類，如 REF _Ref519850927 h * MERGEFORMAT 圖 5所示。圖 SEQ 圖 * ARABIC 5 超曲

11、面分離正負(fù)樣本我們明白曲面的公式是：映射到新坐標(biāo)如下：可將超曲面在新坐標(biāo)下表示成超平面：也確實(shí)是將在二維空間(x1,x2)下線性不可分的問(wèn)題轉(zhuǎn)換成了在五維空間(z1,z2,z3,z4,z5)下線性可分的問(wèn)題。得映射后新坐標(biāo)下的內(nèi)積：有一核函數(shù)如下：可知何為核函數(shù)？核函數(shù)在低維空間中完成了映射到高維空間后的內(nèi)積運(yùn)算。這點(diǎn)特不有用，利用核函數(shù)，無(wú)需先將變量一一映射到高維空間再計(jì)算內(nèi)積，而是簡(jiǎn)單得在低維空間中利用核函數(shù)完成這一操作。什么緣故講不用一一映射到高維空間專門有用呢？緣故就在于首先我們無(wú)法針對(duì)每種情況提供精確的映射函數(shù)，再者關(guān)于需要映射到無(wú)窮維的情況顯然無(wú)法一一映射完成。那么什么緣故是映射

12、到高維后的內(nèi)積運(yùn)算呢？這是因?yàn)樵谏瞎?jié)中我們得到了如下目標(biāo)函數(shù)：正是因?yàn)樵撃繕?biāo)函數(shù)中包含自變量的內(nèi)積運(yùn)算，而映射到高維空間后的內(nèi)積運(yùn)算又恰好能夠通過(guò)核函數(shù)在低維空間中直接求得，故而有了核函數(shù)的由來(lái)。較常用的核函數(shù)是高斯核，高斯核能夠?qū)⒌途S空間映射到無(wú)窮維。運(yùn)用核函數(shù)后，最優(yōu)化問(wèn)題的目標(biāo)函數(shù)和約束條件變?yōu)椋?序列最小優(yōu)化 (Sequential minimal optimization)到目前為止，優(yōu)化問(wèn)題差不多轉(zhuǎn)化成了一個(gè)包含 N 個(gè) alpha 自變量的目標(biāo)變量和兩個(gè)約束條件。由于目標(biāo)變量中自變量 alpha 有 N 個(gè)，為了便與求解，每次選出一對(duì)自變量 alpha，然后求目標(biāo)函數(shù)關(guān)于其中一

13、個(gè) alpha 的偏導(dǎo)，如此就能夠得到這一對(duì) alpha 的新值。給這一對(duì) alpha 賦上新值，然后不斷重復(fù)選出下一對(duì) alpha 并執(zhí)行上述操作，直到達(dá)到最大迭代數(shù)或沒有任何自變量 alpha 再發(fā)生變化為止，這確實(shí)是 SMO 的差不多思想。講直白些，SMO 確實(shí)是在約束條件下對(duì)目標(biāo)函數(shù)的優(yōu)化求解算法。為何不能每次只選一個(gè)自變量進(jìn)行優(yōu)化？那是因?yàn)橹贿x一個(gè)自變量 alpha 的話，會(huì)違反第一個(gè)約束條件，即所有 alpha 和 y 值乘積的和等于 0。下面是詳細(xì)的 SMO 過(guò)程。假設(shè)選出了兩個(gè)自變量分不是 alpha1 和 alpha2，除了這兩個(gè)自變量之外的其他自變量保持固定，則目標(biāo)變量和約

14、束條件轉(zhuǎn)化為：將約束條件中的 alpha1 用 alpha2 表示，并代入目標(biāo)函數(shù)中，則將目標(biāo)函數(shù)轉(zhuǎn)化成只包含 alpha2 的目標(biāo)函數(shù)，讓該目標(biāo)函數(shù)對(duì) alpha2 的偏導(dǎo)等于 0：可求得 alpha2 未經(jīng)修剪的值：之因此講 alpha2 是未經(jīng)修剪的值是因?yàn)樗?alpha 都必須滿足大于等于 0 且小于等于 C 的約束條件，用此約束條件將 alpha2 進(jìn)行修剪，修剪過(guò)程如下：由此得：分兩種情況討論：情況 1.當(dāng) y1 等于 y2 時(shí)，有：情況 2.當(dāng) y1 不等于 y2 時(shí)，有：修剪后，可得 alpha2 的取值如下：由 alpha2 和 alpha1 的關(guān)系，可得：在完

15、成 alpha1 和 alpha2 的一輪更新后，需要同時(shí)更新 b 的值，當(dāng) alpha1 更新后的值滿足 0alpha1C 時(shí)，由 KKT 條件得：由于篇幅有限，在此就不把推導(dǎo)過(guò)程一一列舉，可得：同樣的道理，當(dāng) alpha2 更新后的值滿足 0alpha1 牛奶，該規(guī)則的置信度是 0.9，意味著在所有買了雞蛋和面包的客戶中，有 90%的客戶還買了牛奶。關(guān)聯(lián)規(guī)則能夠用來(lái)發(fā)覺專門多有味的規(guī)律。這其中需要先闡明兩個(gè)概念：支持度和置信度。支持度 Support支持度指某頻繁項(xiàng)集在整個(gè)數(shù)據(jù)集中的比例。假設(shè)數(shù)據(jù)集有 10 條記錄，包含雞蛋, 面包的有 5 條記錄，那么雞蛋, 面包的支持度確實(shí)是 5/10

16、 = 0.5。置信度 Confidence置信度是針對(duì)某個(gè)關(guān)聯(lián)規(guī)則定義的。有關(guān)聯(lián)規(guī)則如雞蛋, 面包 - 牛奶，它的置信度計(jì)算公式為雞蛋, 面包, 牛奶的支持度/雞蛋, 面包的支持度。假設(shè)雞蛋, 面包, 牛奶的支持度為 0.45，雞蛋, 面包的支持度為 0.5，則雞蛋, 面包 - 牛奶的置信度為 0.45 / 0.5 = 0.9。關(guān)聯(lián)規(guī)則用于發(fā)覺 if - then 如此的規(guī)則，并能夠給出這條規(guī)則的可信度（即置信度）?，F(xiàn)實(shí)場(chǎng)景中能夠用來(lái)發(fā)覺專門多規(guī)律，下面舉個(gè)例子。在信息安全領(lǐng)域，需要依照已有流量數(shù)據(jù)制定規(guī)則，來(lái)推斷是否觸發(fā)安全報(bào)警。如規(guī)則數(shù)據(jù)包大，多個(gè)ip地址同時(shí)發(fā)送數(shù)據(jù) - 異常，該規(guī)則的置

17、信度為 0.85。這條規(guī)則表示，當(dāng)流量數(shù)據(jù)包大，并有多個(gè)ip地址同時(shí)向目標(biāo)ip發(fā)送數(shù)據(jù)時(shí)，則有 85%的概率存在異常，需要觸發(fā)報(bào)警。頻繁項(xiàng)集挖掘原理頻繁項(xiàng)集挖掘分為構(gòu)建 FP 樹，和從 FP 樹中挖掘頻繁項(xiàng)集兩步。本節(jié)用如下表所示的數(shù)據(jù)集作為例子展開，該示例數(shù)據(jù)集共四條數(shù)據(jù)。表格 SEQ 表格 * ARABIC 1 示例數(shù)據(jù)集數(shù)據(jù)集a,b,cc,d,b,ad,e,ab,a構(gòu)建 FP 樹構(gòu)建 FP 樹時(shí)，首先統(tǒng)計(jì)數(shù)據(jù)集中各個(gè)元素出現(xiàn)的頻數(shù)，將頻數(shù)小于最小支持度的元素刪除，然后將數(shù)據(jù)集中的各條記錄按出現(xiàn)頻數(shù)排序，剩下的這些元素稱為頻繁項(xiàng)；接著，用更新后的數(shù)據(jù)集中的每條記錄構(gòu)建 FP 樹，同時(shí)更新頭

18、指針表。頭指針表包含所有頻繁項(xiàng)及它們的頻數(shù)，還有每個(gè)頻繁項(xiàng)指向下一個(gè)相同元素的指針，該指針要緊在挖掘 FP 樹時(shí)使用。下面用上文提到的數(shù)據(jù)集展開講明，假設(shè)最小支持度為 2。首先，統(tǒng)計(jì)數(shù)據(jù)集中各元素出現(xiàn)的次數(shù)，得 a 出現(xiàn) 4 次, b 出現(xiàn) 3 次, c 出現(xiàn) 2 次, d 出現(xiàn) 2 次, e 出現(xiàn) 1 次。接著，將出現(xiàn)次數(shù)小于最小支持度 2 的元素（即 e）在數(shù)據(jù)集中刪除，并將數(shù)據(jù)集按出現(xiàn)次數(shù)由高到低排序，得 REF _Ref519851008 h * MERGEFORMAT 表格 2。表格 SEQ 表格 * ARABIC 2 示例數(shù)據(jù)集數(shù)據(jù)集a,b,ca,b,c,da,da,b然后，用更新

19、后的數(shù)據(jù)集中的記錄創(chuàng)建 FP 樹，并同時(shí)更新頭指針表。創(chuàng)建 FP 樹時(shí)，當(dāng)待添加的記錄與 FP 樹中的路徑相同，則只需更新元素對(duì)應(yīng)的頻數(shù)；假如待添加的記錄與 FP 樹存在不一致，則在不一致的地點(diǎn)分叉，創(chuàng)建新的結(jié)點(diǎn)。如 REF _Ref519851068 h * MERGEFORMAT 圖 6 REF _Ref519851073 h * MERGEFORMAT 圖 9所示。注意，F(xiàn)P 樹的根節(jié)點(diǎn)是 null。圖 SEQ 圖 * ARABIC 6 向FP樹添加第一條記錄 a,b,c 圖 SEQ 圖 * ARABIC 7向FP樹添加第二條記錄 a,b,c,d 圖 SEQ 圖 * ARABIC 8向F

20、P樹添加第三條記錄 a ,d 圖 SEQ 圖 * ARABIC 9向FP樹添加第四條記錄 a ,b 挖掘頻繁項(xiàng)集得到 FP 樹后，需要對(duì)每一個(gè)頻繁項(xiàng)，逐個(gè)挖掘頻繁項(xiàng)集。具體過(guò)程為：首先獲得頻繁項(xiàng)的前綴路徑，然后將前綴路徑作為新的數(shù)據(jù)集，以此構(gòu)建前綴路徑的條件 FP 樹。然后對(duì)條件 FP 樹中的每個(gè)頻繁項(xiàng)，獲得前綴路徑并以此構(gòu)建新的條件 FP 樹。不斷迭代，直到條件 FP 樹中只包含一個(gè)頻繁項(xiàng)為止。下面以元素 c 為例，從上文 REF _Ref519851073 h * MERGEFORMAT 圖 9創(chuàng)建好的 FP 樹中挖掘頻繁項(xiàng)集。首先，獲得以 c 元素的前綴路徑a:2,b:2，注意此處 a

21、和 b 的頻數(shù)為 2 是因?yàn)?c 的頻數(shù)為 2，因此與 c 共同出現(xiàn)的 a 和 b 的頻數(shù)就都為 2。接著，創(chuàng)建條件 FP 樹，具體的創(chuàng)建過(guò)程和上一節(jié)創(chuàng)建 FP 樹的過(guò)程一樣，如 REF _Ref519851137 h * MERGEFORMAT 圖 10所示。圖 SEQ 圖 * ARABIC 10 c元素的前綴路徑構(gòu)成的條件 FP 樹注意現(xiàn)在頭指針表中包含兩個(gè)元素，因此對(duì)每個(gè)元素，需要獲得前綴路徑，并將前綴路徑創(chuàng)建成條件 FP 樹，直到條件 FP 樹中只包含一個(gè)元素時(shí)返回。對(duì)元素 a，獲得前綴路徑為，則頻繁項(xiàng)集返回c,a;對(duì)元素 b，獲得前綴路徑a，則將前綴路徑創(chuàng)建成條件 FP 樹，如 R

22、EF _Ref519851168 h * MERGEFORMAT 圖 11所示。注意現(xiàn)在條件 FP 樹中只包含一個(gè)元素，故返回頻繁項(xiàng)集c,b,a。由于元素 b 也是頻繁項(xiàng)，因此c,b也是頻繁項(xiàng)集。再加上c本身確實(shí)是頻繁項(xiàng)集，因此 c 對(duì)應(yīng)的頻繁項(xiàng)集有：c c,a c,b c,b,a。圖 SEQ 圖 * ARABIC 11 b元素的前綴路徑構(gòu)成的條件FP樹將其他元素 a,b,d 同樣按照上述對(duì) c 的操作，得到 REF _Ref519851195 h * MERGEFORMAT 表格 3所示頻繁項(xiàng)集。表格 SEQ 表格 * ARABIC 3 元素a,b,c,d對(duì)應(yīng)的頻繁項(xiàng)集元素頻繁項(xiàng)集a a b

23、 b b,a c c c,a c,b c,b,a d d d,a 關(guān)聯(lián)規(guī)則挖掘原理關(guān)聯(lián)規(guī)則挖掘首先需要對(duì)上文得到的頻繁項(xiàng)集構(gòu)建所有可能的規(guī)則，然后對(duì)每條規(guī)則逐個(gè)計(jì)算置信度，輸出置信度大于最小置信度的所有規(guī)則。以頻繁項(xiàng)集a,b,c為例，構(gòu)建所有可能的規(guī)則：b,c - a, a,c - b,a,b - c,c - a,b,b - a,c,a - b,c。對(duì)每條規(guī)則計(jì)算置信度后，輸出滿足要求的規(guī)則即可。NaiveBayes差不多原理樸素貝葉斯模型要緊用來(lái)分類，然而與 SVM 模型不同的的是，樸素貝葉斯模型不需要針對(duì)目標(biāo)變量建立模型，而是借助貝葉斯公式計(jì)算樣本屬于各個(gè)類不的概率，然后取概率值大的類不作

24、為分類類不。之因此稱之為樸素，是因?yàn)闃闼刎惾~斯模型假設(shè)各屬性之間是條件獨(dú)立的，該假設(shè)極大得簡(jiǎn)化了運(yùn)算，使得樸素貝葉斯模型變得特不簡(jiǎn)單。樸素貝葉斯模型要緊應(yīng)用在文本分類方面。那個(gè)地點(diǎn)需要用到向量空間模型，立即文本轉(zhuǎn)換成詞向量。詞向量的每一項(xiàng)是該詞出現(xiàn)的頻數(shù)。在樸素貝葉斯中會(huì)將頻數(shù)進(jìn)一步轉(zhuǎn)換成頻率。如此就完成了文本到數(shù)值上的轉(zhuǎn)化，方便后期計(jì)算條件概率和先驗(yàn)概率。樸素貝葉斯模型也有它的優(yōu)缺點(diǎn)，優(yōu)點(diǎn)是模型簡(jiǎn)單，計(jì)算快；缺點(diǎn)是依靠于屬性之間條件獨(dú)立這一假設(shè)，然而現(xiàn)實(shí)場(chǎng)景下專門多情況并不滿足這一假設(shè)，使得樸素貝葉斯的準(zhǔn)確率受到阻礙。這種情況需要考慮半樸素貝葉斯，即放松屬性之間條件獨(dú)立這一假設(shè)，一定程度上考

25、慮屬性之間的依靠關(guān)系。由于篇幅有限，對(duì)半樸素貝葉斯感興趣的話可自行參照文末參考資源學(xué)習(xí)，本文重點(diǎn)介紹樸素貝葉斯的原理和實(shí)現(xiàn)。樸素貝葉斯原理樸素貝葉斯模型要緊利用貝葉斯公式進(jìn)行展開。貝葉斯公式如下：公式中 P(C|X)表示 X 屬于類不 C 的概率，P(X|C)表示類不 C 中 X 出現(xiàn)的概率，P(C)表示類不 C 出現(xiàn)的概率。其中 P(C)稱為先驗(yàn)概率，P(X|C)是條件概率，P(C|X)稱為后驗(yàn)概率，將后驗(yàn)概率最大的類作為 X 的類不輸出。假設(shè)有 C0 和 C1 兩個(gè)類，由于 P(X)差不多上一樣的，因此不需要考慮 P(X),只需考慮如下：假如P(X|C0) *P(C0) P(X|C1) *

27、算法又分專門多種，常用的有ID3，C4.5 和 CART 決策樹。其中ID3和C4.5決策樹更傾向于處理類不型的離散屬性值，關(guān)于連續(xù)型屬性值，則需要額外利用連續(xù)屬性離散化技術(shù)將其劃分成離散型屬性值。而CART決策樹，即分類回歸樹，直接支持連續(xù)型屬性值。由于篇幅限制CART樹會(huì)放在下一篇文章進(jìn)行介紹，本文要緊詳細(xì)介紹 ID3 和 C4.5 決策樹。決策樹利用了樹型結(jié)構(gòu)進(jìn)行決策，是經(jīng)典的 if-then 結(jié)構(gòu)。葉節(jié)點(diǎn)存儲(chǔ)類不，內(nèi)部節(jié)點(diǎn)代表特征或?qū)傩浴Ｗ⒁獗疚闹刑岬降奶卣骱蛯傩允峭粋€(gè)概念。為了讓讀者有一個(gè)感性的認(rèn)識(shí)，請(qǐng)看 REF _Ref520122910 h * MERGEFORMAT 圖 12

28、所示決策樹。圖 SEQ 圖 * ARABIC 12 決策樹示例圖1所示決策樹用來(lái)將數(shù)據(jù)分為兩類，是蘋果和非蘋果。如圖中所示，圓的和紅的，確實(shí)是蘋果。不圓的不是蘋果。圓的但不紅的不是蘋果。本文將著重介紹ID3和C4.5兩種決策樹。決策樹需要選擇最優(yōu)特征劃分?jǐn)?shù)據(jù)集。這兩種決策樹的不同之處是劃分?jǐn)?shù)據(jù)集的最優(yōu)特征選擇方法不同。用最優(yōu)特征劃分?jǐn)?shù)據(jù)會(huì)使得數(shù)據(jù)集趨于更純，即數(shù)據(jù)集的類不數(shù)更單一，如此的數(shù)據(jù)會(huì)更有序。衡量數(shù)據(jù)的混亂程度就必須提到信息和信息熵的概念。待分類的事物可能劃分在多個(gè)類不中，則符號(hào) Xi 的信息是:可知P(Xi) 越大，則 I(Xi) 越小，即Xi的概率越大，則Xi包含的信息越少。我們都

29、明白物理中的熵用來(lái)衡量混亂程度，熵越大講明越混亂，熵越小講明越單一。同樣，信息熵用來(lái)衡量信息中的混亂程度。用所有類不所有可能值包含的信息期望值表示信息熵，計(jì)算方法如下：ID3 決策樹利用了信息增益來(lái)選擇最優(yōu)特征，用這種方法選擇的特征是使得信息熵增益最大的特征。而 C4.5決策樹利用了信息增益比來(lái)選擇最優(yōu)特征。用這種方法選擇的特征是使得信息增益比最大的特征。什么緣故要提出信息增益比呢？這是因?yàn)橹豢紤]信息增益來(lái)劃分?jǐn)?shù)據(jù)集是有缺陷的。這種缺陷體現(xiàn)在信息增益對(duì)選擇屬性取值多的特征更有利。因?yàn)榘磳傩匀≈刀嗟奶卣鲃澐謹(jǐn)?shù)據(jù)集后，劃分后的各個(gè)子數(shù)據(jù)集的類不更單一，即更趨于有序，這就使得劃分后的信息熵更小，那么

30、信息增益就會(huì)更大。信息增益比能夠?qū)ｉT好的解決那個(gè)問(wèn)題。信息增益比通過(guò)引入類似懲處因子的概念，對(duì)屬性取值多的特征會(huì)有一定懲處。決策樹原理選擇最優(yōu)特征決策樹通過(guò)不斷選擇最優(yōu)特征劃分?jǐn)?shù)據(jù)集，對(duì)劃分后的子數(shù)據(jù)集不斷迭代得選擇最優(yōu)特征劃分，直到所有的數(shù)據(jù)集屬于同一個(gè)類不，或者沒有特征能夠選擇為止。選擇最優(yōu)特征的算法有專門多種，ID3 決策樹用信息增益選擇最優(yōu)特征，C4.5 決策樹用信息增益比選擇最優(yōu)特征。信息增益-用于ID3決策樹信息增益，顧名思義確實(shí)是原數(shù)據(jù)集的信息熵比劃分后數(shù)據(jù)集的信息熵大的程度。信息增益越大，講明劃分后的數(shù)據(jù)集信息熵更小，即該數(shù)據(jù)集類不更趨于一致。特征 A 對(duì)數(shù)據(jù)集 D 的信息增益

31、 g(D,A)為 D 的信息熵與按特征 A 進(jìn)行劃分后 D 的信息熵之差，即其中，信息增益比用于 C4.5 決策樹信息增益比為了幸免傾向于選擇屬性值多的特征作為最優(yōu)特征那個(gè)問(wèn)題，在信息增益的基礎(chǔ)上引入了類似懲處因子的概念。特征 A 對(duì)數(shù)據(jù)集 D 的信息增益比gg(D,A)為信息增益 g(D,A) 與數(shù)據(jù)集 D 關(guān)于特征 A 的取值的熵 HA(D) 的比值，即其中,其中，n 是特征 A 取值的個(gè)數(shù)。HA(D) 就類似懲處因子，關(guān)于屬性值多的特征，盡管信息增益 g(D,A) 會(huì)比較大，然而數(shù)據(jù)集 D 關(guān)于特征 A 的取值的熵 HA(D) 會(huì)比較大，因而兩者的比值信息增益比 gg(D,A) 會(huì)比

32、較小。除了能夠使用信息增益和信息增益比來(lái)選擇最優(yōu)劃分特征之外，基尼指數(shù)也能夠用來(lái)實(shí)現(xiàn)那個(gè)目的?；嶂笖?shù)要緊用于 CART 樹(即分類回歸樹)的分類樹中的特征選擇。關(guān)于基尼指數(shù)的詳細(xì)內(nèi)容會(huì)在下一篇文章介紹。用 ID3 決策樹進(jìn)行分類本節(jié)要緊介紹用 ID3 決策樹進(jìn)行分類。為了便于理解，用表1所示數(shù)據(jù)集進(jìn)行詳細(xì)講明。利用 C4.5 決策樹進(jìn)行分類的過(guò)程會(huì)在下節(jié)介紹。表格 SEQ 表格 * ARABIC 8 示例數(shù)據(jù)集圓的紅的分類111100010000100ID3決策樹選擇最優(yōu)特征 REF _Ref520123803 h * MERGEFORMAT 表格 8數(shù)據(jù)集的信息熵為:-1/5 * log(

33、1/5) - 4/5 * log(4/5) = 0.217按特征圓的劃分?jǐn)?shù)據(jù)集，則信息熵為：3/5 * H(D1) + 2/5 * H(D0)= 3/5 * -1/3 * log(1/3) 2/3 * log(2/3) + 2/5 * -2/2 * log(2/2)= 0.166則信息增益為：0.217 0.166 = 0.051按特征紅的劃分?jǐn)?shù)據(jù)集，則信息熵為：2/5 * H(D1) + 3/5 * H(D0)= 2/5 * -1/2 * log(1/2) 1/2 * log(1/2) + 3/5 * -3/3 * log(3/3)= 0.120則信息增益為：0.217 0.120 =0.0

34、97綜上所述，由于按特征紅的比按特征圓的劃分的信息增益大，因此特征紅的為最優(yōu)劃分特征。按最優(yōu)特征劃分?jǐn)?shù)據(jù)集按特征紅的劃分?jǐn)?shù)據(jù)集后，有兩種情況，第一種為假如是紅的:0,則分類:0; 第二種為假如是紅的:1, 則得到如下數(shù)據(jù)子集圓的:1,分類：1; 圓的:0, 分類:0接下來(lái)需要對(duì)數(shù)據(jù)子集圓的:1,分類：1; 圓的:0, 分類:0接著劃分。由于剩下一個(gè)特征，故按特征圓的劃分?jǐn)?shù)據(jù)子集。劃分后，假如是圓的:1，則分類:1；假如是圓的:0, 則分類:0。返回的決策樹用字典表示為：紅的: 0: 類不0, 1: 圓的: 0: 類不0, 1: 類不1用 C4.5 決策樹進(jìn)行分類為了讓讀者對(duì) ID3 和 C4

35、.5 決策樹的不同之處有更好的理解，本節(jié)介紹用 C4.5 決策樹進(jìn)行分類。為了便于理解，仍然使用 REF _Ref520123803 h * MERGEFORMAT 表格 8所示數(shù)據(jù)集進(jìn)行講明。C4.5 決策樹選擇最優(yōu)特征 REF _Ref520123803 h * MERGEFORMAT 表格 8數(shù)據(jù)集的信息熵為:-1/5 * log(1/5) - 4/5 * log(4/5) = 0.217按特征圓的劃分?jǐn)?shù)據(jù)集，則信息熵為：3/5 * H(D1) + 2/5 * H(D0)= 3/5 * -1/3 * log(1/3) 2/3 * log(2/3) + 2/5 * -2/2 * log(2

36、/2)= 0.166則信息增益為：0.217 0.166 = 0.051數(shù)據(jù)集關(guān)于特征圓的的取值的熵為:-3/5 * log(3/5) 2/5 * log(2/5) = 0.29則信息增益比為0.051 / 0.29 = 0.176按特征紅的劃分?jǐn)?shù)據(jù)集，則信息熵為：2/5 * H(D1) + 3/5 * H(D0)= 2/5 * -1/2 * log(1/2) 1/2 * log(1/2) + 3/5 * -3/3*log(3/3)= 0.120則信息增益為：0.217 0.120 =0.097數(shù)據(jù)集關(guān)于特征紅的的取值的熵為：-2/5 * log(2/5) 3/5 * log(3/5) = 0

37、.29則信息增益比為 0.097 / 0.29 = 0.334綜上所述，由于按特征紅的比按特征圓的劃分的信息增益比大，因此特征紅的為最優(yōu)劃分特征。按最優(yōu)特征劃分?jǐn)?shù)據(jù)集C4.5 決策樹按最優(yōu)特征劃分?jǐn)?shù)據(jù)集方法與上節(jié) ID3 決策樹方法相同。分類回歸樹差不多原理在上節(jié)中，要緊介紹了 ID3 和 C4.5 決策樹。它們利用信息增益和信息增益比劃分?jǐn)?shù)據(jù)集。然而這兩種決策樹是有缺陷的，即按某特征劃分后，該特征將可不能在后面的劃分中出現(xiàn)。這就導(dǎo)致了劃分過(guò)于迅速，從而阻礙分類結(jié)果。在這篇文章中將要介紹的CART（Classification And Regression Tree）樹，即分類回歸樹利用二分策

38、略，有效地幸免了劃分過(guò)于迅速這一問(wèn)題。而且二分策略能夠直接處理連續(xù)型屬性值。CART樹（分類回歸樹）分為分類樹和回歸樹。顧名思義，分類樹用于處理分類問(wèn)題；回歸樹用來(lái)處理回歸問(wèn)題。我們明白分類和回歸是機(jī)器學(xué)習(xí)領(lǐng)域兩個(gè)重要的方向。分類問(wèn)題輸出特征向量對(duì)應(yīng)的分類結(jié)果，回歸問(wèn)題輸出特征向量對(duì)應(yīng)的預(yù)測(cè)值。分類樹和 ID3、C4.5決策樹相似，都用來(lái)處理分類問(wèn)題。不同之處是劃分方法。分類樹利用基尼指數(shù)進(jìn)行二分。如 REF _Ref520124355 h * MERGEFORMAT 圖 13所示確實(shí)是一個(gè)分類樹。圖 SEQ 圖 * ARABIC 13 分類樹示例回歸樹用來(lái)處理回歸問(wèn)題?；貧w將已知數(shù)據(jù)進(jìn)行擬合

39、，關(guān)于目標(biāo)變量未知的數(shù)據(jù)能夠預(yù)測(cè)目標(biāo)變量的值。如 REF _Ref520124422 h * MERGEFORMAT 圖 14所示確實(shí)是一個(gè)回歸樹，其中 s 是切分點(diǎn)，x 是特征，y 是目標(biāo)變量。能夠看出 REF _Ref520124422 h * MERGEFORMAT 圖 14利用切分點(diǎn)s將特征空間進(jìn)行劃分，y是在劃分單元上的輸出值。回歸樹的關(guān)鍵是如何選擇切分點(diǎn)、如何利用切分點(diǎn)劃分?jǐn)?shù)據(jù)集、如何預(yù)測(cè)y的取值。圖 SEQ 圖 * ARABIC 14 回歸樹示例CART 樹原理分類樹二分分類樹利用二分劃分?jǐn)?shù)據(jù)。將特征值等于切分點(diǎn)值的數(shù)據(jù)劃分為左子樹，將特征值不等于切分點(diǎn)值的數(shù)據(jù)劃分為右子樹?；?/p>

40、指數(shù)：同信息增益、信息增益比作用類似，只是基尼指數(shù)相對(duì)更快假設(shè)有 N 個(gè)類，樣本屬于第 n 類的概率為Pn，則基尼指數(shù)為：若數(shù)據(jù)集按特征A取值是否等于切分點(diǎn)值劃分為D1和D2兩部分，則在特征A下，集合D的基尼指數(shù)為：回歸樹二分回歸樹也利用二分劃分?jǐn)?shù)據(jù)。與分類樹不同的是，回歸樹將特征值大于切分點(diǎn)值的數(shù)據(jù)劃分為左子樹，將特征值小于等于切分點(diǎn)值的數(shù)據(jù)劃分為右子樹。平方誤差不同于分類樹，回歸樹用平方誤差選擇切分點(diǎn)。若數(shù)據(jù)集按特征取值是否大于切分點(diǎn)值劃分為兩部分，則在特征A下，集合D的平方誤差為：用 CART 樹進(jìn)行分類和回歸本節(jié)要緊用示例數(shù)據(jù)詳細(xì)講明如何用 CART 樹進(jìn)行分類和回歸。分類樹表格 SE

41、Q 表格 * ARABIC 9 示例數(shù)據(jù)集圓的紅的分類111100010000100選擇最優(yōu)特征按特征圓的 = 1 劃分?jǐn)?shù)據(jù)集，則Gini為：3/5 * Gini(D1) + 2/5 * Gini(D0)= 3/5 * 1/3 * 2/3 + 2/3 * 1/3 + 2/5 * 0= 0.266按特征紅的 = 1 劃分?jǐn)?shù)據(jù)集，則Gini為：2/5 * Gini(D1) + 3/5 * Gini(D0)= 2/5 * 1/2 * 1/2 + 1/2 * 1/2 + 3/5 * 0= 0.2綜上所述，由于按特征紅的比特征圓的劃分的基尼指數(shù)小，因此特征紅的 = 1 為切分點(diǎn)。按最優(yōu)特征劃分?jǐn)?shù)據(jù)集按特

42、征紅的劃分?jǐn)?shù)據(jù)集后，有兩種情況，第一種為假如是紅的:0,則分類:0; 第二種為假如是紅的:1, 則有如下數(shù)據(jù)子集圓的:1,分類：1; 圓的:0, 分類:0接下來(lái)需要對(duì)數(shù)據(jù)子集圓的:1,分類：1; 圓的:0, 分類:0接著劃分。由于剩下一個(gè)特征，故按特征圓的劃分?jǐn)?shù)據(jù)集。劃分后，假如是圓的:1，則分類:1；假如是圓的:0, 則分類:0。返回的決策樹為：紅的: 0: 類不 0, 1: 圓的: 0: 類不 0, 1: 類不 1回歸樹表格 SEQ 表格 * ARABIC 10 示例數(shù)據(jù)集面積/平米價(jià)格/萬(wàn)2040.12140.33570.43670.2選擇最優(yōu)特征按特征面積 = 20 劃分?jǐn)?shù)據(jù)集，y1

43、均值為 40.1，y2 均值為(40.3 + 70.4 + 70.2) / 3 = 60.3,則平方誤差為：0 + （40.3 60.3）2+ （70.4 60.3）2+（70.2 60.3）2 = 600.02按特征面積 = 21 劃分?jǐn)?shù)據(jù)集，則平方誤差為：y1 均值為(40.1 + 40.3)/ 2 = 40.2，y2 均值為(70.4 + 70.2) / 2 = 70.3,則平方誤差為：（40.1 40.2）2+（40.3 40.2）2+ （70.4 70.3）2+（70.2 70.3）2 = 0.043.按特征面積 = 35 劃分?jǐn)?shù)據(jù)集，則平方誤差為：y1 均值為(40.1 + 40

44、.3 + 70.4) / 3 = 50.27，y2 均值為 70.2,則平方誤差為：（40.1 50.27）2+ （40.3 50.27）2+（70.4 50.27）2+ 0 = 608.05綜上所述，由于按特征面積 = 21 比特征面積 = 20、面積 = 35 劃分的平方誤差小，因此特征面積 = 21 為切分點(diǎn)。按最優(yōu)特征劃分?jǐn)?shù)據(jù)集以特征面積 = 21 為切分點(diǎn)，將數(shù)據(jù)切分為面積 = 20,價(jià)格 = 40.1; 面積 = 21, 價(jià)格 = 40.3，面積 = 35,價(jià)格 = 70.4; 面積 = 36, 價(jià)格 = 70.2兩個(gè)子集。其中子集面積 = 20,價(jià)格 = 40.1; 面積 =

45、21, 價(jià)格 = 40.3的目標(biāo)變量特不接近，故不接著劃分，得葉節(jié)點(diǎn)值(40.1 + 40.3) / 2 = 40.2；同理得子集面積 = 35,價(jià)格 = 70.4; 面積 = 36, 價(jià)格 = 70.2的葉節(jié)點(diǎn)值為 (70.4 + 70.2) / 2 = 70.3。Adaboost差不多原理前面內(nèi)容涵蓋了分類、回歸、關(guān)聯(lián)分析等諸多模型，其中分類模型被介紹得最多。緣故是分類在機(jī)器學(xué)習(xí)方向是應(yīng)用最廣的方向之一。本文將要介紹的是分類模型中的另一種模型，AdaBoost（adaptive boosting），即自適應(yīng)提升算法。Boosting 是一類算法的總稱，這類算法的特點(diǎn)是通過(guò)訓(xùn)練若干弱分類器

46、，然后將弱分類器組合成強(qiáng)分類器進(jìn)行分類。什么緣故要如此做呢？因?yàn)槿醴诸惼饔?xùn)練起來(lái)專門容易，將弱分類器集成起來(lái)，往往能夠得到專門好的效果。俗話講，三個(gè)臭皮匠，頂個(gè)諸葛亮，確實(shí)是那個(gè)道理。這類 boosting 算法的特點(diǎn)是各個(gè)弱分類器之間是串行訓(xùn)練的，當(dāng)前弱分類器的訓(xùn)練依靠于上一輪弱分類器的訓(xùn)練結(jié)果。各個(gè)弱分類器的權(quán)重是不同的，效果好的弱分類器的權(quán)重大，效果差的弱分類器的權(quán)重小。值得注意的是，AdaBoost 不止適用于分類模型，也能夠用來(lái)訓(xùn)練回歸模型。這需要將弱分類器替換成回歸模型，并改動(dòng)損失函數(shù)。本文將重點(diǎn)介紹用 AdaBoost 進(jìn)行分類的算法原理。AdaBoost 算法有其獨(dú)特的優(yōu)點(diǎn)，那

47、確實(shí)是能夠?qū)⒉煌姆诸愃惴ńM合起來(lái)，形成強(qiáng)分類器。這就能夠充分利用不同分類算法的優(yōu)勢(shì)進(jìn)行建模。也能夠?qū)⑼凰惴ǖ牟煌O(shè)置進(jìn)行組合，如此訓(xùn)練的模型比單一設(shè)置模型的訓(xùn)練精度高。因此，就如每一個(gè)算法都有自己的優(yōu)缺點(diǎn)一樣，AdaBoost 也有自身的缺點(diǎn)。AdaBoost 算法只直接支持二分類，遇到多分類的情況，需要借助 one-versus-rest 的思想來(lái)訓(xùn)練多分類模型。關(guān)于 one-verus-rest 的細(xì)節(jié)能夠參考本系列第一篇文章 SVM。為了讓讀者有一個(gè)感性的認(rèn)識(shí)，在文章一開始先舉個(gè) AdaBoost 訓(xùn)練出來(lái)的強(qiáng)分類器的例子，如下所示，強(qiáng)分類器 G(x)中包含三個(gè)弱分類器 f(x),

48、g(x) 和 z(x)，其中每個(gè)弱分類器的權(quán)重分不為0.80, 0.69和0.71。G(x) = sign( 0.80 * f(x) + 0.69 * g(x) + 0.71 * z(x) )AdaBoost原理AdaBoost 的核心確實(shí)是不斷迭代訓(xùn)練弱分類器，并計(jì)算弱分類器的權(quán)重。需要注意的是，弱分類器的訓(xùn)練依靠于樣本權(quán)重。每一輪迭代的樣本權(quán)重都不相同，依靠于弱分類器的權(quán)重值和上一輪迭代的樣本權(quán)重。具體過(guò)程如下：訓(xùn)練當(dāng)前迭代最優(yōu)弱分類器最優(yōu)弱分類器是錯(cuò)誤率最小的那個(gè)弱分類器。錯(cuò)誤率的計(jì)算公式是：其中m = 1,2,.,M，代表第m輪迭代。i代表第i個(gè)樣本。w 是樣本權(quán)重。I指示函數(shù)取值為

49、1或0，當(dāng)I指示函數(shù)括號(hào)中的表達(dá)式為真時(shí)，I 函數(shù)結(jié)果為1；當(dāng)I函數(shù)括號(hào)中的表達(dá)式為假時(shí)，I 函數(shù)結(jié)果為0。取錯(cuò)誤率最低的弱分類器為當(dāng)前迭代的最優(yōu)弱分類器。注意，第一輪迭代計(jì)算時(shí)樣本權(quán)重初始化為總樣本數(shù)分之一。計(jì)算最優(yōu)弱分類器的權(quán)重最優(yōu)弱分類器的權(quán)重只與該弱分類器的錯(cuò)誤率有關(guān)。弱分類器的權(quán)重計(jì)算公式如下：能夠看出，錯(cuò)誤率越小，則 alpha 值越大，即該弱分類器的權(quán)重越高；反之，錯(cuò)誤率越大，則 alpha 值越小，則該弱分類器的權(quán)重越小。如此能夠使分類精度高的弱分類器起到更大的作用，并削弱精度低的弱分類器的作用。依照錯(cuò)誤率更新樣本權(quán)重樣本權(quán)重的更新與當(dāng)前樣本權(quán)重和弱分類器的權(quán)重有關(guān)。樣本權(quán)重更

50、新公式如下：其中m = 1,2,.,M，代表第 m 輪迭代。i代表第i個(gè)樣本。w 是樣本權(quán)重。alpha 是弱分類器的權(quán)重。當(dāng)樣本被正確分類時(shí)，y 和 Gm 取值一致，則新樣本權(quán)重變?。划?dāng)樣本被錯(cuò)誤分類時(shí)，y 和 Gm 取值不一致，則新樣本權(quán)重變大。如此處理，能夠使被錯(cuò)誤分類的樣本權(quán)重變大，從而在下一輪迭代中得到重視。迭代終止條件不斷重復(fù)1,2,3步驟，直到達(dá)到終止條件為止。終止條件是強(qiáng)分類器的錯(cuò)誤率低于最低錯(cuò)誤率閾值或達(dá)到最大迭代次數(shù)。用例子解釋 AdaBoost 原理本節(jié)要緊用示例數(shù)據(jù)詳細(xì)講明用上節(jié)介紹的 AdaBoost 原理進(jìn)行分類的過(guò)程。本例用到的數(shù)據(jù)集如表1所示。為方便講明，本文所

51、用弱分類器為形如x1.5,則y=1，否則y=-1的簡(jiǎn)單分類算法。熟悉了 AdaBoost 原理的讀者，能夠使用其他分類算法作為弱分類器。如使用本系列上篇文章介紹的 CART 樹中的分類樹作為弱分類器，可訓(xùn)練出提升分類樹模型。表格 SEQ 表格 * ARABIC 11 示例數(shù)據(jù)集x012345y11-1-11-1第一輪迭代1.a 選擇最優(yōu)弱分類器第一輪迭代時(shí)，樣本權(quán)重初始化為（0.167, 0.167, 0.167, 0.167, 0.167, 0.167）。 REF _Ref520125828 h * MERGEFORMAT 表格 11數(shù)據(jù)集的切分點(diǎn)有0.5, 1.5, 2.5, 3.5, 4

52、.5。若按0.5切分?jǐn)?shù)據(jù)，得弱分類器x 0.5, 則 y = -1?，F(xiàn)在錯(cuò)誤率為2 * 0.167 = 0.334。若按1.5切分?jǐn)?shù)據(jù)，得弱分類器x 1.5, 則 y = -1。現(xiàn)在錯(cuò)誤率為1 * 0.167 = 0.167。若按2.5切分?jǐn)?shù)據(jù)，得弱分類器x 2.5, 則 y = -1?，F(xiàn)在錯(cuò)誤率為2 * 0.167 = 0.334。若按3.5切分?jǐn)?shù)據(jù)，得弱分類器x 3.5, 則 y = -1?，F(xiàn)在錯(cuò)誤率為3 * 0.167 = 0.501。若按4.5切分?jǐn)?shù)據(jù)，得弱分類器x 4.5, 則 y = -1?，F(xiàn)在錯(cuò)誤率為2 * 0.167 = 0.334。由于按1.5劃分?jǐn)?shù)據(jù)時(shí)錯(cuò)誤率最小為0.167

53、，則最優(yōu)弱分類器為x 1.5, 則 y = -1。1.b 計(jì)算最優(yōu)弱分類器的權(quán)重alpha = 0.5 * ln(1 0.167) / 0.167) = 0.80471.c 更新樣本權(quán)重x = 0, 1, 2, 3, 5時(shí)，y分類正確，則樣本權(quán)重為：0.167 * exp(-0.8047) = 0.075x = 4時(shí)，y分類錯(cuò)誤，則樣本權(quán)重為：0.167 * exp(0.8047) = 0.373新樣本權(quán)重總和為0.075 * 5 + 0.373 = 0.748規(guī)范化后，x = 0, 1, 2, 3, 5時(shí)，樣本權(quán)重更新為：0.075 / 0.748 = 0.10 x = 4時(shí), 樣本權(quán)重更新

54、為：0.373 / 0.748 = 0.50綜上，新的樣本權(quán)重為(0.1, 0.1, 0.1, 0.1, 0.5, 0.1)。現(xiàn)在強(qiáng)分類器為G(x) = 0.8047 * G1(x)。G1(x)為x 1.5, 則 y = -1。則強(qiáng)分類器的錯(cuò)誤率為1 / 6 = 0.167。第二輪迭代2.a 選擇最優(yōu)弱分類器若按0.5切分?jǐn)?shù)據(jù)，得弱分類器x 0.5,則 y = 1; x 0.5, 則 y = -1?，F(xiàn)在錯(cuò)誤率為0.1 * 4 = 0.4。若按1.5切分?jǐn)?shù)據(jù)，得弱分類器x 1.5, 則 y = -1?，F(xiàn)在錯(cuò)誤率為1 * 0.5 = 0.5。若按2.5切分?jǐn)?shù)據(jù)，得弱分類器x 2.5,則 y = 1

55、; x 3.5,則 y = 1; x 3.5, 則 y = -1?，F(xiàn)在錯(cuò)誤率為0.1 * 3 = 0.3。若按4.5切分?jǐn)?shù)據(jù)，得弱分類器x 4.5, 則 y = -1。現(xiàn)在錯(cuò)誤率為2 * 0.1 = 0.2。由于按4.5劃分?jǐn)?shù)據(jù)時(shí)錯(cuò)誤率最小為0.2，則最優(yōu)弱分類器為x 4.5, 則 y = -1。2.b 計(jì)算最優(yōu)弱分類器的權(quán)重alpha = 0.5 * ln(1 0.2) / 0.2) = 0.6931。2.c 更新樣本權(quán)重x = 0, 1, 5時(shí)，y分類正確，則樣本權(quán)重為：0.1 * exp(-0.6931) = 0.05x = 4 時(shí)，y分類正確，則樣本權(quán)重為：0.5 * exp(-0.6

56、931) = 0.25x = 2,3時(shí)，y分類錯(cuò)誤，則樣本權(quán)重為：0.1 * exp(0.6931) = 0.20新樣本權(quán)重總和為 0.05 * 3 + 0.25 + 0.20 * 2 = 0.8規(guī)范化后，x = 0, 1, 5時(shí)，樣本權(quán)重更新為：0.05 / 0.8 = 0.0625x = 4時(shí), 樣本權(quán)重更新為：0.25 / 0.8 = 0.3125x = 2, 3時(shí), 樣本權(quán)重更新為：0.20 / 0.8 = 0.250綜上，新的樣本權(quán)重為(0.0625, 0.0625, 0.250, 0.250, 0.3125, 0.0625)?，F(xiàn)在強(qiáng)分類器為G(x) = 0.8047 * G1(x)

57、 + 0.6931 * G2(x)。G1(x)為x 1.5, 則 y = -1。G2(x)為x 4.5, 則 y = -1。按G(x)分類會(huì)使x=4分類錯(cuò)誤，則強(qiáng)分類器的錯(cuò)誤率為1 / 6 = 0.167。第三輪迭代3.a 選擇最優(yōu)弱分類器若按0.5切分?jǐn)?shù)據(jù)，得弱分類器x 0.5, 則 y = -1。現(xiàn)在錯(cuò)誤率為0.0625 + 0.3125 = 0.375。若按1.5切分?jǐn)?shù)據(jù)，得弱分類器x 1.5, 則 y = -1?，F(xiàn)在錯(cuò)誤率為1 * 0.3125 = 0.3125。若按2.5切分?jǐn)?shù)據(jù)，得弱分類器x 2.5,則 y = 1; x 3.5,則 y = 1; x 3.5, 則 y = -1?，F(xiàn)

58、在錯(cuò)誤率為0.0625 * 3 = 0.1875。若按4.5切分?jǐn)?shù)據(jù)，得弱分類器x 4.5, 則 y = -1?，F(xiàn)在錯(cuò)誤率為2 * 0.25 = 0.5。由于按3.5劃分?jǐn)?shù)據(jù)時(shí)錯(cuò)誤率最小為0.1875，則最優(yōu)弱分類器為x 3.5,則 y = 1; x 3.5, 則 y = -1。3.b 計(jì)算最優(yōu)弱分類器的權(quán)重alpha = 0.5 * ln(1 0.1875) / 0.1875) = 0.73323.c 更新樣本權(quán)重x = 2, 3時(shí)，y分類正確，則樣本權(quán)重為：0.25 * exp(-0.7332) = 0.1201x = 4 時(shí)，y分類正確，則樣本權(quán)重為：0.3125 * exp(-0.73

59、32) = 0.1501x = 0, 1, 5時(shí)，y分類錯(cuò)誤，則樣本權(quán)重為：0.0625 * exp(0.7332) = 0.1301新樣本權(quán)重總和為 0.1201 * 2 + 0.1501 + 0.1301 * 3 = 0.7806規(guī)范化后，x = 2, 3時(shí)，樣本權(quán)重更新為：0.1201 / 0.7806 = 0.1539x = 4時(shí), 樣本權(quán)重更新為：0.1501 / 0.7806 = 0.1923x = 0, 1, 5時(shí), 樣本權(quán)重更新為：0.1301 / 0.7806 = 0.1667綜上，新的樣本權(quán)重為(0.1667, 0.1667, 0.1539, 0.1539, 0.1923,

60、 0.1667)。現(xiàn)在強(qiáng)分類器為G(x) = 0.8047 * G1(x) + 0.6931 * G2(x) + 0.7332 * G3(x)。G1(x)為x 1.5, 則 y = -1。G2(x)為x 4.5, 則 y = -1。G3(x)為x 3.5,則 y = 1; x 3.5, 則 y = -1。按G(x)分類所有樣本均分類正確，則強(qiáng)分類器的錯(cuò)誤率為0 / 6 = 0。則停止迭代，最終強(qiáng)分類器為G(x) = 0.8047 * G1(x) + 0.6931 * G2(x) + 0.7332 * G3(x)。高斯混合模型差不多原理高斯混合簡(jiǎn)介在本系列的前六篇中，筆者分不介紹了分類，關(guān)聯(lián)規(guī)則

人人文庫(kù)> 全部分類> 行業(yè)資料 > 管理策劃

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

機(jī)器學(xué)習(xí)簡(jiǎn)明原理

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

機(jī)器學(xué)習(xí)簡(jiǎn)明原理

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔