




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、機(jī)器學(xué)習(xí)之分類目錄機(jī)器學(xué)習(xí)之分類1分類模型與算法1分類算法相關(guān)簡介14.1.14.1.24.1.3分類1聚類、監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)1分類應(yīng)用-文本挖掘場景24.2 常見分類算法與模型44.2.11.2.21.2.31.2.41.2.54.2.64.2.7線性判別法4距離判別法5分類器7決策樹11組合算法19支持向量機(jī)(svm)25神經(jīng)網(wǎng)絡(luò)254.分類模型與算法4.1 分類算法相關(guān)簡介4.1.1分類分類是一種重要的數(shù)據(jù)挖掘技術(shù)。分類的目的是根據(jù)數(shù)據(jù)集的特點(diǎn)構(gòu)造一個(gè)分類函數(shù)或分類模型(也常稱作分類器)。該模型能把未知類別的樣本進(jìn)行分類,把樣本信息分配給指定類別的一種技術(shù)。4.1.2 聚類、監(jiān)督學(xué)習(xí)
2、、非監(jiān)督學(xué)習(xí)監(jiān)督學(xué)習(xí):從得到的訓(xùn)練集中“學(xué)習(xí)”,從而具備對未知數(shù)據(jù)進(jìn)行分類的能力,這種提供訓(xùn)練數(shù)據(jù)的過程通常稱作 supervised learning 監(jiān)督學(xué)習(xí)。聚類與非監(jiān)督學(xué)習(xí):聚類就是把相似的東西分到一組,聚類時(shí)并不關(guān)心某一類是什么,需要實(shí)現(xiàn)的目標(biāo)只是把相似的東西聚到一起,因此一個(gè)聚類算法通常只需要知道相似度就可以工作了,因此通常不需要使用訓(xùn)練數(shù)據(jù)進(jìn)行學(xué)習(xí),這在 Machine learning 中被稱作unsupervised learning 非監(jiān)督學(xué)習(xí)。4.1.3 分類應(yīng)用-文本挖掘場景(1) 網(wǎng)頁自動分類自動化門戶系統(tǒng)(搜素引擎根據(jù)用戶,谷歌等)類型推送不同類別的搜索結(jié)果(2)郵
3、件判斷(3)評論自動分析(4)通過用戶內(nèi)容判別用戶喜好4.2 常見分類算法與模型4.2.1 線性判別法(1)線性判別法用一條直線來劃分學(xué)習(xí)集(這條直線不一定存在),然后根據(jù)待測點(diǎn)在直線的哪一邊決定它的分類。(2) 實(shí)例展示天氣預(yù)報(bào)數(shù)據(jù) G=c(1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,2,2)#“1”下雨 “2”不下雨 x1=c(-1.9,-6.9,5.2,5.0,7.3,6.8,0.9,-12.5,1.5,3.8,0.2,-0.1,0.4,2.7,2.1,-4.6,-1.7,-2.6,2.6,-2.8) x2=c(3.2,0.4,2.0,2.5,0.0,12.7
4、,-5.4,-2.5,1.3,6.8,6.2,7.5,14.6,8.3,0.8,4.3,10.9,13.1,12.8,10.0)#x1 濕度 x2 溫度a=data.frame(G,x1,x2)plot(x1,x2)text(x1,x2,G,adj=-0.5)library(MASS)Id=lda(Gx1+x2)ld#線性判別函數(shù) lda()z=predict(Id)newG=z$classy=cbind(G,z$x,newG)y1.2.2 距離判別法(1)原理計(jì)算待測點(diǎn)與各類的距離,取最短者為所屬分類(2) 馬氏距離和歐式距離1)馬氏距離:的方法。計(jì)算函數(shù) mahalanobis()。2)歐
5、式距離:一個(gè)通常采用的距離定義,它是在 m中兩個(gè)點(diǎn)之間的真實(shí)距離。3)為什么不用歐式距離:定義距離時(shí),要考慮隨確量方差的信息,歐式距離4)馬氏距離定義8.1 設(shè) x,y 是服從均值為,協(xié)方差陣為的總體 X 中抽取的樣本,則總體 X 內(nèi)兩點(diǎn) x與 y 的 Mahalanobis 距離(簡稱馬氏距離)定義為表示數(shù)據(jù)的協(xié)方差距離。它是一種有效的計(jì)算兩個(gè)未知樣本集的相似度定義樣本 x 與總體 X 的 Mahalanobis 距離為5)判別函數(shù)*情形一(p445)兩個(gè)總體 X1 和 X2 的協(xié)方差相同時(shí),即要判斷 x 屬于哪個(gè)總體,比較 x 到總體 X1 和 X2 的馬氏距離的平方得到判別準(zhǔn)則令稱 w(
6、x)為兩總體距離的判別函數(shù),因此判別準(zhǔn)則變?yōu)?情形二(p447)對于樣本 x,在協(xié)方差不同的情況下,判別函數(shù)為(2)最近鄰算法 Knn算法基本:存在一個(gè)待測樣本點(diǎn) n,找出離它最近的 k 個(gè)樣本點(diǎn),k 一般取奇數(shù),此例 k=5,觀測這 5 個(gè)樣本點(diǎn)中哪一類的樣本多,則將此樣本點(diǎn)歸為那一類,此例中 2 類點(diǎn)多于 1 類點(diǎn) 3:2 所以將待測樣本歸為 2 類,這也就解釋了為什么 k 常取奇數(shù)的原因。1.2.3分類器(1)定理后驗(yàn)概率:p(H|X),在條件 X 下,H 發(fā)生的概率。X 代表包含某種特征特定的樣本,即給定觀測樣本數(shù)據(jù),比如一封具體的垃圾郵件中包含詞匯“促銷”,則可將這封郵件看成是一個(gè)樣
7、本。H 是一個(gè)假設(shè),比如假設(shè)這個(gè)郵件是一個(gè)郵件。P 表示概率,整個(gè)符號的意思通俗的解釋為,包含促銷這個(gè)詞的郵件是郵件的概率。先驗(yàn)概率:p(H),H 發(fā)生的概率。(2)樸素分類樸素a)學(xué)習(xí)集(以郵件分類為例)名詞 x1名詞 x2名詞 x3等等郵件(100 封)正常(70 封)5(出現(xiàn)次數(shù))5()20()對樣本進(jìn)行分詞處理,把分出來的詞作為主要的特征(郵件的特征并不只是單純的依靠分出來的詞匯,有時(shí)也利用里面的其他特征,比如:是否包含的處理不限于分詞),此處舉例以分出來的詞作為判定的主要特征。等,因此對郵件計(jì)算公式X 中包含 X1,X2,X3 等詞,在計(jì)算 p(X|H)時(shí)沒有必要去把 X1,X2,X
8、3,在學(xué)習(xí)集共同出現(xiàn)的次數(shù)去統(tǒng)計(jì)。假設(shè) X1,X2,X3 之間的出現(xiàn)是相互獨(dú)立,沒有聯(lián)系的則 P(X | H)=P(X1 | H)*P(X2 | H)*P(X3 | H) P(X)=P(X1)*P(X2)*P(X3)公式成立的前提是 X1,X2,X3,相互獨(dú)立,但事實(shí)有時(shí)并非如此,有時(shí) X1,X2 同時(shí)出現(xiàn),但為了降低計(jì)算量,只能降低一定的精度。這種假設(shè)的方式即樸素,上訴相乘只是近似處理段。b) 用戶流失電信運(yùn)營戶案例通過對已經(jīng)流失的或通過判定得知沒有流失的用戶提取一部分作為學(xué)習(xí)集,則可以總結(jié)出這些頻率出現(xiàn)的情況。上訴歸納的某些特征是對判定有價(jià)值的,但有些特征對判定是沒有價(jià)值的,沒有價(jià)值的變量
9、反映在流失與不流失的比例是大致相同的,此時(shí)可以剔除這一判定特征,提取那些統(tǒng)計(jì)意義特別明顯的特征,之后則可以利用這些特征,做一個(gè)類似于郵件判別的樸素斯分類器。通過公式計(jì)算擁有某些特征的測試樣本流失的可能性有多大。特征是否打過 10010話費(fèi)是否減少話費(fèi)暴漲.等等流失400(出現(xiàn)次數(shù))500(出現(xiàn)次數(shù)).不流失300(出現(xiàn)次數(shù))500(出現(xiàn)次數(shù)).(30 封)10(出現(xiàn)次數(shù))10()15()c) 用戶系統(tǒng)例:運(yùn)營商對用戶感的方面打1.2.獲得學(xué)習(xí)集利用公式計(jì)算,是者的可能性,是體育者的可能性,此時(shí)沒有必要選取最優(yōu)的而排除其他的,可以設(shè)定一個(gè)值,例如 0.3,若高于 0.3 的可能性,則給該用戶打上
10、,若某用戶音樂、體育、的可能性都超過 0.3,則給該用戶打上 3 個(gè)。(3)信念網(wǎng)絡(luò)1)信念網(wǎng)絡(luò)分類器需要特征之間獨(dú)立的強(qiáng)條件,制約了模型的適用。樸素信念網(wǎng)絡(luò)是來說明聯(lián)合概率分布,它提供一種因果關(guān)系的圖形。2)定義*用有向無環(huán)圖表達(dá)變量之間的依賴關(guān)系,變量用節(jié)點(diǎn)表示,依賴關(guān)系用邊表示*祖先,父母和后代節(jié)點(diǎn)。網(wǎng)絡(luò)中的一個(gè)節(jié)點(diǎn),如果它的父母節(jié)點(diǎn)已知,則它條件獨(dú)立于它的所有非后代節(jié)點(diǎn)(即沒有邊相連)*每個(gè)節(jié)點(diǎn)附帶一個(gè)條件概率表(CPT)表示該節(jié)點(diǎn)和父母節(jié)點(diǎn)的聯(lián)系概率3)CPT 計(jì)算特征是否在院打過在體育館打過節(jié)假日在外地大.等等體育旅游*如果節(jié)點(diǎn)x 沒有父母節(jié)點(diǎn),則它的 CPT 中包含先驗(yàn)概率 P(
11、x)*如果節(jié)點(diǎn)x 只有一個(gè)父母節(jié)點(diǎn) y,則 CPT 中包含條件概率 P(x|y)*如果節(jié)點(diǎn)x 有多個(gè)父母節(jié)點(diǎn) y1,y2.yk,則 CPT 中包含條件概率 P(x|y1,y2yk)先驗(yàn)概率:指根據(jù)以往經(jīng)驗(yàn)和分析得到的概率。后驗(yàn)概率:指通過或其他方式得到新信息,利用公式對先驗(yàn)概率進(jìn)行修正,而后得到的概率。4)展示其中鍛煉是心臟病的父母節(jié)點(diǎn)也稱雙親節(jié)點(diǎn),血壓是心臟病的子代節(jié)點(diǎn)。飲食也是心臟病的雙親節(jié)點(diǎn),所以節(jié)點(diǎn)的雙親節(jié)點(diǎn)不是唯一的。5)推理*從 CPT 中基于父母節(jié)點(diǎn)的條件概率推出某節(jié)點(diǎn)(變量)的概率*計(jì)算某節(jié)點(diǎn)基于后代節(jié)點(diǎn)的條件概率*計(jì)算某節(jié)點(diǎn)基于父母節(jié)點(diǎn),后代節(jié)點(diǎn)的條件概率*其它非父母,非后代
12、節(jié)點(diǎn)與該節(jié)點(diǎn)本身是條件獨(dú)立的1.2.4 決策樹(1)決策樹決策樹是一個(gè)模型;他代表的是對象屬性與對象值之間的一種關(guān)系。樹中每個(gè)節(jié)點(diǎn)表示某個(gè)對象,而每個(gè)分叉路徑則代表的某個(gè)可能的屬性值,而每個(gè)葉結(jié)點(diǎn)則對應(yīng)從根 節(jié)點(diǎn)到該葉節(jié)點(diǎn)所經(jīng)歷的路徑所表示的對象的值。決策樹僅有單一輸出,若欲有復(fù)數(shù)輸出,可以建立獨(dú)立的決策樹以處理不同輸出。例子:套用俗語,決策樹分類的類似于找對象。現(xiàn)想象一個(gè)的母親要給這個(gè)介紹男朋友,于是有了下面的:女兒:多大年紀(jì)了?母親:26。女兒:長的帥不帥?母親:挺帥的。女兒:收入高不?母親:不算很高,中等情況。女兒:是不?母親:是,在稅務(wù)局上班呢。女兒:那好,我去見見。這個(gè)的決策過程就是
13、典型的分類樹決策。相當(dāng)于通過、長相、收入和是否公對的要求是:30 歲以下、長相務(wù)員對將分為兩個(gè)類別:見和不見。假設(shè)這個(gè)中等以上并且是高收入者或中等以上收入的,那么這個(gè)可以用下圖表示的決策邏輯:決策樹較為擅長處理離散的情形(因子變量),即每一個(gè)變量是由一些字符值來組成,而不是由一些連續(xù)的數(shù)值來組成。如果是連續(xù)的數(shù)值,最好先變成離散的,比一些連續(xù)的數(shù)值,最好把它們分為少、中、老幾個(gè)階段,這樣有利于高效率地構(gòu)建一顆決策樹。(2) 決策樹算法的問題1)按什么樣次序來選擇變量(屬性)首先選擇一個(gè)信息含量比較大的變量(即信息增益最大的,信息增益后面有介紹),如 果該變量能達(dá)到經(jīng)過一次分類解決全部問題最好,
14、或者選定該變量(屬性)后,某些分支能很快結(jié)束,然后再選擇其他分支做進(jìn)一步的判斷??偟膩碚f,需要一個(gè)合理的次序,來盡量使這顆樹最矮,這意味著計(jì)算效率的提高。2)最佳分離點(diǎn)的判定若是離散的變量,分離點(diǎn)即是它的離散值。若是連續(xù)變量,則需要給它確定最佳的分離點(diǎn),此時(shí)選擇信息增益最大的點(diǎn)為分離點(diǎn)。例一些數(shù)據(jù): 、 、 、將大于的分為一組,稱它也就是說,決策樹的簡單策略就是,好比公司招聘面試過程中篩選一個(gè)人的簡歷,如果你的條件相當(dāng)好比如說某 985/211 重點(diǎn)大學(xué)博士畢業(yè),那么二話不說,直接叫過來面試,如果非重點(diǎn)大學(xué)畢業(yè),但實(shí)際項(xiàng)目經(jīng)驗(yàn)豐富,那么也要考慮叫過來面試一下,即所謂具體情況具體分析、決策。但每
15、一個(gè)未知的選項(xiàng)都是可以歸類到已有的分類類別中的。為“成年”變量,小于 20 的為“少年”變量。同樣取大于 15 的分為“成年”變量,小于15 的為“少年”變量。然后計(jì)算 15 和 20 這兩個(gè)點(diǎn)哪一個(gè)的增益值大,增益值大的點(diǎn)即為最佳分離點(diǎn)。(3) 決策樹學(xué)習(xí)之 ID3 算法1)簡介 ID3 算法(Iterative Dichotomiser 3 迭代二叉樹 3 代)是一個(gè)由 Ross Quinlan 發(fā)明的 用于決策樹的算法。越是小型的決策樹越優(yōu)于大的決策樹。盡管如此,該算法也不是總是生成最小的樹形結(jié)構(gòu),而是一個(gè)啟發(fā)式算法。2)最佳分類屬性a)信息增益度量的標(biāo)準(zhǔn):熵信息增益(Informati
16、on Gain)是用來衡量給定的屬性區(qū)分訓(xùn)練樣例的能力,而 ID3 算法在增長樹的每一步使用信息增益從候選屬性中選擇屬性。為了精確地定義信息增益,先定義信息論中廣泛使用的一個(gè)度量標(biāo)準(zhǔn),稱為熵(entropy),它刻畫了任意樣例集的純度(purity)。給定包含關(guān)于某個(gè)目標(biāo)概念的正反樣例的樣例集 S,那么 S 相對這個(gè)型分類的熵為:上述公式中,p+代表正樣例而 p-則代表反樣例(在有關(guān)熵的所有計(jì)算中定義 0log0為 0)。b)信息增益計(jì)算D 為總體樣本,Dj 為一種類別的樣本總數(shù),pi 表示正例或反例占樣本的比例。信息增益計(jì)算例子:訓(xùn)練數(shù)據(jù)期待輸出的結(jié)果:計(jì)算結(jié)果:Age 屬性的信息增益最高,
17、故先選擇這個(gè)變量3)缺點(diǎn)ID3 算法傾向于首先選擇因子數(shù)較多的變量,這樣有時(shí)會確。(4) ID3 算法的改進(jìn):C4.5 算法1)改進(jìn)信息增益方法傾向于首先選擇因子數(shù)較多的變量,所以采用增益率來判別。一般來說率就是用來取平衡用的,就像方差起的作用差不多,比兩個(gè)跑步的人,一個(gè)起點(diǎn)是 10m/s樣的加速度。因此,C4.5 克服了 ID3 用信息增益選擇屬性時(shí)偏向選擇取值多的屬性的。2)增益率公式:增益率=信息增益/值 (信息用來衡量屬性數(shù)據(jù)的廣度和均勻)(增益率)(值)(5) CART 算法1)使用基尼指數(shù)選擇變量公式:基尼指數(shù):總體內(nèi)包含的類別越雜亂,GINI 指數(shù)就越大(跟熵的概念很相似)。比如
18、體溫為恒溫時(shí)包含哺乳類 5 個(gè)、鳥類 2 個(gè),則:(基尼指數(shù))2)剪枝當(dāng)分類回歸樹劃分得太細(xì)時(shí),會對噪聲數(shù)據(jù)產(chǎn)生過擬合作用。因此要通過剪枝來解決。剪枝又分為前剪枝和后剪枝。前剪枝:前剪枝是指在構(gòu)造樹的過程中就知道哪些節(jié)點(diǎn)可以剪掉。后剪枝:指構(gòu)造出完整的決策樹之后再來考查哪些可以剪掉。的人、其 10s 后為 20m/s;另一個(gè)人起速是 1m/s、其 1s 后為 2m/s。如果緊緊算差值那么兩個(gè)差距就很大了,如果使用速度增加率(加速度,即都是為 1m/s2)來衡量,2 個(gè)人就是一因?yàn)榧粝氯サ倪@棵的葉子節(jié)點(diǎn)有兩個(gè)類 B,所以剪完 A1 的右孩子為類 B。剪枝判斷方法在分類回歸樹中可以使用的后剪枝方法
19、有多種,比如:代價(jià)復(fù)雜性剪枝、最小誤差剪枝、悲觀誤差剪枝等等。這里只介紹代價(jià)復(fù)雜性剪枝法。代價(jià)復(fù)雜度:葉節(jié)點(diǎn)個(gè)數(shù)(裁剪對象)和樹的錯誤率的函數(shù)如果剪枝能使代價(jià)復(fù)雜度下降,則實(shí)施之。對于分類回歸樹中的每一個(gè)非葉子節(jié)點(diǎn)計(jì)算它的表面誤差率增益值 。是中包含的葉子節(jié)點(diǎn)個(gè)數(shù);是節(jié)點(diǎn) t 的誤差代價(jià),如果該節(jié)點(diǎn)被剪枝;r(t)是節(jié)點(diǎn) t 的誤差率;p(t)是節(jié)點(diǎn) t 上的數(shù)據(jù)占所有數(shù)據(jù)的比例。是 Tt 的誤差代價(jià),如果該節(jié)點(diǎn)不被剪枝。它等于 Tt 上所有葉子節(jié)點(diǎn)的誤差代價(jià)之和。比個(gè)非葉子節(jié)點(diǎn) t4:已知所有的數(shù)據(jù)總共有 60 條,則節(jié)點(diǎn) t4 的節(jié)點(diǎn)誤差代價(jià)為:誤差代價(jià)為:以 t4 為根節(jié)點(diǎn)的上葉子節(jié)點(diǎn)有
20、 3 個(gè),最終:找到 值最小的非葉子節(jié)點(diǎn),令其左右孩子為 NULL。當(dāng)多個(gè)非葉子節(jié)點(diǎn)的 值同時(shí)(6) R 語言實(shí)現(xiàn)決策樹以鳶尾花數(shù)據(jù)集作為算例說明:library(rpart) #加載 rpart 包iris.rp = rpart(Species., data=iris, method=class)plot(iris.rp, uniform=T, branch=0, margin=0.1, main= Classification TreenIris Species by Petal and Sepal Length)text(iris.rp, use.n=T, fancy=T, col=bl
21、ue)最大的進(jìn)行剪枝。達(dá)到最小時(shí),取(7) 評估分類器效能TP、FP、TN、FN、T、P 分別代表:真正例、真負(fù)例、假正例、假負(fù)例、正和負(fù)樣本數(shù)。1.2.5 組合算法(1) 基本思路擁有一個(gè)總體樣本 D,通過對樣本進(jìn)行抽樣,產(chǎn)生很多不同的樣本子集,即學(xué)習(xí)集,這些子集分別為 D1、D2、D3.Dk,k 個(gè)不同的子集。每個(gè)子集可能有交集,一模一樣的可能性很低。、支持向量機(jī)、決策樹等)分別對 Di 進(jìn)行建模,形成用一種分類器算法(M1、M2.Mk 個(gè)分類器。把待測樣本分別投入這些分類器中,測出 k 個(gè)結(jié)果:yes or no 。通過簡單表決,看哪一種分類器選得最多。比選 yes。900 個(gè)分類器,5
22、00 個(gè)選 yes,400 個(gè)選 no,則最終結(jié)果總結(jié):*基于學(xué)習(xí)數(shù)據(jù)集抽樣產(chǎn)生若干訓(xùn)練集(對總體樣本 D 抽樣,的到若干樣本子集 Di)*使用訓(xùn)練集產(chǎn)生若干分類器(每個(gè)子集訓(xùn)練出一個(gè)分類器)*每個(gè)分類器分別進(jìn)行,通過簡單多數(shù),判定最終所屬分類(分類器最多的分類方法,選為最終的分類)(2)為什么組合方法能提高分類準(zhǔn)確率?兩個(gè)圖對比左圖將實(shí)際的邊界通過一條直線來分類,顯然分類的準(zhǔn)確率不高,然而右圖中,將所有的邊界組合起來,越多的分類器組合,邊界越像一條曲線,這樣明顯看出準(zhǔn)確率的提高。(3)問題在原始數(shù)據(jù)集 D 中,通過隨機(jī)抽樣產(chǎn)生 K 個(gè)子學(xué)習(xí)集,如何抽樣?抽樣的方法是什么?數(shù)據(jù)被抽樣出來后形成
23、新的學(xué)習(xí)集,分類器如何把新的學(xué)習(xí)集訓(xùn)練出來呢?采用什么樣的算比較好呢?(4) 組合方法的優(yōu)勢a) 能明顯判別準(zhǔn)確率對誤差和噪音更加魯棒性(健壯性)一定程度抵消過度擬合適合并行化計(jì)算(5) 重要的組合算法a)裝袋算法-bagging1.算法:裝袋為學(xué)習(xí)方案創(chuàng)建組合分類模型,其中每個(gè)模型給出等權(quán)重。2.偽代碼:輸入:*D:d 個(gè)分類元組的集合;(將總體樣本 D 抽出 d 個(gè)樣本子集)*k:組合分類器中的模型個(gè)數(shù)(用分類算法訓(xùn)練出 k 個(gè)模型)*一種學(xué)習(xí)方案(例如:決策樹算法,向后等)輸出:組合分類器復(fù)合模型 M*方法:for i=1 to k do/創(chuàng)建k 個(gè)模型通過對 D 有放回抽樣,創(chuàng)建自助樣
24、本 Di(有放回抽樣就是抽完把它放回去,目的使每次抽樣條件獨(dú)立自助樣本是采用有放回抽樣方法得到的樣本,樣本數(shù)和總樣本數(shù)相同,可以有重復(fù)的樣本,是一種比較規(guī)范段)使用 Di 和學(xué)習(xí)方法導(dǎo)出模型 M(i 可以使用線性判別、決策樹等分類算法)Endfor使用組合分類器對元組 X 進(jìn)行分類,讓 k 個(gè)模型都對元組 X 分類,并返回多數(shù)表決。3.基本思路:對樣本空間 D 進(jìn)行 放回抽樣,得到樣本空間的一個(gè)子集 Di,由 Di 得到一個(gè)分類 器 Mi。不斷的重復(fù)上述過程,就可以得到一系列分類器 M1,M2,M3.Mi ,在分類時(shí)用這些分類器進(jìn)行投票來決定分類。優(yōu)勢:準(zhǔn)確率明顯高于組合中任意一個(gè)分類器對于較
25、大的噪音, 表現(xiàn)不至于很差,并且具有魯棒性不容易過度擬合5.在 R 中實(shí)現(xiàn)library(ipred) #bagging 函數(shù)需要安裝的程序包m.bag=bagging(Species.,data=iris)m.bagbag.pre=predict(mplot(bag.pre).bag,iris)(boosting)算法b)1.算法基本(1)(2)(3)訓(xùn)練集中的元組被分配權(quán)重(權(quán)重:權(quán)利的大小)權(quán)重影響抽樣,權(quán)重越大越可能被抽中迭代訓(xùn)練若干個(gè)分類器一個(gè)分類器中被錯誤分類的元組,會被提高權(quán)重,使到它在后面建立的分類器中被更加“關(guān)注”(之前被分錯的先被分類)(4)最后分類也是有所有分類器投票,投
26、票權(quán)重取決于分類器的權(quán)重解釋:在抽樣時(shí)不會隨機(jī)抽樣,它會每一個(gè)加一個(gè)權(quán)重,如果某個(gè)在分類器里被正確判斷了,那它的權(quán)重就會降低;越靠后形成的分類器,它們訓(xùn)練的更傾向于在早前誤判的那些,就是說如果有一些樣本在早期的分類器里被判錯了,那之后就會重點(diǎn)針對這些錯誤的數(shù)據(jù)進(jìn)行判斷;除了訓(xùn)練過程特別關(guān)注之外,最后作分類的時(shí)候也不是簡單的投票,通過學(xué)習(xí)集可以算出每一個(gè)分類器的準(zhǔn)確率大概有多少,投票權(quán)重跟分類器準(zhǔn)確率有關(guān),二者成正比。2.adaboost 算法算法:Adaboost 一種偽代碼:方法:算法創(chuàng)建分類器的組合。每個(gè)給出一個(gè)投票將 D 中每個(gè)元組的權(quán)重初始化為 1/d(每個(gè)元組的權(quán)重都是 1/d)Fo
27、r i=1tokdo / 對于每一輪(從 1 到k,k 次循環(huán))(3) 根據(jù)元組的權(quán)重從 D 中有放回抽樣,得到 Di (4)使用訓(xùn)練集 Di 導(dǎo)出模型 Mi計(jì)算Mi 的錯誤率 error(Mi)If error(Mi)0.5 then (如果錯誤率大于 0.5 就回到步驟三,重新抽樣)轉(zhuǎn)步驟(3)重試EndifFor Di 的每個(gè)被正確分類的元組 do(如果都被正確分組,則停止循環(huán))(10) 元組的權(quán)重乘以 error(Mi)/(1- error(Mi) (11)規(guī)范化每個(gè)元組的權(quán)重(12) Endfor部分偽代碼解釋:/更新權(quán)重d 為 D 中的個(gè)數(shù);循環(huán)k 次,每一次都會創(chuàng)建一個(gè)分類器;從 D 中根據(jù)權(quán)重有放回抽樣的到一個(gè)學(xué)習(xí)集 Di,不只是有放回抽樣還跟權(quán)重有關(guān)系,權(quán)重越大的樣本越有可能被抽到;用新的學(xué)習(xí)集 Di 利用分類器(決策樹,(分類器);等任一組)得到模型 Mi權(quán)重變化:每
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 大竹縣竹中中考數(shù)學(xué)試卷
- 營養(yǎng)型輸液項(xiàng)目風(fēng)險(xiǎn)識別與評估綜合報(bào)告
- 自籌經(jīng)費(fèi)措施方案
- 喀什非開挖頂管施工方案
- 智能制造與物聯(lián)網(wǎng)(IoT)應(yīng)用的策略及實(shí)施方案
- 新型城鎮(zhèn)化中的農(nóng)村振興與現(xiàn)代農(nóng)業(yè)發(fā)展的策略
- 能源結(jié)構(gòu)優(yōu)化與清潔能源轉(zhuǎn)型的策略
- 降碳減污擴(kuò)綠增長的經(jīng)濟(jì)學(xué)分析
- 文化交流與一帶一路人文合作的推動路徑
- 更大力度穩(wěn)定和擴(kuò)大就業(yè)的策略及實(shí)施路徑
- 人工挖孔樁施工危險(xiǎn)源辨識與評價(jià)及應(yīng)對措施
- 品管圈成果匯報(bào)——提高導(dǎo)管固定正確率PPT課件
- 第2講 麥克斯韋方程組
- 讀懂教材、讀懂學(xué)生、讀懂課堂,構(gòu)建和諧有效的課堂教學(xué)
- 裝飾施工進(jìn)度計(jì)劃網(wǎng)絡(luò)圖及橫道圖
- 機(jī)械畢業(yè)實(shí)習(xí)報(bào)告
- 材料科學(xué)與工程專業(yè) 畢業(yè)論文
- 糖尿病視網(wǎng)膜病變PPT課件
- 古詩分類講解五思鄉(xiāng)懷人詩
- 多極磁燃?xì)猸h(huán)保節(jié)能器-合力金科技
- 青少年心理學(xué)書籍:青少年心理學(xué)
評論
0/150
提交評論