版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、機(jī)器學(xué)習(xí)大作業(yè)支持向量機(jī)是基于統(tǒng)計學(xué)習(xí)理論的結(jié)構(gòu)風(fēng)險最小化原則的,它將最大分界面分類器思想和基于核的方法結(jié)合在一起,表現(xiàn)出了很好的泛化能力。由于SVM方法不僅考慮了對漸進(jìn)性能的要求,而且在現(xiàn)有有限信息的條件下得到最優(yōu)結(jié)果,并且能夠根據(jù)有限的樣本信息在模型的復(fù)雜性和學(xué)習(xí)能力之間尋求最佳折中,從而獲得最好的推廣能力。SVM主要是應(yīng)用于分類,簡單而言,就是如果有一堆已經(jīng)分好類的東西(可是分類的依據(jù)是未知的),當(dāng)有新的未知數(shù)據(jù)進(jìn)來時,SVM能夠預(yù)測這個新的數(shù)據(jù)要分到哪一堆去。第一章 理論知識1.1 最優(yōu)間隔分類器SVM的主要思想是針對兩類分類問題,在高維空間尋找一個最優(yōu)分類超平面作為分類平面,來保證最
2、小的分類錯誤率。我們的目標(biāo)是尋找一個超平面,使得離超平面比較近的點有更大的間距,也就是說,我們不考慮所有的點都必須遠(yuǎn)離超平面,我們關(guān)心的只是想要求得的超平面能夠使得所有點中離它最近的點具有最大間距。形象的說,我們將上面的圖看作是一張紙,我們要找一條折線,按照這條折線折疊后,離折線最近的點的間距比其他折線都要大。形式化表示為:上面描述的這種情況是建立在樣例線性可分的假設(shè)上,當(dāng)樣例線性不可分時,可以引入松弛變量,它允許在一定程度上違反間隔約束。我們可以嘗試使用核函數(shù)來將特征映射到高維,這樣很可能就可分了。然而,映射后我們也不能100%保證可分。那怎么辦呢,我們需要將模型進(jìn)行調(diào)整,以保證在不可分的情
3、況下,也能夠盡可能地找出分隔超平面??聪旅鎯蓮垐D:可以看到一個離群點(可能是噪聲)可以造成超平面的移動,間隔縮小,可見以前的模型對噪聲非常敏感。再有甚者,如果離群點在另外一個類中,那么這時候就是線性不可分了。這時候我們應(yīng)該允許一些點游離并在在模型中違背限制條件(函數(shù)間隔大于1)。我們設(shè)計得到新的模型如下(也稱軟間隔):引入非負(fù)參數(shù)后(稱為松弛變量),就允許某些樣本點的函數(shù)間隔小于1,即在最大間隔區(qū)間里面,或者函數(shù)間隔是負(fù)數(shù),即樣本點在對方的區(qū)域中。而放松限制條件后,我們需要重新調(diào)整目標(biāo)函數(shù),以對離群點進(jìn)行處罰,目標(biāo)函數(shù)后面加上的就表示離群點越多,目標(biāo)函數(shù)值越大,而我們要求的是盡可能小的目標(biāo)函數(shù)
4、值。這里的C是離群點的權(quán)重,C越大表明離群點對目標(biāo)函數(shù)影響越大,也就是越不希望看到離群點。我們看到,目標(biāo)函數(shù)控制了離群點的數(shù)目和程度,使大部分樣本點仍然遵守限制條件。圖1.1 分類情況1.2 線性支持向量機(jī)SVM只要是針對兩類分類問題,分類主要包括線性可分和非線性可分兩類。在樣例線性可分的情況下,此時,存在一個超平面,使得訓(xùn)練樣本可以完全被分開,這和超平面的形式為:從KKT條件得知只有函數(shù)間隔是1(離超平面最近的點)的線性約束式前面的系數(shù),也就是說這些約束式,對于其他的不在線上的點(),極值不會在他們所在的范圍內(nèi)取得,因此前面的系數(shù).注意每一個約束式實際就是一個訓(xùn)練樣本。圖1.2 最優(yōu)分類面實
5、線是最大間隔超平面,假設(shè)×號的是正例,圓圈的是負(fù)例。在虛線上的點就是函數(shù)間隔是1的點,那么他們前面的系數(shù),其他點都是。這三個點稱作支持向量。構(gòu)造拉格朗日函數(shù)如下:下面我們按照對偶問題的求解步驟來進(jìn)行求解,首先求解的最小值,對于固定的,的最小值只與w和b有關(guān)。最后得到此時的拉格朗日函數(shù)只包含了變量。然而我們求出了才能得到w和b。 接著是極大化的過程前面提到過對偶問題和原問題滿足的幾個條件,首先由于目標(biāo)函數(shù)和線性約束都是凸函數(shù),而且這里不存在等式約束h。存在w使得對于所有的i,。因此,一定存在使得是原問題的解,是對偶問題的解。1.3 非線性支持向量機(jī)圖1.3 通過非線性變換將輸入空間變換
6、到一個高維空間對非線性問題,可以通過非線性變換轉(zhuǎn)化為某個高維空間中的線性問題,在變換空間求最優(yōu)分類面。對于線性不可分的情況,可以把樣本X映射到一個高維特征空間H,并在此空間中運用原空間的函數(shù)來實現(xiàn)內(nèi)積運算,這樣將非線性問題轉(zhuǎn)換成另一空間的線性問題來獲得一個樣本的歸屬。根據(jù)泛化函數(shù)的有關(guān)理論,只要一種核函數(shù)滿足Mercer條件,它就對應(yīng)某一空間中的內(nèi)積,因此只要在最優(yōu)分類面上采用適當(dāng)?shù)膬?nèi)積函數(shù)就可以實現(xiàn)這種線性不可分的分類問題。模型修改后,拉格朗日公式也要修改如下:這里的和都是拉格朗日乘子,回想我們在拉格朗日對偶中提到的求法,先寫出拉格朗日公式(如上),然后將其看作是變量w和b的函數(shù),分別對其求
7、偏導(dǎo),得到w和b的表達(dá)式。然后代入公式中,求帶入后公式的極大值。整個推導(dǎo)過程類似以前的模型,這里只寫出最后結(jié)果如下:此時,我們發(fā)現(xiàn)沒有了參數(shù),與之前模型唯一不同在于又多了的限制條件。1.4 核函數(shù)核函數(shù)是將函數(shù)映射到高維空間來增加線性學(xué)習(xí)的計算能力,通過選擇恰當(dāng)?shù)暮撕瘮?shù)來代替內(nèi)積,可以隱式地將訓(xùn)練數(shù)據(jù)非線性地映射到高維空間,而不增加可調(diào)參數(shù)的個數(shù),前提是核函數(shù)能夠計算對應(yīng)著的輸入特征向量的內(nèi)積。將核函數(shù)形式化定義,如果原始特征內(nèi)積是,映射后為,那么定義核函數(shù)(Kernel)為選擇不同的核函數(shù)意味著采取不同的標(biāo)準(zhǔn)對相似性和相似程度進(jìn)行估計。因此,核函數(shù)的選擇對非線性支持向量機(jī)的構(gòu)建是至關(guān)重要的,
8、核函數(shù)的選擇是一個難題。下面這張圖說明在低維線性不可分時,映射到高維后就可分了,使用高斯核函數(shù)。圖1.4 輸入空間到特征空間的映射第二章 實驗仿真結(jié)果及分析通過對SVM的學(xué)習(xí),了解到不同的實驗參數(shù)對實驗結(jié)果造成不同的影響,支持向量機(jī)建模過程中,其核函數(shù)的類型、核函數(shù)參數(shù)sigma和懲罰系數(shù)c的選取決定模型的識別性能,建模過程中多采用基于啟發(fā)式的交叉驗證法。在本實驗中使用了線性核函數(shù)和徑向基函數(shù)核函數(shù)來進(jìn)行實驗,在兩種基函數(shù)的基礎(chǔ)下,又分析討論了不同訓(xùn)練樣本數(shù)量對ROC曲線的影響,及訓(xùn)練樣本個數(shù)的不同對分類誤差的影響;最后對懲罰系數(shù)C和徑向基核函數(shù)中的參數(shù)sigma對實驗結(jié)果的影響有一個簡單的分
9、析討論.2.1 基于線性核函數(shù)的實驗仿真結(jié)果在這部分實驗中,選擇的核函數(shù)是線性核函數(shù),在此基礎(chǔ)上,首先選擇不同數(shù)量的訓(xùn)練樣本,得到相應(yīng)的最優(yōu)分類器,再對固定數(shù)量的測試樣本進(jìn)行分類,此時的懲罰系數(shù)c保持默認(rèn)不變,此時給出分類結(jié)果和相應(yīng)的ROC曲線,以及相對應(yīng)的分類誤差,然后對所得的實驗結(jié)果進(jìn)行分析討論;另一部分是保持訓(xùn)練樣本和測試樣本數(shù)量不變,線性核函數(shù)不變,此時改變懲罰系數(shù)c,得到分類結(jié)果、ROC曲線以及分類誤差.1 訓(xùn)練樣本數(shù)量對實驗結(jié)果的影響本次實驗中使用的數(shù)據(jù)集分為訓(xùn)練樣本集和測試樣本集,其中訓(xùn)練樣本集總數(shù)為3089個,測試樣本集總數(shù)為4000個,而這個樣本集中每個樣本包含有4個特征,我
10、們選取后兩個特征進(jìn)行分類,測試樣本數(shù)目選了101個,懲罰系數(shù)c默認(rèn)為1,測試樣本和懲罰系數(shù)c在這種實驗中保持不變.這組實驗?zāi)康臑橥ㄟ^訓(xùn)練樣本數(shù)量的變化來得到實驗結(jié)果,即當(dāng)訓(xùn)練樣本的個數(shù)發(fā)生變化時,找到分類誤差和ROC曲線相對應(yīng)的變化規(guī)律,并對這種規(guī)律進(jìn)行分析與討論。下圖為仿真實驗結(jié)果,其中圖2.1.12.1.3代表選取不同數(shù)目的訓(xùn)練樣本時得到的最優(yōu)分類器,并將測試樣本進(jìn)行分類,其中黑色代表支持向量,藍(lán)色代表正確分類的樣本,紅色則表示錯誤分類的樣本。從這三幅圖中可以看到,在每幅圖中均出現(xiàn)一定數(shù)量的錯誤分類的樣本,為了衡量錯誤分類的程度,在實驗中引入了分類錯誤率,分類錯誤率是通過找到分類結(jié)果與測試
11、標(biāo)簽之間不同的個數(shù),然后除以測試標(biāo)簽的數(shù)目來計算得到的。出現(xiàn)錯誤分類的樣本的原因是實驗所選取的樣本集中的每個樣本均包括4個特征,同時應(yīng)用這4個特征對樣本進(jìn)行分類,理論上是可以將正樣本與負(fù)樣本完全分開的,然而我們在實驗中僅僅選取了兩個特征對樣本進(jìn)行分類,只運用兩個特征,無論使用哪兩個,樣本的信息都有一定程度的丟失,因此勢必存在一定數(shù)目的樣本錯誤分類現(xiàn)象,也就是會存在一定的錯誤率。圖2.1.12.1.3中算出了在特定訓(xùn)練樣本數(shù)量下的分類錯誤率,可以看出隨著訓(xùn)練樣本數(shù)目的增多,誤差錯誤率會減小,這表示隨著訓(xùn)練樣本數(shù)量的增加,會有更多的特征用于訓(xùn)練分類器,使得分類器相對應(yīng)的參數(shù)越來越精確,分類器的效果
12、越來越好,相應(yīng)的使得測試樣本的分類結(jié)果更加精確,導(dǎo)致分類錯誤率減小。但是隨著訓(xùn)練樣本數(shù)量增加分類錯誤率減少的規(guī)律不是絕對的,只能說這是一種趨勢。圖2.1.1 訓(xùn)練樣本數(shù)為401個時測試樣本分類結(jié)果(錯誤率為0.2574)圖2.1.2 訓(xùn)練樣本數(shù)為1001個時測試樣本分類結(jié)果(錯誤率為0.2475)圖2.1.3 訓(xùn)練樣本數(shù)為2001個時測試樣本分類結(jié)果(錯誤率為0.2277)圖2.1.4 訓(xùn)練樣本數(shù)量與分類誤差曲線(橫坐標(biāo):訓(xùn)練樣本數(shù)量,縱坐標(biāo):分類誤差)如圖2.1.4表示訓(xùn)練樣本數(shù)量在4012901之間變化時的分類誤差曲線,其中橫坐標(biāo)表示訓(xùn)練樣本數(shù)量,縱坐標(biāo)代表測試樣本分類錯誤率。從這幅圖中看
13、到,當(dāng)訓(xùn)練樣本數(shù)量增加時,測試樣本分類錯誤率的大致走向是減少的,當(dāng)訓(xùn)練樣本數(shù)量為4001000時,分類錯誤率不變,訓(xùn)練樣本數(shù)量為10001500時,分類錯誤率成下降走勢,但是當(dāng)訓(xùn)練樣本數(shù)量繼續(xù)增加直到2000個時,此時分類錯誤率卻是逐漸增加的,接著保持不變直到訓(xùn)練樣本數(shù)量變?yōu)?500時,接著才又逐漸下降。出現(xiàn)這種現(xiàn)象是合理的,隨著訓(xùn)練樣本的增多,應(yīng)用到訓(xùn)練分類器上的特征也隨著增多,相應(yīng)的信息也會增多,在這些新增加的特征中,當(dāng)這些特征和原有的特征相似時,此時會遵循原來的分類錯誤率的走勢繼續(xù)變化,而圖2.1.5 訓(xùn)練樣本數(shù)為401個時ROC曲線(曲線面積為:0.7835)圖2.1.6 訓(xùn)練樣本數(shù)為
14、1001個時ROC曲線(曲線面積為:0.7886)圖2.1.7 訓(xùn)練樣本數(shù)為2001個時ROC曲線(曲線面積為:0.7894)圖2.1.8 訓(xùn)練樣本數(shù)量與ROC曲線面積(橫坐標(biāo):訓(xùn)練樣本數(shù)量,縱坐標(biāo):ROC曲線面積)當(dāng)新增加的信息和原有特征相差較大時,就可能存在著與原來的分類錯誤率的走勢完全相反的走勢,這時也就可能出現(xiàn)錯誤率反倒增加的現(xiàn)象,這個曲線只是相對的,是與訓(xùn)練樣本的選取方式有很大的關(guān)系的,但是訓(xùn)練樣本的數(shù)量與測試樣本分類錯誤率的總體規(guī)律是:隨著訓(xùn)練樣本數(shù)目的增多,測試樣本的分類錯誤率將減少。圖2.1.52.1.7表示的是圖2.1.12.1.3所表示的三種情況下對測試樣本進(jìn)行分類得到的R
15、OC曲線,ROC曲線涉及FPR與TPR兩個指標(biāo),F(xiàn)PR即負(fù)例預(yù)測錯誤的數(shù)量與所有負(fù)例的比值,也叫錯誤率,反映模型的特異性;TPR即正例預(yù)測正確的數(shù)量與所有正例的比值,也叫命中率,反映模型的靈敏度。ROC曲線以誤檢率為X軸,以檢出率為Y軸,描繪了模型輸出的收益和代價之間的關(guān)系。為了衡量不同訓(xùn)練樣本的基礎(chǔ)上得到的ROC曲線的效果,我們引入曲線下面積,曲線下面積越大,分類準(zhǔn)確性越高。在ROC曲線上,最靠近坐標(biāo)圖左上方的點為敏感性和特異性均較高的臨界值。由這三幅圖可以看出,隨著訓(xùn)練樣本的增多,ROC曲線下面積增多,及分類準(zhǔn)確性有所提高,這是由于訓(xùn)練樣本數(shù)目太少時,會出現(xiàn)過學(xué)習(xí)現(xiàn)象,簡單理解就是訓(xùn)練樣本
16、得到的輸出和期望輸出基本一致,但是測試樣本輸出和測試樣本的期望輸出相差卻很大。為了得到一致假設(shè)而使假設(shè)變得過度復(fù)雜稱為過擬合。由于使用過少的訓(xùn)練樣本產(chǎn)生了一個過擬合的分類器,這個分類器能夠百分之百的正確分類樣本數(shù)據(jù),也就是說再拿樣本中的樣本來給它,它絕對不會分錯,但也就為了能夠?qū)颖就耆_的分類,使得它的構(gòu)造如此精細(xì)復(fù)雜,規(guī)則如此嚴(yán)格,以至于任何與樣本數(shù)據(jù)稍有不同的測試樣本它全都認(rèn)為不屬于這個類別。這就使得正確分類訓(xùn)練樣本的要求變得十分嚴(yán)格,使得分類準(zhǔn)確性降低。隨著訓(xùn)練樣本數(shù)量的增加,使得分類器過擬合的現(xiàn)象有所改變,使得分類準(zhǔn)確性有所提高,相應(yīng)的ROC曲線下面積也會有所增大。但是也不表示訓(xùn)練
17、樣本的數(shù)量越多越好,當(dāng)訓(xùn)練樣本增加到一定的數(shù)目時,若再增加訓(xùn)練樣本,將會出現(xiàn)欠學(xué)習(xí)現(xiàn)象。由于數(shù)據(jù)本身呈現(xiàn)二次型,故用一條二次曲線擬合會更好。但普通的算法只提供線性方程供擬合之用,當(dāng)訓(xùn)練樣本的數(shù)目不是很多時,線性方程還可以將這些樣本進(jìn)行擬合,而當(dāng)訓(xùn)練樣本增加到一定程度時,此時線性擬合的誤差就會過大,這就產(chǎn)生擬合不足即“欠擬合”現(xiàn)象,從而在分類時要造成偏差,導(dǎo)致分類的準(zhǔn)確性降低,對應(yīng)到圖2.1.8中則表現(xiàn)為ROC曲線下面積下降。2.2 基于徑向基函數(shù)的實驗仿真結(jié)果在這部分實驗中,選擇的核函數(shù)是徑向基核函數(shù),在此基礎(chǔ)上,首先選擇不同數(shù)量的訓(xùn)練樣本,得到相應(yīng)的最優(yōu)分類器,再對固定數(shù)量的測試樣本進(jìn)行分類
18、,此時的懲罰系數(shù)c和徑向基核函數(shù)中的參數(shù)sigma保持默認(rèn)不變,此時給出分類結(jié)果和相應(yīng)的ROC曲線,以及相對應(yīng)的分類誤差,然后對所得的實驗結(jié)果進(jìn)行分析討論;另一部分是保持訓(xùn)練樣本和測試樣本數(shù)量不變,線性核函數(shù)不變,此時改變懲罰系數(shù)c和徑向基核函數(shù)中的參數(shù)sigma,得到分類結(jié)果、ROC曲線以及分類誤差,分析懲罰參數(shù)c的變化以及徑向基核函數(shù)中的參數(shù)sigma改變時對實驗結(jié)果的影響,并通過交叉驗證算法得到最優(yōu)懲罰系數(shù)c與徑向基核函數(shù)中的參數(shù)sigma。1 訓(xùn)練樣本數(shù)量對實驗結(jié)果的影響圖2.2.1 訓(xùn)練樣本數(shù)為401個時測試樣本分類結(jié)果(錯誤率為0.1683)圖2.2.2 訓(xùn)練樣本數(shù)為1001個時測
19、試樣本分類結(jié)果(錯誤率為0.1584)圖2.2.3 訓(xùn)練樣本數(shù)為2001個時測試樣本分類結(jié)果(錯誤率為0.1584)圖2.2.4 訓(xùn)練樣本數(shù)量與分類誤差曲線(橫坐標(biāo):訓(xùn)練樣本數(shù)量,縱坐標(biāo):分類誤差)在這部分實驗中,使用的實驗參數(shù)及數(shù)據(jù)均與基于線性核函數(shù)的實驗的第一部分使用的一致,新增加的一個參數(shù)便是徑向基核函數(shù)中的參數(shù)sigma。在這部分實驗中使徑向基核函數(shù)中的參數(shù)sigma保持不變,即使用默認(rèn)值1.這組實驗?zāi)康臑橥ㄟ^訓(xùn)練樣本數(shù)量的變化來得到實驗結(jié)果,即當(dāng)訓(xùn)練樣本的個數(shù)發(fā)生變化時,找到分類誤差和ROC曲線相對應(yīng)的變化規(guī)律,并對這種規(guī)律進(jìn)行分析與討論。上圖為仿真實驗結(jié)果,其中圖2.2.12.2.
20、3代表選取不同數(shù)目的訓(xùn)練樣本時得到的最優(yōu)分類器,并將測試樣本進(jìn)行分類,其中黑色代表支持向量,藍(lán)色代表正確分類的樣本,紅色圖2.2.5 訓(xùn)練樣本數(shù)為401個時ROC曲線(曲線面積為:0.8808)圖2.2.6 訓(xùn)練樣本數(shù)為1001個時ROC曲線(曲線面積為: 0.8882)圖2.2.7 訓(xùn)練樣本數(shù)為2001個時ROC曲線(曲線面積為:0.8773)圖2.2.8 訓(xùn)練樣本數(shù)量與ROC曲線面積(橫坐標(biāo):訓(xùn)練樣本數(shù)量,縱坐標(biāo):ROC曲線面積)則表示錯誤分類的樣本。圖2.2.4表示訓(xùn)練樣本數(shù)量在4012901之間變化時的分類誤差曲線,其中橫坐標(biāo)表示訓(xùn)練樣本數(shù)量,縱坐標(biāo)代表測試樣本分類錯誤率。圖2.2.5
21、2.2.7表示的是圖2.2.12.2.3所表示的三種情況下對測試樣本進(jìn)行分類得到的ROC曲線,圖2.2.8反映了訓(xùn)練樣本數(shù)量與ROC曲線下面積之間的關(guān)系。出現(xiàn)這些結(jié)果的原因在第一節(jié)已經(jīng)有了詳細(xì)的分析與討論,此處便不再做贅述。將這一部分的實驗結(jié)果與第一節(jié)中相應(yīng)的實驗部分的實驗仿真結(jié)果進(jìn)行比較,可以看出無論是測試樣本分類錯誤率還是ROC曲線下面積均比基于線性核函數(shù)的效果好,也就是說相對于基于線性核函數(shù)的SVM對測試樣本的分類,基于徑向基函數(shù)的SVM對測試樣本的分類效果更好。由前面的理論知識知道,應(yīng)用核函數(shù)一方面是為了更好地擬合,由于數(shù)據(jù)本身呈現(xiàn)二次型,故用一條二次曲線擬合會更好。所謂徑向基函數(shù),就
22、是某種沿徑向?qū)ΨQ的標(biāo)量函數(shù)。通常定義為空間中任一點到某一中心之間歐氏距離的單調(diào)函數(shù),其作用往往是局部的,即當(dāng)這點遠(yuǎn)離中心點時函數(shù)取值很小。最常用的徑向基函數(shù)是高斯核函數(shù)。徑向基函數(shù)能夠?qū)崿F(xiàn)非線性映射,線性核函數(shù)可以證明是他的一個特例,數(shù)據(jù)本身的二次型的特點使得在很多情況下使用線性核函數(shù)的SVM并不能使測試樣本可分,樣例可能存在線性不可分的情況,而將特征映射到高維空間后,往往就可分了。因此在很多情況下使用徑向基函數(shù)的SVM會使得訓(xùn)練樣本的效果好于線性核函數(shù)的SVM,對應(yīng)于實驗結(jié)果便是基于徑向基函數(shù)的分類器對測試樣本分類的錯誤率與ROC曲線下面積的值要高于基于線性核函數(shù)的相應(yīng)的實驗結(jié)果。2 徑向基
23、函數(shù)參數(shù)sigma與懲罰系數(shù)c對實驗結(jié)果的影響核函數(shù)確定了數(shù)據(jù)在映射到高維空間之后的分布形態(tài),核函數(shù)參數(shù)sigma判定了特征空間中向量間歸一化的歐氏距離,sigma的選擇與學(xué)習(xí)樣本輸入空間的范圍或?qū)挾扔嘘P(guān),輸入空間范圍越大,則sigma取值越大,反之越小。懲罰系數(shù)c是模型復(fù)雜度和訓(xùn)練錯誤率之間的折中,在建模過程中,無法得到推廣能力估計值與這些參數(shù)的顯示表達(dá)關(guān)系,且變化不連續(xù)??刹捎没趩l(fā)式的交叉驗證法得到最優(yōu)值。交叉驗證是一種用來評價一個統(tǒng)計分析的結(jié)果是否可以推廣到一個獨立的數(shù)據(jù)集上的技術(shù)。主要用于預(yù)測,即想要估計一個預(yù)測模型的實際應(yīng)用中的準(zhǔn)確度。它是一種統(tǒng)計學(xué)上將數(shù)據(jù)樣本切割成較小子集的實
24、用方法。于是可以先在一個子集上做分析,而其它子集則用來做后續(xù)對此分析的確認(rèn)及驗證。一個交叉驗證將樣本數(shù)據(jù)集分成兩個互補(bǔ)的子集,一個子集用于訓(xùn)練(分類器或模型)稱為訓(xùn)練集;另一個子集用于驗證(分類器或模型的)分析的有效性稱為測試集。利用測試集來測試訓(xùn)練得到的分類器或模型,以此作為分類器或模型的性能指標(biāo)。得到高度預(yù)測精確度和低的預(yù)測誤差,是研究的期望。為了減少交叉驗證結(jié)果的可變性,對一個樣本數(shù)據(jù)集進(jìn)行多次不同的劃分,得到不同的互補(bǔ)子集,進(jìn)行多次交叉驗證。取多次驗證的平均值作為驗證結(jié)果。在給定的建模樣本中,拿出大部分樣本進(jìn)行建模型,留小部分樣本用剛建立的模型進(jìn)行預(yù)報,并求這小部分樣本的預(yù)報誤差,記錄
25、它們的平方和。這個過程一直進(jìn)行,直到所有的樣本都被預(yù)報了一次而且僅被預(yù)報一次。本次實驗中選擇的交叉驗證算法是k-fold交叉驗證。它的過程是:初始采樣分成k個子樣本,一個單獨的子樣本被保留作為驗證模型的數(shù)據(jù),其他的k-1個樣本用來訓(xùn)練。交叉驗證重復(fù)k次,每個子樣本驗證一次,平均k次的結(jié)果或者使用其它結(jié)合方式,最終得到一個單一估測。這個方法的優(yōu)點在于同時重復(fù)運用隨機(jī)產(chǎn)生的子樣本進(jìn)行訓(xùn)練和驗證,每次的結(jié)果驗證一次,實驗中使用的是最常用的10次交叉驗證。通過交叉驗證算法得到分類器的徑向基函數(shù)參數(shù)sigma的最優(yōu)值為1.3565,懲罰系數(shù)的最優(yōu)值為5.5555。在這組最優(yōu)參數(shù)下的實驗仿真結(jié)果如圖2.2
26、.9所示(此時的訓(xùn)練樣本數(shù)目為1001個,測試樣本數(shù)目101個)。由實驗結(jié)果可以看出,在訓(xùn)練樣本和測試樣本的數(shù)量保持不變的前提下,選取最優(yōu)參數(shù)時得到的實驗結(jié)果與這一節(jié)第一部分是實驗結(jié)果進(jìn)行對比,選取最優(yōu)參數(shù)時的實驗結(jié)果較好。當(dāng)保持徑向基函數(shù)參數(shù)sigma不變,改變懲罰參數(shù)c時,可以看到實驗結(jié)果如圖2.2.10(a)與(b)所示,此時的ROC曲線下面積均比圖2.2.9所示的ROC曲線下面積小,也就是說對測試樣本的分類精度不如最優(yōu)參數(shù)下的精度。由于測試樣本中可能存在一些離群點(可能是噪聲),如果這些離群點存在于另一個類中,導(dǎo)致樣圖2.2.9 參數(shù)最優(yōu)時ROC曲線(曲線面積為: 0.8933)(a)
27、 C變?yōu)?時ROC曲線(曲線面積為:0.8855)(b) C變?yōu)?5時ROC曲線(曲線面積為:0.8925)(c) sigma變?yōu)?.3565時ROC曲線(曲線面積為:0.8286)(d) sigma變?yōu)?.3565時ROC曲線(曲線面積為:0.8749)圖2.2.10 參數(shù)變化時ROC曲線本變得不可分。為了解決這一問題,我們引入了松弛變量,目的是允許這些點位于對方的區(qū)域中。離散點越多,目標(biāo)函數(shù)值就越大,而我們要求的是盡可能小的目標(biāo)函數(shù)值,懲罰系數(shù)c是表示這些離散點的權(quán)重,此時就需要調(diào)整懲罰系數(shù)c來得到目標(biāo)。若c過大,則此時離散點占的比重增多,使得處于對方區(qū)域中的樣本數(shù)量增多,使得錯誤分類的樣本
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《岳陽樓記》課件
- DBJ13-297-2018 建筑起重機(jī)械安全管理標(biāo)準(zhǔn)
- 國家煙草專賣局招聘必考題庫(含答案)
- 動物生理學(xué)復(fù)習(xí)重點
- 龜頭癌的健康宣教
- xx市商業(yè)航天項目可行性研究報告
- 推動互聯(lián)網(wǎng)多元共治治理的策略與實踐路徑
- 2024年食用油原料購進(jìn)合同
- 電影教父1劇本中英文對照版
- DB45T 2902-2024 公路水路行業(yè)安全生產(chǎn)信用評價規(guī)范 第2部分:水運工程建設(shè)
- 2025年上半年河南省西峽縣部分事業(yè)單位招考易考易錯模擬試題(共500題)試卷后附參考答案-1
- 深交所創(chuàng)業(yè)板注冊制發(fā)行上市審核動態(tài)(2020-2022)
- 手術(shù)室護(hù)理組長競聘
- 電力系統(tǒng)繼電保護(hù)試題以及答案(二)
- 小學(xué)生防打架斗毆安全教育
- 2024-2025學(xué)年九年級英語上學(xué)期期末真題復(fù)習(xí) 專題09 單詞拼寫(安徽專用)
- 網(wǎng)絡(luò)運營代銷合同范例
- 2024年新人教版七年級上冊歷史 第14課 絲綢之路的開通與經(jīng)營西域
- 植保無人機(jī)安全飛行
- 醫(yī)療糾紛事件匯報
- 2024年村干部個人工作總結(jié)例文(3篇)
評論
0/150
提交評論