版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
一種基于機(jī)器學(xué)習(xí)的邊緣檢測算法研究目錄TOC\o"1-2"\h\u13548一、緒論 115175(一)引言 13087(二)圖像邊緣檢測的研究背景和意義 19312(三)圖像邊緣檢測的研究現(xiàn)狀 222756(四)機(jī)器學(xué)習(xí)技術(shù)的原理及特點 410917二、訓(xùn)練樣本集創(chuàng)建 528777三、特征提取 64918(一)Harr特征原理及實現(xiàn)方法 67923(二)方向梯度直方圖特征原理及實現(xiàn)方法 728160四、分類器訓(xùn)練 932251(一)AdaBoost算法和決策樹算法原理 96865(二)基于AdaBoost和決策樹的分類器訓(xùn)練 1120846五、實驗仿真結(jié)果及分析 1327629六、總結(jié) 14緒論(一)引言邊緣檢測是在模式識別、機(jī)器人視覺系統(tǒng)、圖像分割、圖像匹配、目標(biāo)識別和跟蹤、圖像壓縮等領(lǐng)域研究的基本工具,對圖像處理和計算機(jī)視覺系統(tǒng)等多個領(lǐng)域的研究也起著重要作用。傳統(tǒng)的邊緣檢測方法通過局部的亮度、顏色、梯度和紋理或者其他人工設(shè)計特征進(jìn)行邊緣或者非邊緣的分類。諸如著名的Sobel和Canny之類的傳統(tǒng)邊緣算子主要集中在圖像梯度的使用上。但是,邊緣通常具有豐富的語義信息,僅通過局部線索很難獲得令人滿意的結(jié)果。雖然由于其高效,目前仍有應(yīng)用,但是其準(zhǔn)確率很難達(dá)到現(xiàn)代應(yīng)用的要求。機(jī)器學(xué)習(xí)(MachineLearning)是計算機(jī)科學(xué)的一個分支,它使用已知數(shù)據(jù)(數(shù)據(jù)可以是歷史數(shù)據(jù)或?qū)崟r更新的數(shù)據(jù))來預(yù)測或響應(yīng)未知數(shù)據(jù),可以通過不斷模擬學(xué)習(xí)人類行為完善自身性能。它與模式識別、計算統(tǒng)計學(xué)和人工智能等領(lǐng)域密切相關(guān)。本文提出了一種基于機(jī)器學(xué)習(xí)的邊緣檢測算法。該算法將圖像中的像素點分為邊緣點和非邊緣點,并通過計算某個點是邊緣點的概率來進(jìn)行分類,最終結(jié)果得到的是一幅表明邊緣可行度的概率圖像。最終的實驗結(jié)果表明,與其他傳統(tǒng)算法相比,基于機(jī)器學(xué)習(xí)的邊緣檢測方法具有較強(qiáng)的自適應(yīng)性,可以得到更清晰的邊緣圖像。(二)圖像邊緣檢測的研究背景和意義隨著科學(xué)技術(shù)的不斷發(fā)展,人們開始越來越重視圖像邊緣檢測的研究和探索。圖像邊緣提取是保證圖像邊緣檢測成功的基礎(chǔ)和前提,應(yīng)引起重視。邊緣是圖像的最基本特征,從中可以看到整個圖像的層次感和文理特點。圖像處理工作的完成必須依靠邊緣信息。邊緣的基本概念目前,人們通常認(rèn)為邊緣是灰度急劇變化的像素集合,是指兩個具有不同灰度的均勻圖像區(qū)域的邊界,即該邊界反映了局部的灰度變化。邊緣對一個完整的圖像來說意義較大,在從一個圖像中尋找特定的物體時,邊緣就發(fā)揮了其作用。對于邊緣有一些基本概念需要理解:邊緣法線方向是指在垂直于邊緣方向的某個點上灰度變化最大的方向。邊緣方向是指目標(biāo)邊界的切線方向,即垂直于邊緣法線的方向。邊緣強(qiáng)度是圖像局部沿邊緣法線方向的變化強(qiáng)度的量度。理想邊緣大致可以分為兩種,一種是階躍狀邊緣(step-edge),邊緣兩側(cè)像素的灰度值急劇變化,如圖1.1所示;另一種為屋頂狀邊緣(pulse-edge),邊緣像素的灰度值由減小到增大再減小,如圖1.2所示。圖SEQ圖\*ARABIC1.1階躍狀邊緣灰度函數(shù)圖像圖1.2屋頂狀邊緣灰度函數(shù)圖像2.邊緣檢測的基本概念邊緣檢測,是基于灰度突變或者漸變來檢測邊緣的。邊緣檢測的目的是標(biāo)識數(shù)字圖像中灰度變化明顯的點。邊緣檢測的基本思想是通過檢測每個像素和其鄰域的狀態(tài)來確定該像素是否位于對象的邊界上。如果像素位于對象的邊界上,則其鄰域像素的灰度值會存在相對較大的變化。如果可以應(yīng)用某種算法來檢測此變化并對其進(jìn)行量化,則可以確定對象的邊界。邊緣檢測算法有如下四個步驟:(1)圖像濾波:邊緣檢測算法主要是基于圖像強(qiáng)度的一階和二階導(dǎo)數(shù),但是導(dǎo)數(shù)的計算對噪聲非常敏感,因此必須使用濾波器來提高與噪聲相關(guān)的邊緣檢測器的性能。需要指出的是,大多數(shù)濾波器在降低噪聲的同時會導(dǎo)致邊緣強(qiáng)度的損失。因此,在增強(qiáng)邊緣和降低噪聲之間需要權(quán)衡。(2)圖像增強(qiáng):增強(qiáng)邊緣的基礎(chǔ)是確定圖像每個點的鄰域強(qiáng)度的變化值。增強(qiáng)算法可以突出顯示鄰域(或局部)強(qiáng)度值顯著變化的點。邊緣增強(qiáng)通常是通過計算梯度幅度完成的。(3)邊緣檢測:圖像中有許多點具有相對較大的梯度幅度,并且這些點在特定的應(yīng)用領(lǐng)域中并非全部是邊緣,因此應(yīng)使用某種方法來確定哪些點是邊緣點。梯度幅值閾值判據(jù)是最簡單的邊緣檢測判據(jù)。(4)圖像定位:如果某個應(yīng)用需要確定邊緣位置,則可以以子像素分辨率估算邊緣位置,并且也可以估算邊緣方位。在邊緣檢測算法中,前三個步驟非常常見。這是因為在大多數(shù)情況下,僅需要邊緣檢測器來指出邊緣出現(xiàn)在圖像中的某個像素附近,而不必指出邊緣的精確位置或方向。邊緣檢測誤差通常是指邊緣誤分類誤差,即,將假邊緣區(qū)分為邊緣并保留,而將真邊緣區(qū)分為假邊緣并去除。邊緣估計誤差使用概率統(tǒng)計模型來描述邊緣位置和方向誤差。在使用過程中需要將邊緣檢測誤差和邊緣估計誤差區(qū)分開來,因為它們的計算方法完全不同,并且它們的誤差模型也完全不同。邊緣檢測的三個共性準(zhǔn)則:良好的檢測結(jié)果,指的是邊緣的錯誤檢測率盡可能低,也就是說,出現(xiàn)圖像邊緣的地方應(yīng)該出現(xiàn)檢測結(jié)果,但是不要出現(xiàn)虛假的邊緣;邊緣位置必須準(zhǔn)確,即我們標(biāo)記的邊緣位置必須足夠接近圖像上真實邊緣的中心位置;對相同邊緣的響應(yīng)次數(shù)應(yīng)盡可能少,即,檢測響應(yīng)優(yōu)選為單像素。(三)圖像邊緣檢測的研究現(xiàn)狀圖像的邊緣是指圖像中一個區(qū)域的結(jié)束和另一區(qū)域的開始。圖像中相鄰區(qū)域之間的像素集合構(gòu)成了圖像的邊緣。因此,圖像的邊緣可以理解為圖像灰度中具有空間突變的像素的集合。圖像邊緣有兩個要素,即:方向和幅度。沿邊緣方向的像素值變化相對平緩;而沿著垂直于邊緣方向,像素值的變化相對較大。因此,根據(jù)這種變化的特征,通常使用一階和二階導(dǎo)數(shù)來描述和檢測邊緣。綜上,可以通過求灰度值的導(dǎo)數(shù)來對圖像中的邊緣進(jìn)行檢測,并且可以由微分算子來計算該導(dǎo)數(shù)。在數(shù)字圖像處理中,通常使用差分計算來近似代替微分運算。所以邊緣檢測可以近似認(rèn)為,用一個定義的模板,來對圖像進(jìn)行濾波的過程,之后,可以適當(dāng)?shù)厥褂煤唵稳珠撝堤幚怼3S玫囊浑A微分算子包括Roberts,Prewitt,Sobel等,常用的二階微分算子包括Laplacian,Kirsh,LoG(LaplaceofGaussian),Canny和其他算子。在實際的處理操作中,經(jīng)常使用模板矩陣和圖像像素值矩陣的卷積來實現(xiàn)微分運算。由于垂直邊緣方向上的像素和噪聲是灰度不連續(xù)點,因此在變換到頻域時,它們都是頻域中的高頻分量,直接使用微分運算不可避免地會很大受噪音影響。因此,微分算子僅適用于圖像噪聲較小的簡單圖像。為了解決這個問題,LoG算子和Canny算子先采用對圖像進(jìn)行平滑和濾波的方法,然后再利用微分算子對圖像進(jìn)行卷積,以得到更好的邊緣檢測結(jié)果。其中,LoG算子使用Laplacian算子來計算高斯函數(shù)的二階導(dǎo)數(shù),而Canny算子是高斯函數(shù)的一階導(dǎo)數(shù)。兩種算子在噪聲抑制和邊緣檢測之間取得了更好的平衡。下面介紹幾種典型的算子模板:Roberts算子模板實現(xiàn)如圖1.3:圖1.3Roberts算子模板Prewitt算子模板實現(xiàn)如圖1.4:?1圖1.4Prewitt算子模板Sobel算子模板實現(xiàn)如圖1.5:?1圖1.5Sobel算子模板Laplacian算子模板實現(xiàn)如圖1.6:0圖1.6Laplacian算子模板LoG算子模板實現(xiàn)如圖1.7:0?10圖1.7LoG算子模板(四)機(jī)器學(xué)習(xí)技術(shù)的原理及特點人與動物的最根本的區(qū)別就是人擁有智能。在日常生活中人們總是本能使用復(fù)雜而又高效的智能算法,基于經(jīng)驗可以得出不同的結(jié)論。而當(dāng)機(jī)器需要完成類似操作時就需要利用機(jī)器學(xué)習(xí)。從廣泛的意義上來說,機(jī)器學(xué)習(xí)意味著使用機(jī)器(計算機(jī)的硬件和軟件)從數(shù)據(jù)中獲得知識,也意味著賦予機(jī)器從環(huán)境中學(xué)習(xí)的能力。具體而言,機(jī)器學(xué)習(xí)就是對某個實際問題建立計算模型,并利用已知的經(jīng)驗來提升模型效果的一類方法。一些常用的機(jī)器學(xué)習(xí)的工具有貝葉斯、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等。當(dāng)計算機(jī)需要處理、分析的數(shù)據(jù)中存在一定相同的模式,并且想把其中的知識寫成一定的規(guī)則、形式化的固定下來,但又無法窮盡時,這時就可以使用機(jī)器學(xué)習(xí)的方法。
訓(xùn)練樣本集創(chuàng)建創(chuàng)建真實可靠的訓(xùn)練數(shù)據(jù)樣本集是影響算法分類器效果的關(guān)鍵點之一。在機(jī)器學(xué)習(xí)的過程中,只有提供足夠多的訓(xùn)練樣本,分類器的訓(xùn)練才能獲得豐富的學(xué)習(xí)信息,提高分類器的可信度和可靠性。該算法選擇了48×48像素的圖像塊作為訓(xùn)練數(shù)據(jù)。訓(xùn)練數(shù)據(jù)樣本分為正樣本和負(fù)樣本。正樣本指的是其中心點為邊緣點的圖像塊,而負(fù)樣本指的是任何其他圖像塊。本文將BSDS500(Berkeleysegmentationdataset)中的圖像用作實驗數(shù)據(jù)。BSDS500是邊緣檢測領(lǐng)域中許多學(xué)者使用的數(shù)據(jù)集。它由200張訓(xùn)練圖像,100張驗證圖像和200張測試圖像組成。邊緣檢測領(lǐng)域中的數(shù)據(jù)集往往是不同標(biāo)注者進(jìn)行標(biāo)注,他們標(biāo)注時所利用的知識只限于他們本身對目標(biāo)物體或者目標(biāo)部分物體的認(rèn)知。盡管認(rèn)知因人而異,但他們在標(biāo)記同一圖像的邊緣時具有很高的一致性。圖2.1顯示了數(shù)據(jù)庫中一組圖像的原始圖像及其人工注釋的圖像。根據(jù)手動標(biāo)記的邊緣圖像,可以獲得圖2.2和圖2.3中所示的正樣本示例和負(fù)樣本示例。在該實驗中,正樣本的數(shù)量為3,000,負(fù)樣本的數(shù)量為5,000。(a)原始圖像圖(b)人工標(biāo)注圖像圖2.1BSDS數(shù)據(jù)庫圖像圖SEQ圖\*ARABIC2.2正樣本圖2.3負(fù)樣本
特征提取圖像特征是指可以在圖像中用作標(biāo)志的屬性,可以分為統(tǒng)計特征和視覺特征。圖像的統(tǒng)計特征是指一些人工定義的特征,可以通過變換獲得這些特征,例如圖像的直方圖,矩和頻譜。圖像的視覺特征是指人類視覺可以直接感受到的自然特征,例如區(qū)域的亮度,紋理或輪廓等。在對圖像中的像素進(jìn)行分類時,可以使用圖像的某些特征作為弱分類器,可以通過算法將多個弱分類器訓(xùn)練成一個強(qiáng)分類器,以實現(xiàn)最終的分類目標(biāo)。在本文中,該算法選擇了Haar-like的特征和方向梯度直方圖(HoG)進(jìn)行訓(xùn)練。由于這些特征的普遍性,該邊緣檢測方法的應(yīng)用領(lǐng)域非常廣泛,并且這兩個特征在圖像上下文中保留了視覺信息,提高邊緣檢測的準(zhǔn)確性。(一)Harr特征原理及實現(xiàn)方法Haar-like特征是一種非常經(jīng)典的特征提取算法,最早由Papageorgiou等人應(yīng)用到面部檢測中,因為它類似于Haar小波(Harrwavelet)而得名。Viola和Jones在此基礎(chǔ)上使用3種類型4種形式的特征。特別是當(dāng)它與AdaBoost結(jié)合使用時,對面部檢測具有良好的效果。一般而言,當(dāng)提到Haar-like時,它將與AdaBoost,級聯(lián)分類器,人臉檢測,積分圖等一起出現(xiàn)。Haar特征分為三類:邊緣特征,線性特征,中心特征和對角線特征,它們被合并為特征模板。特征模板中有白色和黑色矩形,并且模板的特征值定義為白色矩形像素和與黑色矩形像素和之差。Haar特征值反映圖像的灰度變化。但是,矩形特征僅對某些簡單的圖形結(jié)構(gòu)(例如邊緣和線段)敏感,因此它只能描述具有特定方向(水平,垂直,對角線)的結(jié)構(gòu)。圖3.1Harr-like矩形對于圖中的A,B和D之類的特征,特征值的計算公式(3-1)為: V=Sum白而對于C來說,計算公式(3-2)如下: V=Sum黑色區(qū)域像素總和乘以2的原因是為了使兩個矩形區(qū)域中的像素數(shù)相同。通過更改特征模板的大小和位置,可以在圖像子窗口中窮舉出大量特征。上圖的特征模板稱為“特征原型”;將特征原型在圖像子窗口中擴(kuò)展(平移伸縮)出的特征稱為“矩形特征”;矩形特征的值稱為“特征值”。矩形特征可以位于圖像的任何位置,并且大小也可以任意更改,因此矩形特征值是矩形模板類別,矩形位置和矩形大小這三個因素的函數(shù)。因此,類別,大小和位置的變化使一個小的檢測窗口包含許多矩形特征。例如,在尺寸為24*24像素的檢測窗口中,矩形特征的數(shù)量可以達(dá)到160,000。根據(jù)實現(xiàn)原理計算Haar特征非常復(fù)雜,因此通常使用積分圖(IntegralImage)來簡化計算過程。積分圖與動態(tài)規(guī)劃算法相似,僅遍歷一次圖像即可獲得圖像中所有像素的總和,大大提高了圖像特征值的計算效率。積分圖的主要思想是將圖像從起點到各個點的矩形區(qū)域中的像素之和存儲為數(shù)組中的數(shù)組元素。當(dāng)要計算某個區(qū)域中的像素之和時,可以直接索引數(shù)組的元素,而不用重新計算該區(qū)域的像素總和,從而加快了計算。積分圖可以使用相同的時間(常數(shù)時間)在多個尺度下計算不同特征,從而大大提高了檢測速度。方法如下:(1)計算積分圖,在公式(3-3)中ii(x,y)表示在位置(x,y)上,相應(yīng)積分圖像中的像素是該位置左上角所有像素的總和。 iix,y=(2)首先公式(3-4)每一行都遞歸計算s(x,y),計算完畢之后公式(3-5)在每一列都計算ii(x,y)。 sx,y=s iix,y=ii初始值 sx,?1=0,ii其中s(x,y)為點(x,y)所在行以左的像素之和。(3)計算某個方塊內(nèi)的像素和根據(jù)(2)我們計算出各點左上的像素之和ii(x,y),如圖3.2中D區(qū)域內(nèi)部的像素和我們可以寫作iiD=iiiiD表示D區(qū)域內(nèi)部的像素和圖3.2Haar-like特征積分圖(二)方向梯度直方圖特征原理及實現(xiàn)方法方向梯度直方圖(HistogramOfOrientedGradients,HoG)是用于目標(biāo)檢測的特征描述符。它通過計算并統(tǒng)計圖像局部區(qū)域的梯度方向直方圖來構(gòu)成特征。核心思想是可以通過要測試的圖像的梯度或邊緣方向的密度分布來描述圖像中檢測到的對象的外觀和形狀,這主要用于計算機(jī)視覺和圖像處理領(lǐng)域。與其他特征描述方法相比,HoG在圖像的局部網(wǎng)格單元上進(jìn)行操作,因此可以對圖像的幾何和光學(xué)變形保持良好的不變性。這兩種形變只會出現(xiàn)在更大的空間領(lǐng)域中。HoG特征提取過程是先對圖像進(jìn)行灰度化處理,然后將圖像分成小單元格(我們稱其為細(xì)胞單元),然后計算每個單元格中每個像素的方向梯度。然后統(tǒng)計每個單元格中不同梯度的數(shù)量以形成每個單元格的HoG描述子,最后進(jìn)行歸一化以形成每個塊的HoG特征。通常將梯度方向分為8個方向,每個方向相隔45o,圖像單元數(shù)為3×3,如圖3.3所示。圖3.3方向梯度直方圖
分類器訓(xùn)練對于提供的訓(xùn)練樣本(包括正樣本和負(fù)樣本),分別提取其Harr特征和梯度直方圖(HoG)特征,以獲得一組高維特征向量。對于高維特征數(shù)據(jù),本文采用Adaboost和決策樹算法相結(jié)合的方法,取得了較為理想的效果。(一)AdaBoost算法和決策樹算法原理1.決策樹算法原理決策樹(DecisionTree)是一種非參數(shù)有監(jiān)督分類方法。它可以從具有特征和標(biāo)簽的一系列數(shù)據(jù)中總結(jié)決策規(guī)則,并以樹狀圖結(jié)構(gòu)顯示這些規(guī)則以解決分類和回歸問題。決策樹分類算法是一種基于實例的歸納學(xué)習(xí)方法,可以從給定的無序訓(xùn)練樣本中提取樹型分類模型。若要生成決策樹,首先根據(jù)相似性把所有數(shù)據(jù)點分為兩組,然后針對每組重復(fù)這個二分過程。葉節(jié)點的每一層都包含比上一層更少的數(shù)據(jù)點,但具有更高的同質(zhì)性。決策樹的理論基礎(chǔ)是,相同路徑上的數(shù)據(jù)點彼此是相似的。樹中的每個非葉節(jié)點都記錄了用于判斷類別的特征,并且每個葉節(jié)點都代表最終判斷的類別。每個葉節(jié)點的根節(jié)點都形成一個分類路徑規(guī)則。測試新樣本時,只需要從根節(jié)點開始,在每個分支節(jié)點進(jìn)行測試,然后沿著相應(yīng)的分支遞歸地進(jìn)入子樹以再次進(jìn)行測試,直到到達(dá)葉節(jié)點為止,該葉節(jié)點表示的類別就是當(dāng)前測試樣本的預(yù)測類別。圖4.1顯示了標(biāo)準(zhǔn)決策樹模型。要構(gòu)建一顆標(biāo)準(zhǔn)決策樹,僅需要兩個步驟:步驟1:確定一個二元選擇題,它能夠把數(shù)據(jù)點拆分為兩組,并最大限度地提高每組數(shù)據(jù)點的同質(zhì)性。步驟2:對每個葉節(jié)點重復(fù)步驟1,直到滿足終止條件并且無法進(jìn)行進(jìn)一步劃分。圖4.1決策樹分枝示意盡管決策樹易于使用和理解,但它們具有不穩(wěn)定(易于過擬合)和不準(zhǔn)確的缺點。為了盡可能避免這種情況,我們可以結(jié)合使用隨機(jī)森林或AdaBoost算法,使預(yù)測結(jié)果具有較好的穩(wěn)定性和準(zhǔn)確性。2.AdaBoost算法原理Boosting
算法是由
Robert
T
.Schapire
提出的。Boosting算法將更多注意力放在分類錯誤的樣本上。對于這樣的樣本來加強(qiáng)學(xué)習(xí),就像背單詞一樣,當(dāng)?shù)谝槐楸惩暌粋€
List
的單詞,第二遍進(jìn)行復(fù)習(xí)時,并不是這個
List
中的每一個單詞都會花費同樣的時間再去決定,而是會重點關(guān)注那些第一遍之后還設(shè)有記住的單詞。
Boosting算法在其實現(xiàn)中也使用了這種想法。首先,對每個訓(xùn)練樣例賦予相同的權(quán)重,然后通過訓(xùn)練構(gòu)造第一個弱分類器,對這個弱分類器進(jìn)行測試,將那些分類錯誤的測試樣例增加權(quán)重,然后再將調(diào)整權(quán)重后的訓(xùn)練集去訓(xùn)練第二個弱分類器,并重復(fù)上述過程,直到最終獲得足夠好的分類器。但是,Boosting算法在解決實際問題時存在一個重大缺陷,即它們都需要先了解弱分類器算法的分類正確率下限,但這在實際同題中很難解決,所以后來
Freund和
Schapire提出了AdaBoost(AdaptiveBoosting,自適應(yīng)增強(qiáng))算法,這個算法可以很容易地應(yīng)用于解決實際問題中。
如圖4.2所示,這就是Adaboost的結(jié)構(gòu),最后的分類器YM是數(shù)個弱分類器的組合,等同于最后m個弱分類器進(jìn)行投票以確定分類,并且每個分類器的“話語權(quán)”α不一樣。圖4.2Adaboost結(jié)構(gòu)Adaboost算法主要是在整個訓(xùn)練集上維護(hù)一個分布權(quán)值向量,使用加權(quán)訓(xùn)練集生成弱分類器,然后計算該弱分類器的錯誤率,并使用此錯誤率更新分布權(quán)值向量,為分類錯誤的樣本分配較大的權(quán)值,為分類正確的樣本分配較小的權(quán)值。每次更新后,將使用相同的弱分類算法來生成新的分類假設(shè)。這些分類假設(shè)的順序構(gòu)成了一個多分類器。最后,將這些多分類器與加權(quán)方法相結(jié)合,以獲得決策結(jié)果。該方法的優(yōu)點在于它不需要單個分類器就具有高識別率,也就是說,它不需要尋找具有高識別率的基本分類算法。Adaboost實現(xiàn)過程:假設(shè)現(xiàn)在一共有M個分類器,N個訓(xùn)練樣例,每個訓(xùn)練樣例Xn的正確分類結(jié)果為tn,ym(xn)(1)對于每一個訓(xùn)練樣例i,首先初始化它的權(quán)重為1N ωm,i=(2)對于每一個弱分類器m,從第一個開始重復(fù)以下步驟。=1\*GB3①計算誤差函數(shù): εm=這個公式(4-2)的含義即為,對于當(dāng)前ym這個弱分類器,遍歷所有的訓(xùn)練樣例,若在y=2\*GB3②公式(4-3)計算該分類器的話語權(quán)α: ∝m=更新權(quán)重后如公式(4-4)所示: ωm+1,i=(3)現(xiàn)在,針對每一個弱分類器,我們都得到了與其相對應(yīng)的話語權(quán)α,用這個就可以更加合理地整合弱分類器從而成為一個強(qiáng)分類器,如公式(4-5)所示。 YMxAdaboost是一種實現(xiàn)簡單,應(yīng)用也簡單的算法。Adaboost算法通過組合弱分類器獲得強(qiáng)分類器。同時,分類誤差率的上限隨著訓(xùn)練的增加而穩(wěn)步下降,并且不會產(chǎn)生過擬合。應(yīng)該說,它是可以應(yīng)用于各種分類場景的算法。但是,如果有個別極端數(shù)據(jù)導(dǎo)致分類器的分類失敗,則Adaboost算法將重點關(guān)注這種極端數(shù)據(jù)的情況,這會使Adaboost算法對異常值非常敏感,異常樣本可能會在迭代中獲得更高的權(quán)重。這會影響最終強(qiáng)學(xué)習(xí)器的預(yù)測準(zhǔn)確性,因此本文將決策樹和AdaBoost算法結(jié)合使用來進(jìn)行分類器訓(xùn)練。(二)基于AdaBoost和決策樹的分類器訓(xùn)練決策樹是歸納學(xué)習(xí)的多級分類算法。它從一組無序和不規(guī)則的樣本數(shù)據(jù)中訓(xùn)練以樹狀表示的分類規(guī)則。對于兩種類型的分類問題,訓(xùn)練好的決策樹是一個二叉樹。本文將決策樹算法的思想與AdaBoost算法相結(jié)合,對所有訓(xùn)練樣本訓(xùn)練分類器,區(qū)分圖像中的邊緣點和非邊緣點,并獲得二叉樹。二叉樹上的葉節(jié)點是邊緣點和非邊緣點的數(shù)據(jù)。通過AdaBoost算法訓(xùn)練每個節(jié)點上的數(shù)據(jù),以獲得強(qiáng)分類器。將二叉樹分為左子樹和右子樹,并從根節(jié)點遞歸執(zhí)行分類操作。由于引入了決策樹算法,訓(xùn)練數(shù)據(jù)樣本S被分為兩個新的樣本集Sleft和S圖4.3基于Adaboost的決策樹算法訓(xùn)練過程示意圖Adaboost二元分類實現(xiàn)過程:決策樹對每個類別做二分類,即如果一個樣本屬于該類別則為1,如果不屬于則為-1。假設(shè)現(xiàn)在一共有m個樣本,k個類別,將樣本與類別組合,這樣對每個類別都有m個樣本,然后對每個類別訓(xùn)練二分類的弱分類器,最后根據(jù)整體的分類準(zhǔn)確率來分配新的權(quán)重。給定m個樣本,樣本xi的類別標(biāo)簽集合為(1)首先初始化每個樣本每個類別的權(quán)重為1mk。(2)在第t輪迭代中,對每個類別,在m個樣本上訓(xùn)練弱分類器,共得到k個弱分類器。對于樣本xi,關(guān)于類別l的分類結(jié)果為:ht(另外由公式(4-6): Y[l]=+1,l∈Y?1,l?Y可得:如果分類正確Yi[l], rt=在公式(4-7)中rt表示第t輪分類結(jié)果的準(zhǔn)確性,如果全部分類正確,那么rt=1(3)第t輪弱分類器的權(quán)重如公式(4-8): αt=之后進(jìn)一步更新樣本權(quán)重如公式(4-9): Dt+1i,l Z
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025屆銀川市重點中學(xué)高三(最后沖刺)數(shù)學(xué)試卷含解析
- 2024版智慧城市建設(shè)合作開發(fā)合同3篇
- 2024版消防給水工程設(shè)計、施工、監(jiān)理全方位服務(wù)合同2篇
- 2025屆內(nèi)蒙古呼倫貝爾市阿榮旗一中高三第二次診斷性檢測英語試卷含解析
- 2024版生態(tài)旅游區(qū)承包合同書熱3篇
- 2024版房地產(chǎn)項目全域整合推廣與智慧城市建設(shè)合同3篇
- 2025政府采購合同書模板
- 四川省宜賓縣第二中學(xué)2025屆高考壓軸卷數(shù)學(xué)試卷含解析
- 福建省師大附中2025屆高考考前提分?jǐn)?shù)學(xué)仿真卷含解析
- 2025屆遼寧省遼寧省營口市開發(fā)區(qū)第一高級中學(xué)高三第五次模擬考試英語試卷含解析
- 硬筆書法全冊教案共20課時
- 光伏扶貧項目可行性研究報告
- 深信服adesk桌面云方案測試
- PDCA降低I類切口感染發(fā)生率
- 弘揚(yáng)兵團(tuán)精神做兵團(tuán)傳人課件
- 數(shù)控車床上下料機(jī)械手設(shè)計說明書
- 2022年高考全國甲卷語文試題評講課件55張
- 學(xué)校學(xué)生在校證明word模板
- 場內(nèi)叉車安全培訓(xùn)
- 不銹鋼項目立項申請報告
- 國家開放大學(xué)電大本科《西方社會學(xué)》2023-2024期末試題及答案(試卷代號:1296)
評論
0/150
提交評論