基于分類規(guī)則的C4-5決策樹改進(jìn)算法-李孝偉_第1頁
基于分類規(guī)則的C4-5決策樹改進(jìn)算法-李孝偉_第2頁
基于分類規(guī)則的C4-5決策樹改進(jìn)算法-李孝偉_第3頁
基于分類規(guī)則的C4-5決策樹改進(jìn)算法-李孝偉_第4頁
基于分類規(guī)則的C4-5決策樹改進(jìn)算法-李孝偉_第5頁
已閱讀5頁,還剩16頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第第頁基于分類規(guī)則的C4_5決策樹改進(jìn)算法_李孝偉

2013年12月第34卷第12期

計算機(jī)工程與設(shè)計

COMPUTERENGINEERINGANDDESIGN

Dec.2013

Vol.34No.12

基于分類規(guī)則的C4.5決策樹改進(jìn)算法

李孝偉,陳福才,李邵梅

()國家數(shù)字交換系統(tǒng)工程技術(shù)研究中心,河南鄭州450002

4322

計算機(jī)工程與設(shè)計

2013年

樣本策略,如:支持向量機(jī)的決策只與決策邊界的支持向量有關(guān),重點(diǎn)選擇此類樣本;C4.5決策樹建樹的重點(diǎn)是最優(yōu)特征值樣本的選取,在縮減樣本提取分類規(guī)則時,則以樣本是否能很好的反映類內(nèi)特征取值的情況來進(jìn)行取舍??s減樣本可以起到降低分類算法的計算代價,加快訓(xùn)練速

4]

,還能有效地精簡訓(xùn)練集,度,避免出現(xiàn)“過擬合”現(xiàn)象[

去除相似、冗余、重復(fù)的信息以及噪聲樣本。此外,對于數(shù)據(jù)集不大的情況,由于C4.5對于初始訓(xùn)練樣本的依賴性比較大,若初始訓(xùn)練樣本不能很好地表征各特征的取值,可能使得訓(xùn)練結(jié)果不理想,此時若采用選擇樣本提取分類規(guī)則的策略,提取盡量最優(yōu)的分類規(guī)則以提高訓(xùn)練精度對于C4.5決策樹而言也具有重要意義。

5]

劉鵬等[根據(jù)決策樹易產(chǎn)生碎片問題,提出了一種合

圖1簡單的決策樹模型

1.1C4.5決策樹的形成

假定訓(xùn)練數(shù)據(jù)集中包含m類別,分別為T={t1,,。訓(xùn)練數(shù)據(jù)集中某屬性A可能有(,t...taa..a2,m}1,2,k),,共k種取值,根據(jù)屬性A的劃分為T′={t′t′...t′1,2,r}其他屬性類似于屬性A。根據(jù)訓(xùn)練集可得其理想劃分的信息熵為

并分類效果差分枝的R-C4.5模型。該模型未設(shè)置連續(xù)屬性

[]

一對多”處理和缺失值處理。KemalPolat等6將C4.5和“

分類模型相結(jié)合應(yīng)用于多類分類問題,取得了很好的效果。

[]

HanJinti等7將C4.5和模糊數(shù)學(xué)相結(jié)合,提出了一種處-g8]理范圍輸入的方法。姚亞夫等[根據(jù)Fad連續(xù)值取值的yy

最佳分割點(diǎn)總在邊界點(diǎn)處得原理,只在連續(xù)屬性分界點(diǎn)處的少數(shù)幾個分割點(diǎn)中選擇最佳分割閾值,構(gòu)造了C4.5分類器,一定程度上提升了C4.5處理連續(xù)屬性的性能。周劍鋒

9]等[提出了一種改進(jìn)的信息熵的計算方法,通過減少計算10]

根據(jù)函數(shù)的復(fù)雜度,提高就決策樹的構(gòu)建速度。楊哲等[

H(T)=-∑p(tlotgi)2i)p(

i=1

)(1

(。其中p(t=i)i/i)∑i=1

以屬性A對訓(xùn)練集劃分獲得的信息熵為

T′)=HA(

信息增益率的不確定性,采用Mantaras范式距離來度量屬性劃分與真實(shí)劃分的距離,有效避免了增益率的不確定性?,F(xiàn)有的改進(jìn)算法在減少決策樹的計算復(fù)雜度、特征的優(yōu)化處理、增益率問題上都有很多的優(yōu)化。但是對C4.5決策樹的局部最優(yōu)解、大數(shù)據(jù)處理的依賴主存問題和效率問題一直沒有得到很好的解決。

基于上述問題,本文利用多次抽樣選擇最優(yōu)分類規(guī)則并對C4.5決策樹算法進(jìn)行優(yōu)化和改進(jìn),提出了基于分類規(guī)則的C4.5決策樹改進(jìn)算法。實(shí)驗(yàn)結(jié)果表明,利用改進(jìn)后的算法處理小樣本數(shù)據(jù)時正確率與C4.5算法相當(dāng);而在處理大樣本數(shù)據(jù)的識別分類時,運(yùn)算效率和精度的提高比較顯著。

i=1r

t′)H(t′)∑p(

im

i=1

t′)t|t′)lot|t′)-∑p(gp(()∑p(

j=1

T′)=-∑∑p(t′tt′lott′HA(gi)i)2i)p(p(j|j|

i=1j=1

T|T′)=H(

其中p(t′′′∑i)=i/(i

i=1r

)(2

),p(t′i)=j|t

′t′i∩i。j/表示劃分Ttt′′中屬于t′i)i的樣本,在理想劃分p(j|中屬于子集tj的概率。由此可得屬性A對于訓(xùn)練集劃分的信息增益為

HGT′)=H(T)T′)-HA(ain(

屬性A的分割信息熵為

)(3

1C4.5決策樹介紹

決策樹作為傳統(tǒng)的機(jī)器學(xué)習(xí)算法,其用于分類識別的主要步驟同其他分類算法一致,主要是:一是利用訓(xùn)練數(shù)據(jù)構(gòu)建分類模型,二是利用建立的分類模型對待識別樣本數(shù)據(jù)集進(jìn)行分類。其中主要工作是第一步,對于決策樹分類算法而言是建立用于分類的決策樹模型。圖1所示是一個簡單的決策樹分類模型,其主要功能是實(shí)現(xiàn)根據(jù)天氣情況來決定是否去戶外活動

。

H(T′)=-∑p(t′lot′gi)2i)p(

i=1

)(4

)、式()可得屬性A的信息增益率為由式(34/atio(T′)=HGT′)H(T′)Rain(

())(

H(T′)

()5

同理可計算其他屬性的信息增益率。通過計算所有屬性的信息增益率,選出具有最大信息增益率值的屬性作為決策樹的根節(jié)點(diǎn)。然后,以同樣的方法確定決策樹各層的

第34卷第12期

李孝偉,陳福才,李邵梅:基于分類規(guī)則的C4.5決策樹改進(jìn)算法

4323

節(jié)點(diǎn),計算方法同以上步驟。1.2C4.5決策樹的剪枝

征對應(yīng)的劃分與理想劃分之間的相似度。

C4.5采用的信息增益率如下

C4.5決策樹的剪枝策略采用的是后剪枝的方法。后剪枝策略首先需要構(gòu)造完整的決策樹,允許決策樹過度擬合訓(xùn)練數(shù)據(jù),然后對那些置信度不夠的子樹節(jié)點(diǎn)用葉節(jié)點(diǎn)來替代。

C4.5決策樹對ID3算法做了改進(jìn),取得了不錯的效——局部最果。但是C4.5自身仍存在著決策樹的共性問題—)可以看出,當(dāng)分母為零時,分子必優(yōu)解。此外,從式(5然為零,這時增益率的計算就出現(xiàn)了問題,這就是增益率帶來的不確定性問題。大樣本數(shù)據(jù)條件下,減?。茫矗禌Q策樹的運(yùn)算復(fù)雜度也是一個問題。

Ratio(T′)=

())(

HT′)H(T)H(T,T′)T′)(H(

HT′()10

)與式(比較式(910)可得:H(T′)=0時,H(T′,)不會出現(xiàn)式(910)的0∶0的情況,此時T)≠0,式(

可以解決增益率帶來的不確定性問題。式(9)是由Mant-aras范式距離而得來的,故其能很好的表征兩個劃分之間的相似度。劃分相似度方法能有效克服信息增益率方法的缺陷,算法的穩(wěn)定性好,其構(gòu)建的決策樹規(guī)模更小,分類速度更快。

2基于分類規(guī)則選取的C4.5決策樹改進(jìn)算法

本文針對的主要是大樣本條件下的分類識別和C4.5決策樹與初始訓(xùn)練集相關(guān)性較大等問題。運(yùn)用多次抽樣選出最優(yōu)分類規(guī)則,以縮減算法的運(yùn)算復(fù)雜度,提高訓(xùn)練精度。在C4.5最優(yōu)特征選擇上以劃分相似度作為選擇標(biāo)準(zhǔn)。2.1最優(yōu)特征選擇

由熵函數(shù)的上凸性及詹森不等式有:

i=1q

ogy∑pl

looggii,在計算信息熵的時候,由于lii計算yy∑p∑p

i=1

i=1

結(jié)果與looggii的計算結(jié)果相差不大,用lii來yy∑p∑p

i=1

i=1

近似代替

本文對Mantaras范式距離進(jìn)行相應(yīng)的簡化,以減少算法的復(fù)雜度和時間消耗。Mantaras范式距離是在各特征中選擇與類別劃分距離最近的特征作為當(dāng)前節(jié)點(diǎn)的測試條件,用最短距離劃分的辦法來構(gòu)建決策樹。根據(jù)樣本集T的理,想劃分T={和以屬性A作為測試條件所得tt...t1,2,m},,則劃分T的劃分T′={t′t′...t′′對于理想劃分T1,2,r}的條件熵可以由式(2)得到。而理想劃分T對于劃分T′的條件熵為

i=1

ogy∑pl

。這樣式()可以簡化為9

())(

d(T′,T)=

H(T′,T)

2lotot′+lgg2i)2i)p(p(∑∑i=1i=1

≈-

HT′Tm

lott′g2i)i)p(p(()∑∑i=1i=1

(,)dT′T≈-

HT′T()11

)將多次對數(shù)運(yùn)算簡化為一次,在一定程度上式(11減?。茫矗禌Q策樹建樹的復(fù)雜度。2.2分類規(guī)則的選取

)/)(6H(T′|T)=-∑∑p(t′tlot′ttgi,2(i,p(p(j)j)j)

j=1i=1

劃分T′與理想劃分T的聯(lián)合熵為

本文采用的樣本選擇方法主要是多次提取樣本進(jìn)行決

)(7

策樹的擬合,生成相對較優(yōu)的決策樹,將較大量的樣本通過隨機(jī)有放回的抽樣,生成多個訓(xùn)練集,利用這些訓(xùn)練集的訓(xùn)練結(jié)果回溯生成最優(yōu)的分類規(guī)則。

具體步驟如下:

第一步,對給定的數(shù)據(jù)集選擇合適的訓(xùn)練樣本數(shù)據(jù),選擇的標(biāo)準(zhǔn)是綜合考慮訓(xùn)練時間和迭代次數(shù)。如果選擇的的數(shù)據(jù)較小,會造成較多的迭代次數(shù),否則會造成較多的訓(xùn)練時間。

第二步,針對選定的訓(xùn)練樣本,通過實(shí)驗(yàn)確定抽樣迭代次數(shù)L,理論上L越大越好,但L越大,處理時間也會

H(T′,T)=-∑∑p(t′tlot′tgi,2i,p(j)j)

j=1i=1

因此,劃分Tantaras范式距離為′與理想劃分T的M

())(

D(T′,T)=

HT′T)+H(),得到=H(T|T′T′

()8

由熵的強(qiáng)可加性,即H(T′,T)=H(T′|T)+H(T)

(,)),))(((

D(T′,T)=HT′T

=2-

())(

HT′T())(

d(T′,T)=

HT′T()9

隨之增加,L值的確定依據(jù)是當(dāng)L增加時,對訓(xùn)練樣本的精度提升不再產(chǎn)生影響或是影響很小。

第三步,針對L次訓(xùn)練結(jié)果產(chǎn)生的L個決策樹形成的

定義1劃分相似度d(T′,T)。劃分相似度表示為特

4324

計算機(jī)工程與設(shè)計

2013年

分類規(guī)則進(jìn)行離散取值特征和連續(xù)取值特征的處理。具體方法如下:

對于離散數(shù)值特征:統(tǒng)計L個規(guī)則內(nèi),各個取值出現(xiàn)的次數(shù),選取出現(xiàn)次數(shù)多的作為新規(guī)則內(nèi)該類別此特征的取值,以此方法建立此類特征的特征取值空間。

對于連續(xù)取值特征:每一類的連續(xù)取值特征都有相應(yīng)的區(qū)間上限和下限,選?。檀我?guī)則內(nèi)的全部上限和下限的算術(shù)平均作為新規(guī)則內(nèi)該類別特征的取值上限和下限。

通過上述過程,每迭代一次,形成一個決策樹的分類規(guī)則,相應(yīng)的每一類別都對應(yīng)其具體的特征取值,最優(yōu)的分類規(guī)則則是通過多次建樹形成的分類規(guī)則回溯得到,通過最優(yōu)的分類規(guī)則可以建立最優(yōu)的決策樹。2.3剪枝策略

回歸、聚類、關(guān)聯(lián)規(guī)則等多種機(jī)器學(xué)習(xí)算法,并能夠?qū)崿F(xiàn)交互式界面上的可視化。

本文選用UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫(machinelearninre-g)中的N、M、BositorurserDatabaseaic04、Letterankpyyg、PMarketinostureReconstruction等5個數(shù)據(jù)集來進(jìn)行實(shí)g驗(yàn)。選擇的數(shù)據(jù)集特征維數(shù)都不高,便于運(yùn)用C4.5算法。各個數(shù)據(jù)集的大小和特征情況見表1。

表1數(shù)據(jù)集樣本個數(shù)和特征個數(shù)

數(shù)據(jù)集NurserDatabasey

Maic04gLetterBankMarketingPostureReconstruction

樣本12,96019,02020,00048,842164,860

特征81117148

訓(xùn)練集6,4809,51010,00020,00050,000

本文擬采取的剪枝策略與CART算法類似。首先讓決策樹充分的生長,使得葉節(jié)點(diǎn)有最小的不純度為止,然后,對所有相鄰的成對葉節(jié)點(diǎn),考慮是否消去他們。標(biāo)準(zhǔn)是如果消去他們使得不純度增加的很小,就執(zhí)行消去。這里的不純度采用Gini不純度,多類分類問題的不純度定義為

3.2實(shí)驗(yàn)結(jié)果及分析

本文實(shí)驗(yàn)采用的硬件環(huán)境是:CPUCore2P9600,內(nèi)存42.66G.G,硬盤500G,Window7操作系統(tǒng)。實(shí)驗(yàn)首先采用不同的抽樣次數(shù)來確定最終的抽樣次數(shù)。然后在選定抽樣次數(shù)下于C4.5算法進(jìn)行比較。

圖2為數(shù)據(jù)集BankMarketing不同抽樣次數(shù)的正確率對比。由圖中可以看出在抽樣次數(shù)比較少的情況下,本文算法不如C4.5算法。隨著抽樣次數(shù)的增加,本文算法的優(yōu)勢逐漸體現(xiàn)出來,當(dāng)抽樣次數(shù)增加到一定數(shù)值時,算法的性能也趨于平穩(wěn)。由圖中可以看出,當(dāng)抽樣次數(shù)為12和15時,算法性能差別很小,故選擇12為最終抽樣次數(shù)

。

imN)=p(

w)P(w)=1-∑P∑P(

ij≠

)(12wj)(

其中P(是節(jié)點(diǎn)N處屬于wwj)j類樣本數(shù)占總樣本數(shù)的比例。顯然如果所有樣本都屬于一類,則不純度為0,否則就是一個大于0的正值。

2.4基于分類規(guī)則選取的C4.5決策樹改進(jìn)算法

本文提出的基于分類規(guī)則選取的C4.5決策樹改進(jìn)算法(imrovedC4.5decisiontreealorithmbasedonclassifica-pg,),在訓(xùn)練階段以第一節(jié)提出分tionrulesselectionCRC4.5類規(guī)則選取策略,在構(gòu)建決策樹選取最優(yōu)特征上以第二節(jié)提出的劃分相似度為基礎(chǔ)建立C4.5決策樹。具體算法流程如下:

()運(yùn)用劃分相似度對訓(xùn)練樣本各特征進(jìn)行排序,選1

擇有最大劃分相似度的特征作為根節(jié)點(diǎn),以后節(jié)點(diǎn)以此類推;

()選定訓(xùn)練樣本數(shù)目,并對對樣本進(jìn)行有放回的多2

次抽樣,運(yùn)用劃分相似度訓(xùn)練分類規(guī)則,取多次抽樣下分類規(guī)則中最優(yōu)的特征值回溯作為最終分類規(guī)則;

)根據(jù)最優(yōu)的分類規(guī)則建立最優(yōu)的決策樹,并對測(3

試集進(jìn)行測試,最后輸出分類模型。

3實(shí)驗(yàn)及分析

3.1實(shí)驗(yàn)平臺和數(shù)據(jù)集介紹

圖2不同抽樣次數(shù)下算法性能比較

經(jīng)過實(shí)驗(yàn),各數(shù)據(jù)集下訓(xùn)練集樣本迭代次數(shù)見表2。C4.5算法和本文算法的模型建立時間和分類正確率對比如圖3、圖4所示。其中,C4.5采用多次次迭代交叉驗(yàn)證的方法。

本文采用Weka平臺對改進(jìn)的算法和C4.5算法進(jìn)行對比測試。Weka是由新西蘭大學(xué)Witten教授等人基于Java編程開發(fā)的開源工作平臺,它集合了包括對數(shù)據(jù)進(jìn)行分類、

第34卷第12期

李孝偉,陳福才,李邵梅:基于分類規(guī)則的C4.5決策樹改進(jìn)算法

4325

表2不同數(shù)據(jù)集抽樣次數(shù)

數(shù)據(jù)集NurserDatabasey

Maic04gLetterBankMarketingPostureReconstruction

抽樣次數(shù)

8810122

練集相關(guān)性大以及信息增益率帶來的不確定問題,提出了基于分類規(guī)則選取的C4.5決策樹改進(jìn)算法。分類規(guī)則選取上以多次抽樣訓(xùn)練的分類規(guī)則為基礎(chǔ)形成最優(yōu)分類規(guī)則,實(shí)驗(yàn)表明在選取的最優(yōu)分類規(guī)則下測試的精度同未進(jìn)行分類規(guī)則選擇的訓(xùn)練集測試精度有明顯提升。對于大樣本而言,訓(xùn)練時間也有明顯的縮短。在C4.5決策樹的特征選擇上以提出的劃分相似度為基準(zhǔn),克服了信息增益率的不穩(wěn)定性,并且依據(jù)熵函數(shù)的上凸性,簡化了熵的運(yùn)算,也帶來了運(yùn)算量的減少。目前,本文提出的分類規(guī)則選取策略針對分類規(guī)則較復(fù)雜的情況還沒有進(jìn)一步的論證實(shí)驗(yàn);此外劃分相似度的優(yōu)越性還缺乏有效的理論證明,這些都需要進(jìn)一步的研究。

[]H,7anJintiGuYuia.Studonhandinraninutsmethodsongjyggp

/C4.5alorithm[C]/ComuterScienceechnoloandA-T-gpgyp,lications2009:4749.-p

[]YAO8Yafu,XINGLiutao.ImrovementofC4.5decisiontreep

continuousattributessementationthresholdalorithmanditsgg]alication[J.JournalofCentralSouthUniversitofTech-ppy):)姚亞夫,刑nolo2011,42(1237723776(inChinese.[-gy,]留濤.決策樹C4.5連續(xù)屬性分割閾值算法改進(jìn)及其應(yīng)用[J.):]中南大學(xué)學(xué)報,2011,42(1237723776.-

4結(jié)束語

本文是基于C4.5決策樹在處理較大樣本的不足、與訓(xùn)

(下轉(zhuǎn)第4330頁)

4330

計算機(jī)工程與設(shè)計

2013年

()萬燕,劉偉.基于低質(zhì)量圖片的兩級車牌字inChinese.[]:符識別算法[J.計算機(jī)應(yīng)用與軟件,2012,29(11)281]284.-

[,GAO12]YANGLunbiaoYini.Princileandalicationofgyppp

:fuzzmathematics[M].GuanzhouSouthChinaUniversitygy,2)楊綸標(biāo),ofTechnoloPress006:3940(inChinese.[-gy高英儀.模糊數(shù)學(xué)原理及應(yīng)用[M].廣州:華南理工大學(xué)出]版社,2006:3940.-

[]QU,,,13FuhenCUIGuancaiLIYanfanetal.Fuzzcluste-gggy

:Nrinalorithmanditsalication[M].HunanationalDe-ggpp

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論