(計算機軟件與理論專業(yè)論文)訓(xùn)練基于ep的分類器算法.pdf_第1頁
(計算機軟件與理論專業(yè)論文)訓(xùn)練基于ep的分類器算法.pdf_第2頁
(計算機軟件與理論專業(yè)論文)訓(xùn)練基于ep的分類器算法.pdf_第3頁
(計算機軟件與理論專業(yè)論文)訓(xùn)練基于ep的分類器算法.pdf_第4頁
(計算機軟件與理論專業(yè)論文)訓(xùn)練基于ep的分類器算法.pdf_第5頁
已閱讀5頁,還剩43頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

摘要 數(shù)據(jù)挖掘又稱數(shù)據(jù)庫中知識發(fā)現(xiàn),是從大量數(shù)據(jù)中用非平凡的方法發(fā)現(xiàn)有用 的知識。分類是數(shù)據(jù)挖掘中的一項非常重要的任務(wù),在商業(yè)、金融、電訊、d n a 分析、科學(xué)研究等諸多領(lǐng)域具有廣泛的應(yīng)用。統(tǒng)計學(xué)、機器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等領(lǐng) 域的研究者提出了很多分類方法,大部分算法是內(nèi)存駐留算法,適用于小型數(shù)據(jù) 集。隨著數(shù)據(jù)集的數(shù)據(jù)量和維數(shù)的增加,建立高效的、適用于大型數(shù)據(jù)集的分類 法已成為數(shù)據(jù)挖掘的一個挑戰(zhàn)性任務(wù)。 基于顯露模式( e m e 蟛n g p a t c e m ,e p ) 的分類方法是針對大型數(shù)據(jù)集的分類 提出的,e p 是gd o n g 和j “提出的一種新的知識模式,這些模式能夠捕獲目 標類和非目標類上多組屬性之間的不同,具有很好的分類性能。第一個基于e p 的分類算法是gd o n g 等提出的c a e p 算法,此后相繼提出了j e p c l a s s i f i e r 、 b c e p 和d e e p s 等一系列基于e p 的分類算法。相關(guān)研究表明,基于e p 的分類算 法的平均分類準確率優(yōu)于決策樹等傳統(tǒng)算法,顯示了e p 在分類方面的優(yōu)越性。 本文提出了一種可調(diào)整權(quán)值的基于e p 的分類方法c e p a w 。c e p a w 使用基 本顯露模式( e e p ) 并聚合e e p 的區(qū)分能力建立分類器。在聚合e e p 的區(qū)分能 力時,e e p 的權(quán)值通過訓(xùn)練自適應(yīng)地選取。訓(xùn)練分為兩個階段:第一階段的主要 任務(wù)是挖掘e e p s ,構(gòu)造初始分類器。在e p 的選取以及評分函數(shù)方面。我們都采 用了不同于以往的基于e p 的分類算法的方法。第二階段是權(quán)值的自適應(yīng)調(diào)整。 丌始,所有e p 的權(quán)值相同。反復(fù)地使用初始分類器對訓(xùn)練樣本進行分類,并通 過考察每個e p 對訓(xùn)練樣本的分類效果調(diào)整e p 的權(quán)值,直到分類器的分類準確 率不能再提高。 為了測試算法的分類性能,使用了u c i 機器學(xué)習(xí)庫中的1 2 個數(shù)據(jù)集作為實 驗數(shù)據(jù)集,并將實驗結(jié)果與n b 、c 5 o 、c a e p 、l b 以及b c e p 算法進行比較。 結(jié)果表明,c e p a w 具有更好的分類準確率,自適應(yīng)地選取e p 的權(quán)值比以支持 度為權(quán)值的評分策略更加合理。當(dāng)數(shù)據(jù)分布發(fā)生輕微變化時,通過再訓(xùn)練,調(diào)整 e p 的權(quán)值,c e p a w 可以較好地適應(yīng)新的數(shù)據(jù)分布。 關(guān)鍵字:機器學(xué)習(xí),數(shù)據(jù)挖掘,分類,顯露模式 a b s 8 c t a b s t r a c t d a t am i l l i n g ,a l s oh l o w n 鶴i ( i l o w l e d g ee 畦8 c o v e r yi nd a t a b a s e ,r e f b r st o m i n i n g k n o w l e d g e 丘d md a t a i nv e r yl a r g ed a t a b 嬲e si nn 0 枷v i a lm e m o d s c 1 a s s i f i 訓(xùn)o n ,a sa l li m p o n a f l tt l l e m ei nd a t a 嘶n i n 島h a sb e e nr 鼯e 盯c h e de d i 盯i n s t a t i s t i c s ,m a c h i n el e a r i l i n & n e u r a ln e t w o r k ,e x p e ns y s t e i t l s ,e t c b u tm o s ta 1 9 0 r i t l l m s a r ec o n 6 n e d m e m o r y ,t y p i c a l l y 鵲s u m i n gas m a l ld a t as i z c w i t h 也eg r o w t ho fd a t ai n v o l 啪ea i l dd i m e l l s i o m l i t y ,i ti ss m lac h a l l e l l g et ob u i l de f f t i v ec l a s s m e r sf o rl a r g e d a t a b a s e s m e t l l o d sf o rc l a s s i f i c a t i o nb ye m e f g i n gp a t t e m s ( e p s ) w e r ep m p o s e di no r d e rt o c l a s s 母l a r g ed a t a s e t s e p sa r en e wl 【i n do fl ( 1 l o w l e d g ep a t c 鋤p r e s e n 硼b ygd o n g a n dj “i n1 9 9 9 ,w h i c hc a nc 印m r cm ei n h 刪l td i s d n c t i o n sb c t w e e nd i f f 旨t c l a s s e so f d a t a s oe p sa r cu s e 如l 衙b u i l d i n ga c c u 墻t ec l a s s i f i e r s c a e ew 】i i c hw a s p m p o s e db yl i , d o n ga 1 1 dr 鋤鋤o h 柚啪oi n l9 9 9 ,i st h ef i r s te p - b a s e d c l a s s m c a t i o na l g o r i l i n a f t e rt l l a t ,as 商e so fe p _ b a s c dd 髂s 湎e r sw e r ep m p o s e do n e a f t e ra i l o m e rs u c ha sb c e p ,j e p d a s s m d e e p s ,e t c i th a ss h o w nm a te p _ b a s e d c l a s s i 矗e ri sb e t t e rt l l a ns o m ec l a s s i cc l a s s i f i c a t i o nm e l o d ss u c ha sd e c i s i o nt r e e s t h i sd i s s e r t a t i o np r o p o s e san o v e le p - b 踮c dc l a s s i f i c a t i o nm e t h o d , c a l l e d c l a s s 硪c a d o nb ye m e r g i n gp a t t e m s 麗t ha d j u s t a b l ew e i 曲t s ( c e p a w ) i nt h e 響n i n g p h a s e ,c e p a wu s e sas p e c i a lk i n do fe p s ,c a l l e de s s e n t i a l 鋤e r g i n gp a t t c i n s ( e e p s ) , a n da g 爭e g a t e sd i 彘r e n t i a t i n gp o w e r so fe e p st oc o n s m 】c tc l a s s i f i e r s i no r d e rt o a g 掣g a t ed i 丘孤t i a t i n gp o w c r so fe e p s ,e a c he e pi sa s s o c i a t e dw i t ha na d j u s t a b l e w e i 曲tt h a ti sc h o s e nb y 仃a 岫i n 呂t r a i n i n gi sd i v i d e di n t o 伽op h a s e s i nt h ef i r s t p h a s c ,e e p sa r em i n e da n da ni n i t i a ld a s s m e ri sc o n s t m c t e d o l l ra 1 9 0 r i t l l mi s d i 丘旨e n tf b mt l l ep r e v i o u se p _ b a s e da l g o r i t h m s 、v i 出r e s p e c tt ot h ek i n do fe pa 1 1 dt h e s c o r i r 喀矗m c t i o n i nm es e c o n dp h a s e ,m ew e i g h t so fc e p sa r ca d j u s t a b l eb yt r a i n i n g f i r s t l y ,w e i g h t so f a l le e p sa r es e te q u a l ly b yu s i n gm ei n i t i a ld a s s m e rt oc l a s s i 毋l e t r a i n i n gs 鋤p l e si t e r a t i v e l y ,w ea d j u s tt h ew e i g h t so fe p sa c c o r d i n gt ot i l er e s u l t so f c l a s s i f 弭n g 吼t i lt h ea c c u r a c yr a t ec a nn o tb ei n c r e a s e d i no r d e rt oe s t i m a t e 廿l ea c c u 豫c yo fo u ra l g o t h m s ,o u re x p e m e n ts t u d yc 謝e d o n1 2b 髑曲m a 出d a l 夠e t 8 臺o m 乜弛u c 【m a c b i n ek ;蛐皿gr e p o s i t o r ys h o w st l l a t c e p a wp e r f o m l c 鼯c o m p a r a b l y 麗t l ld t l l 盯s t a t e - o f m e - a r td 鵲s i 丘c a t i o nm c l l l o d s s u c ha sn b ,c 5 o ,c b a ,c m a 咒c a e p 趾db c e pi nt e 肌so fo v e r a l lp r e d i c t i v e a c 咖c y - c o m p a r i n g 謝t l im c t l l o d s1 1 8 i n gs u p p o r t s 嬲w e i g h t s ,e x p 甜m e n t sh a v es h 嗍 t 1 1 a tc e p a wc a nc h o o s em o f er e 黯叩a b l ew e i 曲t st oa g 筍e g a l ed i 氆洲1 t i a t i n gp o w e 礙 o fe e p s w h e nt h ed a l ad i s m b u t i o nc h a i l g e ss l i 曲n y ,c e p a wc a i ia d a p tt ot l l en c w d a 協(xié)d i s m b u t i o nb yn 刪i l i n g k e y w o r d s :m a c i l i n el e 秈i n g ,d a t am i n i g ,c i a s s m c a t i o n ,e m e 唔n gp a t t e h l 鄭重聲明 本學(xué)位論文是在導(dǎo)師指導(dǎo)下獨立撰寫并完成的。除文中 已經(jīng)注明引用的內(nèi)容外,本論文不含任何其他個人或集體已 經(jīng)發(fā)表或撰寫過的作品或成果。學(xué)位論文沒有剽竊、抄襲等 違反學(xué)術(shù)道德、學(xué)術(shù)規(guī)范的侵權(quán)行為,否則,本人愿意承擔(dān) 由此產(chǎn)生的一切責(zé)任和法律后果。特此鄭重聲明。 學(xué)位論文作者( 簽名) :啦筆餒 口多年6 月年同 第一章緒論 第一章緒論 數(shù)據(jù)收集和數(shù)據(jù)存儲技術(shù)的快速進步使得組織機構(gòu)可以積累海量數(shù)據(jù)。然而 海量數(shù)據(jù)遠遠超過了人的駕馭能力,人們面臨著“數(shù)據(jù)豐富,但信息貧乏”的尷 尬境地。因此,提取有用的信息成為巨大的挑戰(zhàn)。通常,由于數(shù)據(jù)量太大,無法 使用傳統(tǒng)的數(shù)據(jù)分析工具和技術(shù)處理它們。有時,即使數(shù)據(jù)集相對較小,由于數(shù) 據(jù)本身的非傳統(tǒng)特點,也不能使用傳統(tǒng)的方法。在其他情況下,需要回答的問題 也不能使用已有的數(shù)據(jù)分析技術(shù)來解決。這樣,就需要開發(fā)新的方法。 數(shù)據(jù)挖掘是一種技術(shù),它將傳統(tǒng)的數(shù)據(jù)分析方法與處理大量數(shù)據(jù)的復(fù)雜算法 相結(jié)合。數(shù)據(jù)挖掘也為探查和分析新的數(shù)據(jù)類型,為使用新的方法分析原有的數(shù) 據(jù)類型提供了機會。 1 1 什么是數(shù)據(jù)挖掘 數(shù)據(jù)挖掘是在大型數(shù)據(jù)存儲中,自動地發(fā)現(xiàn)有用信息的過程。數(shù)據(jù)挖掘技術(shù) 用來探查大型數(shù)據(jù)庫,以發(fā)現(xiàn)先前未知的有用模式。數(shù)據(jù)挖掘還提供了一些機制, 用于預(yù)測未來的觀測結(jié)果。許多人把數(shù)據(jù)挖掘和數(shù)據(jù)庫中的知識發(fā)現(xiàn) ( k n o w l e d g ed i s c o v e r yi nd a t a b 8 s e s ,簡稱k d d ) 看作是等價的概念a 在這種 觀點下,一種比較公認的定義是wj f r a w l e y ,gp i a t e t s k y s h 印i r o 等人提出的, 其描述為: “數(shù)據(jù)挖掘,即數(shù)據(jù)庫中的知識發(fā)現(xiàn)( k d d ) ,是一個在數(shù)據(jù)中提取模式的 過程,這些模式是有效的、新穎的、有潛在實用價值的和易于理解的?!?而另一些人把k d d 看作發(fā)現(xiàn)知識的完整過程,數(shù)據(jù)挖掘只是這個過程中關(guān) 鍵的一個部分。這種觀點對數(shù)據(jù)挖掘的定義是: “數(shù)據(jù)挖掘是數(shù)據(jù)庫中的知識發(fā)現(xiàn)( k d d ) 過程中的一個步驟,這個步驟 由一些特定的數(shù)據(jù)挖掘算法組成,這些算法的任務(wù)是在滿足一定計算效率的約束 條件下,從數(shù)據(jù)中提取有效的模式?!?1 2 數(shù)據(jù)挖掘的任務(wù) 通常,數(shù)據(jù)挖掘任務(wù)分兩大類: 預(yù)測任務(wù)這些任務(wù)的目標是根據(jù)其他屬性的值,預(yù)測特定屬性的值。被預(yù) 第一章緒論 測的屬性一般稱目標( t a i 酣) 或依賴變量( d e p 姐d tv a r i 曲l e ) ,而用來做預(yù)測 的屬性稱解釋( e x p l a l l a t o r y ) 或獨立變量( i n d 印e i l d e n ta 州a b l e ) 。 搖述任務(wù)這里,目標是導(dǎo)出概括數(shù)據(jù)中潛在聯(lián)系的模式( 相關(guān)、聚類、軌 道和異常) 。本質(zhì)上,描述性數(shù)據(jù)挖掘通常是探查,并且常常需要后處理技術(shù)驗 證和解釋結(jié)果。 預(yù)測建模( p r 耐i c t i v em o d e 觸g ) 涉及用函數(shù)為目標變量建立模型。有兩類 預(yù)測建模任務(wù):分類( c l a s s 壤c a t i o n ) ,用于離散的目標變量;回歸( r e 掣e s s i o n ) , 用于連續(xù)的目標變量。兩項任務(wù)目標都是訓(xùn)練一個模型,它最小化目標變量預(yù)測 值與實際值之間的誤差。預(yù)測建??梢杂脕泶_定顧客對產(chǎn)品促銷活動的反應(yīng),預(yù) 測地球生態(tài)系統(tǒng)的擾動,或根據(jù)檢查結(jié)果判定病人是否患有某種特定的疾病。 關(guān)聯(lián)分析( a s s o c i a 廿蛆蚰a l y s i s ) 用來發(fā)現(xiàn)描述數(shù)據(jù)中強關(guān)聯(lián)特征的模式。 所發(fā)現(xiàn)的模式通常用蘊涵規(guī)則或特征子集的形式表示。由于搜索空間是指數(shù)的, 關(guān)聯(lián)分析的目標是以有效的方式提取最有趣的模式。關(guān)聯(lián)分析的應(yīng)用包括找出具 有相關(guān)功能的基因組,識別一起訪問的w 曲頁面,理解地球氣候系統(tǒng)不同元素 之間的聯(lián)系。 聚類分析( d u s t 盯蚰a l y s i s ) 旨在發(fā)現(xiàn)緊密相關(guān)的觀測值組群,使得與屬于 不同簇的觀測值相比,屬于同一簇的觀測值相互之間盡可能類似。聚類用來對相 關(guān)的顧客分組,找出顯著影響地球氣候的海洋區(qū)域,壓縮數(shù)據(jù)。 異常檢測( a n o m a l yd e t e c d o n ) 的任務(wù)是識別其特征顯著不同于其他數(shù)據(jù)的 觀測值。這樣的觀測值稱為異常點( a n o m a l y ) 或離群點( o u t l i e r ) 。異常檢測算 法的目標是發(fā)現(xiàn)真正的異常點,而避免錯誤地將證常的對象標注為異常點。換言 之,一個好的異常檢測器必須具有高檢測率和低誤報率。異常檢測的應(yīng)用包括欺 詐檢測、網(wǎng)絡(luò)攻擊、疾病的不尋常模式、生態(tài)系統(tǒng)擾動。 1 3 數(shù)據(jù)挖掘算法的研究及應(yīng)用概況 近十幾年來,數(shù)據(jù)挖掘算法研究取得豐碩的成果,數(shù)據(jù)挖掘算法的主要研究 成果概要如下: 在關(guān)聯(lián)規(guī)則研究方面的主要成果有:尋找頻繁項集的a p r i o r i 算法、 f p g m w t l l 算法1 2 】針對不同情況設(shè)計的多維關(guān)聯(lián)規(guī)則挖掘方法哪】和多層關(guān)聯(lián)規(guī) 則挖掘方法【5 】等。 第一章緒論 在分類研究方面產(chǎn)生了多種分類方法和算法【6 】= 決策樹分類算法、源于關(guān)聯(lián) 規(guī)則的分類方法、貝葉斯分類方法、k 最i 臨近分類、基于案例的推理、遺傳算法、 粗糙集和模糊集方法等多種類型的分類方法。此外,還提出了以裝袋( b a g g i n g ) 和提升( b o o s t i i l g ) 為代表的可以有效提升某些算法分類準確率的組合分類思想。 這些算法雖然來自不同領(lǐng)域并且具有各自不同的背景和特性,但是這些算法都在 一定的領(lǐng)域內(nèi)取得了很大的成功。盡管我們把算法分為上述幾個類型,但是這些 方法并不是孤立的,一個有效的分類算法可能是綜合上述多種思想設(shè)計完成的。 關(guān)于分類研究的問題我們將在以后的章節(jié)做進一步的論述。 在聚類研究方面也存在多種算法:基于劃分的聚類方法有k - m e a n s , k m c d o i s 、和c i ,a r a 、c l a m n 等算法。層次聚類算法有a g n e s 算法、d i a n a 算法、b m t h 【”、c u r e 8 】、r o c k 9 1 、c h 柵d c o n 等算法?;诿芏鹊木垲愃?法有d b s c a 州1 ”、o p t i c s 、d e n c l u f l3 1 。基于網(wǎng)格的聚類方法有s t i n g 【1 4 】、 w a v e c l u s t 一15 1 、c l i o ue f l 6 等算法。基于模型的聚類算法有統(tǒng)計學(xué)方法 c o b w e b 【17 1 、c l a s s i t 、a u t o c l a s s 和神經(jīng)網(wǎng)絡(luò)方法 2 0 0 ”。 其他研究方向也取得了豐碩的研究成果,如序列模式的挖掘有 g s p 吲( g e n c r a l i z c ds e q u e n t i a lp a t t e m s ) 算法和 p r c f i x s p a n 吲( p r e f i x p 刪e c t s e q u e n t i a lp a t t 鋤i i l i m n 曲算法。w e b 挖掘研究有尋找權(quán)威頁面的p a g c r a n k 【2 4 1 和 h i t s 2 5 1 算法( 目前g o o 掣e 搜索引擎使用該算法) ??傊?,不同研究領(lǐng)域的研究 者都結(jié)合特定領(lǐng)域的應(yīng)用背景和需求,成功的丌發(fā)出了多種類型的數(shù)據(jù)挖掘算 法。 1 4 本文的內(nèi)容與組織 本文第一章簡要介紹了數(shù)據(jù)挖掘的概貌。我們從數(shù)據(jù)挖掘概念的提出、研究 動態(tài)、應(yīng)用概況,多個方面闡述了數(shù)據(jù)挖掘算法研究廣闊的前景和很高的應(yīng)用價 值,充分展示了本課題研究背景和意義。 本文的貢獻主要包括以下幾個方面:本文提出了種可調(diào)整權(quán)值的基于e p 的分類方法c e p a w ( c l a s s i f i c a t i o nb ye m e r g i n gp a t t e m sw i t h a d j u s t a b l ew e i 曲t s ) 。 c e p a w 使用基本顯露模式( e e p ) 并聚合e e p 的區(qū)分能力建立分類器。在聚合 e e p 的區(qū)分能力時,e e p 的權(quán)值通過訓(xùn)練自適應(yīng)地選取。與以支持度為權(quán)值的方 法相比,c e p a w 可以選取更合理的權(quán)值來聚合e e p 的區(qū)分能力。與現(xiàn)有的基于 第一章緒論 e p 的分類算法不同,本文所采用的初始分類器采用了增長率與e p 權(quán)值相結(jié)合的 評分策略。實驗表明c e p a w 算法具有很高的分類準確率。 本文的其他部分將按如下結(jié)構(gòu)組織: 在本文的第二章,我們將詳細討論分類的基本概念、常見的分類方法、分類 模型的準確性評估等問題。在本章將定義和闡明分類問題的最基本的概念以及分 類研究的一般過程,為我們下文深入探討分類問題奠定基礎(chǔ)。 在本文的第三章,我們詳細介紹顯露模式的概念以及現(xiàn)有基于e p 的分類算 法。通過本章的討論,我們首先闡明e p 的概念、性質(zhì)以及e p 的挖掘等問題。 其次通過對現(xiàn)有基于e p 的分類算法的介紹,可以更清楚的表明c e p a w 算法與 現(xiàn)有的基于e p 的分類算法之間的聯(lián)系和區(qū)別。 在本文的第四章,我們介紹了一種可調(diào)整權(quán)值的基于e p 的分類方法 c e p a w 。在訓(xùn)練階段,c e p a w 使用e e p 建立分類器,并在聚合e p 的區(qū)分能力 時通過訓(xùn)練自適應(yīng)地確定e p 的權(quán)值。因為訓(xùn)練分類器分為兩個階段,我們分兩 部分詳細討論了c e p a w 算法。首先介紹了初始分類器的構(gòu)造,在e p 的選取以 及評分函數(shù)方面我們的初始分類器都不同于以往的基于e p 的分類算法。在訓(xùn)練 的第二部分,我們主要介紹了權(quán)值的自適應(yīng)選取策略。 在本文的五章,我們給出了c e p a w 算法在u c i 機器學(xué)習(xí)庫上的實驗結(jié)果以 及與其他算法的對比分析。通過實驗數(shù)據(jù)我們進一步討論了c e p a w 算法的分類 特性,對算法進行了更深入的探討。 第二章分類 第二章分類 數(shù)年來,分類問題一直是機器學(xué)習(xí)、模式識別和統(tǒng)計學(xué)領(lǐng)域的一個重要研究 課題,目前也成為數(shù)據(jù)挖掘的一個重要任務(wù),當(dāng)數(shù)據(jù)庫中包含的實例能夠作為將 來制定決策的基礎(chǔ)時,分類特別有用,比如用于評估信用風(fēng)險、醫(yī)療診斷、科學(xué) 數(shù)據(jù)分析等等。 2 1 分類概念 能夠?qū)W習(xí)如何把一個對象劃分到預(yù)定義的類被認為是智能的一個重要特征, 在人工智能、機器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)等方面都有廣泛的應(yīng)用,這類任務(wù)被稱作分類。 分類是一種有指導(dǎo)的學(xué)習(xí),即學(xué)習(xí)過程是在被告知每個訓(xùn)練樣本屬于哪個類的 “指導(dǎo)”下進行的。 分類問題可以描述為:數(shù)據(jù)是一張標準關(guān)系表,它包含個記錄,這些記 錄通常稱作元組( m p l e s ) 、實例( i n s t a l l c e ) 或樣本( e x 鋤p l e ) 。每一個實例用固定數(shù)目 的度量標準描述,這種度量標準稱作屬性( a t t r i b u t e ) 。每一個屬性都有一個合法的 取值范圍,稱作該屬性的域( d o m a i n ) 。如果屬性域是實數(shù)域,那么則稱該屬性為 數(shù)值屬性( n u m c r i c a la 州b 1 1 t e ) 或連續(xù)屬性( c o n t i n u o l l sa t 城b u t e ) 。如果屬性域是有限 的,那么則稱該屬性為分類屬性( c a t e g o r i c a la t t r i b u t e ) 或離散屬性( d i s c r e t e a t 塒b u t e ) 。這些屬性中有一個區(qū)別于其他的稱作類標號( d a s sl a b e l ) ,類標號指示 元組所屬的類。除了類標號之外的其他屬性是預(yù)測未知樣本類型的依據(jù),因此也 稱作預(yù)測屬性( p r e d i c t o ra t 讎b u t e s ) 。 在分類研究中,數(shù)據(jù)集通常被分成訓(xùn)練集和測試集。訓(xùn)練集用來構(gòu)造分類器, 測試集用來評估分類器的預(yù)測準確度。因為學(xué)習(xí)算法可能對數(shù)據(jù)的過分特化,所 以使用訓(xùn)練數(shù)據(jù)構(gòu)造分類模型,然后用同樣的數(shù)據(jù)集評估分類模型可能導(dǎo)致過于 樂觀的估計。因此,通常采用測試集來評估分類模型。在分類研究中,通常采用 u c i 機器學(xué)習(xí)庫例( u c im a c h i n el e a r i l i n gr 印o s i t o 啪中的數(shù)據(jù)集評估不同的分類 模型。這些數(shù)據(jù)集來自廣泛的應(yīng)用領(lǐng)域,并且不同數(shù)據(jù)集的規(guī)模、目標類的個數(shù) 和屬性個數(shù)變化很大,能夠比較全面的反映算法的分類性能。 分類過程可以描述為如下兩個步驟: 第一步是建立一個模型,描述預(yù)定的數(shù)據(jù)類或概念集。訓(xùn)練階段的目的是建 第二章分類 立分類器,即從訓(xùn)練數(shù)據(jù)集中獲取可以進一步指導(dǎo)未知數(shù)據(jù)分類的專家知識。不 同的分類模型可能用不同的形式描述用于指導(dǎo)分類的知識,如分類規(guī)則、決策樹 或數(shù)學(xué)公式等。這些分類模型以不同的形式描述了某個類區(qū)別其他類的特征概念 集。從另一個角度來看,也可以認為分類模型是以某種特定的形式描述了訓(xùn)練集 的數(shù)據(jù)分布特征。如果訓(xùn)練集能夠代表整體數(shù)據(jù)分布特征,那么由訓(xùn)練集獲得的 特征概念集就可以用來指導(dǎo)對未知數(shù)據(jù)的預(yù)測。 第二步,使用模型進行分類。在使用分類模型對未知類標號的實例或?qū)ο蠓?類之前,首先要使用測試集評估分類模型的分類準確率。如果分類準確率是可以 接受的,那么我們才可以真正把該模型用于指導(dǎo)未知元組的分類。有多種技術(shù)用 來評估分類模型的準確性,關(guān)于模型的評估的問題,本文在本章第3 節(jié)做進一步 論述。 2 2 基本的分類技術(shù) 分類技術(shù)在不同領(lǐng)域有廣泛應(yīng)用,因此,統(tǒng)計學(xué)、機器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等領(lǐng) 域的研究者提出了很多的分類方法。這些算法來自不同的領(lǐng)域、工作原理差別很 大,但是都在相應(yīng)的領(lǐng)域取得了成功。本節(jié)將簡要介紹分類的基本技術(shù)?,F(xiàn)有的 分類技術(shù)主要有:基于決策樹的分類、貝葉斯分類、基于案例的推理、基于源自 關(guān)聯(lián)規(guī)則挖掘概念分類、神經(jīng)網(wǎng)絡(luò)、遺傳算法、模糊集和粗糙集方法等。 2 2 1 基于決策樹的分類 決策樹學(xué)習(xí)【2 7 0 8 1 是以實例為基礎(chǔ)的歸納學(xué)習(xí)算法。它著眼于從組無次序、 無規(guī)則的實例中推理出決策樹表示形式的分類規(guī)則。它采用自頂向下的遞歸方 式,首先選擇訓(xùn)練樣本的一個子集形成一顆決策樹,在決策樹的內(nèi)部結(jié)點進行屬 性值的比較并根據(jù)不同的屬性值判斷該結(jié)點向下的分支,在決策樹的葉結(jié)點得到 結(jié)論。所以從根到葉子節(jié)點的一條路徑對應(yīng)著一條合取規(guī)則,整個樹就對應(yīng)著一 組析取表達式規(guī)則?;跊Q策樹學(xué)習(xí)算法的一個最大優(yōu)點是它在學(xué)習(xí)過程中不需 要使用者了解很多背景知識( 同時這也是它的最大缺點) ,只要訓(xùn)練例子能夠用 屬性一結(jié)論式的方式表達出來,就能使用該算法來學(xué)習(xí)?;跊Q策樹的分類方法 是一種監(jiān)督學(xué)習(xí)的方法,樹的數(shù)量決定于分類的精度和樹的大小,決策樹的構(gòu)造 過程也就是假設(shè)特化的過程。基于決策樹的分類算法很多,比較有影響的有i d 3 、 第二章分類 c 4 5 、c a r t 、s u o 、s p r t 、b o a t 和c ir 0 1 j d s 等算法和r 血l f 嘴t 框架。 i d 3 算法【2 冊是國際上最早、最有影響力的決策樹算法。該算法是j r d s s q 1 1 瑚蛆在1 9 8 6 年提出的。d 3 算法是基于信息熵、使用增量式學(xué)習(xí)技術(shù)的決策 樹分類算法,根據(jù)屬性集的取值選擇實例的類別。它采用自頂向下不可返回的策 略,搜索出全部空間的一部分,它確保決策樹的建立最簡單、每次所做的測試數(shù) 據(jù)最少。l d 3 算法構(gòu)造的決策樹平均深度較小,分類速度較快。 但是i d 3 算法本身也存在些不足,如:m 3 算法偏向于選擇屬性值較多的 屬性,學(xué)習(xí)簡單的邏輯表達能力較差等。由于i d 3 算法的廣泛應(yīng)用,研究人員圍 繞該算法做了大量富有成效的研究工作。1 9 9 6 年,j r o s sq u i n l a l l 對i d 3 算法進 行了補充和改進,提出了c 4 5 算法1 3 0 l 。c 4 5 算法不但解決了連續(xù)值數(shù)據(jù)的學(xué)習(xí) 問題,而且能夠?qū)Q策樹轉(zhuǎn)化為等價的規(guī)則表示。但是c 4 5 算法同樣存在一些 不足之處,如:c 4 5 算法采用分而治之的策略所得到?jīng)Q策樹不一定是最優(yōu)的, 決策樹的結(jié)構(gòu)調(diào)整、性能改善較困難等。 大部分決策樹都限定訓(xùn)練樣本駐留內(nèi)存,這一限制制約了算法的可伸縮性。 在數(shù)據(jù)挖掘應(yīng)用中,包含數(shù)以百萬記的訓(xùn)練樣本的非常大的訓(xùn)練集是很普通的。 因此,在這些算法用于非常大的、現(xiàn)實世界中的數(shù)據(jù)庫的挖掘時,算法的有效性 和可伸縮性成為值得關(guān)注的問題。 對于大型數(shù)據(jù)庫構(gòu)造決策樹,研究者提出不同的解決方案。如:對連續(xù)屬性 離散化,在每個結(jié)點對數(shù)據(jù)選樣。但是這種方法仍然假定處理后的訓(xùn)練集可以放 在主存中。另外一種解決方案是:將樣本劃分成多個子集,使得每個子集可以放 在內(nèi)存中;然后,由每個子集構(gòu)造一棵決策樹;最后,輸出的分類法將出每個子 集得到的分類法組合在一起。盡管浚方法可以用于大數(shù)據(jù)集的分類,但是可能會 降低分類準確性。 針對算法的可伸縮性,最近提出了適用于大的訓(xùn)練數(shù)據(jù)集進行決策樹歸納的 算法。主要包括s l i o 、s p r i n t 和r a i l l f o r e s t 判定樹歸納框架。這些方法著重解 決當(dāng)訓(xùn)練數(shù)據(jù)量無法全部放入內(nèi)存時,如何高速準確地生成決策樹。s l i o 和 s p r 礬t 都是用了預(yù)排序技術(shù),同時定義了新的數(shù)據(jù)結(jié)構(gòu),以利于決策樹的構(gòu)造。 s l i q 算法 3 1 】首先采用預(yù)排序技術(shù),對非常大而不能放入內(nèi)存的駐留磁盤的 數(shù)據(jù)集進行排序。同時s l i q 使用了若干個駐留磁盤的屬性表和單一的駐留內(nèi)存 第二章分類 的類表。類表的第n 項存放第n 條記錄的類標號,所以類表的大小隨訓(xùn)練集中元 組數(shù)目成比例增長。每個屬性則對應(yīng)一個屬性表,由記錄標志號建立索引。每個 元組由一個從每個屬性表的一個表目到類表的一個表目的鏈接表示,而類表的每 一個表目都鏈接到它在決策樹中對應(yīng)的葉子節(jié)點。類表在決策樹構(gòu)造和剪枝過程 中需要頻繁訪問,因此應(yīng)該駐留內(nèi)存。當(dāng)類表不能放在內(nèi)存時,算法性能會急劇 下降。 s p r i n t 算法舊也需要使用預(yù)排序技術(shù),它利用屬性表存放類和記錄標志符 信息。當(dāng)節(jié)點分裂時,屬性表被相應(yīng)劃分。s p r d 盯消除了所有內(nèi)存限制,但仍 然需要使用正比于訓(xùn)練集的散列樹。隨著訓(xùn)練集的增長,這可能使代價變得昂貴。 s p r i n t 的設(shè)計易于并行化,這進一步增強了算法的可伸縮性。 r 啦! f o r e s t 框架【3 ,l 是用于可伸縮的決策樹歸納的框架,它采用a v c 集 ( a t m b u t e 一u e c l 船sl a b d ,屬性一值和類標號) 指示數(shù)據(jù)每個屬性類分布,能 夠使生成的決策樹的質(zhì)量僅取決于具體的決策樹算法,而與本框架無關(guān)。它旨在 提高決策樹算法的伸縮性,陔框架可運用于大多數(shù)決策樹算法( 例如s p 硎【n t 和 s l i q ) ,使算法獲得的結(jié)果與全部的數(shù)據(jù)放置于內(nèi)存所得到的結(jié)果一致,但是在 運行時可以使用較少的內(nèi)存。 決策樹算法因為具有結(jié)果容易被人理解、分類模式易于轉(zhuǎn)化成分類規(guī)則、輸 入?yún)?shù)少、能處理多種類型數(shù)據(jù)( 連續(xù)值和離散值) 、能夠設(shè)計出具有良好伸縮 性的算法等優(yōu)點,因此在數(shù)據(jù)挖掘和機器學(xué)習(xí)等領(lǐng)域具有廣泛的應(yīng)用。 決策樹歸納算法也可能面臨一些問題,主要是碎片、重復(fù)和復(fù)制:碎片是指 通過重復(fù)劃分數(shù)據(jù)集可能導(dǎo)致一些葉子包含的樣本數(shù)目太少而失去統(tǒng)計意義。這 些葉子對應(yīng)的是問題空間中不具有一般意義的規(guī)則或是噪音數(shù)據(jù)引起的過適應(yīng)。 重復(fù)是一個屬性沿樹的一個給定分枝重復(fù)測試。復(fù)制是復(fù)制了決策樹中已經(jīng)存在 的子樹。這三個問題不但使決策樹變得更龐大,同時影響決策樹的分類準確度。 因此,為了防止過分適應(yīng)訓(xùn)練數(shù)據(jù)集、構(gòu)造具有更高分類準確度的決策樹,需要 采用一些應(yīng)對策略,如剪枝、屬性構(gòu)造等。 2 2 2 貝葉斯方法 對于分類問題,有些情況下,輸入特征向量唯一對應(yīng)著一個類別,這種問題 稱為確定性的分類問題;而更多的情況是,來自于不同類別的樣本在外觀特征是 一8 一 第一二章分類 具有極大的相似性的,我們必須為它選擇一個類別。貝葉斯方法能夠很好地處理 這類不確定性問題,其特點是以概率表示所有形式的不確定性,學(xué)習(xí)或其他形式 的推理都用概率規(guī)則來實現(xiàn)。貝葉斯學(xué)習(xí)的結(jié)果表示為隨機變量的概率分布,其 解釋為我們對不同可能性的信任程度。 基于貝葉斯的分類過程可以這樣描述:假定有足個類c ,白c k ,給定未 知數(shù)據(jù)樣本z 可以用一個維向量描述為j = 缸l ,娩靠 ,分類器將預(yù)測未知 樣本工屬于在各屬性取值為工條件下的后驗概率最高的類。即選擇能夠使p ( c f l 最大化的c ;作為未知樣本所屬的類 p ( a z ) p ( g i j ) ,1 ,k ,f 依據(jù)貝葉斯定理尸( gl x ) = ! 竺掣 其中,p ( 西對于所有的類都是常數(shù),只需p 傭c i ) p ( c f ) 最大,而如果類的先 驗概率未知,通常假定這些類是等概率的,即p 刊= 尸r j 列= = j d r c p 。類的先驗 概率也可阻用尸( c p = 側(cè)“習(xí),其中| s i | 是訓(xùn)練集中c f 類的樣本數(shù),i s i 是訓(xùn)練集的樣本 總數(shù)。因此,如何獲得p f 硼c 砂成為基于貝葉斯的分類算法的關(guān)鍵問題。 樸素貝葉斯分類算法( n a 如eb a y e s i a n ,n b ) 做了一個簡單的假定:對于給定 的c f 類,所有屬性是相互獨立的。在屬性值相互條件獨立的前提下,尸( 圈c f ) 的 計算可以簡化為:p ( 工jc f ) = 兀p ( 工,lc j ) 。概率坼“q ,p 阢i q 一,p 阢i 咧 j = l 可以通過訓(xùn)練集估算。 樸素貝葉斯分類法的假設(shè)是為了簡化計算,但是這種假設(shè)在現(xiàn)實世界中不是 總成立的,因為各個屬性之間總存在著或多或少地相互依賴。貝葉斯信念網(wǎng)絡(luò) ( b a y e s i a l lb e l i e f n e 押o r k s ) 說明聯(lián)合條件概率分布,它允許在變量的子集間定義 類條件獨立性。還能夠表示屬性子集問的依賴。它提供一種因果關(guān)系的圖形,可 以在其上進行學(xué)習(xí)。 貝葉斯網(wǎng)絡(luò)的知識表示為判別函數(shù),與數(shù)據(jù)挖掘中的其他知識表示的方法如 規(guī)則表示、決策樹、人工神經(jīng)網(wǎng)絡(luò)等相比,貝葉斯網(wǎng)絡(luò)在知識表示方面具有以下 優(yōu)點:貝葉斯網(wǎng)絡(luò)能夠很方便地處理不完全數(shù)據(jù)。貝葉斯網(wǎng)絡(luò)能夠?qū)W習(xí)變量間的 因果關(guān)系。貝葉斯方法與其他模型相結(jié)合,通??梢杂行У谋苊饬藬?shù)據(jù)的過分擬 第二章分類 a 2 2 3 近鄰學(xué)習(xí)方法( a r e s t i g h b o r ) 最近鄰分類是基于類比的學(xué)習(xí)。訓(xùn)練樣本用n 維數(shù)值屬性描述,每個樣本代 表n 維空間的一個點。這樣,所有的訓(xùn)練樣本都存放在n 維模式空間中。給定一 個未知樣本,k 近鄰分類法搜索模式空間,找出最接近未知樣本的k 個訓(xùn)練樣 本。這k 個訓(xùn)練樣本是未知樣本的k 個“近鄰”?!芭R近性”有不同的定義方式, 最簡單的就是歐幾罩德的距離定義,即根據(jù)兩個點之間的距離來確定二者的臨近 性。未知樣本被分配到k 個最臨近者中最公共的類,如果這些點屬于不同的類, 則可以通過某種判斷策略( 如多數(shù)表決方式) 來確定該未知樣本的最終歸屬。 近鄰分類是基于要求的或懶散的學(xué)習(xí)法,即它存放所有的訓(xùn)練樣本,并且直 到新的( 未標記的) 樣本需要分類時才建立分類。而急切學(xué)習(xí)法( 如決策樹歸納 或后向傳播) 則在接受新的樣本之前構(gòu)造一個一般模型。懶散學(xué)習(xí)法的所有計算 都推遲到分類預(yù)測時進行,因此如果訓(xùn)練集很大,可能的臨近者數(shù)量也很大,懶 散的學(xué)習(xí)法可能導(dǎo)致很高的計算開銷,使分類過程變得緩慢。 2 2 4 神經(jīng)網(wǎng)絡(luò)分類 神經(jīng)網(wǎng)絡(luò)f 州最早是出心理學(xué)家和神經(jīng)生物學(xué)家提出的,旨在尋求開發(fā)和測 試神經(jīng)的計算模擬。神經(jīng)網(wǎng)絡(luò)是一組相互連接的輸入輸出單元,每個連接都與 一個權(quán)值相連。在學(xué)習(xí)階段,通過調(diào)整神經(jīng)網(wǎng)絡(luò)的權(quán),使網(wǎng)絡(luò)能夠正確預(yù)測輸入 樣本的類標號來學(xué)習(xí)。 神經(jīng)網(wǎng)絡(luò)需要很長的訓(xùn)練時問,而且需要大量的參數(shù),這些參數(shù)主要靠經(jīng)驗 確定,如網(wǎng)絡(luò)拓撲或結(jié)構(gòu)。人們很難解釋蘊涵在學(xué)習(xí)權(quán)之中的符號的含義,因此 神經(jīng)網(wǎng)絡(luò)很難被理解和解釋,神經(jīng)網(wǎng)絡(luò)的行為也像一個“黑盒子”。 神經(jīng)網(wǎng)絡(luò)也有一些其他算法所不具備的優(yōu)點,如對噪聲數(shù)據(jù)的高承受能力, 以及它對未經(jīng)訓(xùn)練的數(shù)據(jù)分類模式的優(yōu)秀表現(xiàn)。由于最近提出一些從訓(xùn)練過的神 經(jīng)網(wǎng)絡(luò)提取規(guī)則的算法。這些因素推動了神經(jīng)網(wǎng)絡(luò)在數(shù)據(jù)挖掘分類方面的應(yīng)用。 2 2 5 粗糙集方法 現(xiàn)實生活中存在著許多不能簡單地用真、假值來表示的含糊現(xiàn)象,如何表示 1 0 一 第二章分類 和處理這些現(xiàn)象就成為一個研究領(lǐng)域。 1 9 6 5 年z a d c i l 提出了模糊集,但遺憾的是模糊集是不可計算的,即沒有給 出數(shù)學(xué)公式描述這一含糊概念。直至2 0 世紀8 0 年代,波蘭的p a _ w l a k 提出了粗 糙集( r o u 曲s e t ) 。粗糙集理論可以用于分類,發(fā)現(xiàn)不準確數(shù)據(jù)或者噪聲數(shù)據(jù)內(nèi) 在的結(jié)構(gòu)聯(lián)系,該理論基于給定訓(xùn)練數(shù)據(jù)內(nèi)部的等價類的建立。形成等價類的所 有數(shù)據(jù)樣本是不加區(qū)分的,即對于描述數(shù)據(jù)的屬性,這些樣本是等價的。給定現(xiàn) 實世界數(shù)據(jù),通常有些類不能被可用的屬性區(qū)分。粗糙集可以用來近似或“粗略 地”定義這種類。給定類c 的粗糙集定義有兩個集合近似:c 的下近似和c 的 上近似。c 的下近似有一些這樣的樣本組成,根據(jù)關(guān)于屬性的知識,它們毫無疑 問屬于c 。c 的上近似由所有這樣的樣本組成,根據(jù)關(guān)于屬性的知識,它們不可 能被認為不屬于c 。 粗糙集方法的知識表示是產(chǎn)生式規(guī)則。例如,給定一個顧客信用信息的數(shù)據(jù) 庫,可以學(xué)習(xí)分類規(guī)則,根據(jù)他們的信譽度優(yōu)良或相當(dāng)好來識別顧客。這樣的規(guī) 則可以用來為以后的數(shù)據(jù)樣本分類,也能對數(shù)據(jù)庫的內(nèi)容提供更好的理解。 粗糙集理論的主要優(yōu)勢之一是它不需要任何預(yù)備的或額外的有關(guān)數(shù)據(jù)的信 息,比如統(tǒng)計學(xué)中的概率分布、d e m p s t e 卜s h a f e r 理論中的基本概率賦值,或模糊 集理論中的隸屬度或概率值。當(dāng)然了,該理論也不是萬能的,對建模而言,盡管 粗糙集論對知識不完全的處理是有效的,但是,由于這個理論沒有包含處理不精 確或不確定原始數(shù)據(jù)的機制。因此,單純地使用這個理論不一定能有效地描述不 精確或不準確的實際問題,這就意味著需要其他方法的補充( 如與證據(jù)理論和模 糊集理論的結(jié)合) 。 2 2 6 源于關(guān)聯(lián)規(guī)則的分類 關(guān)聯(lián)規(guī)則【”,3 6 1 挖掘是數(shù)據(jù)挖掘研究的一個重要的、高度活躍的領(lǐng)域。最近, 數(shù)據(jù)挖掘技術(shù)業(yè)已將關(guān)聯(lián)規(guī)則挖掘用于分類問題,我們將依次討論c b a 、c m a r 和c p a r 算法。 基于關(guān)聯(lián)規(guī)則的分類( c l a s s i f i c a t i o nb a s e do na s s o c i a t i o n ,c b a ) 算法采用和 a d r i o r i s 算法類似的候選項產(chǎn)生測試的方法挖掘所有滿足最小支持度和最小置信 度閩值的規(guī)則,然后使用數(shù)據(jù)覆蓋的概念來選擇一個規(guī)則集來建立分類器。c b a 使用形如j ,_ y 的關(guān)聯(lián)規(guī)則,其中z 是一個屬性值的集合而y 是類標號這樣的 1 1 第二章分類 規(guī)則被稱作類規(guī)則( c l a 船a s c i 撕o nr u l 錙,c a r s ) 。由于產(chǎn)生的c a j 塔總數(shù)很大, 所以c b a 采用啟發(fā)式的剪枝策略,使用一個可以覆蓋所有元組的最有效的規(guī)則 集來構(gòu)造分類器。在預(yù)測未知元組的時,c b a 在規(guī)則集中從最有效規(guī)則開始的 按有效性順序搜索分類規(guī)則,并用第一個匹配的規(guī)則預(yù)測未知元組的類標號。 c b a 在u c i 機器學(xué)習(xí)庫上的平均分類準確性比c 4 5 高,并且分類器的構(gòu)造具有 線性可伸縮性。 c m a r 算法( c l a s s 語c a t i o nb a s e do nm 1 l l t i p l ea s s o c i a t i o nr u l e s ,c m a r ) 擴 展了f p 骶e ,在每個節(jié)點上添加了類信息,并使用f p g r o w l 算法產(chǎn)生完整的 關(guān)聯(lián)規(guī)則集。并把這些規(guī)則存儲在一個稱作壓縮規(guī)則樹( c o m p r e s s e dr u l e 仃, c r 仃e e l 的數(shù)據(jù)結(jié)構(gòu)上,剪除置信度低的規(guī)則并依據(jù)關(guān)聯(lián)分析和數(shù)據(jù)覆蓋做進一 步剪枝。預(yù)測未知元組的類標號時,和c b a 僅使用一條規(guī)則做判斷的方法不同, c m a r 使用所有匹配的規(guī)則共同預(yù)測的預(yù)測未知元組所屬的類。為了解決不同 規(guī)則預(yù)測的類標號不同而造成的沖突,c m a r 為每一個關(guān)聯(lián)規(guī)則給定一個權(quán)值。 u c i 機器學(xué)習(xí)庫測試表明,c m a r 算法的分類準確度優(yōu)于c 4 5 和c b a ,并且 c m a r 比c b a 使用更少的內(nèi)存具有更好的可伸縮性。 c p a r 算、法f 3 8 1 是基于預(yù)測規(guī)則的分類算法( c l a s s m c a t i o nb 船e do np r e d i c t i v e a s s o c i a t i o nr u l e s ,c p a r ) ,它使用預(yù)測規(guī)則挖掘算法( p r e d i c t i v em l em i m n g ,p r m ) 產(chǎn)生預(yù)測規(guī)則。p r m 算法繼承了f o l l 算法的基本思想,c p a r 采用貪婪算法 從訓(xùn)練集直接產(chǎn)生預(yù)測規(guī)則,而不象傳統(tǒng)的基于關(guān)聯(lián)規(guī)則的分類算法那樣需要產(chǎn) 生大量候選規(guī)則。但是和傳統(tǒng)的基于規(guī)則的分類算法相比,c p a r 產(chǎn)生并測試更 多的規(guī)則。這是因為p r m 和f o l l 不同,它在發(fā)現(xiàn)一個實例被規(guī)則覆蓋之后并 不刪除它,而是降低它的權(quán)重。因此,p r m 算法產(chǎn)生更多規(guī)則并且每個實例通 常被多個規(guī)則覆蓋。并且不是僅僅選用最好的一條規(guī)則而是選擇所有接近最好的 規(guī)則的策略可以避免丟失重要的規(guī)則。c 隊r 在預(yù)測過程中用預(yù)期準確度來度量 每一個規(guī)則的貢獻,使用最好的五個規(guī)則共同決定未知樣本的所屬類別。測試 結(jié)果顯示,c 隊r 取得了更好的分類精度和速度。 2 2 7 基于e p 的分類算法 1 9 9 9 年,d o n g 和l i 提出了一種新的知識模式,即顯露模式【3 9 1 4 0 】( e m e r

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論