常用的決策樹生成算法分析_第1頁
常用的決策樹生成算法分析_第2頁
常用的決策樹生成算法分析_第3頁
常用的決策樹生成算法分析_第4頁
常用的決策樹生成算法分析_第5頁
全文預(yù)覽已結(jié)束

常用的決策樹生成算法分析.pdf 免費(fèi)下載

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、天津市財(cái)貿(mào)管理干部學(xué)院學(xué)報(bào) j o u r n a l0 f ,r i a n j i nl n s t l t u t e0 f 兀n a n c i a la n dc o m m e r c i a lm a n a g e m e n t第十卷2 8 年第2 期 常用的決策樹生成算法分析 于莉 天津財(cái)貿(mào)管理干部學(xué)院,天津3 0 0 1 7 0 【摘要1 數(shù)據(jù)分類是數(shù)據(jù)挖掘中的一個(gè)重要課題,被有效地應(yīng)用于科學(xué)實(shí)驗(yàn)、醫(yī)療診斷、氣象預(yù)報(bào)、商業(yè)預(yù)測等領(lǐng) 域。常用的分類方法包括決策樹、神經(jīng)網(wǎng)絡(luò)、遺傳算法等。其中決策樹是分類方法中的一個(gè)重要研究方向,由于其結(jié) 構(gòu)簡單、可以清晰的生成便于人們理解的規(guī)

2、則效率高、以及適用大數(shù)據(jù)量等優(yōu)點(diǎn)而被廣泛使用本文就幾種常用的 決策樹生成算法進(jìn)行較深入地分析和比較。 【關(guān)鍵詞】數(shù)據(jù)挖掘;決策樹;決策樹算法 【中圖分類號(hào)】t p 3 0 1 6 【文獻(xiàn)標(biāo)識(shí)碼】b 【文章編號(hào)】1 0 0 8 9 0 5 5 ( 2 0 0 8 ) 0 2 0 0 1 9 一0 2 a n a l y s e so ne s t a b l i s h i n gc a l c u l a t ew a y so f 1 m ,1tt j 一,e c l s l o n 。lr e e sl nl 0 m m o nus e y ul i ( t i a 巧i nc o m m

3、 e r c i a l 徹df i n a n c i a lm a n a g e r l l e n ti n s t i t u t e ,t i a n j i n3 0 0 1 7 0 ) 【a b s t r a c t 】d a t ac l a s s i f i c a t i o ni sa ni m p o r t a mt o p i ci nd i g i t a le x c a v a t i o n ,a n db e i n gu s e df o rs c i e n c et e s t s ,m e d i c a lt r e a t m e n t

4、 s ,w e a t h e rf o r e c a s t s ,a n db u s i n e s sp r e d i c t i o n s t h ec l a s s i 6 c a t i o nm e t h o di n c o m m o nu s ei n c l u d e sd e c i s i o nt r e e ,n e u r a ln e t ,t h eg e n e t i cc a l c u l a t i o ne t c a m o n gt h e md e c i s i o nt r e ei s am e t h o do fm

5、u c hm o r ei m p o r t a n c ei nt h er e s e a r c hd i r e c t i o n hi si nas i m p l es t m c t u r e ,e a s vt ob ee s t a b l i s h e da n du n d e r s t o o d ,w i t hh i g he f n c i e n c y ,a n ds u i t a b l et oa 卿a td e a lo fd a t ae t c i ti su s e de x t e n s i v e l yd u et oa l l

6、t h e s ea d v a n t a g e s t h i sa r t i c l ec a r r i e so na n a l y z i n ga n dc o m p a r i n gm o r ea n dt h o r o u g 王l l y f o raf e wd e c i s i o nt r e e s e s t a b l i s h i n gc a l c u l a t ew a 丫si nc o m m o nu s e 【k e yw o r d s 】d i 舀t a le x c a v a t i o n ;d e c i s i o

7、 nt r e e ;c a l c u l a t ew a y so f d e c i s i o nt r e e s 一、數(shù)據(jù)挖掘及分類 數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨 機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道 的、但又是潛在有用的信息和知識(shí)的過程其任務(wù)是從大量 的數(shù)據(jù)中發(fā)現(xiàn)有價(jià)值的模式 分類是數(shù)據(jù)挖掘中應(yīng)用極其廣泛的重要技術(shù)之一其目 的是分析輸入數(shù)據(jù)通過數(shù)據(jù)表現(xiàn)的特性構(gòu)造一個(gè)分類模 型用該模型對(duì)類別未知的數(shù)據(jù)進(jìn)行分類。分類過程分為訓(xùn) 練和測試兩個(gè)步驟:在訓(xùn)練階段,分析訓(xùn)練數(shù)據(jù),為每個(gè)類別 產(chǎn)生一個(gè)對(duì)應(yīng)的數(shù)據(jù)集的描述規(guī)則:在測試階段用上述產(chǎn) 生的規(guī)則對(duì)

8、測試數(shù)據(jù)進(jìn)行分類,以此來測試分類的準(zhǔn)確性。 訓(xùn)練階段用于產(chǎn)生分類模型,是關(guān)鍵步驟。分類模型的構(gòu)造 方法有多種,其中最為典型的是基于決策樹的分類方法。 二、決策樹分類方法 決策樹方法廣泛用于解決與分類相關(guān)的各種問題屬于 有指導(dǎo)的歸納學(xué)習(xí)算法。該方法著眼于從一組無次序、無規(guī) 則的數(shù)據(jù)中歸納出一個(gè)分類描述從中發(fā)現(xiàn)潛在的、具有商 業(yè)價(jià)值的信息。 決策樹( d e c j s i o nt r e e ) 是一個(gè)類似樹結(jié)構(gòu)的表示法每 個(gè)內(nèi)部節(jié)點(diǎn)表示一個(gè)屬性的測試分支表示一個(gè)測試的輸 出,而葉節(jié)點(diǎn)就表示類或類的分布。使用訓(xùn)練樣本構(gòu)建決策 樹時(shí)通常采用自頂向下的遞歸方式即從代表全部訓(xùn)練樣 本的根節(jié)點(diǎn)開始為每

9、個(gè)內(nèi)部節(jié)點(diǎn)選擇一個(gè)測試屬性并根 據(jù)該屬性的取值將樣本劃分為若干分支直到葉節(jié)點(diǎn)將樣本 劃分為某一類。在決策樹的構(gòu)建過程中,關(guān)鍵問題是測試屬 性的選擇以及分割點(diǎn)的確定。不同的決策樹算法采用的屬性 分割方法不同,常用的決策樹算法主要有i d 3 、c 4 5 、c a r t 、 s u q 、s p r i n t 等。 三、常用的決策樹算法分析比較 ( 一) i d 3 算法 最早出現(xiàn)的決策樹算法是1 9 6 6 年由h u n t 等人提出的 c l s 算法其主要思想是從一棵空的決策樹開始通過添加 結(jié)點(diǎn)逐步求精直到產(chǎn)生一棵能正確分類訓(xùn)練實(shí)例的決策樹 為止。c 1 5 算法在構(gòu)造決策樹的過程中

10、沒有給出選擇測試屬 性的具體標(biāo)準(zhǔn)。因此,在該算法的基礎(chǔ)上,o u i n l a n 在1 9 7 9 年 提出了在國際上最有影響力的以信息熵的下降速度作為選 擇測試屬性標(biāo)準(zhǔn)的i d 3 算法。 該算法的基本思想是:從代表訓(xùn)練樣本的單個(gè)節(jié)點(diǎn)開始 樹的構(gòu)造。如果樣本屬于同一類,則該節(jié)點(diǎn)成為葉節(jié)點(diǎn),并用 該類標(biāo)記:否則采用窗口的采樣方法,隨機(jī)地從訓(xùn)練數(shù)據(jù)集 中選擇一個(gè)子集通過計(jì)算每個(gè)屬性的信息增益。選擇增益 最大且從根節(jié)點(diǎn)到當(dāng)前節(jié)點(diǎn)尚未被選擇的屬性作為節(jié)點(diǎn)并 【收稿日期】2 0 0 7 1 2 一0 8 i 作者簡介】于莉( 1 9 7 7 一) ,女,漢族,天津市人,天津市財(cái)貿(mào)管理干部學(xué)院會(huì)統(tǒng)系

11、講師。研究方向:計(jì)算機(jī)教學(xué)。 1 9 萬方數(shù)據(jù) 天津市財(cái)貿(mào)管理干部學(xué)院學(xué)報(bào) j o u l 型皇l 旦ft i a n jj ni n s t i t u t e ( ) f i n a n c i a la n dc o m m e r c i a lm a n a g e m e n t第十卷2 8 年第2 期 根據(jù)該屬性的不同取值創(chuàng)建不同的分支。直至節(jié)點(diǎn)中的所有 記錄屬于同一類或節(jié)點(diǎn)中的記錄數(shù)小于規(guī)定的最小記錄數(shù)。 從i d 3 算法構(gòu)造決策樹的過程可以看出i d 3 算法屬于 一種自頂向下、分而治之的遞歸構(gòu)造決策樹的貪心算法。它 采用不可返回的策略每次搜索全部樣本空間的一個(gè)子集生 成決

12、策樹以確保決策樹建立最簡單每次分析的訓(xùn)練數(shù)據(jù) 最少。其優(yōu)點(diǎn)是在測試屬性的選擇上利用了信息增益的概 念,描述簡單,構(gòu)造的決策樹平均深度較小,分類速度快學(xué) 習(xí)能力強(qiáng)。但其也存在許多缺陷,如不能處理連續(xù)屬性、可伸 縮性差、容易產(chǎn)生過度擬和等。 ( 二) c 4 5 算法 c 4 5 算法是針對(duì)i d 3 算法存在的不足,由0 u i n l a n 于 1 9 9 3 年提出的決策樹主流算法之一。該算法與i d 3 算法相輔 相成,都屬于啟發(fā)式的探索屬性空間的貪心算法。在i d 3 的 基礎(chǔ)上,c 4 5 算法對(duì)其缺點(diǎn)進(jìn)行了改進(jìn): 1 當(dāng)每條記錄的屬性值都不同時(shí)為避免i d 3 算法傾向 于優(yōu)先選擇

13、多值的屬性c 4 5 用增益比例取代信息增益作為 選擇分割屬性的標(biāo)準(zhǔn)避免過度擬和的產(chǎn)生。 2 既可以處理離散屬性也可以處理連續(xù)屬性。對(duì)于連續(xù) 屬性值通過自動(dòng)離散化的方式進(jìn)行處理即先對(duì)連續(xù)屬性a 的值進(jìn)行遞增排序排序后如果相鄰的兩個(gè)值不屬于同一 類則用這兩個(gè)值的中點(diǎn)m 將數(shù)據(jù)劃分為兩部分一部分落 人該值范圍內(nèi)即a m 。將所有 的中點(diǎn)值m 作為可能的分割點(diǎn)計(jì)算信息增益比選擇最大信 息增益比對(duì)應(yīng)的中點(diǎn)值作為分割點(diǎn)劃分樣本空間。由于c 4 5 采用深度優(yōu)先建樹所以為找到對(duì)于連續(xù)屬性而言最佳的分 割點(diǎn),在每一節(jié)點(diǎn)處需對(duì)數(shù)據(jù)進(jìn)行反復(fù)的劃分。 雖然c 4 5 算法繼承了i d 3 算法的全部優(yōu)點(diǎn)而且由于

14、其思想簡單,結(jié)果可靠等優(yōu)點(diǎn)更加鞏固了其主流算法的地 位。但其本身也存在決策樹性能改善困難、達(dá)不到全局最優(yōu) 的結(jié)果、評(píng)價(jià)決策樹主要依據(jù)錯(cuò)誤率以及沒有考慮樹的深度 和結(jié)點(diǎn)的個(gè)數(shù)等不足 ( 三) c a r t 算法 c a r t ( c l a s s i f i c a l i o na i l dr e g r e s s i o n7 i b e s ) 算法即分類 與回歸樹算法是由l b r e m a n 等人于1 9 8 4 年提出的生成二 叉決策樹的算法。它依據(jù)g i n i 系數(shù)作為測試屬性的選擇標(biāo) 準(zhǔn)每次將能夠降低數(shù)據(jù)無序度的預(yù)測屬性選擇出來按照 深度優(yōu)先的策略構(gòu)造決策樹,屬于

15、有指導(dǎo)的學(xué)習(xí)算法。 該算法可對(duì)連續(xù)型和離散型屬性進(jìn)行處理。對(duì)于離散屬 性將其所有的屬性值看作可能的分割點(diǎn),求出對(duì)應(yīng)的彝n i 參 數(shù),最后選擇所有分割點(diǎn)中基尼指數(shù)最小者對(duì)應(yīng)的屬性作為 節(jié)點(diǎn)的分割屬性。對(duì)于連續(xù)屬性首先將屬性值進(jìn)行排序可 能的分割點(diǎn)為相鄰屬性值的中點(diǎn)。從所有可能分割點(diǎn)中找出 西n i 指數(shù)最小的分割點(diǎn)對(duì)應(yīng)的屬性作為分割屬性。由于 c a r t 算法采用深度優(yōu)先建樹所以對(duì)于連續(xù)屬性為了找到 最佳分割點(diǎn),需要在節(jié)點(diǎn)上對(duì)數(shù)據(jù)反復(fù)進(jìn)行劃分。 ( 四) c h a i d 算法 c h a i d ( c h is q u a r ea u t o m a t i ci n t e r

16、a c t i o nd e t e c t o r ) 算 法,即卡方自動(dòng)交互檢測算法是由g o r d o nb 凡s 博士在 1 9 7 6 年提出的快速生成多層決策樹的算法。該算法主要對(duì)離 散型變量進(jìn)行處理,有時(shí)也可以對(duì)連續(xù)型變量進(jìn)行處理。但 由于選擇分割屬性的算法不是針對(duì)連續(xù)型變量設(shè)計(jì)的所以 對(duì)于該類型的輸入變量需要先進(jìn)行離散化的操作。 應(yīng)用c h a i d 算法建立決策樹時(shí)首先為分類變量的每 個(gè)取值建立一個(gè)分支如果測試屬性存在缺失值,則將缺失 值單獨(dú)分支。然后依據(jù)卡方分布的p 值來決定是否進(jìn)行節(jié) 點(diǎn)的分裂操作。如果節(jié)點(diǎn)中類別的p 值小于預(yù)先指定的閾 值,則節(jié)點(diǎn)被分割,直到所有節(jié)點(diǎn)

17、的p 值均大于閾值,則樹的 構(gòu)造結(jié)束。 上述四種算法存在的一個(gè)共同弱點(diǎn)就是在決策樹生成 的過程中要求訓(xùn)練集全部或部分一直駐留在內(nèi)存。所以在數(shù) 據(jù)量急劇增長的情況下由于數(shù)據(jù)集不能擴(kuò)展,致使這些算 法不能處理大容量的數(shù)據(jù)。因此迫切需要具有可伸縮性的算 法來解決這一問題 ( 五) s l i q 算法 s u q ( s u p e r v i s e dk a m i n gi no u e s t ) 即o u e s t 上的有監(jiān) 督學(xué)習(xí)是由i b ma l m a d e n 研究中心的m e h t a 等人在1 9 9 6 年提出的一種快速可擴(kuò)展的分類算法。該算法在樹的構(gòu)建階 段針對(duì)數(shù)據(jù)

18、量遠(yuǎn)大于內(nèi)存容量的情況利用駐留在磁盤上的 屬性列表和駐留在內(nèi)存的類列表兩種數(shù)據(jù)結(jié)構(gòu)通過采用預(yù) 排序技術(shù)和寬度優(yōu)先的決策樹生長方法,使s l i q 算法能夠 對(duì)駐留在磁盤上的大數(shù)據(jù)集進(jìn)行分類而且在改進(jìn)學(xué)習(xí)的時(shí) 間的同時(shí)沒有降低精確度。雖然s u o 算法能以更快的速度 生成較小的樹而且不限制訓(xùn)練數(shù)據(jù)的數(shù)量及屬性的數(shù)量 但由于類表需要一直駐留在內(nèi)存當(dāng)類表不能一次裝入內(nèi)存 時(shí),s l i q 算法需要額外進(jìn)行內(nèi)外存數(shù)據(jù)交換。所以處理的數(shù) 據(jù)量仍有限。 ( 六) s p r i n t 算法 s p r i n7 r ( s c a l a b l ep a r a l l e l i z a b

19、l ei n d u c t i o no fc i a s s i 6 c a t i o n t r e e ) 算法即可擴(kuò)展的、可并行的歸納決策樹算法是由i b m 的j s h 如r 于1 9 9 6 年提出的。它完全不受內(nèi)存的限制而且 處理速度很快且可擴(kuò)展。該算法在設(shè)計(jì)上兼顧了并行處理 允許多個(gè)處理器相互合作生成一致的模型。s p r i n t 算法使 用屬性列表和類統(tǒng)計(jì)矩形表通過一次排序?qū)ふ易罴逊指?點(diǎn)。由于在s p r i n t 中將屬性列表平均分配到多個(gè)處理器上。 使得它可以處理大規(guī)模的數(shù)據(jù)集。但隨著訓(xùn)練集的增長它 所使用的h a s h 表也成正比例增長從而使其運(yùn)行性能受

20、到 較大影響。 通過分析。每種算法各有優(yōu)勢和適用范圍。沒有一種算 法對(duì)于所有的數(shù)據(jù)都適用也沒有一種算法完全優(yōu)于其他方 法。因此需要根據(jù)特定問題和特定的數(shù)據(jù)選擇適合的算法。 參考文獻(xiàn): 1 】1 h u n teb 。jm a r i n ,pts 惦n e e x p e d m e 耵瞳si ni n d u c t i o n a c a - d e i cp r e s s 1 9 6 6 【2 】q i l i n l a l ljr i n d u c t i 徹0 fd e c i 8 i o nt r e e s m a c h i n el e 枷i n g ,1 9 8 6

21、, 1 3 】q u i t l l a njr d i s c o v e r i n gm l e 8f 而m1 a r g ec o l l e c t i o n so fe x 棚p l e s : ac a s es t u d y i n :m i c h i ed ,e d e x p e r ts y s t e m si nt h em i c r 0e l e c t r o n i c a g e ,e d i n b u r g hu n i v e r s i t yp r e s s ,1 9 7 9 【4 】j i a w e ih a n ,m i c h e

22、 l i n ek a r r 】【b e r ,范明盂小峰譯數(shù)據(jù)挖掘概念 與技術(shù) m 】北京:機(jī)械工業(yè)出版社,2 0 0 1 5 】數(shù)據(jù)挖掘資料匯編h t t p :,w w w d m g m u p o 唱c n 【6 】陳文偉,黃金才,趙新昱數(shù)據(jù)挖掘技術(shù)【m 】北京:北京工業(yè)大 學(xué)出版社2 0 0 2 【7 】邵峰晶,于忠清數(shù)據(jù)挖掘原理與算法【m 】北京:中國水利水電 出版社2 0 0 1 責(zé)任編輯:周曉豐 萬方數(shù)據(jù) 常用的決策樹生成算法分析常用的決策樹生成算法分析 作者:于莉 作者單位:天津市財(cái)貿(mào)管理干部學(xué)院,天津,300170 刊名: 天津市財(cái)貿(mào)管理干部學(xué)院學(xué)報(bào) 英文刊名:jour

23、nal of tianjin institute of financial and commercial management 年,卷(期):2008,10(2) 引用次數(shù):1次 參考文獻(xiàn)(7條)參考文獻(xiàn)(7條) 1.1.hunt e b,j matin,p t stone.experiments in induction.academic press.1966. 2.quinlan j r.induction of decision trees.machine learning.1986.1. 3.quinlan j r.discovering rules from large collec

24、tions of examples:a case study.in:michie d,ed.expert systems in the micro electronic age,edinburgh university press,1979. 4.jiawei han,micheline kamber.,范明孟小峰譯.數(shù)據(jù)挖掘概念與技術(shù)m.北京:機(jī)械工業(yè)出版社,2001. 5.數(shù)據(jù)挖掘資料匯編. 6.陳文偉,黃金才,趙新昱.數(shù)據(jù)挖掘技術(shù)m.北京:北京工業(yè)大學(xué)出版社.2002. 7.邵峰晶,于忠清.數(shù)據(jù)挖掘原理與算法m.北京:中國水利水電出版社.2001. 相似文獻(xiàn)(10條)相似文獻(xiàn)(10條)

25、1.學(xué)位論文 趙翔 數(shù)據(jù)挖掘中決策樹分類算法的研究 2005 決策樹方法是數(shù)據(jù)挖掘中一種重要的分類方法。本課題從新的建樹準(zhǔn)則、決策樹修剪、多變量決策樹、多決策樹組合、不完備信息系統(tǒng)下的模型建 立等幾個(gè)方面對(duì)決策樹方法進(jìn)行了研究和探討。 本課題的主要研究工作和成果有: 1、針對(duì)傳統(tǒng)決策樹算法的不足(如id3、c4.5),提出 了基于協(xié)方差及高階相關(guān)系數(shù)的決策樹生成算法,避免了經(jīng)典的以信息熵作為建樹準(zhǔn)則的決策樹生成算法盲目地偏向于屬性值較多的屬性的缺點(diǎn)。 2、針對(duì)決策樹的構(gòu)造和修剪通常不能同時(shí)進(jìn)行所產(chǎn)生的效率低下的問題,提出了基于粗糙集的決策樹構(gòu)造方法。利用優(yōu)先策略,將知識(shí)相依性同時(shí)作為 屬性約簡

26、和建樹的準(zhǔn)則,在決策樹預(yù)修剪的同時(shí)進(jìn)行節(jié)點(diǎn)生成,大大提高了決策樹構(gòu)造的效率。 3、針對(duì)單變量決策樹忽視信息系統(tǒng)中廣泛存在的 屬性間的關(guān)聯(lián)作用,而且修剪時(shí)往往代價(jià)很大的缺陷,提出了一種基于主成分分析的多變量決策樹構(gòu)造方法,提取信息系統(tǒng)中的若干主成分來構(gòu)造決策 樹。 4、探討了用boosting方法組合多決策樹,構(gòu)造決策森林的方法。 5、在不完備信息系統(tǒng)中的模型拓展。提出了一種加權(quán)聯(lián)系度容差關(guān) 系,在各屬性重要性排序的前提下對(duì)不完備信息系統(tǒng)進(jìn)行進(jìn)一步的粗糙集模型拓展,使其更加符合人的主觀要求和客觀現(xiàn)實(shí)。從而為進(jìn)一步探討在不完 備信息系統(tǒng)中構(gòu)造分類器模型打下基礎(chǔ)。 2.學(xué)位論文 程向前 基于決策樹的

27、數(shù)據(jù)挖掘算法和可視化研究 2007 數(shù)據(jù)挖掘是一種可以從海量數(shù)據(jù)中智能地和自動(dòng)地抽取一些有用的、可信的、有效的、可以理解的模式的過程,也被稱之為數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)。 分類是數(shù)據(jù)挖掘的一種非常重要的方法。分類的概念是在已有數(shù)據(jù)的基礎(chǔ)上學(xué)習(xí)一個(gè)分類函數(shù)或構(gòu)造出一個(gè)分類模型(即分類器)進(jìn)行類型的劃分。該 函數(shù)或模型能夠把數(shù)據(jù)庫中的數(shù)據(jù)記錄映像到給定類別中的某一個(gè)。分類方法應(yīng)用領(lǐng)域廣泛,如金融市場走向分析、顧客信用度分析、醫(yī)療診斷等。 決策樹是數(shù)據(jù)挖掘中一種應(yīng)用最為廣泛的分類器。其原因主要有:(1)決策樹分類的直觀表示方法較容易轉(zhuǎn)化為標(biāo)準(zhǔn)的數(shù)據(jù)庫查詢;(2)決策樹分類 歸納的方法行之有效、尤其適合于大

28、型數(shù)據(jù)集;(3)決策樹在分類過程中,除了數(shù)據(jù)集中己經(jīng)包括的信息外,不再需要其他額外的信息;(4)決策樹 分類模型的預(yù)測準(zhǔn)確度較高。由于決策樹本身具有建樹思想簡單、易于提取規(guī)則、貼近人類思維、便于理解等優(yōu)點(diǎn),使其在分類數(shù)據(jù)挖掘中得到了廣泛 應(yīng)用。決策樹算法的研究可以擴(kuò)大算法的應(yīng)用范圍,提高算法的運(yùn)行效率以及分類的準(zhǔn)確率。本文從屬性離散化、降維、屬性選擇標(biāo)準(zhǔn)、剪枝、與其它 數(shù)據(jù)挖掘方法的結(jié)合等幾個(gè)方面對(duì)目前決策樹在分類數(shù)據(jù)挖掘中的研究狀況進(jìn)行了闡述。 本文在介紹了一些典型的決策樹分類算法的基礎(chǔ)上,重 點(diǎn)描述了一種基于決策樹的數(shù)據(jù)挖掘新算法,即基于屬性相似度的決策樹分類器的研究成果。不同測試屬性在決

29、策中的地位也不相同,部分測試屬性甚 至對(duì)決策不起任何作用,完全可進(jìn)行約簡。實(shí)驗(yàn)也證明數(shù)據(jù)集中無關(guān)的、干擾的屬性會(huì)影響分類器的性能,導(dǎo)致性能變差。因而本文首先進(jìn)行了屬性選 擇,只保留與決策最為相關(guān)的屬性,而將其他屬性都去除。然后通過計(jì)算測試屬性與決策屬性的相似度作為啟發(fā)規(guī)則來構(gòu)造決策樹。算法還使用了分類 閾值設(shè)定方法簡化決策樹的生成過程。新算法在對(duì)uci實(shí)驗(yàn)數(shù)據(jù)庫中的四個(gè)數(shù)據(jù)集的實(shí)驗(yàn)中,運(yùn)行效率明顯高于id3算法,預(yù)測精度在某些數(shù)據(jù)集中也優(yōu) 于id3。 weka數(shù)據(jù)挖掘平臺(tái)是新西蘭懷卡托大學(xué)開發(fā)的基于java語言的開源的數(shù)據(jù)挖掘平臺(tái)。它提供了一個(gè)java類庫形式的框架,這個(gè)框架支持嵌 入式及其學(xué)

30、習(xí)的應(yīng)用,以及新的學(xué)習(xí)方案的實(shí)現(xiàn)。本文在熟悉其api的基礎(chǔ)上,成功地在此平臺(tái)上實(shí)現(xiàn)了自己的新的算法。數(shù)據(jù)挖掘結(jié)果的可視化可以使 用戶和決策者非常形象和直觀地分析得到的知識(shí),本文在weka平臺(tái)上將新算法模型得到的決策樹成功地以圖形的方式展示。 3.學(xué)位論文 劉振宇 數(shù)據(jù)挖掘算法研究及其在鐵路員工培訓(xùn)系統(tǒng)中的應(yīng)用 2006 數(shù)據(jù)庫知識(shí)發(fā)現(xiàn)(knowledgediscoveryindatabase,kdd)是從大量數(shù)據(jù)中發(fā)現(xiàn)潛在規(guī)律、提取有用知識(shí)的方法和技術(shù)。近年來,kdd受到了國內(nèi)外普 遍關(guān)注,已經(jīng)成為信息系統(tǒng)和計(jì)算機(jī)科學(xué)領(lǐng)域研究中最活躍的部分。kdd被認(rèn)為是從數(shù)據(jù)中發(fā)現(xiàn)有用知識(shí)的整個(gè)過程,而數(shù)據(jù)

31、挖掘(datamining,dm)被認(rèn) 為是kdd過程中的一個(gè)特定步驟,它用專門算法從數(shù)據(jù)中抽取模式。 數(shù)據(jù)挖掘作為一種高效、深層次的數(shù)據(jù)分析處理技術(shù),其目的在于從大量的數(shù) 據(jù)中提取出隱含在其中的潛在信息,這些信息將為人們進(jìn)行各種決策分析提供有力依據(jù)。如何利用數(shù)據(jù)挖掘技術(shù)對(duì)現(xiàn)有的大量數(shù)據(jù)進(jìn)行分析處理,具有 重要的實(shí)際應(yīng)用價(jià)值。目前數(shù)據(jù)挖掘的研究主要集中在如何完成各種知識(shí)發(fā)現(xiàn)任務(wù),如分類知識(shí)發(fā)現(xiàn)、聚類知識(shí)發(fā)現(xiàn)、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)等。研究的重點(diǎn)在 具體的數(shù)據(jù)挖掘算法,算法研究的目的在于提高挖掘的效率及挖掘結(jié)果的實(shí)用性。 本文以實(shí)現(xiàn)鐵路員工培訓(xùn)系統(tǒng)中培訓(xùn)資源和培訓(xùn)模式選擇的優(yōu) 化為目標(biāo)。首先在初步調(diào)研與分

32、析知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘相關(guān)理論與應(yīng)用的基礎(chǔ)上,歸納了該領(lǐng)域的主要研究內(nèi)容和關(guān)鍵技術(shù)。進(jìn)而結(jié)合數(shù)據(jù)挖掘的應(yīng)用 現(xiàn)狀和理論基礎(chǔ),重點(diǎn)分析了分類、聚類算法的理論、方法和實(shí)現(xiàn)技術(shù)。研究的主要內(nèi)容有數(shù)據(jù)挖掘的過程模型、數(shù)據(jù)預(yù)處理、決策樹分類和聚類的常 用算法等。然后介紹了目前鐵路員工培訓(xùn)資源與培訓(xùn)模式的現(xiàn)狀及現(xiàn)有鐵路員工培訓(xùn)系統(tǒng)的作用和意義。并著重分析了系統(tǒng)中存在的問題,在培訓(xùn)資源 與培訓(xùn)模式方面提出了改進(jìn)方案。最后利用聚類與分類算法對(duì)培訓(xùn)資源與培訓(xùn)模式進(jìn)行優(yōu)化,并對(duì)所搜集的現(xiàn)有培訓(xùn)資源與培訓(xùn)模式進(jìn)行了聚類和分類 挖掘,分析了已有數(shù)據(jù)的規(guī)律,期望對(duì)未知類別的數(shù)據(jù)進(jìn)行預(yù)測。本文所提出的培訓(xùn)資源與培訓(xùn)模式優(yōu)化

33、選擇方案對(duì)鐵路員工培訓(xùn)具有一定的指導(dǎo)及幫 助作用。 本文主要研究工作如下:1、介紹數(shù)據(jù)挖掘算法中基本分類算法決策樹分類算法,進(jìn)行了系統(tǒng)的總結(jié),給出了決策樹算法的處理流程以 及決策樹生成過程,對(duì)經(jīng)典的決策樹算法進(jìn)行了比較,分析了各自的優(yōu)缺點(diǎn)。 2、針對(duì)經(jīng)典決策樹與人的思維及感知認(rèn)識(shí)上的不相符,對(duì)連續(xù)屬性 處理的缺陷,引入模糊決策樹算法,深入研究了模糊決策樹算法的實(shí)現(xiàn)策略,在此基礎(chǔ)上提出了一種新的模糊決策樹算法模糊基尼系數(shù)法。 3、 對(duì)聚類算法中的經(jīng)典k均值法進(jìn)行描述,指出該算法的不足之處,提出了一種改進(jìn)的k均值算法,并對(duì)二者的性能進(jìn)行了比較,證明了改進(jìn)后的k均值算法 優(yōu)于經(jīng)典k均值算法。 4、基

34、于本文所闡述的決策樹算法和聚類算法,設(shè)計(jì)了一個(gè)關(guān)于鐵路員工培訓(xùn)資源與培訓(xùn)模式的優(yōu)化選擇方案,對(duì)培訓(xùn)資源 與培訓(xùn)模式進(jìn)行分析與預(yù)測,可以提高員工培訓(xùn)質(zhì)量。 本文針對(duì)上述研究內(nèi)容,進(jìn)行了大量的實(shí)驗(yàn)研究和論證。結(jié)果表明,本文的理論、方法與 技術(shù)基本正確有效,所涉及的鐵路員工培訓(xùn)系統(tǒng)培訓(xùn)資源與培訓(xùn)模式優(yōu)化方案對(duì)實(shí)際員工培訓(xùn)可提供一定的指導(dǎo)作用,具有良好的實(shí)際應(yīng)用前景。 4.學(xué)位論文 胡小剛 數(shù)據(jù)挖掘中決策樹分類算法的研究 2002 數(shù)據(jù)挖掘,也稱之為數(shù)據(jù)庫中知識(shí)發(fā)現(xiàn)是一個(gè)可以從海量數(shù)據(jù)中智能地和自動(dòng)地抽取一些有用的、可信的、有效的和可以理解的模式的過程.分類是 數(shù)據(jù)挖掘的重要內(nèi)容之一.目前,分類已廣泛

35、應(yīng)用于許多領(lǐng)域,如醫(yī)療診斷、天氣預(yù)測、信用證實(shí)、顧客區(qū)分、欺詐甄別. 現(xiàn)己有多種分類的方法,其中決 策樹分類法在海量數(shù)據(jù)環(huán)境中應(yīng)用最為廣泛.其原因如下;1、決策樹分類的直觀的表示方法較容易轉(zhuǎn)化為標(biāo)準(zhǔn)的數(shù)據(jù)庫查詢.2、決策樹分類歸納的方法行 之有效,尤其適合大型數(shù)據(jù)集.3、決策樹在分類過程中,除了數(shù)據(jù)集中已包括的信息外,不再需要額外的信息.4、決策樹分類模型的精確度較高. 該文首先 研究了評(píng)估分類模型的方法.在此基礎(chǔ)上著重研究了決策樹分類方法,并對(duì)決策樹算法的可伸縮性問題進(jìn)行了具體分析,最后給出了基于ole db for dm開 發(fā)決策樹分類預(yù)測應(yīng)用程序. 5.學(xué)位論文 但小容 數(shù)據(jù)挖掘中決策樹

36、分類算法的研究與改進(jìn) 2008 數(shù)據(jù)庫技術(shù)的迅速發(fā)展以及數(shù)據(jù)庫管理系統(tǒng)的廣泛應(yīng)用,導(dǎo)致人們積累了越來越多的數(shù)據(jù)。巨增的數(shù)據(jù)背后蘊(yùn)藏著豐富的知識(shí),而目前的數(shù)據(jù)庫技 術(shù)雖可以高效的實(shí)現(xiàn)數(shù)據(jù)的查詢、統(tǒng)計(jì)等功能,卻無法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則,無法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測未來的發(fā)展趨勢。數(shù)據(jù)庫中存在著大量 的數(shù)據(jù),卻缺乏挖掘數(shù)據(jù)背后隱藏的知識(shí)的手段,出現(xiàn)了“數(shù)據(jù)爆炸而知識(shí)貧乏”的現(xiàn)象。 在此背景下,數(shù)據(jù)庫知識(shí)發(fā)現(xiàn)(kdd)及其核心技術(shù) 數(shù)據(jù)挖掘(dm)便應(yīng)運(yùn)而生了。數(shù)據(jù)挖掘(data mining)是信息處理技術(shù)研究領(lǐng)域的一項(xiàng)重要課題。數(shù)據(jù)挖掘是利用分析工具從大量的、不完全的、有 噪聲的、模糊的、隨機(jī)的數(shù)

37、據(jù)中,提取出隱含在其中、事先未知、潛在有用的信息和知識(shí)的過程,建立數(shù)據(jù)間關(guān)系模型,用其做出預(yù)測,從而為決策者 提供輔助。它是一種新型的數(shù)據(jù)分析技術(shù),已被廣泛應(yīng)用于金融、保險(xiǎn)、政府、教育、運(yùn)輸以及國防等領(lǐng)域。 數(shù)據(jù)分類是數(shù)據(jù)挖掘中一個(gè)重要的 內(nèi)容。常用的分類模型有決策樹、神經(jīng)網(wǎng)絡(luò)、遺傳算法、粗糙集、統(tǒng)計(jì)模型等。決策樹是分類應(yīng)用中采用最廣泛的模型之一。與神經(jīng)網(wǎng)絡(luò)和貝葉斯方法 相比,決策樹無須花費(fèi)大量的時(shí)間和進(jìn)行上千次的迭代來訓(xùn)練模型,適用于大規(guī)模數(shù)據(jù)集,除了訓(xùn)練數(shù)據(jù)中的信息外不再需要其他額外信息,表現(xiàn)了很 好的分類精確度。并且決策樹算法是以實(shí)例為基礎(chǔ)的歸納學(xué)習(xí)算法,以其易于提取顯式規(guī)則、計(jì)算量相對(duì)

38、較小、可以顯示重要的決策屬性和較高的分類 準(zhǔn)確率等優(yōu)點(diǎn)而得到廣泛的應(yīng)用。據(jù)統(tǒng)計(jì),目前決策樹算法是利用最廣泛的數(shù)據(jù)挖掘算法之一。然而在實(shí)際應(yīng)用過程中,現(xiàn)存的決策樹算法也存在著很 多不足之處,如計(jì)算效率低下、多值偏向等。因此,進(jìn)一步改進(jìn)決策樹,提高決策樹的性能,使其更加適合數(shù)據(jù)挖掘技術(shù)的應(yīng)用要求具有重要的理論和 實(shí)際意義。 本文主要介紹如何利用決策樹方法對(duì)數(shù)據(jù)進(jìn)行分類挖掘。文中詳細(xì)的闡述了決策樹的基本知識(shí)和相關(guān)算法,并對(duì)幾種典型的決策樹算 法進(jìn)行了分析比較,如:核心經(jīng)典算法-id3算法;能夠處理不完整的數(shù)據(jù)、對(duì)連續(xù)屬性的數(shù)據(jù)離散化的c4.5算法:利用gini系數(shù)判別數(shù)據(jù)集中的分裂屬 性并形成二叉樹

39、的cart算法;使數(shù)據(jù)的分類不受機(jī)器主存的限制,有著良好的伸縮和并行性的sliq和sprint算法。文中分析并比較了它們各自的優(yōu)缺點(diǎn) 。在決策樹算法中屬quinlan于1986年提出的id3算法最有名,它是非遞增算法,并且采用信息熵作為屬性選擇的標(biāo)準(zhǔn),可是這個(gè)標(biāo)準(zhǔn)易偏向于屬性值數(shù) 較多的屬性,而屬性值較多的屬性卻不總是最優(yōu)的屬性。為了解決取值偏向的問題,本文提出了一種基于id3算法的加權(quán)簡化信息熵算法,該算法的思想 是首先將泰勒公式的原理與id3算法的屬性選擇標(biāo)準(zhǔn)信息熵的求解相結(jié)合,對(duì)id3算法信息熵的求解進(jìn)行簡化,改變了決策樹算法中屬性選擇的標(biāo)準(zhǔn) ,減小了算法的計(jì)算復(fù)雜度,提高了算法的運(yùn)行效

40、率;然后再賦予每個(gè)屬性的信息簡化熵一個(gè)權(quán)值n,n的取值取決于每個(gè)屬性的取值個(gè)數(shù),用以平衡每 個(gè)屬性對(duì)數(shù)據(jù)集的不確定程度,使得屬性的選擇更加合理化,避免選擇的屬性與實(shí)際不相符。最后在visual studio6.0平臺(tái)上利用c+語言分別實(shí)現(xiàn)改進(jìn) 前后的id3算法。實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的加權(quán)簡化信息熵算法提高了決策樹的構(gòu)建速度,減少了算法的計(jì)算運(yùn)行時(shí)間,同時(shí)也克服了id3算法往往偏向 于選擇取值較多的屬性作為測試屬性的缺陷。并且隨著數(shù)據(jù)規(guī)模的增大,決策樹的分類性能表現(xiàn)得越好。理論分析和實(shí)驗(yàn)結(jié)果表明,本文提出的改進(jìn)算 法改善了決策樹的id3算法的性能,表現(xiàn)出了良好的分類效果。 6.學(xué)位論文 周剛 數(shù)

41、據(jù)挖掘中決策樹算法在客戶流失中的應(yīng)用研究 2006 數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中抽取出潛在的、不為人知的有用信息、模式和趨勢。其目的是提高市場決策能力、檢測異常模式、在過去的經(jīng)驗(yàn)基礎(chǔ)上 預(yù)言未來趨勢等等。它致力于數(shù)據(jù)分析和理解、揭示數(shù)據(jù)內(nèi)部蘊(yùn)藏知識(shí)的技術(shù),已成為未來信息技術(shù)應(yīng)用的重要目標(biāo)之一。經(jīng)過20多年的發(fā)展,數(shù)據(jù)挖 掘產(chǎn)生了許多新概念和方法。特別是最近幾年,一些基本概念和方法趨于清晰,它的研究正向著更深入的方向發(fā)展。 分類模式挖掘是數(shù)據(jù)挖掘中 的一種非常重要的方法,可以應(yīng)用于數(shù)據(jù)預(yù)測,可劃為決策樹學(xué)習(xí)、貝葉斯分類、遺傳算法和粗糙集等等。決策樹學(xué)習(xí)是以實(shí)例為基礎(chǔ)的歸納學(xué)習(xí)算法 。它著眼于從一組無

42、次序、無規(guī)則的事例中推理出決策樹表示形式的分類規(guī)則。它采用自頂向下的遞歸方式,在決策樹的內(nèi)部結(jié)點(diǎn)進(jìn)行屬性值的比較并 根據(jù)不同的屬性值判斷從該結(jié)點(diǎn)向下的分支,在決策樹的葉結(jié)點(diǎn)得到結(jié)論。 本文主要是研究數(shù)據(jù)挖掘中的決策樹算法以及決策樹算法在具體的小 靈通流失分析中的研究與分析。首先對(duì)數(shù)據(jù)挖掘技術(shù)的產(chǎn)生和發(fā)展現(xiàn)狀做了概括性的闡述,介紹了數(shù)據(jù)挖掘的概念、主要內(nèi)容、模式和主要問題,以及 數(shù)據(jù)挖掘的應(yīng)用和發(fā)展;接著對(duì)數(shù)據(jù)挖掘中的決策樹技術(shù)做了詳細(xì)的描述,介紹了決策樹中的經(jīng)典挖掘算法id3算法,在分析和總結(jié)了id3,c4.5算法的 基本性質(zhì)、性能和特點(diǎn)的基礎(chǔ)上,本文作者對(duì)經(jīng)典的c4.5算法進(jìn)行了一些改進(jìn),并

43、分析了改進(jìn)后的特點(diǎn)和效果。最后,針對(duì)電信業(yè)小靈通客戶流失的問 題,通過數(shù)據(jù)挖掘技術(shù)在大量的歷史數(shù)據(jù)中進(jìn)行挖掘分析,使用sas等工具,結(jié)合id3、c4.5以及改進(jìn)后的c4.5算法對(duì)樣本集進(jìn)行分析和比對(duì),進(jìn)行客戶 細(xì)分,挖掘出不同客戶群的業(yè)務(wù)特征,向公司建議,針對(duì)流失傾向較高的群體,并結(jié)合這些客戶對(duì)應(yīng)的客戶群特征,采取有針對(duì)性的客戶挽留策略。在 理論知識(shí)商業(yè)化應(yīng)用方面,本論文進(jìn)行了一次有意義的探索和嘗試。 7.學(xué)位論文 王惠坡 基于決策樹的貨票數(shù)據(jù)挖掘系統(tǒng)的研究 2003 隨著鐵路信息化技術(shù)的發(fā)展,作為鐵路信息系統(tǒng)子系統(tǒng)的貨票系統(tǒng)已經(jīng)積累了豐富的數(shù)據(jù).如何以較少的人力和技術(shù)成本,合理利用現(xiàn)有的貨票

44、信息資 源獲取有價(jià)值的決策信息,成為貨運(yùn)營銷和信息技術(shù)部門的一個(gè)工作重點(diǎn).數(shù)據(jù)挖掘技術(shù)的迅速發(fā)展,為鐵路貨運(yùn)營銷工作的深入分析奠定了良好的基礎(chǔ) ,但現(xiàn)有的數(shù)據(jù)挖掘工具大都基于數(shù)據(jù)倉庫、olap server或數(shù)據(jù)文件等,無法直接應(yīng)用于現(xiàn)有的貨票系統(tǒng)中.該課題針對(duì)目前鐵路信息系統(tǒng)不具有數(shù)據(jù)倉 庫的現(xiàn)狀和應(yīng)用人員數(shù)據(jù)庫技術(shù)有限的特點(diǎn),緊密結(jié)合鐵路貨運(yùn)營銷分析問題,采用數(shù)據(jù)挖掘技術(shù)的決策樹歸納方法,研究、設(shè)計(jì)了一個(gè)基于決策樹的以 oltp數(shù)據(jù)庫為數(shù)據(jù)源的數(shù)據(jù)挖掘系統(tǒng)hpminer.基本系統(tǒng)的研究和設(shè)計(jì)力圖集預(yù)處理、決策樹生成、分類規(guī)則提取、統(tǒng)計(jì)分析與預(yù)測為一體,能直接進(jìn) 行連續(xù)屬性的動(dòng)態(tài)離散化,該離

45、散化過程基于oltp數(shù)據(jù)庫,是面向具體的挖掘問題,從而降低了對(duì)源數(shù)據(jù)的要求;另一方面,離散化可直接面向應(yīng)用領(lǐng)域人員 ,可由用戶指定離散區(qū)間個(gè)數(shù)和設(shè)定閾值,從而極大地方便了用戶的使用,較好地適應(yīng)了貨票信息系統(tǒng)中數(shù)據(jù)的復(fù)雜性.hpminer系統(tǒng)基于決策樹分類算法 id3和c4.5的基本思想,系統(tǒng)的基本平臺(tái)是client/server結(jié)構(gòu),前臺(tái)使用vb.net語言開發(fā),后臺(tái)通過ado.net連接oracle或sql server數(shù)據(jù)庫,基本系統(tǒng)的設(shè) 計(jì)便于和貨票信息系統(tǒng)的集成,界面友好.該系統(tǒng)應(yīng)用于鐵路貨運(yùn)營銷分析,解決了保價(jià)運(yùn)輸收入分析和貨流去向分析等多個(gè)具體問題.hpminer系統(tǒng)的研究 將決策

46、樹分類技術(shù)與現(xiàn)有貨票信息系統(tǒng)有機(jī)地結(jié)合起來,使得應(yīng)用領(lǐng)域分析人員可以方便地挖掘出所希望的知識(shí),用于指導(dǎo)生產(chǎn);另一方面也為決策樹分類 技術(shù)的應(yīng)用研究開辟了新的領(lǐng)域. 8.學(xué)位論文 周燕 基于id3決策樹算法的醫(yī)療數(shù)據(jù)挖掘研究 2004 醫(yī)學(xué)領(lǐng)域已成為數(shù)據(jù)挖掘的一個(gè)重要領(lǐng)域.在當(dāng)前醫(yī)學(xué)中,存在大量的可以使用的歷史成功案例數(shù)據(jù),這些數(shù)據(jù)中蘊(yùn)含著很有實(shí)用價(jià)值的規(guī)則,醫(yī)生可 以利用這些規(guī)則對(duì)新的病人進(jìn)行輔助診斷,以提供其工作速度、準(zhǔn)確度與可靠性,并增強(qiáng)對(duì)問題的理解,或者用來訓(xùn)練沒有經(jīng)驗(yàn)的學(xué)生或相關(guān)人員.因此,研 究適用于醫(yī)學(xué)領(lǐng)域的數(shù)據(jù)挖掘具有重要的意義.決策樹(decision tree),就是一棵規(guī)則

47、樹.它利用樹的結(jié)構(gòu)將數(shù)據(jù)記錄進(jìn)行分類,樹的一個(gè)葉結(jié)點(diǎn)就代表某 個(gè)條件下的一個(gè)記錄集,根據(jù)記錄字段的不同取值建立樹的分支,在每個(gè)分支子集中重復(fù)建立下層結(jié)點(diǎn)和分支,便可生成一棵決策樹.決策樹的學(xué)習(xí)是以實(shí) 例為基礎(chǔ)的歸納學(xué)習(xí)算法.它著眼于從一組無次序、無規(guī)則的事例中推理出決策樹表示形式的分類規(guī)則.基于決策樹的學(xué)習(xí)算法的一個(gè)最大優(yōu)點(diǎn)就是它在 學(xué)習(xí)過程中不需要使用者了解太多的背景知識(shí),只要訓(xùn)練例子能夠用屬性一結(jié)論式的方式表達(dá)出來,就能使用該算法來學(xué)習(xí).在決策樹學(xué)習(xí)算法的各種算法 中,最為有影響的是ouinlan于1979年提出的以信息熵(entropy)取測試屬性的標(biāo)準(zhǔn)的id3算法.id3算法采取信息熵

48、原理選擇測試屬性分割樣本集,處理具有 離散型屬性和屬性值齊全的樣本,常常能生成結(jié)構(gòu)比較好,效率比較高的決策樹.本文主要分析設(shè)計(jì)了基于決策樹id3算法的醫(yī)療數(shù)據(jù)挖掘的方法,重點(diǎn)研究 了決策樹id3算法,并建立了一個(gè)基于決策樹id3算法的醫(yī)療數(shù)據(jù)挖掘系統(tǒng)原型,將本系統(tǒng)應(yīng)用于醫(yī)學(xué)數(shù)據(jù)集上可以獲得較好的效果,證實(shí)本文所探討的方法 具有一定的應(yīng)用價(jià)值.數(shù)據(jù)挖掘是一個(gè)處于不斷發(fā)展和完善的多學(xué)科研究領(lǐng)域,其理論本身及其在醫(yī)學(xué)領(lǐng)域中的應(yīng)用還存在很多問題值得探討.本文的研究 工作主要是針對(duì)是已經(jīng)轉(zhuǎn)化好的關(guān)系數(shù)據(jù)庫數(shù)據(jù),避開了復(fù)雜類型數(shù)據(jù)到關(guān)系數(shù)據(jù)庫數(shù)據(jù)這一轉(zhuǎn)化過程.因此,相關(guān)研究工作還需要進(jìn)一步深入. 9.學(xué)位

49、論文 林海 基于基因表達(dá)式編程的決策樹研究 2006 隨著數(shù)據(jù)庫技術(shù)的不斷發(fā)展及數(shù)據(jù)庫管理系統(tǒng)的廣泛應(yīng)用,數(shù)據(jù)庫中存儲(chǔ)的數(shù)據(jù)量急劇增大,在大量的數(shù)據(jù)背后隱藏著許多重要的信息。數(shù)據(jù)挖掘 就是利用分析工具從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取出隱含在其中、事先未知、但又潛在有用的信息和知識(shí)的過程,建立 數(shù)據(jù)間關(guān)系模型,并用其做出預(yù)測。近年來,數(shù)據(jù)挖掘受到了國內(nèi)外的普遍關(guān)注,己經(jīng)成為信息系統(tǒng)和計(jì)算機(jī)科學(xué)領(lǐng)域研究中最活躍的前沿領(lǐng)域。數(shù)據(jù) 挖掘已廣泛應(yīng)用于生物醫(yī)學(xué)、金融、零售業(yè)、電信業(yè)等領(lǐng)域,并產(chǎn)生了巨大的效益。 分類是數(shù)據(jù)挖掘中的一種非常重要的方法。它是在已有數(shù)據(jù) 的基礎(chǔ)上學(xué)會(huì)一個(gè)分

50、類函數(shù)或構(gòu)造出一個(gè)分類模型(即通常說的分類器)。該函數(shù)或模型能夠把數(shù)據(jù)庫中的數(shù)據(jù)項(xiàng)映射到給定類別中的某一個(gè),從而可以 應(yīng)用于數(shù)據(jù)預(yù)測。目前,分類已廣泛應(yīng)用于許多領(lǐng)域,如醫(yī)療診斷、天氣預(yù)測、信用證實(shí)、顧客區(qū)分、欺詐甄別。 現(xiàn)已有多種分類的方法,其中 決策樹分類法在海量數(shù)據(jù)環(huán)境中應(yīng)用最為廣泛。其原因如下:1、決策樹分類的直觀的表示方法較容易轉(zhuǎn)化為標(biāo)準(zhǔn)的數(shù)據(jù)庫查詢。2、決策樹分類歸納的 方法行之有效,尤其適合大型數(shù)據(jù)集。3、決策樹在分類過程中,除了數(shù)據(jù)集中己包括的信息外,不再需要額外的信息。4、決策樹分類模型的精確度較 高。 決策樹分類器是一個(gè)類似流程圖的樹型結(jié)構(gòu),其中樹的每個(gè)內(nèi)部結(jié)點(diǎn)代表對(duì)一個(gè)屬性(取值)的測試,其分支就代表測試的每個(gè)結(jié)果,而樹的 每個(gè)葉結(jié)點(diǎn)就代表一個(gè)類別。決策樹很容易用if-then規(guī)則進(jìn)行表達(dá)。決策樹模型是數(shù)據(jù)挖掘中最常用的一種方法。它能夠直接體現(xiàn)數(shù)據(jù)的特點(diǎn),便于理 解,具有較好的分類預(yù)測能力,并能方便提取決策規(guī)則。決策樹的生成過程也就是知識(shí)發(fā)現(xiàn)的過程,決策樹模型的復(fù)雜度和預(yù)測精度決定了決策樹的好 壞。決策樹是根據(jù)啟發(fā)規(guī)則生成的,常見的決策樹生成算法有基于信息論的id3

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論