




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)據(jù)挖掘原理與算法改2023/4/101第1頁(yè),共94頁(yè),2023年,2月20日,星期五分類是數(shù)據(jù)挖掘中重要的任務(wù)分類的目的是學(xué)會(huì)一個(gè)分類器(分類函數(shù)或模型),該分類器能把待分類的數(shù)據(jù)映射到給定的類別中。分類可用于預(yù)測(cè)。從利用歷史數(shù)據(jù)紀(jì)錄中自動(dòng)推導(dǎo)出對(duì)給定數(shù)據(jù)的推廣描述,從而能對(duì)未來(lái)數(shù)據(jù)進(jìn)行類預(yù)測(cè)。分類具有廣泛的應(yīng)用,例如醫(yī)療診斷、信用卡系統(tǒng)的信用分級(jí)、圖像模式識(shí)別等。分類器的構(gòu)造依據(jù)的方法很廣泛:統(tǒng)計(jì)方法:包括貝葉斯法和非參數(shù)法等。機(jī)器學(xué)習(xí)方法:包括決策樹(shù)法和規(guī)則歸納法。神經(jīng)網(wǎng)絡(luò)方法。其他,如粗糙集等(在前面緒論中也介紹了相關(guān)的情況)。2023/4/102第2頁(yè),共94頁(yè),2023年,2月20日,星期五分類方法的類型從使用的主要技術(shù)上看,可以把分類方法歸結(jié)為四種類型:基于距離的分類方法決策樹(shù)分類方法貝葉斯分類方法規(guī)則歸納方法。本章將擇選一些有代表性的方法和算法來(lái)介紹這四類分類方法。2023/4/103第3頁(yè),共94頁(yè),2023年,2月20日,星期五分類問(wèn)題的描述定義4-1給定一個(gè)數(shù)據(jù)庫(kù)D={t1,t2,…,tn}和一組類C={C1,…,Cm},分類問(wèn)題是去確定一個(gè)映射f:DC,使得每個(gè)元組ti被分配到一個(gè)類中。一個(gè)類Cj包含映射到該類中的所有元組,即Cj={ti|f(ti)=Cj,1≤i≤n,而且ti
D}。例如,把學(xué)生的百分制分?jǐn)?shù)分成A、B、C、D、F五類,就是一個(gè)分類問(wèn)題:D是包含百分制分?jǐn)?shù)在內(nèi)的學(xué)生信息,C={A、B、C、D、F}。解決分類問(wèn)題的關(guān)鍵是構(gòu)造一個(gè)合適的分類器:從數(shù)據(jù)庫(kù)到一組類別集的映射。一般地,這些類是被預(yù)先定義的、非交疊的。2023/4/104第4頁(yè),共94頁(yè),2023年,2月20日,星期五數(shù)據(jù)分類的兩個(gè)步驟1.建立一個(gè)模型,描述預(yù)定的數(shù)據(jù)類集或概念集數(shù)據(jù)元組也稱作樣本、實(shí)例或?qū)ο?。為建立模型而被分析的?shù)據(jù)元組形成訓(xùn)練數(shù)據(jù)集。訓(xùn)練數(shù)據(jù)集中的單個(gè)元組稱作訓(xùn)練樣本,由于提供了每個(gè)訓(xùn)練樣本的類標(biāo)號(hào),因此也稱作有指導(dǎo)的學(xué)習(xí)。通過(guò)分析訓(xùn)練數(shù)據(jù)集來(lái)構(gòu)造分類模型,可用分類規(guī)則、決策樹(shù)或數(shù)學(xué)公式等形式提供。2.使用模型進(jìn)行分類首先評(píng)估模型(分類法)的預(yù)測(cè)準(zhǔn)確率。如果認(rèn)為模型的準(zhǔn)確率可以接受,就可以用它對(duì)類標(biāo)號(hào)未知的數(shù)據(jù)元組或?qū)ο筮M(jìn)行分類。2023/4/105第5頁(yè),共94頁(yè),2023年,2月20日,星期五1)數(shù)據(jù)分類——一個(gè)兩步過(guò)程假定每個(gè)元組屬于一個(gè)預(yù)定義的類,由一個(gè)類標(biāo)號(hào)屬性確定訓(xùn)練數(shù)據(jù)集:由為建立模型而被分析的數(shù)據(jù)元組形成訓(xùn)練樣本:訓(xùn)練數(shù)據(jù)集中的單個(gè)樣本(元組)得到的學(xué)習(xí)模型可以用分類規(guī)則、判定樹(shù)或數(shù)學(xué)公式的形式表示然后評(píng)估模型,預(yù)測(cè)準(zhǔn)確率對(duì)每個(gè)測(cè)試樣本,將已知的類標(biāo)號(hào)和該樣本的學(xué)習(xí)模型類預(yù)測(cè)比較模型在給定測(cè)試集上的準(zhǔn)確率是正確被模型分類的測(cè)試樣本的百分比測(cè)試集要獨(dú)立于訓(xùn)練樣本集,否則會(huì)出現(xiàn)“過(guò)分適應(yīng)數(shù)據(jù)”的情況第二步,使用模型,對(duì)新的未知類的對(duì)象進(jìn)行分類第一步,建立一個(gè)模型,描述預(yù)定數(shù)據(jù)類集和概念集6第6頁(yè),共94頁(yè),2023年,2月20日,星期五AgeSalaryClass30highc125highc221lowc243highc118lowc233lowc1………描述屬性類別屬性2)分類問(wèn)題使用的數(shù)據(jù)集格式7第7頁(yè),共94頁(yè),2023年,2月20日,星期五描述屬性可以是連續(xù)型屬性,也可以是離散型屬性;而類別屬性必須是離散型屬性。連續(xù)型屬性是指在某一個(gè)區(qū)間或者無(wú)窮區(qū)間內(nèi)該屬性的取值是連續(xù)的,例如屬性“Age”離散型屬性是指該屬性的取值是不連續(xù)的,例如屬性“Salary”和“Class”8第8頁(yè),共94頁(yè),2023年,2月20日,星期五分類問(wèn)題中使用的訓(xùn)練數(shù)據(jù)樣本集可以表示為:X={(xi,yi)|i=1,2,…,total}xi=(xi1,xi2,…,xid),其中xi1,xi2,…,xid分別對(duì)應(yīng)d個(gè)描述屬性A1,A2,…,Ad的具體取值yi表示數(shù)據(jù)樣本xi的類標(biāo)號(hào),假設(shè)給定數(shù)據(jù)集包含m個(gè)類別,則yi∈{c1,c2,…,cm},其中c1,c2,…,cm是類別屬性C的具體取值未知類標(biāo)號(hào)的數(shù)據(jù)樣本x用d維特征向量:
x=(x1,x2,…,xd)
來(lái)表示。9第9頁(yè),共94頁(yè),2023年,2月20日,星期五3)有指導(dǎo)的學(xué)習(xí)VS.無(wú)指導(dǎo)的學(xué)習(xí)1)有指導(dǎo)的學(xué)習(xí)(用于分類)模型的學(xué)習(xí)在被告知每個(gè)訓(xùn)練樣本屬于哪個(gè)類的“指導(dǎo)”下進(jìn)行新數(shù)據(jù)使用訓(xùn)練數(shù)據(jù)集中得到的規(guī)則進(jìn)行分類2)無(wú)指導(dǎo)的學(xué)習(xí)(用于聚類)每個(gè)訓(xùn)練樣本的類編號(hào)是未知的,要學(xué)習(xí)的類集合或數(shù)量也可能是事先未知的通過(guò)一系列的度量、觀察來(lái)建立數(shù)據(jù)中的類編號(hào)或進(jìn)行聚類10第10頁(yè),共94頁(yè),2023年,2月20日,星期五5.2分類問(wèn)題概述
分類的過(guò)程獲取數(shù)據(jù)預(yù)處理分類器設(shè)計(jì)分類決策11第11頁(yè),共94頁(yè),2023年,2月20日,星期五第一步——建立模型訓(xùn)練數(shù)據(jù)集分類算法IFrank=‘professor’ORyears>6THENtenured=‘yes’分類規(guī)則12第12頁(yè),共94頁(yè),2023年,2月20日,星期五分類規(guī)則測(cè)試集Tenured?評(píng)估已建立的模型IFrank=‘professor’ORyears>6THENtenured=‘yes’準(zhǔn)確率?13第13頁(yè),共94頁(yè),2023年,2月20日,星期五第二步——用模型進(jìn)行分類分類規(guī)則未知數(shù)據(jù)(Jeff,Professor,4)Tenured?IFrank=‘professor’ORyears>6THENtenured=‘yes’14第14頁(yè),共94頁(yè),2023年,2月20日,星期五獲取數(shù)據(jù)輸入數(shù)據(jù)、對(duì)數(shù)據(jù)進(jìn)行量化預(yù)處理去除噪聲數(shù)據(jù)、對(duì)空缺值進(jìn)行處理數(shù)據(jù)集成或者變換分類器設(shè)計(jì)劃分?jǐn)?shù)據(jù)集、分類器構(gòu)造、分類器測(cè)試分類決策對(duì)未知類標(biāo)號(hào)的數(shù)據(jù)樣本進(jìn)行分類15第15頁(yè),共94頁(yè),2023年,2月20日,星期五給定測(cè)試集Xtest={(xi,yi)|i=1,2,…,N}N表示測(cè)試集中的樣本個(gè)數(shù)xi表示測(cè)試集中的數(shù)據(jù)樣本yi表示數(shù)據(jù)樣本xi的類標(biāo)號(hào)對(duì)于測(cè)試集的第j個(gè)類別,假設(shè)被正確分類的樣本數(shù)量為T(mén)Pj被錯(cuò)誤分類的樣本數(shù)量為FNj其他類別被錯(cuò)誤分類為該類的樣本數(shù)據(jù)量為FPj分類的評(píng)價(jià)準(zhǔn)則16第16頁(yè),共94頁(yè),2023年,2月20日,星期五精確度:代表測(cè)試集中被正確分類的數(shù)據(jù)樣本所占的比例17第17頁(yè),共94頁(yè),2023年,2月20日,星期五查全率:表示在本類樣本中被正確分類的樣本所占的比例查準(zhǔn)率:表示被分類為該類的樣本中,真正屬于該類的樣本所占的比例18第18頁(yè),共94頁(yè),2023年,2月20日,星期五F-measure:是查全率和查準(zhǔn)率的組合表達(dá)式β是可以調(diào)節(jié)的,通常取值為119第19頁(yè),共94頁(yè),2023年,2月20日,星期五幾何均值:是各個(gè)類別的查全率的平方根
20第20頁(yè),共94頁(yè),2023年,2月20日,星期五第三章分類方法
內(nèi)容提要分類的基本概念與步驟基于距離的分類算法
決策樹(shù)分類方法貝葉斯分類規(guī)則歸納與分類有關(guān)的問(wèn)題2023/4/1021第21頁(yè),共94頁(yè),2023年,2月20日,星期五基于距離的分類算法的思路定義4-2給定一個(gè)數(shù)據(jù)庫(kù)D={t1,t2,…,tn}和一組類C={C1,…,Cm}。假定每個(gè)元組包括一些數(shù)值型的屬性值:ti={ti1,ti2,…,tik},每個(gè)類也包含數(shù)值性屬性值:Cj={Cj1,Cj2,…,Cjk},則分類問(wèn)題是要分配每個(gè)ti到滿足如下條件的類Cj:sim(ti,Cj)>=sim(ti,Cl),Cl∈C,Cl≠Cj,其中sim(ti,Cj)被稱為相似性。在實(shí)際的計(jì)算中往往用距離來(lái)表征,距離越近,相似性越大,距離越遠(yuǎn),相似性越小。距離的計(jì)算方法有多種,最常用的是通過(guò)計(jì)算每個(gè)類的中心來(lái)完成。2023/4/1022第22頁(yè),共94頁(yè),2023年,2月20日,星期五基于距離的分類算法的一般性描述算法4-1通過(guò)對(duì)每個(gè)元組和各個(gè)類的中心來(lái)比較,從而可以找出他的最近的類中心,得到確定的類別標(biāo)記。算法4-1基于距離的分類算法輸入:每個(gè)類的中心C1,…,Cm;待分類的元組t。輸出:輸出類別c。(1)dist=∞;//距離初始化(2)FORi:=1tomDO(3) IFdis(ci,t)<distTHENBEGIN(4) c←i;(5) dist←dist(ci,t);(6) END.2023/4/1023第23頁(yè),共94頁(yè),2023年,2月20日,星期五基于距離的分類方法的直觀解釋(a)類定義(b)待分類樣例(c)分類結(jié)果2023/4/1024第24頁(yè),共94頁(yè),2023年,2月20日,星期五KNN的例子
姓名 性別 身高(米) 類別 1Kristina 女 1.6 矮 2Jim 男 2 高 3Maggie 女 1.9 中等 4Martha 女 1.88 中等 5Stephanie 女1.7 矮 6Bob 男 1.85 中等 7Kathy 女1.6 矮 8Dave 男 1.7 矮 9Worth 男 2.2 高 10Steven 男2.1 高 11Debbie 女1.8 中等 12Todd 男1.95 中等 13Kim 女1.9 中等 14Amy 女1.8 中等 15Wynette 女1.75 中等 2023/4/1025第25頁(yè),共94頁(yè),2023年,2月20日,星期五KNN的例子“高度”用于計(jì)算距離,K=5,對(duì)<Pat,女,1.6>分類。
對(duì)T前K=5個(gè)記錄,N={<Kristina,女,1.6>、<Jim,男,2>、<Maggie,女,1.9>、<Martha,女,1.88>和<Stephanie,女,1.7>}。對(duì)第6個(gè)記錄d=<Bob,男,1.85>,得到N={<Kristina,女,1.6>、<Bob,男,1.85>、<Maggie,女,1.9>、<Martha,女,1.88>和<Stephanie,女,1.7>}。對(duì)第7個(gè)記錄d=<Kathy,女,1.6>,得到N={<Kristina,女,1.6>、<Bob,男,1.85>、<Kathy,女,1.6>、<Martha,女,1.88>和<Stephanie,女,1.7>}。對(duì)第8個(gè)記錄d=<Dave,男,1.7>,得到N={<Kristina,女,1.6>、<Dave,男,1.7>、<Kathy,女,1.6>、<Martha,女,1.88>和<Stephanie,女,1.7>}。對(duì)第9和10個(gè)記錄,沒(méi)變化。對(duì)第11個(gè)記錄d=<Debbie,女,1.8>,得到N={<Kristina,女,1.6>、<Dave,男,1.7>、<Kathy,女,1.6>、<Debbie,女,1.8>和<Stephanie,女,1.7>}。對(duì)第12到14個(gè)記錄,沒(méi)變化。對(duì)第15個(gè)記錄d=<Wynette,女,1.75>,得到N={<Kristina,女,1.6>、<Dave,男,1.7>、<Kathy,女,1.6>、<Wynette,女,1.75>和<Stephanie,女,1.7>}。最后的輸出元組是<Kristina,女,1.6>、<Kathy,女,1.6>、<Stephanie,女,1.7>、<Dave,男,1.7>和<Wynette,女,1.75>。在這五項(xiàng)中,四個(gè)屬于矮個(gè)、一個(gè)屬于中等。最終KNN方法認(rèn)為Pat為矮個(gè)。<Wynette,女,1.75>。2023/4/1026第26頁(yè),共94頁(yè),2023年,2月20日,星期五第三章分類方法
內(nèi)容提要分類的基本概念與步驟基于距離的分類算法決策樹(shù)分類方法
貝葉斯分類規(guī)則歸納與分類有關(guān)的問(wèn)題2023/4/1027第27頁(yè),共94頁(yè),2023年,2月20日,星期五決策樹(shù)表示與例子決策樹(shù)(DecisionTree)的每個(gè)內(nèi)部結(jié)點(diǎn)表示在一個(gè)屬性上的測(cè)試,每個(gè)分枝代表一個(gè)測(cè)試輸出,而每個(gè)樹(shù)葉結(jié)點(diǎn)代表類或類分布。樹(shù)的最頂層結(jié)點(diǎn)是根結(jié)點(diǎn)。
buys_computer的決策樹(shù)示意2023/4/1028第28頁(yè),共94頁(yè),2023年,2月20日,星期五適用于離散值屬性、連續(xù)值屬性采用自頂向下的遞歸方式產(chǎn)生一個(gè)類似于流程圖的樹(shù)結(jié)構(gòu)在根節(jié)點(diǎn)和各內(nèi)部節(jié)點(diǎn)上選擇合適的描述屬性,并且根據(jù)該屬性的不同取值向下建立分枝決策樹(shù)的基本概念29第29頁(yè),共94頁(yè),2023年,2月20日,星期五公司職員年齡收入信譽(yù)度買保險(xiǎn)否≤40高良c2否≤40高優(yōu)c2否41~50高良c1否>50中良c1是>50低良c1是>50低優(yōu)c2是41~50低優(yōu)c1否≤40中良c2是≤40低良c1是>50中良c1是≤40中優(yōu)c1否41~50中優(yōu)c1是41~50高良c1否>50中優(yōu)c2描述屬性類別屬性30第30頁(yè),共94頁(yè),2023年,2月20日,星期五在給定已知類標(biāo)號(hào)的數(shù)據(jù)集的情況下,決策樹(shù)采用自頂向下的遞歸方式產(chǎn)生一個(gè)類似于流程圖的樹(shù)結(jié)構(gòu)。樹(shù)的最頂點(diǎn)稱為根結(jié)點(diǎn);最底層結(jié)點(diǎn)稱為葉結(jié)點(diǎn),每個(gè)葉結(jié)點(diǎn)代表樣本的類別或者類分布;根結(jié)點(diǎn)和葉結(jié)點(diǎn)之間的結(jié)點(diǎn)成為內(nèi)部結(jié)點(diǎn)。決策樹(shù)在根節(jié)點(diǎn)和各內(nèi)部節(jié)點(diǎn)上選擇合適的描述屬性,并且根據(jù)該屬性的不同取值向下建立分枝。對(duì)未知類標(biāo)號(hào)的數(shù)據(jù)樣本進(jìn)行分類時(shí),從根結(jié)點(diǎn)開(kāi)始逐層向下判斷,直到葉結(jié)點(diǎn),這樣就可以得到該數(shù)據(jù)樣本的類標(biāo)號(hào)。
31第31頁(yè),共94頁(yè),2023年,2月20日,星期五在給定已知類標(biāo)號(hào)的數(shù)據(jù)集的情況下,決策樹(shù)采用自頂向下的遞歸方式產(chǎn)生一個(gè)類似于流程圖的樹(shù)結(jié)構(gòu)。樹(shù)的最頂點(diǎn)稱為根結(jié)點(diǎn);最底層結(jié)點(diǎn)稱為葉結(jié)點(diǎn),每個(gè)葉結(jié)點(diǎn)代表樣本的類別或者類分布;根結(jié)點(diǎn)和葉結(jié)點(diǎn)之間的結(jié)點(diǎn)成為內(nèi)部結(jié)點(diǎn)。決策樹(shù)在根節(jié)點(diǎn)和各內(nèi)部節(jié)點(diǎn)上選擇合適的描述屬性,并且根據(jù)該屬性的不同取值向下建立分枝。對(duì)未知類標(biāo)號(hào)的數(shù)據(jù)樣本進(jìn)行分類時(shí),從根結(jié)點(diǎn)開(kāi)始逐層向下判斷,直到葉結(jié)點(diǎn),這樣就可以得到該數(shù)據(jù)樣本的類標(biāo)號(hào)。
32第32頁(yè),共94頁(yè),2023年,2月20日,星期五年齡公司職員信譽(yù)度c1c2c1c2c1≤4041~50>50是否良優(yōu)33第33頁(yè),共94頁(yè),2023年,2月20日,星期五IF年齡
=“<=40”AND公司雇員
=“no”THEN買保險(xiǎn)
=“C2”IF年齡=“<=40”AND公司雇員
=“yes”THEN買保險(xiǎn)
=“C1”IF年齡=“41…50” THEN買保險(xiǎn)
=“C1”IF年齡=“>50”AND信譽(yù)度
=“優(yōu)”THEN買保險(xiǎn)
=“C1”IF年齡=“>50”AND信譽(yù)度
=“良”THEN買保險(xiǎn)
=“C2”判定樹(shù)可以通過(guò)如下的IF----THEN分類規(guī)則來(lái)表示。34第34頁(yè),共94頁(yè),2023年,2月20日,星期五決策樹(shù)的各部分是:
根:
學(xué)習(xí)的事例集.
枝:
分類的判定條件.
葉:
分好的各個(gè)類.2023/4/1035第35頁(yè),共94頁(yè),2023年,2月20日,星期五決策樹(shù)分類的特點(diǎn)決策樹(shù)分類方法采用自頂向下的遞歸方式,在決策樹(shù)的內(nèi)部結(jié)點(diǎn)進(jìn)行屬性值的比較并根據(jù)不同的屬性值判斷從該結(jié)點(diǎn)向下的分枝,在決策樹(shù)的葉結(jié)點(diǎn)得到結(jié)論。所以從決策樹(shù)的根到葉結(jié)點(diǎn)的一條路徑就對(duì)應(yīng)著一條合取規(guī)則,整棵決策樹(shù)就對(duì)應(yīng)著一組析取表達(dá)式規(guī)則?;跊Q策樹(shù)的分類算法的一個(gè)最大的優(yōu)點(diǎn)就是它在學(xué)習(xí)過(guò)程中不需要使用者了解很多背景知識(shí)(這同時(shí)也是它的最大的缺點(diǎn)),只要訓(xùn)練例子能夠用屬性-結(jié)論式表示出來(lái),就能使用該算法來(lái)學(xué)習(xí)。決策樹(shù)分類模型的建立通常分為兩個(gè)步驟:決策樹(shù)生成開(kāi)始,數(shù)據(jù)都在根節(jié)點(diǎn)遞歸的進(jìn)行數(shù)據(jù)分片決策樹(shù)修剪。去掉一些可能是噪音或者異常的數(shù)據(jù)2023/4/1036第36頁(yè),共94頁(yè),2023年,2月20日,星期五決策樹(shù)生成算法描述算法4-3Generate_decision_tree(samples,attribute_list)/*決策樹(shù)生成算法*/輸入:訓(xùn)練樣本samples,由離散值屬性表示;候選屬性的集合attribute_list。輸出:一棵決策樹(shù)。(1)創(chuàng)建結(jié)點(diǎn)N;(2)
IF
samples
都在同一個(gè)類C
THEN
返回N
作為葉結(jié)點(diǎn),以類C標(biāo)記;(3)
IFattribute_list為空
THEN
返回N作為葉結(jié)點(diǎn),標(biāo)記為samples中最普通的類;//多數(shù)表決(4)選擇attribute_list中具有最高信息增益的屬性test_attribute;(5)標(biāo)記結(jié)點(diǎn)N為test_attribute;(6)
FOReachtest_attribute中的已知值ai由結(jié)點(diǎn)N長(zhǎng)出一個(gè)條件為test_attribute=ai的分枝;(7)設(shè)si是samples中test_attribute=ai的樣本的集合;//一個(gè)劃分(8)IF
si為空
THEN
加上一個(gè)樹(shù)葉,標(biāo)記為samples中最普通的類;(9)ELSE
加上一個(gè)由Generate_decision_tree(si,attribute_list-test_attribute)返回的結(jié)點(diǎn);2023/4/1037第37頁(yè),共94頁(yè),2023年,2月20日,星期五決策樹(shù)生成算法描述構(gòu)造好的決策樹(shù)的關(guān)鍵在于如何選擇好的屬性進(jìn)行樹(shù)的拓展。研究結(jié)果表明,一般情況下或具有較大概率地說(shuō),樹(shù)越小則樹(shù)的預(yù)測(cè)能力越強(qiáng)。由于構(gòu)造最小的樹(shù)是NP-難問(wèn)題,因此只能采取用啟發(fā)式策略來(lái)進(jìn)行。屬性選擇依賴于各種對(duì)例子子集的不純度(Impurity)度量方法,包括信息增益(InformatinGain)、信息增益比(GainRatio)、Gini-index、距離度量(DistanceMeasure)、J-measure、G統(tǒng)計(jì)、χ2統(tǒng)計(jì)、證據(jù)權(quán)重(WeightofEvidence)、最小描述長(zhǎng)度(MLP)、正交法(OrtogonalityMeasure)、相關(guān)度(Relevance)和Relief等。2023/4/1038第38頁(yè),共94頁(yè),2023年,2月20日,星期五決策樹(shù)修剪算法基本的決策樹(shù)構(gòu)造算法沒(méi)有考慮噪聲,因此生成的決策樹(shù)完全與訓(xùn)練例子擬合。在有噪聲情況下,將導(dǎo)致過(guò)分?jǐn)M合(Overfitting),即對(duì)訓(xùn)練數(shù)據(jù)的完全擬合反而使對(duì)現(xiàn)實(shí)數(shù)據(jù)的分類預(yù)測(cè)性能下降?,F(xiàn)實(shí)世界的數(shù)據(jù)一般不可能是完美的,可能缺值(MissingValues);數(shù)據(jù)不完整;含有噪聲甚至是錯(cuò)誤的。剪枝是一種克服噪聲的基本技術(shù),同時(shí)它也能使樹(shù)得到簡(jiǎn)化而變得更容易理解。有兩種基本的剪枝策略:預(yù)先剪枝(Pre-Pruning):在生成樹(shù)的同時(shí)決定是繼續(xù)對(duì)不純的訓(xùn)練子集進(jìn)行劃分還是停機(jī)。后剪枝(Post-Pruning):是一種擬合+化簡(jiǎn)(fitting-and-simplifying)的兩階段方法。首先生成與訓(xùn)練數(shù)據(jù)完全擬合的一棵決策樹(shù),然后從樹(shù)的葉子開(kāi)始剪枝,逐步向根的方向剪。剪枝時(shí)要用到一個(gè)測(cè)試數(shù)據(jù)集合(TuningSet或AdjustingSet),如果存在某個(gè)葉子剪去后能使得在測(cè)試集上的準(zhǔn)確度或其他測(cè)度不降低(不變得更壞),則剪去該葉子;否則停機(jī)。理論上講,后剪枝好于預(yù)先剪枝,但計(jì)算復(fù)雜度大。剪枝過(guò)程中一般要涉及一些統(tǒng)計(jì)參數(shù)或閾值(如停機(jī)閾值)。要防止過(guò)分剪枝(Over-Pruning)帶來(lái)的副作用。2023/4/1039第39頁(yè),共94頁(yè),2023年,2月20日,星期五ID3算法ID3是Quinlan提出的一個(gè)著名決策樹(shù)生成方法:決策樹(shù)中每一個(gè)非葉結(jié)點(diǎn)對(duì)應(yīng)著一個(gè)非類別屬性,樹(shù)枝代表這個(gè)屬性的值。一個(gè)葉結(jié)點(diǎn)代表從樹(shù)根到葉結(jié)點(diǎn)之間的路徑對(duì)應(yīng)的記錄所屬的類別屬性值。每一個(gè)非葉結(jié)點(diǎn)都將與屬性中具有最大信息量的非類別屬性相關(guān)聯(lián)。采用信息增益來(lái)選擇能夠最好地將樣本分類的屬性。為了聚焦重點(diǎn),將對(duì)ID3算法采用如下方式講解:偽代碼詳細(xì)描述見(jiàn)課本;給出信息增益對(duì)應(yīng)的計(jì)算公式;通過(guò)一個(gè)例子來(lái)說(shuō)明它的主要過(guò)程。2023/4/1040第40頁(yè),共94頁(yè),2023年,2月20日,星期五信息增益的計(jì)算設(shè)S是s個(gè)數(shù)據(jù)樣本的集合,定義m個(gè)不同類Ci(i=1,2,…,m),設(shè)si是Ci類中的樣本數(shù)。對(duì)給定的樣本S所期望的信息值由下式給出:其中pi是任意樣本屬于Ci的概率:si
/s。設(shè)屬性A具有個(gè)不同值{a1,a2,…,av},可以用屬性A將樣本S劃分為{S1,S2,…,Sv},設(shè)sij是Sj中Ci類的樣本數(shù),則由A劃分成子集的熵由下式給出:有A進(jìn)行分枝將獲得的信息增益可以由下面的公式得到:2023/4/1041第41頁(yè),共94頁(yè),2023年,2月20日,星期五例:表1為一個(gè)商場(chǎng)顧客數(shù)據(jù)庫(kù)。例:表1為一個(gè)商場(chǎng)顧客數(shù)據(jù)庫(kù)樣本集合的類別屬性為:”buy_computer”2023/4/1042第42頁(yè),共94頁(yè),2023年,2月20日,星期五2023/4/1043第43頁(yè),共94頁(yè),2023年,2月20日,星期五ID3算法1.概念提取算法CLS
1)
初始化參數(shù)C={E},E包括所有的例子,為根.
2)
IF
C中的任一元素e同屬于同一個(gè)決策類則創(chuàng)建一個(gè)葉子
節(jié)點(diǎn)YES終止.
ELSE
依啟發(fā)式標(biāo)準(zhǔn),選擇特Fi={V1,V2,V3,...Vn}并創(chuàng)建
判定節(jié)點(diǎn)
劃分C為互不相交的N個(gè)集合C1,C2,C3,...,Cn;
3)
對(duì)任一個(gè)Ci遞歸.2023/4/1044第44頁(yè),共94頁(yè),2023年,2月20日,星期五ID3算法1)
隨機(jī)選擇C的一個(gè)子集W
(窗口).
2)
調(diào)用CLS生成W的分類樹(shù)DT(強(qiáng)調(diào)的啟發(fā)式標(biāo)準(zhǔn)在后).
3)
順序掃描C搜集DT的意外(即由DT無(wú)法確定的例子).
4)
組合W與已發(fā)現(xiàn)的意外,形成新的W.
5)
重復(fù)2)到4),直到無(wú)例外為止.2023/4/1045第45頁(yè),共94頁(yè),2023年,2月20日,星期五啟發(fā)式標(biāo)準(zhǔn):只跟本身與其子樹(shù)有關(guān),采取信息理論用熵來(lái)量度.
熵是選擇事件時(shí)選擇自由度的量度,其計(jì)算方法為
P
=
freq(Cj,S)/|S|;
INFO(S)=
-
SUM(
P*LOG(P)
)
;
SUM()函數(shù)是求j從1到n和.
Gain(X)=Info(X)-Infox(X);
Infox(X)=SUM(
(|Ti|/|T|)*Info(X);
為保證生成的決策樹(shù)最小,ID3算法在生成子樹(shù)時(shí),選取使生成的子樹(shù)的熵(即Gain(S))最小的的特征來(lái)生成子樹(shù).2023/4/1046第46頁(yè),共94頁(yè),2023年,2月20日,星期五ID3算法對(duì)數(shù)據(jù)的要求1.
所有屬性必須為離散量.
2.
所有的訓(xùn)練例的所有屬性必須有一個(gè)明確的值.
3.
相同的因素必須得到相同的結(jié)論且訓(xùn)練例必須唯一.2023/4/1047第47頁(yè),共94頁(yè),2023年,2月20日,星期五ID3算法例子樣本數(shù)據(jù) warm_blooded feathers fur swims lays_eggs
1 1 1 0 0 1
2 0 0 0 1 1 3 1 1 0 0 1 4 1 1 0 0 1 5 1 0 0 1 0
6 1 0 1 0 0 假設(shè)目標(biāo)分類屬性是lays_eggs,計(jì)算Gain(lays_eggs):
warm_blooded=1,warm_blooded=0,類似的,Gain(feathers)=0.459;Gain(fur)=0.316;Gain(swims)=0.044。由于feathers在屬性中具有最高的信息增益,所以它首先被選作測(cè)試屬性。并以此創(chuàng)建一個(gè)結(jié)點(diǎn),數(shù)據(jù)集被劃分成兩個(gè)子集。2023/4/1048第48頁(yè),共94頁(yè),2023年,2月20日,星期五ID3算法例子(續(xù))根據(jù)feathers的取值,數(shù)據(jù)集被劃分成兩個(gè)子集對(duì)于feathers=1的所有元組,其目標(biāo)分類屬性=lays_eggs均為1。所以,得到一個(gè)葉子結(jié)點(diǎn)。對(duì)于feathers=0的右子樹(shù),計(jì)算其他屬性信息增益:Gain(warm_blooded)=0.918Gain(fur)=0.318Gain(swims)=0.318根據(jù)warm_blooded的取值,左右子樹(shù)均可得到葉子結(jié)點(diǎn),結(jié)束。2023/4/1049第49頁(yè),共94頁(yè),2023年,2月20日,星期五ID3算法的性能分析ID3算法的假設(shè)空間包含所有的決策樹(shù),它是關(guān)于現(xiàn)有屬性的有限離散值函數(shù)的一個(gè)完整空間。所以ID3算法避免了搜索不完整假設(shè)空間的一個(gè)主要風(fēng)險(xiǎn):假設(shè)空間可能不包含目標(biāo)函數(shù)。ID3算法在搜索的每一步都使用當(dāng)前的所有訓(xùn)練樣例,大大降低了對(duì)個(gè)別訓(xùn)練樣例錯(cuò)誤的敏感性。因此,通過(guò)修改終止準(zhǔn)則,可以容易地?cái)U(kuò)展到處理含有噪聲的訓(xùn)練數(shù)據(jù)。ID3算法在搜索過(guò)程中不進(jìn)行回溯。所以,它易受無(wú)回溯的爬山搜索中的常見(jiàn)風(fēng)險(xiǎn)影響:收斂到局部最優(yōu)而不是全局最優(yōu)。ID3算法只能處理離散值的屬性。信息增益度量存在一個(gè)內(nèi)在偏置,它偏袒具有較多值的屬性。例如,如果有一個(gè)屬性為日期,那么將有大量取值,這個(gè)屬性可能會(huì)有非常高的信息增益。假如它被選作樹(shù)的根結(jié)點(diǎn)的決策屬性則可能形成一顆非常寬的樹(shù),這棵樹(shù)可以理想地分類訓(xùn)練數(shù)據(jù),但是對(duì)于測(cè)試數(shù)據(jù)的分類性能可能會(huì)相當(dāng)差。ID3算法增長(zhǎng)樹(shù)的每一個(gè)分支的深度,直到恰好能對(duì)訓(xùn)練樣例完美地分類。當(dāng)數(shù)據(jù)中有噪聲或訓(xùn)練樣例的數(shù)量太少時(shí),產(chǎn)生的樹(shù)會(huì)過(guò)渡擬合訓(xùn)練樣例。2023/4/1050第50頁(yè),共94頁(yè),2023年,2月20日,星期五C4.5算法對(duì)ID3的主要改進(jìn)C4.5算法是從ID3算法演變而來(lái),除了擁有ID3算法的功能外,C4.5算法引入了新的方法和增加了新的功能:用信息增益比例的概念;合并具有連續(xù)屬性的值;可以處理具有缺少屬性值的訓(xùn)練樣本;通過(guò)使用不同的修剪技術(shù)以避免樹(shù)的過(guò)度擬合;K交叉驗(yàn)證;規(guī)則的產(chǎn)生方式等。2023/4/1051第51頁(yè),共94頁(yè),2023年,2月20日,星期五信息增益比例的概念信息增益比例是在信息增益概念基礎(chǔ)上發(fā)展起來(lái)的,一個(gè)屬性的信息增益比例用下面的公式給出:其中假如我們以屬性A的值為基準(zhǔn)對(duì)樣本進(jìn)行分割的化,Splitl(A)就是前面熵的概念。
2023/4/1052第52頁(yè),共94頁(yè),2023年,2月20日,星期五C4.5處理連續(xù)值的屬性對(duì)于連續(xù)屬性值,C4.5其處理過(guò)程如下:根據(jù)屬性的值,對(duì)數(shù)據(jù)集排序;用不同的閾值將數(shù)據(jù)集動(dòng)態(tài)的進(jìn)行劃分;當(dāng)輸出改變時(shí)確定一個(gè)閾值;取兩個(gè)實(shí)際值中的中點(diǎn)作為一個(gè)閾值;取兩個(gè)劃分,所有樣本都在這兩個(gè)劃分中;得到所有可能的閾值、增益及增益比;在每一個(gè)屬性會(huì)變?yōu)槿蓚€(gè)取值,即小于閾值或大于等于閾值。簡(jiǎn)單地說(shuō),針對(duì)屬性有連續(xù)數(shù)值的情況,則在訓(xùn)練集中可以按升序方式排列。如果屬性A共有n種取值,則對(duì)每個(gè)取值vj(j=1,2,┄,n),將所有的記錄進(jìn)行劃分:一部分小于vj;另一部分則大于或等于vj。針對(duì)每個(gè)vj計(jì)算劃分對(duì)應(yīng)的增益比率,選擇增益最大的劃分來(lái)對(duì)屬性A進(jìn)行離散化。2023/4/1053第53頁(yè),共94頁(yè),2023年,2月20日,星期五C4.5的其他處理
C4.5處理的樣本中可以含有未知屬性值,其處理方法是用最常用的值替代或者是將最常用的值分在同一類中。具體采用概率的方法,依據(jù)屬性已知的值,對(duì)屬性和每一個(gè)值賦予一個(gè)概率,取得這些概率,取得這些概率依賴于該屬性已知的值。規(guī)則的產(chǎn)生:一旦樹(shù)被建立,就可以把樹(shù)轉(zhuǎn)換成if-then規(guī)則。規(guī)則存儲(chǔ)于一個(gè)二維數(shù)組中,每一行代表樹(shù)中的一個(gè)規(guī)則,即從根到葉之間的一個(gè)路徑。表中的每列存放著樹(shù)中的結(jié)點(diǎn)。2023/4/1054第54頁(yè),共94頁(yè),2023年,2月20日,星期五C4.5算法例子樣本數(shù)據(jù)Outlook Temperature Humidity Wind PlayTennis Sunny Hot 85 false No
Sunny Hot 90 true No Overcast Hot 78 false Yes
Rain Mild 96 false Yes Rain Cool 80 false Yes
Rain Cool 70 true No Overcast Cool 65 true Yes
Sunny Mild 95 false No
Sunny Cool 70 false Yes
Rain Mild 80 false Yes Sunny Mild 70 true Yes
Overcast Mild 90 true Yes Overcast Hot 75 false Yes
Rain Mild 80 true No(1)首先對(duì)Humidity進(jìn)行屬性離散化,針對(duì)上面的訓(xùn)練集合,通過(guò)檢測(cè)每個(gè)劃分而確定最好的劃分在75處,則這個(gè)屬性的范圍就變?yōu)閧(<=75,>75)}。(2)計(jì)算目標(biāo)屬性PlayTennis分類的期望信息:
(3)計(jì)算每個(gè)屬性的GainRatio:
(4)選取最大的GainRatio,根據(jù)Outlook的取值,將三分枝。(5)再擴(kuò)展各分枝節(jié)點(diǎn),得到最終的決策樹(shù)(見(jiàn)課本圖4-7)。2023/4/1055第55頁(yè),共94頁(yè),2023年,2月20日,星期五例2銀行在處理一批客戶的信貸活動(dòng)中,確定是否對(duì)具備貸款條件的客戶發(fā)放貸款,存在決策分析問(wèn)題。在客戶信息表中去一些不必要的屬性,保留收入、客戶年齡、信譽(yù)度、貸款期限和準(zhǔn)予貸款5個(gè)屬性,樣本數(shù)據(jù)集如下表:2023/4/1056第56頁(yè),共94頁(yè),2023年,2月20日,星期五2023/4/1057第57頁(yè),共94頁(yè),2023年,2月20日,星期五2023/4/1058第58頁(yè),共94頁(yè),2023年,2月20日,星期五2023/4/1059第59頁(yè),共94頁(yè),2023年,2月20日,星期五2023/4/1060第60頁(yè),共94頁(yè),2023年,2月20日,星期五第三章分類方法
內(nèi)容提要分類的基本概念與步驟基于距離的分類算法決策樹(shù)分類方法貝葉斯分類
規(guī)則歸納與分類有關(guān)的問(wèn)題2023/4/1061第61頁(yè),共94頁(yè),2023年,2月20日,星期五貝葉斯分類是統(tǒng)計(jì)學(xué)的分類方法,其分析方法的特點(diǎn)是使用概率來(lái)表示所有形式的不確定性,學(xué)習(xí)或推理都用概率規(guī)則來(lái)實(shí)現(xiàn);樸素貝葉斯分類:假定一個(gè)屬性值對(duì)給定類的影響?yīng)毩⒂谄渌麑傩缘闹?;貝葉斯網(wǎng)絡(luò):是用來(lái)表示變量間連接概率的圖形模式,它提供了一種自然的表示因果信息的方法,用來(lái)發(fā)現(xiàn)數(shù)據(jù)間的潛在關(guān)系。2023/4/1062第62頁(yè),共94頁(yè),2023年,2月20日,星期五對(duì)分類方法進(jìn)行比較的有關(guān)研究結(jié)果表明:簡(jiǎn)單貝葉斯分類器(稱為基本貝葉斯分類器)在分類性能上與決策樹(shù)和神經(jīng)網(wǎng)絡(luò)都是可比的。在處理大規(guī)模數(shù)據(jù)庫(kù)時(shí),貝葉斯分類器已表現(xiàn)出較高的分類準(zhǔn)確性和運(yùn)算性能?;矩惾~斯分類器假設(shè)一個(gè)指定類別中各屬性的取值是相互獨(dú)立的。這一假設(shè)也被稱為:類別條件獨(dú)立,它可以幫助有效減少在構(gòu)造貝葉斯分類器時(shí)所需要進(jìn)行的計(jì)算量。2023/4/1063第63頁(yè),共94頁(yè),2023年,2月20日,星期五貝葉斯分類定義4-2設(shè)X是類標(biāo)號(hào)未知的數(shù)據(jù)樣本。設(shè)H為某種假定,如數(shù)據(jù)樣本X屬于某特定的類C。對(duì)于分類問(wèn)題,我們希望確定P(H|X),即給定觀測(cè)數(shù)據(jù)樣本X,假定H成立的概率。貝葉斯定理給出了如下計(jì)算P(H|X)的簡(jiǎn)單有效的方法:P(H)是先驗(yàn)概率,或稱H的先驗(yàn)概率。P(X|H)代表假設(shè)H成立的情況下,觀察到X的概率。P(H|X)是后驗(yàn)概率,或稱條件X下H的后驗(yàn)概率。例如,假定數(shù)據(jù)樣本域由水果組成,用它們的顏色和形狀來(lái)描述。假定X表示紅色和圓的,H表示假定X是蘋(píng)果,則P(H|X)反映當(dāng)我們看到X是紅色并是圓的時(shí),我們對(duì)X是蘋(píng)果的確信程度。貝葉斯分類器對(duì)兩種數(shù)據(jù)具有較好的分類效果:一種是完全獨(dú)立的數(shù)據(jù),另一種是函數(shù)依賴的數(shù)據(jù)。2023/4/1064第64頁(yè),共94頁(yè),2023年,2月20日,星期五樸素貝葉斯分類樸素貝葉斯分類的工作過(guò)程如下:(1)
每個(gè)數(shù)據(jù)樣本用一個(gè)n維特征向量X={x1,x2,……,xn}表示,分別描述對(duì)n個(gè)屬性A1,A2,……,An樣本的n個(gè)度量。(2)假定有m個(gè)類C1,C2,…,Cm,給定一個(gè)未知的數(shù)據(jù)樣本X(即沒(méi)有類標(biāo)號(hào)),分類器將預(yù)測(cè)X屬于具有最高后驗(yàn)概率(條件X下)的類。也就是說(shuō),樸素貝葉斯分類將未知的樣本分配給類Ci(1≤i≤m)當(dāng)且僅當(dāng)P(Ci|X)>P(Cj|X),對(duì)任意的j=1,2,…,m,j≠i。這樣,最大化P(Ci|X)。其P(Ci|X)最大的類Ci稱為最大后驗(yàn)假定。根據(jù)貝葉斯定理2023/4/1065第65頁(yè),共94頁(yè),2023年,2月20日,星期五樸素貝葉斯分類(續(xù))(3)
由于P(X)對(duì)于所有類為常數(shù),只需要P(X|Ci)*P(Ci)最大即可。如果Ci類的先驗(yàn)概率未知,則通常假定這些類是等概率的,即P(C1)=P(C2)=…=P(Cm),因此問(wèn)題就轉(zhuǎn)換為對(duì)P(X|Ci)的最大化(P(X|Ci)常被稱為給定Ci時(shí)數(shù)據(jù)X的似然度,而使P(X|Ci)最大的假設(shè)Ci稱為最大似然假設(shè))。否則,需要最大化P(X|Ci)*P(Ci)。注意,類的先驗(yàn)概率可以用P(Ci)=si/s計(jì)算,其中si是類Ci中的訓(xùn)練樣本數(shù),而s是訓(xùn)練樣本總數(shù)。(4)
給定具有許多屬性的數(shù)據(jù)集,計(jì)算P(X|Ci)的開(kāi)銷可能非常大。為降低計(jì)算P(X|Ci)的開(kāi)銷,可以做類條件獨(dú)立的樸素假定。給定樣本的類標(biāo)號(hào),假定屬性值相互條件獨(dú)立,即在屬性間,不存在依賴關(guān)系。這樣
2023/4/1066第66頁(yè),共94頁(yè),2023年,2月20日,星期五樸素貝葉斯分類(續(xù))
其中概率P(x1|Ci),P(x2|Ci),……,P(xn|Ci)可以由訓(xùn)練樣本估值。如果Ak是離散屬性,則P(xk|Ci)=sik|si,其中sik是在屬性Ak上具有值xk的類Ci的訓(xùn)練樣本數(shù),而si是Ci中的訓(xùn)練樣本數(shù)。
如果Ak是連續(xù)值屬性,則通常假定該屬性服從高斯分布。因而,
是高斯分布函數(shù),而分別為平均值和標(biāo)準(zhǔn)差。
(5)
對(duì)未知樣本X分類,也就是對(duì)每個(gè)類Ci,計(jì)算P(X|Ci)*P(Ci)。樣本X被指派到類Ci,當(dāng)且僅當(dāng)P(Ci|X)>P(Cj|X),1≤j≤m,j≠i,換言之,X被指派到其P(X|Ci)*P(Ci)最大的類。
2023/4/1067第67頁(yè),共94頁(yè),2023年,2月20日,星期五2023/4/1068第68頁(yè),共94頁(yè),2023年,2月20日,星期五樸素貝葉斯分類舉例數(shù)據(jù)樣本用屬性age,income,student和credit_rating描述。類標(biāo)號(hào)屬性buys_computer具有兩個(gè)不同值(即{yes,no})。設(shè)C1對(duì)應(yīng)于類buys_computer=”yes”,而C2對(duì)應(yīng)于類buys_computer=”no”。我們希望分類的未知樣本為:X=(age=”<=30”,income=”medium”,student=”yes”,credit_rating=”fair”)。2023/4/1069第69頁(yè),共94頁(yè),2023年,2月20日,星期五樸素貝葉斯分類舉例(1)我們需要最大化P(X|Ci)*P(Ci),i=1,2。每個(gè)類的先驗(yàn)概率P(Ci)可以根據(jù)訓(xùn)練樣本計(jì)算: P(buys_computer=”yes”)=9/14=0.643, P(buys_computer=”no”)=5/14=0.357。(2)為計(jì)算P(X|Ci),i=1,2,我們計(jì)算下面的條件概率:
P(age<=30|buys_computer=”yes”)=2/9=0.222,
P(age<=30”|buys_computer=”no”)=3/5=0.600, P(income=”medium”|buys_computer=”yes”)=4/9=0.444, P(income=”medium”|buys_computer=”no”)=2/5=0.400, P(student=”yes”|buys_computer=”yes”)=6/9=0.677, P(student=”yes”|buys_computer=”no”)=1/5=0.200, P(credit_rating=”fair”|buys_computer=”yes”)=6/9=0.667, P(credit_rating=”fair”|buys_computer=”no”)=2/5=0.400。
(3)假設(shè)條件獨(dú)立性,使用以上概率,我們得到:
P(X|buys_computer=”yes”)=0.222*0.444*0.667*0.667=0.044,P(X|buys_computer=”no”)=0.600*0.400*0.200*0.400=0.019,P(X|buys_computer=”yes”)*P(buys_computer=”yes”)=0.044*0.643=0.028P(X|buys_computer=”no”)*P(buys_computer=”no”)=0.019*0.357=0.007。因此,對(duì)于樣本X,樸素貝葉斯分類預(yù)測(cè)buys_computer=”yes”。2023/4/1070第70頁(yè),共94頁(yè),2023年,2月20日,星期五第三章分類方法
內(nèi)容提要分類的基本概念與步驟基于距離的分類算法決策樹(shù)分類方法貝葉斯分類規(guī)則歸納
與分類有關(guān)的問(wèn)題2023/4/1071第71頁(yè),共94頁(yè),2023年,2月20日,星期五規(guī)則歸納常見(jiàn)的采用規(guī)則表示的分類器構(gòu)造方法有:利用規(guī)則歸納技術(shù)直接生成規(guī)則利用決策樹(shù)方法先生成決策樹(shù),然后再把決策樹(shù)轉(zhuǎn)換為規(guī)則;使用粗糙集方法生成規(guī)則;使用遺傳算法中的分類器技術(shù)生成規(guī)則等。
本節(jié)將只討論規(guī)則歸納方法。我們這里討論的規(guī)則歸納算法,可以直接學(xué)習(xí)規(guī)則集合,這一點(diǎn)與決策樹(shù)方法、遺傳算法有兩點(diǎn)關(guān)鍵的不同。它們可學(xué)習(xí)包含變量的一階規(guī)則集合:這一點(diǎn)很重要,因?yàn)橐浑A子句的表達(dá)能力比命題規(guī)則要強(qiáng)得多。這里討論的算法使用序列覆蓋算法:一次學(xué)習(xí)一個(gè)規(guī)則,以遞增的方式形成最終的規(guī)則集合。2023/4/1072第72頁(yè),共94頁(yè),2023年,2月20日,星期五規(guī)則歸納(續(xù))規(guī)則歸納有四種策略:減法、加法,先加后減、先減后加策略。減法策略:以具體例子為出發(fā)點(diǎn),對(duì)例子進(jìn)行推廣或泛化,推廣即減除條件(屬性值)或減除合取項(xiàng)(為了方便,我們不考慮增加析取項(xiàng)的推廣),使推廣后的例子或規(guī)則不覆蓋任何反例。加法策略:起始假設(shè)規(guī)則的條件部分為空(永真規(guī)則),如果該規(guī)則覆蓋了反例,則不停地向規(guī)則增加條件或合取項(xiàng),直到該規(guī)則不再覆蓋反例。先加后減策略:由于屬性間存在相關(guān)性,因此可能某個(gè)條件的加入會(huì)導(dǎo)致前面加入的條件沒(méi)什么作用,因此需要減除前面的條件。先減后加策略:道理同先加后減,也是為了處理屬性間的相關(guān)性。典型的規(guī)則歸納算法有AQ、CN2和FOIL等。
2023/4/1073第73頁(yè),共94頁(yè),2023年,2月20日,星期五AQ算法
AQ算法利用覆蓋所有正例,排斥所有反例的思想來(lái)尋找規(guī)則。比較典型的有Michalski的AQ11方法,洪家榮改進(jìn)的AQ15方法以及洪家榮的AE5方法。AQR是一個(gè)基于最基本AQ算法的歸納算法。其實(shí),在很多的算法中,都采用了基本AQ算法,象AQ11和GEM。但和其它方法比較而言,AQR更加簡(jiǎn)單一些,如在AQ11中使用一種復(fù)雜的包括置信度的規(guī)則推導(dǎo)方法。下面我們首先對(duì)AQR算法進(jìn)行概念描述,然后介紹算法描述和相關(guān)例子,最后分析其性能。2023/4/1074第74頁(yè),共94頁(yè),2023年,2月20日,星期五AQR算法有關(guān)定義AQR為每一個(gè)分類推導(dǎo)出一條規(guī)則,每一條規(guī)則形式如下:if<cover>thenpredict<class>。在一個(gè)屬性上的基本測(cè)試被稱為一個(gè)Selector。下面是一些Selector的例子:<Cloudy=yes>或<Temp>60>。AQR允許測(cè)試做{=,≤,≥,≠}。Selectors的合取被稱為復(fù)合(Complex),Complexes之間的析取被稱為覆蓋(Cover)。如果一個(gè)表達(dá)式對(duì)某個(gè)樣本為真,則我們稱其為對(duì)這個(gè)樣本的一個(gè)覆蓋。這樣,一個(gè)空Complex覆蓋所有的樣本,而一個(gè)空Cover不覆蓋任何樣本。在AQR中,一個(gè)新樣本被區(qū)分是看其屬于哪個(gè)推導(dǎo)出來(lái)的規(guī)則。如果該樣本只滿足一條規(guī)則,則這個(gè)樣本就屬于這條規(guī)則;如果該樣本滿足多條規(guī)則,則被這些規(guī)則所預(yù)測(cè)的最頻繁的分類被賦予這條規(guī)則;如果該樣本不屬于任何規(guī)則,則其分類為樣本集中最頻繁的分類。2023/4/1075第75頁(yè),共94頁(yè),2023年,2月20日,星期五
AQR算法描述算法4-5AQR輸入:正例樣本POS;反例樣本NEG。輸出:覆蓋COVER。(1)COVER=Φ;//初始化COVER為空集Φ(2)WHILECOVERdoesnotcoverallpositiveexamplesinPOSDOBEGIN(3)SelectaSEED;/選取一個(gè)種子SEED,例如沒(méi)有被COVER覆蓋的一個(gè)正樣例(4)CallprocedureSTAR(SEED,NEG);//產(chǎn)生一個(gè)能覆蓋種子而同時(shí)排除所有反例的星(5)SelectthebestComplexBESTfromtheSTARaccordingtouser-definedcriteria;/*從星中選取一個(gè)最好的復(fù)合*/(6)AddBESTasanextradisjucttoCOVER/*把最好的復(fù)合與COVER合取,形成新的COVER*/(7)END(8)RETURNCOVER.在算法AQR中調(diào)用了過(guò)程STAR,來(lái)排除所有的反例,產(chǎn)生覆蓋種子的星。2023/4/1076第76頁(yè),共94頁(yè),2023年,2月20日,星期五
AQR算法描述(續(xù))算法4-6
STAR輸入:種子SEED;反例NEG。輸出:星STAR。(1)初始化STAR為空Complex(2)WHILEoneormoreComplexesinSTARcoverssomenegativeexamplesinNEGBEGIN/*如果STAR中的一個(gè)或多個(gè)Complex覆蓋NEG中的負(fù)樣例*/(3)SelectanegativeexampleEnegcoveredbyaComplexinSTAR;/*選取一個(gè)被STAR中的Complex覆蓋的負(fù)樣例*/(4)LetEXTENSIONbeallSelectorsthatcoverSEEDbutnotENEG;/*令EXTENSION為那些覆蓋SEED但不覆蓋ENEG的Selectors;*/(5)LetSTARbetheset{x∧y|x∈STAR,y∈EXTENSION};/*令STAR={x∧y|x∈STAR,y∈EXTENSION};*/(6)RemoveallComplexesinSTARsubsumedbyotherComplexesinSTAR;/*從STAR中除去被其他Complexes所包含的Complexes;*/(7)RemovetheworstComplexesfromSTARUNTILsizeofSTARislessthanorequaltouser-definedmaximum(maxstar)/*刪除STAR中最壞的Complex直到STAR的大小等于或小于用戶定義的最大數(shù)目maxstar*/(8)END(9)RETURNSTAR./*返回一系列覆蓋SEED但不覆蓋NEG的規(guī)則*/2023/4/1077第77頁(yè),共94頁(yè),2023年,2月20日,星期五AQR算法舉例假設(shè)現(xiàn)有一個(gè)訓(xùn)練集,其包含兩種屬性:size(屬性值:micro,tiny,mid,big,huge,vast)type(屬性值:bicycle,motorcycle,car,prop,jet,glider)現(xiàn)有正例、反例樣本分別如表4-6,表4-7所示:下面給出用AQR算法對(duì)giant2-wheeler類的規(guī)則進(jìn)行獲取過(guò)程,具體步驟如下:(1)COVER={}。(2)空cover不覆蓋任何樣本,進(jìn)入循環(huán)。(3)一開(kāi)始COVER并沒(méi)有覆蓋任何正例,假定從正例中選取的SEED為{size=huge,type=bicycle}。(4)調(diào)用STAR(SEED,NEG)去產(chǎn)生一個(gè)覆蓋SEED但不包含NEG的STAR集合;初始化STAR為空,即STAR={}??盏腸omplex覆蓋所有樣例,STAR覆蓋多個(gè)負(fù)樣例,進(jìn)入循環(huán)。
a)選取一個(gè)被STAR中的復(fù)合覆蓋的負(fù)樣例ENEG,假定被選取的是Eneg={size=tiny,type=motorcycle}。
b)使EXTENSION為所有覆蓋SEED但不覆蓋ENEG的選擇,則EXTENSION包括size=huge和type=bicycle,則又根據(jù)STAR={x∧y|x∈STAR,y∈EXTENSION},因此,STAR={size=hugetype=bicycle}。c)在這里定義maxstar為2,可不對(duì)STAR進(jìn)行精簡(jiǎn)。d)接著選取另一個(gè)被STAR中的復(fù)合覆蓋的負(fù)樣例ENEG,顯然已經(jīng)沒(méi)有這樣的負(fù)樣例,因此,STAR={size=hugetype=bicycle}。從STAR(SEED,NEG)返回。反例樣本sizetypeclassTinymotorcycleconventionaltransportationtinycarconventionaltransportationmidcarconventionaltransportationmicrojetfastplaneTinyjetfastplaneMidjetfastplane正例樣本sizetypeclassHugebicyclegiant2-wheelerHugemotorcyclegiant2-wheeler2023/4/1078第78頁(yè),共94頁(yè),2023年,2月20日,星期五AQR算法舉例(5)BEST={size=hugetype=bicycle},COVER={size=hugetype=bicycle}。
(6)顯然COVER不能覆蓋所有的正例,從正例中選取另一個(gè)SEED={size=huge,type=motorcycle}。(7)調(diào)用STAR(SEED,NEG)去產(chǎn)生一個(gè)覆蓋SEED但不包含NEG的STAR集合。初始化STAR為空,即STAR={};空的complex覆蓋所有樣例,所以STAR覆蓋負(fù)樣例,進(jìn)入循環(huán);
a)假定被選取的是Eneg={size=tiny,type=motorcycle};
b)使EXTENSION為所有覆蓋SEED但不覆蓋Eneg的選擇,則EXTENSION包括size=huge,則又根據(jù)STAR={x∧y|x∈STAR,y∈EXTENSION},因此,STAR={size=huge};c)接著選取另一個(gè)被STAR中的復(fù)合覆蓋的負(fù)樣例Eneg,顯然已經(jīng)沒(méi)有這樣的負(fù)樣例,因此,STAR={size=huge};d)接著選取另一個(gè)被STAR中的復(fù)合覆蓋的負(fù)樣例ENEG,顯然已經(jīng)沒(méi)有這樣的負(fù)樣例,因此,STAR={size=hugetype=bicycle}。從STAR(SEED,NEG)返回。(8)BEST={size=huge},將BEST添加到COVER中,COVER={size=hugetype=bicyclesize=huge}={size=huge}。(9)這時(shí),COVER已經(jīng)覆蓋到全部的正例,則算法結(jié)束。輸出規(guī)則為gaint2-wheelersize=huge。假設(shè)現(xiàn)有一個(gè)訓(xùn)練集,其包含兩種屬性:size(屬性值:micro,tiny,mid,big,huge,vast)type(屬性值:bicycle,motorcycle,car,prop,jet,glider)現(xiàn)有正例、反例樣本分別如表4-6,表4-7所示:反例樣本sizetypeclassTinymotorcycleconventionaltransportationtinycarconventionaltransportationmidcarconventionaltransportationmicrojetfastplaneTinyjetfastplaneMidjetfastplane正例樣本sizetypeclassHugebicyclegiant2-wheelerHugemotorcyclegiant2-wheeler2023/4/1079第79頁(yè),共94頁(yè),2023年,2月20日,星期五CN2算法描述CN2使用一種基于噪音估計(jì)的啟發(fā)式方法,使用這種方法可以不用對(duì)所有的訓(xùn)練樣本進(jìn)行正確的區(qū)分,但是規(guī)約出的規(guī)則在對(duì)新數(shù)據(jù)的處理上有很好的表現(xiàn)。算法4-7CN2輸入:E/*E為訓(xùn)練樣本*/輸出:RULE_LIST/*返回一個(gè)覆蓋若干樣例的規(guī)則*/(1)LetRULE_LISTbetheemptylist;/*初始化RULES_LIST為空;*/(2)REPEAT(3)LetBEST_CPXbeFind_Best_Complex(E);/*尋找最佳的規(guī)則Find_Best_Complex(E)并將其結(jié)果放入BEST_CPX中;*/(4)IFBEST_CPXisnotnilTHENBEGIN(5)LetE’betheexamplescoveredbyBEST_CPX;/*令E’為BEST_CPX覆蓋的所有樣例*/(6)RemovefromEtheexamplesE′coveredbyBEST_CPX;/*從訓(xùn)練樣本E中除去E’,即E=E-E’;*/(7) LetCbethemostcommonclassofexamplesinE’;/*令C為樣本子集E’中最頻繁的分類標(biāo)號(hào);*/(8)Addtherule‘ifBEST_CPXthenclass=C’totheendofRULE_LIST;/*將規(guī)則‘ifBEST_CPXthenclass=C’添加到RULES_LIST中*/(9)END(10)UNTILBEST_CPXisnilorEisempty./*直到BEST_CPX為空或者訓(xùn)練樣本E為空*/(11)RETURNRULE_LIST算法CN2需要通過(guò)調(diào)用函數(shù)Find_Best_Complex,它的描述寫(xiě)成下面算法4-8。2023/4/1080第80頁(yè),共94頁(yè),2023年,2月20日,星期五CN2算法描述(續(xù))算法4-8Find_Best_Complex輸入:E/*E為訓(xùn)練樣本*/輸出:BEST_CPX/*返回最佳的規(guī)則BEST_CPX*/(1)LetthesetSTARcontainonlytheemptyComplex;/*初始化集合STAR為空Complex;*/(2)LetBEST_CPXbenil;/*初始化BEST_CPX為空*/(3)LetSELECTORSbethesetofallpossibleSelectors;/*集合SELECTOR為所有可能的選擇*/(4)WHILESTARisnotemptyDOBEGIN(5) LetNEWSTARbetheset{x∧y|x∈STAR,y∈EXTENSION};/*令NEWSTAR={x∧y|x∈STAR,y∈EXTENSION};*/(6) RemoveallComplexesinNEWSTARthatareeitherinSTARorarenull;/*從NEWSTAR中除去包括在STAR中的Complex或者為空的Complex*/(7) FOReverycomplexCiinNEWSTAR(8)IFCiisstatisticallysignificantwhentestedonEandbetterthanBEST_CPX accordingtouser-definedcriteriawhentestedonE/*如果Ci在統(tǒng)計(jì)上有意義,并且對(duì)訓(xùn)練集E測(cè)試后符合用戶定義的條件且優(yōu)于BEST_CPX*/(9) THENreplacethecurrentvalueofBEST_CPXbyCi;/*將BEST_CPX
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 樂(lè)器批發(fā)市場(chǎng)的行業(yè)規(guī)范與標(biāo)準(zhǔn)考核試卷
- 生物制藥進(jìn)展考核試卷
- 規(guī)培外科基本操作
- 電容器電荷存儲(chǔ)能力分析與優(yōu)化考核試卷
- 焙烤食品制造的市場(chǎng)開(kāi)拓與銷售策略考核試卷
- 木材的擠出和注塑工藝考核試卷
- 電池結(jié)構(gòu)設(shè)計(jì)與仿真分析考核試卷
- 有機(jī)化學(xué)原料的全球市場(chǎng)趨勢(shì)考核試卷
- 電聲器件在智能機(jī)器人清潔器中的應(yīng)用考核試卷
- 雜糧加工健康食品配方設(shè)計(jì)考核試卷
- 重慶農(nóng)藝師考試(種植業(yè)卷)
- GB/T 32120-2022鋼結(jié)構(gòu)氧化聚合型包覆腐蝕控制技術(shù)
- 散文閱讀理解文中重要句子的含意公開(kāi)課一等獎(jiǎng)市優(yōu)質(zhì)課賽課獲獎(jiǎng)?wù)n件
- 2023學(xué)年完整公開(kāi)課版《認(rèn)識(shí)洗衣機(jī)》
- 單層廠房課程設(shè)計(jì)-金屬結(jié)構(gòu)車間雙跨等高廠房
- 熱力管道裝置工程施工記錄表
- 特殊過(guò)程焊接工藝確認(rèn)
- 企業(yè)信譽(yù)自查承諾書(shū)范文
- 旅游資源同步練習(xí)(區(qū)一等獎(jiǎng))
- 平移和旋轉(zhuǎn)的應(yīng)用
- 小學(xué)書(shū)法興趣小組活動(dòng)方案及小學(xué)書(shū)法興趣小組活動(dòng)記錄
評(píng)論
0/150
提交評(píng)論