數(shù)據(jù)挖掘第五章分類和預(yù)測(cè)_第1頁
數(shù)據(jù)挖掘第五章分類和預(yù)測(cè)_第2頁
數(shù)據(jù)挖掘第五章分類和預(yù)測(cè)_第3頁
數(shù)據(jù)挖掘第五章分類和預(yù)測(cè)_第4頁
數(shù)據(jù)挖掘第五章分類和預(yù)測(cè)_第5頁
已閱讀5頁,還剩94頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

分類和預(yù)測(cè)1什么是分類?什么是預(yù)測(cè)?關(guān)于分類和預(yù)測(cè)的問題用決策樹歸納分類貝葉斯分類基于規(guī)則的分類用后向傳播分類支持向量機(jī)其它分類方法預(yù)測(cè)準(zhǔn)確率和誤差的度量評(píng)估分類器或預(yù)測(cè)器的準(zhǔn)確率小結(jié)分類

vs.預(yù)測(cè)ECUST--JingZhang2分類:

預(yù)測(cè)分類標(biāo)號(hào)在分類屬性中的訓(xùn)練樣本集和值(類標(biāo)號(hào))的基礎(chǔ)上分類數(shù)據(jù)(建立模型)并使用它分類新數(shù)據(jù)預(yù)測(cè):為連續(xù)值函數(shù)建模,預(yù)測(cè)未知的或缺省值典型應(yīng)用信譽(yù)證實(shí)目標(biāo)市場(chǎng)醫(yī)學(xué)診斷性能預(yù)測(cè)分類—兩步驟處理ECUST--JingZhang3模型構(gòu)造(Modelconstruction):

描述預(yù)先定義好的類別每個(gè)元組/樣本被假定為從屬于一個(gè)預(yù)定義的類別,即類標(biāo)號(hào)屬性(classlabelattribute)用于構(gòu)造模型的元組集合被稱之為訓(xùn)練集合(trainingset)模型可以有多種表示方法,諸如分類規(guī)則,決策樹,或者數(shù)學(xué)公式等分類—兩步驟處理使用模型進(jìn)行分類:在將來對(duì)未知對(duì)象進(jìn)行分類估算模型的準(zhǔn)確度各元組的已知分類標(biāo)簽和從模型中獲得的標(biāo)簽進(jìn)行比較準(zhǔn)確度即樣本集合中能夠被該模型正確分類的元組的百分比測(cè)試集合(Testset)和訓(xùn)練集合(trainingset)獨(dú)立,否則無法正確衡量模型的準(zhǔn)確度如果準(zhǔn)確度是可接受的,則可以使用該模型對(duì)未被分類的數(shù)據(jù)元組進(jìn)行分類ECUST--JingZhang4分類過程:構(gòu)造模型ECUST--JingZhang5訓(xùn)練數(shù)據(jù)分類算法IFrank=‘professor’ORyears>6THENBonus=‘yes’分類規(guī)則分類過程:使用模型進(jìn)行預(yù)測(cè)ECUST--JingZhang6分類規(guī)則測(cè)試數(shù)據(jù)新數(shù)據(jù)(Jeff,Professor,4)Bonus?有監(jiān)督學(xué)習(xí)vs無監(jiān)督學(xué)習(xí)

Supervisedvs.UnsupervisedLearningECUST--JingZhang7有監(jiān)督學(xué)習(xí)(Supervisedlearning(classification))有監(jiān)督(Supervision):訓(xùn)練數(shù)據(jù)均含有一個(gè)字段,該字段用于表明各個(gè)元組所屬的類別新數(shù)據(jù)在訓(xùn)練集的基礎(chǔ)上進(jìn)行分類無監(jiān)督學(xué)習(xí)(Unsupervisedlearning(clustering))訓(xùn)練數(shù)據(jù)集合中并不含有一個(gè)表征各個(gè)元組類別的字段(訓(xùn)練集的類標(biāo)號(hào)未知)給定一個(gè)度量或者觀測(cè)值集,意在確定數(shù)據(jù)中類或聚類的存在分類和預(yù)測(cè)8什么是分類?什么是預(yù)測(cè)?關(guān)于分類和預(yù)測(cè)的問題用決策樹歸納分類貝葉斯分類基于規(guī)則的分類用后向傳播分類支持向量機(jī)其它分類方法預(yù)測(cè)準(zhǔn)確率和誤差的度量評(píng)估分類器或預(yù)測(cè)器的準(zhǔn)確率小結(jié)關(guān)于分類和預(yù)測(cè)的問題:數(shù)據(jù)準(zhǔn)備ECUST--JingZhang9數(shù)據(jù)清理消除噪聲,處理空缺值相關(guān)性分析(特征選擇)刪除不相關(guān)的或者多余的屬性數(shù)據(jù)變換與歸約概化和/或規(guī)格化數(shù)據(jù)分類和預(yù)測(cè)的問題:評(píng)估分類模型ECUST--JingZhang10準(zhǔn)確率速度構(gòu)造模型的時(shí)間使用模型的時(shí)間魯棒性處理噪聲和缺失值的能力可伸縮性涉及給定大量數(shù)據(jù),有效地構(gòu)造模型的能力可解釋性涉及到學(xué)習(xí)模型提供的理解和洞察的水平分類和預(yù)測(cè)11什么是分類?什么是預(yù)測(cè)?關(guān)于分類和預(yù)測(cè)的問題用決策樹歸納分類貝葉斯分類基于規(guī)則的分類用后向傳播分類支持向量機(jī)其它分類方法預(yù)測(cè)準(zhǔn)確率和誤差的度量評(píng)估分類器或預(yù)測(cè)器的準(zhǔn)確率小結(jié)用決策樹歸納分類12決策樹一個(gè)類似于流程圖的樹結(jié)構(gòu)內(nèi)部節(jié)點(diǎn)表示一個(gè)屬性上的測(cè)試每個(gè)分支代表一個(gè)測(cè)試的輸出葉結(jié)點(diǎn)代表類或類分布決策樹生成決策樹的生成包括兩個(gè)過程樹的構(gòu)建首先所有的訓(xùn)練樣本都在根結(jié)點(diǎn)基于所選的屬性循環(huán)的劃分樣本樹剪枝識(shí)別和刪除那些反應(yīng)映噪聲或離群點(diǎn)的分支決策樹的使用:為一個(gè)未知的樣本分類在決策樹上測(cè)試樣本的屬性值ECUST--JingZhang13訓(xùn)練數(shù)據(jù)集合ECUST--JingZhang14其中:Buys_computer是類別標(biāo)簽輸出:一個(gè)針對(duì)“buys_computer”的決策樹ECUST--JingZhang15age?overcaststudent?creditrating?noyesfairexcellent<=30>40nonoyesyesyes30..40決策樹歸納算法ECUST--JingZhang16基本算法

(貪心算法)按照自頂向下遞歸劃分的方法構(gòu)造決策樹(top-downrecursivedivide-and-conquermanner)最開始,所有的訓(xùn)練樣本均在根結(jié)點(diǎn)樣本基于被選擇的屬性被遞歸劃分(所有屬性都是分類的,若屬性值連續(xù),則首先要進(jìn)行離散化處理)測(cè)試屬性的選擇基于啟發(fā)式規(guī)則或者統(tǒng)計(jì)度量(例如信息增益(informationgain))終止劃分的條件給定結(jié)點(diǎn)的所有樣本屬于同一類沒有更多的屬性用于再次劃分沒有剩余的樣本決策樹歸納算法17ID3算法樹以代表訓(xùn)練樣本的單個(gè)結(jié)點(diǎn)開始,如果所有樣本都屬于同一個(gè)類,則該結(jié)點(diǎn)成為樹葉,并用該類標(biāo)號(hào)。否則,算法使用稱為信息增益的基于熵的度量作為啟發(fā)信息,選擇能夠最好地將樣本分類的屬性,使該屬性成為該結(jié)點(diǎn)的“測(cè)試”或“判定”屬性。對(duì)測(cè)試屬性的每個(gè)已知值,創(chuàng)建一個(gè)分枝,并據(jù)此劃分樣本。算法使用同樣的過程,遞歸地形成每個(gè)劃分上的樣本決策樹。一旦一個(gè)屬性出現(xiàn)在一個(gè)結(jié)點(diǎn)上,該結(jié)點(diǎn)的任何后代均不該考慮該屬性。遞歸劃分步驟僅當(dāng)滿足下列條件之一時(shí)停止:給定結(jié)點(diǎn)的所有樣本屬于同一類。沒有剩余屬性可以用來進(jìn)一步劃分樣本。在此情況下,使用多數(shù)表決。這涉及將給定的結(jié)點(diǎn)轉(zhuǎn)換成樹葉,并用樣本中多數(shù)所在的類標(biāo)記它。分枝測(cè)試屬性的某一值下沒有樣本。則以樣本中的多數(shù)類創(chuàng)建一個(gè)樹葉。

屬性選擇度量ECUST--JingZhang18屬性選擇度量是一種選擇分裂準(zhǔn)則,將給定的類標(biāo)記的訓(xùn)練元組的數(shù)據(jù)劃分D“最好”地分成個(gè)體類的啟發(fā)式方法。三種流行的屬性選擇度量信息增益增益率Gini指標(biāo)信息增益信息增益選擇具有最高信息增益(或最大熵壓縮)的屬性作為當(dāng)前節(jié)點(diǎn)的測(cè)試屬性該方法使得對(duì)一個(gè)對(duì)象分類所需的信息量最小,并確保找到一棵簡(jiǎn)單的(但不必是最簡(jiǎn)單)樹。所有的屬性值被假定為分類的修正后可以用于連續(xù)屬性ECUST--JingZhang19熵(Entropy)和信息增益ECUST--JingZhang20選擇具有最大信息增益的屬性。設(shè)S是s個(gè)數(shù)據(jù)樣本的集合。假定類標(biāo)號(hào)屬性具有m個(gè)不同的值,定義m個(gè)不同類Ci(i=1,...,m)。設(shè)si

是類Ci中的樣本數(shù)。對(duì)一個(gè)給定的樣本分類所需的期望信息如下:其中,pi

是任意樣本屬于Ci的概率,并用si/s估計(jì)。熵(Entropy)和信息增益設(shè)屬性A共有v個(gè)不同值{a1,a2,…,av},可以用屬性A將S劃分為v個(gè)子集{S1,...,Sv};其中,Sj

包含S中在屬性A上具有值aj的那些樣本。如果A被選作測(cè)試屬性,則這些子集對(duì)應(yīng)于由包含集合S的結(jié)點(diǎn)生長(zhǎng)出來的分枝。設(shè)sij是子集Sj中類Ci的樣本數(shù),根據(jù)A劃分子集的熵或期望信息由下式給出。

項(xiàng)為第j個(gè)子集的權(quán),并且等于子集(即,A值為aj的樣本集合)中的樣本個(gè)數(shù)除以S中的樣本總數(shù)。熵值越小,子集劃分的純度越高。對(duì)于給定的子集Sj,其中,是Sj中的樣本屬于Ci的概率。屬性A的信息增益(Informationgain)可如下計(jì)算:21通過計(jì)算信息增益來選擇屬性ClassP:buys_computer=“yes”ClassN:buys_computer=“no”I(p,n)=I(9,5)=0.940Computetheentropyforage:

means“age<=30”has5outof14samples,with2yes’esand3no’s.HenceSimilarly,2223為連續(xù)值屬性計(jì)算信息增益假定屬性A為連續(xù)值屬性確定A的最佳分裂點(diǎn)將A的值按遞增序排序典型地,每對(duì)相鄰值的中點(diǎn)看做可能的分裂點(diǎn)(ai+ai+1)/2是ai

和ai+1之間的中點(diǎn)A具有最小期望信息需求的點(diǎn)選作A的分裂點(diǎn)分裂:D1是滿足A≤split-point的元組集合,而D2是滿足A>split-point的元組的集合增益率信息增益度量偏向于選擇具有大量值的屬性C4.5(ID3的改進(jìn))采用增益率來克服這個(gè)問題(信息增益的規(guī)范化)GainRatio(A)=Gain(A)/SplitInfo(A)Ex.

gain_ratio(income)=0.029/1.557=0.019具有最大增益率的屬性被選作分裂屬性Gini指標(biāo)(GiniIndex)數(shù)據(jù)集合D包含來自n類的樣例,gini指標(biāo)度量數(shù)據(jù)劃分或訓(xùn)練元組集D的不純度,gini(D)定義如下,

其中pj

是D中元素屬于類

j的概率如果數(shù)據(jù)集合D

被屬性A分裂成兩個(gè)子集D1

D2,gini

指標(biāo)

gini(D)定義為不純度降低:具有最小ginisplit(D)(或最大不純度降低)的屬性被選作分裂結(jié)點(diǎn)(需要為每一個(gè)屬性列舉所有的分裂結(jié)點(diǎn))Gini指標(biāo)Ex.D中有9個(gè)元組屬于類buys_computer=“yes”,5個(gè)元組屬于類“no”假定屬性income從D中劃分10個(gè)元組到D1中:{low,medium},其余4個(gè)元組分到D2中

同理可得,Gini{low,high}is0.458;Gini{medium,high}is0.450.因此,屬性income的最好二元?jiǎng)澐衷趝low,medium}(and{high})上,因?yàn)樗凶钚』腉ini指標(biāo)27屬性選擇度量的比較三種度量一般情況下都能夠得到較好的結(jié)果,但是Informationgain:偏向多值屬性Gainratio:傾向于不平衡分裂,其中一個(gè)劃分比其他劃分小得多Giniindex:偏向于多值屬性當(dāng)類的數(shù)量很大時(shí)會(huì)有困難傾向于導(dǎo)致相等大小的劃分和純度過適應(yīng)(Overfitting)和樹剪枝ECUST--JingZhang28過適應(yīng)(Overfitting):產(chǎn)生的決策樹過分適應(yīng)訓(xùn)練數(shù)據(jù)由于噪聲或者離群點(diǎn),使得很多分支反映的是訓(xùn)練數(shù)據(jù)中的異常。太依賴于訓(xùn)練數(shù)據(jù)集合,對(duì)于未使用的例子預(yù)測(cè)結(jié)果精度很差。避免Overfitting的兩種方法先剪枝:通過提早停止樹的構(gòu)造而對(duì)樹“剪枝”難以選擇一個(gè)合適的閾值后剪枝:

它由完全生長(zhǎng)的樹剪去分支。后剪枝所需的計(jì)算比先剪枝多,但是通??梢援a(chǎn)生更優(yōu)的樹基本決策樹歸納的加強(qiáng)ECUST--JingZhang29允許屬性具有連續(xù)值通過把連續(xù)屬性值劃分為離散的區(qū)間集來動(dòng)態(tài)定義新的離散值屬性處理缺省屬性值賦予屬性最常見的值給每個(gè)可能的值賦予概率屬性構(gòu)造基于存在的稀疏表示的屬性創(chuàng)建新的屬性這將減少碎片,重復(fù)和復(fù)制問題數(shù)據(jù)挖掘?qū)W習(xí)中可伸縮決策樹歸納方法ECUST--JingZhang30SLIQ(EDBT’96—Mehtaetal.)為每個(gè)屬性創(chuàng)建索引并只將類列表和目前的屬性列表放入內(nèi)存SPRINT(VLDB’96—J.Shaferetal.)構(gòu)造一個(gè)“屬性列表”數(shù)據(jù)結(jié)構(gòu)存放類和RID信息PUBLIC(VLDB’98—Rastogi&Shim)把樹分裂和樹剪枝集成起來:早點(diǎn)停止樹的增長(zhǎng)RainForest(VLDB’98—Gehrke,Ramakrishnan&Ganti)把“可伸縮”從決定樹質(zhì)量的標(biāo)準(zhǔn)中分離出來創(chuàng)建AVC-集(屬性-值和類標(biāo)號(hào))分類和預(yù)測(cè)31什么是分類?什么是預(yù)測(cè)?關(guān)于分類和預(yù)測(cè)的問題用決策樹歸納分類貝葉斯分類基于規(guī)則的分類用后向傳播分類支持向量機(jī)其它分類方法預(yù)測(cè)準(zhǔn)確率和誤差的度量評(píng)估分類器或預(yù)測(cè)器的準(zhǔn)確率小結(jié)貝葉斯分類ECUST--JingZhang32貝葉斯分類統(tǒng)計(jì)學(xué)習(xí)分類方法預(yù)測(cè)類成員關(guān)系的可能性樸素貝葉斯分類類條件獨(dú)立假定一個(gè)屬性值對(duì)給定類的影響?yīng)毩⒂谄渌麑傩缘闹怠X惾~斯信念網(wǎng)絡(luò)可以表示屬性子集間的依賴33貝葉斯定理給定訓(xùn)練數(shù)據(jù)X,假設(shè)H的后驗(yàn)概率,P(H|X),遵循貝葉斯定理

上述公式可以被非正式地表示為

posteriori=likelihoodxprior/evidence預(yù)測(cè)X屬于Ci,當(dāng)且僅當(dāng)對(duì)于所有的k個(gè)類,概率P(Ci|X)的值在所有P(Ck|X)當(dāng)中最大實(shí)踐的困難:需要一些概率的初始化知識(shí),大的計(jì)算開銷樸素貝葉斯分類ECUST--JingZhang34樸素假設(shè):屬性獨(dú)立P(x1,…,xk|C)=P(x1|C)·…·P(xk|C)如果第i個(gè)屬性是分類屬性:P(xi|C)被評(píng)估為類C中第i個(gè)屬性的值為xi的樣本的相對(duì)頻率如果第i個(gè)屬性是連續(xù)屬性:P(xi|C)通過一個(gè)高斯密度函數(shù)來評(píng)估樸素貝葉斯分類器令D是元組和它們相關(guān)類標(biāo)號(hào)的訓(xùn)練數(shù)據(jù)集合,每一個(gè)元組用一個(gè)n-D屬性矢量X=(x1,x2,…,xn)表示假定有m

個(gè)類C1,C2,…,Cm.分類就是得到最大后驗(yàn)概率,即,最大P(Ci|X)可以從貝葉斯定理得到因?yàn)镻(X)對(duì)于所有類是常量,所以僅有

需要被最大化。一個(gè)樸素貝葉斯分類的例子

訓(xùn)練集如下36Class:C1:buys_computer=‘yes’C2:buys_computer=‘no’DatasampleX=(age<=30,Income=medium,Student=yesCredit_rating=Fair)37P(Ci):P(buys_computer=“yes”)=9/14=0.643P(buys_computer=“no”)=5/14=0.357ComputeP(X|Ci)foreachclass P(age=“<30”|buys_computer=“yes”)=2/9=0.222P(age=“<30”|buys_computer=“no”)=3/5=0.6P(income=“medium”|buys_computer=“yes”)=4/9=0.444P(income=“medium”|buys_computer=“no”)=2/5=0.4P(student=“yes”|buys_computer=“yes)=6/9=0.667P(student=“yes”|buys_computer=“no”)=1/5=0.2P(credit_rating=“fair”|buys_computer=“yes”)=6/9=0.667P(credit_rating=“fair”|buys_computer=“no”)=2/5=0.4X=(age<=30,income=medium,student=yes,credit_rating=fair)P(X|Ci):P(X|buys_computer=“yes”)=0.222x0.444x0.667x0.0.667=0.044P(X|buys_computer=“no”)=0.6x0.4x0.2x0.4=0.019P(X|Ci)*P(Ci):P(X|buys_computer=“yes”)*P(buys_computer=“yes”)=0.028

P(X|buys_computer=“no”)*P(buys_computer=“no”)=0.007

Therefore,Xbelongstoclass“buys_computer=yes” 避免零概率值問題樸素貝葉斯分類需要每一個(gè)條件概率都必須非零.否則預(yù)測(cè)的概率將為零

例如:

假定數(shù)據(jù)集合有1000個(gè)元組,income=low(0),income=medium(990),andincome=high(10),用拉普拉斯校準(zhǔn)(Laplaciancorrection)(or拉普拉斯估值法)為每一類增加1個(gè)元組Prob(income=low)=1/1003Prob(income=medium)=991/1003Prob(income=high)=11/1003這些校準(zhǔn)過的概率估計(jì)與對(duì)應(yīng)的未校準(zhǔn)的估計(jì)很接近,但是避免了零概率值。有關(guān)獨(dú)立性假設(shè)ECUST--JingZhang39獨(dú)立性假設(shè)使得樸素貝葉斯分類成為可能當(dāng)獨(dú)立性假設(shè)滿足時(shí)生成最優(yōu)分類器但是實(shí)踐中很少滿足,因?yàn)閷傩裕ㄗ兞浚┩ǔr(shí)相關(guān)的試著克服這些限制:貝葉斯信念網(wǎng)絡(luò),聯(lián)合屬性的貝葉斯推理和因果關(guān)系決策樹,在一個(gè)時(shí)刻只推理一個(gè)屬性,首先考慮最重要的屬性貝葉斯信念網(wǎng)絡(luò)ECUST--JingZhang40貝葉斯信念網(wǎng)絡(luò)(貝葉斯網(wǎng)絡(luò),信念網(wǎng)絡(luò),概率網(wǎng)絡(luò))表示一組變量的聯(lián)合概率分布,它通過一組條件概率來指定一組條件獨(dú)立性假定可表述變量的一個(gè)子集上的條件獨(dú)立性假定比樸素貝葉斯分類在限制條件上更為寬松也更為實(shí)用,同時(shí)又比在所有變量中計(jì)算條件依賴更可行。提供一種因果關(guān)系的圖形,可以在其上進(jìn)行學(xué)習(xí),表示變量之間的因果關(guān)系條件獨(dú)立性假設(shè)是貝葉斯網(wǎng)絡(luò)進(jìn)行定量推理的理論基礎(chǔ)貝葉斯信念網(wǎng)絡(luò)的組成有向無環(huán)圖條件概率表貝葉斯信念網(wǎng)絡(luò):一個(gè)例子ECUST--JingZhang41FamilyHistoryLungCancerPositiveXRaySmokerEmphysemaDyspneaLC~LC(FH,S)(FH,~S)(~FH,S)(~FH,~S)0.80.20.50.50.70.30.10.9貝葉斯信念網(wǎng)絡(luò)BayesianBeliefNetworks變量LungCancer的條件概率表:表明了該變量父結(jié)點(diǎn)可能組合的條件概率貝葉斯信念網(wǎng)絡(luò)貝葉斯信念網(wǎng)允許變量的子集間定義類條件獨(dú)立性提供因果關(guān)系的圖形貝葉斯信念網(wǎng)絡(luò)的學(xué)習(xí)結(jié)構(gòu)學(xué)習(xí)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的學(xué)習(xí)參數(shù)學(xué)習(xí)已知網(wǎng)絡(luò)結(jié)構(gòu)對(duì)網(wǎng)絡(luò)中每個(gè)分量的局部條件概率分布的學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)已知網(wǎng)絡(luò)結(jié)構(gòu)未知數(shù)據(jù)完備概率參數(shù)學(xué)習(xí):簡(jiǎn)單統(tǒng)計(jì)估計(jì),MLE方法,貝葉斯方法找最優(yōu)網(wǎng)絡(luò)結(jié)構(gòu):MDL、BDe等評(píng)分標(biāo)準(zhǔn),啟發(fā)式搜索、模擬退火搜索等數(shù)據(jù)不完備找最優(yōu)概率參數(shù):EM算法、基于梯度的方法、高斯算法等既要找最佳結(jié)構(gòu),又要找最優(yōu)參數(shù):有結(jié)構(gòu)EM算法,混合模型等ECUST--JingZhang42分類和預(yù)測(cè)43什么是分類?什么是預(yù)測(cè)?關(guān)于分類和預(yù)測(cè)的問題用決策樹歸納分類貝葉斯分類基于規(guī)則的分類用后向傳播分類支持向量機(jī)其它分類方法預(yù)測(cè)準(zhǔn)確率和誤差的度量評(píng)估分類器或預(yù)測(cè)器的準(zhǔn)確率小結(jié)44使用IF-THEN規(guī)則分類用IF-THEN

規(guī)則的形式表示知識(shí)例如:IFage=youthANDstudent=yesTHENbuys_computer=yesIF部分稱作規(guī)則前件或前提;then部分是規(guī)則的結(jié)論規(guī)則的評(píng)價(jià):覆蓋率和準(zhǔn)確率ncovers=規(guī)則R覆蓋的元組數(shù)ncorrect=R正確分類的元組數(shù)coverage(R)=ncovers/|D|/*D:訓(xùn)練數(shù)據(jù)集*/accuracy(R)=ncorrect/ncovers使用IF-THEN規(guī)則分類如果多個(gè)規(guī)則被觸發(fā),則需要沖突解決策略規(guī)模序(Sizeordering):將最高優(yōu)先權(quán)賦予具有“最苛刻”要求的觸發(fā)規(guī)則(即,具有最多屬性測(cè)試的觸發(fā)規(guī)則)規(guī)則序(Ruleordering):預(yù)先確定規(guī)則的優(yōu)先次序基于規(guī)則排序(Rule-basedordering)(decisionlist):根據(jù)規(guī)則質(zhì)量的度量(準(zhǔn)確率、覆蓋率等)或領(lǐng)域?qū)<医ㄗh將規(guī)則組織成一個(gè)優(yōu)先權(quán)列表基于類排序(Class-basedordering):類按“重要性”遞減排序或誤分類代價(jià)排序ECUST--JingZhang45從決策樹中抽取分類規(guī)則ECUST--JingZhang46以IF-THEN的形式表示知識(shí)每條從根到葉的路徑均為一個(gè)獨(dú)立的規(guī)則沿著給定路徑上的每個(gè)屬性-值對(duì)形成規(guī)則前件的一個(gè)合取項(xiàng)葉節(jié)點(diǎn)保留分類預(yù)測(cè)規(guī)則易于為人們所理解例子IFage=“<=30”AND

student=“no”THENbuys_computer=“no”IFage=“<=30”AND

student=“yes”THENbuys_computer=“yes”IFage=“31…40” THENbuys_computer=“yes”IFage=“>40”AND

credit_rating=“excellent”THENbuys_computer=“yes”IFage=“<=30”AND

credit_rating=“fair”THENbuys_computer=“no”47使用順序覆蓋算法的規(guī)則歸納順序覆蓋算法:直接從訓(xùn)練數(shù)據(jù)抽取規(guī)則典型的順序覆蓋算法:FOIL,AQ,CN2,RIPPER順序地學(xué)習(xí)規(guī)則,給定類Ci的每個(gè)規(guī)則理想地覆蓋該類的許多元組,并且希望不覆蓋其他類的元組步驟:一次學(xué)習(xí)一個(gè)規(guī)則每當(dāng)學(xué)習(xí)一個(gè)規(guī)則,就刪除該規(guī)則覆蓋的元組對(duì)剩下的元組重復(fù)該過程直到滿足終止條件,即沒有更多的訓(xùn)練樣本或者當(dāng)返回規(guī)則的質(zhì)量低于用戶設(shè)定的閾值。決策樹歸納:同時(shí)學(xué)習(xí)一組規(guī)則ECUST--JingZhang48順序覆蓋算法

while(enoughtargettuplesleft) generatearule removepositivetargettuplessatisfyingthisruleExamplescoveredbyRule3ExamplescoveredbyRule2ExamplescoveredbyRule1PositiveexamplesECUST--JingZhang如何學(xué)習(xí)規(guī)則束搜索(beamsearch)從空規(guī)則開始,然后逐漸地向它添加屬性測(cè)試選擇屬性的方法—貪心的深度優(yōu)先策略每當(dāng)面臨添加一個(gè)新的屬性測(cè)試到當(dāng)前規(guī)則時(shí),它根據(jù)訓(xùn)練樣本選擇最能提高規(guī)則質(zhì)量屬性的測(cè)試規(guī)則質(zhì)量度量熵:對(duì)數(shù)據(jù)集D的元組分類所需要的期望信息偏向于覆蓋單個(gè)類大量元組和少量其他類的元組的條件信息增益:偏向于具有高準(zhǔn)確率并且覆蓋許多正元組的規(guī)則考慮覆蓋率的統(tǒng)計(jì)檢驗(yàn):將規(guī)則覆蓋的元組的觀測(cè)類分布與規(guī)則做隨機(jī)預(yù)測(cè)產(chǎn)生的期望類分布進(jìn)行比較有助于識(shí)別具有顯著覆蓋率的規(guī)則規(guī)則剪枝使用上述方法產(chǎn)生的規(guī)則,可能過分?jǐn)M合訓(xùn)練數(shù)據(jù),而對(duì)于測(cè)試數(shù)據(jù)集可能效果沒有那么好,為此可以對(duì)規(guī)則進(jìn)行適當(dāng)?shù)募糁OIL使用的剪枝法其中pos和neg分別為規(guī)則R覆蓋的正元組和負(fù)元組數(shù)。這個(gè)值將隨R在剪枝集上的準(zhǔn)確率增加。如果R剪枝后的FOIL_Prune值較高,則對(duì)R剪枝。剪枝從最近添加的合取項(xiàng)開始,只要剪枝導(dǎo)致改進(jìn),則一次減去一個(gè)合取項(xiàng)分類和預(yù)測(cè)51什么是分類?什么是預(yù)測(cè)?關(guān)于分類和預(yù)測(cè)的問題用決策樹歸納分類貝葉斯分類基于規(guī)則的分類用后向傳播分類支持向量機(jī)其它分類方法預(yù)測(cè)準(zhǔn)確率和誤差的度量評(píng)估分類器或預(yù)測(cè)器的準(zhǔn)確率小結(jié)52分類的數(shù)學(xué)模型分類:

預(yù)測(cè)類標(biāo)號(hào)E.g.,Personalhomepageclassificationxi=(x1,x2,x3,…),yi=+1or–1x1:#ofword“homepage”x2:#ofword“welcome”MathematicallyxX=n,yY={+1,–1}Wewantafunctionf:XY

53通過后向傳播分類后向傳播(Backpropagation):一種神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)方法由心理學(xué)家和神經(jīng)學(xué)家開發(fā)和測(cè)試神經(jīng)的計(jì)算模擬神經(jīng)網(wǎng)絡(luò):連接輸入/輸出單元的集合,其中每一個(gè)連接都有一個(gè)權(quán)重與之相關(guān)聯(lián)在學(xué)習(xí)階段,通過調(diào)整權(quán)重使得能夠正確地預(yù)測(cè)輸入元組的類標(biāo)號(hào)來學(xué)習(xí)網(wǎng)絡(luò)。由于單元之間的連接,神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)又稱連接者學(xué)習(xí)(connectionistlearning)。54神經(jīng)網(wǎng)絡(luò)作為分類器缺點(diǎn)訓(xùn)練時(shí)間過長(zhǎng)

需要大量的參數(shù),且這些參數(shù)的值大部分依靠經(jīng)驗(yàn)獲得,如網(wǎng)絡(luò)拓?fù)浠蚪Y(jié)構(gòu)可解釋性差:很難解釋網(wǎng)絡(luò)中學(xué)習(xí)的權(quán)重和“隱藏單元”的符號(hào)含義優(yōu)點(diǎn)對(duì)噪音數(shù)據(jù)的高承受能力對(duì)未經(jīng)訓(xùn)練的數(shù)據(jù)的模式分類能力適合連續(xù)值的輸入和輸出已經(jīng)成功地用于廣泛的現(xiàn)實(shí)世界數(shù)據(jù)算法是固有并行的,可使用并行技術(shù)加快計(jì)算過程最近已經(jīng)開發(fā)了一些從訓(xùn)練過的神經(jīng)網(wǎng)絡(luò)提取規(guī)則的技術(shù)神經(jīng)網(wǎng)絡(luò)Then-dimensionalinputvectorxismappedintovariableybymeansofthescalarproductandanonlinearfunctionmappingmk-fweightedsumInputvectorxoutputyActivationfunctionweightvectorw?w0w1wnx0x1xnbias56多層前向反饋神經(jīng)網(wǎng)絡(luò)OutputlayerInputlayerHiddenlayerOutputvectorwij57多層神經(jīng)網(wǎng)絡(luò)是如何工作的神經(jīng)網(wǎng)絡(luò)的輸入對(duì)應(yīng)于每個(gè)訓(xùn)練元組測(cè)量的屬性輸入同時(shí)提供給稱作“輸入層”的單元這些輸入通過輸入層,然后加權(quán)同時(shí)提供給稱作隱藏層的“類神經(jīng)元”第二層。隱藏層的數(shù)目是任意的,盡管通常只有一層

最后一個(gè)隱藏層的加權(quán)輸出作為構(gòu)成輸出層的單元的輸入。輸出層發(fā)布給定給定元組的網(wǎng)絡(luò)預(yù)測(cè)。如果其權(quán)重都不回送到輸入單元,或前一層的輸出單元,則該網(wǎng)絡(luò)是前向反饋的。從統(tǒng)計(jì)觀點(diǎn)來看,神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)的是非線性回歸:給定足夠多的隱藏單元和足夠多的訓(xùn)練樣本,多層前饋網(wǎng)絡(luò)可以逼近任何函數(shù)58定義網(wǎng)絡(luò)拓?fù)浯_定網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu):輸入層的單元數(shù),隱藏層的層數(shù)(if>1),每個(gè)隱藏層的單元數(shù),以及輸出層的單元數(shù)對(duì)訓(xùn)練元組中每個(gè)屬性的測(cè)量輸入值進(jìn)行規(guī)范化,使之落入[0.0—1.0]之間每個(gè)域值一個(gè)輸入單元,每個(gè)單元初始化為0輸出:

對(duì)于分類,并且超過兩個(gè)類,每個(gè)類一個(gè)輸出單元一旦網(wǎng)絡(luò)經(jīng)過訓(xùn)練且準(zhǔn)確率不能接受,通常用不同的網(wǎng)絡(luò)拓?fù)浠虿煌某跏紮?quán)重集合,重復(fù)訓(xùn)練過程59后向傳播后向傳播迭代地處理訓(xùn)練元組數(shù)據(jù)集,將每個(gè)元組的網(wǎng)絡(luò)預(yù)測(cè)與實(shí)際已知的目標(biāo)值比較。對(duì)每個(gè)訓(xùn)練樣本,修改權(quán)重使網(wǎng)絡(luò)預(yù)測(cè)和實(shí)際目標(biāo)值之間均方誤差最小。修改“后向”進(jìn)行:由輸出層,經(jīng)由每個(gè)隱藏層,到第一個(gè)隱藏層,因此稱作“后向傳播”步驟初始化網(wǎng)絡(luò)的所有權(quán)重(為很小的隨機(jī)數(shù))和偏倚向前傳播輸入(通過激勵(lì)函數(shù))向后傳播誤差(通過更新權(quán)重和誤差)終止條件(當(dāng)錯(cuò)誤非常小等)60后向傳播和可解釋性知識(shí)的表示提取隱藏在訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)中的知識(shí),并用符號(hào)解釋這些知識(shí)的研究從網(wǎng)絡(luò)提取規(guī)則:網(wǎng)絡(luò)剪枝通過剪去對(duì)訓(xùn)練后的網(wǎng)絡(luò)影響最小的加權(quán)鏈簡(jiǎn)化網(wǎng)絡(luò)結(jié)構(gòu)一旦訓(xùn)練后的網(wǎng)絡(luò)已剪枝,某些方法將進(jìn)行鏈、單元或活躍值聚類研究輸入值和活躍值的集合,導(dǎo)出描述輸入和隱藏單元層聯(lián)系的規(guī)則。靈敏度分析:用于評(píng)估一個(gè)給定的輸入變量對(duì)網(wǎng)絡(luò)輸出的影響。從這種分析得到的知識(shí)是形如“IFX減少5%THENY增加8%”的歸責(zé)。分類和預(yù)測(cè)61什么是分類?什么是預(yù)測(cè)?關(guān)于分類和預(yù)測(cè)的問題用決策樹歸納分類貝葉斯分類基于規(guī)則的分類用后向傳播分類支持向量機(jī)其它分類方法預(yù)測(cè)準(zhǔn)確率和誤差的度量評(píng)估分類器或預(yù)測(cè)器的準(zhǔn)確率小結(jié)62SVM—支持向量機(jī)一種線性和非線性數(shù)據(jù)的有前途的新分類方法它使用一種非線性映射將原有訓(xùn)練數(shù)據(jù)映射到高維在新的維上,它搜索線性最佳分離超平面(即決策邊界)使用一個(gè)適當(dāng)?shù)膶?duì)足夠高維的非線性映射,兩類的數(shù)據(jù)總可以被超平面分開。SVM使用支持向量(“基本”訓(xùn)練元組)和邊緣(由支持向量定義)發(fā)現(xiàn)該超平面63SVM—?dú)v史和應(yīng)用Vapnik和他的同事(1992)—基礎(chǔ)理論來自于Vapnik&Chervonenkis’在六十年代關(guān)于統(tǒng)計(jì)學(xué)習(xí)理論的研究特征:雖然訓(xùn)練時(shí)間長(zhǎng),但對(duì)復(fù)雜的非線性決策邊界的建模能力是高度準(zhǔn)確的,且不容易過分?jǐn)M合。用于:分類和數(shù)值預(yù)測(cè)應(yīng)用:手寫數(shù)字識(shí)別,對(duì)象識(shí)別,語音識(shí)別,以及基準(zhǔn)時(shí)間序列預(yù)測(cè)檢驗(yàn)

64SVM—邊界和支持向量SupportVectorsSmallMarginLargeMargin65SVM—當(dāng)數(shù)據(jù)是線性可分的mLetdataDbe(X1,y1),…,(X|D|,y|D|),whereXiisthesetoftrainingtuplesassociatedwiththeclasslabelsyiThereareinfinitelines(hyperplanes)separatingthetwoclassesbutwewanttofindthebestone(theonethatminimizesclassificationerroronunseendata)SVMsearchesforthehyperplanewiththelargestmargin,i.e.,maximummarginalhyperplane(MMH)66SVM—線性可分分離超平面可以記作W●X+b=0其中W={w1,w2,…,wn}是權(quán)重向量,b是一個(gè)標(biāo)量(偏倚)對(duì)于2-D的訓(xùn)練元組,分離超平面可以寫作w0+w1x1+w2x2=0分離超平面定義邊界的兩邊:H1:w0+w1x1+w2x2≥1foryi=+1,andH2:w0+w1x1+w2x2≤–1foryi=–1落在超平面H1

或H2(即定義邊緣的兩側(cè))上的訓(xùn)練元組稱為支持向量67為什么SVM對(duì)高維數(shù)據(jù)有效?學(xué)習(xí)后的分類器的復(fù)雜度由支持向量數(shù)而不是由數(shù)據(jù)的維數(shù)刻畫支持向量是基本或臨界的訓(xùn)練元組它們離決策邊界(MMH)最近如果刪除所有其他元組并重復(fù)訓(xùn)練,則將發(fā)現(xiàn)相同的分離超平面找到的支持向量數(shù)可以用來計(jì)算SVM分類器的期望誤差率的上界,這獨(dú)立于數(shù)據(jù)的維數(shù)。具有少量支持向量的SVM可以具有很好的推廣性能,即使數(shù)據(jù)的維度很高時(shí)也如此68SVM—線性不可分轉(zhuǎn)換原始輸入數(shù)據(jù)到一個(gè)更高維的空間在新的空間搜索一個(gè)線性分割超平面分類和預(yù)測(cè)69什么是分類?什么是預(yù)測(cè)?關(guān)于分類和預(yù)測(cè)的問題用決策樹歸納分類貝葉斯分類基于規(guī)則的分類用后向傳播分類支持向量機(jī)其它分類方法預(yù)測(cè)評(píng)估分類器或預(yù)測(cè)器的準(zhǔn)確率小結(jié)其它的分類方法ECUST--JingZhang70惰性學(xué)習(xí)法k-最近鄰分類基于案例的推理遺傳算法粗糙集方法模糊集方法71惰性學(xué)習(xí)法vs.急切學(xué)習(xí)法惰性vs.急切學(xué)習(xí)惰性學(xué)習(xí)(基于實(shí)例的學(xué)習(xí)):簡(jiǎn)單存儲(chǔ)訓(xùn)練數(shù)據(jù)(或只是稍加處理)并且一直等到給定一個(gè)檢驗(yàn)元組。急切學(xué)習(xí)(前面我們講過的所有方法):給定訓(xùn)練元組的集合,在收到新的測(cè)試數(shù)據(jù)進(jìn)行分類之前先構(gòu)造一個(gè)分類器模型惰性學(xué)習(xí):花費(fèi)極少的時(shí)間用來訓(xùn)練,更多的時(shí)間用來預(yù)測(cè)。準(zhǔn)確性惰性學(xué)習(xí)法具有豐富的假設(shè)空間,因?yàn)樗煤芏嗟木植烤€性函數(shù)去構(gòu)造目標(biāo)函數(shù)內(nèi)在的全局近似急切學(xué)習(xí):必須用單個(gè)假設(shè)覆蓋所有的實(shí)例空間惰性學(xué)習(xí)法ECUST--JingZhang72惰性學(xué)習(xí)法

存放所有的訓(xùn)練樣本,并且直到新的樣本需要分類時(shí)才建立分類典型的方法k-最近鄰分類把訓(xùn)練樣本作為歐氏空間的點(diǎn)存放基于案例的推理使用符號(hào)描述和基于知識(shí)的推論k-最近鄰分類ECUST--JingZhang73基于類比學(xué)習(xí)所有樣本用n維數(shù)值屬性描述,對(duì)應(yīng)于n維空間的點(diǎn)最近的鄰居是用歐幾里德距離定義的兩個(gè)點(diǎn)X=(x1,x2,...,xn)和Y=(y1,y2,...,yn)的歐幾里德距離定義如下:k-最近鄰分類ECUST--JingZhang74K-最近鄰分類法搜索模式空間,找出最接近未知樣本的k個(gè)訓(xùn)練樣本。這k個(gè)訓(xùn)練樣本是未知樣本的k個(gè)“近鄰”未知樣本被分類到k個(gè)最近鄰者中最公共的類。75有關(guān)KNN算法的討論最近鄰分類可以用于預(yù)測(cè),返回給定未知樣本的實(shí)數(shù)值預(yù)測(cè)分類返回未知樣本的k個(gè)最臨近者實(shí)數(shù)值的平均值距離權(quán)重的最近鄰算法根據(jù)其與查詢點(diǎn)xq之間的距離,給k個(gè)近鄰分配不同的權(quán)重給更近的鄰居以更大的權(quán)重通過求最近鄰的平均值可以平滑噪音不相關(guān)屬性可能會(huì)影響最近鄰分類法的準(zhǔn)確率

為此,需要對(duì)最近不相關(guān)數(shù)據(jù)進(jìn)行剪枝基于案例的推理(CBR)ECUST--JingZhang76CBR:使用一個(gè)問題解的數(shù)據(jù)庫來求解新問題與kNN的相同點(diǎn):消極評(píng)估+分析相似實(shí)例與kNN的不同點(diǎn):實(shí)例不是“歐氏空間中的點(diǎn)”,而是復(fù)雜的符號(hào)描述方法實(shí)例可以用豐富的符號(hào)描述表示(例如,功能圖)檢索到的多個(gè)相似案例可以被合并案例檢索、基于知識(shí)的推理和問題求解間是緊密耦合在一起的研究課題找到好的相似度度量為索引訓(xùn)練案例,選擇顯著的特征和開發(fā)有效的索引技術(shù)基于句法相似性度量的索引,失敗時(shí),回溯搜索另外的實(shí)例以適應(yīng)現(xiàn)有的案例遺傳算法ECUST--JingZhang77遺傳算法:基于類似于生物進(jìn)化的思想遺傳學(xué)習(xí)創(chuàng)建一個(gè)由隨機(jī)產(chǎn)生的規(guī)則組成的初始群體每個(gè)規(guī)則用一個(gè)二進(jìn)位串表示例如:IFA1andNotA2thenC2可以用“100”編碼其中最左邊的兩個(gè)二進(jìn)位分別表示屬性A1和A2,而最右邊的二進(jìn)位表示類。如果一個(gè)屬性具有k(k>2)個(gè)值,則可以用k個(gè)二進(jìn)位對(duì)該屬性值編碼。類可用類似的形式編碼。根據(jù)適者生存的原則,形成由當(dāng)前群體中最合適的規(guī)則組成的新的群體,以及這些規(guī)則的后代規(guī)則的擬合度(fitness)用它對(duì)訓(xùn)練本集的分類準(zhǔn)確率評(píng)估通過交叉和變異來產(chǎn)生后代交叉:來自規(guī)則對(duì)的子串交換,形成新的規(guī)則對(duì)變異:規(guī)則串中隨機(jī)選擇的位被反轉(zhuǎn)78粗糙集方法粗糙集用于近似地或“粗糙地”定義等價(jià)類。給定類C的粗糙集通過兩個(gè)集合近似:C的下近似(一定屬于C)和C的上近似(不可能認(rèn)為不屬于C)找到可以描述給定數(shù)據(jù)集中所有概念的最小屬性子集(歸約集)問題是NP困難的。但是可以用識(shí)別矩陣discernibilitymatrix(存放每對(duì)數(shù)據(jù)元組的屬性值之間的差別)來降低計(jì)算強(qiáng)度。模糊集方法79基于規(guī)則的分類的缺點(diǎn)對(duì)于連續(xù)屬性,有陡峭的截?cái)?。例如:IF(years_employed>=2)and(income>=50k)thencredit=“approved”模糊邏輯使用0.0到1.0之間的真值表示一個(gè)特定的值是一個(gè)給定類成員的隸屬程度模糊邏輯的使用真值被轉(zhuǎn)換成模糊值e.g.收入被映射到一個(gè)離散的分類{low,medium,high},然后使用模糊邏輯,允許對(duì)每個(gè)類定義“模糊”閾值或邊界。對(duì)于給定的新樣本,可以使用多個(gè)模糊規(guī)則。每個(gè)可用的規(guī)則為分類的成員關(guān)系貢獻(xiàn)一票。通常,對(duì)每個(gè)預(yù)測(cè)分類的真值進(jìn)行求和,并組合這些和。分類和預(yù)測(cè)80什么是分類?什么是預(yù)測(cè)?關(guān)于分類和預(yù)測(cè)的問題用決策樹歸納分類貝葉斯分類基于規(guī)則的分類用后向傳播分類支持向量機(jī)其它分類方法預(yù)測(cè)準(zhǔn)確率和誤差的度量評(píng)估分類器或預(yù)測(cè)器的準(zhǔn)確率小結(jié)什么是預(yù)測(cè)?ECUST--JingZhang81預(yù)測(cè)與分類相似首先,建立一個(gè)模型其次,使用模型預(yù)測(cè)未知值預(yù)測(cè)的主要方法是回歸線性回歸和多元回歸非線性回歸預(yù)測(cè)與分類不同分類是指預(yù)測(cè)分類的類標(biāo)號(hào)預(yù)測(cè)為連續(xù)值函數(shù)建模線性回歸82線性回歸是最簡(jiǎn)單的回歸形式,采用直線建模。雙變量回歸將一個(gè)隨機(jī)變量Y(稱作響應(yīng)變量)視為另一個(gè)隨機(jī)變量X(稱為預(yù)測(cè)變量)的線性函數(shù),即Y=α+βX

其中,Y的方差為常數(shù),α和β是回歸系數(shù),分別表示直線在Y軸的截?cái)嗪托甭?。這些系數(shù)可以用最小二乘法求解,這使得實(shí)際數(shù)據(jù)與該直線的估計(jì)之間誤差最小。給定s個(gè)樣本或形如(x1,y1),(x2,y2),..,(xs,ys)的數(shù)據(jù)點(diǎn),回歸系數(shù)α和β可以用下列公式計(jì)算。是x1,x2,..,xs

的均值,而

是y1,y2,..,ys的均值多元線性回歸與非線性回歸ECUST--JingZhang83多元線性回歸是線性回歸的擴(kuò)展,涉及多個(gè)預(yù)測(cè)變量。響應(yīng)變量Y

可以是一個(gè)多維特征向量的線性函數(shù)?;趦蓚€(gè)預(yù)測(cè)屬性或變量X1

和X2

的多元線性回歸模型可以表示為:Y=α+β1X1+β2X2

α,β1和β2可以用最小二乘法求解非線性回歸在基本線性模型上添加多項(xiàng)式項(xiàng)建模,通過對(duì)變量進(jìn)行變換,將非線性模型轉(zhuǎn)換成線性的,然后用最小二乘方法求解。例:轉(zhuǎn)換成:廣義線性模型廣義線性模型提供了將線性回歸用于分類響應(yīng)變量的理論基礎(chǔ)。廣義線性模型中,響應(yīng)變量Y的方差是Y的平均值的函數(shù)。廣義線性模型的常見形式包括對(duì)數(shù)回歸和泊松回歸。對(duì)數(shù)回歸將某些事件發(fā)生的概率看作預(yù)測(cè)變量集的線性函數(shù)。計(jì)數(shù)數(shù)據(jù)常常呈現(xiàn)泊松分布,可使用泊松回歸建模。ECUST--JingZhang84分類和預(yù)測(cè)85什么是分類?什么是預(yù)測(cè)?關(guān)于分類和預(yù)測(cè)的問題用決策樹歸納分類貝葉斯分類基于規(guī)則的分類用后向傳播分類支持向量機(jī)其它分類方法預(yù)測(cè)準(zhǔn)確率和誤差的度量評(píng)估分類器或預(yù)測(cè)器的準(zhǔn)確率小結(jié)分類器評(píng)估度量:準(zhǔn)確率和誤差率ECUST--JingZhang86Actualclass\PredictedclassC1~C1C1TruePositives(TP)FalseNegatives(FN)~C1FalsePositives(FP)TrueNegatives(TN)分類器的正確率或識(shí)別率:被正確分類的測(cè)試元組占測(cè)試元組總數(shù)的百分比

混淆矩陣:錯(cuò)誤率:

1–

accuracy,orECUST--JingZhang87分類器評(píng)估度量:混淆矩陣的例子Actualclass\Predictedclassbuy_computer=yesbuy_computer=noTotalRecognition(%)buy_computer=yes695446700099.34buy_computer=no4122588300086.27Total736626341000095.42給定m

個(gè)類,混淆矩陣至少是m*m的表,CMi,j

表示類i用分類器分到類j的元組數(shù)。附加的行或列,可以提供每個(gè)類的合計(jì)或識(shí)別率ECUST--JingZhang88分類器評(píng)估度量:靈敏性和特效性類不平衡問題:某一個(gè)類可能比較稀少,比如:詐騙檢測(cè)顯著多數(shù)的負(fù)類和少數(shù)的正類

靈敏性:真正(識(shí)別)率,特效性:真負(fù)(識(shí)別)率,ECUST--JingZhang89分類器評(píng)估度量:準(zhǔn)確率和召回率Precision:正確性

–what%oftuplesthattheclassifierlabeledaspositiveareactuallypositive?Recall:完整性–what%ofpositivetuplesdidtheclassifierlabelaspositive?

Perfectscoreis1.0precision&recall之間是相反的關(guān)系

ECUST--JingZhang90分類器評(píng)估度量:例子Actualclass\Predictedclasscancer=yescancer=noTotalRecognition(%)cancer=yes9021030030.00sensitivitycancer=no1409560970098.56specificityTotal23097701000096.40accuracyPrecision=90/230=39.13%;Recall=90/300=30.00%分類和預(yù)測(cè)91什么是分類?什么是預(yù)測(cè)?關(guān)于分類和預(yù)測(cè)的問題用決策樹歸納分類貝葉斯分類基于規(guī)則的分類用后向傳播分類支持向量機(jī)其它分類方法預(yù)測(cè)準(zhǔn)確率和誤差的度量評(píng)估分類器或預(yù)測(cè)器的準(zhǔn)確率小結(jié)評(píng)估分類法的準(zhǔn)確率92保持(holdout)使用兩個(gè)獨(dú)立的數(shù)據(jù)集,例如,訓(xùn)練集(2/3),測(cè)試集(1/3)估計(jì)是悲觀的,因?yàn)橹挥靡徊糠殖跏紨?shù)據(jù)導(dǎo)出模型用于具有大數(shù)量樣本的數(shù)據(jù)集隨機(jī)子抽樣(randomsubsampling):保持方法的變形,把保持方法重復(fù)k次。交叉確認(rèn)(cross-validation)把數(shù)據(jù)集分成k個(gè)互不相交的子樣本集訓(xùn)練和檢驗(yàn)進(jìn)行k次使用k-1子樣本集作為訓(xùn)練數(shù)據(jù),一個(gè)子樣本作為測(cè)試數(shù)據(jù)k-折交叉確認(rèn)適用于具有

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論