![數(shù)據(jù)挖掘復習-chapter_第1頁](http://file4.renrendoc.com/view/381e0d1269e1b4e2e575fe2839a35199/381e0d1269e1b4e2e575fe2839a351991.gif)
![數(shù)據(jù)挖掘復習-chapter_第2頁](http://file4.renrendoc.com/view/381e0d1269e1b4e2e575fe2839a35199/381e0d1269e1b4e2e575fe2839a351992.gif)
![數(shù)據(jù)挖掘復習-chapter_第3頁](http://file4.renrendoc.com/view/381e0d1269e1b4e2e575fe2839a35199/381e0d1269e1b4e2e575fe2839a351993.gif)
![數(shù)據(jù)挖掘復習-chapter_第4頁](http://file4.renrendoc.com/view/381e0d1269e1b4e2e575fe2839a35199/381e0d1269e1b4e2e575fe2839a351994.gif)
![數(shù)據(jù)挖掘復習-chapter_第5頁](http://file4.renrendoc.com/view/381e0d1269e1b4e2e575fe2839a35199/381e0d1269e1b4e2e575fe2839a351995.gif)
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第8章分類–分類?用判定樹歸納分類分類基于規(guī)則的分類分類的準確性小結Data
Mining:
Concepts
andTechniques1星期二分類分類:–
分類的類標號
(class
labels)(離散的或標稱的)–基于訓練數(shù)據(jù)和和類標號屬性上的值(類標號)構造模型,并使用它對新的數(shù)據(jù)進行分類典型應用–
認證(credit
approval)–醫(yī)療
(medical
diagnosis)Data
Mining:
Concepts
andTechniques2星期二分類:包括兩步過程模型構造:描述預先確定的數(shù)據(jù)類或概念集假定每個元組屬于一個預定義的類,由一個類標號屬性確定基本概念訓練數(shù)據(jù)集:由為建立模型而被分析的數(shù)據(jù)元組形成訓練樣本:訓練數(shù)據(jù)集中的單個樣本(元組)模型用分類規(guī)則、判定樹或數(shù)學公式的形式提供模型使用:對未來的或未知的對象分類評估模型的精度檢驗(測試)樣本的已知標號與模型分類結果進行比較準確率:是正確被模型分類的檢驗樣本的百分比檢驗樣本獨立于訓練集,否則將出現(xiàn)過分擬合Data
Mining:
Concepts
andTechniques3星期二分類過程
(1):模型構造訓練數(shù)據(jù)NAMERANKYEARSTENUREDMikeAssistant
Prof3nossistant
Prof7yesBillProfessor2yesJimAssociate
Prof7yesDaveAssistant
Prof6noAnneAssociate
Prof3no分類算法IF
rank
=
‘professor’OR
years
>
6THEN
tenured
=‘yes’分類法(模型)Data
Mining:
Concepts
andTechniques4星期二分類過程
(2):使用模型分類分類法檢驗數(shù)據(jù)NAMERANKYEARSTENUREDTomAssistant
Prof2noMerlisaAssociate
Prof7noGeorgeProfessor5yesJosephAssistant
Prof7yes未知數(shù)據(jù)(Jeff,
Professor,
4)Tenured?Data
Mining:
Concepts
andTechniques5星期二有監(jiān)督學習VS.無監(jiān)督學習有監(jiān)督的學習
(分類)模型的學
知每個訓練樣本屬于哪個類的“指導”下進行
-訓練數(shù)據(jù)(觀測)具有類標號新數(shù)據(jù)的分類基于訓練集無監(jiān)督學習
(聚類)訓練數(shù)據(jù)的類標號未知給定度量,觀測等,目標是找出數(shù)據(jù)中的類或簇/聚類(clusters)Data
Mining:
Concepts
andTechniques6星期二第8章分類–分類?用判定樹歸納分類分類基于規(guī)則的分類分類的準確性小結Data
Mining:
Concepts
andTechniques7星期二用判定樹歸納分類?判定樹類似于流程圖的樹結構每個 節(jié)點表示在一個屬性上的測試每個分枝代表一個測試輸出每個樹葉節(jié)點代表類或類分布判定樹的生成由兩個階段構成判定樹構建開始時,所有的訓練樣本都在根節(jié)點遞歸的通過選定的屬性,來劃分樣本樹剪枝許多分枝反映的是訓練數(shù)據(jù)中的噪音和孤立點,樹剪枝試圖檢測和剪去這種分枝判定樹的使用:對未知樣本進行分類通過將樣本的屬性值與判定樹相比較Data
Mining:
Concepts
andTechniques8星期二期二Techniques訓練數(shù)據(jù)集<=30>40<
3031…4031…40>40輸出:一棵判定樹“
puter”age?student?credit
rating?noyes30..40<30>40noyesyesnoyesexcellentfairData
Mining:
Concepts
andTechniques10星期二判定樹歸納算法基本思想判定樹以自頂向下,遞歸分治的方式構造屬性的選擇基于啟發(fā)式或統(tǒng)計度量(例如,信息增益)節(jié)點上的樣本遞歸地基于選定的屬性劃分停止劃分的條件Data
Mining:
Concepts
andTechniques11星期二判定樹歸納算法算法:Generate_decision_tree。由給定的訓練數(shù)據(jù)產(chǎn)生一棵判定樹。輸入:訓練樣本samples,由離散值屬性表示;候選屬性的集合attribute_list。輸出:一棵判定樹。創(chuàng)建結點N;if
samples
都在同一個類C
thenreturnN
作為葉結點,以類C標記;if
attribut_list
為空thenreturn
N
作為葉結點,標記為samples中最普Data
Mining:
Concepts
and12星//majorityvotingT多echn的ique類s;期二判定樹歸納算法(續(xù))選擇attribute_list中具有最高信息增益的屬性test_attribute;標記結點
N
為test_attribute;for
each
test_attribute
中的未知值a
i//partition
the
samples由結點N
長出一個條件為test_attribute
=a
i的分枝;
設si
是samples
中test_attribute=a
i的樣本的集合;//a
partitionif
si
為空then(12)加上一個樹葉,標記為samples中最普通的類;(13)
else
加上一個由Generate_decision_tree(si,attribute_list–test_attribute)返回的結點;Data
Mining:
Concepts
andTechniques13星期二屬性選擇度量–信息增益ID3/C4.5使用的方法D包含|D|個樣本,其中類Ci的樣本數(shù)為|Di
|,
i={1,…,m}對一個給定的樣本分類所需的期望信息log2
(
pi
)mInfo(D)
pii1Data
Mining:
Concepts
andTechniques14星期二屬性選擇度量–信息增益(續(xù))設屬性A具有v個不同值{a1,...,av}.可以用屬性A將D劃分為v個子集{D1,...,Dv};其中,Dj包含S中這樣一些樣本,它們在A上具有值aj.根據(jù)A劃分子集的熵(entropy)或期望信息vj
1s
jAInfo
(D)
jInfo(D
)sData
Mining:
Concepts
andTechniques15星期二屬性選擇度量
–信息增益(續(xù))在A上分枝的信息增益是Gain
Info(D)
InfoA
(D)算法計算每個屬性的信息增益.具有最高信息增益的屬性選作給定集合S的測試屬性,創(chuàng)建一個結點,并以該屬性標記,對屬性的每個值創(chuàng)建分枝,并據(jù)此劃分樣本Data
Mining:
Concepts
andTechniques16星期二星期二Data
Mining:
Concepts
andTechniques17例:
判定樹歸納(訓練數(shù)據(jù)集)9<=30lo10>40m11<=30m1231…40m1331…40h14>40m例:
判定樹歸納類標號屬性
puter有兩個不同值(即,
{yes,
no}),因此有兩個不同的類(m
=2).設類C1對應于yes,而類C2對應于no.類yes有9個樣本,類no有5個樣本–計算對給定樣本分類所需的期望信息14Info(D)
9
logData
Mining:
Concepts
andTechniques18星期二例:
判定樹歸納(續(xù))計算每個屬性的熵,以屬性age
為例如果樣本按age劃分,對一個給定的樣本分類所需的期望信息為54agIn
(
)2)2
514
5
52
5
5
(
3
log
3
2
log
0.694Data
Mining:
Concepts
andTechniques19星期二例:
判定樹歸納(續(xù))這種劃分的信息增益是Gain(age)
Info類似地,通過計算得到–
Gain( e)
=
0.029Gain(student)
=
0.151Gain(credit_rating)
=
0.048由于age在屬性中具有最高信息增益,它被選作測試屬性.創(chuàng)建一個結點,用age標記,并對于每個屬性值,引出一個分枝,據(jù)此劃分樣本Data
Mining:
Concepts
andTechniques20星期二例:
判定樹歸納(續(xù))用age劃分樣本,構造判定樹的根和Data
Mining:
Concepts
andTechniques21星期二例:
判定樹歸納(續(xù))age?student?credit
rating?noyes30..40<30>40noyesyesnoyesexcellentfair最終的判定樹Data
Mining:
Concepts
andTechniques22星期二如何計算連續(xù)值屬性的信息增益屬性值按遞增排序,每對相鄰值的中點看成可能的
點對每個可能的
點,計算InfoA(D),選最大的點作為
點其它的屬性選擇度量方法增益率:傾向于產(chǎn)生不平衡的劃分基尼指數(shù)……注意:所有的度量都有某種偏倚傾向于產(chǎn)生較淺的樹的度量可能更可取偏向于多值屬性Product_id,合理嗎?Data
Mining:
Concepts
andTechniques23星期二ID3算法ID3算法采用信息增益作為屬性選擇度量缺點:信息增益傾向于特征取值的數(shù)目較多的特征ID3在建樹時。每個節(jié)點僅含一個特征,特征間的相關性強調不夠對噪聲較為敏感要求離散屬性Data
Mining:
Concepts
andTechniques24星期二8.2.3
樹剪枝過分擬合: 判定樹可能過分擬合訓練數(shù)據(jù)分枝太多,由于數(shù)據(jù)中的噪音和孤立點,許多分枝反映的是訓練數(shù)據(jù)中的異常對新數(shù)據(jù)的 精度差兩種避免過分擬合的方法先剪枝(prepruning)很難選擇合適的閾值是建樹過程中判斷當前節(jié)點是否需要繼續(xù)劃分的剪枝方法。通常是通過重要性檢測判斷是否停止 節(jié)點后剪枝(postpruning)是讓樹充分生長之后,再判斷是否將某些分支變成節(jié)點。常用方法是根據(jù)錯誤 率(或者決策樹編碼長度)進行決策樹的事后修剪Data
Mining:
Concepts
andTechniques25星期二剪枝前后的決策樹Data
Mining:
Concepts
andTechniques26星期二決策樹的重復和問題組合屬性劃分其它知識表示方法Data
Mining:
Concepts
andTechniques27星期二第8章分類–分類?–用判定樹歸納分類–分類基于規(guī)則的分類分類的準確性小結Data
Mining:
Concepts
andTechniques28星期二第8章分類–分類?用判定樹歸納分類分類基于規(guī)則的分類分類的準確性小結Data
Mining:
Concepts
andTechniques29星期二8.4.2由判定樹提取分類規(guī)則例:由上例的判定樹提取的規(guī)則IF
age
=
“<=30”
AND
student
=
“no”
THENIF
age
=
“<=30”
AND
student
=
“yes”
THENIF
age
=
“31…40”
THENIF
age
=
“>40”
AND
credit_rating
=
“excellent”
THENIF
age
=
“<=30”
AND
credit_rating
=
“fair”
THENputer
=
“no”puter
=
“yes”puter
=
“yes”puter
=
“yes”puter
=
“no”規(guī)則前件規(guī)則后件一條規(guī)則Data
Mining:
Concepts
andTechniques30星期二8.4.2由判定樹提取分類規(guī)則方法:對每條從根到樹葉結點的路徑創(chuàng)建一個規(guī)則。沿著給定路徑上的每個 準則的邏輯AND形成規(guī)則的前件存放類
的樹葉節(jié)點形成規(guī)則的后件注意:規(guī)則間是互斥的:即不存在規(guī)則是窮舉的:每種可能的屬性-值組合都存在一個規(guī)則規(guī)則是無序的Data
Mining:
Concepts
andTechniques31星期二第8章分類分類?用判定樹歸納分類分類基于規(guī)則的分類分類的準確性小結Data
Mining:
Concepts
andTechniques32星期二8.5.1評估分類器性能的度量圖8.14矩陣Data
Mining:
Concepts
andTechniques33星期二8.5.1評估分類器性能的度量圖8.13
評估度量類不平衡性問題Data
Mining:
Concepts
andTechniques34星期二Data
Mining:
Concepts
andTechniques35星期二模型評估與選擇(2)比較分類方法評估
的準確率:
模型正確地 新的或先前未見過的數(shù)據(jù)的類標號的能力速度:產(chǎn)生和使用模型的計算花費魯棒性:給定噪音數(shù)據(jù)或有空缺值的數(shù)據(jù),模型正確 的能力可伸縮性:給定大量數(shù)據(jù),有效地構造模型的能力用規(guī)模漸增的一系列數(shù)據(jù)集評估可解釋性:學習模型提供的理解和洞察的層次帶有 性,難易評估Data
Mining:
Concepts
andTechniques36星期二如何獲得可靠的分類器準確率評估8.5.2
保持方法和隨機二次抽樣保持方法評估分類法的準確性訓練集導出分類法評估精度數(shù)據(jù)測試集交叉驗證,……Data
Mining:
Concepts
andTechniques37星期二8.6
提高分類準確率的技術組合分類器提高分類法的準確性Data
Mining:
Concepts
andTechniques38星期二Data
Mining:
Concepts
andTechniques39星期二總結分類:
決策樹歸納、樸素
分類分類評價的度量
:準確率、錯誤率率如何獲得可靠的分類器準確率評估:保持交叉驗證提高分類準確率的技術:組合分類器Data
Mining:
Concepts
andTechniques40星期二References
(1)C.
Apte
and
S.
Weiss.
Data
mining
with
decision
trees
and
decision
rules.FutureGeneration
Computer
Systems,
13,
1997.L.
Breiman,
J.
Friedman,
R.
Olshen,
and
C.
Stone.
Classification
and
Regression
Trees.Wadsworth
International
Group,
1984.P.
K.
Chan
and
S.
J.
Stolfo.Learning
arbiter
and
combiner
trees
from
partitioned
datafor
scaling
machine
learning.
In
Proc.
1st
Int.Conf.
Knowledge
Discovery
and
DataMining
(KDD'95),
pages39-44,
Montreal,Canada,
August1995.U.
M.Fayyad.
Branching
on
attribute
values
in
decision
tree
generation.In
Proc.
1994AAAI
Conf.,pages601-606,
AAAI
Press,1994.J.
Gehrke,R.
Ramakrishnan,
and
V.Ganti.Rainforest:
A
frameworkforfastdecisiontree
construction
of
large
datasets.
In
Proc.
1998
Int.
Conf.
Very
Large
Data
Bases,pages
416-427,
New
York,NY,
August
1998.J.
Gehrke,
V.
Gant,
R.
Ramakrishnan,
and
W.-Y.
Loh,
BOAT
--
Optimistic
Decision
Tree
Construction
.
In
SIGMOD'99
,
Philadelphia,
Pennsylvania,
1999Data
Mining:
Concepts
andTechniques41星期二References
(2)M.
Kamber,
L.
Winstone,
W.
Gong,
S.
Cheng,
and
J.
Han.
Generalization
and
decision
treeinduction:
Efficient
classification
in
data
mining.
In
Proc.
1997
Int.
Workshop
Research
Issues
onData
Engineering
(RIDE'97),
Birmingham,
England,
April
1997.B.
Liu,
W.
Hsu,
and
Y.Ma.
Integrating
Classification
and
Association
Rule
Mining.
Proc.
1998
Int.Conf.
Knowledge
Discovery
and
Data
Mining
(KDD'98)
New
York,
NY,
Aug.
1998.W.
Li,
J.
Han,
and
J.
Pei,
CMAR:
Accurate
and
Efficient
Classification
Based
on
Multiple
Class-
Association
Rules,
,
Proc.
2001
Int.
Conf.
on
Data
Mining
(ICDM'01),
San
Jose,
CA,
Nov.
2001.J.
Magidson.
The
Chaid
approach
to
segmentation
modeling:
Chi-squared
automatic
interactiondetection.
In
R.
P.Bagozzi,
editor,
Advanced
Methods
of
Marketing
Research,
pages
118-159.Blackwell
Business,
Cambridge
Massechusetts,
1994.M.
Mehta,
R.
Agrawal,
and
J.
Rissanen.
SLIQ
:
A
fast
scalable
classifier
for
data
mining.(EDBT'96),
Avignon,
France,
March
1996.Data
Mining:
Concepts
andTechniques42星期二References
(3)T.
M.Mitc .
Machine
Learning.
McGraw
Hill,
1997.S.
K.
Murthy,
Automatic
Construction
of
Decision
Trees
from
Data:
A
Multi-Diciplinary
Survey,
DataMining
and
Knowledge
Discovery
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025至2031年中國游泳池水凈化處理設備行業(yè)投資前景及策略咨詢研究報告
- 2025至2031年中國持針器行業(yè)投資前景及策略咨詢研究報告
- 2025年度國際貨物運輸代理與國際貿易結算服務合同
- 2025年度城市地下綜合管廊建設合同模板
- 2025年度文化產(chǎn)業(yè)合作合同補充協(xié)議范本
- 二零二五年度蘇州房地產(chǎn)中介服務及國際業(yè)務拓展合同
- 2025年度塑料改性材料研發(fā)合作合同
- 2025年度水泥企業(yè)節(jié)能減排技術改造合同
- 醫(yī)院管理系統(tǒng)可行性分析報告
- 2025年度森林資源可持續(xù)利用護林員勞動合同書
- 具有履行合同所必須的設備和專業(yè)技術能力的承諾函-設備和專業(yè)技術能力承諾
- 混床計算書(新)
- 1325木工雕刻機操作系統(tǒng)說明書
- 初中衡水體英語(28篇)
- 斯瓦希里語輕松入門(完整版)實用資料
- 復古國潮風中國風春暖花開PPT
- GB/T 2317.2-2000電力金具電暈和無線電干擾試驗
- 機動車輛保險理賠實務2023版
- 病原微生物實驗室標準操作規(guī)程sop文件
- 最完善的高速公路機電監(jiān)理細則
- 建筑工程技術資料管理.ppt
評論
0/150
提交評論