版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第七章 概念描述7.1 概念描述基本知識(shí)7.2 數(shù)據(jù)概化與基于匯總的特征化7.3 解析特征化屬性相關(guān)分析7.4 挖掘概念比較區(qū)分不同的類(lèi)第七章概概念念描述(續(xù))DB中存存放大量量細(xì)節(jié)性性數(shù)據(jù),而用戶(hù)戶(hù)通常希希望以簡(jiǎn)簡(jiǎn)潔的描描述形式式觀察匯匯總的數(shù)數(shù)據(jù)集。這種描描述可提提供某類(lèi)數(shù)據(jù)據(jù)的概貌貌以及與其他數(shù)數(shù)據(jù)類(lèi)的的區(qū)別。此外,用戶(hù)希希望方便便靈活地地以不同同的粒度度和從不不同的角角度描述述數(shù)據(jù)集集。這種種描述性性數(shù)據(jù)挖挖掘稱(chēng)為為概念描描述,它它是數(shù)據(jù)據(jù)挖掘的的一個(gè)重重要部分分。7.1概概念念描述基基本知識(shí)識(shí)概念:通常指數(shù)數(shù)據(jù)的匯匯集。概念描述述:是描述式式數(shù)據(jù)挖挖掘最基基本形式式,它以以簡(jiǎn)潔匯匯總
2、的形形式描述述給定數(shù)數(shù)據(jù)集,提供數(shù)數(shù)據(jù)的有有趣的一一般特性性。7.1概概念念描述基基本知識(shí)識(shí)(續(xù))概念描述述的組成成:特征化:提供了了一個(gè)有有關(guān)數(shù)據(jù)據(jù)整體的的簡(jiǎn)潔清清晰描述述。(定定性描述述)比較:提供了了基于多多組不同同類(lèi)數(shù)據(jù)據(jù)的對(duì)比比概念描描述。(對(duì)比定定性描述述)7.1概概念念描述基基本知識(shí)識(shí)(續(xù))概念描述述與數(shù)據(jù)概化化密切相關(guān)關(guān)。給定定存放在在DB中中的大量量數(shù)據(jù),能夠以以簡(jiǎn)潔的的形式在在更一般般的抽象象層描述述數(shù)據(jù)是是很有用用的。允允許數(shù)據(jù)據(jù)集在多多個(gè)抽象象層概化化,便于于考察數(shù)數(shù)據(jù)的一一般行為為。這種多維,多多層數(shù)據(jù)據(jù)概化類(lèi)似于DW中的的多維數(shù)數(shù)據(jù)分析析。而概念描述述類(lèi)似于DW的O
3、LAP。7.1概概念念描述基基本知識(shí)識(shí)(續(xù))大型數(shù)據(jù)據(jù)庫(kù)的概概念描述述和數(shù)據(jù)據(jù)倉(cāng)庫(kù)的的OLAP有何差別別?概念描述述可處理理復(fù)雜的的數(shù)據(jù)類(lèi)類(lèi)型和聚聚集。概念描述述是自動(dòng)動(dòng)處理數(shù)數(shù)據(jù)挖掘掘過(guò)程。7.1概概念念描述基基本知識(shí)識(shí)(續(xù))概念描述述的方法法包括多層概化化、匯總總、特征征化和比比較。這些方法法形成實(shí)實(shí)現(xiàn)數(shù)據(jù)據(jù)挖掘的的兩個(gè)主主要功能能模塊的的基礎(chǔ):多層特征化和比較。第七章概概念念描述7.1概概念念描述基基本知識(shí)識(shí)7.2數(shù)數(shù)據(jù)據(jù)概化與與基于匯匯總的特特征化7.3解解析析特征化化屬性性相關(guān)分分析7.4挖挖掘掘概念比比較區(qū)區(qū)分不同同的類(lèi)7.2數(shù)數(shù)據(jù)據(jù)概化與與基于匯匯總的特征化數(shù)據(jù)概化化是一個(gè)個(gè)分析
4、過(guò)過(guò)程,它它將DB中與任任務(wù)相關(guān)關(guān)的大數(shù)數(shù)據(jù)集從從較低的的概念層層抽象到到較高的的概念層層。對(duì)大大量數(shù)據(jù)據(jù)進(jìn)行有有效靈活活的概化化方法主主要有兩兩種:數(shù)據(jù)立方方體方法法基于屬性性的歸納納方法1.數(shù)據(jù)據(jù)立方體體方法利用數(shù)據(jù)立方方體方法法進(jìn)行數(shù)據(jù)據(jù)概化,被分析析的數(shù)據(jù)據(jù)存放在在一個(gè)多多維數(shù)據(jù)據(jù)庫(kù)中,通過(guò)對(duì)對(duì)多維數(shù)數(shù)據(jù)立方方進(jìn)行上上卷或下下鉆操作作,可完完成數(shù)據(jù)據(jù)概化和和數(shù)據(jù)細(xì)細(xì)化工作作。1.數(shù)據(jù)據(jù)立方體體方法(續(xù))數(shù)據(jù)立方方體提供供了一種種有效的的數(shù)據(jù)概概化方法法,且構(gòu)構(gòu)成了描描述性數(shù)數(shù)據(jù)挖掘掘中一個(gè)個(gè)重要功功能。但但由于OLAP的數(shù)據(jù)據(jù)立方實(shí)實(shí)現(xiàn)是將將維的類(lèi)類(lèi)型限制制在簡(jiǎn)單單非數(shù)值值類(lèi)型,且將處
5、處理限制制在簡(jiǎn)單單數(shù)據(jù)匯匯總方面面,因此此數(shù)據(jù)立立方體并并不能解解決概念念描述所所能解決決的一些些重要問(wèn)問(wèn)題。如如:描述述中應(yīng)作作用哪些些維?概概化過(guò)程程應(yīng)進(jìn)行行到哪個(gè)個(gè)抽象層層次上?這些問(wèn)問(wèn)題均是是由用戶(hù)戶(hù)負(fù)責(zé)提提供答案案的。2.基于于屬性歸歸納方法法基本思想想:首先使用用RDB查詢(xún)收收集任務(wù)務(wù)相關(guān)的的數(shù)據(jù);然后通通過(guò)考察察任務(wù)相相關(guān)數(shù)據(jù)據(jù)中每個(gè)個(gè)屬性的的不同值值的個(gè)數(shù)數(shù),進(jìn)行行概化。數(shù)據(jù)概概化是通通過(guò)屬性刪除除或?qū)傩愿呕僮鱽?lái)完成。通過(guò)合合并相同同行并累累計(jì)它們們相應(yīng)的的個(gè)數(shù)。這自然然就減少少了概化化后數(shù)據(jù)據(jù)集的大大小,所所獲結(jié)果果以圖表表、規(guī)則則等多種種不同形形式提供供給用戶(hù)戶(hù)。2.基
6、于于屬性歸歸納方法法(續(xù))例1:從一個(gè)大大學(xué)數(shù)據(jù)據(jù)庫(kù)的學(xué)學(xué)生數(shù)據(jù)據(jù)中挖掘掘出研究究生的一一般特征征。給定定的屬性性有:姓姓名、性性別、專(zhuān)專(zhuān)業(yè)、出出生地、出生日日期、居居住地、電話(huà)和和GPA(平均等等級(jí)分)。AOI方方法的第一步:利用DB查詢(xún)語(yǔ)語(yǔ)言從大大學(xué)DB中將學(xué)學(xué)生數(shù)據(jù)據(jù)抽取出出來(lái),然然后指定定一組與與挖掘任任務(wù)相關(guān)關(guān)的屬性性集。2.基于于屬性歸歸納方法法(續(xù))由于數(shù)據(jù)據(jù)挖掘查查詢(xún)通常常只涉及及DB的的一部分分,選擇擇相關(guān)的的數(shù)據(jù)集集不僅使使得挖掘掘更有效效,而且且與在整整個(gè)DB挖掘相相比,能能產(chǎn)生更更有意義義的規(guī)則則。對(duì)用戶(hù)而而言,指指定挖掘掘的屬性性可能比比較困難難。有時(shí)時(shí),用戶(hù)戶(hù)只能選
7、選擇少量量他感到到可能重重要的屬屬性,而而遺漏在在描述中中可能起起作用的的其他屬屬性。2.基于于屬性歸歸納方法法(續(xù))如:出生地維由屬性性城市、省和國(guó)家定義。在在這些屬屬性中,用戶(hù)或或許只考考慮了城城市屬性性。為了了對(duì)出生生地進(jìn)行行概化處處理,就就必須將將出生地地概化所所涉及到到的其它它屬性包包含進(jìn)來(lái)來(lái)。換句句話(huà)說(shuō),系統(tǒng)自自動(dòng)地包包括省和和國(guó)家作作為相關(guān)關(guān)屬性,使得城城市可以以在歸納納過(guò)程中中概化到到較高的的概念層層。2.基于于屬性歸歸納方法法(續(xù))另一方面面,用戶(hù)戶(hù)可能引引進(jìn)過(guò)多多的屬性性,如:指定所所有的屬屬性,這這樣大學(xué)學(xué)DB的的所有屬屬性都將將包含在在分析中中,而有有些屬性性對(duì)有趣趣的
8、描述述是沒(méi)有有用的。姓名性別專(zhuān)業(yè)出生地出生日居住地電話(huà)GPA王東海男CS合肥市79.07.26合肥市金寨路6567李哲男CS合肥市80.12.08合肥市蕪湖路18670汪燕女PH上海市80.09.03上海市高安路1250號(hào)021-623819603.83初始工作作關(guān)系:任務(wù)相相關(guān)數(shù)據(jù)據(jù)的集合合2.基于于屬性歸歸納方法法(續(xù))對(duì)已經(jīng)準(zhǔn)準(zhǔn)備好的的數(shù)據(jù),如何進(jìn)進(jìn)行基于于屬性歸歸納?AOI方法的第第二步:進(jìn)行數(shù)據(jù)據(jù)概化操操作,可可用兩種種方法之之一進(jìn)行行:屬性刪除除,屬性概化化。2.基于于屬性歸歸納方法法(續(xù))屬性刪除除基于如下下規(guī)則:若一個(gè)
9、屬屬性有許許多不同同數(shù)值,且(a)該該屬性無(wú)無(wú)法進(jìn)行行概化操操作(如:沒(méi)沒(méi)有定義義相應(yīng)的的概念分分層),或(b)它它的更高高層次概概念是用用其他屬屬性描述述的,則該屬屬性應(yīng)當(dāng)當(dāng)從數(shù)據(jù)據(jù)集中刪刪除。2.基于于屬性歸歸納方法法(續(xù))屬性概化化基于如下下規(guī)則:若一個(gè)屬屬性有許許多不同同數(shù)值,且該屬屬性存在在一組概概化操作作,則可可以選擇擇一個(gè)概概化操作作對(duì)該屬屬性進(jìn)行行處理。屬性刪除除和屬性概化化兩個(gè)規(guī)則則都表明明,如果果某屬性性有大量量的不同同值,應(yīng)應(yīng)當(dāng)進(jìn)行行進(jìn)一步步概化。這就提提出一個(gè)個(gè)問(wèn)題:多大才算算“屬性性具有大大量不同同值”?2.基于于屬性歸歸納方法法(續(xù))這取決于于屬性或或應(yīng)用,有的用用
10、戶(hù)愿意意讓屬性性留在較較低的抽抽象層,而另一一些用戶(hù)戶(hù)愿意將將它們概概化到較較高的抽抽象層??刂茖傩愿鸥呕蕉喽喔叩某槌橄髮油ㄍǔJ窍嘞喈?dāng)主觀觀的。該該過(guò)程的的控制稱(chēng)稱(chēng)為屬性概化化控制。2.基于于屬性歸歸納方法法(續(xù))若屬性概概化得“太高”,則導(dǎo)導(dǎo)致過(guò)分分概化,產(chǎn)生的的規(guī)則可可能沒(méi)有有多少信信息。若屬性概概化沒(méi)有有達(dá)到“足夠高高的層次次”,則則“亞概概化”也也同樣可可能使得得到的規(guī)規(guī)則變得得失去意意義。因此在基于屬屬性歸納納時(shí),掌握概化化平衡非常重要要。2.基于于屬性歸歸納方法法(續(xù))有許多控控制概化化過(guò)程的的方法,下面是是兩種常常用的方方法:(1)屬屬性概化化閾值控控制該技術(shù)是是對(duì)所有有
11、屬性統(tǒng)統(tǒng)一設(shè)置置一個(gè)概概化閾值值(取值范圍圍一般為為2到8)。如果果屬性的的不同值值個(gè)數(shù)大大于屬性性概化閾閾值,則則應(yīng)當(dāng)進(jìn)進(jìn)行進(jìn)一一步的屬屬性刪除除或?qū)傩孕愿呕?.基于于屬性歸歸納方法法(續(xù))(2)概概化關(guān)系系閾值控控制為概化關(guān)關(guān)系設(shè)置置一個(gè)閾閾值(通通常取值值范圍為為10到到30)。如果果概化關(guān)關(guān)系中不不同元組組的個(gè)數(shù)數(shù)超過(guò)該該閾值,則應(yīng)當(dāng)當(dāng)進(jìn)一步步概化;否則,不再進(jìn)進(jìn)一步概概化。2.基于于屬性歸歸納方法法(續(xù))這兩種技技術(shù)可以以順序使使用:首首先使用用屬性概化化閾值控控制技術(shù)概化化每個(gè)屬屬性,然然后使用用概化關(guān)系系閾值控控制進(jìn)一步減減少概化化關(guān)系的的(規(guī)模模)大小小。無(wú)論論使用哪哪種概化
12、化控制技技術(shù),都都應(yīng)當(dāng)允允許用戶(hù)戶(hù)調(diào)整概概化閾值值,以便便得到有有趣的規(guī)規(guī)則。2.基于于屬性歸歸納方法法(續(xù))例1(續(xù)續(xù)):對(duì)前面得得到的初始工作作關(guān)系的每個(gè)屬屬性,概概化過(guò)程程如下:1)姓名名:由于姓名名存在大大量不同同值,并并且其上上沒(méi)有定定義概念念分層,該屬性性被刪除除。2)性別別:由于性別別只有兩兩個(gè)不同同值,該該屬性保保留,并并不對(duì)其其進(jìn)行概概化。2.基于于屬性歸歸納方法法(續(xù))3)專(zhuān)業(yè)業(yè):假設(shè)定義義了一個(gè)個(gè)概念分分層,從從而可以以對(duì)專(zhuān)業(yè)業(yè)屬性進(jìn)進(jìn)行概化化。又假假設(shè)屬性性概化閾閾值置為為5,在在初始數(shù)數(shù)據(jù)集合合中有25個(gè)不不同取值值。則通通過(guò)對(duì)屬屬性概化化和屬性性概化控控制,專(zhuān)專(zhuān)業(yè)屬
13、性性被概化化到指定定的概念念(如:科學(xué),工程,商學(xué))。2.基于于屬性歸歸納方法法(續(xù))4)出生生地:該屬性有有大量不不同值,因此應(yīng)應(yīng)當(dāng)概化化它。設(shè)設(shè)出生地地的概念念分層為為:城市市省國(guó)家。如如果初始始關(guān)系中中,國(guó)家家取值超超過(guò)了屬屬性概化化閾值,則出生生地應(yīng)當(dāng)當(dāng)刪除,因?yàn)楸M盡管可以以進(jìn)行概概化操作作,概化化閾值也也不會(huì)滿(mǎn)滿(mǎn)足。但但如果假假定國(guó)家家的取值值個(gè)數(shù)小小于概化化閾值,則出生生地應(yīng)當(dāng)當(dāng)概化到到出生國(guó)國(guó)家。2.基于于屬性歸歸納方法法(續(xù))5)出生生日期:假定存在在概念分分層,可可以將出出生日期期概化到到年齡,而年齡齡概化到到年齡分分類(lèi),并并且年齡齡分類(lèi)的的區(qū)間數(shù)數(shù)小于對(duì)對(duì)應(yīng)的屬屬性概化化閾
14、值,則應(yīng)當(dāng)當(dāng)對(duì)出生生日期進(jìn)進(jìn)行概化化。2.基于于屬性歸歸納方法法(續(xù))6)居住住地:假定居住住地被屬屬性號(hào)碼碼,街道道,城市市,省,國(guó)家定定義。號(hào)號(hào)碼和街街道的不不同值一一般很多多,而且且這些概概念的層層次相當(dāng)當(dāng)?shù)?。因因此,?hào)號(hào)碼和街街道應(yīng)當(dāng)當(dāng)刪除,將居住住地概化化到居住住城市。這樣可可包含較較少的不不同值。2.基于于屬性歸歸納方法法(續(xù))7)電話(huà)話(huà):與屬性姓姓名一樣樣,因包包含太多多不同值值,應(yīng)當(dāng)當(dāng)在概化化中刪除除。8)GPA:假定存在在GPA的概念分分層,將將平均成成績(jī)分成成若干區(qū)區(qū)間,如如:3.75-4.0,3.5-3.75,也可相應(yīng)應(yīng)的描述述為:優(yōu)秀,良良好,因此該屬屬性可以以被概化化
15、。2.基于于屬性歸歸納方法法(續(xù))概化過(guò)程程會(huì)產(chǎn)生生一系列列內(nèi)容相相同的數(shù)數(shù)據(jù)行,相同內(nèi)內(nèi)容的數(shù)數(shù)據(jù)行被被合并成成一個(gè),并累計(jì)計(jì)它們的的計(jì)數(shù)值值。最終終結(jié)果如如下表:性別專(zhuān)業(yè)出生國(guó)年齡區(qū)間出生城市GPA累計(jì)男科學(xué)中國(guó)2025合肥良好16女工程中國(guó)2530上海優(yōu)秀22對(duì)初始關(guān)關(guān)系的數(shù)數(shù)據(jù)進(jìn)行行基于屬屬性歸納納得到的的廣義關(guān)關(guān)系:3.基于于屬性歸歸納算法法算法:基于屬性性的歸納納輸入:(1)關(guān)關(guān)系DB;(2)數(shù)數(shù)據(jù)挖掘掘命令DMQuery;(3)屬屬性表a_list;(4)屬屬性ai上的概念念分層或或概化操操作符的的集合Gen(a);(5)每每個(gè)屬性性ai概化閾值a_gen_thresh(a)3.
16、基于于屬性歸歸納算法法(續(xù))輸出:主概化關(guān)關(guān)系P(包含基基于a_list屬性集的的一個(gè)定定性概念念描述)方法:(1)Wget_task_relevant_data(DMQuery,DB);/工作關(guān)系系W存放放任務(wù)相相關(guān)的數(shù)數(shù)據(jù)(2)prepare_for_generalization(W)/該步實(shí)現(xiàn)現(xiàn)如下:3.基于于屬性歸歸納算法法(續(xù))(a)掃描W,收集每每個(gè)ai屬性取不不同值的的個(gè)數(shù)。(b)對(duì)每個(gè)屬屬性ai,根據(jù)給給定的或或缺省的的屬性閾閾值,確確定ai是否應(yīng)當(dāng)當(dāng)刪除;如果不不刪除,則計(jì)算算它的最最小期望望層次Li,并確定定映射對(duì)對(duì)(v,v),基中v是W中ai的不同值值,v是其在層層Li對(duì)
17、應(yīng)的概概化值。3.基于于屬性歸歸納算法法(續(xù))(3)Pgeneralization(W)通過(guò)用其其在映射射中對(duì)應(yīng)應(yīng)的v替換W中每個(gè)值值v,累計(jì)計(jì)計(jì)數(shù)并計(jì)計(jì)算所有有聚集值值,導(dǎo)出出主概化化關(guān)系P。這一步可可用下面面兩種方方法有效效實(shí)現(xiàn):(a)對(duì)每個(gè)概概化元組組,通過(guò)過(guò)二分檢檢索將它它插入主主關(guān)系P中。如果果元組已已在P中,則簡(jiǎn)簡(jiǎn)單地增增加它的的計(jì)數(shù)值值并相應(yīng)應(yīng)處理其其他聚集集值;否否則,將將它插入入P。3.基于于屬性歸歸納算法法(續(xù))(b)在大部分分情況下下,由于于主關(guān)系系層不同同值的個(gè)個(gè)數(shù)很少少,可以以將主關(guān)關(guān)系編碼碼,作為為m_維數(shù)組組,其中中m是P中的屬性性數(shù),而而每個(gè)維維包含對(duì)對(duì)應(yīng)的概概
18、化屬性性值。數(shù)數(shù)組的每每個(gè)元素素存放對(duì)對(duì)應(yīng)的計(jì)計(jì)數(shù)和其其他聚集集值。概概化元組組的插入入通過(guò)對(duì)對(duì)應(yīng)的數(shù)數(shù)組元素素上的度度量聚集集進(jìn)行。4.基于于屬性歸歸納結(jié)果果的表示示基于屬性性歸納方方法的挖挖掘結(jié)果果可以有有多種輸輸出表示示形式。地點(diǎn)商品銷(xiāo)售額(百萬(wàn))個(gè)數(shù)累計(jì)(千)亞洲電視15300歐洲電視12250北美電視28450亞洲電腦1201000歐洲電腦1501200北美電腦2001800表格表示示描述地點(diǎn)或商品電視電腦電視+電腦銷(xiāo)售額累計(jì)銷(xiāo)售額累計(jì)銷(xiāo)售額累計(jì)亞洲1530012010001351300歐洲1225015012001621450北美2845020018002282250所有地區(qū)451
19、00047040005255000組合表表表示描述棒圖表示示描述第七章概概念念描述7.1概概念念描述基基本知識(shí)識(shí)7.2數(shù)數(shù)據(jù)據(jù)概化與與基于匯匯總的特特征化7.3解解析析特征化化屬性性相關(guān)分分析7.4挖挖掘掘概念比比較區(qū)區(qū)分不同同的類(lèi)7.3解解析析特征化化屬性性相關(guān)分分析1.屬性性相關(guān)分分析意義義在挖掘定定性概念念描述知知識(shí)過(guò)程程中,DW和OLAP工具中的的多維數(shù)數(shù)據(jù)分析析有兩個(gè)個(gè)局限:一是無(wú)無(wú)法處理理復(fù)雜對(duì)對(duì)象,二二是缺乏乏自動(dòng)概概化過(guò)程程。1.屬性性相關(guān)分分析意義義(續(xù))通常,用用戶(hù)告訴訴數(shù)據(jù)挖挖掘系統(tǒng)統(tǒng)每個(gè)維維應(yīng)當(dāng)概概化到多多高層次次并不困困難,但但確定數(shù)數(shù)據(jù)集的的定性描描述應(yīng)包包含哪些些
20、屬性是是一件困困難的事事。我們們引進(jìn)一一些方法法進(jìn)行屬屬性(或或維)相相關(guān)分析析,以過(guò)過(guò)濾掉統(tǒng)統(tǒng)計(jì)上不不相關(guān)或或弱相關(guān)關(guān)的屬性性,而保保留與挖挖掘任務(wù)務(wù)最相關(guān)關(guān)的屬性性。1.屬性性相關(guān)分分析意義義(續(xù))包含屬性性(維)相關(guān)分分析的類(lèi)特征化化稱(chēng)為解析特征征化;包含屬性性(維)相關(guān)分分析的類(lèi)比較稱(chēng)為解析比較較。直觀上,若一個(gè)個(gè)屬性的的取值可可以幫助助有效地地區(qū)分不不同類(lèi)別別的數(shù)據(jù)據(jù)集,則則這個(gè)屬屬性就被被認(rèn)為是是與相應(yīng)應(yīng)類(lèi)別數(shù)數(shù)據(jù)集密密切相關(guān)關(guān)的。1.屬性性相關(guān)分分析意義義(續(xù))例:一輛汽車(chē)車(chē)的顏色色不太可可能用于于區(qū)分貴貴賤汽車(chē)車(chē)(類(lèi)別別),但但汽車(chē)的的型號(hào)、品牌、制造商商、款式式和氣缸缸數(shù)可能
21、能是更相相關(guān)的屬屬性。此外,即即使在同同一個(gè)維維內(nèi),對(duì)對(duì)于區(qū)分分一個(gè)類(lèi)類(lèi)與其他他類(lèi),在在不同的的概念層層也可能能有很不不相同的的能力。1.屬性性相關(guān)分分析意義義(續(xù))例:在出生日日維中,生日和和生月都都不太可可能與雇雇員的工工資相關(guān)關(guān);而只只有年齡齡區(qū)間可可能與雇雇員的工工資高度度相關(guān)。這意味著著相關(guān)分分析應(yīng)當(dāng)當(dāng)在多層層次進(jìn)行行,并且且只有那那些最相相關(guān)的維維層次應(yīng)應(yīng)當(dāng)包含含在分析析中。1.屬性性相關(guān)分分析意義義(續(xù))屬性的相相關(guān)性要要根據(jù)屬屬性區(qū)分分一個(gè)類(lèi)類(lèi)與其他他類(lèi)的能能力來(lái)評(píng)評(píng)估。在在挖掘概念比較較時(shí),目標(biāo)類(lèi)和對(duì)比類(lèi)要明顯地地在挖掘掘查詢(xún)中中給出。前面在在挖掘概念特征征時(shí),只有有一個(gè)被被
22、特征化化的類(lèi),即沒(méi)有有說(shuō)明對(duì)對(duì)比類(lèi)。哪些對(duì)對(duì)比類(lèi)應(yīng)應(yīng)當(dāng)用于于相關(guān)分分析并非非是明顯顯的。在在這種情情況下,除特征征化的數(shù)數(shù)據(jù)集外外,DB中可比較較的數(shù)據(jù)據(jù)集都作作為對(duì)比比類(lèi)。2.屬性性相關(guān)分分析方法法屬性相關(guān)關(guān)分析的的基本思思想:計(jì)算某種種度量,用于量量化屬性性與給定定類(lèi)或概概念的相相關(guān)性。這些度度量包括括:信息息增益,Gini索引,不不確定性性和相關(guān)關(guān)系數(shù)。2.屬性性相關(guān)分分析方法法(續(xù))下面介紹紹一種方方法,它它將信息息增益分分析技術(shù)術(shù)和基于于多維數(shù)數(shù)據(jù)分析析的方法法集成在在一起。該方法法刪除信信息量較較少的屬屬性,收收集信息息較多的的屬性,用于概概念描述述分析。這里以ID3決策樹(shù)歸歸納學(xué)
23、習(xí)習(xí)方法為為例進(jìn)行行介紹。2.屬性性相關(guān)分分析方法法(續(xù))設(shè)S是訓(xùn)練樣樣本的集集合,其其中每個(gè)個(gè)樣本的的類(lèi)標(biāo)號(hào)已知,共共有m個(gè)不同類(lèi)類(lèi)別,則則S包含si個(gè)Ci類(lèi)樣本,i=1,m。任意一一個(gè)樣本本屬于類(lèi)類(lèi)Ci的概率為為si/s,其中s是集合S所有樣本本總數(shù)。一個(gè)決決策樹(shù)可可用于對(duì)對(duì)數(shù)據(jù)對(duì)對(duì)象進(jìn)行行分類(lèi),因此決決策樹(shù)可可以看成成是Ci的一個(gè)信信息源,為產(chǎn)生生相應(yīng)信信息需要要的信息息熵為:2.屬性性相關(guān)分分析方法法(續(xù))(7.1)若屬性A的取值值為a1,a2,av,且該屬屬性用作作決策樹(shù)樹(shù)的一個(gè)個(gè)結(jié)點(diǎn)時(shí)時(shí),可將S劃分為子子集S1,S2,Sv 。其中Sj包含屬性A取同一一值aj的數(shù)據(jù)據(jù)行;Sj包含類(lèi)C
24、i的sij個(gè)樣本本。2.屬性性相關(guān)分分析方法法(續(xù))根據(jù)屬性性A的取值對(duì)對(duì)當(dāng)前數(shù)數(shù)據(jù)集劃劃分所獲獲得的信信息就稱(chēng)稱(chēng)為屬性性A的熵。它它的計(jì)算算公式如如下:(7.2)A上該劃分分得到的的信息增增益定義義為:Gain(A)=I(s1,s2,sm) -E(A)(7.3)2.屬性性相關(guān)分分析方法法(續(xù))ID3方法根據(jù)據(jù)S集合中數(shù)數(shù)據(jù)對(duì)象象來(lái)計(jì)算算每個(gè)屬屬性Gain(A)值,并從從中選擇擇出值最大的作作為決策樹(shù)根根結(jié)點(diǎn),并根據(jù)據(jù)該屬性的取取值個(gè)數(shù)數(shù)將初始始數(shù)據(jù)集集劃分為為v份,即通過(guò)過(guò)不斷對(duì)對(duì)每個(gè)新新產(chǎn)生的的數(shù)據(jù)子子集循環(huán)環(huán)進(jìn)行上上述操作作,直到到產(chǎn)生所所有葉結(jié)點(diǎn)為止止,至此此就獲得得一個(gè)決決策樹(shù)。2.
25、屬性性相關(guān)分分析方法法(續(xù))概念描述述的屬性相相關(guān)分析析,執(zhí)行行步驟如如下:(1)數(shù)數(shù)據(jù)收集集:通過(guò)查詢(xún)?cè)兲幚?,收集目目?biāo)類(lèi)和和對(duì)比類(lèi)類(lèi)的數(shù)據(jù)據(jù)。(2)使使用保守守的AOI進(jìn)行預(yù)相相關(guān)分析析:這里進(jìn)行行的AOI使用的屬性分析析閾值要要合理的的大,使使得更多多的屬性性在選定定度量的的進(jìn)一步步相關(guān)分分析中被被考慮。使用保保守AOI得到的關(guān)關(guān)系稱(chēng)作作候選關(guān)系系。2.屬性性相關(guān)分分析方法法(續(xù))(3)使使用選定定的相關(guān)關(guān)分析度度量刪除除不相關(guān)關(guān)和弱相相關(guān)屬性性:使用選定定的相關(guān)關(guān)分析度度量,評(píng)評(píng)估候選選關(guān)系中中的每個(gè)個(gè)屬性。根據(jù)計(jì)計(jì)算的屬屬性與數(shù)數(shù)據(jù)挖掘掘任務(wù)的的相關(guān)性性,對(duì)屬屬性排序序,然后后刪除不
26、不相關(guān)和和弱相關(guān)關(guān)屬性。其結(jié)果果為初始目標(biāo)標(biāo)類(lèi)(對(duì)對(duì)比類(lèi))工作關(guān)關(guān)系。(4)使使用AOI產(chǎn)生概念念描述:使用一組組不太保保守的屬屬性概化化閾值進(jìn)進(jìn)行AOI。3.解解析特征征化實(shí)例例例2:使用解析析特征化化挖掘大大學(xué)數(shù)據(jù)據(jù)庫(kù)里研研究生的的一般特特征描述述。執(zhí)行行步驟為為:(1)收集目標(biāo)類(lèi)數(shù)數(shù)據(jù),它由研研究生的的集合組組成。對(duì)比類(lèi)取本科生生的集合合。(2)用保守的的屬性概概化閾值值進(jìn)行基基于屬性性的歸納納,通過(guò)過(guò)屬性刪刪除和屬屬性概化化進(jìn)行預(yù)預(yù)相關(guān)分分析(分分析過(guò)程程如例1)。得到到下面兩兩張表:性別專(zhuān)業(yè)出生國(guó)年齡區(qū)間GPA累計(jì)計(jì)數(shù)男科學(xué)中國(guó)2125良16女科學(xué)外國(guó)2630優(yōu)22男工程外國(guó)2630
27、優(yōu)18女科學(xué)外國(guó)2630優(yōu)25男科學(xué)中國(guó)2125優(yōu)21女工程中國(guó)2125優(yōu)18由解析特特征化得得到的候選關(guān)系系:目標(biāo)類(lèi)(研究生生)由解析特特征化得得到的候選關(guān)系系:對(duì)比類(lèi)(本科生生)性別專(zhuān)業(yè)出生國(guó)年齡區(qū)間GPA累計(jì)計(jì)數(shù)男科學(xué)外國(guó) =20良18女商學(xué)中國(guó) =20及格20男商學(xué)中國(guó) =20及格22女科學(xué)中國(guó)2125及格24男工程外國(guó)2125良22女工程中國(guó)30優(yōu)5.86 商學(xué)30優(yōu)4.68目標(biāo)類(lèi)的的主概化關(guān)系(研研究生)對(duì)比類(lèi)主主概化關(guān)關(guān)系(本本科生)專(zhuān)業(yè)年齡區(qū)間GPA累計(jì)數(shù)科學(xué)1620及格5.53 科學(xué)1620良4.53科學(xué)2630良2.32 商學(xué)30優(yōu)0.681.概念念比較方方法與實(shí)實(shí)現(xiàn)(續(xù)續(xù)
28、)由表可看看出,與與本科生生相比,研究生生一般趨趨向于年年齡稍大大,GPA較高。(4)最后,結(jié)果概念念對(duì)比描描述以表、圖圖或規(guī)則則的形式式表示。這種可可視化表表示包括括對(duì)比度量量(如累計(jì)計(jì)數(shù)),以突突出目標(biāo)類(lèi)和比較類(lèi)之間存在在的差異異。例如如,5.02 的研究生生選擇“科學(xué)”專(zhuān)業(yè),年齡在在2630之間,GPA為良,而而只有2.32 的本科生生具有這這種性質(zhì)質(zhì)。2.概概念比較較描述的的表示概念比較較描述的可視化化,可以采用用概化關(guān)關(guān)系、交交叉表、條型圖圖、餅圖圖、曲線(xiàn)線(xiàn)和規(guī)則則。除邏邏輯規(guī)則則外,其其他形式式與概念特征化所用形式式相同。這里討討論用規(guī)規(guī)則的形形式顯示示概念比比較。2.概概念比較較描述的的表示(續(xù))比較描述述中的目標(biāo)類(lèi)和對(duì)比類(lèi)的區(qū)分特特性,可可以用量化區(qū)分分規(guī)則量化地描描述。量量化區(qū)分分規(guī)則對(duì)對(duì)描述中中每個(gè)概概化元組組附上一一個(gè)統(tǒng)計(jì)計(jì)興趣度度度量d-權(quán)。設(shè)qa是一個(gè)概概化元組組,Cj是目標(biāo)類(lèi)類(lèi)。其中中,qa覆蓋目標(biāo)類(lèi)的某些元元組。
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五版門(mén)窗行業(yè)市場(chǎng)拓展與渠道建設(shè)合同4篇
- 2025版寵物醫(yī)院害蟲(chóng)防治與寵物健康服務(wù)合同4篇
- 2025年度鎳氫電池關(guān)鍵部件研發(fā)與制造合同4篇
- 二零二五年度智慧交通管理系統(tǒng)詢(xún)價(jià)合同協(xié)議書(shū)3篇
- 二零二五年度智能交通管理系統(tǒng)采購(gòu)合同樣本3篇
- 二零二五年度奶業(yè)集團(tuán)奶制品品牌授權(quán)及銷(xiāo)售合同
- 2025年度路燈采購(gòu)安裝及LED照明產(chǎn)品研發(fā)合同3篇
- 二零二五年度機(jī)關(guān)辦公樓物業(yè)智能化升級(jí)改造服務(wù)合同5篇
- 2025年度智能化培訓(xùn)學(xué)校教師團(tuán)隊(duì)聘用合同4篇
- 二零二五年度模特廣告代言聘用合同
- 數(shù)學(xué)-山東省2025年1月濟(jì)南市高三期末學(xué)習(xí)質(zhì)量檢測(cè)濟(jì)南期末試題和答案
- 中儲(chǔ)糧黑龍江分公司社招2025年學(xué)習(xí)資料
- 河南退役軍人專(zhuān)升本計(jì)算機(jī)真題答案
- 湖南省長(zhǎng)沙市2024-2025學(xué)年高一數(shù)學(xué)上學(xué)期期末考試試卷
- 船舶行業(yè)維修保養(yǎng)合同
- 駕駛證學(xué)法減分(學(xué)法免分)試題和答案(50題完整版)1650
- 2024年林地使用權(quán)轉(zhuǎn)讓協(xié)議書(shū)
- 物流有限公司安全生產(chǎn)專(zhuān)項(xiàng)整治三年行動(dòng)實(shí)施方案全國(guó)安全生產(chǎn)專(zhuān)項(xiàng)整治三年行動(dòng)計(jì)劃
- 2025屆江蘇省13市高三最后一卷生物試卷含解析
- 產(chǎn)鉗助產(chǎn)護(hù)理查房
- 招聘專(zhuān)員轉(zhuǎn)正述職報(bào)告
評(píng)論
0/150
提交評(píng)論