關(guān)聯(lián)規(guī)則挖掘理論課件_第1頁(yè)
關(guān)聯(lián)規(guī)則挖掘理論課件_第2頁(yè)
關(guān)聯(lián)規(guī)則挖掘理論課件_第3頁(yè)
關(guān)聯(lián)規(guī)則挖掘理論課件_第4頁(yè)
關(guān)聯(lián)規(guī)則挖掘理論課件_第5頁(yè)
已閱讀5頁(yè),還剩31頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

三關(guān)聯(lián)規(guī)則挖掘理論

基本概念與解決方法

經(jīng)典的頻繁項(xiàng)目集生成算法分析及其改進(jìn)算法對(duì)項(xiàng)目集格空間理論的發(fā)展關(guān)聯(lián)規(guī)則挖掘中的一些更深入的問(wèn)題數(shù)量關(guān)聯(lián)規(guī)則挖掘方法1三關(guān)聯(lián)規(guī)則挖掘理論

基本概念與解決方法1關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘研究的基礎(chǔ)關(guān)聯(lián)規(guī)則挖掘(AssociationRuleMining)是數(shù)據(jù)挖掘中研究較早而且至今仍活躍的研究方法之一。最早是由Agrawal等人提出的(1993)。最初提出的動(dòng)機(jī)是針對(duì)購(gòu)物籃分析(BasketAnalysis)問(wèn)題提出的,其目的是為了發(fā)現(xiàn)交易數(shù)據(jù)庫(kù)(TransactionDatabase)中不同商品之間的聯(lián)系規(guī)則。關(guān)聯(lián)規(guī)則的挖掘工作成果頗豐。例如,關(guān)聯(lián)規(guī)則的挖掘理論、算法設(shè)計(jì)、算法的性能以及應(yīng)用推廣、并行關(guān)聯(lián)規(guī)則挖掘(ParallelAssociationRuleMining)以及數(shù)量關(guān)聯(lián)規(guī)則挖掘(QuantitiveAssociationRuleMining)等。關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘的其他研究分支的基礎(chǔ)。

2關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘研究的基礎(chǔ)關(guān)聯(lián)規(guī)則挖掘(Associa事務(wù)數(shù)據(jù)庫(kù)設(shè)I={i1,i2,…,im}是一個(gè)項(xiàng)目集合,事務(wù)數(shù)據(jù)庫(kù)D={t1,t2,…,tn}是由一系列具有唯一標(biāo)識(shí)TID的事務(wù)組成,每個(gè)事務(wù)ti(i=1,2,…,n)都對(duì)應(yīng)I上的一個(gè)子集。一個(gè)事務(wù)數(shù)據(jù)庫(kù)可以用來(lái)刻畫:購(gòu)物記錄:I是全部物品集合,D是購(gòu)物清單,每個(gè)元組ti是一次購(gòu)買物品的集合(它當(dāng)然是I的一個(gè)子集)。其它應(yīng)用問(wèn)題3事務(wù)數(shù)據(jù)庫(kù)設(shè)I={i1,i2,…,im}是一個(gè)項(xiàng)目集合支持度與頻繁項(xiàng)目集定義(項(xiàng)目集的支持度).給定一個(gè)全局項(xiàng)目集I和數(shù)據(jù)庫(kù)D,一個(gè)項(xiàng)目集I1I在D上的支持度(Support)是包含I1的事務(wù)在D中所占的百分比:support(I1

)=||{tD|I1

t}||/||D||。定義(頻繁項(xiàng)目集).給定全局項(xiàng)目集I和數(shù)據(jù)庫(kù)D,D中所有滿足用戶指定的最小支持度(Minsupport)的項(xiàng)目集,即大于或等于minsupport的I的非空子集,稱為頻繁項(xiàng)目集(頻集:FrequentItemsets)或者大項(xiàng)目集(LargeIitemsets)。在頻繁項(xiàng)目集中挑選出所有不被其他元素包含的頻繁項(xiàng)目集稱為最大頻繁項(xiàng)目集(最大頻集:MaximumFrequentItemsets)或最大大項(xiàng)目集(MaximumLargeIitemsets)。4支持度與頻繁項(xiàng)目集定義(項(xiàng)目集的支持度).給定一個(gè)全局項(xiàng)可信度與關(guān)聯(lián)規(guī)則定義(關(guān)聯(lián)規(guī)則與可信度).給定一個(gè)全局項(xiàng)目集I和數(shù)據(jù)庫(kù)D,一個(gè)定義在I和D上的關(guān)聯(lián)規(guī)則形如I1I2,并且它的可信度或信任度或置信度(Confidence)是指包含I1和I2的事務(wù)數(shù)與包含I1的事務(wù)數(shù)之比,即Confidence(I1I2)=support(I1∪I2)/support(I1),其中I1,I2I,I1∩I2=Ф。定義(強(qiáng)關(guān)聯(lián)規(guī)則).

D在I上滿足最小支持度和最小信任度(Minconfidence)的關(guān)聯(lián)規(guī)則稱為強(qiáng)關(guān)聯(lián)規(guī)則(StrongAssociationRule)。5可信度與關(guān)聯(lián)規(guī)則定義(關(guān)聯(lián)規(guī)則與可信度).給定一個(gè)全局項(xiàng)目集關(guān)聯(lián)規(guī)則挖掘基本過(guò)程關(guān)聯(lián)規(guī)則挖掘問(wèn)題可以劃分成兩個(gè)子問(wèn)題:1.發(fā)現(xiàn)頻繁項(xiàng)目集:通過(guò)用戶給定Minsupport,尋找所有頻繁項(xiàng)目集或者最大頻繁項(xiàng)目集。2.生成關(guān)聯(lián)規(guī)則:通過(guò)用戶給定Minconfidence,在頻繁項(xiàng)目集中,尋找關(guān)聯(lián)規(guī)則。第1個(gè)子問(wèn)題是近年來(lái)關(guān)聯(lián)規(guī)則挖掘算法研究的重點(diǎn)。6關(guān)聯(lián)規(guī)則挖掘基本過(guò)程關(guān)聯(lián)規(guī)則挖掘問(wèn)題可以劃分成兩個(gè)子問(wèn)題:6第三章關(guān)聯(lián)規(guī)則挖掘理論和算法

基本概念與解決方法

經(jīng)典的頻繁項(xiàng)目集生成算法分析及其改進(jìn)算法對(duì)項(xiàng)目集格空間理論的發(fā)展關(guān)聯(lián)規(guī)則挖掘中的一些更深入的問(wèn)題數(shù)量關(guān)聯(lián)規(guī)則挖掘方法7第三章關(guān)聯(lián)規(guī)則挖掘理論和算法

基本概念與解決方法7頻繁項(xiàng)目集生成算法分析Agrawal等人建立了用于事務(wù)數(shù)據(jù)庫(kù)挖掘的項(xiàng)目集格空間理論(1993,Appriori屬性)。1994年,Agrawal等人提出了著名的Apriori算法。(發(fā)現(xiàn)頻繁項(xiàng)目集)Apriori作為經(jīng)典的頻繁項(xiàng)目集生成算法,在數(shù)據(jù)挖掘中具有里程碑的作用。Apriori算法有兩個(gè)致命的性能瓶頸:1.多次掃描事務(wù)數(shù)據(jù)庫(kù),需要很大的I/O負(fù)載2.可能產(chǎn)生龐大的侯選集8頻繁項(xiàng)目集生成算法分析Agrawal等人建立了用于事務(wù)數(shù)據(jù)庫(kù)頻繁項(xiàng)目集生成算法分析一些算法雖然仍然遵循Apriori屬性,但是由于引入了相關(guān)技術(shù),在一定程度上改善了Apriori算法適應(yīng)性和效率。主要的改進(jìn)方法有:基于數(shù)據(jù)分割(Partition)的方法:基本原理是“在一個(gè)劃分中的支持度小于最小支持度的k-項(xiàng)集不可能是全局頻繁的”?;谏⒘校℉ash)的方法:基本原理是“在一個(gè)hash桶內(nèi)支持度小于最小支持度的k-項(xiàng)集不可能是全局頻繁的”?;诓蓸樱⊿ampling)的方法:基本原理是“通過(guò)采樣技術(shù),評(píng)估被采樣的子集中,并依次來(lái)估計(jì)k-項(xiàng)集的全局頻度”。其他:如,動(dòng)態(tài)刪除沒(méi)有用的事務(wù):“不包含任何Lk的事務(wù)對(duì)未來(lái)的掃描結(jié)果不會(huì)產(chǎn)生影響,因而可以刪除”。9頻繁項(xiàng)目集生成算法分析一些算法雖然仍然遵循Apriori屬基于散列的方法1995,Park等發(fā)現(xiàn)尋找頻繁項(xiàng)目集的主要計(jì)算是在生成2-頻繁項(xiàng)目集上。因此,Park等利用了這個(gè)性質(zhì)引入雜湊技術(shù)來(lái)改進(jìn)產(chǎn)生2-頻繁項(xiàng)目集的方法。10基于散列的方法1995,Park等發(fā)現(xiàn)尋找頻繁項(xiàng)目集的主要計(jì)第三章關(guān)聯(lián)規(guī)則挖掘理論和算法

基本概念與解決方法

經(jīng)典的頻繁項(xiàng)目集生成算法分析及其改進(jìn)算法對(duì)項(xiàng)目集格空間理論的發(fā)展關(guān)聯(lián)規(guī)則挖掘中的一些更深入的問(wèn)題數(shù)量關(guān)聯(lián)規(guī)則挖掘方法11第三章關(guān)聯(lián)規(guī)則挖掘理論和算法

基本概念與解決方法11探索新的理論隨著數(shù)據(jù)庫(kù)容量的增大,重復(fù)訪問(wèn)數(shù)據(jù)庫(kù)(外存)將導(dǎo)致性能低下。因此,探索新的理論和算法來(lái)減少數(shù)據(jù)庫(kù)的掃描次數(shù)和侯選集空間占用,已經(jīng)成為近年來(lái)關(guān)聯(lián)規(guī)則挖掘研究的熱點(diǎn)之一。兩個(gè)典型的方法:Close算法FP-tree算法12探索新的理論隨著數(shù)據(jù)庫(kù)容量的增大,重復(fù)訪問(wèn)數(shù)據(jù)庫(kù)(外存)將導(dǎo)第三章關(guān)聯(lián)規(guī)則挖掘理論和算法

基本概念與解決方法

經(jīng)典的頻繁項(xiàng)目集生成算法分析及其改進(jìn)算法對(duì)項(xiàng)目集格空間理論的發(fā)展關(guān)聯(lián)規(guī)則挖掘中的一些更深入的問(wèn)題數(shù)量關(guān)聯(lián)規(guī)則挖掘方法13第三章關(guān)聯(lián)規(guī)則挖掘理論和算法

基本概念與解決方法13第三章關(guān)聯(lián)規(guī)則挖掘理論和算法

基本概念與解決方法

經(jīng)典的頻繁項(xiàng)目集生成算法分析及其改進(jìn)算法對(duì)項(xiàng)目集格空間理論的發(fā)展關(guān)聯(lián)規(guī)則挖掘中的一些更深入的問(wèn)題數(shù)量關(guān)聯(lián)規(guī)則挖掘方法14第三章關(guān)聯(lián)規(guī)則挖掘理論和算法

基本概念與解決方法14多層次關(guān)聯(lián)規(guī)則挖掘根據(jù)規(guī)則中涉及到的層次,多層次關(guān)聯(lián)規(guī)則可以分為:同層關(guān)聯(lián)規(guī)則:如果一個(gè)關(guān)聯(lián)規(guī)則對(duì)應(yīng)的項(xiàng)目是同一個(gè)粒度層次,那么它是同層關(guān)聯(lián)規(guī)則。層間關(guān)聯(lián)規(guī)則:如果在不同的粒度層次上考慮問(wèn)題,那么可能得到的是層間關(guān)聯(lián)規(guī)則。多層次關(guān)聯(lián)規(guī)則挖掘的度量方法可以沿用“支持度-可信度”的框架。不過(guò),多層次關(guān)聯(lián)規(guī)則挖掘有兩種基本的設(shè)置支持度的策略:統(tǒng)一的最小支持度:算法實(shí)現(xiàn)容易,而且很容易支持層間的關(guān)聯(lián)規(guī)則生成。但是弊端也是顯然的:不同層次可能考慮問(wèn)題的精度不同、面向的用戶群不同。對(duì)于一些用戶,可能覺(jué)得支持度太小,產(chǎn)生了過(guò)多不感興趣的規(guī)則。而對(duì)于另外的用戶來(lái)說(shuō),又認(rèn)為支持度太大,有用信息丟失過(guò)多。不同層次使用不同的最小支持度:每個(gè)層次都有自己的最小支持度。較低層次的最小支持度相對(duì)較小,而較高層次的最小支持度相對(duì)較大。這種方法增加了挖掘的靈活性。但是,也留下了許多相關(guān)問(wèn)題需要解決:首先,不同層次間的支持度應(yīng)該有所關(guān)聯(lián),只有正確地刻畫這種聯(lián)系或找到轉(zhuǎn)換方法,才能使生成的關(guān)聯(lián)規(guī)則相對(duì)客觀。其次,由于具有不同的支持度,層間的關(guān)聯(lián)規(guī)則挖掘也是必須解決的問(wèn)題。例如,有人提出層間關(guān)聯(lián)規(guī)則應(yīng)該根據(jù)較低層次的最小支持度來(lái)定。15多層次關(guān)聯(lián)規(guī)則挖掘根據(jù)規(guī)則中涉及到的層次,多層次關(guān)聯(lián)規(guī)則可以多維關(guān)聯(lián)規(guī)則挖掘多維關(guān)聯(lián)規(guī)則可以有:維內(nèi)的關(guān)聯(lián)規(guī)則:例如,“年齡(X,20~30)^職業(yè)(X,學(xué)生)=>購(gòu)買(X,筆記本電腦)”。這里我們就涉及到三個(gè)維:年齡、職業(yè)、購(gòu)買?;旌暇S關(guān)聯(lián)規(guī)則:這類規(guī)則允許同一個(gè)維重復(fù)出現(xiàn)。例如,“年齡(X,20~30)^購(gòu)買(X,筆記本電腦)=>購(gòu)買(X,打印機(jī))”。由于同一個(gè)維“購(gòu)買”在規(guī)則中重復(fù)出現(xiàn),因此為挖掘帶來(lái)難度。但是,這類規(guī)則更具有普遍性,具有更好的應(yīng)用價(jià)值,因此近年來(lái)得到普遍關(guān)注。16多維關(guān)聯(lián)規(guī)則挖掘多維關(guān)聯(lián)規(guī)則可以有:16第三章關(guān)聯(lián)規(guī)則挖掘理論和算法

基本概念與解決方法

經(jīng)典的頻繁項(xiàng)目集生成算法分析及其改進(jìn)算法對(duì)項(xiàng)目集格空間理論的發(fā)展基于項(xiàng)目序列集操作的關(guān)聯(lián)規(guī)則挖掘算法關(guān)聯(lián)規(guī)則挖掘中的一些更深入的問(wèn)題數(shù)量關(guān)聯(lián)規(guī)則挖掘方法17第三章關(guān)聯(lián)規(guī)則挖掘理論和算法

基本概念與解決方法17數(shù)量關(guān)聯(lián)規(guī)則挖掘方法數(shù)量關(guān)聯(lián)規(guī)則是指同時(shí)包含分類屬性和數(shù)量屬性的關(guān)聯(lián)規(guī)則。對(duì)數(shù)量關(guān)聯(lián)規(guī)則挖掘的研究只要基于兩條技術(shù)路線:一是通過(guò)對(duì)相對(duì)比較成熟的布爾關(guān)聯(lián)規(guī)則算法的改進(jìn)來(lái)解決數(shù)量關(guān)聯(lián)規(guī)則問(wèn)題;二是用一種新的全新的思路和算法來(lái)解決數(shù)量關(guān)聯(lián)規(guī)則挖掘問(wèn)題。目前討論比較多的和相對(duì)成熟的方法是基于第一種技術(shù)的。18數(shù)量關(guān)聯(lián)規(guī)則挖掘方法數(shù)量關(guān)聯(lián)規(guī)則是指同時(shí)包含分類屬性和數(shù)量屬三關(guān)聯(lián)規(guī)則挖掘理論

基本概念與解決方法

經(jīng)典的頻繁項(xiàng)目集生成算法分析及其改進(jìn)算法對(duì)項(xiàng)目集格空間理論的發(fā)展關(guān)聯(lián)規(guī)則挖掘中的一些更深入的問(wèn)題數(shù)量關(guān)聯(lián)規(guī)則挖掘方法19三關(guān)聯(lián)規(guī)則挖掘理論

基本概念與解決方法1關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘研究的基礎(chǔ)關(guān)聯(lián)規(guī)則挖掘(AssociationRuleMining)是數(shù)據(jù)挖掘中研究較早而且至今仍活躍的研究方法之一。最早是由Agrawal等人提出的(1993)。最初提出的動(dòng)機(jī)是針對(duì)購(gòu)物籃分析(BasketAnalysis)問(wèn)題提出的,其目的是為了發(fā)現(xiàn)交易數(shù)據(jù)庫(kù)(TransactionDatabase)中不同商品之間的聯(lián)系規(guī)則。關(guān)聯(lián)規(guī)則的挖掘工作成果頗豐。例如,關(guān)聯(lián)規(guī)則的挖掘理論、算法設(shè)計(jì)、算法的性能以及應(yīng)用推廣、并行關(guān)聯(lián)規(guī)則挖掘(ParallelAssociationRuleMining)以及數(shù)量關(guān)聯(lián)規(guī)則挖掘(QuantitiveAssociationRuleMining)等。關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘的其他研究分支的基礎(chǔ)。

20關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘研究的基礎(chǔ)關(guān)聯(lián)規(guī)則挖掘(Associa事務(wù)數(shù)據(jù)庫(kù)設(shè)I={i1,i2,…,im}是一個(gè)項(xiàng)目集合,事務(wù)數(shù)據(jù)庫(kù)D={t1,t2,…,tn}是由一系列具有唯一標(biāo)識(shí)TID的事務(wù)組成,每個(gè)事務(wù)ti(i=1,2,…,n)都對(duì)應(yīng)I上的一個(gè)子集。一個(gè)事務(wù)數(shù)據(jù)庫(kù)可以用來(lái)刻畫:購(gòu)物記錄:I是全部物品集合,D是購(gòu)物清單,每個(gè)元組ti是一次購(gòu)買物品的集合(它當(dāng)然是I的一個(gè)子集)。其它應(yīng)用問(wèn)題21事務(wù)數(shù)據(jù)庫(kù)設(shè)I={i1,i2,…,im}是一個(gè)項(xiàng)目集合支持度與頻繁項(xiàng)目集定義(項(xiàng)目集的支持度).給定一個(gè)全局項(xiàng)目集I和數(shù)據(jù)庫(kù)D,一個(gè)項(xiàng)目集I1I在D上的支持度(Support)是包含I1的事務(wù)在D中所占的百分比:support(I1

)=||{tD|I1

t}||/||D||。定義(頻繁項(xiàng)目集).給定全局項(xiàng)目集I和數(shù)據(jù)庫(kù)D,D中所有滿足用戶指定的最小支持度(Minsupport)的項(xiàng)目集,即大于或等于minsupport的I的非空子集,稱為頻繁項(xiàng)目集(頻集:FrequentItemsets)或者大項(xiàng)目集(LargeIitemsets)。在頻繁項(xiàng)目集中挑選出所有不被其他元素包含的頻繁項(xiàng)目集稱為最大頻繁項(xiàng)目集(最大頻集:MaximumFrequentItemsets)或最大大項(xiàng)目集(MaximumLargeIitemsets)。22支持度與頻繁項(xiàng)目集定義(項(xiàng)目集的支持度).給定一個(gè)全局項(xiàng)可信度與關(guān)聯(lián)規(guī)則定義(關(guān)聯(lián)規(guī)則與可信度).給定一個(gè)全局項(xiàng)目集I和數(shù)據(jù)庫(kù)D,一個(gè)定義在I和D上的關(guān)聯(lián)規(guī)則形如I1I2,并且它的可信度或信任度或置信度(Confidence)是指包含I1和I2的事務(wù)數(shù)與包含I1的事務(wù)數(shù)之比,即Confidence(I1I2)=support(I1∪I2)/support(I1),其中I1,I2I,I1∩I2=Ф。定義(強(qiáng)關(guān)聯(lián)規(guī)則).

D在I上滿足最小支持度和最小信任度(Minconfidence)的關(guān)聯(lián)規(guī)則稱為強(qiáng)關(guān)聯(lián)規(guī)則(StrongAssociationRule)。23可信度與關(guān)聯(lián)規(guī)則定義(關(guān)聯(lián)規(guī)則與可信度).給定一個(gè)全局項(xiàng)目集關(guān)聯(lián)規(guī)則挖掘基本過(guò)程關(guān)聯(lián)規(guī)則挖掘問(wèn)題可以劃分成兩個(gè)子問(wèn)題:1.發(fā)現(xiàn)頻繁項(xiàng)目集:通過(guò)用戶給定Minsupport,尋找所有頻繁項(xiàng)目集或者最大頻繁項(xiàng)目集。2.生成關(guān)聯(lián)規(guī)則:通過(guò)用戶給定Minconfidence,在頻繁項(xiàng)目集中,尋找關(guān)聯(lián)規(guī)則。第1個(gè)子問(wèn)題是近年來(lái)關(guān)聯(lián)規(guī)則挖掘算法研究的重點(diǎn)。24關(guān)聯(lián)規(guī)則挖掘基本過(guò)程關(guān)聯(lián)規(guī)則挖掘問(wèn)題可以劃分成兩個(gè)子問(wèn)題:6第三章關(guān)聯(lián)規(guī)則挖掘理論和算法

基本概念與解決方法

經(jīng)典的頻繁項(xiàng)目集生成算法分析及其改進(jìn)算法對(duì)項(xiàng)目集格空間理論的發(fā)展關(guān)聯(lián)規(guī)則挖掘中的一些更深入的問(wèn)題數(shù)量關(guān)聯(lián)規(guī)則挖掘方法25第三章關(guān)聯(lián)規(guī)則挖掘理論和算法

基本概念與解決方法7頻繁項(xiàng)目集生成算法分析Agrawal等人建立了用于事務(wù)數(shù)據(jù)庫(kù)挖掘的項(xiàng)目集格空間理論(1993,Appriori屬性)。1994年,Agrawal等人提出了著名的Apriori算法。(發(fā)現(xiàn)頻繁項(xiàng)目集)Apriori作為經(jīng)典的頻繁項(xiàng)目集生成算法,在數(shù)據(jù)挖掘中具有里程碑的作用。Apriori算法有兩個(gè)致命的性能瓶頸:1.多次掃描事務(wù)數(shù)據(jù)庫(kù),需要很大的I/O負(fù)載2.可能產(chǎn)生龐大的侯選集26頻繁項(xiàng)目集生成算法分析Agrawal等人建立了用于事務(wù)數(shù)據(jù)庫(kù)頻繁項(xiàng)目集生成算法分析一些算法雖然仍然遵循Apriori屬性,但是由于引入了相關(guān)技術(shù),在一定程度上改善了Apriori算法適應(yīng)性和效率。主要的改進(jìn)方法有:基于數(shù)據(jù)分割(Partition)的方法:基本原理是“在一個(gè)劃分中的支持度小于最小支持度的k-項(xiàng)集不可能是全局頻繁的”。基于散列(Hash)的方法:基本原理是“在一個(gè)hash桶內(nèi)支持度小于最小支持度的k-項(xiàng)集不可能是全局頻繁的”?;诓蓸樱⊿ampling)的方法:基本原理是“通過(guò)采樣技術(shù),評(píng)估被采樣的子集中,并依次來(lái)估計(jì)k-項(xiàng)集的全局頻度”。其他:如,動(dòng)態(tài)刪除沒(méi)有用的事務(wù):“不包含任何Lk的事務(wù)對(duì)未來(lái)的掃描結(jié)果不會(huì)產(chǎn)生影響,因而可以刪除”。27頻繁項(xiàng)目集生成算法分析一些算法雖然仍然遵循Apriori屬基于散列的方法1995,Park等發(fā)現(xiàn)尋找頻繁項(xiàng)目集的主要計(jì)算是在生成2-頻繁項(xiàng)目集上。因此,Park等利用了這個(gè)性質(zhì)引入雜湊技術(shù)來(lái)改進(jìn)產(chǎn)生2-頻繁項(xiàng)目集的方法。28基于散列的方法1995,Park等發(fā)現(xiàn)尋找頻繁項(xiàng)目集的主要計(jì)第三章關(guān)聯(lián)規(guī)則挖掘理論和算法

基本概念與解決方法

經(jīng)典的頻繁項(xiàng)目集生成算法分析及其改進(jìn)算法對(duì)項(xiàng)目集格空間理論的發(fā)展關(guān)聯(lián)規(guī)則挖掘中的一些更深入的問(wèn)題數(shù)量關(guān)聯(lián)規(guī)則挖掘方法29第三章關(guān)聯(lián)規(guī)則挖掘理論和算法

基本概念與解決方法11探索新的理論隨著數(shù)據(jù)庫(kù)容量的增大,重復(fù)訪問(wèn)數(shù)據(jù)庫(kù)(外存)將導(dǎo)致性能低下。因此,探索新的理論和算法來(lái)減少數(shù)據(jù)庫(kù)的掃描次數(shù)和侯選集空間占用,已經(jīng)成為近年來(lái)關(guān)聯(lián)規(guī)則挖掘研究的熱點(diǎn)之一。兩個(gè)典型的方法:Close算法FP-tree算法30探索新的理論隨著數(shù)據(jù)庫(kù)容量的增大,重復(fù)訪問(wèn)數(shù)據(jù)庫(kù)(外存)將導(dǎo)第三章關(guān)聯(lián)規(guī)則挖掘理論和算法

基本概念與解決方法

經(jīng)典的頻繁項(xiàng)目集生成算法分析及其改進(jìn)算法對(duì)項(xiàng)目集格空間理論的發(fā)展關(guān)聯(lián)規(guī)則挖掘中的一些更深入的問(wèn)題數(shù)量關(guān)聯(lián)規(guī)則挖掘方法31第三章關(guān)聯(lián)規(guī)則挖掘理論和算法

基本概念與解決方法13第三章關(guān)聯(lián)規(guī)則挖掘理論和算法

基本概念與解決方法

經(jīng)典的頻繁項(xiàng)目集生成算法分析及其改進(jìn)算法對(duì)項(xiàng)目集格空間理論的發(fā)展關(guān)聯(lián)規(guī)則挖掘中的一些更深入的問(wèn)題數(shù)量關(guān)聯(lián)規(guī)則挖掘方法32第三章關(guān)聯(lián)規(guī)則挖掘理論和算法

基本概念與解決方法14多層次關(guān)聯(lián)規(guī)則挖掘根據(jù)規(guī)則中涉及到的層次,多層次關(guān)聯(lián)規(guī)則可以分為:同層關(guān)聯(lián)規(guī)則:如果一個(gè)關(guān)聯(lián)規(guī)則對(duì)應(yīng)的項(xiàng)目是同一個(gè)粒度層次,那么它是同層關(guān)聯(lián)規(guī)則。層間關(guān)聯(lián)規(guī)則:如果在不同的粒度層次上考慮問(wèn)題,那么可能得到的是層間關(guān)聯(lián)規(guī)則。多層次關(guān)聯(lián)規(guī)則挖掘的度量方法可以沿用“支持度-可信度”的框架。不過(guò),多層次關(guān)聯(lián)規(guī)則挖掘有兩種基本的設(shè)置支持度的策略:統(tǒng)一的最小支持度:算法實(shí)現(xiàn)容易,而且很容易支持層間的關(guān)聯(lián)規(guī)則生成。但是弊端也是顯然的:不同層次可能考慮問(wèn)題的精度不同、面向的用戶群不同。對(duì)于一些用戶,可能覺(jué)得支持度太小,產(chǎn)生了過(guò)多不感興趣的規(guī)則。而對(duì)于另外的用戶來(lái)說(shuō),又認(rèn)為支持度太大,有用信

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論