數(shù)據(jù)挖掘中的關(guān)聯(lián)分析_第1頁(yè)
數(shù)據(jù)挖掘中的關(guān)聯(lián)分析_第2頁(yè)
數(shù)據(jù)挖掘中的關(guān)聯(lián)分析_第3頁(yè)
數(shù)據(jù)挖掘中的關(guān)聯(lián)分析_第4頁(yè)
數(shù)據(jù)挖掘中的關(guān)聯(lián)分析_第5頁(yè)
已閱讀5頁(yè),還剩14頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、知識(shí)回顧1.分類屬性的處理1.1概念介紹1.2處理方法1.3分類屬性二元化的不足2.連續(xù)屬性的處理2.1基于離散化的方法2.1基于統(tǒng)計(jì)學(xué)的方法2.3基于非離散化的方法關(guān)聯(lián)規(guī)則挖掘假定輸入數(shù)據(jù)由稱作項(xiàng)的二元屬性組成。還假定項(xiàng)在事物中出現(xiàn)比不出現(xiàn)更重要。這樣,項(xiàng)被看作非對(duì)稱的二元屬性,且只有頻繁模式才被認(rèn)為是有趣的。例: 6-2購(gòu)物籃數(shù)據(jù)的二元0/1表示TID面包牛奶尿布啤酒雞蛋可樂11100002101110301110141111005111001從上述的購(gòu)物籃數(shù)據(jù)中,我們可得出尿布啤酒這一有趣的規(guī)則。這一頻繁項(xiàng)集的得出,我們可以運(yùn)用:Apriori算法、Hash樹法、FP增長(zhǎng)算法等等。關(guān)于該

2、規(guī)則的支持度和置信度的計(jì)算如下:上面規(guī)則的支持度s=尿布、啤酒支持度計(jì)數(shù)/事物個(gè)數(shù)=3/5=0.6上面規(guī)則的置信度c=尿布、啤酒支持度計(jì)數(shù)/尿布支持度計(jì)數(shù)=3/4=0.75性別文化程度州家庭計(jì)算機(jī)網(wǎng)上聊天網(wǎng)上購(gòu)物關(guān)注隱私女研究生伊利諾伊是是是是男大學(xué)加利福尼亞否否否否男研究生密歇根是是是是女大學(xué)弗吉尼亞否否是是女研究生加利福尼亞是否否是男大學(xué)明尼蘇達(dá)是是是是男大學(xué)阿拉斯加是是是否男高中俄勒岡是否否否女研究生得克薩斯否是否否上面的因特網(wǎng)調(diào)查數(shù)據(jù)中,像性別、家庭計(jì)算機(jī)、網(wǎng)上聊天、網(wǎng)上購(gòu)物和關(guān)注隱私這些屬性,我們稱為對(duì)稱二元屬性;而像文化程度、州稱之為標(biāo)稱屬性。 1.2處理方法對(duì)于對(duì)稱二元屬性,可以

3、轉(zhuǎn)化成一對(duì)二元屬性如:性別分為男男和女女,而對(duì)于標(biāo)稱屬性,則可以用多個(gè)二元項(xiàng)取代,例如:文化程度=大學(xué)大學(xué),文化程度=研究生研究生,文化程度=高中高中。通過這樣將分類屬性和對(duì)稱二元屬性轉(zhuǎn)化成“項(xiàng)”之后,我們就可以如下二元化后的調(diào)查數(shù)據(jù):男女文化程度=研究生文化程度=大學(xué)關(guān)注隱私=是關(guān)注隱私=否011010100101101010010110011010100110100101100001011001使用關(guān)聯(lián)分析,從上表挖掘出的信息是:網(wǎng)上購(gòu)物=是關(guān)注隱私=是1.2分類屬性二元化的不足利用二元化后的數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析時(shí),需要注意以下幾點(diǎn):(1)有些屬性值可能不夠頻繁,不能成為頻繁模式的一部分。這個(gè)

4、問題主要出在標(biāo)稱屬性上,如例子中的州名這一屬性。若不加處理的將其用多個(gè)二元項(xiàng)取代,計(jì)算量將會(huì)過大,不太實(shí)際。所以實(shí)際做法是,將相關(guān)的屬性值分組,形成少數(shù)類別。例如,每個(gè)州名都可以用對(duì)應(yīng)的地理區(qū)域如中西部、太平洋西北部、西南部和東海岸取代。另一種可能性是,將不太頻繁的屬性值聚合成一個(gè)稱作其他的類別。(2)某些屬性的頻率可能比其他屬性高很多,容易產(chǎn)生冗余模式。例如,假定85%的被調(diào)查人都有家庭計(jì)算機(jī)。如果為每個(gè)頻繁出現(xiàn)在數(shù)據(jù)中的屬性值創(chuàng)建一個(gè)二元項(xiàng),我們可能產(chǎn)生許多冗余模式,如下面的例子所示:家庭計(jì)算機(jī)=是,網(wǎng)上購(gòu)物=是關(guān)注隱私=是(3)盡管每個(gè)事物的寬度與原始數(shù)據(jù)中屬性個(gè)數(shù)相同,但是計(jì)算時(shí)間可能

5、增加,特別是當(dāng)新創(chuàng)建的項(xiàng)變成頻繁項(xiàng)時(shí)。這是因?yàn)樾枰鄷r(shí)間處理由這些項(xiàng)產(chǎn)生的候選集。減少計(jì)算時(shí)間的一種方法是,避免產(chǎn)生包含多個(gè)來自同一屬性的項(xiàng)的候選項(xiàng)集。例如,我們不必產(chǎn)生諸如州=X,州=Y,的候選項(xiàng)集,因?yàn)樵擁?xiàng)集的支持度計(jì)數(shù)為零。性別年齡年收入每周上網(wǎng)小時(shí)數(shù)E-mail帳號(hào)數(shù)關(guān)注隱私女2690K204是男51135K102否男2980K103是女45120K153是女3195K205是男2555K255是男37100K101否男4165K82否女2685K121否上表是具有連續(xù)屬性的因特網(wǎng)調(diào)查數(shù)據(jù),如年齡、年收入、每周上網(wǎng)小時(shí)數(shù)、e-mail賬號(hào)數(shù)就是連續(xù)屬性。對(duì)連續(xù)屬性數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析的方

6、法具體有(1)基于離散化的方法,(2)基于統(tǒng)計(jì)學(xué)的方法,(3)非離散化方法。 2.1基于離散化的方法所謂離散化就是將連續(xù)屬性的鄰近值分組,形成有限個(gè)區(qū)間。例如,年齡屬性可以劃分成如下區(qū)間:年齡12,16),年齡16,20),年齡20,24),年齡56,60)其中,a,b)代表包含a但不包含b的區(qū)間。離散的區(qū)間可以映射到非對(duì)稱的二元屬性,使得可以使用已有的關(guān)聯(lián)分析算法男女年齡網(wǎng)上聊天=是 (s=30%,c=57.7%)R2:年齡36,60)-網(wǎng)上聊天=否 (s=28%,c=58.3%)盡管它們有較高的支持度,但是較寬的區(qū)間導(dǎo)致兩個(gè)規(guī)則的置信度都低于最小置信度閾值。其結(jié)果是,離散化之后,兩個(gè)模式都

7、失去了。(2)如果區(qū)間太窄,則可能因?yàn)槿狈χС侄葋G失某些模式。例如,如果區(qū)間寬度為4歲,則R1被分裂成如下兩個(gè)子規(guī)則。R11:年齡16,20)-網(wǎng)上聊天=是 (s=4.4%,c=84.6%)R12:年齡36,60)-網(wǎng)上聊天=否 (s=4.4%,c=78.6%)由于兩個(gè)子規(guī)則都低于最小支持度閾值,離散化后R1丟失了。同理,規(guī)則R2被分裂成4個(gè)子規(guī)則,也因4個(gè)子規(guī)則的支持度都低于最小支持度閾值而丟失。如果區(qū)間寬度是8歲,則規(guī)則R2被分裂成如下兩個(gè)子規(guī)則。R21:年齡44,52)-網(wǎng)上聊天=否 (s=8.4%,c=70%)R22:年齡52,60)-網(wǎng)上聊天=否 (s=8.4%,c=70%)由于R2

8、1和R22都有足夠的支持度和置信度,R2可以通過聚合兩個(gè)子規(guī)則而恢復(fù)。與此同時(shí),R1被分裂成如下兩個(gè)子規(guī)則。R11:年齡12,20)-網(wǎng)上聊天=是 (s=9.2%,c=60.5%)R12:年齡20,28)-網(wǎng)上聊天=是 (s=9.2%,c=60.0%)不像R2,我們不能通過聚合兩個(gè)子規(guī)則來恢復(fù)R1,因?yàn)閮蓚€(gè)字規(guī)則的置信度都低于閾值。處理這些問題的一個(gè)方法是,考慮鄰近區(qū)間的每種可能的分組。例如,我們可以以寬度4歲開始,將臨近的區(qū)間合并成較寬的區(qū)間,年齡12,16),年齡12,20),年齡12,60),年齡16,20),年齡16,24)等等。這種方法能夠檢測(cè)出R1和R2是強(qiáng)規(guī)則。然而,這也導(dǎo)致如下

9、計(jì)算問題。(1)計(jì)算開銷非常大。如果值域被劃分成k個(gè)區(qū)間,則必須創(chuàng)建k(k-1)/2個(gè)二元項(xiàng)來代表所有可能的區(qū)間。此外,如果對(duì)應(yīng)于區(qū)間a,b)的項(xiàng)是頻繁的,則包含a,b)的區(qū)間對(duì)應(yīng)的所有項(xiàng)也必然是頻繁的。因此,這種方法可能產(chǎn)生過多的候選和頻繁項(xiàng)集。為了處理這些問題,可以使用最大支持度閾值,防止創(chuàng)建對(duì)應(yīng)于非常寬的區(qū)間的項(xiàng),并減少項(xiàng)集的數(shù)量。(2)提取許多冗余規(guī)則。例如,考慮下面的規(guī)則對(duì):R3:年齡16,20),性別=男-網(wǎng)上聊天=是R4:年齡16,24),性別=男-網(wǎng)上聊天=是2.1基于統(tǒng)計(jì)學(xué)的方法需指定用于刻畫有趣總體段特性的目標(biāo)屬性,保留目標(biāo)屬性,對(duì)其余屬性進(jìn)行二元化,產(chǎn)生頻繁項(xiàng)集時(shí),對(duì)目標(biāo)

10、屬性在每個(gè)段內(nèi)的分布進(jìn)行匯總。例:對(duì)因特網(wǎng)用戶的年齡求平均值得到 年收入$100K,網(wǎng)上購(gòu)物=是 -年齡:均值=38 這一有趣規(guī)則。方法:假設(shè)檢驗(yàn)。實(shí)施(針對(duì)上面規(guī)則):先對(duì)一些符號(hào)進(jìn)行說明,設(shè)u是滿足規(guī)則的事物中的年齡的均值,u是不滿足規(guī)則的事物中的年齡的均值。用戶可接受的年齡差(若年齡差小于 ,認(rèn)為無差異)n1是滿足規(guī)則的事物個(gè)數(shù),n2是不滿足規(guī)則的事物個(gè)數(shù);s1是滿足規(guī)則的事務(wù)中年齡的標(biāo)準(zhǔn)差,s2是不滿足規(guī)則的事務(wù)中年齡的標(biāo)準(zhǔn)差。 2.3基于非離散化的方法文檔word1word2word3word4word5word6文檔10.30.60000.2文檔20.10.20000.2文檔30.40.20.7000.2文檔40.200.3000.1文檔50001.01.00.3對(duì)所有文檔的平均規(guī)范化頻率求和S(word1,word2)=(0.3+0.6)/2+(0.1

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論