




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、知識回顧1.分類屬性的處理1.1概念介紹1.2處理方法1.3分類屬性二元化的不足2.連續(xù)屬性的處理2.1基于離散化的方法2.1基于統(tǒng)計學(xué)的方法2.3基于非離散化的方法關(guān)聯(lián)規(guī)則挖掘假定輸入數(shù)據(jù)由稱作項的二元屬性組成。還假定項在事物中出現(xiàn)比不出現(xiàn)更重要。這樣,項被看作非對稱的二元屬性,且只有頻繁模式才被認為是有趣的。例: 6-2購物籃數(shù)據(jù)的二元0/1表示TID面包牛奶尿布啤酒雞蛋可樂11100002101110301110141111005111001從上述的購物籃數(shù)據(jù)中,我們可得出尿布啤酒這一有趣的規(guī)則。這一頻繁項集的得出,我們可以運用:Apriori算法、Hash樹法、FP增長算法等等。關(guān)于該
2、規(guī)則的支持度和置信度的計算如下:上面規(guī)則的支持度s=尿布、啤酒支持度計數(shù)/事物個數(shù)=3/5=0.6上面規(guī)則的置信度c=尿布、啤酒支持度計數(shù)/尿布支持度計數(shù)=3/4=0.75性別文化程度州家庭計算機網(wǎng)上聊天網(wǎng)上購物關(guān)注隱私女研究生伊利諾伊是是是是男大學(xué)加利福尼亞否否否否男研究生密歇根是是是是女大學(xué)弗吉尼亞否否是是女研究生加利福尼亞是否否是男大學(xué)明尼蘇達是是是是男大學(xué)阿拉斯加是是是否男高中俄勒岡是否否否女研究生得克薩斯否是否否上面的因特網(wǎng)調(diào)查數(shù)據(jù)中,像性別、家庭計算機、網(wǎng)上聊天、網(wǎng)上購物和關(guān)注隱私這些屬性,我們稱為對稱二元屬性;而像文化程度、州稱之為標(biāo)稱屬性。 1.2處理方法對于對稱二元屬性,可以
3、轉(zhuǎn)化成一對二元屬性如:性別分為男男和女女,而對于標(biāo)稱屬性,則可以用多個二元項取代,例如:文化程度=大學(xué)大學(xué),文化程度=研究生研究生,文化程度=高中高中。通過這樣將分類屬性和對稱二元屬性轉(zhuǎn)化成“項”之后,我們就可以如下二元化后的調(diào)查數(shù)據(jù):男女文化程度=研究生文化程度=大學(xué)關(guān)注隱私=是關(guān)注隱私=否011010100101101010010110011010100110100101100001011001使用關(guān)聯(lián)分析,從上表挖掘出的信息是:網(wǎng)上購物=是關(guān)注隱私=是1.2分類屬性二元化的不足利用二元化后的數(shù)據(jù)進行關(guān)聯(lián)分析時,需要注意以下幾點:(1)有些屬性值可能不夠頻繁,不能成為頻繁模式的一部分。這個
4、問題主要出在標(biāo)稱屬性上,如例子中的州名這一屬性。若不加處理的將其用多個二元項取代,計算量將會過大,不太實際。所以實際做法是,將相關(guān)的屬性值分組,形成少數(shù)類別。例如,每個州名都可以用對應(yīng)的地理區(qū)域如中西部、太平洋西北部、西南部和東海岸取代。另一種可能性是,將不太頻繁的屬性值聚合成一個稱作其他的類別。(2)某些屬性的頻率可能比其他屬性高很多,容易產(chǎn)生冗余模式。例如,假定85%的被調(diào)查人都有家庭計算機。如果為每個頻繁出現(xiàn)在數(shù)據(jù)中的屬性值創(chuàng)建一個二元項,我們可能產(chǎn)生許多冗余模式,如下面的例子所示:家庭計算機=是,網(wǎng)上購物=是關(guān)注隱私=是(3)盡管每個事物的寬度與原始數(shù)據(jù)中屬性個數(shù)相同,但是計算時間可能
5、增加,特別是當(dāng)新創(chuàng)建的項變成頻繁項時。這是因為需要更多時間處理由這些項產(chǎn)生的候選集。減少計算時間的一種方法是,避免產(chǎn)生包含多個來自同一屬性的項的候選項集。例如,我們不必產(chǎn)生諸如州=X,州=Y,的候選項集,因為該項集的支持度計數(shù)為零。性別年齡年收入每周上網(wǎng)小時數(shù)E-mail帳號數(shù)關(guān)注隱私女2690K204是男51135K102否男2980K103是女45120K153是女3195K205是男2555K255是男37100K101否男4165K82否女2685K121否上表是具有連續(xù)屬性的因特網(wǎng)調(diào)查數(shù)據(jù),如年齡、年收入、每周上網(wǎng)小時數(shù)、e-mail賬號數(shù)就是連續(xù)屬性。對連續(xù)屬性數(shù)據(jù)進行關(guān)聯(lián)分析的方
6、法具體有(1)基于離散化的方法,(2)基于統(tǒng)計學(xué)的方法,(3)非離散化方法。 2.1基于離散化的方法所謂離散化就是將連續(xù)屬性的鄰近值分組,形成有限個區(qū)間。例如,年齡屬性可以劃分成如下區(qū)間:年齡12,16),年齡16,20),年齡20,24),年齡56,60)其中,a,b)代表包含a但不包含b的區(qū)間。離散的區(qū)間可以映射到非對稱的二元屬性,使得可以使用已有的關(guān)聯(lián)分析算法男女年齡網(wǎng)上聊天=是 (s=30%,c=57.7%)R2:年齡36,60)-網(wǎng)上聊天=否 (s=28%,c=58.3%)盡管它們有較高的支持度,但是較寬的區(qū)間導(dǎo)致兩個規(guī)則的置信度都低于最小置信度閾值。其結(jié)果是,離散化之后,兩個模式都
7、失去了。(2)如果區(qū)間太窄,則可能因為缺乏支持度丟失某些模式。例如,如果區(qū)間寬度為4歲,則R1被分裂成如下兩個子規(guī)則。R11:年齡16,20)-網(wǎng)上聊天=是 (s=4.4%,c=84.6%)R12:年齡36,60)-網(wǎng)上聊天=否 (s=4.4%,c=78.6%)由于兩個子規(guī)則都低于最小支持度閾值,離散化后R1丟失了。同理,規(guī)則R2被分裂成4個子規(guī)則,也因4個子規(guī)則的支持度都低于最小支持度閾值而丟失。如果區(qū)間寬度是8歲,則規(guī)則R2被分裂成如下兩個子規(guī)則。R21:年齡44,52)-網(wǎng)上聊天=否 (s=8.4%,c=70%)R22:年齡52,60)-網(wǎng)上聊天=否 (s=8.4%,c=70%)由于R2
8、1和R22都有足夠的支持度和置信度,R2可以通過聚合兩個子規(guī)則而恢復(fù)。與此同時,R1被分裂成如下兩個子規(guī)則。R11:年齡12,20)-網(wǎng)上聊天=是 (s=9.2%,c=60.5%)R12:年齡20,28)-網(wǎng)上聊天=是 (s=9.2%,c=60.0%)不像R2,我們不能通過聚合兩個子規(guī)則來恢復(fù)R1,因為兩個字規(guī)則的置信度都低于閾值。處理這些問題的一個方法是,考慮鄰近區(qū)間的每種可能的分組。例如,我們可以以寬度4歲開始,將臨近的區(qū)間合并成較寬的區(qū)間,年齡12,16),年齡12,20),年齡12,60),年齡16,20),年齡16,24)等等。這種方法能夠檢測出R1和R2是強規(guī)則。然而,這也導(dǎo)致如下
9、計算問題。(1)計算開銷非常大。如果值域被劃分成k個區(qū)間,則必須創(chuàng)建k(k-1)/2個二元項來代表所有可能的區(qū)間。此外,如果對應(yīng)于區(qū)間a,b)的項是頻繁的,則包含a,b)的區(qū)間對應(yīng)的所有項也必然是頻繁的。因此,這種方法可能產(chǎn)生過多的候選和頻繁項集。為了處理這些問題,可以使用最大支持度閾值,防止創(chuàng)建對應(yīng)于非常寬的區(qū)間的項,并減少項集的數(shù)量。(2)提取許多冗余規(guī)則。例如,考慮下面的規(guī)則對:R3:年齡16,20),性別=男-網(wǎng)上聊天=是R4:年齡16,24),性別=男-網(wǎng)上聊天=是2.1基于統(tǒng)計學(xué)的方法需指定用于刻畫有趣總體段特性的目標(biāo)屬性,保留目標(biāo)屬性,對其余屬性進行二元化,產(chǎn)生頻繁項集時,對目標(biāo)
10、屬性在每個段內(nèi)的分布進行匯總。例:對因特網(wǎng)用戶的年齡求平均值得到 年收入$100K,網(wǎng)上購物=是 -年齡:均值=38 這一有趣規(guī)則。方法:假設(shè)檢驗。實施(針對上面規(guī)則):先對一些符號進行說明,設(shè)u是滿足規(guī)則的事物中的年齡的均值,u是不滿足規(guī)則的事物中的年齡的均值。用戶可接受的年齡差(若年齡差小于 ,認為無差異)n1是滿足規(guī)則的事物個數(shù),n2是不滿足規(guī)則的事物個數(shù);s1是滿足規(guī)則的事務(wù)中年齡的標(biāo)準(zhǔn)差,s2是不滿足規(guī)則的事務(wù)中年齡的標(biāo)準(zhǔn)差。 2.3基于非離散化的方法文檔word1word2word3word4word5word6文檔10.30.60000.2文檔20.10.20000.2文檔30.40.20.7000.2文檔40.200.3000.1文檔50001.01.00.3對所有文檔的平均規(guī)范化頻率求和S(word1,word2)=(0.3+0.6)/2+(0.1
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 模塊化舞臺設(shè)計服務(wù)行業(yè)跨境出海戰(zhàn)略研究報告
- 模塊化建筑現(xiàn)場管理系統(tǒng)企業(yè)制定與實施新質(zhì)生產(chǎn)力戰(zhàn)略研究報告
- 硫化鋁企業(yè)數(shù)字化轉(zhuǎn)型與智慧升級戰(zhàn)略研究報告
- 米醋企業(yè)數(shù)字化轉(zhuǎn)型與智慧升級戰(zhàn)略研究報告
- 鉆石項鏈企業(yè)數(shù)字化轉(zhuǎn)型與智慧升級戰(zhàn)略研究報告
- 2025年建筑涂料色漿項目發(fā)展計劃
- 平車整車鐵路貨運企業(yè)ESG實踐與創(chuàng)新戰(zhàn)略研究報告
- 紙企業(yè)數(shù)字化轉(zhuǎn)型與智慧升級戰(zhàn)略研究報告
- 倉儲籠企業(yè)ESG實踐與創(chuàng)新戰(zhàn)略研究報告
- 2025屆黑龍江省齊齊哈爾市高三一模數(shù)學(xué)試題【含答案解析】
- 《西方經(jīng)濟學(xué)》(上冊)課程教案
- 移動政企部年終總結(jié)
- 施工合同協(xié)議書樣本
- 醫(yī)學(xué)綜合題庫(含答案)
- 工會一函兩書模板
- 四年級語文下冊第六單元【集體備課】(教材解讀+教學(xué)設(shè)計)
- 2024版義務(wù)教育小學(xué)科學(xué)課程標(biāo)準(zhǔn)
- 當(dāng)代青年心態(tài)問題研究報告
- 《籃球防守戰(zhàn)術(shù)基礎(chǔ)配合》教案(三篇)
- 專利申請文件-審查意見的答復(fù)
- 衛(wèi)生院醫(yī)院管理提升年活動方案例文
評論
0/150
提交評論