




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第9章探索內(nèi)部結(jié)構(gòu):Clementine的關(guān)聯(lián)分析信息與計(jì)算科學(xué)專業(yè)2010本科
曹慧榮第9章探索內(nèi)部結(jié)構(gòu):Clementine的關(guān)聯(lián)分析Apriori算法GRI算法序列關(guān)聯(lián)算法
主要方法有:9.1Apriori算法引例Apriori算法Apriori算法的典型應(yīng)用
內(nèi)容安排:Step1:尋找頻繁項(xiàng)集;Step2:給出強(qiáng)關(guān)聯(lián)規(guī)則。9.1Apriori算法ID牛奶雞蛋面包110121013111401150001:尋找頻繁項(xiàng)集——受歡迎的商品或商品組合。
2:尋找頻繁(強(qiáng))關(guān)聯(lián)規(guī)則——高頻的購物模式如買牛奶的必然買面包。
項(xiàng)集支持度{牛奶}0.6{雞蛋}0.4{面包}0.8{牛奶,雞蛋}0.2{牛奶,面包}0.6{雞蛋,面包}0.4{牛奶,雞蛋,面包}0.2引例:某超市銷售數(shù)據(jù)項(xiàng):商品;項(xiàng)集:商品的集合。9.1Apriori算法ID牛奶雞蛋面包11012101311140115000例:某超市銷售數(shù)據(jù)Apriori算法完成:1.尋找頻繁項(xiàng)集;受歡迎的商品。2.尋找頻繁(強(qiáng))的關(guān)聯(lián)規(guī)則。高頻的購物模式。當(dāng)數(shù)據(jù)量大時(shí),必須引入有效算法9.1Apriori算法K-項(xiàng)集:包含K個(gè)項(xiàng)的集合。頻繁項(xiàng)集:所有支持度大于等于最小支持度的項(xiàng)集。頻繁項(xiàng)集的尋找:如果有m種商品,則只要計(jì)算所有非空項(xiàng)集的支持度,大于等于最小支持度的即為頻繁項(xiàng)集。
一、尋找頻繁項(xiàng)集9.1Apriori算法
如前所述,m種商品的非空項(xiàng)集有2m-1個(gè),計(jì)算量爆炸性增長。頻繁項(xiàng)集的性質(zhì):
性質(zhì)1:頻繁項(xiàng)集的子集必為頻繁項(xiàng)集;性質(zhì)2:非頻繁項(xiàng)集的超集必為非頻繁項(xiàng)集。先找頻繁項(xiàng)集;然后再找頻繁規(guī)則例題1:設(shè)有項(xiàng)集T={a,b,c,d,e}所示的簡單交易數(shù)據(jù)庫,設(shè)minS=50%,求所有的頻繁項(xiàng)集。解:
step1:潛在的頻繁1-項(xiàng)集C1為
{a},,{c},gf2gpot,{e}由最小支持度可以得到頻繁1-項(xiàng)集L1{a},,{c},{e}
交易號商品1a,c,d2b,c,e3a,b,c,e4b,e9.1Apriori算法一、尋找頻繁項(xiàng)集step2:在頻繁L1基礎(chǔ)上求L2
L1支持度{a}0.50.75{c}0.75{e}0.75連接L1*L1得到潛在C2C2支持度{a,b}0.25{a,c}0.5{a,e}0.25{b,c}0.5{b,e}0.75{c,e}0.5交易號商品1a,c,d2b,c,e3a,b,c,e4b,estep3:在頻繁L2基礎(chǔ)上求L3
交易號商品1a,c,d2b,c,e3a,b,c,e4b,eL2支持度{a,c}0.5{b,c}0.5{b,e}0.75{c,e}0.5連接L2*L2得到{a,b,c},{a,c,e},{b,c,e}剪枝,從而得到潛在的C3{b,c,e}因此所有的頻繁項(xiàng)集為:{a},,{c},{e},{a,c},{b,c},{b,e},{c,e},{b,c,e}潛在1-項(xiàng)集C1頻繁1-項(xiàng)集L1連接潛在2-項(xiàng)集C1頻繁2-項(xiàng)集L2連接剪枝潛在3-項(xiàng)集C3頻繁3-項(xiàng)集L3.。。。Apriori算法尋找頻繁項(xiàng)集的步驟——受歡迎的商品或商品組合。二、尋找強(qiáng)關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則:形式上為
(規(guī)則支持度,規(guī)則置信度)支持度(Support):同時(shí)購買A和B的客戶人數(shù)占總客戶數(shù)的百分比稱為規(guī)則的支持度。
置信度(Confidence):同時(shí)購買A和B的客戶人數(shù)占購買A的客戶人數(shù)的百分比稱為規(guī)則的置信度。
由于在實(shí)際應(yīng)用中,概率P一般是無法事先給出的,所以常以頻率代替。前項(xiàng)后項(xiàng)二、尋找強(qiáng)關(guān)聯(lián)規(guī)則例題2:計(jì)算下面規(guī)則的支持度與置信度。ID牛奶奶酪雞蛋面包1100121101311114000150100(1){面包}{牛奶}(2){牛奶}{面包}(3){雞蛋}{奶酪}二、尋找強(qiáng)關(guān)聯(lián)規(guī)則ID牛奶奶酪雞蛋面包1100121101311114000150100{面包}{牛奶}(60%,75%){牛奶}{面包}(60%,100%){雞蛋}{奶酪}(20%,100%)(規(guī)則支持度,規(guī)則置信度)思考:(1)規(guī)則支持度小,規(guī)則置信度大,說明什么現(xiàn)象?
如1000個(gè)人中只有一個(gè)人購買了烤爐,又購買了碳,所以
{烤爐}{碳}(0.1%,100%)
(應(yīng)用機(jī)會少)(2)規(guī)則支持度大,規(guī)則置信度小,說明什么現(xiàn)象?二、尋找強(qiáng)關(guān)聯(lián)規(guī)則
AB(規(guī)則支持度,規(guī)則置信度)一個(gè)好的規(guī)則應(yīng)該有比較高的支持度和置信度.如果滿足最小支持度閾值和最小置信度閾值,則稱這個(gè)規(guī)則為強(qiáng)規(guī)則。我們的目的就是找出強(qiáng)關(guān)聯(lián)規(guī)則。由頻繁項(xiàng)集可以產(chǎn)生潛在的強(qiáng)關(guān)聯(lián)規(guī)則
二、尋找強(qiáng)關(guān)聯(lián)規(guī)則交易號商品1a,c,d2b,c,e3a,b,c,e4b,estep2.
由頻繁項(xiàng)集產(chǎn)生關(guān)聯(lián)規(guī)則如表:潛在強(qiáng)關(guān)聯(lián)規(guī)則置信度是否為強(qiáng)關(guān)聯(lián)規(guī)則{a}{c}1Yes{c}{a}0.67No{c}0.67No{c}0.67No{e}1Yes{e}1Yes例題3:同例題1的數(shù)據(jù)。設(shè)minS=50%,minC=80%,利用Apriori算法求所有的強(qiáng)關(guān)聯(lián)規(guī)則。解:step1.所有的頻繁項(xiàng)集為:{a},,{c},{e},{a,c},{b,c},{b,e},{c,e},{b,c,e}三、Apriori算法的步驟Apriori算法是一種尋找強(qiáng)關(guān)聯(lián)規(guī)則的算法
Apriori算法具體步驟:
第一步:產(chǎn)生頻繁項(xiàng)集第二步:構(gòu)造關(guān)聯(lián)規(guī)則。
給該超市的建議:
請將商品b和e的捆綁銷售或就近安排貨架!
四、Apriori算法的典型應(yīng)用潛在強(qiáng)關(guān)聯(lián)規(guī)則置信度是否為強(qiáng)關(guān)聯(lián)規(guī)則{a}{c}1Yes{c}{a}0.67No{c}0.67No{c}0.67No{e}1Yes{e}1Yes成功案例:神奇的購物籃分析《啤酒與尿布:神奇的購物籃分析》的故事是營銷屆的神話,“啤酒”和“尿布”兩個(gè)看上去沒有關(guān)系的商品擺放在一起進(jìn)行銷售、并獲得了很好的銷售收益,這種現(xiàn)象就是賣場中商品之間的關(guān)聯(lián)性,研究“啤酒與尿布”關(guān)聯(lián)的方法就是購物籃分析,購物籃分析是沃爾瑪秘而不宣的獨(dú)門武器,購物籃分析可以幫助我們在門店的銷售過程中找到具有關(guān)聯(lián)關(guān)系的商品,并以此獲得銷售收益的增長!Apriori算法是一種尋找強(qiáng)關(guān)聯(lián)規(guī)則的算法
Apriori算法具體步驟:
第一步:產(chǎn)生頻繁項(xiàng)集第二步:構(gòu)造關(guān)聯(lián)規(guī)則。附:關(guān)聯(lián)規(guī)則的相關(guān)分析強(qiáng)關(guān)聯(lián)規(guī)則不一定有正確的指導(dǎo)意義!例:在10000個(gè)交易中,6000個(gè)顧客交易包含計(jì)算機(jī)游戲,7500個(gè)顧客交易包含影碟機(jī),4000個(gè)交易包含計(jì)算機(jī)游戲和影碟機(jī)。規(guī)則其實(shí)是誤導(dǎo),因?yàn)橘徺I影碟機(jī)的可能性是75%,比66%還大。事實(shí)是:計(jì)算機(jī)游戲和影碟機(jī)是負(fù)相關(guān)的。
關(guān)聯(lián)規(guī)則實(shí)用性的測度指標(biāo)
規(guī)則AB提升度L=
L:<1,負(fù)相關(guān)
=1,A和B是獨(dú)立的
>1,正相關(guān),每一個(gè)出現(xiàn)蘊(yùn)涵另一個(gè)出現(xiàn)p({游戲})=0.6,p({影碟機(jī)})=0.75,p({游戲,影碟機(jī)})=0.4L=0.4/0.6*0.75=0.89<1負(fù)相關(guān),規(guī)則無意義!附:關(guān)聯(lián)規(guī)則的相關(guān)分析小結(jié):基本概念:
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025至2030國內(nèi)食品檢測儀器行業(yè)市場深度研究與戰(zhàn)略咨詢分析報(bào)告
- 2025至2030國內(nèi)果蔬清洗劑行業(yè)市場發(fā)展前景及競爭格局與投資機(jī)會報(bào)告
- 關(guān)于農(nóng)村精神文化生活的調(diào)查報(bào)告
- 2025至2030管線鋼行業(yè)發(fā)展趨勢分析與未來投資戰(zhàn)略咨詢研究報(bào)告
- 2025至2030古箏行業(yè)發(fā)展趨勢分析與未來投資戰(zhàn)略咨詢研究報(bào)告
- 農(nóng)業(yè)科技成果轉(zhuǎn)化與農(nóng)村合作社發(fā)展關(guān)系研究報(bào)告
- 浙江國企招聘2025浙江舟山旅游集團(tuán)有限公司所屬企業(yè)招聘11人筆試參考題庫附帶答案詳解版
- 2025年河北石家莊市市屬國有企業(yè)公開招聘應(yīng)屆畢業(yè)生223名筆試參考題庫附帶答案詳解版
- 備戰(zhàn)高一高二高三高考?xì)v史臨考題號押題-押江蘇卷第18題中國古代經(jīng)濟(jì)發(fā)展(解析版)
- 2010-2024歷年廣東東莞市第七高級中學(xué)高一下學(xué)期第一次月考政治卷(帶解析)
- 2025年校長職級考試題及答案
- 國家能源集團(tuán)采購管理規(guī)定及實(shí)施辦法知識試卷
- 2023-2024學(xué)年四川省成都市高新區(qū)八年級(下)期末數(shù)學(xué)試卷
- 2025年廣西繼續(xù)教育公需科目考試試題和答案
- 2024年廣州市南沙區(qū)社區(qū)專職招聘考試真題
- 山東醫(yī)藥技師學(xué)院招聘筆試真題2024
- (高清版)DB13(J)∕T 8556-2023 建設(shè)工程消耗量標(biāo)準(zhǔn)及計(jì)算規(guī)則(園林綠化工程)
- JJF 1334-2012混凝土裂縫寬度及深度測量儀校準(zhǔn)規(guī)范
- GB/T 3003-2017耐火纖維及制品
- GB/T 1094.1-2013電力變壓器第1部分:總則
- 經(jīng)濟(jì)責(zé)任審計(jì)報(bào)告
評論
0/150
提交評論