第五關(guān)聯(lián)規(guī)則挖掘?qū)W習(xí)教案_第1頁
第五關(guān)聯(lián)規(guī)則挖掘?qū)W習(xí)教案_第2頁
第五關(guān)聯(lián)規(guī)則挖掘?qū)W習(xí)教案_第3頁
第五關(guān)聯(lián)規(guī)則挖掘?qū)W習(xí)教案_第4頁
第五關(guān)聯(lián)規(guī)則挖掘?qū)W習(xí)教案_第5頁
已閱讀5頁,還剩89頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、會計學(xué)1第五第五 關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則(guz)挖掘挖掘第一頁,共94頁。第2頁/共94頁第1頁/共94頁第二頁,共94頁。第3頁/共94頁第2頁/共94頁第三頁,共94頁。高高(t go)護(hù)理用品的銷售?護(hù)理用品的銷售?)n家用電器家用電器* (其他商品的庫存其他商品的庫存有什么影響有什么影響?)第4頁/共94頁第3頁/共94頁第四頁,共94頁。交易ID購買的商品2000A,B,C1000A,C4000A,D5000B,E,F設(shè)最小支持設(shè)最小支持(zhch)度為度為50%, 最小可信度為最小可信度為 50%, 則可得到則可得到A C (50%, 66.6%)C A (50%, 100%)買尿布的

2、客戶買尿布的客戶二者都二者都買的客買的客戶戶買啤酒的客戶買啤酒的客戶第5頁/共94頁第4頁/共94頁第五頁,共94頁。Buys(X,”computer”)Buys(X,”financial_management_software”)n support=2%,confidence=60% 5.1n是由購物籃分析得到的布爾關(guān)聯(lián)規(guī)是由購物籃分析得到的布爾關(guān)聯(lián)規(guī)則。則。第6頁/共94頁第5頁/共94頁第六頁,共94頁。第7頁/共94頁第6頁/共94頁第七頁,共94頁。則它是多維關(guān)聯(lián)規(guī)則,n (52)是一個多維關(guān)聯(lián)規(guī)則,因為它涉及三個維age,,income和buys。n age(X,“3039”) i

3、ncome(X,“42K48K”) n buys(X,“car”)第8頁/共94頁第7頁/共94頁第八頁,共94頁。n a g e ( X , “ 3 0 3 9 ” ) buys( X, ” computer”), (5.3)n購買的商品涉及不同的抽象層 ,所挖掘的規(guī)則稱為n-多層關(guān)聯(lián)規(guī)則。n反之,如果在給定的規(guī)則集中,規(guī)則不涉及不同抽象層的項或?qū)傩?,則該集合包含單層關(guān)聯(lián)規(guī)則第9頁/共94頁第8頁/共94頁第九頁,共94頁。5.1第10頁/共94頁第9頁/共94頁第十頁,共94頁。第11頁/共94頁第10頁/共94頁第十一頁,共94頁。關(guān)聯(lián)規(guī)則的形式表示。例如,購買計算機也趨向于同時(tng

4、sh)購買財務(wù)管理軟件可以用以下關(guān)聯(lián)規(guī)則表示:n第12頁/共94頁第11頁/共94頁第十二頁,共94頁。n如果關(guān)聯(lián)規(guī)則滿足最小支持度閾值如果關(guān)聯(lián)規(guī)則滿足最小支持度閾值和最小置信度閾值,則該關(guān)聯(lián)規(guī)則和最小置信度閾值,則該關(guān)聯(lián)規(guī)則被認(rèn)為被認(rèn)為(rnwi)(rnwi)是有趣的。是有趣的。n第13頁/共94頁第12頁/共94頁第十三頁,共94頁。n - -關(guān)聯(lián)規(guī)則列出的商品關(guān)聯(lián)規(guī)則列出的商品在爭奪同一市場在爭奪同一市場第14頁/共94頁第13頁/共94頁第十四頁,共94頁。第15頁/共94頁第14頁/共94頁第十五頁,共94頁?!癆 B”的蘊含式,n其中 “A I,B I, 且AB= “。n規(guī)則“A

5、B”在事務(wù)集D中成立,且具有支持度s和信任度c. n第16頁/共94頁第15頁/共94頁第十六頁,共94頁。其中其中s是是D中事務(wù)包含中事務(wù)包含 (A B)的百分比。這是條件的百分比。這是條件(tiojin)概率。概率。即是即是:第17頁/共94頁第16頁/共94頁第十七頁,共94頁。5-2第18頁/共94頁第17頁/共94頁第十八頁,共94頁。n集合集合computercomputer,financial_management_softwarefinancial_management_software是是一個一個2-2-項集。項集。n項集的出現(xiàn)頻率是包含項集的事務(wù)項集的出現(xiàn)頻率是包含項集的事

6、務(wù)數(shù)數(shù)( (支持計數(shù)或計數(shù)支持計數(shù)或計數(shù)) )。第19頁/共94頁第18頁/共94頁第十九頁,共94頁。第20頁/共94頁第19頁/共94頁第二十頁,共94頁。交易ID購買商品2000A,B,C1000A,C4000A,D5000B,E,F頻繁項集支持度A75%B50%C50%A,C50%最小支持(zhch)度 50%最小可信度 50%第21頁/共94頁第20頁/共94頁第二十一頁,共94頁。第22頁/共94頁第21頁/共94頁第二十二頁,共94頁。第23頁/共94頁第22頁/共94頁第二十三頁,共94頁。合合L2,如此不斷循環(huán),如此不斷循環(huán)(xnhun)下去,下去,直到不能找到頻繁直到不能找

7、到頻繁k-項集。項集。n每挖掘一層每挖掘一層Lk, 就需要掃描整個數(shù)就需要掃描整個數(shù)據(jù)庫。據(jù)庫。第24頁/共94頁第23頁/共94頁第二十四頁,共94頁。P( I ) min_sup。n如果項A添加到I,則結(jié)果項集(A I)不可能比I更頻繁出現(xiàn)。因此,也不是頻繁的,即P (A I) =2)。n即:即:n l11= l21 l12= l22 .l1k-2= l2 k-2 n l1k-1 l2 k-1 第26頁/共94頁第25頁/共94頁第二十六頁,共94頁。支持頻度,從而確定支持頻度,從而確定Lk Lk 中各元中各元素素( (頻繁頻繁k-k-項集,即所有頻度不項集,即所有頻度不小于最小支持度)。

8、小于最小支持度)。n第27頁/共94頁第26頁/共94頁第二十七頁,共94頁。n從而可以由中刪除。n可以利用HASH表來保存所有頻繁項集以便能快速完成這一子集測試工作。第28頁/共94頁第27頁/共94頁第二十八頁,共94頁。5-3第29頁/共94頁第28頁/共94頁第二十九頁,共94頁。第30頁/共94頁第29頁/共94頁第三十頁,共94頁。第31頁/共94頁第30頁/共94頁第三十一頁,共94頁。第32頁/共94頁第31頁/共94頁第三十二頁,共94頁。表5-2第33頁/共94頁第32頁/共94頁第三十三頁,共94頁。第34頁/共94頁第33頁/共94頁第三十四頁,共94頁。第35頁/共9

9、4頁第34頁/共94頁第三十五頁,共94頁。第36頁/共94頁第35頁/共94頁第三十六頁,共94頁。第37頁/共94頁第36頁/共94頁第三十七頁,共94頁。) 8 . 6 ()(_sup)(_sup)()(AcountportBAcountportBAPBAconfidence5.4第38頁/共94頁第37頁/共94頁第三十八頁,共94頁。confscountportlcountportmin_)(_sup)(_sup)(sls第39頁/共94頁第38頁/共94頁第三十九頁,共94頁。第40頁/共94頁第39頁/共94頁第四十頁,共94頁。n 4 4,2 2,2 2,6 6,7 7,2 2

10、第41頁/共94頁第40頁/共94頁第四十一頁,共94頁。confidence=26=33n( 5 ) I 2 I 1 I 5 ,confidence=27=29n( 6 ) I 5 I 2 I ,confidence=22=100n如果最小置信度閾值為70,則只有第2、3和最后一個規(guī)則可以輸出,因為只有這些是產(chǎn)生的強規(guī)則。第42頁/共94頁第41頁/共94頁第四十二頁,共94頁。第43頁/共94頁第42頁/共94頁第四十三頁,共94頁。第44頁/共94頁第43頁/共94頁第四十四頁,共94頁。名稱名稱 描述描述 公式公式可信度可信度在物品集在物品集A出現(xiàn)的前提下,出現(xiàn)的前提下,B出現(xiàn)的出現(xiàn)的

11、概率概率 P(B|A)支持度支持度物品集物品集A,B同時出現(xiàn)的概率同時出現(xiàn)的概率P(AB)期望可信度期望可信度物品集物品集B出現(xiàn)的概率出現(xiàn)的概率P(B)作用度作用度可信度與期望可信度的比值可信度與期望可信度的比值P(B|A)/ P(B)第45頁/共94頁第44頁/共94頁第四十五頁,共94頁。卻很低,說明該關(guān)聯(lián)規(guī)則實用的機會很少,卻很低,說明該關(guān)聯(lián)規(guī)則實用的機會很少,因此也不重要因此也不重要第46頁/共94頁第45頁/共94頁第四十六頁,共94頁。關(guān)性。關(guān)性。第47頁/共94頁第46頁/共94頁第四十七頁,共94頁。數(shù)據(jù)映射到這些區(qū)間中。數(shù)據(jù)映射到這些區(qū)間中。n(2 2)將屬性的論域劃分為重疊

12、)將屬性的論域劃分為重疊的區(qū)間的區(qū)間nn第48頁/共94頁第47頁/共94頁第四十八頁,共94頁。第49頁/共94頁第48頁/共94頁第四十九頁,共94頁。TID Items100 1 3 4200 2 3 5300 1 2 3 5400 2 5數(shù)據(jù)庫 Ditemset sup.1223334153itemset sup.12233353掃描(somio) DC1L1itemset1 21 31 52 32 53 5itemset sup1 211 321 512 322 533 52itemset sup1 322 322 533 52L2C2C2掃描(somio) DC3L3itemset

13、2 3 5掃描 Ditemset sup2 3 52第50頁/共94頁第49頁/共94頁第五十頁,共94頁。nn保單記錄:保單記錄:n年齡、性別、健康狀況、工作年齡、性別、健康狀況、工作單位、工作地址、工資水平、是否單位、工作地址、工資水平、是否索賠等。索賠等。n這些信息就可以看作是事務(wù)這些信息就可以看作是事務(wù)中的物品。中的物品。第51頁/共94頁第50頁/共94頁第五十一頁,共94頁。第52頁/共94頁第51頁/共94頁第五十二頁,共94頁。一一數(shù)數(shù) 據(jù)據(jù) 中中 挑挑 選選 年年 齡齡、 年年 工工 資資、 單單 位位 類類 別別、單單 位位 地地 區(qū)區(qū)、 索索 賠賠 次次 數(shù)數(shù) 這這 幾幾

14、 列列 做做 進(jìn)進(jìn) 一一 步步的的 分分 析。析。第53頁/共94頁第52頁/共94頁第五十三頁,共94頁。第54頁/共94頁第53頁/共94頁第五十四頁,共94頁。第55頁/共94頁第54頁/共94頁第五十五頁,共94頁。越越 快??臁默默 認(rèn)認(rèn) 的的 最最 小小 可可 信信 度度 為為50 。這這 里里 最最 小小 支支 持持 度度 和和 最最 小小 可可 信信度度 都都 取取 默默 認(rèn)認(rèn) 值值.第56頁/共94頁第55頁/共94頁第五十六頁,共94頁。n有有84.00 的的 投投 保保 人人 沒沒 有有 索索 賠賠過;過;n在在 單單 位位 類類 別別 是是3 的的 投投 保保 人人

15、當(dāng)當(dāng) 中,中,共共 有有85.18 的的 投投 保保 人人 沒沒 有有 索索 賠賠過;過;n作作 用用 度度 是是1.03, 說說 明明“ 單單 位位 類類別別=3” 這這 個個 條條 件件 對對 投投 保保 人人 是是 否否索索 賠賠 沒沒 有有 太太 大大 的的 影影 響響, 因因 為為 有有沒沒 有有 這這 個個 條條 件,件, 投投 保保 人人 的的 索索 賠賠率率 并并 沒沒 有有 太太 大大 的的 區(qū)區(qū) 別。別。第57頁/共94頁第56頁/共94頁第五十七頁,共94頁。果,果, 如如 表表3 所所 示。示。 其其 中,中, 行行 是是 一一 條條 關(guān)關(guān) 聯(lián)聯(lián)規(guī)規(guī) 則,則, 各各 列

16、列 分分 別別 給給 出出 了了 關(guān)關(guān) 聯(lián)聯(lián) 規(guī)規(guī) 則則 的的LHS、RHS 及及 四四 個個 參參 數(shù)數(shù) 的的 值。值。第58頁/共94頁第57頁/共94頁第五十八頁,共94頁。第59頁/共94頁第58頁/共94頁第五十九頁,共94頁。力力 不不 大,大, 不不 很很 疲疲 勞,勞, 故故 而而 發(fā)發(fā) 病病率率 不不 高),高), 那那 么么 保保 險險 公公 司司 就就 可可以以 多多 針針 對對 滿滿 足足 這這 些些 條條 件件 的的 潛潛在在 客客 戶戶 開開 展展 工工 作作, 從從 而而 可可 以以 減減少少 風(fēng)風(fēng) 險,險, 提提 高高 公公 司司 盈盈 利。利。第60頁/共94

17、頁第59頁/共94頁第六十頁,共94頁。第61頁/共94頁第60頁/共94頁第六十一頁,共94頁。n end endnLk:= CkLk:= Ck中滿足大于中滿足大于minsupminsup的全體的全體項集;項集;n保留保留Lk Lk 的支持度;的支持度;nResult:= ResultLkResult:= ResultLknCk+1:=Ck+1:=所有的(所有的(k+1) k+1) 項集中滿足項集中滿足其其k k子集都在子集都在L L里的全體;里的全體;nk:=k+1k:=k+1nenddoenddo第62頁/共94頁第61頁/共94頁第六十二頁,共94頁。n選選 2-項集項集n要找尺寸為要

18、找尺寸為100的頻繁模式的頻繁模式(msh),如,如 a1, a2, , a100, 你你必須先產(chǎn)生必須先產(chǎn)生2100 1030 個候選集個候選集n多次掃描數(shù)據(jù)庫:多次掃描數(shù)據(jù)庫:第63頁/共94頁第62頁/共94頁第六十三頁,共94頁。掘,使用小的支持度掘,使用小的支持度+ +完整性驗完整性驗證方法證方法動態(tài)項集計數(shù)動態(tài)項集計數(shù): : 在添加一個新在添加一個新的候選集之前,先估計一下是不的候選集之前,先估計一下是不是他的所有子集都是頻繁的。是他的所有子集都是頻繁的。第64頁/共94頁第63頁/共94頁第六十四頁,共94頁。第65頁/共94頁第64頁/共94頁第六十五頁,共94頁。第66頁/共

19、94頁第65頁/共94頁第六十六頁,共94頁。5-45-3第67頁/共94頁第66頁/共94頁第六十七頁,共94頁。第68頁/共94頁第67頁/共94頁第六十八頁,共94頁。記或刪除,因為以后產(chǎn)生記或刪除,因為以后產(chǎn)生j-項集項集(jk),掃描數(shù)據(jù)庫時不再需要它們。掃描數(shù)據(jù)庫時不再需要它們。第69頁/共94頁第68頁/共94頁第六十九頁,共94頁。n塊大小的選擇是要使每個分塊塊大小的選擇是要使每個分塊可放入內(nèi)存。這個方法高度并行,可放入內(nèi)存。這個方法高度并行,把每一塊分別分配給某一個處理器把每一塊分別分配給某一個處理器生成頻繁集。產(chǎn)生頻繁集的每一個生成頻繁集。產(chǎn)生頻繁集的每一個循環(huán)結(jié)束后,處理

20、器之間通過通信循環(huán)結(jié)束后,處理器之間通過通信產(chǎn)生產(chǎn)生k k項集。項集。n通信過程是執(zhí)行時間的主要瓶通信過程是執(zhí)行時間的主要瓶頸,另外,每個獨立處理器生成頻頸,另外,每個獨立處理器生成頻繁集的時間也是一個瓶頸繁集的時間也是一個瓶頸第70頁/共94頁第69頁/共94頁第七十頁,共94頁。圖5-5第71頁/共94頁第70頁/共94頁第七十一頁,共94頁。第72頁/共94頁第71頁/共94頁第七十二頁,共94頁。需要的數(shù)據(jù)庫掃描比需要的數(shù)據(jù)庫掃描比Apriori少。少。第73頁/共94頁第72頁/共94頁第七十三頁,共94頁。第74頁/共94頁第73頁/共94頁第七十四頁,共94頁。食品面包牛奶脫脂奶

21、光明統(tǒng)一酸奶白黃TID Items T1 111, 121, 211, 221 T2 111, 211, 222, 323 T3 112, 122, 221, 411 T4 111, 121 T5 111, 122, 211, 221, 413 第75頁/共94頁第74頁/共94頁第七十五頁,共94頁。n酸奶酸奶 挪亞面包房挪亞面包房黃面包黃面包n不同種分層方法不同種分層方法(fngf)間的關(guān)間的關(guān)聯(lián)規(guī)則:聯(lián)規(guī)則:n酸奶酸奶 挪亞面包房面包挪亞面包房面包第76頁/共94頁第75頁/共94頁第七十六頁,共94頁。5-3第77頁/共94頁第76頁/共94頁第七十七頁,共94頁。5-6第78頁/共94頁第77頁/共94頁第七十八頁,共94頁。第79頁/共94頁第78頁/共94頁第七十九頁,共94頁。第80頁/共94頁第79頁/共94頁第八十頁,共94頁。之間更容易找。第81頁/共94頁第80頁/共94頁第八十一頁,共94頁。第82頁/

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論