Python金融數(shù)據(jù)分析與挖掘(微課版) 課件 5-7.關(guān)聯(lián)規(guī)則_第1頁(yè)
Python金融數(shù)據(jù)分析與挖掘(微課版) 課件 5-7.關(guān)聯(lián)規(guī)則_第2頁(yè)
Python金融數(shù)據(jù)分析與挖掘(微課版) 課件 5-7.關(guān)聯(lián)規(guī)則_第3頁(yè)
Python金融數(shù)據(jù)分析與挖掘(微課版) 課件 5-7.關(guān)聯(lián)規(guī)則_第4頁(yè)
Python金融數(shù)據(jù)分析與挖掘(微課版) 課件 5-7.關(guān)聯(lián)規(guī)則_第5頁(yè)
已閱讀5頁(yè),還剩5頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第5章機(jī)器學(xué)習(xí)與實(shí)現(xiàn)關(guān)聯(lián)規(guī)則概念布爾關(guān)聯(lián)規(guī)則挖掘關(guān)聯(lián)規(guī)則概念第5章

假設(shè)有以下數(shù)據(jù),每行代表一個(gè)顧客在超市的購(gòu)買記錄。I1:西紅柿、排骨、雞蛋。I2:西紅柿、茄子。I3:雞蛋、襪子。I4:西紅柿、排骨、茄子。I5:西紅柿、排骨、襪子、酸奶。I6:雞蛋、茄子、酸奶。I7:排骨、雞蛋、茄子。I8:土豆、雞蛋、襪子。I9:西紅柿、排骨、鞋子、土豆。假如有一條規(guī)則:西紅柿—排骨,則同時(shí)購(gòu)買西紅柿和排骨的顧客比例為4/9,而購(gòu)買西紅柿的顧客當(dāng)中也購(gòu)買了排骨的比例是

4/5。這兩個(gè)比例參數(shù)在關(guān)聯(lián)規(guī)則中是非常有意義的度量,分別稱作支持度(Support)和置信度(Confidence)。支持度反映了規(guī)則的覆蓋范圍,置信度反映了規(guī)則的可信程度。關(guān)聯(lián)規(guī)則概念第5章

在關(guān)聯(lián)規(guī)則中,商品集合I={西紅柿,排骨,雞蛋,茄子,襪子,酸奶,土豆,鞋子}稱作項(xiàng)集,每一個(gè)顧客購(gòu)買的商品集合Ii稱為一個(gè)事務(wù),所有事務(wù)T={I1,I2,…,I9}稱作事務(wù)集合,且滿足Ii是T的真子集。項(xiàng)集是項(xiàng)的集合。包含k項(xiàng)的項(xiàng)集稱作k項(xiàng)集,例如,集合{西紅柿,排骨,雞蛋}是一個(gè)3項(xiàng)集。項(xiàng)集出現(xiàn)的頻率是所有包含項(xiàng)集的事務(wù)計(jì)數(shù),又稱作絕對(duì)支持度或支持度計(jì)數(shù)。假設(shè)某項(xiàng)集I的相對(duì)支持度滿足預(yù)定義的最小支持度閾值,則I是頻繁項(xiàng)集。頻繁k項(xiàng)集通常記作k。假設(shè)有以下數(shù)據(jù),每行代表一個(gè)顧客在超市的購(gòu)買記錄。I1:西紅柿、排骨、雞蛋。I2:西紅柿、茄子。I3:雞蛋、襪子。I4:西紅柿、排骨、茄子。I5:西紅柿、排骨、襪子、酸奶。I6:雞蛋、茄子、酸奶。I7:排骨、雞蛋、茄子。I8:土豆、雞蛋、襪子。I9:西紅柿、排骨、鞋子、土豆。關(guān)聯(lián)規(guī)則概念第5章

一對(duì)一關(guān)聯(lián)規(guī)則的形式如下:,A、B滿足A、B是T的真子集,并且A和B的交集為空集。其中A稱為前件,B稱為后件。關(guān)聯(lián)規(guī)則有時(shí)也表示形如“如果……那么……”,前者是規(guī)則成立的條件,后者是條件下發(fā)生的結(jié)果。支持度和置信度有以下計(jì)算公式:支持度表示為項(xiàng)集A、B同時(shí)發(fā)生的概率,而置信度則表示為項(xiàng)集A發(fā)生的條件下項(xiàng)集B發(fā)生的概率。關(guān)聯(lián)規(guī)則概念第5章

多對(duì)一關(guān)聯(lián)規(guī)則的形式如下:,A、B、…、K滿足A、B、…、K是T的真子集,并且A、B、…、K的交集為空集。其中A,B,…稱為前件,K稱為后件,多對(duì)一關(guān)聯(lián)規(guī)則的支持度和置信度計(jì)算公式如下:支持度表示項(xiàng)集A、B、…、K同時(shí)發(fā)生的概率,而置信度則表示項(xiàng)集A、B、…發(fā)生的條件下項(xiàng)集K發(fā)生的概率。布爾關(guān)聯(lián)規(guī)則挖掘(一對(duì)一)第5章

布爾關(guān)聯(lián)規(guī)則挖掘是指將事務(wù)數(shù)據(jù)集轉(zhuǎn)化為布爾值(0或1)數(shù)據(jù)集,并在布爾數(shù)據(jù)集基礎(chǔ)上挖掘關(guān)聯(lián)規(guī)則的一種方法。ID土豆排骨茄子襪子西紅柿酸奶鞋子雞蛋I101001001I200101000I300010001I401101000I501011100………………………………………………布爾數(shù)據(jù)集示例布爾關(guān)聯(lián)規(guī)則挖掘(一對(duì)一)第5章

1.事務(wù)數(shù)據(jù)集轉(zhuǎn)化為布爾(0或1)值數(shù)據(jù)表算法如下:首先,定義一個(gè)空的字典D和包含所有商品的列表item=['西紅柿','排骨','雞蛋','茄子','襪子','酸奶','土豆','鞋子']。其次,定義一個(gè)長(zhǎng)度與數(shù)據(jù)集長(zhǎng)度(事務(wù)個(gè)數(shù))相同的一維全零數(shù)組z。循環(huán)操作商品列表item,對(duì)每一個(gè)商品,搜索其所在事務(wù)序號(hào)(行號(hào)),并將事務(wù)序號(hào)對(duì)應(yīng)的z位置修改為1,同時(shí)以商品作為鍵,z作為值,添加到字典D中。最后,將D轉(zhuǎn)化為數(shù)據(jù)框。布爾關(guān)聯(lián)規(guī)則挖掘(一對(duì)一)第5章

1.事務(wù)數(shù)據(jù)集轉(zhuǎn)化為布爾(0或1)值數(shù)據(jù)表item=['西紅柿','排骨','雞蛋','茄子','襪子','酸奶','土豆','鞋子']importpandasaspdimportnumpyasnpdata=pd.read_excel('tr.xlsx',header=None)data=data.iloc[:,1:]D=dict()fortinrange(len(item)):z=np.zeros((len(data)))li=list()forkinrange(len(data.iloc[0,:])):s=data.iloc[:,k]==tiem[t]li.extend(list(s[s.values==True].index))z[li]=1D.setdefault(item[t],z)Data=pd.DataFrame(D)#布爾值數(shù)據(jù)表布爾關(guān)聯(lián)規(guī)則挖掘(一對(duì)一)第5章

2.挖掘兩項(xiàng)之間的關(guān)聯(lián)規(guī)則(一對(duì)一),并將結(jié)果導(dǎo)出到Excel文件中#獲取字段名稱,并轉(zhuǎn)化為列表c=list(Data.columns)c0=0.5#最小置信度s0=0.2#最小支持度list1=[]#預(yù)定義列表list1,用于存放規(guī)則list2=[]#預(yù)定義列表list2,用于存放規(guī)則的支持度list3=[]#預(yù)定義列表list3,用于存放規(guī)則的置信度f(wàn)orkinrange(len(c)):forqinrange(len(c)):#對(duì)第c[k]個(gè)項(xiàng)與第c[q]個(gè)項(xiàng)挖掘關(guān)聯(lián)規(guī)則#規(guī)則的前件為c[k]#規(guī)則的后件為c[q]#要求前件和后件不相等ifc[k]!=c[q]:c1=Data[c[k]]c2=Data[c[q]]I1=c1.values==1I2=c2.values==1

t12=np.zeros((len(c1)))t1=np.zeros((len(c1)))t12[I1&I2]=1t1[I1]=1sp=sum(t12)/len(c1)#支持度co=sum(t12)/sum(t1)#置信度#取置信度大于等于c0的關(guān)聯(lián)規(guī)則ifco>=c0andsp>=s0:list1.append(c[k]+'--'+c[q])list2.append(sp)list3.append(co)#定義字典,用于存放關(guān)聯(lián)規(guī)則及其置信度、支持度R={'rule':list1,'support':list2,'confidence':list3}#將字典轉(zhuǎn)化為數(shù)據(jù)框R=pd.DataFrame(R)#將結(jié)果導(dǎo)出到ExcelR.to_excel('rule1.xlsx')布爾關(guān)聯(lián)規(guī)則挖掘(一對(duì)一)第5章

2.挖掘兩項(xiàng)之間的關(guān)聯(lián)規(guī)則(一對(duì)一),并將結(jié)果導(dǎo)出到Excel文件中IDrulesupportconfidence0排骨

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論