貝葉斯與頻繁模式

上傳人：a*** IP屬地：湖北上傳時(shí)間：2023-02-06 格式：PPTX 頁(yè)數(shù)：28 大?。?20.18KB 積分：28 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩23頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1DataMining:

ConceptsandTechniques

—Chapter9—

Classification:AdvancedMethods

姓名：周芳學(xué)號(hào)：20152161409.1貝葉斯信念網(wǎng)絡(luò)樸素貝葉斯分類假定類條件獨(dú)立（實(shí)際上在現(xiàn)實(shí)應(yīng)用中幾乎不可能做到完全獨(dú)立），在實(shí)踐中，變量之間的依賴可能存在。各個(gè)特征屬性間往往并不條件獨(dú)立，而是具有較強(qiáng)的相關(guān)性，這樣就限制了樸素貝葉斯分類的能力。貝葉斯信念網(wǎng)絡(luò)說明聯(lián)合條件概率分布。它允許在變量的子集間定義類條件獨(dú)立性。它提供一種因果關(guān)系的圖形，可以在其上進(jìn)行學(xué)習(xí)訓(xùn)練后的貝葉斯網(wǎng)絡(luò)可以用于分類February6,2023DataMining:ConceptsandTechniques2兩個(gè)成分定義第一部分是有向無環(huán)圖，其每個(gè)節(jié)點(diǎn)代表一個(gè)隨機(jī)變量，而每條弧代表一個(gè)概率依賴。（變量可以是離散的或連續(xù)值的）第二部分是條件概率表。February6,2023DataMining:ConceptsandTechniques39.1貝葉斯網(wǎng)絡(luò)February6,2023DataMining:ConceptsandTechniques4在貝葉斯信念網(wǎng)絡(luò)中對(duì)應(yīng)于屬性或變量Z1....Zn的任意元組(Z1....Zn)的聯(lián)合概率由下式計(jì)算：如上圖，對(duì)于FamilyHistory，Smoker，LungCancer這三個(gè)屬性，用樸素貝葉斯計(jì)算，得到的聯(lián)合概率是貝葉斯網(wǎng)絡(luò)求得聯(lián)合概率為：由條件概率表（CPT）求聯(lián)合分布變量Z的CPT說明條件分布P(Z|Parents(Z))，其中Parents(Z)是Z的雙親。對(duì)于其雙親值的每個(gè)可能組合，表中給出了LangCancer的每個(gè)值的條件概率。例如，由左上角和右下角，P(LangCancer=”yes”

FamilyHistory=”yes”,

Smoker=”yes”)=0.8

P(LangCancer=”no”

FamilyHistory=”no”,

Smoker=”no”)=0.9

對(duì)應(yīng)于屬性或變量Z1,Z2,…Zn的任意元組（z1,z2,…zn）的聯(lián)合概率由下式計(jì)算February6,2023DataMining:ConceptsandTechniques5February6,2023DataMining:ConceptsandTechniques6例子：i、真實(shí)賬號(hào)比非真實(shí)賬號(hào)平均具有更大的日志密度、更大的好友密度以及更多的使用真實(shí)頭像。ii、日志密度與好友密度、日志密度與是否使用真實(shí)頭像在賬號(hào)真實(shí)性給定的條件下是獨(dú)立的。iii、使用真實(shí)頭像的用戶比使用非真實(shí)頭像的用戶平均有更大的好友密度。February6,2023DataMining:ConceptsandTechniques7通過對(duì)訓(xùn)練數(shù)據(jù)集的統(tǒng)計(jì)，得到下表（R表示賬號(hào)真實(shí)性，H表示頭像真實(shí)性）：例如，現(xiàn)隨機(jī)抽取一個(gè)賬戶，已知其頭像為假，求其賬號(hào)也為假的概率：February6,2023DataMining:ConceptsandTechniques8我們的模型中存在四個(gè)隨機(jī)變量：賬號(hào)真實(shí)性R，頭像真實(shí)性H，日志密度L，好友密度F訓(xùn)練貝葉斯信念網(wǎng)絡(luò)---構(gòu)建：1、主觀網(wǎng)絡(luò)拓?fù)淇梢杂蓪＜覙?gòu)造或數(shù)據(jù)導(dǎo)出。專家通常對(duì)所分析領(lǐng)域成了的直接條件依賴有很好的把握，但是必須說明參與直接依賴接單的條件概率。馬爾科夫假設(shè)：在直接原因已知前提下，一個(gè)變量獨(dú)立于與其沒有影響的變量。E.g.,S?—F—?A?—T,在已知F—?A的前提下，pathS—?A不通隱馬爾科夫模型：常用于動(dòng)態(tài)系統(tǒng)模型的狀態(tài)是不明顯的,但是他們的輸出明顯。February6,2023DataMining:ConceptsandTechniques9訓(xùn)練貝葉斯信念網(wǎng)絡(luò)設(shè)S是s個(gè)訓(xùn)練樣本X1,X2,…Xs的集合，Wijk是具有是雙親Ui=uik的變量Y=yij的CPT項(xiàng)。Wijk可以看作權(quán)，類似于神經(jīng)網(wǎng)絡(luò)中隱藏單元的權(quán)。權(quán)的集合總稱為w。這些權(quán)被初始化為隨機(jī)概率值。梯度下降策略采用貪心爬山法。在每次迭代中，修改這些權(quán)，并最終收斂到一個(gè)局部最優(yōu)解。

基于w的每個(gè)可能設(shè)置都等可能地假定，該方法搜索能最好地對(duì)數(shù)據(jù)建模的Wijk值。目標(biāo)是最大化

。這通過按梯度來做，使得問題更簡(jiǎn)單。給定網(wǎng)絡(luò)結(jié)構(gòu)和Wijk的初值，該算法按以下步驟處理：February6,2023DataMining:ConceptsandTechniques10梯度下降1.計(jì)算梯度2.沿梯度方向前進(jìn)一小步，下式更新權(quán)重3.更新規(guī)格化權(quán)值保證權(quán)重在0—1之間，進(jìn)行歸格化操作。February6,2023DataMining:ConceptsandTechniques11梯度下降February6,2023DataMining:ConceptsandTechniques12梯度訓(xùn)練是用于解決信念網(wǎng)絡(luò)中隱藏?cái)?shù)據(jù)問題的，例如，已知上圖（a），不知道上圖（b）。9.4使用頻繁模式分類February6,2023DataMining:ConceptsandTechniques13

頻繁模式顯示了頻繁地出現(xiàn)在給定數(shù)據(jù)集上的屬性——值對(duì)之間的有趣聯(lián)系。例如，我們可能發(fā)現(xiàn)屬性——值對(duì)age=youth和credit=OK出現(xiàn)在20%的購(gòu)買計(jì)算機(jī)的AllRlectronics顧客元組中。我們可以把每個(gè)屬性——值對(duì)看作一個(gè)項(xiàng)，因此搜索這種頻繁模式稱作頻繁模式挖掘或頻繁項(xiàng)集挖掘。頻繁模式February6,2023DataMining:ConceptsandTechniques14下面是從數(shù)據(jù)集D中挖掘的一個(gè)關(guān)聯(lián)規(guī)則，顯示了它的置信度和支持度：其中，“^”表示邏輯“AND“。意味著，D中20%的顧客是青年、信譽(yù)為Ok，并且屬于類buys_computer=yes；D中身為青年人并且信譽(yù)度為OK的顧客中，93%屬于類buys_computer=yes。設(shè)D是元組的數(shù)據(jù)集合。D中每個(gè)元組用n個(gè)屬性A1，A2，…，An和一個(gè)類標(biāo)號(hào)屬性Aclass描述。所有的連續(xù)屬性都被離散化并按分類（或標(biāo)稱）屬性處理。項(xiàng)p是一個(gè)形如（Ai，v）的屬性——值對(duì)，其中Ai是屬性，取值v。數(shù)據(jù)元組X=（x1，x2，…,xn）滿足項(xiàng)p=（Ai，v），當(dāng)且僅當(dāng)xi=v，其中xi是X的第i個(gè)屬性（Ai）的值。在挖掘用于分類的關(guān)聯(lián)規(guī)則時(shí)，我們只對(duì)形如p1^p2^…pl=>Aclass=C的關(guān)聯(lián)規(guī)則感興趣，其中規(guī)則的前件是項(xiàng)的合取，與一個(gè)類標(biāo)號(hào)C相關(guān)聯(lián)。

置信度：對(duì)于一個(gè)給定的規(guī)則R，D中滿足該規(guī)則前件也具有類標(biāo)號(hào)C的元組所占的百分比稱作R的置信度。從分類角度看，這類似于規(guī)則的準(zhǔn)確率。

支持度：D中滿足規(guī)則前件并具有類標(biāo)號(hào)C的元組所占的百分比稱作規(guī)則R的支持度。關(guān)聯(lián)規(guī)則分類的步驟February6,2023DataMining:ConceptsandTechniques15一般而言，關(guān)聯(lián)規(guī)則分類包括以下步驟：（1）挖掘數(shù)據(jù)，得到頻繁項(xiàng)集，即找出數(shù)據(jù)中經(jīng)常出現(xiàn)的屬性——值對(duì)。（2）分析頻繁項(xiàng)集，產(chǎn)生每個(gè)類的關(guān)聯(lián)規(guī)則，它們滿足置信度和支持度標(biāo)準(zhǔn)。（3）組織規(guī)則，形成基于規(guī)則的分類器。關(guān)聯(lián)規(guī)則分類方法的不同在于挖掘頻繁項(xiàng)集所用的方法、如何將被分析的規(guī)則導(dǎo)出并用于分類。典型的關(guān)聯(lián)分類方法February6,2023DataMining:ConceptsandTechniques16CBA（基于關(guān)聯(lián)分類）主要可能的關(guān)聯(lián)規(guī)則的形式項(xiàng)（一組屬性-值對(duì)）類標(biāo)簽在優(yōu)先級(jí)遞減的基礎(chǔ)上的信任和支持，然后組織規(guī)則，建立分類CMAR（基于多關(guān)聯(lián)規(guī)則分類）分類：對(duì)多個(gè)規(guī)則統(tǒng)計(jì)分析CPAR（基于預(yù)測(cè)關(guān)聯(lián)規(guī)則分類）產(chǎn)生預(yù)測(cè)規(guī)則（FOIL分析），但允許覆蓋規(guī)則具有減小權(quán)重高效率，高精度類似于CMARCBA算法February6,2023DataMining:ConceptsandTechniques17最早最簡(jiǎn)單的關(guān)聯(lián)分類算法時(shí)基于分類的關(guān)聯(lián)（ClassificationBasedonAssociation，CBA）。CBA使用迭代方法挖掘頻繁項(xiàng)集，類似于Apriori算法。找出滿足最小置信度和支持度閾值的規(guī)則的完全集后，然后分析，找出包含在分類器中的規(guī)則。CBA使用一種啟發(fā)式方法構(gòu)造分類器，其中規(guī)則按照它們的置信度和支持度遞減優(yōu)先級(jí)排序。（1）如果一組規(guī)則具有相同的前件，則選取具有最高置信度的規(guī)則代表該集合。（2）在對(duì)新元組分類時(shí)，使用滿足該元組的第一個(gè)規(guī)則對(duì)它進(jìn)行分類。（3）分類器還包含一個(gè)默認(rèn)規(guī)則，具有最低優(yōu)先級(jí)，用來為不能被分類器中其他規(guī)則滿足的新元組指定默認(rèn)類。這樣，構(gòu)成分類器的規(guī)則的集合形成一個(gè)決策表。一般而言，實(shí)驗(yàn)表明CBA在大量數(shù)據(jù)集上比C4.5更準(zhǔn)確。CMAR算法February6,2023DataMining:ConceptsandTechniques18

基于多關(guān)聯(lián)規(guī)則的分類（ClassificationbasedonMultipleAssociationRules，CMAR）在頻繁項(xiàng)集挖掘和分類器構(gòu)造方面都不同于CBA。CMAR采用FP—Growth算法的變形來發(fā)現(xiàn)滿足最小支持度和最小置信度閾值的規(guī)則的完全集。CMAR使用一種加強(qiáng)的FP-樹，記錄滿足每個(gè)頻繁項(xiàng)集的元組的類標(biāo)號(hào)分布。這樣，它可以把規(guī)則產(chǎn)生與頻繁項(xiàng)集挖掘合并成一步。CMAR還使用另一種樹結(jié)構(gòu)來有效地存儲(chǔ)和提取規(guī)則，并根據(jù)置信度、相關(guān)度和數(shù)據(jù)庫(kù)覆蓋率對(duì)規(guī)則剪枝。當(dāng)規(guī)則插入該樹時(shí)就觸發(fā)規(guī)則剪枝策略。例如，給定兩個(gè)規(guī)則R1和R2，如果R1的前件比R2更一般，并且conf（R1）>=conf（R2），則剪去R2。其基本原理是：如果規(guī)則存在具有更高置信度的更泛化的版本，則可以剪去具有低置信度的更特殊化的規(guī)則。

CMAR算法February6,2023DataMining:ConceptsandTechniques19“如果多個(gè)規(guī)則可用，我們使用哪一個(gè)？”作為分類法，假設(shè)多個(gè)規(guī)則滿足或匹配X，這些規(guī)則形成一個(gè)集合S。使用哪個(gè)規(guī)則確定X的類標(biāo)號(hào)？CMAR在做出它的類預(yù)測(cè)時(shí)考慮多個(gè)規(guī)則。它根據(jù)類標(biāo)號(hào)將規(guī)則分組。在一個(gè)組中的所有規(guī)則都具有相同的類標(biāo)號(hào)，而在不同組中的規(guī)則具有不同的類標(biāo)號(hào)。CMAR使用加權(quán)的X2度量，根據(jù)組中規(guī)則的統(tǒng)計(jì)相關(guān)性找出“最強(qiáng)的”規(guī)則組。然后把X的類標(biāo)號(hào)指派為最強(qiáng)的組的類標(biāo)號(hào)。這樣，在預(yù)測(cè)新元組的類標(biāo)號(hào)時(shí)，它考慮多個(gè)規(guī)則，而不只是一個(gè)具有最高置信度的規(guī)則。實(shí)驗(yàn)表明，CMAR比CBA的平均準(zhǔn)確率稍高。它的運(yùn)行時(shí)間、可伸縮性和內(nèi)存使用都更有效。CPAR算法February6,2023DataMining:ConceptsandTechniques20CPAR（ClassificationbasedonPredictiveAssociationRules，基于預(yù)測(cè)關(guān)聯(lián)規(guī)則的分類）采用了不同方法產(chǎn)生規(guī)則，基于一種稱作FOIL的分類規(guī)則產(chǎn)生算法。FOIL構(gòu)造規(guī)則來區(qū)別正元組（如類buys_computer=yes的元組）和負(fù)元組（如類buys_computer=no的元組）。對(duì)于多類問題，將FOIL用于每一個(gè)類。也就是說，對(duì)于類C，類C的所有元組都看做正元組，而其余的都看做負(fù)元組。產(chǎn)生規(guī)則以區(qū)分C類和其他類的元組。每當(dāng)產(chǎn)生一個(gè)規(guī)則時(shí)，就刪除它滿足（或覆蓋）的正樣本，直到數(shù)據(jù)集合中所有的正元組都被覆蓋。這樣，產(chǎn)生的規(guī)則更少，CPAR放寬了這一步，允許被覆蓋的元組留下并被考慮，但是降低它們的權(quán)重。對(duì)每個(gè)類重復(fù)該過程。結(jié)果規(guī)則被合并在一起，形成分類器的規(guī)則集。在分類時(shí)，CPAR采用多少有些不同于CMAR的多規(guī)則策略。如果多個(gè)規(guī)則滿足新元組X，則類似于CMAR，這些規(guī)則將按類分組。然而，CPAR根據(jù)期望準(zhǔn)確率，使用每組中的最好的k個(gè)規(guī)則預(yù)測(cè)X的類標(biāo)號(hào)。通過考慮組中最好的k個(gè)規(guī)則而不是所有的規(guī)則，這避免了較低秩規(guī)則的影響。在大量數(shù)據(jù)集上，CPAR的準(zhǔn)確率與CMAR接近。然而，由于CPAR產(chǎn)生的規(guī)則比CMAR少得多，對(duì)于大型訓(xùn)練數(shù)據(jù)集，CMAR有效得多。頻繁模式分類February6,2023DataMining:ConceptsandTechniques21精度問題提高辨別力增加特征空間的表現(xiàn)力可伸縮性問題它是計(jì)算上不可行生成所有的特征組合，并用信息增益閾值進(jìn)行篩選有效的方法（DDPMine：FPtree修剪）：H.Cheng,X.Yan,J.Han,andP.S.Yu“直接識(shí)別圖案為挖掘有效的分類”，ICDE'08頻繁模式VS單個(gè)特征February6,2023DataMining:ConceptsandTechniques22一些頻繁模式的辨別力比的單個(gè)特征更高，如圖繪制了長(zhǎng)度等于1的信息增益(a)Austral(c)Sonar(b)Cleve圖1.信息增益vs.模式長(zhǎng)度實(shí)驗(yàn)結(jié)果February6,2023DataMining:ConceptsandTechniques23(a)Austral(c)Sonar(b)Breast圖2.信息增益vs.模式頻率如圖繪制了UCI數(shù)據(jù)集的模式頻度（支持度）與信息增益，及理論上界。低頻度的模式的區(qū)別能力受限于一個(gè)小上界，信息增益的上界隨著模式頻度單調(diào)增加特征選擇February6,2023DataMining:ConceptsandTechniques24給定一組頻繁模式，無判別和冗余型態(tài)都存在，可能會(huì)導(dǎo)致過度擬合我們要挑出判別模式，并刪除冗余的模式借用最大邊際關(guān)聯(lián)的概念（MMR

人人文庫(kù)> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

貝葉斯與頻繁模式

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

貝葉斯與頻繁模式

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔