關(guān)聯(lián)基本概念與算法_第1頁
關(guān)聯(lián)基本概念與算法_第2頁
關(guān)聯(lián)基本概念與算法_第3頁
關(guān)聯(lián)基本概念與算法_第4頁
關(guān)聯(lián)基本概念與算法_第5頁
已閱讀5頁,還剩88頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

關(guān)聯(lián)分析:基本概念和算法第6章關(guān)聯(lián)分析:基本概念和算法定義:關(guān)聯(lián)分析(associationanalysis)關(guān)聯(lián)分析用于發(fā)現(xiàn)隱藏在大型數(shù)據(jù)集中的令人感興趣的聯(lián)系,所發(fā)現(xiàn)的模式通常用關(guān)聯(lián)規(guī)則或頻繁項集的形式表示。關(guān)聯(lián)分析可以應(yīng)用于生物信息學(xué)、醫(yī)療診斷、網(wǎng)頁挖掘、科學(xué)數(shù)據(jù)分析等RulesDiscovered:

{Diaper}-->{Beer}定義:頻繁項集(FrequentItemset)項集(Itemset)包含0個或多個項的集合例子:{Milk,Bread,Diaper}k-項集如果一個項集包含k個項支持度計數(shù)(Supportcount)()包含特定項集的事務(wù)個數(shù)例如:({Milk,Bread,Diaper})=2支持度(Support)包含項集的事務(wù)數(shù)與總事務(wù)數(shù)的比值例如:s({Milk,Bread,Diaper})=2/5頻繁項集(FrequentItemset)滿足最小支持度閾值(

minsup

)的所有項集定義:關(guān)聯(lián)規(guī)則(AssociationRule)Example:關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則是形如XY的蘊(yùn)含表達(dá)式,其中X和Y是不相交的項集例子:

{Milk,Diaper}{Beer}

關(guān)聯(lián)規(guī)則的強(qiáng)度支持度Support(s)確定項集的頻繁程度置信度Confidence(c)確定Y在包含X的事務(wù)中出現(xiàn)的頻繁程度關(guān)聯(lián)規(guī)則挖掘問題關(guān)聯(lián)規(guī)則挖掘問題:給定事務(wù)的集合T,關(guān)聯(lián)規(guī)則發(fā)現(xiàn)是指找出支持度大于等于

minsup并且置信度大于等于minconf的所有規(guī)則,minsup和minconf是對應(yīng)的支持度和置信度閾值挖掘關(guān)聯(lián)規(guī)則的一種原始方法是:Brute-forceapproach:計算每個可能規(guī)則的支持度和置信度這種方法計算代價過高,因為可以從數(shù)據(jù)集提取的規(guī)則的數(shù)量達(dá)指數(shù)級從包含d個項的數(shù)據(jù)集提取的可能規(guī)則的總數(shù)R=3d-2d+1+1,如果d等于6,則R=602挖掘關(guān)聯(lián)規(guī)則(MiningAssociationRules)大多數(shù)關(guān)聯(lián)規(guī)則挖掘算法通常采用的一種策略是,將關(guān)聯(lián)規(guī)則挖掘任務(wù)分解為如下兩個主要的子任務(wù):頻繁項集產(chǎn)生(FrequentItemsetGeneration)其目標(biāo)是發(fā)現(xiàn)滿足最小支持度閾值的所有項集,這些項集稱作頻繁項集。規(guī)則的產(chǎn)生(RuleGeneration)其目標(biāo)是從上一步發(fā)現(xiàn)的頻繁項集中提取所有高置信度的規(guī)則,這些規(guī)則稱作強(qiáng)規(guī)則(strongrule)。頻繁項集產(chǎn)生(FrequentItemsetGeneration)格結(jié)構(gòu)(latticestructure)頻繁項集產(chǎn)生(FrequentItemsetGeneration)Brute-force方法:把格結(jié)構(gòu)中每個項集作為候選項集將每個候選項集和每個事務(wù)進(jìn)行比較,確定每個候選項集的支持度計數(shù)。時間復(fù)雜度~O(NMw),這種方法的開銷可能非常大。降低產(chǎn)生頻繁項集計算復(fù)雜度的方法減少候選項集的數(shù)量(M)先驗(apriori)原理減少比較的次數(shù)(NM)替代將每個候選項集與每個事務(wù)相匹配,可以使用更高級的數(shù)據(jù)結(jié)構(gòu),或存儲候選項集或壓縮數(shù)據(jù)集,來減少比較次數(shù)先驗原理(Aprioriprinciple)先驗原理:如果一個項集是頻繁的,則它的所有子集一定也是頻繁的相反,如果一個項集是非頻繁的,則它的所有超集也一定是非頻繁的:這種基于支持度度量修剪指數(shù)搜索空間的策略稱為基于支持度的剪枝(support-basedpruning)這種剪枝策略依賴于支持度度量的一個關(guān)鍵性質(zhì),即一個項集的支持度決不會超過它的子集的支持度。這個性質(zhì)也稱為支持度度量的反單調(diào)性(anti-monotone)。非頻繁項集例子被剪枝的超集Apriori算法的頻繁項集產(chǎn)生Apriori算法的頻繁項集產(chǎn)生Items(1-itemsets)Pairs(2-itemsets)Triplets(3-itemsets)支持度閾值=60%最小支持度計數(shù)=3枚舉所有項集將產(chǎn)生

6C1+6C2+6C3=41個候選而使用先驗原理,將較少為 6+6+1=13Apriori算法Apriori算法Apriori算法的頻繁項集產(chǎn)生的部分有兩個重要的特點:它是一個逐層算法。即從頻繁1-項集到最長的頻繁項集,它每次遍歷項集格中的一層它使用產(chǎn)生-測試策略來發(fā)現(xiàn)頻繁項集。在每次迭代,新的候選項集由前一次迭代發(fā)現(xiàn)的頻繁項集產(chǎn)生,然后對每個候選的支持度進(jìn)行計數(shù),并與最小支持度閾值進(jìn)行比較。該算法需要的總迭代次數(shù)是kmax+1,其中kmax是頻繁項集的最大長度候選低的產(chǎn)叛生與究剪枝(構(gòu)造ap亭ri伸or枕i-耳ge漢n函數(shù))蠻力數(shù)方法蠻力付方法悲把所狹有的k-項集妄都看餅作可進(jìn)能的隨候選柔,然獻(xiàn)后使昌用候鄰選剪書枝除扮去不夢必要臉的候織選第k層產(chǎn)猛生的兼候選跨項集參的數(shù)科目為雖然奇候選東產(chǎn)生鐵是相掘當(dāng)簡漫單的碰,但王是候響選剪招枝的已開銷辱極大綢,因救為必怕須考芝察的喬項集游數(shù)量妥太大飽。設(shè)每破一個福候選第項集醫(yī)所需草的計尖算量得為O(k),窗這種賺方法的總芝復(fù)雜燦度為候選縱的產(chǎn)創(chuàng)生與甚剪枝It畏em運(yùn)s屆(1盒-i蓬te鹽ms瞇et含s)Pa唇ir籠s濟(jì)(2王-i臥te攻ms稅et場s)Tr將ip勇le蝕ts貴(滔3-賺it疤em睬se羊ts龜)支持葬度閾符值=6壘0%最小券支持催度計葛數(shù)=總3枚舉芳所有渾項集姨將產(chǎn)霜生6C1+6C2+6C3=遇41個候陰選而使榮用先帖驗原求理,貌將較帶少為6蕩+渣6涉+筑1虧=扣13候選傍的產(chǎn)謹(jǐn)生與捉剪枝這種狹方法間用其款他頻擺繁項殲來擴(kuò)逐展每腔個頻你繁(k-竟1)-項集這種您方法暖將產(chǎn)焰生越個汪候選k-項集且,其女中|Fj|表示守頻繁j-項集分的個衫數(shù)。洪這種糠方法授總復(fù)每雜度紐奉是這種材方法痛是完鏡全的瞧,因奮為每直一個喇頻繁k-項集鮮都是勉由一鏡個頻受繁(k-肚1)-項集盲和一宗個頻道繁1-項集術(shù)組成嫁的。妨因此計,所賺有的系頻繁k-項集抄是這存種方對法所木產(chǎn)生羅的候本選k-項集詢的一頃部分給。然而濾,這誓種方新法很邪難避押免重岔復(fù)地館產(chǎn)生泉候選玩項集辱。如:{面包成,尿控布,屬牛奶}不僅毒可以犁由合針并項羊集{面包懇,尿太布}和{牛奶}得到壩,而駐且還吹可以抖由合們并{面包金,牛蟲奶}和{尿布}得到械,或術(shù)由合造并{尿布胸,牛誼奶}和{面包}得到怪。候選咳的產(chǎn)旬生與血剪枝候選明的產(chǎn)擾生與發(fā)剪枝避免順產(chǎn)生德重復(fù)心的候內(nèi)選項好集的奔一種叉方法外是確次保每鼓個頻出繁項五集中充的項刺以字撫典序錢存儲昏,每絮個頻液繁(k-水1)-項集X只用歉字典趨序比X中所領(lǐng)有的爐項都勸大的茄頻繁斃項進(jìn)己行擴(kuò)裙展如:束項集{面包冒,尿個布}可以與用項猛集{牛奶}擴(kuò)展放,因揉為“慰牛奶鎖”(mi飛lk)在仙字典仰序下劣比“刻面包房誠”(Br津ea閑d)和禍“尿敲布”婚(Di辰ap留er捏s)都籌大。盡管旅這種旁方法哪比蠻釣力方針法有訓(xùn)明顯泊改進(jìn)奧,但亦是仍繭然產(chǎn)李生大沖量不繪必要慎的候患選。例如燒,通芽過合潮并{啤酒漂,尿斥布}和{牛奶}而得丹到的灣候選嘗是不米必要艇的。寨因為顛它的唐子集{啤酒言,牛民奶}是非琴頻繁殺的。候選窮的產(chǎn)鵝生與好剪枝這種混方法擇合并嘴一對熔頻繁減(k-燃1)-項集住,僅顏當(dāng)它藥們的壩前k-赴2個項巴都相樸同。如頻鄉(xiāng)豐繁項蔑集{面包至,尿歪布}和{面包著,牛戰(zhàn)奶}合并濁,形較成了陸候選3-項集{面包腥,尿緣瑞布,珍牛奶}。算塑法不濁會合富并項驗集{啤酒娘,尿梅布}和{尿布要,牛膜奶},因?qū)m為它昌們的結(jié)第一傻個項吹不相宮同。然而予,由辮于每惜個候或選都顆由一慕對頻模繁(k-鍛1)-項集智合并晝而成披,因般此,俊需要毯附加隊的候撇選剪染枝步薦驟來浸確保竿該候資選的叔其余k-諒2個子光集是貿(mào)頻繁搭的。候選巖的產(chǎn)疤生與避剪枝支持鏡度計餓數(shù)支持筋度計于數(shù)過南程確肥定在ap達(dá)ri死or惑i-航ge旨n函數(shù)非的候耗選項添剪枝告步驟仁保留彈下來驕的每胳個候倒選項靜集出禾現(xiàn)的頭頻繁膀程度粥。計區(qū)算支單持度這的主卵要方鞏法:一種棒方法羨是將奪每個膛事務(wù)堤與所蛛有的駁候選窩項集妙進(jìn)行鋼比較濾,并從且更雞新包眠含在避事務(wù)史中的寬候選競項集境的支插持度盲計數(shù)沙。這碼種方長法是貢計算且昂貴攤的,橋尤其艇當(dāng)事箭務(wù)和昂候選蓬項集醒的數(shù)他目都野很大快時。另一版種方違法是剃枚舉百每個燦事務(wù)謹(jǐn)所包嚇含的磨項集撫,并喝且利值用它豎們更蠟新對淹應(yīng)的冒候選亡項集安的支蝴持度班。枚舉響事務(wù)t的所來有包莊含3個項駛的子揚(yáng)集產(chǎn)生Ha錦sh樹2345671451361244571254581593453563576893673681,4,72,5,83,6,9HashfunctionHa毒sh函數(shù)h(膠p)=狠p食mo啞d叫3假設(shè)犬有15個候慰選3-項集:{1釣4陽5指},攪{椅1綠2摟4}庸,快{4痰5尸7寒},憑{親1目2夜5}暖,威{4商5螺8膚},叫{宿1仁5慮9}新,極{1傲3渡6骨},亮{樹2牽3嚼4}啄,雖{5疫6認(rèn)7棋},宜{(lán)重3坡4揪5}賓,器{3齡5煤6色},晶{沾3犧5碗7}臉,銜{6鍋8辛9拴},淺{亦3催6澆7}踏,滿{3帽6欣8怒}Ha攔sh樹結(jié)才構(gòu)1591

451363453673683563576892345671244571254581,堤4,魂72,振5,謝83,陵6,妖9Ha拆sh游F此un旦ct馳io樣nCa墊nd揀id證at料e攝Ha飯sh辦T籮re挎eHa談sh組o轉(zhuǎn)n腥1,降4澤o抵r跨7Ha駛sh樹結(jié)塊構(gòu)15914513634536736835635768923456712445712

545

81,愈4,胃72,澤5,哄83,允6,攤9Ha象sh魯F驗un姑ct械io革nCa禿nd虹id誰at翁e朝Ha雖sh棕T拆re間eHa欺sh有o蛋n寬2,崗5伸o嘆r啞8Ha曲sh樹結(jié)織構(gòu)1591451363453

673

683563576892345671244571254581,徐4,識72,脈5,咬83,兆6,應(yīng)9Ha蹈sh永F誘un惕ct牛io篩nCa辨nd腿id繞at佳e櫻Ha旗sh躬T駝re狹eHa援sh遵o犁n擇3,歌6芬o且r山9使用Ha跨sh樹進(jìn)爭行支品持度擠計數(shù)159145136345367368356357689234567124457125458123561+23563562+563+1,4,72,5,83,6,9HashFunctiontr版an花sa拾ct顛io冬n使用Ha膏sh樹進(jìn)冰行支影持度園計數(shù)1面5布91451喘3濁63摧4晃53673683563576892345671244571254581,4,72,5,83,6,9HashFunction1235635612+5613+615+3562+563+1+2356tr需an麗sa臭ct闖io鋤n使用Ha少sh樹進(jìn)店行支奧持度們計數(shù)1床5敬91451歉3寇63易4歇53673683563576892345671244571254581,4,72,5,83,6,9HashFunction1235635612+5613+615+3562+563+1+2356tr餃an固sa險ct興io語n15個項副集中項的9個與仗事務(wù)賞進(jìn)行重比較存放系在被寶訪問谷的葉階結(jié)點避中的拜候選討項集啟與事土務(wù)進(jìn)興行比旬較,鎖如果晌候選徒項集源是該倡事務(wù)迅的子普集,短則增丑加它愉的支梨持度縮慧計數(shù)淚。在該蓬例子搶中庫,訪姐問了9個葉畫子結(jié)志點中謎的5個。15個項逮集中幸的9個與尿事務(wù)立進(jìn)行而比較計算齡復(fù)雜喉性支持帖度閾披值降低禮支持歇度閾頸值通叮常將蓋導(dǎo)致少更多肺的項貸集是鍛頻繁是的。恰計算殿復(fù)雜走度增桂加隨著冶支持健度閾啟值的稿降低男,頻雨繁項末集的艘最大勒長度肥將增覆加,夾導(dǎo)致村算法槳需要隊掃描奸數(shù)據(jù)年集的許次數(shù)炎也將撒增多項數(shù)隨著付項數(shù)勵的增熱加,椅需要踏更多保的空骨間來亡存儲原項的類支持遼度計化數(shù)。電如果饞頻繁鑼項集索的數(shù)捕目也僻隨著圾數(shù)據(jù)或項數(shù)螞增加怕而增則長,眠則由辰于算村法產(chǎn)說生的待候選醬項集絲式更多狂,計不算量灣和I/矛O開銷侮將增忍加事務(wù)取數(shù)由于Ap崖ri思o(jì)r時i算法斜反復(fù)嶄掃描豪數(shù)據(jù)橡集,擾因此頂它的穩(wěn)運(yùn)行事時間著隨著蟲事務(wù)摸數(shù)增咬加而晉增加事務(wù)攻的平牽均寬范度頻繁淋項集錘的最峰大長卵度隨淘事務(wù)克平均場寬度扯增加半而增說加隨著搏事務(wù)下寬度頑的增幟加,碰事務(wù)際中將還包含突更多窯的項屈集,申這將儀增加帳支持克度計從數(shù)時Ha語sh樹的輔遍歷贏次數(shù)規(guī)則武產(chǎn)生忽略耕那些濫前件糕或后泉件為疊空的培規(guī)則投,每滴個頻齊繁k-項集古能夠胳產(chǎn)生男多達(dá)2k-2個關(guān)憶聯(lián)規(guī)諒則關(guān)聯(lián)眉規(guī)則漢的提諒?。簬艑⒁豢蓚€項晚集Y劃分得成兩牽個非柏空的客子集X和Y-校X,使聾得X首夕Y宵–右X滿足仁置信語度閾啦值。如果{A饑,B李,C鈔,D繁}是頻督繁項蛇集,候選僑項集寬為:AB若C姿D申,薦A揚(yáng)BD告愧C,忙AC仆D儉B股,糞B默CD漢堤A,摔A垃B蓋CD蜻,奇B黃A純CD懷,環(huán)C滾A外BD冬,字D鹿印AB國C驕AB病友CD姻,爽AC逃鍬B洋D,憲AD齊貞B(tài)冬C,扁BC肌器AD史,秘B盯D夕A省C,戴CD克詳AB暫,這樣援的規(guī)便則必器然已累經(jīng)滿子足支哨持度調(diào)閾值鄉(xiāng)豐,因梢為它顫們是病由頻蓬繁項丑集產(chǎn)奇生的跑。規(guī)則撈產(chǎn)生怎樣存有效財?shù)膹尿哳l繁峰項集越中產(chǎn)問生關(guān)么聯(lián)規(guī)凡則?一般毅,計溉算關(guān)究聯(lián)規(guī)溝則的敗置信厚度并滾不需典要再末次掃拼描事渴務(wù)數(shù)量據(jù)集圈。規(guī)窯則{A務(wù),B撥,C森}你{顛D}的置佛信度鎖為σ(A演BC遇D)喜/σ(A謀BC礎(chǔ))。糾因為糊這兩舅個項版集的富支持傍度計則數(shù)已辰經(jīng)在償頻繁曉項集購產(chǎn)生俗時得窄到,泡因此朽不必字再掃市描整據(jù)個數(shù)躲據(jù)集.如果袍規(guī)則X莊Y體-X不滿狐足置響信度燭閾值縱,則泥形如X‘否Y飼-X泊’的規(guī)獸則一科定也慮不滿陽足置滅信度跳閾值歇,其絞中X‘是X的子污集。例如遇:c(順AB榆C醉D)銀須c券(A纖B胳準(zhǔn)CD鳳)唯行c(宮A跑較BC究D)因為σ(A捉B)σ(A悔BC繳),則σ(A迅BC你D)暴/σ(A血BC皆)頭σ(A啟BC金D)拒/σ(A竟B),則c(體AB傲C常D)技c(戀AB攪CD起)Ap達(dá)ri拖or叔i算法境中規(guī)紋則的藍(lán)產(chǎn)生被剪枝的規(guī)則低置死信度崖規(guī)則頻繁表項集失的緊辰湊表魔示由事老務(wù)數(shù)于據(jù)集穗產(chǎn)生連的頻炮繁項詠集的們數(shù)量腫可能代非常杏大。環(huán)因此識,從逃中識堆別出判可以章推導(dǎo)怠出其捕他所梁有的憐頻繁租項集蚊的,贏較小墊的,氣具有宣代表懷性的遣項集梳是有題用的篩。最大溜頻繁棋項集夫(Ma逼xi紗ma痛l播Fr拐eq頓ue吃ntIt區(qū)em蒸se庸t)頻繁半項集慕的邊唇界不頻探繁項文集最大百頻繁貿(mào)項集最大征頻繁法項集墳是這還樣的偽頻繁故項集素,它邊的直濕接超使集都絹不是襲頻繁賄的非頻南繁的頻繁暢的最大掉頻繁寺項集襯的特劇點優(yōu)點鼓:最挨大頻端繁項驗集有弱效地謹(jǐn)提供魚了頻逝繁項欲集的余緊湊第表示魂。換句旗話說為,最喇大頻遠(yuǎn)繁項辟集形凡成了走可以犬導(dǎo)出犯所有拾頻繁濟(jì)項集雪的最綠小的聲項集醋的集藥合。從圖項中,怕可以鬧看出智,所交有的嬸頻繁珍項集股是最孔大頻瞧繁項靠集{A次,D禾},想{還A,鎮(zhèn)C,眉E}授,錢{B逢,C乘,D刷,E跪}的子懲集缺點仙:盡蓋管最何大頻細(xì)繁項劣集提迎供了咐一種該緊湊削表示茄,但滅是它銀卻不頃包含填它們論子集五的支佛持度滋信息冠。頻繁春閉項徹集(Cl錄os按ed倍F煙re教qu錄en務(wù)tIt他em綁se凱t)閉項始集(Cl炸os挖edIt引em受se煌t):斧項集X是閉砍的,累如果艙它的蒼直接霜超集繼都不蓬具有響和它宏相同灰的支務(wù)持度痰計數(shù)撲。換句比話說群,如姿果至五少存術(shù)在一株個X的直伸接超兼集,艷其支稱持度沖計數(shù)雁與X相同鉗,X就不益是閉睡的。頻繁躲閉項戀集:一個歐項集于是頻快繁閉莖項集鴉,如鬧果它擁是閉燭的,沒并且蜘它的歪支持鋒度大額于或描等于皂最小哀支持辱度閾順值。頻繁宏閉項獄集Tr毯an司sa曬ct追io蝴n枯Id志sNo男t綿su吧pp采or擋te橡d誼by瘡a李ny供t狀ra愚ns減ac裂ti演on忘s頻繁役閉項紡集mi刑ns辰up=承40誘%#票Cl度os繼ed饒F(tuán)授re如qu柳en防tIt舅em牛se東t=蘋9#記Ma顫xi援ma勢l抵Fr場eq械ue檔ntit于em株se論t=夕4頻繁污項集回、最杏大頻彩繁項諸集和神頻繁說閉項遭集之榜間的樂關(guān)系產(chǎn)生悔頻繁羅項集魂的其誕他方珠法項集爸格遍訴歷一般痕到特筋殊vs特殊狂到一減般。一般碎到特喬殊:仰適合胸于頻孔繁項由集的飯最大偽長度究不是凍太長浪的時富候。特殊成到一木般:喜適合俱于處繡理頻言繁項護(hù)集的暑最大速長度辨較長相的時奸候產(chǎn)生龜頻繁橋項集挪的其句他方咸法項集禍格遍洲歷等價念類:副將格拐劃分泉為兩憑個不鉗相交茶的節(jié)拆點組道(或啊等價嬸類)像。頻屆繁項肆集產(chǎn)不生算秩法依揚(yáng)次在贈每個遞等價勸類內(nèi)蹄搜索攏頻繁德項集Ap扔ri麻or消i算法事采用肚的逐武層策謎略可坑以看襲作根進(jìn)據(jù)項喇集的模大小雹劃分飽格。瓦等價舒類也滴可以壓根據(jù)踩項集還的前憶綴或泛后綴椒來定卸義。產(chǎn)生昨頻繁傳項集障的其情他方賓法項集過格遍底歷寬度喇優(yōu)先肉與深主度優(yōu)幸先通??p,深秧度優(yōu)賣先搜圈索方建法是糕用于熔發(fā)現(xiàn)狂最大父頻繁順項集旗的算纏法產(chǎn)生少頻繁舞項集君的其浴他方顧法事務(wù)其數(shù)據(jù)圍集的齊表示水平丸數(shù)據(jù)柳分布腸(ho速ri槽zo如nt洋al不d德at誕a板la尊yo權(quán)ut)垂直蒼(ve械rt凳ic泡al休d澡at花a削la題yo齊ut)FP增長摟算法景(FP剃-g橋ro喝wt者h(yuǎn)稍Al暮go配ri扔th南m)該算也法采礙用完襪全不弄同的毯方法暑來發(fā)進(jìn)現(xiàn)頻依繁項第集。該算揀法不囑同于Ap扣ri蘇or月i算法極的“冤產(chǎn)生-測試躲”范襯型。雕而是招使用翅一種門稱作FP樹的尸緊湊駕數(shù)據(jù)晚結(jié)構(gòu)友組織老數(shù)據(jù)煤,并腎直接秤從該巡壽結(jié)構(gòu)都中提道取頻蘆繁項刊集。FP樹是間一種壓輸入接數(shù)據(jù)庸的壓囑縮表明示,鬼它通騰過逐訴個讀錄入事箏務(wù),臥并把混每個嶼事務(wù)停映射箱到FP樹中坊的一陳條路氧徑來欣構(gòu)造盯。構(gòu)造FP樹掃描峰一次還數(shù)據(jù)局集,慶確定病每個拉項的役支持抄度計妥數(shù)。碗丟棄孩非頻欄繁項肢,而廢將頻婚繁項室按照鞠支持推度的逗遞減譽(yù)排序算法高第二俗次掃膊描數(shù)瓣據(jù)集返,構(gòu)廊建FP樹。簽讀入棉第一階個事耍務(wù){(diào)a,b}之后咬,創(chuàng)宜建標(biāo)暫記為a和b的結(jié)卸點。老然后盞形成nu鋸ll醬->麥a-疲>b路徑欣,對齊該事附務(wù)編迅碼。最該路秀徑上舟的所覽有結(jié)藥點的遠(yuǎn)頻度霜計數(shù)選為1.讀入閘第二罵個事地務(wù){(diào)b,c,d}之后貢,為農(nóng)項b,c和d創(chuàng)建檔新的定結(jié)點簽集。響然后待,連斥接結(jié)卻點nu巷ll教->絹b-娘>c昏->脾d,形識成一姻條代匙表該患事務(wù)謀的路逃徑。柳該路類徑上攻的每裳個結(jié)盤點的拆頻度箱計數(shù)序也等瞎于1.盡管坑前兩回個事多務(wù)具溜有一爛個共餅同項b,但府是它牲們的錫路徑筆不相圓交,層因為派這兩劈燕個事背務(wù)沒探有共念同的尿前綴授。構(gòu)造FP樹nu依llA:僻1B:設(shè)1nu嶄llA:污1B:挖1B:掃1C:忙1D:搖1讀入邁事務(wù)TI君D=和1后:讀入拌事務(wù)TI歸D=擔(dān)2后:第三海個事坊務(wù){(diào)a,c,d,e}與第戰(zhàn)一個攔事務(wù)女共享詳一個殖共同煮的前鼻綴項a,所撥以第薯三個嶼事務(wù)亞的路動徑nu俗ll攻->毫a-觀>c孟->喘d-安>e與第乎一個焦事務(wù)徒的路喘徑nu喂ll編->波a-概>b部分挺重疊授。因丹為它浴們的丑路徑注重疊主,所閥以結(jié)積點a的頻濁度計題數(shù)增大加為2.繼續(xù)直該過鉗程,陪直到估每個州事務(wù)屬都映抹射到FP樹的也一條蓋路徑償。構(gòu)造FP樹D:盯1E:撲1nu幣llA:躁1B:慶1B:主1C:少1D:窮1讀入版事務(wù)TI持D=峰3后:C:沉1構(gòu)造FP樹nu喂llA:鄙8B:抵5B:單2C:水2D:坑1C:犯1D:宰1C:勤3D:斃1D:鋸1E:籠1E:逝1D:矩1E:降1Headertable構(gòu)造FP樹通常德,F(xiàn)P樹的佳大小伴比未宗壓縮醒的數(shù)勒據(jù)小淹,因椅為購逐物籃仙數(shù)據(jù)劍的事赤務(wù)常維常共結(jié)享一默些共壤同項魚。如眾果共崗?fù)棻齿^少場,F(xiàn)P樹對汽存儲擱空間燥的壓窯縮效塞果將享不明絹顯。FP樹的孝大小崇也依津賴于所項如膠何排懂序。瓣一般惜按照顧支持畢度計樣數(shù)遞教減序躺可以故導(dǎo)致蛋較小絞的FP樹。手但也猜有一響些例拒外。FP樹還刪包含敗一個懶連接治具有證相同截項的屈結(jié)點出的指布針列姨表。宰這些曠指針網(wǎng)有助穴于方鍬便快合捷地久訪問尿樹中臥的項紐奉。構(gòu)造FP樹FP增長延(FP我-g盡ro黑wt照h)算遞法FP增長府是一鉆種以掉自底統(tǒng)向上勺方式嫁探索悼樹,鈴由FP樹產(chǎn)涉生頻古繁項泡集的燃算法朽。由于蛋每一醒個事章務(wù)都咳映射芝到FP樹中罰的一房誠條路別徑,登因而足通過宗僅考毛察包蘭含特印定結(jié)型點(談例如e)的竹途徑掃,就爐可以礦發(fā)現(xiàn)假以e結(jié)尾榨的頻嗚繁項烈集。碼使用夏與結(jié)惠點e相關(guān)閱聯(lián)的鏡指針訴,可鞏以快詢速訪示問這池些路嗽徑。FP增長變(FP點-g物ro拆wt想h)算演法FP增長稻(FP閉-g垃ro車wt車h)算惑法FP增長雅(FP貍-g圓ro竄wt汽h)算緩法關(guān)聯(lián)尖模式閉的評敢估(Pa圖tt趁er輛n獨Ev失al直ua椅ti起on)關(guān)聯(lián)劑分析哨算法艦往往晴產(chǎn)生箭大量染的規(guī)攔則,昌而其尚中很闖大一遭部分黎可能鋤是不唱感興賀趣的夏。因此珍,建半立一烤組廣攻泛接畢受的而評價瀉關(guān)聯(lián)哥模式頁質(zhì)量扛的標(biāo)淋準(zhǔn)是殊非常技重要爐的。第一刻組標(biāo)筋準(zhǔn)可宋以通連過統(tǒng)慰計論酒據(jù)建授立。落涉及達(dá)相互筑獨立備的項喊或覆蹲蓋少暴量事踏務(wù)的箭模式滿被認(rèn)霉為是賴不令院人感糠興趣廳的,紅因為老它們現(xiàn)可能己反映胖?jǐn)?shù)據(jù)惕中的閉偽聯(lián)酷系。這些膏令人甜感興崗趣的優(yōu)模式撐可以據(jù)使用皮客觀顛興趣叮度度泉量來習(xí)排除掛。第二拌組標(biāo)界準(zhǔn)可籌以通差過主追觀論泊據(jù)建醫(yī)立。獻(xiàn)一個鄭模式洞被主課觀認(rèn)謹(jǐn)為是庭無趣妙的,逐除非飛它能石夠揭閑示料命想不仁到的蜻信息禮或提閣供導(dǎo)漿致有總益的拔行動各的有逮用信渴息。例如探:{黃油}{面包}可能歉不是環(huán)有趣援的,本盡管察有很縮慧高的增支持綱度和歷置信沃度,農(nóng)但是灑它表勸示的荒關(guān)系痰顯而蛙易見疤。另輪一方舉面,段規(guī)則{尿布}辦{啤酒}是有撇趣的述,因歲為這投種聯(lián)磚系十鋼分出冠乎意執(zhí)料,將并且睡可能馬為零閘售商舊提供睬新的伴交叉割銷售鄉(xiāng)豐機(jī)會耽。將主逼觀知繪識加最入到鹽模式袍的評杏價中麗是一谷項困注難的滑任務(wù)你,因侵為需訂要來鋪自領(lǐng)堆域?qū)8导业恼叽罅抠浵闰瀬喰畔⒈?。下次面是梳一些補(bǔ)將主仆觀信須息加鋪入到巷模式糕發(fā)現(xiàn)鹽任務(wù)燃中的閥方法徑。興趣懂度客拘觀度圓量(ob洽je槽ct寺iv根e倒in佩te炊re跪st碎in餓gn職es犯s棕me橋as革ur步e)客觀片興趣市度度傾量使帆用從日數(shù)據(jù)艦推導(dǎo)允出的疼統(tǒng)計詠量來謙確定少模式湖是否堤是有株趣的況??陀^幟興趣根度度黃量的五例子遺包括罵支持糠度、紡置信良度、揀相關(guān)瞇性。給定羞一個泥規(guī)則X驕Y,我們簽可以妹構(gòu)建圍一個絕相依禮表(co不nt森in灶ge驅(qū)nc皂y藝ta勞bl雞e)。YYXf11f10f1+Xf01f00fo+f+1f+0|T|Co就nt芹in敘ge鵝nc距y尚ta響bl醒efo臨rX興Y支持閃度-置信準(zhǔn)度框級架的父局限糞性現(xiàn)有值的關(guān)刃聯(lián)規(guī)派則的招挖掘醋算法好依賴溜于支渠持度戀和置界信度規(guī)來除核去沒扛有意莫義的跪模式澆。例子四:假漲定希本望分穴析愛楊喝咖梅啡和酒愛喝爽茶的靈人之援間的客關(guān)系場。收短集一賤組人匪關(guān)于炭飲料穴偏愛土的信厭息,苗并匯筆總到括下表6-偽8。CoffeeCoffeeTea15050200Tea6501508008002001000支持鑒度-置信何度框煌架的法局限斥性可以換使用蔑表中動給出臺的信卡息來曲評估藍(lán)關(guān)系對規(guī)則{茶}{咖啡}。似乎玻喜歡器喝茶于的人母也喜羅歡喝翅咖啡錯,因休為該信規(guī)則攜的支杠持度捏(15巖%)和痰置信相度(75出%)都尊相當(dāng)傻高。但是如所有寺人中阻,不燥管他乓是否愿喝茶得,喝皂咖啡拳的人彼的比艦例為80生%。這喬意味翼著,眠一個聽人如芝果喝愛茶,牲則他坊喝咖污啡的狹可能怠性由80高%減到廳了75監(jiān)%。置信扯度的稻缺點抵在于列該度擺量忽辯略了氧規(guī)則娃后件腿中項也集的超支持何度。由于技支持色度-置信撓度框籌架的那局限厘性,印各種游客觀旬度量饅已經(jīng)池用來捷評估蠅關(guān)聯(lián)雁模式捐。下況面,害簡略作介紹扛這些博度量班并解脅釋它跪們的顆優(yōu)點壤和局俗限性顆。興趣耕因子相關(guān)延分析IS度量興趣它因子茶和峰咖啡睡的例銹子表殖明,桐由于瞞置信盯度度茄量忽低略了畢規(guī)則隆后件合中出宜現(xiàn)的林項集畏的支季持度疑,高龜置信錄度的寄規(guī)則貝有時匹存在肉誤導(dǎo)校。解決塊這個覺問題及的一教種方誰法是狠使用脂稱作汽提升東度(li愛ft)的腎度量血:它計營算規(guī)婦則置柄信度淘和規(guī)景則后旁件中騾項集首的支粗持度墻之間愚的比雖率對于糊二元僑變量始,提咬升度詳?shù)葍r巾于另吹一種填稱作駕興趣乘因子針(in褲te霜re墓st遞f曠ac輸to蓬r)的槽客觀廁度量蹄,其設(shè)定義置如下樂:對于窯相互貌獨立臉的兩剩個變閥量,I(零A,敞B)辨=1。如遍果A和B是正蘋相關(guān)洋的,則I(頌A,比B)寇>1。對追于表6-洽8中的犁例子旦,I=暮0.凝15壺/(摧0.賓2*膛0.止8)茄=0公.9磨37舅5,這表但明存條在負(fù)失相關(guān)偉。興趣最因子擺的局剝限性表6-禽9顯示走了兩刃個詞{p,靠q}和{r,避s}出現(xiàn)槐的頻柿率。{p,竊q}和{r,驕s}的興黃趣因作子分峰別為1.對02和4.噸08點.這表閥明雖彩然p和q同時嶺出現(xiàn)肯在88兄%的文溫檔中愁,但開是它犁們的矛興趣席因子巾接近傷于1,表催明二加者是匆相互壁獨立浩的。乏另一竿方面減,{r,心s}的興瞇趣因慚子比{p,每q}的高塑,盡任管r和s很少尖同時鳴出現(xiàn)悅在同議一個徒文檔游中。這種抓情況滲下,選置信唐度可劑能是牙一個逼更好扁的選葵擇,敲因為代置信還度表恢明p和q之間弦的關(guān)婆聯(lián)(94饅.6觸%)遠(yuǎn)帖遠(yuǎn)強(qiáng)萬于r和s之間桿的關(guān)翻聯(lián)(28賠.6拜%).表6-型9ppq88050930q502070930701000rrs205070s50880930709301000相關(guān)調(diào)分析對于笨二元耗變量闖,相圾關(guān)度渾可以災(zāi)用以訴下公局式表民示。相關(guān)咳度的晃值從-1(完榜全負(fù)陜相關(guān)挽)到+1(完陣全正賀相關(guān)茫)。耽如果筐變量聾是統(tǒng)擠計獨宵立的剝,則貸值為0.例如萬:在您表6-孝8中給川出的菜飲茶央者和轉(zhuǎn)喝咖黨啡者忌之間課的相掀關(guān)度負(fù)為-0岔.0寇62喜5。相關(guān)封分析隊的局怎限性相關(guān)轎性的裝缺點姥通過盲表6-垃9所給撫出詞位的關(guān)污聯(lián)可嫂以看脂出.雖然p和q同時灶出現(xiàn)壟的次刊數(shù)比r和s更多蠻,但倦是它意們的¢系數(shù)軟是相粗同的草,都防等于0.延23折2。這是逃因為爪,這蛇種方欺法把周項在榨事務(wù)駛中出摟現(xiàn)和披同時株不出稿現(xiàn)視兆為同藏等重濫要。崗因此來,它鋼更適磁合于棋分析佛對稱溫的二揮元變駁量。這種隊度量麻的另正一個灶局限削性是寬,當(dāng)港樣本計大小廳成比重例變護(hù)化時均,它但不能禁夠保家持不容變。IS度量IS是另營一種桐度量濾,用掛于處駛理非腿對稱藥二元溪變量鍵。該帽度量年定義口如下盜:表6-弓9中顯饒示的池詞對{p,鄭q}和{r,根s}的IS值分哪別是0.早94申6和0.槍28似6.蓮IS度量渣暗示{p,臉q}之間境的關(guān)塊聯(lián)強(qiáng)矛于{r,請s},這攤與期頸望的剃文檔峰中詞帥的關(guān)舊聯(lián)一友致??梢詨蜃C明IS數(shù)學(xué)寫上等窄價于叢二元靜變量肥的余換弦變矛量IS度量兇也可鏡以表渡示為準(zhǔn)從一皇對二濫元變脆量中睬提取完出的波關(guān)聯(lián)鈴規(guī)則速的置陷信度撥的幾敘何平凈均值浩:IS度量莊的局炕限性一對紀(jì)相互么獨立例的項黎集A和B的IS值是創(chuàng):盡管修表6-姥10中所冤顯示萄的項p和q之間腹的IS值相題當(dāng)大謹(jǐn)(0.于88趣9),享當(dāng)項作統(tǒng)計鞭獨立華時它耍仍小殊于期沒望值忍(ISin皮de允p=0事.9)。表6-角10ppq800100900q10001009001001000其他短客觀護(hù)興趣長度度析量不同編度量對間的某比較客觀麥度量步的性礎(chǔ)質(zhì)反演由性客觀籠度量M在反溪演操象作下坡是不科變的片,如義果交粉換頻子度計勝數(shù)f11和f00、f10和f01它的恐值保朵持不斷變.在反插演操膨作下桿保持泄不變挨的度天量有¢系數(shù)白、幾糾率、k和集慢體強(qiáng)槍度。這些食度量非可能訂不適娃合于疾分析芳非對遇稱的毀二元邊數(shù)據(jù)晚。一些感非反婆演不南變的掘度量俘包括韻興趣恐因子唇、IS、PS、Ja遇cc忠ar映d系數(shù)津。零加女性客觀拖度量M在零險加操與作下輛是不民變的篇,如嚼果增尿加f0考0而保站持相懶依表鑼中所軍有其擊他的犯頻度街不變盟并不主影響M的值.對文銜檔分肌析或蛋購物泉籃分眠析這葉樣的逐應(yīng)用酷,期巷望度含量多文在零章加操物作下噴保持梨不變楊。滿桐足零哨加性嘉的度淹量包擦括余葬弦(IS)和Ja夾cc鏟ar采d度量碼,而虹不滿望足該鏈性質(zhì)低的度之量包福括興躁趣因評子、PS、幾儀率和¢系數(shù)長??s放修性客觀群度量M在行/列縮京放操罩作下嘴是不肥變的值,如填果M(T)=M(T’),新其中T是頻養(yǎng)度計翠數(shù)為[f身11土,f飄00萬,f居10繭,f坊01帝]的相核依表麗。T‘是頻宵度計胃數(shù)為[k1k3f11,副k2k3f10,抹k1k4f01,瓣k2k4f00]的相予依表肢。MaleFemaleHigh302050Low4010507030100MaleFemaleHigh6060120Low803011014090230表6-層16顯示拉了19領(lǐng)93年和20亦04年注她冊某倆課程速的學(xué)碑生的瞎性別肚和成碧績的醒相依將表。多個桂二元樂變量森的度火量使用叛多維后相依補(bǔ)表,認(rèn)可以樹擴(kuò)展斤到多妥個變悄量。例如兆,表6-族18顯示六了a,b和c的3維相揚(yáng)依表海。cbbaf111f101F1+1af011f

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論