(精校版)頻繁項集報告

上傳人：w*** IP屬地：天津上傳時間：2022-04-04 格式：DOC 頁數(shù)：28 大?。?39KB 積分：20 舉報 版權(quán)申訴

免費(fèi)預(yù)覽已結(jié)束，剩余26頁可下載查看

 下載本文檔

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、（完整 word 版）頻繁項集報告編輯整理:尊敬的讀者朋友們：這里是精品文檔編輯中心，本文檔內(nèi)容是由我和我的同事精心編輯整理后發(fā)布的，發(fā)布之前我們對文中內(nèi)容進(jìn)行仔細(xì)校對，但是難免會有疏漏的地方，但是任然希望（完整word版）頻繁項集報告）的內(nèi)容能夠給您的工作和學(xué)習(xí)帶來便利。同時也真誠的希望收到您的建議和反饋，這將是我們進(jìn)步的源泉，前進(jìn)的動力。本文可編輯可修改,如果覺得對您有幫助請收藏以便隨時查閱,最后祝您生活愉快業(yè)績進(jìn)步,以下為（完整word版）頻繁項集報告的全部內(nèi)容。1目錄第一章緒論. 2lo研究背景和意義.21 2 本文主要內(nèi)容. 3第二章頻繁項集. 42o 2 頻繁項集概述.42.

2、2 頻繁項集名詞解析.42.3 頻繁項集分析指標(biāo).4第三章 A Priori 算法.53.1 概述. 53.2 Apriori 核心算法過程.6第四章 PCY 算法.8第五章 A-Priori 算法的 java 實現(xiàn).9第六章 Hadoop 核心. 116o 1 HDFS.116o lo1 HDFS 概述.116o lo2 NameNode 和 SecondNameNode.126.2 MapReduce. 14第七章基于 MapReduce 的 A 一 Priori 算法實現(xiàn)1521o1研究背景和意義購物籃模型的最早應(yīng)用源于真實購物籃的分析，也就是說，超時和連鎖商店都會記錄每個結(jié)賬的購物

3、籃的內(nèi)容、這里的“項”指的是商店出售的不同商店，而“購物籃”指的是單個購物籃中所裝的項集，通過發(fā)現(xiàn)頻繁項集，零售商可以知道哪些商品通常會被顧客購買，那些共同購買的頻度遠(yuǎn)高于各自獨(dú)立購買所預(yù)期的頻度的項對或項集。頻繁項集分析的應(yīng)用并不僅限于購物籃數(shù)據(jù)，同樣的模型可以用于挖掘很多其他類型的數(shù)據(jù)。例如：(1)關(guān)聯(lián)概念這里的項是詞，購物籃是文檔文檔中的所有詞就構(gòu)成了對應(yīng)購物籃中的項，如果要尋找多篇文章中共同出現(xiàn)的詞匯集合，那么這些集合大都被高頻常見詞所占據(jù)，比如，我們想要尋找貓和狗的網(wǎng)頁摘要，但是停用詞and和卻占據(jù)了頻繁項集中的主要比例，如果忽的一部分詞對.(2)文檔抄襲這里的項是文檔

4、，購物籃是句子。一篇文檔中，如果包含某個句子，則任務(wù)該句子對應(yīng)的購物籃中包含文檔對應(yīng)的項。本應(yīng)用中, 尋找那些在多個購物籃中共同出現(xiàn)的項對，如果發(fā)現(xiàn)這項的項對，也就是兩篇文檔有很多第一章緒論那么我們希望在高頻次對中發(fā)現(xiàn)某些能夠代表聯(lián)合概念所有的停用詞,3相同的句子，實際當(dāng)中，設(shè)置一到兩個句子相同都是抄襲發(fā)生的有力證據(jù)。(3)生態(tài)標(biāo)志物這里的項包括兩種類型，一種是諸如基金或血蛋白之類的生物標(biāo)志物，另一類是痢疾，而購物籃是某個病人的數(shù)據(jù)集，包括他的基因組合血生化分析數(shù)據(jù)，以及他的病史信息。頻繁項集有某個疾病和一個或多個生物標(biāo)志物構(gòu)成，它們組合在一起給出的疾病是一個檢測建議。1 2本文

5、主要內(nèi)容本文對頻繁項集的基本概念分析指標(biāo)進(jìn)行了解釋說明，詳細(xì)介紹了頻繁項集中的A-Pr ior i算法，PCY算法，并通過JAVA對APriori算法進(jìn) 行了實現(xiàn)?，F(xiàn)在正處于大數(shù)據(jù)時代，候選項，頻繁項等數(shù)以百萬計，目前的單個計算機(jī)來計算頻繁項集耗費(fèi)時間較大，故在文章的最后引入的Hadoop的HDFS和MapReduce技術(shù)，對APr i or i進(jìn)行了分布式的實現(xiàn)，大大的減少的計算時間。4第二章頻繁項集2o 1頻繁項集概述頻繁項集最經(jīng)典和常用的應(yīng)用就是超市的購物籃分析.每個購物籃里有很多商品，每個商品都是一項元素，每個購物籃都是一個集合，所有購物籃就形成了一個系列集合。分析哪些商品經(jīng)

6、常一起頻繁出現(xiàn)在購物籃內(nèi)，即找到頻繁項集，然后，再分析其他商品與頻繁項集的關(guān)系，即關(guān)聯(lián)規(guī)則.2 2頻繁項集名詞解析頻繁項：在多個集合中，頻繁出現(xiàn)的元素/項，就是頻繁項頻繁項集：有一系列集合，這些集合有些相同的元素，集合中同時出現(xiàn) 頻率高的元素形成一個子集，滿足一定閾值條件，就是頻繁項集.極大頻繁項集：元素個數(shù)最多的頻繁項集合，即其任何超集都是非頻繁項集。k項集：k項元素組成的一個集合2o 3頻繁項集分析指標(biāo)支持度：包含頻繁項集F的集合的數(shù)目?？尚哦龋侯l繁項F與某項j的并集（即FU j）的支持度與頻繁項集F的支持度的比值.興趣度:F U j 可信度與包含j的集合比率之間的差值。5若興趣度很

7、高，則頻繁項集F會促進(jìn)j的存在，若興趣度為負(fù)值,且頻繁項集會抑制j的存在;若興趣度為0,則頻繁項集對j無太大影響。第三章A-Priori算法3.1概述目前暫時只集中關(guān)注頻繁項對的發(fā)現(xiàn)。假如我們都有足夠的內(nèi)存用于所有項對計數(shù)，那么通過單便掃描讀取購物籃文件就很簡單對于每個購6未用1 - A一priori算法的第一遍掃描物籃，我們使用一個雙重循環(huán)就可以生成所有的項對，沒生成一個相對，就給對應(yīng)的計數(shù)器加一，最后檢查所有項對的技術(shù)結(jié)果并找出那些超過支持度閥值S的項對，這就是頻繁項對。然而，當(dāng)項對的數(shù)目太多而無法再內(nèi)存中對所有的項對技術(shù)時，上述的方法就不行了，A-Priori算法被設(shè)計成能夠減少

8、必須計數(shù)的項對數(shù)目，代價是要對數(shù)據(jù)做兩便遍而不是一遍掃描。Apr i or i算法是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項集的算法。其核心是基于兩階段頻集思想的遞推算法。該關(guān)聯(lián)規(guī)則在分類上屬于單維、單層、布爾關(guān)聯(lián)規(guī)則。在這里，所有支持度大于最小支持度的項集稱為頻繁項集，簡稱頻集。3o 2 Apr ior i核心算法過程12n12n7第一次掃描中，要建立兩張表。如有必要，第一章表要將項的名稱轉(zhuǎn) 換為1到n之間的整數(shù)，另一張表則是一個計數(shù)數(shù)組，第i個數(shù)組元素是上述第i個項的出現(xiàn)次數(shù).這些項的計數(shù)值的初始值是0。在讀購物籃時，檢查購物籃中的每個項并將其名稱轉(zhuǎn)換為一個整數(shù)，然后，將剛整數(shù)作為

9、計數(shù)數(shù)組的下表找到對應(yīng)的數(shù)組元素，最后對該數(shù)組加12. A-Priori算法兩遍掃描之間的處理第一遍掃描之后，檢查所有項的計數(shù)值，以確定哪些項構(gòu)成單元素頻繁項集，對于A-Priori算法的第二遍掃描，只給頻繁項重新編號，編號的范圍是1到m,此時的表格是一個下表為1到n的數(shù)組，如果第i項不頻繁，則對于的第i個數(shù)組元素為0。否則為1到ni之間的一個唯一整數(shù)。3. A一Priori算法的第二遍掃描第二遍掃描中，對兩個頻繁項組成的所有項對計數(shù)。除非一個相對中的兩個項都頻繁，否則這個項對也不可能是頻繁的。第二遍掃描的技術(shù)細(xì) 節(jié)包括，對每個購物籃，在頻繁項集表中檢查哪些項是頻繁的，通過一個雙重循

10、環(huán)生成所有的頻繁項對，對每個頻繁項對，在存儲計數(shù)值的數(shù)據(jù)結(jié) 構(gòu)中對應(yīng)的計數(shù)值加1.最后，在第二遍掃描結(jié)束時，檢查計數(shù)值結(jié)構(gòu)以確定哪些項對是頻繁項對。8第四章PCY算法第一次掃描結(jié)束后，每個桶中都有一個計數(shù)值，記錄所有哈希到該桶中的項對的數(shù)目值和。如果某個桶中的計數(shù)值不低于支持度閥值S,那么該桶稱為頻繁桶，對于哈希到某個頻繁桶中的項對，可以假設(shè)其為頻繁項對, 但是如果某個桶中的計數(shù)值小于S,那么可以確定哈希到該桶內(nèi)的項對都是不頻繁的，即使它由兩個頻繁項構(gòu)成，這個事實對第二遍掃描很有幫助。PCY兩次掃描之間，哈希表被概括表示成一個位圖，其中每一位表示一個桶。位為1表示對于的桶是頻繁的，而0表

11、示不頻繁。因此每32位表示的整數(shù)替換成1位。如果大部分桶都不頻繁，那么可以預(yù)期第二遍掃描中所要計算的項對數(shù)目會遠(yuǎn)小于所以頻繁項組成的項對數(shù)目。所以，在第二遍掃描中，PCY22 n未用12 n位圖第二選掃福9可以在處理某些數(shù)據(jù)集時避免內(nèi)存抖動.10第五章A-Priori算法的java實現(xiàn)具體代碼見附錄下面是一個實例分析以及在JAVA程序中的測試結(jié)果加入存在5個購物籃，購物籃的內(nèi)容如下所示，支持度為3.TID購買的商品1100M, 0, N, K, E, Y1200D, 0, N, K E, 1300H,A, K,E1400, U, C, K, Y1500G0,KJ,E下面是APriori的

12、分析過程下面是對該實例在JAVA中運(yùn)行結(jié)果顯示惑A1C2D1E4I1K5M3N203u1Y3ci侯選集比較支持度項集支捋度iiikE4K5M303Y3L1頻繁項集產(chǎn)生C2慈E,K4E.M9E,03E,Y2K,M3K,03K,Y31山Y(jié)90,Y2C2候選集頂集E,K4E,03K,M3K,03K,Y3L2傾緊2-頂塊il算.支持度產(chǎn)生C3支鄉(xiāng)哎計裁E,K,03L3煩驚3-頂集計舜支持度茨奐力待度計建E, K,03K, M, 01C3候選集11Problem G Javadoc Oedoration空Oixlir O Ccnx?k S3色SVN WSJt, Spring Explorer幫Debu

13、g C* Variablow尿5ervRJuCDeIKHH0UKH0Y候迭築2忌6HE0CYKHKOKYHOMYOY朋集2:AC(0KHKOKY保酸3：EKM沁執(zhí)EKOY慣昨：閩第：EKOEKYEOYKHOKMYKOY贈耒5：頡幣項隼：EKEKOroKHKOKY Apnori para Application) C:Prograni FilesJavadkL7.0_67bintfvjv/.exe (2015-12-16上K:52;52jKOOYKOOYEOEOKOMKKEKOMKKE鶯OEEKOEEKXEXE 換器豔Il;ll;Il;ll;服器12第六章Hadoop核心6o 1 HDFSHad

14、oop分布式文件系統(tǒng)(HDFS )被設(shè)計成適合運(yùn)行在通用硬件(commodity hardware)上的分布式文件系統(tǒng).6o 1.1 HDFS概述HDFS：分布式文件系統(tǒng)，海量數(shù)據(jù)的存儲。高容錯，可以部署在廉價的機(jī)器上，提供高吞吐量的數(shù)據(jù)訪問，適合那些需要處理海量數(shù)據(jù)集的應(yīng) 用程序。支持以流的形式訪問文件系統(tǒng)中的數(shù)據(jù).HDFS主要特性:支持超大文件；檢測和快速應(yīng)對硬件故障；流式數(shù)據(jù)訪問；簡化的一致性模型；不適用下面特性：低延遲數(shù)據(jù)訪問；大量小文件；多用戶寫入文件，修改文件；HDFS Architecture13名字節(jié)點(diǎn)是分布式系統(tǒng)的管理者，負(fù)責(zé)管理文件系統(tǒng)命名空間，集群配置和數(shù)據(jù)塊復(fù)制;數(shù)

15、據(jù)節(jié)點(diǎn)是文件存儲的基本單元，以數(shù)據(jù)塊的形式保存了HDFS中文件的內(nèi)容和數(shù)據(jù)塊的數(shù)據(jù)校驗信息;數(shù)據(jù)塊：塊的大小代表著系統(tǒng)讀寫操作的最小單位。對于用戶來說是透明的。6O1.2 NameNode和SecondNameNodeNameNode是HDFS主從結(jié)構(gòu)中主節(jié)點(diǎn)上運(yùn)行的主要進(jìn)程，指導(dǎo)主從結(jié) 構(gòu)中的從節(jié)點(diǎn)，數(shù)據(jù)節(jié)點(diǎn)執(zhí)行底層的I0任務(wù)。NameNode維護(hù)這整個文件系統(tǒng)的目錄樹，文件/目錄的元信息和文件的數(shù)據(jù)塊索引，即每個文件的數(shù)據(jù)塊列表。這些信息以兩種形式存儲在本地文件系統(tǒng)中，一種是命名空間鏡像（File System Image文件系統(tǒng)鏡像）, 另一種是命名空間鏡像的編輯日志（Edit

16、 log）命名空間鏡像保存著某一時刻的目錄樹，元信息和數(shù)據(jù)庫索引等信息，后續(xù)對這些信息的修改，保存在編輯日志中。通過NameNode,客戶端可以了解到數(shù)據(jù)塊所在的數(shù)據(jù)節(jié)點(diǎn)信息。這些信息不保存在上面所述的文件系統(tǒng)中，NameNode每次啟動，都會動態(tài)的重建這些信息，這些14信息構(gòu)成了名字節(jié)點(diǎn)的第二類關(guān)系.運(yùn)行時客戶端通過名字節(jié)點(diǎn)獲得上述信息，然后和數(shù)據(jù)節(jié)點(diǎn)進(jìn)行數(shù)據(jù)交互，讀寫文件。名字節(jié)點(diǎn)還能夠獲取HDFS整體運(yùn)行狀態(tài)的一些信息，如系統(tǒng)的可用空間，已經(jīng)使用的空間，各數(shù)據(jù)節(jié)點(diǎn)的當(dāng)前狀態(tài)。第二名字節(jié)點(diǎn)用于定期合并命名空間鏡像和鏡像編輯日志。每個集群都有一個第二名字節(jié)點(diǎn)，在大規(guī)模的部署

17、條件下，一般第二名字節(jié)點(diǎn)也獨(dú) 占一臺服務(wù)器。第二名字節(jié)點(diǎn)和名字節(jié)點(diǎn)的區(qū)別是它不接收和記錄HDFS的任何實時變化，只是根據(jù)集群配置的時間間隔，不停的獲取HDFS某一個時間點(diǎn)的命名空間鏡像和鏡像的編輯日志，合并成一個新的命名空間鏡像，這個新的命名空間鏡像就會上傳到名字節(jié)點(diǎn)，替換原來的命名空間鏡像,并情況編輯日志。在數(shù)據(jù)節(jié)點(diǎn)上，HDFS的數(shù)據(jù)塊，以linux文件系統(tǒng)上的普通文件進(jìn)行保存?？蛻舳诉M(jìn)行文件操作時,先由名字節(jié)點(diǎn)告知客戶端每個數(shù)據(jù)塊駐留在哪個數(shù)據(jù)節(jié)點(diǎn)，然后客戶端直接與數(shù)據(jù)節(jié)點(diǎn)守護(hù)進(jìn)程進(jìn)行通信，處理與數(shù)據(jù)塊對應(yīng)的本地文件，同時數(shù)據(jù)節(jié)點(diǎn)會和其他的數(shù)據(jù)節(jié)點(diǎn)進(jìn)行通信，復(fù)制數(shù)據(jù)塊，

18、保證數(shù)據(jù)的冗余性.數(shù)據(jù)節(jié)點(diǎn)作為從節(jié)點(diǎn)，會不斷地向名字節(jié)點(diǎn)報告，初始化時，每個數(shù)據(jù)節(jié) 點(diǎn)將當(dāng)前存儲的數(shù)據(jù)塊告知名字節(jié)點(diǎn),后續(xù)數(shù)據(jù)節(jié)點(diǎn)工作過程中，數(shù)據(jù)節(jié) 點(diǎn)仍然不斷的更新名字節(jié)點(diǎn)，為之通過本地修改的相關(guān)信息，并接受來自名字節(jié)點(diǎn)的指令，創(chuàng)建移動或者刪除本地磁盤上的數(shù)據(jù)塊。6o 2 MapReduceMapReduce是一種分布式計算模型，由Google提出，主要用于搜索領(lǐng) 域,解決海量數(shù)據(jù)的計算問題。MR由兩個階段組成:Map和Reduce,用戶只需要實現(xiàn)觀p（）和reduce 0兩個函數(shù)，即可實現(xiàn)分布式計算，非常簡單。這兩個函數(shù)的形參是key、value對，表示函數(shù)的輸入信息。151 o m

19、ap任務(wù)處理1）讀取輸入文件內(nèi)容，解析成key、value對。對輸入文件的每一行，解析成key、value對。每一個鍵值對調(diào)用一次map函數(shù)。2）寫自己的邏輯，對輸入的key、value處理，轉(zhuǎn)換成新的key、value輸出.3）對輸出的key、value進(jìn)行分區(qū)。4）對不同分區(qū)的數(shù)據(jù)，按照key進(jìn)行排序、分組。相同key的value放到 -個集合中.5）（可選）分組后的數(shù)據(jù)進(jìn)行歸約。2Oreduce任務(wù)處理1）對多個map任務(wù)的輸出，按照不同的分區(qū)，通過網(wǎng)絡(luò)copy到不同的reduce節(jié)點(diǎn).2）對多個map任務(wù)的輸出進(jìn)行合并、排序.寫reduce函數(shù)自己的邏輯，對輸入的key、v

20、alue處理，轉(zhuǎn)換成新的key、value輸出。3）把reduce的輸出保存到文件中。16第七章基于MapReduce的APr i or i算法實現(xiàn)A-Priori算法，通過對數(shù)據(jù)庫的多趟掃描來發(fā)現(xiàn) 所有的頻繁項集，在海量數(shù)據(jù)的條件下，對數(shù)據(jù)庫的掃描將會耗費(fèi)大量的時間和內(nèi)存。本文充分利用云計算提供的分布式并行計算功能，對A-priori算法加以改進(jìn)，得到新的適用于云計算的頻繁項集挖掘方法，該方法使查找Lk和L k+ 1的過程獨(dú)立，能夠提高海量數(shù)據(jù)挖掘的效率。新方法的基本思想如下：（D把數(shù)據(jù)庫分成規(guī)模相當(dāng)?shù)腗個數(shù)據(jù)子集，把數(shù)據(jù)子集發(fā)送到M個站點(diǎn);(2)每個站點(diǎn)掃描它的數(shù)據(jù)子集，產(chǎn)生一個局

21、部的候選k項集的集合，記作Cpk ,每個候選項集的支持度計數(shù)為1;(3)利用hash函數(shù)把M個站點(diǎn)的Cpk中相同的項集和它的支持度計數(shù)發(fā)送到R個站點(diǎn)；(4)R個站點(diǎn)中的每個站點(diǎn)把相同項集的計數(shù)累加起來，產(chǎn)生最后的實際支持度，與最小支持度計數(shù)min_sup比較，確定局部頻繁k項集的集合L(5)把R個站點(diǎn)的輸出合并即產(chǎn)生全局頻繁k項集的集合L k o附錄一：package com .cars;17import java util. *;pub Iic class Apr ior i (private doubIe minsup二3； /最小支持度private doubIe minconf

22、二0。2； /最小置信度/注意使用IdentityHashMap,否則由于關(guān)聯(lián)規(guī)則產(chǎn)生存在鍵值相同的會出現(xiàn)覆蓋private IdemtityHashMap ruleMap二new IdentityHashMap ();private String transSet二(nMONKEY” , DONKEY”， ” MAKE”， “MUCKY”.，C0KIEn ;/事務(wù)集/可以根據(jù)需要從構(gòu)造函數(shù)里傳入private int itemCounts = 0;/候選1項目集大小，即字母的個數(shù)private TreeSet frequencySet二new TreeSet 40； / 頻繁項集數(shù)組，0:代

23、表1頻繁集。.，TreeSet ()使用元素的自然順序?qū)υ剡M(jìn)行排序private TreeSet maxFrequency二new TreeSet ()； / 最大頻繁集pr ivate TreeSet cand idate二new TreeSet ()；private TreeSet candidateSet = new TreeSet 40； / 候選集數(shù)組0：代表1候選集pr ivate int frequencyIndex；pub Iic Apr ior i ()maxFrequency二new TreeSet ();itemCounts = counts() ； /初始化1候選集的

24、大小6個/初始化其他兩個for (irrt i二0; iitemCounts； i+) 18frequencySet i二new TreeSet ();/初始化頻繁項集數(shù)組candidateSeti 二new TreeSet () ；/初始化候選集數(shù)組candidateSet0 = candidate； / 1候選集主函數(shù)入口pub Iic static void main (String args) Apr ior i ap二new Apr ior i ()； aporun ()；方法運(yùn)行public void run ()int k二1:/求1頻繁集，保存到frequencySet 0中i

25、tem1_gen()；do k+；cand itate_gen (k);frequent_gen (k)； while (! is_frequent_empty (k);frequency Index二k 1；pr i nt_canditate ()；maxfrequent_gen ()；pr i maxfrequent ()；19ruI eGen ()；ru I ePr i nt ();記錄每個事務(wù)中的元素出現(xiàn)次數(shù)public doubIe count_sup (Str ing x) int temp二0;for (int i二0； itransSet。I ength； i+)for (ir

26、rt j = 0； j = 3) frequencySet 0. add (tempi) ； /1頻繁集加入頻繁項集數(shù)組，自動出去重復(fù)的集合/求K候選集pub Iic void canditate_gen (int k) C 丄 _ii II_ n ii_MString y -. z - m -；char c1 , c2 ；/這里減去2是因為需要對頻繁項個數(shù)是k1個頻繁項的頻繁項集進(jìn)行便利It era tor t emp1二f requencySe tk - 2。it era tor() ;/ it era tor迭代器，用于數(shù)組遍歷Iterator temp2 = frequencySe

27、t0. iterator ();/遍歷頻繁項集數(shù)組，0：代表1頻繁集TreeSet h二new TreeSet 0;while (tempiohasNext ()y二(Str i ng) tempi. next () ;/c1二yocharAt (y. length。一1);/返回指定yolength () 1(數(shù)組的最后一個)的char值while (temp2ohasNext0) 22z二(String) temp2.next ()；c2二Zo charAt (0) ； /c2二a, b, c, d,etf/頻繁集已經(jīng)排序，所以不會出現(xiàn)重復(fù)的情況if (c1 二c2)continue；e

28、lse m = y + z;/m為字符串組合空ho add(m);/m加入TreeSettemp2二frequencySet0。iterator ();candidateSet k - 1二h;/ k候選集二k頻繁集pub Iic void frequent_gen(int k)String s1二汀”；Iterator ix二candidateSet k 1 . iterator() ;/遍歷K候選集ix while (i Xo hasNext0 )s1 = (Str i ng) i x. next () ;/i x中的值s1if (count_sup (s1)二(3) )/s1項集支持度大

29、于最小支持度23frequencySet k 1。add(s1) ； /s1加入K頻繁集中判斷頻繁集為空public boolean isfrequent_empty(int k)(if (frequencySet k 1 isEmpty()return true；elsereturn false;打印候選集頻繁集pub Iic void pr i nt_cand itate ()for (int i二0； i frequencySet 0osizeO ; i+)Iterator i x二cand idateSet i。iterator ();Iterator iy = frequencySe

30、t i iterator ()；System.outoprint(候選集+ (i + 1)+：”)；while (ixo hasNext () )Sys tem. outopr i nt ( (S tri ng) ix。next() + ”t);Systemooutopr i nt (n +頻繁集+(i + 1)+:”)；24while (iy. hasNext () System。out.pr int ( (Str ing) iy。next() +nt”)；System。out。pr i ntln()；/求關(guān)聯(lián)項集合pub Iic void maxfrequent_gen()intfor (i=1; i frequency Index；i+)maxFrequency。addAII (frequencySeti);/打印頻繁項集pub Iic void pr i maxfrequent() Iterator iterator二maxFrequency. iterator ();System.outoprint(n頻繁項集：);whi

人人文庫> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

(精校版)頻繁項集報告

文檔簡介

溫馨提示

最新文檔

評論

(精校版)頻繁項集報告

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔