(精校版)頻繁項集報告_第1頁
(精校版)頻繁項集報告_第2頁
免費(fèi)預(yù)覽已結(jié)束,剩余26頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、(完整 word 版)頻繁項集報告編輯整理:尊敬的讀者朋友們:這里是精品文檔編輯中心,本文檔內(nèi)容是由我和我的同事精心編輯整理后發(fā)布的,發(fā)布之前我們對 文中內(nèi)容進(jìn)行仔細(xì)校對,但是難免會有疏漏的地方,但是任然希望(完整word版)頻繁項集報告) 的內(nèi)容能夠給您的工作和學(xué)習(xí)帶來便利。同時也真誠的希望收到您的建議和反饋,這將是我們進(jìn)步 的源泉,前進(jìn)的動力。本文可編輯可修改,如果覺得對您有幫助請收藏以便隨時查閱,最后祝您生活愉快業(yè)績進(jìn)步,以下為(完整word版)頻繁項集報告的全部內(nèi)容。1目錄第一章緒論. 2lo研究背景和意義.21 2 本文主要內(nèi)容. 3第二章頻繁項集. 42o 2 頻繁項集概述.42.

2、2 頻繁項集名詞解析.42.3 頻繁項集分析指標(biāo).4第三章 A Priori 算法.53.1 概述. 53.2 Apriori 核心算法過程.6第四章 PCY 算法.8第五章 A-Priori 算法的 java 實現(xiàn).9第六章 Hadoop 核心. 116o 1 HDFS.116o lo1 HDFS 概述.116o lo2 NameNode 和 SecondNameNode.126.2 MapReduce. 14第七章 基于 MapReduce 的 A 一 Priori 算法實現(xiàn)1521o1研究背景和意義購物籃模型的最早應(yīng)用源于真實購物籃的分析,也就是說,超時和連 鎖商店都會記錄每個結(jié)賬的購物

3、籃的內(nèi)容、這里的“項”指的是商店出售 的不同商店,而“購物籃”指的是單個購物籃中所裝的項集,通過發(fā)現(xiàn)頻 繁項集,零售商可以知道哪些商品通常會被顧客購買,那些共同購買的頻 度遠(yuǎn)高于各自獨(dú)立購買所預(yù)期的頻度的項對或項集。頻繁項集分析的應(yīng)用并不僅限于購物籃數(shù)據(jù),同樣的模型可以用于挖掘很 多其他類型的數(shù)據(jù)。例如:(1)關(guān)聯(lián)概念這里的項是詞,購物籃是文檔文檔中的所有詞就構(gòu)成 了對應(yīng)購物籃中的項,如果要尋找多篇文章中共同出現(xiàn)的詞匯集合,那么 這些集合大都被高頻常見詞所占據(jù),比如,我們想要尋找貓和狗的網(wǎng)頁摘 要,但是停用詞and和卻占據(jù)了頻繁項集中的主要比例,如果忽的一部分詞對.(2)文檔抄襲這里的項是文檔

4、,購物籃是句子。一篇文檔中,如果包 含某個句子,則任務(wù)該句子對應(yīng)的購物籃中包含文檔對應(yīng)的項。本應(yīng)用中, 尋找那些在多個購物籃中共同出現(xiàn)的項對,如果發(fā)現(xiàn)這項的項對,也就是 兩篇文檔有很多第一章緒論那么我們希望在高頻次對中發(fā)現(xiàn)某些能夠代表聯(lián)合概念所有的停用詞,3相同的句子,實際當(dāng)中,設(shè)置一到兩個句子相同都是抄襲 發(fā)生的有力證據(jù)。(3)生態(tài)標(biāo)志物這里的項包括兩種類型,一種是諸如基金或血蛋白 之類的生物標(biāo)志物,另一類是痢疾,而購物籃是某個病人的數(shù)據(jù)集,包括 他的基因組合血生化分析數(shù)據(jù),以及他的病史信息。頻繁項集有某個疾病 和一個或多個生物標(biāo)志物構(gòu)成,它們組合在一起給出的疾病是一個檢測建 議。1 2本文

5、主要內(nèi)容本文對頻繁項集的基本概念分析指標(biāo)進(jìn)行了解釋說明,詳細(xì)介紹了頻 繁項集中的A-Pr ior i算法,PCY算法,并通過JAVA對APriori算法進(jìn) 行了實現(xiàn)?,F(xiàn)在正處于大數(shù)據(jù)時代,候選項,頻繁項等數(shù)以百萬計,目前 的單個計算機(jī)來計算頻繁項集耗費(fèi)時間較大,故在文章的最后引入的Hadoop的HDFS和MapReduce技術(shù),對APr i or i進(jìn)行了分布式的實現(xiàn),大 大的減少的計算時間。4第二章頻繁項集2o 1頻繁項集概述頻繁項集最經(jīng)典和常用的應(yīng)用就是超市的購物籃分析.每個購物籃里 有很多商品,每個商品都是一項元素,每個購物籃都是一個集合,所有購 物籃就形成了一個系列集合。分析哪些商品經(jīng)

6、常一起頻繁出現(xiàn)在購物籃內(nèi),即找到頻繁項集,然后, 再分析其他商品與頻繁項集的關(guān)系,即關(guān)聯(lián)規(guī)則.2 2頻繁項集名詞解析頻繁項:在多個集合中,頻繁出現(xiàn)的元素/項,就是頻繁項頻繁項集:有一系列集合,這些集合有些相同的元素,集合中同時出現(xiàn) 頻率高的元素形成一個子集,滿足一定閾值條件,就是頻繁項集.極大頻繁項集:元素個數(shù)最多的頻繁項集合,即其任何超集都是非頻 繁項集。k項集:k項元素組成的一個集合2o 3頻繁項集分析指標(biāo)支持度:包含頻繁項集F的集合的數(shù)目??尚哦龋侯l繁項F與某項j的并集(即FU j)的支持度與頻 繁項集F的支持度的比值.興趣度:F U j 可信度與包含j的集合比率之間的差值。5若興趣度很

7、高,則 頻繁項集F會促進(jìn)j的存在,若興趣度為負(fù)值,且頻繁 項集會抑制j的存在;若興趣度為0,則頻繁項集對j無太大影響。第三章A-Priori算法3.1概述目前暫時只集中關(guān)注頻繁項對的發(fā)現(xiàn)。假如我們都有足夠的內(nèi)存用于所有項對計數(shù),那么通過單便掃描讀取購物籃文件就很簡單對于每個購6未用1 - A一priori算法的第一遍掃描物籃,我們使用一個雙重循環(huán)就可以生成所有的項對,沒生成一個相對,就給對應(yīng)的計數(shù)器加一,最后檢查所有項對的技術(shù)結(jié)果并找出那些超過支 持度閥值S的項對,這就是頻繁項對。然而,當(dāng)項對的數(shù)目太多而無法再內(nèi)存中對所有的項對技術(shù)時,上述的 方法就不行了,A-Priori算法被設(shè)計成能夠減少

8、必須計數(shù)的項對數(shù)目,代 價是要對數(shù)據(jù)做兩便遍而不是一遍掃描。Apr i or i算法是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項集的算法。 其核心是基于兩階段頻集思想的遞推算法。該關(guān)聯(lián)規(guī)則在分類上屬于單 維、單層、布爾關(guān)聯(lián)規(guī)則。在這里,所有支持度大于最小支持度的項集稱 為頻繁項集,簡稱頻集。3o 2 Apr ior i核心算法過程12n12n7第一次掃描中,要建立兩張表。如有必要,第一章表要將項的名稱轉(zhuǎn) 換為1到n之間的整數(shù),另一張表則是一個計數(shù)數(shù)組,第i個數(shù)組元素是 上述第i個項的出現(xiàn)次數(shù).這些項的計數(shù)值的初始值是0。在讀購物籃時,檢查購物籃中的每個項并將其名稱轉(zhuǎn)換為一個整數(shù),然 后,將剛整數(shù)作為

9、計數(shù)數(shù)組的下表找到對應(yīng)的數(shù)組元素,最后對該數(shù)組加12. A-Priori算法兩遍掃描之間的處理第一遍掃描之后,檢查所有項的計數(shù)值,以確定哪些項構(gòu)成單元素頻 繁項集,對于A-Priori算法的第二遍掃描,只給頻繁項重新編號,編號的 范圍是1到m,此時的表格是一個下表為1到n的數(shù)組,如果第i項不頻 繁,則對于的第i個數(shù)組元素為0。否則為1到ni之間的一個唯一整數(shù)。3. A一Priori算法的第二遍掃描第二遍掃描中,對兩個頻繁項組成的所有項對計數(shù)。除非一個相對中 的兩個項都頻繁,否則這個項對也不可能是頻繁的。第二遍掃描的技術(shù)細(xì) 節(jié)包括,對每個購物籃,在頻繁項集表中檢查哪些項是頻繁的,通過一個 雙重循

10、環(huán)生成所有的頻繁項對,對每個頻繁項對,在存儲計數(shù)值的數(shù)據(jù)結(jié) 構(gòu)中對應(yīng)的計數(shù)值加1.最后,在第二遍掃描結(jié)束時,檢查計數(shù)值結(jié)構(gòu)以確定哪些項對是頻繁項對。8第四章PCY算法第一次掃描結(jié)束后,每個桶中都有一個計數(shù)值,記錄所有哈希到該桶 中的項對的數(shù)目值和。如果某個桶中的計數(shù)值不低于支持度閥值S,那么該 桶稱為頻繁桶,對于哈希到某個頻繁桶中的項對,可以假設(shè)其為頻繁項對, 但是如果某個桶中的計數(shù)值小于S,那么可以確定哈希到該桶內(nèi)的項對都 是不頻繁的,即使它由兩個頻繁項構(gòu)成,這個事實對第二遍掃描很有幫助。PCY兩次掃描之間,哈希表被概括表示成一個位圖,其中每一位表示一個桶。位為1表示對于的桶是頻繁的,而0表

11、示不頻繁。因此每32位 表示的整數(shù)替換成1位。如果大部分桶都不頻繁,那么可以預(yù)期第二遍掃 描中所要計算的項對數(shù)目會遠(yuǎn)小于所以頻繁項組成的項對數(shù)目。所以,在 第二遍掃描中,PCY22 n未用12 n位圖第二選掃福9可以在處理某些數(shù)據(jù)集時避免內(nèi)存抖動.10第五章A-Priori算法的java實現(xiàn)具體代碼見附錄下面是一個實例分析以及在JAVA程序中的測試結(jié)果加入存在5個購物籃,購物籃的內(nèi)容如下所示,支持度為3.TID購買的商品1100M, 0, N, K, E, Y1200D, 0, N, K E, 1300H,A, K,E1400, U, C, K, Y1500G0,KJ,E下面是APriori的

12、分析過程下面是對該實例在JAVA中運(yùn)行結(jié)果顯示惑A1C2D1E4I1K5M3N203u1Y3ci侯選集比較支持度項集支捋度iiikE4K5M303Y3L1頻繁 項集產(chǎn)生C2慈E,K4E.M9E,03E,Y2K,M3K,03K,Y31山Y(jié)90,Y2C2候選集頂集E,K4E,03K,M3K,03K,Y3L2傾緊2-頂塊il算.支持度產(chǎn)生C3支鄉(xiāng)哎計裁E,K,03L3煩驚3-頂集計舜支持度茨奐力待度計建E, K,03K, M, 01C3候選集11Problem G Javadoc Oedoration空Oixlir O Ccnx?k S3色SVN WSJt, Spring Explorer幫Debu

13、g C* Variablow尿5ervRJuCDeIKHH0UKH0Y候迭築2忌6HE0CYKHKOKYHOMYOY朋集2:AC(0KHKOKY保酸3:EKM沁執(zhí)EKOY慣昨:閩第:EKOEKYEOYKHOKMYKOY贈耒5:頡幣項隼:EKEKOroKHKOKY Apnori para Application) C:Prograni FilesJavadkL7.0_67bintfvjv/.exe (2015-12-16上K:52;52jKOOYKOOYEOEOKOMKKEKOMKKE鶯OEEKOEEKXEXE 換器豔Il;ll;Il;ll;服器12第六章Hadoop核心6o 1 HDFSHad

14、oop分布式文件系統(tǒng)(HDFS )被設(shè)計成適合運(yùn)行在通用硬件(commodity hardware)上的分布式文件系統(tǒng).6o 1.1 HDFS概述HDFS:分布式文件系統(tǒng),海量數(shù)據(jù)的存儲。高容錯,可以部署在廉價 的機(jī)器上,提供高吞吐量的數(shù)據(jù)訪問,適合那些需要處理海量數(shù)據(jù)集的應(yīng) 用程序。支持以流的形式訪問文件系統(tǒng)中的數(shù)據(jù).HDFS主要特性:支持超大文件;檢測和快速應(yīng)對硬件故障;流式數(shù)據(jù)訪問;簡化的一致性模型;不適用下面特性:低延遲數(shù)據(jù)訪問;大量小文件;多用戶寫入文件,修改文件;HDFS Architecture13名字節(jié)點(diǎn)是分布式系統(tǒng)的管理者,負(fù)責(zé)管理文件系統(tǒng)命名空間,集 群配置和數(shù)據(jù)塊復(fù)制;數(shù)

15、據(jù)節(jié)點(diǎn)是文件存儲的基本單元,以數(shù)據(jù)塊的形式 保存了HDFS中文件的內(nèi)容和數(shù)據(jù)塊的數(shù)據(jù)校驗信息;數(shù)據(jù)塊:塊的大小代 表著系統(tǒng)讀寫操作的最小單位。對于用戶來說是透明的。6O1.2 NameNode和SecondNameNodeNameNode是HDFS主從結(jié)構(gòu)中主節(jié)點(diǎn)上運(yùn)行的主要進(jìn)程, 指導(dǎo)主從結(jié) 構(gòu)中的從節(jié)點(diǎn),數(shù)據(jù)節(jié)點(diǎn)執(zhí)行底層的I0任務(wù)。NameNode維護(hù)這整個文件系統(tǒng)的目錄樹,文件/目錄的元信息和文件 的數(shù)據(jù)塊索引,即每個文件的數(shù)據(jù)塊列表。這些信息以兩種形式存儲在本 地文件系統(tǒng)中,一種是命名空間鏡像(File System Image文件系統(tǒng)鏡像), 另一種是命名空間鏡像的編輯日志(Edit

16、 log)命名空間鏡像保存著某一時刻的目錄樹,元信息和數(shù)據(jù)庫索引等信息,后 續(xù)對這些信息的修改,保存在編輯日志中。通過NameNode,客戶端可以了解到數(shù)據(jù)塊所在的數(shù)據(jù)節(jié)點(diǎn)信息。這些信息 不保存在上面所述的文件系統(tǒng)中,NameNode每次啟動,都會動態(tài)的重建這 些信息,這些14信息構(gòu)成了名字節(jié)點(diǎn)的第二類關(guān)系.運(yùn)行時客戶端通過名 字節(jié)點(diǎn)獲得上述信息,然后和數(shù)據(jù)節(jié)點(diǎn)進(jìn)行數(shù)據(jù)交互,讀寫文件。名字 節(jié)點(diǎn)還能夠獲取HDFS整體運(yùn)行狀態(tài)的一些信息,如系統(tǒng)的可用空間,已 經(jīng)使用的空間,各數(shù)據(jù)節(jié)點(diǎn)的當(dāng)前狀態(tài)。第二名字節(jié)點(diǎn)用于定期合并命名空間鏡像和鏡像編輯日志。 每個集群 都有一個第二名字節(jié)點(diǎn), 在大規(guī)模的部署

17、條件下, 一般第二名字節(jié)點(diǎn)也獨(dú) 占一臺服務(wù)器。第二名字節(jié)點(diǎn)和名字節(jié)點(diǎn)的區(qū)別是它不接收和記錄HDFS的任何實時 變化,只是根據(jù)集群配置的時間間隔,不停的獲取HDFS某一個時間點(diǎn)的命 名空間鏡像和鏡像 的編輯日志,合并成一個新的命名空間鏡像,這個新 的命名空間鏡像就會上傳到名字節(jié)點(diǎn),替換原來的命名空間鏡像,并情況 編輯日志。在數(shù)據(jù)節(jié)點(diǎn)上,HDFS的數(shù)據(jù)塊,以linux文件系統(tǒng)上的普通文件進(jìn)行 保存??蛻舳诉M(jìn)行文件操作時,先由名字節(jié)點(diǎn)告知客戶端每個數(shù)據(jù)塊駐留 在哪個數(shù)據(jù)節(jié)點(diǎn),然后客戶端直接與數(shù)據(jù)節(jié)點(diǎn)守護(hù)進(jìn)程進(jìn)行通信,處理 與數(shù)據(jù)塊對應(yīng)的本地文件,同時數(shù)據(jù)節(jié)點(diǎn)會和其他的數(shù)據(jù)節(jié)點(diǎn)進(jìn)行通信, 復(fù)制數(shù)據(jù)塊,

18、保證數(shù)據(jù)的冗余性.數(shù)據(jù)節(jié)點(diǎn)作為從節(jié)點(diǎn),會不斷地向名字節(jié)點(diǎn)報告,初始化時,每個數(shù)據(jù)節(jié) 點(diǎn)將當(dāng)前存儲的數(shù)據(jù)塊告知名字節(jié)點(diǎn),后續(xù)數(shù)據(jù)節(jié)點(diǎn)工作過程中,數(shù)據(jù)節(jié) 點(diǎn)仍然不斷的更新名字節(jié)點(diǎn),為之通過本地修改的相關(guān)信息,并接受來 自名字節(jié)點(diǎn)的指令,創(chuàng)建移動或者刪除本地磁盤上的數(shù)據(jù)塊。6o 2 MapReduceMapReduce是一種分布式計算模型,由Google提出,主要用于搜索領(lǐng) 域,解決海量數(shù)據(jù)的計算問題。MR由兩個階段組成:Map和Reduce,用戶 只需要實現(xiàn)觀p()和reduce 0兩個函數(shù),即可實現(xiàn)分布式計算,非常 簡單。這兩個函數(shù)的形參是key、value對,表示函數(shù)的輸入信息。151 o m

19、ap任務(wù)處理1)讀取輸入文件內(nèi)容, 解析成key、value對。 對輸入文件的每一行, 解 析成key、value對。每一個鍵值對調(diào)用一次map函數(shù)。2)寫自己的邏輯,對輸入的key、value處理,轉(zhuǎn)換成新的key、value輸 出.3)對輸出的key、value進(jìn)行分區(qū)。4)對不同分區(qū)的數(shù)據(jù),按照key進(jìn)行排序、分組。相同key的value放到 -個集合中.5)(可選)分組后的數(shù)據(jù)進(jìn)行歸約。2Oreduce任務(wù)處理1)對多個map任務(wù)的輸出,按照不同的分區(qū),通過網(wǎng)絡(luò)copy到不同的reduce節(jié)點(diǎn).2)對多個map任務(wù)的輸出進(jìn)行合并、排序.寫reduce函數(shù)自己的邏輯,對 輸入的key、v

20、alue處理,轉(zhuǎn)換成新的key、value輸出。3)把reduce的輸出保存到文件中。16第七章 基于MapReduce的APr i or i算法實現(xiàn)A-Priori算法,通過對數(shù)據(jù)庫的多趟掃描來發(fā)現(xiàn) 所有的頻繁項 集,在海量數(shù)據(jù)的條件下,對數(shù)據(jù)庫的掃描將會耗費(fèi)大量的時間和內(nèi)存。 本文充分利用云計算提供的分布式并行計算功能,對A-priori算法加以 改進(jìn),得到新的適用于云計算的頻繁項集挖掘方法,該方法使查找Lk和L k+ 1的過程獨(dú)立,能夠提高海量數(shù)據(jù)挖掘的效率。新方法的基本思想如下:(D把數(shù)據(jù)庫分成規(guī)模相當(dāng)?shù)腗個數(shù)據(jù)子集,把數(shù)據(jù)子集發(fā)送到M個站點(diǎn);(2)每個站點(diǎn)掃描它的數(shù)據(jù)子集,產(chǎn)生一個局

21、部的候選k項集的集 合,記作Cpk ,每個候選項集的支持度計數(shù)為1;(3)利用hash函數(shù)把M個站點(diǎn)的Cpk中相同的項集和它的支持度 計數(shù)發(fā)送到R個站點(diǎn);(4)R個站點(diǎn)中的每個站點(diǎn)把相同項集的計數(shù)累加起來,產(chǎn)生最 后的實際支持度,與最小支持度計數(shù)min_sup比較,確定局部頻繁k項 集的集合L(5)把R個站點(diǎn)的輸出合并即產(chǎn)生全局頻繁k項集的集合L k o附錄一:package com .cars;17import java util. *;pub Iic class Apr ior i (private doubIe minsup二3; /最小支持度private doubIe minconf

22、二0。2; /最小置信度/注意使用IdentityHashMap,否則由于關(guān)聯(lián)規(guī)則產(chǎn)生存在鍵值相同的會出現(xiàn)覆蓋private IdemtityHashMap ruleMap二new IdentityHashMap ();private String transSet二(nMONKEY” , DONKEY”, ” MAKE”, “MUCKY”.,C0KIEn ;/事務(wù)集/可以根據(jù)需要從構(gòu)造函數(shù)里傳入private int itemCounts = 0;/候選1項目集大小,即字母的個數(shù)private TreeSet frequencySet二new TreeSet 40; / 頻繁項集數(shù)組,0:代

23、表1頻繁集。.,TreeSet ()使用元素的自然順序?qū)υ剡M(jìn)行排序private TreeSet maxFrequency二new TreeSet (); / 最大頻繁集pr ivate TreeSet cand idate二new TreeSet ();private TreeSet candidateSet = new TreeSet 40; / 候選集數(shù)組0:代表1候選集pr ivate int frequencyIndex;pub Iic Apr ior i ()maxFrequency二new TreeSet ();itemCounts = counts() ; /初始化1候選集的

24、大小6個/初始化其他兩個for (irrt i二0; iitemCounts; i+) 18frequencySet i二new TreeSet ();/初始化頻繁項集數(shù)組candidateSeti 二new TreeSet () ;/初始化候選集數(shù)組candidateSet0 = candidate; / 1候選集主函數(shù)入口pub Iic static void main (String args) Apr ior i ap二new Apr ior i (); aporun ();方法運(yùn)行public void run ()int k二1:/求1頻繁集,保存到frequencySet 0中i

25、tem1_gen();do k+;cand itate_gen (k);frequent_gen (k); while (! is_frequent_empty (k);frequency Index二k 1;pr i nt_canditate ();maxfrequent_gen ();pr i maxfrequent ();19ruI eGen ();ru I ePr i nt ();記錄每個事務(wù)中的元素出現(xiàn)次數(shù)public doubIe count_sup (Str ing x) int temp二0;for (int i二0; itransSet。I ength; i+)for (ir

26、rt j = 0; j = 3) frequencySet 0. add (tempi) ; /1頻繁集加入頻繁項集數(shù)組,自動出去重 復(fù)的集合/求K候選集pub Iic void canditate_gen (int k) C 丄 _ii II_ n ii_MString y -. z - m -;char c1 , c2 ;/這里減去2是因為需要對頻繁項個數(shù)是k1個頻繁項的頻繁項集進(jìn)行便利It era tor t emp1二f requencySe tk - 2。it era tor() ;/ it era tor迭代器,用于 數(shù)組遍歷Iterator temp2 = frequencySe

27、t0. iterator ();/遍歷頻繁項集數(shù)組,0:代 表1頻繁集TreeSet h二new TreeSet 0;while (tempiohasNext ()y二(Str i ng) tempi. next () ;/c1二yocharAt (y. length。一1);/返回指定yolength () 1(數(shù)組的最后一個)的char值while (temp2ohasNext0) 22z二(String) temp2.next ();c2二Zo charAt (0) ; /c2二a, b, c, d,etf/頻繁集已經(jīng)排序,所以不會出現(xiàn)重復(fù)的情況if (c1 二c2)continue;e

28、lse m = y + z;/m為字符串組合空ho add(m);/m加入TreeSettemp2二frequencySet0。iterator ();candidateSet k - 1二h;/ k候選集二k頻繁集pub Iic void frequent_gen(int k)String s1二汀”;Iterator ix二candidateSet k 1 . iterator() ;/遍歷K候選集ix while (i Xo hasNext0 )s1 = (Str i ng) i x. next () ;/i x中的值s1if (count_sup (s1)二(3) )/s1項集支持度大

29、于最小支持度23frequencySet k 1。add(s1) ; /s1加入K頻繁集中判斷頻繁集為空public boolean isfrequent_empty(int k)(if (frequencySet k 1 isEmpty()return true;elsereturn false;打印候選集頻繁集pub Iic void pr i nt_cand itate ()for (int i二0; i frequencySet 0osizeO ; i+)Iterator i x二cand idateSet i。iterator ();Iterator iy = frequencySe

30、t i iterator ();System.outoprint(候選集+ (i + 1)+:”);while (ixo hasNext () )Sys tem. outopr i nt ( (S tri ng) ix。next() + ”t);Systemooutopr i nt (n +頻繁集+(i + 1)+:”);24while (iy. hasNext () System。out.pr int ( (Str ing) iy。next() +nt”);System。out。pr i ntln();/求關(guān)聯(lián)項集合pub Iic void maxfrequent_gen()intfor (i=1; i frequency Index;i+)maxFrequency。addAII (frequencySeti);/打印頻繁項集pub Iic void pr i maxfrequent() Iterator iterator二maxFrequency. iterator ();System.outoprint(n頻繁項集:);whi

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論