關(guān)聯(lián)分析方法_第1頁
關(guān)聯(lián)分析方法_第2頁
關(guān)聯(lián)分析方法_第3頁
關(guān)聯(lián)分析方法_第4頁
關(guān)聯(lián)分析方法_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

深圳大學(xué)研究生課程論文題目對關(guān)聯(lián)分析方法的學(xué)習(xí)報(bào)告 成績 專業(yè)軟件工程(春)課程名稱、代碼數(shù)據(jù)庫與數(shù)據(jù)挖掘 142201013021年級 2013 姓名 劉璐 學(xué)號20134313008時(shí)間2014年11月任課教師 1關(guān)聯(lián)分析方法及其應(yīng)用綜述1。1關(guān)聯(lián)分析概念關(guān)聯(lián)分析是一種簡單、實(shí)用的分析技術(shù),就是發(fā)現(xiàn)存在于大量數(shù)據(jù)集中的關(guān)聯(lián)性或相關(guān)性,從而描述了一個(gè)事物中某些屬性同時(shí)出現(xiàn)的規(guī)律和模式.關(guān)聯(lián)分析是從大量數(shù)據(jù)中發(fā)現(xiàn)項(xiàng)集之間有趣的關(guān)聯(lián)和相關(guān)聯(lián)系。關(guān)聯(lián)分析的一個(gè)典型例子是購物籃分析.該過程通過發(fā)現(xiàn)顧客放人其購物籃中的不同商品之間的聯(lián)系,分析顧客的購買習(xí)慣。通過了解哪些商品頻繁地被顧客同時(shí)購買,這種關(guān)聯(lián)的發(fā)現(xiàn)可以幫助零售商制定營銷策略。其他的應(yīng)用還包括價(jià)目表設(shè)計(jì)、商品促銷、商品的排放和基于購買模式的顧客劃分??蓮臄?shù)據(jù)庫中關(guān)聯(lián)分析出形如“由于某些事件的發(fā)生而引起另外一些事件的發(fā)生”之類的規(guī)則。如“67%的顧客在購買啤酒的同時(shí)也會購買尿布”,因此通過合理的啤酒和尿布的貨架擺放或捆綁銷售可提高超市的服務(wù)質(zhì)量和效益。又如“'C語言’課程優(yōu)秀的同學(xué),在學(xué)習(xí)'數(shù)據(jù)結(jié)構(gòu)’時(shí)為優(yōu)秀的可能性達(dá)88%”,那么就可以通過強(qiáng)化“C語言〃的學(xué)習(xí)來提高教學(xué)效果。世間萬物的事情發(fā)生多多少少會有一些關(guān)聯(lián)。一件事情的發(fā)生,很可能是也會引起另外一件事情的發(fā)生?;蛘哒f,這兩件事情很多時(shí)候很大程度上會一起發(fā)生的。那么人們通過發(fā)現(xiàn)這個(gè)關(guān)聯(lián)的規(guī)則,可以由一件事情的發(fā)生來,來推測另外一件事情的發(fā)生,從而更好地了解和掌握事物的發(fā)展,動向等等.這就是數(shù)據(jù)挖掘中,尋找關(guān)聯(lián)規(guī)則的基本意義。數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)規(guī)則挖掘是通過計(jì)算機(jī)自動從一大對真實(shí)數(shù)據(jù)中發(fā)現(xiàn)這樣的關(guān)聯(lián)規(guī)則出來。對于計(jì)算機(jī)而言,它需要知道所有的事情發(fā)生情況,并且把相應(yīng)的事情合并成一個(gè)事務(wù),通過對各個(gè)事務(wù)的掃描,來確定事情的關(guān)聯(lián)規(guī)則。1.2關(guān)聯(lián)分析算法簡介Apriori算法[1]是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法。其核心是基于兩階段頻集思想的遞推算法。該關(guān)聯(lián)規(guī)則在分類上屬于單維、單層、布爾關(guān)聯(lián)規(guī)則。在這里,所有支持度大于最小支持度的項(xiàng)集稱為頻繁項(xiàng)集,簡稱頻集.該算法的基本思想是:首先找出所有的頻集,這些項(xiàng)集出現(xiàn)的頻繁性至少和預(yù)定義的最小支持度一樣。然后由頻集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則,這些規(guī)則必須滿足最小支持度和最小可信度.然后使用第1步找到的頻集產(chǎn)生期望的規(guī)則,產(chǎn)生只包含集合的項(xiàng)的所有規(guī)則,其中每一條規(guī)則的右部只有一項(xiàng),這里采用的是中規(guī)則的定義。一旦這些規(guī)則被生成,那么只有那些大于用戶給定的最小可信度的規(guī)則才被留下來。為了生成所有頻集,使用了遞歸的方法。L1=find_frequent_1—itemsets(D);for(k=2;Lk—1工①;k++) {Ck=apriori_gen(Lk-1,min_sup);foreachtransactiontGD{//scanDforcountsCt=subset(Ck,t);//getthesubsetsoftthatarecandidatesforeachcandidatecGCtc。count++;}Lk={cGCk|c.count三min_sup}}returnL=UkLk;可能產(chǎn)生大量的候選集,以及可能需要重復(fù)掃描數(shù)據(jù)庫,是Apriori算法的兩大缺點(diǎn).由于Apriori方法的固有缺陷.即使進(jìn)行了優(yōu)化,其效率也仍然不能令人滿意。2000年,Hanjiawei等人提出了基于頻繁模式樹(FrequentPatternTree,簡稱為FP一tree)的發(fā)現(xiàn)頻繁模式的算法FP-growth。在FP-growth算法中,通過兩次掃描事務(wù)數(shù)據(jù)庫,把每個(gè)事務(wù)所包含的頻繁項(xiàng)目按其支持度降序壓縮存儲到FP—tree中。在以后發(fā)現(xiàn)頻繁模式的過程中,不需要再掃描事務(wù)數(shù)據(jù)庫,而僅在FP一Tree中進(jìn)行查找即可,并通過遞歸調(diào)用FP-growth的方法來直接產(chǎn)生頻繁模式,因此在整個(gè)發(fā)現(xiàn)過程中也不需產(chǎn)生候選模式.該算法克服了Apriori算法中存在的問顥.在執(zhí)行效率上也明顯好于Apriori算法。GRI算法是關(guān)聯(lián)規(guī)則的算法之一,側(cè)重于關(guān)聯(lián)規(guī)則的分析及應(yīng)用,包括如何處理數(shù)值型變量、如何將單一概念層次的關(guān)聯(lián)推廣到多概念層次的關(guān)聯(lián)等,進(jìn)而描述事物的內(nèi)在結(jié)構(gòu)。它采用深度優(yōu)先搜索策略實(shí)現(xiàn)算法,主要用于簡單關(guān)聯(lián)分析,一般表示形式是“XY(規(guī)則支持度S規(guī)則置信度C)”,X稱為規(guī)則的前項(xiàng)(Antecedent)Y稱為規(guī)則的后項(xiàng)(Consequent)[14].C5.0是決策樹的經(jīng)典算法之一,可以根據(jù)PRISM算法自動生成推理規(guī)則集總是以期望類別的最大正確覆蓋率為標(biāo)準(zhǔn),用以實(shí)現(xiàn)數(shù)據(jù)集內(nèi)在的規(guī)律探究和數(shù)據(jù)對象的分類與預(yù)測,一般表示形式為“如果〈條件〉則〈結(jié)論〉……”。1.3關(guān)聯(lián)分析算法應(yīng)用經(jīng)典的關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘算法Apriori算法廣泛應(yīng)用于各種領(lǐng)域,通過對數(shù)據(jù)的關(guān)聯(lián)性進(jìn)行了分析和挖掘,挖掘出的這些信息在決策制定過程中具有重要的參考價(jià)值。Apriori算法廣泛應(yīng)用于商業(yè)中,應(yīng)用于消費(fèi)市場價(jià)格分析中,它能夠很快的求出各種產(chǎn)品之間的價(jià)格關(guān)系和它們之間的影響。通過數(shù)據(jù)挖掘,市場商人可以瞄準(zhǔn)目標(biāo)客戶,采用個(gè)人股票行市、最新信息、特殊的市場推廣活動或其他一些特殊的信息手段,從而極大地減少廣告預(yù)算和增加收入。百貨商場、超市和一些老字型大小的零售店也在進(jìn)行數(shù)據(jù)挖掘,以便猜測這些年來顧客的消費(fèi)習(xí)慣。Apriori算法應(yīng)用于網(wǎng)絡(luò)安全領(lǐng)域,比如時(shí)候入侵檢測技術(shù)中。早期中大型的電腦系統(tǒng)中都收集審計(jì)信息來建立跟蹤檔,這些審計(jì)跟蹤的目的多是為了性能測試或計(jì)費(fèi),因此對攻擊檢測提供的有用信息比較少?它通過模式的學(xué)習(xí)和訓(xùn)練可以發(fā)現(xiàn)網(wǎng)絡(luò)用戶的異常行為模式?采用作用度的Apriori算法削弱了Apriori算法的挖掘結(jié)果規(guī)則,是網(wǎng)絡(luò)入侵檢測系統(tǒng)可以快速的發(fā)現(xiàn)用戶的行為模式,能夠快速的鎖定攻擊者,提高了基于關(guān)聯(lián)規(guī)則的入侵檢測系統(tǒng)的檢測性.Apriori算法應(yīng)用于高校管理中。隨著高校貧困生人數(shù)的不斷增加,學(xué)校管理部門資助工作難度也越加增大。針對這一現(xiàn)象,提出一種基于數(shù)據(jù)挖掘算法的解決方法。將關(guān)聯(lián)規(guī)則的Apriori算法應(yīng)用到貧困助學(xué)體系中,并且針對經(jīng)典Apriori挖掘算法存在的不足進(jìn)行改進(jìn),先將事務(wù)數(shù)據(jù)庫映射為一個(gè)布爾矩陣,用一種逐層遞增的思想來動態(tài)的分配內(nèi)存進(jìn)行存儲,再利用向量求〃與〃運(yùn)算,尋找頻繁項(xiàng)集。實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的Apriori算法在運(yùn)行效率上有了很大的提升,挖掘出的規(guī)則也可以有效地輔助學(xué)校管理部門有針對性的開展貧困助學(xué)工作.Apriori算法被廣泛應(yīng)用于移動通信領(lǐng)域。移動增值業(yè)務(wù)逐漸成為移動通信市場上最有活力、最具潛力、最受矚目的業(yè)務(wù)。隨著產(chǎn)業(yè)的復(fù)蘇,越來越多的增值業(yè)務(wù)表現(xiàn)出強(qiáng)勁的發(fā)展勢頭,呈現(xiàn)出應(yīng)用多元化、營銷品牌化、管理集中化、合作縱深化的特點(diǎn)。針對這種趨勢,在關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘中廣泛應(yīng)用的Apriori算法被很多公司應(yīng)用。依托某電信運(yùn)營商正在建設(shè)的增值業(yè)務(wù)Web數(shù)據(jù)倉庫平臺,對來自移動增值業(yè)務(wù)方面的調(diào)查數(shù)據(jù)進(jìn)行了相關(guān)的挖掘處理,從而獲得了關(guān)于用戶行為特征和需求的間接反映市場動態(tài)的有用信息,這些信息在指導(dǎo)運(yùn)營商的業(yè)務(wù)運(yùn)營和輔助業(yè)務(wù)提供商的決策制定等方面具有十分重要的參考價(jià)值?;贏priori算法的數(shù)據(jù)挖掘應(yīng)用舉例當(dāng)前是列出我們實(shí)驗(yàn)中用到的一個(gè)候選項(xiàng)集:{145},{124}, {457}, {125},{458},{159}, {136},{234}, {567},{345}, {356}, {357},{689},{367}, {368}。首先設(shè)置散列函數(shù),和葉子大小限制。散列函數(shù)葉子大小限制:3根據(jù)以上限制,先根據(jù)首項(xiàng)形成初步的散列樹,見下圖:最列輔最列輔圖:生成候選的散列樹(原始版本)接著根據(jù)第二項(xiàng)形成優(yōu)化后的散列樹,結(jié)果見下圖:散列樹匕437125匕43712517T159367368圖:生成候選的散列樹(中間過程)按照以上過程,按照項(xiàng)的順序,我們可以將樹的分裂做到最后一項(xiàng),最終結(jié)果見下圖:345356367357S63圖:生成候選的散列樹(最終版本)136__1345356367357S63圖:生成候選的散列樹(最終版本)136__1二54582關(guān)聯(lián)分析在clementine中的具體案例實(shí)現(xiàn)2.1基礎(chǔ)數(shù)據(jù)準(zhǔn)備:在clementine中,進(jìn)行關(guān)聯(lián)分析,為了能夠嘗試各種算法,這里我采用第一種模型輸入數(shù)據(jù),建模前需先將數(shù)據(jù)整理成如下格式ID牛奶可樂1YN21■NN2個(gè)字段:客戶編號和產(chǎn)品編號(一個(gè)客戶編號可能有多條產(chǎn)品記錄)步驟如下:1、原始數(shù)據(jù)格式磧表"個(gè)字段,6a3fi6條記錄13文件 褊輯杓生成錘騙導(dǎo)產(chǎn)品12003001...10....22003001...11....32003001...12....42003001...26....52003001...28....62003001...13....2、然后將產(chǎn)品字段轉(zhuǎn)換成名義字段即集字段,clementine里面一個(gè)字段選項(xiàng)按鈕,導(dǎo)出按鈕,其作用是基于現(xiàn)有字段生成新字段導(dǎo)出字段:I變換數(shù)據(jù)格式L.I變換數(shù)據(jù)格式L.-—?導(dǎo)出対:公式▼

字段類型鄉(xiāng)U獣2 :公式:tci_Etr1riq儼品)3、根據(jù)集字段生成新的產(chǎn)品字段,作用就是生成將數(shù)據(jù)轉(zhuǎn)換成關(guān)聯(lián)分析要求的數(shù)據(jù)格式生成的格式:每一行數(shù)據(jù)表示沒一個(gè)用戶購買了哪些產(chǎn)品,1表示購買,0表示沒有4、字段輸入方向選擇為both:?讀取值港除值活除所有值字段裘型值缺失者耆者#者者者若主_hj_hj_hj_hj_hj_hj?hj_hj_h■-^^LI-^^LI-^^LI-^^LI-^^LI—^^LI—^tl-QIHr-rir-rir-Hr-Hr-Hr?rir-Hr無無無無無無無無工_u-U_uoooO1JJJo?標(biāo)志(ys>標(biāo)志.□□oaooa.ooaooo1.000000P_i2.ooaooog標(biāo)志p_13.000000o?標(biāo)志p_U.OOQOOOo?様志o?様志5.000000p_iEi.ooaoooo?標(biāo)志I--.T"7nFl「■FlI~II~I d士:二士亠uq *千+」hmrSiHUujl?rx2。2關(guān)聯(lián)分析建模整個(gè)建模過程如下:這里我選擇的是GRI算法過連 類型 rd宇段過連 類型 rd宇段直看數(shù)據(jù)榕式2。3算法設(shè)置和分析結(jié)果複型名稱:電自動自定殳i.a20.ai.a20.a310a攝丈規(guī)則數(shù):叵使用分區(qū)數(shù)據(jù)璟低躋支持度:攝小規(guī)則置信度③):攝大前項(xiàng)數(shù):叵僅包含標(biāo)志變量的真值后項(xiàng)罰項(xiàng)規(guī)則ID實(shí)例支持度%養(yǎng)信度%規(guī)則支捋%提升部署能力3_5.000000p_3.oaoooo3421920.6423744.9011.27215743_3.000000p_s.oaoooo3119818.6626.264.9011.27313763_33.0000...p_22.0000...fl26.0000...75393.5826.320.9431.6822.6389_24.0000...p_27.aooo...[J3.00000058343.226.470.8481.7782.3533_15.0000...p_3o.aooo...p6.000000713T3.492^.030.9431.6872.5473_2.000000p_17.0000...p30.0000...SO4037727.51.0271.62127323_24.0000...p_2.oaoooo552927327.5907541.8531.977P8.000000-i?-!nrinnnnrinn3數(shù)據(jù)挖掘課程學(xué)習(xí)體會大量數(shù)據(jù)的產(chǎn)生和收集導(dǎo)致了信息的爆炸,但信息僅僅停留在這個(gè)階段,未對這些信息進(jìn)行適時(shí)和深層次的分析,大致使企業(yè)對客戶知識的缺乏。數(shù)據(jù)挖掘可以從繁雜的數(shù)據(jù)中找出真正有價(jià)值的信息知識,提高企業(yè)對客戶了解程度,時(shí)時(shí)快捷的發(fā)現(xiàn)并滿足客戶的需求,從而提高企業(yè)的競爭力。數(shù)據(jù)挖掘使市場信息觸手可及數(shù)據(jù)庫及數(shù)據(jù)挖掘技術(shù)(DataMining,DM)可以擴(kuò)展企業(yè)核心業(yè)務(wù)過程的信息后勤基礎(chǔ),通過數(shù)據(jù)挖掘來保證對數(shù)據(jù)的訪問及分析,從而提高業(yè)務(wù)過程的有效性。當(dāng)企業(yè)通過數(shù)據(jù)倉庫直接向其顧客索取某些信息密集型顧客支持過程的資源時(shí),支持成本會不斷地下降,企業(yè)的管理成本也就隨之降低.利用信息技術(shù)和數(shù)據(jù)資源不斷地增強(qiáng)對客戶的了解程度,使客戶感覺好像與企業(yè)有一種獨(dú)一無二的個(gè)人關(guān)系,具有有效的信息文換和訪問能力,與客戶打交道變得更容易一些?數(shù)據(jù)挖掘技術(shù)基于事實(shí),利用數(shù)據(jù)倉庫中產(chǎn)品、價(jià)格、投資、分配等方面,從浩瀚的信息海洋中提煉出有價(jià)值的信息,發(fā)現(xiàn)隱含在這些信息中的對等的、不明顯的、不可預(yù)知的模式、趨勢和關(guān)系,為企業(yè)提供決策的依據(jù)。數(shù)據(jù)挖掘?qū)?shù)據(jù)加工成信息和知識在CRM中,數(shù)據(jù)倉庫將海量復(fù)雜的客戶行為數(shù)據(jù)集中起來,建立一個(gè)整合的、結(jié)構(gòu)化的數(shù)據(jù)模型,在此基礎(chǔ)上對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化、抽象化、規(guī)范化分類、分析,為企業(yè)管理層提供及時(shí)的決策信息,為企業(yè)業(yè)務(wù)部門提供有效的反饋數(shù)據(jù)。數(shù)據(jù)挖掘?qū)蛻糍Y料進(jìn)行分析,是挖掘客戶潛力的基石。數(shù)據(jù)挖掘技術(shù)的作用在企業(yè)管理客戶生命周期的各個(gè)階段都會有所體現(xiàn).數(shù)據(jù)挖掘幫助企業(yè)發(fā)現(xiàn)客戶的特點(diǎn),從而可為客戶提供有針對性的服務(wù)。通過數(shù)據(jù)挖掘,可以發(fā)現(xiàn)購買某一商品的客戶的特征,從而可以向那些也同樣具有這些特征卻沒有購買的客戶推銷這個(gè)商品;若找到流失的客戶的特征就可以在那些具有相似特征的客戶還未流失之前,采取相應(yīng)的措施.4其他數(shù)據(jù)挖掘相關(guān)主題1、分類分類是找出數(shù)據(jù)庫中一組數(shù)據(jù)對象的共同特點(diǎn)并按照分類模式將其劃分為不同的類,其目的是通過分類模型,將數(shù)據(jù)庫中的數(shù)據(jù)項(xiàng)映射到某個(gè)給定的類別。它可以應(yīng)用到客戶的分類、客戶的屬性和特征分析、客戶滿意度分析客戶的購買趨勢預(yù)測等,如一個(gè)汽車零售商將客戶按照對汽車的喜好劃分成不同的類,這樣營銷人員就可以將新型汽車的廣告手冊直接郵寄到有這種喜好的客戶手中,從而大大增加了商業(yè)機(jī)會。2、回歸分析回歸分析方法反映的是事務(wù)數(shù)據(jù)庫中屬性值在時(shí)間上的特征,產(chǎn)生一個(gè)將數(shù)據(jù)項(xiàng)映射到一個(gè)實(shí)值預(yù)測變量的函數(shù),發(fā)現(xiàn)變量或?qū)傩蚤g的依賴關(guān)系,其主要研究問題包括數(shù)據(jù)序列的趨勢特征、數(shù)據(jù)序列的預(yù)測以及數(shù)據(jù)間的相關(guān)關(guān)系等。它可以應(yīng)用到市場營銷的各個(gè)方面,如客戶尋求、保持和預(yù)防客戶流失活動、產(chǎn)品生命周期分析、銷售趨勢預(yù)測及有針對性的促銷活動等。3、 聚類聚類分析是把一組數(shù)據(jù)按照相似性和差異性分為幾個(gè)類別,其目的是使得屬于同一類別的數(shù)據(jù)間的相似性盡可能大,不同類別中的數(shù)據(jù)間的相似性盡可能小。它可以應(yīng)用到客戶群體的分類、客戶背景分析、客戶購買趨勢預(yù)測、市場的細(xì)分等。4、 關(guān)聯(lián)規(guī)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論