版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
PAGEPAGE2實驗二Clementine12購物籃分析(關(guān)聯(lián)規(guī)則)一、[實驗?zāi)康腯設(shè)計關(guān)聯(lián)規(guī)則分析模型,通過模型演示如何對購物籃分析,并根據(jù)細(xì)分結(jié)果對采取不同的營銷策略。體驗以數(shù)據(jù)驅(qū)動的模型計算給科學(xué)決策帶來的先進(jìn)性。二、[知識要點]1、購物藍(lán)分析概念;2、管來呢規(guī)則算法原理;3、購物藍(lán)分析工具;4、Clementine12.0關(guān)聯(lián)規(guī)則分析流程。三、[實驗要求和內(nèi)容]1、初步了解使用工作流的方式構(gòu)建分析模型;2、理解智能數(shù)據(jù)分析流程,主要是CRISP-DM工業(yè)標(biāo)準(zhǔn)流程;3、理解關(guān)聯(lián)規(guī)則模型原理;4、設(shè)計關(guān)聯(lián)規(guī)則分流;5、運(yùn)行該流,并將結(jié)果可視化展示;6、得出模型分析結(jié)論7、運(yùn)行結(jié)果進(jìn)行相關(guān)營銷策略設(shè)計。四、[實驗條件]Clementine12.0挖掘軟件。五、[實驗步驟]1、啟動Clementine12.0軟件;2、在工作區(qū)設(shè)計管來呢規(guī)則挖掘流;3、執(zhí)行模型,分析計算結(jié)果;4、撰寫實驗報告。六、[思考與練習(xí)]1、為什么要進(jìn)行關(guān)聯(lián)規(guī)則分析?它是如何支持客戶營銷的?實驗內(nèi)容與步驟一、前言“啤酒與尿布”的故事是營銷屆的神話,“啤酒”和“尿布”兩個看上去沒有關(guān)系的商品擺放在一起進(jìn)行銷售、并獲得了很好的銷售收益,這種現(xiàn)象就是賣場中商品之間的關(guān)聯(lián)性,研究“啤酒與尿布”關(guān)聯(lián)的方法就是購物籃分析,購物籃分析曾經(jīng)是沃爾瑪秘而不宣的獨門武器,購物籃分析可以幫助我們在門店的銷售過程中找到具有關(guān)聯(lián)關(guān)系的商品,并以此獲得銷售收益的增長!“啤酒與尿布”的故事產(chǎn)生于20世紀(jì)90年代的美國沃爾瑪超市中,沃爾瑪?shù)某泄芾砣藛T分析銷售數(shù)據(jù)時發(fā)現(xiàn)了一個令人難于理解的現(xiàn)象:在某些特定的情況下,“啤酒”與“尿布”兩件看上去毫無關(guān)系的商品會經(jīng)常出現(xiàn)在同一個購物籃中,這種獨特的銷售現(xiàn)象引起了管理人員的注意,經(jīng)過后續(xù)調(diào)查發(fā)現(xiàn),這種現(xiàn)象出現(xiàn)在年輕的父親身上。在美國有嬰兒的家庭中,一般是母親在家中照看嬰兒,年輕的父親前去超市購買尿布。父親在購買尿布的同時,往往會順便為自己購買啤酒,這樣就會出現(xiàn)啤酒與尿布這兩件看上去不相干的商品經(jīng)常會出現(xiàn)在同一個購物籃的現(xiàn)象。如果這個年輕的父親在賣場只能買到兩件商品之一,則他很有可能會放棄購物而到另一家商店,直到可以一次同時買到啤酒與尿布為止。沃爾瑪發(fā)現(xiàn)了這一獨特的現(xiàn)象,開始在賣場嘗試將啤酒與尿布擺放在相同的區(qū)域,讓年輕的父親可以同時找到這兩件商品,并很快地完成購物;而沃爾瑪超市也可以讓這些客戶一次購買兩件商品、而不是一件,從而獲得了很好的商品銷售收入,這就是“啤酒與尿布”故事的由來。當(dāng)然“啤酒與尿布”的故事必須具有技術(shù)方面的支持。1993年美國學(xué)者Agrawal(個人翻譯--艾格拉沃)提出通過分析購物籃中的商品集合,從而找出商品之間關(guān)聯(lián)關(guān)系的關(guān)聯(lián)算法,并根據(jù)商品之間的關(guān)系,找出客戶的購買行為。艾格拉沃從數(shù)學(xué)及計算機(jī)算法角度提出了商品關(guān)聯(lián)關(guān)系的計算方法—Aprior算法。沃爾瑪從上個世紀(jì)90年代嘗試將Aprior算法引入到POS機(jī)數(shù)據(jù)分析中,并獲得了成功,于是產(chǎn)生了“啤酒與尿布”的故事?!捌【坪湍虿肌钡墓适聻槭裁串a(chǎn)生于沃爾瑪超市的賣場中?賣場中“啤酒與尿布”的現(xiàn)象比比皆是,為什么“啤酒與尿布”的故事只產(chǎn)生在沃爾瑪?shù)馁u場中,而不是其他零售門店?這里有兩個原因。第一個是沃爾瑪先進(jìn)的計算機(jī)技術(shù)是“啤酒與尿布”故事產(chǎn)生的強(qiáng)大支持后盾。零售業(yè)目前使用的很多新技術(shù)都是沃爾瑪率先“嘗鮮”的,比如沃爾瑪最早在門店嘗試計算機(jī)記賬,最早在門店收款臺嘗試使用外形丑陋俗稱“牛眼”的條碼掃描器進(jìn)行收款,世界上第一個發(fā)射私人通信衛(wèi)星等等。“前人栽樹,后人乘涼”,目前運(yùn)用于門店管理的很多技術(shù)手段都是沃爾瑪做了“第一個吃螃蟹”的,我們只不過坐享其成而已。由于沃爾瑪具備先進(jìn)的技術(shù)手段,“啤酒與尿布”的故事在沃爾瑪產(chǎn)生就一點也不奇怪了。第二個原因是沃爾瑪擁有一雙銳利的慧眼。沃爾瑪是一家極其講究賣場現(xiàn)場管理的企業(yè),沃爾瑪創(chuàng)始人老沃爾頓最大的樂趣就是不停地在賣場巡視,更多地運(yùn)用自己的雙眼而不是數(shù)據(jù)來發(fā)現(xiàn)事實。因此不能忽略的是,沒有沃爾瑪管理人員的慧眼,“啤酒與尿布”的故事也會淹沒在大量的零售數(shù)據(jù)中。營銷界很多人對于“啤酒與尿布”的故事津津樂道,吹捧得如同發(fā)現(xiàn)新大陸般!“啤酒與尿布”的故事就是商品交叉銷售,這種銷售現(xiàn)象幾乎和人類歷史一樣悠久,在古人披著獸皮交換貝殼、糧食、石斧等商品時,他們已經(jīng)清楚地了解商品交叉銷售對于商品交易的重要性,一些聰明的家伙會采取種種措施鼓勵客戶多交換一些商品(估計是一袋貝殼加一條魚換一袋大米)?!捌【婆c尿布”的故事只是對商品交叉銷售現(xiàn)象的一種現(xiàn)代解釋,并不是出現(xiàn)“啤酒與尿布”的故事之后,才存在商品交叉銷售的現(xiàn)象。從這個意義上講,沃爾瑪并沒有發(fā)現(xiàn)新大陸,只不過把我們視而不見的現(xiàn)象挖出來,并從中發(fā)現(xiàn)了商業(yè)價值。沃爾瑪?shù)膭?chuàng)始人老沃爾頓說,retailisdetail(零售就是細(xì)節(jié))。研究商品關(guān)聯(lián)關(guān)系的方法就是購物籃分析,在購物籃分析方面有兩個值得我們學(xué)習(xí)的榜樣,一個是美國的沃爾瑪,另一個是日本的7-11便利店。同樣是購物籃分析,沃爾瑪強(qiáng)調(diào)找出商品之間的關(guān)聯(lián)關(guān)系,比如啤酒與尿布,而7-11便利店的重點在于找出影響商品銷售的所有因素,比如碳酸飲料與氣溫的關(guān)系等等。換句話說,沃爾瑪重點是分析購物籃內(nèi)商品之間的關(guān)聯(lián)關(guān)系,而日本7-11便利店的重點是從購物籃外面找影響商品銷售的關(guān)聯(lián)關(guān)系。美式購物籃分析以沃爾瑪為代表的美食購物籃分析的目標(biāo)一般是賣場面積巨大,通常都是上萬平方米,商品種類繁多,大多在10萬種以上,所以要通過購物籃分析找出淹沒在不同區(qū)域商品之間的關(guān)聯(lián)關(guān)系,并將這些關(guān)聯(lián)關(guān)系用于商品關(guān)聯(lián)陳列、促銷等具體工作中,是很難通過人工完成的。比如啤酒在酒類區(qū)域,尿布在嬰兒用品區(qū)域,兩個商品陳列區(qū)域相差幾十米,甚至可能是“樓上、樓下”的陳列關(guān)系,用肉眼很難發(fā)現(xiàn)啤酒與尿布存在關(guān)聯(lián)關(guān)系的規(guī)律。我們把找出購物籃中商品之間關(guān)系的方法稱為“美式購物籃”分析法,這種方法適合應(yīng)用于類似沃爾瑪這樣的大賣場,用于找出不同陳列區(qū)域商品之間的關(guān)系。英國的Tesco連鎖超市、Safeway連鎖超市也都是這種購物籃分析的高手。我們這個課程所主要研究的目標(biāo)也是這種美食購物籃。日式購物籃分析日本這個國家很神奇,雖然身為島國,但是經(jīng)濟(jì)發(fā)達(dá)。分析日式購物籃確實能夠看到日本人在經(jīng)商方面的巧妙之處。日本的超市以7-11便利店為典型,7-11便利店營業(yè)面積都很小,一般只有100~250平方米,商品品種3000~10000種,是典型的“螺螄殼里做道場”。如我們在電影或者泡沫劇里面所見,日本很多門店的經(jīng)營面積狹小,站在門店里任何一個角落,所有的商品轉(zhuǎn)個身就全看見了——真正的抬頭不見低頭見,所以找出商品關(guān)聯(lián)關(guān)系不是日本7-11便利店的重點:你就是找出來啤酒與尿布之間有“暗戀”關(guān)系,也沒用!因為啤酒與尿布本來就在一起。當(dāng)然日本7-11便利店這類相關(guān)陳列的故事也是有的,比如蕎麥冷面與納豆、魚肉香腸與面包、酸奶與盒飯等等,但是畢竟起不到主要作用,日本7-11便利店更關(guān)注的是:●氣溫由28℃上升到30●下雨的時候,關(guān)東煮的銷售量會有什么變化?●盒飯加酸奶、盒飯加罐裝啤酒都是針對什么樣的客戶群體?他們什么時間到門店買這些商品?所以,日本人的重點是分析所有影響商品銷售的關(guān)聯(lián)因素,比如天氣、溫度、時間、事件、客戶群體等,這些因素我們稱為商品相關(guān)性因素。日本人對于所有影響商品銷售的關(guān)聯(lián)因素研究得非常透徹,因此日本就會有氣溫-碳酸飲料指數(shù)、空調(diào)指數(shù)、冰激凌指數(shù),因此就不難理解為什么7-11便利店會設(shè)置專門的氣象部門,因此更能夠理解為什么日本7-11便利店會要求門店每天5次將門店內(nèi)外的溫度、濕度上傳回總部,供總部與商品銷售進(jìn)行對比分析。與商品之間的關(guān)聯(lián)關(guān)系相比,日本7-11便利店認(rèn)為這些關(guān)聯(lián)因素更重要。由于這是日本7-11便利店大量采取的方式,我們也稱為“日式購物籃”分析法?!捌【坪湍虿肌惫适掳裁礃拥暮x?沃爾瑪?shù)摹捌【婆c尿布”的故事實際上向我們揭示了零售業(yè)未來的獲利及生存模式。他凸顯了零售賣場中一個全新的管理理念,即商品之間是具有關(guān)聯(lián)關(guān)系的,發(fā)現(xiàn)并利用這些商品之間的關(guān)聯(lián)關(guān)系,可以在無法大幅增加門店客戶數(shù)的前提下,通過增加購物籃中的商品數(shù)量達(dá)到增加銷售額的目的,從而獲得更大的經(jīng)營收益。啟示一:購物籃大于商品有在零售業(yè)工作經(jīng)驗的朋友都知道,老板考核大家的主要指標(biāo)是商品銷售額,你的工資袋取決于商品的銷售額。老板會將商品銷售指標(biāo)下發(fā)到個人,每個人都只會關(guān)注自己的“一畝三分地”,賣啤酒的只管悶頭賣啤酒,賣尿布的只管悶頭賣尿布,每個柜臺只管自己的商品是否能進(jìn)入客戶手中的購物籃。賣啤酒的不關(guān)心購物籃中的尿布,賣尿布的也漠視購物籃中的啤酒,只要別漏了自己柜臺的東西就行了,因為漏了自己的商品,這個月的獎金就沒了,人人只掃門前雪,長此以往商店的整體效益當(dāng)然不會好了,效益不好就要裁員,大家都沒好果子吃。反觀沃爾瑪?shù)馁u場管理體系中,購物籃是主要的管理對象,而不僅僅是商品。為什么沃爾瑪會以購物籃為管理重點?沃爾瑪認(rèn)為商品銷售量的沖刺只是短期行為,而零售企業(yè)的生命力取決于購物籃。一個小小的購物籃體現(xiàn)了客戶的真實消費需求和購物行為,每一只購物籃里都蘊(yùn)藏著太多的客戶信息。零售業(yè)的宗旨是服務(wù)客戶,沃爾瑪認(rèn)為商店的管理核心應(yīng)該是以購物籃為中心的顧客經(jīng)營模式,商品排名只能體現(xiàn)商品自身的表現(xiàn),而購物籃可以體現(xiàn)客戶的購買行為及消費需求,關(guān)注購物籃可以使門店隨時掌握客戶的消費動向,從而使門店始終與客戶保持一致。啟示二:購物籃方面的差距購物籃的表現(xiàn)形式就是我們常說的“客單價”,客單價的高低直接反映了零售企業(yè)的經(jīng)營效益。根據(jù)AC·尼爾森2006年對國內(nèi)零售企業(yè)的調(diào)查發(fā)現(xiàn),從周一到周五正常工作日,同樣一個萬米經(jīng)營面積的大賣場,國內(nèi)賣場的平均客單價是29元,家樂福、沃爾瑪、歐尚等國際零售巨頭賣場的客單價為75元,好又多、大潤發(fā)、樂購等臺資賣場客單價為50元。到了周末(周六、周日)的差距更大,國內(nèi)賣場客單價為35元,臺資賣場客單價為80元,外資賣場可以達(dá)到149元,這就是我們國內(nèi)企業(yè)在購物籃方面的差距。我們知道,銷售額=客單價×客流數(shù)。在同等客流量的情況下,我們的企業(yè)由于客單價低,已經(jīng)先失一著,銷售業(yè)績要比外資企業(yè)低200%,比臺資企業(yè)低60%。此外,銷售額低會帶來很多問題,比如毛利額低、通道費低、與供應(yīng)商的話語權(quán)降低,甚至?xí)苯佑绊懙狡髽I(yè)的生存。因此,要想提高商業(yè)企業(yè)的銷售業(yè)績,必須改善企業(yè)購物籃,全面提升客單價,可以說零售企業(yè)的購物籃代表了企業(yè)的生存權(quán)!另據(jù)有關(guān)報道,客戶到家樂福賣場的年平均購物頻度只有9.8次,但是在快速消費品的市場份額卻比年平均客戶購物頻度高達(dá)51次的華潤蘇果高出3.63%,家樂福、沃爾瑪、易初蓮花等外資零售企業(yè)僅僅利用客戶幾次上門購物的機(jī)會,就獲得了遠(yuǎn)比國內(nèi)零售同行高很多的快速消費品市場份額。尤其要注意的是,沃爾瑪、歐尚等外資零售企業(yè)在國內(nèi)只有區(qū)區(qū)的十幾家門店,居然占據(jù)了非常大的市場份額,充分顯示了這些外資零售企業(yè)在購物籃方面的確有“高招”?!捌【婆c尿布”故事的依據(jù)是商品之間的相關(guān)性(也稱關(guān)聯(lián)性,英文名稱為associationrule),商品相關(guān)性是指商品在賣場中不是孤立的,不同商品在銷售中會形成相互影響關(guān)系(也稱關(guān)聯(lián)關(guān)系),比如“啤酒與尿布”故事中,尿布會影響啤酒的銷量。在賣場中商品之間的關(guān)聯(lián)關(guān)系比比皆是,比如咖啡的銷量會影響到咖啡伴侶、方糖的銷售量,牛奶的銷量會影響面包的銷售量等等。所謂事物之間的相關(guān)性是指當(dāng)一個事物變化時,另一個事物也會發(fā)生變化。當(dāng)事物之間的變化是相互抵消的,比如豬肉價格上漲、豬肉銷量下降,我們稱這種相關(guān)性是負(fù)相關(guān);當(dāng)事物之間的變化呈現(xiàn)同一個方向發(fā)展時,比如氣溫上升、冷飲銷量也上升,我們稱這種相關(guān)性是正相關(guān)。有些事物的相關(guān)性顯而易見,有些則不是那么明顯。美國華爾街股票分析師將女性超短裙的長度與道瓊斯股票指數(shù)建立了關(guān)聯(lián),超短裙的長度與股票指數(shù)成反比趨勢,據(jù)說十分靈驗,這就是相關(guān)性在生活中的種種體現(xiàn)。商店中的關(guān)聯(lián)性更是比比皆是,比如煙酒銷售的關(guān)聯(lián)關(guān)系:當(dāng)門店附近有建筑工地時,低檔煙、酒的銷售就會上升;當(dāng)附近有高檔社區(qū)時,中華煙、葡萄酒的銷售量就會上升。提到商品相關(guān)性,很多人認(rèn)為就是數(shù)據(jù)分析的事兒,其實對于商品相關(guān)性來說,更重要的是客戶心理層面的因素,畢竟是人在提著購物籃,而不是猴子??蛻粼谫徫飼r的心理行為是產(chǎn)生商品之間關(guān)聯(lián)關(guān)系最基本的原因,因此在找到購物籃規(guī)律時,必須要從客戶消費心理層面解釋這些關(guān)聯(lián)關(guān)系,否則“啤酒與尿布”會永遠(yuǎn)停留在啤酒與尿布兩個商品身上,而沒有任何的推廣意義。要想詳細(xì)了解商品相關(guān)性形成的客戶心理因素,要進(jìn)行大量的客戶消費行為觀察,構(gòu)建客戶購物籃場景,才可使“啤酒與尿布”的故事發(fā)揚(yáng)光大。二、關(guān)聯(lián)規(guī)則的概念關(guān)聯(lián)規(guī)則挖掘發(fā)現(xiàn)大量數(shù)據(jù)中項集之間有趣的關(guān)聯(lián)或相關(guān)聯(lián)系。它在數(shù)據(jù)挖掘中是一個重要的課題,最近幾年已被業(yè)界所廣泛研究。
關(guān)聯(lián)規(guī)則挖掘的一個典型例子是購物籃分析。關(guān)聯(lián)規(guī)則研究有助于發(fā)現(xiàn)交易數(shù)據(jù)庫中不同商品(項)之間的聯(lián)系,找出顧客購買行為模式,如購買了某一商品對購買其他商品的影響。分析結(jié)果可以應(yīng)用于商品貨架布局、貨存安排以及根據(jù)購買模式對用戶進(jìn)行分類。
Agrawal等于1993年首先提出了挖掘顧客交易數(shù)據(jù)庫中項集間的關(guān)聯(lián)規(guī)則問題,以后諸多的研究人員對關(guān)聯(lián)規(guī)則的挖掘問題進(jìn)行了大量的研究。他們的工作包括對原有的算法進(jìn)行優(yōu)化,如引入隨機(jī)采樣、并行的思想等,以提高算法挖掘規(guī)則的效率;對關(guān)聯(lián)規(guī)則的應(yīng)用進(jìn)行推廣。
最近也有獨立于Agrawal的頻集方法的工作,以避免頻集方法的一些缺陷,探索挖掘關(guān)聯(lián)規(guī)則的新方法。也有一些工作注重于對挖掘到的模式的價值進(jìn)行評估,他們提出的模型建議了一些值得考慮的研究方向。關(guān)聯(lián)規(guī)則挖掘可以發(fā)現(xiàn)存在于數(shù)據(jù)庫中的項目或?qū)傩蚤g的有趣關(guān)系,這些關(guān)系是預(yù)先未知的或者被隱藏的。為了準(zhǔn)確描述關(guān)聯(lián)規(guī)則挖掘問題,需要給出關(guān)聯(lián)規(guī)則挖掘問題的正式定義,下面用事務(wù)數(shù)據(jù)庫來定義關(guān)聯(lián)規(guī)則。設(shè)交易(transaction)的集合,,這里交易是項的集合,可以表述為:并且。中的元素稱為項。對應(yīng)每一個交易有唯一的標(biāo)識,如交易號,記作。設(shè)是數(shù)據(jù)集中所有項的集合,是二進(jìn)制文字的集合。中的任何子集稱為項目集(itemset),若,則稱集合為項集。設(shè)和分別為中的事務(wù)和項目集,如果,稱事務(wù)包含項目集。項目集的支持率,若不小于用戶指定的最小支持率(記作:minsupport),則稱為頻繁項目集,否則稱為非頻繁項目集。設(shè),是數(shù)據(jù)集中的項目集。若,則;若,如果是非頻繁項目集,則也是非頻繁項目集;若,如果是頻繁項目集,則也是頻繁項目集。一個關(guān)聯(lián)規(guī)則是形如的蘊(yùn)涵式,這里,都是項目集,且,,并且,,分別稱為關(guān)聯(lián)規(guī)則的前提和結(jié)論。一般使用支持度(support)和置信度(confidence)兩個參數(shù)來描述關(guān)聯(lián)規(guī)則的屬性。(1)支持度規(guī)則在數(shù)據(jù)庫中的支持度是交易集中同時包含,的事務(wù)數(shù)與所有事務(wù)數(shù)之比,記為。支持度描述了,這兩個項集在所有事務(wù)中同時出現(xiàn)的概率。(2)置信度規(guī)則在事務(wù)集中的置信度(confidence)是指同時包含,的事務(wù)數(shù)與包含的事務(wù)數(shù)之比,它用來衡量關(guān)聯(lián)規(guī)則的可信程度。記為=。一般情況下,只有關(guān)聯(lián)規(guī)則的置信度大于期望可信度,才說明的出現(xiàn)對的出現(xiàn)有促進(jìn)作用,也說明了它們之間的某種程度的相關(guān)性。給定一個事務(wù)集,挖掘關(guān)聯(lián)規(guī)則的問題就是產(chǎn)生支持度和置信度分別大于用戶事先給定的最小支持度和最小置信度的關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則挖掘的任務(wù)就是要挖掘出中所有的強(qiáng)規(guī)則。強(qiáng)規(guī)則對應(yīng)的項目集必定是頻繁項目集,頻繁項目集導(dǎo)出的關(guān)聯(lián)規(guī)則的置信度可由頻繁項目集和的支持度計算。因此,可以把關(guān)聯(lián)規(guī)則挖掘劃分為兩個子問題:一個是找出所有的頻繁項目集:即所有支持度不低于給定的最小支持度的項目集。另一個是由頻繁項目集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則:即從第一個子問題得到的頻繁項目集中找出置信度不小于用戶給定的最小置信度的規(guī)則。其中,第一個子問題是關(guān)聯(lián)規(guī)則挖掘算法的核心問題,是衡量關(guān)聯(lián)規(guī)則挖掘算法的標(biāo)準(zhǔn)。三、Apriori算法關(guān)聯(lián)規(guī)則的算法相當(dāng)多,其中經(jīng)典算法Apriori是最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項目集的算法,同時大部分關(guān)聯(lián)規(guī)則算法也都是經(jīng)典算法Apriori的演繹和改進(jìn)。Apriori算法是通過有候選項集的方法來產(chǎn)生頻繁項集,它的核心思想:任何頻繁項集的所有子集一定是頻繁項集。在Apriori算法中,遍歷數(shù)據(jù)庫,得到大一項集。如果非空,由產(chǎn)生長度為2的候選項集合,對事務(wù)處理數(shù)據(jù)庫中的每一個事務(wù),求出在中的全部子集,對于中的每一個長度為2的候選取項集,令的計數(shù)c.count加1。當(dāng)掃描事務(wù)處理數(shù)據(jù)庫一遍后,篩選取出候選項集合中所有計數(shù)滿足最小支持度的項集組成了長度為2的頻繁項集合。用以上步驟重復(fù)處理新得到的頻繁項集合,直到?jīng)]有頻繁項集合產(chǎn)生。在這里,由于從候選項集中產(chǎn)生頻繁項集的過程需要遍歷數(shù)據(jù)庫,因此如何正確地產(chǎn)生最少數(shù)目的候選項集十分關(guān)鍵。候選項集產(chǎn)生的過程Apriori-gen(Fk-1)被分為兩個部分:聯(lián)合與剪技。采用這種方式,使得所有的頻繁項集既不會遺漏又不會重復(fù)。剪枝的目的是減少掃描數(shù)據(jù)庫時需要比較的候選項集的數(shù)量。剪枝的原則是:候選項集的個長度為的子集都在中,則保留;否則被剪枝。Apriori算法的描述如下。輸入:=1\*GB3①事務(wù)數(shù)據(jù)庫;=2\*GB3②最小支持度閥值min_sup。輸出:中的頻繁項集。方法:第1步產(chǎn)生頻繁項集第2步產(chǎn)生頻繁項集產(chǎn)生頻繁候選項集由頻繁項集連接成為k項集檢測項集的所有的子集是否為頻繁項集,若是該項集就成為了頻繁候選項集掃描事務(wù)數(shù)據(jù)庫對每個候選項集計數(shù)達(dá)到最少支持度的頻繁候選項成為頻繁項集。四、Clementine購物藍(lán)分析本次實驗是以clementine軟件當(dāng)中的數(shù)據(jù)為數(shù)據(jù)來源展開數(shù)據(jù)挖掘工作的,數(shù)據(jù)樣本為Demos文件夾里的baskrule.sav文件,數(shù)據(jù)量為一千余條,保證了實驗結(jié)果的依據(jù)性和可靠性。實驗的目的是基于關(guān)聯(lián)規(guī)則,利用clementine實現(xiàn)市場購物籃分析。SPSSClementine支持標(biāo)準(zhǔn)化的數(shù)據(jù)挖掘流程,現(xiàn)在將從其中的數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、建立模型等幾個方面進(jìn)行本課題的研究。下圖1是整個數(shù)據(jù)流的圖形:圖1整體數(shù)據(jù)流此次實驗的研究方法可以概括為如圖2.步驟數(shù)據(jù)挖掘模式探索方法步驟數(shù)據(jù)挖掘模式探索方法 顧客基本信息顧客基本信息購買商品信息數(shù)據(jù)集成數(shù)據(jù)集成GRI模型GRI模型不同商品之間是否有關(guān)聯(lián)不同商品之間是否有關(guān)聯(lián)RuleRule……6關(guān)聯(lián)規(guī)則建立RuleRule……6關(guān)聯(lián)規(guī)則建立Web圖形Web圖形商品與客戶群是否有關(guān)聯(lián)客戶群分類C5.0商品與客戶群是否有關(guān)聯(lián)客戶群分類C5.0模型……年齡性別……年齡性別圖2研究方法流程4.1數(shù)據(jù)理解階段數(shù)據(jù)準(zhǔn)備是整個數(shù)據(jù)挖掘過程的重要部分,數(shù)據(jù)質(zhì)量越高,挖掘結(jié)果準(zhǔn)確性越高。首先選擇“數(shù)據(jù)源”選項卡里面的固定文件節(jié)點,將其添加到數(shù)據(jù)流區(qū),并導(dǎo)入baskrule.sav文件數(shù)據(jù)。此時可以用“輸出”選項卡里的表結(jié)點與數(shù)據(jù)文件連接,查看數(shù)據(jù)的情況。數(shù)據(jù)當(dāng)中18個變量的情況可見下表1.表1研究數(shù)據(jù)字段說明序號字段名字段含義字段取值1Cardid購買此籃商品的客戶的忠誠卡標(biāo)識符正整數(shù)2Value購物籃的總購買價格正數(shù)3pmethod購物籃的支付方法CASH/CHQUE/CARD4Sex性別F/M5homeown卡持有者是否擁有住房T/F6Income收入正數(shù)7Age年齡正整數(shù)8Fruitveg果蔬T/F9freshmeat鮮肉T/F10Dairy乳制品T/F11cannedveg罐裝蔬菜T/F12cannedmeat烤肉T/F13frozenmeal凍肉T/F14Beer啤酒T/F15Wine酒T/F16Softdrink飲料T/F17Fish魚T/F18confectionery糖果T/F在上述數(shù)據(jù)當(dāng)中,1-7屬于顧客信息,8-18屬于購物籃訂單的信息,每一個字段都屬于一個訂單項。4.2數(shù)據(jù)準(zhǔn)備階段在數(shù)據(jù)表當(dāng)中既無缺失值,又無數(shù)據(jù)重復(fù)性的問題出現(xiàn),因此不需要對源數(shù)據(jù)做過多的數(shù)據(jù)過濾和預(yù)處理過程??紤]到數(shù)據(jù)屬性對于數(shù)據(jù)挖掘建模的影響,需要對數(shù)據(jù)的方向?qū)傩宰鲂薷模藭r可添加“類型”節(jié)點,讓數(shù)據(jù)源固定文件節(jié)點連接到“類型節(jié)點”。類型節(jié)點使用:使用Clementine類型節(jié)點能訪問每個字段的屬性,可以很便利地擴(kuò)充腳本內(nèi)容以列出類型節(jié)點中顯示的其他屬性,例如缺失值或方向。編輯“類型節(jié)點”,將所有產(chǎn)品類別的角色設(shè)置為雙向(雙向表示該字段可以是結(jié)果模型的輸入或者輸出),并將所有其他角色設(shè)置為無(如圖3)。因為每個忠誠卡ID在數(shù)據(jù)集中只出現(xiàn)一次,因此對于建模沒有用處,此時可將字段卡ID的類型設(shè)置為“無類型”。同時為了確保GRI建模算法不會將性別視為標(biāo)志,應(yīng)將選擇集作為字段性別的類型。圖3數(shù)據(jù)屬性編輯表4.3建立模型階段建立模型之前,必須選擇模型算法,關(guān)聯(lián)規(guī)則算法和決策樹分析算法適合于本次的購物籃分析。首先,介紹GRI節(jié)點選項最低規(guī)則置信度,可以指定在規(guī)則集中保留規(guī)則的準(zhǔn)確性標(biāo)準(zhǔn)(以百分比表示)。最大條件數(shù),可以為任何規(guī)則指定最大條件數(shù)。這是一種用來限制規(guī)則復(fù)雜性的方式。如果規(guī)則太復(fù)雜或者太具體,需要嘗試降低此設(shè)置,此設(shè)置對于訓(xùn)練時間也具有很大的影響;如果規(guī)則集訓(xùn)練所需的時間過長,需要嘗試降低此設(shè)置。最大規(guī)則數(shù),此選項決定了規(guī)則集中包含的規(guī)則數(shù)。規(guī)則是按照相關(guān)度(由GRI算法計算)的降序順序包含在內(nèi)的。使用分區(qū)數(shù)據(jù)。如果分區(qū)字段位于流中,則此選項會將數(shù)據(jù)分割成數(shù)個用于訓(xùn)練、測試和驗證的單獨樣本,并且可能提供當(dāng)模型擴(kuò)展為可適用于大型數(shù)據(jù)集(與當(dāng)前的數(shù)據(jù)類似)時,該模型的能力說明。只顯示值為真的標(biāo)志變量。如果選中此選項,生成的規(guī)則則只會顯示真值。這樣可能有助于使得規(guī)則更容易理解。接著進(jìn)行操作。在數(shù)據(jù)準(zhǔn)備過程完成、指定了用于建模的字段后,將GRI節(jié)點添加到“類型”節(jié)點,編輯它,選擇選項“使用分區(qū)數(shù)據(jù)”、“只顯示值為真的標(biāo)志變量”,設(shè)置最低規(guī)則置信度為50.0%,最大前項數(shù)為3,最大規(guī)則數(shù)為20,最大前項數(shù)和最大規(guī)則數(shù)都不能過多,要能夠適應(yīng)數(shù)據(jù)的屬性和量。如下圖4.4:圖4:GRI節(jié)點編輯按照上圖,點擊運(yùn)行得出GRI節(jié)點的結(jié)果,可見圖5圖5:GRI節(jié)點運(yùn)行結(jié)果在最后幾條關(guān)聯(lián)規(guī)則都具有這樣的特征:置信度高,支持度低。這說明規(guī)則的可信度高,但普遍性不高,也就說明購買罐裝蔬菜,同時購買鮮肉、凍肉和啤酒的概率極高,但是購買罐裝蔬菜本身在購買活動中出現(xiàn)的概率較低,造成規(guī)則的使用范圍有限、應(yīng)用機(jī)會少。因此最后幾條規(guī)則不具有一般性。而在前幾條關(guān)聯(lián)規(guī)則中,支持度屬于較高水平,說明應(yīng)用范圍較為廣泛,而置信度也不低,體現(xiàn)出規(guī)則的可信度也高。這些規(guī)則出現(xiàn)了雙向關(guān)聯(lián)規(guī)則,顯示凍肉、罐裝蔬菜和啤酒之間存在多種關(guān)聯(lián)。下面可通過單向箭頭具體表現(xiàn):frozenmeal→beerbeerfrozen→mealfrozenmeal→cannedvegcannedveg→frozenmealwine→confectioneryconfectionery→wine二、由于圖形選項框中的“Web顯示”在一定機(jī)會上能夠讓數(shù)據(jù)中的一些模式更加突出,所以為了能夠迅速直觀地從上述關(guān)聯(lián)規(guī)則中找到更加貼近的關(guān)聯(lián)規(guī)則,可將Web節(jié)點附加到“類型”節(jié)點。首先,介紹Web節(jié)點:數(shù)據(jù)挖掘過程的若干個階段都會用圖形和圖表來探索導(dǎo)入到Clementine中的數(shù)據(jù)。例如,可將散點圖或條形圖節(jié)點連接到數(shù)據(jù)源,以了解數(shù)據(jù)類型和數(shù)據(jù)分布。Web節(jié)點屬于圖形節(jié)點之一,網(wǎng)絡(luò)節(jié)點用于顯示兩個或更多符號字段的值之間,關(guān)系的緊密程度[10]。在圖形中顯示的鏈接以不同類型的線條表示,依次說明鏈接的強(qiáng)度不同。例如,可以使用網(wǎng)絡(luò)節(jié)點,檢查膽固醇水平、血壓及可有效治療病人疾患的藥品之間的關(guān)系。其中鏈接的三種類型有:強(qiáng)鏈接,以粗線條顯示,用以說明兩個值之間關(guān)系緊密,應(yīng)該進(jìn)一步檢查;普通鏈接,用普通粗細(xì)的線條顯示;弱鏈接以虛線顯示。接著進(jìn)行實驗操作。編輯Web節(jié)點,選擇所有購物籃內(nèi)容字段,選擇僅顯示真值標(biāo)志,如圖6圖6:Web節(jié)點編輯器執(zhí)行Web節(jié)點,顯示結(jié)果如下圖圖7:Web節(jié)點運(yùn)行結(jié)果因為大多數(shù)產(chǎn)品類別組合都會出現(xiàn)在多個購物籃中,所以此Web上的強(qiáng)鏈接太多,無法顯示GRI模型表示的客戶群。要提高臨界值以便只顯示最強(qiáng)的鏈接,需要使用工具欄上的滑塊,來實現(xiàn)最多只顯示50個連接除了要求了連接數(shù)量顯示50個以外,還要指定弱連接和強(qiáng)連接,作用是讓W(xué)eb顯示的關(guān)聯(lián)度更加明顯,可單擊工具欄上的黃色雙箭頭按鈕,展開顯示W(wǎng)eb輸出摘要和控件的對話框:選擇“大小表示強(qiáng)/正常/弱”。將“弱鏈接”設(shè)置為低于90。將“強(qiáng)鏈接”設(shè)置為高于100。以下為編輯窗口示意圖:圖8:Web節(jié)點編輯鏈接數(shù)最終顯示結(jié)果為:圖9:編輯結(jié)果顯示在最終顯示中,會有三個客戶群突出顯示:第一個,購買魚和果蔬的客戶,可將這類客戶成為“健康食客”第二個,購買酒和糧果的客戶第三個,購買啤酒、凍肉和罐裝蔬菜(“啤酒、豆類和比薩”)的客戶這個時候可以和上面GRI節(jié)點得出的結(jié)果做對比,發(fā)現(xiàn)使用Web節(jié)點能得到三個強(qiáng)關(guān)聯(lián)的客戶群,而GRI僅標(biāo)識兩客戶群個,健康食客未形成足夠強(qiáng)的模式,GRI無法發(fā)現(xiàn)它。三、客戶群添加特征標(biāo)志根據(jù)上述數(shù)據(jù)最后進(jìn)行的關(guān)聯(lián)度分析,客戶購買的產(chǎn)品類型最終標(biāo)識了三個客戶群,但是還要知道這些客戶的人口統(tǒng)計學(xué)特征。通過為每個客戶群添加特征標(biāo)志,并使用規(guī)則歸納(C5.0)來基于關(guān)聯(lián)規(guī)則描繪這些標(biāo)志的特征,可以實現(xiàn)這一點。過程如下:首先,必須獲取每個客戶群的標(biāo)志。使用剛剛創(chuàng)建的Web顯示圖,可以自動生成每個群的標(biāo)志,使用鼠標(biāo)右鍵,單擊fruitve
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年度三人合伙開展物流倉儲服務(wù)合同
- 2024年店鋪分割財產(chǎn)分配協(xié)議
- 2024年廢窯廠坑塘土地租賃協(xié)議
- 2024年度0架AC3A直升機(jī)購銷協(xié)議
- 2024年度煤炭買賣合同(長協(xié))
- 2024水電安裝勞務(wù)分包合同范本
- 2024年度云計算服務(wù)與技術(shù)研發(fā)合同
- 2024年度新能源汽車銷售與服務(wù)分包合同
- 2024購買車輛合同范本
- 2024年度智能家居解決方案合同
- 2024至2030年中國巖土工程市場深度分析及發(fā)展趨勢研究報告
- 新版高血壓病人的護(hù)理培訓(xùn)課件
- 醫(yī)院等級創(chuàng)建工作匯報
- 2024年江西省公務(wù)員錄用考試《行測》題(網(wǎng)友回憶版)(題目及答案解析)
- VDA6.3基礎(chǔ)培訓(xùn)考核測試卷附答案
- 第01講 正數(shù)和負(fù)數(shù)、有理數(shù)-人教版新七年級《數(shù)學(xué)》暑假自學(xué)提升講義(解析版)
- 信息系統(tǒng)部署與運(yùn)維-題庫帶答案
- 婚姻心理學(xué)解讀包含內(nèi)容
- DZ/T 0462.3-2023 礦產(chǎn)資源“三率”指標(biāo)要求 第3部分:鐵、錳、鉻、釩、鈦(正式版)
- 備戰(zhàn)2024年高考英語考試易錯點12 名詞性從句(4大陷阱)(解析版)
- 公務(wù)員歷史常識100題及一套完整答案
評論
0/150
提交評論