數(shù)據(jù)挖掘關(guān)聯(lián)_第1頁
數(shù)據(jù)挖掘關(guān)聯(lián)_第2頁
數(shù)據(jù)挖掘關(guān)聯(lián)_第3頁
數(shù)據(jù)挖掘關(guān)聯(lián)_第4頁
數(shù)據(jù)挖掘關(guān)聯(lián)_第5頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、數(shù)據(jù)收集及處理  數(shù)據(jù)描述: 本文的所采用的數(shù)據(jù)集來源于網(wǎng)絡(luò)數(shù)據(jù)中心數(shù)據(jù)堂所提供的,來自主要電商平臺:京東,淘寶,天貓,亞馬遜,一號店的2013年10月20日至2013年10月22日的爽膚水交易信息。數(shù)據(jù)集主要分為3個部分,第一部分為各平臺上爽膚水的交易記錄,單日的交易數(shù)據(jù)包含了19203條交易記錄,14個變量,變了包括商品ID,電商名稱,日期,商品名稱,商品URL,促銷價,商品銷量銷售額,店鋪名稱,店鋪等級,品牌功效,適合皮膚,容量,如圖所示為在EXCEL中打開的京東在2013年10月20日的交易數(shù)據(jù)。第二部分為買家購買后的評價,單日包含925條的評論信息,6個變量,變量包含商品I

2、D,購買時間,評論時間,昵稱,評分,評論內(nèi)容,如圖所示就是2013年10月20日京東的評論信息。第三部分為品牌數(shù)據(jù)集,一共51990條數(shù)據(jù),7個變量,包括類目,品牌,電商平臺,平均價格,日總銷量,對應(yīng)商品ID。如圖所示就是2013年10月20日所有電商平臺的評判信息。本論文所采用的數(shù)據(jù)全部來自于知名網(wǎng)絡(luò)數(shù)據(jù)中心數(shù)據(jù)堂,具有相當(dāng)?shù)目尚哦?。?jīng)過對數(shù)據(jù)的觀察,為了使得研究過程能夠更加方便,我們選擇數(shù)據(jù)較為完整并且有序的自于京東平臺的交易信息。由于本文目的是建立如何選擇商品的模型,因此不會對結(jié)果造成影響。數(shù)據(jù)初步處理:本輪問所有的數(shù)據(jù)都采用SAS中SQL語言與EXCEL相結(jié)合進行處理。先對對京東平臺上

3、爽膚水的交易記錄進行處理。首先應(yīng)該去掉與本文研究不相關(guān)的信息。由于電商名稱,日期,店鋪名稱與本文研究目標(biāo)不匹配,同時在京東平臺上并沒有店鋪信息,商品名稱內(nèi)容包含于品牌名稱等其他變量中。因此我們只選擇其中的變量:商品ID,促銷價,商品銷量銷售額,品牌功效,適合皮膚,容量。將源數(shù)據(jù)導(dǎo)入SAS之后采用EM模塊的InputData節(jié)點對銷量變量進行描述性統(tǒng)計如圖所示:我們可以發(fā)現(xiàn),其中大多數(shù)商品的銷售額都為0,是因為這里僅僅采用3天的交易數(shù)據(jù),所以大多都沒有銷量。因為沒有銷量的商品對本文的并無研究意義,因此我們只研究銷售量大于0的商品。采用SQL語言將3日的交易數(shù)據(jù)合并,并選取所需變量,并且將相同的商

4、品進行合并。Proc sql;CREATE table Homework.JD asselect * FROM Homework.JINGD1UNION ALLselect * FROM Homework.JINGD2UNION ALLselect * FROM Homework.JINGD3;Proc sql; CREATE table Homework.JDNEW as select ID,PRICE,SUM(Q) as Q,SUM(INCOME) as INCOME, BRAND,EFFECT,SKIN,CAP from Homework.JD where Q>0GROUP BY

5、ID; 處理后的結(jié)果在SAS中打開的部分內(nèi)容如下: 為了使得變量能夠滿足分析的要求我們將利用EXCEL對數(shù)據(jù)進行預(yù)處理。對于容量這一變量,格式為“500ml”或者“100ml + 10ml + 10ml”因此我們采用兩個變量來描述,CAP和COMB,CAP表示容量的大小,我們這里將100ml以下定為小瓶,300ml以下為中瓶,以上為大瓶。COMB為一個二元變量,1表示存在套裝的情況,0則表示為單瓶。處理之后結(jié)果為:對于功能這一變量,我們通過建立數(shù)據(jù)透視表查看結(jié)果。EFFECT匯總NULL22保濕補水687保濕補水,控油平衡17保濕補水,控油平衡,美白祛斑1保濕補水,控油平衡,美白祛斑,細致毛孔

6、25保濕補水,控油平衡,美白祛斑,細致毛孔,祛皺抗衰8保濕補水,控油平衡,美白祛斑,細致毛孔,深層清潔2保濕補水,控油平衡,美白祛斑,細致毛孔,深層清潔,祛皺抗衰26因此我們將采用一系列的二元變量E_BS(保濕),E_KY(控油),E_MB(美白),E_XZ(細致毛孔),E_KS(抗衰老),E_QJ(清潔0來表示該品牌是否具有該種功效。處理結(jié)果為:對于適合膚質(zhì)這一變量同樣采用數(shù)據(jù)透視表來查看:SKIN匯總干性38干性、混合性1混合型至油性1混合性48混合性,干性1混合性,油性5混合性,油性,干性1混合性,中性24混合性,中性,干性1混合性,中性,干性,敏感性3混合性,中性,油性12混合性,中性

7、,油性,干性20混合性,中性,油性,干性,敏感性7混合性,中性,油性,干性,敏感性,所有膚質(zhì)2混合性,中性,油性,干性,所有膚質(zhì)6敏感性11偏干1是2所有膚質(zhì)880推薦中性、干性、混合性及各種缺水性干燥肌膚。1油性31油性及混合性膚質(zhì)2中性23中性,干性1中性,油性1中性及干性1我們可以發(fā)現(xiàn)其中大多數(shù)產(chǎn)品都適用于所有膚質(zhì),因此我們將采用一個二元變量BSKIN來描述適合膚質(zhì)這一變量,1帶表適合所有膚質(zhì),0代表針對部分膚質(zhì)。處理部分結(jié)果如下:之后,對買家購買后的評價數(shù)據(jù)集進行處理。由于技術(shù)方面的缺乏,本論文僅采用評分作為消費者對商品評價的唯一方式。評價數(shù)據(jù)集中的數(shù)據(jù)來源于2013年10月20號到2

8、2號三天的時間產(chǎn)生的評論信息,因此有部分評論并不針對在這三天中所交易的商品,沒有研究意義。用SQL選擇研究所需數(shù)據(jù),并求評分的均值,方法如下:Proc sql; CREATE table Homework.SCORCE as select ID,AVG(SCORCE) as SCORCE from Homework.PL GROUP BY ID; Proc sql; CREATE table Homework.JINGDONG as select * from Homework.SCORCE a FULL JOIN Homework.JDNEWon a.ID=b.ID 根據(jù)EM節(jié)點產(chǎn)生的統(tǒng)計信

9、息如下 我們可以發(fā)現(xiàn)SCORCE變量存在缺失值,因為并非所有商品都被評價,我們將保留缺失值。 對于品牌信息的描述:根據(jù)EM節(jié)點查看BRAND變量的統(tǒng)計信息如下:我們發(fā)現(xiàn)僅選擇銷量大于0的品牌,也存在著大量的變量,并且品牌名稱并不能作為判斷品牌優(yōu)劣的依據(jù)。在我們分析品牌效應(yīng)的過程中,BRAND這一變量并不能表示品牌效應(yīng)的作用。因此我們將通過第三個數(shù)據(jù)集,產(chǎn)生一個新的變量SBRAND來對品牌進行分析。第三個數(shù)據(jù)集代表的是全部主要電商平臺,所有品牌的交易信息。根據(jù)人的從眾心理。我們將按照全部電商平臺中,品牌的總銷量的排名來作為評判品牌優(yōu)劣的標(biāo)準(zhǔn)。利用SQL語言將3天的交易總量合并,并選擇所需數(shù)據(jù):P

10、roc sql; CREATE table Homework.qtest as SELECT ID,BRAND,SUM(SALE) as SALE(select * FROM Homework.q20 UNION ALL select * FROM Homework.q21 UNION ALL select * FROM Homework.q22); 由于京東平臺并非包含全部品牌,因此我們只采用在京東上有銷售的評品牌進行研究,用SQL語言進行選擇,并將該表與原表連接:Proc sql; CREATE table Homework.SORTB as selet * from HOMEWORK.Q

11、test a where a.BRAND in (select BRAND FROM HOMEWORK.JINGDONG); 在SAS中查看部分結(jié)果:可以發(fā)現(xiàn),并非在全網(wǎng)銷量高的品牌在京東平臺上銷量就高,這表名數(shù)據(jù)滿足我們的假設(shè),即品牌并不是唯一決定銷量的原因。經(jīng)過預(yù)處理之后的數(shù)據(jù)變量如下表:變量名稱變量內(nèi)容ID商品IDQ商品銷售量PRICE商品單價INCOME商品銷售額BRAND品牌名稱EFFECT品牌功效描述SKIN品牌所適合膚質(zhì)SCORCE商品打分CAP商品的容量COMB商品是否套裝SALE品牌全網(wǎng)銷量排行E_BS保濕功能E_KY控油功能E_MB美白功能E_XZ細致毛孔功能E_KS抗衰老

12、功能E_QJ清潔功能BSKIN是否適合所有膚質(zhì) 關(guān)聯(lián)分析:為了研究主要哪些因素影響影響到銷售量,我們首先對數(shù)據(jù)進行關(guān)聯(lián)分析。首先對數(shù)據(jù)進行預(yù)處理,為了進行關(guān)聯(lián)分析我們需要采用EM中的TRANSFROM節(jié)點Q,PRICE,SCORE,SALE進行分類預(yù)處理處理,以Q為例: 如下圖所示,將Q分為3個部分: 分類結(jié)果為:將所有變量改為分類變量并且加上標(biāo)識符,最終結(jié)果為:通過轉(zhuǎn)置然后進行關(guān)聯(lián)分析,我們只關(guān)注Q變量,即只關(guān)注銷量受到那些因素的影響。首先,對于Q3類,即銷量高的一類變量進行分析。結(jié)果如下:根據(jù)結(jié)果我們可以“保濕1”以及S3的置信度是最高的,但總體的支持度和置信度都比較低。通過觀察數(shù)據(jù)我們發(fā)

13、現(xiàn),由于數(shù)據(jù)本身的特點,其中銷量較低的商家占相當(dāng)大的比重,因此Q3部分的支持度會非常低。同時Q的分類的閾值為1,10當(dāng)閾值過大時,如1,20時Q3的占比會小于5%。但當(dāng)閾值較小時,代表了有一部分實際并非屬于Q3類的樣本被歸納入Q3,從而就導(dǎo)致了置信度較低,但結(jié)果依然具有說服力。從結(jié)果我們可以看出,對于保濕類產(chǎn)品中好的品牌的銷量是其中銷量最好的商品。同時SC2,或者P1即評分高的商品或者價錢便宜的商品也會有很好的銷量。對于Q2類,即銷量中等的一類變量進行分析。在研究哪些因素能夠提高銷量的時候,我們只關(guān)注哪些變量存在的時候會提高銷量,如產(chǎn)品擁有美白功效,或者擁有保濕功效,但不關(guān)注沒有保濕功效這一關(guān)聯(lián)規(guī)則。在SAS中對關(guān)聯(lián)結(jié)果進行篩選:關(guān)聯(lián)結(jié)果為:根據(jù)關(guān)聯(lián)分析結(jié)果我們可以看出,符合“大瓶,P1,COMB1,1”的商品能夠具有中等的銷量,即在同類商品中大瓶便宜適合所有膚質(zhì)并且是成套出售的商品具有相對更高的銷量。同時,通過別的關(guān)聯(lián)規(guī)則我們可以發(fā)現(xiàn),S3也是一個重要的因素,即在同類商品中,消費者還是傾向與購買公知度較高的商品。對于Q1類,即銷量較低的一類變量進行分析。本文關(guān)聯(lián)分析Q1

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論