回歸與神經(jīng)網(wǎng)絡(luò)_第1頁(yè)
回歸與神經(jīng)網(wǎng)絡(luò)_第2頁(yè)
回歸與神經(jīng)網(wǎng)絡(luò)_第3頁(yè)
回歸與神經(jīng)網(wǎng)絡(luò)_第4頁(yè)
回歸與神經(jīng)網(wǎng)絡(luò)_第5頁(yè)
已閱讀5頁(yè),還剩29頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、回歸和神經(jīng)網(wǎng)絡(luò)分析目標(biāo)零售行業(yè)擁有大量消費(fèi)者特征和行為數(shù)據(jù), 通過(guò)對(duì)數(shù)據(jù)進(jìn)行探索挖掘得到的 信息,可以幫助企業(yè)針對(duì)特定的客戶(hù)進(jìn)行營(yíng)銷(xiāo),用最少的成本取得最佳的收益。 分類(lèi)決策樹(shù)模型是一種對(duì)實(shí)例進(jìn)行分類(lèi)的樹(shù)形結(jié)構(gòu)。決策樹(shù)學(xué)習(xí)算法包含特征選擇、決策樹(shù)的生成與剪枝過(guò)程。開(kāi)始時(shí),構(gòu)建根節(jié)點(diǎn),選擇最優(yōu)特征,該特征有 幾種值就分割為幾個(gè)子集,每個(gè)子集分別遞歸調(diào)用此方法,返回節(jié)點(diǎn),返回的節(jié) 點(diǎn)就是上一層的子節(jié)點(diǎn)。直到數(shù)據(jù)集為空,或者數(shù)據(jù)集只有一維特征為止。logistic回歸又稱(chēng)logistic回歸分析,是一種廣義的線(xiàn)性回歸分析模型, 常用于 數(shù)據(jù)挖掘,疾病自動(dòng)診斷,經(jīng)濟(jì)預(yù)測(cè)等領(lǐng)域。神經(jīng)網(wǎng)絡(luò)是一種模仿動(dòng)物神經(jīng)

2、網(wǎng)絡(luò) 行為特征,進(jìn)行分布式并行信息處理的算法數(shù)學(xué)模型,這種網(wǎng)絡(luò)依靠系統(tǒng)的復(fù)雜 程度,通過(guò)調(diào)整內(nèi)部大量節(jié)點(diǎn)之間相互連接的關(guān)系,從而達(dá)到處理信息的目的。本文旨在通過(guò)建立決策樹(shù)模型、邏輯回歸模型、神經(jīng)網(wǎng)絡(luò)模型對(duì)企業(yè)的Organics數(shù)據(jù)進(jìn)行分析,通過(guò)劃分訓(xùn)練集和驗(yàn)證集判斷模型擬合優(yōu)劣, 最終選擇最優(yōu)模型 來(lái)得到購(gòu)買(mǎi)OrganicS勺消費(fèi)者的特征,從而為企業(yè)提供精準(zhǔn)營(yíng)銷(xiāo)的客戶(hù)。數(shù)據(jù)情況1.添加數(shù)據(jù)源二扣;二三-三1 ;"三;:一停?打II虬行英姿|r南包小斗殖八所|63如田肯久匡間里拒地印名型S2LL粕幾應(yīng)他也歇他里cisriD輜目li區(qū)間里EI-AII也河學(xué)近上史輪起54卷型比陽(yáng)E行”口忸

3、河也E同里 河片型 列轉(zhuǎn)型 區(qū)同心 囪疆靳篇罰,扣口出酒酒 0授率此注耳丈其中我們發(fā)現(xiàn)AGEGRP行AGEGRP藥Age內(nèi)容相似,只是用不同形式表示年齡, 因此選擇拒絕這兩組變量;同時(shí), Number of Organic Products Purchased代表購(gòu) 買(mǎi)的有機(jī)產(chǎn)品的數(shù)量,而我們分析的目的是對(duì)消費(fèi)者是否購(gòu)買(mǎi)有機(jī)產(chǎn)品進(jìn)行預(yù)測(cè), 因此該變量相關(guān)性較弱,可以拒絕;最后,我們將Organics Purchased設(shè)為目標(biāo)變量進(jìn)行分析2.數(shù)據(jù)集右鍵探索口 aE3陽(yáng)性道行數(shù)也組列謖虎藍(lán)摘提掛隨庫(kù) 熬輯員鄧桿取卵機(jī)方大行和法”子t30RAJG:,:5ORGA1E':5從圖中可以看到,該

4、數(shù)據(jù)集共有18個(gè)變量,22223個(gè)觀(guān)測(cè)從樣本統(tǒng)計(jì)量中可以看到,大部分變量缺失值都比較嚴(yán)重, 相應(yīng)的補(bǔ)缺處理。IK-. A Qjsimw Id G. IlHtd. EMt. ” *./*. lYRegmIT_JJI TatiiA . I Qaa后面應(yīng)該進(jìn)行IOOuQOOOtiO U 到。加 0ZIC62D U 九則,兒*白 F1帆卯】?Ki加 122J49 21rC2J94獻(xiàn)駁卸70部赭削出K. JfM C4S40 4Dh5q waheatutted 口1011gd T4W Wftl«sAWe< D(MB里16000 Mk 靠 nm&J00hh Jan za Ga 口D.

5、D2MI Jlanz5 印”CiHCnm 。串iAJhu ¥eig 口D 10UIM443a 3M2MBMMO,S07D tfdMta F&aODQOQ2313F21m工29 22Ml2>9ti昵。皿。SD-70dlaidsAMMK771UlUaQt 2M2IM趣g。?0hMHWertLF0WM9131 £2M卻時(shí)MG3。"電口 fast*日箕m0M3X22W。切205 &玩2施6200-30&D-7QHE/Dftuaoad44&2$w加innbdhoo前卻骨高阜IQnODQg®。 f F*劉劃?聰/酶 驍4內(nèi)0 4

6、年F1rlDWNHT«0F1WO3F 2WZIHMMFMK1附7口HEatitFi2o<OCH>9Si4 W 31f12rt2 2WBLQnmn CHMQ1QIMFZOTTHf 23A?JMI14W015樂(lè)UMMF14Q»WtaZ19FZ7HH3 2M2WIH阻副5D-7DSASBaEitC螳甲曲 1 郎J?Kk403NQLOn«nC制南22252431314M磨,修1 31ig 眈 昭小此 Qi'cam WgM 3瓶即眥 "0即 13®519C F門(mén)!一 1QiT2i0T犯g我1U QIMkariTinO.DAklidan

7、Tin0 出熱g/INtidh 白時(shí)num0”1心力lift O.QINbrlh Tin02L1B76M djris 卻 004151博口11G4D1i013b1011°iem GamMn)08c|hb曲,中I用r 3lwrD.013-7tflti EBSf Timri r 1 'J.* .rln E&3P TirE短工股.三煙加考 亞里喜將打笠我MM 失 IS+最小值量大推優(yōu)初芻4比 A Ji1AGEGRPHGirDUpI CL*SS5 503333.544 254MC2*XSGHP2中 tifouri 2 CLK3SM5J35,8SJ MiMi&UO CL

8、AS3CuitQ in«f L CLA3S0433 2S&LVERCUBICCmtomtf id CLASSQ1和,0 775194000001001405 GENDERCLASS11 2S4S2 9SFtkLIGbBoHType.CLASS2 383333S6S918667527NGRCKJPNjhaortia Cuas2 903乃3.B就 &166?CgRLGiOMQzgup*. CLASS1.WJ333施 4£ SOUTH EA.flK REGTm' Rtaior CLASS1W3333,1427 3LCNDOHWAFFLAfiiu的e5WtR

9、51298 674211.11 AGE七 wVAR3.583323ss7S5.6SQ1i.-13BI-LTotal Amou. VAR0C.012BS3139i3219£4.-.DOBD小4日卅VAR0皿制7138-5856 33.W EDATEO3U口 I M照013D33130331.303-3.15LCDA1ELOT% 6dRV2S3333-21Q14133W11661 坳16LTIMEYam冶 as L. MAR1.28333303f8f.5S12K.17 ORGANICSMumMcrf. VAR0030JB7a33怡。RAN。用口吐國(guó)P.a. VARQ01(E243333,

10、上圖顯示了數(shù)據(jù)集的前面15條數(shù)據(jù)從所有變量的頻數(shù)統(tǒng)計(jì)圖中可以看到, 除了已經(jīng)拒絕的變量,其余大部分呈 現(xiàn)正態(tài)分布,只有變量 BILL和LITME變量呈現(xiàn)偏態(tài)分布,因此后期數(shù)據(jù)預(yù)處理 時(shí)應(yīng)該對(duì)這兩個(gè)變量進(jìn)行轉(zhuǎn)化處理。3.統(tǒng)計(jì)探索從目標(biāo)變量的頻數(shù)分布圖可以看到購(gòu)買(mǎi)人數(shù)占比大概是25%,而不購(gòu)買(mǎi)的人數(shù)占比大概是75%,說(shuō)明我們的樣本還是有意義的。數(shù)據(jù)預(yù)處理1 .數(shù)據(jù)分區(qū)設(shè)置訓(xùn)練集比例70%,驗(yàn)證集比例30%。經(jīng)過(guò)上次決策樹(shù)實(shí)驗(yàn)得出70%&30% 比例較好,因此本次建模直接這樣分區(qū)。分區(qū)匯總類(lèi)型數(shù)據(jù)第DA.TAEHWSl.Ids_DATA££E明mmElfllSl.Part

11、.TIiAIN15656EHIS.Fart_VLDATE66&T分區(qū)結(jié)果如上2 .轉(zhuǎn)換變量生型別士刑士刑一型名聞名名間聞名名列區(qū)列列區(qū)區(qū)列列間fflfe名d-默認(rèn)q默認(rèn). 對(duì)射 鬻認(rèn)44i購(gòu)4瓊認(rèn)4默也 默認(rèn)qa4cietidGENDERiriHEirETGHEORFnODITGEjW絕標(biāo)入久箍輸輸輸輸輸入 喻拒目招租 方法 箱個(gè)數(shù) 用色 |水平3FL蜀認(rèn)4輸入?yún)^(qū)間型AGE4AGEGKP1默認(rèn)4拒絕列名型AGEGKT2鬻M«拒絕下1名型BILL對(duì)照q輸入?yún)^(qū)間型iLhSS4根據(jù)以上數(shù)據(jù)探索分析,將 BILL變量轉(zhuǎn)換為對(duì)數(shù),將LTIME變量轉(zhuǎn)換為對(duì)數(shù)。源燧變量名禰公式水平數(shù)非魁值

12、InputOriginalBILLB3B9InputOriginalLTIME6765OutputComputedLOG-BILLlog(BILL +1)8部9OutputCorn putedLOG.LTIMElogfLTlME +1)-B7B5轉(zhuǎn)換結(jié)果如上,將BILL和LTIME變量轉(zhuǎn)換為對(duì)數(shù)。3 .替換變量分類(lèi)變量TV_REG!顯有多個(gè)重復(fù)情況,但是用不同名稱(chēng)表示,因此我們將 部分變量值進(jìn)行替血,將數(shù)據(jù)規(guī)約成較為簡(jiǎn)潔的結(jié)果。1 V_KfeG_and<Fin433JcLcndauTV_EEGM: dZLaxids:2191c師血皿成tuegSAS B«EtI<Dt168

13、9S & S E&MTV_RECIT WestTedL140cH NtaiTV_RECWties 展 lestTebL11S4c alts; &. 1 estTV_FEQ工田11召cE 3 i .TUEG¥中品冊(cè)hi i .torcTrkikii«T¥_REGC 5mtiai向ScutliiLud503c: ScgLluidT¥_REGIT EastEastr5士cn E*stTTJTG3 lestlest479c3 VtslT¥_EEG332匚T5Gir s»tot.land233cH StfltIU_5&#

14、163;GUlEter179cUL=t«rB d-y dar*iTV KEG _inwj#u_»KF*inr_.匚4 .補(bǔ)缺名禰 使用 方法 | 使用樹(shù)h7 "jOT"F癖段認(rèn)怛就認(rèn)蛇E函1期八默認(rèn)斯AAG-EGW2默認(rèn)雅猛CLASS靛賽認(rèn)CIT5IID黃認(rèn)默認(rèn)EDATE副認(rèn)Eu豫認(rèn) 需認(rèn) 新認(rèn)絕 自 +T縫UDJ ij維人名名 巴叵列列列型型列名空單值型GEHMR 默認(rèn) 分布 即認(rèn)輸入U(xiǎn)-EILl 射認(rèn)LOG_LT工ME默認(rèn)1TE工GHEDE加。D默認(rèn) rGTOUFCiRsm方默認(rèn)口網(wǎng)雅認(rèn)fi劃布布認(rèn)分分絕絕入絕拒拒輸拒ff目間間君名名值區(qū)區(qū)列列列.二

15、型型R1F/FL默認(rèn)機(jī)_盛默認(rèn)班FJ)G£LL野認(rèn) RSF邱上。就認(rèn) MT I7 M0 默認(rèn)UUUMMtra frkn- rr rA Fu.判型叁學(xué)E,- L %- LrllJI-T1為男星星學(xué)OKJA認(rèn)認(rèn)認(rèn)認(rèn)認(rèn)入入輸箱型型型目同同團(tuán)囪團(tuán)默認(rèn) 分布 默認(rèn)拒絕列名空模型建立所有模型的流程圖如下:RGAHICS二翦粒卻棺因 - -F國(guó)催儂模型一:默認(rèn)回歸查看-結(jié)果t的陰附&w10 屈 1%Araiks l e of 二 man L>ikBlih.ool natesStiTidirtlWEHSt ndardli rad? ar mr<4 1 *rJFlitEr r or

16、Chi-Saiisr*Tr > du SaE5tinst?SuptEst)工工七審:r O4:p+1-1.25CQ0.104342 O S< ooai0.2S4CLASSCold10. CO3C5 owe0 CO0.95<1.004CLASSFla.ti?i'um1-D. 19E10.122s2 4S口. 11680.325CUSSSilvvs-10 口 5 45o.ow0 CO?.e&661.007工犯_®皿EKr1D.07460.0331087 GO<.ODC1I.MCrirrjaiiBELN1D.04C10.03®1 35D.Z

17、4440.955由oourA1-D.0978(ten 也1 T40.16160.907iiitbdutB1-D.OEZTO.Q5Z3Q 191 155mg0.3TBifirr 廂sourC1D.03U0D,0350 53Q.533e1.030工就UGBOUTDi-D.02780.04970 31J.S?63(J.9T31即J*加LE1-0 01150 06020 CR1 7TH0 983rN?KKlLFTF10.01900 05140 140.7124L019IffiP_F£CIOINi H antJs10. 1SC20.1?2 CQ0.1.1中ZffiP=IEffiLOIHeir

18、tK1D.O3E20.12820 030.7537LO361WF.EE 皿 IScotti sK1-D.47S60.44991 10Q.39;E0.623IWJiCIOISmUi East1D.O7CS0.0 31D.E778LOTSmm JJFL1D.25130.O3H1112S0 44<.OOC1Q 4400L 2SBriFTJIf JWE1-D.O52G0.0395TSS.51< ooai-0. 3G970.949Zirr_HrwIlkQ_LTllVE1-D.O2CF0.04D3O爾3. Bl IS-0. OOB4£i0.900工 NT.皿 T.KIGlordey1

19、D.3SZ4Q.46QO0 ST0.4139l,«0IffTJJIF.IJRIGEasti-0.00660.15Z30我D.3DE10.915iirrj£r_ir_UGLo.dM1-0 C0Q11015600 COJ. 99=4L.OOOLITF_hEF_IE_K£GHi 11g 也1-0.18L1U. 1儂1 24.Z北NU 8351IFP_F/_TJR£GScitl 5a10,S4C40 43(B1 572099l.717rTPjEPjrrjiGUlster1-1 45C90 26032 991 OB36(1 637ffP 尸 P.TY.RIG

20、9;Mact1-D。4厘0 15強(qiáng) DT。7R4E0 958REP LOO-LL1D.OL0.020»0 44Q.5Qf40, Q29Qi.oid從結(jié)果看,默認(rèn)回歸模型選擇的變量太多,并且將P值較大的變量也選入了 模型中,這種模型并不能很好地反映出現(xiàn)實(shí)情況,因此我們將改進(jìn)算法,設(shè)置回歸屬性參數(shù),從而得出更好的回歸模型。模型二:逐步回歸查看-結(jié)果Arialrsi s «£,訓(xùn):日回E&tknatesStMi.darcl¥al iStendir di idRw 4mHl."SJ田二七二m一:電Err >rCil: £q.&#

21、171;r s£rChiuq& £ tlB4tc:2«p Qst)Interzert-i-CBsa0,112692. &5<.J001 T五工 MJGZBLERF:D. 87430.0331699.13< oooi2.397加 WHLERM:-0.04500.03951,33a. 257 9KIMT 電AFfLD.Z5U OUTQS1255. & J<.m 10, M即1班1-0 0S370 OOI 7T通12< loci-C TT74a q4A設(shè) IMP_GENDER_fe Xi, IMP_GENDER_M X2,

22、 IMP_REP_AFFL X3, IMP_REP_AG的 X4則logistic方程如下:EY1. 0858 0.8743Xi - 0.0450X2 0. 2513Xa 0. 0537X4e1.0858 0.8743Xi- 0.0450X2 0. 2513X3 0.0537X4e模型三:自動(dòng)神經(jīng) 查看-權(quán)重(最終)神經(jīng)網(wǎng)絡(luò)圖如下:輸入層隱藏層輸出層REf LOG BILLIMP RtP TV REGWwtIMP REP TV REGUIsteIMP RFP.TV REGScotlan2g8136S4 兀 LULblbSGIMP RFP TV REGEait0 SCI 959IMP REP T

23、V.REGBorder4829310 370474IMP REP LOG LT!MEb/d 14-0.0200IMP REP AGEHlxl 1L692IMP REP AFFLIMP REGIONSouth East0IMP REGIONScottishIMP REGIONNorthIMP REGIONMidhndsIMP NGROUPF:HLcl 2IMP NGROUPFIMP NGROUPDU IIIMP NGROUPCIMP NGROUPBIMP.NGROUPAIMP GENDERK1IMP GENDERFIMP KtP TV RfeGMidlandIMP REP TV REGLondo

24、n-0/9803ll模型四:自動(dòng)神經(jīng)(4)國(guó)性侑卜府.陶甲無(wú)總部;最矮訓(xùn)轎1最終迭代數(shù)救:舌國(guó)飄Hliir ect Zxp oneiLti al上調(diào)整詵代次凝E Q r F -1 e石11e >1B 315siar也否*-1 amJi是選擇只用Tanh激活函數(shù)由圖中可以看到,模型選擇了第1步迭代的結(jié)果模型五:神經(jīng)網(wǎng)絡(luò)Optinti on f.ezult sI上班C aliiOlij*e Fujii.Iiu£iLambda.Ra&ULD16 Func li on Cd.li20 Activ4 ConstriiTits: 420T53232C Nax AL Gt 虱還M 口

25、ehM0. D12S4320n Actud. 3v&r FK Choig* D1D81429TBZT0O.OOOC2CG5350.703e9E8327C bxk.var cri t an 沁 CfCOJVO. 0Q0 .) at i s £i «d.由圖中可以看到,模型迭代了 18步,已經(jīng)在現(xiàn)有的條件下滿(mǎn)足停止條件由圖中可以看到,模型選擇了第 6步迭代的結(jié)果z nl h1模型六:神經(jīng)網(wǎng)絡(luò)(2)在網(wǎng)絡(luò)中設(shè)置Bt藏單元數(shù)為13,在優(yōu)化中設(shè)置最大迭代次數(shù)為 200(嘗試過(guò) 幾次,發(fā)現(xiàn)一共需要迭代189次才能滿(mǎn)足停止條件),并且將模型選擇準(zhǔn)則改為 “誤分類(lèi)率”。優(yōu)化初始化種

26、子12345模型夠擇準(zhǔn)則誤分類(lèi)禁止輸出否模型結(jié)果Opti ni zat i on Result eorali $H5G a Ji eJil C all 工Obj ec live F uncti uii3Lope ct Search Uirectian1160O.OOC454253&1弱 Function, C4IZ.3<11 Active Li al nt0.090090707 Mat WLt Gindkinl EIeejuI-C. 0U0O14LiZ¥Denver«anc« :irit«ri«n 箕QW=O,<XJU1J

27、fati帛fiel.由圖中可以看到,模型迭代了 189步,已經(jīng)在現(xiàn)有的條件下滿(mǎn)足停止條件 查看-迭代圖-誤分類(lèi)率由圖中可以看到,模型選擇了第 27步迭代的結(jié)果 查看-模型-權(quán)重(最終)模型七:默認(rèn)回歸-神經(jīng)網(wǎng)絡(luò)(3)IterationsUi C«ll tObjsetiv* FunztionLsmkil 立Radi us:T Function Cialis19 Ac Ui r« Cciiatr amia. 0.4173578626 M&x Ais Gradient 0 5=35325055 3打4 D* Pnd 0.0029473627 '0. 0001871

28、2060.怡通4mMCfQfnvax-gemg« bi t>ari-兩* CQSVR, 0001 ) gti sfi c:d.由圖中可以看到,模型迭代了 17步,已經(jīng)在現(xiàn)有的條件下滿(mǎn)足停止條件 查看-迭代圖-誤分類(lèi)率由圖中可以看到,模型選擇了第1步迭代的結(jié)果 查看-權(quán)重(最終)模型八:默認(rèn)回歸-自動(dòng)神經(jīng)(2)由圖中可以看到,模型選擇了第 5步迭代的結(jié)果模型九:逐步回歸-神經(jīng)網(wǎng)絡(luò)(4)本模型的神經(jīng)網(wǎng)絡(luò)參數(shù)和前面神經(jīng)網(wǎng)絡(luò)(2)的設(shè)置保持一致 查看-迭代圖-誤分類(lèi)率IV工*g40洲編建收"產(chǎn) H :/由而白tum力扯白 -v,ldEsRTn Fart/查看-權(quán)重117金HI

29、11-119IMF REP AFFLIM F GEHCJERFMIF RE P AGElMP_Gl=bJDtF MH1SORGtNl13 770 13神經(jīng)網(wǎng)絡(luò)圖如下:IMP REP AFFLIMP GENDERMIMP GENDERF輸入層IMP REP AGE隱藏層H11-0 22238H110-0 388213 5535:uni:O138980 725051 19714-0 514996H1151 452350 31155-L 07476.1 265471-L49230.9196170 201L7-H14-1 202JZ096HIS-0 217571 7883278193442 07454

30、-0 00710 6370890 47474'0439521H1B-0 30L04-0.001478011958/0”49力51972輸出層783 州 3H16007991H19模型十:逐步回歸-自動(dòng)神經(jīng)(3) 查看-迭代圖-誤分類(lèi)率由圖中可以看到,模型選擇了第18步迭代的結(jié)果 查看-權(quán)重分析結(jié)果1 .訓(xùn)練集和驗(yàn)證集的ROC曲線(xiàn)如下:2.擬合統(tǒng)計(jì)量如下擬合統(tǒng)計(jì)里選擇模型基于:Valid: liscltssi fication Rate (_VMISC_速定模型模型節(jié)地楨型浜明Train:Vilid: Average SquaredErrorValid.:Mi sclassi fi ca

31、tionR.t。AverageSquared E»xTrain:M i sclassi ficationRftt。INeurl4神經(jīng)網(wǎng)絡(luò)(。0. 183770. 133240.184290.13151AutuNur «14自動(dòng)神經(jīng)co0. 103920. 13375O. 105320.13250Tree2決策樹(shù)(2)0. 183920.139840.186090.14010AutoNeural自動(dòng)神經(jīng)0. 184220.133750.185250.13261AutoHovir U2日動(dòng)神經(jīng)(2J0. 184220. 13375O. 185250.13261Nour神經(jīng)網(wǎng)絡(luò)0

32、. 14520. 13379O. 185770.13251Neural2神經(jīng)網(wǎng)絡(luò)(2)0. 184670.132370.181400.13465Tree決策樹(shù)0. 187070.141020.185510.14110Neural3神經(jīng)網(wǎng)維(30. 19T3T0. 13316O. 184680. 13285默認(rèn)回歸0. 190220. 138800. 192900. 13731Reg2逐步回歸0. 190520.138940. 190850. 13700AatoNeural3自動(dòng)神經(jīng)(30. 3T4590.282070.370570. 2879T口執(zhí)W遏前趙爺.圓板型毛金植到說(shuō)明目標(biāo)度里目標(biāo)標(biāo)筌

33、Train:Valid:當(dāng)ValidMisclassifihllsdassincation RateMisdassiacation Ratecation RateNeural2Meural2CRGYNOrganics 30.1845610.1813970184668YNeural4Neural4涮綱紹4ORGYNOrganics 2.0.1837680.164290.183768Autor4eura4 AutoNeural4自動(dòng)神經(jīng)4ORGYNOrganics 2.0.1839180.1853190.183918AutotJeuralAutoNeural自初神經(jīng)ORGYNOrganics ).

34、0.1842180.1852540.184218AutoHeura2 AutoNeural2自謝幄2.ORGYNOroanics 乙0.1842180.1852540.184218NeuralNeural:艇網(wǎng)紹ORGYNOrganics ).0.1645180.1857660.184518Neural3Neural3蝴標(biāo)3.ORGYNOroanics P.0.1873690.1846760.187369Reg2Reg2逐步回歸ORGYNOrganics 2.0.1905190.1908470.190519ReaReammORGYNOroanics0.1902190.1929040.19021

35、9TreeTree夬觸ORGYNOrganics 2.0.1670690.1855110.187069Tree2Tree2夬第樹(shù)(2,ORGYNOroanics 3.0.1839180.186090.183918AutoHeuraS AutoNeuraIG自幼神經(jīng)3ORGYNOrganics 2.0.3745070.3705730.374587訓(xùn)練:ROC索引蛉證:ROC 索引ill陳:Gini系數(shù)蛉證:Gini 系數(shù)訓(xùn)隰增益證:增益訓(xùn)練:提升 度監(jiān)證提升 度:0.8250.8170.650.633217.7903207.50782.7861782.715952:0.8210.8290.643

36、0.657215.7149218.60552.7861782.922073i0.8210.8250.6410.65215.1961208.11312.7861782.6795770.8210.8250.6410.65215.1961209.32382.78617827038270.8210.8250.6410.65215.1961209.32382.7861782703827(0.820.8250.6410.65215.7149210.53442.7758012740201|0.820.8240.640.648218.828211.74512.7809892.8008250.8030.8080

37、.6050.617205.03210.53442.6632772.7887I0.8040.8080.6070.616206.3758208.11312.6772212.740201I0.7520.7520.5040.505208.3307207.91362.7564732.757245I07680.7740.5360.547217.7958211.85722.90932829398270.4510.447-0.099-0.10652,4611759,442870.5564570 484991ill維里和 提升度始證:牛 提升度ill陶:哂胸 百分牝4前都Q殖應(yīng)百分比的證|向近 百分比以F坪 響

38、應(yīng)百分比口僧渴方口瓶百分比U嗡二耳粗掛蕓響應(yīng)百 幺比蛇記楣茂響應(yīng)百分比端F蟠源 程南西分比3 TP 凱 33Q百。飛9 D231478 7 26.2572775.16-9213 33359 7851C13 557f330 讀 23315714931 呢055河4782133772 37% 7電91G5413 0335831 &775S14.5&72131 079»7315191613 0811159L3231478 03W355.3 茹3775.1118413-93358A 5Z,湖13.3358330.829B31519013 09323359 23147 3 08

39、.13363寸鄴712 9235331加兜gH 5365730 96331519613 g32 軸59 M5147白。蟲(chóng)戒的 K6977BG116913 9335831 S25S115565730 95峭 431571493.1 際“0766i77017£7 $578776.911541301691A6096731.075Mi 1l/4b1aS£0i678.06466時(shí)輜3 /W211MD13.0076358 8出一士i3.»ait:211.10322J.35C33.1053445tJ7sa/7,弼bl 0690 778.01154U.318M30iS0SSfl1

40、3.9306&31JJ720B3 06375830S1131aa 1939175 ggm87 B97B778,3118113 3B8M20 0434?13 aaac7瓠BMB30333073913630 23724753840MS%76 M24213 7850230 0390330 809133177959311QS7272 37199757230872&12C977,2391B14 5494:317857114 696931.20J4304753SS0*旺E137863511 77 潮12 0120110,044S927B28234.7&4S2 4227744 058

41、"。從擬合統(tǒng)計(jì)量中,我們可以看到模型比較中的選擇準(zhǔn)則是驗(yàn)證數(shù)據(jù)集的誤分類(lèi)率,從誤分類(lèi)率結(jié)果看,最后選中了神經(jīng)網(wǎng)絡(luò)(4),也就是在逐步回歸后面再 加上一個(gè)神經(jīng)網(wǎng)絡(luò)模型,并且在網(wǎng)絡(luò)中設(shè)置隱藏單元數(shù)為13,在優(yōu)化中設(shè)置最大迭代次數(shù)為200,模型選擇準(zhǔn)則改為“誤分類(lèi)率”。對(duì)比自動(dòng)神經(jīng),可以知道 在本數(shù)據(jù)集中,隱藏單元數(shù)越多誤分類(lèi)率月低,選擇的準(zhǔn)則為“誤分類(lèi)率”也會(huì) 相應(yīng)地降低。同時(shí),我們可以看到神經(jīng)網(wǎng)絡(luò)的效果普遍比回歸效果好,回歸效果普遍比決策樹(shù)好。神經(jīng)網(wǎng)絡(luò)通過(guò)自學(xué)習(xí)不斷修正誤差,最終得到較好的效果。結(jié)果討論與建議通過(guò)對(duì)十二個(gè)模型(自動(dòng)決策樹(shù)、優(yōu)化決策樹(shù)、回歸、逐步回歸,自動(dòng)神經(jīng)、 神經(jīng)網(wǎng)絡(luò)

42、、回歸+自動(dòng)神經(jīng)、回歸加神經(jīng)網(wǎng)絡(luò)、逐步回歸加自動(dòng)神經(jīng)、逐步回歸 加神經(jīng)網(wǎng)絡(luò))的比較,我們最終選擇了逐步回歸加神經(jīng)網(wǎng)絡(luò)模型。先通過(guò)逐步回 歸選擇變量,再通過(guò)神經(jīng)網(wǎng)絡(luò)優(yōu)化參數(shù)。接下來(lái)對(duì)每種類(lèi)型的模型選擇一個(gè)結(jié)果 較優(yōu)的進(jìn)行分析,最后對(duì)商家提供建議。決策樹(shù)模型中,我們最終選擇 40%&60%進(jìn)行數(shù)據(jù)分區(qū),設(shè)置最大分支數(shù)為 3、評(píng)估測(cè)度為ASE的模型。表1模型二購(gòu)買(mǎi)人群特征AGEAFFLGENDER<39.5(7.5,34.5)F<39.5(11.5,34.5)F,M缺失(39.5,44.5)(9.5,14.5)F>44.5(18.5,34.5)ALL>44.5(15.

43、5,34.5)F我們從圖中可以看到購(gòu)買(mǎi)人群女性居多,其中小于39.5歲的女性,只要財(cái)富等級(jí)大于7.5就會(huì)購(gòu)買(mǎi)有機(jī)產(chǎn)品,39.5歲到44.5歲之間的女性只要財(cái)富等級(jí)達(dá) 到11.5就會(huì)購(gòu)買(mǎi)有機(jī)產(chǎn)品,大于44.5歲的女性只要財(cái)富等級(jí)達(dá)到15.5就會(huì)購(gòu)買(mǎi) 有機(jī)產(chǎn)品。而小于39.5歲的男性財(cái)富等級(jí)達(dá)到11.5才會(huì)購(gòu)買(mǎi)有機(jī)產(chǎn)品,大于44.5 歲的男性財(cái)富等級(jí)達(dá)到18.5歲才會(huì)購(gòu)買(mǎi)有機(jī)產(chǎn)品。一些性別情況缺失以顧客購(gòu) 買(mǎi)有機(jī)產(chǎn)品的條件與男性相同。性別為未知的則只有大于44.5歲的人群,并且財(cái)富值達(dá)到18.5才會(huì)購(gòu)買(mǎi)有機(jī)產(chǎn)品。回歸模型中,與默認(rèn)設(shè)置的模型相比較,我們最終選擇逐步回歸模型,并且 選擇準(zhǔn)則為“驗(yàn)證誤

44、分類(lèi)率”。設(shè) IMP_GENDER_fe X,IMP_GENDER_M 為,IMP_REP_AFFL X3, IMP_REP_AG的 X40. 0537X4則logistic方程如下:EY1.0858 0.8743X1- 0.0450X2 0. 2513X31.0858 0.8743X1 - 0.0450X2 0.2513X3 0. 0537X4可以看到性別為女對(duì)目標(biāo)的影響最大,女性大部分都會(huì)選擇購(gòu)買(mǎi)有機(jī)產(chǎn)品;性別為男對(duì)目標(biāo)的影響呈相反方向,但是影響程度較小,部分男性不會(huì)選擇購(gòu)買(mǎi) 有機(jī)產(chǎn)品;財(cái)富對(duì)目標(biāo)的影響呈正相關(guān),說(shuō)明財(cái)富越多的人群越會(huì)選擇購(gòu)買(mǎi)有機(jī)產(chǎn)品,但是相比性別對(duì)目標(biāo)的影響力,財(cái)富因素小

45、很多;年齡對(duì)目標(biāo)的影響呈負(fù)相關(guān)關(guān)系,但是影響力極小,說(shuō)明年齡較大的人相對(duì)于年齡較小的人來(lái)說(shuō),比較不會(huì)選擇購(gòu)買(mǎi)有機(jī)產(chǎn)品。D 001478-DlLSSHi?!?amp;叼黨入層輸出房Q期?15口靠網(wǎng)072M5I仁二A1231 4W350 UM,dr-yn1 2&M7L1白巾1腎L為j ;bU7|工 QM54田 01 ?6Q RE Dfl 號(hào)om?不0 4JSUL7 Mga07W1-a w?f 汨神經(jīng)網(wǎng)絡(luò)模型中,我們最終選擇逐步回歸加神經(jīng)網(wǎng)絡(luò)模型。 從結(jié)果中可以看至IJ,最終影響目標(biāo)的變量有 AGE AFFL GENDERM GENDERF后續(xù)預(yù)測(cè)顧客是否會(huì)購(gòu)買(mǎi)有機(jī)產(chǎn)品,只要獲取顧客的年齡、

46、收入、性別三個(gè)屬性,就可以通過(guò)已經(jīng)建立好的神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)測(cè)該顧客是否會(huì)購(gòu)買(mǎi)有機(jī)產(chǎn)品 通過(guò)以上結(jié)果分析,我們建議企業(yè):第一,數(shù)據(jù)需求。企業(yè)要進(jìn)行精準(zhǔn)營(yíng)銷(xiāo)所需要獲取的數(shù)據(jù)主要包括性別、財(cái)富和年齡,三者的重要性依次降低,所以如果只能獲取前面變量的數(shù)據(jù)也可以通 過(guò)補(bǔ)缺后面變量進(jìn)行預(yù)測(cè),效果不會(huì)太差,因?yàn)樾詣e變量對(duì)是否購(gòu)買(mǎi)有機(jī)產(chǎn)品這 個(gè)目標(biāo)的影響力太大。第二:綜合推薦。成本允許的條件下,可以大范圍對(duì)一定年齡范圍內(nèi)的女性 顧客進(jìn)行推薦。大部分女性承擔(dān)著家庭主婦的角色, 針對(duì)女性進(jìn)行推薦效果更顯 著。同時(shí),隨著國(guó)家整個(gè)經(jīng)濟(jì)環(huán)境的發(fā)展,越來(lái)越多人傾向于花更多的錢(qián)來(lái)買(mǎi)一 個(gè)健康保證,因此財(cái)富等級(jí)對(duì)顧客是否購(gòu)買(mǎi)的

47、影響已經(jīng)越來(lái)越小了。第三:精準(zhǔn)推薦。首先,有機(jī)產(chǎn)品的精準(zhǔn)營(yíng)銷(xiāo)可以瞄準(zhǔn)小于39.5歲的年輕女性顧客,特別是財(cái)富值達(dá)到一定等級(jí)的;同時(shí),也可以針對(duì)大于39.5歲的中老年女性顧客進(jìn)行推薦,這部分顧客的財(cái)富等級(jí)應(yīng)該高于年輕女性顧客;然后, 在成本允許的情況下,可以針對(duì)一些財(cái)富值較高的男性顧客進(jìn)行推薦。發(fā)現(xiàn)與收獲通過(guò)本次作業(yè),我學(xué)會(huì)了通過(guò)sAsa件進(jìn)行數(shù)據(jù)挖掘的基本過(guò)程,并且從中 學(xué)到了某些重要的處理過(guò)程,接下來(lái)我會(huì)簡(jiǎn)單介紹下每個(gè)部分的體會(huì): 1.確定目標(biāo)目標(biāo)的確定對(duì)后續(xù)的分析很重要,明確的目標(biāo)能夠?yàn)閿?shù)據(jù)收集以及后續(xù)建模 提供正確的方向。本次作業(yè)中沒(méi)有涉及到目標(biāo)的確定,但是經(jīng)過(guò)簡(jiǎn)單的數(shù)據(jù)探索, 可以發(fā)現(xiàn)

48、數(shù)據(jù)集中不僅有是否購(gòu)買(mǎi), 還有購(gòu)買(mǎi)量?jī)蓚€(gè)變量可以作為目標(biāo)。 假設(shè)企 業(yè)有較多的資本來(lái)進(jìn)行該項(xiàng)業(yè)務(wù)的執(zhí)行, 那么可以選擇是否購(gòu)買(mǎi)指標(biāo),以覆蓋到 更多的顧客群體,讓有可能購(gòu)買(mǎi)有機(jī)產(chǎn)品的顧客都得到推薦信息; 相反,如果企 業(yè)在該業(yè)務(wù)上的資金緊缺,則可以選擇以購(gòu)買(mǎi)量作為目標(biāo)進(jìn)行分析, 最后進(jìn)行精 準(zhǔn)營(yíng)銷(xiāo)的顧客只選擇那些購(gòu)買(mǎi)量較大的顧客,這樣子能夠讓所有的推薦有更大的 概率獲得顧客,提升了顧客購(gòu)買(mǎi)產(chǎn)品收益占推薦成本的比例。2 .數(shù)據(jù)收集數(shù)據(jù)收集對(duì)挖掘起著至關(guān)重要的影響。能夠收集到的變量種類(lèi)以及收集的數(shù) 據(jù)質(zhì)量對(duì)后續(xù)分析起著很大的影響。 我們看信息質(zhì)量主要看信息的客觀(guān)性、 正確 性、完整性和及時(shí)性。如果收集的數(shù)據(jù)能夠滿(mǎn)足這些特性,那么相應(yīng)地也能夠提 高分析結(jié)果的準(zhǔn)確性。本次作業(yè)沒(méi)有涉及到數(shù)據(jù)收集,但是我們看到數(shù)據(jù)的缺失 值

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論