考試模擬樣題-數(shù)據(jù)分析應(yīng)用附答案_第1頁(yè)
考試模擬樣題-數(shù)據(jù)分析應(yīng)用附答案_第2頁(yè)
考試模擬樣題-數(shù)據(jù)分析應(yīng)用附答案_第3頁(yè)
考試模擬樣題-數(shù)據(jù)分析應(yīng)用附答案_第4頁(yè)
考試模擬樣題-數(shù)據(jù)分析應(yīng)用附答案_第5頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

-.z1〔50.0分〕移動(dòng)公司想結(jié)合用戶通話行為,推薦相應(yīng)套餐,或者結(jié)合用戶現(xiàn)有套餐優(yōu)化用戶套餐,提供個(gè)性化套餐,從而對(duì)客戶進(jìn)展精準(zhǔn)營(yíng)銷,增加客戶粘性。為此,移動(dòng)公司收集了以下數(shù)據(jù),移動(dòng)公司收集到的數(shù)據(jù)包含以下字段:變量名稱變量標(biāo)簽Customer_ID用戶編號(hào)Peak_mins工作日上班時(shí)間時(shí)長(zhǎng)OffPeak_mins工作日下班時(shí)間時(shí)長(zhǎng)Weekend_mins周末時(shí)長(zhǎng)International_mins國(guó)際時(shí)長(zhǎng)Total_mins總通話時(shí)長(zhǎng)average_mins平均每次通話時(shí)長(zhǎng)data-移動(dòng)用戶細(xì)分聚類.*ls*請(qǐng)你根據(jù)這些客戶數(shù)據(jù),進(jìn)展數(shù)據(jù)的預(yù)處理〔數(shù)據(jù)預(yù)處理過(guò)程中可以根據(jù)現(xiàn)有變量構(gòu)造新變量進(jìn)展分析〕,預(yù)處理之后選擇適宜變量進(jìn)展分析,分析算法自行選擇,寫出分析思路和過(guò)程,通過(guò)數(shù)據(jù)分析對(duì)客戶進(jìn)展細(xì)分,將客戶分為5類。并為移動(dòng)公司提供客戶精準(zhǔn)營(yíng)銷的相關(guān)建議?!舱?qǐng)寫出分析的流程并刻畫最后細(xì)分之后的客戶的特點(diǎn)和相應(yīng)的營(yíng)銷建議〕答案解析:根據(jù)題意解讀此題可以選用聚類方式對(duì)客戶進(jìn)展類別劃分,此處采用Kmeans聚類進(jìn)展模型假設(shè)。1、對(duì)數(shù)據(jù)進(jìn)展預(yù)處理,數(shù)據(jù)均為數(shù)值型,此項(xiàng)不用處理;檢驗(yàn)數(shù)據(jù)可知沒(méi)有缺失值,故此項(xiàng)不用處理;將數(shù)據(jù)導(dǎo)入datehoop平臺(tái)進(jìn)展異常值處理可以看到雖然異常值較多但考慮到可能是特殊人群,故此項(xiàng)不做處理。聚類對(duì)變量相關(guān)性影響較為敏感,因此將數(shù)據(jù)通過(guò)datehoop平臺(tái)進(jìn)展相關(guān)性分析結(jié)果如下:從相關(guān)矩陣可以看出Peak_mins和Total_mins相關(guān)性顯著。此處利用比值法構(gòu)建新的變量peak_mins/total_mins,因?yàn)樽兞恐g取值*圍差異較大,因此進(jìn)展聚類時(shí)需要進(jìn)展標(biāo)準(zhǔn)化〔datehoop平臺(tái)可以自動(dòng)標(biāo)準(zhǔn)化,此處不單獨(dú)處理〕。2、對(duì)變量進(jìn)展聚類,選擇變量peak_mins/total_mins,offpeak_mins,weekend_mins,international_mins,total_mins,average_mins;根據(jù)題目要求,聚類個(gè)數(shù)選擇5,聚類結(jié)果如下:平均輪廓系數(shù)為0.2485,雖然輪廓系數(shù)并沒(méi)有接近1,但也是合理的。在實(shí)際聚類過(guò)程中并不是每次聚類都會(huì)到達(dá)較高的輪廓系數(shù),輪廓系數(shù)不高說(shuō)明類之間區(qū)分性不是特別明顯,但并不代表類之間沒(méi)有區(qū)分3、針對(duì)聚類結(jié)果分析每一類客戶在現(xiàn)有變量上的特征,這里選取平均值作為參考依據(jù),每一類針對(duì)每一個(gè)變量的類中心點(diǎn)如下:0類:工作日通話時(shí)長(zhǎng)、國(guó)際通話時(shí)長(zhǎng)、總通話時(shí)長(zhǎng)都最長(zhǎng),周末通話時(shí)長(zhǎng)也較長(zhǎng),可以定義為高端商務(wù)客戶;1類:平均每次通話時(shí)長(zhǎng)最長(zhǎng),其他通話時(shí)長(zhǎng)處于中等水平,可以定義為長(zhǎng)聊客戶;2類:所有通話時(shí)長(zhǎng)都最低,命名為不常使用客戶;3類:下班班時(shí)間通話時(shí)長(zhǎng)最長(zhǎng),總通話時(shí)長(zhǎng)和上班時(shí)間通話時(shí)長(zhǎng)較長(zhǎng),可以命名為中端日??蛻?;4類:周末通話時(shí)長(zhǎng)最長(zhǎng),上班時(shí)間通話時(shí)長(zhǎng)僅次于高端商務(wù)客戶,國(guó)際通話時(shí)長(zhǎng)和總通話時(shí)長(zhǎng)都較長(zhǎng),可以命名為中端商務(wù)客戶;4、根據(jù)以上客戶細(xì)分的結(jié)果和特征分析,移動(dòng)產(chǎn)品開發(fā)部門有針對(duì)性的開發(fā)設(shè)計(jì)套餐品類,滿足不同類型客戶的實(shí)際需求,增加客戶黏性,提高客戶滿意度,最終提高客戶的生命周期價(jià)值。針對(duì)不同的類別客戶給出相應(yīng)的營(yíng)銷建議。按照教師課堂講解,可以發(fā)揮想象力針對(duì)每一類客戶設(shè)置不同的營(yíng)銷策略,(1)對(duì)于0類高端商務(wù)客戶,移動(dòng)公司可以推出較為優(yōu)惠的資費(fèi)以保證客戶可以長(zhǎng)期使用。在保證國(guó)內(nèi)通話時(shí)長(zhǎng)的前提下,可以推出優(yōu)惠的國(guó)際漫游資費(fèi)。(2)對(duì)于1類長(zhǎng)聊客戶,移動(dòng)公司可以推出相應(yīng)的暢聊套餐或者開設(shè)親情號(hào)以吸引客戶的眼光。(3)對(duì)于4類中端商務(wù)客戶可以推出和高端商務(wù)客戶相似的套餐,以吸引顧客的目光。(4)對(duì)于2類不常使用客戶可以開設(shè)包月低價(jià)套餐,以增加客戶使用率和客戶粘性。2〔50.0分〕通過(guò)游戲用戶相關(guān)行為數(shù)據(jù)預(yù)測(cè)用戶是否會(huì)付費(fèi)*游戲公司,根據(jù)收集的2021年上半年的用戶行為數(shù)據(jù)對(duì)用戶是否會(huì)付費(fèi)進(jìn)展預(yù)測(cè),根據(jù)預(yù)測(cè)結(jié)果對(duì)可能付費(fèi)用戶進(jìn)展精準(zhǔn)營(yíng)銷。該公司一共收集了用戶的編號(hào),以及用戶的注冊(cè)時(shí)間和最后一次登錄時(shí)間,以及用戶退出時(shí)的等級(jí)還有用戶是否付費(fèi)等數(shù)據(jù)。user_id

install_date

last_login_date

level_endosis_payeractive_daysavg_session_t用戶編號(hào)游戲安裝時(shí)間最后一次登錄游戲時(shí)間用戶退出時(shí)的游戲等級(jí)登錄手機(jī)系統(tǒng)是否付費(fèi)活潑天數(shù)每天登錄頻次數(shù)據(jù)及數(shù)據(jù)類型解釋user_id

install_date

last_login_date

level_endosis_payeractive_daysavg_session_t字符型日期型如:2021/5/4

日期型數(shù)值型字符型,取值為:Android和iOS是否付費(fèi)1代表付費(fèi),0代表未付費(fèi)數(shù)值型數(shù)值型游戲訓(xùn)練數(shù)據(jù).*ls*游戲測(cè)試數(shù)據(jù).*ls*游戲預(yù)測(cè)數(shù)據(jù).*ls*請(qǐng)根據(jù)原始數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)展預(yù)處理〔包括對(duì)類別型變量進(jìn)展數(shù)值化處理、重新構(gòu)造新的變量〕,然后根據(jù)原始數(shù)據(jù),自行選擇變量和分析算法進(jìn)展分析〔數(shù)據(jù)提供包含訓(xùn)練數(shù)據(jù)、測(cè)試數(shù)據(jù)、預(yù)測(cè)數(shù)據(jù)、其中測(cè)試數(shù)據(jù)的模型檢驗(yàn)結(jié)果的計(jì)算提供了相應(yīng)的e*cel表格,表名為:測(cè)試數(shù)據(jù)結(jié)果計(jì)算,只需把測(cè)試結(jié)果拷貝到第二類數(shù)下面,相應(yīng)的指標(biāo)即可計(jì)算出來(lái)〕,寫出分析過(guò)程和思路,并且根據(jù)模型進(jìn)展預(yù)測(cè)。答案:1、由題意可知此題是分析用戶是否會(huì)付費(fèi)這一問(wèn)題,可以考慮用邏輯回歸建立模型進(jìn)展預(yù)測(cè)。此題中l(wèi)evel_end、os、active_days、avg_session_t、duration、為自變量,iis_payer為因變量2、對(duì)數(shù)據(jù)進(jìn)展預(yù)處理,因?yàn)榈卿浭謾C(jī)系統(tǒng)OS為字符型數(shù)據(jù),故進(jìn)展數(shù)值化編碼如下:osos編碼Android1iOS2經(jīng)檢驗(yàn)數(shù)據(jù)可知無(wú)缺失值,故此項(xiàng)不用處理;數(shù)據(jù)樣本均衡,符合建模要求;異常值分析:將所有變量導(dǎo)入datahoop平臺(tái)進(jìn)展異常值分析,由箱型圖可知雖然存在異常數(shù)據(jù),但是考慮到可能是分類所致,故此項(xiàng)不做處理。邏輯回歸對(duì)多種共線性敏感,因此需要進(jìn)展共線性分析,將所有變量導(dǎo)入datahoop平臺(tái)進(jìn)展相關(guān)系數(shù)分析,得到相關(guān)系數(shù)矩陣如下:相關(guān)系數(shù)矩陣level_endos數(shù)值化active_daysavg_session_tdurationis_payerlevel_end10.08350.88860.70530.72790.6825os數(shù)值化0.083510.06280.00440.06840.1237active_days0.88860.062810.52810.76720.5323avg_session_t0.70530.00440.528110.38060.5184duration0.72790.06840.76720.380610.4497is_payer0.68250.12370.53230.51840.44971由矩陣可以看出變量之間雖然具有相關(guān)性,但是相關(guān)性不強(qiáng),可以進(jìn)展邏輯回歸分析。3、設(shè)定自變量level_end、os、active_days、avg_session_t、duration分別為*1,*2,*3,*4,*5,因變量is_payer為y,假設(shè)回歸方程lnQUOTE=a1*1+a2*2+a3*3+a4*4+a5*5+b將訓(xùn)練集和測(cè)試集的數(shù)據(jù)分別導(dǎo)入datahoop平臺(tái),選擇相應(yīng)的自變量和因變量,進(jìn)展邏輯回歸分析〔迭代次數(shù)1000次〕模型結(jié)果及檢驗(yàn)情況如下:Accuracy和AUC值,準(zhǔn)確率和召回率都比較高,模型擬合效果較好,訓(xùn)練誤差不大。回歸方程為lnQUOTE=0.1207*1+0.5375*2-0.0009*3+0.117*4-0.0016*5-3.6267將測(cè)試結(jié)果和原測(cè)試集中的實(shí)際分類進(jìn)展比照,得到如下混淆矩陣和計(jì)算出相應(yīng)的準(zhǔn)確率召回率,結(jié)果如下:由混淆矩陣可知Accuracy和準(zhǔn)確率召回率都比較大,模型預(yù)測(cè)效果較好,泛化誤差不大??梢杂迷撃P瓦M(jìn)展預(yù)測(cè)。?平臺(tái)答案解析?答案解析:提示:根據(jù)題目可以選取聚類方法對(duì)客戶進(jìn)展細(xì)分,這里選取k-means聚類方法進(jìn)展分析。k-means聚類要求,納入的聚類變量一般為數(shù)值型變量,而且聚類變量之間不應(yīng)該有較強(qiáng)的線性相關(guān)關(guān)系,如果變量間存在較高的線性關(guān)系且能夠相互替代,則計(jì)算距離時(shí),這些變量會(huì)對(duì)距離重復(fù)奉獻(xiàn),一定程度上影響到聚類結(jié)果。對(duì)數(shù)據(jù)進(jìn)展預(yù)處理,數(shù)據(jù)無(wú)缺失值,異常值分析顯示異常值較多,結(jié)合實(shí)際情況認(rèn)為有可能是特殊人群,所以在此不作處理。通過(guò)查看相關(guān)系數(shù)矩陣看到peak_mins和total_mins相關(guān)性很高,所以只選取其中一個(gè),然后構(gòu)造一個(gè)新的變量peak_mins/total_mins,由于新構(gòu)造的變量取值與其他變量取值*圍相差較大,因此,在聚類分析時(shí),選擇標(biāo)準(zhǔn)化處理之后的數(shù)據(jù)進(jìn)展聚類〔datahoop可以在分析時(shí)默認(rèn)進(jìn)展標(biāo)準(zhǔn)化處理〕;對(duì)數(shù)據(jù)進(jìn)展聚類分析,選取變量為:peak_mins/total_mins,offpeak_mins,weekend_mins,international_mins,total_mins,average_mins,聚類個(gè)數(shù)為5。平均輪廓系數(shù)為0.246左右,雖然輪廓系數(shù)并沒(méi)有接近1,但也是合理的。在實(shí)際聚類過(guò)程中并不是每次聚類都會(huì)到達(dá)較高的輪廓系數(shù),輪廓系數(shù)不高說(shuō)明類之間區(qū)分性不是特別明顯,但并不代表類之間沒(méi)有區(qū)分。根據(jù)聚類結(jié)果分析每一類客戶在現(xiàn)有變量上的特征,這里選取平均值作為參考依據(jù)。對(duì)類進(jìn)展特征分析:1類:總通話時(shí)間(Total_mins)最長(zhǎng),上班通話通話時(shí)間(Peak_mins)最長(zhǎng),國(guó)際通話〔International_mins〕最長(zhǎng),命名為高端商用客戶;0類:下班通話時(shí)間〔OffPeak_mins〕最長(zhǎng),周末通話時(shí)間(Weekend_mins)最長(zhǎng),上班和國(guó)際通話時(shí)間居中,命名為中端日??蛻?;2類:上班通話通話時(shí)間(Peak_mins)和國(guó)際通話〔International_mins〕僅次于第1類,周末通話時(shí)間(Weekend_mins)居中,總通話時(shí)間(Total_mins)較長(zhǎng),命名為中端商用客戶;4類:平均每次通話〔average_mins〕時(shí)長(zhǎng)最長(zhǎng),命名為長(zhǎng)聊客戶;3類:各項(xiàng)通話時(shí)間均很低,命名不常使用客戶。綜上,根據(jù)以上客戶細(xì)分的結(jié)果和特征分析,移動(dòng)產(chǎn)品開發(fā)部門有針對(duì)性的開發(fā)設(shè)計(jì)套餐品類,滿足不同類型客戶的實(shí)際需求。比方:高端用戶推薦各項(xiàng)指標(biāo)偏高,套餐費(fèi)用也偏高的套餐;中端用戶和中高端用戶可以較高端用戶偏低一點(diǎn)進(jìn)展套餐推薦,常聊用戶可以推薦符合常聊特點(diǎn)的套餐,比方通話次數(shù)優(yōu)惠類套餐,低端用戶可以推薦資費(fèi)廉價(jià)的套餐。從而增加客戶黏性,提高客戶滿意度,最終提高客戶的生命周期價(jià)值。答案解析:分析不同特點(diǎn)的用戶是否會(huì)付費(fèi),屬于分類問(wèn)題,這里選取邏輯回歸算法來(lái)進(jìn)展分析。邏輯回歸算法需要考慮是

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論