廣西移動《大數(shù)據(jù)挖掘與智慧運營實戰(zhàn)培訓》強化學習階段測試題(A卷)_第1頁
廣西移動《大數(shù)據(jù)挖掘與智慧運營實戰(zhàn)培訓》強化學習階段測試題(A卷)_第2頁
廣西移動《大數(shù)據(jù)挖掘與智慧運營實戰(zhàn)培訓》強化學習階段測試題(A卷)_第3頁
廣西移動《大數(shù)據(jù)挖掘與智慧運營實戰(zhàn)培訓》強化學習階段測試題(A卷)_第4頁
廣西移動《大數(shù)據(jù)挖掘與智慧運營實戰(zhàn)培訓》強化學習階段測試題(A卷)_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

廣西移動《大數(shù)據(jù)挖掘與智慧運營實戰(zhàn)培訓》強化學習階段測試題姓名所在部門所屬課題考試說明:本考試題共四大題,滿分150分,包含兩個附件,附件1“客戶流失分析訓練集.xls”和附件2“客戶流失預測檢驗集.xls”,考試結束請將本文檔和附件2一并交回。一、選擇題(單選題,每題4分,共20分,請選出您認為最正確的一個答案)1、以下哪個不屬于數(shù)據(jù)挖掘的范疇(D)A.分類分析 B.回歸分析C.聚類分析 D.數(shù)據(jù)復制2、以下哪一條是中國移動在未來大數(shù)據(jù)運營發(fā)展中的明顯優(yōu)勢(A)A.擁有海量的數(shù)據(jù)資源 B.在大數(shù)據(jù)領域擁有全世界最多的知識產(chǎn)權C.擁有最豐富的大數(shù)據(jù)運營經(jīng)驗 D.擁有全世界最先進的大數(shù)據(jù)人才隊伍3、下圖展示了兩條ROC曲線,請問若希望TruePositiveRate不小于0.9,哪條曲線代表的分類器效果較好(B)A.M1 B.M2 C.兩者一樣 D.需計算具體的AUC4、以下哪個算法不是分類算法(C)A.ID3決策樹 B.K近鄰算法 C.Apriori算法 D.邏輯回歸5、下圖為決策樹預測客戶是否流失的分類表(1表示流失),請問對于檢驗樣本來說誤判率為多少(A)A.23.9% B.8.9% C.76.1% D.98.3%二、判斷題(每題4分,共20分)在分類算法中,命中率和誤判率之和一般等于1。(錯)數(shù)據(jù)挖掘的重要意義之一在于它能構造出人發(fā)現(xiàn)不了的規(guī)律。(對)Apriori算法和窮舉關聯(lián)分析相比,能挖掘出更多的關聯(lián)規(guī)則,并且只需要付出略微多一點的計算量。(錯)在運用決策樹分析時,應避免發(fā)生“過度擬合”的現(xiàn)象。(對)一元線性回歸通常采用“殘差”來評價回歸效果的好壞,對于同一個數(shù)據(jù)集合,殘差越大則該數(shù)據(jù)的線性擬合度越低。(對)三、計算與實際操作題(本大題共5題,90分,請任選3題作答,如果全做,將取前3題計分)數(shù)據(jù)預處理、聚類分析與智慧運營(本題30分)(1).請閱讀附件1,補全缺失的信用等級,將結果填入下表(每答對1個給1分,答錯不給分,共10分)客戶ID信用等級5917四星級5915四星級5914五星級金卡vip5912五星級金卡vip5911四星級5908五星級金卡vip5916四星級5913四星級59105五星級銀卡vip5909三星級(2).請閱讀附件1,畫出屬性“網(wǎng)齡”與屬性“前三月平均DOU”的二維分布圖,找出最為顯著的兩個離群點,答出這些離群點的用戶ID,并將刪除離群點后的二維分布圖貼在下面。(本小題10分)屬性“網(wǎng)齡”與屬性“前三月平均DOU”的二維分布圖中最為顯著的兩個離群點,如下將刪除離群點后的二維分布圖如下:(3).刪除離群點后,運用K均值聚類方法,按照屬性“網(wǎng)齡”與屬性“前三月平均DOU”,將用戶聚成3個簇,將每個簇的中心填入下表,并回答表中的問題。(提示:聚類前需進行數(shù)據(jù)預處理,本小題10分)類別1類別2類別3網(wǎng)齡1916035前三月平均DOU1530935.72915362.4719448686.7799完成網(wǎng)齡與前三月平均DOU的聚類分析后,您對如何提升當?shù)赜脩舻腄OU有什么建議?網(wǎng)齡在160個月左右的用戶(類別2)占總用戶數(shù)的90%左右,而這部分用戶的平均DOU是三個類別中最低的。所以要提升當?shù)赜脩舻腄OU,應該對類別2的用戶實行流量套餐優(yōu)惠,促進用戶對DOU的使用,達到DOU提升的目的。決策樹分析與客戶流失預測(本題30分)(1).請閱讀附件1,以屬性“是否流失”為因變量構造一棵深度為2的CHAID樹,將樹的截圖貼在下方。(2).請閱讀附件1,以屬性“是否流失”為因變量構造一棵深度為3的CHAID樹,將樹的截圖貼在下方。(3).上述兩棵樹,哪棵更好?請簡單說明您的理由。深度為2的CHAID樹分類已觀測已預測01正確百分比02970124999.2%1303493994.2%總計百分比85.3%14.7%98.4%增長方法:CHAID因變量列表:是否流失深度為3的CHAID樹分類已觀測已預測01正確百分比02984710399.7%1252499095.2%總計百分比85.5%14.5%99.0%增長方法:CHAID因變量列表:是否流失從模型的結果來看,深度為2的CHAID樹,命中率為94.2%,誤判率為0.8%;深度為3的CHAID樹,命中率為95.2%,誤判率為0.3%.由此可以看出來,深度為3的CHAID樹效果更好,更精準。(4).對附件1中的數(shù)據(jù)進行深入解讀,選擇您認為最優(yōu)的CHAID決策樹(不拘泥于以上兩棵樹),生成客戶流失的預測規(guī)則,預測附件2中的用戶是否會流失,將預測結果填寫到附件2中對應的列中(標識為綠色)。見附件。相關性檢測、K近鄰算法與客戶流失預測(本題30分)(1).請閱讀附件1,使用雙變量相關分析法找出與屬性“是否流失”最為相關的三個屬性。(提示:做雙變量相關要求變量為數(shù)值型)與屬性“是否流失”最為相關的三個屬性:網(wǎng)齡、當月MOU和前三個月平均MOU。(2).以上述三個屬性為特征,“是否流失”為目標,令K=3,預測附件2中的用戶是否會流失,將預測結果填寫到附件2中對應的列中(標識為綠色)。(提示:需要先將附件1和附件2合并為一個數(shù)據(jù)集合,才能便于分析)見附件2。(3).對附件1中的數(shù)據(jù)進行深入解讀,選擇您認為最優(yōu)的屬性和最佳的K值,運用KNN算法,預測附件2中的用戶是否會流失,將預測結果填寫到附件2中對應的列中(標識為綠色)。與屬性“是否流失”最優(yōu)的三個屬性:網(wǎng)齡、當月MOU、前三個月平均MOU、當月ARPU和前三個月平均ARPU和最佳K值是5。結果見附件2。數(shù)據(jù)預處理與多元線性回歸(本題30分)(1).請閱讀附件1,將“信用等級”重新編碼為新變量“信用等級編碼”,并使用雙變量相關找出與屬性“信用等級編碼”最為相關的三個屬性。(2).以“信用等級編碼”為因變量、上題中得到的三個屬性為自變量,進行多元線性回歸,給出簡要的操作步驟與回歸模型(提示:回歸模型的示例為:信用等級=2.3*DOU+1.8*MOU+2528*網(wǎng)齡)。ROC曲線與算法選型(本題30分)基于第2題第1問的決策樹分析結果,畫出ROC曲線;基于第2題第4問的決策樹分析結果,畫出ROC曲線;比較上述兩條ROC曲線代表的預測模型的優(yōu)劣(言之成理即可)。四、簡答題(本題20分)1、請結合所學知識談談您對項目組后期工作的建議。(提示:可以從項目主題、目標、數(shù)據(jù)采集、數(shù)據(jù)篩選、數(shù)據(jù)挖掘、落地實施等各環(huán)節(jié)中選取一個或者多個來談)對項目組后期的工作,我從我理解的角度對數(shù)據(jù)采集、數(shù)據(jù)篩選這兩個環(huán)節(jié)談談我的看法,因為這兩個環(huán)節(jié)的執(zhí)行效果好壞將直接影響到模型的好壞。數(shù)據(jù)采集是數(shù)據(jù)挖掘的基礎,根據(jù)實際情況進行字段選擇,雖然說選擇字段越多越好,但是我個人覺得可以根據(jù)經(jīng)驗選擇一些相關性比較的強的字段就行。因為在這個所有的字段當中和結果相關性強的無非就那一些字段,而對模型有影響的其實也是相關性強的字段。比如說現(xiàn)在有200個字段可以選擇,我們不一定把這200個字段全部都取出來,可以根據(jù)平時的經(jīng)驗選擇相關性比較強的前50個,或者前30個就可以了。這樣也可以一定程度上減少采集的工作量

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論