




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
處理電信運(yùn)營商用戶信息數(shù)據(jù)電信運(yùn)營商用戶分析任務(wù)描述電信運(yùn)營中電信企業(yè)需要考慮如何最大程度地控制客戶流失、挽留現(xiàn)存在網(wǎng)用戶并且吸取新客戶增加盈利等。對于電信企業(yè)而言,分析和預(yù)測運(yùn)營商流失用戶數(shù)據(jù)是一項(xiàng)非常重要的工作,以便于建立健全網(wǎng)絡(luò)綜合治理體系,推動形成良好網(wǎng)絡(luò)生態(tài)。分析與預(yù)測流失用戶數(shù)據(jù)處理電信運(yùn)營商用戶信息數(shù)據(jù)需要先對數(shù)據(jù)進(jìn)行初步處理,從而優(yōu)化數(shù)據(jù)質(zhì)量、提高數(shù)據(jù)處理效率、確保數(shù)據(jù)一致性和完整性,為數(shù)據(jù)分析和決策提供可靠的支持。本任務(wù)先后將數(shù)據(jù)去重與降維、處理缺失值與異常值和合并數(shù)據(jù),處理電信運(yùn)營商的用戶信息數(shù)據(jù)集,將初始電信運(yùn)營商用戶數(shù)據(jù)進(jìn)行優(yōu)化和簡化,提高數(shù)據(jù)的質(zhì)量,著力推進(jìn)高質(zhì)量發(fā)展。任務(wù)要求使用pandas庫對數(shù)據(jù)進(jìn)行去重。使用pandas庫進(jìn)行數(shù)據(jù)降維。使用pandas庫和NumPy庫進(jìn)行數(shù)據(jù)合并。使用pandas庫處理缺失值和異常值。隨著中國電信運(yùn)營業(yè)務(wù)的快速發(fā)展,市場競爭也愈演愈烈。如何最大程度地挽留在網(wǎng)用戶、吸取新客戶,是電信企業(yè)最關(guān)注的問題之一。競爭對手的促銷、公司資費(fèi)軟著陸措施的出臺和政策法規(guī)的不斷變化,影響了客戶消費(fèi)心理和消費(fèi)行為,導(dǎo)致客戶的流失特征不斷變化。對于電信運(yùn)營商而言,流失會給電信企業(yè)帶來市場占有率下降、營銷成本增加、利潤下降等一系列問題。在發(fā)展用戶每月增加的同時(shí),如何挽留和爭取更多的用戶,是一項(xiàng)非常重要的工作。相關(guān)知識隨著大數(shù)據(jù)挖掘技術(shù)的不斷發(fā)展和應(yīng)用,本著守正創(chuàng)新的精神,移動運(yùn)營商希望能借助數(shù)據(jù)挖掘技術(shù)識別哪些用戶可能流失,什么時(shí)候會發(fā)生流失。而通過建立流失預(yù)測模型,分析用戶的歷史數(shù)據(jù)和當(dāng)前數(shù)據(jù),提取輔助決策的關(guān)鍵性數(shù)據(jù),并從中發(fā)現(xiàn)隱藏關(guān)系和模式,進(jìn)而預(yù)測未來可能發(fā)生的行為,就可以幫助移動運(yùn)營商實(shí)現(xiàn)這些要求。相關(guān)知識數(shù)據(jù)去重與降維合并數(shù)據(jù)處理缺失值與異常值數(shù)據(jù)去重與降維查看電信運(yùn)營商用戶信息數(shù)據(jù)使用pandas庫中read_csv函數(shù)讀取電信運(yùn)營商用戶信息數(shù)據(jù)。使用drop_duplicates()方法刪除重復(fù)數(shù)據(jù)。數(shù)據(jù)降維,使用del刪除手機(jī)品牌、手機(jī)型號和操作系統(tǒng)描述3個(gè)特征數(shù)據(jù)去重與降維的步驟如下。電信運(yùn)營商用戶數(shù)據(jù)包含了運(yùn)營商用戶的基礎(chǔ)信息和使用行為信息,數(shù)據(jù)的特征說明,如下表所示。特征名稱特征說明特征名稱特征說明月份月份國內(nèi)漫游通話次數(shù)國內(nèi)漫游通話次數(shù)/次用戶ID用戶ID短信發(fā)送數(shù)短信發(fā)送數(shù)/條在網(wǎng)時(shí)長在網(wǎng)時(shí)長上網(wǎng)流量上網(wǎng)流量/MB是否合約有效用戶是否合約有效用戶本地非漫游上網(wǎng)流量本地非漫游上網(wǎng)流量/MB合約計(jì)劃到期時(shí)間合約計(jì)劃到期時(shí)間國內(nèi)漫游上網(wǎng)流量國內(nèi)漫游上網(wǎng)流量/MB信用等級信用等級有通話天數(shù)有通話天數(shù)VIP等級VIP等級有主叫天數(shù)有主叫天數(shù)查看電信運(yùn)營商用戶信息數(shù)據(jù)查看電信運(yùn)營商用戶信息數(shù)據(jù)特征名稱特征說明特征名稱特征說明本月費(fèi)用本月費(fèi)用/元有被叫天數(shù)有被叫天數(shù)通話時(shí)長通話時(shí)長/秒語音呼叫圈語音呼叫圈本地通話時(shí)長本地通話時(shí)長/秒主叫呼叫圈主叫呼叫圈國內(nèi)長途通話時(shí)長國內(nèi)長途通話時(shí)長/秒被叫呼叫圈被叫呼叫圈國內(nèi)漫游通話時(shí)長國內(nèi)漫游通話時(shí)長/秒性別性別通話次數(shù)通話次數(shù)/次年齡年齡非漫游通話次數(shù)非漫游通話次數(shù)/次手機(jī)品牌名稱手機(jī)品牌名稱本地通話次數(shù)本地通話次數(shù)/次手機(jī)型號名稱手機(jī)型號名稱特征名稱特征說明特征名稱特征說明國內(nèi)長途通話次數(shù)國內(nèi)長途通話次數(shù)/次操作系統(tǒng)描述操作系統(tǒng)描述終端硬件類型終端硬件類型(0=無法區(qū)分,4=4g、3=3g、2=2g)用戶在3月是否流失標(biāo)記用戶在3月是否流失標(biāo)記(1=是,0=否),1月和2月值為空查看電信運(yùn)營商用戶信息數(shù)據(jù)基于保護(hù)用戶的網(wǎng)絡(luò)信息安全的目的,本任務(wù)使用的數(shù)據(jù)已進(jìn)行脫敏處理,加強(qiáng)個(gè)人信息保護(hù)。為了篩選出影響用戶流失的信息屬性,需要對建模用戶數(shù)據(jù)集進(jìn)行預(yù)處理和降維。合并數(shù)據(jù)在原始的建模數(shù)據(jù)中,每個(gè)用戶有三行的數(shù)據(jù),對應(yīng)著同一個(gè)ID三個(gè)月的信息。用戶ID在網(wǎng)時(shí)長是否合約有效用戶合約計(jì)劃到期時(shí)間…U3114031824149372231201603…U3114031824149372241201603…U3114031824149372250…月種數(shù)據(jù)格式不便于進(jìn)行建模和分析。因此,本任務(wù)對數(shù)據(jù)進(jìn)行提取和整合,將每個(gè)用戶信息處理為一行數(shù)據(jù)。移動用戶基本信息由于同一個(gè)用戶的基本信息在三個(gè)月內(nèi)是相同的。因此,用戶ID、性別、年齡以及終端硬件類型只取1月的數(shù)據(jù)。201602U3114031824149372139…3201603U3114031824149372139…3月份用戶ID性別年齡…終端硬件類型201601U3114031824149372139…3在網(wǎng)時(shí)長由于每個(gè)月的在網(wǎng)時(shí)長等于上個(gè)月的在網(wǎng)時(shí)長加一(為零的除外),故第三個(gè)月的在網(wǎng)時(shí)長的數(shù)據(jù)就包含了這三個(gè)月在網(wǎng)時(shí)長的全部信息。因此,每個(gè)ID只提取第三個(gè)月的數(shù)據(jù),按用戶ID和在網(wǎng)時(shí)長分組后取在網(wǎng)時(shí)長的最后一行。月份用戶ID在網(wǎng)時(shí)長是否合約有效用戶201601U3114031824149372231201602U3114031824149372241201603U3114031824149372250是否合約有效將這三個(gè)月的合約有效的情況規(guī)整為一個(gè)數(shù)據(jù),處理方法為:當(dāng)三個(gè)月不全為1時(shí),用第三個(gè)月的值減去前兩個(gè)的均值;當(dāng)三個(gè)月的值都是為1時(shí),取值為1.5。這樣操作之后,所有取值情況為-1、-0.5、0、0.5、1、1.5,如下表所示。-1前兩個(gè)月合約有效,第三個(gè)月合約無效-0.5前兩個(gè)月其中一個(gè)月合約有效,另一個(gè)月和第三個(gè)月合約無效。0三個(gè)月均合約無效0.5前兩個(gè)月其中一個(gè)月合約無效,另一個(gè)月和第三個(gè)月合約有效1前兩個(gè)月合約無效,第三個(gè)月合約有效1.5三個(gè)月均合約有效數(shù)值含義合約計(jì)劃到期時(shí)間取第三個(gè)月的數(shù)據(jù)作為合約計(jì)劃到期時(shí)長,將空值賦值為-1,不是空值的到期時(shí)間以201603為基準(zhǔn)0,每增加一個(gè)月,數(shù)據(jù)為1,以此類推。月份用戶ID合約計(jì)劃到期時(shí)間201601U3114031824148707201602U3114031824148707201603U3114031824148707201601U3114031824149251201605201602U3114031824149251201605201603U3114031824149251201605賦值為-1賦值為2信用等級月份用戶ID信用等級本月費(fèi)用…201601U31140318241493726577.2…201602U31140318241493726583…201603U31140318241493726576.4…按用戶信用等級分組后取3個(gè)月的平均值。VIP等級如果同一個(gè)ID值,三個(gè)月的VIP等級數(shù)值相等,則取第三個(gè)月的數(shù)值。三個(gè)月的VIP等級數(shù)值都不相等,則第三個(gè)月的數(shù)據(jù)減去前兩個(gè)月的均值
VIP等級的空值賦值為0。月份用戶ID…201601U311403182414870799201602U311403182414870799201603U311403182414870799201601U31150616332226384201602U31150616332226384201603U311506163322263899取第三個(gè)月的數(shù)值9999-(4+4)/2=95本月費(fèi)用月份用戶ID信用等級本月費(fèi)用…201601U31140318241493726577.2…201602U31140318241493726583…201603U31140318241493726576.4…按本月費(fèi)用分組后取三個(gè)月費(fèi)用的平均值。平均每次通話時(shí)長將各種通話時(shí)長除以通話次數(shù),得到各類的平均通話時(shí)長。使用mean()方法計(jì)算通話時(shí)間、本地通話時(shí)間、長途通話時(shí)間、漫游通話時(shí)間的均值。使用fillna()方法進(jìn)行均值填充空值。使用rename()方法重新命名新得出的變量,得到平均通話時(shí)長、平均本地通話時(shí)間、平均長途通話時(shí)長、平均國內(nèi)漫游通話時(shí)間,將原有的8個(gè)特征減少到4個(gè)新特征。其余特征月份用戶ID信用等級本月費(fèi)用…201601U31140318241493726577.2…201602U31140318241493726583…201603U31140318241493726576.4…對于其余的特征,同一個(gè)ID下,使用mean()方法取三個(gè)月的平均值。處理缺失值與異常值在合并后的數(shù)據(jù)集中查找缺失值,并對存在缺失的數(shù)據(jù)按照一定的規(guī)則賦值。使用isnull()方法和sum()方法對新數(shù)據(jù)集進(jìn)行缺失值查找。使用fillna()方法對缺失的數(shù)據(jù)進(jìn)行填充,性別缺失的用眾數(shù)填充,年齡缺失的賦值為0。對缺失值處理后的數(shù)據(jù)集進(jìn)行異常值的查找,查找出在網(wǎng)時(shí)長小于0的數(shù)據(jù),費(fèi)用大超出3σ部分的數(shù)據(jù)。構(gòu)建電信運(yùn)營商用戶分群模型電信運(yùn)營商用戶分析任務(wù)描述電信通信服務(wù)的總方針是迅速、準(zhǔn)確、安全、方便。在電信通信服務(wù)的總方針的指引下,通過客戶基本信息,將用戶分類,對每類用戶進(jìn)行個(gè)性化服務(wù),最大程度地控制客戶流失。本任務(wù)的操作將在保護(hù)用戶信息安全的前提下進(jìn)行。大數(shù)據(jù)時(shí)代,需要堅(jiān)持網(wǎng)絡(luò)安全為人民、網(wǎng)絡(luò)安全靠人民,樹立正確的網(wǎng)絡(luò)安全觀,提高自身網(wǎng)絡(luò)安全意識和防護(hù)技能。本任務(wù)通過對客戶性別、年齡、在網(wǎng)時(shí)長等信息進(jìn)行簡單的畫圖來觀察客戶基本信息與用戶在3月是否流失的關(guān)系,進(jìn)行K-Means聚類分析,建立用戶分群模型。任務(wù)要求使用pandas庫分析用戶基本信息。使用sklearn庫進(jìn)行聚類分析。使用Matplotlib庫實(shí)現(xiàn)結(jié)果的可視化。用戶分群是依據(jù)用戶的屬性特征和行為特征、交易信息將用戶群體進(jìn)行分類,對其進(jìn)行觀察和分析的方式。從技術(shù)視角,用戶分群的方式主要有兩種:基于規(guī)則的分群方法(Rule-basedSegmentation)和基于算法的分群方法(ML-basedSegmentation)。基于規(guī)則的分群方法:主要適用于業(yè)務(wù)規(guī)則確定,分群采用的用戶特征維度單一的場景?;谒惴ǖ姆秩悍椒ǎ褐饕糜谟脩籼卣骶S度高,人工無法設(shè)定合理分群規(guī)則的場景。相關(guān)知識聚類分析(ClusterAnalysis)和RFM模型(Recency,Frequency,Monetary)是常用的用戶分群方法。聚類分析常見的數(shù)據(jù)挖掘手段,其主要假設(shè)是數(shù)據(jù)間存在相似性。而相似性是有價(jià)值的,因此可以被用于探索數(shù)據(jù)中的特性以產(chǎn)生價(jià)值。RFM模型又稱用戶價(jià)值模型,是網(wǎng)點(diǎn)衡量當(dāng)前用戶價(jià)值和用戶潛在價(jià)值的重要工具。相關(guān)知識用戶分群把具備某種相同特性的用戶歸結(jié)在一起,再按照特定的條件選出目標(biāo)用戶,進(jìn)行洞察分析查看用戶特征。對客戶性別、年齡、在網(wǎng)時(shí)長等信息進(jìn)行可視化處理,觀察并分析客戶基本信息與用戶流失的關(guān)系,使企業(yè)由粗放式管理轉(zhuǎn)向精細(xì)化運(yùn)營。面對不同人群差異化的特征和需求,降本增效,激發(fā)更加明顯的競爭優(yōu)勢。為進(jìn)一步提升企業(yè)能力,企業(yè)應(yīng)堅(jiān)持發(fā)揚(yáng)斗爭精神,依靠頑強(qiáng)斗爭打開事業(yè)發(fā)展新天地。相關(guān)知識分析用戶基本信息構(gòu)建K-Means模型分析用戶基本信息對客戶性別、年齡、在網(wǎng)時(shí)長等信息進(jìn)行可視化處理,觀察并分析客戶基本信息與用戶流失的關(guān)系。1性別分析2年齡分析5用戶是否有效分析4合約計(jì)劃到期時(shí)間分析6信用等級分析3在網(wǎng)時(shí)長分析為了直觀地觀察客戶性別與用戶流失之間的關(guān)系,對處理后的數(shù)據(jù)進(jìn)行性別分析。首先導(dǎo)入相關(guān)庫及數(shù)據(jù),構(gòu)建性別比率函數(shù)分別計(jì)算流失用戶和非流失用戶中的性別比率,使用pie函數(shù)繪制性別比率餅圖。性別分析為了直觀地觀察客戶年齡與用戶流失之間的關(guān)系,對處理后的數(shù)據(jù)進(jìn)行性別分析。使用plot函數(shù)繪制在流失用戶和非流失用戶中客戶年齡的分析散點(diǎn)圖。年齡分析為了直觀地觀察客戶在網(wǎng)時(shí)長與用戶流失之間的關(guān)系,對處理后的數(shù)據(jù)進(jìn)行在網(wǎng)時(shí)長分析。使用plot函數(shù)繪制在流失用戶和非流失用戶中的客戶在網(wǎng)時(shí)長分析折線圖。在網(wǎng)時(shí)長(月)分析為了直觀地觀察客戶合約計(jì)劃到期時(shí)間與用戶流失之間的關(guān)系,對處理后的數(shù)據(jù)進(jìn)行計(jì)劃到期時(shí)間分析。使用bar函數(shù)繪制在流失用戶和非流失用戶中的客戶計(jì)劃到期時(shí)間頻數(shù)直方圖。合約計(jì)劃到期時(shí)間分析為了直觀地觀察客戶是否有效與用戶流失之間的關(guān)系,對處理后的數(shù)據(jù)進(jìn)行用戶是否有效分析。使用bar函數(shù)繪制在流失用戶和非流失用戶中的客戶是否有效直方圖。用戶是否有效分析為了探究無效用戶在流失與非流失用戶群體中的占比情況。使用sum()方法計(jì)算是否有效用戶的頻數(shù),并使用bar函數(shù)繪制繪制直方圖。用戶是否有效分析為了直觀地觀察客戶信用等級與用戶流失之間的關(guān)系,對處理后的數(shù)據(jù)進(jìn)行信用等級分析。使用bar函數(shù)繪制在流失用戶和非流失用戶中的客戶信用等級直方圖。信用等級分析構(gòu)建電信運(yùn)營商用戶分群模型電信運(yùn)營商用戶分析任務(wù)描述電信通信服務(wù)的總方針是迅速、準(zhǔn)確、安全、方便。在電信通信服務(wù)的總方針的指引下,通過客戶基本信息,將用戶分類,對每類用戶進(jìn)行個(gè)性化服務(wù),最大程度地控制客戶流失。本任務(wù)的操作將在保護(hù)用戶信息安全的前提下進(jìn)行。大數(shù)據(jù)時(shí)代,需要堅(jiān)持網(wǎng)絡(luò)安全為人民、網(wǎng)絡(luò)安全靠人民,樹立正確的網(wǎng)絡(luò)安全觀,提高自身網(wǎng)絡(luò)安全意識和防護(hù)技能。本任務(wù)通過對客戶性別、年齡、在網(wǎng)時(shí)長等信息進(jìn)行簡單的畫圖來觀察客戶基本信息與用戶在3月是否流失的關(guān)系,進(jìn)行K-Means聚類分析,建立用戶分群模型。任務(wù)要求使用pandas庫分析用戶基本信息。使用sklearn庫進(jìn)行聚類分析。使用Matplotlib庫實(shí)現(xiàn)結(jié)果的可視化。分析用戶基本信息構(gòu)建K-Means模型構(gòu)建K-Means模型構(gòu)建K-Means模型主要分為以下6個(gè)步驟。1選擇聚類優(yōu)度(計(jì)算MIC和BT)2繪制MIC曲線和BT曲線5聚類用戶類別命名4繪制密度函數(shù)圖6用戶類別占比分析3構(gòu)建模型聚類分析常見的數(shù)據(jù)挖掘手段,其主要假設(shè)是數(shù)據(jù)間存在相似性。而相似性是有價(jià)值的,因此可以被用于探索數(shù)據(jù)中的特性以產(chǎn)生價(jià)值。使用import和from導(dǎo)入KMeans、seaborn等開發(fā)類庫。聚類前準(zhǔn)備,使用linalg.norm函數(shù)計(jì)算二范數(shù),使用for循環(huán)計(jì)算MIC和BT。MIC值是模型信息準(zhǔn)則,通過最小化MIC值來估計(jì)聚類數(shù)量和分區(qū),BT值是特征的體現(xiàn)程度,BT值越大代表該聚類結(jié)果更能體現(xiàn)分區(qū)特征。選擇聚類優(yōu)度為了更直觀地看到聚類后的特征體現(xiàn)程度,使用plot函數(shù)繪制MIC曲線和BT曲線,將數(shù)據(jù)可視化。繪制MIC曲線和BT曲線選擇聚類數(shù)目為5之后,使用KMeans進(jìn)行聚類。構(gòu)建模型建立聚類模型后,使用sns庫中kdeplot函數(shù)繪制密度函數(shù)圖。繪制密度函數(shù)圖繪制密度函數(shù)圖建立聚類模型后,使用seaborn庫中kdeplot函數(shù)繪制密度函數(shù)圖。根據(jù)實(shí)際情況與數(shù)據(jù)特征劃分五類用戶的命名。聚類用戶類別命名輸出類型類別1類別2類別3類別4類別5命名中高費(fèi)用中低費(fèi)用高費(fèi)用低費(fèi)用一般費(fèi)用注意:不同的運(yùn)行環(huán)境得到的聚類結(jié)果會存在一定的差異,五類用戶的命名情況需要根據(jù)密度函數(shù)圖的結(jié)果進(jìn)行同步調(diào)整。更改用戶類別名稱后,繪制不同類別的用戶流失比例的餅圖。用戶類別占比分析構(gòu)建電信運(yùn)營商用戶流失預(yù)測模型電信運(yùn)營商用戶分析任務(wù)描述電信企業(yè)為了最大程度地控制客戶流失、挽留現(xiàn)存在網(wǎng)用戶,分析不同群體用戶的使用規(guī)律,識別各群體客戶流失的重要特征。為了系統(tǒng)地描述電信運(yùn)營商用戶流失的規(guī)律,引入數(shù)學(xué)模型對電信運(yùn)營商用戶數(shù)據(jù)進(jìn)行分析。運(yùn)營商要實(shí)現(xiàn)控制客戶流失、挽留現(xiàn)存在網(wǎng)用戶,必須深入貫徹以人民為中心的發(fā)展思想。本任務(wù)的具體目標(biāo)是基于電信運(yùn)營商用戶分群模型建立邏輯回歸模型、決策樹模型和樸素貝葉斯模型,選取最優(yōu)的用戶流失模型。任務(wù)要求分析不同群體用戶的使用規(guī)律,識別各群體客戶流失的重要特征。建立不同群體用戶流失模型,建立邏輯回歸模型、決策樹模型和樸素貝葉斯模型,判斷模型建立的效果。選取最優(yōu)的用戶流失模型。相關(guān)知識所有與消費(fèi)者掛鉤行業(yè)都會關(guān)注客戶流失。由于發(fā)展一個(gè)新客戶是需要一定成本的,如果客戶流失,不僅浪費(fèi)了拉新成本,還需要花費(fèi)更多的用戶召回成本。因此,基于電信行業(yè)在競爭日益激烈的情況,如何挽留更多用戶成為一項(xiàng)關(guān)鍵業(yè)務(wù)指標(biāo)。為了更好運(yùn)營用戶,這就要求要了解流失用戶的特征,分析流失原因,預(yù)測用戶流失,確定挽留目標(biāo)用戶并制定有效方案,提升企業(yè)核心競爭力。特征值提取構(gòu)建電信商用戶流失預(yù)測模型特征值提取基于樹的特征選擇導(dǎo)入開發(fā)庫特征變量選取特征抽取是數(shù)據(jù)挖掘任務(wù)最為重要的一個(gè)環(huán)節(jié),一般而言,它對最終結(jié)果的影響要高過數(shù)據(jù)挖掘算法本身。只有先把現(xiàn)實(shí)用特征表示出來,才能借助數(shù)據(jù)挖掘的力量找到問題的答案。特征選擇的另一個(gè)優(yōu)點(diǎn)在于:降低真實(shí)世界的復(fù)雜度,模型比現(xiàn)實(shí)更容易操縱。特征選擇能夠降低復(fù)雜度、降低噪音和增加模型可讀性?;跇涞奶卣鬟x擇單個(gè)特征和某一類別之間相關(guān)性的計(jì)算方法有很多,比較有效的有卡方檢驗(yàn)(chi2)以及互信息和信息熵,本文選擇基于信息熵的方法來選取特征變量。信息熵是在決策樹中廣泛使用的一個(gè)變量,用以獲取最優(yōu)劃分的節(jié)點(diǎn)?;跇涞念A(yù)測模型能夠用來計(jì)算特征的重要程度,能用來去除不相關(guān)的特征。因此選擇基于樹的特征選擇(Tree-basedfeatureselection)來獲取特征變量?;跇涞奶卣鬟x擇使用from和import導(dǎo)入sklearn.ensemble中的ExtraTreesClassifier類與sklearn.feature_selection中的SelectFromModel類。導(dǎo)入開發(fā)庫用于從模型中選擇重要的特征用于構(gòu)建極端隨機(jī)樹分類器由基于樹的特征選擇,使用sklearn庫導(dǎo)入信息熵的樹及特征值篩選模塊,使用for循環(huán)獲取前10個(gè)重要程度的特征變量,結(jié)果如下。特征變量選擇低費(fèi)用'年齡','在網(wǎng)時(shí)長','本地通話次數(shù)','國內(nèi)長途通話次數(shù)','國內(nèi)漫游通話次數(shù)','上網(wǎng)流量','有通話天數(shù)','有主叫天數(shù)','有被叫天數(shù)','主叫呼叫圈'中低費(fèi)用'年齡','在網(wǎng)時(shí)長','本月費(fèi)用','本地通話次數(shù)','國內(nèi)長途通話次數(shù)','國內(nèi)漫游通話次數(shù)','有通話天數(shù)','有主叫天數(shù)','有被叫天數(shù)','主叫呼叫圈'一般費(fèi)用'年齡','在網(wǎng)時(shí)長','本地通話次數(shù)','國內(nèi)長途通話次數(shù)','國內(nèi)漫游通話次數(shù)','短信發(fā)送數(shù)','上網(wǎng)流量','有通話天數(shù)','有主叫天數(shù)','有被叫天數(shù)'中高費(fèi)用'年齡','在網(wǎng)時(shí)長','本地通話次數(shù)','國內(nèi)長途通話次數(shù)','國內(nèi)漫游通話次數(shù)','短信發(fā)送數(shù)','有通話天數(shù)','有主叫天數(shù)','有被叫天數(shù)','主叫呼叫圈'高費(fèi)用'年齡','在網(wǎng)時(shí)長','平均本地通話時(shí)長','本地通話次數(shù)','國內(nèi)長途通話次數(shù)','國內(nèi)漫游通話次數(shù)','國內(nèi)漫游上網(wǎng)流量','有通話天數(shù)','有主叫天數(shù)','有被叫天數(shù)'類型選取的變量構(gòu)建電信商用戶流失預(yù)測模型自定義模型構(gòu)建函數(shù)構(gòu)建邏輯回歸模型構(gòu)建決策樹模型構(gòu)建樸素貝葉斯模型選擇最優(yōu)模型由于不同的模型構(gòu)建過程類似,為了避免代碼贅余,因此自定義一個(gè)evaluate_model函數(shù)用于模型的構(gòu)建與檢測。evaluate_model函數(shù)操作的流程如下。自定義模型構(gòu)建函數(shù)基于特征變量的篩選結(jié)果,循環(huán)獲取不同用戶類型的重點(diǎn)特征提取特征和目標(biāo)變量數(shù)據(jù)對數(shù)據(jù)進(jìn)行欠采樣處理自定義模型構(gòu)建函數(shù)劃分特征和目標(biāo)變量,并劃分訓(xùn)練集和測試集對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理構(gòu)建相關(guān)的模型,并對模型進(jìn)行評估由于不同的模型構(gòu)建過程類似,為了避免代碼贅余,因此自定義一個(gè)evaluate_model函數(shù)用于模型的構(gòu)建與檢測。evaluate_model函數(shù)操作的流程如下。邏輯回歸也被稱為廣義線性回歸模型,它與線性回歸模型的形式基本上相同,最大的區(qū)別就在于它們的因變量不同,如果是連續(xù)的,就是多重線性回歸;如果是二項(xiàng)分布,就是Logistic回歸。導(dǎo)入構(gòu)建邏輯回歸模型需要的一些開發(fā)庫。調(diào)用構(gòu)建的evaluate_model函數(shù),即可構(gòu)建邏輯回歸模型,并計(jì)算模型的準(zhǔn)確率、召回率、AUC值。構(gòu)建邏輯回歸模型決策樹是一種樹狀結(jié)構(gòu),它的每一個(gè)葉節(jié)點(diǎn)對應(yīng)著一個(gè)分類,非葉節(jié)點(diǎn)對應(yīng)著在某個(gè)屬性上的劃分,根據(jù)樣本在該屬性上的不同取值將其劃分成若干個(gè)子集。對于非純的葉節(jié)點(diǎn),多數(shù)類的標(biāo)號給出到達(dá)這個(gè)節(jié)點(diǎn)的樣本所屬的類。導(dǎo)入構(gòu)建決策樹模型需要的一些開發(fā)庫。調(diào)用構(gòu)建的evaluat
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 賠償安葬協(xié)議書
- 機(jī)動車轉(zhuǎn)讓過戶協(xié)議書
- 稻田調(diào)解協(xié)議書
- 蘇州電子協(xié)議書
- 股份變賣協(xié)議書
- 芯片合資協(xié)議書
- 美團(tuán)電子協(xié)議書
- 開發(fā)商房屋拆遷協(xié)議書
- 男方撫養(yǎng)協(xié)議書
- 藥店清場協(xié)議書
- 2025年農(nóng)村個(gè)人果園承包合同
- 湖北省武漢市2025屆高三年級五月模擬訓(xùn)練試題數(shù)學(xué)試題及答案(武漢五調(diào))
- 醫(yī)師掛證免責(zé)協(xié)議書
- 濟(jì)南民政離婚協(xié)議書
- DL∕T 5210.6-2019 電力建設(shè)施工質(zhì)量驗(yàn)收規(guī)程 第6部分:調(diào)整試驗(yàn)
- GB/T 34560.1-2017結(jié)構(gòu)鋼第1部分:熱軋產(chǎn)品一般交貨技術(shù)條件
- GB/T 29318-2012電動汽車非車載充電機(jī)電能計(jì)量
- VSTi音源插件列表
- 安全文明施工措施費(fèi)清單五篇
- 醫(yī)院感染暴發(fā)報(bào)告處理流程圖
- 中等職業(yè)學(xué)校學(xué)生實(shí)習(xí)鑒定表
評論
0/150
提交評論