《大數(shù)據(jù)運營》大數(shù)據(jù)運營綜合應(yīng)用_第1頁
《大數(shù)據(jù)運營》大數(shù)據(jù)運營綜合應(yīng)用_第2頁
《大數(shù)據(jù)運營》大數(shù)據(jù)運營綜合應(yīng)用_第3頁
《大數(shù)據(jù)運營》大數(shù)據(jù)運營綜合應(yīng)用_第4頁
《大數(shù)據(jù)運營》大數(shù)據(jù)運營綜合應(yīng)用_第5頁
已閱讀5頁,還剩70頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

大數(shù)據(jù)運營綜合應(yīng)用本章知識點(1)了解數(shù)據(jù)分析思維(2)了解大數(shù)據(jù)運營指標體系(3)掌握大數(shù)據(jù)運營分類(4)掌握網(wǎng)貸平臺逾期用戶分析01大數(shù)據(jù)運營思維與分類02數(shù)據(jù)可視化PART01大數(shù)據(jù)運營思維與分類數(shù)據(jù)分析思維1.對比在對數(shù)據(jù)進行分析時,如果單獨看某一天或某一類數(shù)據(jù)的信息,其實并沒有什么價值,比如某商店20年10月份的銷售額為5萬元,如果單獨出現(xiàn)并不能代表什么,如果是和上個月的數(shù)據(jù)進行對比,數(shù)據(jù)才變得有意義。對比是最基本的數(shù)據(jù)分析方法,是尋找事物的相同點和不同點的方法。對比思維可分為目標對比、時間對比、橫向?qū)Ρ群涂v切對比四種。目標對比:主要用于對目標、進度的管理,如完成率時間對比:按照時間維度進行對比,比如同比、環(huán)比橫向?qū)Ρ龋喊凑諜M向維度進行對比,比如某公司產(chǎn)品各個地區(qū)的銷量縱向?qū)Ρ龋焊鶕?jù)細分中的縱向維護進行對比,比如漏斗不同階段的轉(zhuǎn)化率數(shù)據(jù)分析思維演繹推理思維一般是從整體出發(fā),尋找事物之間的邏輯,從而得到某個個體的特性。在數(shù)據(jù)分析中,我們會經(jīng)常用到演繹推理思維。比如某品牌于前一晚發(fā)放了優(yōu)惠券,第二天銷售量就得到了提升,此時我們可以推斷是發(fā)放優(yōu)惠券這個運營活動提升了銷量,此時用到的就是演繹推理思維。2.演繹推理3.假設(shè)4.拆分假設(shè)思維其實是從演繹思維中延伸出來的一種逆向思維,簡單來說就是在數(shù)據(jù)分析過程中,在不清楚結(jié)果時,通過不斷假設(shè)、不斷論證、不斷推理、不斷推翻原假設(shè)的方式,找到最終的真實原因或者結(jié)論。當某個數(shù)據(jù)指標是由多種因素共同得出的,此時我們可以對指標進行拆分。比如某服裝品牌當月銷售額下降,此時可以將銷售額拆分為成交用戶數(shù)*客單價,成交用戶數(shù)又等于訪客數(shù)*轉(zhuǎn)化率,在客單價不變得情況下,就可以通過分析訪客數(shù)和轉(zhuǎn)化率來得出銷售額下降的原因。數(shù)據(jù)分析思維當分析維度過多時,可以選擇去掉一些可由其他維度計算得到的維度。比如現(xiàn)有總用戶數(shù)、男性用戶數(shù)、女性用戶數(shù)3個屬性數(shù)據(jù),由于總用戶數(shù)=男性用戶數(shù)+女性用戶數(shù),此時從3個屬性數(shù)據(jù)中選擇2個留下即可。5.降維6.增維當已有的指標不能很好的解釋問題時,可以通過原有指標計算得出新的指標。比如原有數(shù)據(jù)中有訪客數(shù)、轉(zhuǎn)化率和客單價,此時如想知道銷售額,即可通過公式計算得出。數(shù)據(jù)分析思維7.漏斗漏斗分析是一套能夠科學地反映用戶行為狀態(tài)的流程式數(shù)據(jù)分析,其可以揭示每個關(guān)鍵環(huán)節(jié)的轉(zhuǎn)化率、流失率,鎖定主要問題所在,為全流程的改善提供參考建議。漏斗思維在日常數(shù)據(jù)運營中有廣泛應(yīng)用,包括產(chǎn)品轉(zhuǎn)化、流量監(jiān)控、購買流程、銷售管道、瀏覽路徑等。假如一個產(chǎn)品運營部門想要提升其購物APP的用戶活躍度,需要數(shù)據(jù)分析師給予決策依據(jù)。業(yè)務(wù)分析師接到此任務(wù),首先需要知道的就是一般用戶的購買路徑,如“下載APP、注冊賬號、查看商品、加入購物車、購買商品”,數(shù)據(jù)分析師此時就可以采用漏斗分析的方式針對這幾個關(guān)鍵步驟開展數(shù)據(jù)分析。在進行漏斗分析時,首先在每個步驟中選取一個關(guān)鍵頁面,然后在每個頁面中選取PV(PageView)、平均停留時間這兩個指標。假設(shè)在分析中,我們發(fā)現(xiàn)在步驟3到步驟4的關(guān)鍵頁面中,客戶流失率較大,但步驟3中頁面停留時間較長,說明此商品已推送給目標用戶,但是可能由于商品價格、規(guī)格等因素客戶沒有加入到購物車,此時運營部門就要在步驟3中分析原因,給出改善策略。大數(shù)據(jù)運營指標體系新增用戶數(shù)新增用戶數(shù)包括日新增用戶數(shù)、用新增用戶數(shù),是用來衡量一個產(chǎn)品能否持續(xù)運營的依據(jù)。如果一個產(chǎn)品新增用戶數(shù)隨著時間推移慢慢減少,而老用戶的活躍度又不斷降低,那么產(chǎn)品將很難繼續(xù)“生存”下去。活躍率活躍率是基于活躍用戶數(shù)量的,而活躍用戶數(shù)按時間又分為日活躍用戶數(shù)(DAU)、周活躍用戶數(shù)(WAU)和月活躍用戶數(shù)量(MAU)等。DAU是指一天之內(nèi)活躍的用戶數(shù),WAU是指一周之內(nèi)至少活躍一次的用戶總數(shù),MAU是指一個月之內(nèi)至少活躍一次的用戶總數(shù)?;钴S率是活躍用戶在總用戶中的占比,計算時用活躍用戶數(shù)除以總用戶數(shù)。所以按照時間也可分為日活躍率、周活躍率、月活躍率等。1.用戶指標類大數(shù)據(jù)運營指標體系留存就是開始使用應(yīng)用的用戶,經(jīng)過一段時間后繼續(xù)使用,也就是留下來的用戶。留存可以評估產(chǎn)品功能對用戶的黏性,也可以看出不同時期獲得新用戶的流失情況,如果留存低,就要找到用戶流失的原因。留存率是反映用戶留存的指標,是指留存用戶占當時新增用戶的比例。留存率按照時間可分為次日留存率、第3日留存率、第7日留存率、第30日留存率等。次日留存率的計算公式為:在第2天使用過產(chǎn)品的用戶數(shù)/第1天新增總用戶數(shù);第3日留存率的計算公式為:在第3天使用過產(chǎn)品的用戶數(shù)/第1天新增總用戶數(shù)。留存率大數(shù)據(jù)運營指標體系PV,即PageView,頁面訪客數(shù),表示一定時間內(nèi)某個頁面的瀏覽次數(shù),用戶每訪問一次網(wǎng)頁可以看作是一個PV。如果某網(wǎng)頁一天的PV為1000,則代表該網(wǎng)頁在1天中被打開了1000次。01022.電商網(wǎng)站運營類指標PVUV,即UniqueVisitor,獨立訪客數(shù),表示一定時間內(nèi)訪問某個頁面的人數(shù)。比如某網(wǎng)頁1天中被打開了100次,可是這100次都是被1個人打開的,那么此時UV為1,PV為100。UV大數(shù)據(jù)運營指標體系轉(zhuǎn)化率是指在一個統(tǒng)計周期內(nèi),完成轉(zhuǎn)化行為的次數(shù)占推廣信息總點擊次數(shù)的比率。如下單轉(zhuǎn)化率=下單人數(shù)/UV,支付轉(zhuǎn)化率=支付人數(shù)/UV。0304轉(zhuǎn)化率GMV,即GrossMerchandiseVolume,商品交易總額,表示一定時間內(nèi)的成交總額,一般包含拍下未支付訂單金額。GMV2.電商網(wǎng)站運營類指標大數(shù)據(jù)運營指標體系1)SPUSPU,即StandardProductUnit,標準化產(chǎn)品單元。SPU是商品信息聚合的最小單位,是一組可復用、易檢索的標準化信息的集合,該集合描述了一個產(chǎn)品的特性。通俗理解,屬性值、特性相同的商品就可以稱為一個SPU。2)SKUSKU,即StockKeepingUnit,庫存量單元。SKU是庫存進出計量的單位,以件、盒等為單位,在服裝、鞋類商品中使用最多最普遍。例如紡織品中一個SKU通常表示:規(guī)格、顏色、款式。通俗理解,SPU是一個商品,而SKU是該商品的不同的規(guī)格。3.產(chǎn)品類指標大數(shù)據(jù)運營指標體系0504網(wǎng)貸平臺類指標包括新增借款、待收金額、資金凈流入、平均借款期限、逾期率、逾期用戶性別比例等。網(wǎng)貸平臺類指標銷售轉(zhuǎn)換類指標包括加入購物車次數(shù)、購物車支付轉(zhuǎn)化率、下單金額、下單數(shù)量、下單支付時長、瀏覽下單轉(zhuǎn)化率、交易成功訂單數(shù)、退款率等。銷售轉(zhuǎn)化類指標大數(shù)據(jù)運營分類隨著國家對知識產(chǎn)權(quán)的重視,“內(nèi)容為王”的時代已經(jīng)開啟?;ヂ?lián)網(wǎng)時代,不缺內(nèi)容,缺的是精品內(nèi)容,怎樣打造精品內(nèi)容,使其成為產(chǎn)品的重要競爭力,是作為產(chǎn)品運營人員最核心的問題之一。大數(shù)據(jù)+解決兩大關(guān)鍵問題:一個是找到用戶,另一個是內(nèi)容優(yōu)化。1)如何通過數(shù)據(jù)促進內(nèi)容質(zhì)量1.內(nèi)容運營大數(shù)據(jù)運營分類如何找到用戶。我們看騰訊DMP管理平臺這個例子,它就是通過大數(shù)據(jù)的加工和管理,使得平臺具備了數(shù)據(jù)管理、保證數(shù)據(jù)安全的同時進行用戶畫像分析、進行人群管理以及相似人群擴展、進而幫助跨屏跨媒體控制等。找到消費者之后,面對日益挑剔的消費者,怎么能夠通過數(shù)據(jù)挖掘來傳達你的信息和產(chǎn)品的內(nèi)容?除了騰訊DMP這樣數(shù)據(jù)管理平臺,DSP平臺也成為品牌方青睞的選擇。一些跨國公司在DSP平臺上的投放甚至占所有廣告費投入的半數(shù),甚至更高。這么做,一個是解決投放的精準性,一個是展示的保障。正如現(xiàn)在騰訊提出要打造品效合一的廣告平臺,也是為了實現(xiàn)產(chǎn)品的展示和效果的統(tǒng)一。(1)找到用戶1)如何通過數(shù)據(jù)促進內(nèi)容質(zhì)量大數(shù)據(jù)運營分類找到消費者和渠道之后,如何實現(xiàn)內(nèi)容優(yōu)化?海量數(shù)據(jù)的出現(xiàn),數(shù)據(jù)化管理平臺的誕生,讓我們在對用戶行為進行研究的時候,能夠運用的動態(tài)的非結(jié)構(gòu)化數(shù)據(jù),實時把握用戶不斷變化的需求。而以往的非結(jié)構(gòu)化數(shù)據(jù)則能夠解決用戶的聚合類型,相關(guān)性分析,讓我們了解到用戶的固有屬性。這二者結(jié)合,能夠幫助品牌方預測和把握未來趨勢變化。對于內(nèi)容營銷來講,這意味著能夠精準的找到有這方面內(nèi)容需要的用戶,并且根據(jù)行業(yè)變化和趨勢,有針對性地生產(chǎn)符合消費者需求的內(nèi)容。大數(shù)據(jù)+內(nèi)容,讓內(nèi)容營銷邁入了一個新的時代。最重要的是通過大數(shù)據(jù),可以找到精準的消費者。而且,消費者洞察,也不是靠傳統(tǒng)意義上只有創(chuàng)意就夠了,而是根據(jù)實實在在留下的痕跡、數(shù)據(jù)、算法使得“消費者洞察”真正有跡可循。(2)如何實現(xiàn)內(nèi)容優(yōu)化1)如何通過數(shù)據(jù)促進內(nèi)容質(zhì)量大數(shù)據(jù)運營分類內(nèi)容的分類可以是熱點性內(nèi)容、即時性內(nèi)容、持續(xù)性內(nèi)容,促銷性內(nèi)容等。以即時性內(nèi)容舉例,比如《奇葩說》,里面的“花市口播廣告”就是內(nèi)容品牌與內(nèi)容驅(qū)動的合力之作毫無疑問它做得非常成功,馬東在打造奇葩說的時候說過,內(nèi)容營銷怎么做,其實就是把做內(nèi)容當作產(chǎn)品一樣,把內(nèi)容做好。奇葩說平臺和寶潔公司的海飛絲,嘗試了一次內(nèi)容營銷。馬東在奇葩說廣告時段進行花式表達,金句頻出,比如“廢話就像頭皮屑,消滅就用海飛絲。”與此同時,官微啟動轉(zhuǎn)發(fā)即送海飛絲的活動。當時轉(zhuǎn)發(fā)量7萬多條,所以最后也就送出去了7萬多瓶海飛絲。(2)如何實現(xiàn)內(nèi)容優(yōu)化1)如何通過數(shù)據(jù)促進內(nèi)容質(zhì)量大數(shù)據(jù)運營分類在做推薦之前,我們需要做的一件事就是:數(shù)據(jù)的收集、上報。不同于上述內(nèi)容質(zhì)量和用戶畫像的數(shù)據(jù)統(tǒng)計維度,應(yīng)用于推薦的數(shù)據(jù)統(tǒng)計維度更多,是兩者的超集,除此以外,一些操作系統(tǒng)、app版本、網(wǎng)絡(luò)環(huán)境、用戶操作訪問路徑的分析,漏斗的模型的轉(zhuǎn)化等等都與推薦行為息息相關(guān)。此處關(guān)于數(shù)據(jù)上報的維度需要針對不同平臺,不同推薦業(yè)務(wù),不同場景做具體問題具體分析。我們把每個用戶想象成一個獨立的點,每個用戶背后都帶有各種各樣的用戶屬性,我們把具有相同屬性的用戶之間建立一條連線,眾多的用戶其彼此間的連線也錯綜復雜,由此形成了一個獨立的用戶面。同樣的原理,把每條內(nèi)容也想成一個獨立的點,每條內(nèi)容背后也都帶有各種各樣的內(nèi)容聚類標識,我們把具有相同類別的內(nèi)容之間建立一條連線,眾多的內(nèi)容間的連線也錯綜復雜,由此形成了一個獨立的內(nèi)容面。2)如何做內(nèi)容推薦大數(shù)據(jù)運營分類有了“用戶面”和“內(nèi)容面”的概念以后,我們的每一個用戶之間都彼此產(chǎn)生著聯(lián)系,每個內(nèi)容之間也都彼此產(chǎn)生著聯(lián)系,那如何把我們的“用戶面”和“內(nèi)容面”打通,其實就是所謂的用戶行為。我把用戶行為比做“通道”通道用于連接“用戶面”和“內(nèi)容面”,每一次用戶行為,都是兩個面之間一次數(shù)據(jù)的傳輸交流。至此,兩個面之間互相打通,形成了一個三維模型。這個三維模型建立在數(shù)據(jù)之上,每時每刻任意兩點之間都在進行著數(shù)據(jù)傳輸,因為彼此間相互聯(lián)系,一個用戶的行為可能最終影響周圍多個用戶的結(jié)果,類似蝴蝶效應(yīng)。其次就是“a/btest”和“關(guān)于a/btest,適中要遵循一個原則,明確目的,保持變量唯一。所有的推薦都是持續(xù)的過程,不同的推薦算法需要時間學習矯正,a/btest就是很好的輔助工具和方法,關(guān)于如何構(gòu)建a/btest系統(tǒng),此處不做詳細說明,只闡述其重要性。2)如何做內(nèi)容推薦大數(shù)據(jù)運營分類什么是用戶畫像?從中文概念來講,用戶畫像與用戶角色非常相近,是用來勾畫用戶(用戶背景、特征、性格標簽、行為場景等)和聯(lián)系用戶需求與產(chǎn)品設(shè)計的。簡單來講,就是想要在通過從海量用戶行為數(shù)據(jù)中煉銀挖金。它根據(jù)用戶在互聯(lián)網(wǎng)留下的種種數(shù)據(jù),主動或被動地收集,然后盡可能全面細致地抽出一個用戶的信息全貌,從而幫助解決如何把數(shù)據(jù)轉(zhuǎn)化為商業(yè)價值的問題。比如:猜測用戶是男是女,哪里人,工資多少,有沒有談戀愛,喜歡什么,準備剁手購物嗎?1)如何進行用戶畫像分析2.用戶運營大數(shù)據(jù)運營分類從英文概念角度,用戶畫像(UserPortrait)、用戶角色(UserPersona)、用戶屬性(UserProfile)這三個概念其實都是各有側(cè)重和容易混淆的。1)如何進行用戶畫像分析2.用戶運營根據(jù)以上的講解,我們就知道,用戶畫像近似等同于用戶角色,統(tǒng)一稱為中文概念的用戶畫像,而用戶屬性則是用戶畫像的子集。用戶角色更傾向于業(yè)務(wù)系統(tǒng)中不同用戶的角色區(qū)分。例如:學校教務(wù)管理系統(tǒng)、老師審核、設(shè)置選課、學生查看選課和成績。那么老師、學生就是不同的用戶角色。用戶畫像更傾向于對同一類用戶進行不同維度的刻畫。例如:對同一個電商的買家進行用戶畫像設(shè)計,就是將買家進一步細分和具象,如閑逛型用戶、收藏型用戶、比價型用戶、購買型用戶等。用戶屬性則更傾向于對屬性層面的刻畫和描述,特別是基本屬性的內(nèi)涵居多,包括性別、年齡、地域等。用戶畫像用戶角色用戶屬性大數(shù)據(jù)運營分類畫虎畫皮難畫骨,知人知面不知心。通過“虛擬用戶畫像”我們可以定義用戶的性別、年齡等這些表面的基本特征,如若想要深入了解核心層面的東西,非數(shù)據(jù)用戶畫像不可。這種用戶畫像是隨著互聯(lián)網(wǎng)的不斷發(fā)展,積累的用戶信息、行為記錄越來越豐富,同時大數(shù)據(jù)處理和分析技術(shù)也已成熟,可以計算出每一個用戶的特征。特征是從人口基本屬性、社會屬性、生活習慣、消費行為等信息抽象出來的一個個具體的標簽表示,標簽是某一用戶特征的符號化表示。(1)用戶畫像分類虛擬用戶畫像數(shù)據(jù)用戶畫像此種的用戶畫像沒有數(shù)據(jù)的參與構(gòu)建,自然粒度也就比較粗,只是用虛擬的用戶畫像代表真實的用戶。大數(shù)據(jù)運營分類為每個用戶計算用戶畫像,這樣更加貼近真實的世界,每個人都是獨一無二,不能隨隨便便被其他人代表,用戶畫像精準到人。用戶畫像用標簽集合來表示,例如:王某,男,33歲,河南人,北京工作,銀行業(yè),投資顧問,年收入50萬,已婚,兩套房,有孩子,喜歡社交,不愛運動,喝白酒,消費力強等。礎(chǔ)信息可以通過用戶的注冊信息獲得,但像是否有孩子、喜歡社交、喝白酒、消費能力等級等,用戶不會告訴我們,需要建立數(shù)據(jù)模型才能計算出來。當然,用戶標簽的體系是需要根據(jù)業(yè)務(wù)領(lǐng)域去設(shè)計的,比如:銀行和電商用戶標簽體系就會不同。(1)用戶畫像分類例如大數(shù)據(jù)運營分類(2)數(shù)據(jù)用戶畫像的用途精準營銷這是運營最熟悉的玩法,從粗放式到精細化,將用戶群體切割成更細的粒度,輔以短信、推送、郵件、活動等手段,驅(qū)以關(guān)懷、挽回、激勵等策略。這樣就避免了全量投放造成的浪費,而且可以針對某次拉新用戶的活動進行分析,評估活動效果,看是否和預期相符。1數(shù)據(jù)應(yīng)用用戶畫像是很多數(shù)據(jù)產(chǎn)品的基礎(chǔ),諸如耳熟能詳?shù)耐扑]系統(tǒng)廣告系統(tǒng)。操作過各大廣告投放系統(tǒng)的同學想必都清楚,廣告投放基于一系列人口統(tǒng)計相關(guān)的標簽,性別、年齡、學歷、興趣偏好、手機等等。比如:電商網(wǎng)站為準媽媽推薦嬰兒用品,為攝影愛好者推薦鏡頭。在個性化推薦中,計算出用戶標簽是其中一環(huán),還需要有協(xié)同過濾等推薦算法實現(xiàn)物品的推薦。精準廣告可以根據(jù)年齡、區(qū)域、人群、天氣、游戲愛好、內(nèi)容偏好、購物行為、搜索行為等定向選擇進行投放。例如騰訊的廣點通,支持用戶在微信、QQ精準投放。2大數(shù)據(jù)運營分類(2)數(shù)據(jù)用戶畫像的用途數(shù)據(jù)分析用戶畫像可以理解為業(yè)務(wù)層面的數(shù)據(jù)倉庫,各類標簽是多維分析的天然要素,數(shù)據(jù)查詢平臺會和這些數(shù)據(jù)打通。3匹配度判斷查看某次市場推廣的用戶畫像,事后分析是否和預期一致,判斷推廣渠道和產(chǎn)品目標用戶群的匹配度。5產(chǎn)品設(shè)計產(chǎn)品方面,它用于輔助產(chǎn)品設(shè)計,評價需求是否有價值。把用戶進行分群,依據(jù)不同用戶群特性就行產(chǎn)品設(shè)計和測試驗證,別讓產(chǎn)品偏離核心用戶的需求。4用戶分析產(chǎn)品早期,PM們通過用戶調(diào)研和訪談的形式了解用戶。在產(chǎn)品用戶量擴大后,調(diào)研的效用降低,這時候會輔以用戶畫像配合研究。新增的用戶有什么特征,核心用戶的屬性是否變化等等。6大數(shù)據(jù)運營分類流程化和精細化為每個運營人員都要具備的基本思維,如果說流程化的思考是運營人員對運營目標的定性思考,那么數(shù)據(jù)化就是對這個目標實現(xiàn)路徑和效果的定量描述,它將你的工作思路落實在具體的數(shù)據(jù)指標上以衡量你的工作效果和目標實現(xiàn)情況。2)如何通過數(shù)據(jù)建立用戶運營建立數(shù)據(jù)化用戶運營的必要性有兩點:一是在于定量衡量你工作的價值;二是實現(xiàn)精細化運營的基礎(chǔ),比如建立在數(shù)據(jù)基礎(chǔ)上的用戶分層分類和用戶畫像就是精細化運營的前提。2.用戶運營大數(shù)據(jù)運營分類2)如何通過數(shù)據(jù)建立用戶運營數(shù)據(jù)化用戶運營是利用用戶運營的思路,結(jié)合數(shù)據(jù)分析的思想,業(yè)務(wù)指導數(shù)據(jù),數(shù)據(jù)驅(qū)動業(yè)務(wù),實現(xiàn)對用戶的精細化運營,這是數(shù)據(jù)化用戶運營的核心思想。用戶運營數(shù)據(jù)化的循環(huán)流程如下:2.用戶運營step1:用戶數(shù)據(jù)收集step2:構(gòu)建用戶數(shù)據(jù)化運營指標體系step3:數(shù)據(jù)驅(qū)動運營大數(shù)據(jù)運營分類用戶數(shù)據(jù)的收集主要收集包括用戶基本數(shù)據(jù)、用戶行為數(shù)據(jù)和用戶流量數(shù)據(jù)數(shù)據(jù)。用戶基本數(shù)據(jù)指的是用戶的靜態(tài)數(shù)據(jù),包括性別、年齡、地區(qū)、工作等,這類數(shù)據(jù)描述了用戶是誰,主要靠基本信息填寫來實現(xiàn)。用戶行為數(shù)據(jù)是用戶在產(chǎn)品上一系列操作行為的集合,哪個用戶在哪個時間點、哪個地方以哪種方式完成了哪類操作,包括用戶瀏覽、購買、內(nèi)容貢獻、邀請傳播、社交等行為,這類數(shù)據(jù)描述了用戶干了什么,主要靠數(shù)據(jù)埋點來實現(xiàn)。用戶流量數(shù)據(jù)是用戶的來源,是基于用戶訪問的網(wǎng)頁端產(chǎn)生的,包括設(shè)備、運營商、端口、時間等,這類數(shù)據(jù)描述了用戶從哪兒來。不過目前的流量數(shù)據(jù)統(tǒng)計主要來源于GA、百度統(tǒng)計等第三方工具,無法記錄在數(shù)據(jù)庫中,也就是還做不到與上述提到的用戶基本數(shù)據(jù)、行為數(shù)據(jù)一一對應(yīng)。以上數(shù)據(jù)都是從產(chǎn)品或第三方工具里得到的原始數(shù)據(jù),要實現(xiàn)運營目標還需要在原始數(shù)據(jù)基礎(chǔ)上做數(shù)據(jù)挖掘和數(shù)據(jù)分析,結(jié)合運營目標和路徑構(gòu)建數(shù)據(jù)化運營指標體系。step1:用戶數(shù)據(jù)收集大數(shù)據(jù)運營分類如果你不能用指標來描述業(yè)務(wù),那么你就不能有效增長它。那么在本環(huán)節(jié)要做的就是將你的業(yè)務(wù)指標化。數(shù)據(jù)指標不是恒定不變的,它依托于你產(chǎn)品的業(yè)務(wù)流程或功能流程,和目標及目標實現(xiàn)路徑密切相關(guān)。用戶運營的目的是最大化提升用戶價值,如果你是電商產(chǎn)品,那你的目的就是讓用戶付費購買商品,如果你是社區(qū)產(chǎn)品,那你的目的就是讓用戶貢獻傳播內(nèi)容。但是產(chǎn)品目標和用戶價值的實現(xiàn)是個循序漸進的過程,也是個動態(tài)演變的過程,有的從潛在用戶注冊成為活躍用戶,有的從活躍轉(zhuǎn)為流失,也有的從流失回流到活躍。step2:構(gòu)建用戶數(shù)據(jù)化運營指標體系大數(shù)據(jù)運營分類有了結(jié)構(gòu)化的數(shù)據(jù)指標體系,但這還不能算是完整的運營體系。數(shù)據(jù)本身是沒有價值的,變成策略才有價值。我們構(gòu)建出來的數(shù)據(jù)指標都是為決策來服務(wù)的,幫我們制定和優(yōu)化運營策略。通過數(shù)據(jù)我們不僅是要知道“是什么”和“有多少”的問題,更重要的是要知道“為什么”?這才是數(shù)據(jù)能驅(qū)動業(yè)務(wù)的關(guān)鍵。數(shù)據(jù)驅(qū)動業(yè)務(wù)體現(xiàn)在兩個方面:一是用數(shù)據(jù)優(yōu)化運營策略,比如用戶留存率低,而留存率與用戶質(zhì)量和產(chǎn)品吸引力有關(guān)系,通過渠道分析發(fā)現(xiàn)用戶質(zhì)量沒有問題,而通過用戶流失分析發(fā)現(xiàn)主要流失階段在初始接觸期,這就找到了原因,于是在產(chǎn)品穩(wěn)定性、易用性和新用戶引導上做優(yōu)化。二是數(shù)據(jù)驗證運營策略,比如你想上線一個新的用戶激勵措施,但不確定和原有方式相比是否會有更好結(jié)果,這時候通過合理的AB測試得出的對比數(shù)據(jù)可以為你提供決策依據(jù)。step3:數(shù)據(jù)驅(qū)動運營大數(shù)據(jù)運營分類1)如何通過數(shù)據(jù)驅(qū)動產(chǎn)品力提升3.產(chǎn)品運營定目標產(chǎn)品迭代A/B測試大數(shù)據(jù)運營分類1)如何通過數(shù)據(jù)驅(qū)動產(chǎn)品力提升3.產(chǎn)品運營定目標無論是部門還是項目,在做產(chǎn)品工作的時候,都需要有一個非常明確的目標。在定目標時,對于一個全新的業(yè)務(wù)或者產(chǎn)品,我們沒有已有數(shù)據(jù)做參考的時候,我們可以去參考同類競品,然后去估算可以達到的數(shù)據(jù)。這個數(shù)據(jù)具體取什么,也很重要。一般都會取你所負責項目對公司、對業(yè)務(wù)貢獻最突出的地方。目標一旦明確后,產(chǎn)品經(jīng)理所做的工作,就會朝著這個目標去努力思考,自然效果就會更加聚焦,結(jié)果也可以量化。大數(shù)據(jù)運營分類1)如何通過數(shù)據(jù)驅(qū)動產(chǎn)品力提升產(chǎn)品迭代在做需求、設(shè)計產(chǎn)品時,首先思考的是這個改動是要達成什么樣的目標:提升轉(zhuǎn)化率?優(yōu)化用戶體驗?或是增長某些業(yè)務(wù)數(shù)據(jù)?在明確了目標后,我再去思考如何改動會提升相關(guān)數(shù)據(jù)。比如強制用戶注冊登錄,是否可以提高用戶注冊數(shù)?是否會影響新用戶的留存率等。我可能在上線前做出一系列假設(shè),這些假設(shè)在沒有看到數(shù)據(jù)前,都只是推斷,并不能反映用戶的真實行為?;ヂ?lián)網(wǎng)產(chǎn)品迭代速度快,主要原因是通過小步快跑的迭代方式,可以反復的試錯,糾正,優(yōu)化。保證始終是朝著好的方向嘗試著。如果是大的功能,在上線后,我會觀察整體的各項指標是否發(fā)生了變化。如果發(fā)生了變化,是否是因為這個功能引起的。如果數(shù)據(jù)變好了,說明印證了我們的猜想,符合我們的預期;如果數(shù)據(jù)不好,就要進一步細化數(shù)據(jù),定位原因,再次進行優(yōu)化,直到我們得出明確結(jié)論。3.產(chǎn)品運營大數(shù)據(jù)運營分類1)如何通過數(shù)據(jù)驅(qū)動產(chǎn)品力提升A/B測試通俗講就是同時上線A方案和B方案,觀察2個方案的數(shù)據(jù)好壞,從而決定使用哪個方案。這是最常見的數(shù)據(jù)驅(qū)動手段,由于它可以控制除改動點之外的其他變量,因此它的對比比較客觀,結(jié)論也會非常準確。3.產(chǎn)品運營大數(shù)據(jù)運營分類2)如何通過數(shù)據(jù)做品類管理在零售行業(yè),不論是哪一種產(chǎn)品,飲料、日用品、奶粉等等,貨架陳列是非常重要的,在商超里面,好的陳列位置也是兵家必爭之地,誰有實力誰就可以拿到最好的位置,這已經(jīng)是心照不宣的了,那么如果沒有好位置,對于貨架陳列要注重什么?怎么才可以進行更好的貨架管理,新的數(shù)據(jù)分析工具能不能幫助品牌進行更好的品類管理、設(shè)計、陳列以及優(yōu)化。在貨架管理中引入大數(shù)據(jù)分析就是為了可以更好的用科學的方法來進行貨架管理,將客戶最想要優(yōu)先購買的產(chǎn)品放在客戶的面前,以及做出更好的預測性的品類管理決策。利用數(shù)據(jù)分析進行品類管理,主要衡量標準是不是好的品類管理數(shù)據(jù)的標準主要有陳列是不是客戶想要的產(chǎn)品、陳列的價格是不是最新的價格,是不是最新包裝產(chǎn)品,是不是活動中的產(chǎn)品,陳列出來的品類庫存還有多少,以及預期的毛利是多少,能不能達到以上的幾個目標,都是需要已有的數(shù)據(jù)支持。3.產(chǎn)品運營大數(shù)據(jù)運營分類2)如何通過數(shù)據(jù)做品類管理現(xiàn)有的基于數(shù)據(jù)分析的品項管理很多都是針對銷售的情況是什么樣的,主要提取的也都是銷售的數(shù)據(jù),根據(jù)長尾理論,銷售量高產(chǎn)品總是會被排列的最多,銷售量低的產(chǎn)品少部分排列或者還有可能會被下架,在品項管理中,我們不能只是看中銷售的數(shù)據(jù),也要考慮每一個品類之間的互動關(guān)系,一個企業(yè)也可能只單獨生產(chǎn)一種品項的產(chǎn)品,好的基于數(shù)據(jù)的品項管理要以客戶的需要為中心,根據(jù)客戶的真實購買情況,結(jié)合客戶的信息,找出核心的產(chǎn)品,如果是比較重點的門店可以挖掘更有深度的產(chǎn)品,一些額外的品類還可以根據(jù)每一個門店的不同的投入情況,以及重點的主推品牌進行調(diào)整。3.產(chǎn)品運營大數(shù)據(jù)運營分類2)如何通過數(shù)據(jù)做品類管理品類管理的目標就是將最好、最完整的品類展示在貨架上,貨架陳列就是將客戶最需要的產(chǎn)品展示在客戶的面前,好的貨架陳列可以達到三贏的效果,對于客戶來說,可以很快的找到自己喜歡的產(chǎn)品,提高客戶的購買體驗。對于運營方來說,可以減少過期陳列或者減少報損的數(shù)量,簡化陳列的工序,在庫存以及物流方面也可以提高效率。對于企業(yè)來說,利用數(shù)據(jù)分析進行品類管理,從而進行貨架陳列,可以有效的提高貨架的使用效率,對于門店的發(fā)展策略也是有益的,可以不斷的提高盈利。3.產(chǎn)品運營大數(shù)據(jù)運營分類3)如何提升產(chǎn)品購買能力3.產(chǎn)品運營確定產(chǎn)品戰(zhàn)略方向制度有效的產(chǎn)品策略方法明確目標用戶及用戶分析:消費場景分析、挖掘市場需求、挖掘產(chǎn)品價值、形成有競爭力的產(chǎn)品優(yōu)勢、打造層級的產(chǎn)品結(jié)構(gòu)、有沖擊力的產(chǎn)品創(chuàng)意。通過產(chǎn)品經(jīng)理負責制提高執(zhí)行力度產(chǎn)品經(jīng)理負責制主要包括產(chǎn)品推廣計劃表新品開發(fā)計劃表、爆款打造計劃表、產(chǎn)品營銷工具、產(chǎn)品體系工作推進表。確定品類:鎖定產(chǎn)品的品類,目前的品類,未來要去的品類。明確方向:產(chǎn)品的發(fā)展規(guī)劃清晰明確。發(fā)展戰(zhàn)略:3-5年的產(chǎn)品規(guī)劃戰(zhàn)略,及產(chǎn)品的愿景和使命。營銷目標:目標計劃及分解計劃,利潤指標等。核心戰(zhàn)略:產(chǎn)品品質(zhì)的把控,流程優(yōu)化等核心戰(zhàn)略。大數(shù)據(jù)運營分類1)如何通過數(shù)據(jù)做渠道產(chǎn)品4.渠道運營建立精細化的渠道追蹤體系是做好渠道運營的基礎(chǔ)保障。能追蹤才能衡量,我們需要用一套UTM配置參數(shù)來追蹤用戶的來源告別拍腦袋的主觀判斷渠道質(zhì)量好壞的狀態(tài)。如表所示,UTM提供了5個可以自由配置的參數(shù)。大數(shù)據(jù)運營分類1)如何通過數(shù)據(jù)做渠道產(chǎn)品參數(shù)定義好后,就可以進行各種場景的跟蹤,舉個例子:新浪首頁頂部Banner位和右側(cè)Banner位分別投放了不同廣告創(chuàng)意的運營內(nèi)容。這里面包含了對運營來說如下幾點關(guān)鍵信息:4.渠道運營這樣就實現(xiàn)了在同一個渠道不同位置投放的不同廣告創(chuàng)意的付費活動的追蹤。當然,你可以充分利用這五個參數(shù)的組合來實現(xiàn)各種場景的渠道追蹤。創(chuàng)意是否和用戶需求相關(guān),在很大程度上會影響用戶是否會點擊推廣結(jié)果。不同廣告創(chuàng)意的追蹤如果用戶點擊某條創(chuàng)意比較好的廣告來到落地頁后,發(fā)現(xiàn)不是自己最關(guān)心的內(nèi)容,用戶體驗很糟糕,很可能用戶就跳出了,沒有發(fā)生我們期望他完成的行為,這對推廣運營的好壞影響很大。不同推廣落地頁的追蹤如上圖我們可以對付費推廣活動打上以pay開頭的標簽,用于區(qū)分是付費推廣還是免費推廣。不同廣告系列的追蹤大數(shù)據(jù)運營分類5.活動運營數(shù)據(jù)分析前提條件。無論我們是分析搜索,還是場景數(shù)據(jù),當數(shù)據(jù)量達不到一定程度的時候,都沒有任何意義。也就是只有數(shù)據(jù)達到一定量時,才具備分析參考價值。舉個例子,比如圖片5個展現(xiàn),1個點擊,點擊率是20%,那你就能說這張圖很好嗎?并不能,但是當它有100個點擊,點擊率仍有20%,你再說這張圖好是不是就會有底氣很多。ocpx計劃數(shù)據(jù)分析。ocpx有兩個階段,第一個階段是數(shù)據(jù)積累期,第二階段是智能投放期。在第一個階段我們需要重點關(guān)注數(shù)據(jù)是曝光量,沒有曝光我們一般采用兩種應(yīng)對措施。一是提高出價;二是新建同個鏈接ocpx計劃。第二階段,重點就不是關(guān)注曝光,而是轉(zhuǎn)化和ROI。調(diào)整數(shù)據(jù)思路就是根據(jù)轉(zhuǎn)化流量進行一個浮動出價。比如流量轉(zhuǎn)化好時,我們可以降低出價,因為第二天會根據(jù)我們前一天數(shù)據(jù)進行曝光展現(xiàn)。如果流量轉(zhuǎn)化不好,可以適當提高出價,避免第二天流量供應(yīng)不足。其次我們還可以根據(jù)成交、詢單、收藏、關(guān)注數(shù)據(jù)進行浮動出價,因為有些類目會更注重詢單和關(guān)注。比如定制類目詢單量就會比較重要,女裝等非標品,關(guān)注也是需要考慮的因素。自定義計劃數(shù)據(jù)分析。自定義可以優(yōu)化調(diào)整的地方會比智能更多,因此需要關(guān)注的數(shù)據(jù)也會增加。比如曝光量、點擊量、點擊率、平均點擊花費、點擊轉(zhuǎn)化率、投入產(chǎn)出比、分時折扣等。大數(shù)據(jù)運營分類持續(xù)拖價:因為在計劃初期,無論計劃權(quán)重還是鏈接權(quán)重,都是比較低的,為了日限額能跑出去,一般采用高出低溢的形式,所以當計劃權(quán)重養(yǎng)起來之后,首先就是要去降低ppc。優(yōu)化分時折扣:看數(shù)據(jù)的時候,不要緊盯著投產(chǎn),還要關(guān)注流量的波動情況,畢竟不是所有訪客都是即時成交的,避免數(shù)據(jù)誤差。可以通過報表把每天分時詳情數(shù)據(jù)下載下來。導入到Excel,進行數(shù)據(jù)匯總,根據(jù)得到的數(shù)據(jù)規(guī)律進行調(diào)整我們的計劃,比如好的時間段提高溢價,當然也可以采用很極端的操作,就是只開這些好的時間段,其他溢價為0。配合ocpx放大流量基數(shù):但是無論是智能計劃還是自定義計劃,點擊率都是核心關(guān)鍵因素,沒有做好點擊率就去推廣往往會折戟沉沙,一敗涂地。只有把握住數(shù)據(jù)的精準分析,才能把每一分錢都花在刀刃上。5.活動運營自定義計劃如何優(yōu)化數(shù)據(jù)?PART02大數(shù)據(jù)運營綜合案例解析大數(shù)據(jù)運營綜合案例解析現(xiàn)有一份某網(wǎng)貸平臺的用戶數(shù)據(jù),可使用Python對此數(shù)據(jù)中的逾期用戶進行分析,總結(jié)出逾期用戶的特點(逾期用戶畫像),在平臺運營過程中對具有逾期特點的用戶采取適當?shù)娘L險管控措施。數(shù)據(jù)基本信息使用Pandas中的read_csv()方法導入數(shù)據(jù)(此數(shù)據(jù)已上傳到JupyterNotebook中,也可從本地磁盤導入),如圖所示。1數(shù)據(jù)信息操作現(xiàn)有數(shù)據(jù)集‘LCIS.csv’文件,是某網(wǎng)貸平臺2015年1月1日到2017年1月30日所有的交易數(shù)據(jù),首先我們需要導入數(shù)據(jù),了解數(shù)據(jù)集的基本情況。1)導入數(shù)據(jù)使用shape屬性查看數(shù)據(jù)集的形狀,如圖所示。2)查看數(shù)據(jù)集形狀從中可看出此數(shù)據(jù)集共有292539條數(shù)據(jù),37個屬性。接下來需要查看這37個屬性分別代表什么。數(shù)據(jù)基本信息使用info()方法查看數(shù)據(jù)集基本信息,如圖所示。1)查看數(shù)據(jù)集基本信息2數(shù)據(jù)集信息查看數(shù)據(jù)基本信息2)將英文字段重命名為中文2數(shù)據(jù)集信息查看#保留原始的df#新建一個DataFrame(data)存放數(shù)據(jù)data=pd.DataFrame(df)#將英文字段改為中文#inplace=True,不創(chuàng)建新的對象,直接對原始對象進行修改data.rename(columns={'ListingId':'序號','recorddate':'記錄日期'},inplace=True)使用head()方法查看前5條數(shù)據(jù),如圖所示。數(shù)據(jù)基本信息3)總結(jié)37個屬性信息2數(shù)據(jù)集信息查看編號屬性名非空記錄條數(shù)數(shù)據(jù)類型1序號292539int642借款金額292539int643借款期限292539int644借款利率292539float645借款成功日期292539object6初始評級292539object7借款類型292539object8是否首標292539object9年齡292539int6410性別292539object11手機認證292539object12戶口認證292539object13視頻認證292539object14學歷認證292539object15征信認證292539object16淘寶認證292539object17歷史成功借款次數(shù)291336float6418歷史成功借款金額291336float6419總待還本金292539float6420歷史正常還款期數(shù)292539int6421歷史逾期還款期數(shù)292539int6422我的投資金額292539int6423當前到期期數(shù)292539int6424當前還款期數(shù)292539int6425已還本金292539float6426已還利息292539float6427待還本金292539float6428待還利息292539float6429標當前逾期天數(shù)292539int6430標當前狀態(tài)292539object31上次還款日期271490object32上次還款本金270290float6433上次還款利息270290float6434下次計劃還款日期182563object35下次計劃還款本金182563float6436下次計劃還款利息181494float6437記錄日期292130object從表格可看出,有部分屬性存在空值,后續(xù)數(shù)據(jù)清洗的時候需要對缺失值進行處理。數(shù)據(jù)基本信息1)查看數(shù)據(jù)集統(tǒng)計信息3數(shù)據(jù)信息統(tǒng)計使用Pandas的describe()方法查看基本統(tǒng)計信息,如圖所示。其中歷史成功借款金額、總待還本金、歷史正常還款期數(shù)等是科學計數(shù)法顯示的,我們也可使用如下方式查看,如圖所示。數(shù)據(jù)基本信息2)了解定量數(shù)據(jù)的統(tǒng)計信息3數(shù)據(jù)信息統(tǒng)計結(jié)合上面的統(tǒng)計信息,可了解定量數(shù)據(jù)的統(tǒng)計信息(去除序號屬性,共有21個定量數(shù)據(jù)),總結(jié)如表所示編號屬性名非空記錄條數(shù)數(shù)據(jù)類型平均值【2位小數(shù)】最小值最大值標準差【2位小數(shù)】1借款金額292539int648516.1210050000027584.912借款期限292539int6410.191243.153借款利率292539float6417.787243.384年齡292539int6429.3518656.175歷史成功借款次數(shù)291336float642.5804875.086歷史成功借款金額291336float6415131.340385647670264.137總待還本金292539float644499.620169770616989.398歷史正常還款期數(shù)292539int6476.64016250004672.39歷史逾期還款期數(shù)292539int6418.3705240341256.9810我的投資金額292539int6496.3502190117.7511當前到期期數(shù)292539int645.560243.8812當前還款期數(shù)292539int645.650110011.1513已還本金292539float6472.0902190122.314已還利息292539float644.80269.66.4815待還本金292539float6424.480110030.9916待還利息292539float641.67087.742.3117標當前逾期天數(shù)292539int643.19068127.9118上次還款本金270290float6421.280141348.7819上次還款利息270290float640.48011.770.4220下次計劃還款本金182563float646.04096.94.3721下次計劃還款利息181494float640.5808.920.33數(shù)據(jù)基本信息2)了解定量數(shù)據(jù)的統(tǒng)計信息3數(shù)據(jù)信息統(tǒng)計從以上表格,可得出如下信息:此網(wǎng)貸平臺的用戶年齡在18到65歲之間,平均值是29.35,說明年輕用戶比較多;此網(wǎng)貸平臺業(yè)務(wù),最小貸款金額是100元,最大貸款金額是50萬元;借款金額、歷史成功借款金額、總待還本金這幾個屬性的最小值和最大值相差很大,標準差較高,說明數(shù)據(jù)較離散。數(shù)據(jù)基本信息4數(shù)據(jù)信息定性數(shù)據(jù)集中共有37個屬性,定量數(shù)據(jù)22個,定性數(shù)據(jù)15個,根據(jù)定性數(shù)據(jù)的特點,可將其分為日期數(shù)據(jù)、認證數(shù)據(jù)和其他數(shù)據(jù)三類,如表所示。日期數(shù)據(jù)中空值比較多,后續(xù)需要進行缺失值填充;認證數(shù)據(jù)主要為用戶的認證方式,只要采用其中一種方式認證過,就證明是已認證的狀態(tài),后續(xù)可用1個字段替換這6個字段;其他數(shù)據(jù)中,我們需要查看“初始評級”、“借款類型”、“標當前狀態(tài)”的取值范圍。編號分類屬性名非空記錄條數(shù)1日期數(shù)據(jù)借款成功日期2925392上次還款日期2714903下次計劃還款日期1825634記錄日期2921305認證數(shù)據(jù)手機認證2925396戶口認證2925397視頻認證2925398學歷認證2925399征信認證29253910淘寶認證29253911其他數(shù)據(jù)初始評級29253912借款類型29253913標當前狀態(tài)29253914是否首標29253915性別292539數(shù)據(jù)基本信息1)查看“初始評級”數(shù)據(jù)使用value_counts()方法查看數(shù)據(jù)的值及每個值的統(tǒng)計信息,如圖所示從“初始評級”的結(jié)果中可看出,共分為AAA、AA、A、B、C、D、E、F八個等級,AAA為最優(yōu)等級,F(xiàn)為最差等級。從上圖結(jié)果可得出B、C級別客戶很多,占比約66%,AAA和F級別的客戶很少,占比約為0.5%,基本符合正態(tài)分布特點,“一般般的很多,極端的很少”。4數(shù)據(jù)信息定性數(shù)據(jù)基本信息2)查看“借款類型”數(shù)據(jù)通過value_counts()方法查看“借款類型”數(shù)據(jù),如圖所示從結(jié)果中可看出此網(wǎng)貸平臺的借款類型共分為5種,分別是“普通”、“其他”、“APP閃電”、“電商”和“應(yīng)收安全標”,其中“普通”類型占比最高,約為41%。4數(shù)據(jù)信息定性數(shù)據(jù)基本信息3)查看“標當前狀態(tài)”數(shù)據(jù)從結(jié)果中可看出,處于“正常還款中”狀態(tài)的最多,達到172569條,占比約為59%,還有1203條數(shù)據(jù)異常,后續(xù)數(shù)據(jù)清洗的時候需要對異常值進行處理。4數(shù)據(jù)信息定性數(shù)據(jù)清洗1)查看是否有重復值1重復值處理使用duplicated()方法查看是否存在重復值,如圖所示。由于數(shù)據(jù)量太多,不方便查看,此時可以將duplicated()方法和sum()方法聯(lián)合使用,返回重復值的數(shù)量,如圖所示。從運行結(jié)果中可看出,數(shù)據(jù)集中共有106條重復值。數(shù)據(jù)清洗2)去除重復數(shù)據(jù)Pandas中去除重復值非常簡單,使用drop_duplicates()方法可一鍵去除,注意需要加上inplace=True,直接在原始對象上進行修改,如圖所示。去除重復值后,使用shape屬性查看數(shù)據(jù)集形狀,發(fā)現(xiàn)數(shù)據(jù)從原來的292539條減少為292433條,正好減少了106條。1重復值處理數(shù)據(jù)清洗1)查看數(shù)據(jù)集中的缺失值2缺失值處理isnull()方法和sum()方法聯(lián)合使用,返回缺失值數(shù)量,如圖所示。可將缺失值分為日期類型和非日期類型兩類。日期類型:“上次還款日期”缺失21040條數(shù)據(jù)、“下次計劃還款日期”缺失109936條數(shù)據(jù)、“記錄日期”缺失409條數(shù)據(jù)。非日期類型:“歷史成功借款次數(shù)”缺失1203條數(shù)據(jù)、“歷史成功借款金額”缺失1203條數(shù)據(jù)、“上次還款本金”缺失22240條數(shù)據(jù)、“上次還款利息”缺失22240條數(shù)據(jù)、“下次計劃還款本金”缺失109936條數(shù)據(jù)、“下次計劃還款利息”缺失111005條數(shù)據(jù)。數(shù)據(jù)清洗2)日期類型數(shù)據(jù)缺失值處理針對“上次還款日期”和“記錄日期”兩個屬性,采用眾數(shù)填充缺失值,“下次計劃還款日期”統(tǒng)一采用“2025-12-31”來填充。使用mode()方法查看眾數(shù),如圖所示。日期類型數(shù)據(jù)缺失值填充代碼代碼如下。2缺失值處理#使用眾數(shù)填充缺失值data['上次還款日期'].fillna('2017/2/28',inplace=True)data['記錄日期'].fillna('2017/2/28',inplace=True)#使用“2025-12-31”填充缺失值data['下次計劃還款日期'].fillna('2025/12/31',inplace=True)運行代碼后,查看缺失值數(shù)量,發(fā)現(xiàn)這三個日期數(shù)據(jù)的缺失值都已變?yōu)?,說明填充成功,如圖所示。數(shù)據(jù)清洗3)定量數(shù)據(jù)缺失值處理定量數(shù)據(jù)的缺失值可采用均值、中位數(shù)、眾數(shù)等方式填充,這里采用中位數(shù)或均值來填充,代碼如下。2缺失值處理#使用眾數(shù)填充缺失值data['歷史成功借款次數(shù)'].fillna(data['歷史成功借款次數(shù)'].median(),inplace=True)#使用均值填充data['歷史成功借款金額'].fillna(np.floor(data['歷史成功借款金額'].mean()),inplace=True)data['上次還款本金'].fillna(np.round(data['上次還款本金'].mean(),2),inplace=True)data['上次還款利息'].fillna(np.round(data['上次還款利息'].mean(),2),inplace=True)data['下次計劃還款本金'].fillna(np.round(data['下次計劃還款本金'].mean(),2),inplace=True)data['下次計劃還款利息'].fillna(np.round(data['下次計劃還款利息'].mean(),2),inplace=True)數(shù)據(jù)清洗有時,我們需要對異常值進行處理3異常值處理通過查看數(shù)據(jù)集的37個屬性,發(fā)現(xiàn)“標當前狀態(tài)”的取值可以通過“標當前逾期天數(shù)”的值來進行判斷,如圖所示。數(shù)據(jù)清洗“標當前逾期天數(shù)”的值大于0的“標當前狀態(tài)”即為“逾期中”。3異常值處理運行之后,再查看“標當前狀態(tài)”的取值,發(fā)現(xiàn)只剩2個異常值,如圖所示。data.loc[data['標當前逾期天數(shù)']>0,'標當前狀態(tài)']='逾期中'對剩下2個異常值進行處理的代碼如下:data.loc[data['標當前狀態(tài)']=='0','標當前狀態(tài)']='正常還款中'data.loc[data['標當前狀態(tài)']=='0.49','標當前狀態(tài)']='逾期中'運行之后,再查看“標當前狀態(tài)”的取值,發(fā)現(xiàn)已經(jīng)沒有異常值了,如圖所示。從中可看出,“逾期中”的數(shù)據(jù)占比約為3.55%。數(shù)據(jù)分析與可視化在數(shù)據(jù)清洗之后,數(shù)據(jù)分析之前需要建立數(shù)據(jù)指標體系,本案例中的數(shù)據(jù)指標包括用戶認證率、逾期率、逾期用戶性別比例、不良資產(chǎn)率等。如果把數(shù)據(jù)分析比喻成做飯的話,對數(shù)據(jù)基本的了解和數(shù)據(jù)清洗相當于準備食材環(huán)節(jié),建立數(shù)據(jù)統(tǒng)計指標相當于是查找菜譜,數(shù)據(jù)分析和可視化相當于燒菜和擺盤,每一個環(huán)節(jié)都很重要,都直接影響一盤菜的質(zhì)量。接下來我們就從性別、年齡、認證等維度來分析這些因素與是否逾期的關(guān)系,進而建立逾期用戶畫像。首先可以將“標當前狀態(tài)”分為“逾期中”和“未逾期”兩種,代碼如下:data.loc[data['標當前狀態(tài)']=='逾期中','是否逾期']='逾期中'data.loc[data['標當前狀態(tài)']!='逾期中','是否逾期']='未逾期'數(shù)據(jù)分析與可視化運行之后,數(shù)據(jù)中即新增一列“是否逾期”屬性,如圖所示。查看“是否逾期”屬性數(shù)據(jù),發(fā)現(xiàn)逾期用戶占比約為3.55%,如圖所示。數(shù)據(jù)分析與可視化1)準備數(shù)據(jù)1性別維度使用groupby()和value_counts()方法分別對“逾期中”和“未逾期”用戶進行統(tǒng)計并按照性別排序,如圖所示。使用unstack()方法將數(shù)據(jù)的行索引變?yōu)榱兴饕鐖D所示。數(shù)據(jù)分析與可視化2)數(shù)據(jù)可視化1性別維度使用餅圖呈現(xiàn)所有用戶男女比例和逾期用戶男女比例,代碼如下。從中可看出,此網(wǎng)貸平臺男性用戶較多,占比約為65%,逾期用戶中男性占比約為70%。importmatplotlib.pyplotasplt#設(shè)置中文標簽顯示正常plt.rcParams['font.sans-serif']=['SimHei']plt.rcParams['axes.unicode_minus']=False#設(shè)置畫布plt.figure(figsize=(10,10),dpi=100)data_sex['總?cè)藬?shù)']=data_sex['逾期中']+data_sex['未逾期']plt.subplot(221)plt.pie(data_sex['總?cè)藬?shù)'],labels=['女','男'],autopct='%.2f%%')plt.title('所有用戶中男女比例')plt.subplot(222)plt.pie(data_sex['逾期中'],labels=['女','男'],autopct='%.2f%%')plt.title('逾期用戶中男女比例')plt.show()數(shù)據(jù)分析與可視化1)查看年齡分布情況2年齡維度使用seaborn的distplot()方法查看年齡分布情況。從中可看出,此網(wǎng)貸平臺的用戶年齡大多集中在20歲~40歲,結(jié)合上文中對男女比例的分析,可得出,此網(wǎng)貸平臺的大部分用戶為20歲~40歲的男性。importseabornassnsplt.figure(figsize=(10,10),dpi=100)plt.subplot(221)sns.distplot(data['年齡'],label='整體年齡分布')plt.legend()plt.subplot(222)sns.distplot(data['年齡'],label='整體年齡分布',color='#ADD8E6')sns.distplot(data[data['性別']=='男']['年齡'],label='男性年齡分布',color='#6495ED')sns.distplot(data[data['性別']=='女']['年齡'],label='女性年齡分布',color='#BA55D3')plt.legend()plt.show()數(shù)據(jù)分析與可視化2)探索各年齡借款金額與累計金額占比2年齡維度使用柱形圖(bar方法)、折線圖(plot方法)、豎線(axvline方法)顯示借款金額和年齡的關(guān)系,代碼如下。從中可看出約85%的借款被22~38歲的人借走了,接下來可以結(jié)合的年齡分布圖對年齡進行分箱。#各年齡借款金額與累計金額占比sum_age=data[['借款金額','年齡']].groupby(by='年齡').sum()sum_age['累計金額占比']=sum_age.cumsum()/sum_age.sum()age1=sum_age[sum_age['累計金額占比']>0.01].index[0]age2=sum_age[sum_age['累計金額占比']>0.85].index[0]plt.figure(figsize=(12,10),dpi=100)x=sum_age.index#年齡與借款金額柱形圖plt.bar(x,sum_age['借款金額'].values,label='借款金額')plt.legend(loc='upperleft')plt.xticks(x)plt.xlabel('年齡')plt.ylabel('借款金額:億元')#twinx()設(shè)置共享x軸,twiny()表示共享y軸plt.twinx()#累計金額占比折線圖plt.plot(x,sum_age['累計金額占比']

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論