Python數(shù)據分析與實戰(zhàn)(微課版)課件 第7章 競賽網站用戶分群_第1頁
Python數(shù)據分析與實戰(zhàn)(微課版)課件 第7章 競賽網站用戶分群_第2頁
Python數(shù)據分析與實戰(zhàn)(微課版)課件 第7章 競賽網站用戶分群_第3頁
Python數(shù)據分析與實戰(zhàn)(微課版)課件 第7章 競賽網站用戶分群_第4頁
Python數(shù)據分析與實戰(zhàn)(微課版)課件 第7章 競賽網站用戶分群_第5頁
已閱讀5頁,還剩27頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

競賽網站用戶行為分析1預處理競賽網站用戶訪問數(shù)據目錄競賽網站用戶行為分析的背景和方法2對競賽網站用戶進行分群3

隨著大數(shù)據的興起,以及各種大數(shù)據產品企業(yè)層出不窮,網站的訪問量出現(xiàn)了小幅度的下降。在信息時代,訪問量的降低對于運營商的影響是巨大的。本案例的研究對象是廣東泰迪智能科技股份有限公司旗下的“泰迪杯”競賽網站。傳統(tǒng)的用戶分群主要根據用戶的注冊資料,包括性別、年齡、區(qū)域等信息,但這種分群方式是“粗獷”的,未能考慮到用戶的行為特征和興趣偏好,分群結果會出現(xiàn)較大偏差,難以為差異化服務提供決策的支持。競賽網站背景1.

分析競賽網站現(xiàn)狀競賽網站運營商想要對網站用戶進行差異化服務以增加訪問量,但想在多種多樣的互聯(lián)網用戶中精確定位到各種用戶存在一定的困難。本案例依據用戶的歷史訪問記錄,研究用戶的興趣偏好,分析需求并發(fā)現(xiàn)用戶的興趣點,從而將用戶分成不同群體。后續(xù)可以針對不同群體提供差異化的服務,提高用戶的使用體驗。競賽網站背景競賽網站的系統(tǒng)數(shù)據庫中積累了大量的用戶訪問數(shù)據。當用戶訪問網站時,系統(tǒng)將會自動記錄用戶訪問網站的日志。本案例主要對提取的競賽網站2024年1月共200196條數(shù)據進行分析,用戶訪問表特征說明如表所示。競賽網站背景2.

了解競賽網站數(shù)據的基本情況特征名稱特征說明示例page_path網址/ts/578.jhtmluserid用戶ID4187ipIP地址12sessionid單次訪問ID8C6E30E3355675932AA9EF78AAF87346date_time訪問時間2024/1/10:00:00uniqueVisitorId唯一訪問ID9db6b30b-9443-071d-edbf-5d3a20e6148b用戶行為分析的意義在于,通過分析用戶行為數(shù)據,運營商能夠制定穩(wěn)定已有用戶和增加新用戶的策略。分析用戶訪問網站的內容和時間,可以了解用戶的習慣和偏好。此外用戶的性別、年齡、職位等基本屬性也在用戶行為中有所體現(xiàn)。為了減少用戶流失,可以根據用戶行為制訂精準的營銷方案。例如,對可能成為穩(wěn)定用戶的對象及時進行電話跟進,對已經穩(wěn)定的用戶也要偶爾進行滿意度調查,以保持他們的長期穩(wěn)定。用戶行為主要表現(xiàn)為用戶在競賽網站的訪問行為。用戶訪問網頁的類別體現(xiàn)了他們的關注點,用戶在網站中的下意識操作更能反映他們的真實感受。認識用戶行為分析競賽網站用戶行為分析主要包括以下步驟,流程如圖所示。從數(shù)據庫中讀取競賽網站的用戶訪問數(shù)據。對數(shù)據進行用戶識別、數(shù)據清洗、網頁分類,得到擁有用戶唯一標識和網頁分類的數(shù)據,并進行特征構造,構建用戶訪問不同類別網頁的次數(shù)的特征。使用K-Means聚類算法根據構造的特征對用戶進行分群。對不同的分類人群進行分析并提出建議。競賽網站用戶行為分析的步驟與流程1預處理競賽網站用戶訪問數(shù)據目錄競賽網站用戶行為分析的背景和方法2對競賽網站用戶進行分群3用戶識別的前提是原始數(shù)據擁有區(qū)分用戶的特征。因此,用戶識別的作用在于構建唯一識別用戶的特征。在原始的特征中,ip代表用戶的IP地址,但使用同一局域網訪問的用戶擁有相同的ip,僅用ip作為用戶唯一標識并不嚴謹。sessionid表示單次訪問的id,關閉網頁又重新打開網頁后sessionid會發(fā)生變化,同一ip對應不同的sessionid的示例如表所示,選sessionid作為用戶的唯一標識會將同一用戶在不同時間段內的訪問記錄識別成不同的用戶的訪問記錄。用戶識別ipSessionid3A784AEA509EA8DC60DB8B3DC18A31F64377E3EDBB70FF89B185F6A18AF56D2A763E3D8840029B49481A74F7C1732CCEBDCuserid可以作為注冊用戶的唯一標識,但非注冊用戶的userid為NA,因此它不能作為非注冊用戶的唯一標識。uniqueVisitorId是用戶的唯一訪問ID,但在原始數(shù)據中uniqueVisitorId特征有較多的缺失值,單獨作為識別非注冊用戶的標識也并不嚴謹。用戶識別userid和uniqueVisitorId中空值與非空值占比如圖所示。綜合考慮,最終選取ip、userid、uniqueVisitorId這3個特征構建用戶的唯一標識reallID。用戶識別具體的構建規(guī)則如下。當userid不為NA時,使用userid作為用戶唯一標識。當userid為NA且uniqueVisitorId不為NA時,使用uniqueVisitorId作為用戶唯一標識。當userid與uniqueVisitorId都為NA時,使用ip作為用戶的唯一標識。用戶識別點擊網頁數(shù)可以反映用戶對網站的興趣度。一般情況下,點擊網頁數(shù)越高,說明用戶對網站的興趣度越高。點擊網頁數(shù)越低,說明用戶對網站的興趣度越低。數(shù)據清洗根據用戶的唯一標識得到用戶點擊網頁數(shù),并繪制用戶點擊網頁數(shù)柱形圖,如圖所示。由圖可知,大部分的用戶點擊網頁數(shù)為1,點擊網頁數(shù)在35以上的共有328人。數(shù)據清洗對點擊網頁數(shù)為1的用戶點擊的網頁進行統(tǒng)計,得到訪問記錄中有超過100000條的記錄為“/”,這種記錄可能與分析目標不符。數(shù)據清洗在只訪問一個網頁的情況下用戶很難獲得所需的全部知識,同時只根據一個網頁確定用戶的喜好有較高的局限性,因此這部分用戶不參與分析。對于點擊網頁數(shù)在35次以內的用戶,不同點擊網頁數(shù)的用戶的平均點擊間隔如圖所示。數(shù)據清洗點擊網頁數(shù)為21的某用戶的部分用戶訪問表如表所示。數(shù)據清洗date_timereallIDdate_timereallID2024-01-1621:09:580362……54582024-01-2020:35:570362……54582024-01-1621:25:160362……54582024-01-2020:36:200362……54582024-01-1621:25:160362……54582024-01-2020:37:030362……54582024-01-1621:25:190362……54582024-01-2020:52:500362……54582024-01-1621:26:460362……54582024-01-2020:52:510362……5458點擊網頁數(shù)為21的某用戶的部分用戶訪問表如表所示(續(xù)表)。數(shù)據清洗date_timereallIDdate_timereallID2024-01-1621:26:460362……54582024-01-2020:52:540362……54582024-01-2020:32:570362……54582024-01-2020:53:040362……54582024-01-2020:32:580362……54582024-01-2020:53:040362……54582024-01-2020:33:240362……54582024-01-2315:21:080362……54582024-01-2020:35:390362……54582024-01-2315:21:080362……54582024-01-2020:35:570362……5458數(shù)據中的page_path特征為用戶點擊的網址。無法直接從網址中獲取用戶的行為習慣。因此,還需對page_path特征進行結構化處理。競賽網站的網頁大致可以劃分為6個類別。主頁教學資源競賽新聞動態(tài)項目與合作優(yōu)秀作品但由于主頁主要起導航作用,不具有分析意義,所以本小節(jié)不介紹其網頁信息。同時,在進行網頁分類前,需要刪除清洗后的page_path數(shù)據中的主頁內容,即含有“bdracem/”“bdrace/”的數(shù)據。網頁分類網址的具體形式為“前綴/欄目符號/具體內容號.擴展名”。網址的欄目符號是對網頁進行分類的主要依據,欄目符號的字段和所屬類別已經整理在網頁相關信息表中。部分網頁相關信息表如表所示。網頁分類字段說明分類tj/圖書配套資料教學資源zytj/教學資源教學資源jmgj/建模工具教學資源ganhuofenxiang/“干貨”分享教學資源information/案例教程教學資源rcfh/人才孵化項目與合作tzjingsai/競賽通知競賽jingsa/競賽競賽youxiuzuopin/優(yōu)秀作品優(yōu)秀作品notices/公告與通知新聞動態(tài)stpj/獲獎名單新聞動態(tài)rmpx/培訓信息新聞動態(tài)news/新聞與動態(tài)新聞動態(tài)對網頁進行分類主要包括以下4個步驟。刪除網址中網頁前綴的字段。因為網頁前綴無法用于網頁分類,并會對網頁分類造成一定的影響。刪除主頁的字段。刪除含有“bdracem/”“bdrace/”的字段。提取分類所需字段。在剩余的字段中,網頁分類所需的欄目符號字段均在“/”前,使用正則表達式匹配所有“/”前的字段,即可提取出所需的欄目符號字段。獲得分類。使用網頁相關信息表與提取的欄目符號劃分網頁類別。網頁分類可以根據用戶關注各個類型網頁的興趣度將用戶分群,而用戶點擊網頁數(shù)可以體現(xiàn)用戶對網頁的興趣度。對每位用戶按訪問的各類別網頁進行計數(shù),使用訪問計數(shù)作為建模特征,最終得到建模所需的數(shù)據。建模數(shù)據為每個用戶對各類別網頁的訪問次數(shù),可以初步看出用戶的喜好,根據建模數(shù)據可以將用戶按喜好分成不同群體。構造特征1預處理競賽網站用戶訪問數(shù)據目錄競賽網站用戶行為分析的背景和方法2對競賽網站用戶進行分群3K-Means聚類算法是一種迭代求解的聚類分析算法。K-Means聚類算法的步驟如下。首先確定一個K值,即需要將數(shù)據集經過聚類得到K個集合。從數(shù)據集中隨機選擇K個數(shù)據點作為聚類中心。對數(shù)據集中每一個點,計算其與每一個聚類中心的距離(如歐氏距離),劃分該點到距離最近的聚類中心所屬的集合。劃分集合完畢后重新計算每個集合的聚類中心。如果新計算出來的聚類中心和原來的聚類中心之間的距離小于某一個設置的閾值,那么可以認為聚類已經達到期望的結果,算法終止。否則迭代步驟二~步驟五。K-Means聚類算法1.基本原理K-Means聚類算法通??梢詰糜诰S數(shù)、數(shù)據都很小且數(shù)據連續(xù)的數(shù)據集,在隨機分布的事物集合中對相同事物進行分組。在沒有類別標簽的情況下,K-Means聚類算法不僅可以用于得到數(shù)據可能存在的類別數(shù)以及每條記錄的所屬類別,還可以用于在數(shù)據預處理中發(fā)現(xiàn)異常值。這些對象的行為特征與一般的數(shù)據對象不一致,通過K-Means聚類算法可以快速將其識別出來。K-Means聚類算法2.適用場景K-Means聚類算法的優(yōu)點。原理較為簡單,可以輕松實現(xiàn)。對算法進行調參時只需調整K的大小。算法的計算速度較快,聚類效果優(yōu)良,聚類結果的可解釋性強。K-Means聚類算法的缺點。難以確定K的值,采用迭代的方式容易導致模型陷入局部最優(yōu)解,而且對于噪聲和異常值十分敏感。K-Means聚類算法3.優(yōu)缺點sklearn庫的KMeans類實現(xiàn)了K-Means聚類算法,KMeans類的基本使用格式如下。K-Means聚類算法4.KMeans類的主要參數(shù)介紹classsklearn.cluster.KMeans(n_clusters=8,*,init='k-means++',n_init=10,max_iter=300,tol=0.0001,verbose=0,random_state=None,copy_x=True,algorithm='lloyd')KMeans類的常用參數(shù)及其說明如表所示。K-Means聚類算法參數(shù)名稱參數(shù)說明n_clusters接收int。表示聚類數(shù)。默認為8init接收“k-means++”“random”和ndarray。表示產生初始聚類中心的方法。默認為k-means++n_init接收int。表示用不同的初始聚類中心運行算法的次數(shù)。默認為10max_iter接收int。表示最大迭代次數(shù)。默認為300tol接收float。表示容忍的最小誤差。當誤差小于tol時算法將會退出迭代。默認為0.0001verbose接收int。表示是否輸出詳細信息。默認為0random_state接收int、numpy.RandomState。表示用于初始化聚類中心的生成器。若值為一個整數(shù),則確定一個種子。默認為Nonecopy_x接收bool。表示是否提前計算距離。默認為Truealgorithm接收“l(fā)loyd”“elkan”“auto”“full”。表示優(yōu)化算法的選擇。默認為lloyd對構建特征后的數(shù)據進行標準化,采用K-Means聚類算法對數(shù)據進行用戶分群。根據網頁的分類和聚類中心數(shù)值,使用自定義函數(shù)繪制雷達圖,如圖所示。使用K-Means聚類算法進行用戶分群續(xù)上圖可知各群體的特點如下。用戶群1在優(yōu)秀作品上有最大取值,對項目與合作和教學資源的關注量也不低,這類用戶可能為正處于學習階段的數(shù)據挖掘學習者。用戶群2在各個分類上的取值都很小,關注度較高的是

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論