大數(shù)據(jù)環(huán)境下移動用戶畫像的構建方法研究_第1頁
大數(shù)據(jù)環(huán)境下移動用戶畫像的構建方法研究_第2頁
大數(shù)據(jù)環(huán)境下移動用戶畫像的構建方法研究_第3頁
大數(shù)據(jù)環(huán)境下移動用戶畫像的構建方法研究_第4頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、 大數(shù)據(jù)環(huán)境下移動用戶畫像的構建方法研究 張宇 阮雪靈移動用戶在使用移動網(wǎng)絡過程中都會留下自己的痕跡,包括:靜態(tài)信息、動態(tài)信息以及它們之間關系的信息等,企業(yè)可以憑借用戶畫像來提取真實用戶的行為特征以及興趣特征,以便為群體劃分、廣告投放、產品營銷等工作提供依據(jù)。目前,用戶畫像已成為學術界、廣告界以及互聯(lián)網(wǎng)界的熱門話題,將大數(shù)據(jù)技術與用戶畫像構建進行有效結合,發(fā)揮大數(shù)據(jù)算法優(yōu)勢,不僅可以達到有效的內容服務和產品營銷效果,還可以為產品研發(fā)帶來有效的技術參考。一、 大數(shù)據(jù)環(huán)境下移動用戶畫像的構建過程(一)數(shù)據(jù)平臺整理數(shù)據(jù)指標梳理一般來源于系統(tǒng)之前保存的日志記錄系統(tǒng),可利用Sqoop將HDFS進行導入。

2、如果Sqoop系統(tǒng)暫時無法導入,還可以利用代碼來實現(xiàn)導入,即利用Spark當中的JDBC與數(shù)據(jù)庫當中的Cache進行有效連接,同樣可將HDFS進行導入。在HDFS導入之后,就需要利用Hive進行編寫,并依照業(yè)務邏輯將ETL進行有效拼接,確保移動用戶能夠對應上各種用戶標簽數(shù)據(jù),進而生成對應的源表數(shù)據(jù),不僅能夠更好的操作用戶畫像系統(tǒng),還有利于后續(xù)利用不同規(guī)則來生成標簽寬表。(二)數(shù)據(jù)平臺計算目前,數(shù)據(jù)平臺應用越來越方便,只要通過系統(tǒng)管理員就可以申請資源以及注冊服務。但是在處理離線業(yè)務時往往還是需要應用到Hadoop,而Hadoop的實際封裝函數(shù)較為單一,只有Map以及Reduce,還欠缺其他的封裝

3、函數(shù),仍需進一步提高實際開發(fā)效率。首先,在計算框架的選擇過程中,可采用Spark以及Hadoop。其中,Spark的基本作用主要有兩點:一是能夠對數(shù)據(jù)處理以及規(guī)則數(shù)據(jù)進行篩選過濾,并依靠Scala進行編寫,使Spark代碼能夠有效提交至對應的系統(tǒng)當中,二是能夠對SparkSQL進行有效服務,有效啟動Spark與前臺應用進行有效連接。Hadoop的基本作用則是對標簽數(shù)據(jù)進行合理打分,并根據(jù)過濾算法以及其他推薦算法對各種數(shù)據(jù)進行綜合評分。其次,在計算框架完成之后,還要利用到MongoDB當中的內存數(shù)據(jù),主要用來對單個用戶進行有效的實時查詢。在此過程中,可對Spark數(shù)據(jù)進行實時梳理,再將標簽寬表進

4、行有效的數(shù)據(jù)格式轉換,使標簽寬表能夠順利導入到MongoDB當中,接著將前臺應用于MongoDB進行有效連接,從而實現(xiàn)單個標簽的有效展現(xiàn)。最后,在標簽展現(xiàn)結束之后,可利用MySQL對應用標簽規(guī)則的具體存儲以及頁面信息的具體展現(xiàn)進行優(yōu)化,再利用Cache元數(shù)據(jù)對其他數(shù)據(jù)進行有效整合,從而與HDFS當中的真實數(shù)據(jù)進行有效處理。(三)數(shù)據(jù)平臺應用經(jīng)過前期的數(shù)據(jù)平臺整理以及數(shù)據(jù)平臺計算之后,已經(jīng)生成了一個有效的標簽大寬表。在此之后,前臺應結合業(yè)務邏輯將各種標簽進行勾選,并有序完成標簽求和以及標簽剔出等操作。在此過程中,由于SQL當中的聚合函數(shù)以及多表關聯(lián)類似于Hadoop中兩種內容,分別是MapRed

5、uce以及Shuffle,這就容易出現(xiàn)內存溢出的情況,反而有利于定位實際客戶數(shù)量,并能提高客戶標簽分析效率,使產品營銷策略更為精準。二、大數(shù)據(jù)環(huán)境下移動用戶畫像的構建技術(一)分布式計算技術目前,移動用戶畫像構建的主要平臺包括Spark以及Hadoop。其中Spark主要屬于基于內存計算方法的分布式計算框架,可有效增強數(shù)據(jù)處理的有效性和實時性,并提高了容錯性以及可伸縮性,有利于將Spark充分部署在硬件當中,以此構成一個集群。借助分布式計算法可將分布式存儲數(shù)據(jù)進行有效讀入,并將任務有效分發(fā)到關鍵節(jié)點當中進行快速計算,還可將磁盤數(shù)據(jù)充分讀入到內存中,并將中間結果有效保存到內存中,有利于快速進行迭

6、代運算。同時,Spark還具有處理速度快、易用性強、容錯率高、兼容性強以及計算范式多等諸多優(yōu)點,在移動用戶畫像構建中使用較為廣泛。而Hadoop則是由HDFS以及Hive等元素組成,但實際運用中HDFS系統(tǒng)作用最為顯著,可有效存儲集群內部的所有存儲節(jié)點文件,以此有序執(zhí)行程序中的重要引擎。(二)樣本標注技術移動用戶畫像構建使用的數(shù)據(jù)樣本有著顯著的海量性,并且涉及到的數(shù)據(jù)領域和種類較多,通常將人工標注以及自動標注進行有效結合。其中,自動標注主要是依照樣本的具體特征值以及某個Key進行的標注,如:根據(jù)行業(yè)的顯著Key進行標注。自動標注還可以通過半監(jiān)督方式對一些樣本進行標注,再對剩下未標注的樣本進行有

7、效地分類訓練?,F(xiàn)階段,常見的自動標注方法包括:自動訓練法、多視角算法以及圖論方法等。而人工標注則是通過專業(yè)技術人員自行對行業(yè)Key進行的手工分類和標注,標注效率低,但是準確性高,可以避免機器標注帶來的領域歧義性、分詞不合理等問題,具體應用通常是結合自動標注共同進行。此外,在樣本標注之后,還會涉及到文本語義理解這一內容。目前,自然語言理解屬于我國人工智能的難點,也是實現(xiàn)智能語音交互以及人機對話的關鍵核心,在用戶畫像處理過程中,某些應用場景往往需要處理大量的文本,需要對這些自然語言進行充分有效地理解。現(xiàn)階段,常見的文本語義理解方法包括RNN模型以及LSTM模型等。(三)機器學習技術機器學習技術可有

8、效對移動用戶進行分類,如:貝葉斯網(wǎng)絡以及隨機森林等方法,本文以移動商務環(huán)境下“孕婦標簽”為例,闡述基于大數(shù)據(jù)深度學習建模的具體過程。首先,將移動用戶在各個品類中的實際購買行為作為基本模型訓練特征,并對這些品類進行有效劃分,以此挑選出與孕婦標簽顯著契合的品類,如:孕婦裝、營養(yǎng)品、高跟鞋以及彩妝等商品,并根據(jù)某些品類的實際購買行為進行篩選,以此挑選出訓練正負樣本。例如,根據(jù)移動用戶在各個品類中的實際購買次數(shù)進行分析,如果跟孕婦標簽相契合的品類購買次數(shù)達到3次以上,如孕婦裝以及營養(yǎng)品等,則標識為正樣本;如果跟孕婦標簽相違背的品類購買次數(shù)超過3次以上,如高跟鞋以及彩妝等,則標識為負樣本。經(jīng)過有效標識,

9、可提供模型訓練必備的特征數(shù)據(jù),從而構造一個最為初始的網(wǎng)絡模型,以此觀察網(wǎng)絡模型是否能夠進行自我學習。由于孕婦標簽對于時間具有較強的敏感性,在構造網(wǎng)絡模型過程中應注意時間維度的影響。例如,在半年前有過購買孕婦類產品的移動用戶,如果在最近一到兩個月都沒有再買孕婦類產品,反而開始購買母嬰類產品,則表明這類移動用戶已經(jīng)不再是孕婦了,此時應去除掉這類移動用戶的孕婦標簽,而是加上寶媽標簽,并將其歸納到寶媽標簽中進行觀察。三、大數(shù)據(jù)環(huán)境下移動用戶畫像構建的實施(一)精準識別移動用戶移動用戶識別作為畫像構建的第一步,具有至關重要的意義。其主要目的是為了更好的區(qū)分移動用戶以及單點定位。目前,移動用戶的識別方式較

10、多,包括注冊ID、注冊手機號以及微博等途徑,但隨著移動用戶越來越趨向于使用手機APP,而手機號注冊的意愿越來越低,如今新浪微博、微信、QQ以及抖音快手等第三方登錄已成為當代企業(yè)最佳的移動用戶識別選擇。(二)動態(tài)追蹤移動用戶的具體行為軌跡軌跡追蹤作為畫像構建的第二步,能夠有效確認移動用戶在各種情境下所產生的訪問軌跡,以便提供后期的各種優(yōu)質服務。目前,移動用戶在網(wǎng)絡平臺中的行為動態(tài)追蹤可分為三個維度,分別是情境、媒體以及路徑。其中,情境主要涉及到訪問設備以及訪問時段,可有效掌握移動用戶的時間、位置等各種動態(tài)信息;媒體主要涉及到移動用戶在某個時間段實際訪問的媒體,包括:資訊類媒體、游戲類媒體、社交類

11、媒體、音樂類媒體、小說類媒體以及視頻類媒體等,可有效了解移動用戶的媒體喜好;路徑主要涉及到移動用戶進入媒體的路徑以及離開媒體的路徑,如:搜索進入、打開APP、直接關閉以及站內跳轉等各種方式,可有效了解移動用戶的具體站內行為以及具體站外行為。經(jīng)過軌跡追蹤這一環(huán)節(jié),一方面可優(yōu)化流量運營模式,減少媒體的流量運營開支,另一方面可掌握不同頁面的投放頻次,減小對移動用戶服務的負面效應。(三)根據(jù)靜態(tài)數(shù)據(jù)評估移動用戶價值評估價值作為畫像構建的第三步,可為后續(xù)工作提供參考。在獲取相關的靜態(tài)數(shù)據(jù)之后,應對移動用戶人群進行因子分析以及聚類分析。例如,在產品設計過程中,通常都是根據(jù)移動用戶的使用動機以及使用行為進行

12、相應的劃分;在媒體營銷過程中,則通常都是根據(jù)移動用戶的消費形態(tài)進行相應的分類。一般來講,靜態(tài)數(shù)據(jù)主要涉及到移動用戶的人口屬性、生活屬性、商業(yè)屬性以及消費屬性四個方面。目前,靜態(tài)數(shù)據(jù)的獲取方式較多,但最為常見的獲取方式則是數(shù)據(jù)挖掘。如果數(shù)據(jù)十分有限,還應結合定性分析以及定量分析加以處理。其中,定性分析主要涉及到小組座談、用戶深訪以及日志法等方式,基本策略就是根據(jù)開放性問題來了解移動用戶的實際心理需求,以此達到刻畫移動用戶特征的目的。定量分析主要涉及到問卷調研的方式,基本策略就是加強對后期定量數(shù)據(jù)的建模以及分析,并根據(jù)封閉性問題來掌握移動用戶的實際分布規(guī)律,以便更好的對定性假設進行有效驗證。(四)

13、移動用戶群體的優(yōu)先級排序優(yōu)先級排序作為畫像構建的第五步,直接決定了畫像構建的落地效果,其本質上就是媒介的一種組合策略。一般來講,組合策略可根據(jù)頻率高低、市場規(guī)模、收益情況以及競爭優(yōu)勢進行考慮,并結合移動服務領域的實際情況進行相應的排列組合。特殊情況下,畫像構建流程通常在前面四個環(huán)節(jié)就已經(jīng)結束,但增加優(yōu)先級排序這一步驟可有效提高畫像構建的實際質量和效果,在畫像構建過程中具有重要的領域實用價值。四、大數(shù)據(jù)環(huán)境下移動用戶畫像的應用(一)新浪微博移動用戶畫像的應用新浪微博將每一位移動用戶都視為一個網(wǎng)絡節(jié)點,網(wǎng)絡節(jié)點具有發(fā)布、傳播及消費信息等功能。其中,少數(shù)移動用戶側重于能力節(jié)點,有著發(fā)布優(yōu)質原創(chuàng)消息的

14、作用,并能夠充分利用社交網(wǎng)絡將有效信息進行快速傳播。大部分移動用戶則側重于消費節(jié)點,主要作用就是消費信息且傳播信息。從新浪微博平臺的傳播方式來看,可以充分發(fā)揮能力節(jié)點的作用,使其從原創(chuàng)信息傳播中有效提升自身對于網(wǎng)絡的實際影響力,有利于能力節(jié)點打造屬于自身獨特的品牌,以此促使其他節(jié)點去消費能力節(jié)點的原創(chuàng)信息。這種傳播方式的優(yōu)勢就是引導消費節(jié)點在消費信息的基礎上開發(fā)其自身興趣,使其能夠對同類消息進行消費,以此增強能力節(jié)點的實際活躍度。由此可見,加快優(yōu)質信息的傳播速度是未來發(fā)展的首要任務,充分挖掘具有發(fā)布原創(chuàng)信息作用的能力節(jié)點,并為這些能力節(jié)點貼上相應的能力標簽,可有效促進后續(xù)工作的開展質量。例如,

15、新浪微博在移動用戶注冊環(huán)節(jié)中,已將移動用戶的基礎信息轉化為靜態(tài)數(shù)據(jù),包括移動用戶的實際年齡、具體地域、粉絲數(shù)、實際性別以及關注數(shù)等內容,但由于這些數(shù)據(jù)信息關聯(lián)性較弱,還不足以明確定義特定群體的用戶畫像,為了進一步精確用戶畫像,新浪微博開展興趣話題,將對同一類話題感興趣的移動用戶聚集到一起,并引導這些移動用戶針對興趣話題展開討論,以此獲取這類移動用戶群體的基礎信息。就可以有效提取這類移動用戶群體的標簽,構建這類移動用戶群體的用戶畫像,可為后期精準化服務提供良好的支持作用。(二)數(shù)字圖書館移動用戶畫像的應用目前,我國數(shù)字圖書館的移動用戶數(shù)據(jù)主要包括兩個部分:實名數(shù)據(jù)以及行為數(shù)據(jù)。其中,實名數(shù)據(jù)主要

16、涉及到圖書館管理系統(tǒng)中儲存的移動用戶注冊信息以及借閱信息等內容,而行為數(shù)據(jù)主要涉及到APP平臺訪問、APP平臺借續(xù)、APP平臺咨詢、網(wǎng)站系統(tǒng)登錄、網(wǎng)站系統(tǒng)下載以及網(wǎng)站系統(tǒng)閱讀等內容。然而,不論是實名數(shù)據(jù)還是行為數(shù)據(jù)主要都儲存在多個系統(tǒng)當中,并且這些系統(tǒng)之間較為獨立,再加上這些數(shù)據(jù)之間也欠缺一定關聯(lián)性,這就需要在構建用戶畫像之前做好各個系統(tǒng)之間的數(shù)據(jù)整合工作。例如,數(shù)字圖書館根據(jù)現(xiàn)有的服務內容進行設計,將圖書館APP、微信平臺以及一卡通等不同系統(tǒng)之間的數(shù)據(jù)進行有效整合,針對注冊數(shù)據(jù)來判斷移動用戶的具體屬性特征,針對借閱數(shù)據(jù)、閱覽數(shù)據(jù)以及檢索數(shù)據(jù)來判斷移動用戶的具體行為特征,再通過用戶屬性特征以及用戶行為特征共同構建出移動用戶畫像的基礎數(shù)據(jù)來源,以此提高數(shù)字圖書館的用戶管理和服務質量。五、結語通過構建移動用戶畫像的研究,內容服務提供商可以給用戶提供動態(tài)、精準的個性化服務,極大提高移動用戶的滿意度。因此,企業(yè)應從精準識別

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論