![用戶(hù)畫(huà)像的流程和方法_第1頁(yè)](http://file4.renrendoc.com/view/763be229e8ebec51244423ac63c6f078/763be229e8ebec51244423ac63c6f0781.gif)
![用戶(hù)畫(huà)像的流程和方法_第2頁(yè)](http://file4.renrendoc.com/view/763be229e8ebec51244423ac63c6f078/763be229e8ebec51244423ac63c6f0782.gif)
![用戶(hù)畫(huà)像的流程和方法_第3頁(yè)](http://file4.renrendoc.com/view/763be229e8ebec51244423ac63c6f078/763be229e8ebec51244423ac63c6f0783.gif)
![用戶(hù)畫(huà)像的流程和方法_第4頁(yè)](http://file4.renrendoc.com/view/763be229e8ebec51244423ac63c6f078/763be229e8ebec51244423ac63c6f0784.gif)
![用戶(hù)畫(huà)像的流程和方法_第5頁(yè)](http://file4.renrendoc.com/view/763be229e8ebec51244423ac63c6f078/763be229e8ebec51244423ac63c6f0785.gif)
版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
用戶(hù)畫(huà)像的流程、方法,一篇文章看明白一、用戶(hù)畫(huà)像概述1.什么是用戶(hù)畫(huà)像現(xiàn)代交互設(shè)計(jì)之父AlanCooper很早就提出了Persona的概念:Persona是真實(shí)用戶(hù)的虛擬代表,是建立在一系列真實(shí)數(shù)據(jù)之上的目標(biāo)用戶(hù)模型,用于產(chǎn)品需求挖掘與交互設(shè)計(jì)。通過(guò)調(diào)研和問(wèn)卷去了解用戶(hù),根據(jù)他們的目標(biāo)、行為和觀(guān)點(diǎn)的差異,將他們區(qū)分為不同的類(lèi)型,然后從每種類(lèi)型中抽取出典型特征,賦予名字、照片、人口統(tǒng)計(jì)學(xué)要素、場(chǎng)景等描述,就形成了一個(gè)Persona。Persona就是最早對(duì)用戶(hù)畫(huà)像的定義,隨著時(shí)代的發(fā)展,用戶(hù)畫(huà)像早已不再局限于早期的這些維度,但用戶(hù)畫(huà)像的核心依然是真實(shí)用戶(hù)的虛擬化表示。在大數(shù)據(jù)時(shí)代,用戶(hù)畫(huà)像尤其重要。我們通過(guò)一些手段,給用戶(hù)的習(xí)慣、行為、屬性貼上一系列標(biāo)簽,抽象出一個(gè)用戶(hù)的全貌,為廣告推薦、內(nèi)容分發(fā)、活動(dòng)營(yíng)銷(xiāo)等諸多互聯(lián)網(wǎng)業(yè)務(wù)提供了可能性。它是計(jì)算廣告、個(gè)性化推薦、智能營(yíng)銷(xiāo)等大數(shù)據(jù)技術(shù)的基礎(chǔ),毫不夸張地說(shuō),用戶(hù)畫(huà)像是大數(shù)據(jù)業(yè)務(wù)和技術(shù)的基石。用戶(hù)畫(huà)像的核心工作就是給用戶(hù)打標(biāo)簽,標(biāo)簽通常是人為規(guī)定的高度精煉的特征標(biāo)識(shí),如年齡、性別、地域、興趣等。由這些標(biāo)簽集合能抽象出一個(gè)用戶(hù)的信息全貌,如圖10-1所示是某個(gè)用戶(hù)的標(biāo)簽集合,每個(gè)標(biāo)簽分別描述了該用戶(hù)的一個(gè)維度,各個(gè)維度相互聯(lián)系,共同構(gòu)成對(duì)用戶(hù)的一個(gè)整體描述?!鴪D10-1用戶(hù)標(biāo)簽集合2.為什么需要用戶(hù)畫(huà)像Cooper最初建立Persona的目的是讓團(tuán)隊(duì)成員將產(chǎn)品設(shè)計(jì)的焦點(diǎn)放在目標(biāo)用戶(hù)的動(dòng)機(jī)和行為上,從而避免產(chǎn)品設(shè)計(jì)人員草率地代表用戶(hù)。產(chǎn)品設(shè)計(jì)人員經(jīng)常不自覺(jué)地把自己當(dāng)作用戶(hù)代表,根據(jù)自己的需求設(shè)計(jì)產(chǎn)品,導(dǎo)致無(wú)法抓住實(shí)際用戶(hù)的需求。往往對(duì)產(chǎn)品做了很多功能的升級(jí),用戶(hù)卻覺(jué)得體驗(yàn)變差了。在大數(shù)據(jù)領(lǐng)域,用戶(hù)畫(huà)像的作用遠(yuǎn)不止于此。如圖10-2所示,用戶(hù)的行為數(shù)據(jù)無(wú)法直接用于數(shù)據(jù)分析和模型訓(xùn)練,我們也無(wú)法從用戶(hù)的行為日志中直接獲取有用的信息。而將用戶(hù)的行為數(shù)據(jù)標(biāo)簽化以后,我們對(duì)用戶(hù)就有了一個(gè)直觀(guān)的認(rèn)識(shí)。同時(shí)計(jì)算機(jī)也能夠理解用戶(hù),將用戶(hù)的行為信息用于個(gè)性化推薦、個(gè)性化搜索、廣告精準(zhǔn)投放和智能營(yíng)銷(xiāo)等領(lǐng)域?!鴪D10-2用戶(hù)標(biāo)簽化對(duì)于一個(gè)產(chǎn)品,尤其是互聯(lián)網(wǎng)產(chǎn)品,建立完善的用戶(hù)畫(huà)像體系,有著重大的戰(zhàn)略意義?;谟脩?hù)畫(huà)像能夠構(gòu)建一套分析平臺(tái),用于產(chǎn)品定位、競(jìng)品分析、營(yíng)收分析等,為產(chǎn)品的方向與決策提供數(shù)據(jù)支持和事實(shí)依據(jù)。在產(chǎn)品的運(yùn)營(yíng)和優(yōu)化中,根據(jù)用戶(hù)畫(huà)像能夠深入用戶(hù)需求,從而設(shè)計(jì)出更適合用戶(hù)的產(chǎn)品,提升用戶(hù)體驗(yàn)。二、用戶(hù)畫(huà)像流程用戶(hù)畫(huà)像的核心工作就是給用戶(hù)打“標(biāo)簽”,構(gòu)建用戶(hù)畫(huà)像的第一步就是搞清楚需要構(gòu)建什么樣的標(biāo)簽,而構(gòu)建什么樣的標(biāo)簽是由業(yè)務(wù)需求和數(shù)據(jù)的實(shí)際情況決定的。下面介紹構(gòu)建用戶(hù)畫(huà)像的整體流程和一些常用的標(biāo)簽體系。1.整體流程對(duì)構(gòu)建用戶(hù)畫(huà)像的方法進(jìn)行總結(jié)歸納,發(fā)現(xiàn)用戶(hù)畫(huà)像的構(gòu)建一般可以分為目標(biāo)分析、標(biāo)簽體系構(gòu)建、畫(huà)像構(gòu)建三步,下面詳細(xì)介紹每一步的工作。1)目標(biāo)分析用戶(hù)畫(huà)像構(gòu)建的目的不盡相同,有的是實(shí)現(xiàn)精準(zhǔn)營(yíng)銷(xiāo),增加產(chǎn)品銷(xiāo)量;有的是進(jìn)行產(chǎn)品改進(jìn),提升用戶(hù)體驗(yàn)。明確用戶(hù)畫(huà)像的目標(biāo)是構(gòu)建用戶(hù)畫(huà)像的第一步,也是設(shè)計(jì)標(biāo)簽體系的基礎(chǔ)。目標(biāo)分析一般可以分為業(yè)務(wù)目標(biāo)分析和可用數(shù)據(jù)分析兩步。目標(biāo)分析的結(jié)果有兩個(gè):一個(gè)是畫(huà)像的目標(biāo),也就是畫(huà)像的效果評(píng)估標(biāo)準(zhǔn);另一個(gè)是可用于畫(huà)像的數(shù)據(jù)。畫(huà)像的目標(biāo)確立要建立在對(duì)數(shù)據(jù)深入分析的基礎(chǔ)上,脫離數(shù)據(jù)制定的畫(huà)像目標(biāo)是沒(méi)有意義的。2)標(biāo)簽體系構(gòu)建分析完已有數(shù)據(jù)和畫(huà)像目標(biāo)之后,還不能直接進(jìn)行畫(huà)像建模工作,在畫(huà)像建模開(kāi)始之前需要先進(jìn)行標(biāo)簽體系的制定。對(duì)于標(biāo)簽體系的制定,既需要業(yè)務(wù)知識(shí),也需要大數(shù)據(jù)知識(shí),因此在制定標(biāo)簽體系時(shí),最好有本領(lǐng)域的專(zhuān)家和大數(shù)據(jù)工程師共同參與。在制定標(biāo)簽體系時(shí),可以參考業(yè)界的標(biāo)簽體系,尤其是同行業(yè)的標(biāo)簽體系。用業(yè)界已有的成熟方案解決目標(biāo)業(yè)務(wù)問(wèn)題,不僅可以擴(kuò)充思路,技術(shù)可行性也會(huì)比較高。此外,需要明確的一點(diǎn)是:標(biāo)簽體系不是一成不變的,隨著業(yè)務(wù)的發(fā)展,標(biāo)簽體系也會(huì)發(fā)生變化。例如電商行業(yè)的用戶(hù)標(biāo)簽,最初只需要消費(fèi)偏好標(biāo)簽,GPS標(biāo)簽既難以刻畫(huà)也沒(méi)有使用場(chǎng)景。隨著智能手機(jī)的普及,GPS數(shù)據(jù)變得易于獲取,而且線(xiàn)下?tīng)I(yíng)銷(xiāo)也越來(lái)越注重場(chǎng)景化,因此GPS標(biāo)簽也有了構(gòu)建的意義。3)畫(huà)像構(gòu)建基于用戶(hù)基礎(chǔ)數(shù)據(jù),根據(jù)構(gòu)建好的標(biāo)簽體系,就可以進(jìn)行畫(huà)像構(gòu)建的工作了。用戶(hù)標(biāo)簽的刻畫(huà)是一個(gè)長(zhǎng)期的工作,不可能一步到位,需要不斷地?cái)U(kuò)充和優(yōu)化。一次性構(gòu)建中如果數(shù)據(jù)維度過(guò)多,可能會(huì)有目標(biāo)不明確、需求相互沖突、構(gòu)建效率低等問(wèn)題,因此在構(gòu)建過(guò)程中建議將項(xiàng)目進(jìn)行分期,每一期只構(gòu)建某一類(lèi)標(biāo)簽。畫(huà)像構(gòu)建中用到的技術(shù)有數(shù)據(jù)統(tǒng)計(jì)、機(jī)器學(xué)習(xí)和自然語(yǔ)言處理技術(shù)(NLP)等,如圖10-3所示。具體的畫(huà)像構(gòu)建方法會(huì)在本文后面的部分詳細(xì)介紹。▲圖10-3用戶(hù)畫(huà)像的構(gòu)建技術(shù)2.標(biāo)簽體系目前主流的標(biāo)簽體系都是層次化的,如圖10-4所示。首先標(biāo)簽分為幾個(gè)大類(lèi),每個(gè)大類(lèi)再進(jìn)行逐層細(xì)分。在構(gòu)建標(biāo)簽時(shí),只需要構(gòu)建最下層的標(biāo)簽,就能夠映射出上面兩級(jí)標(biāo)簽。上層標(biāo)簽都是抽象的標(biāo)簽集合,一般沒(méi)有實(shí)用意義,只有統(tǒng)計(jì)意義。例如我們可以統(tǒng)計(jì)有人口屬性標(biāo)簽的用戶(hù)比例,但用戶(hù)有人口屬性標(biāo)簽,這本身對(duì)廣告投放沒(méi)有任何意義?!鴪D10-4互聯(lián)網(wǎng)大數(shù)據(jù)領(lǐng)域常用標(biāo)簽體系用于廣告投放和精準(zhǔn)營(yíng)銷(xiāo)的一般是底層標(biāo)簽,對(duì)于底層標(biāo)簽有兩個(gè)要求:一個(gè)是每個(gè)標(biāo)簽只能表示一種含義,避免標(biāo)簽之間的重復(fù)和沖突,便于計(jì)算機(jī)處理;另一個(gè)是標(biāo)簽必須有一定的語(yǔ)義,方便相關(guān)人員理解每個(gè)標(biāo)簽的含義。此外,標(biāo)簽的粒度也是需要注意的,標(biāo)簽粒度太粗會(huì)沒(méi)有區(qū)分度,粒度過(guò)細(xì)會(huì)導(dǎo)致標(biāo)簽體系太過(guò)復(fù)雜而不具有通用性。下文列舉了各個(gè)大類(lèi)常見(jiàn)的底層標(biāo)簽。人口標(biāo)簽:性別、年齡、地域、教育水平、出生日期、職業(yè)、星座興趣特征:興趣愛(ài)好、使用App/網(wǎng)站、瀏覽/收藏內(nèi)容、互動(dòng)內(nèi)容、品牌偏好、產(chǎn)品偏好社會(huì)特征:婚姻狀況、家庭情況、社交/信息渠道偏好消費(fèi)特征:收入狀況、購(gòu)買(mǎi)力水平、已購(gòu)商品、購(gòu)買(mǎi)渠道偏好、最后購(gòu)買(mǎi)時(shí)間、購(gòu)買(mǎi)頻次最后介紹一下構(gòu)建各類(lèi)標(biāo)簽的優(yōu)先級(jí)。對(duì)此需要綜合考慮業(yè)務(wù)需求、構(gòu)建難易程度等,業(yè)務(wù)需求各有不同,這里介紹的優(yōu)先級(jí)排序方法主要依據(jù)構(gòu)建的難易程度和各類(lèi)標(biāo)簽的依存關(guān)系,優(yōu)先級(jí)如圖10-5所示?!鴪D10-5各類(lèi)標(biāo)簽的構(gòu)建優(yōu)先級(jí)1)事實(shí)標(biāo)簽基于原始數(shù)據(jù)首先構(gòu)建的是事實(shí)標(biāo)簽,事實(shí)標(biāo)簽可以從數(shù)據(jù)庫(kù)直接獲?。ㄈ缱?cè)信息),或通過(guò)簡(jiǎn)單的統(tǒng)計(jì)得到。這類(lèi)標(biāo)簽構(gòu)建難度低、實(shí)際含義明確,且部分標(biāo)簽可用作后續(xù)標(biāo)簽挖掘的基礎(chǔ)特征(如產(chǎn)品購(gòu)買(mǎi)次數(shù)可用來(lái)作為用戶(hù)購(gòu)物偏好的輸入特征數(shù)據(jù))。事實(shí)標(biāo)簽的構(gòu)造過(guò)程,也是對(duì)數(shù)據(jù)加深理解的過(guò)程。對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)的同時(shí),不僅完成了數(shù)據(jù)的處理與加工,也對(duì)數(shù)據(jù)的分布有了一定的了解,為高級(jí)標(biāo)簽的構(gòu)造做好了準(zhǔn)備。2)模型標(biāo)簽?zāi)P蜆?biāo)簽是標(biāo)簽體系的核心,也是用戶(hù)畫(huà)像中工作量最大的部分,大多數(shù)用戶(hù)標(biāo)簽的核心都是模型標(biāo)簽。模型標(biāo)簽的構(gòu)建大多需要用到機(jī)器學(xué)習(xí)和自然語(yǔ)言處理技術(shù),下文介紹的標(biāo)簽構(gòu)建主要指的是模型標(biāo)簽構(gòu)建,具體的構(gòu)造算法會(huì)在下文中詳細(xì)介紹。3)高級(jí)標(biāo)簽最后構(gòu)造的是高級(jí)標(biāo)簽,高級(jí)標(biāo)簽是基于事實(shí)標(biāo)簽和模型標(biāo)簽進(jìn)行統(tǒng)計(jì)建模得出的,它的構(gòu)造多與實(shí)際的業(yè)務(wù)指標(biāo)緊密聯(lián)系。只有完成基礎(chǔ)標(biāo)簽的構(gòu)建,才能夠構(gòu)造高級(jí)標(biāo)簽。構(gòu)建高級(jí)標(biāo)簽使用的模型,可以是簡(jiǎn)單的數(shù)據(jù)統(tǒng)計(jì)模型,也可以是復(fù)雜的機(jī)器學(xué)習(xí)模型。三、構(gòu)建用戶(hù)畫(huà)像我們把標(biāo)簽分為三類(lèi),這三類(lèi)標(biāo)簽有較大的差異,構(gòu)建時(shí)所用技術(shù)的差別也很大。第一類(lèi)是人口屬性,這一類(lèi)標(biāo)簽比較穩(wěn)定,一旦建立很長(zhǎng)一段時(shí)間基本不用更新,標(biāo)簽體系也比較固定;第二類(lèi)是興趣屬性,這類(lèi)標(biāo)簽隨時(shí)間變化很快,標(biāo)簽有很強(qiáng)的時(shí)效性,標(biāo)簽體系也不固定;第三類(lèi)是地理屬性,這一類(lèi)標(biāo)簽的時(shí)效性跨度很大,如GPS軌跡標(biāo)簽需要做到實(shí)時(shí)更新,而常住地標(biāo)簽一般可以幾個(gè)月不用更新,所用的挖掘方法和前面兩類(lèi)也大有不同,如圖10-6所示。▲圖10-6三類(lèi)標(biāo)簽屬性1.人口屬性畫(huà)像人口屬性包括年齡、性別、學(xué)歷、人生階段、收入水平、消費(fèi)水平、所屬行業(yè)等。這些標(biāo)簽基本是穩(wěn)定的,構(gòu)建一次可以很長(zhǎng)一段時(shí)間不用更新,標(biāo)簽的有效期都在一個(gè)月以上。同時(shí)標(biāo)簽體系的劃分也比較固定,表10-2是中國(guó)無(wú)線(xiàn)營(yíng)銷(xiāo)聯(lián)盟對(duì)人口屬性的一個(gè)劃分。大部分主流的人口屬性標(biāo)簽都和這個(gè)體系類(lèi)似,有些在分段上有一些區(qū)別。▼表10-2人口標(biāo)簽很多產(chǎn)品(如QQ、Facebook等)都會(huì)引導(dǎo)用戶(hù)填寫(xiě)基本信息,這些信息就包括年齡、性別、收入等大多數(shù)的人口屬性,但完整填寫(xiě)個(gè)人信息的用戶(hù)只占很少一部分。對(duì)于無(wú)社交屬性的產(chǎn)品(如輸入法、團(tuán)購(gòu)App、視頻網(wǎng)站等),用戶(hù)信息的填充率非常低,有的甚至不足5%。在這種情況下,一般會(huì)用填寫(xiě)了信息的用戶(hù)作為樣本,把用戶(hù)的行為數(shù)據(jù)作為特征訓(xùn)練模型,對(duì)無(wú)標(biāo)簽的用戶(hù)進(jìn)行人口屬性的預(yù)測(cè)。這種模型把有標(biāo)簽用戶(hù)的標(biāo)簽傳給與他行為相似的用戶(hù),可以認(rèn)為是對(duì)人群進(jìn)行了標(biāo)簽擴(kuò)散,因此常被稱(chēng)為標(biāo)簽擴(kuò)散模型。下面使用視頻網(wǎng)站性別年齡畫(huà)像的例子來(lái)說(shuō)明標(biāo)簽擴(kuò)散模型是如何構(gòu)建的。某個(gè)視頻網(wǎng)站希望了解自己的用戶(hù)組成,于是對(duì)用戶(hù)的性別進(jìn)行畫(huà)像。通過(guò)數(shù)據(jù)統(tǒng)計(jì),有大約30%的用戶(hù)在注冊(cè)時(shí)填寫(xiě)了個(gè)人信息,將這30%的用戶(hù)作為訓(xùn)練集,以構(gòu)建全量用戶(hù)的性別畫(huà)像,所用數(shù)據(jù)如表10-3所示。▼表10-3視頻網(wǎng)站用戶(hù)數(shù)據(jù)下面來(lái)構(gòu)建特征。通過(guò)分析發(fā)現(xiàn)男性和女性對(duì)于影片的偏好是有差別的,因此使用用戶(hù)觀(guān)看的影片列表預(yù)測(cè)用戶(hù)性別有一定的可行性。此外,還可以考慮用戶(hù)的觀(guān)看時(shí)間、瀏覽器、觀(guān)看時(shí)長(zhǎng)等,為了簡(jiǎn)化,這里只使用用戶(hù)觀(guān)看的影片特征。由于觀(guān)看影片特征是稀疏特征,所以可以調(diào)用MLlib,使用LR、線(xiàn)性SVM等模型進(jìn)行訓(xùn)練??紤]到注冊(cè)用戶(hù)填寫(xiě)的用戶(hù)信息的準(zhǔn)確性不高,所以可以從30%的樣本集中提取準(zhǔn)確性較高的部分(如用戶(hù)信息填寫(xiě)較完備的)用于訓(xùn)練,因此整體的訓(xùn)練流程如圖10-7所示。對(duì)于預(yù)測(cè)性別這樣的二分類(lèi)模型,如果行為的區(qū)分度較好,一般準(zhǔn)確率和覆蓋率都可以達(dá)到70%左右?!鴪D10-7訓(xùn)練流程對(duì)于人口屬性標(biāo)簽,只要有一定的樣本標(biāo)簽數(shù)據(jù),并找到能夠區(qū)分標(biāo)簽類(lèi)別的用戶(hù)行為特征,就可以構(gòu)建標(biāo)簽擴(kuò)散模型。其中使用的技術(shù)方法主要是機(jī)器學(xué)習(xí)中的分類(lèi)技術(shù),常用的模型有LR、FM、SVM、GBDT等。2.興趣畫(huà)像興趣畫(huà)像是互聯(lián)網(wǎng)領(lǐng)域中使用最廣泛的畫(huà)像,互聯(lián)網(wǎng)廣告、個(gè)性化推薦、精準(zhǔn)營(yíng)銷(xiāo)等領(lǐng)域最核心的標(biāo)簽都是興趣標(biāo)簽。興趣畫(huà)像主要是從用戶(hù)海量的行為日志中進(jìn)行核心信息抽取、標(biāo)簽化和統(tǒng)計(jì),因此在構(gòu)建用戶(hù)興趣畫(huà)像之前需要先對(duì)用戶(hù)有行為的內(nèi)容進(jìn)行內(nèi)容建模。內(nèi)容建模需要注意粒度,過(guò)細(xì)的粒度會(huì)導(dǎo)致標(biāo)簽沒(méi)有泛化能力和使用價(jià)值,過(guò)粗的粒度會(huì)導(dǎo)致標(biāo)簽沒(méi)有區(qū)分度。例如用戶(hù)在購(gòu)物網(wǎng)上點(diǎn)擊查看了一雙“NikeAIRMAX跑步鞋”,如果用單個(gè)商品作為粒度,畫(huà)像的粒度就過(guò)細(xì),結(jié)果是只知道用戶(hù)對(duì)“NikeAIRMAX跑步鞋”有興趣,在進(jìn)行商品推薦時(shí),也只能給用戶(hù)推薦這雙鞋;而如果用大品類(lèi)作為粒度,如“運(yùn)動(dòng)戶(hù)外”,將無(wú)法發(fā)現(xiàn)用戶(hù)的核心需求是買(mǎi)鞋,從而會(huì)給用戶(hù)推薦所有的運(yùn)動(dòng)用品,如乒乓球拍、籃球等,這樣的推薦缺乏準(zhǔn)確性,用戶(hù)的點(diǎn)擊率就會(huì)很低。為了保證興趣畫(huà)像既有一定的準(zhǔn)確性又有較好的泛化性,我們會(huì)構(gòu)建層次化的興趣標(biāo)簽體系,其中同時(shí)用幾個(gè)粒度的標(biāo)簽去匹配用戶(hù)興趣,既保證了標(biāo)簽的準(zhǔn)確性,又保證了標(biāo)簽的泛化性。下面以用戶(hù)的新聞興趣畫(huà)像舉例,介紹如何構(gòu)建層次化的興趣標(biāo)簽。新聞興趣畫(huà)像的處理難度要比購(gòu)物興趣畫(huà)像困難,購(gòu)物標(biāo)簽體系基本固定,如圖10-8所示,京東頁(yè)面已經(jīng)有成熟的三級(jí)類(lèi)目體系?!鴪D10-8三級(jí)類(lèi)目體系1)內(nèi)容建模新聞數(shù)據(jù)本身是非結(jié)構(gòu)化的,首先需要人工構(gòu)建一個(gè)層次化的標(biāo)簽體系。考慮如圖10-9所示的一篇新聞,看看哪些內(nèi)容可以表示用戶(hù)的興趣?!鴪D10-9新聞例子首先,這是一篇體育新聞,體育這個(gè)新聞分類(lèi)可以表示用戶(hù)興趣,但是這個(gè)標(biāo)簽太粗了,因?yàn)橛脩?hù)可能只對(duì)足球感興趣,所以體育這個(gè)標(biāo)簽就顯得不夠準(zhǔn)確。其次,可以使用新聞中的關(guān)鍵詞,尤其是里面的專(zhuān)有名詞(人名、機(jī)構(gòu)名),如“桑切斯”“阿森納”“厄齊爾”,這些詞也表示了用戶(hù)的興趣。關(guān)鍵詞的主要問(wèn)題在于粒度太細(xì),如果某天的新聞里沒(méi)有這些關(guān)鍵詞,就無(wú)法給用戶(hù)推薦內(nèi)容。最后,我們希望有一個(gè)中間粒度的標(biāo)簽,既有一定的準(zhǔn)確度,又有一定的泛化能力。于是我們嘗試對(duì)關(guān)鍵詞進(jìn)行聚類(lèi),把一類(lèi)關(guān)鍵詞當(dāng)成一個(gè)標(biāo)簽,或者拆分一個(gè)分類(lèi)下的新聞,生成像“足球”這種粒度介于關(guān)鍵詞和分類(lèi)之間的主題標(biāo)簽。我們可以使用文本主題聚類(lèi)完成主題標(biāo)簽的構(gòu)建。至此,就完成了對(duì)新聞內(nèi)容從粗到細(xì)的“分類(lèi)-主題-關(guān)鍵詞”三層標(biāo)簽體系的內(nèi)容建模,新聞的三層標(biāo)簽如表10-4所示。▼表10-4三層標(biāo)簽體系可能讀者會(huì)有疑問(wèn),既然主題的準(zhǔn)確度和覆蓋率都不錯(cuò),我們只使用主題不就可以了嗎?為什么還要構(gòu)建分類(lèi)和關(guān)鍵詞這兩層標(biāo)簽?zāi)兀窟@么做是為了針對(duì)用戶(hù)進(jìn)行盡可能精確和全面的內(nèi)容推薦。當(dāng)用戶(hù)的關(guān)鍵詞命中新聞時(shí),顯然能夠給用戶(hù)更準(zhǔn)確的推薦,這時(shí)就不需要再使用主題標(biāo)簽;而對(duì)于比較小眾的主題(如體育類(lèi)的冰上運(yùn)動(dòng)主題),若當(dāng)天沒(méi)有新聞覆蓋,就可以根據(jù)分類(lèi)標(biāo)簽進(jìn)行推薦。層次標(biāo)簽兼顧了刻畫(huà)用戶(hù)興趣的覆蓋率和準(zhǔn)確性。2)興趣衰減在完成內(nèi)容建模以后,就可以根據(jù)用戶(hù)點(diǎn)擊,計(jì)算用戶(hù)對(duì)分類(lèi)、主題、關(guān)鍵詞的興趣,得到用戶(hù)興趣標(biāo)簽的權(quán)重。最簡(jiǎn)單的計(jì)數(shù)方法是,用戶(hù)點(diǎn)擊一篇新聞,就把用戶(hù)對(duì)該篇新聞的所有標(biāo)簽興趣值上加1,用戶(hù)對(duì)每個(gè)詞的興趣計(jì)算使用如下的公式:scorei+1=scorei+C×weight其中,詞在這次瀏覽的新聞中出現(xiàn),則C=1,否則C=0,weight表示詞在這篇新聞中的權(quán)重。這樣做有兩個(gè)問(wèn)題:一個(gè)是用戶(hù)的興趣累加是線(xiàn)性的,數(shù)值會(huì)非常大,老的興趣權(quán)重會(huì)特別高;另一個(gè)是用戶(hù)的興趣有很強(qiáng)的時(shí)效性,對(duì)一篇新聞昨天的點(diǎn)擊要比一個(gè)月之前的點(diǎn)擊重要的多,線(xiàn)性疊加無(wú)法突出用戶(hù)的近期興趣。為了解決這個(gè)問(wèn)題,需要對(duì)用戶(hù)興趣得分進(jìn)行衰減,可使用如下的方法對(duì)興趣得分進(jìn)行次數(shù)衰減和時(shí)間衰減。次數(shù)衰減的公式如下:scorei+1=α×scorei+C×weight,0<α<1其中,α是衰減因子,每次都對(duì)上一次的分?jǐn)?shù)做衰減,最終得分會(huì)收斂到一個(gè)穩(wěn)定值,α取0.9時(shí),得分會(huì)無(wú)限接近10。時(shí)間衰減的公式如下:scoreday+1=scoreday×β,0<β<1它表示根據(jù)時(shí)間對(duì)興趣進(jìn)行衰減,這樣做可以保證時(shí)間較早期的興趣會(huì)在一段時(shí)間以后變得非常弱,同時(shí)近期的興趣會(huì)有更大的權(quán)重。根據(jù)用戶(hù)興趣變化的速度、用戶(hù)活躍度等因素,也可以對(duì)興趣進(jìn)行周級(jí)別、月級(jí)別或小時(shí)級(jí)別的衰減。3.地理位置畫(huà)像地理位置畫(huà)像一般分為兩部分:一部分是常駐地畫(huà)像;一部分是GPS畫(huà)像。這兩類(lèi)畫(huà)像的差別很大,常駐地畫(huà)像比較容易構(gòu)造且標(biāo)簽比較穩(wěn)定,GPS畫(huà)像需要實(shí)時(shí)更新。常駐地包括國(guó)家、省份、城市三級(jí),一般只細(xì)化到城市粒度。在常駐地挖掘中,對(duì)用戶(hù)的IP地址進(jìn)行解析,并對(duì)應(yīng)到相應(yīng)的城市,再對(duì)用戶(hù)IP出現(xiàn)的城市進(jìn)行統(tǒng)計(jì)就可以得到常駐城市標(biāo)簽。用戶(hù)的常駐城市標(biāo)簽不僅可以用來(lái)統(tǒng)計(jì)各個(gè)地域的用戶(hù)分布,還可以根據(jù)用戶(hù)在各個(gè)城市之間的出行軌跡識(shí)別出差人群、旅游人群等。GPS數(shù)據(jù)一般從手機(jī)端收集,但很多手機(jī)App沒(méi)有獲取用戶(hù)GPS信息的權(quán)限。能夠獲取用戶(hù)GPS信息的主要是百度地圖、滴滴打車(chē)等出行導(dǎo)航類(lèi)App,此外收集到的用戶(hù)GPS數(shù)據(jù)比較稀疏。百度地圖使用該方法并結(jié)合時(shí)間段數(shù)據(jù),構(gòu)建了用戶(hù)公司和家的GPS標(biāo)簽。此外百度地圖還基于GPS信息,統(tǒng)計(jì)各條路上的車(chē)流量,進(jìn)行路況分析,圖10-10所示是北京市某天的實(shí)時(shí)路況圖,紅色表示擁堵線(xiàn)路?!鴪D10-10北京的實(shí)時(shí)路況圖四、
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 淮安2024年江蘇淮安漣水縣面向村(社區(qū))黨組織書(shū)記選聘鎮(zhèn)(街道)事業(yè)單位工作人員筆試歷年參考題庫(kù)附帶答案詳解
- 2025年中國(guó)唑螨酯市場(chǎng)調(diào)查研究報(bào)告
- 2025年中國(guó)五金工具塑料泡罩市場(chǎng)調(diào)查研究報(bào)告
- 2025年走馬機(jī)丈根帶項(xiàng)目可行性研究報(bào)告
- 2025至2031年中國(guó)調(diào)墨螺釘行業(yè)投資前景及策略咨詢(xún)研究報(bào)告
- 2025年移動(dòng)平板滑輪車(chē)項(xiàng)目可行性研究報(bào)告
- 成都2025年四川成都師范學(xué)院招聘高層次人才67人(第一批)筆試歷年參考題庫(kù)附帶答案詳解
- 2025年水族產(chǎn)品項(xiàng)目可行性研究報(bào)告
- 2025年顯色皂洗機(jī)項(xiàng)目可行性研究報(bào)告
- 2025至2031年中國(guó)實(shí)心輪胎模具行業(yè)投資前景及策略咨詢(xún)研究報(bào)告
- 2025-2030年中國(guó)汽車(chē)用鉛酸蓄電池市場(chǎng)發(fā)展趨勢(shì)展望與投資策略分析報(bào)告
- 天津市和平區(qū)2024-2025學(xué)年高一(上)期末質(zhì)量調(diào)查物理試卷(含解析)
- cpk自動(dòng)計(jì)算電子表格表格
- 第五章 曲線(xiàn)運(yùn)動(dòng)(基礎(chǔ)夯實(shí))-高一物理人教版(2019)必修二單元鞏固檢測(cè)
- 排球正面上手傳球 說(shuō)課稿-2023-2024學(xué)年高一上學(xué)期體育與健康人教版必修第一冊(cè)
- 2025年浙江省交通投資集團(tuán)財(cái)務(wù)共享服務(wù)中心招聘2名高頻重點(diǎn)提升(共500題)附帶答案詳解
- 客流統(tǒng)計(jì)系統(tǒng)施工方案
- 瓶裝液化氣送氣工培訓(xùn)
- 道德經(jīng)全文完整版本
- 濰坊市人民醫(yī)院招聘真題
- 銷(xiāo)售人員薪資提成及獎(jiǎng)勵(lì)制度
評(píng)論
0/150
提交評(píng)論