07embedding進(jìn)階如何利用圖結(jié)構(gòu)數(shù)據(jù)生成graphembedding_第1頁
07embedding進(jìn)階如何利用圖結(jié)構(gòu)數(shù)據(jù)生成graphembedding_第2頁
07embedding進(jìn)階如何利用圖結(jié)構(gòu)數(shù)據(jù)生成graphembedding_第3頁
07embedding進(jìn)階如何利用圖結(jié)構(gòu)數(shù)據(jù)生成graphembedding_第4頁
07embedding進(jìn)階如何利用圖結(jié)構(gòu)數(shù)據(jù)生成graphembedding_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

下載下載 2020-10-16 進(jìn)入課16:52大小上一節(jié)課,我們一起學(xué)習(xí)了Emeding技術(shù)。我們知道,只要是能夠被序列數(shù)據(jù)表示的物品,都可以通過Iem2ec方法訓(xùn)練出Emeding。但是,互聯(lián)網(wǎng)的數(shù)據(jù)可不僅僅是序列數(shù)據(jù)那么簡單,越來越多的數(shù)據(jù)被我們以圖的形式展現(xiàn)出來。這個(gè)時(shí)候,基于序列數(shù)據(jù)的Emeding方法就顯得“不夠用”了。但在推薦系統(tǒng)中放棄圖結(jié)構(gòu)數(shù)據(jù)是非??上mbedding于圖結(jié)構(gòu)的Embedding方法,它也被稱為GraphEmbedding??赡苡械耐瑢W(xué)還不太清楚圖結(jié)構(gòu)中到底包含了哪些重要信息,為什么我們希望好好利用它們,并以它們?yōu)榛A(chǔ)生成Emeding?下面,我就先帶你認(rèn)識(shí)一下互聯(lián)網(wǎng)中那些非常典型的圖結(jié)構(gòu)數(shù)據(jù)(如圖1)。圖1事實(shí)上,圖結(jié)構(gòu)數(shù)據(jù)在互聯(lián)網(wǎng)中幾乎無處不在,最典型的就是我們每天都在使用的社交網(wǎng)絡(luò)(如圖1-a)。從社交網(wǎng)絡(luò)中,我們可以發(fā)現(xiàn)意見領(lǐng)袖,可以發(fā)現(xiàn)社區(qū),再根據(jù)這些“社交”特性進(jìn)行社交化的推薦,如果我們可以對(duì)社交網(wǎng)絡(luò)中的節(jié)點(diǎn)進(jìn)行知識(shí)圖譜也是近來非常火熱的研究和應(yīng)用方向。像圖1-b中描述的那樣,知識(shí)圖譜中包含了不同類型的知識(shí)主體(如人物、地點(diǎn)等),附著在知識(shí)主體上的屬性(如人物描述,物品特點(diǎn)),以及主體和主體之間、主體和屬性之間的關(guān)系。如果我們能夠?qū)χR(shí)圖譜中的主體進(jìn)行Emeding化,就可以發(fā)現(xiàn)主體之間的潛在關(guān)系,這對(duì)于基于內(nèi)容和知識(shí)的推薦系統(tǒng)是非常有幫助的。還有一類非常重要的圖數(shù)據(jù)就是行為關(guān)系類圖數(shù)據(jù)。這類數(shù)據(jù)幾乎存在于所有互聯(lián)網(wǎng)應(yīng)用中,它事實(shí)上是由用戶和物品組成的“二部圖”(也稱二分圖,如圖1c)。用戶和物品之間的相互行為生成了行為關(guān)系圖。借助這樣的關(guān)系圖,我們自然能夠利用Emeding技EmbeddingGraphEmbedding方法。GraphEmbedding方法,Deep我們先來學(xué)習(xí)一種在業(yè)界影響力比較大,應(yīng)用也很廣泛的GraphEmbedding方法,DeepWalk,2014Word2vecEmbedding。因此,DeepWalkEmbeddingGraphEmbedding2DeepWalk圖2DeepWalk接下來,我就參照?qǐng)D2中4個(gè)示意圖,來為你詳細(xì)講解一下DeepWalk的算法流程。首先,我們基于原始的用戶行為序列(2(a)),比如用戶的購買物品序列、觀看視頻序列等等,來構(gòu)建物品關(guān)系圖(圖2(b))。從中,我們可以看出,因?yàn)橛脩鬠1物品A和物品B,所以產(chǎn)生了一條由A到B的有向邊。如果后續(xù)產(chǎn)生了多條相同的有向邊,則有向邊的權(quán)重被加強(qiáng)。在將所有用戶行為序列都轉(zhuǎn)換成物品相關(guān)圖中的邊之后,全局的物品相關(guān)圖就建立起來了。然后,我們采用隨機(jī)游走的方式隨機(jī)選擇起始點(diǎn),重新產(chǎn)生物品序列(圖2?)。其中,最后,我們將這些隨機(jī)游走生成的物品序列輸入圖2(d)的Word2vec模型,生成最終的物品Embedding向量。在上述DeepWalk的算法流程中,唯一需要形式化定義的就是隨機(jī)游走的跳轉(zhuǎn)概率,也就是到達(dá)節(jié)點(diǎn)vi后,下一步遍歷vi的鄰接點(diǎn)vj的概率。如果物品關(guān)系圖是有向有權(quán)圖,那么從節(jié)點(diǎn)vi跳轉(zhuǎn)到節(jié)點(diǎn)vj的概率定義如下:P(vj∣vi)={

,

(vi) e_ij/j∈N+(Vi其中,N+(i)是節(jié)點(diǎn)i所有的出邊集合,Mij是節(jié)點(diǎn)i到節(jié)點(diǎn)j邊的權(quán)重,即DeepWalk的跳轉(zhuǎn)概率就是跳轉(zhuǎn)邊的權(quán)重占所有相關(guān)出邊權(quán)重之和的比例。如果物品相關(guān)圖是無向無權(quán)重圖,那么跳轉(zhuǎn)概率將是(式1)的一個(gè)特例,即權(quán)重Mij將為常數(shù)1,且N+i)應(yīng)是節(jié)點(diǎn)i所有“邊”的集合,而不是所有“出邊”的集合。再通過隨機(jī)游走得到新的物品序列,我們就可以通過經(jīng)典的word2vec的方式生成物品Embeddingword2vec2016年,斯坦福大學(xué)的研究人員在DeepWalk的基礎(chǔ)上更進(jìn)一步,他們提出了Node2vecNode2vecGraphEmbedding的結(jié)果在網(wǎng)絡(luò)的同質(zhì)性(Homophily)和結(jié)構(gòu)性(StructuralEquivalence)中進(jìn)行權(quán)Embedding我這里所說的網(wǎng)絡(luò)的“同質(zhì)性”指的是距離相近節(jié)點(diǎn)的Embdding應(yīng)該盡量近似,如圖3所示,節(jié)點(diǎn)u與其相連的節(jié)點(diǎn)1、2、s3、4的Emeding表達(dá)應(yīng)該是接近的,這就是網(wǎng)絡(luò)“同質(zhì)性“的體現(xiàn)。在電商網(wǎng)站中,同質(zhì)性的物品很可能是同品類、同屬性,或者經(jīng)常被一同購買的物品。而“結(jié)構(gòu)性”指的是結(jié)構(gòu)上相似的節(jié)點(diǎn)的Embeddng應(yīng)該盡量接近,比如圖3中節(jié)點(diǎn)u和節(jié)點(diǎn)s6都是各自局域網(wǎng)絡(luò)的中心節(jié)點(diǎn),它們?cè)诮Y(jié)構(gòu)上相似,所以它們的Emeding表達(dá)也應(yīng)該近似,這就是“結(jié)構(gòu)性”的體現(xiàn)。在電商網(wǎng)站中,結(jié)構(gòu)性相似的物品一般是各品類的爆款、最佳湊單商品等擁有類似趨勢(shì)或者結(jié)構(gòu)性屬性的物品。圖3網(wǎng)絡(luò)的BFS和DFS理解了這些基本概念之后,那么問題來了,GraphEmbedding首先,為了使GraphEmeding的結(jié)果能夠表達(dá)網(wǎng)絡(luò)的“結(jié)構(gòu)性”,在隨機(jī)游走的過程中,我們需要讓游走的過程更傾向于BFS(BradthFrstSearch,寬度優(yōu)先搜索),因?yàn)锽FS會(huì)更多地在當(dāng)前節(jié)點(diǎn)的鄰域中進(jìn)行游走遍歷,相當(dāng)于對(duì)當(dāng)前節(jié)點(diǎn)周邊的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行一次“微觀掃描”。當(dāng)前節(jié)點(diǎn)是“局部中心節(jié)點(diǎn)”,還是“邊緣節(jié)點(diǎn)”,亦或是“連接性節(jié)點(diǎn)”,其生成的序列包含的節(jié)點(diǎn)數(shù)量和順序必然是不同的,從而讓最終的Emedding抓取到更多結(jié)構(gòu)性信息。而為了表達(dá)“同質(zhì)性”,隨機(jī)游走要更傾向于DFS(DepthFirstSearch,深度優(yōu)先搜索)DFSDFSEmbedding更為相似,從而更多地表達(dá)網(wǎng)絡(luò)的“同質(zhì)性”。那在Node2vecBFS和DFS其實(shí),它主要是通過節(jié)點(diǎn)間的跳轉(zhuǎn)概率來控制跳轉(zhuǎn)的傾向性。圖4所示為Node2vec算法從節(jié)點(diǎn)t跳轉(zhuǎn)到節(jié)點(diǎn)v后,再從節(jié)點(diǎn)v跳轉(zhuǎn)到周圍各點(diǎn)的跳轉(zhuǎn)概率。這里,你要注意這幾個(gè)節(jié)點(diǎn)的特點(diǎn)。比如,節(jié)點(diǎn)t是隨機(jī)游走上一步訪問的節(jié)點(diǎn),節(jié)點(diǎn)v是當(dāng)前訪問的節(jié)點(diǎn),節(jié)點(diǎn)x1、x2、x3是與v相連的非t節(jié)點(diǎn),但節(jié)點(diǎn)x1還與節(jié)點(diǎn)t相連,這些不同的特點(diǎn)決定了圖4Node2vec這些概率我們還可以用具體的公式來表示,從當(dāng)前節(jié)點(diǎn)v跳轉(zhuǎn)到下一個(gè)節(jié)點(diǎn)xπvxαpq(txωvx,其中wvx是邊vx的原始權(quán)重,αpq(tx)是Node2vec定義的一個(gè)跳轉(zhuǎn)權(quán)重。到底是傾向于DFS還是BFS,主要就與這個(gè)跳轉(zhuǎn)權(quán)重的定義有關(guān)了。這里? dtx?p 如果 =αpq(tx)里的dtx是指節(jié)點(diǎn)t到節(jié)點(diǎn)x的距離,比如節(jié)點(diǎn)x1其實(shí)是與節(jié)點(diǎn)t直接相連的,所以這個(gè)距離dtx就是1,節(jié)點(diǎn)t到節(jié)點(diǎn)t自己的距離dtt就是0,而x2、x3這些不與t相連的節(jié)點(diǎn),dtx就是2。此外,αpq(tx)中的參數(shù)p和qp(returnparameter),p越小,隨機(jī)游走回節(jié)點(diǎn)t的可能性越大,Node2vec就更注重表達(dá)網(wǎng)絡(luò)的結(jié)構(gòu)性。參數(shù)q被稱為進(jìn)出參數(shù)(in-outparameter),q越小,隨機(jī)游走到遠(yuǎn)方節(jié)點(diǎn)的可能性越大,Node2vec近節(jié)點(diǎn)游走。你可以自己嘗試給p和q設(shè)置不同大小的值,算一算從v跳轉(zhuǎn)到t、x1、x2和x3的跳轉(zhuǎn)概率。這樣一來,應(yīng)該就不難理解我剛才所說的隨機(jī)游走傾向性的問題啦。Node2vec這種靈活表達(dá)同質(zhì)性和結(jié)構(gòu)性的特點(diǎn)也得到了實(shí)驗(yàn)的證實(shí),我們可以通過調(diào)整p和q參數(shù)讓它產(chǎn)生不同的Embedding結(jié)果。圖5上就是Node2vec更注重同質(zhì)性的體現(xiàn),從中我們可以看到,距離相近的節(jié)點(diǎn)顏色更為接近,圖5下則是更注重結(jié)構(gòu)性的體圖5Node2vec毫無疑問,Node2vec表達(dá)。由于Node2vec的這種靈活性,以及發(fā)掘不同圖特征的能力,我們甚至可以把不EmbeddingEmbedding方法,Word2vec和Item2vec,以及圖數(shù)據(jù)的Embedding方法,DeepWalk和Node2vecEmbeddingEmbedding又是是怎么應(yīng)用到推薦系統(tǒng)中的呢?這里,我就來做一個(gè)統(tǒng)一的解答。第一個(gè)問題不難回答,由于Embedding的產(chǎn)出就是一個(gè)數(shù)值型特征向量,所以Embedding技術(shù)本身就可以視作特征處理方式的一種。只不過與簡單的One-hot編碼等方式不同,Embedding而第二個(gè)問題的答案有三個(gè)。Embedding是“直接應(yīng)用”、“預(yù)訓(xùn)練應(yīng)用”和“End2End應(yīng)用”。其中,“直接應(yīng)用”最簡單,就是在我們得到Emeding向量之后,直接利用Emeding向量的相似性實(shí)現(xiàn)某些推薦系統(tǒng)的功能。典型的功能有,利用物品Emeding間的相似性實(shí)現(xiàn)相似物品推薦,利用物品Emeding和用戶Emeding的相似性實(shí)現(xiàn)“猜你喜歡”等經(jīng)典推薦功能,還可以利用物品Emeding實(shí)現(xiàn)推薦系統(tǒng)中的召回層等。當(dāng)然,如果你還不熟悉這些應(yīng)用細(xì)節(jié),也完全不用擔(dān)心,我們?cè)谥蟮恼n程中都會(huì)講到?!邦A(yù)訓(xùn)練應(yīng)用”指的是在我們預(yù)先訓(xùn)練好物品和用戶的Embedding之后,不直接應(yīng)用,而是把這些Embeding向量作為特征向量的一部分,跟其余的特征向量拼接起來,作為推薦模型的輸入?yún)⑴c訓(xùn)練。這樣做能夠更好的把其他特征引入進(jìn)來,讓推薦模型作出更為全面且準(zhǔn)確的預(yù)測(cè)。第三種應(yīng)用叫做“End2End應(yīng)用”??瓷先ミ@是個(gè)新的名詞,它的全稱叫做“endtoendtraining”,也就是端到端訓(xùn)練。不過,它其實(shí)并不神秘,指的是我們不預(yù)先訓(xùn)練Embedding,而是把Embedding的訓(xùn)練與深度學(xué)習(xí)推薦模型結(jié)合起來,采用統(tǒng)一的、端到端的方式一起訓(xùn)練,直接得到包含Embedding圖6就展示了三個(gè)包含Embedding層的經(jīng)典模型,分別是微軟的DeepCrossing,UCLFNNGoogleWide&Deep。它們的實(shí)現(xiàn)細(xì)節(jié)我們也會(huì)在后續(xù)課程里面圖6帶有EmbeddingGraphEmbeddingDeepWalk學(xué)習(xí)DeepWalk方法關(guān)鍵在于理解它的算法流程,首先,我們基于原始的用戶行為序列來構(gòu)建物品關(guān)系圖,然后采用隨機(jī)游走的方式隨機(jī)選擇起始點(diǎn),重新產(chǎn)生物品序列,最后將這些隨機(jī)游走生成的物品序列輸入Wor2vec模型,生成最終的物品Embeding向量。而Node2vec相比于DeepWalk,增加了隨機(jī)游走過程中跳轉(zhuǎn)概率的傾向性。如果傾向于寬度優(yōu)先搜索,則Embedding結(jié)果更加體現(xiàn)“結(jié)構(gòu)性”。如果傾向于深度優(yōu)先搜索,最后,我們介紹了Embedding技術(shù)在深度學(xué)習(xí)推薦系統(tǒng)中的三種應(yīng)用方法,“直接應(yīng)用”“預(yù)訓(xùn)練”和“End2End訓(xùn)練”。這些方法各有特點(diǎn),它們都是業(yè)界主流的應(yīng)用方至此,我們就完成了所有Embedding理論部分的學(xué)習(xí)。下節(jié)課,我們?cè)僖黄疬M(jìn)入EmbeddingGraphEmbeddingSparrowRecsysSpark實(shí)現(xiàn)Embedding的訓(xùn)練,希望你到時(shí)能跟我一起動(dòng)起手來!EmbeddingEmbeddingEnd2EndEmbeddingEmbeddingEnd2EndGraphEmbedding?上一 下一 08|Embedding實(shí)戰(zhàn):如何使用Spark生成Item2vec和Graph寫言寫言93 31程中,我們需要讓游走的過程更傾向于BFS(BreadthFirstSearch,寬度優(yōu)先搜索)”WeobservethatBFSandDFSstrategiesplayakeyroleinproducingrepresentationsthatreflecteitheroftheaboveequivalences.Inparticular,theneighborhoodssampledbyBFSleadtoembeddingsthatcorrespondcloselytostructuralequivalence.TheoppositeistrueforDFSwhichcanexplorelargerpartsofthenetworkasitcanmovefurtherawayfromthesourcenodeu(withsamplesizekbeingfixed).InDFS,thesamplednodesmoreaccuratelyreflectamacro-viewoftheneighborhoodwhichisessentialininferringcommunitie

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論