大數(shù)據(jù)場(chǎng)景下的主題檢索方法_第1頁(yè)
大數(shù)據(jù)場(chǎng)景下的主題檢索方法_第2頁(yè)
大數(shù)據(jù)場(chǎng)景下的主題檢索方法_第3頁(yè)
大數(shù)據(jù)場(chǎng)景下的主題檢索方法_第4頁(yè)
大數(shù)據(jù)場(chǎng)景下的主題檢索方法_第5頁(yè)
已閱讀5頁(yè),還剩33頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、Topic Model在企業(yè)的實(shí)際場(chǎng)景中如果遇到億級(jí)數(shù) 據(jù)該如何處理?如何利用有限的計(jì)算集群資源處理 超大的文集,我們將圍繞這一難題向大家介紹LDA主題模型訓(xùn)練系統(tǒng)以及它在線上預(yù)測(cè)時(shí)需要面對(duì)的問題和解決辦法。PLSI:潛在語(yǔ)義檢索LDA:Latent Dirichlet AllocationMPI:基于消息通訊的分布式計(jì)算平臺(tái)Perplexity:混雜度,常用于度量主題模型訓(xùn)練的效果雙工通信:同時(shí)收取和發(fā)送數(shù)據(jù)主題檢索模型理論基礎(chǔ)大數(shù)據(jù)場(chǎng)景下的挑戰(zhàn)構(gòu)建一個(gè)高效的訓(xùn)練系統(tǒng)模型在商業(yè)廣告檢索中的應(yīng)用LDA的提出L LDADA與與PLSPLSA A同屬同屬totopipic c mmo odedel

2、 l,其目標(biāo),其目標(biāo)是相是相同同的的。問問題題提出提出:如何如何在在語(yǔ)義語(yǔ)義層層面對(duì)面對(duì)文文本集本集(離(離散散數(shù)據(jù)數(shù)據(jù)集集)進(jìn))進(jìn)行行建模建模。向量空間模型是一個(gè)開創(chuàng)性的概念:優(yōu)點(diǎn):文檔可以被表示成一個(gè)實(shí)數(shù)向量; 不同長(zhǎng)度的文檔都能夠被表示成定長(zhǎng)的數(shù)列; 引入與向量相關(guān)的計(jì)算方法。問題:文檔被映射在詞空間,向量維度太高;理解能力弱,對(duì)語(yǔ)義分析的支持不強(qiáng)。潛在語(yǔ)義索引:首先被充當(dāng)一種降維技術(shù),對(duì)doc-word矩陣進(jìn)行SVD,提取最能反映向量間差異的線性子空間。進(jìn)而被證明能夠抓取到基本的語(yǔ)義信息,例如同義、一詞多義。缺陷:所謂的“抓取語(yǔ)義信息”不夠直接,降維的意義更明顯;時(shí)間和空間復(fù)雜度太大。

3、引入了潛在主題的概念 極大程度的降維,并能夠發(fā)掘有價(jià)值的語(yǔ)義信 息。理論理論缺陷:沒有對(duì)應(yīng)于P(z|d)的生成概率模型,理論 上不完整。(LDA補(bǔ)足了這個(gè)缺陷)HowHow?先驗(yàn) Dirichlet 參數(shù)P(z|d)P(w|z)模型的優(yōu)勢(shì)參數(shù)少,overfitting風(fēng)險(xiǎn)小,共有k x |V| + k個(gè)參數(shù) p(z|d)定義為產(chǎn)生式模型 訓(xùn)練集合開放,對(duì)于新文檔和新詞處理能力強(qiáng)topic model研究的熱點(diǎn),在bayes graphical model的框架下優(yōu)化潛力大LDA模型簡(jiǎn)介 (con d)T opicsDocuments丁opic propo付ions and assignment

4、s甸A、,AR U n u n u9en ur、EEnana、n H P、e eA U g h vl if e evolve9 .929.91organ ism 9.91br a rn neu ron ner ve Genome Mapping and Sequenc -I ng Cold Sprong Harbor ” v,tMay B to 12dat a num be com pu te r、也 II .、 : lL :1 :- 1 !A、1什搜拘生成文檔di的過(guò)程中,包含三個(gè)問題:1 1. . d di i的的表表層層信信息息:d di i的的規(guī)模,規(guī)模,即即d di i中中包包含含多

5、少詞多少詞實(shí)實(shí)例例?2 2. . d di i的的語(yǔ)語(yǔ)義義信信息息:d di i所所反映的反映的內(nèi)內(nèi)容,容,即即d di i的的主主題題分分布布?3 3. . d di i中中每每個(gè)個(gè)具具體體的的w wordord都是都是什什么么?指定組成文檔di的詞的個(gè)數(shù)N,N服從泊松分 布,即NPoisson()。根據(jù)Dirichlet先驗(yàn),為di選擇一個(gè)主題分布 i i,即 i iDirichlet()。ditopic sP(z|d)對(duì)于N個(gè)待定詞中的每一個(gè)詞wn,通過(guò)以下步驟確定wn的值:1. 根據(jù) i i為wn選擇一個(gè)主題zn,即將待定詞wn指派 給一個(gè)主題zn,指派依據(jù)為:znMultinomia

6、l( i i);2. 依據(jù)多項(xiàng)式概率p(wi | zn, ),為wn指派一個(gè)值。 其中,wi屬于word集。只是簡(jiǎn)單講下GIBBS采樣法,對(duì)于變分法和期望傳播方法會(huì)粗略的介紹主題檢索模型求解方法簡(jiǎn)介Gamma分布搜拘高數(shù)里我們常會(huì)碰到一個(gè)經(jīng)典積分 ,其定義如下式所示 :f () 二 I:y 叫 一y dy( 1.1)式( 1.1) 中的積分對(duì)于 0 的情況均存在 ,積分值為正數(shù) , 它 最 初是用于逼近階乘 nr 而定義的。通過(guò)分部積分很容易驗(yàn)證 f () (l)f (1) ,當(dāng) 為整數(shù)時(shí) r() (1)! f (l) 二 1。如將上式中的 y 改寫為 x i 丘 0 ,見l虱( 1.1) 變

7、換為下式 :似l1 l!lnpIl lx萬(wàn)e飛i l lx萬(wàn)It I l l同且“,i( 1.2)多項(xiàng)式分布搜拘多項(xiàng)式分布的概率分布函數(shù)定義如下式所示 :(1.3)FtN H兇川一FNxnxnxv糾PN公式( 1.3) 中滿足 Vi,xi O ,x 1,N ,同時(shí)還要滿足oi = I ,根據(jù)分布函數(shù)的定義我們可以很容易的得到如下數(shù)字特 征:( 1.4)E( X t ) = N O iVar(X t ) = N O t ( I - O i )Cov( X t ,X j ) = - N O i句p1 + p2 + p3 = 1p1 , p2 , p3 = 03維Dirichlet分布(3維空間中的

8、2維單純形)| | k 1B( ) k 11Dirichlet( ; ) k| |k 1| |k 1(k )B( ) ()kk = 0.1k = 1k = 10文集W為topic k的聯(lián)合概率分布GIBBS用邊緣分布進(jìn)行迭代來(lái)逼近聯(lián)合分布p(Z,W | , ) p(W | Z, ) p(Z | )p(Z ,W | , )p(zi k | Zi ,W , ) , z kp(Z ,W | , )iiiGibbs采用條件邊緣分布采樣來(lái)求解聯(lián)合分布, 將其轉(zhuǎn)化為一個(gè)Markov鏈,通過(guò)構(gòu)造概率迭 代矩陣來(lái)求解|V |(n(t; zi ) t ) 1t 1K(n(z k; di ) z ) 1k 1n(

9、w ; z ) n(z ; d ) 11p(zi | Zi ,W , , ) wiziiiiiGIBBS續(xù)搜拘n yhInitialize I (O )I ,.,_ . .Count、E,A ad,TE,4 E飛,但w( 二Im)w ,.(1)Compute工Sample1p ( 二i l z -i . d . w ) 一一Loop and eFigure 1: The procedure of learning LDA by Gibbs sarnpling.wGIBBS續(xù)搜拘zero all count variables NWZ , NZM, NZ foreach document m 1

10、,D doforeach word n 1) Nrn in d ocument m dosample topic index Zm, ”Mult (l/K ) forvord Wr:叩i;increment document-topic count : NZM zrn,” m + .increment topic-term count: NWZ wm川Zm,nJ + ; increment topic-term sum: NZ zm,n + end endwhile not fin ished doforeach d ocument m E 1, D doforeach word n 1, .

11、lV m in d ocument m doNWZ wm,”p Zm,rJ - - , NZ zm,nJ 一 ,NZM zm,n , m 一 ;sample topic index Zm,n according to (44) NWZ 四m川,zm, ,NZ 主m,nJ +, NZM zrn, m + ; endendif converged nd L smpling itentions since lst red out then read out parameter set e and according to (43) endend大數(shù)據(jù)場(chǎng)景下的挑戰(zhàn)我們面臨的數(shù)據(jù)集,一億篇doc,詞表一

12、百萬(wàn) P(w|z)在1w主題下需要40G存儲(chǔ) doc存儲(chǔ)需要3200G如何利用有限的計(jì)算節(jié)點(diǎn)盡快的完成計(jì)算如何存儲(chǔ)下所有的數(shù)據(jù)多機(jī)計(jì)算的場(chǎng)景下如何解決通訊問題輸入文集分 布 式 文 集 加 載 , 分 別 初 始 化 詞 的 主 題 編 號(hào)并計(jì)算詞頻采樣器采樣器 。采樣器。 。采樣器是否停止迭代多 個(gè) 線 程 合 并 結(jié) 果 矩 陣 , 然 后多機(jī)通過(guò)MPI reduce操作合并結(jié)果矩陣結(jié) 束 運(yùn) 算 , 主 控 節(jié) 點(diǎn) 輸 出 模型文件停 止 迭 代繼 續(xù) 迭 代我們發(fā)現(xiàn)n(w|z)參數(shù)矩陣是稀疏的,其非0元素占比遠(yuǎn)低于1%數(shù)據(jù)結(jié)構(gòu)上使用壓縮一維數(shù)組Judy j ju 細(xì)心的拆解迭代公式可以

13、顯著縮小計(jì)算量Sampling中按照指定分布抽取新的topic是性能的 熱點(diǎn),這個(gè)地方可以做出十倍以上的加速度訓(xùn)練算法的關(guān)鍵點(diǎn)是計(jì)算邊緣分布函數(shù)|V |(n(t; zi ) t ) 1t 1n(wi ; zi ) w1p(zi | Zi ,W , , ) (n(z ; d ) 1)iziii|V |t 1|V |t 1|V |(n(t; zi ) t ) 1t 1n(wi ; zi )(n(zi ; di ) z 1)n(zi ; di )(w 1)p(zi | Zi ,W , , ) (n(t; zi ) t ) 1(n(t; zi ) t ) 1(z 1)(w 1)ii i i 原方法:3

14、0000t.0o4 pic:51個(gè)0節(jié).035 點(diǎn),平均每輪迭代需要15分鐘,總耗時(shí)36 個(gè)小時(shí)0.03新方法0.025:1w to0.0p2 ic51個(gè)0節(jié).015 點(diǎn),平均每輪迭代需要5.5分鐘,總耗時(shí)16.5個(gè)0.01 小時(shí),內(nèi)存消耗降低為原來(lái)的1/10,網(wǎng)絡(luò)通訊數(shù)0.005據(jù)量也降低為稠密矩陣的1/100191725334149576573818997105113121129137145矩陣矩陣密度密度矩陣密度主要通訊的就是n(w|z)這個(gè)矩陣可以根據(jù)局部的文集詞表對(duì)其進(jìn)行分布式存儲(chǔ)分兩次完成通訊:第一次傳元數(shù)據(jù);第二次傳更新 量分部成環(huán),全雙工通信,提高一倍的傳輸效率主要涉及infe

15、rence部分在商業(yè)廣告檢索中如何應(yīng)用將query中所有的詞對(duì)應(yīng)的p(z|w)連加優(yōu)點(diǎn):速度快缺點(diǎn):抗噪能力差Np(W ) t fi p(z | wi )i0按照訓(xùn)練過(guò)程中的方法,只是固定p(z|w)矩陣,然后計(jì)算gamma向量,進(jìn)而獲取p(z|d)根據(jù)topic之間的相似度調(diào)整賦權(quán),為im-gibbs固定p(w|z)不變,用em的方法迭代求解p(z|d)優(yōu)點(diǎn):速度比連加慢一些,但效果好很多缺點(diǎn):badcase放大unitbid wordrank termtopic vectortopic vectorcosine similarity匹配相似度, 也可以是內(nèi)積rank termtopic vectortop n topictopic 1topic 2topic nunit list模型的訓(xùn)練和推導(dǎo)過(guò)程:PLSA:分布之上無(wú)規(guī)律,過(guò)擬合;對(duì)新數(shù)據(jù)的推導(dǎo)cheating,用model去fit數(shù)據(jù)。LDA:具有完備的訓(xùn)練和推導(dǎo)。 單單純純的的LDLDA A模模型型只只在在小規(guī)模小規(guī)模數(shù)數(shù)據(jù)集的據(jù)集的處處理上有理上有優(yōu)優(yōu)勢(shì)勢(shì)。

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論