




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第十七章
潛在語義分析第十七章
潛在語義分析1潛在語義分析潛在語義分析((latentsemanticanalysis,LSA)是一種無監(jiān)督學(xué)習(xí)方法,主要用于文本的話題分析通過矩陣分解發(fā)現(xiàn)文本與單詞之間的基于話題的語義關(guān)系文本信息處理中,傳統(tǒng)的方法以單詞向量表示文本的語義內(nèi)容,以單詞向量空間的度量表示文本之間的語義相似度。潛在語義分析旨在解決這種方法不能準(zhǔn)確表示語義的問題,試圖從大量的文本數(shù)據(jù)中發(fā)現(xiàn)潛在的話題,以話題向量表示文本的語義內(nèi)容,以話題向量空間的度量更準(zhǔn)確地表示文本之間的語義相似度。這也是話題分析(topicmodeling)的基本想法。潛在語義分析潛在語義分析((latentsemantic2潛在語義分析潛在語義分析使用的是非概率的話題分析模型。具體地,將文本集合表示為單詞-文本矩陣,對單詞-文本矩陣進(jìn)行奇異值分解,從而得到話題向量空間,以及文在話題向量空間的表示。奇異值分解特點(diǎn)是分解的矩陣正交非負(fù)矩陣分解(non-negativematrixfactorization,NMF)是另一種矩陣的因子分解方法,其特點(diǎn)是分解的矩陣非負(fù)非負(fù)矩陣分解也可以用于話題分析潛在語義分析潛在語義分析使用的是非概率的話題分析模型。3單詞向量空間文本信息處理,比如文本信息檢索、文本數(shù)據(jù)挖掘的一個核心問題是對文本的語義內(nèi)容進(jìn)行表示,并進(jìn)行文本之間的語義相似度計算。最簡單的方法是利用向量空間模型(vectorspacemodel,VSM),也就是單詞向量空間模型(wordvectorspacemodel)。向量空間模型的基本想法是,給定一個文本,用一個向量表示該文本的“語義”向量的每一維對應(yīng)一個單詞,其數(shù)值為該單詞在該文本中出現(xiàn)的頻數(shù)或權(quán)值基本假設(shè)是文本中所有單詞的出現(xiàn)情況表示了文本的語義內(nèi)容文本集合中的每個文本都表示為一個向量,存在于一個向量空間向量空間的度量,如內(nèi)積或標(biāo)準(zhǔn)化內(nèi)積表示文本之間的“語義相似度”。單詞向量空間文本信息處理,比如文本信息檢索、文本數(shù)據(jù)挖掘的一4單詞向量空間給定一個含有n個文本的集合
,以及在所有文本中出現(xiàn)的m個單詞的集合
。將單詞在文本中出現(xiàn)的數(shù)據(jù)用一個單詞-文本矩陣(word-documentmatrix)表示,記作X單詞向量空間給定一個含有n個文本的集合 ,以及在5單詞向量空間這是一個
mxn矩陣,元素xij
表示單詞wi
在文本.dj
內(nèi)中出現(xiàn)的頻數(shù)或權(quán)值。由于單詞的種類很多,而每個文本中出現(xiàn)單詞的種類通常較少,所以單詞-文本矩陣是一個稀疏矩陣。單詞向量空間這是一個mxn矩陣,元素xij表示單6單詞向量空間權(quán)值通常用單詞頻率-逆文本頻率(termfrequency-inversedocumentfrequency,TF-IDF)表示,其定義是tfij:單詞
wi出現(xiàn)在文本dj中的頻數(shù)
:是文本dj中出現(xiàn)的所有單詞的頻數(shù)之和dfi:含有單詞wi的文本數(shù)df:是文本集合D的全部文本數(shù)單詞向量空間權(quán)值通常用單詞頻率-逆文本頻率(termfre7單詞向量空間直觀上,一個單詞在一個文本中出現(xiàn)的頻數(shù)越高,這個單詞在這個文本中的重要度就越高一個單詞在整個文本集合中出現(xiàn)的文本數(shù)越少,這個單詞就越能表示其所在文本的特點(diǎn),重要度就越高一個單詞在一個文本的TF-IDF是兩種重要度的積,表示綜合重要度單詞向量空間直觀上,一個單詞在一個文本中出現(xiàn)的頻數(shù)越高,這8單詞向量空間單詞向量空間模型直接使用單詞-文本矩陣的信息。單詞-文本矩陣的第j列向量
xj
表示文本
djxij:單詞
wi在文本dj
的權(quán)值權(quán)值越大,該單詞在該文本中的重要度就越高單詞向量空間單詞向量空間模型直接使用單詞-文本矩陣的信息。單9單詞向量空間兩個單詞向量的內(nèi)積或標(biāo)準(zhǔn)化內(nèi)積(余弦)表示對應(yīng)的文本之間的語義相似度因此,文本
di
與
dj
之間的相似度為直觀上,在兩個文本中共同出現(xiàn)的單詞越多,其語義內(nèi)容就越相近,對應(yīng)的單詞向量同不為零的維度就越多,內(nèi)積就越大(單詞向量元素的值都是非負(fù)的),表示兩個文本在語義內(nèi)容上越相似單詞向量空間兩個單詞向量的內(nèi)積或標(biāo)準(zhǔn)化內(nèi)積(余弦)表示對應(yīng)的10單詞向量空間單詞向量空間模型模型簡單計算效率高有局限性,內(nèi)積相似度未必能夠準(zhǔn)確表達(dá)兩個文本的語義相似度一詞多義性(polysemy)多詞一義性(synonymy)單詞向量空間單詞向量空間模型11例單詞向量空間模型中,文本
d1
與
d2
相似度并不高,盡管兩個文本的內(nèi)容相似,這是因?yàn)橥x詞“airplane”與“aircraft”被當(dāng)作了兩個獨(dú)立的單詞,單詞向量空間模型不考慮單的同義性,在此情況下無法進(jìn)行準(zhǔn)確的相似度計算。例12例文本
d3
與
d4
有一定的相似度,盡管兩個文本的內(nèi)容并不相似,這是因?yàn)閱卧~“apple”具有多義,可以表示“applecomputer”和“fruit",單詞向量空間模型不考慮單詞的多義性,在此情況下也無法進(jìn)行準(zhǔn)確的相似度計算。例13話題向量空間兩個文本的語義相似度可以體現(xiàn)在兩者的話題相似度上一個文本一般含有若干個話題。如果兩個文本的話題相似,那么兩者的語義應(yīng)該也相似話題可以由若干個語義相關(guān)的單詞表示,同義詞(如“airplane”與“aircraft")可以表示同一個話題,而多義詞(如“apple")可以表示不同的話題。這樣,基于話題的模型就可以解決上述基于單詞的模型存在的問題。話題向量空間兩個文本的語義相似度可以體現(xiàn)在兩者的話題相似度上14話題向量空間設(shè)想定義一種話題向量空間模型(topicvectorspacemodel)給定一個文本,用話題空間的一個向量表示該文本,該向量的每一分量對應(yīng)一個話題,其數(shù)值為該話題在該文本中出現(xiàn)的權(quán)值用兩個向量的內(nèi)積或標(biāo)準(zhǔn)化內(nèi)積表示對應(yīng)的兩個文本的語義相似度注:單詞向量空間模型與話題向量空間模型可以互為補(bǔ)充,現(xiàn)實(shí)中,兩者可以同時使用。話題向量空間設(shè)想定義一種話題向量空間模型(topicvec15話題向量空間給定一個文本集合
和一個相應(yīng)的單詞集合
。可以獲得其單詞-文本矩陣X,X構(gòu)成原始的單詞向量空間,每一列是一個文本在單詞向量空間中的表示矩陣X也可以寫作話題向量空間給定一個文本集合 和一個相應(yīng)的單詞集合 16話題向量空間假設(shè)所有文本共含有k個話題。假設(shè)每個話題由一個定義在單詞集合W上的m維向量表示,稱為話題向量,即til:單詞
wi
在話題
tl
的權(quán)值,權(quán)值越大,該單詞在該話題中的重要度就越高k個話題向量張成一個話題向量空間(topicvectorspace),維數(shù)為k話題向量空間T是單詞向量空間X的一個子空間話題向量空間假設(shè)所有文本共含有k個話題。假設(shè)每個話題由一個定17話題向量空間話題向量空間T也可以表示為一個矩陣,稱為單詞-話題矩陣(word-topicmatrix),記作矩陣T也可寫作話題向量空間話題向量空間T也可以表示為一個矩陣,稱為單詞-話18文本在話題向量空間的表示現(xiàn)在考慮文本集合D的文本
dj,在單詞向量空間中由一個向量
xj
表示,將
xj
投影到話題向量空間T中,得到在話題向量空間的一個向量yj,yj
是一個k維向量,其表達(dá)式為ylj:文本
dj
在話題
tl
的權(quán)值,權(quán)值越大,該話題在該文本中的重要度就越高文本在話題向量空間的表示現(xiàn)在考慮文本集合D的文本dj,在單19文本在話題向量空間的表示矩陣Y表示話題在文本中出現(xiàn)的情況,稱為話題-文本矩陣(topic-document
matrix),記作矩陣Y可一個寫作文本在話題向量空間的表示矩陣Y表示話題在文本中出現(xiàn)的情況,稱20從單詞向量空間到話題向量空間的線性變換這樣一來,在單詞向量空間的文本向量
xj
可以通過它在話題空間中的向量
yj
近似表示,具體地由k個話題向量以
yj
為系數(shù)的線性組合近似表示所以,單詞-文本矩陣X可以近似的表示為單詞-話題矩陣T與話題一文本矩陣Y的乘積形式。這就是潛在語義分析。從單詞向量空間到話題向量空間的線性變換這樣一來,在單詞向量空21從單詞向量空間到話題向量空間的線性變換直觀上,潛在語義分析是將文本在單詞向量空間的表示通過線性變換轉(zhuǎn)換為在話題向量空間中的表示從單詞向量空間到話題向量空間的線性變換直觀上,潛在語義分析是22從單詞向量空間到話題向量空間的線性變換從單詞向量空間到話題向量空間的線性變換23從單詞向量空間到話題向量空間的線性變換在原始的單詞向量空間中,兩個文本
di
與
dj
的相似度可以由對應(yīng)的向量的內(nèi)積表示,即xi?xj。經(jīng)過潛在語義分析之后,在話題向量空間中,兩個文本
di
與
dj
的相似度可以由對應(yīng)的向量的內(nèi)積即
yi?yj
表示。要進(jìn)行潛在語義分析,需要同時決定兩部分的內(nèi)容,一是話題向量空間T,二是文本在話題空間的表示Y,使兩者的乘積是原始矩陣數(shù)據(jù)的近似,而這一結(jié)果完全從話題-文本矩陣的信息中獲得從單詞向量空間到話題向量空間的線性變換在原始的單詞向量空間中24潛在語義分析算法潛在語義分析利用矩陣奇異值分解潛在語義對單詞-文本矩陣進(jìn)行奇異值分解,將其左矩陣作為話題向量空間,將其對角矩陣與右矩陣的乘積作為文本在話題向量空間的表示。潛在語義分析算法潛在語義分析利用矩陣奇異值分解25矩陣奇異值分解算法(1)單詞-文本矩陣給定文本集合
和單詞集合
。潛在語義分析首先將這些數(shù)據(jù)表成一個單詞-文本矩陣矩陣奇異值分解算法(1)單詞-文本矩陣26矩陣奇異值分解算法(2)截斷奇異值分解潛在語義分析根據(jù)確定的話題個數(shù)k對單詞-文本矩陣X進(jìn)行截斷奇異值分解矩陣奇異值分解算法(2)截斷奇異值分解27矩陣奇異值分解算法(3)話題向量空間在單詞一文本矩陣X的截斷奇異值分解式中,矩陣Uk的每一個列向量
表示一個話題,稱為話題向量。由這k個話題向量張成一個子空間稱為話題向量空間矩陣奇異值分解算法(3)話題向量空間28矩陣奇異值分解算法(4)文本的話題空間表示有了話題向量空間,接著考慮文本在話題空間的表示
其中矩陣奇異值分解算法(4)文本的話題空間表示29矩陣奇異值分解算法由式(17.14)知,矩陣X的第j列向量xj滿足
是矩陣
第j列向量式(17.15)是文本dj
的近似表達(dá)式,由k個話題向量ul的線性組合構(gòu)成矩陣奇異值分解算法由式(17.14)知,矩陣X的第j列向量30矩陣奇異值分解算法矩陣
的每一個列向量是一個文本在話題向量空間的表示綜上,可以通過對單詞一文本矩陣的奇異值分解進(jìn)行潛在語義分析
得到話題空間Uk,以及文本在話題空間的表示矩陣奇異值分解算法矩陣 的每一個列向量31例假設(shè)有9個文本,11個單詞,單詞一文本矩陣x為11x9矩陣,矩陣的元素是單詞在文本中出現(xiàn)的頻數(shù),表示如下:進(jìn)行潛在語義分析。例假設(shè)有9個文本,11個單詞,單詞一文本矩陣x為11x32例實(shí)施對矩陣的截斷奇異值分解,假設(shè)話題的個數(shù)是3,截斷奇異值分解結(jié)果為例實(shí)施對矩陣的截斷奇異值分解,假設(shè)話題的個數(shù)是3,截斷奇異值33例左矩陣U3個列向量(左奇異向量)。第1列向量
u1
的值均為正,第2列向量
u2
和第3列向量
u3
的值有正有負(fù)。中間的對角矩陣
的元素是3個由大到小的奇異值(正值)。右矩陣是
,其轉(zhuǎn)置矩陣V3也有3個列向量(右奇異向量)。第1列向量
v1
的值也都為正,第2列向量
v2
和第3列向量
v3
的值有正有負(fù)。例左矩陣U3個列向量(左奇異向量)。第1列向量u1的值均34例現(xiàn)在,將
與
相乘,整體變成兩個矩陣乘積的形式例現(xiàn)在,將與相乘,整體變成兩個矩陣乘積的形35例矩陣U3有3個列向量,表示3個話題,矩陣U3表示話題向量空間。矩陣
有9個列向量,表示9個文本,矩陣
是文本集合在話題向量空間的表示。例矩陣U3有3個列向量,表示3個話題,矩陣U3表示話題向量空36非負(fù)矩陣分解算法非負(fù)矩陣分解也可以用于話題分析。對單詞一文本矩陣進(jìn)行非負(fù)矩陣分解,將其左矩陣作為話題向量空間,將其右矩陣作為文本在話題向量空間的表示。注意通常單詞-文本矩陣是非負(fù)的。非負(fù)矩陣分解算法非負(fù)矩陣分解也可以用于話題分析。37非負(fù)矩陣分解給定一個非負(fù)矩陣X≥0,找到兩個非負(fù)矩陣W≥0和H≥0,使得即將非負(fù)矩陣X分解為兩個非負(fù)矩陣W和H的乘積的形式,稱為非負(fù)矩陣分解。因?yàn)閃H與X完全相等很難實(shí)現(xiàn),所以只要求WH與X近似相等。非負(fù)矩陣分解給定一個非負(fù)矩陣X≥0,找到兩個非負(fù)矩陣W≥0和38非負(fù)矩陣分解假設(shè)非負(fù)矩陣X是
m
x
n
矩陣,非負(fù)矩陣W和H分別為
mxk
矩陣和kxn
矩陣。假設(shè)k<min(m,n),即W和H小于原矩陣X,所以非負(fù)矩陣分解是對原數(shù)據(jù)的壓縮。非負(fù)矩陣分解假設(shè)非負(fù)矩陣X是mxn矩陣,非負(fù)矩陣W和39非負(fù)矩陣分解由
知,矩陣X的第j列向量xj滿足矩陣X的第j列
xj
可以由矩陣W的k個列
wl
的線性組合逼近,線性組合的系數(shù)是矩陣H的第j列hj的元素。非負(fù)矩陣分解旨在用較少的基向量、系數(shù)向量來表示較大的數(shù)據(jù)矩陣。非負(fù)矩陣分解由 知,矩陣X的第j列向量xj滿足40潛在語義分析模型給定一個mxn非負(fù)的單詞-文本矩陣X≥0假設(shè)文本集合共包含k個話題,對X進(jìn)行非負(fù)矩陣分解。即求非負(fù)的
m
x
k
矩陣W≥0和
k
x
n
矩陣H≥0,使得令
為話題向量空間,
表示文本集合的k個話題,令
為文本在話題向量空間的表示,
表示文本集合的n個文本潛在語義分析模型給定一個mxn非負(fù)的單詞-文本矩陣41非負(fù)矩陣分解的形式化非負(fù)矩陣分解可以形式化為最優(yōu)化問題求解。首先定義損失函數(shù)或代價函數(shù)。第一種損失函數(shù)是平方損失。設(shè)兩個非負(fù)矩陣
,和
,平方損失函數(shù)定義為其下界是0,當(dāng)且僅當(dāng)A=B時達(dá)到下界。非負(fù)矩陣分解的形式化非負(fù)矩陣分解可以形式化為最優(yōu)化問題求解。42非負(fù)矩陣分解的形式化另一種損失函數(shù)是散度(divergence)。設(shè)兩個非負(fù)矩陣
和
散度損失函數(shù)定義為其下界也是0,當(dāng)且僅當(dāng)A=B時達(dá)到下界。A和B不對稱。當(dāng)
時散度損失函數(shù)退化為Kuliback-Leiber散度或相對嫡,這時A和B是概率分布。非負(fù)矩陣分解的形式化另一種損失函數(shù)是散度(divergenc43非負(fù)矩陣分解的形式化目標(biāo)函數(shù)
關(guān)于W和H的最小化,滿足約束條件W,H≥0,即或者,目標(biāo)函數(shù)
關(guān)于W和H的最小化,滿足約束條件W,H≥0,即非負(fù)矩陣分解的形式化目標(biāo)函數(shù) 關(guān)于W和H的最小化,44算法算法45算法算法46算法最優(yōu)化目標(biāo)函數(shù)是
,為了方便將目標(biāo)函數(shù)乘以1/2,其最優(yōu)解與原問題相同,記作應(yīng)用梯度下降法求解。首先求目標(biāo)函數(shù)的梯度同樣可得算法最優(yōu)化目標(biāo)函數(shù)是 ,為了方便將目標(biāo)函數(shù)乘以1/2,其最47算法然后求得梯度下降法的更新規(guī)則式中
是步長。選取即得乘法更新規(guī)則算法然后求得梯度下降法的更新規(guī)則48非負(fù)矩陣分解的迭代算法非負(fù)矩陣分解的迭代算法49第十七章
潛在語義分析第十七章
潛在語義分析50潛在語義分析潛在語義分析((latentsemanticanalysis,LSA)是一種無監(jiān)督學(xué)習(xí)方法,主要用于文本的話題分析通過矩陣分解發(fā)現(xiàn)文本與單詞之間的基于話題的語義關(guān)系文本信息處理中,傳統(tǒng)的方法以單詞向量表示文本的語義內(nèi)容,以單詞向量空間的度量表示文本之間的語義相似度。潛在語義分析旨在解決這種方法不能準(zhǔn)確表示語義的問題,試圖從大量的文本數(shù)據(jù)中發(fā)現(xiàn)潛在的話題,以話題向量表示文本的語義內(nèi)容,以話題向量空間的度量更準(zhǔn)確地表示文本之間的語義相似度。這也是話題分析(topicmodeling)的基本想法。潛在語義分析潛在語義分析((latentsemantic51潛在語義分析潛在語義分析使用的是非概率的話題分析模型。具體地,將文本集合表示為單詞-文本矩陣,對單詞-文本矩陣進(jìn)行奇異值分解,從而得到話題向量空間,以及文在話題向量空間的表示。奇異值分解特點(diǎn)是分解的矩陣正交非負(fù)矩陣分解(non-negativematrixfactorization,NMF)是另一種矩陣的因子分解方法,其特點(diǎn)是分解的矩陣非負(fù)非負(fù)矩陣分解也可以用于話題分析潛在語義分析潛在語義分析使用的是非概率的話題分析模型。52單詞向量空間文本信息處理,比如文本信息檢索、文本數(shù)據(jù)挖掘的一個核心問題是對文本的語義內(nèi)容進(jìn)行表示,并進(jìn)行文本之間的語義相似度計算。最簡單的方法是利用向量空間模型(vectorspacemodel,VSM),也就是單詞向量空間模型(wordvectorspacemodel)。向量空間模型的基本想法是,給定一個文本,用一個向量表示該文本的“語義”向量的每一維對應(yīng)一個單詞,其數(shù)值為該單詞在該文本中出現(xiàn)的頻數(shù)或權(quán)值基本假設(shè)是文本中所有單詞的出現(xiàn)情況表示了文本的語義內(nèi)容文本集合中的每個文本都表示為一個向量,存在于一個向量空間向量空間的度量,如內(nèi)積或標(biāo)準(zhǔn)化內(nèi)積表示文本之間的“語義相似度”。單詞向量空間文本信息處理,比如文本信息檢索、文本數(shù)據(jù)挖掘的一53單詞向量空間給定一個含有n個文本的集合
,以及在所有文本中出現(xiàn)的m個單詞的集合
。將單詞在文本中出現(xiàn)的數(shù)據(jù)用一個單詞-文本矩陣(word-documentmatrix)表示,記作X單詞向量空間給定一個含有n個文本的集合 ,以及在54單詞向量空間這是一個
mxn矩陣,元素xij
表示單詞wi
在文本.dj
內(nèi)中出現(xiàn)的頻數(shù)或權(quán)值。由于單詞的種類很多,而每個文本中出現(xiàn)單詞的種類通常較少,所以單詞-文本矩陣是一個稀疏矩陣。單詞向量空間這是一個mxn矩陣,元素xij表示單55單詞向量空間權(quán)值通常用單詞頻率-逆文本頻率(termfrequency-inversedocumentfrequency,TF-IDF)表示,其定義是tfij:單詞
wi出現(xiàn)在文本dj中的頻數(shù)
:是文本dj中出現(xiàn)的所有單詞的頻數(shù)之和dfi:含有單詞wi的文本數(shù)df:是文本集合D的全部文本數(shù)單詞向量空間權(quán)值通常用單詞頻率-逆文本頻率(termfre56單詞向量空間直觀上,一個單詞在一個文本中出現(xiàn)的頻數(shù)越高,這個單詞在這個文本中的重要度就越高一個單詞在整個文本集合中出現(xiàn)的文本數(shù)越少,這個單詞就越能表示其所在文本的特點(diǎn),重要度就越高一個單詞在一個文本的TF-IDF是兩種重要度的積,表示綜合重要度單詞向量空間直觀上,一個單詞在一個文本中出現(xiàn)的頻數(shù)越高,這57單詞向量空間單詞向量空間模型直接使用單詞-文本矩陣的信息。單詞-文本矩陣的第j列向量
xj
表示文本
djxij:單詞
wi在文本dj
的權(quán)值權(quán)值越大,該單詞在該文本中的重要度就越高單詞向量空間單詞向量空間模型直接使用單詞-文本矩陣的信息。單58單詞向量空間兩個單詞向量的內(nèi)積或標(biāo)準(zhǔn)化內(nèi)積(余弦)表示對應(yīng)的文本之間的語義相似度因此,文本
di
與
dj
之間的相似度為直觀上,在兩個文本中共同出現(xiàn)的單詞越多,其語義內(nèi)容就越相近,對應(yīng)的單詞向量同不為零的維度就越多,內(nèi)積就越大(單詞向量元素的值都是非負(fù)的),表示兩個文本在語義內(nèi)容上越相似單詞向量空間兩個單詞向量的內(nèi)積或標(biāo)準(zhǔn)化內(nèi)積(余弦)表示對應(yīng)的59單詞向量空間單詞向量空間模型模型簡單計算效率高有局限性,內(nèi)積相似度未必能夠準(zhǔn)確表達(dá)兩個文本的語義相似度一詞多義性(polysemy)多詞一義性(synonymy)單詞向量空間單詞向量空間模型60例單詞向量空間模型中,文本
d1
與
d2
相似度并不高,盡管兩個文本的內(nèi)容相似,這是因?yàn)橥x詞“airplane”與“aircraft”被當(dāng)作了兩個獨(dú)立的單詞,單詞向量空間模型不考慮單的同義性,在此情況下無法進(jìn)行準(zhǔn)確的相似度計算。例61例文本
d3
與
d4
有一定的相似度,盡管兩個文本的內(nèi)容并不相似,這是因?yàn)閱卧~“apple”具有多義,可以表示“applecomputer”和“fruit",單詞向量空間模型不考慮單詞的多義性,在此情況下也無法進(jìn)行準(zhǔn)確的相似度計算。例62話題向量空間兩個文本的語義相似度可以體現(xiàn)在兩者的話題相似度上一個文本一般含有若干個話題。如果兩個文本的話題相似,那么兩者的語義應(yīng)該也相似話題可以由若干個語義相關(guān)的單詞表示,同義詞(如“airplane”與“aircraft")可以表示同一個話題,而多義詞(如“apple")可以表示不同的話題。這樣,基于話題的模型就可以解決上述基于單詞的模型存在的問題。話題向量空間兩個文本的語義相似度可以體現(xiàn)在兩者的話題相似度上63話題向量空間設(shè)想定義一種話題向量空間模型(topicvectorspacemodel)給定一個文本,用話題空間的一個向量表示該文本,該向量的每一分量對應(yīng)一個話題,其數(shù)值為該話題在該文本中出現(xiàn)的權(quán)值用兩個向量的內(nèi)積或標(biāo)準(zhǔn)化內(nèi)積表示對應(yīng)的兩個文本的語義相似度注:單詞向量空間模型與話題向量空間模型可以互為補(bǔ)充,現(xiàn)實(shí)中,兩者可以同時使用。話題向量空間設(shè)想定義一種話題向量空間模型(topicvec64話題向量空間給定一個文本集合
和一個相應(yīng)的單詞集合
??梢垣@得其單詞-文本矩陣X,X構(gòu)成原始的單詞向量空間,每一列是一個文本在單詞向量空間中的表示矩陣X也可以寫作話題向量空間給定一個文本集合 和一個相應(yīng)的單詞集合 65話題向量空間假設(shè)所有文本共含有k個話題。假設(shè)每個話題由一個定義在單詞集合W上的m維向量表示,稱為話題向量,即til:單詞
wi
在話題
tl
的權(quán)值,權(quán)值越大,該單詞在該話題中的重要度就越高k個話題向量張成一個話題向量空間(topicvectorspace),維數(shù)為k話題向量空間T是單詞向量空間X的一個子空間話題向量空間假設(shè)所有文本共含有k個話題。假設(shè)每個話題由一個定66話題向量空間話題向量空間T也可以表示為一個矩陣,稱為單詞-話題矩陣(word-topicmatrix),記作矩陣T也可寫作話題向量空間話題向量空間T也可以表示為一個矩陣,稱為單詞-話67文本在話題向量空間的表示現(xiàn)在考慮文本集合D的文本
dj,在單詞向量空間中由一個向量
xj
表示,將
xj
投影到話題向量空間T中,得到在話題向量空間的一個向量yj,yj
是一個k維向量,其表達(dá)式為ylj:文本
dj
在話題
tl
的權(quán)值,權(quán)值越大,該話題在該文本中的重要度就越高文本在話題向量空間的表示現(xiàn)在考慮文本集合D的文本dj,在單68文本在話題向量空間的表示矩陣Y表示話題在文本中出現(xiàn)的情況,稱為話題-文本矩陣(topic-document
matrix),記作矩陣Y可一個寫作文本在話題向量空間的表示矩陣Y表示話題在文本中出現(xiàn)的情況,稱69從單詞向量空間到話題向量空間的線性變換這樣一來,在單詞向量空間的文本向量
xj
可以通過它在話題空間中的向量
yj
近似表示,具體地由k個話題向量以
yj
為系數(shù)的線性組合近似表示所以,單詞-文本矩陣X可以近似的表示為單詞-話題矩陣T與話題一文本矩陣Y的乘積形式。這就是潛在語義分析。從單詞向量空間到話題向量空間的線性變換這樣一來,在單詞向量空70從單詞向量空間到話題向量空間的線性變換直觀上,潛在語義分析是將文本在單詞向量空間的表示通過線性變換轉(zhuǎn)換為在話題向量空間中的表示從單詞向量空間到話題向量空間的線性變換直觀上,潛在語義分析是71從單詞向量空間到話題向量空間的線性變換從單詞向量空間到話題向量空間的線性變換72從單詞向量空間到話題向量空間的線性變換在原始的單詞向量空間中,兩個文本
di
與
dj
的相似度可以由對應(yīng)的向量的內(nèi)積表示,即xi?xj。經(jīng)過潛在語義分析之后,在話題向量空間中,兩個文本
di
與
dj
的相似度可以由對應(yīng)的向量的內(nèi)積即
yi?yj
表示。要進(jìn)行潛在語義分析,需要同時決定兩部分的內(nèi)容,一是話題向量空間T,二是文本在話題空間的表示Y,使兩者的乘積是原始矩陣數(shù)據(jù)的近似,而這一結(jié)果完全從話題-文本矩陣的信息中獲得從單詞向量空間到話題向量空間的線性變換在原始的單詞向量空間中73潛在語義分析算法潛在語義分析利用矩陣奇異值分解潛在語義對單詞-文本矩陣進(jìn)行奇異值分解,將其左矩陣作為話題向量空間,將其對角矩陣與右矩陣的乘積作為文本在話題向量空間的表示。潛在語義分析算法潛在語義分析利用矩陣奇異值分解74矩陣奇異值分解算法(1)單詞-文本矩陣給定文本集合
和單詞集合
。潛在語義分析首先將這些數(shù)據(jù)表成一個單詞-文本矩陣矩陣奇異值分解算法(1)單詞-文本矩陣75矩陣奇異值分解算法(2)截斷奇異值分解潛在語義分析根據(jù)確定的話題個數(shù)k對單詞-文本矩陣X進(jìn)行截斷奇異值分解矩陣奇異值分解算法(2)截斷奇異值分解76矩陣奇異值分解算法(3)話題向量空間在單詞一文本矩陣X的截斷奇異值分解式中,矩陣Uk的每一個列向量
表示一個話題,稱為話題向量。由這k個話題向量張成一個子空間稱為話題向量空間矩陣奇異值分解算法(3)話題向量空間77矩陣奇異值分解算法(4)文本的話題空間表示有了話題向量空間,接著考慮文本在話題空間的表示
其中矩陣奇異值分解算法(4)文本的話題空間表示78矩陣奇異值分解算法由式(17.14)知,矩陣X的第j列向量xj滿足
是矩陣
第j列向量式(17.15)是文本dj
的近似表達(dá)式,由k個話題向量ul的線性組合構(gòu)成矩陣奇異值分解算法由式(17.14)知,矩陣X的第j列向量79矩陣奇異值分解算法矩陣
的每一個列向量是一個文本在話題向量空間的表示綜上,可以通過對單詞一文本矩陣的奇異值分解進(jìn)行潛在語義分析
得到話題空間Uk,以及文本在話題空間的表示矩陣奇異值分解算法矩陣 的每一個列向量80例假設(shè)有9個文本,11個單詞,單詞一文本矩陣x為11x9矩陣,矩陣的元素是單詞在文本中出現(xiàn)的頻數(shù),表示如下:進(jìn)行潛在語義分析。例假設(shè)有9個文本,11個單詞,單詞一文本矩陣x為11x81例實(shí)施對矩陣的截斷奇異值分解,假設(shè)話題的個數(shù)是3,截斷奇異值分解結(jié)果為例實(shí)施對矩陣的截斷奇異值分解,假設(shè)話題的個數(shù)是3,截斷奇異值82例左矩陣U3個列向量(左奇異向量)。第1列向量
u1
的值均為正,第2列向量
u2
和第3列向量
u3
的值有正有負(fù)。中間的對角矩陣
的元素是3個由大到小的奇異值(正值)。右矩陣是
,其轉(zhuǎn)置矩陣V3也有3個列向量(右奇異向量)。第1列向量
v1
的值也都為正,第2列向量
v2
和第3列向量
v3
的值有正有負(fù)。例左矩陣U3個列向量(左奇異向量)。第1列向量u1的值均83例現(xiàn)在,將
與
相乘,整體變成兩個矩陣乘積的形式例現(xiàn)在,將與相乘,整體變成兩個矩陣乘積的形84例矩陣U3有3個列向量,表示3個話題,矩陣U3表示話題向量空間。矩陣
有9個列向量,表示9個文本,矩陣
是文本集合在話題向量空間的表示。例矩陣U3有3個列向量,表示3個話題,矩陣U3表示話題向量空85非負(fù)矩陣分解算法非負(fù)矩陣分解也可以用于話題分析。對單詞一文本矩陣進(jìn)行非負(fù)矩陣分解,將其左矩陣作為話題向量空間,將其右矩陣作為文本在話題向量空間的表示。注意通常單詞-文本矩陣是非負(fù)的。非負(fù)矩陣分解算法非負(fù)矩陣分解也可以用于話題分析。86非負(fù)矩陣分解給定
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 江西省南昌市2025屆高三下學(xué)期4月模擬檢測(二模)語文試卷及參考答案
- 北京臨川學(xué)校2025屆高三4月教學(xué)質(zhì)量檢測試題(二模)(文+理)數(shù)學(xué)試題
- 《人民科學(xué)家的精神風(fēng)采》課件
- 2025年朝陽下載貨運(yùn)從業(yè)資格證模擬考試題
- 減肥行業(yè)現(xiàn)象研究報告
- 幼兒園各類預(yù)案
- 舉辦2025年社區(qū)八一建軍節(jié)活動主題方案
- 基于tms320f280049設(shè)計的簡單電路
- 二零二五版授予虛擬股合同
- 二零二五版房屋租賃主體變更三方合同
- 實(shí)施《中華人民共和國反外國制裁法》的規(guī)定
- 襄陽市樊城區(qū)城市更新投資發(fā)展有限公司招聘考試真題2024
- 嚴(yán)重過敏反應(yīng)診斷和臨床管理專家共識(2025)解讀 2
- 2025年湖南省中考數(shù)學(xué)模擬試卷(一)(原卷版+解析版)
- 綜合與實(shí)踐 白晝時長規(guī)律的探究教學(xué)設(shè)計 2024-2025學(xué)年人教版數(shù)學(xué)七年級下冊
- 2025年重慶市開州區(qū)云楓教育集團(tuán)中考一?;瘜W(xué)試題(含答案)
- 第9課《桃花源記》教學(xué)設(shè)計-2024-2025學(xué)年統(tǒng)編版語文八年級下冊
- 稅務(wù)局筆試試題及答案
- 2025年紹興職業(yè)技術(shù)學(xué)院單招職業(yè)適應(yīng)性測試題庫附答案
- 2025年第六屆全國國家版圖知識競賽題庫及答案
- 剪映專業(yè)版教學(xué)課件
評論
0/150
提交評論