![多模態(tài)數(shù)據(jù)挖掘的應(yīng)用_第1頁(yè)](http://file2.renrendoc.com/fileroot_temp3/2021-11/14/9910bfd5-3c67-4c4e-b549-c89d08346df7/9910bfd5-3c67-4c4e-b549-c89d08346df71.gif)
![多模態(tài)數(shù)據(jù)挖掘的應(yīng)用_第2頁(yè)](http://file2.renrendoc.com/fileroot_temp3/2021-11/14/9910bfd5-3c67-4c4e-b549-c89d08346df7/9910bfd5-3c67-4c4e-b549-c89d08346df72.gif)
![多模態(tài)數(shù)據(jù)挖掘的應(yīng)用_第3頁(yè)](http://file2.renrendoc.com/fileroot_temp3/2021-11/14/9910bfd5-3c67-4c4e-b549-c89d08346df7/9910bfd5-3c67-4c4e-b549-c89d08346df73.gif)
![多模態(tài)數(shù)據(jù)挖掘的應(yīng)用_第4頁(yè)](http://file2.renrendoc.com/fileroot_temp3/2021-11/14/9910bfd5-3c67-4c4e-b549-c89d08346df7/9910bfd5-3c67-4c4e-b549-c89d08346df74.gif)
![多模態(tài)數(shù)據(jù)挖掘的應(yīng)用_第5頁(yè)](http://file2.renrendoc.com/fileroot_temp3/2021-11/14/9910bfd5-3c67-4c4e-b549-c89d08346df7/9910bfd5-3c67-4c4e-b549-c89d08346df75.gif)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、5多模態(tài)數(shù)據(jù)挖掘的應(yīng)用焦雋(南京大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系,南京210093)The applicati on of multimodal data minin g:A survey*Jun Jiao(Departme nt of Computer Scie nee and Tech no logy, Nanjing Uni versity, Nanjing 210093, China)Abstract : Nowadays, m ultimodal data available to us through the Internet and other electronic media are e
2、xplosively increasing both in number and in variety. Efficiently analyzing these data will save people a large amout of time. However, due to the property of multimodal data, methods used to uni-modal data usually perform ineffectively here. To handle such massive multimodal data for various purpose
3、s, new technologies are in need of development. Data Mining helps people find a potentially useful knowledge from Massive Data, and play an important role in many fields. Data mining could only handle simple text data in the past. After several decades of development, data mining can deal with the m
4、ultimedia data with complex structure now. Multimedia data is a sort of multimodal data. Some fusion and cross-media data mining algorithms can be used to mine multimodal data effectively. Based on the data mining approach to the task of analyzing multimodal data, this paper briefly introduces sever
5、al methods fitting for multimodal data mining.Key words :multimodal; data mining摘要:目前人們通過(guò)網(wǎng)絡(luò)和其他電子媒體獲得的多模態(tài)數(shù)據(jù)在數(shù)量和類(lèi)別上都在飛速的增長(zhǎng)。如果能對(duì)這些 數(shù)據(jù)進(jìn)行高效的分析,將為人們節(jié)省大量的時(shí)間。但是由于多模態(tài)數(shù)據(jù)本身的獨(dú)特性質(zhì),許多傳統(tǒng)應(yīng)用于單模態(tài) 數(shù)據(jù)的分析技術(shù)將無(wú)法有效的對(duì)其進(jìn)行挖掘。因此人們需要新的技術(shù)來(lái)處理各種場(chǎng)景中大量的多模態(tài)數(shù)據(jù)。數(shù)據(jù) 挖掘作為一種幫助人們從海量數(shù)據(jù)中發(fā)現(xiàn)潛在有用的知識(shí)的工具,在很多領(lǐng)域發(fā)揮了重要的作用。經(jīng)過(guò)幾十年的 發(fā)展,數(shù)據(jù)挖掘已經(jīng)從原來(lái)只能處理簡(jiǎn)單的文本數(shù)
6、據(jù),發(fā)展到為可以處理結(jié)構(gòu)復(fù)雜的多媒體數(shù)據(jù)。多媒體數(shù)據(jù)是 一種特殊的多模態(tài)數(shù)據(jù),多媒體數(shù)據(jù)挖掘中的許多方法都利用到了目前挖掘多模態(tài)數(shù)據(jù)的核心思想。本文從數(shù)據(jù) 挖掘的角度來(lái)分析多模態(tài)數(shù)據(jù),對(duì)目前適用的幾種多模態(tài)數(shù)據(jù)挖掘技術(shù)進(jìn)行了簡(jiǎn)要介紹。關(guān)鍵詞:多模態(tài);數(shù)據(jù)挖掘中圖法分類(lèi)號(hào):TP301文獻(xiàn)標(biāo)識(shí)碼:A1引言近幾十年來(lái),計(jì)算機(jī)運(yùn)算存儲(chǔ)能力不斷提高,數(shù)據(jù)產(chǎn)生和采集的速度也越來(lái)越快,因而數(shù)據(jù)量越來(lái)越大; 而與此同時(shí),人們面對(duì)巨量數(shù)據(jù),能夠直接獲得的信息量卻越來(lái)越有限。單純的人力已經(jīng)很難勝任對(duì)這樣巨?作者簡(jiǎn)介:焦雋(1986),男,湖南長(zhǎng)沙人,碩士研究生,主要研究領(lǐng)域?yàn)閿?shù)據(jù)挖掘,機(jī)器學(xué)習(xí);量的數(shù)據(jù)進(jìn)行分析并
7、提取岀相關(guān)信息的任務(wù)。為了解決這種數(shù)據(jù)與信息之間的矛盾,數(shù)據(jù)挖掘應(yīng)運(yùn)而生。所 謂數(shù)據(jù)挖掘,即從巨量數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過(guò)程2。數(shù)據(jù)挖掘的目的就在于找岀巨量數(shù)據(jù)中的潛在規(guī)律,以對(duì)未來(lái)的分析和決策提供支持,其在分析處理中的優(yōu)勢(shì) 以及結(jié)論的正確性、有效性已經(jīng)被越來(lái)越多的實(shí)踐所證明。數(shù)據(jù)挖掘可以處理各種各樣形式的數(shù)據(jù),包括關(guān) 系數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、事務(wù)數(shù)據(jù)庫(kù)中的數(shù)據(jù),面向?qū)ο髷?shù)據(jù)庫(kù)、對(duì)象關(guān)系數(shù)據(jù)庫(kù)以及空間數(shù)據(jù)庫(kù)、時(shí)序數(shù)據(jù) 庫(kù)、文本數(shù)據(jù)庫(kù)和多媒體數(shù)據(jù)庫(kù)等面向應(yīng)用的專(zhuān)用數(shù)據(jù)庫(kù)中的數(shù)據(jù),以及普通文本,互聯(lián)網(wǎng)中的數(shù)據(jù)在內(nèi)的 各種數(shù)據(jù)都可以作為數(shù)據(jù)挖掘的對(duì)象2。隨著多媒體
8、技術(shù)的廣泛應(yīng)用和數(shù)據(jù)收集技術(shù)的發(fā)展,計(jì)算機(jī)應(yīng)用 領(lǐng)域中岀現(xiàn)了大量的多模態(tài)數(shù)據(jù),數(shù)據(jù)挖掘中與之對(duì)應(yīng)的技術(shù)被稱為多模態(tài)數(shù)據(jù)挖掘。本文中將對(duì)多模態(tài)數(shù)據(jù)挖掘進(jìn)行簡(jiǎn)單的介紹。本文其他部分組織如下:第二部分簡(jiǎn)單介紹多模態(tài)數(shù)據(jù)挖 掘中的基本概念;第三部分介紹多模態(tài)數(shù)據(jù)挖掘中的兩個(gè)主要應(yīng)用領(lǐng)域;第四部分對(duì)于多模態(tài)數(shù)據(jù)挖掘中的 兩個(gè)問(wèn)題進(jìn)行了簡(jiǎn)要討論;第五部分總結(jié)。2多模態(tài)數(shù)據(jù)挖掘的概述2.1什么是多模態(tài)數(shù)據(jù)多模態(tài)數(shù)據(jù)是指對(duì)于一個(gè)待描述事物,通過(guò)不同的方法或角度收集到的數(shù)據(jù)。我們把收集這些數(shù)據(jù)的每 一個(gè)方法或視角稱之為一個(gè)模態(tài)(Modality )。例如,在多模態(tài)的人臉識(shí)別中,多模態(tài)數(shù)據(jù)有可能由人臉的2D圖像和
9、3D形狀模型這兩個(gè)模態(tài)構(gòu)成;在多模態(tài)的視頻挖掘中,視頻可以被分解為字幕、音頻和圖像等模態(tài);網(wǎng)頁(yè)中的文字和圖片也可本看作不同的 模態(tài),它們從不同的角度描述了網(wǎng)頁(yè)所要表達(dá)的信息。在多模態(tài)數(shù)據(jù)中,每個(gè)模態(tài)均為其余的模態(tài)提供了一定的信息,既模態(tài)之間存在這一定的關(guān)聯(lián)性。多模 態(tài)數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)挖掘的區(qū)別在于前者在進(jìn)行挖掘工作時(shí)將綜合利用到多個(gè)模態(tài)之間的信息,挖掘它們 之間的潛在聯(lián)系。2.2為什么要挖掘多模態(tài)數(shù)據(jù)隨著計(jì)算機(jī)科技的飛速發(fā)展,在各種計(jì)算機(jī)應(yīng)用領(lǐng)域遇到的多模態(tài)數(shù)據(jù)也逐漸增多,這主要有兩方面的原因:(1) 伴隨著多媒體技術(shù)廣泛使用,人們的日常生活中出現(xiàn)了大量的多媒體數(shù)據(jù)。,如果將每個(gè)媒體源均可被
10、視為一個(gè)模態(tài),則多媒體數(shù)據(jù)正是一種特殊的多模態(tài)數(shù)據(jù)。(2) 在數(shù)據(jù)收集領(lǐng)域的發(fā)展使得人們可以通過(guò)更加復(fù)雜多樣的手段對(duì)事物進(jìn)行描述。比如在人臉識(shí)別中,3D掃描技術(shù)的發(fā)展為傳統(tǒng)的人臉數(shù)據(jù)中加入了3D模型結(jié)構(gòu)這一新的模態(tài)信息?;谝陨蟽牲c(diǎn),多模態(tài)數(shù)據(jù)的大量應(yīng)用是一種必然的趨勢(shì)。因此如何能夠有效的對(duì)多模態(tài)數(shù)據(jù)進(jìn)行挖掘 是計(jì)算機(jī)應(yīng)用技術(shù)中的一個(gè)十分值得研究的問(wèn)題。2.3多模態(tài)數(shù)據(jù)挖掘中的關(guān)鍵問(wèn)題目前對(duì)于多模態(tài)數(shù)據(jù)的挖掘中存在著兩大關(guān)鍵問(wèn)題:(1) 如何有效挖掘與描述不同模態(tài)信息之間的關(guān)聯(lián)性。多模態(tài)數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)最大區(qū)別就在于引入了多個(gè)模態(tài)之間的關(guān)聯(lián)性,因此對(duì)于這種關(guān)聯(lián)性的挖掘是傳統(tǒng)數(shù)據(jù)挖掘中所沒(méi)有考慮到
11、的一個(gè)重要問(wèn)題。(2) 如M可將基于不同模態(tài)的挖掘結(jié)果進(jìn)行整合。即使數(shù)據(jù)挖掘系統(tǒng)能在每個(gè)模態(tài)中都獲得很好的性能, 如何有效地將這些挖掘結(jié)果進(jìn)行合并仍然是一個(gè)十分復(fù)雜的問(wèn)題。3多模態(tài)數(shù)據(jù)挖掘的應(yīng)用本節(jié)主要介紹目前多模態(tài)數(shù)據(jù)挖掘應(yīng)用比較廣泛的兩個(gè)領(lǐng)域:多模態(tài)視頻挖掘,多模態(tài)Web挖掘。通過(guò)對(duì)這個(gè)領(lǐng)域中核心挖掘技術(shù)的介紹,讀者將了解到多模態(tài)數(shù)據(jù)挖掘中的主要思想。由于本文的主要內(nèi)容是對(duì)于數(shù)據(jù)中多模態(tài)信息的整合與運(yùn)用,而并非對(duì)于單個(gè)模態(tài)信息的處理,所以本 節(jié)中將跳過(guò)對(duì)于基本的文本、圖片和視頻處理技術(shù)的介紹,并假設(shè)讀者對(duì)這些內(nèi)容已有初步的了解。3.1多模態(tài)視頻挖掘傳統(tǒng)的視頻挖掘技術(shù)通常僅使用視頻數(shù)據(jù)中的視
12、覺(jué)信息進(jìn)行挖掘。由于視覺(jué)特征無(wú)法十分有效的表達(dá)語(yǔ) 意信息,因此這種方法受到了很大的局限性。視頻作為一種多媒體數(shù)據(jù),其本身含有豐富的多模態(tài)信息,可 以用來(lái)自不同媒體源的特征進(jìn)行表示。傳統(tǒng)的多模態(tài)視頻挖掘技術(shù)首先提取視頻中的視覺(jué)、音頻和字幕等特征,然后利用這些多模態(tài)信息之間的相關(guān)性與互補(bǔ)性對(duì)視頻數(shù)據(jù)進(jìn)行比傳統(tǒng)單一模態(tài)技術(shù)更為有效的挖掘。用d!, d2.dm表示從m個(gè)媒體源提取的特征。基于對(duì)這些特征使用方法的不同,多模態(tài)視頻挖掘主要可以分為聯(lián)合分布和多模態(tài)融合兩類(lèi)。3.1.1 聯(lián)合分布(Joint distribution)基于聯(lián)合分布的視頻挖掘技術(shù)將從不同媒體源提取的特征信息d!,d2.dm組合成
13、新的特征:(d!,d2.dm),然后在新的特征空間上進(jìn)行對(duì)視頻的挖掘。 參數(shù)模型(Parametric Model )參數(shù)模型是對(duì)新特征空間上的概率密度進(jìn)行估計(jì)的一種方法。該方法先用若干參數(shù)刻畫(huà)岀一個(gè)模型,然 后假設(shè)音頻和視頻的聯(lián)合分布滿足給定的參數(shù)模型,并從已標(biāo)記樣例中估計(jì)岀這些參數(shù)。4中將視覺(jué)和音頻信息從視頻中提取出來(lái),利用參數(shù)模型的方法對(duì)音頻信號(hào)在視頻畫(huà)面中對(duì)應(yīng)的發(fā)生區(qū)域進(jìn)行了挖掘。 特征空間轉(zhuǎn)換與非參數(shù)模型5中指出4中基于參數(shù)模型的方法有表達(dá)能力太若,因此無(wú)法準(zhǔn)確刻畫(huà)出音頻和視頻信息之間的聯(lián)合分布,并且提出了一種不基于參數(shù)(nonparametric sta
14、tistics )的新方法。該方法首先將音頻和視頻的聯(lián)合特征向量映射到一個(gè)低維子空間。設(shè)Vi V ? Nv和ai別為Nv維的視頻特征和 Na維的音頻特征在時(shí)間i的采樣。fv: ? Nv a ? Mv和fa :? Na a 空間向低維空間的映射函數(shù),控制fv和fa的參數(shù)分別為:a和aa。 a和aa的值滿足:A ? Na 分Ma為高維 a'v, a'a = argmaxI(fv(V, a), fa(A, oa)其中l(wèi)(a,b)表示a和b之間的共有信息(mutual information )。在映射完成之后,通過(guò)在低維空間上對(duì)于 聯(lián)合概率密度的估計(jì)來(lái)完成各種挖掘任務(wù)。由于最大化共有
15、信息的降維方法有效的減少了聯(lián)合概率分布的復(fù) 雜性,因此在低維空間上可以獲得比原來(lái)高維空間中更為準(zhǔn)確有效的密度估計(jì)?;诼?lián)合分布的挖掘技術(shù)的主要缺陷在于多個(gè)模態(tài)信息的聯(lián)合特征一般都具有很高的維數(shù)(curse ofdimensionality),因此無(wú)法有效的完成從高維的向量空間向語(yǔ)意空間的映射,而且在處理速度方面也受到制約8。3.1.2 多模態(tài)融合(Multimodal Fusion )隨著多模態(tài)視頻挖掘技術(shù)的發(fā)展,隨之岀現(xiàn)的多模態(tài)融合技術(shù)有效的解決了聯(lián)合分布技術(shù)中向量的高維 度問(wèn)題。多模態(tài)融合的方法對(duì)于從不同媒體源提取的信息d1, d2.dm分別建立相應(yīng)的模型,然后把各個(gè)模型在自身模態(tài)上的輸岀
16、結(jié)果按一定方式進(jìn)行融合,得到系統(tǒng)最后的輸岀結(jié)果。具體融合參數(shù)的確定一般通過(guò)在訓(xùn)練 數(shù)據(jù)上的學(xué)習(xí)來(lái)完成。多模態(tài)融合技術(shù)幾乎總是能提高視頻挖掘的性能3。按照融合方式的不同,多模態(tài)融合主要可以分為:乘積組合(Product Combination ),線性融合(LinearFusion),非線性融合(Non-linear fusion )。3.121乘積組合posterior如果假設(shè)各個(gè)模態(tài)之間的信息是獨(dú)立的,并且我們可以準(zhǔn)確的估計(jì)岀每個(gè)模態(tài)的后驗(yàn)概率(probability ) P(di | h),用D表示待挖掘的多模態(tài)數(shù)據(jù)。那么由貝葉斯理論可得:mP(h)nP(di |h)P(D |h)=i=1
17、然而在現(xiàn)實(shí)的多模態(tài)數(shù)據(jù)中,模態(tài)之間的獨(dú)立性假設(shè)一般都無(wú)法滿足,并且我們無(wú)法較為準(zhǔn)確的估計(jì)岀 每個(gè)模態(tài)的后驗(yàn)概率,同時(shí)由于計(jì)算過(guò)程中乘法運(yùn)算對(duì)于噪聲的敏感性,所以該方法在很多場(chǎng)合均無(wú)法適用。 線性融合設(shè)每個(gè)模態(tài)對(duì)應(yīng)的分類(lèi)器輸岀結(jié)果為&,C2.Cn,則線性融合的輸岀結(jié)果為:C =W1 XC1 +W2 XC2 + W, xCnW+她+.wn =1W1,W2- .Wn為每個(gè)模態(tài)在最后結(jié)果中所占的比重,如何確定這些參數(shù)是線形融合中的關(guān)鍵問(wèn)題。在1中,視頻中的視覺(jué)、音頻和文字信息分別被看作一個(gè)獨(dú)立的模態(tài)。對(duì)于每一個(gè)模態(tài)訓(xùn)練一個(gè)相應(yīng) 的分類(lèi)器,然后利用線形融合的方法將多個(gè)分類(lèi)器的分類(lèi)結(jié)
18、果進(jìn)行整合。各個(gè)分類(lèi)器在最后輸岀中所占的權(quán) 重通過(guò)用戶對(duì)于系統(tǒng)的使用經(jīng)驗(yàn)手動(dòng)給岀。由用戶手動(dòng)給岀整合權(quán)重的方法過(guò)分依賴于用戶對(duì)于系統(tǒng)的熟悉程度,并且無(wú)法隨著查詢和數(shù)據(jù)庫(kù)的改 變而進(jìn)行調(diào)整。9中將視頻劃分成音頻和視頻兩個(gè)模態(tài),利用機(jī)器學(xué)習(xí)的方法,通過(guò)在一組訓(xùn)練樣例上最 小化分類(lèi)誤差的方法來(lái)確定兩個(gè)模態(tài)在最后組合中所占的權(quán)重,一定程度上解決了上述融合系數(shù)的確定問(wèn)題。因?yàn)閷?duì)于加法對(duì)于噪聲的放大效果不如乘法,所以線性融合與乘積組合相比能更好的應(yīng)噪聲數(shù)據(jù)。但是由于線性融合采用的是一個(gè)線性模型,對(duì)于模態(tài)之間存在相關(guān)性的問(wèn)題仍然無(wú)法準(zhǔn)確描述。13用理論框架分析了線形融合進(jìn)行視頻檢索的平均精度,并且給岀了相應(yīng)
19、的界限。他們指岀為了更進(jìn)一步的提高檢索性 能,融合技術(shù)中應(yīng)該考慮到不同模態(tài)之間的相關(guān)性。 非線性融合(Non-linear Fusion)9為了挖掘模態(tài)之間的相關(guān)性,進(jìn)一步提高融合技術(shù)的描述能力,11中提岀了一種新的非線性融合的方法。在此方法中,多模態(tài)融合被分解為兩個(gè)步驟:(1)建立多個(gè)互相獨(dú)立的模態(tài)。(2)利用super-kernel技術(shù)對(duì)這些模態(tài)進(jìn)行融合。如圖1所示。在第一個(gè)步驟中,輸入的數(shù)據(jù)為一個(gè)m Xn的矩陣X。其中n為訓(xùn)練樣例的個(gè)數(shù),每個(gè)樣例的特征為從m個(gè)媒體源獲得的信息。建立多個(gè)互相獨(dú)立的模態(tài)MM2.MD的過(guò)程分為以下三小步:1. 用 PCA ( principal
20、component analysis )去除 X 中的噪聲,并且降維。2. 用ICA (independent component analysis )獲得獨(dú)立特征成分的一個(gè)估計(jì)。3. 在前兩步的基礎(chǔ)上使用IMG (independent modality grouping )獲得互相獨(dú)立的模態(tài) M M 2M D第二步驟中使用super-kernel技術(shù)對(duì)MM?M D進(jìn)行融合,可以獲得比乘積組合和線性融合更強(qiáng)的描述能力。3.2多模態(tài)Web挖掘由于多媒體技術(shù)的廣泛應(yīng)用,網(wǎng)頁(yè)中普遍包含了豐富的圖片、音頻和視頻等多種模態(tài)信息。與文字信息 相比,這部分信息對(duì)于表示網(wǎng)頁(yè)的內(nèi)容同樣起到了重要的作用。多模態(tài)
21、Web挖掘研究的就是如何利用網(wǎng)頁(yè)中的多種模態(tài)信息來(lái)更好的完成挖掘任務(wù)。3.2.1 基于We的多模態(tài)圖像挖掘傳統(tǒng)的圖像挖掘技術(shù)主要利用圖像的視覺(jué)信息?;赪eb的多模態(tài)圖像挖掘在利用圖像視覺(jué)特征的基礎(chǔ)上,通過(guò)獲取 Web中與圖像相關(guān)的其他模態(tài)信息來(lái)幫助進(jìn)行圖像的挖掘。目前主要的Web圖像挖掘技術(shù)都著眼于拓展網(wǎng)頁(yè)中的文本信息與圖片之間的關(guān)系。為了描述網(wǎng)頁(yè)中文字和圖像之間的相關(guān)性,目前基于Web的多模態(tài)圖像挖掘技術(shù)主要采用了語(yǔ)義網(wǎng),圖像標(biāo)記和多模態(tài)相似度傳播的方法。 語(yǔ)義網(wǎng)語(yǔ)義網(wǎng)(semantic network)所描述的是單詞和圖片之間的相關(guān)性,其結(jié)構(gòu)如圖2所示。上排結(jié)點(diǎn)代表圖片,下
22、排結(jié)點(diǎn)表示表示單詞。聯(lián)結(jié)單詞和圖片的邊表示單詞和圖片之間的關(guān)系,邊上的權(quán)重 wij表示單詞i和圖片j之間的關(guān)聯(lián)度。對(duì)于給定的檢索任務(wù),如果我們能夠構(gòu)造岀相應(yīng)的語(yǔ)義網(wǎng),則可以利用文本信息幫助進(jìn)行 檢索。早期的Web多模態(tài)圖像檢索系統(tǒng)ifind6實(shí)現(xiàn)了一種同時(shí)利用文本與圖像視覺(jué)信息的相關(guān)反饋算法。在該系統(tǒng)中,文字和圖像通過(guò)語(yǔ)義網(wǎng)的方式進(jìn)行關(guān)聯(lián)。在構(gòu)建語(yǔ)義網(wǎng)時(shí),將每張圖片的文件名、ALT標(biāo)簽和所 在網(wǎng)頁(yè)的標(biāo)題中岀現(xiàn)的單詞和該圖片關(guān)聯(lián)起來(lái),初始權(quán)值為1。在用戶提交檢索詞后,根據(jù)檢索詞與圖片在 語(yǔ)義網(wǎng)中的關(guān)聯(lián)度計(jì)算初始檢索結(jié)果。然后用戶可以對(duì)搜索結(jié)果前端的網(wǎng)頁(yè)進(jìn)行標(biāo)記,搜索引擎在獲得用戶 標(biāo)記的正例與反
23、例后利用這些信息對(duì)語(yǔ)義網(wǎng)中的權(quán)值進(jìn)行簡(jiǎn)單的調(diào)整,并根據(jù)標(biāo)記圖像的視覺(jué)特征訓(xùn)練分類(lèi) 器。最后搜索引擎將語(yǔ)義網(wǎng)中的相關(guān)度和視覺(jué)分類(lèi)器的結(jié)果相結(jié)合,得到精化后的查詢結(jié)果。321.2圖像標(biāo)記圖片標(biāo)記是指用一些單詞對(duì)一個(gè)給定的圖片進(jìn)行標(biāo)記,使得這個(gè)標(biāo)記可以有效的反映岀圖片中的語(yǔ)義信 息。網(wǎng)頁(yè)中與圖片周?chē)奈淖中畔⑼ǔEc圖片具有語(yǔ)義上的相關(guān)性,圖像標(biāo)記的檢索方法主要思想就是利用 這些文字信息加強(qiáng)對(duì)于圖片語(yǔ)義信息的描述。目前對(duì)圖像標(biāo)記所使用到的主要文字信息有:(1)圖片周?chē)奈谋荆?)圖片文件名中的文本,(3)圖片所在網(wǎng)頁(yè)的標(biāo)題,(4)圖片ALT標(biāo)簽中的文本,(5)圖片所指向的鏈接中 的文本Crotina
24、系統(tǒng)7使得用戶可以通過(guò)關(guān)鍵詞進(jìn)行初始的語(yǔ)義檢索,在之后的相關(guān)反饋中系統(tǒng)通過(guò)標(biāo)記圖像的視覺(jué)信息進(jìn)行精化。在Crotina中,每張圖片均用其在網(wǎng)頁(yè)上周?chē)奈淖诌M(jìn)行標(biāo)注。用戶輸入檢索詞后,將檢索詞直接與每張圖片的標(biāo)注進(jìn)行匹配,獲得初始的基于語(yǔ)義的檢索結(jié)果。與ifind相同,系統(tǒng)獲得用戶的相關(guān)反饋后會(huì)利用圖像視覺(jué)信息更進(jìn)一步的檢索。 多模態(tài)相似度傳播(multi-modal similarity propogation )語(yǔ)義網(wǎng)和圖像標(biāo)記著重描述的都是文本與圖像之間的相似度,這在用戶輸入的檢索請(qǐng)求是用以描述圖像 語(yǔ)義信息的關(guān)鍵字時(shí)能起到一定效果。而當(dāng)用戶輸入的檢索請(qǐng)求是具體的圖片時(shí),上述
25、兩種方法均不適用。10提岀的多模態(tài)相似度傳播算法并不直接計(jì)算文本與圖像之間的相似度,而是將網(wǎng)頁(yè)中的圖片和圖 片周?chē)淖址蛛x成兩類(lèi)事物,通過(guò)兩者之間的關(guān)聯(lián)矩陣將同一事物中的相似度傳播到另一類(lèi)事物中,得到更 為精確的圖片之間的相似度。如圖3所示:圖中上排結(jié)點(diǎn)T和下排結(jié)點(diǎn)S為對(duì)應(yīng)的兩類(lèi)事物,實(shí)線表示同類(lèi)事物之間的相似度,虛線表示兩類(lèi)事物 之間的某種關(guān)聯(lián)。多模態(tài)相似度傳播的的方法利用不同事物間的這種關(guān)聯(lián),可以將一類(lèi)事物的相似度傳播到 另一類(lèi)事物中去(如圖中的t2,t3,t4和s3,s4,s5),并且可以計(jì)算出一類(lèi)事物中原來(lái)并未直接給出的相似度(如圖中的t1,t2和s4,s5)。在多模態(tài)相似度傳播中,網(wǎng)
26、頁(yè)被分割成小塊,在同一塊中的文本和圖片被視為具有關(guān)聯(lián)。文字和圖像的 相似度矩陣按下式進(jìn)行迭代,并證明了迭代的收斂性:ocK+(1- a 億GZ人BG + (1- B)AZ'GZ其中K,G分別為文本塊與圖像的相似度矩陣。其中a, B和入為控制收斂速率的系數(shù)。 Z為圖像和文#字之間的關(guān)聯(lián)矩陣,其定義如下:Z'J圖片i屬于塊j圖片i不屬于塊j#322多模態(tài)網(wǎng)頁(yè)挖掘網(wǎng)頁(yè)是一個(gè)豐富的多媒體環(huán)境,如何利用網(wǎng)頁(yè)中的這些不同媒體源所產(chǎn)生的信息是多模態(tài)網(wǎng)頁(yè)挖掘研究 的主要問(wèn)題。目前的多模態(tài)網(wǎng)頁(yè)挖掘技術(shù)主要嘗試共同使用網(wǎng)頁(yè)中的圖片和文字信息提高網(wǎng)頁(yè)的檢索精度。WebSIS系統(tǒng)12 在文本摘錄的基礎(chǔ)
27、上提出了圖片摘錄的概念,并設(shè)計(jì)了一種從網(wǎng)頁(yè)中挖掘相應(yīng)圖片的 方法。在搜索結(jié)果的表示中,WebSIS將文字摘錄和圖像摘錄一起顯示給用戶。一個(gè)網(wǎng)頁(yè)的圖像摘錄是該網(wǎng)頁(yè)中包含的一張圖片,它既可以反映網(wǎng)頁(yè)的主題,同時(shí)又和用戶輸入的查詢密切相關(guān)。如圖4所示:Giznwdo. rhe gadget eiude So iULich in Icvc witlsToy?, i頂 uniiaTiirAlas7 rEoiwn't遲Cn禮 iE iPod "界“徨:#11Gel del ailed itkioiiki<i tio3 i rImmH Hie Boxwave AcriveCase 伽
28、 iFnd nnnm Resciirchi 刖 product before you buy圖4圖像摘錄主要帶來(lái)了以下幾點(diǎn)優(yōu)勢(shì):由于人類(lèi)對(duì)于圖片的觀察和理解速度要快于文字,圖像摘錄可以幫 助用戶更加快速地判斷和找到自己喜歡的網(wǎng)頁(yè);通過(guò)圖像摘錄用戶將更準(zhǔn)確的對(duì)搜索結(jié)果進(jìn)行標(biāo)記,從而提 高相關(guān)反饋的性能,獲得更加精確的檢索結(jié)果。14 中提出的WebSEIC框架通過(guò)對(duì)網(wǎng)頁(yè)中圖片信息的挖掘來(lái)提高檢索結(jié)果的準(zhǔn)確率。WebSEIC的基本思想為,如果一個(gè)網(wǎng)頁(yè)同時(shí)在多個(gè)模態(tài)中都被判斷為與查詢相關(guān),那么這個(gè)網(wǎng)頁(yè)將比另一個(gè)僅僅在文字上被 判斷為相關(guān)的網(wǎng)頁(yè)具有更大的可能與查詢相關(guān)。該方法通過(guò)對(duì)傳統(tǒng)網(wǎng)頁(yè)檢索結(jié)果前端網(wǎng)
29、頁(yè)中岀現(xiàn)的圖片進(jìn)行 篩選,獲得與用戶查詢請(qǐng)求語(yǔ)義相關(guān)的圖像視覺(jué)特征,然后利用這個(gè)視覺(jué)特征對(duì)原來(lái)的檢索結(jié)果進(jìn)行精化。4討論4.1融合技術(shù)與多模態(tài)數(shù)據(jù)挖掘融合模型的學(xué)習(xí)(fusion leanring )是一個(gè)離線(off-line )的過(guò)程,融合模型使用的參數(shù)與配置均可以利 用訓(xùn)練樣例提前計(jì)算,因此融合技術(shù)的實(shí)時(shí)計(jì)算開(kāi)銷(xiāo)并不顯著,可以作為提升多模態(tài)檢索實(shí)時(shí)性能的一個(gè)有 效方法。在使用融合技術(shù)的時(shí)需要特別注意的一點(diǎn)是,要保證在融合模型的學(xué)習(xí)過(guò)程中學(xué)習(xí)器不與訓(xùn)練數(shù)據(jù) 產(chǎn)生過(guò)配;通常情況下,這可以通過(guò)使用諸如bagging的data resampling技術(shù)實(shí)現(xiàn)。雖然在視頻挖掘中,多模態(tài)融合已經(jīng)成為一
30、個(gè)應(yīng)用十分普遍的方法,然而在有關(guān)圖像挖掘的研究中,多 模態(tài)融合仍然是一項(xiàng)比較新穎的技術(shù),在最近幾年有關(guān)圖像檢索和標(biāo)記的工作中,很少能看到多模態(tài)融合技 術(shù)的應(yīng)用。通過(guò)引入多模態(tài)融合技術(shù),我們可以通過(guò)與其他模態(tài)相結(jié)合的方法拓展岀新的用戶界面、查詢模 式和檢索結(jié)果表示。因此我覺(jué)得如何將此技術(shù)應(yīng)用到圖像挖掘中將成為將來(lái)一個(gè)重要的研究方向。4.2多模態(tài)網(wǎng)頁(yè)檢索網(wǎng)頁(yè)是一個(gè)多媒體環(huán)境,多種模態(tài)信息共同構(gòu)成網(wǎng)頁(yè)的上下文,因此,如果能夠有效地利用文本以外的 其它信息,將有助于更好地表達(dá)網(wǎng)頁(yè)的內(nèi)容。網(wǎng)頁(yè)中多種模態(tài)之間的關(guān)聯(lián)性和互補(bǔ)性已引起了廣泛關(guān)注。目前的多 模態(tài)Web挖掘方法都是通過(guò)用戶的相關(guān)反饋和歷史檢索記錄
31、獲得少量的訓(xùn)練集然后采取監(jiān)督學(xué)習(xí)的技術(shù)。除開(kāi)上述標(biāo)記的訓(xùn)練數(shù)據(jù),網(wǎng)絡(luò)中同時(shí)還含有豐富的未標(biāo)記數(shù)據(jù),因此可以通過(guò)半監(jiān)督學(xué)習(xí)的方法從未標(biāo)記數(shù) 據(jù)中獲取信息。雖然半監(jiān)督學(xué)習(xí)技術(shù)在文本和圖像挖掘中已經(jīng)得到了大量的使用,但是在關(guān)于多模態(tài)Web挖掘的研究中卻很少被使用。如果將網(wǎng)頁(yè)中不同的模態(tài)信息看成用以描述網(wǎng)頁(yè)的不同視圖(View),在每個(gè)視圖中訓(xùn)練一個(gè)分類(lèi)器,那么類(lèi)似于Co-training的半監(jiān)督學(xué)習(xí)技術(shù)將可以得到使用。5 總結(jié)隨著多媒體技術(shù)的廣泛應(yīng)用和數(shù)據(jù)收集技術(shù)的發(fā)展,計(jì)算機(jī)應(yīng)用領(lǐng)域中岀現(xiàn)了大量的多模態(tài)數(shù)據(jù),這對(duì) 傳統(tǒng)的數(shù)據(jù)分析技術(shù)提岀了巨大的挑戰(zhàn)。數(shù)據(jù)挖掘作為一種幫助人們從大量數(shù)據(jù)中發(fā)現(xiàn)有用的知
32、識(shí)的工具, 經(jīng)過(guò)不斷地發(fā)展,已經(jīng)能夠處理像多模態(tài)數(shù)據(jù)這種復(fù)雜的數(shù)據(jù)。因而,使用數(shù)據(jù)挖掘技術(shù)處理多模態(tài)數(shù)據(jù)是 當(dāng)前的一個(gè)熱點(diǎn)問(wèn)題。多模態(tài)數(shù)據(jù)挖掘分析不同模態(tài)之間的關(guān)聯(lián)信息,將多個(gè)模態(tài)的挖掘結(jié)果進(jìn)行整合得到 最后的挖掘結(jié)果。本文簡(jiǎn)要闡述了多模態(tài)數(shù)據(jù)挖掘的基本概念,并通過(guò)對(duì)多模態(tài)視頻與We挖掘中的主要應(yīng)用的說(shuō)明介紹了目前多模態(tài)數(shù)據(jù)挖掘技術(shù)的基本方法和主要思想。References :1 Amir A, Iyengar H W G, Lin C Y, Naphade M, Natsev A, Neti C, Nock H J, Smith J R, Tseng B L, Wu Y,Zhang D. I
33、BMresearch TRECVID-2003 system. NIST Text Retrieval Conf. (TREC) , 2003.2 Han J W, Kamber M. DATA MINING: Concepts and Techniques . Morgan Kaufmann Publishers,2000.3 Hauptmann A G, Christel M G. Successful approaches in the trec video retrieval evaluations. In Proc. ACM Multimedia , 2004.4 Hershey J
34、, Movellan J. Using audio-visual synchrony to locate sounds. Advances in Neural Information Processing Systems 12 MIT Press , Cambridge MA, 2001.5 III J F, Darrell T, Freeman W, Viola P. Learning joint statistical models for audio-visual fusion and segregation.Advances inNeural Information Processing Systems 13 . MIT Press, Cambridge MA, 2000.6 Lu 丫 et al. A Unified Framework for Semantics and Feature Based Relevance Feedback in Image Retrieval Systems . In Proc. ACM MM , 2000.7
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年網(wǎng)帶銅管退火爐行業(yè)深度研究分析報(bào)告
- 二零二四年度人防設(shè)備智能監(jiān)控供應(yīng)與安裝合同3篇
- 二零二四年度企業(yè)借款擔(dān)保抵押合同范本3篇
- 二零二四年內(nèi)部股東股權(quán)買(mǎi)賣(mài)與公司核心競(jìng)爭(zhēng)力優(yōu)化合同3篇
- 二零二四年度農(nóng)產(chǎn)品電商平臺(tái)銷(xiāo)售代理合同6篇
- 二零二四年度公積金提取與購(gòu)房補(bǔ)貼結(jié)合貸款合同3篇
- 二零二四年度企業(yè)內(nèi)部培訓(xùn)系統(tǒng)搭建合同
- 二零二四年度南通商品房買(mǎi)賣(mài)合同與售后服務(wù)協(xié)議2篇
- 二零二四年度企業(yè)汽車(chē)租賃維修保養(yǎng)合同范本3篇
- 二零二四年度信息技術(shù)服務(wù)與技術(shù)支持合同3篇
- 2023年版《安寧療護(hù)實(shí)踐指南(試行)》解讀課件
- AQ6111-2023個(gè)體防護(hù)裝備安全管理規(guī)范
- 中國(guó)血管通路專(zhuān)家共識(shí)解讀
- 開(kāi)學(xué)前幼兒園安全培訓(xùn)
- 《裝配式蒸壓加氣混凝土外墻板保溫系統(tǒng)構(gòu)造》中
- 中國(guó)紅十字會(huì)救護(hù)員培訓(xùn)理論考試試題及答案
- 《建設(shè)工程監(jiān)理》課件
- 2019版新人教版高中英語(yǔ)必修+選擇性必修共7冊(cè)詞匯表匯總(帶音標(biāo))
- 中層領(lǐng)導(dǎo)的高績(jī)效管理
- 小小銀行家-兒童銀行知識(shí)、理財(cái)知識(shí)培訓(xùn)
- 閱讀理解特訓(xùn)卷-英語(yǔ)四年級(jí)上冊(cè)譯林版三起含答案
評(píng)論
0/150
提交評(píng)論