下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、一種基于隱條件隨機(jī)場的相關(guān)反應(yīng)視頻檢索方法摘要:相關(guān)反應(yīng)作為跨越語義鴻溝的有效手段,已經(jīng)被廣泛應(yīng)用于基于內(nèi)容的圖像檢索中,本文那么將相關(guān)反應(yīng)用于基于內(nèi)容的視頻檢索中。體育比賽視頻、新聞視頻等特定領(lǐng)域的視頻結(jié)構(gòu)簡單,研究者眾,本文那么以更一般的電影視頻為研究對象,首次以情節(jié)為切入點(diǎn),提出基于隱條件隨機(jī)場HCRF的相關(guān)反應(yīng)算法,檢索出用戶感興趣的各類視頻片斷。實(shí)驗(yàn)結(jié)果顯示本算法檢索性能良好。論文關(guān)鍵詞:基于內(nèi)容的視頻檢索,相關(guān)反應(yīng),隱條件隨機(jī)場視覺信息檢索包括圖像檢索和視頻檢索,其中圖像檢索更為根底、簡單,研究成果也較多,視頻檢索的研究成果那么較少。其實(shí),人們對視頻檢索的興趣更為濃厚,并且已經(jīng)作了
2、一些有益的工作。隨著生活中數(shù)字視頻的迅速增加,人們常常需要從海量數(shù)據(jù)中尋找自己感興趣的內(nèi)容,但是這方面的工作多集中在結(jié)構(gòu)簡單的視頻節(jié)目中,對更一般的視頻節(jié)目如電影而言,檢索那么比擬困難,原因是一般的視頻節(jié)目中數(shù)據(jù)之間關(guān)系復(fù)雜,數(shù)據(jù)組織非結(jié)構(gòu)化。在視頻檢索領(lǐng)域,前人已經(jīng)做了一些有益的工作,如鏡頭檢測、鏡頭聚類、關(guān)鍵幀提取和視頻數(shù)據(jù)庫管理等。我們的工作在前人的根底上,結(jié)合影視學(xué)的相關(guān)理論,提出基于隱條件隨機(jī)場的相關(guān)反應(yīng)方法。利用視頻段內(nèi)、視頻段間對象之間時(shí)間、空間的關(guān)系建立隱條件隨機(jī)場的模型。2 蒙太奇思維蒙太奇montage源自法語安裝、組合、構(gòu)成;,原是建筑學(xué)術(shù)語,指將各種不同的建筑材料根據(jù)某
3、種設(shè)計(jì)思路,安裝、組合并構(gòu)成有機(jī)整體的建筑,產(chǎn)生出新的功能和效用。引申到影視藝術(shù)中蒙太奇就成為各種元素的組合和結(jié)構(gòu)。蒙太奇從技術(shù)環(huán)節(jié)上看,是影視后期制作中一道非常重要的工序鏡頭剪輯,它主要是指:鏡頭長度確實(shí)定、鏡頭之間的組接、畫面與聲音間的組合,即除去素材中多余局部,將素材以幀為單位精確地拼接在一起,再將畫面與聲音有機(jī)結(jié)合在一起,使素材最終成為一部完整的視聽作品。3、相關(guān)反應(yīng)將相關(guān)反應(yīng)relevance feedback引入檢索過程,可以提高檢索的精度。相關(guān)反應(yīng);最早出現(xiàn)于文本檢索中。因?yàn)橛脩籼峤坏牟樵兺荒芡耆磉_(dá)他們的檢索目的,只能大致描述檢索傾向,這樣一次檢索就得不到理想的檢索結(jié)果。而
4、且,只是一次檢索,用戶需要花費(fèi)在初始的查詢構(gòu)造上的時(shí)間并不少,相關(guān)反應(yīng)的出現(xiàn)就解決了這個(gè)問題,初次查詢的結(jié)果并不作為檢索的答案,而是一個(gè)中間結(jié)果,系統(tǒng)根據(jù)這個(gè)結(jié)果得到用戶的相關(guān)反應(yīng)修改查詢要求,進(jìn)行再一次的查詢。具體來講,首先用戶給出大致要求,系統(tǒng)進(jìn)行粗略的查詢,返回給用戶初次檢索的結(jié)果,用戶對初次檢索出的結(jié)果集合進(jìn)行判斷,符合用戶要求的標(biāo)注為正例、不符合用戶要求的標(biāo)注為負(fù)例也可以不標(biāo)注負(fù)例,然后系統(tǒng)根據(jù)用戶標(biāo)注結(jié)果進(jìn)行自我調(diào)整進(jìn)行新一輪查詢,如此反復(fù),直至用戶得到滿意的檢索結(jié)果或者系統(tǒng)的檢索精度到達(dá)了穩(wěn)定狀態(tài)為止。相關(guān)反應(yīng)是將用戶參與作為檢索的一個(gè)重要環(huán)節(jié)。31 查詢點(diǎn)移動(dòng)每一輪查詢,都使得
5、查詢點(diǎn)更接近理想查詢點(diǎn),檢索樣本中與正例相關(guān)的特征得到加強(qiáng)、與負(fù)例相關(guān)的特征得到減弱,通常用Rocchio公式來描述:其中, 第次查詢時(shí),查詢點(diǎn)的位置 第次查詢時(shí),查詢點(diǎn)的位置 特征向量 的基數(shù) , 加權(quán)系數(shù)32 查詢參數(shù)調(diào)整考察用戶正例反應(yīng)集合中特征向量的各個(gè)分量,如果反應(yīng)集合中的各個(gè)特征向量在向量空間某維上的分布越亂,那么認(rèn)為該分量與檢索的相關(guān)程度就越小,所以,就應(yīng)該減小該分量的權(quán)重,反之,那么應(yīng)增加該分量的權(quán)重。33 支持向量機(jī)用于相關(guān)反應(yīng)時(shí)的缺乏SVM在解決分類問題上取得很大成功。但是,現(xiàn)實(shí)很多任務(wù)面對的數(shù)據(jù)是需要多個(gè)標(biāo)注的序列數(shù)據(jù)、空間數(shù)據(jù)或者結(jié)構(gòu)化數(shù)據(jù),SVM在處理這些問題時(shí),對每
6、一個(gè)目標(biāo)獨(dú)立地進(jìn)行標(biāo)注,無視了大量有用的信息。而概率圖模型可以利用這些數(shù)據(jù)的結(jié)構(gòu)信息,表示出目標(biāo)之間的關(guān)系,大大提高標(biāo)注的精度。我們研究的對象是視頻數(shù)據(jù),這是時(shí)空信息豐富的結(jié)構(gòu)化數(shù)據(jù),所以,使用概率圖模型是一個(gè)更好的選擇。4、 基于隱條件隨機(jī)場的相關(guān)反應(yīng)算法基于隱條件隨機(jī)場的相關(guān)反應(yīng)模型可以方便地對用戶感興趣的多類視頻進(jìn)行檢索。算法如下:由用戶選出感興趣的幾段視頻,并按類別不同給予不同的標(biāo)注;由中得到的樣例集訓(xùn)練HCRF模型;利用訓(xùn)練好的HCRF模型將視頻庫中所有視頻段分類,并按概率從大到小排序,返回值最大的假設(shè)干視頻片段;由用戶標(biāo)注返回的這些視頻片斷是否與用戶的需求相關(guān);將此次迭代用戶標(biāo)注得
7、到的樣例集與之前的樣例集并為新的樣例集,即累積樣例集。返回步驟,重復(fù)上面的步驟直至用戶終止本次查詢。4、 1系統(tǒng)框架利用HCRF模型對視頻序列中的時(shí)空領(lǐng)域關(guān)系建模,使用在線學(xué)習(xí)的方式對相應(yīng)的參數(shù)進(jìn)行調(diào)整,實(shí)現(xiàn)對時(shí)空鄰域約束關(guān)系的權(quán)重調(diào)整。查詢視頻 檢索結(jié)果 是 最終結(jié)果否圖1 系統(tǒng)框架51 鏡頭檢測視頻內(nèi)容以情節(jié)和事件組織,包含特定時(shí)間和空間內(nèi)的故事或者特定視覺信息,所以,更應(yīng)該將視頻看作結(jié)構(gòu)信息豐富的文檔,而不是毫無結(jié)構(gòu)的幀序列。鏡頭是攝像機(jī)的一次起停操作,是視頻數(shù)據(jù)的根本單元,它代表一個(gè)場景中在時(shí)間上和空間上連續(xù)的動(dòng)作,任何一段視頻都由假設(shè)干鏡頭組成的。我們用象素比照擬方法來進(jìn)行鏡頭檢測,
8、這種方法非常簡單,計(jì)算量也很小。實(shí)驗(yàn)顯示,鏡頭檢測效果可以滿足下一步工作的需要。下面簡要介紹一下象素比照擬方法。對兩幀相鄰的幀圖像和,可以計(jì)算其對應(yīng)位置上兩個(gè)象素的灰度差:如果這兩幀圖像中灰度差大于某個(gè)閾值的象素超過一定數(shù)目,即可認(rèn)為發(fā)生了鏡頭轉(zhuǎn)換。2 多媒體特征抽取用戶感興趣的鏡頭通常由相似的場景組成,并且具有相似的場景轉(zhuǎn)換序列。因此,為了檢測這些鏡頭,我們需要抽取能區(qū)分這些場景的特征。這些特征包括圖像特征、音頻特征、運(yùn)動(dòng)特征和時(shí)間特征。在前人針比照賽視頻的檢索中,認(rèn)為圖像特征是最為重要的,音頻特征等只為檢索提供補(bǔ)充的線索,而我們認(rèn)為在影片中,音頻特征等也表達(dá)了大量信息,與圖像特征同等重要。
9、多媒體特征及其抽取方法描述如下。521 圖像特征圖像特征中我們考慮顏色分布和邊緣分布。1 顏色分布色彩是直接影響觀眾觀看心理的影視畫面構(gòu)成元素,影片通過對畫面色彩的設(shè)計(jì)和搭配形成影片特有基調(diào),到達(dá)襯托主題、表達(dá)情感的目的。在我們的框架中,每一個(gè)子鏡頭由3個(gè)關(guān)鍵幀表示:最開始的幀、中間的幀和最后的幀。每一個(gè)關(guān)鍵幀分為2x2的塊,然后每個(gè)關(guān)鍵幀的顏色由4個(gè)一維向量ri,gi,bi組成,其中ri、gi和bi分別代表塊i中紅色、綠色、藍(lán)色各占的百分比。2 邊緣分布邊緣分布的計(jì)算方法與顏色分布的計(jì)算方法類似。首先,利用邊緣檢測方法檢測出每一個(gè)關(guān)鍵幀的邊緣象素,然后,每個(gè)關(guān)鍵幀被分為2x2的塊,分別計(jì)算4個(gè)塊中的邊緣象素的百分比,這4個(gè)百分比的值被用來形成這個(gè)幀的邊緣分布。53 多媒體特征向量的構(gòu)建將前面介紹的特征從輸入的視頻中抽取出來,放在一起構(gòu)成每個(gè)鏡頭的多媒體特征向量。一旦構(gòu)建出每個(gè)鏡頭的特征向量,我們就可以將n個(gè)連續(xù)的鏡頭聯(lián)合起來構(gòu)成1個(gè)向量輸入HCRF模型。因?yàn)檫@個(gè)輸入向量整合了從n個(gè)連續(xù)鏡頭得到的與時(shí)間關(guān)聯(lián)的多媒體特征,所以我們可以充分利用HCRF來對多媒體特征間的相互關(guān)系和嵌入于場景轉(zhuǎn)換類型的上下文信息建模。3 結(jié)論本文針對一般視頻的檢索,提出了基于HCRF的相關(guān)反應(yīng)算法。該算法利用HCRF模型融合了視頻中
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度國際雇員勞動(dòng)權(quán)益保護(hù)合同
- 2025年度智能城市建設(shè)內(nèi)部股權(quán)轉(zhuǎn)讓協(xié)議范本
- 2025年度商業(yè)空間窗簾設(shè)計(jì)、安裝及后期維護(hù)合同4篇
- 2025年美團(tuán)電商平臺用戶隱私保護(hù)與數(shù)據(jù)安全協(xié)議
- 2025版小區(qū)房屋裝修智能家居系統(tǒng)安全評估與認(rèn)證合同2篇
- 2025年度新能源項(xiàng)目用地承包及轉(zhuǎn)讓合同協(xié)議書4篇
- 2025年度門窗行業(yè)環(huán)保檢測與認(rèn)證服務(wù)合同4篇
- 二零二五年度外教合同終止與清算協(xié)議合同
- 二零二五年度土地租賃合同(農(nóng)業(yè)開發(fā))4篇
- 二零二五年度錨具市場推廣合作合同4篇
- 鋪大棚膜合同模板
- 長亭送別完整版本
- 2024年英語高考全國各地完形填空試題及解析
- 智能養(yǎng)老院視頻監(jiān)控技術(shù)方案
- 你比我猜題庫課件
- 無人駕駛航空器安全操作理論復(fù)習(xí)測試附答案
- 建筑工地春節(jié)留守人員安全技術(shù)交底
- 默納克-NICE1000技術(shù)交流-V1.0
- 蝴蝶蘭的簡介
- 老年人心理健康量表(含評分)
- 《小兒靜脈輸液速度》課件
評論
0/150
提交評論