下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、第 卷 第 期 年 月計(jì) 算 機(jī) 科 學(xué) 用于圖像場景分類的空間視覺詞袋模型王宇新郭(大連理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院禾何昌欽馮振,賈棋大連)(大連理工大學(xué)軟件學(xué)院大連)摘 要 以傳統(tǒng)的詞袋模型為基礎(chǔ),根據(jù)同類場景圖像具有空間相似性的特點(diǎn),提出了一種用于圖像場景分類的空視覺詞袋模型。 首先將圖像進(jìn)行不同等級的空間劃分,針對對應(yīng)空間子區(qū)域進(jìn)行特征提取和 均值聚類,形成該區(qū) 的視覺關(guān)鍵詞,進(jìn)而構(gòu)建整個訓(xùn)練圖像集的空間視覺詞典。 進(jìn)行場景識別時,將所有空間子區(qū)域的視覺關(guān)鍵詞連接 一個全局特征向量進(jìn)行相似度計(jì)算。 最終的場景分類結(jié)果使用 濾波器和 兩種特征在支持向量機(jī) 上獲得。關(guān)鍵詞 場景分類,詞袋,
2、空間聚類,空間視覺詞典,支持向量機(jī)中圖法分類號文獻(xiàn)標(biāo)識碼 , (, ,)(, ,) , :“” ,人類視覺感知的一個顯著特點(diǎn)是能夠很快掌握一圖像所表達(dá)的含義。通過實(shí)驗(yàn)證明,僅僅 組快速的圖像流,觀察者也能識別出每一幅圖像的語 和一 些圖像中的對象及其屬 性。 這 種 通 過 快 速引言隨著數(shù)碼設(shè) 備的普及和信息存儲與傳 輸技術(shù)的快速發(fā) 展,圖像數(shù)據(jù)發(fā)生爆炸 性 增 長。 如何用計(jì)算機(jī)對大 量 且 不 斷 增加的圖像進(jìn)行分析和理解,成為一項(xiàng)越來越緊 迫 的 任 務(wù)。 因此基于內(nèi)容的檢索技術(shù)已成為國內(nèi)外研究的熱點(diǎn),并成為 世紀(jì)初必須攻克的關(guān)鍵技術(shù)之一。本文將重點(diǎn)關(guān)注圖像場景識別和分類問題。 傳統(tǒng)的
3、場景 分類方法通常使用色彩、紋理和形狀等圖像底層視覺特征直 接與監(jiān)督學(xué)習(xí)方法相結(jié)合進(jìn)行圖像場景分類;或 者 對 場 景 中的目標(biāo)進(jìn)行有效的分析,以完成場景的整體識別,具有代表 性的如王濤、胡事民和孫家廣院士提出的基于顏色空間特征 的圖像檢索方法;或者采用文本主題模型的方法將 圖 像 分 類到不同的語義類別中:將圖像的局部不變特征聚類為一組 視覺詞匯,并用詞袋()模型來表示,最后用 ()或 ()等主題分析模型找出圖像的潛在語義和 最可能屬于的主題,從而完成場景分類。)觀察圖像所獲得 的視覺和語義信息稱為 圖。 在拍攝照片時,攝影師總是盡可能把能反映圖或者語義的對象和特征顯示在圖像中心。 這一拍攝
4、習(xí) 大多數(shù)針對同類目標(biāo)的圖像都有相同的拍攝角度,即像具有空間相似度。 例如,許多城市的圖像是這樣一種高樓下面連接著人行橫道,而頂上是藍(lán)天;高速公路是大的平面向水平線方向延伸,期間充滿了一些凹凸。 這果我們把圖像劃分為一些空間子區(qū)域,對應(yīng)的子區(qū)域該有相似的特征,如圖 所示。上述主題分析模型是根據(jù)圖像中視覺詞匯出現(xiàn)的況進(jìn)行分類的,既沒有考慮視覺詞匯在空間的分布特點(diǎn)有利用圖像中區(qū)域語義構(gòu)成的上下文信息,而這些是被忽視的。 空間金字塔模型的提出更是給了研究者 的啟示。 本文提出了一種用于圖像場景識別的空間視到稿日期: 返修日期:王宇新(),男,博士生,講師, 會員,主要研究方向?yàn)閳D像 處 理、計(jì)算機(jī)系
5、統(tǒng)結(jié)構(gòu),:;郭 禾( )授,博士生導(dǎo)師, 高級會員,主要研究方向?yàn)橛?jì)算機(jī)系統(tǒng)結(jié)構(gòu)、計(jì)算機(jī)視覺;何昌欽( ),男,碩士生,主要研究方向?yàn)閳D像識別;(),男,博士生,主要研究方向?yàn)榛趦?nèi)容的圖像檢索;賈 棋(),女,博士生,講師,主要研究方向?yàn)橛?jì)算機(jī)視覺、人工神經(jīng)網(wǎng)提取并聚類,以形成該區(qū)域的視覺關(guān)鍵字,進(jìn)而構(gòu)建整個訓(xùn)練圖像集的空間視覺詞 典。 進(jìn)行場景識別時,把 所 有 空 間 子 區(qū) 域的視覺關(guān)鍵詞連接起來形成一個全局特征向量進(jìn)行相似度 計(jì)算,以獲得最終的場景分類結(jié)果??臻g視覺詞典我們已經(jīng)知道大多數(shù)圖像具有空間相似度,并 且 在 空 間 子區(qū)域內(nèi)聚 類能得到屬于對應(yīng)空間子區(qū)域的原 型 特 征。
6、因 此,提 出 一 種 “空 間 視 覺 詞 袋”模 型,它是視覺詞袋模型的擴(kuò) 展。 具體來說,首先有層次地把圖像進(jìn)行空間劃分(如圖 所 示),再把空間對應(yīng)子區(qū)域聚集在一起,構(gòu)建屬于對應(yīng)空 間 子 區(qū)域的空間詞典,過程如圖 所示。圖不同層次的圖像空間劃分圖空間子區(qū)域具有相似性示例空間視覺詞袋模型詞袋模型與視覺詞典詞袋()模型原是自然語言處理領(lǐng)域用 于 文 本信息檢索和文本 分 類 的 技 術(shù)。 用它做圖像表示 模 型(我 們稱之為視覺詞袋模型),需要將二維的圖像信息映射成視覺 關(guān)鍵詞集合,這樣既保存了圖像的局部特征又有效地壓縮了圖像的描述。為了使用視覺詞袋模 型,首先要在學(xué)習(xí)階段 建 立 視
7、覺 關(guān) 鍵詞的集合:在訓(xùn)練圖 像 集 中,提取出所有局部特征,然 后 對 這些特征進(jìn)行聚類,得到的結(jié)果是訓(xùn)練集中的普 遍 特 征。 我 們稱這些原型特征為“視覺詞典”。圖空間視覺詞典的構(gòu)建形式上,定義,為第 個空間子區(qū)域的 級劃分, 為 級劃分下空間子區(qū)域的數(shù)目,這 樣 就 得 到 (, ,)。 同時可以定義 , 為 級 劃 分 下 第 個 空 間 子 區(qū) 域 內(nèi)的視覺詞典, , ?;诳臻g視覺詞袋模型的場景分類過程一旦得到了每一個空間子區(qū)域的視覺詞典,視 覺 詞 袋 表 示就能通過常規(guī)的方 式 得 到。 對于每一幅圖像,空 間 子 區(qū) 域 內(nèi)的每一個像素的特征表示被投影到相應(yīng)空間詞典的一個單
8、 詞通道上。 每個子區(qū)域的第 直方圖通過統(tǒng)計(jì)有多少像素在 單詞通道 上得到,這個直方圖表示在空間子區(qū)域內(nèi) 的 視 覺 詞典的詞頻,見式()。空間聚類視覺詞袋模 型在從訓(xùn)練圖像集的圖片 中提取低級特征 后,需要使用一種無監(jiān)督的算法,如 均值算法,對這些低 級別特征進(jìn)行給定聚類中心數(shù)目的聚類。 給定一組觀察值的 序列( , , , ),這里,每一個觀察值都是一個 維 的 實(shí) 值向量。 均值聚類的目標(biāo)是劃分這 個觀察值到 個序列 里 , ,(),見式(),其中 是 的均值。(,)() ()(),式中, 是 指 示 函 數(shù),()是返回映射到像素 的 關(guān) 鍵詞 通過這種方式 就引入了空間子區(qū)域的空間相似
9、信息。,。() 為了識別一個場景的 類 別,需要把所有空間 子 區(qū) 域 的 視覺關(guān)鍵詞連接起來,得到一個全局特征向量。 最 終 的 分 類 識 別率通過支持向量機(jī)來獲得,整個過程如圖 所示。通過把一個聚類中心當(dāng)作一個視覺關(guān)鍵詞,就 能 把 每 一個從圖像中提取的特征映射到它最接近的視覺詞典上,并且 能把圖像表示為一個視覺詞典上的直方圖特征。圖不同范圍的聚類示例圖空間視覺詞袋模型分類過程在視覺詞袋模型中,聚類是最重要的。 詞典的語義準(zhǔn)確 性對最后的識別率有著直接的影響,它取決于詞典中的特征圖像間的相似度度量相似度。 令 ( ,)和( )分別為兩幅不同圖像和 在, () 級別 劃 分 下 的 第
10、個子區(qū)域的視覺詞袋表示。 我 們 用 相似度來衡量二者之間 的 距 離,計(jì) 算 方 法 見 式(),相 似 度 示 例如圖 所示。通過強(qiáng)度值比較得到的 位數(shù)可以以任何順序組(采用從上到下、從左 到 右 的 順 序),得 到 一 個 位 二 進(jìn)與它對應(yīng)的十進(jìn)制數(shù)范圍在,區(qū)間。 如 圖 ()、 , ( )()( )() ,( ),( ) ,示,變換后的圖像不僅包含了全局特征,而且捕捉到了節(jié)特征。 ( )()( )(),()在級別劃分下,圖像 和 之間的距離用式()進(jìn) 行 計(jì)算。( ( ), ( )( ,) ( ) , ,()原始圖像()變換后圖像圖 變換示例視覺詞袋模型采用聚類來獲得詞典,詞 典
11、中 的 單圖像集中最 普 遍 的 特 征。 而我們的模型是基于空 間 相的,換句話說,就是想找出圖像集的空間對應(yīng)子區(qū)域內(nèi)遍的特征。 中 提取了中心變換直方圖分 重要的特征,從一定角 度 上 說,和視覺詞典具有類 似 的 所以我們想獲得空間 的實(shí)驗(yàn)結(jié)果來加以比較。圖不同圖像間的相似度示例特征提取實(shí)驗(yàn)與分析本文提出的是一種能適用于各種類型特征 的 通 用 框 架,本節(jié)將簡單介紹兩種用在實(shí)驗(yàn)章節(jié)的圖像特征:表述人類的 紋理識 別 力 的 “”濾 波 器 和 中 心 變 換 的 主 成 分 分 析 。 濾波器 區(qū)域是靈 長 類 動 物 的 大腦皮層的視覺區(qū)域,是 最 簡 單、最早的視覺皮層區(qū)。 它在處
12、理靜態(tài)和動態(tài)對象 信 息 以 及 在模式識別中具有重要作用。 許多多尺度濾波器模型能描述 人類的紋理識別 力,這些濾波器滿足了 區(qū) 域 中 簡 單 皮 層 細(xì)胞感受野的定義。本文模型是基于空間對應(yīng)子區(qū)域的相似度的,我 們 是 從 人類認(rèn)知識別角度找到這一特性的。 所 以 首 先 選 擇 濾波器作為一種特征類型,并采用高斯函數(shù)的一階導(dǎo)數(shù)和二 階導(dǎo)數(shù)去構(gòu)造積分對,見式()。 實(shí)驗(yàn)首先使用 和 提供的圖像數(shù)據(jù)庫測試,此數(shù)據(jù)庫包含 類 場 景 圖 片,每 類 中 有 到 大小為 像素的圖像,如圖 所示。 分類識別支持向量機(jī) 來獲得。圖 和 圖像數(shù)據(jù)庫(,) () ()表 顯示了使用 濾 波 器 作為基
13、本提取特征,每()景用 幅 圖 像 做 訓(xùn) 練,其余圖像做測試時的實(shí)驗(yàn) 結(jié)(,) ( ) ( ) 式中,()表示一個具有標(biāo)準(zhǔn)差為 的高斯函數(shù)。 是衡量濾波器延伸率的一個標(biāo)準(zhǔn)。 濾波器組具有 個尺度自由 度、 個角度自由度,它們比 濾波器具有更廣的感受野。 為了更好地闡述模型 的 優(yōu) 點(diǎn),同時采用另外 一 種 完 全 不 同于 濾波器的 特 征 ( ),即中心變換直方圖的主成分分析。 主 成分分析 ()是一種統(tǒng)計(jì)分析 方法,它能從多元事物中提取主要因素,從而反映事物的本質(zhì)。 中的中心變換比較了中心像素與周圍 像素的強(qiáng) 度值,舉列如下:()表示空間劃分級別,表示每個子區(qū)域內(nèi)聚類量(視覺關(guān)鍵詞數(shù)),
14、做對比的是經(jīng)典的詞袋模型方法。表 特征的實(shí)驗(yàn) 結(jié)果()(經(jīng)典詞袋空間視覺詞袋經(jīng)典詞袋空間視覺詞表 中可以看出無論空間怎樣劃分,聚類中心有多文方法都比傳統(tǒng)的不含空間信息的詞袋方法的識別率當(dāng)子區(qū)域內(nèi)聚類中心數(shù)合理時(如),空間劃分 越 細(xì) 王濤,胡事民,孫家廣基于顏色空間特征的圖像檢索軟件學(xué)報,(): , , ,(): , ,: : ,(): ,: ,: ,: (): (),: ,: 李遠(yuǎn)寧,劉汀,蔣樹強(qiáng),等基 于 的視頻匹配方法 通信學(xué)報,(): , ,: , ,(): , :, ,? ,(): , : ,: , : ,:,: : , : ,因素比更多的視覺關(guān)鍵詞具有更高的辨別力??臻g詞典中的視
15、覺關(guān)鍵詞能夠捕捉子區(qū)域內(nèi)普遍特征的 廣義上的詞匯,而 能夠從多元事物中提取主要因素從而 反映事物的本質(zhì)。 我們同樣在空間視覺詞典框架內(nèi)計(jì)算每個 子區(qū)域的 特征。 表 顯示了使用 的實(shí)驗(yàn)結(jié)果,可 以看到空間 方法的識別率遠(yuǎn)高于經(jīng)典 方法。表 特征的實(shí)驗(yàn) 結(jié)果()經(jīng)典算法空間 實(shí)驗(yàn)是由等構(gòu)建的 包 含 個 物 品分類(如人臉、飛機(jī)、古物、鋼 琴 等)共 幅圖像的圖像庫,如圖 所示,很多類型的物品圖片也具有空間相似性。圖 圖像數(shù)據(jù)庫按照 的 方 法 在 圖 像 庫 上做物體識別的實(shí)驗(yàn):每個類別中訓(xùn)練 幅 圖 片,測 試 圖 片 是每類 幅。 表 給出空間劃分級別 時 使 用 和 特征時的平均識別率,可以看出空間相似度被發(fā)掘 出來后識別率大大提高。表 實(shí)驗(yàn) 結(jié)果()()經(jīng)典詞袋空間視覺詞典經(jīng)典算法空間 結(jié)束語 本文基于傳統(tǒng)的詞袋模型提出了一種空間視覺詞袋模型。 圖像被劃
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 設(shè)計(jì)的文化與歷史背景
- 房間隔缺損修復(fù)護(hù)理查房課件
- 采購合同制式條款范本3篇
- 采購合同管理的信息化發(fā)展3篇
- 虛擬人語音識別與合成-洞察分析
- 采購合同的供應(yīng)鏈合同自由采購3篇
- 應(yīng)急預(yù)案評估與修訂-洞察分析
- 采購合同管理案例解析3篇
- 采購合同評審表評分標(biāo)準(zhǔn)3篇
- 采購框架協(xié)議控制3篇
- 大數(shù)據(jù)建模練習(xí)練習(xí)題及答案1-2023背題版
- 2024年山東濟(jì)南軌道交通集團(tuán)運(yùn)營有限公司招聘筆試參考題庫含答案解析
- Ⅲ類射線裝置輻射工作人員考核試題 - 副本
- 土壤檢測報告表
- 老年人合理用藥新進(jìn)展課件
- 工程經(jīng)濟(jì)學(xué)案例分析課程設(shè)計(jì)
- 公司投產(chǎn)慶典策劃方案
- 服務(wù)管理的價值創(chuàng)造
- 內(nèi)科醫(yī)生如何與患者建立有效的溝通
- 植物生長與環(huán)境課程教案
- 歌廳消防安全管理制度
評論
0/150
提交評論