數(shù)字視頻技術(shù)論文-多視點視頻編解碼

上傳人：y*** IP屬地：天津上傳時間：2021-01-19 格式：DOCX 頁數(shù)：8 大?。?3.07KB 積分：0 舉報 版權(quán)申訴

已閱讀5頁，還剩3頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

1、多視點視頻編解碼呂永超摘要與二維視頻編碼有所不同，多視點視頻編碼還存在不同視點間的空間冗余，因此除了進行運動估計和運動補償外，還需要對立體視頻進行視差補償預測，來消除視點間的空間冗余，提高視頻壓縮的效率。大模塊所占比率大，耗時少，小模塊所占比例小，但是耗時多。而且，立體視頻編碼中，小模塊模式相對于平面視頻編碼所占的比例更少，這也說明了立體視頻編碼中模式選擇的重要性。JMVC測試模型遍歷所有模式然后選擇最優(yōu)編碼模式，致使編碼速度低下。我們通過快速模式選擇，盡可能的減少小模塊模式的預測，在保證圖像質(zhì)量和壓縮效率的基礎(chǔ)上，大幅度的提高了立體視頻編碼速度。CPU單獨解碼效率較低，最多

2、僅能支持6個視點1280X720P格式的高清視頻實時解碼。而基于本文提出的 CPU和GPU混合解碼技術(shù)，由于IDCT和彩色空間變換這些并行運算均有 GPI完成，充分發(fā)掘了當前GPU勺特點，CPU主要負責解碼控制類型的運算，整體解碼運算效率較高，可以實時解碼 8個視點的1280X720P格式的高清視頻。關(guān)鍵詞多視點視頻快速幀間模式選擇 IDCT 和圖像彩色空間變換目錄第一章緒論 1第二章多視點視頻編碼 12.1 多視點視頻編碼原理 12.2 視頻編碼方案 22.3 立體視頻運動估計搜索算法 32.4 快速幀間模式選擇 32.5 本章小結(jié) 3第三章基于GPU和CPU昆合運算的解碼

3、技術(shù) 43.1 IDCT 運算在 GPL上實現(xiàn)的基本原則 43.2圖像彩色空間變化在 GPL上的實現(xiàn) 43.3 本章小結(jié) 4參考文獻 5第一章緒論立體視頻壓縮與平面視頻壓縮的主要區(qū)別在于立體視頻壓縮利用了視點間的視差信息進行編碼，大幅度的提高了壓縮率，從而也解決了立體視頻龐大數(shù)據(jù)信息的存儲和傳輸問題。編碼優(yōu)化包括快速運動估計搜索算法的實現(xiàn)以及快速幀間模式選擇算法的實現(xiàn)，它們都是在保證立體視頻編碼質(zhì)量的前提下，提高立體視頻的編碼速度。解碼器移植包括PC端和WM手機端實現(xiàn)H.264解碼并顯示。視頻編碼框圖，主要包括參考幀管理，運動估計，模式選擇，變換，量化，重排列和嫡編碼幾個部分。JMVC是通過

4、參考幀管理實現(xiàn)進行運動估計和視差估計的，從而確保了視頻編碼的高效率。本文主要工作集中在虛線框中的運動估計和模式選擇部分，在幀間預測時通過實現(xiàn)SUMHexagon Search算法提高運動搜索的速率，在模式選擇部分進行快速模式選擇，提前判斷最優(yōu)模式，降低編碼復雜度，從而提高編碼速率。變換一般是用來去除圖像信號中的相關(guān)性并減少圖像編碼的動態(tài)范圍，量化則是用來減少圖像編碼長度，減少圖像恢復中不必要的信息，二者的目的都是降低碼率，實現(xiàn)圖像壓縮。嫡編碼是無損壓縮，解碼時能夠無失真的恢復原數(shù)據(jù)，它實現(xiàn)了圖像信息到數(shù)字信號的轉(zhuǎn)換。第二章多視點視頻編碼本章首先介紹了多視點視頻編碼原理方案和立體視頻運

5、動估計搜索算法；然后詳細介紹了快速幀間模式選擇。2.1多視點視頻編碼原理多視點視頻編碼原理如下圖所示，ME代表運動估計，DE代表視差估計，MD弋表模式選擇，T代表變換，Q代表量化，R代表重排列，E代表嫡編碼，代表反變換，代表反量化。以兩視點為例，進行立體視頻編碼。(1) 第一視點按照二維視頻編碼 (H.264的步驟進行編碼。(2) 第二視點第一幀，采用幀內(nèi)預測的同時，以第一視點第一幀為參考進行視差補償預測，并存儲視差矢量和殘差。(3) 第二視點非第一幀，以第二視點己編碼幀為參考進行運動補償預測，遍歷所有模式，記錄最優(yōu)預測塊的運動矢量 MV 1、殘差D開銷COST1然后以第一視點同一時間的圖像

6、為參考進行視差補償預測，遍歷所有模式，記錄最優(yōu)塊的視差矢量DV2殘差D2及開銷COST2選擇開銷最小的模式為最佳編碼模式，記錄矢量和殘差。借鑒單視點視頻編碼的運動補償技術(shù)來實現(xiàn)視差補償，消除視點間的冗余信息。具體實現(xiàn)方法如下：首先將視點間的參考圖像和同一視點編碼的參考圖像統(tǒng)一放入?yún)⒖紙D像列表進行管理，然后利用匹配算法搜索得到最佳匹配塊，接著將當前編碼塊和預測塊做差值，得到殘差和矢量(MV/DV)，最后對殘差進行壓縮編碼。這也是JVT推薦的測試模型 JMVC中使用的處理方法。2.2 視頻編碼方案JMVC測試模型在立體視頻壓縮方面有著高效的壓縮效率及優(yōu)良的參考幀管理機制。我們選擇使用JMVC測

7、試模型進行立體視頻壓縮，但是其編碼速度極其緩慢，我們就必須進行JMVC編碼速率優(yōu)化。本文主要從運動估計搜索算法和快速模式選擇算法兩個方面著手，實現(xiàn)編碼速率的提高。2.3 立體視頻運動估計搜索算法幾種常見的搜索算法有 : 全局搜索算法、三步搜索法、菱形搜索法、以及復合搜索算法等。由于物體的運動千變?nèi)f化，很難用一種簡單的模型去描述，所以實際上大多采用多種搜索算法的組合方式，即復合搜索算法。采用符合搜索算法可以很大程度上提高預測的編碼效率和性能。2.4 快速幀間模式選擇在立體視頻編碼過程中，由于視差估計的存在，使得模式8x8, 8x4, 4x8,4x4 所占比例減少，但是這些小預測塊消耗的時間

8、最長。因此我們?yōu)榱舜蠓瓤s短編碼時間，必須進行幀間模式的快速選擇，盡可能的減少小預測塊的遍歷。視頻圖像的內(nèi)容可以粗略分為3 種:平坦背景區(qū)域、復雜背景區(qū)域、運動區(qū)域。背景區(qū)域在視頻中占有較大的比例，我們選用較大的預測塊(如 16x16,16x8,8x16) ，這也意味著用于表示運動矢量和分割區(qū)域類型的比特會比較少。而對于運動區(qū)域，它所占的比例小，同時我們必須選用較小的預測塊或者 intra 預測，這也意味著用于表示運動矢量和分割區(qū)域類型的比特會比較多，并且搜索過程耗時比較長，視差補償預測的引用運動區(qū)域的“轉(zhuǎn)變”，使得小模塊預測比例更小。如果能夠較早的判斷當前宏塊是較大預測塊還是較小預測

9、塊，就能夠大幅度縮短編碼時間。(1) 利用率失真損耗模塊越小，搜索時間越長，我們應(yīng)當盡可能少的遍歷小模塊模式。1. 對16x16模塊進行運動估計，并判斷是否為SKIP模式。若為是，則不進行其他模式的預測2. 計算 16x8, 8x16 模塊的率失真損耗，若 16x16 模塊的率失真損耗小于這兩種模式，則認為采用大模塊預測，不進行 8x8, 8x4, 4x8 模塊預測 ;3. 計算 8x8, 8x4, 4x8 子塊的率失真損耗，若 8x8 的率失真損耗小于 8x4,4x8 模塊，則不進行 4x4 模塊預測 ;4. 擇率失真損耗最小的模塊作為最優(yōu)模式進行編碼。(2) 利用細節(jié)塊能量通過計算細節(jié)

10、塊能量，提前判斷宏塊是采用大尺寸還是小尺寸模式進行編碼，能夠降低計算復雜度，縮短編碼時間。1. 對16X16模塊進行運動估計，并判斷是否為SKIP模式。若為是，則不進行其他模式的預測32，2將16x16分成4個8x8的塊，通過DCT變化系數(shù)計算其細節(jié)程度，當高細節(jié)塊數(shù)目大于并且尺 6X16 0.7 時，認為當前宏塊要進行小模塊模式預測，否則，只進行大模塊模式預測(16x16, 16x8, 8x16)3. 計算8x8模塊的4個4X4DCT系數(shù)塊的能量，當細節(jié)塊數(shù)目大于2,并且尺Xs 0.7時，認為要進行 4x4 模塊的預測，否則只進行 8x8, 8x4, 4x8 模式預測。4. 選擇率失真損耗

11、最小的模塊最為最優(yōu)編碼方式進行編碼。(3) 利用運動矢量較大預測塊預測說明用來表示運動矢量和分割區(qū)域的比特比較少,較小預測塊預測說明用來表示運動矢量和分割區(qū)域的比特較多。如果兩種預測塊的運動矢量相等,那么我們就采用較大預測塊進行預測。以 16x16, 16x8, 8x16 為例,相同時,我們就可以認為當前塊為大模塊模式,采用1. 對 16x16 模塊進行運動估計,并判斷是否為2. 進行 16x16, 16x8, 8x16 模塊預測,并比較相等時,則采用 1 6x1 6模式進行編碼。否則跳轉(zhuǎn)16x16 的運動矢量和 16x8, 8x16 的運動矢量 16x16 進行編碼。SKIP 模式。若為是

12、,則不進行其他模式的預測3種模式的運動矢量,當 3種模式的運動矢量3;43. 進行 8x8, 8x4, 4x8 模塊預測,如果運動矢量相等,則不進行 4x4 模塊預測 ;4. 選擇率失真損耗最小的模塊最為最優(yōu)編碼方式進行編碼。經(jīng)過試驗測試,這種方法比較適合單一參考幀的情況,對于立體視頻編碼效果不太理想,只有SKIP 模式判斷提高了編碼速度,這是因為立體視頻編碼中絕大部分都是B-Slice ,并且參考幀為視點間參考,利用運動矢量判斷約束條件太多,提高的編碼速度不理想。2.5 本章小結(jié)一般而言,一個編碼器主要包括 5 個基本功能模塊 : 幀間和幀內(nèi)預測、變換和反變換、量化和反量化、環(huán)路濾波、熵編

13、碼。與二維視頻編碼有所不同,立體視頻編碼還存在不同視點間的空間冗余,因此除了進行運動估計和運動補償外,還需要對立體視頻進行視差補償預測,來消除視點間的空間冗余,提高視頻壓縮的效率。大模塊所占比率大,耗時少,小模塊所占比例小,但是耗時多。而且,立體視頻編碼中,小模塊模式相對于平面視頻編碼所占的比例更少,這也說明了立體視頻編碼中模式選擇的重要性。 JMVC測試模型遍歷所有模式然后選擇最優(yōu)編碼模式，致使編碼速度低下。我們通過快速模式選擇,盡可能的減少小模塊模式的預測,在保證圖像質(zhì)量和壓縮效率的基礎(chǔ)上,大幅度的提高了立體視頻編碼速度。第三章基于GPU和CPU昆合運算的解碼技術(shù)本章詳細介紹了

14、使用于立體視頻解碼的IDCT和圖像彩色空間變換的GPU實現(xiàn)方法。3.1 IDCT運算在GPU上實現(xiàn)的基本原則國內(nèi)外學者己經(jīng)研究了很多年基于CPU等通用處理器的快速二維 DCT/IDCT算法。傳統(tǒng)的基于CPU的IDCT快速算法中，基本思想是利用加法和移位操作來代替乘法操作。但是這些算法的運算結(jié)構(gòu)類似于FFT的蝶形運算，它會導致每個參與變換的點都經(jīng)過不同的計算路徑，這與GPU要求對海量的輸入數(shù)據(jù)執(zhí)行相同的操作是相違背的，對于GPU來說，這種傳統(tǒng)的算法都是不合適的。所以本文認為要在GPU上實現(xiàn)IDCT算法，最合適的還是采用類似矩陣相乘的算法。因為基于矩陣乘法的IDCT算法對于每個塊中的每個數(shù)據(jù)來說

15、會經(jīng)歷相同的計算流程，這是相當符合GPU勺工作特性的。Y=K*F* 就是采用矩陣相乘的IDCT變換公式其中，K是變換核矩陣，F(xiàn)是輸入數(shù)據(jù)，Y是輸出數(shù)據(jù)。訃凳分斛圖3.2圖像彩色空間變化在 GPU上的實現(xiàn)顏色空間變換的算法非常簡單，只要按照下式進行計算即可。R=Y+128+1.402CrG=Y+128-0.34414Cr-0.71414CbB=Y+128+1.772Cb這種算法本身對于每個像素的計算都是獨立的，因此很適合使用GPU來并行運算。最簡單的方法就是利用GPL數(shù)據(jù)多通道的特性，依次把YCbCr放入同一個像素的不同通道來輸入。這樣不用做任何額外的紋理訪問或紋理坐標變換操作，即可完成顏色空間

16、變換的計算。對于多視角立體視頻解碼來說，多個視點的圖像彩色空間變化是相互獨立的，可以并行處理。這里本文提出可以將多個視點解碼得到的YUV圖像拼接成一幅圖像，存入紋理后通過一次渲染運算得到所有視點的圖像彩色空間變換結(jié)果。由于GPU的并行運算特性，這種方法不但能夠減少GPU和CPU的數(shù)據(jù)互交次數(shù)，而且也很大程度的提高了多視角視頻圖像彩色空間變換的整體效率。3.3本章小結(jié)CPU單獨解碼效率較低，最多僅能支持6個視點1280X720P格式的高清視頻實時解碼。而基于本文提出的CPU和GPU昆合解碼技術(shù)，由于IDCT和彩色空間變換這些并行運算均有GPU完成，充分發(fā)掘了當前 GPU的特點，CPU主要負責解碼

17、控制類型的運算，整體解碼運算效率較高，可以實時解碼8個視點的1280X720P格式的高清視頻。參考文獻1 羊飛帆，多視點視頻編碼方案及其差錯控制技術(shù)的研究，科技傳播，20122 周曉亮，基于感知的多視點彩色深度視頻聯(lián)合編碼方案，寧波大學，20123 占濤，基于 MPEG-2 的多視點編碼及對象分割技術(shù)研究，安徽工業(yè)大學， 20114 袁振，多視點立體視頻編解碼算法的研究與應(yīng)用，天津大學， 20105 嚴愷，多視角立體視頻編解碼的關(guān)鍵技術(shù)研究，上海交通大學， 20106 陳芳民，立體視頻編解碼及流式傳輸研究，北京郵電大學， 20137 陳海棠，多視點視頻編碼和虛擬視點合成技術(shù)的研究，南京郵電大學， 20108 陳晶晶，多視點立體視頻

人人文庫> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

數(shù)字視頻技術(shù)論文-多視點視頻編解碼

文檔簡介

溫馨提示

最新文檔

評論

數(shù)字視頻技術(shù)論文-多視點視頻編解碼

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔