三維沉浸視頻技術白皮書-世界超高清視頻產(chǎn)業(yè)聯(lián)盟_第1頁
三維沉浸視頻技術白皮書-世界超高清視頻產(chǎn)業(yè)聯(lián)盟_第2頁
三維沉浸視頻技術白皮書-世界超高清視頻產(chǎn)業(yè)聯(lián)盟_第3頁
三維沉浸視頻技術白皮書-世界超高清視頻產(chǎn)業(yè)聯(lián)盟_第4頁
三維沉浸視頻技術白皮書-世界超高清視頻產(chǎn)業(yè)聯(lián)盟_第5頁
已閱讀5頁,還剩66頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

三維沉浸視頻技術白皮書(2024)Thee-DmensionalImmerseVidoehnologyWiepe(202)三維沉浸視頻技術白皮書目錄TOC\o"1-2"\h\z\u三維沉浸視頻概述 1三維沉浸視頻概念 1背景和意義 2三維沉浸視頻的技術演進路線 3三維沉浸視頻技術體系 4三維沉浸視頻內(nèi)容采集 5三維沉浸視頻內(nèi)容重建 10三維沉浸視頻內(nèi)容編碼 20三維沉浸視頻內(nèi)容傳輸 27三維沉浸視頻渲染交互 29三維沉浸視頻終端顯示 34三維沉浸視頻質(zhì)量評價 38三維沉浸視頻發(fā)展趨勢 46當前存在的問題 46前沿技術概述 473D全真視頻 50標準化建議 52三維沉浸視頻標準 52標準化建議 545.附錄 56三維沉浸視頻應用 56縮略語 65參考文獻 67三維沉浸視頻通過采集真實世界的數(shù)據(jù),并結(jié)合計算機視覺、視頻編解碼、深度學習等技術,旨在模擬并重現(xiàn)現(xiàn)實場景的完整視覺信息,使觀眾能夠獲得立體、真實、沉浸式的視頻體驗。相對于傳統(tǒng)的二維平面視頻,三維沉浸視頻具有以下特點:從平面感知到立體感知:三維沉浸視頻通過立體影像技術使觀眾能夠感受到真實場景的三維結(jié)構(gòu)。與3D從單一視角到自由視角:傳統(tǒng)視頻限制了觀眾只能從固定的視角觀看內(nèi)容。三維沉浸視頻致力于提供自由視角,觀眾通過觸摸屏幕、轉(zhuǎn)動頭部、手勢等交互方式,使觀眾視角能夠在場景中自由移動,仿佛置身于真實世界。從有限時空分辨率到任意時空分辨率:傳統(tǒng)視頻受時空分辨率的限制,三維沉浸視頻力求提供更高的時間分辨率和空間分辨率,以更完整、精細地呈現(xiàn)場景。復刻現(xiàn)實場景完整視覺信息:三維沉浸視頻試圖模擬并重現(xiàn)現(xiàn)實場景的所有視覺信息,包括顏色、光照、深度、運動等方面,通過照片級真實的渲染技術,創(chuàng)造更為真實沉浸的視覺感官體驗??傮w而言,三維沉浸視頻是一種持續(xù)發(fā)展創(chuàng)新的視覺技術,經(jīng)歷了一系列的發(fā)展階段,最終目標是通過整合先進的技術和設計理念,使觀眾能夠在虛擬環(huán)境中獲得真實、身臨其境的感受。圖1三維沉浸視頻的特征能夠完整復刻真實場景全部視覺信息的三維沉浸視頻一直存在于人們美好的想象中。相對于傳統(tǒng)的2D視頻,三維沉浸視頻可以給予觀眾全新的體驗。一方面,觀眾能夠沉浸在近乎全真的虛擬環(huán)境中,獲得深度的觀看體驗,為教育、文化、醫(yī)療和娛樂等諸多領域帶來視覺上的變革。另一方面,三維沉浸視頻使觀眾能與內(nèi)容直接互動,觀眾從被動觀看變成積極參與,拉近了數(shù)字世界與現(xiàn)實生活的距離,為個體提供更為個性化的體驗。但是,硬件設備、軟件算法、人機交互、內(nèi)容創(chuàng)造等多方面的瓶頸都制約了三維沉浸視頻的發(fā)展。近年來,隨著數(shù)字技術的高速發(fā)展,元宇宙的概念逐漸深入人心,相關研究和產(chǎn)品呈現(xiàn)爆炸性增長,為三維沉浸視頻的最終實現(xiàn)創(chuàng)造了條件。一方面,圖形處理單元的運算性能不斷提高,能夠?qū)崟r渲染高質(zhì)量的3DAI作為一項面向未來的技術,三維沉浸視頻技術將對中國科技創(chuàng)新和產(chǎn)業(yè)升級產(chǎn)生巨大的推動作用,有利于強化國家戰(zhàn)略科技力量、增強技術自主可控能力。因此,沉浸式視頻的技術研究和產(chǎn)業(yè)應用已經(jīng)寫入國務203512174K/8K3D根據(jù)《2024中國沉浸產(chǎn)業(yè)發(fā)展白皮書》,到2023年,中國沉浸產(chǎn)業(yè)消費市場規(guī)模達到927億元,總1933.420242400三維沉浸視頻的技術發(fā)展不是一蹴而就的,需要經(jīng)歷多個階段,不斷引入新的技術和方法,以提供更為逼真、沉浸和交互的體驗。如圖2所示,三維沉浸視頻的技術演進經(jīng)歷了以下幾個階段。圖2三維沉浸視頻的技術演進雙目立體技術:雙目立體是三維沉浸視頻早期的實現(xiàn)方式。通過兩臺攝像機模擬人眼的雙目視覺,使觀眾能夠感知到深度,其缺點主要是需要佩戴特殊的眼鏡或者頭戴式顯示設備,并且在視點數(shù)量和視覺舒適性方面存在局限性。3D3D3D3D3D3D3D自由視點技術:自由視點技術是一種允許觀眾從外部場景觀看視頻時自由選擇視點的技術。它通過從多個視點采集視頻或者利用計算機合成虛擬視點來實現(xiàn)。在觀看視頻時,觀眾可以通過交互式界面或者設備自由選擇不同視角,從而獲得更加個性化和沉浸式的觀影體驗。體積視頻技術:體積視頻是一種采集和呈現(xiàn)三維空間中動態(tài)場景的技術。體積視頻通常由一系列包含深度信息的幀組成,常見的表示形式包括點云、3DofFreedom)的觀看體驗,但拍攝難度大,僅適用于室內(nèi)小場景,渲染質(zhì)量不夠高,也沒有形成廣泛接受的標準。三維沉浸視頻的技術體系包含了內(nèi)容采集、內(nèi)容重建、內(nèi)容編碼、內(nèi)容傳輸、渲染交互、終端顯示、質(zhì)量評價等七個核心組成部分。內(nèi)容采集階段通過各類相機獲取場景的視覺信息。然后利用雙目立體視覺、多視立體視覺等技術將這些數(shù)據(jù)轉(zhuǎn)化為具有立體感和幾何結(jié)構(gòu)的場景。接著,對數(shù)據(jù)進行壓縮和編碼,以便在傳輸和存儲中減少數(shù)據(jù)量。渲染交互階段將編碼后的數(shù)據(jù)解碼,并通過視點合成等技術渲染成沉浸式的視覺體驗。最后,終端顯示為用戶提供了沉浸視頻的觀看方式。這六個部分協(xié)同作用,創(chuàng)造出立體、沉浸式的視覺體驗。此外,質(zhì)量評價可以幫助確定三維沉浸視頻的整體質(zhì)量。本章將對相關技術進行詳細介紹。圖3三維沉浸視頻技術體系圖4技術體系與技術演進關系圖內(nèi)容采集是三維沉浸視頻制作的第一步,旨在捕捉場景的視覺和幾何信息,為后續(xù)的三維重建和渲染提供基礎數(shù)據(jù)。不同的采集方式適用于不同的場景和需求,能夠提供不同范圍的場景信息,從而影響對視頻的處理方式以及最終呈現(xiàn)效果的真實性和沉浸感。三維沉浸視頻內(nèi)容采集包括圖像的采集和深度信息的采集,圖像采集可以通過多視點的方式,使用雙目相機、陣列相機或全景相機完成。而深度信息的采集既可以通過被動式采集即多目相機通過后期計算獲得,也可以通過深度相機、激光掃描儀等通過物理的方式直接獲得。圖5內(nèi)容采集方式雙目相機采集單目相機通?;卺樋啄P蛠砻枋鱿鄼C的成像過程。它假設相機具有一個光學中心和成像平面,光線從物體通過光學中心投影到成像平面上形成圖像。焦距表示光學中心到成像平面的距離,而透視投影描述了物體在圖像中的投影位置。相機參數(shù)包括焦距、成像平面尺寸、畸變參數(shù)等,用于校準相機并計算像素與物理空間之間的關系。單目相機的針孔模型是理解和分析相機成像的基礎,它與多目相機系統(tǒng)共同構(gòu)成了計算機視覺和攝影學中的重要工具。圖6針孔相機模型雙目相機內(nèi)容采集是一種利用兩個單目相機同時拍攝同一場景的方法,以獲取更加豐富和準確的視覺信息。在雙目相機系統(tǒng)中,左右兩個相機分別模擬人類的兩只眼睛,兩個鏡頭通常被安裝在一個固定的平臺上,以保證它們的空間位置和朝向一致。在內(nèi)容采集過程中,雙目相機需要同時獲取兩個攝像機的圖像數(shù)據(jù),并確保它們的時間同步和空間校準,以保證后續(xù)處理的準確性。另外,為了實現(xiàn)對場景深度的感知,需要通過分析兩個攝像機圖像之間的視差信息來計算物體到相機的距離。因此,雙目相機內(nèi)容采集不僅可以提供立體感覺,還能夠?qū)崿F(xiàn)對場景深度的測量和感知。下圖為理想的雙目深度相機成像模型,只需要獲得一個空間點在左右相機中的視差,就可以計算出該點的深度信息。圖7理想雙目相機模型陣列相機采集陣列相機是一種使用多個攝像機排列在一起的成像系統(tǒng),旨在獲取更廣闊的視野和更豐富的場景信息。如下圖所示為陣列相機的幾種典型幾何排列方式,包括水平或垂直的線性排列、環(huán)繞排列、2維平面式排列、3D陣列等。陣列相機的工作原理類似于雙目相機,但通過更多的攝像機增加了視點個數(shù),便于獲得整個場景的三維結(jié)構(gòu)。在內(nèi)容采集過程中,陣列相機需要確保所有攝像機拍攝的圖像在時間上保持同步,并通過精確的空間校準來將它們的視野對齊。通常,這需要使用高精度的硬件同步和精確的攝像機標定技術。通過對多個攝像機圖像進行融合和處理,陣列相機還能夠合成密集的虛擬視點,或者通過多視點視圖實現(xiàn)對真實場景的三維重建。圖8相機陣列幾何排布方式全景相機采集

圖93D陣列全景相機采集系統(tǒng)通常由多個攝像頭組成,可以同時拍攝多個方向的視頻,并通過軟件或硬件的方式將這些視頻拼接成全景視頻。全景相機的鏡頭可以采用普通鏡頭,也可以使用魚眼鏡頭,鏡頭的排列可以按環(huán)形、球形或其他幾何形狀的方式布局,以確保它們的視野可以實現(xiàn)全方位覆蓋。攝像頭的布局方式取決于相機1808全景視頻為了呈現(xiàn)立體效果,需要為左右兩個視點分別生成全景圖,這可以通過全方向立體投影(ODS,Omni-directionalStereo)模型來描述。ODS給出了一種3D全景的緊湊表示方法,將空間中與一個半徑為人眼瞳距的觀察圓(ViewingCircle)相切的光線映射為兩組(左眼光線和右眼光線)光線,對于同一個方向空間光線,它們在觀察圓上的投影中心恰好落在觀察圓的一條直徑上。可以想象將人眼繞著中軸旋轉(zhuǎn)360°,并把每一個時刻記錄下來的圖片中與觀察圓相切的一條光線拼接成一個完整的圖像。如下圖所示,ODS對空間中所有與觀察圓相切的光線進行采樣,圖中藍色的光線對應于右眼觀測到的光線,紅色對應左眼觀測到的光線。圖10左:全景相機共光心環(huán)形排布、右:ODS模型深度信息采集RGB-DRGBofFlight)相機等。結(jié)構(gòu)光RGB-D通常采用特定波長的不可見的紅外激光作為光源,發(fā)射出來的光投射在物體表面。使用相機拍攝被測物體的結(jié)構(gòu)光圖像,通過一定的算法獲得物體的位置和深度信息。這種方式在靜態(tài)場景和非透明物體具有較好的性能,適用于室內(nèi)環(huán)境,但在較遠距離和透明物體上的性能較差,深度測量精度可能下降。圖11結(jié)構(gòu)光RGB-D系統(tǒng)組成TOF相機是一種利用飛行時間原理獲取深度信息的RGB-D相機。它的工作原理是通過發(fā)射連續(xù)光脈沖到場景上,然后測量光線從相機發(fā)射到物體表面再返回相機的時間,從而計算出物體到相機的距離。其優(yōu)點是速度快,可以實時采集深度信息,適用于動態(tài)場景。但分辨率相對較低,深度圖像的精度和準確性可能較差,尤其是在長距離和低反射率表面上的性能較差。此外,還可以通過激光掃描的方法獲取物體或者場景的三維結(jié)構(gòu)信息。該技術利用激光掃描設備向目標物體發(fā)射激光,并記錄激光束反射回來的時間差確定距離,從而生成大量離散的點云數(shù)據(jù)。通過對這些點云數(shù)據(jù)進行處理和分析,可以實現(xiàn)對物體的三維重建,包括幾何形狀和表面細節(jié)。激光掃描法生成模型精度相對較高,被廣泛應用于工程設計、文物保護、建筑測量等領域。激光掃描法的缺點是受環(huán)境影響較大、無法掃描特殊表面、時間長、成本高、應用范圍有限等。三維沉浸視頻的內(nèi)容重建是通過從單個或者多個視角采集的視頻或幾何信息,利用計算機視覺和圖像處理技術,對場景進行三維結(jié)構(gòu)的重建。獲取場景三維結(jié)構(gòu)的方法可以分為主動式和被動式兩個大類,基于主動視覺的三維重建方法需要人工設置特別的照明光源,光源信號投射到場景后,圖像傳感器獲取返回的信號,通過比較發(fā)射前后信號的差異來計算物體的深度信息生成三維結(jié)構(gòu)。這類方法適用范圍比較受限,超出一定距離后誤差很大,在深度圖質(zhì)量、圖像分辨率和時間分辨率等參數(shù)上也存在一些劣勢?;诒粍右曈X的三維重建技術不需要進行人為增加光源,相機在自然光下采集圖像,包括雙目立體視覺技術、運動恢復結(jié)構(gòu)(SFM,StructureFromMotion)技術、多視立體視覺技術(MVS,MultipleViewStere)等。對于單目視頻,可以通過明暗度恢復形狀法(SFS,ShapeFromShading)、紋理法(SFT,ShapeFromTexture)、輪廓法(SFS/SFC,ShapeFromSilhouettes/Contours)、調(diào)焦法(SFF,ShapeFromFocus)等通過圖像中的特2D3D3D1三維沉浸視頻表示如下圖所示,3D3DCloud)、體素(Voxel)、網(wǎng)格(Mesh),有基于圖像的表示方式如光場合成,還有混合表示如多視點加深度圖、分層深度圖等,此外還有隱式表示的方式。常見的表示方式如下:10圖123D圖像的表示方式點云是由三維空間中的一組點組成的集合,每個點都有其在空間中的坐標。點云通常用于表示和模擬三維對象或場景,是計算機圖形學、計算機視覺、機器人學和虛擬現(xiàn)實等領域中的常見數(shù)據(jù)表示形式。通過激光掃描、結(jié)構(gòu)光掃描、立體視覺等方式可以獲取原始點云數(shù)據(jù),然后通過對原始點云數(shù)據(jù)進行預處理、特征提取、配準、濾波、擬合等實現(xiàn)對物體的建模、分析和處理。體素是三維空間中的體積像素。與二維像素類似,體素是三維圖像或三維場景的最小可分辨單元。體素通常由立方體表示,具有三維坐標以及可能的屬性信息,如顏色、密度等。體素在三維重建中扮演著重要的角色,它們是一種對三維空間進行離散化表示的方式,有助于建立物體或場景的模型。網(wǎng)格是由一系列連接的頂點、邊和面組成的三維結(jié)構(gòu),在三維重建中扮演著重要的角色。一些三維重建算法的輸出就是一個網(wǎng)格,以表示被重建物體的外表面。通過從點云數(shù)據(jù)、體素等形式轉(zhuǎn)換為網(wǎng)格,可以更容易地對重建后的對象進行可視化、分析和編輯。以上三類表示較為精確,便于渲染和顯示任意視點,但建模和匹配相對復雜,耗時大。基于圖像的表示不需要幾何信息和匹配信息。這類方法包括光場合成(LightFieldRendering),光圖(Lumigraph),共光心拼接(ConcentricMosaicsRepresentation)等。通過多角度的圖像采集,使用基于像素或者塊的圖像處理方式來產(chǎn)生虛擬的中間視點。該方法的主要優(yōu)點是無需3D場景重建即可完成高質(zhì)量的虛擬視點合成(VirtualViewSynthesis)。然而該優(yōu)點也必須付出一些昂貴的代價:一方面,必須通過大量的相機對場景進行稠密的過采樣,另一方面,為了合成高質(zhì)量的虛擬視點,大量的圖像被處理和傳輸。如果對場景采樣過小,那么閉塞區(qū)域(Disocculusions)的插值偽影(InterpolationArtifacts)會相當明顯,極有可能影響合成質(zhì)量。兩者混合的表示兼顧了基于幾何和基于圖像表示方法的優(yōu)勢,主要的表示方式有多視點加對應的深度圖、視差圖等,這種方式一般只需要很少的幾個視點加對應的深度信息,通過基于深度圖繪制的視點合成方法可以生成一定范圍內(nèi)的虛擬視點。由于這種表示方式合成效果較好,且相對容易獲得,因此成為三維視頻重要的描述方式。但這種方式在合成視圖中依然面臨偽影和空洞修復的問題。隱式表示是一種基于函數(shù)的方法,通過隱式函數(shù)來描述三維空間中的物體或場景。在隱式表示中,物體的表面不是顯式地表示為點、面或體素,而是通過滿足某種隱式函數(shù)的點集來定義,隱式函數(shù)通常不直接提供關于三維空間的幾何信息,而是輸出三維空間中所有幾何特征滿足的關系。常見的隱式表示有符號距離函數(shù)(SDF,SignedDistanceFunciton),占用場(OccupancyField),神經(jīng)輻射場(NeRF,NeuralRadianceField)等。隱式表示方法可以直接從觀測到的二維圖像數(shù)據(jù)中學習對象的三維結(jié)構(gòu)和屬性,而無需顯式地提供三維信息作為監(jiān)督信號。同時,隱式表示方法還能夠產(chǎn)生高質(zhì)量、高分辨率的圖像,使其在圖像生成、渲染和視覺重建等任務中具有廣泛的應用前景。D3D隨著AppleVisionPro3D3D3D2D3D3D傳統(tǒng)方法如單目深度估計、光流分析等依賴于經(jīng)典的圖像處理技術。單目深度估計通過分析圖像中的紋理、光照變化或邊緣信息來推測深度。然而,這種方法的準確性受限于圖像的質(zhì)量和紋理特征,在紋理信息不足、邊緣模糊等情況下表現(xiàn)不佳。光流分析法是一種通過計算視頻中連續(xù)幀之間的像素移動來估算場景深度的方法。它利用物體在幀間的運動來推測距離,生成深度信息。這種方法適用于動態(tài)場景,但在精度、計算復雜度和圖像噪聲干擾方面面臨挑戰(zhàn)。深度學習方法的興起促進了單目深度估計技術的快速發(fā)展,例如,可以采用卷積神經(jīng)網(wǎng)絡、生成對抗網(wǎng)絡、Transformer別器的對抗訓練,能夠生成高質(zhì)量的深度圖。Transformer2D3D雙目立體視覺技術雙目立體視覺是一種基于雙目相機的深度感知技術,它模擬了人類雙眼的視覺系統(tǒng)。通過安裝兩個攝像頭并調(diào)整它們的間距,雙目立體視覺系統(tǒng)可以同時采集同一場景的兩個不同視角的圖像。這兩個圖像之間存在一定的視差,利用這個視差信息,可以計算出場景中物體的深度信息。在雙目立體視覺中,使用傳統(tǒng)方法獲得場景的三維結(jié)構(gòu),通常使用如下圖所示的幾個步驟:圖13雙目立體視覺流程相機標定:相機的內(nèi)外參數(shù)是描述相機成像過程中的重要參數(shù),包括內(nèi)部參數(shù)和外部參數(shù)。內(nèi)部參數(shù)主要描述了相機的內(nèi)部幾何特性,如焦距、主點、畸變系數(shù)等,這些參數(shù)通常在相機制造時就固定下來,并且通常由相機制造商提供。外部參數(shù)則描述了相機與世界坐標系之間的幾何關系,包括相機的位置、朝向、旋轉(zhuǎn)角度等,這些參數(shù)需要通過相機標定或者視覺定位算法來獲取。內(nèi)外參數(shù)的準確性對于計算機視覺任務至關重要,它們在三維重建、攝像機運動估計、立體視覺等方面起著關鍵作用,能夠影響到最終結(jié)果的精度和穩(wěn)定性。對于相機內(nèi)參(如焦距、主點位置、鏡頭畸變),通??梢允褂闷灞P格標定法估計,讓相機拍攝多角度的印有棋盤格的物體,通過角點檢測找到棋盤格上的角點,再通過平面約束求解相機內(nèi)參。對于相機外參(如相機位置、朝向),可以使用稀疏光束平差(SBA,SparseBundleAdjustment)對多相機系統(tǒng)進行標定,該方法假定給定多個視角下二維點對應三維坐標初始估計,以及每個相機的內(nèi)參估計,利用這些信息完成一個優(yōu)化問題,包括所有相機的內(nèi)外參數(shù)以及三維點坐標,使得重投影誤差最小。圖像矯正:在相機相對位置一致的情形下,場景點在兩個相機上的投影滿足極線約束(EpipolarConstrain),即一幅圖像中的特征點在另一幅圖像上的所有可能的對應點的軌跡構(gòu)成一條二維直線,這條二維直線稱為極線(EpipolarLine),通過極線約束可以極大縮小立體匹配的范圍,提高立體匹配的魯棒性和穩(wěn)定性,減少計算復雜度。圖14對極幾何約束(P是場景點,O和O'分別是兩個相機的光心,p和p‘分別是P在兩個相機上的投影)理想情況下若兩相機成像面平行且對齊,參數(shù)相同,那么像素的極線就在水平方向上。但實際拍攝中,由于相機的安裝誤差、成像面不平行等原因,通常不滿足理想條件。因此,需要通過旋轉(zhuǎn)和平移相機的成像面使得它們與兩個相機的基線(Baseline)平行,以實現(xiàn)極線矯正。圖15旋轉(zhuǎn)相機成像面使其與基線平行立體匹配:對于一組經(jīng)過矯正的圖像對,通過立體匹配來獲取圖像對上像素點的對應關系。立體匹配的算法有全局算法、局部算法、深度學習的方法等。全局(半全局)立體匹配算法采用全局優(yōu)化理論,通過最小化全局能量函數(shù)(包含一個數(shù)據(jù)項和平滑項)得到最優(yōu)視差值。常用算法有動態(tài)規(guī)劃(DynamicProgramming)、圖割法(GraphCuts)、置信度傳播方法(BeliefPropagation)等。局部立體匹配的方法通過對參考圖像中的每個像素周圍定義一個窗口,并利用該窗口內(nèi)的像素信息與目標圖像中對應窗口進行匹配,進而計算像素間的視差。這種算法僅利用局部區(qū)域的約束數(shù)據(jù)進行匹配,不考慮全局一致性,具有計算復雜度低的優(yōu)點,但在低紋理、重復紋理、視差不連續(xù)和遮擋等情況下,匹配效果可能較差。近年來,隨著深度學習技術的發(fā)展,基于神經(jīng)網(wǎng)絡的立體匹配方法逐漸流行。這類方法利用卷積神經(jīng)網(wǎng)絡學習左右圖像之間的特征表示和匹配關系,例如神經(jīng)網(wǎng)絡的特征匹配、立體神經(jīng)網(wǎng)絡(StereoNeuralNetworks)等。三維重建:根據(jù)匹配的結(jié)果計算圖像中每個像素的視差值,然后利用視差值和相機參數(shù)進行三角測量,計算出場景中每個像素點的深度信息,從而可以得到稠密的三維空間點云。最后,對獲取的三維空間點云進行預處理、表面重建、模型優(yōu)化、后處理等步驟就可以得到更為光滑和精細的三維模型。多視立體視覺技術多視立體(MVS,MultipleViewStereo)視覺是雙目立體視覺的推廣,它通過多個攝像頭或者攝像頭組從不同的角度觀察同一場景,以獲取場景的多個視角圖像。視角之間的差異性提供了豐富的深度信息,使得系統(tǒng)能夠更準確地理解場景的三維結(jié)構(gòu)和物體的位置。多視立體視覺的方法包含體素重建法、點云擴散法、深度圖融合法等:體素重建法對計算機內(nèi)存設備的要求較高,如果想要表示較大的重建場景,則體素的數(shù)量只能增多,也即用硬件換取重建場景的范圍,而如果想要更精細的細節(jié),則需要更小但分辨率更高的體素,同時這也意味著更高的硬件要求。在有限的硬件資源下,如果想要表示大場景,只能降低體素的分辨率。點云擴散法將稀疏重建中得到的稀疏點云投影到各個視角的圖像,并向投影點周圍區(qū)域擴散。對于某個視角,在擴散的過程中,如果深度值與其他視角不一致或一致性較低,則視角間選出一致性最高的點作為新的深度值,這樣就能逐漸重建完整的點云模型。點云擴散法優(yōu)勢是重建得到的點云精度較高,且在模型上的分布均勻,但是劣勢是其在對弱紋理區(qū)域的處理能力較弱,容易造成空洞。基于深度圖融合的方法:對于每張紋理圖估計對應的深度圖,然后依次融合成點云。由于深度圖的計算可用GPU進行加速,其在視角數(shù)量眾多的場景下具有其他方法不可比的優(yōu)勢。此外,深度圖融合的方法相比其他方法,點云密度高,這也將有助于網(wǎng)格生成等下游任務。目前,大部分的開源MVS軟件以及商用MVS軟件均采用此方法。來源:/cdcseacave/openMVS圖16MVS重建效果基于深度圖融合的多視立體視覺通常經(jīng)過稀疏重建和稠密重建兩個階段。稀疏重建階段可以使用運動恢復結(jié)構(gòu)(SFM,StructureFromMotion)技術,在未知相機姿態(tài)的情況下恢復場景的稀疏三維結(jié)構(gòu)。稠密重建的主要任務是從已估計的相機姿態(tài)和稀疏三維點云出發(fā),進一步細化和豐富場景的三維結(jié)構(gòu),構(gòu)建場景的稠密三維模型。此外,隨著深度學習的發(fā)展,通過深度學習方法實現(xiàn)多視立體視覺也成為一種有效的手段。運動恢復結(jié)構(gòu)從圖像中恢復出場景的三維結(jié)構(gòu)是計算機視覺的基本目標。其中一種特別有效的三維重建方法使用靜止場景的眾多圖像來進行場景重建,也就是基于運動恢復結(jié)構(gòu)的三維重建。SFM主要分為增量式和全局式。增量式SFM采用逐步的方式處理圖像序列,一次處理一對或一小組圖像,然后逐步積累姿態(tài)信息來重建整個場景。全局式SFM會同時考慮所有的圖像,并在整個圖像集上進行優(yōu)化,以最大程度地提高重建結(jié)果的準確性和穩(wěn)健性。典型的增量式SFM算法通常包括以下幾個步驟:圖17典型的SFM算法流程特征點提取與匹配:特征點提取的目的是在圖像中識別具有顯著信息的點,這些點在視角變化、尺度變化和光照變化等情況下能保持穩(wěn)定性。常用的特征點如角點、邊緣尺度不變特征變換(SIFT,ScaleInvariantFeatureTransform)、ORB(OrientedFastAndRotatedBrief)等局部特征點。特征點匹配的目標是找到不同圖像中對應的特征點,即代表相同物理點的特征點。匹配過程中,首先計算特征點的描述子,然后使用距離度量(如歐氏距離、漢明距離等)來衡量它們的相似性,最后通過最近鄰搜索、暴力匹配等策略找到匹配的特征點。幾何驗證:特征匹配僅是基于特征點的外觀描述,因此無法保證對應的特征點實際上映射到相同的場景點。為此需要利用圖像間的幾何關系,來驗證這些特征匹配的正確性。常見的方法有隨機采樣一致性方法(RANSAC,RandomSampleConsensus)、85初始化:選擇一對合適的圖像來初始化模型是非常關鍵的,因為很有可能無法從錯誤的初始化結(jié)果中重建三維模型。此外,選擇密集、信息豐富的初始圖像對能夠提升重建的精度和魯棒性,而選擇稀疏的初始化位置可以減少計算復雜性,但重建質(zhì)量可能下降。圖像配準:增量式SFM重建需要在初始模型的基礎上逐步加入新圖像,并通過圖像配準和三角測量的方式更新模型。圖像配準過程從一個度量重建(MetricReconstruction)的模型開始,通過解決PnP(Perspective-n-Point)問題,估計新圖像的相機位姿(位置和朝向)并將新圖像配準到當前模型中。PnP過程利用特征點的對應關系,將新圖像中的特征點與已引入模型的圖像的三角測量點(2D-3D)進行匹配,得到新圖像的相機位姿以及未標定相機的內(nèi)參。三角測量:如下圖所示,三角測量是通過從不同視角的圖像中對同一場景點進行觀測,來確定該點的三維空間位置。通過這個過程,可以在三維空間中定位新點,并將其添加到現(xiàn)有模型中。三角測量是SFM的關鍵步驟,因為它不僅可以擴展場景模型,而且提供了多視角的冗余信息,從而增強了模型的穩(wěn)定性。圖18三角測量獲得三維點的深度光束法平差(BundleAdjustment):光束法平差是一種用于優(yōu)化相機位姿和三維點位置的技術。它通過最小化圖像中觀察到的特征點,與根據(jù)當前估計的相機位姿和三維點位置計算出的重投影位置之間的誤差來改善重建結(jié)果的準確性。在這個過程中,相機的位姿和三維點的位置被視為優(yōu)化變量,目標是使重投影誤差盡可能小。光束法平差通常使用迭代優(yōu)化算法來解決這個非線性優(yōu)化問題,并且通過反復迭代,不斷更新相機位姿和三維點的位置,直到達到收斂條件為止。最終的優(yōu)化結(jié)果可以提高三維重建的精度和穩(wěn)健性。稠密重建SFM深度估計:利用空間幾何一致性約束,即空間中一個點、塊在不同視角是顏色、形狀一致的,計算獲取得到每一張圖片每一個像素的估計深度。MVS的深度估計可以分為PlaneSweep與PatchMatch兩類。PlaneSweep但它通常能夠產(chǎn)生更準確的匹配結(jié)果,并且具有更好的魯棒性。點云融合(Fusion):根據(jù)上步驟獲取的深度圖,將二維像素點反投影到三維重建中,并進行重復點云的融合,獲得一個統(tǒng)一的稠密點云表示。網(wǎng)格化(Meshing)和紋理貼圖(Texturing):根據(jù)稠密點云,通過三角化等方法將點云結(jié)構(gòu)轉(zhuǎn)換成網(wǎng)格結(jié)構(gòu),并將紋理映射到網(wǎng)格模型上,最終獲得一個完整的場景/物體模型。圖19基于深度圖融合的多視立體匹配流程基于深度學習的多視立體視覺2018年起,多視立體視覺與深度學習結(jié)合的方法開始涌現(xiàn)。MVSNet借鑒了傳統(tǒng)方法中PlaneSweep(MatchingCostVolume),3D(可以類比于傳統(tǒng)方法里代價聚合)2D卷積精細化深度圖細節(jié)或者去除噪聲。MVSNetCasMVSNetMVSNet3D使得深度網(wǎng)絡也可以處理高分辨率圖像;DeepPruner拋棄PlaneSweep的代價構(gòu)建方式,使用可微分的PatchMatchMVS2、MVS3基于深度學習的多視立體視覺,無論是有監(jiān)督模型還是無監(jiān)督模型,與其他領域的深度學習模型一樣,同樣面臨著場景變換情況下泛化性的問題,相比之下,傳統(tǒng)方法則不需要訓練集,這是其最大的優(yōu)勢。無監(jiān)督的深度學習模型解決了真實標簽難以獲取的難題,但其效果仍然與SOTA有監(jiān)督模型存在一定差距。此外,關于深度圖生成速度問題,有監(jiān)督與無監(jiān)督模型訓練耗時極大,而訓練完成后模型的推理速度較高。相對而言,傳統(tǒng)方法生成深度圖的速度仍然很慢。全景立體視頻技術3602150VR際可見范圍會變得更小,通常在110度以下。因此,全景視頻數(shù)據(jù)中有一部分內(nèi)容無法在用戶有效視野內(nèi)顯示。當用戶使用頭顯或其他觀看工具時,全景圖像會被反映射成3D光線,根據(jù)用戶觀看的角度重新成像,以適應頭盔的限制,并在用戶的眼睛中呈現(xiàn)出一種沉浸感。全景立體視頻技術結(jié)合了全景視頻和立體視覺,可以為觀眾提供360度環(huán)繞和立體的視頻感受。構(gòu)建立體全景視頻會比平面全景視頻更加復雜,涉及到全景視頻的拼接技術以及全景立體視頻合成技術。全景視頻的拼接技術該技術是用來將多個成像設備在不同位置拍攝到的視頻內(nèi)容對齊并拼接為全景圖像的方法。常用的拼接方法包括:傳統(tǒng)的基于單映射的全景拼接技術、基于雙單應矩陣的拼接算法、基于動態(tài)直接線性變換法的拼接技術等?;趩螒仃嚨钠唇臃椒ǎ簡螒仃囃ǔC枋鎏幱诠餐矫嫔系囊恍c在兩張圖像之間的變換關系。若所有相機采集到的視圖共面或近似共面,或者視角變化不大時,則可以通過單應來進行相機位姿估計。這種方式適用于相機之間僅有旋轉(zhuǎn),沒有平移的情況。然而在實際拍攝過程中,多個相機的成像中心并不重合,對應不同景深的圖像區(qū)域帶有不同的視差(Parallax),無法正確地通過單應矩陣對齊,可能會出現(xiàn)拼縫或者失真等情況?;陔p單應矩陣的拼接算法:該技術使用兩個單應矩陣分別擬合近景平面和遠景平面,并且對這兩個單應矩陣進行融合,從而更好地對齊圖像。基于動態(tài)直接線性變換法的拼接技術:當場景為平面的或者相機位姿為純旋轉(zhuǎn),單應矩陣的拼接模型是合理的,然而實際情況中該前提很難滿足,因而會產(chǎn)生偽影(GhostingArtifact)?;趧討B(tài)直接線性變化法的拼接技術(APAP,As-Projective–As-PossibleWithMovingDLT)不再采用全局投影,而是允許局部存在相對于全局投影的偏差。APAP基于動態(tài)直接線性變換法(MovingDirectLinearTransformation,MovingDLT)可以無縫地橋接與投影模型不一致的圖像區(qū)域。該算法產(chǎn)生了高度準確的圖像拼接結(jié)果,顯著少了偽影現(xiàn)象,大大降低了算法對后處理階段去偽影的依賴性。全景立體視頻合成技術上述方式拼接出來的全景視頻只能給雙眼提供相同的內(nèi)容,缺乏3D深度感。為了提供六自由度的內(nèi)容,需要從有限的真實視圖合成虛擬視圖。這可以使用稠密的光流算法實現(xiàn),待合成的連續(xù)虛擬視點不是某個空間視點位置對應的完整圖像,而是分別針對左右眼視點且滿足ODS模型的像素列,這里模擬了用戶雙眼觀看現(xiàn)實世界的過程。圖21全景立體視頻內(nèi)容合成典型的全景立體視頻合成算法,首先從相鄰相機鏡頭之間提取重疊區(qū)域。然后逐像素計算左右重疊區(qū)域之間的雙向稠密光流信息,這里可以使用傳統(tǒng)方法如Lucas-Kanada方法、LK金字塔光流算法等,也可以使用深度學習的方法獲得光流如RAFT、GMA等。最后,根據(jù)光流信息及ODS模型合成左右眼的虛擬像素列。三維沉浸視頻內(nèi)容編碼涉及將三維場景的內(nèi)容編碼成數(shù)字數(shù)據(jù),以便在沉浸式視頻系統(tǒng)中傳輸、存儲和呈現(xiàn)。三維視頻和二維視頻很大的不同在于其表示格式、編碼技術和三維顯示技術之間是相互關聯(lián)的,不同的三維顯示需要使用不同編碼方案,如傳統(tǒng)的平面視頻編碼、雙目立體視頻編碼、多視點編碼、全景立體視頻編碼、體積視頻編碼等。傳統(tǒng)平面視頻編碼技術視頻編碼是指用于將數(shù)字視頻壓縮以便于存儲和傳輸?shù)囊幌盗幸?guī)范和算法。視頻編碼標準只規(guī)定了碼流的語法語義和解碼器,只要碼流符合相應的標準語法,解碼器就可以正常解碼。如下圖所示,從1980年代40(ITU-T)和國際標準化組織(ISO)/國際電工委員會(IEC)制定的H.26x標準,由開放媒體聯(lián)盟AOM制定的AVx)制定的AVS圖22主要編解碼標準發(fā)展歷史主流視頻編碼標準通常采用基于塊的混合編碼框架,以實現(xiàn)高效的視頻壓縮。如下圖所示為AVS3當前,支持多視點立體視頻編解碼標準的設備及應用仍然較少,傳統(tǒng)的平面視頻編碼標準在三維沉浸視頻中依然發(fā)揮著重要的作用。圖23AVS3編碼框架雙目立體視頻編碼技術雙目立體視頻通常以兩種方式進行表示。一種方式是將左右兩個視點分別作為兩個視頻序列進行編碼和傳輸,兩路視頻可以選擇任意平面視頻的編碼標準如AVC、HEVC、AVS32D2D另一種方式如下圖所示,將左右兩個視點拼接成一個視頻序列進行存儲或傳輸,雙目圖像可以按照左右或者上下的格式進行排列。使用這種方式的立體視頻可以通過專門的立體攝像機采集,也可以在兩個攝像機分別采集后再進行拼接處理。其優(yōu)點是可以直接使用現(xiàn)有的信道進行傳輸,也可以使用通用的平面視頻解碼器進行解碼?,F(xiàn)有的立體視頻服務多采用上述兩種方式對雙目立體視頻進行編碼和解碼。圖24左右視點拼接事實上,立體視頻的兩幅圖像通常具有比較強的視點相關性,存在著大量的空間冗余。對這種立體視頻格式進行編碼時,可以采取視點間預測方式。一種簡單的實現(xiàn)方式是使用普通的平面視頻編碼器對基準視點的圖像進行壓縮,然后利用已經(jīng)編碼的基準視點圖像來預測和編碼另一視點的圖像。這種預測編碼的過程類似于利用運動矢量和殘差圖像進行運動補償預測,從而實現(xiàn)對另一視點圖像的高效壓縮,減少存儲空間和傳輸帶寬的需求,同時保持較好的視頻質(zhì)量。多視點視頻編碼技術隨著裸眼3D立體顯示器、自由視角電視等設備不斷進步,并進入家庭消費場景,多視點編碼成為研究熱點。與普通立體顯示設備不同,多視點顯示設備需要同時傳輸多個視點的畫面來提供多角度、立體的觀看體驗,因而傳統(tǒng)的平面視頻編碼方式所需要的編碼碼率與視圖的數(shù)量近乎等比例增長。一種比較好的替代方案是以多視點加深度圖的方式來傳輸3D視頻。在這個格式中,只需對少數(shù)幾個視圖進行編碼,但每個視圖都有對應的深度圖,通過這些深度數(shù)據(jù)可以還原出所采集場景的基本幾何結(jié)構(gòu)?;趥鬏?shù)囊曨l圖像和深度圖,可以使用基于深度圖像的虛擬視點合成(DIBR,DepthImageBasedRendering)技術在接收端生成任意視角的3D視圖。為滿足上述需求并充分利用現(xiàn)有的平面視頻編碼標準提供最先進的壓縮能力,動態(tài)圖像專家組(MPEG)成立了一些專門的小組(如JCT-3V)并開發(fā)了一系列現(xiàn)有編碼標準的多視點擴展如MVC+D、MV-HEVC、3D-HEVC、MIV等,以下做簡單介紹。MVC+D和MV-HEVC的設計原則是繼續(xù)使用基礎平面視頻編碼標準AVC和HEVC。因此只需要更改現(xiàn)有標準的切片頭(Slice)或者更高級的語法元素就可以實現(xiàn)。MV-HEVC還采用了層(Layer)間處理的方式,其高級語法允許各層之間通過參考圖像列表進行關聯(lián),允許預測層的圖像使用參考層的圖像進行預測編碼。此外,通過輔助圖片層(AuxiliaryPictureLayers)機制來支持深度視圖,而有關深度輔助層的更詳細屬性,可以通過SEI消息提供。3D-HEVC通過引入新的塊級編碼工具進一步降低了碼率,這些工具有效地利用了視頻紋理與深度之間的統(tǒng)計依賴,并專門適應了深度圖的特性。由于深度圖通常包含由銳利邊緣分隔的均勻區(qū)域,因此采用了新的幀內(nèi)預測和殘差編碼方法,來處理這些特殊的信號特征。此外,還指定了新的深度圖編碼工具,允許進行視點間運動預測,或從紋理層預測運動和分塊信息。新引入的預測技術通過使用子塊分區(qū)來提升預測精度。在某些情況下,這些子塊分區(qū)可以將一個預測塊細分為具有非矩形形狀的兩個部分,從而進一步優(yōu)化編碼效果。在需要視頻紋理與深度的應用場景中,3D-HEVC提供了更大的優(yōu)勢。MIV(MPEGImmersiveVideo)是為了支持沉浸式視頻內(nèi)容的壓縮而開發(fā)的,該標準使得沉浸式視頻內(nèi)容可以通過現(xiàn)有或未來的網(wǎng)絡進行存儲和分發(fā),并支持6DoF視點播放。MIV是一個靈活的標準,支持帶有深度圖的多視點視頻(MVD,MultiviewVideoWithDepth)和多平面視頻,并利用強大的硬件支持來對體積視頻進行編碼。所有配置文件都有符合性比特流,MIV主配置文件用于MVD,MIV擴展配置文件支持MPI,此外還有適用于云端和解碼器端深度估計的MIVGeometryAbsentProfile文件。除了符合性測試外,MIV的驗證測試也已完成。MIV的編碼和解碼過程。在編碼器階段,包含紋理及深度組件的多個源視圖以及相機參數(shù)MIV—TMIV余進行修剪。然后,所有視圖以補?。≒atch)HEVC編碼器對視圖集進行編碼,子碼流與包含patchV3C格式的碼流。在解碼器端,碼流被解復MIV標準使用高效視頻編碼(HEVC,HighEfficiencyVideoCoding)技術,由于V3C(VVC,VersatileVideoCoding)、AVS3MIV圖25MIV編碼流程全景立體視頻編碼360常見的全景視頻投影方式包括等距矩形投影、多面體投影、非均勻投影等。等距矩形投影(ERP,EquirectangularProjection):是一種簡單的地圖投影方法,在這種投影方法中,將球面上的經(jīng)線和緯線圈分別投影為二維矩形平面上等間隔的垂直直線和水平直線。ERP圖26等距圓柱投影多面體投影:多面體投影使用球心透視方位投影的方法將球面投影到外切的多面體上,然后再將多面體展開成二維平面。多面體投影包括正四面體投影、立方體投影、正八面體投影、正十二面體投影和正二十面3D圖27多面體投影方式非均勻投影方式:全景視頻均勻投影技術適用于各種場景的全景視頻應用中,但是其編碼效率較低。為了取得更高的編碼效率,可以采用非均勻投影技術。非均勻投影技術將球面分為主視點區(qū)域和非主視點區(qū)域,投影時對主視點區(qū)域使用較高的采樣密度以保證主觀質(zhì)量,而對非主視點區(qū)域采用較低的采樣密度以節(jié)省碼率。非均勻投影主要適用于一對多的基于全景視頻流切換的應用中。在基于全景視頻流切換的應用中,服務器端編碼多路不同主視點的非均勻投影的視頻,服務器和客戶端之間根據(jù)用戶頭部視點實時選擇最近的一路流進行傳輸。2)全景立體視頻編碼技術全景立體視頻編碼技術是針對全景立體視頻的特殊需求而設計的一種編碼方案。與普通全景視頻相比,全景立體視頻需要在左右眼分別渲染有視差的全景圖像。與雙目立體視頻類似,全景立體視頻也涉及左右眼的視差處理,但是全景立體視頻的視圖是以球面形式呈現(xiàn)的,因此需要先將球面圖像分別投影成兩個平面視圖,然后再進行編碼。全景立體視頻的左右眼圖像可以使用傳統(tǒng)的平面視頻編碼方式分別編碼,也可以采用上文提到的雙目立體視頻編碼方式或者多視點編碼的方式。傳統(tǒng)的平面視頻編碼方式將左右眼圖像分別處理,然后采用常規(guī)的視頻編碼算法(如HEVC、VVC等)對其進行編碼和壓縮,最終生成左右眼各自的視頻流。而雙目立體視頻編碼方式則將左右眼圖像作為一對立體圖像進行處理,通過特定的立體視頻編碼算法對其進行聯(lián)合編碼,以充分利用左右眼之間的相關性和視差信息,從而實現(xiàn)更高效的壓縮和傳輸。此外,將左右眼視頻按照左右或者上下排布直接拼接在一起,然后使用平面視頻編碼標準進行編碼,也是一種目前廣泛支持的編碼方式。選擇哪種編碼方式取決于具體的應用場景、編碼效率、解碼和渲染終端等因素。體積視頻編碼體積視頻通常由一系列包含深度信息的幀組成,常見的表示形式包括點云、三維網(wǎng)格等。點云:是三維沉浸視頻領域廣泛使用的數(shù)據(jù)格式之一,但其原始數(shù)據(jù)通常過于龐大,難以高效存儲和傳輸。此外,更高分辨率的點云采集技術對點云數(shù)據(jù)量的大小提出了更高的要求。為了使點云數(shù)據(jù)可用,壓縮是必要。為此,MPEG-IG-PCC(Geometry-basedPointCloudCompression)標準和基于視頻的點云壓縮V-PCC(Video-basedPointCloudCompression)標準,可以顯著減少點云的數(shù)據(jù)量,推動點云格式在各個領域的廣泛應用。V-PCC(3D)點云投影到二維(2D)圖2D(如AVS、HEVC)編碼這些2D隨著深度學習技術在圖像視頻壓縮等方面的應用進展,基于深度學習的點云壓縮迎來一系列發(fā)展。基于八叉樹的點云編碼方法迭代地把包含點云的最小立方體劃分為八個子正方體,然后用一個字節(jié)編碼八個子正方體是否包含“點”這一信息,最后使用基于上下文的算術編碼進一步去除相關性?;诖?,一些方案利用神經(jīng)網(wǎng)絡來估計八叉樹節(jié)點的熵模型,并且運用到動態(tài)場景中。還有一些方案結(jié)合八叉樹架構(gòu)與體素結(jié)構(gòu)的各自優(yōu)勢,提出利用相鄰節(jié)點的體素化的信息來增強對時空信息的利用,進一步提升點云的壓縮效率。也有一些方案利用基于深度神經(jīng)網(wǎng)絡的變分自編碼器來高效地壓縮點云幾何信息。動態(tài)網(wǎng)格:相較于保持固定連接性的跟蹤網(wǎng)格序列,具有時變連接性的動態(tài)網(wǎng)格雖然能夠提供更好的生成質(zhì)量和更簡化的生成過程,但也代表了龐大的數(shù)據(jù)量和復雜的壓縮需求。為此,MPEG發(fā)布了新的動態(tài)網(wǎng)格標準,稱為基于視頻的動態(tài)網(wǎng)格編碼(V-DMC,Video-basedDynamicMeshCoding)。這一技術使用低分辨率網(wǎng)格序列(稱為基網(wǎng)格)及其附加信息,如位移信息和紋理圖,以重建高分辨率的輸入網(wǎng)格序列?;W(wǎng)格可以使用任意網(wǎng)格編碼器進行編碼,而根據(jù)體積視頻編碼(V3C)格式的標準,可以使用任意視頻編碼器對附加信息進行編碼。多視點視頻雙視點、多視點雙目立體視頻,利用左右眼視差帶來視覺上的立體感??梢允莾蓚€或多個帶有視差的多路視頻,也可包含深度信息。由于每個視點都有自己的視頻流,多視點視頻數(shù)據(jù)總量非常龐大,這對網(wǎng)絡帶寬、存儲和處理能力都提出了高要求。為此可以根據(jù)用戶當前的視點和潛在的移動方向,只傳輸相關視點的視頻流,減少不必要的數(shù)據(jù)傳輸。經(jīng)測試,Iphone15Pro1080p@30fps15Mbps。FOV視頻4KVR540P,8K120fps150Mbps視場角(FOV,F(xiàn)ieldOfView)視頻技術將根據(jù)視角對VR360°視頻進行分段。用戶無需從全視角360°2KXRP95150ms95150ms。圖28全景視頻流切換體積視頻體積視頻本質(zhì)是三維模型序列,可以由三維模型的Mesh202293D資源分享社區(qū)Sketchfab11表1體積視頻典型參數(shù)體驗分檔幀率紋理分辨率紋理幀序列碼率Mesh面數(shù)Mesh幀序列碼率入門30FPS2048Px2048P10Mbps(H.265)10萬面70Mbps良好30FPS4096Px4096P25Mbps(H.265)50萬面125Mbps優(yōu)秀60FPS8192Px8292P60Mbps(H.265)100萬面260Mbps三維沉浸視頻傳輸網(wǎng)絡要求

來源:WirelessXLabs經(jīng)測試驗證,當網(wǎng)絡帶寬達到視頻碼率的1.5倍時能夠滿足流暢播放需求,達到5倍時可滿足“秒開”體驗需求。視角切換時延需求是100ms@95%,其中服務器時延30ms,網(wǎng)絡時延100ms,客戶端時延20ms。表2三維沉浸視頻網(wǎng)絡傳輸要求視頻類型分辨率典型碼率流暢播放網(wǎng)絡要求“秒開”網(wǎng)絡要求雙目立體視頻(雙視點)1080p15Mbps23Mbps75Mbps2K20Mbps30Mbps100Mbps4K80Mbps120Mbps400MbpsFOV視頻4K15Mbps23Mbps@幀時延P95100ms75Mbps@幀時延P95100ms8K30Mbps45Mbps@幀時延P95100ms150Mbps@幀時延P95100ms體積視頻2K80Mbps120Mbps400Mbps4K150Mbps250Mbps750Mbps

來源:WirelessXLabs3D、自由視點技術可以提供多個視點,因而觀看者可以在任意允許的視點范圍內(nèi)觀看,但視點越多,所需同時傳輸?shù)臄?shù)據(jù)量就越大,這對于帶寬和存儲都帶來了巨大的壓力。此外,視點越多,拍攝成本相應就越高,因此需要使用虛擬視點合成術。如下圖所示,虛擬視點合成技術是一種利用已有視角的圖像或視頻信息,通過計算機圖形學方法,在場景中生成新的視角的技術。該技術通常通過分析場景的幾何和光學屬性,結(jié)合視角之間的關系,使用插值、合成和空洞填補等算法,生成具有逼真效果的新視角,使用戶能夠以不同的角度和位置觀察場景,從而提升觀看體驗和增強沉浸感。按合成原理,渲染虛擬視點的方法可以分為基于模型的方法,即MBR(ModelBasedRendering)方法,以及基于圖像的渲染,即IBR(ImageBasedRendering)方法。三維沉浸視頻的交互是指在渲染三維沉浸視頻時,用戶可以與視頻內(nèi)容進行互動的過程。這種交互可以包括改變觀看角度、調(diào)整視角位置、縮放或移動場景等操作。通過交互,用戶能夠更加自由地探索視頻內(nèi)容,增強沉浸感和參與感。這需要使用先進的渲染技術和交互設計,以確保用戶體驗流暢、直觀和令人滿意。圖29虛擬視點合成基于模型的渲染技術基于模型的渲染是通過使用三維場景模型(包括幾何形狀、材質(zhì)屬性、紋理等)來生成圖像的過程。它涉及將三維場景投影到二維視圖平面上,計算每個像素的顏色值,并考慮光照、陰影、反射等視覺效果,以創(chuàng)建符合真實或虛擬環(huán)境的圖像。基于模型的渲染依賴于預先創(chuàng)建的三維模型,這些模型可以通過不同的方式獲取,如高精度掃描儀、多視立體幾何等。雖然MBRMBR基于深度圖像的渲染IBR技術通常無需建模,通過二維圖像及相應的幾何信息即可渲染虛擬視點。通常來說,場景的圖像信息容易獲取且合成速度較快,但由于圖像只包含二維信息,缺乏空間幾何信息,導致合成的虛擬視點質(zhì)量不理想。而使用基于深度圖的合成技術(DIBR,DepthImageBasedRendering)則可以平衡合成質(zhì)量與速度。DIBR技術利用輸入數(shù)據(jù)中提供的深度信息,結(jié)合參考視點和虛擬視點不同的相機位姿,生成虛擬視點所能看到的圖像。相較于傳統(tǒng)的IBRDIBR圖像生成對應的深度圖,即可完成虛擬視點圖像的繪制。因此,DIBR外,DIBR用中更為可行和有效?;谏疃葓D的虛擬視點合成首先將原圖中的點反投影至真實世界中的3D坐標,接著,將3D點重投影到用戶指定視角的成像平面上。在DIBR系統(tǒng)中,所有三維點的坐標、相機內(nèi)外參數(shù)都需要作為元數(shù)據(jù)傳遞到接收端。多視點采集系統(tǒng)與虛擬視點合成系統(tǒng)都在相同的三維世界坐標系下,以便采集系統(tǒng)的真實攝像機和虛擬攝像機之間的相對關系能很好地定義?;谝陨蠋缀侮P系,合成步驟如下圖所示:圖30DIBR合成虛擬視圖的流程深度圖在獲取時常常會出現(xiàn)噪聲以及深度與紋理不對齊等問題的影響,導致合成的虛擬視點出現(xiàn)前后景紋理錯誤等情況。為了減輕這些問題帶來的影響,在進行圖像變換之前通常需要對深度圖進行預處理,例如使用中值濾波或高斯濾波等方法,以平滑深度圖像的過渡,避免產(chǎn)生突兀的效果。接著,通過三維圖形變換(3DWarp)的過程,利用圖像紋理、深度信息以及相機內(nèi)外參數(shù),建立起參考視點和虛擬視點像素之間的聯(lián)系,從而合成虛擬視點。在此過程中,需要確保虛擬視點能夠準確地反映場景中的幾何和紋理信息,以實現(xiàn)真實的合成效果。得到多張?zhí)摂M視點圖像后,通常需要進行圖像融合的步驟,以生成最終的虛擬視點圖像。這一過程可以通過將同一位置的像素點根據(jù)其距離進行加權融合來實現(xiàn)。最后,由于虛擬視點的部分區(qū)域可能無法從任意視點獲得,因此需要對虛擬視點圖像進行空洞填補,以完善合成的虛擬視點。在經(jīng)典的DIBR框架中,一種簡單且快速的空洞填充方法是使用均值濾波,這種方式在速度上比較有優(yōu)勢。雖然DIBR技術具有傳輸簡便、節(jié)省帶寬和合成速度快的優(yōu)點,但合成虛擬視點的圖像質(zhì)量仍然是一個挑戰(zhàn),常見的問題包括空洞、偽影、邊緣模糊和時域不穩(wěn)定等現(xiàn)象?;趫D像域形變的虛擬視點合成基于圖像域形變的虛擬視點合成是另一重要的視點合成方法。對比依賴稠密深度圖或者視差圖的DIBR技術,圖像域形變(IDW,Image-DomainWarping)通過稀疏的視差關系即可合成新的視點。人眼并不能精確地估計絕對深度,對于看似合理的圖像,人眼對圖像失真并不十分敏感,因此可以將圖像失真隱藏在非顯著區(qū)域。受到這一點的啟發(fā),IDW的IDW圖31雙視點合成多視點步驟首先進行數(shù)據(jù)提取,獲取輸入圖像的稀疏視差特征以及圖像顯著性特征。稀疏視差就是同一極線上匹配的像素點的橫坐標之差,常用的方法有特征點匹配、光流追蹤等,顯著性特征則可以在后續(xù)步驟中減少合成誤差。完成數(shù)據(jù)提取后,如下圖所示,可以將輸入圖像形式化為一個個規(guī)則的網(wǎng)格,然后定義一個非線性能量函數(shù)對網(wǎng)格進行畸變后得到新的圖像,從而獲取計算中間視點所必須的Warping。接著進行形變插值,一般選取兩個最近的相機作為參考,并將其Warping到中央相機,而其他位置的虛擬視圖則可以通過左右真實相機以及中央的虛擬視圖插值而得到,這樣做主要是為了減少計算量。最后進行圖像域形變,虛擬視點由較近的輸入圖像合成。由于Warping拉伸隱性地對閉塞區(qū)域進行了紋理修復。然而,僅僅使用一張圖合成虛擬視點會造成邊緣區(qū)域空洞,因此該區(qū)域再使用另一張圖作為參考以補償邊緣空洞。這種方法依賴于稀疏視差和圖像顯著性信息,約束合成的虛擬視圖強行滿足目標的視差估計,在沒有深度圖的情況下依然具有相對高質(zhì)量的合成結(jié)果。圖32Wraping示例圖三維沉浸視頻交互三維沉浸視頻交互是指用戶通過直觀的交互方式,沉浸在三維虛擬環(huán)境中并與其中的內(nèi)容進行互動。用戶由被動觀看變?yōu)橹鲃有蕾p,可以在三維空間中自由探索,從而獲得身臨其境的互動體驗。典型的交互方式包括:頭部追蹤及人眼追蹤:在頭戴式顯示器或增強現(xiàn)實眼鏡中,用戶可以通過轉(zhuǎn)動頭部自由改變視角,從3D顯示技術中,通過人眼追蹤技術,系統(tǒng)可以實時檢測用戶3D觸摸屏操作:用戶通過觸摸屏幕或觸摸板等設備直接與系統(tǒng)進行交互。例如,在裸眼3D設備上,用戶可以通過滑動屏幕來切換視角,或者通過多指操作來放大、縮小、旋轉(zhuǎn)、進入或退出場景。觸摸交互的直觀性和便捷性使其成為三維沉浸視頻中常見的交互方式。體感和手勢交互:體感設備可以捕捉用戶的身體動作,實現(xiàn)與沉浸視頻內(nèi)容的交互,如微軟的kinect可以通過深度攝像頭和紅外傳感器捕捉用戶的全身動作。手勢識別技術的進步使得手勢操作更加豐富和精確,如AppleVisionPro定義了互點手指、捏合并拖移、輕觸等多種手勢,使得交互過程更加自然和直觀??刂破鹘换ィ菏翘摂M現(xiàn)實體驗中常見交互方式。虛擬現(xiàn)實控制器,如SKYWORTHPancake1C6DoF手柄和HTCViveControllers等,通過內(nèi)置傳感器和觸控面板實現(xiàn)精確的運動跟蹤和便利的操作。這些控制器不僅提供高精度的空間定位,還可以支持振動反饋和力反饋,使得VR體驗更加豐富和身臨其境。語音交互:隨著大語言模型如ChatGPT、文心一言等的廣泛應用,以及語音識別技術的發(fā)展,語音交互技術賦予了虛擬環(huán)境更高的智能化和便利性。例如,用戶可以通過語音命令輕松實現(xiàn)視角切換、播放控制、場景變換等操作。這種交互方式在無需手動操作的情況下提供了極大的便利,尤其是在需要專注于其他任務或復雜操作的場景中,語音交互成為一種高效的交互手段。三維沉浸視頻的終端設備包括支持高分辨率和高幀率的顯示設備、3D眼鏡與VR頭戴顯示器、裸眼3D設備等。立體顯示設備的種類繁多,基本原理都是相似的,通過為兩只眼睛呈現(xiàn)不同的圖像,以實現(xiàn)三維立體的效果,下面依次介紹幾類三維沉浸終端顯示設備。平面視頻顯示器平面視頻顯示器是一種用于顯示2D視頻內(nèi)容的設備,通常采用陰極射線管(CRT,CathodeRayTube)、液晶顯示(LCD,Liquid-CrystalDisplay)、發(fā)光二極管(LED,Light-EmittingDiode)、有機發(fā)光二極管(OLED,OrganicLight-EmittingDiode)或其他類似技術。這些顯示器廣泛用于各種場景,包括電視、電腦顯示器、移動設備、商場大屏等。平面視頻顯示器具有一些顯著的優(yōu)勢,例如高分辨率、良好的色彩表現(xiàn)。它們能夠以高質(zhì)量和高清晰度顯示視頻內(nèi)容,使用戶能夠享受到更加逼真和清晰的視覺體驗。此外,平面視頻顯示器通常具有較低的功耗,使其在節(jié)能環(huán)保方面具有優(yōu)勢,同時也更加輕薄便攜,適用于各種場所和應用場景。近年來,平面顯示器的發(fā)展體現(xiàn)出以下趨勢:更高的分辨率和更高的像素密度:隨著技術的進步,平面顯示器的分辨率和像素密度不斷提高,從1080p到4K再到8K甚至12K,以實現(xiàn)更清晰、更逼真的圖像顯示。高分辨率和高像素密度的顯示器可以呈現(xiàn)更多的細節(jié)和更精細的圖像,提升用戶的視覺體驗。10bit色深、高動態(tài)范圍、寬色域:隨著顯示技術的發(fā)展,平面顯示器對色彩的還原能力也在不斷提升。10bit更薄更輕的設計:隨著人們對便攜性和美觀性的需求不斷增加,平面顯示器的設計趨向更薄更輕。柔性屏和折疊屏的廣泛使用使得屏幕變大的同時,體積和重量減少,便于收納和攜帶。更高的刷新率和更快的響應時間:對于游戲和多媒體應用來說,高刷新率和快速的響應時間是至關重60Hz120Hz144Hz240Hz,以滿足用戶對于流暢游戲和視頻播放的需求。然而,與其他類型的顯示技術相比,平面視頻顯示器也存在一些局限性,例如有限的觀看角度,缺乏立體感等。3D眼鏡式3D顯示的主要實現(xiàn)方法有三種,色分式、偏光式和時分式。色分式3D眼鏡又稱為紅藍眼鏡,左右眼分別看到的圖像使用不同的顏色濾光片進行過濾,通常一個眼鏡片是紅色,另一個是藍色。在觀看時,一只眼睛只會接收到紅色光,另一只眼睛只會接收到藍色光,從而實現(xiàn)立體效果。然而,這種技術會導致顏色失真,并且觀看時可能出現(xiàn)視覺疲勞,因而適用范圍較小。3D3D3D影像時,屏幕上顯示的圖像采用線性偏振或圓偏振方式。每只眼睛的眼鏡片僅允許與其偏振方向一致的光線通過,過濾掉其他方向的光線。這樣,左右眼看到的圖像經(jīng)過大腦的融合,產(chǎn)生了真實的立體效果。時分式3D顯示技術會在不同的時間段內(nèi)切換顯示不同的圖像或圖像信號。例如,在某一時刻,屏幕會顯示左眼所需的圖像,同時眼鏡的濾光器會使左眼接收到這部分圖像的光信號,而右眼則會被屏蔽或接收到不完整的圖像光信號。然后,在接下來的時刻,屏幕會顯示右眼所需的圖像,并相應地調(diào)整眼鏡的濾光器,使右眼接收到這部分圖像的光信號,而左眼則被屏蔽或接收到不完整的圖像光信號。這種方式為了保證能看到連續(xù)不閃爍的3D圖像效果,一般會要求顯示器的刷新率達到120Hz,這樣左右眼分別可以達到60Hz的刷新率。3.頭戴顯示器頭戴顯示設備(HeadMountDisplay,HMD)是一種可以佩戴在頭部的裝置,通過將顯示屏置于用戶的眼睛前方,實現(xiàn)沉浸式的觀看體驗。由于頭戴式顯示設備天然的在用戶左右眼分別播放畫面,所以可以方便的支持3D立體顯示。這些設備通常包括顯示屏、透鏡、傳感器和計算處理單元等組件,可以提供沉浸式的視聽體驗和交互功能。頭戴顯示設備可以分為虛擬現(xiàn)實(VR,VirtualReality)頭顯、增強現(xiàn)實(AR,AugmentedReality)頭顯和混合現(xiàn)實(MR,MixedReality)頭顯三種類型:虛擬現(xiàn)實頭顯:虛擬現(xiàn)實頭顯通過完全封閉用戶的視野,并提供全景的虛擬環(huán)境,使用戶完全沉浸在虛擬世界中。這些設備通常配備高分辨率的顯示屏和透鏡,可以呈現(xiàn)出逼真的虛擬場景,并通過頭部追蹤技術實現(xiàn)用戶的視角變換,從而營造出身臨其境的體驗。增強現(xiàn)實頭顯:增強現(xiàn)實頭顯通過透明的顯示屏將虛擬內(nèi)容疊加在現(xiàn)實世界中,使用戶可以同時看到虛擬圖像和真實環(huán)境。這些設備通常配備攝像頭和傳感器,可以實時捕捉用戶的周圍環(huán)境,并將虛擬圖像與現(xiàn)實場景進行融合,為用戶提供豐富的增強現(xiàn)實體驗?;旌犀F(xiàn)實頭顯:混合現(xiàn)實頭顯結(jié)合了虛擬現(xiàn)實和增強現(xiàn)實的特點,既可以呈現(xiàn)出完全虛擬的環(huán)境,又可以將虛擬圖像與現(xiàn)實環(huán)境進行交互和融合。這些設備通常具有更高級的傳感器和計算處理能力,可以實現(xiàn)更復雜的虛實融合效果,為用戶提供更加逼真的混合現(xiàn)實體驗。頭戴顯示設備可以應用于游戲娛樂、教育培訓、醫(yī)療保健、工業(yè)設計等領域,為用戶提供沉浸式的體驗和全新的交互方式。隨著技術的不斷進步和成本的降低,頭戴顯示設備有望成為未來人機交互和娛樂體驗的重要載體。3D裸眼3D顯示設備可以分為三個大類,全息3D顯示器(Holographic3DDisplays)、體積3D顯示器(Volumetric3DDisplays)和多視角立體3D顯示器(Autostereoscopic3DDisplays)。全息3D顯示是一種能夠記錄并再現(xiàn)實物的振幅和相位信息的先進顯示技術。它通過記錄激光光束經(jīng)過物體時的相位和振幅等信息,然后再用這些信息通過特定介質(zhì)(例如光折射聚合物)來進行再現(xiàn)的技術。此外,利用空間光調(diào)制器進行光波的調(diào)制,可以通過數(shù)值模擬實現(xiàn)計算機生成的全息系統(tǒng)。3D利用一些特殊的介質(zhì),如被困的顆?;驘晒馄聊?,來產(chǎn)生空間中的光點(也稱為體素)。這些光點通過在介質(zhì)中激發(fā)光源,形成發(fā)光的圖像點。通過控制光源的位置和強度,可以在空間中形成各種形3D2D332D2D3D3D3D3D3D(如液晶顯示、有機發(fā)光二極管顯示、發(fā)光二極管顯示)。這種設計緊湊、易于與平板顯示設備集成、易于調(diào)制且成本較低,非常適用于便3D33D:這種技術使用一層被稱為視差障礙或者視差柵欄的遮光層,該層位于顯示屏和觀眾之間。視差障礙層包含一系列微小的條紋或凹槽,通過這些結(jié)構(gòu)來限制觀看者左右眼看到的圖像,從而在腦海中形成立體的圖像。這種方式的缺點是隨視角增加,分辨率和亮度均會降低。圖33基于視差壁障的3D顯示3D:這種技術使用柱狀透鏡,透鏡表面有一系列縱向排列的微型柱狀凸起。這些柱狀透鏡通過調(diào)整左右眼所看到的像素,使得左眼和右眼分別感知到不同的圖像,從而產(chǎn)生立體效果。為實現(xiàn)多視角的顯示,可以使用每個微透鏡記錄多個視角的子圖像,每個微透鏡的子圖像都包含了若干個像素,此時各像素所記錄的光線強度就來自于一個微透鏡和一個鏡頭的子孔徑區(qū)域之間所限制的細光束。這種技術同樣會導致分辨率的損失。為了拓展可視角度,還可以添加眼球追蹤系統(tǒng)獲取人眼所在的位置,通過這種方式實時調(diào)整顯示屏顯示圖像的位置,從而擴大可視范圍。圖34基于柱狀透鏡的3D顯示3DLED,配合快速反應的液晶面板和驅(qū)動方法,3D(Sequential)的方式先后進入觀看者的左右眼產(chǎn)生33D,該技術使用多塊不同角度的屏幕(至少是兩個不同顯示面,常見為LED)使用三維縫合拼接技術進行立體內(nèi)容顯示。真實LED3D

來源:七維視覺科技圖35動態(tài)裸眼3D顯示針對普通的二維視頻,其質(zhì)量評價主要可以分為兩大類:主觀質(zhì)量評價、客觀質(zhì)量評價。主觀質(zhì)量評價是由測試者按照規(guī)定的實驗流程觀看一組存在失真的視頻,并對視頻質(zhì)量進行主觀打分評價的方法。而客觀質(zhì)量評價通過設計數(shù)學模型來模擬人眼對圖像質(zhì)量的感知,以盡可能實現(xiàn)和主觀評價一致的評價結(jié)果。與傳統(tǒng)的二維視頻不同,三維沉浸視頻可以提供空間維度、沉浸感和臨場感等觀影體驗。因其沉浸式的視覺體驗,觀眾往往會有較強的臨場感和包圍感,這對視頻質(zhì)量的評價產(chǎn)生重大影響。受觀影設備的影響,三維沉浸視頻觀影設備(如VR頭顯)的性能對視頻體驗影響巨大,分辨率、刷新率、FOV和設備的舒適度都可能直接影響到質(zhì)量評價。因此,除了二維視頻的評估指標外,三維沉浸視頻質(zhì)量評價還需要考慮深度感知、視場角(FOV)、延遲、運動跟蹤精度、渲染質(zhì)量和實時性等影響。其主觀評價也會包括更多心理層面的評價,如舒適度、可交互性、沉浸感等。三維沉浸視頻主觀質(zhì)量評價方法[8,9]三維沉浸視頻主觀質(zhì)量評價實驗包括針對各種終端顯示設備,如使用眼鏡式3D顯示(由于用途限制,使用較少),頭戴式顯示器(HMD,Head-MountedDisplay),以及裸眼3D顯示設備等觀看的360°視頻。[ITU-TP.919]標準較為詳細介紹了時長為10s-30s之間的較短三維沉浸視頻的主觀實驗方法。視頻源選擇360°視頻源應根據(jù)學術研究的具體目標進行選擇,并記錄在數(shù)字存儲系統(tǒng)中。應保證原始視頻的質(zhì)量盡可能高,盡可能使用最大空間分辨率和幀率,并使用原始的、未壓縮的視頻。視頻源應當具有足夠充分的空間信息和時間信息,同時應當保證在測試中,源視頻可以引起受試者各種不同類型的探索行為。主觀實驗環(huán)境:應控制實驗環(huán)境盡量保持安靜,且環(huán)境場景中沒有可能引起受試者注意力分散的因素。同時保證受試者可以合理地利用實驗設備進行實驗。為了保證沉浸視頻的特點,并保證對全景視頻質(zhì)量的準確感知,應該保證使用的沉浸式視頻終端顯示設備符合商用設備的使用規(guī)范和要求,且需要保證顯示設備有360HMD3D主觀實驗方法:主要方法包括絕對類別評級法(ACR,AbsoluteCategoryRating)和損傷類別評級法(DCR,DegradationCategoryRating)。ACR方法是單刺激主觀評價法,每次只呈現(xiàn)一個失真視頻,并在類別范圍內(nèi)獨立評分。ACR:5;4;3;2;1DCR:5;3;22515主觀評分記錄方法3D觀看視頻時頭戴HMDVR程序在每段視頻觀看結(jié)束后,在HMD設備上顯示一個評分欄,并且以受試者28況和頭部位置,記錄應由HMD內(nèi)部的應用程序完成。實驗數(shù)據(jù)處理方法:對于主觀測試實驗的結(jié)果,應使用統(tǒng)計方法篩選符合規(guī)范的主觀測試數(shù)據(jù),剔除離群值。最終應給出每段視頻的評估等級統(tǒng)計分布的均值,即平均意見分數(shù)(MeanOpinionScoreMOS)和標準差。這些統(tǒng)計值的計算方法見[ITU-RBT.500-14],[ITU-TP.800.2]提供的有關信息。三維沉浸視頻客觀質(zhì)量評價方法全景沉浸視頻質(zhì)量客觀評價旨在設計合理的算法,準確預測沉浸視頻的用戶觀看質(zhì)量,使之達到與主觀質(zhì)量評價結(jié)果相近的結(jié)果。優(yōu)良的客觀評價算法或模型能夠快速有效地預測各種場景下的失真沉浸視頻質(zhì)量,其研究成果能夠用于指導沉浸視頻相關技術的設計和優(yōu)化,進而提高沉浸視頻應用的用戶視覺體驗質(zhì)量。目前絕大多數(shù)現(xiàn)存的關于全景沉浸式視頻的質(zhì)量評價方法集中于二維沉浸視頻的質(zhì)量評價方面。二維沉浸視頻的質(zhì)量評價主要關注投影變形對圖像質(zhì)量的影響,特別是在極地區(qū)域的失真(如ERP)。此外,2D3602D2D對于三維全景沉浸視頻的客觀評價算法,由于三維全景沉浸視頻不僅需要考慮視角范圍和投影變形,還必須處理雙目視覺帶來的額外復雜性,處理雙眼之間的協(xié)調(diào)性和舒適度。全景3D圖像包含兩個視角(左視圖和右視圖),在用戶佩戴頭戴顯示設備時,這些圖像會被分別呈現(xiàn)在用戶的左右眼中,形成立體視覺效果。2D2D3D1)二維沉浸視頻全參考客觀質(zhì)量評價方法:早期的二維沉浸視頻(圖像)的全參考質(zhì)量評價方法主要2D(圖像)的經(jīng)典全參考評價方法,整體屬于基于經(jīng)驗和手工提取特征的方法。一些學者直接對參考和失真全景二維視頻(圖像)ERP2D(PSNR,PeakSignal-to-NoiseRatio)和結(jié)構(gòu)相似度(SSIM,StructuralSimilarity),從而得出簡單的全參考質(zhì)量估計。然而,ERPERPPSNR360°全景內(nèi)容的評價。球形加權峰值信噪比(WS-PSNR[10])PSNR計算克拉斯特拋物線投影的PSNR655362在此之后,出現(xiàn)了一些基于數(shù)據(jù)驅(qū)動的機器學習方法,一些模型采用特征提取—質(zhì)量評價模型訓練的思路,首先設計了兩組特征來描述拼接失真(模糊、重影和幾何失真等)在二維沉浸視頻中引起的結(jié)構(gòu)和空間一致性的變化,并分別從失真視頻和原始無失真視頻中進行提取。然后,計算失真和無失真圖像之間的特征差值,并將它們作為支持向量回歸器的輸入訓練質(zhì)量評價模型。近年,一些基于深度神經(jīng)網(wǎng)絡的深度學習全參考質(zhì)量評價方法已被提出。一種較新的全參考質(zhì)量評價方法綜合考慮了三維沉浸視頻觀看過程中視窗的選取和視窗投影圖像的顯著性檢測。視窗(實際觀看空間)指2Dt360°幀圖像與之前Δt360°幀圖像取時間差值,之360°幀圖像合并輸入基于球面卷積神經(jīng)網(wǎng)絡(CNN,ConvolutionalNeuralNetwork)的視窗選取網(wǎng)絡,輸出待選擇的視窗和該視窗的重要性權重。之后使用軟非極大值抑制(SofterNon-maximumSuppression)算法合并重合度較高的視窗,并剔除不重要的視窗。最后選取得到用于全參考評價的視窗。之后將t到質(zhì)量評價網(wǎng)絡中,使用CNN與計算顯著性圖結(jié)合的方式預測出該視窗的全參考質(zhì)量預測分數(shù),之后將t時刻所有視窗的質(zhì)量分數(shù)加權平均得到t時刻360°失真圖像幀的預測質(zhì)量分數(shù),最后取所有幀的平均作為整段視頻的全參考質(zhì)量預測分數(shù)。這種方案綜合考慮了用戶觀看二維沉浸視頻時對不同時刻不同視窗內(nèi)容的敏感差異以及對于單個視窗內(nèi)容關注的顯著性差異,是一種較全面的二維沉浸視頻全參考質(zhì)量評價方法。圖36全景沉浸式視頻單幀投影到右視窗示意圖(FOV為90°)2二維沉浸視頻無參考客觀質(zhì)量評價方法:主要包含基于ERP投影空間的方法以及基于視窗的方法。基于ERP投影空間的方法的主要思想是直接通過對ERP投影形式圖像進行特征提取和特征融合得到質(zhì)量分數(shù)。由于ERPERP基于視窗(實際觀看空間)的方法主要是通過模擬人類在現(xiàn)實中觀看二維沉浸式內(nèi)容時的真實過程或特性,以獲得與人類主觀評價更接近的客觀質(zhì)量評價結(jié)果。這類方法中視窗的投影和選取非常重要。一種基于多通道CNN13]引入了六面視窗投影預處理,得到二維沉浸式視頻前、后、左、右、上、下六個視窗的視窗投影序列。之后使用改進的ResNet34慮到ResNet前ResNet34結(jié)構(gòu)的基礎上,使用HyperResNet結(jié)構(gòu),融合網(wǎng)絡中間層特征。最后通過全局平均池化和全局標準差池化得到每幀視窗圖像的特征向量,使用全連接層輸出每幀圖像的質(zhì)量分數(shù),之后進行平均得到整段視頻的預測質(zhì)量分數(shù)。一種面向視窗

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論