火山引擎視頻云實(shí)踐(2024版)_第1頁
火山引擎視頻云實(shí)踐(2024版)_第2頁
火山引擎視頻云實(shí)踐(2024版)_第3頁
火山引擎視頻云實(shí)踐(2024版)_第4頁
火山引擎視頻云實(shí)踐(2024版)_第5頁
已閱讀5頁,還剩408頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

火山引擎視頻云實(shí)踐精選集2024版AI/大模型+音視頻技術(shù)實(shí)踐和前沿探索 2024年,隨著生成式AI、多模態(tài)大模型、全景直播、三維重建等技術(shù)的共同推動(dòng),它們正攜手將我們從流暢、實(shí)時(shí)、高清的數(shù)字視頻世界帶入更智能、更交互、更沉浸的AI視頻世界。首先,內(nèi)容生產(chǎn)將從UGC/PGC發(fā)展到AIGC,伴隨AI視頻生成模型以及智能工具的逐漸同時(shí),由于音視頻承載了更多的信息和交互,進(jìn)而演變成人類的新的“通用”語言隨著AI的深度學(xué)習(xí)和自我進(jìn)化,交互模式也正在從過去的人機(jī)交互、人人交互,邁向一個(gè)人最后,用戶的交互空間也在從2D、3D,VR拓展到了虛擬世界與現(xiàn)實(shí)世界的無縫融合。而技術(shù)從來不曾孤單,它在無盡的探索中尋找同伴,渴望得到協(xié)助,一同照亮未知的領(lǐng)域。共享與進(jìn)化,是它永恒的方向,每一步前行都承載著時(shí)代的夢想,引領(lǐng)我們共同邁向一個(gè)更加特別推出《火山引擎視頻云實(shí)踐精選集》2024版,收錄了全年數(shù)位音視頻專家傾情出品的29篇技術(shù)深度Blog,期待給各位同仁帶去一些思考和啟發(fā)的同時(shí),也能在AI視頻世界到來●ASIC編碼器、VR處理、深度學(xué)習(xí)、質(zhì)量評(píng)估等全球前沿的論文精選;●對(duì)話式AI、6DoF互動(dòng)、場景重建、超低延時(shí)等前沿技術(shù)的落地實(shí)踐;●AI+教育、私域直播、短劇出海、VR大空間等行業(yè)場景的最佳實(shí)踐;CONTENTS11火山引擎奪得AIM2024大賽視頻顯著性預(yù)測賽道冠軍 火山引擎奪得AIM2024大賽超分質(zhì)量評(píng)估賽道冠軍 005火山引擎聯(lián)合中國科學(xué)技術(shù)大學(xué)IMCL團(tuán)隊(duì)奪得NTIRE大賽盲壓縮圖像增強(qiáng)賽道冠軍 009 CVPR2024滿分論文|Deformable3DGaussian: 基于可變形3D高斯的高質(zhì)量單目動(dòng)態(tài)重建新方法CVPR2024|ModularBlindVideoQualityAssessment:模塊化無參視頻質(zhì)量評(píng)估 024深度拆解:CVPR2024CAMixerSR動(dòng)態(tài)注意力分配的超分辨率加速框架 030火山引擎多媒體實(shí)驗(yàn)室VR全鏈路處理傳輸顯示方案 036ResVR入選ACMMultimedia2024最佳論文提名火山引擎論文入選國際會(huì)議ACMIMC'24一種面向大規(guī)模視頻點(diǎn)播系統(tǒng)的算法實(shí)驗(yàn)平臺(tái) 042橫掃四大賽道,火山引擎斬獲MSU世界視頻編碼器大賽“最佳ASIC編碼器” 049 2 3AI視頻時(shí)代,如何才能不掉隊(duì)? 053生產(chǎn)、交互、消費(fèi)全鏈路升級(jí),開啟“三智 062 070抖音Android端圖片優(yōu)化實(shí)踐 075在Windows下玩轉(zhuǎn)多媒體處理框架BMF 093超低延遲多路徑傳輸:技術(shù)演進(jìn)與大規(guī)模業(yè)務(wù)實(shí) 高質(zhì)量3DGaussian-Splatting場景重建及低延遲重渲染技術(shù) 觸摸未來,字節(jié)跳動(dòng)提出6DoF直播創(chuàng)新方案 全鏈路革新:火山引擎視頻云引領(lǐng)AI新視界 火山引擎RTC聯(lián)合樂鑫、移遠(yuǎn):智能硬件注入“豆包”,“模”力升級(jí) 兒歌點(diǎn)點(diǎn)攜手火山引擎,共創(chuàng)兒童成長AI 龍游神州:揭秘云VR大空間背后的技術(shù)魔法 火山引擎升級(jí)「社區(qū)團(tuán)購+直播」新玩法助力企業(yè) 火山引擎助推FlexTV短劇乘“云”出海 我的伙伴是SoulAI,但我們從不尬聊 189詳解veImageX助力卓特視覺智能、高效生成設(shè)計(jì)素材副本 20301火山引擎奪得AIM2024大賽視頻顯著性預(yù)測賽道冠軍近日,第2024屆ECCV聯(lián)合舉辦的AIMWorkshop大賽公布比賽結(jié)果,在視頻顯著性預(yù)測賽道上,火山引擎多媒體實(shí)驗(yàn)室憑借自研的顯著性檢測算法獲得冠軍,技術(shù)能力達(dá)到行業(yè)參賽隊(duì)伍02AIM(AdvancesinImageManipulation)2024是新興的計(jì)算機(jī)視覺國際競賽,每年在模式識(shí)別和機(jī)器視覺頂級(jí)國際會(huì)議ECCV上舉行。該比賽旨在鼓勵(lì)學(xué)者和研究人員探索計(jì)算機(jī)視覺中圖像分析、增強(qiáng)和恢復(fù)的新技術(shù)和方法,并且促進(jìn)學(xué)術(shù)交流,在計(jì)算機(jī)視覺領(lǐng)域獲得了顯著性預(yù)測任務(wù)旨在模擬人類視覺系統(tǒng),預(yù)測圖片/視頻視覺任務(wù)提供引導(dǎo)和輔助信息。視頻顯著性預(yù)測賽道要求參賽者基于1500個(gè)視頻87w幀共超過4000名用戶的眼動(dòng)追蹤數(shù)據(jù)進(jìn)行模型訓(xùn)練和驗(yàn)證,視頻內(nèi)容來自youtube和vimeo等網(wǎng)站,內(nèi)容上涵蓋了PGC長視頻片段/UGC短視頻,語義上包含了游戲、動(dòng)畫、運(yùn)動(dòng)、vlog、電視節(jié)目等多個(gè)場景。最終排名由模型在驗(yàn)證集上的AUC_J、CC、SIM、NSS四項(xiàng)指標(biāo)單項(xiàng)排名來加權(quán)得到,自研方案四項(xiàng)指標(biāo)排名均取得第一,視頻顯著性預(yù)測賽道結(jié)果03●眼動(dòng)數(shù)據(jù)標(biāo)注成本高,開源數(shù)據(jù)集規(guī)模有限,無法進(jìn)行充分的預(yù)訓(xùn)練,因而容易導(dǎo)致模型的理解和推導(dǎo)的影響,因此對(duì)于語義復(fù)雜的●隨著觀看時(shí)間的推移,顯著區(qū)域會(huì)產(chǎn)生遷移,并具有一定延時(shí)性,需要對(duì)其時(shí)域特征進(jìn)行良此前方案大部分使用了基于image的骨干網(wǎng)絡(luò)來進(jìn)行特征提取,時(shí)域建模使用LSTM/GRU或者3D卷積來進(jìn)行。團(tuán)隊(duì)沿用了encoder-decoder架構(gòu),整體結(jié)構(gòu)如下圖,輸入一組RGB視頻幀,最終輸出顯著性圖譜。顯著性圖譜以灰度圖表示,像素范圍0-255,數(shù)值越高代表顯著性程度越高。其中,特征編碼器為視覺編碼器提取視頻序列的多層級(jí)特征。特征解碼器包含特征上采樣模塊、時(shí)序注意力模塊、3D卷積、上采樣、2D卷積、Sigmoid等模塊。編碼器的選擇上,選取了針對(duì)video的視頻基礎(chǔ)模型UMT(UnmaskedTeacher)來作為encoder,其網(wǎng)絡(luò)使用預(yù)訓(xùn)練的visionTransformer(ViT)。通過分別提取ViT不同塊的輸出(第5,11,17,23),可得到不同層級(jí)的視頻特征,這些特征包含豐富的底層細(xì)節(jié)和解碼器的設(shè)計(jì)上,采用了類似U-Net的分層上采樣結(jié)構(gòu),在使用3D卷積對(duì)編碼器特征進(jìn)行時(shí)域降維的同時(shí),進(jìn)行不同尺度的空域上采樣,并將不同層級(jí)的特征進(jìn)行融合。此外,團(tuán)隊(duì)引入了時(shí)序注意力模塊,以應(yīng)對(duì)顯著性的時(shí)域延遲和場景切換問題。這種設(shè)計(jì)不僅提升了模04數(shù)據(jù)處理方面,采用了基于視頻內(nèi)容的train/val劃分策略,根據(jù)內(nèi)容特性對(duì)數(shù)據(jù)集進(jìn)行分組,然后按比例從每個(gè)組采樣數(shù)據(jù)來組成最終的訓(xùn)練集??紤]到UMT的輸入分辨率較小(224x224),對(duì)標(biāo)簽中的注視點(diǎn)信息進(jìn)行了膨脹處理(dilate),減少其在下采樣過程中的信息丟失,同時(shí)清除了離群點(diǎn)以加快收斂速度。訓(xùn)練策略方面,通過SIM指標(biāo)將數(shù)據(jù)劃分為簡單樣本和困難樣本,通過增加模型在困難樣本上的損失權(quán)重,模型得以更加關(guān)注那些在訓(xùn)練過程中表現(xiàn)不佳的樣本,有效提升總結(jié)總結(jié)火山引擎多媒體實(shí)驗(yàn)室在視頻顯著性預(yù)測領(lǐng)域?qū)崿F(xiàn)了突破性的進(jìn)展,并獲得了該賽道冠軍。顯著性預(yù)測技術(shù)的迭代升級(jí)可以幫助技術(shù)人員更為準(zhǔn)確地預(yù)測用戶觀看行為,為用戶觀看體驗(yàn)的優(yōu)化提供重要指引,也有助于推動(dòng)視頻行業(yè)向著更加智能化、高效化的方向發(fā)展?;陲@著性預(yù)測的ROI編碼和ROI區(qū)域增強(qiáng)方案已廣泛應(yīng)用于直播、點(diǎn)播及圖片等內(nèi)部業(yè)務(wù)場景,并通過火山引擎相關(guān)產(chǎn)品面向企業(yè)火山引擎多媒體實(shí)驗(yàn)室是字節(jié)跳動(dòng)旗下的研究團(tuán)隊(duì),致力于探索多媒體領(lǐng)域的前沿技術(shù),參與國際標(biāo)準(zhǔn)化工作,其眾多創(chuàng)新算法及軟硬件解決方案已經(jīng)廣泛應(yīng)用在抖音、西瓜視頻等產(chǎn)品的多媒體業(yè)務(wù),并向火山引擎的企業(yè)級(jí)客戶提供技術(shù)服務(wù)。實(shí)驗(yàn)室成立以來,多篇論文入選國際頂會(huì)和旗艦期刊,并獲得數(shù)火山引擎是字節(jié)跳動(dòng)旗下的云服務(wù)平臺(tái),將字節(jié)跳動(dòng)快速發(fā)展過程中積累的增長方法、技術(shù)能力和工具開放給外部企業(yè),提供云基礎(chǔ)、視頻與內(nèi)容分發(fā)、大數(shù)據(jù)、人工智能、開發(fā)與運(yùn)維等服務(wù),幫助企業(yè)在05火山引擎奪得AIM2024大賽超分質(zhì)量評(píng)估賽道冠軍近日,第2024屆ECCV聯(lián)合舉辦的AIMWorkshop大賽公布比賽結(jié)果,在視頻超分辨率質(zhì)量評(píng)估賽道上,火山引擎多媒體實(shí)驗(yàn)室憑借基于大模型的畫質(zhì)評(píng)估算法獲得冠軍,技術(shù)能力參賽隊(duì)伍06AIM(AdvancesinImageManipulation)2024是新興的計(jì)算機(jī)視覺國際競賽,每年在模式識(shí)別和機(jī)器視覺頂級(jí)國際會(huì)議ECCV上舉行。該比賽旨在鼓勵(lì)學(xué)者和研究人員探索計(jì)算機(jī)視覺中圖像恢復(fù)和提升的新技術(shù)和方法,并且促進(jìn)學(xué)術(shù)交流,在計(jì)算機(jī)視覺領(lǐng)域獲得了廣泛的關(guān)視頻超分辨率質(zhì)量評(píng)估賽道比賽結(jié)果近年來視頻和圖像超分辨率(SR)技術(shù)得到了廣泛學(xué)術(shù)研究,同時(shí)在短視頻業(yè)務(wù)服務(wù)端/客戶為了評(píng)估不同超分辨率算法的主觀畫質(zhì)提升效果,需要使用圖像和視頻質(zhì)量評(píng)估指標(biāo)。然而由于難以捕捉超分辨率引發(fā)的復(fù)雜多樣的增強(qiáng)偽影,傳統(tǒng)算法PSNR和SSIM以及其他基于深度學(xué)習(xí)的方法均被證明無法準(zhǔn)確估計(jì)超分辨率圖像的質(zhì)量。因此,超分辨率質(zhì)量評(píng)估與普通的圖像和視頻質(zhì)量評(píng)估任務(wù)是有所不同的,本次競賽旨在針對(duì)超分辨率進(jìn)行專用評(píng)估指標(biāo)的07冠軍算法介紹超分辨率畫質(zhì)評(píng)估的主要挑戰(zhàn)在于如何捕捉超分辨率畫質(zhì)算法處理后內(nèi)容的畫質(zhì)變化因素,相比傳統(tǒng)質(zhì)量評(píng)估需要考慮更復(fù)雜多樣化的處理算法帶來偽影/涂抹/過銳等失真類型。由于有限的樣本數(shù)量和數(shù)據(jù)集大小,端到端的訓(xùn)練方案無法達(dá)到理想效果,經(jīng)過多輪方案驗(yàn)證,團(tuán)隊(duì)最終采用RichQuality-AwareFeature算法方案架構(gòu),針對(duì)多樣化的視覺內(nèi)容和復(fù)雜的失真類型,利用空域模型微調(diào),同時(shí)利用豐富離線視頻特征庫和圖像特征庫來增強(qiáng)模型的泛化能力。微調(diào)模型采用了預(yù)訓(xùn)練于LSVQ數(shù)據(jù)集的SwinTransformer-B作為主干網(wǎng)絡(luò)來提取空域特征,離線視頻特征庫包含SlowFast時(shí)域特征和Fast-VQA時(shí)空聯(lián)合特征;離線圖像特征庫提供了全面的幀級(jí)特征表示,其中LIQE包含質(zhì)量感知、失真特定及場景特定的信息,而Q-Align則包含來自多模態(tài)模型(MLLM)的強(qiáng)大質(zhì)量感知特征。最終將可學(xué)習(xí)和不可學(xué)習(xí)的特征拼接在一起,經(jīng)非線性回歸層得到預(yù)測分?jǐn)?shù),最終分?jǐn)?shù)通過Sigmoid函數(shù)轉(zhuǎn)換為[0-1]范圍。除了算法層面的綜合分析設(shè)計(jì)和數(shù)據(jù)增廣處理等,團(tuán)隊(duì)對(duì)數(shù)據(jù)集進(jìn)行深入的分析理解,數(shù)據(jù)集根據(jù)失真的難度分為Easy/Moderate和Hard三種難度,Hard難度包含了目前大多數(shù)評(píng)估指標(biāo)無法解決的失真類型,從訓(xùn)練集的主觀評(píng)分分布我們也觀察到困難組的視頻主觀評(píng)分相比08除了PLCC損失外,我們還應(yīng)用了成對(duì)排序的hinge損失來引導(dǎo)模型區(qū)分困難樣本,同時(shí)快其中排序邊距設(shè)為0.05。我們?cè)?塊A100-SXM-80GBGPU上進(jìn)行了100個(gè)epoch的訓(xùn)練,學(xué)習(xí)率為1e-5,批次大小為16。我們隨機(jī)選取了80%的視頻作為訓(xùn)練數(shù)據(jù),20%的視頻用于驗(yàn)證,并選擇在驗(yàn)證集中表現(xiàn)最佳的模型進(jìn)行最終測試。最終團(tuán)隊(duì)在private數(shù)據(jù)集獲得最好的效果,通過public和private兩部分內(nèi)容的穩(wěn)定發(fā)揮獲得第一名的成績??偨Y(jié)總結(jié)火山引擎多媒體實(shí)驗(yàn)室在視頻超分質(zhì)量評(píng)估領(lǐng)域?qū)崿F(xiàn)了突破性的進(jìn)展,并獲得了該賽道冠軍。增強(qiáng)處理算法質(zhì)量評(píng)估算法的沉淀積累可以幫助處理算法和應(yīng)用策略的迭代優(yōu)化,從而更高效地給用戶提供更為清晰主觀視覺體驗(yàn),有助于推動(dòng)數(shù)字媒體行業(yè)向著更加智能化、高效化的方向發(fā)展。火山引擎多媒體實(shí)驗(yàn)室是字節(jié)跳動(dòng)旗下的研究團(tuán)隊(duì),致力于探索多媒體領(lǐng)域的前沿技術(shù),參與國際標(biāo)準(zhǔn)化工作,其眾多創(chuàng)新算法及軟硬件解決方案已經(jīng)廣泛應(yīng)用在抖音、西瓜視頻等產(chǎn)品的多媒體業(yè)務(wù),并向火山引擎的企業(yè)級(jí)客戶提供技術(shù)服務(wù)。實(shí)驗(yàn)室成立以來,多篇論文入選國際頂會(huì)和旗艦期刊,并獲得數(shù)項(xiàng)國際級(jí)技術(shù)賽事冠軍、行業(yè)創(chuàng)新獎(jiǎng)及最佳論文獎(jiǎng)?;鹕揭媸亲止?jié)跳動(dòng)旗下的云服務(wù)平臺(tái),將字節(jié)跳動(dòng)快速發(fā)展過程中積累的增長方法、技術(shù)能力和工具開放給外部企業(yè),提供云基礎(chǔ)、視頻與內(nèi)容分發(fā)、大數(shù)據(jù)、人工智能、開發(fā)與運(yùn)維等服務(wù),幫助企業(yè)在數(shù)字化升級(jí)中實(shí)現(xiàn)持續(xù)增長。09火山引擎聯(lián)合中國科學(xué)技術(shù)大學(xué)IMCL團(tuán)隊(duì)奪得NTIRE大賽盲壓縮圖像增強(qiáng)賽道冠軍近日,第2024屆CVPRWorkshop下屬的NTIRE大賽公布比賽結(jié)果,在盲壓縮圖像增強(qiáng)賽道,火山引擎多媒體實(shí)驗(yàn)室聯(lián)合中國科學(xué)技術(shù)大學(xué)智能媒體計(jì)算實(shí)驗(yàn)室(IMCL)團(tuán)隊(duì)自主參賽隊(duì)伍大賽背景NTIRE(NewTrendsinImageRestorationandEnhancement)是新興的計(jì)算機(jī)視覺國際競賽,每年在模式識(shí)別和機(jī)器視覺頂級(jí)國際會(huì)議CVPR(CCF-A)上舉行。該比賽旨在鼓勵(lì)學(xué)者和研究人員探索計(jì)算機(jī)視覺中圖像恢復(fù)和提升的新技術(shù)和方法,并且促進(jìn)學(xué)術(shù)交流,在計(jì)算機(jī)視覺領(lǐng)域獲得了廣泛的關(guān)注和參與,吸引了眾多高校和業(yè)界知名公司參圖:盲壓縮圖像增強(qiáng)比賽結(jié)果隨著數(shù)字圖像和視頻內(nèi)容的快速增長,有損圖像壓縮技術(shù),作為降低圖像傳輸帶寬和存儲(chǔ)開銷的必要技術(shù),早已在各種工業(yè)應(yīng)用中普及。在流行的壓縮編解碼器中,考慮到計(jì)算效率和復(fù)雜度,在實(shí)際應(yīng)用中,JPEG備受青睞。然而,在受限碼率下,JPEG壓縮后圖像往往會(huì)帶有復(fù)雜壓縮失真,且較難獲取壓縮等級(jí)。在這個(gè)背景下,盲壓縮圖像增強(qiáng)競賽應(yīng)運(yùn)而生,旨在實(shí)現(xiàn)任意等級(jí)JPEG壓縮失真的恢復(fù),提升真實(shí)場景中解碼圖像的畫質(zhì),打破未知壓縮失真對(duì)增強(qiáng)算法的限制。冠軍算法介紹盲壓縮圖像恢復(fù)的主要挑戰(zhàn)在于如何讓網(wǎng)絡(luò)感知到圖像的壓縮失真程度的同時(shí),也能感知到圖像的內(nèi)容,從而達(dá)到修復(fù)的目的。在此次競賽中,團(tuán)隊(duì)提出了一種巧妙利用動(dòng)態(tài)提示(DynamicPrompt)的盲圖像恢復(fù)方法,名叫PromptCIR。與之前直接估計(jì)壓縮質(zhì)量因素來進(jìn)行指導(dǎo)的方法不同,PromptCIR通過提示組件之間的動(dòng)態(tài)組合以及從失真圖像特征生成的提示權(quán)重隱式地學(xué)習(xí)編碼壓縮信息,從而為盲恢復(fù)提供更多的失真自適應(yīng)能力。值得一提的是,大多數(shù)現(xiàn)有的基于提示學(xué)習(xí)的壓縮圖像恢復(fù)方法將提示大小設(shè)置為與圖像特征大小相同,限制了對(duì)各種輸入大小的泛化能力。為了緩解這個(gè)問題,我們采用了內(nèi)容感知的動(dòng)態(tài)提示。具體來說,我們將提示大小設(shè)置為1x1,并生成與圖像特征相同分辨率的空間位置感知的提示權(quán)重,以避免過度適應(yīng)訓(xùn)練圖像大小的潛在問題。此外,為了提高內(nèi)容感知和失真感知表征能力,我們使用多個(gè)提示基動(dòng)態(tài)模版編碼任務(wù)自適應(yīng)信息,從而自適應(yīng)地編碼壓縮質(zhì)量信息,并保留必要的空間位置知識(shí)。不僅是算法上的改進(jìn),團(tuán)隊(duì)還重新審視了其他輔助技術(shù),如數(shù)據(jù)增強(qiáng)、數(shù)據(jù)合成等,以減少過擬合和數(shù)據(jù)偏差,最終超過其他競爭對(duì)手,獲得第一名的成績。PromptCIR方法圖論文鏈接:/pdf/2404.17433總結(jié)總結(jié)火山引擎多媒體實(shí)驗(yàn)室聯(lián)合中國科學(xué)技術(shù)大學(xué)智能媒體計(jì)算實(shí)驗(yàn)室(IMCL)團(tuán)隊(duì)在盲壓縮圖像恢復(fù)領(lǐng)域?qū)崿F(xiàn)了突破性的進(jìn)展,并獲得了該賽道冠軍。自研的技術(shù)方案可以幫助修復(fù)成千上萬的被壓縮數(shù)字圖像內(nèi)容,從而給用戶提供更為清晰、精細(xì)的圖像展現(xiàn)效果,有助于推動(dòng)數(shù)字媒體行業(yè)向著更加智能化、高效化的方向發(fā)展?;鹕揭娑嗝襟w實(shí)驗(yàn)室是字節(jié)跳動(dòng)旗下的研究團(tuán)隊(duì),致力于探索多媒體領(lǐng)域的前沿技術(shù),參與國際標(biāo)準(zhǔn)化工作,其眾多創(chuàng)新算法及軟硬件解決方案已經(jīng)廣泛應(yīng)用在抖音、西瓜視頻等產(chǎn)品的多媒體業(yè)務(wù),并向火山引擎的企業(yè)級(jí)客戶提供技術(shù)服務(wù)。實(shí)驗(yàn)室成立以來,多篇論文入選國際頂會(huì)和旗艦期刊,并獲得數(shù)項(xiàng)國際級(jí)技術(shù)賽事冠軍、行業(yè)創(chuàng)新獎(jiǎng)及最佳論文獎(jiǎng)?;鹕揭媸亲止?jié)跳動(dòng)旗下的云服務(wù)平臺(tái),將字節(jié)跳動(dòng)快速發(fā)展過程中積累的增長方法、技術(shù)能力和工具開放給外部企業(yè),提供云基礎(chǔ)、視頻與內(nèi)容分發(fā)、大數(shù)據(jù)、人工智能、開發(fā)與運(yùn)維等服務(wù),幫助企業(yè)在數(shù)字化升級(jí)中實(shí)現(xiàn)持續(xù)增長?;鹕揭鎳H深度學(xué)習(xí)圖像壓縮挑戰(zhàn)賽蟬聯(lián)冠軍近日,第六屆深度學(xué)習(xí)圖像壓縮挑戰(zhàn)賽(以下將簡稱“CLIC大賽”)比賽結(jié)果公布,由火山引擎多媒體實(shí)驗(yàn)室與北大組成的聯(lián)合參賽平臺(tái)b-2在高碼率視頻壓縮和低碼率視頻壓縮兩個(gè)賽道均奪得主客觀指標(biāo)冠軍。這也是火山引擎多媒體實(shí)驗(yàn)室連續(xù)兩屆蟬聯(lián)該賽道冠軍。CLIC大賽由電氣與電子工程師協(xié)會(huì)IEEE主辦,從誕生開始就獲得了學(xué)術(shù)界與工業(yè)界的廣泛關(guān)注。2023年CLIC大賽暫停一屆,本屆大賽依托于數(shù)據(jù)壓縮領(lǐng)域的頂級(jí)會(huì)議DataCompressionConference(DCC)再次舉辦。值得一提的是,本屆DCC中,火山引擎多媒體實(shí)驗(yàn)室有8篇論文入選。隨著以深度學(xué)習(xí)為代表的新一代人工智能技術(shù)不斷取得突破,學(xué)術(shù)界與工業(yè)界逐漸意識(shí)到人工智能技術(shù)在圖像、視頻壓縮領(lǐng)域的巨大應(yīng)用潛力?;谏疃葘W(xué)習(xí)的圖像視頻壓縮技術(shù)被視為超越傳統(tǒng)壓縮技術(shù)能力極限,取得突破性進(jìn)展的明日之星?;谏疃葘W(xué)習(xí)技術(shù),火山引擎和北大b-2平臺(tái)提出了一項(xiàng)智能混合解決方案。b-2平臺(tái)在充分理解傳統(tǒng)壓縮技術(shù)與深度學(xué)習(xí)壓縮技術(shù)的各自原理的基礎(chǔ)上,發(fā)揮兩種技術(shù)路線的各自優(yōu)勢,取長補(bǔ)短,將二者有機(jī)融合成為一個(gè)整體,形成了獨(dú)具特色的傳統(tǒng)—智能混合解決方案。傳統(tǒng)編碼模塊在業(yè)界已有傳統(tǒng)編碼框架基礎(chǔ)上,加入了非對(duì)稱四叉樹劃分等創(chuàng)新技術(shù)。智能編碼模塊則引入了基于深度學(xué)習(xí)的環(huán)路濾波等技術(shù)。圖1非對(duì)稱四叉樹劃分結(jié)構(gòu);(a)H1型水平UQT,(b)H2型水平UQT,(c)V1型垂直UQT,(d)V2型垂直UQT。編碼單元?jiǎng)澐质腔旌弦曨l編碼框架的基礎(chǔ),決定著編碼單元的基本形狀和尺寸。靈活的劃分方法能更有效地表達(dá)視頻豐富的紋理和運(yùn)動(dòng),對(duì)編碼性能的提升起著至關(guān)重要的作用。團(tuán)隊(duì)提出了非對(duì)稱四叉樹(UQT)劃分結(jié)構(gòu),旨在提高視頻的編碼效率。與現(xiàn)有的四叉樹(QuadTree,QT),二叉樹(BinaryTree,BT),三叉樹(TernaryTree,TT)劃分結(jié)構(gòu)相比,UQT通過一次劃分生成的子編碼單元能觸及更深的劃分深度,能更有效地捕捉視頻豐富的細(xì)節(jié)特性。此外,UQT生成的子塊形狀是無法通過QT、BT、TT組合實(shí)現(xiàn)的,一定程度上彌補(bǔ)了現(xiàn)有劃分的不足,豐富了劃分的表達(dá)。圖2環(huán)路濾波網(wǎng)絡(luò)結(jié)構(gòu)示意圖,包括網(wǎng)絡(luò)的輸入,濾波與輸出模塊傳統(tǒng)視頻編碼中采用環(huán)路濾波器去除編碼失真,縮小原始圖像與重建之間的失真,例如經(jīng)典的去塊濾波、樣本自適應(yīng)偏移和自適應(yīng)環(huán)路濾波等。參賽平臺(tái)提出了一種基于殘差卷積網(wǎng)絡(luò)的增強(qiáng)型環(huán)路濾波技術(shù),有機(jī)地將環(huán)路濾波技術(shù)與深度學(xué)習(xí)技術(shù)結(jié)合在一起,在網(wǎng)絡(luò)結(jié)構(gòu)中與模型訓(xùn)練中充分利用傳統(tǒng)視頻編碼的先驗(yàn)信息,提升環(huán)路濾波效率。網(wǎng)絡(luò)輸入方面,除重建像素外,團(tuán)隊(duì)將編碼過程中的預(yù)測信息、劃分信息、邊界強(qiáng)度以及量化參數(shù)等作為增強(qiáng)信息供深度網(wǎng)絡(luò)學(xué)習(xí),豐富先驗(yàn)知識(shí),使得網(wǎng)絡(luò)能更好地感知壓縮失真。在分層參考的編碼結(jié)構(gòu)中,待編碼幀將參考已重建的高質(zhì)量幀。團(tuán)隊(duì)提出對(duì)不同時(shí)域?qū)哟螏褂玫臑V波器采用迭代訓(xùn)練的方式,獲取最接近真實(shí)編碼的訓(xùn)練數(shù)據(jù),實(shí)現(xiàn)更高性能的濾波。此外,每個(gè)條帶及最大編碼單位均可以在多個(gè)濾波模型中自適應(yīng)地選擇率失真性能最優(yōu)的網(wǎng)絡(luò)模型,并將選擇信息傳輸?shù)浇獯a端。圖3CLIC視頻壓縮賽道基于MOS的排行榜2022年,火山引擎多媒體實(shí)驗(yàn)室第一次參加CLIC大賽。參賽平臺(tái)NeutronStar(中子星)在高碼率視頻壓縮和低碼率視頻壓縮兩個(gè)賽道,主客觀指標(biāo)均以大幅領(lǐng)先優(yōu)勢奪冠。此次,火山引擎與北大聯(lián)手奪冠,是結(jié)合了北大學(xué)科和人才優(yōu)勢,以及火山引擎的技術(shù)和產(chǎn)業(yè)優(yōu)勢,圍繞深度學(xué)習(xí)在視頻壓縮領(lǐng)域的一次重要學(xué)術(shù)探索?;鹕揭娑嗝襟w實(shí)驗(yàn)室是字節(jié)跳動(dòng)旗下的研究團(tuán)隊(duì),致力于探索多媒體領(lǐng)域的前沿技術(shù),參與國際標(biāo)準(zhǔn)化工作,其眾多創(chuàng)新算法及軟硬件解決方案已經(jīng)廣泛應(yīng)用在抖音、西瓜視頻等產(chǎn)品的多媒體業(yè)務(wù),并向火山引擎的企業(yè)級(jí)客戶提供技術(shù)服務(wù)。實(shí)驗(yàn)室成立以來,多篇論文入選國際頂會(huì)和旗艦期刊,并獲得數(shù)項(xiàng)國際級(jí)技術(shù)賽事冠軍、行業(yè)創(chuàng)新獎(jiǎng)及最佳論文獎(jiǎng)。CVPR2024滿分論文|DEFORMABLE3DGAUSSIAN:基于可變形3D高斯的高質(zhì)量單目動(dòng)態(tài)重建新方法單目動(dòng)態(tài)場景(MonocularDynamicScene)是指使用單眼攝像頭觀察并分析的動(dòng)態(tài)環(huán)境,其中場景中的物體可以自由移動(dòng)。單目動(dòng)態(tài)場景重建對(duì)于理解環(huán)境中的動(dòng)態(tài)變化、預(yù)測物體運(yùn)動(dòng)軌跡以及動(dòng)態(tài)數(shù)字資產(chǎn)生成等任務(wù)至關(guān)重要。隨著以神經(jīng)輻射場(NeuralRadianceField,NeRF)為代表的神經(jīng)渲染的興起,越來越多的工作開始使用隱式表示(implicitrepresentation)進(jìn)行動(dòng)態(tài)場景的三維重建。盡管基于NeRF的一些代表工作,如D-NeRF,Nerfies,K-planes等已經(jīng)取得了令人滿意的渲染質(zhì)量,他們?nèi)匀痪嚯x真正的照片級(jí)真實(shí)渲染(photo-realisticrendering)存在一定的距離。我們認(rèn)為,其根本原因在于基于光線投射(raycasting)的NeRF管線通過逆向映射(backward-flow)將觀測空間(observationspace)映射到規(guī)范空間(canonicaspace)無法實(shí)現(xiàn)準(zhǔn)確且干凈的映射。逆向映射并不利于可學(xué)習(xí)結(jié)構(gòu)的收斂,使得目前的方法在D-NeRF數(shù)據(jù)集上只能取得30+級(jí)別的PSNR渲染指標(biāo)。為了解決這一問題,我們提出了一種基于光柵化(rasterization)的單目動(dòng)態(tài)場景建模管線,首次將變形場(DeformationField)與3D高斯(3DGaussianSplatting)結(jié)合實(shí)現(xiàn)了高質(zhì)量的重建與新視角渲染。實(shí)驗(yàn)結(jié)果表明,變形場可以準(zhǔn)確地將規(guī)范空間下的3D高斯前向映射(forward-flow)到觀測空間,不僅在D-NeRF數(shù)據(jù)集上實(shí)現(xiàn)了10+的PSNR提高,而且在相機(jī)位姿不準(zhǔn)確的真實(shí)場景也取得了渲染細(xì)節(jié)上的增加。圖1HyperNeRF真實(shí)場景的實(shí)驗(yàn)結(jié)果該研究的論文《Deformable3DGaussiansforHigh-FidelityMonocularDynamicSceneReconstruction》已被計(jì)算機(jī)視覺頂級(jí)國際學(xué)術(shù)會(huì)議CVPR2024接收。值得一提的是,該論文是首個(gè)使用變形場將3D高斯拓展到單目動(dòng)態(tài)場景的工作,并且在公開數(shù)據(jù)集上取得了SOTA結(jié)果。相關(guān)工作動(dòng)態(tài)場景重建一直以來是三維重建的熱點(diǎn)問題。隨著以NeRF為代表的神經(jīng)渲染實(shí)現(xiàn)了在NeRF光線投射管線的基礎(chǔ)上引入了變形場,實(shí)現(xiàn)了魯棒的動(dòng)態(tài)場景重建。TiNeuVox,K-Planes和Hexplanes在此基礎(chǔ)上引入了網(wǎng)格結(jié)構(gòu),大大加速了模型的訓(xùn)練過程,渲染速度有一定的提高。然而這些方法都基于逆向映射,無法真正實(shí)現(xiàn)高質(zhì)量的規(guī)范空間和變形場的解耦。3D高斯?jié)姙R是一種基于光柵化的點(diǎn)云渲染管線。其CUDA定制的可微高斯光柵化管線和創(chuàng)新的致密化使得3D高斯不僅實(shí)現(xiàn)了SOTA的渲染質(zhì)量,還實(shí)現(xiàn)了實(shí)時(shí)渲染。Dynamic3D高斯首先將靜態(tài)的3D高斯拓展到了動(dòng)態(tài)領(lǐng)域。然而,其只能處理多目場景非常嚴(yán)重地制約了其應(yīng)用于更通用的情況,如手機(jī)拍攝等單目場景。研究思想Deformable-GS的核心在于將靜態(tài)的3D高斯拓展到單目動(dòng)態(tài)場景。每一個(gè)3D高斯攜帶位置,旋轉(zhuǎn),縮放,不透明度和SH系數(shù)用于圖像層級(jí)的渲染。根據(jù)3D高斯alpha-blend的公式我們不難發(fā)現(xiàn),隨時(shí)間變化的位置,以及控制高斯形狀的旋轉(zhuǎn)和縮放是決定動(dòng)態(tài)3D高斯的決定性參數(shù)。然而,不同于傳統(tǒng)的基于點(diǎn)云的渲染方法,3D高斯在初始化之后,位置,透明度等參數(shù)會(huì)隨著優(yōu)化不斷更新。這給動(dòng)態(tài)高斯的學(xué)習(xí)增加了難度。在本次研究中,我們創(chuàng)新性地提出了變形場與3D高斯聯(lián)合優(yōu)化的動(dòng)態(tài)場景渲染框架。我們將COLMAP或隨機(jī)點(diǎn)云初始化的3D高斯視作規(guī)范空間,隨后通過變形場,以規(guī)范空間中3D高斯的坐標(biāo)信息作為輸入,預(yù)測每一個(gè)3D高斯隨時(shí)間變化的位置$\deltax$和形狀參數(shù)$\deltar,\deltas$。利用變形場,我們可以將規(guī)范空間的3D高斯變換到觀測空間用于光柵化渲染。這一策略并不會(huì)影響3D高斯的可微光柵化管線,經(jīng)過其計(jì)算得到的梯度可以用于更新規(guī)范空間3D高斯的參數(shù)。此外,引入變形場有利于動(dòng)作幅度較大部分的高斯致密化。這是因?yàn)閯?dòng)作幅度較大的區(qū)域變形場的梯度也會(huì)相對(duì)較高,從而指導(dǎo)相應(yīng)區(qū)域在致密化的過程中得到更精細(xì)的調(diào)控。即使規(guī)范空間3D高斯的數(shù)量和位置參數(shù)在初期也在不斷更新,但實(shí)驗(yàn)結(jié)果表明,這種聯(lián)合優(yōu)化的策略可以最終得到魯棒的收斂結(jié)果。大約經(jīng)過20000輪迭代,規(guī)范空間的3D高斯的位置參數(shù)幾乎不再變化。在真實(shí)場景中,我們發(fā)現(xiàn)真實(shí)場景的相機(jī)位姿往往不夠準(zhǔn)確,而動(dòng)態(tài)場景更加劇了這一問題。這對(duì)于基于神經(jīng)輻射場的結(jié)構(gòu)來說并不會(huì)產(chǎn)生較大的影響,因?yàn)樯窠?jīng)輻射場基于多層感知機(jī)(MLP),是一個(gè)非常平滑的結(jié)構(gòu)。但是3D高斯是基于點(diǎn)云的顯式結(jié)構(gòu),略微不準(zhǔn)確的相機(jī)位姿很難通過高斯?jié)姙R得到較為魯棒地矯正。因此為了緩解這個(gè)問題,我們創(chuàng)新地引入了退火平滑訓(xùn)練(AnnealingSmoothTraining,AST)。該訓(xùn)練機(jī)制旨在初期平滑3D高斯的學(xué)習(xí),在后期增加渲染的細(xì)節(jié)。這一機(jī)制的引入不僅提高了渲染的質(zhì)量,而且大幅度提高了時(shí)間插值任務(wù)的穩(wěn)定性與平滑性。20圖2展示了該研究的流程圖,詳情請(qǐng)參見論文原文。圖2流程圖結(jié)果展示該研究首先在動(dòng)態(tài)重建領(lǐng)域被廣泛使用的D-NeRF數(shù)據(jù)集上進(jìn)行了合成數(shù)據(jù)集的實(shí)驗(yàn)。從圖3的可視化結(jié)果中不難看出,Deformable-GS相比于之前的方法有著非常巨大的渲染質(zhì)量提升。21圖3該研究在D-NeRF數(shù)據(jù)集上的定性實(shí)驗(yàn)對(duì)比結(jié)果我們方法不僅在視覺效果上取得了大幅度的提高,定量的渲染指標(biāo)上也有著對(duì)應(yīng)的支持。值得注意的是,我們發(fā)現(xiàn)D-NeRF數(shù)據(jù)集的Lego場景存在錯(cuò)誤,即訓(xùn)練集和測試集的場景具有微小的差別。這體現(xiàn)在Lego模型鏟子的翻轉(zhuǎn)角度不一致。這也是為什么之前方法在Lego場景的指標(biāo)無法提高的根本原因。為了實(shí)現(xiàn)有意義的比較,我們使用了Lego的驗(yàn)證集作為我們指標(biāo)測量的基準(zhǔn)。圖4方法對(duì)比22我們?cè)谌直媛剩?00x800)下對(duì)比了SOTA方法,其中包括了CVPR2020的D-NeRF,SigAsia2022的TiNeuVox和CVPR2023的Tensor4D,K-planes。我們的方法在各個(gè)渲染指標(biāo)(PSNR、SSIM、LPIPS),各個(gè)場景下都取得了大幅度的提高。我們的方法不僅能夠適用于合成場景,在相機(jī)位姿不夠準(zhǔn)確的真實(shí)場景也取得了SOTA結(jié)果。如圖5所示,我們?cè)贜eRF-DS數(shù)據(jù)集上與SOTA方法進(jìn)行了對(duì)比。實(shí)驗(yàn)結(jié)果表明,即使我們的方法沒有對(duì)高光反射表面進(jìn)行特殊處理,我們依舊能夠超過專為高光反射場景設(shè)計(jì)的NeRF-DS,取得了最佳的渲染效果。圖5真實(shí)場景方法對(duì)比雖然MLP的引入增加了渲染開銷,但是得益于3D高斯極其高效的CUDA實(shí)現(xiàn)與我們緊湊的MLP結(jié)構(gòu),我們依舊能夠做到實(shí)時(shí)渲染。在3090上D-NeRF數(shù)據(jù)集的平均FPS可以達(dá)到85(400x400),68(800x800)。此外,該研究還首次應(yīng)用了帶有前向與反向深度傳播的可微高斯光柵化管線。如圖6所示,該深度也證明了Deformable-GS也可以得到魯棒的幾何表示。深度的反向傳播可以推動(dòng)日后很多需要使用深度監(jiān)督的任務(wù),例如逆向渲染(InverseRendering),SLAM與自動(dòng)駕駛等。23圖6深度可視化火山引擎多媒體實(shí)驗(yàn)室是字節(jié)跳動(dòng)旗下的研究團(tuán)隊(duì),致力于探索多媒體領(lǐng)域的前沿技術(shù),參與國際標(biāo)準(zhǔn)化工作,其眾多創(chuàng)新算法及軟硬件解決方案已經(jīng)廣泛應(yīng)用在抖音、西瓜視頻等產(chǎn)品的多媒體業(yè)務(wù),并向火山引擎的企業(yè)級(jí)客戶提供技術(shù)服務(wù)。實(shí)驗(yàn)室成立以來,多篇論文入選國際頂會(huì)和旗艦期刊,并獲得數(shù)項(xiàng)國際級(jí)技術(shù)賽事冠軍、行業(yè)創(chuàng)新獎(jiǎng)及最佳論文獎(jiǎng)?;鹕揭媸亲止?jié)跳動(dòng)旗下的云服務(wù)平臺(tái),將字節(jié)跳動(dòng)快速發(fā)展過程中積累的增長方法、技術(shù)能力和工具開放給外部企業(yè),提供云基礎(chǔ)、視頻與內(nèi)容分發(fā)、大數(shù)據(jù)、人工智能、開發(fā)與運(yùn)維等服務(wù),幫助企業(yè)在數(shù)字化升級(jí)中實(shí)現(xiàn)持續(xù)增長。24CVPR2024|MODULARBLINDVIDEOQUALITYASSESSMENT:模塊化無參視頻質(zhì)量評(píng)估無參視頻質(zhì)量評(píng)估(BlindVideoQualityAssessment,BVQA)在評(píng)估和改善各種視頻平臺(tái)并服務(wù)用戶的觀看體驗(yàn)方面發(fā)揮著關(guān)鍵作用。當(dāng)前基于深度學(xué)習(xí)的模型主要以下采樣/局部塊采樣的形式分析視頻內(nèi)容,而忽視了實(shí)際空域分辨率和時(shí)域幀率對(duì)視頻質(zhì)量的影響,隨著高分辨率和高幀率視頻投稿逐漸普及,特別是跨分辨率/幀率視頻轉(zhuǎn)碼檔位畫質(zhì)評(píng)估場景中,這種影響變得更加不可忽視。在本文中,我們提出了一種模塊化BVQA模型,以及一種訓(xùn)練該模型以提高其模塊化性的方法。我們的模型包括基礎(chǔ)質(zhì)量預(yù)測模塊、空域矯正模塊和時(shí)域矯正模塊,分別顯式地響應(yīng)視頻質(zhì)量的視覺內(nèi)容和失真、空域分辨率和時(shí)域幀率變化情況。我們用提出的模塊化BVQA模型在專業(yè)生成的內(nèi)容和用戶生成的內(nèi)容視頻數(shù)據(jù)庫上進(jìn)行了大量實(shí)驗(yàn)。實(shí)驗(yàn)表明,我們的質(zhì)量模型實(shí)現(xiàn)了優(yōu)于當(dāng)前方法或相近的性能。此外,模型可以輕量高效地添加其他與質(zhì)量相關(guān)的視頻屬性,例如動(dòng)態(tài)范圍和色域作為額外的矯正25多年來,研究人員從心理物理學(xué)和感知研究中收集了大量證據(jù),證明更高的空域分辨率和更高的幀速率對(duì)視頻主觀畫質(zhì)有積極的影響。具體而言,感知質(zhì)量取決于視頻內(nèi)容,特別是空域和時(shí)域復(fù)雜性。針對(duì)這些主觀發(fā)現(xiàn),早期的知識(shí)驅(qū)動(dòng)的BVQA模型直接將空域分辨率和幀速率參數(shù)作為壓縮視頻質(zhì)量預(yù)測的輸入的一部分。盡管這種方法非常簡單,但這些視頻屬性參數(shù)與內(nèi)容和失真無關(guān),因此它們與感知的視頻質(zhì)量不太相關(guān)。基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的數(shù)據(jù)驅(qū)動(dòng)的BVQA方法面臨的計(jì)算問題十分明顯。它們幾乎沒有嘗試評(píng)估全尺寸視頻,主要原因是計(jì)算復(fù)雜度很高,尤其是在處理高分辨率和幀速率的視頻時(shí),面臨的挑戰(zhàn)更大。此外,由于視頻質(zhì)量數(shù)據(jù)集規(guī)模較小,許多基于CNN的BVQA方法依賴于對(duì)象識(shí)別任務(wù)的預(yù)訓(xùn)練模型,這些模型通常需要小且固定大小的輸入。因此,視頻需要在空域上調(diào)整大小,并在時(shí)域上進(jìn)行二次采樣。在空域中處理視頻的傳統(tǒng)方法如圖1所示,在時(shí)域中處理視頻的傳統(tǒng)方法如圖2所示。圖1.在空域視圖中處理視頻的傳統(tǒng)方法。(a)代表來自WaterlooIVC4K的具有相同內(nèi)容但不同空域分辨率的兩個(gè)視頻。(b)在不保持寬高比的情況下調(diào)整視頻大小,與視頻質(zhì)量相關(guān)的局部紋理可能會(huì)受到影響。(c)調(diào)整視頻大小,同時(shí)保留縱橫比并將其裁剪為固定大小,無論實(shí)際空域分辨率如何,都會(huì)產(chǎn)生幾乎相同的輸入。(d)裁剪視頻會(huì)縮小視野并導(dǎo)致不同空域分辨率的內(nèi)容覆蓋范圍不同。26圖2.來自LIVE-YT-HFR的兩個(gè)視頻序列,具有相同的內(nèi)容,但是時(shí)域幀率不同。當(dāng)根據(jù)幀速對(duì)幀進(jìn)行二次采樣時(shí),生成的幀是相同的。此外,高達(dá)120fps的極高幀速率對(duì)端到端VQA模型提出了重大挑戰(zhàn)。為了可靠地評(píng)估具有豐富內(nèi)容和失真多樣性以及多種空域分辨率和幀速率的數(shù)字視頻質(zhì)量,我們提出了一種模塊化BVQA模型。我們的模型由三個(gè)模塊組成:基礎(chǔ)質(zhì)量預(yù)測模塊、空域矯正模塊和時(shí)域矯正模塊,分別響應(yīng)視頻質(zhì)量中的視覺內(nèi)容和失真、空域分辨率和幀速率變化。基礎(chǔ)質(zhì)量預(yù)測模塊將一組稀疏的空域下采樣關(guān)鍵幀作為輸入,并生成一個(gè)標(biāo)量作為質(zhì)量分?jǐn)?shù)??沼虺C正模塊依靠淺層CNN來處理實(shí)際空域分辨率下關(guān)鍵幀的拉普拉斯金字塔,并計(jì)算縮放和移位參數(shù)來校正基礎(chǔ)質(zhì)量得分。類似地,時(shí)域矯正模塊依靠輕量級(jí)CNN以實(shí)際幀速率處理以關(guān)鍵幀為中心的空域下采樣視頻塊,并計(jì)算另一個(gè)縮放和移位參數(shù)以進(jìn)行質(zhì)量得分校正。為了增強(qiáng)模型的模塊化,我們?cè)谟?xùn)練期間引入了dropout策略。在每次迭代中,我們以預(yù)先指定的概率隨機(jī)丟棄空域和/或時(shí)域整流器。這種訓(xùn)練策略鼓勵(lì)基礎(chǔ)質(zhì)量預(yù)測模塊作為BVQA模型獨(dú)立運(yùn)行,并且在配備矯正模塊時(shí)會(huì)表現(xiàn)更好。27圖3.所提出模型總體結(jié)構(gòu)。基礎(chǔ)質(zhì)量預(yù)測模塊采用一組稀疏的空域下采樣關(guān)鍵幀作為輸入,生成表示為$q__$的基礎(chǔ)質(zhì)量值??沼虺C正模塊采用從實(shí)際空域分辨率的關(guān)鍵幀導(dǎo)出的拉普拉斯金字塔,計(jì)算縮放參數(shù)$\alpha__$和移位參數(shù)$\beta__$來校正基礎(chǔ)質(zhì)量。時(shí)域校正模塊利用以實(shí)際幀速率的關(guān)鍵幀為中心的視頻塊的特征來計(jì)算另一個(gè)縮放參數(shù)$\alpha__$和移位參數(shù)$\beta__$以進(jìn)行質(zhì)量校正。空域和時(shí)域矯正模塊可以使用模塊化其中利用尺度參數(shù)的幾何平均值和移位參數(shù)的算術(shù)平均值。為了評(píng)估空域整流器的性能,我們采用了BVI-SR和WaterlooIVC4K,重點(diǎn)研究不同空域分辨率對(duì)視頻質(zhì)量的影響。為了評(píng)估時(shí)域整流器的有效性,我們利用BVI-HFR和LIVE-YT-HFR,它們專門用于分析不同幀速率對(duì)視頻質(zhì)量的影響。這四個(gè)數(shù)據(jù)集都是PGC(Professionally-GeneratedContent,專業(yè)生成的內(nèi)容)數(shù)據(jù)集。我們還使用八個(gè)UGC(User-GeneratedContent,用戶生成的內(nèi)容)數(shù)據(jù)庫進(jìn)一步驗(yàn)證了我們提出提供了這些數(shù)據(jù)庫的全面介紹。28PGC數(shù)據(jù)集結(jié)果表2和表3展示了4個(gè)PGC數(shù)據(jù)集的結(jié)果??梢钥闯隹沼虺C正模塊和時(shí)域矯正模塊可以分別有效地感知空域分辨率和時(shí)域幀率對(duì)視頻質(zhì)量帶來的影響,并很好地對(duì)基礎(chǔ)質(zhì)量分?jǐn)?shù)進(jìn)行矯正。Table2.Performancecomparisonofourmodelsagainstcompet-ingmethodsonBVI-SRandWaterlooIVC4Kwithemphasisonspatialresolution-sensitivedistortions.Thetop-2resultsoneachdatabasearehighlightedinbold.Table3.PerformancecomparisonofourmodelsagainstcompetingmethodsonBVI-HFRandLIVE-YT-HFR,withemphasisonframerate-sensitivedistortions.UGC數(shù)據(jù)集結(jié)果表4和表5展示了8個(gè)UGC數(shù)據(jù)集的結(jié)果??梢钥闯鰞蓚€(gè)矯正模塊的集成顯著增強(qiáng)了八個(gè)UGC數(shù)據(jù)庫的性能,與當(dāng)前最優(yōu)模型相比也展示了具有競爭力的結(jié)果。此外,包含這兩個(gè)矯正模塊可以實(shí)現(xiàn)有效的泛化,證明它們對(duì)提高預(yù)測視頻質(zhì)量有突出貢獻(xiàn)。此外,我們的模型的模塊化設(shè)計(jì)提供了對(duì)常見UGC數(shù)據(jù)庫中主要失真類型的全面理解。29Table4.PerformancecomparisonintermsofSRCCandPLCCofourmodelsagainstfivecompetingmethodsonsevensmall-scaleUGCVQAdatasets.Theweightedaveragerepresentstheaverageresultsacrossdifferentdatabases,weightedbythesizeofeachrespectivedatabase.Table5.Cross-datasetevaluation.Themodelsaretrainedontheofficialtrainingsplitoflarge-scaleLSVQandtestedontheotherVQAdatasetswithoutfine-tuning.火山引擎多媒體實(shí)驗(yàn)室是字節(jié)跳動(dòng)旗下的研究團(tuán)隊(duì),致力于探索多媒體領(lǐng)域的前沿技術(shù),參與國際標(biāo)準(zhǔn)化工作,其眾多創(chuàng)新算法及軟硬件解決方案已經(jīng)廣泛應(yīng)用在抖音、西瓜視頻等產(chǎn)品的多媒體業(yè)務(wù),并向火山引擎的企業(yè)級(jí)客戶提供技術(shù)服務(wù)。實(shí)驗(yàn)室成立以來,多篇論文入選國際頂會(huì)和旗艦期刊,并獲得數(shù)項(xiàng)國際級(jí)技術(shù)賽事冠軍、行業(yè)創(chuàng)新獎(jiǎng)及最佳論文獎(jiǎng)?;鹕揭媸亲止?jié)跳動(dòng)旗下的云服務(wù)平臺(tái),將字節(jié)跳動(dòng)快速發(fā)展過程中積累的增長方法、技術(shù)能力和工具開放給外部企業(yè),提供云基礎(chǔ)、視頻與內(nèi)容分發(fā)、大數(shù)據(jù)、人工智能、開發(fā)與運(yùn)維等服務(wù),幫助企業(yè)在數(shù)字化升級(jí)中實(shí)現(xiàn)持續(xù)增長。30深度拆解:CVPR2024CAMIXERSR動(dòng)態(tài)注意力分配的超分辨率加速框架隨著相關(guān)技術(shù)和應(yīng)用的發(fā)展,比如超高清屏幕、虛擬現(xiàn)實(shí)(VR)等沉浸式體驗(yàn)的增加,用戶對(duì)超高分辨率圖像和視頻的需求變得越來越強(qiáng)烈。在這些場景中,圖像的質(zhì)量和清晰度對(duì)于提供最佳的用戶體驗(yàn)至關(guān)重要。超高分辨率不僅能提供更清晰、更真實(shí)的視覺效果,還能在一定程度上增強(qiáng)人們的互動(dòng)和沉浸感,在一些VR場景中我們需要8K甚至16K的才可以滿足需求。然而要生成或者處理這些超高分辨率的內(nèi)容,對(duì)算力的要求也是與日增長,對(duì)相關(guān)算法提出了挑戰(zhàn)。超分辨率是一個(gè)經(jīng)典的計(jì)算機(jī)底層視覺問題,該問題要解決的是通過低分辨率的圖像輸入,獲得高分辨率的圖像輸出。目前該領(lǐng)域的算法模型主要是有CNN以及Transformer兩大類別,考慮到實(shí)際的應(yīng)用場景,超分的一個(gè)細(xì)分領(lǐng)域方向是算法的輕量化。在上述提到的超高分辨率的場景,超分算法的算力消耗問題變得尤為關(guān)鍵。基于此,本文提出了一種名為CAMixerSR的超分框架,可以做到內(nèi)容感知,通過對(duì)Conv和Self-Attention的分配做到計(jì)算量的大幅優(yōu)化。論文地址:/abs/2402.19289表1不同難易程度內(nèi)容的超分算力與效果對(duì)比我們?cè)趯?duì)內(nèi)容進(jìn)行分塊并且根據(jù)處理的難易程度分成了簡單、中等、困難三個(gè)類型,并且使用不同F(xiàn)LOPS的計(jì)算單元,Conv以及SA+Conv兩種類型進(jìn)行比較,發(fā)現(xiàn)對(duì)于簡單的模塊我們可以利用較少的FLOPS進(jìn)行計(jì)算,并且可以得到較為不錯(cuò)的PSNR結(jié)果,只有在中等以及困難的分塊內(nèi)容中,SA+Conv的效果優(yōu)勢才較為明顯。通過這個(gè)實(shí)驗(yàn)我們發(fā)現(xiàn),如果對(duì)內(nèi)容進(jìn)行分塊并且動(dòng)態(tài)調(diào)整優(yōu)化處理策略,有可能在保持性能的同時(shí),大幅降低FLOPS。31圖1CAMixer的算法框架上圖是我們方案的整體流程圖,可以看到,我們的方案分成了三個(gè)部分,包括Predictor模塊,Self-Attention模塊以及Convolution模塊。其中的Predictor模塊是基于局部條件以及全局條件以及對(duì)應(yīng)的線性位置編碼函數(shù),通過該模塊,我們可以輸出OffsetsMaps、MixerMask、SpatialAttention、ChannelAttention,這些信息在Self-Attention模塊以及Convolution模塊的后續(xù)計(jì)算中進(jìn)行使用。CAMixerSR中網(wǎng)絡(luò)的主體模塊是基于SwinIR-light進(jìn)行優(yōu)化。對(duì)于復(fù)雜區(qū)域,我們使用offsetsmap來進(jìn)行更高效的attention計(jì)算,并且將輸入和V分成了簡單和困難兩種分塊,從而得到對(duì)應(yīng)的Q和K,并且將他們分別進(jìn)行計(jì)算,得到attention部分的V。Convolution模塊我們使用depth-wise進(jìn)行計(jì)算,將Self-Attention的結(jié)果合并后即可得到我們最后的輸出結(jié)果。3233圖2Predictor模塊輸出的Mask可視化結(jié)果圖2顯示了我們的Predictor模塊的輸出結(jié)果,可以看到在很多的場景里,不同的區(qū)域內(nèi)容有較為大的差異,并且我們的算法可以精準(zhǔn)預(yù)測出分塊的類型。表2CAMixerSR在超高分辨率數(shù)據(jù)集上的實(shí)驗(yàn)對(duì)比34表2和表3是CAMixerSR與之前高性能超分在超高分辨率數(shù)據(jù)集上做的實(shí)驗(yàn)對(duì)比,我們可以看到,在多個(gè)數(shù)據(jù)集(F2K、Tesk2K、Tesk4K、Tesk8K)上,相比經(jīng)典的Transformerbased超分方案SwinIR-light,CAMixerSR都有比較大的優(yōu)勢,在經(jīng)過我們的方案優(yōu)化后,可以做到PSNR接近的情況下節(jié)約將近一半的FLOPS以及參數(shù)量Params。表3CAMixerSR通用超分辨率數(shù)據(jù)集上的實(shí)驗(yàn)對(duì)比除了超大分辨率的場景,我們的方案在一些通用場景下同樣有不錯(cuò)的性能優(yōu)勢,表3中我們?cè)谝恍┏R姷某譁y試集上和一些常見的高性能超分方案進(jìn)行了測試。表4CAMixerSR在球面超分辨率數(shù)據(jù)集上的實(shí)驗(yàn)對(duì)比球面內(nèi)容是一個(gè)重要的超高分辨率場景,我們?cè)趦蓚€(gè)全景超分?jǐn)?shù)據(jù)集上進(jìn)行了測試,甚至不需要通過球面數(shù)據(jù)集進(jìn)行訓(xùn)練,僅進(jìn)行測試的情況下同樣發(fā)現(xiàn)我們的方案在PSNR效果以及性能上都超過了過去的方案。在這項(xiàng)實(shí)驗(yàn)中可以表明CAMixserSR在沉浸式場景有比較大的收益潛力?;鹕揭娑嗝襟w實(shí)驗(yàn)室是字節(jié)跳動(dòng)旗下的研究團(tuán)隊(duì),致力于探索多媒體領(lǐng)域的前沿技術(shù),參與國際標(biāo)準(zhǔn)化工作,其眾多創(chuàng)新算法及軟硬件解決方案已經(jīng)廣泛應(yīng)用在抖音、西瓜視頻等產(chǎn)品的多媒體業(yè)務(wù),并向火山引擎的企業(yè)級(jí)客戶提供技術(shù)服務(wù)。實(shí)驗(yàn)室成立以來,多篇論文入選國際頂會(huì)和旗艦期刊,并獲得數(shù)項(xiàng)國際級(jí)技術(shù)賽事冠軍、行業(yè)創(chuàng)新獎(jiǎng)及最佳論文獎(jiǎng)?;鹕揭媸亲止?jié)跳動(dòng)旗下的云服務(wù)平臺(tái),將字節(jié)跳動(dòng)快速發(fā)展過程中積累的增長方法、技術(shù)能力和工具開放給外部企業(yè),提供云基礎(chǔ)、視頻與內(nèi)容分發(fā)、大數(shù)據(jù)、人工智能、開發(fā)與運(yùn)維等服務(wù),幫助企業(yè)在數(shù)字化升級(jí)中實(shí)現(xiàn)持續(xù)增長。353536火山引擎多媒體實(shí)驗(yàn)室VR全鏈路處理傳輸顯示方案ResVR入選ACMMultimedia2024最佳論文提名近日,ACMMultimedia2024在墨爾本召開,該會(huì)議是國際多媒體領(lǐng)域?qū)W術(shù)和產(chǎn)業(yè)界交流的頂級(jí)盛會(huì)也是中國計(jì)算機(jī)學(xué)會(huì)(CCF)推薦的多媒體領(lǐng)域唯一的A類國際學(xué)術(shù)會(huì)議。據(jù)悉本(入選比例0.5%)被提名ACMMultimedia2024最佳論文(BestPaperNomination)。火山引擎多媒體實(shí)驗(yàn)室和北京大學(xué)合作的論文"ResVR:JointRescalingandViewportRenderingofOmnidirectionalImages"榮獲本次會(huì)議最佳論文提名。37全景圖像(OmnidirectionalImages,ODI)等內(nèi)容已在虛擬現(xiàn)實(shí)頭戴式VR設(shè)備中得到廣泛應(yīng)用,代表性產(chǎn)品包括PICO4、MetaQuest3等。全景內(nèi)容相關(guān)技術(shù)的應(yīng)用遍及教育、旅游和娛樂等多個(gè)領(lǐng)域。全景內(nèi)容通常采用等距圓柱投影(EquirectangularProjection,簡稱ERP)格式進(jìn)行存儲(chǔ)。然而,當(dāng)在VR頭戴式設(shè)備上觀看時(shí),需要將ERP圖像轉(zhuǎn)換到觀看視角(viewport)進(jìn)行顯示。為較好的用戶體驗(yàn),全景圖像和視頻的分辨率通常需達(dá)到8K甚至更高的標(biāo)準(zhǔn),這對(duì)傳輸提出了挑戰(zhàn)。在實(shí)際應(yīng)用的場景中,尤其在網(wǎng)絡(luò)帶寬有限的情況下,經(jīng)常會(huì)涉及到全景圖像的重采樣,它分為三個(gè)主要步驟實(shí)施:首先,在服務(wù)端,我們對(duì)高分辨率ERP圖像進(jìn)行下采樣,以創(chuàng)建一個(gè)低分辨率版本;然后將這個(gè)低分辨率圖像傳輸?shù)接脩舻腣R設(shè)備后,再將其上采樣回與原始圖像相同尺寸的高分辨率ERP圖像;最后,當(dāng)用戶通過頭戴式顯示器觀看特定視角時(shí),相應(yīng)的視角再從上采樣的圖像中渲染出來。端到端全景內(nèi)容顯示方案ResVR現(xiàn)有的方案這三個(gè)步驟是獨(dú)立的,由于缺少整體鏈路的聯(lián)合優(yōu)化,會(huì)出現(xiàn)紋理丟失、像素錯(cuò)位等問題。為了解決這個(gè)問題,多媒體實(shí)驗(yàn)室的研究人員提出了一種直接優(yōu)化渲染顯示結(jié)果的端到端聯(lián)合優(yōu)化方案ResVR,并且為了進(jìn)行端到端訓(xùn)練提出了多項(xiàng)算法創(chuàng)新。38離散像素采樣策略(DiscretePixelSamplingStrategy)云端的ERP圖像和渲染顯示的視角都不能同時(shí)是規(guī)則的矩形圖像形狀,從而影響了端到端訓(xùn)練。為了解決這個(gè)問題,論文提出了一種離散像素采樣策略(DiscretePixelSamplingStrategy)來創(chuàng)建訓(xùn)練數(shù)據(jù)對(duì)。39球面像素形狀表示(SphericalPixelShapeRepresentation)為了進(jìn)一步提升端到端訓(xùn)練效果,讓網(wǎng)絡(luò)感知到球面上像素的形狀和位置。論文使用了描述渲染過程中球面上像素的方向和曲率,雅可比(Jacobian)矩陣和黑塞(Hessian)矩陣,并基于球面微分使用數(shù)值導(dǎo)數(shù)來對(duì)它們進(jìn)行估計(jì)。示例中使用球面視角上的一個(gè)點(diǎn)y來說明這個(gè)過程。首先,對(duì)點(diǎn)y及其8個(gè)最近鄰點(diǎn)應(yīng)用逆映射,以在ERP上獲得點(diǎn)x及其鄰點(diǎn)。然后,這些點(diǎn)被轉(zhuǎn)換為球面坐標(biāo),這些坐標(biāo)用于計(jì)算數(shù)值導(dǎo)數(shù),以估計(jì)像素形狀表示。40兩個(gè)公開數(shù)據(jù)集測試中的實(shí)驗(yàn)結(jié)果表明,ResVR在保證全景圖像傳輸效率的同時(shí),實(shí)現(xiàn)了最佳的渲染質(zhì)量。并且值得注意的是,該方案能夠使用消費(fèi)級(jí)GPU實(shí)現(xiàn)實(shí)時(shí)渲染,表明在實(shí)際應(yīng)用中有較強(qiáng)的實(shí)用性。此外我們從示例圖中可以看到,論文的方法超越了現(xiàn)有的方案,在實(shí)現(xiàn)了1dB的PSNR增益的同時(shí)主觀效果也有明顯提升。41總結(jié)總結(jié)在ResVR論文中,多媒體實(shí)驗(yàn)室的研究人員提出了一種用于處理、傳輸以及顯示全景圖像的新框架,可以同時(shí)優(yōu)化傳輸效率和渲染質(zhì)量。為了實(shí)現(xiàn)端到端優(yōu)化,論文提出了一種離散像素采樣算法,以創(chuàng)建ERP和GT像素的數(shù)據(jù)對(duì)。此外為了讓網(wǎng)絡(luò)框架對(duì)渲染的內(nèi)容有更好感知,論文引入了一種球面像素形狀表示算法。最后,實(shí)驗(yàn)表明ResVR在多個(gè)測試序列上,達(dá)到了sota的主客觀效果,并且該方案可以在消費(fèi)級(jí)顯卡中實(shí)時(shí)運(yùn)行?;鹕揭娑嗝襟w實(shí)驗(yàn)室是字節(jié)跳動(dòng)旗下的研究團(tuán)隊(duì),致力于探索多媒體領(lǐng)域的前沿技術(shù),參與國際標(biāo)準(zhǔn)化工作,其眾多創(chuàng)新算法及軟硬件解決方案已經(jīng)廣泛應(yīng)用在抖音、西瓜視頻等產(chǎn)品的多媒體業(yè)務(wù),并向火山引擎的企業(yè)級(jí)客戶提供技術(shù)服務(wù)。實(shí)驗(yàn)室成立以來,多篇論文入選國際頂會(huì)和旗艦期刊,并獲得數(shù)項(xiàng)國際級(jí)技術(shù)賽事冠軍、行業(yè)創(chuàng)新獎(jiǎng)及最佳論文獎(jiǎng)?;鹕揭媸亲止?jié)跳動(dòng)旗下的云服務(wù)平臺(tái),將字節(jié)跳動(dòng)快速發(fā)展過程中積累的增長方法、技術(shù)能力和應(yīng)用工具開放給外部企業(yè),幫助企業(yè)構(gòu)建用戶體驗(yàn)創(chuàng)新、數(shù)據(jù)驅(qū)動(dòng)決策和業(yè)務(wù)敏捷迭代等數(shù)字化能力,實(shí)現(xiàn)業(yè)務(wù)可持續(xù)增長。42火山引擎論文入選國際會(huì)議ACMIMC'24|一種面向大規(guī)模視頻點(diǎn)播系統(tǒng)的算法實(shí)驗(yàn)平臺(tái)2024年11月4日至11月6日,在西班牙馬德里舉辦了ACMIMC2024(ACMInternetMeasurementConference)會(huì)議,ACMIMC是計(jì)算機(jī)網(wǎng)絡(luò)方向的頂級(jí)會(huì)議之一,會(huì)議收錄了網(wǎng)絡(luò)測量領(lǐng)域的頂級(jí)論文。2024年,共計(jì)253篇論文投稿,最終錄用55篇,錄用率21.7%?;鹕揭娑嗝襟w實(shí)驗(yàn)室傳輸系統(tǒng)團(tuán)隊(duì)和超邊緣技術(shù)團(tuán)隊(duì)合作,提出了一種新型的實(shí)驗(yàn)平臺(tái)Magpie。43該技術(shù)已經(jīng)被應(yīng)用于公司內(nèi)部日常生產(chǎn)過程中的算法測試環(huán)節(jié)。同時(shí),該論文《Magpie:ImprovingtheEfficiencyofA/BTestsforLargeScaleVideo-on-DemandSystems》被IMC2024收錄,并被邀請(qǐng)?jiān)赩ideoStreamingSession做正式匯報(bào)。論文鏈接:/doi/abs/10.1145/3646547.3689019隨著技術(shù)的進(jìn)步和互聯(lián)網(wǎng)基礎(chǔ)設(shè)施的擴(kuò)展,視頻點(diǎn)播(Video-on-Demand)服務(wù)已成為現(xiàn)代媒體消費(fèi)中不可或缺的一部分,其流量現(xiàn)已占據(jù)了互聯(lián)網(wǎng)總流量的重要比例。作為全球主要的點(diǎn)播視頻內(nèi)容提供商,字節(jié)跳動(dòng)在視頻點(diǎn)播系統(tǒng)中上線算法的過程是高度規(guī)范的,必須確保任何變更都不會(huì)對(duì)線上的用戶體驗(yàn)產(chǎn)生負(fù)面影響。44開發(fā)人員在開發(fā)環(huán)境中可以自由進(jìn)行系統(tǒng)修改和測試,但所有針對(duì)生產(chǎn)環(huán)境(即直接服務(wù)于真實(shí)用戶的系統(tǒng))的更改都必須經(jīng)過嚴(yán)格的審查和批準(zhǔn)過程。這一過程包括使用大規(guī)模在線A/B實(shí)驗(yàn)來驗(yàn)證改動(dòng)是否真正提升了服務(wù)的體驗(yàn)質(zhì)量(QoE)和服務(wù)質(zhì)量(QoS),同時(shí)確保不會(huì)對(duì)系統(tǒng)的穩(wěn)定性、性能和其他關(guān)鍵指標(biāo)造成負(fù)面影響。通過這種方法,我們能夠不斷優(yōu)化我們的點(diǎn)播視頻服務(wù),同時(shí)保持對(duì)用戶承諾的高質(zhì)量服務(wù)。然而,為了保證系統(tǒng)穩(wěn)定性而復(fù)雜化的流程使得算法的更新非常的緩慢。盡管開發(fā)者在進(jìn)行算法測試時(shí),可以利用很多仿真測試工具自測算法性能,但是由于這些仿真測試工具不具備一定數(shù)量的測試規(guī)模,并且對(duì)于復(fù)雜的真實(shí)網(wǎng)絡(luò)環(huán)境和系統(tǒng)環(huán)境進(jìn)行了簡化,其測試結(jié)果往往無法代表真實(shí)的線上結(jié)果,開發(fā)者依舊需要經(jīng)歷多次A/B實(shí)驗(yàn)才能最終在真實(shí)的生產(chǎn)環(huán)境中取得正向收益,造成了算法上線流程整體歷時(shí)非常漫長的現(xiàn)狀,拖慢了整體的生產(chǎn)效率。因此,基于我們現(xiàn)有的資源,設(shè)計(jì)一套能夠快速取得實(shí)驗(yàn)結(jié)果的同時(shí)具備高復(fù)現(xiàn)精準(zhǔn)度的實(shí)驗(yàn)平臺(tái),具有非常高的實(shí)用價(jià)值,對(duì)于提升算法更新效率具有非常重要的意義。在本論文中,團(tuán)隊(duì)全面地介紹了實(shí)驗(yàn)平臺(tái)的設(shè)計(jì)動(dòng)機(jī)、設(shè)計(jì)思路和驗(yàn)證效果。在企業(yè)的生產(chǎn)環(huán)境中更新算法流程漫長是大型互聯(lián)網(wǎng)企業(yè)都會(huì)面臨的問題,尤其當(dāng)前的視頻點(diǎn)播作為本公司的主要業(yè)務(wù)之一,點(diǎn)播系統(tǒng)每天都面臨著激增的算法上線需求和算法上線速度緩慢的矛盾。為了從根本上緩解這一矛盾,火山引擎的研究團(tuán)隊(duì)認(rèn)為應(yīng)當(dāng)提出一種新型的算法驗(yàn)證平臺(tái)用于在進(jìn)行線上大規(guī)模A/B實(shí)驗(yàn)前進(jìn)行算法性能驗(yàn)證,并將該平臺(tái)的正向?qū)嶒?yàn)結(jié)論作為開啟A/B實(shí)驗(yàn)的前置條件之一。該平臺(tái)需要具備兩大基本的特點(diǎn):復(fù)現(xiàn)精確度高和驗(yàn)證速度快。在下表中,我們總結(jié)了現(xiàn)存的驗(yàn)證方式包括線上大規(guī)模A/B實(shí)驗(yàn)和本地仿真測試的特點(diǎn),可以發(fā)現(xiàn)這兩種方案實(shí)際上都不能夠同時(shí)滿足這兩點(diǎn)要求。45為了同時(shí)滿足以上兩點(diǎn)算法驗(yàn)證實(shí)驗(yàn)平臺(tái)的設(shè)計(jì)目標(biāo),我們提出了一種名為Magpie的實(shí)驗(yàn)平臺(tái)設(shè)計(jì)方案。其核心設(shè)計(jì)思想包括三點(diǎn):●真實(shí)的實(shí)驗(yàn)驗(yàn)證環(huán)境。首先,Magpie是一個(gè)在真實(shí)的環(huán)境中進(jìn)行測試的平臺(tái)。這個(gè)真實(shí)的平臺(tái)包括一個(gè)控制節(jié)點(diǎn)、約400臺(tái)真實(shí)的服務(wù)器和遍布中580個(gè)客戶端設(shè)備,這些服務(wù)器和控制節(jié)點(diǎn)是整個(gè)實(shí)驗(yàn)平臺(tái)的中樞,其職責(zé)是任務(wù)的分配與下發(fā)、為服務(wù)器選取每個(gè)客戶端設(shè)備都安裝了一個(gè)定制化應(yīng)用程序同時(shí),研究團(tuán)隊(duì)將傳輸層的算法進(jìn)行抽象化與接●關(guān)鍵特征的提取與復(fù)現(xiàn)。在調(diào)試實(shí)驗(yàn)平臺(tái)的過程中,研究人員發(fā)現(xiàn)僅僅提供真實(shí)的實(shí)驗(yàn)驗(yàn)證度損耗,為了解決這個(gè)問題,Magpie采用兩步流程來提高結(jié)果的準(zhǔn)確性。46首先,它通過數(shù)據(jù)驅(qū)動(dòng)的方法,使用隨機(jī)森林算法來識(shí)別影響結(jié)果的關(guān)然后,Magpie利用其內(nèi)部的vPaaS基礎(chǔ)設(shè)施和資源調(diào)度機(jī)制,調(diào)整這些因素在其環(huán)境中這種調(diào)整確保重要因素與現(xiàn)實(shí)世界在線分布●模擬A/B實(shí)驗(yàn)。Magpie同樣通過使用A/B分組來評(píng)估算法性能。與線上A/B實(shí)驗(yàn)依賴用戶行為產(chǎn)生數(shù)據(jù)的方式不同,Magpie通過腳本控制應(yīng)用程序自動(dòng)運(yùn)行視頻點(diǎn)播流程來一旦控制節(jié)點(diǎn)發(fā)出實(shí)驗(yàn)開啟命令,測試就會(huì)第二種方法是基于時(shí)間的分組,其中每個(gè)設(shè)備依次執(zhí)行策略。這確保了參與不我們從算法驗(yàn)證的準(zhǔn)確度和算法驗(yàn)證結(jié)果的耗時(shí)兩個(gè)維度來評(píng)估Magpie的效果?!袼惴?yàn)證的準(zhǔn)確度高:我們首先評(píng)估了Magpie用于驗(yàn)證一個(gè)重注入算法(一個(gè)我們準(zhǔn)備在我們將Magpie與本地測試的結(jié)果和真實(shí)AB測試的結(jié)果進(jìn)行了比較。通過比較七天收集的對(duì)比其差異,我們可以看到Magpie將效果差異其從大約13%降低到了大約2%。大大47●算法驗(yàn)證的耗時(shí)短:我們還通過追蹤在最近部署的九種算法中從算法開發(fā)到全量實(shí)驗(yàn)的時(shí)間跨度,分析了Magpie的在節(jié)省時(shí)間成本方面的效果表現(xiàn)。與在線A/B實(shí)驗(yàn)相比,由于省略了繁雜的質(zhì)量保障測試和穩(wěn)定性測試流程,Magpie框架將整個(gè)過程的時(shí)間從68天縮短到了大約15目前,Magpie已經(jīng)作為一個(gè)火山引擎內(nèi)部團(tuán)隊(duì)用于驗(yàn)證算法的常規(guī)驗(yàn)證實(shí)驗(yàn)平臺(tái)投入使用。結(jié)合我們對(duì)實(shí)驗(yàn)平臺(tái)設(shè)計(jì)與驗(yàn)證的經(jīng)驗(yàn),我們認(rèn)為Magpie在以下兩方面具有優(yōu)化空間。●Magpie的一般化:目前Magpie是一個(gè)主要用于解決視頻點(diǎn)播系統(tǒng)中傳輸算法驗(yàn)證問題的實(shí)驗(yàn)平臺(tái),但是我們認(rèn)為它完全具備發(fā)展成為一個(gè)適用于所有網(wǎng)絡(luò)架構(gòu)和算法層的通用實(shí)驗(yàn)而要將Magpie擴(kuò)展為一個(gè)更加廣泛的實(shí)驗(yàn)平臺(tái)存在著許多挑戰(zhàn),例如所有算法的模塊化和對(duì)不同傳輸系統(tǒng)架構(gòu)的兼容性。需要更加精良的架構(gòu)抽象設(shè)計(jì)和編碼技巧,以實(shí)現(xiàn)一個(gè)可擴(kuò)48●改進(jìn)關(guān)鍵特征的提取與復(fù)現(xiàn)技術(shù):在Magpie的設(shè)計(jì)中我們采用隨機(jī)森林回歸分析作為考慮到特征提取和復(fù)現(xiàn)的準(zhǔn)確性在提高實(shí)驗(yàn)結(jié)果相似性中的關(guān)鍵作用,通過改進(jìn)我們的特征本文介紹了一種由火山引擎研究團(tuán)隊(duì)提出的一種面向大規(guī)模視頻點(diǎn)播系統(tǒng)的算法實(shí)驗(yàn)平臺(tái)Magpie,它通過利用真實(shí)的實(shí)驗(yàn)驗(yàn)證環(huán)境、關(guān)鍵特征的提取與復(fù)現(xiàn)以及模擬A/B實(shí)驗(yàn)實(shí)現(xiàn)了高準(zhǔn)確度的算法復(fù)現(xiàn)度和快速的實(shí)驗(yàn)結(jié)果輸出速度。業(yè)界可以通過了解實(shí)驗(yàn)平臺(tái)的設(shè)計(jì)原理,應(yīng)用到任意的系統(tǒng)架構(gòu)和測試算法的驗(yàn)證中,因此,它對(duì)于解決在生產(chǎn)環(huán)境中算法迭代速度慢這一問題具有很高的參考價(jià)值?;鹕揭娑嗝襟w實(shí)驗(yàn)室是字節(jié)跳動(dòng)旗下的研究團(tuán)隊(duì),致力于探索多媒體領(lǐng)域的前沿技術(shù),參與國際標(biāo)準(zhǔn)化工作,其眾多創(chuàng)新算法及軟硬件解決方案已經(jīng)廣泛應(yīng)用在抖音、西瓜視頻等產(chǎn)品的多媒體業(yè)務(wù),并向火山引擎的企業(yè)級(jí)客戶提供技術(shù)服務(wù)。實(shí)驗(yàn)室成立以來,多篇論文入選國際頂會(huì)和旗艦期刊,并獲得數(shù)項(xiàng)國際級(jí)技術(shù)賽事冠軍、行業(yè)火山引擎是字節(jié)跳動(dòng)旗下的云服務(wù)平臺(tái),將字節(jié)跳動(dòng)快速發(fā)展過程中積累的增長方法、技術(shù)能力和工具開放給外部企業(yè),提供云基礎(chǔ)、視頻與內(nèi)容分發(fā)、大數(shù)據(jù)、人工智能、開發(fā)與運(yùn)維等服務(wù),幫助企業(yè)在數(shù)字化升級(jí)中實(shí)現(xiàn)持續(xù)增長。火山引擎是字節(jié)跳動(dòng)旗下的云服務(wù)平臺(tái),將字節(jié)跳動(dòng)快速發(fā)展過程中積累的增長方法、技術(shù)能力和應(yīng)用工具開放給外部企業(yè),幫助企業(yè)構(gòu)建用戶體驗(yàn)創(chuàng)新、數(shù)據(jù)驅(qū)動(dòng)決策和業(yè)務(wù)敏捷迭代等數(shù)字化能力,實(shí)現(xiàn)業(yè)務(wù)可持續(xù)增長。49橫掃四大賽道,火山引擎斬獲MSU世界視頻編碼器大賽“最佳ASIC編碼器”MSU世界編碼器大賽由莫斯科國立大學(xué)(MSU)舉辦,是視頻編碼領(lǐng)域極具影響力的國際賽事,比賽采用「SSIM、PSNR、VMAF」等多個(gè)評(píng)價(jià)指標(biāo)對(duì)全球范圍內(nèi)參賽的軟硬件編碼器進(jìn)行多維度的評(píng)估和排名,已成功舉辦18屆。2024年硬件編碼器賽道競爭激烈,吸引了各大科技巨頭參賽,包括騰訊、Streamlake、Netint、Intel、英偉達(dá)、AMD等。火山引擎自研視頻轉(zhuǎn)碼芯片的「BVE1.2編碼器」首次亮相,全面參與1080p@30fps、1080p@60fps、1080p@120fps和1080p@240fps四個(gè)子賽道,獲得多項(xiàng)指標(biāo)第一,及全部參賽H.265/HEVC編碼器中所有指標(biāo)第一,并斬獲所有四個(gè)賽道“「最佳ASIC編碼器」”稱號(hào)。50在所有的四個(gè)賽道中,BVE1.2是表現(xiàn)最好的ASIC編碼器,不僅表現(xiàn)出「優(yōu)異同時(shí)「吞吐率」大幅度領(lǐng)先同類產(chǎn)品。在高吞吐1080p@240fps賽道中,BVE1.2包攬了所有四項(xiàng)質(zhì)量指標(biāo)的第一,并且保持顯著的領(lǐng)先幅度(Fig1)。在1080p@30fps、1080p@60fps、以及1080p120fps賽道上,BVE1.2是最好的H.265/HEVC編碼器(僅次于基于最新一代標(biāo)準(zhǔn)的H.266/VVC編碼器),同時(shí)相比于壓縮性能前三的其他編碼器吞吐性能也有非常明顯的優(yōu)勢(Fig2)。Fig1.BVE1以及其他codecs的overallquality比較(賽道240fps)Fig2.BVE1.2、Streamlake-200、NetintQuadra以及changhaiV2吞吐率比較51比賽結(jié)果不僅證明了BVE1.2編碼器能同時(shí)實(shí)現(xiàn)高吞吐和高質(zhì)量的雙重優(yōu)勢,適應(yīng)多種不同的編碼場景,能夠同時(shí)兼顧畫質(zhì)、延遲、及成本,帶給用戶更好的視覺體驗(yàn)。為了加強(qiáng)在視頻編碼領(lǐng)域的競爭力,字節(jié)跳動(dòng)在核心技術(shù)上不斷加大投入,從2019年就開始啟動(dòng)自研硬件編碼器研發(fā),目前自研硬件編碼器包含F(xiàn)PGA編碼器(過去兩年都參加了MSU編碼器大賽并榮獲“最佳FPGA編碼器”)和ASIC編碼器,覆蓋場景從圖片到視頻,在各個(gè)場景下都展現(xiàn)了更極致的壓縮效率,并進(jìn)一步探索具備高壓縮率、靈活性、高吞吐率、多標(biāo)準(zhǔn)兼容的未來編碼器架構(gòu)。結(jié)果表明,硬件編碼器的各項(xiàng)指標(biāo)不僅在MSU比賽中表現(xiàn)優(yōu)秀,更在互聯(lián)網(wǎng)視頻方面,進(jìn)一步擴(kuò)大了領(lǐng)先優(yōu)勢,火山引擎視頻轉(zhuǎn)碼芯片集成了視頻編解碼、視頻分析、視頻前處理、主觀優(yōu)化、內(nèi)容自適應(yīng)編碼等關(guān)鍵技術(shù),適用于各種業(yè)務(wù)場景,包含靜圖、動(dòng)圖、短視頻、長視頻、視頻直播、視頻會(huì)議、云游戲等,并通過火山引擎服務(wù)外部客戶。當(dāng)前,直播和短視頻迅速增長,導(dǎo)致帶寬成本顯著增加?;鹕揭嬉曨l轉(zhuǎn)碼芯片以其高編碼質(zhì)量和高密度特性,單卡支持120路1080p30fps編碼和“一進(jìn)多出”轉(zhuǎn)碼模式。相比通用CPU平臺(tái)上的軟件編碼方案,在達(dá)到同樣的視頻壓縮效率前提下,擁有幾十倍以上的成本優(yōu)勢,同時(shí)提供行業(yè)領(lǐng)先的編碼質(zhì)量,并支持畫質(zhì)增強(qiáng),顯著降低帶寬成本以及計(jì)算成本。為滿足不同業(yè)務(wù)及視頻應(yīng)用場景的需求,火山引擎視頻轉(zhuǎn)碼芯片還提供ABR、CBR、CRF、VBV等多種碼控方案,及l(fā)owlatency模式等?;鹕揭孀匝行酒跋到y(tǒng)可大規(guī)模節(jié)省IDC機(jī)房中視頻類應(yīng)用的成本和能耗,不僅能大幅降低客戶的視頻類應(yīng)用成本,還能獲得更好的視頻主觀及客觀質(zhì)量。字節(jié)跳動(dòng)一直致力于推動(dòng)技術(shù)創(chuàng)新和研發(fā),不斷提升產(chǎn)品的技術(shù)水平和用戶體驗(yàn),在視頻編碼領(lǐng)域持續(xù)突破?;鹕揭娑嗝襟w實(shí)驗(yàn)室是字節(jié)跳動(dòng)旗下的研究團(tuán)隊(duì),致力于探索多媒體領(lǐng)域的前沿技術(shù),參與國際標(biāo)準(zhǔn)化工作,其眾多創(chuàng)新算法及軟硬件解決方案已經(jīng)廣泛應(yīng)用在抖音、西瓜視頻等產(chǎn)品的多媒體業(yè)務(wù),并向火山引擎的企業(yè)級(jí)客戶提供技術(shù)服務(wù)。實(shí)驗(yàn)室成立以來,多篇論文入選國際頂會(huì)和旗艦期刊,并獲得數(shù)項(xiàng)國際級(jí)技術(shù)賽事冠軍、行業(yè)創(chuàng)新獎(jiǎng)及最佳論文獎(jiǎng)。火山引擎是字節(jié)跳動(dòng)旗下的云服務(wù)平臺(tái),將字節(jié)跳動(dòng)快速發(fā)展過程中積累的增長方法、技術(shù)能力和工具開放給外部企業(yè),提供云基礎(chǔ)、視頻與內(nèi)容分發(fā)、大數(shù)據(jù)、人工智能、開發(fā)與運(yùn)維等服務(wù),幫助企業(yè)在數(shù)字化升級(jí)中實(shí)現(xiàn)持續(xù)增長。歡迎更多小伙伴加入,共同探索多媒體前沿技術(shù)!525202技術(shù)探索53AI視頻時(shí)代,如何才能不掉隊(duì)?讓你反復(fù)點(diǎn)贊收藏的短視頻,或許已經(jīng)不是人類做的了。不久前,一段“皮卡丘打工”的AI視頻,在全網(wǎng)流傳爆火。精美的畫面,流暢的動(dòng)作,以及絲滑的雨滴,幾乎可以與大制作的動(dòng)畫電影相媲美。更久之前,今年抖音上爆火的科幻短劇《三星堆:未來啟示錄》,同樣是由AIGC生成。這部劇12集,每集3分鐘,講述考古工作者聯(lián)手揭開古蜀國神秘面紗的故事,一經(jīng)上線,就引發(fā)1.4億播放。其背后的技術(shù)支持字節(jié)旗下視頻生成工具即夢,也隨之引發(fā)市場關(guān)注。54技術(shù)的普及與工具的成熟,讓視頻創(chuàng)作門檻快速降低,在AI的助推下,用戶從單純的內(nèi)容消費(fèi)者升級(jí)為生產(chǎn)、消費(fèi)和擁有的三位一體,視頻的總量也隨之爆炸性增長:當(dāng)前,視頻數(shù)據(jù)的規(guī)模飛速增長,IDC預(yù)計(jì),2025年全球數(shù)據(jù)量將達(dá)到175ZB,其中絕大部分將來自視頻數(shù)據(jù),而這一趨勢,還將繼續(xù)加速。但AI視頻時(shí)代,主角不止有AI。同一時(shí)期,在消費(fèi)端,隨著全景直播、三維重建的成熟,伴隨著國產(chǎn)3A大作《黑神話:悟空》中AI技術(shù)結(jié)合無人機(jī)實(shí)景三維重建實(shí)現(xiàn)真實(shí)場景的紋理與細(xì)節(jié)以1:1的比例精準(zhǔn)還原,視頻的交互與消費(fèi)鏈路也從此被重構(gòu)。技術(shù)的成熟,疊加應(yīng)用的爆發(fā),AI視頻的戰(zhàn)爭,正迎來市場化為導(dǎo)向的下半場。55AI視頻時(shí)代的三座大山以AI技術(shù)為代表,一個(gè)新的視頻生產(chǎn)、交互、消費(fèi)時(shí)代正在緩緩拉開序幕,但近在眼前,仍有三座大山有待翻過。兩者中間的鴻溝,來自工程化。一個(gè)簡單的例子,僅在AI視頻生成環(huán)節(jié),業(yè)內(nèi)發(fā)布會(huì)上,AI生成的視頻中,小貓會(huì)正常跳躍,展示出的技術(shù)水平就已經(jīng)遙遙領(lǐng)先;但現(xiàn)實(shí)中,一個(gè)會(huì)正常跳躍的小貓,只是最基礎(chǔ)的要求,視頻本身的內(nèi)容與趣味的重要性,遠(yuǎn)遠(yuǎn)高于對(duì)AI技術(shù)更具體來說,在生產(chǎn)端,成本與效率,正逐漸成為一個(gè)越來越棘手的難題。一方面AI視頻生產(chǎn)的賽道正隨之變得前所未有的擁擠。Sora發(fā)布引發(fā)全球視頻大模型熱潮,AI視頻的賽道也在很快的時(shí)間里變得擁擠。僅僅在國內(nèi),就先后出現(xiàn)了字節(jié)系即夢、快手系可靈,創(chuàng)業(yè)公司系Pika、智譜清影、生數(shù)科技Vidu等一眾明星產(chǎn)品。然而,生成式AI帶來的視頻數(shù)據(jù)指數(shù)級(jí)增長對(duì)計(jì)算效能提出了嚴(yán)峻考驗(yàn);年初推出的Sora模型的訓(xùn)練算力需求是GPT-4的4.5倍,而推理算力需求更是接近GPT-4的400倍。無論文生視頻,還是圖生視頻,相關(guān)的算力指標(biāo)動(dòng)輒幾十上百T,甚至高達(dá)千T,這種激增的成本,帶來了算力資源的可負(fù)擔(dān)性的挑戰(zhàn)。與此同時(shí),多模態(tài)媒體處理挑戰(zhàn)也日益凸顯。多模態(tài)媒體處理需求的日益凸顯對(duì)音視頻處理的生產(chǎn)端、交互端和消費(fèi)端提出了全新要求;生產(chǎn)端,多模態(tài)內(nèi)容的生產(chǎn)是否足夠高質(zhì)高效,比如給用戶交付的究竟是模型、API還是一個(gè)類似即夢這樣的軟件都對(duì)應(yīng)著不同的用戶分層;交互端,當(dāng)我們的交互從傳統(tǒng)的單模態(tài)人機(jī)變成多模態(tài)交互乃至人與AI的交互,如何讓機(jī)器更直觀的理解人類的需求,依舊是個(gè)困擾,消費(fèi)端如何讓交互空間從2D升級(jí)到3D乃至虛實(shí)56單點(diǎn)的問題解決,需要編解碼技術(shù)的更新,需要有應(yīng)對(duì)洪峰波谷的能力,需要AI的加持。但系統(tǒng)性問題,需要的則是一個(gè)所有能力的融會(huì)貫通,從生產(chǎn)端,到交互端,再到消費(fèi)端的而這,或許正是火山引擎視頻云最擅長的地方。過去Sora等技術(shù)的成熟只是點(diǎn)燃了0到1的火種,但AI視頻真正的爆發(fā),還需要從1到100如何定義AI視頻時(shí)代AI視頻時(shí)代的到來理所當(dāng)然,但如何定義AI視頻時(shí)代,這曾是火山引擎視頻云內(nèi)部,一個(gè)長期的思考題。通往未來的門票,就藏在對(duì)過去歷史的梳理中。經(jīng)過復(fù)盤總結(jié),火山引擎視頻云認(rèn)為,圍繞視頻,我們的時(shí)代,可以被分為三個(gè)階段:第二階段,到了數(shù)字時(shí)代,我們對(duì)視頻品質(zhì)的要求越來越高,PGC成為內(nèi)容生產(chǎn)的主流,直播興起帶來交互上的實(shí)時(shí)、流暢、高清,而交互的空間,也57這是一個(gè)生產(chǎn)側(cè)內(nèi)容的品質(zhì)不斷提升,交互側(cè)效率不斷提升,消費(fèi)端交互體驗(yàn)與空間不斷升維的過程。相應(yīng)的,AI視頻時(shí)代,自然也不等同于傳統(tǒng)的數(shù)字視頻時(shí)代加上AI能力,故事依舊各大軟件,人人可用、人人會(huì)用的基礎(chǔ)技能。我們不再局限于主動(dòng)的內(nèi)容生產(chǎn)與被動(dòng)的內(nèi)容消費(fèi),在AI視頻時(shí)代,用戶將成為AI原生居民,既是內(nèi)容的生產(chǎn)者,也是消費(fèi)者,更是擁有者。在這背后,則是AI技術(shù)從過去的問答,到圖文交互,再到如今多模態(tài)交互,多模態(tài)內(nèi)容而在交互端,技術(shù)的成熟,則進(jìn)一步拉近了人與視頻,真實(shí)世界與數(shù)字之間的連接。過去,留言的存在,讓人人交互成為可能;直播等技術(shù)的興起,通過互聯(lián)網(wǎng)的鏈接,讓人與人的實(shí)時(shí)交互得以實(shí)現(xiàn)。而以GPT-4o、火山引擎對(duì)話式AI實(shí)時(shí)交互解決方案等技術(shù)為代表,人與AI的交互,則在多模態(tài)的基礎(chǔ)上,變得更加實(shí)時(shí)流暢、逼真與擬人。全球市場研究機(jī)構(gòu)MarketsandMarkets曾做出預(yù)測,到2028年,全球AI助手市場規(guī)模將達(dá)到285億美元。在這背后,2023—2028年的復(fù)合增長率將達(dá)到驚人的43%。消費(fèi)端的這個(gè)趨勢是更沉浸。以年初蘋果發(fā)布的VisionPro為代表,空間計(jì)算的新時(shí)代正式開啟。在此之后,今年7月,抖音VR直播上線,9月《黑神話:悟空》以其極

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論