【量子位】AI視頻生成研究報(bào)告(2024年)_第1頁(yè)
【量子位】AI視頻生成研究報(bào)告(2024年)_第2頁(yè)
【量子位】AI視頻生成研究報(bào)告(2024年)_第3頁(yè)
【量子位】AI視頻生成研究報(bào)告(2024年)_第4頁(yè)
【量子位】AI視頻生成研究報(bào)告(2024年)_第5頁(yè)
已閱讀5頁(yè),還剩40頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

A

I視頻生成研究報(bào)告分析師:Xuanhaoxuanhao@量子位智庫(kù)2024.713.玩家格局2.應(yīng)用側(cè)1.技術(shù)側(cè)2?

文生圖領(lǐng)域產(chǎn)生了僅次于基礎(chǔ)模型的殺手級(jí)應(yīng)用,獲得了大?

2021年1月,openAl發(fā)布初代文生圖模型DALL-E?

stableDiffusion量創(chuàng)作者和用戶關(guān)注,成熟度僅次于文本模態(tài)?

2022年8月,stable

Diffusion在stability.ai的支持下?

Midjourney?Midjhouney已有超過(guò)2000萬(wàn)用戶,在無(wú)投資的情況自我造開源,推動(dòng)社區(qū)在圖像領(lǐng)域快速發(fā)展?

Dall-E

3血,在2023年的營(yíng)收超過(guò)2億美元?視頻是圖像模態(tài)的進(jìn)一步擴(kuò)展,但由于技術(shù)復(fù)雜,對(duì)于算力、?2023年3月,Midjourney

V5發(fā)布,迅速成為現(xiàn)象級(jí)應(yīng)用?

2022年10月,Google、Meta發(fā)布Phenaki、Make-A-Video?

sora數(shù)據(jù)等資源要求較高,成熟相對(duì)文本、圖像較慢?2023年下半年,創(chuàng)業(yè)公司推出Runway-Gen2,stable?

Runway?領(lǐng)軍企業(yè)已經(jīng)做出標(biāo)桿,顯著加速領(lǐng)域發(fā)展,已出現(xiàn)多家視VideoDiffusion、Pika等產(chǎn)品?

快手可靈頻生成領(lǐng)域創(chuàng)業(yè)公司,但商業(yè)化、產(chǎn)品化進(jìn)展較慢?目前主要是音樂(lè)生成(語(yǔ)音識(shí)別、克隆暫不納入討論),市?2024年2月,openAl發(fā)布sora引發(fā)全球關(guān)注?

Pixverse?

2024年2月,suno.ai發(fā)布suno

V3?

suno場(chǎng)不如圖片生成、視頻生成等領(lǐng)域熱門,比視頻更加早期?

2024年6月,stability.Al推出文生音頻模型stable?

StableAudio?明星創(chuàng)業(yè)公司較少,但有加速的發(fā)展的態(tài)勢(shì)Audioopen 1.技術(shù)側(cè)

2.應(yīng)用側(cè)

3.玩家格局

大模型各模態(tài)總覽:多模態(tài)發(fā)展趨勢(shì)清晰,文本、圖像商業(yè)化規(guī)模和成熟度較高,A

I視頻生成正在迅速發(fā)展概況關(guān)鍵節(jié)點(diǎn)代表應(yīng)用成熟度?

大語(yǔ)言模型在文字處理上面的卓越表現(xiàn)開啟了生成式Al的浪

潮,基礎(chǔ)模型能夠基于語(yǔ)言進(jìn)行推理是智能的重要表現(xiàn)?在各個(gè)領(lǐng)域應(yīng)用最為成熟,例如chatGPT日活用戶已經(jīng)突破

1億,openAl在2024年6月ARR的達(dá)到34億美元?

2018年6月,由Alec

Radford主導(dǎo)在openAl推出GPT-1?2020年6月,openAl推出GPT-3,引發(fā)業(yè)界關(guān)注,驗(yàn)證

scaling路線?

2022年11月,chatGPT掀起技術(shù)浪潮?

2020年8月,NeRF論文發(fā)表?

2022年9月,谷歌發(fā)布DreamFusion?2023年5月,openAl開源shape-E模型?

2024年7月,Meta發(fā)布Meta3D

Gen信息來(lái)源:量子位智庫(kù)

3?

技術(shù)路線

目前尚不清晰,垂直明星創(chuàng)業(yè)公司較少,產(chǎn)品大多

處于早期階段,但正在加速發(fā)展文本圖像視頻音頻3D?

chatGPT?

character.Al?

Gemini?

Anthropic重點(diǎn)討論!?

Luma.Al?

Meshy團(tuán)

++

團(tuán)

+?

檢索生成主要是對(duì)現(xiàn)有的視頻素材根據(jù)關(guān)鍵詞和標(biāo)簽進(jìn)行檢索匹配,再進(jìn)行相應(yīng)的拼接和排列組合

特點(diǎn)

?采用傳統(tǒng)的跨模態(tài)視頻檢索技術(shù),通過(guò)視頻標(biāo)簽的或者視頻語(yǔ)義理解的方式從數(shù)據(jù)庫(kù)中的檢索,再將這些素材進(jìn)行剪輯、組合拼接在一起,本質(zhì)上還是鍵值對(duì)匹配的邏輯?例如短視頻平臺(tái)的知識(shí)類視頻、解說(shuō)類視頻,

通過(guò)文本關(guān)鍵字在數(shù)據(jù)庫(kù)中進(jìn)行素材檢索,然后在進(jìn)行拼接組合生成?創(chuàng)意空間有限,沒(méi)有貢獻(xiàn)增量素材,但成本極

低,生成速度極快局部生成?

僅針對(duì)視頻的一部分進(jìn)行生

成,例如視頻中人物角色、

動(dòng)作、背景、風(fēng)格化、特殊

效果等特點(diǎn)?采用傳統(tǒng)的計(jì)算機(jī)視覺(jué)(CV)、計(jì)算機(jī)圖形學(xué)

(CG)技術(shù),但生成功能有限,主要是一些局部的垂點(diǎn)功能?例如效果生成,在現(xiàn)有視頻上添加多種效果,如濾鏡、光影、風(fēng)格化、美顏特效等。也可以做局部動(dòng)態(tài)化,如人物的面部表情生成、搞笑

表情、爆款特效、舞蹈動(dòng)作生成等?有一定創(chuàng)意空間,生成部分新元素,成本低但

應(yīng)用的場(chǎng)景有限提示詞生成?

通過(guò)文字、圖片、視頻作為提示

詞來(lái)進(jìn)行憑空生成,不依賴外部

素材,核心在于大模型的能力特點(diǎn)?

采用基于Transformer或者擴(kuò)散模型的大模型路

線,可以通過(guò)自然語(yǔ)言或者指導(dǎo)圖進(jìn)行全局生成

(但也可以嵌入已有內(nèi)容),視頻的內(nèi)容、風(fēng)格、長(zhǎng)短、分辨率、寬高比都可以進(jìn)行靈活調(diào)整?

例如生成天馬行空的創(chuàng)意視頻、藝術(shù)視頻、卡通

視頻等等,非常靈活?創(chuàng)意空間無(wú)限,所有的元素都是全新生成,現(xiàn)

階段成本高昂,但天花板高,應(yīng)用場(chǎng)景廣泛 1.技術(shù)側(cè)

2.應(yīng)用側(cè)

3.玩家格局

技術(shù)趨勢(shì):視頻生成正在由檢索生成、局部生成走向依靠自然語(yǔ)言提無(wú)新增內(nèi)容

部分新增內(nèi)容

全量新增內(nèi)容示詞的全量生成,生成內(nèi)容更加靈活豐富,應(yīng)用空間廣闊信息來(lái)源:量子位智庫(kù)

4重點(diǎn)討論!檢索生成?

Text2Filter、TGANs-C,vGAN、

?G0DlvA、videoGPT、Phenaki、?stablevideoDiffusion、?sora、videopoet、W.A.L.TTGAN、videoGPT、MoCoGAN、Cogvideo、NuWAMake-A-video、Runway?由于領(lǐng)軍企業(yè)的示范效應(yīng),Diffusion

Transformer已經(jīng)成為視頻DvD-GAN、DlGAN

?早期基于Transformer的視頻Gen1/2、videoLDM生成領(lǐng)域的核心路線,領(lǐng)域內(nèi)其他玩家都開始聚焦D

iT并取得進(jìn)展?應(yīng)用范圍有限(只能總特定生成,生成效果有限,在當(dāng)時(shí)的成本?由于sD的開源激發(fā)社區(qū)創(chuàng)新,?目前業(yè)界對(duì)于sora的架構(gòu)大多是猜想,從架構(gòu)大方向上接近,但例如數(shù)字),生成分辨率低、生比較高推動(dòng)擴(kuò)散模型在視覺(jué)生成領(lǐng)具體細(xì)節(jié)上不同模型、產(chǎn)品各異成時(shí)長(zhǎng)極短域占據(jù)主導(dǎo)地位 1.技術(shù)側(cè)

2.應(yīng)用側(cè)

3.玩家格局

技術(shù)趨勢(shì):視頻生成正由擴(kuò)散模型主導(dǎo)的格局走向與語(yǔ)言模型結(jié)合的

路線,Transformer將在視頻生成方面發(fā)揮主導(dǎo)作用GAN

Transformer

Diffusion

Mode

I

Diffusion

+

Transformer?

可擴(kuò)展性強(qiáng):基于擴(kuò)散模型的視頻模型,核心的構(gòu)件是卷積神經(jīng)

網(wǎng)絡(luò)u-Net,隨著模型規(guī)模scale

up增益會(huì)放緩甚至消失。D

iT(Diffusion

Transformer)將傳統(tǒng)擴(kuò)散模型的u-Net替換為

Transformer,從而能夠?qū)崿F(xiàn)更強(qiáng)的可拓展性?長(zhǎng)期來(lái)看語(yǔ)言模型路線1可成為主要路線,可以將多種模態(tài)融合到

一起(由于架構(gòu)的成熟和優(yōu)良的擴(kuò)展性)?生成質(zhì)量高:生成效果好,細(xì)

節(jié)豐富清晰,訓(xùn)練要遠(yuǎn)比GAN

穩(wěn)定?

顯存開銷大:視頻生成有大量

相關(guān)依賴關(guān)系的圖片同時(shí)生成,

對(duì)計(jì)算顯存有極高要求?

可擴(kuò)展性強(qiáng):scale

up路線上

目前最好的架構(gòu)?

生成速度慢、開銷大:需要把圖片進(jìn)行分割再轉(zhuǎn)換成超長(zhǎng)序列,計(jì)算量隨分辨率增加平

方級(jí)增加,復(fù)雜度高?

生成多樣性差:生成器-判別器對(duì)抗的模型架構(gòu)決定生成效

果逼真但多樣性、創(chuàng)造性差,

很難泛化?

生成速度快:GAN可以一次出

圖,無(wú)需做多步推理?

2022年12月DiffusionTransformer論文發(fā)表?2024年2月0penAl發(fā)布sora,取得驚艷的生成效果,驗(yàn)證了

Diffusion和Transformer結(jié)合的有效性?

2014年GAN發(fā)表,2016年左右

開始用于視頻生成?

2013年vAE出現(xiàn),可以通過(guò)編碼器和解碼器的機(jī)制學(xué)習(xí)數(shù)據(jù)

的潛在表示?

2017年Transformer發(fā)表,逐

步向各個(gè)領(lǐng)域滲透,早期在視

頻生成領(lǐng)域也有嘗試?

2021年Google發(fā)布videovisionTransformer?

2020年DDPM論文發(fā)表?

2021年LatentDiffusion

Models論文發(fā)表?

2022年videoDiffusion

Model論文發(fā)表信息來(lái)源:量子位智庫(kù),1)在視頻生成的語(yǔ)境下,主要指基于Transformer這樣的自回歸模型

5

未來(lái)方向

技術(shù)節(jié)點(diǎn)特點(diǎn)案例

增長(zhǎng)期

探索期

早期

1.技術(shù)側(cè)

2.應(yīng)用側(cè)

3.玩家格局

技術(shù)挑戰(zhàn):算力需求大,數(shù)據(jù)要求高,算法復(fù)雜是目前制約視頻生成模型能力的三大挑戰(zhàn)視頻訓(xùn)練數(shù)據(jù)示例?

高質(zhì)量數(shù)據(jù)少:最佳的訓(xùn)練數(shù)據(jù)是高質(zhì)量的視頻-文本對(duì),即針對(duì)一段視頻,有與之對(duì)應(yīng)詳細(xì)準(zhǔn)確的文字描述,互聯(lián)網(wǎng)上大部分的視頻數(shù)據(jù)都難以滿足需求(如數(shù)據(jù)不準(zhǔn)確甚至是錯(cuò)的),此外視頻數(shù)據(jù)的寬高比、分辨率、

時(shí)長(zhǎng)各異,需要進(jìn)一步處理。數(shù)據(jù)量方面,sora的訓(xùn)

練數(shù)據(jù)可能超過(guò)500萬(wàn)小時(shí)的精良視頻?公開數(shù)據(jù)質(zhì)量低:公開數(shù)據(jù)集例如webvid(1070萬(wàn)個(gè)文本視頻對(duì),僅5.2萬(wàn)小時(shí))、HoWTo100M總時(shí)長(zhǎng)超10萬(wàn),但都是4s的短視頻)、Ce

lebv-Text(超7萬(wàn)個(gè)人臉-文本片段描述),數(shù)據(jù)量小且質(zhì)量低?版權(quán)數(shù)據(jù)獲取難:例如電影、記錄片、動(dòng)漫、Mv等影

視作品,內(nèi)容平臺(tái)版權(quán)庫(kù),以及YouTube、抖音等UGC內(nèi)

容,成本高且有版權(quán)限制sora架構(gòu)(推測(cè))?

時(shí)間維度增加復(fù)雜性:視頻生成在圖像的基礎(chǔ)上增加

了時(shí)間維度,例如針對(duì)時(shí)間維度和空間維度結(jié)合做數(shù)據(jù)

表示,這對(duì)可擴(kuò)展性、視頻生成的時(shí)長(zhǎng)和生成效果一致

性方面有重大影響?視頻生成更難規(guī)?;?/p>

(scale):對(duì)于語(yǔ)言模型而言,

可以進(jìn)行大規(guī)模的自監(jiān)督學(xué)習(xí),而圖像和視頻生成模型

需要進(jìn)行圖像-文本或視頻-文本對(duì)標(biāo)注做監(jiān)督學(xué)習(xí),規(guī)

?;碾y度更大,這是視頻模型和LLM的本質(zhì)差異?Token

izer設(shè)計(jì)更復(fù)雜:文本模態(tài)的tokenizer更成熟,

語(yǔ)言已經(jīng)過(guò)人類智能的一次壓縮,但圖像是現(xiàn)實(shí)世界的

原始信息,信息密度較低,需要重新設(shè)計(jì)更好的tokenizerAl計(jì)算卡示例?

訓(xùn)練視頻生成大模型所需要的計(jì)算量遠(yuǎn)高于一般的

文本和圖像模型,這導(dǎo)致開源社區(qū)和學(xué)術(shù)界等相對(duì)

業(yè)界算力不足的玩家難以參與,學(xué)界在視頻基礎(chǔ)模

型上工作較少,相關(guān)的模型和科研成果多出自互聯(lián)

網(wǎng)公司和主打視頻生成的商業(yè)技術(shù)公司?

以sora為例,從訓(xùn)練側(cè)看,訓(xùn)練成本大約為數(shù)十萬(wàn)

英偉達(dá)H100GPU

hours(據(jù)估算),需要千卡GPU

的計(jì)算集群,以H100的使用價(jià)格約為3$/h估算,

sora的訓(xùn)練成本可能達(dá)數(shù)千萬(wàn)至上億美元?

從推理側(cè)看1

,價(jià)格方面目前sora每分鐘的推理成本

約數(shù)十美元,成本高昂;生成時(shí)長(zhǎng)方面,單個(gè)視頻

生成時(shí)長(zhǎng)超過(guò)10min,推理速度很慢信息來(lái)源:量子位智庫(kù),openAl,英偉達(dá),《sora:A

Review

on

Background,Techno

Iogy,Limitations,and

opportunities

of

Large

vision

Mode

Is》,1)推理速度除模型外也看算力供給6●

算力需求大

數(shù)據(jù)要求高

算法復(fù)雜

!<圖像\視頻,文字描述>231 1.技術(shù)側(cè)

2.應(yīng)用側(cè)

3.玩家格局

技術(shù)驅(qū)動(dòng):視頻生成模型的能力將在算力驅(qū)動(dòng)下快速進(jìn)步,穩(wěn)定性、

可控性、豐富度將持續(xù)提升,解鎖更多應(yīng)用空間?英偉達(dá)目前占據(jù)全球高端GPU市場(chǎng)超95%的市

場(chǎng)份額,是事實(shí)上生成式Al全行業(yè)算力市場(chǎng)供給量的決定者?

英偉達(dá)的人工智能GPU在2022年出貨量約270

萬(wàn),主要以A100為主;2023年出貨量約380萬(wàn)

塊,主要以A100和H100為主;預(yù)計(jì)2024年出

貨量可能達(dá)到450萬(wàn)塊,以H100和最近發(fā)布的

Blackwell系列為主?

預(yù)計(jì)英偉達(dá)GPU交付量將保持20%的增速,并

在每年進(jìn)行芯片架構(gòu)的升級(jí),穩(wěn)步提升芯片

和系統(tǒng)的計(jì)算能力?目前北美最頭部的科技公司都在重金押注Al數(shù)據(jù)中心建設(shè),以規(guī)模最大的4家公司為例,

預(yù)計(jì)2024年在數(shù)據(jù)中心上的投入將達(dá)到1500

億美元左右,在一定程度代表了領(lǐng)軍玩家對(duì)

于大模型的信心和預(yù)期?

云廠商旗下的數(shù)據(jù)中心既支持內(nèi)部業(yè)務(wù)需求,也對(duì)外提供GPU算力,將逐步滿足市場(chǎng)對(duì)于算力的需求,支持各類模型的訓(xùn)練和推理?

數(shù)據(jù)中心成本主要包括Al服務(wù)器的采買、土建成本、電力系統(tǒng)、制冷系統(tǒng)、監(jiān)控系統(tǒng)等計(jì)算量x1

計(jì)算量x4

計(jì)算量x32openAlsora

示例?

從0penAl

sora的實(shí)踐成果來(lái)看,繼續(xù)增加模型的數(shù)據(jù)量和相應(yīng)的參數(shù)規(guī)

模(scale

up)依然是Al發(fā)展的核心

路線,強(qiáng)大算力支持是模型進(jìn)步的必

要支撐?模型能力

:scale之后可以涌現(xiàn)出更

多高級(jí)特性,例如:1)隨著鏡頭的

旋轉(zhuǎn)和移動(dòng),人物、對(duì)象、場(chǎng)景在三

維世界中保持穩(wěn)定真實(shí),2)模型可

以模擬距離關(guān)系和空間關(guān)系,生成針

對(duì)一個(gè)角色的多個(gè)鏡頭,3)模擬生

成內(nèi)容中的物理交互關(guān)系?應(yīng)用成本:視頻模型的推理成本較高,

需要大規(guī)模的推理算力來(lái)支持市場(chǎng)的大規(guī)模應(yīng)用,充沛的算力供給將推動(dòng)視頻生成從實(shí)驗(yàn)階段推向商業(yè)化普及230380G4004402022

2023

2024E

2025E

2026E北美巨頭數(shù)據(jù)中心2024年capex投入預(yù)期(億/美元)信息來(lái)源:量子位智庫(kù),Morgan

stanIey

7

關(guān)鍵分析

英偉達(dá)人工智能GPU出貨量持續(xù)增加(萬(wàn)張)650MetaAmazonGoogleMicrosoft60050040030020010009006003000450H100+GB200GB200+B系列

Ultra380A100

+H100》》+20%270A10012》》Rubin

系列540 1.技術(shù)側(cè)

2.應(yīng)用側(cè)

3.玩家格局

技術(shù)驅(qū)動(dòng):視頻生成的推理成本將持續(xù)下降,生成速度進(jìn)一步提高,加速應(yīng)用層技術(shù)擴(kuò)散和商業(yè)化規(guī)模增長(zhǎng)?

降本趨勢(shì):視覺(jué)模型的價(jià)格快速下降

尚未開始,但隨著市場(chǎng)需求驅(qū)動(dòng)和產(chǎn)

品化的成熟,類似LLM的降價(jià)趨勢(shì)也

將出現(xiàn)在視頻模型上?FLOPs成本下降:單位計(jì)算量的成本

將持續(xù)降低,主要來(lái)源于芯片架構(gòu)的

提升和服務(wù)器、數(shù)據(jù)中心系統(tǒng)優(yōu)化?軟件層優(yōu)化:從LLM來(lái)看,推理成本

正在迅速降低,頭部模型在過(guò)去一年

降幅約90%,降本趨勢(shì)將持續(xù)8英偉達(dá)GPU產(chǎn)品及其算力(FP16,TFLOPS)5,0002,000620VoltaAmpere

HopperBlackwellRobin3000?

當(dāng)前痛點(diǎn):

目前制約視頻生成應(yīng)用普

及的重要因素之一是生成速度,生成

5s左右的視頻需要等待數(shù)分鐘,且需

要嘗試多次才能獲得理想結(jié)果,對(duì)用

戶體驗(yàn)造成的影響較大?加速生成

:單卡芯片算力提升和系統(tǒng)、集群上面的優(yōu)化可以大幅增加模型推理速度(tokens/秒),縮短視頻生成的等待時(shí)間turbo-128K信息來(lái)源:量子位智庫(kù),英偉達(dá),OpenAl,Morgan

Stan

Iey6421硬件的計(jì)算能力、推理速度不斷提升

2

模型應(yīng)用的成本將不斷降低

B

系統(tǒng)層成本優(yōu)化OpenAl旗艦?zāi)P偷耐评沓杀?美元/百萬(wàn)token)

120對(duì)于1.8TMoEGPT推理場(chǎng)景在FP4精度

下英偉達(dá)兩代產(chǎn)品對(duì)比(tokens/秒)8,0006,0004,0002,0000

關(guān)鍵分析Hopper

BlackwellRobin

Next-gen英偉達(dá)GPU的算力成本估算(美元/TFLOPs)GPT-4-0314-32K

GPT-4-GPT-4o150100500A

芯片層成本優(yōu)化A芯片層性能提升B

系統(tǒng)層性能提升200HGX

H100

GB200

NVL7230x》》》》1301163012154

1.技術(shù)側(cè)

2.應(yīng)用側(cè)3.玩家格局

技術(shù)展望:視頻生成模型不僅限于生成視頻內(nèi)容,長(zhǎng)期將統(tǒng)一多模態(tài)

的生成和理解,成為通向AGI的重要路徑?

生成和理解在本質(zhì)上是統(tǒng)一

的,語(yǔ)言模型的next

tokenprediction越準(zhǔn)確,意味著模型對(duì)于語(yǔ)言和世界的理解

越準(zhǔn)確

。對(duì)于視頻模型,對(duì)

下一幀或下一個(gè)patch1

的預(yù)

測(cè)的越準(zhǔn)確,上代表了模型

對(duì)物理世界的理解越準(zhǔn)確?視頻模態(tài)包含大量信息:從

仿生的角度看,人腦有80%

的信息來(lái)自視覺(jué),

因此視覺(jué)

信息的理解與生成對(duì)于多模

態(tài)大模型至關(guān)重要?視覺(jué)模型可以壓縮一切:

?

當(dāng)多模態(tài)訓(xùn)練達(dá)到一定規(guī)

模時(shí),語(yǔ)言智能就會(huì)融入到

視覺(jué)智能中,這是一條獲得

世界模擬器的路徑,可以通

過(guò)這樣的模擬器獲得任何東

西

?!?--Aditya

Ramesh,

openAl

sora及DALL-E項(xiàng)目

負(fù)責(zé)人9早期階段?內(nèi)容生成和理解獨(dú)立?

不同模態(tài)相互獨(dú)立目前各個(gè)模態(tài)正在相互融合:?

Text-to-video:openAl

sora打通文字與視覺(jué)?

Audio-to-Audio:GPT-4o實(shí)現(xiàn)音頻交流?

Text-to-Audio:suno打通文字與音樂(lè)?

video-to-Audio:Deepmind發(fā)布匹配veo的視頻生音頻技術(shù)信息來(lái)源:量子位智庫(kù),1)patch是0penAl

sora中類似token的一種數(shù)據(jù)表示GPT-3.5語(yǔ)言模型DALL-E視覺(jué)模型whisper音頻模型

算力

算法

一“Everything

to

Everything

統(tǒng)一生成和理解system

2?

復(fù)雜推理?

長(zhǎng)線規(guī)劃?

…物理世界交互?

具身智能?

自動(dòng)駕駛?

…數(shù)字世界交互?

智能管家

?

虛擬Agent

?

…超級(jí)對(duì)齊

關(guān)鍵分析多模態(tài)生成多模態(tài)理解數(shù)據(jù)多模態(tài)大模型scaIing

LawsGPT-4vsora2.應(yīng)用側(cè)3.玩家格局1.技術(shù)側(cè)10

長(zhǎng)視頻平臺(tái)

短視頻平臺(tái)

電影市場(chǎng)(年度票房)

平臺(tái)

CI

YOUTube

Tik

TOK

用戶

25億MAU

2.7億1.5億MAU

20億MAU

16億MAUN/A年?duì)I收

315億美元

340億美元84億美元100億美元+

160億美元330億美元

(全球)

平臺(tái)

字騰訊視頻

用戶

5億MAU

4億MAU3.4億MAU8億+MAU

7億+MAU

N/A年?duì)I收

320億

100億+

230億

1500億

1135億

550億(本土)

1視頻流量是主要的互聯(lián)網(wǎng)信息流量

2視頻是移動(dòng)互聯(lián)網(wǎng)最大的內(nèi)容消費(fèi)形式

1000視頻流量占互聯(lián)網(wǎng)網(wǎng)絡(luò)流量比例(%)?2017到2022年,全球互聯(lián)網(wǎng)視頻流量

占消費(fèi)互聯(lián)網(wǎng)流量的比例從73%增長(zhǎng)到

82%,成為流量最大的內(nèi)容形式?2022年,每月有500萬(wàn)年的視頻內(nèi)容通過(guò)互聯(lián)網(wǎng)傳輸。相當(dāng)于每秒鐘有110萬(wàn)分鐘的視頻被流式傳輸或下載?

內(nèi)容視頻化是大勢(shì)所趨,移動(dòng)互聯(lián)網(wǎng)的

用戶使用總時(shí)長(zhǎng)占比中,短視頻穩(wěn)居第

一達(dá)到28%?

移動(dòng)視頻行業(yè)用戶規(guī)模達(dá)10.76億,月人

均時(shí)長(zhǎng)為64.2小時(shí),視頻平臺(tái)成為流量

核心,可以將用戶引向電商、音樂(lè)、影視、本地生活、旅游服務(wù)等等垂直賽道82%20172022 1.技術(shù)側(cè)

2.應(yīng)用側(cè)

3.玩家格局

場(chǎng)景廣闊:互聯(lián)網(wǎng)內(nèi)容正在全面視頻化,視頻內(nèi)容的消費(fèi)場(chǎng)景豐富,A

I視頻內(nèi)容生成的潛在市場(chǎng)規(guī)模巨大?從消費(fèi)端來(lái)看,視頻是用

戶消費(fèi)時(shí)間最長(zhǎng)的內(nèi)容形

態(tài),有豐富的應(yīng)用的場(chǎng)景

和大型內(nèi)容分發(fā)平臺(tái),長(zhǎng)

期或有誕生超級(jí)應(yīng)用的機(jī)會(huì)?

隨著Al視頻生成的能力不

斷提升,Al生成視頻占視

頻消費(fèi)內(nèi)容的比例將不斷

提升,推動(dòng)內(nèi)容供給端變

革,逐步滲透視頻消費(fèi)市

場(chǎng)海外視頻應(yīng)

用本土視頻應(yīng)

用11億人64小時(shí)

關(guān)鍵分析信息來(lái)源:量子位智庫(kù),QuestmobiIe,cisco》》73%11?模型能力

:通過(guò)自然語(yǔ)言及其他方式可以實(shí)現(xiàn)對(duì)內(nèi)容的

精準(zhǔn)控制,深度理解物理世界規(guī)律,穩(wěn)定性、豐富度達(dá)到在各個(gè)領(lǐng)全面達(dá)到商用水準(zhǔn)。1分鐘的視頻片段生成

時(shí)間達(dá)到縮短到數(shù)秒,接近實(shí)時(shí)生成?

經(jīng)濟(jì)性:視頻生成的成本繼續(xù)降低1個(gè)數(shù)量級(jí)?產(chǎn)品

:新一代視頻交互界面開始普及,視頻生成內(nèi)容融

入大部分視頻制作場(chǎng)景,重塑內(nèi)容生態(tài)?模型能力

:實(shí)現(xiàn)復(fù)雜語(yǔ)義理解,同時(shí)滿足多個(gè)生成條件,

視頻的活動(dòng)度、豐富度、穩(wěn)定性可以媲美影視級(jí)內(nèi)容,有效時(shí)長(zhǎng)超過(guò)一分鐘,在部分場(chǎng)景可以充分滿足需求。

1分鐘的視頻片段生成時(shí)間縮短到到分鐘級(jí)?

經(jīng)濟(jì)性:推理成本下降1個(gè)數(shù)量級(jí)?產(chǎn)品:視頻模型與傳統(tǒng)工作流進(jìn)行深度集成,同時(shí)萌生Al原生工作流,商業(yè)化規(guī)模達(dá)到Midjourney的水平?模型能力

:生成視頻時(shí)長(zhǎng)度短、活動(dòng)度低、穩(wěn)定差,人

物對(duì)象、背景經(jīng)?;?。語(yǔ)言理解能力有限,只能理解

簡(jiǎn)單指令,難以同時(shí)滿足多個(gè)生成條件,指令遵從能力差,10秒左右視頻片段需要3-5分鐘生成?經(jīng)濟(jì)性:成本高昂,每分鐘視頻約3美元1?產(chǎn)品:簡(jiǎn)單的文成視頻、圖生視頻功能,以網(wǎng)頁(yè)端和移

動(dòng)的簡(jiǎn)單應(yīng)用為主,功能較為單薄動(dòng)畫短片電影制作互動(dòng)式電影電視劇制作2027游戲設(shè)計(jì)確認(rèn)PMF后推理成本的

下降將成為大規(guī)模普

及的主導(dǎo)因素2025創(chuàng)意MV早期階段模型能力的提升將是驅(qū)動(dòng)應(yīng)用的主導(dǎo)因素繪本故事空鏡素材 1.技術(shù)側(cè)

2.應(yīng)用側(cè)

3.玩家格局

應(yīng)用趨勢(shì):2024年將成為A

I視頻的應(yīng)用元年,未來(lái)3—5年更多應(yīng)用場(chǎng)景將隨著模型能力提升和推理成本下降逐步解鎖信息來(lái)源:量子位智庫(kù),1)參考Runway的公開價(jià)格

12發(fā)展階段成熟階段早期階段新內(nèi)容形式?

新消費(fèi)平臺(tái)?微電影

動(dòng)漫劇集推理經(jīng)濟(jì)性模型能力品牌TVC短視頻短劇20292023 1.技術(shù)側(cè)

2.應(yīng)用側(cè)

3.玩家格局

成本驅(qū)動(dòng):A

I生成視頻的成本遠(yuǎn)低于各類現(xiàn)有視頻內(nèi)容的制作成本,將逐漸驅(qū)動(dòng)視頻生成內(nèi)容滲透到各內(nèi)容種類?Al視頻生成的成本遠(yuǎn)遠(yuǎn)低于影視行

業(yè)的制作成本,有若干個(gè)數(shù)量級(jí)的降

本效果,但目前阻礙應(yīng)用的主要因素

是模型能力不足,生成效果尚無(wú)法與

傳統(tǒng)制作方式競(jìng)爭(zhēng),但預(yù)期模型能力

將持續(xù)迭代,未來(lái)3-5年達(dá)到可以與傳統(tǒng)制作方式的媲美的水平?動(dòng)畫類電影的制作成本尤其高,需要

渲染大量的2D和3D內(nèi)容,傳統(tǒng)制作方式包括角色建模、場(chǎng)景貼膜、紋理貼

圖、渲染合成等環(huán)節(jié),需要數(shù)百人耗

時(shí)數(shù)月進(jìn)行制作,工程量非常大,視

頻生成可以大量削減制作成本的?局部應(yīng)用已經(jīng)開始:在對(duì)于制作質(zhì)量

要求較低、制作方式和內(nèi)容較為模板化的短劇行業(yè),已經(jīng)出現(xiàn)Al短劇生成

的應(yīng)用,例如Reel.Al200萬(wàn)50萬(wàn)10萬(wàn)200003000300信息來(lái)源:量子位智庫(kù),專家訪談,1)Runway目前的生成價(jià)格約每分鐘3美元,按100:1的生成可用率計(jì)算,實(shí)際成本約每分鐘300美元

不同類型視頻內(nèi)容制作成本A

I視頻生成成本

約300美元/分鐘1本土動(dòng)畫電影(《白蛇

緣起》、《哪吒》、《熊出沒(méi)系列》等)-

--

-

--

-

-

-

-

-

-

-

-

-

--

---

--

-

--

-

---

---

-

-

-

-

---

--●.頂級(jí)動(dòng)畫電影

(出自

迪士尼、皮克斯等)鐘(

)$美元制作成本每分

關(guān)鍵分析》》普通UGC視頻

好萊塢電影平均成本本土流水線短劇-

-

-

---●.本土TVC視頻動(dòng)畫、動(dòng)漫視頻種類130---?

時(shí)長(zhǎng)1分06秒,由玩具反斗城團(tuán)隊(duì)和導(dǎo)

演Nik

kleverov共同構(gòu)思制作,并在戛

納國(guó)際創(chuàng)意節(jié)亮相?sora生成的第一個(gè)商業(yè)廣告,效果接近

可以和傳統(tǒng)品牌短片的水準(zhǔn),可以傳達(dá)品牌方的關(guān)鍵視覺(jué)元素和風(fēng)格不足之處?

人物角色的細(xì)節(jié)在不同片段一致性不足 (例如衣物細(xì)節(jié)顏色、紋理、眼鏡樣式、

細(xì)節(jié)面部特征等細(xì)節(jié)有輕微畸變)?

背景元素存在畸變,例如背景中的自行

車的有畸變特征創(chuàng)意短片《Air

Head》---

2024年3月可控性差?抽卡率高,生成素材可用率約300:1?

片段間一致性差:難以保證人物在不同

視頻片段之間的一致性,目前只能通過(guò)

詳細(xì)的提示詞描述來(lái)彌補(bǔ),但效果欠佳?鏡頭難以控制:對(duì)于專業(yè)攝影術(shù)語(yǔ)理解

有限,類似鏡頭平移的功能需要通過(guò)后

期裁剪實(shí)現(xiàn)?

生成穩(wěn)定性低:

同樣的提示詞會(huì)產(chǎn)生不

同的生成內(nèi)容,例如要求生成黃色氣球

但實(shí)際生成式紅色?

生成能力局限:生成的氣球上總會(huì)有面

部表情,需要后期抹除,不同片段畫面

風(fēng)格難以保持一致,需要后期統(tǒng)一調(diào)色生成速度慢?

雖然sora原生支持1080P視頻生成,但由于生成速度太慢團(tuán)隊(duì)選擇生成480P的視頻,再用其他工具再后期進(jìn)行超分處理,

生成3-20秒的視頻需要10-20分鐘的生成

時(shí)間(和云算力供給也有關(guān))

1.技術(shù)側(cè)

2.應(yīng)用側(cè)3.玩家格局

應(yīng)用案例—MV、品牌廣告:sora作為目前頭部模型,在創(chuàng)意視頻和品牌

廣告領(lǐng)域已具備應(yīng)用價(jià)值,但仍存在諸多局限?

時(shí)長(zhǎng)1分20秒,由shy

kids團(tuán)隊(duì)3人花費(fèi)2周時(shí)間完成制作,總體呈現(xiàn)效果精良版權(quán)限制?

為了避免版權(quán)問(wèn)題,openAl對(duì)提示詞進(jìn)

行了限制,例如拒絕生成

?35mm膠卷,

未來(lái)宇宙飛船中,一名男子拿著光劍靠

近”

類似星球大戰(zhàn)的提示詞品牌廣告《玩具反斗城的起源》

2024年6月信息來(lái)源:量子位智庫(kù),量子位,shY

kids,ToYs"R"Us211430分鐘用戶日均使用時(shí)長(zhǎng)15%付費(fèi)用戶長(zhǎng)期留存(井英科技生成的Al短劇)?

市場(chǎng)空間大:2024年短劇在國(guó)內(nèi)的市場(chǎng)規(guī)模為400-500億元,已經(jīng)接近國(guó)內(nèi)電影

市場(chǎng)規(guī)模,海外市場(chǎng)發(fā)展情況和滲透率要低于本土,市場(chǎng)空間更加廣闊?

制作效果接近成熟:

目前Al短劇的制作水平還難以與傳統(tǒng)實(shí)拍模式媲美,但在的

動(dòng)畫短劇領(lǐng)域已基本達(dá)到可用水平。隨著模型能力逐步迭代,未來(lái)一年內(nèi)普通的短劇生成也將達(dá)到用戶可消費(fèi)的水平?制作流程介紹:

目前采用與外部導(dǎo)演合作的模式,1)由導(dǎo)演進(jìn)行劇本創(chuàng)作,并

將其分解為分鏡劇本,2)井英科技將分鏡劇本轉(zhuǎn)化為提示詞并輸入視頻生成模

型中(該環(huán)節(jié)替代了短劇演員)獲得結(jié)果,3)導(dǎo)演從生成結(jié)果中中選擇滿意的

分鏡視頻,或再通過(guò)提示詞進(jìn)行二次生成調(diào)整,4)選定視頻后在傳統(tǒng)視頻工作流中進(jìn)行后期的剪輯和處理?

互動(dòng)功能:用戶在APP內(nèi)可與短劇主角聊天,類似character.Al,可增加用戶粘性?

Al短片《M.A.D》

(俱皆

毀滅),在全球Al電影馬

拉松大賽上榮獲B站觀眾

選擇獎(jiǎng)。該短片利用creativeFitting

自研的

視頻大模型ReelDiffusion生成,效果

媲美傳統(tǒng)動(dòng)畫短片(Reel

Diffusion生成的動(dòng)畫短劇)?

ReelDiffusion視頻大模型在敘事型視頻的生成

方面能力領(lǐng)先?

模型支持人物角色的細(xì)膩

情感表達(dá)及復(fù)雜場(chǎng)景的生

成,從算法到訓(xùn)練數(shù)據(jù)及

工程實(shí)現(xiàn),都進(jìn)行了專門

設(shè)計(jì),幫助創(chuàng)作者講述引

人入勝的故事?

動(dòng)畫短劇生成要比普通

短劇生成更加成熟 1.技術(shù)側(cè)

2.應(yīng)用側(cè)

3.玩家格局

應(yīng)用案例—短劇、動(dòng)畫:井英科技發(fā)布A

I短劇APP

Ree

I.AI,自研短劇

視頻生成模型Ree

I

Diffusion,生成效果接近可消費(fèi)水平園Reel.Al信息來(lái)源:量子位智庫(kù),井英科技15 1.技術(shù)側(cè)

2.應(yīng)用側(cè)

3.玩家格局

應(yīng)用趨勢(shì):視頻生成模型正在賦能傳統(tǒng)視頻制作工作流,目前主要價(jià)

值在于素材生成環(huán)節(jié),其他環(huán)節(jié)有少量滲透?

文字劇本視覺(jué)化,確定

鏡頭類型、鏡頭運(yùn)動(dòng)、

角色位置和動(dòng)作?

編制鏡頭列表,包括每個(gè)鏡頭的編號(hào)、描述、

拍攝角度、鏡頭運(yùn)動(dòng)等?

根據(jù)分鏡規(guī)劃制定拍攝

計(jì)劃,完成器材準(zhǔn)備和技術(shù)測(cè)試、準(zhǔn)備演員、

服化道及布景設(shè)置?

根據(jù)情節(jié)和主題需要進(jìn)

行素材整理、分類、剔

除無(wú)效素材?

對(duì)于無(wú)須拍攝類內(nèi)容,

需要從素材庫(kù)進(jìn)行素材

選取?

初步剪輯、邏輯剪輯,

拼接出粗略的視頻版本?

精剪微調(diào),對(duì)影片進(jìn)行

精細(xì)剪輯,調(diào)整鏡頭長(zhǎng)

度、順序、節(jié)奏等V4Adobeshut

ers

tr,

ck"通用素?

視頻生成模型縮短視頻生產(chǎn)

周期,快速進(jìn)行創(chuàng)意驗(yàn)證,

生成粗略的原型視頻,加快

創(chuàng)意、情節(jié)構(gòu)思規(guī)劃過(guò)程?

通過(guò)大量新素材和創(chuàng)意素材

可以進(jìn)一步激發(fā)創(chuàng)造力,提

升內(nèi)容創(chuàng)作質(zhì)量門office365

+

各種生產(chǎn)力軟件?

添加視覺(jué)特效,確保效

果自然、完成顏色校正、

調(diào)色與整體風(fēng)格一致?

同步處理音頻素材,確保對(duì)白清晰、搭配音效,

增強(qiáng)視頻的聽覺(jué)效果大綱腳本分鏡規(guī)劃

素材拍攝

素材選取剪輯渲染/音效?

故事創(chuàng)意、主題風(fēng)格構(gòu)

思,明確故事大綱,如

主要情節(jié)和角色發(fā)展?

將大綱擴(kuò)展成完整的劇

本,包括對(duì)白、場(chǎng)景描

述和情節(jié)細(xì)節(jié)信息來(lái)源:量子位智庫(kù),openAl

16傳統(tǒng)工作流在后期階段

對(duì)于質(zhì)量的要求較為精

細(xì),

目前視頻生成模型

的后期編輯功能還不能

充分滿足需求相互激發(fā)

前期制作

后期制作

中期制作

視頻模型賦能點(diǎn)材

生成內(nèi)

容工

具??目前主要有三種模式:文生視頻、圖生視頻、文生圖-圖生視頻。

目前頭部文生圖產(chǎn)品的圖

片生成質(zhì)量最好,一般先用文生圖應(yīng)用生成指

導(dǎo)幀,然后再作為視頻生成的輸入進(jìn)行動(dòng)態(tài)化?

不會(huì)涉及專業(yè)級(jí)影視剪輯,視頻大部分關(guān)鍵元素在生

成階段完成,用戶主要的做一些簡(jiǎn)單的邏輯剪輯或者

音效編輯,可以快速出片 1.技術(shù)側(cè)

2.應(yīng)用側(cè)

3.玩家格局

應(yīng)用趨勢(shì):新一代A

I視頻工作流正在萌生,將整合音視頻創(chuàng)作全流程

提高創(chuàng)作效率,降低A

I視頻內(nèi)容的制作摩擦?

故事創(chuàng)意、主題風(fēng)格構(gòu)

思,明確故事大綱,如

主要情節(jié)和角色發(fā)展?

將大綱擴(kuò)展成完整的劇

本,包括對(duì)白、場(chǎng)景描

述和情節(jié)細(xì)節(jié)?

添加視覺(jué)特效,確保效

果自然、完成顏色校正、

調(diào)色與整體風(fēng)格一致?

同步處理音頻素材,確保對(duì)白清晰、搭配音效,

增強(qiáng)視頻的聽覺(jué)效果?

文字劇本視覺(jué)化,確定

鏡頭類型、鏡頭運(yùn)動(dòng)、

角色位置和動(dòng)作?

編制鏡頭列表,包括每個(gè)鏡頭的編號(hào)、描述、

拍攝角度、鏡頭運(yùn)動(dòng)等?

根據(jù)分鏡規(guī)劃制定拍攝

計(jì)劃,完成器材準(zhǔn)備和技術(shù)測(cè)試、準(zhǔn)備演員、

服化道及布景設(shè)置?

根據(jù)情節(jié)和主題需要進(jìn)

行素材整理、分類、剔

除無(wú)效素材?

對(duì)于無(wú)須拍攝類內(nèi)容,

需要從素材庫(kù)進(jìn)行素材

選取?

初步剪輯、邏輯剪輯,

拼接出粗略的視頻版本?

精剪微調(diào),對(duì)影片進(jìn)行

精細(xì)剪輯,調(diào)整鏡頭長(zhǎng)

度、順序、節(jié)奏等門office365

+

各種生產(chǎn)力軟件?

快速進(jìn)行創(chuàng)意驗(yàn)證,生成粗略的原型視頻,加快創(chuàng)意、情節(jié)構(gòu)思規(guī)劃過(guò)程。通過(guò)大量新素材和創(chuàng)意素材可以進(jìn)一步激發(fā)創(chuàng)造力,提

升內(nèi)容創(chuàng)作質(zhì)量整合音視頻生成、

編輯等所有功能的一站式應(yīng)用'可能產(chǎn)生新的交互界面大綱腳本分鏡規(guī)劃

素材拍攝

素材選取剪輯渲染/音效已經(jīng)成熟過(guò)渡階段正在萌生氏runwaystability.a

i信息來(lái)源:量子位智庫(kù)

17V4Adobeshut

ers

tr,

ck"

后期制作

前期制作

中期制作

傳\

統(tǒng)/內(nèi)

容混

合原

生圖層生成?

用戶可以單獨(dú)生成視頻中的角色、物體和環(huán)

境對(duì)象,生成的視頻為透明背景,可以整合

覆蓋到其他視頻內(nèi)容中,實(shí)現(xiàn)對(duì)于視頻內(nèi)容的細(xì)顆粒度操作和局部編輯圖層拆解?

用戶也可以上傳自己視頻,尋光平臺(tái)可以對(duì)

視頻進(jìn)行圖層拆解,分解出創(chuàng)作者需要的視

頻內(nèi)容,例如人物角色,方便用于其他視頻

內(nèi)容的組合、編輯應(yīng)用案例—工作流(精細(xì)化生成):阿里達(dá)摩院發(fā)布尋光視頻制作平臺(tái),通過(guò)圖層編輯方式和工作流整合提升創(chuàng)作全流程效率局部型元素?目標(biāo)編輯:可以消除、替換、新增視頻中的各類目標(biāo)?移動(dòng)目標(biāo):通過(guò)拖拽可以實(shí)現(xiàn)目標(biāo)的運(yùn)動(dòng)效果,人體控制:控

制視頻中角色的肢體動(dòng)作?人臉控制:批量替換、編輯人臉?

前景、背景控制全局型元素?視頻風(fēng)格化:莫奈、浮世繪、水彩、水墨、卡通等20種風(fēng)格?鏡頭運(yùn)鏡控制:左右平移、上下平移、推進(jìn)拉遠(yuǎn)、左右環(huán)繞等?

幀率控制:修改不同鏡頭的幀率修改使得視頻更加一致絲滑?

清晰度控制:提供不同清晰度的生成選擇?

畫質(zhì)增強(qiáng):提供視頻超分工具類PPT的圖形化操作界面?將視頻分解為多個(gè)場(chǎng)景的組合,再將每個(gè)場(chǎng)景分解為多個(gè)分鏡視

頻,方便用戶預(yù)覽整個(gè)視頻,對(duì)

每個(gè)鏡頭進(jìn)行精細(xì)編輯,可以直

接通過(guò)拖拽完成順序調(diào)整,在任意位置進(jìn)行添加、刪除?

針對(duì)每個(gè)分鏡視頻提供一攬子的

的編輯功能圖層融合?

可以把用戶自己生成的視頻內(nèi)容或者上傳內(nèi)

容進(jìn)行圖層組合,可以實(shí)現(xiàn)視頻背景、人物

的任意切換,以解決目前Al視頻生成的場(chǎng)景

一致性問(wèn)題,增加可用性。支持場(chǎng)景和人物

的批量替換,功能強(qiáng)大信息來(lái)源:量子位智庫(kù),達(dá)摩院

18生成素材上傳素材基于圖層組合的編輯方式整合大量A

I編輯功能易用的工作流界面》》321?

主打高端影視場(chǎng)景:能夠生成好萊塢級(jí)的山脈、平原、植被、海洋、河流、火焰、煙霧、建筑、人物以及任何其他東西創(chuàng)作者可以完全控制場(chǎng)景中生成的每個(gè)元素和位置方向,無(wú)論是幾何形狀、材質(zhì)、燈光、動(dòng)作還是其他

方面。場(chǎng)景由可提示和可操作的對(duì)象組成,這些對(duì)象可以獨(dú)立運(yùn)行,同時(shí)還能保持上下文感知?

多元化團(tuán)隊(duì)背景:主要是技術(shù)人員+創(chuàng)作者的組合,例如來(lái)自cruise、waymo、Tesla、Microsoft、Meta和NvlDlA等公司的技術(shù)人員,首席工

程師來(lái)自《孢子》、《模擬城市》、《模擬人生》、《異形:隔離》等視

頻游戲,藝術(shù)家則曾參與制作《沙丘2》、《哥斯拉》、《造物主》、《復(fù)仇者聯(lián)盟:奧創(chuàng)紀(jì)元》、《艾麗塔:戰(zhàn)斗天使》和《侏羅紀(jì)世界:失

落王國(guó)》等電影?

投資方:包括谷歌風(fēng)投、Elad

Gil、Garry

Tan、Jeff

Dean等以及來(lái)自openAl、Deepmin、Meta、Midjourney、pixar的研究人員應(yīng)用案例—工作流(精細(xì)化生成):Odyssey結(jié)合4種生成模型,可以實(shí)

現(xiàn)對(duì)視頻內(nèi)容的精確控制和生成,主打好萊塢級(jí)的視頻內(nèi)容生成信息來(lái)源:量子位智庫(kù),odyssey

19Odyssey光影生成

(不用強(qiáng)度、方位、風(fēng)格)對(duì)象紋理生成對(duì)象生成

(如樹木、石塊、森林)材質(zhì)生成

(如荒漠、草地、土地)影像級(jí)材質(zhì)生成模型幾何圖形生成模型可控運(yùn)動(dòng)生成模型光影生成模型應(yīng)用案例—工作流(流程整合化):美圖發(fā)布A

I短劇制作平臺(tái)MOK

I,整

合包括創(chuàng)意生成、

后期編輯、音效制作等視頻創(chuàng)作全流程信息來(lái)源:量子位智庫(kù),美圖

201.技術(shù)側(cè)2.應(yīng)用側(cè)3.玩家格局后

期前

期可

類短

片中

期!↓故事板角色設(shè)定場(chǎng)景1場(chǎng)景位置鏡頭1鏡頭3鏡頭提示詞鏡頭類型場(chǎng)景2

(LTX界面)?

故事板界面:用戶需要先進(jìn)行角色設(shè)定,包括人物的肖像、風(fēng)格、名字等,然后故事版

可以幫助用戶構(gòu)思視頻的整體內(nèi)容,包括從場(chǎng)景和分鏡頭兩個(gè)層次,可以設(shè)定每個(gè)場(chǎng)景的

基本情況,如位置、光影、天氣等,也可以添加該場(chǎng)景的音效和旁白。信息來(lái)源:量子位智庫(kù),LTX

Studio?鏡頭編輯界面:可以對(duì)每個(gè)鏡頭進(jìn)行精細(xì)化編輯,例如鏡頭的控制(LTX提供了超過(guò)10種

鏡頭運(yùn)動(dòng)方式)、分辨率調(diào)整、視頻幀率控制、音效旁白等,確認(rèn)好基本參數(shù)后可以開始生成視頻鏡頭編輯器鏡頭控制超分幀率控制時(shí)長(zhǎng)控制音效開始生成(LTX界面) 1.技術(shù)側(cè)

2.應(yīng)用側(cè)

3.玩家格局

應(yīng)用案例—工作流(流程整合化):LTX

Studi0采用基于故事版和分鏡

的生成編輯方式,同時(shí)整合音效、旁白等功能場(chǎng)景光影場(chǎng)景天氣旁白背景音鏡頭2旁白21"As

great

as

Sora

is

generating

things

thatappearreal-whatexcites

usisitsabilityto

makethingsthatare

totallysurreal."---Shy

Kids?

場(chǎng)景廣泛

:不針對(duì)某一類風(fēng)格、行業(yè)、

角色

或其他方面進(jìn)行垂直優(yōu)化,旨在用視覺(jué)信息

建模物理世界,通過(guò)自然語(yǔ)言作為提示詞生

成視頻?天花板高:通用生成的想象空間更大大,創(chuàng)

意性強(qiáng),未來(lái)將有更多應(yīng)用形態(tài)涌現(xiàn),預(yù)計(jì)

未來(lái)視頻的生成和理解將會(huì)逐步統(tǒng)一,強(qiáng)大的視頻生成能力也代表視覺(jué)理解的進(jìn)步特點(diǎn)氏runway

pix

verse?

場(chǎng)景細(xì)分:垂直類視頻生成主

要指圍繞細(xì)分需求進(jìn)行視頻生

成,主要是針對(duì)細(xì)分場(chǎng)景,用

垂類數(shù)據(jù)或者私有數(shù)據(jù)做適配

訓(xùn)練和可控性、穩(wěn)定性優(yōu)化?

商業(yè)化路徑清晰,有穩(wěn)定的商特點(diǎn)

業(yè)模式和營(yíng)收?

需要的算力資源和數(shù)據(jù)資源少,主要是用少量

垂類場(chǎng)景數(shù)據(jù)和算法對(duì)模型進(jìn)行加強(qiáng),模型不

追求

?

”,且在模型層選擇靈活,可以把文生視頻、圖生視頻作為外部能力接入傳統(tǒng)模型

作為輔助增強(qiáng),核心要素還是行業(yè)知識(shí)?目前垂直類產(chǎn)品主要是在營(yíng)銷場(chǎng)景下,針對(duì)人

物、或者某一類風(fēng)格進(jìn)行微調(diào),幾千條數(shù)據(jù)就可以顯著增強(qiáng)模型在垂直領(lǐng)域的表現(xiàn)案例ogo

Fancy

Techcreative

Fit

t?ng

1.技術(shù)側(cè)

2.應(yīng)用側(cè)3.玩家格局

產(chǎn)品路線:視頻生成目前仍處于早期階段,從應(yīng)用路線上看主要分為通用類生成和垂直類生成兩類產(chǎn)品?研發(fā)難度大、算力、數(shù)據(jù)資源要求高:模型本身是對(duì)數(shù)據(jù)集

的擬合,要求模型能夠生成任意內(nèi)容的視頻,本質(zhì)上是要求

訓(xùn)練數(shù)據(jù)集的場(chǎng)景豐富程度極高、

內(nèi)容質(zhì)量好,標(biāo)注質(zhì)量詳

盡、準(zhǔn)確,

以及經(jīng)過(guò)大規(guī)模scale來(lái)學(xué)習(xí)視頻中包含的各類知

識(shí)和物理規(guī)律,目前大多數(shù)視頻生成技術(shù)公司都屬于此類案例?

內(nèi)容合規(guī)和本土化問(wèn)題難以避免:視頻

輸出內(nèi)容可以包含更多維度的信息,其中可能涉及內(nèi)容安全、意識(shí)形態(tài)及不同文化背景的偏好差異,例如本土模型對(duì)

本土文化理解力更好,海外模型的輸出會(huì)凸顯歐美審美偏好和價(jià)值觀信息來(lái)源:量子位智庫(kù),openAl

22通用類垂直類付費(fèi)點(diǎn)saas產(chǎn)品

?目前本土的saas市場(chǎng)成熟度相比海外仍有欠缺,用戶的

主要畫像是自媒體創(chuàng)作者、創(chuàng)意工作者,覆蓋人群比較

垂直,商業(yè)化規(guī)模有限?

隨著新一代用戶的年輕化、專業(yè)化,為內(nèi)容工具的付費(fèi)

的習(xí)慣正在逐漸形成,但仍需時(shí)間培育定制化

?目前主要客戶以各行業(yè)頭部公司為主,預(yù)算比較充足且愿意

擁抱Al新技術(shù),一般大客戶都會(huì)要求部分定制化服務(wù)?視頻生成領(lǐng)域的定制化一般不涉及技術(shù)上的二次開發(fā),工作

量主要在具體的需求溝通、微調(diào)模型,幫助客戶熟悉產(chǎn)品,

以及提供技術(shù)支持服務(wù)等?

一些場(chǎng)景需要客戶和公司結(jié)合行業(yè)知識(shí)進(jìn)行共創(chuàng),例如營(yíng)銷視頻在內(nèi)容結(jié)構(gòu)、風(fēng)格、審美等方面的選擇 1.技術(shù)側(cè)

2.應(yīng)用側(cè)

3.玩家格局

商業(yè)模式:通用視頻生成在海外市場(chǎng)以saas產(chǎn)品為主,國(guó)內(nèi)市場(chǎng)項(xiàng)目

制為主,服務(wù)內(nèi)容多樣化,但訂閱制有待成熟?

本土市場(chǎng):如果不同視頻生成模型之間能力沒(méi)有顯著差異化,很可能出現(xiàn)類

似大語(yǔ)言模型領(lǐng)域的價(jià)格戰(zhàn),產(chǎn)品盈利將面臨較大

壓力。C端市場(chǎng)、專業(yè)消費(fèi)者是最理想的市場(chǎng),但

如果場(chǎng)營(yíng)收不好,可能要持續(xù)做B端服務(wù)?

本土市場(chǎng)目前的商業(yè)化

路徑一般是

?從大到小”

,例如從大B的影視

公司,到中B的影視工作

室,游戲工作室、廣告工

作室、短劇團(tuán)隊(duì),再到自

媒體創(chuàng)作者、專業(yè)創(chuàng)作者等prosumer、小B用戶?

海外市場(chǎng):C端會(huì)是長(zhǎng)期主線

,

目前競(jìng)爭(zhēng)并不激烈,

處在逐步拓展市場(chǎng)的階段?

海外市場(chǎng)是文生視頻類應(yīng)用的主打市場(chǎng),生成式Al的創(chuàng)

意市場(chǎng)已有類似產(chǎn)品完成市場(chǎng)驗(yàn)證,例如Midjourney年

收入已經(jīng)超過(guò)2億美元、超2000萬(wàn)用戶?

海外市場(chǎng)的用戶主要是一些C端用戶或者中小B端用戶,主要通過(guò)在社交媒體和創(chuàng)意工作者人群中構(gòu)建社群并以pLG的方式進(jìn)行增長(zhǎng)?目前主流的通用視頻生成應(yīng)用大都采用saas應(yīng)用服務(wù)模式,向用戶收取每月訂閱費(fèi)用或者生成視頻的消耗量分不同付費(fèi)版本靈活計(jì)費(fèi)?

海外市場(chǎng)的定制化目前較少,主要是saas服務(wù),但頭部公司

也會(huì)提供模型訓(xùn)練服務(wù)和Apl定制化,例如Adobe和Runway?

創(chuàng)業(yè)公司也會(huì)做一些大客戶或者知名案例,但主要目的是打造知名度,同時(shí)探索用戶需求、打磨產(chǎn)品,例如Runway曾參與《瞬息全宇宙》的制作、sora完成《AirHead》制作海外市場(chǎng)本土市場(chǎng)信息來(lái)源:量子位智庫(kù)

23增值功能(視頻超分、音效功能、編輯功能、各類動(dòng)效)

關(guān)鍵分析客戶專員支持生成數(shù)量私有化部署Apl定制化模型訓(xùn)練業(yè)務(wù)溝通生成點(diǎn)數(shù)生成時(shí)長(zhǎng)生成速度》》團(tuán)隊(duì)協(xié)作 1.技術(shù)側(cè)

2.應(yīng)用側(cè)

3.玩家格局

對(duì)比分析:視頻生成相比圖片生成的應(yīng)用復(fù)雜度更高,大規(guī)模普及或需要從模型到工作流的全面進(jìn)步才能打開市場(chǎng)?2分鐘左右(以最新的Runway

Gen-3為例)?

10秒左右的視頻片段(以最新的Runway

Gen-3為例)?

生成視頻存在畸變、分辨率低、指令遵從差、穩(wěn)定性差等問(wèn)題?目前抽卡率非常高,可能到幾百,例如shykids團(tuán)隊(duì)用sora制作的MV作

品抽卡率約300,需要進(jìn)行大量嘗試?視頻生成對(duì)于創(chuàng)作者的要求更高,功能和提示詞的復(fù)雜度更高?

不同模型各異,取決于生成視頻的質(zhì)量和長(zhǎng)度,Runway的價(jià)格約為3美

元每分鐘,sora可能高達(dá)數(shù)十美元每分鐘?

生成片段并不足以構(gòu)成可用作品,實(shí)際場(chǎng)景需要大量的視頻生成片段組合為完整的視頻(時(shí)長(zhǎng)數(shù)分鐘或更長(zhǎng)),進(jìn)一步推高了應(yīng)用成本?

1分鐘左右?

輸入一次提示詞可以生成4張圖片供用戶選擇(以Midjourney為例)?

生成的大部分圖片可以滿足普通用戶的需求標(biāo)準(zhǔn),技術(shù)已經(jīng)比較成熟?

抽卡次數(shù)較低,一般生成5次左右可以得到理想結(jié)果?

約0.03美元/張(以Midjourney為例)?修改難度大:在視頻生成內(nèi)容

上做編輯很難,例如人物對(duì)象、環(huán)境等內(nèi)容發(fā)生畸變的修改難

度和工作量非常大?

一致性難題:視頻制作要保證多個(gè)視頻片段中人物角色、物體和周圍環(huán)境的一致性,如何

精準(zhǔn)銜接多個(gè)片段,

目前還沒(méi)

有很好的解決,對(duì)二次編輯的

依賴度較高?

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論