版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
A
I視頻生成研究報告分析師:Xuanhaoxuanhao@量子位智庫2024.713.玩家格局2.應用側1.技術側2?
文生圖領域產生了僅次于基礎模型的殺手級應用,獲得了大?
2021年1月,openAl發(fā)布初代文生圖模型DALL-E?
stableDiffusion量創(chuàng)作者和用戶關注,成熟度僅次于文本模態(tài)?
2022年8月,stable
Diffusion在stability.ai的支持下?
Midjourney?Midjhouney已有超過2000萬用戶,在無投資的情況自我造開源,推動社區(qū)在圖像領域快速發(fā)展?
Dall-E
3血,在2023年的營收超過2億美元?視頻是圖像模態(tài)的進一步擴展,但由于技術復雜,對于算力、?2023年3月,Midjourney
V5發(fā)布,迅速成為現(xiàn)象級應用?
2022年10月,Google、Meta發(fā)布Phenaki、Make-A-Video?
sora數(shù)據(jù)等資源要求較高,成熟相對文本、圖像較慢?2023年下半年,創(chuàng)業(yè)公司推出Runway-Gen2,stable?
Runway?領軍企業(yè)已經做出標桿,顯著加速領域發(fā)展,已出現(xiàn)多家視VideoDiffusion、Pika等產品?
快手可靈頻生成領域創(chuàng)業(yè)公司,但商業(yè)化、產品化進展較慢?目前主要是音樂生成(語音識別、克隆暫不納入討論),市?2024年2月,openAl發(fā)布sora引發(fā)全球關注?
Pixverse?
2024年2月,suno.ai發(fā)布suno
V3?
suno場不如圖片生成、視頻生成等領域熱門,比視頻更加早期?
2024年6月,stability.Al推出文生音頻模型stable?
StableAudio?明星創(chuàng)業(yè)公司較少,但有加速的發(fā)展的態(tài)勢Audioopen 1.技術側
2.應用側
3.玩家格局
大模型各模態(tài)總覽:多模態(tài)發(fā)展趨勢清晰,文本、圖像商業(yè)化規(guī)模和成熟度較高,A
I視頻生成正在迅速發(fā)展概況關鍵節(jié)點代表應用成熟度?
大語言模型在文字處理上面的卓越表現(xiàn)開啟了生成式Al的浪
潮,基礎模型能夠基于語言進行推理是智能的重要表現(xiàn)?在各個領域應用最為成熟,例如chatGPT日活用戶已經突破
1億,openAl在2024年6月ARR的達到34億美元?
2018年6月,由Alec
Radford主導在openAl推出GPT-1?2020年6月,openAl推出GPT-3,引發(fā)業(yè)界關注,驗證
scaling路線?
2022年11月,chatGPT掀起技術浪潮?
2020年8月,NeRF論文發(fā)表?
2022年9月,谷歌發(fā)布DreamFusion?2023年5月,openAl開源shape-E模型?
2024年7月,Meta發(fā)布Meta3D
Gen信息來源:量子位智庫
3?
技術路線
目前尚不清晰,垂直明星創(chuàng)業(yè)公司較少,產品大多
處于早期階段,但正在加速發(fā)展文本圖像視頻音頻3D?
chatGPT?
character.Al?
Gemini?
Anthropic重點討論!?
Luma.Al?
Meshy團
++
團
+?
檢索生成主要是對現(xiàn)有的視頻素材根據(jù)關鍵詞和標簽進行檢索匹配,再進行相應的拼接和排列組合
特點
?采用傳統(tǒng)的跨模態(tài)視頻檢索技術,通過視頻標簽的或者視頻語義理解的方式從數(shù)據(jù)庫中的檢索,再將這些素材進行剪輯、組合拼接在一起,本質上還是鍵值對匹配的邏輯?例如短視頻平臺的知識類視頻、解說類視頻,
通過文本關鍵字在數(shù)據(jù)庫中進行素材檢索,然后在進行拼接組合生成?創(chuàng)意空間有限,沒有貢獻增量素材,但成本極
低,生成速度極快局部生成?
僅針對視頻的一部分進行生
成,例如視頻中人物角色、
動作、背景、風格化、特殊
效果等特點?采用傳統(tǒng)的計算機視覺(CV)、計算機圖形學
(CG)技術,但生成功能有限,主要是一些局部的垂點功能?例如效果生成,在現(xiàn)有視頻上添加多種效果,如濾鏡、光影、風格化、美顏特效等。也可以做局部動態(tài)化,如人物的面部表情生成、搞笑
表情、爆款特效、舞蹈動作生成等?有一定創(chuàng)意空間,生成部分新元素,成本低但
應用的場景有限提示詞生成?
通過文字、圖片、視頻作為提示
詞來進行憑空生成,不依賴外部
素材,核心在于大模型的能力特點?
采用基于Transformer或者擴散模型的大模型路
線,可以通過自然語言或者指導圖進行全局生成
(但也可以嵌入已有內容),視頻的內容、風格、長短、分辨率、寬高比都可以進行靈活調整?
例如生成天馬行空的創(chuàng)意視頻、藝術視頻、卡通
視頻等等,非常靈活?創(chuàng)意空間無限,所有的元素都是全新生成,現(xiàn)
階段成本高昂,但天花板高,應用場景廣泛 1.技術側
2.應用側
3.玩家格局
技術趨勢:視頻生成正在由檢索生成、局部生成走向依靠自然語言提無新增內容
部分新增內容
全量新增內容示詞的全量生成,生成內容更加靈活豐富,應用空間廣闊信息來源:量子位智庫
4重點討論!檢索生成?
Text2Filter、TGANs-C,vGAN、
?G0DlvA、videoGPT、Phenaki、?stablevideoDiffusion、?sora、videopoet、W.A.L.TTGAN、videoGPT、MoCoGAN、Cogvideo、NuWAMake-A-video、Runway?由于領軍企業(yè)的示范效應,Diffusion
Transformer已經成為視頻DvD-GAN、DlGAN
?早期基于Transformer的視頻Gen1/2、videoLDM生成領域的核心路線,領域內其他玩家都開始聚焦D
iT并取得進展?應用范圍有限(只能總特定生成,生成效果有限,在當時的成本?由于sD的開源激發(fā)社區(qū)創(chuàng)新,?目前業(yè)界對于sora的架構大多是猜想,從架構大方向上接近,但例如數(shù)字),生成分辨率低、生比較高推動擴散模型在視覺生成領具體細節(jié)上不同模型、產品各異成時長極短域占據(jù)主導地位 1.技術側
2.應用側
3.玩家格局
技術趨勢:視頻生成正由擴散模型主導的格局走向與語言模型結合的
路線,Transformer將在視頻生成方面發(fā)揮主導作用GAN
Transformer
Diffusion
Mode
I
Diffusion
+
Transformer?
可擴展性強:基于擴散模型的視頻模型,核心的構件是卷積神經
網(wǎng)絡u-Net,隨著模型規(guī)模scale
up增益會放緩甚至消失。D
iT(Diffusion
Transformer)將傳統(tǒng)擴散模型的u-Net替換為
Transformer,從而能夠實現(xiàn)更強的可拓展性?長期來看語言模型路線1可成為主要路線,可以將多種模態(tài)融合到
一起(由于架構的成熟和優(yōu)良的擴展性)?生成質量高:生成效果好,細
節(jié)豐富清晰,訓練要遠比GAN
穩(wěn)定?
顯存開銷大:視頻生成有大量
相關依賴關系的圖片同時生成,
對計算顯存有極高要求?
可擴展性強:scale
up路線上
目前最好的架構?
生成速度慢、開銷大:需要把圖片進行分割再轉換成超長序列,計算量隨分辨率增加平
方級增加,復雜度高?
生成多樣性差:生成器-判別器對抗的模型架構決定生成效
果逼真但多樣性、創(chuàng)造性差,
很難泛化?
生成速度快:GAN可以一次出
圖,無需做多步推理?
2022年12月DiffusionTransformer論文發(fā)表?2024年2月0penAl發(fā)布sora,取得驚艷的生成效果,驗證了
Diffusion和Transformer結合的有效性?
2014年GAN發(fā)表,2016年左右
開始用于視頻生成?
2013年vAE出現(xiàn),可以通過編碼器和解碼器的機制學習數(shù)據(jù)
的潛在表示?
2017年Transformer發(fā)表,逐
步向各個領域滲透,早期在視
頻生成領域也有嘗試?
2021年Google發(fā)布videovisionTransformer?
2020年DDPM論文發(fā)表?
2021年LatentDiffusion
Models論文發(fā)表?
2022年videoDiffusion
Model論文發(fā)表信息來源:量子位智庫,1)在視頻生成的語境下,主要指基于Transformer這樣的自回歸模型
5
未來方向
技術節(jié)點特點案例
增長期
探索期
早期
1.技術側
2.應用側
3.玩家格局
技術挑戰(zhàn):算力需求大,數(shù)據(jù)要求高,算法復雜是目前制約視頻生成模型能力的三大挑戰(zhàn)視頻訓練數(shù)據(jù)示例?
高質量數(shù)據(jù)少:最佳的訓練數(shù)據(jù)是高質量的視頻-文本對,即針對一段視頻,有與之對應詳細準確的文字描述,互聯(lián)網(wǎng)上大部分的視頻數(shù)據(jù)都難以滿足需求(如數(shù)據(jù)不準確甚至是錯的),此外視頻數(shù)據(jù)的寬高比、分辨率、
時長各異,需要進一步處理。數(shù)據(jù)量方面,sora的訓
練數(shù)據(jù)可能超過500萬小時的精良視頻?公開數(shù)據(jù)質量低:公開數(shù)據(jù)集例如webvid(1070萬個文本視頻對,僅5.2萬小時)、HoWTo100M總時長超10萬,但都是4s的短視頻)、Ce
lebv-Text(超7萬個人臉-文本片段描述),數(shù)據(jù)量小且質量低?版權數(shù)據(jù)獲取難:例如電影、記錄片、動漫、Mv等影
視作品,內容平臺版權庫,以及YouTube、抖音等UGC內
容,成本高且有版權限制sora架構(推測)?
時間維度增加復雜性:視頻生成在圖像的基礎上增加
了時間維度,例如針對時間維度和空間維度結合做數(shù)據(jù)
表示,這對可擴展性、視頻生成的時長和生成效果一致
性方面有重大影響?視頻生成更難規(guī)?;?/p>
(scale):對于語言模型而言,
可以進行大規(guī)模的自監(jiān)督學習,而圖像和視頻生成模型
需要進行圖像-文本或視頻-文本對標注做監(jiān)督學習,規(guī)
?;碾y度更大,這是視頻模型和LLM的本質差異?Token
izer設計更復雜:文本模態(tài)的tokenizer更成熟,
語言已經過人類智能的一次壓縮,但圖像是現(xiàn)實世界的
原始信息,信息密度較低,需要重新設計更好的tokenizerAl計算卡示例?
訓練視頻生成大模型所需要的計算量遠高于一般的
文本和圖像模型,這導致開源社區(qū)和學術界等相對
業(yè)界算力不足的玩家難以參與,學界在視頻基礎模
型上工作較少,相關的模型和科研成果多出自互聯(lián)
網(wǎng)公司和主打視頻生成的商業(yè)技術公司?
以sora為例,從訓練側看,訓練成本大約為數(shù)十萬
英偉達H100GPU
hours(據(jù)估算),需要千卡GPU
的計算集群,以H100的使用價格約為3$/h估算,
sora的訓練成本可能達數(shù)千萬至上億美元?
從推理側看1
,價格方面目前sora每分鐘的推理成本
約數(shù)十美元,成本高昂;生成時長方面,單個視頻
生成時長超過10min,推理速度很慢信息來源:量子位智庫,openAl,英偉達,《sora:A
Review
on
Background,Techno
Iogy,Limitations,and
opportunities
of
Large
vision
Mode
Is》,1)推理速度除模型外也看算力供給6●
算力需求大
數(shù)據(jù)要求高
算法復雜
!<圖像\視頻,文字描述>231 1.技術側
2.應用側
3.玩家格局
技術驅動:視頻生成模型的能力將在算力驅動下快速進步,穩(wěn)定性、
可控性、豐富度將持續(xù)提升,解鎖更多應用空間?英偉達目前占據(jù)全球高端GPU市場超95%的市
場份額,是事實上生成式Al全行業(yè)算力市場供給量的決定者?
英偉達的人工智能GPU在2022年出貨量約270
萬,主要以A100為主;2023年出貨量約380萬
塊,主要以A100和H100為主;預計2024年出
貨量可能達到450萬塊,以H100和最近發(fā)布的
Blackwell系列為主?
預計英偉達GPU交付量將保持20%的增速,并
在每年進行芯片架構的升級,穩(wěn)步提升芯片
和系統(tǒng)的計算能力?目前北美最頭部的科技公司都在重金押注Al數(shù)據(jù)中心建設,以規(guī)模最大的4家公司為例,
預計2024年在數(shù)據(jù)中心上的投入將達到1500
億美元左右,在一定程度代表了領軍玩家對
于大模型的信心和預期?
云廠商旗下的數(shù)據(jù)中心既支持內部業(yè)務需求,也對外提供GPU算力,將逐步滿足市場對于算力的需求,支持各類模型的訓練和推理?
數(shù)據(jù)中心成本主要包括Al服務器的采買、土建成本、電力系統(tǒng)、制冷系統(tǒng)、監(jiān)控系統(tǒng)等計算量x1
計算量x4
計算量x32openAlsora
示例?
從0penAl
sora的實踐成果來看,繼續(xù)增加模型的數(shù)據(jù)量和相應的參數(shù)規(guī)
模(scale
up)依然是Al發(fā)展的核心
路線,強大算力支持是模型進步的必
要支撐?模型能力
:scale之后可以涌現(xiàn)出更
多高級特性,例如:1)隨著鏡頭的
旋轉和移動,人物、對象、場景在三
維世界中保持穩(wěn)定真實,2)模型可
以模擬距離關系和空間關系,生成針
對一個角色的多個鏡頭,3)模擬生
成內容中的物理交互關系?應用成本:視頻模型的推理成本較高,
需要大規(guī)模的推理算力來支持市場的大規(guī)模應用,充沛的算力供給將推動視頻生成從實驗階段推向商業(yè)化普及230380G4004402022
2023
2024E
2025E
2026E北美巨頭數(shù)據(jù)中心2024年capex投入預期(億/美元)信息來源:量子位智庫,Morgan
stanIey
7
關鍵分析
英偉達人工智能GPU出貨量持續(xù)增加(萬張)650MetaAmazonGoogleMicrosoft60050040030020010009006003000450H100+GB200GB200+B系列
Ultra380A100
+H100》》+20%270A10012》》Rubin
系列540 1.技術側
2.應用側
3.玩家格局
技術驅動:視頻生成的推理成本將持續(xù)下降,生成速度進一步提高,加速應用層技術擴散和商業(yè)化規(guī)模增長?
降本趨勢:視覺模型的價格快速下降
尚未開始,但隨著市場需求驅動和產
品化的成熟,類似LLM的降價趨勢也
將出現(xiàn)在視頻模型上?FLOPs成本下降:單位計算量的成本
將持續(xù)降低,主要來源于芯片架構的
提升和服務器、數(shù)據(jù)中心系統(tǒng)優(yōu)化?軟件層優(yōu)化:從LLM來看,推理成本
正在迅速降低,頭部模型在過去一年
降幅約90%,降本趨勢將持續(xù)8英偉達GPU產品及其算力(FP16,TFLOPS)5,0002,000620VoltaAmpere
HopperBlackwellRobin3000?
當前痛點:
目前制約視頻生成應用普
及的重要因素之一是生成速度,生成
5s左右的視頻需要等待數(shù)分鐘,且需
要嘗試多次才能獲得理想結果,對用
戶體驗造成的影響較大?加速生成
:單卡芯片算力提升和系統(tǒng)、集群上面的優(yōu)化可以大幅增加模型推理速度(tokens/秒),縮短視頻生成的等待時間turbo-128K信息來源:量子位智庫,英偉達,OpenAl,Morgan
Stan
Iey6421硬件的計算能力、推理速度不斷提升
2
模型應用的成本將不斷降低
B
系統(tǒng)層成本優(yōu)化OpenAl旗艦模型的推理成本(美元/百萬token)
120對于1.8TMoEGPT推理場景在FP4精度
下英偉達兩代產品對比(tokens/秒)8,0006,0004,0002,0000
關鍵分析Hopper
BlackwellRobin
Next-gen英偉達GPU的算力成本估算(美元/TFLOPs)GPT-4-0314-32K
GPT-4-GPT-4o150100500A
芯片層成本優(yōu)化A芯片層性能提升B
系統(tǒng)層性能提升200HGX
H100
GB200
NVL7230x》》》》1301163012154
1.技術側
2.應用側3.玩家格局
技術展望:視頻生成模型不僅限于生成視頻內容,長期將統(tǒng)一多模態(tài)
的生成和理解,成為通向AGI的重要路徑?
生成和理解在本質上是統(tǒng)一
的,語言模型的next
tokenprediction越準確,意味著模型對于語言和世界的理解
越準確
。對于視頻模型,對
下一幀或下一個patch1
的預
測的越準確,上代表了模型
對物理世界的理解越準確?視頻模態(tài)包含大量信息:從
仿生的角度看,人腦有80%
的信息來自視覺,
因此視覺
信息的理解與生成對于多模
態(tài)大模型至關重要?視覺模型可以壓縮一切:
?
當多模態(tài)訓練達到一定規(guī)
模時,語言智能就會融入到
視覺智能中,這是一條獲得
世界模擬器的路徑,可以通
過這樣的模擬器獲得任何東
西
?!?--Aditya
Ramesh,
openAl
sora及DALL-E項目
負責人9早期階段?內容生成和理解獨立?
不同模態(tài)相互獨立目前各個模態(tài)正在相互融合:?
Text-to-video:openAl
sora打通文字與視覺?
Audio-to-Audio:GPT-4o實現(xiàn)音頻交流?
Text-to-Audio:suno打通文字與音樂?
video-to-Audio:Deepmind發(fā)布匹配veo的視頻生音頻技術信息來源:量子位智庫,1)patch是0penAl
sora中類似token的一種數(shù)據(jù)表示GPT-3.5語言模型DALL-E視覺模型whisper音頻模型
算力
一
算法
一“Everything
to
Everything
”
統(tǒng)一生成和理解system
2?
復雜推理?
長線規(guī)劃?
…物理世界交互?
具身智能?
自動駕駛?
…數(shù)字世界交互?
智能管家
?
虛擬Agent
?
…超級對齊
關鍵分析多模態(tài)生成多模態(tài)理解數(shù)據(jù)多模態(tài)大模型scaIing
LawsGPT-4vsora2.應用側3.玩家格局1.技術側10
長視頻平臺
短視頻平臺
電影市場(年度票房)
平臺
CI
YOUTube
Tik
TOK
用戶
25億MAU
2.7億1.5億MAU
20億MAU
16億MAUN/A年營收
315億美元
340億美元84億美元100億美元+
160億美元330億美元
(全球)
平臺
字騰訊視頻
用戶
5億MAU
4億MAU3.4億MAU8億+MAU
7億+MAU
N/A年營收
320億
100億+
230億
1500億
1135億
550億(本土)
1視頻流量是主要的互聯(lián)網(wǎng)信息流量
2視頻是移動互聯(lián)網(wǎng)最大的內容消費形式
1000視頻流量占互聯(lián)網(wǎng)網(wǎng)絡流量比例(%)?2017到2022年,全球互聯(lián)網(wǎng)視頻流量
占消費互聯(lián)網(wǎng)流量的比例從73%增長到
82%,成為流量最大的內容形式?2022年,每月有500萬年的視頻內容通過互聯(lián)網(wǎng)傳輸。相當于每秒鐘有110萬分鐘的視頻被流式傳輸或下載?
內容視頻化是大勢所趨,移動互聯(lián)網(wǎng)的
用戶使用總時長占比中,短視頻穩(wěn)居第
一達到28%?
移動視頻行業(yè)用戶規(guī)模達10.76億,月人
均時長為64.2小時,視頻平臺成為流量
核心,可以將用戶引向電商、音樂、影視、本地生活、旅游服務等等垂直賽道82%20172022 1.技術側
2.應用側
3.玩家格局
場景廣闊:互聯(lián)網(wǎng)內容正在全面視頻化,視頻內容的消費場景豐富,A
I視頻內容生成的潛在市場規(guī)模巨大?從消費端來看,視頻是用
戶消費時間最長的內容形
態(tài),有豐富的應用的場景
和大型內容分發(fā)平臺,長
期或有誕生超級應用的機會?
隨著Al視頻生成的能力不
斷提升,Al生成視頻占視
頻消費內容的比例將不斷
提升,推動內容供給端變
革,逐步滲透視頻消費市
場海外視頻應
用本土視頻應
用11億人64小時
關鍵分析信息來源:量子位智庫,QuestmobiIe,cisco》》73%11?模型能力
:通過自然語言及其他方式可以實現(xiàn)對內容的
精準控制,深度理解物理世界規(guī)律,穩(wěn)定性、豐富度達到在各個領全面達到商用水準。1分鐘的視頻片段生成
時間達到縮短到數(shù)秒,接近實時生成?
經濟性:視頻生成的成本繼續(xù)降低1個數(shù)量級?產品
:新一代視頻交互界面開始普及,視頻生成內容融
入大部分視頻制作場景,重塑內容生態(tài)?模型能力
:實現(xiàn)復雜語義理解,同時滿足多個生成條件,
視頻的活動度、豐富度、穩(wěn)定性可以媲美影視級內容,有效時長超過一分鐘,在部分場景可以充分滿足需求。
1分鐘的視頻片段生成時間縮短到到分鐘級?
經濟性:推理成本下降1個數(shù)量級?產品:視頻模型與傳統(tǒng)工作流進行深度集成,同時萌生Al原生工作流,商業(yè)化規(guī)模達到Midjourney的水平?模型能力
:生成視頻時長度短、活動度低、穩(wěn)定差,人
物對象、背景經?;?。語言理解能力有限,只能理解
簡單指令,難以同時滿足多個生成條件,指令遵從能力差,10秒左右視頻片段需要3-5分鐘生成?經濟性:成本高昂,每分鐘視頻約3美元1?產品:簡單的文成視頻、圖生視頻功能,以網(wǎng)頁端和移
動的簡單應用為主,功能較為單薄動畫短片電影制作互動式電影電視劇制作2027游戲設計確認PMF后推理成本的
下降將成為大規(guī)模普
及的主導因素2025創(chuàng)意MV早期階段模型能力的提升將是驅動應用的主導因素繪本故事空鏡素材 1.技術側
2.應用側
3.玩家格局
應用趨勢:2024年將成為A
I視頻的應用元年,未來3—5年更多應用場景將隨著模型能力提升和推理成本下降逐步解鎖信息來源:量子位智庫,1)參考Runway的公開價格
12發(fā)展階段成熟階段早期階段新內容形式?
新消費平臺?微電影
動漫劇集推理經濟性模型能力品牌TVC短視頻短劇20292023 1.技術側
2.應用側
3.玩家格局
成本驅動:A
I生成視頻的成本遠低于各類現(xiàn)有視頻內容的制作成本,將逐漸驅動視頻生成內容滲透到各內容種類?Al視頻生成的成本遠遠低于影視行
業(yè)的制作成本,有若干個數(shù)量級的降
本效果,但目前阻礙應用的主要因素
是模型能力不足,生成效果尚無法與
傳統(tǒng)制作方式競爭,但預期模型能力
將持續(xù)迭代,未來3-5年達到可以與傳統(tǒng)制作方式的媲美的水平?動畫類電影的制作成本尤其高,需要
渲染大量的2D和3D內容,傳統(tǒng)制作方式包括角色建模、場景貼膜、紋理貼
圖、渲染合成等環(huán)節(jié),需要數(shù)百人耗
時數(shù)月進行制作,工程量非常大,視
頻生成可以大量削減制作成本的?局部應用已經開始:在對于制作質量
要求較低、制作方式和內容較為模板化的短劇行業(yè),已經出現(xiàn)Al短劇生成
的應用,例如Reel.Al200萬50萬10萬200003000300信息來源:量子位智庫,專家訪談,1)Runway目前的生成價格約每分鐘3美元,按100:1的生成可用率計算,實際成本約每分鐘300美元
不同類型視頻內容制作成本A
I視頻生成成本
約300美元/分鐘1本土動畫電影(《白蛇
緣起》、《哪吒》、《熊出沒系列》等)-
--
-
--
-
-
-
-
-
-
-
-
-
--
---
--
-
--
-
---
---
-
-
-
-
---
--●.頂級動畫電影
(出自
迪士尼、皮克斯等)鐘(
)$美元制作成本每分
關鍵分析》》普通UGC視頻
好萊塢電影平均成本本土流水線短劇-
-
-
---●.本土TVC視頻動畫、動漫視頻種類130---?
時長1分06秒,由玩具反斗城團隊和導
演Nik
kleverov共同構思制作,并在戛
納國際創(chuàng)意節(jié)亮相?sora生成的第一個商業(yè)廣告,效果接近
可以和傳統(tǒng)品牌短片的水準,可以傳達品牌方的關鍵視覺元素和風格不足之處?
人物角色的細節(jié)在不同片段一致性不足 (例如衣物細節(jié)顏色、紋理、眼鏡樣式、
細節(jié)面部特征等細節(jié)有輕微畸變)?
背景元素存在畸變,例如背景中的自行
車的有畸變特征創(chuàng)意短片《Air
Head》---
2024年3月可控性差?抽卡率高,生成素材可用率約300:1?
片段間一致性差:難以保證人物在不同
視頻片段之間的一致性,目前只能通過
詳細的提示詞描述來彌補,但效果欠佳?鏡頭難以控制:對于專業(yè)攝影術語理解
有限,類似鏡頭平移的功能需要通過后
期裁剪實現(xiàn)?
生成穩(wěn)定性低:
同樣的提示詞會產生不
同的生成內容,例如要求生成黃色氣球
但實際生成式紅色?
生成能力局限:生成的氣球上總會有面
部表情,需要后期抹除,不同片段畫面
風格難以保持一致,需要后期統(tǒng)一調色生成速度慢?
雖然sora原生支持1080P視頻生成,但由于生成速度太慢團隊選擇生成480P的視頻,再用其他工具再后期進行超分處理,
生成3-20秒的視頻需要10-20分鐘的生成
時間(和云算力供給也有關)
1.技術側
2.應用側3.玩家格局
應用案例—MV、品牌廣告:sora作為目前頭部模型,在創(chuàng)意視頻和品牌
廣告領域已具備應用價值,但仍存在諸多局限?
時長1分20秒,由shy
kids團隊3人花費2周時間完成制作,總體呈現(xiàn)效果精良版權限制?
為了避免版權問題,openAl對提示詞進
行了限制,例如拒絕生成
?35mm膠卷,
未來宇宙飛船中,一名男子拿著光劍靠
近”
類似星球大戰(zhàn)的提示詞品牌廣告《玩具反斗城的起源》
2024年6月信息來源:量子位智庫,量子位,shY
kids,ToYs"R"Us211430分鐘用戶日均使用時長15%付費用戶長期留存(井英科技生成的Al短劇)?
市場空間大:2024年短劇在國內的市場規(guī)模為400-500億元,已經接近國內電影
市場規(guī)模,海外市場發(fā)展情況和滲透率要低于本土,市場空間更加廣闊?
制作效果接近成熟:
目前Al短劇的制作水平還難以與傳統(tǒng)實拍模式媲美,但在的
動畫短劇領域已基本達到可用水平。隨著模型能力逐步迭代,未來一年內普通的短劇生成也將達到用戶可消費的水平?制作流程介紹:
目前采用與外部導演合作的模式,1)由導演進行劇本創(chuàng)作,并
將其分解為分鏡劇本,2)井英科技將分鏡劇本轉化為提示詞并輸入視頻生成模
型中(該環(huán)節(jié)替代了短劇演員)獲得結果,3)導演從生成結果中中選擇滿意的
分鏡視頻,或再通過提示詞進行二次生成調整,4)選定視頻后在傳統(tǒng)視頻工作流中進行后期的剪輯和處理?
互動功能:用戶在APP內可與短劇主角聊天,類似character.Al,可增加用戶粘性?
Al短片《M.A.D》
(俱皆
毀滅),在全球Al電影馬
拉松大賽上榮獲B站觀眾
選擇獎。該短片利用creativeFitting
自研的
視頻大模型ReelDiffusion生成,效果
媲美傳統(tǒng)動畫短片(Reel
Diffusion生成的動畫短劇)?
ReelDiffusion視頻大模型在敘事型視頻的生成
方面能力領先?
模型支持人物角色的細膩
情感表達及復雜場景的生
成,從算法到訓練數(shù)據(jù)及
工程實現(xiàn),都進行了專門
設計,幫助創(chuàng)作者講述引
人入勝的故事?
動畫短劇生成要比普通
短劇生成更加成熟 1.技術側
2.應用側
3.玩家格局
應用案例—短劇、動畫:井英科技發(fā)布A
I短劇APP
Ree
I.AI,自研短劇
視頻生成模型Ree
I
Diffusion,生成效果接近可消費水平園Reel.Al信息來源:量子位智庫,井英科技15 1.技術側
2.應用側
3.玩家格局
應用趨勢:視頻生成模型正在賦能傳統(tǒng)視頻制作工作流,目前主要價
值在于素材生成環(huán)節(jié),其他環(huán)節(jié)有少量滲透?
文字劇本視覺化,確定
鏡頭類型、鏡頭運動、
角色位置和動作?
編制鏡頭列表,包括每個鏡頭的編號、描述、
拍攝角度、鏡頭運動等?
根據(jù)分鏡規(guī)劃制定拍攝
計劃,完成器材準備和技術測試、準備演員、
服化道及布景設置?
根據(jù)情節(jié)和主題需要進
行素材整理、分類、剔
除無效素材?
對于無須拍攝類內容,
需要從素材庫進行素材
選取?
初步剪輯、邏輯剪輯,
拼接出粗略的視頻版本?
精剪微調,對影片進行
精細剪輯,調整鏡頭長
度、順序、節(jié)奏等V4Adobeshut
ers
tr,
ck"通用素?
視頻生成模型縮短視頻生產
周期,快速進行創(chuàng)意驗證,
生成粗略的原型視頻,加快
創(chuàng)意、情節(jié)構思規(guī)劃過程?
通過大量新素材和創(chuàng)意素材
可以進一步激發(fā)創(chuàng)造力,提
升內容創(chuàng)作質量門office365
+
各種生產力軟件?
添加視覺特效,確保效
果自然、完成顏色校正、
調色與整體風格一致?
同步處理音頻素材,確保對白清晰、搭配音效,
增強視頻的聽覺效果大綱腳本分鏡規(guī)劃
素材拍攝
素材選取剪輯渲染/音效?
故事創(chuàng)意、主題風格構
思,明確故事大綱,如
主要情節(jié)和角色發(fā)展?
將大綱擴展成完整的劇
本,包括對白、場景描
述和情節(jié)細節(jié)信息來源:量子位智庫,openAl
16傳統(tǒng)工作流在后期階段
對于質量的要求較為精
細,
目前視頻生成模型
的后期編輯功能還不能
充分滿足需求相互激發(fā)
前期制作
后期制作
中期制作
視頻模型賦能點材
生成內
容工
具??目前主要有三種模式:文生視頻、圖生視頻、文生圖-圖生視頻。
目前頭部文生圖產品的圖
片生成質量最好,一般先用文生圖應用生成指
導幀,然后再作為視頻生成的輸入進行動態(tài)化?
不會涉及專業(yè)級影視剪輯,視頻大部分關鍵元素在生
成階段完成,用戶主要的做一些簡單的邏輯剪輯或者
音效編輯,可以快速出片 1.技術側
2.應用側
3.玩家格局
應用趨勢:新一代A
I視頻工作流正在萌生,將整合音視頻創(chuàng)作全流程
提高創(chuàng)作效率,降低A
I視頻內容的制作摩擦?
故事創(chuàng)意、主題風格構
思,明確故事大綱,如
主要情節(jié)和角色發(fā)展?
將大綱擴展成完整的劇
本,包括對白、場景描
述和情節(jié)細節(jié)?
添加視覺特效,確保效
果自然、完成顏色校正、
調色與整體風格一致?
同步處理音頻素材,確保對白清晰、搭配音效,
增強視頻的聽覺效果?
文字劇本視覺化,確定
鏡頭類型、鏡頭運動、
角色位置和動作?
編制鏡頭列表,包括每個鏡頭的編號、描述、
拍攝角度、鏡頭運動等?
根據(jù)分鏡規(guī)劃制定拍攝
計劃,完成器材準備和技術測試、準備演員、
服化道及布景設置?
根據(jù)情節(jié)和主題需要進
行素材整理、分類、剔
除無效素材?
對于無須拍攝類內容,
需要從素材庫進行素材
選取?
初步剪輯、邏輯剪輯,
拼接出粗略的視頻版本?
精剪微調,對影片進行
精細剪輯,調整鏡頭長
度、順序、節(jié)奏等門office365
+
各種生產力軟件?
快速進行創(chuàng)意驗證,生成粗略的原型視頻,加快創(chuàng)意、情節(jié)構思規(guī)劃過程。通過大量新素材和創(chuàng)意素材可以進一步激發(fā)創(chuàng)造力,提
升內容創(chuàng)作質量整合音視頻生成、
編輯等所有功能的一站式應用'可能產生新的交互界面大綱腳本分鏡規(guī)劃
素材拍攝
素材選取剪輯渲染/音效已經成熟過渡階段正在萌生氏runwaystability.a
i信息來源:量子位智庫
17V4Adobeshut
ers
tr,
ck"
后期制作
前期制作
中期制作
傳\
統(tǒng)/內
容混
合原
生圖層生成?
用戶可以單獨生成視頻中的角色、物體和環(huán)
境對象,生成的視頻為透明背景,可以整合
覆蓋到其他視頻內容中,實現(xiàn)對于視頻內容的細顆粒度操作和局部編輯圖層拆解?
用戶也可以上傳自己視頻,尋光平臺可以對
視頻進行圖層拆解,分解出創(chuàng)作者需要的視
頻內容,例如人物角色,方便用于其他視頻
內容的組合、編輯應用案例—工作流(精細化生成):阿里達摩院發(fā)布尋光視頻制作平臺,通過圖層編輯方式和工作流整合提升創(chuàng)作全流程效率局部型元素?目標編輯:可以消除、替換、新增視頻中的各類目標?移動目標:通過拖拽可以實現(xiàn)目標的運動效果,人體控制:控
制視頻中角色的肢體動作?人臉控制:批量替換、編輯人臉?
前景、背景控制全局型元素?視頻風格化:莫奈、浮世繪、水彩、水墨、卡通等20種風格?鏡頭運鏡控制:左右平移、上下平移、推進拉遠、左右環(huán)繞等?
幀率控制:修改不同鏡頭的幀率修改使得視頻更加一致絲滑?
清晰度控制:提供不同清晰度的生成選擇?
畫質增強:提供視頻超分工具類PPT的圖形化操作界面?將視頻分解為多個場景的組合,再將每個場景分解為多個分鏡視
頻,方便用戶預覽整個視頻,對
每個鏡頭進行精細編輯,可以直
接通過拖拽完成順序調整,在任意位置進行添加、刪除?
針對每個分鏡視頻提供一攬子的
的編輯功能圖層融合?
可以把用戶自己生成的視頻內容或者上傳內
容進行圖層組合,可以實現(xiàn)視頻背景、人物
的任意切換,以解決目前Al視頻生成的場景
一致性問題,增加可用性。支持場景和人物
的批量替換,功能強大信息來源:量子位智庫,達摩院
18生成素材上傳素材基于圖層組合的編輯方式整合大量A
I編輯功能易用的工作流界面》》321?
主打高端影視場景:能夠生成好萊塢級的山脈、平原、植被、海洋、河流、火焰、煙霧、建筑、人物以及任何其他東西創(chuàng)作者可以完全控制場景中生成的每個元素和位置方向,無論是幾何形狀、材質、燈光、動作還是其他
方面。場景由可提示和可操作的對象組成,這些對象可以獨立運行,同時還能保持上下文感知?
多元化團隊背景:主要是技術人員+創(chuàng)作者的組合,例如來自cruise、waymo、Tesla、Microsoft、Meta和NvlDlA等公司的技術人員,首席工
程師來自《孢子》、《模擬城市》、《模擬人生》、《異形:隔離》等視
頻游戲,藝術家則曾參與制作《沙丘2》、《哥斯拉》、《造物主》、《復仇者聯(lián)盟:奧創(chuàng)紀元》、《艾麗塔:戰(zhàn)斗天使》和《侏羅紀世界:失
落王國》等電影?
投資方:包括谷歌風投、Elad
Gil、Garry
Tan、Jeff
Dean等以及來自openAl、Deepmin、Meta、Midjourney、pixar的研究人員應用案例—工作流(精細化生成):Odyssey結合4種生成模型,可以實
現(xiàn)對視頻內容的精確控制和生成,主打好萊塢級的視頻內容生成信息來源:量子位智庫,odyssey
19Odyssey光影生成
(不用強度、方位、風格)對象紋理生成對象生成
(如樹木、石塊、森林)材質生成
(如荒漠、草地、土地)影像級材質生成模型幾何圖形生成模型可控運動生成模型光影生成模型應用案例—工作流(流程整合化):美圖發(fā)布A
I短劇制作平臺MOK
I,整
合包括創(chuàng)意生成、
后期編輯、音效制作等視頻創(chuàng)作全流程信息來源:量子位智庫,美圖
201.技術側2.應用側3.玩家格局后
期前
期可
制
作
各
類短
片中
期!↓故事板角色設定場景1場景位置鏡頭1鏡頭3鏡頭提示詞鏡頭類型場景2
(LTX界面)?
故事板界面:用戶需要先進行角色設定,包括人物的肖像、風格、名字等,然后故事版
可以幫助用戶構思視頻的整體內容,包括從場景和分鏡頭兩個層次,可以設定每個場景的
基本情況,如位置、光影、天氣等,也可以添加該場景的音效和旁白。信息來源:量子位智庫,LTX
Studio?鏡頭編輯界面:可以對每個鏡頭進行精細化編輯,例如鏡頭的控制(LTX提供了超過10種
鏡頭運動方式)、分辨率調整、視頻幀率控制、音效旁白等,確認好基本參數(shù)后可以開始生成視頻鏡頭編輯器鏡頭控制超分幀率控制時長控制音效開始生成(LTX界面) 1.技術側
2.應用側
3.玩家格局
應用案例—工作流(流程整合化):LTX
Studi0采用基于故事版和分鏡
的生成編輯方式,同時整合音效、旁白等功能場景光影場景天氣旁白背景音鏡頭2旁白21"As
great
as
Sora
is
generating
things
thatappearreal-whatexcites
usisitsabilityto
makethingsthatare
totallysurreal."---Shy
Kids?
場景廣泛
:不針對某一類風格、行業(yè)、
角色
或其他方面進行垂直優(yōu)化,旨在用視覺信息
建模物理世界,通過自然語言作為提示詞生
成視頻?天花板高:通用生成的想象空間更大大,創(chuàng)
意性強,未來將有更多應用形態(tài)涌現(xiàn),預計
未來視頻的生成和理解將會逐步統(tǒng)一,強大的視頻生成能力也代表視覺理解的進步特點氏runway
pix
verse?
場景細分:垂直類視頻生成主
要指圍繞細分需求進行視頻生
成,主要是針對細分場景,用
垂類數(shù)據(jù)或者私有數(shù)據(jù)做適配
訓練和可控性、穩(wěn)定性優(yōu)化?
商業(yè)化路徑清晰,有穩(wěn)定的商特點
業(yè)模式和營收?
需要的算力資源和數(shù)據(jù)資源少,主要是用少量
垂類場景數(shù)據(jù)和算法對模型進行加強,模型不
追求
?
大
”,且在模型層選擇靈活,可以把文生視頻、圖生視頻作為外部能力接入傳統(tǒng)模型
作為輔助增強,核心要素還是行業(yè)知識?目前垂直類產品主要是在營銷場景下,針對人
物、或者某一類風格進行微調,幾千條數(shù)據(jù)就可以顯著增強模型在垂直領域的表現(xiàn)案例ogo
Fancy
Techcreative
Fit
t?ng
1.技術側
2.應用側3.玩家格局
產品路線:視頻生成目前仍處于早期階段,從應用路線上看主要分為通用類生成和垂直類生成兩類產品?研發(fā)難度大、算力、數(shù)據(jù)資源要求高:模型本身是對數(shù)據(jù)集
的擬合,要求模型能夠生成任意內容的視頻,本質上是要求
訓練數(shù)據(jù)集的場景豐富程度極高、
內容質量好,標注質量詳
盡、準確,
以及經過大規(guī)模scale來學習視頻中包含的各類知
識和物理規(guī)律,目前大多數(shù)視頻生成技術公司都屬于此類案例?
內容合規(guī)和本土化問題難以避免:視頻
輸出內容可以包含更多維度的信息,其中可能涉及內容安全、意識形態(tài)及不同文化背景的偏好差異,例如本土模型對
本土文化理解力更好,海外模型的輸出會凸顯歐美審美偏好和價值觀信息來源:量子位智庫,openAl
22通用類垂直類付費點saas產品
?目前本土的saas市場成熟度相比海外仍有欠缺,用戶的
主要畫像是自媒體創(chuàng)作者、創(chuàng)意工作者,覆蓋人群比較
垂直,商業(yè)化規(guī)模有限?
隨著新一代用戶的年輕化、專業(yè)化,為內容工具的付費
的習慣正在逐漸形成,但仍需時間培育定制化
?目前主要客戶以各行業(yè)頭部公司為主,預算比較充足且愿意
擁抱Al新技術,一般大客戶都會要求部分定制化服務?視頻生成領域的定制化一般不涉及技術上的二次開發(fā),工作
量主要在具體的需求溝通、微調模型,幫助客戶熟悉產品,
以及提供技術支持服務等?
一些場景需要客戶和公司結合行業(yè)知識進行共創(chuàng),例如營銷視頻在內容結構、風格、審美等方面的選擇 1.技術側
2.應用側
3.玩家格局
商業(yè)模式:通用視頻生成在海外市場以saas產品為主,國內市場項目
制為主,服務內容多樣化,但訂閱制有待成熟?
本土市場:如果不同視頻生成模型之間能力沒有顯著差異化,很可能出現(xiàn)類
似大語言模型領域的價格戰(zhàn),產品盈利將面臨較大
壓力。C端市場、專業(yè)消費者是最理想的市場,但
如果場營收不好,可能要持續(xù)做B端服務?
本土市場目前的商業(yè)化
路徑一般是
?從大到小”
,例如從大B的影視
公司,到中B的影視工作
室,游戲工作室、廣告工
作室、短劇團隊,再到自
媒體創(chuàng)作者、專業(yè)創(chuàng)作者等prosumer、小B用戶?
海外市場:C端會是長期主線
,
目前競爭并不激烈,
處在逐步拓展市場的階段?
海外市場是文生視頻類應用的主打市場,生成式Al的創(chuàng)
意市場已有類似產品完成市場驗證,例如Midjourney年
收入已經超過2億美元、超2000萬用戶?
海外市場的用戶主要是一些C端用戶或者中小B端用戶,主要通過在社交媒體和創(chuàng)意工作者人群中構建社群并以pLG的方式進行增長?目前主流的通用視頻生成應用大都采用saas應用服務模式,向用戶收取每月訂閱費用或者生成視頻的消耗量分不同付費版本靈活計費?
海外市場的定制化目前較少,主要是saas服務,但頭部公司
也會提供模型訓練服務和Apl定制化,例如Adobe和Runway?
創(chuàng)業(yè)公司也會做一些大客戶或者知名案例,但主要目的是打造知名度,同時探索用戶需求、打磨產品,例如Runway曾參與《瞬息全宇宙》的制作、sora完成《AirHead》制作海外市場本土市場信息來源:量子位智庫
23增值功能(視頻超分、音效功能、編輯功能、各類動效)
關鍵分析客戶專員支持生成數(shù)量私有化部署Apl定制化模型訓練業(yè)務溝通生成點數(shù)生成時長生成速度》》團隊協(xié)作 1.技術側
2.應用側
3.玩家格局
對比分析:視頻生成相比圖片生成的應用復雜度更高,大規(guī)模普及或需要從模型到工作流的全面進步才能打開市場?2分鐘左右(以最新的Runway
Gen-3為例)?
10秒左右的視頻片段(以最新的Runway
Gen-3為例)?
生成視頻存在畸變、分辨率低、指令遵從差、穩(wěn)定性差等問題?目前抽卡率非常高,可能到幾百,例如shykids團隊用sora制作的MV作
品抽卡率約300,需要進行大量嘗試?視頻生成對于創(chuàng)作者的要求更高,功能和提示詞的復雜度更高?
不同模型各異,取決于生成視頻的質量和長度,Runway的價格約為3美
元每分鐘,sora可能高達數(shù)十美元每分鐘?
生成片段并不足以構成可用作品,實際場景需要大量的視頻生成片段組合為完整的視頻(時長數(shù)分鐘或更長),進一步推高了應用成本?
1分鐘左右?
輸入一次提示詞可以生成4張圖片供用戶選擇(以Midjourney為例)?
生成的大部分圖片可以滿足普通用戶的需求標準,技術已經比較成熟?
抽卡次數(shù)較低,一般生成5次左右可以得到理想結果?
約0.03美元/張(以Midjourney為例)?修改難度大:在視頻生成內容
上做編輯很難,例如人物對象、環(huán)境等內容發(fā)生畸變的修改難
度和工作量非常大?
一致性難題:視頻制作要保證多個視頻片段中人物角色、物體和周圍環(huán)境的一致性,如何
精準銜接多個片段,
目前還沒
有很好的解決,對二次編輯的
依賴度較高?
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度個人珠寶首飾分期購買合同6篇
- 二零二五年度棉被產品售后服務協(xié)議4篇
- 2025年度個人住宅地下室防水防潮合同范本4篇
- 二零二五年度美團商家入駐信息安全管理合同4篇
- 2025年個人購房貸款利率變動通知合同2篇
- 建筑設計協(xié)調合同(2篇)
- 支模超高施工方案
- 施工方案五必須
- 2025年銷售部勞動合同加班補貼范本
- 2025年銷售經理崗位競聘協(xié)議范本2篇
- 天津市武清區(qū)2024-2025學年八年級(上)期末物理試卷(含解析)
- 《徐霞客傳正版》課件
- 江西硅博化工有限公司年產5000噸硅樹脂項目環(huán)境影響評價
- 高端民用航空復材智能制造交付中心項目環(huán)評資料環(huán)境影響
- 量子醫(yī)學成像學行業(yè)研究報告
- DB22T 3268-2021 糧食收儲企業(yè)安全生產標準化評定規(guī)范
- 辦事居間協(xié)議合同范例
- 正念減壓療法詳解課件
- GB 30254-2024高壓三相籠型異步電動機能效限定值及能效等級
- 阿米巴落地實操方案
- 藥物制劑工(三級)理論試題題庫及答案
評論
0/150
提交評論