2024 生成式AI+視頻行業(yè)專題報告:AI+視頻的星辰大海遠(yuǎn)不止于視頻生成_第1頁
2024 生成式AI+視頻行業(yè)專題報告:AI+視頻的星辰大海遠(yuǎn)不止于視頻生成_第2頁
2024 生成式AI+視頻行業(yè)專題報告:AI+視頻的星辰大海遠(yuǎn)不止于視頻生成_第3頁
2024 生成式AI+視頻行業(yè)專題報告:AI+視頻的星辰大海遠(yuǎn)不止于視頻生成_第4頁
2024 生成式AI+視頻行業(yè)專題報告:AI+視頻的星辰大海遠(yuǎn)不止于視頻生成_第5頁
已閱讀5頁,還剩49頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

信達(dá)證勞CINDASECURITIES行業(yè)專題研究(深度)行業(yè)專題研究(深度)AI行業(yè)馮翠婷傳媒互聯(lián)網(wǎng)及海外首席分析師聯(lián)系電話ransformer、DiffusionModel以及Sora采用的DiT架構(gòu)躍性提升。VAE引入了隱變量推斷,GAN生成的圖像真PixverseV2為0.02美元(0.174rmb)、美圖WHEE為0.32rmb,國CINDASECURITIESC0.,LTD郵編:100053請閱讀最后一頁免責(zé)聲明及信息披露2CINDASECURITIES題”。為,1)一站式平臺型公司,如Adobe、美圖公司;2)Al+視頻技術(shù)一、生成式AI發(fā)展進(jìn)程,文生視頻正成為當(dāng)前AI行業(yè)關(guān)鍵發(fā)展節(jié)點(diǎn) 6二、目前市場主流的海外生成式視頻參與者 三、目前市場主流的國內(nèi)生成式視頻參與者 28四、從AI生成到AI剪輯,一站式Al視頻生成+編輯有望成為另一核心方向 五、Al+視頻發(fā)展方向展望 六、風(fēng)險因素 表1:Transformer、Diffusion、DiT模型的產(chǎn)品梳理 表2:Runway歷年融資輪次、融資金額及對應(yīng)估值 表3:LumaAl、Pika、RunwayGen-3Alpha、Sora相同提示詞生成視頻的效果多維度比較.27表4:海內(nèi)外視頻生成產(chǎn)品單視頻所需成本比較(1美元=7.28人民幣) 28表5:Adobe數(shù)字媒體業(yè)務(wù)和數(shù)字體驗業(yè)務(wù)預(yù)估市占率 42表6:快影和剪映產(chǎn)品相關(guān)數(shù)據(jù) 46表7:相關(guān)公司提供視頻數(shù)據(jù)用于訓(xùn)練多模態(tài)大模型 48表8:IP類公司可基于Al+視頻開發(fā)更多IP衍生品 49 49表10:相關(guān)上市公司估值表(截至2024.07.24) 6圖2:AI應(yīng)用地圖梳理 6圖3:主流文生視頻技術(shù)的演進(jìn)路徑 7圖4:AIGC視頻生成的技術(shù)演進(jìn)路徑 8圖5:GAN生成對抗網(wǎng)絡(luò)運(yùn)作原理 8圖6:Diffusion擴(kuò)散模型運(yùn)作原理 圖7:WALT視頻生成模型搭建原理示意圖 圖8:Sora基于DiT模型生成圖像視頻 圖9:2023年生成式Al+視頻時間表 圖10:LumaAIDreamMachine官網(wǎng)宣傳文生視頻功能 圖11:LumaAIDreamMachine官網(wǎng)宣傳前后幀輸入圖片生成連貫視頻功能 圖12:LumaAIDreamMachine實測演示中會遇到不符合物理規(guī)律、物體對象缺失等問題.17圖13:Runway產(chǎn)品定價模式 圖14:RunwayGen-1視頻生視頻 圖15:RunwayGen-1視頻生視頻演示 20圖16:RunwayGen-2文生視頻效果表現(xiàn)較好 20圖17:RunwayGen-2圖生視頻效果及筆刷功能表現(xiàn)較好 21圖18:RunwayGen-3Alpha通過運(yùn)動畫筆、高級相機(jī)控制、導(dǎo)演模式可以更精細(xì)控制運(yùn)動21圖19:RunwayGen-3Alpha兩端提示詞測試,效果較強(qiáng) 22 23圖21:Pika文生視頻界面及視頻編輯核心功能 23圖22:Sora合成的60秒視頻 24請閱讀最后一頁免責(zé)聲明及信息披露http://www.cindasc.com4 24 25圖25:LumaAIDreamMachine生成效果(電影質(zhì)感,略微不符 25圖26:Pika生成效果(提示詞理解、畫面質(zhì)感等方面有差距) 26圖27:RunwayGen-2生成效果(主角沒有跟隨鏡頭移動) 26圖28:RunwayGen-3Alpha生成效果(各方面表現(xiàn)均優(yōu)秀) 27圖29:快手大模型產(chǎn)品矩陣及可靈AI產(chǎn)品功能升級 圖39:后續(xù)Firefly關(guān)于多模態(tài)音頻、視頻方向上的功能展望 圖42:CaptionsAIADCr 圖43:阿里達(dá)摩院“尋光”一站式視頻創(chuàng)作平臺視頻編輯功能 圖44:阿里達(dá)摩院“尋光”視頻素材創(chuàng)作功能 圖45:美圖MOKIAI短片產(chǎn)品 圖46:商湯Vimi人物視頻生成 40圖47:智象大模型升級2.0版本 40圖48:智向未來即將上線一站式分鏡頭故事創(chuàng)作視頻生成功能 41 42圖50:AdobeExpress在24年4月迭代AI功能后,日活數(shù)驟然抬升并穩(wěn)定提高 43 43圖52:美圖公司底層、生態(tài)層、應(yīng)用層架構(gòu) 44圖53:Vimi在人物一致性功能支持下打造的數(shù)字分身打造AI視頻功能、AI表情包功能..45信達(dá)證券CINDASECURITIES一、為什么要研究Al+視頻——AI視頻生成正成為當(dāng)前行業(yè)發(fā)展關(guān)鍵節(jié)點(diǎn)2023年紅杉資本在關(guān)于生成式AI發(fā)展進(jìn)程的預(yù)測報告中表明,在歷經(jīng)文生文、文生圖的升級迭代后,我們目前正處在Al+生產(chǎn)力辦公&設(shè)計、Al+視頻和Al+3d滲透的歷史節(jié)點(diǎn)上。在底層大模型技術(shù)迭代逐漸加速的今陪伴等方向已經(jīng)逐漸成為競爭激烈的主要方向,展望未來我們需要對更多Al+做深入的研究,而視頻方向一直是業(yè)內(nèi)關(guān)注的重點(diǎn)方向之一。視頻雜糅了文本、語音、圖像等多維度內(nèi)容,其訓(xùn)練的難點(diǎn)也往往在于視頻數(shù)據(jù)對數(shù)量和質(zhì)量的不足、算法架構(gòu)需要優(yōu)化、物理規(guī)律性較差等等,但我們相信,隨著Al+視頻的技術(shù)和產(chǎn)品升級迭代,眾多行業(yè)有望受益,諸如電影、廣告、視頻剪輯、視頻流媒體平臺、UGC創(chuàng)作平臺、短視頻綜合平臺等,而目前正處在Al+視頻發(fā)展的關(guān)鍵性時刻,正從Al+視頻創(chuàng)意生成逐漸過渡到一站式視頻生成+剪輯+UGC的后續(xù)階段。TEXTCODEVIDEO/GAMING圖1:生成式TEXTCODEVIDEO/GAMINGPRE-2020202020222023?SpamdetectionTranslationBasicQ&ABasiccopywritingFirstdraftsLongerformSeconddraftsVerticalfinetuninggetsgood(scientifiopapers,etc)FinaldraftsbetterthanthehumanaverageFinaldraftsbetterthanprofessionawriters1-lineauto-completeMulti-linegenerationLongerformBetteraccuracyMorelanguagesMoreverticalsTexttoproduct(final)developersArtLogosPhotographyMock-ups(productdesign,architecture.etc.)Finaldrafts(productFinaldraftsbetterthanprofessiorartists,designersphotographers)Firstattemptsat3D/videomodelsBasic/firstdraftvideosand3DfilesSeconddraftsAIRobloxVideogamesandmoviesarealzeuuteatisLargemodelavailability:FirstattemptsAlmostthereReadyforprimetime在紅杉資本2024年關(guān)于AI應(yīng)用的地圖梳理中反映了市場中的兩個重要趨勢:生成式人工智能從技術(shù)趨勢演變?yōu)閷嶋H應(yīng)用和價值,以及生成式人工智能應(yīng)用日益呈現(xiàn)多模態(tài)的特性??梢钥吹?,AI視頻生成及編輯的版圖占比較多,重要性和產(chǎn)品推進(jìn)速度目前較快。圖2:AI應(yīng)用地圖梳理ProsumerGENERALSEARCHKNOWLEDGChatGPT●ANTHROPICUae米perplexityXVRTXkSsynthesiaAUTONOMOusAGENTVIDEOCREATION/EDITINGRrunwayVEED.IOBROWSERCOPILOTSAUTOMATIONASSISTAN7MinionAlnewCOMPUTERBabyAGIIMAGECREATION/EDITINGPicsartPhotoRoomVOICEIElevenLabsANwRESEMBLE.AIWWELLSAID以MURFAI1)計算成本:確保幀間空間和時間一致性會產(chǎn)生長期依賴性,從而帶來高計算成本;2)缺乏高質(zhì)量的數(shù)據(jù)集:用于文生視頻的多模態(tài)數(shù)據(jù)集很少,而且通常數(shù)據(jù)集的標(biāo)注很少,這使得學(xué)習(xí)復(fù)雜的運(yùn)動語義很困難。文生視頻模型需要依賴于大量數(shù)據(jù)來掌握如何將文本描述轉(zhuǎn)化為具有寫實感的連續(xù)幀,并捕捉時間上的動態(tài)變化;3)視頻生成質(zhì)量:時空一致性難以保持,在不同鏡頭、場景或時間段內(nèi)較難確保角色、物體和背景的一致性。長視頻制作仍面臨時間一致性和完整性的挑戰(zhàn),這直接影響到實際應(yīng)用的可行性;4)語義對齊:由于自然語言具有復(fù)雜性和多義性,文本語義理解、文本與視頻元素的映射關(guān)系仍是挑戰(zhàn);5)產(chǎn)品易用性:對于文生視頻,產(chǎn)品的易用性和體驗仍需改進(jìn)。個人用戶希望制作流程易上手、符合習(xí)慣,并支持快速素材搜索、多樣模板、多端同步和一鍵分享;小B端用戶關(guān)注成本可控下的快速營銷視頻制作和品牌傳播效果;行業(yè)用戶則需要內(nèi)容與交互性的融合,包括商用素材適配性、快速審核和批量制作分發(fā)能力;6)合規(guī)應(yīng)用:文生視頻的應(yīng)用面臨素材版權(quán)、隱私安全和倫理道德等風(fēng)險。二、市場主流AI視頻生成技術(shù)的迭代路徑圖3:主流文生視頻技術(shù)的演進(jìn)路徑2021.11微軟亞洲研究院發(fā)布2021.11微軟亞洲研究院發(fā)布NUWA(女媧)2021.4微軟亞洲研究院發(fā)布GODI2023.3微軟亞洲研究院發(fā)布NUWA-XI2024.1字節(jié)跳動發(fā)布Magicvideo2022.5清華發(fā)布CogVideo20162016年-2019年2022.11字節(jié)跳動發(fā)布MagicVideo2022.10Google發(fā)布Im2022.9Meta發(fā)布Make-A-Video2022.7微軟亞洲研究院發(fā)布NUWA-Infinity2017.12MOCOGAN2019.9DVD-GAN資料來源:CarlVondrick等《GeneratingVideoswithSceneDynamics》;SergeyTulyakov等《MoCoGAN:DecomposingMotionandContentforVideoGeneration》;EichiMatsumoto等《TemporalGenerativeAdversarialNetswithSingularValueClipping》;AidanClark等《ADVERSARIALVIDEOGENERATIONONCOMPLEXDATASETS》;ChenfeiWu等《NUWA:VisualSynthesisPre-trainingforNeuralJonathanHo等《MAGENVIDEO:HIGHDEFINITIONVIDEOGENERATIONWITHDIFFUSIONMODELS》;RubenVilegas等《PHENAK:TO-VIDEOGENERATIONWITHOUTTEXT-VIDEODATA》;ChenfeiWu等《NUWA-Infinity:AutoregressYu等《GENERATINGVIDEOSWITHDYNAMICS-AWAREMPLICITGENERATIVEADVERSARIALNETWORKS》;DanKondratyuk等《VideoPoet:ALargeLanguageModelforZero-ShotVideoGeneration》;AgrimGuptau等《PhotorealisticVideoGenModels》;SongweiGe等《PreserveYourOwnCorrelation:ANoiseProrforVideoDifusionModels》;AndreasBlattmann等《AligLatents:High-ResolutionVideoSynthesiswithLatentDifusion研發(fā)中心請閱讀最后一頁免責(zé)聲明及信息披露7代表產(chǎn)品代表產(chǎn)品Text2FilterVideoGPT.Runway-Gen2、通義千問視頻大模型……Sora、快手可靈……資料來源:信達(dá)證券研發(fā)中心(注:該圖通過圖3所引用論文總結(jié)而來)1)GAN+VAE生成對抗網(wǎng)絡(luò)(GenerativeAdversarialNetworks)核心思想是訓(xùn)練兩個網(wǎng)絡(luò),生成器(G)和判別器(D)。生和MoCoGAN,它們通過不同的網(wǎng)絡(luò)架構(gòu)和訓(xùn)練方法來改進(jìn)GAN在視頻生成上的性能。此外,DualVideoRandomRandomGeneratorFakeDiscriminatorGenerator資料來源:AWSMarketplace,信達(dá)證券研發(fā)中心GAN技術(shù)特點(diǎn)如下:1)無需標(biāo)注數(shù)據(jù),可以從未標(biāo)注的圖像中學(xué)習(xí)生成新的圖像或視頻;2)多領(lǐng)域應(yīng)用,可以應(yīng)用于圖像生成、風(fēng)格遷移、數(shù)據(jù)增強(qiáng)、超分辨率等多種任務(wù);3)模型靈活,通過改變網(wǎng)絡(luò)結(jié)構(gòu),可以適應(yīng)不同的數(shù)據(jù)分布和生成任務(wù);4)模型參數(shù)小,較為輕便,擅長對單個或多個對象類進(jìn)行建模。GAN作為早期文生視頻模型,存在如下缺點(diǎn):1)訓(xùn)練過程不穩(wěn)定,容易出現(xiàn)模式崩潰(modecollapse),即生成器開始生成非請閱讀最后一頁免責(zé)聲明及信息披露83)擴(kuò)散模型請閱讀最后一頁免責(zé)聲明及信息披露9x?X2DenoisingUNetXrXT4)DiT(Transformer+Diffusion)W.A.L.T(owAttentionLatentTransformer)模型和兩個視頻超分辨率擴(kuò)散模型,以每秒8幀的速度生成512×896分辨率的視頻。請閱讀最后一頁免責(zé)聲明及信息披露10圖7:WALT視頻生成模型搭建原理示意圖SpatSelfAttSpatSelfAttAttearodtV——WALT將圖像和視頻編碼到共享潛在空間中。Transformer主干使用具有兩層窗口限制注意力的塊來處理這些潛在空間:空間層捕獲圖像和視頻中的空間關(guān)系,而時空層通過身份注意力掩碼模擬視頻中的時間動態(tài)并傳遞圖像。文本調(diào)節(jié)是通過空間交叉注意力完成的。DiT模型技術(shù)特點(diǎn)如下:1)運(yùn)用潛在擴(kuò)散模型,在潛在空間而非像素空間中訓(xùn)練擴(kuò)散模型,提高了計算效率;2)Patchify操作,將空間輸入轉(zhuǎn)換為一系列token,每個token代表圖像中的一個小塊;3)條件輸入處理,DiT設(shè)計了不同的Transformer塊變體來處理條件輸入(如噪聲時間步長、類別標(biāo)簽等);4)自適應(yīng)層歸一化(adaLN),使用adaLN來改善模型性能和計算效率;5)可擴(kuò)展性:DiT展示了隨著模型大小和輸入token數(shù)量的增加,模型性能(以FID衡量)得到提升;6)簡化的架構(gòu)選擇,DiT證明了在擴(kuò)散模型中,傳統(tǒng)的U-Net架構(gòu)并不是必需的,可以被Transformer替代。DiT模型仍存在以下缺點(diǎn):1)實現(xiàn)復(fù)雜性,雖然DiT在理論上簡化了架構(gòu)選擇,但Transformer的實現(xiàn)可能比U-Net更復(fù)雜;2)訓(xùn)練穩(wěn)定性:盡管DiT訓(xùn)練穩(wěn)定,但Transformer架構(gòu)可能需要特定的訓(xùn)練技巧來保持穩(wěn)定;3)對硬件要求高,雖然DiT在計算上更有效率,但Transformer模型通常需要大量的內(nèi)存和計算資源,這可能限制了它們在資源受限的環(huán)境中的應(yīng)用;4)模型泛化能力,DiT主要在ImageNet數(shù)據(jù)集上進(jìn)行了評估,其在其他類型的數(shù)據(jù)和任務(wù)上的泛化能力尚未得到驗證。DiT作為一種新型的擴(kuò)散模型,通過在潛在空間中使用Transformer架構(gòu),實現(xiàn)了對圖像生成任務(wù)的高效和高性獲得了通用化的能力。它采用基于擴(kuò)散模型的生成框架,逐步改進(jìn)噪聲樣本以產(chǎn)生高保真度的視頻輸出,并應(yīng)用Transformer架構(gòu)來處理視頻和圖像的時空信息,保持物體在三維空間中的連貫性。這種結(jié)合生成和變換器優(yōu)勢的方法,使得Sora在視頻生成和編輯任務(wù)中表現(xiàn)出色,能夠創(chuàng)造出多樣化、高質(zhì)量的視覺內(nèi)容。請閱讀最后一頁免責(zé)聲明及信息披露11模型類型模型名稱發(fā)布方發(fā)布時間技術(shù)特點(diǎn)及主要功能VideoGPT使用VQ-VAE,并通過3D卷積和軸向自注意力機(jī)制實現(xiàn)。使用類似GPT的架構(gòu)自回歸能生成高保真度視頻,尤其是適應(yīng)動作條件視頻。微軟亞洲研究院采用3D變換器編碼器-解碼器框架,提出3D近鄰注意力機(jī)制簡化計算,支持多模態(tài)預(yù)訓(xùn)練,使用VQ-GAN視覺標(biāo)記3Dtokens,具有零樣本能力。在生成圖像、視頻以及視頻預(yù)測方面表現(xiàn)優(yōu)秀。清華大學(xué)采用多幀率層次化訓(xùn)練策略、雙通道注意力機(jī)制,靈活文本條件模擬不同幀率視頻,順序生成和遞歸插值框架使視頻生成連貫。對復(fù)雜語義的運(yùn)動理解加強(qiáng),生成高分辨率、高幀率、高一致性的視頻。微軟亞洲研究院采用雙重自回歸生成機(jī)制來處理可變尺寸的生成任務(wù),引入NCP緩存已生成的相關(guān)patch來減少計算成本,采用任意方向控制器賦能圖像擴(kuò)展,能生成任意大小高分辨率圖像、長時視頻、圖像動畫。Google使用因果注意力機(jī)制生成可變長度視頻,使用預(yù)訓(xùn)練的T5X來生成文本嵌入,通過雙向遮蔽Transformer根據(jù)文本嵌入生成視頻請閱讀最后一頁免責(zé)聲明及信息披露12token,采用C-ViViT編碼-解碼架構(gòu)減少token數(shù)量并在時空一致性表現(xiàn)更好。僅采用解碼器架構(gòu)能處理多模態(tài)輸入,支持零樣本視頻生成;使用雙向變換器在標(biāo)記空間內(nèi)提高空間分辨率;通過自回歸擴(kuò)展內(nèi)容來合成長達(dá)10秒的連貫視頻;執(zhí)行文本、圖像、視頻編輯到視頻的多任務(wù)視頻生成。使用因果編碼器聯(lián)合壓縮圖像和視頻,實現(xiàn)跨模態(tài)生成;采用窗口注意力架構(gòu),聯(lián)合空間和時空生成建模;不依賴分類器自由引導(dǎo)可生成視頻;通過潛在視頻擴(kuò)散模型和視頻超分辨率擴(kuò)散模型的級聯(lián),生成512×896分辨率、每秒8幀的視頻;能根據(jù)類別標(biāo)簽、自然語言、過去幀、低分辨率視頻生成可控視頻。采用基礎(chǔ)視頻擴(kuò)散模型和用于空間與時間超分辨率擴(kuò)散模型,采用v-prediction參數(shù)化避免色彩偏移,應(yīng)用漸進(jìn)式蒸餾技術(shù),快速高效采樣;使用噪聲條件增強(qiáng)來減少級聯(lián)模型中的域差距,提高樣本質(zhì)量;能生成各種藝術(shù)風(fēng)格和3D對象理解的視頻,具可控性和對世界知識的理解。VideoDiffusion從圖像和視頻數(shù)據(jù)聯(lián)合訓(xùn)練減小批量梯度方差;引入條件采樣技術(shù),提高空間和時間視頻擴(kuò)展性能;使用特定類型的3DU-Net作為擴(kuò)散模型架構(gòu),使時間空間分解;采用因子化的空間-時間注意力機(jī)制,能遮蔽模型以在獨(dú)立圖像上運(yùn)行;使用多種擴(kuò)散模型采樣器;能處理多尺度和多幀視頻數(shù)據(jù),生成長序列視頻。不需要成對的文本-視頻數(shù)據(jù)進(jìn)行訓(xùn)練;通過無監(jiān)督的視頻素材學(xué)習(xí)世界的運(yùn)動方式;構(gòu)建在T2I模型之上,包括分解全時域U-Net和注意力張量,并在空間和時間上近似它們;設(shè)計空間-時間管道,通過視頻解碼器、插值模型、超分辨率模型生成高分辨率、高幀率MagicVideo字節(jié)跳動使用3DU-Net解碼器簡化計算;引入幀間輕量適配器,減少對獨(dú)立2D卷積塊的需求;采用有向自注意力機(jī)制,僅基于所有先前幀 計算未來幀的特征;提出VideoVAE自編碼器,改善像素抖動問題;訓(xùn)練基于擴(kuò)散的超請閱讀最后一頁免責(zé)聲明及信息披露131024×1024的高分辨率。新加坡國立大學(xué),騰訊基于預(yù)訓(xùn)練的T2I擴(kuò)散模型,使用開放域知識;引入空間時間注意力機(jī)制來學(xué)習(xí)連續(xù)運(yùn)動;使用DDIM反演,使生成視頻時序一致;只更新注意力塊中的投影矩陣而非所有參數(shù),避免對新概念視頻生成的阻礙。將潛在擴(kuò)散模型擴(kuò)展到視頻生成,通過將時間層引入到預(yù)訓(xùn)練的圖像模型中并對圖像和視頻進(jìn)行聯(lián)合訓(xùn)練,無需額外訓(xùn)練和預(yù)處理。頻;通過訓(xùn)練模型預(yù)測視頻下一幀,對視覺世界深入理解;從單個幀的高保真度生成開始,逐步解決視頻敘事中的挑戰(zhàn),包括場景、Google采用混合微調(diào)方法,結(jié)合全時序注意力和時序注意力掩蔽的微調(diào);引入輕量級的幀間適配器,用于調(diào)整I2V分布;采用有向自注意力機(jī)制,捕捉幀間的時序依賴性;提出圖像動畫框架,轉(zhuǎn)圖像為粗糙視頻進(jìn)行編輯。微軟亞洲研究院能夠直接在長視頻上進(jìn)行訓(xùn)練,并通過增加深度m來輕松擴(kuò)展到更長的視頻;“粗到細(xì)”階段生成,先通過全局?jǐn)U散模型生成關(guān)鍵幀,再用局部擴(kuò)散模型遞歸填充鄰近幀之間的內(nèi)容;支持并行推理,提高長視頻生成速度。PicsartAIResearch,UTAustin,實現(xiàn)零樣本學(xué)習(xí);在生成幀代碼注入運(yùn)動動力學(xué),能保持全局場景和背景的時間一致性;使用新的跨幀注意力機(jī)制保留前景對象的上下文、外觀和身份。NVIDIA在潛在空間擴(kuò)散模型中引入時間維度,將圖像生成器轉(zhuǎn)換為視頻生成器,實現(xiàn)視頻數(shù)據(jù)的時間對齊;在圖像上預(yù)訓(xùn)練LDM,然后在編碼的視頻上微調(diào)生成視頻;能夠?qū)崿F(xiàn)高達(dá)1280×2048分辨率的視頻生成。NVIDIA提出視頻擴(kuò)散噪聲先驗,更好地捕捉視頻幀之間的內(nèi)在聯(lián)系;采用一個由基礎(chǔ)模型和三個上采樣堆疊組成的級聯(lián)網(wǎng)絡(luò)架構(gòu);使用了DEIS及其隨機(jī)變體進(jìn)行樣本合成的先進(jìn)采樣技術(shù);小規(guī)模模型實現(xiàn)優(yōu)異性能,從文本嵌入生成高分辨率的視頻。請閱讀最后一頁免責(zé)聲明及信息披露14Sora、可靈等OpenAI、快手等使用文本條件擴(kuò)散模型,處理視頻和圖像的空間時間塊;訓(xùn)練了一個網(wǎng)絡(luò)來降低視覺數(shù)據(jù)的維度,輸入原始視頻并輸出壓縮的潛在表示;能夠生成一分鐘的高保真視頻,能實現(xiàn)視頻擴(kuò)展、視頻過渡,輸入視頻的風(fēng)格和環(huán)境的零樣本轉(zhuǎn)換。資料來源:CarlVondrick等《GeneratingVideoswithSceneDynamics》;SergeyTulyakov等KMoCoGAN:DecomposingMotionandContentAl+視頻發(fā)展以來,技術(shù)路徑和迭代產(chǎn)品冗雜繁多、功能不一、效果差異,我們選取目前海內(nèi)外市場主要的生成式視頻的參與者:LumaAI(DreamMachine)、Runway(Gen1-2&Gen-3Alpha)、Pika、Sora,集中梳理了其融資歷程、產(chǎn)品迭代、核心功能、實測效果比較等多方面,經(jīng)個別提示詞生成視頻效果測試,在Sora未公提示詞理解、視頻時長等諸多維度上表現(xiàn)均較為優(yōu)秀。圖9:2023年生成式Al+視頻時間表Gen-XOMeta@venturetwinsMagicHourPikaVispuHotshot③AdAssis-to-FullJour請閱讀最后一頁免責(zé)聲明及信息披露15LumaAI成立于2021年,2024年以其推出的文生視頻模型DreamMachine而得到全球投資視野的關(guān)注,但早期公司僅聚焦在3D內(nèi)容生成,23年11月,LumaAI在Discord服務(wù)器上推出了文生3D模型Genie,降低了集4300萬美元,B輪估值在2億到3億美元之間。官網(wǎng)顯示目前核心團(tuán)隊共34人,其中華人5位。LumaAIDreamMachine是一款由LumaAI開發(fā)的AI視頻生成模型,它能夠?qū)⑽谋竞蛨D像快速轉(zhuǎn)換為高質(zhì)圖10:LumaAIDreamMachine官網(wǎng)宣傳文生視頻功能請閱讀最后一頁免責(zé)聲明及信息披露16圖11:LumaAIDreamMachine官網(wǎng)宣傳前后幀輸入圖片生成連貫視頻功能圖12:LumaAIDreamMachine實測演示中會遇到不符合物理規(guī)律、物體對象缺失等問題running,rushedontothestageofacircusGrazingcowsmoveslowlyacrossanidyllicmeadow,thecameratrackingalongsidetheminasmoothside-anglemotionExtend↓Download6?斷創(chuàng)新,2024年推出新一代視頻生成模型Gen-3Alpha。據(jù)外媒TechCrunch報道,近期公司正籌劃新一輪融資4.5億美元,估值有望達(dá)到40億美元。時間估值A(chǔ)mplifyPartners領(lǐng)投,LuxCapital和CompoundVentures參投/B輪3500萬美元Coatue領(lǐng)投,所有現(xiàn)有投資者均參與其中:AmplifyPartners、LuxVentures和Compound/C輪5000萬美元Felicis領(lǐng)投,所有現(xiàn)有投資者均參與其中:AmplifyPartners、LuxCapital、Coatue和Compound/C+輪1.41億美元C輪融資增加1.41億美元,參與的投資者包括谷歌、NVIDIA、SalesforceVentures以及現(xiàn)有投資者等15億美元D輪(據(jù)TechCrunch報道)4.5億美元投資機(jī)構(gòu)包括GeneralAtlantic等40億美元Runway不同的定價模式:主要分為永久免費(fèi)基礎(chǔ)版、標(biāo)準(zhǔn)版、高級版、無限制版本和企業(yè)級版本服務(wù)。永久免費(fèi)版:用戶擁有一次性125個credits積分,gen-1(視頻到視頻)上傳最長為4s,gen-2(文生視頻和圖生視頻)通過延長視頻功能最長至16s等;標(biāo)準(zhǔn)版、高級版和無限制版本的差別在于每月積分的數(shù)額、gen-3的使用、水印的消除、資產(chǎn)庫數(shù)量、視頻質(zhì)量等方面。圖13:Runway產(chǎn)品定價模式andocontentcreationfeatures.Gen-1(VideotoVideo)uptsecviasubscriptiondate.BuymoreasneedUnlimitedvideoeditorprojects·TromagtopOlsnrtstroiunopcns·withplan)①geherators(itrainin·Creditsresetto2250erymonthstartingfrUpscaleresolutioninGen-1andGen-2Unlimitedvideoeditorproiects.500GBassetsAllvideoeditorexportsfromStandard.plusPNG&ProRevideoeditorconAllimageexportsfromStandard,plusPNG&ProRe·date.BuymoreasneededEQ\*jc3\*hps34\o\al(\s\up6(w),h)EQ\*jc3\*hps34\o\al(\s\up6(t),o)EQ\*jc3\*hps34\o\al(\s\up6(h),n)EQ\*jc3\*hps30\o\al(\s\up6(nraote),star)EQ\*jc3\*hps30\o\al(\s\up6(r),f)EQ\*jc3\*hps30\o\al(\s\up6(es),ro)·date.BuymoreasneededScalableforlargeorganizationsCustomcreditamounsegmentandAdvancedsecurityanterpdingrioritysuIntegrationwithinternaltoos請閱讀最后一頁免責(zé)聲明及信息披露18RunwayGen-1(VideotoVideo)在生成之前,可以預(yù)覽4個靜態(tài)幀以幫助調(diào)整設(shè)置。Gen-1最多可以生成15秒的視頻。在使用Gen-1生成型可以根據(jù)示例圖像或文本引導(dǎo)修改視頻。編輯完全在推理時執(zhí)行,無需額外的每個視頻的訓(xùn)練或預(yù)處理。Gen-1模型在大規(guī)模未配對視頻和配對的文本-圖像數(shù)據(jù)集上進(jìn)行訓(xùn)練。同時,產(chǎn)品展示了通過訓(xùn)練不mesmerizingportraitmesmerizingportraitFigure1.GuidedVideoSynthesisWepresentanapproachbasedonlatentvideodiffusionmodelsthatsynthesizesvideos(topandbottom)guidedbycontentdescribedthroughtext(top)orimages(bottom)whilekeepingthestructureofaninputvideo(middle).請閱讀最后一頁免責(zé)聲明及信息披露19圖15:RunwayGen-1視頻生視頻演示(左上為原始視頻,右上為預(yù)覽分鏡頭腳本,下圖為素描風(fēng)格的視頻轉(zhuǎn)換生成)圖16:RunwayGen-2文生視頻效果表現(xiàn)較好請閱讀最后一頁免責(zé)聲明及信息披露20圖17:RunwayGen-2圖生視頻效果及筆刷功能表現(xiàn)較好請閱讀最后一頁免責(zé)聲明及信息披露21圖19:RunwayGen-3Alpha兩端提示詞測試,效果較強(qiáng)萬人實現(xiàn)了創(chuàng)意構(gòu)想。Pika由斯坦福大學(xué)AILab的博士生郭文景和孟辰霖于2023年4月創(chuàng)立。2023年7月,領(lǐng)投Pika的3500萬美元A輪融資。在前期三輪融資中籌集了5500萬美元。2024年6月,Pika進(jìn)行了8000萬美元的B輪融資,使公司的總?cè)谫Y額達(dá)到1.35億美元。在Discord上進(jìn)行了秘密發(fā)布,發(fā)布了1.0版模型美金)、無限制版(每年336美金)的credits數(shù)量增加,延長4s視頻時長、無水印等;高級版(每年696美請閱讀最后一頁免責(zé)聲明及信息披露22圖20:Adobe產(chǎn)品中引入第三方視頻模型Pika優(yōu)化用戶體驗dobeFirflyPrivateBeta-PersonalUseyfxA006_C009.mov[V]圖21:Pika文生視頻界面及視頻編輯核心功能請閱讀最后一頁免責(zé)聲明及信息披露232024年2月16日,OpenAI在官網(wǎng)發(fā)布了創(chuàng)新性文生視頻模型-Sora。從官網(wǎng)展示的Sora生成視頻來看,在圖22:Sora合成的60秒視頻圖23:OpenAI擴(kuò)散模型過程請閱讀最后一頁免責(zé)聲明及信息披露24圖24:Sora可進(jìn)行多個視頻的組合about.”請閱讀最后一頁免責(zé)聲明及信息披露25圖27:RunwayGen-2生成效果(主角沒有跟隨鏡頭移動)請閱讀最后一頁免責(zé)聲明及信息披露RunwayGen-3Alpha上線時間2023.112024.06/實測綜合效果中低高暫未對外開放測試分辨率中低720p高/生成時長/單次延長時間3s/4s可選5s/10s最長60s物理規(guī)律中低高/提示詞理解高低高生成速度中高高其他主要能力提示詞加強(qiáng)、延長時間、首尾幀圖片生成等提示詞修改局部區(qū)域、改編視頻畫幅、人物添加表情視頻、添加音效等提示詞長度無限制、給人物添加表情視頻等請閱讀最后一頁免責(zé)聲明及信息披露產(chǎn)品定價免費(fèi)用戶每月可生成30條視標(biāo)準(zhǔn)版$23.99/月Pro高級版$79.99/月Premier最高級版$399.99$/月免費(fèi)用戶初始250積分,10積分可生成3s視頻;標(biāo)準(zhǔn)版$8/月Unlimited無限值版$28/月Pro高級版$58/月免費(fèi)用戶初始125積分標(biāo)準(zhǔn)版$12/月Pro高級版$28/月Unlimited無限制版$76/月企業(yè)級定制詳詢最新融資金額4300萬美元8000萬美元據(jù)外媒TheInformation報道為4.5億美元估值情況2-3億美元4.7億美元40億美元24.06全渠道應(yīng)用下載量/24.04-06網(wǎng)站擁擠度加總24.06平均月活用戶數(shù)半年達(dá)到500,000用戶ARR/2500萬美元估值指數(shù)=估假設(shè)55萬月活,付費(fèi)率10%,平均arpu30美金/月,則月收入為165萬美元,假設(shè)年收入為500萬美元,則2.5億美元/500萬美元=50x/40億美元/2500萬美元單活躍用戶估值指數(shù)2.5億美元/55萬=454.54.7億美元/50萬=94040億美元/32萬=12500表4:海內(nèi)外視頻生成產(chǎn)品單視頻所需價格比較(1美元=7.28人民幣)Alpha快手可靈剪映即夢愛詩科技PixverseV2虛擬道具/credits積分credits積分靈感值;靈感值10.87人民幣credits積分請閱讀最后一頁免責(zé)聲明及信息披露28免費(fèi)用戶10個視頻生成250初始積分,每日30積分無免費(fèi)版66個(24h過60積分(24h過期)100初始積分,每天50積分生成耗時5分鐘15分鐘+60s生成5s的720p視頻2-5分鐘1分鐘2-5分鐘單次視頻時長5s/10s3/6/9/12s單個視頻生成消耗單位虛擬道具數(shù)量付費(fèi)會員沒有生成視頻數(shù)量限制625積分=125sgen2視頻10個靈感值3積分15/30積分年基礎(chǔ)會員費(fèi)287.9美元/年96美元/年,每月獲得700積分+每天30積分,共1600積分144美元/年,每月獲得625積分限時基礎(chǔ)黃金會員396元/年,每月獲得660靈感值659元/年,每月獲得2020積分,每天贈送60積分,共3820積分48美元/年,每月獲得1000積分,每天獲得50積分,共2500積分會員每月可生成視頻數(shù)量150個1600/10=160個125/5=25個gen-2視頻660/10=66個3820/3=1273個2500/15=167個單條視頻生成所需價格0.16美元(1.17人民幣)0.05美元(0.364人民0.48美元(gen2,3.49人民幣)0.5元人民幣0.04元人民幣0.02美元(0.174人民快手一可靈AI(DiffusionTransformer架構(gòu))快手的大模型能力涵蓋了包括大語言模型、文生圖大模型、視頻生成大模型、音頻大模型、多模態(tài)大模型等核心技術(shù)方向,并基于快手豐富的業(yè)務(wù)場景,將生成式AI與多模態(tài)內(nèi)容理解、短視頻/直播創(chuàng)作、社交互動、商業(yè)化AIGC、創(chuàng)新應(yīng)用等業(yè)務(wù)形態(tài)深度結(jié)合??伸`大模型的更新迭代速度較快,當(dāng)視頻生成效果接近圖形渲染和視頻拍攝時,有望對游戲、動畫、泛視頻行業(yè)帶來新的機(jī)遇,有望促進(jìn)視頻平臺生態(tài)繁榮。1)自研“快意大模型”(KuaiYii)。13B、66B、175B三種參數(shù)規(guī)模,將大模型應(yīng)用于短視頻場景下。2)可圖大模型(KOLORS)。由快手大模型團(tuán)隊自研打造的文生圖大模型,具備強(qiáng)大的圖像生成能力,能夠基于開放式文本生成風(fēng)格多樣、畫質(zhì)精美、創(chuàng)意十足的繪畫作品?!翱蓤D”主打三大核心特性:深入的中文特色理解、長文本復(fù)雜語義理解及對齊人類審美的精美畫質(zhì),讓用戶低門檻創(chuàng)造高質(zhì)量圖像。3)可靈視頻生成大模型。2024年6月6日,快手大模型團(tuán)隊自研打造了視頻生成大模型一可靈,具備強(qiáng)大的視頻生成能力,讓用戶可以輕松高效地完成藝術(shù)視頻創(chuàng)作,包含文生視頻能力、圖生視頻能力及視頻續(xù)寫能力,后續(xù)有望上線視頻編輯功能??伸`視頻模型的重點(diǎn)方向在于:大幅度的合理運(yùn)動符合物理規(guī)律、長達(dá)2分鐘的視頻生成能力幀率且達(dá)到30fps、模擬物理世界特性、強(qiáng)大的概念組合能力、電影級別的畫面、支持自由的輸出視頻高寬比。在2024年世界人工智能大會上,快手可靈AI產(chǎn)品宣布全新升級:高清畫質(zhì)、首尾幀控制、單次生成10s、Web端上線、鏡頭控制。請閱讀最后一頁免責(zé)聲明及信息披露2950萬+可靈AI經(jīng)過我們長時間測試跟蹤,APP端的視頻生成效果十分出色,無論是在提示詞理解、物理規(guī)律控制、畫質(zhì)分辨率、生成速度時長、產(chǎn)品使用容易度和產(chǎn)品迭代升級速度上均表現(xiàn)較為亮眼,是國內(nèi)視頻生成大模型產(chǎn)品的頭部參與者。在APP端,用戶可以選擇參數(shù)設(shè)置:視頻時長5s/10s、高性能(生成速度更快,生成等待時長16、1:1)。舉例來看,下圖左上的提示詞:“木頭上長出了兩朵奇特的透明塑料花,花瓣閃閃發(fā)光,花瓣是淡紫色的,花瓣被風(fēng)吹動旁邊有一棵草在搖曳,氛圍光照”。左下圖的提示詞:“氛圍光照,抽象背景,黑貓警長在光怪陸離的路上行走”。右上圖提示詞:“高清畫質(zhì),四只帶著墨鏡的大熊貓在圍著一個用竹子編織的桌子周圍打撲克牌,同時悠閑的吃著竹子,喝著汽水?!闭堥喿x最后一頁免責(zé)聲明及信息披露30CINDASECURITIES2024年7月24日起,可靈A感值)、黃金會員(396元/年,每月獲得660靈感值,約生成3300張圖片或66個高性能視頻,包含去水印高質(zhì)量視頻生成、視頻延長、運(yùn)鏡升級功能)、鉑金會員(1596元/年,每月獲得3000靈感值,約生成15000石會員(3996元/年,每月獲得8000靈感值,同樣包含上述增值功能)。圖32:視頻續(xù)寫功能請閱讀最后一頁免責(zé)聲明及信息披露31信達(dá)證勞CINDASECURITIES圖33:美圖WheeAI生視頻功能愛詩科技Alsphere成立于2023年4月,海外版產(chǎn)品PixVerse于2024年1月正式上線,目前已是全球用戶量使輪融資,2024年3月公司完成億級人民幣A請閱讀最后一頁免責(zé)聲明及信息披露32信達(dá)證勞CINDASECURITIES2024年5月31日,PixVerse正式上線Magic2024年6月5日,國內(nèi)首張AI音樂專輯GxTxPx(偉大科技的造物)正式發(fā)布,部分單曲已在網(wǎng)易云平臺 圖34:Pixverse文生視頻(左圖為V1,右圖為V2)請閱讀最后一頁免責(zé)聲明及信息披露33圖35:即夢視頻生成功能頁面00-視頻生成04-1516:5andanimatedditysignage.Shewearsablackleatherjacket,alongreddress,andblackboots,andcariesablacklly.Thestreetisandreflective,creatingamiroreffectofthecolorfullights.Manypedestri圖36:即夢首尾幀土圖生視頻即夢-視頻生成07-1019:30即夢-視頻生成07-1019:30圖片生視頻文本生視頻首幀圖和尾幀圖,盡量都包含同樣的主體,并用文字隨機(jī)運(yùn)鏡運(yùn)動速度慢速適中快速2024年4月27日,在中關(guān)村論壇未來人工智能先鋒論壇上,生數(shù)科技聯(lián)合清華大學(xué)發(fā)布了具有“長時長、高一致性、高動態(tài)性”性能標(biāo)簽的視頻大模型Vidu,可根據(jù)文本描述直接生成長達(dá)16秒、分辨率達(dá)1080P的高清視可實現(xiàn)一次性生成16秒的視頻時長。同時,視頻畫面能保持連貫流暢,隨著鏡頭移動,人物和場景在時間、空景、特寫等鏡頭的切換,以及直接生成長鏡頭、追焦和轉(zhuǎn)場效果。技術(shù)路線上,Vidu采用的是自研U-ViT架構(gòu),請閱讀最后一頁免責(zé)聲明及信息披露34Volcanoes一直致力于機(jī)器學(xué)習(xí)算法和深度神經(jīng)網(wǎng)絡(luò)技術(shù)的研究。2024年3月7日,七火山Etna模型正式發(fā)圖38:Etna宣傳用的文生視頻效果 請閱讀最后一頁免責(zé)聲明及信息披露35CINDASECURITIESModelModel3RunwayPromptDrivingthroughthecityatnightfromthedriver'sview請閱讀最后一頁免責(zé)聲明及信息披露36CINDASECURITIES數(shù)量達(dá)到1000多萬,推出了一系列全球首創(chuàng)的生成功能,用戶每月制作超過300萬個視頻。2024年7月9日,Capital和AndreessenHorowitz也參與其中。新投資者包括AdobeVentures、HubSpotVentures和Jared戶無需從空白畫布開始。從三種視頻編輯風(fēng)格中選擇一種Impact、Cinem請閱讀最后一頁免責(zé)聲明及信息披露372024年7月,在世界人工智能大會上阿里巴巴達(dá)摩院最新發(fā)布了AIGC產(chǎn)品——尋光視頻創(chuàng)作平臺,旨在提升視頻制作效率,解決視頻后期編輯問題,通過簡易的分鏡頭組織形式和豐富的視頻編輯能力,讓用戶實現(xiàn)對視頻內(nèi)容的精準(zhǔn)控制,并保持多個視頻中角色和場景的一致性?!皩す狻敝荚跒橛脩籼峁┮徽臼降囊曨l創(chuàng)作工具,讓用戶回歸到關(guān)注視頻內(nèi)容本身是尋光致力于做的事情。目前主要功能包括:分鏡故事板一鍵創(chuàng)建、定制自己的故事角色、生成具備一致性的角色和場景畫面,再利用運(yùn)鏡控制、運(yùn)動編輯,創(chuàng)作AI視頻作品。同時,可以使用各類視頻編輯功能進(jìn)行修改,更有圖層拆解和融合功能,定制化視頻內(nèi)容,方便用戶利用AI創(chuàng)作高質(zhì)量、高一致性的故事視頻片段,而非幾十秒的創(chuàng)意AI視頻。圖43:阿里達(dá)摩院“尋光”一站式視頻創(chuàng)作平臺視頻編輯功能圖44:阿里達(dá)摩院“尋光”視頻素材創(chuàng)作功能請閱讀最后一頁免責(zé)聲明及信息披露38CINDASECURITIES2024年6月12日,美圖公司舉辦以“聊聊AI工作流”為主題的第三屆美圖影像節(jié),現(xiàn)場發(fā)布6款產(chǎn)品,其中包含了MOKI-用AI做短片。MOKI不做常規(guī)的文生視頻,而是聚焦在了AI短片創(chuàng)作,其中涉及到動畫短片、網(wǎng)視覺風(fēng)格、角色等前期設(shè)定;2)用AI生成分鏡圖,分鏡圖轉(zhuǎn)視頻;3)用臺詞驅(qū)動角色開口說話。圖45:美圖MOKIAIl短片產(chǎn)品我用AI做短片AI腳本視覺風(fēng)格選擇角色設(shè)計AI腳本視覺風(fēng)格選擇角色設(shè)計后期制作智能剪輯Al配樂Al音效自動字幕分鏡圖生成分鏡圖修改分鏡圖轉(zhuǎn)視頻視頻生視頻驅(qū)動角色說話MOKIAl短片工作流作視頻生視頻能剪輯Al樂型制型制作與編定材質(zhì)和紋理制作面富商湯Vimi——人物視頻生成大模型2024年7月,商湯科技在世界人工智能大會上發(fā)布了公司打造的首個可控人物視頻生成大模型——Vimi,Vimi基于商湯日日新大模型的強(qiáng)大能力,僅通過一張任意風(fēng)格的照片就能生成和目標(biāo)動作一致的人物類視頻,不僅能其在長視頻的情景下,能夠穩(wěn)定保持人物的臉部可控,可生成長達(dá)1分鐘以上的單鏡頭人物類視頻。Vimi在人Vimi可控人物視頻大模型體系的第一款C端產(chǎn)品,能夠滿足廣大女性用戶的娛樂創(chuàng)作需求。請閱讀最后一頁免責(zé)聲明及信息披露圖46:商湯Vimi人物視頻生成智向未來(HiDream.ai)一基于自研的DiT架構(gòu)的智智象未來(HiDream.ai),成立于2023年3月,其自主研發(fā)的視覺多模態(tài)基礎(chǔ)模型實現(xiàn)了不同模態(tài)之間的生成智象大模型2.0的整體升級,相較于1.0版本在底層架構(gòu)、訓(xùn)練數(shù)據(jù)和訓(xùn)練策略上均有質(zhì)的變化。2023年12月,智象大模型的文生視頻打破了4秒時長限制,做到了支持15秒鐘以上的生成時長,同時還支持4K畫質(zhì)。圖47:智象大模型升級2.0版本智象大模型1.0可變時長可變尺寸請閱讀最后一頁免責(zé)聲明及信息披露40圖48:智向未來即將上線一站式分鏡頭故事創(chuàng)作視頻生成功能場空間為630億美元,DocumentCloud市場空間為320億美元。相較其FY24Q2創(chuàng)意云收入31.26億美元,請閱讀最后一頁免責(zé)聲明及信息披露41·Continuedmomentumincreativejobgrowth·Increasingvaluethroughcollaboration·Expandingreachwithweb-firstcreativesolutions·Growingadoptionof3D&I·GrowthinAdobeStockadoption·MonetizationofvideocollaborationwithFrame.io·Explosivegrowthincreatoreconomy·Content-firstcreationforrangeofusecases·Easy-to-usetoolsfornon-procreators·Expandingreachwithweb&mobilecreativetools·Growthincontentcreationamongstudents,marketersandsmallbusinesses·AddressingneedsofphotoandvideoenthusiastsWeb-basedcreativetoolsforrange·Creativityasa21s*centuryskill~$41B標(biāo)總收入在214億美元到215億美元之間(上個季度指引:213億-215億美元)。預(yù)計年度新增數(shù)字媒體ARR約為19.5億美元,數(shù)字媒體部門收入在158億美元到158.5億美元之間。數(shù)字體驗部門收入預(yù)計在53.25億美元到53.75億美元之間,數(shù)字體驗訂閱收入在47.75億美元到48.25億美元之間。因此,2024年預(yù)估Adobe數(shù)字媒體業(yè)務(wù)營收市占率在16.6%-16.7%之間,數(shù)字體驗業(yè)務(wù)營收市占率在4.86%,兩個主要業(yè)務(wù)方向的長期營表5:Adobe數(shù)字媒體業(yè)務(wù)和數(shù)字體驗業(yè)務(wù)預(yù)估市占率2024年Adobe預(yù)估創(chuàng)意云+文檔云預(yù)計市場規(guī)模(十億美元)2024財年Adobe數(shù)字媒體部門(創(chuàng)意云+文檔云)預(yù)計收入(十億美Adobe數(shù)字媒體業(yè)務(wù)營收市占率請閱讀最后一頁免責(zé)聲明及信息披露422024年數(shù)字體驗業(yè)務(wù)預(yù)計市場規(guī)模(十億美元)2024財年Adobe數(shù)字體驗業(yè)務(wù)預(yù)計收入(十億美元)2024年4月AdobeExpress活躍用戶陡然爆發(fā)增長,根據(jù)第三方Sensortower數(shù)據(jù),應(yīng)用日活從12萬上下提升至70萬上下并呈現(xiàn)持續(xù)提升的趨勢,主要原因在于Adobe推出全新的AdobeExpress移動應(yīng)用程序,具有力,其主要功能包括文本生成圖像、生成填充、文本效果、文本到模板、為InstagramR頻等相關(guān)生成式AI功能,用戶數(shù)的增長側(cè)面驗證了Adobe產(chǎn)品在AI功能上的迭代準(zhǔn)確把握了用戶的痛點(diǎn)需求,公司宣布在24年內(nèi)PremierePro會推出一站式AI視頻生成剪輯功能,這一變化有望帶來ARR收入上的增長。圖50:AdobeExpress在24年4月迭代AI功能后,日活數(shù)驟然抬升并穩(wěn)定提高AAsbepesAY+469%+6984%圖51:AdobePremierePro引入第三方模型如Pika、OpenAI、Runway生成視頻片段滿足用戶一站式視頻剪輯需求請閱讀最后一頁免責(zé)聲明及信息披露43CINDASECURITIES2024年6月12日,美圖第三屆影像節(jié)上公布一組數(shù)據(jù):“在AI驅(qū)動下,美圖全球VIP會員數(shù)突破千萬”,從2023年6月19日的719萬提升至2024年6月12日的1063萬,同比增長幅度+47.8%。美圖公司聚焦“生產(chǎn)層和應(yīng)用層構(gòu)建的AI產(chǎn)品生態(tài)。2023年美圖實現(xiàn)總收入27億元,同比增長+29.3%。經(jīng)調(diào)整后歸母凈利潤3.7份圖片和視頻,約83%都用到了泛AI功能。2023年,美圖以付費(fèi)訂閱為主的影像與設(shè)計產(chǎn)品業(yè)務(wù)收入13.3億幅增長。截至2023年12月31日,美圖公司月活躍用戶數(shù)達(dá)2.5億,同比增長2.6%。美圖付費(fèi)訂閱用戶數(shù)超911萬,創(chuàng)歷史新高,同比增長62.3%,付費(fèi)率僅為3.64%,ARPU提升空間較大。Al視頻Al設(shè)計EQ\*jc3\*hps92\o\al(\s\up5(站),商用)EQ\*jc3\*hps92\o\al(\s\up5(酷),版)EQ\*jc3\*hps92\o\al(\s\up5(海洛),權(quán)平臺)底層站酷兵創(chuàng)創(chuàng)意營銷平臺應(yīng)用層站請閱讀最后一頁免責(zé)聲明及信息披露44商湯科技生成式人工智能相關(guān)業(yè)務(wù)在2023年的收入獲得200%增長,收入突破11.8億元人民幣。公司在國內(nèi)的生成式人工智能的算力儲備、人才儲備等維度上均屬于第一梯隊,公司目前以為B端客戶提供算力、大模型API調(diào)用為主,在AI技術(shù)上迭代發(fā)展較快。2024年7月在世界人工智能大會上,商湯科技打造的首個可控人物視頻生成大模型Vimi,以Vimi為例來探索商湯在垂直領(lǐng)域細(xì)分市場上的C端AI產(chǎn)品擴(kuò)張。我們認(rèn)為,AI視頻生成領(lǐng)域的難點(diǎn)在于創(chuàng)作人物形象的一致性和是否符合世界物理規(guī)律上。因暫未拿到實測資格,在Vimi微信公眾號的介紹中我們看到,Vimi基于商湯日日新大模型的強(qiáng)大能力,僅通過一張任意風(fēng)格的照片就能生成和目標(biāo)動作一致的人物類視頻,不僅能實現(xiàn)精準(zhǔn)的人物表情控制,還可實現(xiàn)在半身區(qū)域內(nèi)控制照片中人物自然肢體變化,通過已有人物視頻、動畫、聲音、文字等多種元素進(jìn)行驅(qū)動。Vimi模型主打在長視頻情景下能夠穩(wěn)定保持人物臉部可控,這有望適用于多領(lǐng)域創(chuàng)作。例如能夠滿足廣大女性用戶的娛樂創(chuàng)作需求。用戶只需上傳不同角度的高清人物圖片,即可自動生成數(shù)字分身和不同風(fēng)格的寫真視頻;對于熱衷表情包的用戶來說,Vimi通過單張圖片即可驅(qū)動生成各種趣味的人物表情包,同時還可支持聊天、唱歌、舞動等多種娛樂互動情景,在女性娛樂應(yīng)用市場中,用領(lǐng)先的AI技術(shù)打造垂直領(lǐng)域產(chǎn)品,有望打開公司的ToC端市場,同時也有望通過大量的用戶數(shù)據(jù)進(jìn)而反哺B端市場客戶的使用效果。圖53:Vimi在人物一致性功能支持下打造的數(shù)字分身打造AI視頻功能、AI表情包功能Vimi打造屬于你的AI視頻大片作為國內(nèi)短視頻內(nèi)容頭部公司,均對應(yīng)推出了其視頻剪輯類軟件—快手快影和抖音剪映,目前快影已經(jīng)集成了快手可靈視頻大模型的文生視頻和圖生視頻功能,后續(xù)有望迭代至AI視頻剪輯功能;剪映也推出了AI創(chuàng)作產(chǎn)品Dreamina(即夢),同時剪映內(nèi)部目前也已經(jīng)上線了諸多AI功能,例如一鍵成片、AI廣告營銷等??梢钥吹饺粼谝曨l剪輯領(lǐng)域做到極強(qiáng)產(chǎn)品力,同樣有望提升用戶付費(fèi)率,帶來商業(yè)化變現(xiàn)程度的提升??焓挚伸`快手可靈視頻大模型的效果得到廣泛的市場認(rèn)可關(guān),相比快影的月活數(shù)據(jù)近200萬來看,已經(jīng)有了較高的占比,累計生成的視頻作品高達(dá)700萬份??焓挚伸`請閱讀最后一頁免責(zé)聲明及信息披露45年有超過1.38億用戶首次在快手平臺發(fā)布短視頻、2023年堅持365天在快手每天發(fā)視頻的創(chuàng)作者人數(shù)高達(dá)61%、2023年有超過2200萬創(chuàng)作者在快手平臺獲得收入、2023年第三季度快手搜索平均月活躍用戶數(shù)達(dá)到產(chǎn)品產(chǎn)品定價年訂閱費(fèi)快影(內(nèi)嵌可靈)88元/年剪映(包含海外全渠道)3.2億499元/年YouTube等短視頻平臺崛起,據(jù)Statista相關(guān)數(shù)據(jù)顯示,2030年全球移動營銷市場規(guī)模達(dá)預(yù)計將達(dá)到57易點(diǎn)天下:2023年旗下AIGC數(shù)字營銷創(chuàng)作平10億到追求30-50億,甚至未來的100個億;2)更多AINative,持續(xù)提高AI的占比、濃度和含金量,將人工因賽集團(tuán):公司旗下AIGC營銷產(chǎn)品—InsightGPT繼3月初推出圖生視頻產(chǎn)品后,再度聚焦AI視頻創(chuàng)作領(lǐng)域請閱讀最后一頁免責(zé)聲明及信息披露47活躍用戶超過1億。2023全年超300萬UP主在B站獲得收入,同比增長超30%。2024年第一季度,B站日12個月留存率近80%。大會員付費(fèi)用戶數(shù)據(jù)為2190萬,其中超過80%為年度訂閱或自動續(xù)訂用戶。海量的創(chuàng)表7:相關(guān)公司提供視頻數(shù)據(jù)用于訓(xùn)練多模態(tài)大模型公司國內(nèi)外流媒體平臺、電影視頻制作公司均積累了海量視頻素材,在前期的生成式Al+視頻的技術(shù)迭代發(fā)展中,優(yōu)質(zhì)的視頻數(shù)據(jù)對于模型質(zhì)量的訓(xùn)練優(yōu)化顯得至關(guān)重要。捷成股份與華為云簽署協(xié)議共同建設(shè)視頻大模型。捷成股份憑借十多年來積累的20萬小時影視視聽節(jié)目素材和通過數(shù)據(jù)清洗來為華為云投入高質(zhì)量數(shù)據(jù)集,授權(quán)華為用于視頻大模型訓(xùn)練。華為方面投入基礎(chǔ)模型、算力、模型優(yōu)化與專業(yè)服務(wù)等。24年3月,捷成自主研發(fā)的AI智能創(chuàng)作引擎ChatPV正式發(fā)布,并接入華為云盤古大模型的通用語言解析能力,服務(wù)于AI視頻創(chuàng)作應(yīng)用。視覺中國2023年10月,視覺中國與華為云正式簽署關(guān)于

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論