2024計(jì)算機(jī)行業(yè):Sora技術(shù)深度解析_第1頁(yè)
2024計(jì)算機(jī)行業(yè):Sora技術(shù)深度解析_第2頁(yè)
2024計(jì)算機(jī)行業(yè):Sora技術(shù)深度解析_第3頁(yè)
2024計(jì)算機(jī)行業(yè):Sora技術(shù)深度解析_第4頁(yè)
2024計(jì)算機(jī)行業(yè):Sora技術(shù)深度解析_第5頁(yè)
已閱讀5頁(yè),還剩16頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

華福證券證券研究報(bào)告|行業(yè)專題報(bào)告計(jì)算機(jī)行業(yè)行業(yè)評(píng)級(jí)

強(qiáng)于大市(維持評(píng)級(jí))2024年2月25日Sora技術(shù)深度解析證券分析師:施曉俊

執(zhí)業(yè)證書(shū)編號(hào):S0210522050003研究助理:李楊玲王

思請(qǐng)務(wù)必閱讀報(bào)告末頁(yè)的重要聲明華福證券投資要點(diǎn)

Sora橫空出世引領(lǐng)多模態(tài)產(chǎn)業(yè)革命。美國(guó)時(shí)間2月15日,文生視頻大模型Sora橫空出世,能夠根據(jù)文本指令或靜態(tài)圖像生成1分鐘的視頻。其中,視頻生成包含精細(xì)復(fù)雜的場(chǎng)景、生動(dòng)的角色表情以及復(fù)雜的鏡頭運(yùn)動(dòng),同時(shí)也接受現(xiàn)有視頻擴(kuò)展或填補(bǔ)缺失的幀??傮w而言,不管是在視頻的保真度、長(zhǎng)度、穩(wěn)定性、一致性、分辨率、文字理解等方面,Sora都做到了業(yè)內(nèi)領(lǐng)先水平,引領(lǐng)多模態(tài)產(chǎn)業(yè)革命。此外,當(dāng)

Sora訓(xùn)練的數(shù)據(jù)量足夠大時(shí),它也展現(xiàn)出了一種類似于涌現(xiàn)的能力,從而使得視頻生成模型具備了類似于物理世界通用模擬器的潛力。

拆解視頻生成過(guò)程,技術(shù)博采眾長(zhǎng)或奠定了Sora文生視頻領(lǐng)軍地位。從技術(shù)報(bào)告中,Sora視頻生成過(guò)程大致由“視頻編碼+加噪降噪+視頻解碼”三個(gè)步驟組成,視頻壓縮網(wǎng)絡(luò)、時(shí)空patches、transformer架構(gòu)、視頻數(shù)據(jù)集等技術(shù)與資源在其中發(fā)揮了重要作用。視頻壓縮網(wǎng)絡(luò):過(guò)往VAE應(yīng)用于視頻領(lǐng)域通常需插入時(shí)間層,Sora從頭訓(xùn)練了能直接壓縮視頻的自編碼器,可同時(shí)實(shí)現(xiàn)時(shí)間和空間的壓縮,既節(jié)省算力資源,又最大程度上保留視頻原始信息,或?yàn)镾ora生成長(zhǎng)視頻的關(guān)鍵因素,并為后續(xù)處理奠定基礎(chǔ)。時(shí)空patches:1)同時(shí)考慮視頻中時(shí)間和空間關(guān)系,能夠捕捉到視頻中細(xì)微的動(dòng)作和變化,在保證視頻內(nèi)容連貫性和長(zhǎng)度的同時(shí),創(chuàng)造出豐富多樣的視覺(jué)效果;2)突破視頻分辨率、長(zhǎng)寬比等限制的同時(shí)顯著提升模型性能,節(jié)約訓(xùn)練與推理算力成本。Transformer架構(gòu):1)相比于U-Net架構(gòu),transformer突顯ScalingLaw下的“暴力美學(xué)”,即參數(shù)規(guī)模越大、訓(xùn)練時(shí)長(zhǎng)越長(zhǎng)、訓(xùn)練數(shù)據(jù)集越大,生成視頻的效果更好;2)此外,在transformer大規(guī)模訓(xùn)練下,逐步顯現(xiàn)出規(guī)模效應(yīng),迸發(fā)了模型的涌現(xiàn)能力。視頻數(shù)據(jù)集:Sora或采用了更豐富的視頻數(shù)據(jù)集,在原生視頻的基礎(chǔ)上,將DALL?E3的re-captioning技術(shù)應(yīng)用于視頻領(lǐng)域,同時(shí)利用GPT保障文字-視頻數(shù)據(jù)集質(zhì)量,使得模型具有強(qiáng)大的語(yǔ)言理解能力。投資建議:我們認(rèn)為,在視頻壓縮網(wǎng)絡(luò)與時(shí)空patches提高計(jì)算效率與利用原生視頻信息的基礎(chǔ)上,transformer或取代U-Net成為擴(kuò)散模型主流架構(gòu)??赏卣剐愿鼜?qiáng)的transformer需要更為有力的算力支持才能保障視頻生成質(zhì)量,同時(shí)相比于大語(yǔ)言模型,視覺(jué)數(shù)據(jù)的訓(xùn)練與推理算力需求更大,因而算力有望成為確定性最高的受益賽道。此外,Sora發(fā)布有望形成多模態(tài)產(chǎn)業(yè)“鲇魚(yú)效應(yīng)”,激勵(lì)其他多模態(tài)廠商的良性發(fā)展。建議關(guān)注:1)AI算力:云賽智聯(lián)、思特奇、恒為科技、海光信息、寒武紀(jì)、景嘉微、中科曙光、浪潮信息、拓維信息、四川長(zhǎng)虹、工業(yè)富聯(lián)、神州數(shù)碼等;2)AI+多模態(tài):萬(wàn)興科技、虹軟科技、當(dāng)虹科技、中科創(chuàng)達(dá)、大華股份、??低?、漫步者、螢石網(wǎng)絡(luò)、漢儀股份、美圖公司、云從科技。

風(fēng)險(xiǎn)提示:技術(shù)發(fā)展不及預(yù)期、產(chǎn)品落地不及預(yù)期、AI倫理風(fēng)險(xiǎn)等。2華福證券目錄

1.Sora引領(lǐng)多模態(tài)革命,技術(shù)與資源突顯優(yōu)勢(shì)

2.博采眾長(zhǎng),Sora技術(shù)開(kāi)拓創(chuàng)新

3.投資建議

4.風(fēng)險(xiǎn)提示3華福證券1.1Sora橫空出世,引領(lǐng)多模態(tài)產(chǎn)業(yè)革命圖表:Sora和其他模型優(yōu)勢(shì)對(duì)比總覽

美國(guó)時(shí)間2月15日,文生視頻大模型Sora橫空出世,能夠根據(jù)文本指令或靜態(tài)圖像生成1分鐘的視頻。其中,視頻生成包含精細(xì)復(fù)雜的場(chǎng)景、生動(dòng)的角色表情以及復(fù)雜的鏡頭運(yùn)動(dòng),同時(shí)也接受現(xiàn)有視頻擴(kuò)展或填補(bǔ)缺失的幀。總體而言,不管是在視頻的保真度、長(zhǎng)度、穩(wěn)定性、一致性、分辨率、文字理解等方面,Sora都做到了業(yè)內(nèi)領(lǐng)先水平,引領(lǐng)多模態(tài)產(chǎn)業(yè)革命。此外,當(dāng)

Sora訓(xùn)練的數(shù)據(jù)量足夠大時(shí),它也展現(xiàn)出了一種類似于涌現(xiàn)的能力,從而使得視頻生成模型具備了類似于物理世界通用模擬器的潛力。圖表:Sora與業(yè)內(nèi)主流視頻生成模型對(duì)比公司名稱生成功能文生視頻圖生視頻視頻生視頻文生視頻圖生視頻文生視頻圖生視頻文生視頻圖生視頻視頻生視頻圖生視頻文生視頻圖生視頻視頻生視頻最長(zhǎng)時(shí)長(zhǎng)時(shí)長(zhǎng)可延展相機(jī)控制(平移/變焦)動(dòng)作控制Runway4S√√√Pika3S6S√√√√√Genmo×KaiberStabilitySora16S4S××√××√×√√60S4資料來(lái)源:datalearner,新浪新聞圖數(shù)室,華福證券研究所資料來(lái)源:datalearner,新浪新聞圖數(shù)室,華福證券研究所華福證券1.2Sora視頻生成過(guò)程:視頻編碼+加噪降噪+視頻解碼從技術(shù)報(bào)告中,Sora視頻生成過(guò)程大致由以下三個(gè)步驟組成:

視頻編碼:VisualEncoder將原始視頻壓縮為低維潛在空間,再將視頻分解為時(shí)空patches后拉平為系列視頻token以供transformer處理。

加噪降噪:在transfomer架構(gòu)下的擴(kuò)散模型中,時(shí)空patches融合文本條件化,先后經(jīng)過(guò)加噪和去噪,以達(dá)到可解碼狀態(tài)。視頻解碼:將去噪后的低維潛在表示映射回像素空間??傮w而言,我們認(rèn)為Sora技術(shù)報(bào)告雖未能詳盡闡述視頻生成技術(shù)細(xì)節(jié),但從參考技術(shù)文獻(xiàn)中,可初步窺探出時(shí)空patches、視頻壓縮網(wǎng)絡(luò)、

Transformer技術(shù)架構(gòu)、獨(dú)特文本標(biāo)注視頻數(shù)據(jù)集等技術(shù)與資源優(yōu)勢(shì),這些或?yàn)镾ora占據(jù)業(yè)內(nèi)領(lǐng)先地位的原因。圖表:Sora視頻生成過(guò)程圖圖表:Sora技術(shù)架構(gòu)猜想視頻編碼加噪降噪視頻解碼5資料來(lái)源:魔塔ModelScope社區(qū),華福證券研究所華福證券目錄

1.Sora引領(lǐng)多模態(tài)革命,技術(shù)與資源突顯優(yōu)勢(shì)

2.博采眾長(zhǎng),Sora技術(shù)開(kāi)拓創(chuàng)新

3.投資建議

4.風(fēng)險(xiǎn)提示6華福證券2.1視頻壓縮網(wǎng)絡(luò)實(shí)現(xiàn)降維,或?yàn)殚L(zhǎng)視頻生成基礎(chǔ)

OpenAI訓(xùn)練了降低視覺(jué)數(shù)據(jù)維度的網(wǎng)絡(luò),該網(wǎng)絡(luò)接受原始視頻作為輸入,并輸出在時(shí)間和空間上都被壓縮的潛在表示。Sora在這個(gè)壓縮的潛在空間上進(jìn)行訓(xùn)練,并隨后生成視頻。與之對(duì)應(yīng),Sora訓(xùn)練了相應(yīng)的解碼器模型,將生成的潛在表示映射回像素空間。壓縮網(wǎng)絡(luò)本質(zhì)上是將高維數(shù)據(jù)映射至低維空間,低維空間中每個(gè)點(diǎn)通常對(duì)應(yīng)原始高維數(shù)據(jù)的潛在表示,在復(fù)雜性降低和細(xì)節(jié)保留之間達(dá)到最優(yōu)平衡點(diǎn),實(shí)現(xiàn)提升視覺(jué)保真度的同時(shí)降低算力資源消耗的作用。VAE為圖片生成領(lǐng)域的常見(jiàn)圖片編碼器,應(yīng)用到視頻領(lǐng)域則需要加入時(shí)間維度以形成視頻框架。例如,2023年發(fā)布的VideoLDM通過(guò)將視頻拆解為每一幀,之后插入時(shí)間對(duì)齊層,從而實(shí)現(xiàn)了視頻生成。Sora從頭訓(xùn)練了能直接壓縮視頻的自編碼器,既能實(shí)現(xiàn)空間壓縮圖像,又能在時(shí)間上壓縮視頻。我們認(rèn)為,在時(shí)空維度上壓縮視頻,既節(jié)省了算力資源,又最大程度上保留視頻原始信息,或?yàn)镾ora生成60s長(zhǎng)視頻的關(guān)鍵因素,并為后續(xù)時(shí)空patches和transfomer架構(gòu)處理奠定基礎(chǔ)。圖表:VAE技術(shù)原理圖,由編碼器和解碼器組成圖表:VideoLDM在圖片編碼器基礎(chǔ)上加入時(shí)間維度資料來(lái)源:Medium,TowardsDataScience,華福證券研究所資料來(lái)源:Blattmannetal.《AlignyourLatents:High-ResolutionVideoSynthesis7withLatentDiffusionModels》,華福證券研究所華福證券2.2時(shí)空patches統(tǒng)一視頻分割,奠定處理和理解復(fù)雜視覺(jué)內(nèi)容的基石

Sora借鑒LLM中將文本信息轉(zhuǎn)化為token的思路,針對(duì)視頻訓(xùn)練視覺(jué)patch,實(shí)現(xiàn)視覺(jué)數(shù)據(jù)模型的統(tǒng)一表達(dá),實(shí)現(xiàn)對(duì)多樣化視頻和圖像內(nèi)容的有效處理和生成,之后通過(guò)視頻壓縮網(wǎng)絡(luò)分解為時(shí)空patches,允許模型在時(shí)間和空間范圍內(nèi)進(jìn)行信息交換和操作。

從Sora技術(shù)報(bào)告來(lái)看,時(shí)空patches或借鑒谷歌ViViT操作。ViViT借鑒ViT在圖片分割上的思路,把輸入的視頻劃分成若干個(gè)tuplet,每個(gè)tuplet會(huì)變成一個(gè)token,經(jīng)過(guò)spatialtemperalattention進(jìn)行空間和時(shí)間建模獲得有效的視頻表征token。

傳統(tǒng)方法可能將視頻簡(jiǎn)單分解為一系列連續(xù)的幀,因而忽略了視頻中的空間信息,也就是在每一幀中物體的位置和運(yùn)動(dòng)。我們認(rèn)為,由于連續(xù)幀存在時(shí)空連續(xù)性,Sora的時(shí)空patches可同時(shí)考慮視頻中時(shí)間和空間關(guān)系,能夠更加精準(zhǔn)生成視頻,捕捉到視頻中細(xì)微的動(dòng)作和變化,在保證視頻內(nèi)容連貫性和長(zhǎng)度的同時(shí),創(chuàng)造出豐富多樣的視覺(jué)效果,靈活滿足用戶的各種需求。圖表:ViViT將視頻劃分為若干tuplet圖表:ViViT可利用時(shí)空tuplet在時(shí)空聯(lián)合建模8資料來(lái)源:GoogleResearch《ViViT:AVideoVisionTransformer》,華福證券研究所華福證券2.2Sora時(shí)空patches突破視頻長(zhǎng)寬比、分辨率等限制圖表:ViT需調(diào)整圖像為標(biāo)準(zhǔn)尺寸并分解為固定數(shù)量patches

OpenAI表示,過(guò)去的圖像和視頻生成方法通常會(huì)將視頻調(diào)整大小、裁剪或修剪為標(biāo)準(zhǔn)尺寸,而這損耗了視頻生成的質(zhì)量。例如,ViT通常需要將圖像調(diào)整為固定的分辨率與尺寸進(jìn)行處理,并僅能分解為固定數(shù)量的patches,因而限制了靈活處理不同尺寸、分辨率視頻的建模。Sora或借鑒谷歌NaViT中“Patchn’Pack”的方法,在訓(xùn)練效率、模型適應(yīng)性和推理靈活性等方面具有顯著優(yōu)勢(shì)。

1)允許從不同圖像中提取多個(gè)patch打包在一個(gè)序列中,從而實(shí)現(xiàn)可變分辨率并保持寬高比。2)NaViT相比ViT具有較高計(jì)算性能。例如,使用四倍少的計(jì)算量,NaViT到達(dá)頂級(jí)ViT的性能。此外,NaViT可以在訓(xùn)練和微調(diào)過(guò)程中處理多種分辨率的圖像,從而在各種分辨率下都能表現(xiàn)出優(yōu)秀的性能,在推理成本方面給NaViT帶來(lái)了顯著的優(yōu)勢(shì)。

我們認(rèn)為,經(jīng)過(guò)patch化之后,Sora無(wú)需對(duì)數(shù)據(jù)進(jìn)行裁剪,就能夠?qū)Σ煌直媛?、持續(xù)時(shí)間和長(zhǎng)寬比的視頻和圖像的原始數(shù)據(jù)進(jìn)行訓(xùn)練,既極大程度上利用原始信息保障生成高質(zhì)量圖片或視頻,又顯著提升模型性能,節(jié)約訓(xùn)練與推理算力成本。資料來(lái)源:GoogleResearch,BrainTeam《ANIMAGEISWORTH16X16WORDS:TRANSFORMERSFORIMAGERECOGNITIONATSCALE》,華福證券研究所圖表:NaViT突破分辨率、寬高比限制圖表:NaViT相比ViT具有顯著的計(jì)算性能資料來(lái)源:GoogleDeepMind《Patchn’Pack:NaViT,aVisionTransformerforanyAspectRatioandResolution》,華福證券研究所資料來(lái)源:GoogleDeepMind《Patchn’Pack:NaViT,aVisionTrans9formerforanyAspectRatioandResolution》,華福證券研究所華福證券2.2Sora時(shí)空patches突破視頻長(zhǎng)寬比、分辨率等限制根據(jù)技術(shù)報(bào)告,Sora在原視頻訓(xùn)練有以下優(yōu)勢(shì):

采樣靈活性:Sora可以采樣寬屏1920x1080p視頻、豎屏1080x1920視頻以及介于兩者之間的所有格式。這使得Sora能夠直接按照不同設(shè)備的原生寬高比創(chuàng)建內(nèi)容。它還允許在使用同一模型生成全分辨率內(nèi)容之前,快速原型化較小尺寸的內(nèi)容。

改進(jìn)的構(gòu)圖和畫(huà)面組成:將Sora與一個(gè)版本的模型進(jìn)行了比較,該模型將所有訓(xùn)練視頻裁剪成正方形。在正方形裁剪上訓(xùn)練的模型有時(shí)會(huì)生成主體只部分出現(xiàn)在視野中的視頻。相比之下,來(lái)自Sora的視頻具有改善的取景。圖表:Sora采樣具有較高靈活性圖表:Sora改進(jìn)的構(gòu)圖和畫(huà)面組成(右圖)10資料來(lái)源:OpenAI,華福證券研究所華福證券2.3Transformer架構(gòu)突顯ScallingLaw的“暴力美學(xué)”

擴(kuò)散模型定義了擴(kuò)散步驟的馬爾科夫鏈,先通過(guò)向真實(shí)數(shù)據(jù)添加隨機(jī)噪聲,后反向?qū)W習(xí)擴(kuò)散過(guò)程,從噪聲中構(gòu)建所需數(shù)據(jù)的樣本,逐步降噪輸出圖片或視頻。其中,U-Net為擴(kuò)散模型的重要架構(gòu)之一,通過(guò)訓(xùn)練U-Net預(yù)測(cè)噪聲,逐步去噪后輸入結(jié)果。

U-Net為卷積神經(jīng)網(wǎng)絡(luò)模型(CNN),在視頻生成領(lǐng)域存在需裁剪數(shù)據(jù)與額外引入時(shí)間層等缺陷。

1)卷積神經(jīng)網(wǎng)絡(luò)由于架構(gòu)限制,存在分辨率與長(zhǎng)寬比約束,輸入與輸出的結(jié)果均需調(diào)整至標(biāo)準(zhǔn)化大小,可能產(chǎn)生性能損失與效率低下等問(wèn)題。

2)U-Net的去噪模型在處理視頻數(shù)據(jù)時(shí),需額外加入一些和時(shí)間維度有關(guān)的操作,比如時(shí)間維度上的卷積、自注意力。在該過(guò)程涉及到時(shí)間注意力塊嵌入位置問(wèn)題,因而或較難處理長(zhǎng)視頻較多幀數(shù)的時(shí)間嵌入。圖表:基于U-Net架構(gòu)的DDPM模型圖表:加入時(shí)間注意力塊的3DU-Net降噪加噪資料來(lái)源:SemanticScholar,

Caoetal.《ASurveyonGenerativeDiffusionModel》

,華福證券研究所資料來(lái)源:

Hoetal.《VideoDiffusionModels》

,華福證券研究所11華福證券2.3Transformer架構(gòu)突顯ScallingLaw的“暴力美學(xué)”O(jiān)penAI在

2020年首次提出了模型訓(xùn)練的秘訣——ScalingLaw。根據(jù)

ScalingLaw,模型性能會(huì)在大算力、大參數(shù)、圖表:DiT中將圖片分解為圖片塊

大數(shù)據(jù)的基礎(chǔ)上像摩爾定律一樣持續(xù)提升,不僅適用于語(yǔ)言模型,也適用于多模態(tài)模型。

Sora替換U-Net為DiT的transformer作為模型架構(gòu),具有兩大優(yōu)勢(shì):1)transformer可將輸入視頻分解為3Dpatch,類似DiT將圖片分解為圖塊,不僅突破了分辨率、尺寸等限制,而且能夠同時(shí)處理時(shí)間和空間多維信息;

2)transformer延續(xù)了OpenAI的ScalingLaw,具有較強(qiáng)的可拓展性,即參數(shù)規(guī)模越大、訓(xùn)練時(shí)長(zhǎng)越長(zhǎng)、訓(xùn)練數(shù)據(jù)集越大,生成視頻的效果更好。例如,Sora隨著訓(xùn)練次數(shù)的增加,小狗在雪地里的視頻質(zhì)量顯著提升。U-Net為擴(kuò)散模型主導(dǎo)架構(gòu),主要系Transformer中全注意力機(jī)制的內(nèi)存需求會(huì)隨輸入序列長(zhǎng)度而二次方增長(zhǎng),高分辨率圖像處理能力不足。在處理視頻這樣的高維信號(hào)時(shí),這樣的增長(zhǎng)模式會(huì)讓計(jì)算成本變得非常高。然而,我們認(rèn)為,OpenAI背靠微軟云計(jì)算資源,具有較強(qiáng)的算力稟賦支持其再次打造“ChatGPT”時(shí)刻的Sora,此外通過(guò)視頻網(wǎng)絡(luò)空間降維技術(shù)可起到節(jié)約算力資源的作用,進(jìn)一步促成Sora的成功與鞏固O(píng)penAI的龍頭地位。資料來(lái)源:Peebles&Xie《ScalableDiffusionModelswithTransformers》,華福證券研究所圖表:采用transformer架構(gòu)的DiT圖表:隨著計(jì)算次數(shù)增加Sora生成的視頻質(zhì)量明顯提升12資料來(lái)源:Peebles&Xie《ScalableDiffusionModelswithTransformers》,華福證券研究所資料來(lái)源:OpenAI,華福證券研究所華福證券2.3Sora在Transformer大規(guī)模訓(xùn)練下涌現(xiàn)模擬能力

Sora在大規(guī)模訓(xùn)練的“暴力美學(xué)”下,未經(jīng)過(guò)明確的3D、物體等歸納信息的訓(xùn)練,逐步顯現(xiàn)出規(guī)模效應(yīng),迸發(fā)了模型的涌現(xiàn)能力:3D一致性:Sora能夠生成具有動(dòng)態(tài)相機(jī)運(yùn)動(dòng)的視頻。隨著相機(jī)的移動(dòng)和旋轉(zhuǎn),人物和場(chǎng)景元素在三維空間中保持一致地移動(dòng)。長(zhǎng)距離連貫性和物體持久性:Sora通常能夠有效地建模短距離和長(zhǎng)距離依賴關(guān)系。例如,即使在人、動(dòng)物和物體被遮擋或離開(kāi)畫(huà)面時(shí),也能持續(xù)保持它們的存在;在單個(gè)樣本中生成同一角色的多個(gè)鏡頭,并在整個(gè)視頻中保持其外觀。

與世界互動(dòng):Sora有時(shí)可以模擬一些簡(jiǎn)單的動(dòng)作來(lái)影響世界的狀態(tài)。例如,畫(huà)家可以在畫(huà)布上留下隨時(shí)間持續(xù)存在的新筆觸,或者一個(gè)人可以吃一個(gè)漢堡并留下咬痕。模擬數(shù)字世界:Sora可以在同時(shí)控制《我的世界》中的玩家采用基本策略的同時(shí),還能以高保真度渲染世界及其動(dòng)態(tài)。圖表:3D一致性圖表:長(zhǎng)距離連貫性和物體持久性圖表:與世界互動(dòng)圖表:模擬數(shù)字世界13資料來(lái)源:OpenAI,華福證券研究所華福證券2.4數(shù)據(jù)來(lái)源或更為豐富,視頻重標(biāo)注技術(shù)展示強(qiáng)大語(yǔ)言理解能力圖表:DALL·E3利用文本重新標(biāo)注技術(shù)渲染更好結(jié)果

缺乏豐富的視頻數(shù)據(jù)集以及如何對(duì)視頻標(biāo)注文本為文生視頻的主要難點(diǎn)之一。從流行的Gen-2、EmuVideo等應(yīng)用來(lái)看,這些模型通常先利用CLIP技術(shù)訓(xùn)練生成文本-圖像對(duì),之后加入時(shí)間層對(duì)視頻進(jìn)行標(biāo)注,因而或許面臨視頻數(shù)據(jù)質(zhì)量保證問(wèn)題。

Sora訓(xùn)練數(shù)據(jù)集具有如下特點(diǎn):數(shù)據(jù)來(lái)源或更為豐富。Sora技術(shù)報(bào)告未披露訓(xùn)練數(shù)據(jù)的詳細(xì)情況,而我們認(rèn)為從其涌現(xiàn)能力表現(xiàn)來(lái)看,Sora在訓(xùn)練數(shù)據(jù)中或許容納了眾多電影、紀(jì)錄片、甚至游戲引擎等合成數(shù)據(jù)。

原生視頻處理。不對(duì)視頻/圖片進(jìn)行裁剪等預(yù)處理,從而保證Sora生成的靈活性。Sora建立在過(guò)去DALL?E3和GPT模型的研究基礎(chǔ)之上,構(gòu)建視頻re-captioning,使得模型具有強(qiáng)大的語(yǔ)言理解能力。原始的文本可能并不能很好的描述視頻,可以通過(guò)re-captioning的方式為視覺(jué)訓(xùn)練數(shù)據(jù)生成高度描述性的字幕。因此,該模型能夠在生成的視頻中更忠實(shí)地遵循用戶的文字提示。資料來(lái)源:Betkeretal.《ImprovingImageGenerationwithBetterCaptions》,華福證券研究所圖表:主流文生視頻模型數(shù)據(jù)集情況圖表:Sora根據(jù)文本說(shuō)明生成高質(zhì)量視頻公司產(chǎn)品推出時(shí)間

模型架構(gòu)數(shù)據(jù)集文本條件生成方法2.4億張圖片640萬(wàn)視頻片段RunwayGen-22023.06擴(kuò)散模型

U-NetCLIP3400萬(wàn)視頻-文本MetaEmuVideo2023.11擴(kuò)散模型

U-Net2023.11擴(kuò)散模型CLIP對(duì)StabilityAIStableVideoDiffusionCoCa、V-BLIP、LLM、CLIP6億個(gè)樣本數(shù)據(jù)集資料來(lái)源:澎湃、AI新智界,量子位,Runway《StructureandContent-GuidedVideoSynthesiswithDiffusionModels》,GenAI,Meta《EMUVIDEO:FactorizingText-to-VideoGenerationbyExplicitImageConditioning》StabilityAI《StableVideoDiffusion:ScalingLatentVideoDiffusionModelstoLargeDatasets》,華福證券研究所14資料來(lái)源:OpenAI,華福證券研究所華福證券目錄

1.Sora引領(lǐng)多模態(tài)革命,技術(shù)與資源突顯優(yōu)勢(shì)2.博采眾長(zhǎng),Sora技術(shù)開(kāi)拓創(chuàng)新3.投資建議4.風(fēng)險(xiǎn)提示15華福證券3投資建議

我們認(rèn)為,在視頻壓縮網(wǎng)絡(luò)與時(shí)空patches提高計(jì)算效率與利用原生視頻信息的基礎(chǔ)上,transformer或取代U-Net成為擴(kuò)散模型主流架構(gòu)??赏卣剐愿鼜?qiáng)的transformer需要更為有力的算力支持才能保障視頻生成質(zhì)量,同時(shí)相比于大語(yǔ)言模型,視覺(jué)數(shù)據(jù)的訓(xùn)練與推理算力需求更大,因而算力有望成為確定性最高的受益賽道。此外,Sora發(fā)布有望形成多模態(tài)產(chǎn)業(yè)“鲇魚(yú)效應(yīng)”,激勵(lì)其他多模態(tài)廠商的良性發(fā)展。建議關(guān)注:

1)AI算力:云賽智聯(lián)、思特奇、恒為科技、海光信息、寒武紀(jì)、景嘉微、中科曙光、浪潮信息、拓維信息、四川長(zhǎng)虹、工業(yè)富聯(lián)、神州數(shù)碼等。

2)AI+多模態(tài):萬(wàn)興科技、虹軟科技、當(dāng)虹科技、中科創(chuàng)達(dá)、大華股份、??低?、漫步者、螢石網(wǎng)絡(luò)、漢儀股份、美圖公司、云從科技16華福證券目錄

1.Sora引領(lǐng)多模態(tài)革命,技術(shù)與資源突顯優(yōu)勢(shì)2.博采眾長(zhǎng),Sora技術(shù)開(kāi)拓創(chuàng)新3.投資建議4.風(fēng)險(xiǎn)提示17華福證券4風(fēng)險(xiǎn)提示

產(chǎn)品落地不及預(yù)期。垂直領(lǐng)域產(chǎn)品推出速度緩慢,商業(yè)化進(jìn)行較慢。技術(shù)迭代不及預(yù)期。AI多模態(tài)技術(shù)發(fā)展未能取得新的突破。

AI倫理風(fēng)險(xiǎn)。

AI技術(shù)濫用導(dǎo)致的數(shù)據(jù)安全、隱私安全等問(wèn)題。18華福證券分析師聲明及一般聲明分析師聲明本人具有中國(guó)證券業(yè)協(xié)會(huì)授予的證券投資咨詢執(zhí)業(yè)資格并注冊(cè)為證券分析師,以勤勉的職業(yè)態(tài)度,獨(dú)立、客觀地出具本報(bào)告。本報(bào)告清晰準(zhǔn)確地反映了本人的研究觀點(diǎn)。本人不曾因,不因,也將不會(huì)因本報(bào)告中的具體推薦意見(jiàn)或觀點(diǎn)而直接或間接收到任何形式的補(bǔ)償。一般聲明華福證券有限責(zé)任公司(以下簡(jiǎn)稱“本公司”)具有中國(guó)證監(jiān)會(huì)許可的證券投資咨詢業(yè)務(wù)資格。本報(bào)告僅供本公司的客戶使用。本公司不會(huì)因接收人收到本報(bào)告而視其為客戶。在任何情況下,本公司不對(duì)任何人因使用本報(bào)告中的任何內(nèi)容所引致的任何損失負(fù)任何責(zé)任。本報(bào)告的信息均來(lái)源于本公司認(rèn)為可信的公開(kāi)資料,該等公開(kāi)資料的準(zhǔn)確性及完整性由其發(fā)布者負(fù)責(zé),本公司及其研究人員對(duì)該等信息不作任何保證。本報(bào)告中的資料、意見(jiàn)及預(yù)測(cè)僅反映本公司于發(fā)布本報(bào)告當(dāng)日的判斷,之后可能會(huì)隨情況的變化而調(diào)整。在不同時(shí)期,本公司可發(fā)出與本報(bào)告所載資料、意見(jiàn)及推測(cè)不一致的報(bào)告。本公司不保證本報(bào)告所含信息及資料保持在最新

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論