賽迪顧問(wèn)AI洞察第1期:Sora 掀起AI產(chǎn)業(yè)顛覆性創(chuàng)新的“麥旋風(fēng)”_第1頁(yè)
賽迪顧問(wèn)AI洞察第1期:Sora 掀起AI產(chǎn)業(yè)顛覆性創(chuàng)新的“麥旋風(fēng)”_第2頁(yè)
賽迪顧問(wèn)AI洞察第1期:Sora 掀起AI產(chǎn)業(yè)顛覆性創(chuàng)新的“麥旋風(fēng)”_第3頁(yè)
賽迪顧問(wèn)AI洞察第1期:Sora 掀起AI產(chǎn)業(yè)顛覆性創(chuàng)新的“麥旋風(fēng)”_第4頁(yè)
賽迪顧問(wèn)AI洞察第1期:Sora 掀起AI產(chǎn)業(yè)顛覆性創(chuàng)新的“麥旋風(fēng)”_第5頁(yè)
已閱讀5頁(yè),還剩7頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

Sora掀起AI產(chǎn)業(yè)顛覆性創(chuàng)新的“麥旋風(fēng)”◆視頻生成質(zhì)量:邁向里程碑式飛躍“世界模擬器”:打開模擬物理世界新路徑CCID賽迪顧問(wèn)思維創(chuàng)造世界CCID賽迪顧問(wèn)思維創(chuàng)造世界以大模型為代表的人工智能技術(shù)作為驅(qū)動(dòng)新一輪科技革命和產(chǎn)業(yè)變革的核心力量,是推動(dòng)形成新質(zhì)生產(chǎn)力的新引擎。2024年2月,OpenAI發(fā)布視頻生成大模型Sora,引發(fā)全球市場(chǎng)廣泛關(guān)注。Sora憑借其在視頻時(shí)長(zhǎng)、畫面流暢度和內(nèi)容邏輯性上的震撼表現(xiàn),突破了已有視頻生成模型的效果,開辟了視頻生成領(lǐng)域新篇章。視頻生成領(lǐng)域的技術(shù)突破,將加速推動(dòng)多模態(tài)大模型的創(chuàng)新發(fā)展,為通用人工智能時(shí)代的到來(lái)奠定堅(jiān)實(shí)基礎(chǔ)。一、Sora開辟視頻生成領(lǐng)域的新篇章技術(shù)路線突破創(chuàng)新:從ChatGPT到Sora在OpenAI發(fā)布Sora之前,視頻生成大模型的技術(shù)路線主要包括生成對(duì)抗網(wǎng)絡(luò)(GenerativeAdversarialNetwork)、自回歸Transformer、擴(kuò)散模型(DiffusionModels)等。Sora基本沿用了ChatGPT生成文本的思路框架,將Transformer和Diffusion創(chuàng)新性地結(jié)合,提出基于Transformer架構(gòu)的Diffusion模型。Sora進(jìn)行視頻生成的過(guò)程大致可以包括視頻編碼、加噪降噪、視頻解碼三個(gè)步驟,類似于GPT中的tokens,Sora將視覺數(shù)據(jù)統(tǒng)一轉(zhuǎn)化為patches,降低視覺數(shù)據(jù)維度,在壓縮的低維空間進(jìn)行訓(xùn)練,并使用解碼器將低維空間映射回像素空間,從而生成視頻。圖1:視頻生成大模型主要技術(shù)路線視頻生成質(zhì)量:邁向里程碑式飛躍OpenAI的Sora在視頻生成領(lǐng)域?qū)崿F(xiàn)了質(zhì)的飛躍,尤其在視頻時(shí)長(zhǎng)、功能擴(kuò)展和內(nèi)容真實(shí)性等方面。與先前最多生成10秒的視頻生成模型相比,Sora能生成長(zhǎng)達(dá)60秒的視頻,極大拓寬了內(nèi)容創(chuàng)作的邊界。Sora不僅支持視頻向前向后擴(kuò)展、視頻拼接、視頻編輯等高級(jí)功能,還能通過(guò)多鏡頭生成更復(fù)雜的視頻內(nèi)容,提高了模型的靈活性和創(chuàng)造力。此外,Sora不僅可以根據(jù)文本提示生成視頻,而且具備根據(jù)文本生成圖片、根據(jù)圖片生成視頻等能力?!笆澜缒M器”:打開模擬物理世界新路徑OpenAI首次提出“世界模擬器(WorldSimulators)”概念,Sora能夠細(xì)膩模擬三維空間動(dòng)態(tài),具備一定的長(zhǎng)時(shí)間對(duì)象連貫性、模擬真實(shí)世界交互等特性。Sora生成的視頻能夠在相當(dāng)長(zhǎng)的時(shí)空范圍內(nèi),基本不違反物理世界的常見規(guī)律。如果模型規(guī)模進(jìn)一步提升,它有可能模擬生成物理世界的一切視頻。與虛幻引擎(UnrealEngine,UE)這類基于數(shù)學(xué)建模和渲染模擬物理世界的路線不同,基于數(shù)據(jù)驅(qū)動(dòng)的Sora開辟了模擬物理世界的全新路徑。搭建應(yīng)用生態(tài):打造視頻生成大模型產(chǎn)品化工具在視頻生成大模型技術(shù)的演進(jìn)中,構(gòu)建一個(gè)健全的應(yīng)用生態(tài)至關(guān)重要,有助于推動(dòng)該技術(shù)產(chǎn)品化并加速其市場(chǎng)化進(jìn)程。為此,開發(fā)覆蓋視頻生成全流程的產(chǎn)品化工具,搭建豐富的應(yīng)用生態(tài)是視頻生成大模型進(jìn)一步發(fā)展的有效路徑。視頻修改和元素替換等AI工具產(chǎn)品將成為短期內(nèi)視頻生成領(lǐng)域開辟市場(chǎng)需求的重要方向之一,這類產(chǎn)品工具能夠幫助用戶將品牌形象、文字和圖像等元素植入視頻中,從而制作出既符合品牌定位又具有高度個(gè)性化的營(yíng)銷素材。此外,這類工具的開發(fā)和普及對(duì)于降低視頻制作的門檻和成本具有重要意義。通過(guò)智能化的視頻編輯和定制化的內(nèi)容生成,用戶能夠以更低的成本產(chǎn)出高質(zhì)量視頻內(nèi)容,有利于提高相關(guān)產(chǎn)品營(yíng)銷的效率技術(shù)突破:聚焦視頻生成準(zhǔn)確性和一致性的技術(shù)創(chuàng)新視頻生成的準(zhǔn)確性和一致性是視頻生成領(lǐng)域一直以來(lái)面臨的兩個(gè)關(guān)鍵難題。一方面,當(dāng)前的視頻生成模型雖然能在短視頻中保持較高的真實(shí)感,但在長(zhǎng)視頻生成時(shí)往往難以保持物體持久性和場(chǎng)景連貫性,物體可能不合邏輯地消失或出現(xiàn),場(chǎng)景轉(zhuǎn)換可能缺乏邏輯性。另一方面,生成視頻要符合物理世界的規(guī)律,如重力和光線變化,以增強(qiáng)真實(shí)感和可信度,現(xiàn)有模型往往難以精確模擬,導(dǎo)致細(xì)節(jié)上的偏差。解決這些問(wèn)題需技術(shù)創(chuàng)新突破,通過(guò)模型架構(gòu)和訓(xùn)練方法迭代、引入物理知識(shí)和規(guī)則或結(jié)合物理引擎、多模態(tài)數(shù)據(jù)融合等有效路徑,進(jìn)一步提升模型的準(zhǔn)確性和一致性。視頻生視頻生成大模型多場(chǎng)景賦能:視頻生成大模型或?qū)⒃谟耙?、游戲、教育和營(yíng)銷等領(lǐng)域率先應(yīng)用隨著視頻生成技術(shù)的發(fā)展,影視、游戲、教育和營(yíng)銷等領(lǐng)域有望迎來(lái)創(chuàng)新高潮。在影視和游戲領(lǐng)域,視頻創(chuàng)作、游戲人物與場(chǎng)景設(shè)計(jì)的效率或?qū)⒋蠓忍嵘?,制作成本和門檻有望大幅降低,從而推動(dòng)內(nèi)容創(chuàng)作向更高效、多樣化方向發(fā)展。在教育領(lǐng)域,視頻生成大模型的模擬交互功能有望實(shí)現(xiàn)迅速生成個(gè)性化、互動(dòng)性強(qiáng)的教學(xué)視頻,通過(guò)生動(dòng)的模擬達(dá)到豐富學(xué)習(xí)體驗(yàn)和增強(qiáng)學(xué)習(xí)效果的功能。在營(yíng)銷領(lǐng)域,受益于高效的視頻生成能力,用戶有望實(shí)現(xiàn)快速響應(yīng)定制化需求,提高營(yíng)銷吸引力和客戶轉(zhuǎn)化率。圖2:視頻生成大模型應(yīng)用場(chǎng)景影視影視◆特效制作復(fù)雜場(chǎng)景渲染游戲游戲◆游戲原型驗(yàn)證用戶定制化體驗(yàn)教育教育◆生成互動(dòng)性強(qiáng)的教學(xué)視頻◆定制化廣告投放動(dòng)態(tài)生成營(yíng)銷內(nèi)容資料來(lái)源:賽迪顧問(wèn),2024.03三、未來(lái)展望視頻生成大模型帶來(lái)持續(xù)高算力需求在視頻生成領(lǐng)域,模型需要處理的不僅僅是靜態(tài)圖像,而是包含豐富時(shí)空信息的動(dòng)態(tài)視頻序列。這使得模型必須具備處理和理解復(fù)雜場(chǎng)景、物體運(yùn)動(dòng)以及時(shí)間演變等的tokens差別在于圖片與文字,時(shí)空數(shù)據(jù)相較于語(yǔ)言文字呈現(xiàn)的數(shù)據(jù)維度有著幾何維度的差異。因此,相比于文本生成模型,視頻生成模型的參數(shù)規(guī)模和計(jì)算復(fù)雜度更這意味著對(duì)高性能計(jì)算集群、高效存儲(chǔ)以及并行計(jì)算能力模型快速迭代的背景下,大規(guī)模、多樣化、標(biāo)注精準(zhǔn)的快推動(dòng)模型訓(xùn)練效果優(yōu)化、打造“數(shù)據(jù)飛輪”,夯實(shí)人工智能發(fā)展的基礎(chǔ)底座。另一方面,覆蓋數(shù)據(jù)采集、存儲(chǔ)、標(biāo)注、分析等全流程的數(shù)據(jù)處理技術(shù)正快速發(fā)展,包括一系列持續(xù)迭代和應(yīng)用拓展。多模態(tài)大模型邁入新階段多模態(tài)大模型的發(fā)展邁入全新階段,視頻生成大模型賽迪顧問(wèn)股份有限公司賽迪顧問(wèn)股份有限公司(簡(jiǎn)稱“賽迪顧問(wèn)”)隸屬于工業(yè)和信息化部中國(guó)電子信息產(chǎn)業(yè)發(fā)展研究院(CCID),是中國(guó)首家上市咨詢企業(yè)(股票代碼:HK02176)。賽迪顧問(wèn)秉承“思維創(chuàng)造世界”理念,踐行“誠(chéng)信擔(dān)當(dāng)唯實(shí)創(chuàng)先”核心價(jià)值觀,為政府、園區(qū)和企業(yè)提供“研究+咨詢+實(shí)施”創(chuàng)新綜合服務(wù)及數(shù)字化賦能服務(wù)。依托深厚的產(chǎn)業(yè)資源和方法論,賽迪顧問(wèn)構(gòu)建了研究、咨詢、實(shí)施以及數(shù)字化四大服務(wù)體系:一線調(diào)研、年報(bào)、洞見、評(píng)論、深度研究、產(chǎn)業(yè)指數(shù)、百?gòu)?qiáng)榜等研究產(chǎn)品體系;區(qū)域戰(zhàn)略、園區(qū)咨詢、產(chǎn)業(yè)規(guī)劃、行研可研、企業(yè)戰(zhàn)略、投融資、數(shù)字轉(zhuǎn)型等咨詢服務(wù)體系;賽迪科創(chuàng)中心、賽迪產(chǎn)業(yè)基金、賽迪產(chǎn)業(yè)大會(huì)等實(shí)施服務(wù)體系;以及賽迪滿天星、賽迪產(chǎn)業(yè)大腦、賽迪專精特新大數(shù)據(jù)平臺(tái)、賽迪招商通等數(shù)字化賦能體系。賽迪顧問(wèn)聚力新技術(shù)、新工業(yè)、新經(jīng)濟(jì)以及城市經(jīng)濟(jì)、縣域經(jīng)濟(jì)、園區(qū)經(jīng)濟(jì),致力于成為城市經(jīng)濟(jì)第一智庫(kù)、企業(yè)戰(zhàn)略第一顧問(wèn)、資本運(yùn)作第一專家。賽迪顧問(wèn)人工智能與大數(shù)據(jù)研究中心人工智能與大數(shù)據(jù)研究中心是賽迪顧問(wèn)專業(yè)從事人工智能、大數(shù)據(jù)和云計(jì)算行業(yè)研究的部門。該中心長(zhǎng)期對(duì)人工智能、大數(shù)據(jù)和云計(jì)算行業(yè)發(fā)展現(xiàn)狀、技術(shù)熱點(diǎn)和發(fā)展趨勢(shì)進(jìn)行研究

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論