![人工智能行業(yè)AI文生視頻市場(chǎng)分析_第1頁](http://file4.renrendoc.com/view3/M02/06/1C/wKhkFmYV5uOAYD7AAAJg7Svchd0628.jpg)
![人工智能行業(yè)AI文生視頻市場(chǎng)分析_第2頁](http://file4.renrendoc.com/view3/M02/06/1C/wKhkFmYV5uOAYD7AAAJg7Svchd06282.jpg)
![人工智能行業(yè)AI文生視頻市場(chǎng)分析_第3頁](http://file4.renrendoc.com/view3/M02/06/1C/wKhkFmYV5uOAYD7AAAJg7Svchd06283.jpg)
![人工智能行業(yè)AI文生視頻市場(chǎng)分析_第4頁](http://file4.renrendoc.com/view3/M02/06/1C/wKhkFmYV5uOAYD7AAAJg7Svchd06284.jpg)
![人工智能行業(yè)AI文生視頻市場(chǎng)分析_第5頁](http://file4.renrendoc.com/view3/M02/06/1C/wKhkFmYV5uOAYD7AAAJg7Svchd06285.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
人工智能行業(yè)AI文生視頻市場(chǎng)分析1文生視頻,多模態(tài)AIGC圣杯文生視頻當(dāng)前處于起步階段,隨著文生圖、圖片對(duì)話技術(shù)的成熟,文生視頻成為多模態(tài)大模型下一步發(fā)展的重點(diǎn)。目前國內(nèi)亦有文生視頻功能,但主要停留在圖片組合階段。我們認(rèn)為,多模態(tài),尤其是文生視頻的發(fā)展將為應(yīng)用的爆發(fā)提供更立體的基礎(chǔ)設(shè)施,同時(shí)對(duì)算力的需求也將指數(shù)級(jí)增長,對(duì)AI下階段的發(fā)展至關(guān)重要。本文所介紹的文生視頻是指內(nèi)容之間有關(guān)聯(lián)性與協(xié)同性,能生成有連續(xù)邏輯的視頻模型。1.1相較于文字和圖片,視頻能承載的信息量更大相較于文字和圖片,視頻在多維信息表達(dá)、畫面豐富性及動(dòng)態(tài)性方面有更大優(yōu)勢(shì)。視頻可以結(jié)合文本、圖像、聲音及視覺效果,在單一媒體中融合多種信息形式。從視頻生視頻到文生視頻、圖生視頻,多模態(tài)的發(fā)展重視用更少的用戶輸入信息量實(shí)現(xiàn)更豐富的AI生成結(jié)果。自Runway推出Gen-1視頻生視頻工具后,AI處理視頻、圖片功能在社交平臺(tái)爆火,其背后即是多模態(tài)大模型發(fā)展的表現(xiàn)之一。在多模態(tài)應(yīng)用方面,當(dāng)前可應(yīng)用的模態(tài)轉(zhuǎn)化主要集中在文字、圖片、視頻的轉(zhuǎn)化。1.2當(dāng)前公測(cè)的文生視頻應(yīng)用數(shù)量較少文生圖領(lǐng)域,2021年1月5日,OpenAI發(fā)布其首個(gè)基于Clip模型的文生圖模型DALL·E,但并未開源,自此眾多公司爭(zhēng)先研發(fā)文生圖模型;2022年3月13日,Midjourney發(fā)布可公測(cè)的文生圖模型,其效果優(yōu)越,引發(fā)了公眾關(guān)于AI藝術(shù)的討論。目前已積累較多用戶、可穩(wěn)定使用的文生圖模型主要有Midjourney、StableDiffusion、DALL·E等。文生視頻領(lǐng)域,目前公眾可使用的主要有RunwayGen-1、RunwayGen-2、ZeroScope、PikaLabs。其中,除Runway收費(fèi)外,ZeroScope、PikaLabs均可免費(fèi)使用。文生視頻發(fā)展速度慢于文生視頻,在視頻質(zhì)量、視頻時(shí)長等方面突破較為困難,相比于文生圖的快速優(yōu)化迭代,文生視頻的進(jìn)展較慢。即便是Meta和Google這樣的硅谷人工智能巨頭,在文生視頻方面也進(jìn)展緩慢。她們分別推出的Make-A-Video和Phenaki均尚未公測(cè),從官方公布的Demo看,Phenaki雖然可生成任意長度視頻,但其質(zhì)量較差且欠缺真實(shí)性;Make-A-Video無需“文本-視頻”配對(duì)數(shù)據(jù)集,視頻質(zhì)量相對(duì)較好,但時(shí)長短。1.3文生視頻,難在哪里?文生視頻更困難。技術(shù)實(shí)現(xiàn)本身更困難。從本質(zhì)看,視頻是連續(xù)的多幀圖像,然而文生圖到文生視頻并非簡(jiǎn)單的圖片組合,而文生視頻在文生圖的基礎(chǔ)上增加了時(shí)間維度。文生視頻需突破瓶頸多??捎玫奈纳曨l需具備一定的時(shí)長,優(yōu)良的畫面質(zhì)量,一定的創(chuàng)意邏輯性及還原指令要求能力。計(jì)算難度大計(jì)算成本高。通過文本生成高質(zhì)量圖片對(duì)算力的要求已經(jīng)達(dá)到了一定程度,由于生成視頻模型復(fù)雜度提升及其時(shí)長、分辨率提高等因素,文生視頻對(duì)算力的需求進(jìn)一步加大。計(jì)算復(fù)雜性提升。文生視頻需要進(jìn)行高維特征融合,模型復(fù)雜度顯著提升。數(shù)據(jù)要求高缺乏高質(zhì)量配對(duì)數(shù)據(jù)集。視頻的合理性及連貫性體現(xiàn)模型的架構(gòu)能力、創(chuàng)造力、理解能力。例如,當(dāng)用戶輸入“一只大象在廚房做飯”這類文字指令時(shí),模型需理解文字指令內(nèi)容,并根據(jù)訓(xùn)練數(shù)據(jù)庫選取畫面及對(duì)象組合,過程中可能出現(xiàn)缺乏相應(yīng)素材、難以合理組合人物、難以合理架構(gòu)場(chǎng)景等問題。文生視頻需要大量的文本-視頻配對(duì)數(shù)據(jù),但當(dāng)前缺乏相應(yīng)數(shù)據(jù)集,數(shù)據(jù)標(biāo)注工作量極高。缺乏具備多樣性的數(shù)據(jù)集。由于用戶的文本指令要求各異,缺乏多樣數(shù)據(jù)集使得模型無法生成預(yù)期效果。技術(shù)融合難度大多領(lǐng)域融合技術(shù)復(fù)雜性提升。文生視頻涉及自然語言處理、視覺處理、畫面合成等領(lǐng)域,跨學(xué)科多領(lǐng)域使其需攻克的技術(shù)難點(diǎn)增加。2技術(shù)路線沿革:文生視頻,哪種技術(shù)更強(qiáng)?同文生圖及大語言模型的發(fā)展類似,文生視頻也在不斷探索中尋找更為高效且效果更佳的基礎(chǔ)模型。目前主流的文生視頻模型主要依托Transformer模型和擴(kuò)散模型。目前阿里ModelScope社區(qū)中提供了可用的、基于擴(kuò)散模型的開源文生視頻模型,促進(jìn)了如ZeroScope高質(zhì)量文生視頻模型的發(fā)展,有利于后續(xù)文生視頻的技術(shù)迭代優(yōu)化。2.1階段一:基于GAN和VAE,以Text2Filter為代表原理:文生視頻發(fā)展早期主要基于GAN(GenerativeAdversarialNets,生成式對(duì)抗網(wǎng)絡(luò))和VAE(Variationalautoencoder,變分自編碼器)進(jìn)行視頻生成。GAN由生成器和判別器構(gòu)成,生成器類似于小偷,生成器生成圖片;判別器類似于警察,負(fù)責(zé)判斷是生成器生成圖片還是真實(shí)圖片。VAE由編碼器及解碼器構(gòu)成,其使得圖片能夠編碼成易于表示的形態(tài),并且這一形態(tài)能夠盡可能無損地解碼回原真實(shí)圖像。生成過程分為兩步:首先,利用條件VAE模型從文本中提取出要點(diǎn),即靜態(tài)和通用的特征,生成視頻的基本背景;再借助GAN框架中的神經(jīng)網(wǎng)絡(luò)生成視頻細(xì)節(jié)。問題:應(yīng)用范圍窄;僅適用靜態(tài)、單一畫面;分辨率低。代表:Text2Filter。2.2階段二:基于Transformer,以Phenaki為代表原理:Transformer模型在文本及圖像生成中均得到了廣泛應(yīng)用,因此也成為文生視頻使用較多的框架之一,但各模型在具體應(yīng)用上仍有差別。主要思路即輸入文本后利用Transformer模型編碼,將文本轉(zhuǎn)化為視頻令牌,進(jìn)行特征融合后輸出視頻。問題:訓(xùn)練成本高;對(duì)配對(duì)數(shù)據(jù)集需求大。代表:Phenaki、CogVideo、VideoGPT。Phenaki是基于Transformer框架進(jìn)行文生視頻的代表之一,其突破了文生視頻的時(shí)長限制進(jìn)行任意時(shí)長視頻生成。Phenaki模型基于1.4s左右的短視頻進(jìn)行訓(xùn)練,通過連續(xù)的文字指令生成連續(xù)的較短時(shí)長的視頻并串聯(lián)成1分鐘左右的長視頻。例如,通過輸入一段類似故事的文字指令,從而實(shí)現(xiàn)逐個(gè)短視頻的銜接成為長視頻。2.3階段三:基于擴(kuò)散模型,以Make-A-Video和阿里通義為代表原理:當(dāng)前擴(kuò)散模型是文生視頻領(lǐng)域使用更廣的架構(gòu)之一。通過預(yù)訓(xùn)練模型進(jìn)行文本特征提取后,再進(jìn)行文本到圖片,圖片到視頻的生成,過程中需基于擴(kuò)散模型進(jìn)行。簡(jiǎn)單來說,擴(kuò)散模型即在圖片上逐漸添加高斯噪聲再進(jìn)行反向操作。以擴(kuò)散模型為基礎(chǔ)的文生視頻模型,一般是在文生圖基礎(chǔ)上增加時(shí)間維度實(shí)現(xiàn)視頻生成。擴(kuò)散模型在語義理解、內(nèi)容豐富性上更有優(yōu)勢(shì)。問題:耗時(shí)長。代表:Make-A-Video、VideoLDM、Text2Video-Zero、Runway-Gen1、RunwayGen2以及NUWA-XL。2.3.1Meta:Make-A-VideoMake-A-Video是基于擴(kuò)散模型的代表之一,其重點(diǎn)在于提升視頻品質(zhì)。其模型訓(xùn)練時(shí)間較短,無需“文本-視頻”配對(duì)數(shù)據(jù)即可生成視頻。Make-A-Video生成視頻主要思路為首先接受文字指令,后利用CLIP文字解碼將其轉(zhuǎn)化為向量;接著先驗(yàn)網(wǎng)絡(luò)將CLIP文本向量“翻譯”到對(duì)應(yīng)的CLIP圖像向量;后利用BaseDiffusionModel(一種文生圖的模型)生成視頻的基本框架;此處得到額外的卷積層和注意力層到時(shí)間維度;后利用TemporalSuper-Resolution(TSR)進(jìn)行幀插值以補(bǔ)充關(guān)鍵細(xì)節(jié),最后利用兩個(gè)空間超分辨率模型升級(jí)各個(gè)幀的分辨率。2.3.2阿里達(dá)摩院:通義文生視頻大模型通義-文本生成視頻大模型-英文-通用領(lǐng)域-v1.0是由阿里達(dá)摩院提供的、發(fā)布在阿里ModelScope平臺(tái)上的開源文生視頻大模型,目前仍在集成中,暫未開放公測(cè)。通義文本生成視頻大模型僅支持英文輸入,基于多階段文本到視頻生成擴(kuò)散模型。根據(jù)ModelScope官網(wǎng),該模型整體參數(shù)約60億,由五個(gè)子網(wǎng)格構(gòu)成:文本特征提取:利用圖文預(yù)訓(xùn)練模型CLIPViT-L/14@336px的textencoder來提取文本特征。文本到圖像特征擴(kuò)散模型:Diffusionprior部分,以CLIPtextembedding為條件,輸出CLIPimageembedding。圖像特征到64x64視頻生成模型:同樣采用diffusionmodel,以GLIDE模型中UNet結(jié)構(gòu)為基礎(chǔ)改造UNet3D結(jié)構(gòu),采用crossattention實(shí)現(xiàn)imageembedding嵌入,輸出16x64x64視頻。視頻插幀擴(kuò)散模型(16X64x64到64X64x64):diffusion視頻插幀模型,輸入包括16x64x64視頻、imageembedding,輸出64X64x64視頻,其中16x64x64視頻復(fù)制4次到64X64x64以concat形式輸入、imageembedding同樣以crossattention形式嵌入。視頻超分?jǐn)U散模型(64X64x64到64X256x256):diffusion視頻超分模型,同樣為UNet3D結(jié)構(gòu),推理過程輸入64X64x64視頻,輸出64X256x256視頻。2.3.3Zeroscope:由阿里達(dá)摩院Modelscope文生視頻模型優(yōu)化得出在我們找到的三個(gè)文生視頻模型(RunwayGen-2、PikaLabs和Zeroscope)中,Zeroscope明確提出其由開源模型優(yōu)化而來。我們認(rèn)為,這在一定程度上代表了一種新的技術(shù)路線——基于開源,開枝散葉。ZeroScope所依托的文本生成視頻大模型是阿里達(dá)摩院vilab“modelscope-damo-textto-video-synthesis”,后者由文本特征提取、文本特征到視頻隱空間擴(kuò)散模型、視頻隱空間到視頻視覺空間這3個(gè)子網(wǎng)絡(luò)組成,整體模型參數(shù)約17億。ZeroScope由兩個(gè)組件構(gòu)成:Zerscope_v2567w(用于以較低分辨率快速創(chuàng)建內(nèi)容)和Zeroscope_v2XL(用于將內(nèi)容升級(jí)到高清分辨率)。ZeroScopeV3目前在Discord服務(wù)器內(nèi)測(cè)試,即將推出。3實(shí)測(cè):文生視頻模型當(dāng)前風(fēng)格各異,總體質(zhì)量較低對(duì)于文生視頻應(yīng)用,用戶主要關(guān)注視頻生成質(zhì)量、是否可定制化生成特定內(nèi)容(如風(fēng)格、可對(duì)生成內(nèi)容調(diào)整細(xì)節(jié)等)、使用簡(jiǎn)易程度等。盡管當(dāng)前已有可公測(cè)的應(yīng)用,但由于生成結(jié)果粗糙等問題,文生視頻并未在實(shí)際的媒體內(nèi)容生成、創(chuàng)意制作領(lǐng)域得到廣泛應(yīng)用。具體來看,當(dāng)前可測(cè)試的產(chǎn)品風(fēng)格各異、總體質(zhì)量較低:RunwayGen-1、Gen-2:是當(dāng)前文生視頻領(lǐng)域?qū)嶋H應(yīng)用最“出圈”的模型,具有較好的畫面質(zhì)感,其功能眾多,可在文字、圖片、視頻中自由轉(zhuǎn)化。ZeroScope:是目前文生視頻領(lǐng)域高質(zhì)量的開源大模型之一。ZeroScope在ModelScope的模型基礎(chǔ)上優(yōu)化而來,能提供更高的分辨率。ZeroScope可供用戶免費(fèi)使用,盡管視頻分辨率、生成質(zhì)量與RunwayGen-2有一定差距,但其后續(xù)潛力大。PikaLabs:為近期發(fā)布的文生視頻平臺(tái),該模型一經(jīng)發(fā)布便因其真實(shí)感、動(dòng)作連續(xù)性效果好引發(fā)關(guān)注。從生成時(shí)間看,當(dāng)前的文生視頻結(jié)果時(shí)間短,目前RunwayGen-2最長可生成18秒視頻內(nèi)容,一般其他可公測(cè)使用文生視頻模型生成結(jié)果均在4s左右,且無法融合音頻。從生成平臺(tái)看,與Runway、ZeroScope不同,PikaLabs采取了與Midjourney相同的應(yīng)用平臺(tái),當(dāng)前可通過申請(qǐng)?jiān)贒iscord端試用(Discord是一款可進(jìn)行社群交流的數(shù)字發(fā)行平臺(tái),用戶可發(fā)布文字、圖片、視頻、音頻等內(nèi)容)。3.1復(fù)雜人物動(dòng)作生成幀連續(xù)效果較差復(fù)雜人物動(dòng)作的視頻生成考驗(yàn)文生視頻模型的幀連續(xù)效果及動(dòng)作理解能力。從測(cè)試效果看:RunwayGen2:基本完成文字指令要求,突出“一個(gè)女孩”人物主題,跳舞動(dòng)作有一定流暢性,但后續(xù)出現(xiàn)身體器官重疊問題;PikaLabs:未理解文字指令主題“一個(gè)女孩”,出現(xiàn)多個(gè)人物,但其舞蹈動(dòng)作連續(xù)流暢性相對(duì)較好;ZeroScope:人物模糊,但身體部位變化自然,且未出現(xiàn)變型、消失等問題。3.2非日常場(chǎng)景的視頻架構(gòu)能力連續(xù)能力一般非日常場(chǎng)景的視頻生成考驗(yàn)文生視頻模型的指令理解及架構(gòu)能力。從“貓拿遙控器看電視”這一虛構(gòu)場(chǎng)景文字指令的要求生成效果看:RunwayGen-2:整體仍然最為出色,但后續(xù)動(dòng)作變化不自然且幅度小,出現(xiàn)臉部變形等情況;PikaLabs:對(duì)文字指令的理解有一定問題,并未體現(xiàn)“拿遙控器”的動(dòng)作,但其視頻畫面細(xì)節(jié)如毛發(fā)、飄動(dòng)動(dòng)作更為連貫順暢;ZeroScope:真實(shí)性較強(qiáng),但動(dòng)作僵硬且幅度較小。3.3多主體視頻生成缺乏邏輯連續(xù)性多主體的視頻生成考驗(yàn)文生視頻模型的復(fù)雜場(chǎng)景處理能力及細(xì)微語言理解能力。當(dāng)前文生視頻模型出現(xiàn)直接忽略文字指令中的如“手牽手”,“一個(gè)男孩和一個(gè)女孩”等細(xì)微要求問題。RunwayGen-2:對(duì)畫面及人物動(dòng)作細(xì)節(jié)及雙人互動(dòng)如“牽手”指令的處理較好,生成人物符合邏輯但人物動(dòng)作幅度不明顯;PikaLabs:未體現(xiàn)雙人“牽手“細(xì)節(jié),但跑步動(dòng)作自然連貫;ZeroScope:在多人物互動(dòng)及跑步動(dòng)作上處理較好,但畫面粗糙??傮w來看,三個(gè)文生視頻模型的不同生成效果體現(xiàn)其背后模型及訓(xùn)練數(shù)據(jù)特點(diǎn)。RunwayGen-2:畫面精細(xì)度、清晰度及藝術(shù)美感均較強(qiáng),視頻動(dòng)作幅度均較小,視頻動(dòng)感主要體現(xiàn)在如頭發(fā)的飄動(dòng)上;PikaLabs:擅于生成連貫動(dòng)作;ZeroScope:表現(xiàn)較為平均。4從圖片生成看文生視頻的商業(yè)前景4.1為什么選擇圖片生成作為對(duì)標(biāo)對(duì)象?4.1.1圖片生成相對(duì)成熟圖片生成類在多模態(tài)大模型中的商業(yè)程度較高,可為視頻生成的商業(yè)化前景可提供一定參考。以相對(duì)成熟的美國市場(chǎng)為例,據(jù)七麥數(shù)據(jù)8月13日IOS應(yīng)用榜單,以“AI”作為搜索關(guān)鍵詞,榜內(nèi)共計(jì)247個(gè)應(yīng)用,其中“攝影與錄像”、“圖形與設(shè)計(jì)”類的圖像生成類應(yīng)用占比31.6%;而“音樂”類應(yīng)用僅占比2.8%;“效率”類語言生成或?qū)υ捠綉?yīng)用占比20.2%??梢妶D片生成類的商業(yè)化程度最高,且從實(shí)際案例來看,目前已有圖片生成類應(yīng)用表現(xiàn)出較強(qiáng)的收費(fèi)能力。4.1.2已經(jīng)收費(fèi)的視頻生成應(yīng)用,商業(yè)模式與圖片生成趨同目前,從類別上看,圖片生成類為現(xiàn)階段多模態(tài)大模型相對(duì)成熟的商業(yè)化場(chǎng)景,視頻生成類的商業(yè)前景可參考圖片生成類的商業(yè)化發(fā)展歷程。整體來看,圖片生成類的商業(yè)模式較為單一,收費(fèi)模式和收費(fèi)依據(jù)較為趨同,即按照人工智能生成產(chǎn)品的生成量、生成速度計(jì)算收費(fèi),現(xiàn)已出現(xiàn)的視頻生成模型的收費(fèi)依據(jù)也與其類似。另外,市場(chǎng)上已出現(xiàn)個(gè)別破圈現(xiàn)象級(jí)圖片生成類應(yīng)用,以及與其原有業(yè)務(wù)協(xié)同的AI增強(qiáng)功能產(chǎn)品,也可為未來視頻生成類應(yīng)用的發(fā)展提供一定參考。RunwayGen-2是文生視頻領(lǐng)域最先形成商業(yè)模式的多模態(tài)大模型案例,其收費(fèi)標(biāo)準(zhǔn)為文生視頻領(lǐng)域大模型及應(yīng)用端樹立了標(biāo)桿,與廣泛的圖片生成類模型及應(yīng)用的商業(yè)模式類似,RunwayGen-2也按照生成量、附加權(quán)益等區(qū)分不同套餐定價(jià)。自發(fā)布以來,RunwayGen-2引起關(guān)注度很高,由于是為數(shù)不多的開放公測(cè)的文生視頻大模型,很多玩家前往其官網(wǎng)進(jìn)行文生視頻的嘗試,2023年9月其網(wǎng)站總訪問人次為760萬,平均停留時(shí)長為3分37秒。4.2細(xì)分領(lǐng)域:看好人像生成,短期內(nèi)變現(xiàn)較快4.2.1LensaAI:人像生成功能推出后用戶付費(fèi)意愿高LensaAI切入人像生成領(lǐng)域,新功能推出后收入可觀,但是否可若想形成持續(xù)性付費(fèi)收入仍需探索。LensaAIApp于2018年上線,原本的主要用途是圖片編輯和美化。2022年11月21日,LensaAI上線的新功能“魔法頭像”(MagicAvatars)讓其在全球人氣迅速飆升。用戶上傳人像圖,可通過“魔法頭像”自動(dòng)生成各種不同風(fēng)格的人臉照,包括搖滾風(fēng)格、時(shí)尚風(fēng)、科幻風(fēng)、動(dòng)漫風(fēng)等。11月30日至12月14日,連續(xù)兩周位列美國AppStore免費(fèi)榜榜首,還拿下十多個(gè)國家的免費(fèi)榜Top1。從商業(yè)模式上看,該應(yīng)用提供三種不同的購買方案,主要的區(qū)別是生成的照片的數(shù)量差異。用戶可以選50、100、200張照片,分別對(duì)應(yīng)3.99、5.99、7.99美元。根據(jù)分析公司SensorTower的數(shù)據(jù),該應(yīng)用程序在12月的前12天在全球范圍內(nèi)安裝了約1350萬次,是11月200萬次的六倍多。這12天消費(fèi)者在App上花費(fèi)了大約2930萬美元(日流水超百萬美元)。根據(jù)SensorTower的最新數(shù)據(jù),LensaAI在今年7月的全球下載量僅為40萬人次,同月全球收入僅為100萬美元。可見人像生成類應(yīng)用若想維持熱度、形成長期穩(wěn)定的收費(fèi)能力,市場(chǎng)玩家仍需繼續(xù)探索。4.2.2妙鴨相機(jī):國內(nèi)首個(gè)“破圈”應(yīng)用,寫真生成引起社交裂變?nèi)讼裆蓪懻鎽?yīng)用妙鴨相機(jī)上架即火爆,迅速爬升社交類應(yīng)用第一名。妙鴨相機(jī)是國內(nèi)第一個(gè)出圈的圖片生成類應(yīng)用。用戶通過上傳一張正面照以及不少于20張的補(bǔ)充照片,就能利用妙鴨相機(jī)生成各式寫真。妙鴨相機(jī)收費(fèi)9.9元,可以解鎖現(xiàn)有模板,包括證件照、古裝寫真、晚禮服寫真等。妙鴨相機(jī)上線后非常火爆,生成圖片的等待時(shí)長一路走高,7月20日晚間高峰期有4000-5000人排隊(duì),需等待十幾個(gè)小時(shí)才能生成圖片。據(jù)七麥數(shù)據(jù),妙鴨相機(jī)近自發(fā)布以來,熱度高漲,截至8月13日,妙鴨相機(jī)在iPhone社交類應(yīng)用中排名第一。妙鴨相機(jī)現(xiàn)階段收入規(guī)??捎^,但市場(chǎng)對(duì)其復(fù)購及持續(xù)收費(fèi)能力存疑,后續(xù)須不停上線新模板、開創(chuàng)新玩法。據(jù)七麥數(shù)據(jù),妙鴨相機(jī)近自上線以來,半個(gè)月時(shí)間收入預(yù)估總計(jì)超過29萬美元,近七日日均收入超過3萬美元,在國內(nèi)圖像生成領(lǐng)域的應(yīng)用中遙遙領(lǐng)先,可以算作破圈的現(xiàn)象級(jí)產(chǎn)品。但目前還處于拉新階段,后期用戶的復(fù)購收入持續(xù)增長的能力亟待驗(yàn)證。4.3競(jìng)爭(zhēng)優(yōu)勢(shì):看好有算力儲(chǔ)備的公司目前,國內(nèi)外圖像生成類模型及模應(yīng)用大多按照生成量、生成速度等來區(qū)分定價(jià),但不同點(diǎn)是國外產(chǎn)品的付費(fèi)套餐中多有“無限量”套餐,而國內(nèi)產(chǎn)品未出現(xiàn)“無限量”套餐,可看出國內(nèi)算力仍為瓶頸,因此,具有算力儲(chǔ)備的云服務(wù)廠商在發(fā)展視頻生成類應(yīng)用時(shí)具有天然優(yōu)勢(shì)。4.3.1Midjourney:“無限量”套餐攏獲用戶,映射市場(chǎng)對(duì)算力的高需求Midjourney作為文生圖領(lǐng)域的代表性多模態(tài)大模型,相比于大多數(shù)有限生成量的圖片生成類模型及應(yīng)用,Midjourney的“無限量”套餐具有天然優(yōu)勢(shì),其用戶規(guī)模和營收已建立起一定壁壘。據(jù)SimilarWeb數(shù)據(jù),Midjourney官網(wǎng)在2023年8月網(wǎng)站訪問量為2850萬人次,平均停留時(shí)長達(dá)到6分30秒。且從市場(chǎng)公開信息得知,Midjourney的日活用戶已達(dá)到1500萬,超過開源模型StableDiffusion的1000萬日活,其年?duì)I收也超過1億美元。4.3.2騰訊云:云服務(wù)廠商加緊多模態(tài)生成布局反過來看,由于本身具有算力能力優(yōu)勢(shì),云服務(wù)大廠也開始注重多模態(tài)生成的能力建設(shè),上線圖像生成類產(chǎn)品。以騰訊為例,騰訊的AI繪畫產(chǎn)品作為功能模塊,集成在騰訊云解決方案平臺(tái)上,客戶可選擇開通AI繪畫服務(wù),便可使用此項(xiàng)功能。目前,用戶可在騰訊云上體驗(yàn)“智能文生圖”及“智能圖生圖”功能,兩種功能每月共提供20次體驗(yàn)額度,正式服務(wù)需接入API使用。騰訊云AI繪畫功能分為PaaS和SaaS兩種產(chǎn)品形態(tài),PaaS需要二次開發(fā),SaaS版開箱即用。4.3.3無界AI:“按時(shí)長付費(fèi)”和“潮汐生成模式”彰顯算力底座特性無界AI于2022年5月入局AI繪畫,為國內(nèi)較早起步的AI作畫工具平臺(tái)之一。用戶可通過直接開通會(huì)員享受基本權(quán)益,價(jià)格為100元/月、1000元/年,能實(shí)現(xiàn)文生圖,選擇畫面大小、主題、風(fēng)格等元素,還享有潮汐模式免費(fèi)無限創(chuàng)作、解鎖全部專用模型、存儲(chǔ)無限擴(kuò)容、精繪折扣、選擇更多參數(shù)等會(huì)員權(quán)益。其中,潮汐模式下會(huì)員可以免費(fèi)無限創(chuàng)作?!俺毕J健庇梢归g生成更便宜的“夜間生成模式”發(fā)展而來,旨在利用算力資源空閑時(shí)段作畫,實(shí)現(xiàn)“以時(shí)間換價(jià)格”。用戶還可開通權(quán)益卡或購買時(shí)長。其中,1)開通權(quán)益卡能獲得更多積分,適用于對(duì)普通文生圖有更多需求(如更多超分辨次數(shù)、更多單張加速次數(shù))的用戶。2)購買時(shí)長適用于需要更多生成類型(如圖生圖、條件生圖)和功能(如局部重繪、多區(qū)域控制繪圖等)的用戶,即專業(yè)版用戶。按時(shí)長付費(fèi)也是阿里云、騰訊云等AI云算力服務(wù)商常用的收費(fèi)方式,我們認(rèn)為,這在一定程度上,反映出AI圖片生成應(yīng)用與底層算力服務(wù)的高度相關(guān)性。4.4業(yè)務(wù)協(xié)同:看好多模態(tài)生成與原有業(yè)務(wù)有協(xié)同的公司4.4.1Adobe:AI生成工具有望帶來增量付費(fèi)用戶Adobe上線AI創(chuàng)意生成工具Firefly(螢火蟲),或?yàn)锳dobe帶來增量付費(fèi)用戶。Photoshop于2023年3月發(fā)布AI創(chuàng)意生成
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度醫(yī)院保安服務(wù)信息化升級(jí)改造合同
- 2025年度洗車行業(yè)務(wù)拓展合作合同
- 2025年度土地整治項(xiàng)目土方工程承包合同
- 2025年度智能制造生產(chǎn)線設(shè)備采購合同模板
- 2025年度企業(yè)培訓(xùn)顧問培訓(xùn)課程研發(fā)合同
- 2025年度內(nèi)退員工離職手續(xù)辦理與權(quán)益維護(hù)合同范本
- 電子商務(wù)與電子書市場(chǎng)的融合探討
- 現(xiàn)代職業(yè)女性的工作與生活平衡藝術(shù)
- 環(huán)??萍荚谏虡I(yè)領(lǐng)域中的創(chuàng)新應(yīng)用
- 2025年度建筑公司環(huán)保設(shè)施及排放權(quán)轉(zhuǎn)讓合同
- 網(wǎng)絡(luò)和信息安全教育課件
- 運(yùn)動(dòng)損傷以及預(yù)防
- 公司貨款管理制度
- 術(shù)后下肢深靜脈血栓的預(yù)防和護(hù)理
- 高三數(shù)學(xué)試題(含答案)
- 口腔種植術(shù)單病種質(zhì)控查檢表
- 中日勞務(wù)合同范本
- 伐樹工程施工合同范本
- T∕CAOE21.3-2020海岸帶生態(tài)減災(zāi)修復(fù)技術(shù)導(dǎo)則第3部分:鹽沼
- 營口市大學(xué)生??紝U锌荚囌骖}2022
- 煤炭篩分試驗(yàn)技術(shù)操作規(guī)程
評(píng)論
0/150
提交評(píng)論