AIGC產(chǎn)業(yè)研究報(bào)告2023(圖像生成篇)_第1頁
AIGC產(chǎn)業(yè)研究報(bào)告2023(圖像生成篇)_第2頁
AIGC產(chǎn)業(yè)研究報(bào)告2023(圖像生成篇)_第3頁
AIGC產(chǎn)業(yè)研究報(bào)告2023(圖像生成篇)_第4頁
AIGC產(chǎn)業(yè)研究報(bào)告2023(圖像生成篇)_第5頁
已閱讀5頁,還剩10頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

AIGC產(chǎn)業(yè)研究報(bào)告2023(圖像生成篇)圖像作為人工智能內(nèi)容生成的一種模態(tài),一直在AIGC領(lǐng)域中扮演著重要角色,由于圖像生成應(yīng)用的廣泛性和實(shí)用性,使其受到學(xué)術(shù)界和產(chǎn)業(yè)界相當(dāng)多的關(guān)注。近年來,圖像生成技術(shù)也取得了很多關(guān)鍵性突破,從經(jīng)典的GAN技術(shù)到目前主流的擴(kuò)散模型,以及在此基礎(chǔ)上不斷迭代出性能更強(qiáng)、生成效果更好的算法和模型,極大拓展了圖像生成技術(shù)的應(yīng)用領(lǐng)域和發(fā)展前景。而在進(jìn)行商業(yè)化落地時,生成速度和穩(wěn)定性的提升、可控性和多樣性的增強(qiáng),以及數(shù)據(jù)隱私和知識產(chǎn)權(quán)等問題,也需要在圖像生成向各行各業(yè)滲透的過程中進(jìn)行解決和探索。

本報(bào)告將聚焦于圖像生成的技術(shù)發(fā)展和產(chǎn)業(yè)應(yīng)用情況,提出影響模型應(yīng)用能力的關(guān)鍵因素、商業(yè)化過程中的落地挑戰(zhàn),并展望未來的發(fā)展方向,以期為AIGC領(lǐng)域的應(yīng)用開發(fā)者和使用者提供參考和借鑒。

定義圖像生成是指運(yùn)用人工智能技術(shù),根據(jù)給定的數(shù)據(jù)進(jìn)行單模態(tài)或跨模態(tài)生成圖像的過程。根據(jù)任務(wù)目標(biāo)和輸入模態(tài)的不同,圖像生成主要包括圖像合成(imagecomposition),根據(jù)現(xiàn)有的圖片生成新圖像(image-to-image),以及根據(jù)文本描述生成符合語義的圖像(text-to-image)等。

主要類型和應(yīng)用領(lǐng)域根據(jù)圖像構(gòu)成的類型,圖像按照顏色和灰度的多少可以分為二值圖、灰度圖、索引圖和RGB圖,圖像生成模型可實(shí)現(xiàn)不同圖像類型的轉(zhuǎn)換。

在實(shí)際應(yīng)用中,模型的效果表現(xiàn)主要體現(xiàn)在生成圖像的質(zhì)量和圖像的多樣性,其在平面設(shè)計(jì)、游戲制作、動畫制作等領(lǐng)域均有廣泛的應(yīng)用,另外,在醫(yī)學(xué)影像合成與分析,化合物合成和藥物發(fā)現(xiàn)等方面,圖像生成也具有很大的應(yīng)用潛力。技術(shù)發(fā)展的關(guān)鍵階段作為計(jì)算機(jī)視覺領(lǐng)域的重要組成部分,圖像生成的技術(shù)發(fā)展大致經(jīng)歷了三個關(guān)鍵階段:●

GAN生成階段:

生成對抗網(wǎng)絡(luò)(GAN)是上一代主流圖像生成模型,GAN通過生成器和判別器進(jìn)行博弈訓(xùn)練來不斷提升生成能力和鑒別能力,使生成式網(wǎng)絡(luò)的數(shù)據(jù)愈發(fā)趨近真實(shí)數(shù)據(jù),從而達(dá)到生成逼真圖像的目的。但在發(fā)展過程中,GAN也存在穩(wěn)定性較差、生成圖像缺乏多樣性、模式崩潰等問題。

自回歸生成階段:

自回歸模型進(jìn)行圖像生成的靈感得益于NLP預(yù)訓(xùn)練方式的成功經(jīng)驗(yàn),利用Transformer結(jié)構(gòu)中的自注意力機(jī)制能夠優(yōu)化GAN的訓(xùn)練方式,提高了模型的穩(wěn)定性和生成圖像的合理性,但基于自回歸模型的圖像生成在推理速度和訓(xùn)練成本方面的問題,使其實(shí)際應(yīng)用受限。

擴(kuò)散模型生成階段:

對于前代模型在性能方面的局限性,擴(kuò)散模型(DiffusionModel)已經(jīng)使這些問題得到解決,其在訓(xùn)練穩(wěn)定性和結(jié)果準(zhǔn)確性的效果提升明顯,因此迅速取代了GAN的應(yīng)用。而對于產(chǎn)業(yè)應(yīng)用中的大量跨模態(tài)圖像生成需求,則需要結(jié)合CLIP進(jìn)行,CLIP基于文本-圖像對的訓(xùn)練方式能夠建立跨模態(tài)的連接,顯著提升生成圖像的速度和質(zhì)量。

目前,業(yè)內(nèi)主流且生成效果優(yōu)秀的圖像生成產(chǎn)品主要是基于擴(kuò)散模型和CLIP實(shí)現(xiàn)的。

主流模型實(shí)現(xiàn)原理及優(yōu)缺點(diǎn)●

主流模型解析擴(kuò)散模型(DiffusionModel)

1、實(shí)現(xiàn)原理:擴(kuò)散模型是通過定義一個擴(kuò)散步驟的馬爾可夫鏈,通過連續(xù)向數(shù)據(jù)添加隨機(jī)噪聲,直到得到一個純高斯噪聲數(shù)據(jù),然后再學(xué)習(xí)逆擴(kuò)散的過程,經(jīng)過反向降噪推斷來生成圖像。擴(kuò)散模型通過系統(tǒng)地?cái)_動數(shù)據(jù)中的分布,再恢復(fù)數(shù)據(jù)分布,使整個過程呈現(xiàn)一種逐步優(yōu)化的性質(zhì),確保了模型的穩(wěn)定性和可控度。2、模型優(yōu)缺點(diǎn):擴(kuò)散模型的優(yōu)點(diǎn)在于其基于馬爾可夫鏈的正向及反向擴(kuò)散過程能夠更加準(zhǔn)確地還原真實(shí)數(shù)據(jù),對圖像細(xì)節(jié)的保持能力更強(qiáng),因此生成圖像的寫實(shí)性更好。特別是在圖像補(bǔ)全修復(fù)、分子圖生成等應(yīng)用上擴(kuò)散模型都能取得很好的效果。但由于計(jì)算步驟的繁雜,相應(yīng)地,擴(kuò)散模型也存在采樣速度較慢的問題,以及對數(shù)據(jù)類型的泛化能力較弱。CLIP(ContrastiveLanguage-imagePre-training)

1、原理:CLIP是基于對比學(xué)習(xí)的文本-圖像跨模態(tài)預(yù)訓(xùn)練模型,其訓(xùn)練原理是通過編碼器分別對文本和圖像進(jìn)行特征提取,將文本和圖像映射到同一表示空間,通過文本-圖像對的相似度和差異度計(jì)算來訓(xùn)練模型,從而能夠根據(jù)給定的文本生成符合描述的圖像。

2、模型優(yōu)缺點(diǎn):CLIP模型的優(yōu)點(diǎn)在于其基于多模態(tài)的對比學(xué)習(xí)和預(yù)訓(xùn)練的過程,能夠?qū)⑽谋咎卣骱蛨D像特征進(jìn)行對齊,因此無需事先標(biāo)注數(shù)據(jù),使其在零樣本圖像文本分類任務(wù)中表現(xiàn)出色;同時對文本描述和圖像風(fēng)格的把握更加準(zhǔn)確,并能夠在不改變準(zhǔn)確性的同時對圖像的非必要細(xì)節(jié)進(jìn)行變化,因此在生成圖像的多樣性方面表現(xiàn)更佳。由于CLIP本質(zhì)上屬于一種圖像分類模型,因此對于復(fù)雜和抽象場景的表現(xiàn)存在局限性,例如可能在包含時間序列數(shù)據(jù)和需要推理計(jì)算的任務(wù)中生成圖像的效果不佳。另外,CLIP的訓(xùn)練效果依賴大規(guī)模的文本-圖像對數(shù)據(jù)集,對訓(xùn)練資源的消耗比較大。

國內(nèi)外代表模型:影響模型應(yīng)用能力的關(guān)鍵因素從實(shí)際應(yīng)用視角來看,圖像生成模型的關(guān)鍵能力包括圖像質(zhì)量、圖像多樣性,以及圖像穩(wěn)定性和可控性,這些能力決定了模型在應(yīng)用表現(xiàn)上的差異?!?/p>

圖像質(zhì)量

圖像質(zhì)量包括生成圖像的像素值,精細(xì)化程度,是否能夠充分展現(xiàn)優(yōu)秀的畫質(zhì)和細(xì)節(jié)信息的豐富程度,例如物體的細(xì)節(jié)、紋理和色彩,以及圖像的真實(shí)程度,也就是在基于真實(shí)場景圖像生成任務(wù)中,圖像的整體表達(dá)能夠符合現(xiàn)實(shí)世界的基本邏輯。例如在產(chǎn)品包裝設(shè)計(jì)、海報(bào)設(shè)計(jì)等行業(yè)客戶需求中,通常對于圖像的尺寸、分辨率、噪聲、亮度、深度等有著具體要求,需要結(jié)合應(yīng)用場景對圖像精度進(jìn)行準(zhǔn)確把握。

圖像多樣性

在圖像多樣性的應(yīng)用上,主要取決于模型對于像素生成過程的控制能力,以及通過對數(shù)據(jù)分布的預(yù)測探索更加多樣化的圖像表達(dá),從而能夠更好地進(jìn)行圖像細(xì)節(jié)的控制,滿足多種風(fēng)格化生成的要求。其中,個人用戶看重構(gòu)圖、顏色、主題和實(shí)體的細(xì)節(jié)表現(xiàn)力和風(fēng)格的表達(dá),以及圖像的幻想程度、藝術(shù)性等。行業(yè)用戶則在此基礎(chǔ)上,更加強(qiáng)調(diào)在生成多張圖像或是不同風(fēng)格圖像時,對語義一致性的把握,因此在滿足圖像多樣性要求的同時能夠保持核心元素表達(dá)的統(tǒng)一,將更有利于實(shí)現(xiàn)商用。

圖像穩(wěn)定性

實(shí)際應(yīng)用中,原始圖像可能會存在光線不足、模糊抖動,因此需要圖像生成模型對于輸入數(shù)據(jù)的噪聲具有一定的魯棒性,例如扭曲、失真、異常描述等,能夠在存在干擾的情況下仍然生成高質(zhì)量的圖像。

圖像可控性

圖像可控性是使用者能夠?qū)ι蓤D像進(jìn)行細(xì)節(jié)控制和后續(xù)調(diào)整,例如圖像的顏色、形狀、紋理以及生成的物體數(shù)量等。可控性是圖像生成產(chǎn)品實(shí)現(xiàn)成熟商業(yè)化的前提。個人用戶的實(shí)際需求主要在能否通過調(diào)整文本描述來修改局部細(xì)節(jié),進(jìn)行二次圖像生成。行業(yè)用戶對圖像可控性的要求更高,包括能否進(jìn)行全景控制、精確區(qū)域控制、任意細(xì)節(jié)控制等,因此需要考慮控制條件的注入、對新數(shù)據(jù)的泛化能力以及除文本外的其他控制方法。典型產(chǎn)業(yè)應(yīng)用場景圖像生成是計(jì)算機(jī)視覺領(lǐng)域的重要組成部分,與圖像生成相關(guān)的典型應(yīng)用場景包括圖像分類、圖像分割、圖像生成、圖像風(fēng)格轉(zhuǎn)換、圖像修復(fù)、圖像超分辨率等,結(jié)合數(shù)字信號處理技術(shù)、傳感技術(shù)、虛擬現(xiàn)實(shí)技術(shù)的快速發(fā)展,目前已經(jīng)廣泛應(yīng)用在各行各業(yè)的場景中。

圖像分類、圖像分割:可以在工業(yè)、工程設(shè)計(jì)等領(lǐng)域輔助進(jìn)行目標(biāo)識別、圖像相似度檢索,輔助CAD設(shè)計(jì)等;在醫(yī)學(xué)領(lǐng)域可以幫助進(jìn)行醫(yī)學(xué)影像標(biāo)注、解剖、病理結(jié)構(gòu)變化分析等。另外,圖像生成模型在零樣本分類任務(wù)中的良好表現(xiàn),可以在不需要進(jìn)行額外訓(xùn)練的情況下快速創(chuàng)建項(xiàng)目,有效提升了模型的工程化能力,降低了對數(shù)據(jù)標(biāo)注的要求和訓(xùn)練成本。

圖像生成和圖像風(fēng)格轉(zhuǎn)換:在藝術(shù)設(shè)計(jì)、產(chǎn)品設(shè)計(jì)、動畫與游戲制作等方面均有充分的商業(yè)化潛力,可以將其大量應(yīng)用于創(chuàng)作藝術(shù)作品,根據(jù)設(shè)計(jì)者的草稿圖、創(chuàng)意概念來生成圖像,以及圖像合成、圖像編輯、增強(qiáng)圖像藝術(shù)性等,從而能夠幫助設(shè)計(jì)師、建模師進(jìn)行動漫人物、游戲場景的制作,幫助完成海報(bào)、產(chǎn)品LOGO和產(chǎn)品包裝設(shè)計(jì)等工作。在電商的應(yīng)用方面,圖像生成可以在虛擬試衣間、模擬商品展示等場景提升用戶的在線購物體驗(yàn)。

圖像修復(fù):能夠根據(jù)已有圖像的上下文信息修復(fù)缺失部分,例如上色、去除噪聲或填充缺失部分,對圖像對比度、銳度或色彩鮮艷度等圖像要素的增強(qiáng)等,可以應(yīng)用于數(shù)字化歷史文獻(xiàn)的修復(fù)、圖像修補(bǔ)等。在攝影與影視制作方面,對老照片、老電影的修復(fù)和畫質(zhì)提升都具有很強(qiáng)的應(yīng)用價值。

圖像超分辨率:能夠從低分辨率圖像恢復(fù)和重建高分辨率圖像,在醫(yī)學(xué)影像處理場景中,結(jié)合模型的數(shù)據(jù)合成和預(yù)測能力進(jìn)行圖像識別、特征提取和圖像重建,能夠幫助醫(yī)生創(chuàng)建逼真的病例和解剖結(jié)構(gòu),生成CT掃描圖像,輔助進(jìn)行病情的分析診斷。另外,在天文觀測和衛(wèi)星遙感觀測等方面,利用圖像超分辨率能夠提升成像設(shè)備的性能,并克服時間差異、氣象變化等因素引起的圖像場景變化,為天文探索發(fā)現(xiàn)增加了更多可能性。

未來,隨著圖像生成技術(shù)的發(fā)展,其與3維生成的強(qiáng)相關(guān)性將會更多在視頻、教育、建筑以及虛擬空間建模等方向形成縱深探索。模型的穩(wěn)定可控能力是影響未來發(fā)展的核心要素,目前圖像生成內(nèi)容仍然存在較大的不確定性,對于藝術(shù)創(chuàng)作有助于激發(fā)靈感,但對圖像本身可控性要求極高的領(lǐng)域來說,生成圖像是否與預(yù)期目標(biāo)相符,以及對圖像精度的精準(zhǔn)控制十分關(guān)鍵,這將有利于拓展其在生物醫(yī)藥、工業(yè)制造、航空航天等領(lǐng)域的應(yīng)用前景。商業(yè)化過程中面臨的挑戰(zhàn)●

國內(nèi)外主流圖像生成產(chǎn)品及商業(yè)模式

從國內(nèi)外市場需求和規(guī)模來看,目前圖像生成在AIGC領(lǐng)域中總體的商業(yè)化進(jìn)展較快。國外主流的圖像生成平臺以Midjourney、StableDiffusion、DALL-E2為代表。其中,Midjourney采用閉源付費(fèi)模式,在對DiffusionModel精調(diào)后部署在Discord上,用戶通過與bot的交互來獲得圖片,從生成效果來說其對藝術(shù)風(fēng)格的把握獨(dú)樹一幟。Midjourney通過早期開放公測積累了大量用戶群,在Discord頻道中形成了高活躍度的社群,以SaaS付費(fèi)訂閱模式提供通用或定制化服務(wù),構(gòu)建起了較為成熟的商業(yè)模式。而StableDiffusion則完全開源,因此模型的優(yōu)化迭代速度非???,形成了較好的開發(fā)者生態(tài),其盈利手段主要通過API收費(fèi)和面向?qū)I(yè)領(lǐng)域的B端用戶提供定制化模型服務(wù);此外,StableDiffusion可以作為插件應(yīng)用嵌入Photoshop,支持直接在PS上生成圖像并保存,能夠?yàn)閷I(yè)設(shè)計(jì)工作者的效率和體驗(yàn)帶來顯著提升。

DALL-E2通過百億級大規(guī)模參數(shù)集進(jìn)行訓(xùn)練,能夠形成穩(wěn)定和高質(zhì)量的圖像,生成效果更接近真實(shí)照片,目前DALL-E2采取閉源付費(fèi)模式,而依托OpenAI與微軟的深度合作關(guān)系,搭載ChatGPT能力并將產(chǎn)品嵌入微軟的辦公生態(tài),將使DALL-E2建立起核心競爭優(yōu)勢。

另外,Adobe也推出了圖像生成模型集Firefly,并融入到Adobe工作流,Adobe還強(qiáng)調(diào)其訓(xùn)練數(shù)據(jù)來自AdobeStock素材庫、公開許可內(nèi)容和版權(quán)已過期的公共領(lǐng)域內(nèi)容,可以生成專為商業(yè)使用的高質(zhì)量圖像,并計(jì)劃和Photoshop、Illustrator、Premiere等系列產(chǎn)品深度整合,這些手段將有利于建立面向?qū)I(yè)設(shè)計(jì)領(lǐng)域的客戶優(yōu)勢,提升用戶粘性。

對于國內(nèi)市場而言,隨著我國自主研發(fā)模型的技術(shù)進(jìn)展,文心一格、CogView、ZMO等AI圖像生成產(chǎn)品通過模型調(diào)優(yōu)和知識增強(qiáng)訓(xùn)練,對中文提示詞具備更強(qiáng)的理解能力,在美術(shù)創(chuàng)作、廣告設(shè)計(jì)等領(lǐng)域已經(jīng)形成了一定的用戶基礎(chǔ)。其中,文心一格提供面向C端用戶的免費(fèi)和付費(fèi)模式,依托文心大模型的能力,文心一格在多模態(tài)交互方面具有明顯優(yōu)勢;CogView通過API開放能力,支持與企業(yè)AI底座的能力對接和模型微調(diào),并提供面向B端用戶的定制訓(xùn)練和私有化部署服務(wù);ZMO則將商業(yè)化重點(diǎn)聚焦在圖生圖任務(wù)中,進(jìn)行產(chǎn)品圖到營銷海報(bào)等真實(shí)場景的圖像生成,積累了一定規(guī)模且有付費(fèi)意愿的小B端用戶??梢灶A(yù)見,國內(nèi)圖像生成領(lǐng)域的商業(yè)化進(jìn)程速度將加快并迎來用戶的快速增長期,但仍然需要結(jié)合技術(shù)能力和產(chǎn)品能力進(jìn)行深度打磨,通過構(gòu)建數(shù)據(jù)層、模型層、應(yīng)用層的生態(tài)閉環(huán)形成可持續(xù)發(fā)展。

圖像生成商業(yè)化落地挑戰(zhàn)

結(jié)合國外主流平臺的成功經(jīng)驗(yàn)與國內(nèi)市場情況,打造成熟的商業(yè)模式需要關(guān)注來自三個方面的挑戰(zhàn)。●

數(shù)據(jù)能力挑戰(zhàn)圖像生成的效果很大程度依賴于訓(xùn)練數(shù)據(jù)的規(guī)模和數(shù)據(jù)質(zhì)量,圖像生成產(chǎn)品在向更多專業(yè)領(lǐng)域和行業(yè)深入時,需要考慮行業(yè)存在的數(shù)據(jù)壁壘、數(shù)據(jù)量不足、數(shù)據(jù)質(zhì)量不高等問題。另外,針對不同行業(yè)的特定場景的圖像生成要求,需要結(jié)合行業(yè)知識進(jìn)行增量訓(xùn)練,但目前圖像生成模型仍然存在對復(fù)雜語義和抽象關(guān)系上的理解難度。在模型訓(xùn)練階段,可以通過數(shù)據(jù)增強(qiáng)策略、利用合成數(shù)據(jù)預(yù)訓(xùn)練等方式進(jìn)行優(yōu)化,提升下游任務(wù)的性能。但在商業(yè)化過程中,還需要考慮資源、性能、成本的平衡。因此,針對不同類型的用戶群體,構(gòu)建數(shù)據(jù)資產(chǎn)經(jīng)營的閉環(huán)將起到?jīng)Q定作用。對于C端用戶,通過結(jié)合用戶所輸入的提示詞(prompt)、生成圖像選擇等進(jìn)行交互行為和偏好分析,利用這些沉淀的數(shù)據(jù)形成可靠的數(shù)據(jù)資產(chǎn),以此提升數(shù)據(jù)篩選、標(biāo)注和分類能力,以及模型的中文語義理解能力和圖像風(fēng)格化能力,更有針對性地進(jìn)行模型迭代;同時引導(dǎo)用戶形成中文生成內(nèi)容社區(qū),來優(yōu)化內(nèi)容分發(fā)方式,針對不同的用戶圈層和付費(fèi)意愿打造差異化的服務(wù)模式。Midjourney的一個關(guān)鍵成功因素就是基于Discord建立內(nèi)容社區(qū)形成用戶共創(chuàng)的格局,從而不斷沉淀數(shù)據(jù)資產(chǎn),提升用戶粘性。對于B端用戶,可以借鑒StabilityAI的商業(yè)模式,通過建立適用性良好的框架積累不同行業(yè)客群,沉淀內(nèi)容和行業(yè)經(jīng)驗(yàn),以此提供面向用戶特定需求的定制模型,例如能夠?qū)赢嬛谱鳌⒂耙曋谱?、建筑設(shè)計(jì)等行業(yè)高質(zhì)量的藝術(shù)效果圖的需求進(jìn)行模型調(diào)優(yōu)和二次開發(fā),形成具有行業(yè)屬性的圖像生成產(chǎn)品,將是國內(nèi)圖像生成下階段商業(yè)化的成功關(guān)鍵?!?/p>

產(chǎn)品化能力挑戰(zhàn)圖像生成模型落地應(yīng)用的過程中,需要解決模型訓(xùn)練階段和下游任務(wù)實(shí)現(xiàn)之間的差距,滿足產(chǎn)業(yè)場景下對圖像生成的實(shí)際需求。例如在實(shí)際應(yīng)用時,用戶所輸入的提示詞直接決定了圖像生成的實(shí)際效果,因此模型對于prompt的理解和運(yùn)用非常關(guān)鍵。如果能在文生圖過程中,減少文本描述量和復(fù)雜度的情況下保持對語義的準(zhǔn)確把握,將明顯降低用戶的使用門檻;在此基礎(chǔ)上,在用戶意圖的基礎(chǔ)上進(jìn)行擴(kuò)展,生成超越預(yù)期的高質(zhì)量圖像,將有效提升用戶體驗(yàn),提升產(chǎn)品化能力。而影響圖像生成的產(chǎn)品化能力的因素,一是模型本身的性能能否直接滿足應(yīng)用要求,二是能否在產(chǎn)品中引入附加工具來解決模型局限性問題,而可控性是產(chǎn)品化的核心挑戰(zhàn)。其中一個實(shí)現(xiàn)方式是通過擴(kuò)大參數(shù)集和數(shù)據(jù)集規(guī)模來提升模型性能,并提高對圖像編輯、圖像風(fēng)格轉(zhuǎn)化、圖像超分辨率等多種下游任務(wù)融合應(yīng)用的能力,從而支持多種個性化需求和控制生成圖像的細(xì)節(jié),相應(yīng)地,也需要更強(qiáng)的模型部署能力、環(huán)境和配套資源。另外,還可以通過引入ControlNet等微調(diào)模型來生成指定要求的圖像,實(shí)現(xiàn)對畫面中的物體位置、人物姿勢等精確控制,優(yōu)化圖像生成模型不可控的問題,并能夠進(jìn)行視角調(diào)整、光影調(diào)整、細(xì)節(jié)添加等,以滿足B端用戶對于產(chǎn)品可控性的更高要求,同時也有利于在控制訓(xùn)練成本的前提下實(shí)現(xiàn)產(chǎn)品的快速落地。●

監(jiān)管合規(guī)挑戰(zhàn)生成式AI的發(fā)展不可避免引發(fā)來自人工智能技術(shù)應(yīng)用風(fēng)險的問題,商業(yè)化的一大前提是需要滿足監(jiān)管的合規(guī)性要求,近日網(wǎng)信辦已經(jīng)下發(fā)了《生成式人工智能服務(wù)管理辦法》的征求意見稿,也將加速AIGC對于數(shù)據(jù)使用和行業(yè)發(fā)展的規(guī)范化。對于圖像生成類產(chǎn)品,合規(guī)性考量主要包括隱私保護(hù)、版權(quán)保護(hù)、人工智能治理三個方面。隱私保護(hù)方面,由于使用圖像生成工具進(jìn)行內(nèi)容創(chuàng)作的成本低、操作簡單、逼真程度高,在一定程度上造成了信息濫用問題,可能導(dǎo)致隱私泄露、偽造欺詐引發(fā)的信息安全和財(cái)產(chǎn)損失,例如將深度合成的人臉圖像用于金融領(lǐng)域的身份識別欺詐,利用含有欺騙性或者其他有害的圖像內(nèi)容進(jìn)行傳播和其他不當(dāng)行為等。因此需要提升圖像在生成、流轉(zhuǎn)、存儲等過程中的數(shù)據(jù)安全,以及加強(qiáng)對偽造圖像的判別和提示。版權(quán)保護(hù)方面,圖像生成模型基于網(wǎng)絡(luò)公開數(shù)據(jù)進(jìn)行訓(xùn)練,將可能會產(chǎn)生涉及圖像知識產(chǎn)權(quán)的風(fēng)險,例如有研究指出生成模型可能存在從訓(xùn)練數(shù)據(jù)中復(fù)制圖像而不是生成新圖像。目前,一些行業(yè)和相關(guān)機(jī)構(gòu)已經(jīng)要求所有生成式AI內(nèi)容必須注明來源,或是直接禁用生成式AI的使用。圖像生成作品是否應(yīng)該受到版權(quán)保護(hù),原創(chuàng)內(nèi)容與生成內(nèi)容的比例應(yīng)該如何界定等,都是圖像生成在實(shí)際應(yīng)用中需要考量的問題。人工智能治理方面,一是公平性問題,由于圖像生成模型的訓(xùn)練數(shù)據(jù)包含大量未經(jīng)過清洗的數(shù)據(jù)集,使圖像生成模型中可能隱藏的如性別、種族、文化等數(shù)據(jù)偏見。二是模型可解釋性問題,大模型在深度神經(jīng)網(wǎng)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論