下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
ChatGPT的大火,帶來了AIGC技術(shù)及相關(guān)應(yīng)用的“強(qiáng)勢出圈”。除了感慨AI超強(qiáng)的內(nèi)容生成輸出能力之外,各界也開始思考AIGC可能產(chǎn)生的潛在風(fēng)險(xiǎn)。2023年1月23日,美國三名漫畫藝術(shù)家針對包括StabilityAI在內(nèi)的三家AIGC商業(yè)應(yīng)用公司,在加州北區(qū)法院發(fā)起集體訴訟,指控StabilityAI研發(fā)的StableDiffusion模型以及三名被告各自推出的、基于上述模型開發(fā)的付費(fèi)AI圖像生成工具構(gòu)成版權(quán)侵無獨(dú)有偶,2月15日《華爾街日報(bào)》記者弗朗西斯科·馬可尼(FrancescoMarconi)也公開指責(zé),OpenAI公司未經(jīng)授權(quán)大量使用路透社、紐約時(shí)報(bào)、衛(wèi)報(bào)、BBC等國外主流媒體的文章訓(xùn)練ChatGPT模型,但從AIGC技術(shù)開發(fā)與應(yīng)用中的知識產(chǎn)權(quán)尤其是版權(quán)侵權(quán)問題之所以受到高度關(guān)注,其根源在于AIGC模型的形成和完善依賴于大量的數(shù)據(jù)訓(xùn)練,而用于訓(xùn)練的數(shù)據(jù)往往包含受版權(quán)法保護(hù)的內(nèi)容。AIGC是如何利用版權(quán)作品進(jìn)行數(shù)據(jù)訓(xùn)練與輸出成果的?這一過程存在哪些版權(quán)侵權(quán)風(fēng)險(xiǎn)?應(yīng)當(dāng)如何有效應(yīng)對AIGC版權(quán)利用帶來的侵權(quán)風(fēng)險(xiǎn)?本文以“StableDiffusion案”為引,結(jié)合AIGC內(nèi)容生產(chǎn)模式的技術(shù)原理,對上述“StableDiffusion” AIGC模型版權(quán)侵權(quán)案作為全球首例知名的AIGC商業(yè)化應(yīng)用領(lǐng)域,算法模型及訓(xùn)練數(shù)據(jù)版權(quán)侵權(quán)案,“StableDiffusion案”自起訴書公布伊始便引起了各界關(guān)注與探討,其最終判決結(jié)果亦將對AIGC產(chǎn)業(yè)和技術(shù)發(fā)展產(chǎn)生舉足輕重的影響?;貧w到案件本身,我們發(fā)現(xiàn):其一,從核心爭議來看,當(dāng)前國內(nèi)外對于AIGC獲取與利用版權(quán)作品進(jìn)行算法訓(xùn)練是否合法存在諸多爭議,尚無立法和司法層面的明確共識;其二,從涉案技術(shù)原理而言,StableDiffusion模型訓(xùn)練過程中利用版權(quán)作品的方式、利用行為的版權(quán)定待分析明確。在本案中,原告圍繞StabilityAI公司未經(jīng)權(quán)利人許可,獲取與利用其版權(quán)作品作為StableDiffusion的“訓(xùn)練圖像”展開指控。原告將StableDiffusion模型定性為“一個(gè)復(fù)雜的拼貼工具”(acomplexcollagetool)——“將無數(shù)受版權(quán)保護(hù)的圖像存儲和合并為訓(xùn)練圖像后……生成完全基于訓(xùn)練圖像的‘新’圖像”。被告“從使用受版權(quán)保護(hù)的圖像中獲得商業(yè)利益和豐厚利潤”,而數(shù)百萬權(quán)利人則因生成的AIGC模型涉及 表面看,不同AIGC模型生成的內(nèi)容形式各異,涵蓋文字、圖像、語音、視頻等。但各類AIGC模型利用現(xiàn)有作品進(jìn)行模型訓(xùn)練、生成最終結(jié)果的方式卻存在異曲同工之處:將數(shù)據(jù)庫中的作品數(shù)據(jù)進(jìn)行一定程度的形式轉(zhuǎn)換后輸入AIGC模型,利用AIGC模型自主學(xué)習(xí)能力從中提取有價(jià)值的內(nèi)容,再根據(jù)輸入的指令生成與之相匹配的學(xué)習(xí)結(jié)果加以輸出。以此次陷入糾紛的StableDiffusion模型為例,其以包含數(shù)以億計(jì)的圖像數(shù)據(jù)庫——LAION-5B[4]作為訓(xùn)練數(shù)據(jù)來源,原告主張的被侵權(quán)作品亦包含于內(nèi)。簡單來講,StableDiffusion模型對版權(quán)作品的利用存在于兩個(gè)階段。第一,AI模型訓(xùn)練階段。StableDiffusion利用版權(quán)作品訓(xùn)練內(nèi)部組件“圖像編碼器”(U-Net模型),輔之以“Clip文本編碼器”(TextEncoder模型),最終做到只需輸入一段描述性文字,即可生成對應(yīng)的圖像內(nèi)容。第二,AI模型應(yīng)用階段。StableDiffusion經(jīng)過充分訓(xùn)練后,可以依據(jù)用戶給出的文本輸出最終圖像。但這些生成的圖像內(nèi)容,很大的概率包含并展現(xiàn)出作為訓(xùn)練數(shù)據(jù)的版權(quán)作品的元素及特征。AIGC模型訓(xùn)練階段存在哪些 在模型訓(xùn)練階段,StableDiffusion會(huì)將版權(quán)作品和與之對應(yīng)的文本數(shù)據(jù)轉(zhuǎn)換為同一個(gè)“圖像信息空間” (latentspace)的“潛在表現(xiàn)形式”(LatentRepresentations)。具言之,StableDiffusion模型以從數(shù)據(jù)庫中下載的作品作為輸入對象,對其添加噪點(diǎn)并進(jìn)行編碼(壓縮),使作品進(jìn)入“圖像信息空間”。進(jìn)入這個(gè)空間的版權(quán)作品,會(huì)與被“Clip文本編碼器”編碼的描述性文本進(jìn)行“交互”,得到兩者信息融合的簡單解釋,之所以StableDiffusion模型訓(xùn)練涉及增加噪點(diǎn)和去噪點(diǎn)的過程,是因?yàn)椋翰煌谌祟愖鳟嫷钠瘘c(diǎn)是“從無到有”,即在白紙上開始增加線條顏色等,最終形成圖像;StableDiffusion模型作畫是“從有到無”,即從布滿雜亂噪點(diǎn)的底板(類似于九十年代電視的“雪花屏”),不斷去掉無關(guān)的噪點(diǎn),直至保留最終目標(biāo)圖像的過程。若將訓(xùn)練前數(shù)據(jù)準(zhǔn)備過程,也囊括至模型訓(xùn)練階段。則StableDiffusion模型對版權(quán)作品的主要利用行為系“復(fù)制”與“改編”。相關(guān)行為主要體現(xiàn)于兩個(gè)步驟中。其一,是準(zhǔn)備訓(xùn)練數(shù)據(jù)過程中的復(fù)制。由于LAION-5B數(shù)據(jù)庫本身并不提供版權(quán)作品副本而僅提供版權(quán)作品在線URL列表的索引,因此在訓(xùn)練StableDiffusion模型前,需要先將作為訓(xùn)練數(shù)據(jù)的作品從相應(yīng)網(wǎng)絡(luò)地址下載并存儲,以形成版權(quán)作品的副本。其二,是對作品進(jìn)行編碼后,將其輸入至“圖像信息空間”的改編。較之于對作品的直接下載與存儲,過程對作品進(jìn)行了噪聲添加與編碼(壓縮),未在“圖像信息空間”“無差還原”原始版權(quán)作品,但其仍保留了作品內(nèi)容中最關(guān)鍵、本質(zhì)的特征,應(yīng)當(dāng)認(rèn)定為版權(quán)法意義上的改編。 AIGC存在哪些版權(quán)侵權(quán)風(fēng)險(xiǎn)?在內(nèi)容輸出階段,通過StableDiffusion模型生成最終圖像,首先需要先通過“Clip文本編碼器”將用戶輸入的文本對應(yīng)至“圖像信息空間”的“潛在表現(xiàn)形式”。其次,由經(jīng)過噪聲輸出訓(xùn)練的“U-Net模塊”,對該潛在表現(xiàn)形式中添加的噪聲進(jìn)行預(yù)測。再次,對該文本的潛在表現(xiàn)形式減去“U-Net模塊”所預(yù)測的噪聲,根據(jù)用戶的設(shè)定進(jìn)行若干次“去噪”,最終得到新的圖像內(nèi)容。這一階段,對原版權(quán)作品的利用需結(jié)合最終生成內(nèi)容判斷。若去噪與解碼后生成的內(nèi)容,與原作品在表達(dá)上構(gòu)成“實(shí)質(zhì)性相似”,則落入“復(fù)制權(quán)”的規(guī)制范圍;若不構(gòu)成“實(shí)質(zhì)性相似”,而是在保留作品基礎(chǔ)表達(dá)的前提下形成了新的表達(dá),則可能構(gòu)成對原作品“改編權(quán)”的侵害。在將討論對象放寬至整體意義上的AIGC模型,谷歌公司的研究人員KevinP.Murphy指出:機(jī)器學(xué)習(xí)模型有時(shí)會(huì)重建輸入數(shù)據(jù)的特性,而不是反映這些數(shù)據(jù)的潛在趨勢。此類模型可以視為生成作品的概率模型,落入原作“復(fù)制品”或“衍生作品”的寬泛定義,存在侵犯“復(fù)制權(quán)”與“改編權(quán)”的風(fēng)險(xiǎn)。[6]此外,依據(jù)StableDiffusion官方網(wǎng)站的聲明,StableDiffusion生成的新內(nèi)容會(huì)以“CC01.0通用協(xié)議”的方式呈現(xiàn)于互聯(lián)網(wǎng)環(huán)境中,“完全開源”。[7]從版權(quán)法來看,根據(jù)上述傳播生成內(nèi)容的方式是交互式或非交互式,即是否能使公眾在自行選定的時(shí)間和地點(diǎn)獲取,還可能分別落入“信息網(wǎng)絡(luò)傳播權(quán)”與“廣播權(quán)”(網(wǎng)絡(luò)直播)的規(guī)制范疇。AIGC版權(quán)侵權(quán)是 有觀點(diǎn)認(rèn)為,AIGC輸出內(nèi)容侵犯版權(quán)是極小概率的事件,因?yàn)樵跀?shù)以億計(jì)的訓(xùn)練數(shù)據(jù)前擔(dān)憂生成結(jié)果與某一張或某幾張作品相似,似乎過于“杞人憂天”。如英國薩塞克斯大學(xué)的AndrésGuadamuz教授便指出,“經(jīng)過訓(xùn)練的機(jī)器模型,最終通常會(huì)產(chǎn)生與原始圖像不同的新圖像”。[8]然而,在最新一項(xiàng)以StableDiffusion等AI擴(kuò)散生成模型為研究對象的實(shí)驗(yàn)中,馬里蘭大學(xué)和紐約大學(xué)的聯(lián)合研究團(tuán)隊(duì)指出:利用StableDiffusion模型生成的內(nèi)容與數(shù)據(jù)集作品相似度超過50%的可能性達(dá)到了1.88%,鑒于龐大的用戶使用量,令人無法忽略這其中侵權(quán)問題的存在。研究人員表示,由于該項(xiàng)實(shí)驗(yàn)中對復(fù)制(版權(quán)作品)的檢索,僅涵蓋訓(xùn)練數(shù)據(jù)集中的1200萬張圖像(占訓(xùn)練數(shù)據(jù)集整體很小一部分),再加之有較大概率存在檢索方法無法識別的復(fù)制內(nèi)容等因素,該實(shí)驗(yàn)的結(jié)果實(shí)際上會(huì)低估了StableDiffusion的侵權(quán)復(fù)制量。[9]由此可見,AIGC模型作品侵權(quán)風(fēng)險(xiǎn)不能為各界所忽視。AIGC能否構(gòu)成在美國,雖然在合理使用認(rèn)定標(biāo)準(zhǔn)上相較于其他國家更為靈活,更傾向于鼓勵(lì)作品二次利用,但AIGC模型對于訓(xùn)練數(shù)據(jù)中作品的使用也難謂完全合法。“StableDiffusion案”后,很多美國學(xué)者和律師認(rèn)為,結(jié)合美國版權(quán)法上的“四要素分析法”[10],很難將AIGC對于作品的使用納入合理使用的范疇。一方面,StableDiffusion生成的絕大部分內(nèi)容并未在原作品的基礎(chǔ)上增加新的表達(dá)形式,產(chǎn)生區(qū)別于原作品的新功能或價(jià)值,不符合“轉(zhuǎn)換性使用”的要求。另一方面,在版權(quán)作品授權(quán)許可市場已經(jīng)十分成熟的背景下,AIGC生成的內(nèi)容很大程度上擠壓與替代了被利用作品的原有市場。AIGC:“個(gè)人使[11]“個(gè)人使用”適用目的存在嚴(yán)格限制,而目前AIGC模型最終落腳于對不特定主體的商業(yè)性服務(wù),難以與之契合;“適當(dāng)引用”的適用前提“為介紹、評論說明某一作品”或“說明某一問題”,AIGC模型商業(yè)化領(lǐng)域的應(yīng)用顯然難以歸于此類;“科學(xué)研究”對作品的利用限定在“學(xué)校課堂教學(xué)或者科學(xué)研究”,同時(shí)還強(qiáng)調(diào)僅能“少量復(fù)制”,AIGC模型大量復(fù)制與利用作品的現(xiàn)狀無法滿足該項(xiàng)要求。 國內(nèi)學(xué)者曾形象地將AIGC模型與海量訓(xùn)練數(shù)據(jù)的關(guān)系,比喻為“孩子”與“母乳”。[12]人工智能技術(shù)的發(fā)展與提升必須以體量龐大的數(shù)據(jù)供給為前提,而被提供的數(shù)據(jù)中不可避免地包括受版權(quán)保護(hù)的作品。若嚴(yán)格遵循現(xiàn)行《著作權(quán)法》,則人工智能合法獲取與利用作品的方式似乎僅剩傳統(tǒng)的“授權(quán)許可模式”。但對于AIGC內(nèi)容生產(chǎn)而言,既有的授權(quán)許可模式又存在天然的適用困境。一方面,授權(quán)許可模式可能造成AIGC研發(fā)的“寒蟬效應(yīng)”。在面臨版權(quán)作品高昂的授權(quán)許可費(fèi)用時(shí),AIGC研發(fā)主體往往面臨兩種選擇:一是,放棄AIGC領(lǐng)域,進(jìn)而轉(zhuǎn)向其他行業(yè);二是,堅(jiān)守AIGC領(lǐng)域,但使用免費(fèi)數(shù)據(jù)進(jìn)行訓(xùn)練。然而,前者無疑阻礙了人工智能技術(shù)和產(chǎn)業(yè)發(fā)展的趨勢,與科技進(jìn)步規(guī)律相違背;后者則可能因訓(xùn)練數(shù)據(jù)的不足,而引發(fā)算法模型偏見等不良后果。另一方面,授權(quán)許可模式在實(shí)操層面存在難以落地的問題。AIGC模型所需的訓(xùn)練數(shù)據(jù)中包含的作品數(shù)量眾多、來源各異、權(quán)屬不同,若采用事先授權(quán)許可的方式則:首先,需要精準(zhǔn)地將受保護(hù)的作品從海量數(shù)據(jù)中進(jìn)行分離、提??;其次,再找到每一部版權(quán)作品對應(yīng)的權(quán)利人與之協(xié)商授權(quán),并支付價(jià)格不一的授權(quán)費(fèi)用。上述過程漫長且復(fù)雜,很難落地執(zhí)行。此外,AIGC數(shù)據(jù)訓(xùn)練對作品數(shù)量的需求遠(yuǎn)超出著作權(quán)集體管理組織所能調(diào)控與規(guī)制的范疇,集體管理組織制度同樣面臨適用的“失靈”。不可否認(rèn),當(dāng)前通過StableDiffusion等AIGC模型生成的結(jié)果存在侵權(quán)風(fēng)險(xiǎn),但可以預(yù)想隨著AI算法的不斷改進(jìn)優(yōu)化與訓(xùn)練數(shù)據(jù)的倍數(shù)增長,單個(gè)版權(quán)作品在這一過程中的價(jià)值將被“沖淡”,生成結(jié)果的侵權(quán)概率也將隨之進(jìn)一步降低。更加關(guān)注AI模型訓(xùn)練 中的版權(quán)問題雖然國內(nèi)目前尚未出現(xiàn)類似于“ChatGPT”和“StableDiffusion”般的現(xiàn)象級應(yīng)用,但AIGC領(lǐng)域的侵權(quán)訴訟也已出現(xiàn)。關(guān)注度較高的兩個(gè)案件分別是2018年的“菲林訴百度案”和2019年的“騰訊訴盈訊案”。但上述案件涉及更多的是AIGC“小模型時(shí)代”,對于特定領(lǐng)域(法律、財(cái)經(jīng))內(nèi)容的生成和輸出,模型訓(xùn)練數(shù)據(jù)需求量仍較低。特定專業(yè)數(shù)據(jù)庫和公開信息即可滿足,不完全等同于當(dāng)下AIGC“大模型時(shí)代”多類型、多領(lǐng)域海量數(shù)據(jù)的訓(xùn)練要求?!胺屏衷V百度案”涉及,在享有合法授權(quán)的“科威先行數(shù)據(jù)庫”基礎(chǔ)上生成輸出的內(nèi)容;“騰訊訴盈訊案”涉及,在“股市歷史和實(shí)時(shí)數(shù)據(jù)”這類不受版權(quán)法保護(hù)的事實(shí)信息的基礎(chǔ)上生成和輸出的內(nèi)容。各界的關(guān)注點(diǎn),也多停留在AIGC輸出內(nèi)容“是否構(gòu)成作品”以及“權(quán)利歸屬何方”。但隨著國內(nèi)AIGC技術(shù)的應(yīng)用與發(fā)展,AIGC模型訓(xùn)練和構(gòu)建中的版權(quán)保護(hù)也需要保持重視。國內(nèi)重點(diǎn)科技企業(yè)和科研機(jī)構(gòu)已經(jīng)在AIGC領(lǐng)域完成技術(shù)、產(chǎn)業(yè)布局。在全球超千億參數(shù)的大模型中,中國企業(yè)或機(jī)構(gòu)占1/3,比如過去幾年國內(nèi)相繼推出了百度文心大模型、騰訊混元大模型等。而我國發(fā)展人工智能具有的海量數(shù)據(jù)、豐富場景和用戶基礎(chǔ),正是未來AIGC“大模型時(shí)代”發(fā)展和競爭的有力優(yōu)勢。AIGC內(nèi)容生產(chǎn)模式 的版權(quán)治理探索思考(一):在規(guī)則層面,2018年日本《著作權(quán)法》修訂中增加了“靈活的權(quán)利限制條款”,為AIGC技術(shù)爬取與利用版權(quán)作品創(chuàng)造了條件。新條款規(guī)定,如果互聯(lián)網(wǎng)公司對作品的使用“不侵害著作權(quán)所有者利益”或者“對所有權(quán)的損害程度輕微”,則可不經(jīng)權(quán)利人許可而直接使用。歐盟則于2019年正式通過《單一數(shù)字市場版權(quán)指令》,創(chuàng)設(shè)文本與數(shù)據(jù)挖掘(TDM)的例外,支持?jǐn)?shù)據(jù)科學(xué)和人工智能的發(fā)展。但如果權(quán)利人以適當(dāng)?shù)姆绞矫鞔_保留對作品或其他客體的使用,則不適用該例外。日本與歐盟在這一領(lǐng)域的做法,為當(dāng)前AIGC版權(quán)侵權(quán)治理提供了一個(gè)可供參考的路徑。整體來看,日本傾向于從結(jié)果出發(fā)具體認(rèn)定AIGC技術(shù)利用版權(quán)作品是否合法,最終還是需要落腳到具體個(gè)案的分析;而歐盟則主張保障版權(quán)人事前選擇權(quán)利以避免侵權(quán)的發(fā)生,強(qiáng)調(diào)數(shù)據(jù)的開發(fā)利用不得侵害權(quán)利人的利益。思考(二):在實(shí)操層面,據(jù)報(bào)道,StabilityAI公司近期表示將修改《用戶協(xié)議》中“數(shù)據(jù)庫不得加入或退出”的規(guī)定,允許權(quán)利人從后續(xù)發(fā)布的StableDiffusion3.0的訓(xùn)練數(shù)據(jù)集中刪除自己的作品。版權(quán)人可在“HaveIBeenTrained”網(wǎng)站上找到自己的作品,選擇退出數(shù)據(jù)訓(xùn)練集。[13]具言之,在將版權(quán)作品納入AIGC模型訓(xùn)練數(shù)據(jù)庫前,給予版權(quán)人一定的期限,自由選擇是否從訓(xùn)練數(shù)據(jù)庫中將其版權(quán)作品刪除。若版權(quán)人在規(guī)定期限內(nèi)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 正規(guī)車庫出租合同范例
- 培訓(xùn)機(jī)構(gòu)融資合同范例
- 政府采購家具合同范例
- 石材賣買合同范例
- 天然汽運(yùn)輸合同范例
- 銅仁幼兒師范高等專科學(xué)?!秱鞲衅髋c檢則技術(shù)》2023-2024學(xué)年第一學(xué)期期末試卷
- 銅仁學(xué)院《決策科學(xué)研究》2023-2024學(xué)年第一學(xué)期期末試卷
- 完整版100以內(nèi)加減法混合運(yùn)算4000道164
- 完整版100以內(nèi)加減法混合運(yùn)算4000道145
- 完整版100以內(nèi)加減法混合運(yùn)算4000道94
- 建設(shè)年產(chǎn)70萬立方米液氦分裝項(xiàng)目可行性研究報(bào)告寫作模板-備案審批
- 任命基金管理人協(xié)議
- 2024年河北中考語文試題及答案
- HG/T 22820-2024 化工安全儀表系統(tǒng)工程設(shè)計(jì)規(guī)范(正式版)
- 偏微分方程智慧樹知到期末考試答案章節(jié)答案2024年山東大學(xué)(威海)
- 村集體經(jīng)濟(jì)入股分紅協(xié)議書
- 新時(shí)代大學(xué)生勞動(dòng)教育智慧樹知到期末考試答案章節(jié)答案2024年黑龍江農(nóng)業(yè)經(jīng)濟(jì)職業(yè)學(xué)院
- MOOC 計(jì)量經(jīng)濟(jì)學(xué)-西南財(cái)經(jīng)大學(xué) 中國大學(xué)慕課答案
- MOOC 高等數(shù)學(xué)(上)-西北工業(yè)大學(xué) 中國大學(xué)慕課答案
- 毛澤東思想概論智慧樹知到期末考試答案2024年
- 中醫(yī)診所消防應(yīng)急預(yù)案
評論
0/150
提交評論