![信息技術(shù)-計(jì)算機(jī)行業(yè):淺析AI大模型訓(xùn)練數(shù)據(jù)來源與版權(quán)挑戰(zhàn)_第1頁](http://file4.renrendoc.com/view4/M00/17/36/wKhkGGafpCeAdpEKAAMDWZUZB2U013.jpg)
![信息技術(shù)-計(jì)算機(jī)行業(yè):淺析AI大模型訓(xùn)練數(shù)據(jù)來源與版權(quán)挑戰(zhàn)_第2頁](http://file4.renrendoc.com/view4/M00/17/36/wKhkGGafpCeAdpEKAAMDWZUZB2U0132.jpg)
![信息技術(shù)-計(jì)算機(jī)行業(yè):淺析AI大模型訓(xùn)練數(shù)據(jù)來源與版權(quán)挑戰(zhàn)_第3頁](http://file4.renrendoc.com/view4/M00/17/36/wKhkGGafpCeAdpEKAAMDWZUZB2U0133.jpg)
![信息技術(shù)-計(jì)算機(jī)行業(yè):淺析AI大模型訓(xùn)練數(shù)據(jù)來源與版權(quán)挑戰(zhàn)_第4頁](http://file4.renrendoc.com/view4/M00/17/36/wKhkGGafpCeAdpEKAAMDWZUZB2U0134.jpg)
![信息技術(shù)-計(jì)算機(jī)行業(yè):淺析AI大模型訓(xùn)練數(shù)據(jù)來源與版權(quán)挑戰(zhàn)_第5頁](http://file4.renrendoc.com/view4/M00/17/36/wKhkGGafpCeAdpEKAAMDWZUZB2U0135.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
識別風(fēng)險(xiǎn),發(fā)現(xiàn)價(jià)值請務(wù)必閱讀末計(jì)算機(jī)行業(yè)lAI大模型訓(xùn)練數(shù)據(jù)來源廣泛。在算力可獲得性提升以及算法勢下,訓(xùn)練數(shù)據(jù)成為影響大模型性能的重要因素。區(qū)別于傳統(tǒng)AI模型,大語言模型通常使用公共文本數(shù)據(jù)集的混合體作為預(yù)訓(xùn)練語料庫,而多模態(tài)大模型則需要大規(guī)模的圖片和音視頻等多模態(tài)數(shù)據(jù)。這些訓(xùn)練數(shù)據(jù)的來源廣泛,包含公開渠道、企業(yè)自研、直接購買與合作各種維權(quán)訴求,已有數(shù)十起版權(quán)訴訟正在進(jìn)行中。同時(shí),另一部分內(nèi)容持有者則選擇了授權(quán)合作道路。版權(quán)糾紛實(shí)質(zhì)上是商業(yè)利益之爭,內(nèi)容持有者具體選擇訴訟還是合作取決于其商業(yè)模式、內(nèi)容獨(dú)特性和行業(yè)結(jié)構(gòu)等因素。作家和藝術(shù)家們普遍傾向于抵制AI公司并控訴其侵權(quán)行為,而新聞媒體在版權(quán)斗爭中則難以形成統(tǒng)一陣線。l確保訓(xùn)練數(shù)據(jù)的合法來源對于AIGC發(fā)展非常關(guān)鍵。我們在去年的 《從Adobe看AIGC如何重塑創(chuàng)意工具行業(yè)》報(bào)告中提到,訓(xùn)練這一問題,才能在確保合法的前提下,推動(dòng)生成式AI的商業(yè)落地。從2023年下半年開始,AI數(shù)據(jù)版權(quán)訴訟開始進(jìn)入白熱化階段,而內(nèi)容合作則于2024年上半年加速,表明過去一年中版權(quán)問題已經(jīng)成為AI領(lǐng)域的焦點(diǎn),并且相關(guān)法律問題正在被逐步揭示與嘗試解決。l2024年有望成為AI訓(xùn)練數(shù)據(jù)版權(quán)之爭的關(guān)鍵年。關(guān)于AI訓(xùn)練數(shù)據(jù)版權(quán)訴訟,國內(nèi)外尚未達(dá)成判例,重點(diǎn)案例的判決將對未來行業(yè)發(fā)展產(chǎn)生重要意義,需持續(xù)關(guān)注。同時(shí),越來越多的公司正在明確其立場,顯示出行業(yè)整體對于訓(xùn)練數(shù)據(jù)版權(quán)問題重視程度的提升。2024年有望成為AI數(shù)據(jù)版權(quán)之爭的關(guān)鍵年,將會(huì)有更多訴訟、談判和合作展開,但未來授權(quán)合作或快于法律變革與監(jiān)管介入。性將被消除,應(yīng)用發(fā)展也將進(jìn)一步加速。訓(xùn)練數(shù)據(jù)作為成本項(xiàng),與下游應(yīng)用的商業(yè)化推廣密切相關(guān),二者相輔相成。若數(shù)據(jù)合作顯著加速,這將標(biāo)志著AIGC應(yīng)用即將迎來商業(yè)化落地的飛躍。l投資建議:在眾多種類應(yīng)用中,創(chuàng)意工具軟件與辦公軟件更為受益,l風(fēng)險(xiǎn)提示:內(nèi)容價(jià)值難以準(zhǔn)確量化;行業(yè)競爭加??;數(shù)據(jù)侵權(quán)阻礙下4%4%-5%07/2309/-5%07/2309/2312/2302/2405/2407/24-14%-22%-31%-40%計(jì)算機(jī)滬深300識別風(fēng)險(xiǎn),發(fā)現(xiàn)價(jià)值請務(wù)必閱讀金山辦公識別風(fēng)險(xiǎn),發(fā)現(xiàn)價(jià)值請務(wù)必閱讀末 一、大模型常使用文本圖片視頻等公共數(shù)據(jù)集混合體作為 識別風(fēng)險(xiǎn),發(fā)現(xiàn)價(jià)值請務(wù)必閱讀末 9 圖10:Getty的原始圖片和由StableDiffusion生成的帶有Getty商標(biāo)的圖片 表4:大模型常用的公開數(shù)據(jù)集 表6:AI公司與內(nèi)容持有方的授權(quán)合作案例 表8:紐約時(shí)報(bào)與OpenAI、微軟的訴訟時(shí)間軸 識別風(fēng)險(xiǎn),發(fā)現(xiàn)價(jià)值請務(wù)必閱讀末投資要點(diǎn)(1)在算力可獲得性提升以及算法同質(zhì)化趨勢下,訓(xùn)練數(shù)據(jù)成為影響大模型性能的重要因素。具體而言,訓(xùn)練數(shù)據(jù)可以從數(shù)據(jù)規(guī)模、數(shù)據(jù)質(zhì)量和數(shù)據(jù)即時(shí)性等方面對模型的訓(xùn)練效果產(chǎn)生影響。伴隨著AI大模型的發(fā)展,訓(xùn)練數(shù)據(jù)集在規(guī)模和質(zhì)量上(2)區(qū)別于傳統(tǒng)的AI模型訓(xùn)練,大語言模型常使用維基百科、書籍期刊、論壇等多樣化的公共文本數(shù)據(jù)集的混合體作為預(yù)訓(xùn)練語料庫,而多模態(tài)大模型則需要大規(guī)模的圖片、視頻和語音等多模態(tài)訓(xùn)練數(shù)據(jù)。這些訓(xùn)練數(shù)據(jù)的獲取方式多種多樣,主要包含公開渠道、企業(yè)自研、直接購買和合作交換等方式。(1)目前,眾多內(nèi)容持有者正在針對AI平臺提出各種維權(quán)訴求,有數(shù)十起AI訓(xùn)練數(shù)據(jù)版權(quán)訴訟正在進(jìn)行中,指控AI廠商因使用受版權(quán)保護(hù)的內(nèi)容進(jìn)行訓(xùn)練,其(2)版權(quán)糾紛實(shí)質(zhì)上是商業(yè)利益之爭,各大巨頭爭奪的重點(diǎn)在于背后的經(jīng)濟(jì)利益。 盡管生成式AI發(fā)展浪潮不可阻擋,傳統(tǒng)內(nèi)容持有者仍希望在這一過程中獲得更有(3)另一部分內(nèi)容持有者則走上了授權(quán)合作道路,OpenAI、蘋果、谷歌等公司與內(nèi)容持有者簽署了數(shù)十個(gè)內(nèi)容許可協(xié)議,并有許多協(xié)議正在洽談中。授權(quán)合作不僅可以為內(nèi)容持有者帶來與訴訟和解相當(dāng)甚至更多的現(xiàn)金收益,而且速度更快,同時(shí)有助于將AI應(yīng)用于其業(yè)務(wù)優(yōu)化。而AI公司通過合作可以獲取高質(zhì)量的訓(xùn)練數(shù)據(jù)以改進(jìn)模型效果,并避免侵犯版權(quán)。因此,這種合作對雙方皆有利。(4)從行業(yè)屬性來看,文本類數(shù)據(jù)集目前以新聞媒體為主,已經(jīng)拓展至Reddit論壇,但是書籍期刊的授權(quán)進(jìn)展較為緩慢;從格式分類來看,數(shù)據(jù)授權(quán)合作也呈現(xiàn)從(5)關(guān)于授權(quán)的定價(jià)方式,目前以直接訂閱收費(fèi)為主,此外還有采取分享收益間接付費(fèi),以及以標(biāo)注出處作者等提供附加價(jià)值的方式。未來定價(jià)模式可能更多基于內(nèi)容對AI模型的貢獻(xiàn),通過采用利潤分享、按API訪問次數(shù)收費(fèi)等多種定價(jià)策略,內(nèi)容持有者可以獲取經(jīng)常性收入,從而獲得更合理的收益。這種定價(jià)方式不僅能夠反映內(nèi)容的實(shí)際價(jià)值,還能夠促進(jìn)版權(quán)方和AI公司之間的合作,共同推動(dòng)技術(shù)進(jìn)識別風(fēng)險(xiǎn),發(fā)現(xiàn)價(jià)值請務(wù)必閱讀末(6)內(nèi)容持有者具體選擇訴訟還是合作取決于其商業(yè)模式、內(nèi)容獨(dú)特性和行業(yè)結(jié)構(gòu)等。作家和藝術(shù)家們普遍傾向于抵制AI公司并控訴其侵權(quán)行為,而新聞媒體在版權(quán)斗爭中則難以形成統(tǒng)一陣線。(7)內(nèi)容持有者面臨著多重機(jī)會(huì)與挑戰(zhàn)。①機(jī)會(huì)端,首先,同一數(shù)據(jù)集可被用于訓(xùn)練多個(gè)模型,因此授權(quán)一般不具排他性;同時(shí),內(nèi)容持有者可以通過增加內(nèi)容稀缺性以提升議價(jià)能力。②挑戰(zhàn)端,若不能與AI廠商達(dá)成協(xié)議,便有可能出局,因此內(nèi)容持有者將會(huì)面臨兩難局面,起訴的高成本也可能帶來壓力,迫使其考慮和解;同時(shí),由于缺乏統(tǒng)一標(biāo)準(zhǔn)和透明的評估機(jī)制,內(nèi)容持有者在談判時(shí)可能處于不利地位,難以確保自身內(nèi)容的合理定價(jià);此外,內(nèi)容持有者還將面臨由于AI模型輸出3.確保訓(xùn)練數(shù)據(jù)的合法來源對于AIGC的發(fā)展非常關(guān)鍵,2024年有望成為AI(1)確保訓(xùn)練數(shù)據(jù)的合法來源對于AIGC的發(fā)展非常關(guān)鍵,只有解決了這一問題,才能在確保法律合規(guī)的前提下,推動(dòng)生成式AI的廣泛應(yīng)用與商業(yè)落地。從2023年下半年開始,AI數(shù)據(jù)版權(quán)訴訟開始進(jìn)入白熱化階段,而內(nèi)容合作則于2024年上半年加速,表明過去一年中版權(quán)問題已經(jīng)成為AI領(lǐng)域的焦點(diǎn),并且相關(guān)法律問題正在被逐步揭示與嘗試解決。(2)關(guān)于AI訓(xùn)練數(shù)據(jù)版權(quán)訴訟,國內(nèi)外尚未達(dá)成判例。由于版權(quán)法的復(fù)雜性和模糊性,使得很難明確區(qū)分哪些行為構(gòu)成侵權(quán)或不構(gòu)成侵權(quán),提升了判決難度。這種不確定性導(dǎo)致雙方在法庭爭議中浪費(fèi)大量資源,可能需要數(shù)年時(shí)間才能確定這些訴訟中的具體指控與結(jié)果。重點(diǎn)案例的判決將對AI訓(xùn)練數(shù)據(jù)的版權(quán)界定有較大參考意義,有望在今年內(nèi)初步了解法院對于此類版權(quán)訴訟(3)越來越多的公司正在明確其立場,顯示出行業(yè)整體對于訓(xùn)練數(shù)據(jù)版權(quán)問題重視程度的提升。2024年有望成為AI數(shù)據(jù)版權(quán)之爭的關(guān)鍵年,將會(huì)有更多訴訟、談判和合作展開,更多的公司和機(jī)構(gòu)將明確其立場和策略,進(jìn)一步推動(dòng)版權(quán)爭議的解(4)授權(quán)合作或快于法律變革與監(jiān)管介入。具體節(jié)奏方面,在2024年下半年,部分案件可能會(huì)有初步判決結(jié)果,為后續(xù)案件提供參考,在訴訟過程中也可能出現(xiàn)和解的情況,推動(dòng)法律和合作并行發(fā)展。而2024年第一批合作協(xié)議的簽署與公開將為行業(yè)提供范例,在2025-2026年,部分AI數(shù)據(jù)合作將進(jìn)入落地實(shí)施階段,合作的可行性將得到初步驗(yàn)證,定價(jià)模式也將逐漸明確。隨著更多案件進(jìn)入判決階段,預(yù)計(jì)將逐步形成較為明確的法律框架,為未來的版權(quán)保護(hù)和AI數(shù)據(jù)使用提供指導(dǎo)。4.投資建議:(1)數(shù)據(jù)將成為決定未來AI大模型效果的關(guān)鍵因素之一,進(jìn)而成為AI公司的核心競爭力。隨著訓(xùn)練數(shù)據(jù)成本的上升,只有大型科技公司才能負(fù)擔(dān)得起這一資源,頭部公司將因此受益。(2)當(dāng)內(nèi)容合作商對于訓(xùn)練數(shù)據(jù)版權(quán)的立場進(jìn)識別風(fēng)險(xiǎn),發(fā)現(xiàn)價(jià)值請務(wù)必閱讀末一步明確后,大模型研發(fā)的不確定性將被消除,應(yīng)用發(fā)展也將進(jìn)一步加速。訓(xùn)練數(shù)據(jù)作為成本項(xiàng),與AIGC應(yīng)用的商業(yè)化推廣密切相關(guān),二者相輔相成。若數(shù)據(jù)合作顯著加速,這將標(biāo)志著AIGC應(yīng)用即將迎來商業(yè)化落地的飛躍。在眾多種類的應(yīng)用中,創(chuàng)意工具軟件與辦公軟件更為受益,前景廣闊。標(biāo)的方面,建議關(guān)注萬興科技(300624.SZ)、美圖公司(01357.HK,廣發(fā)傳媒覆蓋)、金山辦公5.風(fēng)險(xiǎn)提示:內(nèi)容價(jià)值難以準(zhǔn)確量化;行業(yè)競識別風(fēng)險(xiǎn),發(fā)現(xiàn)價(jià)值請務(wù)必閱讀末一、大模型常使用文本圖片視頻等公共數(shù)據(jù)集混合體作為預(yù)訓(xùn)練語料庫隨著算力的可獲得性提升,以及算法同質(zhì)化趨勢逐漸顯現(xiàn),數(shù)據(jù)成為影型效果的重要差異化環(huán)節(jié),其影響可以體現(xiàn)在數(shù)據(jù)規(guī)模、數(shù)據(jù)質(zhì)量和數(shù)據(jù)即時(shí)性等方面。因此,AI大模型的訓(xùn)練數(shù)據(jù)在規(guī)模與質(zhì)量上逐漸提升,AI領(lǐng)域也正經(jīng)歷從“以模型為中心”到“以數(shù)據(jù)為中心”的轉(zhuǎn)變。區(qū)別于傳統(tǒng)的AI模型,大語言模型常使用維基百科、書籍期刊、論壇等多樣的公共文本數(shù)據(jù)集的混合體作為預(yù)訓(xùn)練語料庫,而多模態(tài)大模型則需要大規(guī)模的圖片、視頻和語音等多模態(tài)訓(xùn)練數(shù)據(jù)。這些訓(xùn)練數(shù)據(jù)的獲取方式多種多樣,主要包含公開渠道、企業(yè)自研、直接購買與合作交換等方式。訓(xùn)練數(shù)據(jù)是構(gòu)建和優(yōu)化AI模型的基石,AI系統(tǒng)從輸入的訓(xùn)練數(shù)據(jù)中進(jìn)行學(xué)習(xí)。大模型訓(xùn)練數(shù)據(jù)包含文本、圖像、語音、視頻等結(jié)構(gòu)化與非結(jié)構(gòu)化的多種形式,大規(guī)模、高質(zhì)量、多樣化的訓(xùn)練數(shù)據(jù)集使得模型能夠更深刻地理解上下文,并生成準(zhǔn)確性與相關(guān)性更高的回復(fù),相反,規(guī)模較小、低質(zhì)量、缺乏多樣性的數(shù)據(jù)集可能會(huì)導(dǎo)致模型結(jié)果產(chǎn)生偏差或生成無效回復(fù)。因此,訓(xùn)練數(shù)據(jù)在提升AI大模型的性能和應(yīng)用效果中扮演著重要角色。Transformer架構(gòu)包含編碼器(Encoder)和解碼器(Decoder),基于此誕生了三大技術(shù)路線——Decoder-Only、Encoder目前大模型的技術(shù)路徑多集中在這三大技術(shù)路線,呈現(xiàn)同質(zhì)化趨勢;另一方面,算力可獲得性在持續(xù)提升,瓶頸效應(yīng)逐漸減弱。此外,有研究發(fā)現(xiàn),在不同的AI大模型中使用相同的數(shù)據(jù)集,最終會(huì)表現(xiàn)出較為相似的行為。因此,在算力可獲得性提升以及算法同質(zhì)化趨勢下,模型效果的獨(dú)特性受到輸入的訓(xùn)練數(shù)據(jù)集影響,訓(xùn)練數(shù)據(jù)成為區(qū)分且影響大模型性能的重要因素之一。識別風(fēng)險(xiǎn),發(fā)現(xiàn)價(jià)值請務(wù)必閱讀末注:粉紅色、綠色和藍(lán)色分別為Encoder-Onl型的預(yù)訓(xùn)練階段,由于需要消耗較多計(jì)算資源,通常不能進(jìn)行無限次迭代,因此準(zhǔn)備大規(guī)模高質(zhì)量的語料庫尤為重要。具體而言,訓(xùn)練數(shù)據(jù)可以從數(shù)據(jù)規(guī)模、數(shù)據(jù)質(zhì)量和數(shù)據(jù)即時(shí)性等方面對模型的訓(xùn)練效果產(chǎn)生影響。根據(jù)大模型的尺度定律(ScalingLaw),提升訓(xùn)練數(shù)據(jù)量是提升模型效果的重要一個(gè)經(jīng)驗(yàn)性公式,其含義為,大模型性能主要與計(jì)算量、模型參數(shù)量和訓(xùn)練數(shù)據(jù)量識別風(fēng)險(xiǎn),發(fā)現(xiàn)價(jià)值請務(wù)必閱讀末此外,根據(jù)ScalingLaw,當(dāng)模型的參數(shù)或計(jì)算量按比例擴(kuò)大時(shí),模型性能也隨之成比例提升。但只有當(dāng)參數(shù)規(guī)模突破了某個(gè)閾值,大模型才會(huì)“涌現(xiàn)”出上下文學(xué)習(xí)、復(fù)雜推理等能力。而隨著參數(shù)規(guī)模的增加,需要更多數(shù)據(jù)來訓(xùn)練模型,即模型數(shù)據(jù)來源:Thompson,A.D.(2.從數(shù)據(jù)質(zhì)量來看,使用低質(zhì)量語料訓(xùn)練會(huì)損害大模型的性能。重復(fù)的數(shù)據(jù)會(huì)使模型的初始性能惡化,影響訓(xùn)練過程的穩(wěn)定性,同時(shí)也會(huì)影響大模型的學(xué)習(xí)泛化能為了保證模型的高性能,需要盡量使用高質(zhì)量的語料庫,去除其中的重復(fù)、噪聲和錯(cuò)誤數(shù)據(jù)等低質(zhì)量語料。3.從數(shù)據(jù)即時(shí)性看,在過時(shí)的數(shù)據(jù)上進(jìn)行訓(xùn)練同樣不利于模型達(dá)到最優(yōu)性能。大模型的訓(xùn)練數(shù)據(jù)通常源于已有的網(wǎng)頁、書籍和其它公開數(shù)據(jù)等,這些數(shù)據(jù)通常于特定時(shí)間點(diǎn)前被收集。而由于大多數(shù)大模型沒有內(nèi)置的實(shí)時(shí)數(shù)據(jù)一旦訓(xùn)練完成并進(jìn)行部署,其知識也將會(huì)停止在最后一次更新訓(xùn)練時(shí),除非進(jìn)行再次訓(xùn)練和更新,此后發(fā)生的任何事件或新信息都不會(huì)被例如在ChatGPT剛推出時(shí),訓(xùn)練數(shù)據(jù)截至2021年9月,可能導(dǎo)致不準(zhǔn)確或過時(shí)的回復(fù)。因此,相較于大模型的固定訓(xùn)練數(shù)據(jù)集而言,若能獲取最新的新---為例,2018年的GPT-1數(shù)據(jù)集約為4.8GB,2019年的GPT-2數(shù)據(jù)集約為40GB,而2020年的GPT-3數(shù)據(jù)集規(guī)模已超過500GB,質(zhì)量上也逐漸提升。數(shù)據(jù)來源:《Data-centricArtifi識別風(fēng)險(xiǎn),發(fā)現(xiàn)價(jià)值請務(wù)必閱讀末AI領(lǐng)域正經(jīng)歷從以模型為中心到以數(shù)據(jù)為中心的轉(zhuǎn)變。吳恩達(dá)等學(xué)者在2021年提出,AI領(lǐng)域正經(jīng)歷從Model-CentricAI(以模型為中心)到Data-CentricAI(以數(shù)據(jù)為中心)的轉(zhuǎn)變。1.Model-CentricAI(以模型為中心)主要關(guān)注于通過優(yōu)化模型的架構(gòu)算法來提高AI系統(tǒng)性能。在Model-CentricAI中,研究人員的重點(diǎn)是設(shè)計(jì)更復(fù)雜高效的模型架構(gòu)和算法,以在固定的數(shù)據(jù)集上獲得更好的表現(xiàn)。這種方法已有幾十年的歷若數(shù)據(jù)質(zhì)量問題和數(shù)據(jù)偏差等未被充分處理,模型的系統(tǒng)的性能。在Data-CentricAI中,數(shù)據(jù)的質(zhì)量和規(guī)模是關(guān)注焦點(diǎn),數(shù)據(jù)分析過程將持續(xù)貫穿整個(gè)AI系統(tǒng)的生命周期。通過對數(shù)據(jù)進(jìn)行系統(tǒng)清洗、標(biāo)注與增強(qiáng),可以顯著提高模型的精度和性能。這種數(shù)據(jù)優(yōu)先的策略提升了準(zhǔn)確度與一致性,從研究人員的關(guān)注點(diǎn)研究跨度持續(xù)(N次)低高有概念和數(shù)據(jù)都敏感反饋數(shù)據(jù)來源:《AData-CentricAIParadigmforSocio-IndustAI大模型的訓(xùn)練數(shù)據(jù)與傳統(tǒng)AI訓(xùn)練數(shù)據(jù)有所差異。對于傳統(tǒng)AI訓(xùn)練,常用的有MNIST、ImageNet、OpenI理、計(jì)算機(jī)視覺和語音識別等傳統(tǒng)AI應(yīng)用。研究人員經(jīng)常使用這些數(shù)據(jù)集作為創(chuàng)建、評估和對比AI模型有效性的標(biāo)準(zhǔn),用戶也可以根據(jù)開放許可條款訪問、使用、大語言模型在訓(xùn)練過程中所需的數(shù)據(jù)內(nèi)容由具體階段所決定。以ChatGPT為例,其基礎(chǔ)模型訓(xùn)練過程可分為三個(gè)主要階段:預(yù)訓(xùn)練、監(jiān)督微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)識別風(fēng)險(xiǎn),發(fā)現(xiàn)價(jià)值請務(wù)必閱讀末識別風(fēng)險(xiǎn),發(fā)現(xiàn)價(jià)值請務(wù)必閱讀末(RLHF),后兩個(gè)階段也被稱為對齊(Alignment)階段。有時(shí)也需要結(jié)合某行業(yè)的專業(yè)知識進(jìn)行訓(xùn)練和對齊,即行業(yè)模型階段。通過在各階段輸入不同的訓(xùn)練數(shù)據(jù),1.預(yù)訓(xùn)練階段:在預(yù)訓(xùn)練階段,模型需要輸入包括書籍期刊、新聞報(bào)道、學(xué)術(shù)論文、對話文本和代碼等在內(nèi)的多樣化數(shù)據(jù)。該階段的目標(biāo)是通過大規(guī)模的多樣化數(shù)據(jù),讓模型建立起基本理解與知識架構(gòu)。因此,這個(gè)階段的訓(xùn)練數(shù)據(jù)特點(diǎn)是“廣”,即涵蓋范圍廣泛。2.監(jiān)督微調(diào)階段(SFT):在監(jiān)督微調(diào)階段,數(shù)據(jù)由人工標(biāo)注人員設(shè)計(jì),包括具體的問答對示例。通過輸入這些標(biāo)注數(shù)據(jù),模型能夠在一些未見過的任務(wù)中提高判斷能力,泛化性得以提升。這一階段對于訓(xùn)練數(shù)據(jù)的要求較3.強(qiáng)化學(xué)習(xí)階段(RLHF):在強(qiáng)化學(xué)習(xí)階段,模型的目標(biāo)是通過人類反饋進(jìn)行調(diào)整,使其輸出結(jié)果更符合認(rèn)知。這個(gè)過程包括對模型回答進(jìn)行評分強(qiáng)化學(xué)習(xí)階段與監(jiān)督微調(diào)階段的數(shù)據(jù)需要來自人類的高質(zhì)量反饋可以總結(jié)為“齊”,即讓大模型的輸出結(jié)果和人類需求對齊。4.行業(yè)模型:如將經(jīng)過微調(diào)的模型應(yīng)用于法律、金融等特定行業(yè),則需要結(jié)合該行業(yè)的專業(yè)知識進(jìn)行訓(xùn)練與對齊。此時(shí),所需的數(shù)據(jù)則包括行業(yè)數(shù)據(jù)庫、專業(yè)文檔和特定領(lǐng)域的網(wǎng)站內(nèi)容等,需要具有較高的專業(yè)性和行業(yè)深度,其特征可以用“專”來概括,即專業(yè)性強(qiáng)。國內(nèi)外大語言模型訓(xùn)練數(shù)據(jù)集的主要來源為維基百科、書籍期刊、論壇、代碼、CommonCrawl(CC)網(wǎng)頁數(shù)據(jù)集和其它數(shù)據(jù)集等,其中部分經(jīng)典模型所使用的模型5-36維基百科是一個(gè)多語言協(xié)作式在線百科全書,由于其引用、撰寫風(fēng)格較為嚴(yán)謹(jǐn),以及跨語言與領(lǐng)域的內(nèi)容,維基百科的文本被視為非常有價(jià)值的資源,主要研究實(shí)驗(yàn)室通常會(huì)使用僅包含英文的過濾版本維基百科作為數(shù)據(jù)集起書籍期刊也是大模型訓(xùn)練數(shù)據(jù)的重要來源。一方面,由虛構(gòu)和非虛構(gòu)書籍混合而成的敘述內(nèi)容對于連貫的故事講述和回答較為適用,另一方面,因?yàn)閷W(xué)術(shù)寫作的輸出涉及眾多專業(yè)科學(xué)領(lǐng)域,且數(shù)據(jù)格式復(fù)雜,因此期刊可以有效提升大語言模型對于目前,有許多書籍?dāng)?shù)據(jù)庫收集了涵蓋多種語言的公開可用電子書,并將其整理成易Books3等數(shù)據(jù)集。而期刊數(shù)據(jù)庫則包括ArXiv和美國國家衛(wèi)生研究院(NIH)等數(shù)據(jù)集,ArXiv主要集中在數(shù)學(xué)、計(jì)算機(jī)科學(xué)和物理領(lǐng)域,其用LaTeX語法編寫的論文可以將不同格式數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一形式,對于公式、符號、表格等內(nèi)容的表示也較為適合模型學(xué)習(xí),使得大模型更好地處理和分析科學(xué)文本數(shù)據(jù)。識別風(fēng)險(xiǎn),發(fā)現(xiàn)價(jià)值請務(wù)必閱讀末識別風(fēng)險(xiǎn),發(fā)現(xiàn)價(jià)值請務(wù)必閱讀末論壇數(shù)據(jù)指的是來自StackExchange等問答網(wǎng)站和Reddit等社交媒體平臺的對話或視頻字幕數(shù)據(jù)集等。StackExchange是一個(gè)圍繞用戶提供問題和答案的網(wǎng)站,的內(nèi)容的匿名數(shù)據(jù)集,是截止到2023年9月為止公開可用的最大的問題-答案對數(shù)據(jù)集合之一,涵蓋了編程、園藝和藝術(shù)等廣泛主題。而社交媒體平臺Reddit是一問一答的QA內(nèi)容形式,且基本都是回復(fù)的真實(shí)情況表達(dá),為了使得回答更符合人類表達(dá)模式,AI廠商非常需要這類數(shù)據(jù)來進(jìn)行高質(zhì)量的預(yù)訓(xùn)練和監(jiān)督代碼數(shù)據(jù)是大語言模型進(jìn)行代碼生成、代碼補(bǔ)全等任務(wù)所必備的數(shù)據(jù)。代碼數(shù)據(jù)不僅包括程序代碼本身,還包含豐富的注釋信息,通過在大量代碼上進(jìn)行預(yù)訓(xùn)練,可以顯著提升模型的代碼生成效果。與普通的自然語言文本相比,代碼通常是一種格式化語言,對應(yīng)著長程依賴和精確的執(zhí)行邏輯,其表達(dá)中的特定語法結(jié)構(gòu)、關(guān)鍵字以及編程范式對代碼的含義與功能起著重要代碼數(shù)據(jù)主要來源于GitHub等代碼倉庫以及StackOverflow等編程問答社區(qū)。在代碼倉庫中,包含了各種編程語言在內(nèi)的開源代碼,應(yīng)用范圍廣闊,這些代碼庫中的代碼通常經(jīng)過嚴(yán)格的代碼評審和實(shí)際使用測試,因此具有較高質(zhì)量與可靠性;而在StackOverflow等編程問答社區(qū)中,數(shù)據(jù)則包含了開發(fā)者提出的問題、其他開發(fā)者的回答以及相關(guān)的代碼示例,提供了豐富的語網(wǎng)頁數(shù)據(jù)包含CommonCrawl(CC)數(shù)據(jù)集和C4數(shù)據(jù)集等。CommonCrawl是一個(gè)自2008年起持續(xù)抓取的大規(guī)模Web爬蟲數(shù)據(jù)集,包括原始網(wǎng)頁、元數(shù)據(jù)和文本摘錄,涵蓋了不同語言和領(lǐng)域的文本。CommonCrawl每月爬取數(shù)十億個(gè)頁面,將這些數(shù)據(jù)存儲(chǔ)在可搜索的數(shù)據(jù)庫中,并提供一些列開源工具,幫助用戶下載和分析數(shù)據(jù)。CommonCrawl所有抓取數(shù)據(jù)均免費(fèi)開放,無需注冊或申請?jiān)S可,使得任何人都能夠訪問大量的網(wǎng)絡(luò)信息并進(jìn)行研究與開發(fā)。CC數(shù)據(jù)集規(guī)模龐大,包含數(shù)十億個(gè)頁面和數(shù)百TB的數(shù)據(jù),覆蓋全球眾多網(wǎng)站,主要研究實(shí)驗(yàn)室通常使用其僅包含英文的過濾版本C4作為數(shù)據(jù)集的起點(diǎn)。CC識別風(fēng)險(xiǎn),發(fā)現(xiàn)價(jià)值請務(wù)必閱讀末多模態(tài)大模型需要大規(guī)模的多模態(tài)訓(xùn)練數(shù)據(jù)。在大語言模型迅型開始遷移到圖像、視頻和語音等其他模態(tài)領(lǐng)域,并與大語言模型融合,形成多模態(tài)大模型。多模態(tài)大模型把各種感知模態(tài)結(jié)合起來,可以以更全面綜合的方式理解和生成信息,最終實(shí)現(xiàn)更豐富的應(yīng)用。多模態(tài)大模型的訓(xùn)練需要有大模型的多模態(tài)數(shù)據(jù),例如圖像-文本對、視頻-文本對等數(shù)據(jù)集。圖像-文本對包含了圖像以及描述該圖像內(nèi)容的文本數(shù)據(jù),讓模型可以學(xué)習(xí)組成圖像的像素之間、文字與圖像的關(guān)聯(lián)。視頻-文本對則包含了視頻以及描述視頻的文本,讓模型不僅可以學(xué)習(xí)單個(gè)畫面,還可以理解視頻中的時(shí)間序列和動(dòng)態(tài)變化。1.Pile數(shù)據(jù)集是一個(gè)用于大語言模型訓(xùn)練的大規(guī)模文本語料庫,由Common子集構(gòu)成。Pile數(shù)據(jù)集包含了大量不同領(lǐng)域和主題的文本,從而提高了訓(xùn)練數(shù)據(jù)集的多樣性和豐富性,總計(jì)規(guī)模大小超過800G,其數(shù)據(jù)類型組成如下圖所識別風(fēng)險(xiǎn),發(fā)現(xiàn)價(jià)值請務(wù)必閱讀末2.RefinedWeb是由位于阿布扎比的技術(shù)創(chuàng)新研究院在開發(fā)Falcon大語言模型時(shí)同步開源的大語言模型預(yù)訓(xùn)練集合,主要由從CommonCrawl數(shù)據(jù)集過濾的高質(zhì)量數(shù)據(jù)組成,下圖展示了由CommonCrawl數(shù)據(jù)集得到RefinedWeb3.此外,常見的還包括ALIGN、VAST-27M、WebVid-2.5M等多模態(tài)數(shù)據(jù)集。2.24G,包括超過11000本電子書,涵蓋廣泛的主PB級規(guī)模,一個(gè)大型網(wǎng)站抓取數(shù)據(jù)集,包含原825G,一個(gè)大規(guī)模、多樣化、開源的文本數(shù)據(jù)集,內(nèi)容包括書籍、網(wǎng)站、代碼、Alpaca52M,北京大學(xué)開源的RLHF數(shù)據(jù)集,VisualALIGN視頻-文本多模態(tài)數(shù)據(jù)集WebVid-2.5MYT-Temporal-VALOR-1MVAST-27M數(shù)據(jù)來源:《中國人工智能系列白皮書——大模型技術(shù)(2023版)》中國人工智能學(xué)會(huì),識別風(fēng)險(xiǎn),發(fā)現(xiàn)價(jià)值請務(wù)必閱讀末識別風(fēng)險(xiǎn),發(fā)現(xiàn)價(jià)值請務(wù)必閱讀末數(shù)據(jù)成為影響AI大模型效果的重要差異化環(huán)節(jié),其規(guī)模、質(zhì)量與多樣性直接影響模型的性能和應(yīng)用效果。那么以上提到的各種類別的訓(xùn)練數(shù)據(jù)從何處獲???其獲取途徑多種多樣,主要包含公開渠道、企業(yè)自研、直接購買和合作交換等方式。公開渠道是獲取訓(xùn)練數(shù)據(jù)的重要途徑之一。公開數(shù)據(jù)集通常由研究機(jī)構(gòu)、大學(xué)、政府組織或開源社區(qū)提供,涵蓋領(lǐng)域廣泛。例如,Wikipedia提供了大量經(jīng)過驗(yàn)證的百科全書內(nèi)容,CommonCrawl數(shù)據(jù)集包含了從互聯(lián)網(wǎng)中抓取的大量網(wǎng)頁數(shù)據(jù),而Reddit則提供了豐富的社交媒體討論和用戶生成內(nèi)容,研究者們可以使用這些企業(yè)自研數(shù)據(jù)是指企業(yè)通過自身渠道生成和收集的數(shù)據(jù)。這些數(shù)據(jù)通常具質(zhì)量與針對性,能夠更好地滿足特定應(yīng)用場景的需求。例如,谷歌通過擴(kuò)展服務(wù)條款,利用公開的谷歌文檔、谷歌地圖上的餐廳評論和其他在線資料,為其AI產(chǎn)品提供服務(wù)。眾多企業(yè)通過自身業(yè)務(wù)流程和用戶互動(dòng),積累了大量結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),為行業(yè)特定的AI應(yīng)用提供了寶貴的訓(xùn)練素材。但需要注意的是,企業(yè)自研數(shù)據(jù)在使用過程中要保證合法性。直接購買也是獲取訓(xùn)練數(shù)據(jù)的常見方式。市場上有許多提供有償數(shù)據(jù)服務(wù)的商業(yè)團(tuán)隊(duì)和公司,其根據(jù)數(shù)據(jù)類型、數(shù)據(jù)規(guī)?;蚴欠裥枰獦?biāo)注等規(guī)則向AI開發(fā)者提供高而數(shù)據(jù)市場平臺如Kaggle和AWSDataExchange則允許開發(fā)者購買和使用各種類型的數(shù)據(jù)集,涵蓋從金融數(shù)據(jù)到醫(yī)療記錄的廣泛領(lǐng)域。通過與這些數(shù)據(jù)商合作,AI公司可以使用高質(zhì)量的數(shù)據(jù)集來訓(xùn)練其模型。通過合作來共享各自的數(shù)據(jù)資源,實(shí)現(xiàn)互利共贏。在某些行業(yè),企業(yè)之間通過數(shù)據(jù)聯(lián)盟和共享平臺,交換非競爭性的數(shù)據(jù),例如醫(yī)療行業(yè)中的研究機(jī)構(gòu)和醫(yī)院共享匿名化的患者數(shù)據(jù)。此外,政府和公共機(jī)構(gòu)也與私營企業(yè)合作,共享公共數(shù)據(jù)資源,以推動(dòng)技術(shù)創(chuàng)新和公共服務(wù)提升。我們總結(jié),AI大模型的訓(xùn)練離不開高質(zhì)量的數(shù)據(jù)來源,大語言模型常使用維基百科、書籍期刊、論壇等多樣的公共文本數(shù)據(jù)集的混合體作為預(yù)訓(xùn)練語料庫,而多模態(tài)大模型則需要大規(guī)模的圖片、視頻和語音等多模態(tài)訓(xùn)練數(shù)據(jù)。這些訓(xùn)練數(shù)據(jù)的獲取方式多種多樣,主要包含公開渠道、企業(yè)自研、直接購買和交換合作等方式。然而,隨著AI技術(shù)的快速發(fā)展和廣泛應(yīng)用,AI廠商在獲取和使用數(shù)據(jù)時(shí),常面臨法律和道德上的挑戰(zhàn),圍繞數(shù)據(jù)版權(quán)的爭議也在日益增多。二、AI大模型訓(xùn)練面臨的數(shù)據(jù)版權(quán)挑戰(zhàn)生成式AI領(lǐng)域發(fā)展迅速,然而伴隨的卻是日益增多的數(shù)據(jù)版權(quán)糾紛。版權(quán)糾紛主要聚焦于模型訓(xùn)練階段未經(jīng)授權(quán)的版權(quán)利用行為,此外,也包含AI模型輸出本身對于版權(quán)的侵犯。目前,內(nèi)容持有者正在針對AI平臺提出各種維權(quán)訴求,起版權(quán)訴訟正在進(jìn)行中,另一部分內(nèi)容持有者則走上了授權(quán)合作的道路。內(nèi)容持有者具體選擇訴訟還是合作取決于其商業(yè)模式、內(nèi)容獨(dú)特性和行業(yè)結(jié)構(gòu)等,并面臨著多重機(jī)會(huì)與挑戰(zhàn)。生成式AI領(lǐng)域發(fā)展迅速,數(shù)據(jù)版權(quán)糾紛日益增多。因?yàn)锳I大模型進(jìn)行訓(xùn)練,為了獲得這些數(shù)據(jù),眾多AI公司冒著被起訴的風(fēng)險(xiǎn),“抓取”互聯(lián)網(wǎng)內(nèi)容來獲取數(shù)據(jù),或在其它受知識產(chǎn)權(quán)保護(hù)的內(nèi)容上訓(xùn)練模型,因此導(dǎo)致了數(shù)據(jù)版權(quán)訴訟激增。目前,眾多內(nèi)容持有者正在針對AI平臺提出各種維權(quán)訴求,有數(shù)十起AI訓(xùn)練數(shù)據(jù)版權(quán)訴訟正在進(jìn)行中,指控AI廠商因使用受版權(quán)保護(hù)的內(nèi)容進(jìn)行訓(xùn)練,其中原告來自各行各業(yè),包括作家、音樂出版商和新聞媒體等,以集體訴訟為主。作家集體作家集體版權(quán)持有人集體)作家集體微軟、OpenAI作家集體微軟、OpenAI微軟、OpenAI作家集體微軟、OpenAI識別風(fēng)險(xiǎn),發(fā)現(xiàn)價(jià)值請務(wù)必閱讀末調(diào)查報(bào)道中心(CenterforI微軟、OpenAI數(shù)據(jù)來源:BakerHostetler,廣發(fā)證券版權(quán)糾紛主要聚焦于模型訓(xùn)練階段未經(jīng)授權(quán)的內(nèi)容使用行為。2023年12月,美國報(bào)業(yè)巨頭紐約時(shí)報(bào)公司向OpenAI及微軟提起訴訟,指控其未經(jīng)許可使用《紐約時(shí)報(bào)》的數(shù)百萬篇文章訓(xùn)練ChatGPT模型,侵害了紐約時(shí)報(bào)的版權(quán),并構(gòu)成不正當(dāng)競爭。訴訟稱OpenAI和微軟將紐約時(shí)報(bào)的文章輸入至其大語言模型的內(nèi)存中,以便ChatGPT和Copilot可以訪問這些信息。在紐約時(shí)報(bào)提出的一些例子中,ChatGPT向用戶提供的文章近乎逐字摘錄《紐約時(shí)報(bào)》而沒有適當(dāng)引用,但數(shù)據(jù)來源:美國紐約南區(qū)地方法院文件,廣發(fā)證券發(fā)展版權(quán)糾紛也包含AI模型輸出本身對于版權(quán)的侵犯。2023年2月,美國視覺媒StabilityAI未經(jīng)許可從其數(shù)據(jù)庫復(fù)制了超過1200萬張圖像,公然侵犯了其版權(quán)與商標(biāo)保護(hù)權(quán)。在下圖中,StableDiffusion識別風(fēng)險(xiǎn),發(fā)現(xiàn)價(jià)值請務(wù)必閱讀末識別風(fēng)險(xiǎn),發(fā)現(xiàn)價(jià)值請務(wù)必閱讀末訓(xùn)練數(shù)據(jù)的版權(quán)糾紛主要源于數(shù)據(jù)集中的“臟數(shù)據(jù)”,比如本身便為盜版數(shù)據(jù)。C4數(shù)據(jù)集是谷歌T5和MetaLLaMA等很多知名大模型的訓(xùn)練材料,美國艾倫人工智能研究院為研究該數(shù)據(jù)集里具體包含哪些材料來源,對其進(jìn)行了拆解。結(jié)果顯示,其實(shí)際包含的約1000萬個(gè)網(wǎng)站數(shù)據(jù)中,有很大一部分是盜非正當(dāng)?shù)臄?shù)據(jù)源。而一些諸如創(chuàng)意產(chǎn)品眾籌網(wǎng)站、個(gè)人博客也包含其中且排名靠前,表明這些數(shù)據(jù)雖然使用權(quán)重較高,但數(shù)據(jù)版權(quán)方可能并未獲得任何授權(quán)或報(bào)酬?;谶@一思路,《紐約時(shí)報(bào)》起訴OpenAI或有跡可循,因?yàn)镃hatGPT的訓(xùn)練使用了CommonCrawl數(shù)據(jù)集(C4數(shù)據(jù)集是其過濾版本),而《紐約時(shí)報(bào)》正是識別風(fēng)險(xiǎn),發(fā)現(xiàn)價(jià)值請務(wù)必閱讀末數(shù)據(jù)來源:《DocumentingLargeWebtextCorpora:A其職業(yè)穩(wěn)定性。對于作家等創(chuàng)作者來說,生成式AI未經(jīng)授權(quán)使用其作品會(huì)造成版稅損失,而AI模仿、總結(jié)或解釋其作品而產(chǎn)生的衍生作品,對作品市場的侵占同樣會(huì)威脅其生計(jì)。而對于新聞媒體來說,常見的流量轉(zhuǎn)化邏輯是,通過優(yōu)化使其內(nèi)容在搜索引擎中排名靠前以獲取更多流量,即SEO(搜索引擎優(yōu)化)。然而,聊天類AI繞過了“檢索”步驟,讓用戶直接獲取新聞內(nèi)容,而無需在乎報(bào)道者。盡管AI可以引用報(bào)道鏈接,甚至在正文中標(biāo)明“根據(jù)某媒體報(bào)道”,但用戶通常不會(huì)點(diǎn)擊這些鏈接,這對媒體導(dǎo)流作用明顯弊大于利。因此,在聊天機(jī)器人中使用新聞媒體的內(nèi)容可能會(huì)轉(zhuǎn)移讀者,從而減少訂閱、廣告、許可和附屬收入。我們總結(jié),版權(quán)糾紛實(shí)質(zhì)上是商業(yè)利益之爭,各大巨頭爭奪的重點(diǎn)在于背后的經(jīng)濟(jì)利益。盡管生成式AI發(fā)展浪潮不可阻擋,傳統(tǒng)內(nèi)容持有者仍希望在這一過程中獲識別風(fēng)險(xiǎn),發(fā)現(xiàn)價(jià)值請務(wù)必閱讀末對于內(nèi)容持有者來說,授權(quán)合作可以帶來與訴訟和解相當(dāng)甚至更多的現(xiàn)金收益,而且速度更快,同時(shí)這些交易還有助于其將AI應(yīng)用于業(yè)務(wù)優(yōu)化;對于AI公司,通過與內(nèi)容持有者合作,不僅能獲取高質(zhì)量的新聞數(shù)據(jù)以改進(jìn)模型效果,還能確保數(shù)據(jù)的合法來源,避免侵犯版權(quán)。因此,這種合作對雙方皆有益。目前,OpenAI、蘋果、谷歌等公司與內(nèi)容持有者簽署了數(shù)十個(gè)內(nèi)容許可協(xié)議,并有許多協(xié)議正在洽因?yàn)樾侣剶?shù)據(jù)具有及時(shí)性、真實(shí)性和廣泛覆蓋面,可以幫助解決AI內(nèi)容生成過程中的幻覺問題,但同時(shí)又存在版權(quán)方面的挑戰(zhàn)。因此,OpenAI希望通過與新聞出版商的合作來獲取高質(zhì)量的新聞數(shù)據(jù)改進(jìn)模型,并確保數(shù)據(jù)的合法來源。目前,OpenAI已簽署大約十幾個(gè)出版商協(xié)議,并且有許多協(xié)議正在進(jìn)行中,部分合作案例包括:1.2023年7月,OpenAI獲得美聯(lián)社授權(quán)使用其新聞故但是這項(xiàng)合作未授權(quán)在ChatGPT的用戶輸出中2.2023年12月,OpenAI與全球新聞出版商AxelSpringer達(dá)成內(nèi)容使用協(xié)議。OpenAI在未來三年內(nèi)將支付數(shù)千萬歐元以使用其出版物內(nèi)容,ChatGPT將以摘要形式生成答案,并在答案下方包含指向信息原始來源的鏈接。3.2024年4月,OpenAI與《金融時(shí)報(bào)》達(dá)成戰(zhàn)略合作,并簽署內(nèi)容許可協(xié)議。通過此次合作,ChatGPT用戶將能夠看到《金融時(shí)報(bào)》精選摘要、引述以及4.2024年5月,OpenAI與全球型媒體“新聞集團(tuán)”達(dá)成合作,將使用其旗下5.2024年5月,OpenAI宣布與社交媒體網(wǎng)站Reddit建立合作關(guān)系,利用6.2024年6月,OpenAI與《時(shí)代》雜志簽署了一份多年期內(nèi)容協(xié)議,該協(xié)議1.2023年12月,蘋果和NBC新聞、康泰納仕和IAC等新聞機(jī)構(gòu)達(dá)成了至2.2024年4月,蘋果與Shutterstock達(dá)成一筆價(jià)值5000萬美元的協(xié)議,蘋3.2024年2月,谷歌與Reddit達(dá)成每年6000金額未公布作再延長六年金額未公布金額未公布金融時(shí)報(bào)金額未公布金額未公布金額未公布谷歌數(shù)據(jù)來源:Shutterstock,Bloomberge,TheVerge,Axios,Lemond,Prisa,DotdashMereditInvestopedia,NewsCop,VoxMedia,TheAtlantic,Reuters,NewY我們分析,文本類數(shù)據(jù)集出現(xiàn)此種趨勢的原因如下:首先,新聞內(nèi)容的生命周期相對較短,難以保持獨(dú)特性,通常在發(fā)布后的短時(shí)間內(nèi)價(jià)值達(dá)到頂峰,但隨著時(shí)間推大部分訓(xùn)練數(shù)據(jù)并不能捕捉到人類的日常用語,而Reddit等論壇則提供了豐富的未過濾口語寫作數(shù)據(jù),這是AI公司能找到的較為有價(jià)值的日常表達(dá)數(shù)據(jù)集,能夠有效提升模型訓(xùn)練效果;相比之下,期刊書籍等學(xué)術(shù)出版物通常具有較長的生命周期,在數(shù)年甚至數(shù)十年內(nèi)仍然具有較高的研究和參考價(jià)值,因此,學(xué)術(shù)出版商更傾識別風(fēng)險(xiǎn),發(fā)現(xiàn)價(jià)值請務(wù)必閱讀末短,隨著時(shí)間推移價(jià)值會(huì)迅速下降依賴于訂閱、會(huì)員費(fèi)和銷售版權(quán)歸屬版權(quán)通常屬于發(fā)布者和平臺,涉及隱私問題版權(quán)可能涉及多個(gè)作者和機(jī)構(gòu)數(shù)據(jù)的趨勢。起初,生成式AI領(lǐng)域的數(shù)據(jù)授權(quán)合作多集中在文本領(lǐng)域,伴隨著多模態(tài)大模型的發(fā)展,數(shù)據(jù)授權(quán)合作由于訓(xùn)練與應(yīng)用需求而拓展至圖像和音視頻等領(lǐng)域。以全球創(chuàng)意平臺Shutterstock為例,其通過向AI公司提供龐大的視覺媒體庫,將視覺內(nèi)容貨幣化并進(jìn)行了商業(yè)模式的重大轉(zhuǎn)變。Shutterstock不僅與Meta、Alphabet、亞馬遜和蘋果等“主力客戶”達(dá)成協(xié)議,還與OpenAI簽署了一份為期六年的協(xié)議。2023年,Shutterstock通過與AI公司的授權(quán)業(yè)務(wù)創(chuàng)收達(dá)1.04前正在與多家科技公司進(jìn)行商談,計(jì)劃將其平臺上的130采取分享收益間接付費(fèi),以及以標(biāo)注出處作者等提供附加價(jià)值的方式來進(jìn)行授權(quán)定內(nèi)容的價(jià)值評估標(biāo)準(zhǔn)正在發(fā)生變化。在搜索引擎時(shí)代,數(shù)字版權(quán)的定價(jià)模式主要是基于內(nèi)容的受歡迎程度和流量,廣告商愿意為高流量的內(nèi)容付費(fèi)。然而,在大模型時(shí)代,數(shù)據(jù)作為一種新的資產(chǎn)類別,AI公司利用大規(guī)模數(shù)據(jù)進(jìn)行模型訓(xùn)練和優(yōu)化,相比于過去單純依靠廣告收入的模式,現(xiàn)在內(nèi)容的價(jià)值更多體現(xiàn)在其對AI模型的貢獻(xiàn)上。通過采用利潤分享、按API訪問次數(shù)收費(fèi)等多種定價(jià)策略,內(nèi)容持有者可以獲取經(jīng)常性收入,從而獲得更合理的收益。因此,我們判斷,未來的內(nèi)容授權(quán)合作的定價(jià)模式可能更多基于對AI模型的貢獻(xiàn),這種以大模型公司的盈利方式來定價(jià)較為合理,不僅反映了內(nèi)容的實(shí)際價(jià)值,還能促進(jìn)版權(quán)方和AI公司之間的合作,共同推動(dòng)技術(shù)進(jìn)步和商業(yè)模式創(chuàng)新。識別風(fēng)險(xiǎn),發(fā)現(xiàn)價(jià)值請務(wù)必閱讀末識別風(fēng)險(xiǎn),發(fā)現(xiàn)價(jià)值請務(wù)必閱讀末1.內(nèi)容持有者具體選擇訴訟還是合作取決于其商業(yè)模式、內(nèi)容獨(dú)特性和行業(yè)結(jié)構(gòu)等。我們發(fā)現(xiàn),藝術(shù)家們普遍傾向于抵制AI公司并控訴其侵權(quán)行為,而新聞媒體在版權(quán)保護(hù)的斗爭中卻難以形成統(tǒng)一陣線。《金融時(shí)報(bào)》、美聯(lián)社和AxelSpringer等新聞媒體選擇與AI公司合作,簽訂付費(fèi)協(xié)議,而《紐約時(shí)報(bào)》和一些地區(qū)性報(bào)紙等則選擇抵制與訴訟,這種選擇差異導(dǎo)致新聞行業(yè)在版權(quán)保護(hù)上的一致(1)商業(yè)模式:藝術(shù)家們主要依賴于作品銷售和版權(quán)使用費(fèi),因此,未經(jīng)授權(quán)使用這些內(nèi)容直接威脅到其經(jīng)濟(jì)利益,使得他們更有動(dòng)機(jī)采取法律行動(dòng)來抵制侵權(quán)行為。相比之下,新聞媒體的商業(yè)模式發(fā)生了較大變化,廣告收入減少和在線免費(fèi)新聞的普及使得新聞媒體在版權(quán)保護(hù)問題上難以達(dá)成一致,無法形成統(tǒng)一的陣線對抗AI公司的侵權(quán)行為。因?yàn)閺V告依賴型的新聞媒體擔(dān)心AI技術(shù)會(huì)減少訪問量,而依賴授權(quán)收入的媒體則可能更愿意與AI公司合作。(2)內(nèi)容獨(dú)特性:音樂繪畫等藝術(shù)作品通常屬于獨(dú)特的內(nèi)容創(chuàng)作,具有較高的藝術(shù)和商業(yè)價(jià)值,因此需要較強(qiáng)的版權(quán)保護(hù),同時(shí)也常擁有強(qiáng)大的版權(quán)集體管理組織來保護(hù)其利益。而新聞內(nèi)容獨(dú)特性較低,同一事件可能由不同媒體報(bào)道,削弱了新聞媒體在版權(quán)保護(hù)上的一致性和力度。此外,新聞內(nèi)容的生命周期較短,時(shí)效性強(qiáng),(3)行業(yè)結(jié)構(gòu):音樂等行業(yè)的行業(yè)格局相對集中,少數(shù)大公司主導(dǎo),這些公司有資源和動(dòng)機(jī)共同抵制AI公司的侵權(quán)行為。相比之下,新聞行業(yè)較為分散,不同媒體公司之間存在激烈競爭,難以形成統(tǒng)一戰(zhàn)線。不同新聞媒體的立場和利益可能有所不同,導(dǎo)致在對抗AI公司的侵權(quán)行為上的一致行動(dòng)受到削弱。的并購交易等方式進(jìn)行授權(quán)或直接買斷,內(nèi)容持有者授權(quán)一般不保護(hù)的斗爭中形成統(tǒng)一陣線,這種分歧削弱了新聞行業(yè)在與AI公司談判時(shí)的議價(jià)能力。但對于擁有數(shù)十年內(nèi)容的老牌新聞公司,其所擁有的新聞檔案對于大模型公司來說可能非常有價(jià)值。同時(shí),新興的新聞公司,若能提供實(shí)時(shí)數(shù)據(jù)與見解,也能吸引AI廠商的興趣。此外,視頻檔案通常比文本數(shù)據(jù)提供了更多差異化信息,廣識別風(fēng)險(xiǎn),發(fā)現(xiàn)價(jià)值請務(wù)必閱讀末播公司和有線網(wǎng)絡(luò)等擁有大量視頻檔案的內(nèi)容所有者同樣能夠增強(qiáng)其在談判中的議內(nèi)容持有者可能會(huì)面臨兩難局面。AI公司訓(xùn)練大模型所需的數(shù)據(jù)類型與數(shù)量有所差異,可能無需從所有內(nèi)容持有者那里獲得許可。對于內(nèi)容持有者而言,最好的集體結(jié)果是抵制授權(quán)其內(nèi)容并將價(jià)值保留在其平臺內(nèi)。然而,若不能與AI廠商達(dá)成協(xié)議,便有可能出局,對被拒之門外的恐懼可能會(huì)迫使部分內(nèi)容持有者授權(quán)其內(nèi)容,甚至不斷降低授權(quán)價(jià)格,并開始惡性循環(huán),因此內(nèi)容持有者將會(huì)面臨兩難局面。此外,起訴的高成本也可能會(huì)給內(nèi)容持有者造成的評估機(jī)制,內(nèi)容持有者在與AI公司談判時(shí)可能處于不利地位,難以確保自身內(nèi)容的合理定價(jià)。此外,AI公司對內(nèi)容需求的多樣性和動(dòng)態(tài)變化使得內(nèi)容持有者在確定內(nèi)容價(jià)值時(shí)面臨更多不確定性。這種量化挑戰(zhàn)迫使內(nèi)容持有者需要在創(chuàng)新商業(yè)此外,內(nèi)容持有者還將面臨由于AI模型輸出內(nèi)容侵權(quán)而帶來的法律問題。當(dāng)AI公司在訓(xùn)練模型時(shí)使用了未經(jīng)授權(quán)的受版權(quán)保護(hù)內(nèi)容,可能導(dǎo)致生成內(nèi)容的侵權(quán),并讓內(nèi)容提供者面臨法律訴訟的風(fēng)險(xiǎn)。因此,盡管是AI公司進(jìn)行模型訓(xùn)練,但內(nèi)容持有者可能因提供了這些數(shù)據(jù)而被卷入法律糾紛,被指控間接侵犯版權(quán)。識別風(fēng)險(xiǎn),發(fā)現(xiàn)價(jià)值請務(wù)必閱讀末三、AI巨頭將持續(xù)加碼數(shù)據(jù)合作,需關(guān)注數(shù)據(jù)版權(quán)糾紛重點(diǎn)案例確保訓(xùn)練數(shù)據(jù)的合法來源與合理使用對于AIGC的發(fā)展非常關(guān)鍵。在AIGC的發(fā)展過程中,大模型訓(xùn)練面臨著數(shù)據(jù)使用的合法性問題,例如未經(jīng)授權(quán)使用數(shù)據(jù)進(jìn)行訓(xùn)練將可能造成侵權(quán)行為。若在初期階段未能妥善解決,可能會(huì)導(dǎo)致一系列法律糾紛與侵權(quán)指控,不僅會(huì)對模型的合法合規(guī)產(chǎn)生影響,還會(huì)給研發(fā)帶來較大的法律風(fēng)險(xiǎn)和不確定性,甚至可能阻礙整個(gè)項(xiàng)目的進(jìn)展。因此,確保訓(xùn)練數(shù)據(jù)的合法來源和合理使用對于AIGC的發(fā)展非常關(guān)鍵。只有解決了這一問題,才能在確保法律合規(guī)的前提下,推動(dòng)生成式AI的廣泛應(yīng)用與商業(yè)落地。我們對于AI數(shù)據(jù)版權(quán)訴訟與內(nèi)容合作的時(shí)間節(jié)奏進(jìn)行梳理,發(fā)現(xiàn)從2年開始,AI數(shù)據(jù)版權(quán)訴訟開始進(jìn)入白熱化階段,而內(nèi)容合作則于2024年上半年加速,表明過去一年中版權(quán)問題已經(jīng)成為AI領(lǐng)域的焦點(diǎn),并且相關(guān)法律問題正在被逐步揭示與嘗試解決。關(guān)于AI訓(xùn)練數(shù)據(jù)版權(quán)訴訟,國外尚未達(dá)微軟和《紐約時(shí)報(bào)》之間的訴訟尚處于審前程序階段,2023年12月27日,求《紐約時(shí)報(bào)》提供證據(jù)證明受版權(quán)保護(hù)的作品是作者的原創(chuàng)作品。如果在審前程序階段沒有和解或其它解決辦法,那么在審前程序階段完成后,案件將進(jìn)入庭審階段并進(jìn)行最終庭審和判決。根據(jù)目前進(jìn)展,該案件可能會(huì)持續(xù)數(shù)月甚至數(shù)年,具體時(shí)間取決于案件的復(fù)雜性、法庭日程安排以《紐約時(shí)報(bào)》和作者公會(huì)的案件相關(guān)微軟提交反對介入動(dòng)議的意見,OpenAI提交對介入動(dòng)議的回復(fù),OpenAI提交駁回微軟提交駁回動(dòng)議,微軟請求進(jìn)行口頭辯論《紐約時(shí)報(bào)》提交反對微軟部分駁回動(dòng)議,OpenAI提交支持其駁回動(dòng)議的OpenAI提交有條件反對《紐約時(shí)報(bào)《紐約時(shí)報(bào)》提交支持其修正投訴申請的回復(fù)OpenAI提交合并《紐約時(shí)報(bào)》和《OpenAI要求《紐約時(shí)報(bào)》提供證據(jù)證明受版權(quán)保護(hù)數(shù)據(jù)來源:BakerHostetler,美國紐約南區(qū)地方法院文件,廣發(fā)證券發(fā)許可被發(fā)布后,將被告起訴至北京互聯(lián)網(wǎng)法院。最終法院認(rèn)定原告的圖片具備“獨(dú)創(chuàng)性”,符合作品的定義,受到著作權(quán)法保護(hù),這也成為了國內(nèi)首例AI生成圖片著作權(quán)侵權(quán)案。然而關(guān)于訓(xùn)練數(shù)據(jù)未經(jīng)授權(quán)的問題,國內(nèi)相關(guān)案件同樣未做出生效判決。例如,2023年6月,北京筆神作文公司宣布起訴其合作伙伴學(xué)而思,指控其通過“爬蟲”技術(shù),非法訪問、緩存其服務(wù)器數(shù)據(jù)多達(dá)258萬次,以此開發(fā)MathGPT的新產(chǎn)品“作文AI助手”。筆神作文公司要求學(xué)而思其公開道歉、刪版權(quán)法的復(fù)雜性與模糊性導(dǎo)致Al數(shù)據(jù)版權(quán)糾紛的判決尚需時(shí)間。2005年,美國作家協(xié)會(huì)通過集體訴訟向法院起訴谷歌圖書項(xiàng)目侵犯版權(quán),該訴訟歷時(shí)十一年。法官最后判定,谷歌圖書館計(jì)劃中的作品利用屬于合理使用,僅復(fù)制了作品的一小部識別風(fēng)險(xiǎn),發(fā)現(xiàn)價(jià)值請務(wù)必閱讀末分并改變了原作,是轉(zhuǎn)換性使用,因此不構(gòu)成侵權(quán)。我們認(rèn)為,由于版權(quán)法的復(fù)雜性和模糊性,使得很難明確區(qū)分哪些行為構(gòu)成侵權(quán)或不構(gòu)成侵權(quán),提升了判決難度。這種不確定性導(dǎo)致雙方在法庭爭議中浪費(fèi)大量資源,可能需要數(shù)年時(shí)間才能確定這些訴訟中的具體指控與結(jié)果。OpenAI案例中,由于原被告雙方分別為美國老牌媒體與生成式AI巨頭,其訴訟會(huì)深度觸及Al數(shù)據(jù)訓(xùn)練以及生成內(nèi)容與訓(xùn)練素材關(guān)系的合法性判斷,不但會(huì)影響AIGC文字內(nèi)容的版權(quán)糾紛,也會(huì)對Midiourney和Stable·Diffusion一眾圖形生成Al的版權(quán)訴訟產(chǎn)生明顯影響。一旦相關(guān)判決落地,將成為里程碑式的案件,對以后AI訓(xùn)練數(shù)據(jù)的版權(quán)界定有較大參考意義。因此建議關(guān)注《紐約時(shí)報(bào)》訴OpenAI等重點(diǎn)案例,案件判決將厘清新興法律輪廓,引導(dǎo)AI技術(shù)與版權(quán)法之間的關(guān)系發(fā)展,并成為生成式AI技術(shù)歷史上的標(biāo)志性事件之曾在2020年對RossIntelligence提起訴訟,指控其使用Westlaw案例摘要作為其AI系統(tǒng)分析法律問題的訓(xùn)練數(shù)據(jù),但RossIntelligence認(rèn)為其自身只是合理使用了這些案例摘要。法官駁回了訴訟雙方的簡易判決動(dòng)議,認(rèn)為在侵權(quán)和合理使用的指控上存在有爭議的事實(shí)問題。該訴訟預(yù)計(jì)在2024年庭審,我們預(yù)計(jì)本次庭審將初步揭示法院對于這類訓(xùn)練數(shù)據(jù)版權(quán)訴訟請求的態(tài)度。的提升。根據(jù)相關(guān)文獻(xiàn),對Wikipedia、CommonCraw的模型中主要資源或域名的未加權(quán)Token總數(shù)進(jìn)行排名。我們發(fā)現(xiàn)在排名前50的域中,有17家新聞媒體類(4家重復(fù))公司,其中不重復(fù)的13家中,目前有3家正在與AI公司合作(Reuters、BusinessInsider和TheAtlantic),2),CNN),還有6家未表明立場。從2023年下半年開始,越來越多的公司開始明1WikipediaWikiWikipedia23WikipediaWikiWikipedia4WebText-5WikipediaWikiWikipedia6WikipediaWikiWikipedia識別風(fēng)險(xiǎn),發(fā)現(xiàn)價(jià)值請務(wù)必閱讀末識別風(fēng)險(xiǎn),發(fā)現(xiàn)價(jià)值請務(wù)必閱讀末7WikipediaWikiWikipedia8ArchiveWebTextArchive9WikipediaWikiWikipediaWebTextWikipediaWikiWikipediaWebTextWikipediaWikiWikipediaWebTextWebTextAutomatticWikipediaWikiWikipediaWebTextWikiaWebTextWebTextWebText-BuzzFeedWebTextWebTextWebTextWarnerBros.DiscoveYahooWebTextWebTextBuzzFeedWebTextWebTextThomsonReutersWebTextAmazonTribunePublishing旅游類識別風(fēng)險(xiǎn),發(fā)現(xiàn)價(jià)值請務(wù)必閱讀末AlJazeera-WebText--數(shù)據(jù)來源:《What’sinmyAI》AlanD.T注:綠色底色為新聞媒體類公司,顯示的排名是基于數(shù)據(jù)集中未加權(quán)的T2024年有望成為AI數(shù)據(jù)版權(quán)之爭的關(guān)鍵年。從當(dāng)前的法律訴訟和合作談判情況來看,內(nèi)容持有者已在積極采取行動(dòng)保護(hù)其版權(quán),并通過訴訟或合作的方式來處理與AI公司的關(guān)系。目前趨勢與數(shù)據(jù)表明,2024年有望成為AI數(shù)據(jù)版權(quán)之爭的關(guān)鍵年,將會(huì)有更多訴訟、談判和合作展開,更多的公
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 技術(shù)創(chuàng)新與養(yǎng)老行業(yè)的融合
- 個(gè)人固定資產(chǎn)借款合同范文
- 土方運(yùn)輸承包合同范本
- 農(nóng)產(chǎn)品經(jīng)銷合同書
- 牛羊肉購銷合同協(xié)議書模板范本
- 凈水器購銷合同模板
- 合同范本產(chǎn)品銷售合同
- 合同違約責(zé)任條款
- 煤礦井下飛行巡檢機(jī)器人的研究與應(yīng)用展望
- 安裝合同范本 標(biāo)準(zhǔn)版
- 《財(cái)務(wù)管理學(xué)(第10版)》課件 第5、6章 長期籌資方式、資本結(jié)構(gòu)決策
- 房屋永久居住權(quán)合同模板
- 醫(yī)院納入定點(diǎn)后使用醫(yī)療保障基金的預(yù)測性分析報(bào)告
- 初中英語不規(guī)則動(dòng)詞表(譯林版-中英)
- 2024年3月四川省公務(wù)員考試面試題及參考答案
- 新生兒黃疸早期識別課件
- 醫(yī)藥營銷團(tuán)隊(duì)建設(shè)與管理
- 二年級數(shù)學(xué)上冊口算題100道(全冊完整)
- 冷軋工程專業(yè)詞匯匯編注音版
- 小升初幼升小擇校畢業(yè)升學(xué)兒童簡歷
- 第一單元(金融知識進(jìn)課堂)課件
評論
0/150
提交評論