大模型訓練數(shù)據(jù)行業(yè)市場前景及投資研究報告:培訓課件_第1頁
大模型訓練數(shù)據(jù)行業(yè)市場前景及投資研究報告:培訓課件_第2頁
大模型訓練數(shù)據(jù)行業(yè)市場前景及投資研究報告:培訓課件_第3頁
大模型訓練數(shù)據(jù)行業(yè)市場前景及投資研究報告:培訓課件_第4頁
大模型訓練數(shù)據(jù)行業(yè)市場前景及投資研究報告:培訓課件_第5頁
已閱讀5頁,還剩22頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

大模型訓練數(shù)據(jù)白皮書目錄CONTENTS01..........................................................................

02訓練數(shù)據(jù)對大模型發(fā)展的重要性02.....................................................................................

03模型訓練所需的數(shù)據(jù)類型2.1訓練大語言模型的數(shù)據(jù)

..................................................................................

032.2訓練多模態(tài)模型的數(shù)據(jù)

..................................................................................

042.3訓練數(shù)據(jù)的常見疑問和誤解

...........................................................................

042.3.1大模型訓練并不依賴用戶個人信息

......................................................

042.3.2中文語料短缺不是制約我國大模型發(fā)展的重要因素

.............................

0503......................................................................

06科學理解高質量數(shù)據(jù)的含義與作用3.1高質量數(shù)據(jù)的重要性

......................................................................................

063.2高質量數(shù)據(jù)的標準

..........................................................................................

073.2.1高質量數(shù)據(jù)類型的三重不確定性

..........................................................

073.2.2同類數(shù)據(jù)的評估標準并不完全一致

......................................................

0804....................................................

09合成數(shù)據(jù)作為解決訓練數(shù)據(jù)供給不足的新方案4.1訓練數(shù)據(jù)供給不足帶來的思考

........................................................................

094.2合成數(shù)據(jù)的定義

.............................................................................................

104.3合成數(shù)據(jù)的必要性

..........................................................................................

104.4合成數(shù)據(jù)的生成方法及分類

...........................................................................

114.5合成數(shù)據(jù)在模型訓練中的作用

........................................................................

124.5.1預訓練語料的新物種

............................................................................

124.5.2提升對齊語料獲取效率的..........................................................

134.6解決訓練數(shù)據(jù)供給不足的新方案

....................................................................

144.7在發(fā)展中治理的合成數(shù)據(jù)

...............................................................................

160506..............................................................................

17對大模型訓練數(shù)據(jù)治理的思考5.1大模型對訓練數(shù)據(jù)的使用特點

........................................................................

175.2大模型訓練數(shù)據(jù)合規(guī)的治理之智

....................................................................

18...................................................................

19政府與社會力量協(xié)同的訓練數(shù)據(jù)生態(tài)6.1美國的現(xiàn)狀

....................................................................................................

196.2中國的現(xiàn)狀

....................................................................................................

210708...................................................................

23阿里巴巴集團在大模型訓練與應用的探索.................................................

24以更開放和務實的方式解決高質量訓練數(shù)據(jù)供給自《中共中央國務院關于構建數(shù)據(jù)基礎制度更好發(fā)揮數(shù)據(jù)要素作用的意見》發(fā)布以來,我國數(shù)據(jù)要素建設不斷深入,在國家數(shù)據(jù)局等

17

部門聯(lián)合印發(fā)的《“數(shù)據(jù)要素

×”

三年行動計劃(2024-2026

年)》進一步明確

“建設高質量語料庫和基礎科學數(shù)據(jù)集,支持開展人工智能大模型開發(fā)和訓練”。通過數(shù)據(jù)要素建設推動人工智能大模型發(fā)展,可以有效解決我國人工智能,特別是大模型研發(fā)所面臨的數(shù)據(jù)瓶頸,進一步發(fā)揮大模型對于世界知識數(shù)據(jù)的匯集和處理能力,創(chuàng)造更大的生產力,助力我國從數(shù)據(jù)經濟走向智能經濟新發(fā)展模式。大模型是數(shù)據(jù)要素價值釋放的最短路徑,通過理解其訓練所使用的數(shù)據(jù)類型,可以更好理解大模型發(fā)揮價值的內在機制,破解對訓練數(shù)據(jù)常見的迷思和誤解。而促進高質量訓練數(shù)據(jù)的建設,需要理解人工智能對數(shù)據(jù)的實際需求,科學評價數(shù)據(jù)的規(guī)模和質量;需要綜合利用政府、企業(yè)、社會等各方資源,構建共享、共創(chuàng)、共贏的合作生態(tài),以更務實、多元、開放的方式解決供給不足的問題;還需要為技術發(fā)展預留空間,構建更順應模型發(fā)展的數(shù)據(jù)治理體系,相信隨著技術的日益成熟,相應的商業(yè)模式和制度設計也都會逐步完善。01大模型訓練數(shù)據(jù)白皮書01訓練數(shù)據(jù)對大模型發(fā)展的重要性業(yè)界認為,算法、算力與數(shù)據(jù),是支撐大模型發(fā)展的三大基石。更高質量、更豐富的數(shù)據(jù)是以

GPT

為例的生成式人工智能大模型成功的驅動力。GPT

模型架構從第

1

代到第

4

代均較為相似,而用來訓練數(shù)據(jù)的數(shù)據(jù)規(guī)模和質量卻有很大的不同。GPT-1

是由

4.8G

未過濾原始數(shù)據(jù)訓練,GPT-2

是由經人類過濾后的

40G

數(shù)據(jù)訓練,GPT-3是由從

45T

原始數(shù)據(jù)中過濾的

570G

數(shù)據(jù)訓練,而

chatGPT/GPT-4

則是在該基礎上又加入了高質量人類標注。以吳恩達(AndrewNg)為代表的學者觀點認為,人工智能是以數(shù)據(jù)為中心的,而不是以模型為中心?!坝袠俗⒌母哔|量數(shù)據(jù)才能釋放人工智能的價值,如果業(yè)界將更多精力放在數(shù)據(jù)質量上,人工智能的發(fā)展會更快”。0202模型訓練所需的數(shù)據(jù)類型數(shù)據(jù)作為大模型訓練的基礎,它提供了大模型所必需的知識和信息。區(qū)別于以往搜索系統(tǒng)、個性化推薦等所需的大量用戶行為和偏好數(shù)據(jù),隨著技術的演進,大模型所需的數(shù)據(jù)是對知識性內容有強需求,是一種新的類型。2.1?訓練大語言模型的數(shù)據(jù)大模型所需要的數(shù)據(jù)根據(jù)訓練的階段有所不同。以

ChatGPT

為代表的大語言模型(LLM)為例,其訓練過程分為預訓練(Pre-training)、監(jiān)督微調(SFT)、基于人類反饋的強化學習(RLHF)三個階段,后兩部分又統(tǒng)稱為03大模型訓練數(shù)據(jù)白皮書“對齊”(Alignment)階段。第一階段預訓練所需的語料是各種類型的世界知識,包括網頁、書籍、新聞、論文期刊、對話文本、代碼等形式,通過大量學習世界知識,構建模型的基礎能力,理解客觀世界的規(guī)律,該階段的語料特征可以概括為

“廣”。第二階段

SFT,通過標注人員設計問答,編寫正確答案,將例題投喂給模型,并希望模型在沒有見過的任務中“舉一反三”,提升泛化能力。第三階段

RLHF,訓練目標是讓模型的價值觀與人類對齊,需要人類對模型的回答進行打分、排序,讓模型知道

"

怎么說更好

"。第二和第三階段的數(shù)據(jù)質量要求較高,需要來自人類的高質量反饋,語料特征可以概括為

“齊”。如果將模型微調后部署應用于特定的場景形成行業(yè)大模型(如工業(yè)、金融、醫(yī)療等),則需要滿足該場景專業(yè)需求的特定領域知識做預訓練和對齊,需要具備一定專業(yè)深度,如行業(yè)數(shù)據(jù)庫、專業(yè)文檔、專業(yè)網站等,這部分的語料特征是

“專”。2.2?訓練多模態(tài)模型的數(shù)據(jù)大語言模型迅速發(fā)展的同時,Transformer

開始遷移到圖像、視頻和語音等其他模態(tài)數(shù)據(jù)領域,并與大語言模型融合,形成多模態(tài)大模型。多模態(tài)模型模擬人類大腦處理信息的方式,把各種感知模態(tài)結合起來,以更全面、綜合的方式理解和生成信息,最終實現(xiàn)更豐富的任務和應用。從以

Mid-journey

Sora

為例的多模態(tài)大模型看,在訓練階段需要大量圖像

-

文本對、視頻

-

文本對等有標注數(shù)據(jù)集進行訓練。圖像

-

文本對是包含一張圖像和一段描述該圖像內容的文本的數(shù)據(jù),讓模型學習組成圖像的像素之間、文字與圖像的關聯(lián)。視頻

-

文本對包括一個短視頻和一段描述視頻中發(fā)生事件的文本,讓模型不僅學習單個畫面,還需要理解視頻中的時間序列和動態(tài)變化。2.3?訓練數(shù)據(jù)的常見疑問和誤解2.3.1?大模型訓練并不依賴用戶個人信息人工智能經歷了從有監(jiān)督學習到無監(jiān)督學習的發(fā)展階段,神經網絡等技術推動了數(shù)據(jù)驅動的應用模式。傳統(tǒng)的決策類人工智能在需求側通過學習和分析海量的用戶行為數(shù)據(jù),判斷用戶的偏好和需求。在供給側通過學習內容的特征,借助推薦、排序等機制實現(xiàn)需求和內容的匹配,并根據(jù)用戶的行為反饋進行優(yōu)化,提高算法的準確性。以個性化搜索為例,以大量的用戶使用記錄、用戶畫像、內容畫像等原始數(shù)據(jù)為基礎,提煉出客群和內容標簽等不同維04度的信息,進而抽象出特征向量,用向量的空間距離計算用戶和內容的相似度,通過匹配與排名進行個性化的搜索結果召回?;谏鲜鎏攸c,此類決策式人工智能技術在需求側需要更多用戶數(shù)據(jù),在供給側依賴更為全面的內容特征。與以前的決策類人工智能相比,以大模型為代表的生成式人工智能的技術特征有明顯差異。大模型是模擬人類的思維活動方式生成人類可以理解和使用的內容,而訓練數(shù)據(jù)也是基于世界知識,對語料庫等知識性內容有強烈需求,因此大模型訓練階段不依賴個人信息等原始數(shù)據(jù)。此外,為保證生成內容與人類價值觀對齊,業(yè)界往往利用強化學習,通過納入人工標注等機制優(yōu)化表達,使模型生成內容更接近于人類認知。因此大模型對于用戶數(shù)據(jù)并不依賴,而對專業(yè)化、高質量語料的知識性內容依賴大。由此看出,隨著技術的演進,對訓練數(shù)據(jù)的需求類型也有所不同。然而,有很多人對此仍存在誤解。根據(jù)第三方專業(yè)機構測評顯示,超過

60%

的受訪者誤選了

“盜取、泄露個人隱私數(shù)據(jù)的安全風險”

作為大模型的最主要風險點。與一般看法相反,過量的個人數(shù)據(jù)會負面影響大模型的能力,而過于個性化的應用也將增加大模型的運算負擔。對此,OpenAI

負責人

SamAltman

表示,ChatGPT

不需要用戶的個人數(shù)據(jù),用戶可以選擇刪除其與

ChatGPT

的交互歷史;類似的,我國目前主流大模型在提供用戶隱私保護的基礎上,并不過度收集和使用用戶個人信息,并允許用戶控制和刪除其與大模型交互的對話和提供的內容。當然,在大模型的推理階段,如果用戶惡意誘導,盡管有相應的模型安全機制,仍不能完全避免個人信息泄露的問題。但可以明確的是,大模型在訓練階段并不依賴個人信息。2.3.2?中文語料短缺不是制約我國大模型發(fā)展的重要因素談到中文大模型,一個普遍關注的問題是,中文語料和英文語料在互聯(lián)網中的占比存在顯著差異:在全球網站中,英文占

59.8%,而中文僅占

1.3%,那中文語料供給短缺是否是制約我國大模型發(fā)展的關鍵要素呢?在實踐中發(fā)現(xiàn),規(guī)模并不是決定性影響因素。一是世界知識的積累有的屬于客觀事實,用英文或中文表達,其原理是一致的?;蛘哒f,在機器翻譯質量有保障的前提下,可以彌補這部分中文語料的缺少。二是在訓練技術上引入新方法也可以彌補語料供給不足的問題。例如通過合理安排不同語言類型的訓練順序,也能讓模型學習到供給相對較少語言的豐富特征。然而有一種類型的中文語料是極為重要且存在短缺的

-

中式價值觀類語料。因為模型為了更好地理解客觀世界和掌握規(guī)律,需要學習大量來自知識和價值觀層的數(shù)據(jù),它們更多受到人類主觀意志的影響。而大模型是概率分布模型,其使用的數(shù)據(jù)分布將使得模型具備與之相似的人類意志。所以,訓練中加入更多代表中式價值觀的語料,有助于大模型更好地理解和反映中文使用者的文化背景和價值取向,從而在全球化的背景下保持文化的多樣性和獨特性。而且此類語料短缺的問題也沒有辦法通過機器翻譯彌補,因為即使翻譯質量有保障,仍會引入源語言的偏見,體現(xiàn)的仍是源語言的價值觀??傮w來看,文言文、古漢語、電子書籍等反映優(yōu)秀傳統(tǒng)文化的內容,以及主流媒體發(fā)布的能反映本土價值觀的內容,都可視為高質量具有中式價值觀的語料。但目前看,與語料相關的各環(huán)節(jié):05大模型訓練數(shù)據(jù)白皮書從積累機制、數(shù)字化(比如我國古籍數(shù)字化率不到

30%),到開放共享與開發(fā)利用,及訓練過程中機器算法與編碼系統(tǒng)的建設,都仍需大量持續(xù)投入精力??梢姡形恼Z料

“量”

的短缺尚可有解決方案,但中式價值觀類的語料短缺,則會成為制約我國大模型發(fā)展的短板。03科學理解高質量數(shù)據(jù)的含義與作用在生成式人工智能時代,模型訓練的成功與否與所依賴的數(shù)據(jù)質量息息相關。模型的能力很大程度上可以反映出其訓練數(shù)據(jù)的質量,這也無疑凸顯了高質量數(shù)據(jù)在大模型訓練和應用中不可替代的重要性。3.1?高質量數(shù)據(jù)的重要性由于高質量數(shù)據(jù)可以更好地模擬客觀世界,將其作為訓練數(shù)據(jù)可以增強模型能力。從技術層面看,通常用損失函數(shù)來量化模型預測輸出與實際目標之間的不匹配程度。能更好模擬客觀世界的高質量數(shù)據(jù),可以使模型預測的概率分布盡可能逼近實際數(shù)據(jù)的真實分布,通過優(yōu)化算法調整模型參數(shù),讓模型在訓練集上的損失函數(shù)最小。從模型能力表現(xiàn)看,一是高質量數(shù)據(jù)可以提升模型的準確性和穩(wěn)定性。首先,這些數(shù)據(jù)通常包含更準確和豐富的信息,有助于模型更好地理解數(shù)據(jù)的內在結構,掌握世界規(guī)律,提升產出的精準性。其次,數(shù)據(jù)清洗是提高數(shù)據(jù)質量的重要環(huán)節(jié),包括去重、刪除個信隱私內容、糾正錯誤、填補缺失值等,經過清洗的數(shù)據(jù)可以提升訓練階段的穩(wěn)定性。二是高質量數(shù)據(jù)具有多樣性,可以降低模型對特定數(shù)據(jù)集的依賴,提升魯棒性和泛化能力。一方面高質量數(shù)據(jù)通過對現(xiàn)有不同的數(shù)據(jù)加以混合,調試配比,提升模型執(zhí)行下游任務的泛化能力。另一方面可以利用數(shù)據(jù)增強等手段有效提升多樣性,即通過對現(xiàn)有數(shù)據(jù)進行變換或擴充,如旋轉、縮放、亮度調整等,生成更多的訓練樣本,增加訓練數(shù)據(jù)代表性和多樣性。然而,即使在訓練各階段中的語料都滿足高質量,能做到

“真實性”、“準確性”、“客觀性”、“多樣性”

的要求,仍不能完全避免模型結果產生幻覺,即

“一本正經胡說八道”。因為大模型本質是概率模型,是基于前文預測06下一個詞出現(xiàn)的概率,“詞語接龍”

出現(xiàn)的下一個詞并不是

100%

有確定性的。所以高質量的語料,可以大幅降低模型結果產生幻覺的概率,但并不能完全避免。但如果在訓練中使用了較多錯誤、有毒、重復的低質量數(shù)據(jù),則會對模型能力產生破壞性影響,也就是人們常說的

“GarbageInGarbageOut”,比如沒有經過嚴格質量篩選的大量社交媒體對話、用戶生成的內容等。在對模型能力的損害上,使用錯誤的數(shù)據(jù)進行訓練,會導致模型記憶有偏差信息,發(fā)生事實性錯誤;使用有重復的語料,則可能會導致模型在訓練過程中對特定類型的示例產生偏見,降低生成結果的多樣性,造成模型能力的顯著下降。由于高質量數(shù)據(jù)如此重要,會引發(fā)對一系列問題的思考,比如我們能否前置制定統(tǒng)一的標準體系,把高質量訓練數(shù)據(jù)先識別出來?數(shù)據(jù)質量與模型的能力有什么聯(lián)系?3.2?高質量數(shù)據(jù)的標準3.2.1?高質量數(shù)據(jù)類型的三重不確定性第一重不確定性來自于所需的語料種類,其類型是由人類對模型能力需求決定的,而能力需求又是根據(jù)需要模型所完成的任務而不斷演變?;厮莼A大模型的發(fā)展歷程,在

2020

年左右,基于

Transformer

架構的

GoogleMeena,其目的是讓模型具有生成連貫且有意義內容的對話能力,因此對話文本被視為最重要的高質量數(shù)據(jù)。而隨著技術路線的演進,人們發(fā)現(xiàn)更通用的上下文理解是重點,因此書籍和科研論文等又被視為高質量數(shù)據(jù)。通過提升其在訓練語料中的占比,可以增強模型從文本中捕捉長距離依賴的能力。隨著人們對通用人工智能的向往,對提升通用性能的北極星指標

-

推理能力有幫助的語料,又更加被重視。一種是代碼數(shù)據(jù),因為里面涉及大量If-Then-Else

等條件控制信息;另一種是教材,因為涉及了比較詳細的數(shù)學推理過程,和邏輯鏈高度相關。如果再拓展到行業(yè)模型,根據(jù)對模型能力的不同需求,語料類型更難以一一列舉。比如,經人類標注的,由視覺相似性圖片構成的匹配對數(shù)據(jù)庫,可以作為高質量數(shù)據(jù)用于大模型在廣告領域的訓練,通過更好預測用戶需求實現(xiàn)對素材點擊率的優(yōu)化。而通過收集人類駕駛員對稀有事件(比如駕駛過程中遇到的復雜路況、極端天氣、異常行為的人或車輛等場景)的應對數(shù)據(jù),則可以更好訓練完全自動駕駛(FSD)模型在不同場景中的處理能力。由此看出,由于生成式

AI

在技術演進和應用場景拓展中具有不確定性,模型對所需要語料類型也在發(fā)生變化,“高質量語料”

的類型和范圍也在不斷拓展。第二重不確定性來自于語料形態(tài)的演化,高質量數(shù)據(jù)的形態(tài)會不斷增強,以強化該類型語料的能力。一方面隨著合成數(shù)據(jù)和數(shù)據(jù)增強技術的提升,大模型正在不斷拓展對數(shù)據(jù)利用的可能性。如領域知識生成,對于大模型難以直接使用的原始數(shù)據(jù),通過加工、改造和泛化可以形成模型訓練可用的知識類數(shù)據(jù)。另外,在自動駕駛等領域,通過仿真數(shù)據(jù)生成更多樣化、不同視角的物理世界用于模型訓練,可以提升針對特定場景的數(shù)據(jù)收集效率,彌補真實07大模型訓練數(shù)據(jù)白皮書世界中對稀有事件觀測不足的問題。另一方面,隨著模型長上下文建模能力的增強,對代碼和教材的需求又有了質的變化。例如,訓練用的代碼數(shù)據(jù)從執(zhí)行單一任務到倉庫級,讓模型推理能力從掌握單任務模塊進化到學習整體架構;訓練用的教材從中小學級別知識拓展到大學,進一步增強了復雜場景下的推理能力。第三重不確定性來自于不同數(shù)據(jù)類型之間的有效搭配,數(shù)據(jù)調度對模型能力起到重要作用。該環(huán)節(jié)強調對不同的數(shù)據(jù)加以混合,以提升數(shù)據(jù)集的多樣性。因為不同類型的數(shù)據(jù)對模型能力提升的側重點不同,各個數(shù)據(jù)的配比不同,也會影響模型的泛化能力以及在下游任務的表現(xiàn),其中包含兩個重要環(huán)節(jié):一是調整不同配比(數(shù)據(jù)混合),二是不同

數(shù)據(jù)用于訓練的順序(數(shù)據(jù)課程)。數(shù)據(jù)的數(shù)據(jù)混合環(huán)節(jié)可以在訓練的不同階段設定配比,在實踐中不斷嘗試出最優(yōu)的組合。例如在監(jiān)督微調階段,有研究者從

StackExchange、Reddit等網站中精選高贊語料,配合手工整理的問答對,得到共計

1000條高質量微調數(shù)據(jù),以

“少而精”

的數(shù)據(jù)在模型對齊能力上取得了很好的效果。數(shù)據(jù)混合在實踐中會采取不同策略,一是增加數(shù)據(jù)源的多樣性,這對大模型在下游任務能力的提升十分關鍵;二是可以根據(jù)大模型執(zhí)行的目標任務,選擇對任務性能產生積極影響的數(shù)據(jù)。數(shù)據(jù)課程環(huán)節(jié)是為了讓大模型更好地學習某項技能,對語料學習順序進行探索。一般來說,按照技能集合的順序組織預訓練語料(從基礎技能到目標技能),比直接從專注于目標技能的語料庫中學習更為有效,如從通用或簡單的例子開始,逐步引入更具專業(yè)化或復雜度的數(shù)據(jù)。3.2.2?同類數(shù)據(jù)的評估標準并不完全一致對同類語料的質量評估,往往從質量、規(guī)模、多樣性三個維度出發(fā)。在質量上,被視為

“高質量”

通常是因為其信息已經通過了有用性或質量篩選,這些大多可以從中做判斷。例如,在語言模型訓練中,新聞、科研論文或開源代碼項目中的內容會受到專業(yè)標準(如同行評審)的篩選;常識性內容中,維基百科則經受了一群專注編輯者的篩選;而經過篩選的對話內容則是基于用戶的積極互動(如在

Reddit

上獲得的點贊數(shù)量);在多模態(tài)模型訓練中,以視覺中國為例,其網站有經過專業(yè)設計師篩選的大量圖片和視頻素材,并有對圖像的光照、構圖、藝術性、美觀性等專業(yè)性標注,形成了高質量的圖像

/

視頻

-

文本對。其次,對于無法從信息直接判斷數(shù)據(jù)質量的語料,人們會嘗試用評估模型進行打分。例如對大量公開的網頁,通過先對少量樣本人工評價得到可讀性、幫助性、安全性等指標,通過這些具有代表性的樣本訓練評估模型,將人工定義的評價標準轉化為機器可識別的特征和模式,在此基礎上評價語料中所有網頁信息的質量。然而,即使有了前兩種方法,針對部分語料仍無法前置判斷其質量。如用于領域模型訓練的語料,涉及到不同行業(yè)的專業(yè)知識,缺少統(tǒng)一的判斷標準,往往是在模型訓練中不斷檢驗其質量的高低。從規(guī)???,收集足夠規(guī)模的高質量語料也非常重要。根據(jù)大模型

“伸縮法則”,當模型的參數(shù)或計算量按比例擴大時,模型性能也與之成比例提升。而隨著參數(shù)規(guī)模的增加,也需要更多數(shù)據(jù)來訓練模型,即模型參數(shù)與訓練語料之間也存在類似的比例關系。需要指出的是,并不是語料規(guī)模越大越好,而是高信息密度的語料規(guī)模越大越好:以

CC(CommonCrawl)和

C4

數(shù)據(jù)集的對比為例,CC

是一個有

400TB

的公共網絡抓取數(shù)據(jù)集,包含了互聯(lián)08網上數(shù)十億網頁,內容非常廣泛但未經清洗。而

C4

則是對

CC

進行了過濾噪聲、重復內容等清洗后的

305GB

數(shù)據(jù)集。經評估發(fā)現(xiàn)基于

C4

訓練的模型性能優(yōu)于

CC,這既說明了數(shù)據(jù)清洗的重要性,也說明了語料規(guī)模不能一味追求大。此外,同類型語料中的多樣性也是值得關注的問題。首先,會涉及到數(shù)據(jù)集的公平性,從網絡采集的信息存在對于弱勢群體(如種族、性別、職業(yè)、年齡等)不平衡的問題,可能會加劇現(xiàn)有偏見或系統(tǒng)性不平等。在技術層面上,通過對訓練數(shù)據(jù)集進行仔細地審查和篩選,確保其分布的廣度和均衡性,可以緩解公平性問題。另外,同類語料的多樣性也會影響模型能力,特別是在安全能力建設方面。真實世界中潛在隱患的出現(xiàn)往往是偶然事件,相較于對這些

“不良信息”

的一概刪除,對這些樣本采用打安全標簽的方式,反而有助于提升模型對安全風險的識別,增強安全防護能力。針對不同類型的高質量語料,意味著其在語料類型、語料形態(tài)以及語料搭配使用三個層面存在不確定性。而針對同類型的語料,又涉及到從質量、規(guī)模、多樣性三方面的綜合考量,對高質量并沒有統(tǒng)一的評估標準。就像生成式人工智能技術的發(fā)展路徑充滿不確定性一樣,對高質量數(shù)據(jù)的判斷,也同樣沒有人擁有

“上帝視角”,可以精準前置預知高質量的標準,來決定哪些是未來的高質量數(shù)據(jù)。因此,在對高質量數(shù)據(jù)的理解上,應認識到對高質量并不適合被前置的客觀標準定義?!案哔|量”

更多是一種主觀判斷,它的標準取決于模型的應用目的,數(shù)據(jù)類型會根據(jù)模型的發(fā)展階段

“因時而動”、根據(jù)技術人員的理解判斷

“因人而異”、根據(jù)模型的訓練效果

“因效而定”。因此,所謂

“高質量標準”

的制定,至多也只是對同類型數(shù)據(jù)在質量維度評估提供一種參考,對模型訓練的價值有限。04合成數(shù)據(jù)作為解決訓練數(shù)據(jù)供給不足的新方案4.1?訓練數(shù)據(jù)供給不足帶來的思考在生成式人工智能技術不斷發(fā)展的趨勢下,訓練數(shù)據(jù)是人們最關心的問題之一。上節(jié)以政府和社會力量的視角展開。本節(jié)以已經使用的數(shù)據(jù)源和正在探索的新數(shù)據(jù)源視角展開。在已經使用的訓練語料中,有用于語言大模09大模型訓練數(shù)據(jù)白皮書型訓練的文本數(shù)據(jù),包括網頁信息、書籍、科研論文、知識百科、專業(yè)問答、代碼以及領域知識,也有用于多模態(tài)模型的圖片、視頻、音頻等媒體數(shù)據(jù)。根據(jù)

EpochAI

的估算,書籍、科研論文等高質量語言數(shù)據(jù)集可能會在2024

年前耗盡。人們正在積極探索新數(shù)據(jù)源,以緩解訓練語料可能面臨不足的問題。一種思路是將未數(shù)字化的知識數(shù)字化,如在最新發(fā)布的

Claude3

中,提到了將大量未數(shù)字化的書籍和資料做數(shù)字化處理,成為模型可讀取的訓練語料。還可利用機器感知數(shù)據(jù),比如將無人車、無人機、其他智能硬件設備等生成的大量物理世界數(shù)據(jù)用于訓練。另一種思路是利用模型或算法,批量生成新數(shù)據(jù),比如合成數(shù)據(jù),然后利用它們訓練模型。近期,合成數(shù)據(jù)在大模型訓練和應用的話題引起了廣泛關注。一方面,高質量的合成數(shù)據(jù)可以作為真實數(shù)據(jù)的補充和替代,模擬現(xiàn)實世界的復雜性和多樣性,被視為擴展模型學習范圍與能力的重要手段。另一方面,合成數(shù)據(jù)的生成過程可能存在偏差或噪聲,導致其質量和真實性無法完全模擬客觀世界。由此引出一系列值得深入討論的問題:對于合成數(shù)據(jù)的價值,它能否拓展大模型能力的邊界?又是否能替代真實數(shù)據(jù),緩解優(yōu)質數(shù)據(jù)供給不足的問題?此外,合成數(shù)據(jù)能否通過對現(xiàn)有數(shù)據(jù)的深加工,將之前不能被用于訓練的數(shù)據(jù)轉化為可用,提升模型對數(shù)據(jù)利用的可能性?而對于合成數(shù)據(jù)的風險,人們也會擔憂是否會出現(xiàn)

“大模型自己產生數(shù)據(jù)進行自我訓練”

的循環(huán),導致初始偏差被不斷放大,最終使模型失控?這種新數(shù)據(jù)源還會帶來哪些新風險?4.2?合成數(shù)據(jù)的定義合成數(shù)據(jù)是通過算法和數(shù)學模型創(chuàng)建的。首先建模真實數(shù)據(jù)的分布,然后在該分布上進行采樣,創(chuàng)建出新數(shù)據(jù)集,模擬真實數(shù)據(jù)中的統(tǒng)計模式和關系。合成數(shù)據(jù)類似于數(shù)據(jù)的

“替身演員”,發(fā)揮補充或替代真實數(shù)據(jù)的作用。在機器學習和人工智能領域,合成數(shù)據(jù)可以為模型提供訓練材料,幫助它們學習、理解和預測。需要注意的是,如果生成過程設計不當,合成數(shù)據(jù)也可能缺乏保真度,對客觀世界的模擬出現(xiàn)偏差。4.3?合成數(shù)據(jù)的必要性什么情況下會用到合成數(shù)據(jù)?本質原因是真實世界中獲取數(shù)據(jù)遇到困難。一是真實世界中難以觀測,如罕見病或極端天氣等。利用合成數(shù)據(jù)可以設計比真實數(shù)據(jù)集更廣泛的情況,對

CornerCase

進行模擬,提升訓練數(shù)據(jù)集的全面性和多樣性,確保在處理邊緣案例時也有良好性能,提升模型泛化能力。二是真實世界中數(shù)據(jù)獲取的成本高,如大模型對齊訓練中需要人類大量的高質量反饋。利用合成數(shù)據(jù)可以實現(xiàn)對齊流程自動化,幾乎不需人類標注,大幅節(jié)省成本,提高獲取效率。三是數(shù)據(jù)獲取和處理涉及到真實世界中的個信甚至敏感信息,特別是醫(yī)療健康10和金融領域。合成數(shù)據(jù)可以利用差分隱私對個體信息

“加噪聲”

等方法,模擬真實數(shù)據(jù)集的分布,而不模擬其中的真實個人信息,實現(xiàn)對個信去標識化。由此歸納出,合成數(shù)據(jù)具有全面性和多樣性、經濟高效、有利于隱私保護等優(yōu)點。4.4?合成數(shù)據(jù)的生成方法及分類根據(jù)是否基于實際數(shù)據(jù)集生成,合成數(shù)據(jù)生成方法主要分為兩大類。第一種是基于真實數(shù)據(jù)集構建的:人們會建立模型以捕獲真實數(shù)據(jù)的分布特性和結構特征,刻畫數(shù)據(jù)中的多變量關系和相互作用。然后從該模型中抽樣或生成合成數(shù)據(jù)。如果模型能很好地代表真實數(shù)據(jù),那么合成數(shù)據(jù)將具有與真實數(shù)據(jù)相似的統(tǒng)計特性。以

ChatGPT

為例,它深入研究了人類寫的數(shù)十億例文本,分析了詞語之間的關系,并構建了一個模型來理解它們是如何組合在一起的。在生成文本時,每一個單詞的選擇也都取決于它前一個單詞出現(xiàn)的統(tǒng)計概率。第二種生成方法并不于真實數(shù)據(jù),而是通過使用現(xiàn)有模型或者人類專業(yè)背景知識來創(chuàng)建。現(xiàn)有的模型可以是某個過程的統(tǒng)計模型,也可以是模擬模型。模擬可以通過游戲引擎等方法創(chuàng)建,如最近火爆的

Sora

文生視頻模型,里面用到了由游戲引擎11大模型訓練數(shù)據(jù)白皮書(Unity、UnrealEngine5

等)合成的視頻數(shù)據(jù)作為訓練集,以提高生成質量。根據(jù)用于訓練的

AI

類型,可以將合成數(shù)據(jù)分為應用于生成式

AI

和判別式

AI

訓練兩類。應用于生成式

AI

訓練的通常有媒體合成數(shù)據(jù),即由模型和算法合成的視頻、圖像或聲音。文本合成數(shù)據(jù),即在自然語言處理中由模型生成的文本。而判別式

AI

訓練(分類或回歸)所需的通常是表格合成數(shù)據(jù),類似真實生活中數(shù)據(jù)記錄或表格的合成數(shù)據(jù)。4.5?合成數(shù)據(jù)在模型訓練中的作用基礎大模型訓練所需的數(shù)據(jù)類型包含兩大類,一是用于預訓練的世界知識,二是用于對齊的數(shù)據(jù)。合成數(shù)據(jù)作為真實數(shù)據(jù)的一種替代,現(xiàn)階段雖然在預訓練占比不高,但未來發(fā)展?jié)摿薮?,可作為一個

“新物種”

密切關注;目前合成數(shù)據(jù)多應用于提升對齊階段的數(shù)據(jù)獲取效率,增強模型安全和可靠性。4.5.1?預訓練語料的新物種模型預訓練階段是通過大量無監(jiān)督學習構建基礎能力,掌握世界的規(guī)律。大語言模型需要各類世界知識,包括網頁、書籍、新聞、代碼等;而多模態(tài)又需要視頻、圖片、音頻等語料。那么合成數(shù)據(jù)作為新物種,能對模型的訓練語料起到哪些補充作用呢?首先,合成數(shù)據(jù)可應用于多模態(tài)數(shù)據(jù)的生成。最近火爆的

Sora

文生視頻大模型,里面用到了大量由游戲引擎合成的視頻數(shù)據(jù)作為訓練集,以提高生成質量。此外,利用模擬器生成的多模態(tài)場景數(shù)據(jù)還廣泛應用于具身智能機器人、自動駕駛、AIforScience

等場景的訓練。利用模擬模型生成多模態(tài)數(shù)據(jù)可以更好滿足模型對訓練數(shù)據(jù)差異化的需求,例如通過有效

“過采樣”(隨機復制少數(shù)樣例以增大它們的規(guī)模)罕見事件或災難性事件,以確保模型能夠針對更廣泛的輸入保持魯棒性。而伴隨生成式人工智能走向更通用,模型訓練將不僅從文字中學習,也會從聲音、圖片和視頻中學習,就更需要多模態(tài)的訓練數(shù)據(jù)。因此,我們判斷通過合成的多模態(tài)數(shù)據(jù)進行訓練的需求還會持續(xù)且大幅增加。其次,合成數(shù)據(jù)還可應用于高價值領域知識的生成。核心是合成數(shù)據(jù)能通過對現(xiàn)有數(shù)據(jù)的深加工,將之前不能被用于訓練的數(shù)據(jù)轉化為可用,提升模型對數(shù)據(jù)利用的可能性。例如工業(yè)制造領域,利用合成數(shù)據(jù),可以把生產、制造等工藝流程相關的原始數(shù)據(jù),結合行業(yè)知識圖譜,轉化為可供大模型學習的工業(yè)語料,以緩解行業(yè)語料短缺的問題。該過程分為三步:一是將原始數(shù)據(jù)(Data)轉變?yōu)樾畔ⅲ↖nformation):即將非自然語言描述的內容(如工藝生產中的操作行為或時序數(shù)據(jù))轉化為大模型可讀的結構化信息(操作記錄)。二是將信息提煉為知識(Knowledge):僅有操作記錄并不能直接提供有效知識,但將多條結構化信息與行業(yè)的知識圖譜、專家經驗相結12合,可以產出有價值的行業(yè)知識(如在什么溫度下應該如何操作,好處是什么)。三是將得到的知識泛化:利用大模型的推理能力,將相對單一的知識進行多樣性拓展,積累更豐富的行業(yè)語料。由此看出,大模型可以利用原始數(shù)據(jù)、信息、知識等不同層次的內容,打通數(shù)據(jù)利用的模式。我們判斷,通過合成數(shù)據(jù)拓展對數(shù)據(jù)利用的可能性,生成領域知識的趨勢是

“精”,即對語料質量要求高,且是不可或缺的。因為大模型只有在預訓練中學習過領域知識,才能在后期利用行業(yè)語料進行

SFT

訓練時激發(fā)出更好的效果,更容易應用于垂直領域。綜上,我們認為合成數(shù)據(jù)作為預訓練語料的新物種,發(fā)展?jié)摿薮螅貏e是在多模態(tài)數(shù)據(jù)和領域知識生成方面值得密切關注。4.5.2?提升對齊語料獲取效率的對齊數(shù)據(jù)以人類高質量反饋為主,包含監(jiān)督微調階段和基于人類反饋的強化學習。此方法主要在以下幾方面遇到問題:一是數(shù)據(jù)獲取的成本更高,二是人類評估的準確性和一致性,三是模型通常選擇避免回答敏感和有爭議的問題,降低模型的整體效用。如果引入合成數(shù)據(jù)作為真實數(shù)據(jù)的補充和替代,能否緩解這些問題呢?合成數(shù)據(jù)最大的優(yōu)勢是可以大幅提升對齊數(shù)據(jù)的獲取效率,“如果掌握了合成數(shù)據(jù)技術,對齊的成本可能會降低好幾個數(shù)量級,或用一樣的投入產生更大數(shù)量級的數(shù)據(jù),競爭格局就會發(fā)生變化”。這種對合成數(shù)據(jù)的應用是13大模型訓練數(shù)據(jù)白皮書“從人工智能反饋中進行強化學習(RLAIF)”。通常是用一個較大規(guī)模模型產出合成數(shù)據(jù),生成指令及輸入和輸出樣本,過濾掉無效或重復信息,自動化微調出性能較好的小模型,全過程中幾乎無需人類標注。這不僅大幅降低了標注成本,也能緩解人工對齊導致模型對敏感問題拒答的情況。例如斯坦福大學發(fā)布的

70

億參數(shù)對話大模型Alpaca,正是采用此類自我指導(Self-instruct)方法,用

OpenAI

API

自動生成指令數(shù)據(jù)進行微調。還有一種基于

RLAIF新思路探索,希望在不引入外部模型的前提下實現(xiàn)自動化微調。例如自我對局(Self-play),在滿足一定條件時,利用合成數(shù)據(jù)進行自我對抗微調(t+1

代的模型嘗試將

t

代模型的輸出與真人的輸出區(qū)分開),得到了比

RLHF更好的效果。再如

Claude3用到的憲法式

AI,讓

AI系統(tǒng)在遵循預先設定的原則下,使用模型自身生成的反饋和修正意見來進行自我改進,得到一個既能生成無害內容,又不規(guī)避有害問題的模型。同時另一種對合成數(shù)據(jù)的應用是

“從人類和人工智能反饋中進行強化學習(RLHAIF)”,該方法整合了人類和

AI

元素以提供監(jiān)督。有研究表明,在利用

AI

協(xié)助人類評估模型有效性時,模型生成的批評有助于人類發(fā)現(xiàn)可能錯過的缺陷,提高人類評估的準確性。4.6?解決訓練數(shù)據(jù)供給不足的新方案高質量數(shù)據(jù)是大模型技術發(fā)展的主要瓶頸之一,可供大模型學習的數(shù)據(jù)類型較多,但能夠進一步拓展大模型知識邊界、推動大模型推理、泛化等關鍵能力提升的數(shù)據(jù)更多偏向于視頻、圖片等多模態(tài)數(shù)據(jù),以及特定行業(yè)中的領域知識數(shù)據(jù)。此類數(shù)據(jù)主要來自于人類的創(chuàng)造、制作和經驗積累,其規(guī)模、類型和質量因客觀條件的不同存在較大差異。在大模型強大的無監(jiān)督數(shù)據(jù)學習能力面前,大模型的數(shù)據(jù)需求快速經歷了從量到質的轉換,能夠被大模型更為直接地利用、可以進一步提升大模型關鍵能力、幫助大模型生成內容更符合人類習慣和要求的高質量數(shù)據(jù),成為了最為關鍵的數(shù)據(jù)類型。對于提高此類高質量訓練數(shù)據(jù)的供給,現(xiàn)行的主要方案側重于構建更為開放、包容的高質量數(shù)據(jù)源,包括建立具有公共或準公共屬性的高質量數(shù)據(jù)集,鼓勵行業(yè)數(shù)據(jù)的進一步共享,放寬對于訓練數(shù)據(jù)的權屬保護規(guī)則等。而合成數(shù)據(jù)為模型數(shù)據(jù)供給提供了新的技術方案,將合成數(shù)據(jù)應用于大模型訓練數(shù)據(jù)中,可以從以下三個方面幫助解決高質量訓練數(shù)據(jù)供給不足的問題。其一,合成數(shù)據(jù)解決了部分類型的真實世界數(shù)據(jù)難以觀測的問題,拓展了訓練數(shù)據(jù)的多樣性。傳統(tǒng)上看,通過生成

“邊緣情況”(如極端天氣、罕見?。┗蛘哒鎸嵤澜缰械?/p>

“潛在隱患”(如金融詐騙等安全風險),可以彌補因為樣本分布不均衡導致的客觀限制。在輸入端糾正數(shù)據(jù)在采集和處理過程中引入的偏誤,提高數(shù)據(jù)分布的合理性和客觀性。面向未來,利用合成數(shù)據(jù)技術生成的仿真數(shù)據(jù)(如游戲引擎生成的視頻),以及對于大模型難以直接使用數(shù)據(jù)的加工和改造形成的新型數(shù)據(jù)(如領域知識),可以提升模型對數(shù)據(jù)利用的可能性,對于推理、泛化等大模型核心能力的突破將起到更為顯著的作用。其二,合成數(shù)據(jù)和真實世界的配合使用提高了模型的安全性和可靠性。在

LLM

中,合成數(shù)據(jù)將更為廣泛地應14用于模型對齊階段,可以提升模型對齊能力,解決基于人類反饋的強化學習過程中人類回答標準不統(tǒng)一,因知識欠缺造成問答準確性不足,以及人類提供反饋成本較高的問題。以高性能模型生成得到的高質量合成數(shù)據(jù),以知識蒸餾的方式幫助輕量級模型進一步的監(jiān)督學習,并為下游開發(fā)提供準確、高效的對齊數(shù)據(jù),從整體上提高各種規(guī)模尺寸模型的性能,促進模型安全。在圖像領域,合成數(shù)據(jù)可以彌補對抗樣本稀疏的缺陷,將合成圖像數(shù)據(jù)和普通圖像數(shù)據(jù)按照一定比例進行混合,可以提高視覺模型對圖片的識別和判斷能力,即使在普通數(shù)據(jù)樣本完全缺失的情況下,使用合成數(shù)據(jù)進行圖像識別訓練,也可以得到接近普通數(shù)據(jù)樣本訓練的效果,從而提升圖像識別的魯棒性。其三,合成數(shù)據(jù)可以替代個人特征數(shù)據(jù),有助于用戶隱私保護,解決數(shù)據(jù)獲取合規(guī)性的問題。例如,當合成數(shù)據(jù)用于推薦系統(tǒng),可以降低后者對個人信息的依賴。傳統(tǒng)的直接利用個人行為特征數(shù)據(jù)進行推薦,模型并不能從文義角度理解用戶的需求,為了提升

“猜你喜歡”

的準確度則需要獲取和分析大量的用戶行為特征信息。在推薦系統(tǒng)等涉及個人隱私信息的判別式模型中,通過與大模型的結合可以有效緩解該問題。首先,利用生成器自動產出個性化提示詞(即合成數(shù)據(jù))用于模型優(yōu)化;然后,發(fā)揮大模型對文義的推理能力,可以更好地預測用戶的實際需求。用戶和大模型進行簡單溝通后,由大模型代為執(zhí)行推薦,在提升推薦匹配度的同時還可以降低推薦模型對個人特征數(shù)據(jù)的依賴。推薦模型不再高度依賴個人特征信息,也為隱私增強技術的加入提供了操作空間,在合成數(shù)據(jù)的生成過程可以加入差分隱私等去標識技術,推薦系統(tǒng)在不識別特定用戶的情況下也能良好判斷用戶的實際需求,進行針對用戶實際需求而非臆測性、推斷性的推薦。15大模型訓練數(shù)據(jù)白皮書4.7?在發(fā)展中治理的合成數(shù)據(jù)其一,相比于對合成數(shù)據(jù)量的擴增,在應用中要更重視質的提升。首先,在語料中使用占比更高的仍然是來自真實世界的數(shù)據(jù)集,合成數(shù)據(jù)未被用于大規(guī)模替代真實數(shù)據(jù)進行預訓練。相反,如果此階段過多引入合成數(shù)據(jù),可能會影響訓練數(shù)據(jù)分布,從而導致模型對世界知識的理解產生偏差。其次,合成數(shù)據(jù)的總體規(guī)模也會受到模型生成能力和生成速度的限制(例如按照當前的合成圖像數(shù)據(jù)生成速度,在

A100GPU

上每個圖像生成時間大約為

0.8s;啟用

xformer

時,在

V100GPU

上每個圖像的生成時間約為

2

秒)。因此,更重要的是關注生成合成數(shù)據(jù)對客觀世界模擬的準確性,更好滿足模型對訓練數(shù)據(jù)差異化的需求,以及拓展模型對訓練數(shù)據(jù)利用的可能性。較為通用的方案是按照一定比例將合成數(shù)據(jù)與真實世界的數(shù)據(jù)進行混合,用于模型優(yōu)化,提升模型準確性、魯棒性和安全性。其二,合成數(shù)據(jù)本身具備良好的安全性,在后續(xù)使用中較為可靠。用于模型優(yōu)化訓練的合成數(shù)據(jù)目的在于替代普通優(yōu)化數(shù)據(jù)提高模型的對齊能力和垂類應用效果,要達到此目的,合成數(shù)據(jù)安全性和真實性不低于真實世界的數(shù)據(jù),否則使用合成數(shù)據(jù)并不能更好地提升模型性能

——如果合成數(shù)據(jù)的質量低于真實數(shù)據(jù)的數(shù)據(jù),則可能造成模型性能不升反降,使用合成數(shù)據(jù)的價值也將大打折扣?,F(xiàn)實情況來看,合成數(shù)據(jù)往往也是通過高性能模型生成而得來的,此類模型具有良好的安全防護機制,能夠有效控制生成內容的安全性,因此產生的合成數(shù)據(jù)在下游利用中可靠性良好,不會帶來

“數(shù)據(jù)

-

模型自我循環(huán)”

導致的模型失控問題。其三,對合成數(shù)據(jù)仍需設置相應的安全管控策略,確保模型整體的安全性不會因為合成數(shù)據(jù)的使用而受到影響。一是加強對合成數(shù)據(jù)質量的評估檢測。合成數(shù)據(jù)和其他類型的訓練數(shù)據(jù)一樣,需要不斷提高準確性和可靠性,而為了保證合成數(shù)據(jù)具有可用性價值,其準確性和可靠性要高于普通的真實世界數(shù)據(jù)。二是為合成數(shù)據(jù)設置備用數(shù)據(jù)集。合成數(shù)據(jù)在模型訓練中的使用還處于探索階段,需要更為審慎地觀察不同類型、模態(tài)和配比合成數(shù)據(jù)對模型性能帶來的影響,并為合成數(shù)據(jù)準備備用的真實世界數(shù)據(jù)集,當模型能力和安全性評測、紅隊測試等監(jiān)控指標出現(xiàn)異常時,及時介入并采用備份的數(shù)據(jù)集繼續(xù)模型訓練和應用,保證模型的穩(wěn)定性。三是建議對用于模型優(yōu)化、對齊的合成數(shù)據(jù)在適當環(huán)節(jié)引入人類參與。例如,對用于對齊階段生成的問答對和其他媒體格式內容,在進行模型優(yōu)化前進行人工抽檢,確保后續(xù)模型調優(yōu)和對齊的質量。1605對大模型訓練數(shù)據(jù)治理的思考5.1?大模型對訓練數(shù)據(jù)的使用特點首先,在個人信息方面,模型訓練階段不依賴個人信息,對公開個信的使用屬于合理使用。人工智能技術從依賴個人信息的決策模型轉向以大模型為代表的生成式

AI,反映出數(shù)據(jù)需求的深刻變革。具體而言,大模型的技術核心在于模擬人類思維進行內容創(chuàng)造,輸入端的訓練數(shù)據(jù)側重全球知識和高質量語料,而非個人信息,即便在前端降低個人信息在訓練數(shù)據(jù)中的含量和真實性,均不會對模型最后所展現(xiàn)的性能產生較大影響。其次,即便大模型訓練語料中涵蓋個人信息,大模型研發(fā)者已按照相關安全要求,采取技術手段進行數(shù)據(jù)清洗、去標識化、匿名化等操作,對其中所涵蓋的個人信息進行了最大化的去除。而剩余的通過爬蟲等技術獲取的位于公共領域的個人數(shù)據(jù),大模型對于此部分數(shù)據(jù)的使用應構成合理使用的范疇。其次,大模型對類訓練語料的使用是轉換性使用,屬于合理使用或法定許可。大模型對于作品的使用,并不是以欣賞作品原有價值為目的而進行利用,或對原有作品內容進行復制和傳播從而替代原有作品,而是為了掌握客觀規(guī)律并培養(yǎng)模型的基礎能力,就如給人類進行教育需要對其進行廣泛的知識授予一般。有鑒于此,用類數(shù)據(jù)對模型進行訓練,不應被視為

“復制式拷貝”

的侵權行為,而應屬于轉換性使用的范疇,并應構成作品方面做出突破,如歐盟《單一數(shù)字市場“合理使用”

“法定許可”。目前,已有法律實踐在模型訓練使用指令》為符合條件的

“文本和數(shù)據(jù)挖掘”

設置了豁免例外,日本對《著作權法》的修訂將

“不以欣賞作品原有價值為目的”

的大模型數(shù)據(jù)訓練納入到合理使用的范疇等。17大模型訓練數(shù)據(jù)白皮書此外,模型訓練已經盡可能地采取了相關合規(guī)方案,來減少生成式人工智能造成知識產權侵權的風險,具體包括:(1)從真實權利人處購買具有知識產權權利的數(shù)據(jù)庫;(2)使用有合法授權的開源數(shù)據(jù)集;(3)避免跨越技術措施的爬取。5.2?大模型訓練數(shù)據(jù)合規(guī)的治理之智基于大模型對訓練數(shù)據(jù)的使用特點,應構建順應模型發(fā)展的新時代的數(shù)據(jù)治理制度。一是重視數(shù)據(jù)的可及性,從輸入端的前置使用限制,替換為輸出端的管控和事后救濟?!渡墒饺斯ぶ悄芊展芾頃盒修k法》從

2023

4

月征求意見至

7

月正式公布期間,充分考慮了我國大模型發(fā)展的實際需要,在訓練數(shù)據(jù)合規(guī)方面也適當放寬了要求,如刪去訓練數(shù)據(jù)

“不含有侵犯知識產權”

的表述,調整為在訓練過程中

“不得侵害他人依法享有的知識產權”。我們看到目前新制度的創(chuàng)新嘗試和舊有制度的延續(xù)使用,仍在大模型訓練前端的數(shù)據(jù)獲取和使用方面對模型研發(fā)者施加了較為嚴苛的前置性合規(guī)要求,如訓練數(shù)據(jù)需記錄所有個人信息并取得個人知情同意,以及識別訓練數(shù)據(jù)中的知識產權侵權風險語料并進行刪除等。此外,訓練數(shù)據(jù)的供給不足一定程度上限制了我國大模型尤其是基礎模型的趕超式發(fā)展,對于訓練數(shù)據(jù)的使用管住輸出端的事后風險、放寬輸入端的事前限制是務實的政策選擇。二是提升模型安全訓練數(shù)據(jù)的供給,鼓勵安全類數(shù)據(jù)集的開放共享。大模型的能力和表現(xiàn)非常依賴于前端數(shù)據(jù)的輸入,而安全數(shù)據(jù)集作為高質量模型訓練數(shù)據(jù)之一,具有正外部性,將有助于大模型的人類價值對齊,并對什么是安全和不安全的內容,以及怎樣正向地回答這些問題進行系統(tǒng)性的了解和學習。因此,覆蓋全類別、橫跨多領域的安全數(shù)據(jù)集的開放共享,將顯著提升人類價值觀對齊在性別、職業(yè)、種族、無障礙領域,并有助于提升大模型后端內容生成和輸出的無毒性、安全性和可靠性,幫助大模型更加得體和正面地應對更廣泛的問題。三是應用新技術以提升訓練數(shù)據(jù)的合規(guī)性和安全性,比如合成數(shù)據(jù)的使用可以增強對個信的保護。一方面合成數(shù)據(jù)的應用可以減少對具有可識別性的個人特征數(shù)據(jù)的依賴,另一方面合成數(shù)據(jù)通過差分隱私

“加噪聲”

的技術,可以有效實現(xiàn)去標識化,從而有助于增強對個信的保護,更好解決數(shù)據(jù)獲取合規(guī)性的問題。1806政府與社會力量協(xié)同的訓練數(shù)據(jù)生態(tài)本節(jié)從政府和社會力量兩方面討論大模型訓練數(shù)據(jù)的。通過中美對比的現(xiàn)狀,分析兩者的差異性,以及對我國人工智能領域數(shù)據(jù)要素發(fā)展的借鑒作用。從政府視角看,哪些公共數(shù)據(jù)可以支持大模型訓練?我們梳理了以下幾種:一是,經過權威認證或凝聚共識的知識,如專利文檔、上市公司財報、法院判例

/

裁判文書、醫(yī)療診斷記錄、政策文本等,除了可用于預訓練語料,還可應用于行業(yè)大模型監(jiān)督微調或外掛語料庫建設。二是,具有科研屬性的數(shù)據(jù),主要特征有長周期、大規(guī)模、多模態(tài)、清晰、描述詳細、可使用,如天氣、醫(yī)療、地球科學、基礎科學領域等,用于

AIforScience,讓模型提升從復雜數(shù)據(jù)中提煉規(guī)律,提升精準預測的能力,同時拓展

AI

大模型在更多領域中應用。三是,科研期刊論文,用于提升模型上下文的理解能力和邏輯推理能力。而社會力量整合政府開放數(shù)據(jù)與網絡公開數(shù)據(jù),在拓展廣度的同時,提升精細度和專業(yè)性?!皬V”

的層面,社會力量將公共數(shù)據(jù)與網絡公開數(shù)據(jù)融合后做進一步清洗和加工,形成具有多樣性、大規(guī)模、高質量特點的預訓練數(shù)據(jù)集。此外,社會力量還可以通過合成數(shù)據(jù)等技術手段,拓展模型對數(shù)據(jù)使用的可能性?!褒R”

的層面,社會力量通過大量高質量反饋做數(shù)據(jù)標注,將模型產出與人類價值觀對齊?!皩!?/p>

的層面,也會整合領域知識和經驗,促進語料的流通和共享,提供行業(yè)大模型所需的高質量、專業(yè)性的數(shù)據(jù)供給。由此可見社會力量在大模型訓練語料中所起到的主導作用。那么,美國與中國在獲取大模型數(shù)據(jù)方面的做法有哪些不同呢?6.1?美國的現(xiàn)狀美國聯(lián)邦政府在公共數(shù)據(jù)中承擔了

“應開盡開”

的職責,由社會力量來探索數(shù)據(jù)的應用。政府開發(fā)了專門針對AI

訓練數(shù)據(jù)的開放平臺,并針對公共數(shù)據(jù)和科研數(shù)據(jù)進行質量維護和運營管理,在保證數(shù)據(jù)可用性的同時降低公眾使用門檻。公共數(shù)據(jù)開放的范圍限定在政府數(shù)據(jù),包括各級政府及政府資助的大學和研究機構。在開放共享階段,聯(lián)邦政府會對與

AI

相關的數(shù)據(jù)做標識、在數(shù)據(jù)量大時做

“上云”

處理、定期更新、分類、清洗、標注、結構化、并確定分級開放權限。在開發(fā)利用階段,政府會提供便捷的用戶檢索服務、提供數(shù)據(jù)接口19大模型訓練數(shù)據(jù)白皮書(API)。在科研論文方面,設立

PubMed論文檢索系統(tǒng),整合國家醫(yī)學圖書館下屬的

3

個論文數(shù)據(jù)庫資源,記錄了3600

+

條生物醫(yī)學文獻的引用和摘要,并提供原文鏈接。在科研屬性公共數(shù)據(jù)方面,國家氣象和海洋局(NOAA)從衛(wèi)星、、船舶等每天新產生數(shù)十

TB數(shù)據(jù),按季度更新

150個數(shù)據(jù)集,因數(shù)據(jù)量龐大存儲在云端。為方便公眾開發(fā)利用,提供了數(shù)據(jù)集

API

接口。在權威認證的知識方面,如法院的裁判文書是很好的結構化數(shù)據(jù),對于訓練法律大模型價值很高。美國遵循

“公開是原則,不公開是例外”

的理念,除了隱去涉及國家秘密和個人隱私的信息,聯(lián)邦和地方法院都實現(xiàn)了公開,并提供了

API

接口供調用。在醫(yī)療領域,含有醫(yī)

-

-

藥信息的診療記錄、CT

圖片及結果標注構成的醫(yī)學影像數(shù)據(jù)、基因組與疾病篩查數(shù)據(jù)等對于醫(yī)療大模型訓練有較高價值,以國立衛(wèi)生研究院(NIH)為主的機構在確保隱私保護的前提下對公眾實現(xiàn)分級分類開放(139

個醫(yī)療健康數(shù)據(jù)庫,包含

9

個醫(yī)療影像數(shù)據(jù)庫,擁有超過

30

萬張

CT

圖像及標注對、20

個基因組數(shù)據(jù)庫),供社會力量使用。美國的社會力量整合政府的開放數(shù)據(jù)與網絡的公開數(shù)據(jù),提升數(shù)據(jù)精細度和專業(yè)性,形成以開源為主的高質量訓練語料。社會力量主要有開源

/

非盈利組織、互聯(lián)網公司研究部門、學界、多類型機構合作組成。數(shù)據(jù)集以開源為主,站在前人的肩膀上不斷迭代。以在大模型中被廣泛應用的,由開源組織

EleutherAI開發(fā)的

825GB高質量英文語料庫

ThePile

為例,在

22

個子數(shù)據(jù)集中,于政府公共數(shù)據(jù)的有

4

個(PubMed

數(shù)據(jù)庫、商標專利數(shù)據(jù)庫、衛(wèi)生研究院數(shù)據(jù)等),這也體現(xiàn)了語料中不同類型數(shù)據(jù)有效搭配的重要性。在行業(yè)大模型中,社會力量對領域數(shù)據(jù)集的專業(yè)性也起到了重要貢獻。以把大模型當做大腦來輔助運行的具身智能機器人為例,GoogleDeepMind20聯(lián)合

33

家學術實驗室,匯集了來自

22種不同機器人類型數(shù)據(jù),涵蓋

100

多萬條片段,展示機器人在

15

萬項任務上的表現(xiàn),創(chuàng)建

OpenX-Embodiment開源數(shù)據(jù)集?;谠摂?shù)據(jù)集訓練的具身智能模型,解決了機器人在特定任務專業(yè)而通用能力差的難題,成功率提高

50%,技能表現(xiàn)提高

2

倍。此外,在合成數(shù)據(jù)領域,美國的發(fā)展也顯示出積極的趨勢和廣泛的應用前景,比如微軟在其投資組合中就包含了諸如

hazy、Unstructured-IO

等合成數(shù)據(jù)公司。在政府與社會力量協(xié)同的方面,美國聯(lián)邦政府發(fā)揮了

AI

訓練數(shù)據(jù)

“匯聚融合”

的角色。為鞏固美國在

AI

領域的競爭優(yōu)勢,由政府主導推動為期

6

年的國家人工智能研究資源

NAIRR計劃,讓

AI

研究者獲得更多算力和數(shù)據(jù)資源。計劃的原則是尊重社會力量的專業(yè)性,作為經營主體的指導委員會中有多位來自

AI

業(yè)界和學界的資深人士。NAIRR

在數(shù)據(jù)資源整合中發(fā)揮的作用體現(xiàn)在,聯(lián)邦政府通過建立數(shù)據(jù)資源服務平臺,匯聚政府與社會力量的開源數(shù)據(jù)資源。通過建立統(tǒng)一的數(shù)據(jù)匯聚標準,規(guī)范數(shù)據(jù)描述格式,促進多方數(shù)據(jù)融合。倡導

AI-Friendly

的數(shù)據(jù)兼容性,將數(shù)據(jù)集整理和格式化成易于

AI

算法處理和學習的形式,如文檔的電子化程度、版面編排以及相關數(shù)據(jù)的完整性。同時推動多方協(xié)作的數(shù)據(jù)資源開發(fā)利用,如運營數(shù)據(jù)集社區(qū)、提供數(shù)據(jù)搜索服務等。6.2?中國的現(xiàn)狀我國的公共數(shù)據(jù)采用主體性質界分,包含各級行政機關在履行公共管理職能中獲取的數(shù)據(jù),覆蓋范圍比美國更廣,但在開放共享和開發(fā)利用程度上仍有不足。如天氣數(shù)據(jù)的開放,在中國氣象數(shù)據(jù)網查詢地面逐小時觀測資料時,個人用戶需注冊,且可選范圍被限定在

7

天以內;而對比

NOAA,無需注冊即可下載,且以地表溫度為例,數(shù)據(jù)最早可追溯到

1951

年。在開發(fā)利用中,我國也僅對個別數(shù)據(jù)集提供了

API

接口。再如法律領域,最高人民法院設立了裁判文書網,除例外情況外統(tǒng)一公布各級人民法院的生效判決書。但近年公開的數(shù)量有明顯下降趨勢,2020

年上網文書

2300

多萬,而

2023

年截至

12

月僅公開

300

萬。另

2024

1

月將啟用

“全國法院裁判文書庫”,僅法院人士在內網可查詢。在醫(yī)療領域,對于模型訓練價值較高的醫(yī)療影像、基因組數(shù)據(jù)開放程度非常有限,社會力量的探索呈現(xiàn)

“散點狀”。我國的社會力量主要是結合海外優(yōu)質開源數(shù)據(jù)集及中文語料,產出訓練數(shù)據(jù)集。以阿里巴巴的

“通義千問”

大模型為例,訓練數(shù)據(jù)來自公開的混合數(shù)據(jù),以中文和英文為主。而中文語料主要來自知乎、百度百科、百度知道等公開網絡數(shù)據(jù),

于政府的公共數(shù)據(jù)非常少。從總體看,中文語料庫的開源情況不如英文普遍,據(jù)

AI

應用開放社區(qū)

HuggingFace

數(shù)據(jù)統(tǒng)計,中文開源數(shù)據(jù)集數(shù)量僅占英文開源的

11%。在行業(yè)大模型中,社會力量對行業(yè)數(shù)據(jù)集專業(yè)性有一定貢獻,推動了在交通、政務、醫(yī)療等領域的應用。整體看,用領域知識訓練大模型仍面臨困難,第一是領域知識積累的專業(yè)門檻高、時間周期長。第二是企業(yè)出于商業(yè)利益和知識產權考慮,對領域知識共享意愿度低。第三是因為我國公共數(shù)據(jù)開放不足,導致部分行業(yè)缺少優(yōu)質的數(shù)據(jù)供給。在這種情況下,如果還要試圖縮小已經開放的公共數(shù)據(jù)范圍,那么高質量語料短缺的問題將更為突顯。21大模型訓練數(shù)據(jù)白皮書我國尚未形成對大模型提供有效供給的數(shù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論