大模型訓(xùn)練數(shù)據(jù)行業(yè)市場(chǎng)前景及投資研究報(bào)告：培訓(xùn)課件

上傳人：a*** IP屬地：廣東上傳時(shí)間：2024-06-20 格式：PPTX 頁(yè)數(shù)：27 大小：4.33MB 積分：30 舉報(bào) 版權(quán)申訴

大模型訓(xùn)練數(shù)據(jù)行業(yè)市場(chǎng)前景及投資研究報(bào)告：培訓(xùn)課件_第2頁(yè)

大模型訓(xùn)練數(shù)據(jù)行業(yè)市場(chǎng)前景及投資研究報(bào)告：培訓(xùn)課件_第3頁(yè)

大模型訓(xùn)練數(shù)據(jù)行業(yè)市場(chǎng)前景及投資研究報(bào)告：培訓(xùn)課件_第4頁(yè)

大模型訓(xùn)練數(shù)據(jù)行業(yè)市場(chǎng)前景及投資研究報(bào)告：培訓(xùn)課件_第5頁(yè)

已閱讀5頁(yè)，還剩22頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大模型訓(xùn)練數(shù)據(jù)白皮書(shū)目錄CONTENTS01..........................................................................

02訓(xùn)練數(shù)據(jù)對(duì)大模型發(fā)展的重要性02.....................................................................................

03模型訓(xùn)練所需的數(shù)據(jù)類型2.1訓(xùn)練大語(yǔ)言模型的數(shù)據(jù)

..................................................................................

032.2訓(xùn)練多模態(tài)模型的數(shù)據(jù)

..................................................................................

042.3訓(xùn)練數(shù)據(jù)的常見(jiàn)疑問(wèn)和誤解

...........................................................................

042.3.1大模型訓(xùn)練并不依賴用戶個(gè)人信息

......................................................

042.3.2中文語(yǔ)料短缺不是制約我國(guó)大模型發(fā)展的重要因素

.............................

0503......................................................................

06科學(xué)理解高質(zhì)量數(shù)據(jù)的含義與作用3.1高質(zhì)量數(shù)據(jù)的重要性

......................................................................................

063.2高質(zhì)量數(shù)據(jù)的標(biāo)準(zhǔn)

..........................................................................................

073.2.1高質(zhì)量數(shù)據(jù)類型的三重不確定性

..........................................................

073.2.2同類數(shù)據(jù)的評(píng)估標(biāo)準(zhǔn)并不完全一致

......................................................

0804....................................................

09合成數(shù)據(jù)作為解決訓(xùn)練數(shù)據(jù)供給不足的新方案4.1訓(xùn)練數(shù)據(jù)供給不足帶來(lái)的思考

........................................................................

094.2合成數(shù)據(jù)的定義

.............................................................................................

104.3合成數(shù)據(jù)的必要性

..........................................................................................

104.4合成數(shù)據(jù)的生成方法及分類

...........................................................................

114.5合成數(shù)據(jù)在模型訓(xùn)練中的作用

........................................................................

124.5.1預(yù)訓(xùn)練語(yǔ)料的新物種

............................................................................

124.5.2提升對(duì)齊語(yǔ)料獲取效率的..........................................................

134.6解決訓(xùn)練數(shù)據(jù)供給不足的新方案

....................................................................

144.7在發(fā)展中治理的合成數(shù)據(jù)

...............................................................................

160506..............................................................................

17對(duì)大模型訓(xùn)練數(shù)據(jù)治理的思考5.1大模型對(duì)訓(xùn)練數(shù)據(jù)的使用特點(diǎn)

........................................................................

175.2大模型訓(xùn)練數(shù)據(jù)合規(guī)的治理之智

....................................................................

18...................................................................

19政府與社會(huì)力量協(xié)同的訓(xùn)練數(shù)據(jù)生態(tài)6.1美國(guó)的現(xiàn)狀

....................................................................................................

196.2中國(guó)的現(xiàn)狀

....................................................................................................

210708...................................................................

23阿里巴巴集團(tuán)在大模型訓(xùn)練與應(yīng)用的探索.................................................

24以更開(kāi)放和務(wù)實(shí)的方式解決高質(zhì)量訓(xùn)練數(shù)據(jù)供給自《中共中央國(guó)務(wù)院關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用的意見(jiàn)》發(fā)布以來(lái)，我國(guó)數(shù)據(jù)要素建設(shè)不斷深入，在國(guó)家數(shù)據(jù)局等

部門(mén)聯(lián)合印發(fā)的《“數(shù)據(jù)要素

×”

三年行動(dòng)計(jì)劃（2024-2026

年）》進(jìn)一步明確

“建設(shè)高質(zhì)量語(yǔ)料庫(kù)和基礎(chǔ)科學(xué)數(shù)據(jù)集，支持開(kāi)展人工智能大模型開(kāi)發(fā)和訓(xùn)練”。通過(guò)數(shù)據(jù)要素建設(shè)推動(dòng)人工智能大模型發(fā)展，可以有效解決我國(guó)人工智能，特別是大模型研發(fā)所面臨的數(shù)據(jù)瓶頸，進(jìn)一步發(fā)揮大模型對(duì)于世界知識(shí)數(shù)據(jù)的匯集和處理能力，創(chuàng)造更大的生產(chǎn)力，助力我國(guó)從數(shù)據(jù)經(jīng)濟(jì)走向智能經(jīng)濟(jì)新發(fā)展模式。大模型是數(shù)據(jù)要素價(jià)值釋放的最短路徑，通過(guò)理解其訓(xùn)練所使用的數(shù)據(jù)類型，可以更好理解大模型發(fā)揮價(jià)值的內(nèi)在機(jī)制，破解對(duì)訓(xùn)練數(shù)據(jù)常見(jiàn)的迷思和誤解。而促進(jìn)高質(zhì)量訓(xùn)練數(shù)據(jù)的建設(shè)，需要理解人工智能對(duì)數(shù)據(jù)的實(shí)際需求，科學(xué)評(píng)價(jià)數(shù)據(jù)的規(guī)模和質(zhì)量；需要綜合利用政府、企業(yè)、社會(huì)等各方資源，構(gòu)建共享、共創(chuàng)、共贏的合作生態(tài)，以更務(wù)實(shí)、多元、開(kāi)放的方式解決供給不足的問(wèn)題；還需要為技術(shù)發(fā)展預(yù)留空間，構(gòu)建更順應(yīng)模型發(fā)展的數(shù)據(jù)治理體系，相信隨著技術(shù)的日益成熟，相應(yīng)的商業(yè)模式和制度設(shè)計(jì)也都會(huì)逐步完善。01大模型訓(xùn)練數(shù)據(jù)白皮書(shū)01訓(xùn)練數(shù)據(jù)對(duì)大模型發(fā)展的重要性業(yè)界認(rèn)為，算法、算力與數(shù)據(jù)，是支撐大模型發(fā)展的三大基石。更高質(zhì)量、更豐富的數(shù)據(jù)是以

GPT

為例的生成式人工智能大模型成功的驅(qū)動(dòng)力。GPT

模型架構(gòu)從第

代到第

代均較為相似，而用來(lái)訓(xùn)練數(shù)據(jù)的數(shù)據(jù)規(guī)模和質(zhì)量卻有很大的不同。GPT-1

是由

4.8G

未過(guò)濾原始數(shù)據(jù)訓(xùn)練，GPT-2

是由經(jīng)人類過(guò)濾后的

40G

數(shù)據(jù)訓(xùn)練，GPT-3是由從

45T

原始數(shù)據(jù)中過(guò)濾的

570G

數(shù)據(jù)訓(xùn)練，而

chatGPT/GPT-4

則是在該基礎(chǔ)上又加入了高質(zhì)量人類標(biāo)注。以吳恩達(dá)（AndrewNg）為代表的學(xué)者觀點(diǎn)認(rèn)為，人工智能是以數(shù)據(jù)為中心的，而不是以模型為中心。“有標(biāo)注的高質(zhì)量數(shù)據(jù)才能釋放人工智能的價(jià)值，如果業(yè)界將更多精力放在數(shù)據(jù)質(zhì)量上，人工智能的發(fā)展會(huì)更快”。0202模型訓(xùn)練所需的數(shù)據(jù)類型數(shù)據(jù)作為大模型訓(xùn)練的基礎(chǔ)，它提供了大模型所必需的知識(shí)和信息。區(qū)別于以往搜索系統(tǒng)、個(gè)性化推薦等所需的大量用戶行為和偏好數(shù)據(jù)，隨著技術(shù)的演進(jìn)，大模型所需的數(shù)據(jù)是對(duì)知識(shí)性內(nèi)容有強(qiáng)需求，是一種新的類型。2.1?訓(xùn)練大語(yǔ)言模型的數(shù)據(jù)大模型所需要的數(shù)據(jù)根據(jù)訓(xùn)練的階段有所不同。以

ChatGPT

為代表的大語(yǔ)言模型（LLM）為例，其訓(xùn)練過(guò)程分為預(yù)訓(xùn)練（Pre-training）、監(jiān)督微調(diào)（SFT）、基于人類反饋的強(qiáng)化學(xué)習(xí)（RLHF）三個(gè)階段，后兩部分又統(tǒng)稱為03大模型訓(xùn)練數(shù)據(jù)白皮書(shū)“對(duì)齊”（Alignment）階段。第一階段預(yù)訓(xùn)練所需的語(yǔ)料是各種類型的世界知識(shí)，包括網(wǎng)頁(yè)、書(shū)籍、新聞、論文期刊、對(duì)話文本、代碼等形式，通過(guò)大量學(xué)習(xí)世界知識(shí)，構(gòu)建模型的基礎(chǔ)能力，理解客觀世界的規(guī)律，該階段的語(yǔ)料特征可以概括為

“廣”。第二階段

SFT，通過(guò)標(biāo)注人員設(shè)計(jì)問(wèn)答，編寫(xiě)正確答案，將例題投喂給模型，并希望模型在沒(méi)有見(jiàn)過(guò)的任務(wù)中“舉一反三”，提升泛化能力。第三階段

RLHF，訓(xùn)練目標(biāo)是讓模型的價(jià)值觀與人類對(duì)齊，需要人類對(duì)模型的回答進(jìn)行打分、排序，讓模型知道

怎么說(shuō)更好

"。第二和第三階段的數(shù)據(jù)質(zhì)量要求較高，需要來(lái)自人類的高質(zhì)量反饋，語(yǔ)料特征可以概括為

“齊”。如果將模型微調(diào)后部署應(yīng)用于特定的場(chǎng)景形成行業(yè)大模型（如工業(yè)、金融、醫(yī)療等），則需要滿足該場(chǎng)景專業(yè)需求的特定領(lǐng)域知識(shí)做預(yù)訓(xùn)練和對(duì)齊，需要具備一定專業(yè)深度，如行業(yè)數(shù)據(jù)庫(kù)、專業(yè)文檔、專業(yè)網(wǎng)站等，這部分的語(yǔ)料特征是

“專”。2.2?訓(xùn)練多模態(tài)模型的數(shù)據(jù)大語(yǔ)言模型迅速發(fā)展的同時(shí)，Transformer

開(kāi)始遷移到圖像、視頻和語(yǔ)音等其他模態(tài)數(shù)據(jù)領(lǐng)域，并與大語(yǔ)言模型融合，形成多模態(tài)大模型。多模態(tài)模型模擬人類大腦處理信息的方式，把各種感知模態(tài)結(jié)合起來(lái)，以更全面、綜合的方式理解和生成信息，最終實(shí)現(xiàn)更豐富的任務(wù)和應(yīng)用。從以

Mid-journey

和

Sora

為例的多模態(tài)大模型看，在訓(xùn)練階段需要大量圖像

文本對(duì)、視頻

文本對(duì)等有標(biāo)注數(shù)據(jù)集進(jìn)行訓(xùn)練。圖像

文本對(duì)是包含一張圖像和一段描述該圖像內(nèi)容的文本的數(shù)據(jù)，讓模型學(xué)習(xí)組成圖像的像素之間、文字與圖像的關(guān)聯(lián)。視頻

文本對(duì)包括一個(gè)短視頻和一段描述視頻中發(fā)生事件的文本，讓模型不僅學(xué)習(xí)單個(gè)畫(huà)面，還需要理解視頻中的時(shí)間序列和動(dòng)態(tài)變化。2.3?訓(xùn)練數(shù)據(jù)的常見(jiàn)疑問(wèn)和誤解2.3.1?大模型訓(xùn)練并不依賴用戶個(gè)人信息人工智能經(jīng)歷了從有監(jiān)督學(xué)習(xí)到無(wú)監(jiān)督學(xué)習(xí)的發(fā)展階段，神經(jīng)網(wǎng)絡(luò)等技術(shù)推動(dòng)了數(shù)據(jù)驅(qū)動(dòng)的應(yīng)用模式。傳統(tǒng)的決策類人工智能在需求側(cè)通過(guò)學(xué)習(xí)和分析海量的用戶行為數(shù)據(jù)，判斷用戶的偏好和需求。在供給側(cè)通過(guò)學(xué)習(xí)內(nèi)容的特征，借助推薦、排序等機(jī)制實(shí)現(xiàn)需求和內(nèi)容的匹配，并根據(jù)用戶的行為反饋進(jìn)行優(yōu)化，提高算法的準(zhǔn)確性。以個(gè)性化搜索為例，以大量的用戶使用記錄、用戶畫(huà)像、內(nèi)容畫(huà)像等原始數(shù)據(jù)為基礎(chǔ)，提煉出客群和內(nèi)容標(biāo)簽等不同維04度的信息，進(jìn)而抽象出特征向量，用向量的空間距離計(jì)算用戶和內(nèi)容的相似度，通過(guò)匹配與排名進(jìn)行個(gè)性化的搜索結(jié)果召回。基于上述特點(diǎn)，此類決策式人工智能技術(shù)在需求側(cè)需要更多用戶數(shù)據(jù)，在供給側(cè)依賴更為全面的內(nèi)容特征。與以前的決策類人工智能相比，以大模型為代表的生成式人工智能的技術(shù)特征有明顯差異。大模型是模擬人類的思維活動(dòng)方式生成人類可以理解和使用的內(nèi)容，而訓(xùn)練數(shù)據(jù)也是基于世界知識(shí)，對(duì)語(yǔ)料庫(kù)等知識(shí)性內(nèi)容有強(qiáng)烈需求，因此大模型訓(xùn)練階段不依賴個(gè)人信息等原始數(shù)據(jù)。此外，為保證生成內(nèi)容與人類價(jià)值觀對(duì)齊，業(yè)界往往利用強(qiáng)化學(xué)習(xí)，通過(guò)納入人工標(biāo)注等機(jī)制優(yōu)化表達(dá)，使模型生成內(nèi)容更接近于人類認(rèn)知。因此大模型對(duì)于用戶數(shù)據(jù)并不依賴，而對(duì)專業(yè)化、高質(zhì)量語(yǔ)料的知識(shí)性內(nèi)容依賴大。由此看出，隨著技術(shù)的演進(jìn)，對(duì)訓(xùn)練數(shù)據(jù)的需求類型也有所不同。然而，有很多人對(duì)此仍存在誤解。根據(jù)第三方專業(yè)機(jī)構(gòu)測(cè)評(píng)顯示，超過(guò)

60%

的受訪者誤選了

“盜取、泄露個(gè)人隱私數(shù)據(jù)的安全風(fēng)險(xiǎn)”

作為大模型的最主要風(fēng)險(xiǎn)點(diǎn)。與一般看法相反，過(guò)量的個(gè)人數(shù)據(jù)會(huì)負(fù)面影響大模型的能力，而過(guò)于個(gè)性化的應(yīng)用也將增加大模型的運(yùn)算負(fù)擔(dān)。對(duì)此，OpenAI

負(fù)責(zé)人

SamAltman

表示，ChatGPT

不需要用戶的個(gè)人數(shù)據(jù)，用戶可以選擇刪除其與

ChatGPT

的交互歷史；類似的，我國(guó)目前主流大模型在提供用戶隱私保護(hù)的基礎(chǔ)上，并不過(guò)度收集和使用用戶個(gè)人信息，并允許用戶控制和刪除其與大模型交互的對(duì)話和提供的內(nèi)容。當(dāng)然，在大模型的推理階段，如果用戶惡意誘導(dǎo)，盡管有相應(yīng)的模型安全機(jī)制，仍不能完全避免個(gè)人信息泄露的問(wèn)題。但可以明確的是，大模型在訓(xùn)練階段并不依賴個(gè)人信息。2.3.2?中文語(yǔ)料短缺不是制約我國(guó)大模型發(fā)展的重要因素談到中文大模型，一個(gè)普遍關(guān)注的問(wèn)題是，中文語(yǔ)料和英文語(yǔ)料在互聯(lián)網(wǎng)中的占比存在顯著差異：在全球網(wǎng)站中，英文占

59.8%，而中文僅占

1.3%，那中文語(yǔ)料供給短缺是否是制約我國(guó)大模型發(fā)展的關(guān)鍵要素呢？在實(shí)踐中發(fā)現(xiàn)，規(guī)模并不是決定性影響因素。一是世界知識(shí)的積累有的屬于客觀事實(shí)，用英文或中文表達(dá)，其原理是一致的。或者說(shuō)，在機(jī)器翻譯質(zhì)量有保障的前提下，可以彌補(bǔ)這部分中文語(yǔ)料的缺少。二是在訓(xùn)練技術(shù)上引入新方法也可以彌補(bǔ)語(yǔ)料供給不足的問(wèn)題。例如通過(guò)合理安排不同語(yǔ)言類型的訓(xùn)練順序，也能讓模型學(xué)習(xí)到供給相對(duì)較少語(yǔ)言的豐富特征。然而有一種類型的中文語(yǔ)料是極為重要且存在短缺的

中式價(jià)值觀類語(yǔ)料。因?yàn)槟Ｐ蜑榱烁玫乩斫饪陀^世界和掌握規(guī)律，需要學(xué)習(xí)大量來(lái)自知識(shí)和價(jià)值觀層的數(shù)據(jù)，它們更多受到人類主觀意志的影響。而大模型是概率分布模型，其使用的數(shù)據(jù)分布將使得模型具備與之相似的人類意志。所以，訓(xùn)練中加入更多代表中式價(jià)值觀的語(yǔ)料，有助于大模型更好地理解和反映中文使用者的文化背景和價(jià)值取向，從而在全球化的背景下保持文化的多樣性和獨(dú)特性。而且此類語(yǔ)料短缺的問(wèn)題也沒(méi)有辦法通過(guò)機(jī)器翻譯彌補(bǔ)，因?yàn)榧词狗g質(zhì)量有保障，仍會(huì)引入源語(yǔ)言的偏見(jiàn)，體現(xiàn)的仍是源語(yǔ)言的價(jià)值觀。總體來(lái)看，文言文、古漢語(yǔ)、電子書(shū)籍等反映優(yōu)秀傳統(tǒng)文化的內(nèi)容，以及主流媒體發(fā)布的能反映本土價(jià)值觀的內(nèi)容，都可視為高質(zhì)量具有中式價(jià)值觀的語(yǔ)料。但目前看，與語(yǔ)料相關(guān)的各環(huán)節(jié)：05大模型訓(xùn)練數(shù)據(jù)白皮書(shū)從積累機(jī)制、數(shù)字化（比如我國(guó)古籍?dāng)?shù)字化率不到

30%），到開(kāi)放共享與開(kāi)發(fā)利用，及訓(xùn)練過(guò)程中機(jī)器算法與編碼系統(tǒng)的建設(shè)，都仍需大量持續(xù)投入精力?？梢?jiàn)，中文語(yǔ)料

“量”

的短缺尚可有解決方案，但中式價(jià)值觀類的語(yǔ)料短缺，則會(huì)成為制約我國(guó)大模型發(fā)展的短板。03科學(xué)理解高質(zhì)量數(shù)據(jù)的含義與作用在生成式人工智能時(shí)代，模型訓(xùn)練的成功與否與所依賴的數(shù)據(jù)質(zhì)量息息相關(guān)。模型的能力很大程度上可以反映出其訓(xùn)練數(shù)據(jù)的質(zhì)量，這也無(wú)疑凸顯了高質(zhì)量數(shù)據(jù)在大模型訓(xùn)練和應(yīng)用中不可替代的重要性。3.1?高質(zhì)量數(shù)據(jù)的重要性由于高質(zhì)量數(shù)據(jù)可以更好地模擬客觀世界，將其作為訓(xùn)練數(shù)據(jù)可以增強(qiáng)模型能力。從技術(shù)層面看，通常用損失函數(shù)來(lái)量化模型預(yù)測(cè)輸出與實(shí)際目標(biāo)之間的不匹配程度。能更好模擬客觀世界的高質(zhì)量數(shù)據(jù)，可以使模型預(yù)測(cè)的概率分布盡可能逼近實(shí)際數(shù)據(jù)的真實(shí)分布，通過(guò)優(yōu)化算法調(diào)整模型參數(shù)，讓模型在訓(xùn)練集上的損失函數(shù)最小。從模型能力表現(xiàn)看，一是高質(zhì)量數(shù)據(jù)可以提升模型的準(zhǔn)確性和穩(wěn)定性。首先，這些數(shù)據(jù)通常包含更準(zhǔn)確和豐富的信息，有助于模型更好地理解數(shù)據(jù)的內(nèi)在結(jié)構(gòu)，掌握世界規(guī)律，提升產(chǎn)出的精準(zhǔn)性。其次，數(shù)據(jù)清洗是提高數(shù)據(jù)質(zhì)量的重要環(huán)節(jié)，包括去重、刪除個(gè)信隱私內(nèi)容、糾正錯(cuò)誤、填補(bǔ)缺失值等，經(jīng)過(guò)清洗的數(shù)據(jù)可以提升訓(xùn)練階段的穩(wěn)定性。二是高質(zhì)量數(shù)據(jù)具有多樣性，可以降低模型對(duì)特定數(shù)據(jù)集的依賴，提升魯棒性和泛化能力。一方面高質(zhì)量數(shù)據(jù)通過(guò)對(duì)現(xiàn)有不同的數(shù)據(jù)加以混合，調(diào)試配比，提升模型執(zhí)行下游任務(wù)的泛化能力。另一方面可以利用數(shù)據(jù)增強(qiáng)等手段有效提升多樣性，即通過(guò)對(duì)現(xiàn)有數(shù)據(jù)進(jìn)行變換或擴(kuò)充，如旋轉(zhuǎn)、縮放、亮度調(diào)整等，生成更多的訓(xùn)練樣本，增加訓(xùn)練數(shù)據(jù)代表性和多樣性。然而，即使在訓(xùn)練各階段中的語(yǔ)料都滿足高質(zhì)量，能做到

“真實(shí)性”、“準(zhǔn)確性”、“客觀性”、“多樣性”

的要求，仍不能完全避免模型結(jié)果產(chǎn)生幻覺(jué)，即

“一本正經(jīng)胡說(shuō)八道”。因?yàn)榇竽Ｐ捅举|(zhì)是概率模型，是基于前文預(yù)測(cè)06下一個(gè)詞出現(xiàn)的概率，“詞語(yǔ)接龍”

出現(xiàn)的下一個(gè)詞并不是

100%

有確定性的。所以高質(zhì)量的語(yǔ)料，可以大幅降低模型結(jié)果產(chǎn)生幻覺(jué)的概率，但并不能完全避免。但如果在訓(xùn)練中使用了較多錯(cuò)誤、有毒、重復(fù)的低質(zhì)量數(shù)據(jù)，則會(huì)對(duì)模型能力產(chǎn)生破壞性影響，也就是人們常說(shuō)的

“GarbageInGarbageOut”，比如沒(méi)有經(jīng)過(guò)嚴(yán)格質(zhì)量篩選的大量社交媒體對(duì)話、用戶生成的內(nèi)容等。在對(duì)模型能力的損害上，使用錯(cuò)誤的數(shù)據(jù)進(jìn)行訓(xùn)練，會(huì)導(dǎo)致模型記憶有偏差信息，發(fā)生事實(shí)性錯(cuò)誤；使用有重復(fù)的語(yǔ)料，則可能會(huì)導(dǎo)致模型在訓(xùn)練過(guò)程中對(duì)特定類型的示例產(chǎn)生偏見(jiàn)，降低生成結(jié)果的多樣性，造成模型能力的顯著下降。由于高質(zhì)量數(shù)據(jù)如此重要，會(huì)引發(fā)對(duì)一系列問(wèn)題的思考，比如我們能否前置制定統(tǒng)一的標(biāo)準(zhǔn)體系，把高質(zhì)量訓(xùn)練數(shù)據(jù)先識(shí)別出來(lái)？數(shù)據(jù)質(zhì)量與模型的能力有什么聯(lián)系？3.2?高質(zhì)量數(shù)據(jù)的標(biāo)準(zhǔn)3.2.1?高質(zhì)量數(shù)據(jù)類型的三重不確定性第一重不確定性來(lái)自于所需的語(yǔ)料種類，其類型是由人類對(duì)模型能力需求決定的，而能力需求又是根據(jù)需要模型所完成的任務(wù)而不斷演變。回溯基礎(chǔ)大模型的發(fā)展歷程，在

2020

年左右，基于

Transformer

架構(gòu)的

GoogleMeena，其目的是讓模型具有生成連貫且有意義內(nèi)容的對(duì)話能力，因此對(duì)話文本被視為最重要的高質(zhì)量數(shù)據(jù)。而隨著技術(shù)路線的演進(jìn)，人們發(fā)現(xiàn)更通用的上下文理解是重點(diǎn)，因此書(shū)籍和科研論文等又被視為高質(zhì)量數(shù)據(jù)。通過(guò)提升其在訓(xùn)練語(yǔ)料中的占比，可以增強(qiáng)模型從文本中捕捉長(zhǎng)距離依賴的能力。隨著人們對(duì)通用人工智能的向往，對(duì)提升通用性能的北極星指標(biāo)

推理能力有幫助的語(yǔ)料，又更加被重視。一種是代碼數(shù)據(jù)，因?yàn)槔锩嫔婕按罅縄f-Then-Else

等條件控制信息；另一種是教材，因?yàn)樯婕傲吮容^詳細(xì)的數(shù)學(xué)推理過(guò)程，和邏輯鏈高度相關(guān)。如果再拓展到行業(yè)模型，根據(jù)對(duì)模型能力的不同需求，語(yǔ)料類型更難以一一列舉。比如，經(jīng)人類標(biāo)注的，由視覺(jué)相似性圖片構(gòu)成的匹配對(duì)數(shù)據(jù)庫(kù)，可以作為高質(zhì)量數(shù)據(jù)用于大模型在廣告領(lǐng)域的訓(xùn)練，通過(guò)更好預(yù)測(cè)用戶需求實(shí)現(xiàn)對(duì)素材點(diǎn)擊率的優(yōu)化。而通過(guò)收集人類駕駛員對(duì)稀有事件（比如駕駛過(guò)程中遇到的復(fù)雜路況、極端天氣、異常行為的人或車輛等場(chǎng)景）的應(yīng)對(duì)數(shù)據(jù)，則可以更好訓(xùn)練完全自動(dòng)駕駛（FSD）模型在不同場(chǎng)景中的處理能力。由此看出，由于生成式

在技術(shù)演進(jìn)和應(yīng)用場(chǎng)景拓展中具有不確定性，模型對(duì)所需要語(yǔ)料類型也在發(fā)生變化，“高質(zhì)量語(yǔ)料”

的類型和范圍也在不斷拓展。第二重不確定性來(lái)自于語(yǔ)料形態(tài)的演化，高質(zhì)量數(shù)據(jù)的形態(tài)會(huì)不斷增強(qiáng)，以強(qiáng)化該類型語(yǔ)料的能力。一方面隨著合成數(shù)據(jù)和數(shù)據(jù)增強(qiáng)技術(shù)的提升，大模型正在不斷拓展對(duì)數(shù)據(jù)利用的可能性。如領(lǐng)域知識(shí)生成，對(duì)于大模型難以直接使用的原始數(shù)據(jù)，通過(guò)加工、改造和泛化可以形成模型訓(xùn)練可用的知識(shí)類數(shù)據(jù)。另外，在自動(dòng)駕駛等領(lǐng)域，通過(guò)仿真數(shù)據(jù)生成更多樣化、不同視角的物理世界用于模型訓(xùn)練，可以提升針對(duì)特定場(chǎng)景的數(shù)據(jù)收集效率，彌補(bǔ)真實(shí)07大模型訓(xùn)練數(shù)據(jù)白皮書(shū)世界中對(duì)稀有事件觀測(cè)不足的問(wèn)題。另一方面，隨著模型長(zhǎng)上下文建模能力的增強(qiáng)，對(duì)代碼和教材的需求又有了質(zhì)的變化。例如，訓(xùn)練用的代碼數(shù)據(jù)從執(zhí)行單一任務(wù)到倉(cāng)庫(kù)級(jí)，讓模型推理能力從掌握單任務(wù)模塊進(jìn)化到學(xué)習(xí)整體架構(gòu)；訓(xùn)練用的教材從中小學(xué)級(jí)別知識(shí)拓展到大學(xué)，進(jìn)一步增強(qiáng)了復(fù)雜場(chǎng)景下的推理能力。第三重不確定性來(lái)自于不同數(shù)據(jù)類型之間的有效搭配，數(shù)據(jù)調(diào)度對(duì)模型能力起到重要作用。該環(huán)節(jié)強(qiáng)調(diào)對(duì)不同的數(shù)據(jù)加以混合，以提升數(shù)據(jù)集的多樣性。因?yàn)椴煌愋偷臄?shù)據(jù)對(duì)模型能力提升的側(cè)重點(diǎn)不同，各個(gè)數(shù)據(jù)的配比不同，也會(huì)影響模型的泛化能力以及在下游任務(wù)的表現(xiàn)，其中包含兩個(gè)重要環(huán)節(jié)：一是調(diào)整不同配比（數(shù)據(jù)混合），二是不同

數(shù)據(jù)用于訓(xùn)練的順序（數(shù)據(jù)課程）。數(shù)據(jù)的數(shù)據(jù)混合環(huán)節(jié)可以在訓(xùn)練的不同階段設(shè)定配比，在實(shí)踐中不斷嘗試出最優(yōu)的組合。例如在監(jiān)督微調(diào)階段，有研究者從

StackExchange、Reddit等網(wǎng)站中精選高贊語(yǔ)料，配合手工整理的問(wèn)答對(duì)，得到共計(jì)

1000條高質(zhì)量微調(diào)數(shù)據(jù)，以

“少而精”

的數(shù)據(jù)在模型對(duì)齊能力上取得了很好的效果。數(shù)據(jù)混合在實(shí)踐中會(huì)采取不同策略，一是增加數(shù)據(jù)源的多樣性，這對(duì)大模型在下游任務(wù)能力的提升十分關(guān)鍵；二是可以根據(jù)大模型執(zhí)行的目標(biāo)任務(wù)，選擇對(duì)任務(wù)性能產(chǎn)生積極影響的數(shù)據(jù)。數(shù)據(jù)課程環(huán)節(jié)是為了讓大模型更好地學(xué)習(xí)某項(xiàng)技能，對(duì)語(yǔ)料學(xué)習(xí)順序進(jìn)行探索。一般來(lái)說(shuō)，按照技能集合的順序組織預(yù)訓(xùn)練語(yǔ)料（從基礎(chǔ)技能到目標(biāo)技能），比直接從專注于目標(biāo)技能的語(yǔ)料庫(kù)中學(xué)習(xí)更為有效，如從通用或簡(jiǎn)單的例子開(kāi)始，逐步引入更具專業(yè)化或復(fù)雜度的數(shù)據(jù)。3.2.2?同類數(shù)據(jù)的評(píng)估標(biāo)準(zhǔn)并不完全一致對(duì)同類語(yǔ)料的質(zhì)量評(píng)估，往往從質(zhì)量、規(guī)模、多樣性三個(gè)維度出發(fā)。在質(zhì)量上，被視為

“高質(zhì)量”

通常是因?yàn)槠湫畔⒁呀?jīng)通過(guò)了有用性或質(zhì)量篩選，這些大多可以從中做判斷。例如，在語(yǔ)言模型訓(xùn)練中，新聞、科研論文或開(kāi)源代碼項(xiàng)目中的內(nèi)容會(huì)受到專業(yè)標(biāo)準(zhǔn)（如同行評(píng)審）的篩選；常識(shí)性內(nèi)容中，維基百科則經(jīng)受了一群專注編輯者的篩選；而經(jīng)過(guò)篩選的對(duì)話內(nèi)容則是基于用戶的積極互動(dòng)（如在

上獲得的點(diǎn)贊數(shù)量）；在多模態(tài)模型訓(xùn)練中，以視覺(jué)中國(guó)為例，其網(wǎng)站有經(jīng)過(guò)專業(yè)設(shè)計(jì)師篩選的大量圖片和視頻素材，并有對(duì)圖像的光照、構(gòu)圖、藝術(shù)性、美觀性等專業(yè)性標(biāo)注，形成了高質(zhì)量的圖像

視頻

文本對(duì)。其次，對(duì)于無(wú)法從信息直接判斷數(shù)據(jù)質(zhì)量的語(yǔ)料，人們會(huì)嘗試用評(píng)估模型進(jìn)行打分。例如對(duì)大量公開(kāi)的網(wǎng)頁(yè)，通過(guò)先對(duì)少量樣本人工評(píng)價(jià)得到可讀性、幫助性、安全性等指標(biāo)，通過(guò)這些具有代表性的樣本訓(xùn)練評(píng)估模型，將人工定義的評(píng)價(jià)標(biāo)準(zhǔn)轉(zhuǎn)化為機(jī)器可識(shí)別的特征和模式，在此基礎(chǔ)上評(píng)價(jià)語(yǔ)料中所有網(wǎng)頁(yè)信息的質(zhì)量。然而，即使有了前兩種方法，針對(duì)部分語(yǔ)料仍無(wú)法前置判斷其質(zhì)量。如用于領(lǐng)域模型訓(xùn)練的語(yǔ)料，涉及到不同行業(yè)的專業(yè)知識(shí)，缺少統(tǒng)一的判斷標(biāo)準(zhǔn)，往往是在模型訓(xùn)練中不斷檢驗(yàn)其質(zhì)量的高低。從規(guī)?？矗占銐蛞?guī)模的高質(zhì)量語(yǔ)料也非常重要。根據(jù)大模型

“伸縮法則”，當(dāng)模型的參數(shù)或計(jì)算量按比例擴(kuò)大時(shí)，模型性能也與之成比例提升。而隨著參數(shù)規(guī)模的增加，也需要更多數(shù)據(jù)來(lái)訓(xùn)練模型，即模型參數(shù)與訓(xùn)練語(yǔ)料之間也存在類似的比例關(guān)系。需要指出的是，并不是語(yǔ)料規(guī)模越大越好，而是高信息密度的語(yǔ)料規(guī)模越大越好：以

CC（CommonCrawl）和

數(shù)據(jù)集的對(duì)比為例，CC

是一個(gè)有

400TB

的公共網(wǎng)絡(luò)抓取數(shù)據(jù)集，包含了互聯(lián)08網(wǎng)上數(shù)十億網(wǎng)頁(yè)，內(nèi)容非常廣泛但未經(jīng)清洗。而

則是對(duì)

進(jìn)行了過(guò)濾噪聲、重復(fù)內(nèi)容等清洗后的

305GB

數(shù)據(jù)集。經(jīng)評(píng)估發(fā)現(xiàn)基于

訓(xùn)練的模型性能優(yōu)于

CC，這既說(shuō)明了數(shù)據(jù)清洗的重要性，也說(shuō)明了語(yǔ)料規(guī)模不能一味追求大。此外，同類型語(yǔ)料中的多樣性也是值得關(guān)注的問(wèn)題。首先，會(huì)涉及到數(shù)據(jù)集的公平性，從網(wǎng)絡(luò)采集的信息存在對(duì)于弱勢(shì)群體（如種族、性別、職業(yè)、年齡等）不平衡的問(wèn)題，可能會(huì)加劇現(xiàn)有偏見(jiàn)或系統(tǒng)性不平等。在技術(shù)層面上，通過(guò)對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行仔細(xì)地審查和篩選，確保其分布的廣度和均衡性，可以緩解公平性問(wèn)題。另外，同類語(yǔ)料的多樣性也會(huì)影響模型能力，特別是在安全能力建設(shè)方面。真實(shí)世界中潛在隱患的出現(xiàn)往往是偶然事件，相較于對(duì)這些

“不良信息”

的一概刪除，對(duì)這些樣本采用打安全標(biāo)簽的方式，反而有助于提升模型對(duì)安全風(fēng)險(xiǎn)的識(shí)別，增強(qiáng)安全防護(hù)能力。針對(duì)不同類型的高質(zhì)量語(yǔ)料，意味著其在語(yǔ)料類型、語(yǔ)料形態(tài)以及語(yǔ)料搭配使用三個(gè)層面存在不確定性。而針對(duì)同類型的語(yǔ)料，又涉及到從質(zhì)量、規(guī)模、多樣性三方面的綜合考量，對(duì)高質(zhì)量并沒(méi)有統(tǒng)一的評(píng)估標(biāo)準(zhǔn)。就像生成式人工智能技術(shù)的發(fā)展路徑充滿不確定性一樣，對(duì)高質(zhì)量數(shù)據(jù)的判斷，也同樣沒(méi)有人擁有

“上帝視角”，可以精準(zhǔn)前置預(yù)知高質(zhì)量的標(biāo)準(zhǔn)，來(lái)決定哪些是未來(lái)的高質(zhì)量數(shù)據(jù)。因此，在對(duì)高質(zhì)量數(shù)據(jù)的理解上，應(yīng)認(rèn)識(shí)到對(duì)高質(zhì)量并不適合被前置的客觀標(biāo)準(zhǔn)定義?！案哔|(zhì)量”

更多是一種主觀判斷，它的標(biāo)準(zhǔn)取決于模型的應(yīng)用目的，數(shù)據(jù)類型會(huì)根據(jù)模型的發(fā)展階段

“因時(shí)而動(dòng)”、根據(jù)技術(shù)人員的理解判斷

“因人而異”、根據(jù)模型的訓(xùn)練效果

“因效而定”。因此，所謂

“高質(zhì)量標(biāo)準(zhǔn)”

的制定，至多也只是對(duì)同類型數(shù)據(jù)在質(zhì)量維度評(píng)估提供一種參考，對(duì)模型訓(xùn)練的價(jià)值有限。04合成數(shù)據(jù)作為解決訓(xùn)練數(shù)據(jù)供給不足的新方案4.1?訓(xùn)練數(shù)據(jù)供給不足帶來(lái)的思考在生成式人工智能技術(shù)不斷發(fā)展的趨勢(shì)下，訓(xùn)練數(shù)據(jù)是人們最關(guān)心的問(wèn)題之一。上節(jié)以政府和社會(huì)力量的視角展開(kāi)。本節(jié)以已經(jīng)使用的數(shù)據(jù)源和正在探索的新數(shù)據(jù)源視角展開(kāi)。在已經(jīng)使用的訓(xùn)練語(yǔ)料中，有用于語(yǔ)言大模09大模型訓(xùn)練數(shù)據(jù)白皮書(shū)型訓(xùn)練的文本數(shù)據(jù)，包括網(wǎng)頁(yè)信息、書(shū)籍、科研論文、知識(shí)百科、專業(yè)問(wèn)答、代碼以及領(lǐng)域知識(shí)，也有用于多模態(tài)模型的圖片、視頻、音頻等媒體數(shù)據(jù)。根據(jù)

EpochAI

的估算，書(shū)籍、科研論文等高質(zhì)量語(yǔ)言數(shù)據(jù)集可能會(huì)在2024

年前耗盡。人們正在積極探索新數(shù)據(jù)源，以緩解訓(xùn)練語(yǔ)料可能面臨不足的問(wèn)題。一種思路是將未數(shù)字化的知識(shí)數(shù)字化，如在最新發(fā)布的

Claude3

中，提到了將大量未數(shù)字化的書(shū)籍和資料做數(shù)字化處理，成為模型可讀取的訓(xùn)練語(yǔ)料。還可利用機(jī)器感知數(shù)據(jù)，比如將無(wú)人車、無(wú)人機(jī)、其他智能硬件設(shè)備等生成的大量物理世界數(shù)據(jù)用于訓(xùn)練。另一種思路是利用模型或算法，批量生成新數(shù)據(jù)，比如合成數(shù)據(jù)，然后利用它們訓(xùn)練模型。近期，合成數(shù)據(jù)在大模型訓(xùn)練和應(yīng)用的話題引起了廣泛關(guān)注。一方面，高質(zhì)量的合成數(shù)據(jù)可以作為真實(shí)數(shù)據(jù)的補(bǔ)充和替代，模擬現(xiàn)實(shí)世界的復(fù)雜性和多樣性，被視為擴(kuò)展模型學(xué)習(xí)范圍與能力的重要手段。另一方面，合成數(shù)據(jù)的生成過(guò)程可能存在偏差或噪聲，導(dǎo)致其質(zhì)量和真實(shí)性無(wú)法完全模擬客觀世界。由此引出一系列值得深入討論的問(wèn)題：對(duì)于合成數(shù)據(jù)的價(jià)值，它能否拓展大模型能力的邊界？又是否能替代真實(shí)數(shù)據(jù)，緩解優(yōu)質(zhì)數(shù)據(jù)供給不足的問(wèn)題？此外，合成數(shù)據(jù)能否通過(guò)對(duì)現(xiàn)有數(shù)據(jù)的深加工，將之前不能被用于訓(xùn)練的數(shù)據(jù)轉(zhuǎn)化為可用，提升模型對(duì)數(shù)據(jù)利用的可能性？而對(duì)于合成數(shù)據(jù)的風(fēng)險(xiǎn)，人們也會(huì)擔(dān)憂是否會(huì)出現(xiàn)

“大模型自己產(chǎn)生數(shù)據(jù)進(jìn)行自我訓(xùn)練”

的循環(huán)，導(dǎo)致初始偏差被不斷放大，最終使模型失控？這種新數(shù)據(jù)源還會(huì)帶來(lái)哪些新風(fēng)險(xiǎn)？4.2?合成數(shù)據(jù)的定義合成數(shù)據(jù)是通過(guò)算法和數(shù)學(xué)模型創(chuàng)建的。首先建模真實(shí)數(shù)據(jù)的分布，然后在該分布上進(jìn)行采樣，創(chuàng)建出新數(shù)據(jù)集，模擬真實(shí)數(shù)據(jù)中的統(tǒng)計(jì)模式和關(guān)系。合成數(shù)據(jù)類似于數(shù)據(jù)的

“替身演員”，發(fā)揮補(bǔ)充或替代真實(shí)數(shù)據(jù)的作用。在機(jī)器學(xué)習(xí)和人工智能領(lǐng)域，合成數(shù)據(jù)可以為模型提供訓(xùn)練材料，幫助它們學(xué)習(xí)、理解和預(yù)測(cè)。需要注意的是，如果生成過(guò)程設(shè)計(jì)不當(dāng)，合成數(shù)據(jù)也可能缺乏保真度，對(duì)客觀世界的模擬出現(xiàn)偏差。4.3?合成數(shù)據(jù)的必要性什么情況下會(huì)用到合成數(shù)據(jù)？本質(zhì)原因是真實(shí)世界中獲取數(shù)據(jù)遇到困難。一是真實(shí)世界中難以觀測(cè)，如罕見(jiàn)病或極端天氣等。利用合成數(shù)據(jù)可以設(shè)計(jì)比真實(shí)數(shù)據(jù)集更廣泛的情況，對(duì)

CornerCase

進(jìn)行模擬，提升訓(xùn)練數(shù)據(jù)集的全面性和多樣性，確保在處理邊緣案例時(shí)也有良好性能，提升模型泛化能力。二是真實(shí)世界中數(shù)據(jù)獲取的成本高，如大模型對(duì)齊訓(xùn)練中需要人類大量的高質(zhì)量反饋。利用合成數(shù)據(jù)可以實(shí)現(xiàn)對(duì)齊流程自動(dòng)化，幾乎不需人類標(biāo)注，大幅節(jié)省成本，提高獲取效率。三是數(shù)據(jù)獲取和處理涉及到真實(shí)世界中的個(gè)信甚至敏感信息，特別是醫(yī)療健康10和金融領(lǐng)域。合成數(shù)據(jù)可以利用差分隱私對(duì)個(gè)體信息

“加噪聲”

等方法，模擬真實(shí)數(shù)據(jù)集的分布，而不模擬其中的真實(shí)個(gè)人信息，實(shí)現(xiàn)對(duì)個(gè)信去標(biāo)識(shí)化。由此歸納出，合成數(shù)據(jù)具有全面性和多樣性、經(jīng)濟(jì)高效、有利于隱私保護(hù)等優(yōu)點(diǎn)。4.4?合成數(shù)據(jù)的生成方法及分類根據(jù)是否基于實(shí)際數(shù)據(jù)集生成，合成數(shù)據(jù)生成方法主要分為兩大類。第一種是基于真實(shí)數(shù)據(jù)集構(gòu)建的：人們會(huì)建立模型以捕獲真實(shí)數(shù)據(jù)的分布特性和結(jié)構(gòu)特征，刻畫(huà)數(shù)據(jù)中的多變量關(guān)系和相互作用。然后從該模型中抽樣或生成合成數(shù)據(jù)。如果模型能很好地代表真實(shí)數(shù)據(jù)，那么合成數(shù)據(jù)將具有與真實(shí)數(shù)據(jù)相似的統(tǒng)計(jì)特性。以

ChatGPT

為例，它深入研究了人類寫(xiě)的數(shù)十億例文本，分析了詞語(yǔ)之間的關(guān)系，并構(gòu)建了一個(gè)模型來(lái)理解它們是如何組合在一起的。在生成文本時(shí)，每一個(gè)單詞的選擇也都取決于它前一個(gè)單詞出現(xiàn)的統(tǒng)計(jì)概率。第二種生成方法并不于真實(shí)數(shù)據(jù)，而是通過(guò)使用現(xiàn)有模型或者人類專業(yè)背景知識(shí)來(lái)創(chuàng)建。現(xiàn)有的模型可以是某個(gè)過(guò)程的統(tǒng)計(jì)模型，也可以是模擬模型。模擬可以通過(guò)游戲引擎等方法創(chuàng)建，如最近火爆的

Sora

文生視頻模型，里面用到了由游戲引擎11大模型訓(xùn)練數(shù)據(jù)白皮書(shū)（Unity、UnrealEngine5

等）合成的視頻數(shù)據(jù)作為訓(xùn)練集，以提高生成質(zhì)量。根據(jù)用于訓(xùn)練的

類型，可以將合成數(shù)據(jù)分為應(yīng)用于生成式

和判別式

訓(xùn)練兩類。應(yīng)用于生成式

訓(xùn)練的通常有媒體合成數(shù)據(jù)，即由模型和算法合成的視頻、圖像或聲音。文本合成數(shù)據(jù)，即在自然語(yǔ)言處理中由模型生成的文本。而判別式

訓(xùn)練（分類或回歸）所需的通常是表格合成數(shù)據(jù)，類似真實(shí)生活中數(shù)據(jù)記錄或表格的合成數(shù)據(jù)。4.5?合成數(shù)據(jù)在模型訓(xùn)練中的作用基礎(chǔ)大模型訓(xùn)練所需的數(shù)據(jù)類型包含兩大類，一是用于預(yù)訓(xùn)練的世界知識(shí)，二是用于對(duì)齊的數(shù)據(jù)。合成數(shù)據(jù)作為真實(shí)數(shù)據(jù)的一種替代，現(xiàn)階段雖然在預(yù)訓(xùn)練占比不高，但未來(lái)發(fā)展?jié)摿薮?，可作為一個(gè)

“新物種”

密切關(guān)注；目前合成數(shù)據(jù)多應(yīng)用于提升對(duì)齊階段的數(shù)據(jù)獲取效率，增強(qiáng)模型安全和可靠性。4.5.1?預(yù)訓(xùn)練語(yǔ)料的新物種模型預(yù)訓(xùn)練階段是通過(guò)大量無(wú)監(jiān)督學(xué)習(xí)構(gòu)建基礎(chǔ)能力，掌握世界的規(guī)律。大語(yǔ)言模型需要各類世界知識(shí)，包括網(wǎng)頁(yè)、書(shū)籍、新聞、代碼等；而多模態(tài)又需要視頻、圖片、音頻等語(yǔ)料。那么合成數(shù)據(jù)作為新物種，能對(duì)模型的訓(xùn)練語(yǔ)料起到哪些補(bǔ)充作用呢？首先，合成數(shù)據(jù)可應(yīng)用于多模態(tài)數(shù)據(jù)的生成。最近火爆的

Sora

文生視頻大模型，里面用到了大量由游戲引擎合成的視頻數(shù)據(jù)作為訓(xùn)練集，以提高生成質(zhì)量。此外，利用模擬器生成的多模態(tài)場(chǎng)景數(shù)據(jù)還廣泛應(yīng)用于具身智能機(jī)器人、自動(dòng)駕駛、AIforScience

等場(chǎng)景的訓(xùn)練。利用模擬模型生成多模態(tài)數(shù)據(jù)可以更好滿足模型對(duì)訓(xùn)練數(shù)據(jù)差異化的需求，例如通過(guò)有效

“過(guò)采樣”（隨機(jī)復(fù)制少數(shù)樣例以增大它們的規(guī)模）罕見(jiàn)事件或?yàn)?zāi)難性事件，以確保模型能夠針對(duì)更廣泛的輸入保持魯棒性。而伴隨生成式人工智能走向更通用，模型訓(xùn)練將不僅從文字中學(xué)習(xí)，也會(huì)從聲音、圖片和視頻中學(xué)習(xí)，就更需要多模態(tài)的訓(xùn)練數(shù)據(jù)。因此，我們判斷通過(guò)合成的多模態(tài)數(shù)據(jù)進(jìn)行訓(xùn)練的需求還會(huì)持續(xù)且大幅增加。其次，合成數(shù)據(jù)還可應(yīng)用于高價(jià)值領(lǐng)域知識(shí)的生成。核心是合成數(shù)據(jù)能通過(guò)對(duì)現(xiàn)有數(shù)據(jù)的深加工，將之前不能被用于訓(xùn)練的數(shù)據(jù)轉(zhuǎn)化為可用，提升模型對(duì)數(shù)據(jù)利用的可能性。例如工業(yè)制造領(lǐng)域，利用合成數(shù)據(jù)，可以把生產(chǎn)、制造等工藝流程相關(guān)的原始數(shù)據(jù)，結(jié)合行業(yè)知識(shí)圖譜，轉(zhuǎn)化為可供大模型學(xué)習(xí)的工業(yè)語(yǔ)料，以緩解行業(yè)語(yǔ)料短缺的問(wèn)題。該過(guò)程分為三步：一是將原始數(shù)據(jù)（Data）轉(zhuǎn)變?yōu)樾畔ⅲ↖nformation）：即將非自然語(yǔ)言描述的內(nèi)容（如工藝生產(chǎn)中的操作行為或時(shí)序數(shù)據(jù)）轉(zhuǎn)化為大模型可讀的結(jié)構(gòu)化信息（操作記錄）。二是將信息提煉為知識(shí)（Knowledge）：僅有操作記錄并不能直接提供有效知識(shí)，但將多條結(jié)構(gòu)化信息與行業(yè)的知識(shí)圖譜、專家經(jīng)驗(yàn)相結(jié)12合，可以產(chǎn)出有價(jià)值的行業(yè)知識(shí)（如在什么溫度下應(yīng)該如何操作，好處是什么）。三是將得到的知識(shí)泛化：利用大模型的推理能力，將相對(duì)單一的知識(shí)進(jìn)行多樣性拓展，積累更豐富的行業(yè)語(yǔ)料。由此看出，大模型可以利用原始數(shù)據(jù)、信息、知識(shí)等不同層次的內(nèi)容，打通數(shù)據(jù)利用的模式。我們判斷，通過(guò)合成數(shù)據(jù)拓展對(duì)數(shù)據(jù)利用的可能性，生成領(lǐng)域知識(shí)的趨勢(shì)是

“精”，即對(duì)語(yǔ)料質(zhì)量要求高，且是不可或缺的。因?yàn)榇竽Ｐ椭挥性陬A(yù)訓(xùn)練中學(xué)習(xí)過(guò)領(lǐng)域知識(shí)，才能在后期利用行業(yè)語(yǔ)料進(jìn)行

SFT

訓(xùn)練時(shí)激發(fā)出更好的效果，更容易應(yīng)用于垂直領(lǐng)域。綜上，我們認(rèn)為合成數(shù)據(jù)作為預(yù)訓(xùn)練語(yǔ)料的新物種，發(fā)展?jié)摿薮?，特別是在多模態(tài)數(shù)據(jù)和領(lǐng)域知識(shí)生成方面值得密切關(guān)注。4.5.2?提升對(duì)齊語(yǔ)料獲取效率的對(duì)齊數(shù)據(jù)以人類高質(zhì)量反饋為主，包含監(jiān)督微調(diào)階段和基于人類反饋的強(qiáng)化學(xué)習(xí)。此方法主要在以下幾方面遇到問(wèn)題：一是數(shù)據(jù)獲取的成本更高，二是人類評(píng)估的準(zhǔn)確性和一致性，三是模型通常選擇避免回答敏感和有爭(zhēng)議的問(wèn)題，降低模型的整體效用。如果引入合成數(shù)據(jù)作為真實(shí)數(shù)據(jù)的補(bǔ)充和替代，能否緩解這些問(wèn)題呢？合成數(shù)據(jù)最大的優(yōu)勢(shì)是可以大幅提升對(duì)齊數(shù)據(jù)的獲取效率，“如果掌握了合成數(shù)據(jù)技術(shù)，對(duì)齊的成本可能會(huì)降低好幾個(gè)數(shù)量級(jí)，或用一樣的投入產(chǎn)生更大數(shù)量級(jí)的數(shù)據(jù)，競(jìng)爭(zhēng)格局就會(huì)發(fā)生變化”。這種對(duì)合成數(shù)據(jù)的應(yīng)用是13大模型訓(xùn)練數(shù)據(jù)白皮書(shū)“從人工智能反饋中進(jìn)行強(qiáng)化學(xué)習(xí)（RLAIF）”。通常是用一個(gè)較大規(guī)模模型產(chǎn)出合成數(shù)據(jù)，生成指令及輸入和輸出樣本，過(guò)濾掉無(wú)效或重復(fù)信息，自動(dòng)化微調(diào)出性能較好的小模型，全過(guò)程中幾乎無(wú)需人類標(biāo)注。這不僅大幅降低了標(biāo)注成本，也能緩解人工對(duì)齊導(dǎo)致模型對(duì)敏感問(wèn)題拒答的情況。例如斯坦福大學(xué)發(fā)布的

億參數(shù)對(duì)話大模型Alpaca，正是采用此類自我指導(dǎo)（Self-instruct）方法，用

OpenAI

的

API

自動(dòng)生成指令數(shù)據(jù)進(jìn)行微調(diào)。還有一種基于

RLAIF新思路探索，希望在不引入外部模型的前提下實(shí)現(xiàn)自動(dòng)化微調(diào)。例如自我對(duì)局（Self-play），在滿足一定條件時(shí)，利用合成數(shù)據(jù)進(jìn)行自我對(duì)抗微調(diào)（t+1

代的模型嘗試將

代模型的輸出與真人的輸出區(qū)分開(kāi)），得到了比

RLHF更好的效果。再如

Claude3用到的憲法式

AI，讓

AI系統(tǒng)在遵循預(yù)先設(shè)定的原則下，使用模型自身生成的反饋和修正意見(jiàn)來(lái)進(jìn)行自我改進(jìn)，得到一個(gè)既能生成無(wú)害內(nèi)容，又不規(guī)避有害問(wèn)題的模型。同時(shí)另一種對(duì)合成數(shù)據(jù)的應(yīng)用是

“從人類和人工智能反饋中進(jìn)行強(qiáng)化學(xué)習(xí)（RLHAIF）”，該方法整合了人類和

元素以提供監(jiān)督。有研究表明，在利用

協(xié)助人類評(píng)估模型有效性時(shí)，模型生成的批評(píng)有助于人類發(fā)現(xiàn)可能錯(cuò)過(guò)的缺陷，提高人類評(píng)估的準(zhǔn)確性。4.6?解決訓(xùn)練數(shù)據(jù)供給不足的新方案高質(zhì)量數(shù)據(jù)是大模型技術(shù)發(fā)展的主要瓶頸之一，可供大模型學(xué)習(xí)的數(shù)據(jù)類型較多，但能夠進(jìn)一步拓展大模型知識(shí)邊界、推動(dòng)大模型推理、泛化等關(guān)鍵能力提升的數(shù)據(jù)更多偏向于視頻、圖片等多模態(tài)數(shù)據(jù)，以及特定行業(yè)中的領(lǐng)域知識(shí)數(shù)據(jù)。此類數(shù)據(jù)主要來(lái)自于人類的創(chuàng)造、制作和經(jīng)驗(yàn)積累，其規(guī)模、類型和質(zhì)量因客觀條件的不同存在較大差異。在大模型強(qiáng)大的無(wú)監(jiān)督數(shù)據(jù)學(xué)習(xí)能力面前，大模型的數(shù)據(jù)需求快速經(jīng)歷了從量到質(zhì)的轉(zhuǎn)換，能夠被大模型更為直接地利用、可以進(jìn)一步提升大模型關(guān)鍵能力、幫助大模型生成內(nèi)容更符合人類習(xí)慣和要求的高質(zhì)量數(shù)據(jù)，成為了最為關(guān)鍵的數(shù)據(jù)類型。對(duì)于提高此類高質(zhì)量訓(xùn)練數(shù)據(jù)的供給，現(xiàn)行的主要方案?jìng)?cè)重于構(gòu)建更為開(kāi)放、包容的高質(zhì)量數(shù)據(jù)源，包括建立具有公共或準(zhǔn)公共屬性的高質(zhì)量數(shù)據(jù)集，鼓勵(lì)行業(yè)數(shù)據(jù)的進(jìn)一步共享，放寬對(duì)于訓(xùn)練數(shù)據(jù)的權(quán)屬保護(hù)規(guī)則等。而合成數(shù)據(jù)為模型數(shù)據(jù)供給提供了新的技術(shù)方案，將合成數(shù)據(jù)應(yīng)用于大模型訓(xùn)練數(shù)據(jù)中，可以從以下三個(gè)方面幫助解決高質(zhì)量訓(xùn)練數(shù)據(jù)供給不足的問(wèn)題。其一，合成數(shù)據(jù)解決了部分類型的真實(shí)世界數(shù)據(jù)難以觀測(cè)的問(wèn)題，拓展了訓(xùn)練數(shù)據(jù)的多樣性。傳統(tǒng)上看，通過(guò)生成

“邊緣情況”（如極端天氣、罕見(jiàn)?。┗蛘哒鎸?shí)世界中的

“潛在隱患”（如金融詐騙等安全風(fēng)險(xiǎn)），可以彌補(bǔ)因?yàn)闃颖痉植疾痪鈱?dǎo)致的客觀限制。在輸入端糾正數(shù)據(jù)在采集和處理過(guò)程中引入的偏誤，提高數(shù)據(jù)分布的合理性和客觀性。面向未來(lái)，利用合成數(shù)據(jù)技術(shù)生成的仿真數(shù)據(jù)（如游戲引擎生成的視頻），以及對(duì)于大模型難以直接使用數(shù)據(jù)的加工和改造形成的新型數(shù)據(jù)（如領(lǐng)域知識(shí)），可以提升模型對(duì)數(shù)據(jù)利用的可能性，對(duì)于推理、泛化等大模型核心能力的突破將起到更為顯著的作用。其二，合成數(shù)據(jù)和真實(shí)世界的配合使用提高了模型的安全性和可靠性。在

LLM

中，合成數(shù)據(jù)將更為廣泛地應(yīng)14用于模型對(duì)齊階段，可以提升模型對(duì)齊能力，解決基于人類反饋的強(qiáng)化學(xué)習(xí)過(guò)程中人類回答標(biāo)準(zhǔn)不統(tǒng)一，因知識(shí)欠缺造成問(wèn)答準(zhǔn)確性不足，以及人類提供反饋成本較高的問(wèn)題。以高性能模型生成得到的高質(zhì)量合成數(shù)據(jù)，以知識(shí)蒸餾的方式幫助輕量級(jí)模型進(jìn)一步的監(jiān)督學(xué)習(xí)，并為下游開(kāi)發(fā)提供準(zhǔn)確、高效的對(duì)齊數(shù)據(jù)，從整體上提高各種規(guī)模尺寸模型的性能，促進(jìn)模型安全。在圖像領(lǐng)域，合成數(shù)據(jù)可以彌補(bǔ)對(duì)抗樣本稀疏的缺陷，將合成圖像數(shù)據(jù)和普通圖像數(shù)據(jù)按照一定比例進(jìn)行混合，可以提高視覺(jué)模型對(duì)圖片的識(shí)別和判斷能力，即使在普通數(shù)據(jù)樣本完全缺失的情況下，使用合成數(shù)據(jù)進(jìn)行圖像識(shí)別訓(xùn)練，也可以得到接近普通數(shù)據(jù)樣本訓(xùn)練的效果，從而提升圖像識(shí)別的魯棒性。其三，合成數(shù)據(jù)可以替代個(gè)人特征數(shù)據(jù)，有助于用戶隱私保護(hù)，解決數(shù)據(jù)獲取合規(guī)性的問(wèn)題。例如，當(dāng)合成數(shù)據(jù)用于推薦系統(tǒng)，可以降低后者對(duì)個(gè)人信息的依賴。傳統(tǒng)的直接利用個(gè)人行為特征數(shù)據(jù)進(jìn)行推薦，模型并不能從文義角度理解用戶的需求，為了提升

“猜你喜歡”

的準(zhǔn)確度則需要獲取和分析大量的用戶行為特征信息。在推薦系統(tǒng)等涉及個(gè)人隱私信息的判別式模型中，通過(guò)與大模型的結(jié)合可以有效緩解該問(wèn)題。首先，利用生成器自動(dòng)產(chǎn)出個(gè)性化提示詞（即合成數(shù)據(jù)）用于模型優(yōu)化；然后，發(fā)揮大模型對(duì)文義的推理能力，可以更好地預(yù)測(cè)用戶的實(shí)際需求。用戶和大模型進(jìn)行簡(jiǎn)單溝通后，由大模型代為執(zhí)行推薦，在提升推薦匹配度的同時(shí)還可以降低推薦模型對(duì)個(gè)人特征數(shù)據(jù)的依賴。推薦模型不再高度依賴個(gè)人特征信息，也為隱私增強(qiáng)技術(shù)的加入提供了操作空間，在合成數(shù)據(jù)的生成過(guò)程可以加入差分隱私等去標(biāo)識(shí)技術(shù)，推薦系統(tǒng)在不識(shí)別特定用戶的情況下也能良好判斷用戶的實(shí)際需求，進(jìn)行針對(duì)用戶實(shí)際需求而非臆測(cè)性、推斷性的推薦。15大模型訓(xùn)練數(shù)據(jù)白皮書(shū)4.7?在發(fā)展中治理的合成數(shù)據(jù)其一，相比于對(duì)合成數(shù)據(jù)量的擴(kuò)增，在應(yīng)用中要更重視質(zhì)的提升。首先，在語(yǔ)料中使用占比更高的仍然是來(lái)自真實(shí)世界的數(shù)據(jù)集，合成數(shù)據(jù)未被用于大規(guī)模替代真實(shí)數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練。相反，如果此階段過(guò)多引入合成數(shù)據(jù)，可能會(huì)影響訓(xùn)練數(shù)據(jù)分布，從而導(dǎo)致模型對(duì)世界知識(shí)的理解產(chǎn)生偏差。其次，合成數(shù)據(jù)的總體規(guī)模也會(huì)受到模型生成能力和生成速度的限制（例如按照當(dāng)前的合成圖像數(shù)據(jù)生成速度，在

A100GPU

上每個(gè)圖像生成時(shí)間大約為

0.8s；啟用

xformer

時(shí)，在

V100GPU

上每個(gè)圖像的生成時(shí)間約為

秒）。因此，更重要的是關(guān)注生成合成數(shù)據(jù)對(duì)客觀世界模擬的準(zhǔn)確性，更好滿足模型對(duì)訓(xùn)練數(shù)據(jù)差異化的需求，以及拓展模型對(duì)訓(xùn)練數(shù)據(jù)利用的可能性。較為通用的方案是按照一定比例將合成數(shù)據(jù)與真實(shí)世界的數(shù)據(jù)進(jìn)行混合，用于模型優(yōu)化，提升模型準(zhǔn)確性、魯棒性和安全性。其二，合成數(shù)據(jù)本身具備良好的安全性，在后續(xù)使用中較為可靠。用于模型優(yōu)化訓(xùn)練的合成數(shù)據(jù)目的在于替代普通優(yōu)化數(shù)據(jù)提高模型的對(duì)齊能力和垂類應(yīng)用效果，要達(dá)到此目的，合成數(shù)據(jù)安全性和真實(shí)性不低于真實(shí)世界的數(shù)據(jù)，否則使用合成數(shù)據(jù)并不能更好地提升模型性能

——如果合成數(shù)據(jù)的質(zhì)量低于真實(shí)數(shù)據(jù)的數(shù)據(jù)，則可能造成模型性能不升反降，使用合成數(shù)據(jù)的價(jià)值也將大打折扣?，F(xiàn)實(shí)情況來(lái)看，合成數(shù)據(jù)往往也是通過(guò)高性能模型生成而得來(lái)的，此類模型具有良好的安全防護(hù)機(jī)制，能夠有效控制生成內(nèi)容的安全性，因此產(chǎn)生的合成數(shù)據(jù)在下游利用中可靠性良好，不會(huì)帶來(lái)

“數(shù)據(jù)

模型自我循環(huán)”

導(dǎo)致的模型失控問(wèn)題。其三，對(duì)合成數(shù)據(jù)仍需設(shè)置相應(yīng)的安全管控策略，確保模型整體的安全性不會(huì)因?yàn)楹铣蓴?shù)據(jù)的使用而受到影響。一是加強(qiáng)對(duì)合成數(shù)據(jù)質(zhì)量的評(píng)估檢測(cè)。合成數(shù)據(jù)和其他類型的訓(xùn)練數(shù)據(jù)一樣，需要不斷提高準(zhǔn)確性和可靠性，而為了保證合成數(shù)據(jù)具有可用性價(jià)值，其準(zhǔn)確性和可靠性要高于普通的真實(shí)世界數(shù)據(jù)。二是為合成數(shù)據(jù)設(shè)置備用數(shù)據(jù)集。合成數(shù)據(jù)在模型訓(xùn)練中的使用還處于探索階段，需要更為審慎地觀察不同類型、模態(tài)和配比合成數(shù)據(jù)對(duì)模型性能帶來(lái)的影響，并為合成數(shù)據(jù)準(zhǔn)備備用的真實(shí)世界數(shù)據(jù)集，當(dāng)模型能力和安全性評(píng)測(cè)、紅隊(duì)測(cè)試等監(jiān)控指標(biāo)出現(xiàn)異常時(shí)，及時(shí)介入并采用備份的數(shù)據(jù)集繼續(xù)模型訓(xùn)練和應(yīng)用，保證模型的穩(wěn)定性。三是建議對(duì)用于模型優(yōu)化、對(duì)齊的合成數(shù)據(jù)在適當(dāng)環(huán)節(jié)引入人類參與。例如，對(duì)用于對(duì)齊階段生成的問(wèn)答對(duì)和其他媒體格式內(nèi)容，在進(jìn)行模型優(yōu)化前進(jìn)行人工抽檢，確保后續(xù)模型調(diào)優(yōu)和對(duì)齊的質(zhì)量。1605對(duì)大模型訓(xùn)練數(shù)據(jù)治理的思考5.1?大模型對(duì)訓(xùn)練數(shù)據(jù)的使用特點(diǎn)首先，在個(gè)人信息方面，模型訓(xùn)練階段不依賴個(gè)人信息，對(duì)公開(kāi)個(gè)信的使用屬于合理使用。人工智能技術(shù)從依賴個(gè)人信息的決策模型轉(zhuǎn)向以大模型為代表的生成式

AI，反映出數(shù)據(jù)需求的深刻變革。具體而言，大模型的技術(shù)核心在于模擬人類思維進(jìn)行內(nèi)容創(chuàng)造，輸入端的訓(xùn)練數(shù)據(jù)側(cè)重全球知識(shí)和高質(zhì)量語(yǔ)料，而非個(gè)人信息，即便在前端降低個(gè)人信息在訓(xùn)練數(shù)據(jù)中的含量和真實(shí)性，均不會(huì)對(duì)模型最后所展現(xiàn)的性能產(chǎn)生較大影響。其次，即便大模型訓(xùn)練語(yǔ)料中涵蓋個(gè)人信息，大模型研發(fā)者已按照相關(guān)安全要求，采取技術(shù)手段進(jìn)行數(shù)據(jù)清洗、去標(biāo)識(shí)化、匿名化等操作，對(duì)其中所涵蓋的個(gè)人信息進(jìn)行了最大化的去除。而剩余的通過(guò)爬蟲(chóng)等技術(shù)獲取的位于公共領(lǐng)域的個(gè)人數(shù)據(jù)，大模型對(duì)于此部分?jǐn)?shù)據(jù)的使用應(yīng)構(gòu)成合理使用的范疇。其次，大模型對(duì)類訓(xùn)練語(yǔ)料的使用是轉(zhuǎn)換性使用，屬于合理使用或法定許可。大模型對(duì)于作品的使用，并不是以欣賞作品原有價(jià)值為目的而進(jìn)行利用，或?qū)υ凶髌穬?nèi)容進(jìn)行復(fù)制和傳播從而替代原有作品，而是為了掌握客觀規(guī)律并培養(yǎng)模型的基礎(chǔ)能力，就如給人類進(jìn)行教育需要對(duì)其進(jìn)行廣泛的知識(shí)授予一般。有鑒于此，用類數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練，不應(yīng)被視為

“復(fù)制式拷貝”

的侵權(quán)行為，而應(yīng)屬于轉(zhuǎn)換性使用的范疇，并應(yīng)構(gòu)成作品方面做出突破，如歐盟《單一數(shù)字市場(chǎng)“合理使用”

或

“法定許可”。目前，已有法律實(shí)踐在模型訓(xùn)練使用指令》為符合條件的

“文本和數(shù)據(jù)挖掘”

設(shè)置了豁免例外，日本對(duì)《著作權(quán)法》的修訂將

“不以欣賞作品原有價(jià)值為目的”

的大模型數(shù)據(jù)訓(xùn)練納入到合理使用的范疇等。17大模型訓(xùn)練數(shù)據(jù)白皮書(shū)此外，模型訓(xùn)練已經(jīng)盡可能地采取了相關(guān)合規(guī)方案，來(lái)減少生成式人工智能造成知識(shí)產(chǎn)權(quán)侵權(quán)的風(fēng)險(xiǎn)，具體包括：（1）從真實(shí)權(quán)利人處購(gòu)買具有知識(shí)產(chǎn)權(quán)權(quán)利的數(shù)據(jù)庫(kù)；（2）使用有合法授權(quán)的開(kāi)源數(shù)據(jù)集；（3）避免跨越技術(shù)措施的爬取。5.2?大模型訓(xùn)練數(shù)據(jù)合規(guī)的治理之智基于大模型對(duì)訓(xùn)練數(shù)據(jù)的使用特點(diǎn)，應(yīng)構(gòu)建順應(yīng)模型發(fā)展的新時(shí)代的數(shù)據(jù)治理制度。一是重視數(shù)據(jù)的可及性，從輸入端的前置使用限制，替換為輸出端的管控和事后救濟(jì)?！渡墒饺斯ぶ悄芊?wù)管理暫行辦法》從

2023

年

月征求意見(jiàn)至

月正式公布期間，充分考慮了我國(guó)大模型發(fā)展的實(shí)際需要，在訓(xùn)練數(shù)據(jù)合規(guī)方面也適當(dāng)放寬了要求，如刪去訓(xùn)練數(shù)據(jù)

“不含有侵犯知識(shí)產(chǎn)權(quán)”

的表述，調(diào)整為在訓(xùn)練過(guò)程中

“不得侵害他人依法享有的知識(shí)產(chǎn)權(quán)”。我們看到目前新制度的創(chuàng)新嘗試和舊有制度的延續(xù)使用，仍在大模型訓(xùn)練前端的數(shù)據(jù)獲取和使用方面對(duì)模型研發(fā)者施加了較為嚴(yán)苛的前置性合規(guī)要求，如訓(xùn)練數(shù)據(jù)需記錄所有個(gè)人信息并取得個(gè)人知情同意，以及識(shí)別訓(xùn)練數(shù)據(jù)中的知識(shí)產(chǎn)權(quán)侵權(quán)風(fēng)險(xiǎn)語(yǔ)料并進(jìn)行刪除等。此外，訓(xùn)練數(shù)據(jù)的供給不足一定程度上限制了我國(guó)大模型尤其是基礎(chǔ)模型的趕超式發(fā)展，對(duì)于訓(xùn)練數(shù)據(jù)的使用管住輸出端的事后風(fēng)險(xiǎn)、放寬輸入端的事前限制是務(wù)實(shí)的政策選擇。二是提升模型安全訓(xùn)練數(shù)據(jù)的供給，鼓勵(lì)安全類數(shù)據(jù)集的開(kāi)放共享。大模型的能力和表現(xiàn)非常依賴于前端數(shù)據(jù)的輸入，而安全數(shù)據(jù)集作為高質(zhì)量模型訓(xùn)練數(shù)據(jù)之一，具有正外部性，將有助于大模型的人類價(jià)值對(duì)齊，并對(duì)什么是安全和不安全的內(nèi)容，以及怎樣正向地回答這些問(wèn)題進(jìn)行系統(tǒng)性的了解和學(xué)習(xí)。因此，覆蓋全類別、橫跨多領(lǐng)域的安全數(shù)據(jù)集的開(kāi)放共享，將顯著提升人類價(jià)值觀對(duì)齊在性別、職業(yè)、種族、無(wú)障礙領(lǐng)域，并有助于提升大模型后端內(nèi)容生成和輸出的無(wú)毒性、安全性和可靠性，幫助大模型更加得體和正面地應(yīng)對(duì)更廣泛的問(wèn)題。三是應(yīng)用新技術(shù)以提升訓(xùn)練數(shù)據(jù)的合規(guī)性和安全性，比如合成數(shù)據(jù)的使用可以增強(qiáng)對(duì)個(gè)信的保護(hù)。一方面合成數(shù)據(jù)的應(yīng)用可以減少對(duì)具有可識(shí)別性的個(gè)人特征數(shù)據(jù)的依賴，另一方面合成數(shù)據(jù)通過(guò)差分隱私

“加噪聲”

的技術(shù)，可以有效實(shí)現(xiàn)去標(biāo)識(shí)化，從而有助于增強(qiáng)對(duì)個(gè)信的保護(hù)，更好解決數(shù)據(jù)獲取合規(guī)性的問(wèn)題。1806政府與社會(huì)力量協(xié)同的訓(xùn)練數(shù)據(jù)生態(tài)本節(jié)從政府和社會(huì)力量?jī)煞矫嬗懻摯竽Ｐ陀?xùn)練數(shù)據(jù)的。通過(guò)中美對(duì)比的現(xiàn)狀，分析兩者的差異性，以及對(duì)我國(guó)人工智能領(lǐng)域數(shù)據(jù)要素發(fā)展的借鑒作用。從政府視角看，哪些公共數(shù)據(jù)可以支持大模型訓(xùn)練？我們梳理了以下幾種：一是，經(jīng)過(guò)權(quán)威認(rèn)證或凝聚共識(shí)的知識(shí)，如專利文檔、上市公司財(cái)報(bào)、法院判例

裁判文書(shū)、醫(yī)療診斷記錄、政策文本等，除了可用于預(yù)訓(xùn)練語(yǔ)料，還可應(yīng)用于行業(yè)大模型監(jiān)督微調(diào)或外掛語(yǔ)料庫(kù)建設(shè)。二是，具有科研屬性的數(shù)據(jù)，主要特征有長(zhǎng)周期、大規(guī)模、多模態(tài)、清晰、描述詳細(xì)、可使用，如天氣、醫(yī)療、地球科學(xué)、基礎(chǔ)科學(xué)領(lǐng)域等，用于

AIforScience，讓模型提升從復(fù)雜數(shù)據(jù)中提煉規(guī)律，提升精準(zhǔn)預(yù)測(cè)的能力，同時(shí)拓展

大模型在更多領(lǐng)域中應(yīng)用。三是，科研期刊論文，用于提升模型上下文的理解能力和邏輯推理能力。而社會(huì)力量整合政府開(kāi)放數(shù)據(jù)與網(wǎng)絡(luò)公開(kāi)數(shù)據(jù)，在拓展廣度的同時(shí)，提升精細(xì)度和專業(yè)性。“廣”

的層面，社會(huì)力量將公共數(shù)據(jù)與網(wǎng)絡(luò)公開(kāi)數(shù)據(jù)融合后做進(jìn)一步清洗和加工，形成具有多樣性、大規(guī)模、高質(zhì)量特點(diǎn)的預(yù)訓(xùn)練數(shù)據(jù)集。此外，社會(huì)力量還可以通過(guò)合成數(shù)據(jù)等技術(shù)手段，拓展模型對(duì)數(shù)據(jù)使用的可能性?！褒R”

的層面，社會(huì)力量通過(guò)大量高質(zhì)量反饋?zhàn)鰯?shù)據(jù)標(biāo)注，將模型產(chǎn)出與人類價(jià)值觀對(duì)齊?！皩！?/p>

的層面，也會(huì)整合領(lǐng)域知識(shí)和經(jīng)驗(yàn)，促進(jìn)語(yǔ)料的流通和共享，提供行業(yè)大模型所需的高質(zhì)量、專業(yè)性的數(shù)據(jù)供給。由此可見(jiàn)社會(huì)力量在大模型訓(xùn)練語(yǔ)料中所起到的主導(dǎo)作用。那么，美國(guó)與中國(guó)在獲取大模型數(shù)據(jù)方面的做法有哪些不同呢？6.1?美國(guó)的現(xiàn)狀美國(guó)聯(lián)邦政府在公共數(shù)據(jù)中承擔(dān)了

“應(yīng)開(kāi)盡開(kāi)”

的職責(zé)，由社會(huì)力量來(lái)探索數(shù)據(jù)的應(yīng)用。政府開(kāi)發(fā)了專門(mén)針對(duì)AI

訓(xùn)練數(shù)據(jù)的開(kāi)放平臺(tái)，并針對(duì)公共數(shù)據(jù)和科研數(shù)據(jù)進(jìn)行質(zhì)量維護(hù)和運(yùn)營(yíng)管理，在保證數(shù)據(jù)可用性的同時(shí)降低公眾使用門(mén)檻。公共數(shù)據(jù)開(kāi)放的范圍限定在政府?dāng)?shù)據(jù)，包括各級(jí)政府及政府資助的大學(xué)和研究機(jī)構(gòu)。在開(kāi)放共享階段，聯(lián)邦政府會(huì)對(duì)與

相關(guān)的數(shù)據(jù)做標(biāo)識(shí)、在數(shù)據(jù)量大時(shí)做

“上云”

處理、定期更新、分類、清洗、標(biāo)注、結(jié)構(gòu)化、并確定分級(jí)開(kāi)放權(quán)限。在開(kāi)發(fā)利用階段，政府會(huì)提供便捷的用戶檢索服務(wù)、提供數(shù)據(jù)接口19大模型訓(xùn)練數(shù)據(jù)白皮書(shū)（API）。在科研論文方面，設(shè)立

PubMed論文檢索系統(tǒng)，整合國(guó)家醫(yī)學(xué)圖書(shū)館下屬的

個(gè)論文數(shù)據(jù)庫(kù)資源，記錄了3600

萬(wàn)

條生物醫(yī)學(xué)文獻(xiàn)的引用和摘要，并提供原文鏈接。在科研屬性公共數(shù)據(jù)方面，國(guó)家氣象和海洋局（NOAA）從衛(wèi)星、、船舶等每天新產(chǎn)生數(shù)十

TB數(shù)據(jù)，按季度更新

150個(gè)數(shù)據(jù)集，因數(shù)據(jù)量龐大存儲(chǔ)在云端。為方便公眾開(kāi)發(fā)利用，提供了數(shù)據(jù)集

API

接口。在權(quán)威認(rèn)證的知識(shí)方面，如法院的裁判文書(shū)是很好的結(jié)構(gòu)化數(shù)據(jù)，對(duì)于訓(xùn)練法律大模型價(jià)值很高。美國(guó)遵循

“公開(kāi)是原則，不公開(kāi)是例外”

的理念，除了隱去涉及國(guó)家秘密和個(gè)人隱私的信息，聯(lián)邦和地方法院都實(shí)現(xiàn)了公開(kāi)，并提供了

API

接口供調(diào)用。在醫(yī)療領(lǐng)域，含有醫(yī)

患

藥信息的診療記錄、CT

圖片及結(jié)果標(biāo)注構(gòu)成的醫(yī)學(xué)影像數(shù)據(jù)、基因組與疾病篩查數(shù)據(jù)等對(duì)于醫(yī)療大模型訓(xùn)練有較高價(jià)值，以國(guó)立衛(wèi)生研究院（NIH）為主的機(jī)構(gòu)在確保隱私保護(hù)的前提下對(duì)公眾實(shí)現(xiàn)分級(jí)分類開(kāi)放（139

個(gè)醫(yī)療健康數(shù)據(jù)庫(kù)，包含

個(gè)醫(yī)療影像數(shù)據(jù)庫(kù)，擁有超過(guò)

萬(wàn)張

圖像及標(biāo)注對(duì)、20

個(gè)基因組數(shù)據(jù)庫(kù)），供社會(huì)力量使用。美國(guó)的社會(huì)力量整合政府的開(kāi)放數(shù)據(jù)與網(wǎng)絡(luò)的公開(kāi)數(shù)據(jù)，提升數(shù)據(jù)精細(xì)度和專業(yè)性，形成以開(kāi)源為主的高質(zhì)量訓(xùn)練語(yǔ)料。社會(huì)力量主要有開(kāi)源

非盈利組織、互聯(lián)網(wǎng)公司研究部門(mén)、學(xué)界、多類型機(jī)構(gòu)合作組成。數(shù)據(jù)集以開(kāi)源為主，站在前人的肩膀上不斷迭代。以在大模型中被廣泛應(yīng)用的，由開(kāi)源組織

EleutherAI開(kāi)發(fā)的

825GB高質(zhì)量英文語(yǔ)料庫(kù)

ThePile

為例，在

個(gè)子數(shù)據(jù)集中，于政府公共數(shù)據(jù)的有

個(gè)（PubMed

數(shù)據(jù)庫(kù)、商標(biāo)專利數(shù)據(jù)庫(kù)、衛(wèi)生研究院數(shù)據(jù)等），這也體現(xiàn)了語(yǔ)料中不同類型數(shù)據(jù)有效搭配的重要性。在行業(yè)大模型中，社會(huì)力量對(duì)領(lǐng)域數(shù)據(jù)集的專業(yè)性也起到了重要貢獻(xiàn)。以把大模型當(dāng)做大腦來(lái)輔助運(yùn)行的具身智能機(jī)器人為例，GoogleDeepMind20聯(lián)合

家學(xué)術(shù)實(shí)驗(yàn)室，匯集了來(lái)自

22種不同機(jī)器人類型數(shù)據(jù)，涵蓋

100

多萬(wàn)條片段，展示機(jī)器人在

萬(wàn)項(xiàng)任務(wù)上的表現(xiàn)，創(chuàng)建

OpenX-Embodiment開(kāi)源數(shù)據(jù)集?；谠摂?shù)據(jù)集訓(xùn)練的具身智能模型，解決了機(jī)器人在特定任務(wù)專業(yè)而通用能力差的難題，成功率提高

50%，技能表現(xiàn)提高

倍。此外，在合成數(shù)據(jù)領(lǐng)域，美國(guó)的發(fā)展也顯示出積極的趨勢(shì)和廣泛的應(yīng)用前景，比如微軟在其投資組合中就包含了諸如

hazy、Unstructured-IO

等合成數(shù)據(jù)公司。在政府與社會(huì)力量協(xié)同的方面，美國(guó)聯(lián)邦政府發(fā)揮了

訓(xùn)練數(shù)據(jù)

“匯聚融合”

的角色。為鞏固美國(guó)在

領(lǐng)域的競(jìng)爭(zhēng)優(yōu)勢(shì)，由政府主導(dǎo)推動(dòng)為期

年的國(guó)家人工智能研究資源

NAIRR計(jì)劃，讓

研究者獲得更多算力和數(shù)據(jù)資源。計(jì)劃的原則是尊重社會(huì)力量的專業(yè)性，作為經(jīng)營(yíng)主體的指導(dǎo)委員會(huì)中有多位來(lái)自

業(yè)界和學(xué)界的資深人士。NAIRR

在數(shù)據(jù)資源整合中發(fā)揮的作用體現(xiàn)在，聯(lián)邦政府通過(guò)建立數(shù)據(jù)資源服務(wù)平臺(tái)，匯聚政府與社會(huì)力量的開(kāi)源數(shù)據(jù)資源。通過(guò)建立統(tǒng)一的數(shù)據(jù)匯聚標(biāo)準(zhǔn)，規(guī)范數(shù)據(jù)描述格式，促進(jìn)多方數(shù)據(jù)融合。倡導(dǎo)

AI-Friendly

的數(shù)據(jù)兼容性，將數(shù)據(jù)集整理和格式化成易于

算法處理和學(xué)習(xí)的形式，如文檔的電子化程度、版面編排以及相關(guān)數(shù)據(jù)的完整性。同時(shí)推動(dòng)多方協(xié)作的數(shù)據(jù)資源開(kāi)發(fā)利用，如運(yùn)營(yíng)數(shù)據(jù)集社區(qū)、提供數(shù)據(jù)搜索服務(wù)等。6.2?中國(guó)的現(xiàn)狀我國(guó)的公共數(shù)據(jù)采用主體性質(zhì)界分，包含各級(jí)行政機(jī)關(guān)在履行公共管理職能中獲取的數(shù)據(jù)，覆蓋范圍比美國(guó)更廣，但在開(kāi)放共享和開(kāi)發(fā)利用程度上仍有不足。如天氣數(shù)據(jù)的開(kāi)放，在中國(guó)氣象數(shù)據(jù)網(wǎng)查詢地面逐小時(shí)觀測(cè)資料時(shí)，個(gè)人用戶需注冊(cè)，且可選范圍被限定在

天以內(nèi)；而對(duì)比

NOAA，無(wú)需注冊(cè)即可下載，且以地表溫度為例，數(shù)據(jù)最早可追溯到

1951

年。在開(kāi)發(fā)利用中，我國(guó)也僅對(duì)個(gè)別數(shù)據(jù)集提供了

API

接口。再如法律領(lǐng)域，最高人民法院設(shè)立了裁判文書(shū)網(wǎng)，除例外情況外統(tǒng)一公布各級(jí)人民法院的生效判決書(shū)。但近年公開(kāi)的數(shù)量有明顯下降趨勢(shì)，2020

年上網(wǎng)文書(shū)

2300

多萬(wàn)，而

2023

年截至

月僅公開(kāi)

300

萬(wàn)。另

2024

年

月將啟用

“全國(guó)法院裁判文書(shū)庫(kù)”，僅法院人士在內(nèi)網(wǎng)可查詢。在醫(yī)療領(lǐng)域，對(duì)于模型訓(xùn)練價(jià)值較高的醫(yī)療影像、基因組數(shù)據(jù)開(kāi)放程度非常有限，社會(huì)力量的探索呈現(xiàn)

“散點(diǎn)狀”。我國(guó)的社會(huì)力量主要是結(jié)合海外優(yōu)質(zhì)開(kāi)源數(shù)據(jù)集及中文語(yǔ)料，產(chǎn)出訓(xùn)練數(shù)據(jù)集。以阿里巴巴的

“通義千問(wèn)”

大模型為例，訓(xùn)練數(shù)據(jù)來(lái)自公開(kāi)的混合數(shù)據(jù)，以中文和英文為主。而中文語(yǔ)料主要來(lái)自知乎、百度百科、百度知道等公開(kāi)網(wǎng)絡(luò)數(shù)據(jù)，

于政府的公共數(shù)據(jù)非常少。從總體看，中文語(yǔ)料庫(kù)的開(kāi)源情況不如英文普遍，據(jù)

應(yīng)用開(kāi)放社區(qū)

HuggingFace

數(shù)據(jù)統(tǒng)計(jì)，中文開(kāi)源數(shù)據(jù)集數(shù)量?jī)H占英文開(kāi)源的

11%。在行業(yè)大模型中，社會(huì)力量對(duì)行業(yè)數(shù)據(jù)集專業(yè)性有一定貢獻(xiàn)，推動(dòng)了在交通、政務(wù)、醫(yī)療等領(lǐng)域的應(yīng)用。整體看，用領(lǐng)域知識(shí)訓(xùn)練大模型仍面臨困難，第一是領(lǐng)域知識(shí)積累的專業(yè)門(mén)檻高、時(shí)間周期長(zhǎng)。第二是企業(yè)出于商業(yè)利益和知識(shí)產(chǎn)權(quán)考慮，對(duì)領(lǐng)域知識(shí)共享意愿度低。第三是因?yàn)槲覈?guó)公共數(shù)據(jù)開(kāi)放不足，導(dǎo)致部分行業(yè)缺少優(yōu)質(zhì)的數(shù)據(jù)供給。在這種情況下，如果還要試圖縮小已經(jīng)開(kāi)放的公共數(shù)據(jù)范圍，那么高質(zhì)量語(yǔ)料短缺的問(wèn)題將更為突顯。21大模型訓(xùn)練數(shù)據(jù)白皮書(shū)我國(guó)尚未形成對(duì)大模型提供有效供給的數(shù)

人人文庫(kù)> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

大模型訓(xùn)練數(shù)據(jù)行業(yè)市場(chǎng)前景及投資研究報(bào)告：培訓(xùn)課件

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

大模型訓(xùn)練數(shù)據(jù)行業(yè)市場(chǎng)前景及投資研究報(bào)告：培訓(xùn)課件

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔